CN110070140A

CN110070140A - 基于多类别信息的用户相似性确定方法及装置

Info

Publication number: CN110070140A
Application number: CN201910348567.0A
Authority: CN
Inventors: 徐恪; 赵乙
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-07-30
Anticipated expiration: 2039-04-28
Also published as: CN110070140B

Abstract

本发明提出一种基于多类别信息的用户相似性确定方法及装置，其中，该方法包括：在将不同类别信息得到统一形式表示在扩展邻接矩阵后，利用第一扩展邻接矩阵，获取第一用户的行向量和第二用户的行向量，并改进的深度自编码网络对数据进行特征提取，为第一用户以及第二用户产生一个高度抽象的特征表示。随后，利用预先训练好的改进的孪生神经网络模型来学习高度抽象的特征之间的差异，以确定出第一用户和第二用户之间的相似度。由此，通过不同类别之间的优势互补，结合用户的不同类别信息，准确地计算出了用户之间的相似度，为后续准确向用户进行信息推荐奠定了基础。

Description

基于多类别信息的用户相似性确定方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种基于多类别信息的用户相似性确定方法及装置。

背景技术

随着移动互联网技术的快速发展，基于移动互联网的应用如雨后春笋般飞速发展。因此，移动互联网积累了大量的数据，包括用户之间的在线社交关系数据、朋友圈所添加的位置数据、微博分享的图片和文字等数据。事实上，这些数据一定程度上反映了用户的行为习惯、个性偏好，这些隐藏在数据背后的信息可以用于社交网络中的好友推荐、电商平台中的个性化商品推荐以及信息流广告中的精准广告推荐。这不仅仅能够为服务提供商创造更好的收益，也能够提升用户体验，实现一个更好的网络生态环境。

为了能够利用移动互联网产生的数据来实现更好的信息推送(如好友推荐、商品推荐、广告推荐)，准确确定出用户相似性，对于信息推荐来说是十分重要的。相关技术中，通常采用两种方式进行用户相似性计算，第一种方式，基于图分析的好友相似性计算方法。该方法主要对移动社交网络中的主体以及主体间的关系构建二分图。随后，通过图分析的方法来衡量用户之间的相似性。第二种方式，利用用户的行为数据进行用户相似性计算，基于朋友之间更有可能拥有相似的行为的想法，如用户分享的照片、用户分享的位置轨迹，来进行好友相似性的计算。然而，在实现本发明的过程中，发明人发现相关技术中的上述方式至少存在如下技术问题：上述方法均是单一地依赖一类数据进行用户相似性计算，所确定出的用户相似度的准确性不高，进而造成信息推荐不准确，造成了资源的浪费。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。

为此，本发明的第一个目的在于提出一种基于多类别信息的用户相似性确定方法，该方法通过不同类别信息之间的优势互补，结合用户的不同类别信息，准确地计算出了用户之间的相似度，为后续准确向用户进行信息推荐奠定了基础。

本发明的第二个目的在于提出一种基于多类别信息的用户相似性确定装置。

本发明的第三个目的在于提出一种基于多类别信息的用户相似性确定装置。

本发明的第四个目的在于提出一种计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，根据本发明第一方面实施例提出了一种基于多类别信息的用户相似性确定方法，包括：根据预先构建的第一扩展邻接矩阵，获取第一用户的行向量和第二用户的行向量，所述第一扩展邻接矩阵的各个行向量与系统中的各个用户对应，所述行向量用于描述归一化处理后的第一类别信息以及第二类别信息；根据改进的深度自编码网络，对所述第一用户的行向量和所述第二用户的行向量进行提取，以得到所述第一用户的特征向量和所述第二用户的特征向量；将所述第一用户的特征向量和所述第二用户的特征向量输入到预先训练好的孪生神经网络模型，以通过所述孪生神经网络模型确定所述第一用户与所述第二用户之间的用户相似度。

本发明实施例的基于多类别信息的用户相似性确定方法，在将不同类别信息得到统一形式表示在扩展邻接矩阵后，利用第一扩展邻接矩阵，获取第一用户的行向量和第二用户的行向量，并改进的深度自编码网络对数据进行特征提取，为第一用户以及第二用户产生一个高度抽象的特征表示。随后，利用预先训练好的改进的孪生神经网络模型来学习高度抽象的特征之间的差异，以确定出第一用户和第二用户之间的相似度。由此，通过不同类别信息之间的优势互补，结合用户的不同类别信息，准确地计算出了用户之间的相似度，为后续准确向用户进行信息推荐奠定了基础。

本发明第二方面实施例提出了一种基于多类别信息的用户相似性确定装置，包括：第一获取模块，用于根据预先构建的第一扩展邻接矩阵，获取第一用户的行向量和第二用户的行向量，所述第一扩展邻接矩阵的各个行向量与系统中的各个用户对应，所述行向量用于描述归一化处理后的第一类别信息以及第二类别信息；提取模块，用于根据改进的深度自编码网络，对所述第一用户的行向量和所述第二用户的行向量进行提取，以得到所述第一用户的特征向量和所述第二用户的特征向量；确定模块，用于将所述第一用户的特征向量和所述第二用户的特征向量输入到预先训练好的孪生神经网络模型，以通过所述孪生神经网络模型确定所述第一用户与所述第二用户之间的用户相似度。

本发明实施例的基于多类别信息的用户相似性确定装置，在将不同类别信息得到统一形式表示在扩展邻接矩阵后，利用第一扩展邻接矩阵，获取第一用户的行向量和第二用户的行向量，并改进的深度自编码网络对数据进行特征提取，为第一用户以及第二用户产生一个高度抽象的特征表示。随后，利用预先训练好的改进的孪生神经网络模型来学习高度抽象的特征之间的差异，以确定出第一用户和第二用户之间的相似度。由此，通过不同类别之间的优势互补，结合用户的不同类别信息，准确地计算出了用户之间的相似度，为后续准确向用户进行信息推荐奠定了基础。

本发明第三方面实施例提出了一种基于多类别信息的用户相似性确定装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行本发明第一方面实施例的基于多类别信息的用户相似性确定方法。

本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如本发明第一方面实施例的基于多类别信息的用户相似性确定方法。

本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行本发明第一方面实施例的基于多类别信息的用户相似性确定方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于多类别信息的用户相似性确定方法的流程图；

图2为构建第一扩展邻接矩阵的过程的流程图；

图3为第一类别信息矩阵的示例图；

图4为初始化扩展邻接矩阵的示例图；

图5为训练孪生神经网络模型的过程的流程图；

图6为获取样本集合中各个样本用户各自对应的特征向量的结构示意图。

图7为根据本发明一个实施例的基于多类别信息的用户相似性确定装置的结构示意图；

图8为根据本发明另一个实施例的基于多类别信息的用户相似性确定装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“多个”指两个或两个以上；术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

相关技术中，在进行用户相似度计算时，通常是单一地依赖一类数据进行用户相似度计算，所确定出的用户相似度的准确性不高，进而造成信息推荐不准确，造成了资源的浪费。

为此，本申请提出了一种基于多类别信息的用户相似性确定方法，该实施例的方法，利用一个扩展的邻接矩阵来表示所有用户的多类别信息，如好友信息、位置轨迹等。在类别信息得到统一形式的表示之后，利用改进的深度自编码网络对数据进行特征提取，为每个用户产生一个高度抽象的特征表示。随后，利用预先训练好的改进的孪生神经网络模型(Siamese网络)来学习高度抽象的特征之间的差异与用户之间的相似性的关系，从而能够对系统中任意的两个用户之间的信息进行相似性的计算。由此，通过不同类别之间的优势互补，结合用户的不同类别信息，准确地计算出了用户之间的相似度，为后续准确向用户进行信息推荐奠定了基础。

下面参考附图描述根据本发明实施例的基于多类别信息的用户相似性确定方法及装置。

图1为根据本发明一个实施例的基于多类别信息的用户相似性确定方法的流程图。其中，需要说明的是，该实施例的基于多类别信息的用户相似性确定方法其执行主体为基于多类别信息的用户相似性确定装置，该执行主体由硬件和/或软件组成。基于多类别信息的用户相似性确定装置具体可以为硬件设备，例如终端设备、后台服务器等，或者硬件设备上安装的软件或应用程序等，该实施例对此限定。

如图1所示，本实施例的基于多类别信息的用户相似性确定方法，可以包括。

步骤101，根据预先构建的第一扩展邻接矩阵，获取第一用户的行向量和第二用户的行向量。

其中，第一扩展邻接矩阵的各个行向量与系统中的各个用户对应，行向量用于描述归一化处理后的第一类别信息以及第二类别信息。

也就是说，本实施例利用一个扩展邻接矩阵来表示系统中所有的用户以及每个用户相关的第一类别信息和第二类别信息。

可以理解的是，所搜集到的用户的信息分为多种类别，例如，社交关系信息，用户行为信息等。

本实施例以第一类别信息社交关系信息、第二类别信息为用户行为信息为例进行描述。

其中，用户行为信息可以包括用户分享的照片、用户分享的位置轨迹、用户搜索记录、浏览记录等细化类型，在实际应用中可以根据实际应用需求将用户的信息进行更为细致的分类，该实施例对此不作限定。

其中，上述第一扩展邻接矩阵是预先构建的，下面结合图2对该实施例构建第一扩展邻接矩阵的过程进行示意性描述。

如图2所示，可以包括：

步骤121，根据系统中用户之间的第一类别信息，得到第一类别信息矩阵。

其中，第一类别信息矩阵为将第一类别信息统一表示在矩阵中后所得到的矩阵。也就是说，将系统中所有用户的第一类别信息进行统一表示后，所得到的矩阵，即为第一类别信息矩阵。

以第一类别信息为社交关系信息为例，对于用户之间的好友关系，可以抽象为一个二分图其中代表系统中N个用户的集合，ε＝{e_i,j|i∈[1,N],j∈[1,N]}代表系统中所有用户中每两个用户之间的关系。具体来说，e_i,j＝1表示用户u_i与u_j之间存在好友关系，e_i,j＝0表示用户u_i与u_j之间不存在好友关系。依据二分图，第一类别信息矩阵的示例，如图3所示。

其中，可以理解的是，图3中的实心的部分表示存在好友关系，空心的部分表示不存在好友关系。

步骤122，根据系统中用户之间的第二类别信息，得到第二类别信息矩阵。

其中，第二类别信息矩阵为将第二类别信息统一表示在矩阵中后所得到的矩阵。也就是说，将系统中所有用户的第二类别信息进行统一表示后，所得到的矩阵，即为第二类别信息矩阵。

步骤123，将第一类别信息矩阵和第二类别信息矩阵进行拼接，以得到初始化扩展邻接矩阵。

作为一种可能的实现方式，可在第一类别信息矩阵的右侧继续增加第一类别信息矩阵，以形成初始化化邻接矩阵。比如，用户行为信息包括用户去过哪些位置。表示系统中所有的位置id的集合，共计M个位置，而用户去过某一个地方的次数作为扩展信息的具体值，其中，拼接之后所得到的初始化扩展邻接矩阵的示例图，如图4所示。

其中，可以理解的是，以图4所示的初始化扩展邻接矩阵为例，初始化之后的扩展邻接矩阵表示为A＝{a_i,j|i∈[1,N],j∈[1,N+M]}。

步骤124，对初始化扩展邻接矩阵中的第一类别信息矩阵中的元素值进行归一化处理，并对初始化扩展邻接矩阵的第二类别信息矩阵中的元素值进行归一化处理。

在本实施例中，为了能够消除不同类别数据的度量尺度的差异，对于每个用户，分别针对不同类别的数据进行归一化操作，将整个初始化扩展邻接矩阵中的所有值都变成0到1之间的值。

继续以上述举例进行描述，对初始化扩展邻接矩阵中的社交关系部分，局部归一化之后的值为类似地，其它类别信息也需要归一化。比如，位置信息的部分归一化之后的值为

步骤125，获取每个用户各自对应的第一类别信息权重和第二类别信息权重。

第一类别信息权重是指第一类别信息的权重。

第二类别信息权重是指第二类别信息的权重。

在局部归一化之后，由于不同类别信息的丰富程度不同，在本实施例依据不同类别的丰富程度，预先确定不同类别信息的权重。

步骤126，根据每个样本用户各自对应的第一类别信息权重和第二类别信息权重对初始化进行整体归一化处理，以得到第一扩展邻接矩阵。

以社交信息和位置信息为例，二者的权重分别为和其中，F_i表示用户u_i存在的好友数量的总数，表示系统中平均每个用户拥有的好友数量。类似地，C_i表示用户u_i去过的所有位置的次数之和，表示系统中平均每个用户分享位置信息的次数。在确定了权重之后，将每个用户的权重与步骤124的结果中对应的部分相乘得到最终的第一扩展邻接矩阵

步骤102，根据改进的深度自编码网络，对第一用户的行向量和第二用户的行向量进行提取，以得到第一用户的特征向量和第二用户的特征向量。

其中，改进的深度自编码网络可以基于对样本集合中的样本数据进行训练而得到，对于训练改进的深度自编码网络的过程，将在后续实施例中描述。

步骤103，将第一用户的特征向量和第二用户的特征向量输入到预先训练好的孪生神经网络模型，以通过孪生神经网络模型确定第一用户与第二用户之间的用户相似度。

需要说明的是，关于孪生神经网络模型的训练可参见后续实施例的相关部分。

在本实施例中，在确定第一用户与第二用户之间的用户相似度之后，为了可向用户进行信息推荐，作为一种示例性的实施方式，可判断确定出的用户相似度是否超过预设阈值，如果超过，则确定第一用户与第二用户为相似用户。另外，在确定出第一用户和第二用户为相似用户后，还可以结合相似用户的信息对用户进行推荐。

本申请实施例的基于多类别信息的用户相似性确定方法，在将不同类别信息得到统一形式表示在扩展邻接矩阵后，利用第一扩展邻接矩阵，获取第一用户的行向量和第二用户的行向量，并改进的深度自编码网络对数据进行特征提取，为第一用户以及第二用户产生一个高度抽象的特征表示。随后，利用预先训练好的改进的孪生神经网络模型来学习高度抽象的特征之间的差异，以确定出第一用户和第二用户之间的相似度。由此，通过不同类别之间的优势互补，结合用户的不同类别信息，准确地计算出了用户之间的相似度，为后续准确向用户进行信息推荐奠定了基础。

下面结合图5对训练孪生神经网络模型的过程进行描述。

如图5所示，可以包括：

步骤501，获取样本集合中各个样本用户各自对应的特征向量。

在本实施例中，获取样本集合中各个样本用户各自对应的特征向量，可以通过多种方式实现，举例说明如下：

作为一种示例，可预先保存样本用户与特征向量的对应关系，根据该对应关系，获取样本集合中各个样本用户各自对应的特征向量。

作为另一种示例，在本示例中，如图6所示，步骤501可以包括：

步骤601，获取与样本集合对应的第二扩展邻接矩阵，第二扩展邻接矩阵的各个行向量与样本集合中的各个样本用户对应。

其中，行向量用于描述归一化处理后的第一类别信息以及第二类别信息。

也就是说，本实施例利用一个扩展邻接矩阵来表示样本集合中所有的样本用户以及每个样本用户相关的第一类别信息和第二类别信息。

在本实施例的一个实施例中，在获取与样本集合对应的第二扩展邻接矩阵之前，可根据样本集合中样本用户的第一类别信息和第二类别信息，预先构建第二扩展邻接矩阵。

作为一种可能的实现方式，构建第二扩展邻接矩阵的过程可以包括：

步骤a，获取样本集合的第一类别信息矩阵和第二类别信息矩阵，样本集合中的各个样本用户与第一类用户矩阵的每行对应，样本集合中的各个样本用户与第二类用户矩阵的每行对应。

步骤b，将第一类别信息矩阵和第二类别信息矩阵进行拼接，以得到第一候选扩展邻接矩阵。

步骤c，对第一候选扩展邻接矩阵中的第一类别信息矩阵中的元素值进行归一化处理，并对第一候选扩展邻接矩阵中的第二类别信息矩阵中的元素值进行归一化处理，以得到第二候选扩展邻接矩阵。

步骤d，获取每个样本用户各自对应的第一类别信息权重和第二类别信息权重。

步骤e，根据每个样本用户各自对应的第一类别信息权重和第二类别信息权重对第二候选扩展邻接矩阵进行整体归一化处理，得到第二扩展邻接矩阵。

其中，需要说明的是，构建第二扩展邻接矩阵的过程，与构建第一扩展邻接矩阵的过程类似，此处不再赘述。

步骤602，根据改进的深度自编码网络，对第二扩展邻接矩阵的每行数据进行特征提取，以得到每个样本用户的特征向量。

步骤502，获取样本集合两两样本用户之间的关系标签，关系标签用于描述样本集合中两两样本用户之间是否存在好友关系。

步骤503，根据样本集合中两两样本用户各自对应的特征向量，以及对应两两样本用户的关系标签，对孪生神经网络模型进行训练。

具体地，在监督学习中，将用户之间的相似性定义为一个二分类问题，所用到的损失函数为：

其中，表示用于训练改进的Siamese网络的样本对的集合，P表示集合的规模。ψ表示改进的Siamese网络的参数，y_r表示真实的标签，表示网络计算得出的用户之间相似性的值。

其中，改进的Siamese网络是一个孪生网络(即双胞胎网络)，包含两个结构一致参数相同的网络，分别为两个网络输入两个不同用户的特征向量以及是否存在好友关系的标签。

需要说明的是，在此方法的训练阶段，可以将存在好友关系的两个用户之间的相似性为1，不存在好友关系用户之间的相似性为0。在测试阶段，用户的相似性会利用0到1之间的浮点数来表示。通过大规模训练数据的输入，改进的Siamese网络能够实现高度抽象的特征向量之间的相似性计算。

基于上述实施例的基础上，在得到训练后的孪生神经网络模型，还可以通过测试集合中的测试样本对孪生神经网络模型进行测试，以确定孪生神经网络模型的准确度是否超过预设准确度，在准确度超过预设准确度时，确定孪生神经网络模型满足要求，可以将训练好的孪生神经网络模型应用在确定用户相似度的场景中。

为了克服网络的稀疏性，并为每一个用户提取一个高度抽象的特征向量，在本申请的一个实施例中，还可以根据第二扩展邻接矩阵中的每行数据，对改进的深度自编码网络进行训练，直至改进的深度自编码网络的预设损失函数的取值小于预设阈值。

可以理解的是，由于社交网络规模庞大，稀疏特征明显，因此，作为一种实施例的方式，可在均方误差的基础上，增加了对非0元素的误差的惩罚，迫使网络能够学习有效特征，因此，该实施例在训练改进的深度自编码网络使用预设损失函数。

其中，预设损失函数如下：

其中，是为了增加对非零项的惩罚，γ是一个预设的超参数。

表示用于训练改进的深度自编码网络的输入样本集合，也就是大量的用户的信息，第二扩展邻接矩阵中的每行数据都是一个样本。表示改进的深度自编码网络对输入样本的重建。

其中，最小化重建误差的基本思想为，

其中，表示相应的隐含向量的集合。

具体来说，是编码器的输出，随后又作为解码器的输入。而这里的φ和分别表示编码器和解码器的参数。而表示相应的隐含向量的集合。具体来说，是编码器的输出，随后又作为解码器的输入。而这里的φ和分别表示编码器和解码器的参数。基于反向传播的思想调整网络参数，直至重建误差稳定在一定区间内不在有大的变化，说明改进的深度自编码网络训练完毕。

为了实现上述实施例，本发明还提出一种基于多类别信息的用户相似性确定装置。

图7为根据本发明一个实施例的基于多类别信息的用户相似性确定装置的结构示意图。

如图7所示，根据本发明实施例的基于多类别信息的用户相似性确定装置包括第一获取模块110、提取模块120和确定模块130，其中：

第一获取模块110，用于根据预先构建的第一扩展邻接矩阵，获取第一用户的行向量和第二用户的行向量，第一扩展邻接矩阵的各个行向量与系统中的各个用户对应，行向量用于描述归一化处理后的第一类别信息以及第二类别信息。

提取模块120，用于根据改进的深度自编码网络，对第一用户的行向量和第二用户的行向量进行提取，以得到第一用户的特征向量和第二用户的特征向量。

确定模块130，用于将第一用户的特征向量和第二用户的特征向量输入到预先训练好的孪生神经网络模型，以通过孪生神经网络模型确定第一用户与第二用户之间的用户相似度。

在本申请的一个实施例中，在图7所示的装置实施例的基础上，如图8所示，该装置还可以包括：

第二获取模块140，用于获取样本集合中各个样本用户各自对应的特征向量。

第三获取模块150，用于获取样本集合两两样本用户之间的关系标签，关系标签用于描述样本集合中两两样本用户之间是否存在好友关系。

第一训练模块160，用于根据样本集合中两两样本用户各自对应的特征向量，以及对应两两样本用户的关系标签，对孪生神经网络模型进行训练。

在本申请的一个实施例中，第二获取模块140，具体用于：获取与样本集合对应的第二扩展邻接矩阵，第二扩展邻接矩阵的各个行向量与样本集合中的各个样本用户对应。根据改进的深度自编码网络，对第二扩展邻接矩阵的每行数据进行特征提取，以得到每个样本用户的特征向量。

在本申请的一个实施例中，如图8所示，该装置还可以包括：

第四获取模块170，用于获取样本集合的第一类别信息矩阵和第二类别信息矩阵，样本集合中的各个样本用户与第一类用户矩阵的每行对应，样本集合中的各个样本用户与第二类用户矩阵的每行对应。

拼接模块180，用于将第一类别信息矩阵和第二类别信息矩阵进行拼接，以得到第一候选扩展邻接矩阵。

归一化处理模块190，用于对第一候选扩展邻接矩阵中的第一类别信息矩阵中的元素值进行归一化处理，并对第一候选扩展邻接矩阵中的第二类别信息矩阵中的元素值进行归一化处理，以得到第二候选扩展邻接矩阵。

第五获取模块200，用于获取每个样本用户各自对应的第一类别信息权重和第二类别信息权重。

处理模块210，用于根据每个样本用户各自对应的第一类别信息权重和第二类别信息权重对第二候选扩展邻接矩阵进行整体归一化处理，得到第二扩展邻接矩阵。

在本申请的一个实施例中，如图8所示，该装置还可以包括：

第二训练模块220，用于根据第二扩展邻接矩阵中的每行数据，对改进的深度自编码网络进行训练，直至改进的深度自编码网络的预设损失函数的取值小于预设阈值。

其中，需要说明的是，前述基于多类别信息的用户相似性确定方法实施的解释说明也适用于该实施例的基于多类别信息的用户相似性确定装置，其实现原理类似，此处不再赘述。

为实现上述实施例，本发明还提出了一种基于多类别信息的用户相似性确定装置，该基于多类别信息的用户相似性确定装置包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行上述实施例的基于多类别信息的用户相似性确定方法。

为实现上述实施例，本发明还提出了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现上述实施例的基于多类别信息的用户相似性确定方法。

为实现上述实施例，本发明还提出了一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行上述实施例的基于多类别信息的用户相似性确定方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行装置、装置或设备(如基于计算机的装置、包括处理器的装置或其他可以从指令执行装置、装置或设备取指令并执行指令的装置)使用，或结合这些指令执行装置、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行装置、装置或设备或结合这些指令执行装置、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于多类别信息的用户相似性确定方法，其特征在于，包括：

根据预先构建的第一扩展邻接矩阵，获取第一用户的行向量和第二用户的行向量，所述第一扩展邻接矩阵的各个行向量与系统中的各个用户对应，所述行向量用于描述归一化处理后的第一类别信息以及第二类别信息；

根据改进的深度自编码网络，对所述第一用户的行向量和所述第二用户的行向量进行提取，以得到所述第一用户的特征向量和所述第二用户的特征向量；

将所述第一用户的特征向量和所述第二用户的特征向量输入到预先训练好的孪生神经网络模型，以通过所述孪生神经网络模型确定所述第一用户与所述第二用户之间的用户相似度。

2.如权利要求1所述的方法，其特征在于，还包括：

获取样本集合中各个样本用户各自对应的特征向量；

获取所述样本集合两两样本用户之间的关系标签，所述关系标签用于描述所述样本集合中两两样本用户之间是否存在好友关系；

根据所述样本集合中两两样本用户各自对应的特征向量，以及对应两两样本用户的关系标签，对所述孪生神经网络模型进行训练。

3.如权利要求2所述的方法，其特征在于，所述获取样本集合中各个样本用户各自对应的特征向量，包括：

获取与所述样本集合对应的第二扩展邻接矩阵，所述第二扩展邻接矩阵的各个行向量与所述样本集合中的各个样本用户对应；

根据所述改进的深度自编码网络，对所述第二扩展邻接矩阵的每行数据进行特征提取，以得到每个样本用户的特征向量。

4.如权利要求3所述的方法，其特征在于，在所述获取与所述样本集合对应的第二扩展邻接矩阵之前，还包括：

获取所述样本集合的第一类别信息矩阵和第二类别信息矩阵，所述样本集合中的各个样本用户与所述第一类用户矩阵的每行对应，所述样本集合中的各个样本用户与所述第二类用户矩阵的每行对应；

将所述第一类别信息矩阵和所述第二类别信息矩阵进行拼接，以得到第一候选扩展邻接矩阵；

对所述第一候选扩展邻接矩阵中的第一类别信息矩阵中的元素值进行归一化处理，并对所述第一候选扩展邻接矩阵中的第二类别信息矩阵中的元素值进行归一化处理，以得到第二候选扩展邻接矩阵；

获取每个样本用户各自对应的第一类别信息权重和第二类别信息权重；

根据每个所述样本用户各自对应的第一类别信息权重和第二类别信息权重对所述第二候选扩展邻接矩阵进行整体归一化处理，得到所述第二扩展邻接矩阵。

5.如权利要求4所述的方法，其特征在于，还包括：

根据所述第二扩展邻接矩阵中的每行数据，对所述改进的深度自编码网络进行训练，直至所述改进的深度自编码网络的预设损失函数的取值小于预设阈值。

6.一种基于多类别信息的用户相似性确定装置，其特征在于，包括：

第一获取模块，用于根据预先构建的第一扩展邻接矩阵，获取第一用户的行向量和第二用户的行向量，所述第一扩展邻接矩阵的各个行向量与系统中的各个用户对应，所述行向量用于描述归一化处理后的第一类别信息以及第二类别信息；

提取模块，用于根据改进的深度自编码网络，对所述第一用户的行向量和所述第二用户的行向量进行提取，以得到所述第一用户的特征向量和所述第二用户的特征向量；

确定模块，用于将所述第一用户的特征向量和所述第二用户的特征向量输入到预先训练好的孪生神经网络模型，以通过所述孪生神经网络模型确定所述第一用户与所述第二用户之间的用户相似度。

7.如权利要求6所述的装置，其特征在于，还包括：

第二获取模块，用于获取样本集合中各个样本用户各自对应的特征向量；

第三获取模块，用于获取所述样本集合两两样本用户之间的关系标签，所述关系标签用于描述所述样本集合中两两样本用户之间是否存在好友关系；

第一训练模块，用于根据所述样本集合中两两样本用户各自对应的特征向量，以及对应两两样本用户的关系标签，对所述孪生神经网络模型进行训练。

8.如权利要求7所述的装置，其特征在于，所述第二获取模块，具体用于：

9.如权利要求8所述的装置，其特征在于，还包括：

第四获取模块，用于获取所述样本集合的第一类别信息矩阵和第二类别信息矩阵，所述样本集合中的各个样本用户与所述第一类用户矩阵的每行对应，所述样本集合中的各个样本用户与所述第二类用户矩阵的每行对应；

拼接模块，用于将所述第一类别信息矩阵和所述第二类别信息矩阵进行拼接，以得到第一候选扩展邻接矩阵；

归一化处理模块，用于对所述第一候选扩展邻接矩阵中的第一类别信息矩阵中的元素值进行归一化处理，并对所述第一候选扩展邻接矩阵中的第二类别信息矩阵中的元素值进行归一化处理，以得到第二候选扩展邻接矩阵；

第五获取模块，用于获取每个样本用户各自对应的第一类别信息权重和第二类别信息权重；

处理模块，用于根据每个所述样本用户各自对应的第一类别信息权重和第二类别信息权重对所述第二候选扩展邻接矩阵进行整体归一化处理，得到所述第二扩展邻接矩阵。

10.如权利要求9所述的装置，其特征在于，还包括：

第二训练模块，用于根据所述第二扩展邻接矩阵中的每行数据，对所述改进的深度自编码网络进行训练，直至所述改进的深度自编码网络的预设损失函数的取值小于预设阈值。