CN115169637A

CN115169637A - 社交关系预测方法、装置、设备和介质

Info

Publication number: CN115169637A
Application number: CN202210581192.4A
Authority: CN
Inventors: 曾琳奕; 雷经纬; 楼亚楠; 钱璞昕
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-10-11

Abstract

本申请涉及人工智能，尤其是涉及一种社交关系预测方法、装置、设备和介质。所述方法包括：获取待处理社交网络，所述待处理社交网络中包括用户以及用户之间的社交关系；计算所述待处理社交网络中不同用户之间的相似度；根据所述相似度确定所述用户之间未来是否存在社交关系的初始预测结果；根据所述初始预测结果和所述相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率；根据所述用户之间未来存在社交关系的概率和未来不存在社交关系的概率，确定用户之间未来是否存在社交关系。采用本方法能够提高准确性。需要说明的是，本申请的社交关系预测方法、装置、设备和介质可用于金融领域或其他领域。

Description

社交关系预测方法、装置、设备和介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种社交关系预测方法、产品推荐方法、装置、设备和介质。

背景技术

近年来，互联网已经从技术层面逐渐扩展到商业和社会层面，大量的在线品牌社区纷纷涌现，基于这些平台，用户之间的交互不断加强，朋友的意见和建议在影响其他用户的购买决策以及公司的态度方面发挥着越来越重要的作用，因此它对于网络营销人员来说是非常重要的，因为它往往可以鼓励人们的购买。通常来讲，影响力越高的用户，对周围人群的辐射带动能力越强，且高影响力人群多为线上社交媒介的高声量人群或品牌用户群中的意见领袖及活动组织者，这类人群占总体用户比例较小。为准确评估社会影响力，Sinan Ami研究了雅虎即时通讯平台的2700万用户对某项移动服务的使用情况，具体说，就是考察用户的使用和推荐如何影响其好友对该服务的选择。结果表明，传统模型将影响力的作用高估了七倍之多，而约有一半的“影响力”只是朋友影响的结果。因此利用在线品牌社区中目标客户的高影响力朋友进行展示营销可以进一步提高营销效果。

网络中的高影响力用户挖掘算法一般分为基于节点邻居中心性的排序方法、基于路径中心性的方法、迭代寻优排序方法、基于节点位置的排序算法但这些研究强调了每个节点的重要性，未从网络演化的角度来考虑。链路预测在朋友推荐及网络演化起着重要的作用，后来提出了一种演化网络的链接预测方法，为了预测未来的节点相似度分数，使用了基于过去的节点相似度分数的时间序列预测模型ARIMA。

然而，这种演化网络的链接预测方法都是基于过去的节点相似度和外部因素变化建模进行链接预测，但这些研究主要是基于链路的单向性，即直接计算了各个用户之间的社交关系是否存在，考虑角度单一从而导致准确性降低。

发明内容

基于此，有必要针对上述技术问题，提供一种通过分别计算用户之间未来存在社交关系的概率和未来不存在社交关系的概率，并基于用户之间未来存在社交关系的概率和未来不存在社交关系的概率，确定用户之间未来是否存在社交关系来提高准确性的社交关系预测方法、装置、设备和介质。

第一方面，本申请提供一种社交关系预测方法，所述社交关系预测方法包括：

获取待处理社交网络，所述待处理社交网络中包括用户以及用户之间的社交关系；

计算所述待处理社交网络中不同用户之间的相似度；

根据所述相似度确定所述用户之间未来是否存在社交关系的初始预测结果；

根据所述初始预测结果和所述相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率；

根据所述用户之间未来存在社交关系的概率和未来不存在社交关系的概率，确定用户之间未来是否存在社交关系。

在其中一个实施例中，所述计算所述待处理社交网络中不同用户之间的相似度，包括：

获取所述待处理社交网络中各用户的关联用户；

根据所述关联用户计算所述待处理社交网络中不同用户之间的相似度。

在其中一个实施例中，所述根据所述关联用户计算所述待处理社交网络中不同用户之间的相似度，包括：

根据所述关联用户以及至少一种相似度计算规则计算所述待处理社交网络中不同用户之间的相似度。

在其中一个实施例中，所述根据所述用户之间未来存在社交关系的概率和未来不存在社交关系的概率，确定用户之间未来是否存在社交关系之后，包括：

根据用户之间未来是否存在社交关系对所述待处理社交网络进行演化，得到目标社交网络；

基于所述待处理社交网络和所述目标社交网络确定每个用户对应的目标用户；

向每个用户推送对应的所述目标用户。

在其中一个实施例中，所述基于所述待处理社交网络和所述目标社交网络确定每个用户对应的目标用户，包括：

计算所待处理社交网络中各个用户的第一社交广度；

计算所述目标社交网络中各个用户的第二社交广度；

根据所述第一社交广度和所述第二社交广度将各个用户按照社交广度的大小进行分类；

从所述分类中确定每个用户对应的目标用户。

在其中一个实施例中，所述根据所述相似度确定所述用户之间未来是否存在社交关系的初始预测结果，包括：

通过预先训练得到的至少一个基分类器根据所述相似度计算所述用户之间未来是否存在社交关系的初始预测结果。

在其中一个实施例中，所述根据所述初始预测结果和所述相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率，包括：

通过预先训练得到的贝叶斯分类器，并根据所述初始预测结果和所述相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率。

在其中一个实施例中，所述基分类器的训练方式包括：

获取样本网络，所述样本网络携带有标注结果；

根据所述样本网络计算得到样本用户之间的样本用户相似度；

根据所述样本用户相似度和所述标注结果进行训练以得到各个基分类器。

在其中一个实施例中，所述元分类器的训练方式包括：

将所述样本用户相似度输入至训练完成的基分类器中以得到样本初始预测结果；

根据各样本初始预测结果以及样本用户相似度以及所述标注结果进行训练以得到贝叶斯分类器。

第二方面，本申请还提供一种目标用户确定装置，所述目标用户确定装置包括：

第一网络获取模块，用于获取待处理社交网络，所述待处理社交网络中包括用户以及用户之间的社交关系；

第一相似性度计算模块，用于计算所述待处理社交网络中不同用户之间的相似度；

第一预测模块，用于根据所述相似度确定所述用户之间未来是否存在社交关系的初始预测结果；

第二预测模块，用于根据所述初始预测结果和所述相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率；

目标用户设定模块，用于根据所述用户之间未来存在社交关系的概率和未来不存在社交关系的概率，确定用户之间未来是否存在社交关系。

第三方面，本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任意一个实施例中所述的方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一个实施例中所述的方法的步骤。

第五方面，本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任意一个实施例中所述的方法的步骤。

上述社交关系预测方法、装置、设备和介质，获取到待处理社交网络后，计算得到节点之间的相似度，并先根据所述相似度确定用户之间未来是否存在社交关系的初始预测结果；根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率，从链路的双向性(即链接的可能性还是不链接的可能性)来进行预测，也就是说这样进行了两个角度的计算，考虑更为全面，进而在判断是否存在社交关系时也是考虑了两个角度的信息，从而更为准确。

附图说明

图1为一个实施例中社交关系预测方法的应用环境图；

图2为一个实施例中社交关系预测方法的流程示意图；

图3为另一个实施例中社交关系预测方法的流程示意图；

图4为一个实施例中目社交关系预测装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的目标用户确定方法以及产品推荐方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。

其中服务器104可以获取待处理社交网络，待处理社交网络中包括用户以及用户之间的社交关系。服务器104计算待处理社交网络中不同用户之间的相似度，根据相似度确定用户之间未来是否存在社交关系的初始预测结果；根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率，这样根据用户之间未来存在社交关系的概率和未来不存在社交关系的概率，确定用户之间未来是否存在社交关系，从链路的双向性(即链接的可能性还是不链接的可能性)来进行预测，提高准确性，也就是说这样进行了两个角度的计算，考虑更为全面，进而在判断是否存在社交关系时也是考虑了两个角度的信息，从而更为准确。后续服务器104根据待处理社交网络和演化后的目标社交网络确定每个用户对应的目标用户；将目标用户推送至对应的用户，从而提高推荐的准确性。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种目标用户确定方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202：获取待处理社交网络，待处理社交网络中包括用户以及用户之间的社交关系。

具体地，待处理社交网络可以是指用户之间的社交网络，其中待处理社交网络中包括用户以及用户之间的社交关系，一般的社交网络中通过节点表征用户，通过表征社交关系的节点间的链路表征用户之间的社交关系。

其中，在实际应用中，各个待处理社交网络可以是预先生成的，或者是在触发了产品推荐请求后，基于用户的请求或者服务器的定时任务所获取的对应的待处理社交网络，例如根据用户的请求或定时任务中的用户标识去获取到对应的待处理社交网络。

S204：计算待处理社交网络中不同用户之间的相似度。

其中需要说明的是，用户之间的相似度，也即各个节点之间的相似度包括基于局部信息的相似性、基于全局信息的相似性和基于随机游走的相似性。但其中基于全局和基于随机游走的相似性算法需要整个网络的拓扑结构信息，因此不适合用于在线品牌社区这种节点规模巨大的网络。因此本实施例中采用基于局部信息的相似度，以保证计算的效率。

具体地，相似性度可以根据不同的相似度指标计算得到，其中相似度指标包括以下至少一个：Salton相似度指标、Sorenson相似度指标、HPI相似度指标、 HDI相似度指标、LHN相似度指标、PA相似度指标、RA相似度指标、AA相似度指标以及Jaccard相似度指标。

其中AA相似度指标根据不同产品交叠节点对的共同邻居节点的度值进行刻画，根据共同邻居节点的度，将节点度对数的倒数，即1/(lg k)作为权重值赋予每个交叠节点；HDI相似度指标和HPI相似度指标认为链接与交叠节点对共同邻居个数和交叠节点对本身度的大小有关，分子都是共同邻居个数，分母分别是交叠节点中较大的度和较小的度；类似地，Sorenson相似度指标、Salton相似度指标以及LHN相似度指标也表示链接与交叠节点对共同邻居个数以及交叠节点对本身度的关系；Jaccard相似度指标则表示交叠节点对共同邻居的个数除以交叠节点对邻居并集，需要注意的是交叠节点对邻居并集并不是节点对的度相加，而是节点对的度相加减去共同邻居的数目；RA相似度指标根据交叠节点对共同邻居节点的度值，从资源的角度出发，将共同邻居节点作为传递的媒介，使用共同邻居节点度的倒数为交叠节点赋值；PA相似度指标表明链接与每个交叠节点本身的度存在很大关系，网络中两个交叠节点各自的度越大，则两个交叠节点产生链接的可能性就越高。

S206：根据相似度确定用户之间未来是否存在社交关系的初始预测结果。

其中初始预测结果是对用户之间未来是否存在社交关系的第一次预测，也是粗略的预测，其可以采用较为简单的方法来进行处理。

在其中一个实施例中，根据相似度确定用户之间未来是否存在社交关系的初始预测结果，包括：通过预先训练得到的至少一个基分类器根据相似度计算用户之间未来是否存在社交关系的初始预测结果。

具体地，基分类器是根据相似度进行的粗略的预测，也可以看作对用户之间的是否存在社交关系的第一次预测。通过该预测可以确定随着时间推移，用户之间的社交关系的变化。其中初始预测结果包括随着时间推移，用户之间的社交关系存在或者不存在，也即节点之间存在链路或者不存在链路。

其中基分类器可以包括KNN、SVM、随机森林、逻辑回归、判别分析等中的至少一个。

S208：根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率。

S210：根据用户之间未来存在社交关系的概率和未来不存在社交关系的概率，确定用户之间未来是否存在社交关系。

其中，根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率，是对用户之间是否存在社交关系的第二次预测，也是精确的预测。其中为了提高准确性，服务器分别来计算用户之间未来存在社交关系的概率和未来不存在社交关系的概率，即先根据初始预测结果和相似度计算得到用户之间未来存在社交关系的概率，然后再根据初始预测结果和相似度计算得到用户之间未来补存在社交关系的概率，在其他的实施例中，两者可以并行处理。

在其中一个实施例中，根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率，包括：通过预先训练得到的贝叶斯分类器，并根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率。

具体地，元分类器可以是贝叶斯分类器，为了进一步提高预测精度并且多方位对链接进行预测，本实施例中加入了贝叶斯分类器，计算出链接(Yes)以及不链接(No)的概率。

这样服务器根据用户之间未来存在社交关系的概率和未来不存在社交关系的概率，确定用户之间未来是否存在社交关系，例如当P(Yes)>P(No)时，预测链接存在，也即用户之间未来存在社交关系，反之则不链接，也即用户之间未来不存在社交关系。

其中，服务器将各个基分类器的初始预测结果以及相似度输入至元分类器中得到目标预测结果，即进行第二次预测计算出链路链接和不链接的概率，即上文中的用户之间未来存在社交关系的概率和未来不存在社交关系的概率。在其他实施例中可以基于基分类器的初始预测结果以及相似度生成新的输入数据，然后将新的输入数据输入至元分类器中得到目标预测结果。

具体地，结合图3所示，其中通过对链路的双向预测来展现整个网络的演化趋势，其中本实施例中的模型包含2层分类器，level-0为基分类器，level-1 为元分类器。将基分类器的输出结果作为元分类器的输入，元分类器的任务就是合理组合输出集，纠正基分类器的分类错误。因此目标用户确定的第一步便是用基础学习器对数据集进行预测，其次将基分类器的输出结果作为元分类器的输入，即将数据集输出的预测信息和训练数据的真实分类结果整合为一个数据集，然后将新的数据集作为新学习器的训练数据集，再采用元分类器来解决这个问题。具体地，结合图3首先用较简单的分类器实现快速分类，本章选取了KNN、SVM、随机森林、逻辑回归、判别分析等五种分类器作为基分类器，接着将初始预测结果写入原始的数据集作为一个新的输入。由于贝叶斯分类器可以计算出对象属于某一类的概率，因此本章运用贝叶斯分类器对新的数据集进行第二层预测，计算出链路链接或者不链接的概率。同时因建立模型的过程比较复杂，因此采用基于局部信息的相似度指标运用到学习中。图3为展示节点选择决策支持系统的结构框图，其中虚线部分代表BLPM，当P(Yes)>P(No) 时，预测链接存在，反之则不链接，从网络演化的角度识别出可以用于朋友展示营销的三类影响力用户。

上述目标用户确定方法，获取到待处理社交网络后，计算得到节点之间的相似度，并先根据所述相似度确定用户之间未来是否存在社交关系的初始预测结果；根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率，从链路的双向性(即链接的可能性还是不链接的可能性)来进行预测，也就是说这样进行了两个角度的计算，考虑更为全面，进而在判断是否存在社交关系时也是考虑了两个角度的信息，从而更为准确。

在其中一个实施例中，计算待处理社交网络中不同用户之间的相似度，包括：获取待处理社交网络中各用户的关联用户；根据关联用户计算待处理社交网络中不同用户之间的相似度。

在其中一个实施例中，根据关联用户计算待处理社交网络中不同用户之间的相似度，包括：根据关联用户以及至少一种相似度计算规则计算待处理社交网络中不同用户之间的相似度。

具体地，关联用户是指与用户存在社交关系的用户，在待处理社交网络中，关联用户通过邻居节点来表征，邻居节点是指与待处理社交网络中的节点在当前相互连接的节点。节点的度则是节点的邻居节点的数量。服务器可以根据各节点的度或者邻居节点来计算得到各个节点的相似度，也即是用户之间的相似度。

相似度计算规则可以是指各个相似度指标的计算公式，服务器根据各个相似度指标的计算公式可以计算得到用户之间的相似度。且相似度计算规则是存在多个的，这样服务器在两个用户之间可以计算得到多个相似度，实现问题的多方面考虑，提高预测结果的准确性。

其中，Salton相似度指标的计算公式如下：

其中，Γ(x)为待处理社交网络中的节点x的邻居节点，Γ(y)为待处理社交网络中的节点y的邻居节点，k(x)为节点x的度，k(y)为节点y的度。Γ(x)∩Γ(y)为节点 x和节点y的共同邻居节点。

其中，Sorenson相似度指标的计算公式如下：

其中，HPI相似度指标的计算公式如下：

其中，min{k(x),k(y)}节点x和节点y的度的最小值。

其中，HDI相似度指标的计算公式如下：

其中，max{k(x),k(y)}节点x和节点y的度的最小值。

其中，LHN相似度指标的计算公式如下：

其中，PA相似度指标的计算公式如下：

其中，RA相似度指标的计算公式如下：

其中，z为节点x和节点y的共同邻居节点。

其中，AA相似度指标的计算公式如下：

其中，

为根据节点x和节点y的共同邻居节点的度为每个节点赋予的一个权重值，该权重值等于该共同邻居节点的度的对数分之一。

其中，Jaccard相似度指标的计算公式如下：

其中，|Γ(x)∪Γ(y)|为节点x和节点y的邻居节点的并集。

在一个实施例中，根据用户之间未来存在社交关系的概率和未来不存在社交关系的概率，确定用户之间未来是否存在社交关系之后，包括：根据用户之间未来是否存在社交关系对待处理社交网络进行演化，得到目标社交网络；基于待处理社交网络和目标社交网络确定每个用户对应的目标用户；向每个用户推送对应的目标用户。

在其中一个实施例中，基于待处理社交网络和目标社交网络确定每个用户对应的目标用户，包括：计算所待处理社交网络中各个用户的第一社交广度；计算目标社交网络中各个用户的第二社交广度；根据第一社交广度和第二社交广度将各个用户按照社交广度的大小进行分类；从分类中确定每个用户对应的目标用户。

目标社交网络是根据所预测的用户之间未来是否存在社交关系的结果生成的，也就是对待处理社交网络的演化。

具体地，考虑到交叠节点蕴含的信息量相对于其他节点大，交叠节点对需要展示营销的产品较为熟悉且与目标客户有共同爱好的产品，因此定义影响力节点均为交叠节点，也即目标用户。服务器对比演化前后的网络结构，节点度是常用的节点重要度量指标，但度大的高影响力展示用户并不一定能和目标客户成为朋友，因此本实施例中将影响力展示用户分为三类：一般影响力展示用户集合、有潜力影响力展示用户集合、当红影响力展示用户集合，按照影响力的高低从这三类用户中找出最有可能与目标客户成为朋友，将其推荐给目标客户，实现高影响力朋友影响的个性化营销。

具体地，基于待处理社交网络和所述目标社交网络确定每个用户对应的目标用户，包括：计算所待处理社交网络中各个用户的第一社交广度；计算目标社交网络中各个用户的第二社交广度；根据第一社交广度和第二社交广度将各个用户按照社交广度的大小进行分类；从分类中确定每个用户对应的目标用户。

三类展示用户如下所示，其中μ为阈值：

第一类为一般影响力展示用户集合E1：演化前的度d₁＜μ，演化后的度 d₂＜μ。第二类为有潜力影响力展示用户集合E2：演化前的度d₁＜μ，演化后的度d₂≥μ。第三类为当红影响力展示用户集合E3：演化前的度d₁≥μ。

本实施例中，通过识别品牌社区中有可能与目标客户成为朋友的高影响力展示用户。通常认为度大的节点影响力也较大，品牌社区中喜欢两类或者两类以上产品的交叠节点成员是两类或多类产品之间的桥梁，其对需要展示营销的产品较为熟悉且与目标客户有共同爱好的产品，因此本实施例中定义演化前后度较大的交叠节点为高影响节点。目标用户确定模型结合节点对间的局部相似度指标和KNN、SVM、随机森林、逻辑回归、判别分析等分类算法，使用贝叶斯分类器从链接和不链接两个角度对链路进行预测，且对比了演化前后的网络，识别出品牌社区交叠节点中高影响力的用户，并将可能与目标客户成为朋友且具有高影响力的展示节点推荐给该用户，实现基于高影响力朋友影响的个性化营销。

上述实施例中，发现品牌社区交叠节点中有影响力的用户将有助于针对某类产品利用朋友展示营销来影响目标消费者，将这类高影响力用户推荐给目标客户，可以更精准地提高其对目标客户的影响，增加购买。针对这个问题，本实施例中识别品牌社区中三类影响力展示用户，先根据网络链路的相似性计算出节点对的相似性评分，结合KNN、SVM、随机森林、逻辑回归、判别分析五个基分类模型，计算出链路的五种分类预测结果，再将五个结果运用到贝叶斯分类器，得到预测链接(Yes)和不链接(No)的概率，当P(Yes)>P(No)时，预测链接存在，反之则不链接。根据展示节点选择决策支持系统对比演化前后的网络结构，从网络演化的角度识别出三类影响力用户。

具体地，基分类器是对相似性指标进行处理以得到初始预测结果的，其中基分类器是根据KNN、SVM、随机森林、逻辑回归、判别分析训练得到的。

其中，KNN基本思想是如果一个样本在特征空间中的k个最相邻样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。KNN具体步骤如下：预测时，在训练样本集S^T*中找到与预测样本S^p*最相似的K个近邻链路，在这里选用欧式距离判定，为了提高运行速度，K选定为3，在其他的实施例中可以选择其他的数值，在此不做具体的限定。然后找到这3个近邻的集合Y＝{Y₁,Y₂,Y₃}，采取投票原则，选取最多的Y_i作为S^p*的预测结果。假设S^p*基于KNN分类器的预测结果为w₁。

在SVM分类器中对于给定训练样本集S^T*，超平面记作(w·x)+b＝0，对于线性不可分情况，为了提高算法效率，本实施例中选用非线性高斯函数(RBF) K(x_i,x)＝exp(-‖x-x_i‖²/δ²)来做核函数，对于一个输入向量z，则可以得到最优分类函数为：

其中a,b,δ为常数。假设S^p*基于SVM分类器的预测结果为w₂，w和b为超平面中的参数，其中最优问题的解在鞍点处满足w和b的偏导为0，x为训练样本，其中x_i表示第i个训练样本，y_i为第i个训练样本的标签，Φ(z)是将训练样本x从输入空间转换至特征空间的变换，K(x_i,z)＝Φ(x_i)·Φ(x)。

随机森林是一个由一组决策树分类器组成的集成分类器，生成随机森林的步骤如下：从S^T*中，应用随机重采样方法有放回地随机抽取K个新的样本集，并由此构建K棵决策树，本实施例中选取K为50，在其他的实施例中可以选择其他的值；决策树的构造通过计算上述的局部相似性指标的信息增益率，选择信息增益率最大的属性作为根节点，采用相同的方法递归地建立树的分枝，直到所有分枝节点中的样本选择同一结果；将生成的多棵树组成随机森林，用随机森林对S^p*进行分类，分类结果按树分类器的投票多少而定。假设S^p*基于随机森林分类器的预测结果为w₃。

逻辑回归针对的是二分类问题，而链路预测是典型的二分类问题，设条件概率P{Y＝1|x)＝p为根据9种评分相对于链接发生的概率，则逻辑回归模型可表示为：

其中g(x)＝β₀+β₁x₁+β₂x₂+…+β₉x₉，β₀为截距项，β＝(β₁,β₂,…,β₉) 为自变量的回归系数，根据π(x)来估计因变量Y＝1即链路存在时发生的概率，设S^T*中m个观测值为{y₁,y₂,…,y_m}，于是m个观测值的似然函数为：

对上式两边求自然对数，可得对数似然函数，进而求导，可获取模型的截距项和回归系数，将求得的参数代入式(3)即可建立逻辑回归的预测模型；将测试集S^p*运用于建立好的逻辑回归预测模型，当概率大于0.5时，认为此时Y＝1 即存在链接。假设S^p*基于随机森林分类器的预测结果为w₄。

判别分析算法基本思想是由训练样本集S^T*得出每个分类的重心坐标，然后对测试集S^p*求出它们离各个类别重心的距离远近，从而归入离得最近的类。

设S^T*两总体Y₁(Y＝0)，Y₂(Y＝1)的数学期望向量分别是u1，u2，协方差矩阵为Σ1，Σ2。定义测试集S^p*中的X到Y₁和Y₂的距离为：

求出的距离d(X,Y₁)和d(X,Y₂)，则可以按如下判别规则判断X属于链接还是不链接

假设S^p*基于随机森林分类器的预测结果为w₅。

具体地，元分类器的任务就是合理组合输出集，纠正基分类器的分类错误。为了进一步提高预测精度并且多方位对链接进行预测，本实施例中加入了贝叶斯分类器，计算出链接(Yes)和不链接(No)的概率，当P(Yes)＞P(No)时，预测链接存在，反之则不链接。

其中，服务器将各个基分类器的初始预测结果以及上述计算的相似度合并，并将合并后的数据输入至基于贝叶斯分类器训练得到的元分类器中，得到目标预测结果，即用户之间未来存在社交关系的概率和未来不存在社交关系的概率。

在其中一个实施例中，基分类器的训练方式包括：获取样本网络，样本网络携带有标注结果；根据样本网络计算得到样本用户之间的样本用户相似度；根据样本用户相似度和标注结果进行训练以得到各个基分类器。

在其中一个实施例中，元分类器的训练方式包括：将样本用户相似度输入至训练完成的基分类器中以得到样本初始预测结果；根据各样本初始预测结果以及样本用户相似度以及标注结果进行训练以得到贝叶斯分类器。

具体地，本实施例中主要介绍上述基分类器和元分类器的训练过程，该训练过程主要包括：

首先，随机选取整个待处理社交网络链接的预设数量，例如80％作为训练集合S^T，剩下部分，即20％作为测试集S^p，假设基于局部相似性链路预测算法计算出各链路评分的标准化与训练数据的真实链路结果的集合为S，其数学表示式为：

其中属性X_ij表示在第i条链路在第j个局部相似度指标上的评分，Y_i表示相应的链路结果即Yes还是No，用1代表Yes，用0表示No。

然后，将S中的一部分S^T*作为KNN、SVM、随机森林、逻辑回归、判别分析五个基分类器的训练集合，将剩下的S^p*作为测试集，对于S^p*中的链路将得到五个预测结果。

设由KNN、SVM、随机森林、逻辑回归、判别分析五种基分类器得到训练样本集T，T＝{w₁,w₂,…,w₅,Y}，其中w₁代表KNN对链路的预测结果(1或者 0)，相应的w₂,w₃，w₄,w₅分别代表SVM、随机森林、逻辑回归、判别分析对链接的预测结果。

训练样本集分为2类，记为Y＝{Y₁,Y₂}，则每个类Y_i的先验概率为 P(Y_i)，i＝1，2，其值为Y_i类的样本数除以训练集总样本数n。根据训练集，服务器分别计算得到w_j在类Y_i发生的概率P(w_j|Y_i)。对于新样本d，其属于Y_i类的条件概率为P(d|Y_i)。Y_i类的后验概率为P(Y_i|d)

因为P(d)对于所有类均为常数,可以忽略，则式(5-6)简化为P(Y_i|d)∝ P(d|Y_i)P(Y_i)，d由5个基分类器的预测结果构成，即d＝(w1,w2,…,w5)，则得

式中P(w_j|Y_i)表示w_j在类Y_i发生的概率。通过上面的方法，可以计算出测试样本的两个后验概率P(Yes)和P(No)，这样就可以对链路进行双向预测。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的目标用户确定方法以及产品推荐方法的目标用户确定装置以及产品推荐装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个目标用户确定装置以及产品推荐装置实施例中的具体限定可以参见上文中对于目标用户确定方法以及产品推荐方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种目标用户确定装置，包括：第一网络获取模块501、第一相似度计算模块502、第一预测模块503、第二预测模块504以及社交关系确定模块505，其中：

第一网络获取模块501，用于获取待处理社交网络，待处理社交网络中包括用户以及用户之间的社交关系；

第一相似度计算模块502，用于计算待处理社交网络中不同用户之间的相似度；

第一预测模块503，用于根据相似度确定用户之间未来是否存在社交关系的初始预测结果；

第二预测模块504，用于根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率。

社交关系确定模块505，用于根据所述用户之间未来存在社交关系的概率和未来不存在社交关系的概率，确定用户之间未来是否存在社交关系。

在其中一个实施例中，上述第一相似度计算模块502包括：

关联用户获取单元，用于获取待处理社交网络中各用户的关联用户；

相似度计算单元，用于根据关联用户计算待处理社交网络中不同用户之间的相似度。

在其中一个实施例中，相似度计算单元还用于根据关联用户以及至少一种相似度计算规则计算待处理社交网络中不同用户之间的相似度。

在其中一个实施例中，上述装置还包括：

演化模块，用于根据用户之间未来是否存在社交关系对待处理社交网络进行演化，得到目标社交网络；

目标用户确定模块，用于基于待处理社交网络和目标社交网络确定每个用户对应的目标用户；

推送模块，用于向每个用户推送对应的目标用户。

在其中一个实施例中，上述目标用户确定模块包括：

第一社交广度计算单元，用于计算所待处理社交网络中各个用户的第一社交广度；

第二社交广度计算单元，用于计算目标社交网络中各个用户的第二社交广度；

分类单元，用于根据第一社交广度和第二社交广度将各个用户按照社交广度的大小进行分类；

目标用户确定单元，用于从分类中确定每个用户对应的目标用户。

在其中一个实施例中，第一预测模块503用于通过预先训练得到的至少一个基分类器根据相似度计算用户之间未来是否存在社交关系的初始预测结果。

在其中一个实施例中，第二预测模块504用于通过预先训练得到的贝叶斯分类器，并根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率。在其中一个实施例中，上述装置还包括：

样本网络获取模块，用于获取样本网络，样本网络携带有标注结果；

样本相似性指标计算模块，用于根据样本网络计算得到样本用户之间的样本用户相似度；

第一训练模块，用于根据样本用户相似度和标注结果进行训练以得到各个基分类器。

在其中一个实施例中，上述装置还包括：

第三预测模块，用于将样本用户相似度输入至训练完成的基分类器中以得到样本初始预测结果；

第二训练模块，用于根据各样本初始预测结果以及样本用户相似度以及标注结果进行训练以得到贝叶斯分类器。

上述社交关系预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种社交关系预测方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取待处理社交网络，待处理社交网络中包括用户以及用户之间的社交关系；计算待处理社交网络中不同用户之间的相似度；根据相似度确定用户之间未来是否存在社交关系的初始预测结果；根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率。

在一个实施例中，处理器执行计算机程序时所实现的计算待处理社交网络中不同用户之间的相似度，包括：获取待处理社交网络中各用户的关联用户；根据关联用户计算待处理社交网络中不同用户之间的相似度。

在一个实施例中，处理器执行计算机程序时所实现的根据关联用户计算待处理社交网络中不同用户之间的相似度，包括：根据关联用户以及至少一种相似度计算规则计算待处理社交网络中不同用户之间的相似度。

在一个实施例中，处理器执行计算机程序时所实现的根据用户之间未来存在社交关系的概率和未来不存在社交关系的概率，确定用户之间未来是否存在社交关系之后，包括：根据用户之间未来是否存在社交关系对待处理社交网络进行演化，得到目标社交网络；基于待处理社交网络和目标社交网络确定每个用户对应的目标用户；向每个用户推送对应的目标用户。

在一个实施例中，处理器执行计算机程序时所实现的基于待处理社交网络和目标社交网络确定每个用户对应的目标用户，包括：计算所待处理社交网络中各个用户的第一社交广度；计算目标社交网络中各个用户的第二社交广度；根据第一社交广度和第二社交广度将各个用户按照社交广度的大小进行分类；从分类中确定每个用户对应的目标用户。

在一个实施例中，处理器执行计算机程序时所实现的根据相似度确定用户之间未来是否存在社交关系的初始预测结果，包括：通过预先训练得到的至少一个基分类器根据相似度计算用户之间未来是否存在社交关系的初始预测结果。

在一个实施例中，处理器执行计算机程序时所实现的根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率，包括：通过预先训练得到的贝叶斯分类器，并根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率。

在一个实施例中，处理器执行计算机程序时所涉及的基分类器的训练方式包括：获取样本网络，样本网络携带有标注结果；根据样本网络计算得到样本用户之间的样本用户相似度；根据样本用户相似度和标注结果进行训练以得到各个基分类器。

在一个实施例中，处理器执行计算机程序时所涉及的元分类器的训练方式包括：将样本用户相似度输入至训练完成的基分类器中以得到样本初始预测结果；根据各样本初始预测结果以及样本用户相似度以及标注结果进行训练以得到贝叶斯分类器。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待处理社交网络，待处理社交网络中包括用户以及用户之间的社交关系；计算待处理社交网络中不同用户之间的相似度；根据相似度确定用户之间未来是否存在社交关系的初始预测结果；根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率。

在一个实施例中，计算机程序被处理器执行时所实现的计算待处理社交网络中不同用户之间的相似度，包括：获取待处理社交网络中各用户的关联用户；根据关联用户计算待处理社交网络中不同用户之间的相似度。

在一个实施例中，计算机程序被处理器执行时所实现的

根据关联用户计算待处理社交网络中不同用户之间的相似度，包括：根据关联用户以及至少一种相似度计算规则计算待处理社交网络中不同用户之间的相似度。

在一个实施例中，计算机程序被处理器执行时所实现的根据相似度确定用户之间未来是否存在社交关系的初始预测结果，包括：通过预先训练得到的至少一个基分类器根据相似度计算用户之间未来是否存在社交关系的初始预测结果。

在一个实施例中，计算机程序被处理器执行时所实现的根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率，包括：通过预先训练得到的贝叶斯分类器，并根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率。

在一个实施例中，计算机程序被处理器执行时所涉及的基分类器的训练方式包括：获取样本网络，样本网络携带有标注结果；根据样本网络计算得到样本用户之间的样本用户相似度；根据样本用户相似度和标注结果进行训练以得到各个基分类器。

在一个实施例中，计算机程序被处理器执行时所涉及的元分类器的训练方式包括：将样本用户相似度输入至训练完成的基分类器中以得到样本初始预测结果；根据各样本初始预测结果以及样本用户相似度以及标注结果进行训练以得到贝叶斯分类器。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：获取待处理社交网络，待处理社交网络中包括用户以及用户之间的社交关系；计算待处理社交网络中不同用户之间的相似度；根据相似度确定用户之间未来是否存在社交关系的初始预测结果；根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率根据初始预测结果和相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率。

在一个实施例中，计算机程序被处理器执行时所实现的

需要说明的是，本公开目标用户确定的方法和装置可用于金融领域，也可用于除金融领域之外的任意领域，本公开目标用户确定方法和装置的应用领域不做限定。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器 (Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase ChangeMemory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器 (Random AccessMemory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory， DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种社交关系预测方法，其特征在于，所述社交关系预测方法包括：

计算所述待处理社交网络中不同用户之间的相似度；

2.根据权利要求1所述的社交关系预测方法，其特征在于，所述计算所述待处理社交网络中不同用户之间的相似度，包括：

获取所述待处理社交网络中各用户的关联用户；

3.根据权利要求2所述的社交关系预测方法，其特征在于，所述根据所述关联用户计算所述待处理社交网络中不同用户之间的相似度，包括：

4.根据权利要求1所述的社交关系预测方法，其特征在于，所述根据所述用户之间未来存在社交关系的概率和未来不存在社交关系的概率，确定用户之间未来是否存在社交关系之后，包括：

向每个用户推送对应的所述目标用户。

5.根据权利要求4所述的社交关系预测方法，其特征在于，所述基于所述待处理社交网络和所述目标社交网络确定每个用户对应的目标用户，包括：

计算所待处理社交网络中各个用户的第一社交广度；

计算所述目标社交网络中各个用户的第二社交广度；

从所述分类中确定每个用户对应的目标用户。

6.根据权利要求1所述的社交关系预测方法，其特征在于，所述根据所述相似度确定所述用户之间未来是否存在社交关系的初始预测结果，包括：

7.根据权利要求6所述的社交关系预测方法，其特征在于，所述根据所述初始预测结果和所述相似度分别计算得到用户之间未来存在社交关系的概率和未来不存在社交关系的概率，包括：

8.根据权利要求7所述的社交关系预测方法，其特征在于，所述基分类器的训练方式包括：

获取样本网络，所述样本网络携带有标注结果；

9.根据权利要求8所述的社交关系预测方法，其特征在于，所述元分类器的训练方式包括：

10.一种社交关系预测装置，其特征在于，所述社交关系预测装置包括：

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。

13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。