CN111104609B

CN111104609B - 人际关系的预测方法及其装置、存储介质

Info

Publication number: CN111104609B
Application number: CN201811260345.5A
Authority: CN
Inventors: 窦亚光; 成亚雄; 吴怡灵; 谷松
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2023-10-10
Anticipated expiration: 2038-10-26
Also published as: CN111104609A

Abstract

本发明提出一种人际关系的预测方法及其装置、计算机程序、存储介质，其中，方法包括：获取第一用户的行为数据和第二用户的行为数据，对第一用户的行为数据和第二用户的行为数据进行特征比对，以获得第一用户的行为数据和第二用户的行为数据之间的特征相似度；以及根据特征相似度，使用逻辑回归模型计算第一用户和第二用户属于特定人际关系的概率。由此，本发明实施例实现了通过获取、分析和比较用户的行为数据来判断用户之间的人际关系，具有一般性和广泛适用性，提高了用户的覆盖度，能够满足互联网信息的推广需求，解决现有技术中用户的覆盖度低的技术问题。

Description

人际关系的预测方法及其装置、存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种人际关系的预测方法及其装置、存储介质。

背景技术

家庭关系作为一种稳定、持久的强人际关系，是不可忽视的业务推广渠道。随着互联网时代的到来，互联网信息的推广也可以借助家庭关系这一人际关系实现，因此需要首先判断用户之间是否存在家庭关系。因此，如何获取用户之间是否存在家庭关系成为亟待解决的问题。

相关技术中，对于用户之间家庭关系的判断依靠读取用户手动输入的信息，例如根据用户输入的信息确定用户的家庭关系。该方案要求用户输入的信息能够明确反映用户之间的关系，对于没有明确输入有关家庭信息的用户，无法实现家庭关系的获取，同时还需要用户的授权才能实现。因此通过现有技术获取的家庭关系，对于用户的覆盖度低，无法满足互联网信息的推广需求。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种人际关系的预测方法，以实现通过获取、分析和比较用户的行为数据来判断用户之间的人际关系，具有一般性和广泛适用性，提高了用户的覆盖度，能够满足互联网信息的推广需求。

本发明的第二个目的在于提出一种人际关系的预测装置。

本发明的第三个目的在于提出一种计算机程序产品。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种人际关系的预测方法，包括：获取第一用户的行为数据和第二用户的行为数据；对所述第一用户的行为数据和所述第二用户的行为数据进行特征比对，以获得所述第一用户的行为数据和所述第二用户的行为数据之间的特征相似度；以及根据所述特征相似度，使用逻辑回归模型计算所述第一用户和所述第二用户属于特定人际关系的概率。

和现有技术相比，通过获取、分析和比较用户的行为数据来判断用户之间的人际关系，无需用户进行授权，只要用户在日常工作和生活中产生了行为数据，就可以判断其人际关系，通过行为数据的特征比对来判断用户的人际关系，具有一般性和广泛适用性。因此通过本发明实施例提高了用户的覆盖度，能够满足互联网信息的推广需求。

另外，本发明实施例的人际关系的预测方法，还具有如下附加的技术特征：

可选地，在所述获取第一用户的行为数据和第二用户的行为数据之后，还包括：提取所述第一用户和所述第二用户的行为数据中的地理位置特征；根据所述第一用户和所述第二用户的行为数据中的地理位置特征对所述第一用户和第二用户的行为数据进行分组。从而，实现了根据地理位置特征对用户进行分组，以减少特征比对的工作量。

可选地，所述对所述第一用户的行为数据和所述第二用户的行为数据进行特征比对，包括：判断所述第一用户的行为数据和所述第二用户的行为数据是否在同一个分组内；如果判断所述第一用户的行为数据和所述第二用户的行为数据在同一个分组内，则对所述第一用户的行为数据和所述第二用户的行为数据进行特征比对；如果判断所述第一用户的行为数据和所述第二用户的行为数据不在同一个分组内，则确定所述第一用户和所述第二用户不属于特定人际关系。从而，实现了对进行特征比对的用户的筛选，减少了用户之间进行特征比对的工作量。

可选地，所述根据所述特征相似度，使用逻辑回归模型计算所述第一用户和所述第二用户属于特定人际关系的概率之后，还包括：获取所述第一用户和所述第二用户所属的分组；获取所述所属分组内用户的行为数据，以获得所述所属分组内用户的人际拓扑关系；根据所述属于特定人际关系的概率和所述人际拓扑关系，对所述所属分组内的用户的行为数据进行聚类处理，以获得属于所述特定人际关系的用户。从而，实现了由第一用户和第二用户获得属于特定人际关系的全部用户。

可选地，所述获取所述所属分组内用户的行为数据，以获得所述所属分组内用户的人际拓扑关系，包括：获取所述所属分组内用户的行为数据；筛选所述分组内两两之间属于特定人际关系的概率大于第一预设阈值的用户对，以获得特定用户对；连接所述特定用户对，以获得所述所属分组内用户的人际拓扑关系。从而，实现了通过所属分组内用户的行为数据获取用户的人际拓扑关系。

可选地，所述行为数据的特征包括：地理位置信息、网络连接热点信息、网络连接地址信息、对应的时间信息中的一种或多种。

可选地，根据训练样本的行为数据的特征和如下计算公式获得所述逻辑回归模型：其中，当所述训练样本的行为数据的特征包含所述网络连接地址信息和所述对应的时间信息，且所述对应的时间信息对应的时间长度大于等于第二预设阈值时，所述逻辑回归模型的计算公式包括：；当所述训练样本的行为数据的特征包含所述网络连接热点信息时，所述逻辑回归模型的计算公式包括：

；当所述训练样本的行为数据的特征包含所述网络连接地址信息和所述对应的时间信息，且所述对应的时间信息对应的时间长度小于第二预设阈值时，所述逻辑回归模型的计算公式包括：/>，其中，/>为训练样本的特征相似度，/>为概率预测值，X为训练样本的特征相似度集合，Y为概率预测值集合，/>为L1正则化系数，/>是待求解系数向量，i为训练样本的序号，n为训练样本集合大小。

本发明第二方面实施例提出了一种人际关系的预测装置，包括：第一获取模块，用于获取第一用户的行为数据和第二用户的行为数据；比对模块，用于对所述第一用户的行为数据和所述第二用户的行为数据进行特征比对，以获得所述第一用户的行为数据和所述第二用户的行为数据之间的特征相似度；以及计算模块，用于根据所述特征相似度，使用逻辑回归模型计算所述第一用户和所述第二用户属于特定人际关系的概率。

另外，本发明实施例的人际关系的预测装置，还具有如下附加的技术特征：

可选地，所述装置还包括：提取模块，用于提取所述第一用户和所述第二用户的行为数据的位置特征；分组模块，用于根据所述第一用户和所述第二用户的行为数据的位置特征对所述第一用户和第二用户的行为数据进行分组。

可选地，所述比对模块包括：判断单元，用于判断所述第一用户的行为数据和所述第二用户的行为数据是否在同一个分组内；特征比对单元，用于在所述判断单元判断所述第一用户的行为数据和所述第二用户的行为数据在同一个分组内时，对所述第一用户的行为数据和所述第二用户的行为数据进行特征比对；确定单元，用于在所述判断单元判断所述第一用户的行为数据和所述第二用户的行为数据不在同一个分组内时，确定所述第一用户和所述第二用户不属于特定人际关系。

可选地，所述预测装置，还包括第二获取模块，用于获取所述第一用户和所述第二用户所属的分组；第三获取模块，用于获取所述所属分组内用户的行为数据，以获得所述所属分组内用户的人际拓扑关系；聚类处理模块，用于根据所述属于特定人际关系的概率和所述人际拓扑关系，对所述所属分组内的用户的行为数据进行聚类处理，以获得属于所述特定人际关系的用户。

可选地，所述第三获取模块，包括：获取单元，用于获取所述所属分组内用户的行为数据；筛选单元，用于筛选所述分组内两两之间属于特定人际关系的概率大于第一预设阈值的用户对，以获得特定用户对；连接单元，用于连接所述特定用户对，以获得所述所属分组内用户的人际拓扑关系。

本发明第三方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的人际关系的预测方法。

本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的人际关系的预测方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种人际关系的预测方法的流程示意图；

图2为本发明实施例所提供的另一种人际关系的预测方法的流程示意图；

图3为本发明实施例所提供的又一种人际关系的预测方法的流程示意图；

图4为本发明实施例所提供的再一种人际关系的预测方法的流程示意图；

图5为本发明实施例所提供的二阶导数转折点切割过滤法的效果示意图；

图6为本发明实施例所提供的采用KNN均值法对家庭成员的置信度进行打分的效果示意图；

图7为本发明实施例所提供的家庭关系预测的流程图；

图8为本发明实施例所提供的一种人际关系的预测装置的结构示意图；

图9为本发明实施例所提供的另一种人际关系的预测装置的结构示意图；

图10为本发明实施例所提供的又一种人际关系的预测装置的结构示意图；

图11为本发明实施例所提供的再一种人际关系的预测装置的结构示意图；以及

图12为本发明实施例所提供的再一种人际关系的预测装置的一种可能的实现方式的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的人际关系的预测方法及其装置、计算机程序、存储介质。

基于上述现有技术的描述可以知道，相关技术中，对于用户之间家庭关系的判断要求用户输入的信息能够明确反映用户之间的关系，对于没有明确输入有关家庭信息的用户，无法实现家庭关系的获取，同时还需要用户的授权才能实现。因此通过现有技术获取的家庭关系，对于用户的覆盖度低，无法满足互联网信息的推广需求。

针对这一问题，基于各类产品数据进行了大量的分析调研，发现用户在非工作时间段内，网络连接热点、网络连接地址、定位、长时间停留地点存在一定的稳定性，因此积累不同用户在非工作时间内的这些信息可以用来分析、判断用户的家庭属性。

在上述分析调研的基础上，本发明实施例提供了一种人际关系的预测方法，通过获取、分析和比较用户的行为数据来判断用户之间的人际关系，具有一般性和广泛适用性。图1为本发明实施例所提供的一种人际关系的预测方法的流程示意图。如图1所示，该方法包括以下步骤：

S101，获取第一用户的行为数据和第二用户的行为数据。

其中，行为数据是用户的各种行为产生的数据信息。比如：用户在购物时使用手机进行支付，那么用户购物的场所、购买的商品信息、支付的金额都是用户使用手机支付时产生的行为数据。

具体地，可以通过传感器直接采集或者通过第三方软件间接获取用户的行为信息。

为了减少后续对行为数据进行处理的工作量，一种优选的实现方式是，仅获取用户最近一个至几个月的行为数据。

S102，对第一用户的行为数据和第二用户的行为数据进行特征比对，以获得第一用户的行为数据和第二用户的行为数据之间的特征相似度。

其中，行为数据的特征是指行为数据中能够用来判断用户是否属于特定人际关系的特征。行为数据的特征可以包括：地理位置信息、网络连接热点信息、网络连接地址信息、对应的时间信息中的一种或多种，本实施例在此不做限制。

具体地，特征比对的方式有很多。一种可能的实现方式是，对第一用户和第二用户之间每一个特征逐项比对，获得每一个特征对应的相似度，将特征相似度集合作为一个向量进行表示。比如：预先设置的特征相似度量化规则是，存在一个相同的连接时长较小的网络连接地址，特征相似度为1，存在一个相同的网络连接热点，特征相似度为1，存在一个相同的连接时长较大的网络连接地址，特征相似度为2。从第一用户的行为数据中提取出的特征是，连接过连接时长较小的网络连接地址A和B，连接过网络连接热点D和E，连接过连接时长较大的网络连接地址F和G，从第二用户的行为数据中提取出的特征是，连接过连接时长较小的网络连接地址A和C，连接过网络连接热点D和E，连接过连接时长较大的网络连接地址F和H。进行特征比对后得到的相同特征是，连接过连接时长较小的网络连接地址A，连接过网络连接热点D和E，连接过连接时长较大的网络连接地址F，根据预先设置的特征相似度量化规则，得到的特征相似度集合为[1，2，2]。

需要特别说明的是，第一用户的行为数据和第二用户的行为数据中可能并不包含全部的特征，此时，只需要对二者共有的特征进行特征比对，相应的，特征比对得到的特征相似度集合减少对应的向量维度。

S103，根据特征相似度，使用逻辑回归模型计算第一用户和第二用户属于特定人际关系的概率。

其中，属于特定人际关系可以是朋友关系、同学关系、同事关系、家庭关系等多种人际关系，由预测方法的使用者自行选择。

具体地，将S102中获得特征相似度作为逻辑回归模型的输入，通过计算即可得到第一用户和第二用户属于特定人际关系的概率。

需要特别说明的是，逻辑回归模型的参数是根据训练样本的行为数据的特征预先计算出来的，训练样本由属于该特定人际关系的用户所组成。

应当理解的是，逻辑回归模型有多种。一种可能的实现方式是，当训练样本的行为数据的特征包含网络连接地址信息和对应的时间信息，且对应的时间信息对应的时间长度大于等于第二预设阈值时，比如1小时，说明第一用户和第二用户都连接过连接时长较大的网络连接地址，逻辑回归模型的计算公式包括：，当训练样本的行为数据的特征包含网络连接地址信息和对应的时间信息，且对应的时间信息对应的时间长度小于第二预设阈值时，比如1小时，说明第一用户和第二用户都连接过连接时长较小的网络连接地址，逻辑回归模型的计算公式包括：/>，当训练样本的行为数据的特征包含网络连接热点信息时，逻辑回归模型的计算公式包括：/>，其中，/>为训练样本的特征相似度，/>为概率预测值，X为训练样本的特征相似度集合，Y为概率预测值集合，/>为L1正则化系数，/>是待求解系数向量，i为训练样本的序号，n为训练样本集合大小。

可以理解，训练样本已知特征相似度集合X和概率预测值集合Y，通过逻辑回归计算，可以得出待求解系数向量的数值，得到概率预测值集合Y与特征相似度集合X之间一般性的映射关系，再将S102中获得特征相似度通过该映射关系，可以获得第一用户和第二用户属于该特定人际关系的概率。

综上所述，本发明实施例的一种人际关系的预测方法，获取第一用户的行为数据和第二用户的行为数据,对第一用户的行为数据和第二用户的行为数据进行特征比对，以获得第一用户的行为数据和第二用户的行为数据之间的特征相似度；以及根据特征相似度，使用逻辑回归模型计算第一用户和第二用户属于特定人际关系的概率。由此，实现了通过获取、分析和比较用户的行为数据来判断用户之间的人际关系，具有一般性和广泛适用性,提高了用户的覆盖度，能够满足互联网信息的推广需求。

为了让本发明实施例所提出的人际关系的预测方法能够满足用户较多时的应用需求，本发明实施例还提出了另一种人际关系的预测方法，图2为本发明实施例所提供的另一种人际关系的预测方法的流程示意图，基于图1所示的方法流程，在S101获取第一用户的行为数据和第二用户的行为数据之前，还包括：

S201，提取第一用户和第二用户的行为数据中的地理位置特征。

其中，地理位置特征包括用户的移动路径、停留时长较大的地点、连接过的网络连接地址、连接过的网络连接热点、对应的时间信息中的一种或多种。举例来说，用户A每天上下班，早上八点出门，八点半到公司，傍晚五点下班，五点半到家，在家和在公司时都会连接家里和公司的网络，那么用户A每天上下班的移动路径，住址和公司的定位，家里和公司的网络连接地址、网络连接热点以及对应的时间信息就是用户A的行为数据中的地理位置特征。

S202，根据第一用户和第二用户的行为数据中的地理位置特征对第一用户和第二用户的行为数据进行分组。

具体地，可以根据不同的地理位置特征进行分组。一种可能的情况是，根据连接过的网络连接地址或者连接过的网络连接热点对用户进行分组，若用户连接过相同的网络连接地址或者网络连接热点，则被分到该网络连接地址或者网络连接热点对应的分组。优选地，若用户的地理位置特征中既包括连接过的网络连接地址，又包括连接过的网络连接热点，则以连接过的网络连接热点作为分组的标准。举例来说，要对用户A、B、C、D进行分组，其中A、B的地理位置特征中都包含网络连接热点X，B、C、D的地理位置特征中都包含网络连接地址Y，由于B的地理位置特征中既包括网络连接地址X，又包括网络连接热点Y，对B以网络连接热点X作为分组依据，最终将A、B分为一组，C、D分为一组。

为了让分组的依据更加符合特定人际关系的需要，一种优选的实现方式是，对分组所依据的地理位置信息进行优选。比如说，特定人际关系是家庭，那么依据的网络连接地址或者网络连接热点优选为居民使用的网络连接地址或者网络连接热点，而将公司的网络连接地址或者网络连接热点进行剔除。

从而，实现了根据地理位置特征对用户进行分组，以减少特征比对的工作量。

为了让分组后的用户能够更加简便地进行特征比对，本发明实施例还提出了又一种人际关系的预测方法，图3为本发明实施例所提供的又一种人际关系的预测方法的流程示意图，基于图1所示的方法流程，S102中的对第一用户的行为数据和第二用户的行为数据进行特征比对，具体包括：

S301，判断第一用户的行为数据和第二用户的行为数据是否在同一个分组内。

S302，如果判断第一用户的行为数据和第二用户的行为数据在同一个分组内，则对第一用户的行为数据和第二用户的行为数据进行特征比对。

S303，如果判断第一用户的行为数据和第二用户的行为数据不在同一个分组内，则确定第一用户和第二用户不属于特定人际关系。

应当理解的是，只有当第一用户和第二用户具有相同的地理位置特征时，第一用户和第二用户才会在同一个分组，换句话说，如果第一用户和第二用户不在同一个分组，则说明第一用户和第二用户没有相同的地理位置特征，那么也就没有必要进行特征比对，直接可以确定第一用户和第二用户不属于特定人际关系。

从而，实现了对进行特征比对的用户的筛选，减少了用户之间进行特征比对的工作量。

为了获得属于特定人际关系的所有用户，本发明实施例还提出了再一种人际关系的预测方法，图4为本发明实施例所提供的再一种人际关系的预测方法的流程示意图，基于图1所示的方法流程，在S103根据特征相似度，使用逻辑回归模型计算第一用户和第二用户属于特定人际关系的概率之后，还包括：

S401，获取第一用户和第二用户所属的分组。

可以理解，第一用户和第二用户属于同一个分组。

S402，获取所属分组内用户的行为数据，以获得所属分组内用户的人际拓扑关系。

其中，用户的人际拓扑关系是由所属分组内的全部用户两两连接所形成关系，代表着所属分组内全部用户的人际关系。

可以理解，获取所属分组内用户的行为数据，可以根据S401中获取的所属分组的信息，查询到分组内用户的信息以及用户的行为数据。

具体地，获得所属分组内用户的人际拓扑关系的方法有多种。一种可能的实现方式是，筛选分组内两两之间属于特定人际关系的概率大于第一预设阈值的用户对，以获得特定用户对，连接特定用户对，以获得所属分组内用户的人际拓扑关系。

S403，根据属于特定人际关系的概率和人际拓扑关系，对所属分组内的用户的行为数据进行聚类处理，以获得属于特定人际关系的用户。

具体地，将互相之间属于特定人际关系的概率大于预设阈值，且人际拓扑关系密集的多个用户聚类为一个聚簇，一个聚簇内的用户即为属于特定人际关系的用户，聚类处理的方法可以是常见的各种聚类算法，聚类算法的选择过程与处理过程，属于本领域公知常识，此处不再赘述。

进一步地，考虑到实际生活中某些特定的人际关系中用户的数量不会过大，为了让获得的属于特定人际关系的用户更加准确。一种优选的实现方式是，对用户数量过大的聚簇进行重过滤召回，如图5所示，采用概率二阶导数转折点切割过滤法进行重过滤召回，以提高准确率和召回率。

为了评价本发明实施例所提出的人际关系的预测方法获得结果的质量，可以对属于特定人际关系的用户以及该特定人际关系进行置信度打分。举例来说，如图6所示，采用KNN均值法对家庭成员的置信度进行打分，对于任何一个用户，计算其所连的用户对中概率最大K个边，计算它们的均值作为该用户的置信度，成员置信度的整体均值作为家庭置信度。

为了更加清楚地说明本发明实施例所提供的人际关系的预测方法，下面进行举例说明。如图7所示，为了预测多个用户之间是否属于家庭关系，首先对用户之间是否属于家庭关系进行概率计算，获得用户属于家庭关系的概率以及用户之间的家庭拓扑关系，然后进行聚类处理，将用户分为多个家庭关系，为了增加家庭关系预测的准确率，将家庭成员过大的超大家庭重召回，进行再次预测，最后对家庭成员置信度进行打分，评价家庭关系预测的准确度。

从而，实现了由第一用户和第二用户获得属于特定人际关系的全部用户。

为了实现上述实施例，本发明实施例还提出一种人际关系的预测装置，图8为本发明实施例所提供的一种人际关系的预测装置的结构示意图，如图8所示，该装置包括：第一获取模块510，比对模块520，计算模块530。

第一获取模块510，用于获取第一用户的行为数据和第二用户的行为数据。

比对模块520，用于对第一用户的行为数据和第二用户的行为数据进行特征比对，以获得第一用户的行为数据和第二用户的行为数据之间的特征相似度。

计算模块530，用于根据特征相似度，使用逻辑回归模型计算第一用户和第二用户属于特定人际关系的概率。

需要说明的是，前述对人际关系的预测方法实施例的解释说明也适用于该实施例的人际关系的预测装置，此处不再赘述。

综上所述，本发明实施例的一种人际关系的预测装置，获取第一用户的行为数据和第二用户的行为数据,对第一用户的行为数据和第二用户的行为数据进行特征比对，以获得第一用户的行为数据和第二用户的行为数据之间的特征相似度；以及根据特征相似度，使用逻辑回归模型计算第一用户和第二用户属于特定人际关系的概率。由此，实现了通过获取、分析和比较用户的行为数据来判断用户之间的人际关系，具有一般性和广泛适用性,提高了用户的覆盖度，能够满足互联网信息的推广需求。

为了实现上述实施例，本发明实施例还提出另一种人际关系的预测装置，图9为本发明实施例所提供的另一种人际关系的预测装置的结构示意图，如图9所示，基于图8所示的预测装置，该装置还包括：提取模块610，分组模块620。

提取模块610，用于提取第一用户和第二用户的行为数据的位置特征。

分组模块620，用于根据第一用户和第二用户的行为数据的位置特征对第一用户和第二用户的行为数据进行分组。

为了实现上述实施例，本发明实施例还提出又一种人际关系的预测装置，图10为本发明实施例所提供的又一种人际关系的预测装置的结构示意图，如图10所示，基于图8所示的预测装置，比对模块520包括：

判断单元521，用于判断第一用户的行为数据和第二用户的行为数据是否在同一个分组内。

特征比对单元522，用于在判断单元521判断第一用户的行为数据和第二用户的行为数据在同一个分组内时，对第一用户的行为数据和第二用户的行为数据进行特征比对。

确定单元523，用于在判断单元521判断第一用户的行为数据和第二用户的行为数据不在同一个分组内时，确定第一用户和第二用户不属于特定人际关系。

为了实现上述实施例，本发明实施例还提出再一种人际关系的预测装置，图11为本发明实施例所提供的再一种人际关系的预测装置的结构示意图，如图11所示，基于图8所示的预测装置，该装置还包括：

第二获取模块710，用于获取第一用户和第二用户所属的分组。

第三获取模块720，用于获取所属分组内用户的行为数据，以获得所属分组内用户的人际拓扑关系。

聚类处理模块730，用于根据属于特定人际关系的概率和人际拓扑关系，对所属分组内的用户的行为数据进行聚类处理，以获得属于特定人际关系的用户。

进一步地，为了获得所属分组内用户的人际拓扑关系，一种可能的实现方式是，如图12所示，第三获取模块720，具体包括：获取单元721，用于获取所属分组内用户的行为数据，筛选单元722，用于筛选分组内两两之间属于特定人际关系的概率大于第一预设阈值的用户对，以获得特定用户对，连接单元723，用于连接特定用户对，以获得所属分组内用户的人际拓扑关系。

为了实现上述实施例，本发明实施例还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的人际关系的预测方法。

为了实现上述实施例，实施例还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的人际关系的预测方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种人际关系的预测方法，其特征在于，包括：

获取第一用户的行为数据和第二用户的行为数据；

对所述第一用户的行为数据和所述第二用户的行为数据进行特征比对，以获得所述第一用户的行为数据和所述第二用户的行为数据之间的特征相似度；以及

根据所述特征相似度，使用逻辑回归模型计算所述第一用户和所述第二用户属于特定人际关系的概率；

在所述获取第一用户的行为数据和第二用户的行为数据之后，还包括：

提取所述第一用户和所述第二用户的行为数据中的地理位置特征；

根据所述第一用户和所述第二用户的行为数据中的地理位置特征对所述第一用户和第二用户的行为数据进行分组；

所述根据所述特征相似度，使用逻辑回归模型计算所述第一用户和所述第二用户属于特定人际关系的概率之后，还包括：

获取所述第一用户和所述第二用户所属的分组；

获取所述所属分组内用户的行为数据，以获得所述所属分组内用户的人际拓扑关系，所述人际拓扑关系是由所属分组内的全部用户两两连接所形成关系；

根据所述属于特定人际关系的概率和所述人际拓扑关系，对所述所属分组内的用户的行为数据进行聚类处理，以获得属于所述特定人际关系的用户。

2.如权利要求1所述的预测方法，其特征在于，所述对所述第一用户的行为数据和所述第二用户的行为数据进行特征比对，包括：

判断所述第一用户的行为数据和所述第二用户的行为数据是否在同一个分组内；

如果判断所述第一用户的行为数据和所述第二用户的行为数据在同一个分组内，则对所述第一用户的行为数据和所述第二用户的行为数据进行特征比对；

如果判断所述第一用户的行为数据和所述第二用户的行为数据不在同一个分组内，则确定所述第一用户和所述第二用户不属于特定人际关系。

3.如权利要求1所述的预测方法，其特征在于，所述获取所述所属分组内用户的行为数据，以获得所述所属分组内用户的人际拓扑关系，包括：

获取所述所属分组内用户的行为数据；

筛选所述分组内两两之间属于特定人际关系的概率大于第一预设阈值的用户对，以获得特定用户对；

连接所述特定用户对，以获得所述所属分组内用户的人际拓扑关系。

4.如权利要求1-3中任一项所述的预测方法，其特征在于，所述行为数据的特征包括：地理位置信息、网络连接热点信息、网络连接地址信息、对应的时间信息中的一种或多种。

5.如权利要求4所述的预测方法，其特征在于，根据训练样本的行为数据的特征和如下计算公式获得所述逻辑回归模型：

其中，当所述训练样本的行为数据的特征包含所述网络连接地址信息和所述对应的时间信息，且所述对应的时间信息对应的时间长度大于等于第二预设阈值时，所述逻辑回归模型的计算公式包括：；

当所述训练样本的行为数据的特征包含所述网络连接热点信息时，所述逻辑回归模型的计算公式包括：；

当所述训练样本的行为数据的特征包含所述网络连接地址信息和所述对应的时间信息，且所述对应的时间信息对应的时间长度小于第二预设阈值时，所述逻辑回归模型的计算公式包括：，

其中，为训练样本的特征相似度，/>为概率预测值，X为训练样本的特征相似度集合，Y为概率预测值集合，/>为L1正则化系数，/>是待求解系数向量，i为训练样本的序号，n为训练样本集合大小。

6.一种人际关系的预测装置，其特征在于，包括：

第一获取模块，用于获取第一用户的行为数据和第二用户的行为数据；

比对模块，用于对所述第一用户的行为数据和所述第二用户的行为数据进行特征比对，以获得所述第一用户的行为数据和所述第二用户的行为数据之间的特征相似度；以及

计算模块，用于根据所述特征相似度，使用逻辑回归模型计算所述第一用户和所述第二用户属于特定人际关系的概率；

提取模块，用于提取所述第一用户和所述第二用户的行为数据的位置特征；

分组模块，用于根据所述第一用户和所述第二用户的行为数据的位置特征对所述第一用户和第二用户的行为数据进行分组；

第二获取模块，用于获取所述第一用户和所述第二用户所属的分组；

第三获取模块，用于获取所述所属分组内用户的行为数据，以获得所述所属分组内用户的人际拓扑关系，所述人际拓扑关系是由所属分组内的全部用户两两连接所形成关系；

聚类处理模块，用于根据所述属于特定人际关系的概率和所述人际拓扑关系，对所述所属分组内的用户的行为数据进行聚类处理，以获得属于所述特定人际关系的用户。

7.如权利要求6所述的预测装置，其特征在于，所述比对模块包括：

判断单元，用于判断所述第一用户的行为数据和所述第二用户的行为数据是否在同一个分组内；

特征比对单元，用于在所述判断单元判断所述第一用户的行为数据和所述第二用户的行为数据在同一个分组内时，对所述第一用户的行为数据和所述第二用户的行为数据进行特征比对；

确定单元，用于在所述判断单元判断所述第一用户的行为数据和所述第二用户的行为数据不在同一个分组内时，确定所述第一用户和所述第二用户不属于特定人际关系。

8.如权利要求6所述的预测装置，其特征在于，所述第三获取模块，包括：

获取单元，用于获取所述所属分组内用户的行为数据；

筛选单元，用于筛选所述分组内两两之间属于特定人际关系的概率大于第一预设阈值的用户对，以获得特定用户对；

连接单元，用于连接所述特定用户对，以获得所述所属分组内用户的人际拓扑关系。

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的人际关系的预测方法。