CN110851485B

CN110851485B - 社交关系的挖掘方法及装置、计算机设备与可读介质

Info

Publication number: CN110851485B
Application number: CN201810826250.9A
Authority: CN
Inventors: 谷松
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2022-07-22
Anticipated expiration: 2038-07-25
Also published as: CN110851485A

Abstract

本发明提供一种社交关系的挖掘方法及装置、计算机设备与可读介质。其方法包括：将采集到的多个应用的用户行为数据基于用户进行打通，获取各个用户的行为数据；基于各用户的行为数据，挖掘数对双向关系用户对。与现有的社交关系挖掘方案相比，本发明的技术方案，不局限于仅对一个应用内的社交关系进行挖掘，可以适用于对多个应用中的社交关系进行挖掘，具有非常强的实用性，同时还能够保证挖掘的社交关系的准确性。

Description

社交关系的挖掘方法及装置、计算机设备与可读介质

【技术领域】

本发明涉及计算机应用技术领域，尤其涉及一种社交关系的挖掘方法及装置、计算机设备与可读介质。

【背景技术】

在互联网普及的大环境下，每天都会产生大量的用户行为数据。但是对于一些非强社交场景的产品，由于一方面强账号体系的缺失，另一方面缺乏典型的用户社交关系业务服务场景，因此，希望挖掘用户之间的社交关系，基于此关系进行一些风险控制评估、个性化推荐、或者强社交产品功能的开发，进一步提升用户体验、业务收益的计划难以有效落地实施。

现有技术中的社交关系的挖掘方案主要集中在如下两种场景中：第一种：基于强社交数据的挖掘，例如在用户通讯录、微信或者QQ好友中挖掘，若两个用户为好友关系，则认为这两个用户具有较强的社交关系。第二种：基于关注类数据的挖掘，例如在微博关注数据中，借助于关注个体的连通关系进行聚类挖掘，能够挖掘哪些用户对之间为好友，具有较强的社交关系。

但是，上述社交关系中，对数据要求苛刻，例如通常只能在一个应用中挖掘具有好友关系的两个用户对，才认为他们之间具有社交关系，而实际应用中，同一个用户在不同的应用中可能都有行为，如用户A和用户B在第一个应用中没有任何交集，而在其他应用中可能有交集。而若采用现有技术的方案，基于第一个应用来挖掘社交关系的时候，便认为用户A和用户B没有社交关系。因此，现有的社交关系挖掘方案局限性太多，实用性较差，导致很多用户对之间的社交关系未被真正挖掘出来。

【发明内容】

本发明提供了一种社交关系的挖掘方法及装置、计算机设备与可读介质，用于克服现有社交关系挖掘的局限性，提高社交关系挖掘的实用性。

本发明提供一种社交关系的挖掘方法，其特征在于，所述方法包括：

将采集到的多个应用的用户行为数据基于用户进行打通，获取各个用户的行为数据；

基于各所述用户的行为数据，挖掘数对双向关系用户对。

本发明还提供一种社交关系的挖掘装置，所述装置包括：

获取模块，用于将采集到的多个应用的用户行为数据基于用户进行打通，获取各个用户的行为数据；

挖掘模块，用于基于各所述用户的行为数据，挖掘数对双向关系用户对。

本发明还提供一种计算机设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的社交关系的挖掘方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的社交关系的挖掘方法。

本发明的社交关系的挖掘方法及装置、计算机设备与可读介质，将采集到的多个应用的用户行为数据基于用户进行打通，获取各个用户的行为数据；基于各用户的行为数据，挖掘数对双向关系用户对。与现有的社交关系挖掘方案相比，本发明的技术方案，不局限于仅对一个应用内的社交关系进行挖掘，可以适用于对多个应用中的社交关系进行挖掘，具有非常强的实用性，同时还能够保证挖掘的社交关系的准确性。

【附图说明】

图1为本发明的社交关系的挖掘方法实施例一的流程图。

图2为本发明实施例中的ID聚合效果图。

图3为本发明的社交关系的挖掘方法实施例二的流程图。

图4为本发明的社交关系的挖掘方法实施例三的流程图。

图5为本发明的社交关系的挖掘装置实施例一的结构图。

图6本发明的社交关系的挖掘装置实施例二的结构图。。

图7为本发明的计算机设备实施例的结构图。

图8为本发明提供的一种计算机设备的示例图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的社交关系的挖掘方法实施例一的流程图。如图1所示，本实施例的社交关系的挖掘方法，具体可以包括如下步骤：

100、将采集到的多个应用的用户行为数据基于用户进行打通，获取各个用户的行为数据；

本实施例的社交关系的挖掘方法的执行主体为社交关系的挖掘装置，例如可以应用在社交网站服务(Social Networking Services；SNS)中，实现对SNS中的社交关系的挖掘。

在实际应用中，在不同的应用中，用户可能采用不同的注册账号来登录。如果用户将各应用的注册账号强关联，即将某一应用的注册账号关联至另一个应用中，此时根据强关联的注册账号，很容易确定这两个位于不同应用中的不同的注册账号对应同一自然人。但是实际应用中，很多场景下，用户并不进行不同应用的注册账号强关联。这样，在现有技术中，无法实现在不同应用中的将同一用户的注册账号或者其他信息进行关联，从而无法准确挖掘基于各个应用的用户的社交行为。

本实施例中，可以基于用户的授权，采集多个应用的用户行为数据。其中本实施例的多个应用可以为归属于同一个公司的多个应用，也可以归属于不同公司的多个应用。本实施例的多个应用的选取可以基于社交关系挖掘所需数据来选择。然后将采集到的多个应用的用户行为数据实现用户级别的打通，从而可以获取各个用户的所有行为数据，即获取到每一个用户在各个应用中的行为数据，以便于根据每个用户在各个应用的行为数据，对每个用户的社交关系进行全方位的挖掘。

例如，该步骤100“将采集到的多个应用的用户行为数据基于用户进行打通，获取各个用户的行为数据”具体可以包括如下步骤：

(a1)基于设备ID与注册账号ID的对应关系、设备ID与cookie ID的对应关系，和/或不同注册账号ID之间的对应关系，从多个应用的用户行为数据中挖掘属于同一个用户的ID的映射聚合；

(b1)根据同一个用户的ID的映射聚合，从多个应用的用户行为数据中抽取各个用户的行为数据。

具体地，在实际应用中，用户每使用一个应用都需要使用注册账号登录，该注册账号用于在该应用中唯一标识该用户。同时，用户可以通过个人计算机(person computer；pc)、网页(wap)、或者应用(Application；app)等方式登录该应用。由于pc为用户的私有设备，通常情况下，用户只要通过私有pc登录其注册账户的应用。且pc作为硬件设备，具有自己的设备标识(Identification；ID)。因此，对于同一用户，可以对应存在设备ID与注册账号ID的对应关系。同理，对于同一用户，可以在同一设备中分别登录不同的应用，分别对应存在不同的cookie ID，所以可以对应存在设备ID与cookie ID的对应关系。再者，同一用户可以在不同应用中使用不同的注册账号，从而可以对应存在不同注册账号ID之间的对应关系。实际应用中，根据实际需求，同一用户还可以存在其他的不同类型的ID之间的对应关系，在此不再一一举例。另外，实际应用中，同一用户常用的硬件设备不仅包括办公电脑、也可以包括家用电脑以及手机，所以同一用户对应的不同设备ID可以存在多个，从而可以实现同一用户的不同设备ID的打通。另外，同一用户在同一设备中可以使用不同的app，所以同一设备ID中可以对应多个cookie ID，从而可以实现同一设备中的同一用户的不同cookie ID的打通；由于同一用户对应的不同的cookie ID，每一个cookie ID对应一个注册账号ID，从而可以实现同一用户的不同注册ID的打通。同时还可以采用其他方式，实现同一用户的不同ID的打通。然后，可以将同一用户对应的所有不同的ID聚合在一起，作为该用户的ID的映射聚合。接着再根据同一个用户的ID的映射聚合，从多个应用的用户行为数据中抽取该用户的每个ID对应的行为数据，均作为该用户的行为数据。

例如，图2为本发明实施例中的ID聚合效果图。如图2所示，以User ID0和User ID1两个用户为例，聚合后用户User ID0的ID映射聚合中可以包括User ID0、Device ID0、Device ID1、cookie ID0、cookie ID1、cookie ID2以及cookie ID3。聚合后用户User ID1的ID映射聚合中可以包括User ID1、Device ID1、cookie ID2以及cookie ID3。然后，从采集到的各应用的行为数据中，抽取User ID0的ID映射聚合中的所有ID对应的行为数据，作为该User ID0的行为数据。同理，从采集到的各应用的行为数据中，抽取User ID1的ID映射聚合中的所有ID对应的行为数据，作为该User ID1的行为数据。

基于上述实施例的方法，可以从多个应用的用户行为数据中挖掘出每个用户的行为数据。

101、基于各用户的行为数据，挖掘数对双向关系用户对。

本实施例中，两个用户构成的用户对之间若存在社交关系时，用户对中的该两个用户必然是双向关系，即两个用户之间存在互动。否则若两个用户之间没有互动，或者仅仅是一个用户关注另一个用户的单向关系，此时不认为两个用户之间存在社交关系。

本实施例中，根据上述挖掘的每个用户的行为数据，可以得知用户的每个行为作用的对象用户，以及作用于用户的行为发起用户，进而可以挖掘出数对具有双向关系的用户对。例如双向关系的用户对中，可以包括两个用户的标识(如ID)。

本实施例中，由于对多个应用的用户行为数据进行分析，可以避免现有技术中，仅在一个应用中挖掘社交关系导致的挖掘的社交关系不准确的缺陷，通过多个应用的用户行为数据，能够挖掘出更加准确的社交关系。

本实施例的社交关系的挖掘方法，通过将采集到的多个应用的用户行为数据基于用户进行打通，获取各个用户的行为数据；基于各用户的行为数据，挖掘数对双向关系用户对。与现有的社交关系挖掘方案相比，本实施例的技术方案，不局限于仅对一个应用内的社交关系进行挖掘，可以适用于对多个应用中的社交关系进行挖掘，具有非常强的实用性，同时还能够保证挖掘的社交关系的准确性。

图3为本发明的社交关系的挖掘方法实施例二的流程图。如图3所示，本实施例的社交关系的挖掘方法，主要用于对上述图1所示实施例中的步骤101中“基于各用户的行为数据，挖掘数对双向关系用户对”的一种具体实现方式进行详细说明，具体可以包括如下步骤：

200、从各用户的行为数据中，挖掘多个群组；执行步骤201；

本实施例中，可以从各个用户的行为数据中挖掘多个群组。如下述表1所示，本实施例群组可以根据应用的场景分为多种类型、来源以及大小群组判断阈值。

表1

201、清洗多个群组中的不合法的群组；执行步骤202；

该步骤可以作为一种可选步骤来执行，具体可以根据群组类型的特性，来清洗不合法的群组。例如当多个用户连接同一路由器，则可以认为连接同一路由器的多个用户构成一个群组。如过该路由器为公共的非法路由器，则该群组则属于不合法的群组，需要清洗掉。再例如，对于共同使用过某个强账号的多个用户，也可以认为是一个群组。但是如果预设的包括多个不合法的共享账号的黑名单中包括该强账号，则可以认为该群组也是一个不合法的群组，需要清洗掉。同理，对于在同一台手机上登录的多个用户的群组、SNS场景下的讨论组或者用户群，都可以通过预先设置的包括多个不合法的群组标识的黑名单，来判断该群组是否为不合法群组，若是，则清洗掉对应的该群组。

202、判断各群组中包括的用户的数量是否大于或者等于对应的预设数量阈值，若是，执行步骤203；否则执行步骤204；

实际应用中，如上述表1所示，对于每种类型的群组，对应的预设数量阈值可以不相同。具体的数量可以为一个十位数或者个位数，在此不作具体限定。

203、确定对应的群组为大群组，暂时存储大群组；执行步骤210；

204、确定对应的群组为小群组；执行步骤205；

205、将各小群组中任意两个用户所构成的用户对设置为双向关系用户对；结束。

此时完成一种基于各用户的行为数据，挖掘数对双向关系用户对的实现方式。

206、从各用户的部分行为数据中，获取各用户对应的单向关系的用户对，得到多个初始单向关系用户对；执行步骤207；

具体地，在分析每个用户的行为数据时，先从该用户的部分行为数据中，获取该用户对应的多个单向关系的用户对。例如在用户A的行为数据中，发现用户A评论了用户B的信息，则用户A与用户B之间为用户A指向用户B的单向关系用户对。而同时还发现了用户A关注了用户C的信息，则用户A与用户C之间为用户A指向用户C的单向关系用户对。同理，对于多个用户，可以获取到每一个用户对应的所有初始单向关系用户对，总共得到多个初始单向关系用户对。

207、清洗多个初始单向关系用户对中的不合法的用户对；执行步骤208；

实际应用中，当一个用户关注另一个用户时，发起关注的用户可能是一些作弊的非法账户，这些账户存在一个特性，本实施例中，可以利用非法账户的特性，清洗多个初始单向关系用户对中的不合法的用户对。

例如，具体可以包括如下至少一个步骤：

(a2)判断各初始单向关系用户对中发起单向关系的用户是否为预设的黑名单中的用户，若是，确定单向关系用户对为非法用户对，并删除；否则保留该单向关系用户对。

实际应用中，可以将已经查出来的作弊账户的标识构成一个预设的黑名单。然后可以根据黑名单，判断各初始单向关系用户对中发起单向关系的用户的标识是否为黑名单中的某个用户的标识，若是，则确定该初始单向关系用户对中发起单向关系的用户可能是一个非法用户，此时可以删除该单向关系用户对。

(b2)判断各初始单向关系用户对中发起单向关系的用户在单位时间内、在每一种社交行为中主动增加的好友的数量是否超出第一预设阈值，若是，确定单向关系用户对为非法用户对，并删除；否则保留该单向关系用户对。

该步骤(b2)的实施，是在每一种社交行为中进行分析。实际应用中，正常用户在每次操作时都需要消耗一定的时间，所以普通用户在同一个社交行为中、单位时间如1min内不可能同时主动增加很多数量的好友。而如果一个1min内主动增加了很多数量的好友，则说明该用户对应的可能是一个恶意账号，因此，本实施例中可以通过各初始单向关系用户对中发起单向关系的用户在单位时间内主动增加的好友的数量是否超出第一预设阈值，若超过，确定该单向关系用户对为非法用户对，并删除；否则保留。本实施例的单位时间和第一预设阈值可以根据实际经验来设置。本实施例中，只有当该用户在每一种社交行为中主动增加的好友的数量均未超出第一预设阈值，该用户才为合法用户。

本实施例的主动增加好友的方式可以为某用户关注某个好友、点评某个好友或者对好友采用其他单向的主动行为，从而使得该好友为该用户的好友。

(c2)判断各初始单向关系用户对中发起单向关系的用户在每一种社交行为中主动增加的好友的总数量是否超出第二预设阈值，若是，确定单向关系用户对为非法用户对，并删除；否则保留该单向关系用户对。

同理，该步骤仍在每一社交行为中进行分析。正常用户浏览信息的时间是有限的，所以正常用户再同一社交行为中主动增加的好友的总数量不可能超过第二预设阈值，本实施例的第二预设阈值可以根据实际经验来选取，例如可以为500或者其他更大的数值。或者可以参考各种app中普通用户主动增加的好友的最大值来设定。如果验证后确定各初始单向关系用户对中发起单向关系的用户主动增加的好友的总数量超出第二预设阈值，确定该发起单向关系的用户对应的可能是一个恶意账号，对应的初始单向关系用户对为非法用户对，可以删除；否则保留。其中主动增加好友的方式参考上述相关步骤的记载，在此不再赘述。

(d2)判断各初始单向关系用户对中发起单向关系的用户在每一种社交行为中的行为模式是否固定，若是，确定单向关系用户对为非法用户对，并删除；否则保留该单向关系用户对。

同理，该步骤仍在每一社交行为中进行分析。实际应用中普通用户的操作的行为模式通常是随意的，而恶意账户所发起的操作通常会采用固定的行为模式来进行操作，如每10分钟关注预设数量的好友。基于上述特性，可以判断各初始单向关系用户对中发起单向关系的用户的行为模式是否固定，若是固定，可以认为发起单向关系的用户可能是一个恶意账户，此时可以删除对应的初始单向关系用户对。

(e2)判断各初始单向关系用户对中发起单向关系的用户在每一种社交行为中被关注的人数是否低于第三预设阈值，若是，确定单向关系用户对为非法用户对，并删除；否则保留该单向关系用户对。和/或

同理，该步骤仍在每一社交行为中进行分析。本实施例中，还可以分析普通用户的恶意账户的被关注特性。通常情况下，普通用户在应用中，不可能没有被关注的好友。而对于恶意账户的用户即使被普通用户关注了，发现是一个恶意账户，也会取关的。因此，本实施例中，可以判断各初始单向关系用户对中发起单向关系的用户被关注的人数是否低于第三预设阈值，若是，则认为该用户可能对应的是一个恶意账户，此时可以删除对应的初始单向关系用户对。本实施了的第三预设阈值同样可以根据实际经验来设置，例如可以参考实际应用中，普通用户被最少关注的人数来设置。

(f2)判断各初始单向关系用户对中发起单向关系的用户在每一种社交行为中被关注的人数和关注的人数是否小于预设比例，若是，确定单向关系用户对为非法用户对，并删除。

同理，该步骤仍在每一社交行为中进行分析。在实际应用中，用户关注的好友越多，该用户被好友关注的人数也会越多，即同一用户关注的人数和被关注的人数存在一定的线性关系。根据实际应用中，正常用户的被关注的人数和关注的人数的比例，可以设置一个最低的预设比例。当验证到发起单向关系的用户被关注的人数和关注的人数小于预设比例时，则说明该用户基本上都在关注其他好友，而其他好友很少关注该用户，该用户可能对应一个恶意账户，对应地，可以删除对应的初始单向关系用户对。步骤(e2)和(f2)是以关注作为主动发起的社交行为为例，实际应用，也可以采用相类似的其他社交行为，在此不再一一举例赘述。

上述步骤(a2)-(f2)可以以择一的方式存在，只需要执行任意一个步骤即可。或者也可以任意组合作为判断非法用户对的判断条件，且多个组合时，只要组合中任意一个判断条件确定该单向关系用户对为非法用户对，都确认该单向关系用户对为非法用户对；即只有所有组合对应的条件都确定该单向关系用户对不是非法用户对，此时才可以确定该单向关系用户对是合法的。

208、根据清洗后剩余的各有效单向关系用户对中的各用户的所有行为数据，验证有效单向关系用户对实际上为双向关系用户对还是单向关系用户对；若为双向关系用户对时，执行步骤209；否则若为单向关系用户对时，执行步骤210；

由于在上述步骤206获取的初始单向关系用户对，仅仅是根据该用户的行为数据中的某一条能够表征该用户与其他用户的单向关系的行为数据获取的。该初始单向关系用户对并不一定代表该用户的最终的社交关系，所以必须经过步骤208，根据各有效单向关系用户对中的各用户的所有行为数据，验证有效单向关系用户对实际上为双向关系用户对还是单向关系用户对。实际应用中，可以假设有效单向关系用户对包括第一用户和第二用户，有效单向用户对为第一用户指向第二用户的单向关系；此时具体可以根据第二用户的所有行为数据，验证是否存在第二用户指向第一用户的单向关系，若存在，确定有效单向关系用户对实际上为为双向关系用户对，否则为单向关系用户对。

例如，假如步骤206中时根据用户A关注用户B的行为数据，获取到的用户A指向用户B的单向关系用户对。而根据用户B的行为数据，还能够发现用户B还转发了用户A的信息，或者评论为用户A的信息，等等用户B对用户A的行为操作，此时可以确定用户A和用户B实际上是双向关系用户对。而假如分析完用户B的所有行为数据，发现用户B没有对用户A作了任何行为操作，此时可以认为用户A和用户B还是用户A指向用户B的单向关系用户对。

实际应用中，也可以在步骤207之后先执行步骤208进行验证，再得到单向关系用户对和双向关系用户对之后，分别对用户对进行清洗。但是这样的操作，会导致步骤208中需要验证的很多单向关系用户对或者双向关系用户对都是非法用户对，浪费了验证时间。而优选地，还是按照现有的步骤206、步骤207、步骤208的顺序来执行，这样，先执行步骤207清洗之后，可以先对不合法的单向关系用户对进行清洗，以保证后续验证的有效单向关系用户对都是有效的，以节省验证时间，提高验证效率。

209、将对应的有效单向关系用户对修正为双向关系用户对，结束。

此时完成另一种基于各用户的行为数据，挖掘数对双向关系用户对的实现方式。

210、根据步骤203挖掘的大群组，验证步骤208得到的单向关系用户对中的两个用户是否属于同一大群组中的用户；若是，执行步骤211；否则执行步骤212；

211、将对应的有效单向关系用户对修正为双向关系用户对，结束。

此时完成再一种基于各用户的行为数据，挖掘数对双向关系用户对的实现方式。

212、存储该单向关系用户对，以备后续使用。

验证有效单向关系用户对实际上还是单向关系用户对，此时该单向关系用户对不能作为挖掘的社交关系的结果，但是也暂时保存该单向关系用户对，以备后续再需要时使用。

根据本实施例的上述记载，可以得到如下述表2所示的SNS场景中的社交关系信息。

表2

其中步骤207通过对初始单向关系用户对经过一系列的反作弊清洗保证关系行为本身的有效性，从而过滤掉一些机器人、作弊行为对应的用户对，使得步骤209产出双向关系用户对，而对于无法形成有效的双向关系的单向关系用户对，暂时保留，以备后续做其他辅助构建使用。本实施例的双向关系用户对对应的双向关系的形成包括如下表3所示信息。

表3

基于本实施例的上述步骤中，在具体实现时，可以根据各用户的行为数据，形成“双向关系用户对”、“无法形成有效双向关系的单向关系用户对”、“大群组”、“小群组”；然后也可以参考类似步骤210的方案，将“无法形成有效双向关系的单向关系用户对”和“大群组”的用户对进行JOIN拼接，如果有重合的用户对，则标注此部分用户对可以为“修正小群组”。最后把“双向关系用户对”、“小群组”、“修正小群组”进行merge，作为最终的产出的用户社交关系对。其中“小群组”和“修正小群组”中任意两个用户所形成的用户对均为双向关系用户对。

本实施例的社交关系的挖掘方法，通过采用上述技术方案，能够从各用户的行为数据，准确挖掘出数对双向关系用户对，与现有的社交关系挖掘方案相比，本实施例的技术方案，不局限于仅对一个应用内的社交关系进行挖掘，可以适用于对多个应用中的社交关系进行挖掘，具有非常强的实用性，同时还能够保证挖掘的社交关系的准确性。

进一步可选地，上述图1所示实施例中的步骤101中“基于各用户的行为数据，挖掘数对双向关系用户对”的还可以存在如下具体实现方式，具体可以包括如下步骤：

(a3)从各用户的所有行为数据中，挖掘多个初始双向关系用户对；

(b3)清洗多个初始双向关系用户对中的不合法的用户对，得到多个双向关系用户对。

与上述图3所示实施例的步骤206-211不同的是，本实施例中，可以对各用户的所有行为数据进行分析，挖掘多个初始双向关系用户对。然后清洗多个初始双向关系用户对中的不合法的用户对。具体清洗时可以将多个初始双向关系用户对中每个初始双向关系用户对拆分为两个单向关系用户对，并按照上述图3所示实施例的步骤207对每个单向关系用户对进行清洗。只有当初始双向关系用户对中对应的两个单向用户对都是合法的时候，该初始双向关系用户对才是一个有效的双向关系用户对。步骤(a3)与上述步骤206的区别在于，上述步骤206中可以理解为仅从该用户的部分行为数据中，挖掘存在单向关系的用户对，即使该单向关系用户对为某一双向关系用户对中的一半，此时也先要挖掘出来，以进行数据清洗，和后续关系的验证。而步骤(a3)中，需要对从每个用户的所有行为数据进行分析，挖掘多个初始双向关系用户对，此时的初始双向关系对，已经是用户对的最终关系用户对，后续只需要清洗掉不合法的用户对即可。进一步可选地，上述图1所示实施例的步骤101中“基于各用户的行为数据，挖掘数对双向关系用户对”的还可以存在如下具体实现方式，具体还可以包括如下步骤：

(a4)从各用户的所有行为数据中，挖掘多个疑似单向关系用户对；

(b4)清洗多个疑似单向关系用户对中的不合法的用户对，得到多个候选单向关系用户对；

该步骤(a4)到(b4)的具体实现方式，可以参考上述步骤(a3)到(b3)的实现，区别仅在于上述(a3)中，对各用户的所有行为数据分析后，挖掘的是多个初始双向关系用户对；而步骤(a4)，对各用户的所有行为数据分析后，挖掘的是多个疑似单向关系用户对，也代表着各用户的所有行为数据表征的能够代表这两个用户的最终关系。对应的，也需要清洗挖掘到的多个疑似单向关系用户对中的不合法的用户对，得到多个候选单向关系用户对。

(c4)根据预先挖掘的多个大群组中包括的用户，验证各候选单向关系用户对中的两个用户是否属于同一大群组中的用户；若是，执行步骤(d4)；否则，执行步骤(e4)。

(d4)将对应的候选单向关系用户对设置为双向关系用户对；结束。

(e4)确定候选单向关系用户对仍为单向关系用户对。

本实施例中，步骤(c4)-(e4)的具体实现过程与上述图3所示实施例的步骤210-212相同，详细可以参考上述相关实施例的记载，在此不再赘述。

本实施例中，双向关系用户对对应的双向关系边上承载了各种社交互动行为，例如，用户A和用户B之间的双向关系边Edge(A,B)的存储形式可以表示为：Edge(A,B)contains[[A action B,timestamp,count,src_list,prodct_list],...]。

例如：Edge(A,B)可以包含(contains)[[A follow B,timestamp,count,src1#src2,product1#prodcut2],[A comment B,timestamp,count,src3,product1#product2#product3],[B like A,timestamp,count,src3,product1#product2],[[B follow A,timestamp,count,src1,product1]]]。

图4为本发明的社交关系的挖掘方法实施例三的流程图。如图4所示，本实施例的社交关系的挖掘方法，在上述图1和图3所示实施例的技术方案的基础上，进一步更加详细的介绍本发明的技术方案。如图4所示。本实施例的社交关系的挖掘方法，具体可以包括如下步骤：

300、将采集到的多个应用的用户行为数据基于用户进行打通，获取各个用户的行为数据；

301、基于各用户的行为数据，挖掘数对双向关系用户对；

上述步骤300和301的实施，具体可以参考上述图1和图3所示实施例的记载，在此不再赘述。

302、根据各双向关系用户对中各用户的行为数据，分析对应的双向关系用户对中两个用户之间的社交关系强度。

通过上述实施例，能够通过各种方式挖掘出用户的社交关系即社交网络中的双向关系用户对。而实际的社交关系中，一个用户可以有多个好友，但未必与每个好友的熟识程度都是熟悉，此时可以借助于社交关系强度来表征两个好友之前的熟识程度。

例如，本实施例中，以双向关系用户对中包括用户A和用户B为例，用户A的行为数据中可以包括用户A对用户B的信息的转发与转发次数、用户A发布信息的时候对用户B的提及与提及次数、用户A对用户B的信息的评论与评论次数、和/或用户A对用户B的关注等等。同理，用户B的行为数据中可以包括用户B对用户A的信息的转发与转发次数、用户B发布信息的时候对用户A的提及与提及次数、用户B对用户A的信息的评论与评论次数、和/或用户B对用户A的关注等等。这样根据用户A的行为数据中涉及到用户B的行为数据以及用户B的行为数据中涉及到用户A的行为数据，可以挖掘对应的双向关系用户对中用户A和用户B之间的社交关系强度。

双向关系用户对中两个用户的社交关系强度可以不做限定都设置为相等的数值，如1或者0等。但这样往往不能真实地反映复杂的社交关系。所以此时需要根据步骤302来实现社交关系强度的挖掘。

例如，在具体实现时，该步骤302“根据各双向关系用户对中各用户的行为数据，分析对应的双向关系用户对中两个用户之间的社交关系强度”，具体可以包括如下步骤：

(a5)根据各双向关系用户对中两个用户的行为数据，挖掘两个用户中每个用户对另一个用户的多个行为特征；

本实施例中，挖掘的多个行为特征中可以包括静态的行为特征，也可以包括动态的行为特征。其中静态的行为特征随时间衰减缓慢，如可以以年以上的粒度进行衰减。而动态的行为特征随时间衰减相对较快，例如，可以以月为粒度进行衰减。

(b5)设置各行为特征对应的权重；

(c5)根据各双向关系用户对中各用户的多个行为特征以及各行为特征的权重，计算各双向关系用户对的置信度，以标识对应的双向关系用户对的社交关系强度。

实际应用中，双向关系用户对中一个用户对另一个用户的行为数据都对应一种操作行为，例如对应的操作行为可以包括关注、分享、转发、评论以及收藏等等，具体可以采用该用户对另一个用户的操作行为的数量作为对应的行为特征。例如，对于双向关系用户对中的用户A和用户B，可以统计用户A分享给用户B的信息的条数，作为该双向关系用户对中用户A的分享次数特征；也可以统计用户B评论用户A的信息的次数，作为该双向关系用户对中用户B的评论次数特征。按照同样的原理，可以挖掘出每个双向关系用户对中每个用户的行为特征。

本实施例中，可以根据各行为特征在当前的社交关系网中的重要程度来为各行为特征设置权重，越重要的行为特征设置的权重越高，反之，重要程度越低的行为特征可以设置较低的权重。具体可以通过常识、来源、前置分布统计、后验等方法对各行为特征赋予不同的权重。最后根据各双向关系用户对中各用户的多个行为特征以及各行为特征的权重，计算各双向关系用户对的置信度，以标识对应的双向关系用户对的社交关系强度。

本实施例的双向关系用户对的社交关系强度的挖掘基于强度、稳定性等维度指标，把多种关系进行打平归一，并且完成多维度加权调和，形成一个统一的置信度分数来刻画双向关系用户对的社交关系强度。例如，首先完成双向关系用户对的动态互动、静态关注行为的抽象，然后针对行为发生的频度、时间、来源、类型、次数、多行为等挖掘行为特征，并参考为各行为特征设置的权重，计算双向关系用户对的置信度；本实施例中，计算置信度时参考了时间衰减的因素，以此来增加社交关系强度的区分度。

本实施例中的关系本是带方向的，在基于某个用户的所有双向关系用户对做推荐时，尽量获取单向行为强度高，相互行为偏差小的双向关系用户对。比如相互评论分别为90次和10次的双向关系用户对，对应的置信分值应该低于相互评论各50次的双向关系用户对。因此，本实施例中，在每个用户对之间，可以基于静态、互动、发起方、接受方组合，根据用户对的行为在用户对之间形成四类边，同时还可以在计算每个边的分值时引入了调权平均，分别计算四个边的分值。最后再根据四个边的分值，取平均作为最终的置信度分数。总体来说，最终得到的置信度分值，可以保证关系越强的边打分越高。

下面介绍一种置信度打分的实例，本实例中的置信度打分具体可以采用如下步骤来实现：

一、单社交行为独立打分；

(1)对于某个社交行为，以其单位时间(如天)发生的次数count作为基本输入：

(2)对社交行为的行为次数进行去噪衰减，本实施例的衰减为线性衰减；保证单天多次分数<多天分数。这里的单天多次分数和多天分数都是原始的行为次数打平到的一个基础分数。对单位时间(如天)内社交行为的行为次数进行降噪，原则上使得单位时间内社交行为的行为次数取值，小于任意两个单位时间内社交行为的行为次数之和：Count(t_m)<Count(t_n)+Count(t_l)。本实施例中，可以把单天次数归一化到1-2次之间即可，如可以采用如下函数表示：Count(count)。

(3)权重设置。如不同产品线的权重可以表示为weight_product；不同来源的权重可以表示为weight_src；不同行为类型的权重可以表示为weight_type，例如可以参考如下行为类型设置权重高低顺序来设置权重：个体静态关注>个体金钱类互动>个体一般互动>群组>群组内互动；

(4)社交行为的权重随时间衰减的特性，例如，对于关注/共享设备/共享账号的行为可以按24个月以上周期衰减，对于互动类行为可以按6～12个月衰减：

weighto_time＝e^-(t_delta)/P

其中t_delta表示距当前时刻的时间周期，P表示衰减周期基数(如按照24个月、12个月、6个月跨度进行衰减)。

而共享设备/共享账号等客观环境关联关系按照单位时间周期数加权重：weight_share；

不同于关注行为，如A和B在3月是关注关系，在4月是关注关系，最终体现的只是A和B是关注关系，其频次不会体现关系的置信度强弱；而A和B共用一台手机，3，4，5月都共用，则可以确认，A和B的关系是有置信度区分的，共用时间越长，置信度越高。

还可以按照如下方式设置其他单行为权重；weight_other。

最终，单社交行为的置信度打分可以采用如下公式表示：

rule∈{product,src,type,share,other}

N为单一社交行为对应各单位时间周期数。

二、多社交行为综合打分；

(1)将动态互动行为次数线性映射为分数：

例如，可以先初始化次数到分数的映射区间。如以下表4为示例，不同关系对应的次数－分值分段会存在差异，可以按照实际情况调整。

表4

类型	关系次数	分值
			动态	(0,2]	50-60
	(2,5]	70-90
				(5,10]	90-95
	(10,200]	95-98
				(200,10000]	98-100
	(10000,INF)	0

再基于下面公式线性映射实际次数为分数：

score_min+(score_max-score_min)*(real_count-count_min)/(count_max-count_min)

其中score_min为分数的最小值，score_max为分数的最大值，real_count为实际的次数，count_min为次数的最小值，count_max为次数的最大值。

(2)静态行为分数：基于经验确认单次双向静态关注和N次动态双向互动效果持平，则基于计算出静态行为对应分值，完成动态和静态行为的分数打平。如下表5为一个静态行为的关系次数与分值的示例图。

表5

类型	关系次数	分值
			静态	6	90-100

(3)多行为加权的权重可以表示为weight_{multi_action}；本实施例的多种行为也可以理解为多种渠道体现两个ID间的关系，“评论1次，私信1次”相较于“评论1次，评论1次”而言，偶发因素更少；

(4)多产品线加权的权重可以表示为weight_{multi_product}；其中多产品线重合表明两个ID相关度非常高；

三、综合打分：主动发起行为为正向，被动接受行为为负向(如关注为正向，被关注为负向)。另外如前所述行为类别又分为静态关注和动态互动，因此每一个双向关系可能存在以下四类双向边统一输入为四个单向分值：动态正向、静态正向、动态负向、静态负向，可以分别采用如下对应的符号表示x_d、x_s、y_d、y_s；

每个单向分值综合分值x_d、x_s、y_d、y_s，具体可以采用如下公式来计算：

以上每一个权重类的计算，如无特殊考虑，也可都设置为1，不做区分。如有特殊考虑，可以设置不同大小的权重。

每个双向分值，可以采用如下公式来计算：

加权调和：单行为强度高，相互行为偏差小。加0.1修正分值是为了避免某类双向边不存在导致分值为零的问题。其中x表示正向关系，y表示负向关系。按照上述公式，可以分别计算出来[正向静态，负向静态]的双向分值F(x_s,y_s)、[正向静态，负向动态]的双向分值F(x_s,y_d)、[正向动态，负向静态]的双向分值F(x_d,y_s)、[正向动态，负向动态]的双向分值F(x_d,y_d)。

最终，双向用户关系的置信度分数可以采用如下公式来表示：

score＝AVE(F(x_s,y_s)+F(x_s,y_d)+F(x_d,y_d)+F(x_d,y_s))

经过上述过程，可以得到双向用户关系的最终的置信度分数。按照上述处理方式，可以获取到任意一对双向用户关系对对应的置信度分数。

进一步可选地，在上述步骤(a5)之后，(c5)之前，还可以包括：根据筛除的所有单向关系用户对以及大群组，修正各双向关系用户对中每个用户的多个行为特征。

具体地，本实施例中，在置信度计算时，还可以利用上述实施例的步骤212以及步骤(e4)等滤出的单向关系用户对、以及大群组，和当前新产出的双向关系用户对进行JOIN，给JOIN上的双向关系用户对增加信息厚度，并反映到对应的置信度分值上。

进一步可选地，上述步骤(c5)仅考虑了双向关系用户对中两个用户的行为特征的权重，实际应用中，双向关系用户对中两个用户的人脉关系也会影响这两个用户的社交关系的强度。例如，假设用户C同时分别与用户A和用户B是好友，而用户C与用户A同时又有共同的好友D，此时可以将这样的关系，补回到用户C与用户A的关系中，使得用户C与用户A之间的社交关系强度大于用户C与用户B的社交关系强度。例如，具体实现时，可以包括如下步骤：

(a6)根据各双向关系用户对中两个用户的行为数据，挖掘两个用户中每个用户的人脉关系特征；

(b6)设置各人脉关系特征的权重；

例如本实施例中的人脉关系特征可以采用双向关系用户对中的两个用户的共同好友的数量来表示。人脉关系特征的权重也可以根据所应用的社交关系网中人脉关系的重要性来设置。

(c6)根据各双向关系用户对中各用户的多个行为特征、人脉关系特征、各行为特征的权重以及人脉关系特征的权重，计算各双向关系用户对的置信度。

对应地，在上述步骤(c5)的基础上，增加人脉关系特征的权重来参与置信度的计算，计算方式一样，且计算置信度时也同样参考了时间衰减的因素，在此不再赘述。

进一步可选地，本实施例的社交关系的挖掘方法中，还包括：根据各双向关系用户对中各用户的行为数据，基于时间轴挖掘对应的双向关系用户对中各用户的关系属性，例如关系属性包括关联关系起始时间、关联关系最新时间、关联用户活跃度、预设时间周期内的关联关系数据切片和/或关联关系互动行为占比。

关联关系起始时间为对应的双向关系用户对中两个用户首次建立关联关系的时间；关联关系最新时间为对应的双向关系用户对中两个用户最后一次互动的时间；关联用户活跃度表示对应的双向关系用户对中在当前用户端记录的对端用户的活跃程度，例如可以根据该对端用户在最近邻的预设时间周期内发信息、转发以及评论等等操作的频次等表征活跃程度的参数，来设置该对端用户的活跃度。预设时间周期内的关联关系数据切片中可以记录有预设时间周期内的双向关系用户对中的所有关联关系的数据。本实施例的预设时间周期可以根据需求设置为以一星期为周期、一月为周期或者还可以采用其他预设时间周期来存储关联关系数据切片，以在需要的时候调取。关联关系互动行为占比为双向关系用户对关联关系中互动的操作占总共操作的数量。

本实施例中，可以将挖掘的用户的关系属性记录在用户的信息中，以在需要时调取。

本实施例的社交关系的挖掘方法，通过采用上述技术方案，能够从各用户的行为数据，准确挖掘出数对双向关系用户对以及各对双向关系用户对的社交关系强度，与现有的社交关系挖掘方案相比，本实施例的技术方案，不局限于仅对一个应用内的社交关系进行挖掘，可以适用于对多个应用中的社交关系进行挖掘，具有非常强的实用性，同时还能够保证挖掘的社交关系的准确性。

图5为本发明的社交关系的挖掘装置实施例一的结构图。如图5所示，本实施例的社交关系的挖掘装置，具体可以包括：

获取模块10用于将采集到的多个应用的用户行为数据基于用户进行打通，获取各个用户的行为数据；

挖掘模块11用于基于获取模块10获取的各用户的行为数据，挖掘数对双向关系用户对。

本实施例的社交关系的挖掘装置，通过采用上述模块实现社交关系的挖掘的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图6本发明的社交关系的挖掘装置实施例二的结构图。如图6示，本实施例的社交关系的挖掘装置，在上述图5所示实施例的技术方案的基础上，进一步更加详细地介绍本发明的技术方案。

如图6所示，本实施例的社交关系的挖掘装置中，获取模块10用于：

基于设备ID与注册账号ID的对应关系、设备ID与cookie ID的对应关系，和/或不同注册账号ID之间的对应关系，从多个应用的用户行为数据中挖掘属于同一个用户的ID的映射聚合；

根据同一个用户的ID的映射聚合，从多个应用的用户行为数据中抽取各个用户的行为数据。

进一步可选地，如图6所示，本实施例的社交关系的挖掘装置中，挖掘模块11具体包括：

获取单元111用于从获取模块10获取的各用户的部分行为数据中，获取各用户对应的单向关系的用户对，得到多个初始单向关系用户对；

清洗单元112用于清洗获取单元111获取的多个初始单向关系用户对中的不合法的用户对；

验证单元113用于根据清洗单元112清洗后剩余的各有效单向关系用户对中的各用户的所有行为数据，验证有效单向关系用户对实际上为双向关系用户对还是单向关系用户对；

修正单元114用于若验证单元113验证有效单向关系用户对实际上为双向关系用户对时，将对应的有效单向关系用户对修正为双向关系用户对。

此时对应地，获取单元111、清洗单元112、验证单元113和修正单元114实现一种方式的双向关系用户对的挖掘。

进一步可选地，本实施例的清洗单元112具体用于：

判断获取单元111获取的各初始单向关系用户对中发起单向关系的用户是否为预设的黑名单中的用户，若是，确定单向关系用户对为非法用户对，并删除；

判断获取单元111获取的各初始单向关系用户对中发起单向关系的用户在单位时间内、在每一种社交行为中主动增加的好友的数量是否超出第一预设阈值，若是，确定单向关系用户对为非法用户对，并删除；

判断获取单元111获取的各初始单向关系用户对中发起单向关系的用户在每一种社交行为中主动增加的好友的总数量是否超出第二预设阈值，若是，确定单向关系用户对为非法用户对，并删除；

判断获取单元111获取的各初始单向关系用户对中发起单向关系的用户在每一种社交行为中的行为模式是否固定，若是，确定单向关系用户对为非法用户对，并删除；

判断获取单元111获取的各初始单向关系用户对中发起单向关系的用户在每一种社交行为中被关注的人数是否低于第三预设阈值，若是，确定单向关系用户对为非法用户对，并删除；和/或

判断获取单元111获取的各初始单向关系用户对中发起单向关系的用户在每一种社交行为中被关注的人数和关注的人数是否小于预设比例，若是，确定单向关系用户对为非法用户对，并删除。

进一步可选地，本实施例的社交关系的挖掘装置中，验证单元113还用于根据预先挖掘的各大群组，验证单向关系用户对中的两个用户是否属于同一大群组中的用户；大群组中包括的用户的数量大于或者等于对应的预设数量阈值；

修正单元114还用于若单向关系用户对中的两个用户是属于同一大群组中的用户，将对应的单向关系用户对修正为双向关系用户对。此时对应地，能够通过另一种方式实现双向关系用户对的挖掘。

进一步可选地，本实施例的社交关系的挖掘装置中，挖掘模块11还包括挖掘单元115；

挖掘单元115用于从获取模块10获取的各用户的行为数据中，挖掘多个群组；

验证单元113还用于判断挖掘单元115挖掘的各群组中包括的用户的数量是否大于或者等于对应的预设数量阈值，若是，确定对应的群组为大群组。

进一步可选地，如图6所示，本实施例的社交关系的挖掘装置中，挖掘模块11还包括设置单元116；

验证单元113还用于若各群组中包括的用户的数量小于对应的预设数量阈值时，确定对应的群组为小群组；

设置单元116用于将验证单元113确定的各小群组中任意两个用户所构成的用户对设置为双向关系用户对。

进一步可选地，本实施例的社交关系的挖掘装置中，挖掘单元115还用于从各用户的所有行为数据中，挖掘多个初始双向关系用户对；

清洗单元112还用于清洗挖掘单元115挖掘的多个初始双向关系用户对中的不合法的用户对，得到多个双向关系用户对。

进一步可选地，本实施例的社交关系的挖掘装置中，挖掘单元115还用于从各用户的所有行为数据中，挖掘多个疑似单向关系用户对；

清洗单元112还用于清洗挖掘单元115挖掘的多个疑似单向关系用户对中的不合法的用户对，得到多个候选单向关系用户对；

验证单元113还用于根据预先挖掘的多个大群组中包括的用户，验证清洗单元112清洗得到的各候选单向关系用户对中的两个用户是否属于同一大群组中的用户；大群组是从各用户的行为数据中挖掘的，大群组中的用户的数量大于或者等于预设数阈值；

修正单元114还用于若验证单元113确定各候选单向关系用户对中的两个用户属于同一大群组中的用户，将对应的候选单向关系用户对修正为双向关系用户对。

进一步可选地，如图6所示，本实施例的社交关系的挖掘装置中，还包括：

分析模块12用于根据挖掘模块11挖掘的各双向关系用户对中、获取模块10获取的各用户的行为数据，分析根据挖掘模块11挖掘的对应的双向关系用户对中两个用户之间的社交关系强度。

例如，分析模块12具体用于对修正单元114或者设置单元116得到的双向关系用户对中两个用户之间的社交关系强度进行分析。

进一步可选地，本实施例的社交关系的挖掘装置中，分析模块12具体用于：

根据各双向关系用户对中两个用户的行为数据，挖掘两个用户中每个用户对对端用户的多个行为特征；设置各行为特征对应的权重；

根据各双向关系用户对中各用户的多个行为特征以及各行为特征的权重，计算各双向关系用户对的置信度，以标识对应的双向关系用户对的社交关系强度。

进一步可选地，本实施例的社交关系的挖掘装置中，修正单元114还用于根据筛除的所有单向关系用户对以及大群组，修正各双向关系用户对中每个用户的多个行为特征。

进一步可选地，本实施例的社交关系的挖掘装置中，挖掘模块11还用于根据各双向关系用户对中两个用户的行为数据，挖掘两个用户中每个用户的人脉关系特征；人脉关系特征具有随着时间衰减的特性；

分析模块12还用于设置挖掘模块11挖掘的各人脉关系特征的权重；并根据各双向关系用户对中各用户的多个行为特征、人脉关系特征、各行为特征的权重以及人脉关系特征的权重，计算各双向关系用户对的置信度。

进一步可选地，本实施例的社交关系的挖掘装置中，挖掘模块11还用于：

根据各双向关系用户对中各用户的行为数据，基于时间轴挖掘对应的各用户的关系属性，关系属性包括关联关系起始时间、关联关系最新时间、关联用户活跃度、预设时间周期内的关联关系数据切片和/或关联关系互动行为占比。

图7为本发明的计算机设备实施例的结构图。如图7所示，本实施例的计算机设备，包括：一个或多个处理器30，以及存储器40，存储器40用于存储一个或多个程序，当存储器40中存储的一个或多个程序被一个或多个处理器30执行，使得一个或多个处理器30实现如上图1-图4所示实施例的社交关系的挖掘方法。图7所示实施例中以包括多个处理器30为例。

例如，图8为本发明提供的一种计算机设备的示例图。图8示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图8显示的计算机设备12a仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于：一个或者多个处理器16a，系统存储器28a，连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。

总线18a表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28a可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34a可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明上述图1-图5各实施例的功能。

具有一组(至少一个)程序模块42a的程序/实用工具40a，可以存储在例如系统存储器28a中，这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图5各实施例中的功能和/或方法。

计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信，还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信，和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且，计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12a使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16a通过运行存储在系统存储器28a中的程序，从而执行各种功能应用以及数据处理，例如实现上述实施例所示的社交关系的挖掘方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所示的社交关系的挖掘方法。

本实施例的计算机可读介质可以包括上述图8所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。

随着科技的发展，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载，或者采用其他方式获取。因此，本实施例中的计算机可读介质不仅可以包括有形的介质，还可以包括无形的介质。

本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种社交关系的挖掘方法，其特征在于，所述方法包括：

基于各所述用户的行为数据，挖掘数对双向关系用户对；

基于各所述用户的行为数据，挖掘数对双向关系用户对，具体包括：

从各所述用户的部分行为数据中，获取各所述用户对应的单向关系的用户对，得到多个初始单向关系用户对；

清洗所述多个初始单向关系用户对中的不合法的用户对；

根据清洗后剩余的各有效单向关系用户对中的各所述用户的所有行为数据，验证所述有效单向关系用户对实际上为双向关系用户对还是单向关系用户对；

若为所述双向关系用户对时，将对应的所述有效单向关系用户对修正为所述双向关系用户对；

根据清洗后剩余的各有效单向关系用户对中的各所述用户的行为数据，验证所述有效单向关系用户对实际上还是单向关系用户对时，所述方法还包括：

根据预先挖掘的各大群组，验证所述单向关系用户对中的两个所述用户是否属于同一大群组中的用户；

若是，将对应的所述单向关系用户对修正为所述双向关系用户对。

2.根据权利要求1所述的方法，其特征在于，将采集到的多个应用的用户行为数据基于用户进行打通，获取各个用户的行为数据，具体包括：

基于设备ID与注册账号ID的对应关系、设备ID与cookieID的对应关系，和/或不同注册账号ID之间的对应关系，从所述多个应用的用户行为数据中挖掘属于同一个用户的ID的映射聚合；

根据同一个用户的ID的映射聚合，从所述多个应用的用户行为数据中抽取各个所述用户的行为数据。

3.根据权利要求1所述的方法，其特征在于，清洗所述多个初始单向关系用户对中的不合法的用户对，具体包括：

判断各所述初始单向关系用户对中发起单向关系的所述用户是否为预设的黑名单中的用户，若是，确定所述单向关系用户对为非法用户对，并删除；

判断各所述初始单向关系用户对中发起单向关系的所述用户在单位时间内、在每一种社交行为中主动增加的好友的数量是否超出第一预设阈值，若是，确定所述单向关系用户对为非法用户对，并删除；

判断各所述初始单向关系用户对中发起单向关系的所述用户在每一种社交行为中主动增加的好友的总数量是否超出第二预设阈值，若是，确定所述单向关系用户对为非法用户对，并删除；

判断各所述初始单向关系用户对中发起单向关系的所述用户在每一种社交行为中的行为模式是否固定，若是，确定所述单向关系用户对为非法用户对，并删除；

判断各所述初始单向关系用户对中发起单向关系的所述用户在每一种社交行为中被关注的人数是否低于第三预设阈值，若是，确定所述单向关系用户对为非法用户对，并删除；和/或

判断各所述初始单向关系用户对中发起单向关系的所述用户在每一种社交行为中被关注的人数和关注的人数是否小于预设比例，若是，确定所述单向关系用户对为非法用户对，并删除。

4.根据权利要求1所述的方法，其特征在于，所述大群组中包括的用户的数量大于或者等于对应的预设数量阈值。

5.根据权利要求4所述的方法，其特征在于，根据预先挖掘的各大群组，验证所述有效单向关系用户对中的两个所述用户是否属于同一大群组中的用户之前，所述方法还包括：

从各所述用户的行为数据中，挖掘多个群组；

判断各所述群组中包括的用户的数量是否大于或者等于对应的所述预设数量阈值，若是，确定对应的所述群组为大群组。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

若各所述群组中包括的用户的数量小于对应的所述预设数量阈值时，确定对应的所述群组为小群组；

将各所述小群组中任意两个用户所构成的用户对设置为所述双向关系用户对。

7.根据权利要求5所述的方法，其特征在于，基于各所述用户的行为数据，挖掘数对双向关系用户对，具体包括：

从各所述用户的所有行为数据中，挖掘多个初始双向关系用户对；

清洗所述多个初始双向关系用户对中的不合法的用户对，得到多个所述双向关系用户对。

8.根据权利要求5所述的方法，其特征在于，所述方法还包括：

从各所述用户的所有行为数据中，挖掘多个疑似单向关系用户对；

清洗所述多个疑似单向关系用户对中的不合法的用户对，得到多个候选单向关系用户对；

根据预先挖掘的多个大群组中包括的用户，验证各所述候选单向关系用户对中的两个所述用户是否属于同一大群组中的用户；所述大群组是从各所述用户的行为数据中挖掘的，所述大群组中的用户的数量大于或者等于预设数阈值；

若是，将对应的所述候选单向关系用户对修正为所述双向关系用户对。

9.根据权利要求1所述的方法，其特征在于，基于各所述用户的行为数据，挖掘数对双向关系用户对之后，所述方法还包括：

根据各所述双向关系用户对中各所述用户的行为数据，分析对应的所述双向关系用户对中两个用户之间的社交关系强度。

10.根据权利要求9所述的方法，其特征在于，根据各所述双向关系用户对中各所述用户的行为数据，分析对应的所述双向关系用户对中两个用户之间的社交关系强度，具体包括：

根据各所述双向关系用户对中两个用户的行为数据，挖掘两个用户中每个用户对对端用户的多个行为特征；

设置各所述行为特征对应的权重；

根据各所述双向关系用户对中各所述用户的多个所述行为特征以及各所述行为特征的权重，计算各所述双向关系用户对的置信度，以标识对应的所述双向关系用户对的社交关系强度。

11.根据权利要求10所述的方法，其特征在于，根据各所述双向关系用户对中两个用户的行为数据，挖掘两个用户中每个用户对另一个用户的多个行为特征之后，根据各所述双向关系用户对中各用户的多个所述行为特征以及各所述行为特征的权重，计算各所述双向关系用户对的置信度之前，所述方法还包括：

根据筛除的所有单向关系用户对以及所述大群组，修正各所述双向关系用户对中每个用户的多个行为特征。

12.根据权利要求10所述的方法，其特征在于，所述方法还包括：

根据各所述双向关系用户对中两个用户的行为数据，挖掘两个用户中每个用户的人脉关系特征；

设置各所述人脉关系特征的权重；

根据各所述双向关系用户对中各用户的多个所述行为特征、所述人脉关系特征、各所述行为特征的权重以及所述人脉关系特征的权重，计算各所述双向关系用户对的置信度。

13.根据权利要求1-12任一所述的方法，其特征在于，所述方法还包括：

根据各所述双向关系用户对中各所述用户的行为数据，基于时间轴挖掘对应的各所述用户的关系属性，所述关系属性包括关联关系起始时间、关联关系最新时间、关联用户活跃度、预设时间周期内的关联关系数据切片和/或关联关系互动行为占比。

14.一种社交关系的挖掘装置，其特征在于，所述装置包括：

挖掘模块，用于基于各所述用户的行为数据，挖掘数对双向关系用户对；

所述挖掘模块，具体包括：

获取单元，用于从各所述用户的部分行为数据中，获取各所述用户对应的单向关系的用户对，得到多个初始单向关系用户对；

清洗单元，用于清洗所述多个初始单向关系用户对中的不合法的用户对；

验证单元，用于根据清洗后剩余的各有效单向关系用户对中的各所述用户的所有行为数据，验证所述有效单向关系用户对实际上为双向关系用户对还是单向关系用户对；

修正单元，用于若为所述双向关系用户对时，将对应的所述有效单向关系用户对修正为所述双向关系用户对；

所述验证单元，还用于根据预先挖掘的各大群组，验证所述单向关系用户对中的两个所述用户是否属于同一大群组中的用户；

所述修正单元，还用于若所述单向关系用户对中的两个所述用户是属于同一大群组中的用户，将对应的所述单向关系用户对修正为所述双向关系用户对。

15.根据权利要求14所述的装置，其特征在于，所述获取模块，具体用于：

16.根据权利要求14所述的装置，其特征在于，所述清洗单元，具体用于：

17.根据权利要求14所述的装置，其特征在于：

所述大群组中包括的用户的数量大于或者等于对应的预设数量阈值。

18.根据权利要求17所述的装置，其特征在于，所述挖掘模块还包括挖掘单元；

所述挖掘单元，用于从各所述用户的行为数据中，挖掘多个群组；

所述验证单元，还用于判断各所述群组中包括的用户的数量是否大于或者等于对应的所述预设数量阈值，若是，确定对应的所述群组为大群组。

19.根据权利要求18所述的装置，其特征在于，所述挖掘模块，还包括设置单元；

所述验证单元，还用于若各所述群组中包括的用户的数量小于对应的所述预设数量阈值时，确定对应的所述群组为小群组；

所述设置单元，用于将各所述小群组中任意两个用户所构成的用户对设置为所述双向关系用户对。

20.根据权利要求18所述的装置，其特征在于：

所述挖掘单元，还用于从各所述用户的所有行为数据中，挖掘多个初始双向关系用户对；

所述清洗单元，还用于清洗所述多个初始双向关系用户对中的不合法的用户对，得到多个所述双向关系用户对。

21.根据权利要求20所述的装置，其特征在于：

所述挖掘单元，还用于从各所述用户的所有行为数据中，挖掘多个疑似单向关系用户对；

所述清洗单元，还用于清洗所述多个疑似单向关系用户对中的不合法的用户对，得到多个候选单向关系用户对；

所述验证单元，还用于根据预先挖掘的多个大群组中包括的用户，验证各所述候选单向关系用户对中的两个所述用户是否属于同一大群组中的用户；所述大群组是从各所述用户的行为数据中挖掘的，所述大群组中的用户的数量大于或者等于预设数阈值；

所述修正单元，还用于若各所述候选单向关系用户对中的两个所述用户属于同一大群组中的用户，将对应的所述候选单向关系用户对修正为所述双向关系用户对。

22.根据权利要求14所述的装置，其特征在于，所述装置还包括：

分析模块，用于根据各所述双向关系用户对中各所述用户的行为数据，分析对应的所述双向关系用户对中两个用户之间的社交关系强度。

23.根据权利要求22所述的装置，其特征在于，所述分析模块，具体用于：

设置各所述行为特征对应的权重；

24.根据权利要求23所述的装置，其特征在于：

所述修正单元，还用于根据筛除的所有单向关系用户对以及所述大群组，修正各所述双向关系用户对中每个用户的多个行为特征。

25.根据权利要求23所述的装置，其特征在于：

所述挖掘模块，还用于根据各所述双向关系用户对中两个用户的行为数据，挖掘两个用户中每个用户的人脉关系特征；

所述分析模块，还用于设置各所述人脉关系特征的权重；并根据各所述双向关系用户对中各用户的多个所述行为特征、所述人脉关系特征、各所述行为特征的权重以及所述人脉关系特征的权重，计算各所述双向关系用户对的置信度。

26.根据权利要求14-25任一所述的装置，其特征在于，所述挖掘模块，还用于：

27.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-13中任一所述的方法。

28.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-13中任一所述的方法。