CN108171612A

CN108171612A - 一种关联方法和装置

Info

Publication number: CN108171612A
Application number: CN201611109154.XA
Authority: CN
Inventors: 焦惠达
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-12-06
Filing date: 2016-12-06
Publication date: 2018-06-15

Abstract

本发明实施例提供了一种关联方法和装置，用于将两个集合中的节点进行关联。获取第一集合的节点信息和第二集合的节点信息，在第一集合中，确定与第一节点有预设对应关系的第一对应节点的数量|N1|，在第二集合中，确定与第二节点有预设对应关系的第二对应节点的数量|N2|，确定配对节点的数量|N3|，其中配对节点为第一对应节点和第二对应节点中身份信息相同的节点，将|N1|、|N2|、|N3|代入预设公式，计算第一节点和第二节点的相似度，当相似度符合预设要求时，关联第一节点和第二节点。这样，通过集合中节点间的对应关系可得到多个数据，根据这些数据即可确定属于不同集合的节点是否有关系，从而实现数据的打通和信息的增加。

Description

一种关联方法和装置

技术领域

本发明涉及数据处理领域，尤其涉及一种关联方法和装置。

背景技术

在包括多节点的集合中，往往是节点包括什么信息，用户就得到什么信息。

例如，在如微博等的社交网络中，存在着匿名用户，系统缺乏这些匿名用户的个人信息。而工作人员只能从信息项目中获取这些匿名用户的信息，因该信息项目没提供这些匿名用户的个人信息，工作人员获取不到这些匿名用户的个人信息，从而限制了工作人员的操作，例如不能识别这些匿名用户在现实社会中的身份。

发明内容

本发明实施例提供了一种关联方法和装置，用于将两个集合中的节点进行关联。

为了解决上述技术问题，本发明实施例提供了以下技术方案：

一种关联方法，所述方法包括：

获取第一集合的节点信息和第二集合的节点信息，所述第一集合包括至少两个节点，所述第二集合包括至少两个节点，所述节点信息包括节点间的预设对应关系、节点的身份信息；

在所述第一集合中，确定与第一节点有所述预设对应关系的第一对应节点的数量|N1|，其中所述第一对应节点为所述身份信息已知的节点；

在所述第二集合中，确定与第二节点有所述预设对应关系的第二对应节点的数量|N2|，其中所述第二对应节点为所述身份信息已知的节点；

确定配对节点的数量|N3|，其中所述配对节点为所述第一对应节点和所述第二对应节点中所述身份信息相同的节点；

将所述|N1|、|N2|、|N3|代入预设公式，计算所述第一节点和所述第二节点的相似度；

当所述相似度符合预设要求时，关联所述第一节点和所述第二节点。

为了解决上述技术问题，本发明实施例还提供了以下技术方案：

一种关联装置，所述装置包括：

获取单元，用于获取第一集合的节点信息和第二集合的节点信息，所述第一集合包括至少两个节点，所述第二集合包括至少两个节点，所述节点信息包括节点间的预设对应关系、节点的身份信息；

确定单元，用于在所述第一集合中，确定与第一节点有所述预设对应关系的第一对应节点的数量|N1|，其中所述第一对应节点为所述身份信息已知的节点；

所述确定单元，还用于在所述第二集合中，确定与第二节点有所述预设对应关系的第二对应节点的数量|N2|，其中所述第二对应节点为所述身份信息已知的节点；

所述确定单元，还用于确定配对节点的数量|N3|，其中所述配对节点为所述第一对应节点和所述第二对应节点中所述身份信息相同的节点；

计算单元，用于将所述|N1|、|N2|、|N3|代入预设公式，计算所述第一节点和所述第二节点的相似度；

关联单元，用于当所述相似度符合预设要求时，关联所述第一节点和所述第二节点。

从以上技术方案可以看出，本发明实施例具有以下优点：

获取第一集合的节点信息和第二集合的节点信息，其中，第一集合包括至少两个节点，第二集合包括至少两个节点，节点信息包括节点间的预设对应关系、节点的身份信息。然后，在第一集合中，确定与第一节点有预设对应关系的第一对应节点的数量|N1|，其中第一对应节点为身份信息已知的节点，以及，在第二集合中，确定与第二节点有预设对应关系的第二对应节点的数量|N2|，其中第二对应节点为身份信息已知的节点。并确定配对节点的数量|N3|，其中配对节点为第一对应节点和第二对应节点中身份信息相同的节点。然后，将|N1|、|N2|、|N3|代入预设公式，计算第一节点和第二节点的相似度，从而，当相似度符合预设要求时，关联第一节点和第二节点。这样，通过集合中节点间的对应关系可得到多个数据，根据这些数据即可确定属于不同集合的节点是否有关系，从而实现数据的打通和信息的增加。

附图说明

图1为本发明实施例提供的一种关联方法的方法流程示意图；

图2为本发明实施例提供的一种关联方法的方法流程示意图；

图3为图2所示实施例的方法所涉及的使用场景图；

图4为本发明实施例提供的一种关联装置的结构示意图。

具体实施方式

图1为本发明实施例提供的一种关联方法的方法流程示意图。参考图1，该方法的步骤包括：

步骤101：获取第一集合的节点信息和第二集合的节点信息。

第一集合包括至少两个节点，第二集合包括至少两个节点，节点信息包括节点间的预设对应关系、节点的身份信息；

步骤102：在第一集合中，确定与第一节点有预设对应关系的第一对应节点的数量|N1|。

其中第一对应节点为身份信息已知的节点。

步骤103：在第二集合中，确定与第二节点有预设对应关系的第二对应节点的数量|N2|。

其中，第二对应节点为身份信息已知的节点。

步骤104：确定配对节点的数量|N3|。

其中，配对节点为第一对应节点和第二对应节点中身份信息相同的节点。

步骤105：将|N1|、|N2|、|N3|代入预设公式，计算第一节点和第二节点的相似度。

步骤106：当相似度符合预设要求时，关联第一节点和第二节点。

可选地，

预设公式为：

其中，D为相似度。

可选地，

当相似度符合预设要求时，关联第一节点和第二节点，包括：

当相似度大于预设相似度阀值时，关联第一节点和第二节点。

可选地，

在第二集合中，确定与第二节点有预设对应关系的第二对应节点的数量|N2|之前，方法还包括：

逐一选择第二集合中的节点作为第二节点。

可选地，

在第二集合中，确定相似度最大的目标节点；

当目标节点和第一节点共有的配对节点的数量大于预设共有阀值、且目标节点的相似度大于预设相似度阀值、且目标节点的相似度比第二大的相似度大于预设比较阀值时，关联第一节点和目标节点。

可选地，

第二节点包括目标信息，

关联第一节点和第二节点，包括：

将目标信息赋予第一节点。

可选地，

集合为社交网络，节点为网络用户，预设对应关系为关注关系、好友关系、属于同一群体关系的任意一种，身份信息为认证信息。

综上所述，获取第一集合的节点信息和第二集合的节点信息，其中，第一集合包括至少两个节点，第二集合包括至少两个节点，节点信息包括节点间的预设对应关系、节点的身份信息。然后，在第一集合中，确定与第一节点有预设对应关系的第一对应节点的数量|N1|，其中第一对应节点为身份信息已知的节点，以及，在第二集合中，确定与第二节点有预设对应关系的第二对应节点的数量|N2|，其中第二对应节点为身份信息已知的节点。并确定配对节点的数量|N3|，其中配对节点为第一对应节点和第二对应节点中身份信息相同的节点。然后，将|N1|、|N2|、|N3|代入预设公式，计算第一节点和第二节点的相似度，从而，当相似度符合预设要求时，关联第一节点和第二节点。这样，通过集合中节点间的对应关系可得到多个数据，根据这些数据即可确定属于不同集合的节点是否有关系，从而实现数据的打通和信息的增加。

图2为本发明实施例提供的一种关联方法的方法流程示意图。参考图2，该方法的步骤包括：

步骤201：获取第一集合的节点信息和第二集合的节点信息。

其中，第一集合包括至少两个节点，第二集合包括至少两个节点，节点信息包括节点间的预设对应关系和节点的身份信息。

预设对应关系为在同一集合中，不同节点间的预设对应关系。身份信息用于对节点进行标识。

关联设备获取第一集合所有节点的节点信息和第二集合所有节点的节点信息。集合包括至少两个节点，在集合中，有与这些节点相关的信息。节点是集合中的组成元素。关联设备获取集合的节点信息后，可得到集合的每一节点的信息。

获取的节点信息包括信息获取成功和信息获取失败，如获取第一集合的某节点的身份信息失败，则记录该节点的身份信息为未知。

在本发明实施例中，集合包括但不限于社交网络、单位组织、设备集群等，节点包括但不限于网络用户、个人、设备等。预设对应关系包括但不限于关注关系、好友关系、属于同一群体关系等等。而身份信息可以为认证信息。

可以理解，本发明实施例中的“第一集合”和“第二集合”并不是表示顺序关系，而是为了区别不同的集合，以下文件中提到的第一、第二等也是起到区别的作用。

例如，关联设备获取第一社交网络的用户信息和第二社交网络的用户信息，在一社交网络中，这些用户信息包括用户间的关注信息和认证信息，其中认证信息例如可以是身份证号码、电话号码或邮箱地址等。

步骤202：在第一集合中，确定与第一节点有预设对应关系的第一对应节点的数量|N1|。

其中，第一对应节点为身份信息已知的节点。

在一集合中，节点间可能具有预设对应关系，根据该预设对应关系可得到不同节点间的联系。管理设备在第一集合中，选择第一节点，并根据预设对应关系确定出与该第一节点有预设对应关系的第一对应节点，所有的第一对应节点组成第一对应集合N1，然后，可计算出这些第一对应节点的数量|N1|，该|N1|为大于或等于0的整数。并且这些第一对应节点的身份信息在集合中已经记录保存。该第一节点可以是在第一集合中随机选择，或者该第一节点符合预设选择要求。

例如，设备在集合中选择没有身份信息的节点作为本发明实施例的第一节点，或者是选择没有目标信息的节点为第一节点。

例如，关联设备在第一社交网络中，区别出记录有身份信息的网络用户和没记录身份信息的网络用户，从没记录身份信息的网络用户中选择一网络用户作为第一用户，根据该第一用户的关注对象，确定出该第一用户关注的其他用户，这些被第一用户关注的用户组合成集合N1，N1中用户的数量为|N1|。

步骤203：逐一选择第二集合中的节点作为第二节点。

为了计算第一节点与第二集合中所有节点的相似度，关联设备逐一选择第二集合中的节点作为第二节点。即，逐一选择第二集合中的节点作为待操作节点，以对该待操作节点执行下述操作。

确定出多个第二节点后，对每一第二节点执行下述步骤204至步骤206，可得到多个相似度。

步骤204：在第二集合中，确定与第二节点有预设对应关系的第二对应节点的数量|N2|。

其中，第二对应节点为身份信息已知的节点。

步骤204的实施细节可参考步骤202。

在第二集合中，与第二节点有预设对应关系的所有节点组成集合N2，N2的节点数量为|N2|。

步骤205：确定配对节点的数量|N3|。

通过步骤202和步骤203确定出了第一集合中的第一对应节点，以及第二集合中的第二对应节点，这些对应节点的身份信息关联设备已经获取了。若第一对应节点的身份信息和第二对应节点的身份信息相同，表示该第一对应节点和第二对应节点的身份相同，则关联设备将该第一对应节点或第二对应节点设为配对节点，在该第一对应节点和第二对应节点为多个时，可配对节点可能包括多个，所有的配对节点组成集合N3，关联设备确定出这些配对节点的数量|N3|。

根据上述内容，可以得到，集合N3属于集合N1和集合N2的交集，即N3＝N1∩N2。

例如，关联设备确定出第一社交网络中被第一用户关注的身份信息已知的多个对应用户，以及确定出第二社交网络中被第二用户关注的身份信息已知的多个对应用户，其中这里的身份信息可以是电话号码。若属于第一社交网络的该多个对应用户和属于第二社交网络中的多个对应用户中有电话号码相同的用户，则将这些电话号码相同的网络用户设定为配对用户，即配对用户同时属于第一社交网络和第二社交网络，且在第一、第二社交网络中，配对用户的电话号码相同，以及配对用户在第一社交网络中被第一用户关注，在第二社交网络中被第二用户关注。关联设备确定出所有配对用户后，统计所有配对用户的数量|N3|。

可以理解，本发明实施例确定配对节点的方法有多种，本发明实施例对此不作具体限定。上述为匹配与第一节点相关的第一对应节点和与第二节点相关的第二对应节点来确定出配对节点。在有的实施例中，还可以是关联设备获取第一集合和第二集合的节点信息后，先确定出不同集合间具有相同身份信息的种子节点，然后确定出第一集合中的第一节点和第二集合中的第二节点后，根据该第一节点和第二节点确定第一对应节点和第二对应节点，若第一对应节点和第二对应节点属于该种子节点，且在该种子节点中为身份信息相同的节点，则将该第一对应节点或第二对应节点设为配对节点。

例如，关联设备选取第一、第二社交网络中均已知身份的节点。例如，节点A在第一社交网络中经过实名认证，已可以识别身份，节点A’在第二社交网络中也经过实名认证，可以识别身份。且A与A’的实名认证信息相同，则将A与A’关联。该步骤将两个网络中所有可识别身份且匹配的节点进行关联，作为后续步骤的初始数据。此时可以将两个网络中所有可识别身份且匹配的节点称为种子节点。

为了对本发明实施例描述得更清楚，现举出一具体的例子，如图3所示，第一社交网络301包括网络用户A、B、C、X、Y，第二社交网络302包括用户P、Q、R、X’、Y’。其中用户A分别关注了网络用户B、C、X、Y，即网络用户A分别与网络用户B、C、X、Y具有关注关系，且记录有网络用户B、C、X、Y的身份信息，该身份信息为电话号码，这些网络用户B、C、X、Y组成了第一对应集合N1，即N1＝{B,C,X,Y}。类似的，在第二社交网络中，网络用户P分别关注了网络用户Q、R、X’、Y’，网络用户Q、R、X’、Y’的电话号码已知，网络用户Q、R、X’、Y’组成第二对应集合N2，即N2＝{Q,R,X',Y'}，且网络用户X和网络用户X’的电话号码相同、网络用户Y和网络用户Y’的电话号码相同，从而可认为网络用户X和网络用户X’属于相同的用户，网络用户Y和网络用户Y’属于相同的用户，即网络用户X和网络用户X’为配对用户，网络用户Y和网络用户Y’为配对用户，配对用户的集合为N3，N3＝{X',Y'}或N3＝{X,Y}，N3＝N1∩N2。

步骤206：将|N1|、|N2|、|N3|代入预设公式，计算第一节点和第二节点的相似度。

其中，相似度表示第一节点和第二节点的相似程度，该预设公式有多种形式，本发明对此不做具体限定。

在本发明实施例中，相似度为余弦相似度，从而预设公式为：

其中，D为相似度。

例如，在图3所示的场景中，D＝0.5。其中，

当然，预设公式还可以是其它的公式，例如，D＝|N3|/(|N1|+|N2|)×100％。

步骤207：在第二集合中，确定相似度最大的目标节点。

对第二集合中的每一节点执行上述步骤得到多个相似度后，关联设备确定出相似度最大的目标节点，该相似度最大的目标节点很可能与第一节点最有关系，但是为了进一步判定第一节点和目标节点有关系，还要执行步骤208.

步骤208：当目标节点符合要求时，关联第一节点和目标节点。

具体来说，当目标节点符合下述三个要求时，才能认为第一节点和目标节点的相似度较可靠，可以将第一节点和目标节点进行关联。

即，当目标节点和第一节点共有的配对节点的数量大于预设共有阀值、且目标节点的相似度大于预设相似度阀值、且目标节点的相似度比第二大的相似度大于预设比较阀值时，关联第一节点和目标节点。其中，预设共有阀值、预设相似度阀值、预设比较阀值三个参数的选择可依据试验数据或经验数据确定或调整，本发明实施例对此不做具体限定。

例如，在对第一社交网络的第一用户进行选择后，设备逐一对第二社交网络的网络用户进行选择，以作为第二用户，并使用上述方法计算出第一用户和第二用户的相似度。第二社交网络的每一用户都做了一次第二用户后，关联设备得到多个相似度。设备确定出数值最大的相似度，在第二社交网络中，该最大相似度所属的用户为目标用户。然后，设备对该目标用户执行三次判断，1)目标用户和第一用户的配对用户数量是否大于或等于α对，其中α＝4；2)该最大相似度是否大于γ，其中γ＝0.5,；3)该最大相似度是否比数值第二大的相似度大于β，其中β＝0.2。若，这三个要求都满足，则认为第一用户和目标用户相似度符合要求，对第一用户的目标用户进行关联。

其中，关联第一节点和目标节点包括多种形式，例如，在本发明有的实施例中，第二节点包括目标信息，则关联第一节点和第二节点，包括：将该目标信息赋予第一节点。该目标信息包括但不限于身份信息、关注的商品信息、所属群体等。例如，在第二节点的身份已被认证时，而第一节点未被认证时，可将第二节点认证的身份信息赋予第一节点，用以对第一节点进行识别。

在第一集合中，可以对第一集合的所有节点逐一执行上述步骤，或者选择符合要求的节点作为第一节点，以执行后续步骤，例如，逐一选择第一集合中未被识别身份的节点为第一节点。

上述步骤207和步骤208，即为当相似度符合预设要求时，关联第一节点和第二节点的具体形式之一。

在本发明有的实施例中，步骤207和步骤208，也可以被当相似度大于预设相似度阀值时，关联第一节点和第二节点的步骤替代。

在本发明有的实施例中，可以不执行步骤203，而是根据预设规则确定第二集合中的第二节点，例如，选择符合某种条件的节点为第二节点，如选择关注某品牌的用户节点为第二节点，此时第二节点可能为多个。或者在第二集合中选择任意一节点为第二节点。然后，再在第二集合中，确定与第二节点有预设对应关系的第二对应节点的数量|N2|。

此时，当相似度符合预设要求时，关联第一节点和第二节点。例如，当相似度大于预设相似度阀值时，关联第一节点和第二节点。

图4为本发明实施例提供的一种关联装置的结构示意图。参考图4，该装置包括：

获取单元401，用于获取第一集合的节点信息和第二集合的节点信息，第一集合包括至少两个节点，第二集合包括至少两个节点，节点信息包括节点间的预设对应关系、节点的身份信息；

确定单元402，用于在第一集合中，确定与第一节点有预设对应关系的第一对应节点的数量|N1|，其中第一对应节点为身份信息已知的节点；

确定单元402，还用于在第二集合中，确定与第二节点有预设对应关系的第二对应节点的数量|N2|，其中第二对应节点为身份信息已知的节点；

确定单元402，还用于确定配对节点的数量|N3|，其中配对节点为第一对应节点和第二对应节点中身份信息相同的节点；

计算单元403，用于将|N1|、|N2|、|N3|代入预设公式，计算第一节点和第二节点的相似度；

关联单元404，用于当相似度符合预设要求时，关联第一节点和第二节点。

可选地，

预设公式为：

其中，D为相似度。

可选地，

关联单元404，还用于当相似度大于预设相似度阀值时，关联第一节点和第二节点。

可选地，

装置还包括：

选择单元405，用于逐一选择第二集合中的节点作为第二节点。

可选地，

关联单元404，包括：

确定模块406，用于在第二集合中，确定相似度最大的目标节点；

关联模块407，用于当目标节点和第一节点共有的配对节点的数量大于预设共有阀值、且目标节点的相似度大于预设相似度阀值、且目标节点的相似度比第二大的相似度大于预设比较阀值时，关联第一节点和目标节点。

可选地，

第二节点包括目标信息，

关联单元404，还用于将目标信息赋予第一节点。

可选地，

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种关联方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

所述预设公式为：

其中，D为相似度。

3.根据权利要去1所述的方法，其特征在于，

所述当所述相似度符合预设要求时，关联所述第一节点和所述第二节点，包括：

当所述相似度大于预设相似度阀值时，关联所述第一节点和所述第二节点。

4.根据权利要求3所述的方法，其特征在于，

所述在所述第二集合中，确定与第二节点有所述预设对应关系的第二对应节点的数量|N2|之前，所述方法还包括：

逐一选择所述第二集合中的节点作为第二节点。

5.根据权利要求4所述的方法，其特征在于，

在所述第二集合中，确定相似度最大的目标节点；

当所述目标节点和所述第一节点共有的配对节点的数量大于预设共有阀值、且所述目标节点的相似度大于预设相似度阀值、且所述目标节点的相似度比第二大的相似度大于预设比较阀值时，关联所述第一节点和所述目标节点。

6.根据权利要求1所述的方法，其特征在于，

所述第二节点包括目标信息，

所述关联所述第一节点和所述第二节点，包括：

将所述目标信息赋予所述第一节点。

7.根据权利要求1至6任一项所述的方法，其特征在于，

所述集合为社交网络，所述节点为网络用户，所述预设对应关系为关注关系、好友关系、属于同一群体关系的任意一种，所述身份信息为认证信息。

8.一种关联装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，

所述预设公式为：

其中，D为相似度。

10.根据权利要求8所述的装置，其特征在于，

所述第二节点包括目标信息，

所述关联单元，还用于将所述目标信息赋予所述第一节点。