CN109492027B

CN109492027B - 一种基于弱可信数据的跨社群潜在人物关系分析方法

Info

Publication number: CN109492027B
Application number: CN201811310355.5A
Authority: CN
Inventors: 孙国梓; 吕建伟; 李华康
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2022-02-08
Anticipated expiration: 2038-11-05
Also published as: CN109492027A

Abstract

本发明提出一种基于弱可信数据的跨社群潜在人物关系分析方法，该方法不依赖人物属性标签无监督实体识别方法抽取出实体，使用层次结构来测量不同属性社群下用户节点的相似度，构建多层图来编码结构相似性，为节点生成由多重身份特征的用户根据不同特征聚类形成的结构性网络关系图，从而发现网络上无关联而现实中可能相似的潜在人物关系。此外，该方法基于用户相关系数算法，在发现无直接边相连的两个用户节点潜在关系具有明显的优势，准确率高。

Description

一种基于弱可信数据的跨社群潜在人物关系分析方法

技术领域

本发明涉及大数据分析及挖掘领域，尤其是在弱可信数据下潜在人物关系分析领域，具体为一种基于弱可信数据的跨社群潜在人物关系分析方法。

背景技术

潜在人物关系分析是指从互联网搜索引擎或者社交网站得到相关匿名用户的数据，并用关键词抽取和数理分析的方法对匿名数据进行处理。通过分析得到的结果，发现用户在不同属性关系网下的结构身份，总结用户与用户间未有公开数据显示的关联规律。能够掌握用户在不同属性关系网下的结构身份，对于挖掘用户潜在行为及潜在关系具有重要的意义。本发明从用户在不同属性关系网下的结构身份角度出发，通过对网络用户日常上网行为痕迹分析方法的研究，设计一个有效的潜在人物关系检测方法，快速发现弱关联用户中的强关系。

目前，各种人物关系检测算法主要分为两类：

(1)基于人工标注或半监督的分析方法，现有专利包括：一种人物关系分类方法与装置(专利号：CN106778878A)。

(2)基于强关联用户的关系分析方法，现有专利包括：一种基于海量数据的人物关系图谱分析方法(专利号：CN106708922A)，融合分布式语义和句义特征的人物关系抽取方法(专利号：CN106484675A)。

上述方法存在着一定的局限性，预处理时人工标注的语料直接决定了后期的关系识别的准确性，而如何定义人工标注的量，以及如何进行标注，都无法科学量化；通过抽取、语义、句义特征分析的方法只能发现强关联用户中的强关系，而对于那些在互联网上无直接边连接、只是通过多个中间人单连接的用户之间潜在关系的发现问题等还没有很好的解决。

发明内容

发明目的：为解决上述技术问题，本发明提出一种基于弱可信数据的跨社群潜在人物关系分析方法，该方法不依赖人物标签，以无监督实体识别方法抽取出实体，再用层次结构来测量不同属性社群下用户节点的相似度，通过构建多层图来编码结构相似性，为节点生成结构性网络关系图。本发明中引进结构性网络关系图的概念，结构性网络关系图是由多重身份特征的用户根据不同特征聚类形成的结构性人际关系网，通过结构相似的关系图来发现网络上无关联而现实中可能相识的潜在人物关系。

技术方案：为实现上述技术效果，本发明提出以下技术方案：

一种基于弱可信数据的跨社群潜在人物关系分析方法，包括步骤：

(1)获取网页或社交网站上匿名用户的公开数据，并按照数据来源类别存成与来源类别相应格式的文件；

(2)对步骤(1)中得到的文件进行数据清洗，再进行属性提取，将提取的属性数据存放在实体属性数据库内；

(3)选取实体属性数据库内的某一属性A构建用户社群图，所述用户社群图中两用户之间的边值为两用户间关于属性A的属性关系值；

(4)根据步骤(3)生成的用户社群图计算用户间结构身份相似度、社群结构相似度、无直接边相连的任意两个用户节点之间的相关系数；

(5)根据预设相似度阈值选择社群结构相似度接近的用户社群，对于任意两个社群结构相似度接近的用户社群G₁和G₂，选取一对用户节点u和v，u∈G₁，v∈G₂，u和v直接相连；选取G₁中用户u周边与v无直接连接的用户节点，计算这些用户节点与用户节点v之间的相关系数，选取相关系数最高N个用户节点作为用户节点v的潜在关系用户。

进一步的，所述用户间的结构身份相似度的计算方法为：

将所有用户归入顶点集V，将用户社群图中的边归入边集合E，形成无权重的无向图G，G＝(V，E)；选取直接相连的两个节点u和v，以u为中心节点扩展k跳邻居，得到用户社群G(u)，以v为中心节点扩展k跳邻居，得到用户社群G(v)；计算u和v之间的结构身份相似度f_k(u，v)：

f_k(u，v)＝f_k-1(u，v)+g(s(R_k(u))，s(R_k(v)))，k≥0&|R_k(u)|，R_k(v)＞0

其中，R_k(u)表示G中距离u为k跳的节点的集合，R_k(v)表示在G中距离v为k跳的节点的集合；s(S)表示集合S的有序度序列；g(s(R_k(u))，s(R_k(v)))表示采用动态时间规整算法计算出的两个有序度序列s(R_k(u))，s(R_k(v))之间的距离；d(a，b)表示距离函数，其中，a为s(R_k(u))中的元素，b为s(R_k(v))中的元素；max(a，b)表示取a，b中的最大值，min(a，b)表示取a，b中的最小值。

进一步的，所述社群图结构相似度的计算方法为：

(3-1)构造一个加权多层图，所述用户社群图中的所有节点存在于加权多层图的每一层中，定义加权多层图的第k层中u和v之间边的权重为W_k(u，v)，

k^*为在无向图G中所能取到的k的最大值；

(3-2)根据步骤(3-1)计算出的权重，计算加权多层图的第k层的社群图结构相似度为：

进一步的，所述无直接边相连的任意两个用户节点之间的相关系数的计算方法为：

设m和n为两个无直接边相连的用户节点，m∈G(u)，n∈G(v)；d(u，v)用户节点u和v在图G中相似距离，g_k(u，m)表示所述加权多层图的第k层中m距离u的跳数；定义m和n之间的相关系数为η，η越大表示m和n之间的潜在关系越近；η的计算公式为：η(m，n)＝α*d(m，n)+(1-α)(g_k(u，m)+g_l(v，n))，α为常数系数。

进一步的，所述步骤(1)中获取网页或社交网站上匿名用户的公开数据的方法为：

借助redis技术和页面请求库request技术以及解析库beautifulSoup构建分布式爬虫，从网页或社交网站上爬取匿名用户的公开数据。

进一步的，所述属性包括：用户ID，姓名，邮箱，电话，从事工作类型，工作单位，好友，加入的群组，所在城市，签到过的地点，兴趣爱好，教育背景。有益效果：与现有技术相比，本发明具有以下优势：

该方法基于用户结构特征进行挖掘，无需依赖用户的身份标签等人工标注的特征因素，只通过用户的相互联系来计算用户特征的相似度，有效地提取出用户在社群网中的结构身份，弥补其他分析方法的不足。此外，该方法基于用户结构身份相似度算法，在跨社群用户关系发现方面具有明显优势，关系发现率高，运行速度快。

附图说明

图1为本发明的流程图；

图2为实施例中用户社群图的示意图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

本发明提出一种基于弱可信数据的跨社群潜在人物关系分析方法，其流程图1所示，包括以下几个部分：

步骤1)数据采集：包括redis+requests分布式大批量数据采集技术抓取网络公开匿名数据与MongoDB分布式大批量数据存储技术存储获取后的原始数据；

步骤2)实体识别：定义相关实体与属性，将步骤1)中的原始数据进行清洗，并按照一定规则识别抽取出指定信息存入实体属性数据库；

步骤3)图的结构挖掘：基于步骤2)实体属性数据库中某个用户节点边特征(关系)，生成用户与用户间的社群联系图；

步骤4)相似度算法：由步骤3)生成的用户社群关系图，再通过图的结构相似度算法计算出用户的结构身份相似度和相关系数；

步骤5)跨社群用户关系分析：比较社群结构相似度接近的图，通过已关联的用户发现跨社群中无直接边关联用户的潜在关系

上述方法中，在步骤1)中，数据采集具体包括：

步骤11)数据定向获取：首先由控制节点借助redis内存数据库依据需求向各爬虫节点分发爬取任务，在获得了定向公开信息的相关数据后，移交给MongoDB集群，对数据进行集群存储数据存储器进行处理。

步骤12)反爬虫技术升级：设置随机休眠时间，在一定的时间间隔内，随机发出请求，避免频繁请求被限制工P；设置IP地址池，随机变换IP地址。

上述方法中，所述步骤2)主要包括：

步骤21)数据清洗：根据信息来源网站的相关信息页面排名，采用抽样调查的方式，筛选出前M个有效的强关联数据信息，再反馈调整之前的数据采集的任务，避免爬取无效、冗余的信息，提高下一步骤的识别效率和准确度。

步骤22)实体识别：大规模无标注语料中自动学习到句法和语义信息转化为词向量，然后进入Bi-LSTM模型，再将预测结果进行修正之后加入训练集中，进行二次模型地训练，得出类似于(王某，地址，工作单位)，社交关系方面(王某，某种联系，李某)等结果，存入实体属性数据库。

上述方法中，所述步骤3)的结构挖掘包括：

步骤31)定义用户节点边特征：比如谁转发过谁的消息(who-follow-who)，谁在消息中提及谁(who-mention-who)，将相关消息的主题提取出来，划分为指定大类中，形成基于某种特征的社群。

步骤32)构建社群图：根据上一步骤形成的节点与边，构建如图2的社群图；

上述方法中，所述步骤4)涉及的步骤包括：

41)计算用户节点间的结构相似度

42)社群图结构相似度算法

43)用户节点相关系数

上述方法中，所述步骤41)中的社群内用户节点结构相似度为：

确定不同邻域大小的图中每个顶点对之间的结构相似性，这提供了更多信息来评估层次结构中每个层次的结构相似性，具体算法如下。

G＝(V，E)表示由用户节点集合V和边集合E构成的无权重的无向网络，其中n表示图中节点的数量。假设R_k(u)表示在图G中距离u节点恰好为k跳的节点集合，R_k(v)表示在图G中距离v为k跳的节点的集合；s(S)表示集合S的有序度序列，k≥0。

通过比较u和v以及k跳内环的有序的度序列，我们增加一个层次结构来计算结构相似性。令f_k(u，v)表示分别以u和v为中心节点扩展k跳邻居形成社群图中的u，v的结构距离，并采用动态时间规整算法来度量两个有序度序列之间的距离和对序列片段进行松散度比较：

其中，g(s(R_k(u))，s(R_k(v)))表示采用动态时间规整算法计算出的两个有序度序列s(R_k(u))，s(R_k(v))之间的距离；d(a，b)表示距离函数，其中，a，b分别为两个有序度序列的元素；max(a，b)表示取a，b中的最大值，min(a，b)表示取a，b中的最小值。

上述方法中，所述步骤42)中的社群图结构相似度算法可分为：

社群图的结构相似度算法：构造一个加权多层图，对节点之间的结构相似性进行编码。其中网络中的所有节点都存在于每一层中，每层内每个节点对之间的边权重W_k(u，v)与其结构相似性成反比：

其中，k^*为在无向图G中所能取到的k的最大值。

使用多层图为每个节点生成上下文p_k(u，v)。具体而言，多层图上的偏向随机游走用于生成节点序列。这些序列可能包括结构更类似的节点，最终得到社群图的结构相似度：

上述方法中，所述步骤43)中的用户节点相关系数计算方法为：

定义m，n为两个无直接边相连的两个用户节点，m∈G(u)，n∈G(v)，u，v直接相连；d(u，v)为用户节点u和v在图中相似距离，g_k(u，m)表示表示所述加权多层图的第k层中m距离u的跳数；定义m和n之间的相关系数为η，η越大表示m和n之间的潜在关系越近，就能够更精确的描述跨社群用户间潜在关系及相似程度；

η的计算公式为：η(m，n)＝α*d(m，n)+(1-α)(g_k(u，m)+g_l(v，n))。

上述方法中，所述跨社群用户关系分析方法具体为：

根据预设相似度阈值选择社群结构相似度接近的用户社群，对于任意两个社群结构相似度接近的用户社群G₁和G₂，选取一对用户节点u和v，u∈G₁，v∈G₂，u和v直接相连；采用KNN算法选取G₁中与用户u关系最紧密的用户节点，显然这些用户节点与v之间无连接关系，计算这些用户节点与用户节点v之间的相关系数，选取相关系数最高N个用户节点作为用户节点v的潜在关系用户。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于弱可信数据的跨社群潜在人物关系分析方法，其特征在于，包括步骤：

(5)根据预设相似度阈值选择社群结构相似度接近的用户社群，对于任意两个社群结构相似度接近的用户社群G₁和G₂，选取一对用户节点u和v，u∈G₁，v∈G₂，u和v直接相连；选取G₁中用户节点u周边与v无直接连接的用户节点，计算这些用户节点与用户节点v之间的相关系数，选取相关系数最高N个用户节点作为用户节点v的潜在关系用户；

所述用户间的结构身份相似度的计算方法为：

将所有用户归入顶点集V，将用户社群图中的边归入边集合E，形成无权重的无向图G，G＝(V，E)；选取直接相连的两个节点u和v，以u为中心节点扩展加权多层图的第k层邻居，得到用户社群G(u)，以v为中心节点扩展加权多层图的第k层邻居，得到用户社群G(v)；计算u和v之间的结构身份相似度f_k(u，v)：

其中，R_k(u)表示G中距离u为加权多层图的第k层的节点的集合，R_k(v)表示在G中距离v为加权多层图的第k层的节点的集合；s(S)表示集合S的有序度序列；g(s(R_k(u))，s(R_k(v)))表示采用动态时间规整算法计算出的两个有序度序列s(R_k(u))，s(R_k(v))之间的距离；d(a,b)表示距离函数，其中，a为s(R_k(u))中的元素，b为s(R_k(v))中的元素；max(a,b)表示取a，b中的最大值，min(a,b)表示取a，b中的最小值；

所述社群图结构相似度的计算方法为：

k^*为在无向图G中所能取到的k的最大值；

所述无直接边相连的任意两个用户节点之间的相关系数的计算方法为：

设m和n为两个无直接边相连的用户节点，m∈G(u)，n∈G(v)；d(u，v)用户节点u和v在图G中相似距离，g_k(u，m)表示所述加权多层图的第k层中m距离u的跳数；定义m和n之间的相关系数为η，η越大表示m和n之间的潜在关系越近；η的计算公式为：η(m，n)＝α*d(m,n)+(1-α)(g_k(u,m)+g_l(v，n))，α为常数系数；

所述步骤(1)中获取网页或社交网站上匿名用户的公开数据的方法为：

借助redis技术和页面请求库request技术以及解析库beautifulSoup构建分布式爬虫，从网页或社交网站上爬取匿名用户的公开数据；

所述属性包括：用户ID，姓名，邮箱，电话，从事工作类型，工作单位，好友，加入的群组，所在城市，签到过的地点，兴趣爱好，教育背景。