CN113762372B

CN113762372B - 即时通讯信息中组织成员识别方法及装置

Info

Publication number: CN113762372B
Application number: CN202111008018.2A
Authority: CN
Inventors: 任传伦; 郭世泽; 俞赛赛; 刘晓影; 乌吉斯古愣; 王淮; 谭震; 任秋洁
Original assignee: Cetc Cyberspace Security Research Institute Co ltd; CETC 15 Research Institute; CETC 30 Research Institute
Current assignee: Cetc Cyberspace Security Research Institute Co ltd; CETC 15 Research Institute; CETC 30 Research Institute
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2023-04-07
Anticipated expiration: 2041-08-30
Also published as: CN113762372A

Abstract

本发明公开了一种即时通讯信息中组织成员识别方法及装置，属于信息检索领域。该方法使用了一种基于图神经网络的方法，首先将群聊数据预处理后，根据群成员的互动来将该群构建成一个发言‑互动图，利用一个两层图神经网络来正向传播群成员间的信息。在训练阶段，利用截断随机游走过程捕获群中的结构信息，并构建一种无监督损失来训练图神经网络模型。最终，通过关键词提取与实体识别技术提取到待分析组织及相关组织成员，再基于欧式距离计算群内其他成员与该成员的相似度，选取相似度最大的几名成员作为该群内属于待分析组织的潜在组织成员。通过该方法，可以充分挖掘出群聊中各个群成员的发言特征，有效地识别出组织潜在成员。

Description

即时通讯信息中组织成员识别方法及装置

技术领域

本发明涉及信息检索领域，具体涉及一种即时通讯信息中组织成员识别方法及装置。

背景技术

目前在即时通讯信息中的识别组织成员的方法主要是通过爬虫技术获取到多个群聊的大量文本，发言人，时间戳等信息，对获取到的数据进行分析挖掘，来找出群聊中的组织与其潜在的组成成员。

目前绝大多数分析挖掘主要从设计程序脚本入手，从所有的文本信息中通过提取关键字等方式，找出组织名称，再通过提取所有发表的言论与该组织名称有关的人以及互动者来具体落实到该组织的组成人员。然而这样的方法存在三大缺点：

1.人工与空间成本大

这种方法需要人工观察每一个人在群聊中说的话，去匹配是否存在组织名称，这涉及到大量人工操作，容易造成错查，漏查的情况。此外，群聊数据信息量过大，也会导致计算的空间成本要求过高等问题。

2.局限性强

因为该方法是从群聊内容出发，通过判断发言中是否涉及到相关组织来落实到具体的发言人。而事实上，很多组织成员并不会明确在群聊中提及到组织名称，这种情况下该方法便无法应对，因此局限性过强，可扩展性较差。

3.无法捕获结构信息

现实情况下，同一组织的成员往往会在短时间内互动回复，我们称群成员中的快速回复类信息为群聊中的拓扑结构信息，这一信息对于组织成员的挖掘是十分重要的，而以上方法并没有对这类信息进行重点关注，导致识别的性能会有所欠缺。

发明内容

有鉴于此，本发明提供的一种即时通讯信息中组织成员识别方法及装置，本方法把每个群聊建模成一个图结构，把每个人说过的话作为他的具体属性特征，通过图卷积操作实现节点属性特征沿边的传播与汇聚，基于图卷积神经网络识别组织，解决了传统方法人工参与度过高，计算空间复杂度过大，局限性强以及无法捕获结构信息的问题。

根据本发明一个方面，提供了一种即时通讯信息中组织成员识别方法，该方法包括步骤：步骤1：数据预处理：对即时通讯信息中的群聊原始数据进行数据预处理，分别获取群聊中每个群成员发表的所有聊天内容作为该群成员的特征表示；步骤2：构建发言-互动图：以每个群成员为节点，所述群成员之间的链接为边，结合各群成员的所述特征表示，将所述群聊转换为发言-互动图格式；步骤3：采用一个两层图神经网络模型来计算每个节点的低维特征表示；步骤4：在所述发言-互动图中提取组织实体并推测组织成员；首先从群聊中检索出第一次提及到所述组织实体的节点为锚节点；然后通过所述每个节点的低维特征表示，计算其他每个节点到所述锚成员的距离，找出群聊中与所述锚成员相似性最大的K个节点，所述K个节点与所述锚节点为所述组织实体的成员。

根据本发明另一个方面，提供了一种即时通讯信息中组织成员识别装置，包括：数据预处理模块：被配置为对即时通讯信息中的群聊原始数据进行数据预处理，分别获取群聊中每个群成员发表的所有聊天内容作为该群成员的特征表示；构建发言-互动图模块：被配置为以每个群成员为节点，所述群成员之间的链接为边，结合各群成员的所述特征表示，将所述群聊转换为发言-互动图格式；模型构建与训练模块：采用一个两层图神经网络模型来计算每个节点的低维特征表示；推测组织成员模块：在所述发言-互动图中提取组织实体并推测组织成员；首先从群聊中检索出第一次提及到所述组织实体的节点为锚节点；然后通过所述每个节点的低维特征表示，计算其他每个节点到所述锚成员的距离，找出群聊中与所述锚成员相似性最大的K个节点，所述K个节点与所述锚节点为所述组织实体的成员。

籍由上述技术方案，本发明提供的有益效果如下：

(1)人工成本低，且最终每个群成员均可由一个低维向量表示，空间成本低。

(2)图神经网络的计算过程考虑到了群成员的互动关系，因此可以成功挖掘出那些并没有明确指出组织名称，却频繁与其他组织成员互动的潜在组织成员。

(3)图神经网络的传播使得每个群成员的属性按照成员之间的互动关系进行聚合，能够捕获并利用群聊中的重要拓扑结构信息，使得组织成员的推测更为科学合理。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种即时通讯信息中组织成员识别方法的流程图；

图2示出了本发明实施例提供的两层图神经网络模型关于每一个节点的正向传播图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

首先，在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

JSON数据：(JavaScript Object Notation，JS对象标记)是一种轻量级的数据交换格式。它基于ECMAScript(w3c制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。

Word2vec模型：是一种词嵌入模型，其对自然语言中组成句子的单词间距建模，建模出不同词语间的联系，实现将自然语言中的字或词转化为连续的低维向量表示。

实体识别技术：(Named Entities Recognition，命名实体识别)属于信息提取领域，即从非结构化文本中提取众多结构化信息，其中人名、地名、组织机构名、时间和数字表达是结构化信息的关键内容。实体识别技术的目的即是识别这些实体指称的边界和类别，是主要关注人名、地名和组织机构名这三类专有名词的识别方法。

本发明要解决的核心技术问题为，现有技术中现有的即时通讯信息中的组织识别中的人工与空间成本大，局限性强以及易于忽视群路中结构信息的问题。

针对上述技术问题，本发明提出一种即时通讯信息中组织成员识别方法与装置，基于图卷积神经网络来发现组织成员。把每个群聊建模成一个图结构，其中每个图中的节点为一个群成员，群成员之间的链接为边；基于这个构建好的图结构进行图卷积操作，实现节点属性特征沿边的传播与汇聚，得到每个节点的低维潜在表示，再通过实体识别以及关键字检索技术找到组织并通过相似度计算找出组织成员。

实施例1

即时通讯信息数据绝大部分为非欧几里得数据，这种数据往往复杂而不规则，因此导致传统的深度学习模型如卷积神经网络，循环神经网络等难以直接应用。图神经网络能够将神经网络等机器学习技术应用在图结构数据上，实现局部邻域内节点的特征融合，并在图上实现端到端的计算。

请参考图1，其示出了本发明实施例提供的一种即时通讯信息中组织成员识别方法的总体流程图。

如图1所示，本发明实施例方法主要包括以下步骤：

步骤1：数据预处理：对即时通讯信息中的群聊原始数据进行数据预处理，分别获取群聊中每个群成员发表的所有聊天内容作为该群成员的特征表示。

在数据预处理阶段，本实施例通过爬虫技术获取到的大量JSON数据格式的即时通讯信息，以JSON数据作为输入，输出结构化数据(包括用户ID，用户名，发言内容，发言时间戳)。

首先把一段时间的群聊内容提取出来，利用结巴分词技术分词，去掉停用词，汇总得到语料库。接着利用Word2vec词嵌入模型，计算得到每个词的表示向量。把群聊中的每一句话提取出来，根据语料库的词向量得到每句话的句向量，按照发言人来归纳、汇总群聊中每个人发表的所有聊天内容。由于每一句群聊信息反映了每个群成员平时关注的内容，因此计算其发表的聊天内容对应的所有句向量的平均值作为该成员的属性特征向量表示。此处的属性特征可灵活设置，如果后续数据中有新的用户画像信息，可以简单地将该信息拼接在原属性特征后面，形成新的属性特征。

此外，还需提取出群聊中每句话对应的用户ID与用户名，以及每句话发出的时间。因为爬到的原数据是以时间戳的形式出现的，因此需要对时间格式进行转换，调整成容易观察的格式。

步骤2：构建发言-互动图：以每个群成员为节点，所述群成员之间的链接为边，结合各群成员的所述特征表示，将所述群聊转换为发言-互动图格式。

将步骤1中提取到的群聊信息转换为一种结构化的图数据形式。

网络是当今社会承载信息的一种形式，从本质上来说，网络就是一种图结构，由节点和边构成。本实施例将群聊视作一个图，而图中的每个节点即为群聊中的每个群成员，每个成员附带有属性，即步骤1中提取到的该群成员发表过的所有言论的句向量的总表示。关于边的构成，即群成员之间的链接，本实施例中设置一个时间间隔阈值，例如半小时。对上一条信息发表过后，若在半小时内存在另一位群成员的回复，则判定这两位群成员之间存在链接。遍历所有群聊的内容和发表时间，根据边的构建规则，将群聊转换成一种图数据形式，并命名为发言-互动图。

步骤3：采用一个两层图神经网络模型来计算每个节点的低维特征表示：

两层图神经网络模型的正向传播与训练过程如下：

步骤3.1：图神经网络正向传播

请参考图2，其示出了两层图神经网络关于目标节点的正向传播过程。下面详细描述每一图神经网络层(第一层与第二层，用l代表当前层数)的具体流程。

步骤3.1.1：采样邻居节点

对每个节点需采样一定数量的邻居节点作为待聚合信息的节点。例如当采样数量设置为m时，若该节点的总邻居数少于m，则采用有放回的采样方法(即每个邻居可被采样多次)直至成功采样出m个节点。若邻居数大于m，则采用无放回抽样法(即每个邻居只可被采样一次)取出m个邻居节点。

步骤3.1.2：邻居节点信息聚合

采用图神经网络层作为信息传播方式，使得节点的信息可以沿着图中的边传播。关于邻居信息聚合的形式化定义如下：

其中N(·)代表邻居节点集合，h_u ^(l-1)中右上角代表图神经网络的当前层，右下角为节点。MEAN为对所有向量求平均值操作，最终得到一个一维向量，代表聚合后的邻居节点信息。

步骤3.1.3：更新目标节点

其次需要更新目标节点的本层表示，形式化表示如下：

h_v ^(l)＝σ(W^(l)·CONCAT(h_v ^(l-l)，h_N(v) ^(l))) (2)

其中CONCAT为向量延维度1的拼接操作，将上层(第(l-1)层)中的目标节点表示与(1)中得到的邻居节点信息拼接起来，然后通过一层全连接神经网络更新得到本层的目标节点表示，σ为sigmoid非线性激活函数，W^(l)为待训练的参数矩阵。

以上是每一层图神经网络操作，实现一跳邻居的信息传播，随着图神经网络层数的加深，聚合的邻居跳数也随之增加。为了避免盲目加深层数导致的节点表示过平滑问题，本实施例采用两层图卷积网络作为神经网络，这是由于一层图神经网络只能够聚合到一跳邻域信息，消息量过少，而三层以上的图神经网络模型可能会引入噪声反而影响模型性能。最终我们通过该两层图神经网络的正向传播即可得到所有节点的低维隐层表示。

步骤3.2：设计损失函数对图神经网络模型进行训练。

为了保存图中尽可能多的结构信息，在图上以每个节点为起点进行截断的随机游走过程(即限制每条随机游走序列的最大长度)，得到多条节点序列，通过随机游走过程可以很大程度上地提取到网络中的拓扑结构信息。设定固定大小的窗口值，在每条随机游走序列上进行滑动，以窗中节点与窗中心节点为一个正样本对，最大化正样本对间的相似性作为目标。另外采用自监督学习的思路，使用对比学习方式，以窗口中心节点为中心，随机选取窗口外的节点，将其与窗口中心节点构造为负样本对，并以最小化负样本对间的相似性为目标。将以上目标形式化定义为损失函数如下：

该损失为无监督损失，其中h_v为节点v的表示，λ为平衡参数，v′是服从于基于P(v)分布的负采样策略得到的负样本节点。迭代地训练图神经网络模型直至收敛，最终得到网络中每个节点的低维表示。

步骤4：在所述发言-互动图中提取组织实体并推测组织成员；首先从群聊中检索出第一次提及到所述组织实体的节点为锚节点；然后通过所述每个节点的低维特征表示，计算其他每个节点到所述锚成员的距离，找出群聊中与所述锚成员相似性最大的K个节点，所述K个节点与所述锚节点为所述组织实体的成员。

通过上述步骤1-3，可以得到网络图中每个节点的表示，即每个群成员的向量表示，下一步为寻找组织与潜在组织成员。在寻找组织的过程中，首先通过设定一些关键词来缩小检索范围，将群聊内容通过关键词筛选后，得到一系列粗精度的组织名称列表，基于该列表中的组织名称，再使用现有的实体识别技术，识别出细精度的待分析组织。例如，现有的实体识别技术可以为foolnltk工具包。

在一个具体的应用场景中，例如在某群聊原始数据包中提取出了类型标志为“ORG”的组织实体，再根据预处理后的数据中的群聊内容与对应时间检索出第一次提及到该组织实体的群成员，认定该成员为该组织的成员之一，也称为锚成员。由于在步骤3中已经成功计算得到每个群成员的向量表示，因此下一步可以通过特定的距离度量方法(本实例采用欧式距离)，找出群中与该锚成员相似性最大的K个节点，并认为这些群成员即为与该锚成员同属该组织的人，请注意这里的距离度量方法并不受限制，其他相关方法同样适用，如cosine距离。关于欧式距离的计算方法如下：

实施例2

进一步的，作为对上述实施例所示方法的实现，本发明另一实施例还提供了一种即时通讯信息中组织成员识别装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。在该实施例的装置中，具有以下模块：

数据预处理模块：被配置为对即时通讯信息中的群聊原始数据进行数据预处理，分别获取群聊中每个群成员发表的所有聊天内容作为该群成员的特征表示；数据预处理模块对应于实施例1中的步骤1。

构建发言-互动图模块：被配置为以每个群成员为节点，所述群成员之间的链接为边，结合各群成员的所述特征表示，将所述群聊转换为发言-互动图格式；构建发言-互动图模块对应于实施例1中的步骤2。

模型构建与训练模块：采用一个两层图神经网络模型来计算每个节点的低维特征表示；模型构建与训练模块对应于实施例1中的步骤3。

推测组织成员模块：在所述发言-互动图中提取组织实体并推测组织成员；首先从群聊中检索出第一次提及到所述组织实体的节点为锚节点；然后通过所述每个节点的低维特征表示，计算其他每个节点到所述锚成员的距离，找出群聊中与所述锚成员相似性最大的K个节点，所述K个节点与所述锚节点为所述组织实体的成员。推测组织成员模块对应于实施例1中的步骤4。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

Claims

1.一种即时通讯信息中组织成员识别方法，其特征在于，包括步骤：

步骤1：数据预处理：对即时通讯信息中的群聊原始数据进行数据预处理，分别获取群聊中每个群成员发表的所有聊天内容作为该群成员的特征表示；

所述群成员的特征表示的获取步骤包括：

利用结巴分词技术对所述群聊原始数据进行分词，计算每个词的词向量，汇总得到语料库；

把所述群聊原始数据中的每一句话提取出来，根据所述语料库的所述词向量计算每句话的句向量；

计算所述群成员发表的聊天内容对应的所有句向量的平均值作为该群成员的特征表示，所述特征表示包括所述群成员的用户ID，用户名，发言内容，发言时间戳；

步骤2：构建发言-互动图：以每个群成员为节点，所述群成员之间的链接为边，结合各群成员的所述特征表示，将所述群聊转换为发言-互动图格式；

所述发言-互动图格式具体为：

将所述群聊原始数据中的每一个群聊视作一个图，所述图具有若干节点，任一节点对应于所述群聊中的一个所述群成员，每个群成员具有各自不同的所述特征表示；所述图中具有若干边，任一边对应于两个所述群成员之间的链接；若两个所述群成员之间的链接在预设的时间间隔阈值范围内，则构成所述边，否则不构成边；遍历所述群聊原始数据中的每一个群聊，得到所述发言-互动图格式；

步骤3：采用一个两层图神经网络模型来计算每个节点的低维特征表示；

所述图神经网络模型包括：

一：对任一所述节点，从该所述节点的所有邻居节点中采样m个邻居节点作为待信息聚合邻居节点；其中m为正整数，所述节点为目标节点；信息聚合具体为：

其中N(v)为节点v的所述待信息聚合邻居节点集合，h_u ^(l-1)中右上角代表所述图神经网络的当前层，右下角为所述目标节点；MEAN为对所述待信息聚合邻居节点的特征表示求平均值；获取一个一维向量为聚合后的邻居节点信息；

二：更新目标节点的本层表示，具体为：

h_v ^(l)＝σ(W^(l)·CONCAT(h_v ^(l-1)，h_N(v) ^(l)))

其中CONCAT为向量拼接操作，将上层中的所述目标节点表示与所述聚合后的邻居节点信息拼接起来，然后通过一层全连接神经网络更新得到本层的目标节点表示，σ为sigmoid非线性激活函数，W^(l)为待训练的参数矩阵；

三：重复步骤一和二，建立所述两层图神经网络模型；

设计损失函数对所述图神经网络模型进行训练，包括步骤：

在所述发言-互动图上以每个节点为起点进行截断的随机游走，限制每条随机游走序列的最大长度，得到多条随机游走序列；

设定固定大小的窗口值，在每条所述随机游走序列上进行滑动，以窗中节点与窗中心节点为一个正样本对，以最大化正样本对间的相似性作为第一目标；采用自监督学习的思路，使用对比学习方式，以窗口中心节点为中心，随机选取窗口外的节点，将其与窗口中心节点构造为负样本对，以最小化负样本对间的相似性为第二目标；将所述第一目标与第二目标形式化定义为损失函数如下：

所述损失函数为无监督损失函数，其中h_v为节点v的表示，λ为平衡参数，v′是服从于基于P(v)分布的负采样策略得到的负样本节点；σ为sigmoid非线性激活函数；

迭代地训练所述图神经网络模型直至收敛；

步骤4：在所述发言-互动图中提取组织实体并推测组织成员；首先从群聊中检索出第一次提及到所述组织实体的节点为锚节点；然后通过所述每个节点的低维特征表示，计算其他每个节点到所述锚节点的距离，找出群聊中与所述锚节点相似性最大的K个节点，所述K个节点与所述锚节点为所述组织实体的成员。

2.根据权利要求1所述的即时通讯信息中组织成员识别方法，其特征在于，所述计算其他每个节点到所述锚节点的距离的方式可以为欧式距离或者cosine距离。

3.一种即时通讯信息中组织成员识别装置，其特征在于，包括：

数据预处理模块：被配置为对即时通讯信息中的群聊原始数据进行数据预处理，分别获取群聊中每个群成员发表的所有聊天内容作为该群成员的特征表示；

所述数据预处理模块包括：

词向量子模块：利用结巴分词技术对所述群聊原始数据进行分词，计算每个词的词向量，汇总得到语料库；

句向量子模块：把所述群聊原始数据中的每一句话提取出来，根据所述语料库的所述词向量计算每句话的句向量；

特征表示子模块：计算所述群成员发表的聊天内容对应的所有句向量的平均值作为该群成员的特征表示，所述特征表示包括所述群成员的用户ID，用户名，发言内容，发言时间戳；

构建发言-互动图模块：被配置为以每个群成员为节点，所述群成员之间的链接为边，结合各群成员的所述特征表示，将所述群聊转换为发言-互动图格式；

所述发言-互动图格式具体为：

模型构建与训练模块：采用一个两层图神经网络模型来计算每个节点的低维特征表示；

所述模型构建与训练模块包括：

邻居节点聚合子模块：对任一所述节点，从该所述节点的所有邻居节点中采样m个邻居节点作为待信息聚合邻居节点；其中m为正整数，所述节点为目标节点；信息聚合具体为：

其中N(v)为节点v的待信息聚合邻居节点集合，h_u ^(l-1)中右上角代表所述图神经网络的当前层，右下角为所述目标节点；MEAN为对所述待信息聚合邻居节点的特征表示求平均值；获取一个一维向量为聚合后的邻居节点信息；

目标节点更新子模块：更新目标节点的本层表示，具体为：

h_v ^(l)＝σ(W^(l)·CONCAT(h_v ^(l-1)，h_N(v) ^(l)))

所述模型构建与训练模块还包括：

损失函数子模块，用于迭代地训练所述图神经网络模型直至收敛；所述损失函数具体为：

推测组织成员模块：在所述发言-互动图中提取组织实体并推测组织成员；首先从群聊中检索出第一次提及到所述组织实体的节点为锚节点；然后通过所述每个节点的低维特征表示，计算其他每个节点到所述锚节点的距离，找出群聊中与所述锚节点相似性最大的K个节点，所述K个节点与所述锚节点为所述组织实体的成员。

4.根据权利要求3所述的即时通讯信息中组织成员识别装置，其特征在于，所述计算其他每个节点到所述锚节点的距离的方式可以为欧式距离或者cosine距离。