CN113722567A

CN113722567A - 一种基于多目标融合的实体关系抽取方法

Info

Publication number: CN113722567A
Application number: CN202111003224.4A
Authority: CN
Inventors: 苏岩; 毛煜; 朱一凡; 祝永贺
Original assignee: Beijing Banren Technology Co ltd
Current assignee: Beijing Banren Technology Co ltd
Priority date: 2021-08-24
Filing date: 2021-08-30
Publication date: 2021-11-30
Anticipated expiration: 2041-08-30
Also published as: CN113722567B

Abstract

本发明涉及一种基于多目标融合的实体关系抽取方法，属于自然语言处理技术领域，旨在有效解决互联网中由于社交APP不同消息隔阂导致的用户认知不一、用户画像发现和匹配准确率低等技术问题。本方法结合深度学习特征提取模型和CRF解码，提取不同社交APP中的聊天、动态记录等。通过构建记录聚合方法，实现对不同社交APP之间用户的发现与识别。本方法能够自动分析和识别互联网环境中不同社交APP用户画像，根据用户画像相似程度将不同社交APP账号关联到同一用户。相较于传统的用户发现方法，本方法提高了不同APP中用户识别的准确率，实现了较为精准的基于多目标融合的实体关系抽取方法。

Description

一种基于多目标融合的实体关系抽取方法

技术领域

本发明涉及一种基于多目标融合的实体关系抽取方法，具体涉及一种基于深度学习特征提取模型的基于多目标融合的实体关系抽取方法，属于自然语言处理技术领域。

背景技术

在5G时代，社交APP的出现改变了人们的生活。社交APP系统成为现在最受欢迎的交友模式。

社交APP为用户提供陌生交友功能，用户在与陌生人的交流中包含大量信息。尽管社交APP可以满足用户需求，但是，绝大多数用户都同时使用多款社交APP或是同款社交APP拥有多个账号。以中国新闻为例，在新浪微博的账号名称为CCTV中国新闻，在微信公众号账号名称为央视新闻，对于权威性机构，因为有官方认证的存在，公众不会混淆。但是，对于个体用户，很难去辨别不同的社交APP上的两个账户的使用者之间的关联。

社交网络(social network)的出现，为广大网民提供了更加自由和宽广的表现舞台。社交网络的核心价值在于用户之间的信息交换，用户可以自由地创作内容并发布在一个或多个社交网络站点(social network sites,SNS)，并经由它的观众通过转发等方式进行传播。随着发展网络社交的效果越来越接近于传统社交效果，真正全面认识了解一个人，需要从网络中的多个维度进行分析认知。

另一方面，社交网络的实时性决定了其公众舆情方面的价值。社交网络中的舆情具有自由性、互动性、隐匿性等特性。由于社交网络是对所有人开放的，隐匿性又一定程度上让用户更真实的表达自己的观点，因此，社交网络中的舆情含有更高价值。此外，命名实体识别作为自然语言处理中的基本任务之一，可以从输入的文本中抽取出文本中具有特定意义或指代性的实体，获取到文本中某些实体之间的关系，进而根据用户要求识别出更多类别的实体，可以有效的帮助后续的文本语义理解。

学术界认为，命名实体识别(Named Entity Recognition，，简称NER)是一个已经解决的问题，因为在一定的文本类型中已经取得了非常好的实体抽取效果。但是，与其它信息领域相比，用来实体命名抽取的语料数量不足，容易产生过拟合问题。此外，命名实体抽取更重视召回率，但在信息检索领域准确率更为重要。

虽然目前的命名实体识别模型较为成熟，然而，这些成熟的模型仅仅还只是召回率很高的模型，并没有进行充分利用，从而导致了NER模型的高完成度不能转化为社会生产力。对于社交APP来说，不同APP的数据格式不同，不同笼统的统一收集信息，这使得NER的初始建模有一定困难。不仅如此，当前，尚未有公认的针对不同社交APP的信息公开样本，从而使得原始信息的采集更加困难。另一方面，由于命名实体关系抽取的自由性，抽取的实体关系不一定是我们需要的实体或关系，最终也会导致后续用户画像匹配处理分析失败。

发明内容

本发明的目的是针对互联网中的网络舆论等相关互联网言论记录离散分布，采用现有的互联网舆论控制机制识别时，会产生个人描述缺失、准确度过低等缺陷，为有效解决互联网中由于社交APP不同消息隔阂导致的用户认知不一、用户画像发现和匹配准确率低等技术问题，提出一种新的基于多目标融合的实体关系抽取方法。

本发明的创新点在于：采取基于多目标融合的命名实体关系抽取方法，结合深度学习特征提取模型和CRF解码，提取不同社交APP中的聊天、动态记录等。通过构建记录聚合方法，实现对不同社交APP之间用户的发现与识别。本方法能够自动分析和识别互联网环境中不同社交APP用户画像，根据用户画像相似程度将不同社交APP账号关联到同一用户。

本发明的目的是通过下述技术方案实现的。

一种基于多目标融合的实体关系抽取方法。首先，基于深度学习特征抽取模型，从已有的社交APP中提取用户画像。然后，基于深度学习特征抽取模型的用户画像，对其它社交APP聊天信息进行匹配识别。

本发明包括以下步骤：

步骤1：构建社交APP的特定用户画像。

具体地，步骤1可以采用以下方法实现：

步骤1.1：从已有的社交APP的数据仓库中，获取包含特定用户信息的实体关系。其中，特定用户信息包括用户聊天信息、动态发布等。

实体关系构成了该用户画像的分片描述，用符号source表示。

步骤1.2：对抽取的source进行筛选，选取与特定用户的关联路径数大于3 的前N个实体关系，作为用户画像关键词基础词集，并用符号Portrait_map表示。

步骤1.3：在LSTM的emmbedding layer层，将训练语料库中source的中文信息，转化为字向量，获得输入的embedding。

步骤1.4：将embedding输入到Bi-LSTM层，进行特征提取(编码过程)，得到序列的特征表征logits。

此处，引入双向LSTM层(LSTM，Long Short-Term Memory，长短期记忆网络)，作为特征提取工具。

目前，对RNN模型的训练，主要基于BPTT算法(Back-Propagation Through Time)或RTRL算法(Real Time Recurrent Learning)。通过这两种方式对RNN 训练，会使得误差在序列内传播时出现梯度消失或者爆炸的情况。相比之下，作为RNN的一种特殊类型的LSTM拥有长序列特征提取能力。当出现梯度消失的情况时，训练时的权重就会出现摇摆和震荡，使得训练耗费大量时间，甚至停滞不利于快速形成用户画像。而双向LSTM在提取某个时刻特征时，能够利用该时刻之后的序列的信息，显然能够提高模型的特征提取能力。在LSTM中，使用常量作为传递不同时刻相互连接的RNN单元的误差，从而解决梯度消失或者爆炸的问题。

步骤1.5：对特征表征logits进行解码，得到标注序列。利用CRF(条件随机场，Conditional Random Fields，CRF)作为解码工具，将标注序列输入到解码的CRF层，获得每个字的序列。

中文输入经过双向LSTM层的编码之后，需要能够利用编码到的丰富的信息，将其转化成NER标注序列。通过观察序列，预测隐藏状态序列，CRF可以很好的完成这项工作。对比与HMM，CRF可以定义数量更多，种类更丰富的特征函数，着眼于整个句子定义更具有全局性的特征函数。CRF可以使用任意的权重，每个特征函数的权重可以是任意值。

经过上述操作，得到社交APP特定用户画像实体关系词集Keyword。

步骤1.6：根据用户画像实体关系词集Keyword在语料库中搜索匹配。具体为：使用词集Keyword作为检索关键词，使用爬虫程序按照预先设定的时间间隔，动态采集其它社交APP中含有所述实体关系三元组实体的消息和动态文本，构建用户画像数据库。

其中，用户画像数据库包括检索关键词、消息和动态文本、时间标签。

步骤2：对用户画像数据库中的数据进行预处理和特征提取。

具体地，步骤2可以采用以下方法实现：

步骤2.1：对用户画像数据库中的数据进行预处理；

步骤2.1.1：从用户画像数据库中，获取包含特定用户信息的实体关系，实体关系构成了该用户画像数据集，用符号source_mul表示；

步骤2.1.2：根据用户画像实体关系词集Keyword来匹配source_mul数据集；

步骤2.1.3：根据目标匹配程度划分构建匹配用户库AllUse；

用户库AllUser包括不同社交APP中的用户的实体关系，每个用户库包括某个社交APP中的某个用户的实体及实体关系，记为User；每个社交APP库包括该APP中爬取的用户数据，记为App；不同的社交App库构成了整个用户库 AllUser；

步骤2.2：对用户画像数据库中的每一条数据进行实体关系抽取；

首先，识别句子中的所有subject；

然后，对于每个subject，在某个relation下，找到句子中对应的object，其目标是最大化三元组层面的联合概率；

之后，将实体-关系抽取分为两步，第一步，抽取头实体，第二步，联合抽取尾实体-关系。

模型以LSTM作为基本的句子编码器预测头实体类型和关系类型，解码方式统一采用CRF解码；对于句子中的不同标记，解码是在由这些标记组成的数组中搜索一条最优的路径；

对于每一列的每一个标记，都计算到达该标记的分数，这个分数由三部分组成：它本身的一元特征权重W，它前面一个字标记的路径分数PreScore，前面一个字标记到当前标记转移特征权重TransW，一直计算到最后一列；

比较这些值中的最大值，即为最优路径的分数，最后，以该值的标记点为始点，回溯得到最优路径。

步骤3：描绘用户画像。

具体地，步骤3可以采用以下方法实现：

步骤3.1：社交APP集合内部三元组，与用户三元组进行匹配。

以某一社交APP特定用户画像实体关系词集Keyword作为标准集合，与用户库AllUser中的数据进行匹配排序。

步骤3.2：确定并构建用户画像合集Sum。根据匹配度，排序筛选出社交APP 中匹配度最高的三元组群，将该三元组群所属的用户ID筛选出来，作为用户画像的一个成员。最后，对所有社交APP合集库重复上述操作。

根据筛选出来存在于不同APP的用户集表，描绘最终用户画像。

有益效果

本发明方法，对比现有技术，具有以下优点：

(1)本发明采用抽取技术成熟的LSTM+CRF模型方法，可以确保抽取出来的实体及实体关系正确性，在没有标准实体关系的环境下自定义全面构建特定用户画像实体关系词集。

(2)本发明通过针对互联网中社会APP的用户信息处理，分别从横向多用户和纵向多社交APP的角度发现识别用户画像，从而实现了基于多目标融合的实体关系抽取，绘制更加立体的用户画像，将网络中的多个“人”与现实中的一个人联系起来，从而有助于对网络舆情进行更好的监控。

(3)本发明针对社交APP用户的特征进行了实体关系抽取、匹配和聚类，从而相较于传统的用户发现方法提高了不同APP中用户识别的准确率，最终实现了较为精准的基于多目标融合的实体关系抽取方法。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面结合附图和实施例对本发明方法作进一步详细说明。

实施例

一种基于多目标融合的实体关系抽取方法，如图1所示，包括以下步骤：

包括以下步骤：

步骤1.1：确定收集数据的有效性。

步骤1.2：确定用户画像实体关系词集Keyword训练语料库。

本实施例中，选取微信、腾讯QQ、whatsapp中个人用户消息以及发布动态构成训练语料库Keyword，共计含有文本数140,000条。

步骤1.3：构建特定用户画像实体关系词集。

包括以下步骤：

步骤1.3.1：词语向量化模型的构建。

包括以下步骤：

步骤1.3.1.1：对步骤1.2得到的语料库Keyword，使用LSTM+CRF对 Keyword中的所有文本进行分词处理，得到分词后的单面用户画像。

步骤1.3.1.2：对用户画像进行筛选，选取与特定用户的关联路径大于3的前N个实体关系，作为用户画像关键词基础词集，用符号Portrait_map表示。

本实施例中，选取用户画像关键词基础词集的数量为10，训练过程中的每批次大小为50条，训练总轮数为10轮，得到实体及实体关系为输出的三元组。训练完成后得到的用户画像包含10条描述。

步骤1.3.2：在LSTM的emmbedding layer层，将训练语料库中source的中文信息转化为字向量，获得输入的embedding。

然后，将embedding输入到Bi-LSTM层进行特征提取(编码过程)，得到序列的特征表征记为logits。

之后，对logits进行解码，得到标注序列，将标注序列输入到解码的CRF 层，获得每个字的序列，并从中选取最短路径的实体关系。

然后，筛选去除不能体现用户特点的实体关系，将剩余符合条件的实体及实体关系填充入KeywordDict之中，并在另一组其他社交APP中的同一自然人用户执行同样地步骤，最终抽取出最具有代表性的实体关系。

在本实施例中，在第一组数据抽取中，得到如表1所示的结果。

表1第一组实体关系抽取及人工筛选结果

将表1中人工筛选为保留的词语填充入KeywordDict之中，对不同的社交 APP中的数据进行相同操作。最终经过三轮筛选之后，得到如表2的实体关系数据集。

表2实体关系数据集

通过上述步骤，得到完整的用户画像数据集Keyword。

步骤1.4：用户画像匹配。

使用步骤1.3得到的社交APP特定用户画像实体关系词集Keyword作为检索关键词，使用爬虫程序按照预先设定的时间间隔，动态采集其他社交APP中含有所述实体关系三元组实体的消息和动态文本，构建用户画像数据库。

用户画像数据库包括检索关键词、消息和动态文本、时间标签。

在本实施例中，社会信号的来源分为腾讯QQ、微信和whatsapp，爬虫程序通过用户聊天界面的对话信息、腾讯QQ的动态和微信朋友圈的内容，不间断的采集信息，并存入Mysql(版本8.0.1)数据库中。

步骤2：对用户画像数据库中的数据进行预处理和特征提取。

包括以下步骤：

步骤2.1：从用户画像数据库中的数据获取包含特定用户信息的实体关系，众多独特的实体关系构成该用户画像，用符号source_mul表示。

在本实施例中，选择反向过滤功能过滤采集到的用户信息，反向过滤采用词典过滤的方式，即当某一社交APP中收集的完整文本中同时出现了反向过滤词典中某一条词组，则该信号被过滤，保存下来参与之后的环节。反向过滤词典的结构和部分内容如表3所示。

表3反向过滤词典

经过过滤，得到用户画像相关的数据集source_mul。

步骤2.2：用户画像实体关系词集Keyword去匹配source_mul数据集。

步骤2.3：对用户画像的每一个实体关系组合进行匹配，形成关系匹配表。关系匹配表中按照实体关系的不同和匹配程度高低，分别对应一系列实体关系匹配的词集。

步骤2.4：抽取每一组词集的实体关系。

把获取到的数据集，作为模型的插入矩阵的来源。采用LSTM+CRF完成用户实体相关的实体关系抽取。

首先，将模型进行初始化。定义输入词向量维度input_dim，LSTM隐藏层维度hidden_dim，标签数n_class，rnn类型rnn_type，词数n_voc，ModelEmbedding 类的实例model_embedding。本案例中，考虑到收集数据集大约十万个左右，因此输入词向量维度选择96，input_dim是代表输入的x的维度，其中x是列向量。 input_dim将决定网络中矩阵U的列数，hidden_dim代表了词向量嵌入的维度，也就是x[i]经过U的变换后，会从input_dim维(input_dim个神经元)变到 hidden_dim维(hidden_dim个神经元)，hidden_dim决定了U的行数，layer_dim 代表了RNN神经元的层数。

然后，使用转移矩阵参数重置函数，保证其它标签不会转向起始标签，同样，结束标签也不会转向其他标签。

随后，通过序列经过LSTM得到相对应的发射矩阵。

最后，利用相应的对数函数求出所有路径的得分指数。在求路径得分时，为方便计算，先在真实的标签labels之前引入<start>标签，之后每个时刻进行遍历，计算需要增加的分数，根据mask确定是否要加入，最后计算各部分最后一个label到End的分数，并加入到分数中。

步骤3：描绘用户画像。

包括以下步骤：

步骤3.1：社交APP集合内部三元组与用户三元组匹配。

本实施案例中，以腾讯QQ中特定用户画像实体关系词集Keyword为标准集合，与用户库AllUser中的数据进行匹配排序。最终形成如表4所示的用户对照表。

表4用户对照表

标准用户	待匹配ID	匹配度
			网名难起	123	94.32
网名难起	气势如歌	89.74
			网名难起	东方不败	74.32
网名难起	测试用户	58.93
			…	…	…
网名难起	小幸运	1.73

步骤3.2：确定并构建用户画像合集。

包括以下步骤：

步骤3.2.1：确定并构建信号点集PSet。

根据匹配度排序筛选出社交APP中匹配度最高的三元组群，将该三元组群所属的用户ID筛选出来作为用户画像的一个成员。对所有社交APP合集库重复上述操作。

步骤3.2.2：根据筛选出来存在于不同APP的用户集表，描绘最终用户画像。

在本实施例中，各社交APP与其标准用户ID匹配如表5所示。

表5用户画像描绘结果

APP	用户ID	匹配度
			QQ	网名难起	100.00
微信	123	94.32
			whatsapp	说来听听	89.75

需要声明的是，上述描述对本发明的特征和方法进行了具体的说明，但应了解，在所述权利要求中定义的本发明并不局限于所述的具体特征或方法。本领域人员可在权利要求的范围内做出修改，并不影响本发明的实质内容。

Claims

1.一种基于多目标融合的实体关系抽取方法，其特征在于，包括以下步骤：

步骤1：基于深度学习特征抽取模型，构建社交APP的特定用户画像，具体如下：

步骤1.1：从已有的社交APP的数据仓库中，获取包含特定用户信息的实体关系，其中，特定用户信息包括用户聊天信息、动态发布；实体关系构成了该用户画像的分片描述，用符号source表示；

步骤1.2：对抽取的source进行筛选，选取与特定用户的关联路径数大于3的前N个实体关系，作为用户画像关键词基础词集，并用符号Portrait_map表示；

步骤1.3：在LSTM的emmbedding layer层，将训练语料库中source的中文信息，转化为字向量，获得输入的embedding；

步骤1.4：将embedding输入到Bi-LSTM层，进行特征提取，得到序列的特征表征logits；

此处，引入双向LSTM层作为特征提取工具；

步骤1.5：对特征表征logits进行解码，得到标注序列；利用条件随机场CRF作为解码工具，将标注序列输入到解码的CRF层，获得每个字的序列；

经过上述操作，得到社交APP特定用户画像实体关系词集Keyword；

步骤1.6：根据用户画像实体关系词集Keyword在语料库中搜索匹配；

步骤2：对用户画像数据库中的数据进行预处理和特征提取；

步骤2.1：对用户画像数据库中的数据进行预处理；

步骤2.1.3：根据目标匹配程度划分构建匹配用户库AllUse；

用户库AllUser包括不同社交APP中的用户的实体关系，每个用户库包括某个社交APP中的某个用户的实体及实体关系，记为User；每个社交APP库包括该APP中爬取的用户数据，记为App；不同的社交App库构成了整个用户库AllUser；

首先，识别句子中的所有subject；

步骤3：描绘用户画像。

2.如权利要求1所述的一种基于多目标融合的实体关系抽取方法，其特征在于，步骤1.6具体实现方法为：

使用词集Keyword作为检索关键词，使用爬虫程序按照预先设定的时间间隔，动态采集其它社交APP中含有所述实体关系三元组实体的消息和动态文本，构建用户画像数据库；

3.如权利要求1所述的一种基于多目标融合的实体关系抽取方法，其特征在于，步骤2中，CRF解码搜索最优路径的方法如下：

4.如权利要求1所述的一种基于多目标融合的实体关系抽取方法，其特征在于，步骤3包括以下步骤：

步骤3.1：社交APP集合内部三元组，与用户三元组进行匹配；

以某一社交APP特定用户画像实体关系词集Keyword作为标准集合，与用户库AllUser中的数据进行匹配排序；

步骤3.2：确定并构建用户画像合集Sum；

根据匹配度，排序筛选出社交APP中匹配度最高的三元组群，将该三元组群所属的用户ID筛选出来，作为用户画像的一个成员；最后，对所有社交APP合集库重复上述操作；