CN112818683A

CN112818683A - 一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法

Info

Publication number: CN112818683A
Application number: CN202110103336.0A
Authority: CN
Inventors: 王小华; 潘晓光; 焦璐璐; 张娜; 宋晓晨
Original assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Current assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-18

Abstract

本发明提供了一种基于触发词规则和Attention‑BiLSTM的中文人物关系提取方法，包括如下步骤：基于触发词的自动标注训练数据过程、训练过程和测试过程；所述基于触发词的自动标注训练数据过程通过网络爬虫技术、分词、命名实体识别等技术以及规则方法，得到有标注的人物关系三元组；所述训练过程将上一过程获得的训练数据经过文本向量化输入，接着，迭代训练Attention‑BiLSTM神经网络模型，从而得到一个训练好的Attention‑BiLSTM人物关系分类模型，利用Hanlp和LTP技术对测试数据进行预处理，得到分词和人物实体识别的结果，将结果进行向量化，得到人物关系分类的结果，最后将其组织为人物关系三元组并结构化保存，具有扩充训练数据质量更高、模型精度更高、中文人物关系分类效果更好等特点。

Description

一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法

技术领域

本发明涉及信息抽取技术领域，具体涉及一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法。

背景技术

随着信息时代的飞速发展，海量的文本信息迅速爆炸式增长，人们已经不再满足于手工分析这样低效的方式来获取文本的知识，期望以更智能的方式快速、高效的梳理文本中的内容，获取自己想要的知识，随着自然语言处理技术的发展，特别是人工智能算法在自然语言处理领域的深度应用，为高效实现文本知识提取奠定了技术基础，但是人工智能在知识抽取领域的有效应用需要依赖高质量的标注文本，特别是人物关系提取要把分散在文本中的人物实体及人物之间的关系准确、快速的自动提取，属于信息抽取领域的重要研究内容。

存在问题或缺陷的原因：当前业界广泛采用的神经网络模型方法都是针对英文语料进行的人物关系提取研究。现阶段由于有标注的中文训练数据量较少，利用神经网络模型解决中文人物关系提取的效果较差。

发明内容

本发明的目的在于提供一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法。

为实现上述目的，本发明提供如下技术方案：一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法，包括以下步骤：

S100、基于触发词的自动标注训练数据：通过网络爬虫技术、分词、命名实体识别技术以及规则方法，得到有标注的人物关系三元组；

S200、训练过程：将上一过程获得的训练数据经过文本向量化输入，接着，迭代训练Attention-BiLSTM神经网络模型，从而得到一个训练好的Attention-BiLSTM人物关系分类模型；

S300、测试过程：测试数据从已有的中文人物关系提取数据集中获得，利用Hanlp和LTP技术对测试数据进行预处理，得到分词和人物实体识别的结果，将结果进行向量化，向量化过程的结果作为已训练好的Attention-BiLSTM模型的输入，得到人物关系分类的结果，最后将其组织为人物关系三元组并结构化保存。

进一步的，步骤S100的基于触发词的自动标注训练数据中，首先通过网络爬虫技术从互联网获取大量的无标注的中文文本语料；然后经过分词、命名实体识别技术预处理中文文本语料；接着通过规则方法实现与预定义的人物关系类型的匹配，从而得到有标注的人物关系三元组，其数据格式为<实体1、实体2、关系>。

进一步的，步骤S100的基于触发词的自动标注训练数据中，还包括触发词词典的构建：根据数据集的标注结果，结合每个句子特征，针对每类关系所对应句子中出现的可以表现该人物关系的词汇进行统计，按照出现次数从多到少的顺序排序构建每类关系对应的词汇库，表示人物关系的词汇称为触发词，词汇库称为触发词词典。

进一步的，步骤S200的训练过程中，所述的文本向量化包括词向量化和每个字到两个实体间的距离向量化；词向量化的方法是通过Bert获取词的向量表示；距离向量化的方法是计算句子中每个字距离两个实体的距离，句子中每个字都得到了一个字向量和两个距离向量，将三者组合起来作为模型的输入，模型的输出是人物关系对应的ID。

进一步的，步骤S300中，基于触发词规则的提取算法是利用触发词词典进行中文人物关系识别的分类算法，算法的输入是原始文本和触发词词典，输出是人物关系三元组；

第一步利用Hanlp和LTP平台对输入的文本进行预处理得到有标注的句子集合；第二步对每一个有标注的句子，统计句中的人物实体的个数，如果人物实体个数小于2，则进入下一个句子，然后重新进入算法第二步，如果人物实体个数大于等于2，则进入算法的第三步；第三步将当前句子与词典中的9类人物关系触发词进行匹配，按照序号从小到大的次序，如果匹配成功则返回对应的人物关系类型，如果匹配失败则返回人物关系类型null；第四步输出人物关系三元组，当人物实体大于2时，本算法选择前两个人物实体来组建人物关系三元组，格式为<人物实体1，人物实体2，人物关系>。

进一步的，步骤S300中，算法1基于触发词规则的提取算法：

输入：文本，Text；触发词词典，triggerdictionary；

输出：人物关系三元组，pTriple；统计每个句子中人物实体个数personNum；

使用Hanlp和LTP处理句子得到labels；while each s∈labels do；if personNum≥2；if与触发词词典匹配；return relationType；else return null；else next；endwhile。

进一步的，步骤S300中，基于Attention机制的双向长短期记忆网络模型的主要思想就是利用BiLSTM模型的输出作为Attention层的输入，共包括5层，从下往上依次是：

输入层：将句子输入到模型中；

Embedding层：将每个词映射到低维向量空间；

BiLSTM层：使用双向的LSTM从Embedding层获得高级语义特征；

Attention层：计算得到一个权重向量，并通过加权求和的方法得到句子级的特征向量；

输出层：句子级的特征向量作为计算人物关系分类的输入，输出人物关系ID，在Embedding层，给定由T个词组组成的句子S＝x₁,x₂,...,x_t，每个词x_i由Bert转化为一个实数向量e_i，句子S被转化一个实数矩阵emb_s＝e₁,e₂,...,e_t，并传递给模型的下一层。

进一步的，步骤S300中，BiLSTM网络包含左右序列上下文的两个子LSTM网络，分别向前和向后传递，每个LSTM都需要经过计算得到隐层状态h_t，BiLSTM中第i个词的输出h_i如以下公式所示，然后使用逐元素将前向和后向叠加传递输出，

Attention机制能够通过计算发掘对分类结果起到重要作用的词，将从BiLSTM层生成的输入向量集合表示为H：[h₁,h₂,...,h_t]，其中T表示句子的长度，句子的表示r由这些输出向量的权重形成，Attention层得到的权重矩阵由以下公式得到：M＝tanh(H)；α＝softmax(w^TM)；r＝Hα^T；h^*＝tanh(r)，其中，

d^w表示词向量的维度，w表示训练学习得到的参数向量，w^T为其转置向量，最终输出用于进行人物关系分类的句子h^*。

本发明的技术效果如下：使用基于触发词规则的提取算法来提高训练数据质量，使每个关系类别的句子特征更为明显；再通过Attention-BiLSTM发挥作用，可以提高该模型的训练精度，达到提高人物关系分类准确度的效果。通过触发词规则算法得到的扩充训练数据质量更高，每个句子中的噪声很低、特征更为突出，故效果更好，基于触发词词典进行规则匹配的方式，有助于Attention机制发掘句子中的关键词语，从而促进了模型精度的提高，最终中文人物关系分类的效果得以提升。

附图说明

图1为实施例中基于触发词规则和Attention-BiLSTM的中文人物关系提取方法框架；

图2为实施例中基于Attention机制的双向长短期记忆网络模型。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法，如图1所示，包括以下步骤：

步骤S100的基于触发词的自动标注训练数据过程中，首先通过网络爬虫技术从互联网获取大量的无标注的中文文本语料；然后经过分词、命名实体识别技术预处理中文文本语料；接着通过规则方法实现与预定义的人物关系类型的匹配，从而得到有标注的人物关系三元组，其数据格式为<实体1、实体2、关系>。

步骤S100的基于触发词的自动标注训练数据过程中，如图1所示，还包括触发词词典的构建：根据数据集的标注结果，结合每个句子特征，针对每类关系所对应句子中出现的可以表现该人物关系的词汇进行统计，按照出现次数从多到少的顺序排序构建每类关系对应的词汇库，表示人物关系的词汇称为触发词，词汇库称为触发词词典。

步骤S200的训练过程中，将通过上一过程获得的训练数据作为模型的输入，然后经过文本向量化，所述的文本向量化包括词向量化和每个字到两个实体间的距离向量化；词向量化的具体方法是通过Bert获取词的向量表示；距离向量化(位置向量化)的方法是计算句子中每个字距离两个实体的距离，句子中每个字都得到了一个字向量和两个距离向量，将三者组合起来作为模型的输入，接着，迭代训练Attention-BiLSTM神经网络模型，从而得到一个训练好的Attention-BiLSTM人物关系分类模型，模型的输出是人物关系对应的ID。

所述测试过程中，测试数据从已有的中文人物关系提取数据集中获得，作为测试过程的输入，首先，要利用Hanlp和LTP技术对测试数据进行预处理，得到分词和人物实体识别的结果；然后，同样需要进行向量化，向量化过程的结果作为已训练好的Attention-BiLSTM模型的输入，从而得到人物关系分类的结果；最后，将其组织为人物关系三元组并结构化保存。

步骤S300中，基于触发词规则的提取算法是利用触发词词典进行中文人物关系识别的分类算法，算法的输入是原始文本和触发词词典，输出是人物关系三元组；

算法的第一步是利用Hanlp和LTP平台对输入的文本进行预处理得到有标注的句子集合；算法的第二步是对每一个有标注的句子，统计句中的人物实体的个数，如果人物实体个数小于2，则进入下一个句子，然后重新进入算法第二步，如果人物实体个数大于等于2，则进入算法的第三步；算法的第三步将当前句子与词典中的9类人物关系触发词进行匹配，按照序号从小到大的次序，如果匹配成功则返回对应的人物关系类型，如果匹配失败则返回人物关系类型null；算法的第四步输出人物关系三元组，当人物实体大于2时，本算法选择前两个人物实体来组建人物关系三元组，格式为<人物实体1，人物实体2，人物关系>。下表为触发词词典构建9类人物关系类型的触发词词典。

步骤S300的测试过程中，基于触发词规则的提取算法：

输入：文本，Text；触发词词典，triggerdictionary；

步骤S300的测试过程中，基于Attention机制的双向长短期记忆网络模型的主要思想就是利用BiLSTM模型的输出作为Attention层的输入，如图2所示，共包括5层，从下往上依次是：

输入层：将句子输入到模型中；

Embedding层：将每个词映射到低维向量空间；

BiLSTM层：使用双向的LSTM从Embedding层获得高级语义特征；

步骤S300的测试过程中，BiLSTM网络包含左右序列上下文的两个子LSTM网络，分别向前和向后传递，每个LSTM都需要经过计算得到隐层状态h_t，BiLSTM中第i个词的输出h_i如以下公式所示，然后使用逐元素将前向和后向叠加传递输出，

综上所述，本发明提供了一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法，包括如下步骤：基于触发词的自动标注训练数据过程、训练过程和测试过程；所述基于触发词的自动标注训练数据过程通过网络爬虫技术、分词、命名实体识别等技术以及规则方法，得到有标注的人物关系三元组；所述训练过程将上一过程获得的训练数据经过文本向量化输入，接着，迭代训练Attention-BiLSTM神经网络模型，从而得到一个训练好的Attention-BiLSTM人物关系分类模型，利用Hanlp和LTP技术对测试数据进行预处理，得到分词和人物实体识别的结果，将结果进行向量化，得到人物关系分类的结果，最后将其组织为人物关系三元组并结构化保存，具有扩充训练数据质量更高、模型精度更高、中文人物关系分类效果更好等特点。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的保护范围当中。

Claims

1.一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法，其特征在于，包括以下步骤：

S100、基于触发词的自动标注训练数据过程：通过网络爬虫技术、分词、命名实体识别等技术以及规则方法，得到有标注的人物关系三元组；

2.根据权利要求1所述的一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法，其特征在于，步骤S100的基于触发词的自动标注训练数据过程中，首先通过网络爬虫技术从互联网获取大量的无标注的中文文本语料；然后经过分词、命名实体识别技术预处理中文文本语料；接着通过规则方法实现与预定义的人物关系类型的匹配，从而得到有标注的人物关系三元组，其数据格式为<实体1、实体2、关系>。

3.根据权利要求1所述的一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法，其特征在于，步骤S100的基于触发词的自动标注训练数据过程中，还包括触发词词典的构建：根据数据集的标注结果，结合每个句子特征，针对每类关系所对应句子中出现的可以表现该人物关系的词汇进行统计，按照出现次数从多到少的顺序排序构建每类关系对应的词汇库，表示人物关系的词汇称为触发词，词汇库称为触发词词典。

4.根据权利要求1所述的一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法，其特征在于：步骤S200的训练过程中，所述的文本向量化包括词向量化和每个字到两个实体间的距离向量化；词向量化的方法是通过Bert获取词的向量表示；距离向量化的方法是计算句子中每个字距离两个实体的距离，句子中每个字都得到了一个字向量和两个距离向量，将三者组合起来作为模型的输入，模型的输出是人物关系对应的ID。

5.根据权利要求1所述的一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法，其特征在于：步骤S300中，基于触发词规则的提取算法是利用触发词词典进行中文人物关系识别的分类算法，算法的输入是原始文本和触发词词典，输出是人物关系三元组；

6.根据权利要求1所述的一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法，其特征在于：步骤S300中，基于触发词规则的提取算法：

输入：文本；触发词词典；

输出：人物关系三元组；统计每个句子中人物实体个数；

使用Hanlp和LTP处理句子得到labels。

7.根据权利要求1所述的一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法，其特征在于：步骤S300中，基于Attention机制的双向长短期记忆网络模型，共包括5层，从下往上依次是：

输入层：将句子输入到模型中；

Embedding层：将每个词映射到低维向量空间；

BiLSTM层：使用双向的LSTM从Embedding层获得高级语义特征；

8.根据权利要求7所述的一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法，其特征在于：步骤S300中，BiLSTM网络包含左右序列上下文的两个子LSTM网络，分别向前和向后传递，每个LSTM都需要经过计算得到隐层状态h_t，BiLSTM中第i个词的输出h_i如以下公式所示，然后使用逐元素将前向和后向叠加传递输出，