CN113378571A

CN113378571A - 一种文本数据的实体数据关系抽取方法

Info

Publication number: CN113378571A
Application number: CN202110657344.XA
Authority: CN
Inventors: 凌捷; 邓成汝; 罗玉; 李风环
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-10

Abstract

本发明公开了一种文本数据的实体数据关系抽取方法，涉及实体数据关系抽取的技术领域，包括：获取文本数据并进行预处理，获得预处理后的文本数据；对预处理后的文本数据进行标注；对标注后的文本数据进行编码分词，获得文本数据的词向量；根据文本数据的词向量，计算文本数据的隐藏信息序列；对文本数据的隐藏信息序列进行主语抽取，将抽取出的主语拼接到文本数据的隐藏信息序列，获得文本数据新序列；对文本数据新序列进行映射操作，获得映射结果序列；对映射结果序列进行解码操作，获得实体关系三元组。本发明能够发掘文本数据的隐藏信息，准确提取出具有重叠关系的实体三元组。

Description

一种文本数据的实体数据关系抽取方法

技术领域

本发明涉及实体数据关系抽取的技术领域，更具体地，涉及一种文本数据的实体数据关系抽取方法。

背景技术

实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系。文本数据的实体是指文本中原始信息的主语和宾语，如人名、组织/机构名、地理位置、日期、金额等；实体关系是指实体间的从属、位置、时间等关系；实体关系二元是指两个实体间存在的关系，实体关系三元组是指三个实体间至少一个实体与另两个实体存在关系；作为信息检索、信息抽取、自然语言理解等领域的核心任务,实体关系抽取一直是自然语言处理领域的热门方向。经过广大中外学者的多年探索研究，取得较为丰富的研究成果。从最初传统的基于规则和词典驱动方法，发展到基于传统的机器学习方法。近些年，随着深度学习的崛起,学者们将Bi-LSTM、GCN等深度学习方法应用到实体关系抽取任务中，使得任务的精准度得到极大的提升。近年来，注意力机制以及预训练模型的引入，不仅了提高模型精准度，而且使得模型的训练效率也得到了极大的提升。但是，目前实体关系抽取的方法基本都是依赖词特征、句法特征等初级特征，这些初级特征对于实体关系的抽取效果较差。其实文本数据中还存在着潜在的高级特征，这些隐藏信息对实体关系的抽取提供巨大的贡献。另外，现实中实体关系并非都是二元的,有些关系需要考虑时间和地点等信息，甚至两个实体之间存在多种关系，目前部分关系抽取方法主要集中于如何对二元关系进行抽取，面对重叠关系的三元组时，识别效果差甚至无法识别。

2019年7月26日公开的中国专利CN110059320A提供了一种实体关系抽取方法、装置、计算机设备和存储介质。所述方法包括：获取文本，识别所述文本中的实体；所述实体包括第一实体和第二实体；在所述文本中对所述实体进行标记；利用预训练语言模型对标记后的文本进行编码，得到第一实体编码向量以及第二实体编码向量；利用所述第一实体编码向量以及所述第二实体编码向量生成实体对标记向量；对所述实体对标记向量进行分类，得到所述第一实体与第二实体之间的关系类别。该方法仍依赖文本实体初级特征，无法发掘文本的隐藏信息，抽取效果较差；并且仅能对二元关系的实体进行抽取，面对具有重叠关系的实体三元组是无法进行实体关系抽取。

发明内容

本发明为克服上述现有技术面对具有重叠关系的实体三元组无法进行实体关系抽取的缺陷，提供一种文本数据的实体数据关系抽取方法，能够发掘文本数据的隐藏信息，准确提取出具有重叠关系的实体关系三元组。

为解决上述技术问题，本发明的技术方案如下：

本发明提供一种文本数据的实体数据关系抽取方法，所述方法包括：

S1：获取文本数据并进行预处理，获得预处理后的文本数据；

S2：对预处理后的文本数据进行标注；

S3：对标注后的文本数据进行编码分词，获得文本数据的词向量；

S4：根据文本数据的词向量，计算文本数据的隐藏信息序列；

S5：对文本数据的隐藏信息序列进行主语抽取，将抽取出的主语拼接到文本数据的隐藏信息序列，获得文本数据新序列；

S6：对文本数据新序列进行映射操作，获得映射结果序列；

S7：对映射结果序列进行解码操作，获得实体关系三元组。

优选地，所述获取文本数据的方法为：

通过爬虫技术在互联网网站上对目标领域数据进行定向爬取；

所述文本数据包括目标领域的所有文本数据、目标领域的企业填报数据、政府部门公布的产业数据和产业发展报告。

优选地，所述预处理具体包括：

分句处理，以句号、问号、感叹号、省略号为切分标记对文本数据进行句子切分，得到句子级别的文本数据；

数据去重，将重复的句子级别的文本数据删除；

数据过滤，将与目标领域无关的文本数据删除。

优选地，所述S2中，对预处理后的文本数据进行标注的具体方法为：

将文本数据的主语开始位置标注为B-sub，将主语中间位置标注为I-sub，将主语终止位置标注为E-sub；将非实体词表示为O；将宾语开始位置及其与主语的关系类型标注为B-be或B-loc，将宾语中间位置及其与主语的关系类型标注为I-be或I-loc，将宾语终止位置及其与主语的关系类型标注为E-be或E-loc。

优选地，所述获得文本数据的词向量的具体方法为：

建立实体关系抽取模型，所述模型包括BERT层；

将标注后的文本数据输入BERT层中，BERT层对文本数据进行编码分词，输出维度数为d的文本数据词向量X＝{x₁，x₂，x₃，…，x_n}，X表示文本数据词向量集合，x_n表示第n个词向量。

BERT层是预训练语言模型，能够将标注框架的功能与预先训练的先验知识相结合，提高了词向量的隐藏信息表示的准确性，提高了关系抽取的准确度。

优选地，所述计算文本数据的隐藏信息序列的具体方法为：

所述实体关系抽取模型还包括Bi-LSTM层，所述Bi-LSTM层由前向LSTM和后向LSTM构成；

将文本数据的词向量输入Bi-LSTM层，运用门控概念，利用前向LSTM和后向LSTM分别获取该词向量的前文隐藏信息和后文隐藏信息，具体过程为：

其中，前向LSTM的计算方法为：

LSTM的输入门计算：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

式中，i_t表示当前t时刻输入门的输出，σ表示sigmoid激活函数，W_i表示输入门权重矩阵，b_i表示输入门偏置向量；h_t-1上一时刻LSTM单元的输出，x_t表示当前t时刻输入的文本数据词向量，x_t∈X；

LSTM的遗忘门计算：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

式中，f_t表示当前t时刻遗忘门的输出，W_f表示遗忘门权重矩阵，b_f表示遗忘门偏置向量；

LSTM的记忆细胞状态计算：

c_t＝f_t*c_t-1+i_t*tanh(W_c·[h_t-1，x_t]+b_c)

式中，c_t表示当前t时刻记忆细胞的输出，c_t-1表示上一时刻记忆细胞输出，tanh表示tanh激活函数，W_c表示记忆细胞权重矩阵，b_c表示记忆细胞偏置向量；

LSTM的输出门计算：

o_t＝σ(W_o·[h_t-1，x_t]+b_o)

式中，o_t表示当前t时刻输出门的输出，W_o表示输出门权重矩阵，b_o表示输出门偏置向量；

前向LSTM的输出向量和后向LSTM的输出向量为：

后向LSTM的计算方法与前向LSTM的计算方法相同，后向LSTM的输出向量

与前向LSTM的输出向量

数值相同，仅方向相反；

前向LSTM的输出向量

和后向LSTM的输出向量

包含了词向量的前文隐藏信息和后文隐藏信息，

则文本数据的隐藏信息为：

对文本数据词向量集合X中的每个词向量获取文本数据的隐藏信息，组合为文本数据的隐藏信息序列H＝{h₁，h₂，…，h_n}，h_n表示第n个词向量的文本数据的隐藏信息；

Bi-LSTM层运用门控概念实现长期记忆，不仅对短期的输入敏感，更能保存长期的状态，结合当前输入和长期包含的状态，提高了最终关系抽取的准确度。

优选地，所述获得文本数据新序列的具体方法为：

所述实体关系抽取模型还包括全连接层；

将文本数据的隐藏信息序列H输入全连接层，映射成低维度向量后，利用解码函数解码出标注的标签，解码函数为：

lab＝argmax(softmax(H))

式中，lab表示标注的标签，softmax为归一化指数函数，argmax为对函数求集合的函数；

根据标注的标签获得对应的主语，将主语拼接文本数据的隐藏信息序列H，获得文本数据新序列

其中s_n表示获得的第n个主语。

优选地，所述获得映射结果序列的具体方法为：

所述实体关系抽取模型还包括自注意力层；

将文本数据新序列

输入自注意力层，利用以下公式进行映射操作：

其中，Q_i表示query矩阵，K_i表示keys矩阵，V_i表示value矩阵，

表示keys矩阵K_i的转置矩阵；

表示query矩阵映射参数，

表示keys矩阵映射参数，

表示value矩阵映射参数，d表示词向量的维度数；u_i表示结合注意力特征向量；

进行若干次映射操作后，将映射结果进行拼接，获得映射结果序列U＝{u₁，u₂...u_n}，其中，u_n表示第n个结合注意力特征向量。

自注意力层的注意力意机制能很好的建模依赖关系，而不考虑在输入或输出的距离，能学习任意两个词之间的依存关系，通过区分不同特征的重要程度，忽略不重要的特征，将注意力放在重要的特征上，捕获文本数据的内部结构信息，有效提高了最终关系抽取的准确度。

优选地，所述获得实体关系三元组的具体方法为：

所述实体关系抽取模型还包括CRF层；

引入转移得分矩阵A，矩阵中的元素

表示标签y_i转移到标签y_i+1的转移得分，令y₀和y_n+1为开始位置标签和终止位置标签，矩阵元素

表示第i个词在第y_i个标签下的输出得分；

将映射结果序列U＝{u₁，u₂...u_n}输入CRF层，输出标签序列Y＝{y₁，y₂...y_n}，则标签序列Y的总得分为：

对所有可能的标签序列路径进行归一化，获得标签序列的概率分布：

其中，

表示一个中间状态标签序列的总得分，

表示一个中间状态标签序列；

将正确的标签序列记为Y^*，则正确的标签序列的对数概率如下式所示：

式中，S(U，Y^*)表示正确标签序列的总得分，log(P(Y^*|X))表示正确的标签序列的对数概率；

利用维特比算法求解正确的标签序列的对数概率的最大值，对最大化正确的标签序列的对数概率取反，作为实体关系抽取模型的当前损失函数loss：

loss＝-log(P(Y^*|X))

对当前损失函数loss进行优化，直到当前损失函数loss收敛，输出实体关系三元组。

CRF层的可以弥补Bi-LSTM层善于无法处理相邻标签之间的依赖关系的缺点，有效提高了最终关系抽取的准确度。

优选地，利用随机梯度下降法对当前损失函数loss进行优化。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过对预处理后的文本数据进行标注后再进行分词，有效解决了文本数据中实体关系重叠的问题；进一步对文本数据的词向量挖掘文本数据的隐藏信息，利用文本数据中的隐藏信息提高关系抽取的准确性；将提取的主语拼接到隐藏信息序列，识别跨越句子的多元实体关系，解决了多元实体之间的关系分类问题；对文本数据新序列进行映射操作，获得映射结果序列，更准确捕获词向量之间的相互影响特征，进一步提高了关系抽取的准确性。本发明提供的方法能够准确提取出具有重叠关系的实体关系三元组。

附图说明

图1为实施例所述的一种文本数据的实体数据关系抽取方法的流程图；

图2为实施例所述的标注方法的示意图；

图3为实施例所述的实体关系抽取模型内的数据流向图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例

本实施例提供一种文本数据的实体数据关系抽取方法，如图1所示，所述方法包括：

通过爬虫技术在互联网网站上进行目标领域数据的定向爬取的所有文本数据、目标领域的企业填报数据、政府部门公布的产业数据和产业发展报告；本实施例以海洋产业为目标领域，通过爬虫技术对中国海洋网等互联网网站进行定向爬取，爬取的模块有海洋经济、海洋军事、海洋历史、海洋资讯、海洋文化等一级网址，之后在一级网址的基础上进行二级网址的爬取，直至获得二级网址下的所有数据文本；收集涉及海洋产业企业的填报数据、相关政府部门的海洋产业数据、整个海洋产业的行业数据和产业发展报告作为文本数据；

对文本数据进行分句处理，以句号、问号、感叹号、省略号为切分标记对文本数据进行句子切分，得到句子级别的文本数据，即存储方式为一个句子占一行的位置；之后对句子级别的文本数据进行数据去重和数据过滤，将重复的句子级别的文本数据和与海洋产业无关的文本数据删除；

S2：对预处理后的文本数据进行标注；

将文本数据的主语开始位置标注为B-sub，将主语中间位置标注为I-sub，将主语终止位置标注为E-sub；将非实体词表示为O；将宾语开始位置及其与主语的关系类型标注为B-be或B-loc，将宾语中间位置及其与主语的关系类型标注为I-be或I-loc，将宾语终止位置及其与主语的关系类型标注为E-be或E-loc；具体的标注方法为：

如图2所示，以“中华白海豚，属鲸目海豚科，栖息于珠江口。”为例，“中华白海豚”是主语，开始位置是“中”，终止位置是“豚”，中间位置是“华、白、海”，所以将“中”标注为B-sub，“华、白、海”均标注为I-sub，“豚”标注为E-sub；“鲸目海豚科”和“珠江口”为宾语，“中华白海豚”与“鲸目海豚科”的关系类型为从属关系，将“鲸”标注为B-be，“目、海、豚”标注为I-be，将“科”标注为E-be；“中华白海豚”与“珠江口”的关系类型为位置关系，将“珠”标注为B-loc，将“江”标注为I-loc，将“口”标注为E-loc；“，”、“属”、“栖息于”、“。”为非实体词，标注为O；

S3：对信息数据集中的文本数据进行编码分词，获得文本数据的词向量；

建立实体关系抽取模型，所述模型包括BERT层；

将信息数据集中的文本数据输入BERT层中，BERT层对文本数据进行编码分词，输出维度数为d的文本数据词向量X＝{x₁，x₂，x₃，…，x_n}，X表示文本数据词向量集合，x_n表示第n个词向量；

其中，前向LSTM的计算方法为：

LSTM的输入门计算：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

LSTM的遗忘门计算：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

LSTM的记忆细胞状态计算：

c_t＝f_t*c_t-1+i_t*tanh(W_c·[h_t-1，x_t]+b_c)

LSTM的输出门计算：

o_t＝σ(W_o·[h_t-1，x_t]+b_o)

前向LSTM的输出向量和后向LSTM的输出向量为：

与前向LSTM的输出向量

数值相同，仅方向相反；

前向LSTM的输出向量

和后向LSTM的输出向量

包含了词向量的前文隐藏信息和后文隐藏信息，

则文本数据的隐藏信息为：

所述实体关系抽取模型还包括全连接层；

lab＝argmax(softmax(H))

其中s_n表示获得的第n个主语；

S6：对文本数据新序列进行映射操作，获得映射结果序列；

所述实体关系抽取模型还包括自注意力层；

将文本数据新序列

输入自注意力层，利用以下公式进行映射操作：

其中，Q_i表示query矩阵，K_i表示keys矩阵，V_i表示value矩阵，

表示keys矩阵K_i的转置矩阵；

表示query矩阵映射参数，

表示keys矩阵映射参数，

进行若干次映射操作后，将映射结果进行拼接，获得映射结果序列U＝{u₁，u₂...u_n}，其中，u_n表示第n个结合注意力特征向量；

S7：对映射结果序列进行解码操作，获得实体关系三元组。

所述实体关系抽取模型还包括CRF层；

引入转移得分矩阵A，矩阵中的元素

表示第i个词在第y_i个标签下的输出得分；

其中，

表示一个中间状态标签序列的总得分，

表示一个中间状态标签序列；

利用维特比算法对求解正确的标签序列的对数概率的最大值，对最大化正确的标签序列的对数概率取反，作为实体关系抽取模型的当前损失函数loss：

loss＝-log(P(Y^*|X))

对当前损失函数loss进行优化，直到当前损失函数loss收敛，输出实体关系三元组。在本实施例中，以输入的“中华白海豚，属鲸目海豚科，栖息于珠江口。”为例，最终输出的为“中华白海豚，属于，鲸目海豚科”和“中华白海豚，分布区域，珠江口”这两组具有重叠关系的实体关系三元组。

如图3所示，本实施例建立的实体关系抽取模型的BERT层能够将标注框架的功能与预先训练的先验知识相结合，提高了词向量的隐藏信息表示的准确性；Bi-LSTM层运用门控概念实现长期记忆，不仅对短期的输入敏感，更能保存长期的状态；自注意力层的注意力意机制能很好的建模依赖关系，而不考虑在输入或输出的距离，能学习任意两个词之间的依存关系，通过区分不同特征的重要程度，忽略不重要的特征，将注意力放在重要的特征上，捕获文本数据的内部结构信息；CRF层的可以弥补Bi-LSTM层善于无法处理相邻标签之间的依赖关系的缺点；这几层共同配合显著提高了实体关系抽取模型准确率，文本数据输入实体关系抽取模型经这几层处理后，能够准确提取出关系重叠的实体三元组。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。