CN113626553A

CN113626553A - 一种基于预训练模型的级联二进制中文实体关系提取方法

Info

Publication number: CN113626553A
Application number: CN202110802863.0A
Authority: CN
Inventors: 刘晓明; 朱皓宬; 沈超; 周亚东; 郭俊波
Original assignee: People Co Ltd
Current assignee: Konami Sports Club Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-11-09
Anticipated expiration: 2041-07-15
Also published as: CN113626553B

Abstract

一种基于预训练模型的级联二进制中文实体关系提取方法，包括：利用预训练模型Bert将文本的语义及位置信息提取联合生成嵌入向量；将关系建模为主体到客体的一种函数映射，抛弃了以往主客体同时识别的方式，首先通过对每个字的嵌入向量进行二分类任务预测三元组中主体所在的位置，然后在提取关系及客体的过程中，将文本及主体的联合嵌入信息作为输入，在每种关系映射之下对每个字的嵌入向量进行二分类任务预测三元组中客体所在的位置。本发明能够提取出非结构化文本的人物，组织，事件等实体及其之间的多种关系并有效的解决了三元组之间的重叠问题，预测结果准确率高、误差小，计算复杂度低，有很高的实用价值。

Description

一种基于预训练模型的级联二进制中文实体关系提取方法

技术领域

本发明属于信息处理技术领域，涉及信息抽取，特别涉及一种基于预训练模型的级联二进制中文实体关系提取方法。

背景技术

事物、概念之间的关系是人类知识中非常重要的一个部分，但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些实体关系事实，从早期的模式匹配到近年的神经网络，大量的研究在多年前就已经展开。

信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的，例如句子、段落、篇章，文本信息正是由一些小的具体的单位构成的，例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取，当然，文本信息抽取技术所抽取的信息可以是各种类型的信息。

然而，随着互联网的爆炸发展，人类的知识也随之飞速的增长，因而对信息抽取提出了更高的要求，需要一个有效的信息抽取系统，能够利用更多的数据；有效的获取更多的关系；高效的处理更多复杂的文本；具有较好的扩展性，能够迁移到更多的领域。

信息抽取技术有许多不同的用途。一种典型的应用是使用信息抽取技术构建面向特定任务的知识库(如学术论文库、商品库、旅游景点库、电影库、音乐库等等)，并在此基础上实现智能知识服务(如垂直搜索引擎)。另外一种典型应用是特定目标信息的发现和识别。在现在的网络文本中，相关的信息往往被无关的信息淹没。而信息抽取技术可以发现并整合蕴含在海量信息中的特定目标信息，为正确决策提供大量的相关情报，大大降低其中需要的人工成本。

发明内容

为了解决上述中文信息抽取问题，本发明的目的在于提供一种基于预训练模型的级联二进制中文实体关系提取方法，能够提取出非结构化文本的人物，组织，事件等实体及其之间的多种关系并有效解决三元组之间的重叠问题。

为了实现上述目的，本发明采用的技术方案是：

步骤1：中文非结构化数据包括文本、实体内容、实体类别以及关系等。从初始的中文非结构化数据中筛选出有效数据，具体可根据规则匹配的方法去掉标注实体或关系不全的数据，仅保留实体和关系标注完全的有效数据。然后以字典的形式获得文本、实体及关系三元组，并对获取的文本进行分字，过程包括：

步骤1.1：将有效数据表示为{text:t,triple_list:[spo₁,spo₂,spo₃,…]}的字典格式，其中text表示文本，t表示文本内容，triple_list表示文本中包含的三元组列表，spo₁，spo₂……表示文本中的具体三元组，对于任意一个三元组spo，其具体表示为一个元素个数为3的列表[sub，re，obj]，其中sub表示该三元组spo中的主体，re表示该三元组spo中的关系，obj表示该三元组spo中的客体。

步骤1.2：对每条有效数据中的文本内容t及三元组列表triple_list中的每个三元组spo中的主体sub及客体obj进行分字。分字是将文本内容t中的每一个字与预训练模型Bert的内置词表进行匹配并得到对应的字符索引值。

步骤1.3：获取每个主体sub及客体obj在文本内容t中的索引位置idx_sb，idx_st，idx_oh，idx_ot，其中idx_sh表示主体sub第一个字在文本内容t中的索引，idx_st表示主体sub最后一个字在文本内容t中的索引，idx_oh表示客体obj第一个字在文本内容t中的索引，idx_ot表示客体obj最后一个字在文本内容t中的索引，用一个序列[re₁，re₂，re₃，re₄，…re_n,…]表示所有可能发现的关系，re_n表示某一特定关系。

步骤1.4：对每一文本内容t中的每一主体sub建立字典s2ro，其格式为{(idx_sh,idx_st):[or₁,or₂,or₃,…or_n,…]}，其中or_n表示客体位置索引以及关系组成的元组，其形式为(idx_oh,idx_ot,re_n)。

步骤2：使用预训练模型Bert对有效数据中的文本内容t生成其对应的嵌入向量，通过嵌入向量来生成文本的语义信息，捕捉字与字之间的语义贡献关系，并提供字与字的位置嵌入信息，得到文本中单个句子的句向量表示。具体地，在生成嵌入向量后，执行如下过程：

步骤2.1：对分完字后的文本内容t随机生成15％的mask数据，并在句子的开头和结尾处增加表示句子开始和结束的标识符，通过被mask的字符两侧的未被mask的字符来预测被mask的字符，而用来预测被mask的字符的中间向量即为被mask的字符的语义信息嵌入向量。

步骤2.2：将上一步骤处理完的文本内容t对于每个字符的位置索引生成索引的位置嵌入信息并与上一步骤生成的语义嵌入信息连结最终生成文本中单个句子的句向量表示[c₁,c₂,c₃,c₄，c₅,c₆,…c_n,…]，c_n表示文本内容t中的第n个中文字向量。

Bert是一种预训练语言表示的方法，其在大量文本语料上训练了一个通用的“语言理解”模型，然后该模型可以去执行其他下游NLP任务。Bert比之前的预训练方法表现更出色，因为它是第一个用在预训练NLP上的无监督的、深度双向系统。无监督意味着Bert只需要用纯文本语料来训练，这点非常重要，因为海量的文本语料可以在各种语言的网络公开得到。预训练表示可以是上下文无关的，也可以是上下文相关的，而且，上下文相关的表示可以是单向的或双向的，上下文相关的模型会基于句子中的其他词生成每一个词的表示。Bert是建立在最近的预训练相关表示工作例如ELMO和GPT之上，但是这些模型都是单向的或浅双向的，这意味着每个词只会和它左边或右边的词相关，而BERT的这种自编码器的形式可以有效解决这个问题。

步骤3：对句子中每个字向量进行主体标记二分类，对于句子中的每一主体在每一关系下进行客体标记二分类，最后合并结果并生成句子中的全部三元组，即中文实体关系。本步骤具体包括：

步骤3.1：对得到的句向量表示中的每个中文字向量进行两次二分类，第一次二分类判断该字向量所对应的字符是否为主体sub的首字符，第二次二分类判断该字符是否为主体sub的尾字符。

其中主体识别器中主体sub的具体识别方法：设定与文本向量等长的主体sub开端标记序列s_h，主体sub结尾标记序列s_t，对文本t中的每个字向量进行两次二分类，第一次二分类用于判断该字向量是否为某一主体sub的开始，若为某一主体sub的开始则将主体sub开端标记序列s_h的对应索引位置i标记为1，否则标记为0。第二次二分类用于判断该字向量是否为某一主体sub的结束，若为某一主体sub的结束则将主体sub结尾标记序列s_e的对应索引位置i标记为1，否则标记为0，其中对每个字向量进行的主体标记定义如下：

其中

表示索引i处的字向量为主体sub开端的概率，

表示索引i处的字向量为主体sub结尾的概率，x_i表示索引i处的字向量，W为权重矩阵，σ表示sigmoid函数。

步骤3.2：生成发现的主体序列的嵌入特征，将主体特征向量与句向量生成联合特征向量[cs₁，cs₂，cs₃，cs₄，cs₅，cs₆，…cs_n，…]，cs_n表示文本内容t中的第n个联合特征向量，在任意关系re_n的情况下，对联合特征向量[cs₁，cs₂，cs₃，cs₄,cs₅，cs₆,…cs_n,…]中的每个联合特征向量进行两次二分类，第一次二分类判断该字向量对应的字符是否为客体的首字符，第二次二分类判断该字向量对应的字符是否为客体的尾字符，抽取出三元组。

其中关系re_n的提取方法：将其建模为主题到可以的一种函数映射，对于每一个主体sub，模型将迭代检查每一种关系映射，检验任一关系re_i是否可以将句子中的客体obj与这个主体sub关联起来。

其中客体obj的识别方法：对于每一关系re_i设定与文本向量等长的客体obj开端标记序列

客体obj结尾标记序列

对文本t中的每个字向量对于每一关系re_i进行两次二分类，第一次二分类用于判断该字向量是否为该关系下某一客体obj的开端，若为该关系下某一客体obj的开端则将该关系下客体obj开端标记序列

的对应索引位置i标记为1，否则标记为0,第二次二分类用于判断该字向量是否为该关系下某一客体obj的结尾，若为该关系下某一客体obj的结尾则将该关系下客体obj结尾标记序列

的对应索引位置i标记为1，否则标记为0，其中对每个字向量在每一关系下进行的客体标记定义如下：

其中

表示索引i处的字向量为客体obj开端的概率，

表示索引i处的字向量为客体obj结尾的概率，x_i表示索引i处的字向量，W^re_j为第j个关系的权重矩阵，

为第k个主体首尾嵌入的平均值，σ表示sigmoid函数。

与现有技术相比，本发明的有益效果是：

(1)、本发明通过利用预训练模型将文本的语义及位置信息提取生成文本向量并对每个字的嵌入向量进行二分类任务预测三元组中主体所在的位置，相较于之前主客体同时提取的方法，主体识别准确率更高，主客体重叠发生的概率更小。

(2)、本发明通过在提取关系及客体的过程中，将文本及主体的联合嵌入信息作为输入，将多种关系形式以映射的形式给出，在每种映射之下对每个字的嵌入向量进行二分类任务预测三元组中客体所在的位置，有效提高了客体识别的准确率并使得模型可以识别同一组实体下的不同关系。

(3)、本发明通过基于预训练模型的级联二进制中文实体关系提取方法能够提取出非结构化文本的人物，组织，事件等实体及其之间的多种关系并有效的解决了三元组之间的重叠问题，预测结果准确率高、误差小，计算复杂度低，有很高的实用价值。

附图说明

图1为本发明主体流程图。

图2为标记主体二分类方法示意图。

图3为基于关系映射的客体二分类标记方法示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明预训练模型的级联二进制中文实体关系提取方法，包括以下步骤：

步骤1，从初始的中文非结构化数据中筛选出有效数据，并以字典的形式获得三元组(文本、实体及关系)。

步骤1.1：本实施例中数据集为百度2019语言与智能技术竞赛信息抽取数据，共173109条中文三元组数据。将所有数据表示为{text:t,triple_list:[spo₁,spo₂spo₃,…]}的字典格式，其中text表示文本数据，t表示文本数据内容，triple_list表示该文本数据中包含的三元组列表，spo₁，spo₂……表示该文本数据中的具体三元组内容。对于任意一个三元组spo其具体表示为一个元素个数为3的列表[sub,re,obj],其中sub表示该三元组中的主体，re表示该三元组中的关系，obj表示该三元组中的客体，例如将文本数据"如何演好自己的角色，请读《演员自我修养》《喜剧之王》周星驰崛起于穷困潦倒之中的独门秘笈"中的三元组表示为{"text″:″如何演好自己的角色，请读《演员自我修养》《喜剧之王》周星驰崛起于穷困潦倒之中的独门秘笈″，″spo_list″:[{″sub″:″喜剧之王″，″re″:″主演″，″obj″:″周星驰″}]}的形式；

步骤1.2：对每条数据中的文本数据t及三元组列表triple_list中的每个三元组spo中的主体sub及客体obj进行分字；

步骤1.3：获取每个主体sub及客体obj在文本数据t中的索引位置idx_sh，idx_st，idx_oh，idx_ot，其中idx_sh表示主体第一个字在文本t中的索引，idx_st表示主体最后一个字在文本t中的索引，idx_oh表示客体第一个字在文本t中的索引，idx_ot表示客体最后一个字在文本t中的索引，用一个序列[re₁,re₂,re₃,re₄,…]表示所有可能发现的关系，re_n表示某一特定关系，共50种待识别的关系，对于数据{"text":"如何演好自己的角色，请读《演员自我修养》《喜剧之王》周星驰崛起于穷困潦倒之中的独门秘笈",″spo_list″:[{″sub″:″喜剧之王″,″re″:″主演″，″obj″:″周星驰"}]}，主体“喜剧之王”的idx_sh＝20，idx_st＝23，客体“周星驰”的idx_oh＝25，idx_ot＝27，待识别的关系包括“祖籍”、“作者”、“主演”等50种关系；

步骤2.2：将上一步骤处理完的文本内容t对于每个字符的位置索引生成索引的位置嵌入信息并与上一步骤生成的语义嵌入信息连结最终生成256*768的文本内容t的句向量表示；

步骤3：对句子中每个字向量进行主体标记二分类，对于句子中的每一主体在每一关系下进行客体标记二分类，最后合并结果并生成句子中的全部三元组，即中文实体关系。本步骤具体包括

步骤3.1：对步骤(2)中生成的文本数据的句向量表示[c₁,c₂,c₃,c₄,c₅,c₆,…]，对于其中的每个中文字向量c_n，进行两次二分类，第一次二分类判断该字符是否为主体的首字符，第二次二分类判断该字符是否为主体的尾字符。

如图2所示，对于每个字符通过一个主体识别器识别出主体的开头和结尾，例如在数据{″text″:″如何演好自己的角色，请读《演员自我修养》《喜剧之王》周星驰崛起于穷困潦倒之中的独门秘笈″，″spo_list″:[{″sub":"喜剧之王"，"re":"主演"，"obj":"周星驰"}]}中，第一次二分类时“喜”对应的索引应标记为1，第二次二分类时“王”对应的索引应标记为1；

步骤3.2：生成发现的主体序列的嵌入特征，将主体特征向量与句向量生成联合特征向量[cs₁,cs₂,cs₃，cs₄,cs₅，cs₆，…]，在任意关系re_n的情况下，对联合向量[cs₁,cs₂,cs₃,cs₄,cs₅,cs₆,…]中的每个中文字向量cs_n，进行两次二分类，第一次二分类判断该字符是否为客体的首字符，第二次二分类判断该字符是否为客体的尾字符，抽取出三元组。

如图3所示，对于每个客体通过一个基于关系映射的客体识别器识别出在每一具体关系下的客体的开头和结尾。

在数据{"text":"如何演好自己的角色，请读《演员自我修养》《喜剧之王》周星驰崛起于穷困潦倒之中的独门秘笈","spo_list":[{"sub":"喜剧之王","re":"主演"，"obj":"周星驰"}]}中主体特征向量即为“喜剧之王”的开端“喜”和结尾“王”的字向量平均值，在“主演”关系之下，进行客体二分类，第一次二分类应将“周”对应的索引标记为1，第二次二分类应将“驰”对应的索引标记为1，待客体标记完成后三元组[“喜剧之王”，“周星驰”，“主演”]即已被识别；

本次实施例的实验结果如下：

测试集的准确率(AUC)稳定在0.8974，F1-Score稳定在0.8996。

该实验结果表明本发明所提出的基于预训练模型的级联二进制中文实体关系提取方法能够提取出非结构化文本的人物，组织，事件等实体及其之间的多种关系并有效的解决了三元组之间的重叠问题，预测结果准确率高、误差小，计算复杂度低，有很高的实用价值。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于预训练模型的级联二进制中文实体关系提取方法，其特征在于，包括以下步骤：

步骤1：从初始的中文非结构化数据中筛选出有效数据，以字典的形式获得文本、实体及关系三元组，并对获取的文本进行分字，其中所述中文非结构化数据包括文本、实体内容、实体类别以及关系；

步骤2：利用预训练模型Bert将所述有效数据生成嵌入向量，通过嵌入向量来生成文本的语义信息，捕捉字与字之间的语义贡献关系，并提供字与字的位置嵌入信息，得到文本中单个句子的句向量表示；

步骤3：对句子中每个字向量进行主体标记二分类，对于句子中的每一主体在每一关系下进行客体标记二分类，最后合并结果并生成句子中的全部三元组，即中文实体关系。

2.根据权利要求1所述基于预训练模型的级联二进制中文实体关系提取方法，其特征在于，所述步骤1中，根据规则匹配的方法去掉标注实体或关系不全的数据，仅保留实体和关系标注完全的有效数据。

3.根据权利要求1所述基于预训练模型的级联二进制中文实体关系提取方法，其特征在于，所述步骤1中，以字典的形式获得文本、实体及关系的过程包括：

步骤1.1：将有效数据表示为{text：t，triple_list：[spo₁，spo₂，spo₃，...]}的字典格式，其中text表示文本，t表示文本内容，triple_list表示文本中包含的三元组列表，spo₁，spo₂......表示文本中的具体三元组，对于任意一个三元组spo，其具体表示为一个元素个数为3的列表[sub，re，obj]，其中sub表示该三元组spo中的主体，re表示该三元组spo中的关系，obj表示该三元组spo中的客体；

步骤1.2：对每条有效数据中的文本内容t及三元组列表triple_list中的每个三元组spo中的主体sub及客体obj进行分字；

步骤1.3：获取每个主体sub及客体obj在文本内容t中的索引位置idx_sn，idx_st，idx_oh，idx_ot，其中idx_sh表示主体sub第一个字在文本内容t中的索引，idx_st表示主体sub最后一个字在文本内容t中的索引，idx_oh表示客体obj第一个字在文本内容t中的索引，idx_ot表示客体obj最后一个字在文本内容t中的索引，用一个序列[re₁，re₂，re₃，re₄，...re_n，...]表示所有可能发现的关系，re_n表示某一特定关系；

步骤1.4：对每一文本内容t中的每一主体sub建立字典s2ro，其格式为{(idx_sh，idx_st)：[or₁，or₂，or₃，...or_n，...]}，其中or_n表示客体位置索引以及关系组成的元组，其形式为(idx_oh，idx_ot，re_n)。

4.根据权利要求3所述基于预训练模型的级联二进制中文实体关系提取方法，其特征在于，所述分字是将文本内容t中的每一个字与预训练模型Bert的内置词表进行匹配并得到对应的字符索引值。

5.根据权利要求1所述基于预训练模型的级联二进制中文实体关系提取方法，其特征在于，所述步骤2中，使用预训练模型Bert对有效数据中的文本内容t生成其对应的嵌入向量。

6.根据权利要求1或5所述基于预训练模型的级联二进制中文实体关系提取方法，其特征在于，所述步骤2中，在生成嵌入向量后，执行如下过程：

步骤2.1：对分完字后的文本内容t随机生成15％的mask数据，并在句子的开头和结尾处增加表示句子开始和结束的标识符，通过被mask的字符两侧的未被mask的字符来预测被mask的字符，而用来预测被mask的字符的中间向量即为被mask的字符的语义信息嵌入向量；

步骤2.2：将上一步骤处理完的文本内容t对于每个字符的位置索引生成索引的位置嵌入信息并与上一步骤生成的语义嵌入信息连结最终生成文本中单个句子的句向量表示[c₁，c₂，c₃，c₄，c₅，c₆，...c_n，...]，c_n表示文本内容t中的第n个中文字向量。

7.根据权利要求6所述基于预训练模型的级联二进制中文实体关系提取方法，其特征在于，所述步骤3包括：

步骤3.1：对得到的句向量表示中的每个中文字向量进行两次二分类，第一次二分类判断该字向量所对应的字符是否为主体sub的首字符，第二次二分类判断该字符是否为主体sub的尾字符；

步骤3.2：生成发现的主体序列的嵌入特征，将主体特征向量与句向量生成联合特征向量[cs₁，cs₂，cs₃，cs₄，cs₅，cs₆，...cs_n，...]，cs_n表示文本内容t中的第n个联合特征向量，在任意关系re_n的情况下，对联合特征向量[cs₁，cs₂，cs₃，cs₄，cs₅，cs₆，...cs_n，...]中的每个联合特征向量进行两次二分类，第一次二分类判断该字向量对应的字符是否为客体的首字符，第二次二分类判断该字向量对应的字符是否为客体的尾字符，抽取出三元组。

8.根据权利要求7所述基于预训练模型的级联二进制中文实体关系提取方法，其特征在于，所述步骤3.1中主体sub的识别方法：设定与文本向量等长的主体sub开端标记序列s_h，主体sub结尾标记序列s_t，对文本t中的每个字向量进行两次二分类，第一次二分类用于判断该字向量是否为某一主体sub的开始，若为某一主体sub的开始则将主体sub开端标记序列s_h的对应索引位置i标记为1，否则标记为0；第二次二分类用于判断该字向量是否为某一主体sub的结束，若为某一主体sub的结束则将主体sub结尾标记序列s_e的对应索引位置i标记为1，否则标记为0，其中对每个字向量进行的主体标记定义如下：