CN113836281A

CN113836281A - 一种基于自动问答的实体关系联合抽取方法

Info

Publication number: CN113836281A
Application number: CN202111068697.2A
Authority: CN
Inventors: 刘姗姗; 丁鲲; 张骁雄; 刘浏; 刘茗; 张慧; 蒋国权; 钱璟
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2021-12-24

Abstract

本发明公开了一种基于自动问答的实体关系联合抽取方法，属于信息抽取和自然语言处理技术领域。包括对数据进行预处理；设计实体抽取问题模板并生成实体抽取问答对；基于预训练语言模型的第一自动问答模型抽取实体；结合识别出的实体和根据数据集特点设计的关系抽取问题模板，采用无监督方式生成关系抽取问答对；基于预训练语言模型的第二自动问答模型抽取关系；将第一自动问答模型和第二自动问答模型进行联合训练；将关系抽取问答对和输出的尾实体进行三元组转化。本发明将实体关系抽取转化为问答任务，可以有效解决实体关系抽取中存在的跨句关系、多元关系难以识别的问题，且能识别出训练集中未预先定义的实体关系类型。

Description

一种基于自动问答的实体关系联合抽取方法

技术领域

本发明属于信息抽取和自然语言处理技术领域，具体涉及一种基于自动问答的实体关系联合抽取方法。

背景技术

身处大数据时代，如何快速高效地从海量无结构或半结构数据中抽取出有价值的信息，成为了摆在人们面前的重要问题，信息抽取技术应运而生。实体抽取和关系抽取作为信息抽取的关键步骤，近年来受到了学术界和工业界的广泛关注。实体抽取，又称为命名实体识别，其任务是识别出文本当中具有特定意义的实体，如人名、组织、机构名、地理位置等。关系抽取，即在识别出关键实体后，判断实体之间的语义关系。实体关系抽取作为自然语言处理重要的一环，可以从非结构化文本快速提取出有效的语义信息，为文本摘要、机器翻译、知识图谱构建等下游任务提供有力支撑。

实体关系抽取常被作为序列标注任务处理，面临着以下挑战：1)高质量人工标注数据缺乏。训练实体关系抽取的深度神经网络模型需要大量的标注数据，人工标注虽然质量高但耗时耗力，模板匹配等自动标注方法节省了时间成本但引入了噪声。2)跨句实体关系难以识别。现有的实体关系抽取模型主要针对句子级别，即识别一句话中的实体及其之间的关系，而在现实场景中实体关系可能会跨句出现，判断难度更大。3)预先定义的关系类型不符合应用场景。在对训练数据进行标注时，会预先定义若干实体类型、关系类型，现有模型在标注数据上训练之后，只能识别预先定义的实体关系类型，而对现实场景中存在却未预先定义的类型无法进行识别。4)多元关系识别困难。现有的实体关系抽取模型只能识别单一关系，句子中若出现多种关系且实体有重叠时，难以准确识别。

发明内容

技术问题：针对上述问题，本发明提出一种基于自动问答的实体关系联合抽取方法，基于自动问答的实体关系联合抽取方法更符合人在进行信息抽取的一般过程，有效解决跨句关系识别、多元关系识别等问题。

技术方案：本发明提供一种基于自动问答的实体关系联合抽取方法，包括：

对数据进行预处理，至少包括分词和词性标注；

根据数据集特点设计实体抽取问题模板，并根据模板生成实体抽取问答对；

将实体抽取问题和给定文本输入到基于预训练语言模型的第一自动问答模型中，输出实体；

结合识别出的实体和根据数据集特点设计的关系抽取问题模板，采用无监督方式生成关系抽取问答对；

将关系抽取问题和给定文本输入到基于预训练语言模型的第二自动问答模型中，输出尾实体；

将第一自动问答模型和第二自动问答模型进行联合训练；

将关系抽取问答对和输出的尾实体进行三元组转化，输出由主语、谓语、宾语构成的三元组，分别对应头实体、关系和尾实体。

进一步地，所述分词的方法为：将连续的字序列按照规范划分成词序列；

所述词性标注的方法为：将分词结果中每个词标注一个正确的词性。

进一步地，所述根据数据集特点设计实体抽取问题模板，并根据模板生成实体抽取问答对的方法包括：

通过对数据集进行分析，对不同类型的头实体设计不同的问题，形成实体抽取问题模板；

当给定一段输入文本后，对所有头实体类型遍历进行提问，若文本中存在该类型的头实体，则将该头实体标记为问题的答案，若不存在该类型的头实体，则将答案标记为None，构造出实体抽取问答对。

进一步地，构造所述基于预训练语言模型的第一自动问答模型的方法包括：

将输入文本、问题进行拼接，并对其进行嵌入编码；

将文本、问题嵌入编码的结果输入到预训练语言模型中；

对预训练语言模型的输出层进行微调。

进一步地，所述将输入文本、问题进行拼接的方法为：给定问题

和文本

其中N_q和N_c分别表示问题和文本中的字数，将问题和文章用特殊符号[CLS]和[SEP]拼接，输入形式为[CLS]Q[SEP]C[SEP]；

嵌入编码的方法为：以序列[CLS]Q[SEP]C[SEP]中每一个字的字向量、片段向量和位置向量的和作为嵌入编码。

进一步地，所述预训练语言模型为BERT模型。

进一步地，所述对预训练语言模型的输出层进行微调的方法为：

将BERT模型的输出结果输入到全连接层中，之后再进行Softmax；

求得开始位置和结束位置概率最高的位置，将从开始位置到结束位置之间的序列作为预测答案的输出。

进一步地，还包括：对基于预训练模型的第一自动应答模型进行训练，训练的方法为：通过最小化开始和结束位置负对数的概率和，公式如下：

其中，N是训练样本中的样例数，

和

是样例i的真实标记的开始位置和结束位置，

是预测答案开始位置在

的概率，

是预测答案结束位置在

的概率，θ表示模型中所有可训练权重的集合；

给预测答案开始和结束位置的置信度得分向量p^b和p^e分别拼接一个可训练的偏置t，新的置信度得分向量表示为

其中N_S表示句子中的字数，

“；”表示按行进行拼接；

没有答案时的概率表示为：

其中a表示答案，

表示没有答案；当

的概率大于最优答案片段的得分时，则该问题没有答案。

进一步地，所述结合识别出的实体和根据数据集特点设计的关系抽取问题模板，采用无监督方式生成关系抽取问答对的方法为：

通过对数据集进行分析，对不同类型的头实体、关系设计不同的问题，形成关系抽取模板；

对实体抽取识别的每一个实体可能存在的关系根据问题模板进行提问，并将问题模板中的“xx”替换为实体抽取识别出的实体，若该实体在文本中存在该类的关系，则将尾实体作为问题的答案，反之，若不存在该类关系，则问题的答案为None，以此方法循环遍历所有样例构造关系抽取问答对。

进一步地，所述基于预训练语言模型的第二自动问答模型与基于预训练语言模型的第一自动问答模型采用同一模型，两个模型在训练过程中共享参数。

进一步地，所述将第一自动问答模型和第二自动问答模型进行联合训练的方法为：

利用目标函数：L＝(1-λ)L_entity+λL_relation对两个自动问答模型进行训练，其中，L_entity和L_relation分别表示实体抽取和关系抽取时开始和结束位置负对数概率和，λ∈[0,1]是调节实体抽取和关系抽取两个目标函数权重的参数。

本发明与现有技术相比，具有以下优点：通过数据预处理、基于问答的实体抽取、基于问答的关系抽取、三元组转化等步骤，将实体关系抽取任务转化为自动问答任务，有效发挥了问答模型的优势，可以解决实体关系抽取中存在的跨句关系、多元关系难以识别问题，并且更符合人在进行信息抽取的一般过程，且能识别出训练集中未预先定义的实体关系类型。

附图说明

图1为本发明的实施例中基于自动问答的实体关系联合抽取方法的流程图。

图2为本发明的实施例中自动问答的实体(关系)抽取模型图；

图3为本发明的实施例中关系抽取问答对无监督生成算法流程图；

图4为本发明的一个应用示例的示意图。

具体实施方式

图1示出了本发明的实施例中基于自动问答的实体关系联合抽取方法的流程图。结合图1所示，该方法包括：

S100：对数据进行预处理，至少包括分词和词性标注。具体的，可以根据数据的情况增加其他的预处理操作，例如去停用词等。其中分词方法是将连续的字序列按照规范划分成词序列；性标注的方法是将分词结果中每个词标注一个正确的词性；去停用词的方法是根据停用词表删除文本中的助词、语气词等没有意义的词。例如，输入的文本为：韩国总统文在寅夫人金正淑为美国总统特朗普之女伊万卡设计了一双“丝绸室内拖鞋”。使用jieba进行分词，分词后的结果为：韩国/总统/文在寅/夫人/金正淑/为/美国/总统/特朗普/之/女/伊万卡/设计/了/一双/“/丝绸/室内拖鞋/”/。对分词后的结果使用HanLP工具进行词性标注，结果为：韩国(ns)/总统(n)/文在寅(nr)/夫人(n)/金正淑(nr)/为(p)/美国(ns)/总统(n)/特朗普(nr)/之(u)/女(n)/伊万卡(nrf)/设计(vn)/了(ul)/一双(m)/“(x)/丝绸(n)/室内拖鞋(n)/”(x)/。(x)

S200：根据数据集特点设计实体抽取问题模板，并根据模板生成实体抽取问答对。在本发明的一个实施例中，采用2021语言与智能技术竞赛中多形态信息抽取任务的关系抽取的数据集，该任务的目标是对于给定的自然语言句子，根据预先定义的模式集合，抽取出所有满足模式约束的主谓宾三元组，句子中包括多元关系。训练集包括171293条数据，其中输入的自然语言句子字数最长达300个字，存在远距离的跨句关系。训练集中的实体类型包括地点、电视综艺、歌曲、国家、行政区、机构、景点、历史人物、企业、人物、图书作品、网络小说、学科专业、影视作品、娱乐人物等15类，为这15类主体类型设计的问题模板如表1所示。

表1实体抽取问题生成模板

根据所设计的模板生成实体抽取问答对的方法为：当给定一段输入文本后，对所有主体类型遍历进行提问，若文本中存在该类型的实体，则将该头实体标记为问题的答案，若不存在该类型的头实体，则将答案标记为None，以此方法构造实体抽取问答对。例如，输入文本为：韩国总统文在寅夫人金正淑为美国总统特朗普之女伊万卡设计了一双“丝绸室内拖鞋”。构造的实体抽取问答对为：(文中提到的地点是哪？None),(文中提到的电视综艺是什么？None)，(文中提到的歌曲是什么？None)，(文中提到的国家是什么？韩国；美国)，(文中提到的行政区是什么？None)，(文中提到的机构是什么？None)，(文中提到的景点是哪？None)，(文中提到的历史人物是谁？None)，(文中提到的企业是什么？None)，(文中提到的人物是谁？文在寅；金正淑；特朗普；伊万卡)，(文中提到的图书作品是什么？None)，(文中提到的网络小说是什么？None)，(文中提到的学科专业是什么？None)，(文中提到的影视作品是什么？None)，(文中提到的娱乐人物是谁？None)。

S300：将实体抽取问题和给定文本输入到基于预训练语言模型的第一自动问答模型中，输出实体。基于预训练语言模型的问答模型包括将高维离散空间的词映射到低维连续空间向量的嵌入编码输入、预训练和输出微调，

在本发明的实施例中，基于预训练语言模型的自动问答模型的本体是谷歌所公布的针对中文进行训练的BERT模型，即预训练语言模型为BERT模型。在本发明的实施例中，如图2，构建基于预训练语言模型的第一自动问答模型的过程包括以下步骤：

S310：将输入文本、问题进行拼接，并对其进行嵌入编码。具体的，给定问题

和文本

其中N_q和N_c分别表示问题和文本中的字数，将问题和文章用特殊符号[CLS]和[SEP]拼接，输入形式为[CLS]Q[SEP]C[SEP]。将序列[CLS]Q[SEP]C[SEP]中每一个字的字向量、片段向量和位置向量的和作为嵌入编码。

S320：将文本、问题嵌入编码的结果输入到预训练语言模型中。预训练语言模型采用的是谷歌所公布的针对中文进行训练的BERT模型，即预训练语言模型为BERT模型。将步骤S310中的嵌入编码输入到针对中文预训练好的BERT模型中，其中片段向量用于区分问题和文本，位置向量编码文本中每个字的位置。BERT模型是一个多层双向的Transformer结构，在预训练阶段通过带掩码的语言模型和下一句预测两个任务有效编码上下文信息，从而习得语法、句法等信息。

S330：对预训练语言模型的输出层进行微调。为了使BERT模型完成问答任务，需要对其输出层进行微调。在问答任务中，预测答案的流行方式是预测答案在文本中开始和结束的位置，所以将BERT模型的输出结果输入到全连接层中，之后再进行Softmax，求得开始位置和结束位置概率最高的位置，将从开始位置到结束位置之间的序列作为预测答案的输出。

在本发明的实施例中，对基于预训练语言模型的自动问答模型进行训练时，训练时的目标为最小化开始和结束位置负对数概率和，即：

其中，N是训练样本中的样例数，

和

是样例i的真实标记的开始位置和结束位置，

是预测答案开始位置在

的概率，

是预测答案结束位置在

的概率，θ表示模型中所有可训练权重的集合。

为了使自动问答模型判断问题是否有答案，给预测答案开始和结束位置的置信度得分向量p^b和p^e分别拼接一个可训练的偏置t，新的置信度得分向量表示为

其中N_S表示句子中的字数，

“；”表示按行进行拼接。

没有答案时的概率表示为：

其中a表示答案，

表示没有答案；当

的概率大于最优答案片段的得分时，则该问题没有答案。

S400：结合识别出的实体和根据数据集特点设计的关系抽取问题模板，采用无监督方式生成关系抽取问答对。设计关系抽取问题模板具体的是通过对数据集进行分析，对不同类型的头实体、关系设计不同的问题，形成关系抽取模板。例如头实体类型为人物、关系类型为祖籍时，问题为“xx人物的祖籍是哪里？”。

例如在本发明的一个示例中，根据主体、关系、客体三者的类型设计关系抽取问题模板结果表2所示，共计54种关系，其中对多元关系分多个问题进行提问，例如“票房”这一关系既涉及票房值，也涉及地区，所以分别用“xx影视作品的票房是多少？”和“xx影视作品在哪里上映？”两个问题进行提问。

表2关系抽取问题生成模板

结合实体抽取识别到的实体和关系抽取问题模板，按图3所示的算法流程，以无监督的方式生成关系抽取问答对。无监督的方式生成关系抽取问答对，具体的是对实体抽取识别的每一个实体可能存在的关系根据问题模板进行提问，并将问题模板中的“xx”替换为实体抽取识别出的实体，若该实体在文本中存在该类的关系，则将尾实体作为问题的答案，反之，若不存在该类关系，则问题的答案为None，以此方法循环遍历所有样例构造关系抽取问答对。

例如，输入文本为：韩国总统文在寅夫人金正淑为美国总统特朗普之女伊万卡设计了一双“丝绸室内拖鞋”。抽取出的实体包括，国家：韩国、美国，人物：文在寅、金正淑、特朗普、伊万卡。针对国家类型的实体，可能存在的关系有官方语言、首都、总统等3个，其关系抽取问题分别为：“xx国家的官方语言是什么？”，“xx国家的首都是什么？”，“xx国家的总统是谁？”，将问题模板中的“xx”替换为实体抽取中识别出的实体，最终构造的关系抽取问答对为：(韩国国家的官方语言是什么？None),(韩国国家的首都是什么？None)，(韩国国家的总统是谁？文在寅)，(美国国家的官方语言是什么？None),(美国国家的首都是什么？None)，(美国国家的总统是谁？特朗普)。在构造关系抽取问答对时保留了主体类型，这样可以为后续模型识别尾实体提供额外的辅助信息。

S500：将关系抽取问题和给定文本输入到基于预训练语言模型的第二自动问答模型中，输出尾实体。在本发明的实施例中，基于预训练语言模型的第一自动问答模型和基于预训练语言模型的第二自动问答模型采用同一问答模型，并且在在训练过程中共享参数。

S600：将第一自动问答模型和第二自动问答模型进行联合训练；在本发明的实施例中，利用下面的目标函数进行联合训练：

L＝(1-λ)L_entity+λL_relation

其中，L_entity和L_relation分别表示实体抽取和关系抽取时开始和结束位置负对数概率和，λ∈[0,1]是调节实体抽取和关系抽取两个目标函数权重的参数。

S700：将关系抽取问答对和输出的尾实体进行三元组转化，输出由主语、谓语、宾语构成的三元组，分别对应头实体、关系和尾实体。在本发明的一个具体示例中，如图4所示，输入文本为：韩国总统文在寅夫人金正淑为美国总统特朗普之女伊万卡设计了一双“丝绸室内拖鞋”。通过实体抽取和关系抽取两轮问答，最终得到的三元组有：(韩国，总统，文在寅)，(文在寅，妻子，金正淑)，(金正淑，丈夫，文在寅)，(美国，总统，特朗普)，(特朗普，女儿，伊万卡)，(伊万卡，父亲，特朗普)。抽取出的三元组可以用于知识图谱的构建。

本发明将实体关系抽取转化为问答任务，有效发挥了成熟问答模型的优势，更为自然的将实体抽取和关系抽取进行联合训练，避免了流水线做法带来的误差传递。同时，本发明更符合人在进行信息抽取时的一般过程，可以解决实体关系抽取中存在的跨句关系、多元关系难以识别等问题。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。