CN113268573A

CN113268573A - 一种学术人才信息的抽取方法

Info

Publication number: CN113268573A
Application number: CN202110543510.3A
Authority: CN
Inventors: 郑中华; 胡淦; 王文仲
Original assignee: Shanghai Boyi Information Technology Co ltd
Current assignee: Shanghai Boyi Information Technology Co ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-17

Abstract

本发明公开一种学术人才信息的抽取方法。该方法包括事件类型的定义及辅助问句构造、输入编码、事件检测层、根据事件检测结果构造问答系统输入数据、关系序列输出等5个步骤。本发明通过增加一个事件检测层，将事件类型引入信息抽取，不仅降低了计算复杂度，提升了速度而且提高了准确率，同时本发明还提出了一种新的标注方式，并选用序列输出的形式，考虑了多组答案的情况。

Description

一种学术人才信息的抽取方法

技术领域

本发明涉及一种学术人才信息的抽取方法。

背景技术

传统的信息抽取方法是基于规则的信息抽取，不过这种方法只适用于结构较为规范的文档，对于其他类型的文档效果较差；目前信息抽取更多采用的是深度学习的方法，一般情况下主要分为实体识别和关系识别两个步骤，但这种方法由于每个子任务是独立的模型，后来提出了一种端对端的实体和关系提取方法，是使用单一模型将实体和关系一起提取出来，它可以有效地整合实体和关系的信息。另外，一个不同的角度是将知识点本身看作一个问题，将知识点的内容作为该问题的答案，将知识点所在的文本段作为这个问答对的上下文，这样知识抽取模型便可以用问答模型来构造。基于问答系统的知识抽取模型中，问答阅读理解任务可以很好地作为bert模型下游任务，仅需简单改造原有网络结构，并进行微调，即可得到很好的效果。

在基于bert的问答系统中，主要是将文章与问题一起输入到bert模型中，最终输出答案的起始位置和结束位置。该方法存在一些问题，如最终的输出结果只有一组答案，但是现实中往往一篇文章中可能包括该问题的多个答案，另外，一篇文章中可能会存在多个问题的答案分布，这种情况下必须遍历所有关注的问题去找寻答案，造成了速度上的压力。

发明内容

本发明要解决的技术问题是提供一种学术人才信息的抽取方法。

为了解决上述技术问题，本发明采用的技术方案是，学术人才信息的抽取方法，包括如下步骤：

(1)事件类型的定义及辅助问句构造：引入一个事件类型的概念，主要涉及的是出生、学习、就业、研究方向以及成果五个方面，基于这五种类型构造辅助问句如下表所示；

事件类型	辅助问句
		出生	这个人是何时在何地出生的
学习	这个人的学习经历有哪些
		就业	这个人的就业经历有哪些
研究方向	这个人主要研究方向是什么
		成果	这个人有哪些成果

(2)输入编码：对于文本输入X＝{x₁,x₂,x₃,…,x_n}，其中设置最大输入长度max_seq，若小于最大输入长度则直接作为输入，否则就根据中文段落划分成多个文本输入处理，直接选用bert模型获取输入句子对应的向量E＝{e₁,e₂,e₃,…,e_n}；

(3)事件检测层：事件检测层的目的是检测句子中包含的数据类型，对文本输入X来说，其可能包括多个事件类型，则X的标签y＝{y,y₂,y₃,y₄,y₅}，其中y_i取值为1或者0，当事件属于类型i时，则y_i＝1，否则y_i＝0；具体的实现过程为：对经bert处理的文档表示E直接输入到一全连接层中再用s igmoid分类器进行分类即可得到文本的事件检测结果；

(4)根据事件检测结果构造问答系统输入数据；根据事件检测结果分别选择辅助问句构建问答系统的输入，对辅助问句Q＝{q₁,q₂,q₃,…,q_m}与文本输入X＝{x₁,x₂,x₃,…,x_n}，拼接成[CLS,X,SEP,Q,SEP]的形式输入到bert模型中；

(5)关系序列输出：提出一种序列化的信息抽取标注方式；

如上表的标注信息所示，每个字符都被分配一个标签，用于提取结果；标签“0”代表无关标签，这意味着相应的单词与提取结果无关；其他标签类型主要是依据事件类型而定，基本是时间与地点的组合，具体的标签类型如下表所示，其中人物标签为p；标签主要包括三个部分，第一部分为位置信息，使用“BIES”(Begin,Inside,End,Single)符号来表示字符在答案中的位置信息；第二部分为具体的标签类型信息，如出生时间、人物；第三个为关联信息，对于某个类型来说，其可能会有多种答案，如就业经历，同样的，一种答案中会有多个时间、地点等属性信息，则对每种答案中的所有时间、地点等属性信息直接以相同的数值，即所处句中答案的序数来表示；

基于上述的标注结果，关系序列的输出过程具体如下：对于经bert提取的文本和辅助问句特征直接输出到bi-LSTM和CRF网络中，得到最终的序列输出。

本发明的有益效果是：

1、通过增加一个事件检测层，将事件类型引入信息抽取，不仅降低了计算复杂度，提升了速度而且提高了准确率。

2、提出一种新的标注方式，并选用序列输出的形式，考虑了多组答案的情况。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例的信息抽取模型结构图。

具体实施方式

一种学术人才信息的抽取方法，图1是信息抽取模型结构图，具体包括以下步骤：

1、事件类型的定义及辅助问句构造：本实施例主要是用于学术人才信息的信息抽取，本实施例引入一个事件类型的概念，主要涉及的是出生、学习、就业、研究方向以及成果五个方面，基于这五种类型构造辅助问句如下表所示。

2、输入编码：对于文本输入X＝{x₁,x₂,x₃,…,x_n}，其中设置最大输入长度max_seq，若小于最大输入长度则直接作为输入，否则就根据中文段落划分成多个文本输入处理，直接选用bert模型获取输入句子对应的向量E＝{e₁,e₂,e₃,…,e_n}。

3、事件检测层：事件检测层的目的是检测句子中包含的数据类型，对文本输入X来说，其可能包括多个事件类型，则X的标签y＝{y,y₂,y₃,y₄,y₅}，其中y_i取值为1或者0，当事件属于类型i时，则y_i＝1，否则y_i＝0。具体的实现过程为：对经bert处理的文档表示E直接输入到一全连接层中再用sigmoid分类器进行分类即可得到文本的事件检测结果。

4、根据事件检测结果构造问答系统输入数据。根据事件检测结果分别选择辅助问句构建问答系统的输入，对辅助问句Q＝{q₁,q₂,q₃,…,q_m}与文本输入X＝{x₁,x₂,x₃,…,x_n}，拼接成[CLS，X，SEP，Q，SEP]的形式输入到bert模型中。

5、关系序列输出：

本实施例提出一种序列化的信息抽取标注方式。

如上表的标注信息所示，每个字符都被分配一个标签，用于提取结果。标签“O”代表无关标签，这意味着相应的单词与提取结果无关。其他标签类型主要是依据事件类型而定，基本是时间与地点的组合，具体的标签类型如下表所示，其中人物标签为p。标签主要包括三个部分，第一部分为位置信息，使用“BIES”(Begin,Inside,End,Single)符号来表示字符在答案中的位置信息；第二部分为具体的标签类型信息，如出生时间、人物等；第三个为关联信息，对于某个类型来说，其可能会有多种答案，如就业经历，同样的，一种答案中会有多个时间、地点等属性信息，则对每种答案中的所有时间、地点等属性信息直接以相同的数值，即所处句中答案的序数来表示。

本实施例具有以下技术特点：

1、传统的基于问答系统的信息抽取方法中，对于辅助问句的构造一般是通过遍历的形式，本实施例通过增加一个事件检测层，以事件类型来进行区分，不仅降低了计算复杂度，提升了速度而且提高了准确率。

2、基于bert的问答系统均只输出一组答案，未考虑到多个答案的情况，本实施例提出一种新的标注方式，并利用序列输出的形式，综合考虑多组答案的情况，实现了信息的抽取。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.学术人才信息的抽取方法，包括如下步骤：

事件类型辅助问句出生这个人是何时在何地出生的学习这个人的学习经历有哪些就业这个人的就业经历有哪些研究方向这个人主要研究方向是什么成果这个人有哪些成果

(2)输入编码：对于文本输入X＝{x₁，x₂，x₃，…，x_n}，其中设置最大输入长度max-seq，若小于最大输入长度则直接作为输入，否则就根据中文段落划分成多个文本输入处理，直接选用bert模型获取输入句子对应的向量E＝{e₁，e₂，e₃，…，e_n}；

(3)事件检测层：事件检测层的目的是检测句子中包含的数据类型，对文本输入X来说，其可能包括多个事件类型，则X的标签y＝{y，y₂，y₃，y₄，y₅}，其中y_i取值为1或者0，当事件属于类型i时，则y_i＝1，否则y_i＝0；具体的实现过程为：对经bert处理的文档表示E直接输入到一全连接层中再用sigmoid分类器进行分类即可得到文本的事件检测结果；

(4)根据事件检测结果构造问答系统输入数据；根据事件检测结果分别选择辅助问句构建问答系统的输入，对辅助问句Q＝{q₁，q₂，q₃，…，q_m}与文本输入X＝{x₁，x₂，x₃，…，x_n}，拼接成[CLS，X，SEP，Q，SEP]的形式输入到bert模型中；

(5)关系序列输出：提出一种序列化的信息抽取标注方式；