CN113268573A - 一种学术人才信息的抽取方法 - Google Patents

一种学术人才信息的抽取方法 Download PDF

Info

Publication number
CN113268573A
CN113268573A CN202110543510.3A CN202110543510A CN113268573A CN 113268573 A CN113268573 A CN 113268573A CN 202110543510 A CN202110543510 A CN 202110543510A CN 113268573 A CN113268573 A CN 113268573A
Authority
CN
China
Prior art keywords
event
input
information
person
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110543510.3A
Other languages
English (en)
Inventor
郑中华
胡淦
王文仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Boyi Information Technology Co ltd
Original Assignee
Shanghai Boyi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Boyi Information Technology Co ltd filed Critical Shanghai Boyi Information Technology Co ltd
Priority to CN202110543510.3A priority Critical patent/CN113268573A/zh
Publication of CN113268573A publication Critical patent/CN113268573A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种学术人才信息的抽取方法。该方法包括事件类型的定义及辅助问句构造、输入编码、事件检测层、根据事件检测结果构造问答系统输入数据、关系序列输出等5个步骤。本发明通过增加一个事件检测层,将事件类型引入信息抽取,不仅降低了计算复杂度,提升了速度而且提高了准确率,同时本发明还提出了一种新的标注方式,并选用序列输出的形式,考虑了多组答案的情况。

Description

一种学术人才信息的抽取方法
技术领域
本发明涉及一种学术人才信息的抽取方法。
背景技术
传统的信息抽取方法是基于规则的信息抽取,不过这种方法只适用于结构较为规范的文档,对于其他类型的文档效果较差;目前信息抽取更多采用的是深度学习的方法,一般情况下主要分为实体识别和关系识别两个步骤,但这种方法由于每个子任务是独立的模型,后来提出了一种端对端的实体和关系提取方法,是使用单一模型将实体和关系一起提取出来,它可以有效地整合实体和关系的信息。另外,一个不同的角度是将知识点本身看作一个问题,将知识点的内容作为该问题的答案,将知识点所在的文本段作为这个问答对的上下文,这样知识抽取模型便可以用问答模型来构造。基于问答系统的知识抽取模型中,问答阅读理解任务可以很好地作为bert模型下游任务,仅需简单改造原有网络结构,并进行微调,即可得到很好的效果。
在基于bert的问答系统中,主要是将文章与问题一起输入到bert模型中,最终输出答案的起始位置和结束位置。该方法存在一些问题,如最终的输出结果只有一组答案,但是现实中往往一篇文章中可能包括该问题的多个答案,另外,一篇文章中可能会存在多个问题的答案分布,这种情况下必须遍历所有关注的问题去找寻答案,造成了速度上的压力。
发明内容
本发明要解决的技术问题是提供一种学术人才信息的抽取方法。
为了解决上述技术问题,本发明采用的技术方案是,学术人才信息的抽取方法,包括如下步骤:
(1)事件类型的定义及辅助问句构造:引入一个事件类型的概念,主要涉及的是出生、学习、就业、研究方向以及成果五个方面,基于这五种类型构造辅助问句如下表所示;
事件类型 辅助问句
出生 这个人是何时在何地出生的
学习 这个人的学习经历有哪些
就业 这个人的就业经历有哪些
研究方向 这个人主要研究方向是什么
成果 这个人有哪些成果
(2)输入编码:对于文本输入X={x1,x2,x3,…,xn},其中设置最大输入长度max_seq,若小于最大输入长度则直接作为输入,否则就根据中文段落划分成多个文本输入处理,直接选用bert模型获取输入句子对应的向量E={e1,e2,e3,…,en};
(3)事件检测层:事件检测层的目的是检测句子中包含的数据类型,对文本输入X来说,其可能包括多个事件类型,则X的标签y={y,y2,y3,y4,y5},其中yi取值为1或者0,当事件属于类型i时,则yi=1,否则yi=0;具体的实现过程为:对经bert处理的文档表示E直接输入到一全连接层中再用s igmoid分类器进行分类即可得到文本的事件检测结果;
(4)根据事件检测结果构造问答系统输入数据;根据事件检测结果分别选择辅助问句构建问答系统的输入,对辅助问句Q={q1,q2,q3,…,qm}与文本输入X={x1,x2,x3,…,xn},拼接成[CLS,X,SEP,Q,SEP]的形式输入到bert模型中;
(5)关系序列输出:提出一种序列化的信息抽取标注方式;
Figure BDA0003072691490000031
如上表的标注信息所示,每个字符都被分配一个标签,用于提取结果;标签“0”代表无关标签,这意味着相应的单词与提取结果无关;其他标签类型主要是依据事件类型而定,基本是时间与地点的组合,具体的标签类型如下表所示,其中人物标签为p;标签主要包括三个部分,第一部分为位置信息,使用“BIES”(Begin,Inside,End,Single)符号来表示字符在答案中的位置信息;第二部分为具体的标签类型信息,如出生时间、人物;第三个为关联信息,对于某个类型来说,其可能会有多种答案,如就业经历,同样的,一种答案中会有多个时间、地点等属性信息,则对每种答案中的所有时间、地点等属性信息直接以相同的数值,即所处句中答案的序数来表示;
Figure BDA0003072691490000041
基于上述的标注结果,关系序列的输出过程具体如下:对于经bert提取的文本和辅助问句特征直接输出到bi-LSTM和CRF网络中,得到最终的序列输出。
本发明的有益效果是:
1、通过增加一个事件检测层,将事件类型引入信息抽取,不仅降低了计算复杂度,提升了速度而且提高了准确率。
2、提出一种新的标注方式,并选用序列输出的形式,考虑了多组答案的情况。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例的信息抽取模型结构图。
具体实施方式
一种学术人才信息的抽取方法,图1是信息抽取模型结构图,具体包括以下步骤:
1、事件类型的定义及辅助问句构造:本实施例主要是用于学术人才信息的信息抽取,本实施例引入一个事件类型的概念,主要涉及的是出生、学习、就业、研究方向以及成果五个方面,基于这五种类型构造辅助问句如下表所示。
事件类型 辅助问句
出生 这个人是何时在何地出生的
学习 这个人的学习经历有哪些
就业 这个人的就业经历有哪些
研究方向 这个人主要研究方向是什么
成果 这个人有哪些成果
2、输入编码:对于文本输入X={x1,x2,x3,…,xn},其中设置最大输入长度max_seq,若小于最大输入长度则直接作为输入,否则就根据中文段落划分成多个文本输入处理,直接选用bert模型获取输入句子对应的向量E={e1,e2,e3,…,en}。
3、事件检测层:事件检测层的目的是检测句子中包含的数据类型,对文本输入X来说,其可能包括多个事件类型,则X的标签y={y,y2,y3,y4,y5},其中yi取值为1或者0,当事件属于类型i时,则yi=1,否则yi=0。具体的实现过程为:对经bert处理的文档表示E直接输入到一全连接层中再用sigmoid分类器进行分类即可得到文本的事件检测结果。
4、根据事件检测结果构造问答系统输入数据。根据事件检测结果分别选择辅助问句构建问答系统的输入,对辅助问句Q={q1,q2,q3,…,qm}与文本输入X={x1,x2,x3,…,xn},拼接成[CLS,X,SEP,Q,SEP]的形式输入到bert模型中。
5、关系序列输出:
本实施例提出一种序列化的信息抽取标注方式。
Figure BDA0003072691490000051
Figure BDA0003072691490000061
如上表的标注信息所示,每个字符都被分配一个标签,用于提取结果。标签“O”代表无关标签,这意味着相应的单词与提取结果无关。其他标签类型主要是依据事件类型而定,基本是时间与地点的组合,具体的标签类型如下表所示,其中人物标签为p。标签主要包括三个部分,第一部分为位置信息,使用“BIES”(Begin,Inside,End,Single)符号来表示字符在答案中的位置信息;第二部分为具体的标签类型信息,如出生时间、人物等;第三个为关联信息,对于某个类型来说,其可能会有多种答案,如就业经历,同样的,一种答案中会有多个时间、地点等属性信息,则对每种答案中的所有时间、地点等属性信息直接以相同的数值,即所处句中答案的序数来表示。
Figure BDA0003072691490000062
基于上述的标注结果,关系序列的输出过程具体如下:对于经bert提取的文本和辅助问句特征直接输出到bi-LSTM和CRF网络中,得到最终的序列输出。
本实施例具有以下技术特点:
1、传统的基于问答系统的信息抽取方法中,对于辅助问句的构造一般是通过遍历的形式,本实施例通过增加一个事件检测层,以事件类型来进行区分,不仅降低了计算复杂度,提升了速度而且提高了准确率。
2、基于bert的问答系统均只输出一组答案,未考虑到多个答案的情况,本实施例提出一种新的标注方式,并利用序列输出的形式,综合考虑多组答案的情况,实现了信息的抽取。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (1)

1.学术人才信息的抽取方法,包括如下步骤:
(1)事件类型的定义及辅助问句构造:引入一个事件类型的概念,主要涉及的是出生、学习、就业、研究方向以及成果五个方面,基于这五种类型构造辅助问句如下表所示;
事件类型 辅助问句 出生 这个人是何时在何地出生的 学习 这个人的学习经历有哪些 就业 这个人的就业经历有哪些 研究方向 这个人主要研究方向是什么 成果 这个人有哪些成果
(2)输入编码:对于文本输入X={x1,x2,x3,…,xn},其中设置最大输入长度max-seq,若小于最大输入长度则直接作为输入,否则就根据中文段落划分成多个文本输入处理,直接选用bert模型获取输入句子对应的向量E={e1,e2,e3,…,en};
(3)事件检测层:事件检测层的目的是检测句子中包含的数据类型,对文本输入X来说,其可能包括多个事件类型,则X的标签y={y,y2,y3,y4,y5},其中yi取值为1或者0,当事件属于类型i时,则yi=1,否则yi=0;具体的实现过程为:对经bert处理的文档表示E直接输入到一全连接层中再用sigmoid分类器进行分类即可得到文本的事件检测结果;
(4)根据事件检测结果构造问答系统输入数据;根据事件检测结果分别选择辅助问句构建问答系统的输入,对辅助问句Q={q1,q2,q3,…,qm}与文本输入X={x1,x2,x3,…,xn},拼接成[CLS,X,SEP,Q,SEP]的形式输入到bert模型中;
(5)关系序列输出:提出一种序列化的信息抽取标注方式;
Figure FDA0003072691480000021
如上表的标注信息所示,每个字符都被分配一个标签,用于提取结果;标签“0”代表无关标签,这意味着相应的单词与提取结果无关;其他标签类型主要是依据事件类型而定,基本是时间与地点的组合,具体的标签类型如下表所示,其中人物标签为p;标签主要包括三个部分,第一部分为位置信息,使用“BIES”(Begin,Inside,End,Single)符号来表示字符在答案中的位置信息;第二部分为具体的标签类型信息,如出生时间、人物;第三个为关联信息,对于某个类型来说,其可能会有多种答案,如就业经历,同样的,一种答案中会有多个时间、地点等属性信息,则对每种答案中的所有时间、地点等属性信息直接以相同的数值,即所处句中答案的序数来表示;
Figure FDA0003072691480000031
基于上述的标注结果,关系序列的输出过程具体如下:对于经bert提取的文本和辅助问句特征直接输出到bi-LSTM和CRF网络中,得到最终的序列输出。
CN202110543510.3A 2021-05-19 2021-05-19 一种学术人才信息的抽取方法 Pending CN113268573A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110543510.3A CN113268573A (zh) 2021-05-19 2021-05-19 一种学术人才信息的抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110543510.3A CN113268573A (zh) 2021-05-19 2021-05-19 一种学术人才信息的抽取方法

Publications (1)

Publication Number Publication Date
CN113268573A true CN113268573A (zh) 2021-08-17

Family

ID=77231670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110543510.3A Pending CN113268573A (zh) 2021-05-19 2021-05-19 一种学术人才信息的抽取方法

Country Status (1)

Country Link
CN (1) CN113268573A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996434A (zh) * 2022-08-08 2022-09-02 深圳前海环融联易信息科技服务有限公司 一种信息抽取方法及装置、存储介质、计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222395A1 (en) * 2007-12-21 2009-09-03 Marc Light Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction
CN102254014A (zh) * 2011-07-21 2011-11-23 华中科技大学 一种网页特征自适应的信息抽取方法
CN110457696A (zh) * 2019-07-31 2019-11-15 福州数据技术研究院有限公司 一种面向档案数据的人才与政策智能匹配系统和方法
CN110598001A (zh) * 2019-08-05 2019-12-20 平安科技(深圳)有限公司 联合实体关系抽取方法、装置及存储介质
US20200364307A1 (en) * 2019-05-17 2020-11-19 Raytheon Bbn Technologies Corp. Cross-lingual information retrieval and information extraction
CN112131393A (zh) * 2020-08-11 2020-12-25 淮阴工学院 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222395A1 (en) * 2007-12-21 2009-09-03 Marc Light Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction
CN102254014A (zh) * 2011-07-21 2011-11-23 华中科技大学 一种网页特征自适应的信息抽取方法
US20200364307A1 (en) * 2019-05-17 2020-11-19 Raytheon Bbn Technologies Corp. Cross-lingual information retrieval and information extraction
CN110457696A (zh) * 2019-07-31 2019-11-15 福州数据技术研究院有限公司 一种面向档案数据的人才与政策智能匹配系统和方法
CN110598001A (zh) * 2019-08-05 2019-12-20 平安科技(深圳)有限公司 联合实体关系抽取方法、装置及存储介质
CN112131393A (zh) * 2020-08-11 2020-12-25 淮阴工学院 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张秋颖等: "基于BERT-BiLSTM-CRF的学者主页信息抽取", 《计算机应用研究》, 30 June 2020 (2020-06-30) *
袁莎等: "开放互联网中的学者画像技术综述", 《计算机研究与发展》, no. 09, 15 September 2018 (2018-09-15) *
阳萍等: "基于BiLSTM模型的定义抽取方法", 《计算机工程》, no. 03, pages 2 - 3 *
黄辉等: "基于BERT阅读理解框架的司法要素抽取方法", 《大数据》, 2 April 2021 (2021-04-02), pages 3 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996434A (zh) * 2022-08-08 2022-09-02 深圳前海环融联易信息科技服务有限公司 一种信息抽取方法及装置、存储介质、计算机设备
CN114996434B (zh) * 2022-08-08 2022-11-08 深圳前海环融联易信息科技服务有限公司 一种信息抽取方法及装置、存储介质、计算机设备

Similar Documents

Publication Publication Date Title
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN108763326B (zh) 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
WO2022022163A1 (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN105843897B (zh) 一种面向垂直领域的智能问答系统
CN107967318A (zh) 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN111177326A (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN110134954B (zh) 一种基于Attention机制的命名实体识别方法
CN111488931A (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN111259141A (zh) 一种基于多模型融合的社交媒体语料情感分析方法
CN106295245A (zh) 基于Caffe的堆栈降噪自编码基因信息特征提取的方法
CN108388554A (zh) 基于协同过滤注意力机制的文本情感识别系统
CN111710428B (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN112559781B (zh) 一种图像检索系统和方法
CN113283236B (zh) 一种复杂中文文本中的实体消歧方法
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和系统
CN114328934B (zh) 一种基于注意力机制的多标签文本分类方法及系统
CN111552773A (zh) 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
CN111680131A (zh) 基于语义的文档聚类方法、系统及计算机设备
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210817