CN113268573A - 一种学术人才信息的抽取方法 - Google Patents
一种学术人才信息的抽取方法 Download PDFInfo
- Publication number
- CN113268573A CN113268573A CN202110543510.3A CN202110543510A CN113268573A CN 113268573 A CN113268573 A CN 113268573A CN 202110543510 A CN202110543510 A CN 202110543510A CN 113268573 A CN113268573 A CN 113268573A
- Authority
- CN
- China
- Prior art keywords
- event
- input
- information
- person
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 26
- 238000001514 detection method Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims abstract description 10
- 238000010276 construction Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种学术人才信息的抽取方法。该方法包括事件类型的定义及辅助问句构造、输入编码、事件检测层、根据事件检测结果构造问答系统输入数据、关系序列输出等5个步骤。本发明通过增加一个事件检测层,将事件类型引入信息抽取,不仅降低了计算复杂度,提升了速度而且提高了准确率,同时本发明还提出了一种新的标注方式,并选用序列输出的形式,考虑了多组答案的情况。
Description
技术领域
本发明涉及一种学术人才信息的抽取方法。
背景技术
传统的信息抽取方法是基于规则的信息抽取,不过这种方法只适用于结构较为规范的文档,对于其他类型的文档效果较差;目前信息抽取更多采用的是深度学习的方法,一般情况下主要分为实体识别和关系识别两个步骤,但这种方法由于每个子任务是独立的模型,后来提出了一种端对端的实体和关系提取方法,是使用单一模型将实体和关系一起提取出来,它可以有效地整合实体和关系的信息。另外,一个不同的角度是将知识点本身看作一个问题,将知识点的内容作为该问题的答案,将知识点所在的文本段作为这个问答对的上下文,这样知识抽取模型便可以用问答模型来构造。基于问答系统的知识抽取模型中,问答阅读理解任务可以很好地作为bert模型下游任务,仅需简单改造原有网络结构,并进行微调,即可得到很好的效果。
在基于bert的问答系统中,主要是将文章与问题一起输入到bert模型中,最终输出答案的起始位置和结束位置。该方法存在一些问题,如最终的输出结果只有一组答案,但是现实中往往一篇文章中可能包括该问题的多个答案,另外,一篇文章中可能会存在多个问题的答案分布,这种情况下必须遍历所有关注的问题去找寻答案,造成了速度上的压力。
发明内容
本发明要解决的技术问题是提供一种学术人才信息的抽取方法。
为了解决上述技术问题,本发明采用的技术方案是,学术人才信息的抽取方法,包括如下步骤:
(1)事件类型的定义及辅助问句构造:引入一个事件类型的概念,主要涉及的是出生、学习、就业、研究方向以及成果五个方面,基于这五种类型构造辅助问句如下表所示;
事件类型 | 辅助问句 |
出生 | 这个人是何时在何地出生的 |
学习 | 这个人的学习经历有哪些 |
就业 | 这个人的就业经历有哪些 |
研究方向 | 这个人主要研究方向是什么 |
成果 | 这个人有哪些成果 |
(2)输入编码:对于文本输入X={x1,x2,x3,…,xn},其中设置最大输入长度max_seq,若小于最大输入长度则直接作为输入,否则就根据中文段落划分成多个文本输入处理,直接选用bert模型获取输入句子对应的向量E={e1,e2,e3,…,en};
(3)事件检测层:事件检测层的目的是检测句子中包含的数据类型,对文本输入X来说,其可能包括多个事件类型,则X的标签y={y,y2,y3,y4,y5},其中yi取值为1或者0,当事件属于类型i时,则yi=1,否则yi=0;具体的实现过程为:对经bert处理的文档表示E直接输入到一全连接层中再用s igmoid分类器进行分类即可得到文本的事件检测结果;
(4)根据事件检测结果构造问答系统输入数据;根据事件检测结果分别选择辅助问句构建问答系统的输入,对辅助问句Q={q1,q2,q3,…,qm}与文本输入X={x1,x2,x3,…,xn},拼接成[CLS,X,SEP,Q,SEP]的形式输入到bert模型中;
(5)关系序列输出:提出一种序列化的信息抽取标注方式;
如上表的标注信息所示,每个字符都被分配一个标签,用于提取结果;标签“0”代表无关标签,这意味着相应的单词与提取结果无关;其他标签类型主要是依据事件类型而定,基本是时间与地点的组合,具体的标签类型如下表所示,其中人物标签为p;标签主要包括三个部分,第一部分为位置信息,使用“BIES”(Begin,Inside,End,Single)符号来表示字符在答案中的位置信息;第二部分为具体的标签类型信息,如出生时间、人物;第三个为关联信息,对于某个类型来说,其可能会有多种答案,如就业经历,同样的,一种答案中会有多个时间、地点等属性信息,则对每种答案中的所有时间、地点等属性信息直接以相同的数值,即所处句中答案的序数来表示;
基于上述的标注结果,关系序列的输出过程具体如下:对于经bert提取的文本和辅助问句特征直接输出到bi-LSTM和CRF网络中,得到最终的序列输出。
本发明的有益效果是:
1、通过增加一个事件检测层,将事件类型引入信息抽取,不仅降低了计算复杂度,提升了速度而且提高了准确率。
2、提出一种新的标注方式,并选用序列输出的形式,考虑了多组答案的情况。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例的信息抽取模型结构图。
具体实施方式
一种学术人才信息的抽取方法,图1是信息抽取模型结构图,具体包括以下步骤:
1、事件类型的定义及辅助问句构造:本实施例主要是用于学术人才信息的信息抽取,本实施例引入一个事件类型的概念,主要涉及的是出生、学习、就业、研究方向以及成果五个方面,基于这五种类型构造辅助问句如下表所示。
事件类型 | 辅助问句 |
出生 | 这个人是何时在何地出生的 |
学习 | 这个人的学习经历有哪些 |
就业 | 这个人的就业经历有哪些 |
研究方向 | 这个人主要研究方向是什么 |
成果 | 这个人有哪些成果 |
2、输入编码:对于文本输入X={x1,x2,x3,…,xn},其中设置最大输入长度max_seq,若小于最大输入长度则直接作为输入,否则就根据中文段落划分成多个文本输入处理,直接选用bert模型获取输入句子对应的向量E={e1,e2,e3,…,en}。
3、事件检测层:事件检测层的目的是检测句子中包含的数据类型,对文本输入X来说,其可能包括多个事件类型,则X的标签y={y,y2,y3,y4,y5},其中yi取值为1或者0,当事件属于类型i时,则yi=1,否则yi=0。具体的实现过程为:对经bert处理的文档表示E直接输入到一全连接层中再用sigmoid分类器进行分类即可得到文本的事件检测结果。
4、根据事件检测结果构造问答系统输入数据。根据事件检测结果分别选择辅助问句构建问答系统的输入,对辅助问句Q={q1,q2,q3,…,qm}与文本输入X={x1,x2,x3,…,xn},拼接成[CLS,X,SEP,Q,SEP]的形式输入到bert模型中。
5、关系序列输出:
本实施例提出一种序列化的信息抽取标注方式。
如上表的标注信息所示,每个字符都被分配一个标签,用于提取结果。标签“O”代表无关标签,这意味着相应的单词与提取结果无关。其他标签类型主要是依据事件类型而定,基本是时间与地点的组合,具体的标签类型如下表所示,其中人物标签为p。标签主要包括三个部分,第一部分为位置信息,使用“BIES”(Begin,Inside,End,Single)符号来表示字符在答案中的位置信息;第二部分为具体的标签类型信息,如出生时间、人物等;第三个为关联信息,对于某个类型来说,其可能会有多种答案,如就业经历,同样的,一种答案中会有多个时间、地点等属性信息,则对每种答案中的所有时间、地点等属性信息直接以相同的数值,即所处句中答案的序数来表示。
基于上述的标注结果,关系序列的输出过程具体如下:对于经bert提取的文本和辅助问句特征直接输出到bi-LSTM和CRF网络中,得到最终的序列输出。
本实施例具有以下技术特点:
1、传统的基于问答系统的信息抽取方法中,对于辅助问句的构造一般是通过遍历的形式,本实施例通过增加一个事件检测层,以事件类型来进行区分,不仅降低了计算复杂度,提升了速度而且提高了准确率。
2、基于bert的问答系统均只输出一组答案,未考虑到多个答案的情况,本实施例提出一种新的标注方式,并利用序列输出的形式,综合考虑多组答案的情况,实现了信息的抽取。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。
Claims (1)
1.学术人才信息的抽取方法,包括如下步骤:
(1)事件类型的定义及辅助问句构造:引入一个事件类型的概念,主要涉及的是出生、学习、就业、研究方向以及成果五个方面,基于这五种类型构造辅助问句如下表所示;
(2)输入编码:对于文本输入X={x1,x2,x3,…,xn},其中设置最大输入长度max-seq,若小于最大输入长度则直接作为输入,否则就根据中文段落划分成多个文本输入处理,直接选用bert模型获取输入句子对应的向量E={e1,e2,e3,…,en};
(3)事件检测层:事件检测层的目的是检测句子中包含的数据类型,对文本输入X来说,其可能包括多个事件类型,则X的标签y={y,y2,y3,y4,y5},其中yi取值为1或者0,当事件属于类型i时,则yi=1,否则yi=0;具体的实现过程为:对经bert处理的文档表示E直接输入到一全连接层中再用sigmoid分类器进行分类即可得到文本的事件检测结果;
(4)根据事件检测结果构造问答系统输入数据;根据事件检测结果分别选择辅助问句构建问答系统的输入,对辅助问句Q={q1,q2,q3,…,qm}与文本输入X={x1,x2,x3,…,xn},拼接成[CLS,X,SEP,Q,SEP]的形式输入到bert模型中;
(5)关系序列输出:提出一种序列化的信息抽取标注方式;
如上表的标注信息所示,每个字符都被分配一个标签,用于提取结果;标签“0”代表无关标签,这意味着相应的单词与提取结果无关;其他标签类型主要是依据事件类型而定,基本是时间与地点的组合,具体的标签类型如下表所示,其中人物标签为p;标签主要包括三个部分,第一部分为位置信息,使用“BIES”(Begin,Inside,End,Single)符号来表示字符在答案中的位置信息;第二部分为具体的标签类型信息,如出生时间、人物;第三个为关联信息,对于某个类型来说,其可能会有多种答案,如就业经历,同样的,一种答案中会有多个时间、地点等属性信息,则对每种答案中的所有时间、地点等属性信息直接以相同的数值,即所处句中答案的序数来表示;
基于上述的标注结果,关系序列的输出过程具体如下:对于经bert提取的文本和辅助问句特征直接输出到bi-LSTM和CRF网络中,得到最终的序列输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110543510.3A CN113268573A (zh) | 2021-05-19 | 2021-05-19 | 一种学术人才信息的抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110543510.3A CN113268573A (zh) | 2021-05-19 | 2021-05-19 | 一种学术人才信息的抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113268573A true CN113268573A (zh) | 2021-08-17 |
Family
ID=77231670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110543510.3A Pending CN113268573A (zh) | 2021-05-19 | 2021-05-19 | 一种学术人才信息的抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268573A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114996434A (zh) * | 2022-08-08 | 2022-09-02 | 深圳前海环融联易信息科技服务有限公司 | 一种信息抽取方法及装置、存储介质、计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090222395A1 (en) * | 2007-12-21 | 2009-09-03 | Marc Light | Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction |
CN102254014A (zh) * | 2011-07-21 | 2011-11-23 | 华中科技大学 | 一种网页特征自适应的信息抽取方法 |
CN110457696A (zh) * | 2019-07-31 | 2019-11-15 | 福州数据技术研究院有限公司 | 一种面向档案数据的人才与政策智能匹配系统和方法 |
CN110598001A (zh) * | 2019-08-05 | 2019-12-20 | 平安科技(深圳)有限公司 | 联合实体关系抽取方法、装置及存储介质 |
US20200364307A1 (en) * | 2019-05-17 | 2020-11-19 | Raytheon Bbn Technologies Corp. | Cross-lingual information retrieval and information extraction |
CN112131393A (zh) * | 2020-08-11 | 2020-12-25 | 淮阴工学院 | 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法 |
-
2021
- 2021-05-19 CN CN202110543510.3A patent/CN113268573A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090222395A1 (en) * | 2007-12-21 | 2009-09-03 | Marc Light | Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction |
CN102254014A (zh) * | 2011-07-21 | 2011-11-23 | 华中科技大学 | 一种网页特征自适应的信息抽取方法 |
US20200364307A1 (en) * | 2019-05-17 | 2020-11-19 | Raytheon Bbn Technologies Corp. | Cross-lingual information retrieval and information extraction |
CN110457696A (zh) * | 2019-07-31 | 2019-11-15 | 福州数据技术研究院有限公司 | 一种面向档案数据的人才与政策智能匹配系统和方法 |
CN110598001A (zh) * | 2019-08-05 | 2019-12-20 | 平安科技(深圳)有限公司 | 联合实体关系抽取方法、装置及存储介质 |
CN112131393A (zh) * | 2020-08-11 | 2020-12-25 | 淮阴工学院 | 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法 |
Non-Patent Citations (4)
Title |
---|
张秋颖等: "基于BERT-BiLSTM-CRF的学者主页信息抽取", 《计算机应用研究》, 30 June 2020 (2020-06-30) * |
袁莎等: "开放互联网中的学者画像技术综述", 《计算机研究与发展》, no. 09, 15 September 2018 (2018-09-15) * |
阳萍等: "基于BiLSTM模型的定义抽取方法", 《计算机工程》, no. 03, pages 2 - 3 * |
黄辉等: "基于BERT阅读理解框架的司法要素抽取方法", 《大数据》, 2 April 2021 (2021-04-02), pages 3 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114996434A (zh) * | 2022-08-08 | 2022-09-02 | 深圳前海环融联易信息科技服务有限公司 | 一种信息抽取方法及装置、存储介质、计算机设备 |
CN114996434B (zh) * | 2022-08-08 | 2022-11-08 | 深圳前海环融联易信息科技服务有限公司 | 一种信息抽取方法及装置、存储介质、计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN108763326B (zh) | 一种基于特征多样化的卷积神经网络的情感分析模型构建方法 | |
WO2022022163A1 (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
CN105843897B (zh) | 一种面向垂直领域的智能问答系统 | |
CN107967318A (zh) | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 | |
CN109829166B (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
CN111177326A (zh) | 基于精标注文本的关键信息抽取方法、装置及存储介质 | |
CN110134954B (zh) | 一种基于Attention机制的命名实体识别方法 | |
CN111488931A (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN111259141A (zh) | 一种基于多模型融合的社交媒体语料情感分析方法 | |
CN106295245A (zh) | 基于Caffe的堆栈降噪自编码基因信息特征提取的方法 | |
CN108388554A (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN111710428B (zh) | 一种建模全局和局部上下文交互的生物医学文本表示方法 | |
CN112559781B (zh) | 一种图像检索系统和方法 | |
CN113283236B (zh) | 一种复杂中文文本中的实体消歧方法 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN113468887A (zh) | 基于边界与片段分类的学者信息关系抽取方法和系统 | |
CN114328934B (zh) | 一种基于注意力机制的多标签文本分类方法及系统 | |
CN111552773A (zh) | 一种阅读理解任务中是否类问题关键句寻找方法及系统 | |
CN113486645A (zh) | 一种基于深度学习的文本相似度检测方法 | |
CN111680131A (zh) | 基于语义的文档聚类方法、系统及计算机设备 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210817 |