CN113158671A - 一种结合命名实体识别的开放域信息抽取方法 - Google Patents

一种结合命名实体识别的开放域信息抽取方法 Download PDF

Info

Publication number
CN113158671A
CN113158671A CN202110318974.4A CN202110318974A CN113158671A CN 113158671 A CN113158671 A CN 113158671A CN 202110318974 A CN202110318974 A CN 202110318974A CN 113158671 A CN113158671 A CN 113158671A
Authority
CN
China
Prior art keywords
triple
predicate
named entity
sequence
extractor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110318974.4A
Other languages
English (en)
Other versions
CN113158671B (zh
Inventor
胡明昊
罗威
谭玉珊
罗准辰
田昌海
叶宇铭
毛彬
宋宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Military Science Information Research Center Of Military Academy Of Chinese Pla
Original Assignee
Military Science Information Research Center Of Military Academy Of Chinese Pla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Military Science Information Research Center Of Military Academy Of Chinese Pla filed Critical Military Science Information Research Center Of Military Academy Of Chinese Pla
Priority to CN202110318974.4A priority Critical patent/CN113158671B/zh
Publication of CN113158671A publication Critical patent/CN113158671A/zh
Application granted granted Critical
Publication of CN113158671B publication Critical patent/CN113158671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种结合命名实体识别的开放域信息抽取方法,所述方法包括:将待抽取的句子输入预先建立和训练好的三元组谓词抽取器,输出谓词短语;将谓词短语和待抽取的句子输入预先建立和训练好的三元组要素抽取器,输出三元组要素短语的位置;三元组要素包括:主语、宾语及定语;将三元组要素抽取器中获取的序列隐状态表示和三元组要素短语的位置,输入预先建立和训练好的命名实体识别器,输出三元组要素短语的命名实体类别;其中,三元组谓词抽取器用于抽取输入句子中出现的三元组涉及的谓词;三元组要素抽取器用于抽取输入句子中出现的三元组涉及的要素短语;命名实体识别器用于识别三元组要素短语的命名实体类别。

Description

一种结合命名实体识别的开放域信息抽取方法
技术领域
本发明涉及信息抽取技术领域,具体涉及一种结合命名实体识别的开放域信息抽取方法。
背景技术
开放域信息抽取是指从非结构化文本数据中抽取由关系短语和要素短语构成的结构化三元组。比如在句子“Barack Obama,a former U.S president,was born inHawaii.”中,“was born in”是一个三元组的谓词短语,而“Barack Obama”和“Hawaii”为该三元组的要素短语。开放域信息抽取是涉及知识图谱构建的重要任务,可以进一步应用到文本蕴含、自动问答等领域。目前,开放域信息抽取方法仅支持从给定句子中抽取三元组信息,而无法有效获得三元组中要素短语的命名实体类型,比如在上例中,系统无法得知“Barack Obama”是人名而“Hawaii”是地名。相比于传统开放域信息抽取,结合命名实体识别的开放域信息抽取能提供额外的命名实体类别信息,这对于知识图谱构建大有裨益,其实现也更具挑战。
面对这一挑战,一种常见做法是构建结合开放域信息抽取和命名实体识别的流水线系统。然而,流水线系统通常面临误差累积问题,即两个模型的预测误差存在相互叠加后放大的现象。为应对这一问题,一种常见做法是设计端到端的模型来联合开放域信息抽取和命名实体识别两种任务。然而,据我们所知,目前尚没有公开发表的工作进行这方面的研究。
此外,传统的基于序列标注的开放域信息抽取方法无法有效应对嵌套三元组的情况。例如在句子“Rather ominously,rabbit studies reveal that RU-486can causebirth defects.”中,其中一个三元组为(“studies”、“reveal”、“that RU-486can causebirth defects”),而另一个三元组嵌套在第一个三元组中,为(“RU-486”、“cause”、“birthdefects”),此时单词如“RU-486”、“cause”等拥有多个BIO标签,而序列标注方法无法同时输出多个标签。因此,如何有效解决嵌套三元组抽取问题也是一大挑战。
发明内容
本发明的目的在于克服现有基于序列标注的流水线式方法存在的误差累积、嵌套三元组抽取精度低的缺陷,提出一种联合开放域信息抽取及命名实体识别的方法,
为了实现上述目的,本发明提出了一种结合命名实体识别的开放域信息抽取方法,所述方法包括:
将待抽取的句子输入预先建立和训练好的三元组谓词抽取器,输出谓词短语;
将谓词短语和待抽取的句子输入预先建立和训练好的三元组要素抽取器,输出三元组要素短语的位置;三元组要素包括:主语、宾语及定语;
将三元组要素抽取器中获取的序列隐状态表示和三元组要素短语的位置,输入预先建立和训练好的命名实体识别器,输出三元组要素短语的命名实体类别;
其中,三元组谓词抽取器用于抽取输入句子中出现的三元组涉及的谓词,三元组谓词抽取器单独进行训练,三元组要素抽取器用于抽取输入句子中出现的三元组涉及的要素短语;命名实体识别器用于识别三元组要素短语的命名实体类别;三元组要素抽取器和命名实体识别器联合进行训练。
作为上述方法的一种改进,所述三元组谓词抽取器包括:第一预处理模块、第一预训练语言模型和条件随机场层,第一预训练语言模型包含L个依次连接的预训练Transformer块;
所述第一预处理模块,用于将输入句子转换为第一输入序列:<[CLS],Tok1,Tok2,…,Tokn,[SEP]>,其中,[CLS]和[SEP]均为特殊符号,Tok1,Tok2,…,Tokn为输入句子中包含n个字符;然后获得第一输入序列的预训练的词嵌入表示H0,该词嵌入表示H0为字符嵌入、位置嵌入和分段嵌入之和,将词嵌入表示H0输入第一预训练语言模型;
所述第一预训练语言模型,用于利用L个预训练Transformer块对输入的词嵌入表示H0依次进行编码:
Figure BDA0002992391270000021
其中,Hi为第i个Transformer块输出的第一序列隐状态表示,TransformerBlock()表示Transformer函数;
将第L个Transformer块输出的第一序列隐状态表示HL输入条件随机场层;
所述条件随机场层,用于对第一序列隐状态表示HL进行预测,输出每个字符在BIO标签体系下的概率分布YP,YP是一个维度为(n+2)×3的概率分布,对该概率分布进行解码,可以得到第一输入序列的BIO预测标签,进而获得预测的谓词短语。
作为上述方法的一种改进,所述方法还包括:对三元组谓词抽取器进行训练的步骤;具体包括:
步骤101)收集领域相关文本,按照BIO标签体系标注文本中出现的三元组谓词短语,得到三元组谓词抽取训练样本;
步骤102)第一预处理模块对输入的三元组谓词抽取训练样本的句子进行预处理,输出词嵌入表示;
步骤103)第一预训练语言模型对词嵌入表示输入进行编码,输出第一序列隐状态表示HL
步骤104)条件随机场层基于第一序列隐状态表示HL预测单词的谓词标签;
步骤105)通过预测的谓词标签与步骤101)标注的真实三元组谓词短语,计算交叉熵损失函数
Figure BDA0002992391270000031
连同第一预训练语言模型一起进行微调,以训练三元组谓词抽取器。
作为上述方法的一种改进,所述三元组要素抽取器包含第二预处理模块、第二预训练语言模型和多头指针网络;第二预训练语言模型包含L个依次连接的预训练Transformer块;所述三头指针网络包括三个头指针;
所述第二预处理模块,用于将输入句子和抽取的谓词短语拼接为第二输入序列:<[CLS],tok1,…,tokm,[SEP],Tok1,Tok2,…,Tokn,[SEP]>,其中谓词短语包含m个字符:tok1,…,tokm,输入句子包含n个字符:Tok1,Tok2,…,Tokn;然后获得第二输入序列的词嵌入表示
Figure BDA0002992391270000032
并输入第二预训练语言模型;
所述第二预训练语言模型,用于利用L个预训练Transformer块对输入的词嵌入表示
Figure BDA0002992391270000033
依次进行编码:
Figure BDA0002992391270000034
其中,
Figure BDA0002992391270000035
为第i个Transformer块输出的第二序列隐状态表示;
将第L个Transformer块输出的第二序列隐状态表示
Figure BDA0002992391270000036
输入三头指针网络;
所述三头指针网络,用于分别利用三个头指针预测三元组要素在输入序列中位置,其中第j个头指针输出两组概率分布
Figure BDA0002992391270000037
Figure BDA0002992391270000038
为:
Figure BDA0002992391270000039
Figure BDA00029923912700000310
其中,
Figure BDA00029923912700000311
Figure BDA00029923912700000312
为维度是1×d的可训练参数,d表示隐状态维度,
Figure BDA00029923912700000313
用于计算向量X=(x1,x2...xK)的概率分布,j=1,2,3;
通过取
Figure BDA0002992391270000041
Figure BDA0002992391270000042
中得分最大的位置,即可预测第j个要素在第二输入序列中的开始位置sj和结束位置ej
作为上述方法的一种改进,所述命名实体识别器包括:自注意力加权模块和感知机分类器:
所述自注意力加权模块,用于根据三元组要素抽取器的第二预训练语言模型输出的第二序列隐状态表示
Figure BDA0002992391270000043
以及第j个要素在第二输入序列中的开始位置sj和结束位置ej,计算第j个要素的自注意力概率分布aj
Figure BDA0002992391270000044
其中,Wa为维度是1×d的可训练参数;
然后计算基于该自注意力分布的第j个要素加权和作为第j个要素隐状态表示
Figure BDA0002992391270000045
Figure BDA0002992391270000046
Figure BDA0002992391270000047
输入感知机分类器;
所述感知机分类器,用于输出第j个要素的命名实体类别概率分布
Figure BDA0002992391270000048
Figure BDA0002992391270000049
其中,Wc为维度是c×d的可训练参数,c表示命名实体类别个数;
Figure BDA00029923912700000410
中得分最大对应的实体类型,即是预测的要素实体类别。
作为上述方法的一种改进,所述方法还包括:对三元组要素抽取器和命名实体识别器进行联合训练的步骤;具体包括:
步骤201)在三元组谓词抽取训练样本基础上,额外标注要素短语的位置以及要素短语的命名实体类型,得到联合训练样本;
步骤202)三元组要素抽取器的第二预处理模块对输入的三元组谓词抽取训练样本的句子及其真实谓词短语进行预处理,输出词嵌入表示;
步骤203)第二预训练语言模型对输入的词嵌入表示进行编码,得到序列隐状态表示,分别输出至三元组要素抽取器的三头指针网络和命名实体识别器的自注意力加权模块;
步骤204)三头指针网络基于序列隐状态表示,预测三元组要素短语在句子中位置;
步骤205)通过预测的三元组要素短语在句子中位置和步骤201)标注的真实要素短语位置,计算交叉熵损失函数
Figure BDA0002992391270000051
步骤206)自注意力加权模块基于标注的要素短语位置和序列隐状态表示,计算并输出标注的要素短语的隐状态表示;
步骤207)感知机分类器基于要素短语的隐状态表示,预测要素的命名实体类别;
步骤208)通过预测的要素的命名实体类别与步骤201)标注的真实命名实体类型,计算交叉熵损失函数
Figure BDA0002992391270000052
步骤209)计算总损失函数
Figure BDA0002992391270000053
连同第二预训练语言模型一起进行微调,由此联合训练三元组要素抽取器和命名实体识别器。
本发明的技术优势在于:
1、本发明的方法针对流水线方法中存在的误差累积问题,通过复用要素抽取的隐状态表示来同时进行要素抽取和命名实体识别,有效地提高了命名实体识别任务的精确度,并缩短了训练和推理时间;
2、本发明的方法设计了一个基于神经网络的谓词抽取器,相比于传统基于词性标注的方法,本方法在谓词抽取上的性能更佳;
3、本发明的方法通过使用多头指针网络来预测要素在原文中位置,有效克服了嵌套三元组抽取问题,相比于使用序列标注的传统抽取方法,有效提高了三元组抽取的准确率和召回率。
附图说明
图1为本发明的结合命名实体识别的开放域信息抽取方法的示意图;
图2为本发明的三元组谓词抽取器结构图;
图3为本发明的三元组要素抽取器结构图;
图4为本发明的命名实体识别器结构图;
图5为本发明的三元组谓词抽取器、三元组要素抽取器以及命名实体识别器训练过程的流程图。
具体实施方式
下面结合附图对本发明做进一步详细的说明。
如图1所示,本发明提出的一种结合命名实体识别的开放域信息抽取方法,包括:用于抽取输入文本中出现的谓词短语的三元组谓词抽取器、用于抽取输入文本中出现的三元组要素短语的三元组要素抽取器,以及用于识别三元组要素实体类别的命名实体识别器。三元组谓词抽取器的输出为三元组要素抽取器的输入,三元组要素抽取器的输出为要素命名实体识别器的输入;三元组谓词抽取器输出谓词短语,三元组要素抽取器输出三元组要素短语(主语、宾语和定语),要素命名实体识别器输出三元组要素的实体类别。
该方法包括以下步骤:
步骤1)将待抽取的句子输入三元组谓词抽取器,输出谓词短语;
如图2所示,三元组谓词抽取器包括:第一预处理模块、第一预训练语言模型和条件随机场层,第一预训练语言模型包含L个依次连接的预训练Transformer块;
第一预处理模块,用于将输入句子转换为第一输入序列:<[CLS],Tok1,Tok2,…,Tokn,[SEP]>,其中,[CLS]和[SEP]均为特殊符号,Tok1,Tok2,…,Tokn为输入句子中包含n个字符;然后获得第一输入序列的预训练的词嵌入表示H0,该词嵌入表示H0为字符嵌入、位置嵌入和分段嵌入之和,将词嵌入表示H0输入第一预训练语言模型;
第一预训练语言模型,用于利用L个预训练Transformer块对输入的词嵌入表示H0依次进行编码:
Figure BDA0002992391270000061
其中,Hi为第i个Transformer块输出的第一序列隐状态表示,TransformerBlock()表示Transformer函数;
将第L个Transformer块输出的第一序列隐状态表示HL输入条件随机场层;
条件随机场层,用于对第一序列隐状态表示HL进行预测,输出每个字符在BIO标签体系下的概率分布YP,YP是一个维度为(n+2)×3的概率分布,对该概率分布进行解码,可以得到第一输入序列的BIO预测标签,进而获得预测的谓词短语。
步骤2)将谓词短语和待抽取的句子输入三元组要素抽取器,输出到三元组要素短语的位置;
如图3所示,三元组要素抽取器包含第二预处理模块、第二预训练语言模型和多头指针网络;第二预训练语言模型包含L个依次连接的预训练Transformer块;三头指针网络包括三个头指针;
第二预处理模块,用于将输入句子和抽取的谓词短语拼接为第二输入序列:<[CLS],tok1,…,tokm,[SEP],Tok1,Tok2,…,Tokn,[SEP]>,其中谓词短语包含m个字符:tok1,…,tokm,输入句子包含n个字符:Tok1,Tok2,…,Tokn;然后获得第二输入序列的词嵌入表示
Figure BDA0002992391270000071
并输入第二预训练语言模型;
第二预训练语言模型,用于利用L个预训练Transformer块对输入的词嵌入表示
Figure BDA0002992391270000072
依次进行编码:
Figure BDA0002992391270000073
其中,
Figure BDA0002992391270000074
为第i个Transformer块输出的第二序列隐状态表示;
将第L个Transformer块输出的第二序列隐状态表示
Figure BDA0002992391270000075
输入三头指针网络;
三头指针网络,用于分别利用三个头指针预测三元组要素在输入序列中位置,其中第j个头指针输出两组概率分布
Figure BDA0002992391270000076
Figure BDA0002992391270000077
为:
Figure BDA0002992391270000078
Figure BDA0002992391270000079
其中,
Figure BDA00029923912700000710
Figure BDA00029923912700000711
为维度是1×d的可训练参数,d表示隐状态维度,
Figure BDA00029923912700000712
用于计算向量X=(x1,x2...xK)的概率分布,j=1,2,3;
通过取
Figure BDA00029923912700000713
Figure BDA00029923912700000714
中得分最大的位置,即可预测第j个要素在第二输入序列中的开始位置sj和结束位置ej
步骤3)将三元组要素抽取器中获取的序列隐状态表示和三元组要素的短语位置,输入命名实体识别器,得到要素短语的命名实体类别。
如图4所示,命名实体识别器包括:自注意力加权模块和感知机分类器:
自注意力加权模块,用于根据三元组要素抽取器的第二预训练语言模型输出的第二序列隐状态表示
Figure BDA00029923912700000715
以及第j个要素在第二输入序列中的开始位置sj和结束位置ej,计算第j个要素的自注意力概率分布aj
Figure BDA00029923912700000716
其中,Wa为维度是1×d的可训练参数;
然后计算基于该自注意力分布的第j个要素加权和作为第j个要素隐状态表示
Figure BDA0002992391270000081
Figure BDA0002992391270000082
Figure BDA0002992391270000083
输入感知机分类器;
感知机分类器,用于输出第j个要素的命名实体类别概率分布
Figure BDA0002992391270000084
Figure BDA0002992391270000085
其中,Wc为维度是c×d的可训练参数,c表示命名实体类别个数;
Figure BDA0002992391270000086
中得分最大对应的实体类型,即是预测的要素实体类别。
如图5所示,对三元组谓词抽取器、三元组要素抽取器以及命名实体识别器进行训练的主要步骤包括:
步骤S1)训练三元组谓词抽取器,用于抽取输入文本中出现的三元组涉及的谓词,具体包括如下步骤:
首先确定输入数据源,数据源为军事类动态新闻中文文本,收集领域内文本后,按照BIO标准格式标注文本中出现的三元组谓词短语,以句子“尼米兹号航母全长332.8米”为例,标注后如表1所示:其中B-P表示谓词起始词、I-P表示谓词非起始词、O表示不属于三元组的其他词。
表1
332
O O O O B-P I-P O O O
标注完毕后,对输入句的开头和结尾拼接特殊符号[CLS]和[SEP]以转换为输入序列<[CLS]、输入句、[SEP]>,使用预训练语言模型对输入序列编码,获得输入序列的隐状态表示。基于该表示,使用条件随机场(CRF)层来预测单词的BIO标签,与真实标签计算交叉熵损失函数,最后基于该损失函数训练三元组谓词抽取器。
步骤S2)对三元组要素抽取器和命名实体识别器进行联合训练的步骤;三元组要素抽取器,用于抽取输入文本中出现的三元组涉及的要素;命名实体识别器,用于识别三元组要素短语的命名实体类别;
步骤S2-1)在三元组谓词抽取训练样本基础上,额外标注要素短语的位置以及要素短语的命名实体类型,得到联合训练样本;
在前期标注数据基础上,继续按照BIO标准格式标注谓词对应的三元组要素短语,以上例中句子为例,谓词“全长”对应的要素短语标注后如表2所示:其中B-A0表示要素主体起始词、I-A0表示要素主体非起始词、B-A1表示要素客体起始词、I-A1表示要素客体非起始词、O表示不属于三元组的其他词。
表2
332
B-A0 I-A0 I-A0 I-A0 O O B-A1 B-A1 O
在前期标注数据基础上,额外标注要素短语的命名实体类型,以上例中句子为例,主体“尼米兹号”对应的实体类型应是谓词“舰艇”。本发明所涉及的实体类型如表3所示:
表3
命名实体类型 说明
生产厂商 武器装备的生产厂商类机构实体
隶属单位 武器装备的隶属单位类机构实体
武器 包括枪支、弹药、导弹等
设备 包括通信设备、电子战设备等
车辆 包括坦克、战车、无人车等
飞机 包括战斗机、轰炸机、无人机等
舰艇 包括航母、驱逐舰、潜艇等
人员 人员类实体
国家 国家类实体
时间 时间类实体
地点 地点类实体
步骤S2-2)三元组要素抽取器的第二预处理模块对输入的三元组谓词抽取训练样本的句子及其真实谓词短语进行预处理,输出词嵌入表示;
步骤S2-3)第二预训练语言模型对输入的词嵌入表示进行编码,得到序列隐状态表示,分别输出至三元组要素抽取器的三头指针网络和命名实体识别器的自注意力加权模块;
步骤S2-4)三头指针网络基于序列隐状态表示,预测三元组要素短语在句子中位置;
步骤S2-5)通过预测的三元组要素短语在句子中位置和步骤S2-1)标注的真实要素短语位置,计算交叉熵损失函数
Figure BDA0002992391270000101
步骤S2-6)自注意力加权模块基于标注的要素短语位置和序列隐状态表示,计算并输出标注的要素短语的隐状态表示;
步骤S2-7感知机分类器基于要素短语的隐状态表示,预测要素的命名实体类别;
步骤S2-8)通过预测的要素的命名实体类别与步骤S2-1)标注的真实命名实体类型,计算交叉熵损失函数
Figure BDA0002992391270000102
步骤S2-9)计算总损失函数
Figure BDA0002992391270000103
连同第二预训练语言模型一起进行微调,由此联合训练三元组要素抽取器和命名实体识别器。
本发明的技术创新点主要包括:
1、本发明设计了一个基于神经网络的三元组谓词抽取器,可能的替换方案是使用基于词性标注的谓词抽取器。
2、本发明设计了一个基于多头指针网络的三元组要素抽取器,可能的替换方案是使用基于序列标注的要素抽取器。
3、本发明设计了一个复用隐状态表示的要素命名实体识别器,可能的替换方案是使用基于序列标注的命名实体识别器。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种结合命名实体识别的开放域信息抽取方法,所述方法包括:
将待抽取的句子输入预先建立和训练好的三元组谓词抽取器,输出谓词短语;
将谓词短语和待抽取的句子输入预先建立和训练好的三元组要素抽取器,输出三元组要素短语的位置;三元组要素包括:主语、宾语及定语;
将三元组要素抽取器中获取的序列隐状态表示和三元组要素短语的位置,输入预先建立和训练好的命名实体识别器,输出三元组要素短语的命名实体类别;
其中,三元组谓词抽取器用于抽取输入句子中出现的三元组涉及的谓词,三元组谓词抽取器单独进行训练,三元组要素抽取器用于抽取输入句子中出现的三元组涉及的要素短语;命名实体识别器用于识别三元组要素短语的命名实体类别;三元组要素抽取器和命名实体识别器联合进行训练。
2.根据权利要求1所述的结合命名实体识别的开放域信息抽取方法,其特征在于,所述三元组谓词抽取器包括:第一预处理模块、第一预训练语言模型和条件随机场层,第一预训练语言模型包含L个依次连接的预训练Transformer块;
所述第一预处理模块,用于将输入句子转换为第一输入序列:<[CLS],Tok1,Tok2,…,Tokn,[SEP]>,其中,[CLS]和[SEP]均为特殊符号,Tok1,Tok2,…,Tokn为输入句子中包含的n个字符;然后获得第一输入序列的预训练词嵌入表示H0,该词嵌入表示H0为字符嵌入、位置嵌入和分段嵌入之和,将词嵌入表示H0输入第一预训练语言模型;
所述第一预训练语言模型,用于利用L个预训练的Transformer块对输入的词嵌入表示H0依次进行编码:
Figure FDA0002992391260000011
其中,Hi为第i个Transformer块输出的第一序列隐状态表示,TransformerBlock()表示Transformer函数;
将第L个Transformer块输出的第一序列隐状态表示HL输入条件随机场层;
所述条件随机场层,用于对第一序列隐状态表示HL进行预测,输出每个字符在BIO标签体系下的概率分布YP,YP是一个维度为(n+2)×3的概率分布,对该概率分布进行解码,可以得到第一输入序列的BIO预测标签,进而获得预测的谓词短语。
3.根据权利要求2所述的结合命名实体识别的开放域信息抽取方法,其特征在于,所述方法还包括:对三元组谓词抽取器进行训练的步骤;具体包括:
步骤101)收集领域相关文本,按照BIO标签体系标注文本中出现的三元组谓词短语,得到三元组谓词抽取训练样本;
步骤102)第一预处理模块对输入的三元组谓词抽取训练样本的句子进行预处理,输出词嵌入表示;
步骤103)第一预训练语言模型对词嵌入表示输入进行编码,输出第一序列隐状态表示HL
步骤104)条件随机场层基于第一序列隐状态表示HL预测单词的谓词标签;
步骤105)通过预测的谓词标签与步骤101)标注的真实三元组谓词短语,计算交叉熵损失函数
Figure FDA0002992391260000021
连同第一预训练语言模型一起进行微调,以训练三元组谓词抽取器。
4.根据权利要求3所述的结合命名实体识别的开放域信息抽取方法,其特征在于,所述三元组要素抽取器包含第二预处理模块、第二预训练语言模型和多头指针网络;第二预训练语言模型包含L个依次连接的预训练Transformer块;所述三头指针网络包括三个头指针;
所述第二预处理模块,用于将输入句子和抽取的谓词短语拼接为第二输入序列:<[CLS],tok1,…,tokm,[SEP],Tok1,Tok2,…,Tokn,[SEP]>,其中谓词短语包含m个字符:tok1,…,tokm,输入句子包含n个字符:Tok1,Tok2,…,Tokn;然后获得第二输入序列的词嵌入表示
Figure FDA0002992391260000022
并输入第二预训练语言模型;
所述第二预训练语言模型,用于利用L个预训练的Transformer块对输入的词嵌入表示
Figure FDA0002992391260000023
依次进行编码:
Figure FDA0002992391260000024
其中,
Figure FDA0002992391260000025
为第i个Transformer块输出的第二序列隐状态表示;
将第L个Transformer块输出的第二序列隐状态表示
Figure FDA0002992391260000026
输入三头指针网络;
所述三头指针网络,用于分别利用三个头指针预测三元组要素在输入序列中位置,其中第j个头指针输出两组概率分布
Figure FDA0002992391260000027
Figure FDA0002992391260000028
为:
Figure FDA0002992391260000029
Figure FDA00029923912600000210
其中,
Figure FDA00029923912600000211
Figure FDA00029923912600000212
为维度是1×d的可训练参数,d表示隐状态维度,
Figure FDA0002992391260000031
用于计算向量X=(x1,x2...xK)的概率分布,j=1,2,3;
通过取
Figure FDA0002992391260000032
Figure FDA0002992391260000033
中得分最大的位置,即可预测第j个要素在第二输入序列中的开始位置sj和结束位置ej
5.根据权利要求4所述的结合命名实体识别的开放域信息抽取方法,其特征在于,所述命名实体识别器包括:自注意力加权模块和感知机分类器:
所述自注意力加权模块,用于根据三元组要素抽取器的第二预训练语言模型输出的第二序列隐状态表示
Figure FDA0002992391260000034
以及第j个要素在第二输入序列中的开始位置sj和结束位置ej,计算第j个要素的自注意力概率分布aj
Figure FDA0002992391260000035
其中,Wa为维度是1×d的可训练参数;
然后计算基于该自注意力分布的第j个要素加权和作为第j个要素隐状态表示
Figure FDA0002992391260000036
Figure FDA0002992391260000037
Figure FDA0002992391260000038
输入感知机分类器;
所述感知机分类器,用于输出第j个要素的命名实体类别概率分布
Figure FDA0002992391260000039
Figure FDA00029923912600000310
其中,Wc为维度是c×d的可训练参数,c表示命名实体类别个数;
Figure FDA00029923912600000311
中得分最大对应的实体类型,即是预测的要素实体类别。
6.根据权利要求5所述的结合命名实体识别的开放域信息抽取方法,其特征在于,所述方法还包括:对三元组要素抽取器和命名实体识别器进行联合训练的步骤;具体包括:
步骤201)在三元组谓词抽取训练样本基础上,额外标注要素短语的位置以及要素短语的命名实体类型,得到联合训练样本;
步骤202)三元组要素抽取器的第二预处理模块对输入的三元组谓词抽取训练样本的句子及其真实谓词短语进行预处理,输出词嵌入表示;
步骤203)第二预训练语言模型对输入的词嵌入表示进行编码,得到序列隐状态表示,分别输出至三元组要素抽取器的三头指针网络和命名实体识别器的自注意力加权模块;
步骤204)三头指针网络基于序列隐状态表示,预测三元组要素短语在句子中位置;
步骤205)通过预测的三元组要素短语在句子中位置和步骤201)标注的真实要素短语位置,计算交叉熵损失函数
Figure FDA0002992391260000041
步骤206)自注意力加权模块基于标注的要素短语位置和序列隐状态表示,计算并输出标注的要素短语的隐状态表示;
步骤207)感知机分类器基于要素短语的隐状态表示,预测要素的命名实体类别;
步骤208)通过预测的要素的命名实体类别与步骤201)标注的真实命名实体类型,计算交叉熵损失函数
Figure FDA0002992391260000042
步骤209)计算总损失函数
Figure FDA0002992391260000043
连同第二预训练语言模型一起进行微调,由此联合训练三元组要素抽取器和命名实体识别器。
CN202110318974.4A 2021-03-25 2021-03-25 一种结合命名实体识别的开放域信息抽取方法 Active CN113158671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110318974.4A CN113158671B (zh) 2021-03-25 2021-03-25 一种结合命名实体识别的开放域信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110318974.4A CN113158671B (zh) 2021-03-25 2021-03-25 一种结合命名实体识别的开放域信息抽取方法

Publications (2)

Publication Number Publication Date
CN113158671A true CN113158671A (zh) 2021-07-23
CN113158671B CN113158671B (zh) 2023-08-11

Family

ID=76884869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110318974.4A Active CN113158671B (zh) 2021-03-25 2021-03-25 一种结合命名实体识别的开放域信息抽取方法

Country Status (1)

Country Link
CN (1) CN113158671B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486667A (zh) * 2021-07-26 2021-10-08 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113705196A (zh) * 2021-08-02 2021-11-26 清华大学 基于图神经网络的中文开放信息抽取方法和装置
CN114722822A (zh) * 2022-03-22 2022-07-08 平安科技(深圳)有限公司 命名实体识别方法、装置、设备和计算机可读存储介质

Citations (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
US20140156264A1 (en) * 2012-11-19 2014-06-05 University of Washington through it Center for Commercialization Open language learning for information extraction
CN103870489A (zh) * 2012-12-13 2014-06-18 北京信息科技大学 基于搜索日志的中文人名自扩展识别方法
CN104463552A (zh) * 2013-09-22 2015-03-25 中国电信股份有限公司 日历提醒生成方法和装置
WO2017119060A1 (ja) * 2016-01-05 2017-07-13 株式会社日立製作所 情報提示システム
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
CN107766585A (zh) * 2017-12-07 2018-03-06 中国科学院电子学研究所苏州研究院 一种面向社交网络的特定事件抽取方法
CN107766322A (zh) * 2017-08-31 2018-03-06 平安科技(深圳)有限公司 同名实体识别方法、电子设备及计算机可读存储介质
CN107818141A (zh) * 2017-10-10 2018-03-20 大连理工大学 融入结构化要素识别的生物医学事件抽取方法
CN108763321A (zh) * 2018-05-02 2018-11-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
US20190012377A1 (en) * 2017-07-05 2019-01-10 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for generating text tag
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
WO2019172849A1 (en) * 2018-03-06 2019-09-12 Agency For Science, Technology And Research Method and system for generating a structured knowledge data for a text
CN110674639A (zh) * 2019-09-24 2020-01-10 拾音智能科技有限公司 一种基于预训练模型的自然语言理解方法
CN111061832A (zh) * 2019-12-05 2020-04-24 电子科技大学广东电子信息工程研究院 基于开放域信息抽取的人物行为抽取方法
CN111291185A (zh) * 2020-01-21 2020-06-16 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN111310471A (zh) * 2020-01-19 2020-06-19 陕西师范大学 一种基于bblc模型的旅游命名实体识别方法
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法
CN111488467A (zh) * 2020-04-30 2020-08-04 北京建筑大学 地理知识图谱的构建方法、装置、存储介质及计算机设备
CN111563383A (zh) * 2020-04-09 2020-08-21 华南理工大学 一种基于BERT与SemiCRF的中文命名实体识别方法
CN112270193A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 基于bert-flat的中文命名实体识别方法
CN112307336A (zh) * 2020-10-30 2021-02-02 中国平安人寿保险股份有限公司 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN112487171A (zh) * 2020-12-15 2021-03-12 中国人民解放军国防科技大学 一种开放域下的事件抽取系统和方法

Patent Citations (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156264A1 (en) * 2012-11-19 2014-06-05 University of Washington through it Center for Commercialization Open language learning for information extraction
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN103870489A (zh) * 2012-12-13 2014-06-18 北京信息科技大学 基于搜索日志的中文人名自扩展识别方法
CN104463552A (zh) * 2013-09-22 2015-03-25 中国电信股份有限公司 日历提醒生成方法和装置
WO2017119060A1 (ja) * 2016-01-05 2017-07-13 株式会社日立製作所 情報提示システム
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
US20190012377A1 (en) * 2017-07-05 2019-01-10 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for generating text tag
CN107766322A (zh) * 2017-08-31 2018-03-06 平安科技(深圳)有限公司 同名实体识别方法、电子设备及计算机可读存储介质
CN107818141A (zh) * 2017-10-10 2018-03-20 大连理工大学 融入结构化要素识别的生物医学事件抽取方法
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN107766585A (zh) * 2017-12-07 2018-03-06 中国科学院电子学研究所苏州研究院 一种面向社交网络的特定事件抽取方法
WO2019172849A1 (en) * 2018-03-06 2019-09-12 Agency For Science, Technology And Research Method and system for generating a structured knowledge data for a text
CN108763321A (zh) * 2018-05-02 2018-11-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110674639A (zh) * 2019-09-24 2020-01-10 拾音智能科技有限公司 一种基于预训练模型的自然语言理解方法
CN111061832A (zh) * 2019-12-05 2020-04-24 电子科技大学广东电子信息工程研究院 基于开放域信息抽取的人物行为抽取方法
CN111310471A (zh) * 2020-01-19 2020-06-19 陕西师范大学 一种基于bblc模型的旅游命名实体识别方法
CN111291185A (zh) * 2020-01-21 2020-06-16 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法
CN111563383A (zh) * 2020-04-09 2020-08-21 华南理工大学 一种基于BERT与SemiCRF的中文命名实体识别方法
CN111488467A (zh) * 2020-04-30 2020-08-04 北京建筑大学 地理知识图谱的构建方法、装置、存储介质及计算机设备
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN112307336A (zh) * 2020-10-30 2021-02-02 中国平安人寿保险股份有限公司 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN112270193A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 基于bert-flat的中文命名实体识别方法
CN112487171A (zh) * 2020-12-15 2021-03-12 中国人民解放军国防科技大学 一种开放域下的事件抽取系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FANG MIAO; HUIXIN LIU; BO MIAO; CHENMING LIU: "Open domain news text relationship extraction based on dependency syntax", 《 2018 IEEE INTERNATIONAL CONFERENCE OF SAFETY PRODUCE INFORMATIZATION》, pages 310 - 314 *
曾道建;来斯惟;张元哲;刘康;赵军;: "面向非结构化文本的开放式实体属性抽取", 江西师范大学学报(自然科学版), no. 03 *
熊蕊;吴晨生;赵桂芬;: "人物相关会议信息抽取系统设计及实现", 情报杂志, no. 07 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486667A (zh) * 2021-07-26 2021-10-08 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113486667B (zh) * 2021-07-26 2024-03-05 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113705196A (zh) * 2021-08-02 2021-11-26 清华大学 基于图神经网络的中文开放信息抽取方法和装置
CN114722822A (zh) * 2022-03-22 2022-07-08 平安科技(深圳)有限公司 命名实体识别方法、装置、设备和计算机可读存储介质
CN114722822B (zh) * 2022-03-22 2024-01-19 平安科技(深圳)有限公司 命名实体识别方法、装置、设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN113158671B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN109933795B (zh) 基于上下文-情感词向量的文本情感分析系统
US11501182B2 (en) Method and apparatus for generating model
CN108334487B (zh) 缺失语意信息补全方法、装置、计算机设备和存储介质
CN113158671A (zh) 一种结合命名实体识别的开放域信息抽取方法
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
Rahman et al. Personality detection from text using convolutional neural network
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
Svoboda et al. New word analogy corpus for exploring embeddings of Czech words
CN107797987A (zh) 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法
CN107977353A (zh) 一种基于lstm-cnn的混合语料命名实体识别方法
Xiao et al. Context-aware multi-view attention networks for emotion cause extraction
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN113012822A (zh) 一种基于生成式对话技术的医疗问答系统
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN115455167A (zh) 一种基于知识引导的地理考题生成方法和装置
CN111914553A (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN113935459B (zh) 一种基于bert的深度神经网络模型的自动评卷方法
Qin et al. Modularized Pre-training for End-to-end Task-oriented Dialogue
CN111914084A (zh) 一种基于深度学习的带有情感标签文本生成及评估系统
CN116187304A (zh) 一种基于改进bert的自动文本纠错算法及系统
Obaid et al. Data-mining based novel neural-networks-hierarchical attention structures for obtaining an optimal efficiency
CN116028608A (zh) 问答交互方法、装置、计算机设备及可读存储介质
CN114911906A (zh) 一种基于杂合神经网络的方面级情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant