CN113158671B - 一种结合命名实体识别的开放域信息抽取方法 - Google Patents
一种结合命名实体识别的开放域信息抽取方法 Download PDFInfo
- Publication number
- CN113158671B CN113158671B CN202110318974.4A CN202110318974A CN113158671B CN 113158671 B CN113158671 B CN 113158671B CN 202110318974 A CN202110318974 A CN 202110318974A CN 113158671 B CN113158671 B CN 113158671B
- Authority
- CN
- China
- Prior art keywords
- sequence
- predicate
- named entity
- training
- extractor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims description 32
- 238000009826 distribution Methods 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 12
- 230000006872 improvement Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 208000032170 Congenital Abnormalities Diseases 0.000 description 2
- 206010010356 Congenital anomaly Diseases 0.000 description 2
- 230000007698 birth defect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种结合命名实体识别的开放域信息抽取方法,所述方法包括:将待抽取的句子输入预先建立和训练好的三元组谓词抽取器,输出谓词短语;将谓词短语和待抽取的句子输入预先建立和训练好的三元组要素抽取器,输出三元组要素短语的位置;三元组要素包括:主语、宾语及定语;将三元组要素抽取器中获取的序列隐状态表示和三元组要素短语的位置,输入预先建立和训练好的命名实体识别器,输出三元组要素短语的命名实体类别;其中,三元组谓词抽取器用于抽取输入句子中出现的三元组涉及的谓词;三元组要素抽取器用于抽取输入句子中出现的三元组涉及的要素短语;命名实体识别器用于识别三元组要素短语的命名实体类别。
Description
技术领域
本发明涉及信息抽取技术领域,具体涉及一种结合命名实体识别的开放域信息抽取方法。
背景技术
开放域信息抽取是指从非结构化文本数据中抽取由关系短语和要素短语构成的结构化三元组。开放域信息抽取是涉及知识图谱构建的重要任务,可以进一步应用到文本蕴含、自动问答等领域。目前,开放域信息抽取方法仅支持从给定句子中抽取三元组信息,而无法有效获得三元组中要素短语的命名实体类型。相比于传统开放域信息抽取,结合命名实体识别的开放域信息抽取能提供额外的命名实体类别信息,这对于知识图谱构建大有裨益,其实现也更具挑战。
面对这一挑战,一种常见做法是构建结合开放域信息抽取和命名实体识别的流水线系统。然而,流水线系统通常面临误差累积问题,即两个模型的预测误差存在相互叠加后放大的现象。为应对这一问题,一种常见做法是设计端到端的模型来联合开放域信息抽取和命名实体识别两种任务。然而,据我们所知,目前尚没有公开发表的工作进行这方面的研究。
此外,传统的基于序列标注的开放域信息抽取方法无法有效应对嵌套三元组的情况。例如在句子“Rather ominously,rabbit studies reveal that RU-486can causebirth defects.”中,其中一个三元组为(“studies”、“reveal”、“that RU-486can causebirth defects”),而另一个三元组嵌套在第一个三元组中,为(“RU-486”、“cause”、“birthdefects”),此时单词如“RU-486”、“cause”等拥有多个BIO标签,而序列标注方法无法同时输出多个标签。因此,如何有效解决嵌套三元组抽取问题也是一大挑战。
发明内容
本发明的目的在于克服现有基于序列标注的流水线式方法存在的误差累积、嵌套三元组抽取精度低的缺陷,提出一种联合开放域信息抽取及命名实体识别的方法,
为了实现上述目的,本发明提出了一种结合命名实体识别的开放域信息抽取方法,所述方法包括:
将待抽取的句子输入预先建立和训练好的三元组谓词抽取器,输出谓词短语;
将谓词短语和待抽取的句子输入预先建立和训练好的三元组要素抽取器,输出三元组要素短语的位置;三元组要素包括:主语、宾语及定语;
将三元组要素抽取器中获取的序列隐状态表示和三元组要素短语的位置,输入预先建立和训练好的命名实体识别器,输出三元组要素短语的命名实体类别;
其中,三元组谓词抽取器用于抽取输入句子中出现的三元组涉及的谓词,三元组谓词抽取器单独进行训练,三元组要素抽取器用于抽取输入句子中出现的三元组涉及的要素短语;命名实体识别器用于识别三元组要素短语的命名实体类别;三元组要素抽取器和命名实体识别器联合进行训练。
作为上述方法的一种改进,所述三元组谓词抽取器包括:第一预处理模块、第一预训练语言模型和条件随机场层,第一预训练语言模型包含L个依次连接的预训练Transformer块;
所述第一预处理模块,用于将输入句子转换为第一输入序列:<[CLS],Tok1,Tok2,…,Tokn,[SEP]>,其中,[CLS]和[SEP]均为特殊符号,Tok1,Tok2,…,Tokn为输入句子中包含n个字符;然后获得第一输入序列的预训练的词嵌入表示H0,该词嵌入表示H0为字符嵌入、位置嵌入和分段嵌入之和,将词嵌入表示H0输入第一预训练语言模型;
所述第一预训练语言模型,用于利用L个预训练Transformer块对输入的词嵌入表示H0依次进行编码:
其中,Hi为第i个Transformer块输出的第一序列隐状态表示,TransformerBlock()表示Transformer函数;
将第L个Transformer块输出的第一序列隐状态表示HL输入条件随机场层;
所述条件随机场层,用于对第一序列隐状态表示HL进行预测,输出每个字符在BIO标签体系下的概率分布YP,YP是一个维度为(n+2)×3的概率分布,对该概率分布进行解码,可以得到第一输入序列的BIO预测标签,进而获得预测的谓词短语。
作为上述方法的一种改进,所述方法还包括:对三元组谓词抽取器进行训练的步骤;具体包括:
步骤101)收集领域相关文本,按照BIO标签体系标注文本中出现的三元组谓词短语,得到三元组谓词抽取训练样本;
步骤102)第一预处理模块对输入的三元组谓词抽取训练样本的句子进行预处理,输出词嵌入表示;
步骤103)第一预训练语言模型对词嵌入表示输入进行编码,输出第一序列隐状态表示HL;
步骤104)条件随机场层基于第一序列隐状态表示HL预测单词的谓词标签;
步骤105)通过预测的谓词标签与步骤101)标注的真实三元组谓词短语,计算交叉熵损失函数连同第一预训练语言模型一起进行微调,以训练三元组谓词抽取器。
作为上述方法的一种改进,所述三元组要素抽取器包含第二预处理模块、第二预训练语言模型和多头指针网络;第二预训练语言模型包含L个依次连接的预训练Transformer块;所述三头指针网络包括三个头指针;
所述第二预处理模块,用于将输入句子和抽取的谓词短语拼接为第二输入序列:<[CLS],tok1,…,tokm,[SEP],Tok1,Tok2,…,Tokn,[SEP]>,其中谓词短语包含m个字符:tok1,…,tokm,输入句子包含n个字符:Tok1,Tok2,…,Tokn;然后获得第二输入序列的词嵌入表示并输入第二预训练语言模型;
所述第二预训练语言模型,用于利用L个预训练Transformer块对输入的词嵌入表示依次进行编码:
其中,为第i个Transformer块输出的第二序列隐状态表示;
将第L个Transformer块输出的第二序列隐状态表示输入三头指针网络;
所述三头指针网络,用于分别利用三个头指针预测三元组要素在输入序列中位置,其中第j个头指针输出两组概率分布和/>为:
其中,和/>为维度是1×d的可训练参数,d表示隐状态维度,用于计算向量X=(x1,x2…xK)的概率分布,j=1,2,3;
通过取和/>中得分最大的位置,即可预测第j个要素在第二输入序列中的开始位置sj和结束位置ej。
作为上述方法的一种改进,所述命名实体识别器包括:自注意力加权模块和感知机分类器:
所述自注意力加权模块,用于根据三元组要素抽取器的第二预训练语言模型输出的第二序列隐状态表示以及第j个要素在第二输入序列中的开始位置sj和结束位置ej,计算第j个要素的自注意力概率分布aj:
其中,Wa为维度是1×d的可训练参数;
然后计算基于该自注意力分布的第j个要素加权和作为第j个要素隐状态表示
将输入感知机分类器;
所述感知机分类器,用于输出第j个要素的命名实体类别概率分布
其中,Wc为维度是c×d的可训练参数,c表示命名实体类别个数;
取中得分最大对应的实体类型,即是预测的要素实体类别。
作为上述方法的一种改进,所述方法还包括:对三元组要素抽取器和命名实体识别器进行联合训练的步骤;具体包括:
步骤201)在三元组谓词抽取训练样本基础上,额外标注要素短语的位置以及要素短语的命名实体类型,得到联合训练样本;
步骤202)三元组要素抽取器的第二预处理模块对输入的三元组谓词抽取训练样本的句子及其真实谓词短语进行预处理,输出词嵌入表示;
步骤203)第二预训练语言模型对输入的词嵌入表示进行编码,得到序列隐状态表示,分别输出至三元组要素抽取器的三头指针网络和命名实体识别器的自注意力加权模块;
步骤204)三头指针网络基于序列隐状态表示,预测三元组要素短语在句子中位置;
步骤205)通过预测的三元组要素短语在句子中位置和步骤201)标注的真实要素短语位置,计算交叉熵损失函数
步骤206)自注意力加权模块基于标注的要素短语位置和序列隐状态表示,计算并输出标注的要素短语的隐状态表示;
步骤207)感知机分类器基于要素短语的隐状态表示,预测要素的命名实体类别;
步骤208)通过预测的要素的命名实体类别与步骤201)标注的真实命名实体类型,计算交叉熵损失函数
步骤209)计算总损失函数连同第二预训练语言模型一起进行微调,由此联合训练三元组要素抽取器和命名实体识别器。
本发明的技术优势在于:
1、本发明的方法针对流水线方法中存在的误差累积问题,通过复用要素抽取的隐状态表示来同时进行要素抽取和命名实体识别,有效地提高了命名实体识别任务的精确度,并缩短了训练和推理时间;
2、本发明的方法设计了一个基于神经网络的谓词抽取器,相比于传统基于词性标注的方法,本方法在谓词抽取上的性能更佳;
3、本发明的方法通过使用多头指针网络来预测要素在原文中位置,有效克服了嵌套三元组抽取问题,相比于使用序列标注的传统抽取方法,有效提高了三元组抽取的准确率和召回率。
附图说明
图1为本发明的结合命名实体识别的开放域信息抽取方法的示意图;
图2为本发明的三元组谓词抽取器结构图;
图3为本发明的三元组要素抽取器结构图;
图4为本发明的命名实体识别器结构图;
图5为本发明的三元组谓词抽取器、三元组要素抽取器以及命名实体识别器训练过程的流程图。
具体实施方式
下面结合附图对本发明做进一步详细的说明。
如图1所示,本发明提出的一种结合命名实体识别的开放域信息抽取方法,包括:用于抽取输入文本中出现的谓词短语的三元组谓词抽取器、用于抽取输入文本中出现的三元组要素短语的三元组要素抽取器,以及用于识别三元组要素实体类别的命名实体识别器。三元组谓词抽取器的输出为三元组要素抽取器的输入,三元组要素抽取器的输出为要素命名实体识别器的输入;三元组谓词抽取器输出谓词短语,三元组要素抽取器输出三元组要素短语(主语、宾语和定语),要素命名实体识别器输出三元组要素的实体类别。
该方法包括以下步骤:
步骤1)将待抽取的句子输入三元组谓词抽取器,输出谓词短语;
如图2所示,三元组谓词抽取器包括:第一预处理模块、第一预训练语言模型和条件随机场层,第一预训练语言模型包含L个依次连接的预训练Transformer块;
第一预处理模块,用于将输入句子转换为第一输入序列:<[CLS],Tok1,Tok2,…,Tokn,[SEP]>,其中,[CLS]和[SEP]均为特殊符号,Tok1,Tok2,…,Tokn为输入句子中包含n个字符;然后获得第一输入序列的预训练的词嵌入表示H0,该词嵌入表示H0为字符嵌入、位置嵌入和分段嵌入之和,将词嵌入表示H0输入第一预训练语言模型;
第一预训练语言模型,用于利用L个预训练Transformer块对输入的词嵌入表示H0依次进行编码:
其中,Hi为第i个Transformer块输出的第一序列隐状态表示,TransformerBlock()表示Transformer函数;
将第L个Transformer块输出的第一序列隐状态表示HL输入条件随机场层;
条件随机场层,用于对第一序列隐状态表示HL进行预测,输出每个字符在BIO标签体系下的概率分布YP,YP是一个维度为(n+2)×3的概率分布,对该概率分布进行解码,可以得到第一输入序列的BIO预测标签,进而获得预测的谓词短语。
步骤2)将谓词短语和待抽取的句子输入三元组要素抽取器,输出到三元组要素短语的位置;
如图3所示,三元组要素抽取器包含第二预处理模块、第二预训练语言模型和多头指针网络;第二预训练语言模型包含L个依次连接的预训练Transformer块;三头指针网络包括三个头指针;
第二预处理模块,用于将输入句子和抽取的谓词短语拼接为第二输入序列:<[CLS],tok1,…,tokm,[SEP],Tok1,Tok2,…,Tokn,[SEP]>,其中谓词短语包含m个字符:tok1,…,tokm,输入句子包含n个字符:Tok1,Tok2,…,Tokn;然后获得第二输入序列的词嵌入表示并输入第二预训练语言模型;
第二预训练语言模型,用于利用L个预训练Transformer块对输入的词嵌入表示依次进行编码:
其中,为第i个Transformer块输出的第二序列隐状态表示;
将第L个Transformer块输出的第二序列隐状态表示输入三头指针网络;
三头指针网络,用于分别利用三个头指针预测三元组要素在输入序列中位置,其中第j个头指针输出两组概率分布和/>为:
其中,和/>为维度是1×d的可训练参数,d表示隐状态维度,/>用于计算向量X=(x1,x2…xK)的概率分布,j=1,2,3;
通过取和/>中得分最大的位置,即可预测第j个要素在第二输入序列中的开始位置sj和结束位置ej。
步骤3)将三元组要素抽取器中获取的序列隐状态表示和三元组要素的短语位置,输入命名实体识别器,得到要素短语的命名实体类别。
如图4所示,命名实体识别器包括:自注意力加权模块和感知机分类器:
自注意力加权模块,用于根据三元组要素抽取器的第二预训练语言模型输出的第二序列隐状态表示以及第j个要素在第二输入序列中的开始位置sj和结束位置ej,计算第j个要素的自注意力概率分布aj:
其中,Wa为维度是1×d的可训练参数;
然后计算基于该自注意力分布的第j个要素加权和作为第j个要素隐状态表示
将输入感知机分类器;
感知机分类器,用于输出第j个要素的命名实体类别概率分布
其中,Wc为维度是c×d的可训练参数,c表示命名实体类别个数;
取中得分最大对应的实体类型,即是预测的要素实体类别。
如图5所示,对三元组谓词抽取器、三元组要素抽取器以及命名实体识别器进行训练的主要步骤包括:
步骤S1)训练三元组谓词抽取器,用于抽取输入文本中出现的三元组涉及的谓词,具体包括如下步骤:
首先确定输入数据源,数据源为军事类动态新闻中文文本,收集领域内文本后,按照BIO标准格式标注文本中出现的三元组谓词短语。
标注完毕后,对输入句的开头和结尾拼接特殊符号[CLS]和[SEP]以转换为输入序列<[CLS]、输入句、[SEP]>,使用预训练语言模型对输入序列编码,获得输入序列的隐状态表示。基于该表示,使用条件随机场(CRF)层来预测单词的BIO标签,与真实标签计算交叉熵损失函数,最后基于该损失函数训练三元组谓词抽取器。
步骤S2)对三元组要素抽取器和命名实体识别器进行联合训练的步骤;三元组要素抽取器,用于抽取输入文本中出现的三元组涉及的要素;命名实体识别器,用于识别三元组要素短语的命名实体类别;
步骤S2-1)在三元组谓词抽取训练样本基础上,额外标注要素短语的位置以及要素短语的命名实体类型,得到联合训练样本;
在前期标注数据基础上,继续按照BIO标准格式标注谓词对应的三元组要素短语。
步骤S2-2)三元组要素抽取器的第二预处理模块对输入的三元组谓词抽取训练样本的句子及其真实谓词短语进行预处理,输出词嵌入表示;
步骤S2-3)第二预训练语言模型对输入的词嵌入表示进行编码,得到序列隐状态表示,分别输出至三元组要素抽取器的三头指针网络和命名实体识别器的自注意力加权模块;
步骤S2-4)三头指针网络基于序列隐状态表示,预测三元组要素短语在句子中位置;
步骤S2-5)通过预测的三元组要素短语在句子中位置和步骤S2-1)标注的真实要素短语位置,计算交叉熵损失函数
步骤S2-6)自注意力加权模块基于标注的要素短语位置和序列隐状态表示,计算并输出标注的要素短语的隐状态表示;
步骤S2-7感知机分类器基于要素短语的隐状态表示,预测要素的命名实体类别;
步骤S2-8)通过预测的要素的命名实体类别与步骤S2-1)标注的真实命名实体类型,计算交叉熵损失函数
步骤S2-9)计算总损失函数连同第二预训练语言模型一起进行微调,由此联合训练三元组要素抽取器和命名实体识别器。
本发明的技术创新点主要包括:
1、本发明设计了一个基于神经网络的三元组谓词抽取器,可能的替换方案是使用基于词性标注的谓词抽取器。
2、本发明设计了一个基于多头指针网络的三元组要素抽取器,可能的替换方案是使用基于序列标注的要素抽取器。
3、本发明设计了一个复用隐状态表示的要素命名实体识别器,可能的替换方案是使用基于序列标注的命名实体识别器。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.一种结合命名实体识别的开放域信息抽取方法,所述方法包括:
将待抽取的句子输入预先建立和训练好的三元组谓词抽取器,输出谓词短语;
将谓词短语和待抽取的句子输入预先建立和训练好的三元组要素抽取器,输出三元组要素短语的位置;三元组要素包括:主语、宾语及定语;
将三元组要素抽取器中获取的序列隐状态表示和三元组要素短语的位置,输入预先建立和训练好的命名实体识别器,输出三元组要素短语的命名实体类别;
其中,三元组谓词抽取器用于抽取输入句子中出现的三元组涉及的谓词,三元组谓词抽取器单独进行训练,三元组要素抽取器用于抽取输入句子中出现的三元组涉及的要素短语;命名实体识别器用于识别三元组要素短语的命名实体类别;三元组要素抽取器和命名实体识别器联合进行训练;
所述三元组谓词抽取器包括:第一预处理模块、第一预训练语言模型和条件随机场层,第一预训练语言模型包含L个依次连接的预训练Transformer块;
所述第一预处理模块,用于将输入句子转换为第一输入序列:<[CLS],Tok1,Tok2,…,Tokn,[SEP]>,其中,[CLS]和[SEP]均为特殊符号,Tok1,Tok2,…,Tokn为输入句子中包含的n个字符;然后获得第一输入序列的预训练词嵌入表示H0,该词嵌入表示H0为字符嵌入、位置嵌入和分段嵌入之和,将词嵌入表示H0输入第一预训练语言模型;
所述第一预训练语言模型,用于利用L个预训练的Transformer块对输入的词嵌入表示H0依次进行编码:
其中,Hi为第i个Transformer块输出的第一序列隐状态表示,TransformerBlock()表示Transformer函数;
将第L个Transformer块输出的第一序列隐状态表示HL输入条件随机场层;
所述条件随机场层,用于对第一序列隐状态表示HL进行预测,输出每个字符在BIO标签体系下的概率分布YP,YP是一个维度为(n+2)×3的概率分布,对该概率分布进行解码,可以得到第一输入序列的BIO预测标签,进而获得预测的谓词短语;
所述方法还包括:对三元组谓词抽取器进行训练的步骤;具体包括:
步骤101)收集领域相关文本,按照BIO标签体系标注文本中出现的三元组谓词短语,得到三元组谓词抽取训练样本;
步骤102)第一预处理模块对输入的三元组谓词抽取训练样本的句子进行预处理,输出词嵌入表示;
步骤103)第一预训练语言模型对词嵌入表示输入进行编码,输出第一序列隐状态表示HL;
步骤104)条件随机场层基于第一序列隐状态表示HL预测单词的谓词标签;
步骤105)通过预测的谓词标签与步骤101)标注的真实三元组谓词短语,计算交叉熵损失函数连同第一预训练语言模型一起进行微调,以训练三元组谓词抽取器;
所述三元组要素抽取器包含第二预处理模块、第二预训练语言模型和三头指针网络;第二预训练语言模型包含L个依次连接的预训练Transformer块;所述三头指针网络包括三个头指针;
所述第二预处理模块,用于将输入句子和抽取的谓词短语拼接为第二输入序列:<[CLS],tok1,…,tokm,[SEP],Tok1,Tok2,…,Tokn,[SEP]>,其中谓词短语包含m个字符:tok1,…,tokm,输入句子包含n个字符:Tok1,Tok2,…,Tokn;然后获得第二输入序列的词嵌入表示并输入第二预训练语言模型;
所述第二预训练语言模型,用于利用L个预训练的Transformer块对输入的词嵌入表示依次进行编码:
其中,为第i个Transformer块输出的第二序列隐状态表示;
将第L个Transformer块输出的第二序列隐状态表示输入三头指针网络;
所述三头指针网络,用于分别利用三个头指针预测三元组要素在输入序列中位置,其中第j个头指针输出两组概率分布和/>为:
其中,和/>为维度是1×d的可训练参数,d表示隐状态维度,/>用于计算向量X=(x1,x2…xK)的概率分布,j=1,2,3;
通过取和/>中得分最大的位置,即可预测第j个要素在第二输入序列中的开始位置sj和结束位置ej;
所述命名实体识别器包括:自注意力加权模块和感知机分类器:
所述自注意力加权模块,用于根据三元组要素抽取器的第二预训练语言模型输出的第二序列隐状态表示以及第j个要素在第二输入序列中的开始位置sj和结束位置ej,计算第j个要素的自注意力概率分布aj:
其中,Wa为维度是1×d的可训练参数;
然后计算基于该自注意力概率分布的第j个要素加权和作为第j个要素隐状态表示
将输入感知机分类器;
所述感知机分类器,用于输出第j个要素的命名实体类别概率分布
其中,Wc为维度是c×d的可训练参数,c表示命名实体类别个数;
取中得分最大对应的实体类型,即是预测的要素实体类别;
所述方法还包括:对三元组要素抽取器和命名实体识别器进行联合训练的步骤;具体包括:
步骤201)在三元组谓词抽取训练样本基础上,额外标注要素短语的位置以及要素短语的命名实体类型,得到联合训练样本;
步骤202)三元组要素抽取器的第二预处理模块对输入的三元组谓词抽取训练样本的句子及其真实谓词短语进行预处理,输出词嵌入表示;
步骤203)第二预训练语言模型对输入的词嵌入表示进行编码,得到序列隐状态表示,分别输出至三元组要素抽取器的三头指针网络和命名实体识别器的自注意力加权模块;
步骤204)三头指针网络基于序列隐状态表示,预测三元组要素短语在句子中位置;
步骤205)通过预测的三元组要素短语在句子中位置和步骤201)标注的真实要素短语位置,计算交叉熵损失函数
步骤206)自注意力加权模块基于标注的要素短语位置和序列隐状态表示,计算并输出标注的要素短语的隐状态表示;
步骤207)感知机分类器基于要素短语的隐状态表示,预测要素的命名实体类别;
步骤208)通过预测的要素的命名实体类别与步骤201)标注的真实命名实体类型,计算交叉熵损失函数
步骤209)计算总损失函数连同第二预训练语言模型一起进行微调,由此联合训练三元组要素抽取器和命名实体识别器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110318974.4A CN113158671B (zh) | 2021-03-25 | 2021-03-25 | 一种结合命名实体识别的开放域信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110318974.4A CN113158671B (zh) | 2021-03-25 | 2021-03-25 | 一种结合命名实体识别的开放域信息抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158671A CN113158671A (zh) | 2021-07-23 |
CN113158671B true CN113158671B (zh) | 2023-08-11 |
Family
ID=76884869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110318974.4A Active CN113158671B (zh) | 2021-03-25 | 2021-03-25 | 一种结合命名实体识别的开放域信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158671B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486667B (zh) * | 2021-07-26 | 2024-03-05 | 辽宁工程技术大学 | 一种基于实体类型信息的医疗实体关系联合抽取方法 |
CN113705196A (zh) * | 2021-08-02 | 2021-11-26 | 清华大学 | 基于图神经网络的中文开放信息抽取方法和装置 |
CN114722822B (zh) * | 2022-03-22 | 2024-01-19 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备和计算机可读存储介质 |
Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034693A (zh) * | 2012-12-03 | 2013-04-10 | 哈尔滨工业大学 | 开放式实体及其类型识别方法 |
CN103870489A (zh) * | 2012-12-13 | 2014-06-18 | 北京信息科技大学 | 基于搜索日志的中文人名自扩展识别方法 |
CN104463552A (zh) * | 2013-09-22 | 2015-03-25 | 中国电信股份有限公司 | 日历提醒生成方法和装置 |
WO2017119060A1 (ja) * | 2016-01-05 | 2017-07-13 | 株式会社日立製作所 | 情報提示システム |
CN106951438A (zh) * | 2017-02-13 | 2017-07-14 | 北京航空航天大学 | 一种面向开放域的事件抽取系统及方法 |
CN107766322A (zh) * | 2017-08-31 | 2018-03-06 | 平安科技(深圳)有限公司 | 同名实体识别方法、电子设备及计算机可读存储介质 |
CN107766585A (zh) * | 2017-12-07 | 2018-03-06 | 中国科学院电子学研究所苏州研究院 | 一种面向社交网络的特定事件抽取方法 |
CN107818141A (zh) * | 2017-10-10 | 2018-03-20 | 大连理工大学 | 融入结构化要素识别的生物医学事件抽取方法 |
CN108763321A (zh) * | 2018-05-02 | 2018-11-06 | 深圳智能思创科技有限公司 | 一种基于大规模相关实体网络的相关实体推荐方法 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
WO2019172849A1 (en) * | 2018-03-06 | 2019-09-12 | Agency For Science, Technology And Research | Method and system for generating a structured knowledge data for a text |
CN110674639A (zh) * | 2019-09-24 | 2020-01-10 | 拾音智能科技有限公司 | 一种基于预训练模型的自然语言理解方法 |
CN111061832A (zh) * | 2019-12-05 | 2020-04-24 | 电子科技大学广东电子信息工程研究院 | 基于开放域信息抽取的人物行为抽取方法 |
CN111291185A (zh) * | 2020-01-21 | 2020-06-16 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN111310471A (zh) * | 2020-01-19 | 2020-06-19 | 陕西师范大学 | 一种基于bblc模型的旅游命名实体识别方法 |
CN111444305A (zh) * | 2020-03-19 | 2020-07-24 | 浙江大学 | 一种基于知识图谱嵌入的多三元组联合抽取方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111488467A (zh) * | 2020-04-30 | 2020-08-04 | 北京建筑大学 | 地理知识图谱的构建方法、装置、存储介质及计算机设备 |
CN111563383A (zh) * | 2020-04-09 | 2020-08-21 | 华南理工大学 | 一种基于BERT与SemiCRF的中文命名实体识别方法 |
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
CN112307336A (zh) * | 2020-10-30 | 2021-02-02 | 中国平安人寿保险股份有限公司 | 热点资讯挖掘与预览方法、装置、计算机设备及存储介质 |
CN112487171A (zh) * | 2020-12-15 | 2021-03-12 | 中国人民解放军国防科技大学 | 一种开放域下的事件抽取系统和方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140156264A1 (en) * | 2012-11-19 | 2014-06-05 | University of Washington through it Center for Commercialization | Open language learning for information extraction |
CN107436922B (zh) * | 2017-07-05 | 2021-06-08 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
CN107783960B (zh) * | 2017-10-23 | 2021-07-23 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
-
2021
- 2021-03-25 CN CN202110318974.4A patent/CN113158671B/zh active Active
Patent Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034693A (zh) * | 2012-12-03 | 2013-04-10 | 哈尔滨工业大学 | 开放式实体及其类型识别方法 |
CN103870489A (zh) * | 2012-12-13 | 2014-06-18 | 北京信息科技大学 | 基于搜索日志的中文人名自扩展识别方法 |
CN104463552A (zh) * | 2013-09-22 | 2015-03-25 | 中国电信股份有限公司 | 日历提醒生成方法和装置 |
WO2017119060A1 (ja) * | 2016-01-05 | 2017-07-13 | 株式会社日立製作所 | 情報提示システム |
CN106951438A (zh) * | 2017-02-13 | 2017-07-14 | 北京航空航天大学 | 一种面向开放域的事件抽取系统及方法 |
CN107766322A (zh) * | 2017-08-31 | 2018-03-06 | 平安科技(深圳)有限公司 | 同名实体识别方法、电子设备及计算机可读存储介质 |
CN107818141A (zh) * | 2017-10-10 | 2018-03-20 | 大连理工大学 | 融入结构化要素识别的生物医学事件抽取方法 |
CN107766585A (zh) * | 2017-12-07 | 2018-03-06 | 中国科学院电子学研究所苏州研究院 | 一种面向社交网络的特定事件抽取方法 |
WO2019172849A1 (en) * | 2018-03-06 | 2019-09-12 | Agency For Science, Technology And Research | Method and system for generating a structured knowledge data for a text |
CN108763321A (zh) * | 2018-05-02 | 2018-11-06 | 深圳智能思创科技有限公司 | 一种基于大规模相关实体网络的相关实体推荐方法 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110674639A (zh) * | 2019-09-24 | 2020-01-10 | 拾音智能科技有限公司 | 一种基于预训练模型的自然语言理解方法 |
CN111061832A (zh) * | 2019-12-05 | 2020-04-24 | 电子科技大学广东电子信息工程研究院 | 基于开放域信息抽取的人物行为抽取方法 |
CN111310471A (zh) * | 2020-01-19 | 2020-06-19 | 陕西师范大学 | 一种基于bblc模型的旅游命名实体识别方法 |
CN111291185A (zh) * | 2020-01-21 | 2020-06-16 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN111444305A (zh) * | 2020-03-19 | 2020-07-24 | 浙江大学 | 一种基于知识图谱嵌入的多三元组联合抽取方法 |
CN111563383A (zh) * | 2020-04-09 | 2020-08-21 | 华南理工大学 | 一种基于BERT与SemiCRF的中文命名实体识别方法 |
CN111488467A (zh) * | 2020-04-30 | 2020-08-04 | 北京建筑大学 | 地理知识图谱的构建方法、装置、存储介质及计算机设备 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN112307336A (zh) * | 2020-10-30 | 2021-02-02 | 中国平安人寿保险股份有限公司 | 热点资讯挖掘与预览方法、装置、计算机设备及存储介质 |
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
CN112487171A (zh) * | 2020-12-15 | 2021-03-12 | 中国人民解放军国防科技大学 | 一种开放域下的事件抽取系统和方法 |
Non-Patent Citations (1)
Title |
---|
Fang Miao ; Huixin Liu ; Bo Miao ; Chenming Liu.Open domain news text relationship extraction based on dependency syntax.《 2018 IEEE International Conference of Safety Produce Informatization》.2019,第310-314页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113158671A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113158671B (zh) | 一种结合命名实体识别的开放域信息抽取方法 | |
WO2021155699A1 (zh) | 面向中文长文本自动摘要的全局编码方法 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
WO2021218028A1 (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
CN110309511B (zh) | 基于共享表示的多任务语言分析系统及方法 | |
CN113283236B (zh) | 一种复杂中文文本中的实体消歧方法 | |
CN113157885B (zh) | 一种面向人工智能领域知识的高效智能问答系统 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111651973A (zh) | 一种基于句法感知的文本匹配方法 | |
CN112101010A (zh) | 一种基于bert的电信行业oa办公自动化文稿审核的方法 | |
CN113012822A (zh) | 一种基于生成式对话技术的医疗问答系统 | |
CN113111152A (zh) | 一种基于知识蒸馏和情绪集成模型的抑郁症检测方法 | |
CN113723103A (zh) | 融合多源知识的中文医学命名实体和词性联合学习方法 | |
CN112364125A (zh) | 一种联合阅读课程学习机制的文本信息抽取系统及方法 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN112183060A (zh) | 多轮对话系统的指代消解方法 | |
CN110210035B (zh) | 序列标注方法、装置及序列标注模型的训练方法 | |
CN116257630A (zh) | 一种基于对比学习的方面级情感分析方法及装置 | |
CN115934883A (zh) | 一种基于语义增强的多特征融合的实体关系联合抽取方法 | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 | |
CN115221284A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |