CN111832293B - 基于头实体预测的实体和关系联合抽取方法 - Google Patents
基于头实体预测的实体和关系联合抽取方法 Download PDFInfo
- Publication number
- CN111832293B CN111832293B CN202010589302.2A CN202010589302A CN111832293B CN 111832293 B CN111832293 B CN 111832293B CN 202010589302 A CN202010589302 A CN 202010589302A CN 111832293 B CN111832293 B CN 111832293B
- Authority
- CN
- China
- Prior art keywords
- entity
- labeling
- head
- tail
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 68
- 238000002372 labelling Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 239000000284 extract Substances 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000001046 rapid expansion of supercritical solution Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于头实体预测的实体和关系联合抽取方法。本发明通过只将关系融入尾实体标签的标注策略,将实体和关系抽取任务分解为两个序列标注任务,即头实体识别标注和尾实体识别标注,并且将头实体的向量作为尾实体标注识别任务的输入,用先验概率的思想提高模型的效果。尾实体的标注标签在完成尾实体识别的同时,确定实体对间的关系,从而解决了存在实体重叠现象时抽取不完全的问题和存在实体嵌套时传统方法无法抽取的问题。
Description
一、技术领域
本发明涉及自然语言处理领域,尤其涉及信息抽取,具体是一种基于头实体预测的实体和关系联合抽取方法。
二、背景技术
现今是知识经济时代,随着互联网技术的蓬勃发展,社会信息化程度的不断提高,数据资源呈爆炸式增长,随之而来的是海量文本数据的积累。如何从大量的非结构化文本数据资源中迅速并准确地获取需要的信息,引起越来越多人的关注,而实体和关系抽取便是应运而生的一种技术手段。实体和关系抽取是指从非结构化文本中抽取实体对以及实体对之间的关系,实体对是指在一句或者一段文本中出现的两个可能存在关系的实体,实体包括命名性指称、名词性指称和代词性指称;关系是指两个或者多个实体间存在的某种联系。
实体和关系抽取包含了命名实体识别(named entity recognition,NER)和关系抽取(relation extraction,RE)两个子任务。命名实体识别是指识别出文本中的实体以及该实体的类别,关系抽取是指识别出两个或多个实体之间存在的语义关系。通常情况下,实体和关系抽取的结果使用三元组进行表示,即采用“(e1,r,e2)”的形式进行表示,其中e1和e2表示两个实体,r表示两个实体之间的关系,为了方便区分e1和e2,本文中将e1称之为头实体(head entity),将e2称之为尾实体(tail entity)。
为了实现从非结构文本中进行实体和关系的抽取,先前多数研究者是将目标分别集中于实体识别和关系分类,不断提高实体识别的准确率和实体对间关系判断的准确率进而提高实体和关系抽取的效果。首先是有学者提出了基于模板匹配的实体和关系抽取方法,基于模板的方法需要相关领域专家首先设定具有一定规则的模板,然后将非结构化文本与该模板进行匹配,将符合该模板的信息提取出来,进而完成关系的抽取。其中比较著名的有RESS系统(Aone C,Ramos-Santacruz M.REES:a large-scale relation and eventextraction system[C]//Proceedings of the sixth conference on Applied naturallanguage processing.Association for Computational Linguistics,2000:76-83)和GATE系统(Cunningham H,Maynard D,Bontcheva K,et al.GATE:an architecture fordevelopment of robust HLT applications[C]//Proceedings of the 40th annualmeeting on association for computational linguistics.Association forComputational Linguistics,2002:168-175)。基于模板的实体和关系抽取方法,作为早期的实体和关系抽取方法,在很大程度上减轻了人员的工作量,提高了效率,但是其效果严重依赖于人工构建的模板,并且迁移性差。为了解决基于模板的方法的实体和关系抽取存在的问题,Yu等人(Yu X,Lam W.Jointly identifying entities and extractingrelations in encyclopedia text via a graphical model approach[C]//Proceedingsof the 23rd International Conference on Computational Linguistics:Posters.Association for Computational Linguistics,2010:1399-1407.)在首次提出实体和关系的联合抽取模型,即通过参数共享的方法,将实体识别和关系判断联系起来,但是仍然依赖人工构建特征,特征构建时会依赖外部自然语言处理工具,而后,Katiyar等人(Katiyar A,Cardie C.Going out on a limb:Joint extraction of entity mentionsand relations without dependency trees[C]//Proceedings of the 55th AnnualMeeting of the Association for Computational Linguistics(Volume1:LongPapers).2017:917-928.)在提出了一种结合注意力机制和双向LSTM的实体和关系抽取模型,该模型减少对自然语言处理工具包的依赖和人工特征的提取,直接通过神经网络进行实体和关系的抽取,但是当语料存在实体重叠现象的时候,会存在抽取不完全的问题。最近,Zheng等人(Zheng S,Wang F,Bao H,etal.Joint extraction of entities andrelations based on a novel tagging scheme[C]//Proceedings of the 55th AnnualMeeting of the Association for Computational Linguistics(Volume 1:LongPapers).2017:1227-1236.)提出了一种利用特殊的标注策略将关系融入到标签中,完成将实体识别和关系判断这两个任务整合成一个任务。这不仅能够充分利用实体识别和关系判断之间的内在联系,还可以只需完成对原输入文本作序列标注建模任务,从而完成对实体和关系的抽取。但是,当语料存在实体重叠现象的时候,该标注策略将会发生标签冲突的问题。这可以通过就近配对原则解决标签冲突问题,然而当语料存在实体重叠现象时,就近匹配原则同样会导致存在抽取不完全的问题。上述这些方法都只考虑到每个实体只存在于一个三元组中的情况,没有考虑一个实体可能同时出现在多个三元组中,即实体重叠的现象。如“金一先生是出生于海宁市的一名作家”中包含了出生地、职业关系,这句话实际上包含了“(金一,出生地,海宁市)和(金一,职业,作家)”两个三元组,而采用上述方法却只能抽取出其中的一个三元组,即存在三元组抽取不完全的问题。并且实体重叠现象并不是特例,而是普遍存在。本文对中文的百度知识抽取数据集和英文NYT数据集做了分析,结果发现实体重叠情况在这两种数据集中分别占53.8%和24.8%,分别如图1和图2所示。在中文的百度知识抽取数据集中超过半数的语料中都存在着实体重叠的现象。因此,对中文的实体和关系抽取时,语料中出现的实体重叠现象更加不能被忽略。而在语料存在实体重叠现象的时候,上述关系抽取模型和算法将无法完全抽取出语料中可能存在的三元组,这必将造成信息的丢失。
在中文文本中,语料中存在的实体嵌套的现象同样不能忽略,实体嵌套现象是指一个实体嵌套在另一个实体中,如从“台北大安森林公园”中抽取的目标三元组是“(台北大安森林公园,位于,台北)”,尾实体“台北”嵌套在头实体“台北大安森林公园”中,这种实体嵌套的情况传统的实体和关系抽取算法无法进行抽取。
综上所述,实体和关系抽取过程中,当语料中存在实体重叠现象时导致三元组抽取不完全的问题、传统方法在语料存在实体嵌套现象时无法抽取的问题,这两个问题仍然值得进一步研究。为此,本发明首先详细分析了实体重叠的情况,然后根据实体重叠情况提出了一种基于头实体预测的实体和关系联合抽取模型(Joint Extraction of Entitiesand Relations Based on Head Entity Prediction,JEBHE),简称JEBHE模型,解决了当语料存在实体重叠现象时抽取不完全的问题以及当语料存在实体嵌套时无法抽取的问题。
三、发明内容
本发明的目的在于解决当语料中存在实体重叠现象时导致三元组抽取不完全的问题、以及传统方法在语料存在实体嵌套现象时无法抽取的问题。
本发明的目的是这样达到的:
本文通过详细分析中文实体重叠现象,通过只将关系融入尾实体标签的标注策略,将实体和关系抽取任务分解为两个序列标注任务,即头实体识别标注和尾实体识别标注,并且将头实体的向量作为尾实体标注识别任务的输入,用先验概率的思想提高模型的效果。尾实体的标注标签在完成尾实体识别的同时,确定实体对间的关系,从而解决了存在实体重叠现象时抽取不完全的问题和存在实体嵌套时传统方法无法抽取的问题。
具体做法是:
本发明首先194734条语料分析了实体重叠情况,根据一条语料中是否存在实体重叠以及实体重叠的类型并将其详细划分为S1、S2、S3、S4、S5、S6、S7、S8共计8种类型,其中S1表示一条语料中只含有一个头实体、一种关系和一个尾实体的情况,S2表示一条语料中只含有一个头实体、一种关系和多个尾实体的情况,S3表示一条语料中只含有一个头实体、多种关系和一个尾实体的情况,S4表示一条语料中只含有一个头实体、多种关系和多个尾实体的情况,S5表示一条语料中只含有多个头实体、一种关系和一个尾实体的情况,S6表示一条语料中只含有多个头实体、一种关系和多个尾实体的情况,S7表示一条语料中只含有多个头实体、多种关系和一个尾实体的情况,S8表示一条语料中只含有多个头实体、多种关系和多个尾实体的情况。在统计的194734条语料,S1-S8各类型的语料条数分别为:89888条、5130条、3255条、86620条、5333条、1141条、1290条、2077条,总计194734条语料。根据统计分析可以发现:一个头实体存在多种关系的语料(S3类型和S4类型)占比总语料的46.15%,而一个尾实体存在多种关系的语料(S3类型和S7类型)占比总语料的2.33%,是一种极少的情况。因此,若是只将实体对间的关系融入到尾实体中,这将能够减少标签冲突的问题。基于这个思想,本发明提出了一种将关系类型只融入到尾实体中的标注策略,下面将详细介绍此策略。
本发明针对头实体和尾实体采用两种不同的标注策略:头实体采用基于“B”、“I”、“O”三元标注的策略;尾实体采用一种将关系融入到尾实体中的标注策略,即“B-x”、“I-x”、“O”的标注策略,其中“x”表示关系类型。下文以“金一先生是出生于海宁市的一名作家”作为示例语料进行详细说明。
“金一先生是出生于海宁市的一名作家”中包含了“(金一,职业,作家)”和“(金一,出生地,海宁市)”两个三元组,这条示例语料的头实体和尾实体的标注结果分别如图3和图4所示。由于两个三元组的头实体都是“金一”,因此在头实体标注中只标注了“金一”这个实体。而尾实体包含了“海宁市”和“作家”两个实体,所以尾实体标注了“海宁市”和“作家”两个实体。又因为尾实体“海宁市”与头实体“金一”是出生地(Birth Place,BP)关系,因此采用“B-BP”、“I-BP”、“I-BP”三个标签对“海宁市”这个实体进行标注。尾实体“作家”与头实体“金一”是职业(Profession,Pr)关系,故采用“B-Pr”和“I-Pr”这两个标签对尾实体“作家”进行标注。
本发明提出的基于头实体预测的实体和关系联合抽取模型JEBHE如图5所示,JEBHE模型首先采用BERT-BiLSTM-CRF的模型结构,根据三元标注的方法抽取出头实体,再使用一种融入了关系的标签对尾实体的标注识别,在对尾实体进行标注识别时,将头实体当作尾实体识别时的输入,利用先验概率的思想提高模型效果,由于尾实体中融入了实体对间的关系,所以在识别尾实体的同时就能够确定其所属三元组的关系,解决了中文语料当存在实体重叠现象时抽取不完全的问题和存在实体嵌套现象时无法抽取的问题。
JEBHE模型可以分为两个阶段,分别是第一阶段的头实体识别、第二阶段的尾实体和关系抽取。在第一阶段,即头实体识别阶段,采用基于“BIO”三元标注的策略,利用BiLSTM加CRF的模型结构进行头实体的识别,其中BiLSTM层如图6所示,由一个前向LSTM和一个后向LSTM组成由前向LSTM得到的输出是F={F1,F2,…,Fn},由后向LSTM得到的输出是B={B1,B2,…,Bn}。在F={F1,F2,…,Fn}中,F1的输入为E1,F2到Fn中,其中i大于等于2并且小于等于n,Fi的输入为/>在B={B1,B2,…,Bn}中,B1的输入为E1,B2到Bn中,/>其中i大于等于2并且小于等于n,Bi的输入为/>输入Ei对应输出向量/>最终BiLSTM的输出是矩阵P=(P1,P2,…,Pn)。
采用BIO三元标注的方法可以避免分词带来的错误,因为误差传递会导致实体抽取的错误,采用双向LSTM可以预测到标签的概率,再在双向LSTM后接CRF是为了让模型能够学习到BIO的特殊标注规则,如标签O后不能接标签I、标签B后不能紧跟标签B等,这些规则一般通过LSTM网络无法学习得到,因此在BiLSTM后接CRF。在第二阶段,即尾实体和关系抽取阶段,该阶段将第一阶段识别到的头实体作为输入,然后采用“B-x”、“I-x”、“O”作为标签,其中“x”代表关系类别,然后再次采用BiLSTM+CRF进行标注,从而完成尾实体和关系的抽取。
本发明在模型训练时,采取了一种新的负采样的方法,即将尾实体向量代替头实体的向量作为第二阶段的输入时,第二阶段对应的标注标签全为“O”标签,减少一些既可以作为头实体也可以作为尾实体的实体对模型产生的影响,提高了模型的效果。
本发明的积极效果是:
1、针对当语料存在实体重叠现象时,本发明能够尽可能的完全抽取其中存在的三元组。
2、针对当语料存在实体嵌套现象时,本发明由于是头实体和尾实体分别进行识别的,可以很好的解决此类问题。
3、本发明采用基于序列标注的方法,是一种语言无关的算法,不仅能够应用于中文,英文等其它语言同样可以适用。
四、附图说明
图1是中文数据集的百度知识数据集实体重叠情况统计。
图2是英文数据集的NYT数据集实体重叠情况统计。
图3是一个示例的头实体标注结果。
图4是一个示例的尾实体标注结果。
图5是本发明的模型框架图。
图6是Bi-LSTM层的结构图。
五、具体实施方式
本发明不同于以往的实体和关系抽取先识别实体对再判断关系的思路,本发明首先识别出头实体,然后将头实体作为尾实体识别的输入,并且将实体对之间的关系只融入到尾实体中,根据尾实体的标签进而确定实体对间的关系,从而解决了存在实体重叠现象时抽取不完全的问题和存在实体嵌套时无法抽取的问题。下面结合附图5以“金一先生是出生于海宁市的一名作家”为具体示例对本发明的具体实施方式作进一步的详细说明。
第一步,针对输入的内容通过BERT进行对其进行编码,然后在通过Bi-LSTM得到每个标签的概率,通过CRF得到最佳的标签序列,从而识别出头实体。
第二步,遍历第一步中识别出的头实体,取其平均向量与原编码向量相加,然后进行作为尾实体标注的输入。
第三步,尾实体识别,采用与头实体识别同样的模型结构,但是采用不同的标注策略,即将关系融入到尾实体中,进而在识别出尾实体的同时识别出关系,从而得到三元组。
本发明的用户使用场景举例:
在人物画像构建的过程中,可以根据百度百科、维基百科等网络上对其相关的介绍对其进行信息的抽取,一般情况下,对其进行的介绍一般采用的语言比较简练,会大量存在实体重叠的现象,而采用本发明对其进行实体和关系的抽取,则可以解决当存在实体重叠时抽取不完全的情况。
在上述场景中,本发明的方法取得了好的效果。
Claims (6)
1.基于头实体预测的实体和关系联合抽取方法,其特征在于:
第一步,针对输入的内容通过BERT层对其进行编码,然后再通过Bi-LSTM层得到每个标签的概率,通过CRF得到最佳的标签序列,从而识别出头实体;
第二步,遍历第一步中识别出的每个头实体,取其平均向量与原编码向量相加,然后作为尾实体标注的输入;
第三步,尾实体识别和关系识别,采用与头实体识别同样的模型结构,但是采用不同的标注策略,即将关系融入到尾实体中,进而在识别出尾实体的同时识别出关系,从而得到三元组。
2.如权利要求1所述的基于头实体预测的实体和关系联合抽取方法,其特征在于:将实体和关系抽取任务转化为头实体标注和尾实体标注的两个序列标注任务的方法。
3.如权利要求1所述的基于头实体预测的实体和关系联合抽取方法,其特征在于:将实体和关系抽取任务转化为头实体标注和尾实体标注的两个序列标注任务后,即通过将关系只融入到头实体中,或者只融入到尾实体中的方法。
4.如权利要求1所述的基于头实体预测的实体和关系联合抽取方法,其特征在于:在进行实体和关系抽取时,将实体和关系抽取任务转化为头实体标注和尾实体标注的两个序列标注任务后,将实体间的关系只融入到尾实体中的方法,在进行序列标注识别尾实体的时候同时得到关系。
5.如权利要求1所述的基于头实体预测的实体和关系联合抽取方法,其特征在于:在实体和关系抽取中,将实体和关系抽取任务转化为头实体标注和尾实体标注的两个序列标注任务后,将第一步识别的头实体的向量的平均值作为第二步识别尾实体时的输入。
6.如权利要求1所述的基于头实体预测的实体和关系联合抽取方法,其特征在于:在训练的过程中,采取的负采样的方法,将尾实体向量代替头实体的向量作为第二阶段的输入时,此时对应的标注标签全为“o”标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010589302.2A CN111832293B (zh) | 2020-06-24 | 2020-06-24 | 基于头实体预测的实体和关系联合抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010589302.2A CN111832293B (zh) | 2020-06-24 | 2020-06-24 | 基于头实体预测的实体和关系联合抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832293A CN111832293A (zh) | 2020-10-27 |
CN111832293B true CN111832293B (zh) | 2023-05-26 |
Family
ID=72898149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010589302.2A Active CN111832293B (zh) | 2020-06-24 | 2020-06-24 | 基于头实体预测的实体和关系联合抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832293B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905746A (zh) * | 2021-03-08 | 2021-06-04 | 国能大渡河流域水电开发有限公司 | 一种基于知识图谱技术的制度档案知识挖掘处理方法 |
CN113704481B (zh) * | 2021-03-11 | 2024-05-17 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、设备及存储介质 |
CN113221571B (zh) * | 2021-05-31 | 2022-07-01 | 重庆交通大学 | 基于实体相关注意力机制的实体关系联合抽取方法 |
CN113283243B (zh) * | 2021-06-09 | 2022-07-26 | 广东工业大学 | 一种实体与关系联合抽取的方法 |
US12045825B2 (en) | 2021-10-01 | 2024-07-23 | International Business Machines Corporation | Linguistic transformation based relationship discovery for transaction validation |
CN114298052B (zh) * | 2022-01-04 | 2023-06-20 | 中国人民解放军国防科技大学 | 一种基于概率图的实体联合标注关系抽取方法和系统 |
CN114676840A (zh) * | 2022-01-27 | 2022-06-28 | 广州数说故事信息科技有限公司 | 一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009285A (zh) * | 2017-12-22 | 2018-05-08 | 重庆邮电大学 | 基于自然语言处理的林业生态环境人机交互方法 |
CN109165385A (zh) * | 2018-08-29 | 2019-01-08 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN110008469A (zh) * | 2019-03-19 | 2019-07-12 | 桂林电子科技大学 | 一种多层次命名实体识别方法 |
CN110781683A (zh) * | 2019-11-04 | 2020-02-11 | 河海大学 | 一种实体关系联合抽取方法 |
CN110826303A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于弱监督学习的联合信息抽取方法 |
CN110990580A (zh) * | 2019-11-02 | 2020-04-10 | 国网辽宁省电力有限公司电力科学研究院 | 知识图谱的构建方法、构建装置、计算机设备及存储介质 |
CN111159485A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9665643B2 (en) * | 2011-12-30 | 2017-05-30 | Microsoft Technology Licensing, Llc | Knowledge-based entity detection and disambiguation |
CN109741732B (zh) * | 2018-08-30 | 2022-06-21 | 京东方科技集团股份有限公司 | 命名实体识别方法、命名实体识别装置、设备及介质 |
-
2020
- 2020-06-24 CN CN202010589302.2A patent/CN111832293B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009285A (zh) * | 2017-12-22 | 2018-05-08 | 重庆邮电大学 | 基于自然语言处理的林业生态环境人机交互方法 |
CN109165385A (zh) * | 2018-08-29 | 2019-01-08 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN110008469A (zh) * | 2019-03-19 | 2019-07-12 | 桂林电子科技大学 | 一种多层次命名实体识别方法 |
CN110990580A (zh) * | 2019-11-02 | 2020-04-10 | 国网辽宁省电力有限公司电力科学研究院 | 知识图谱的构建方法、构建装置、计算机设备及存储介质 |
CN110781683A (zh) * | 2019-11-04 | 2020-02-11 | 河海大学 | 一种实体关系联合抽取方法 |
CN110826303A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于弱监督学习的联合信息抽取方法 |
CN111159485A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
Non-Patent Citations (6)
Title |
---|
Thai Named Entity Recognition Using Bi-LSTM-CRF with Word and Character Representation;Suphanut Thattinaphanich等;international Conference on Information Technology;第149页-154页 * |
基于 BLSTM-CRF 的领域知识点实体识别技术;周海华;软件;第40卷(第2期);第1页-5页 * |
基于意图识别的法院客服问答系统研究与实现;王浩;中国优秀硕士学位论文全文数据库社会科学Ⅰ辑(第2期);第G120-471页 * |
基于深度学习的实体和关系的联合抽取研究;艾鑫;现代计算机(第06期);第14页-17页 * |
融合对抗训练的端到端知识三元组联合抽取;黄培馨等;计算机研究与发展;第56卷(第12期);第2536页-2548页 * |
面向法律文本的三元组抽取模型;陈彦光;计算机工程;第47卷(第5期);第277页-284页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111832293A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111832293B (zh) | 基于头实体预测的实体和关系联合抽取方法 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
CN113377897B (zh) | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN109492113A (zh) | 一种面向软件缺陷知识的实体、关系联合抽取方法 | |
CN112541337B (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 | |
CN110597961A (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN113723103A (zh) | 融合多源知识的中文医学命名实体和词性联合学习方法 | |
CN113312922A (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN115168541A (zh) | 基于框架语义映射和类型感知的篇章事件抽取方法及系统 | |
CN116304748A (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN115935959A (zh) | 一种低资源黏着语序列标注的方法 | |
CN111553157A (zh) | 一种基于实体替换的对话意图识别方法 | |
CN113901813A (zh) | 一种基于主题特征和隐式句子结构的事件抽取方法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN111368532B (zh) | 一种基于lda的主题词嵌入消歧方法及系统 | |
CN110210033B (zh) | 基于主述位理论的汉语基本篇章单元识别方法 | |
CN112613316B (zh) | 一种生成古汉语标注模型的方法和系统 | |
CN114637852A (zh) | 医学文本的实体关系抽取方法、装置、设备及存储介质 | |
CN111428475B (zh) | 分词词库的构建方法、分词方法、装置及存储介质 | |
CN114510569A (zh) | 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法 | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |