CN111832293A - 基于头实体预测的实体和关系联合抽取方法 - Google Patents

基于头实体预测的实体和关系联合抽取方法 Download PDF

Info

Publication number
CN111832293A
CN111832293A CN202010589302.2A CN202010589302A CN111832293A CN 111832293 A CN111832293 A CN 111832293A CN 202010589302 A CN202010589302 A CN 202010589302A CN 111832293 A CN111832293 A CN 111832293A
Authority
CN
China
Prior art keywords
entity
head
tail
extraction
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010589302.2A
Other languages
English (en)
Other versions
CN111832293B (zh
Inventor
陈彦如
王浩
陈硕
石静
高明珠
林幼玲
宋岱松
邹可欣
陈良银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202010589302.2A priority Critical patent/CN111832293B/zh
Publication of CN111832293A publication Critical patent/CN111832293A/zh
Application granted granted Critical
Publication of CN111832293B publication Critical patent/CN111832293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于头实体预测的实体和关系联合抽取方法。本发明通过只将关系融入尾实体标签的标注策略,将实体和关系抽取任务分解为两个序列标注任务,即头实体识别标注和尾实体识别标注,并且将头实体的向量作为尾实体标注识别任务的输入,用先验概率的思想提高模型的效果。尾实体的标注标签在完成尾实体识别的同时,确定实体对间的关系,从而解决了存在实体重叠现象时抽取不完全的问题和存在实体嵌套时传统方法无法抽取的问题。

Description

基于头实体预测的实体和关系联合抽取方法
一、技术领域
本发明涉及自然语言处理领域,尤其涉及信息抽取,具体是一种基于头实体预测的实体和关系联合抽取方法。
二、背景技术
现今是知识经济时代,随着互联网技术的蓬勃发展,社会信息化程度的不断提高,数据资源呈爆炸式增长,随之而来的是海量文本数据的积累。如何从大量的非结构化文本数据资源中迅速并准确地获取需要的信息,引起越来越多人的关注,而实体和关系抽取便是应运而生的一种技术手段。实体和关系抽取是指从非结构化文本中抽取实体对以及实体对之间的关系,实体对是指在一句或者一段文本中出现的两个可能存在关系的实体,实体包括命名性指称、名词性指称和代词性指称;关系是指两个或者多个实体间存在的某种联系。
实体和关系抽取包含了命名实体识别(named entity recognition,NER)和关系抽取(relation extraction,RE)两个子任务。命名实体识别是指识别出文本中的实体以及该实体的类别,关系抽取是指识别出两个或多个实体之间存在的语义关系。通常情况下,实体和关系抽取的结果使用三元组进行表示,即采用“(e1,r,e2)”的形式进行表示,其中e1和e2表示两个实体,r表示两个实体之间的关系,为了方便区分e1和e2,本文中将e1称之为头实体(head entity),将e2称之为尾实体(tail entity)。
为了实现从非结构文本中进行实体和关系的抽取,先前多数研究者是将目标分别集中于实体识别和关系分类,不断提高实体识别的准确率和实体对间关系判断的准确率进而提高实体和关系抽取的效果。首先是有学者提出了基于模板匹配的实体和关系抽取方法,基于模板的方法需要相关领域专家首先设定具有一定规则的模板,然后将非结构化文本与该模板进行匹配,将符合该模板的信息提取出来,进而完成关系的抽取。其中比较著名的有RESS系统(Aone C,Ramos-Santacruz M.REES:a large-scale relation and eventextraction system[C]//Proceedings of the sixth conference on Applied naturallanguage processing.Association for Computational Linguistics,2000:76-83)和GATE系统(Cunningham H,Maynard D,Bontcheva K,et al.GATE:an architecture fordevelopment of robust HLT applications[C]//Proceedings of the 40th annualmeeting on association for computational linguistics.Association forComputational Linguistics,2002:168-175)。基于模板的实体和关系抽取方法,作为早期的实体和关系抽取方法,在很大程度上减轻了人员的工作量,提高了效率,但是其效果严重依赖于人工构建的模板,并且迁移性差。为了解决基于模板的方法的实体和关系抽取存在的问题,Yu等人(Yu X,Lam W.Jointly identifying entities and extractingrelations in encyclopedia text via a graphical model approach[C]//Proceedingsof the 23rd International Conference on Computational Linguistics:Posters.Association for Computational Linguistics,2010:1399-1407.)在首次提出实体和关系的联合抽取模型,即通过参数共享的方法,将实体识别和关系判断联系起来,但是仍然依赖人工构建特征,特征构建时会依赖外部自然语言处理工具,而后,Katiyar等人(Katiyar A,Cardie C.Going out on a limb:Joint extraction of entity mentionsand relations without dependency trees[C]//Proceedings of the 55th AnnualMeeting of the Association for Computational Linguistics(Volume1:LongPapers).2017:917-928.)在提出了一种结合注意力机制和双向LSTM的实体和关系抽取模型,该模型减少对自然语言处理工具包的依赖和人工特征的提取,直接通过神经网络进行实体和关系的抽取,但是当语料存在实体重叠现象的时候,会存在抽取不完全的问题。最近,Zheng等人(Zheng S,Wang F,Bao H,et al.Joint extraction of entities andrelations based on a novel tagging scheme[C]//Proceedings of the 55th AnnualMeeting of the Association for Computational Linguistics(Volume 1:LongPapers).2017:1227-1236.)提出了一种利用特殊的标注策略将关系融入到标签中,完成将实体识别和关系判断这两个任务整合成一个任务。这不仅能够充分利用实体识别和关系判断之间的内在联系,还可以只需完成对原输入文本作序列标注建模任务,从而完成对实体和关系的抽取。但是,当语料存在实体重叠现象的时候,该标注策略将会发生标签冲突的问题。这可以通过就近配对原则解决标签冲突问题,然而当语料存在实体重叠现象时,就近匹配原则同样会导致存在抽取不完全的问题。上述这些方法都只考虑到每个实体只存在于一个三元组中的情况,没有考虑一个实体可能同时出现在多个三元组中,即实体重叠的现象。如“金庸先生是出生于海宁市的一名作家”中包含了出生地、职业关系,这句话实际上包含了“(金庸,出生地,海宁市)和(金庸,职业,作家)”两个三元组,而采用上述方法却只能抽取出其中的一个三元组,即存在三元组抽取不完全的问题。并且实体重叠现象并不是特例,而是普遍存在。本文对中文的百度知识抽取数据集和英文NYT数据集做了分析,结果发现实体重叠情况在这两种数据集中分别占53.8%和24.8%,分别如图1和图2所示。在中文的百度知识抽取数据集中超过半数的语料中都存在着实体重叠的现象。因此,对中文的实体和关系抽取时,语料中出现的实体重叠现象更加不能被忽略。而在语料存在实体重叠现象的时候,上述关系抽取模型和算法将无法完全抽取出语料中可能存在的三元组,这必将造成信息的丢失。
在中文文本中,语料中存在的实体嵌套的现象同样不能忽略,实体嵌套现象是指一个实体嵌套在另一个实体中,如从“台北大安森林公园”中抽取的目标三元组是“(台北大安森林公园,位于,台北)”,尾实体“台北”嵌套在头实体“台北大安森林公园”中,这种实体嵌套的情况传统的实体和关系抽取算法无法进行抽取。
综上所述,实体和关系抽取过程中,当语料中存在实体重叠现象时导致三元组抽取不完全的问题、传统方法在语料存在实体嵌套现象时无法抽取的问题,这两个问题仍然值得进一步研究。为此,本发明首先详细分析了实体重叠的情况,然后根据实体重叠情况提出了一种基于头实体预测的实体和关系联合抽取模型(Joint Extraction of Entitiesand Relations Based on Head Entity Prediction,JEBHE),简称JEBHE模型,解决了当语料存在实体重叠现象时抽取不完全的问题以及当语料存在实体嵌套时无法抽取的问题。
三、发明内容
本发明的目的在于解决当语料中存在实体重叠现象时导致三元组抽取不完全的问题、以及传统方法在语料存在实体嵌套现象时无法抽取的问题。
本发明的目的是这样达到的:
本文通过详细分析中文实体重叠现象,通过只将关系融入尾实体标签的标注策略,将实体和关系抽取任务分解为两个序列标注任务,即头实体识别标注和尾实体识别标注,并且将头实体的向量作为尾实体标注识别任务的输入,用先验概率的思想提高模型的效果。尾实体的标注标签在完成尾实体识别的同时,确定实体对间的关系,从而解决了存在实体重叠现象时抽取不完全的问题和存在实体嵌套时传统方法无法抽取的问题。
具体做法是:
本发明首先194734条语料分析了实体重叠情况,根据一条语料中是否存在实体重叠以及实体重叠的类型并将其详细划分为S1、S2、S3、S4、S5、S6、S7、S8共计8种类型,其中S1表示一条语料中只含有一个头实体、一种关系和一个尾实体的情况,S2表示一条语料中只含有一个头实体、一种关系和多个尾实体的情况,S3表示一条语料中只含有一个头实体、多种关系和一个尾实体的情况,S4表示一条语料中只含有一个头实体、多种关系和多个尾实体的情况,S5表示一条语料中只含有多个头实体、一种关系和一个尾实体的情况,S6表示一条语料中只含有多个头实体、一种关系和多个尾实体的情况,S7表示一条语料中只含有多个头实体、多种关系和一个尾实体的情况,S8表示一条语料中只含有多个头实体、多种关系和多个尾实体的情况。在统计的194734条语料,S1-S8各类型的语料条数分别为:89888条、5130条、3255条、86620条、5333条、1141条、1290条、2077条,总计194734条语料。根据统计分析可以发现:一个头实体存在多种关系的语料(S3类型和S4类型)占比总语料的46.15%,而一个尾实体存在多种关系的语料(S3类型和S7类型)占比总语料的2.33%,是一种极少的情况。因此,若是只将实体对间的关系融入到尾实体中,这将能够减少标签冲突的问题。基于这个思想,本发明提出了一种将关系类型只融入到尾实体中的标注策略,下面将详细介绍此策略。
本发明针对头实体和尾实体采用两种不同的标注策略:头实体采用基于“B”、“I”、“O”三元标注的策略;尾实体采用一种将关系融入到尾实体中的标注策略,即“B-x”、“I-x”、“O”的标注策略,其中“x”表示关系类型。下文以“金庸先生是出生于海宁市的一名作家”作为示例语料进行详细说明。
“金庸先生是出生于海宁市的一名作家”中包含了“(金庸,职业,作家)”和“(金庸,出生地,海宁市)”两个三元组,这条示例语料的头实体和尾实体的标注结果分别如图3和图4所示。由于两个三元组的头实体都是“金庸”,因此在头实体标注中只标注了“金庸”这个实体。而尾实体包含了“海宁市”和“作家”两个实体,所以尾实体标注了“海宁市”和“作家”两个实体。又因为尾实体“海宁市”与头实体“金庸”是出生地(Birth Place,BP)关系,因此采用“B-BP”、“I-BP”、“I-BP”三个标签对“海宁市”这个实体进行标注。尾实体“作家”与头实体“金庸”是职业(Profession,Pr)关系,故采用“B-Pr”和“I-Pr”这两个标签对尾实体“作家”进行标注。
本发明提出的基于头实体预测的实体和关系联合抽取模型JEBHE如图5所示,JEBHE模型首先采用BERT-BiLSTM-CRF的模型结构,根据三元标注的方法抽取出头实体,再使用一种融入了关系的标签对尾实体的标注识别,在对尾实体进行标注识别时,将头实体当作尾实体识别时的输入,利用先验概率的思想提高模型效果,由于尾实体中融入了实体对间的关系,所以在识别尾实体的同时就能够确定其所属三元组的关系,解决了中文语料当存在实体重叠现象时抽取不完全的问题和存在实体嵌套现象时无法抽取的问题。
JEBHE模型可以分为两个阶段,分别是第一阶段的头实体识别、第二阶段的尾实体和关系抽取。在第一阶段,即头实体识别阶段,采用基于“BIO”三元标注的策略,利用BiLSTM加CRF的模型结构进行头实体的识别,其中BiLSTM层如图6所示,由一个前向LSTM和一个后向LSTM组成由前向LSTM得到的输出是F={F1,F2,…,Fn},由后向LSTM得到的输出是B={B1,B2,…,Bn}。在F={F1,F2,…,Fn}中,F1的输入为E1,F2到Fn中,
Figure BDA0002555777970000051
其中i大于等于2并且小于等于n,Fi的输入为
Figure BDA0002555777970000052
在B={B1,B2,…,Bn}中,B1的输入为E1,B2到Bn中,
Figure BDA0002555777970000053
其中i大于等于2并且小于等于n,Bi的输入为
Figure BDA0002555777970000054
输入Ei对应输出向量
Figure BDA0002555777970000055
最终BiLSTM的输出是矩阵P=(P1,P2,…,Pn)。
采用BIO三元标注的方法可以避免分词带来的错误,因为误差传递会导致实体抽取的错误,采用双向LSTM可以预测到标签的概率,再在双向LSTM后接CRF是为了让模型能够学习到BIO的特殊标注规则,如标签O后不能接标签I、标签B后不能紧跟标签B等,这些规则一般通过LSTM网络无法学习得到,因此在BiLSTM后接CRF。在第二阶段,即尾实体和关系抽取阶段,该阶段将第一阶段识别到的头实体作为输入,然后采用“B-x”、“I-x”、“O”作为标签,其中“x”代表关系类别,然后再次采用BiLSTM+CRF进行标注,从而完成尾实体和关系的抽取。
本发明在模型训练时,采取了一种新的负采样的方法,即将尾实体向量代替头实体的向量作为第二阶段的输入时,第二阶段对应的标注标签全为“O”标签,减少一些既可以作为头实体也可以作为尾实体的实体对模型产生的影响,提高了模型的效果。
本发明的积极效果是:
1、针对当语料存在实体重叠现象时,本发明能够尽可能的完全抽取其中存在的三元组。
2、针对当语料存在实体嵌套现象时,本发明由于是头实体和尾实体分别进行识别的,可以很好的解决此类问题。
3、本发明采用基于序列标注的方法,是一种语言无关的算法,不仅能够应用于中文,英文等其它语言同样可以适用。
四、附图说明
图1是中文数据集的百度知识数据集实体重叠情况统计。
图2是英文数据集的NYT数据集实体重叠情况统计。
图3是一个示例的头实体标注结果。
图4是一个示例的尾实体标注结果。
图5是本发明的模型框架图。
图6是Bi-LSTM层的结构图。
五、具体实施方式
本发明不同于以往的实体和关系抽取先识别实体对再判断关系的思路,本发明首先识别出头实体,然后将头实体作为尾实体识别的输入,并且将实体对之间的关系只融入到尾实体中,根据尾实体的标签进而确定实体对间的关系,从而解决了存在实体重叠现象时抽取不完全的问题和存在实体嵌套时无法抽取的问题。下面结合附图5以“金庸先生是出生于海宁市的一名作家”为具体示例对本发明的具体实施方式作进一步的详细说明。
第一步,针对输入的内容通过BERT进行对其进行编码,然后在通过Bi-LSTM得到每个标签的概率,通过CRF得到最佳的标签序列,从而识别出头实体。
第二步,遍历第一步中识别出的头实体,取其平均向量与原编码向量相加,然后进行作为尾实体标注的输入。
第三步,尾实体识别,采用与头实体识别同样的模型结构,但是采用不同的标注策略,即将关系融入到尾实体中,进而在识别出尾实体的同时识别出关系,从而得到三元组。
本发明的用户使用场景举例:
在人物画像构建的过程中,可以根据百度百科、维基百科等网络上对其相关的介绍对其进行信息的抽取,一般情况下,对其进行的介绍一般采用的语言比较简练,会大量存在实体重叠的现象,而采用本发明对其进行实体和关系的抽取,则可以解决当存在实体重叠时抽取不完全的情况。
在上述场景中,本发明的方法取得了好的效果。

Claims (6)

1.基于头实体预测的实体和关系联合抽取方法,其特征在于:
本发明不同于以往的实体和关系抽取先识别实体对再判断关系的思路,本发明首先识别出头实体,然后将头实体作为尾实体识别的输入,并且将实体对之间的关系只融入到尾实体中,根据尾实体的标签进而确定实体对间的关系,从而解决了存在实体重叠现象时抽取不完全的问题和存在实体嵌套时无法抽取的问题,具体来说:
第一步,针对输入的内容通过BERT层进行对其进行编码,然后再通过Bi-LSTM层得到每个标签的概率,通过CRF得到最佳的标签序列,从而识别出头实体;
第二步,遍历第一步中识别出的每个头实体,取其平均向量与原编码向量相加,然后进行作为尾实体标注的输入;
第三步,尾实体识别和关系识别,采用与头实体识别同样的模型结构,但是采用不同的标注策略,即将关系融入到尾实体中,进而在识别出尾实体的同时识别出关系,从而得到三元组。
2.如权利要求1所述的基于头实体预测的实体和关系联合抽取方法,其特征在于:通过特殊的标注策略,将实体和关系抽取任务转化为头实体标注和尾实体标注的两个序列标注任务的方法。
3.如权利要求1所述的基于头实体预测的实体和关系联合抽取方法,其特征在于:将实体和关系抽取任务转化为头实体标注和尾实体标注的两个序列标注任务后,即通过将关系只融入到头实体中,或者只融入的尾实体中的方法。
4.如权利要求1所述的基于头实体预测的实体和关系联合抽取方法,其特征在于:在进行实体和关系抽取时,将实体和关系抽取任务转化为头实体标注和尾实体标注的两个序列标注任务后,将实体间的关系只融入到尾实体中的方法,在进行序列标注识别尾实体的时候同时得到关系。
5.如权利要求1所述的基于头实体预测的实体和关系联合抽取方法,其特征在于:在实体和关系抽取中,将实体和关系抽取任务转化为头实体标注和尾实体标注的两个序列标注任务后,将第一步识别的头实体的向量的平均值作为第二步识别尾实体时的输入,利用先验概率的思想提高实体和关系抽取模型效果的方法。
6.本发明在模型训练时,采取的负采样的方法,其特征在于:在训练的过程中,将尾实体向量代替头实体的向量作为第二阶段的输入时,此时对应的标注标签全为“o”标签,减少一些既可以作为头实体也可以作为尾实体的实体对模型产生的影响,提高了模型的效果。
CN202010589302.2A 2020-06-24 2020-06-24 基于头实体预测的实体和关系联合抽取方法 Active CN111832293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010589302.2A CN111832293B (zh) 2020-06-24 2020-06-24 基于头实体预测的实体和关系联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010589302.2A CN111832293B (zh) 2020-06-24 2020-06-24 基于头实体预测的实体和关系联合抽取方法

Publications (2)

Publication Number Publication Date
CN111832293A true CN111832293A (zh) 2020-10-27
CN111832293B CN111832293B (zh) 2023-05-26

Family

ID=72898149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010589302.2A Active CN111832293B (zh) 2020-06-24 2020-06-24 基于头实体预测的实体和关系联合抽取方法

Country Status (1)

Country Link
CN (1) CN111832293B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905746A (zh) * 2021-03-08 2021-06-04 国能大渡河流域水电开发有限公司 一种基于知识图谱技术的制度档案知识挖掘处理方法
CN113221571A (zh) * 2021-05-31 2021-08-06 重庆交通大学 基于实体相关注意力机制的实体关系联合抽取方法
CN113283243A (zh) * 2021-06-09 2021-08-20 广东工业大学 一种实体与关系联合抽取的方法
CN113704481A (zh) * 2021-03-11 2021-11-26 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质
CN114298052A (zh) * 2022-01-04 2022-04-08 中国人民解放军国防科技大学 一种基于概率图的实体联合标注关系抽取方法和系统
CN114676840A (zh) * 2022-01-27 2022-06-28 广州数说故事信息科技有限公司 一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130173604A1 (en) * 2011-12-30 2013-07-04 Microsoft Corporation Knowledge-based entity detection and disambiguation
CN108009285A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 基于自然语言处理的林业生态环境人机交互方法
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN110008469A (zh) * 2019-03-19 2019-07-12 桂林电子科技大学 一种多层次命名实体识别方法
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN110826303A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于弱监督学习的联合信息抽取方法
CN110990580A (zh) * 2019-11-02 2020-04-10 国网辽宁省电力有限公司电力科学研究院 知识图谱的构建方法、构建装置、计算机设备及存储介质
CN111159485A (zh) * 2019-12-30 2020-05-15 科大讯飞(苏州)科技有限公司 尾实体链接方法、装置、服务器及存储介质
US20200251097A1 (en) * 2018-08-30 2020-08-06 Boe Technology Group Co., Ltd. Named entity recognition method, named entity recognition equipment and medium

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130173604A1 (en) * 2011-12-30 2013-07-04 Microsoft Corporation Knowledge-based entity detection and disambiguation
CN108009285A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 基于自然语言处理的林业生态环境人机交互方法
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
US20200251097A1 (en) * 2018-08-30 2020-08-06 Boe Technology Group Co., Ltd. Named entity recognition method, named entity recognition equipment and medium
CN110008469A (zh) * 2019-03-19 2019-07-12 桂林电子科技大学 一种多层次命名实体识别方法
CN110990580A (zh) * 2019-11-02 2020-04-10 国网辽宁省电力有限公司电力科学研究院 知识图谱的构建方法、构建装置、计算机设备及存储介质
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN110826303A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于弱监督学习的联合信息抽取方法
CN111159485A (zh) * 2019-12-30 2020-05-15 科大讯飞(苏州)科技有限公司 尾实体链接方法、装置、服务器及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
SUPHANUT THATTINAPHANICH等: "Thai Named Entity Recognition Using Bi-LSTM-CRF with Word and Character Representation", INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY *
周海华: "基于 BLSTM-CRF 的领域知识点实体识别技术", 软件 *
王浩: "基于意图识别的法院客服问答系统研究与实现", 中国优秀硕士学位论文全文数据库社会科学Ⅰ辑 *
艾鑫: "基于深度学习的实体和关系的联合抽取研究", 现代计算机 *
陈彦光: "面向法律文本的三元组抽取模型", 计算机工程 *
黄培馨等: "融合对抗训练的端到端知识三元组联合抽取", 计算机研究与发展 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905746A (zh) * 2021-03-08 2021-06-04 国能大渡河流域水电开发有限公司 一种基于知识图谱技术的制度档案知识挖掘处理方法
CN113704481A (zh) * 2021-03-11 2021-11-26 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质
CN113704481B (zh) * 2021-03-11 2024-05-17 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质
CN113221571A (zh) * 2021-05-31 2021-08-06 重庆交通大学 基于实体相关注意力机制的实体关系联合抽取方法
CN113221571B (zh) * 2021-05-31 2022-07-01 重庆交通大学 基于实体相关注意力机制的实体关系联合抽取方法
CN113283243A (zh) * 2021-06-09 2021-08-20 广东工业大学 一种实体与关系联合抽取的方法
CN113283243B (zh) * 2021-06-09 2022-07-26 广东工业大学 一种实体与关系联合抽取的方法
CN114298052A (zh) * 2022-01-04 2022-04-08 中国人民解放军国防科技大学 一种基于概率图的实体联合标注关系抽取方法和系统
CN114676840A (zh) * 2022-01-27 2022-06-28 广州数说故事信息科技有限公司 一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质

Also Published As

Publication number Publication date
CN111832293B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN111832293A (zh) 基于头实体预测的实体和关系联合抽取方法
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及系统
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN113743097B (zh) 基于跨度共享和语法依存关系增强的情感三元组抽取方法
CN112883193A (zh) 一种文本分类模型的训练方法、装置、设备以及可读介质
CN111259153A (zh) 一种完全注意力机制的属性级情感分析方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN114881043B (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN116204674A (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
Al-Tameemi et al. Multi-model fusion framework using deep learning for visual-textual sentiment classification
CN112507717A (zh) 融合实体关键字特征的医疗领域实体分类方法
CN116821351A (zh) 一种基于跨度信息的端到端电力知识图谱关系抽取方法
Moloi et al. Natural Language Processing in Strategy and Implementation
CN115169285A (zh) 一种基于图解析的事件抽取方法及系统
CN114756679A (zh) 基于交谈注意力机制的中文医学文本实体关系联合抽取方法
Wen et al. Few-shot named entity recognition with joint token and sentence awareness
CN113076421A (zh) 一种社交噪音文本实体关系抽取优化方法及系统
CN112487134A (zh) 一种基于极简摘要策略的科技文本问题方法抽取的方法
CN115358239B (zh) 一种命名实体和关系识别方法及存储介质
CN112613316B (zh) 一种生成古汉语标注模型的方法和系统
Wang et al. Identification of local adverse drug reactions in xinjiang based on attention mechanism and BiLSTM-CNN hybrid network
CN114611487B (zh) 基于动态词嵌入对齐的无监督泰语依存句法分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant