CN109165385A - 一种基于实体关系联合抽取模型的多三元组抽取方法 - Google Patents

一种基于实体关系联合抽取模型的多三元组抽取方法 Download PDF

Info

Publication number
CN109165385A
CN109165385A CN201810993387.3A CN201810993387A CN109165385A CN 109165385 A CN109165385 A CN 109165385A CN 201810993387 A CN201810993387 A CN 201810993387A CN 109165385 A CN109165385 A CN 109165385A
Authority
CN
China
Prior art keywords
entity
triple
lstm
extraction model
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810993387.3A
Other languages
English (en)
Other versions
CN109165385B (zh
Inventor
赵翔
谭真
郭爱博
葛斌
郭得科
肖卫东
唐九阳
黄旭倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201810993387.3A priority Critical patent/CN109165385B/zh
Publication of CN109165385A publication Critical patent/CN109165385A/zh
Priority to US16/524,191 priority patent/US20200073933A1/en
Application granted granted Critical
Publication of CN109165385B publication Critical patent/CN109165385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于包括步骤:获取文本,对目标文本进行分句处理,并对句子中的每个单词进行位置、类型、是否涉及关系标记;建立实体关系联合抽取模型;对实体关系联合抽取模型进行训练;根据实体关系联合抽取模型进行三元组抽取;本发明设计的三部分标记方案,在实体关系联合抽取的过程中能够排除与目标关系不相关的实体;此外,本发明一种基于实体关系联合抽取模型的多三元组抽取方法可以用来抽取多三元组,并且基于本发明三元组抽取方法的模型与其它模型相比有更强的多三元组抽取能力。

Description

一种基于实体关系联合抽取模型的多三元组抽取方法
技术领域
本发明涉及文本处理技术领域,特别是指一种基于实体关系联合抽取模型的多三元组抽取方法。
背景技术
三元组抽取得到结构化的信息(同时抽取两个实体和他们之间的关系)来自非结构化的文本,这是自动知识库构建的一个重要的和关键步骤,传统的模型分别使用命名实体识别(NER)(Shaalan,2014)和关系分类(RC)(Rink and Harabagiu,2010)抽取实体和关系,产生最后的三元组。这种模块化的方法不能充分捕捉和利用NER和RC的任务之间的相关性,并容易级联错误(Li and Ji,2014)。
为了克服这些缺点,有人提出了联合抽取模型。他们中的大多数是特征结构模型(Kate and Mooney,2010;Yu and Lam,2010;Chan and Roth,2011;Miwa and Sasaki,2014),这需要过多的人工干预和监督的自然语言处理工具来构建多元化、复杂化的特征。最近,已经提出了一些神经网络模型来联合抽取实体和关系。郑先生等人利用双向长短期记忆网络(Bi-LSTM)来学习联合的隐藏特征,然后用长短期记忆网络(LSTM)抽取实体,用卷积神经网络(CNN)抽取关系(Zheng et al.,2017a);Miwa和Bansal用一个端到端(end-to-end)的模型抽取的实体,依赖树用来确定关系(Miwa and Bansal,2016)。这两个模型首先识别实体,然后为每一对可能抽取的实体选择一个语义关系,在这种情况下,RC分类器的精度相对较低,但召回率较高,因为它被许多属于其他种类的对所误导;同时,有些模型只能抽取出有限的目标关系。郑先生等人把联合抽取问题转化成标注问题,用一个统一的标注方案标注实体和关系标签,利用端到端的模型来解决这个问题(Zheng et al.,2017b);然而,在这个模型中,每一个实体在每个句子中都被限制只涉及一个关系。Katiyar和Cardie也用双向长短期记忆网络(Bi-LSTM)抽取实体,并添加一个注意力机制抽取关系(Katiyar和Cardie,2017),该模型假定一个实体只能与句子中的一个前置实体相关,这两个模型(部分)忽略了与一个实体相关联的多个关系;在这种情况下,RC任务执行的精度相对较高,但召回率较低,因为RC的候选范围是有限的
因此,现有的联合模型不仅在不实用的约束下抽取有限的关系(一句话中只有一个关系,一个实体只关联到一个前置实体),或简单地产生太多的候选人进行RC分类(所有可能的实体对关系)。深入的调查表明,主要原因在于他们忽视多三元组的影响,这在现存的大型语料库中很常见,以图2中的新闻句为例,可以看出,与实体巴黎有两种联系,即(唐纳德·特朗普,到达,巴黎)和(巴黎,位于,法国),然而,上述所有的模型都无法完全捕捉到它们,特别是,模型(Zheng et al.,2017b)假设一个实体如巴黎只属于一个三元组,因此,两个三元组会隐藏。模型(Katiyar and Cardie,2017)发现了一个实体和其一个前置实体的关系,在这种情况下,从巴黎到唐纳德·特朗普和到法国的关系都不会被发现。另一方面,模型(Miwa and Bansal,2016;Zheng et al.,2017a)认为,每一个实体对都有某一种关系,在这种情况下,大量的对需要被扔到一个叫做“其他”的类中,但是“其他”的特性在分类器训练中没有学到,因此,嘈杂的实体(爱丽舍宫)和像唐纳德·特朗普,爱丽舍宫这样的非预期的关系混淆了分类器。因此,可能无法正确地检测/选择多三元组的目标关系。
发明内容
有鉴于此,本发明的目的在于提出一种基于实体关系联合抽取模型的多三元组抽取方法,用于对句子中的多三元组进行有效抽取。
基于上述目的本发明提供的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于包括以下步骤:
获取文本,对目标文本进行分句处理,并对句子中的每个单词进行标记;
建立实体关系联合抽取模型;
对所述实体关系联合抽取模型进行训练;
根据所述实体关系联合抽取模型进行三元组抽取。
所述对句子中的每个单词进行标记包括对句子中的每个单词进行位置、类型、是否涉及关系三部分进行标记。
所述关系抽取模型包括用于将具有单一语义特征(1-hot)表示的单词转换为嵌入向量的嵌入层、用于对输入句子进行编码的双向长短期记忆Bi-LSTM层和用于解码的CRF层。
进一步,对于任意三元组t=(e1,e2,r)∈T,所述嵌入层包括从所述嵌入层获得头实体向量e1、尾实体向量e2和关系向量r,为更好地保留实体关系特征,要求e1+r≈e2,评分函数为:
其中,T为三元组集合、t为任意三元组、e1为头实体向量、e2为尾实体向量、r为关系向量、f(t)为评分函数。
进一步,所述Bi-LSTM层包括前向LSTM层和反向LSTM层,为防止双向LSTM输出实体特征出现偏差,要求评分函数为:
其中,为前向LSTM输出的评分函数、为反向LSTM输出的评分函数、分别为前向LSTM输出的头实体向量和尾实体向量、分别为反向LSTM输出的头实体向量和尾实体向量。
进一步,所述对所述实体关系联合抽取模型进行训练包括建立损失函数,当所述损失函数越小时,模型的精度越高,模型能够更好的抽取句子中的三元组,所述损失函数为:
L=Le+λLr
其中,L为损失函数、Le为实体抽取损失、Lr为关系抽取损失、λ为权重超参数。
进一步,所述实体抽取损失Le取正确标记概率p(y|X)的最大值,所述实体抽取损失Le为:
所述关系抽取损失函数为:
其中,X为输入的句子序列;Y表示X可能生成的所有序列;y指其中的一个预测序列;为CRF分数;Lem为训练集上的基于边界的排序损失函数;为前向LSTM损失函数;为反向LSTM损失函数;指预测的特征向量。
进一步,所述训练集上的基于边界的排序损失函数为:
所述前向LSTM损失函数为:
所述反向LSTM损失函数为:
其中,t为任意一个三元组;T为三元组集合;t`为负三元组;T`为负三元组集合;f(t')为负三元组的评分函数;为负三元组前向LSTM输出的评分函数;为负三元组反向LSTM输出的评分函数;γ为用于约束正样例和负样例之间边界的超参数。
进一步,所述根据实体关系联合抽取模型进行三元组抽取包括:
用下列得分函数的得最高分的序列来对所述实体标签进行预测:
为假设的通过预测的实体的集合,对于候选实体对生成初始的三元组集合所述初始三元组满足函数对于每一实体对,当满足:
时,即为唯一选择的三元组;
其中,m是候选实体的数量;指每个单词的实体预测结果;指根据实体预测结果获得的候选三元组;指候选三元组的集合。
本发明一种基于实体关系联合抽取模型的多三元组抽取方法使用了一个额外的关系标记来描述关系特征,从而允许负样例策略来强化模型的训练;本发明设计的三部分标记方案(Tri-part tagging scheme,TTS),在关系抽取的过程中能够排除与目标关系不相关的实体;此外,本发明一种基于实体关系联合抽取模型的多三元组抽取方法可以用来抽取多三元组,并且基于本发明三元组抽取方法的模型与其它模型相比有更强的多三元组抽取能力。
附图说明
图1为发明实施例一种基于实体关系联合抽取模型的多三元组抽取方法的流程示意图;
图2为句子中存在多个三元组的示例;
图3为本发明实施例实体关系联合抽取模型的示意图;
图4为本发明三部分标记方案的示例图;
图5为本发明实施例不同的权重超参数λ值对模型准确率的影响图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
作为本发明的实施例,参阅图1所示,为本发明实施例一种基于实体关系联合抽取模型的多三元组抽取方法的流程示意图。所述的一种基于实体关系联合抽取模型的多三元组抽取方法,包括:
步骤101:获取文本,对目标文本进行分句处理,并对句子中的每个单词进行三部分标记。
对句子中的每个单词进行三部分标记包括对句子中的每个单词进行位置、类型、是否涉及关系三部分进行标记;位置标记(Position Part,PP)用来描述实体中每个词的位置,例如,用“BIO”来表示实体中第一个单词的位置信息,“B”表示该单词是实体中的第一个单词,“I”表示该单词是实体中第一个单词后的任一个单词,“O”表示该单词位于非实体位置;类型标记(Type Part,TP)将单词和实体类型信息联系起来,例如,“PER”代表人,“LOC”代表地点,“ORG”代表组织机构;关系标记(Relation Part,RP)是指对问题中的实体是否涉及任何关系进行标记,“R”表明该实体涉及句子中的一些关系,“N”表示不涉及任何关系。
如图4所示为一个样本中句子标记的实施例,该句子中包含四个实体和两个目标关系,其中,Donald是实体Donald Trump的第一个单词,它的类型是Person,并且跟其他实体存在关系,因此,Donald的TTS标签是“B-PER-R”,Trump的标签是“I-PER-R”。
与传统的BILOU标记方案(Li and Ji,2014;Miwa and Bansal,2016)相比,本发明一种基于实体关系联合抽取模型的多三元组抽取方法的标记方案能够明确哪些是噪音实体,其能够不借助不真实存在的约束产生候选实体对,同时避免过度无关的实体参与每个实体对之间的关系抽取。
步骤102:建立实体关系联合抽取模型。
如图3所示,本发明一种实体关系联合抽取模型包括用于将具有1-hot表示的单词转换为嵌入向量的嵌入层、用于对输入语句进行编码的双向长短期记忆Bi-LSTM层和用于解码的CRF层。
首先,假设对于一个输入句子序列X,W=(w1,w2,...,ws)是词向量序列,是前向LSTM的输出,是反向LSTM的输出;T,E和R分别表示三元组集合,实体集合和关系集合;t代表一个三元组(e1,e2,r)∈T,其中e1,e2∈E且r∈R;对一个X中的实体e=(xi,...,xi+j,...,xi+el),其中i表示X中的开始位置,j表示实体中的第j个单词,el是实体的长度。用实体中的位置标记来代表实体标记,且满足:
其中e,分别是嵌入层和Bi-LSTM层的实体特征。
其次,对于任意三元组t=(e1,e2,r)∈T,从嵌入层中获得头实体想e1和尾实体向量e2,然后得到一个相匹配的关系向量r,并要求e1加上r约等于e2,即e1+r≈e2;则评分函数为:
相似地,从前向和反向LSTM中分别获取实体向量为防止双向LSTM中实体特征的偏差,要求执行满足两个额外的约束条件:因此,前向LSTM输出的评分函数和反向LSTM输出的评分函数分别为:
步骤103:对实体关系联合抽取模型进行训练。
对实体关系联合抽取模型进行训练包括建立损失函数,损失函数L包括两部分,实体抽取损失Le和关系抽取损失Lr,当损失函数越小时,模型的精度越高,模型能够更好的抽取句子中的三元组,损失函数为:
L=Le+λLr
其中,L为损失函数、Le为实体抽取损失、Lr为关系抽取损失、λ为权重超参数。
在实体抽取的损失函数中,取正确标记序列的概率p(y|X)的最大值,实体抽取损失函数Le为:
实体抽取损失Le的目的是鼓励模型创建正确的标记序列。
在关系抽取的损失函数中,首先建立负样本集合T'。负样本集合是由初始的正确的三元组和被替换的关系组成的,对于一个三元组(e1,r,e2),用任意一个关系r′∈R替换初始关系r,则负样本T'可以被描述成:
T'={(e1,e2,r')|r'∈R,r'≠r}。
为了训练关系向量和激励区分正面三元组和负面三元组,在隐藏层中取训练集上的基于边界的排序损失函数的最大值,则:
其中γ>0是超参数用来约束正样例和负样例之间的边界,ReLu=max(0,x)(Glorot et al.,2011)。相似地,前向和反向LSTM的损失函数可以描述如下:
因此,关系抽取损失函数如下:
其中,X为输入的句子序列;Y表示X可能生成的所有序列;y指其中的一个预测序列;为CRF分数;Lem为训练集上的基于边界的排序损失函数;为前向LSTM损失函数;为反向LSTM损失函数;指预测的特征向量。
步骤104:根据所述实体关系联合抽取模型进行三元组抽取。
根据关系模型进行三元组抽取,使用下列得分函数,得分最高的序列作为预测序列,得分函数为:
通过预测的标签,选用标签为“R”的单词作为候选实体,将这些结果置入一个集合其中m是候选实体的数量;对于候选实体对生成初始的三元组集合并满足函数对于每一实体对,只选择一种三元组使得:
因此,如果比一个关系特征阈值δr要大,则是一个候选三元组,其中关系特征阈值δr根据测试集的精确度(最大值)确定。然后,按照收集所有的候选三元组,得分最高的前n个三元组被认为是抽取出来的三元组,它们用来与测试集中的目标三元组进行比较;在每个句子中,当且仅当一个抽出的三元组完美地与实体的位置和关系相匹配,该三元组被认为是正确的。
本发明的另一个实施例,给出了本发明所建模型与其它模型分别对三元组进行抽取的结果的比较。
本发明不同模型对三元组抽取结果的比较选用的样本集为NYT(Riedel et al.,2010)和NYT(2)。
NYT包含New York Times从1987到2007年的文章,总计包含235k句子。无效的和重复的句子已经被过滤掉,最终得到67k的句子。特别地,测试集包含395个句子,其中大多数句子都包含一个三元组。
NYT(2)是一个从NYT中导出的数据集,它是为了进行多三元组抽取而特别构造的。从NYT中任意取出1000条句子作为测试集,并把剩余部分作为训练集。不同于NYT,测试集中较大比例(39.1%)的部分包含超过一个三元组。
表1为数据集统计量。
本发明三元组抽取模型记为TME,本发明三元组抽取模型的变体TME-RR指用随机的和稳定的关系向量r来进行模型训练,TME-NS指分别用额外的关系向量来代替在中的关系向量r;对照模型为DS+logistic(Mintz et al.,2009)、MultiR(Hoffmann et al.,2011),、DS-Joint(Li and Ji,2014),、FCM(Gormley et al.,2015),、LINE(Tang et al.,2015)、CoType(Ren et al.,2017)和NTS-Joint(Zheng et al.,2017b)。本发明采用准确率(Prec),召回率(Rec)和F值(F1)来评价各个模型的性能。
对于参数设置,选择词向量dw的维度的取值范围是{20,50,100,200},字符特征向量dch的取值范围是{5,10,15,25},大小写特征向量dc的取值范围是{1,2,5,10},正负样例三元组的边界γ的取值范围是{1,2,5,10},权重超参数λ的取值范围是{0.2,0.5,1,2,5,10,20,50};Dropout比率设置从0到0.5之间;随机梯度下降(Amari,1993)用来使损失函数最优化。从测试集里任取10%的句子做验证集,剩下的被作为评价集。最理想的参数是λ=10.0,γ=2.0,dw=100,dch=25,dc=5,dropout=0.5。
表2为各模型在NYT上的实验结果。
其中,TME(top-1)表示模型中的每个句子中最多抽取一个三元组,TME(top-2)表示模型中的每个句子中最多抽取两个三元组,TME(top-3)表示模型中的每个句子中最多抽取三个三元组,TME(top-1)-Pretrain表示向量未经过预训练时的抽取结果。
从表2可以看出,相比其他模型,TME(top-1)取得了卓越的结果,F1值增长到了0.530,胜过第二名NTS-Joint 7个百分点;证明本发明基于排序和迁移的模型能够更加适应地处理实体对之间的关系。
表3为各模型在NYT(2)上的实验结果。
从表3可以看出,TME(top-2)的F1值增至0.567,相比于NTS-Joint增涨了36.7%,TME(top-2)取得了NYT(2)样本集上的最佳结果,可以证明其对于处理多三元组的能力优于其他模型。
本发明一种基于实体关系联合抽取模型的多三元组抽取方法的另一个实施例对TME模型的成份进行了分析,表4为分析结果:
表4为本发明TME模型的成份分析结果。
表中,TME为本发明基于排序和迁移的模型,其中,-TTS(-TP)指移除单词三部分标记中的类型标记部分,-TTS(-RP)指移除单词三部分标记中的关系标记部分,-TTS(-TP-RP)指同时移除单词三部分标记中的类型和关系标记部分。
由表4可以看出,在TME(top-2)中,引入关系标记后,三元组抽取的精度显著提高,提高了42.6%,但召回率仅下降1.3%,说明在模型中引入关系标记可以有效过滤掉与目标关系不相关的实体。
本发明一种基于实体关系联合抽取模型的多三元组抽取方法的另一个实施例给出了不同的权重超参数λ值对模型准确率的影响;如图4所示,若λ>20或λ<5,F1值下降。当λ=10时,TME在实体和关系抽取之间达到平衡,得到了杰出的F1值。
本发明的又一个实施例给出了TME(Top-3)(表示模型中的每个句子中最多抽取三个三元组)对句子中的实体及关系抽取结果。
表5为TME(Top-3)的案例研究(其中,加粗实体表示预测的存在关系的实体,斜体实体表示预测的不存在关系的实体,加粗的的三元组表示正确的且被预测出来的三元组)。
由表5可以看出,TME可以对每个句子中的多三元组进行抽取,不仅可以对每个实体包含不同的关系(句子II)的三元组进行抽取,而且可以对每个句子包含多个不同实体对之间的同类关系(句子III)的三元组进行抽取。
在句子I和句子II中,不相关的实体Iran和United States证明基于本发明三部分标记方案的三元组抽取模型可以有效提高句子中三元组抽取的性能。
综上所述,本发明一种基于实体关系联合抽取模型的多三元组抽取方法使用了一个额外的关系标记来描述关系特征,从而允许负样例策略来强化模型的训练;本发明设计的三部分标记方案,在关系抽取的过程中能够排除与目标关系不相关的实体;此外,本发明一种基于实体关系联合抽取模型的多三元组抽取方法可以用来抽取多三元组,并且基于本发明三元组抽取方法的模型与其它模型相比有更强的多三元组抽取能力。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于包括以下步骤:
获取文本,对目标文本进行分句处理,并对句子中的每个单词进行标记;
建立实体关系联合抽取模型;
对所述实体关系联合抽取模型进行训练;
根据所述实体关系联合抽取模型进行三元组抽取。
2.根据权利要求1所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述对句子中的每个单词进行标记包括对句子中的每个单词进行位置、类型、是否涉及关系三部分进行标记。
3.根据权利要求1所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述实体关系联合抽取模型包括用于将具有1-hot表示的单词转换为嵌入向量的嵌入层、用于对输入句子进行编码的双向长短期记忆Bi-LSTM层和用于解码的CRF层。
4.根据权利要求3所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,对于任意三元组t=(e1,e2,r)∈T,所述嵌入层包括从所述嵌入层获得头实体向量e1、尾实体向量e2和关系向量r,为更好地满足迁移,要求e1+r≈e2,评分函数为:
其中,T为三元组集合、t为任意三元组、e1为头实体向量、e2为尾实体向量、r为关系向量、f(t)为评分函数。
5.根据权利要求3所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述Bi-LSTM层包括前向LSTM层和反向LSTM层,为防止双向LSTM输出实体特征出现偏差,要求评分函数为:
其中,为前向LSTM输出的评分函数、为反向LSTM输出的评分函数、分别为前向LSTM输出的头实体向量和尾实体向量、分别为反向LSTM输出的头实体向量和尾实体向量。
6.根据权利要求1所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述对所述实体关系联合抽取模型进行训练包括建立损失函数,当所述损失函数越小时,模型的精度越高,模型能够更好的抽取句子中的三元组,所述损失函数为:
L=Le+λLr
其中,L为损失函数、Le为实体抽取损失、Lr为关系抽取损失、λ为权重超参数。
7.根据权利要求6所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述实体抽取损失Le取正确标记概率p(y|X)的最大值,所述实体抽取损失Le为:
所述关系抽取损失函数为:
其中,X为输入的句子序列;Y表示X可能生成的所有序列;y指其中的一个预测序列;为CRF分数;Lem为训练集上的基于边界的排序损失函数;为前向LSTM损失函数;为反向LSTM损失函数;指预测的特征向量。
8.根据权利要求7所述的一种基于实体关系联合抽取模型的多三元组抽取方法其特征在于,所述训练集上的基于边界的排序损失函数为:
所述前向LSTM损失函数为:
所述反向LSTM损失函数为:
其中,t为任意一个三元组;T为三元组集合;t`为负三元组;T`为负三元组集合;f(t')为负三元组的评分函数;为负三元组前向LSTM输出的评分函数;为负三元组反向LSTM输出的评分函数;γ为用于约束正样例和负样例之间边界的超参数。
9.根据权利要求1所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述根据所述实体关系联合抽取模型进行三元组抽取包括:
用下列得分函数的最高分的序列来对所述实体标签进行预测:
为假设的通过预测的实体的集合,对于候选实体对生成初始的三元组集合所述初始三元组满足函数对于每一实体对,当满足:
时,即为唯一选择的三元组;
其中,m是候选实体的数量;指每个单词的实体预测结果;指根据实体预测结果获得的候选三元组;指候选三元组的集合。
CN201810993387.3A 2018-08-29 2018-08-29 一种基于实体关系联合抽取模型的多三元组抽取方法 Active CN109165385B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810993387.3A CN109165385B (zh) 2018-08-29 2018-08-29 一种基于实体关系联合抽取模型的多三元组抽取方法
US16/524,191 US20200073933A1 (en) 2018-08-29 2019-07-29 Multi-triplet extraction method based on entity-relation joint extraction model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810993387.3A CN109165385B (zh) 2018-08-29 2018-08-29 一种基于实体关系联合抽取模型的多三元组抽取方法

Publications (2)

Publication Number Publication Date
CN109165385A true CN109165385A (zh) 2019-01-08
CN109165385B CN109165385B (zh) 2022-08-09

Family

ID=64893283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810993387.3A Active CN109165385B (zh) 2018-08-29 2018-08-29 一种基于实体关系联合抽取模型的多三元组抽取方法

Country Status (2)

Country Link
US (1) US20200073933A1 (zh)
CN (1) CN109165385B (zh)

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN110046351A (zh) * 2019-04-19 2019-07-23 福州大学 规则驱动下基于特征的文本关系抽取方法
CN110059320A (zh) * 2019-04-23 2019-07-26 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
CN110110329A (zh) * 2019-04-30 2019-08-09 湖南星汉数智科技有限公司 一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质
CN110597998A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合句法分析的军事想定实体关系抽取方法及装置
CN110765774A (zh) * 2019-10-08 2020-02-07 北京三快在线科技有限公司 信息抽取模型的训练方法、装置及信息抽取方法、装置
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN110968660A (zh) * 2019-12-09 2020-04-07 四川长虹电器股份有限公司 基于联合训练模型的信息抽取方法和系统
CN110969008A (zh) * 2019-12-03 2020-04-07 北京中科院软件中心有限公司 一种将加工过程描述语句转换为三元组结构的方法及系统
CN111046670A (zh) * 2019-12-09 2020-04-21 大连理工大学 基于毒品案件法律文书的实体及关系联合抽取方法
CN111104517A (zh) * 2019-10-01 2020-05-05 浙江工商大学 一种基于两个三元组的中文问题生成方法
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111428505A (zh) * 2020-01-17 2020-07-17 北京理工大学 一种融合触发词识别特征的实体关系抽取方法
CN111444715A (zh) * 2020-03-24 2020-07-24 腾讯科技(深圳)有限公司 实体关系识别方法、装置、计算机设备和存储介质
CN111476035A (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111581358A (zh) * 2020-04-08 2020-08-25 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN111666427A (zh) * 2020-06-12 2020-09-15 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质
CN111832293A (zh) * 2020-06-24 2020-10-27 四川大学 基于头实体预测的实体和关系联合抽取方法
WO2020215683A1 (zh) * 2019-04-26 2020-10-29 平安科技(深圳)有限公司 基于卷积神经网络的语义识别方法及装置、非易失性可读存储介质、计算机设备
CN112347759A (zh) * 2020-11-10 2021-02-09 华夏幸福产业投资有限公司 一种实体关系的抽取方法、装置、设备及存储介质
CN112463960A (zh) * 2020-10-30 2021-03-09 完美世界控股集团有限公司 一种实体关系的确定方法、装置、计算设备及存储介质
CN112560475A (zh) * 2020-11-16 2021-03-26 和美(深圳)信息技术股份有限公司 三元组抽取方法及系统
CN112749283A (zh) * 2020-12-31 2021-05-04 江苏网进科技股份有限公司 一种面向法律领域的实体关系联合抽取方法
CN112793797A (zh) * 2021-02-03 2021-05-14 东航技术应用研发中心有限公司 一种飞机着陆弹跳预警方法和系统
CN112883197A (zh) * 2021-02-08 2021-06-01 广东电网有限责任公司广州供电局 一种用于封闭开关设备的知识图谱构建方法与系统
CN112989833A (zh) * 2021-04-15 2021-06-18 广东工业大学 一种基于多层lstm的远程监督实体关系联合抽取方法和系统
CN113221571A (zh) * 2021-05-31 2021-08-06 重庆交通大学 基于实体相关注意力机制的实体关系联合抽取方法
CN113297384A (zh) * 2021-06-29 2021-08-24 中国人民解放军国防科技大学 一种基于lstm的数据链网络保障需求采集方法及其应用
CN113553385A (zh) * 2021-07-08 2021-10-26 北京计算机技术及应用研究所 一种司法文书中法律要素的关系抽取方法
CN113722567A (zh) * 2021-08-24 2021-11-30 北京半人科技有限公司 一种基于多目标融合的实体关系抽取方法
CN113779260A (zh) * 2021-08-12 2021-12-10 华东师范大学 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN113807079A (zh) * 2020-06-11 2021-12-17 四川大学 一种基于序列到序列的端到端实体和关系联合抽取方法
CN113886529A (zh) * 2021-10-22 2022-01-04 苏州空天信息研究院 一种面向网络安全领域的信息抽取方法及其系统
WO2022140900A1 (zh) * 2020-12-28 2022-07-07 华为技术有限公司 个人知识图谱构建方法、装置及相关设备
CN115391569A (zh) * 2022-10-27 2022-11-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种从研报自动构建产业链图谱的方法及相关设备

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119507A (zh) * 2018-02-05 2019-08-13 阿里巴巴集团控股有限公司 词向量生成方法、装置以及设备
CN109492113B (zh) * 2018-11-05 2022-05-13 扬州大学 一种面向软件缺陷知识的实体、关系联合抽取方法
US11354506B2 (en) * 2019-07-30 2022-06-07 Baidu Usa Llc Coreference-aware representation learning for neural named entity recognition
US20210110275A1 (en) * 2019-10-11 2021-04-15 Royal Bank Of Canada System and method of machine learning using embedding networks
CN111444723B (zh) * 2020-03-06 2023-07-28 深圳追一科技有限公司 信息抽取方法、计算机设备和存储介质
CN111414439B (zh) * 2020-03-17 2023-08-29 科大讯飞(苏州)科技有限公司 复杂尾实体拆分链接方法、装置、电子设备和存储介质
CN111291139B (zh) * 2020-03-17 2023-08-22 中国科学院自动化研究所 基于注意力机制的知识图谱长尾关系补全方法
CN111444704B (zh) * 2020-03-27 2023-09-19 中南大学 基于深度神经网络的网络安全关键词抽取方法
CN111460824B (zh) * 2020-03-30 2022-06-14 华南理工大学 一种基于对抗迁移学习的无标注命名实体识别方法
CN111539211A (zh) * 2020-04-17 2020-08-14 中移(杭州)信息技术有限公司 实体及语义关系识别方法、装置、电子设备及存储介质
CN111597276B (zh) * 2020-05-07 2023-09-29 科大讯飞(苏州)科技有限公司 实体对齐方法、装置和设备
CN111581387B (zh) * 2020-05-09 2022-10-11 电子科技大学 一种基于损失优化的实体关系联合抽取方法
CN111898362B (zh) * 2020-05-15 2024-05-28 联想(北京)有限公司 一种数据处理方法及装置
CN111476023B (zh) * 2020-05-22 2023-09-01 北京明朝万达科技股份有限公司 识别实体关系的方法及装置
CN113743116A (zh) * 2020-05-28 2021-12-03 株式会社理光 命名实体识别的训练方法、装置及计算机可读存储介质
CN111651606B (zh) * 2020-06-05 2024-03-01 深圳市慧择时代科技有限公司 一种文本处理方法、装置及电子设备
CN111753024B (zh) * 2020-06-24 2024-02-20 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN111968700A (zh) * 2020-07-07 2020-11-20 南京农业大学 一种基于bert的水稻表型组学知识图谱关系提取方法及系统
CN111832287B (zh) * 2020-07-22 2024-04-19 广东工业大学 一种实体关系联合抽取方法及装置
CN111950267B (zh) * 2020-08-14 2024-03-29 中国科学技术大学 文本三元组的抽取方法及装置、电子设备及存储介质
CN111967242B (zh) * 2020-08-17 2024-05-03 支付宝(杭州)信息技术有限公司 一种文本信息的抽取方法、装置及设备
CN112329440B (zh) * 2020-09-01 2023-07-25 浪潮云信息技术股份公司 一种基于两阶段筛选和分类的关系抽取方法和装置
CN112016312B (zh) * 2020-09-08 2023-08-29 平安科技(深圳)有限公司 数据关系抽取方法、装置、电子设备及存储介质
CN112069319B (zh) * 2020-09-10 2024-03-22 杭州中奥科技有限公司 文本抽取方法、装置、计算机设备和可读存储介质
CN112101009B (zh) * 2020-09-23 2024-03-26 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112163092B (zh) * 2020-10-10 2022-07-12 成都数之联科技股份有限公司 实体及关系抽取方法及系统、装置、介质
CN112417872B (zh) * 2020-10-20 2022-08-05 上海大学 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法
CN112948536A (zh) * 2020-11-09 2021-06-11 袭明科技(广东)有限公司 网页简历页面的信息抽取方法和装置
CN112528034B (zh) * 2020-11-16 2022-06-10 中国科学院深圳先进技术研究院 一种基于知识蒸馏的实体关系抽取方法
CN112328710A (zh) * 2020-11-26 2021-02-05 北京百度网讯科技有限公司 实体信息处理方法、装置、电子设备和存储介质
CN112329463A (zh) * 2020-11-27 2021-02-05 上海汽车集团股份有限公司 遥监督关系抽取模型的训练方法及相关装置
CN112395428B (zh) * 2020-12-01 2022-09-06 中国科学技术大学 一种基于集合补全知识图谱实体摘要的方法及系统
CN112270196B (zh) * 2020-12-14 2022-04-29 完美世界(北京)软件科技发展有限公司 实体关系的识别方法、装置及电子设备
CN112542222B (zh) * 2020-12-21 2024-02-02 中南大学 基于深度学习的中文电子病历实体及关系联合抽取方法
CN112699667B (zh) * 2020-12-29 2024-05-21 京东科技控股股份有限公司 一种实体相似度确定方法、装置、设备和存储介质
US11675978B2 (en) 2021-01-06 2023-06-13 International Business Machines Corporation Entity recognition based on multi-task learning and self-consistent verification
CN112836482B (zh) * 2021-02-09 2024-02-23 浙江工商大学 一种基于模板的序列生成模型生成问题的方法及装置
CN112860866B (zh) * 2021-02-09 2023-09-19 北京百度网讯科技有限公司 语义检索方法、装置、设备以及存储介质
CN112950414B (zh) * 2021-02-25 2023-04-18 华东师范大学 一种基于解耦法律要素的法律文本表示方法
CN113010638B (zh) * 2021-02-25 2024-02-09 北京金堤征信服务有限公司 实体识别模型生成方法及装置、实体提取方法及装置
CN113051929A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于细粒度语义信息增强的实体关系抽取的方法
CN113342929A (zh) * 2021-05-07 2021-09-03 上海大学 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法
CN113204649A (zh) * 2021-05-11 2021-08-03 西安交通大学 基于实体关系联合抽取的法律知识图谱构建方法及设备
CN113158676A (zh) * 2021-05-12 2021-07-23 清华大学 专业实体与关系联合抽取方法、系统及电子设备
CN113298160B (zh) * 2021-05-28 2023-03-07 深圳数联天下智能科技有限公司 三元组的校验方法、装置、设备和介质
CN113515598B (zh) * 2021-06-22 2021-12-07 国网电子商务有限公司 一种网络威胁情报文档实体关系提取方法及装置
CN113468330B (zh) * 2021-07-06 2023-04-28 北京有竹居网络技术有限公司 信息获取方法、装置、设备及介质
CN113449517B (zh) * 2021-07-08 2023-03-28 福建工程学院 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN113486667B (zh) * 2021-07-26 2024-03-05 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113590784B (zh) * 2021-07-27 2024-05-24 中国科学技术大学 三元组信息抽取方法、装置、电子设备、及存储介质
CN113468344B (zh) * 2021-09-01 2021-11-30 北京德风新征程科技有限公司 实体关系抽取方法、装置、电子设备和计算机可读介质
CN113822018B (zh) * 2021-09-16 2022-06-14 湖南警察学院 实体关系联合抽取方法
CN113806514B (zh) * 2021-09-18 2024-03-01 上海交通大学 基于Transformer模型的实体关系抽取方法和系统
CN113987195A (zh) * 2021-09-29 2022-01-28 浙江大学 一种可微的挖掘常量规则的方法
CN113609311A (zh) * 2021-09-30 2021-11-05 航天宏康智能科技(北京)有限公司 推荐项目的方法和装置
CN114118056A (zh) * 2021-10-13 2022-03-01 中国人民解放军军事科学院国防工程研究院工程防护研究所 一种战争类研究报告的信息抽取方法
CN113901825B (zh) * 2021-11-22 2024-05-03 东北大学 一种基于主动深度学习的实体关系联合抽取方法及系统
CN114357176B (zh) * 2021-11-26 2023-11-21 永中软件股份有限公司 实体知识自动抽取方法和计算机装置、计算机可读介质
CN113987090B (zh) * 2021-12-28 2022-03-25 北京泷汇信息技术有限公司 句中实体关系模型训练方法及句中实体关系识别方法
CN114298052B (zh) * 2022-01-04 2023-06-20 中国人民解放军国防科技大学 一种基于概率图的实体联合标注关系抽取方法和系统
CN115204120B (zh) * 2022-07-25 2023-05-30 平安科技(深圳)有限公司 保险领域三元组抽取方法、装置、电子设备及存储介质
CN115759098B (zh) * 2022-11-14 2023-07-18 中国科学院空间应用工程与技术中心 一种航天文本数据的中文实体和关系联合抽取方法、系统
CN115858825B (zh) * 2023-03-02 2023-05-16 山东能源数智云科技有限公司 基于机器学习的设备故障诊断知识图谱构建方法和装置
CN116402055B (zh) * 2023-05-25 2023-08-25 武汉大学 一种专利文本实体的抽取方法、装置、设备和介质
CN116431757B (zh) * 2023-06-13 2023-08-25 中国人民公安大学 基于主动学习的文本关系抽取方法、电子设备及存储介质
CN116702785B (zh) * 2023-08-03 2023-10-24 腾讯科技(深圳)有限公司 关系标签的处理方法和装置、存储介质及电子设备
CN117057345B (zh) * 2023-10-11 2024-01-30 腾讯科技(深圳)有限公司 一种角色关系的获取方法及相关产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
US20180157643A1 (en) * 2016-12-06 2018-06-07 Siemens Aktiengesellschaft Device and method for natural language processing
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354188B2 (en) * 2016-08-02 2019-07-16 Microsoft Technology Licensing, Llc Extracting facts from unstructured information
US10997223B1 (en) * 2017-06-28 2021-05-04 Amazon Technologies, Inc. Subject-specific data set for named entity resolution
US10679007B2 (en) * 2018-08-30 2020-06-09 Intelligent Fusion Technology, Inc. Method and system for pattern discovery and real-time anomaly detection based on knowledge graph

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180157643A1 (en) * 2016-12-06 2018-06-07 Siemens Aktiengesellschaft Device and method for natural language processing
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SUNCONG ZHENG等: "Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme", 《ARXIV:1706.05075V1》 *
ZHEN TAN等: "Jointly Extracting Multiple Triplets with Multilayer Translation Constraints", 《AAAI-19》 *
谭真: "面向非结构化数据的知识图谱构建与表示技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902145B (zh) * 2019-01-18 2021-04-20 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN110046351A (zh) * 2019-04-19 2019-07-23 福州大学 规则驱动下基于特征的文本关系抽取方法
CN110046351B (zh) * 2019-04-19 2022-06-14 福州大学 规则驱动下基于特征的文本关系抽取方法
CN110059320A (zh) * 2019-04-23 2019-07-26 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
CN110059320B (zh) * 2019-04-23 2021-03-16 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
WO2020215683A1 (zh) * 2019-04-26 2020-10-29 平安科技(深圳)有限公司 基于卷积神经网络的语义识别方法及装置、非易失性可读存储介质、计算机设备
CN110110329A (zh) * 2019-04-30 2019-08-09 湖南星汉数智科技有限公司 一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质
CN110110329B (zh) * 2019-04-30 2022-05-17 湖南星汉数智科技有限公司 一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质
CN110597998A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合句法分析的军事想定实体关系抽取方法及装置
CN111104517A (zh) * 2019-10-01 2020-05-05 浙江工商大学 一种基于两个三元组的中文问题生成方法
CN110765774B (zh) * 2019-10-08 2021-09-17 北京三快在线科技有限公司 信息抽取模型的训练方法、装置及信息抽取方法、装置
CN110765774A (zh) * 2019-10-08 2020-02-07 北京三快在线科技有限公司 信息抽取模型的训练方法、装置及信息抽取方法、装置
CN110781683B (zh) * 2019-11-04 2024-04-05 河海大学 一种实体关系联合抽取方法
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN110969008A (zh) * 2019-12-03 2020-04-07 北京中科院软件中心有限公司 一种将加工过程描述语句转换为三元组结构的方法及系统
CN111046670A (zh) * 2019-12-09 2020-04-21 大连理工大学 基于毒品案件法律文书的实体及关系联合抽取方法
CN111046670B (zh) * 2019-12-09 2023-04-18 大连理工大学 基于毒品案件法律文书的实体及关系联合抽取方法
CN110968660A (zh) * 2019-12-09 2020-04-07 四川长虹电器股份有限公司 基于联合训练模型的信息抽取方法和系统
CN110968660B (zh) * 2019-12-09 2022-05-06 四川长虹电器股份有限公司 基于联合训练模型的信息抽取方法和系统
CN111428505A (zh) * 2020-01-17 2020-07-17 北京理工大学 一种融合触发词识别特征的实体关系抽取方法
CN111368528B (zh) * 2020-03-09 2022-07-08 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111444715A (zh) * 2020-03-24 2020-07-24 腾讯科技(深圳)有限公司 实体关系识别方法、装置、计算机设备和存储介质
CN111444715B (zh) * 2020-03-24 2022-12-02 腾讯科技(深圳)有限公司 实体关系识别方法、装置、计算机设备和存储介质
CN111581358B (zh) * 2020-04-08 2023-08-18 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN111581358A (zh) * 2020-04-08 2020-08-25 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN111476035B (zh) * 2020-05-06 2023-09-05 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111476035A (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN113807079A (zh) * 2020-06-11 2021-12-17 四川大学 一种基于序列到序列的端到端实体和关系联合抽取方法
CN113807079B (zh) * 2020-06-11 2023-06-23 四川大学 一种基于序列到序列的端到端实体和关系联合抽取方法
CN111666427A (zh) * 2020-06-12 2020-09-15 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质
CN111666427B (zh) * 2020-06-12 2023-05-12 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质
CN111832293B (zh) * 2020-06-24 2023-05-26 四川大学 基于头实体预测的实体和关系联合抽取方法
CN111832293A (zh) * 2020-06-24 2020-10-27 四川大学 基于头实体预测的实体和关系联合抽取方法
CN112463960A (zh) * 2020-10-30 2021-03-09 完美世界控股集团有限公司 一种实体关系的确定方法、装置、计算设备及存储介质
CN112463960B (zh) * 2020-10-30 2021-07-27 完美世界控股集团有限公司 一种实体关系的确定方法、装置、计算设备及存储介质
CN112347759A (zh) * 2020-11-10 2021-02-09 华夏幸福产业投资有限公司 一种实体关系的抽取方法、装置、设备及存储介质
CN112560475B (zh) * 2020-11-16 2023-05-12 和美(深圳)信息技术股份有限公司 三元组抽取方法及系统
CN112560475A (zh) * 2020-11-16 2021-03-26 和美(深圳)信息技术股份有限公司 三元组抽取方法及系统
WO2022140900A1 (zh) * 2020-12-28 2022-07-07 华为技术有限公司 个人知识图谱构建方法、装置及相关设备
CN112749283A (zh) * 2020-12-31 2021-05-04 江苏网进科技股份有限公司 一种面向法律领域的实体关系联合抽取方法
CN112793797A (zh) * 2021-02-03 2021-05-14 东航技术应用研发中心有限公司 一种飞机着陆弹跳预警方法和系统
CN112883197A (zh) * 2021-02-08 2021-06-01 广东电网有限责任公司广州供电局 一种用于封闭开关设备的知识图谱构建方法与系统
CN112883197B (zh) * 2021-02-08 2023-02-07 广东电网有限责任公司广州供电局 一种用于封闭开关设备的知识图谱构建方法与系统
CN112989833A (zh) * 2021-04-15 2021-06-18 广东工业大学 一种基于多层lstm的远程监督实体关系联合抽取方法和系统
CN113221571B (zh) * 2021-05-31 2022-07-01 重庆交通大学 基于实体相关注意力机制的实体关系联合抽取方法
CN113221571A (zh) * 2021-05-31 2021-08-06 重庆交通大学 基于实体相关注意力机制的实体关系联合抽取方法
CN113297384A (zh) * 2021-06-29 2021-08-24 中国人民解放军国防科技大学 一种基于lstm的数据链网络保障需求采集方法及其应用
CN113553385A (zh) * 2021-07-08 2021-10-26 北京计算机技术及应用研究所 一种司法文书中法律要素的关系抽取方法
CN113553385B (zh) * 2021-07-08 2023-08-25 北京计算机技术及应用研究所 一种司法文书中法律要素的关系抽取方法
CN113779260A (zh) * 2021-08-12 2021-12-10 华东师范大学 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN113722567A (zh) * 2021-08-24 2021-11-30 北京半人科技有限公司 一种基于多目标融合的实体关系抽取方法
CN113886529B (zh) * 2021-10-22 2022-12-02 苏州空天信息研究院 一种面向网络安全领域的信息抽取方法及其系统
CN113886529A (zh) * 2021-10-22 2022-01-04 苏州空天信息研究院 一种面向网络安全领域的信息抽取方法及其系统
CN115391569B (zh) * 2022-10-27 2023-03-24 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种从研报自动构建产业链图谱的方法及相关设备
CN115391569A (zh) * 2022-10-27 2022-11-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种从研报自动构建产业链图谱的方法及相关设备

Also Published As

Publication number Publication date
CN109165385B (zh) 2022-08-09
US20200073933A1 (en) 2020-03-05

Similar Documents

Publication Publication Date Title
CN109165385A (zh) 一种基于实体关系联合抽取模型的多三元组抽取方法
CN104268160B (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN107133220B (zh) 一种地理学科领域命名实体识别方法
CN106897559B (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN105824933B (zh) 基于主述位的自动问答系统及其实现方法
CN108628824A (zh) 一种基于中文电子病历的实体识别方法
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN108268539A (zh) 基于文本分析的视频匹配系统
CN108959566B (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
Shardlow The cw corpus: A new resource for evaluating the identification of complex words
CN110929498B (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN106909783A (zh) 一种基于时间线的病历文本医学知识发现方法
CN113821605B (zh) 一种事件抽取方法
CN106055560A (zh) 一种基于统计机器学习方法的分词字典数据采集方法
CN110348017B (zh) 一种文本实体检测方法、系统及相关组件
CN107590119B (zh) 人物属性信息抽取方法及装置
CN109086255A (zh) 一种基于深度学习的参考文献自动标注方法及系统
CN105786971B (zh) 一种面向国际汉语教学的语法点识别方法
CN113127607A (zh) 文本数据标注方法、装置、电子设备及可读存储介质
CN111897953A (zh) 一种新型网络媒体平台评论文本分类标注数据纠正方法
CN106776866A (zh) 一种对高校网站上的会议稿进行知识抽取的方法
Kaur et al. Emotion mining and sentiment analysis in software engineering domain
CN111984790B (zh) 一种实体关系抽取方法
CN108241609B (zh) 排比句识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant