CN110377753A - 基于关系触发词与gru模型的关系抽取方法及装置 - Google Patents

基于关系触发词与gru模型的关系抽取方法及装置 Download PDF

Info

Publication number
CN110377753A
CN110377753A CN201910586364.5A CN201910586364A CN110377753A CN 110377753 A CN110377753 A CN 110377753A CN 201910586364 A CN201910586364 A CN 201910586364A CN 110377753 A CN110377753 A CN 110377753A
Authority
CN
China
Prior art keywords
word
entity
relationship
sentence
gru
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910586364.5A
Other languages
English (en)
Other versions
CN110377753B (zh
Inventor
包铁
刘露
王磊
葛亮
谢文慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201910586364.5A priority Critical patent/CN110377753B/zh
Publication of CN110377753A publication Critical patent/CN110377753A/zh
Application granted granted Critical
Publication of CN110377753B publication Critical patent/CN110377753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于关系触发词与单层GRU模型的关系抽取方法及装置,该方法包括:对待处理的句子进行句法依存分析,获取句子中的关系触发词;所述关系触发词为用来说明实体对构成的实体关系所表达意义的词语;将关系触发词与给定的实体对通过Word2Vec模型转换成词向量;将所述词向量输入GRU分类模型进行关系抽取。该方法步骤简单、降低了分类模型的复杂度,可有效减少对计算资源的消耗,提高了训练效率,保证了该方法的关系抽取准确率。

Description

基于关系触发词与GRU模型的关系抽取方法及装置
技术领域
本发明涉及知识图谱技术领域,具体是一种基于关系触发词与单层GRU模型的关系抽取方法及装置。
背景技术
知识图谱是Google公司于2012年提出的新概念,本质上是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。近几年随着人工智能的不断发展,知识图谱在搜索引擎(Google、Bing)、问答系统(微软小娜、Siri)以及临床决策支持(IBMWatson Health)等实际生活领域中有了广泛的应用。
关系抽取是构建知识图谱构建的关键步骤,其主要任务是从句子中识别给定实体对之间的关系类型,进而从非结构化文本信息中抽取三元组(ei,rij,ej),其中ei与ej为给定的实体对,rij为实体之间的关系类型。例如,通过关系抽取算法能够从句子“The burst hasbeen caused by water hammer pressure.”中识别出给定实体对“burst”与“pressure”的关系类型“Cause-Effect”。
实体关系触发词是句子中用来详细说明实体对构成的实体关系所表达意义的词语,也被称为关系指示词、关系描述词。例如,在英文中,“Cause-Effect”关系的关系触发词有“cause”、“result”以及“produce”等,“Entity-Origin”关系触发词有“from”、“of”以及“made”等。关系触发词不但能够帮助人们理解并确定实体关系,其具有的关系特征在关系抽取中也能起指导作用。
基于规则的关系抽取方法通过制定大量规则模板进行关系抽取。基于特征向量的方法根据标注好的训练数据来训练分类器,再用训练好的分类器对新实例进行关系抽取。基于核函数的方法能够充分利用实体对的上下文信息进行关系抽取。基于深度学习的方法在大量标记好的数据的基础上通过构建复杂的分类模型,如:卷积神经网络(CNN)、循环神经网络(RNN)及其变体长短期记忆网络(LSTM)与门控循环单元(GRU)等,再利用注意力机制等方法进行关系抽取。
基于深度学习的关系抽取方法是当前主流的关系抽取方法,为了捕获更多的特征来提高关系抽取的准确率,该方法大多需要构建多层深度学习模型,并利用注意力机制来进行关系抽取。因此这类方法结构复杂,训练时间长,需要大量的计算资源。
发明内容
本发明的目的是提供一种基于关系触发词与GRU模型的关系抽取方法及装置,可解决目前基于深度学习的关系抽取方法结构复杂、消耗大量计算资源的问题。
第一方面,本发明实施例提供一种基于关系触发词与GRU模型的关系抽取方法,包括:
对待处理的句子进行句法依存分析,获取句子中的关系触发词;所述关系触发词为用来说明实体对构成的实体关系所表达意义的词语;
将所述关系触发词与给定的实体对通过Word2Vec模型转换成词向量;
将所述词向量输入GRU分类模型进行关系抽取。
在一个实施例中,对待处理的句子进行句法依存分析,获取句子中的关系触发词,包括:
输入待处理句子s及实体对(e1,e2);
对待处理句子s进行分词、词性标注以及句法依存分析,得到标注后的单词序列W以及依存关系图G={V,E};其中V={v1,v2,…,vn}表示句子中单词节点集合,E表示单词节点之间的句法依存关系的集合,vi表示单词节点,i∈{1,2,…,n};
计算单词节点vi到实体对(e1,e2)的依存距离dd和序列距离sd;根据所述依存距离dd和序列距离sd,计算各个单词对应的评估值;
选择除实体对之外评估值最小且符合预设条件的单词作为关系触发词;所述预设条件表示词性是名词、动词、形容词、副词或介词。
在一个实施例中,将所述关系触发词与给定的实体对通过Word2Vec模型转换成词向量,包括:
选择除实体对之外评估值最小且符合预设条件的t个单词作为关系触发词;
将实体对(e1,e2)加入到t个所述关系触发词中,按照句子中的原始序列进行排序;
输入训练后的Word2Vec模型转换成词向量;所述Word2Vec模型为采用维基百科数据作为训练数据进行训练。
在一个实施例中,所述GRU分类模型由单层GRU层、dropout层以及Softmax层构成。
第二方面,本发明还提供一种基于关系触发词与单层GRU模型的关系抽取装置,包括:
分析获取模块,用于对待处理的句子进行句法依存分析,获取句子中的关系触发词;所述关系触发词为用来说明实体对构成的实体关系所表达意义的词语;
转换模块,用于将所述关系触发词与给定的实体对通过Word2Vec模型转换成词向量;
抽取模块,用于将所述词向量输入GRU分类模型进行关系抽取。
在一个实施例中,所述分析获取模块,包括:
输入子模块,用于输入待处理句子s及实体对(e1,e2);
分析子模块,用于对待处理句子s进行分词、词性标注以及句法依存分析,得到标注后的单词序列W以及依存关系图G={V,E};其中V={v1,v2,…,vn}表示句子中单词节点集合,E表示单词节点之间的句法依存关系的集合,vi表示单词节点,i∈{1,2,…,n};
计算子模块,用于计算单词节点vi到实体对(e1,e2)的依存距离dd和序列距离sd;根据所述依存距离dd和序列距离sd,计算各个单词对应的评估值;
选择子模块,用于选择除实体对之外评估值最小且符合预设条件的单词作为关系触发词;所述预设条件表示词性是名词、动词、形容词、副词或介词。
在一个实施例中,所述转换模块,包括:
排序子模块,用于根据所述选择子模块,选择除实体对之外评估值最小且符合预设条件的t个单词作为关系触发词;将实体对(e1,e2)加入到t个所述关系触发词中,按照句子中的原始序列进行排序;
转换子模块,用于输入训练后的Word2Vec模型转换成词向量;所述Word2Vec模型为采用维基百科数据作为训练数据进行训练。
在一个实施例中,所述抽取模块中GRU分类模型由单层GRU层、dropout层以及Softmax层构成。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的一种基于关系触发词与单层GRU模型的关系抽取方法,包括:对待处理的句子进行句法依存分析,获取句子中的关系触发词;所述关系触发词为用来说明实体对构成的实体关系所表达意义的词语;将关系触发词与给定的实体对通过Word2Vec模型转换成词向量;将所述词向量输入GRU分类模型进行关系抽取。该方法步骤简单、模型训练时间较短、减少对计算资源的消耗,提高了训练效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的基于关系触发词与GRU模型的关系抽取方法的流程图;
图2为本发明实施例提供的步骤S1的流程图;
图3a为本发明实施例提供的句法依存分析结构树的示意图;
图3b为本发明实施例提供的又一句法依存分析结构树的示意图;
图4a为本发明实施例提供的各单词节点到实体对“elephant”与“animal”的依存距离示意图;
图4b为本发明实施例提供的各单词节点到实体对“人们”与“市中心”的依存距离示意图;
图5a为本发明实施例提供的各单词到实体对“elephant”与“animal”的序列距离示意图;
图5b为本发明实施例提供的各单词到实体对“人们”与“市中心”的序列距离示意图;
图6a为本发明实施例提供的各个单词评估值示意图;
图6b为本发明实施例提供的又一各个单词评估值示意图;
图7为本发明实施例提供的分类模型结构图;
图8为本发明实施例提供的基于关系触发词与单层GRU模型的关系抽取装置框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1所示,本发明实施例提供的一种基于关系触发词与GRU模型的关系抽取方法,该方法包括:步骤S1~S3;
S1、对待处理的句子进行句法依存分析,获取句子中的关系触发词;所述关系触发词为用来说明实体对构成的实体关系所表达意义的词语;
S2、将所述关系触发词与给定的实体对通过Word2Vec模型转换成词向量;
S3、将所述词向量输入GRU分类模型进行关系抽取。
其中,实体关系触发词表示句子中用来详细说明实体对构成的实体关系所表达意义的词语,也被称为关系指示词、关系描述词。句法依存分析是自然语言处理的关键技术之一,其任务是对输入的单词序列进行分析,得到符合语法的句法结构。
本实施例中,通过对句子进行句法依存分析来获取句子中的关系触发词,再利用Word2Vec模型将获取的关系触发词与给定的实体对转换成词向量,将得到的词向量作为GRU模型的输入来进行关系抽取。该方法步骤简单、涉及到的模型训练时间较短,可减少对计算资源的消耗,从而提高了训练效率。
在一个实施例中,上述步骤S1,参照图2,具体包括:
S11、输入待处理句子s及实体对(e1,e2);
S12、对待处理句子s进行分词、词性标注以及句法依存分析,得到标注后的单词序列W以及依存关系图G={V,E};其中V={v1,v2,…,vn}表示句子中单词节点集合,E表示单词节点之间的句法依存关系的集合,vi表示单词节点,i∈{1,2,…,n};
S13、计算单词节点vi到实体对(e1,e2)的依存距离dd和序列距离sd;根据所述依存距离dd和序列距离sd,计算各个单词对应的评估值;
S14、选择除实体对之外评估值最小且符合预设条件的单词作为关系触发词;所述预设条件表示词性是名词、动词、形容词、副词或介词。
本实施例中,依存距离是指:给定句法依存分析树,忽略其中弧的方向并将其转换成无向图G={V,E},其中V={v1,v2,…,vn}是句子中单词节点集合,E是单词节点之间的句法依存关系的集合,单词节点vi到实体e的依存距离为其在依存关系图上到实体e的最短路径。
序列距离:给定单词序列W={w1,w2,…,wn},若wk为实体单词e,则单词wi到实体e的序列距离为sd(wi,e)=|i-k|。
本实施例中,首先对句子进行句法分析,由句法依存结构计算每个单词到实体对的依存距离与平均序列距离来对其打分,根据每个单词的评估分数来提取关系触发词。之后将得到的关系触发词与给定的实体对一起利用Word2Vec模型转换成词向量,作为分类模型的输入数据进行关系抽取。即:该方法由关系触发词提取与关系抽取两部分组成。
下面通过两个部分对本发明提供的方法进行详细说明。
1.关系触发词提取
句法依存分析是自然语言处理的关键技术之一,其任务是对输入的单词序列进行分析,得到符合语法的句法结构。本发明使用Stanford CoreNLP(Stanford CoreNLP是斯坦福大学的自然语言处理工具包)工具对句子进行句法依存分析。例如,使用StanfordCoreNLP工具对句子“The elephant descended from an aquatic animal.”进行句法依存分析可以得到如图3a所示的结构树。还比如使用StanfordCoreNLP对句子“人们一直在搬回市中心。”进行句法分析得到如图3b所示的结构树。
之后对句子中的每个单词进行打分,考虑到关系触发词与实体对之间存在某种距离关系,本发明实施例采用依存距离与序列距离来分别衡量单词在依存关系图与原始序列中到实体对的距离。给定句法依存分析树,忽略其中弧的方向并将其转换成无向图G={V,E},其中V={v1,v2,…,vn}是句子中单词节点集合,E是单词节点之间的句法依存关系的集合,单词节点vi到实体e的依存距离(Dependency Distance)为其在依存关系图上到实体e的最短路径。
由于各单词节点到实体节点的依存距离较小,为了准确并合理地评估单词节点在依存关系图上到实体对的远近程度,可采用其到实体对中每个实体的依存距离的几何平均数作为其到实体对的依存距离,即:
其中,dd(vi,e1)与dd(vi,e2)分别表示单词节点vi到实体节点e1与实体节点e2的依存距离。图4a所示为各个单词到实体对“elephant”与“animal”的依存距离。图4b为各个单词到实体对“人们”与“市中心”的依存距离。
给定单词序列W={w1,w2,…,wn},若wk为实体单词e,则单词wi到实体e的序列距离(Sequence Distance)为
sd(wi,e)=|i-k|
用单词在原始序列中到实体对中每个实体的序列距离的平均值作为单词到实体对的序列距离,计算方式如下:
其中,sd(wi,e1)与sd(wi,e2)分别是单词wi到实体对e1与e2的序列距离。当单词在原始序列中位于实体对的两侧时,其序列距离相对较大;当单词位于实体对之间时,其序列距离相对较小。因此,序列距离能够衡量单词在原始序列中与实体对的相对位置。图5a为各单词到实体对“elephant”与“animal”的序列距离。图5b为各个单词到实体对“人们”与“市中心”的序列距离。
然后,使用依存距离与序列距离的和作为评估值来选择关系触发词。考虑到触发词的词性一般为名词、动词、形容词、副词与介词,本发明实施例选择除实体对之外评估值最小且词性满足以上条件的单词作为关系触发词。
图6a所示为各个单词的词性与评估值,评估值最小且词性符合要求的单词为“descended”,因此它是最终的关系触发词。
图6b所示为各个单词的词性与评估值,评估值最小且词性符合要求的单词为“搬回”,因此它是最终的关系触发词。
关系触发词提取过程如下:
步骤1.输入:句子s,实体对(e_1,e_2)
步骤2.对s进行分词、词性标注以及句法依存分析,得到标注好的单词序列W以及依存关系图G={V,E};
步骤3.遍历单词序列或者单词集合中的每个词,依次执行步骤4-6;
步骤4.计算依存距离dd(vi,(e1,e2));
步骤5.计算序列距离sd(wi,(e1,e2));
步骤6.计算评估值dd(vi,(e1,e2))+sd(wi,(e1,e2));
步骤7.遍历完成,执行步骤8;
步骤8.选择除实体对之外评估值最小且词性是名词、动词、形容词、副词或介词之一的单词作为关系触发词;
输出:关系触发词。
2、关系抽取
英文句子中的关系触发词多数情况下不是单个单词而是一个短语,同一个动词后面的介词不同所表示的关系类型不同,如短语“made by”是“Product-Producer”关系触发词,而短语“made with”是“Component-Whole”的关系触发词。因此,直接利用上文得到的单一关系触发词进行关系抽取,其具有的关系特征可能并不完整。为此,需要选择从句子提取多个关系触发词来进行关系抽取。计算出所有单词序列的评估值后,选择t个除实体对之外评估值最小并且词性满足要求的单词作为关系触发词。将实体对加入到关系触发词中,按照句子中的原始序列进行排序,作为训练单词序列。即:该单词序列是只由实体对加触发词构成,并非是一个完整的句子,其单词数量要比原始句子少的多,但实体对加触发词顺序的与原始句子的顺序一致。
由于分类器并不能直接处理自然语言中的单词,需要使用词嵌入模型将单词转换成词向量以便分类器进行处理。Word2Vec是Google提出的词向量计算模型,能够很好地进行词嵌入以及捕获单词的语义。本发明实施例采用维基百科数据作为训练数据来训练Word2Vec模型,将训练单词序列转换成词向量,作为分类器的输入进行关系抽取。
GRU分类模型由单层GRU层、dropout层以及Softmax层构成。其中GRU层用于捕获语序特征,它是LSTM模型的一个变体,与LSTM模型相比结构更加简单,训练时间更短。dropout层防止过拟合,Softmax层进行多分类概率计算。由Word2Vec模型转换得到的单词向量作为模型的输入,关系类别概率作为该模型的输出。模型结构图如图7所示。
本发明通过提取出句子的关系触发词,将其与实体对一起转换成词向量后作为GRU模型的输入进行关系抽取。在关系触发词提取方面,通过计算依存距离与序列距离来对单词打分,能够较为准确地提取出句子的关系触发词。在关系抽取方面,分类模型只有单层GRU层,降低了模型的复杂度,减少了计算消耗,提高了训练效率。
并且由于Word2Vec模型的输入为实体对与关系触发词,转换成词向量,输入到GRU分类模型;与原始句子相比单词数量大大减少,这也降低了分类模型的复杂度,减少了对计算资源的消耗,提高了训练效率。此外实体对与关系触发词具有的关系特征较为完整,保证了该方法的关系抽取准确率。
基于同一发明构思,本发明实施例还提供了一种基于关系触发词与GRU模型的关系抽取装置,由于该装置所解决问题的原理与前述基于关系触发词与GRU模型的关系抽取方法相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。
本发明实施例提供一种基于关系触发词与单层GRU模型的关系抽取装置,参照图8所示,包括:
分析获取模块81,用于对待处理的句子进行句法依存分析,获取句子中的关系触发词;所述关系触发词为用来说明实体对构成的实体关系所表达意义的词语;
转换模块82,用于将所述关系触发词与给定的实体对通过Word2Vec模型转换成词向量;
抽取模块83,用于将所述词向量输入GRU分类模型进行关系抽取。
在一个实施例中,所述分析获取模块81,包括:
输入子模块811,用于输入待处理句子s及实体对(e1,e2);
分析子模块812,用于对待处理句子s进行分词、词性标注以及句法依存分析,得到标注后的单词序列W以及依存关系图G={V,E};其中V={v1,v2,…,vn}表示句子中单词节点集合,E表示单词节点之间的句法依存关系的集合,vi表示单词节点,i∈{1,2,…,n};
计算子模块813,用于计算单词节点vi到实体对(e1,e2)的依存距离dd和序列距离sd;根据所述依存距离dd和序列距离sd,计算各个单词对应的评估值;
选择子模块814,用于选择除实体对之外评估值最小且符合预设条件的单词作为关系触发词;所述预设条件表示词性是名词、动词、形容词、副词或介词。
在一个实施例中,所述转换模块82,包括:
排序子模块821,用于根据所述选择子模块,选择除实体对之外评估值最小且符合预设条件的t个单词作为关系触发词;将实体对(e1,e2)加入到t个所述关系触发词中,按照句子中的原始序列进行排序;
转换子模块822,用于输入训练后的Word2Vec模型转换成词向量;所述Word2Vec模型为采用维基百科数据作为训练数据进行训练。
在一个实施例中,所述抽取模块83中GRU分类模型由单层GRU层、dropout层以及Softmax层构成。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.基于关系触发词与GRU模型的关系抽取方法,其特征在于,包括:
对待处理的句子进行句法依存分析,获取句子中的关系触发词;所述关系触发词为用来说明实体对构成的实体关系所表达意义的词语;
将所述关系触发词与给定的实体对通过Word2Vec模型转换成词向量;
将所述词向量输入GRU分类模型进行关系抽取。
2.如权利要求1所述的方法,其特征在于,对待处理的句子进行句法依存分析,获取句子中的关系触发词,包括:
输入待处理句子s及实体对(e1,e2);
对待处理句子s进行分词、词性标注以及句法依存分析,得到标注后的单词序列W以及依存关系图G={V,E};其中V={v1,v2,...,vn}表示句子中单词节点集合,E表示单词节点之间的句法依存关系的集合,vi表示单词节点,i∈{1,2,...,n};
计算单词节点vi到实体对(e1,e2)的依存距离dd和序列距离sd;根据所述依存距离dd和序列距离sd,计算各个单词对应的评估值;
选择除实体对之外评估值最小且符合预设条件的单词作为关系触发词;所述预设条件表示词性是名词、动词、形容词、副词或介词。
3.如权利要求2所述的方法,其特征在于,将所述关系触发词与给定的实体对通过Word2Vec模型转换成词向量,包括:
选择除实体对之外评估值最小且符合预设条件的t个单词作为关系触发词;
将实体对(e1,e2)加入到t个所述关系触发词中,按照句子中的原始序列进行排序;
输入训练后的Word2Vec模型转换成词向量;所述Word2Vec模型为采用维基百科数据作为训练数据进行训练。
4.如权利要求1所述的方法,其特征在于,所述GRU分类模型由单层GRU层、dropout层以及Softmax层构成。
5.基于关系触发词与单层GRU模型的关系抽取装置,其特征在于,包括:
分析获取模块,用于对待处理的句子进行句法依存分析,获取句子中的关系触发词;所述关系触发词为用来说明实体对构成的实体关系所表达意义的词语;
转换模块,用于将所述关系触发词与给定的实体对通过Word2Vec模型转换成词向量;
抽取模块,用于将所述词向量输入GRU分类模型进行关系抽取。
6.如权利要求5所述的装置,其特征在于,所述分析获取模块,包括:
输入子模块,用于输入待处理句子s及实体对(e1,e2);
分析子模块,用于对待处理句子s进行分词、词性标注以及句法依存分析,得到标注后的单词序列W以及依存关系图G={V,E};其中V={v1,v2,...,vn}表示句子中单词节点集合,E表示单词节点之间的句法依存关系的集合,vi表示单词节点,i∈{1,2,...,n};
计算子模块,用于计算单词节点vi到实体对(e1,e2)的依存距离dd和序列距离sd;根据所述依存距离dd和序列距离sd,计算各个单词对应的评估值;
选择子模块,用于选择除实体对之外评估值最小且符合预设条件的单词作为关系触发词;所述预设条件表示词性是名词、动词、形容词、副词或介词。
7.如权利要求6所述的装置,其特征在于,所述转换模块,包括:
排序子模块,用于根据所述选择子模块,选择除实体对之外评估值最小且符合预设条件的t个单词作为关系触发词;将实体对(e1,e2)加入到t个所述关系触发词中,按照句子中的原始序列进行排序;
转换子模块,用于输入训练后的Word2Vec模型转换成词向量;所述Word2Vec模型为采用维基百科数据作为训练数据进行训练。
8.如权利要求5所述的装置,其特征在于,所述抽取模块中GRU分类模型由单层GRU层、dropout层以及Softmax层构成。
CN201910586364.5A 2019-07-01 2019-07-01 基于关系触发词与gru模型的关系抽取方法及装置 Active CN110377753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910586364.5A CN110377753B (zh) 2019-07-01 2019-07-01 基于关系触发词与gru模型的关系抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910586364.5A CN110377753B (zh) 2019-07-01 2019-07-01 基于关系触发词与gru模型的关系抽取方法及装置

Publications (2)

Publication Number Publication Date
CN110377753A true CN110377753A (zh) 2019-10-25
CN110377753B CN110377753B (zh) 2022-10-21

Family

ID=68251514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910586364.5A Active CN110377753B (zh) 2019-07-01 2019-07-01 基于关系触发词与gru模型的关系抽取方法及装置

Country Status (1)

Country Link
CN (1) CN110377753B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428505A (zh) * 2020-01-17 2020-07-17 北京理工大学 一种融合触发词识别特征的实体关系抽取方法
CN111476035A (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及系统
CN105809577A (zh) * 2016-04-25 2016-07-27 吉林大学 一种基于规则和组件的电厂信息化数据的分类处理方法
CN106844413A (zh) * 2016-11-11 2017-06-13 南京缘长信息科技有限公司 实体关系抽取的方法及装置
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN108628970A (zh) * 2018-04-17 2018-10-09 大连理工大学 一种基于新标记模式的生物医学事件联合抽取方法
US20180336183A1 (en) * 2017-05-22 2018-11-22 International Business Machines Corporation Deep Embedding for Natural Language Content Based on Semantic Dependencies
CN109299470A (zh) * 2018-11-01 2019-02-01 成都数联铭品科技有限公司 文本公告中触发词的抽取方法及系统
CN109446326A (zh) * 2018-11-01 2019-03-08 大连理工大学 基于复制机制的生物医学事件联合抽取方法
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及系统
CN105809577A (zh) * 2016-04-25 2016-07-27 吉林大学 一种基于规则和组件的电厂信息化数据的分类处理方法
CN106844413A (zh) * 2016-11-11 2017-06-13 南京缘长信息科技有限公司 实体关系抽取的方法及装置
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
US20180336183A1 (en) * 2017-05-22 2018-11-22 International Business Machines Corporation Deep Embedding for Natural Language Content Based on Semantic Dependencies
CN108628970A (zh) * 2018-04-17 2018-10-09 大连理工大学 一种基于新标记模式的生物医学事件联合抽取方法
CN109299470A (zh) * 2018-11-01 2019-02-01 成都数联铭品科技有限公司 文本公告中触发词的抽取方法及系统
CN109446326A (zh) * 2018-11-01 2019-03-08 大连理工大学 基于复制机制的生物医学事件联合抽取方法
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ABDELHAMID. ATASSI: ""The new deep learning architecture based on GRU and word2vec"", 《2018 INTERNATIONAL CONFERENCE ON ELECTRONICS, CONTROL, OPTIMIZATION AND COMPUTER SCIENCE (ICECOCS)》 *
台丽婷: ""基于半监督机器学习的实体关系抽取算法研究"", 《中国优秀硕士论文全文数据库》 *
李天颍: ""一种基于依存文法的需求文本策略依赖关系抽取方法"", 《计算机学报》 *
谢文慧: ""基于键盘距离和依存分析的拼写纠错方法"", 《吉林大学学报(理学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428505A (zh) * 2020-01-17 2020-07-17 北京理工大学 一种融合触发词识别特征的实体关系抽取方法
CN111476035A (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111476035B (zh) * 2020-05-06 2023-09-05 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110377753B (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
White et al. Inference is everything: Recasting semantic resources into a unified evaluation framework
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN113743099B (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN110134950B (zh) 一种字词结合的文本自动校对方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN114722820A (zh) 基于门控机制和图注意力网络的中文实体关系抽取方法
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN111177402A (zh) 基于分词处理的评价方法、装置、计算机设备及存储介质
CN114548099A (zh) 基于多任务框架的方面词和方面类别联合抽取和检测方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
Rathi Deep learning apporach for image captioning in Hindi language
JP2019144706A (ja) 関係性推定モデル学習装置、方法、及びプログラム
CN113590810B (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN110377753A (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN114444515A (zh) 一种基于实体语义融合的关系抽取方法
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
Lee et al. Detecting suicidality with a contextual graph neural network
Ludwig et al. Deep embedding for spatial role labeling
CN113486174A (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant