CN109543183A - 基于深度神经网络和标注策略的多标签实体-关系联合提取方法 - Google Patents

基于深度神经网络和标注策略的多标签实体-关系联合提取方法 Download PDF

Info

Publication number
CN109543183A
CN109543183A CN201811367895.7A CN201811367895A CN109543183A CN 109543183 A CN109543183 A CN 109543183A CN 201811367895 A CN201811367895 A CN 201811367895A CN 109543183 A CN109543183 A CN 109543183A
Authority
CN
China
Prior art keywords
word
entity
vector
relationship
gru
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811367895.7A
Other languages
English (en)
Other versions
CN109543183B (zh
Inventor
李辰
龙雨
王轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201811367895.7A priority Critical patent/CN109543183B/zh
Publication of CN109543183A publication Critical patent/CN109543183A/zh
Application granted granted Critical
Publication of CN109543183B publication Critical patent/CN109543183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供基于深度神经网络和标注策略的多标签实体‑关系联合提取方法,基于标注策略的联合提取方法,可以有效的避免在命名实体识别子任务中产生的错误会传播至关系分类子任务中和忽视了两个子任务间相互作用的弊端。同时,本发明使用Tree‑GRU作为编码层,可以使模型更加充分的学习到整个句子的依存句法信息,为准确识别两个实体间是否存在关系及存在关系的类型带来帮助。此外,由于海量文本本身具有的复杂性,一个实体可能包含在多种关系中,多标签分类器的使用,很好地解决了上述问题。本发明的方法在不同的数据领域上都取得了较好的结果,能高效准确智能地从海量文本数据中提取有实用价值以及研究意义的信息。

Description

基于深度神经网络和标注策略的多标签实体-关系联合提取 方法
技术领域
本发明涉及自然语言处理领域,具体为基于深度神经网络和标注策略的多标签实体-关系联合提取方法。
背景技术
在大数据与人工智能的时代背景下,信息抽取和语义理解已成为研究者们近年来聚焦的热点。抽取非结构化文本中的实体和实体对间的语义关系是信息抽取的重要任务之一,也是达到语义理解关键。但是,用自然语言表述的非结构化文本数据有数据量庞大、结构复杂、产生速度快等特征,相关研究人员要从大量文本中快速而准确地获取有价值的知识和信息是非常困难的。所以如何智能且高效准确地从海量数据中提取有价值的信息,以及如何实现其语义理解显得尤为重要。
现有的实体及其关系抽取方法主要分为流水线式抽取和联合抽取两种。流水线式提取方法即串联式的,先抽取实体然后识别实体间的关系。这种分开来处理的方式比较简单,各个模块都比较灵活。但是这种方法忽视了两个任务之间的联系,实体识别的结果可能会影响关系的抽取。对于非结构化文本的信息提取,传统的流水线方法存在以下弊端:1.在命名实体识别子任务中产生的错误会传播至关系分类子任务中,从而造成了错误率的提升;2.忽视了两个子任务间相互作用对整体结果的带来的提升,例如,知道了两个实体间的关系类型,可以更加准确地推测出两个实体所属的实体类型。
联合抽取方法是从非结构化的文本中同时识别命名实体和实体之间的语义关系,即用一个模型来抽取实体和关系。联合抽取不仅能有效的整合实体和关系信息,而且能达到一个很好的效果。然而,现有的联合抽取方法大多都是基于特征或共享参数,没有达到真正意义上的联合提取,而且没有很好地解决关系重叠的问题,即一个实体可能会有多个关系标签。
发明内容
针对现有技术中存在的问题,本发明提供基于深度神经网络和标注策略的多标签实体-关系联合提取方法,实现从非结构化文本数据中联合提取实体-关系对,为达到海量自然语言文本的语义理解提供了基础技术支撑。
本发明是通过以下技术方案来实现:
基于深度神经网络和标注策略的多标签实体-关系联合提取方法,包括以下步骤:
步骤1,首先对训练文本和测试文本进行分词处理,将分词后得到的训练文本用标记策略进行标记;
标记策略具体为:根据训练文本的标注为每个词设置一个O标签用于表示不属于任何关系或者非O标签用于表示有所属关系,非O标签由单词位置、关系类别和关系角色三部分构成;其中,关系角色标记为1或2,分别表示实体属于(实体1,关系,实体2)三元组的实体1或实体2,用于表示识别出的实体之间的关系方向;
步骤2,使用自然语言处理工具对步骤1分词后的训练文本和测试文本进行依存句法树分析,得到每个单词的依存关系类型,并计算句法依存树上每个单词结点到根的距离作为此词的位置信息;
步骤3,训练词向量表、依存关系向量表以及位置向量表,生成句子中每个单词wi对应的词向量Wordi、依存关系向Dependencyi以及位置向量Positioni,由此得到句子中每个单词的最终向量表示为xi=[Wordi,Dependencyi,Positioni];
步骤4,以句子为单位,构建基于Tree-GRU的编码层,其输入为句子中单词对应向量xi构成的矩阵[x1,x2,…,xn],n为句子长度,输出为句子中全部单词对应隐层输出hi构成的矩阵[h1,h2,…,hn];
步骤5,构建基于LSTM网络的解码层,把步骤4中生成的隐层输出hi构成的矩阵[h1,h2,…,hn]作为输入,输入至LSTM网络进行解码,输出为
步骤6,将LSTM解码层的输出向量通过最终的多标签关系分类层,得到对每个单词最终的标记结果,实现基于深度神经网络和标注策略的多标签实体-关系联合提取模型;
步骤7,使用标记后的训练数据训练上述联合提取模型,通过对比训练数据中的实际标签与联合提取模型分类得到标签的差异,调整联合提取模型参数以优化分类性能,得到训练好的联合提取模型;
步骤8,使用测试数据对步骤7训练好的联合提取模型进行测试,根据多标签分类层所得标签序列,提取出(实体1,关系,实体2)三元组,得到测试文本的实体和实体间语义关系。
优选的,所述单词位置标记包括B(begin)、I(inside)、E(end)和S(single),用于表示此单词在一个待识别的实体中的位置信息,所述的实体由单词序列构成。
优选的,所述关系类别从预定义的关系集中得到,用于表示识别出的实体所属的关系类型。
优选的,所述步骤3,具体包括以下步骤:
步骤3.1:使用基于skip-gram模型的word2vec方法,选取与任务相关的语料库,生成预训练的词向量表;
步骤3.2:使用基于skip-gram模型的word2vec方法,以数据集中所有的依存关系类型作为语料库,生成预训练的依存关系向量表;
步骤3.3:基于步骤2获得每个词的位置信息,利用随机数生成位置向量表;具体的针对在句法依存树中到根节点不同的距离,使用随机数生成一个与之相对应的30维向量,将所生成的所有随机向量集合在一起生成位置向量表;
步骤3.4:对于每一个单词wi,通过查找步骤3.1生成的词向量表、步骤3.2生成的依存关系向量表和步骤3.3生成的位置向量表,获得单词wi对应的词向量Wordi,其到根节点距离对应的位置向量Positioni,以及其在句中的依存关系类型所对应的依存关系向量Dependencyi
步骤3.5:将步骤3.4生成的词向量Wordi,依存关系向量Dependencyi,位置向量Positioni横向拼接起来,生成单词wi的最终向量表示xi=[Wordi,Dependencyi,Positioni]。
优选的,所述步骤4,具体包括以下步骤:
步骤4.1,基于步骤2中生成的每个句子对应的依存句法树,构建与其结构相对应的Tree-GRU编码层,单词wi对应Tree-GRU编码层中的GRU节点i;
步骤4.2,基于步骤4.1中构建的Tree-GRU,其GRU节点i对应的隐层输出hi的计算方式如下:
zi=σ(WZxi+UZhch(i)+bz)
ri=σ(Wrxi+Urhch(i)+br)
其中,zi代表GRU节点i的更新门,ri代表GRU节点i的重置门,代表GRU节点i的候选隐含状态,σ代表sigmoid函数,“·”代表向量点乘运算;WZ,UZ代表zi的权重矩阵;bz代表zi的偏置项;Wr,Ur代表ri的权重矩阵;br代表ri的偏置项;代表的权重矩阵;代表的偏置项;xi为GRU节点i对应单词wi在步骤3中生成的向量表示,hch(i)代表GRU节点i所有孩子节点的隐层输出之和,即hch(i)=∑p∈ch(i)hp,整个编码层按自底向上的顺序计算每个单词的隐层输出。
优选的,所述步骤6,具体包括以下步骤:
步骤6.1,利用步骤5解码层中每个词的输出向量作为输入,经过一个全连接层将其映射到标记空间,输出向量为O=(o1,o2…ol),向量O的每一维代表一个类别,l为类别总数;
步骤6.2,利用sigmoid函数对输出向量O=(o1,o2…ol)的每一个元素oj计算类别概率,若概率超过既定阈值,则判定该类别成立,否则该类别不成立。
与现有技术相比,本发明具有以下有益的技术效果:
本发明采用的基于标注策略的联合提取方法,可以有效的避免在命名实体识别子任务中产生的错误会传播至关系分类子任务中和忽视了两个子任务间相互作用的弊端。同时,本发明使用Tree-GRU作为编码层,可以使模型更加充分的学习到整个句子的依存句法信息,为准确识别两个实体间是否存在关系及存在关系的类型带来帮助。此外,由于海量文本本身具有的复杂性,一个实体可能包含在多种关系中,多标签分类器的使用,很好地解决了上述问题。本发明的方法在不同的数据领域上都取得了较好的结果,能高效准确智能地从海量文本数据中提取有实用价值以及研究意义的信息。
附图说明
图1是本发明基于深度神经网络和标注策略的多标签实体-关系联合提取方法流程图。
图2是本发明基于深度神经网络和标注策略的多标签实体-关系联合提取方法模型图。
图3是本发明实施例中所述句子进行句法分析后的可视化结果图。
图4是本发明实施例中所述句子对应的编码层结构图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
实施例采用的训练数据和测试数据均为公开的NYT数据集。
实施例:主要用来提取数据集每个句子中的实体以及实体的语义关系。训练数据和测试数据均选自NYT数据集。
如图1所示的流程和图2所示的模型,本发明所述的方法包括以下步骤,
步骤1:首先对训练文本和测试文本进行分词处理,将分词后得到的训练文本用标记策略进行标记。标记策略具体为:根据训练文本的标注为每个词设置一个“O”标签(不属于任何关系)或者“非O”标签(有所属关系)。非O标签由单词位置、关系类别和关系角色三部分构成。其中,单词位置标记包括B(begin)、I(inside)、E(end)和S(single),用来表示此单词在一个待识别的实体中的位置信息(实体由单词序列构成);关系类别从预定义的关系集中得到,表示识别出的实体所属的关系类型;关系角色标记为“1”或“2”,分别表示实体属于(实体1,关系,实体2)三元组的实体1或实体2,用以说明本发明识别出的实体之间的关系方向。
例如,提取句子“The United States President Trump will visit China.”中的实体以及实体的语义关系。首先对其进行分词,结果为“The/United/States/President/Trump/will/visit/China.”然后用标记策略进行,标记结果为The(“O”)United(“B-person/country-president/country-1,B-location/administrative_division/country-1”)States(“E-person/country-president/country-1,E-location/administrative_division/country-1”)President(“O”)Trump(“S-person/country-president/country-2”)will(“O”)visit(“O”)China(“S--location/administrative_division/country-2”),其中,“person/country-president/country”关系指两个实体是国家-总统的关系,“location/administrative_division”是指两个实体属于不同的行政区划,此处指两个国家。
步骤2:使用自然语言处理工具对步骤1分词后的训练文本和测试文本进行依存句法树分析,得到每个单词的依存关系类型。计算句法依存树上每个单词结点到根的距离作为此词的位置信息。
利用斯坦福自然语言处理工具包对句子“The United States President Trumpwill visit China.”进行句法分析,其可视化结果图3所示。得到每个单词的依存关系类型为The(“det”)United(“amod”)States(“nsubj”)President(“compound”)Trump(“nsubj”)will(“aux”)visit(“root”)China(“dobj”),每个词到根节点的距离为The(“2”)United(“2”)States(“1”)President(“2”)Trump(“1”)will(“1”)visit(“0”)China(“1”)。
步骤3:训练词向量表、依存关系向量表以及位置向量表,生成句子中每个单词wi对应的词向量(Wordi)、依存关系向(Dependencyi)以及位置向量(Positioni)。由此得到句子中每个单词的最终向量表示为xi=[Wordi,Dependencyi,Positioni]。
其详细步骤如下:
步骤3.1:使用基于skip-gram模型的word2vec方法,选取与任务相关的语料库,生成预训练的词向量表。由于本实施例中NYT数据集是新闻数据,因此本优选实例中选取“Google News”语料库来生成预训练的词向量表。
步骤3.2:使用基于skip-gram模型的word2vec方法,以数据集中所有的依存关系类型作为语料库,生成预训练的依存关系向量表。
步骤3.3:基于步骤2获得每个词的位置信息,利用随机数生成位置向量表。具体做法是,针对在句法依存树中到根节点不同的距离,使用随机数生成一个与之相对应的30维向量,将所生成的所有随机向量集合在一起生成位置向量表。
步骤3.4:对于每一个单词wi,通过查找步骤3.1生成的词向量表、步骤3.2生成的依存关系向量表和步骤3.3生成的位置向量表,获得单词wi对应的词向量Wordi,其到根节点距离对应的位置向量Positioni,以及其在句中的依存关系类型所对应的依存关系向量Dependencyi
步骤3.5:将步骤3.4生成的词向量(Wordi),依存关系向量(Dependencyi),位置向量(Positioni)横向拼接起来,生成单词wi的最终向量表示xi=[Wordi,Dependencyi,Positioni]。
步骤4:以句子为单位,构建基于Tree-GRU的编码层,其输入为句子中单词对应向量xi构成的矩阵[x1,x2,…,xn](n为句子长度)。输出为句子中全部单词对应隐层输出hi构成的矩阵[h1,h2,…,hn]。
其详细步骤如下:
步骤4.1,基于步骤2中生成的每个句子对应的依存句法树,构建与其结构相对应的Tree-GRU编码层,单词wi对应Tree-GRU编码层中的GRU节点i;
句子“The United States President Trump will visit China.”对应的编码层结构如图4所示,其中x1至x8分别代表The/United/States/President/Trump/will/visit/China这8个单词对应的向量,将其输入至对应的GRU节点进行计算。
步骤4.2,基于步骤4.1中构建的Tree-GRU,其GRU节点i对应的隐层输出hi的计算方式如下:
zi=σ(WZxi+UZhch(i)+bz)
ri=σ(Wrxi+Urhch(i)+br)
其中,zi代表GRU节点i的更新门,ri代表GRU节点i的重置门,代表GRU节点i的候选隐含状态,σ代表sigmoid函数,“·”代表向量点乘运算;WZ,UZ代表zi的权重矩阵;bz代表zi的偏置项;Wr,Ur代表ri的权重矩阵;br代表ri的偏置项;代表的权重矩阵;代表的偏置项,xi为GRU节点i对应单词wi在步骤3中生成的向量表示,hch(i)代表GRU节点i所有孩子节点的隐层输出之和,即hch(i)=∑p∈ch(i)hp,整个编码层按自底向上的顺序计算每个单词的隐层输出。
步骤5,构建基于LSTM网络的解码层,把步骤4中生成的隐层输出hi构成的矩阵[h1,h2,…,hn]作为输入,输入至LSTM网络进行解码,输出为
步骤6,将LSTM解码层的输出向量通过最终的多标签关系分类层,得到对每个单词最终的标记结果,实现基于深度神经网络和标注策略的多标签实体-关系联合提取模型;
其详细步骤如下:
步骤6.1,利用步骤5解码层中每个词的输出向量作为输入,经过一个全连接层将其映射到标记空间,输出向量为O=(o1,o2…ol),向量O的每一维代表一个类别,l为类别总数;
步骤6.2,利用sigmoid函数对输出向量O=(o1,o2…ol)的每一个元素oj计算类别概率,若概率超过既定阈值,则判定该类别成立,否则该类别不成立。
步骤7,使用标记后的训练数据训练上述联合提取模型,通过对比训练数据中的实际标签与联合提取模型分类得到标签的差异,调整联合提取模型参数以优化分类性能,得到训练好的联合提取模型;
步骤8,使用测试数据对步骤7训练好的联合提取模型进行测试,根据多标签分类层所得标签序列,提取出(实体1,关系,实体2)三元组,得到测试文本的实体和实体间语义关系。
则句子“The United States President Trump will visit China.”的实体和实体间语义关系提取结果为(United States,person/country-president/country,Trump),(United States,location/administrative_division/country,China)。

Claims (6)

1.基于深度神经网络和标注策略的多标签实体-关系联合提取方法,其特征在于,包括以下步骤:
步骤1,首先对训练文本和测试文本进行分词处理,将分词后得到的训练文本用标记策略进行标记;
标记策略具体为:根据训练文本的标注为每个词设置一个O标签用于表示不属于任何关系或者非O标签用于表示有所属关系,非O标签由单词位置、关系类别和关系角色三部分构成;其中,关系角色标记为1或2,分别表示实体属于(实体1,关系,实体2)三元组的实体1或实体2,用于表示识别出的实体之间的关系方向;
步骤2,使用自然语言处理工具对步骤1分词后的训练文本和测试文本进行依存句法树分析,得到每个单词的依存关系类型,并计算句法依存树上每个单词结点到根的距离作为此词的位置信息;
步骤3,训练词向量表、依存关系向量表以及位置向量表,生成句子中每个单词wi对应的词向量Wordi、依存关系向Dependencyi以及位置向量Positioni,由此得到句子中每个单词的最终向量表示为xi=[Wordi,Dependencyi,Positioni];
步骤4,以句子为单位,构建基于Tree-GRU的编码层,其输入为句子中单词对应向量xi构成的矩阵[x1,x2,…,xn],n为句子长度,输出为句子中全部单词对应隐层输出hi构成的矩阵[h1,h2,…,hn];
步骤5,构建基于LSTM网络的解码层,把步骤4中生成的隐层输出hi构成的矩阵[h1,h2,…,hn]作为输入,输入至LSTM网络进行解码,输出为
步骤6,将LSTM解码层的输出向量通过最终的多标签关系分类层,得到对每个单词最终的标记结果,实现基于深度神经网络和标注策略的多标签实体-关系联合提取模型;
步骤7,使用标记后的训练数据训练上述联合提取模型,通过对比训练数据中的实际标签与联合提取模型分类得到标签的差异,调整联合提取模型参数以优化分类性能,得到训练好的联合提取模型;
步骤8,使用测试数据对步骤7训练好的联合提取模型进行测试,根据多标签分类层所得标签序列,提取出(实体1,关系,实体2)三元组,得到测试文本的实体和实体间语义关系。
2.根据权利要求1所述的一种基于深度神经网络和标注策略的多标签实体-关系联合提取方法,其特征在于,所述单词位置标记包括B(begin)、I(inside)、E(end)和S(single),用于表示此单词在一个待识别的实体中的位置信息,所述的实体由单词序列构成。
3.根据权利要求1所述的一种基于深度神经网络和标注策略的多标签实体-关系联合提取方法,其特征在于,所述关系类别从预定义的关系集中得到,用于表示识别出的实体所属的关系类型。
4.根据权利要求1所述的一种基于深度神经网络和标注策略的多标签实体-关系联合提取方法,其特征在于,所述步骤3,具体包括以下步骤:
步骤3.1:使用基于skip-gram模型的word2vec方法,选取与任务相关的语料库,生成预训练的词向量表;
步骤3.2:使用基于skip-gram模型的word2vec方法,以数据集中所有的依存关系类型作为语料库,生成预训练的依存关系向量表;
步骤3.3:基于步骤2获得每个词的位置信息,利用随机数生成位置向量表;具体的针对在句法依存树中到根节点不同的距离,使用随机数生成一个与之相对应的30维向量,将所生成的所有随机向量集合在一起生成位置向量表;
步骤3.4:对于每一个单词wi,通过查找步骤3.1生成的词向量表、步骤3.2生成的依存关系向量表和步骤3.3生成的位置向量表,获得单词wi对应的词向量Wordi,其到根节点距离对应的位置向量Positioni,以及其在句中的依存关系类型所对应的依存关系向量Dependencyi
步骤3.5:将步骤3.4生成的词向量Wordi,依存关系向量Dependencyi,位置向量Positioni横向拼接起来,生成单词wi的最终向量表示xi=[Wordi,Dependencyi,Positioni]。
5.根据权利要求1所述的一种基于深度神经网络和标注策略的多标签实体-关系联合提取方法,其特征在于,所述步骤4,具体包括以下步骤:
步骤4.1,基于步骤2中生成的每个句子对应的依存句法树,构建与其结构相对应的Tree-GRU编码层,单词wi对应Tree-GRU编码层中的GRU节点i;
步骤4.2,基于步骤4.1中构建的Tree-GRU,其GRU节点i对应的隐层输出hi的计算方式如下:
zi=σ(WZxi+UZhch(i)+bz)
ri=σ(Wrxi+Urhch(i)+br)
其中,zi代表GRU节点i的更新门,ri代表GRU节点i的重置门,代表GRU节点i的候选隐含状态,σ代表sigmoid函数,“·”代表向量点乘运算;WZ,UZ代表zi的权重矩阵;bz代表zi的偏置项;Wr,Ur代表ri的权重矩阵;br代表ri的偏置项;代表的权重矩阵;代表的偏置项;xi为GRU节点i对应单词wi在步骤3中生成的向量表示,hch(i)代表GRU节点i所有孩子节点的隐层输出之和,即hch(i)=∑p∈ch(i)hp,整个编码层按自底向上的顺序计算每个单词的隐层输出。
6.根据权利要求1所述的一种基于深度神经网络和标注策略的多标签实体-关系联合提取方法,其特征在于,所述步骤6,具体包括以下步骤:
步骤6.1,利用步骤5解码层中每个词的输出向量作为输入,经过一个全连接层将其映射到标记空间,输出向量为O=(o1,o2…ol),向量O的每一维代表一个类别,l为类别总数;
步骤6.2,利用sigmoid函数对输出向量O=(o1,o2…ol)的每一个元素oj计算类别概率,若概率超过既定阈值,则判定该类别成立,否则该类别不成立。
CN201811367895.7A 2018-11-16 2018-11-16 基于深度神经网络和标注策略的多标签实体-关系联合提取方法 Active CN109543183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811367895.7A CN109543183B (zh) 2018-11-16 2018-11-16 基于深度神经网络和标注策略的多标签实体-关系联合提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811367895.7A CN109543183B (zh) 2018-11-16 2018-11-16 基于深度神经网络和标注策略的多标签实体-关系联合提取方法

Publications (2)

Publication Number Publication Date
CN109543183A true CN109543183A (zh) 2019-03-29
CN109543183B CN109543183B (zh) 2021-01-19

Family

ID=65848039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811367895.7A Active CN109543183B (zh) 2018-11-16 2018-11-16 基于深度神经网络和标注策略的多标签实体-关系联合提取方法

Country Status (1)

Country Link
CN (1) CN109543183B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019653A (zh) * 2019-04-08 2019-07-16 北京航空航天大学 一种融合文本和标签网络的社交内容表征方法和系统
CN110188347A (zh) * 2019-04-29 2019-08-30 西安交通大学 一种面向文本的知识主题间认知关系抽取方法
CN110349620A (zh) * 2019-06-28 2019-10-18 广州序科码生物技术有限责任公司 一种从PubMed文献准确识别分子相互作用及其极性和方向性方法
CN110377753A (zh) * 2019-07-01 2019-10-25 吉林大学 基于关系触发词与gru模型的关系抽取方法及装置
CN110442707A (zh) * 2019-06-21 2019-11-12 电子科技大学 一种基于seq2seq的多标签文本分类方法
CN110580340A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种基于多注意力机制的神经网络关系抽取方法
CN110598001A (zh) * 2019-08-05 2019-12-20 平安科技(深圳)有限公司 联合实体关系抽取方法、装置及存储介质
CN110633365A (zh) * 2019-07-25 2019-12-31 北京国信利斯特科技有限公司 一种基于词向量的层次多标签文本分类方法及系统
CN110688857A (zh) * 2019-10-08 2020-01-14 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110737773A (zh) * 2019-10-17 2020-01-31 中国联合网络通信集团有限公司 一种基于神经网络的信息分类方法和系统
CN110765774A (zh) * 2019-10-08 2020-02-07 北京三快在线科技有限公司 信息抽取模型的训练方法、装置及信息抽取方法、装置
CN111046670A (zh) * 2019-12-09 2020-04-21 大连理工大学 基于毒品案件法律文书的实体及关系联合抽取方法
CN111144115A (zh) * 2019-12-23 2020-05-12 北京百度网讯科技有限公司 预训练语言模型获取方法、装置、电子设备和存储介质
CN111581957A (zh) * 2020-05-06 2020-08-25 浙江大学 一种基于金字塔层级网络的嵌套实体检测方法
CN111651575A (zh) * 2020-05-29 2020-09-11 泰康保险集团股份有限公司 会话文本处理方法、装置、介质及电子设备
CN112069825A (zh) * 2020-11-12 2020-12-11 湖南数定智能科技有限公司 面向警情笔录数据的实体关系联合抽取方法
CN112487143A (zh) * 2020-11-30 2021-03-12 重庆邮电大学 一种基于舆情大数据分析的多标签文本分类方法
CN112784576A (zh) * 2021-01-13 2021-05-11 哈尔滨工程大学 一种文本依存句法分析方法
CN112861515A (zh) * 2021-02-08 2021-05-28 上海天壤智能科技有限公司 交互式知识定义与处理方法、系统、装置和可读介质
CN112905713A (zh) * 2020-11-13 2021-06-04 昆明理工大学 联合罪名预测的涉案新闻重叠实体关系抽取方法
CN112906382A (zh) * 2021-02-05 2021-06-04 山东省计算中心(国家超级计算济南中心) 基于图神经网络的政策文本多标签标注方法及系统
CN112989796A (zh) * 2021-03-10 2021-06-18 北京大学 一种基于句法指导的文本命名实体信息识别方法
CN113342970A (zh) * 2020-11-24 2021-09-03 中电万维信息技术有限责任公司 一种多标签复杂文本分类方法
CN113761893A (zh) * 2021-11-11 2021-12-07 深圳航天科创实业有限公司 一种基于模式预训练的关系抽取方法
CN113822026A (zh) * 2021-09-10 2021-12-21 神思电子技术股份有限公司 一种多标签实体标注方法
CN114510410A (zh) * 2020-11-16 2022-05-17 国际商业机器公司 合成去识别的测试数据
CN117648980A (zh) * 2024-01-29 2024-03-05 数据空间研究院 基于矛盾纠纷数据的新型实体关系联合抽取算法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182976A (zh) * 2017-12-28 2018-06-19 西安交通大学 一种基于神经网络的临床医学信息提取方法
US20180307679A1 (en) * 2017-04-23 2018-10-25 Voicebox Technologies Corporation Multi-lingual semantic parser based on transferred learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180307679A1 (en) * 2017-04-23 2018-10-25 Voicebox Technologies Corporation Multi-lingual semantic parser based on transferred learning
CN108182976A (zh) * 2017-12-28 2018-06-19 西安交通大学 一种基于神经网络的临床医学信息提取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MAKOTO MIWA,MOHIT BANSAL: "End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures", 《IN PROC. OF ACL》 *
SUNCONG ZHENG ET AL.: "Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme", 《IN PROC. OF ACL》 *
ZHENGQIU HE ET AL.: "Syntax-Aware Entity Embedding for Neural Relation Extraction", 《AAAI PUBLICATIONS》 *
胡新辰: "基于LSTM的语义关系分类研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019653A (zh) * 2019-04-08 2019-07-16 北京航空航天大学 一种融合文本和标签网络的社交内容表征方法和系统
CN110019653B (zh) * 2019-04-08 2021-07-02 北京航空航天大学 一种融合文本和标签网络的社交内容表征方法和系统
CN110188347A (zh) * 2019-04-29 2019-08-30 西安交通大学 一种面向文本的知识主题间认知关系抽取方法
CN110188347B (zh) * 2019-04-29 2021-01-19 西安交通大学 一种面向文本的知识主题间认知关系抽取方法
CN110442707A (zh) * 2019-06-21 2019-11-12 电子科技大学 一种基于seq2seq的多标签文本分类方法
CN110442707B (zh) * 2019-06-21 2022-06-17 电子科技大学 一种基于seq2seq的多标签文本分类方法
CN110349620A (zh) * 2019-06-28 2019-10-18 广州序科码生物技术有限责任公司 一种从PubMed文献准确识别分子相互作用及其极性和方向性方法
CN110349620B (zh) * 2019-06-28 2020-06-19 南方医科大学 一种准确识别分子相互作用及其极性和方向性方法
CN110377753B (zh) * 2019-07-01 2022-10-21 吉林大学 基于关系触发词与gru模型的关系抽取方法及装置
CN110377753A (zh) * 2019-07-01 2019-10-25 吉林大学 基于关系触发词与gru模型的关系抽取方法及装置
CN110633365A (zh) * 2019-07-25 2019-12-31 北京国信利斯特科技有限公司 一种基于词向量的层次多标签文本分类方法及系统
CN110598001A (zh) * 2019-08-05 2019-12-20 平安科技(深圳)有限公司 联合实体关系抽取方法、装置及存储介质
CN110580340A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种基于多注意力机制的神经网络关系抽取方法
CN110765774A (zh) * 2019-10-08 2020-02-07 北京三快在线科技有限公司 信息抽取模型的训练方法、装置及信息抽取方法、装置
CN110688857A (zh) * 2019-10-08 2020-01-14 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110765774B (zh) * 2019-10-08 2021-09-17 北京三快在线科技有限公司 信息抽取模型的训练方法、装置及信息抽取方法、装置
CN110737773A (zh) * 2019-10-17 2020-01-31 中国联合网络通信集团有限公司 一种基于神经网络的信息分类方法和系统
CN110737773B (zh) * 2019-10-17 2022-06-10 中国联合网络通信集团有限公司 一种基于神经网络的信息分类方法和系统
CN111046670A (zh) * 2019-12-09 2020-04-21 大连理工大学 基于毒品案件法律文书的实体及关系联合抽取方法
CN111046670B (zh) * 2019-12-09 2023-04-18 大连理工大学 基于毒品案件法律文书的实体及关系联合抽取方法
CN111144115B (zh) * 2019-12-23 2023-10-20 北京百度网讯科技有限公司 预训练语言模型获取方法、装置、电子设备和存储介质
CN111144115A (zh) * 2019-12-23 2020-05-12 北京百度网讯科技有限公司 预训练语言模型获取方法、装置、电子设备和存储介质
CN111581957B (zh) * 2020-05-06 2022-04-12 浙江大学 一种基于金字塔层级网络的嵌套实体检测方法
CN111581957A (zh) * 2020-05-06 2020-08-25 浙江大学 一种基于金字塔层级网络的嵌套实体检测方法
CN111651575A (zh) * 2020-05-29 2020-09-11 泰康保险集团股份有限公司 会话文本处理方法、装置、介质及电子设备
CN111651575B (zh) * 2020-05-29 2023-09-12 泰康保险集团股份有限公司 会话文本处理方法、装置、介质及电子设备
CN112069825A (zh) * 2020-11-12 2020-12-11 湖南数定智能科技有限公司 面向警情笔录数据的实体关系联合抽取方法
CN112905713B (zh) * 2020-11-13 2022-06-14 昆明理工大学 联合罪名预测的涉案新闻重叠实体关系抽取方法
CN112905713A (zh) * 2020-11-13 2021-06-04 昆明理工大学 联合罪名预测的涉案新闻重叠实体关系抽取方法
CN114510410A (zh) * 2020-11-16 2022-05-17 国际商业机器公司 合成去识别的测试数据
CN113342970B (zh) * 2020-11-24 2023-01-03 中电万维信息技术有限责任公司 一种多标签复杂文本分类方法
CN113342970A (zh) * 2020-11-24 2021-09-03 中电万维信息技术有限责任公司 一种多标签复杂文本分类方法
CN112487143A (zh) * 2020-11-30 2021-03-12 重庆邮电大学 一种基于舆情大数据分析的多标签文本分类方法
CN112784576A (zh) * 2021-01-13 2021-05-11 哈尔滨工程大学 一种文本依存句法分析方法
CN112784576B (zh) * 2021-01-13 2022-07-29 哈尔滨工程大学 一种文本依存句法分析方法
CN112906382A (zh) * 2021-02-05 2021-06-04 山东省计算中心(国家超级计算济南中心) 基于图神经网络的政策文本多标签标注方法及系统
CN112906382B (zh) * 2021-02-05 2022-06-21 山东省计算中心(国家超级计算济南中心) 基于图神经网络的政策文本多标签标注方法及系统
CN112861515B (zh) * 2021-02-08 2022-11-11 上海天壤智能科技有限公司 交互式知识定义与处理方法、系统、装置和可读介质
CN112861515A (zh) * 2021-02-08 2021-05-28 上海天壤智能科技有限公司 交互式知识定义与处理方法、系统、装置和可读介质
CN112989796A (zh) * 2021-03-10 2021-06-18 北京大学 一种基于句法指导的文本命名实体信息识别方法
CN112989796B (zh) * 2021-03-10 2023-09-22 北京大学 一种基于句法指导的文本命名实体信息识别方法
CN113822026B (zh) * 2021-09-10 2022-07-08 神思电子技术股份有限公司 一种多标签实体标注方法
CN113822026A (zh) * 2021-09-10 2021-12-21 神思电子技术股份有限公司 一种多标签实体标注方法
CN113761893A (zh) * 2021-11-11 2021-12-07 深圳航天科创实业有限公司 一种基于模式预训练的关系抽取方法
CN117648980A (zh) * 2024-01-29 2024-03-05 数据空间研究院 基于矛盾纠纷数据的新型实体关系联合抽取算法
CN117648980B (zh) * 2024-01-29 2024-04-12 数据空间研究院 基于矛盾纠纷数据的新型实体关系联合抽取方法

Also Published As

Publication number Publication date
CN109543183B (zh) 2021-01-19

Similar Documents

Publication Publication Date Title
CN109543183A (zh) 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN107480125B (zh) 一种基于知识图谱的关系链接方法
Demir et al. Improving named entity recognition for morphologically rich languages using word embeddings
CN109902159A (zh) 一种基于自然语言处理的智能运维语句相似度匹配方法
CN109697232A (zh) 一种基于深度学习的中文文本情感分析方法
CN109710932A (zh) 一种基于特征融合的医疗实体关系抽取方法
CN107315737A (zh) 一种语义逻辑处理方法及系统
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN106909537B (zh) 一种基于主题模型和向量空间的一词多义分析方法
CN108363725A (zh) 一种用户评论观点提取和观点标签生成的方法
CN107169079A (zh) 一种基于Deepdive的领域文本知识抽取方法
CN108268449A (zh) 一种基于词项聚类的文本语义标签抽取方法
CN112307171B (zh) 一种基于电力知识库的制度标准检索方法及系统和可读存储介质
CN110188359B (zh) 一种文本实体抽取方法
CN107092605A (zh) 一种实体链接方法及装置
CN112988917A (zh) 一种基于多种实体上下文的实体对齐方法
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
CN111160027A (zh) 基于语义注意力的循环神经网络事件时序关系识别方法
CN104881399A (zh) 基于概率软逻辑psl的事件识别方法和系统
CN103699568B (zh) 一种从维基中抽取领域术语间上下位关系的方法
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
Lin et al. Implanting rational knowledge into distributed representation at morpheme level
Bhattacharjee et al. Survey and gap analysis of word sense disambiguation approaches on unstructured texts
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
Li et al. Effective representation for easy-first dependency parsing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant