CN110502749B - 一种基于双层注意力机制与双向gru的文本关系抽取方法 - Google Patents

一种基于双层注意力机制与双向gru的文本关系抽取方法 Download PDF

Info

Publication number
CN110502749B
CN110502749B CN201910710075.1A CN201910710075A CN110502749B CN 110502749 B CN110502749 B CN 110502749B CN 201910710075 A CN201910710075 A CN 201910710075A CN 110502749 B CN110502749 B CN 110502749B
Authority
CN
China
Prior art keywords
entity
layer
relation extraction
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910710075.1A
Other languages
English (en)
Other versions
CN110502749A (zh
Inventor
王鑫鹏
李晓冬
吴蔚
徐建平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201910710075.1A priority Critical patent/CN110502749B/zh
Publication of CN110502749A publication Critical patent/CN110502749A/zh
Application granted granted Critical
Publication of CN110502749B publication Critical patent/CN110502749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于双层注意力机制与双向GRU的文本关系抽取方法,包括如下步骤:对文本语料进行实体标注和关系标注;对标注数据进行预处理,生成实体抽取模型和关系抽取模型的训练集和测试集;构建关系抽取网络;分别进行实体抽取模型训练和关系抽取模型训练;将测试集数据首先输入实体抽取模型,得到实体识别结果;实体识别结果和测试集数据输入关系抽取模型,得到关系抽取结果。本发明利用实体位置信息和实体标签信息扩充字向量特征,实现文本信息的向量化,为关系识别提供更多的特征信息,提高了双向GRU模型输入信息与输出信息间的相关性,增强关键字对输出的影响力并提高抗噪声能力,并且能够有效地提高中文文本关系抽取的准确率。

Description

一种基于双层注意力机制与双向GRU的文本关系抽取方法
技术领域
本发明涉及一种文本关系抽取方法,具体涉及一种基于双层注意力机制与双向GRU的文本关系抽取方法。
背景技术
随着信息技术飞速发展,信息量急速增长,怎样高效的从非结构化文本信息中提取出有效信息成为人们关注的热点。文本信息抽取包含实体抽取、关系抽取及事件抽取等。关系抽取是自然语言处理的基础任务之一,用于识别文本信息中存在的两个命名实体的相互关系。通过关系抽取可以形成实体1、关系、实体2的三元组结构。这对后续中文信息内容检索、知识图谱构建等应用具有重要作用。
关系抽取主要包括有监督的实体关系抽取方法、半监督的实体关系抽取方法、无监督的实体关系抽取方法:
无监督的实体关系抽取方法包括实体聚类和关系类型词选择两部分,但存在特征提取不准、聚类结果不合理、关系结果准确率较低等问题。
半监督的实体关系抽取方法,例如Bootstrapping,该方法从包含关系种子的文本中总结实体关系序列模式,然后以此去发现更多的关系种子实例。但存在迭代过程中混入噪声,造成语义漂移的问题。
有监督的实体关系抽取方法主要思想是在已标注的数据上面训练机器学习模型,对测试数据进行关系识别。有监督的实体关系抽取方法分为基于规则的关系抽取方法,基于特征的关系抽取方法。基于规则的关系抽取方法根据语料和领域通过总结归纳规则或模板,通过模板匹配进行实体关系抽取。此类方法在依赖于命名实体识别系统与距离计算等,容易增加额外的传播错误与耗时。
基于特征的关系抽取方法主要利用机器学习方法自动提取文本特征,不需要构建复杂的特征。Socher等提出了矩阵—递归神经网络模型MV-RNN,通过解析文本的句法结构实现实体关系识别,但其准确率通常受限于文本的句法分析准确率;Liu等利用卷积神经网络(CNN)实现关系抽取任务,但由于卷积神经网络无法长句进行建模,因而存在两个实体的远距离依赖问题。Xu等将LSTM(Long Short Term Memory)引入实体关系抽取任务重,以解决两个实体的远距离依赖问题,同时利用文本的词向量、词性标注、句法依存等信息学习实体之间的最短依存路径。然而,RNN、CNN和LSTM都无法充分利用文本信息的局部特征与全局特征。
发明内容
发明目的:为了克服现有技术中存在的不足,提供一种基于双层注意力机制与双向GRU的文本关系抽取方法,其能够有效地提高中文文本关系抽取准确率。
技术方案:为实现上述目的,本发明提供一种基于双层注意力机制与双向GRU的文本关系抽取方法(BiGRU-2ATT),包括如下步骤:
S1:对文本语料进行实体标注和关系标注;
S2:对标注数据进行预处理,生成实体抽取模型和关系抽取模型的训练集和测试集;
S3:构建BiGRU-2ATT关系抽取网络;
S4:分别进行Lattice LSTM实体抽取模型训练和BiGRU-2ATT关系抽取模型训练;
S5:将测试集数据首先输入Lattice LSTM实体抽取模型,得到实体识别结果;
S6:实体识别结果和测试集数据输入BiGRU-2ATT关系抽取模型,得到关系抽取结果。
进一步的,所述步骤S1中采用人工方式进行实体标注和关系标注。
进一步的,所述实体标注具体为:将实体标注数据转换为BMES实体标注体系,B表示实体的起始位置,M表示实体的中间部分,E表示实体的结束位置,S表示实体是一个单字实体;
所述关系标注具体为:将关系抽取数据转化为{实体1,实体2,实体1起始位置,实体1结束位置,实体1标签,实体2起始位置,实体2结束位置,实体2标签,文本段落}的形式。
进一步的,所述步骤S3具体为:
S3-1:将实体位置信息(包括起始位置、结束位置)和实体标签信息扩充字向量特征,实现文本信息的向量化,作为模型输入;
S3-2:模型网络第一层为双向GRU:
每个GRU单元分别包含包括一个重置门(reset gate)和一个更新门(updategate),更新门zt用于控制前一时刻输出ht-1与当前时刻输入xt中所含信息的保留程度,将其作为t时刻门控单元的输出ht,数值越大保留程度越高;而重置门rt通过xt决定前一时刻ht-1中信息的遗忘程度,重置门数值越小忽略程度越高。计算得到当前时刻的记忆以及经过重置门和更新门后的的当前时刻隐状态ht。t时刻GRU单元的更新门zt、重置门rt、新记忆最终隐状态ht的计算如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
其中,σ()为sigmoid非线性激活函数,用于增强模型对非线性数据的处理能力,σ(x)=1/(1+e-x)。*表示点乘,tanh(x)=(ex-e-x)/(ex+e-x),W、Wr、Wz是模型的权值矩阵,[]表示将两个向量连接。
S3-3:模型网络第二层为字级注意力层:
对于一个句子向量w={w1,w2,…,wT}将步骤S3-2中所得结果ht,通过下式进行处理,得到ut
ut=tanh(Ww·ht+bw)
S3-4:第三层为句级注意力层:
将字级注意力层的输出s组成的句子特征值作为句级注意力层的输入,加入随机初始化的字上下文向量us进行共同训练,v是所有句子的向量和,具体公式如下:
ui=tanh(Ws·si+bs)
S3-5:第四层为Softmax分类器:
Softmax分类器将v映射到一组元素在[0,1]区间内的向量,向量和为1,如下式所示:
y=Soft max(v),y=[y1,y2,…,yN]and yi∈[0,1]and∑yi=1
其中,N为关系标签数量,即关系抽取分类数量;
S3-6:经过上述四层网络最终生成分类结果。
进一步的,事实上,句子中的每个字对句子含义的表达产生不等的作用,在字级注意力层训练过程中加入随机初始化的字上下文向量uw进行共同训练。通过加入字级注意层计算字与关系的相关程度,形成字级注意力层句子向量。字级注意力层计算公式如下:
其中αt为该字ut与uw的归一化表示,s为当前时刻加权后的字向量表示。
进一步的,所述步骤S4中采用Lattice LSTM算法进行实体抽取模型训练;关系抽取网络选用sigmoid函数作为激活函数,采用Softmax作为分类器进行关系抽取模型训练。
进一步的,所述步骤S4的关系抽取模型训练当中,添加L2正则化方法对关系抽取网络进行约束,训练过程中引入dropout策略,设置压抑概率,采用批量的Adam优化方法用于模型参数训练。
进一步的,所述步骤S6完成后,对步骤S6所得到的关系抽取结果进行性能评价,其性能评价指标采用精确率、召回率和F1值,计算公式如下:
其中,TP表示正确分类的数量,FP表示把负类判断为正类的数量,FN表示把正类预测为负类的数量。
本发明利用Lattice LSTM,将关注的各类实体从文本中抽取出来,通过构建基于多层注意力机制与双向GRU的文本关系抽取网络,实现实体之间的关系抽取。
本发明前期利用Lattice LSTM实体抽取算法,将关注的各类实体从文本中抽取出来,作为后续关系抽取基础。通过构建基于多层注意力机制与双向GRU的文本关系抽取网络,实现实体之间的关系抽取。首先,利用实体位置信息(包括起始位置、结束位置)和实体标签信息扩充字向量特征,实现文本信息的向量化。接着,构建文本向量输入双向GRU网络中,并加入字级注意力层和句级注意力层提高双向GRU模型输入信息与输出信息间的相关性。最后通过Softmax分类器处理注意力层的输出数据,得到实体之间的关系。
有益效果:本发明与现有技术相比,具备如下优点:
1、本发明利用实体位置信息和实体标签信息扩充字向量特征,实现文本信息的向量化,为关系识别提供更多的特征信息。
2、在双向GRU网络中加入字级注意力层和句级注意力层,提高双向GRU模型输入信息与输出信息间的相关性,增强关键字对输出的影响力并提高抗噪声能力。
3、本发明能够有效地提高中文文本关系抽取的精确率、召回率和F1值。
附图说明
图1为关系抽取流程图;
图2为标注数据示意图;
图3为GRU单元示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明。
本实施例通过具体的实验来验证本发明的效果,实验数据集以百度百科、互动百科军事语料为基础,经过人工标注生成。数据集中包括13940训练样本与2390测试样本,共包含24种关系。
如图1所示,关系抽取的具体步骤如下:
S1:进行实体和关系数据人工标注,具体如图2所示。
S2:对标注数据进行预处理,生成实体抽取模型和关系抽取模型的训练集和测试集:
将实体标注数据转换为BMES实体标注体系,B表示实体的起始位置,M表示实体的中间部分,E表示实体的结束位置,S表示实体是一个单字实体。将关系抽取数据转化为{实体1,实体2,实体1起始位置,实体1结束位置,实体1标签,实体2起始位置,实体2结束位置,实体2标签,文本段落}的形式。
S3:构建BiGRU-2ATT关系抽取网络,其具体步骤如下:
S3-1:将实体位置信息(包括起始位置、结束位置)和实体标签信息扩充字向量特征,实现文本信息的向量化,作为模型输入。
S3-2:模型网络第一层为双向GRU:
每个GRU单元分别包含包括一个重置门(reset gate)和一个更新门(updategate),具体如图3所示,更新门zt用于控制前一时刻输出ht-1与当前时刻输入xt中所含信息的保留程度,将其作为t时刻门控单元的输出ht,数值越大保留程度越高;而重置门rt通过xt决定前一时刻ht-1中信息的遗忘程度,重置门数值越小忽略程度越高。计算得到当前时刻的记忆以及经过重置门和更新门后的的当前时刻隐状态ht。t时刻GRU单元的更新门zt、重置门rt、新记忆/>最终隐状态ht的计算如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
其中,σ()为sigmoid非线性激活函数,用于增强模型对非线性数据的处理能力,σ(x)=1/(1+e-x)。*表示点乘。tanh(x)=(ex-e-x)/(ex+e-x)。W、Wr、Wz是模型的权值矩阵。[]表示将两个向量连接。
S3-3:模型网络第二层为字级注意力层:
对于一个句子向量w={w1,w2,…,wT}将步骤S3-2中所得结果ht,通过下式进行处理,得到ut
ut=tanh(Ww·ht+bw)
事实上,句子中的每个字对句子含义的表达产生不等的作用,在字级注意力层训练过程中加入随机初始化的字上下文向量uw进行共同训练。通过加入字级注意层计算字与关系的相关程度,形成字级注意力层句子向量。字级注意力层计算公式如下:
αt为该字ut与uw的归一化表示,s为当前时刻加权后的字向量表示。
S3-4:第三层为句级注意力层:
将字级注意力层的输出s组成的句子特征值作为句级注意力层的输入。与字级注意力层相似,加入随机初始化的字上下文向量us进行共同训练,v是所有句子的向量和,具体公式如下:
ui=tanh(Ws·si+bs)
S3-5:第四层为Softmax分类器:
Softmax分类器将v映射到一组元素在[0,1]区间内的向量,向量和为1,如下所示:
y=Soft max(v),y=[y1,y2,…,yN]and yi∈[0,1]and∑yi=1
N为关系标签数量,即关系抽取分类数量。
S3-6:经过上述四层网络最终生成分类结果。
S4:分别进行Lattice LSTM实体抽取模型训练和BiGRU-2ATT关系抽取模型训练:
S4-1:利用Lattice LSTM算法进行模型训练。Lattice LSTM将潜在词汇信息融入到基于字符的实体识别算法中,能更有效的利用文本信息。Lattice LSTM具体实现过程请参考论文Chinese NER Using Lattice LSTM(Yue Zhang and Jie Yang)。
S4-2:BiGRU-2ATT关系抽取网络选用sigmoid函数作为激活函数,采用Softmax作为分类器。为了避免模型在训练过程中出现过拟合现象,添加L2正则化方法对BiGRU-2ATT网络进行约束。训练过程引入dropout策略,压抑概率设置为0.5,采用批量的Adam优化方法用于模型参数训练。
S5:将测试集数据首先输入Lattice LSTM实体抽取模型,得到实体识别结果。
S6:将实体识别结果和测试集数据输入BiGRU-2ATT关系抽取模型,得到关系抽取结果。
本实施例中对所得到的关系抽取结果进行性能评价,性能评价指标采用精确率(precision)、召回率(recall)和F1值,计算公式如下:
其中,TP表示正确分类的数量,FP表示把负类判断为正类的数量,FN表示把正类预测为负类的数量。
对测试样本进行识别后得到关系抽取的精确率、召回率和F1值为85.22%,87.57%,86.40%;同样的测试样本在传统LSTM算法下,关系抽取的精确率、召回率和F1值为78.60%,80.32%,79.46%。由此可见,本发明方法能够有效的提升关系抽取的精确率、召回率和F1值。

Claims (5)

1.一种基于双层注意力机制与双向GRU的文本关系抽取方法,其特征在于:包括如下步骤:
S1:对文本语料进行实体标注和关系标注;
S2:对标注数据进行预处理,生成实体抽取模型和关系抽取模型的训练集和测试集;
S3:构建关系抽取网络;
S4:分别进行实体抽取模型训练和关系抽取模型训练;
S5:将测试集数据首先输入实体抽取模型,得到实体识别结果;
S6:实体识别结果和测试集数据输入关系抽取模型,得到关系抽取结果;
所述步骤S3具体为:
S3-1:将实体位置信息和实体标签信息扩充字向量特征,实现文本信息的向量化,作为模型输入;
S3-2:模型网络第一层为双向GRU:
每个GRU单元分别包含包括一个重置门和一个更新门,更新门zt用于控制前一时刻输出ht-1与当前时刻输入xt中所含信息的保留程度,将其作为t时刻门控单元的输出ht;而重置门rt通过xt决定前一时刻ht-1中信息的遗忘程度,计算得到当前时刻的记忆以及经过重置门和更新门后的的当前时刻隐状态ht,t时刻GRU单元的更新门zt、重置门rt、新记忆/>最终隐状态ht的计算如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
其中,σ()为sigmoid非线性激活函数,用于增强模型对非线性数据的处理能力,σ(x)=1/(1+e-x),*表示点乘,tanh(x)=(ex-e-x)/(ex+e-x),W、Wr、Wz是模型的权值矩阵,[]表示将两个向量连接;
S3-3:模型网络第二层为字级注意力层:
对于一个句子向量w={w1,w2,…,wT}将步骤S3-2中所得结果ht,通过下式进行处理,得到ut
ut=tanh(Ww·ht+bw)
S3-4:第三层为句级注意力层:
将字级注意力层的输出s组成的句子特征值作为句级注意力层的输入,加入随机初始化的字上下文向量us进行共同训练,v是所有句子的向量和,具体公式如下:
ui=tanh(Ws·si+bs)
S3-5:第四层为Softmax分类器:
Softmax分类器将v映射到一组元素在[0,1]区间内的向量,向量和为1,如下式所示:
y=Softmax(v),y=[y1,y2,…,yN]and yi∈[0,1]and∑yi=1
其中,N为关系标签数量,即关系抽取分类数量;
S3-6:经过上述四层网络最终生成分类结果;
所述步骤S3-3中在字级注意力层训练过程中加入随机初始化的字上下文向量uw进行共同训练,通过加入字级注意层计算字与关系的相关程度,形成字级注意力层句子向量,字级注意力层计算公式如下式,其中αt为该字ut与uw的归一化表示,s为当前时刻加权后的字向量表示;
所述步骤S4中采用Lattice LSTM算法进行实体抽取模型训练;关系抽取网络选用sigmoid函数作为激活函数,采用Softmax作为分类器进行关系抽取模型训练。
2.根据权利要求1所述的一种基于双层注意力机制与双向GRU的文本关系抽取方法,其特征在于:所述步骤S1中采用人工方式进行实体标注和关系标注。
3.根据权利要求2所述的一种基于双层注意力机制与双向GRU的文本关系抽取方法,其特征在于:所述实体标注具体为:将实体标注数据转换为BMES实体标注体系,B表示实体的起始位置,M表示实体的中间部分,E表示实体的结束位置,S表示实体是一个单字实体;
所述关系标注具体为:将关系抽取数据转化为{实体1,实体2,实体1起始位置,实体1结束位置,实体1标签,实体2起始位置,实体2结束位置,实体2标签,文本段落}的形式。
4.根据权利要求1所述的一种基于双层注意力机制与双向GRU的文本关系抽取方法,其特征在于:所述步骤S4的关系抽取模型训练当中,添加L2正则化方法对关系抽取网络进行约束,训练过程中引入dropout策略,设置压抑概率,采用批量的Adam优化方法用于模型参数训练。
5.根据权利要求1所述的一种基于双层注意力机制与双向GRU的文本关系抽取方法,其特征在于:所述步骤S6完成后,对步骤S6所得到的关系抽取结果进行性能评价,其性能评价指标采用精确率、召回率和F1值,计算公式如下:
其中,TP表示正确分类的数量,FP表示把负类判断为正类的数量,FN表示把正类预测为负类的数量。
CN201910710075.1A 2019-08-02 2019-08-02 一种基于双层注意力机制与双向gru的文本关系抽取方法 Active CN110502749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910710075.1A CN110502749B (zh) 2019-08-02 2019-08-02 一种基于双层注意力机制与双向gru的文本关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910710075.1A CN110502749B (zh) 2019-08-02 2019-08-02 一种基于双层注意力机制与双向gru的文本关系抽取方法

Publications (2)

Publication Number Publication Date
CN110502749A CN110502749A (zh) 2019-11-26
CN110502749B true CN110502749B (zh) 2023-10-03

Family

ID=68586978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910710075.1A Active CN110502749B (zh) 2019-08-02 2019-08-02 一种基于双层注意力机制与双向gru的文本关系抽取方法

Country Status (1)

Country Link
CN (1) CN110502749B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956497B (zh) * 2019-11-27 2022-11-25 桂林电子科技大学 一种电子商务平台用户重复购买行为预测方法
CN111159396B (zh) * 2019-12-04 2022-04-22 中国电子科技集团公司第三十研究所 面向数据共享交换的文本数据分类分级模型的建立方法
CN113033192B (zh) * 2019-12-09 2024-04-26 株式会社理光 一种序列标注的训练方法、装置及计算机可读存储介质
CN111046670B (zh) * 2019-12-09 2023-04-18 大连理工大学 基于毒品案件法律文书的实体及关系联合抽取方法
CN111125367B (zh) * 2019-12-26 2023-05-23 华南理工大学 一种基于多层次注意力机制的多种人物关系抽取方法
CN110781650B (zh) * 2020-01-02 2020-04-14 四川大学 一种基于深度学习的裁判文书自动生成方法及系统
CN111339774B (zh) * 2020-02-07 2022-11-29 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法
CN111339407B (zh) * 2020-02-18 2023-12-05 北京航空航天大学 一种信息抽取云平台的实现方法
CN111091007A (zh) * 2020-03-23 2020-05-01 杭州有数金融信息服务有限公司 一种基于舆情及企业画像识别多个企业之间关系的方法
CN111522908A (zh) * 2020-04-09 2020-08-11 国网上海市电力公司 一种基于BiGRU和注意力机制的多标签文本分类方法
CN111597420B (zh) * 2020-04-29 2023-06-02 西安理工大学 基于深度学习的轨道交通规范关系抽取方法
CN111597814B (zh) * 2020-05-22 2023-05-26 北京慧闻科技(集团)有限公司 一种人机交互命名实体识别方法、装置、设备及存储介质
CN111832924B (zh) * 2020-06-30 2021-06-15 北方工业大学 基于图神经网络的社区燃气系统动态风险评估方法及装置
CN111784303B (zh) * 2020-07-06 2023-08-22 泰康保险集团股份有限公司 核保信息处理方法、装置、计算机存储介质及电子设备
CN111814454B (zh) * 2020-07-10 2023-08-11 重庆大学 一种社交网络上的多模态网络欺凌检测模型
CN112115687B (zh) * 2020-08-26 2024-04-26 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法
CN112100397A (zh) * 2020-09-07 2020-12-18 南京航空航天大学 基于双向门控循环单元的电力预案知识图谱构建方法及系统
CN115796181A (zh) * 2020-09-17 2023-03-14 青岛科技大学 一种针对化工领域的文本关系抽取方法
CN112257648A (zh) * 2020-11-03 2021-01-22 泰山学院 基于改进的循环神经网络的信号分类识别方法
CN112287678A (zh) * 2020-11-03 2021-01-29 沈阳雅译网络技术有限公司 一种基于预训练模型的古体诗自动生成方法
CN112667808A (zh) * 2020-12-23 2021-04-16 沈阳新松机器人自动化股份有限公司 一种基于bert模型的关系抽取方法及其系统
CN112749283A (zh) * 2020-12-31 2021-05-04 江苏网进科技股份有限公司 一种面向法律领域的实体关系联合抽取方法
CN112613306B (zh) * 2020-12-31 2024-08-02 恒安嘉新(北京)科技股份公司 抽取实体关系的方法、装置、电子设备、及存储介质
CN113190677A (zh) * 2021-04-21 2021-07-30 南京航空航天大学 一种中文船舶故障关系抽取方法
CN113342929A (zh) * 2021-05-07 2021-09-03 上海大学 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法
CN113312907B (zh) * 2021-06-18 2023-01-20 广东工业大学 基于混合神经网络的远程监督关系抽取方法及装置
CN113505598A (zh) * 2021-08-06 2021-10-15 贵州江南航天信息网络通信有限公司 一种基于混合神经网络的网络文本实体关系抽取算法
CN114118056A (zh) * 2021-10-13 2022-03-01 中国人民解放军军事科学院国防工程研究院工程防护研究所 一种战争类研究报告的信息抽取方法
CN113987150A (zh) * 2021-10-29 2022-01-28 深圳前海环融联易信息科技服务有限公司 基于bert的多层注意力机制关系抽取方法
CN114265919A (zh) * 2021-12-24 2022-04-01 中电信数智科技有限公司 一种实体提取方法、装置、电子设备及存储介质
CN114781375A (zh) * 2022-05-19 2022-07-22 中国电子科技集团公司第二十八研究所 一种基于bert与注意力机制的军事装备关系抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050154701A1 (en) * 2003-12-01 2005-07-14 Parunak H. Van D. Dynamic information extraction with self-organizing evidence construction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multi-Level Structured Self-Attentions for Distantly Supervised Relation Extraction;Jinhua Du等;《网页在线公开:https://arxiv.org/abs/1809.00699v1》;第1-10页 *

Also Published As

Publication number Publication date
CN110502749A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN110502749B (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN107273355B (zh) 一种基于字词联合训练的中文词向量生成方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN109992780B (zh) 一种基于深度神经网络特定目标情感分类方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
CN111125367B (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN111581970B (zh) 一种网络语境的文本识别方法、装置及存储介质
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN112070139A (zh) 基于bert与改进lstm的文本分类方法
CN111753088A (zh) 一种自然语言信息的处理方法
CN110298044A (zh) 一种实体关系识别方法
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN114417785A (zh) 知识点标注方法、模型的训练方法、计算机设备及存储介质
Suyanto Synonyms-based augmentation to improve fake news detection using bidirectional LSTM
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN108875024B (zh) 文本分类方法、系统、可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant