CN114510576A - 一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法 - Google Patents
一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法 Download PDFInfo
- Publication number
- CN114510576A CN114510576A CN202111551310.9A CN202111551310A CN114510576A CN 114510576 A CN114510576 A CN 114510576A CN 202111551310 A CN202111551310 A CN 202111551310A CN 114510576 A CN114510576 A CN 114510576A
- Authority
- CN
- China
- Prior art keywords
- layer
- bigru
- model
- attention mechanism
- bert
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 42
- 230000007246 mechanism Effects 0.000 title claims abstract description 22
- 230000004927 fusion Effects 0.000 title claims description 3
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 abstract description 17
- 238000012545 processing Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- COCAUCFPFHUGAA-MGNBDDOMSA-N n-[3-[(1s,7s)-5-amino-4-thia-6-azabicyclo[5.1.0]oct-5-en-7-yl]-4-fluorophenyl]-5-chloropyridine-2-carboxamide Chemical compound C=1C=C(F)C([C@@]23N=C(SCC[C@@H]2C3)N)=CC=1NC(=O)C1=CC=C(Cl)C=N1 COCAUCFPFHUGAA-MGNBDDOMSA-N 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明提出采用BERT模型和BiGRU网络并融入注意力机制的实体关系抽取方法。该方法使用BERT作为神经网络模型嵌入层,使用动态词向量对中文进行编码,弥补了word2vec在解决多义词问题上的不足;基于GRU更好地处理序列化任务的能力和CNN提取局部特征的突出性能,改善了单个神经网络模型特征提取不足的问题;结合了注意力机制,输出特征通过注意力机制加权,使得对关系分类影响较大的词通过注意力机制加权,从而提高分类精度。
Description
技术领域
本发明属于自然语言处理领域。
背景技术
关系抽取是信息抽取的重要子任务之一,主要目的是从文本中识别实体并抽 取实体之间的语义关系。实体关系抽取解决了原始文本中目标实体之间的关系分 类问题,它也是构建复杂知识库系统的重要步骤,比如文本摘要、自动问答、机 器翻译、搜索引擎、知识图谱等。随着近年来对信息抽取的兴起,实体关系抽取 研究问题进一步得到广泛的关注和深入研究。
实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也被广泛 应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。中文实体 关系抽取由于中文句式和语法结构复杂,汉语有更多歧义,会影响关系分类的效 果。实体关系抽取是指从一个句子中抽取出关系三元组(entity1,relation,entity2), 例如,“任正非在深圳创办了华为公司。”,其中任正非是实体1,华为是实体2, 它们之间的关系是创办,那么抽取的三元组为(任正非,创办,华为)。
近年来,研究人员提出了几种基于深度学习的关系抽取模型。在这些模型中,Zeng等人,次提出在关系分类任务中使用深度卷积神经网络。该模型以句子的 词向量表示作为输入,通过卷积神经网络(CNN)自动提取特征,减少了大量的 特征标记工作,节省了大量的人力资源。Socher等人,提出了递归神经网络(RNN) 模型在实体关系抽取中的应用。语义信息的丢失是由于CNN网络无法细化池 化特征造成的。RNN网络存在梯度消失和梯度爆炸的问题,并且容易丢失长距 离关系,难以处理长距离依赖问题。Xu等人,采用改进的基于RNN的模型, 长短期记忆(LSTM),来改善长序列的问题。还有人提出了一种基于CNN和双 向LSTM的联合情感分析模型。在该模型中,CNN首先提取连续词之间的相关 特征,然后双向LSTM提取句子的正负语义信息。实验表明,双向LSTM网络 结合CNN可以很好地学习隐藏在句子中的长距离依赖,从而在情感分析任务中 取得更好的效果。
然而,RNN提取局部特征的能力不足。融合注意力机制后很难得到入句子 丰富的特征表示,模型学习特征的能力将直接影响关系抽取的准确性。
发明内容
为了解决上述问题,本发明提出采用BERT模型和BiGRU网络并融入注意 力机制的实体关系抽取方法。实验结果达到以下效果:
(1)该方法使用BERT作为神经网络模型嵌入层,使用动态词向量对中文 进行编码,弥补了word2vec在解决多义词问题上的不足。
(2)该方法基于GRU更好地处理序列化任务的能力和CNN提取局部特征 的突出性能,改善了单个神经网络模型特征提取不足的问题。
(3)该方法结合了注意力机制,输出特征通过注意力机制加权,使得对关 系分类影响较大的词通过注意力机制加权,从而提高分类精度。
附图说明
图1为本发明的算法整体框图。
图2为本发明中应用到的BERT模型部分结构图。
图3为本发明中应用到的GRU内部结构图。
图4为本发明中应用到的BiGRU网络结构图。
图5为本发明在实验数据验证集上的损失率图。
图6为本发明在实验数据验证集上的准确率图。
图7为本发明中实验环境说明。
图8为本发明在数据集上模型的对比结果。
具体实施方式
下面结合附图对本发明进一步说明。
本发明主要包括五个部分,整体框架如图1所示。
(1)BERT嵌入层:本发明使用BERT对输入句子进行向量化,得到词向 量矩阵Y作为卷积神经网络层的输入。
(2)卷积神经网络层:词向量矩阵的局部特征提取Y通过卷积层进行特征降 维,然后通过池化层进行特征降维,以获得更好的特征信息pi。最后,序列化矩 阵P通过拼接获得pi作为双向门控循环单元层的输入。
(3)双向门控循环单元层:通过BiGRU学习特征矩阵的上下信P获得新的 特征表示H包含上下文信息。
(4)注意力机制层:对输入向量进行加权H得到一个新的向量表示Y。
(5)分类器层:输入注意力机制层的输出Y到softmax分类器得到关系分类 的结果。
步骤一:BERT嵌入层
嵌入层作为模型的输入部分,主要实现对给定输入句子的向量化,将面向人 的文本信息转化为计算机能够理解的数字语言。2013年,Google发布了word2vec 工具,它使用典型的分布式词向量表示,将one-hot形式的高维词向量转换为低 维向量,从而实现文本处理。2014年,斯坦福NLP研究组提出了词表示工具 Glove基于全球词频统计。该工具首先基于语料构建词频共现矩阵,然后基于共 现矩阵和手套模型学习词向量。Glove本身使用全局信息,这会导致高内存消耗。 相比之下,研究人员更喜欢word2vec,它可以节省资源。然而,word2vec生成 的词向量是静态的,只有单向词到向量的映射,没有考虑到一个词在其上下文中 的不同语义。
在关系抽取任务中,同一个词在不同的关系表达语句中通常具有不同的含义, 考虑到汉语多义词的特点,本发明采用基于词向量动态表示的BERT模型。与 word2vec相比,该模型在框架、预训练损失函数和训练方法上都有很大的改进。 BERT预训练模型使用双向转换器编码器,使模型能够学习每个词前后的信息, 不仅可以解决一个词的多义问题,还可以得到基于该词的文本的向量化表示。模 型结构如图2所示。
E1,E2,E3,...,En表示模型的输入,Y1,Y2,Y3,...,Yn表示模型的输出,中间两层 是可以获取上下文信息的双向transformer特征提取器。
对于输入文本T={X1,X2,X3,...,Xn},Xn表示第n个句子中的词。屏蔽后,文 本中的实体表示为fii={E1,E2,E3,...,En},En表示第n个实体,经过双向变换器后, 词向量表示Y={Y1,Y2,Y3,...,Yn}。
步骤二:卷积神经网络层
本发明使用CNN来提取输入句子的局部特征。CNN主要包括卷积层、池化 层和输入输出层。
(1)卷积层
得到词向量表示后Y对应通过embedding层的文本,设置一个维度为j*k, j是窗口中包含的单词数,k是词向量的长度。卷积层进行的卷积操作是利用窗口 在输入矩阵上不断滑动,每滑动一次都会进行乘积求和。卷积计算过程如下:
ci=f(W*xi:i+j-1+b) (1)
xi:i+j-1是句子中词i到i+j的词向量矩阵的组成,b表示偏置矩阵,f是线性 激活函数。通过计算,最终结果为:
c=c1,c2,c3,…,cn-j+1 (2)
(2)池化层
卷积操作与很多冗余信息相关联,池化层是将冗余信息池化。即对卷积层获 取的特征进行降维,以获得更好的局部特征。本发明采用最大池化策略选择特征, 如下:
pi=max(c=c1,c2,c3,…,cn-j+1) (3)
步骤三:双向门控制循环单元层
本发明在CNN神经网络层之后加入BiGRU层,序列P通过拼接局部特征矩 阵得到pi在池化层之后作为BiGRU层的输入,其中P={p1,p2,p3,...,pn}。GRU 是RNN的一种变体,2014年首次被提出,用于解决长期记忆和反向传播中的梯 度问题。与LSTM相比,GRU将LSTM中的遗忘门和输入门替换为更新门。它 具有更简单的网络结构和更少的参数。计算效果和LSTM差不多,一定程度上提 高了模型训练的效率。GRU的内部结构如图3所示。
其中rt是复位门,zt是更新门,xt是当时的输入数据,ht和ht-1是对应时间xt的GRU的输出,更新门分别控制输入数据xt和输出信息ht-1在之前的时间,zt和rt从隐藏状态控制计算ht-1到隐藏状态ht节点输出和门的具体计算过程如下:
ht=(1-zt)*ht-1+zt*ht (7)
其Wz,Wr和W分别是重置门、更新门、候选隐藏状态的权重矩阵,σ是一个 sigmoid函数。输出ht可以从重置门、更新门和隐藏状态的结果中获得当前时刻 的信息。考虑到在关系抽取任务中,网络模型需要学习中文句子的上下文信息, 本发明采用能够学习上下文词序列信息的双向GRU神经网络。BiGRU网络结构 如图4所示。
其中函数GRU()表示输入的非线性变换,将输入编码为对应的GRU隐藏层 状态。wt和vt分别对应前向和反向隐藏层状态对应的权重ht的BiGRU在时间t, 和bt表示对应于时间t的隐藏层状态的偏差。
步骤四:注意力机制层
本发明引入注意力机制来区分对关系分类影响较大的常用词和特征词的权 重,使神经网络能够更加关注句子中的重要词。注意力机制的权重是通过乘以输 出向量来计算H=(h1,h2,h3,...,hn)的BiGRU层和不同初始化概率的权重矩阵, 然后相加。通过激活函数softmax获得注意力分布特征。最后,对分布特征进行 加权得到注意力层的输出。具体计算过程如下:
a=softmax(wT*tanh(H)) (11)
Y=HaT (12)
步骤五:分类器层
在本发明提出的模型的最后,输出Y是注意机制层的输入到softmax分类器 计算关系分类概率。具体计算如下:
p(r|Y)=softmax(Ws*Y+bs) (13)
其中ws是分类器的权重矩阵,bs是分类器的偏置参数,r是关系类别。r表 示分类器计算输入关系的概率分布,选取最大值作为关系抽取结果。
实验过程及结果分析:
(1)数据集
本发明使用了MUC会议种ACE关系抽取任务数据集,MUC会议停开后, ACE将关系抽取任务作为一个子任务从2002至2007年共持续六年。关系抽取 任务也被定义的更加规范和系统。其中,获得认可的一届关系抽取任务主要是 ACE-2004,其数据来源于语言数据联盟(LDC),分成广播新闻和新闻专线两部 分,总共包括451和文档和5702个关系实例。ACE2014提供了丰富的标注信息, 从而为信息抽取中的实体识别、指代消解和关系抽取等子任务提供基准的训练和 测试语料库。
(2)实验评估标准
在本发明中,我们使用Precision、Recall和F1值来评估我们的模型。具体 公式为:
(3)实验结果
为了验证本发明提出的模型的性能,设计了以下关系抽取实验进行对比,损 失率和准确率分别为图5、图6,实验环境如图7。
①CNN、RNN、CNN-BiGRU对比实验:联合模型与经典单神经网络模型提取效 果对比。
②CNN-BiGRU和CNN-BiGRU-ATT对比实验:带ATT的神经网络模型与普通 神经网络模型提取效果对比。
③CNN-BiGRU-ATT和Bert-CNN-BiGRU-ATT对比实验:相同神经网络模型在 不同词向量表示下的提取效果对比。
上述对比实验设置中,5个模型在相同数据集下的Precision、Recall和F1值 如图8示。
(4)结果分析
如图8所示,RNN网络的精度要优于CNN网络,而BiGRU网络是RNN的 一个变种,说明具有处理序列学习任务能力的网络在关系抽取任务中具有优势。 联合神经网络模型比单一神经网络CNN和RNN更有效。Precision、Recall和F1 值都取得了较好的成绩,说明结合了CNN对文本局部特征的学习能力和BiGRU 对序列特征的学习能力的联合神经网络模型在关系抽取任务中表现更好。常见的 CNN-BiGRU神经网络的Precision、Recall和F1值分别为75.32%、74.89%和 72.47%。使用注意力机制ATT的CNN-BiGRU神经网络模型的Precision、Recall 和F1值分别为79.33%、76.92%和74.81%。可以看出,通过加入ATT,模型可 以通过选择性地为句子中的特征词分配不同的权重来更好地理解分类任务并提 高关系抽取的精度。使用BERT作为词向量模型的CNN-BiGRU神经网络模型比 使用word2vec作为词向量模型的CNN-BiGRU神经网络在Precision、Recall和 F1值等方面略有提升。可以看出BERT生成的中文动态词向量比word2vec的语 义表示更丰富。进一步提高关系抽取任务的准确性。Recall和F1值比使用 word2vec作为词向量模型的CNN-BiGRU神经网络高。可以看出BERT生成的 中文动态词向量比word2vec的语义表示更丰富。进一步提高关系抽取任务的准 确性。Recall和F1值比使用word2vec作为词向量模型的CNN-BiGRU神经网络 高。可以看出BERT生成的中文动态词向量比word2vec的语义表示更丰富。进 一步提高关系抽取任务的准确性。
在本发明中,提出了一种基于BERT、CNN和BiGRU的字符关系提取方法, 针对单一神经网络模型和以word2vec为嵌入层的神经网络模型在关系抽取任务 中提取效果不能得到进一步改进。CNN擅长提取最重要的局部特征,但不适合 处理序列输入。尽管RNN在任意长度的序列化任务中具有很大优势,但不足以 提取局部重要特征。BiGRU作为RNN的一个变体,仍然保留了它的特性。
该模型利用了BERT生成动态词向量的能力,并将CNN提取局部特征的 能力与BiGRU解决序列相关问题的能力相结合。同时,模型中加入了ATT,赋 予句子中关键词更多的权重,进一步提升了神经网络模型在RE任务中的性能。 在数据集上的实验表明,本发明提出的基于BERT和CNN-BiGRU-ATT的模型 比单一神经网络模型CNN、RNN和CNN-BiGRU具有更高的准确率以word2vec 作为词向量嵌入层的模型。
Claims (4)
1.一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法其特征在于,包括以下步骤:
步骤1:采用基于词向量动态表示的BERT模型,与word2vec相比,该模型在框架、预训练损失函数和训练方法上都有很大的改进,BERT预训练模型使用双向转换器编码器,使模型能够学习每个词前后的信息,不仅可以解决一个词的多义问题,还可以得到基于该词的文本的向量化表示;
步骤2:使用CNN来提取输入句子的局部特征,CNN主要包括卷积层、池化层和输入输出层;
步骤3:在CNN神经网络层之后加入BiGRU层,序列P通过拼接局部特征矩阵得到pi在池化层之后作为BiGRU层的输入,其中P={p1,p2,p3,…,pn},GRU是RNN的一种变体,2014年首次被提出,用于解决长期记忆和反向传播中的梯度问题,与LSTM相比,GRU将LSTM中的遗忘门和输入门替换为更新门,它具有更简单的网络结构和更少的参数,计算效果和LSTM差不多,一定程度上提高了模型训练的效率;
步骤4:引入注意力机制来区分对关系分类影响较大的常用词和特征词的权重,使神经网络能够更加关注句子中的重要词,注意力机制的权重是通过乘以输出向量来计算H=(h1,h2,h3,…,hn)的BiGRU层和不同初始化概率的权重矩阵,然后相加,通过激活函数softmax获得注意力分布特征,最后,对分布特征进行加权得到注意力层的输出;
步骤5:模型的最后,输出Y是注意机制层的输入到softmax分类器计算关系分类概率。
2.如权利要求1所示方法,其特征在于,步骤3中采用的是BiGRU网络架构。
3.如权利要求1所示方法,其特征在于,步骤4中引入了注意力机制。
4.如权利要求1所示方法,其特征在于,步骤5采用softmax,并选取最大值作为关系抽取结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111551310.9A CN114510576A (zh) | 2021-12-21 | 2021-12-21 | 一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111551310.9A CN114510576A (zh) | 2021-12-21 | 2021-12-21 | 一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114510576A true CN114510576A (zh) | 2022-05-17 |
Family
ID=81548788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111551310.9A Pending CN114510576A (zh) | 2021-12-21 | 2021-12-21 | 一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114510576A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114781375A (zh) * | 2022-05-19 | 2022-07-22 | 中国电子科技集团公司第二十八研究所 | 一种基于bert与注意力机制的军事装备关系抽取方法 |
CN115080705A (zh) * | 2022-07-20 | 2022-09-20 | 神州医疗科技股份有限公司 | 基于双模型增强的垂直领域关系抽取方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020244066A1 (zh) * | 2019-06-04 | 2020-12-10 | 平安科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
CN112800776A (zh) * | 2021-03-10 | 2021-05-14 | 湖北工业大学 | 双向gru关系抽取数据处理方法、系统、终端、介质 |
-
2021
- 2021-12-21 CN CN202111551310.9A patent/CN114510576A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020244066A1 (zh) * | 2019-06-04 | 2020-12-10 | 平安科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
CN112800776A (zh) * | 2021-03-10 | 2021-05-14 | 湖北工业大学 | 双向gru关系抽取数据处理方法、系统、终端、介质 |
Non-Patent Citations (2)
Title |
---|
姚妮;高政源;娄坤;朱付保;: "基于BERT和BiGRU的在线评论文本情感分类研究", 轻工学报, no. 05, 15 September 2020 (2020-09-15) * |
谢润忠;李烨;: "基于BERT和双通道注意力的文本情感分类模型", 数据采集与处理, no. 04, 15 July 2020 (2020-07-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114781375A (zh) * | 2022-05-19 | 2022-07-22 | 中国电子科技集团公司第二十八研究所 | 一种基于bert与注意力机制的军事装备关系抽取方法 |
CN115080705A (zh) * | 2022-07-20 | 2022-09-20 | 神州医疗科技股份有限公司 | 基于双模型增强的垂直领域关系抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN110418210B (zh) | 一种基于双向循环神经网络和深度输出的视频描述生成方法 | |
US20210232376A1 (en) | Vectorized representation method of software source code | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN107506414A (zh) | 一种基于长短期记忆网络的代码推荐方法 | |
CN107562792A (zh) | 一种基于深度学习的问答匹配方法 | |
CN111274790B (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN108427665A (zh) | 一种基于lstm型rnn模型的文本自动生成方法 | |
CN109919175B (zh) | 一种结合属性信息的实体多分类方法 | |
CN114510576A (zh) | 一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法 | |
CN113033189B (zh) | 一种基于注意力分散的长短期记忆网络的语义编码方法 | |
CN110532555B (zh) | 一种基于强化学习的语言评价生成方法 | |
CN113065344A (zh) | 一种基于迁移学习和注意力机制的跨语料库情感识别方法 | |
Zhang et al. | Hierarchical scene parsing by weakly supervised learning with image descriptions | |
CN114925195A (zh) | 一种融合词汇编码与结构编码的标准内容文本摘要生成方法 | |
Wang et al. | NEWLSTM: An optimized long short-term memory language model for sequence prediction | |
Thomas et al. | Chatbot using gated end-to-end memory networks | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN116543289B (zh) | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 | |
CN110888944B (zh) | 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法 | |
CN111813907A (zh) | 一种自然语言问答技术中的问句意图识别方法 | |
CN116150334A (zh) | 基于UniLM模型和Copy机制的中文共情语句训练方法及系统 | |
CN113488196B (zh) | 一种药品说明书文本命名实体识别建模方法 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN112598065B (zh) | 一种基于记忆的门控卷积神经网络语义处理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |