CN112800774B - 基于注意力机制的实体关系抽取方法、装置、介质和设备 - Google Patents
基于注意力机制的实体关系抽取方法、装置、介质和设备 Download PDFInfo
- Publication number
- CN112800774B CN112800774B CN202110053273.2A CN202110053273A CN112800774B CN 112800774 B CN112800774 B CN 112800774B CN 202110053273 A CN202110053273 A CN 202110053273A CN 112800774 B CN112800774 B CN 112800774B
- Authority
- CN
- China
- Prior art keywords
- vector
- entity
- sentence
- word
- steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 39
- 230000007246 mechanism Effects 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 121
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010668 complexation reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于注意力机制的实体关系抽取方法、装置、介质和设备。其中方法包括如下步骤:将原始文本的内容进行预处理,并输入到BERT预训练模型得到文本句子每个单词的文本向量表示;将文本向量输入卷积神经网络得到句子卷积特征向量;将文本向量经过注意力权重计算单元得到包含实体信息的语义上下文向量;之后连接成特征向量,然后经过全连接神经网络和SoftMax函数计算得到不同类别的概率,其中最大的概率对应的就是实体对的实体关系类型。本发明通过计算实体信息注意力得到句子中每个单词对于每个实体的相关程度,依靠词级注意机制来选择重要的信息来进行关系的表示,使得实体关系抽取的精确率、召回率更高。
Description
技术领域
本发明涉及自然语言处理技术领域,更具体地说,涉及一种基于注意力机制的实体关系抽取方法、装置、介质和设备。
背景技术
随着互联网技术的高速发展,使得网络上的信息爆炸式增长。这些海量的数据中包含了大量有用的信息,如何利用自然语言处理技术有效采集并运用这些海量数据是大数据时代的一个重要课题。
信息抽取(Information Extraction)为解决上述问题提供了新的思路,其目的是从半结构化或者非结构化的自然语言文本中提取出有用信息,并整理成结构化内容。实体关系抽取作为其中重要的子任务之一,自然受到了广大学者的关注。实体关系抽取的主要任务是将句子中的命名实体识别出来后,判断实体之间的相互关系,并将其抽取出来。目前的许多自然语言处理任务都依赖于命名实体识别和实体关系等基础任务,例如,知识图谱中需要实体与实体关系来进行填充,才能构成完整的知识图谱。此外,在语义角色标注、文本情感分析和机器翻译等领域中也经常用到实体关系。因此,研究实体关系抽取对整个自然语言处理领域来说具有重要意义。
目前国内外使用最为广泛的的实体关系抽取方法是有监督学习方法。有监督学习方法是通过使用已经标注的数据集来训练机器学习模型,将得到泛化好的模型对测试数据的关系类型进行分类。有监督学习方法主要包括:基于特征的方法、基于核函数的方法和基于神经网络的方法。
最近,越来越多人关注神经网络模型在NLP任务可以减少特征工程的能力.此外,一些研究人员也在实体关系抽取领域关注神经网络的特征学习。2012年Socher等人引入了递归神经网络模型来学习任意句法类型和长度的短语和句子的组合向量表示。2014年Zeng等人利用卷积神经网络(CNN)进行关系分类。2015年Xu等人利用长短期记忆(LSTM)的递归神经网络来寻找最短依赖路径。
然而,现阶段这些神经网络模型设计时都是把句子中所有单词看做同等重要,并且每个单词对实体对关系判断的贡献也是相同的,然而,并非所有的词对实体对关系的表示都有同样的贡献,例如:The<e1>burst</e1>has been caused by water hammer<e2>pressure</e2>,在这句话中,“caused”在确定“原因-后果”的关系中具有特别重要的意义。因此,如何找到决定实体对关系的关键词是一项重要的任务。
发明内容
为克服现有技术中的缺点与不足,本发明的目的在于提供一种基于注意力机制的实体关系抽取方法、装置、介质和设备;本发明在注意力计算过程中,将句子中的每个单词和每个实体都遣送到注意力权重计算单元,得到一个归一化重要性权重,用来表示句子中每个单词对于每个实体的相关程度,然后把这个相关程度也融合到特征向量中,达到找到决定语义信息关键词的目的,从而提高实体关系抽取性能。
为了达到上述目的,本发明通过下述技术方案予以实现:一种基于注意力机制的实体关系抽取方法,其特征在于:包括如下步骤:
S1,将原始文本的内容进行预处理,并输入到BERT预训练模型中进行词嵌入处理,得到文本句子每个单词的文本向量表示;
S2,将词嵌入后的文本向量输入卷积神经网络来构造句子的分布式表示,从而得到句子卷积特征向量
S3,将词嵌入后的文本向量经过注意力权重计算单元来计算句子中每个单词对于实体的相关程度,将这个相关程度作为句子中单词向量的加权和,从而得到包含实体信息的语义上下文向量Sij;
S4,将得到的句子卷积特征向量和语义上下文向量Sij输出向量连接成一个固定长度的特征向量,然后经过全连接神经网络和SoftMax函数计算得到不同类别的概率,其中最大的概率对应的就是实体对的实体关系类型。
优选地,所述步骤S2包括以下分步骤:
S21,顺序地从文本信息接收每个字的字嵌入,设xi∈Rk是句子中的第i个词对应的k维词嵌入向量,得到长度为n的句子的词嵌入向量为x1:n;
S22,将句子的词嵌入向量输入到卷积神经网络中,其中卷积神经网络包括滤波器w∈Rhk,h为滤波器的窗口大小,滤波器w以h个单词为窗口来产生卷积特征向量,其中滤波器的窗口也可能超出句子边界,对于超出句子边界的窗口部分填充0向量,其中xi:i+h-1经过滤波器w以后产生卷积特征向量ci;
滤波器w扫描句子中所有单词窗口{x1:h,x2:h+1,…,xn-h+1:n}并生成对应的卷积特征图c;
S23,对卷积特征图c进行max-overtime池化操作并将最大值max{c}作为该句子的句子卷积特征向量
优选地,所述步骤S21中,词嵌入向量x1:n为:
其中,是级联运算符;xi:j代表xi,xi+1,…,xi+j单词的级联;
所述步骤S22中,卷积特征向量ci和卷积特征图c分别为:
ci=f(w·xi:i+h-1)
c=[c1,c2,…,cn-h+1]
其中,f为非线性函数,比如双曲正切函数;c∈Rn-h+1;
优选地,所述步骤S3包括以下分步骤:
S31,设定每句话包含T个单词,wit表示第i个句子中第t个单词词嵌入向量,其中t∈[1,T];对于实体关系抽取任务,每个句子设定只有两个实体,eij代表第i个句子中第j个实体的词嵌入向量,其中j∈[1,2];然后将实体向量eij和单词词嵌入向量wit进行合并得到第t个单词的新向量表示
S32,将单词的新向量表示导入注意力权重计算单元中,其中注意力权重计算单元是一个多层感知器结构;注意力权重计算单元的输出是第i个句子中第t个单词相对于第j个实体的相关程度/>
S33,对于注意力权重计算单元的输出计算归一化重要性权重/>
S34,最后计算第j个实体的语义上下文向量Sij;。
优选地,所述步骤S31中,向量表示为:
所述步骤S32中,相关程度为:
其中,tanh为激活函数,Wa和Wwe为权重矩阵,bwe和ba为偏置向量;
所述步骤S33中,归一化重要性权重为:
其中,exp为指数函数;
所述步骤S34中,语义上下文向量Sij为:
优选地,所述步骤S4包括以下分步骤:
S41,将句子卷积特征向量和两个实体的语义上下文向量Si1和Si2进行合并操作生成一个固定长度的特征向量/>
S42,设定实体关系类型为p种,将特征向量输入一个全连接神经网络,输出一个维度为p的向量,再经过SoftMax函数来计算得到不同类型的概率,其中最大的概率对应的就是该实体对的实体关系类型。
优选地,所述步骤S41中,特征向量为:
一种基于注意力机制的实体关系抽取装置,其特征在于:包括:
词嵌入模块,用于将预处理后的原始文本内容输入到BERT预训练模型中进行词嵌入处理,得到文本句子每个单词的向量表示;
句子卷积模块,用于将词嵌入后的文本向量输入卷积神经网络来构造句子的分布式表示,从而得到句子卷积特征向量
实体信息模块,用于将词嵌入后的文本向量经过注意力权重计算单元来计算句子中每个单词对于实体的相关程度,将这个相关程度作为句子中单词向量的加权和,从而得到包含实体信息的语义上下文向量Sij;
全连接模块,用于将句子卷积模块得到的句子卷积特征向量和实体信息模块得到的语义上下文向量Sij连接成一个固定长度的特征向量,然后经过全连接神经网络和SoftMax函数计算得到不同类别的概率,其中最大的概率对应的就是实体对的实体关系类型。
一种存储介质,其特征在于,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述基于注意力机制的实体关系抽取方法。
一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现上述基于注意力机制的实体关系抽取方法。
与现有技术相比,本发明具有如下优点与有益效果:
本发明在计算实体信息注意力时,将句子中的每个单词和每个实体馈送到注意力权重计算单元,输出的是句子中每个单词对于每个实体的相关程度,依靠词级注意机制来选择重要的信息来进行关系的语义表示,使得实体关系抽取的精确率、召回率更高。
本发明在卷积神经网络模型基础上,构建了一种基于注意力机制融合实体信息的卷积神经网络模型,这个模型不光通过卷积神经网络结合了句子的卷积特征,还通过实体信息模块结合了句子中不同单词对于每个实体的重要程度,这使得模型可以检测到更细微的线索,使得模型能够自动学习哪些部分与给定的实体关系相关。
本发明中判断的实体关系类型需要根据原始文本的领域知识来制定,而本发明提供的实体关系抽取方法、装置既可以在不同领域上使用,同时还能够保证实体关系抽取的效果。
附图说明
图1是本发明的一种基于注意力机制的实体关系抽取方法流程图;
图2是本发明的一种基于注意力机制的卷积神经网络模型图;
图3是本发明注意力权重计算单元结构示意图;
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细的描述。
实施例一
本实施例一种基于注意力机制的实体关系抽取方法,其流程如图1所示,包括如下步骤:
S1,将原始文本的内容进行预处理:包括对原始文本进行分句处理、通过命名实体识别获得原始文本中的实体、对这些实体进行两两匹配并标注;输入到BERT预训练模型中进行词嵌入处理,得到文本句子每个单词的文本向量表示;
S2,将词嵌入后的文本向量输入卷积神经网络来构造句子的分布式表示,从而得到句子卷积特征向量如图2所示;
具体地说,步骤S2包括以下分步骤:
S21,顺序地从文本信息接收每个字的字嵌入,设xi∈Rk是句子中的第i个词对应的k维词嵌入向量,得到长度为n的句子的词嵌入向量为x1:n:
是级联运算符,其中xi:j代表xi,xi+1,…,xi+j单词的级联;
S22,将句子的词嵌入向量输入到卷积神经网络中,其中卷积神经网络包括滤波器w∈Rhk,h为滤波器w的窗口大小,滤波器w以h个单词为窗口来产生卷积特征向量,其中滤波器的窗口也可能超出句子边界,对于超出句子边界的窗口部分填充0向量;例如xi:i+h-1经过滤波器w以后产生的卷积特征向量ci为:
ci=f(w·xi:i+h-1)
其中f为非线性函数,比如双曲正切函数;
滤波器w扫描句子中所有可能的单词窗口{x1:h,x2:h+1,…,xn-h+1:n}并生成对应的卷积特征图c:
c=[c1,c2,…,cn-h+1]
其中c∈Rn-h+1;
S23,对卷积特征图c进行max-overtime池化操作并将其最大值max{c}作为该句子的句子卷积特征向量
S3,将词嵌入后的文本向量经过注意力权重计算单元来计算句子中每个单词对于实体的相关程度,将这个相关程度作为句子中单词向量的加权和,从而得到包含实体信息的语义上下文向量Sij,如图2所示。
具体地说,步骤S3包括以下分步骤:
S31,设定每句话包含T个单词,wit表示第i个句子中第t个单词词嵌入向量,其中t∈[1,T];对于实体关系抽取任务,每句话设定只有两个实体,eij代表第i个句子中第j个实体的词嵌入向量,其中j∈[1,2];然后将实体向量eij和单词词嵌入向量wit进行合并得到第t个单词的新向量表示
S32,将单词的新向量表示导入注意力权重计算单元中,其中注意力权重计算单元是一个多层感知器结构,如图3所示。而注意力权重计算单元的输出是第i个句子中第t个单词相对于第j个实体的相关程度/>
其中,tanh为激活函数,Wa和Wwe为权重矩阵,bwe和ba为偏置向量;
S33,对于注意力权重计算单元的输出计算归一化重要性权重/>
其中exp为指数函数;
S34,最后计算第j个实体的语义上下文向量Sij:
S4,将得到的句子卷积特征向量和语义上下文向量Sij连接成一个固定长度的特征向量,然后经过全连接神经网络和SoftMax函数计算得到不同类别的概率,其中最大的概率对应的就是实体对的实体关系类型,如图2所示。
具体地说,步骤S4包括以下分步骤:
S41,将句子卷积特征向量和两个实体的语义上下文向量Si1和Si2进行合并操作生成一个固定长度的特征向量/>
S42,设定实体关系类型为p种,将特征向量输入一个全连接神经网络,输出一个维度为p的向量,再经过SoftMax函数来计算得到不同类型的概率,其中最大的概率对应的就是该实体对的实体关系类型。
为实现本实施例基于注意力机制的实体关系抽取方法,本实施例还提供了一种基于注意力机制的实体关系抽取装置,包括:
词嵌入模块,用于将预处理后的原始文本内容输入到BERT预训练模型中进行词嵌入处理,得到文本句子每个单词的向量表示;
句子卷积模块,用于将词嵌入后的文本向量输入卷积神经网络来构造句子的分布式表示,从而得到句子卷积特征向量
实体信息模块,用于将词嵌入后的文本向量经过实体信息模块来计算句子中每个单词对于实体的相关程度,将这个相关程度作为句子中单词向量的加权和,从而得到包含实体信息的语义上下文向量Sij。
全连接模块,用于将句子卷积模块得到的句子卷积特征向量和实体信息模块得到的语义上下文向量Sij连接成一个固定长度的特征向量,然后经过全连接神经网络和SoftMax函数计算得到不同类别的概率,其中最大的概率对应的就是实体对的实体关系类型。
表1是实体关系抽取任务中各网络性能对比,所使用的实体关系抽取数据集是SemEval2010_task8数据集,模型性能对比值为F1值,即查准率和查全率的调和平均指标。从实验结果可以看出基于注意力机制的卷积神经网络在实体关系抽取任务上的表现优于传统的支持向量机(SVM)、RNN网络、CNN网络和Bi-LSTM网络等模型。
表1实体关系抽取任务各网络性能对比表
实施例二
本实施例一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的基于注意力机制的实体关系抽取方法。
实施例三
本实施例一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例一所述的基于注意力机制的实体关系抽取方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于注意力机制的实体关系抽取方法,其特征在于:包括如下步骤:
S1,将原始文本的内容进行预处理,并输入到BERT预训练模型中进行词嵌入处理,得到文本句子每个单词的文本向量表示;
S2,将词嵌入后的文本向量输入卷积神经网络来构造句子的分布式表示,从而得到句子卷积特征向量
S3,将词嵌入后的文本向量经过注意力权重计算单元来计算句子中每个单词对于实体的相关程度,将这个相关程度作为句子中单词向量的加权和,从而得到包含实体信息的语义上下文向量Sij;
S4,将得到的句子卷积特征向量和语义上下文向量Sij输出向量连接成一个固定长度的特征向量,然后经过全连接神经网络和SoftMax函数计算得到不同类别的概率,其中最大的概率对应的就是实体对的实体关系类型;
所述步骤S3包括以下分步骤:
S31,设定每句话包含T个单词,wit表示第i个句子中第t个单词词嵌入向量,其中t∈[1,T];对于实体关系抽取任务,每个句子设定只有两个实体,eij代表第i个句子中第j个实体的词嵌入向量,其中j∈[1,2];然后将实体向量eij和单词词嵌入向量wit进行合并得到第t个单词的新向量表示
S32,将单词的新向量表示导入注意力权重计算单元中,其中注意力权重计算单元是一个多层感知器结构;注意力权重计算单元的输出是第i个句子中第t个单词相对于第j个实体的相关程度/>
S33,对于注意力权重计算单元的输出计算归一化重要性权重/>
S34,最后计算第j个实体的语义上下文向量Sij;
所述步骤S31中,向量表示为:
所述步骤S32中,相关程度为:
其中,tanh为激活函数,Wa和Wwe为权重矩阵,bwe和ba为偏置向量;
所述步骤S33中,归一化重要性权重为:
其中,exp为指数函数;
所述步骤S34中,语义上下文向量Sij为:
所述步骤S4包括以下分步骤:
S41,将句子卷积特征向量和两个实体的语义上下文向量Si1和Si2进行合并操作生成一个固定长度的特征向量/>
S42,设定实体关系类型为p种,将特征向量输入一个全连接神经网络,输出一个维度为p的向量,再经过SoftMax函数来计算得到不同类型的概率,其中最大的概率对应的就是该实体对的实体关系类型。
2.根据权利要求1所述的基于注意力机制的实体关系抽取方法,其特征在于:所述步骤S2包括以下分步骤:
S21,顺序地接收每个字的字嵌入,设xi∈Rk是句子中的第i个词对应的k维词嵌入向量,得到长度为n的句子的词嵌入向量为x1:n;
S22,将句子的词嵌入向量输入到卷积神经网络中,其中卷积神经网络包括滤波器w∈Rhk,h为滤波器w的窗口大小,滤波器w以h个单词为窗口来产生卷积特征向量,对于超出句子边界的窗口部分填充0向量,其中xi:i+h-1经过滤波器w以后产生卷积特征向量ci;
滤波器w扫描句子中所有单词窗口{x1:h,x2:h+1,…,xn-h+1:n}并生成对应的卷积特征图c;
S23,对卷积特征图c进行max-overtime池化操作并将最大值max{c}作为该句子的句子卷积特征向量
3.根据权利要求2所述的基于注意力机制的实体关系抽取方法,其特征在于:所述步骤S21中,词嵌入向量x1:n为:
其中,是级联运算符;xi:j代表xi,xi+1,…,xi+j单词的级联;
所述步骤S22中,卷积特征向量ci和卷积特征图c分别为:
ci=f(w·xi:i+h-1)
c=[c1,c2,…,cn-h+1]
其中,f为非线性函数;c∈Rn-h+1。
4.根据权利要求1所述的基于注意力机制的实体关系抽取方法,其特征在于:所述步骤S41中,特征向量为:
5.一种存储介质,其特征在于,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1-4中任一项所述的基于注意力机制的实体关系抽取方法。
6.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-4中任一项所述的基于注意力机制的实体关系抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110053273.2A CN112800774B (zh) | 2021-01-15 | 2021-01-15 | 基于注意力机制的实体关系抽取方法、装置、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110053273.2A CN112800774B (zh) | 2021-01-15 | 2021-01-15 | 基于注意力机制的实体关系抽取方法、装置、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800774A CN112800774A (zh) | 2021-05-14 |
CN112800774B true CN112800774B (zh) | 2023-07-18 |
Family
ID=75809527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110053273.2A Active CN112800774B (zh) | 2021-01-15 | 2021-01-15 | 基于注意力机制的实体关系抽取方法、装置、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800774B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641767B (zh) * | 2021-07-16 | 2024-04-19 | 中南民族大学 | 实体关系抽取方法、装置、设备及存储介质 |
CN113836923B (zh) * | 2021-08-27 | 2023-06-27 | 山西清众科技股份有限公司 | 一种基于多级上下文特征提取的命名实体识别方法 |
CN113987150A (zh) * | 2021-10-29 | 2022-01-28 | 深圳前海环融联易信息科技服务有限公司 | 基于bert的多层注意力机制关系抽取方法 |
CN114357186B (zh) * | 2021-12-23 | 2023-05-02 | 华南理工大学 | 基于交互式概率编码的实体抽取方法、装置、介质和设备 |
CN114548101B (zh) * | 2022-04-25 | 2022-08-02 | 北京大学 | 基于可回溯序列生成方法的事件检测方法和系统 |
CN114881038B (zh) * | 2022-07-12 | 2022-11-11 | 之江实验室 | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783618A (zh) * | 2018-12-11 | 2019-05-21 | 北京大学 | 基于注意力机制神经网络的药物实体关系抽取方法及系统 |
CN111177383A (zh) * | 2019-12-24 | 2020-05-19 | 上海大学 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11574122B2 (en) * | 2018-08-23 | 2023-02-07 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
-
2021
- 2021-01-15 CN CN202110053273.2A patent/CN112800774B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783618A (zh) * | 2018-12-11 | 2019-05-21 | 北京大学 | 基于注意力机制神经网络的药物实体关系抽取方法及系统 |
CN111177383A (zh) * | 2019-12-24 | 2020-05-19 | 上海大学 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
Non-Patent Citations (2)
Title |
---|
结合实体共现信息与句子语义特征的关系抽取方法;马语丹;赵义;金婧;万怀宇;;中国科学:信息科学(11);第71-83页 * |
融合双向GRU与注意力机制的医疗实体关系识别;张志昌;周侗;张瑞芳;张敏钰;;计算机工程(06);第302-308页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112800774A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112800774B (zh) | 基于注意力机制的实体关系抽取方法、装置、介质和设备 | |
CN112347268B (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN110765265B (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN109472024B (zh) | 一种基于双向循环注意力神经网络的文本分类方法 | |
CN111859978B (zh) | 一种基于深度学习的情感文本生成方法 | |
Xu et al. | Investigation on the Chinese text sentiment analysis based on convolutional neural networks in deep learning. | |
CN111401077B (zh) | 语言模型的处理方法、装置和计算机设备 | |
CN111368086A (zh) | 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法 | |
CN110502753A (zh) | 一种基于语义增强的深度学习情感分析模型及其分析方法 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN113239186A (zh) | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 | |
CN111222330B (zh) | 一种中文事件的检测方法和系统 | |
CN110619045A (zh) | 一种基于卷积神经网络和自注意力的文本分类模型 | |
Guo et al. | Implicit discourse relation recognition via a BiLSTM-CNN architecture with dynamic chunk-based max pooling | |
CN113157919A (zh) | 语句文本方面级情感分类方法及系统 | |
CN112347245A (zh) | 面向投融资领域机构的观点挖掘方法、装置和电子设备 | |
CN117216265A (zh) | 一种基于改进的图注意力网络新闻主题分类方法 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
Tian et al. | Text classification model based on BERT-capsule with integrated deep learning | |
CN116257632A (zh) | 基于图对比学习的未知目标立场检测方法、装置 | |
CN115827865A (zh) | 一种融合多特征图注意力机制的不良文本分类方法及系统 | |
CN113254586B (zh) | 一种基于深度学习的无监督文本检索方法 | |
CN115630223A (zh) | 基于多模型融合的服务推荐方法及推荐系统 | |
CN114997155A (zh) | 一种基于表格检索和实体图推理的事实验证方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |