CN116629264B - 一种基于多个词嵌入和多头自注意力机制的关系抽取方法 - Google Patents
一种基于多个词嵌入和多头自注意力机制的关系抽取方法 Download PDFInfo
- Publication number
- CN116629264B CN116629264B CN202310594598.0A CN202310594598A CN116629264B CN 116629264 B CN116629264 B CN 116629264B CN 202310594598 A CN202310594598 A CN 202310594598A CN 116629264 B CN116629264 B CN 116629264B
- Authority
- CN
- China
- Prior art keywords
- vector
- layer
- sentence
- character
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 26
- 230000007246 mechanism Effects 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 155
- 230000004927 fusion Effects 0.000 claims abstract description 28
- 238000011176 pooling Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多个词嵌入和多头自注意力机制的关系抽取方法,包括以下步骤:S1、获取第一句子向量,将第一句子向量依次输入双向长短记忆网络层和注意力层,得到第一特征向量;S2、获取第二句子向量,将第二句子向量依次输入多窗口卷积层、多头自注意力层和最大池化层,得到第二特征向量;S3、将第一特征向量和第二特征向量均输入门控特征融合层,得到融合结果;S4、将融合结果输入Softmax层,得到关系预测结果,完成关系抽取。本发明使用字符嵌入的方式,不构建外部知识库也能有效地从字符层面和词组层面挖掘句子信息来充分表达句子语义,并且避免分词错误带来的影响、缓解一词多义难题。
Description
技术领域
本发明属于信息提取技术领域,具体涉及一种基于多个词嵌入和多头自注意力机制的关系抽取方法。
背景技术
在文旅领域中进行关系抽取任务有助于评判旅游消费趋势,评估行业发展现状等。但当前文旅领域数据集缺乏,关系抽取研究很少,因此迫切需要建立高效的文旅关系抽取模型。根据输入粒度可以将关系抽取任务分为两种。一种是基于字符输入,将句子用字符嵌入来表示,缺点就是不能充分利用词级信息;另一种是基于词输入,该方法往往会因为分词错误问题,使得抽取任务精度受到影响。一词多义问题也是中文关系抽取中普遍存在的问题之一。现有的方法大都基于字符输入,然后使用外部知识库将词信息集成到使用字符输入的模型中,但构建外部知识库耗费大量的人力和时间,且效率比较低。因此,如何避免分词错误带来的影响,缓解一词多义难题以及高效充分利用句子的语义信息是当前中文关系抽取的研究热点。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于多个词嵌入和多头自注意力机制的关系抽取方法解决了现有的关系抽取方法通过构建外部知识库耗费大量的人力和时间,且效率比较低的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于多个词嵌入和多头自注意力机制的关系抽取方法,包括以下步骤:
S1、获取第一句子向量,将第一句子向量依次输入双向长短记忆网络层和注意力层,得到第一特征向量;
S2、获取第二句子向量,将第二句子向量依次输入多窗口卷积层、多头自注意力层和最大池化层,得到第二特征向量;
S3、将第一特征向量和第二特征向量均输入门控特征融合层,得到融合结果;
S4、将融合结果输入Softmax层,得到关系预测结果,完成关系抽取。
进一步地:所述S1中,第一句子向量包括若干个字符嵌入,每个字符嵌入均由字符向量和位置向量组成;
其中,字符向量从文旅领域语料下训练好的FastText获得,位置向量用于表示字符和两个实体间相对距离。
上述进一步方案的有益效果为:本发明使用字符嵌入的序列作为句子向量表示句子,避免了分词错误。
进一步地:所述S1中,第一特征向量用于表示字符特征,得到第一特征向量的方法具体为:
通过双向长短记忆网络层和注意力层计算第一句子向量中的每个字符嵌入,根据字符嵌入的计算结果生成第一特征向量,其中,第i个字符嵌入的计算结果yi的表达式具体为:
ρi=softmax(WTtanh(blsi))
式中,Wbls为线性映射矩阵,WT为随机向量W的转置,blsi为lsm的单元数,ρi为blsi的注意力概率值,为ρi的转置,softmax(·)为归一化指数函数,tanh(·)为双曲正切函数,vi为第i个字符嵌入,且i=1,...,,l为句子的长度,/>为lstm的前向传播方法,为lstm的反向传播方法,/>为前向传播方法下的前一个隐藏状态向量,/>为lstm的反向传播方法下的前一个隐藏状态向量,/>为拼接操作。
进一步地:所述S2包括以下分步骤:
S21、获取第二句子向量,所述第二句子向量由文旅领域语料下训练好的Glove和FastText获得;
S22、将第二句子向量输入至多窗口卷积层,得到词向量序列;
S23、将词向量序列转换为输入序列,并将其输入至多头自注意力层,得到句子向量空间表示;
S24、将句子向量空间表示输入至最大池化层,得到第二特征向量。
上述进一步方案的有益效果为:本发明使用多个训练嵌入模型来增强字的含义和字之间的关系,考虑到卷积神经网络擅长提取局部特征的特点,选择使用多个不同卷积核大小的多窗口卷积层来获得不同的词组级信息,进而增强词的含义和词之间的关系,缓解一词多义难题。
进一步地:所述S22中,多窗口卷积层包括t个不同大小的卷积核,所述词向量序列其中,/>为第ti个卷积核生成的词向量,其表达式具体为:
式中,Sm:n为第二句子向量中m到n的向量序列,第ti个卷积核的大小为n-m+1,为第ti个卷积核的参数矩阵,/>为第ti个卷积核的偏置项,p为卷积核的padding值,fG为Glove对应的激活函数,fF为FastText对应的激活函数。
进一步地:所述S23中,得到句子向量空间表示A的表达式具体为:
式中,X为输入序列,和/>均为线性变换矩阵,/>为查询矩阵,为值矩阵,/>为键矩阵,/>和/>的维度均为Rl×(2t/h),R为维度空间,t为滤波器数量,ih为head的序数,d为键矩阵/>的维度,l为固定语句序列长度。
上述进一步方案的有益效果为:多头自注意力机制能够在考虑上下文的情况下捕捉词的含义,因此进一步缓解了一词多义难题。
进一步地:所述S24具体为:
将句子向量空间表示输入至最大池化层,通过最大池化层选择最显著的特征组成特征表示,得到第二特征向量,所述第二特征向量用于表示词组特征。
进一步地:所述S3包括以下分步骤:
S31、将第一特征向量和第二特征向量均输入门控特征融合层,得到门控张量;
S32、将门控张量与第一特征向量和第二特征向量相乘,得到融合结果。
进一步地:所述S31中,门控张量Ogate的表达式具体为:
Ogate=(Wgate[Y;U]+gate)
式中,Wgate为学习参数,bgate为可学习张量,Y为第一特征向量,U为第二特征向量;
所述S32中,融合结果O的表达式具体为:
O=Ogate⊙Y+(1-gate)⊙U
式中,⊙为逐元素乘法符号。
上述进一步方案的有益效果为:使用门控机制将字符特征和词组特征进行融合,进而充分地表达句子语义信息。
进一步地:所述S4具体为:
将融合结果输入至Softmax层进行关系预测,得到关系预测结果,完成关系抽取。
本发明的有益效果为:
(1)本发明提供的一种基于多个词嵌入和多头自注意力机制的关系抽取方法使用字符嵌入的方式,借助卷积神经网络擅长提取局部特征的特点,使用多个不同卷积核大小的多窗口卷积层生成词组向量,不需要借助分词工具,不构建外部知识库也能有效地从字符层面和词组层面挖掘句子信息来充分表达句子语义,并且避免分词错误带来的影响、缓解一词多义难题。
(2)本发明使用多个在文旅领域训练过的嵌入模型来共同表示字符向量,增强了字的含义和字之间的关系,进而增强了词的含义和词之间的关系,不需要借助外部知识库来充当扩展的词信息,缓解了一词多义问题,提高了关系抽取的精度。
(3)本发明采用的多头自注意力机制可以在考虑上下文的情况下捕捉词的含义,进一步缓解了一词多义问题,并且分别获得字符特征和词组特征,使用门控机制来进行特征融合,充分地利用了句子语义信息。
附图说明
图1为本发明一种基于多个词嵌入和多头自注意力机制的关系抽取方法的流程图。
图2为本发明基于多个词嵌入和多头注意力机制的关系抽取方法的框架图。
图3为本发明双向长短记忆网络层和注意力层组成网络模型的框架图。
图4为本发明多窗口卷积层得到词向量序列的示意图。
图5为本发明多头自注意力层和最大池化层组成网络模型的框架图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,一种基于多个词嵌入和多头自注意力机制的关系抽取方法,包括以下步骤:
S1、获取第一句子向量,将第一句子向量依次输入双向长短记忆网络层和注意力层,得到第一特征向量;
S2、获取第二句子向量,将第二句子向量依次输入多窗口卷积层、多头自注意力层和最大池化层,得到第二特征向量;
S3、将第一特征向量和第二特征向量均输入门控特征融合层,得到融合结果;
S4、将融合结果输入Softmax层,得到关系预测结果,完成关系抽取。
基于多个词嵌入和多头注意力机制的关系抽取方法的框架如图2所示。
所述S1中,第一句子向量包括若干个字符嵌入,每个字符嵌入均由字符向量和位置向量组成;
其中,字符向量从文旅领域语料下训练好的FastText获得,位置向量用于表示字符和两个实体间相对距离。
在本实施例中,使用文旅领域语料来训练Glove和FastTest,生成对应的字符嵌入矩阵;将文旅领域关系抽取数据集中每一条语句处理为以字为单位的序列,对每个字进行编号,重复出现的字忽略;固定语句序列长度为l,不足l的用数字0填充,对句子中每个字使用编号代替,记为N={n1,n1,…,nl}。
句子向量S={v1,v2,…,vl}∈Rl×j(j=j1+j2)(l为句子的长度,j1为字符向量维度,j2为位置向量维度),vi是由字符向量和位置向量组成的字符嵌入,字符和两个实体间相对距离记为其中,/>表示第b个字符与实体e1间的相对距离,/>表示第b个字符与实体e2间的相对距离,/>的计算公式具体为:
式中,se1和de1分别表示实体e1的起始和结束位置,的计算方式和/>类似,第i个字符嵌入vi可以表示为/>句子向量则表示为S={v1,v2,…,vl}∈Rl×a。
所述S1中,得到第一特征向量的方法具体为:
通过双向长短记忆网络层和注意力层计算第一句子向量中的每个字符嵌入,根据字符嵌入的计算结果生成第一特征向量,其中,第i个字符嵌入的计算结果yi的表达式具体为:
ρi=softmax(WTtanh(blsi))
式中,Wbls为线性映射矩阵,WT为随机向量W的转置,blsi为lsm的单元数,ρi为blsi的注意力概率值,为ρi的转置,softmax(·)为归一化指数函数,tanh(·)为双曲正切函数,vi为第i个字符嵌入,且i=1,...,,l为句子的长度,/>为lstm的前向传播方法,为lstm的反向传播方法,/>为前向传播方法下的前一个隐藏状态向量,/>为lstm的反向传播方法下的前一个隐藏状态向量,/>为拼接操作。
如图3所示。在本实施例中,双向长短记忆网络层可以保证提取特征的全局性和完整性,注意力层的注意力机制可以给予不同的字不同的权重,因此两者地组合可以增强语义信息,从而获得一个质量较高的第一特征向量Y∈dout,dout为关系种类数,第一特征向量用于表示字符特征。
所述S2包括以下分步骤:
S21、获取第二句子向量,所述第二句子向量由文旅领域语料下训练好的Glove和FastText获得;
S22、将第二句子向量输入至多窗口卷积层,得到词向量序列;
S23、将词向量序列转换为输入序列,并将其输入至多头自注意力层,得到句子向量空间表示;
S24、将句子向量空间表示输入至最大池化层,得到第二特征向量。
如图4所示,在本实施例中,使用多个不同卷积核大小的卷积神经网络来提取局部特征,卷积多窗口卷积层的输出包括了多个字符信息,因此可以将提取的局部特征看作是一个词组向量。由于不同的词嵌入训练细节不同,为了缓解一词多义的问题,提出了使用多个训练过的字符嵌入来增强字的含义和字之间的关系,然后使用卷积多窗口卷积层提取局部特征,进而增强词的含义和词之间的关系。
所述S22中,多窗口卷积层包括t个不同大小的卷积核,所述词向量序列其中,/>为第ti个卷积核生成的词向量,其表达式具体为:
式中,Sm:n为第二句子向量中m到n的向量序列,第ti个卷积核的大小为n-m+1,为第ti个卷积核的参数矩阵,/>为第ti个卷积核的偏置项,p为卷积核的padding值,fG为Glove对应的激活函数,fF为FastText对应的激活函数。
所述S23中,得到句子向量空间表示A的表达式具体为:
式中,Softmax(·)为归一化指数函数,X为输入序列,和/>均为线性变换矩阵,/>为查询矩阵,/>为值矩阵,/>为键矩阵,/>和/>的维度均为Rl ×(2t/h),R为维度空间,t为滤波器数量,ih为head的序数,h为head数量,d为键矩阵/>的维度,l为固定语句序列长度。
在本实施例中,为了进一步缓解一词多义问题,在多个词嵌入的基础上提出了使用多头自注意力机制,计算得到具有权重的句子向量空间表示,它可以在考虑上下文的情况下捕捉不同词的含义,计算句子向量空间表示的原理具体为:
将词向量序列转换为多头自注意力层所需要的词向量序列形状X={x1,x2,…,xl}∈Rl×2t,并将其作为输入序列输入到由多头自注意力层和最大池化层组成的网络模型中,该网络模型结构如图5所示,将输入序列X通过线性变换矩阵/>转换为维度均为Rl×(2t/h)的查询矩阵/>键矩阵/>和值矩阵/>然后使用Softmax函数得到注意力分布,最后将多个注意力分布拼接在一起,通过线性变换矩阵/>得到具有权重的句子向量空间表示/>
所述S24具体为:
将句子向量空间表示输入至最大池化层,通过最大池化层选择最显著的特征组成特征表示,得到第二特征向量。
在本实施例中,将带有权重的句子表示输入到最大池化层选择最显著的特征组成特征表示/>用于表示词组特征。
所述S3包括以下分步骤:
S31、将第一特征向量和第二特征向量均输入门控特征融合层,得到门控张量;
S32、将门控张量与第一特征向量和第二特征向量相乘,得到融合结果。
在本实施例中,使用门控机制将第一特征向量和第二特征向量进行特征融合,它可以在训练过程中自适应地调整各个模型输出的权重,使不同类型的模型协同工作,相互弥补各自不同的不足,使得融合后的特征向量更加适合任务需求,从而提高整体的性能。
得到融合结果的方法步骤如下:使用Sigmoid函数作为门控函数,将第一特征向量和第二特征向量拼接后作为输入,得到门控张量Ogate,它可以看作是由学习参数bgate构成的可学习张量。然后将门控张量与两个特征相乘,最终得到融合后的特征向量O∈dout,并将其作为融合结果。
所述S31中,门控张量Ogate的表达式具体为:
Ogate=(Wgate[Y;U]+gate)
式中,Wgate为学习参数,bgate为可学习张量,Y为第一特征向量,U为第二特征向量;
所述S32中,融合结果O的表达式具体为:
O=Ogate⊙Y+(1-gate)⊙U
式中,⊙为逐元素乘法符号。
所述S4具体为:
将融合结果输入至Softmax层进行关系预测,得到关系预测结果,完成关系抽取。
本发明的有益效果为:本发明提供的一种基于多个词嵌入和多头自注意力机制的关系抽取方法使用字符嵌入的方式,借助卷积神经网络擅长提取局部特征的特点,使用多个不同卷积核大小的多窗口卷积层生成词组向量,不需要借助分词工具,不构建外部知识库也能有效地从字符层面和词组层面挖掘句子信息来充分表达句子语义,并且避免分词错误带来的影响、缓解一词多义难题。
本发明使用多个在文旅领域训练过的嵌入模型来共同表示字符向量,增强了字的含义和字之间的关系,进而增强了词的含义和词之间的关系,不需要借助外部知识库来充当扩展的词信息,缓解了一词多义问题,提高了关系抽取的精度。
本发明采用的多头自注意力机制可以在考虑上下文的情况下捕捉词的含义,进一步缓解了一词多义问题,并且分别获得字符特征和词组特征,使用门控机制来进行特征融合,充分地利用了句子语义信息。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。
Claims (5)
1.一种基于多个词嵌入和多头自注意力机制的关系抽取方法,其特征在于,包括以下步骤:
S1、获取第一句子向量,将第一句子向量依次输入双向长短记忆网络层和注意力层,得到第一特征向量;
S2、获取第二句子向量,将第二句子向量依次输入多窗口卷积层、多头自注意力层和最大池化层,得到第二特征向量;
S3、将第一特征向量和第二特征向量均输入门控特征融合层,得到融合结果;
S4、将融合结果输入Softmax层,得到关系预测结果,完成关系抽取;
所述S1中,第一句子向量包括若干个字符嵌入,每个字符嵌入均由字符向量和位置向量组成;
其中,字符向量从文旅领域语料下训练好的FastText获得,位置向量用于表示字符和两个实体间相对距离;
所述S1中,第一特征向量用于表示字符特征,得到第一特征向量的方法具体为:
通过双向长短记忆网络层和注意力层计算第一句子向量中的每个字符嵌入,根据字符嵌入的计算结果生成第一特征向量,其中,第i个字符嵌入的计算结果yi的表达式具体为:
ρi=softmax(WTtanh(blsi))
式中,Wbls为线性映射矩阵,wT为随机向量W的转置,blsi为lstm的单元数,ρi为blsi的注意力概率值,为ρi的转置,softmax(·)为归一化指数函数,tanh(·)为双曲正切函数,vi为第i个字符嵌入,且i=1,...,l,l为句子的长度,/>为lstm的前向传播方法,/>为lstm的反向传播方法,/>为前向传播方法下的前一个隐藏状态向量,/>为lstm的反向传播方法下的前一个隐藏状态向量,/>为拼接操作;
所述S2包括以下分步骤:
S21、获取第二句子向量,所述第二句子向量由文旅领域语料下训练好的Glove和FastText获得;
S22、将第二句子向量输入至多窗口卷积层,得到词向量序列;
S23、将词向量序列转换为输入序列,并将其输入至多头自注意力层,得到句子向量空间表示;
S24、将句子向量空间表示输入至最大池化层,得到第二特征向量;
所述S3包括以下分步骤:
S31、将第一特征向量和第二特征向量均输入门控特征融合层,得到门控张量;
S32、将门控张量与第一特征向量和第二特征向量相乘,得到融合结果。
2.根据权利要求1所述的基于多个词嵌入和多头自注意力机制的关系抽取方法,其特征在于,所述S22中,多窗口卷积层包括t个不同大小的卷积核,所述词向量序列其中,/>为第ti个卷积核生成的词向量,其表达式具体为:
式中,Sm:n为第二句子向量中m到n的向量序列,第ti个卷积核的大小为n-m+1,为第ti个卷积核的参数矩阵,/>为第ti个卷积核的偏置项,p为卷积核的padding值,fG为Glove对应的激活函数,fF为FastText对应的激活函数。
3.根据权利要求1所述的基于多个词嵌入和多头自注意力机制的关系抽取方法,其特征在于,所述S23中,得到句子向量空间表示A的表达式具体为:
式中,X为输入序列,和/>均为线性变换矩阵,/>为查询矩阵,/>为值矩阵,/>为键矩阵,/>和/>的维度均为Rl×(2t/h),R为维度空间,t为滤波器数量,ih为head的序数,d为键矩阵/>的维度,l为固定语句序列长度。
4.根据权利要求1所述的基于多个词嵌入和多头自注意力机制的关系抽取方法,其特征在于,所述S24具体为:
将句子向量空间表示输入至最大池化层,通过最大池化层选择最显著的特征组成特征表示,得到第二特征向量,所述第二特征向量用于表示词组特征。
5.根据权利要求1所述的基于多个词嵌入和多头自注意力机制的关系抽取方法,其特征在于,所述S31中,门控张量Ogate的表达式具体为:
Ogate=σ(wgate[Y;U]+bgate)
式中,Wgate为学习参数,bgate为可学习张量,Y为第一特征向量,U为第二特征向量;
所述S32中,融合结果O的表达式具体为:
O=Ogate⊙Y+(1-Ogate)⊙U
式中,⊙为逐元素乘法符号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310594598.0A CN116629264B (zh) | 2023-05-24 | 2023-05-24 | 一种基于多个词嵌入和多头自注意力机制的关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310594598.0A CN116629264B (zh) | 2023-05-24 | 2023-05-24 | 一种基于多个词嵌入和多头自注意力机制的关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116629264A CN116629264A (zh) | 2023-08-22 |
CN116629264B true CN116629264B (zh) | 2024-01-23 |
Family
ID=87637735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310594598.0A Active CN116629264B (zh) | 2023-05-24 | 2023-05-24 | 一种基于多个词嵌入和多头自注意力机制的关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116629264B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688944B (zh) * | 2024-01-31 | 2024-05-24 | 山东省计算中心(国家超级计算济南中心) | 基于多粒度卷积特征融合的中文情感分析方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883738A (zh) * | 2021-03-23 | 2021-06-01 | 西南交通大学 | 基于神经网络和自注意力机制的医学实体关系抽取方法 |
CN113128229A (zh) * | 2021-04-14 | 2021-07-16 | 河海大学 | 一种中文实体关系联合抽取方法 |
CN115048926A (zh) * | 2022-04-13 | 2022-09-13 | 华南师范大学 | 一种实体关系抽取方法、装置、电子设备及存储介质 |
WO2023004528A1 (zh) * | 2021-07-26 | 2023-02-02 | 深圳市检验检疫科学研究院 | 一种基于分布式系统的并行化命名实体识别方法及装置 |
CN115688752A (zh) * | 2022-09-16 | 2023-02-03 | 杭州电子科技大学 | 一种基于多语义特征的知识抽取方法 |
-
2023
- 2023-05-24 CN CN202310594598.0A patent/CN116629264B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883738A (zh) * | 2021-03-23 | 2021-06-01 | 西南交通大学 | 基于神经网络和自注意力机制的医学实体关系抽取方法 |
CN113128229A (zh) * | 2021-04-14 | 2021-07-16 | 河海大学 | 一种中文实体关系联合抽取方法 |
WO2023004528A1 (zh) * | 2021-07-26 | 2023-02-02 | 深圳市检验检疫科学研究院 | 一种基于分布式系统的并行化命名实体识别方法及装置 |
CN115048926A (zh) * | 2022-04-13 | 2022-09-13 | 华南师范大学 | 一种实体关系抽取方法、装置、电子设备及存储介质 |
CN115688752A (zh) * | 2022-09-16 | 2023-02-03 | 杭州电子科技大学 | 一种基于多语义特征的知识抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116629264A (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN107832400B (zh) | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 | |
Cao et al. | A novel neural topic model and its supervised extension | |
CN109033080B (zh) | 基于概率转移矩阵的医疗术语标准化方法及系统 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN110263325B (zh) | 中文分词系统 | |
CN109902714B (zh) | 一种基于多图正则化深度哈希的多模态医学图像检索方法 | |
CN112015868A (zh) | 基于知识图谱补全的问答方法 | |
CN110688502A (zh) | 一种基于深度哈希和量化的图像检索方法及存储介质 | |
CN116629264B (zh) | 一种基于多个词嵌入和多头自注意力机制的关系抽取方法 | |
CN111241303A (zh) | 一种大规模非结构化文本数据的远程监督关系抽取方法 | |
CN112699685B (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN112199532A (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN110619127A (zh) | 一种基于神经网络图灵机的蒙汉机器翻译方法 | |
CN112069804B (zh) | 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法 | |
CN111222330A (zh) | 一种中文事件的检测方法和系统 | |
CN115795065A (zh) | 基于带权哈希码的多媒体数据跨模态检索方法及系统 | |
CN113806543B (zh) | 一种基于残差跳跃连接的门控循环单元的文本分类方法 | |
Whitfield | Using gpt-2 to create synthetic data to improve the prediction performance of nlp machine learning classification models | |
CN113191150A (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN112347780B (zh) | 基于深度神经网络的司法事实查明生成方法、装置、介质 | |
CN113204640A (zh) | 一种基于注意力机制的文本分类方法 | |
CN114969343B (zh) | 结合相对位置信息的弱监督文本分类方法 | |
WO2023130688A1 (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
CN113177120B (zh) | 一种基于中文文本分类的情报快速整编方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |