CN112417890B - 一种基于多样化语义注意力模型的细粒度实体分类方法 - Google Patents
一种基于多样化语义注意力模型的细粒度实体分类方法 Download PDFInfo
- Publication number
- CN112417890B CN112417890B CN202011366099.9A CN202011366099A CN112417890B CN 112417890 B CN112417890 B CN 112417890B CN 202011366099 A CN202011366099 A CN 202011366099A CN 112417890 B CN112417890 B CN 112417890B
- Authority
- CN
- China
- Prior art keywords
- attention
- entity
- diversified
- model
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000010354 integration Effects 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 27
- 230000007246 mechanism Effects 0.000 claims description 22
- 238000010276 construction Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 239000012634 fragment Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 208000030984 MIRAGE syndrome Diseases 0.000 description 6
- TVLSRXXIMLFWEO-UHFFFAOYSA-N prochloraz Chemical compound C1=CN=CN1C(=O)N(CCC)CCOC1=C(Cl)C=C(Cl)C=C1Cl TVLSRXXIMLFWEO-UHFFFAOYSA-N 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种基于多样化语义注意力模型的细粒度实体分类方法,基于切分长度和步长,得到句子的多样化注意力片段序列;构建多样化语义注意力模型,包括注意力图预测模型与注意力特征集成模型两部分;构建多样性约束,包括注意力图约束和注意力片段约束,结合分类损失,确定最终的损失函数,用于训练多样化语义注意力模型;利用训练好的多样化语义注意力模型,确定多样化注意力片段序列对应的注意力图,结合softmax网络,预测每个时间步长对于每个细粒度实体类别分类结果,综合得到输入句子中实体的预测结果。本发明解决了细粒度实体分类精度不高的问题。
Description
技术领域
本发明涉及自然语言处理领域,涉及一种基于多样化语义注意力模型的细粒度实体分类方法。
背景技术
随着自然语言处理(NLP)的发展,细粒度实体分类的方法逐渐在自然语言处理(NLP)应用中引起了越来越多的关注。细粒度实体分类是指将特定类型分配给句子中的实体。由于实体的歧义性,如何利用细粒度实体分类方法是一个非常具有挑战性的问题。不仅如此,为了更好地捕获关键差异,注意力机制已经应用到自动选择句子的辨别特征,这对算法的性能有了极大的提升。在现有技术中,大多数现有的注意力方法通常从实体和上下文词中提取显着特征进行分类。比如将输入的句子分为三个部分,分别为实体、实体的上文以及实体的下文。然后将三部分的词向量输入到网络进行特征提取,从而进行实体分类。然而,上述的分类方法主要存在两个问题:(1)在使用注意力机制过程中,忽略了实体中含有的丰富的语义信息;(2)在注意力机制过程中没有考虑注意力的多样性。因为实体中丰富的语义信息,以及注意力多样性对发现区分特征的关键性作用,所以上述两个问题是造成实体分类精度不高的主要原因。
发明内容
本发明的目的在于提出一种基于多样化语义注意力模型的细粒度实体分类方法,解决细粒度实体分类精度不高的问题。
实现本发明目的的技术解决方案为:一种基于多样化语义注意力模型的细粒度实体分类方法,包括如下步骤:
步骤1,基于切分长度和步长,从输入句子中裁剪出单词和长度不同的多个注意力片段,组合得到句子的多样化注意力片段序列;
步骤2,构建多样化语义注意力模型,包括注意力图预测模型与注意力特征集成模型两部分,其中,注意力图预测模型先对注意力片段进行语境化词向量编码,再结合实体的注意力权重和上下文词的注意力权重计算注意力特征,整合得到注意力图;注意力特征集成模型根据前一时刻注意力图,更新实体的注意力权重和上下文词的注意力权重;
步骤3,构建多样性约束,包括注意力图约束和注意力片段约束,结合分类损失,确定最终的损失函数,用于训练多样化语义注意力模型;
步骤4,利用训练好的多样化语义注意力模型,确定多样化注意力片段序列对应的注意力图,结合softmax网络,预测每个时间步长对于每个细粒度实体类别分类结果,综合得到输入句子中实体的预测结果。
进一步的,步骤1中,基于切分长度和步长,从输入句子中裁剪出单词和长度不同的多个注意力片段,组合得到句子的多样化注意力片段序列,具体方法为:首先根据定义的切分长度大小裁剪注意力片段,并沿输入序列方向按着步长前进,按照这种策略,生成的注意力片段具有不同单词和长度,然后将所有注意力片段将组成一个序列,并且将长片段放在短片段之前。
进一步的,步骤2中,构建多样化语义注意力模型,包括注意力图预测模型与注意力特征集成模型两部分,具体方法为:
步骤2.1,构建注意力图预测模型,首先使用预训练的语境化词向量对输入的注意力片段进行编码,然后采用基于实体语义的注意力机制从语句中提取最相关的特征来形成注意力特征;
1)注意力片段编码
为了捕获不同上下文中的词语义,对输入的注意力片段进行语境化词向量编码,所述语境化词向量编码采用上下文词表示方法,得到上下文词表示指在t时刻,注意力片段为St={w1,w2,...,wL}的上下文词表示,其中/>是与注意力片段中第i个单词wi对应的dr维表示,L是注意力片段的长度;
2)实体表示
为了让模型关注具有更多信息的单词,通过注意力机制表示一个由M个单词组成的实体m,t时刻实体m的注意力机制mt如下:
其中,rt,i是t时刻第i个单词的基于语境化词向量编码的上下文表示,t时刻实体m的注意力权重计算如下:
其中,与/>是训练参数,da是隐藏注意层的维度;
3)基于实体语义的注意力机制
为了针对不同的信息去关注注意力片段的不同部分,采用基于实体语义的方法计算上下文词的注意力权重,结合LSTM单元上一时刻的隐藏状态ht-1共同确定新的注意力图;给定一个注意力片段S在t时刻的上下文c,通过注意机制以及上下文词向量将t时刻的上下文ct表示为:
其中,C是上下文的单词总数,且的定义是:
其中,表示级联,Wi h表示从上一个隐藏状态ht-1到注意力图的第i个位置的连接权重,同样的,Wi C表示从上下文词向量到第i个注意力图的权重;
最后,通过将mt和ct串联起来,形成t时刻注意力片段S的注意力特征:
步骤2.2,注意力特征集成模型构建
采用双向LSTM网络构建注意力特征集成模型,该模型将注意力图预测模型输出的注意力特征作为输入,更新LSTM的记忆单元状态和隐藏状态,其中LSTM的记忆单元状态和隐藏状态的初始态,是将所有注意力特征的平均值用作MLP的输入得到:
其中,finit,c和finit,h是MLP的两个已知函数,T是总时刻,这些初始值被用来计算第一个上下文注意力图的权重从而确定了初始的注意力特征x1。
进一步的,步骤3中,构建多样性约束,包括注意力图约束和注意力片段约束,结合分类损失,确定最终的损失函数,具体方法为:
步骤3.1,注意力图约束构建
忽略相邻时刻注意力图之间的相关性会导致在不同时刻生成的注意力图可能非常相似的问题,从而降低了注意力特征的多样性,为此,定义相邻时刻注意力图之间的相关性来约束注意力图,定义如下:
其中,是在t时刻对上下文词进行softmax之后,注意力图的第i个注意力权重的值,T是总的时间步。
步骤3.2,注意力片段约束构建
忽略时间相邻注意力片段之间的关系会导致所生成的注意力片段可能彼此具有较大的重叠,并且忽略了一些具有区分性的注意力片段,为此,定义时间相邻注意力片段的重叠比例来约束注意力片段,定义如下:
其中,Supp[St]是指注意力片上的support词汇,用于选择attentive词汇,|Supp[St-1]∩Supp[St]|是Supp[St-1]和Supp[St]之间相交词的数量,K是原始句子的长度;
步骤3.3,损失函数构建
结合分类损失和多样性度量,以及对注意力片段的约束,最终的损失函数定义为:
其中,yt,i是在t时刻的类别概率的one-hot标签向量,是在时刻t属于类别i的概率,λ是控制惩罚程度的系数,β是设定的阈值。
进一步的,步骤4中,利用训练好的多样化语义注意力模型,确定多样化注意力片段序列对应的注意力图,结合softmax网络,预测每个时间步长对于每个细粒度实体类别分类结果,综合得到输入句子中实体的预测结果,具体方法为:将多样化注意力片段序列输入训练好的多样化语义注意力模型,整合得到注意力图,经过softmax网络对每个类别进行结果预测,得到每个时间步长对于每个细粒度实体类别分类结果,对所有时间步长的分类结果的预测值进行求取平均值,获得所有细粒度实体类别中预测值最大的实体类别,此实体类别就是输入句子中实体的预测结果。
一种基于多样化语义注意力模型的细粒度实体分类系统,基于所述的方法进行细粒度实体分类。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的方法进行细粒度实体分类。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法进行细粒度实体分类。
本发明与现有技术相比,其显著优点为:1)采用了多样性语义注意力模型,该模型整合了面向句子完整表示的粗粒度全局特征和面向区分性语义差异的细粒度多样性注意力特征,形成了涵盖更多语句信息的多样性注意力特征,能够更准确的关注到语句中微妙的语义信息;2)采用了基于实体语义的注意力机制方法,将实体的注意力权重与上下文的注意力权重结合起来,能够关注更多语句中的不同信息,提高了细粒度实体分类的精度;3)采用了多样性约束模型,该模型包括注意力图约束与注意力片段约束,注意力图约束使生成的注意力图更具有代表性,注意力片段约束减少了片段的重叠,保证了不同片段之间的差异性,两种约束的结合显著的提高了分类精度。
附图说明
图1是基于多样化语义注意力模型的细粒度实体分类方法的框架图;
图2是多样化语义注意力模型框架图;
图3是注意力图预测模型框架图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,本发明一种基于多样化语义注意力模型的细粒度实体分类方法,包括如下步骤:
步骤1,注意力片段生成
为了使注意力特征多样化,采用了一种基于切分长度和步长大小的注意力片段生成方法,用于从输入句子中裁剪出单词和长度不同的多个注意力片段。一些注意力片段包含实体,而其他仅包含上下文词的一部分,这有利于捕获多种区分性语义特征,以实现更好的细粒度实体分类的准确性。
切分的长度和步长大小共同决定了要生成的注意力片段的数量。注意力片段将根据定义的切分长度大小进行裁剪,并沿输入序列方向按着步长前进。按照这种策略,生成的注意力片段将覆盖具有不同单词和长度的输入句子的大多数信息。所有注意力片段将组成一个序列,并且将长片段放在短片段之前。通过这种方式,语义注意力模型将首先关注句子的主要信息,然后进一步关注句子的局部信息。通过上述注意力片段生成方法,获得了句子的多样化注意力片段序列,以训练注意力机制网络层来学习其特征表示。
步骤2,多样化语义注意力模型构建
多样化语义注意力模型中包含注意力图预测模型与注意力特征集成模型两部分,如图2所示。主要是为了将同时发现不同注意力特征的问题转换为多次发现不同注意力特征的问题。具体分为以下几个步骤:
步骤2.1,注意力图预测模型构建
注意力图预测模型框架图如图3所示,首先使用预训练的语境化词向量对输入的注意力片段进行编码,然后采用基于实体语义的注意力机制从语句中提取最相关的特征来形成注意力特征。
1)注意力片段编码
该模型中的编码方式不同于其他技术中使用word2vec等常用的词向量进行编码,而是结合上下文的语义,对输入的注意力片段进行语境化词向量编码。语境化词向量编码采用上下文词表示方法,而不是现有的词嵌入法。上下文词表示方法可以捕获不同上下文中的词语义。具体的上下文词表示指在t时刻,注意力片段为St={w1,w2,...,wL}的上下文词表示,其中/>是与注意力片段中第i个单词wi对应的dr维表示,L是注意力片段的长度。
2)实体表示
为了让模型关注具有更多信息的单词,通过注意力机制表示一个由M个单词组成的实体m,t时刻实体m的注意力机制mt如下:
其中,rt,i是t时刻第i个单词的基于语境化词向量编码的上下文表示,t时刻实体m的注意力权重计算如下:
其中,与/>是训练参数,da是隐藏注意层的维度。
3)基于实体语义的注意力机制
采用基于实体语义的方法计算上下文词的注意力权重,并且采用LSTM单元ht-1的隐藏状态共同确定新的注意力图,从而使模型可以针对不同的信息去关注注意力片段的不同部分。给定一个注意力片段S在t时刻的上下文c,通过注意机制以及上下文词向量将t时刻的上下文ct表示为:
其中,C是上下文的单词总数,且的定义是:
其中,表示级联,Wi h表示从上一个隐藏状态ht-1到注意力图的第i个位置的连接权重。同样的,Wi C表示从上下文词向量到第i个注意力图的权重。
最后,通过将mt和ct串联起来,形成t时刻注意力片段S的注意力特征:
步骤2.2,注意力特征集成模型构建
采用了双向LSTM网络构建注意力特征集成算法模型,该模型使用多层感知器(MLP)初始化LSTM的记忆单元状态和隐藏状态,并将所有注意力特征的平均值用作MLP的输入:
其中,finit,c和finit,h是MLP的两个已知函数,T是总时刻,这些初始值被用来计算第一个上下文注意力图的权重从而确定了初始的注意力特征x1。
该模型将注意力图预测模型的输出结果作为注意力特征集成模型的输入,输入的是注意力特征。
步骤3,多样性约束构建
在基于注意力机制的实体分类方法中,往往只关注最小化分类的损失函数而没有去关注更多的语句信息。传统方法的最小化分类的分类损失函数如下所示:
其中,yi表示实体是否属于类别i,Nc是类别的总数,是类别i的概率。虽然上述方法在具有明显语义区别的实体分类中效果很好,但是当不同实体之间的语义差别不明显时,该方法的分类结果变得不大准确。为了解决在不同时刻输入的注意力片段是相同时,生成的注意力图也可能是相同的问题,提出了一种多样性约束模型来确保注意力特征的多样性,该模型包括注意图约束与注意段约束。
步骤3.1,注意力图约束构建
忽略了相邻时刻注意力图之间的相关性会导致在不同时刻生成的注意力图可能非常相似的问题,从而降低了注意力特征的多样性。为此,提出了一种直观的多样性指标来计算相邻时刻注意力图之间的相关性,定义如下:
其中,是在t时刻对上下文词进行softmax之后,注意力图的第i个注意力权重的值,T是总的时间步。一般来说,如果相邻的两个注意力图是相似的,ΔLmaps Ldiv的值会很大。
步骤3.2,注意力片段约束构建
忽略时间相邻注意力片段之间的关系会导致所生成的注意力片段可能彼此具有较大的重叠,并且忽略了一些具有区分性的注意力片段。为此,提出了对注意力片段的单词的片段约束,其将时间相邻注意力片段的重叠比例限制为小于设定的阈值。其约束定义如下:
其中,Supp[St]是指注意力片上的support词汇,用于选择attentive词汇,|Supp[St-1]∩Supp[St]|是Supp[St-1]和Supp[St]之间相交词的数量,K是原始句子的长度,β是设定的阈值。
步骤3.3,损失函数构建
结合分类损失和多样性度量,以及对注意力片段的约束,最终的损失函数定义为:
其中,yt,i是在t时刻的类别概率的one-hot标签向量,是在时刻t属于类别i的概率,λ是控制惩罚程度的系数,β是设定的阈值。上述多样性约束模型的目的是为了提高注意力的多样性,包含如下两部分:第一是通过ΔLmaps使得注意力图的多样性最大化;第二是通过ΔLsegments减少了相邻时刻注意力片段的重复比例。
步骤4,利用训练好的多样化语义注意力模型,确定多样化注意力片段序列对应的注意力图,结合softmax网络,预测每个时间步长对于每个细粒度实体类别分类结果,综合得到输入句子中实体的预测结果。
将多样化注意力片段序列输入训练好的多样化语义注意力模型,整合得到注意力图,经过softmax网络对每个类别进行结果预测,得到每个时间步长对于每个细粒度实体类别分类结果,对所有时间步长的分类结果的预测值进行求取平均值,获得所有细粒度实体类别中预测值最大的实体类别,此实体类别就是输入句子中实体的预测结果。
本发明还提出一种基于多样化语义注意力模型的细粒度实体分类系统,基于所述的方法进行细粒度实体分类。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的方法进行细粒度实体分类。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法进行细粒度实体分类。
实施例
为了验证本发明方案的有效性,进行如下仿真实验。
步骤1:生成注意力片段。例如,输入的句子为:Skeptics wonder whether mega-resorts such as the Mirage will be able to squeeze aprofit from their cashflow。根据步骤1中设定的切分长度和切分步长大小,可将输入句子分别切分为:Skepticswonder whether mega-resorts such as、wonder whether mega-resorts such as theMirage will be able to squeeze aprofit、the Mirage will be able to squeezeaprofit from their cash flow等句子。
步骤2:对步骤1中切分的多个句子进行语境化词向量编码,以步骤1中的例句进行说明,句子的词向量编码为[-0.13128 -0.452 0.043399 -0.99798 -0.21053 -0.95868 -0.24609 0.48413 0.18178 0.475 -0.22305 0.30064 0.43496 -0.3605 0.20245 -0.52594 -0.34708 0.0075873 -1.0497 0.18673 0.57369 0.43814 0.098659 0.3877 -0.2258 0.41911 0.043602 -0.7352 -0.53583 0.19276 -0.21961 0.42515 -0.190820.47187 0.18826 0.13357 0.41839 1.3138 0.35678 -0.32172 -1.2257 -0.266350.36716 -0.27586 -0.53246 0.16786 -0.11253 -0.99959 -0.60706 -0.89271 0.65156-0.88784 0.049233 0.67111 -0.27553 -2.4005 -0.36989 0.29136 1.3498 1.73530.27 0.021299 0.14422 0.023784 0.33643 -0.35476 1.0921 1.4845 0.4943 0.156880.34679 -0.57221 0.12093 -1.2616 1.0541 0.064335 -0.002732 0.19038 -1.76430.055068 1.4737 -0.41782 -0.57342 -0.12129 -1.3169 -0.73883 0.17682 -0.019991-0.49176 -0.55247 1.0623 -0.62879 0.29098 0.13238 -0.70414 0.67128 -0.085462-0.30526 -0.045495 0.56509];
由公式(2)计算步骤1例句中单个实体“Mirage”的注意力权重为0.46558224;
采用基于实体语义的方法计算上下文词的注意力权重,由公式(5)可得,上下文词的注意力权重为[0.14600248 0.2210985 0.00450314 0.00282479 0.0653349 0.03428360.020366951 0.7985722 0.1774152 0.2230793 0.01095348 0.04880033 0.133442030.07942571];
步骤3:采用基于实体语义的注意力机制计算每个句子的注意力特征,最后采用LSTM单元ht-1的隐藏状态共同确定新的注意力图。
步骤4:将整合之后的注意力图,经过softmax网络对每个类别进行结果预测,例如对于类别“公司”,计算15个时间步长的结果,获得每个时间步长的预测结果[0.81,0.79,0.84,0.83,0.89,0.78,0.83,0.82,0.81,0.84,0.85,0.84,0.85,0.77,0.88],并对所有时间步长的预测结果求平均值0.83。根据以上步骤计算出每个类别预测结果的平均值,根据最大的平均值确定该实体的细粒度类别。在实体“Mirage”的预测结果平均值中,0.83为最大值,所以得到“Mirage”的预测实体类别为“公司”。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于多样化语义注意力模型的细粒度实体分类方法,其特征在于,包括如下步骤:
步骤1,基于切分长度和步长,从输入句子中裁剪出单词和长度不同的多个注意力片段,组合得到句子的多样化注意力片段序列;
步骤2,构建多样化语义注意力模型,包括注意力图预测模型与注意力特征集成模型两部分,其中,注意力图预测模型先对注意力片段进行语境化词向量编码,再结合实体的注意力权重和上下文词的注意力权重计算注意力特征,整合得到注意力图;注意力特征集成模型根据前一时刻注意力图,更新实体的注意力权重和上下文词的注意力权重;
步骤3,构建多样性约束,包括注意力图约束和注意力片段约束,结合分类损失,确定最终的损失函数,用于训练多样化语义注意力模型;
步骤4,利用训练好的多样化语义注意力模型,确定多样化注意力片段序列对应的注意力图,结合softmax网络,预测每个时间步长对于每个细粒度实体类别分类结果,综合得到输入句子中实体的预测结果;
步骤3中,构建多样性约束,包括注意力图约束和注意力片段约束,结合分类损失,确定最终的损失函数,具体方法为:
步骤3.1,注意力图约束构建
忽略相邻时刻注意力图之间的相关性会导致在不同时刻生成的注意力图可能非常相似的问题,从而降低了注意力特征的多样性,为此,定义相邻时刻注意力图之间的相关性来约束注意力图,定义如下:
其中,是在t时刻对上下文词进行softmax之后,注意力图的第i个注意力权重的值,T是总的时间步;
步骤3.2,注意力片段约束构建
忽略时间相邻注意力片段之间的关系会导致所生成的注意力片段可能彼此具有较大的重叠,并且忽略了一些具有区分性的注意力片段,为此,定义时间相邻注意力片段的重叠比例来约束注意力片段,定义如下:
其中,Supp[St]是指注意力片上的support词汇,用于选择attentive词汇,|Supp[St-1]∩Supp[St]|是Supp[St-1]和Supp[St]之间相交词的数量,K是原始句子的长度;
步骤3.3,损失函数构建
结合分类损失和多样性度量,以及对注意力片段的约束,最终的损失函数定义为:
其中,yt,i是在t时刻的类别概率的one-hot标签向量,是在时刻t属于类别i的概率,λ是控制惩罚程度的系数,β是设定的阈值。
2.根据权利要求1所述基于多样化语义注意力模型的细粒度实体分类方法,其特征在于,步骤1中,基于切分长度和步长,从输入句子中裁剪出单词和长度不同的多个注意力片段,组合得到句子的多样化注意力片段序列,具体方法为:首先根据定义的切分长度大小裁剪注意力片段,并沿输入序列方向按着步长前进,按照这种策略,生成的注意力片段具有不同单词和长度,然后将所有注意力片段将组成一个序列,并且将长片段放在短片段之前。
3.根据权利要求1所述基于多样化语义注意力模型的细粒度实体分类方法,其特征在于,步骤2中,构建多样化语义注意力模型,包括注意力图预测模型与注意力特征集成模型两部分,具体方法为:
步骤2.1,构建注意力图预测模型,首先使用预训练的语境化词向量对输入的注意力片段进行编码,然后采用基于实体语义的注意力机制从语句中提取最相关的特征来形成注意力特征;
1)注意力片段编码
为了捕获不同上下文中的词语义,对输入的注意力片段进行语境化词向量编码,所述语境化词向量编码采用上下文词表示方法,得到上下文词表示指在t时刻,注意力片段为St={w1,w2,...,wL}的上下文词表示,其中/>是与注意力片段中第i个单词wi对应的dr维表示,L是注意力片段的长度;
2)实体表示
为了让模型关注具有更多信息的单词,通过注意力机制表示一个由M个单词组成的实体m,t时刻实体m的注意力机制mt如下:
其中,rt,i是t时刻第i个单词的基于语境化词向量编码的上下文表示,t时刻实体m的注意力权重计算如下:
其中,与/>是训练参数,da是隐藏注意层的维度;
3)基于实体语义的注意力机制
为了针对不同的信息去关注注意力片段的不同部分,采用基于实体语义的方法计算上下文词的注意力权重,结合LSTM单元上一时刻的隐藏状态ht-1共同确定新的注意力图;给定一个注意力片段S在t时刻的上下文c,通过注意机制以及上下文词向量将t时刻的上下文ct表示为:
其中,C是上下文的单词总数,且的定义是:
其中,表示级联,Wi h表示从上一个隐藏状态ht-1到注意力图的第i个位置的连接权重,同样的,Wi C表示从上下文词向量到第i个注意力图的权重;
最后,通过将mt和ct串联起来,形成t时刻注意力片段S的注意力特征:
步骤2.2,注意力特征集成模型构建
采用双向LSTM网络构建注意力特征集成模型,该模型将注意力图预测模型输出的注意力特征作为输入,更新LSTM的记忆单元状态和隐藏状态,其中LSTM的记忆单元状态和隐藏状态的初始态,是将所有注意力特征的平均值用作MLP的输入得到:
其中,finit,c和finit,h是MLP的两个已知函数,T是总时刻,这些初始值被用来计算第一个上下文注意力图的权重从而确定了初始的注意力特征x1。
4.根据权利要求1所述基于多样化语义注意力模型的细粒度实体分类方法,其特征在于,步骤4中,利用训练好的多样化语义注意力模型,确定多样化注意力片段序列对应的注意力图,结合softmax网络,预测每个时间步长对于每个细粒度实体类别分类结果,综合得到输入句子中实体的预测结果,具体方法为:将多样化注意力片段序列输入训练好的多样化语义注意力模型,整合得到注意力图,经过softmax网络对每个类别进行结果预测,得到每个时间步长对于每个细粒度实体类别分类结果,对所有时间步长的分类结果的预测值进行求取平均值,获得所有细粒度实体类别中预测值最大的实体类别,此实体类别就是输入句子中实体的预测结果。
5.一种基于多样化语义注意力模型的细粒度实体分类系统,基于权利要求1-4任一项所述的方法进行细粒度实体分类。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-4任一项所述的方法进行细粒度实体分类。
7.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一项所述的方法进行细粒度实体分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011366099.9A CN112417890B (zh) | 2020-11-29 | 2020-11-29 | 一种基于多样化语义注意力模型的细粒度实体分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011366099.9A CN112417890B (zh) | 2020-11-29 | 2020-11-29 | 一种基于多样化语义注意力模型的细粒度实体分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417890A CN112417890A (zh) | 2021-02-26 |
CN112417890B true CN112417890B (zh) | 2023-11-24 |
Family
ID=74842976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011366099.9A Active CN112417890B (zh) | 2020-11-29 | 2020-11-29 | 一种基于多样化语义注意力模型的细粒度实体分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417890B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113409157B (zh) * | 2021-05-19 | 2022-06-28 | 桂林电子科技大学 | 一种跨社交网络用户对齐方法以及装置 |
CN113688822A (zh) * | 2021-09-07 | 2021-11-23 | 河南工业大学 | 一种时序注意力机制场景图像识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447115A (zh) * | 2018-09-25 | 2019-03-08 | 天津大学 | 基于多层语义监督式注意力模型的细粒度零样本分类方法 |
CN109635109A (zh) * | 2018-11-28 | 2019-04-16 | 华南理工大学 | 基于lstm并结合词性及多注意力机制的句子分类方法 |
CN110457480A (zh) * | 2019-08-16 | 2019-11-15 | 国网天津市电力公司 | 基于交互式注意力机制的细粒度情感分类模型的构建方法 |
CN111143509A (zh) * | 2019-12-09 | 2020-05-12 | 天津大学 | 一种基于静态-动态注意力变分网络的对话生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3619620A4 (en) * | 2017-06-26 | 2020-11-18 | Microsoft Technology Licensing, LLC | GENERATION OF RESPONSES IN AN AUTOMATED ONLINE CONVERSATION |
-
2020
- 2020-11-29 CN CN202011366099.9A patent/CN112417890B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447115A (zh) * | 2018-09-25 | 2019-03-08 | 天津大学 | 基于多层语义监督式注意力模型的细粒度零样本分类方法 |
CN109635109A (zh) * | 2018-11-28 | 2019-04-16 | 华南理工大学 | 基于lstm并结合词性及多注意力机制的句子分类方法 |
CN110457480A (zh) * | 2019-08-16 | 2019-11-15 | 国网天津市电力公司 | 基于交互式注意力机制的细粒度情感分类模型的构建方法 |
CN111143509A (zh) * | 2019-12-09 | 2020-05-12 | 天津大学 | 一种基于静态-动态注意力变分网络的对话生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112417890A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984724B (zh) | 利用高维表示提高特定属性情感分类准确率方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN111859912A (zh) | 基于pcnn模型的带有实体感知的远程监督关系抽取方法 | |
CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
Hou et al. | BERT-based Chinese relation extraction for public security | |
CN111653275B (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN113743099B (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
CN112417890B (zh) | 一种基于多样化语义注意力模型的细粒度实体分类方法 | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN112200664A (zh) | 基于ernie模型和dcnn模型的还款预测方法 | |
CN112528029A (zh) | 文本分类模型处理方法、装置、计算机设备及存储介质 | |
CN115081437A (zh) | 基于语言学特征对比学习的机器生成文本检测方法及系统 | |
CN107665356A (zh) | 一种图像标注方法 | |
CN111966811A (zh) | 意图识别和槽填充方法、装置、可读存储介质及终端设备 | |
CN116051388A (zh) | 经由语言请求的自动照片编辑 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN116450813A (zh) | 文本关键信息提取方法、装置、设备以及计算机存储介质 | |
CN113920379B (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN114510946A (zh) | 基于深度神经网络的中文命名实体识别方法及系统 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
WO2022227297A1 (zh) | 一种信息分类方法及装置、信息分类模型训练方法及装置 | |
CN113190662A (zh) | 基于篇章结构图网络的话题分割方法 | |
CN116167379A (zh) | 一种基于bert和实体位置信息的实体关系抽取方法 | |
CN112528015B (zh) | 在消息交互传播中进行谣言判别的方法及装置 | |
CN114417891A (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |