CN113779244A - 文档情感分类方法、装置、存储介质以及电子设备 - Google Patents
文档情感分类方法、装置、存储介质以及电子设备 Download PDFInfo
- Publication number
- CN113779244A CN113779244A CN202110968082.9A CN202110968082A CN113779244A CN 113779244 A CN113779244 A CN 113779244A CN 202110968082 A CN202110968082 A CN 202110968082A CN 113779244 A CN113779244 A CN 113779244A
- Authority
- CN
- China
- Prior art keywords
- vector
- document
- word
- hidden state
- state sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明涉及一种文档情感分类方法、装置、存储介质以及电子设备,该方法包括:获取文档中每个词语的词向量,利用双向GRU序列模型对所述词向量进行编码,获得第一隐藏状态序列向量。将第一隐藏状态序列向量输入至卷积神经网络模型、门控线性单元模型以及多头自注意力机制,获得句子向量。利用双向GRU序列模型对句子向量进行编码,获得第二隐藏状态序列向量。将第二隐藏状态序列向量输入至软注意力机制模型,获得文档向量。将所述文档向量输入至softmax分类器,得到文档情感分类结果。本发明利用双向GRU序列模型对文档建立从词语到句子,从句子到文档的模型,分别根据不同层次的特点建立不同的混合注意网络,提高了文档情感分类的准确度。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种文档情感分类方法、装置、存储介质以及电子设备。
背景技术
现在情感分类任务模型中广泛地使用了两种神经网络结构,即卷积神经网络(CNN)和循环神经网络(RNN)。CNN不仅可以通过提取丰富的特征和减少参数的数量来提高计算性能,而且在文档分类任务的神经模型上可以展示出更好的泛化能力。RNN是情感分类中常用的另一种表现优秀的模型,它能够处理可变长度的输入数据,因此在远程语义和捕获上下文信息方面更胜一筹。
然而,现有的情感分类方法在文档情感分类任务中,没有考虑到由于单词与句子的结构不同,因而包含的情感信息也就不相同,而采用同一种处理方法,使得不能很好地提取词语和句子的语义信息,降低了文档情感分类的准确度。
发明内容
基于此,本发明的目的在于,提供一种文档情感分类方法、装置、存储介质以及电子设备,其具有提高文档情感分类准确度的优点。
根据本申请实施例的第一方面,提供一种文档情感分类方法,包括如下步骤:
获取文档中每个词语的词向量,利用双向GRU序列模型对所述词向量进行编码,获得所述文档的第一隐藏状态序列向量;
将所述第一隐藏状态序列向量输入至卷积神经网络模型进行特征提取,获得所述文档的语法特征向量;
将所述第一隐藏状态序列向量和所述语法特征向量输入至门控线性单元模型进行融合,获得门控输出向量;
将所述门控输出向量输入至多头自注意力机制进行语义编码,获得句子向量;
利用所述双向GRU序列模型对所述句子向量进行编码,获得所述文档的第二隐藏状态序列向量;
将所述第二隐藏状态序列向量输入至软注意力机制模型,获得文档向量;
将所述文档向量输入至softmax分类器,得到文档情感分类结果。
根据本申请实施例的第二方面,提供一种文档情感分类装置,包括:
词向量获取模块,用于获取文档中每个词语的词向量,利用双向GRU序列模型对所述词向量进行编码,获得所述文档的第一隐藏状态序列向量;
特征提取模块,用于将所述第一隐藏状态序列向量输入至卷积神经网络模型进行特征提取,获得所述文档的语法特征向量;
向量融合模块,用于将所述第一隐藏状态序列向量和所述语法特征向量输入至门控线性单元模型进行融合,获得门控输出向量;
输出向量编码模块,用于将所述门控输出向量输入至多头自注意力机制进行语义编码,获得句子向量;
句子向量编码模块,用于利用所述双向GRU序列模型对所述句子向量进行编码,获得所述文档的第二隐藏状态序列向量;
文档向量获得模块,用于根据所述第二隐藏状态序列向量和预设的上下文向量,获得文档向量;
结果获得模块,用于将所述文档向量输入至softmax分类器,得到文档情感分类结果。
根据本申请实施例的第三方面,提供一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如上述任意一项所述的文档情感分类方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的文档情感分类方法。
本申请实施例通过获取文档中每个词语的词向量,利用双向GRU序列模型对所述词向量进行编码,获得所述文档的第一隐藏状态序列向量。将所述第一隐藏状态序列向量输入至卷积神经网络模型进行特征提取,获得所述文档的语法特征向量。将所述第一隐藏状态序列向量和所述语法特征向量输入至门控线性单元模型进行融合,获得门控输出向量。将所述门控输出向量输入至多头自注意力机制进行语义编码,获得句子向量。利用所述双向GRU序列模型对所述句子向量进行编码,获得所述文档的第二隐藏状态序列向量。将所述第二隐藏状态序列向量输入至软注意力机制模型,获得文档向量。将所述文档向量输入至softmax分类器,得到文档情感分类结果。本发明利用双向GRU序列模型对文档建立从词语到句子,从句子到文档的模型,分别根据不同层次的特点建立不同的混合注意网络,使模型可以充分根据结构特性学习到句子中需要重点关注的词和文档中需要重点关注的句子,从而提高了文档情感分类的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明文档情感分类方法的流程示意图;
图2为本发明文档情感分类方法中S10的流程示意图;
图3为本发明文档情感分类方法中S20的流程示意图;
图4为本发明文档情感分类方法中S40的流程示意图;
图5为本发明文档情感分类方法中S60的程示意图;
图6为本发明文档情感分类装置的结构框图;
图7为本发明文档情感分类装置词向量获取模块61的结构框图;
图8为本发明文档情感分类装置特征提取模块62的结构框图;
图9为本发明文档情感分类装置输出向量编码模块64的结构框图;
图10为本发明文档情感分类装置文档向量获得模块66的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
请参阅图1,本发明实施例提供一种文档情感分类方法,包括的步骤如下:
S10.获取文档中每个词语的词向量,利用双向GRU序列模型对所述词向量进行编码,获得所述文档的第一隐藏状态序列向量。
双向GRU序列模型为门控循环单元模型,是为了解决长期记忆和反向传播中的梯度等问题提出的循环神经网络(Recurrent Neural Network,简称RNN)的变体模型,引入了重置门和更新门,修改了RNN中隐藏状态的计算方式。在本申请实施例中,采用双向GRU序列模型对句子中每个词语对应的词向量进行编码,获得所述文档的第一隐藏状态序列向量,所述第一隐藏状态序列向量包含了词语间上下文信息。
S20.将所述第一隐藏状态序列向量输入至卷积神经网络模型进行特征提取,获得所述文档的语法特征向量。
卷积神经网络(Convolutional Neural Networks,简称CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。将所述第一隐藏状态序列向量输入至卷积神经网络模型进行特征提取,以增强上下文的表示,获得所述文档的语法特征向量。
S30.将所述第一隐藏状态序列向量和所述语法特征向量输入至门控线性单元模型进行融合,获得门控输出向量。
门控线性单元(Gated linear units,简称GLU)模型是卷积神经网络中的一种门控机制,不易造成梯度消失或者梯度爆炸,而且在计算时间上也大幅度减少。将所述第一隐藏状态序列向量和所述语法特征向量输入至门控线性单元模型进行融合,利用门控线性单元模型控制信息以及选择特征,能够更好地根据局部重要性过滤顺序上下文,获取局部特征与全局特征,集中突出信息。
S40.将所述门控输出向量输入至多头自注意力机制进行语义编码,获得句子向量。
注意力机制在使用encoder-decoder结构进行神经机器翻译的过程中被提出,目前在深度学习模型中十分常见,以解决诸如文本分类或表示学习的任务。多头自注意力机制(Multi-Head Self Attention mechanism,简称MHSA)是注意力机制的特殊情况,自注意力层的Q、K、V都来自前一层编码器的输出,即输入Q=K=V。在本申请实施例中,将所述门控输出向量输入至多头自注意力机制进行语义编码,用文本中的其他词来增强目标词的语义表示,获得句子向量,从而可以更好的利用上下文的信息,保留句子的语义。
S50.利用所述双向GRU序列模型对所述句子向量进行编码,获得所述文档的第二隐藏状态序列向量。
在本申请实施例中,使用双向GRU序列模型对所述句子向量进行编码,获得所述文档的第二隐藏状态序列向量,所述第二隐藏状态序列向量包含了句子间的上下文信息。其中,编码方式为:
S60.将所述第二隐藏状态序列向量输入至软注意力机制模型,获得文档向量。
软注意力机制是指在选择信息的时候,不是从N个信息中只选择1个,而是计算N个输入信息的加权平均,再输入到神经网络中计算。在本申请实施例中,由于文档中不同的句子对文档的贡献程度不一样,且重要程度不是固定的,而是由上下文环境所决定的,因此在句子层引入软注意力机制模型。所述软注意力机制模型包括单层感知机和预设的上下文向量。在软注意力机制中引入所述预设的上下文向量用于给句子分配不同的注意力权重。所述预设的上下文向量是在训练过程中随机初始化句子级别的上下文向量,然后通过软注意力机制模型的不断学习,它就会自己不断更新。将所述第二隐藏状态序列向量和所述注意力权重进行加权求和,获得文档向量。
S70.将所述文档向量输入至softmax分类器,得到文档情感分类结果。
在本申请实施例中,将所述文档向量输入至softmax分类器,获得各个情感类别的预测概率值,根据所述预测概率值,从而判断文档情感的极性或强度,得到文档情感分类结果。
应用本发明实施例,通过获取文档中每个词语的词向量,利用双向GRU序列模型对所述词向量进行编码,获得所述文档的第一隐藏状态序列向量。将所述第一隐藏状态序列向量输入至卷积神经网络模型进行特征提取,获得所述文档的语法特征向量。将所述第一隐藏状态序列向量和所述语法特征向量输入至门控线性单元模型进行融合,获得门控输出向量。将所述门控输出向量输入至多头自注意力机制进行语义编码,获得句子向量。利用所述双向GRU序列模型对所述句子向量进行编码,获得所述文档的第二隐藏状态序列向量。将所述第二隐藏状态序列向量输入至软注意力机制模型,获得文档向量。将所述文档向量输入至softmax分类器,得到文档情感分类结果。本发明利用双向GRU序列模型对文档建立从词语到句子,从句子到文档的模型,分别根据不同层次的特点建立不同的混合注意网络,使模型可以充分根据结构特性学习到句子中需要重点关注的词和文档中需要重点关注的句子,从而提高了文档情感分类的准确度。
在一个可选的实施例中,请参阅图2,所述步骤S10,包括S11~S12,具体如下:
S11.通过词嵌入矩阵将文档中每个词语进行向量化处理,获取文档中每个词语的词向量;
S12.利用双向GRU序列模型对所述词向量进行编码,获得所述文档的第一隐藏状态序列向量;
其中,获取文档中每个词语的词向量的公式为:
wit=Wexit
所述文档包括L个句子,第i个句子包括Ti个词语,i∈[1,...,L],xit是所述文档的第i个句子中第t个词语,t∈[1,...,Ti]We是所述词嵌入矩阵,wit是所述文档的第i个句子中第t个词语对应的词向量;
获得所述文档的第一隐藏状态序列向量的公式为:
利用双向GRU序列模型对所述词向量进行编码,可以使网络模型充分学习到句子中需要重点关注的词。
在一个可选的实施例中,请参阅图3,所述步骤S20,包括S21~S22,具体如下:
S21.将所述第一隐藏状态序列向量并行输入至所述第一卷积层、所述第二卷积层和所述第三卷积层进行卷积运算,获得第一输出向量、第二输出向量和第三输出向量;
S22.将所述第一输出向量、所述第二输出向量和所述第三输出向量进行向量拼接,获得所述文档的语法特征向量。
所述第一卷积层、所述第二卷积层和所述第三卷积层的卷积核大小分别为1*1、3*3、5*5,使用三个不同的卷积层提取句子的语法特征,进一步增强句子的上下文表示。
在一个可选的实施例中,所述步骤S30,包括S31,具体如下:
S31.将所述语法特征向量输入至门控线性单元模型的sigmoid函数进行激活,将激活结果与所述第一隐藏状态序列向量进行点乘,获得门控输出向量;
其中,获得门控输出向量的公式为:
R=σ(WdD+bd)⊙(WhH+bh)
D是所述语法特征向量,H是所述第一隐藏状态序列向量,σ是所述sigmoid函数,⊙表示所述点乘,R是所述门控输出向量,Wd和Wh是所述门控线性单元模型的权重参数,bd和bh是所述门控线性单元模型的偏置参数。
为了更好地根据局部信息过滤上下文,设置可学习的阈值机制,即利用sigmoid函数控制信息选择特征,对所述第一隐藏状态序列向量H乘上权重参数Wh,并加上偏置参数bh,以防止过拟合。
在一个可选的实施例中,请参阅图4,所述步骤S40,包括S41~S42,具体如下:
S41.将所述门控输出向量输入至多头自注意力机制进行语义编码,以所述门控输出向量为查询向量,以所述门控输出向量为键和值,获得所述多头自注意力机制中每个头的注意力;
S42.将所述每个头的注意力进行拼接,获得句子向量;
其中,获得所述多头自注意力机制的每个头的注意力的公式为:
R是所述门控输出向量,headj是所述多头自注意力机制的第j个头的注意力,j∈[1,...,h],h是所述多头自注意力的头数,dk是标度因子,softmax是softmax激活函数,和是所述多头自注意力机制的权重参数;
获得句子向量的公式为:
si=Concat(head1,...,headh)
Concat表示拼接,si是所述句子向量,i∈[1,...,L]。
使用了多头自注意力机制并行处理来自不同位置的不同词语的信息,从而提取更富有表示性的词语语义特征,提高模型精度。同时,多个注意力机制更容易使模型在训练时关注句子中重点部分的能力,有助于提高模型的分类性能以及提升模型并行计算的能力。
在一个可选的实施例中,请参阅图5,所述步骤S60,包括S61~S63,具体如下:
S61.将所述第二隐藏状态序列输入至所述单层感知机,获得每个句子对应的输出向量;
S62.根据所述输出向量和所述预设的上下文向量,获得注意力权重;
S63.将所述注意力权重和所述第二隐藏状态序列向量相乘并求和,获得文档向量;
其中,获得每个句子对应的输出向量的公式为:
ui=tanh(Wshi+bs)
ui是所述每个句子对应的输出向量,hi是所述第二隐藏状态序列向量,tanh是tanh激活函数,Ws是所述单层感知机的权重参数,bs是所述单层感知机的偏置参数;
获得注意力权重的公式为:
us是所述预设的上下文向量,exp是以e为底的指数函数,αi是所述注意力权重,T表示转置;
获得文档向量的公式为:
d是所述文档向量。
在一个可选的实施例中,所述步骤S70,包括S71,具体如下:
S71.将所述文档向量输入至softmax分类器进行情感极性的概率分布计算,得到文档情感分类结果;
其中,概率分布计算公式为:
y=softmax(Wd+b)
y是所述文档情感分类结果,d是所述文档向量,softmax是softmax激活函数,W是所述softmax分类器的权重参数,b是所述softmax分类器的偏置参数。
在获得文档情感分类结果之后,可通过计算最小化损失函数的值来优化网络参数进行训练。在本申请实施例中,所述损失函数为带有正则项的分类交叉熵损失函数,所述交叉熵损失函数为:
其中,i为第i个样本的下标,j为第j种情感类别的下标,为第i个样本第j中情感类别的真实分布,为第i个样本第j中情感类别的预测分布,λ是正则化项的超参数,θ是模型的参数集合,包括文档分类模型中所有的参数,符号|| ||2表示L2范数,||θ||2表示所有参数的L2范数。
相应于上述方法实施例,请参阅图6,本发明实施例提供一种文档情感分类装置6,包括:
词向量获取模块61,用于获取文档中每个词语的词向量,利用双向GRU序列模型对所述词向量进行编码,获得所述文档的第一隐藏状态序列向量;
特征提取模块62,用于将所述第一隐藏状态序列向量输入至卷积神经网络模型进行特征提取,获得所述文档的语法特征向量;
向量融合模块63,用于将所述第一隐藏状态序列向量和所述语法特征向量输入至门控线性单元模型进行融合,获得门控输出向量;
输出向量编码模块64,用于将所述门控输出向量输入至多头自注意力机制进行语义编码,获得句子向量;
句子向量编码模块65,用于利用所述双向GRU序列模型对所述句子向量进行编码,获得所述文档的第二隐藏状态序列向量;
文档向量获得模块66,用于将所述第二隐藏状态序列向量输入至软注意力机制模型,获得文档向量;
结果获得模块67,用于将所述文档向量输入至softmax分类器,得到文档情感分类结果。
可选的,请参阅图7,所述词向量获取模块61,包括:
词语向量化单元612,用于通过词嵌入矩阵将文档中每个词语进行向量化处理,获取文档中每个词语的词向量;
词向量编码单元614,用于利用双向GRU序列模型对所述词向量进行编码,获得所述文档的第一隐藏状态序列向量。
可选的,请参阅图8,所述特征提取模块62,包括:
向量卷积运算单元622,用于将所述第一隐藏状态序列向量并行输入至所述第一卷积层、所述第二卷积层和所述第三卷积层进行卷积运算,获得第一输出向量、第二输出向量和第三输出向量;
向量拼接单元624,用于将所述第一输出向量、所述第二输出向量和所述第三输出向量进行向量拼接,获得所述文档的语法特征向量。
可选的,所述向量融合模块63,包括:
向量激活单元632,用于将所述语法特征向量输入至门控线性单元模型的sigmoid函数进行激活,将激活结果与所述第一隐藏状态序列向量进行点乘,获得门控输出向量。
可选的,请参阅图9,所述输出向量编码模块64,包括:
语义编码单元642,用于将所述门控输出向量输入至多头自注意力机制进行语义编码,以所述门控输出向量为查询向量,以所述门控输出向量为键和值,获得所述多头自注意力机制中每个头的注意力;
注意力拼接单元644,用于将所述每个头的注意力进行拼接,获得句子向量。
可选的,请参阅图10,所述文档向量获得模块66,包括:
输出向量获得单元662,用于将所述第二隐藏状态序列输入至所述单层感知机,获得每个句子对应的输出向量;
注意力权重获得单元664,用于根据所述输出向量和所述预设的上下文向量,获得注意力权重;
文档向量获得单元666,用于将所述注意力权重和所述第二隐藏状态序列向量相乘并求和,获得文档向量。
可选的,所述结果获得模块67,包括:
概率分布计算单元672,用于将所述文档向量输入至softmax分类器进行情感极性的概率分布计算,得到文档情感分类结果。
应用本发明实施例,通过获取文档中每个词语的词向量,利用双向GRU序列模型对所述词向量进行编码,获得所述文档的第一隐藏状态序列向量。将所述第一隐藏状态序列向量输入至卷积神经网络模型进行特征提取,获得所述文档的语法特征向量。将所述第一隐藏状态序列向量和所述语法特征向量输入至门控线性单元模型进行融合,获得门控输出向量。将所述门控输出向量输入至多头自注意力机制进行语义编码,获得句子向量。利用所述双向GRU序列模型对所述句子向量进行编码,获得所述文档的第二隐藏状态序列向量。根将所述第二隐藏状态序列向量输入至软注意力机制模型,获得文档向量。将所述文档向量输入至softmax分类器,得到文档情感分类结果。本发明利用双向GRU序列模型对文档建立从词语到句子,从句子到文档的模型,分别根据不同层次的特点建立不同的混合注意网络,使模型可以充分根据结构特性学习到句子中需要重点关注的词和文档中需要重点关注的句子,从而提高了文档情感分类的准确度。
本申请还提供一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述实施例的方法步骤。
本申请还提供一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现上述实施例的方法步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,则本发明也意图包含这些改动和变形。
Claims (10)
1.一种文档情感分类方法,其特征在于,包括:
获取文档中每个词语的词向量,利用双向GRU序列模型对所述词向量进行编码,获得所述文档的第一隐藏状态序列向量;
将所述第一隐藏状态序列向量输入至卷积神经网络模型进行特征提取,获得所述文档的语法特征向量;
将所述第一隐藏状态序列向量和所述语法特征向量输入至门控线性单元模型进行融合,获得门控输出向量;
将所述门控输出向量输入至多头自注意力机制进行语义编码,获得句子向量;
利用所述双向GRU序列模型对所述句子向量进行编码,获得所述文档的第二隐藏状态序列向量;
将所述第二隐藏状态序列向量输入至软注意力机制模型,获得文档向量;
将所述文档向量输入至softmax分类器,得到文档情感分类结果。
2.根据权利要求1所述的文档情感分类方法,其特征在于,所述获取文档中每个词语的词向量,利用双向GRU序列模型对所述词向量进行编码,获得所述文档的第一隐藏状态序列向量,包括:
通过词嵌入矩阵将文档中每个词语进行向量化处理,获取文档中每个词语的词向量;
利用双向GRU序列模型对所述词向量进行编码,获得所述文档的第一隐藏状态序列向量;
其中,获取文档中每个词语的词向量的公式为:
wit=Wexit
所述文档包括L个句子,第i个句子包括Ti个词语,i∈[1,...,L],xit是所述文档的第i个句子中第t个词语,t∈[1,...,Ti],We是所述词嵌入矩阵,wit是所述文档的第i个句子中第t个词语对应的词向量;
获得所述文档的第一隐藏状态序列向量的公式为:
3.根据权利要求1所述的文档情感分类方法,其特征在于,所述卷积神经网络模型包括第一卷积层、第二卷积层和第三卷积层,所述将所述第一隐藏状态序列向量输入至卷积神经网络模型进行特征提取,获得所述文档的语法特征向量,包括:
将所述第一隐藏状态序列向量并行输入至所述第一卷积层、所述第二卷积层和所述第三卷积层进行卷积运算,获得第一输出向量、第二输出向量和第三输出向量;
将所述第一输出向量、所述第二输出向量和所述第三输出向量进行向量拼接,获得所述文档的语法特征向量。
4.根据权利要求1所述的文档情感分类方法,其特征在于,所述将所述第一隐藏状态序列向量和所述语法特征向量输入至门控线性单元模型进行融合,获得门控输出向量,包括:
将所述语法特征向量输入至门控线性单元模型的sigmoid函数进行激活,将激活结果与所述第一隐藏状态序列向量进行点乘,获得门控输出向量;
其中,获得门控输出向量的公式为:
R=σ(WdD+bd)⊙(WhH+bh)
D是所述语法特征向量,H是所述第一隐藏状态序列向量,σ是所述sigmoid函数,⊙表示所述点乘,R是所述门控输出向量,Wd和Wh是所述门控线性单元模型的权重参数,bd和bh是所述门控线性单元模型的偏置参数。
5.根据权利要求1所述的文档情感分类方法,其特征在于,所述将所述门控输出向量输入至多头自注意力机制进行语义编码,获得句子向量,包括:
将所述门控输出向量输入至多头自注意力机制进行语义编码,以所述门控输出向量为查询向量,以所述门控输出向量为键和值,获得所述多头自注意力机制中每个头的注意力;
将所述每个头的注意力进行拼接,获得句子向量;
其中,获得所述多头自注意力机制每个头的注意力的公式为:
R是所述门控输出向量,headj是所述多头自注意力机制的第j个头的注意力,j∈[1,...,h],h是所述多头自注意力的头数,dk是标度因子,softmax是softmax激活函数,Wj Q、Wj K和Wj V是所述多头自注意力机制的权重参数;
获得句子向量的公式为:
si=Concat(head1,...,headh)
Concat表示拼接,si是所述句子向量,i∈[1,...,L]。
6.根据权利要求1所述的文档情感分类方法,其特征在于,所述软注意力机制模型包括单层感知机和预设的上下文向量,所述将所述第二隐藏状态序列向量输入至软注意力机制模型,获得文档向量,包括:
将所述第二隐藏状态序列向量输入至所述单层感知机,获得每个句子对应的输出向量;
根据所述输出向量和所述预设的上下文向量,获得注意力权重;
将所述注意力权重和所述第二隐藏状态序列向量相乘并求和,获得文档向量;
其中,获得每个句子对应的输出向量的公式为:
ui=tanh(Wshi+bs)
ui是所述每个句子对应的输出向量,hi是所述第二隐藏状态序列向量,tanh是tanh激活函数,Ws是所述单层感知机的权重参数,bs是所述单层感知机的偏置参数;
获得注意力权重的公式为:
us是所述预设的上下文向量,exp是以e为底的指数函数,αi是所述注意力权重,T表示转置;
获得文档向量的公式为:
d是所述文档向量。
7.根据权利要求1所述的文档情感分类方法,其特征在于,所述将所述文档向量输入至softmax分类器,得到文档情感分类结果,包括:
将所述文档向量输入至softmax分类器进行情感极性的概率分布计算,得到文档情感分类结果;
其中,概率分布计算公式为:
y=softmax(Wd+b)
y是所述文档情感分类结果,d是所述文档向量,softmax是softmax激活函数,W是所述softmax分类器的权重参数,b是所述softmax分类器的偏置参数。
8.一种文档情感分类装置,其特征在于,包括:
词向量获取模块,用于获取文档中每个词语的词向量,利用双向GRU序列模型对所述词向量进行编码,获得所述文档的第一隐藏状态序列向量;
特征提取模块,用于将所述第一隐藏状态序列向量输入至卷积神经网络模型进行特征提取,获得所述文档的语法特征向量;
向量融合模块,用于将所述第一隐藏状态序列向量和所述语法特征向量输入至门控线性单元模型进行融合,获得门控输出向量;
输出向量编码模块,用于将所述门控输出向量输入至多头自注意力机制进行语义编码,获得句子向量;
句子向量编码模块,用于利用所述双向GRU序列模型对所述句子向量进行编码,获得所述文档的第二隐藏状态序列向量;
文档向量获得模块,用于将所述第二隐藏状态序列向量输入至软注意力机制模型,获得文档向量;
结果获得模块,用于将所述文档向量输入至softmax分类器,得到文档情感分类结果。
9.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至7中任意一项所述的文档情感分类方法。
10.一种计算机可读存储介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的文档情感分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110968082.9A CN113779244B (zh) | 2021-08-23 | 2021-08-23 | 文档情感分类方法、装置、存储介质以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110968082.9A CN113779244B (zh) | 2021-08-23 | 2021-08-23 | 文档情感分类方法、装置、存储介质以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113779244A true CN113779244A (zh) | 2021-12-10 |
CN113779244B CN113779244B (zh) | 2022-08-16 |
Family
ID=78838861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110968082.9A Active CN113779244B (zh) | 2021-08-23 | 2021-08-23 | 文档情感分类方法、装置、存储介质以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779244B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114528944A (zh) * | 2022-02-24 | 2022-05-24 | 西南交通大学 | 一种医疗文本编码方法、装置、设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558487A (zh) * | 2018-11-06 | 2019-04-02 | 华南师范大学 | 基于层次性多注意力网络的文档分类方法 |
US20200210526A1 (en) * | 2019-01-02 | 2020-07-02 | Netapp, Inc. | Document classification using attention networks |
CN111949790A (zh) * | 2020-07-20 | 2020-11-17 | 重庆邮电大学 | 基于lda主题模型与分层神经网络的情感分类方法 |
US20210165964A1 (en) * | 2019-12-03 | 2021-06-03 | Morgan State University | System and method for monitoring and routing of computer traffic for cyber threat risk embedded in electronic documents |
CN113239174A (zh) * | 2021-06-09 | 2021-08-10 | 华南师范大学 | 一种基于双层解码的层次化多轮对话生成方法及装置 |
-
2021
- 2021-08-23 CN CN202110968082.9A patent/CN113779244B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558487A (zh) * | 2018-11-06 | 2019-04-02 | 华南师范大学 | 基于层次性多注意力网络的文档分类方法 |
US20200210526A1 (en) * | 2019-01-02 | 2020-07-02 | Netapp, Inc. | Document classification using attention networks |
US20210165964A1 (en) * | 2019-12-03 | 2021-06-03 | Morgan State University | System and method for monitoring and routing of computer traffic for cyber threat risk embedded in electronic documents |
CN111949790A (zh) * | 2020-07-20 | 2020-11-17 | 重庆邮电大学 | 基于lda主题模型与分层神经网络的情感分类方法 |
CN113239174A (zh) * | 2021-06-09 | 2021-08-10 | 华南师范大学 | 一种基于双层解码的层次化多轮对话生成方法及装置 |
Non-Patent Citations (2)
Title |
---|
陈元昆: "《2.面向网络安全知识图谱构建的关系抽取技术研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
黄佳锋 等: "《面向中文网络评论情感分类的集成学习框架》", 《中文信息学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114528944A (zh) * | 2022-02-24 | 2022-05-24 | 西南交通大学 | 一种医疗文本编码方法、装置、设备及可读存储介质 |
CN114528944B (zh) * | 2022-02-24 | 2023-08-01 | 西南交通大学 | 一种医疗文本编码方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113779244B (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368993B (zh) | 一种数据处理方法及相关设备 | |
CN108875074B (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
CN112487182A (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN111294646A (zh) | 一种视频处理方法、装置、设备及存储介质 | |
CN112183747A (zh) | 神经网络训练的方法、神经网络的压缩方法以及相关设备 | |
CN113039555B (zh) | 在视频剪辑中进行动作分类的方法、系统及存储介质 | |
CN113449085B (zh) | 多模态情感分类方法、装置以及电子设备 | |
CN112926322A (zh) | 融合自注意力机制和深度学习的文本分类方法及系统 | |
CN114330354B (zh) | 一种基于词汇增强的事件抽取方法、装置及存储介质 | |
CN112115687A (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN113505193A (zh) | 一种数据处理方法及相关设备 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113407663B (zh) | 基于人工智能的图文内容质量识别方法和装置 | |
CN115455171B (zh) | 文本视频的互检索以及模型训练方法、装置、设备及介质 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN116051388A (zh) | 经由语言请求的自动照片编辑 | |
CN113779244B (zh) | 文档情感分类方法、装置、存储介质以及电子设备 | |
Tekir et al. | Deep learning: Exemplar studies in natural language processing and computer vision | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN112749557A (zh) | 文本处理模型的构建方法和文本处理方法 | |
CN111259673A (zh) | 一种基于反馈序列多任务学习的法律判决预测方法及系统 | |
CN115577072A (zh) | 一种基于深度学习的短文本情感分析方法 | |
CN116150334A (zh) | 基于UniLM模型和Copy机制的中文共情语句训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |