CN110991190B - 一种文档主题增强系统、文本情绪预测系统和方法 - Google Patents

一种文档主题增强系统、文本情绪预测系统和方法 Download PDF

Info

Publication number
CN110991190B
CN110991190B CN201911212020.4A CN201911212020A CN110991190B CN 110991190 B CN110991190 B CN 110991190B CN 201911212020 A CN201911212020 A CN 201911212020A CN 110991190 B CN110991190 B CN 110991190B
Authority
CN
China
Prior art keywords
document
vector
theme
topic
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911212020.4A
Other languages
English (en)
Other versions
CN110991190A (zh
Inventor
王邦
汪畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201911212020.4A priority Critical patent/CN110991190B/zh
Publication of CN110991190A publication Critical patent/CN110991190A/zh
Application granted granted Critical
Publication of CN110991190B publication Critical patent/CN110991190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文档主题增强系统、文本情绪预测系统和方法,属于自然语言处理领域。包括:主题获取模块,用于通过神经主题模型,获取文档的主题向量;单词向量转化模块,用于将文档中各个单词转化为向量;上下文向量转化模块,用于通过自注意力网络,将文档中各个单词的向量转化为各自的上下文向量;文档向量获取模块,用于通过主题注意力机制,将文档中各个单词的上下文向量与该文档的主题向量融合,得到该文档的向量;文档特征向量获取模块,用于通过融合门网络,将文档的向量与该文档的主题向量再次融合,得到该文档的特征向量。本发明将神经主题模型和自注意力网络融合到统一的神经网络框架中,有利于提升文本情绪预测的准确性。

Description

一种文档主题增强系统、文本情绪预测系统和方法
技术领域
本发明属于自然语言处理领域,更具体地,涉及一种文档主题增强系统、文本情绪预测系统和方法。
背景技术
随着互联网技术的快速发展,网上每天会产生越来越多的文本内容,例如:在线新闻报道、用户评论等等。依靠人力对这些大量的文本进行分析会耗费大量人力和时间,如何让机器自动地进行情绪预测就显得尤为重要。情绪预测技术在公众舆情分析、文本分类、新闻推荐等许多领域具有重大的应用价值。针对情绪预测这项技术,现在已经开发出了多种方法,大致可以分为基于单词的方法、基于主题的方法和基于神经网络的方法。
基于单词的方法直接利用单词级别的情绪特征(如:情绪词典),去发现单词与情绪之间的对应关系。基于各个单词的情绪特点进而推断整个文本的情绪。这类方法虽然操作简单,但无法处理不同语境下有些单词会表达不同的情绪的情况。基于主题的方法试图通过挖掘主题和情绪的关系来改善前述问题。这类方法通常会在已有的主题模型(例如:Latent Dirichlet Allocation)的基础上,建立一个带有情绪层的潜在主题模型,给主题和情绪之间的关系建模。其中,一个主题指的是语料库中所有单词的概率分布。这类方法的缺点是忽略了文本的语义信息。近年来,许多基于神经网络的方法被提出,它们利用卷积神经网络或循环神经网络等提取文档语义特征并生成文档的向量表示。这类方法给情绪预测性能带来了很大的提升,同时也具备无需特征工程的优点。
情绪预测方面已有的工作表明主题和语义信息对于情绪预测都是有效的,但是现在很少有方法在一个神经网络模型中同时利用主题信息与语义信息,或者它们将主题建模组件和语义学习组件分开训练,使得网络模型无法以端到端的方式联合提取文本的主题和语义。同时,很多神经网络模型具有运行速度慢的劣势。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种文档主题增强系统、文本情绪预测系统和方法,其目的在于提升文本情绪预测的准确性,同时加快情绪预测神经网络模型的运行速度。
为实现上述目的,按照本发明的第一方面,提供了一种文档主题增强系统,所述文档主题增强系统包括:
主题获取模块,用于通过神经主题模型,获取文档的主题向量;
单词向量转化模块,用于将文档中各个单词转化为向量;
上下文向量转化模块,用于通过自注意力网络,将文档中各个单词的向量转化为各自的上下文向量;
文档向量获取模块,用于通过主题注意力机制,将文档中各个单词的上下文向量与该文档的主题向量融合,得到该文档的向量;
文档特征向量获取模块,用于通过融合门网络,将文档的向量与该文档的主题向量再次融合,得到该文档的特征向量。
具体地,神经主题模型采用基于变分自编码器的神经主题模型,分为编码器和解码器两个部分,编码器用于将文档的词袋向量转化为主题概率分布,解码器用于将主题概率分布转化为重构的文档词袋向量。
具体地,解码器包括依次串联的:1个主题嵌入层、1个主题单词嵌入层和1个softmax层;
主题嵌入层将文档的主题概率分布向量θ映射为主题向量vt=W(te)θ;
主题单词嵌入层和softmax层将文档主题向量vt映射为重构的文档词袋向量
Figure GDA0003022767740000031
其中,
Figure GDA0003022767740000032
表示主题嵌入层的可学习参数,dt表示主题嵌入层输出的维度,K表示神经主题模型中的主题个数;
Figure GDA0003022767740000033
表示主题单词嵌入层的可学习参数,V表示训练文档组成的语料库对应的字典长度。
具体地,自注意力网络采用多维自注意力网络,包括以下处理:
首先,各个单词的向量xi被1个全连接层转化到隐藏状态hi=tanh(W(h)Xi+b(h));
其次,对于第i个单词,计算其与该文档中各个单词之间的对齐分数f(hi,hj)=σ(W(s)hi+U(s)hj+b(s));
然后,基于f(hi,hj)计算该文档中各个单词对于合成第i个单词的上下文向量的权重
Figure GDA0003022767740000034
最后,计算第i个单词的上下文向量
Figure GDA0003022767740000035
其中,
Figure GDA0003022767740000036
表示全连接层可学习的参数;σ(·)表示ELU激活函数,
Figure GDA0003022767740000037
表示多维自注意力机制的可学习参数;N代表文档中包含的单词总数;⊙表示向量元素对应相乘,dW表示单词的向量xi的维度,dt表示文档的主题向量的维度。
具体地,主题注意力机制包括以下处理:
首先,将待预测文档的主题向量vt转化为隐藏状态ht=W(t)vt+b(t)
其次,计算ht与该文档各个单词之间的对齐分数
Figure GDA0003022767740000038
然后,将f(zi,ht)归一化,得到各个单词对于合成文档向量的权重
Figure GDA0003022767740000039
最后,合成文档向量
Figure GDA0003022767740000041
其中,
Figure GDA0003022767740000042
表示主题注意力机制的可学习参数,
Figure GDA0003022767740000043
表示第i个单词的上下文向量,N代表文档中包含的单词总数,dt表示文档的主题向量的维度。
具体地,融合门网络基于文档向量vd和文档的主题向量vt,计算得到vd和vt合成文档特征向量的权重,基于所得到的权重对vd和vt加权求和,得到文档的最终文档特征向量vf,具体操作如下:
g=sigmoid(W(f)vd+U(f)vt+b(f))
vf=g⊙vd+(1-g)⊙vt
其中,
Figure GDA0003022767740000044
表示融合门网络的可学习参数,dt表示文档的主题向量的维度,1-g表示1和向量里每个数相减,⊙表示向量元素对应相乘。
为实现上述目的,按照本发明的第二方面,提供了一种文本情绪预测系统,该文本情绪预测系统包括:
如第一方面所述的文档主题增强系统,用于获取待预测文档的主题增强后特征向量;
文档情绪预测模块,用于将待预测文档的主题增强后特征向量转化为该文档在各个情绪类别上的概率分布;
文档主题增强系统和文档情绪预测模块在训练阶段被执行端到端的整体训练。
具体地,该文档在各个情绪类别上的概率分布的计算公式如下:
Figure GDA0003022767740000045
其中,vf表示待预测文档的特征向量,
Figure GDA0003022767740000046
表示文档情绪预测模块的可学习参数,E表示情绪类别数,dt表示文档的主题向量的维度。
具体地,损失函数为:
Figure GDA0003022767740000051
Figure GDA0003022767740000052
Figure GDA0003022767740000053
其中,
Figure GDA0003022767740000054
为神经主题模型的损失,
Figure GDA0003022767740000055
为情绪预测的损失,λ为超参数,用于平衡神经主题模型的损失和情绪预测的损失,μ1,∑1分别表示预设的先验狄利克雷分布的均值和方差,K表示神经主题模型中的主题个数;均值向量μ0和方差向量∑0分别表示后验主题概率分布的均值和方差,tr()表示矩阵的迹,
Figure GDA0003022767740000058
表示期望值,∈表示采样自标准正态分布的随机变量,xBOW表示文档的词袋向量,
Figure GDA0003022767740000056
表示重构的文档词袋向量,E表示情绪类别数,
Figure GDA0003022767740000057
为预测的情绪概率分布,y为实际的情绪概率分布。
为实现上述目的,按照本发明的第三方面,提供了一种文本情绪预测方法,该方法包括以下步骤:
S1.将训练集中的文档分批输入到如第一方面所述的文档主题增强系统和文档情绪预测模块中,文档情绪预测模块用于将待预测文档的主题增强后特征向量转化为该文档在各个情绪类别上的概率分布,得到该文档的情绪预测结果;
S2.基于预测结果和真实结果,根据预先设置的损失函数计算损失值;
S3.更新网络和文档情绪预测模块的所有可学习参数,以减小损失值;
S4.重复步骤S1~S3,直到最小化损失值或使得损失值在某一阈值以下;
S5.将待预测文档输入到已训练好的文档主题增强系统和文档情绪预测模块中,得到待预测文档的情绪预测结果。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明所提供的文档主题增强系统,将神经主题模型和自注意力网络融合到统一的神经网络框架中,神经主题模型增强了文档向量中的主题信息,主题注意力机制融合了主题信息和语义信息,使得文本情绪预测的过程同时利用了文本主题信息和语义信息并使这两类信息有效融合到最终生成的文档特征向量中,因此有利于提升文本情绪预测的准确性。
(2)本发明所提供的文本情绪预测方法,由于采用了以运算快为特点的神经主题模型和自注意力网络,自注意力网络的可学习参数少,可并行;神经主题模型一旦训练好,对于新来的文档不需要重新更新模型参数,因此同样具备运算速度快、训练时间短的优点。
(3)本发明所提供的文本情绪预测方法,将主题建模和语义学习这两个任务同时进行,不仅能保证有效提升文本情绪预测的准确性,同时在语义学习的监督下,还能促进主题建模性能的提升,让模型学习到更高质量的主题。
(4)本发明所提供的文本情绪预测方法,利用了神经主题模型的可扩展性,将其与自注意力网络合并到一个神经网络框架中,使得整个网络模型能够被端到端地整体训练,而无需单独训练主题模型,因此能够有效简化训练流程。
附图说明
图1为本发明实施例提供的一种文档主题增强系统结构示意图;
图2为本发明实施例提供的单词向量转化模块转化过程示意图;
图3为本发明实施例提供的一种基于上述的文档主题增强系统的文本情绪预测系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明提供了一种文档主题增强系统,所述文档主题增强系统包括:
主题获取模块,用于通过神经主题模型,获取文档的主题向量。
单词向量转化模块,用于将文档中各个单词转化为向量。
上下文向量转化模块,用于通过自注意力网络,将文档中各个单词的向量转化为各自的上下文向量。
文档向量获取模块,用于通过主题注意力机制,将文档中各个单词的上下文向量与该文档的主题向量融合,得到该文档的向量。
文档特征向量获取模块,用于通过融合门网络,将文档的向量与该文档的主题向量再次融合,得到该文档的特征向量。
首先建立一个主题模型,然后从建立好的主题模型中获取待预测文档的主题向量(记作vt),可以是主题概率分布向量,也可以是由主题概率分布向量进一步计算得到的隐藏向量。
优选地,所述神经主题模型采用基于变分自编码器的神经主题模型,(记作NTM),其结构图如图1左侧部分所示,分为编码器和解码器两个部分,所述编码器用于将文档的词袋向量转化为主题概率分布,所述解码器用于将主题概率分布转化为重构的文档词袋向量。
神经主题模型NTM的输入为文档的词袋向量,设训练文档组成的语料库对应的字典长度为V,则每个文档的词袋向量是一个V维的向量:
xBOW=[x1,x2,...,xV]
其中,xBOW的第i个值xi表示字典中的第i个单词在文档中出现的次数。
编码器包含依次串联的:2个串联的全连接层、2个并联的输出维度为神经主题模型中的主题个数K的全连接层、重采样层和softmax层。
串联的两个全连接层将文档的词袋向量转化为一个隐藏向量π:
π=softplus(W(2)(softplus(W(1)xBOW+b(1)))+b(2))
其中,softplus为激活函数,W(1)、W(2)、b(1)、b(2)为网络中可学习的参数。
Figure GDA0003022767740000081
d1是前一个全连接层的输出维度,d2是后一个全连接层的输出维度。
随后,使用两个不同的全连接层(2个并联的全连接层)分别作用在π上,分别获得均值向量μ0和方差向量∑0,它们分别表示后验主题概率分布的均值和方差:
μ0=W(μ)π+b(μ)
0=W(∑)π+b(∑)
其中,W(μ)、W(∑)、b(μ)、b(∑)为网络中可学习的参数。μ0、∑0均是K维的向量,K表示神经主题模型中的主题个数,
Figure GDA0003022767740000082
Figure GDA0003022767740000083
基于均值向量μ0和方差向量∑0,则重采样层和softmax层可以计算出输入文档的主题概率分布向量θ:
Figure GDA0003022767740000084
其中,∈表示采样自标准正态分布的随机变量,θ是一个K维的向量,表示主题概率分布。至此编码器部分完成。
优选地,所述解码器包括依次串联的:1个主题嵌入层、1个主题单词嵌入层和1个softmax层;
所述主题嵌入层将文档的主题概率分布向量θ映射为主题向量vt=W(te)θ;
所述主题单词嵌入层和softmax层将文档主题向量vt映射为重构的文档词袋向量
Figure GDA0003022767740000085
其中,
Figure GDA0003022767740000091
表示主题嵌入层的可学习参数,dt表示主题嵌入层输出的维度,K表示神经主题模型中的主题个数;
Figure GDA0003022767740000092
表示主题单词嵌入层的可学习参数,V表示训练文档组成的语料库对应的字典长度。
解码器引入主体向量vt,用于主题注意力机制,从而得到主题增强的文档向量。
整个神经主题模型的损失函数定义如下:
Figure GDA0003022767740000093
其中,μ1,∑1分别表示预设的先验狄利克雷分布的均值和方差,K表示主题个数,tr()表示矩阵的迹,
Figure GDA0003022767740000094
表示期望值。在最后对整个主题增强自注意力网络的训练中,需要使
Figure GDA0003022767740000095
尽可能小。
如图2所示,本发明中所述单词向量转化模块表示分为词向量和位置向量。其中,词向量
Figure GDA0003022767740000096
从预先训练好的词向量模型中得到,位置向量
Figure GDA0003022767740000097
为随机初始化。即文档的第i个单词的向量表示
Figure GDA0003022767740000098
其中,
Figure GDA0003022767740000099
为第i个单词的词向量,
Figure GDA00030227677400000910
为第i个单词的位置向量,i=1,2,…N,N为待预测文档的单词总数,xi
Figure GDA00030227677400000911
均为dw维的向量。
优选地,所述自注意力网络采用多维自注意力网络,其会学习各个单词的上下文语义信息,并为每个单词生成一个包含上下文语义信息的上下文向量(记作zi,第i个单词的上下文向量),其包含了单词的上下文信息。
具体包括以下处理:
首先,各个单词的向量xi被1个全连接层转化到隐藏状态hi=tanh(W(h)xi+b(h))。
其次,对于第i个单词,使用多维自注意力机制,计算其与该文档中各个单词之间的对齐分数f(hi,hj)=σ(W(s)hi+U(s)hj+b(s))。f(hi,hj)越大,表示第j个单词和第i个单词的相关性越大,对于合成第i个单词的上下文向量越重要。
然后,基于f(hi,hj)计算该文档中各个单词对于合成第i个单词的上下文向量的权重
Figure GDA0003022767740000101
最后,计算第i个单词的上下文向量
Figure GDA0003022767740000102
其中,
Figure GDA0003022767740000103
表示全连接层可学习的参数;σ(·)表示ELU激活函数,
Figure GDA0003022767740000104
表示多维自注意力机制的可学习参数;N代表文档中包含的单词总数;⊙表示向量元素对应相乘,dW表示单词的向量xi的维度,dt表示文档的主题向量的维度。所述上下文向量包含了单词的上下文语义信息。
优选地,所述主题注意力机制包括以下处理:
首先,将待预测文档的主题向量vt转化为隐藏状态ht=W(t)vt+b(t)
其次,计算ht与该文档各个单词之间的对齐分数
Figure GDA0003022767740000105
对齐分数越大,表示单词对于表达文档主题越重要。
然后,将f(zi,ht)归一化,得到各个单词对于合成文档向量的权重
Figure GDA0003022767740000106
最后,合成文档向量
Figure GDA0003022767740000107
其中,
Figure GDA0003022767740000108
表示主题注意力机制的可学习参数,
Figure GDA0003022767740000109
表示第i个单词的上下文向量,N代表文档中包含的单词总数,dt表示文档的主题向量的维度。
融合门网络的优点在于可以自适应地学习文档向量vd和主题向量vt的重要程度,通过加权求和的方式获得最终文档特征向量vf。优选地,所述融合门网络基于所述文档向量vd和文档的主题向量vt,计算得到vd和vt合成文档特征向量的权重,基于所得到的权重对vd和vt加权求和,得到文档的最终文档特征向量vf,具体操作如下:
g=sigmoid(W(f)vd+U(f)vt+b(f))
vf=g⊙vd+(1-g)⊙vt
其中,
Figure GDA0003022767740000111
表示融合门网络的可学习参数,dt表示文档的主题向量的维度。
如图3所示,本发明提供了一种基于上述的文档主题增强系统的文本情绪预测系统,该系统包括:
文档主题增强系统,用于获取待预测文档的主题增强后特征向量。
文档情绪预测模块,用于将待预测文档的主题增强后特征向量转化为该文档在各个情绪类别上的概率分布。
所述文档主题增强系统和文档情绪预测模块在训练阶段被执行端到端的整体训练。
所述文档情绪预测模块由一层全连接层组成。所述全连接层的输入是所述最终文档特征向量vf,输出是一个维度和情绪类别数相等的向量。然后将所得到的向量使用softmax归一化得到所述待预测文档在各个情绪类别上的概率分布
Figure GDA0003022767740000112
优选地,该文档在各个情绪类别上的概率分布的计算公式如下:
Figure GDA0003022767740000113
其中,vf表示待预测文档的特征向量,
Figure GDA0003022767740000114
E表示情绪类别数,dt表示文档的主题向量的维度。
优选地,损失函数为:
Figure GDA0003022767740000115
Figure GDA0003022767740000116
Figure GDA0003022767740000121
其中,
Figure GDA0003022767740000122
为神经主题模型的损失,
Figure GDA0003022767740000123
为情绪预测的损失,λ为超参数,用于平衡神经主题模型的损失和情绪预测的损失,μ1,∑1分别表示预设的先验狄利克雷分布的均值和方差,K表示神经主题模型中的主题个数;均值向量μ0和方差向量∑0分别表示后验主题概率分布的均值和方差,tr()表示矩阵的迹,
Figure GDA0003022767740000126
表示期望值,∈表示采样自标准正态分布的随机变量,xBOW表示文档的词袋向量,
Figure GDA0003022767740000124
表示重构的文档词袋向量,E表示情绪类别数,
Figure GDA0003022767740000125
为预测的情绪概率分布,y为实际的情绪概率分布。
将语料库分为训练集和验证集,所述语料库中各个文档的情绪概率分布已知。然后利用以下步骤进行所述文档主题增强系统的训练和验证。
本发明提供了一种基于上述的文档主题增强系统的文本情绪预测方法,该方法包括以下步骤:
S1.将训练集中的文档分批输入到所述文档主题增强系统和文档情绪预测模块中,所述文档情绪预测模块用于将待预测文档的主题增强后特征向量转化为该文档在各个情绪类别上的概率分布,得到该文档的情绪预测结果。
S2.基于预测结果和真实结果,根据预先设置的损失函数计算损失值。
S3.更新所述文档主题增强系统和文档情绪预测模块的所有可学习参数,以减小所述损失值。
在本发明实施例中,更新参数所用的优化器为Adam优化器。
S4.重复步骤S1~S3,直到最小化所述损失值或使得所述损失值在某一阈值以下。
S5.将待预测文档输入到已训练好的文档主题增强系统和文档情绪预测模块中,得到待预测文档的情绪预测结果。
应用实例
以新浪新闻数据集作为语料库,用于验证本发明所提供的基于文档主题增强系统的文本情绪预测方法的性能;单词输入层采用基于中文维基百科数据库的预训练word2vec词向量模型;上下文向量合成层采用多维自注意力网络;文档向量合成层采用主题注意力机制;最终文档特征向量合成层采用融合门网络。所使用的新浪新闻数据集包含从2016年1月到12月发布的总共5258篇热点新闻,新闻来自新浪新闻网站。每篇新闻对应6类情绪标签的读者投票数:感动、愤怒、同情、悲伤、惊讶和新奇。将每篇新闻对应的投票数归一化,则得到其对应的情绪概率分布。数据集中发布自1月至6月的3109篇新闻被用作训练集,验证集为剩余的2149篇新闻。
表1示出了该数据集的详细统计信息。
Figure GDA0003022767740000131
表1
表2示出了文档主题增强系统中所有超参数的设置情况。
Figure GDA0003022767740000132
表2
更新参数所使用的优化器为Adam优化器。
为验证本发明能够有效提高文本情绪预测的准确性,分别测试使用以下3种方法(a)-(c)进行文本情绪预测的准确性。方法(a)为本发明实施例提供的文本情绪预测方法,方法(b)和(c)为在方法(a)的基础上稍作修改后形成的方法。方法(a)-(c)分别是:
(a)本发明实施例提供的基于文档主题增强系统的文本情绪预测方法;
(b)在方法(a)的基础上移除最终文档特征向量层,直接将文档向量合成层的结果输入到情绪预测层进行情绪预测,其余结构不变;
(c)在方法(a)的基础上修改文档向量合成层,将主题注意力机制修改为传统的基于多层感知机的注意力机制,即将主题向量vt替换为一个具有相同维度的随机初始化的向量q,且向量q在网络训练的过程中得到更新。其余结构不变。
另外,目前在此新浪新闻数据集上表现得最好的文本情绪预测方法为Gated DR-G-T,目前被广泛用于情感分类的一个方法为AttBiLSTM(带有注意力机制的双向长短期记忆网络),分别记为方法(d)和方法(e)。
表3示出了方法(a)-(e)的情绪分类准确性,采用的评价指标为精度和平均皮尔逊相关系数。精度描述最主要情绪被正确预测的新闻数量占总新闻数量的比重,平均皮尔逊相关系数描述预测的情绪概率分布与真实的情绪概率分布之间的平均相似程度。从表中可以看出,方法(a)在所有比较的方法中取得最好的精度和最好的平均皮尔逊相关系数,且与现有的最佳方法(d)相比,具有明显的优势,如精度提升了2.54%。方法(a)和当前被广泛用于情感分类的方法(e)相比,同样具有很大的性能提升。另外,将方法(a)和方法(b)、方法(c)相比,方法(a)取得了更好地预测结果。这分别说明最终文档特征向量合成层、主题注意力机制对于提升文本情绪预测性能是有帮助的。
方法 精度 平均皮尔逊相关系数
a 67.74% 0.7440
b 67.22% 0.7360
c 67.14% 0.7376
d 65.20% 0.71
e 62.95% 0.6814
表3
表4示出了方法(a)、方法(d)、方法(e)三种方法在训练网络阶段耗时情况上的比较。从表中可以看出,本发明实施例提供的方法(a)所需耗时最短,说明方法(a)具有最快的运行速度。具体的讲,方法(a)的训练速度是当前此数据集上的最佳方法(d)的约38倍。同时,方法(a)相比方法(d)和(e)也具有更少的参数量,方法(a)的参数量约只有后者的一半。
方法 参数量 每个epoch的训练时间(秒)
a 0.09M 77
d 0.20M 2969
e 0.16M 97
表4
表5示出了三种方法在主题建模性能上的比较。这三种方法分别是:本发明实施例提供的方法(a)、方法(a)中的神经主题模型NTM和传统主题模型LDA。表中可视化了这三种方法学习到的所有主题中关于“医院”的一个主题。从表中可以看出,本发明实施例提供的方法(a)学习到的主题具有最好的质量,说明方法(a)的主题建模性能最佳。具体地,在传统主题模型LDA学习的主题中,含有较多的(5个)与“医院”无关的主题单词:“孩子”、“儿子”、“母亲”、“派出所”、“警方”;在方法(a)中的神经主题模型NTM学习的主题中,含有2个非主题单词:“张春玲”、“张榜”,1个与“医院”无关的主题单词:“痛苦”;而在方法(a)学习的主题中,只有2个与“医院”无关的主题单词:“老人”、“公安机关”,没有非主题单词出现。另外,方法(a)学习到的主题比只用方法(a)中的神经主题模型NTM进行主题建模学习到的主题的质量要好,这说明将主题建模和语义学习两个任务同时进行,会促进主题建模的性能。
方法 关于“医院”的主题下的概率最高的10个单词
LDA 医院 <u>孩子 儿子 母亲 </u>患者 医生 手术 <u>派出所 </u>治疗 <u>警方</u>
NTM 医院 医生 康复 <u>张春玲 </u>治疗 病 <u>痛苦 </u>儿科医生 器官 <u>张榜</u>
方法a 医院 医生 手术 治疗 患者 <u>老人 </u>护士 病 病情 <u>公安机关</u>
表5
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文档主题增强系统,其特征在于,所述文档主题增强系统包括:
主题获取模块,用于通过神经主题模型,获取文档的主题向量;
单词向量转化模块,用于将文档中各个单词转化为向量;
上下文向量转化模块,用于通过自注意力网络,将文档中各个单词的向量转化为各自的上下文向量;
文档向量获取模块,用于通过主题注意力机制,将文档中各个单词的上下文向量与该文档的主题向量融合,得到该文档的向量;
文档特征向量获取模块,用于通过融合门网络,将文档的向量与该文档的主题向量再次融合,得到该文档的特征向量。
2.如权利要求1所述的文档主题增强系统,其特征在于,所述神经主题模型采用基于变分自编码器的神经主题模型,分为编码器和解码器两个部分,所述编码器用于将文档的词袋向量转化为主题概率分布,所述解码器用于将主题概率分布转化为重构的文档词袋向量。
3.如权利要求2所述的文档主题增强系统,其特征在于,所述解码器包括依次串联的:1个主题嵌入层、1个主题单词嵌入层和1个softmax层;
所述主题嵌入层将文档的主题概率分布向量θ映射为主题向量vt=W(te)θ;
所述主题单词嵌入层和softmax层将文档主题向量vt映射为重构的文档词袋向量
Figure FDA0003037108190000011
其中,
Figure FDA0003037108190000021
表示主题嵌入层的可学习参数,dt表示主题嵌入层输出的维度,K表示神经主题模型中的主题个数;
Figure FDA0003037108190000022
Figure FDA0003037108190000023
表示主题单词嵌入层的可学习参数,V表示训练文档组成的语料库对应的字典长度。
4.如权利要求1所述的文档主题增强系统,其特征在于,所述自注意力网络采用多维自注意力网络,包括以下处理:
首先,各个单词的向量xi被1个全连接层转化到隐藏状态hi=tanh(W(h)xi+b(h));
其次,对于第i个单词,计算其与该文档中各个单词之间的对齐分数f(hi,hj)=σ(W(s)hi+U(s)hj+b(s));
然后,基于f(hi,hj)计算该文档中各个单词对于合成第i个单词的上下文向量的权重
Figure FDA0003037108190000024
最后,计算第i个单词的上下文向量
Figure FDA0003037108190000025
其中,
Figure FDA0003037108190000026
表示全连接层可学习的参数;σ(·)表示ELU激活函数,
Figure FDA0003037108190000027
表示多维自注意力机制的可学习参数;N代表文档中包含的单词总数;⊙表示向量元素对应相乘,dW表示单词的向量xi的维度,dt表示文档的主题向量的维度。
5.如权利要求1所述的文档主题增强系统,其特征在于,所述主题注意力机制包括以下处理:
首先,将待预测文档的主题向量vt转化为隐藏状态ht=W(t)vt+b(t)
其次,计算ht与该文档各个单词之间的对齐分数
Figure FDA0003037108190000031
Figure FDA0003037108190000032
然后,将f(zi,ht)归一化,得到各个单词对于合成文档向量的权重
Figure FDA0003037108190000033
最后,合成文档向量
Figure FDA0003037108190000034
其中,
Figure FDA0003037108190000035
表示主题注意力机制的可学习参数,
Figure FDA0003037108190000036
表示第i个单词的上下文向量,N代表文档中包含的单词总数,dt表示文档的主题向量的维度。
6.如权利要求1所述的文档主题增强系统,其特征在于,所述融合门网络基于所述文档向量vd和文档的主题向量vt,计算得到vd和vt合成文档特征向量的权重,基于所得到的权重对vd和vt加权求和,得到文档的最终文档特征向量vf,具体操作如下:
g=sigmoid(W(f)vd+U(f)vt+b(f))
vf=g⊙vd+(1-g)⊙vt
其中,
Figure FDA0003037108190000037
表示融合门网络的可学习参数,dt表示文档的主题向量的维度,1-g表示1和向量里每个数相减,⊙表示向量元素对应相乘。
7.一种文本情绪预测系统,其特征在于,该文本情绪预测系统包括:
如权利要求1至6任一项所述的文档主题增强系统,用于获取待预测文档的特征向量;
文档情绪预测模块,用于将待预测文档的主题增强后特征向量转化为该文档在各个情绪类别上的概率分布;
所述文档主题增强系统和文档情绪预测模块在训练阶段被执行端到端的整体训练。
8.如权利要求7所述的文本情绪预测系统,其特征在于,该文档在各个情绪类别上的概率分布的计算公式如下:
Figure FDA0003037108190000041
其中,vf表示待预测文档的特征向量,
Figure FDA0003037108190000042
表示文档情绪预测模块的可学习参数,E表示情绪类别数,dt表示文档的主题向量的维度。
9.如权利要求7所述的文本情绪预测系统,其特征在于,损失函数为:
Figure FDA0003037108190000043
Figure FDA0003037108190000044
Figure FDA0003037108190000045
其中,
Figure FDA0003037108190000046
为神经主题模型的损失,
Figure FDA0003037108190000047
为情绪预测的损失,λ为超参数,用于平衡神经主题模型的损失和情绪预测的损失,μ1,∑1分别表示预设的先验狄利克雷分布的均值和方差,K表示神经主题模型中的主题个数;均值向量μ0和方差向量∑0分别表示后验主题概率分布的均值和方差,tr()表示矩阵的迹,
Figure FDA0003037108190000048
表示期望值,∈表示采样自标准正态分布的随机变量,xBOW表示文档的词袋向量,
Figure FDA0003037108190000049
表示重构的文档词袋向量,E表示情绪类别数,
Figure FDA0003037108190000051
为预测的情绪概率分布,y为实际的情绪概率分布。
10.一种文本情绪预测方法,其特征在于,该方法包括以下步骤:
S1.将训练集中的文档分批输入到如权利要求1至6任一项所述的文档主题增强系统和文档情绪预测模块中,所述文档情绪预测模块用于将待预测文档的特征向量转化为该文档在各个情绪类别上的概率分布,得到该文档的情绪预测结果;
S2.基于预测结果和真实结果,根据预先设置的损失函数计算损失值;
S3.更新所述文档主题增强系统和文档情绪预测模块的所有可学习参数,以减小所述损失值;
S4.重复步骤S1~S3,直到最小化所述损失值或使得所述损失值在某一阈值以下;
S5.将待预测文档输入到已训练好的文档主题增强系统和文档情绪预测模块中,得到待预测文档的情绪预测结果。
CN201911212020.4A 2019-11-29 2019-11-29 一种文档主题增强系统、文本情绪预测系统和方法 Active CN110991190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911212020.4A CN110991190B (zh) 2019-11-29 2019-11-29 一种文档主题增强系统、文本情绪预测系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911212020.4A CN110991190B (zh) 2019-11-29 2019-11-29 一种文档主题增强系统、文本情绪预测系统和方法

Publications (2)

Publication Number Publication Date
CN110991190A CN110991190A (zh) 2020-04-10
CN110991190B true CN110991190B (zh) 2021-06-29

Family

ID=70089010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911212020.4A Active CN110991190B (zh) 2019-11-29 2019-11-29 一种文档主题增强系统、文本情绪预测系统和方法

Country Status (1)

Country Link
CN (1) CN110991190B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709231B (zh) * 2020-04-30 2022-11-18 昆明理工大学 一种基于自注意变分自编码的类案推荐方法
CN112541340B (zh) * 2020-12-18 2021-11-23 昆明理工大学 基于变分双主题表征的弱监督涉案微博评价对象识别方法
CN112541082A (zh) * 2020-12-21 2021-03-23 重庆兆光科技股份有限公司 一种文本情感分类方法及系统
CN112883149B (zh) * 2021-01-20 2024-03-26 华为技术有限公司 一种自然语言处理方法以及装置
CN113360776B (zh) * 2021-07-19 2023-07-21 西南大学 基于跨表数据挖掘的科技资源推荐方法
CN114443605B (zh) * 2022-04-02 2022-07-29 一道新能源科技(衢州)有限公司 针对水上光伏系统的信息分析方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544255B (zh) * 2013-10-15 2017-01-11 常州大学 基于文本语义相关的网络舆情信息分析方法
CN109543722A (zh) * 2018-11-05 2019-03-29 中山大学 一种基于情感分析模型的情感趋势预测方法
CN109710761A (zh) * 2018-12-21 2019-05-03 中国标准化研究院 基于注意力增强的双向lstm模型的情感分析方法
CN109885670A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种面向话题文本的交互注意力编码情感分析方法
CN110162625B (zh) * 2019-04-19 2020-01-14 杭州电子科技大学 基于句内词对关系和上下文用户特征的反讽检测方法
CN109948165B (zh) * 2019-04-24 2023-04-25 吉林大学 基于混合注意力网络的细粒度情感极性预测方法
CN110347831A (zh) * 2019-06-28 2019-10-18 西安理工大学 基于自注意力机制的情感分类方法

Also Published As

Publication number Publication date
CN110991190A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110991190B (zh) 一种文档主题增强系统、文本情绪预测系统和方法
Liu et al. Probabilistic reasoning via deep learning: Neural association models
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN112232053B (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN113435211B (zh) 一种结合外部知识的文本隐式情感分析方法
CN109597876A (zh) 一种基于强化学习的多轮对话答复选择模型及其方法
CN112309528B (zh) 一种基于视觉问答方法的医疗影像报告生成方法
CN118093834B (zh) 一种基于aigc大模型的语言处理问答系统及方法
CN112199503B (zh) 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
Liu et al. Deep neural network-based recognition of entities in Chinese online medical inquiry texts
Parvathi et al. Identifying relevant text from text document using deep learning
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
CN115964475A (zh) 一种用于医疗问诊的对话摘要生成方法
CN114757310B (zh) 情感识别模型及其训练方法、装置、设备及可读存储介质
CN114139531B (zh) 一种基于深度学习的医疗实体预测方法及系统
CN113378574B (zh) 一种基于kgann的命名实体识别方法
CN115577111A (zh) 基于自注意力机制的文本分类方法
CN114492464A (zh) 一种基于双向异步序列的对话生成方法及系统
CN114582449A (zh) 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统
CN114692615A (zh) 一种针对小语种的小样本意图识别方法
CN114333790A (zh) 数据处理方法、装置、设备、存储介质及程序产品
Dehaqi et al. Adversarial image caption generator network
Sim et al. Korean Sentiment Analysis Using Natural Network: Based on IKEA Review Data
CN113935329B (zh) 基于自适应特征识别与去噪的非对称文本匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant