CN110765269A - 基于动态词向量和层级神经网络的文档级情感分类方法 - Google Patents

基于动态词向量和层级神经网络的文档级情感分类方法 Download PDF

Info

Publication number
CN110765269A
CN110765269A CN201911051331.7A CN201911051331A CN110765269A CN 110765269 A CN110765269 A CN 110765269A CN 201911051331 A CN201911051331 A CN 201911051331A CN 110765269 A CN110765269 A CN 110765269A
Authority
CN
China
Prior art keywords
vector
document
layer
word
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911051331.7A
Other languages
English (en)
Other versions
CN110765269B (zh
Inventor
刘发贵
郑来磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911051331.7A priority Critical patent/CN110765269B/zh
Publication of CN110765269A publication Critical patent/CN110765269A/zh
Application granted granted Critical
Publication of CN110765269B publication Critical patent/CN110765269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于动态词向量和层级神经网络的文档级情感分类方法。所述方法包括以下步骤:通过构建并训练双向语言模型来获得高质量的动态词向量;将得到的动态词向量输入到层级神经网络中以对文档进行建模,从而获得包含丰富语义信息的向量表示,并将该向量输入到softmax函数来对文档进行分类。本发明采用双向语言模型来生成高质量的动态词向量,并提出了一种层级神经网络来对文档进行建模,既解决了静态词向量对多义词的语义表达不足的问题,也进一步提升了情感分类任务中对文档建模的能力。

Description

基于动态词向量和层级神经网络的文档级情感分类方法
技术领域
本发明属于自然语言处理领域,尤其涉及一种基于动态词向量和层级神经网络的文档级情感分类方法。
背景技术
情感分类是自然语言处理领域中的重要任务之一,有着广泛的应用,包括电商网站评论分析,舆情分析与预测等。文档级情感分类任务的目的在于预测文档的情感极性,传统的方法使用tf-idf,SVM和
Figure BDA0002254327810000011
Bayes(Eibe Frank and Remco R Bouckaert.Naivebayes for text classification with unbalanced classes.In European Conferenceon Principles of Data Mining and Knowledge Discovery,pages 503–510.Springer,2006.)等算法建模文档(Bo Pang,Lillian Lee,and Shivakumar Vaithyanathan.Thumbsup?:sentiment classification using machine learning techniques.In Proceedingsof the ACL-02conference on Empirical methods in natural language processing-Volume 10,pages 79–86.Association for Computational Linguistics,2002.),但是这些方法依赖于手工选择的特征,因此较为耗时。近年来,由于深度学习技术能够在大规模数据集中自动、高效地提取特征,在情感分类任务中获得了越来越多的应用。
目前深度学习技术在情感分类任务中的应用主要专注于捕获文档中的语义特征和句子间的语义关系(Jiacheng Xu,Danlu Chen,Xipeng Qiu,and XuanjingHuang.Cached long short-term memory neural networks for document-levelsentiment classification.In Proceedings of the 2016Conference on EmpiricalMethods in Natural Language Processing,pages 1660–1669,2016.),但是现有模型主要有两种不足:
第一,忽略了词向量的质量在深度学习模型中的重要性,这限制了许多文档表征模型的性能。采用双层、双向的语言模型,能够训练出和上下文环境相关的词向量(MatthewE Peters,Mark Neumann,Mohit Iyyer,Matt Gardner,Christopher Clark,Kenton Lee,and Luke Zettlemoyer.Deep contextualized word representations.In Proceedingsof NAACL-HLT,pages 2227–2237,2018.),提升词向量表达单词语义的能力,因此能进一步提高文档表征模型的效果。
第二,许多基于深度学习的模型一次性处理整个文档,当文档过长时会导致特征信息丢失。层级结构的神经网络(Zichao Yang,Diyi Yang,Chris Dyer,Xiaodong He,AlexSmola,and Eduard Hovy.Hierarchical attention networks for documentclassification.In Proceedings of the 2016conference of the North Americanchapter of the association for computational linguistics:human languagetechnologies,pages 1480–1489,2016;吴雨芯,蔡婷,张大斌.基于层级注意力机制与双向长短期记忆神经网络的智能合约自动分类模型[J/OL].计算机应用:1-9.)将文档划分为多个句子,又将句子划分为多个单词,并在第一层中输入句子中的每个单词对应的词向量,从而获得句子的表征;再在第二层中输入所有的句子表征,从而获得文档表征向量。这种分层处理的架构既能避免特征信息丢失的问题,也能更好地捕获文档的语义特征和句子间的语义关系。
发明内容
本发明提供了基于动态词向量和层级神经网络的文档级情感分类方法,具体包括高质量的动态词向量的生成方法,以及使用层级神经网络对文档进行建模的方法。
本发明的目的至少通过如下技术方案之一实现。
基于动态词向量和层级神经网络的文档级情感分类方法,包括以下步骤:
S1、通过构建并训练双向语言模型以获得高质量的动态词向量;高质量的动态词向量为与单词所在句子的语义相关的词向量;
S2、将得到的动态词向量输入到层级神经网络中以对文档进行建模以获得文档表征向量,并将该向量输入到softmax函数中以对文档进行分类。
进一步地,步骤S1包括以下步骤:
S1.1、构建并训练双向语言模型;
S1.2、将文档中的单词序列输入到训练好的双向语言模型中,得到高质量的动态词向量。
进一步地,步骤S1.1中,所述双向语言模型为一个两层的语言模型,每层均由双向长短期记忆神经网络biLSTM组成,该语言模型以句子作为输入单位,在输入层将句子输入到第一层语言模型中以计算该句子出现的概率,而句子的概率由计算句子中每一个单词从前向和后向出现的概率累乘得到;第一层的输出向量作为第二层语言模型的输入再进行训练,单词的动态词向量由输入层和两层语言模型的输出经加权求和得到;
每层biLSTM的隐藏层单元数均为128,输出的向量维度为256,所述双向语言模型的输入为一个由N个单词组成的句子序列(w1,w2,…,wN),该序列输入到两层biLSTM中,两层biLSTM分别从前向和后向提取输入的单词序列中的特征,第一层提取单词的语义特征,第二层提取和上下文环境相关的语法特征,最后的词向量由两层biLSTM的输出向量和输入层向量经加权求和后得到。
所述双向语言模型的训练目标为使得单词序列中的每一个单词都生成对应的词向量,双向语言模型的训练过程中,使用10亿单词训练集对该模型训练10个epoch,mini-batch设置为64,训练机器为GTX TitanX×4。
进一步地,步骤S1.2中,动态词向量的生成过程如下:
给定一个由N个单词组成的句子(w1,w2,...,wN),定义如下所示的计算句子的概率的双向语言模型(biLM):
p(w1,w2,...,wN)=∏k=1p(wk|w1,w2,...,wk-1); (1)
p(w1,w2,...,wN)=∏k=1p(wk|wk+1,wk+2,...,wN); (2)
公式(1)和(2)分别表示从前向和后向处理输入语句的语言模型,wk表示第k个单词,p()表示求取概率;biLM由最大化前向和后向语言模型的联合对数概率之和得到:
Figure BDA0002254327810000031
将biLM堆叠L层以进一步提取高级语义特征,单词wk的表征通过聚合所有层的特征来计算:
Figure BDA0002254327810000032
其中,
Figure BDA0002254327810000033
表示输入层LM,
Figure BDA0002254327810000034
表示计算第k个单词时的第j层biLM,L为biLM堆叠的层数,设定L为2,即堆叠双层;
单词wk的最终词向量通过对输入层LM、第1到第L层的biLM加权求和得到:
其中,Emb(wk)为第k个单词的词向量表示,αj为第j层的权重值,该值被随机初始化为[0,...,1]之间,在训练过程中作为超参数自动学习得到,Rk,j为单词wk在第j层的表示。
进一步地,步骤S2包括以下步骤:
S2.1、构建层级神经网络;
S2.2、将步骤1中得到的动态词向量输入层级神经网络中,得到文档表征向量,该向量输入至softmax函数以得到文档的情感分类结果。
进一步地,步骤S2.1中,所述层级神经网络由两层网络构成:
第一层中,使用双向门控循环神经网络biGRU和注意力机制来对文档中的句子进行建模以获得句子表征;其中,biGRU用于捕获句子中的长依赖关系,注意力机制用于提取句子中的重要单词;
第二层中,将所有的句子表征传入另一个biGRU以获得文档的初步表征,biGRU由重置门和更新门组成,用于控制将哪些历史状态信息保存到当前状态中;此层使用了biGRU网络有两种不同类型的输出:
第一种,biGRU的每个神经单元都输出一个向量并组成一个矩阵,然后使用卷积神经网络CNN提取该矩阵的局部特征,获得局部特征向量;
第二种,将biGRU的最后一个神经单元作为输出以获得文档的全局特征向量;
将CNN提取的局部特征向量和biGRU提取到的全局特征向量相结合以得到最终的文档表征向量,该向量输入至softmax函数以得到文档的情感分类结果。
进一步地,双向门控循环神经网络biGRU中,GRU由两个门组成,即重置门rt和更新门zt,用于控制将哪些信息保存到当前状态gt;在当前时间t,前向GRU
Figure BDA0002254327810000041
将信息更新为:
Figure BDA0002254327810000042
zt=sigmoid(Wzxt+Uzgt-1+bz); (7)
rt=sigmoid(Wrxt+Urgt-1+br);(8)
Figure BDA0002254327810000043
其中xt,gt-1分别是输入向量,上一状态和当前候选状态;
Figure BDA0002254327810000045
表示乘法运算;公式(7)决定保留过去信息的状态单元的数量以及添加了多少新信息,而公式(8)控制过去状态对当前状态的贡献;如果(8)等于零,则丢弃先前的状态;
Figure BDA0002254327810000046
是在训练期间学习的超参数;H和d是隐藏单位和输入向量的维度;
前向GRU
Figure BDA0002254327810000047
处理从w1到wN的句子,而后向GRU
Figure BDA0002254327810000048
从wN到w1处理句子;将
Figure BDA0002254327810000049
Figure BDA00022543278100000410
相连接以得到biGRU:
xi=Emb(wi),i∈[1,N]; (10)
Figure BDA00022543278100000411
Figure BDA00022543278100000412
Figure BDA00022543278100000413
其中,
Figure BDA00022543278100000414
Figure BDA00022543278100000415
分别表示将单词xi输入到前向和后向GRU中,两者对应的输出向量为
Figure BDA00022543278100000416
Figure BDA00022543278100000417
Figure BDA00022543278100000418
Figure BDA00022543278100000419
相连接后得到了双向门控循环神经网络biGRU的输出gi
进一步地,在一个句子中,不同的单词对句子的语义信息贡献并不相同,所述注意力机制用于提取出对句子语义重要的单词:
首先,使用单层MLP获得gt的隐藏层表示ut
ut=tanh(Wwgt+bw); (14)
其中,Ww和bw在训练期间学习的超参数;使用softmax函数来衡量每个单词的重要性,表示为αt
Figure BDA00022543278100000420
最后,使用αt计算单词注解gt的加权和来获得句子S的表示:
S=∑t αtgt; (16)
每个句子S的表示是一个与
Figure BDA0002254327810000051
具有相同形状的向量,前向和后向GRU级联后是原始维度的两倍。
进一步地,所述卷积神经网络CNN的结构包含卷积层、最大池化层和全连接层。其中,卷积层中使用卷积滤波器对输入的矩阵进行卷积操作以得到特征图,最大池化层使用池化操作提取特征图中的最优特征,最后使用全连接层将最优特征向量映射至所需的维度;卷积神经网络CNN提取文档特征的过程如下:
给定包含L个句子的文档,通过层级神经网络的第一层得到句子向量集合[S1,S2,...,SL],将句子向量输入到biGRU中,该biGU的每个状态单元均输出一个向量并组成矩阵M=[S′1,S′2,...,S′L],
Figure BDA0002254327810000052
Figure BDA0002254327810000053
为卷积滤波器,该卷积滤波器每次处理h个句子;使用卷积滤波器从文档矩阵M中提取特征并生成特征图m,第s个卷积滤波器的特征ms由如下生成:
mi=tanh(fMi:i+h-1+b); (17)
其中,b是偏置项,tanh()为激活函数。最终生成的特征图m为:
m=[m1;m2;…;mL-h+1]; (18)
然后在m上应用最大池化操作,最大池化操作是指:对于特征图m的每一行向量,取其最大值作为该行向量的最优特征,然后通过全连接层将最大池化后的特征向量映射到
Figure BDA0002254327810000054
最终的文档表征向量由glast和r级联后得到,其中glast为第二种biGRU的输出向量。
进一步地,步骤S2.2中,文档的情感分类结果p经softmax函数计算得到:
p=softmax(Wcv+bc); (19)
其中,Wc和bc分别为权重值和偏置项,两者均为在训练期间学习得到的超参数,c为文档的情感类别数,v是最终的文档表征向量。
与现有技术相比,本发明具有如下的优点与技术效果:
1、本发明从词向量的表达、文档建模方法两个阶段均对情感分类方法进行了优化。
2、本发明为多义词根据其上下文环境生成不同的词向量,提升了词向量的语义表达能力。
3、本发明使用了层级神经网络,分别从句子和文档层对文档进行建模,能够更好地捕获句子间的依赖关系,有效避免了大多数现有方法中,一次性处理整个文档时长距离特征信息丢失的问题。
4、本发明使用了biGRU和注意力机制来对句子进行建模,既能提取到句子的全局特征,也能挖掘出对语义贡献较大的单词,从而提高了模型的精度。
5、本发明利用了biGRU每个状态单元均可输出向量的特点,将这些状态单元的输出向量组成矩阵,并经由CNN处理以提取局部特征,CNN输出的向量与biGRU的最后一个输出向量相级联后得到最终的文档表征向量。这一过程能够结合CNN和biGRU分别提取局部特征和全局特征的优势,有效提升了模型的效果。
附图说明
图1为本发明实施例中基于动态词向量和层级神经网络的文档级别情感分类方法的结构示意图。
图2为本发明实施例中用于生成动态词向量的双向语言模型的示意图。
图3a和图3b为本发明实施例中biGRU的两种不同输出类型的示意图。
图4为本发明实施例中CNN处理文档矩阵的示意图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明的具体实施进行进一步的详细说明,但本发明的实施和保护不限于此。
实施例:
基于动态词向量和层级神经网络的文档级情感分类方法,如图1所示,包括以下步骤:
S1、通过构建并训练双向语言模型以获得高质量的动态词向量;高质量的动态词向量为与单词所在句子的语义相关的词向量;包括以下步骤:
S1.1、构建并训练双向语言模型;
如图2所示,所述双向语言模型为一个两层的语言模型,每层均由双向长短期记忆神经网络biLSTM组成,该语言模型以句子作为输入单位,在输入层将句子输入到第一层语言模型中以计算该句子出现的概率,而句子的概率由计算句子中每一个单词从前向和后向出现的概率累乘得到;第一层的输出向量作为第二层语言模型的输入再进行训练,单词的动态词向量由输入层和两层语言模型的输出经加权求和得到;
每层biLSTM的隐藏层单元数均为128,输出的向量维度为256,所述双向语言模型的输入为一个由N个单词组成的句子序列,(w1,w2,…,wN),该序列输入到两层biLSTM中,两层biLSTM分别从前向和后向提取输入的单词序列中的特征,第一层提取单词的语义特征,第二层提取和上下文环境相关的语法特征,最后的词向量由两层biLSTM的输出向量和输入层向量经加权求和后得到。
所述双向语言模型的训练目标为使得单词序列中的每一个单词都生成对应的词向量,双向语言模型的训练过程中,使用论文(One Billion Word Benchmark forMeasuring Progress inStatistical Language Modeling,Ciprian et al.,数据集下载地址:http://statmt.org/wmt11/training-monolingual.tgz)中所公开的10亿单词训练集对该模型训练10个epoch,mini-batch设置为64,训练机器为GTX TitanX×4。
S1.2、将文档中的单词序列输入到训练好的双向语言模型中,得到高质量的动态词向量,动态词向量的生成过程如下:
给定一个由N个单词组成的句子,(w1,w2,...,wN),定义如下所示的计算句子的概率的双向语言模型(biLM):
p(w1,w2,...,wN)=∏k=1p(wk|w1,w2,...,wk-1); (1)
p(w1,w2,...,wN)=∏k=1p(wk|wk+1,wk+2,...,wN); (2)
公式(1)和(2)分别表示从前向和后向处理输入语句的语言模型,wk表示第k个单词,p()表示求取概率;biLM由最大化前向和后向语言模型的联合对数概率之和得到:
Figure BDA0002254327810000071
将biLM堆叠L层以进一步提取高级语义特征,单词wk的表征通过聚合所有层的特征来计算:
Figure BDA0002254327810000072
其中,
Figure BDA0002254327810000073
表示输入层LM,
Figure BDA0002254327810000074
表示计算第k个单词时的第j层biLM,L为biLM堆叠的层数,设定L为2,即堆叠双层;
单词wk的最终词向量通过对输入层LM、第1到第L层的biLM加权求和得到:
Figure BDA0002254327810000075
其中,Emb(wk)为第k个单词的词向量表示,αj为第j层的权重值,该值被随机初始化为[0,...,1]之间,在训练过程中作为超参数自动学习得到,Rk,j为单词wk在第j层的表示。
S2、将得到的动态词向量输入到层级神经网络中以对文档进行建模以获得文档表征向量,包括以下步骤:
S2.1、构建层级神经网络;该层级神经网络分别从句子级和文档级提取特征,能够挖掘出文档的深层语义信息,得到文档表征向量;
所述层级神经网络由两层网络构成:
第一层中,使用双向门控循环神经网络biGRU和注意力机制来对文档中的句子进行建模以获得句子表征;其中,biGRU用于捕获句子中的长依赖关系,注意力机制用于提取句子中的重要单词;
双向门控循环神经网络biGRU中,GRU由两个门组成,即重置门rt和更新门zt,用于控制将哪些信息保存到当前状态gt;在当前时间t,前向GRU
Figure BDA0002254327810000081
将信息更新为:
Figure BDA0002254327810000082
zt=sigmoid(Wzxt+Uzgt-1+bz); (7)
rt=sigmoid(Wrxt+Urgt-1+br); (8)
Figure BDA0002254327810000083
其中xt,gt-1
Figure BDA0002254327810000084
分别是输入向量,上一状态和当前候选状态;表示乘法运算;公式(7)决定保留过去信息的状态单元的数量以及添加了多少新信息,而公式(8)控制过去状态对当前状态的贡献;如果(8)等于零,则丢弃先前的状态;
Figure BDA0002254327810000086
是在训练期间学习的超参数;H和d是隐藏单位和输入向量的维度;
前向GRU
Figure BDA0002254327810000087
处理从w1到wN的句子,而后向GRU
Figure BDA0002254327810000088
从wN到w1处理句子;将
Figure BDA0002254327810000089
Figure BDA00022543278100000810
相连接以得到biGRU:
xi=Emb(wi),i∈[1,N]; (10)
Figure BDA00022543278100000811
Figure BDA00022543278100000813
其中,
Figure BDA00022543278100000814
Figure BDA00022543278100000815
分别表示将单词xi输入到前向和后向GRU中,两者对应的输出向量为
Figure BDA00022543278100000816
Figure BDA00022543278100000817
Figure BDA00022543278100000818
Figure BDA00022543278100000819
相连接后得到了双向门控循环神经网络biGRU的输出gi
在一个句子中,不同的单词对句子的语义信息贡献并不相同,所述注意力机制用于提取出对句子语义重要的单词:
首先,使用单层MLP获得gt的隐藏层表示ut
ut=tanh(Wwgt+bw); (14)
其中,Ww和bw在训练期间学习的超参数。使用softmax函数来衡量每个单词的重要性,表示为αt
最后,使用αt计算单词注解gt的加权和来获得句子S的表示:
S=∑t αtgt; (16)
每个句子S的表示是一个与
Figure BDA00022543278100000821
具有相同形状的向量,前向和后向GRU级联后是原始维度的两倍。
第二层中,假设文档具有L个句子,[s1,s2,...,sL],将所有的句子表征传入另一个biGRU以获得文档的初步表征,biGRU由重置门和更新门组成,用于控制将哪些历史状态信息保存到当前状态中。如图3a和图3b所示,biGRU网络有两种不同类型的输出:
第一种,biGRU的每个神经单元都输出一个向量并组成一个矩阵,然后使用卷积神经网络CNN提取该矩阵的局部特征,获得局部特征向量;
第二种,将biGRU的最后一个神经单元作为输出以获得文档的全局特征向量;
图3a中,biGRU使用最后一个隐藏向量作为全局特征向量;图3b中,biGRU汇总了所有隐藏单元的输出,以形成文档矩阵
Figure BDA0002254327810000092
该矩阵经由CNN处理以获得局部特征向量
Figure BDA0002254327810000093
将CNN提取的局部特征向量和biGRU提取到的全局特征向量相结合以得到最终的文档表征向量,该向量输入至softmax函数以得到文档的情感分类结果。
如图4所示,所述卷积神经网络CNN的结构包含卷积层、最大池化层和全连接层。其中,卷积层中使用卷积滤波器对输入的矩阵进行卷积操作以得到特征图,最大池化层使用池化操作提取特征图中的最优特征,最后使用全连接层将最优特征向量映射至所需的维度;卷积神经网络CNN提取文档特征的过程如下:
给定包含L个句子的文档,通过层级神经网络的第一层得到句子向量集合[S1,S2,...,SL],将句子向量输入到图3b所示的biGRU中,该biGU的每个状态单元均输出一个向量并组成矩阵M=[S′1,S′2,...,S′L],
Figure BDA0002254327810000094
Figure BDA0002254327810000095
为卷积滤波器,该卷积滤波器每次处理h个句子;使用卷积滤波器从文档矩阵M中提取特征并生成特征图m,第s个卷积滤波器的特征ms由如下生成:
ms=tanh(fMs:s+h-1+b); (17)
其中,b是偏置项,tanh()为激活函数。最终生成的特征图m为:
m=[m1;m2;…;mL-h+1]; (18)
然后在m上应用最大池化操作,最大池化操作是指:对于特征图m的每一行向量,取其最大值作为该行向量的最优特征,然后通过全连接层将最大池化后的特征向量映射到最终的文档表征向量
Figure BDA0002254327810000097
由glast和r级联后得到,其中glast为第二种biGRU的输出向量。
S2.2、将步骤1中得到的动态词向量输入层级神经网络中,得到最终的文档表征向量,该向量输入至softmax函数以得到文档的情感分类结果:
p=softmax(Wcv+bc); (19)
其中,Wc和bc分别为权重值和偏置项,两者均为在训练期间学习得到的超参数,c为文档的情感类别数;v是最终的文档表征向量。
上述流程为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,包括以下步骤:
S1、通过构建并训练双向语言模型以获得高质量的动态词向量;
S2、将得到的动态词向量输入到层级神经网络中以对文档进行建模以获得文档表征向量,并将该向量输入到softmax函数中以对文档进行分类。
2.根据权利要求1所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,步骤S1包括以下步骤:
S1.1、构建并训练双向语言模型;
S1.2、将文档中的单词序列输入到训练好的双向语言模型中,得到高质量的动态词向量。
3.根据权利要求2所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,步骤S1.1中,所述双向语言模型为一个两层的语言模型,每层均由双向长短期记忆神经网络biLSTM组成,该语言模型以句子作为输入单位,在输入层将句子输入到第一层语言模型中以计算该句子出现的概率,而句子的概率由计算句子中每一个单词从前向和后向出现的概率累乘得到;第一层的输出向量作为第二层语言模型的输入再进行训练,单词的动态词向量由输入层和两层语言模型的输出经加权求和得到;
每层biLSTM的隐藏层单元数均为128,输出的向量维度为256,所述双向语言模型的输入为一个由N个单词组成的句子序列(w1,w2,...,wN),该序列输入到两层biLSTM中,两层biLSTM分别从前向和后向提取输入的单词序列中的特征,第一层提取单词的语义特征,第二层提取和上下文环境相关的语法特征,最后的词向量由两层biLSTM的输出向量和输入层向量经加权求和后得到;
所述双向语言模型的训练目标为使得单词序列中的每一个单词都生成对应的词向量,双向语言模型的训练过程中,使用10亿单词训练集对该模型训练10个epoch,mini-batch设置为64,训练机器为GTX TitanX×4。
4.根据权利要求2所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,步骤S1.2中,动态词向量的生成过程如下:
给定一个由N个单词组成的句子(w1,w2,...,wN),定义如下所示的计算句子的概率的双向语言模型(biLM):
p(w1,w2,...,wN)=∏k=1p(wk|w1,w2,...,wk-1); (1)
p(w1,w2,...,wN)=∏k1p(wk|wk+1,wk+2,...,wN); (2)
公式(1)和(2)分别表示从前向和后向处理输入语句的语言模型,wk表示第k个单词,p()表示求取概率;biLM由最大化前向和后向语言模型的联合对数概率之和得到:
Figure FDA0002254327800000021
将biLM堆叠L层以进一步提取高级语义特征,单词wk的表征通过聚合所有层的特征来计算:
Figure FDA0002254327800000022
其中,
Figure FDA0002254327800000023
表示输入层LM,
Figure FDA0002254327800000024
表示计算第k个单词时的第j层biLM,L为biLM堆叠的层数,设定L为2,即堆叠双层;
单词wk的最终词向量通过对输入层LM、第1到第L层的biLM加权求和得到:
Figure FDA0002254327800000025
其中,Emb(wk)为第k个单词的词向量表示,αj为第j层的权重值,该值被随机初始化为[0,...,1]之间,在训练过程中作为超参数自动学习得到,Rk,j为单词wk在第j层的表示。
5.根据权利要求1所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,步骤S2包括以下步骤:
S2.1、构建层级神经网络;
S2.2、将步骤1中得到的动态词向量输入层级神经网络中,得到文档表征向量,该向量输入至softmax函数以得到文档的情感分类结果。
6.根据权利要求5所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,步骤S2.1中,所述层级神经网络由两层网络构成:
第一层中,使用双向门控循环神经网络biGRU和注意力机制来对文档中的句子进行建模以获得句子表征;其中,biGRU用于捕获句子中的长依赖关系,注意力机制用于提取句子中的重要单词;
第二层中,将所有的句子表征传入另一个biGRU以获得文档的初步表征,biGRU由重置门和更新门组成,用于控制将哪些历史状态信息保存到当前状态中;第二层中使用了biGRU网络两种不同类型的输出:
第一种,biGRU的每个神经单元都输出一个向量并组成一个矩阵,然后使用卷积神经网络CNN提取该矩阵的局部特征,获得局部特征向量;
第二种,将biGRU的最后一个神经单元作为输出以获得文档的全局特征向量;
将CNN提取的局部特征向量和biGRU提取到的全局特征向量相结合以得到最终的文档表征向量,该向量输入至softmax函数以得到文档的情感分类结果。
7.根据权利要求6所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,双向门控循环神经网络biGRU中,GRU由两个门组成,即重置门rt和更新门zt,用于控制将哪些信息保存到当前状态gt;在当前时间t,前向
Figure FDA0002254327800000031
将信息更新为:
Figure FDA0002254327800000032
zt=sigmoid(Wzxt+Uzgt-1+bz); (7)
rt=sigmoid(Wrxt+Urgt-1+br); (8)
Figure FDA0002254327800000033
其中xt,gt-1
Figure FDA0002254327800000034
分别是输入向量,上一状态和当前候选状态;○表示乘法运算;公式(7)决定保留过去信息的状态单元的数量以及添加了多少新信息,而公式(8)控制过去状态对当前状态的贡献;如果(8)等于零,则丢弃先前的状态;
Figure FDA0002254327800000035
是在训练期间学习的超参数;H和d是隐藏单位和输入向量的维度;
前向处理从w1到wN的句子,而后向
Figure FDA0002254327800000037
从wN到w1处理句子;将
Figure FDA0002254327800000038
相连接以得到biGRU:
xi=Emb(wi),i∈[1,N]; (10)
Figure FDA00022543278000000310
Figure FDA00022543278000000311
Figure FDA00022543278000000312
其中,
Figure FDA00022543278000000313
分别表示将单词xi输入到前向和后向GRU中,两者对应的输出向量为
Figure FDA00022543278000000315
Figure FDA00022543278000000316
Figure FDA00022543278000000317
Figure FDA00022543278000000318
相连接后得到了双向门控循环神经网络biGRU的输出gi
8.根据权利要求6所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,所述注意力机制用于提取出对句子语义重要的单词:
首先,使用单层MLP获得gt的隐藏层表示ut
ut=tanh(Wwgt+bw); (14)
其中,Ww和bw在训练期间学习的超参数;使用softmax函数来衡量每个单词的重要性,表示为αt
最后,使用αt计算单词注解gt的加权和来获得句子S的表示:
S=∑tαtgt; (16)
每个句子S的表示是一个与
Figure FDA00022543278000000320
具有相同形状的向量,前向和后向GRU级联后是原始维度的两倍。
9.根据权利要求6所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,所述卷积神经网络CNN的结构包含卷积层、最大池化层和全连接层;其中,卷积层中使用卷积滤波器对输入的矩阵进行卷积操作以得到特征图,最大池化层使用池化操作提取特征图中的最优特征,最后使用全连接层将最优特征向量映射至所需的维度;卷积神经网络CNN提取文档特征的过程如下:
给定包含L个句子的文档,通过层级神经网络的第一层得到句子向量集合[S1,S2,...,SL],将句子向量输入到biGRU中,该biGU的每个状态单元均输出一个向量并组成矩阵
Figure FDA0002254327800000042
为卷积滤波器,该卷积滤波器每次处理h个句子;使用卷积滤波器从文档矩阵M中提取特征并生成特征图m,第s个卷积滤波器的特征ms由如下生成:
ms=tanh(fMs:s+h-1+b); (17)
其中,b是偏置项,tanh()为激活函数;最终生成的特征图m为:
m=[m1;m2;…;mL-h+1]; (18)
然后在m上应用最大池化操作,最大池化操作是指:对于特征图m的每一行向量,取其最大值作为该行向量的最优特征,然后通过全连接层将最大池化后的特征向量映射到
Figure FDA0002254327800000043
最终的文档表征向量
Figure FDA0002254327800000044
由glast和r级联后得到,其中glast为第二种biGRU的输出向量。
10.根据权利要求5所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,步骤S2.2中,文档的情感分类结果p经softmax函数计算得到:
p=softmax(Wcv+bc); (19)
其中,Wc和bc分别为权重值和偏置项,两者均为在训练期间学习得到的超参数,c为文档的情感类别数,v表示最终的文档表征向量。
CN201911051331.7A 2019-10-30 2019-10-30 基于动态词向量和层级神经网络的文档级情感分类方法 Active CN110765269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911051331.7A CN110765269B (zh) 2019-10-30 2019-10-30 基于动态词向量和层级神经网络的文档级情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911051331.7A CN110765269B (zh) 2019-10-30 2019-10-30 基于动态词向量和层级神经网络的文档级情感分类方法

Publications (2)

Publication Number Publication Date
CN110765269A true CN110765269A (zh) 2020-02-07
CN110765269B CN110765269B (zh) 2023-04-28

Family

ID=69334911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911051331.7A Active CN110765269B (zh) 2019-10-30 2019-10-30 基于动态词向量和层级神经网络的文档级情感分类方法

Country Status (1)

Country Link
CN (1) CN110765269B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339440A (zh) * 2020-02-19 2020-06-26 东南大学 面向新闻文本基于层级状态神经网络的社会情绪排序方法
CN111507101A (zh) * 2020-03-03 2020-08-07 杭州电子科技大学 一种基于多层次语义胶囊路由的反讽检测方法
CN112528672A (zh) * 2020-12-14 2021-03-19 北京邮电大学 一种基于图卷积神经网络的方面级情感分析方法及装置
CN112632549A (zh) * 2021-01-06 2021-04-09 四川大学 一种基于语境分析的Web攻击检测方法
CN112699222A (zh) * 2021-01-07 2021-04-23 中南大学 基于量子启发式神经网络的文本分类方法及邮件分类方法
CN112818123A (zh) * 2021-02-08 2021-05-18 河北工程大学 一种文本的情感分类方法
CN113171104A (zh) * 2021-04-25 2021-07-27 安徽十锎信息科技有限公司 基于深度学习的充血性心力衰竭自动诊断方法
CN113516304A (zh) * 2021-06-29 2021-10-19 上海师范大学 基于时空图网络的区域污染物时空联合预测方法及装置
WO2022036616A1 (zh) * 2020-08-20 2022-02-24 中山大学 一种基于低标注资源生成可推理问题的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547735A (zh) * 2016-10-25 2017-03-29 复旦大学 基于深度学习的上下文感知的动态词或字向量的构建及使用方法
CN110222349A (zh) * 2019-06-13 2019-09-10 成都信息工程大学 一种深度动态上下文词语表示的模型及方法、计算机

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547735A (zh) * 2016-10-25 2017-03-29 复旦大学 基于深度学习的上下文感知的动态词或字向量的构建及使用方法
CN110222349A (zh) * 2019-06-13 2019-09-10 成都信息工程大学 一种深度动态上下文词语表示的模型及方法、计算机

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339440A (zh) * 2020-02-19 2020-06-26 东南大学 面向新闻文本基于层级状态神经网络的社会情绪排序方法
CN111339440B (zh) * 2020-02-19 2024-01-23 东南大学 面向新闻文本基于层级状态神经网络的社会情绪排序方法
CN111507101A (zh) * 2020-03-03 2020-08-07 杭州电子科技大学 一种基于多层次语义胶囊路由的反讽检测方法
CN111507101B (zh) * 2020-03-03 2020-12-15 杭州电子科技大学 一种基于多层次语义胶囊路由的反讽检测方法
WO2022036616A1 (zh) * 2020-08-20 2022-02-24 中山大学 一种基于低标注资源生成可推理问题的方法和装置
CN112528672A (zh) * 2020-12-14 2021-03-19 北京邮电大学 一种基于图卷积神经网络的方面级情感分析方法及装置
CN112632549B (zh) * 2021-01-06 2022-07-12 四川大学 一种基于语境分析的Web攻击检测方法
CN112632549A (zh) * 2021-01-06 2021-04-09 四川大学 一种基于语境分析的Web攻击检测方法
CN112699222A (zh) * 2021-01-07 2021-04-23 中南大学 基于量子启发式神经网络的文本分类方法及邮件分类方法
CN112699222B (zh) * 2021-01-07 2022-05-06 中南大学 基于量子启发式神经网络的文本分类方法及邮件分类方法
CN112818123A (zh) * 2021-02-08 2021-05-18 河北工程大学 一种文本的情感分类方法
CN113171104A (zh) * 2021-04-25 2021-07-27 安徽十锎信息科技有限公司 基于深度学习的充血性心力衰竭自动诊断方法
CN113516304A (zh) * 2021-06-29 2021-10-19 上海师范大学 基于时空图网络的区域污染物时空联合预测方法及装置
CN113516304B (zh) * 2021-06-29 2024-01-23 上海师范大学 基于时空图网络的区域污染物时空联合预测方法及装置

Also Published As

Publication number Publication date
CN110765269B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN110765269A (zh) 基于动态词向量和层级神经网络的文档级情感分类方法
Wang et al. An LSTM approach to short text sentiment classification with word embeddings
Wang et al. Using a stacked residual LSTM model for sentiment intensity prediction
US10885277B2 (en) On-device neural networks for natural language understanding
Xu et al. Investigation on the Chinese text sentiment analysis based on convolutional neural networks in deep learning.
Wang et al. Chat more: Deepening and widening the chatting topic via a deep model
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及系统
CN111078833B (zh) 一种基于神经网络的文本分类方法
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
Baziotis et al. Datastories at semeval-2017 task 6: Siamese LSTM with attention for humorous text comparison
Zhang et al. Deep autoencoding topic model with scalable hybrid Bayesian inference
CN110046353B (zh) 一种基于多语言层次机制的方面级情感分析方法
CN110069611B (zh) 一种主题增强的聊天机器人回复生成方法及装置
Chen et al. Deep neural networks for multi-class sentiment classification
Liu et al. A multi-label text classification model based on ELMo and attention
Huang et al. C-Rnn: a fine-grained language model for image captioning
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
Zhong et al. Recurrent attention unit
Jia et al. Attention in character-based BiLSTM-CRF for Chinese named entity recognition
Chaudhuri Visual and text sentiment analysis through hierarchical deep learning networks
Yuan et al. Deep learning from a statistical perspective
Ouyang et al. Chinese named entity recognition based on B-LSTM neural network with additional features
Gao et al. Attention-based BiLSTM network with lexical feature for emotion classification
Kurup et al. Evolution of neural text generation: Comparative analysis
CN111523319B (zh) 基于情景lstm结构网络的微博情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant