CN110765269A - 基于动态词向量和层级神经网络的文档级情感分类方法 - Google Patents
基于动态词向量和层级神经网络的文档级情感分类方法 Download PDFInfo
- Publication number
- CN110765269A CN110765269A CN201911051331.7A CN201911051331A CN110765269A CN 110765269 A CN110765269 A CN 110765269A CN 201911051331 A CN201911051331 A CN 201911051331A CN 110765269 A CN110765269 A CN 110765269A
- Authority
- CN
- China
- Prior art keywords
- vector
- document
- layer
- word
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 163
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000008451 emotion Effects 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 17
- 239000010410 layer Substances 0.000 claims description 115
- 238000013527 convolutional neural network Methods 0.000 claims description 23
- 238000012512 characterization method Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 241000288105 Grus Species 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000001537 neural effect Effects 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000003068 static effect Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于动态词向量和层级神经网络的文档级情感分类方法。所述方法包括以下步骤:通过构建并训练双向语言模型来获得高质量的动态词向量;将得到的动态词向量输入到层级神经网络中以对文档进行建模,从而获得包含丰富语义信息的向量表示,并将该向量输入到softmax函数来对文档进行分类。本发明采用双向语言模型来生成高质量的动态词向量,并提出了一种层级神经网络来对文档进行建模,既解决了静态词向量对多义词的语义表达不足的问题,也进一步提升了情感分类任务中对文档建模的能力。
Description
技术领域
本发明属于自然语言处理领域,尤其涉及一种基于动态词向量和层级神经网络的文档级情感分类方法。
背景技术
情感分类是自然语言处理领域中的重要任务之一,有着广泛的应用,包括电商网站评论分析,舆情分析与预测等。文档级情感分类任务的目的在于预测文档的情感极性,传统的方法使用tf-idf,SVM和Bayes(Eibe Frank and Remco R Bouckaert.Naivebayes for text classification with unbalanced classes.In European Conferenceon Principles of Data Mining and Knowledge Discovery,pages 503–510.Springer,2006.)等算法建模文档(Bo Pang,Lillian Lee,and Shivakumar Vaithyanathan.Thumbsup?:sentiment classification using machine learning techniques.In Proceedingsof the ACL-02conference on Empirical methods in natural language processing-Volume 10,pages 79–86.Association for Computational Linguistics,2002.),但是这些方法依赖于手工选择的特征,因此较为耗时。近年来,由于深度学习技术能够在大规模数据集中自动、高效地提取特征,在情感分类任务中获得了越来越多的应用。
目前深度学习技术在情感分类任务中的应用主要专注于捕获文档中的语义特征和句子间的语义关系(Jiacheng Xu,Danlu Chen,Xipeng Qiu,and XuanjingHuang.Cached long short-term memory neural networks for document-levelsentiment classification.In Proceedings of the 2016Conference on EmpiricalMethods in Natural Language Processing,pages 1660–1669,2016.),但是现有模型主要有两种不足:
第一,忽略了词向量的质量在深度学习模型中的重要性,这限制了许多文档表征模型的性能。采用双层、双向的语言模型,能够训练出和上下文环境相关的词向量(MatthewE Peters,Mark Neumann,Mohit Iyyer,Matt Gardner,Christopher Clark,Kenton Lee,and Luke Zettlemoyer.Deep contextualized word representations.In Proceedingsof NAACL-HLT,pages 2227–2237,2018.),提升词向量表达单词语义的能力,因此能进一步提高文档表征模型的效果。
第二,许多基于深度学习的模型一次性处理整个文档,当文档过长时会导致特征信息丢失。层级结构的神经网络(Zichao Yang,Diyi Yang,Chris Dyer,Xiaodong He,AlexSmola,and Eduard Hovy.Hierarchical attention networks for documentclassification.In Proceedings of the 2016conference of the North Americanchapter of the association for computational linguistics:human languagetechnologies,pages 1480–1489,2016;吴雨芯,蔡婷,张大斌.基于层级注意力机制与双向长短期记忆神经网络的智能合约自动分类模型[J/OL].计算机应用:1-9.)将文档划分为多个句子,又将句子划分为多个单词,并在第一层中输入句子中的每个单词对应的词向量,从而获得句子的表征;再在第二层中输入所有的句子表征,从而获得文档表征向量。这种分层处理的架构既能避免特征信息丢失的问题,也能更好地捕获文档的语义特征和句子间的语义关系。
发明内容
本发明提供了基于动态词向量和层级神经网络的文档级情感分类方法,具体包括高质量的动态词向量的生成方法,以及使用层级神经网络对文档进行建模的方法。
本发明的目的至少通过如下技术方案之一实现。
基于动态词向量和层级神经网络的文档级情感分类方法,包括以下步骤:
S1、通过构建并训练双向语言模型以获得高质量的动态词向量;高质量的动态词向量为与单词所在句子的语义相关的词向量;
S2、将得到的动态词向量输入到层级神经网络中以对文档进行建模以获得文档表征向量,并将该向量输入到softmax函数中以对文档进行分类。
进一步地,步骤S1包括以下步骤:
S1.1、构建并训练双向语言模型;
S1.2、将文档中的单词序列输入到训练好的双向语言模型中,得到高质量的动态词向量。
进一步地,步骤S1.1中,所述双向语言模型为一个两层的语言模型,每层均由双向长短期记忆神经网络biLSTM组成,该语言模型以句子作为输入单位,在输入层将句子输入到第一层语言模型中以计算该句子出现的概率,而句子的概率由计算句子中每一个单词从前向和后向出现的概率累乘得到;第一层的输出向量作为第二层语言模型的输入再进行训练,单词的动态词向量由输入层和两层语言模型的输出经加权求和得到;
每层biLSTM的隐藏层单元数均为128,输出的向量维度为256,所述双向语言模型的输入为一个由N个单词组成的句子序列(w1,w2,…,wN),该序列输入到两层biLSTM中,两层biLSTM分别从前向和后向提取输入的单词序列中的特征,第一层提取单词的语义特征,第二层提取和上下文环境相关的语法特征,最后的词向量由两层biLSTM的输出向量和输入层向量经加权求和后得到。
所述双向语言模型的训练目标为使得单词序列中的每一个单词都生成对应的词向量,双向语言模型的训练过程中,使用10亿单词训练集对该模型训练10个epoch,mini-batch设置为64,训练机器为GTX TitanX×4。
进一步地,步骤S1.2中,动态词向量的生成过程如下:
给定一个由N个单词组成的句子(w1,w2,...,wN),定义如下所示的计算句子的概率的双向语言模型(biLM):
p(w1,w2,...,wN)=∏k=1p(wk|w1,w2,...,wk-1); (1)
p(w1,w2,...,wN)=∏k=1p(wk|wk+1,wk+2,...,wN); (2)
公式(1)和(2)分别表示从前向和后向处理输入语句的语言模型,wk表示第k个单词,p()表示求取概率;biLM由最大化前向和后向语言模型的联合对数概率之和得到:
将biLM堆叠L层以进一步提取高级语义特征,单词wk的表征通过聚合所有层的特征来计算:
单词wk的最终词向量通过对输入层LM、第1到第L层的biLM加权求和得到:
其中,Emb(wk)为第k个单词的词向量表示,αj为第j层的权重值,该值被随机初始化为[0,...,1]之间,在训练过程中作为超参数自动学习得到,Rk,j为单词wk在第j层的表示。
进一步地,步骤S2包括以下步骤:
S2.1、构建层级神经网络;
S2.2、将步骤1中得到的动态词向量输入层级神经网络中,得到文档表征向量,该向量输入至softmax函数以得到文档的情感分类结果。
进一步地,步骤S2.1中,所述层级神经网络由两层网络构成:
第一层中,使用双向门控循环神经网络biGRU和注意力机制来对文档中的句子进行建模以获得句子表征;其中,biGRU用于捕获句子中的长依赖关系,注意力机制用于提取句子中的重要单词;
第二层中,将所有的句子表征传入另一个biGRU以获得文档的初步表征,biGRU由重置门和更新门组成,用于控制将哪些历史状态信息保存到当前状态中;此层使用了biGRU网络有两种不同类型的输出:
第一种,biGRU的每个神经单元都输出一个向量并组成一个矩阵,然后使用卷积神经网络CNN提取该矩阵的局部特征,获得局部特征向量;
第二种,将biGRU的最后一个神经单元作为输出以获得文档的全局特征向量;
将CNN提取的局部特征向量和biGRU提取到的全局特征向量相结合以得到最终的文档表征向量,该向量输入至softmax函数以得到文档的情感分类结果。
zt=sigmoid(Wzxt+Uzgt-1+bz); (7)
rt=sigmoid(Wrxt+Urgt-1+br);(8)
其中xt,gt-1,分别是输入向量,上一状态和当前候选状态;表示乘法运算;公式(7)决定保留过去信息的状态单元的数量以及添加了多少新信息,而公式(8)控制过去状态对当前状态的贡献;如果(8)等于零,则丢弃先前的状态;是在训练期间学习的超参数;H和d是隐藏单位和输入向量的维度;
xi=Emb(wi),i∈[1,N]; (10)
进一步地,在一个句子中,不同的单词对句子的语义信息贡献并不相同,所述注意力机制用于提取出对句子语义重要的单词:
首先,使用单层MLP获得gt的隐藏层表示ut:
ut=tanh(Wwgt+bw); (14)
其中,Ww和bw在训练期间学习的超参数;使用softmax函数来衡量每个单词的重要性,表示为αt:
最后,使用αt计算单词注解gt的加权和来获得句子S的表示:
S=∑t αtgt; (16)
进一步地,所述卷积神经网络CNN的结构包含卷积层、最大池化层和全连接层。其中,卷积层中使用卷积滤波器对输入的矩阵进行卷积操作以得到特征图,最大池化层使用池化操作提取特征图中的最优特征,最后使用全连接层将最优特征向量映射至所需的维度;卷积神经网络CNN提取文档特征的过程如下:
给定包含L个句子的文档,通过层级神经网络的第一层得到句子向量集合[S1,S2,...,SL],将句子向量输入到biGRU中,该biGU的每个状态单元均输出一个向量并组成矩阵M=[S′1,S′2,...,S′L],
mi=tanh(fMi:i+h-1+b); (17)
其中,b是偏置项,tanh()为激活函数。最终生成的特征图m为:
m=[m1;m2;…;mL-h+1]; (18)
然后在m上应用最大池化操作,最大池化操作是指:对于特征图m的每一行向量,取其最大值作为该行向量的最优特征,然后通过全连接层将最大池化后的特征向量映射到最终的文档表征向量由glast和r级联后得到,其中glast为第二种biGRU的输出向量。
进一步地,步骤S2.2中,文档的情感分类结果p经softmax函数计算得到:
p=softmax(Wcv+bc); (19)
其中,Wc和bc分别为权重值和偏置项,两者均为在训练期间学习得到的超参数,c为文档的情感类别数,v是最终的文档表征向量。
与现有技术相比,本发明具有如下的优点与技术效果:
1、本发明从词向量的表达、文档建模方法两个阶段均对情感分类方法进行了优化。
2、本发明为多义词根据其上下文环境生成不同的词向量,提升了词向量的语义表达能力。
3、本发明使用了层级神经网络,分别从句子和文档层对文档进行建模,能够更好地捕获句子间的依赖关系,有效避免了大多数现有方法中,一次性处理整个文档时长距离特征信息丢失的问题。
4、本发明使用了biGRU和注意力机制来对句子进行建模,既能提取到句子的全局特征,也能挖掘出对语义贡献较大的单词,从而提高了模型的精度。
5、本发明利用了biGRU每个状态单元均可输出向量的特点,将这些状态单元的输出向量组成矩阵,并经由CNN处理以提取局部特征,CNN输出的向量与biGRU的最后一个输出向量相级联后得到最终的文档表征向量。这一过程能够结合CNN和biGRU分别提取局部特征和全局特征的优势,有效提升了模型的效果。
附图说明
图1为本发明实施例中基于动态词向量和层级神经网络的文档级别情感分类方法的结构示意图。
图2为本发明实施例中用于生成动态词向量的双向语言模型的示意图。
图3a和图3b为本发明实施例中biGRU的两种不同输出类型的示意图。
图4为本发明实施例中CNN处理文档矩阵的示意图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明的具体实施进行进一步的详细说明,但本发明的实施和保护不限于此。
实施例:
基于动态词向量和层级神经网络的文档级情感分类方法,如图1所示,包括以下步骤:
S1、通过构建并训练双向语言模型以获得高质量的动态词向量;高质量的动态词向量为与单词所在句子的语义相关的词向量;包括以下步骤:
S1.1、构建并训练双向语言模型;
如图2所示,所述双向语言模型为一个两层的语言模型,每层均由双向长短期记忆神经网络biLSTM组成,该语言模型以句子作为输入单位,在输入层将句子输入到第一层语言模型中以计算该句子出现的概率,而句子的概率由计算句子中每一个单词从前向和后向出现的概率累乘得到;第一层的输出向量作为第二层语言模型的输入再进行训练,单词的动态词向量由输入层和两层语言模型的输出经加权求和得到;
每层biLSTM的隐藏层单元数均为128,输出的向量维度为256,所述双向语言模型的输入为一个由N个单词组成的句子序列,(w1,w2,…,wN),该序列输入到两层biLSTM中,两层biLSTM分别从前向和后向提取输入的单词序列中的特征,第一层提取单词的语义特征,第二层提取和上下文环境相关的语法特征,最后的词向量由两层biLSTM的输出向量和输入层向量经加权求和后得到。
所述双向语言模型的训练目标为使得单词序列中的每一个单词都生成对应的词向量,双向语言模型的训练过程中,使用论文(One Billion Word Benchmark forMeasuring Progress inStatistical Language Modeling,Ciprian et al.,数据集下载地址:http://statmt.org/wmt11/training-monolingual.tgz)中所公开的10亿单词训练集对该模型训练10个epoch,mini-batch设置为64,训练机器为GTX TitanX×4。
S1.2、将文档中的单词序列输入到训练好的双向语言模型中,得到高质量的动态词向量,动态词向量的生成过程如下:
给定一个由N个单词组成的句子,(w1,w2,...,wN),定义如下所示的计算句子的概率的双向语言模型(biLM):
p(w1,w2,...,wN)=∏k=1p(wk|w1,w2,...,wk-1); (1)
p(w1,w2,...,wN)=∏k=1p(wk|wk+1,wk+2,...,wN); (2)
公式(1)和(2)分别表示从前向和后向处理输入语句的语言模型,wk表示第k个单词,p()表示求取概率;biLM由最大化前向和后向语言模型的联合对数概率之和得到:
将biLM堆叠L层以进一步提取高级语义特征,单词wk的表征通过聚合所有层的特征来计算:
单词wk的最终词向量通过对输入层LM、第1到第L层的biLM加权求和得到:
其中,Emb(wk)为第k个单词的词向量表示,αj为第j层的权重值,该值被随机初始化为[0,...,1]之间,在训练过程中作为超参数自动学习得到,Rk,j为单词wk在第j层的表示。
S2、将得到的动态词向量输入到层级神经网络中以对文档进行建模以获得文档表征向量,包括以下步骤:
S2.1、构建层级神经网络;该层级神经网络分别从句子级和文档级提取特征,能够挖掘出文档的深层语义信息,得到文档表征向量;
所述层级神经网络由两层网络构成:
第一层中,使用双向门控循环神经网络biGRU和注意力机制来对文档中的句子进行建模以获得句子表征;其中,biGRU用于捕获句子中的长依赖关系,注意力机制用于提取句子中的重要单词;
zt=sigmoid(Wzxt+Uzgt-1+bz); (7)
rt=sigmoid(Wrxt+Urgt-1+br); (8)
其中xt,gt-1,分别是输入向量,上一状态和当前候选状态;表示乘法运算;公式(7)决定保留过去信息的状态单元的数量以及添加了多少新信息,而公式(8)控制过去状态对当前状态的贡献;如果(8)等于零,则丢弃先前的状态;是在训练期间学习的超参数;H和d是隐藏单位和输入向量的维度;
xi=Emb(wi),i∈[1,N]; (10)
在一个句子中,不同的单词对句子的语义信息贡献并不相同,所述注意力机制用于提取出对句子语义重要的单词:
首先,使用单层MLP获得gt的隐藏层表示ut:
ut=tanh(Wwgt+bw); (14)
其中,Ww和bw在训练期间学习的超参数。使用softmax函数来衡量每个单词的重要性,表示为αt:
最后,使用αt计算单词注解gt的加权和来获得句子S的表示:
S=∑t αtgt; (16)
第二层中,假设文档具有L个句子,[s1,s2,...,sL],将所有的句子表征传入另一个biGRU以获得文档的初步表征,biGRU由重置门和更新门组成,用于控制将哪些历史状态信息保存到当前状态中。如图3a和图3b所示,biGRU网络有两种不同类型的输出:
第一种,biGRU的每个神经单元都输出一个向量并组成一个矩阵,然后使用卷积神经网络CNN提取该矩阵的局部特征,获得局部特征向量;
第二种,将biGRU的最后一个神经单元作为输出以获得文档的全局特征向量;
将CNN提取的局部特征向量和biGRU提取到的全局特征向量相结合以得到最终的文档表征向量,该向量输入至softmax函数以得到文档的情感分类结果。
如图4所示,所述卷积神经网络CNN的结构包含卷积层、最大池化层和全连接层。其中,卷积层中使用卷积滤波器对输入的矩阵进行卷积操作以得到特征图,最大池化层使用池化操作提取特征图中的最优特征,最后使用全连接层将最优特征向量映射至所需的维度;卷积神经网络CNN提取文档特征的过程如下:
给定包含L个句子的文档,通过层级神经网络的第一层得到句子向量集合[S1,S2,...,SL],将句子向量输入到图3b所示的biGRU中,该biGU的每个状态单元均输出一个向量并组成矩阵M=[S′1,S′2,...,S′L],
ms=tanh(fMs:s+h-1+b); (17)
其中,b是偏置项,tanh()为激活函数。最终生成的特征图m为:
m=[m1;m2;…;mL-h+1]; (18)
然后在m上应用最大池化操作,最大池化操作是指:对于特征图m的每一行向量,取其最大值作为该行向量的最优特征,然后通过全连接层将最大池化后的特征向量映射到最终的文档表征向量由glast和r级联后得到,其中glast为第二种biGRU的输出向量。
S2.2、将步骤1中得到的动态词向量输入层级神经网络中,得到最终的文档表征向量,该向量输入至softmax函数以得到文档的情感分类结果:
p=softmax(Wcv+bc); (19)
其中,Wc和bc分别为权重值和偏置项,两者均为在训练期间学习得到的超参数,c为文档的情感类别数;v是最终的文档表征向量。
上述流程为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,包括以下步骤:
S1、通过构建并训练双向语言模型以获得高质量的动态词向量;
S2、将得到的动态词向量输入到层级神经网络中以对文档进行建模以获得文档表征向量,并将该向量输入到softmax函数中以对文档进行分类。
2.根据权利要求1所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,步骤S1包括以下步骤:
S1.1、构建并训练双向语言模型;
S1.2、将文档中的单词序列输入到训练好的双向语言模型中,得到高质量的动态词向量。
3.根据权利要求2所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,步骤S1.1中,所述双向语言模型为一个两层的语言模型,每层均由双向长短期记忆神经网络biLSTM组成,该语言模型以句子作为输入单位,在输入层将句子输入到第一层语言模型中以计算该句子出现的概率,而句子的概率由计算句子中每一个单词从前向和后向出现的概率累乘得到;第一层的输出向量作为第二层语言模型的输入再进行训练,单词的动态词向量由输入层和两层语言模型的输出经加权求和得到;
每层biLSTM的隐藏层单元数均为128,输出的向量维度为256,所述双向语言模型的输入为一个由N个单词组成的句子序列(w1,w2,...,wN),该序列输入到两层biLSTM中,两层biLSTM分别从前向和后向提取输入的单词序列中的特征,第一层提取单词的语义特征,第二层提取和上下文环境相关的语法特征,最后的词向量由两层biLSTM的输出向量和输入层向量经加权求和后得到;
所述双向语言模型的训练目标为使得单词序列中的每一个单词都生成对应的词向量,双向语言模型的训练过程中,使用10亿单词训练集对该模型训练10个epoch,mini-batch设置为64,训练机器为GTX TitanX×4。
4.根据权利要求2所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,步骤S1.2中,动态词向量的生成过程如下:
给定一个由N个单词组成的句子(w1,w2,...,wN),定义如下所示的计算句子的概率的双向语言模型(biLM):
p(w1,w2,...,wN)=∏k=1p(wk|w1,w2,...,wk-1); (1)
p(w1,w2,...,wN)=∏k=1p(wk|wk+1,wk+2,...,wN); (2)
公式(1)和(2)分别表示从前向和后向处理输入语句的语言模型,wk表示第k个单词,p()表示求取概率;biLM由最大化前向和后向语言模型的联合对数概率之和得到:
将biLM堆叠L层以进一步提取高级语义特征,单词wk的表征通过聚合所有层的特征来计算:
单词wk的最终词向量通过对输入层LM、第1到第L层的biLM加权求和得到:
其中,Emb(wk)为第k个单词的词向量表示,αj为第j层的权重值,该值被随机初始化为[0,...,1]之间,在训练过程中作为超参数自动学习得到,Rk,j为单词wk在第j层的表示。
5.根据权利要求1所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,步骤S2包括以下步骤:
S2.1、构建层级神经网络;
S2.2、将步骤1中得到的动态词向量输入层级神经网络中,得到文档表征向量,该向量输入至softmax函数以得到文档的情感分类结果。
6.根据权利要求5所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,步骤S2.1中,所述层级神经网络由两层网络构成:
第一层中,使用双向门控循环神经网络biGRU和注意力机制来对文档中的句子进行建模以获得句子表征;其中,biGRU用于捕获句子中的长依赖关系,注意力机制用于提取句子中的重要单词;
第二层中,将所有的句子表征传入另一个biGRU以获得文档的初步表征,biGRU由重置门和更新门组成,用于控制将哪些历史状态信息保存到当前状态中;第二层中使用了biGRU网络两种不同类型的输出:
第一种,biGRU的每个神经单元都输出一个向量并组成一个矩阵,然后使用卷积神经网络CNN提取该矩阵的局部特征,获得局部特征向量;
第二种,将biGRU的最后一个神经单元作为输出以获得文档的全局特征向量;
将CNN提取的局部特征向量和biGRU提取到的全局特征向量相结合以得到最终的文档表征向量,该向量输入至softmax函数以得到文档的情感分类结果。
7.根据权利要求6所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,双向门控循环神经网络biGRU中,GRU由两个门组成,即重置门rt和更新门zt,用于控制将哪些信息保存到当前状态gt;在当前时间t,前向将信息更新为:
zt=sigmoid(Wzxt+Uzgt-1+bz); (7)
rt=sigmoid(Wrxt+Urgt-1+br); (8)
其中xt,gt-1,分别是输入向量,上一状态和当前候选状态;○表示乘法运算;公式(7)决定保留过去信息的状态单元的数量以及添加了多少新信息,而公式(8)控制过去状态对当前状态的贡献;如果(8)等于零,则丢弃先前的状态;是在训练期间学习的超参数;H和d是隐藏单位和输入向量的维度;
xi=Emb(wi),i∈[1,N]; (10)
9.根据权利要求6所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,所述卷积神经网络CNN的结构包含卷积层、最大池化层和全连接层;其中,卷积层中使用卷积滤波器对输入的矩阵进行卷积操作以得到特征图,最大池化层使用池化操作提取特征图中的最优特征,最后使用全连接层将最优特征向量映射至所需的维度;卷积神经网络CNN提取文档特征的过程如下:
给定包含L个句子的文档,通过层级神经网络的第一层得到句子向量集合[S1,S2,...,SL],将句子向量输入到biGRU中,该biGU的每个状态单元均输出一个向量并组成矩阵
ms=tanh(fMs:s+h-1+b); (17)
其中,b是偏置项,tanh()为激活函数;最终生成的特征图m为:
m=[m1;m2;…;mL-h+1]; (18)
10.根据权利要求5所述的基于动态词向量和层级神经网络的文档级情感分类方法,其特征在于,步骤S2.2中,文档的情感分类结果p经softmax函数计算得到:
p=softmax(Wcv+bc); (19)
其中,Wc和bc分别为权重值和偏置项,两者均为在训练期间学习得到的超参数,c为文档的情感类别数,v表示最终的文档表征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911051331.7A CN110765269B (zh) | 2019-10-30 | 2019-10-30 | 基于动态词向量和层级神经网络的文档级情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911051331.7A CN110765269B (zh) | 2019-10-30 | 2019-10-30 | 基于动态词向量和层级神经网络的文档级情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765269A true CN110765269A (zh) | 2020-02-07 |
CN110765269B CN110765269B (zh) | 2023-04-28 |
Family
ID=69334911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911051331.7A Active CN110765269B (zh) | 2019-10-30 | 2019-10-30 | 基于动态词向量和层级神经网络的文档级情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765269B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339440A (zh) * | 2020-02-19 | 2020-06-26 | 东南大学 | 面向新闻文本基于层级状态神经网络的社会情绪排序方法 |
CN111507101A (zh) * | 2020-03-03 | 2020-08-07 | 杭州电子科技大学 | 一种基于多层次语义胶囊路由的反讽检测方法 |
CN112528672A (zh) * | 2020-12-14 | 2021-03-19 | 北京邮电大学 | 一种基于图卷积神经网络的方面级情感分析方法及装置 |
CN112632549A (zh) * | 2021-01-06 | 2021-04-09 | 四川大学 | 一种基于语境分析的Web攻击检测方法 |
CN112699222A (zh) * | 2021-01-07 | 2021-04-23 | 中南大学 | 基于量子启发式神经网络的文本分类方法及邮件分类方法 |
CN112818123A (zh) * | 2021-02-08 | 2021-05-18 | 河北工程大学 | 一种文本的情感分类方法 |
CN113171104A (zh) * | 2021-04-25 | 2021-07-27 | 安徽十锎信息科技有限公司 | 基于深度学习的充血性心力衰竭自动诊断方法 |
CN113516304A (zh) * | 2021-06-29 | 2021-10-19 | 上海师范大学 | 基于时空图网络的区域污染物时空联合预测方法及装置 |
WO2022036616A1 (zh) * | 2020-08-20 | 2022-02-24 | 中山大学 | 一种基于低标注资源生成可推理问题的方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547735A (zh) * | 2016-10-25 | 2017-03-29 | 复旦大学 | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 |
CN110222349A (zh) * | 2019-06-13 | 2019-09-10 | 成都信息工程大学 | 一种深度动态上下文词语表示的模型及方法、计算机 |
-
2019
- 2019-10-30 CN CN201911051331.7A patent/CN110765269B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547735A (zh) * | 2016-10-25 | 2017-03-29 | 复旦大学 | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 |
CN110222349A (zh) * | 2019-06-13 | 2019-09-10 | 成都信息工程大学 | 一种深度动态上下文词语表示的模型及方法、计算机 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339440A (zh) * | 2020-02-19 | 2020-06-26 | 东南大学 | 面向新闻文本基于层级状态神经网络的社会情绪排序方法 |
CN111339440B (zh) * | 2020-02-19 | 2024-01-23 | 东南大学 | 面向新闻文本基于层级状态神经网络的社会情绪排序方法 |
CN111507101A (zh) * | 2020-03-03 | 2020-08-07 | 杭州电子科技大学 | 一种基于多层次语义胶囊路由的反讽检测方法 |
CN111507101B (zh) * | 2020-03-03 | 2020-12-15 | 杭州电子科技大学 | 一种基于多层次语义胶囊路由的反讽检测方法 |
WO2022036616A1 (zh) * | 2020-08-20 | 2022-02-24 | 中山大学 | 一种基于低标注资源生成可推理问题的方法和装置 |
CN112528672A (zh) * | 2020-12-14 | 2021-03-19 | 北京邮电大学 | 一种基于图卷积神经网络的方面级情感分析方法及装置 |
CN112632549B (zh) * | 2021-01-06 | 2022-07-12 | 四川大学 | 一种基于语境分析的Web攻击检测方法 |
CN112632549A (zh) * | 2021-01-06 | 2021-04-09 | 四川大学 | 一种基于语境分析的Web攻击检测方法 |
CN112699222A (zh) * | 2021-01-07 | 2021-04-23 | 中南大学 | 基于量子启发式神经网络的文本分类方法及邮件分类方法 |
CN112699222B (zh) * | 2021-01-07 | 2022-05-06 | 中南大学 | 基于量子启发式神经网络的文本分类方法及邮件分类方法 |
CN112818123A (zh) * | 2021-02-08 | 2021-05-18 | 河北工程大学 | 一种文本的情感分类方法 |
CN113171104A (zh) * | 2021-04-25 | 2021-07-27 | 安徽十锎信息科技有限公司 | 基于深度学习的充血性心力衰竭自动诊断方法 |
CN113516304A (zh) * | 2021-06-29 | 2021-10-19 | 上海师范大学 | 基于时空图网络的区域污染物时空联合预测方法及装置 |
CN113516304B (zh) * | 2021-06-29 | 2024-01-23 | 上海师范大学 | 基于时空图网络的区域污染物时空联合预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110765269B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765269A (zh) | 基于动态词向量和层级神经网络的文档级情感分类方法 | |
Wang et al. | An LSTM approach to short text sentiment classification with word embeddings | |
Wang et al. | Using a stacked residual LSTM model for sentiment intensity prediction | |
US10885277B2 (en) | On-device neural networks for natural language understanding | |
Xu et al. | Investigation on the Chinese text sentiment analysis based on convolutional neural networks in deep learning. | |
Wang et al. | Chat more: Deepening and widening the chatting topic via a deep model | |
CN111274398A (zh) | 一种方面级用户产品评论情感分析方法及系统 | |
CN111078833B (zh) | 一种基于神经网络的文本分类方法 | |
Cai et al. | Intelligent question answering in restricted domains using deep learning and question pair matching | |
Baziotis et al. | Datastories at semeval-2017 task 6: Siamese LSTM with attention for humorous text comparison | |
Zhang et al. | Deep autoencoding topic model with scalable hybrid Bayesian inference | |
CN110046353B (zh) | 一种基于多语言层次机制的方面级情感分析方法 | |
CN110069611B (zh) | 一种主题增强的聊天机器人回复生成方法及装置 | |
Chen et al. | Deep neural networks for multi-class sentiment classification | |
Liu et al. | A multi-label text classification model based on ELMo and attention | |
Huang et al. | C-Rnn: a fine-grained language model for image captioning | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
Zhong et al. | Recurrent attention unit | |
Jia et al. | Attention in character-based BiLSTM-CRF for Chinese named entity recognition | |
Chaudhuri | Visual and text sentiment analysis through hierarchical deep learning networks | |
Yuan et al. | Deep learning from a statistical perspective | |
Ouyang et al. | Chinese named entity recognition based on B-LSTM neural network with additional features | |
Gao et al. | Attention-based BiLSTM network with lexical feature for emotion classification | |
Kurup et al. | Evolution of neural text generation: Comparative analysis | |
CN111523319B (zh) | 基于情景lstm结构网络的微博情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |