CN111708864A - 一种用户评论文本情感分析方法及装置 - Google Patents
一种用户评论文本情感分析方法及装置 Download PDFInfo
- Publication number
- CN111708864A CN111708864A CN202010529486.3A CN202010529486A CN111708864A CN 111708864 A CN111708864 A CN 111708864A CN 202010529486 A CN202010529486 A CN 202010529486A CN 111708864 A CN111708864 A CN 111708864A
- Authority
- CN
- China
- Prior art keywords
- user comment
- word vectors
- comment text
- text
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 49
- 238000004458 analytical method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 128
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 9
- 238000013527 convolutional neural network Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005406 washing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用户评论文本情感分析方法及装置,该方法包括:获取用户评论文本;将所述用户评论文本转换为多个原始词向量;计算所述多个原始词向量中词向量的注意力权重;根据所述多个原始词向量、注意力权重,生成新词向量;确定所述注意力权重大于阈值的新词向量为关键词;使用C‑GRU神经网络,根据所述关键词,对所述用户评论文本进行情感分类。本申请使用注意力机制对每个词向量进行扩展,使得文本中的关键信息更容易被获取;C‑GRU网络模型能够用CNN获取到评论的局部特征信息,再用GRU学习到文本的上下文信息和层次结构信息,解决评论不规范、稀疏、主旨不明确的特点,实现了用户评论文本的有效分析。
Description
技术领域
本发明涉及信息处理领域,具体而言,涉及一种用户评论文本情感分析方法及装置。
背景技术
近年来,我国互联网技术迅速发展,越来越多的用户在网上购物的同时,喜欢对商品进行评论,所以购物网站上存在着大量的短文本评论。通过对用户评论情感分析可以帮助消费者判断商品质量,同时帮助企业掌握产品的不足以及市场的需求,从而提高产品的竞争力。现有技术无法对用户评论文本实现有效分析。
发明内容
为了解决目前无法对用户评论文本实现有效分析的问题,本申请实施例提供了一种用户评论文本情感分析方法及装置,实现了用户评论文本的有效分析。
第一方面,本申请实施例提供了一种用户评论文本情感分析方法,包括:
获取用户评论文本;
将所述用户评论文本转换为多个原始词向量;
计算所述多个原始词向量中词向量的注意力权重;
根据所述多个原始词向量、注意力权重,生成新词向量;
确定所述注意力权重大于阈值的新词向量为关键词;
使用C-GRU神经网络,根据所述关键词,对所述用户评论文本进行情感分类。
其中,所述计算所述多个原始词向量中词向量的注意力权重,包括:
通过以下计算式计算注意力权重αi,j:
其中,hi为第i个原始词向量,hj为第j个原始词向量,score(hi,hj)为计算两个词向量的相关系数的函数,
其中,还包括:
预处理用户评论文本,所述预处理包括去除不需要和有缺失的数据、分词,去除标点。
其中,所述将所述用户评论文本转换为多个原始词向量,包括:
采用Word2vec模型中的Skip-Gram模型将用户评论文本转化为K维向量实数值。
其中,所述使用C-GRU神经网络,根据所述关键词,对所述用户评论文本进行情感分类,包括:
所述C-GRU神经网络主要关注所述关键词,对所述用户评论文本进行情感分类。
第二方面,本申请实施例提供了一种用户评论文本情感分析模型,包括:
输入层,用于采用Word2vec模型中的Skip-Gram模型将预处理后的用户评论文本转化为K维向量实数值;
注意力层,用于计算多个原始词向量中词向量的注意力权重;根据所述多个原始词向量、注意力权重,生成新词向量;确定所述注意力权重大于阈值的新词向量为关键词;
卷积层,用于对输入的区域序列向量Vi进行局部特征表示,Vi是由输入文本第i个位置开始连续k个词的词向量w表示组成,由式(1)表示:
Vi=[wi,wi+1,…,wi+k-1] (1)
将Vi通过相应的卷积层过滤器进行处理,产生多个不同的特征表示Ci,特征表示如式(2)所示:
Ci=ReLU(Vi·f+θ) (2)
其中,f表示滑动窗口大小为k的卷积核,θ为偏置项,ReLU为一种非线性的激活函数;
池化层,用于对特征向量进行最大值采样,提取到不同区域的局部依赖;
时序层,包括门控循环单元,用于对所述用户评论文本进行情感分类。
其中,所述预处理包括:
去除所述用户评论文本中的标点,去除不需要和有缺失的数据、分词。
第三方面,本申请实施例提供了一种用户评论文本情感分析装置,包括:
获取单元,用于获取用户评论文本;
转换单元,用于将所述用户评论文本转换为多个原始词向量;
计算单元,用于计算所述多个原始词向量中词向量的注意力权重;
生成单元,用于根据所述多个原始词向量、注意力权重,生成新词向量;
确定单元,用于确定所述注意力权重大于阈值的新词向量为关键词;
分类单元,用于使用C-GRU神经网络,根据所述关键词,对所述用户评论文本进行情感分类。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
第五方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
本申请实施例用户评论文本情感分析方法及装置具有如下有益效果:本申请中,获取用户评论文本;将用户评论文本转换为多个原始词向量;计算多个原始词向量中词向量的注意力权重;根据多个原始词向量、注意力权重,生成新词向量;确定注意力权重大于阈值的新词向量为关键词;使用C-GRU神经网络,根据关键词,对用户评论文本进行情感分类。本申请使用注意力机制对每个词向量进行扩展,使得文本中的关键信息更容易被获取。C-GRU网络模型能够用CNN获取到评论的局部特征信息,再用GRU学习到文本的上下文信息和层次结构信息,解决评论不规范、稀疏、主旨不明确的特点,实现了用户评论文本的有效分析。
附图说明
图1为本申请实施例用户评论文本情感分析方法流程示意图;
图2为本申请实施例用户评论文本情感分析方法中计算注意力权重的示意图;
图3为本申请实施例用户评论文本情感分析模型的结构示意图;
图4为本申请实施例用户评论文本情感分析方法中GRU模型的结构示意图;
图5为本申请实施例用户评论文本情感分析装置的结构示意图;
图6为本申请实施例计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请进行进一步的介绍。
在下述介绍中,术语“第一”、“第二”仅为用于描述的目的,而不能理解为指示或暗示相对重要性。下述介绍提供了本发明的多个实施例,不同实施例之间可以替换或者合并组合,因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而,如果一个实施例包含特征A、B、C,另一个实施例包含特征B、D,那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确的文字记载。
下面的描述提供了示例,并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下,对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行,并且可以添加、省略或组合各种步骤。此外,可以将关于一些示例描述的特征组合到其他示例中。
近年来,我国互联网技术迅速发展,越来越多的用户在网上购物的同时,喜欢对商品进行评论,所以购物网站上存在着大量的短文本评论。通过对用户评论情感分析可以帮助消费者判断商品质量,同时帮助企业掌握产品的不足以及市场的需求,从而提高产品的竞争力。情感分析是自然语言处理中的方法,通过对文本进行分析、推理、归纳得到文本的情感极性、情感程度、主客观情况。深度学习技术对文本情感分类取得了不错的效果,2013年Mikolov提出了Word2vec模型,将文本信息从高维空间映射到了低维空间,表示出了文本的潜在信息。借助Word2vec模型,神经网络可以得到文本的特征信息,实现文本分类问题。
目前,大多数情感分析方法将单一词向量输入到单一神经网络模型用于文本分类。针对以上问题,本申请提出一种基于词向量注意力机制的C-GRU模型用于情感分析。
图1为本申请实施例用户评论文本情感分析方法流程示意图,图2为本申请实施例用户评论文本情感分析方法中计算注意力权重的示意图,如图1-2所示,本申请用户评论文本情感分析方法包括步骤:S101,获取用户评论文本;S103,将用户评论文本转换为多个原始词向量;S105,计算多个原始词向量中词向量的注意力权重;S107,根据多个原始词向量、注意力权重,生成新词向量;S109,确定注意力权重大于阈值的新词向量为关键词;S111,使用C-GRU神经网络,根据关键词,对用户评论文本进行情感分类。下面介绍每一步骤。
S101,获取用户评论文本;S103,将用户评论文本转换为多个原始词向量。
在一些实施例中,获取用户评论文本后,对用户评论文本进行预处理,去除不需要和有缺失的数据、分词,去除标点后得到文本信息。预处理后,再将用户评论文本转换为多个原始词向量。本步骤中,采用Word2vec模型中的Skip-Gram模型将用户评论文本转化为K维向量实数值。
词向量(Word2vec)是一种将单词列表中的单词或短语映射为实数的向量模型,主要包括CBOW模型和Skip-gram模型两种。本申请采用Skip-gram模型表示文本向量,Skip-Gram模型的目标函数就是求对数概率g(ω)的最大平均值:
式中,ω1,ω2,…,ωT就是一句话中的每一个词语,c表示样本训练集的大小,c的大小决定了模型的精度。
S105,计算多个原始词向量中词向量的注意力权重;S107,根据多个原始词向量、注意力权重,生成新词向量;S109,确定注意力权重大于阈值的新词向量为关键词。
如图2所示,通过对用户评论观察分析,用户评论多为短文本和关键词,短文本应用场景十分广泛,具有长度短、用户多、结构差异大、特征明显、关键词稀疏的特点,传统的词性标注和句法分析等自然语言处理技术无法对短文本实现有效分析,本申请基于词向量对短文本进行分布式向量表示,解决了传统稀疏表示方法维数过多的问题。同时将词向量表示方式加以改进,在原有表示文本语义信息的基础上加入了注意力机制,提升情感分析模型的表现。
注意力机制能够提高特定目标情感分析的结果。在文本分类过程中,文本中每个词对文本分类的结果影响是不同的,比如“该产品用起来效果特别好”,“特别好”这个词对整个文本信息判定为积极起到了决定性作用,远远超过了其他词语的重要程度。注意力机制就可以很好的解决这类问题,关注到文本中的关键词。
在普通神经网络中,输入的文本信息各个词语是相互独立的。词向量注意力机制就是计算句子中每个词与其他词在情感分类中的关联系数,得到该词的上下文词向量,与其他词关联系数较大的词往往就是文中的重要信息。
如图2所示,假设一个句子由六个词语组成,则h1~h6是六个词语对应的词向量表示,αi,j为对应的词向量注意力权重,通过以下计算式计算注意力权重αi,j:
其中,hi为第i个原始词向量,hj为第j个原始词向量,score(hi,hj)为计算两个词向量的相关系数的函数,
在一条文本信息中,两个词语的关联性和它们的距离有关,随着距离的增大关联程度在逐渐降低,λ在0~1之间,当λ趋向于0时,两个词语的关联性几乎与距离无关,当λ趋向于1时,两个词语的关联性几乎取决于距离。从而能够更加精确的表达出两个词语的关联性。
如图2所示,新词向量是由多个词向量的加权和得到的上下文词向量,由下式表示:
例如,对“这是我用过的最好的洗衣机”进行情感分类,句子中“最好的”和“洗衣机”的关联系数score值较高,因此“最好的”在“洗衣机”的新词向量中注意力权重较高,从而可以让分类模型主要关注“最好的”这个关键词。
S111,使用C-GRU神经网络,根据关键词,对用户评论文本进行情感分类。
本步骤中,例如C-GRU(Convolution-Gated Recurrent Unit,卷积-门控循环单元)神经网络主要关注关键词,对用户评论文本进行情感分类。
本申请提出了一种基于用户评论的情感分析和预测客户流失的方法,一方面,通过将用户评论数据转化为加入注意力机制的词向量,再使用C-GRU神经网络进行情感分类。本申请具有以下优点:(1)使用注意力机制对每个词向量进行扩展,使得文本中的关键信息更容易被获取。(2)C-GRU网络模型能够用CNN获取到评论的局部特征信息,再用GRU学习到文本的上下文信息和层次结构信息,解决评论不规范、稀疏、主旨不明确的特点。
图3为本申请实施例用户评论文本情感分析模型的结构示意图,如图3所示,本申请用户评论文本情感分析模型,包括:
输入层,用于将经过预处理后的中文评论通过Word2vec词向量转化为模型可识别的分布式表示信息,采用Word2vec模型中的Skip-Gram模型将预处理后的用户评论文本转化为K维向量实数值。本申请中,在用户评论文本信息输入模型之前,需要经过预处理,去除不需要和有缺失的数据、分词、去除标点后得到文本信息再输入网络模型。其中,预处理包括:去除用户评论文本中的标点、不需要和有缺失的数据、分词。
注意力层,运用加权求和的方式获取关键词,可以丰富的表示文本语义,并且相似词具有相似的词向量。具体地,注意力层用于计算多个原始词向量中词向量的注意力权重;根据多个原始词向量、注意力权重,生成新词向量;确定注意力权重大于阈值的新词向量为关键词。
在传统的情感分析任务中,循环神经网络(RNN)在处理文本上下文关系时取得了不错的效果,但是在针对短文本分类任务中RNN的分类效果差强人意。所以本申请将卷积神经网络(CNN)中的卷积层与门控循环单元(GRU)结合,可以提取出更全面的文本特征,也保留了RNN中长时间记忆的优势。
卷积层,用于对输入的区域序列向量Vi进行局部特征表示,Vi是由输入文本第i个位置开始连续k个词的词向量w表示组成,由式(1)表示:
Vi=[wi,wi+1,…,wi+k-1] (1)
将Vi通过相应的卷积层过滤器进行处理,产生多个不同的特征表示Ci,特征表示如式(2)所示:
Ci=ReLU(Vi·f+θ) (2)
其中,f表示滑动窗口大小为k的卷积核,θ为偏置项,ReLU为一种非线性的激活函数。
池化层,用于对特征向量进行最大值采样(max-pooling),提取到不同区域的局部依赖,保持最显著的信息特征,并将池化后的结果作为时序层的输入。
时序层,包括门控循环单元(Gated Recurrent Unit,GRU),用于对用户评论文本进行情感分类。图4为本申请实施例用户评论文本情感分析方法中GRU模型的结构示意图,如图4所示,GRU模型主要由更新门和重置门组成,所以GRU模型拥有更少的参数量,而且还可以保证传递有效信息,优化了LSTM(Long Short-Term Memory,长短期记忆网络)模型。如图4所示,其中xt表示当前时刻的输入值,ht-1是前一时刻的输出值,zt和rt分别为更新门和重置门,at为当前时刻的候选隐状态,ht表示当前时刻的输出值,计算公式如下,其中Sigmoid和Tanh为激活函数,WzWrWa和UzUrUa为模型权重参数,bzbrba为偏置项,
zt=Sigmoid(Wzxt+Uzht-1+bz)
rt=Sigmoid(Wrxt+Urht-1+br)
at=Tanh(WaUa(ht-1*rt)+ba)
ht=(1-zt)*ht-1+zt*at
最后将文本特征使用softmax函数分类,得到每个类别的概率,得到情感分类结果。
图5为本申请实施例用户评论文本情感分析装置的结构示意图,如图5所示,本申请用户评论文本情感分析装置包括:获取单元201,用于获取用户评论文本;转换单元202,用于将用户评论文本转换为多个原始词向量;计算单元203,用于计算多个原始词向量中词向量的注意力权重;生成单元204,用于根据多个原始词向量、注意力权重,生成新词向量;确定单元205,用于确定注意力权重大于阈值的新词向量为关键词;分类单元206,用于使用C-GRU神经网络,根据关键词,对用户评论文本进行情感分类。
本申请中,用户评论文本情感分析装置实施例与用户评论文本情感分析方法实施例基本相似,相关之处请参考用户评论文本情感分析方法实施例的介绍。
本领域的技术人员可以清楚地了解到本发明实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是FPGA(Field-Programmable Gate Array,现场可编程门阵列)、IC(Integrated Circuit,集成电路)等。
本发明实施例的各处理单元和/或模块,可通过实现本发明实施例所述的功能的模拟电路而实现,也可以通过执行本发明实施例所述的功能的软件而实现。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述用户评论文本情感分析方法步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
图6为本申请实施例计算机设备的结构示意图,如图6所示,本申请的计算机设备例如为膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。计算机设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本申请计算机设备包括处理器401、存储器402、输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线405或者其他方式连接。存储器402上存储有计算机程序,该计算机程序可在处理器401上运行,而且处理器401执行程序时实现上述用户评论文本情感分析方法步骤。
输入装置403可接收输入的数字或字符信息,以及产生与数据处理计算机设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器、等离子体显示器和触摸屏。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上介绍仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用户评论文本情感分析方法,其特征在于,包括:
获取用户评论文本;
将所述用户评论文本转换为多个原始词向量;
计算所述多个原始词向量中词向量的注意力权重;
根据所述多个原始词向量、注意力权重,生成新词向量;
确定所述注意力权重大于阈值的新词向量为关键词;
使用C-GRU神经网络,根据所述关键词,对所述用户评论文本进行情感分类。
3.根据权利要求1或2所述用户评论文本情感分析方法,其特征在于,还包括:
预处理用户评论文本,所述预处理包括去除不需要和有缺失的数据、分词,去除标点。
4.根据权利要求1或2所述用户评论文本情感分析方法,其特征在于,所述将所述用户评论文本转换为多个原始词向量,包括:
采用Word2vec模型中的Skip-Gram模型将用户评论文本转化为K维向量实数值。
5.根据权利要求1或2所述用户评论文本情感分析方法,其特征在于,所述使用C-GRU神经网络,根据所述关键词,对所述用户评论文本进行情感分类,包括:
所述C-GRU神经网络主要关注所述关键词,对所述用户评论文本进行情感分类。
6.一种用户评论文本情感分析模型,其特征在于,包括:
输入层,用于采用Word2vec模型中的Skip-Gram模型将预处理后的用户评论文本转化为K维向量实数值;
注意力层,用于计算多个原始词向量中词向量的注意力权重;根据所述多个原始词向量、注意力权重,生成新词向量;确定所述注意力权重大于阈值的新词向量为关键词;
卷积层,用于对输入的区域序列向量Vi进行局部特征表示,Vi是由输入文本第i个位置开始连续k个词的词向量w表示组成,由式(1)表示:
Vi=[wi,wi+1,…,wi+k-1] (1)
将Vi通过相应的卷积层过滤器进行处理,产生多个不同的特征表示Ci,特征表示如式(2)所示:
Ci=ReLU(Vi·f+θ) (2)
其中,f表示滑动窗口大小为k的卷积核,θ为偏置项,ReLU为一种非线性的激活函数;
池化层,用于对特征向量进行最大值采样,提取到不同区域的局部依赖;
时序层,包括门控循环单元,用于对所述用户评论文本进行情感分类。
7.根据权利要求6所述用户评论文本情感分析模型,其特征在于,所述预处理包括:
去除所述用户评论文本中的标点,去除不需要和有缺失的数据、分词。
8.一种用户评论文本情感分析装置,其特征在于,包括:
获取单元,用于获取用户评论文本;
转换单元,用于将所述用户评论文本转换为多个原始词向量;
计算单元,用于计算所述多个原始词向量中词向量的注意力权重;
生成单元,用于根据所述多个原始词向量、注意力权重,生成新词向量;
确定单元,用于确定所述注意力权重大于阈值的新词向量为关键词;
分类单元,用于使用C-GRU神经网络,根据所述关键词,对所述用户评论文本进行情感分类。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现所述权利要求1-5中任一项所述方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现所述权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010529486.3A CN111708864A (zh) | 2020-06-11 | 2020-06-11 | 一种用户评论文本情感分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010529486.3A CN111708864A (zh) | 2020-06-11 | 2020-06-11 | 一种用户评论文本情感分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111708864A true CN111708864A (zh) | 2020-09-25 |
Family
ID=72540646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010529486.3A Pending CN111708864A (zh) | 2020-06-11 | 2020-06-11 | 一种用户评论文本情感分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111708864A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112598044A (zh) * | 2020-12-17 | 2021-04-02 | 中山大学 | 一种基于多通道图卷积的文本分类方法 |
CN112765313A (zh) * | 2020-12-31 | 2021-05-07 | 太原理工大学 | 一种基于原文和评论信息分析算法的虚假信息检测方法 |
CN115758211A (zh) * | 2022-11-10 | 2023-03-07 | 中国电信股份有限公司 | 文本信息分类方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
CN109271522A (zh) * | 2018-11-20 | 2019-01-25 | 深圳大学 | 基于深度混合模型迁移学习的评论情感分类方法及系统 |
CN109543180A (zh) * | 2018-11-08 | 2019-03-29 | 中山大学 | 一种基于注意力机制的文本情感分析方法 |
CN109597997A (zh) * | 2018-12-07 | 2019-04-09 | 上海宏原信息科技有限公司 | 基于评论实体、方面级情感分类方法和装置及其模型训练 |
CN111144448A (zh) * | 2019-12-09 | 2020-05-12 | 江南大学 | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 |
-
2020
- 2020-06-11 CN CN202010529486.3A patent/CN111708864A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
CN109543180A (zh) * | 2018-11-08 | 2019-03-29 | 中山大学 | 一种基于注意力机制的文本情感分析方法 |
CN109271522A (zh) * | 2018-11-20 | 2019-01-25 | 深圳大学 | 基于深度混合模型迁移学习的评论情感分类方法及系统 |
CN109597997A (zh) * | 2018-12-07 | 2019-04-09 | 上海宏原信息科技有限公司 | 基于评论实体、方面级情感分类方法和装置及其模型训练 |
CN111144448A (zh) * | 2019-12-09 | 2020-05-12 | 江南大学 | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 |
Non-Patent Citations (6)
Title |
---|
ZHIGANG XU 等: "Text sentiment analysis method based on attention word vector", 《2020 INTERNATIONAL CONFERENCE ON MODEM EDUCATION AND INFORMATION MANAGEMENT (ICMEIM)》 * |
ZHIYUAN ZHOU 等: "A C-GRU Neural Network for Rumors Detection", 《2018 5TH IEEE INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND INTELLIGENCE SYSTEMS(CCIS)》 * |
冀文光: "基于Attention-Based Bi-GRU模型的文本分类方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
杨东 等: "基于 Attention -based C-GRU 神经网络的文本分类", 《计算机与现代化》 * |
董铠: "基于卷积循环神经网络的商品评论情感分析算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
郭宝震 等: "采用词向量注意力机制的双路卷积神经网络句子分类模型", 《浙江大学学报(工学版)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112598044A (zh) * | 2020-12-17 | 2021-04-02 | 中山大学 | 一种基于多通道图卷积的文本分类方法 |
CN112598044B (zh) * | 2020-12-17 | 2024-04-02 | 中山大学 | 一种基于多通道图卷积的文本分类方法 |
CN112765313A (zh) * | 2020-12-31 | 2021-05-07 | 太原理工大学 | 一种基于原文和评论信息分析算法的虚假信息检测方法 |
CN115758211A (zh) * | 2022-11-10 | 2023-03-07 | 中国电信股份有限公司 | 文本信息分类方法、装置、电子设备和存储介质 |
CN115758211B (zh) * | 2022-11-10 | 2024-03-01 | 中国电信股份有限公司 | 文本信息分类方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Response selection with topic clues for retrieval-based chatbots | |
Arulmurugan et al. | RETRACTED ARTICLE: Classification of sentence level sentiment analysis using cloud machine learning techniques | |
CN112560479B (zh) | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 | |
CN106095845B (zh) | 文本分类方法和装置 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
JP7309798B2 (ja) | 対話意図の認識方法及び装置、電子機器並びに記憶媒体 | |
KR102565673B1 (ko) | 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체 | |
CN111708864A (zh) | 一种用户评论文本情感分析方法及装置 | |
CN111401033A (zh) | 事件抽取方法、事件抽取装置和电子设备 | |
Rizvi et al. | Optical character recognition system for Nastalique Urdu-like script languages using supervised learning | |
JP2021111420A (ja) | テキストエンティティの語義記述処理方法、装置及び機器 | |
KR20220029384A (ko) | 엔티티 링킹 방법, 장치, 전자 기기 및 기록 매체 | |
Choi et al. | Residual-based graph convolutional network for emotion recognition in conversation for smart Internet of Things | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
Peng et al. | Seq2Emoji: A hybrid sequence generation model for short text emoji prediction | |
Elfaik | Deep attentional bidirectional LSTM for Arabic sentiment analysis in Twitter | |
CN113407738B (zh) | 一种相似文本检索方法、装置、电子设备和存储介质 | |
CN111414755A (zh) | 一种基于细粒度情感字典的网络情绪分析方法 | |
WO2022253138A1 (zh) | 文本处理方法、装置和电子设备 | |
WO2023116572A1 (zh) | 一种词句生成方法及相关设备 | |
CN115130470B (zh) | 一种文本关键词的生成方法、装置、设备及介质 | |
CN112395873B (zh) | 对白角色标注模型的生成方法、装置及电子设备 | |
CN115169429A (zh) | 一种轻量化方面级文本情感分析方法 | |
CN111143562B (zh) | 一种资讯信息情感分析方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200925 |