CN111694960A - 基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型 - Google Patents
基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型 Download PDFInfo
- Publication number
- CN111694960A CN111694960A CN202010521738.8A CN202010521738A CN111694960A CN 111694960 A CN111694960 A CN 111694960A CN 202010521738 A CN202010521738 A CN 202010521738A CN 111694960 A CN111694960 A CN 111694960A
- Authority
- CN
- China
- Prior art keywords
- speech
- neural network
- convolutional neural
- viewpoint
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 44
- 230000008451 emotion Effects 0.000 title claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 238000009472 formulation Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型,包括以下步骤;步骤一:利用词性、依存句法分析和语义依存分析制定规则进行观点特征提取;步骤二:在词向量的表示基础上采用向量拼接的方法引入词性特征和观点特征;步骤三:将词向量与扩展特征向量作为卷积神经网络的两个输入通道进行情感分析。本发明以解决评论与其评分不相符问题,进而帮助商家提高服务质量、升级产品性能。
Description
技术领域
本发明涉及电商评论技术领域,特别涉及基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型。
背景技术
随着互联网的快速普及,越来越多的产业由线下转为线上,其中电商行业更是以逐年递增的用户量和交易量迅猛发展。由于电子商务的线上销售特点,用户通常文本评论的方式对其购买商品的体验进行反馈,其内容不止为商家提取了建议,也为其他顾客提供了参考,具有极高的商业价值和社会价值,但此类数据具有篇幅小、规范性弱等特点,如何从这类文本中获得评价信息中蕴含的情感倾向,进而帮助商家提高服务质量、升级产品性能,成为了情感分析技术的研究热点。
目前的情感分析技术,包括以下几种:
情感词典的方法:简单地把文本看作是词语或者短语的集合,仅利用词典判断词语的情感极性,而不考虑文本中上下文的关系。
机器学习的方法:通过有监督的方式训练一个模型,根据该模型进行文本的情感分析。其中深度神经网络能够在更抽象的层面上描述原始数据的特征情况,而不过度依赖特征的选取。
发明内容
为了解决以上技术问题,本发明的目的在于提供基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型,以解决评论与其评分不相符问题,进而帮助商家提高服务质量、升级产品性能。
为了实现上述目的,本发明采用的技术方案是:
基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型,包括以下步骤;
步骤一:
利用词性、依存句法分析和语义依存分析制定规则进行观点特征提取;
步骤二:
在词向量的表示基础上采用向量拼接的方法引入词性特征和观点特征;
步骤三:
将词向量与扩展特征向量作为卷积神经网络的两个输入通道进行情感分析。
所述的步骤一中观点特征提取基于词性融合依存句法分析和语义依存分析制定规则进行观点特征的提取。
所述的步骤二中的观点特征包括描述及词性分析,分别为评论对象,观点词、程度词和情感词。
所述的步骤一中规则制定依据LTP。
所述的步骤三中卷积神经网络具体为:
所述的步骤三中的卷积神经网络包括输入层、卷积层、池化层和全连接层以及输出层;首先从输入层传入数据,其次通过卷积层进行特征提取,然后利用池化层对特征进行筛选,降低特征维度,最后在全连接层进行特征组合,再通过输出层输出分类结果。
所述的输入层具体为:
本模型采用双通道的输入策略,其中一通道为原始的文本词向量,另一通道为融入词性特征和观点特征的扩展向量W:
所述的卷积层具体为:
在文本卷积神经网络中,通常选取不同h大小的卷积核在文本矩阵相邻的词上进行滑动以获取丰富的局部特征,本模型使用多卷积核的方式进行卷积操作,所选择的3组卷积核大小分别为2、3、4;
所述的池化层具体为:
本模型采用最大池化的方法提取值最大的特征代替整个局部特征;
所述的输出层具体为:
本模型采用softmax分类器进行文本分类。
本发明的有益效果:
本发明模型的关键点在于观点特征提取的规则制定和扩展特征的融合。由于本模型的观点特征区别于观点挖掘,不需要太过精准,而通过依存句法关系和语义依存关系识别观点特征,方便又简单。传统词向量引入词性特征和观点特征,增强文本中的情感信息表示。
本发明提出了一种基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型。该模型同时考虑了商品评论文本的局部特征信息和上下文信息特征,增加了扩展特征向量的双通道输入来减少不精准扩展特征向量带来的噪音,使此模型对商品评论的情感分析性能有明显提升。
附图说明
图1为本发明整体网络示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示:本模型由两部分组成:观点特征提取、卷积神经网络模型构建。
观点特征提取
基于词性融合依存句法分析和语义依存分析制定规则进行观点特征的提取
观点特征描述及词性分析
观点特征是从观点挖掘的角度出发提出的一种特征,其中包括评论对象,观点词、程度词和情感词。如评论“酒店的房间很大,性价比很高,但服务一般”中,评价对象“房间”和“性价比”为名词词性,指的是商品的组成,而评价对象“服务”为动词词性,一般用来描述商品的属性;情感词指的是可以直接表达情感倾向的形容词,如“大”和“高”等;程度词指的是能表达情感强度的副词,如“很”;而观点词则指的是具有情感信息的词语,多数为动词、副词等词性,如评论“网络不能用”中的“能”和“用”。
规则制定
由于评论的规范性弱,单使用词性难以提取出准确的观点特征,而依存句法和语义依存关系可以反映句子中词语间的句法和语义修饰关系,LTP共定义了24种依存关系和3类语义依存关系,能够很好地分析出一个句子的观点特征。因此,在词性的基础上加入依存句法和语义依存关系的约束来识别句子中的观点特征,特征提取规则如表1所示。
表1 基于依存句法分析的观点特征提取规则
观点特征提取算法的主要处理过程如下:
1)输入分句;
2)通过依存句法分析和语义依存分析分别得到核心词,判断两次是否相同,如不同则选择语义依存分析得结果;
3)判断核心词的词性,按照表1的规则进行观点特征提取;
4)按照表1的匹配规则进行核心词后移,并在核心词词性为形容词或动词时,判断是否有匹配的否定标记或程度标记。如核心词词性为v,匹配规则为VOB→n,则将核心词进行后移,现核心词为该名词。
5)判断已确定的特征是否有并列关系COO,如存在,则将其作为核心词,转到步骤3。
6)循环至结束。
卷积神经网络模型构建
输入层:
采用双通道的输入策略,其中一通道为原始的文本词向量,另一通道为融入词性特征和观点特征的扩展向量W。
卷积层:
卷积层用于特征提取,在文本卷积神经网络中,通常选取不同h大小的卷积核在文本矩阵相邻的词上进行滑动以获取丰富的局部特征。本模型使用多卷积核的方式进行卷积操作,所选择的3组卷积核大小分别为2、3、4。
池化层:
池化层作用主要是进行特征筛选,降低特征维度。本模型采用最大池化的方法提取值最大的特征代替整个局部特征。
输出层:
首先将池化层得到的特征在全连接层进行组合,再通过softmax分类器进行文本分类,其中模型通过二元交叉熵优化模型参数。
实施例:
酒店评论示例:这个价位住到这样的房间对我来说是惊喜,订的商务大床房很宽敞舒适,房间里的书房很不错。
1.特征提取
本模型的文本特征主要有词性特征和观点特征。
词性特征通过ltp的词性标注功能进行提取,其示例的词性特征结果为:这个/r价位/n 住/v 到/v 这样/r 的/u 房间/n 对/p 我/r 来说/u 是/v 惊喜/a,/wp订/v 的/u商务/n 大床房/n 很/d 夸敞/a 舒适/a,/wp 房间/n 里/nd 的/u 书房/n 很/d 不错/a。/wp
观点特征通过依存句法分析和语义依存分析结果制定的规则进行提取,其示例的观点特征结果为:这个-其他 价位-评价对象 住-观点词 到-其他 这样-其他 的-其他 房间-其他 对-其他 我-其他 来说-其他 是-观点词 惊喜-情感词订-其他 的-其他 商务-其他 大床房-评价对象 很-程度词 夸敞-情感词 舒适-情感词 房间-其他 里-其他 的-其他 书房-评价对象 很-程度词 不错-情感词
2向量训练
本模型采用Word2vec词向量工具的Skip-gram模型进行词向量训练。假设一段评论w由n个词语组成,形式为W={X1、X2、X3......Xn},其词向量矩阵为WW,词性特征向量矩阵为WP,观点特征向量矩阵为WD,最终的评论W的文本向量表示为其中符号是向量拼接操作。
3模型训练
将大量带标记的语料库进行模型训练,将需要情感分类的数据集通过训练好的模型进行处理,最后得到示例的情感倾向为正向。
Claims (9)
1.基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型,其特征在于,包括以下步骤;
步骤一:
利用词性、依存句法分析和语义依存分析制定规则进行观点特征提取;
步骤二:
在词向量的表示基础上采用向量拼接的方法引入词性特征和观点特征;
步骤三:
将词向量与扩展特征向量作为卷积神经网络的两个输入通道进行情感分析。
2.根据权利要求1所述的基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型,其特征在于,所述的步骤一中观点特征提取基于词性融合依存句法分析和语义依存分析制定规则进行观点特征的提取。
3.根据权利要求1所述的基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型,其特征在于,所述的步骤二中的观点特征包括描述及词性分析,分别为评论对象,观点词、程度词和情感词。
4.根据权利要求1所述的基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型,其特征在于,所述的步骤一中规则制定依据LTP。
5.根据权利要求1所述的基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型,其特征在于,所述的步骤三中的卷积神经网络包括输入层、卷积层、池化层和全连接层以及输出层;首先从输入层传入数据,其次通过卷积层进行特征提取,然后利用池化层对特征进行筛选,降低特征维度,最后在全连接层进行特征组合,再通过输出层输出分类结果。
6.根据权利要求5所述的基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型,其特征在于,所述的输入层具体为:
本模型采用双通道的输入策略,其中一通道为原始的文本词向量,另一通道为融入词性特征和观点特征的扩展向量W。
7.根据权利要求5所述的基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型,其特征在于,所述的卷积层具体为:
在文本卷积神经网络中,通常选取不同h大小的卷积核在文本矩阵相邻的词上进行滑动以获取丰富的局部特征,本模型使用多卷积核的方式进行卷积操作,所选择的3组卷积核大小分别为2、3、4。
8.根据权利要求5所述的基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型,其特征在于,所述的池化层具体为:
本模型采用最大池化的方法提取值最大的特征代替整个局部特征。
9.根据权利要求5所述的基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型,其特征在于,所述的输出层具体为:本模型采用softmax分类器进行文本分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010521738.8A CN111694960A (zh) | 2020-06-03 | 2020-06-03 | 基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010521738.8A CN111694960A (zh) | 2020-06-03 | 2020-06-03 | 基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111694960A true CN111694960A (zh) | 2020-09-22 |
Family
ID=72480038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010521738.8A Pending CN111694960A (zh) | 2020-06-03 | 2020-06-03 | 基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111694960A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051910A (zh) * | 2021-03-19 | 2021-06-29 | 上海森宇文化传媒股份有限公司 | 一种用于预测人物角色情绪的方法和装置 |
CN114064906A (zh) * | 2022-01-17 | 2022-02-18 | 深圳佑驾创新科技有限公司 | 情感分类网络训练方法以及情感分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862343A (zh) * | 2017-11-28 | 2018-03-30 | 南京理工大学 | 基于规则和神经网络的商品评论属性级情感分类方法 |
CN108108433A (zh) * | 2017-12-19 | 2018-06-01 | 杭州电子科技大学 | 一种基于规则和数据网络融合的情感分析方法 |
CN110362819A (zh) * | 2019-06-14 | 2019-10-22 | 中电万维信息技术有限责任公司 | 基于卷积神经网络的文本情感分析方法 |
-
2020
- 2020-06-03 CN CN202010521738.8A patent/CN111694960A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862343A (zh) * | 2017-11-28 | 2018-03-30 | 南京理工大学 | 基于规则和神经网络的商品评论属性级情感分类方法 |
CN108108433A (zh) * | 2017-12-19 | 2018-06-01 | 杭州电子科技大学 | 一种基于规则和数据网络融合的情感分析方法 |
CN110362819A (zh) * | 2019-06-14 | 2019-10-22 | 中电万维信息技术有限责任公司 | 基于卷积神经网络的文本情感分析方法 |
Non-Patent Citations (3)
Title |
---|
何鸿业 等: "《结合词性特征与卷积神经网络的文本情感分析》" * |
李逍: "《产品评论的方面级观点挖掘技术研究》" * |
江腾蛟 等: "《基于语义分析的评价对象情感词对抽取》" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051910A (zh) * | 2021-03-19 | 2021-06-29 | 上海森宇文化传媒股份有限公司 | 一种用于预测人物角色情绪的方法和装置 |
CN114064906A (zh) * | 2022-01-17 | 2022-02-18 | 深圳佑驾创新科技有限公司 | 情感分类网络训练方法以及情感分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
Perone et al. | Evaluation of sentence embeddings in downstream and linguistic probing tasks | |
CN111767741B (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
CN110175325B (zh) | 基于词向量和句法特征的评论分析方法及可视化交互界面 | |
CN109977413A (zh) | 一种基于改进cnn-lda的情感分析方法 | |
Wang et al. | Mapping customer needs to design parameters in the front end of product design by applying deep learning | |
CN108874937B (zh) | 一种基于词性结合和特征选择的情感分类方法 | |
CN108363725B (zh) | 一种用户评论观点提取和观点标签生成的方法 | |
CN107247702A (zh) | 一种文本情感分析处理方法和系统 | |
CN108256968B (zh) | 一种电商平台商品专家评论生成方法 | |
CN107818084B (zh) | 一种融合点评配图的情感分析方法 | |
Cheng et al. | Aspect-based sentiment analysis with component focusing multi-head co-attention networks | |
CN106202584A (zh) | 一种基于标准词典和语义规则的微博情感分析方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
Gosai et al. | A review on a emotion detection and recognization from text using natural language processing | |
CN110765769A (zh) | 一种基于子句特征的实体属性依赖情感分析方法 | |
CN111694927A (zh) | 一种基于改进词移距离算法的文档自动评阅方法 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN111694960A (zh) | 基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型 | |
CN115017320A (zh) | 结合词袋模型和深度学习模型的电商文本聚类方法及系统 | |
Kotelnikova et al. | Lexicon-based methods and BERT model for sentiment analysis of Russian text corpora | |
Samih et al. | Enhanced sentiment analysis based on improved word embeddings and XGboost. | |
CN110569495A (zh) | 一种基于用户评论的情感倾向分类方法、装置及存储介质 | |
CN113673239A (zh) | 一种基于情感词典加权的酒店评论情感极性分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200922 |
|
RJ01 | Rejection of invention patent application after publication |