CN107862343B - 基于规则和神经网络的商品评论属性级情感分类方法 - Google Patents
基于规则和神经网络的商品评论属性级情感分类方法 Download PDFInfo
- Publication number
- CN107862343B CN107862343B CN201711217412.0A CN201711217412A CN107862343B CN 107862343 B CN107862343 B CN 107862343B CN 201711217412 A CN201711217412 A CN 201711217412A CN 107862343 B CN107862343 B CN 107862343B
- Authority
- CN
- China
- Prior art keywords
- attribute
- comment
- word
- constructing
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于规则和神经网络的商品评论属性级情感分类方法,首先获取评论数据,对评论文本进行中文分词及停用词过滤;然后利用规则模板筛选出商品属性集,构造<属性,评论>样本集,对每一条评论的属性标注情感,构造<属性,评论,情感>训练集;再构建基于双边注意力的神经网络情感分类模型,使用训练集对模型进行训练;最后对测试数据进行中文分词及停用词过滤,筛选出商品属性集,构造<属性,评论>测试集,并使用情感分类模型进行情感分类。本发明能更好地利用评论中属性的上下文信息,极大地提高了预测属性情感类别的准确性。
Description
技术领域
本发明涉及人工智能领域,具体是涉及一种面向产品评论的属性级情感分析方法。
背景技术
在互联网快速发展的前提下,电子商务作为互联网的一个新兴领域,取得了长足的发展。越来越多的用户通过不同的电子商务网站进行网上商品购买,产生了海量的消费者购买评论。面对海量的购物评论,消费者不可能一一翻阅,商家也迫切希望对商品评价进行分析整理。面向商品评论的观点挖掘和情感分析技术,不仅是自然语言处理和情感分析领域的学术前沿问题和热点研究问题,也是电子商务购物平台等应用领域亟待解决的重要问题,具有不可估量的应用价值和社会意义。传统方法使用人工规则进行属性级情感的判断,需要的人力成本很高,情感判定的效率很低。近几年里,一些学者提出基于机器学习方法解决这个问题,比如逻辑回归模型、支持向量机模型、神经网络模型等,但是这些模型不能够充分表达属性词与上下文的语义情感关系。
发明内容
本发明的目的在于提供一种基于规则和神经网络模型的商品评论属性级情感分类方法。
实现本发明目的的技术解决方案为:一种基于规则和神经网络的商品评论属性级情感分类方法,其特征在于,包括以下步骤:
步骤1、获取评论数据,对评论文本进行中文分词及停用词过滤;
步骤2、利用规则模板筛选出商品属性集,构造<属性,评论>样本集;
步骤3、对每一条评论的属性标注情感,构造<属性,评论,情感>训练集;
步骤4、构建基于双边注意力的神经网络情感分类模型,使用训练集对模型进行训练;
步骤5、使用步骤1的方法对测试数据进行中文分词及停用词过滤,使用步骤2方法筛选出商品属性集,构造<属性,评论>测试集,并使用步骤4得到的情感分类模型,进行情感分类。
本发明与现有技术相比,其显著优点为:1)本发明通过规则筛选属性词,便于电商平台利用自身积累进行属性词集的扩增;2)本发明构建了基于双边注意力的神经网络模型,能更好地利用评论中属性的上下文信息,极大地提高了预测属性情感类别的准确性。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合附图和具体实施例进一步说明本发明方案。
一种基于规则和神经网络的商品评论属性级情感分类方法,其特征在于,包括以下步骤:
步骤1、获取评论数据,对评论文本进行中文分词及停用词过滤,具体为:
步骤1.1、将网页爬虫爬取的商品评论语料进行HTML解析,筛选出相关评论文本,得到评论文本集;
步骤1.2、使用NLPIR分词系统对商品评论文本进行中文分词;
步骤1.3、在已有的停用词表基础上,加入英文字符、数字、标点符号,构造出适合用于中文商品评论文本的停用词表,对中文分词后的词语进行停用词过滤。已有停用词表包括“哈工大停用词表”、“四川大学机器学习智能实验室停用词表”、“百度停用词表”。
步骤2、利用规则模板筛选出商品属性集,构造<属性,评论>样本集,具体为:
步骤2.1、使用NLPIR词性标注系统对预处理的商品评论文本进行词性标注,并统计所有名词的词频;
步骤2.2、根据词频阈值ε1和阈值ε2,其中,ε1<ε2,且都为正整数,把统计的名词划分为三类:词频大于ε2的为高频词,认为其为属性词;词频大于ε1小于ε2的为中频词,统计每个名词所在子句包含形容词的句子数,如果包含形容词的子句数过半则认为其为属性词;词频小于ε1的名词,认为其不是属性词,直接丢弃,通过以上方法,从评论集中获取到属性词集;
步骤2.3、根据属性词集和评论集,构造<属性,评论>样本集。
步骤3、对每一条评论的属性标注情感,构造<属性,评论,情感>训练集;
步骤4、构建基于双边注意力的神经网络情感分类模型,使用训练集对模型进行训练。构建基于双边注意力的神经网络情感分类模型,包括输入层、表示层和分类层三个部分,具体构建方法为:
步骤4.1、构建输入层:输入层包括属性词所在子句的左边子句、属性词所在子句和属性词所在子句的右边子句三部分,利用Word2Vec工具训练得到每个词的向量表示,将三部分子句中的词用词向量进行初始化;
步骤4.2、构建表示层:把输入的三部分分别送入到三个独立的LSTM中进行编码表示,分别得到三个子句对应的隐层向量表示和L、T和R分别为三个子句中词的个数,对于属性词所在子句,使用其隐层矩阵向量的均值作为其最终的向量表示,即:
对于上下文子句,利用rT来求得每个隐层向量的权重:
上下文子句最终向量表示分别为:
每个属性相关评论句子的向量表示为:r=[rL,rT,rR];
步骤4.3、构建分类层,使用Softmax函数对r进行分类,即:
p=softmax(W·r+b)
其中,p为情感类别的分类概率,W和b为权重参数;
步骤4.4、基于训练样本集,利用最小化损失函数进行模型训练,得到神经网络分类模型,模型的损失函数为:
其中,L为损失函数,pi为类别i的预测概率,yi为类别i的真实概率,C为情感类别标签的个数,λ为正则化参数,θ表示w、b和LSTM参数的集合。
步骤5、使用步骤1的方法对测试数据进行中文分词及停用词过滤,使用步骤2方法筛选出商品属性集,构造<属性,评论>测试集,并使用步骤4得到的情感分类模型,进行情感分类。
为了便于对方案的理解,以电脑相关评论为例,对本发明实现商品评论属性级情感分类做进一步说明。
1、首先获取电商平台评论数据,进行HTML解析,筛选出评论文本,分词后去除停用词。
2、根据规则模板筛选出属性词,如散热、风扇、屏幕、操作系统、售后等。
3、根据属性词对评论句子进行切分和标注属性相关句子的情感类别,比如,对于句子“经过测试发现,电脑操作系统有点用不习惯,但是电脑屏幕给打满分,推荐购买”其包含“操作系统”和“屏幕”两个属性词,所以可以产生两个样本:
A){经过测试发现}{电脑操作系统有点用不习惯}{但是电脑屏幕给打满分推荐购买},属性词为操作系统,情感类别为消极。
B){经过测试发现电脑操作系统有点用不习惯}{但是电脑屏幕给打满分}{推荐购买},属性词为屏幕,情感类别为积极。
4.在训练阶段,把<属性,评论,情感>样本送入模型进行训练,得到情感分类模型,用于测试时评断<属性,评论>的情感类别;在测试阶段,输入<属性,评论>得到此属性词相关的评价的情感类别。比如训练好情感类别分类模型后,输入<属性,评论>:
由上表可以看出,利用本发明的方法能很好地处理同一个句子中包含情感类别相反的属性评价的评论。
Claims (4)
1.一种基于规则和神经网络的商品评论属性级情感分类方法,其特征在于,包括以下步骤:
步骤1、获取评论数据,对评论文本进行中文分词及停用词过滤;
步骤2、利用规则模板筛选出商品属性集,构造<属性,评论>样本集;
步骤3、对每一条评论的属性标注情感,构造<属性,评论,情感>训练集;
步骤4、构建基于双边注意力的神经网络情感分类模型,使用训练集对模型进行训练;
步骤5、使用步骤1的方法对测试数据进行中文分词及停用词过滤,使用步骤2方法筛选出商品属性集,构造<属性,评论>测试集,并使用步骤4得到的情感分类模型,进行情感分类;
步骤4构建基于双边注意力的神经网络情感分类模型,包括输入层、表示层和分类层三个部分,具体构建方法为:
步骤4.1、构建输入层:输入层包括属性词所在子句的左边子句、属性词所在子句和属性词所在子句的右边子句三部分,利用Word2Vec工具训练得到每个词的向量表示,将三部分子句中的词用词向量进行初始化;
步骤4.2、构建表示层:把输入的三部分分别送入到三个独立的LSTM中进行编码表示,分别得到三个子句对应的隐层向量表示和L、T和R分别为三个子句中词的个数,对于属性词所在子句,使用其隐层矩阵向量的均值作为其最终的向量表示,即:
对于上下文子句,利用rT来求得每个隐层向量的权重:
上下文子句最终向量表示分别为:
每个属性相关评论句子的向量表示为:r=[rL,rT,rR];
步骤4.3、构建分类层,使用Softmax函数对r进行分类,即:
p=softmax(W·r+b)
其中,p为情感类别的分类概率,W和b为权重参数;
步骤4.4、基于训练样本集,利用最小化损失函数进行模型训练,得到神经网络分类模型,模型的损失函数为:
其中,L为损失函数,pi为类别i的预测概率,yi为类别i的真实概率,C为情感类别标签的个数,λ为正则化参数,θ表示w、b和LSTM参数的集合。
2.根据权利要求1所述的基于规则和神经网络的商品评论属性级情感分类方法,其特征在于,步骤1具体为:
步骤1.1、将网页爬虫爬取的商品评论语料进行HTML解析,筛选出相关评论文本,得到评论文本集;
步骤1.2、使用NLPIR分词系统对商品评论文本进行中文分词;
步骤1.3、在已有的停用词表基础上,加入英文字符、数字、标点符号,构造出适合用于中文商品评论文本的停用词表,对中文分词后的词语进行停用词过滤。
3.根据权利要求2所述的基于规则和神经网络的商品评论属性级情感分类方法,其特征在于,已有停用词表包括“哈工大停用词表”、“四川大学机器学习智能实验室停用词表”、“百度停用词表”。
4.根据权利要求1所述的基于规则和神经网络的商品评论属性级情感分类方法,其特征在于,步骤2具体为:
步骤2.1、使用NLPIR词性标注系统对预处理的商品评论文本进行词性标注,并统计所有名词的词频;
步骤2.2、根据词频阈值ε1和阈值ε2,其中,ε1<ε2,且都为正整数,把统计的名词划分为三类:词频大于ε2的为高频词,认为其为属性词;词频大于ε1小于ε2的为中频词,统计每个名词所在子句包含形容词的句子数,如果包含形容词的子句数过半则认为其为属性词;词频小于ε1的名词,认为其不是属性词,直接丢弃,通过以上方法,从评论集中获取到属性词集;
步骤2.3、根据属性词集和评论集,构造<属性,评论>样本集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711217412.0A CN107862343B (zh) | 2017-11-28 | 2017-11-28 | 基于规则和神经网络的商品评论属性级情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711217412.0A CN107862343B (zh) | 2017-11-28 | 2017-11-28 | 基于规则和神经网络的商品评论属性级情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107862343A CN107862343A (zh) | 2018-03-30 |
CN107862343B true CN107862343B (zh) | 2021-07-13 |
Family
ID=61703624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711217412.0A Active CN107862343B (zh) | 2017-11-28 | 2017-11-28 | 基于规则和神经网络的商品评论属性级情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107862343B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595717A (zh) * | 2018-05-18 | 2018-09-28 | 北京慧闻科技发展有限公司 | 用于文本分类的数据处理方法、数据处理装置和电子设备 |
CN108763384A (zh) * | 2018-05-18 | 2018-11-06 | 北京慧闻科技发展有限公司 | 用于文本分类的数据处理方法、数据处理装置和电子设备 |
CN108845986A (zh) * | 2018-05-30 | 2018-11-20 | 中兴通讯股份有限公司 | 一种情感分析方法、设备及系统、计算机可读存储介质 |
CN108804612B (zh) * | 2018-05-30 | 2021-11-02 | 武汉烽火普天信息技术有限公司 | 一种基于对偶神经网络模型的文本情感分类方法 |
CN110728131A (zh) * | 2018-06-29 | 2020-01-24 | 北京京东尚科信息技术有限公司 | 一种分析文本属性的方法和装置 |
CN110852111A (zh) * | 2018-08-03 | 2020-02-28 | 天津大学 | 能同时过滤无关评论和对相关评论进行情感分类的方法 |
CN109145112B (zh) * | 2018-08-06 | 2021-08-06 | 北京航空航天大学 | 一种基于全局信息注意力机制的商品评论分类方法 |
CN109284373A (zh) * | 2018-09-06 | 2019-01-29 | 合肥工业大学 | 基于文本挖掘驱动的产品升级策略的获取方法及装置 |
CN109299460B (zh) * | 2018-09-18 | 2022-07-12 | 北京三快在线科技有限公司 | 分析店铺的评价数据的方法、装置、电子设备及存储介质 |
CN109597891B (zh) * | 2018-11-26 | 2023-04-07 | 重庆邮电大学 | 基于双向长短时记忆神经网络的文本情感分析方法 |
CN109657248A (zh) * | 2018-12-24 | 2019-04-19 | 出门问问信息科技有限公司 | 一种评论分析方法、装置、设备及存储介质 |
CN109857863B (zh) * | 2019-01-04 | 2020-07-28 | 北京车慧科技有限公司 | 一种语句分类系统 |
CN111966888B (zh) * | 2019-05-20 | 2023-12-15 | 南京大学 | 融合外部数据的基于方面类别的可解释性推荐方法及系统 |
CN110555109A (zh) * | 2019-06-28 | 2019-12-10 | 西安理工大学 | 基于个人计算机电商评论的多粒度观点挖掘方法 |
CN112446201A (zh) * | 2019-08-12 | 2021-03-05 | 北京国双科技有限公司 | 文本的评论性质确定方法及装置 |
CN110765769B (zh) * | 2019-08-27 | 2023-05-02 | 电子科技大学 | 一种基于子句特征的实体属性依赖情感分析方法 |
CN110766439A (zh) * | 2019-08-30 | 2020-02-07 | 昆山市量子昆慈量子科技有限责任公司 | 一种酒店网络口碑评价方法、系统及电子设备 |
CN110750646B (zh) * | 2019-10-16 | 2022-12-06 | 乐山师范学院 | 一种旅店评论文本的属性描述提取方法 |
CN112948575B (zh) * | 2019-12-11 | 2023-09-26 | 京东科技控股股份有限公司 | 文本数据处理方法、装置和计算机可读存储介质 |
CN111159400B (zh) * | 2019-12-19 | 2023-09-26 | 苏州大学 | 一种产品评论情感分类方法和系统 |
CN111222332B (zh) * | 2020-01-06 | 2021-09-21 | 华南理工大学 | 一种结合注意力网络和用户情感的商品推荐方法 |
CN111310455B (zh) * | 2020-02-11 | 2022-09-20 | 安徽理工大学 | 一种面向网购评论的新情感词极性计算方法 |
CN113449100A (zh) * | 2020-03-26 | 2021-09-28 | 北京国双科技有限公司 | 文本的评论性质识别方法、机器学习模型训练方法及装置 |
CN111694960A (zh) * | 2020-06-03 | 2020-09-22 | 哈尔滨商业大学 | 基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型 |
CN112001165B (zh) * | 2020-06-05 | 2023-09-08 | 浙江工商大学 | 基于用户苛刻程度进行细粒度文本情感分析的方法 |
CN112069402B (zh) * | 2020-08-28 | 2021-04-20 | 山东省人工智能研究院 | 一种基于情感和图卷积神经网络的个性化评论推荐方法 |
CN113722487A (zh) * | 2021-08-31 | 2021-11-30 | 平安普惠企业管理有限公司 | 用户情感分析方法、装置、设备及存储介质 |
CN114782077A (zh) * | 2022-03-29 | 2022-07-22 | 北京沃东天骏信息技术有限公司 | 信息筛选方法、模型训练方法、装置、电子设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103235774A (zh) * | 2013-04-27 | 2013-08-07 | 杭州电子科技大学 | 一种科技项目申请书特征词提取方法 |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN105117428A (zh) * | 2015-08-04 | 2015-12-02 | 电子科技大学 | 一种基于词语对齐模型的web评论情感分析方法 |
CN101968788B (zh) * | 2009-07-27 | 2016-08-17 | 富士通株式会社 | 提取商品属性信息的方法和设备 |
CN106503153A (zh) * | 2016-10-21 | 2017-03-15 | 江苏理工学院 | 一种计算机文本分类体系、系统及其文本分类方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
-
2017
- 2017-11-28 CN CN201711217412.0A patent/CN107862343B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101968788B (zh) * | 2009-07-27 | 2016-08-17 | 富士通株式会社 | 提取商品属性信息的方法和设备 |
CN103235774A (zh) * | 2013-04-27 | 2013-08-07 | 杭州电子科技大学 | 一种科技项目申请书特征词提取方法 |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN105117428A (zh) * | 2015-08-04 | 2015-12-02 | 电子科技大学 | 一种基于词语对齐模型的web评论情感分析方法 |
CN106503153A (zh) * | 2016-10-21 | 2017-03-15 | 江苏理工学院 | 一种计算机文本分类体系、系统及其文本分类方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
Non-Patent Citations (1)
Title |
---|
Peng Zhou 等.Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification.《Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics》.2016,正文第207-211页. * |
Also Published As
Publication number | Publication date |
---|---|
CN107862343A (zh) | 2018-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107862343B (zh) | 基于规则和神经网络的商品评论属性级情感分类方法 | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
CN111666480A (zh) | 一种基于滚动式协同训练的虚假评论识别方法 | |
CN110598219A (zh) | 一种面向豆瓣网电影评论的情感分析方法 | |
Sarawgi et al. | Opinion mining: aspect level sentiment analysis using SentiWordNet and Amazon web services | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
Haque et al. | Opinion mining from bangla and phonetic bangla reviews using vectorization methods | |
Das et al. | Bemod: Development of bengali emotion dataset for classifying expressions of emotion in texts | |
Rani et al. | Study and comparision of vectorization techniques used in text classification | |
Fasha et al. | Opinion mining using sentiment analysis: a case study of readers’ response on long Litt Woon’s the way through the woods in goodreads | |
Fouadi et al. | Applications of deep learning in arabic sentiment analysis: Research perspective | |
Gupta et al. | A vocabulary-based framework for sentiment analysis | |
Melba Rosalind et al. | Predicting students’ satisfaction towards online courses using aspect-based sentiment analysis | |
Chumwatana | COMMENT ANALYSIS FOR PRODUCT AND SERVICE SATISFACTION FROM THAI CUSTOMERS'REVIEW IN SOCIAL NETWORK | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
Quazi et al. | Twitter sentiment analysis using machine learning | |
Chavan et al. | Machine learning applied in emotion classification: a survey on dataset, techniques, and trends for text based documents | |
Kumar et al. | Deep learning-based emotion classification of Hindi text from social media | |
Sakode et al. | Sentiment analysis using text and Emoji's | |
Talpur et al. | Words segmentation-based scheme for implicit aspect identification for sentiments analysis in English text | |
Li et al. | Prediction of Quality of Experience (QoE) of Cloud-Gaming Through an Approach to Extracting the Indicators from User Generated Content (UGC) | |
Nalini et al. | Review on Sentiment Analysis Using Supervised Machine Learning Techniques | |
Ren et al. | Sentiment Classification of Chinese Commodity-Comment Based on EMCCNN Model | |
Romyen et al. | Opinion Mining using TRC Techniques. | |
Xia et al. | Social Media Text Sentiment Analysis Method Based on Comment Information Mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |