CN109255027A - 一种电商评论情感分析降噪的方法和装置 - Google Patents

一种电商评论情感分析降噪的方法和装置 Download PDF

Info

Publication number
CN109255027A
CN109255027A CN201810981948.8A CN201810981948A CN109255027A CN 109255027 A CN109255027 A CN 109255027A CN 201810981948 A CN201810981948 A CN 201810981948A CN 109255027 A CN109255027 A CN 109255027A
Authority
CN
China
Prior art keywords
comment
label
comments
module
sentiment analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810981948.8A
Other languages
English (en)
Other versions
CN109255027B (zh
Inventor
李平章
王航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bao Zun Agel Ecommerce Ltd
Original Assignee
Shanghai Bao Zun Agel Ecommerce Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bao Zun Agel Ecommerce Ltd filed Critical Shanghai Bao Zun Agel Ecommerce Ltd
Priority to CN201810981948.8A priority Critical patent/CN109255027B/zh
Publication of CN109255027A publication Critical patent/CN109255027A/zh
Application granted granted Critical
Publication of CN109255027B publication Critical patent/CN109255027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种电商评论情感分析降噪方法和装置,所述方法电商评论情感分析降噪方法包括以下步骤:步骤S1、预打标模块的构建:步骤S2、人工标注模块的构建:步骤S3、深度神经网络模型训练模块的构建:步骤S4、深度神经网络模型标注模块的构建:步骤S5、降噪模块的构建:步骤S6、情感分析模块的构建。其优点表现在:能够帮助商家发现并修正恶意评论,灌水,反复强调,夸大问题的评论,消除或者降低这些噪声带来的影响,让情感分析结果更准确。

Description

一种电商评论情感分析降噪的方法和装置
技术领域
本发明涉及自然语言处理技术领域,具体地说,是一种电商评论情感分析降噪的方法和装置。
背景技术
情感分析是通过文本所表达的含义和情感信息将文本分为褒扬或贬义的两种或多种类型。目的是为了找出说话者在某些话题上或者针对某个文本两极的观点的态度,这个态度表达了说话者的情感状态。在电商领域,用户购买商品后的评论直接表达了对商品的情感态度,对于帮助商家改善产品,提高用户满意度等有极大帮助。
目前已有很多对于情感分析的解决方案,主要通过情感词,否定词和程度副词,领域词典来构建模型,并通过词性,语法成分分词后生成特征向量,通过模型训练得到情感倾向。该方案遇到的问题是一旦用户恶意评论,灌水,反复强调,夸大问题等情况会放大结果或得到错误的结果,准确率不能保证,不能帮助商家有效鉴别,关注了不必要的问题,最后可能得到错误的决策方向。
中国专利文献CN201310036034.1,申请日20130412,专利名称为:针对产品评论信息的细粒度情感分析系统及方法,公开了针对产品评论信息的细粒度情感分析系统及方法,该系统包括:用户接口,产品评论信息训练样本数据库,情感词典等相关词典加载模块,文本预处理模块,特征抽取模块,特征抽取模块,情感分析模型训练模块,情感倾向性判断模块,反馈模块。
上述专利文献的针对产品评论信息的细粒度情感分析系统及方法,用户可以通过该系统存储和管理各种已标注的产品评论信息训练样本,并对之进行分句、分词、词性标注和句法分析等处理。用户还可以添加自定义情感词典对处理好的本文信息进行特征抽取和向量化,训练情感分析模型,利用情感分析模型对向量化的文本信息进行情感倾向性判断。系统将情感分析结果反馈给用户,支持用户对分析结果进行修正和保存。但是,关于一种帮助商家发现并修正恶意评论,灌水,反复强调,夸大问题的评论,消除或者降低这些噪声带来的影响,让情感分析结果更准确的技术方案则未进行相应的公开。
综上所述,需要一种帮助商家发现并修正恶意评论,灌水,反复强调,夸大问题的评论,消除或者降低这些噪声带来的影响,让情感分析结果更准确的电商评论情感分析降噪的方法和装置。而关于这种商评论情感分析降噪的方法和装置目前还未见报道。
发明内容
本发明的目的是针对现有技术中的不足,提供一种帮助商家发现并修正恶意评论,灌水,反复强调,夸大问题的评论,消除或者降低这些噪声带来的影响,让情感分析结果更准确的电商评论情感分析降噪的方法。
本发明的再一目的是:提供一种电商评论情感分析降噪装置。
为实现上述目的,本发明采取的技术方案是:
一种电商评论情感分析降噪方法,所述方法电商评论情感分析降噪方法包括以下步骤:
步骤S1、预打标模块的构建:
步骤S2、人工标注模块的构建:
步骤S3、深度神经网络模型训练模块的构建:
步骤S4、深度神经网络模型标注模块的构建:
步骤S5、降噪模块的构建:
步骤S6、情感分析模块的构建。
作为一种优选的技术方案,步骤S1具体包括以下步骤:
步骤S11、建立情感词库标签,将情感词匹配到情感标签,增加“无效标签”对应词汇,将标签导出到文本;
步骤S12、批量读取天猫评论数据,逐句将评论数据分词,根据情感词库关键字匹配分词结果,匹配到的结果按标签进行机器标注,一句评论可有多个标签,按行生成文本;
步骤S2具体包括以下步骤:
S21、将步骤S11和步骤S12的文本导入到人工标注平台;
S22、标注平台可展现当前文本打标结果,人工进行校验,如标签没问题,点击保存通过,标签错误可删除,缺少标签可添加,保存;
S23、将标注完的结果导出文本,结果类似S12,是人工校验后的结果。
步骤S3具体包括以下步骤:
S31、将S23的数据使用卷积神经网络进行训练,使用训练好的词向量,将分词结果转换为词向量;
S32、将转换后的词向量,使用2或3或4或5四种过滤器,分别做卷积与最大池化;
S33、定义损失函数,做全连接层进行softmax回归输出多分类概率;
S34、使用Adam优化算法训练,保存模型;
步骤S4具体包括以下步骤:
S41、将评论数据分句,每个子句做为输入文本;
S42、读取训练模型,将子句文本转化为标签分类概率,取大于0.5概率的标签;
S43、将子句组合成原句,并保存子句标签;
步骤S5具体包括以下步骤:
步骤S51、将同一句子中多个重复标签去重,具体方法为,同一评论由多个子句组成,标签为每个子句的标签汇总,当含有多个同样的标签时,只取一个;
步骤S52、去掉包含“无效标签”的句子的所有标签,具体方法为,同一评论由多个子句组成,标签为每个子句的标签汇总,当这些标签中含有“无效标签”时,删除该评论所有标签;
步骤S53、一条评论含有一个或多个标签,按照标签累计值计算情感值之和,根据情感值计算好中差评,大于0为好评,等于0为中评,小于0为差评;
步骤S54、统计所有用户评论数大于1的评论,计算用户的差评率,做聚类分析,去除差评率高于阈值的用户数据;
步骤S55、按同品牌,用户差评数统计,循环判断差评数用户占比,当某品牌差评数大于4的用户占比低于阈值百分之一时,则去掉该差评数的用户的评论数据,结束循环,且阈值可调整;
S56、按每条评论的情感值的绝对值进行均值统计,当均值大于3的用户占比小于阈值百分之一时,将高于该均值的用户均值设定为3,结束循环,且阈值可调整;
步骤S6具体包括以下步骤:
S61、按商品做情感统计;
S62、按品牌做情感统计。
作为一种优选的技术方案,所述步骤S11中,将情感词匹配成情感标签,情感词与情感标签的关系为为多对一,增加“无效标签”对应灌水评论。
作为一种优选的技术方案,所述步骤S51中,通过标签去重,设计了一个方法,将同一评论分成子句打标签,再将每个子句的标签汇总,当含有多个同样的标签时,只取一个。
作为一种优选的技术方案,所述步骤S52中,去掉包含“无效标签”的句子的标签,设计了鉴别灌水的方法,无论评论中包含了多少个正常的情感,一旦评论中包含有“无效标签”,其他的情感标签都无效,去掉所有标签。
作为一种优选的技术方案,所述步骤S53中,设计了统计情感指数的两个方式,标签累计值为该评论的情感值,并按正中负定义好评中评差评。
作为一种优选的技术方案,所述步骤S54中,统计评论数大于1的用户,差评率的计算公式为差评数/总评论数,并删除差评率高的用户数据的方法。
作为一种优选的技术方案,所述步骤S55中,设计了寻找阈值的方法,从差评数为1开始循环,后面依次循环,大于该差评数的用户小于阈值百分之一时,删除大于该值的所有用户的数据。
作为一种优选的技术方案,所述步骤S56中,设计了寻找阈值的方法,使用用户情感值绝对值进行均值统计,从均值为1开始循环,后面依次循环,大于该均值的用户小于阈值百分之一时,删除大于该均值的所有用户的数据。
为实现上述第二个目的,本发明采取的技术方案是:
一种电商评论情感分析装置,所述的情感分析装置包括预打标模块、人工标注模块、神经网络训练模块、算法标注模块、降噪模块、情感分析模块;
所述的预打标模块根据领域词典建立标签体系;
所述的人工标注模块用于将预打标模块中的文本导入到人工标注平台;
所述的神经网络训练模块使用卷积神经网络做多分类,分类结果做标签去重;
所述的算法标注模块中增加一个“无效标签”对应灌水评论,找到共性;
所述的降噪模块根据用户每条评论情感累积值的正中负评做聚类分析,发现部分用户购买商品整体差评率较高的孤类,并将他们从结果中排除掉;
所述的情感分析模块根据用户情感绝对值的平均值做聚类,可以得到部分用户情感绝对值偏高,对他们的情感值进行降权处理,使他们的情感绝对值的平均值映射到大多数人的范围内。
本发明优点在于:
1、能够帮助商家发现并修正恶意评论,灌水,反复强调,夸大问题的评论,消除或者降低这些噪声带来的影响,让情感分析结果更准确。
2、去除了重复情感评论,使评论结果更合理。
2.去除了灌水评论,使商品优缺点更真实。
3.去除了恶意评论,使情感分析聚焦于大众情感。
4.对用户情感调整权重,修正少数用户情感丰富的问题。以上要求为商家在现实中遇到的问题,采用本发明的方法处理,帮助商家了解用户反馈的产品特性,更有效率的改善产品,以及有针对性的设计新产品。
附图说明
附图1是本发明的一种电商评论情感分析降噪的方法的流程示意图。
附图2本发明的情感分析装置的结构框图。
附图3是降噪模块的流程示意图。
具体实施方式
下面结合附图对本发明提供的具体实施方式作详细说明。
请参照图1,图1是本发明的一种电商评论情感分析降噪的方法的流程示意图。一种电商评论情感分析降噪的方法,所述方法包括以下步骤:
S1、预打标模块的构建:
S11、建立情感词库标签,将情感词匹配到情感标签,增加【无效标签】对应词汇复制、粘贴、淘气值等,将标签导出到文本。
S12、批量读取天猫评论数据,逐句将评论数据分词,根据情感词库关键字匹配分词结果,匹配到的结果按标签进行机器标注。一句评论可有多个标签,按行生成文本。
S2、人工标注模块的构建:
S21、将S11和S12的文本导入到人工标注平台。
S22、标注平台可展现当前文本打标结果,人工进行校验,如标签没问题,点击保存通过。标签错误可删除,缺少标签可添加,保存。
S23、将标注完的结果导出文本,结果类似S12,是人工校验后的结果。
S3、深度神经网络模型训练模块的构建:
S31、将S23的数据使用卷积神经网络进行训练,使用训练好的词向量,将分词结果转换为词向量。
S32、将转换后的词向量,使用2,3,4,5四种过滤器,分别做卷积与最大池化。
S33、定义损失函数,做全连接层进行softmax回归输出多分类概率。
S34、使用Adam优化算法训练,保存模型。
S4、深度神经网络模型标注模块的构建:
S41、将评论数据分句,每个子句做为输入文本。
S42、读取训练模型,将子句文本转化为标签分类概率,取大于0.5概率的标签。
S43、将子句组合成原句,并保存子句标签。
S5、降噪模块的构建:
S51、将同一句子中多个重复标签去重。具体方法为,同一评论由多个子句组成,标签为每个子句的标签汇总,当含有多个同样的标签时,只取一个。
S52、去掉包含【无效标签】的句子的所有标签。具体方法为,同一评论由多个子句组成,标签为每个子句的标签汇总,当这些标签中含有【无效标签】时,删除该评论所有标签。
S53、一条评论含有一个或多个标签,按照标签累计值计算情感值之和,例如:8,5,0,-3,-1等。根据情感值计算好中差评,大于0为好评,等于0为中评,小于0为差评。
S54、统计所有用户评论数大于1的评论,计算用户的差评率,(例如A用户有5条评论,其中2条为小于0的差评,差评率为40%),做聚类分析,去除差评率高于阈值的用户数据。
S55、按同品牌,用户差评数统计,循环判断差评数用户占比,例如某品牌差评数大于4的用户占比低于阈值百分之一时,则去掉该差评数的用户的评论数据,结束循环。(阈值可调整)
S56、按每条评论的情感值的绝对值进行均值统计,循环判断均值1,2,3等,例如当均值大于3的用户占比小于阈值百分之一时,将高于该均值的用户均值设定为3,结束循环。(阈值可调整)
S6、情感分析模块的构建:
S61、按商品做情感统计。
S62、按品牌做情感统计。
作为一种优选的方案,所述步骤S11中,将情感词匹配成情感标签,情感词与情感标签的关系为为多对一。增加【无效标签】对应灌水评论。
作为一种优选的方案,所述步骤S51中,通过标签去重。设计了一个方法,将同一评论分成子句打标签,再将每个子句的标签汇总,当含有多个同样的标签时,只取一个。
作为一种优选的方案,所述步骤S52中,去掉包含【无效标签】的句子的标签。设计了鉴别灌水的方法,无论评论中包含了多少个正常的情感,一旦评论中包含有【无效标签】,其他的情感标签都无效,去掉所有标签。
作为一种优选的方案,所述步骤S53中,设计了统计情感指数的两个方式。标签累计值为该评论的情感值,并按正中负定义好评中评差评。
作为一种优选的方案,所述步骤S54中,统计评论数大于1的用户,差评率的计算公式为差评数/总评论数。并删除差评率高的用户数据的方法。
作为一种优选的方案,所述步骤S55中,设计了寻找阈值的方法,从差评数为1开始循环,后面为2,3等,大于该差评数的用户小于阈值百分之一时,删除大于该值的所有用户的数据。
作为一种优选的方案,所述步骤S56中,设计了寻找阈值的方法,使用用户情感值绝对值进行均值统计,从均值为1开始循环,后面为2,3等,大于该均值的用户小于阈值百分之一时,删除大于该均值的所有用户的数据。
请参照图2,图2本发明的情感分析装置的结构框图。
所述的情感分析装置包括预打标模块、人工标注模块、神经网络训练模块、算法标注模块、降噪模块、情感分析模块;
所述的预打标模块根据领域词典建立标签体系;
所述的人工标注模块用于将预打标模块中的文本导入到人工标注平台;
所述的神经网络训练模块使用卷积神经网络做多分类,分类结果做标签去重;
所述的算法标注模块中增加一个“无效标签”对应灌水评论,找到共性;
所述的降噪模块根据用户每条评论情感累积值的正中负评做聚类分析,发现部分用户购买商品整体差评率较高的孤类,并将他们从结果中排除掉;
所述的情感分析模块根据用户情感绝对值的平均值做聚类,可以得到部分用户情感绝对值偏高,对他们的情感值进行降权处理,使他们的情感绝对值的平均值映射到大多数人的范围内。
请参照图3,图3是降噪模块的流程示意图。所述的降噪模块的处理流程包括以下步骤:
步骤S1、标注结果;
步骤S2、去重复标签;
步骤S3、去无效标签;
步骤S4、聚类去孤类;
步骤S5、聚类将权。
需要说明的是:本发明的实现电商评论情感分析降噪的主体流程如下
1.根据领域词典建立标签体系,建立标签的目的是去重,领域词典的同义词,比如漂亮,美丽,用户同一评论说多次最后根据标签去重了只会算一次,标准化情感表达。
2.进行算法标注并人工校验,增加一个【无效标签】对应灌水评论,找到共性,比如涉及复制粘贴,淘气值等。
3.使用卷积神经网络做多分类,分类结果做标签去重,解决问题1去重问题。不展示与统计【无效标签】句子的标签,解决问题2灌水问题。
4.根据用户每条评论情感累积值的正中负评做聚类分析,发现部分用户购买商品整体差评率较高的孤类。按同品牌购买次数与差评次数统计,找到孤类,可以将他们从结果中排除掉,可以解决问题3恶意评论的问题。
5.根据用户情感绝对值的平均值做聚类,可以得到部分用户情感绝对值偏高,对他们的情感值进行降权处理,使他们的情感绝对值的平均值映射到大多数人的范围内,可以解决问题4结果夸张的问题。
本发明的一种电商评论情感分析降噪的方法和装置具有以下技术效果:
1.去除了重复情感评论,使评论结果更合理。
2.去除了灌水评论,使商品优缺点更真实。
3.去除了恶意评论,使情感分析聚焦于大众情感。
4.对用户情感调整权重,修正少数用户情感丰富的问题。
以上要求为商家在现实中遇到的问题,采用本发明的方法处理,帮助商家了解用户反馈的产品特性,更有效率的改善产品,以及有针对性的设计新产品。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。

Claims (10)

1.一种电商评论情感分析降噪方法,其特征在于,所述方法电商评论情感分析降噪方法包括以下步骤:
步骤S1、预打标模块的构建:
步骤S2、人工标注模块的构建:
步骤S3、深度神经网络模型训练模块的构建:
步骤S4、深度神经网络模型标注模块的构建:
步骤S5、降噪模块的构建:
步骤S6、情感分析模块的构建。
2.根据权利要求1所述电商评论情感分析降噪方法,其特征在于,步骤S1具体包括以下步骤:
步骤S11、建立情感词库标签,将情感词匹配到情感标签,增加“无效标签”对应词汇,将标签导出到文本;
步骤S12、批量读取天猫评论数据,逐句将评论数据分词,根据情感词库关键字匹配分词结果,匹配到的结果按标签进行机器标注,一句评论可有多个标签,按行生成文本;
步骤S2具体包括以下步骤:
S21、将步骤S11和步骤S12的文本导入到人工标注平台;
S22、标注平台可展现当前文本打标结果,人工进行校验,如标签没问题,点击保存通过,标签错误可删除,缺少标签可添加,保存;
S23、将标注完的结果导出文本,结果类似S12,是人工校验后的结果。
步骤S3具体包括以下步骤:
S31、将S23的数据使用卷积神经网络进行训练,使用训练好的词向量,将分词结果转换为词向量;
S32、将转换后的词向量,使用2或3或4或5四种过滤器,分别做卷积与最大池化;
S33、定义损失函数,做全连接层进行softmax回归输出多分类概率;
S34、使用Adam优化算法训练,保存模型;
步骤S4具体包括以下步骤:
S41、将评论数据分句,每个子句做为输入文本;
S42、读取训练模型,将子句文本转化为标签分类概率,取大于0.5概率的标签;
S43、将子句组合成原句,并保存子句标签;
步骤S5具体包括以下步骤:
步骤S51、将同一句子中多个重复标签去重,具体方法为,同一评论由多个子句组成,标签为每个子句的标签汇总,当含有多个同样的标签时,只取一个;
步骤S52、去掉包含“无效标签”的句子的所有标签,具体方法为,同一评论由多个子句组成,标签为每个子句的标签汇总,当这些标签中含有“无效标签”时,删除该评论所有标签;
步骤S53、一条评论含有一个或多个标签,按照标签累计值计算情感值之和,根据情感值计算好中差评,大于0为好评,等于0为中评,小于0为差评;
步骤S54、统计所有用户评论数大于1的评论,计算用户的差评率,做聚类分析,去除差评率高于阈值的用户数据;
步骤S55、按同品牌,用户差评数统计,循环判断差评数用户占比,当某品牌差评数大于4的用户占比低于阈值百分之一时,则去掉该差评数的用户的评论数据,结束循环,且阈值可调整;
S56、按每条评论的情感值的绝对值进行均值统计,当均值大于3的用户占比小于阈值百分之一时,将高于该均值的用户均值设定为3,结束循环,且阈值可调整;
步骤S6具体包括以下步骤:
S61、按商品做情感统计;
S62、按品牌做情感统计。
3.根据权利要求2所述电商评论情感分析降噪方法,其特征在于,所述步骤S11中,将情感词匹配成情感标签,情感词与情感标签的关系为为多对一,增加“无效标签”对应灌水评论。
4.根据权利要求2所述电商评论情感分析降噪方法,其特征在于,所述步骤S51中,通过标签去重,设计了一个方法,将同一评论分成子句打标签,再将每个子句的标签汇总,当含有多个同样的标签时,只取一个。
5.根据权利要求2所述电商评论情感分析降噪方法,其特征在于,所述步骤S52中,去掉包含“无效标签”的句子的标签,设计了鉴别灌水的方法,无论评论中包含了多少个正常的情感,一旦评论中包含有“无效标签”,其他的情感标签都无效,去掉所有标签。
6.根据权利要求2所述电商评论情感分析降噪方法,其特征在于,所述步骤S53中,设计了统计情感指数的两个方式,标签累计值为该评论的情感值,并按正中负定义好评中评差评。
7.根据权利要求2所述电商评论情感分析降噪方法,其特征在于,
所述步骤S54中,统计评论数大于1的用户,差评率的计算公式为差评数/总评论数,并删除差评率高的用户数据的方法。
8.根据权利要求2所述电商评论情感分析降噪方法,其特征在于,所述步骤S55中,设计了寻找阈值的方法,从差评数为1开始循环,后面依次循环,大于该差评数的用户小于阈值百分之一时,删除大于该值的所有用户的数据。
9.根据权利要求2所述电商评论情感分析降噪方法,其特征在于,所述步骤S56中,设计了寻找阈值的方法,使用用户情感值绝对值进行均值统计,从均值为1开始循环,后面依次循环,大于该均值的用户小于阈值百分之一时,删除大于该均值的所有用户的数据。
10.一种电商评论情感分析装置,其特征在于,所述的情感分析装置包括预打标模块、人工标注模块、神经网络训练模块、算法标注模块、降噪模块、情感分析模块;
所述的预打标模块根据领域词典建立标签体系;
所述的人工标注模块用于将预打标模块中的文本导入到人工标注平台;
所述的神经网络训练模块使用卷积神经网络做多分类,分类结果做标签去重;
所述的算法标注模块中增加一个“无效标签”对应灌水评论,找到共性;
所述的降噪模块根据用户每条评论情感累积值的正中负评做聚类分析,发现部分用户购买商品整体差评率较高的孤类,并将他们从结果中排除掉;
所述的情感分析模块根据用户情感绝对值的平均值做聚类,可以得到部分用户情感绝对值偏高,对他们的情感值进行降权处理,使他们的情感绝对值的平均值映射到大多数人的范围内。
CN201810981948.8A 2018-08-27 2018-08-27 一种电商评论情感分析降噪的方法和装置 Active CN109255027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810981948.8A CN109255027B (zh) 2018-08-27 2018-08-27 一种电商评论情感分析降噪的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810981948.8A CN109255027B (zh) 2018-08-27 2018-08-27 一种电商评论情感分析降噪的方法和装置

Publications (2)

Publication Number Publication Date
CN109255027A true CN109255027A (zh) 2019-01-22
CN109255027B CN109255027B (zh) 2022-06-24

Family

ID=65049580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810981948.8A Active CN109255027B (zh) 2018-08-27 2018-08-27 一种电商评论情感分析降噪的方法和装置

Country Status (1)

Country Link
CN (1) CN109255027B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871447A (zh) * 2019-03-05 2019-06-11 南京甄视智能科技有限公司 中文评论无监督学习的聚类方法、计算机程序产品以及服务器系统
CN109902179A (zh) * 2019-03-04 2019-06-18 上海宝尊电子商务有限公司 基于自然语言处理的筛选电商垃圾评论的方法
CN109902180A (zh) * 2019-03-04 2019-06-18 上海宝尊电子商务有限公司 一种电商评论多类目多客户快速定制化模型的方法和装置
CN110225207A (zh) * 2019-04-29 2019-09-10 厦门快商通信息咨询有限公司 一种融合语义理解的防骚扰方法、系统、终端及存储介质
CN111339295A (zh) * 2020-02-19 2020-06-26 北京字节跳动网络技术有限公司 用于展示信息的方法、装置、电子设备和计算机可读介质
CN111488457A (zh) * 2020-04-13 2020-08-04 上海枫河软件科技有限公司 一种电商评论标签分类方法
CN111753174A (zh) * 2020-06-23 2020-10-09 北京字节跳动网络技术有限公司 数据处理方法、装置和电子设备
CN113627969A (zh) * 2021-06-21 2021-11-09 杭州盟码科技有限公司 一种基于电商平台用户评论的产品问题分析方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161604A1 (en) * 2008-12-23 2010-06-24 Nice Systems Ltd Apparatus and method for multimedia content based manipulation
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
KR20160104463A (ko) * 2015-02-26 2016-09-05 김윤희 고객의 감정 정보를 사업자에게 제공하는 전화번호 안내 장치, 전화번호 안내 시스템 그리고 전화번호 안내 방법
CN107153642A (zh) * 2017-05-16 2017-09-12 华北电力大学 一种基于神经网络识别文本评论情感倾向的分析方法
CN107391729A (zh) * 2017-08-02 2017-11-24 掌阅科技股份有限公司 用户评论的排序方法、电子设备及计算机存储介质
KR20180010419A (ko) * 2016-07-21 2018-01-31 김대영 상품 감정 평가 기반의 전당 대부 서비스 제공 방법
CN107862087A (zh) * 2017-12-01 2018-03-30 广州简亦迅信息科技有限公司 基于大数据和深度学习的情感分析方法、装置和存储介质
CN107944014A (zh) * 2017-12-11 2018-04-20 河海大学 一种基于深度学习的中文文本情感分析方法
CN108108433A (zh) * 2017-12-19 2018-06-01 杭州电子科技大学 一种基于规则和数据网络融合的情感分析方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161604A1 (en) * 2008-12-23 2010-06-24 Nice Systems Ltd Apparatus and method for multimedia content based manipulation
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
KR20160104463A (ko) * 2015-02-26 2016-09-05 김윤희 고객의 감정 정보를 사업자에게 제공하는 전화번호 안내 장치, 전화번호 안내 시스템 그리고 전화번호 안내 방법
KR20180010419A (ko) * 2016-07-21 2018-01-31 김대영 상품 감정 평가 기반의 전당 대부 서비스 제공 방법
CN107153642A (zh) * 2017-05-16 2017-09-12 华北电力大学 一种基于神经网络识别文本评论情感倾向的分析方法
CN107391729A (zh) * 2017-08-02 2017-11-24 掌阅科技股份有限公司 用户评论的排序方法、电子设备及计算机存储介质
CN107862087A (zh) * 2017-12-01 2018-03-30 广州简亦迅信息科技有限公司 基于大数据和深度学习的情感分析方法、装置和存储介质
CN107944014A (zh) * 2017-12-11 2018-04-20 河海大学 一种基于深度学习的中文文本情感分析方法
CN108108433A (zh) * 2017-12-19 2018-06-01 杭州电子科技大学 一种基于规则和数据网络融合的情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEVENDRA K TAYAL、SUMIT K YADAV: ""Analysis of Sentiments & Polarity Computation of"", 《20172ND INTERNATIONAL CONFERENCE ON TELECOMMUNICATION AND NETWORKS》 *
刘智鹏、何中市、何伟东、张航1: ""基于深度学习的商品评价情感分析与研究"", 《计算机与数字工程》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902179A (zh) * 2019-03-04 2019-06-18 上海宝尊电子商务有限公司 基于自然语言处理的筛选电商垃圾评论的方法
CN109902180A (zh) * 2019-03-04 2019-06-18 上海宝尊电子商务有限公司 一种电商评论多类目多客户快速定制化模型的方法和装置
CN109871447A (zh) * 2019-03-05 2019-06-11 南京甄视智能科技有限公司 中文评论无监督学习的聚类方法、计算机程序产品以及服务器系统
CN110225207A (zh) * 2019-04-29 2019-09-10 厦门快商通信息咨询有限公司 一种融合语义理解的防骚扰方法、系统、终端及存储介质
CN110225207B (zh) * 2019-04-29 2021-08-06 厦门快商通信息咨询有限公司 一种融合语义理解的防骚扰方法、系统、终端及存储介质
CN111339295A (zh) * 2020-02-19 2020-06-26 北京字节跳动网络技术有限公司 用于展示信息的方法、装置、电子设备和计算机可读介质
CN111488457A (zh) * 2020-04-13 2020-08-04 上海枫河软件科技有限公司 一种电商评论标签分类方法
CN111753174A (zh) * 2020-06-23 2020-10-09 北京字节跳动网络技术有限公司 数据处理方法、装置和电子设备
CN113627969A (zh) * 2021-06-21 2021-11-09 杭州盟码科技有限公司 一种基于电商平台用户评论的产品问题分析方法和系统

Also Published As

Publication number Publication date
CN109255027B (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN109255027A (zh) 一种电商评论情感分析降噪的方法和装置
CN105808526B (zh) 商品短文本核心词提取方法和装置
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN109960763B (zh) 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
CN102591854B (zh) 针对文本特征的广告过滤系统及其过滤方法
CN103226576A (zh) 基于语义相似度的垃圾评论过滤方法
CN108363725B (zh) 一种用户评论观点提取和观点标签生成的方法
CN110175325A (zh) 基于词向量和句法特征的评论分析方法及可视化交互界面
CN106484664A (zh) 一种短文本间相似度计算方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN109902179A (zh) 基于自然语言处理的筛选电商垃圾评论的方法
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN107391575A (zh) 一种基于词向量模型的隐式特征识别方法
CN113837531A (zh) 一种基于网络评论的产品质量问题发现及风险评估方法
CN110442720A (zh) 一种基于lstm卷积神经网络的多标签文本分类方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN107657056A (zh) 基于人工智能展示评论信息的方法和装置
CN111241232B (zh) 业务服务的处理方法、装置、服务平台及存储介质
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN102929861A (zh) 一种文本情感指数计算方法和系统
CN109615407A (zh) 基于人工智能的在线电力智慧客服方法
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN110096587A (zh) 基于注意力机制的lstm-cnn词嵌入的细粒度情感分类模型
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant