CN109101478B - 一种面向电商评论文本的Aspect级情感分析方法 - Google Patents

一种面向电商评论文本的Aspect级情感分析方法 Download PDF

Info

Publication number
CN109101478B
CN109101478B CN201810564582.4A CN201810564582A CN109101478B CN 109101478 B CN109101478 B CN 109101478B CN 201810564582 A CN201810564582 A CN 201810564582A CN 109101478 B CN109101478 B CN 109101478B
Authority
CN
China
Prior art keywords
comment
emotion
commerce
evaluation object
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810564582.4A
Other languages
English (en)
Other versions
CN109101478A (zh
Inventor
杨鹏
张成帅
李幼平
张长江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810564582.4A priority Critical patent/CN109101478B/zh
Publication of CN109101478A publication Critical patent/CN109101478A/zh
Application granted granted Critical
Publication of CN109101478B publication Critical patent/CN109101478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向电商评论文本的Aspect级情感分析方法。首先,对电商评论文本进行预处理,并按照其所属的商品、商家、品牌进行分批;接着,在一批电商评论文本内部,综合考虑词性、句法及共现性特征,对候选评价对象的重要性进行排序,抽取电商评论文本中的评价对象;然后,利用动态滑动窗口机制将词项间共现限定在评论段级,并基于LDA模型对这一批电商评论文本中的评价对象进行聚类,得到评论Aspect‑评价对象间对应关系;最后,基于构建的情感词典、否定词典,对电商评论文本进行情感分析。本发明不仅可以挖掘电商评论文本中的评价对象,给出细粒度的评价对象级情感分析结果;还能充分利用具体商品、商家、品牌范围内评价对象间的主题相关性,对评价对象进行聚类,进而得到评论Aspect级情感分析结果。

Description

一种面向电商评论文本的Aspect级情感分析方法
技术领域
本发明涉及一种面向电商评论文本的Aspect级情感分析方法,可用于实现针对电商平台中热门商品、商家、品牌的情感分析和观点挖掘等,属于互联网和自然语言处理技术领域。
背景技术
近年来,随着信息技术以及互联网的蓬勃发展,我国网购市场发展迅猛,电子商务已成为驱动我国经济发展的重要引擎。一方面,消费者在网购时无法直接接触实际商品,只能根据电商平台提供的文字、图片等描述性信息以及历史消费者发表的评论文本了解商品、商家、品牌的基本特征。另一方面,商家、品牌方也无法直接接触消费者,只能根据历史消费者发表的评论文本分析消费者的喜好,对产品设计、销售策略进行调整。然而,随着时间的推移,电商平台积聚的评论文本信息不断膨胀,碎片化、海量化特征日趋明显,采用人工的方式对电商评论文本进行情感分析需要消耗大量的人力、物力。如何充分利用信息技术不受时空限制的优势,实现面向电商评论文本的情感信息自动挖掘成为电商信息汇聚分析领域亟待解决的难题。
目前,文本情感分析领域方法众多。按照粒度的不同,可分为词语级、句子级、篇章级和Aspect级。按照原理的不同,可分为基于词典法、基于有监督机器学习法、基于图论法和基于主题模型法。然而,电商涉及的领域众多,且无社交关系,而基于有监督机器学习法和基于图论法分别依赖于领域限定的优质标注语料和用户间社交关系,难以满足电商评论文本的情感分析需求;对商家、品牌和消费者而言,只有细粒度的、针对具体Aspect的电商评论文本情感分析才更有意义,而词语级、句子级和篇章级文本情感分析方法难以充分挖掘电商评论文本的价值;电商评论文本中评价对象繁杂,主题相关性强,而传统Aspect级文本情感分析方法无法同时实现针对具体评论文本的评价对象级情感分析和评论Aspect提取(即评价对象聚类)。因此,针对此类应用,亟需设计一种细粒度的、易于领域迁移的电商评论文本情感分析方法,帮助商家、品牌和消费者深入挖掘电商评论文本中隐含的观点、喜好,进而辅助用户决策。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提出一种面向电商评论文本的Aspect级情感分析方法ECALSA(E-Commerce Aspect-Level Sentiment Analysis)。该方法不但可以挖掘消费者在电商评论文本中具体的情感指向,给出评价对象级情感分析结果,而且可以充分利用具体商家、品牌、商品范围内评价对象的主题相关性,对评价对象进行聚类,并给出评论Aspect级情感分析结果,深入挖掘电商评论文本中隐含的观点、喜好,辅助用户决策。
技术方案:一种面向电商评论文本的Aspect级情感分析方法,简称ECALSA。首先,对从电商平台实时采集的电商评论文本进行预处理,并按照其所属的商品、商家、品牌进行分批;接着,在一批电商评论文本内部,综合考虑词性、句法及共现性特征,对候选评价对象的重要性进行排序,抽取电商评论文本中的评价对象;然后,利用动态滑动窗口机制将词项间共现限定在评论段级,并基于LDA模型对这一批电商评论文本中的评价对象进行聚类,得到评论Aspect-评价对象间对应关系;最后,基于构建的情感词典、否定词典,对电商评论文本进行情感分析。其具体步骤如下:
步骤1,电商评论文本预处理。电商评论文本预处理主要对从互联网采集的电商评论文本进行处理,使其满足后续处理过程的输入要求。该步骤具体又可以分为以下4个子步骤:
子步骤1-1,电商评论文本分批。在具体商家售卖的具体品牌的具体商品范围内,所有的电商评论文本都是针对具体商家、商品、品牌的整体或者部分属性进行评价,具有较强的主题相关性。因此,本发明按照电商评论文本所属的商品、商家、品牌对电商评论文本进行分批。
子步骤1-2,重复语句处理。一方面,很多电商平台规定用户发表的评论文本只要超过一定的字数即可获得积分用于兑换抵用券,因此有人会不断重复其中的语句,以使字数达标;另一方面,有的用户因为发表评论时过于激动,也时常用不断重复某语句的方式,来表达心中的强烈情感。因此,本发明采用正则匹配的方式对重复出现大于两次的语句只保留两次,既强调了用户强烈的情感表达,又降低了对后续分析结果的影响。
子步骤1-3,表情符号替换。由于淘宝、京东等电商平台普遍既不提供官方表情符号,也不支持百度、搜狗等输入法提供的表情符号,故本文中表情符号特指用户利用标点、字母等组合出的表情符号。表情符号蕴含了消费者发表评论时的情感倾向,能够对文本情感分析产生重要影响。因此,本发明对此类常用的表情符号进行了总结,并采用字符串匹配的方式将其替换为相应的文字。其中,常见的几种积极、消极表情符号及其相应的替换文字如表1所示:
表1常见表情符号及其替换文字对照表
积极表情 替换文字 消极表情 替换文字
(*^_^*) 开心 →_→ 怀疑
o(^^)o 开心 (~>__<~) 生气
(*^·^*) 开心 π_π 难过
(*∩_∩*) 开心 (T___T) 忧伤
(∩_∩) 开心 /_\ 忧伤
~o}^_^{o~ 开心 (╯^╰) 难过
(^O^) 开心 (#_<-) 难过
v(^O^)v 开心 ∣(-_-)∣ 难过
子步骤1-4,分词、去除停用词。分词是指将连续的字序列(即文本)按照一定的规范重新组合成单独的词序列的过程。中文单词间没有显式分隔,只能通过具体语境划分。停用词是指为语句构建所必需,但又对语义表达没有太多帮助的词,如中文的“呢”、“了”和英文的“a”、“an”等。在处理电商评论文本之前将停用词剔除,不仅可以有效节省系统的存储空间,还能够大幅提升文本情感分析的效率。分词、去除停用词均非本发明研究重点,直接采用常用的停用词表配合开源的结巴分词工具实现。
步骤2,评价对象抽取。本发明引入评价对象对评论语义进行表征,并将其定义为消费者在具体评论文本中的情感指向。首先,借助分词和词性标注过程,基于词性特征抽取评论文本中的名词构成候选评价对象集合;然后,借助文本句法结构分析过程,基于句法特征抽取评论文本中的二元名词性短语扩充候选评价对象集合;最后,在该批次电商评论文本范围内,借鉴PageRank算法的网页链接排序机制,基于词项间共现特征,提出候选评价对象重要性排序机制,滤除重要性低于所设阈值的候选评价对象,得到最终的评价对象结果。
其中,候选评价对象ni重要性的定义,如公式(1)所示:
Figure GDA0003514489120000041
在公式(1)中,β表示减幅系数,满足β∈(0,1);p(ni)表示候选评价对象ni的重要性;O(ni)表示与ni共现的其他候选评价对象的个数;F(ni)表示ni的频率;E表示所有候选评价对象间的共现关系;(ni,nj)∈E表示ni与nj共现。从式(1)可以看出,ni的频率越高、与ni共现的其他候选评价对象的频率越高,ni越重要。
步骤3,评论Aspect提取即评价对象聚类。本发明引入评论Aspect对电商平台中具体商家、品牌、商品范围内,评价对象的主题相关性进行表征,将评论Aspect定义为经评价对象聚类后得到的评价对象类簇。首先,利用动态滑动窗口机制对经过预处理后的评论文本进行分段处理,将词项间共现限定在评论段级;然后,基于LDA(Latent DirichletAllocation)模型对评价对象进行聚类,得到评论Aspect结果。
针对基础滑动窗口大小,本发明主要考虑评价对象密度因素,将滑动窗口的大小设置为对评价对象密度取倒数后的向上取整值。其中,评价对象密度的计算方式如式(2)所示:
Figure GDA0003514489120000042
其中,CommObjDen sity表示评价对象密度,CommObjNum表示评论文本中出现的评价对象数目,SentNum表示评论文本中的句子数目。
针对滑动窗口大小的自适应调整,本发明主要考虑以下两种特殊的情况:
1)句子不包含评价对象。此类句子多为前一句内容的延续或后一句内容的前导,故滑动窗口不应跨过此类句子同时包含其前一句和后一句。
2)句子包含多个评价对象。此类句子多涵盖消费者对某评论Aspect完整的情感表达,除不包含评价对象的句子外,滑动窗口一般不应将其他句子包含进来。
步骤4,情感分析。本发明采用基于词典法实现面向电商评论文本的Aspect级情感定性分析。首先,基于构建的情感词典、否定词典进行评价对象级情感分析,得到评价对象级情感分析结果;然后,根据评论Aspect结果将评价对象级情感分析结果映射到评论Aspect级,得到评论Aspect级情感分析结果。该步骤具体又可以分为以下2个子步骤:
子步骤4-1,词典构建。本发明从目前比较流行中国知网整理的HowNet词典、中国台湾大学整理的词典、大连理工大学整理的中文情感词汇本题库,筛选出涵盖516个积极词、613个消极词的基础情感词典和涵盖65个否定词的否定词表。
情感词典如表2所示,情感极性由1和-1表示,1表示积极词,-1表示消极词;情感强度用1-5表示,1表示程度最浅,5表示程度最深。
表2情感词典结构示例
词语 情感极性 情感强度
喜爱 1 5
欢欢喜喜 1 5
倍儿爽 1 4
无语 -1 2
忧伤 -1 3
懊恼 -1 5
否定词典如表3所示,情感基数由1和-1表示,1表示认可,而-1表示否定;优先级主要由以字数确定,字数越多,优先级越大;当文本中某情感词前面出现不止一个否定词能够匹配成功时,依照优先级确定匹配的否定词。
表3否定词典结构示例
否定词 情感基数 优先级
-1 1
没有 -1 2
不能 -1 2
不可不 1 3
没有不 1 3
不能不 1 3
子步骤4-2,Aspect级情感分析。本发明引入评论段作为消费者对评价对象情感表达的载体,将其定义为评论文本中针对评价对象的评论性文本。首先,识别评论段中包含的所有情感词和否定词;然后,将所有情感词对应的情感极性、情感强度与对应否定词的情感基数相乘后累加,得到整个评论段的情感倾向值,并以此作为评论段中每个评价对象的情感倾向值;最后,将评价对象级情感分析结果映射到评论Aspect级,得到Aspect级电商评论文本情感分析结果,具体的计算公式如式(3)、(4)、(5)、(6)所示:
Figure GDA0003514489120000061
Figure GDA0003514489120000062
SA_CO(cp,co)=sentiment(cp) (5)
SA_CA(cp,ca)=∑co∈cp∩co∈casentiment(co) (6)
其中,cp表示某电商评论段,co表示cp中包含的某评价对象,sw表示cp中的某情感词,sp(sw)表示sw对应的情感极性,sv(sw)表示sw对应的情感强度,nb(sw)表示sw对应否定词的情感基数,sb(nw)表示nw对应的情感基数,SA_CO(cp,co)表示cp中针对co的情感倾向,SA_CA(cp,ca)表示cp中针对ca的情感倾向。
有益效果:与现有技术相比,本发明提供的面向电商评论文本的Aspect级情感分析方法,具有如下优点:
(1)本发明不仅可以挖掘电商评论文本的总体情感倾向,还能进一步挖掘消费者在电商评论文本中具体的情感指向,给出评价对象级情感分析结果;
(2)本发明提出一种动态滑动窗口机制,可以将词项间共现限定在评论段级,能够更好地满足评价对象的聚类需求;
(3)本发明可以充分利用具体商家、品牌、商品范围内评价对象的主题相关性,对评价对象进行聚类,给出评论Aspect级情感分析结果。
附图说明
图1是面向电商评论文本的Aspect级情感分析方法的整体流程图;
图2是本发明提出的动态滑动窗口机制的示意图;
图3是情感倾向计算机制示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种面向电商评论文本的Aspect级情感分析方法(简称ECALSA方法)在具体实施时,其整体工作流程如图1所示。该方法首先对从电商平台实时采集的电商评论文本进行预处理,并按照其所属的商品、商家、品牌进行分批;接着,在一批电商评论文本内部,综合考虑词性、句法及共现性特征,对候选评价对象的重要性进行排序,抽取电商评论文本中的评价对象;然后,利用动态滑动窗口机制将词项间共现限定在评论段级,并基于LDA模型对这一批电商评论文本中的评价对象进行聚类,得到评论Aspect-评价对象间对应关系;最后,基于构建的情感词典、否定词典,对电商评论文本进行情感分析。具体实施步骤如下:
步骤1,电商评论文本预处理。ECALSA方法首先对从电商平台实时采集的电商评论文本按照其所属的商品、商家、品牌进行分批,然后进行重复语句处理、表情符替换、分词和去停用词等预处理过程,以使其满足后续步骤的处理需求。不失一般性,假设从电商平台采集的电商评论文本中有1000条属于某具体商品、商家、品牌,构成电商评论文本集合C={comm1,comm2,...,comm1000}。针对电商评论文本集合中某电商评论文本“(*^_^*)小米手机真的太棒了!!!喜欢,喜欢,喜欢,喜欢,喜欢”,经过重复语句处理步骤,得到“(*^_^*)小米手机真的太棒了!!!喜欢,喜欢”;经过表情符替换步骤,得到“开心小米手机真的太棒了,喜欢,喜欢”,经过分词、去停用词步骤,得到{开心,小米,手机,太棒了!!!喜欢,喜欢}。
步骤2,评价对象抽取。针对电商评论文本集合中某电商评论文本“顺丰的物流真是没的说,太快了,点赞!但小米手机的续航能力较差,一会儿就没电了”,基于词性特征挖掘到5个名词{顺丰,物流,小米,续航,能力},基于句法特征挖掘到1个二元名词性短语{续航能力},二者合并形成候选评价对象集合{顺丰,物流,小米,续航能力}。基于共现性特征,按照公式(1)即可在电商评论文本集合范围内,对所有候选评价对象的重要性进行定量计算,并按照重要性对各候选评价对象进行排序,对候选评价对象进行筛选,得到{小米:0.231,物流:0.106,续航能力:0.053,顺丰:0.024}。
步骤3,评论Aspect提取即评价对象聚类。首先,针对电商评论文本集合中的某电商评论文本“物流很快,值得点赞!但小米的续航能力不行,一会儿就没电了”,按照公式(2)计算评价对象密度,并以其倒数的向上取整值设置基础滑动窗口大小为2;然后,在滑动窗口从左到右的滑动过程中,考虑句子的特殊性,对滑动窗口大小进行自适应调整,对电商评论文本进行分段,得到评论段集合{{物流很快,值得点赞},{但小米的续航能力不行,一会儿就没电了}};最后,考虑电商评论文本集合中评价对象的主题相关性,考虑评价对象在评论段级的共现性,基于LDA模型实现评价对象聚类,得到评论Aspect提取结果。其中,ID为1的评论Aspect对应的评价对象集合(仅展示前5个评价对象)为{“物流”、“发货”、“速度”、“顺丰”、“发货速度”}。
步骤4,情感分析。首先,针对电商评论文本集合中的某电商评论文本“物流很快,给顺丰点赞!但续航能力不行”,基于构建的情感词典、否定词典,按照公式(3)、(4)、(5)进行计算,得到评价对象级情感定性分析结果{物流:积极,顺丰:积极,续航能力:消极};然后,根据评论Aspect提取即评价对象聚类结果,按照公式(6)将评价对象级情感定性分析结果映射到评论Aspect级,得到评论Aspect级情感定性分析结果{1:积极,1:积极,2:消极}。
上述实施示例表明,本发明提出的一种面向电商评论文本的Aspect级情感分析方法,不仅可以挖掘消费者在电商评论文本中具体的情感指向,给出评价对象级情感分析结果;还可以充分利用具体商家、品牌、商品范围内评价对象的主题相关性,对评价对象进行聚类,并给出评论Aspect级情感分析结果,辅助用户决策。应用该方法可以充分利用信息技术不受时空限制的优势,实现面向电商评论文本细粒度情感信息的自动挖掘,帮助用户深入挖掘历史消费者在电商评论文本中隐含的观点、喜好,辅助用户进行决策。

Claims (4)

1.一种面向电商评论文本的Aspect级情感分析方法,其特征在于,包括如下步骤:首先,对从电商平台实时采集的电商评论文本进行预处理,并按照其所属的商品、商家、品牌进行分批;接着,在一批电商评论文本内部,综合考虑词性、句法及共现性特征,对候选评价对象的重要性进行排序,抽取电商评论文本中的评价对象;然后,利用动态滑动窗口机制将词项间共现限定在评论段级,并基于LDA模型对这一批电商评论文本中的评价对象进行聚类,得到评论Aspect-评价对象间对应关系;最后,基于构建的情感词典、否定词典,对电商评论文本进行情感分析;
引入评价对象对评论语义进行表征,并将其定义为消费者在具体评论文本中的情感指向;首先,借助分词和词性标注过程,基于词性特征抽取评论文本中的名词构成候选评价对象集合;然后,借助文本句法结构分析过程,基于句法特征抽取评论文本中的二元名词性短语扩充候选评价对象集合;最后,在该批次电商评论文本范围内,借鉴PageRank算法的网页链接排序机制,基于词项间共现特征,提出候选评价对象重要性排序机制,滤除重要性低于所设阈值的候选评价对象,得到最终的评价对象结果;
其中,候选评价对象ni重要性的定义,如公式(1)所示:
Figure FDA0003514489110000011
在公式(1)中,β表示减幅系数,满足β∈(0,1);p(ni)表示候选评价对象ni的重要性;O(ni)表示与ni共现的其他候选评价对象的个数;F(ni)表示ni的频率;E表示所有候选评价对象间的共现关系;(ni,nj)∈E表示ni与nj共现。
2.如权利要求1所述的面向电商评论文本的Aspect级情感分析方法,其特征在于,所述电商评论文本预处理主要是对从互联网采集的电商评论文本进行处理,使其满足后续处理过程的输入要求;具体分为以下4个步骤:
步骤1-1,电商评论文本分批;按照电商评论文本所属的商品、商家、品牌对电商评论文本进行分批;
步骤1-2,重复语句处理;采用正则匹配的方式对重复出现大于两次的语句只保留两次;
步骤1-3,表情符号替换;采用字符串匹配的方式将表情符号替换为相应的文字;
步骤1-4,分词、去除停用词;采用停用词表配合开源的结巴分词工具实现。
3.如权利要求1所述的面向电商评论文本的Aspect级情感分析方法,其特征在于,引入评论Aspect对电商平台中具体商家、品牌、商品范围内,评价对象的主题相关性进行表征,将其定义为经评价对象聚类后得到的评价对象类簇;首先,利用动态滑动窗口机制对评论文本进行分段,将词项间共现限定在评论段级;然后,基于LDA模型对评价对象进行聚类,得到评论Aspect结果;
将滑动窗口的大小设置为对评价对象密度取倒数后的向上取整值;其中,评价对象密度的计算方式如式(2)所示:
Figure FDA0003514489110000021
其中,CommObjDen sity表示评价对象密度,CommObjNum表示评论文本中出现的评价对象数目,SentNum表示评论文本中的句子数目;
针对滑动窗口大小的自适应调整,包括以下两种特殊的情况:
1)句子不包含评价对象;此类句子多为前一句内容的延续或后一句内容的前导,故滑动窗口不应跨过此类句子同时包含其前一句和后一句;
2)句子包含多个评价对象;此类句子多涵盖消费者对某评论Aspect完整的情感表达,除不包含评价对象的句子外,滑动窗口一般不应将其他句子包含进来。
4.如权利要求1所述的面向电商评论文本的Aspect级情感分析方法,其特征在于,利用同义词和频繁共现的形容词、副词对基础情感词典进行扩展,并基于扩展后的情感词典、否定词典,对电商评论文本进行情感分析,具体包括以下步骤:
步骤4-1,词典构建;筛选出包括积极词、消极词的基础情感词典和涵盖否定词的否定词表;
情感词典中,情感极性由1和-1表示,1表示积极词,-1表示消极词;情感强度用1-5表示,1表示程度最浅,5表示程度最深;
否定词典中,情感基数由1和-1表示,1表示认可,而-1表示否定;优先级主要由以字数确定,字数越多,优先级越大;当文本中某情感词前面出现不止一个否定词能够匹配成功时,依照优先级确定匹配的否定词;
步骤4-2,Aspect级情感分析。引入评论段作为消费者对评价对象情感表达的载体,将其定义为评论文本中针对评价对象的评论性文本。首先,识别评论段中包含的所有情感词和否定词;然后,将所有情感词对应的情感极性、情感强度与对应否定词的情感基数相乘后累加,得到整个评论段的情感倾向值,并以此作为评论段中每个评价对象的情感倾向值;最后,将评价对象级情感分析结果映射到评论Aspect级,得到Aspect级电商评论文本情感分析结果,具体的计算公式如式(3)、(4)、(5)、(6)所示:
Figure FDA0003514489110000031
Figure FDA0003514489110000032
SA_CO(cp,co)=sentiment(cp) (5)
SA_CA(cp,ca)=∑co∈cp∩co∈casentiment(co) (6)
其中,cp表示某电商评论段,co表示cp中包含的某评价对象,sw表示cp中的某情感词,sp(sw)表示sw对应的情感极性,sv(sw)表示sw对应的情感强度,nb(sw)表示sw对应否定词的情感基数,sb(nw)表示nw对应的情感基数,SA_CO(cp,co)表示cp中针对co的情感倾向,SA_CA(cp,ca)表示cp中针对ca的情感倾向。
CN201810564582.4A 2018-06-04 2018-06-04 一种面向电商评论文本的Aspect级情感分析方法 Active CN109101478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810564582.4A CN109101478B (zh) 2018-06-04 2018-06-04 一种面向电商评论文本的Aspect级情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810564582.4A CN109101478B (zh) 2018-06-04 2018-06-04 一种面向电商评论文本的Aspect级情感分析方法

Publications (2)

Publication Number Publication Date
CN109101478A CN109101478A (zh) 2018-12-28
CN109101478B true CN109101478B (zh) 2022-04-08

Family

ID=64796665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810564582.4A Active CN109101478B (zh) 2018-06-04 2018-06-04 一种面向电商评论文本的Aspect级情感分析方法

Country Status (1)

Country Link
CN (1) CN109101478B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597791A (zh) * 2019-02-19 2020-08-28 北大方正集团有限公司 评论短语的提取方法及设备
CN110110744A (zh) * 2019-03-27 2019-08-09 平安国际智慧城市科技股份有限公司 基于语义理解的文本配对方法、装置及计算机设备
CN110457472A (zh) * 2019-07-16 2019-11-15 天津大学 基于som聚类算法的针对电商产品评论的情感关联分析方法
CN110929123A (zh) * 2019-10-12 2020-03-27 中国农业大学 一种电商产品竞争分析方法及系统
CN110807315A (zh) * 2019-10-15 2020-02-18 上海大学 一种基于主题模型的在线评论情感挖掘方法
CN111339247B (zh) * 2020-02-11 2022-10-28 安徽理工大学 一种微博子话题用户评论情感倾向性分析方法
CN111310455B (zh) * 2020-02-11 2022-09-20 安徽理工大学 一种面向网购评论的新情感词极性计算方法
CN111612339B (zh) * 2020-05-21 2023-08-22 中国标准化研究院 基于大数据的网销商品情感倾向分析方法
CN112861541B (zh) * 2020-12-15 2022-06-17 哈尔滨工程大学 一种基于多特征融合的商品评论情感分析方法
CN112818682B (zh) * 2021-01-22 2023-01-03 深圳大学 电商数据分析方法、设备、装置及计算机可读存储介质
CN112905736B (zh) * 2021-01-27 2023-09-19 郑州轻工业大学 一种基于量子理论的无监督文本情感分析方法
CN112926307A (zh) * 2021-03-19 2021-06-08 闽江学院 基于依存关系的评价对象情感分析方法及存储介质
CN115795040B (zh) * 2023-02-10 2023-05-05 成都桉尼维尔信息科技有限公司 一种用户画像分析方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062304A (zh) * 2017-12-19 2018-05-22 北京工业大学 一种基于机器学习的商品评论数据的情感分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062304A (zh) * 2017-12-19 2018-05-22 北京工业大学 一种基于机器学习的商品评论数据的情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Aspect-based opinion ranking framework for product reviews using a Spearman’s rank correlation coefficient method";Ashok Kumar J 等;《https://doi.org/10.1016/j.ins.2018.05.003》;20180510;第1-19页 *
"Automatic Knowledge Extraction for Aspect-based Sentiment Analysis of Customer Reviews";Anh-Dung Vo 等;《https://doi.org/10.1145/3177457.3177462》;20180108;第1-4页 *

Also Published As

Publication number Publication date
CN109101478A (zh) 2018-12-28

Similar Documents

Publication Publication Date Title
CN109101478B (zh) 一种面向电商评论文本的Aspect级情感分析方法
Ishaq et al. Aspect-based sentiment analysis using a hybridized approach based on CNN and GA
Akaichi Social networks' Facebook'statutes updates mining for sentiment classification
CN111310476B (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
TW201638803A (zh) 文本挖掘系統和工具
US20160189057A1 (en) Computer implemented system and method for categorizing data
CN106776566B (zh) 情感词汇的识别方法及装置
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
Maheswari et al. Text mining: Survey on techniques and applications
Atmadja et al. Comparison on the rule based method and statistical based method on emotion classification for Indonesian Twitter text
CN113780007A (zh) 语料筛选方法、意图识别模型优化方法、设备及存储介质
Shyamasundar et al. Twitter sentiment analysis with different feature extractors and dimensionality reduction using supervised learning algorithms
Gosai et al. A review on a emotion detection and recognization from text using natural language processing
CN110990587B (zh) 基于主题模型的企业关系发现方法及系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Rani et al. Study and comparision of vectorization techniques used in text classification
Karo et al. Karonese sentiment analysis: a new dataset and preliminary result
US11605004B2 (en) Method and system for generating a transitory sentiment community
Hapsari et al. Naive bayes classifier and word2vec for sentiment analysis on bahasa indonesia cosmetic product reviews
Prakash et al. Textual sentiment analysis using lexicon based approaches
CN117291190A (zh) 一种基于情感词典和lda主题模型的用户需求计算方法
US11270357B2 (en) Method and system for initiating an interface concurrent with generation of a transitory sentiment community
Baniata et al. Sentence representation network for Arabic sentiment analysis
Jayasekara et al. Opinion mining of customer reviews: feature and smiley based approach
Zhang et al. Grasp the implicit features: Hierarchical emotion classification based on topic model and SVM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant