CN112861541A - 一种基于多特征融合的商品评论情感分析方法 - Google Patents

一种基于多特征融合的商品评论情感分析方法 Download PDF

Info

Publication number
CN112861541A
CN112861541A CN202011476049.6A CN202011476049A CN112861541A CN 112861541 A CN112861541 A CN 112861541A CN 202011476049 A CN202011476049 A CN 202011476049A CN 112861541 A CN112861541 A CN 112861541A
Authority
CN
China
Prior art keywords
emotion
word
text
words
commodity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011476049.6A
Other languages
English (en)
Other versions
CN112861541B (zh
Inventor
王勇
刘聪
杨静
曲连威
王天一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202011476049.6A priority Critical patent/CN112861541B/zh
Publication of CN112861541A publication Critical patent/CN112861541A/zh
Application granted granted Critical
Publication of CN112861541B publication Critical patent/CN112861541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于多特征融合的商品评论情感分析方法。对数据集进行噪音过滤,进行文本的分词、词性筛选,统计词频,得到预处理后的文本;对文本中的词语使用word2Vec进行词向量表示;使用基于词语共现度的方法,结合凝聚层次聚类算法挖掘商品评论中的有关属性的情感词;针对描述商品属性的情感词进行情感词典扩充,确定新词的情感倾向;将否定词典、连词词典、程度词典等文本特征、用户特征、商品特征进行多特征进行有机融合来确定文本的情感倾向,以此构建半监督训练集;根据构建的训练集,对文本进行基于SVM的情感分类。本发明提出的基于多特征融合的情感分类方法能够有效提高分类的准确度,在产品跟踪、服务反馈、意见挖掘以及舆情监控等方面有着重要的应用价值。

Description

一种基于多特征融合的商品评论情感分析方法
技术领域
本发明属于自然语言处理领域;具体涉及一种基于多特征融合的商品评论情感分析方法。
背景技术
随着电商平台的飞速发展,生活方式发生了翻天覆地的变化,购买的方式不仅仅局限于传统的面对面交流,而是转移到了互联网上面,近几年,越来越多的用户习惯于网上购物,用户可在网上发表关于商品的意见,随着评论信息的急剧膨胀,用户从海量网络评论资源中捕获并感知这些信息的时间成本也随之成倍增加,这些海量评论文本信息大多包含用户的主观情感,其蕴藏着的丰富的现实意义及商业价值亟待挖掘。
情感分析,又称意见挖掘。其面向目标为未知情感倾向的文本,文本种伴随的表情符号,带有用户表情的图片以及视频。其主要任务是通过对包含情感倾向的目标对象进行挖掘分析,识别用户针对某一问题的褒贬态度和意见。它涉及到自然语言处理、数据挖掘和机器学习、深度学习等技术,以带有主观性情感的文本中的句子、词语为基础,深入剖析文本语义,识别文本的情感倾向。
商品评论的情感分析方法因其能够有效帮助绝大多数的用户根据商品的评论来决定是否购买商品以及帮助商家研究商品口碑、对商品的销量的预测和商品数量的及时调整、以及进行商品推荐成为情感分析领域重要的一部分。由于商品评论的多样性、不确定性,与情感之间存在相应的联系,通过对数据挖掘等方法有效挖掘文本数据集和情感之间蕴含的关联关系具有较高的可行性。
发明内容
本发明提供了一种基于多特征融合的商品评论情感分析方法,该方法能够针对数据集的文本特征、用户特征以及商品特征,提高现有商品评论情感分析的准确率问题。更好的满足在大量和多种特征的数据背景下对情感分析准确率要求等问题。
本发明通过以下技术方案实现:
一种基于多特融合的商品评论情感分析方法,所述方法包括以下步骤:
步骤1:对数据集进行噪音过滤、分词、词性筛选、以及词频和文档频率的统计,得到预处理后的低噪高可用性数据集;
步骤2:对步骤1预处理的数据,使用word2Vec对其进行基于上下文的词向量嵌入,得到基于上下文预测的词向量;
步骤3:对步骤2中的名词的词向量进行基于词语共现度的聚类,获得商品的属性;
步骤4:对步骤3中的属性进行基于商品属性情感词的获取,获得商品的情感词,对已有的情感词典进行情感词扩充,得到扩充的情感词典;
步骤5:对步骤4的扩充的情感词典,构建连词词典、否定词词典、程度词典,得到商品评论的文本特征;
步骤6:对步骤5的词典,结合用户特征,商品特征以及文本特征得到基于多特征融合的文本情感极性计算规则,并在此基础上构建半监督的训练集;
步骤7:对步骤6的训练集,使用SVM方法进行训练,对未知情感的文本进行情感分类,实现对商品评论的情感分析。
进一步的,所属步骤1具体为:对商品评论数据集进行基于表情符号、图片链接等标签的过滤,并将过滤后的结果进行分词,词性的筛选,统计词频和文档频率,词性将作为商品聚类和词典构建的依据,最终得到低噪高可用性的数据集。
进一步的,所述步骤2具体为,将文本分词结果输入到word2Vec模型中进行训练,使用Skip-Gram得到当前词的基于上下文预测的词向量,最终获得所有词语的词向量。
进一步的,所述步骤3包括以下步骤,
步骤3.1:对获取到的分词结果进行名词词性的筛选,通过下列公式进行商品和属性的共现相似度计算:
Figure RE-GDA0003015831910000021
Figure RE-GDA0003015831910000022
Figure RE-GDA0003015831910000023
其中pt是所有文本,R(wk|wl)表示在wl出现的情况下,wk出现的概率,Pj是同时包含以上两词的文本。该计算方法避免了文本的基数过大导致相似度的计算结果过小的问题。
使用凝聚式层次聚类算法对商品属性进行聚类,首先将所有词都看成一个个独立的类簇,将相似度满足初始设定的阈值条件类簇进行合并,离差交错更新类簇相似度,重复进行合并,直到所有类簇均不满足条件为止,剩下的类簇即为商品属性。
进一步的,所述步骤4具体为,将文本中未标注词性的情感词集中起来形成候选情感词典集,计算候选情感词与已标注的情感词之间的语义相似度,获取未标注情感词的极性,通过下列公式进行情感极性的计算:
Figure RE-GDA0003015831910000031
其中m为正向基础情感词数量,n为负向基础情感词数量,Sim为相似度计算公式,wordi为正向基础情感词,wordj为负向基础情感词。
进一步的,所述步骤5具体为,由于情感词能被其他词语所修饰,所以构建基于修饰词的词典。
1)构建否定词词典,表示当前情感的反向。
2)构建程度副词词典,表示加强或减弱当前情感词的极性,主要包含“超”、“最”、“很”、“较”、“稍”、“欠”六类。
3)构建连词词典,表示情感的转折或者加强,主要包含“但是”,“也”,“不过”等。
进一步的,所述步骤6包括以下步骤,
步骤6.1基于文本特征的情感值计算,基于步骤5得到的文本特征构建词语的组合规则,通过下列公式实现文本特征情感规则的计算:
默认情感词的极性为1或-1,对于程度副词和情感词的组合以及部分连词和情感词的组合有如下规则:
emotion=extent*word
其中extent表示情感词前面最近的连词或程度副词所占权重。
对于否定词和情感词的组合有如下规则:
emotion=(-1)n*word
其中,n为否定词数量。
对于连词、否定词以及程度词的组合,有如下规则:
emotiontext=(-1)n*extent1*extent2*word
其中extent1为程度副词权重,extent2为连词权重。
步骤6.2基于用户特征的计算,用户作为文本情感的发布者,在一定程度上对文本的情感产生影响,通过下列公式实现用户特征情感规则的计算:
Figure RE-GDA0003015831910000041
其中agr表示点赞数,com表示评论数,VIP表示是否是会员。
步骤6.3基于商品特征的计算,通过下列公式实现:
Figure RE-GDA0003015831910000042
步骤6.4基于以上公式,对用户特征、文本特征、商品特征进行加权得到如下公式:
emotionZong=α*emotiontext+β*emotionuser+γ*emotiongoods
在上述情感计算规则的基础上对未标注情感的文本进行标注,以此构建半监督训练集。
进一步的,所述步骤7具体为,以TF-IDF作为机器学习算法的特征选择,结合带标签的半监督训练集进行训练,以未分类文本同样进行预处理和TF-IDF 特征作为训练好的模型的输入,得到SVM算法的情感分类结果。
发明的有益效果是:
1.本发明将评论文本特征(连词、否定词、程度词)、用户特征(点赞数、评论数、会员认证)以及商品特征(评分)考虑进来进行训练集情感倾向的计算,以此提高带标签半监督训练集构建的准确度。
2.本发明相对于现有情感分析方法,具有较高准确度、高效率等优势;相对于现有的情感分析算法,引入文本特征、用户特征、商品特征的多特征融合方法,具有更精准的情感挖掘的能力,使改进后的算法考虑的因素更全面。
附图说明
附图1是本发明总体流程图。
附图2是本发明Skip-Gram架构图。
附图3是本发明基于离差交错的凝聚式层次聚类图。
附图4是本发明基于SVM商品评论情感分类的流程图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
主要通过计算文本情感倾向实现文本情感分类,采用基于多特征融合的情感分析算法,通过结合用户特征、商品特征、文本特征计算规则获取文本情感倾向,基于已获取情感标签的文本构建训练集,提高了情感分析的准确度。
一种基于多特征融合的商品评论情感分析方法,其特征在于,所述情感分析方法包括以下步骤:
步骤1:对数据集进行噪音过滤、分词、词性筛选、以及词频和文档频率的统计,得到预处理后的低噪高可用性数据集;
步骤2:对步骤1预处理的数据,使用word2Vec对其进行基于上下文的词向量嵌入,得到基于上下文预测的词向量;
步骤3:对步骤2中的名词的词向量进行基于词语共现度的聚类,获得商品的属性;
步骤4:对步骤3中的属性进行基于商品属性情感词的获取,获得商品的情感词,对已有的情感词典进行情感词扩充,得到扩充的情感词典;
步骤5:对步骤4的扩充的情感词典,构建连词词典、否定词词典、程度词典,得到商品评论的文本特征;
步骤6:对步骤5的词典,结合用户特征,商品特征以及文本特征得到基于多特征融合的文本情感极性计算规则,并在此基础上构建半监督的训练集;
步骤7:对步骤6的训练集,使用SVM方法进行训练,对未知情感的文本进行情感分类,实现对商品评论的情感分析。
进一步的,所属步骤1具体为:对商品评论数据集进行基于表情符号、图片链接等标签的过滤,并将过滤后的结果进行分词,词性的筛选,统计词频和文档频率,词性将作为商品聚类和词典构建的依据,最终得到低噪高可用性的数据集。
进一步的,所述步骤2具体为,将文本分词结果输入到word2Vec模型中进行训练,使用Skip-Gram得到当前词的基于上下文预测的词向量,最终获得所有词语的词向量。
进一步的,所述步骤3包括以下步骤,
步骤3.1:对获取到的分词结果进行名词词性的筛选,通过下列公式进行商品和属性的共现相似度计算:
Figure RE-GDA0003015831910000061
Figure RE-GDA0003015831910000062
Figure RE-GDA0003015831910000063
其中pt是所有文本,R(wk|wl)表示在wl出现的情况下,wk出现的概率,Pj是同时包含以上两词的文本。该计算方法避免了文本的基数过大导致相似度的计算结果过小的问题。
步骤3.2:使用凝聚式层次聚类算法对商品属性进行聚类,首先将所有词都看成一个个独立的类簇,将相似度满足初始设定的阈值条件类簇进行合并,离差交错更新类簇相似度,重复进行合并,直到所有类簇均不满足条件为止,剩下的类簇即为商品属性。
进一步的,所述步骤4具体为,将文本中未标注词性的情感词集中起来形成候选情感词典集,计算候选情感词与已标注的情感词之间的语义相似度,获取未标注情感词的极性,通过下列公式进行情感极性的计算:
Figure RE-GDA0003015831910000064
其中m为正向基础情感词数量,n为负向基础情感词数量,Sim为相似度计算公式,wordi为正向基础情感词,wordj为负向基础情感词。
进一步的,所述步骤5具体为,由于情感词能被其他词语所修饰,所以构建基于修饰词的词典。
1)构建否定词词典,表示当前情感的反向。
2)构建程度副词词典,表示加强或减弱当前情感词的极性,主要包含“超”、“最”、“很”、“较”、“稍”、“欠”六类。
3)构建连词词典,表示情感的转折或者加强,主要包含“但是”,“也”,“不过”等。
进一步的,所述步骤6包括以下步骤,
步骤6.1基于文本特征的情感值计算,基于步骤5得到的文本特征构建词语的组合规则,通过下列公式实现文本特征情感规则的计算:
默认情感词的极性为1或-1,对于程度副词和情感词的组合以及部分连词和情感词的组合有如下规则:
emotion=extent*word
其中extent表示情感词前面最近的连词或程度副词所占权重。
对于否定词和情感词的组合有如下规则:
emotion=(-1)n*word
其中,n为否定词数量。
对于连词、否定词以及程度词的组合,有如下规则:
emotiontext=(-1)n*extent1*extent2*word
其中extent1为程度副词权重,extent2为连词权重。
步骤6.2基于用户特征的计算,用户作为文本情感的发布者,在一定程度上对文本的情感产生影响,通过下列公式实现用户特征情感规则的计算:
Figure RE-GDA0003015831910000071
其中agr表示点赞数,com表示评论数,VIP表示是否是会员。
步骤6.3基于商品特征的计算,通过下列公式实现:
Figure RE-GDA0003015831910000081
步骤6.4基于以上公式,对用户特征、文本特征、商品特征进行加权得到如下公式:
emotionZong=α*emotiontext+β*emotionuser+γ*emotiongoods
在上述情感计算规则的基础上对未标注情感的文本进行标注,以此构建半监督训练集。
进一步的,所述步骤7具体为,以TF-IDF作为机器学习算法的特征选择,结合带标签的半监督训练集进行训练,以未分类文本同样进行预处理和TF-IDF 特征作为训练好的模型的输入,得到SVM算法的情感分类结果。
实施例2
从图1可以看出,采用本发明给出的方法,对已有数据预处理和词频、文档频率的统计,进行情感词典的扩充,使用多特征融合方法构建半监督训练集,最终实现高准确率的情感分析方法,首先在已有数据集进行去噪和预处理,对商品属性进行聚类,并基于已有情感词典进行针对商品属性的情感词扩充,然后通过基于多特征融合的情感分析算法进行情感标签的计算和半监督训练集的构建,最后基于构建好的训练集使用SVM进行分类,这与本发明目标一致。
第一步、多元数据集预处理
由于数据集中包含大量人为的无用信息,会影响分类的精度,因此本发明首先对数据集进行预处理,包含脏数据和噪音的过滤、图片等链接的过滤,对过滤后的结果进行分词处理,保留后续情感词典和本发明多特征融合算法所需要的词性,统计词频和文档频率,最终得到低噪高可用性的数据。
第二步、基于word2Vec词向量嵌入
根据图2所示,由于Skip-Gram能够根据词语的上下文语境构建词语的向量表示,相比于CBOW表示,该方法有较高的准确度,而且能够有效避免维度爆炸的问题,进行词嵌入处理后,得到基于词向量的文本数据。
第三步、基于凝聚式层次聚类算法的商品聚类
根据图3所示,基于词语共现度使用凝聚式层次聚类算法实现商品的聚类,用离差交错的更新类簇相似度的方法能够有效减小因相似度更新造成的误差,通过如下方式进行更新:
newSim=α*Sim(i,k)+β*Sim(j,k)+γ*Sim(i,j)
其中,α、β、γ为更新类簇的离差交错比例,Sim()为两个类簇之间的相似度,i、j为将要合并的类簇,k为其他现存的类簇。
第四步、情感词典的扩充
考虑到基础情感词典的情感词过少,使用基于语义相似度的方法来计算新词的极性。
Figure RE-GDA0003015831910000091
其中m为正向基础情感词数量,n为负向基础情感词数量,Sim为相似度计算公式,wordi为正向基础情感词,wordj为负向基础情感词,当该词为正向词,与正向情感词的平均相似度大于负向相似度,上式结果为正,符合预期结果。
第五步、构建基于修饰词的词典
本发明具体从三方面构建修饰词词典:
1)构建否定词词典,将否定词的权重设定为-1,表示当前情感的反向。
2)构建程度副词词典,表示加强或减弱当前情感词的极性,主要包含“超”权重为2.0、“最”权重为1.8、“很”权重为1.5、“较”权重为1.1、“稍”权重为0.7、“欠”权重为0.5六类。
3)构建连词词典,表示情感的转折或者加强,主要包含“但是”等权重为 2.0,“也”等权重为1.5,“不过”等权重为1.3。
第六步、基于多特征融合的情感值计算
由于在实施过程中情感词前面存在多种或多个修饰词,使用如下公式实现文本特征的情感值计算:
emotiontext=(-1)n*extent1*extent2*word
其中,由于情感词前面可存在多种不同的否定词,所以对其进行乘方。
由于用户作为文本的发起和传播者,其行为在一定程度上会加强文本的情感倾向,将用户影响考虑进来,实现用户特征的计算:
Figure RE-GDA0003015831910000101
其中agr表示点赞数,com表示评论数,VIP表示是否是会员,是会员的话其值为2,否则为1.5。
基于商品特征的计算,通过下列公式实现:
Figure RE-GDA0003015831910000102
当用户评分较高,文本情感为正,可增强情感,反之,增强负面情感。
对用户特征、文本特征、商品特征进行加权得到如下公式:
emotionZong=α*emotiontext+β*emotionuser+γ*emotiongoods
在上述情感计算规则的基础上对未标注情感的文本进行标注,以此构建半监督训练集。
第七步、基于TF-IDF进行情感分类
根据图4所示,半监督训练集和未分类文本均选择TF-IDF,将未分类文本进行预处理和词嵌入表示,作为SVM训练好的模型的输入,输出文本的标签,该标签作为最终情感分类的结果。
本发明相比于传统的文本情感分析方法,引入文本特征、用户特征、商品特征相结合的方式,能够准确的为半监督训练集打上标签,进而作为分类算法的训练依据,有效提高分类效果,在产品跟踪、服务反馈、意见挖掘以及舆情监控等方面有着深远意义。

Claims (8)

1.一种基于多特征融合的商品评论情感分析方法,其特征在于,所述情感分析方法包括以下步骤:
步骤1:对数据集进行噪音过滤、分词、词性筛选、以及词频和文档频率的统计,得到预处理后的低噪高可用性数据集;
步骤2:对步骤1预处理的数据,使用word2Vec对其进行基于上下文的词向量嵌入,得到基于上下文预测的词向量;
步骤3:对步骤2中的名词的词向量进行基于词语共现度的聚类,获得商品的属性;
步骤4:对步骤3中的属性进行基于商品属性情感词的获取,获得商品的情感词,对已有的情感词典进行情感词扩充,得到扩充的情感词典;
步骤5:对步骤4的扩充的情感词典,构建连词词典、否定词词典、程度词典,得到商品评论的文本特征;
步骤6:对步骤5的词典,结合用户特征,商品特征以及文本特征得到基于多特征融合的文本情感极性计算规则,并在此基础上构建半监督的训练集;
步骤7:对步骤6的训练集,使用SVM方法进行训练,对未知情感的文本进行情感分类,实现对商品评论的情感分析。
2.根据权利要求1所述一种基于多特征融合的商品评论的情感分析方法,其特征在于,所属步骤1具体为:对商品评论数据集进行基于表情符号、图片链接等标签的过滤,并将过滤后的结果进行分词,词性的筛选,统计词频和文档频率,词性将作为商品聚类和词典构建的依据,最终得到低噪高可用性的数据集。
3.根据权利要求1所述一种基于多特征融合的商品评论的情感分析方法,其特征在于,所述步骤2具体为,将文本分词结果输入到word2Vec模型中进行训练,使用Skip-Gram得到当前词的基于上下文预测的词向量,最终获得所有词语的词向量。
4.根据权利要求1所述一种基于多特征融合的商品评论的情感分析方法,其特征在于,所述步骤3包括以下步骤,
步骤3.1:对获取到的分词结果进行名词词性的筛选,通过下列公式进行商品和属性的共现相似度计算:
Figure FDA0002835416130000021
Figure FDA0002835416130000022
Figure FDA0002835416130000023
其中pt是所有文本,R(wk|wl)表示在wl出现的情况下,wk出现的概率,Pj是同时包含以上两词的文本。该计算方法避免了文本的基数过大导致相似度的计算结果过小的问题。
步骤3.2:使用凝聚式层次聚类算法对商品属性进行聚类,首先将所有词都看成一个个独立的类簇,将相似度满足初始设定的阈值条件类簇进行合并,离差交错更新类簇相似度,重复进行合并,直到所有类簇均不满足条件为止,剩下的类簇即为商品属性。
5.根据权利要求1所述一种基于多特征融合的商品评论的情感分析方法,其特征在于,所述步骤4具体为,将文本中未标注词性的情感词集中起来形成候选情感词典集,计算候选情感词与已标注的情感词之间的语义相似度,获取未标注情感词的极性,通过下列公式进行情感极性的计算:
Figure FDA0002835416130000024
其中m为正向基础情感词数量,n为负向基础情感词数量,Sim为相似度计算公式,wordi为正向基础情感词,wordj为负向基础情感词。
6.根据权利要求1所述一种基于多特征融合的商品评论的情感分析方法,其特征在于,所述步骤5具体为,由于情感词能被其他词语所修饰,所以构建基于修饰词的词典。
1)构建否定词词典,表示当前情感的反向。
2)构建程度副词词典,表示加强或减弱当前情感词的极性,主要包含“超”、“最”、“很”、“较”、“稍”、“欠”六类。
3)构建连词词典,表示情感的转折或者加强,主要包含“但是”,“也”,“不过”等。
7.根据权利要求1所述一种基于多特征融合的商品评论的情感分析方法,其特征在于,所述步骤6包括以下步骤,
步骤6.1基于文本特征的情感值计算,基于步骤5得到的文本特征构建词语的组合规则,通过下列公式实现文本特征情感规则的计算:
默认情感词的极性为1或-1,对于程度副词和情感词的组合以及部分连词和情感词的组合有如下规则:
emotion=extent*word
其中extent表示情感词前面最近的连词或程度副词所占权重。
对于否定词和情感词的组合有如下规则:
emotion=(-1)n*word
n为否定词数量。
对于连词、否定词以及程度词的组合,有如下规则:
emotiontext=(-1)n*extent1*extent2*word
其中extent1为程度副词权重,extent2为连词权重。
步骤6.2基于用户特征的计算,用户作为文本情感的发布者,在一定程度上对文本的情感产生影响,通过下列公式实现用户特征情感规则的计算:
Figure FDA0002835416130000031
其中agr表示点赞数,com表示评论数,VIP表示是否是会员。
步骤6.3基于商品特征的计算,通过下列公式实现:
Figure FDA0002835416130000032
步骤6.4基于以上公式,对用户特征、文本特征、商品特征进行加权得到如下公式:
emotionZong=α*emotiontext+β*emotionuser+γ*emotiongoods
在上述情感计算规则的基础上对未标注情感的文本进行标注,以此构建半监督训练集。
8.根据权利要求1所述一种基于多特征融合的商品评论的情感分析方法,其特征在于,所述步骤7具体为,以TF-IDF作为机器学习算法的特征选择,结合带标签的半监督训练集进行训练,以未分类文本同样进行预处理和TF-IDF特征作为训练好的模型的输入,得到SVM算法的情感分类结果。
CN202011476049.6A 2020-12-15 2020-12-15 一种基于多特征融合的商品评论情感分析方法 Active CN112861541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011476049.6A CN112861541B (zh) 2020-12-15 2020-12-15 一种基于多特征融合的商品评论情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011476049.6A CN112861541B (zh) 2020-12-15 2020-12-15 一种基于多特征融合的商品评论情感分析方法

Publications (2)

Publication Number Publication Date
CN112861541A true CN112861541A (zh) 2021-05-28
CN112861541B CN112861541B (zh) 2022-06-17

Family

ID=75997238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011476049.6A Active CN112861541B (zh) 2020-12-15 2020-12-15 一种基于多特征融合的商品评论情感分析方法

Country Status (1)

Country Link
CN (1) CN112861541B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204624A (zh) * 2021-06-07 2021-08-03 吉林大学 一种多特征融合的文本情感分析模型及装置
CN113378577A (zh) * 2021-05-08 2021-09-10 重庆航天信息有限公司 食品安全评价文本情感倾向分析方法
CN113393279A (zh) * 2021-07-08 2021-09-14 北京沃东天骏信息技术有限公司 一种订单数量的预估方法及系统
CN113792552A (zh) * 2021-08-23 2021-12-14 中国电子科技集团公司第三十研究所 一种基于用户产生内容的观点转变指标计算方法
CN114398911A (zh) * 2022-01-24 2022-04-26 平安科技(深圳)有限公司 情感分析方法、装置、计算机设备和存储介质
CN115271816A (zh) * 2022-08-02 2022-11-01 北京信息科技大学 一种基于情绪指数的大宗商品价格预测方法及装置
CN115982473A (zh) * 2023-03-21 2023-04-18 环球数科集团有限公司 一种基于aigc的舆情分析编排系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799667A (zh) * 2012-07-13 2012-11-28 北京工商大学 一种基于非对称距离下的层次聚类方法
CN103761264A (zh) * 2013-12-31 2014-04-30 浙江大学 基于商品评论文档集的概念层次创建方法
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
CN106294532A (zh) * 2016-05-18 2017-01-04 广东电网有限责任公司信息中心 基于微博情感分析的形象评价算法
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN108460010A (zh) * 2018-01-17 2018-08-28 南京邮电大学 一种基于情感分析的综合评分模型实现方法
CN108874937A (zh) * 2018-05-31 2018-11-23 南通大学 一种基于词性结合和特征选择的情感分类方法
CN109101478A (zh) * 2018-06-04 2018-12-28 东南大学 一种面向电商评论文本的Aspect级情感分析方法
CN109359244A (zh) * 2018-10-30 2019-02-19 中国科学院计算技术研究所 一种个性化信息推荐方法和装置
CN111221962A (zh) * 2019-11-18 2020-06-02 重庆邮电大学 一种基于新词扩展与复杂句式扩展的文本情感分析方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799667A (zh) * 2012-07-13 2012-11-28 北京工商大学 一种基于非对称距离下的层次聚类方法
CN103761264A (zh) * 2013-12-31 2014-04-30 浙江大学 基于商品评论文档集的概念层次创建方法
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
CN106294532A (zh) * 2016-05-18 2017-01-04 广东电网有限责任公司信息中心 基于微博情感分析的形象评价算法
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN108460010A (zh) * 2018-01-17 2018-08-28 南京邮电大学 一种基于情感分析的综合评分模型实现方法
CN108874937A (zh) * 2018-05-31 2018-11-23 南通大学 一种基于词性结合和特征选择的情感分类方法
CN109101478A (zh) * 2018-06-04 2018-12-28 东南大学 一种面向电商评论文本的Aspect级情感分析方法
CN109359244A (zh) * 2018-10-30 2019-02-19 中国科学院计算技术研究所 一种个性化信息推荐方法和装置
CN111221962A (zh) * 2019-11-18 2020-06-02 重庆邮电大学 一种基于新词扩展与复杂句式扩展的文本情感分析方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DONG CAO: "Text Sentiment Classification Based on Attention Mechanism and Decomposition Convolutional Neural Network model", 《2020 IEEE INTERNATIONAL CONFERENCE ON ADVANCES IN ELECTRICAL ENGINEERING AND COMPUTER APPLICATIONS》 *
SHUMIN SHI: "A Hierarchical LSTM Model with Multiple Features", 《2017 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING (IALP)》 *
YONG WANG: "LDPC-Coded Optical PPM Communication System", 《PROCEEDINGS OF THE 2010 IEEE》 *
许建飞: "基于依存句法与情感极性融合的", 《江苏科技信息》 *
郝利栋: "基于多路融合卷积神经网络的网购商品情感分类", 《东华大学学报(自然科学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378577A (zh) * 2021-05-08 2021-09-10 重庆航天信息有限公司 食品安全评价文本情感倾向分析方法
CN113204624A (zh) * 2021-06-07 2021-08-03 吉林大学 一种多特征融合的文本情感分析模型及装置
CN113393279A (zh) * 2021-07-08 2021-09-14 北京沃东天骏信息技术有限公司 一种订单数量的预估方法及系统
CN113792552A (zh) * 2021-08-23 2021-12-14 中国电子科技集团公司第三十研究所 一种基于用户产生内容的观点转变指标计算方法
CN113792552B (zh) * 2021-08-23 2023-05-09 中国电子科技集团公司第三十研究所 一种基于用户产生内容的观点转变指标计算方法
CN114398911A (zh) * 2022-01-24 2022-04-26 平安科技(深圳)有限公司 情感分析方法、装置、计算机设备和存储介质
CN115271816A (zh) * 2022-08-02 2022-11-01 北京信息科技大学 一种基于情绪指数的大宗商品价格预测方法及装置
CN115271816B (zh) * 2022-08-02 2023-12-22 北京信息科技大学 一种基于情绪指数的大宗商品价格预测方法及装置
CN115982473A (zh) * 2023-03-21 2023-04-18 环球数科集团有限公司 一种基于aigc的舆情分析编排系统
CN115982473B (zh) * 2023-03-21 2023-06-23 环球数科集团有限公司 一种基于aigc的舆情分析编排系统

Also Published As

Publication number Publication date
CN112861541B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN112861541B (zh) 一种基于多特征融合的商品评论情感分析方法
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN110799981B (zh) 用于与领域无关的方面级别情绪检测的系统和方法
CN111797898B (zh) 一种基于深度语义匹配的在线评论自动回复方法
CN111914096A (zh) 基于舆情知识图谱的公共交通乘客满意度评价方法及系统
Xu et al. Hierarchical emotion classification and emotion component analysis on Chinese micro-blog posts
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
Kaushik et al. A study on sentiment analysis: methods and tools
Lavanya et al. Twitter sentiment analysis using multi-class SVM
CN112991017A (zh) 基于用户评论解析的标签体系精准推荐方法
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
Sultana et al. Sentiment analysis for product review
Zhang et al. A multiclassification model of sentiment for E-commerce reviews
Ashok et al. A personalized recommender system using Machine Learning based Sentiment Analysis over social data
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN112949713A (zh) 一种基于复杂网络的集成学习的文本情感分类方法
Tang et al. Evaluation of Chinese sentiment analysis APIs based on online reviews
Ahmad et al. Ranking system for opinion mining of features from review documents
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
Ghobakhloo et al. Design of a personalized recommender system using sentiment analysis in social media (case study: banking system)
Mir et al. Online fake review detection using supervised machine learning and BERT model
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Wang et al. User and topic hybrid context embedding for finance-related text data mining
Zhang et al. Semi-autonomous data enrichment based on cross-task labelling of missing targets for holistic speech analysis
Reddy et al. Classification of user’s review using modified logistic regression technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant