CN111353044B - 一种基于评论的情感分析方法及系统 - Google Patents

一种基于评论的情感分析方法及系统 Download PDF

Info

Publication number
CN111353044B
CN111353044B CN202010155795.9A CN202010155795A CN111353044B CN 111353044 B CN111353044 B CN 111353044B CN 202010155795 A CN202010155795 A CN 202010155795A CN 111353044 B CN111353044 B CN 111353044B
Authority
CN
China
Prior art keywords
emotion
word
data
dictionary
emotional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010155795.9A
Other languages
English (en)
Other versions
CN111353044A (zh
Inventor
刘群
曹华强
张刚强
王如琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010155795.9A priority Critical patent/CN111353044B/zh
Publication of CN111353044A publication Critical patent/CN111353044A/zh
Application granted granted Critical
Publication of CN111353044B publication Critical patent/CN111353044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/14Travel agencies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理情感分析领域,特别涉及一种基于评论的情感分析方法,该方法包括:获取数据;根据采集的数据构建情感词典,并对情感词典进行初始化;将获取的数据进行清洗,即对数据进行实时解析与预处理得到预处理后数据;将预处理的数据输入到初始化后的情感词典中,对数据的情感进行情感倾向性分类,得到情感分类结果;本发明通过利用词典与规则分类方式来提升相关指标,省却了机器学习模型训练时间优点、另外还不易产生过拟合现象、加入了pagerank算法思想与自定义分类规则集成增强了分类结果准确度。

Description

一种基于评论的情感分析方法及系统
技术领域
本发明涉及自然语言处理情感分析领域,特别涉及一种基于评论的情感分析方法及系统。
背景技术
自21世纪以来,世界范围内的大多数国家都进行了信息化建设,互联网产业得到了飞速的发展,在这大浪潮中电子商务显得格外引人注目;旅游业也充分利用信息通信技术以及互联网平台,让互联网与其自身进行了深度融合,创造新的发展生态。例如,携程网是国内目前优秀的旅游服务网站,拥有大量的用户评价数据,这些海量的主观评论文本数据中无论用户的年龄、地域、性别有何差异,他们总会在评价中使用自然语言来表达自己的情绪,这也导致了如何对这些评价进行处理分析也成为了一个独特的领域。
目前,评论的情感分析方法一般可以通过构造相应的情感词典和利用机器学习算法来对文本进行情感分析、极性分类。授权发明专利号为201610475678.4的《一种基于社交网络数据的情感分析方法》公开了一种使用线性支持向量机模型这种机器学习方法提取训练集上的情感类别特征进行训练,最后得到一个稳定的情感分类模型;然后使用该模型对预测数据集内的情感特征进行预测分析,预测目标数据的情感倾向性。
但是该方法在进行情感倾向性分类时,没有对情感分类模型中的相似性的语句进行情感类别的判断,使得词语类别判断的精确度差;在进行语句词性判断是没有对表情符号进行精确的判别,使得语句的判别准确度差。
发明内容
为解决以上现有技术的问题,本发明为一种基于评论的情感分析方法,该方法包括:
获取实时的评论数据,将实时的评论数据输入到训练好的情感分类模型中,得到情感分类结果,根据分类结果确定游客的喜爱偏好,并将喜爱偏好数据存入系统的存储介质中;
所述情感分类模型的构建过程包括:采用分布式爬虫算法获取评论数据;根据采集的数据与自有语料库构建情感词典;将获取的数据进行实时解析与预处理,得到预处理的数据;利用情感词典对预处理后的数据进行情感倾向性分类,得到训练好的情感分类模型。
优选的,获取数据采用分布式爬虫算法,即根据用户的输入的相关参数进行指定携程旅行景点的客户评论数据的爬取,返回的数据类型为json格式。
优选的,构建情感词典的步骤包括:
步骤1:根据情感词汇本体库筛选正负情感极性以及情感强度,得到基础情感词集B;
步骤2:将常用的颜文字和Emoji进行混合,根据按键值将混合的颜文字和Emoji构造成词典,得到颜文字词典;
步骤3:采用颜文字词典将旅行评论领域数据内的特殊表情符还原为对应的汉字,得到汉字集;
步骤4:对汉字集进行去停用词、分词处理,并计算处理后分词集的tf-idf值,根据tf-idf值对分词集进行筛选,得到词汇集C;
步骤5:B与C取交集,得到种子情感词集S,将种子情感词集加入情感词典Sent-D中;C与B进行取差集运算,得到候选词集CL;
步骤6:采用颜文词典对搜狗全网新闻数据与旅行评论的混合数据进行表情符号还原操作,然后进行去停用词和分词操作;并对得到的词集进行词向量化处理,得到词向量集M-V;
步骤7:利用词向量集M-V计算CLi与Sj调整后的余弦相似性,按相似性的大小进行降序排列;
步骤8:从排列中选择相似性最高的5个种子情感词,若5个种子情感词的情感极性一致,则直接求CLi情感词极性及强度pa,若5个种子情感词的情感极性不一致,则取种子情感词极性数较多的候选词集,计算候选词集CLi情感词极性及强度pa;
步骤9:结合pagerank算法计算CLi情感词极性及强度pb;
步骤10:利用pa与pb加权计算后取得最后的CLi情感词极性及强度p;
步骤11:将候选词的词极性以及计算得到的情感强度加入情感词典Sent-D中。
优选的,情感强度计算方法步骤包括:
根据5个种子情感词的情感极性求情感强度;
若情感极性一致,则求得候选词CLi情感词强度为:
Figure BDA0002404002120000031
若情感极性不一致,则取种子情感词极性数较多的候选词集,计算情感词强度:
Figure BDA0002404002120000032
优选的,pagerank算法包括:确定种子集S在情感词汇本体中对应的情感极性矩阵Y;S的情感强度为:X=(x1,x2,...,xn),
Figure BDA0002404002120000033
根据S情感词的情感极性及强度计算S的情感极性向量为:Z=X×Y;
定义义图G=<N,M>,|N|=|S|+|W|,其矩阵M的结点间的无向图链接关系为|W|×|N|;根据调整后余弦相似度将M可分解为|W|×|S|的矩阵U和|W|×|W|的子矩阵V;将种子词集S的正向词置前,负向词置后;对U、V和Z作归一化处理,并进行迭代计算,得到候选词情感强度及极性向量P。
优选的,情感极性包括:正面情感极性及强度用0~10之间的值表示,负面情感词及强度用-10~0之间的值表示。
优选的,情感分类模型包括:
步骤1:对待分类的评论进行颜文字替换、去停用以及分词操作,得到待分类词列表LP;
步骤2:将待分类词列表LP分为i个待分类词子列表,并判断待分类词子列表是否存在于情感词典中;若存在,将待分类词子列表添加到情感列表LS中;若不存在,则进行下一步;
步骤3:采用情感倾向计算公式计算待分类评论的情感倾向St,并根据情感倾向进行分类。
优选的,情感倾向计算公式计为:
Figure BDA0002404002120000041
一种基于评论的情感分析系统,所述系统包括:数据采集模块、数据清洗模块、数据分析模块以及数据可视化模块;
所述数据采集模块用于从互联网中实时的爬取携程旅行指定景点的客户体验评价数据,并将数据发送给数据清洗模块;
所述数据清洗模块用于将数据采集模块发送的数据进行实时解析与预处理,得到解析后半结构化的评论数据,并将解评论数据发送给数据分析模块;
所述数据分析模块包括情感词典自动构建模块和情感分类模块;
所述情感词典自动构建模块用于构建情感词典,将评论数据输入情感词典构建模块,并结合自有语料库共同利用gensim库的word2vec模型训练出词向量,利用这些向量计算后可得到情感词典;
所述情感分类模块将情感词典的数据进行情感正负向性分类,并将分类结果发送给数据可视化模块;
所述数据可视化模块用于将分类结果进行可视化展现。
本发明在进行词的相似性判定时采用调整后的余弦相似性,提高了词向量位置的作用,使得判断更精确;在对词进行分类时加入了情感强度,使得在进行词分类时其结果更准确;本发明在构建情感词典时通过颜文字和Emoji构建了颜文字词典,使得句子中的颜文字能够更加精确的被识别,提升了类别判断的准确度。
附图说明
图1为本发明的总体流程图;
图2为本发明的系统流程示意图。
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明为一种基于评论的情感分析方法,如图1所示,该方法包括:
获取实时的评论数据,将实时的评论数据输入到训练好的情感分类模型中,得到情感分类结果,根据分类结果确定游客的喜爱偏好,并将喜爱偏好数据存入系统的存储介质中;
所述情感分类模型的构建过程包括:采用分布式爬虫算法获取评论数据;根据采集的数据与自有语料库构建情感词典;将获取的数据进行实时解析与预处理,得到预处理的数据;利用情感词典对预处理后的数据进行情感倾向性分类,得到训练好的情感分类模型。
获取数据采用分布式爬虫算法,即根据用户的输入的相关参数进行指定携程旅行景点的客户评论数据的爬取,返回的数据类型为json格式。
所述对数据进行实时解析的过程包括:将爬取到的html文本,从中选择评论编号字段,评价内容字段,评价时间字段,费用字段构建新的json格式数据;例如会输出这样的(id:1,comment:玩的很高兴,time:20200101,cost:2500)。
其中,id表示评论编号,comment为评价内容字段,time为评价时间字段,cost为该产品价格字段。
所述预处理的过程包括:仅针对评价内容字段,评价内容使用颜文字词典将特殊符号替换为汉字,之后对其进行去停用词,分词等操作。
构建情感词典的步骤包括:
步骤1:根据情感词汇本体库筛选正负情感极性以及情感强度,得到基础情感词集B;
其中,情感词汇本体库为大连理工大学信息检索研究室的情感词汇本体库,基础情感集B的情感强度大于7。
步骤2:将常用的颜文字和Emoji进行混合,根据按键值将混合的颜文字和Emoji构造成词典,得到颜文字词典;
所述颜文字为字符类型的表情,Emoji为图像类型的表情,颜文字词典为将表情对应为相应的汉字的词典。
步骤3:采用颜文字词典将旅行评论领域数据内的特殊表情符还原为对应的汉字,得到汉字集;
步骤4:对汉字集进行去停用词、分词处理,计算处理后分词集的tf-idf值,根据tf-idf值对分词集进行筛选,得到词汇集C;
所述tf-idf值进行筛选的判别条件为:tf-idf>0.6,tf-idf(Term Frequency-inverse Document Frequency)用以评估一个单词在该语料中的重要程度。
求一个词在评论中出现的频率的公式为:
Figure BDA0002404002120000061
其中,tfi,j表示词i在文本j中出现的频率,ni,j为词i在文本j中出现的频次,分母
Figure BDA0002404002120000062
表示所有在文档j中出现的所有词的次数之和;
IDF(Inverse Document Frequency):逆文档频率。公式如下:
Figure BDA0002404002120000063
其中,idfi表示词i的逆文档频率,N表示总的评论数,ni表示词i出现的总评论数。
tf-idf的计算方法公式为:
tfidfi,j=tfi,j×idfi
其中,tfidfi,j表示词i在文本j中的tf-idf值。
步骤5:将基础情感词集B与词汇集C取交集,得到种子情感词集S,将种子情感词集加情感词典Sent-D;词汇集C与基础情感词集B进行差运算,得到候选词集CL;
步骤6:采用颜文词典对搜狗全网新闻数据与旅行评论的混合数据进行表情符号还原操作,并进行去停用词、分词等操作;并对得到的词集进行词向量化处理,得到词向量集M-V;
所述词向量化操作采用python的gensim库提供的word2vec模型工具包,读取语料,待其训练完成后得到语料对应的词向量集。
步骤7:利用词向量集计算候选词集的子集CLi与种子情感词集的子集Sj的余弦相似性,并按相似性的大小进行降序排列;
计算调整后的余弦相似性表达式为:
Figure BDA0002404002120000071
其中,CLi∈CL、Sj∈S,
Figure BDA0002404002120000072
表示候选词
Figure BDA0002404002120000073
向量各维度和的平均值构造向量,
Figure BDA0002404002120000074
表示种子情感词
Figure BDA0002404002120000075
向量各维度和平均值构造的向量。
计算候选词CLi在种子情感词集合S中的相似度
Figure BDA0002404002120000076
然后按其值大小进行排序,取得CLi在种子情感词集S中
Figure BDA0002404002120000077
值前5的种子情感词。
步骤8:从排列中选择相似性最高的5个种子情感词,若5个种子情感词的情感极性一致,则直接求CLi情感词极性及强度pa,若5个种子情感词的情感极性不一致,则取种子情感词极性数较多的候选词集,计算候选词集CLi情感词极性及强度pa;
步骤9:结合pagerank算法计算出CLi情感词极性及强度pb;
步骤10:利用pa与pb加权计算后取得最后的CLi情感词极性及强度p;
其中加权计算方法为:
Figure BDA0002404002120000081
步骤11:将候选词的词极性以及计算得到的情感强度加入情感词典Sent-D中;
其中,Emoji表示情感含义符号数据,tf-idf表示评估一个单词在该语料中的重要程度,Sent-D表示情感词典。
情感强度计算方法步骤包括:
根据5个种子情感词的情感极性求情感强度;
若情感极性一致,则求得候选词CLi情感词强度为:
Figure BDA0002404002120000082
若情感极性不一致,则取种子情感词极性数较多的候选词集,计算情感词强度:
Figure BDA0002404002120000083
其中,n为种子情感词极性数较多方的词个数,Ps表示。
情感分类方法包括:
步骤1:对待分类的评论进行颜文字替换、去停用以及分词操作,得到待分类词列表LP;
步骤2:将待分类词列表LP分为i个待分类词子列表,并判断待分类词子列表是否存在于情感词典中;若存在,将待分类词子列表添加到情感列表LS中;若不存在,则进行下一步;
步骤3:采用情感倾向计算公式计算待分类评论的情感倾向St,并根据情感倾向进行分类。
pagerank算法包括:
确定种子集S在情感词汇本体中对应的情感极性矩阵Y;即
Figure BDA0002404002120000091
其中,当情感词属于正面情感词时,yi=1,反之,yi=-1。
S的情感强度为:X=(x1,x2,...,xn),
Figure BDA0002404002120000092
其中,oi为种子情感词在情感词汇本体库中对应的情感强度
计算S情感词情感极性及强度向量为:Z=X×Y;
定义义图G=<N,M>,|N|=|S|+|W|,其矩阵M的结点间的无向图链接关系为|W|×|N|,Mij为结点i与结点j间利用步骤6计算的调整后的余弦相似度;根据调整后余弦相似度将M可分解为|W|×|S|的矩阵U和|W|×|W|的子矩阵V,Uij为CLi和Sj之间利用步骤6计算的调整后余弦相似度;种子词集S中将正向词置前,负向词置后;Vij为CLi和CLj之间利用S6计算的调整后余弦相似度,对U、V和Z作归一化处理,并进行迭代计算,得到候选词情感强度及极性向量P;迭代计算的表达式为:
Pt=(1-β)UZ+βVPt-1
其中,oi为种子情感词在情感词汇本体库中对应的情感强度,N为结点集合,|S|为种子情感词数,|W|为CL词数,t表示迭代次数,β—衰减因子(通常取值为0.85),U—相似矩阵,p表示CL的情感极性及强度,P0=0。
情感分类模型包括:
步骤1:对待分类的评论进行颜文字替换、去停用以及分词操作,得到待分类词列表LP;
步骤2:将待分类词列表LP分为i个待分类词子列表,并判断待分类词子列表是否存在于情感词典中;若存在,将待分类词子列表添加到情感列表LS中;若不存在,则进行下一步;
步骤3:采用情感倾向计算公式计算待分类评论的情感倾向St,并更具情感倾向进行分类。
情感倾向计算公式计为:
Figure BDA0002404002120000101
其中,ti表示情感词极性,pi表示情感词强度,St表示该评论的倾向。
一种基于评论的情感分析系统,如图2所示,所述系统包括:数据采集模块、数据清洗模块、数据分析模块以及数据可视化模块;
所述数据采集模块用于从互联网中实时的爬取携程旅行指定景点的客户体验评价数据,并将数据发送给数据清洗模块;
所述数据清洗模块用于将数据采集模块发送的数据进行实时解析与预处理,得到解析后半结构化的评论数据,并将解评论数据发送给数据分析模块;
所述数据分析模块包括情感词典自动构建模块和情感分类模块;
所述情感词典自动构建模块用于构建情感词典,将解评论数据输入情感词典中,得到训练后的情感词典;
所述情感分类模块用于将情感词典处理后的数据进行情感正负向性分类,并将分类结果发送给数据可视化模块;
所述数据可视化模块用于将分类结果进行可视化展现。
该系统的工作流如下述:
步骤1:用户首先打开情感词典自动构建模块进行情感词典初始化操作,将领域语料路径录入模块当中,模块会自动构建出基于该语料的词典,在之后的运行中,自动构建模块每日都会根据当天所处理的评论数据集更新情感词典。
步骤2:在用户操作下,数据采集模块被激活,采集模块是一个被分布式部署的爬虫程序,它根据用户输入的相关参数进行指定携程旅行景点的客户评论数据的爬取,返回的数据类型为json格式。
步骤3:当json格式的数据成功返回时,数据清洗模块被成功激活,本方案中的清洗方案是用户可模块化定制的,同一个采集模块所返回的数据可经由不同的用户定义数据清洗模块处理。将步骤2返回的数据按用户配置的数据清洗模块进行实时解析与预处理。处理后数据一份会通过开源关系数据库进行持久化并同时将其传入数据分析模块中。
步骤4:步骤3预处理后的评价数据将会被传送到数据分析模块,数据分析模块会读取S0产生的情感词典并籍由分类模块的模型完成情感倾向性分类工作。分类的结果将保存在开源关系数据库mysql中进行持久化。
步骤5:在用户启动了数据可视化模块后,该模块会以30秒为单位,周期性读取开源关系数据库mysql中的结果集并按界面配置的显示图表进行可视化展示。
系统的实施例与方法的实施例相似。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于评论的情感分析方法,其特征在于:获取实时的评论数据,将实时的评论数据输入到训练好的情感分类模型中,得到情感分类结果,根据分类结果确定游客的喜爱偏好,并将喜爱偏好数据存入系统的存储介质中;
所述情感分类模型的构建过程包括:采用分布式爬虫算法获取评论数据;根据采集的数据与自有语料库构建情感词典;将获取的数据进行实时解析与预处理,得到预处理的数据;利用情感词典对预处理后的数据进行情感倾向性分类,得到训练好的情感分类模型;构建情感词典的步骤包括:
步骤1:根据情感词汇本体库筛选正负情感极性以及情感强度,得到基础情感词集B;
步骤2:将常用的颜文字和Emoji进行混合,根据按键值将混合的颜文字和Emoji构造成词典,得到颜文字词典;
步骤3:采用颜文字词典将旅行评论领域数据内的特殊表情符还原为对应的汉字,得到汉字集;
步骤4:对汉字集进行去停用词、分词处理,计算处理后分词集的tf-idf值,根据tf-idf值对分词集进行筛选,得到词汇集C;
步骤5:B与C取交集,得到种子情感词集S,将种子情感词集加入情感词典Sent-D中;C与B进行取差集运算,得到候选词集CL;
步骤6:采用颜文词典对新闻数据与旅行评论的混合数据进行表情符号还原操作,并进行去停用词和分词操作;并对得到的词集进行词向量化处理,得到词向量集M-V;
步骤7:利用词向量集M-V计算CLi与Sj调整后的余弦相似性,按相似性的大小进行降序排列;CLi表示候选词集的子集,Sj表示种子情感词集的子集;
步骤8:从排列中选择相似性最高的5个种子情感词,若5个种子情感词的情感极性一致,则直接求CLi情感词极性及强度pa,若5个种子情感词的情感极性不一致,则取种子情感词极性数较多的候选词集,计算候选词集CLi情感词极性及强度pa;
步骤9:结合pagerank算法计算CLi情感词极性及强度pb;
步骤10:利用pa与pb加权计算后取得最后的CLi情感词极性及强度p;
步骤11:将候选词的词极性以及计算得到的情感强度加入情感词典Sent-D中;
其中,Emoji表示情感含义符号数据,tf-idf表示评估一个单词在该语料中的重要程度,Sent-D表示情感词典。
2.根据权利要求1所述的一种基于评论的情感分析方法,其特征在于,所述情感强度计算方法步骤包括:
根据5个种子情感词的情感极性求情感强度;
若情感极性一致,则求得候选词CLi情感词强度为:
Figure FDA0003839898790000021
若情感极性不一致,则取种子情感词极性数较多的候选词集,计算情感词强度:
Figure FDA0003839898790000022
其中,n为种子情感词极性数较多方的词个数,
Figure FDA0003839898790000023
表示种子情感词Sj的情感强度。
3.根据权利要求1所述的一种基于评论的情感分析方法,其特征在于,所述pagerank算法包括:确定种子集S在情感词汇本体中对应的情感极性矩阵Y;S的情感强度为:X=(x1,x2,...,xn),
Figure FDA0003839898790000024
根据S情感词的情感极性及强度计算S的情感极性向量为:Z=X×Y;
定义图G=<N,M>,|N|=|S|+|W|,矩阵M的结点间的无向图链接关系为|W|×|N|;根据调整后余弦相似度将M分解为|W|×|S|的矩阵U和|W|×|W|的子矩阵V;将种子词集S的正向词置前,负向词置后;对U、V和Z作归一化处理,并进行迭代计算,得到候选词情感强度及极性向量P;
其中,oi为种子情感词在情感词汇本体库中对应的情感强度,N为结点集合,|S|为种子情感词数,|W|为CL词数。
4.根据权利要求1所述的一种基于评论的情感分析方法,其特征在于,所述情感极性包括:正面情感极性及强度用0~10之间的值表示,负面情感词及强度用-10~0之间的值表示。
5.根据权利要求1所述的一种基于评论的情感分析方法,其特征在于,所述情感分类模型包括:
步骤1:对待分类的评论进行颜文字替换、去停用以及分词操作,得到待分类词列表LP;
步骤2:将待分类词列表LP分为i个待分类词子列表,并判断待分类词子列表是否存在于情感词典中;若存在,将待分类词子列表添加到情感列表LS中;若不存在,则进行下一步;
步骤3:采用情感倾向计算公式计算待分类评论的情感倾向St,并根据情感倾向进行分类。
6.根据权利要求5所述的一种基于评论的情感分析方法,其特征在于,所述情感倾向计算公式计为:
Figure FDA0003839898790000031
其中,ti表示情感词极性,pi表示情感词强度,St表示该评论的倾向。
7.一种基于评论的情感分析系统,该系统用于执行权利要求1~6所述的任意一种基于评论的情感分析方法,其特征在于,所述系统包括:数据采集模块、数据清洗模块、数据分析模块以及数据可视化模块;
所述数据采集模块采用分布式爬虫算法从互联网中实时的爬取客户评论数据,并将数据发送给数据清洗模块;
所述数据清洗模块用于将数据采集模块发送的数据进行实时解析与预处理,得到解析后半结构化的评论数据,并将解评论数据发送给数据分析模块;
所述数据分析模块包括情感词典自动构建模块和情感分类模块;
所述情感词典自动构建模块用于构建情感词典,将评论数据输入情感词典构建模块,并结合自有语料库共同利用gensim库的word2vec模型训练出词向量,利用这些向量计算后可得到情感词典;
所述情感分类模块将情感词典的数据进行情感正负向性分类,并将分类结果发送给数据可视化模块;
所述数据可视化模块用于将分类结果进行可视化展现。
8.根据权利要求7所述的一种基于评论的情感分析系统,其特征在于,所述情感词典自动构建模块中构建过程包括:
根据情感词汇本体库筛选正负情感极性以及情感强度,得到基础情感词集B;将常用的颜文字和Emoji进行去重处理,得到颜文字词典;采用颜文词典将旅行评论领域数据内的特殊表情符还原为对应的汉字,得到汉字集;对汉字集进行去停用词、分词处理,并计算处理后的分词集的tf-idf值,根据tf-idf值进行筛选得到词汇集C;将B与C取交集,得到词集S,将S加入情感词典Sent-D;C与B进行差集运算得到候选词集CL;采用颜文词典对新闻数据与旅行评论的混合数据进行表情符号还原操作,对操作后得到的数据进行去停用词和分词处理;并对得到的词集进行词向量化操作得到词向量集M-V;利用M-V计算CLi与Sj的调整后的余弦相似性,并按相似度进行降序排列;从S中取出该候选词相似性最高的5个种子情感词,若其情感极性一致则取其情感强度和的均值作为该候选词情感强度;当其情感极性不一致时选择其多数情感倾向作为该候选词的极性,情感强度计算方式不变;利用pagerank算法思想计算另一组CLi的情感极性;将上述得到的两组情感极性进行加权求平均值,得到最后的情感极性及强度;将该候选词的词极性及强度加入情感词典Sent-D;
其中,Emoji表示情感含义符号数据,tf-idf表示评估一个单词在该语料中的重要程度,Sent-D表示情感词典,CL表示候选词集。
9.根据权利要求7所述的一种基于评论的情感分析系统,其特征在于,所述情感分类模块进行分类的过程包括:
对待分类的评论进行颜文字替换、去停用以及分词操作,得到待分类词列表LP;将待分类词列表LP分为i个待分类词子列表,并判断待分类词子列表是否存在于情感词典中;若存在,将待分类词子列表添加到情感列表LS中;若不存在,则进行下一步;采用情感倾向计算公式计算待分类评论的情感倾向St,并更具情感倾向进行分类。
CN202010155795.9A 2020-03-09 2020-03-09 一种基于评论的情感分析方法及系统 Active CN111353044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010155795.9A CN111353044B (zh) 2020-03-09 2020-03-09 一种基于评论的情感分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010155795.9A CN111353044B (zh) 2020-03-09 2020-03-09 一种基于评论的情感分析方法及系统

Publications (2)

Publication Number Publication Date
CN111353044A CN111353044A (zh) 2020-06-30
CN111353044B true CN111353044B (zh) 2022-11-11

Family

ID=71192615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010155795.9A Active CN111353044B (zh) 2020-03-09 2020-03-09 一种基于评论的情感分析方法及系统

Country Status (1)

Country Link
CN (1) CN111353044B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559743B (zh) * 2020-12-09 2024-02-13 深圳市网联安瑞网络科技有限公司 一种政企网络支持度的计算方法、装置、设备及存储介质
CN113191135A (zh) * 2021-01-26 2021-07-30 北京联合大学 一种融合颜文字的多类别情感提取方法
CN113326694B (zh) * 2021-05-18 2022-09-30 西华大学 基于情感传播的隐式情感词典生成方法
CN113420151A (zh) * 2021-07-13 2021-09-21 上海明略人工智能(集团)有限公司 一种情感极性强度分类方法、系统、电子设备及介质
CN113591487B (zh) * 2021-08-03 2024-04-26 江苏省城市规划设计研究院有限公司 基于深度学习的旅游景点评论情感分析方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012134180A2 (ko) * 2011-03-28 2012-10-04 가톨릭대학교 산학협력단 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN105005553A (zh) * 2015-06-19 2015-10-28 四川大学 基于情感词典的短文本情感倾向分析方法
CN106776581A (zh) * 2017-02-21 2017-05-31 浙江工商大学 基于深度学习的主观性文本情感分析方法
CN107193801A (zh) * 2017-05-21 2017-09-22 北京工业大学 一种基于深度信念网络的短文本特征优化及情感分析方法
CN108733838A (zh) * 2018-05-29 2018-11-02 东北电力大学 基于多极情感分析的用户行为预测系统及其方法
CN109284381A (zh) * 2018-09-27 2019-01-29 南通大学 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法
CN109376251A (zh) * 2018-09-25 2019-02-22 南京大学 一种基于词向量学习模型的微博中文情感词典构建方法
CN109684647A (zh) * 2019-02-19 2019-04-26 东北林业大学 电影评论情感分析方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100306249A1 (en) * 2009-05-27 2010-12-02 James Hill Social network systems and methods
US20160217522A1 (en) * 2014-03-07 2016-07-28 Rare Mile Technologies, Inc. Review based navigation and product discovery platform and method of using same
US20170169008A1 (en) * 2015-12-15 2017-06-15 Le Holdings (Beijing) Co., Ltd. Method and electronic device for sentiment classification

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012134180A2 (ko) * 2011-03-28 2012-10-04 가톨릭대학교 산학협력단 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN105005553A (zh) * 2015-06-19 2015-10-28 四川大学 基于情感词典的短文本情感倾向分析方法
CN106776581A (zh) * 2017-02-21 2017-05-31 浙江工商大学 基于深度学习的主观性文本情感分析方法
CN107193801A (zh) * 2017-05-21 2017-09-22 北京工业大学 一种基于深度信念网络的短文本特征优化及情感分析方法
CN108733838A (zh) * 2018-05-29 2018-11-02 东北电力大学 基于多极情感分析的用户行为预测系统及其方法
CN109376251A (zh) * 2018-09-25 2019-02-22 南京大学 一种基于词向量学习模型的微博中文情感词典构建方法
CN109284381A (zh) * 2018-09-27 2019-01-29 南通大学 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法
CN109684647A (zh) * 2019-02-19 2019-04-26 东北林业大学 电影评论情感分析方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Emotion Detection of Tweets in Indonesian Language Using LDA and Expression Symbol Conversion";Risma Mustika Cahyaningtyas 等;《2017 1st International Conference on Informatics and Computational Sciences》;20171231;第253-258页 *
"一种融合文本语义和情感分析的好友推荐方法";刘群 等;《系统仿真学报》;20161130;第2852-2859页 *

Also Published As

Publication number Publication date
CN111353044A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN111353044B (zh) 一种基于评论的情感分析方法及系统
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
Mahtab et al. Sentiment analysis on bangladesh cricket with support vector machine
Barbosa et al. Evaluating hotels rating prediction based on sentiment analysis services
CN110096575B (zh) 面向微博用户的心理画像方法
CN104471568A (zh) 对自然语言问题的基于学习的处理
Anees et al. Survey paper on sentiment analysis: Techniques and challenges
CN108733675B (zh) 基于大量样本数据的情感评价方法及装置
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
Sivanantham Sentiment analysis on social media for emotional prediction during COVID‐19 pandemic using efficient machine learning approach
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN115391570A (zh) 一种基于方面的情感知识图谱构建方法及装置
CN109670922B (zh) 一种基于混合特征的线上图书价值发现方法
Eskandari et al. Predicting best answer using sentiment analysis in community question answering systems
Abdi et al. Using an auxiliary dataset to improve emotion estimation in users’ opinions
Hussain et al. A technique for perceiving abusive bangla comments
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN115860283B (zh) 基于知识工作者画像的贡献度预测方法及装置
Dai et al. Research on image of enterprise after-sales service based on text sentiment analysis
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
CN112380422A (zh) 一种基于关键词热度的金融新闻推荐装置
Urkude et al. Comparative analysis on machine learning techniques: a case study on Amazon product
Velammal Development of knowledge based sentiment analysis system using lexicon approach on twitter data
CN113641788B (zh) 一种基于无监督的长短影评细粒度观点挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant