CN110555109A - 基于个人计算机电商评论的多粒度观点挖掘方法 - Google Patents

基于个人计算机电商评论的多粒度观点挖掘方法 Download PDF

Info

Publication number
CN110555109A
CN110555109A CN201910571890.4A CN201910571890A CN110555109A CN 110555109 A CN110555109 A CN 110555109A CN 201910571890 A CN201910571890 A CN 201910571890A CN 110555109 A CN110555109 A CN 110555109A
Authority
CN
China
Prior art keywords
word
emotion
speech
comments
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910571890.4A
Other languages
English (en)
Inventor
姚全珠
陈晨
费蓉
吕鹏
赵佳瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201910571890.4A priority Critical patent/CN110555109A/zh
Publication of CN110555109A publication Critical patent/CN110555109A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于个人计算机电商评论的多粒度观点挖掘方法,首先从网页中获取电商评论,并对评论进行自动化地标注;然后对电商评论进行预处理;对预处理后的语料中单句进行“方面‑观点”对的识别,并区分观点词和方面词;对方面的上下文短语进行短语级别的情感分类;最后对评论整体进行文本级别的情感分类,得到商品整体及各个方面的观点挖掘结果。本发明解决了现有技术中存在的无法自动化地挖掘评论中包含的各个属性方面的反馈信息的问题。

Description

基于个人计算机电商评论的多粒度观点挖掘方法
技术领域
本发明属于计算机自然语言处理技术领域,具体涉及一种基于个人计算机电商评论的多粒度观点挖掘方法。
背景技术
随着网络技术的迅速发展,以及计算机、手机等互联设备的普及,新兴业态快速增长和新商业模式不断涌现,使得人们的消费方式发生了巨大的变革。近年来,网络购物正日益成为一种重要的消费方式,不断推动着电商的蓬勃发展。人们也愈加倾向于借助电商平台来发表自己消费后的感受,于是就产生了大量的网络评论。
网络评论的类型包括新闻评论、图书评论、影视评论以及产品和服务评论,针对电商的网络评论通常是针对某一个商品实体进行描述,并且涵盖较多主观倾向的信息。这其中除了对商品的整体评价之外,通常也会对商品的多个属性方面进行评价,无论对于商家还是消费者,这些细节信息才是他们关注的重点,使用传统的人工方法对评论进行统计、分析和挖掘,已无法满足对海量数据进行快速分析和处理的需求,现有的自动化观点挖掘技术缺乏对电商评论中包含的各个属性方面的反馈信息的挖掘,挖掘这些细粒度的信息,可为消费者作指引,以及商家可以从中得到市场反馈,进而改进服务,提升商品质量。
发明内容
本发明的目的是提供一种基于个人计算机电商评论的多粒度观点挖掘方法,解决了现有技术中存在的无法自动化地挖掘评论中包含的各个属性方面的反馈信息的问题。
本发明所采用的技术方案是,基于个人计算机电商评论的多粒度观点挖掘方法,具体按照以下步骤实施:
步骤1、从网页中获取电商评论,评论中包含评论文本和评论的5分制数字评分,将产品评论按数字评分进行星级划分:将数字评分大于3分的评论定为积极评论,将数字评分小于等于3分的评论定为消极评论,以此作为特征向量类别标注的依据;
步骤2、对步骤1的电商评论进行分词、去除停用词和词性标注操作,得到预处理后的语料;
步骤3、对步骤2得到的预处理后的语料中的每一条评论的每一个单句进行“方面-观点”对的识别,并区分观点词和方面词;
步骤4、提取步骤3识别出的每一个方面的上下文短语,并对方面的上下文短语进行短语级别的情感分析,得到每一个方面的情感倾向度;
步骤5、对于步骤2得到的预处理后语料中的每一条评论,以步骤3中提取出的方面为特征构建特征向量,并训练和测试支持向量机分类器,最后得到商品整体的情感倾向度。
本发明的特点还在于,
步骤1中采用网络爬虫技术将网页上的评论进行抓取,发起请求使用 Python的request模块向电商评论网页站点发起请求,获取响应内容,并对网页中的网络评论和打分星级进行解析和保存。
步骤2中分词所采用的方法是基于词典的正向最大匹配算法,词性标注采用基于隐马尔可夫模型的词性标注方法。
步骤2中基于词典的正向最大匹配算法具体如下:
词典由Python的jieba模块中的词典以及停用词表构成;
首先从网页中获取电商评论中取出一条评论记为字符串s1,并整合台湾大学简体中文情感字典、HowNet、DTUIR三大现有词典组成情感词典,并构建哈希表;
设情感词典中最大词长为maxlen,从字符串s1的左边开始,取出长度不大于maxlen的子串w,同时在哈希表中搜索子串w是否是一个词,若是,则将子串w输出为一个词,若不是一个词,则从子串w的尾部减去一个字,继续迭代地判断子串w是否在哈希表中,直至子串w为空或者字符串s1为空。
步骤2中基于隐马尔可夫模型的词性标注方法具体如下:
此方法分为三个模块:Initialise,Induction,Back tracing the besttagging;
首先在模块Initialise中统计每个词性出现在语料文本句首的概率,并乘以词性喷射出词的概率得到一个词的score分数;
然后在模块Induction中用viterbi算法计算每两个相邻出现的词的score 分数,等于这个词性的初始score分数乘以词性间转换的概率乘以词性喷射到这个词的概率;
从最终score分数中选择分数值大的词性值记录在模块Backpointer中;
最后在模块Back tracing the best tagging中进行从后往前的回溯,得到词性构成的序列串str2
步骤3中对单句进行“方面-观点”对的识别所采用的方法是ASUM模型,使用Gibbs采样估计ASUM模型中的狄利克雷分布参数,然后结合台湾大学简体中文情感字典、HowNet、DTUIR三大情感词典以及基于word2vec 的近义词识别,使用字符串匹配的算法将ASUM模型识别出的<方面,观点> 对中的主题词和观点词进行区分。
步骤4中使用基于语义的方法和句法分析相结合进行短语级别的情感分析,具体如下:
首先根据汉语的句法结构和词性搭配的规则人为构建语义规则和情感权值计算公式,构建的语义规则对应的情感权值计算规则如下:
如果词性搭配为程度副词+情感词,则对应的情感词权值计算为程度副词的权值×情感词权值;
如果词性搭配为否定词+情感词,则对应的情感词权值计算为(-1)×情感词权值;
如果词性搭配为副词+否定词+情感词,则对应的情感词权值计算为程度副词的权值×(-1)×情感词权值;
如果词性搭配为否定词+副词+情感词,则对应的情感词权值计算为(0.5) ×程度副词的权值×情感词权值;
如果词性搭配为单句的情感倾向度,则对应的情感权值计算为∑情感词权值;
情感词权值来自于DTUIR情感词典,通过匹配语料中单句的词性搭配规则,并对单句的情感权值进行计算,得到每一个方面的情感倾向度。
步骤5中具体为:将提取出的方面作为特征,将方面的情感得分值作为特征权重,将电商评论映射成特征向量,并且使用支持向量机分类器对评论进行文档级的情感分类。
本发明的有益效果是,对个人计算机电商评论先做细粒度的观点挖掘,识别出消费者对于评价实体的多个属性,以及对于各个属性表达出的观点,根据消费者评价属性的不同对电商评论进行单句级别的划分,对每一个属性下的单句做情感分析,得出消费者对于评价实体在各个属性维度上的情感倾向;然后再根据不同属性对于商品的重要程度不同,使用属性做特征,特征权重是属性的情感得分值,将一条电商评论映射成特征向量,并且使用半监督的机器学习算法对评论进行分类,做一个粗粒度的观点挖掘,得到消费者对于商品整体的情感倾向,反馈给消费者和商家做决策。
附图说明
图1是基于个人计算机电商评论的多粒度观点挖掘方法流程图;
图2是基于个人计算机电商评论的多粒度观点挖掘方法中ASUM模型。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于个人计算机电商评论的多粒度观点挖掘方法,流程图如图1 所示,具体按照以下步骤实施:
步骤1、从网页中获取电商评论,评论中包含评论文本和评论的5分制数字评分,将产品评论按数字评分进行星级划分:将数字评分大于3分的评论定为积极评论,将数字评分小于等于3分的评论定为消极评论,以此作为特征向量类别标注的依据;
步骤2、对步骤1的电商评论进行分词、去除停用词和词性标注操作,得到预处理后的语料;
步骤3、对步骤2得到的预处理后的语料中的每一条评论的每一个单句进行“方面-观点”对的识别,并区分观点词和方面词;
步骤4、提取步骤3识别出的每一个方面的上下文短语,并对方面的上下文短语进行短语级别的情感分析,得到每一个方面的情感倾向度;
步骤5、对于步骤2得到的预处理后语料中的每一条评论,以步骤3中提取出的方面为特征构建特征向量,并训练和测试支持向量机分类器,最后得到商品整体的情感倾向度。
其中,步骤1中采用网络爬虫技术将网页上的评论进行抓取,发起请求使用Python的request模块向电商评论网页站点发起请求,获取响应内容,并对网页中的网络评论和打分星级进行解析和保存。
步骤2中分词所采用的方法是基于词典的正向最大匹配算法,词性标注采用基于隐马尔可夫模型的词性标注方法。
步骤2中基于词典的正向最大匹配算法具体如下:
词典由Python的jieba模块中的词典以及停用词表构成;
首先从网页中获取电商评论中取出一条评论记为字符串s1,并整合台湾大学简体中文情感字典、HowNet、DTUIR三大现有词典组成情感词典,并构建哈希表;
设情感词典中最大词长为maxlen,从字符串s1的左边开始,取出长度不大于maxlen的子串w,同时在哈希表中搜索子串w是否是一个词,若是,则将子串w输出为一个词,若不是一个词,则从子串w的尾部减去一个字,继续迭代地判断子串w是否在哈希表中,直至子串w为空或者字符串s1为空。
步骤2中基于隐马尔可夫模型的词性标注方法具体如下:
此方法分为三个模块:Initialise,Induction,Back tracing the besttagging;
首先在模块Initialise中统计每个词性出现在语料文本句首的概率,并乘以词性喷射出词的概率得到一个词的score分数;
然后在模块Induction中用viterbi算法计算每两个相邻出现的词的score 分数,等于这个词性的初始score分数乘以词性间转换的概率乘以词性喷射到这个词的概率;
从最终score分数中选择分数值大的词性值记录在模块Backpointer中;
最后在模块Back tracing the best tagging中进行从后往前的回溯,得到词性构成的序列串str2
步骤3中对单句进行“方面-观点”对的识别所采用的方法是ASUM模型,如图2所示,使用Gibbs采样估计ASUM模型中的狄利克雷分布参数,然后结合台湾大学简体中文情感字典、HowNet、DTUIR三大情感词典以及基于word2vec的近义词识别,使用字符串匹配的算法将ASUM模型识别出的<方面,观点>对中的主题词和观点词进行区分。
步骤4中使用基于语义的方法和句法分析相结合进行短语级别的情感分析,具体如下:
首先根据汉语的句法结构和词性搭配的规则人为构建语义规则和情感权值计算公式,构建的语义规则对应的情感权值计算规则如下:
如果词性搭配为程度副词+情感词,则对应的情感词权值计算为程度副词的权值×情感词权值;
如果词性搭配为否定词+情感词,则对应的情感词权值计算为(-1)×情感词权值;
如果词性搭配为副词+否定词+情感词,则对应的情感词权值计算为程度副词的权值×(-1)×情感词权值;
如果词性搭配为否定词+副词+情感词,则对应的情感词权值计算为(0.5) ×程度副词的权值×情感词权值;
如果词性搭配为单句的情感倾向度,则对应的情感权值计算为∑情感词权值;
情感词权值来自于DTUIR情感词典,通过匹配语料中单句的词性搭配规则,并对单句的情感权值进行计算,得到每一个方面的情感倾向度。
步骤5中具体为:将提取出的方面作为特征,将方面的情感得分值作为特征权重,将电商评论映射成特征向量,并且使用支持向量机分类器对评论进行文档级的情感分类。
本发明基于个人计算机电商评论的多粒度观点挖掘方法中,个人计算机电商评论中的方面包括内存、显卡、容量、驱动、散热、电池、电池、键盘、屏幕、价格、鼠标、速度等。
python的request模块是基于urllib编写的,采用的是Apache2 Licensed 开源协议的HTTP库,使用request模块进行爬虫的基本流程包括如下:
(1)发起请求:通过HTTP库向目标站点发起请求,请求可以包含额外的header等信息,等待服务器响应
(2)获取响应内容:如果服务器能正常响应,会得到一个Response, Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型
(3)解析内容:得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理
(4)保存数据:保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件
python的jieba模块是一个中文分词组件,支持简、繁体中文,用户还可以加入自定义词典以提高分词的准确率。jieba自带了一个叫做dict.txt的词典,里面有2万多个词,包含了词条出现的次数和词性。
基于隐马尔可夫模型的词性标注方法分为三个模块:Initialise, Induction,Back tracing the best tagging;Initialise是计算每个词性出现在句首的概率,Induction模块是计算每两个相邻的词性共同出现的概率,并将概率值存储在模块Backpointer中,Back tracing the best tagging模块是从 Backpointer中回溯出概率值相乘最大的一条词性序列串。
实施例
首先从京东网页上爬取联想笔记本电脑的评论,从中摘取一条作为语料样本:“外观漂亮,速度还很快哦,最重要的是携带超级方便,电池续航能力很强!就是配送有些慢。”。
根据基于词典的正向最大匹配的算法,从原文中取一条待切分字符串进行分词,此时s1=“外观漂亮,速度还很快哦,最重要的是携带超级方便,电池续航能力很强!配送有些慢。”根据构造的词典确定maxlen为=10,s2初始化为空,将词典构造成哈希表。
从s1的左边选取长度不大于maxlen的子串w=“外观漂亮,速度还很快”, 判断w是否为空,不为空,判断w是否是哈希表中的一个词,遍历哈希表,未找到匹配项。将w的右边减少一个字,w=“外观漂亮,速度还很”,继续迭代。直到w减少成“外观”,在哈希表中查找成功,将住宅添加到s2中, s2=“外观/”。s1=“漂亮,速度还很快哦,最重要的是携带超级方便,电池续航能力很强!配送有些慢。”迭代至s1为空时,此时输出s2=“外观/漂亮/,速度/还很/快,/最/重要/携带/超级/方便/,电池/续航能力/很强/!配送/有些 /慢/。”
分词之后标记词的词性:首先人工标记一部分语料集的词性,然后用 viterbi算法进行训练参数,通过机器学习对剩余的语料集进行自动标注,对未登录词进行平滑处理,对标注后的未登录词进行平滑处理,将正确的语料添加到训练集中继续训练更加可靠的参数。最后输出的语料为“{noun:外观}{adj:漂亮},{noun:速度}{adv:还很}{adj:快},{adv:最}{adj:重要}{v:携带}{adv:超级}{adj:方便},{noun:电池}{noun:续航能力}{adv:很}{adj:强}! {noun:配送}{adv:有些}{adj:慢}”。
按照“,。!;”这些标点符号以及换行符对语料样本进行分割单句:
·{noun:外观}{adj:漂亮},
·{noun:速度}{adv:还很}{adj:快},
·{adv:最}{adj:重要}{v:携带}{adv:超级}{adj:方便},
·{noun:电池}{noun:续航能力}{adv:很}{adj:强}!
·{noun:配送}{adv:有些}{adj:慢}。
使用ASUM模型识别出每一个单句的<方面,观点>对,如下所示:
·<外观,漂亮>
·<速度,很快>
·<携带,超级方便>
·<电池续航能力,很强>
·<配送,有些慢>
通过结合台湾大学简体中文情感字典、HowNet、DTUIR三大情感词典以及基于word2vec的近义词识别,对ASUM模型识别出的<主题,观点>对中的主题词和观点词进行区分,结果如下:
通过汉语的句法结构和词性搭配的规则人为构建语义规则和情感权值计算公式,得出每一个方面的情感得分值,结果如下:
设定阈值为0,大于阈值为积极的情感倾向,小于阈值为消极的情感倾向,得到每一个方面的情感倾向:
最后使用提取出的方面做特征,特征权重是方面的情感得分值,将语料样本映射成特征向量,[0.75,1.25,1.75,1.25,-0.5···],特征的维数由语料中所有评论重提取的方面词的个数决定,并且使用支持向量机分类算法对评论进行文档级的情感分类,输出被评价实体整体和多个属性方面的情感倾向性。
根据本发明的方法成功的得出个人计算机电商评论的整体情感倾向和个人计算机各个属性方面的情感倾向。
本发明通过从个人计算机电商评论中获取消费者对于商品各个属性方面的观点信息,并且分析个人计算机电商评论的情感倾向度,再根据属性对于商品的重要程度不同,将评论整体映射成特征向量,得到商品整体的情感分类结果,可为消费者作指引,以及商家可以从中得到市场反馈,进而改进服务,提升商品质量。

Claims (8)

1.基于个人计算机电商评论的多粒度观点挖掘方法,其特征在于,具体按照以下步骤实施:
步骤1、从网页中获取电商评论,评论中包含评论文本和评论的5分制数字评分,将产品评论按数字评分进行星级划分:将数字评分大于3分的评论定为积极评论,将数字评分小于等于3分的评论定为消极评论,以此作为特征向量类别标注的依据;
步骤2、对步骤1的电商评论进行分词、去除停用词和词性标注操作,得到预处理后的语料;
步骤3、对步骤2得到的预处理后的语料中的每一条评论的每一个单句进行“方面-观点”对的识别,并区分观点词和方面词;
步骤4、提取步骤3识别出的每一个方面的上下文短语,并对方面的上下文短语进行短语级别的情感分析,得到每一个方面的情感倾向度;
步骤5、对于步骤2得到的预处理后语料中的每一条评论,以步骤3中提取出的方面为特征构建特征向量,并训练和测试支持向量机分类器,最后得到商品整体的情感倾向度。
2.根据权利要求1的基于个人计算机电商评论的多粒度观点挖掘方法,其特征在于,所述步骤1中采用网络爬虫技术将网页上的评论进行抓取,发起请求使用Python的request模块向电商评论网页站点发起请求,获取响应内容,并对网页中的网络评论和打分星级进行解析和保存。
3.根据权利要求1的基于个人计算机电商评论的多粒度观点挖掘方法,其特征在于,所述步骤2中分词所采用的方法是基于词典的正向最大匹配算法,词性标注采用基于隐马尔可夫模型的词性标注方法。
4.根据权利要求3的基于个人计算机电商评论的多粒度观点挖掘方法,其特征在于,所述步骤2中基于词典的正向最大匹配算法具体如下:
词典由Python的jieba模块中的词典以及停用词表构成;
首先从网页中获取电商评论中取出一条评论记为字符串s1,并整合台湾大学简体中文情感字典、HowNet、DTUIR三大现有词典组成情感词典,并构建哈希表;
设情感词典中最大词长为maxlen,从字符串s1的左边开始,取出长度不大于maxlen的子串w,同时在哈希表中搜索子串w是否是一个词,若是,则将子串w输出为一个词,若不是一个词,则从子串w的尾部减去一个字,继续迭代地判断子串w是否在哈希表中,直至子串w为空或者字符串s1为空。
5.根据权利要求3的基于个人计算机电商评论的多粒度观点挖掘方法,其特征在于,所述步骤2中基于隐马尔可夫模型的词性标注方法具体如下:
此方法分为三个模块:Initialise,Induction,Back tracing the best tagging;
首先在模块Initialise中统计每个词性出现在语料文本句首的概率,并乘以词性喷射出词的概率得到一个词的score分数;
然后在模块Induction中用viterbi算法计算每两个相邻出现的词的score分数,等于这个词性的初始score分数乘以词性间转换的概率乘以词性喷射到这个词的概率;
从最终score分数中选择分数值大的词性值记录在模块Backpointer中;
最后在模块Back tracing the best tagging中进行从后往前的回溯,得到词性构成的序列串str2
6.根据权利要求1的基于个人计算机电商评论的多粒度观点挖掘方法,其特征在于,所述步骤3中对单句进行“方面-观点”对的识别所采用的方法是ASUM模型,使用Gibbs采样估计ASUM模型中的狄利克雷分布参数,然后结合台湾大学简体中文情感字典、HowNet、DTUIR三大情感词典以及基于word2vec的近义词识别,使用字符串匹配的算法将ASUM模型识别出的<方面,观点>对中的主题词和观点词进行区分。
7.根据权利要求1的基于个人计算机电商评论的多粒度观点挖掘方法,其特征在于,所述步骤4中使用基于语义的方法和句法分析相结合进行短语级别的情感分析,具体如下:
首先根据汉语的句法结构和词性搭配的规则人为构建语义规则和情感权值计算公式,构建的语义规则对应的情感权值计算规则如下:
如果词性搭配为程度副词+情感词,则对应的情感词权值计算为程度副词的权值×情感词权值;
如果词性搭配为否定词+情感词,则对应的情感词权值计算为(-1)×情感词权值;
如果词性搭配为副词+否定词+情感词,则对应的情感词权值计算为程度副词的权值×(-1)×情感词权值;
如果词性搭配为否定词+副词+情感词,则对应的情感词权值计算为(0.5)×程度副词的权值×情感词权值;
如果词性搭配为单句的情感倾向度,则对应的情感权值计算为∑情感词权值;
情感词权值来自于DTUIR情感词典,通过匹配语料中单句的词性搭配规则,并对单句的情感权值进行计算,得到每一个方面的情感倾向度。
8.根据权利要求1的基于个人计算机电商评论的多粒度观点挖掘方法,其特征在于,所述步骤5中具体为:将提取出的方面作为特征,将方面的情感得分值作为特征权重,将电商评论映射成特征向量,并且使用支持向量机分类器对评论进行文档级的情感分类。
CN201910571890.4A 2019-06-28 2019-06-28 基于个人计算机电商评论的多粒度观点挖掘方法 Pending CN110555109A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910571890.4A CN110555109A (zh) 2019-06-28 2019-06-28 基于个人计算机电商评论的多粒度观点挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910571890.4A CN110555109A (zh) 2019-06-28 2019-06-28 基于个人计算机电商评论的多粒度观点挖掘方法

Publications (1)

Publication Number Publication Date
CN110555109A true CN110555109A (zh) 2019-12-10

Family

ID=68735414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910571890.4A Pending CN110555109A (zh) 2019-06-28 2019-06-28 基于个人计算机电商评论的多粒度观点挖掘方法

Country Status (1)

Country Link
CN (1) CN110555109A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260437A (zh) * 2020-01-14 2020-06-09 北京邮电大学 一种基于商品方面级情感挖掘和模糊决策的产品推荐方法
CN111859146A (zh) * 2020-07-30 2020-10-30 网易(杭州)网络有限公司 信息挖掘方法、装置及电子设备
CN113032554A (zh) * 2019-12-24 2021-06-25 Tcl集团股份有限公司 一种决策系统和计算机可读存储介质
CN113254694A (zh) * 2021-05-21 2021-08-13 中国科学技术大学 一种文本转图像方法和装置
CN116629275A (zh) * 2023-07-21 2023-08-22 北京无极慧通科技有限公司 一种基于大数据的智能决策支持系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其系统
KR20130092342A (ko) * 2012-02-09 2013-08-20 고민수 감정 어휘 사전 생성 및 이를 이용한 문서의 감정 강도 계산 시스템 및 방법
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN107862343A (zh) * 2017-11-28 2018-03-30 南京理工大学 基于规则和神经网络的商品评论属性级情感分类方法
CN108446813A (zh) * 2017-12-19 2018-08-24 清华大学 一种电商服务质量综合评价的方法
US20180249209A1 (en) * 2017-02-27 2018-08-30 International Business Machines Corporation Deep movie analysis based on cognitive controls in movie theaters

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其系统
KR20130092342A (ko) * 2012-02-09 2013-08-20 고민수 감정 어휘 사전 생성 및 이를 이용한 문서의 감정 강도 계산 시스템 및 방법
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
US20180249209A1 (en) * 2017-02-27 2018-08-30 International Business Machines Corporation Deep movie analysis based on cognitive controls in movie theaters
CN107862343A (zh) * 2017-11-28 2018-03-30 南京理工大学 基于规则和神经网络的商品评论属性级情感分类方法
CN108446813A (zh) * 2017-12-19 2018-08-24 清华大学 一种电商服务质量综合评价的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
吴杰胜 等: "基于多部情感词典与SVM的电影评论情感分析", 《阜阳师范学院学报(自然科学版)》 *
李荣: "《短语识别与信息抽取的隐马尔可夫模型的方法研究》", 31 August 2013, 兵器工业出版社 *
许鑫: "《基于文本特征算法的信息分析方法》", 30 November 2015, 上海科学技术文献出版社 *
郑玉桂: "面向电商评论细粒度观点挖掘的拓展主题模型研究", 《中国优秀硕士学位论文全文数据库(经济与管理科学辑)》 *
黎巎: "《旅游大数据研究》", 31 July 2018, 中国经济出版社 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032554A (zh) * 2019-12-24 2021-06-25 Tcl集团股份有限公司 一种决策系统和计算机可读存储介质
CN111260437A (zh) * 2020-01-14 2020-06-09 北京邮电大学 一种基于商品方面级情感挖掘和模糊决策的产品推荐方法
CN111859146A (zh) * 2020-07-30 2020-10-30 网易(杭州)网络有限公司 信息挖掘方法、装置及电子设备
CN111859146B (zh) * 2020-07-30 2024-02-23 网易(杭州)网络有限公司 信息挖掘方法、装置及电子设备
CN113254694A (zh) * 2021-05-21 2021-08-13 中国科学技术大学 一种文本转图像方法和装置
CN113254694B (zh) * 2021-05-21 2022-07-15 中国科学技术大学 一种文本转图像方法和装置
CN116629275A (zh) * 2023-07-21 2023-08-22 北京无极慧通科技有限公司 一种基于大数据的智能决策支持系统及方法
CN116629275B (zh) * 2023-07-21 2023-09-22 北京无极慧通科技有限公司 一种基于大数据的智能决策支持系统及方法

Similar Documents

Publication Publication Date Title
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
Shoufan et al. Natural language processing for dialectical Arabic: A survey
CN110555109A (zh) 基于个人计算机电商评论的多粒度观点挖掘方法
Quan et al. Unsupervised product feature extraction for feature-oriented opinion determination
Basiri et al. A framework for sentiment analysis in persian
CN103049435B (zh) 文本细粒度情感分析方法及装置
Basiri et al. Sentence-level sentiment analysis in Persian
CN104881458B (zh) 一种网页主题的标注方法和装置
CN108363725B (zh) 一种用户评论观点提取和观点标签生成的方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN114971730A (zh) 文案素材提取方法及其装置、设备、介质、产品
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN113722492A (zh) 一种意图识别方法及装置
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
Chen et al. Sentiment classification of tourism based on rules and LDA topic model
Cheng et al. Detecting changes of opinion from customer reviews
CN107239455B (zh) 核心词识别方法及装置
Jha et al. Hsas: Hindi subjectivity analysis system
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN111274384B (zh) 一种文本标注方法及其设备、计算机存储介质
CN116561320A (zh) 一种汽车评论的分类方法、装置、设备及介质
CN111259661A (zh) 一种基于商品评论的新情感词提取方法
Xie et al. Construction of unsupervised sentiment classifier on idioms resources
CN110728131A (zh) 一种分析文本属性的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191210