CN110489522B - 一种基于用户评分的情感词典构建方法 - Google Patents

一种基于用户评分的情感词典构建方法 Download PDF

Info

Publication number
CN110489522B
CN110489522B CN201910682361.1A CN201910682361A CN110489522B CN 110489522 B CN110489522 B CN 110489522B CN 201910682361 A CN201910682361 A CN 201910682361A CN 110489522 B CN110489522 B CN 110489522B
Authority
CN
China
Prior art keywords
emotion
word
occurrence
words
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910682361.1A
Other languages
English (en)
Other versions
CN110489522A (zh
Inventor
杨胜刚
陈佐
李新
�田�浩
杨申燕
朱桑之
谷浩然
杨捷琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201910682361.1A priority Critical patent/CN110489522B/zh
Publication of CN110489522A publication Critical patent/CN110489522A/zh
Application granted granted Critical
Publication of CN110489522B publication Critical patent/CN110489522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于用户评分的情感词典构建方法,步骤包括:S1.选取指定互联网平台中目标用户的部分评论数据并设置情感标签以进行标记,得到标签数据;S2.将每个目标用户的评论数据中具有相同或相似评分的评论数据标记为具有情感相似关系,并按照情感相似关系将情感标签进行传播,得到扩充后的标签数据;S3.基于扩充后的标签数据进行情感信息提取,构建得到所需情感词典以用于对指定互联网平台中用户情感进行分类。本发明具有实现方法简单、对标签数据依赖性低、构建效率以及精度高等优点。

Description

一种基于用户评分的情感词典构建方法
技术领域
本发明涉及互联网平台商品评论情感分类技术领域,尤其涉及一种基于用户评分的情感词典构建方法。
背景技术
随着网络技术的不断革新,越来越多的互联网产品成为人们日常生活的必须品,例如 Twitter、微博、亚马逊商城等,这些产品不仅服务用户,也是数据产生的良好平台,包括用户评论、用户评分、用户购买数据等各种各样的用户消费数据。用户在电商平台购物后的评价机制一般包含商品评论及商品评分,为了能更好的得到商品的用户满意度以判断商品的好坏,需要分析用户评论与评分。情感分析技术已经被应用到了学术和工业界的各个领域,对互联网平台产生的文本数据进行情感分析有利于了解商品真实的用户体验信息,帮助商家优化产品,还可以发掘出用户的偏好及性格相关特征等,而对该类评论情感分类仍然是一个挑战,因为评论无长度限制,评论中包含着大量噪声数据,长度不受限,且无任何情感标签等。
有监督的机器学习方法进行商品评论数据分类可以帮助人们自动的、快速的分辨出商品评论的好坏以得知商品的满意度,已被广泛的应用在商品评论数据的情感分类中,而虽然有监督的机器学习方法在商品评论分类上可以很好的完成任务,实施起来极其方便,但是该类方法进行文本情感分类时对标签数据的依赖性高,需要大量的、有标记的用户评论数据进行模型训练,而日常生活中生产的商品评论数据都是无标签的,为了使用有监督的机器学习方法进行商品评论的情感分类,则需要人工标记大量的商品评论数据,人工标记是极其耗时费力的,而且随着社会的发展,新兴商品会不断出现,不同的商品评论也会越来越多,人工标记数据的方式实际就难以实现。
除了机器学习文本情感分类方法之外,常用的文本情感分类方法还有字典法,通过情感词典结合一定的规则来进行文本情感分类。使用字典法进行文本情感分类,可以在减少人工标记数据量的情况下,更好的利用电商平台用户产生的文本数据。基于字典法进行文本情感分类时,目前通常是将现存情感词典作为有标记的训练语料,通过计算词语间的互信息生成新的情感词典,将新的情感词典用于评论数据的情感分类。由于词典法进行文本情感分类的好坏是取决于构建的情感词典,所以情感词典构建的方法决定了文本情感分类的性能,是完成分类任务的核心。情感词典构建的目的是生成一个带有情感极性值或者情感标签的情感词集合,常用的即是使用现存的情感词典与文本句法分析特征来进行情感词典构建,目前现存的、较为流行的情感词典有SentiWordNet、MPQA等,而上述现存的情感词典,它们可以在一定程度上实现未知文本的情感分析,但是这些词典仅仅只包含了一些共有情感信息,而对于不同来源的文本而言,它们都包含了很多自己所独有的情感词特征,这些情感词对于该文本的情感分析同样重要,而且在很多文本中,可能会出现部分文本中只包含特有情感词的情况,对于这些文本而言,现存的情感词典将无法完成文本情感分析的任务,因此构建情感词典是完全必要的,且通过构建情感词典,可以更好的去完成文本数据的情感分析任务。
目前构建情感词典的方法很多,常用的情感词典构建方法主要分为基于词典构建的方法和基于语料构建的方法两种,基于词典构建的方法实施起来相对简单,但由于该方法是基于共有词典的,这些词典只包含共有的情感词关系信息,一般只能构建共有的情感词典,可以进行简单文本情感分析任务,为了更好的完成文本情感分析任务,情感词典的构建方法一般使用基于语料库构建的方法,这也是目前主流的情感词典构建方法,但是基于语料库构建的方法仍然会存在生成的情感词典准确性较低,不能很好的提取部分情感词等问题。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种为实现互联网商品评论数据的情感分类构建情感词典,且具有实现方法简单、对标签数据依赖性低、构建效率以及精度高的基于用户评分的情感词典构建方法。
为解决上述技术问题,本发明提出的技术方案为:
一种基于用户评分的情感词典构建方法,步骤包括:
S1.初始标记:选取指定互联网平台中目标用户的部分评论数据并设置情感标签以进行标记,得到标签数据,所述评论数据包括对商品的评分以及评价文本数据;
S2.标签传播:将每个目标用户的评论数据中具有相同或相似评分的评论数据标记为具有情感相似关系,并按照所述情感相似关系将所述情感标签进行传播,得到扩充后的标签数据;
S3.词典构建:基于所述扩充后的标签数据进行情感信息提取,构建得到所需情感词典以用于对指定互联网平台中用户情感进行分类。
作为本发明的进一步改进,所述步骤S2中将所述情感标签进行传播时,具体将每个目标用户标记的评论数据的情感标签传播给其他具有相同或相似评分的评论数据。
作为本发明的进一步改进,所述步骤S2中,具体通过搜索各互联网平台中目标用户ID 的所有评论数据,将搜索到的评论数据按评分数进行划分,划分后评分数相同或相似的评论数据标记为具有情感相似关系。
作为本发明的进一步改进,所述步骤S3中进行情感信息提取时,包括基于用户评分提取情感词共现信息步骤,具体步骤包括:
S31.依次获取同一用户中具有相同或相似评分的两条评论数据进行情感词提取,每次提取时从两条评论数据中的其中一条评论数据中抽取出情感词作为一类、另一条评论数据中抽取出情感词作为另一类,将抽取出的两类情感词分别进行一一组合形成共现情感词对,完成所有用户的评论数据的处理后,转入执行步骤S32;
S32.分别对提取出的各所述共现情感词对进行计数,计算数量大于预设阈值的所述共现情感词之间的情感词共现关系量。
作为本发明的进一步改进,所述步骤S31中进行情感词提取前还包括预处理步骤,具体步骤包括:对于同一用户中具有相同或相似评分的两条评论数据,如果其中包含有转折连词,将该两条评论数据全部删除,如果存在否定词修饰的情感词,删除掉该否定词修饰的情感词,得到预处理后的评论数据。
作为本发明的进一步改进,所述步骤S32中,具体使用未取对数的PMI值作为两个情感词之间的情感词共现关系量,两个情感词之间PMI值的计算公式为:
Figure BDA0002145218610000031
其中,p(wi,wj)为情感词wi和wj同时出现在一句话中的概率,即共现的概率,p(wi)、p(wj)分别为情感词wi和wj出现在一句话中的概率,即情感词单独出现的概率。
作为本发明的进一步改进,所述步骤S3中,还包括提取全局情感词共现信息,并融合所述全局情感词共现信息以及基于用户评分提取的情感词共现信息,最终得到融合的情感词共现信息,基于融合的情感词共现信息构建情感词典。
作为本发明的进一步改进,所述融合所述全局情感词共现信息以及基于用户评分提取的情感词共现信息的具体步骤为:
分别提取出全局共现以及基于用户评分共现情况下所有情感词对的PMI值,汇总所有的情感词共现信息,令情感词的个数为num,构建一个num*num的情感词共现信息矩阵PMISim,矩阵的行标和列标为同一定排列顺序的情感词,矩阵的值为情感词共现得分;
PMISimglobal(wi,wj)表示提取全局情感词对(wi,wj)的全局情感词共现信息,使用全局情感词共现信息构建一个与PMISim对应的num*num的全局情感词共现矩阵PMISimglobal,如果情感词对(wi,wj)在提取的全局情感词共现信息中存在共现值,则填充对应的全局情感词共现矩阵PMISimglobal,如果不存在共现值则令为0;PMISimsamescore(wi,wj)表示提取的基于用户评分的情感词共现信息,使用所述基于用户评分的情感词共现信息构建用户评分情感词共现矩阵 PMISimsamescore
将所述全局情感词共现矩阵PMISimglobal、用户评分情感词共现矩阵PMISimsamescore按下式计算得到融合的情感词共现信息矩阵PMISim:
PMISim(wi,wj)=μPMISimglobal(wi,wj)+(1-μ)PMISimsamescore(wi,wj)
其中,wi为PMISim矩阵中第i行对应的情感词,wj为PMISim矩阵中第j列对应的情感词,μ为融合系数。
作为本发明的进一步改进,所述提取全局情感词共现信息时,按照以下规则提取情感词:将每条评论数据先按照英语句法规则进行分句,以及对于有转折连词的句子,如果转折连词出现在句子的中间,以该转折词为分界,将这句评论分为两个句子,如果转折连词出现在句子的首部或者尾部,提取出包含该转折词的子段作为一句话、其他为另一句话,以及去除有否定词修饰的情感词。
作为本发明的进一步改进,所述步骤S1中,具体选取评论数据量超过预设阈值的目标用户进行标记。
与现有技术相比,本发明的优点在于:
1、本发明充分考虑同一用户的相同或相似评分对应的评论的情感倾向性类似特性,通过使用用户评论与评分的关系作为桥梁实现标签数据扩充,仅需要对少量数据进行标记即可获得足够量的带有标签的用户评论数据,可以减少情感词典构建时对标签数据的依赖性,基于标签数据扩充可以有效提高情感词典构建的效率以及精度。
2、本发明进一步基于用户评分提取情感共现信息,使得可以使用部分用户的多个句子之间的句法关系特征来提取情感词共现信息以优化情感词典,解决了传统情感词共现信息提取过程中只能通过单个句子的句法关系特征来生成共现信息的问题,既可以提取出更多的情感词,也可以提高生成情感词典的准确性。
3、本发明提取情感词共现信息时,通过综合考虑全局情感词共现信息与用户评分情感词共现信息,相比单一的情感词共现信息,不仅能够扩充情感词对的覆盖范围,同时能够提升情感词对相似关系的准确性,进而提升情感词典构建的准确性。
附图说明
图1是本实施例基于用户评分的情感词典构建方法的实现流程示意图。
图2是本实施例中情感词共现信息提取的实现原理示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图1所示,本实施例基于用户评分的情感词典构建方法的步骤包括:
S1.初始标记:选取指定互联网平台中目标用户的部分评论数据并设置情感标签以进行标记,得到标签数据,即为带有标签的评论数据,评论数据包括对商品的评分以及评价文本数据;
S2.标签传播:将每个目标用户的评论数据中具有相同或相似评分的评论数据标记为具有情感相似关系,并按照情感相似关系将情感标签进行传播,得到扩充后的标签数据;
S3.词典构建:基于扩充后的标签数据进行情感信息提取,构建得到所需情感词典以用于对指定互联网平台中用户情感进行分类。
由于用户评分的标准不同,所以对于不同用户而言,相同评分不一定代表着相同的用户情感倾向,从评分上不能很准确的看出用户对商品评价的好坏,而用户个人的评分标准通常是基本不变的,例如,有的用户认为3分代表着中立评分,大于3分为正向评分,小于则反之,也有用户的基准分数为2分,即大于2分为好评,小于则反之;用户评分与其对应的评论对于同一用户而言,两者的情感倾向性是保持一致的,即同一用户的相同评分对应的评论的情感倾向性类似,只是对于不同用户来说,每个用户都有各自的评分与评论标准,而用户评论数据相比评分数据更能准确的表明用户对商品的情感倾向。
本实施例充分考虑上述同一用户的相同、相似评分对应的评论的情感倾向性类似特性,通过使用用户评论与评分的关系作为桥梁实现标签数据扩充,仅需要对少量数据进行标记即可获得足够量的带有标签的用户评论数据,可以减少情感词典构建时对标签数据的依赖性,基于标签数据扩充可以有效提高情感词典构建的效率以及精度,从而提升互联网商品文本评论数据情感分类的性能。
本实施例步骤S1中,具体选取评论数据量超过预设阈值的目标用户进行标记。有的用户可能会有很多电商平台评论数据,有的用户也可能会很少,本实施例具体通过挑选那些评论较多的用户进行人工标记,可以得到相对较多的标签数据。
本实施例中,步骤S2中将情感标签进行传播时,具体将每个目标用户标记的评论数据的情感标签传播给其他具有相同评分的评论数据,即让有标签的数据去为评论数据中查找相同评分的评论数据并打上标签,实现对标签数据的扩充。
本实施例步骤S2中,具体通过搜索各互联网平台中目标用户ID的所有评论数据,将搜索到的评论数据按评分数进行划分,划分后评分数相同的评论数据标记为具有情感相似关系,通过相同评分对应评论情感相似的关系对标记的标签数据进行标签传播。
情感词共现是指两个情感词频繁出现在同一条文本数据中而引发的一种关系信息,即,如果两个情感词频繁的出现在相同的评论中,对于评论用户而言,由于是同一条评论,那么评论前后用户的情感基调一般不会改变,且这两个词经常同时出现,则该两个情感词极有可能表现出相似语义和相似的情感极性。本实施例步骤S3中进行情感信息提取时,包括基于用户评分提取情感词共现信息步骤,具体步骤包括:
S31.依次获取同一用户中具有相同评分的两条评论数据进行情感词提取,每次提取时从两条评论数据中的其中一条评论数据中抽取出情感词作为一类、另一条评论数据中抽取出情感词作为另一类,将抽取出的两类情感词分别进行一一组合形成共现情感词对,完成所有用户的评论数据的处理后,转入执行步骤S32;
S32.分别对提取出的各共现情感词对进行计数,计算数量大于预设阈值的共现情感词之间的情感词共现关系量。
传统的如全局情感词共现信息提取方式中词语通常只能只适合一个句子中有多个情感词的情况,对于一个句子中仅含有单个情感词的情况毫无作用,即只能通过单个句子的句法关系特征来生成共现信息的问题,会造成可用数据的丢失。一个用户相同评分对应评论的情感倾向性是类似的,本实施例将该特性与词语共现关系相结合,构建基于用户评分的情感词共现关系,即,如果两个情感词语分别频繁的出现在相同用户相同评分对应的两条评论中,则可以认为这两个词具有相似的情感倾向性,如在具体应用实施例中从亚马逊电子产品商品评论中抓取到的两条用户评分相同的评论数据,用户的第一条评论中的情感词“easy”和第二条评论中的“pleased”或者第一条评论中的情感词“easy”和第二条评论中的“like”均可以看成是上述基于用户评分的情感词共现关系;又如,如果“professional”和“special”经常出现在用户的两条相同评分对应的评论中,则该两个词极有可能会在新的用户评论中出现相似的情感倾向。本实施例基于上述特性,在基于标签数据扩充的基础上,基于用户评分提取情感共现信息,使得可以使用部分用户的多个句子之间的句法关系特征来提取情感词共现信息以优化情感词典,解决了传统情感词共现信息提取过程中只能通过单个句子的句法关系特征来生成共现信息的问题,既可以提取出更多的情感词,也可以提高生成情感词典的准确性。
本实施例中,步骤S31中进行情感词提取前还包括预处理步骤,具体步骤包括:对于同一用户中具有相同评分的两条评论数据,如果其中包含有转折连词,将该两条评论数据全部删除,如果存在否定词修饰的情感词,删除掉该否定词修饰的情感词,得到预处理后的评论数据。一方面,考虑到对于用户相同评分的评论,如果其中包含有转折连词,由于不知道用户是先表达否定情感还是肯定情感的倾向,所以进行转折连词处理时,本实施例将这种评论全部删除;另一方面,对于否定词修饰的情感词,删除掉所有否定词修饰的情感词,经过以上处理,将用户评分相同的两条评论中一条评论中抽取出来的情感词作为一类,另一条评论中抽取出来的情感词作为另一类,然后将两类中的情感词彼此一一组合,这样就可以从用户相同评分的评论中提取出大量的共现情感词对。
本实施例步骤S32中,具体使用未取对数的PMI值作为两个情感词之间的情感词共现关系量,两个情感词之间PMI值的计算公式为:
Figure BDA0002145218610000071
其中,p(wi,wj)为情感词wi和wj同时出现在一句话中的概率,即共现的概率,p(wi)、p(wj)分别为情感词wi和wj出现在一句话中的概率,即情感词单独出现的概率。
本实施例对于基于用户评分提取出的情感词,统计情感词的共现频数,即如果两个情感词同时出现在一句话中,对情感词对的频数进行加一操作,再使用未取对数的PMI作为两个情感词相似的度量标准,可以方便后续模型的构建。进一步的,本实施例给情感词出现的频数设定一个合适的阈值,当情感词出现次数小于该阈值以下时,该情感词在计算情感词共现信息时会被忽略,可以减少使用PMI进行文本情感分析时对于出现频率较小的词计算词语相关性不太准确的影响。
本实施例步骤S3中,还包括提取全局情感词共现信息,并融合全局情感词共现信息以及基于用户评分提取的情感词共现信息,最终得到融合的情感词共现信息。如果两个情感词频繁的出现在相同的评论中,那么这两个词极有可能表现出相似语义和相似的情感极性,如在具体应用实施例中从亚马逊电子产品商品评论中抓取到的用户的两条评论及一些相关信息,情感词“pleased”和“like”可以看成是情感词的全局共现关系,又如,如果“great”和“good”以及“well”和“easy”同时出现在很多用户评论中,则它们极有可能会在新的用户评论中出现相似的情感倾向,本实施例基于该特性计算全局共现情况下全局情感词的共现关系。
本实施例中,提取全局情感词共现信息时,具体按照以下规则提取情感词:
(1)考虑到情感分析的对象为用户评论数据,其文本长短无太多限制,较长的评论可达篇幅级,较短的评论可只有一句简单的主谓句;为了更好的去提取情感词共现信息,本实施例将每条评论,不论长短,先按照英语句法规则进行分句。长篇幅的文本不能保证文本的情感倾向性完全相同,但可以保证在评论的一句话中,其情感倾向性是基本一致;
(2)考虑到转折连词极有可能反转用户的态度,对于这种有转折连词的句子,如果转折连词出现在句子的中间,如,常出现在句子中间的转折词有”but”,”while”等,本实施例以该转折词为分界,将这句评论分为两个句子;如果转折连词出现在句子的首部或者尾部,提取出包含该转折词的子段作为一句话、其他为另一句话,可以保证基本每句评论的情感倾向性保持一致;
(3)考虑到在情感词前有否定词修饰时,评论的情感极性会出现较大的变化,由于这些情况处理起来相对复杂,本实施例在进行情感词共现信息计算时,不考虑这些情感词的共现。
本实施例根据以上三种规则提取出满足需求的每句话的情感词,对于提取出的情感词,统计情感词的共现频数,按照式(1)计算PMI值以作为两个情感词相似的度量标准,得到全局情感词的共现关系。与上述相同的,本实施例给提取出的全局情感词出现的频数设定一个合适的阈值,当情感词出现次数小于该阈值以下时,该情感词在计算情感词共现信息时会被忽略,以减少出现频率较小的词计算词语相关性不太准确的影响。
如图2所示,本实施例中融合全局情感词共现信息以及基于用户评分提取的情感词共现信息的具体步骤为:
分别提取出上述全局共现以及基于用户评分两种共现情况下所有情感词对(即全局共现情感词对以及基于用户评分的共现情感词对)的PMI值,汇总所有的情感词共现信息,令情感词的个数为num,构建一个num*num的情感词共现信息矩阵PMISim,矩阵的行标和列标为同一定排列顺序的情感词,矩阵的值为情感词共现得分;
PMISimglobal(wi,wj)表示提取全局情感词对(wi,wj)的全局情感词共现信息,使用全局情感词共现信息构建一个与PMISim对应的num*num的全局情感词共现矩阵PMISimglobal,如果情感词对(wi,wj)在提取的全局情感词共现信息中存在共现值,则填充对应的全局情感词共现矩阵PMISimglobal,如果不存在共现值则令为0;PMISimsamescore(wi,wj)表示提取的基于用户评分的情感词共现信息,使用基于用户评分的情感词共现信息构建用户评分情感词共现矩阵 PMISimsamescore
将全局情感词共现矩阵PMISimglobal、用户评分情感词共现矩阵PMISimsamescore 按下式计算得到融合的情感词共现信息矩阵PMISim:
PMISim(wi,wj)=μPMISimglobal(wi,wj)+(1-μ)PMISimsamescore(wi,wj) (2)
其中,wi为PMISim矩阵中第i行对应的情感词,wj为PMISim矩阵中第j列对应的情感词,μ为融合系数。
本实施例提取情感词共现信息时,通过综合考虑全局情感词共现信息与用户评分情感词共现信息,相比单一的情感词共现信息,不仅能够扩充情感词对的覆盖范围,同时能够提升情感词对相似关系的准确性,进而提升情感词典构建的准确性。
提取得到上述情感词共现信息后,利用情感词共现信息构建情感词典,具体构建方式可采用现有使用情感词共现信息构建情感词典的方式。当然在其他应用实施例中还可以进一步融合现有情感词典、评分数据等提取情感信息以进一步提高情感词典构建的精度。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (9)

1.一种基于用户评分的情感词典构建方法,其特征在于,步骤包括:
S1.初始标记:选取指定互联网平台中目标用户的部分评论数据并设置情感标签以进行标记,得到标签数据,所述评论数据包括对商品的评分以及评价文本数据;
S2.标签传播:将每个目标用户的评论数据中具有相同或相似评分的评论数据标记为具有情感相似关系,并按照所述情感相似关系将所述情感标签进行传播,得到扩充后的标签数据;
S3.词典构建:基于所述扩充后的标签数据进行情感信息提取,构建得到所需情感词典以用于对指定互联网平台中用户情感进行分类;
所述步骤S3中,还包括提取全局情感词共现信息,并融合所述全局情感词共现信息以及基于用户评分提取的情感词共现信息,最终得到融合的情感词共现信息,基于融合的情感词共现信息构建情感词典;
所述融合所述全局情感词共现信息以及基于用户评分提取的情感词共现信息的具体步骤为:
分别提取出全局共现以及基于用户评分共现情况下所有情感词对的PMI值,汇总所有的情感词共现信息,令情感词的个数为num,构建一个num*num的情感词共现信息矩阵PMISim,矩阵的行标和列标为同一定排列顺序的情感词,矩阵的值为情感词共现得分;PMISimglobal(wi,wj)表示提取全局情感词对(wi,wj)的全局情感词共现信息,使用全局情感词共现信息构建一个与PMISim对应的num*num的全局情感词共现矩阵PMISimglobal;PMISimsamescore(wi,wj)表示提取的基于用户评分的情感词共现信息,使用所述基于用户评分的情感词共现信息构建用户评分情感词共现矩阵PMISimsamescore
将所述全局情感词共现矩阵PMISimglobal、用户评分情感词共现矩阵PMISimsamescore得到融合的情感词共现信息矩阵PMISim。
2.根据权利要求1所述的基于用户评分的情感词典构建方法,其特征在于,所述步骤S2中将所述情感标签进行传播时,具体将每个目标用户标记的评论数据的情感标签传播给其他具有相同或相似评分的评论数据。
3.根据权利要求2所述的基于用户评分的情感词典构建方法,其特征在于,所述步骤S2中,具体通过搜索各互联网平台中目标用户ID的所有评论数据,将搜索到的评论数据按评分数进行划分,划分后评分数相同或相似的评论数据标记为具有情感相似关系。
4.根据权利要求1或2或3所述的基于用户评分的情感词典构建方法,其特征在于,所述步骤S3中进行情感信息提取时,包括基于用户评分提取情感词共现信息步骤,具体步骤包括:
S31.依次获取同一用户中具有相同或相似评分的两条评论数据进行情感词提取,每次提取时从两条评论数据中的其中一条评论数据中抽取出情感词作为一类、另一条评论数据中抽取出情感词作为另一类,将抽取出的两类情感词分别进行一一组合形成共现情感词对,完成所有用户的评论数据的处理后,转入执行步骤S32;
S32.分别对提取出的各所述共现情感词对进行计数,计算数量大于预设阈值的所述共现情感词之间的情感词共现关系量。
5.根据权利要求4所述的基于用户评分的情感词典构建方法,其特征在于,所述步骤S31中进行情感词提取前还包括预处理步骤,具体步骤包括:对于同一用户中具有相同或相似评分的两条评论数据,如果其中包含有转折连词,将该两条评论数据全部删除,如果存在否定词修饰的情感词,删除掉该否定词修饰的情感词,得到预处理后的评论数据。
6.根据权利要求4所述的基于用户评分的情感词典构建方法,其特征在于,所述步骤S32中,具体使用未取对数的PMI值作为两个情感词之间的情感词共现关系量,两个情感词之间PMI值的计算公式为:
Figure FDA0003458399430000021
其中,p(wi,wj)为情感词wi和wj同时出现在一句话中的概率,即共现的概率,p(wi)、p(wj)分别为情感词wi和wj出现在一句话中的概率,即情感词单独出现的概率。
7.根据权利要求1所述的基于用户评分的情感词典构建方法,其特征在于,
如果情感词对(wi,wj)在提取的全局情感词共现信息中存在共现值,则填充对应的全局情感词共现矩阵PMISimglobal,如果不存在共现值则令为0;
将所述全局情感词共现矩阵PMISimglobal、用户评分情感词共现矩阵PMISimsamescore按下式计算得到融合的情感词共现信息矩阵PMISim:
PMISim(wi,wj)=μPMISimglobal(wi,wj)+(1-μ)PMISimsamescore(wi,wj)
其中,wi为PMISim矩阵中第i行对应的情感词,wj为PMISim矩阵中第j列对应的情感词,μ为融合系数。
8.根据权利要求6或7所述的基于用户评分的情感词典构建方法,其特征在于,所述提取全局情感词共现信息时,按照以下规则提取情感词:将每条评论数据先按照英语句法规则进行分句,以及对于有转折连词的句子,如果转折连词出现在句子的中间,以该转折词为分界,将这句评论分为两个句子,如果转折连词出现在句子的首部或者尾部,提取出包含该转折词的子段作为一句话、其他为另一句话,以及去除有否定词修饰的情感词。
9.根据权利要求1或2或3所述的基于用户评分的情感词典构建方法,其特征在于,所述步骤S1中,具体选取评论数据量超过预设阈值的目标用户进行标记。
CN201910682361.1A 2019-07-26 2019-07-26 一种基于用户评分的情感词典构建方法 Active CN110489522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910682361.1A CN110489522B (zh) 2019-07-26 2019-07-26 一种基于用户评分的情感词典构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910682361.1A CN110489522B (zh) 2019-07-26 2019-07-26 一种基于用户评分的情感词典构建方法

Publications (2)

Publication Number Publication Date
CN110489522A CN110489522A (zh) 2019-11-22
CN110489522B true CN110489522B (zh) 2022-04-12

Family

ID=68548338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910682361.1A Active CN110489522B (zh) 2019-07-26 2019-07-26 一种基于用户评分的情感词典构建方法

Country Status (1)

Country Link
CN (1) CN110489522B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955572B (zh) * 2023-09-06 2024-08-23 江苏爱亿企科技有限公司 基于人工智能的在线服务反馈交互方法及大数据系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7987188B2 (en) * 2007-08-23 2011-07-26 Google Inc. Domain-specific sentiment classification
CN102682124B (zh) * 2012-05-16 2014-07-09 苏州大学 一种文本的情感分类方法及装置
US9223831B2 (en) * 2013-01-02 2015-12-29 Codeq Llc System, method and computer program product for searching summaries of mobile apps reviews
CN105022805B (zh) * 2015-07-02 2018-05-04 四川大学 一种基于so-pmi商品评价信息的情感分析方法
CN107330461B (zh) * 2017-06-27 2020-11-03 安徽师范大学 基于情感与信任的协同过滤推荐方法
CN107688630B (zh) * 2017-08-21 2020-05-22 北京工业大学 一种基于语义的弱监督微博多情感词典扩充方法
CN109376239B (zh) * 2018-09-29 2021-07-30 山西大学 一种用于中文微博情感分类的特定情感词典的生成方法
CN109670039B (zh) * 2018-11-20 2020-10-30 华南师范大学 基于三部图和聚类分析的半监督电商评论情感分析方法
CN109598586B (zh) * 2018-11-30 2022-11-15 哈尔滨工程大学 一种基于注意力模型的推荐方法

Also Published As

Publication number Publication date
CN110489522A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
US20210216723A1 (en) Classification model training method, classification method, device, and medium
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
Burger et al. Discriminating gender on Twitter
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN110489553B (zh) 一种基于多源信息融合的情感分类方法
CN108874937B (zh) 一种基于词性结合和特征选择的情感分类方法
CN105183717B (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
Singh et al. Sentiment analysis of textual reviews; Evaluating machine learning, unsupervised and SentiWordNet approaches
CN106649519B (zh) 一种产品特征的挖掘与评价方法
CN108388660B (zh) 一种改进的电商产品痛点分析方法
CN108363725B (zh) 一种用户评论观点提取和观点标签生成的方法
CN106407235B (zh) 一种基于点评数据的语义词典构建方法
CN105550269A (zh) 一种有监督学习的产品评论分析方法及系统
CN109190117A (zh) 一种基于词向量的短文本语义相似度计算方法
CN103646088A (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
CN104008091A (zh) 一种基于情感值的网络文本情感分析方法
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN108319734A (zh) 一种基于线性组合器的产品特征结构树自动构建方法
JP4600045B2 (ja) 意見抽出用学習装置及び意見抽出用分類装置
Petz et al. On text preprocessing for opinion mining outside of laboratory environments
CN108491512A (zh) 新闻标题的摘要方法及装置
CN108399265A (zh) 基于搜索的实时热点新闻提供方法及装置
CN108470026A (zh) 新闻标题的句子主干内容提取方法及装置
CN106055633A (zh) 一种中文微博主客观句分类方法
CN110134799A (zh) 一种基于bm25算法的文本语料库的搭建和优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant