CN109670039B - 基于三部图和聚类分析的半监督电商评论情感分析方法 - Google Patents

基于三部图和聚类分析的半监督电商评论情感分析方法 Download PDF

Info

Publication number
CN109670039B
CN109670039B CN201811386819.0A CN201811386819A CN109670039B CN 109670039 B CN109670039 B CN 109670039B CN 201811386819 A CN201811386819 A CN 201811386819A CN 109670039 B CN109670039 B CN 109670039B
Authority
CN
China
Prior art keywords
word
document
cluster
sample
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811386819.0A
Other languages
English (en)
Other versions
CN109670039A (zh
Inventor
卢昕
薛云
吴海明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Airlines Intellectual Property Services Ltd
Nanjing Silicon Intelligence Technology Co Ltd
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201811386819.0A priority Critical patent/CN109670039B/zh
Publication of CN109670039A publication Critical patent/CN109670039A/zh
Application granted granted Critical
Publication of CN109670039B publication Critical patent/CN109670039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0217Discounts or incentives, e.g. coupons or rebates involving input on products or services in exchange for incentives or rewards
    • G06Q30/0218Discounts or incentives, e.g. coupons or rebates involving input on products or services in exchange for incentives or rewards based on score

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开基于三部图和聚类分析的半监督电商评论情感分析方法。该方法包括:基于词向量并结合情感词典和词性信息计算词语相似度;引入词组模式以增添上下文信息,消除一词多义现象的影响;建立以文档为中心的词‑文档‑词组三部图,并计算文档之间相似度;基于样本聚类假设,挖掘语料中的簇结构分布,得到语料的全局信息;将语料的全局信息与三部图中的相似度信息进行加权融合,获得最终样本的关系图;根据关系图执行标签传播算法,将有标注样本的标签传播给未标注样本,实现未标注样本的情感分类。本发明本发明将全局信息与三部图中的相似度信息进行加权融合,在结合评论语料特点的基础上获得优质的样本关系图模型,能取得较好的情感分类效果。

Description

基于三部图和聚类分析的半监督电商评论情感分析方法
技术领域
本发明涉及自然语言处理技术的文档分类领域,具体地说是一种基于三部图和聚类分析方法的半监督方法用于电商评论文档的情感分类技术。
背景技术
随着互联网的快速发展,电商网站等网络平台上产生了大量的用户评论,而评论中所蕴含的情感信息,不仅可以帮助其他用户做出更好的购买决策,也可以方便商家追踪和管理消费者的反馈信息。因此,如何自动地对用户评论文档进行情感分类,已经逐渐成为自然语言处理领域中一项越来越受关注的研究课题。
文档情感分类方法主要可分为无监督学习、有监督学习和半监督学习方法。其中,无监督学习方法是指不借助任何有标注样本来构建分类模型。早在2002年,Turney等人【Thumbs Up or Thumbs Down?Semantic Orientation Applied to UnsupervisedClassification of Reviews】通过计算文档中单词和情感词之间的点互信息(PMI)来得到整个文档的情感倾向;Kennedy等人于2006年【Sentiment classification of moviereviews using contextual valence shifters】在情感词集上使用扩展术语计算、上下文移位和支持向量机的方式获得文档的情感倾向。这些都是借助于一些已标注的情感词进行情感分析,但是还面临主题间区分度较低的问题。于是,孙艳等人于2013年【基于主题情感混合模型的无监督文档情感分析】通过在LDA模型中融入情感模型,提出了一种无监督的主题情感混合模型进行情感分类。此后,郝洁等人于2016年【基于词加权LDA算法的无监督情感分类】使用加权的LDA算法实现无监督的主题提取和情感分析,进一步改善了无监督方法的分类性能。然而,由于无监督学习不借助任何标注样本,所以在分类效果方面与有监督的方法还存在较大差距,在很多场合难以满足实际需求。
有监督学习方法是指通过训练大量有标注样本来构建分类模型,近年来取得了不错的效果。最早在2002年由Pang等人【Thumbs Up?Sentiment Classification UsingMachine Learning Techniques】引入到情感分类任务中,此后他们又于2004年【Asentimental education:sentiment analysis using subjectivity summarizationbased on minimum cuts】提出基于主观句识别的有监督学习方法进一步提高了情感分类的效果。但是,只根据词频对基准词的挑选过于简单,刘玉娇等人于2015年【基于情感字典与连词结合的中文文档情感分类】借助情感句判别法改进了有监督方法特征分布不均衡的问题。即使如此,有监督学习依然面临领域标签数据偏少问题,于是,赵传君等人于2015年【基于分组提升集成的跨领域文档情感分类】通过合成抽样技术和分组集成学习等方法进行改进。不过,相对于无监督学习,有监督学习的效果通常较好,但是有监督学习需要充足的标注样本,而标注样本的获取却需要耗费大量的人力物力【袁媛.基于半监督学习的短文档分类研究[D].西北师范大学,2015.】。
因此,基于半监督学习的情感分类方法受到了越来越多研究者的关注。半监督学习方法是指通过结合少量有标注样本和大量未标注样本来构建分类模型。例如,高伟等人于2013年【基于集成学习的半监督情感分类方法研究】通过融合基于随机特征子空间的协同训练方法和标签传播方法,提出了一种基于一致性标签的集成学习方法实现半监督情感分类任务。但是,该方法的效果很大程度上受到对未标注数据进行标注操作的影响。对此,黄伟等人于2015年【2015基于多分类器投票集成的半监督情感分类方法研究】通过选取不同的训练集、特征参数和分类方法构建一组有差异的子分类器,每轮通过简单投票挑选出置信度最高的样本使训练集扩大一倍,并更新训练模型。不过,这些方法始终还面临有标记数据不足问题。对此,在2017年,Khan等人【A semi-supervised approach to sentimentanalysis using revised sentiment strength based on SentiWordNet】将基于情感词典和基于机器学习的方法相结合,并利用信息增益和余弦相似度等模型自动修正SentiWordNet的情感评分,避免人为的数据标注。Lee等人【Sentiment labeling forextending initial labeled data to improve semi-supervised sentimentclassification】则使用JST模型提升了有标注样本集的质量,从而改善了自训练的效果。徐禹洪等人【基于优化样本分布抽样集成学习的半监督文档分类方法研究】通过基于优化样本分布的抽样方法获得多个新的子分类器训练集,增加了训练集之间的多样性,减少了噪声的扩散范围,提高了总分类器的总体泛化性能。这些方法虽致力于数据的自动化标注问题,但对数据本身的关系建模还不完善,薛云霞等人于2014年【基于社会关系网络的半监督情感分类】创建了一种基于文档-词及社会关系的二部图模型,并根据标签传播算法实现半监督情感分类。但是,他们还是缺乏对标记数据有限问题的思考,Li等人在2016年【Two-View Label Propagation to Semi-supervised Reader Emotion Classification】提出基于新闻文档和评论文档两个视图的标签传播算法进行半监督情感分类,同时兼顾了对标记数据和数据关系的建模。
发明内容
本发明的目的在于克服现有技术存在的上述不不足,提供基于三部图和聚类分析方法的半监督方法用于电商评论文档的情感分类技术。
本发明的目的通过如下技术方案实现。
基于三部图和聚类分析的半监督电商评论情感分析方法,其特征在于包括:
(S1)基于词向量并结合情感词典和词性信息计算词语相似度;
(S2)引入词组模式以增添上下文信息,消除一词多义现象的影响;
(S3)建立以文档为中心的词-文档-词组三部图,并计算文档之间相似度;
(S4)基于样本聚类假设,充分挖掘数据集中的簇结构分布,得到数据集的全局信息;
(S5)将数据集的全局信息与三部图中的相似度信息进行加权融合,获得最终样本的关系图TF
(S6)根据关系图TF执行标签传播算法,将有标注样本的标签传播给未标注样本,实现未标注样本的情感分类。
进一步地,步骤(S1)具体包括:
(1)输入评论数据集(该发明在实验阶段使用的实验数据是:中文情感挖掘语料ChnSentiCorp【Tan Songbo,Chnsenticorp[Eb/Ol],2010-06-29,http://www.datatang.com/data/14614.】中的酒店评论数据集ChnSentiCorp-Htl-del-4000和笔记本电脑评论数据集ChnSentiCorp-NB-del-4000作为实验数据,两个评论数据集中均包括2,000条正类和2,000条负类评论文档。在后续说明中均以评论数据集表达。),对数据进行预处理,去除评论文档中的标点符号、大写转小写、简写还原(将繁体转化为简体);
(2)用中科院ICTCLAS【Ictclas[EB/OL].http://ictclas.nlpir.org/】对评论数据集中的文档进行中文分词和词性标注;其次利用中科院的计算所汉语词性标记集【计算所汉语词性标记集[EB/OL].[2013-02-04].http://ictclas.nlpir.org/】以及哈工大停用词表【哈工大停用词表[EB/OL].[2013-05-03].http://ir.hit.edu.cn/】对评论文档进行停用词过滤,去掉没有实意的虚词和的中性词;
(3)数据集划分:基于本发明的方法属于直推式学习,故须将数据集划分为有标注样本集L和未标注样本集U(后文的“样本集”均表示有标注样本集和未标注样本集),学习的目的是对未标注样本进行自动标注;采用随机划分数据集的方法得到L和U;L中正负类样本的获取是按照数据集中正负类样本数的比例,从整个数据集中进行随机抽样得到,而剩下的所有样本作为U;
(4)经过上述处理后,原有的评论文档就是一个个词语表示的词文档了,通过word2vec词向量方法计算整个词文档中词语的【Efficient Estimation of WordRepresentations in Vector Space】词向量,进而训练得到词语词向量间的余弦相似度,于是得到词语间的相似度;考虑到word2vec训练词向量是基于无监督的语言模型,没有考虑情感分类任务的特点,故为了更准确地计算词语之间的相似度,本发明在计算相似度时还引入了基于情感词典的情感信息和词性信息(例如:名词、动词、形容词、副词等),即让不属于同一情感类别或同一种词性的两个词相似度值为0;假设词wi和wj,所对应的词向量为vi和vj,其中,i≠j且,i,j∈{1,2,...,m},m为总的词语数,采用词向量间的余弦相似度并结合情感词典【情感分析用词语集(beta版),NTUSD词典】和词性信息来衡量两个词之间的相似性,计算公式如下所示:
Figure BDA0001873124480000041
其中,Senti(wi,wj)和POS(wi,wj)为针对情感类别和词性信息的指示函数,即当词wi和wj属于同一情感类别时,Senti(wi,wj)为1,否则为0;此外,还设定了一个相似度阈值参数β∈(0,1),如果Sim(wi,wj)≥β,则认为词wi和wj是近义词;把这种具有相同情感类别和词性信息的近义词模式加入到模型后,可以更准确地刻画样本之间的关系。
进一步地,步骤(S2)具体包括:
(1)以词语为基础,引入二元词组(Bigram),即把词文档中存在相邻关系的两个词语进行拼接,形成更具上下文信息的语义单元;例如:词语“房间”(wi)与词语“干净”(wj)存在相邻关系,于是对其拼接,得到wi wj的语义单元;
(2)将得到的语义单元加入到原始评论文档中,使词语在结合上下文后表意更加明确;例如:原本的上下文内容是“房屋整洁”(wl wn),可以用“房间干净”(wi wj)替换后结合上下文形成新的文档。同时为了控制词组模式的数量,把只在单条评论中出现的词组去掉,因为其在刻画样本集中样本间关系时不起作用。
进一步地,步骤(S3)具体包括:
(1)基于近义词模式和词组模式,首先构建词-文档二部图;首先根据输入的词文档,统计词文档的数据记为n,并对所有词文档进行数据预处理,然后统计词文档中词语个数m和每个词语出现的频率tfk,其中,k表示第k个词语,将所有词语按照频率降序的排列方式进行排序,并用词语的序号nok为每个词语编号,将词文档转化成n条以编号表示的评论集合D_1;
(2)为词文档加入近义词模式:将词文档中m个词语构建特征词典V,对于D_1通过相似度计算方法得到每个词wk(k∈{1,2,...,m})与V中m个词的相似度,对于满足相似度阈值参数β∈(0,1)的词,将其追加到原语句对应词语wk的后面,得到扩充语料D_2;
(3)加入词组模式:对于D_1中的每一条评论,将其中存在相邻关系的两个词语进行拼接,得到二元词组(Bigram),将词组追加到D_2中对应的评论后面,得到进一步扩充的语料D_3;另外,为了控制词组模式的数量,去掉只出现1次的词组,共计得到l个词组模式;
(4)基于(3)得到的D_3构建以词文档(即评论)为中心的词语-文档-词组三部图,图示见附图2,图的构建主要以文档为中心,例如:第a个词文档da中包含词语wk,则有文档da向词语wk的转移关系;而词语wk能被多个词文档含有,于是词语wk能向其他词文档转移;而其他词文档中的词语和剩余词文档也有相同的转移关系,可以构建文档到词组的转移关系;
(5)基于步骤(4)得到三部图,计算第a个文档到第b个文档的转移概率Tab,计算公式如下所示:
Figure BDA0001873124480000051
其中,a,b(a,b∈{1,2,...,n})均表示第a,b个文档,n是词文档数目,k,k',q,q'(k∈{1,...,m};k',q'∈{1,...,m,m+1,...,m+l};q∈{1,...,l})均表示对应的文档中词语的序号标签,例如:tfak表示在第a个文档中第k个词语出现的频率;
(6)基于步骤(5)可以计算得到每个文档基于三部图转移到其他各文档的转移概率矩阵G_1,其中,G_1的每一行或者每一列表示该文档到其他所有文档的转移概率向量。
进一步地,步骤(S4)具体包括:
(1)根据样本集中少部分有标签的数据作为种子集
Figure BDA0001873124480000061
确定数据的情感类别数目为h;
(2)对样本集D中每个词文档的词语通过TF-IDF算法进行表示,从而对每个词文档用词语的TF-IDF值进行向量化表示得到整个样本集的矩阵表示D_4;
(3)词文档基于分裂的聚类算法分类:基于步骤(2)得到的矩阵D_4,将D_4作为初始待分裂簇,已知当前簇中有标注样本的类别数为h,针对当前簇执行Seeded-KMeans算法,可得到h个子簇;
(4)对于h个子簇,依次判断每个子簇是否满足停止条件:只包含一个类别的有标注样本或不包含有标注样本;
(5)对于所有不满足分裂停止条件的子簇,依次跳转到步骤(3);否则,停止分裂;从而得到最后的聚类分裂树包括节点集合{C1,C2,...,Ck″},其中k″是树中的节点数,也是簇的个数,节点Cr表示一个簇,r∈{1,2,...,k″},见图3;
(6)针对步骤(5)聚类后的每个簇,分别建立一个均匀分布的子转移矩阵
Figure BDA0001873124480000062
z∈{1,2,...,k″},其中,|Cz|是第z个簇Cz中样本的数目,TCz中每一个元素的值设置为1/(|Cz|·floorz),其中floorz表示第z个簇在分裂过程中对应的层数(此处引入层数信息是因为考虑到层数大的簇相比于层数小的簇样本量更少,若直接将元素值设为1/|Cz|,则会导致层数大的簇所对应的子转移矩阵中元素值过大,进而使层数小的簇结构信息在转移概率计算中被忽略)故为了充分利用聚类树中的层次化簇结构信息,通过在计算元素值时引入簇的层数信息,降低层数大的簇在转移概率中的影响,使每一层的信息都能充分发挥作用;而设置该元素值的原因是考虑到聚类后的簇有大小之分,对于样本量越少的簇,则簇内样本之间的关系越紧密,相关程度也越大,而对于样本量多的簇,则相反;故在设置子转移矩阵元素值时考虑了簇中的样本量,以更细致地捕捉样本的全局分布信息;
(7)基于步骤(6)得到k″个子转移矩阵后,根据每个样本的原始序号,将这k″个子转移矩阵进行合并,得到包含样本全局分布信息的转移矩阵TC∈Rn×n;其中,对于层次化簇结构,每个样本都可以同时属于多个不同层次的簇,故在合并子转移矩阵时,须将不同子矩阵中对应相同的状态转移的元素值进行相加,并填到TC中对应的位置上,从而有效地利用了样本的层次化全局分布信息。
进一步地,步骤(S5)具体包括:
(1)将包含数据全局分布信息的转移矩阵TC∈Rn×n与利用三部图得到的文档关系矩阵G∈Rn×n进行加权融合,得到更优质的文档转移矩阵TF即文档关系图;计算公式如下:
TF=(1-α)G+αTC
其中,α∈(0,1)是一个超参数,用于权衡G和TC两部分所发挥的作用。
进一步地,步骤(S6)具体包括:
(1)基于得到的词文档转移矩阵TF,对样本集D进行表示;其中,有标注数据集表示为L={(x1,y1),(x2,y2),...,(xlabel,ylabel)},其中,有标注数据个数为label个,xi为每个文档的向量表示,即文档关系图TF中对应的行向量TFi;无标注数据表示为U={xl+1,xl+2,...,xl+u},其中,无标注数据个数为unlabel=n-label个,样本集D的文档情感类别数为;
(2)定义一个label×C的0-1矩阵YL表示有标注样本的标签,即,对标签类别进行排序,在YL的每行上对应的类别处为1,其余为0,YL矩阵的每一行分别与数据集中每个标签对应;定义一个n×C的类别概率分布矩阵f,包括fL和fU两部分,其中fL初始化为YL,fU随机初始化,此处n表示n个词文档;
(3)通过欧几里得距离公式计算数据集中任意两个文档da,db之前的边权重wab
Figure BDA0001873124480000071
其中,xadim,xbdim)分别表示文档da,db的向量表示上彼此对应的任意维度上的数值;
(4)进行第一次传播运算:
f←TF Tf
(5)重置有标注文本的类别标签:
fL=YL
(5)判断f是否收敛,若是,则执行步骤(6),否则,跳转到步骤(3);
(6)根据Softmax公式计算未标注文本的类别标签:
Figure BDA0001873124480000081
其中,document表示未标注样本的下标,dim'表示在第dim'个类别序号;
(7)最终,基于步骤(6),得到未标注样本对应标签的预测结果:
Figure BDA0001873124480000082
与现有技术相比,本发明具有如下优点和技术效果:
(1)考虑到电商评论文档中口语化表达方式灵活多样,导致多词一义和一词多义等现象非常普遍,本发明基于词向量并结合情感词典和词性信息计算词语相似度,从而引入近义词信息以解决多词一义的问题。(2)本发明还引入词组模式以增添上下文信息,消除一词多义现象的影响,使文档中的语义信息得到更精准刻画。(3)在此基础上建立以文档为中心的词-文档-词组三部图,并计算文档之间相似度,从而有效利用了近义词和上下文信息。(4)为了克服传统方法中计算样本相似度时仅利用样本局部分布信息的缺陷,本发明又基于样本聚类假设,挖掘语料中的簇结构分布,并将这种全局信息与三部图中的相似度信息进行加权融合,从而捕捉到更全面准确的样本分布信息,在结合评论语料特点的基础上获得优质的样本关系图模型。最终,本发明在酒店评论语料上进行了交叉验证,实验结果表明该方法能取得较好的情感分类效果。
附图说明
图1是实施例中基于三部图和聚类分析的半监督电商评论情感分析方法的流程示意图。
图2是基于近义词模式和词组模式的词-文档-词组三部图。
图3是实施例中层次聚类树(左)以及簇分布信息(右)图。
具体实施方式
以下结合附图和实施例对本发明的具体实施作进一步说明,但本发明的实施和保护不限于此,需指出的是,以下若有未特别详细说明之过程或参数,均是本领域技术人员可参照现有技术实现的。
以下针对本发明方法进行实验论证(具体方案可见发明内容,此处不再赘述),具体包括:
1、实验设置
数据集:本实施例采用中文情感挖掘语料ChnSentiCorp【Tan Songbo,Chnsenticorp[Eb/Ol],2010-06-29,http://www.datatang.com/data/14614.】中的酒店评论数据集ChnSentiCorp-Htl-del-4000和笔记本电脑评论数据集ChnSentiCorp-NB-del-4000作为实验数据,两个数据集中均包括2,000条正类和2,000条负类评论文本。对于word2vec词向量,本实施例采用Sougou新闻语料【Identifying Web Spam with theWisdom of the Crowds.】进行训练,语料大小为2.02GB。
数据预处理:本实施例首先采用中科院ICTCLAS【Ictclas[EB/OL].http://ictclas.nlpir.org/】对评论文本进行中文分词和词性标注。其次利用中科院的计算所汉语词性标记集【计算所汉语词性标记集[EB/OL].[2013-02-04].http://ictclas.nlpir.org/】以及哈工大停用词表【哈工大停用词表[EB/OL].[2013-05-03].http://ir.hit.edu.cn/】对评论文本进行停用词过滤,去掉没有实意的虚词和情感类别区分能力不强的中性词。
数据集划分:本发明的方法属于半监督直推式学习,故须将数据集划分为有标注样本集(L)和未标注样本集(U),学习的目的是对未标注样本进行自动标注。本实施例采用随机划分数据集的方法得到L和U。为了检验有标注样本量|L|对实验结果的影响,分别取|L|为10,20,30进行实验。此外,为了进一步减少误差的影响,本实施例针对|L|在不同取值的情况下,分别进行10次实验并取平均,作为最终的实验结果。在每次实验中,L中两类样本的获取是按照数据集中正负类样本数的比例,从整个数据集中进行随机抽样得到,而剩下的所有样本作为U。
评价指标:实验使用平均分类准确率(Average Accuracy)衡量未标注样本集的分类效果,如式(1.6)所示。其中TP和TN代表了被正确分类的正类样本和负类样本,FP和FN代表了被错误分类的正类样本和负类样本。
Figure BDA0001873124480000091
超参数:由于半监督学习方法中有标注样本量很少,故本实施例采用留一交叉验证确定文中涉及到的超参数。
实验流程:本实施例的实验流程如图1所示(具体方法见前述发明内容)。
2、实验结果和分析
为了验证本实施例方法的有效性,将对比基于不同样本关系图的标签传播算法在电商评论情感分类中的实验结果。此外,还检验了有标注样本量|L|分别为10,20,30时的实验效果。实验涉及到的构图方法如下所示,其中前3种构图方法是本实施例要对比的方法,后4种构图方法是本发明所提出的方法。
Baseline1:KNN graph,稀疏图的代表;
Baseline2:Exp-weighted graph,全连接图的代表;
Baseline3:基于词-文档二部图得到的样本关系图;
Tripartite:基于加入近义词和词组模式后的词-文档-词组三部图得到的样本关系图;
Tripartite+SK:将基于三部图得到的样本关系图与Seeded-KMeans聚类得到的全局样本
关系图相结合;
Tripartite+CK:将基于三部图得到的样本关系图与Constrained-KMeans聚类得到的全局
样本关系图相结合;
Tripartite+S3HC:将基于三部图得到的样本关系图与S3HC算法得到的全局样本关系图
相结合;
表1实验结果
Figure BDA0001873124480000101
根据表1中的实验结果可以得出以下结论:1)在有标注样本量分别为10,20,30的情况下,本发明所提出方法的分类准确率较Baseline均有较大提升,说明了本发明改进思路的有效性。2)Tripartite的分类准确率高于三种Baseline方法,说明基于近义词和词组模式的词-文档-词组三部图有效地利用了近义词和上下文信息,消除了多词一义和一词多义现象的影响,使文档之间的关系得到了更精准刻画;3)Tripartite+SK,Tripartite+CK和Tripartite+S3HC三种方法较Tripartite都有明显提升,说明聚类所得到的全局信息对样本关系的刻画同样重要;4)方法Tripartite+S3HC相比于Tripartite+SK和Tripartite+CK的分类准确率,在多数情况下有了进一步的提升,是因为该方法对数据集进行了更细致的划分,捕捉到了样本中更丰富的层次化分布信息,使得样本关系的刻画更加合理,故取得了更好的效果。而当数据集为ChnSentiCorp-NB-del-4000,并且|L|为20和30时,方法Tripartite+S3HC的效果略低于Tripartite+SK和Tripartite+CK两种方法,可能是因为S3HC算法的种子集S在随机产生的过程中包含了少量噪声,而这些噪声所产生的影响在多次簇分裂过程中被传递和放大,最终限制了分类准确率的进一步提升。

Claims (6)

1.基于三部图和聚类分析的半监督电商评论情感分析方法,其特征在于包括:
(S1)基于词向量并结合情感词典和词性信息计算词语相似度;
(S2)引入词组模式以增添上下文信息,消除一词多义现象的影响;
(S3)建立以文档为中心的词-文档-词组三部图,并计算文档之间相似度;具体包括:
(1)基于近义词模式和词组模式,首先构建词-文档二部图;首先根据输入的词文档,统计词文档的数据记为n,并对所有词文档进行数据预处理,然后统计词文档中词语个数m和每个词语出现的频率tfk,其中,k表示第k个词语,将所有词语按照频率降序的排列方式进行排序,并用词语的序号nok为每个词语编号,将词文档转化成n条以编号表示的评论集合D_1;
(2)为词文档加入近义词模式:将词文档中m个词语构建特征词典V,对于D_1通过相似度计算方法得到每个词wk与V中m个词的相似度,其中k∈{1,2,...,m},对于满足相似度阈值参数β∈(0,1)的词,将其追加到原语句对应词语wk的后面,得到扩充语料D_2;
(3)加入词组模式:对于D_1中的每一条评论,将其中存在相邻关系的两个词语进行拼接,得到二元词组(Bigram),将词组追加到D_2中对应的评论后面,得到进一步扩充的语料D_3;另外,为了控制词组模式的数量,去掉只出现1次的词组,共计得到l个词组模式;
(4)基于(3)得到的D_3构建以词文档为中心的词语-文档-词组三部图,图的构建主要以文档为中心,第a个词文档da中包含词语wk,则有文档da向词语wk的转移关系;而词语wk能被多个词文档含有,于是词语wk能向其他词文档转移;而其他词文档中的词语和剩余词文档也有相同的转移关系,可以构建文档到词组的转移关系;
(5)基于步骤(4)得到三部图,计算第a个文档到第b个文档的转移概率Tab,计算公式如下所示:
Figure FDA0002578117690000011
其中,a,b均表示第a,b个文档,a,b∈{1,2,...,n},n是词文档数目,k,k',q,q'均表示对应的文档中词语的序号标签,其中,k∈{1,...,m};k',q'∈{1,...,m,m+1,...,m+l};q∈{1,...,l},其中tfak表示在第a个文档中第k个词语出现的频率,以此类推;
(6)基于步骤(5)可以计算得到每个文档基于三部图转移到其他各文档的转移概率矩阵G_1,其中,G_1的每一行或者每一列表示该文档到其他所有文档的转移概率向量;
(S4)基于样本聚类假设,充分挖掘数据集中的簇结构分布,得到数据集的全局信息;
(S5)将数据集的全局信息与三部图中的相似度信息进行加权融合,获得最终样本的关系图TF
(S6)根据关系图TF执行标签传播算法,将有标注样本的标签传播给未标注样本,实现未标注样本的情感分类。
2.根据权利要求1所述的基于三部图和聚类分析的半监督电商评论情感分析方法,其特征在于步骤(S1)具体包括:
(1)输入评论数据集,对数据进行预处理,去除评论文档中的标点符号、大写转小写、简写还原;
(2)用中科院ICTCLAS对评论数据集中的文档进行中文分词和词性标注;其次利用中科院的计算所汉语词性标记集以及哈工大停用词表对评论文档进行停用词过滤,去掉没有实意的虚词和的中性词;
(3)数据集划分:采用直推式学习,将数据集划分为有标注样本集L和未标注样本集U,学习的目的是对未标注样本进行自动标注;采用随机划分数据集的方法得到L和U;L中正负类样本的获取是按照数据集中正负类样本数的比例,从整个数据集中进行随机抽样得到,而剩下的所有样本作为U;
(4)经过上述处理后,原有的评论文档就是一个个词语表示的词文档了,通过word2vec词向量方法计算整个词文档中词语的词向量,进而训练得到词语词向量间的余弦相似度,于是得到词语间的相似度;在计算相似度时还引入了基于情感词典的情感信息和词性信息,即让不属于同一情感类别或同一种词性的两个词相似度值为0;假设词wi和wj,所对应的词向量为vi和vj,其中,i≠j且,i,j∈{1,2,...,m},m为总的词语数,采用词向量间的余弦相似度并结合情感词典和词性信息来衡量两个词之间的相似性,计算公式如下所示:
Figure FDA0002578117690000031
其中,Senti(wi,wj)和POS(wi,wj)为针对情感类别和词性信息的指示函数,即当词wi和wj属于同一情感类别时,Senti(wi,wj)为1,否则为0;此外,还设定了一个相似度阈值参数β∈(0,1),如果Sim(wi,wj)≥β,则认为词wi和wj是近义词;把这种具有相同情感类别和词性信息的近义词模式加入到模型后,可以更准确地刻画样本之间的关系。
3.根据权利要求1所述的基于三部图和聚类分析的半监督电商评论情感分析方法,其特征在于步骤(S2)具体包括:
(1)以词语为基础,引入二元词组(Bigram),即把词文档中存在相邻关系的两个词语进行拼接,形成更具上下文信息的语义单元;
(2)将得到的语义单元加入到原始评论文档中,使词语在结合上下文后表意更加明确;同时为了控制词组模式的数量,把只在单条评论中出现的词组去掉,因为其在刻画样本集中样本间关系时不起作用。
4.根据权利要求1所述的基于三部图和聚类分析的半监督电商评论情感分析方法,其特征在于步骤(S4)具体包括:
(1)根据样本集中少部分有标签的数据作为种子集
Figure FDA0002578117690000032
确定数据的情感类别数目为h;
(2)对样本集D中每个词文档的词语通过TF-IDF算法进行表示,从而对每个词文档用词语的TF-IDF值进行向量化表示得到整个样本集的矩阵表示D_4;
(3)词文档基于分裂的聚类算法分类:基于步骤(2)得到的矩阵D_4,将D_4作为初始待分裂簇,已知当前簇中有标注样本的类别数为h,针对当前簇执行Seeded-KMeans算法,可得到h个子簇;
(4)对于h个子簇,依次判断每个子簇是否满足停止条件:只包含一个类别的有标注样本或不包含有标注样本;
(5)对于所有不满足分裂停止条件的子簇,依次跳转到步骤(3);否则,停止分裂;从而得到最后的聚类分裂树包括节点集合{C1,C2,...,Ck”},其中k″是树中的节点数,也是簇的个数,节点Cr表示一个簇,r∈{1,2,...,k″};
(6)针对步骤(5)聚类后的每个簇,分别建立一个均匀分布的子转移矩阵
Figure FDA0002578117690000041
z∈{1,2,...,k″},其中,|Cz|是第z个簇Cz中样本的数目,TCz中每一个元素的值设置为1/(|Cz|·floorz),其中floorz表示第z个簇在分裂过程中对应的层数,故为了充分利用聚类树中的层次化簇结构信息,通过在计算元素值时引入簇的层数信息,降低层数大的簇在转移概率中的影响,使每一层的信息都能充分发挥作用;而设置该元素值的原因是考虑到聚类后的簇有大小之分,对于样本量越少的簇,则簇内样本之间的关系越紧密,相关程度也越大,而对于样本量多的簇,则相反;故在设置子转移矩阵元素值时考虑了簇中的样本量,以更细致地捕捉样本的全局分布信息;
(7)基于步骤(6)得到k″个子转移矩阵后,根据每个样本的原始序号,将这k″个子转移矩阵进行合并,得到包含样本全局分布信息的转移矩阵TC∈Rn×n,n表示词文档数目;
其中,对于层次化簇结构,每个样本同时属于多个不同层次的簇,故在合并子转移矩阵时,须将不同子矩阵中对应相同的状态转移的元素值进行相加,并填到TC中对应的位置上,从而有效地利用了样本的层次化全局分布信息。
5.根据权利要求1所述的基于三部图和聚类分析的半监督电商评论情感分析方法,其特征在于步骤(S5)具体包括:
(1)将包含数据全局分布信息的转移矩阵TC∈Rn×n与利用三部图得到的文档关系矩阵G∈Rn×n进行加权融合,得到更优质的文档转移矩阵TF即文档关系图;计算公式如下:
TF=(1-α)G+αTC
其中,α∈(0,1)是一个超参数,用于权衡G和TC两部分所发挥的作用。
6.根据权利要求1所述的基于三部图和聚类分析的半监督电商评论情感分析方法,其特征在于步骤(S6)具体包括:
(1)基于得到的文档转移矩阵TF,对样本集D进行表示;其中,有标注数据集表示为L={(x1,y1),(x2,y2),...,(xlabel,ylabel)},其中,有标注数据个数为label个,xi为每个文档的向量表示,即文档关系图TF中对应的行向量
Figure FDA0002578117690000042
无标注数据表示为U={xl+1,xl+2,...,xl+u},其中,无标注数据个数为unlabel=n-label个,样本集D的文档情感类别数为C;
(2)定义一个label×C的0-1矩阵YL表示有标注样本的标签,即,对标签类别进行排序,在YL的每行上对应的类别处为1,其余为0,YL矩阵的每一行分别与数据集中每个标签对应;定义一个n×C的类别概率分布矩阵f,包括fL和fU两部分,其中fL初始化为YL,fU随机初始化,此处n表示n个词文档;
(3)通过欧几里得距离公式计算数据集中任意两个文档da,db之前的边权重wab
Figure FDA0002578117690000051
其中,xadim,xbdim分别表示文档da,db的向量表示上彼此对应的任意维度上的数值;
(4)进行第一次传播运算:
f←TF Tf
(5)重置有标注文本的类别标签:
fL=YL
(5)判断f是否收敛,若是,则执行步骤(6),否则,跳转到步骤(3);
(6)根据Softmax公式计算未标注文本的类别标签:
Figure FDA0002578117690000052
其中,document表示未标注样本的下标,dim'表示在第dim'个类别序号;
(7)最终,基于步骤(6),得到未标注样本对应标签的预测结果:
Figure FDA0002578117690000053
CN201811386819.0A 2018-11-20 2018-11-20 基于三部图和聚类分析的半监督电商评论情感分析方法 Active CN109670039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811386819.0A CN109670039B (zh) 2018-11-20 2018-11-20 基于三部图和聚类分析的半监督电商评论情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811386819.0A CN109670039B (zh) 2018-11-20 2018-11-20 基于三部图和聚类分析的半监督电商评论情感分析方法

Publications (2)

Publication Number Publication Date
CN109670039A CN109670039A (zh) 2019-04-23
CN109670039B true CN109670039B (zh) 2020-10-30

Family

ID=66142707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811386819.0A Active CN109670039B (zh) 2018-11-20 2018-11-20 基于三部图和聚类分析的半监督电商评论情感分析方法

Country Status (1)

Country Link
CN (1) CN109670039B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110013B (zh) * 2019-05-10 2020-03-24 成都信息工程大学 一种基于时空属性的实体竞争关系数据挖掘方法
CN110377694A (zh) * 2019-06-06 2019-10-25 北京百度网讯科技有限公司 标注文本对逻辑关系的方法、装置、设备和计算机存储介质
CN110489522B (zh) * 2019-07-26 2022-04-12 湖南大学 一种基于用户评分的情感词典构建方法
CN110489553B (zh) * 2019-07-26 2022-07-05 湖南大学 一种基于多源信息融合的情感分类方法
CN111966827A (zh) * 2020-07-24 2020-11-20 大连理工大学 基于异构二部图的对话情感分析方法
CN111737581A (zh) * 2020-07-24 2020-10-02 网思分析(研究与技术)有限公司 一种针对特定方面的情感分析的半监督多任务学习模型
CN112084764B (zh) * 2020-09-02 2022-06-17 北京字节跳动网络技术有限公司 数据检测方法、装置、存储介质及设备
CN113988176A (zh) * 2021-10-27 2022-01-28 支付宝(杭州)信息技术有限公司 样本标注方法和装置
CN114398891B (zh) * 2022-03-24 2022-06-24 三峡智控科技有限公司 基于日志关键词生成kpi曲线并标记波段特征的方法
CN114707617B (zh) * 2022-05-31 2022-08-26 每日互动股份有限公司 一种获取pkg簇的数据处理系统
CN116757195A (zh) * 2023-06-25 2023-09-15 哈尔滨工业大学 一种基于提示学习的隐性情感识别方法
CN117972359A (zh) * 2024-03-28 2024-05-03 北京尚博信科技有限公司 基于多模态数据的智能数据分析方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10402745B2 (en) * 2012-09-28 2019-09-03 Semeon Analytics Inc. Method and system for analysing sentiments
CN103605990B (zh) * 2013-10-23 2017-02-08 江苏大学 基于图聚类标签传播的集成多分类器融合分类方法和系统
CN103646088B (zh) * 2013-12-13 2017-03-15 合肥工业大学 基于CRFs和SVM的产品评论细粒度情感要素提取
CN104036051B (zh) * 2014-07-04 2017-04-05 南开大学 一种基于标签传播的数据库模式摘要生成方法
CN107491531B (zh) * 2017-08-18 2019-05-17 华南师范大学 基于集成学习框架的中文网络评论情感分类方法
CN108108433A (zh) * 2017-12-19 2018-06-01 杭州电子科技大学 一种基于规则和数据网络融合的情感分析方法

Also Published As

Publication number Publication date
CN109670039A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
Tripto et al. Detecting multilabel sentiment and emotions from bangla youtube comments
Saravia et al. CARER: Contextualized affect representations for emotion recognition
Li et al. DWWP: Domain-specific new words detection and word propagation system for sentiment analysis in the tourism domain
Wahid et al. Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN114548321A (zh) 基于对比学习的自监督舆情评论观点对象分类方法
Castillo et al. Text analysis using different graph-based representations
Syed et al. Exploring symmetrical and asymmetrical Dirichlet priors for latent Dirichlet allocation
CN113343690A (zh) 一种文本可读性自动评估方法及装置
Baboo et al. Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers
Ruma et al. A deep learning classification model for Persian Hafez poetry based on the poet’s era
Sheeba et al. A fuzzy logic based on sentiment classification
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Mehendale et al. Cyber bullying detection for Hindi-English language using machine learning
CN117291190A (zh) 一种基于情感词典和lda主题模型的用户需求计算方法
Vīksna et al. Sentiment analysis in Latvian and Russian: A survey
CN116578708A (zh) 一种基于图神经网络的论文数据姓名消歧算法
CN111563374A (zh) 一种基于司法裁判文书的人员社交关系抽取方法
CN108256055B (zh) 一种基于数据增强的主题建模方法
Maree et al. Optimizing machine learning-based sentiment analysis accuracy in bilingual sentences via preprocessing techniques.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Lu Xin

Inventor after: Xue Yun

Inventor after: Wu Haiming

Inventor before: Lu Xin

Inventor before: Wu Haiming

Inventor before: Xue Yun

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210707

Address after: 210012 4th floor, building C, Wanbo Science Park, 20 Fengxin Road, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee after: NANJING SILICON INTELLIGENCE TECHNOLOGY Co.,Ltd.

Address before: Room 614-615, No.1, Lane 2277, Zuchongzhi Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Patentee before: Shanghai Airlines Intellectual Property Services Ltd.

Effective date of registration: 20210707

Address after: Room 614-615, No.1, Lane 2277, Zuchongzhi Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Patentee after: Shanghai Airlines Intellectual Property Services Ltd.

Address before: School of physics and telecommunication engineering, South China Normal University, No. 378, Waihuan West Road, Panyu District, Guangzhou City, Guangdong Province, 510006

Patentee before: SOUTH CHINA NORMAL University

TR01 Transfer of patent right