CN105183715B - 一种基于词分布和文档特征的垃圾评论自动分类方法 - Google Patents

一种基于词分布和文档特征的垃圾评论自动分类方法 Download PDF

Info

Publication number
CN105183715B
CN105183715B CN201510549592.7A CN201510549592A CN105183715B CN 105183715 B CN105183715 B CN 105183715B CN 201510549592 A CN201510549592 A CN 201510549592A CN 105183715 B CN105183715 B CN 105183715B
Authority
CN
China
Prior art keywords
comment
comments
network
spam
normal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510549592.7A
Other languages
English (en)
Other versions
CN105183715A (zh
Inventor
王建翔
顾庆
喻黎霞
陈道蓄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201510549592.7A priority Critical patent/CN105183715B/zh
Publication of CN105183715A publication Critical patent/CN105183715A/zh
Application granted granted Critical
Publication of CN105183715B publication Critical patent/CN105183715B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于词分布和文档特征的垃圾评论自动分类方法,首先收集网络评论,对评论分词得到关键词集合;再建立词分布矩阵,训练语言模型,计算未标注网络评论属于正常评论和垃圾评论的分类概率;之后提取网络评论的文档特征,计算未标注网络评论的分类概率;最后对分类概率计算加权平均,重复上述步骤直到前后两次计算的分类概率相同或达到给定的迭代次数。该方法综合考虑网络评论中词分布特征和文档特征,通过自学习策略自动完成网络评论分类,帮助识别其中的垃圾评论的方法。本发明计算简单,通用性和扩展性强,只要少量具有标注的网络评论即可对大量的评论进行实时分类,适用于即时更新的网络评论中快速识别垃圾评论的应用需求。

Description

一种基于词分布和文档特征的垃圾评论自动分类方法
技术领域
本发明涉及计算机应用领域,特别是一种在海量因特网评论中辅助识别垃圾评论的自动分类方法。
技术背景
随着因特网技术的飞速发展,促生了多种新兴的网络通讯和交流方式。网络用户可以方便快捷的发表各种评论。网络交流以其良好的自由性、实时性和便捷性正在逐渐改变人们的沟通方式。
网络技术的发展具有两面性,用户发表评论的自由性和因特网强大的传播能力往往会被一些用户利用,将各种商业广告或恶意信息发布到网络评论中。近年来,垃圾评论在因特网中的蔓延趋势愈演愈烈,以垃圾评论为载体的各种商业广告,虚假宣传更是屡见不鲜。大量存在的垃圾评论不仅极大浪费了网络资源,而且恶意评论会虚造声势、传播负面消息,进而对社会产生负面影响。
因特网中巨大的用户数量和评论发表量对垃圾评论分类和识别带来挑战。目前针对网络中垃圾评论自动识别的分类研究还存在局限性:1)可扩展性不强,大多数分类方法只能针对特定的应用场景,很难进行扩展;2)抽取的特征单一,现有的分类方法只度量评论的相似性,没有综合考虑词分布特征和文档特征;3)对数据集的依赖性强,需要大量的评论标注;不能满足对因特网中垃圾评论自动分类的需求。
本发明方法应用到分词技术和Bayes分类器:单词是最小的具有独立意义的语法单元,汉语句子中的词之间没有明显的区分标记,需要采用分词技术将输入的汉语评论切分为具有独立意义的单词。Bayes分类器基于先验概率,采用贝叶斯公式计算目标评论属于正常评论和垃圾评论的分类概率,其分类结果是选择最大概率所对应的类别。本发明中涉及到自学习策略,自学习策略是一种半监督迭代式训练方法,适用于有标注的网络评论比例较少的情形;将前一轮迭代中得到的分类结果应用到下一轮迭代中,补充有标注的评论集合,从而提高分类结果的准确性。
发明内容
本发明所要解决的技术问题是提供一种基于词分布和文档特征的垃圾评论自动分类方法,该方法计算简单,通用性和扩展性强,只需要少量具有标注的网络评论即可对大量的评论进行实时分类。
为实现上述目的,本发明采用如下的步骤:
1)收集网络评论,对评论分词,得到关键词集合;
2)建立关键词分布矩阵,训练语言模型,计算未标注网络评论属于正常评论和垃圾评论的分类概率;
3)提取网络评论的文档特征,训练基于概率的Bayes分类器,计算未标注网络评论的分类概率;
4)对步骤2)和步骤3)中的分类概率计算加权平均,最后采用自学习策略重复上述步骤,直到前后两次计算的分类概率相同或达到给定的迭代次数。
上述步骤1)中收集网络评论并得到关键词集合的处理流程是:首先整合网络评论,得到网络评论集合:D={R1,R2…Rn},其中Ri表示D中的一条评论(1≤i≤n),n为评论总数;根据评论Ri是否带有标注(正常评论=0,垃圾评论=1),将集合D划分为标注集和目标集,前者包含有标注的网络评论,后者包含没有标注的网络评论;标注集又分为正常评论集合N和垃圾评论集合S;
然后利用分词技术,对每一个网络评论分词;对分词后的网络评论,删除以下内容:
●URL链接;
●手机或座机号码;
●数字;
●表情符号和其他特殊的网络符号;
●停用词,包括语气助词、副词、介词、连接词和标点符号;
汇总所有的网络评论分词结果后,得到的关键词集合记为W={w1,w2…ws},其中s是网络评论集合D中所有不同的关键词的数量,w1,w2…ws指各个关键词。
上述步骤2)中训练语言模型计算网络评论分类概率的处理流程是:首先建立词分布矩阵Mn×s和Hn×s,其中n指网络评论的总数,s指全部网络评论中不同的关键词的数量;矩阵元素M(i,x)表示评论Ri中关键词wx在标注集中正常评论下的计算值(1≤i≤n,1≤x≤s),H(i,x)表示评论Ri中关键词wx在标注集中垃圾评论下的计算值,M(i,x)和H(i,x)的计算公式如下:
M(i,x)=TF(i,x)×TDF(N:x) (1)
H(i,x)=TF(i,x)×TDF(S:x) (2)
其中TF(i,x)表示关键词wx在评论Ri中出现的频率,计算方法是:统计wx在评论Ri中出现的次数,记为g(Ri,wx,),则Ri中所有关键词出现的总次数为TF(i,x)计算公式如下:
TDF(N:x)表示关键词wx在正常评论与垃圾评论中的分布比,TDF(S:x)表示wx在垃圾评论与正常评论中的分布比,令N表示正常评论集合,S表示垃圾评论集合,TDF(N:x)和TDF(S:x)的计算公式分别为:
其中,f(N,wx)表示在正常评论集合N中包含wx的文档数与不包含wx的文档数的比值;f(S,wx)表示在垃圾评论集合S中包含wx的文档数与不包含wx的文档数的比值,f(N,wx)和f(S,wx)的计算公式分别为:
其中常数ζ用来保证分子分母都不为0,ζ=0.05;
然后根据词分布矩阵,计算关键词的平均权重;给定关键词wx,令U(wx,1)和U(wx,0)分别表示在标注集中,wx在垃圾评论中的算术平均值和在正常评论中的算数平均值;U(wx,1)和U(wx,0)的计算公式分别为:
其中M(i,x)和H(i,x)是词分布矩阵中的元素;将U(wx,1)和U(wx,0)归一化,得到关键词wx的相对权重V(wx,1)和V(wx,0):
最后训练一元语言模型,计算网络评论的分类概率;对没有标注的网络评论所构成的目标集T={R1,R2…Rm},m代表集合T中评论的数量;对T中的每一个评论Ri,统计每个关键词wx在Ri中出现的次数g(Ri,wx),再根据关键词wx的相对权重,分别计算Ri属于垃圾评论的概率和属于正常评论的概率其中L(Ri)指对评论Ri的标注:
上述步骤3)中训练Bayes分类器计算网络评论分类概率的处理流程是:首先提取每一个网络评论的文档特征,对评论Ri,统计以下8个文档特征,构成评论Ri的文档特征向量ηi={η12…η8}:
η1:是否含有URL,若是η1=1否则η1=0;
η2:是否含手机号码或座机号码,若是η2=1否则η2=0;
η3:英文字符占总字数的比例;
η4:数字字符占总字数的比例;
η5:表情符号和其他网络符号占总字数的比例;
η6:该评论对应的用户发布正常评论与垃圾评论个数的比值;
η7:该评论对应的用户的平均评论间隔(单位为秒);
η8:该评论对应的用户的平均单日评论量;
然后输入标注集中所有网络评论的文档特征向量及其对应标注,训练Bayes分类器;接下来,对目标集T={R1,R2…Rm}中的每一个评论Ri,将其文档特征向量提交给训练好的Bayes分类器,计算评论Ri是垃圾评论的概率以及正常评论的概率
上述步骤4)中采用自学习策略完成网络评论分类的处理流程是:首先采用加权平均法,整合步骤2)和步骤3)计算的分类概率;计算评论Ri属于垃圾评论的概率P1 i和属于正常评论的概率P0 i,计算公式如下:
其中λ是权重,设置为λ=0.3;分别是步骤2)中计算的垃圾评论概率和正常评论概率;分别是步骤3)中计算的垃圾评论概率和正常评论概率;
然后计算评论Ri的置信度σ=|P0 i-P1 i|;移出目标集T中置信度最大的前若干个评论,比如5%。如果P1 i>P0 i,则标注为垃圾评论,否则标注为正常评论,分别补充到标注集的垃圾评论集合S或者正常评论集合N中;
最后采用新的标注集和目标集,重新训练语言模型和Bayes分类器并计算分类结果,直到前后两次迭代得到的目标集和标注集不再发生变化,或者迭代次数达到一定次数,比如50次为止;目标集中剩余的网络评论按正常评论处理。
本发明方法在考虑网络评论文档特征的同时,充分挖掘了正常评论和垃圾评论中关键词的分布差异,同时采用自学习策略,极大减小了对人工标注的依赖;实际验证表明,本发明方法分类结果具有较高的准确性,能够部分替代人工识别工作,减少人力成本。本发明方法计算简单快速,通用性和扩展性强,适用于因特网环境下网络评论即时更新的应用场景。
附图说明
图1是基于词分布和文档特征的垃圾评论自动分类方法的总体框架;
图2是建立词分布矩阵训练语言模型并计算分类概率的执行流程;
图3是基于文档特征训练分类器计算分类概率的执行流程;
图4是应用自学习策略完成垃圾评论自动分类的技术框架。
具体实施方式
图1所示是基于词分布和文档特征的垃圾评论自动分类方法的总体框架。方法的输入是少量有标注的网络评论(即人工标注了网络评论是正常评论或垃圾评论,构成标注集),和大量无标注的待分类评论(构成目标集)。方法的输出是对网络评论的分类:正常评论标注为0;垃圾评论标注为1。本发明方法包含以下四个主要步骤:1)收集网络评论,对评论分词,得到关键词集合;2)建立词分布矩阵,训练语言模型,计算未标注网络评论属于正常评论和垃圾评论的分类概率;3)提取网络评论的文档特征,训练基于概率的Bayes分类器,计算未标注网络评论的分类概率;4)对步骤2)和步骤3)中的分类概率计算加权平均,最后采用自学习策略重复上述步骤,直到前后两次计算的分类概率相同或达到给定的迭代次数。
本发明方法的第一个步骤是整合网络评论并提取关键词集合;首先整合网络评论,得到网络评论集合:D={R1,R2…Rn},其中Ri表示D中的一条评论(1≤i≤n),n为评论总数;根据评论Ri是否带有标注(正常评论=0,垃圾评论=1),将集合D划分为标注集和目标集,前者包含有标注的网络评论,后者包含没有标注的网络评论;标注集又分为正常评论集合N和垃圾评论集合S;
然后利用分词技术,对每一个网络评论分词;对分词后的网络评论,删除以下内容:
●URL链接;
●手机或座机号码;
●数字;
●表情符号和其他特殊的网络符号;
●停用词,包括语气助词、副词、介词、连接词和标点符号;
汇总所有的网络评论分词结果后,得到的关键词集合记为W={w1,w2…ws},其中s是网络评论集合D中所有不同的关键词的数量。
本发明方法的第二个步骤是建立词分布矩阵训练语言模型计算分类概率;执行流程如图2所示。首先建立词分布矩阵Mn×s和Hn×s,其中n指网络评论的总数,s指全部网络评论中不同的关键词的数量;矩阵元素M(i,x)表示评论Ri中关键词wx在标注集中正常评论下的计算值(1≤i≤n,1≤x≤s),H(i,x)表示评论Ri中关键词wx在标注集中垃圾评论下的计算值,M(i,x)和H(i,x)的计算公式如下:
M(i,x)=TF(i,x)×TDF(N:x) (1)
H(i,x)=TF(i,x)×TDF(S:x) (2)
其中TF(i,x)表示关键词wx在评论Ri中出现的频率,计算方法是:统计wx在评论Ri中出现的次数,记为g(Ri,wx,),则Ri中所有关键词出现的总次数为TF(i,x)计算公式如下:
TDF(N:x)表示关键词wx在正常评论(N表示正常评论集合)与垃圾评论中的分布比,TDF(S:x)表示wx在垃圾评论(S表示垃圾评论集合)与正常评论中的分布比,TDF(N:x)和TDF(S:x)的计算公式分别为:
其中,f(N,wx)表示在正常评论集合N中包含wx的文档数与不包含wx的文档数的比值;f(S,wx)表示在垃圾评论集合S中包含wx的文档数与不包含wx的文档数的比值,f(N,wx)和f(S,wx)的计算公式分别为:
其中常数ζ用来保证分子分母都不为0,ζ=0.05。
然后根据词分布矩阵,计算关键词的平均权重;给定关键词wx,令U(wx,1)和U(wx,0)分别表示在标注集中,wx在垃圾评论中的算术平均值和在正常评论中的算数平均值;U(wx,1)和U(wx,0)的计算公式分别为:
其中M(i,x)和H(i,x)是词分布矩阵中的元素;将U(wx,1)和U(wx,0)归一化,得到关键词wx的相对权重V(wx,1)和V(wx,0):
最后训练一元语言模型,计算网络评论的分类概率;对没有标注的网络评论所构成的目标集T={R1,R2…Rm},m代表集合T中评论的数量;对T中的每一个评论Ri,统计每个关键词wx在Ri中出现的次数g(Ri,wx),再根据关键词wx的相对权重,分别计算Ri属于垃圾评论的概率和属于正常评论的概率其中L(Ri)指对评论Ri的标注:
本发明方法的第三个步骤是提取文档特征训练Bayes分类器计算分类概率;执行流程如图3所示。首先提取每一个网络评论的文档特征,对评论Ri,统计以下8个文档特征,构成评论Ri的文档特征向量ηi={η12…η8}:
η1:是否含有URL,若是η1=1否则η1=0;
η2:是否含手机号码或座机号码,若是η2=1否则η2=0;
η3:英文字符占总字数的比例;
η4:数字字符占总字数的比例;
η5:表情符号和其他网络符号占总字数的比例;
η6:该评论对应的用户发布正常评论与垃圾评论个数的比值;
η7:该评论对应的用户的平均评论间隔(单位为秒);
η8:该评论对应的用户的平均单日评论量;
然后输入标注集中所有网络评论的文档特征向量及其对应标注,训练Bayes分类器;接下来,对目标集T={R1,R2…Rm}中的每一个评论Ri,将其文档特征向量提交给训练好的Bayes分类器,计算评论Ri是垃圾评论的概率以及正常评论的概率
本发明方法的第四个步骤是采用加权平均法计算垃圾评论概率;随后采用自学习策略,以迭代的方法确定网络评论的自动分类;技术框架如图4所示。首先采用加权平均法,整合步骤2)和步骤3)计算的分类概率;计算评论Ri属于垃圾评论的概率P1 i和属于正常评论的概率P0 i,计算公式如下:
其中λ是权重,设置为λ=0.3;
然后计算评论Ri的置信度σ=|P0 i-P1 i|;移出目标集T中置信度最大的前5%个评论,如果P1 i>P0 i,则标注为垃圾评论,否则标注为正常评论,分别补充到标注集的垃圾评论集合S或者正常评论集合N中。
最后采用新的标注集和目标集,重复步骤2和步骤3,直到前后两次分类结果相同,即目标集和标注集不再发生变化,或者迭代次数达到50为止;目标集中剩余的网络评论按正常评论处理。
本发明方法应用分词技术获得网络评论的关键词集合;统计关键词的词分布矩阵,训练语言模型,计算目标网络评论属于正常评论和垃圾评论的分类概率;其次提取网络评论的文档特征,训练基于概率的Bayes分类器,计算目标网络评论的分类;采用加权平均法综合上述两步分类结果,最后采用自学习策略迭代训练,提高分类结果的准确性。本发明方法计算简单,能够快速准确地完成网络评论分类,辅助识别其中的垃圾评论;通用性和扩展性强,只要求少量具有标注的网络评论,即可对大量的网络评论进行实时分类,满足因特网环境下,在即时更新的网络评论中快速识别垃圾评论的应用需求。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。

Claims (4)

1.一种基于词分布和文档特征的垃圾评论自动分类方法,其特征在于包含以下步骤:
1)收集网络评论,对评论分词,得到关键词集合;其具体过程是:首先整合网络评论,得到网络评论集合D:D={R1,R2…Rn},其中Ri表示D中的一条评论,1≤i≤n,n为评论总数;根据评论Ri是否带有标注,其中正常评论=0,垃圾评论=1;将集合D划分为标注集和目标集,前者包含有标注的网络评论,后者包含没有标注的网络评论;标注集又分为正常评论集合N和垃圾评论集合S;
然后利用分词技术,对每一个网络评论分词;对分词后的网络评论,删除不必要的内容:
汇总所有的网络评论分词结果后,得到的关键词集合记为W={w1,w2…ws},其中s是网络评论集合D中所有不同的关键词的数量,w1,w2…ws指各个关键词;
2)建立关键词分布矩阵,训练语言模型,计算未标注网络评论属于正常评论和垃圾评论的分类概率;其具体过程是:首先建立词分布矩阵Mn×s和Hn×s,其中n指网络评论的总数,s指全部网络评论中不同的关键词的数量;矩阵元素M(i,x)表示评论Ri中关键词wx在标注集中正常评论下的计算值,1≤i≤n,1≤x≤s,H(i,x)表示评论Ri中关键词wx在标注集中垃圾评论下的计算值,M(i,x)和H(i,x)的计算公式如下:
M(i,x)=TF(i,x)×TDF(N:x) (1)
H(i,x)=TF(i,x)×TDF(S:x) (2)
其中TF(i,x)表示关键词wx在评论Ri中出现的频率,计算方法是:统计wx在评论Ri中出现的次数,记为g(Ri,wx,),则Ri中所有关键词出现的总次数为TF(i,x)计算公式如下:
<mrow> <msub> <mi>TF</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>x</mi> <mo>)</mo> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
TDF(N:x)表示关键词wx在正常评论与垃圾评论中的分布比,TDF(S:x)表示wx在垃圾评论与正常评论中的分布比,令N表示正常评论集合,S表示垃圾评论集合,TDF(N:x)和TDF(S:x)的计算公式分别为:
<mrow> <msub> <mi>TDF</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>:</mo> <mi>x</mi> <mo>)</mo> </mrow> </msub> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mfrac> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>,</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>,</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>TDF</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>;</mo> <mi>x</mi> <mo>)</mo> </mrow> </msub> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mfrac> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>,</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>,</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
其中,f(N,wx)表示在正常评论集合N中包含wx的文档数与不包含wx的文档数的比值;f(S,wx)表示在垃圾评论集合S中包含wx的文档数与不包含wx的文档数的比值,f(N,wx)和f(S,wx)的计算公式分别为:
其中常数ζ用来保证分子分母都不为0,ζ=0.05;
然后根据词分布矩阵,计算关键词的平均权重;给定关键词wx,令U(wx,1)和U(wx,0)分别表示在标注集中,wx在垃圾评论中的算术平均值和在正常评论中的算数平均值;U(wx,1)和U(wx,0)的计算公式分别为:
<mrow> <mi>U</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>H</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>x</mi> <mo>)</mo> </mrow> </msub> </mrow> <mrow> <mo>|</mo> <mrow> <mo>{</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>&amp;Element;</mo> <mi>S</mi> <mo>}</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>U</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>M</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>x</mi> <mo>)</mo> </mrow> </msub> </mrow> <mrow> <mo>|</mo> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>&amp;Element;</mo> <mi>N</mi> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>
其中M(i,x)和H(i,x)是词分布矩阵中的元素;将U(wx,1)和U(wx,0)归一化,得到关键词wx的相对权重V(wx,1)和V(wx,0):
<mrow> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>U</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mi>U</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>+</mo> <mi>U</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>U</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mi>U</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>+</mo> <mi>U</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>
最后训练一元语言模型,计算网络评论的分类概率;对没有标注的网络评论所构成的目标集T={R1,R2…Rm},m代表集合T中评论的数量;对T中的每一个评论Ri,统计每个关键词wx在Ri中出现的次数g(Ri,wx),再根据关键词wx的相对权重,分别计算Ri属于垃圾评论的概率P(L(Ri)=1)和属于正常评论的概率P(L(Ri)=0),其中L(Ri)指对评论Ri的标注:
<mrow> <msub> <mi>P</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mn>1</mn> <mo>)</mo> </mrow> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <mrow> <mo>(</mo> <mi>g</mi> <mo>(</mo> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> </mrow> <mo>)</mo> <mo>&amp;times;</mo> <mi>l</mi> <mi>g</mi> <mi>V</mi> <mo>(</mo> <mrow> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>1</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>P</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mn>0</mn> <mo>)</mo> </mrow> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <mrow> <mo>(</mo> <mi>g</mi> <mo>(</mo> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> </mrow> <mo>)</mo> <mo>&amp;times;</mo> <mi>lg</mi> <mi>V</mi> <mo>(</mo> <mrow> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>0</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
3)提取网络评论的文档特征,训练基于概率的Bayes分类器,计算未标注网络评论的分类概率;
4)对步骤2)和步骤3)中的分类概率计算加权平均,最后采用自学习策略重复上述步骤,直到前后两次计算的分类概率相同或达到给定的迭代次数。
2.根据权利要求1所述的基于词分布和文档特征的垃圾评论自动分类方法,其特征在于,所述不必要的内容包括URL链接;手机或座机号码;数字;表情符号和特殊的网络符号;停用词,包括语气助词、副词、介词、连接词和标点符号。
3.根据权利要求1或2所述的基于词分布和文档特征的垃圾评论自动分类方法,其特征在于,上述步骤3)的过程是:首先提取每一个网络评论的文档特征,对评论Ri,统计以下8个文档特征,构成评论Ri的文档特征向量ηi={η12…η8}:
η1:是否含有URL,若是η1=1否则η1=0;
η2:是否含手机号码或座机号码,若是η2=1否则η2=0;
η3:英文字符占总字数的比例;
η4:数字字符占总字数的比例;
η5:表情符号和其他网络符号占总字数的比例;
η6:该评论对应的用户发布正常评论与垃圾评论个数的比值;
η7:该评论对应的用户的平均评论间隔,单位为秒;
η8:该评论对应的用户的平均单日评论量;
然后输入标注集中所有网络评论的文档特征向量及其对应标注,训练Bayes分类器;接下来,对目标集T={R1,R2…Rm}中的每一个评论Ri,将其文档特征向量提交给训练好的Bayes分类器,计算评论Ri是垃圾评论的概率以及正常评论的概率
4.根据权利要求3所述的基于词分布和文档特征的垃圾评论自动分类方法,其特征在于,上述步骤4)的过程是:首先采用加权平均法,整合步骤2)和步骤3)计算的分类概率;计算评论Ri属于垃圾评论的概率P1 i和属于正常评论的概率P0 i,计算公式如下:
<mrow> <msubsup> <mi>P</mi> <mn>1</mn> <mi>i</mi> </msubsup> <mo>=</mo> <msub> <mi>&amp;lambda;P</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mn>1</mn> <mo>)</mo> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;lambda;</mi> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>(</mo> <msub> <mi>&amp;eta;</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mn>1</mn> <mo>)</mo> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msubsup> <mi>P</mi> <mn>0</mn> <mi>i</mi> </msubsup> <mo>=</mo> <msub> <mi>&amp;lambda;P</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mn>0</mn> <mo>)</mo> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;lambda;</mi> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>(</mo> <msub> <mi>&amp;eta;</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mn>0</mn> <mo>)</mo> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>15</mn> <mo>)</mo> </mrow> </mrow>
其中λ是权重,设置为λ=0.3;分别是步骤2)中计算的垃圾评论概率和正常评论概率;分别是步骤3)中计算的垃圾评论概率和正常评论概率;
然后计算评论Ri的置信度σ=|P0 i-P1 i|;移出目标集T中置信度最大的前若干个评论,如果P1 i>P0 i,则标注为垃圾评论,否则标注为正常评论,分别补充到标注集的垃圾评论集合S或者正常评论集合N中;
最后采用新的标注集和目标集,重新训练语言模型和Bayes分类器并计算分类结果,直到前后两次迭代得到的目标集和标注集不再发生变化,或者迭代次数达到设定次数为止;目标集中剩余的网络评论按正常评论处理。
CN201510549592.7A 2015-08-31 2015-08-31 一种基于词分布和文档特征的垃圾评论自动分类方法 Expired - Fee Related CN105183715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510549592.7A CN105183715B (zh) 2015-08-31 2015-08-31 一种基于词分布和文档特征的垃圾评论自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510549592.7A CN105183715B (zh) 2015-08-31 2015-08-31 一种基于词分布和文档特征的垃圾评论自动分类方法

Publications (2)

Publication Number Publication Date
CN105183715A CN105183715A (zh) 2015-12-23
CN105183715B true CN105183715B (zh) 2018-02-09

Family

ID=54905804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510549592.7A Expired - Fee Related CN105183715B (zh) 2015-08-31 2015-08-31 一种基于词分布和文档特征的垃圾评论自动分类方法

Country Status (1)

Country Link
CN (1) CN105183715B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055664B (zh) * 2016-06-03 2019-03-08 腾讯科技(深圳)有限公司 一种基于用户评论的ugc垃圾内容过滤方法及系统
CN106844349B (zh) * 2017-02-14 2019-10-18 广西师范大学 基于协同训练的垃圾评论识别方法
CN107071587A (zh) * 2017-04-25 2017-08-18 腾讯科技(深圳)有限公司 视频片段的获取方法及装置
CN108121700B (zh) * 2017-12-21 2021-06-25 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
CN109766435A (zh) * 2018-11-06 2019-05-17 武汉斗鱼网络科技有限公司 弹幕类别识别方法、装置、设备及存储介质
CN110321562B (zh) * 2019-06-28 2023-06-02 广州探迹科技有限公司 一种基于bert的短文本匹配方法及装置
CN110442798B (zh) * 2019-07-03 2021-10-08 华中科技大学 基于网络表示学习的垃圾评论用户群组检测方法
CN113434628B (zh) * 2021-05-14 2023-07-25 南京信息工程大学 一种基于特征级与传播关系网络的评论文本置信检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745001A (zh) * 2014-01-24 2014-04-23 福州大学 一种产品垃圾评论者检测系统
CN103778109A (zh) * 2014-02-13 2014-05-07 北京奇艺世纪科技有限公司 一种识别用户评论的方法及装置
CN104484330A (zh) * 2014-10-31 2015-04-01 浙江工商大学 基于分档关键词阈值组合评估的垃圾评论预选方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10642975B2 (en) * 2011-10-19 2020-05-05 Cornell University System and methods for automatically detecting deceptive content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745001A (zh) * 2014-01-24 2014-04-23 福州大学 一种产品垃圾评论者检测系统
CN103778109A (zh) * 2014-02-13 2014-05-07 北京奇艺世纪科技有限公司 一种识别用户评论的方法及装置
CN104484330A (zh) * 2014-10-31 2015-04-01 浙江工商大学 基于分档关键词阈值组合评估的垃圾评论预选方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Online Review Spam Detection using Language Model and Feature Selection》;Manali S.Patil et al;《International Journal of Computer Applications》;20121231;第59卷(第7期);33-36 *

Also Published As

Publication number Publication date
CN105183715A (zh) 2015-12-23

Similar Documents

Publication Publication Date Title
CN105183715B (zh) 一种基于词分布和文档特征的垃圾评论自动分类方法
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
CN107463658B (zh) 文本分类方法及装置
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN104199972B (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN105183717B (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN107169079B (zh) 一种基于Deepdive的领域文本知识抽取方法
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN102270212A (zh) 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
CN102436480B (zh) 一种面向文本的知识单元关联关系挖掘方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN104199845B (zh) 基于主体模型的网上评论情感分类方法
Wankhede et al. Design approach for accuracy in movies reviews using sentiment analysis
CN103593431A (zh) 网络舆情分析方法和装置
CN105809186A (zh) 情感分类的方法及系统
CN106547875A (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN112434164A (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN105068986B (zh) 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180209