CN105068986A - 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法 - Google Patents

基于双向迭代和自动构建更新语料库的垃圾评论过滤方法 Download PDF

Info

Publication number
CN105068986A
CN105068986A CN201510417206.9A CN201510417206A CN105068986A CN 105068986 A CN105068986 A CN 105068986A CN 201510417206 A CN201510417206 A CN 201510417206A CN 105068986 A CN105068986 A CN 105068986A
Authority
CN
China
Prior art keywords
comment
text
spam
corpus
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510417206.9A
Other languages
English (en)
Other versions
CN105068986B (zh
Inventor
张宇
刘妙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201510417206.9A priority Critical patent/CN105068986B/zh
Publication of CN105068986A publication Critical patent/CN105068986A/zh
Application granted granted Critical
Publication of CN105068986B publication Critical patent/CN105068986B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,包括:获取产品的评论文本以构建语料库,并对语料库进行初始划分形成垃圾评论文本集和正常评论文本集;利用贝叶斯过滤器对正常评论文本集和垃圾评论文本集中的评论文本进行垃圾评论判别,并更新垃圾评论文本集和正常评论文本集;利用贝叶斯过滤器迭代地进行垃圾评论判别,直至相邻两次迭代得到的结果不再变化为止,并判定最后一次迭代得到的垃圾评论文本集中的评论文本为垃圾评论文本。本发明的垃圾评论过滤方法迭代地利用贝叶斯过滤器进行垃圾评论判别,能够自动识别出新的垃圾评论文本,实现垃圾评论文本集和正常评论文本集的自动更新,从而获得更加准确的判别结果。

Description

基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
技术领域
本发明涉及电子商务网站中用户评论文本的垃圾评论过滤技术领域,尤其涉及一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法。
背景技术
随着互联网的普及和电子商务应用的迅猛发展,网络中用户评论数据呈指数级增长。这些海量的用户评论数据中蕴藏着大量有价值的信息,能够带来巨大的商业价值。
但是,与此同时,网络欺诈、刷钻炒信等现象也随之产生,评论数据中往往存在大量的垃圾评论,如商家广告、炒信评论、恶意评价等,使得用户无法获得商品和卖家的真实评价,也严重的阻碍了信息的挖掘,甚至会导致错误的挖掘结果。因此,垃圾评论过滤十分必要。
现有的垃圾评论过滤技术,通常是使用简单的规则,或是利用预先定义的垃圾关键词库来进行垃圾评论过滤的。这类方法的准确率受限于所制定的规则和所定义的垃圾关键词库。此外,由于互联网上新的评论特征词不断地涌现,规则和垃圾关键词库的维护也非常耗时。
另外一种典型的垃圾评论过滤方法,通过分析用户的行为,识别出撰写垃圾评论的用户,进而实现对垃圾评论的过滤。
但是,很多撰写垃圾评论的用户刻意不发表重复评论,从而避免被系统所识别,导致这些用户所发表的垃圾评论也无法被过滤出来。
此外还有一些学者提出了基于语义相似度的垃圾评论过滤方法,即先利用规则过滤出垃圾评论,再利用HowNet词语相似度来扩展文本相似度,并以此识别正常评论,来提高有效评论的识别率。但是该方法也依赖规则过滤出的垃圾评论的准确率,并且受限于HowNet的词语相似度计算结果。
发明内容
针对现有垃圾评论过滤技术的不足,本发明提出了一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,采用非监督式的方法,无需人工标注,因此大大降低了人工成本,也易于扩展到新的应用领域。
一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,包括如下步骤:
(1)获取产品的评论文本以构建语料库,并对语料库进行初始划分形成垃圾评论文本集和正常评论文本集;
(2)利用贝叶斯过滤器对所述垃圾评论文本集和正常评论文本集中的评论文本进行垃圾评论判别,并根据垃圾评论判别结果更新垃圾评论文本集和正常评论文本集;
(3)迭代执行步骤(2),直至相邻两次迭代得到的垃圾评论文本集和正常评论文本集不再变化为止,并判定最后一次迭代得到的垃圾评论文本集中的评论文本为垃圾评论文本。
本发明的垃圾评论过滤方法实现了垃圾评论文本集和正常评论文本集的自动构建,对语料库形成一个初始划分,从而大大降低了人工标注的成本本发明利用贝叶斯过滤器能够提取出之前未知的、新的垃圾评论关键词,并根据少量已知的垃圾评论文本识别出未知的、新的垃圾评论,适应当前新表达方式和网络用语层出不穷的现状。本发明通过迭代的方式进行垃圾评论文本集和正常评论文本集的自动更新,使得垃圾评论的判别更加准确高效。
作为优选,所述步骤(1)中利用正则表达式对语料库中的评论文本进行垃圾评论判别以完成初始划分。
利用有限的几条规则,实现了垃圾评论文本集和正常评论文本集的自动构建,对语料库形成一个初始划分,从而大大降低了人工标注的成本。
所述步骤(2)中对正常评论文本集和垃圾评论文本集中每一条评论文本进行垃圾评论判别时进行如下操作:
分别计算该评论文本属于正常评论文本集和垃圾评论文本集的类后验概率:
若属于垃圾评论文本集的类后验概率大于或等于属于正常评论文本集的类后验概率,则判定该评论文本为垃圾评论文本;
否则,判定为正常评论文本。
作为优选,通过如下步骤分别计算该评论文本属于正常评论文本集和垃圾评论文本集的类后验概率:
(2-1)对垃圾评论文本集进行垃圾评论关键词抽取,形成垃圾评论关键词词集:
(2-21)根据垃圾评论文本集中所有评论文本构建相应的实词词集;
(2-22)计算垃圾评论文本集和正常评论文本集的类先验概率,并根据计算结果采用信息增益方法计算实词词集中各个实词的权值,并提取权值大于预设阈值的实词作为垃圾评论关键词形成垃圾评论关键词词集。
本发明利用如下公式计算实词词集中第i个实词wi的权值η(wi):
η ( w i ) = Σ j ∈ { 0 , 1 } , o ∈ { 0 , 1 } P ( C j , w i o ) log P ( C j , w i o ) P ( C j ) P ( w i o ) ,
其中,1≤i≤nword,nword表示实词词集中实词的总个数,
j=0或1,当j=0时,评论文本集Cj表示垃圾评论文本集,当j=1时,评论文本集Cj表示正常评论文本集,
o=0或1,且:
当o=0时,表示实词wi不出现,表示评论文本集Cj中不出现实词wi的评论文本条数与语料库中评论文本条数的比值,表示语料库中不出现实词wi的评论文本的条数与语料库中评论文本条数的比值,
当o=1时,表示实词wi出现,表示评论文本集Cj中出现实词wi的评论文本条数与语料库中评论文本条数的比值,表示语料库中出现实词wi的评论文本条数与语料库中评论文本条数的比值;
P(Cj)为评论文本集Cj的类先验概率,利用下面的公式进行计算:
P ( C j ) = 1 + | D C j | 2 + | D C | ,
其中,表示评论文本集Cj中评论文本的条数,|DC|表示语料库S中评论文本的条数。
根据所有实词的权值计算结果,设定合适的阈值,筛选出部分实词作为垃圾评论关键词。作为优选,本发明中预设阈值为0.04~0.05,优选为0.045。
(2-2)根据垃圾评论关键词词集抽取该评论文本的特征词,并生成相应的特征词序列;
(2-3)利用相应的特征词序列分别计算该评论文本属于垃圾评论文本集和正常评论文本集的类后验概率。
所述步骤(2-3)中针对当前评论文本dx分别进行如下操作:
(2-31)利用相应的特征词序列利用如下公式分别计算当前评论文本dx属于正常评论文本集和垃圾评论文本集的类条件概率P(dx|Cj):
P ( d x | C j ) = Π n = 1 N P ( w n | C j ) ,
其中,j=0或1,当j=0时,评论文本集Cj表示垃圾评论文本集,当j=1时,评论文本集Cj表示正常评论文本集,
n=1,2……,N,N为特征词序列中特征词的个数,
P(wn|Cj)表示相应的特征词序列中关键词wn在垃圾评论文本集中的类条件概率,利用如下公式进行计算:
P ( w n | C j ) = 1 + w n j 2 + | D C j | ,
其中,表示评论文本集Cj中出现关键词wn的评论文本条数,
表示评论文本集Cj中评论文本的总条数;
(2-32)利用如下公式分别计算当前评论文本dx属于垃圾评论文本集和正常评论文本集的类后验概率:
P ( C j | d x ) = P ( C j ) × P ( d x | C j ) P ( d x ) ,
其中,P(Cj|dx)表示当前评论文本dx属于评论文本集Cj的类后验概率,
P(dx)表示评论文本dx的全概率,对于所有类均为常数。对于同一条评论文本dx,P(dx)不变,可以忽略不计。
本发明中P(dx)利用如下公式进行计算:
P ( d x ) = Σ j ∈ { 0 , 1 } P ( d x | C j ) P ( C j ) ,
其中,j=0或1,当j=0时,评论文本集Cj表示垃圾评论文本集,当j=1时,评论文本集Cj表示正常评论文本集,
P(Cj)为评论文本集Cj的类先验概率:
P ( C j ) = 1 + | D C j | 2 + | D C | ,
其中,表示评论文本集Cj中评论文本的条数,|DC|表示语料库S中评论文本的条数(即总条数)。
本方法首先人工建立若干条规则,利用正则表达式自动识别出部分垃圾评论文本,构建垃圾评论文本集和正常评论文本集,对语料库形成一个初始划分;然后采用信息增益方法对垃圾评论文本集进行垃圾评论关键词抽取,构建垃圾评论关键词词集;接下来再利用贝叶斯过滤器对垃圾评论文本集和正常评论文本集中的评论文本重新进行垃圾评论判别,将垃圾评论文本集中判别为正常评论的文本加入到正常评论文本集中,将正常评论文本集中判别为垃圾评论的文本加入到垃圾评论文本集中,不断迭代直到垃圾评论文本集和正常评论文本集不再变化为止;最后将得到的垃圾评论文本集中的评论判别为垃圾评论。
与现有技术相比,本发明的垃圾评论过滤方法具有如下优点:
利用有限的几条规则,自动构建出垃圾评论文本集和正常评论文本集,对语料库形成一个初始的划分,从而大大降低了人工标注的成本;
利用贝叶斯过滤器,能够提取出之前未知的、新的垃圾评论关键词,并自动根据少量已知的垃圾评论文本识别出未知的、新的垃圾评论,适应当前新表达方式和网络用语层出不穷的现状;
采用迭代的方法实现垃圾评论文本集和正常评论文本集的自动更新,使得垃圾评论的判别更加准确高效;
采用非监督式方法进行垃圾评论分类,无需人工标注,大大降低了人工成本,易于扩展到新的领域进行应用。
附图说明
图1是本实施例基于双向迭代和自动构建更新语料库的垃圾评论过滤方法的流程图;
图2是利用贝叶斯过滤器进行垃圾评论判别的流程图。
具体实施方式
下面将结合附图和具体实施例对本发明进行详细说明。
如图1所示,本实施例的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法包括如下步骤:
(1)获取产品的评论文本以构建语料库S,并对语料库进行初始划分形成正常评论文本集Zcand和垃圾评论文本集Lseed
本实施例的垃圾评论过滤方法对语料库S中产品种类的数量和评论文本的条数无特殊要求。为便于实现,本实施例首先从电子商务网站上抓取2500条手机类的产品评论文本形成语料库S,即产品种类数为1,评论文本数为2500条。
本实施例中利用正则表达式识别出S中的垃圾评论文本形成垃圾评论文本集Lseed,同时利用S中剩余的评论文本构建出正常评论文本集Zcand,从而实现对语料库S的一个初始划分。
识别S中的垃圾评论文本时,需要人工构建垃圾评论判别规则,并利用正则表达式表示上述判别规则。
本实施例中构建的垃圾评论判别规则如下:
如果评论文本中包含QQ号码、手机号码、网站网址、邮箱等与商品评价无关的内容,则将该评论文本判别为垃圾评论。
例如,利用正则表达式:
“.*qq.*[1-9][0-9]{4,}|.*QQ.*[1-9][0-9]{4,}|.*扣扣.*[1-9][0-9]{4,}”,识别出包含QQ号码的垃圾评论文本。
“在【321fanli.cn】拿了返利,返了不少钱-----帮他们宣传评价还有奖励,联系QQ:15325973793。”为根据上述规则识别出的垃圾评论文本。
(2)利用贝叶斯过滤器对正常评论文本集Zcand和垃圾评论文本集Lseed中的评论文本进行垃圾评论判别:
根据当前对语料库的划分,利用贝叶斯过滤器重新对垃圾评论文本集Lseed和正常评论文本集Zcand中的评论文本进行垃圾评论判别:
(2-1)分别计算正常评论文本集Zcand和垃圾评论文本集Lseed的类先验概率P(Cj),其中j=(0,1),当j=0时,C0表示Lseed,当j=1时,C1表示Zcand
本实施例中:
垃圾评论文本集Lseed的类先验概率为:
P ( L s e e d ) = 1 + | D C 0 | 2 + | D C | ,
其中,表示垃圾评论文本集Lseed中评论文本的条数,|DC|表示语料库S中评论文本的条数;
正常评论文本集Zcand的类先验概率为:
P ( Z c a n d ) = 1 + | D C 1 | 2 + | D C | ,
其中,表示正常评论文本集Zcand中评论文本的条数,|DC|表示语料库S中评论文本的条数。
(2-2)对垃圾评论文本集Lseed进行垃圾评论关键词抽取,形成垃圾评论关键词词集F。
本实施例通过权值计算和阈值筛选对垃圾评论文本集Lseed进行垃圾评论关键词的抽取,具体实现方法如下:
(2-21)采用中国科学院计算技术研究所开发的ICTCLAS5.0分词系统,对垃圾评论文本集Lseed中的评论文本进行中文分词和词性标注;
(2-22)根据中文分词和词性标注的结果,统计其中出现的所有实词构建出实词词集W,并采用信息增益方法计算实词词集中各个实词的权值:
η ( w i ) = P ( L s e e d , w i 0 ) log P ( L s e e d , w i 0 ) P ( L s e e d ) P ( w i 0 ) + P ( L s e e d , w i 1 ) log P ( L s e e d , w i 1 ) P ( L s e e d ) P ( w i 1 ) + P ( Z c a n d , w i 0 ) log P ( Z c a n d , w i 0 ) P ( Z c a n d ) P ( w i 0 ) + P ( Z c a n d , w i 1 ) log P ( Z c a n d , w i 1 ) P ( Z c a n d ) P ( w i 1 ) ;
其中,η(wi)表示实词词集W中第i个实词的权值,1≤i≤nword,nword表示实词词集W中实词的条数,
表示垃圾评论文本集Lseed中不包含实词wi的分句条数与语料库S中评论文本条数的比值,
表示垃圾评论文本集Lseed中包含实词wi的分句条数与语料库S中评论文本条数的比值,
表示正常评论文本集Zcand中不包含实词wi的分句条数与语料库S中评论文本条数的比值,
表示正常评论文本集Zcand中包含实词wi的分句条数与语料库S中评论文本条数的比值,
P(Lseed)表示垃圾评论文本集Lseed的类先验概率,
P(Zcand)表示正常评论文本集Zcand的类先验概率,
表示语料库S中不包含实词wi的评论文本的条数与语料库S中所有评论文本条数的比值,
表示语料库S中包含实词wi的评论文本的条数与语料库S中所有评论文本条数的比值。
(2-23)根据权值计算结果设定合适的阈值,将权值大于阈值(本实施例中阈值为0.045)的实词作为垃圾评论关键词提取出来,形成垃圾评论关键词词集F={w1,w2,…,wN}(其中N为垃圾评论关键词的个数)。
例如:对垃圾评论文本集Lseed进行垃圾评论关键词抽取,通过权值计算与阈值筛选,抽取出“回扣”、“省钱”,“平台”、“返利”、“链接”、“网址”、“积分”等关键词,构建出垃圾评论关键词词集F。
(2-3)计算垃圾评论关键词词集F中每个关键词类条件概率,其中,关键词wn(wn∈F,1≤n≤N)的类条件概率记为P(wn|Cj),表示相应的特征词序列中关键词wn在垃圾评论文本集中的类条件概率,利用下面的公式进行计算:
P ( w n | C j ) = 1 + w n j 2 + | D C j | ,
其中,表示评论文本集Cj中包含关键词wn的评论文本条数,
表示评论文本集Cj中评论文本的条数。
例如:关键词“返利”在垃圾评论文本集Lseed中的类条件概率为:
其中,表示垃圾评论文本集Lseed中出现词w返利(即词“返利”)的评论文本条数,表示垃圾评论文本集Lseed中评论文本的条数。
(2-4)根据垃圾评论关键词词集F,抽取正常评论文本集Zcand中每一条评论文本中的特征词,并生成特征词序列
本实施例中通过如下方法实现:
(2-41)采用中国科学院计算技术研究所开发的ICTCLAS5.0分词系统对正常评论文本集Zcand中的评论文本进行中文分词和词性标注;
(2-42)根据垃圾评论关键词词集F,抽取正常评论文本集Zcand中的每一条评论文本dx(1≤x≤Nz,Nz为正常评论文本集中正常评论文本的条数)中的特征词,并生成特征词序列其中,为评论文本dx中特征词的个数,tk为特征词,
例如:从评论文本dx“我是从<去购物啦>淘宝返利搜索平台,搜索了商品之后再链接到淘宝这家店买的,返了不少钱。网站里面的积分还免费兑换了很多礼品,跟大家一起分享一下。”中可以提取出特征词“返利”、“平台”、“链接”、“积分”等,共同构成了该评论文本的特征词序列。
(2-5)计算正常评论文本集Zcand和垃圾评论文本集Lseed中每条评论文本的类条件概率,当前评论文本dx属于正常评论文本集和垃圾评论文本集的类条件概率记为P(dx|Cj),其中,j=0或1,当j=0时,评论文本集Cj表示垃圾评论文本集,当j=1时,评论文本集Cj表示正常评论文本集:
P ( d x | C j ) = &Pi; n = 1 N P ( w n | C j ) ,
n=1,2……,N,N为特征词序列中特征词的个数,
本实施例中记当前评论文本dx的类条件概率属于垃圾评论文本集Lseed的类条件概率记为P(dx|Lseed):
P(dx|Lseed)=P(w返利|Lseed)f×P(w平台|Lseed)×P(w积分|Lseed)×…
其中,w返利表示特证词“返利”,w平台表示特证词“平台”,w积分表示特证词“积分”。
(2-6)针对正常评论文本集Zcand和垃圾评论文本集Lseed中每条评论文本,分别计算该评论文本属于正常评论文本集Zcand和垃圾评论文本集Lseed的类后验概率,其中:
评论文本dx属于垃圾评论文本集Lseed的类后验概率为P(Lseed|dx),利用下面的公式进行计算:
P ( L s e e d | d x ) = P ( L s e e d ) &times; P ( d x | L s e e d ) P ( d x ) ,
其中,P(Lseed)为垃圾评论文本集Lseed的类先验概率,P(dx|Lseed)为评论文本dx属于垃圾评论的类条件概率,P(dx)为评论文本dx的全概率,由全概率公式可知:
P(dx)=P(dx|Lseed)P(Lseed)+P(dx|Zcand)P(Zcand)
评论文本dx属于正常评论文本集Zcand的类后验概率为P(Zcand|dx),利用下面的公式进行计算:
P ( Z c a n d | d x ) = P ( Z c a n d ) &times; P ( d x | Z c a n d ) P ( d x ) ;
其中,P(Zcand)为正常评论文本集Zcand的类先验概率,P(dx|Zcand)为评论文本dx属于正常评论的类条件概率,P(dx)为评论文本dx的全概率,可利用全概率公式进行计算:
P(dx)=P(dx|Lseed)P(Lseed)+P(dx|Zcand)P(Zcand)。
(2-7)根据计算结果,如果P(Lseed|dx)≥P(Zcand|dx),则判定dx为垃圾评论文本,并将dx划分到垃圾评论文本集Lseed;否则判定dx为正常评论文本,并将dx划分到正常评论文本集Zcand中,进而得到更新后的正常评论文本集和垃圾评论文本集(即根据贝叶斯过滤器的判别结果重新划分语料库S)。
例如:前文所述的评论文本dx,计算得到P(Lseed|dx)≥P(Zcand|dx),因此判别其属于Lseed类。
在判别过程中,可能将垃圾评论文本集中的评论文本重新判别为正常评论,也可能将正常评论文本集中的评论文本重新判别为垃圾评论,这是一个反复迭代的过程。
(3)按照步骤(2)中的方法,重新利用贝叶斯分类器提取新的垃圾评论关键词,然后逐条对Lseed和Zcand中的每一条评论文本进行判别,识别出新的垃圾评论文本,并根据识别结果更新Lseed和Zcand:将Zcand中判别为垃圾评论的文本加入到Lseed中,并将Lseed中判别为正常评论的文本加入到Zcand中。
如此反复迭代,直到相邻两次迭代得到的垃圾评论文本集Lseed和正常评论文本集Zcand不再变化为止,并将最后一次迭代得到的垃圾评论文本集Lseed中的评论文本判定为垃圾评论文本。
随着迭代进行,垃圾评论关键词词集F不断发生变化,从而能够发现一些新的垃圾评论关键词。例如“返利”是近年来电子商务平台新出现的词,程序能够自动发现这些新词,而不需要人工识别和添加。通过QQ号、网站网址等关键词过滤出的垃圾评论中,很多都包含“返利”这个词,因此被抽取为垃圾评论关键词,进而识别出新的垃圾评论。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,其特征在于,包括如下步骤:
(1)获取产品的评论文本以构建语料库,并对语料库进行初始划分形成垃圾评论文本集和正常评论文本集;
(2)利用贝叶斯过滤器对所述垃圾评论文本集和正常评论文本集中的评论文本进行垃圾评论判别,并根据垃圾评论判别结果更新垃圾评论文本集和正常评论文本集;
(3)迭代执行步骤(2),直至相邻两次迭代得到的垃圾评论文本集和正常评论文本集不再变化为止,并判定最后一次迭代得到的垃圾评论文本集中的评论文本为垃圾评论文本。
2.如权利要求1所述的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,其特征在于,所述步骤(1)中利用正则表达式对语料库中的评论文本进行垃圾评论判别以完成初始划分。
3.如权利要求1所述的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,其特征在于,所述步骤(2)中对正常评论文本集和垃圾评论文本集中每一条评论文本进行垃圾评论判别时进行如下操作:
分别计算该评论文本属于正常评论文本集和垃圾评论文本集的类后验概率:
若属于垃圾评论文本集的类后验概率大于或等于属于正常评论文本集的类后验概率,则判定该评论文本为垃圾评论文本;
否则,判定为正常评论文本。
4.如权利要求3所述的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,其特征在于,通过如下步骤分别计算该评论文本属于正常评论文本集和垃圾评论文本集的类后验概率:
(2-1)对垃圾评论文本集进行垃圾评论关键词抽取,形成垃圾评论关键词词集;
(2-2)根据垃圾评论关键词词集抽取该评论文本的特征词,并生成相应的特征词序列;
(2-3)利用相应的特征词序列分别计算该评论文本属于垃圾评论文本集和正常评论文本集的类后验概率。
5.如权利要求4所述的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,其特征在于,所述步骤(2-1)具体包括如下步骤:
(2-21)根据垃圾评论文本集中所有评论文本构建相应的实词词集;
(2-22)计算垃圾评论文本集与正常评论文本集的类先验概率,并根据计算结果采用信息增益方法计算实词词集中各个实词的权值,并提取权值大于预设阈值的实词作为垃圾评论关键词形成垃圾评论关键词词集。
6.如权利要求5所述的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,其特征在于,所述步骤(2-22)中根据如下公式计算实词词集中第i个实词wi的权值η(wi):
&eta; ( w i ) = &Sigma; j &Element; { 0 , 1 } , o &Element; { 0 , 1 } P ( C j , w i o ) log P ( C j , w i o ) P ( C j ) P ( w i o ) ,
其中,1≤i≤nword,nword表示实词词集中实词的总个数;
j=0或1,当j=0时,评论文本集Cj表示垃圾评论文本集,当j=1时,评论文本集Cj表示正常评论文本集;
o=0或1,且:
当o=0时,表示实词wi不出现,表示评论文本集Cj中不出现实词wi的评论文本条数与语料库中评论文本条数的比值,表示语料库中不出现实词wi的评论文本的条数与语料库中评论文本条数的比值,
当o=1时,表示实词wi出现,表示评论文本集Cj中出现实词wi的评论文本条数与语料库中评论文本条数的比值,表示语料库中出现实词wi的评论文本的条数与语料库中评论文本条数的比值;
P(Cj)表示评论文本集Cj的类先验概率,根据如下公式计算:
P ( C j ) = 1 + | D C j | 2 + | D C | ,
其中,表示评论文本集Cj中评论文本的条数,|DC|表示语料库中评论文本的条数。
7.如权利要求5所述的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,其特征在于,所述步骤(2-22)中预设阈值为0.04~0.05。
8.如权利要求4~7中任意一项所述的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,其特征在于,所述步骤(2-3)中针对当前评论文本dx进行如下操作:
(2-31)利用相应的特征词序列根据如下公式分别计算当前评论文本dx属于正常评论文本集和垃圾评论文本集的类条件概率P(dx|Cj):
P ( d x | C j ) = &Pi; n = 1 N P ( w n | C j ) ,
其中,j=0或1,当j=0时,评论文本集Cj表示垃圾评论文本集,当j=1时,评论文本集Cj表示正常评论文本集,
n=1,2……,N,N为特征词序列中特征词的个数,
P(wn|Cj)表示为相应的特征词序列中关键词wn在垃圾评论文本集中的类条件概率,根据如下公式计算:
P ( w n | C j ) = 1 + w n j 2 + | D C j | ,
其中,表示评论文本集Cj中出现关键词wn的评论文本条数,
表示评论文本集Cj中评论文本的条数;
(2-32)根据如下公式分别计算当前评论文本dx属于垃圾评论文本集和正常评论文本集的类后验概率:
P ( C j | d x ) = P ( C j ) &times; P ( d x | C j ) P ( d x ) ,
其中,P(Cj|dx)表示当前评论文本dx属于评论文本集Cj的类后验概率,
P(dx)为评论文本dx的全概率,
P(Cj)为评论文本集Cj的类先验概率:
P ( C j ) = 1 + | D C j | 2 + | D C | ,
其中,表示评论文本集Cj中评论文本的条数,|DC|表示语料库中评论文本的条数。
CN201510417206.9A 2015-07-15 2015-07-15 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法 Expired - Fee Related CN105068986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510417206.9A CN105068986B (zh) 2015-07-15 2015-07-15 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510417206.9A CN105068986B (zh) 2015-07-15 2015-07-15 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法

Publications (2)

Publication Number Publication Date
CN105068986A true CN105068986A (zh) 2015-11-18
CN105068986B CN105068986B (zh) 2018-03-16

Family

ID=54498361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510417206.9A Expired - Fee Related CN105068986B (zh) 2015-07-15 2015-07-15 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法

Country Status (1)

Country Link
CN (1) CN105068986B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239512A (zh) * 2017-05-18 2017-10-10 华中科技大学 一种结合评论关系网络图的微博垃圾评论识别方法
CN108537289A (zh) * 2018-04-24 2018-09-14 百度在线网络技术(北京)有限公司 数据识别模型的训练方法、装置及存储介质
CN108984519A (zh) * 2018-06-14 2018-12-11 华东理工大学 基于双模式的事件语料库自动构建方法、装置及存储介质
CN110288431A (zh) * 2019-06-11 2019-09-27 达疆网络科技(上海)有限公司 一种根据用户差评情况识别恶意用户的方法
CN113127640A (zh) * 2021-03-12 2021-07-16 嘉兴职业技术学院 一种基于自然语言处理的恶意垃圾评论攻击识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101374122A (zh) * 2007-08-24 2009-02-25 赛门铁克公司 过滤非训练语言的内容中的贝叶斯担保校验以减少假阳性
JP2012014476A (ja) * 2010-07-01 2012-01-19 National Institute Of Information & Communication Technology 類似度算出装置、類似度算出方法、及びプログラム
CN103970801A (zh) * 2013-02-05 2014-08-06 腾讯科技(深圳)有限公司 微博广告博文识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101374122A (zh) * 2007-08-24 2009-02-25 赛门铁克公司 过滤非训练语言的内容中的贝叶斯担保校验以减少假阳性
JP2012014476A (ja) * 2010-07-01 2012-01-19 National Institute Of Information & Communication Technology 類似度算出装置、類似度算出方法、及びプログラム
CN103970801A (zh) * 2013-02-05 2014-08-06 腾讯科技(深圳)有限公司 微博广告博文识别方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239512A (zh) * 2017-05-18 2017-10-10 华中科技大学 一种结合评论关系网络图的微博垃圾评论识别方法
CN108537289A (zh) * 2018-04-24 2018-09-14 百度在线网络技术(北京)有限公司 数据识别模型的训练方法、装置及存储介质
CN108537289B (zh) * 2018-04-24 2023-04-07 百度在线网络技术(北京)有限公司 数据识别模型的训练方法、装置及存储介质
CN108984519A (zh) * 2018-06-14 2018-12-11 华东理工大学 基于双模式的事件语料库自动构建方法、装置及存储介质
CN108984519B (zh) * 2018-06-14 2022-07-05 华东理工大学 基于双模式的事件语料库自动构建方法、装置及存储介质
CN110288431A (zh) * 2019-06-11 2019-09-27 达疆网络科技(上海)有限公司 一种根据用户差评情况识别恶意用户的方法
CN113127640A (zh) * 2021-03-12 2021-07-16 嘉兴职业技术学院 一种基于自然语言处理的恶意垃圾评论攻击识别方法
CN113127640B (zh) * 2021-03-12 2022-11-29 嘉兴职业技术学院 一种基于自然语言处理的恶意垃圾评论攻击识别方法

Also Published As

Publication number Publication date
CN105068986B (zh) 2018-03-16

Similar Documents

Publication Publication Date Title
CN107515873B (zh) 一种垃圾信息识别方法及设备
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN105183715B (zh) 一种基于词分布和文档特征的垃圾评论自动分类方法
CN107315734B (zh) 一种基于时间窗口和语义的变体词规范化的方法和系统
CN111563164A (zh) 一种基于图神经网络的特定目标情感分类方法
CN103793501B (zh) 基于社交网络的主题社团发现方法
CN104572958A (zh) 一种基于事件抽取的敏感信息监控方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN105068986A (zh) 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
CN110287329B (zh) 一种基于商品文本分类的电商类目属性挖掘方法
CN104598535A (zh) 一种基于最大熵的事件抽取方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN103778205A (zh) 一种基于互信息的商品分类方法和系统
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN111966888B (zh) 融合外部数据的基于方面类别的可解释性推荐方法及系统
CN106547875A (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN107145516A (zh) 一种文本聚类方法及系统
CN105654144A (zh) 一种基于机器学习的社交网络本体构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180316

Termination date: 20180715

CF01 Termination of patent right due to non-payment of annual fee