CN105068986A

CN105068986A - 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法

Info

Publication number: CN105068986A
Application number: CN201510417206.9A
Authority: CN
Inventors: 张宇; 刘妙
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2015-07-15
Filing date: 2015-07-15
Publication date: 2015-11-18
Anticipated expiration: 2035-07-15
Also published as: CN105068986B

Abstract

本发明公开了一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，包括：获取产品的评论文本以构建语料库，并对语料库进行初始划分形成垃圾评论文本集和正常评论文本集；利用贝叶斯过滤器对正常评论文本集和垃圾评论文本集中的评论文本进行垃圾评论判别，并更新垃圾评论文本集和正常评论文本集；利用贝叶斯过滤器迭代地进行垃圾评论判别，直至相邻两次迭代得到的结果不再变化为止，并判定最后一次迭代得到的垃圾评论文本集中的评论文本为垃圾评论文本。本发明的垃圾评论过滤方法迭代地利用贝叶斯过滤器进行垃圾评论判别，能够自动识别出新的垃圾评论文本，实现垃圾评论文本集和正常评论文本集的自动更新，从而获得更加准确的判别结果。

Description

基于双向迭代和自动构建更新语料库的垃圾评论过滤方法

技术领域

本发明涉及电子商务网站中用户评论文本的垃圾评论过滤技术领域，尤其涉及一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法。

背景技术

随着互联网的普及和电子商务应用的迅猛发展，网络中用户评论数据呈指数级增长。这些海量的用户评论数据中蕴藏着大量有价值的信息，能够带来巨大的商业价值。

但是，与此同时，网络欺诈、刷钻炒信等现象也随之产生，评论数据中往往存在大量的垃圾评论，如商家广告、炒信评论、恶意评价等，使得用户无法获得商品和卖家的真实评价，也严重的阻碍了信息的挖掘，甚至会导致错误的挖掘结果。因此，垃圾评论过滤十分必要。

现有的垃圾评论过滤技术，通常是使用简单的规则，或是利用预先定义的垃圾关键词库来进行垃圾评论过滤的。这类方法的准确率受限于所制定的规则和所定义的垃圾关键词库。此外，由于互联网上新的评论特征词不断地涌现，规则和垃圾关键词库的维护也非常耗时。

另外一种典型的垃圾评论过滤方法，通过分析用户的行为，识别出撰写垃圾评论的用户，进而实现对垃圾评论的过滤。

但是，很多撰写垃圾评论的用户刻意不发表重复评论，从而避免被系统所识别，导致这些用户所发表的垃圾评论也无法被过滤出来。

此外还有一些学者提出了基于语义相似度的垃圾评论过滤方法，即先利用规则过滤出垃圾评论，再利用HowNet词语相似度来扩展文本相似度，并以此识别正常评论，来提高有效评论的识别率。但是该方法也依赖规则过滤出的垃圾评论的准确率，并且受限于HowNet的词语相似度计算结果。

发明内容

针对现有垃圾评论过滤技术的不足，本发明提出了一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，采用非监督式的方法，无需人工标注，因此大大降低了人工成本，也易于扩展到新的应用领域。

一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，包括如下步骤：

(1)获取产品的评论文本以构建语料库，并对语料库进行初始划分形成垃圾评论文本集和正常评论文本集；

(2)利用贝叶斯过滤器对所述垃圾评论文本集和正常评论文本集中的评论文本进行垃圾评论判别，并根据垃圾评论判别结果更新垃圾评论文本集和正常评论文本集；

(3)迭代执行步骤(2)，直至相邻两次迭代得到的垃圾评论文本集和正常评论文本集不再变化为止，并判定最后一次迭代得到的垃圾评论文本集中的评论文本为垃圾评论文本。

本发明的垃圾评论过滤方法实现了垃圾评论文本集和正常评论文本集的自动构建，对语料库形成一个初始划分，从而大大降低了人工标注的成本。本发明利用贝叶斯过滤器能够提取出之前未知的、新的垃圾评论关键词，并根据少量已知的垃圾评论文本识别出未知的、新的垃圾评论，适应当前新表达方式和网络用语层出不穷的现状。本发明通过迭代的方式进行垃圾评论文本集和正常评论文本集的自动更新，使得垃圾评论的判别更加准确高效。

作为优选，所述步骤(1)中利用正则表达式对语料库中的评论文本进行垃圾评论判别以完成初始划分。

利用有限的几条规则，实现了垃圾评论文本集和正常评论文本集的自动构建，对语料库形成一个初始划分，从而大大降低了人工标注的成本。

所述步骤(2)中对正常评论文本集和垃圾评论文本集中每一条评论文本进行垃圾评论判别时进行如下操作：

分别计算该评论文本属于正常评论文本集和垃圾评论文本集的类后验概率：

若属于垃圾评论文本集的类后验概率大于或等于属于正常评论文本集的类后验概率，则判定该评论文本为垃圾评论文本；

否则，判定为正常评论文本。

作为优选，通过如下步骤分别计算该评论文本属于正常评论文本集和垃圾评论文本集的类后验概率：

(2-1)对垃圾评论文本集进行垃圾评论关键词抽取，形成垃圾评论关键词词集：

(2-21)根据垃圾评论文本集中所有评论文本构建相应的实词词集；

(2-22)计算垃圾评论文本集和正常评论文本集的类先验概率，并根据计算结果采用信息增益方法计算实词词集中各个实词的权值，并提取权值大于预设阈值的实词作为垃圾评论关键词形成垃圾评论关键词词集。

本发明利用如下公式计算实词词集中第i个实词w_i的权值η(w_i)：

η (w_{i}) = \underset{j &Element; {0, 1}, o &Element; {0, 1}}{Σ} P (C_{j}, w_{i}^{o}) \log \frac{P (C_{j}, w_{i}^{o})}{P (C_{j}) P (w_{i}^{o})},

其中，1≤i≤n_word，n_word表示实词词集中实词的总个数，

j＝0或1，当j＝0时，评论文本集C_j表示垃圾评论文本集，当j＝1时，评论文本集C_j表示正常评论文本集，

o＝0或1，且：

当o＝0时，表示实词w_i不出现，表示评论文本集C_j中不出现实词w_i的评论文本条数与语料库中评论文本条数的比值，表示语料库中不出现实词w_i的评论文本的条数与语料库中评论文本条数的比值，

当o＝1时，表示实词w_i出现，表示评论文本集C_j中出现实词w_i的评论文本条数与语料库中评论文本条数的比值，表示语料库中出现实词w_i的评论文本条数与语料库中评论文本条数的比值；

P(C_j)为评论文本集C_j的类先验概率，利用下面的公式进行计算：

P (C_{j}) = \frac{1 + | D_{C_{j}} |}{2 + | D_{C} |},

其中，表示评论文本集C_j中评论文本的条数，|D_C|表示语料库S中评论文本的条数。

根据所有实词的权值计算结果，设定合适的阈值，筛选出部分实词作为垃圾评论关键词。作为优选，本发明中预设阈值为0.04～0.05，优选为0.045。

(2-2)根据垃圾评论关键词词集抽取该评论文本的特征词，并生成相应的特征词序列；

(2-3)利用相应的特征词序列分别计算该评论文本属于垃圾评论文本集和正常评论文本集的类后验概率。

所述步骤(2-3)中针对当前评论文本d_x分别进行如下操作：

(2-31)利用相应的特征词序列利用如下公式分别计算当前评论文本d_x属于正常评论文本集和垃圾评论文本集的类条件概率P(d_x|C_j)：

P (d_{x} | C_{j}) = Π_{n = 1}^{N} P (w_{n} | C_{j}),

其中，j＝0或1，当j＝0时，评论文本集C_j表示垃圾评论文本集，当j＝1时，评论文本集C_j表示正常评论文本集，

n＝1,2……,N，N为特征词序列中特征词的个数，

P(w_n|C_j)表示相应的特征词序列中关键词w_n在垃圾评论文本集中的类条件概率，利用如下公式进行计算：

P (w_{n} | C_{j}) = \frac{1 + w_{n}^{j}}{2 + | D_{C_{j}} |},

其中，表示评论文本集C_j中出现关键词w_n的评论文本条数，

表示评论文本集C_j中评论文本的总条数；

(2-32)利用如下公式分别计算当前评论文本d_x属于垃圾评论文本集和正常评论文本集的类后验概率：

P (C_{j} | d_{x}) = \frac{P (C_{j}) \times P (d_{x} | C_{j})}{P (d_{x})},

其中，P(C_j|d_x)表示当前评论文本d_x属于评论文本集C_j的类后验概率，

P(d_x)表示评论文本d_x的全概率，对于所有类均为常数。对于同一条评论文本d_x，P(d_x)不变，可以忽略不计。

本发明中P(d_x)利用如下公式进行计算：

P (d_{x}) = \underset{j &Element; {0, 1}}{Σ} P (d_{x} | C_{j}) P (C_{j}),

P(C_j)为评论文本集C_j的类先验概率：

P (C_{j}) = \frac{1 + | D_{C_{j}} |}{2 + | D_{C} |},

其中，表示评论文本集C_j中评论文本的条数，|D_C|表示语料库S中评论文本的条数(即总条数)。

本方法首先人工建立若干条规则，利用正则表达式自动识别出部分垃圾评论文本，构建垃圾评论文本集和正常评论文本集，对语料库形成一个初始划分；然后采用信息增益方法对垃圾评论文本集进行垃圾评论关键词抽取，构建垃圾评论关键词词集；接下来再利用贝叶斯过滤器对垃圾评论文本集和正常评论文本集中的评论文本重新进行垃圾评论判别，将垃圾评论文本集中判别为正常评论的文本加入到正常评论文本集中，将正常评论文本集中判别为垃圾评论的文本加入到垃圾评论文本集中，不断迭代直到垃圾评论文本集和正常评论文本集不再变化为止；最后将得到的垃圾评论文本集中的评论判别为垃圾评论。

与现有技术相比，本发明的垃圾评论过滤方法具有如下优点：

利用有限的几条规则，自动构建出垃圾评论文本集和正常评论文本集，对语料库形成一个初始的划分，从而大大降低了人工标注的成本；

利用贝叶斯过滤器，能够提取出之前未知的、新的垃圾评论关键词，并自动根据少量已知的垃圾评论文本识别出未知的、新的垃圾评论，适应当前新表达方式和网络用语层出不穷的现状；

采用迭代的方法实现垃圾评论文本集和正常评论文本集的自动更新，使得垃圾评论的判别更加准确高效；

采用非监督式方法进行垃圾评论分类，无需人工标注，大大降低了人工成本，易于扩展到新的领域进行应用。

附图说明

图1是本实施例基于双向迭代和自动构建更新语料库的垃圾评论过滤方法的流程图；

图2是利用贝叶斯过滤器进行垃圾评论判别的流程图。

具体实施方式

下面将结合附图和具体实施例对本发明进行详细说明。

如图1所示，本实施例的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法包括如下步骤：

(1)获取产品的评论文本以构建语料库S，并对语料库进行初始划分形成正常评论文本集Z_cand和垃圾评论文本集L_seed。

本实施例的垃圾评论过滤方法对语料库S中产品种类的数量和评论文本的条数无特殊要求。为便于实现，本实施例首先从电子商务网站上抓取2500条手机类的产品评论文本形成语料库S，即产品种类数为1，评论文本数为2500条。

本实施例中利用正则表达式识别出S中的垃圾评论文本形成垃圾评论文本集L_seed，同时利用S中剩余的评论文本构建出正常评论文本集Z_cand，从而实现对语料库S的一个初始划分。

识别S中的垃圾评论文本时，需要人工构建垃圾评论判别规则，并利用正则表达式表示上述判别规则。

本实施例中构建的垃圾评论判别规则如下：

如果评论文本中包含QQ号码、手机号码、网站网址、邮箱等与商品评价无关的内容，则将该评论文本判别为垃圾评论。

例如，利用正则表达式：

“.*qq.*[1-9][0-9]{4,}|.*QQ.*[1-9][0-9]{4,}|.*扣扣.*[1-9][0-9]{4,}”，识别出包含QQ号码的垃圾评论文本。

“在【321fanli.cn】拿了返利，返了不少钱-----帮他们宣传评价还有奖励，联系QQ：15325973793。”为根据上述规则识别出的垃圾评论文本。

(2)利用贝叶斯过滤器对正常评论文本集Z_cand和垃圾评论文本集L_seed中的评论文本进行垃圾评论判别：

根据当前对语料库的划分，利用贝叶斯过滤器重新对垃圾评论文本集L_seed和正常评论文本集Z_cand中的评论文本进行垃圾评论判别：

(2-1)分别计算正常评论文本集Z_cand和垃圾评论文本集L_seed的类先验概率P(C_j)，其中j＝(0,1)，当j＝0时，C₀表示L_seed，当j＝1时，C₁表示Z_cand：

本实施例中：

垃圾评论文本集L_seed的类先验概率为：

P (L_{s e e d}) = \frac{1 + | D_{C_{0}} |}{2 + | D_{C} |},

其中，表示垃圾评论文本集L_seed中评论文本的条数，|D_C|表示语料库S中评论文本的条数；

正常评论文本集Z_cand的类先验概率为：

P (Z_{c a n d}) = \frac{1 + | D_{C_{1}} |}{2 + | D_{C} |},

其中，表示正常评论文本集Z_cand中评论文本的条数，|D_C|表示语料库S中评论文本的条数。

(2-2)对垃圾评论文本集L_seed进行垃圾评论关键词抽取，形成垃圾评论关键词词集F。

本实施例通过权值计算和阈值筛选对垃圾评论文本集L_seed进行垃圾评论关键词的抽取，具体实现方法如下：

(2-21)采用中国科学院计算技术研究所开发的ICTCLAS5.0分词系统，对垃圾评论文本集L_seed中的评论文本进行中文分词和词性标注；

(2-22)根据中文分词和词性标注的结果，统计其中出现的所有实词构建出实词词集W，并采用信息增益方法计算实词词集中各个实词的权值：

\begin{matrix} η (w_{i}) = P (L_{s e e d}, w_{i}^{0}) \log \frac{P (L_{s e e d}, w_{i}^{0})}{P (L_{s e e d}) P (w_{i}^{0})} + P (L_{s e e d}, w_{i}^{1}) \log \frac{P (L_{s e e d}, w_{i}^{1})}{P (L_{s e e d}) P (w_{i}^{1})} \\ + P (Z_{c a n d}, w_{i}^{0}) \log \frac{P (Z_{c a n d}, w_{i}^{0})}{P (Z_{c a n d}) P (w_{i}^{0})} + P (Z_{c a n d}, w_{i}^{1}) \log \frac{P (Z_{c a n d}, w_{i}^{1})}{P (Z_{c a n d}) P (w_{i}^{1})}; \end{matrix}

其中，η(w_i)表示实词词集W中第i个实词的权值，1≤i≤n_word，n_word表示实词词集W中实词的条数，

表示垃圾评论文本集L_seed中不包含实词w_i的分句条数与语料库S中评论文本条数的比值，

表示垃圾评论文本集L_seed中包含实词w_i的分句条数与语料库S中评论文本条数的比值，

表示正常评论文本集Z_cand中不包含实词w_i的分句条数与语料库S中评论文本条数的比值，

表示正常评论文本集Z_cand中包含实词w_i的分句条数与语料库S中评论文本条数的比值，

P(L_seed)表示垃圾评论文本集L_seed的类先验概率，

P(Z_cand)表示正常评论文本集Z_cand的类先验概率，

表示语料库S中不包含实词w_i的评论文本的条数与语料库S中所有评论文本条数的比值，

表示语料库S中包含实词w_i的评论文本的条数与语料库S中所有评论文本条数的比值。

(2-23)根据权值计算结果设定合适的阈值，将权值大于阈值(本实施例中阈值为0.045)的实词作为垃圾评论关键词提取出来，形成垃圾评论关键词词集F＝{w₁,w₂,…,w_N}(其中N为垃圾评论关键词的个数)。

例如：对垃圾评论文本集L_seed进行垃圾评论关键词抽取，通过权值计算与阈值筛选，抽取出“回扣”、“省钱”，“平台”、“返利”、“链接”、“网址”、“积分”等关键词，构建出垃圾评论关键词词集F。

(2-3)计算垃圾评论关键词词集F中每个关键词类条件概率，其中，关键词w_n(w_n∈F，1≤n≤N)的类条件概率记为P(w_n|C_j)，表示相应的特征词序列中关键词w_n在垃圾评论文本集中的类条件概率，利用下面的公式进行计算：

P (w_{n} | C_{j}) = \frac{1 + w_{n}^{j}}{2 + | D_{C_{j}} |},

其中，表示评论文本集C_j中包含关键词w_n的评论文本条数，

表示评论文本集C_j中评论文本的条数。

例如：关键词“返利”在垃圾评论文本集L_seed中的类条件概率为：

其中，表示垃圾评论文本集L_seed中出现词w_返利(即词“返利”)的评论文本条数，表示垃圾评论文本集L_seed中评论文本的条数。

(2-4)根据垃圾评论关键词词集F，抽取正常评论文本集Z_cand中每一条评论文本中的特征词，并生成特征词序列

本实施例中通过如下方法实现：

(2-41)采用中国科学院计算技术研究所开发的ICTCLAS5.0分词系统对正常评论文本集Z_cand中的评论文本进行中文分词和词性标注；

(2-42)根据垃圾评论关键词词集F，抽取正常评论文本集Z_cand中的每一条评论文本d_x(1≤x≤N_z，N_z为正常评论文本集中正常评论文本的条数)中的特征词，并生成特征词序列其中，为评论文本d_x中特征词的个数，t_k为特征词，

例如：从评论文本d_x“我是从<去购物啦>淘宝返利搜索平台，搜索了商品之后再链接到淘宝这家店买的，返了不少钱。网站里面的积分还免费兑换了很多礼品，跟大家一起分享一下。”中可以提取出特征词“返利”、“平台”、“链接”、“积分”等，共同构成了该评论文本的特征词序列。

(2-5)计算正常评论文本集Z_cand和垃圾评论文本集L_seed中每条评论文本的类条件概率，当前评论文本d_x属于正常评论文本集和垃圾评论文本集的类条件概率记为P(d_x|C_j)，其中，j＝0或1，当j＝0时，评论文本集C_j表示垃圾评论文本集，当j＝1时，评论文本集C_j表示正常评论文本集：

P (d_{x} | C_{j}) = Π_{n = 1}^{N} P (w_{n} | C_{j}),

n＝1,2……,N，N为特征词序列中特征词的个数，

本实施例中记当前评论文本d_x的类条件概率属于垃圾评论文本集L_seed的类条件概率记为P(d_x|L_seed)：

P(d_x|L_seed)＝P(w_返利|L_seed)f×P(w_平台|L_seed)×P(w_积分|L_seed)×…

其中，w_返利表示特证词“返利”，w_平台表示特证词“平台”，w_积分表示特证词“积分”。

(2-6)针对正常评论文本集Z_cand和垃圾评论文本集L_seed中每条评论文本，分别计算该评论文本属于正常评论文本集Z_cand和垃圾评论文本集L_seed的类后验概率，其中：

评论文本d_x属于垃圾评论文本集L_seed的类后验概率为P(L_seed|d_x)，利用下面的公式进行计算：

P (L_{s e e d} | d_{x}) = \frac{P (L_{s e e d}) \times P (d_{x} | L_{s e e d})}{P (d_{x})},

其中，P(L_seed)为垃圾评论文本集L_seed的类先验概率，P(d_x|L_seed)为评论文本d_x属于垃圾评论的类条件概率，P(d_x)为评论文本d_x的全概率，由全概率公式可知：

P(d_x)＝P(d_x|L_seed)P(L_seed)+P(d_x|Z_cand)P(Z_cand)

评论文本d_x属于正常评论文本集Z_cand的类后验概率为P(Z_cand|d_x)，利用下面的公式进行计算：

P (Z_{c a n d} | d_{x}) = \frac{P (Z_{c a n d}) \times P (d_{x} | Z_{c a n d})}{P (d_{x})};

其中，P(Z_cand)为正常评论文本集Z_cand的类先验概率，P(d_x|Z_cand)为评论文本d_x属于正常评论的类条件概率，P(d_x)为评论文本d_x的全概率，可利用全概率公式进行计算：

P(d_x)＝P(d_x|L_seed)P(L_seed)+P(d_x|Z_cand)P(Z_cand)。

(2-7)根据计算结果，如果P(L_seed|d_x)≥P(Z_cand|d_x)，则判定d_x为垃圾评论文本，并将d_x划分到垃圾评论文本集L_seed；否则判定d_x为正常评论文本，并将d_x划分到正常评论文本集Z_cand中，进而得到更新后的正常评论文本集和垃圾评论文本集(即根据贝叶斯过滤器的判别结果重新划分语料库S)。

例如：前文所述的评论文本d_x，计算得到P(L_seed|d_x)≥P(Z_cand|d_x)，因此判别其属于L_seed类。

在判别过程中，可能将垃圾评论文本集中的评论文本重新判别为正常评论，也可能将正常评论文本集中的评论文本重新判别为垃圾评论，这是一个反复迭代的过程。

(3)按照步骤(2)中的方法，重新利用贝叶斯分类器提取新的垃圾评论关键词，然后逐条对L_seed和Z_cand中的每一条评论文本进行判别，识别出新的垃圾评论文本，并根据识别结果更新L_seed和Z_cand：将Z_cand中判别为垃圾评论的文本加入到L_seed中，并将L_seed中判别为正常评论的文本加入到Z_cand中。

如此反复迭代，直到相邻两次迭代得到的垃圾评论文本集L_seed和正常评论文本集Z_cand不再变化为止，并将最后一次迭代得到的垃圾评论文本集L_seed中的评论文本判定为垃圾评论文本。

随着迭代进行，垃圾评论关键词词集F不断发生变化，从而能够发现一些新的垃圾评论关键词。例如“返利”是近年来电子商务平台新出现的词，程序能够自动发现这些新词，而不需要人工识别和添加。通过QQ号、网站网址等关键词过滤出的垃圾评论中，很多都包含“返利”这个词，因此被抽取为垃圾评论关键词，进而识别出新的垃圾评论。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，其特征在于，所述步骤(1)中利用正则表达式对语料库中的评论文本进行垃圾评论判别以完成初始划分。

3.如权利要求1所述的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，其特征在于，所述步骤(2)中对正常评论文本集和垃圾评论文本集中每一条评论文本进行垃圾评论判别时进行如下操作：

否则，判定为正常评论文本。

4.如权利要求3所述的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，其特征在于，通过如下步骤分别计算该评论文本属于正常评论文本集和垃圾评论文本集的类后验概率：

(2-1)对垃圾评论文本集进行垃圾评论关键词抽取，形成垃圾评论关键词词集；

5.如权利要求4所述的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，其特征在于，所述步骤(2-1)具体包括如下步骤：

(2-22)计算垃圾评论文本集与正常评论文本集的类先验概率，并根据计算结果采用信息增益方法计算实词词集中各个实词的权值，并提取权值大于预设阈值的实词作为垃圾评论关键词形成垃圾评论关键词词集。

6.如权利要求5所述的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，其特征在于，所述步骤(2-22)中根据如下公式计算实词词集中第i个实词w_i的权值η(w_i)：

η (w_{i}) = \underset{j &Element; {0, 1}, o &Element; {0, 1}}{Σ} P (C_{j}, w_{i}^{o}) \log \frac{P (C_{j}, w_{i}^{o})}{P (C_{j}) P (w_{i}^{o})},

其中，1≤i≤n_word，n_word表示实词词集中实词的总个数；

j＝0或1，当j＝0时，评论文本集C_j表示垃圾评论文本集，当j＝1时，评论文本集C_j表示正常评论文本集；

o＝0或1，且：

当o＝1时，表示实词w_i出现，表示评论文本集C_j中出现实词w_i的评论文本条数与语料库中评论文本条数的比值，表示语料库中出现实词w_i的评论文本的条数与语料库中评论文本条数的比值；

P(C_j)表示评论文本集C_j的类先验概率，根据如下公式计算：

P (C_{j}) = \frac{1 + | D_{C_{j}} |}{2 + | D_{C} |},

其中，表示评论文本集C_j中评论文本的条数，|D_C|表示语料库中评论文本的条数。

7.如权利要求5所述的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，其特征在于，所述步骤(2-22)中预设阈值为0.04～0.05。

8.如权利要求4～7中任意一项所述的基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，其特征在于，所述步骤(2-3)中针对当前评论文本d_x进行如下操作：

(2-31)利用相应的特征词序列根据如下公式分别计算当前评论文本d_x属于正常评论文本集和垃圾评论文本集的类条件概率P(d_x|C_j)：

P (d_{x} | C_{j}) = Π_{n = 1}^{N} P (w_{n} | C_{j}),

n＝1,2……,N，N为特征词序列中特征词的个数，

P(w_n|C_j)表示为相应的特征词序列中关键词w_n在垃圾评论文本集中的类条件概率，根据如下公式计算：

P (w_{n} | C_{j}) = \frac{1 + w_{n}^{j}}{2 + | D_{C_{j}} |},

其中，表示评论文本集C_j中出现关键词w_n的评论文本条数，

表示评论文本集C_j中评论文本的条数；

(2-32)根据如下公式分别计算当前评论文本d_x属于垃圾评论文本集和正常评论文本集的类后验概率：

P (C_{j} | d_{x}) = \frac{P (C_{j}) \times P (d_{x} | C_{j})}{P (d_{x})},

P(d_x)为评论文本d_x的全概率，

P(C_j)为评论文本集C_j的类先验概率：

P (C_{j}) = \frac{1 + | D_{C_{j}} |}{2 + | D_{C} |},