CN101393555A

CN101393555A - 一种垃圾博客检测方法

Info

Publication number: CN101393555A
Application number: CNA2008101209729A
Authority: CN
Inventors: 陈纯; 卜佳俊; 张峰; 仇光; 郑淼
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2008-09-09
Filing date: 2008-09-09
Publication date: 2009-03-25

Abstract

本发明公开了一种垃圾博客检测方法。本发明是通过分析网络垃圾的作弊技术，针对垃圾博客的本质属性，运用二元分类的文本分类的技术，围绕博客文本内容特征、博客页面链接特征和博客文本时间分布特征等三个角度进行方法设计。本发明是建立在对博客网页内容全面分析的基础上，对博客的特征提取工作进行了优化，从而保证了对垃圾博客分类更高的准确率。

Description

一种垃圾博客检测方法

技术领域

本发明涉及博客，文本分类技术，特别是涉及一种垃圾博客检测方法。

背景技术

近年来，博客这一新生事物得到了蓬勃发展，由此产生了海量的博客信息。然而作为博客的副产品，垃圾博客也应运而生，其存在极大地浪费了网络的带宽和存储资源，增加了人们获取高质量信息的难度，同时也降低了网络用户对博客搜索体验的满意度。

普通正常的博客具有两个特征：一是由简短而且经常更新的文章构成；二是所张贴的文章按照时间的倒序排列。而垃圾博客除了具备上述特征之外，同时还有着链接工厂特征和广告博客的特征。链接工厂特征是指垃圾博客页面通过堆砌大量热门或者毫无意义的关键字，并进而描述某些外部网站的超链接，通过超链接作弊和关键词作弊等技术，提升被链接网站的链接广度，从而达到提升垃圾博客页面在搜索引擎查询结果中排名的目的；广告博客特征是指以与链接工厂相类似的手法堆砌热门关键词，欺骗用户点击广告并从中牟利。

目前，博客平台提供商处理垃圾博客的方式如下：通过主动监控或者他人举报等方式尽可能地收集网站内部垃圾博客链接，一旦确定便将其列入黑名单，最终通过技术手段进行屏蔽或者直接删除。这从源头上控制了垃圾博客的滋生蔓延。与此同时，国外也已经有相关组织建立了特定的网站和搜索引擎来积极应对垃圾博客。而对于博客搜索引擎而言，为了方便人们获取高质量的信息资源，也必须在索引数据库看中及时过滤垃圾博客，确保用户的查询结果列表中没有掺杂垃圾博客的信息。

但是现有处理方法的不足之处就是对垃圾博客的特征选取不够，区分垃圾博客与正常博客的准确率不高。

发明内容

为了克服对垃圾博客的特征选取不够，区分垃圾博客与正常博客的准确率不高，本发明的目的在于提供一种垃圾博客检测方法。

本发明解决其技术问题所采用的技术方案的步骤如下：

1)对博客文本内容属性进行分析，以正文文本口语化属性以及文本相似度属性和文本自关联属性为特征，对是否为垃圾博客进行判断；

2)对博客页面链接属性进行分析和优化，并利用链接属性分析的主题搜索算法递归计算所得的结果对博客网页质量进行评价；

3)对博客文本时间分布属性进行分析，并计算博客文本时间间隔的规则性特征，对是否为垃圾博客进行判断；

4)综合博客文本内容属性、博客页面链接属性和博客文本时间分布属性三方面特征，运用文本自动分类算法进行分类。

所述步骤1)中正文文本口语化属性是指就单篇文章而言，在文本分类中强化对口语化属性的判断，并以文本内容的口语化属性特征作为判断是否垃圾博客的特征。

所述步骤1)中文本相似度属性是指就博客作者的所有博客文章而言，使用空间向量模型求余弦的方式，通过计算经过“简化”的各篇博客文章之间的文本相似度，对是否为垃圾博客进行判断，空间向量模型求余弦的计算公式如下：

Sim (D_{i}, D_{j}) = \frac{Σ_{k = 1}^{m} w_{ik} \times w_{ik}}{\sqrt{(Σ_{k = 1}^{m} w_{ik}^{2}) (Σ_{k = 1}^{m} w_{ik}^{2})}}

其中：D表示一篇文章；w_ik表示文章D_i中的一个词条；m表示文章D_i中的词条个数；Sim(D_i，D_j)表示文章D_i和D_j的相似程度。

所述步骤1)中文本自关联属性是指，博客作者的在T时刻所发表的第l篇文章与之后的T’时刻发表的第(l+k)篇文章之间的关联程度。自关联函数公式定义如下：

d (p (l), p (l + k)) = 1 - E {\frac{| w_{f} (l) \cap w_{f} (l + k) |}{| w_{f} (l) \cup w_{f} (l + k) |}}

R(k)＝1-d(p(l)，p(l+k))

其中，R(k)表示第l篇文章与第(l+k)篇文章之间的自关联值；d(p(l)，p(l+k))表示第l篇文章与第(l+k)篇文章之间的不相关性度量；p(l)表示第l篇文章；w_f(l)表示第l篇文章的词条；E{}表示期望值操作；||表示集合的势；∪和∩表示集合的并和交操作。

所述步骤2)中对博客页面链接属性进行分析和优化，并利用链接属性分析的主题搜索算法递归计算是指：去掉博客页面中影响博客“入度”计算的，由博客评论系统产生的垃圾博客链接，去掉博客网页中影响博客“出度”计算的，用于博客网页内部导航的链接；并使用链接属性分析的主题搜索算法计算得出标准化目录型权值。其中，标准化的目录型权值是鉴别垃圾博客的有效指标。

所述步骤3)中对博客文本时间分布属性进行分析，计算博客文本时间间隔的规则性特征是指，使用层次聚类方法，对聚类中的簇进行熵计算，计算公式如下：

B_{e} = - Σ_{i = 1}^{M} p_{i} \log p_{i}

p_{i} = \frac{n_{i}}{N}

TSR = 1 - \frac{B_{e}}{B_{\max}}

其中：

B_e：博客的熵；

B_max：实际测量时所得到最大熵；

N：博客作者发表的博客文章总数；

M：聚类中簇的数量；

n_i：博客文章的数量；

p_i：第i个簇的概率；

TSR：博客文本的时间间隔分布结果。

本发明与背景技术相比，具有的有益的效果是：

本发明是通过分析网络垃圾的作弊技术，针对垃圾博客的本质属性，运用二元分类的文本分类的技术思想，围绕博客的文本特征、超级链接特征以及发布时间特征等三个角度对甄别垃圾博客的特征进行建模。本发明是建立在对博客网页内容全面分析的基础上，对博客的特征提取工作进行了优化，从而保证了对垃圾博客分类更高的准确率。

附图说明

附图是垃圾博客检测方法流程图。

具体实施方式

本发明实施的关键有三点：博客文本内容特征提取、博客页面链接特征提取和博客文本时间分布特征提取。本发明在取得博客页面数据之后，通过正文文本内容分析、博客页面链接分析和博客文本时间属性分析之后，获得特征向量，采用文本自动分类算法实现对垃圾博客的精确分类。

1.博客文本内容特征提取：

就单篇文章而言，以博客文章(包括文章标题)为对象，采用二元法表示特征项。二元表示法，即在{0，1}中取其一，出现的关键词用1表示，未出现的用0表示。标准化词频表示法中，需要对TFIDF值做适当改进，特征项权重值重新定义如下：

w_{ij} = \frac{\log ({freq}_{qj} + 1)}{\log ({length}_{i})} \times \log (\frac{N}{n_{i}})

其中，w_ij表示关键词i在文档j中的TFIDF值；freq_ij表示关键词i在文档j中出现的个数；N表示文章总数；n_i表示出现过关键词i的文档总数；length_j表示文档j中唯一的关键词个数。在这里要特别指出的是，很多时候这个数值的作用是将停用词过滤掉，但由于正常的博客文章往往会出现很多口语化或者低区分度的词汇，如“我”、“大家”、“今天”等，因此不能像传统信息检索那样把他们作为停用词而过滤掉。

文本内容相似性的计算使用空间向量模型求余弦的方法。公式如下：

Sim (D_{i}, D_{j}) = \frac{Σ_{k = 1}^{m} w_{ik} \times w_{ik}}{\sqrt{(Σ_{k = 1}^{m} w_{ik}^{2}) (Σ_{k = 1}^{m} w_{ik}^{2})}}

此方法的时间消耗巨大，与文本规模成正比。因此对算法进行了适当优化，对文本内容进行了“简化”。首先将文本中的标点符号归一化，将所有全角标点、字母、数字等符号替换成半角符号，将相应的个性化符号用正规的标点替代；然后对文本内容以句子为单位进行切分，并按照句子的长度递减排序；第三，选取排名前N个句子来“代表”该篇文章。若文章句子不足N句，则取整篇文章。其中N为预先设定的阈值，默认为3。

博客文本自关联属性是指博客作者在T时刻所发表的第l篇文章与之后T’时刻发表的第(l+k)篇文章之间的关联程度，博客文本自关联属性是区分垃圾博客与普通博客的重要特征。自关联函数公式定义如下：

d (p (l), p (l + k)) = 1 - E {\frac{| w_{f} (l) \cap w_{f} (l + k) |}{| w_{f} (l) \cup w_{f} (l + k) |}}

R(k)＝1-d(p(l)，p(l+k))

2.博客页面链接特征提取：

针对博客网页链接特征的分析是指，在计算之前需要去掉博客网页中影响博客“入度”计算的，由博客评论系统产生的垃圾博客链接，去掉博客网页中影响博客“出度”计算的，用于博客网页内部导航链接；使用链接分析的主题搜索算法进行计算。链接分析的主题搜索算法描述两种类型的网页：权威型网页和目录型网页。权威型网页是指对于一个特定的检索，网页能提供最好的相关信息；目录型网页是指网页提供很多指向其他高质量权威型网页的超链接。

当用户进行检索时，链接分析的主题搜索算法先根据检索关键词得到一个网页的根集合。如，从搜索引擎返回结果中取前200个网页；然后根据这个集合在整个网页有向图中的位置来扩展此根集合。具体办法是，将被链接的网页加入到根集合中，形成一个新的集合；依据指定的网页规模进行扩展，比如可以使根集合扩展到一个包含1000到5000个网页的集合。

在得到这个集合后，就开始采用目录型网页和权威型网页相互评价的办法进行递归，从而计算集合中每个网页的目录型权值和权威型权值。对于一个网页p，用x_p来表示网页p的权威型权值，用y_p来表示它的目录型权值，x_p和y_p的计算公式如下：

x_{p} = \underset{q such that q &RightArrow; p}{Σ y_{p}}

y_{p} = \underset{p such that p &RightArrow; q}{Σ x_{p}}

对所有选出来的网页都进行标号，得到所有网页的编号集{1，2，...，n}。假设相邻矩阵A为一个n×n的矩阵，如果存在一个从网页i链接到网页j的超链，就令矩阵中的第(i，j)个元素置为1，其它各项置为0。同时，将所有网页的权威型权值x和目录型权值y都用向量形式表示：

x＝(x₁，x₂，...，x_n)

y＝(y₁，y₂，...，y_n)

由此，可以得到计算x和y的简单矩阵公式：

y＝Ax

x＝A^Ty

其中，A^T是A的转置矩阵。进一步有：

y＝Ax＝AA^Ty＝(AA^T)y

x＝A^Ty＝A^TAx＝(A^TA)x

经递归运算，得到集合中每个网页的权威型权值和目录型权值。

3.博客文本时间分布特征提取：

在博客文本时间间隔的规则性计算过程中，首先计算相邻两篇博客文章之间的时间间隔；其次，用层次聚类算法对时间间隔进行处理。在层次聚类过程中预先定义一个阈值N，表示簇的个数，如，将N设置为10。两个簇之间的距离如果是所有簇间距离的最小值，并且当前簇个数大于阈值N，则将这两个簇合并成为一个新的簇，并将当前簇的个数减一。最后对文章时间间隔分布特征进行熵计算。熵计算公式如下：

B_{e} = - Σ_{i = 1}^{M} p_{i} \log p_{i}

p_{i} = \frac{n_{i}}{N}

TSR = 1 - \frac{B_{e}}{B_{\max}}

其中：

B_e：博客的熵；

B_max：实际测量时所得到最大熵；

N：博客作者发表的博客文章总数；

M：聚类中簇的数量；

n_i：博客文章的数量；

p_i：第i个簇的概率；

TSR：博客文章的时间间隔分布结果。

在通过博客文本内容分析、博客页面链接分析和博客文本时间分布属性分析，获得特征向量之后，采用文本自动分类算法对博客进行是否垃圾博客的分类。文本自动分类算法属于一种常规算法，故不再详细叙述。

Claims

1.一种垃圾博客检测方法，其特征在于该方法的步骤如下：

2.根据权利要求1所述的一种垃圾博客检测方法，其特征在于：所述步骤1)中正文文本口语化属性是指就单篇文章而言，在文本分类中强化对口语化属性的判断，并以文本内容的口语化属性特征作为判断是否垃圾博客的特征。

3.根据权利要求1所述的一种垃圾博客检测方法，其特征在于：所述步骤1)中文本相似度属性是指就博客作者的所有博客文章而言，使用空间向量模型求余弦的方式，通过计算经过“简化”的各篇博客文章之间的文本相似度，对是否为垃圾博客进行判断，空间向量模型求余弦的计算公式如下：

Sim (D_{i}, D_{j}) = \frac{Σ_{k = 1}^{m} w_{ik} \times w_{ik}}{\sqrt{(Σ_{k = 1}^{m} w_{ik}^{2}) (Σ_{k = 1}^{m} w_{ik}^{2})}}

4.根据权利要求1所述的一种垃圾博客检测方法，其特征在于：所述步骤1)中文本自关联属性是指，博客作者的在T时刻所发表的第l篇文章与之后的T’时刻发表的第(l+k)篇文章之间的关联程度。自关联函数公式定义如下：

d (p (l)), p (l + k) = 1 - E {\frac{| w_{f} (l) \cap w_{f} (l + k) |}{| w_{f} (l) \cup w_{f} (l + k) |}}

R(k)＝1-d(p(l)，p(l+k))

5.根据权利要求1所述的一种垃圾博客检测方法，其特征在于：所述步骤2)中对博客页面链接属性进行分析和优化，并利用链接属性分析的主题搜索算法递归计算是指：去掉博客页面中影响博客“入度”计算的，由博客评论系统产生的垃圾博客链接，去掉博客网页中影响博客“出度”计算的，用于博客网页内部导航的链接；并使用链接属性分析的主题搜索算法计算得出标准化目录型权值。其中，标准化的目录型权值是鉴别垃圾博客的有效指标。

6.根据权利要求1所述的一种垃圾博客检测方法，其特征在于：所述步骤3)中对博客文本时间分布属性进行分析，计算博客文本时间间隔的规则性特征是指，使用层次聚类方法，对聚类中的簇进行熵计算，计算公式如下：

B_{e} = - Σ_{i = 1}^{M} p_{i} \log p_{i}

p_{i} = \frac{n_{i}}{N}

TSR = 1 - \frac{B_{e}}{B_{\max}}

其中：

B_e：博客的熵；

B_max：实际测量时所得到最大熵；

N：博客作者发表的博客文章总数；

M：聚类中簇的数量；

n_i：博客文章的数量；

p_i：第i个簇的概率；

TSR：博客文本的时间间隔分布结果。