CN101996241A

CN101996241A - 一种基于贝叶斯算法的内容过滤方法

Info

Publication number: CN101996241A
Application number: CN 201010516057
Authority: CN
Inventors: 黄杰; 蒲文静; 王平; 霍贵超
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2010-10-22
Filing date: 2010-10-22
Publication date: 2011-03-30

Abstract

基于贝叶斯算法的内容过滤方法，针对第三代移动通信核心网中文本信息进行内容过滤，其使用基于双重阈值的贝叶斯算法来进行文本分类，设C₁为正常信息，C₂为垃圾信息，分类器将测算代表数据样本的特征向量X属于每个类别C_i的概率，进行测算的贝叶斯公式为：P(C_i|X)＝P(X|C_i)P(C_i)/P(X) 1≤i≤2，其中后验概率P(C_i|X)的最大值被称为最大后验概率，对每个类错误！未找到引用源，只需计算错误！未找到引用源，未知样本特征向量X将被指派到其错误！未找到引用源的风险值最低的C_i类。采用文档频率(DF)进行特征选择，使用基于最小风险的双重阈值贝叶斯决策进行分类。在TD-SCDMA移动互联网内容监管系统中，此算法具有更强的可控性，能够实现大量文本信息的实时高效率分类。

Description

一种基于贝叶斯算法的内容过滤方法

技术领域

本发明方法是一种基于最小风险的双重阈值贝叶斯决策方法，它针对移动通信网分组域文本信息，对其中的内容进行检测和分类，实现高效实时的文本内容监管。属于信息安全领域。

背景技术

中国互联网协会发布的一项调查显示：中国手机用户平均每周收到8.29条垃圾信息，作为世界上最大的移动通信市场，中国的手机用户数已经超过4.43亿，按照每条信息收费0.15元计算，垃圾信息每天为运营企业带来的收入约为7800多万元。随着3G时代的到来，用户通过手机能够浏览和查阅的信息越来越多，但他们也面临着五花八门的垃圾信息的骚扰。倘若我们能在信息传输的过程中截取并过滤掉垃圾信息，就能够打破垃圾信息传播的“生态链”，让非法分子无机可乘。故研究一种能够有效识别垃圾文本信息的过滤方法具有重要的经济价值和社会价值。

垃圾信息的分类过滤是在协议解析以后对解析出的具体内容进行检测，属于内容过滤技术的范畴。文本的分类可以看成模式识别的一个具体应用。本发明利用基于最小风险的双重阈值贝叶斯决策的方法，在TD-SCDMA移动互联网内容监管系统中对真实的文本通信内容进行分类。实验证明，它拥有较高的准确率，正常文本信息极少会被判定为垃圾信息，且处理速度较快，完全能够满足实时处理的需求。

发明内容

技术问题：本发明的目的是提供一种高速的文本内容过滤方法，可以实现对核心网分组域中的文本内容进行检测，防止垃圾或者违法信息对通信网用户造成干扰，在保证通信质量的前提下减少了用户有用信息的损失，对垃圾信息也得到了很好的抑制，实现第三代移动通信移动网内容监管数据的高速实时处理。

技术方案：本发明采用基于最小风险的双重阈值贝叶斯算法对文本信息进行实时的分析、检测，从而实现对第三代移动通信网络中数据内容的监管。

本发明的基于贝叶斯算法的内容过滤方法针对3G(第三代移动通信)核心网中文本信息进行内容过滤，其使用基于双重阈值的贝叶斯算法来进行文本分类，设C₁为正常信息，C₂为垃圾信息，分类器将测算代表数据样本的特征向量X属于每个类别C_i的概率，进行测算的贝叶斯公式为：

P(C_i|X)＝P(X|C_i)P(C_i)/P(X) 1≤i≤2，

其中后验概率P(C_i|X)的最大值被称为最大后验概率，对每个类错误！未找到引用源。，只需计算错误！未找到引用源。，未知样本特征向量X将被指派到其错误！未找到引用源。的风险值最低的C_i类，

基于贝叶斯算法的内容过滤方法具体流程如下：

1)每个数据样本用一个n维特征向量X＝(x₁，x₂，...x_n)错误！未找到引用源。表示，其中x₁，x₂，...x_n表示某个数据样本中n个特征词条A₁，A₂，...A_n错误！未找到引用源。的度量；

2)计算概率p(x_k|C_i)，其由训练样本估计，采用经过平滑处理后的词频计算式，计算的公式为p(x_t|C_i)＝(1+f_t)/(n+f_i)，其中f_t为特征词x_t在C_i类文本中出现的次数，f_i为C_i类所有文本的特征词总数，n为向量维数；

3)对p(x_k|C_i)进行风险计算，先验概率的风险系数设定如下：

条件1：某个词语出现在垃圾信息中的概率大于出现在正常信息中的频率，

a)将其判定为正常词语时所带来的损失设定为1；

b)将其判定为垃圾词语所带来的损失设为b，其中b＜1；

条件2：若词条出现在正常信息中的概率大于出现在垃圾信息中的概率，

a)将其判定为垃圾词语所带来损失设定为d，可知d＞1，

b)将其判定为正常词语带来的损失值小于1，在此仍设为b，其中b＜1，

将词语分量x_k判定为垃圾词条要满足的条件为：

p(x_t|C₁)/p(x_t|C₂)＜φ，其中φ＝(1-b)/(d-b)，

由b＜1、d＞1，得到φ＜1，当针对某个词条的先验概率之比满足上式的时候，才将该词条归为垃圾词条，即完成了对p(x_k|C_i)的风险计算；

4)计算类的先验概率P(C_i)，计算的公式为P(C_i)＝s_i/s，其中s_i是类C_i错误！未找到引用源。中的训练样本数，而s是训练样本总数；

5)计算P(X|C_i)，为了降低运算错误！未找到引用源。的开销，假定特征词之间相互条件独立，即属性间不存在依赖关系，计算的公式为

6)进行了如上假设和处理后，对每个类错误！未找到引用源。，计算P(X|C_i)P(C_i)，并对其进行风险计算，后验概率的风险系数设定如下：

条件1：信息被正确判定时，不会给用户带来任何损失，相应的损失设定为0；

条件2：垃圾信息被误判为正常信息时所带来的损失设定为1；

条件3：正常信息被误判为垃圾信息时所带来的损失设定为k，可知k要大于1，

将未知样本特征向量X判定为垃圾信息要满足的条件为：

P(C₂|X)＞θ，其中θ＝k/(1+k)，

由k＞1，得到θ＜1，当针对某个未知样本的后验概率满足上式的时候，才将该样本归为垃圾信息，即完成了对P(C_i|X)的风险计算，若最终得到P(C₂|X)＞θ，判定该信息为垃圾信息；反之，判定其为正常信息。

具体流程步骤1)中每个数据样本用一个n维特征向量X＝(x₁，x₂，...x_n)错误！未找到引用源。表示，其中x₁，x₂，...x_n表示某个数据样本中n个特征词条A₁，A₂，...A_n错误！未找到引用源。的度量，特征词A₁，A₂，...A_n的分词算法使用最大匹配方法FMM，具体分词步骤如下：

11)选取分词词典中最长词长度的字串，将该字串与词典中的词条相匹配，

12)如果在字典中查找到了相同的词条，那么分词成功，然后执行步骤14)，

13)如果不能匹配，若词条长度大于两个中字，就去掉最后一个汉字，执行步骤12)；若等于两个中字，确定为单字，执行步骤14)，

14)移动指针读入新的内容继续按照上面的方法进行查找。

具体流程具体步骤1)中每个数据样本用一个n维特征向量X＝(x₁，x₂，...x_n)错误！未找到引用源。表示，其中x₁，x₂，...x_n表示某个数据样本中n个特征词条A₁，A₂，...A_n错误！未找到引用源。的度量，筛选特征词A₁，A₂，...A_n错误！未找到引用源。的方法采用文档频率DF方法，具体执行步骤如下：

21)首先计算每个词条的DF值，一个词条的DF值即为训练语料中包含该词条的文档数；

22)将DF值低于某一特定阈值的词条从原始特征空间中移除。

在步骤21)中计算每个词条的DF值，一个词条的DF值即为训练语料中包含该词条的文档数，消耗的时间较长，故将筛选特征词的整体置于后台，统计筛选完成之后的特征词输出形成文件供分类器使用，整体的分类功能逻辑上分为两个部分来实现：后台特征库模块以及前台文本分类模块。

后台特征库形成模块包括对训练文本的分词以及特征筛选等功能；前台实时分类模块包括改进的贝叶斯分类算法对文本进行分类。两个模块通过特征文件关联起来。特征文件由后台特征库模块生成，其记录特征词条的同时也记录下特征词条在两类信息，即垃圾信息以及正常信息中的权重。形成的特征文件将作为实时分类检测模块的重要依据来对输入的文本内容进行计算和判别。

有益效果：本发明提供了一种基于最小风险的双重阈值贝叶斯文本分类方法。通信网中的包含了大量的用户通信信息，其具体内容是否合法不可能投入大量人力来进行筛选和检测。基于最小风险的双重阈值贝叶斯决策的内容过滤系统达到了我们预期的效果，维持文本内容过滤的准确率，同时也降低了因正常信息的误判而带来的风险。保证了用户通信隐私的同时，也有效抑制了垃圾文本信息的传输。该方法分类耗时短，对系统资源占用少，适用于移动通信网。该方法有效地控制垃圾文本数量，同时能保证整个监管系统稳定、有效地运行。

附图说明

图1是文本分类算法流程图；

图2是字典链表结构；

图3是切分后的词语插入的链表结构；

图4是分词流程图。

具体实施方式

本发明中的文本分类方法应用在协议解析以后对解析出的文本内容进行检测，属于内容过滤技术的范畴。对于结果有问题的内容，输出警告标志提供给用户；而检测安全的信息则输出安全标志。文本信息的分类可以看成是模式识别的一个具体的运用，是一个文本分类技术的应用。设计的文本分类算法的流程如图1所示。

垃圾文本信息过滤系统分为两个子模块来实现：特征库模块(后台)和文本分类模块(前台)。两个模块通过特征文件关联起来。特征文件由后台特征库形成模块生成，其记录特征词条的同时也记录下词条在两类信息，即垃圾信息以及正常信息中的权重。形成的特征文件将作为文本分类模块的重要依据来对输入的文本内容进行计算和判别。

在分类检测之前，必须对大量的语料进行分析和学习，语料的来源须来自真实的应用环境，从而才能真实有效地反应出通信网分组域文本信息词条和词频的分布情况，为实时文本分类模块进行正确的文本分类打下坚实的基础。下面具体介绍两个模块的工作步骤。

1.特征库模块。

步骤1：分词。分词的基础是一本“词典”，就是包含了汉语中所有词汇的文件以便后面的分词和词频的统计。将字典文件读入内存，为了方便查找匹配，我们是用如图2所示的结构进行存储。我们使用正向最大匹配方法FMM来进行分词。具体分词步骤如下：

(1)选取分词词典中最长词长度的字串，将该字串与词典中的词条相匹配；

(2)如果在字典中查找到了相同的词条，那么分词成功，然后执行步骤(4)；

(3)如果不能匹配，若词条长度大于两个中字，就去掉最后一个汉字，执行步骤(2)；若等于两个中字，确定为单字，执行步骤(4)。

(4)移动指针读入新的内容继续按照上面的方法进行查找。

FMM法分词速度快，效率高，实现简单，针对移动通信网的特点，通信中所传播的垃圾文本内容具有相似性，大批量性，FMM方法可以比较好的满足特征提取的要求，并且可以提高运算速度，减少占用的资源。切分出的词语及其相关记录按照图3的方式进行存储，以便后面进行特征词的筛选。

步骤2：特征筛选。预处理之后的文本会被转化为很多词语，其构成的空间维数是相当巨大的，其存储结构如图3所示。为了减少不必要的冗余计算，提高存储空间的利用率，所以我们采取分词即记录词频的方式来简化运算，得到的分词结果也包含了对应词频的统计结果，故设计的分词流程如图4所示。

我们采用特征选择的方法进行降维，即不改变原始特征空间的性质，只是从原始特征空间中选择了一部分重要的特征，组成一个新的低维空间。DF是一种经验方法。筛选特征词的条件直接影响到建模时空间向量模型维数的大小。DF特征选择的步骤如下：

(1)首先计算每个词条的DF值，一个词条的DF值即为训练语料中包含该词条的文档数；

(2)将DF值低于某一特定阈值的词条从原始特征空间中移除，从而达到降维和特征选择的目的。

步骤3：特征文件的形成。经过筛选特征词之后，以特征词条目数作为向量的维数来表示文本，降低了原向量空间的大小。在移动通信网中，为了缩短建模时间而达到实时效果，我们采取将统计完成的词条频度统一写入文件的方法来提高分类运算速度。进行筛选后的词语，其中包含其合法词频和非法词频，以特定ASCII码作为分隔符，作为特征词条写入特征文件，形成特征库存储在进行文本内容过滤的计算机中，为后面的文本信息的检测分类提供依据。

特征数据文件的准确性直接影响到文本分类的正确率，所以管理员应定期更换训练集语料以适应垃圾信息变化快、周期短的特点。贝叶斯内容过滤反馈学习的问题上，我们采取重新学习的方法，来获得新的精确的特征数据文件，从而保证文本内容过滤结果的高正确率。

2.文本分类模块

贝叶斯分类器具有坚实的数学理论基础以及综合先验信息和数据样本信息的能力，使其正在成为当前机器学习的研究热点之一。其思想是利用个体和类别的联合概率来估计给定的事物属于各个类别的概率，倘若属于某一类别的概率满足最终的分类指标，则将接受判断的事物归结于其中的某一类。结合到本发明，它实质是利用词和类别的联合概率来比较给定的文本信息分别属于两个类别概率的大小。

前台文本分类模块使用基于最小风险的双重阈值贝叶斯算法进行分类。具体流程图如图1所示，执行步骤如下：

1)每个数据样本(即未知的且经过特征分词后的文本)用一个n维特征向量X＝(x₁，x₂，...x_n)错误！未找到引用源。表示，其中x₁，x₂，...x_n表示某个数据样本中n个特征词条A₁，A₂，...A_n错误！未找到引用源。的度量。

2)计算概率p(x_k|C_i)，其由训练样本估计，采用经过平滑处理后的词频计算式，故计算的公式为p(x_t|C_i)＝(1+f_t)/(n+f_i)。其中f_t为特征词x_t在C_i类文本中出现的次数，f_i为C_i类所有文本的特征词总数，n为向量维数。

3)对p(x_k|C_i)进行风险计算。基于先验概率的风险系数定义如下表1所示：

表1 基于先验概率的风险系数

某个词语，即分量x_k出现在垃圾信息中的概率大于出现在正常信息中的频率，将其判定为正常词语时所带来的损失设定为1，而将其判定为垃圾词语所带来的损失远小于1，设为b，其中b＜1；如果词条出现在正常信息中的概率大于出现在垃圾信息中的概率，则出现在正常信息中的概率大于垃圾信息中的概率，而判定为垃圾词语所带来损失设定为d，由前面的分析可知d＞1，而判定为正常词语带来的损失值小于1，在此仍设为b，其中b＜1。

针对先验概率的风险计算如下：

词条决策为垃圾词条的条件风险为：r(x_t|C₂)＝b×p(x_t|C₂)+d×p(x_t|C₁)

词条决策为正常词条的条件风险为：r(x_t|C₁)＝1×p(x_t|C₂)+b×p(x_t|C₁)

判定为垃圾词条要满足r(x_t|C₂)＜r(x_t|C₁)

整理得到：(d-b)p(x_t|C₁)＞(1-b)p(x_t|C₂)

令φ＝(1-b)/(d-b)，整理得p(x_t|C₁)/p(x_t|C₂)＜φ

故将词语分量x_k判定为垃圾词条要满足的条件为：p(x_t|C₁)/p(x_t|C₂)＜φ

其中φ＝(1-b)/(d-b)。因为b＜1、d＞1，故φ＜1。当针对某个词条的先验概率之比满足上式的时候，才将该词条归为垃圾词条，即完成了对p(x_k|C_i)的风险计算。

4)设C₁为正常信息，C₂为垃圾信息，计算类的先验概率P(C_i)，计算的公式为P(C_i)＝s_i/s。其中s_i是类C_i错误！未找到引用源。中的训练样本数，而s是训练样本总数；

5)计算P(X|C_i)，由于预处理之后的特征词条数目仍然比较多，为了降低运算错误！未找到引用源。的开销，假定特征词之间相互条件独立，即属性间不存在依赖关系。大量研究表明，这种假设很有效。计算的公式为

6)进行了如上假设和处理后，对每个类错误！未找到引用源。，计算P(X|C_i)P(C_i)，并对其进行风险计算。基于后验概率的风险系数定义如下表2所示：

表2基于后验概率的风险系数

文本信息	实际为正常信息	实际为垃圾信息
			判定为正常信息	0	1
判定为垃圾信息	k	0

信息被正确判定时，不会给用户带来任何损失，因此，相应的损失设定为0；垃圾信息被误判为正常信息时所带来的损失设定为1；正常信息被误判为垃圾信息时所带来的损失设定为k，由前面的分析可知k要大于1。

针对后验概率的风险计算如下：

决策为垃圾信息的条件风险为：R(C₂|X)＝0×P(C₂|X)+k×P(C₁|X)

决策为正常信息的条件风险为：R(C₁|X)＝1×P(C₂|X)+0×P(C₁|X)

判定为垃圾信息要满足R(C₂|X)＜R(C₁|X)即：k×(1-P(C₂|X))＜P(C₂|X)

令θ＝k/(1+k)，整理得P(C₂|X)＞θ。

故将未知样本特征向量X判定为垃圾信息要满足的条件为：P(C₂|X)＞θ

其中θ＝k/(1+k)。因为k＞1，故θ＜1。当针对某个未知样本的后验概率满足上式的时候，才将该样本归为垃圾信息，即完成了对P(C_i|X)的风险计算。若最终得到P(C₂|X)＞θ，判定该信息为垃圾信息；反之，判定其为正常信息。

Claims

1.一种基于贝叶斯算法的内容过滤方法，其特征在于该过滤方法针对第三代移动通信核心网中文本信息进行内容过滤，其使用基于双重阈值的贝叶斯算法来进行文本分类，设C₁为正常信息，C₂为垃圾信息，分类器将测算代表数据样本的特征向量X属于每个类别C_i的概率，进行测算的贝叶斯公式为：

P(C_i|X)＝P(X|C_i)P(C_i)/P(X) 1≤i≤2，

基于贝叶斯算法的内容过滤方法具体流程如下：

3)对p(x_k|C_i)进行风险计算，先验概率的风险系数设定如下：

a)将其判定为正常词语时所带来的损失设定为1；

b)将其判定为垃圾词语所带来的损失设为b，其中b＜1；

a)将其判定为垃圾词语所带来损失设定为d，可知d＞1，

将词语分量x_k判定为垃圾词条要满足的条件为：

p(x_t|C₁)/p(x_t|C₂)＜φ，其中φ＝(1-b)/(d-b)，

将未知样本特征向量X判定为垃圾信息要满足的条件为：

P(C₂|X)＞θ，其中θ＝k/(1+k)，

2.根据权利要求1所述的基于贝叶斯算法的内容过滤方法，其特征在于具体流程步骤1)中每个数据样本用一个n维特征向量X＝(x₁，x₂，...x_n)错误！未找到引用源。表示，其中x₁，x₂，...x_n表示某个数据样本中n个特征词条A₁，A₂，...A_n错误！未找到引用源。的度量，特征词A₁，A₂，...A_n的分词算法使用最大匹配方法FMM，具体分词步骤如下：

14)移动指针读入新的内容继续按照上面的方法进行查找。

3.根据权利要求1所述的基于贝叶斯算法的内容过滤方法，其特征在于具体流程具体步骤1)中每个数据样本用一个n维特征向量X＝(x₁，x₂，...x_n)错误！未找到引用源。表示，其中x₁，x₂，...x_n表示某个数据样本中n个特征词条A₁，A₂，...A_n错误！未找到引用源。的度量，筛选特征词A₁，A₂，...A_n错误！未找到引用源。的方法采用文档频率DF方法，具体执行步骤如下：

22)将DF值低于某一特定阈值的词条从原始特征空间中移除。

4.根据权利要求3所述的基于贝叶斯算法的内容过滤方法，其特征在于在步骤21)中计算每个词条的DF值，一个词条的DF值即为训练语料中包含该词条的文档数，消耗的时间较长，故将筛选特征词的整体置于后台，统计筛选完成之后的特征词输出形成文件供分类器使用，整体的分类功能逻辑上分为两个部分来实现：后台特征库模块以及前台文本分类模块。