CN102096703A

CN102096703A - 短消息的过滤方法和设备

Info

Publication number: CN102096703A
Application number: CN201010611864.9A
Authority: CN
Inventors: 牟小峰
Original assignee: Beijing Feinno Communication Technology Co Ltd
Current assignee: Beijing Feinno Communication Technology Co Ltd
Priority date: 2010-12-29
Filing date: 2010-12-29
Publication date: 2011-06-15
Anticipated expiration: 2030-12-29
Also published as: CN102096703B

Abstract

本发明公开了一种短消息的过滤方法和设备，涉及电子信息技术领域，能够灵活应对不断变化的垃圾消息，提高了分类模型的分类精度和对垃圾消息的过滤准确率，且无需为分类模型额外构建训练语料库，降低了成本。本发明实施例提供的一种短消息的过滤方法包括：利用当前的分类模型对接收到的短消息的类别进行判断；当短消息的类别为垃圾消息时，过滤所述短消息；当短消息的类别为正常消息时，对所述短消息进行文本指纹提取，得到对应于所述短消息的指纹信息；根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时，利用所述短消息对当前的分类模型进行更新，以利用更新后的分类模型执行下一次的过滤流程。

Description

短消息的过滤方法和设备

技术领域

本发明涉及电子信息技术领域，特别是涉及一种短消息的过滤方法和设备。

背景技术

短信是人们经常使用的信息交流方式之一，与此同时，垃圾短信也开始逐步泛滥。统计显示，在数量庞大的短信中，约30％属于垃圾短信。对普通用户而言，垃圾短信严重干扰日常生活；对运营商而言，垃圾短信占据大量流量空间，降低信息传送效率。

目前最通用的一种垃圾短信过滤方法是基于敏感词和串匹配的方法，该方法通过在服务器端布置敏感词表并通过模式匹配的方法来过滤垃圾短信。然而，这种方法的“误杀率”较高，且通过敏感词列举的方式无法穷尽所有的敏感词形式，这种方法始终滞后于垃圾短信的传播。

现有技术还提出了一种基于分类模型的垃圾短信的过滤方法，这种方法通过把短信分割为独立的部分，计算这些部分与类别的关系来判断短信是否为垃圾短信。这种基于内容比较的方法可以一定程度上避开敏感词过滤的缺陷，从整体内容上判断短信是否为垃圾短信。

然而，现有的基于分类模型的垃圾短信的过滤方法也存在不少不足之处，例如，主流的分类模型，如支持向量机模型、贝叶斯模型和最大熵模型等，往往需要构建一定规模的训练语料库来得到分类用的参数，训练语料库规模较小时，分类的准确率较低，而为了构建一定规模的训练语料库，又需要花费极大的代价，成本过高；并且，垃圾短信的发送者会不断对垃圾短信进行变形或增加新型的垃圾短信，以避开消息过滤机制，而现有基于分类模型的垃圾短信过滤方法只能对已出现过的垃圾短信具有过滤效果，而无法过滤未曾出现过的垃圾短信，无法灵活应对垃圾短信的变化，过滤准确率较低。

发明内容

本发明提供了一种短消息的过滤方法和设备，能够灵活应对不断变化的垃圾消息，提高了分类模型的分类精度和对垃圾消息的过滤准确率，且无需为分类模型额外构建训练语料库，降低了成本。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例公开了一种短消息的过滤方法，包括：

利用当前的分类模型对接收到的短消息的类别进行判断，所述短消息的类别包括垃圾消息和正常消息；

当所述短消息的类别为垃圾消息时，过滤所述短消息；

当所述短消息的类别为正常消息时，对所述短消息进行文本指纹提取，得到对应于所述短消息的指纹信息；根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时，利用所述短消息对当前的分类模型进行更新，以利用更新后的分类模型执行下一次的过滤流程。

本发明实施例还公开了一种短消息的过滤设备，包括：

分类模型判断单元，用于利用当前的分类模型对接收到的短消息的类别进行判断，所述短消息的类别包括垃圾消息和正常消息；

垃圾消息过滤单元，用于当所述短消息的类别为垃圾消息时，过滤所述短消息；

指纹分析及参数更新单元，用于当所述短消息的类别为正常消息时，对所述短消息进行文本指纹提取，得到对应于所述短消息基本内容的指纹信息；根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时，利用所述短消息对当前的分类模型进行更新，以利用更新后的分类模型执行下一次的过滤流程。

由上所述，本发明实施例的技术方案，通过文本指纹分析提取反映短消息基本内容的指纹信息，能够不断截获各种新型的垃圾消息和已有垃圾消息的变形；并且，将新增的垃圾消息作为训练数据增量对分类模型进行训练，对所采用的分类模型进行实时动态的更新，能够不断提高分类模型分类的准确率和精度。本发明实施例的技术方案不但能够灵活应对不断变化的垃圾消息，提高了过滤准确率，且无需为分类模型额外构建训练语料库，降低了成本。实验证明，本发明实施例的技术方案对垃圾消息的过滤具有很好的效果，垃圾消息的过滤准确率达到99.11％，算法复杂度也较低，满足了实际的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种短消息的过滤方法流程示意图；

图2(a)为一般贝叶斯模型的结构示意图；

图2(b)为本发明实施例采用的朴素贝叶斯模型的结构示意图；

图3为本发明实施例二提供的一种文本指纹分析方法流程示意图；

图4为本发明实施例三提供的一种短消息的过滤设备结构示意图。

具体实施方式

下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例一提供了一种短消息的过滤方法，参见图1，所述方法包括：

11：利用当前的分类模型对接收到的短消息的类别进行判断，所述短消息的类别包括垃圾消息和正常消息；

12：当所述短消息的类别为垃圾消息时，过滤所述短消息；

13：当所述短消息的类别为正常消息时，对所述短消息进行文本指纹提取，得到对应于所述短消息基本内容的指纹信息；根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时，利用所述短消息对当前的分类模型进行更新，以利用更新后的分类模型执行下一次的过滤流程。

进一步的，上述分类模型可以采用朴素贝叶斯模型，并且由于朴素贝叶斯模型只是一种理论上比较完美的模型，为了使该分类模型适用于实际的环境，本发明实施例还采用了为该分类模型中取值为零的参数重新赋值的“平滑”处理，忽略单字词对短消息分类的影响以及通过短消息中字符串与类别的似然值的差值是否超过一定阈值来判断该短消息是否为垃圾消息的规则判断法。

下面对本发明实施例二提供的短消息的过滤方法进行说明。

11：利用当前的分类模型对接收到的短消息的类别进行判断，所述短消息的类别包括垃圾消息和正常消息。

在本发明实施例中，仅以短消息的类别包括垃圾消息(不正常消息)和正常消息两种类别为例进行说明，可以理解，对于需要细化短消息类别的场景，如将短消息的类别进一步细化为包括垃圾消息、正常消息、广告消息和获奖消息等，同样适用于本发明实施例的技术方案。

本发明实施例采用的分类模型为朴素贝叶斯模型，为了更加清楚地说明本发明实施例的技术方案，下面对贝叶斯模型的一些相关技术特征进行说明。

假设短消息x可以分为m个类别，则定义消息类别集合C＝{c₁，K，c_m}，m之2。

给定短消息x，判定其所属的最优消息类别

可以表示为：

\hat{c} = \underset{c_{k} &Element; C}{\arg \max} p (c_{k} | x)

1≤k≤m

p (c_{k} | x) = \frac{p (x | c_{k}) p (c_{k})}{p (x)}

1≤k≤m

p (x) = Σ_{k = 1}^{m} p (x | c_{k}) p (c_{k})

p(c_k)表示类别c_k的先验概率。

p(x|c_k)表示给定类别c_k的情况下短消息x的条件概率。

p(x)表示归一化因子，以保证p(x|c_k)p(c_k)的值为0与1之间的实数。

上述为通用的一般贝叶斯模型，然而，短消息由字符串组成，字符串与字符串之间存在的语义联系，采用一般贝叶斯模型进行分类时对这种内在的语义联系进行建模极为困难，计算复杂度也极高。

为了降低分类模型的复杂度，可以认为词语之间没有联系，相互独立，即采用朴素贝叶斯模型。参见图2(a)和图2(b)，分别显示了一般贝叶斯模型和朴素贝叶斯模型的结构示意图，其中，c表示类别，w表示字符串。

对于朴素贝叶斯模型，若消息x由n个相互独立的字符串组成，则可将短消息x定义为n维特征向量的形式：x＝{w₁，K，w_n}，其中w_j是短消息x的第j个字符串，则有：

p (x | c_{k}) = Π_{j = 1}^{n} p (w_{j} | c_{k})

通过把消息分割为相互独立的字符串，则所判定的短消息x所属的类别

表示为：

\hat{c} = \underset{c_{k} &Element; C}{\arg \max} p (c_{k} | x)

= \underset{c_{k} &Element; C}{\arg \max} \frac{p (x | c_{k}) p (c_{k})}{Σ_{k = 1}^{m} p (x | c_{k}) p (c_{k})}

= \underset{c_{k} &Element; C}{\arg \max} \frac{Π_{j = 1}^{n} p (w_{j} | c_{k}) p (c_{k})}{Σ_{k = 1}^{m} Π_{j = 1}^{n} p (w_{j} | c_{k}) p (c_{k})}

在上述模型中，比较重要的参数包括先验概率值p(c_k)和似然值p(w_j|c_k)。

其中，给定类别c_k，上述先验概率的计算公式如下：

p (c_{k}) = \frac{count (c_{k})}{\underset{j}{Σ} count (c_{j})}

count(c_k)表示c_k出现的次数。

给定词语w_j和类别c_k，上述似然值的计算公式表示如下：

p (w_{j} | c_{k}) = \frac{count (w_{j}, c_{k})}{count (c_{k})}

count(w_j，c_k)表示w_j和类别c_k的共现次数。

为了提高计算效率，对所有概率均取对数，把概率乘法变为概率对数的加法，加快计算速度。另外，由于所有p(x|c_k)p(c_k)都必须除以p(x)，而最终结果是求最优的

与具体数值的大小无关，因此可以忽略分母p(x)，以降低计算的复杂度，则所采用的朴素贝叶斯模型的计算公式可以表示如下：

\hat{c} = \underset{c_{k} &Element; C}{\arg \max} p (c_{k} | x)

= \underset{c_{k} &Element; C}{\arg \max} p (x | c_{k}) p (c_{k})

= \underset{c_{k} &Element; C}{\arg \max} Σ_{j = 1}^{n} logp (w_{j} | c_{k}) + \log p (c_{k})

其中，

表示判定的短消息x的类别，参数p(w_j|c_k)表示给定第k类别c_k的情况下短消息x中第j字符串w_j的似然值，参数p(c_k)表示类别c_k的先验概率，k、j为序号；

由于朴素贝叶斯模型只是一种理论上比较完美的模型，直接采用该分类模型虽然会降低计算的复杂度，但对垃圾短信的过滤效果不够理想。

为了使该分类模型适用于实际的环境，本发明实施例还采用了为该分类模型中取值为零的参数重新赋值的“平滑”处理，忽略单字词对短消息分类的影响以及通过短消息中字符串与类别的似然值的差值是否超过一定阈值来判断该短消息是否为垃圾消息的规则判断法。下面分别对这三种改进处理进行说明。

一、平滑处理。

在上述计算公式中，参数p(w_j|c_k)容易出现为0的情况，即表示词语w_j和类别c_k没有共同出现过。这样就在分类的计算过程中，出现了一种类似“断点”的情况，导致计算的结果误差较大。然而，实际上造成这种现象的主要原因是用于训练分类模型的短消息数据不足，而不一定是词语w_j和类别c_k没有共同出现过。所以，为了更加符合客观实际情况，在本发明实施例中里，当所述参数p(w_j|c_k)的取值为零时，为所述参数p(w_j|c_k)赋予预定的正数值，以对该参数进行平滑处理，在此，选取0.1作为该预定的正数值。实验证明，平滑处理后的分类模型的过滤准确率有了明显的改善。

二、忽略单字的字符串。

根据一般的语言规律，单字词对短消息的分类所起的作用比较有限。这些词往往是虚词、连词、感叹词和未出现过的词的片段等等。在本方法里，所有单字词均不参与消息分类的判断。通过这种处理在不影响分类效果的前提下，降低了计算的复杂度。

三、规则判断法。

在短消息中有一部分词语与某个类别的关系非常紧密，这些词语往往是敏感词。在有些消息中，由于消息内容整体上并不敏感，所以采用分类模型进行判断时，判断的结果为正常消息。

但是，由于短消息中含有敏感词，这些消息应该被判断为垃圾消息。为了解决分类模型的这种缺陷，在本发明实施例中，通过词语与类别的似然值的差值是否超过一定的阈值来判断消息是否为垃圾消息。

可以计算出短消息中划分出的每个字符串与每个类别之间的似然值，然而，若一个字符串一般仅仅在一个类别中出现时，则该字符串与该类别的似然值会较大，而该字符串与其他类别的似然值会较小，这样通过部分字符串在不同类别下似然值之间差值可以直接判断短消息的类别，而不用再计算该短消息中其他字符串的似然值。例如，当所述短消息中一个字符串在第一类别下的似然值与该字符串在第二类别下的似然值的差值超过预定阈值时，确定所述短消息为垃圾消息。

12：当所述短消息的类别为垃圾消息时，过滤所述短消息。

根据当前的分类模型判断出接收到的短消息为垃圾消息时，对该短消息进行过滤。

参见图3，显示了本发明实施例提供的一种文本指纹分析方法流程示意图。

31：静态过滤。

对于接收到的短消息，根据预定的过滤信息对该短消息进行静态过滤(或称为简单过滤)，得到第一提取消息。

为了便于清楚描述本发明实施例的技术方案，在发明的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。

上述预定的过滤信息可以包括各种控制字符、全角半角标点符号等等，上述预定的过滤信息也可以包括预定的停用词，停用词包括数字、标点符号和部分极高频的词语。

其中，数字和标点符号可以通过字符内码直接识别，高频词的提取通过词语的idf值体现。

词语的idf值计算公式如下：

{idf}_{t_{i}} = \log \frac{| D |}{| d : t_{i} &Element; d |}

|D|为所有语料库中的文本总数；|d：t_i∈d|为所述语料库中包括所述词语t_i的文本数量；为词语t_i的逆文档频率值。

按idf值从大到小给所有词语排序，通过设置一定的阈值，把idf值超过阈值之上的词语作为停用词。在本发明实施例里，停用词取idf值最高的300个词语。

32：汉语分词。

对经过静态过滤的第一提取消息进行分词，得到第二提取消息，所述第二提取消息中包括至少两个字符串。

可以利用最大匹配和字本位结合的方法来进行分词，以达到速度快、准确率高的效果。

33：动态过滤。

对所述第二提取消息通过词性计算进行动态过滤(或称之为高级过滤)，得到第三提取消息。通过动态过滤步骤过滤短消息分词后的不重要的字符串。

不同词性的字词能够表达不同的内容，对短消息的分类所起的作用也不同。例如，名词和动词往往是文本表达的重点，反映了短消息的基本内容，而副词和形容词往往仅表示名词和动词的属性和状态。这些属性和状态并不影响文本基本内容的表达。

从自动句法分析来看，能够成为句子中心成分的词往往能够影响基本内容的表达，反之，不能成为句子中心成分的词并不会影响基本内容。基于这些分析，本发明实施例

将词性分为包括保留词性和不保留词性的至少两种类别；为各个词性设置相应的权重值，其中，为所述保留词性设置的权重值大于为所述不保留词性设置的权重值。参见下面的表1和表2，显示了本发明实施例提供的一种对词性的权重进行分组的示例。

表1保留词性

名形词	简称略语	用语	名语素
				名词	人名	地名	机构团体
其他专名	处所词	时语素	时间词
				动语素	动词	副动词	名动词

表2不保留词性

数词	标点	语气词	叹词
				形容词	副词	介词	量词
助词	成语	习用语	连词
				区别词	方位词	代词	状态词

对所述第二提取消息中具有多种词性的字符串，利用所述各词性的类别以及相应的权重值计算所述字符串的词性判决量；

根据所述词性判决量去除或者保留所述第二提取消息中的字符串，得到第三提取消息。

34：指纹提取。

按照消息摘要算法第五版(Message Digest Algorithm 5，MD5)计算所述第三提取消息的MD5值。将第三提取消息映射为一固定长度的字符串，例如，映射为32字符的字符串，计算该位串的MD5值，将该MD5值作为所述短消息的指纹信息。

上述指纹信息与短消息的基本内容相对应的，利用该指纹信息为每条短消息赋予唯一的标识以便于消息内容的比较，能够有效地对垃圾消息的变体形式进行识别和过滤。例如，垃圾消息发送者往往会在垃圾消息中加入其它字符形成垃圾消息的变体，以绕过过滤机制。然而文本指纹计算时不考虑短消息中不重要的词语，仅会对与基本内容相关的词语进行指纹计算，所以对垃圾消息以及该垃圾消息的变体所提取的指纹信息是一致的，从而提高了识别垃圾消息的能力和过滤垃圾消息的准确率。

35：指纹比对。

将所述短消息的MD5值与已经收集到的MD5值进行比对，当所述短消息的MD5值所出现的总次数超过预定阈值时，确认需要对所述短消息进行审核。

保存已经处理过的短消息的MD5值，或者，预先收集若干短消息的MD5值并保存，若已保存的MD5值中存在与当前短消息的MD5值相同的MD5值，则将该MD5值出现的总次数加1，如为该MD5值设置累加值，将该累加值的数值加1。

当MD5值出现的总次数超过预定阈值，如500次时，确认需要对相应的短消息进行审核；或者，将所有的MD5值按照出现的总次数从高到低进行排序，对前1000个MD5值所对应的短消息进行审核。

由上所述，进行指纹对比时，主要考虑到垃圾消息的一个显著特点就是群发，所以利用指纹信息来汇聚出现频率较高的短消息，然后对这些出线频率较高的短消息再进行进一步的审核。

36：人工审核。

由于分类模型的判断结果还无法达到全部正确，在此考虑由人工审核作为补充，操作者对出现频率较高的短消息进行审核，通过预定的审核标准判断这些短消息是否为垃圾消息。

当对所述短消息的审核结果为垃圾消息时，利用所述短消息对分类模型的参数进行训练，将训练后的参数反馈到分类模型中，以对所述分类模型进行更新。这种处理方式能够在短消息的处理过程对分类模型进行实时动态的更新，改善了分类模型的性能，提高了对垃圾消息的过滤准确率。

在更新参数时，在一次更新过程中可能无法对所有的参数进行更新，则利用新发现的垃圾消息对部分参数进行训练后，与已有的参数进行合并。在此，主要需要对参数p(w_j|c_k)进行更新。

进一步的，本发明实施例能够利用上述审核后确定为垃圾消息的短消息从大量消息中进行新词语的发现，找出新型的垃圾消息。

本发明实施例三还公开了一种短消息的过滤设备，参见图4，包括：

分类模型判断单元41，用于利用当前的分类模型对接收到的短消息的类别进行判断，所述短消息的类别包括垃圾消息和正常消息；

垃圾消息过滤单元42，用于当所述短消息的类别为垃圾消息时，过滤所述短消息；

指纹分析及参数更新单元43，用于当所述短消息的类别为正常消息时，对所述短消息进行文本指纹提取，得到对应于所述短消息基本内容的指纹信息；根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时，利用所述短消息对当前的分类模型进行更新，以利用更新后的分类模型执行下一次的过滤流程。

进一步的，所述分类模型判断单元41，具体用于利用朴素贝叶斯模型得到所述分类模型，该分类模型通过如下公式对所述短消息的类别进行判断：

\hat{c} = \underset{c_{k} &Element; C}{\arg \max} p (c_{k} | x)

= \underset{c_{k} &Element; C}{\arg \max} p (x | c_{k}) p (c_{k})

= \underset{c_{k} &Element; C}{\arg \max} Σ_{j = 1}^{n} logp (w_{j} | c_{k}) + \log p (c_{k})

其中，

以及，

所述分类模型判断单元41，还用于利用所述朴素贝叶斯模型并结合下述的至少一种方式或其组合，对短消息的类别进行判断：

当所述参数p(w_j|c_k)的取值为零时，为所述参数p(w_j|c_k)赋予预定的正数值，以对该参数进行平滑处理；或者，

当所述字符串w_j为单字的字符串时，不利用所述单字词对所述短消息进行分类判断；或者，

根据所述短消息中部分字符串在不同类别下的似然值之间的差值，对所述短消息的类别进行判断。

本发明设备实施例中各功能模块的具体工作方式可以参见本发明的方法实施例。上述短消息的过滤设备中各功能模块可以由单独的设备实现，也可以集成在一个设备中实现。

本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种短消息的过滤方法，其特征在于，所述方法包括：

当所述短消息的类别为垃圾消息时，过滤所述短消息；

当所述短消息的类别为正常消息时，对所述短消息进行文本指纹提取，得到对应于所述短消息基本内容的指纹信息；根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时，利用所述短消息对当前的分类模型进行更新，以利用更新后的分类模型执行下一次的过滤流程。

2.根据权利要求1所述的方法，其特征在于，所述对所述短消息进行文本指纹提取，得到对应于所述短消息的指纹信息包括：

根据预定的过滤信息对所述短消息进行静态过滤，得到第一提取消息；

对所述第一提取消息进行分词，得到第二提取消息，所述第二提取消息中包括至少两个字符串；

对所述第二提取消息通过词性计算进行动态过滤，得到第三提取消息；

按照消息摘要算法第五版MD5计算所述第三提取消息的MD5值，将该MD5值作为所述短消息的指纹信息。

3.根据权利要求2所述的方法，其特征在于，所述对所述第二提取消息通过词性计算进行动态过滤，得到第三提取消息包括：

将词性分为包括保留词性和不保留词性的至少两种类别；

为各个词性设置相应的权重值，其中，为所述保留词性设置的权重值大于为所述不保留词性设置的权重值；

4.根据权利要求2所述的方法，其特征在于，所述根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息包括：

5.根据权利要求1所述的方法，其特征在于，

利用朴素贝叶斯模型得到所述分类模型，该分类模型通过如下公式对所述短消息的类别进行判断：

\hat{c} = \underset{c_{k} &Element; C}{\arg \max} p (c_{k} | x)

= \underset{c_{k} &Element; C}{\arg \max} p (x | c_{k}) p (c_{k})

= \underset{c_{k} &Element; C}{\arg \max} Σ_{j = 1}^{n} logp (w_{j} | c_{k}) + \log p (c_{k})

其中，

表示短消息x的类别，参数p(w_j|c_k)表示给定第k类别c_k的情况下短消息x中第j字符串w_j的似然值，参数p(c_k)表示类别c_k的先验概率，k、j为序号。

6.根据权利要求5所述的方法，其特征在于，所述利用所述短消息对当前的分类模型进行更新包括：

当对所述短消息的审核结果为垃圾消息时，利用所述短消息对分类模型的参数进行训练，将训练后的参数反馈到分类模型中，以对所述分类模型进行更新，所述参数包括似然值p(w_j|c_k)。

7.根据权利要求5所述的方法，其特征在于，

利用所述朴素贝叶斯模型并结合下述的至少一种方式或其组合，对短消息的类别进行判断：

8.根据权利要求7所述的方法，其特征在于，

当对参数p(w_j|c_k)进行平滑处理时，选取0.1作为所述预定的正数值；以及，

当所述短消息中一个字符串在第一类别下的似然值与该字符串在第二类别下的似然值的差值超过预定阈值时，确定所述短消息为垃圾消息。

9.一种短消息的过滤设备，其特征在于，所述设备包括：

10.根据权利要求9所述的设备，其特征在于，

所述分类模型判断单元，具体用于利用朴素贝叶斯模型得到所述分类模型，该分类模型通过如下公式对所述短消息的类别进行判断：

\hat{c} = \underset{c_{k} &Element; C}{\arg \max} p (c_{k} | x)

= \underset{c_{k} &Element; C}{\arg \max} p (x | c_{k}) p (c_{k})

= \underset{c_{k} &Element; C}{\arg \max} Σ_{j = 1}^{n} logp (w_{j} | c_{k}) + \log p (c_{k})

其中，

以及，

所述分类模型判断单元，还用于利用所述朴素贝叶斯模型并结合下述的至少一种方式或其组合，对短消息的类别进行判断：