CN102065387B

CN102065387B - 一种短信的识别方法和设备

Info

Publication number: CN102065387B
Application number: CN200910222545.6A
Authority: CN
Inventors: 徐蔚然; 王占一; 刘东鑫; 方琦
Original assignee: Huawei Technologies Co Ltd; Beijing University of Posts and Telecommunications
Current assignee: Huawei Technologies Co Ltd; Beijing University of Posts and Telecommunications
Priority date: 2009-11-13
Filing date: 2009-11-13
Publication date: 2013-10-02
Anticipated expiration: 2029-11-13
Also published as: CN102065387A

Abstract

本发明提供一种短信的识别方法和设备。其中方法包括：接收服务器发送的短信和所述短信的概率特征向量；利用所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先验概率得到第一联合分布概率，由所述第二生成概率和垃圾短信先验概率得到第二联合分布概率；判断所述第一联合分布概率大于或等于所述第二联合分布概率时，识别所述短信为正常短信，反之为垃圾短信。一旦终端将正常短信误判为垃圾短信，用户仍可以从垃圾箱中找回该短信，这样降低了垃圾短信识别错误的风险。概率特征向量由服务器计算得到，之后发给终端，因此降低了对终端的计算能力要求。

Description

一种短信的识别方法和设备

技术领域

本发明涉及移动通信技术领域，特别涉及一种短信的识别方法和设备。

背景技术

垃圾短信的识别从技术上考虑，需要解决两个比较核心的问题：

第一个性化：如何使用最少的标注样本来适应用户的个性化需求。

实际研究发现，人们对垃圾的认知并不一致，有些信息对于某些人来说可能是垃圾，而对于另外一些人来说可能是非垃圾。例如，有人将天气预报、财经资讯、新闻通报等类别的手机短信视为垃圾，而另一些人却迫切需要它们。因此，要根据个人需求设计不同的过滤器，这个就是个性化过滤。

第二准确性：信息过滤的首要要求就是准确率要高。而传统的信息过滤方法达到这个目的必须要有足够多的训练样本。

《基于朴素贝叶斯和支持向量机的自适应垃圾短信过滤系统》(计算机应用，2008年3月)。该论文设计一种自适应垃圾短信过滤系统，将朴素贝叶斯的快速统计分类及支持向量机(SVM，Support Vector Machine)的增量训练应用于垃圾短信过滤中，并把分析结果及时反馈给在线过滤子系统，使得系统具有更好的自适应性。其是在特定的时间段内提取短信的特征内容，并将其反馈给在线过滤子系统，增加或更新短信的特征，以达到准确和智能过滤垃圾短信的目的。

该过滤系统是在运营商的短信中心服务器(Server)端对垃圾短信进行过滤。当判断为垃圾短信时，Server端直接将该信息放置到垃圾短信数据库，手机终端将不能收到该信息。

但是，信息是否为垃圾短信，因人而异，因此，一旦信息被判断为垃圾短信，用户将不能接收到这条信息。所以，一旦分类器判断错误，用户将无法挽回损失，这样的短信过滤存在很高的风险。

发明内容

本发明实施例提供一种短信的识别方法和设备，能够准确识别垃圾短信，降低垃圾短信识别错误的风险。

本发明实施例提供一种短信的识别方法，包括：接收服务器发送的短信和所述短信的概率特征向量；利用所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先验概率得到第一联合分布概率，由所述第二生成概率和垃圾短信先验概率得到第二联合分布概率；判断所述第一联合分布概率大于或等于所述第二联合分布概率时，识别所述短信为正常短信，反之为垃圾短信。

本发明实施例还提供另一种短信的识别方法，包括：接收服务器发送的短信和所述短信的概率特征向量；利用所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先验概率得到第一联合分布概率，由所述第二生成概率和垃圾短信先验概率得到第二联合分布概率；利用所述短信的文字特征向量分别计算正常短信模型下所述短信的第三生成概率和垃圾短信模型下所述短信的第四生成概率；由所述第三生成概率和所述正常短信先验概率得到第三联合分布概率；由所述第四生成概率和所述垃圾短信先验概率得到第四联合分布概率；判断所述第一联合分布概率和第三联合分布概率的第一加权值大于或等于所述第二联合分布概率和第四联合分布概率的第二加权值时，识别所述短信为垃圾短信，反之为正常短信。

本发明实施例还提供一种短信的识别设备，包括：接收单元，用于接收服务器发送的短信和所述短信的概率特征向量；第一和第二联合分布概率获得单元，用于根据所述接收单元接收的所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先验概率得到第一联合分布概率，由所述第二生成概率和垃圾短信先验概率得到第二联合分布概率；第一识别单元，用于判断所述第一联合分布概率大于或等于所述第二联合分布概率时，识别所述短信为正常短信，反之为垃圾短信。

本发明实施例还提供另一种短信的识别设备，包括：接收单元，用于接收服务器发送的短信和所述短信的概率特征向量；第一和第二联合分布概率获得单元，用于根据所述接收单元接收的所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先验概率得到第一联合分布概率，由所述第二生成概率和垃圾短信先验概率得到第二联合分布概率；第三和第四联合分布概率获得单元，用于利用所述短信的文字特征向量分别计算正常短信模型下所述短信的第三生成概率和垃圾短信模型下所述短信的第四生成概率；由所述第三生成概率和所述正常短信先验概率得到第三联合分布概率；由所述第四生成概率和所述垃圾短信先验概率得到第四联合分布概率；第二识别单元，用于判断所述第一联合分布概率和第三联合分布概率的第一加权值大于或等于所述第二联合分布概率和第四联合分布概率的第二加权值时，识别所述短信为垃圾短信，反之为正常短信。

以上技术方案，服务器将短信和短信的概率特征向量均发给终端，终端根据短信的概率特征向量或根据概率特征向量和短信的文字特征向量的组合进行计算，从而判断出该短信是否为垃圾短信。该方案是由服务器和终端联合判断，因此判断精度更高。服务器将短信和概率特征向量或概率特征向量和文字特征向量均发送给终端，因此，一旦终端将正常短信误判为垃圾短信，用户仍可以从垃圾箱中找回该短信，这样更进一步降低了垃圾短信识别错误的风险。同时，概率特征向量由服务器计算得到，之后发给终端，因此降低了对终端的计算能力要求。

附图说明

图1是本发明短信识别方法实施例一流程图；

图2是本发明短信识别方法实施例二流程图；

图3是本发明短信识别方法实施例三流程图；

图4是本发明短信识别方法实施例四流程图；

图5是本发明短信识别方法与现有技术的对比曲线图；

图6是本发明短信识别设备实施例一结构图；

图7是本发明短信识别设备实施例二结构图；

图8是本发明短信识别设备实施例三结构图；

图9是本发明短信识别设备实施例四结构图；

图10是本发明短信识别系统实施例一结构图。

具体实施方式

首先对本发明实施例一种短信的识别方法进行说明，包括：

接收服务器发送的短信和所述短信的概率特征向量；利用所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先验概率得到第一联合分布概率，由所述第二生成概率和垃圾短信先验概率得到第二联合分布概率；判断所述第一联合分布概率大于或等于所述第二联合分布概率时，识别所述短信为正常短信，反之为垃圾短信。

需要说明的是，为了叙述方便，下面实施例中的终端以手机为例进行介绍。

方法实施例一：

参见图1，该图为本发明方法实施例一流程图。

S101：手机接收服务器发送的短信和所述短信的概率特征向量。

短信的概率特征向量是由服务器计算得到的，为了使本领域技术人员更好地理解和实施本发明，下面详细介绍概率特征向量的计算方法。

首先介绍服务器端预先进行的训练过程。

由已标注的短信集统计各类别的原始短信模型。

原始短信模型是指一种类别短信在词特征空间的词频分布向量，用(N_k(t₁)，...，N_k(t_i)，...，N_k(t_n))，0≤i≤n.表示。其中n是指一个词表中所有词的个数，k为第k类别。N_k(t_i)是指词频，即词出现的次数。

一条训练短信可以表示为：((t′₁，...，t′_i，...，t′_m)，C_k).，其中t′_i是短信中第i个词，C_k是指该短信实际属于第k类别，m是指短信中词的个数。

当一条训练短信来临时，首先提取出其实属类别C_k，然后找到类别k的原始短信模型(N_k(t₁)，...，N_k(t_i)，...，N_k(t_n))，0≤i≤n.

对该训练短信的每个词t′_i，原始短信模型中对应的词频特征N_k(t′_i)加1。

短信模型是指(P(t₁|C_k)，...，P(t_i|C_k)，...，P(t_n|C_k))，0≤i≤n.，由已经得到各类别的原始短信模型(N_k(t₁)，...，N_k(t_i)，...，N_k(t_n))，0≤i≤n.对每个词特征按照公式(1)进行计算：

P (t_{i} {| C}_{k}) = \frac{N_{k} (t_{i}) + 1}{Σ_{i = 1}^{n} N_{k} (t_{i}) + n} - - - (1)

其中，∑表示连加。

则可以得到各类别的短信模型(P(t₁|C_k)，...，P(t_i|C_k)，...，P(t_n|C_k))，0≤i≤n.

为了更好地理解服务器的训练过程，下面结合具体例子进行说明。各类别短信模型共享一个词表，如：{周末、商场、促销、活动、计算机、通信、学校、培训、学习、作业}。统计原始短信模型，即上述词表中的各个词在某一类别短信中的词频分布向量，如词表{周末、商场、促销、活动、计算机、通信、学校、培训、学习、作业}在生活类中的词频分布向量是：{10、12、8、9、3、0、4、2、2、0}，生活类中所有词的出现总次数是50，词的个数n是10。例如，10表示“周末”在生活类短信训练样本中出现的次数是10，即“周末”的词频是10。

由公式(1)得到各个类别的短信模型，现在以生活类为例，计算“周末”的短信模型：

其中

Σ_{i = 1}^{n} N_{k} (t_{i}) = 10 + 12 + 8 + 9 + 3 + 0 + 4 + 2 + 2 + 0 = 50;

n＝10，N_k(t_i)＝10。

下面介绍概率特征向量的计算方法。

服务器接收到用户的短信用d＝(t′₁，...，t′_i，...，t′_m)表示。

由每个类别C_k的短信模型计算短信d的生成概率，

P (C_{k} | d) &Proportional; P (d | C_{k}) P (C_{k}) = P (C_{k}) Π_{j = 1}^{m} P (t_{1}^{'} | C_{k}) .

由于P(C_k|d)正比于P(d|C_k)P(C_k)，因此，P(C_k|d)可以直接利用

P (C_{k}) Π_{j = 1}^{m} P (t_{1}^{'} | C_{k})

来计算，即

P (C_{k} | d) = P (C_{k}) Π_{j = 1}^{m} P (t_{1}^{'} | C_{k}) .

其中，∏表示连乘。

P(C_k)是预先统计已知的，是指各类别短信的概率。例如预先将短信分为生活类、工作类和社会类等等。

把各类别下短信d的生成概率合并成一个概率向量(P(C₁|d)，P(C₂|d)，...，P(C_k|d))作为短信d的概率特征向量。

服务器将短信d和短信d的概率特征向量(P(C₁|d)，P(C₂|d)，...，P(C_k|d))发送至手机。

S102：手机利用所述概率特征向量(P(C₁|d)，P(C₂|d)，...，P(C_k|d))分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先验概率得到第一联合分布概率，由所述第二生成概率和垃圾短信先验概率得到第二联合分布概率。

首先分别计算正常短信模型下和垃圾短信模型下短信d的生成概率：

计算正常短信模型下短信d的第一生成概率P(d|正常短信)；

计算垃圾短信模型下短信d的第二生成概率P(d|垃圾短信)。

下面详细介绍怎样由概率特征向量计算得到第一生成概率和第二生成概率。为了叙述方便，假设将短信分为5个类别，即k＝5，那么用a＝(a1，a2，...，a5)表示概率特征向量(P(C₁|d)，P(C₂|d)，P(C₃|d)，P(C₄|d)，P(C₅|d))，即a₁＝P(C₁|d)，a₂＝P(C₂|d)，...，a₅＝P(C₅|d)。

下面来介绍如何由a_i计算P(a_i|正常短信)(i＝1、2、3、4、5)。

利用有标签的训练样本，得到概率特征向量(a1，a2，...，a5)在训练样本中的出现次数统计，通过频率统计可计算出概率化值。为避免直接估计概率密度函数(很难估计准确)，把每个特征(如a1，a2，...，a5)离散化为若干分段区间。这样，P(a_i|正常短信)概率值的物理意义可解释为：a_i取值处于某个分段区间的概率。如下表1所示。

表1正常短信中，a1的统计值及概率化值

例如，如果训练样本中a1处在(0.4，0.5]范围内的样本有5个，训练样本总数有14个，则P(a1|正常短信)(0.4＜a1＜＝0.5)的概率就等于(5+1)/(14+10)＝0.25.具体的公式在表1中。例2：如果训练样本中a1处在(0.2，0.3]范围内的样本有1个，训练样本总数有14个，则P(a1|正常短信)(0.2＜a1＜＝0.3)的概率就等于(1+1)/(14+10)＝0.083。

同理，可以计算出第二生成概率。

然后由正常短信先验概率P(正常短信)和垃圾短信先验概率P(垃圾短信)计算第一联合分布概率P(d，正常短信)和第二联合分布概率P(d，垃圾短信)：

P(d，正常短信)＝P(d|正常短信)*P(正常短信)；

P(d，垃圾短信)＝P(d|垃圾短信)*P(垃圾短信)。

需要说明的是，正常短信先验概率和垃圾短信先验概率是预先经过统计已知的，例如：P(正常短信)＝P(垃圾短信)＝0.5。

S103：判断所述第一联合分布概率大于或等于所述第二联合分布概率时，识别所述短信为正常短信，反之为垃圾短信。

如果P(d，正常短信)≥P(d，垃圾短信)，则判断该短信为正常短信，反之则为垃圾短信。

为了更好地理解本发明的技术方案，下面结合具体实施例来介绍。

假设服务器接收的用户的短信为：d＝(本周末，华联商场将举行XX大促销活动)。

在服务器端已经计算出短信d对应的概率特征向量为：(0.4，......，0.2)。

经过统计计算出P(d|正常短信)＝0.1，P(d|垃圾短信)＝0.4。

正常短信先验概率P(正常短信)和垃圾短信先验概率P(垃圾短信)均是0.5。

下面计算联合分布概率：

P(d，正常短信)＝P(d|正常短信)*P(正常短信)＝0.1*0.5＝0.05；

P(d，垃圾短信)＝P(d|垃圾短信)*P(垃圾短信)＝0.4*0.5＝0.2。

因为P(d，垃圾短信)＞P(d，正常短信)，所以，手机会判断该条短信为垃圾短信。

需要说明的是，以上方法第一实施例是所有手机终端均可以使用的，对手机的计算能力要求较低。

以上实施例提供的短信的识别方法是由服务器和手机终端联合判断，因此判断精度更高。概率特征向量是由服务器计算得到的，因此降低了对手机终端的计算能力要求。服务器将短信和概率特征向量均发送给手机终端，因此，一旦将正常短信误判为垃圾短信，用户仍可以从手机的垃圾箱中找回短信，这样降低了垃圾短信识别错误的风险。

方法实施例二：

参见图2，该图为本发明方法实施例二流程图。

该实施例与方法实施例一的区别是增加了用户与手机的互动，通过用户的反馈来更新短信模型。

S201-S203与方法实施例一中的S101-S103相同，在此不再赘述。

S204：手机将短信的识别结果，即所述短信为正常短信或垃圾短信，呈现给用户。

例如：手机的显示屏上将显示“收到垃圾短信”或“收到正常短信”的提示。

S205：手机接收用户根据所述识别结果反馈的判断结果，所述判断结果为所述短信为正常短信或垃圾短信，并根据所述判断结果更新正常短信模型或垃圾短信模型。即，用户的判断结果为所述短信为正常短信时，对短信中出现的词在正常短信模型中对应的词频统计值加1，或当用户的判断结果为所述短信为垃圾短信时，对短信中出现的词在垃圾短信模型中对应的词频统计值加1。

例如，当用户看完短息后，判断该短信对于自己来说是正常短信，是自己所需要的，则通过手机的键盘或显示屏输入“正常短信”。

手机接收到该反馈以后，若该反馈短信为正常短信时，对短信中出现的词在正常短信模型中对应的词频统计值加1，更新正常短信模型。若该反馈短信为垃圾短信时，对短信中出现的词在垃圾短信模型中对应的词频统计值加1，更新垃圾短信模型。

例如，对于上述实施例中的“周末”对应的词频10再加1，“周末”的词频改为11。

由于短信是否是垃圾短信或正常短信，因用户而异，有的用户可能需要这类短信，则对于这种用户就是正常短信，而有的用户觉得这是垃圾短信。因此，手机需要根据自己的用户的不同来调整手机的参数，这样可以使垃圾短信的识别更加准确。这也区别于现有技术，避免了仅由服务器来决定是否是垃圾短信所存在的片面判断。

下面介绍两个方法实施例是当手机终端的计算能力较高时，垃圾短信的识别方法。与前述两个方法实施例的区别是在手机端采用四个联合分布概率的加权来识别垃圾短息。

方法实施例三：

参见图3，该图为本发明方法实施例三流程图。

S301：手机接收服务器发送的短信和所述短信的概率特征向量。

S302：手机利用所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先验概率得到第一联合分布概率，由所述第二生成概率和垃圾短信先验概率得到第二联合分布概率。

S301与S302与方法实施例一的S101和S102相同，在此不再详细说明。

S303：手机利用所述短信的文字特征向量分别计算正常短信模型下所述短信的第三生成概率和垃圾短信模型下所述短信的第四生成概率；由所述第三生成概率和所述正常短信先验概率得到第三联合分布概率；由所述第四生成概率和所述垃圾短信先验概率得到第四联合分布概率。

下面介绍由短信的文字特征向量计算正常短信模型下和垃圾短信模型下短信d的生成概率：

计算正常短信模型下短信d的第三生成概率P′(d|正常短信)；

计算垃圾短信模型下短信d的第四生成概率P′(d|垃圾短信)。

与方法实施例一不同的是，方法实施例一是计算短信在各个类别短信中的生成概率，而本实施例是计算短信在垃圾短信和正常短信两个类别中的生成概率，本实施例中可以用C_spam和C_ham分别表示垃圾短信类别和正常短信类别。

假设短信中的文字特征向量为T＝{t₁，t₂，t₃，……，t_n}。例如，T＝{周末、商场、促销、活动、计算机、通信、学校、培训、学习、作业}，t₁，t₂，t₃，……，t_n分别对应周末、商场、促销...........和作业。

P (t_{i} | C_{k}) = \frac{N_{k} (t_{i}) + 1}{Σ_{i = 1}^{n} N_{k} (t_{i}) + n},

公式(2)，C_k表示短信类别，N_k(t_i)表示短信中出现的词t_i出现的次数，即词频；n表示短信中词的总个数。

如果训练样本中，垃圾短信中词频分布向量是：{18、14、10、12、6、10、6、4、5、5}，对应的词表是{周末、商场、促销、活动、计算机、通信、学校、培训、学习、作业}。垃圾短信中所有词的出现总次数是：18+14+10+12+6+10+6+4+5+5＝90，词的个数n是10。

则，P(周末|垃圾短信)的概率估计值是：

公式(3)

公式(4)

按照计算第一联合分布概率和第二联合分布概率相同的方法，由文字特征向量计算第三联合分布概率P′(d，正常短信)和第四联合分布概率P′(d，垃圾短信)。

S304：手机判断所述第一联合分布概率和第三联合分布概率的第一加权值大于或等于所述第二联合分布概率和第四联合分布概率的第二加权值时，识别所述短信为垃圾短信，反之为正常短信。

以α表示加权系数，则第一加权值P1(d，正常短信)和第二加权值P2(d，垃圾短信)的计算分别为：

P1(d，正常短信)＝α*P(d，正常短信)+(1-α)P′(d，正常短信)；

P2(d，垃圾短信)＝α*P(d，垃圾短信)+(1-α)P′(d，垃圾短信)。

如果P1(d，正常短信)≥P2(d，垃圾短信)，则说明该短信为正常短信，反之为垃圾短信。

加权系数α的取值可以参考如下规则：

当0≤反馈样本数＜3000时，α＝0.9；

当3000≤反馈样本数＜6000时，α＝0.7；

当6000≤反馈样本数＜9000时，α＝0.5；

当9000≤反馈样本数＜15000时，α＝0.2；

当反馈样本数≥15000时，α＝1。

“反馈样本数”是指用户对短信的识别结果的反馈数。

例如，用户反馈对短信的反馈样本数为2000，则此时取α为0.9。

现在还以实施例一中的第一联合分布概率和第二联合分布概率的数值来计算，P(d，正常短信)＝0.05；P(d，垃圾短信)＝0.2。

基于文字特征向量计算出来的第三联合分布概率和第四联合分布概率分别为：P′(d，正常短信)＝0.4；P′(d，垃圾短信)＝0.3。

因此，考虑短信的概率特征向量和文字特征向量时，结果如下：

P1(d，正常短信)＝α*P(d，正常短信)+(1-α)P′(d，正常短信)＝0.9*0.05+0.1*0.4＝0.085；

P2(d，垃圾短信)＝α*P(d，垃圾短信)+(1-α)P′(d，垃圾短信)＝0.9*0.2+0.1*0.3＝0.21。

由此可得：P2(d，垃圾短信)＞P1(d，正常短信)，因此，识别该短信为垃圾短信。

方法实施例三提高了对手机的计算能力的要求，需要手机综合概率特征向量和文字特征向量进行分析计算，识别垃圾信息。该方法可以在尽可能少的样本数的情况下达到较高的识别精度，经过统计，当样本数为1万条短信时，识别精度可以达到98％。

需要说明的是，方法实施例三也可以像方法实施例二那样将短信识别结果呈现给用户，接收用户针对识别结果所反馈的判断结果，并根据所述判断结果对正常短息模型或垃圾短信模型进行更新。具体过程可以参考实施例二的相关描述，在此不再赘述。

为了本领域人员更好地实施本发明，下面完整介绍垃圾短信识别的整个过程。

方法实施例四：

参见图4，该图为本发明方法实施例四流程图。

该实施例以两个手机终端为例，其中移动终端1(MS1，Mobile Station)代表发送端手机，MS2代表接收端手机，即MS 1向MS2发送短信。

S401：MS1将短信发送至短息服务中心(SMSC，Short Message ServiceCenter)。

S402：SMSC将短信和短信分类请求发送至短消息分类服务器端(SCServer，Short message Classification Server)。SCServer位于短信识别系统Server端。

需要说明的是，SCServer和SMSC可以集成在一起，也可以分开部署。

S403：SCServer将短信的概率特征向量返回至SMSC。

S404：SMSC将短信的概率特征向量和短信发送至MS2。

S405：MS2将短信的概率特征向量和短信转发至短消息分类客户端(SCClient，Short message Classification Client)。SCClient位于短信识别系统Client端，完成垃圾短息过滤功能。

需要说明的是，SCClient和MS2可以集成在一起，也可以分开部署。

S406：SCClient利用所述概率特征向量或概率特征向量与文字特征向量的组合进行短信识别，将识别结果返回MS2。

S407：MS2呈现识别结果。

需要说明的是，以上信令交互仅涉及本发明对短信识别增加的交互消息，对完整短信交互流程中的鉴权等消息予以省略，并不代表本发明不需要那些关键交互过程。

下面结合图5说明本发明实施例技术方案相对于现有技术的优点。

图5中横坐标代表训练样本数，纵坐标代表识别错误率。

曲线A代表应用传统的朴素贝叶斯识别短信，曲线B代表应用本发明实施例的方案识别短信。

从图中分析可得：

本发明实施例提供的垃圾短信的识别方法，在100条短信样本时，识别错误率达到了7％以下，效果明显好于传统的朴素贝叶斯方法。

下面是几组参数的对比：

1)、本发明：在完成第50条短信的训练时，分类错误率为：10.000000％；

2)、基于朴素贝叶斯的文本分类方法：在完成第50条短信的训练时，分类错误率为：28.000000％；而在错误率同为10％的条件下，本发明只需要50条短信样本，传统的方法需要2043条短信样本。

综上分析，可以清楚地看出，基于本发明实施例提供的垃圾短信识别方法可以在相对较少的短信样本下具有较高的识别正确率。

本发明实施例还提供一种垃圾短信的识别设备。

设备实施例一：

参见图6，该图为本发明设备实施例一结构图。

本实施例提供的垃圾短信识别设备，包括：

接收单元601，用于接收服务器发送的短信和所述短信的概率特征向量。

概率特征向量是服务器根据预先的短息类别和正常短信模型及垃圾短信模型计算出来的。

第一和第二联合分布概率获得单元602，用于根据所述接收单元601接收的所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先验概率得到第一联合分布概率，由所述第二生成概率和垃圾短信先验概率得到第二联合分布概率。

正常短信先验概率和垃圾短信先验概率是预先已经统计的已知量。

第一识别单元603，用于判断所述第一联合分布概率大于或等于所述第二联合分布概率时，识别所述短信为正常短信，反之为垃圾短信。

该实施例提供的垃圾短信的识别设备可以根据短信的概率特征向量识别短信是正常短信，还是垃圾短信。该设备可以利用较少的短信样本，达到较高的识别精度。由于该设备将接收短信和短信的概率特征向量，因此，一旦识别错误将正常短信识别为垃圾短信时，也可以从垃圾箱查看短信，从而降低识别错误的风险。

设备实施例二：

参见图7，该图本发明设备实施例二的结构图。

需要说明的是，所述设备还可以包括：结果呈现单元701和反馈调整单元702。

结果呈现单元701，用于将所述第一识别单元603识别的短信为正常短信或垃圾短信的结果呈现给用户。

所述设备还包括与所述结果呈现单元701连接的反馈调整单元702，用于接收用户反馈所述短信为正常短信时，对短信中出现的词在正常短信模型中对应的词频统计值加1，更新正常短信模型；或，接收用户反馈所述短信为垃圾短信时，对短信中出现的词在垃圾短信模型中对应的词频统计值加1，更新垃圾短信模型。

该设备增加了与用户互动功能，这样可以提高识别的正确率，因为短信是垃圾短信还是正常短信，因用户而异。

需要说明的是，以上两个设备实施例提供的设备的计算能力较低，下面提供的两个实施例提供的设备的计算能力较高，可以更精确地识别短信。

设备实施例三：

参见图8，该图为本发明设备实施例三结构图。

本实施例提供的垃圾短信识别设备，包括：

接收单元801，用于接收服务器发送的短信和所述短信的概率特征向量；

第一和第二联合分布概率获得单元802，用于根据所述接收单元801接收的所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先验概率得到第一联合分布概率，由所述第二生成概率和垃圾短信先验概率得到第二联合分布概率；

第三和第四联合分布概率获得单元803，用于利用所述短信的文字特征向量分别计算正常短信模型下所述短信的第三生成概率和垃圾短信模型下所述短信的第四生成概率；由所述第三生成概率和所述正常短信先验概率得到第三联合分布概率；由所述第四生成概率和所述垃圾短信先验概率得到第四联合分布概率；

第二识别单元804，用于判断所述第一联合分布概率和第三联合分布概率的第一加权值大于或等于所述第二联合分布概率和第四联合分布概率的第二加权值时，识别所述短信为垃圾短信，反之为正常短信。

该设备实施例与设备实施例一的区别是，增加了对第三联合分布概率和第四联合分布概率的计算，并且识别单元的功能也有所改变，综合第三联合分布概率和第四联合分布概率进行识别。

设备实施例四：

参见图9，该图为，本发明设备实施例四结构图。

需要说明的是，本实施例是对设备实施例三进行的改进，增加了结果呈现单元901和反馈调整单元902。

结果呈现单元901，用于将所述第二识别单元804识别的短信为正常短信或垃圾短信的结果呈现给用户。

所述设备还包括与所述结果呈现单元901连接的反馈调整单元902，用于接收用户根据所述识别结果反馈的判断结果，当所述判断结果为所述短信为正常短信时，对短信中出现的词在正常短信模型中对应的词频统计值加1，更新正常短信模型；或，当用户反馈的判断结果为所述短信为垃圾短信时，对短信中出现的词在垃圾短信模型中对应的词频统计值加1，更新垃圾短信模型。

本发明还提供一种垃圾短信的识别系统。

系统实施例一：

参见图10，该图本发明系统实施例一结构图。

包括服务器1001和终端1002。

所述服务器1001，用于将短信和所述短信的概率特征向量发送至终端1002。

所述服务器1001还用于预先通过训练得到各类别的短信模型，由所述各类别的短信模型计算所述短信在各类别下的生成概率的集合，得到所述短信的概率特征向量。

所述终端1002，用于利用所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先验概率得到第一联合分布概率，由所述第二生成概率和垃圾短信先验概率得到第二联合分布概率；判断所述第一联合分布概率大于或等于所述第二联合分布概率时，识别所述短信为正常短信，反之为垃圾短信。

需要说明的是，所述终端可以为手机等移动终端。

所述终端1002还用于将所述短信为正常短信或垃圾短信的识别结果呈现给用户。

所述终端1002还用于接收用户根据所述识别结果反馈的判断结果，其中，所述判断结果为所述短信为正常短信时，对短信中出现的词在正常短信模型中对应的词频统计值加1，更新正常短信模型；或，接收用户反馈所述短信为垃圾短信时，对短信中出现的词在垃圾短信模型中对应的词频统计值加1，更新垃圾短信模型。

需要说明的是，系统实施例一对终端的计算能力要求相对系统实施例二要低一些。

下面介绍一种垃圾短信识别系统，对终端的计算能力要求较高。

系统实施例二：

该实施例与系统实施例一的区别是终端有所改进，服务器的功能不变，还是用于将短信和所述短信的概率特征向量发送至终端。

所述终端，用于根据所述接收单元接收的所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先验概率得到第一联合分布概率，由所述第二生成概率和垃圾短信先验概率得到第二联合分布概率；利用所述短信的文字特征向量分别计算正常短信模型下所述短信的第三生成概率和垃圾短信模型下所述短信的第四生成概率；由所述第三生成概率和所述正常短信先验概率得到第三联合分布概率；由所述第四生成概率和所述垃圾短信先验概率得到第四联合分布概率；判断所述第一联合分布概率和第三联合分布概率的第一加权值大于或等于所述第二联合分布概率和第四联合分布概率的第二加权值时，识别所述短信为垃圾短信，反之为正常短信。

所述终端还用于将所述短信为正常短信或垃圾短信的结果呈现给用户。

所述终端还用于接收用户根据所述识别结果反馈的判断结果，当所述判断结果为所述短信为正常短信时，对短信中出现的词在正常短信模型中对应的词频统计值加1，更新正常短信模型；或，当用户反馈的判断结果为所述短信为垃圾短信时，对短信中出现的词在垃圾短信模型中对应的词频统计值加1，更新垃圾短信模型。

本发明实施例提供的系统可以在较少短信样本的情况下，能够以较高的识别精度将短信识别出来。与现有技术的另一个区别点是服务器将短信也一并发送至终端，不管终端将短信识别为垃圾短信还是正常短信，均可以收到该短信，只是存放的位置有所改变，一旦服务器识别错误，用户仍可以从垃圾箱读取短信，这样，降低了识别错误的风险。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可以包括前述的通信方法各个实施方式的内容。这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

综上所述，本发明实施例所提供的一种短信的识别方法，服务器将短信和短信的概率特征向量均发给终端，终端根据短信的概率特征向量或根据概率特征向量和短信的文字特征向量的组合判断短信是否为垃圾短信。该方案是由服务器和终端联合判断，因此判断精度更高。服务器将短信和概率特征向量均发送给终端，因此，一旦终端将正常短信误判为垃圾短信，用户仍可以从垃圾箱中找回该短信，这样降低了垃圾短信识别错误的风险。同时，概率特征向量由服务器计算得到，之后发给终端，因此降低了对终端的计算能力要求。

本发明的各个装置和系统实施例中所提供各个单元之间的交互及相关信息的处理均可以参考前述各个方法实施例提供的相关流程，具体功能和处理流程请参见前述各个实施例的相关描述，此处不再赘述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种短信识别方法，其特征在于，包括以下步骤：

接收服务器发送的短信和所述短信的概率特征向量；

利用所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先验概率得到第一联合分布概率，由所述第二生成概率和垃圾短信先验概率得到第二联合分布概率；

判断所述第一联合分布概率大于或等于所述第二联合分布概率时，识别所述短信为正常短信，反之为垃圾短信；

所述第一生成概率P(a|正常短信)的计算具体为：

其中，a=（a1,a2,…,ak）=(P(C₁|d),P(C₂|d),...,P(C_k|d))；

其中N(t_i)表示训练样本中a_i在[0，1]的10个区间的某个区间内的样本数；

所述第二生成概率的计算方法与所述第一生成概率的计算方法相同。

2.根据权利要求1所述的短信识别方法，其特征在于，所述概率特征向量的计算具体为：

根据训练得到的各类别的短信模型计算所述短信在各类别短信下的概率特征向量(P(C₁|d),P(C₂|d),...,P(C_k|d))，其中d表示所述短信，C_k表示短信类别，k表示第k个类别；其中，

P(C_k)是指各类别短信的概率；

是指所述短信的短信模型，N_k(t_i)是指所述短信中的词t_i的词频，n表示所述短信中的词的个数。

3.根据权利要求1所述的短信识别方法，其特征在于，还包括将所述短信的识别结果呈现给用户；

接收用户针对所述识别结果反馈的判断结果，其中，所述判断结果为所述短信为正常短信或垃圾短信；

根据所述用户的反馈更新正常短信模型或垃圾短信模型。

4.一种短信识别方法，其特征在于，包括以下步骤：

接收服务器发送的短信和所述短信的概率特征向量；

利用所述短信的文字特征向量分别计算正常短信模型下所述短信的第三生成概率和垃圾短信模型下所述短信的第四生成概率；由所述第三生成概率和所述正常短信先验概率得到第三联合分布概率；由所述第四生成概率和所述垃圾短信先验概率得到第四联合分布概率；

判断所述第一联合分布概率和第三联合分布概率的第一加权值大于或等于所述第二联合分布概率和第四联合分布概率的第二加权值时，识别所述短信为垃圾短信，反之为正常短信；

所述第一生成概率P(a|正常短信)的计算具体为：

其中，a=（a1,a2,…,ak）=(P(C₁|d),P(C₂|d),...,P(C_k|d))；

所述第二生成概率的计算方法与所述第一生成概率的计算方法相同；利用所述短信的文字特征向量分别计算正常短信模型下所述短信的第三生成概率P′（d|正常短信）和垃圾短信模型下所述短信的第四生成概率P′（d|垃圾短信）

具体为：

其中，

C_k表示短信类别，N_k(t_i)表示短信中出现的词t_i的词频；n表示短信中词的总个数，C_spam和C_ham分别表示垃圾短信类别和正常短信类别。

5.一种短信识别设备，其特征在于，包括：

接收单元，用于接收服务器发送的短信和所述短信的概率特征向量；

第一和第二联合分布概率获得单元，用于根据所述接收单元接收的所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先验概率得到第一联合分布概率，由所述第二生成概率和垃圾短信先验概率得到第二联合分布概率；

第一识别单元，用于判断所述第一联合分布概率大于或等于所述第二联合分布概率时，识别所述短信为正常短信，反之为垃圾短信；

第一和第二联合分布概率获得单元计算第一生成概率P(a|正常短信)具体通过以下公式：

其中，a=（a1,a2,…,ak）=(P(C₁|d),P(C₂|d),...,P(C_k|d))；其中N(t_i)表示训练样本中a_i在[0，1]的10个区间的某个区间内的样本数；

6.根据权利要求5所述的短信识别设备，其特征在于，所述概率特征向量的计算具体为：

根据预先训练得到的各类别的短信模型计算得到的所述短信在各类别下的生成概率的集合(P(C₁|d),P(C₂|d),...,P(C_k|d))，其中d表示所述短信，C_k表示短信类别，k表示第k个类别；其中，P(C_k)是指各类别短信的概率；是指所述短信的短信模型，N_k(t_i)是指所述短信中的词t_i的词频，n表示所述短信中的词的个数。

7.一种短信识别设备，其特征在于，包括：

第三和第四联合分布概率获得单元，用于利用所述短信的文字特征向量分别计算正常短信模型下所述短信的第三生成概率和垃圾短信模型下所述短信的第四生成概率；由所述第三生成概率和所述正常短信先验概率得到第三联合分布概率；由所述第四生成概率和所述垃圾短信先验概率得到第四联合分布概率；

第二识别单元，用于判断所述第一联合分布概率和第三联合分布概率的第一加权值大于或等于所述第二联合分布概率和第四联合分布概率的第二加权值时，识别所述短信为垃圾短信，反之为正常短信；

其中，a=（a1,a2,…,ak）=(P(C₁|d),P(C₂|d),...,P(C_k|d))；

所述第二生成概率的计算方法与所述第一生成概率的计算方法相同

利用所述短信的文字特征向量分别计算正常短信模型下所述短信的第三生成概率P′（d|正常短信）和垃圾短信模型下所述短信的第四生成概率P′（d|垃圾短信）具体为：

其中，

C_k表示短信类别；N_k(t_i)表示短信中出现的词t_i的词频；n表示短信中词的总个数，C_spam和C_ham分别表示垃圾短信类别和正常短信类别。