CN105282720B

CN105282720B - 一种垃圾短信过滤方法及装置

Info

Publication number: CN105282720B
Application number: CN201410352894.0A
Authority: CN
Inventors: 王世君; 陈乐君; 刘建胜; 曾进; 王琨; 李鸫
Original assignee: China Mobile Group Chongqing Co Ltd
Current assignee: China Mobile Group Chongqing Co Ltd
Priority date: 2014-07-23
Filing date: 2014-07-23
Publication date: 2018-12-04
Anticipated expiration: 2034-07-23
Also published as: CN105282720A

Abstract

本发明公开了一种垃圾短信过滤方法，通过N个信度网分类器分别对待处理短信进行第一分类判断，获得N个第一分类结果；根据所述N个第一分类结果对所述N个信度网分类器进行集成，形成集成后的信度网分类器；根据所述集成后的信度网分类器对所述待处理短信进行第二分类判断，获得第二分类结果；若所述第二分类结果为所述待处理短信为垃圾短信，对所述待处理短信进行过滤；其中，所述N为大于等于2的正整数。本发明还同时公开了一种垃圾短信过滤装置。

Description

一种垃圾短信过滤方法及装置

技术领域

本发明涉及移动通信中的反垃圾短信领域，尤其涉及一种垃圾短信过滤方法及装置。

背景技术

目前，在移动通信中，随着垃圾短信的传播蔓延，移动用户的利益受到侵害，服务运营商的正常运营秩序受到影响,从而危害了移动互联网安全和社会稳定。

然而，现有的垃圾短信过滤技术存在严重缺陷，其准确性低，且用于过滤垃圾短信的特征模型不可理解，属于黑盒操作。另外，现有的垃圾短信过滤技术难以处理不完备数据，也无法融入先验知识。

发明内容

有鉴于此，本发明实施例期望提供一种垃圾短信过滤方法及装置，通过对信度网分类器进行集成的方式，能够有效提高过滤垃圾短信的准确率。

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供一种垃圾短信过滤方法，该方法包括：

通过N个信度网分类器分别对待处理短信进行第一分类判断，获得N个第一分类结果；其中，所述N为大于等于2的正整数；

根据所述N个第一分类结果对所述N个信度网分类器进行集成，形成集成后的信度网分类器；

根据所述集成后的信度网分类器对所述待处理短信进行第二分类判断，获得第二分类结果；

若所述第二分类结果为所述待处理短信为垃圾短信，对所述待处理短信进行过滤。

上述方案中，所述通过N个信度网分类器分别对待处理短信进行第一分类判断，获得N个第一分类结果之前，所述方法还包括：获取短信样本集；通过标识的划分和标识精化处理的方式对所述短信样本集进行训练，获得所述N个信度网分类器分别用于对待处理短信进行第一分类判断的特征模型。

上述方案中，所述通过N个信度网分类器分别对待处理短信进行第一分类判断，获得N个第一分类结果包括：

将采用分词处理所获取的待处理短信的特征向量发送给所述N个信度网分类器；所述N个信度网分类器分别根据用于对待处理短信进行第一分类判断的特征模型对所述待处理短信的特征向量进行检测，获得N个第一分类结果；所述第一分类结果包括所述待处理短信为垃圾短信或所述待处理短信为非垃圾短信。

上述方案中，所述根据所述N个第一分类结果对所述N个信度网分类器进行集成，形成集成后的信度网分类器包括：

根据所述N个第一分类结果，采用距离函数确定所述N个信度网分离器中任意两个分类器之间的相似度，形成相似度矩阵；根据所述相似度矩阵，通过改进仿射传播聚类算法对所述N个信度网分类器进行聚类，获得K个由所述N个信度网分类器组成的类簇；分别在所述K个类簇中选择精度最高的信度网分类器，形成基分类器组；对所述基分类器组进行集成处理，获得集成后的信度网分类器；其中，所述K为大于等于2且小于等于N的正整数。

上述方案中，所述对所述基分类器组进行集成处理的方式包括证据理论或拉格朗日乘数法。

本发明实施例还提供一种垃圾短信过滤装置，该装置包括：第一分类判断模块、集成处理模块、第二分类判断模块、以及过滤模块；其中，

所述第一分类判断模块，用于通过N个信度网分类器分别对待处理短信进行第一分类判断，获得N个第一分类结果；

所述集成处理模块，用于根据所述N个第一分类结果对所述N个信度网分类器进行集成，形成集成后的信度网分类器；

所述第二分类判断模块，用于根据所述集成后的信度网分类器对所述待处理短信进行第二分类判断，获得第二分类结果；

所述过滤模块，用于当所述第二分类结果为所述待处理短信为垃圾短信时，对所述待处理短信进行过滤。

上述方案中，所述装置还包括：训练模块；其中，

所述训练模块，用于获取短信样本集；通过标识的划分和标识精化处理的方式对所述短信样本集进行训练，获得所述N个信度网分类器分别用于对待处理短信进行第一分类判断的特征模型。

上述方案中，所述第一分类判断模块，具体用于将采用分词处理所获取的待处理短信的特征向量发送给所述N个信度网分类器；所述N个信度网分类器分别根据用于对待处理短信进行第一分类判断的特征模型对所述待处理短信的特征向量进行检测，获得N个第一分类结果；所述第一分类结果包括所述待处理短信为垃圾短信或所述待处理短信为非垃圾短信。

上述方案中，所述集成处理模块，具体用于根据所述N个第一分类结果，采用距离函数确定所述N个信度网分离器中任意两个分类器之间的相似度，形成相似度矩阵；根据所述相似度矩阵，通过改进仿射传播聚类算法对所述N个信度网分类器进行聚类，获得K个由所述N个信度网分类器组成的类簇；分别在所述K个类簇中选择精度最高的信度网分类器，形成基分类器组；对所述基分类器组进行集成处理，获得集成后的信度网分类器；其中，所述K为大于等于2且小于等于N的正整数。

上述方案中，所述集成处理模块对所述基分类器组进行集成处理的方式包括证据理论或拉格朗日乘数法。

本发明实施例所提供的垃圾短信过滤方法及装置，通过N个信度网分类器分别对待处理短信进行第一分类判断，获得N个第一分类结果；根据所述N个第一分类结果对所述N个信度网分类器进行集成，形成集成后的信度网分类器；根据所述集成后的信度网分类器对所述待处理短信进行第二分类判断，获得第二分类结果；若所述第二分类结果为所述待处理短信为垃圾短信，对所述待处理短信进行过滤。如此，通过对信度网分类器进行集成的方式，能够有效提高过滤垃圾短信的准确率。

附图说明

图1为本发明实施例垃圾短信过滤方法的实现流程示意图；

图2为本发明实施例中r(h,k)与a(h,k)的关系图；

图3为本发明实施例垃圾短信过滤装置的组成结构示意图。

具体实施方式

在本发明实施例中，通过N个信度网分类器分别对待处理短信进行第一分类判断，获得N个第一分类结果；根据所述N个第一分类结果对所述N个信度网分类器进行集成，形成集成后的信度网分类器；根据所述集成后的信度网分类器对所述待处理短信进行第二分类判断，获得第二分类结果；若所述第二分类结果为所述待处理短信为垃圾短信，对所述待处理短信进行过滤；其中，所述N为大于等于2的正整数。

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图1为本发明实施例垃圾短信过滤方法的实现流程示意图，如图1所示，本发明实施例垃圾短信过滤方法包括：

步骤S100：通过N个信度网分类器分别对待处理短信进行第一分类判断，获得N个第一分类结果；其中，所述N为大于等于2的正整数。

这里，在步骤S100之前，所述垃圾短信过滤方法还包括：获取短信样本集；通过标识的划分和标识精化处理的方式对所述短信样本集进行训练，获得所述N个信度网分类器分别用于对待处理短信进行第一分类判断的特征模型，即训练集。

具体地，所述通过N个信度网分类器分别对待处理短信进行第一分类判断，获得N个第一分类结果包括：

将采用分词处理所获取的待处理短信的特征发送给所述N个信度网分类器；所述N个信度网分类器分别根据用于对待处理短信进行第一分类判断的特征模型对所述待处理短信的特征进行检测，获得N个第一分类结果；所述第一分类结果包括所述待处理短信为垃圾短信或所述待处理短信为非垃圾短信。

需要补充说明的是，所述N个信度网分类器分别根据用于对待处理短信进行第一分类判断的特征模型对所述待处理短信的特征进行检测，获得N个第一分类结果的原理是通过计算待处理短信文本d属于某个类别的概率p(c_j|d_x)的方式将待处理短信文本分类到概率最大的类别中去，其中，所述类别可以为二值，如垃圾短信或非垃圾短信。具体地，在计算p(c_j|d_x)时，利用如下贝叶斯公式(1)：

其中，p(c_j)是类的先验概率，p(d_x|c_j)是类条件概率。对同一短信文本p(d_x)，不变。设dx表示为特征集合(t₁,t₂,...,t_i,K,t_n)，其中，n表示特征个数，i为正整数，i的取值范围为1≤i≤n。另外，假设特征之间相互独立，则类条件概率p(d_x|c_j)为如下的表达式(2)：

其中，p(c_j)和p(t_i|c_j)都可以利用训练集估计，c_j表示类别，j＝0或1，c₀表示“垃圾短信”，c₁表示“非垃圾短信”。

如此，在实际应用中，每个用户可以提供一定数量的短信样本集，包括垃圾短信和非垃圾短信，通过标识的划分和标识精化处理的方式对所述短信样本集进行训练，获得用户自己的用于过滤垃圾短信的训练集，从而满足用户的个性需求。另外，通过贝叶斯公式(1)来计算p(c_j|d_x)，很好地融入了先验知识，从而有效地提高过滤垃圾短信的准确率。

步骤S101：根据所述N个第一分类结果对所述N个信度网分类器进行集成，形成集成后的信度网分类器；

具体地，步骤S101包括如下操作：

步骤1，根据所述N个第一分类结果，采用距离函数确定所述N个信度网分离器中任意两个分类器之间的相似度，形成相似度矩阵；

在本发明实施例中，可以采用求均方根误差的距离函数，根据所述N个第一分类结果确定所述N个信度网分离器中任意两个编号为a和b的分类器之间的相似度，计算公式如下表达式(3)：

其中，a和b均为正整数，取值范围为1≤a，b≤N。

需要说明的是，当a≠b时，所述a_i和b_i分别表示编号为a的信度网分类器的预测值向量和编号为b的信度网分类器的预测值向量。举例来说，所述预测值向量a_i为通过若干次步骤S100的处理(在实际应用中，为了提供垃圾短信过滤的准确度，可以将步骤S100的试验次数相应提高，如100次以上)，即采用分词处理所获取的待处理短信的特征t_i发送给编号为a的信度网分类器后，所述编号为a的信度网分类器根据用于对待处理短信进行第一分类判断的特征模型对所述待处理短信的特征t_i进行检测后所确定的第一分类结果的准确率。

当a＝b时，所述a_i和b_i分别表示编号为a的信度网分类器的实际值向量和预测值向量；其中，所述编号为a的分类器的实际值向量a_i为实际应用中直接根据所述编号为a的分类器对包含有特征t_i的短信进行分类判断后所确定的分类结果的准确率。之后，利用上述求均方根误差的距离函数所确定的所述N个信度网分离器中任意两个分类器之间的相似度形成N×N的相似度矩阵S。

步骤2，根据所述相似度矩阵S，通过改进仿射传播(Affinity Propagation，AP)聚类算法对所述N个信度网分类器进行聚类，获得K个由所述N个信度网分类器组成的类簇；其中，所述K为大于等于2且小于等于N的正整数。

具体地，改进AP聚类算法不需要事先指定聚类数目，而是将所有的数据点(即相似度矩阵S中的N×N个元素)都作为潜在的聚类中心(exemplar)；在改进AP聚类算法中传递两种类型的消息，可信赖性(responsiility)消息和可利用性(availability)消息；r(h,k)表示从数据点h发送到候选聚类中心k的数值消息，反映候选聚类中心k是否适合作为数据点h的聚类中心；a(h,k)则表示从候选聚类中心k发送到数据点h的数值消息，反映数据点h是否选择候选聚类中心k作为数据点h的聚类中心；这里，r(h,k)与a(h,k)的值越大，则候选聚类中心k作为聚类中心的可能性就越大，并且数据点h隶属于以k点为聚类中心的聚类的可能性也越大。具体地，改进AP算法通过迭代过程不断更新每一个数据点h的吸引度和归属度值，直到产生K个高质量的聚类中心k，同时将其余的数据点h分配到相应的聚类中，形成K个由所述N个信度网分类器组成的类簇c_k；其中，所述K个由所述N个信度网分类器组成的类簇C_k的集合为C＝{c₁,c₂,…c_k,…,c_K}。其中，所述r(h,k)与a(h,k)的关系如图2所示，所述r(h,k)与a(h,k)的计算公式如下表达式(4)～(6)所示：

r(h,k)＝S(h,k)-max{a(h,j)+s(h,j)}(j{1,2,……,N,但j≠k})； (4)

(j{1,2,……,N,但j≠h且j≠k})； (5)

r(k,k)＝P(k)-max{a(k,j)+S(k,j)}(j{1,2,……,N,但j≠k})； (6)

具体地，改进AP算法的具体工作过程如下：选取步骤1所确定的所述N个信度网分离器中任意两个分类器之间的相似度所形成N×N的相似度矩阵S(h,k)的中值P(k)，同时设置一个最大迭代次数Q(这里，Q的取值可以根据实际需要灵活确定)；迭代过程开始后，计算每一次的r(h,k)值和a(h,k)值，根据r(k,k)+a(k,k)值来判断候选聚类中心k是否为聚类中心。当迭代次数Q超过最大迭代次数Q或者当聚类中心连续两次或两次以上迭代不发生改变时终止计算。

步骤3，分别在所述K个类簇c_k中选择精度最高的信度网分类器φ_k，形成基分类器组Φ＝{φ₁,φ₂,…,φ_k…,φ_K}；

步骤4，对所述基分类器组进行集成处理，获得集成后的信度网分类器。

这里，对所述基分类器组进行集成处理的方式可以为证据理论或拉格朗日乘数法。

如此，采用改进AP聚类算法对所述N个信度网分类器进行聚类，并采用证据理论或拉格朗日乘数法对分类器进行集成处理的方式，较好地兼顾“单个分类器精度”和“分类器集合多样性”两个方面的问题，从而有效提供分类精度。另外，由于改进AP聚类算法不需要事先指定聚类数目，从而有效解决现有的垃圾短信过滤技术难以处理不完备数据的问题。

步骤S102：根据所述集成后的信度网分类器对所述待处理短信进行第二分类判断，获得第二分类结果；

这里，根据所述集成后的信度网分类器对所述待处理短信进行第二分类判断，获得第二分类结果的原理与前述步骤S100中所述N个信度网分类器分别根据用于对待处理短信进行第一分类判断的特征模型对所述待处理短信的特征进行检测，获得N个第一分类结果的原理相同，即通过计算待处理短信文本d属于某个类别的概率p(c_j|d_x)的方式将待处理短信文本分类到概率最大的类别中去。

步骤S103：若所述第二分类结果为所述待处理短信为垃圾短信，则对所述待处理短信进行过滤。

这里，若所述第二分类结果为所述待处理短信为非垃圾短信，则保留所述待处理短信，以备进一步处理。

如此，利用本发明实施例所述的垃圾短信过滤方法，通过对信度网分类器进行集成的方式，能够有效提高过滤垃圾短信的准确率。

图3为本发明实施例垃圾短信过滤装置的组成结构示意图，如图3所示，本发明实施例垃圾短信过滤装置包括：第一分类判断模块10、集成处理模块11、第二分类判断模块12、以及过滤模块13；其中，

所述第一分类判断模块10，用于通过N个信度网分类器分别对待处理短信进行第一分类判断，获得N个第一分类结果；其中，所述N为大于等于2的正整数。

在本发明实施例中，所述装置还包括：训练模块14；所述训练模块14用于，获取短信样本集；通过标识的划分和标识精化处理的方式对所述短信样本集进行训练，获得所述N个信度网分类器分别用于对待处理短信进行第一分类判断的特征模型。

具体地，所述第一分类判断模块10用于，将采用分词处理所获取的待处理短信的特征向量发送给所述N个信度网分类器；所述N个信度网分类器分别根据用于对待处理短信进行第一分类判断的特征模型对所述待处理短信的特征向量进行检测，获得N个第一分类结果；所述第一分类结果包括所述待处理短信为垃圾短信或所述待处理短信为非垃圾短信。

所述集成处理模块11，用于根据所述N个第一分类结果对所述N个信度网分类器进行集成，形成集成后的信度网分类器；

具体地，所述集成处理模块11用于，根据所述N个第一分类结果，采用距离函数确定所述N个信度网分离器中任意两个分类器之间的相似度，形成相似度矩阵；根据所述相似度矩阵，通过改进仿射传播聚类算法对所述N个信度网分类器进行聚类，获得K个由所述N个信度网分类器组成的类簇；分别在所述K个类簇中选择精度最高的信度网分类器，形成基分类器组；对所述基分类器组进行集成处理，获得集成后的信度网分类器；其中，所述K为大于等于2且小于等于N的正整数。

这里，所述集成处理模块11对所述基分类器组进行集成处理的方式包括证据理论或拉格朗日乘数法。

所述第二分类判断模块12，用于根据所述集成后的信度网分类器对所述待处理短信进行第二分类判断，获得第二分类结果；

所述过滤模块13，用于当所述第二分类结果为所述待处理短信为垃圾短信时，对所述待处理短信进行过滤。

如此，利用本发明实施例所述的垃圾短信过滤装置，通过对信度网分类器进行集成的方式，能够有效提高过滤垃圾短信的准确率。

在实际应用中，所述第一分类判断模块10可由N个信度网分类器实现；所述集成处理模块11和过滤模块13可由垃圾短信过滤装置的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)实现；第二分类判断模块12可由经集成处理模块11集成后信度网分类器实现。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种垃圾短信过滤方法，其特征在于，所述方法包括：

根据所述N个第一分类结果对所述N个信度网分类器进行聚类，获得K个由所述N个信度网分类器组成的类簇，根据所述类簇选择信度网分类器进行集成，形成集成后的信度网分类器，其中，所述K为大于等于2且小于等于N的正整数；

2.根据权利要求1所述的方法，其特征在于，所述通过N个信度网分类器分别对待处理短信进行第一分类判断，获得N个第一分类结果之前，所述方法还包括：获取短信样本集；通过标识的划分和标识精化处理的方式对所述短信样本集进行训练，获得所述N个信度网分类器分别用于对待处理短信进行第一分类判断的特征模型。

3.根据权利要求2所述的方法，其特征在于，所述通过N个信度网分类器分别对待处理短信进行第一分类判断，获得N个第一分类结果包括：

4.根据权利要求1或2所述的方法，其特征在于，所述根据所述N个第一分类结果对所述N个信度网分类器进行聚类，获得K个由所述N个信度网分类器组成的类簇，根据所述类簇选择信度网分类器进行集成，形成集成后的信度网分类器，具体包括：

根据所述N个第一分类结果，采用距离函数确定所述N个信度网分类器中任意两个分类器之间的相似度，形成相似度矩阵；根据所述相似度矩阵，通过改进仿射传播聚类算法对所述N个信度网分类器进行聚类，获得K个由所述N个信度网分类器组成的类簇；分别在所述K个类簇中选择精度最高的信度网分类器，形成基分类器组；对所述基分类器组进行集成处理，获得集成后的信度网分类器；其中，所述K为大于等于2且小于等于N的正整数。

5.根据权利要求4所述的方法，其特征在于，所述对所述基分类器组进行集成处理的方式包括证据理论或拉格朗日乘数法。

6.一种垃圾短信过滤装置，其特征在于，所述装置包括：第一分类判断模块、集成处理模块、第二分类判断模块、以及过滤模块；其中，

所述第一分类判断模块，用于通过N个信度网分类器分别对待处理短信进行第一分类判断，获得N个第一分类结果；其中，所述N为大于等于2的正整数；

所述集成处理模块，用于根据所述N个第一分类结果对所述N个信度网分类器进行聚类，获得K个由所述N个信度网分类器组成的类簇，根据所述类簇选择信度网分类器进行集成，形成集成后的信度网分类器，其中，所述K为大于等于2且小于等于N的正整数；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：训练模块；其中，

8.根据权利要求7所述的装置，其特征在于，所述第一分类判断模块，具体用于将采用分词处理所获取的待处理短信的特征向量发送给所述N个信度网分类器；所述N个信度网分类器分别根据用于对待处理短信进行第一分类判断的特征模型对所述待处理短信的特征向量进行检测，获得N个第一分类结果；所述第一分类结果包括所述待处理短信为垃圾短信或所述待处理短信为非垃圾短信。

9.根据权利要求6或7所述的装置，其特征在于，所述集成处理模块，具体用于根据所述N个第一分类结果，采用距离函数确定所述N个信度网分类器中任意两个分类器之间的相似度，形成相似度矩阵；根据所述相似度矩阵，通过改进仿射传播聚类算法对所述N个信度网分类器进行聚类，获得K个由所述N个信度网分类器组成的类簇；分别在所述K个类簇中选择精度最高的信度网分类器，形成基分类器组；对所述基分类器组进行集成处理，获得集成后的信度网分类器；其中，所述K为大于等于2且小于等于N的正整数。

10.根据权利要求9所述的装置，其特征在于，所述集成处理模块对所述基分类器组进行集成处理的方式包括证据理论或拉格朗日乘数法。