CN107155178A

CN107155178A - 一种基于智能算法的垃圾短信过滤方法

Info

Publication number: CN107155178A
Application number: CN201610120287.0A
Authority: CN
Inventors: 李刚
Original assignee: Shenzhen Xinyuelantu Network Technology Co Ltd
Current assignee: Shenzhen Xinyuelantu Network Technology Co Ltd
Priority date: 2016-03-03
Filing date: 2016-03-03
Publication date: 2017-09-12

Abstract

本发明公开一种基于智能算法的垃圾短信过滤方法，包括如下步骤：获取原始短信样本；获得样本词汇集合；对于样本词汇集合中的任意一个独立词汇，分别计算得到该独立词汇在垃圾短信样本和非垃圾短信样本中出现的概率；对于样本词汇集合中的任意一个独立词汇，计算得到包含该独立词汇的任意一条短信为垃圾短信的概率；当任意一条待过滤短信中出现样本词汇集合中的多个独立词汇时，对于该条待过滤短信中每一个独立词汇，获得包含该独立词汇的任意一条短信为非垃圾短信的概率；得到该条待过滤短信为垃圾短信的概率；获得黑白名单库；实现对待过滤短信的判别和对黑白名单库的升级。所述垃圾短信过滤方法能够提高垃圾短信过滤的准确性。

Description

一种基于智能算法的垃圾短信过滤方法

技术领域

本发明涉及软件信息安全技术领域。更具体地，涉及一种基于智能算法的垃圾短信过滤方法。

背景技术

众所周知，手机用户经常会遇到垃圾短信，往往给手机用户带来诸多不便。因此，需要将垃圾短信过滤掉。现有技术中，垃圾短信拦截策略相对单一，绝大多数垃圾短信过滤方法采用电话号码黑名单或垃圾词汇黑名单等形式来实现。现有技术的上述垃圾短信过滤方法的缺点是简单粗暴，容易导致误判现象的发生，且误判率较高。

因此，需要提供一种基于智能算法的垃圾短信过滤方法。

发明内容

本发明的目的在于提供一种基于智能算法的垃圾短信过滤方法。

为达到上述目的，本发明采用下述技术方案：

一种基于智能算法的垃圾短信过滤方法，该垃圾短信过滤方法包括如下步骤：

S1：获得原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率；

S2：获得样本词汇集合；

S3：对于样本词汇集合中的任意一个独立词汇，通过统计的方法分别计算得到该独立词汇在垃圾短信样本中出现的概率以及该独立词汇在非垃圾短信样本中出现的概率；

S4：对于样本词汇集合中的任意一个独立词汇，利用贝叶斯公式计算得到包含该独立词汇的任意一条短信为垃圾短信的概率；

S5：当任意一条待过滤短信中出现所述样本词汇集合中的多个独立词汇时，对于该条待过滤短信中每一个独立词汇，重复所述步骤S4，分别计算得到仅包含该独立词汇的任意一条短信为垃圾短信的概率，然后获得包含该独立词汇的任意一条短信为非垃圾短信的概率；

S6：计算所述步骤S5得到的包含该条待过滤短信中每一个独立词汇的任意一条短信为垃圾短信的概率的乘积，得到该条待过滤短信为非垃圾短信的概率，然后获得该条待过滤短信为垃圾短信的概率。

优选地，所述垃圾短信过滤方法在所述步骤S6之后还包括如下步骤：

S7：通过编码设定号码黑白名单、号码段黑名单以及基于行为的号码白名单，获得黑白名单库；

S8：利用布隆过滤算法对黑白名单库进行信息压缩，并利用判别接口和删除接口对布隆过滤算法表进行操作，以实现对待过滤短信的判别和对黑白名单库的升级。

进一步优选地，所述步骤S1为：获取原始短信样本，通过人工标记的方式将原始短信样本区分为垃圾短信样本和非垃圾短信样本，并通过统计的方法分别计算得到原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率。

进一步优选地，所述步骤S2为：对垃圾短信样本和非垃圾短信样本进行分词，获得在垃圾短信样本和非垃圾短信样本之一中出现的所有独立词汇，且在垃圾短信样本和非垃圾短信样本之一中出现的所有独立词汇构成样本词汇集合。

进一步优选地，所述贝叶斯公式为：

其中，P(S|W)为包含该独立词汇W的任意一条短信为垃圾短信的概率；P(W|S)为样本词汇集合J中的任意一个独立词汇W在垃圾短信样本S中出现的概率；P(W|H)为样本词汇集合J中的任意一个独立词汇W在非垃圾短信样本H中出现的概率；P(S)为原始短信样本中垃圾短信出现的概率；P(H)为原始短信样本中非垃圾短信出现的概率。

进一步优选地，所述黑白名单库包括号码黑白名单、号码段黑名单和基于行为的号码白名单。

更进一步优选地，所述号码黑白名单为：将已有的发送短信的号码库中的角色进行收集并设置成号码黑白名单，其中诈骗和广告推销类为黑名单，快递和市政类为白名单；所述号码段黑名单为：对广告营销类专用号码段进行垃圾短信概率权限增加，针对1069广告营销类短信通道进行更低阈值的垃圾短信判别；所述基于行为的号码白名单为：将用户本机联系人、用户主动去电号码、用户主动发送短信号码、以及用户主动回复短信号码设置为基于行为的号码白名单。

更进一步优选地，对于基于行为的号码白名单中的任意一条短信，无需利用贝叶斯公式计算该条短信为垃圾短信的概率，直接将该条短信判定为非垃圾短信。

进一步优选地，所述步骤S1中，利用搜索引擎获取所述原始短信样本。

进一步优选地，所述步骤S7中，用户解锁开始使用手机后更新所述黑白名单库。

本发明的有益效果如下：

与现有技术相比，本发明的所述垃圾短信过滤方法首次将贝叶斯公式引入垃圾短信过滤中，结合综合性的策略整合，从而能够实现对垃圾短信的智能过滤，避免误判现象的发生，提高垃圾短信过滤的准确性。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1为本发明实施例提供的基于智能算法的垃圾短信过滤方法的流程图；

图2为本发明另一实施例提供的基于智能算法的垃圾短信过滤方法的流程图。

具体实施方式

为了更清楚地说明本发明，下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

如图1所示，本发明一个实施例提供的基于智能算法的垃圾短信过滤方法包括如下步骤：

该步骤进一步为：获取原始短信样本，通过人工标记的方式将原始短信样本区分为垃圾短信样本S和非垃圾短信样本H，并通过统计的方法分别计算得到原始短信样本中垃圾短信出现的概率P(S)和非垃圾短信出现的概率P(H)；

例如，获取的原始短信样本包含10万条短信，通过人工标记的方式将原始短信样本区分为垃圾短信样本S和非垃圾短信样本H，其中垃圾短信样本S包含1万条短信，非垃圾短信样本H包含其余的9万条短信，通过统计的方法分别计算得到原始短信样本中垃圾短信出现的概率P(S)为10％，以及原始短信样本中非垃圾短信出现的概率P(H)为90％；

S2：获得样本词汇集合；

该步骤进一步为：对垃圾短信样本S和非垃圾短信样本H进行分词，获得在垃圾短信样本S和非垃圾短信样本H之一中出现的所有独立词汇，且在垃圾短信样本S和非垃圾短信样本H之一中出现的所有独立词汇构成样本词汇集合J；

S3：对于样本词汇集合J中的任意一个独立词汇W，通过统计的方法分别计算得到该独立词汇W在垃圾短信样本S中出现的概率P(W|S)以及该独立词汇W在非垃圾短信样本H中出现的概率P(W|H)；

例如，如果上述垃圾短信样本中的100条短信出现了独立词汇“发票”，通过统计的方法计算得到独立词汇“发票”在垃圾短信样本S中出现的概率P(W|S)为1％；如果上述非垃圾短信样本中的90条短信出现了独立词汇“发票”，通过统计的方法计算得到独立词汇“发票”在非垃圾短信样本H中出现的概率P(W|H)为0.1％；

S4：对于样本词汇集合J中的任意一个独立词汇W，利用贝叶斯公式计算得到包含该独立词汇W的任意一条短信为垃圾短信的概率；

上述贝叶斯公式为：

公式(1)；

公式(1)中，P(S|W)为包含该独立词汇W的任意一条短信为垃圾短信的概率；P(W|S)为样本词汇集合J中的任意一个独立词汇W在垃圾短信样本S中出现的概率；P(W|H)为样本词汇集合J中的任意一个独立词汇W在非垃圾短信样本H中出现的概率；P(S)为原始短信样本中垃圾短信出现的概率；P(H)为原始短信样本中非垃圾短信出现的概率；

例如，利用贝叶斯公式计算得到待过滤短信中任意一条包含独立词汇“发票”的短信为垃圾短信的概率为52％；

S5：当任意一条待过滤短信A中出现上述样本词汇集合J中的多个独立词汇时，对于该条待过滤短信A中每一个独立词汇W_i，其中i为该条待过滤短信A中独立词汇的个数，重复上述步骤S4，分别计算得到仅包含该独立词汇W_i的任意一条短信为垃圾短信的概率，然后获得包含该独立词汇W_i的任意一条短信为非垃圾短信的概率；

例如，当任意一条待过滤短信A中出现上述样本词汇集合J中的独立词汇W₁、W₂和W₃时，对于独立词汇W₁，重复上述步骤S4，计算得到仅包含独立词汇W₁的任意一条短信为垃圾短信的概率为P(S|W₁)，对于独立词汇W₂，重复上述步骤S4，计算得到仅包含独立词汇W₂的任意一条短信为垃圾短信的概率为P(S|W₂)，对于独立词汇W₃，重复上述步骤S4，计算得到仅包含独立词汇W₃的任意一条短信为垃圾短信的概率为P(S|W₃)，获得包含独立词汇W₁的任意一条短信为非垃圾短信的概率为[1-P(S|W₁)],包含独立词汇W₂的任意一条短信为非垃圾短信的概率为[1-P(S|W₂)],包含独立词汇W₃的任意一条短信为非垃圾短信的概率为[1-P(S|W₃)]；

例如，当任意一条待过滤短信A中出现上述样本词汇集合J中的独立词汇“发票”、“基金”和“联系”时，仅包含独立词汇“发票”的任意一条短信为垃圾短信的概率为52％，仅包含独立词汇“基金”的任意一条短信为垃圾短信的概率为33％，仅包含独立词汇“联系”的任意一条短信为垃圾短信的概率为62％，则包含独立词汇“发票”的任意一条短信为非垃圾短信的概率为48％，包含独立词汇“基金”的任意一条短信为非垃圾短信的概率为67％，包含独立词汇“联系”的任意一条短信为非垃圾短信的概率为38％；

S6：计算上述步骤S5得到的包含该条待过滤短信A中每一个独立词汇W_i的任意一条短信为垃圾短信的概率的乘积，得到该条待过滤短信A为非垃圾短信的概率，然后获得该条待过滤短信A为垃圾短信的概率；

例如，计算包含独立词汇W₁的任意一条短信为非垃圾短信的概率[1-P(S|W₁)]、包含独立词汇W₂的任意一条短信为非垃圾短信的概率[1-P(S|W₂)]、以及包含独立词汇W₃的任意一条短信为非垃圾短信的概率[1-P(S|W₃)]的乘积，得到该条待过滤短信A为非垃圾短信的概率为：

P_h＝[1-P(S|W₁)]*[1-P(S|W₂)]*[1-P(S|W₃)] 公式(2)；

然后获得该条待过滤短信A为垃圾短信的概率为：

P_s＝1-P_h 公式(3)；

例如，上述包含独立词汇“发票”、“基金”和“联系”待过滤短信A为垃圾短信的概率为80.06％。

如图2所示，在本发明的另一个实施例中，所述垃圾短信过滤方法在所述步骤S6之后还包括如下步骤：

S7：通过编码设定号码黑白名单、号码段黑名单以及基于行为的号码白名单，获得黑白名单库；该黑白名单库包括号码黑白名单、号码段黑名单和基于行为的号码白名单；

S8：利用布隆过滤算法(counting bloom filter算法)对黑白名单库进行信息压缩，并利用判别接口和删除接口对布隆过滤算法表进行操作，以实现对待过滤短信的判别和对黑白名单库的升级。

优选地，上述步骤S1中，利用搜索引擎获取原始短信样本。

优选地，上述步骤S7中，用户解锁开始使用手机后更新所述黑白名单库。

上述号码黑白名单为：将已有的发送短信的号码库中的角色进行收集并设置成号码黑白名单，其中诈骗和广告推销类为黑名单，快递和市政类为白名单。

上述号码段黑名单为：对广告营销类专用号码段进行垃圾短信概率权限增加，针对1069广告营销类短信通道进行更低阈值的垃圾短信判别。

基于行为的号码白名单为：将用户本机联系人、用户主动去电号码、用户主动发送短信号码、以及用户主动回复短信号码设置为基于行为的号码白名单。

对于基于行为的号码白名单中的任意一条短信，无需利用贝叶斯公式计算该条短信为垃圾短信的概率，直接将该条短信判定为非垃圾短信。

采用bloom-filter算法，对上述号码黑白名单进行时间复杂度为O(1)的判别。考虑到号码的变更，采用了bloom-filter算法的升级版本，即counting-bloom-filter。实现了相对顺序查找更快，更省空间的查找效果。时间复杂度O(1)，占用内存极小(压缩率22倍以上)，一个号码占用4bit(普通手机号码字符串至少占用88bit)。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于智能算法的垃圾短信过滤方法，其特征在于，该垃圾短信过滤方法包括如下步骤：

S2：获得样本词汇集合；

2.根据权利要求1所述的基于智能算法的垃圾短信过滤方法，其特征在于，所述垃圾短信过滤方法在所述步骤S6之后还包括如下步骤：

3.根据权利要求1或2所述的基于智能算法的垃圾短信过滤方法，其特征在于，所述步骤S1为：获取原始短信样本，通过人工标记的方式将原始短信样本区分为垃圾短信样本和非垃圾短信样本，并通过统计的方法分别计算得到原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率。

4.根据权利要求1或2所述的基于智能算法的垃圾短信过滤方法，其特征在于，所述步骤S2为：对垃圾短信样本和非垃圾短信样本进行分词，获得在垃圾短信样本和非垃圾短信样本之一中出现的所有独立词汇，且在垃圾短信样本和非垃圾短信样本之一中出现的所有独立词汇构成样本词汇集合。

5.根据权利要求1或2所述的基于智能算法的垃圾短信过滤方法，其特征在于，所述贝叶斯公式为：

6.根据权利要求2所述的基于智能算法的垃圾短信过滤方法，其特征在于，所述黑白名单库包括号码黑白名单、号码段黑名单和基于行为的号码白名单。

7.根据权利要求6所述的基于智能算法的垃圾短信过滤方法，其特征在于，所述号码黑白名单为：将已有的发送短信的号码库中的角色进行收集并设置成号码黑白名单，其中诈骗和广告推销类为黑名单，快递和市政类为白名单；

所述号码段黑名单为：对广告营销类专用号码段进行垃圾短信概率权限增加，针对1069广告营销类短信通道进行更低阈值的垃圾短信判别；

所述基于行为的号码白名单为：将用户本机联系人、用户主动去电号码、用户主动发送短信号码、以及用户主动回复短信号码设置为基于行为的号码白名单。

8.根据权利要求7所述的基于智能算法的垃圾短信过滤方法，其特征在于，对于基于行为的号码白名单中的任意一条短信，无需利用贝叶斯公式计算该条短信为垃圾短信的概率，直接将该条短信判定为非垃圾短信。

9.根据权利要求3所述的基于智能算法的垃圾短信过滤方法，其特征在于，所述步骤S1中，利用搜索引擎获取所述原始短信样本。

10.根据权利要求2所述的基于智能算法的垃圾短信过滤方法，其特征在于，所述步骤S7中，用户解锁开始使用手机后更新所述黑白名单库。