CN105516941A

CN105516941A - 一种垃圾短信的拦截方法及装置

Info

Publication number: CN105516941A
Application number: CN201410537939.1A
Authority: CN
Inventors: 伏晓海; 李学领; 叶兵; 孙立波
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2014-10-13
Filing date: 2014-10-13
Publication date: 2016-04-20
Also published as: WO2016058390A1

Abstract

本发明提供了一种垃圾短信的拦截方法及装置，涉及移动通信领域中的短信业务，其中上述方法包括：获取历史接收短信样本，所述短信样本包括垃圾短信和非垃圾短信，从所述历史接收短信样本中提取分词，每一所述历史接收短信样本形成一个包括多个分词的分词特征向量；计算所述分词特征向量中各分词属于垃圾短信的权重值，所述权重值从大到小排列时，提取每一历史垃圾短信样本中前N个权重值所对应的分词，形成备选的分词特征向量；根据所述备选的分词特征向量产生拦截垃圾短信的规则来拦截垃圾短信。通过上述方法可以自动生成拦截垃圾短信的规则，并同步给垃圾短信的实时拦截系统来拦截垃圾短信。

Description

一种垃圾短信的拦截方法及装置

技术领域

本发明涉及移动通信领域中的短信业务，具体涉及一种垃圾短信的拦截方法及装置。

背景技术

随着通讯业务的扩展，短信业务得到越来越广泛的应用。但是垃圾短信也伴随而起，大量不法的商家借助短信平台发送广告和诈骗信息。因此运营商一般借助垃圾短信拦截系统对垃圾短信进行拦截。现有的垃圾短信拦截系统是基于关键字规则进行拦截，即只要短信满足关键字规则，则将此短信拦截。而关键字都是由人力手工输入，这样就带来了两方面的问题：1)需要浪费大量的人力和物力去维护关键字规则，提高了人力成本；2)关键字规则设定后相对固定，而垃圾短信则是千变万化，发送者略微改动短信内容，就会造成原有的关键字规则失效。

发明内容

本发明的目的在与提供一种垃圾短信的拦截方法及装置，用来自动拦截垃圾短信。

为了达到上述目的，本发明提供了一种垃圾短信的拦截方法，包括：

获取历史接收短信样本，所述短信样本包括垃圾短信和非垃圾短信，从所述历史接收短信样本中提取分词，每一所述历史接收短信样本形成一个包括多个分词的分词特征向量；

计算所述分词特征向量中各分词属于垃圾短信的权重值，利用所述权重值，获取每一历史垃圾短信样本中前N个最大权重值所对应的分词，形成备选的分词特征向量；

对所述备选的分词特征向量通过形近聚类处理、音近聚类处理和合并压缩处理，获得拦截垃圾短信的规则来拦截垃圾短信。

其中，从所述历史接收短信样本中提取分词，形成包括多个分词的分词特征向量的步骤具体包括：

在历史接收短信样本中提取垃圾短信样本和非垃圾短信样本；

使用分词工具对所述垃圾短信样本和非垃圾短信样本分别进行分词，每一历史接收短信样本对应形成为一个分词特征向量。

其中，计算所述分词特征向量中各分词属于垃圾短信的权重值，利用所述权重值，获取历史垃圾短信样本中前N个最大权重值所对应的分词，得到备选的分词特征向量的步骤具体包括：

运用贝叶斯公式计算每个分词特征向量中各分词属于垃圾短信的权重值；

根据获取到的每个分词的权重值，重新扫描所述垃圾短信样本的分词特征向量，对应得到所述垃圾短信样本的权重值的特征向量；

对每个垃圾短信样本的权重值的特征向量，权重值按照从大到小顺序排列，筛选出最大的N个权重值，得到维度为N的权重值的特征向量；

获取所述权重值对应的分词，组成所述垃圾短信样本备选的分词特征向量。

其中，运用贝叶斯公式计算每个分词属于垃圾短信的权重值的步骤包括：

计算每个分词属于垃圾短信类的概率P(C0|Ti)；

计算每个分词属于非垃圾短信类的概率P(C1|Ti)；

计算每个分词在所有垃圾短信样本中出现的概率P(Ti|C0)；

计算每个分词在所有非垃圾短信样本中出现的概率P(Ti|C1)；

计算垃圾短信样本占总样本的概率P(C0)；

计算非垃圾短信样本占总样本的概率P(C1)；

根据以下公式计算每个分词属于垃圾短信的权重值：

W_{Ti} = \frac{P (C 0 | Ti)}{P (Cl | Ti)} = \frac{\frac{P (Ti | C 0) P (C 0)}{P (Ti)}}{\frac{P (Ti | Cl) P (Cl)}{P (Ti)}} = \frac{P (Ti | C 0) P (C 0)}{P (Ti | Cl) P (Cl)} .

其中，对所述备选的分词特征向量，对所述备选的分词特征向量，通过形近聚类处理、音近聚类处理和合并压缩处理，获得拦截垃圾短信的规则来拦截垃圾短信的步骤具体包括：

将所有所述备选的分词特征向量中的分词按照相似语音和相似字形进行聚类；

将所有聚类后备选的分词特征向量按照字符顺序排序，对排序后的特征向量进行与或规则合并，直到没有出现新的可合并的特征向量，或者迭代次数达到设定的固定的次数；

将合并后的特征向量中的基础词替换为其对应的音近同源词组或者形近同源词组，词组之间的分词用“或”的逻辑关系连接，形成拦截垃圾短信的规则；

将所述拦截垃圾短信的规则同步给实时垃圾短信拦截系统，当判断接收到的短信满足所述拦截垃圾短信的规则时，则认为是垃圾短信，进行拦截。

其中，将所有所述备选的分词特征向量中的分词按照相似语音和相似的字形进行聚类的步骤包括：

将所有备选的分词特征向量中的分词按照相似的语音进行聚类，形成多类音近同源词组；

对于每一类音近同源词组，取出现频度最高的分词做为对应音近同源词组的基础词，扫描所有的备选分词特征向量，将其中的音近同源词组对应的所有分词都替换为基础词；

将所有备选的分词特征向量中的分词按照相似的字形进行聚类，形成形近同源词组；

对于每一类形近同源词组，取出现频度最高的分词做为对应形近同源词组的基础词，扫描所有的备选分词特征向量，将其中的形近同源词组对应的所有分词都替换为基础词。

本发明实施例还包括一种垃圾短信的拦截装置，包括：

提取分词模块，用于获取历史接收短信样本，所述短信样本包括垃圾短信和非垃圾短信，从所述历史接收短信样本中提取分词，每一所述历史接收短信样本形成一个包括多个分词的分词特征向量；

计算模块，用于计算所述分词特征向量中各分词属于垃圾短信的权重值，获取每一历史垃圾短信样本中前N个最大权重值所对应的分词，形成备选的分词特征向量；

拦截模块，用于对所述备选的分词特征向量，通过形近聚类处理、音近聚类处理和合并压缩处理，获得拦截垃圾短信的规则来拦截垃圾短信。

其中，所述提取分词模块包括：

提取单元，用于在历史接收短信样本中提取垃圾短信样本和非垃圾短信样本；

分词单元，用于使用分词工具对所述垃圾短信样本和非垃圾短信样本分别进行分词，每一历史接收短信样本对应形成为一个分词特征向量。

其中，所述计算模块包括：

计算单元，用于运用贝叶斯公式计算每个分词特征向量中各分词属于垃圾短信的权重值；

扫描单元，用于根据获取到的每个分词的权重值，重新扫描所述垃圾短信样本的分词特征向量，对应得到所述垃圾短信样本的权重值的特征向量；

筛选单元，用于对每个垃圾短信样本的权重值的特征向量，权重值按照从大到小顺序排列，筛选出最大的N个权重值，得到维度为N的权重值的特征向量；

获取单元，用于获取所述权重值对应的分词，组成所述垃圾短信样本备选的分词特征向量。

其中，所述计算单元包括：

第一计算子单元，用于计算每个分词属于垃圾短信类的概率P(C0|Ti)；

第二计算子单元，用于计算每个分词属于非垃圾短信类的概率P(C1|Ti)；

第三计算子单元，用于计算每个分词在所有垃圾短信样本中出现的概率P(Ti|C0)；

第四计算子单元，用于计算每个分词在所有非垃圾短信样本中出现的概率P(Ti|C1)；

第五计算子单元，用于计算垃圾短信样本占总样本的概率P(C0)；

第六计算子单元，用于计算非垃圾短信样本占总样本的概率P(C1)；

第七计算子单元，用于依据以下公式计算每个分词属于垃圾短信的权重值：

W_{Ti} = \frac{P (C 0 | Ti)}{P (Cl | Ti)} = \frac{\frac{P (Ti | C 0) P (C 0)}{P (Ti)}}{\frac{P (Ti | Cl) P (Cl)}{P (Ti)}} = \frac{P (Ti | C 0) P (C 0)}{P (Ti | Cl) P (Cl)}

其中，Ti表示分词，C0表示垃圾短信样本，C1表示非垃圾短信样本。

其中，所述拦截模块包括：

聚类单元，用于将所有所述备选的分词特征向量中的分词按照相似语音和相似字形进行聚类；

合并单元，用于将所有聚类后备选的分词特征向量按照字符顺序排序，对排序后的特征向量进行与或规则合并，直到没有出现新的可合并的特征向量，或者迭代次数达到设定的固定的次数；

替换单元，用于将合并后的特征向量中的基础词替换为其对应的音近同源词组或者形近同源词组，词组之间的分词用“或”的逻辑关系连接，形成拦截垃圾短信的规则；

判断单元，用于将所述拦截垃圾短信的规则同步给实时垃圾短信拦截系统，当判断接收到的短信满足所述拦截垃圾短信的规则时，则认为是垃圾短信，进行拦截。

其中，所述聚类单元包括：

语音聚类子单元，用于将所有备选的分词特征向量中的分词按照相似的语音进行聚类，形成多类音近同源词组；

第一替换子单元，用于对每一类音近同源词组，取出现频度最高的分词做为对应音近同源词组的基础词，扫描所有的备选分词特征向量，将其中音近同源词组对应的所有分词都替换为基础词；

字形聚类子单元，用于将所有备选的分词特征向量中的分词按照相似的字形进行聚类，形成形近同源词组；

第二替换子单元，用于对每一类形近同源词组，取出现频度最高的分词做为对应形近同源词组的基础词，扫描所有的备选分词特征向量，将其中形近同源词组对应的所有分词都替换为基础词。

本发明的上述技术方案至少具有如下有益效果：本发明实施例的垃圾短信的拦截方法提出一种自动生成垃圾短信的备选的分词特征向量的方法，并通过对备选的分词特征向量进行音近字、形近字和组合词的提取，生成垃圾短信的拦截规则并同步给垃圾短信实时拦截系统拦截垃圾短信。在拦截垃圾短信时，既避免了手工输入备选的分词特征向量带来的不便，又解决了分词特征向量相对固定，而垃圾短信千变万化造成分词特征向量容易失效的问题。

附图说明

图1为本发明实施例所述的拦截垃圾短信的方法的步骤流程图；

图2为本发明实施例中图1中步骤1的流程图；

图3为本发明实施例中图1中步骤2的流程图；

图4为本发明实施例中图1中步骤3的流程图；

图5为本发明实施例所述的拦截垃圾短信的装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有技术中关键字规则需由人工输入，且容易失效的问题，提供了一种垃圾短信的拦截方法及装置，自动生成备选的分词特征向量即关键字规则，并通过音近字、形近字和组合词的提取发现新的变种字关键字规则即垃圾短信拦截规则，并同步给垃圾短信拦截系统实现垃圾短信的拦截。

如图1所示，本发明实施例提供一种垃圾短信的拦截方法，包括：

步骤1，获取历史接收短信样本，所述短信样本包括垃圾短信和非垃圾短信，从所述历史接收短信样本中提取分词，每一所述历史接收短信样本形成一个包括多个分词的分词特征向量；

步骤2，计算所述分词特征向量中各分词属于垃圾短信的权重值，获取每一历史垃圾短信样本中前N个最大权重值所对应的分词，得到备选的分词特征向量；

步骤3，对所述备选的分词特征向量，通过形近聚类处理、音近聚类处理和合并压缩处理，获得拦截垃圾短信的规则来拦截垃圾短信。

本发明的上述实施例中，从所述历史接收短信样本中提取分词，形成包括多个分词的分词特征向量的步骤具体包括：

步骤101，在历史接收短信样本中提取垃圾短信样本和非垃圾短信样本；

步骤102，使用分词工具对所述垃圾短信样本和非垃圾短信样本分别进行分词，每一历史接收短信样本对应形成为一个分词特征向量。

本发明的具体实施例中，步骤102中，使用分词工具对所述垃圾短信样本和非垃圾短信样本进行分词前，需要先对所述垃圾短信样本和非垃圾短信样本进行去噪处理，去除其中的标点符号等干扰词，以及去除停用词，以最大限度的反映短信的基本特征。

本发明的上述实施例中，计算所述分词特征向量中各分词属于垃圾短信的权重值，获取每一历史垃圾短信样本中前N个最大权重值所对应的分词，得到备选的分词特征向量的步骤具体包括：

步骤201，运用贝叶斯公式计算每个分词特征向量中各分词属于垃圾短信的权重值；

步骤202，根据获取到的每个分词的权重值，重新扫描所述垃圾短信样本的分词特征向量，对应得到所述垃圾短信样本的权重值的特征向量；

步骤203，对每个垃圾短信样本的权重值的特征向量，权重值按照从大到小顺序排列，筛选出最大的N个权重值，得到维度为N的权重值的特征向量；

步骤204，获取所述权重值对应的分词，组成所述垃圾短信样本备选的分词特征向量。

本发明的具体实施例中，如果历史短信样本中每个分词属于垃圾短信的权重值超过一定的阈值，则表示该分词属于垃圾短信的概率较高，步骤203中每个垃圾短信样本均对应一个权重值的特征向量，这些特征向量是按权重值从大到小排列的，在每个权重值的特征向量中均筛选出最大的N个权重值，且每个权重值要大于阈值K，如果筛选出的权重值的特征向量中的N个权重值不都大于阈值K，则抛弃此特征向量，最终得到多个垃圾短信样本对应的N个权重值都大于阈值K的特征向量。步骤204中将所述权重值替换为其对应的分词，即可得到垃圾短信样本备选的分词特征向量，即备选关键字规则。

本发明的上述实施例中，运用贝叶斯公式计算每个分词属于垃圾短信的权重值的步骤包括：

步骤2011，计算每个分词属于垃圾短信类的概率P(C0|Ti)；

步骤2012，计算每个分词属于非垃圾短信类的概率P(C1|Ti)；

步骤2013，计算每个分词在所有垃圾短信样本中出现的概率P(Ti|C0)；

步骤2014，计算每个分词在所有非垃圾短信样本中出现的概率P(Ti|C1)；

步骤2015，计算垃圾短信样本占总样本的概率P(C0)；

步骤2016，计算非垃圾短信样本占总样本的概率P(C1)；

步骤2017，根据以下公式计算每个分词属于垃圾短信的权重值：

W_{Ti} = \frac{P (C 0 | Ti)}{P (Cl | Ti)} = \frac{\frac{P (Ti | C 0) P (C 0)}{P (Ti)}}{\frac{P (Ti | Cl) P (Cl)}{P (Ti)}} = \frac{P (Ti | C 0) P (C 0)}{P (Ti | Cl) P (Cl)} .

本发明的具体实施例中，利用贝叶斯训练器计算每个分词的权重值，是指采用贝叶斯公式计算出历史短信样本中每个分词属于垃圾短信的概率值，以及属于非垃圾短信的概率值，二者相除之后得出的一个综合权重值，如果综合权重值超过一定的阈值，则判断该分词属于垃圾短信的概率较高。

本发明的上述实施例中，对所述备选的分词特征向量，通过音近字、形近字和组合词的提取，产生拦截垃圾短信的规则来拦截垃圾短信的步骤具体包括：

步骤301，将所有所述备选的分词特征向量中的分词按照相似语音和相似字形进行聚类；

步骤302，将所有聚类后备选的分词特征向量按照字符顺序排序，对排序后的特征向量进行与或规则合并，直到没有出现新的可合并的特征向量，或者迭代次数达到设定的固定的次数；

步骤303，将合并后的特征向量中的基础词替换为其对应的音近同源词组或者形近同源词组，词组之间的分词用“或”的逻辑关系连接，形成拦截垃圾短信的规则；

步骤304，将所述拦截垃圾短信的规则同步给实时垃圾短信拦截系统，当判断接收到的短信满足所述拦截垃圾短信的规则时，则认为是垃圾短信，进行拦截。

本发明的上述实施例中，步骤301的具体实现又包括：

步骤3011，将所有备选的分词特征向量中的分词按照相似的语音进行聚类，形成多类音近同源词组；

步骤3012，对于每一类音近同源词组，取出现频度最高的分词做为对应音近同源词组的基础词，扫描所有的备选分词特征向量，将其中的音近同源词组对应所有分词都替换为基础词；

步骤3013，将所有备选的分词特征向量中的分词按照相似的字形进行聚类，形成形近同源词组；

步骤3014，对于每一类形近同源词组，取出现频度最高的词做为对应形近同源词组的基础词，扫描所有的备选分词特征向量，将其中的分词都替换为基础词。

本发明的具体实施例中，步骤302合并的规则为对于所述特征向量内的分词用逻辑关系“与”连接；对于不同的特征向量之间如果除了一个分词不同，其他分词都是相同的，则两个特征向量可以合并，合并的原则是，相同的分词保留，不同的分词用逻辑关系“或”连接。

为了更好的实现上述目的，如图5所示，本发明实施例还提供了一种垃圾短信的拦截装置，包括：

提取分词模块51，用于获取历史接收短信样本，从所述历史接收短信样本中提取分词，每一所述历史接收短信样本形成一个包括多个分词的分词特征向量；

计算模块52，用于计算所述分词特征向量中各分词属于垃圾短信的权重值，获取每一历史垃圾短信样本中前N个最大权重值所对应的分词，形成备选的分词特征向量；

拦截模块53，用于对所述备选的分词特征向量，通过音近字、形近字和组合词的提取，产生拦截垃圾短信的规则来拦截垃圾短信。

本发明的上述实施例中，提取分词模块包括：

本发明的上述实施例中，计算模块包括：

本发明的上述实施例中，计算单元包括：

W_{Ti} = \frac{P (C 0 | Ti)}{P (Cl | Ti)} = \frac{\frac{P (Ti | C 0) P (C 0)}{P (Ti)}}{\frac{P (Ti | Cl) P (Cl)}{P (Ti)}} = \frac{P (Ti | C 0) P (C 0)}{P (Ti | Cl) P (Cl)}

其中，Ti表示分词，C0表示垃圾短信样本，C1表示非垃圾短信样本。本发明的上述实施例中，拦截模块包括：

本发明的实施例中，聚类单元包括：

需要说明的是，本发明实施例提供的装置应用上述方法，则上述方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种垃圾短信的拦截方法，其特征在于，所述拦截方法包括：

计算所述分词特征向量中各分词属于垃圾短信的权重值，获取每一历史垃圾短信样本中前N个最大权重值所对应的分词，得到备选的分词特征向量；

对所述备选的分词特征向量，通过形近聚类处理、音近聚类处理和合并压缩处理，获得拦截垃圾短信的规则来拦截垃圾短信。

2.如权利要求1所述的垃圾短信的拦截方法，其特征在于，从所述历史接收短信样本中提取分词，形成包括多个分词的分词特征向量的步骤具体包括：

3.如权利要求1所述的垃圾短信的拦截方法，其特征在于，计算所述分词特征向量中各分词属于垃圾短信的权重值，获取每一历史垃圾短信样本中前N个最大权重值所对应的分词，得到备选的分词特征向量的步骤具体包括：

4.如权利要求3所述的垃圾短信的拦截方法，其特征在于，运用贝叶斯公式计算每个分词属于垃圾短信的权重值的步骤包括：

计算每个分词属于垃圾短信类的概率P(C0|Ti)；

计算每个分词属于非垃圾短信类的概率P(C1|Ti)；

计算每个分词在所有垃圾短信样本中出现的概率P(Ti|C0)；

计算每个分词在所有非垃圾短信样本中出现的概率P(Ti|C1)；

计算垃圾短信样本占总样本的概率P(C0)；

计算非垃圾短信样本占总样本的概率P(C1)；

根据以下公式计算每个分词属于垃圾短信的权重值：

W_{Ti} = \frac{P (C 0 | Ti)}{P (C 1 | Ti)} = \frac{\frac{P (Ti | C 0) P (C 0)}{P (Ti)}}{\frac{P (Ti | C 1) P (C 1)}{P (Ti)}} = \frac{P (Ti | C 0) P (C 0)}{P (Ti | C 1) P (C 1)} .

5.如权利要求1所述的垃圾短信的拦截方法，其特征在于，对所述备选的分词特征向量，通过形近聚类处理、音近聚类处理和合并压缩处理，获得拦截垃圾短信的规则来拦截垃圾短信的步骤具体包括：

6.如权利要求5所述的垃圾短信的拦截方法，其特征在于，将所有所述备选的分词特征向量中的分词按照相似语音和相似的字形进行聚类的步骤包括：

对于每一类音近同源词组，取出现频度最高的分词做为对应音近同源词组的基础词，扫描所有的备选分词特征向量，将其中音近同源词组对应的所有分词都替换为基础词；

对于每一类形近同源词组，取出现频度最高的分词做为对应形近同源词组的基础词，扫描所有的备选分词特征向量，将其中形近同源词组对应的所有分词都替换为基础词。

7.一种垃圾短信的拦截装置，其特征在于，包括：

计算模块，用于计算所述分词特征向量中各分词属于垃圾短信的权重值，获取每一历史垃圾短信样本中前N个最大权重值所对应的分词，得到备选的分词特征向量；

8.如权利要求7所述的垃圾短信的拦截装置，其特征在于，所述提取分词模块包括：

9.如权利要求7所述的垃圾短信的拦截装置，其特征在于，所述计算模块包括：

10.如权利要求9所述的垃圾短信的拦截装置，其特征在于，所述计算单元包括：

W_{Ti} = \frac{P (C 0 | Ti)}{P (C 1 | Ti)} = \frac{\frac{P (Ti | C 0) P (C 0)}{P (Ti)}}{\frac{P (Ti | C 1) P (C 1)}{P (Ti)}} = \frac{P (Ti | C 0) P (C 0)}{P (Ti | C 1) P (C 1)}

11.如权利要求7所述的垃圾短信的拦截装置，其特征在于，所述拦截模块包括：

12.如权利要求11所述的垃圾短信的拦截装置，其特征在于，所述聚类单元包括：