CN104462115A

CN104462115A - 垃圾短信的识别方法及装置

Info

Publication number: CN104462115A
Application number: CN201310425581.9A
Authority: CN
Inventors: 严春霞; 丁岩; 冯军; 单娜
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2013-09-17
Filing date: 2013-09-17
Publication date: 2015-03-25
Also published as: EP3048539A4; WO2015039478A1; EP3048539A1; US20160232452A1

Abstract

本发明公开了一种垃圾短信的识别方法及装置，在上述方法中，在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率；在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率；根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。根据本发明提供的技术方案，提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率，降低了垃圾短信的误报率和漏报率。

Description

垃圾短信的识别方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种垃圾短信的识别方法及装置。

背景技术

目前，手机用户几乎每日都会接收到不同数量的垃圾短信，经常被垃圾短信所困扰。虽然，运营商每年都在扩大治理资金和人力的投入，但是随着不法分子所采取的规避手段多样化与散播渠道多样化，运营商所采取的监控垃圾短信措施的投入产出比呈逐年下降趋势，尤其是在垃圾短信的挖掘方面更是存在诸多问题。在上述问题中，短信数据量大，无法准确挖掘垃圾短信是其中最为突出的一个难题。

由此可见，相关技术中缺乏一种能够准确挖掘垃圾短信的技术方案。

发明内容

本发明提供了一种垃圾短信的识别方法及装置，以至少解决相关技术中由于短信数据量大而无法准确挖掘垃圾短信的问题。

根据本发明的一个方面，提供了一种垃圾短信的识别方法。

根据本发明的垃圾短信的识别方法包括：在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率；在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率；根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。

优选地，从短信集合中识别出垃圾短信集合包括：采用以下公式计算每条短信的分类权重typeweight：其中，P(C0)为垃圾短信样本集中的短信总量，P(C1)为非垃圾短信样本集中的短信总量，P(Wt︱C0)为第一条件概率，P(Wt︱C1)为第二条件概率，n为每条短信所包含的分词数量，N为每条短信在短信集合中重复出现的次数，Wt属于第一特征词集合或者第二特征词集合；根据分类权重与预设阈值的比较结果识别出垃圾短信集合，其中，垃圾短信集合中的每条垃圾短信的分类权重均大于预设阈值，预设阈值为P(C0)与P(C1)的比值。

优选地，获取第一特征词集合以及第一条件概率包括：对垃圾短信样本集进行预处理；对垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；根据在每条短信样本中每个分词出现的次数统计每个分词在垃圾短信样本集中出现的次数；根据统计出的次数与垃圾短信样本集中短信样本总量的比值计算第一条件概率；采用统计出的次数与第一条件概率计算每个分词在垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前N个分词作为第一特征词集合，其中，N为正整数。

优选地，获取第二特征词集合以及第二条件概率包括：对非垃圾短信样本集进行预处理；对非垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；根据在每条短信样本中每个分词出现的次数统计每个分词在非垃圾短信样本集中出现的次数；根据统计出的次数与非垃圾短信样本集中短信样本的总量的比值计算第二条件概率；采用统计出的次数与第二条件概率计算每个分词在非垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前N个分词作为第二特征词集合，其中，N为正整数。

优选地，在从短信集合中识别出垃圾短信集合之后，还包括：获取发送垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条垃圾短信的被叫号码；对获取到的主叫号码和被叫号码进行监控。

优选地，上述方法应用于hadoop平台，在hadoop平台上对短信集合中的各条短信进行并行处理。

根据本发明的另一方面，提供了一种垃圾短信的识别装置。

根据本发明的垃圾短信的识别装置包括：第一获取模块，用于在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率；第二获取模块，用于在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率；识别模块，用于根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。

优选地，识别模块包括：第一计算单元，用于采用以下公式计算每条短信的分类权重typeweight：其中，P(C0)为垃圾短信样本集中的短信总量，P(C1)为非垃圾短信样本集中的短信总量，P(Wt︱C0)为第一条件概率，P(Wt︱C1)为第二条件概率，n为每条短信所包含的分词数量，N为每条短信在短信集合中重复出现的次数，Wt属于第一特征词集合或者第二特征词集合；识别单元，用于根据分类权重与预设阈值的比较结果识别出垃圾短信集合，其中，垃圾短信集合中的每条垃圾短信的分类权重均大于预设阈值，预设阈值为P(C0)与P(C1)的比值。

优选地，第一获取模块包括：第一预处理单元，用于对垃圾短信样本集进行预处理；第一分词处理单元，用于对垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；第一统计单元，用于根据在每条短信样本中每个分词出现的次数统计每个分词在垃圾短信样本集中出现的次数；第二计算单元，用于根据统计出的次数与垃圾短信样本集中的短信样本总量的比值计算第一条件概率；第一选取单元，用于采用统计出的次数与第一条件概率计算每个分词在垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前N个分词作为第一特征词集合，其中，N为正整数。

优选地，第二获取模块包括：第二预处理单元，用于对非垃圾短信样本集进行预处理；第二分词处理单元，用于对非垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；第二统计单元，用于根据在每条短信样本中每个分词出现的次数统计每个分词在非垃圾短信样本集中出现的次数；第三计算单元，用于根据统计出的次数与非垃圾短信样本集中短信样本的总量的比值计算第二条件概率；第二选取单元，用于采用统计出的次数与第二条件概率计算每个分词在非垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前N个分词作为第二特征词集合，其中，N为正整数。

优选地，上述装置还包括：第三获取模块，用于获取发送垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条垃圾短信的被叫号码；监控模块，用于对获取到的主叫号码和被叫号码进行监控。

优选地，上述装置应用于hadoop平台，在hadoop平台上对短信集合中的各条短信进行并行处理。

通过本发明，采用在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率；在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率；根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数以及上述获取到的第一特征词集合、第二特征词集合、第一条件概率、第二条件概率可以从短信集合中更加准确地识别出垃圾短信集合，由此解决了相关技术中由于短信数据量大而无法准确挖掘垃圾短信的问题，进而提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率，降低了垃圾短信的误报率和漏报率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的垃圾短信的识别方法的流程图；

图2是根据本发明实施例的垃圾短信的识别装置的结构框图；

图3是根据本发明优选实施例的垃圾短信的识别装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1是根据本发明实施例的垃圾短信的识别方法的流程图。如图1所示，该方法可以包括以下处理步骤：

步骤S102：在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率；

步骤S104：在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率；

步骤S106：根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。

相关技术中，由于短信数据量大而无法准确挖掘垃圾短信。采用如图1所示的方法，在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率；在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率；根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数以及上述获取到的第一特征词集合、第二特征词集合、第一条件概率、第二条件概率可以从短信集合中更加准确地识别出垃圾短信集合，由此解决了相关技术中由于短信数据量大而无法准确挖掘垃圾短信的问题，进而提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率，降低了垃圾短信的误报率和漏报率。

在优选实施过程中，上述方法应用于hadoop平台，在hadoop平台上对短信集合中的各条短信进行并行处理。

优选地，在步骤S106中，从短信集合中识别出垃圾短信集合可以包括以下操作：

步骤S1：采用以下公式计算每条短信的分类权重typeweight：

typeweight = \frac{{P (C 0) (Π_{i = 1}^{n} P (Wt | C 0))}^{N}}{P (C 1) {(Π_{i = 1}^{n} P (Wt | C 1))}^{N}}

其中，P(C0)为垃圾短信样本集中的短信总量，P(C1)为非垃圾短信样本集中的短信总量，P(Wt︱C0)为第一条件概率，P(Wt︱C1)为第二条件概率，n为每条短信所包含的分词数量，N为每条短信在短信集合中重复出现的次数，Wt属于第一特征词集合或者第二特征词集合；

步骤S2：根据分类权重与预设阈值的比较结果识别出垃圾短信集合，其中，垃圾短信集合中的每条垃圾短信的分类权重均大于预设阈值，预设阈值为P(C0)与P(C1)的比值。

在优选实施例中，在从数据源接收到上述短信集合后，首先，需要对短信消息进行归并，将消息内容相同的短信进行汇总，输出短信内容以及短信出现的次数。其次，计算短信的分类权重，并对短信进行分类。然后，分别对上述短信集合中每条短信的短信内容进行如下预处理：

①进行噪声处理，删除空格、标点符号等特殊字符，仅剩下中文和数字；

②过滤掉停用词，例如：语气词（如：啊、呢），连词（如：并且、或者），助词（如：的、地）。

③进行IK分词处理，将短信内容存储在Dx向量。

计算分类权重typeWeight=P(C0|Dx)/P(C1|Dx)，

\frac{P (C 0 | Dx)}{P (C 1 | Dx)} = \frac{P (C 0) {(Π_{t = 1}^{n} P (Wt | C 0))}^{N}}{P (C 1) {(Π_{t = 1}^{n} P (Wt | C 1))}^{N}}

其中，P(C0)为垃圾短信样本集中的短信总量，P(C1)为非垃圾短信样本集中的短信总量，P(Wt︱C0)为第一条件概率，P(Wt︱C1)为第二条件概率，n为Dx向量内不同分词的数量，N为每条短信在短信集合中重复出现的次数，Wt属于第一特征词集合或者第二特征词集合。

需要说明的是，如果短信内容在分词处理之后所获得的新分词Wt不属于第一特征词集合和/或第二特征词集合，则可以按照下面的规则进行计算：

（1）当特征词Wt仅出现在正常短信样本集中，P(Wt|C0)可以按照拉普拉斯系数计算或者以P(Wt|C1)为基础降低两个数量级。

（2）当特征词Wt仅出现在垃圾短信样本集中，P(Wt|C1)可以按照拉普拉斯系数计算或者选取正常短信样本集中最低词频概率。

此外，根据实际效果设定一个阈值，如果分类权重大于该阈值，则认为该条短信为垃圾短信，作为结果输出。该阈值需要根据实际效果进行实时调整。

优选地，在步骤S102中，获取第一特征词集合以及第一条件概率可以包括以下步骤：

步骤S3：对垃圾短信样本集进行预处理；

步骤S4：对垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；

步骤S5：根据在每条短信样本中每个分词出现的次数统计每个分词在垃圾短信样本集中出现的次数；

步骤S6：根据统计出的次数与垃圾短信样本集中短信样本总量的比值计算第一条件概率；

步骤S7：采用统计出的次数与第一条件概率计算每个分词在垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前N个分词作为第一特征词集合，其中，N为正整数。

在优选实施例中，获取垃圾短信样本集的分词集合以及每个分词在垃圾短信样本集中出现的次数可以包含如下处理内容：

（1）对垃圾短信样本集进行预处理：

①剔除内容过短的消息，例如：假设短信内容少于10个字，则剔除该条消息；

②进行噪声处理，删除空格、标点符号等特殊字符，仅剩下中文和数字；

③过滤掉停用词。

（2）对垃圾短信进行IK分词处理，输出每条垃圾短信中包含的分词以及分词个数。

（3）统计各个分词在垃圾短信样本集中出现的次数，并且输出各个分词以及在垃圾短信样本集中出现的次数。

最后，根据条件概率公式P(Wt|C0)=分词Wt在垃圾短信样本集中出现的次数/垃圾短信样本集中的垃圾短信总条数C0，计算分词在垃圾短信样本集中的权重，并且根据权重排名输出TopN作为特征词，其中，N的具体取值需要根据实际情况而定。

优选地，在步骤S104中，获取第二特征词集合以及第二条件概率可以包括以下操作：

步骤S8：对非垃圾短信样本集进行预处理；

步骤S9：对非垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；

步骤S10：根据在每条短信样本中每个分词出现的次数统计每个分词在非垃圾短信样本集中出现的次数；

步骤S11：根据统计出的次数与非垃圾短信样本集中短信样本的总量的比值计算第二条件概率；

步骤S12：采用统计出的次数与第二条件概率计算每个分词在非垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前N个分词作为第二特征词集合，其中，N为正整数。

在优选实施例中，获取正常（即非垃圾）短信样本集的分词集合以及每个分词在正常短信样本集中出现的次数可以包含如下处理内容：

（1）对正常短信样本集进行预处理，包括以下几项：

③过滤掉停用词。

（2）对正常短信进行IK分词处理，输出每条正常短信中包含的分词以及分词个数。

（3）统计各个分词在正常短信样本集中出现的次数，并且输出各个分词以及在正常短信样本集中出现的次数。

最后，根据条件概率公式P(Wt|C1)=分词Wt在正常短信样本集中出现的次数/正常短信样本集中的正常短信总条数C1，计算分词在正常短信样本集中的权重，并且根据权重排名输出Top N作为特征词，其中，N的具体取值需要根据实际情况而定。

在优选实施过程中，上述步骤S102与步骤S104可以并行处理。

优选地，在步骤S106，从短信集合中识别出垃圾短信集合之后，还可以包括以下步骤：

步骤S13：获取发送垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条垃圾短信的被叫号码；

步骤S14：对获取到的主叫号码和被叫号码进行监控。

在优选实施例中，还可以根据上面输出的垃圾短信结果对待处理的短信进行二次挖掘，以获取发送和/或接收过上述垃圾短信内容的全部手机号码以及每个手机号码发送和/或接收过的全部短信内容。

作为本发明的优选实施方式，下面全部操作均需要在Hadoop大数据平台上进行，是由Hadoop一连串的作业实现的上述功能。Hadoop作业又可以进一步分为map和reduce两个过程。map和reduce如果不进行配置，则均可以采用缺省map和reduce进行处理。

作业一：对垃圾短信样本集进行预处理、获取垃圾短信样本集的分词集合以及每个分词在垃圾短信样本集中出现的次数。

map的输入：垃圾短信样本集

每条输入短信的内容如表1所示：

表1

对输入短信的内容进行map处理：

对UserData字段进行如下处理：

③过滤掉停用词；

④对垃圾短信进行IK分词处理，以每个分词为key，其value为1。

对输入短信的内容进行map输出，如表2所示：

表2

Key	Value
		分词	1

map的输出结果经过Hadoop默认中间处理成为reduce的输入，具体如下：

对map的输出结果进行reduce输入如表3所示：

表3

Key	Value
		分词	List(1,1...)

reduce处理过程如下：

根据不同的分词遍历List数据进行相加，获得此分词的出现次数n，以“spam_”为前缀与n组成字符串为value。

reduce的输出结果如表4所示：

表4

Key	Value
		分词	spam_n

作业二：对正常短信样本集进行预处理，获取正常短信样本集的分词集合以及每个分词在正常短信样本集中出现的次数。

map的输入：正常短信样本集

每条输入短信的内容如表5所示：

表5

对输入短信的内容（UserData字段）进行map处理：

③过滤掉停用词；

④对正常短信进行IK分词处理，以每个分词为key，其value为1。

对输入短信的内容进行map输出如表6所示：

表6

Key	Value
		分词	1

对map的输出结果进行reduce输入如表7所示：

表7

Key	Value
		分词	List(1,1...)

reduce处理过程如下：

根据不同的分词遍历List数据进行相加，获得此分词的出现次数n，以“normal_”为前缀与n组成字符串为value。

reduce的输出结果如表8所示：

表8

Key	Value
		分词	normal_n

需要说明的是，上述作业一与作业二完全可以同步进行。

作业三：垃圾短信样本集分词权重获取

map输入为：垃圾短信样本集分词，如表9所示，

表9

Key	Value
		分词	spam_n

其map操作过程如下：

根据条件概率公式P(Wt|C0)=分词Wt在垃圾短信样本集中出现的次数/垃圾短信样本集中的垃圾短信总条数C0，计算分词在垃圾短信样本集中的权重，并且根据权重排名输出Top N作为特征词，其中，N的具体取值需要根据实际情况而定。

map的输出结果如表10所示：

表10

Key	Value
		分词	P(Wt\|C0)，spam_n

作业四：正常短信样本集分词权重获取

map输入为：正常短信样本集分词，如表11所示，

表11

Key	Value
		分词	normal_n

其map操作过程如下：

根据条件概率公式P(Wt|C1)=分词Wt在正常短信样本集中出现的次数/正常短信样本集中的正常短信总条数C1，计算分词在正常短信样本集中的权重，并且根据权重排名输出Top N作为特征词，其中，N的具体取值需要根据实际情况而定。

map的输出结果如表12所示：

表12

Key	Value
		分词	P(Wt\|C1)，normal_n

需要说明的是，作业三与作业四的输出结果会分别存放在两个不同的cache中，以便后续使用。而且，作业三与作业四同样可以同步执行。

作业五：对待处理短信消息进行归并处理

map输入为：待处理的短信消息

每条短信输入的内容如表13所示：

表13

map操作过程如下：

将上述数据源UserData-短信内容设置为key，并将其value设置为1。

map的输出结果如表14所示：

表14

Key	Value
		短信内容	1

reduce输入如表15所示：

表15

Key	Value
		短信内容	List(1,1...)

reduce的操作过程如下：

根据不同的key遍历List数据进行相加，获得此条消息在新的待分类消息集合出现的次数，并与消息内容加以组合作为value。

reduce的输出结果如表16所示：

表16

Key	Value
		短信内容	N_短信内容

作业六：计算短消息分类权重并进行分类

map输入：归并后短消息文本列表，如表17所示，

表17

Key	Value
		短信内容	N_短信内容

map的操作过程：

对上面的数据源短信内容进行预处理并进行IK分词处理，然后将消息内容存储在Dx向量中，例如：

Dx={联系，发票，电话，138999990111，……}

计算分类权重typeWeight=P(C0|Dx)/P(C1|Dx)，其中，n为Dx向量内不同分词的数量，N为该短信重复出现的次数。P(Wt|C0)和P(Wt|C1)基于上述样本库计算取得的结果。如果短信内容在分词之后所获得的新分词Wt不在步骤1得到的特征词集合内，则可以按照下面的规则进行计算：

\frac{P (C 0 | Dx)}{P (C 1 | Dx)} = \frac{P (C 0) {(Π_{t = 1}^{n} P (Wt | C 0))}^{N}}{P (C 1) {(Π_{t = 1}^{n} P (Wt | C 1))}^{N}}

（1）当特征词仅出现在正常短信样本集中，P(Wt|C0)可以按照拉普拉斯系数计算或者以P(Wt|C1)为基础降低两个数量级。

（2）当特征词仅出现在垃圾短信样本集中，P(Wt|C1)可以按照拉普拉斯系数计算或者选取正常短信样本集中最低词频概率。

map的输出结果如表18所示：

表18

Key	Value
		短信内容	typeWeight

将消息内容和typeWeight输出至文件并且按照typeWeight的排序结果，对于大于K的记录被划分为垃圾短信，其中，K=P(C0)/P(C1)，具体的K值可以根据实际效果进行实时调整。而输出结果可以作为下一步骤的Cache输入，其命名为job6_ResultCache。

作业七：分类结果再挖掘

map输入为：待处理短信消息

每条输入短信的内容如表19所示：

表19

map的操作过程如下：

对上面的数据源UserData-短信内容作为key，从job6_ResultCache中读取输出结果，如果输出结果不为空，则可以将短信内容作为key，主叫号码_被叫号码作为value输出；否则，不输出任何结果。

map的输出结果如表20所示：

表20

Key	Value
		短信内容	主叫号码_被叫号码

reduce的输入如表21所示：

表21

reduce的操作过程如下：

根据不同的key遍历List数据以“；”将各个元素连接起来，以短信内容为key。

reduce的输出结果如表22所示：

表22

图2是根据本发明实施例的垃圾短信的识别装置的结构框图。如图1所示，该垃圾短信的识别装置可以包括：第一获取模块10，用于在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率；第二获取模块20，用于在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率；识别模块30，用于根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。

采用如图2所示的装置，解决了相关技术中由于短信数据量大而无法准确挖掘垃圾短信的问题，进而提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率，降低了垃圾短信的误报率和漏报率。

在优选实施过程中，上述装置应用于hadoop平台，在hadoop平台上对短信集合中的各条短信进行并行处理。

优选地，如图3所示，识别模块30可以包括：第一计算单元300，用于采用以下公式计算每条短信的分类权重typeweight：其中，P(C0)为垃圾短信样本集中的短信总量，P(C1)为非垃圾短信样本集中的短信总量，P(Wt︱C0)为第一条件概率，P(Wt︱C1)为第二条件概率，n为每条短信所包含的分词数量，N为每条短信在短信集合中重复出现的次数，Wt属于第一特征词集合或者第二特征词集合；识别单元302，用于根据分类权重与预设阈值的比较结果识别出垃圾短信集合，其中，垃圾短信集合中的每条垃圾短信的分类权重均大于预设阈值，预设阈值为P(C0)与P(C1)的比值。

优选地，如图3所示，第一获取模块10可以包括：第一预处理单元100，用于对垃圾短信样本集进行预处理；第一分词处理单元102，用于对垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；第一统计单元104，用于根据在每条短信样本中每个分词出现的次数统计每个分词在垃圾短信样本集中出现的次数；第二计算单元106，用于根据统计出的次数与垃圾短信样本集中的短信样本总量的比值计算第一条件概率；第一选取单元108，用于采用统计出的次数与第一条件概率计算每个分词在垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前N个分词作为第一特征词集合，其中，N为正整数。

优选地，如图3所示，第二获取模块20可以包括：第二预处理单元200，用于对非垃圾短信样本集进行预处理；第二分词处理单元202，用于对非垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；第二统计单元204，用于根据在每条短信样本中每个分词出现的次数统计每个分词在非垃圾短信样本集中出现的次数；第三计算单元206，用于根据统计出的次数与非垃圾短信样本集中短信样本的总量的比值计算第二条件概率；第二选取单元208，用于采用统计出的次数与第二条件概率计算每个分词在非垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前N个分词作为第二特征词集合，其中，N为正整数。

优选地，如图3所示，上述装置还可以包括：第三获取模块40，用于获取发送垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条垃圾短信的被叫号码；监控模块50，用于对获取到的主叫号码和被叫号码进行监控。

从以上的描述中，可以看出，上述实施例实现了如下技术效果（需要说明的是这些效果是某些优选实施例可以达到的效果）：本发明实施例所提供的技术方案能够基于大数据平台和IK智能分词，从短信内容入手对垃圾短信进行分析，其中，可以包括：垃圾短信的发送频率信息，同时还可以避免由于主叫号码或者被叫号码发生变化所带来的监控干扰。对于正常短信样本和垃圾短信样本分别进行分词统计，分别计算出分词在两者中的权重值，再对待处理的短信内容进行分词处理，使用贝叶斯算法计算此条短信的分类权重，如果超过预设阈值，则可以判定为垃圾短信。最后，对于已经获知的垃圾短信还可以再进行二次挖掘，再次对主叫号码和相同短信内容的话单进行汇总，从而挖掘发送垃圾短信的号码群组以及被叫号码群组，以便于运营商对其进行分析和执行下一步操作。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种垃圾短信的识别方法，其特征在于，包括：

在所述垃圾短信样本集中获取第一特征词集合以及在所述第一特征词集合中每个特征词的第一条件概率；

在所述非垃圾短信样本集中获取第二特征词集合以及在所述第二特征词集合中每个特征词的第二条件概率；

根据待处理的短信集合中每条短信所包含的分词数量、所述每条短信在所述短信集合中重复出现的次数、所述第一特征词集合、所述第二特征词集合、所述第一条件概率以及所述第二条件概率从所述短信集合中识别出垃圾短信集合。

2.根据权利要求1所述的方法，其特征在于，从所述短信集合中识别出所述垃圾短信集合包括：

采用以下公式计算所述每条短信的分类权重typeweight：

typeweight = \frac{{P (C 0) (Π_{i = 1}^{n} P (Wt | C 0))}^{N}}{P (C 1) {(Π_{i = 1}^{n} P (Wt | C 1))}^{N}}

其中，P(C0)为所述垃圾短信样本集中的短信总量，P(C1)为所述非垃圾短信样本集中的短信总量，P(Wt︱C0)为所述第一条件概率，P(Wt︱C1)为所述第二条件概率，n为所述每条短信所包含的分词数量，N为所述每条短信在所述短信集合中重复出现的次数，Wt属于所述第一特征词集合或者所述第二特征词集合；

根据所述分类权重与预设阈值的比较结果识别出所述垃圾短信集合，其中，所述垃圾短信集合中的每条垃圾短信的分类权重均大于所述预设阈值，所述预设阈值为P(C0)与P(C1)的比值。

3.根据权利要求1所述的方法，其特征在于，获取所述第一特征词集合以及所述第一条件概率包括：

对所述垃圾短信样本集进行预处理；

对所述垃圾短信样本集中的每条短信样本进行分词处理，获取所述每条短信样本中包含的各个分词的内容以及每个分词出现的次数；

根据在所述每条短信样本中每个分词出现的次数统计每个分词在所述垃圾短信样本集中出现的次数；

根据统计出的次数与所述垃圾短信样本集中短信样本总量的比值计算所述第一条件概率；

采用所述统计出的次数与所述第一条件概率计算所述每个分词在所述垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前N个分词作为所述第一特征词集合，其中，N为正整数。

4.根据权利要求1所述的方法，其特征在于，在所述非垃圾短信样本集中获取所述第二特征词集合以及所述第二条件概率包括：

对所述非垃圾短信样本集进行预处理；

对所述非垃圾短信样本集中的每条短信样本进行分词处理，获取所述每条短信样本中包含的各个分词的内容以及每个分词出现的次数；

根据在所述每条短信样本中每个分词出现的次数统计每个分词在所述非垃圾短信样本集中出现的次数；

根据统计出的次数与所述非垃圾短信样本集中短信样本的总量的比值计算所述第二条件概率；

采用所述统计出的次数与所述第二条件概率计算所述每个分词在所述非垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前N个分词作为所述第二特征词集合，其中，N为正整数。

5.根据权利要求1所述的方法，其特征在于，在从所述短信集合中识别出所述垃圾短信集合之后，还包括：

获取发送所述垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收所述垃圾短信集合中一条或多条垃圾短信的被叫号码；

对获取到的主叫号码和被叫号码进行监控。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法应用于hadoop平台，在所述hadoop平台上对所述短信集合中的各条短信进行并行处理。

7.一种垃圾短信的识别装置，其特征在于，包括：

第一获取模块，用于在所述垃圾短信样本集中获取第一特征词集合以及在所述第一特征词集合中每个特征词的第一条件概率；

第二获取模块，用于在所述非垃圾短信样本集中获取第二特征词集合以及在所述第二特征词集合中每个特征词的第二条件概率；

识别模块，用于根据待处理的短信集合中每条短信所包含的分词数量、所述每条短信在所述短信集合中重复出现的次数、所述第一特征词集合、所述第二特征词集合、所述第一条件概率以及所述第二条件概率从所述短信集合中识别出垃圾短信集合。

8.根据权利要求7所述的装置，其特征在于，所述识别模块包括：

第一计算单元，用于采用以下公式计算所述每条短信的分类权重typeweight：

typeweight = \frac{{P (C 0) (Π_{i = 1}^{n} P (Wt | C 0))}^{N}}{P (C 1) {(Π_{i = 1}^{n} P (Wt | C 1))}^{N}}

识别单元，用于根据所述分类权重与预设阈值的比较结果识别出所述垃圾短信集合，其中，所述垃圾短信集合中的每条垃圾短信的分类权重均大于所述预设阈值，所述预设阈值为P(C0)与P(C1)的比值。

9.根据权利要求7所述的装置，其特征在于，所述第一获取模块包括：

第一预处理单元，用于对所述垃圾短信样本集进行预处理；

第一分词处理单元，用于对所述垃圾短信样本集中的每条短信样本进行分词处理，获取所述每条短信样本中包含的各个分词的内容以及每个分词出现的次数；

第一统计单元，用于根据在所述每条短信样本中每个分词出现的次数统计每个分词在所述垃圾短信样本集中出现的次数；

第二计算单元，用于根据统计出的次数与所述垃圾短信样本集中的短信样本总量的比值计算所述第一条件概率；

第一选取单元，用于采用所述统计出的次数与所述第一条件概率计算所述每个分词在所述垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前N个分词作为所述第一特征词集合，其中，N为正整数。

10.根据权利要求7所述的装置，其特征在于，所述第二获取模块包括：

第二预处理单元，用于对所述非垃圾短信样本集进行预处理；

第二分词处理单元，用于对所述非垃圾短信样本集中的每条短信样本进行分词处理，获取所述每条短信样本中包含的各个分词的内容以及每个分词出现的次数；

第二统计单元，用于根据在所述每条短信样本中每个分词出现的次数统计每个分词在所述非垃圾短信样本集中出现的次数；

第三计算单元，用于根据统计出的次数与所述非垃圾短信样本集中短信样本的总量的比值计算所述第二条件概率；

第二选取单元，用于采用所述统计出的次数与所述第二条件概率计算所述每个分词在所述非垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前N个分词作为所述第二特征词集合，其中，N为正整数。

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第三获取模块，用于获取发送所述垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收所述垃圾短信集合中一条或多条垃圾短信的被叫号码；

监控模块，用于对获取到的主叫号码和被叫号码进行监控。

12.根据权利要求7至11中任一项所述的装置，其特征在于，所述装置应用于hadoop平台，在所述hadoop平台上对所述短信集合中的各条短信进行并行处理。