CN109413595B

CN109413595B - 一种垃圾短信的识别方法、装置及存储介质

Info

Publication number: CN109413595B
Application number: CN201710705910.3A
Authority: CN
Inventors: 张滨; 娄涛; 林华生; 贾强; 周莹
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2017-08-17
Filing date: 2017-08-17
Publication date: 2020-09-25
Anticipated expiration: 2037-08-17
Also published as: CN109413595A

Abstract

本发明实施例公开了一种垃圾短信的识别方法、装置及存储介质；该方法可以包括：根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器；其中，所述指示信息用于指示所述短信样本是否为垃圾短信；将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练，得到训练后的第二指纹库和训练后的第二分类器；基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证，确定所述待验证短信的验证结果；其中，所述验证结果包括所述待验证短信为垃圾短信，或所述待验证短信不为垃圾短信。能够实现两种垃圾短信识别技术的互补，也同样能够提高识别的成功率。

Description

一种垃圾短信的识别方法、装置及存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种垃圾短信的识别方法、装置及存储介质。

背景技术

随着短信业务的发展，越来越多的用户收到了垃圾短信的骚扰。目前对于垃圾短信的识别技术，通常采用的是基于机器学习的识别方法，这样的方法需要对大量的经人工标定的短信样本进行学习，使机器具有自动对短信进行分类的能力。

目前基于机器学习的垃圾短信识别方法主要分为指纹匹配方式和分类器方式两类。其中，指纹匹配方式是一种模糊匹配方法，其原理是，首先基于SimHash等去重算法提取已标定短信样本的指纹特征，并根据标定的短信类别(例如垃圾短信、正常短信等)将所提取的指纹入库；对于待判定短信采取同样的方式提取特征，将待判定短信的特征与指纹库中的短信指纹进行模糊匹配，匹配成功的即可判定为垃圾短信(或正常短信)。而分类器方式则是一种基于特征建模的方法，首先将待学习的短信进行分词，具体的分词方式可以基于词特征，例如“今天/是/一个/好/日子”，或基于字特征，例如“今/天/是/一/个/好/日/子”，接着采用适当的特征(比如一元词频特征或二元词频特征)，对海量标定好的短信样本进行训练学习，形成垃圾短信、正常短信等不同语言模型，结合贝叶斯、支持向量机(SVM，Support Vector Machine)等分类方法组成分类器，再分别利用这些分类器对待判定短信进行打分，根据分数对待判定短信进行分类。

上述两种基于机器学习的垃圾短信识别方法均需要提供大量准确的已标定的短信样本进行学习，已标定的样本数量越多，标定越精确，短信样本的内容与现网样本越相近，识别的效果就越理想，这就要求已标定的样本应当随着识别技术的应用情况进行不断更新。由于需要进行标定的短信样本数量极大，且需要定期进行更新，所以在实际应用中，对标定的短信样本出现标定错误的情况时有发生，影响了识别系统的准确性。而且，垃圾短信识别方法涉及到对垃圾短信的过滤，由于垃圾短信识别方法对于识别准确性的要求较高，因此，在提高识别准确性的同时，也需要考虑标定样本对识别结果产生扰动误差的情况。

发明内容

为解决上述技术问题，本发明实施例期望提供一种垃圾短信的识别方法、装置及存储介质，能够降低对短信样本进行标定错误的情况发生，提升垃圾短信的识别准确率。

本发明的技术方案是这样实现的：

第一方面，本发明实施例提供了一种垃圾短信的识别方法，所述方法包括：

根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器；其中，所述指示信息用于指示所述短信样本是否为垃圾短信；

将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练，得到训练后的第二指纹库和训练后的第二分类器；

基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证，确定所述待验证短信的验证结果；

其中，所述验证结果包括所述待验证短信为垃圾短信，或所述待验证短信不为垃圾短信。

在上述方案中，所述根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器，包括：

获取所述短信样本库中每条短信样本的SimHash信息指纹；

按照设定的相似度剔除策略从所有的SimHash信息指纹中剔除相似的SimHash信息指纹；

按照短信样本对应的指示信息将剔除后的SimHash信息指纹生成第一指纹库；其中，所述第一指纹库包括第一黑指纹库和第一白指纹库；所述第一黑指纹库中的SimHash信息指纹所对应的短信样本为垃圾短信；所述第一白指纹库中的SimHash信息指纹所对应的短信样本为非垃圾短信；

根据所述短信样本库中的每条短信样本提取短信词频特征；

根据所述短信样本库中的每条短信样本对应的指示信息以及所述短信词频特征通过设定的训练策略生成第一分类器；其中，所述第一分类器包括第一黑分类器和第一白分类器。

在上述方案中，所述按照设定的相似度剔除策略从所有的SimHash信息指纹中剔除相似的SimHash信息指纹，包括：

从所有的SimHash信息指纹中生成SimHash信息指纹对；其中，每个SimHash信息指纹对中包含两个SimHash信息指纹；

计算每个SimHash信息指纹对中两个SimHash信息指纹之间的相似度度量值；

当所述相似度度量值小于或等于预设的阈值时，将两个SimHash信息指纹中的任一个进行剔除；

当所述相似度度量值大于预设的阈值时，将两个SimHash信息指纹均进行保留。

在上述方案中，将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练，得到训练后的第二指纹库和训练后的第二分类器，可以包括：

所述短信样本库中每条短信样本的SimHash信息指纹与第一指纹库中的SimHash信息指纹进行匹配，在所述短信样本库中确定出现指纹冲突的短信样本；

将出现指纹冲突的短信样本从所述短信样本库中进行剔除，得到第一剔除后短信样本库；

根据第一剔除后短信样本库中的短信样本提取短信词频特征；

通过设定的训练策略按照第一剔除后短信样本库中的垃圾短信样本以及非垃圾短信样本的短信词频特征生成所述第二分类器；其中，第二分类器包括第二黑分类器和第二白分类器。

将所述短信样本库中每条短信样本分别通过第一黑分类器和第一白分类器进行评分，当评分差距在预设的分差阈值内时，确定短信样本为误差样本；

将所述误差样本从所述短信样本库中剔除，得到第二剔除后短信样本库；

获取所述第二剔除后短信样本库中每条短信样本的SimHash信息指纹；

按照设定的相似度剔除策略从所述第二剔除后短信样本库的SimHash信息指纹中剔除相似的SimHash信息指纹；

按照短信样本对应的指示信息将所述第二剔除后短信样本库剔除后的SimHash信息指纹生成所述第二指纹库。

在上述方案中，所述基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证，确定所述待验证短信的验证结果，包括：

获取待验证短信的SimHash信息指纹；

根据预设的相似度判定策略从所述第二指纹库中确定与所述待验证短信的SimHash信息指纹最相似的SimHash信息指纹；

当所述最相似的SimHash信息指纹与所述待验证短信的SimHash信息指纹之间的相似度度量值小于或等于预设的阈值，则所述待验证短信的验证结果确定为所述最相似的SimHash信息指纹对应的指示信息；

当所述最相似的SimHash信息指纹与所述待验证短信的SimHash信息指纹之间的相似度度量值大于预设的阈值，则将所述待验证短信与所述相似度度量值通过所述第二分类器进行判定，确定所述待验证短信的验证结果。

在上述方案中，所述将所述待验证短信与所述相似度度量值通过所述第二分类器进行判定，确定所述待验证短信的指示信息，包括：

将所述待验证短信进行分词，根据分词结果提取所述待验证短信的短信特征；

分别通过所述第二黑分类器和第二白分类器对所述待验证短信进行评分，获得关于所述待验证短信的黑分类器评分x以及白分类器评分y；

确定与所述相似度度量呈正相关关系的判定阈值a；其中，所述判定阈值a大于1；

根据

与a以及

与

之间的大小关系确定所述待验证短信的验证结果。

在上述方案中，所述根据

与a以及

与

之间的大小关系确定所述待验证短信的验证结果，包括：

若

则确定所述待验证短信为垃圾短信；

若

则确定所述待验证短信为非垃圾短信；

若

则通过设定的人工策略确定所述待验证短信的验证结果。

在上述方案中，所述相似度度量值为汉明距离；所述预设的阈值为3。

第二方面，本发明实施例提供了一种装置，所述装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面中任一项所述的方法的步骤。

第三方面，本发明实施例提供了一种计算机可读介质，所述计算机可读介质存储有垃圾短信识别程序，所述垃圾短信识别程序被至少一个处理器执行时实现如第一方面中任一项所述的紧急呼叫的方法的步骤。

本发明实施例提供了一种垃圾短信的识别方法、装置及存储介质，将指纹匹配与分类器进行融合，首先对于指纹库和分类器均通过蝶形交叉训练的方式进行训练，能够从短信样本库中剔除易导致识别错误的疑似误差样本，从而得到更为准确的短信样本库来提高垃圾短信的识别成功率；接着，将待验证短信依次通过指纹库和分类器的验证，从而能够实现两种垃圾短信识别技术的互补，也同样能够提高识别的成功率。

附图说明

图1为本发明实施例提供的一种垃圾短信的识别方法流程示意图；

图2为本发明实施例提供的一种训练阶段处理顺序示意图；

图3为本发明实施例提供的一种生成第一指纹库和第一分类器的流程示意图；

图4为本发明实施例提供的一种生成第二指纹库和第二分类器的流程示意图；

图5为本发明实施例提供的一种测试阶段处理顺序示意图；

图6为本发明实施例提供的一种待验证短信的识别流程示意图；

图7为本发明实施例提供的另一种待验证短信的识别流程示意图；

图8为本发明实施例提供的一种装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例一

参见图1，其示出了本发明实施例提供的一种垃圾短信的识别方法，该方法可以应用于具有垃圾短信识别功能或具有垃圾短信识别需求的网络设备中，该方法可以包括：

S101：根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器；

其中，所述指示信息用于指示短信样本是否为垃圾短信；

S102：将所述短信样本库以及第一指纹库和第一分类器按照设定的蝶形交叉训练策略进行训练，得到训练后的第二指纹库和训练后的第二分类器；

S103：基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证，确定所述待验证短信的验证结果；

对于图1所示的技术方案，需要说明的是，该方案将指纹匹配与分类器进行融合，首先对于指纹库和分类器均通过蝶形交叉训练的方式进行训练，能够从短信样本库中剔除易导致识别错误的疑似误差样本，从而得到更为准确的短信样本库来提高垃圾短信的识别成功率；接着，将待验证短信依次通过指纹库和分类器的验证，从而能够实现两种垃圾短信识别技术的互补，也同样能够提高识别的成功率。

此外，针对图1所示的技术方案，短信样本库中的短信样本可以是全量的短信样本，也可以是针对全量的短信样本进行与处理之后所得到的短信样本，具体的预处理手段可以包括但不限于分词、重复短信剔除、去除特殊符号、过滤干扰字符等等；本实施例对此不作具体限定。

图1所示的技术方案在具体实施过程中，可以理解地，通过S101与S102能够获得进行垃圾短信识别所需的第二指纹库和第二分类器，因此，S101和S102可以合称为训练阶段；由于S103的步骤能够对待验证短信进行验证，因此，S103可以称之为测试阶段。

参见图2所示的训练阶段处理顺序示意图，可以看出，在训练阶段对短信样本进行处理的顺序可以包括两轮训练子阶段：如图2中虚线所示的第一轮训练子阶段，可以通过短信样本库得到第一指纹库和第一分类器；接着在图2中点划线所示的第二轮训练子阶段中，可以使用第一指纹库和第一分类器对短信样本库按照蝶形交叉训练的方式剔除误差样本，从而能够得到更为准确的短信样本库，并且对更为准确的短信样本库分别进行指纹生成以及分类器训练，从而得到最终能够对待验证短信进行验证的第二指纹库和第二分类器。

对于训练阶段来说，在一种可能的实现方式中，参见图3，根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器，具体可以包括：

S1011：获取所述短信样本库中每条短信样本的SimHash信息指纹；

S1012：按照设定的相似度剔除策略从所有的SimHash信息指纹中剔除相似的SimHash信息指纹；

S1013：按照短信样本对应的指示信息将剔除后的SimHash信息指纹生成第一指纹库；

其中，所述第一指纹库包括第一黑指纹库和第一白指纹库；所述第一黑指纹库中的SimHash信息指纹所对应的短信样本为垃圾短信；所述第一白指纹库中的SimHash信息指纹所对应的短信样本为非垃圾短信；

S1014：根据所述短信样本库中的每条短信样本提取短信词频特征；

S1015：根据所述短信样本库中的每条短信样本对应的指示信息以及所述短信词频特征通过设定的训练策略生成第一分类器；

其中，所述第一分类器包括第一黑分类器和第一白分类器。

需要说明的是，S1011至S1013描述了第一指纹库的生成过程，S1014至S1015描述了第一分类器的生成过程，两个过程之间没有先后顺序的限定，两个过程可以同时执行，也可以按照需求先后执行；并且，还需要说明的是，上述两个生成过程中，所使用的短信样本库相同，因此，可以在S1011和S1014之前对短信样本库进行复制，得到两份相同的短信样本库，从而使得第一指纹库的生成过程和第一分类器的生成过程在执行时，均有单独的短信样本库进行处理。

对于上述实现方式，具体来说，按照设定的相似度剔除策略从所有的SimHash信息指纹中剔除相似的SimHash信息指纹，可以包括：

计算每个SimHash信息指纹对中两个SimHash信息指纹之间的汉明距离；

当汉明距离小于或等于预设的阈值时，将两个SimHash信息指纹中的任一个进行剔除；

当汉明距离大于预设的阈值时，将两个SimHash信息指纹均进行保留。

需要说明的是，汉明距离(Hamming distance)可以用于表征两个SimHash信息指纹之间的相似度，因此可以作为相似度的度量值，而本发明实施例仅以汉明距离作为相似度度量值的优选示例，可以理解地，其他能够用于表征相似度的度量值也能够作为本实施例所采用的度量值。此外，在本发明实施例中，预设的阈值优选为3。

对于上述实现方式，具体来说，S1015中所述的训练策略可以包括但不限于贝叶斯、SVM等训练方式，本实施例对此不作具体限定。

可以理解地，上述实现方式为本实施例针对训练阶段中的第一轮训练子阶段的优选示例。

对于训练阶段来说，在另一种可能的实现方式中，参见图4，将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练，得到训练后的第二指纹库和训练后的第二分类器，可以包括：

S1021：将所述短信样本库中每条短信样本的SimHash信息指纹与第一指纹库中的SimHash信息指纹进行匹配，在所述短信样本库中确定出现指纹冲突的短信样本；

具体来说，当短信样本库中短信样本的SimHash信息指纹既与第一指纹库中第一黑指纹库内的SimHash信息指纹匹配，同时也与第一指纹库中第一白指纹库内的SimHash信息指纹匹配，那么就能确定短信样本库中短信样本出现指纹冲突；

S1022：将出现指纹冲突的短信样本从所述短信样本库中进行剔除，得到第一剔除后短信样本库；

S1023：根据第一剔除后短信样本库中的短信样本提取短信词频特征；

S1024：通过设定的训练策略按照第一剔除后短信样本库中的垃圾短信样本以及非垃圾短信样本的短信词频特征生成第二分类器；其中，第二分类器包括第二黑分类器和第二白分类器。

S1025：将所述短信样本库中每条短信样本分别通过第一黑分类器和第一白分类器进行评分，当评分差距在预设的分差阈值内时，确定短信样本为误差样本；

S1026：将所述误差样本从所述短信样本库中剔除，得到第二剔除后短信样本库；

S1027：获取所述第二剔除后短信样本库中每条短信样本的SimHash信息指纹；

S1028：按照设定的相似度剔除策略从所述第二剔除后短信样本库的SimHash信息指纹中剔除相似的SimHash信息指纹；

S1029：按照短信样本对应的指示信息将所述第二剔除后短信样本库剔除后的SimHash信息指纹生成第二指纹库。

需要说明的是，S1021至S1024描述了第二分类器的生成过程，通过指纹匹配剔除出现冲突的指纹后再进行分类器的生成；而S1025至S1029描述了第二指纹库的生成过程，通过分类器评分剔除误差样本之后再进行指纹库的生成。以上两个过程均对指纹样本库通过指纹匹配与分类器交叉剔除，得到更为准确的第二指纹库和第二分类器，两个过程在执行时没有先后顺序的限定，两个过程可以同时执行，也可以按照需求先后执行；并且，还需要说明的是，上述两个生成过程中，所使用的短信样本库相同，因此，可以在S1021和S1024之前对短信样本库进行复制，得到两份相同的短信样本库，从而使得第二指纹库的生成过程和第二分类器的生成过程在执行时，均有单独的短信样本库进行处理。

对于上述训练阶段的描述可以得出，通过蝶形交叉训练的方式能够提成样本库的准确度。在通过上述训练过程得到第二指纹库和第二分类器之后，就能够对待验证短信进行识别。

参见图5所示的测试阶段处理顺序示意图，可以看出，指纹匹配和分类器两种识别算法采用串行融合，待验证短信首先进行指纹对比，若指纹对比能够正确判定且不存在冲突，则输出指纹判定结果；若指纹不能准确判定，则输出指纹对比的相似度参数，由分类器进行打分，分类器根据指纹相似度参数进行判定识别，对于分类器能够进行判定的，则输出判定结果，若不能判定则送人工进行后续标定。

对于测试阶段的详细过程，参见图6，在一种可能的实现方式中，基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证，确定所述待验证短信的验证结果，可以包括：

S1031：获取待验证短信的SimHash信息指纹；

具体来说，在获取SimHash信息指纹之前，还可以优选地对待验证短信进行预处理，具体的预处理手段可以包括但不限于分词、重复短信剔除、去除特殊符号、过滤干扰字符等等；本实施例对此不作具体限定。

S1032：根据预设的相似度判定策略从所述第二指纹库中确定与所述待验证短信的SimHash信息指纹最相似的SimHash信息指纹；

具体来说，可以计算所述第二指纹库中的SimHash信息指纹与所述待验证短信的SimHash信息指纹之间的汉明距离，所述第二指纹库中，与所述待验证短信的SimHash信息指纹之间的汉明距离最小的SimHash信息指纹，则确定为最相似的SimHash信息指纹。因此，相似度度量值则为汉明距离。

S1033：当所述最相似的SimHash信息指纹与所述待验证短信的SimHash信息指纹之间的相似度度量值小于或等于预设的阈值，则所述待验证短信的验证结果确定为所述最相似的SimHash信息指纹对应的指示信息；

优选地，当相似度度量值为汉明距离时，预设的阈值可以为3。

S1034：当所述最相似的SimHash信息指纹与所述待验证短信的SimHash信息指纹之间的相似度度量值大于预设的阈值，则将所述待验证短信与所述相似度度量值通过所述第二分类器进行判定，确定所述待验证短信的验证结果。

具体来说，对于S1034，参见图7，将所述待验证短信与所述相似度度量值通过所述第二分类器进行判定，确定所述待验证短信的指示信息，可以包括：

S10341：将所述待验证短信进行分词，根据分词结果提取所述待验证短信的短信特征；

S10342：分别通过所述第二黑分类器和第二白分类器对所述待验证短信进行评分，获得关于所述待验证短信的黑分类器评分x以及白分类器评分y；

S10343：确定与所述相似度度量呈正相关关系的判定阈值a；

需要说明的是，判定阈值a大于1。

S10344：根据

与a以及

与

之间的大小关系确定所述待验证短信的验证结果。

对于S10344，优选地，根据

与a以及

与

之间的大小关系确定所述待验证短信的验证结果，可以包括：

若

则确定所述待验证短信为垃圾短信；

若

则确定所述待验证短信为非垃圾短信；

若

则说明所述待验证短信语义模糊，无法判定，通过设定的人工策略确定所述待验证短信的验证结果。

通过上述过程，可以看出，由于将两种算法的融合，一方面能够体现在短信判定识别方面的能力互补，对于指纹匹配不能准确判定的，由分类器进行补充判定；另一方面，对于指纹匹配不能判定的短信，将输出相似度参数，分类器算法根据相似度参数动态调整判定阈值，若待测短信指纹相似度较高，则分类器算法的阈值也较为宽松，若待测短信指纹相似度较低，则阈值也较为严格。该融合算法可进一步降低误标定样本对系统模型的影响。

本实施例提供了一种垃圾短信的识别方法，将指纹匹配与分类器进行融合，首先对于指纹库和分类器均通过蝶形交叉训练的方式进行训练，能够从短信样本库中剔除易导致识别错误的疑似误差样本，从而得到更为准确的短信样本库来提高垃圾短信的识别成功率；接着，将待验证短信依次通过指纹库和分类器的验证，从而能够实现两种垃圾短信识别技术的互补，也同样能够提高识别的成功率。

实施例二

基于前述实施例相同的技术构思，参见图8，其示出了本发明实施例提供的一种装置80的结构示意图，该装置80可以包括：

存储有垃圾短信识别程序的存储器801；

处理器802，配置为执行所述垃圾短信识别程序以执行以下操作：

将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练，得到训练后的第二指纹库和训练后的第二分类器

可以理解，本发明实施例中的存储器801可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本文描述的系统和方法的存储器801旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器802可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器802中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器802可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801，处理器802读取存储器801中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

可选地，作为另一个实施例，所述处理器802，还配置为执行所述垃圾短信识别程序以执行以下操作：

获取所述短信样本库中每条短信样本的SimHash信息指纹；

根据所述短信样本库中的每条短信样本提取短信词频特征；

可选地，作为另一个实施例，所述处理器802，配置为执行所述垃圾短信识别程序以执行以下操作：

获取待验证短信的SimHash信息指纹；

根据

与a以及

与

之间的大小关系确定所述待验证短信的验证结果。

若

则确定所述待验证短信为垃圾短信；

若

则确定所述待验证短信为非垃圾短信；

若

则通过设定的人工策略确定所述待验证短信的验证结果。

另外，在本实施例中的各组成部分可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

具体来讲，本实施例中的一种推荐候选词的方法对应的计算机程序指令可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与一种推荐候选词方法对应的计算机程序指令被一电子设备读取或被执行时，包括如下步骤：

可选地，存储介质中存储的与步骤：所述根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器，包括：

获取所述短信样本库中每条短信样本的SimHash信息指纹；

根据所述短信样本库中的每条短信样本提取短信词频特征；

可选地，存储介质中存储的与步骤：所述按照设定的相似度剔除策略从所有的SimHash信息指纹中剔除相似的SimHash信息指纹，包括：

可选地，存储介质中存储的与步骤：将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练，得到训练后的第二指纹库和训练后的第二分类器，可以包括：

可选地，存储介质中存储的与步骤：所述基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证，确定所述待验证短信的验证结果，包括：

获取待验证短信的SimHash信息指纹；

可选地，存储介质中存储的与步骤：所述将所述待验证短信与所述相似度度量值通过所述第二分类器进行判定，确定所述待验证短信的指示信息，包括：

根据

与a以及

与

之间的大小关系确定所述待验证短信的验证结果。

可选地，存储介质中存储的与步骤：所述根据

与a以及

与

之间的大小关系确定所述待验证短信的验证结果，包括：

若

则确定所述待验证短信为垃圾短信；

若

则确定所述待验证短信为非垃圾短信；

若

则通过设定的人工策略确定所述待验证短信的验证结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种垃圾短信的识别方法，其特征在于，所述方法包括：

将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练，得到训练后的第二指纹库和训练后的第二分类器；其中，所述第二分类器是通过指纹匹配剔除出现冲突的指纹后再进行分类器的生成得到的；所述第二指纹库是通过分类器评分剔除误差样本之后再进行指纹库的生成得到的；

2.根据权利要求1所述的方法，其特征在于，所述根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器，包括：

获取所述短信样本库中每条短信样本的SimHash信息指纹；

根据所述短信样本库中的每条短信样本提取短信词频特征；

3.根据权利要求2所述的方法，其特征在于，所述按照设定的相似度剔除策略从所有的SimHash信息指纹中剔除相似的SimHash信息指纹，包括：

4.根据权利要求1所述的方法，其特征在于，将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练，得到训练后的第二指纹库和训练后的第二分类器，可以包括：

通过设定的训练策略按照第一剔除后短信样本库中的垃圾短信样本以及非垃圾短信样本的短信词频特征生成所述第二分类器；其中，第二分类器包括第二黑分类器和第二白分类器；

5.根据权利要求4所述的方法，其特征在于，所述基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证，确定所述待验证短信的验证结果，包括：

获取待验证短信的SimHash信息指纹；

6.根据权利要求5所述的方法，其特征在于，所述将所述待验证短信与所述相似度度量值通过所述第二分类器进行判定，确定所述待验证短信的指示信息，包括：

根据

与a以及

与

之间的大小关系确定所述待验证短信的验证结果。

7.根据权利要求6所述的方法，其特征在于，所述根据

与a以及

与

之间的大小关系确定所述待验证短信的验证结果，包括：

若

则确定所述待验证短信为垃圾短信；

若

则确定所述待验证短信为非垃圾短信；

若

则通过设定的人工策略确定所述待验证短信的验证结果。

8.根据权利要求3或5所述的方法，其特征在于，所述相似度度量值为汉明距离；所述预设的阈值为3。

9.一种垃圾短信的识别装置，其特征在于，所述装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的方法的步骤。

10.一种计算机可读介质，所述计算机可读介质存储有垃圾短信识别程序，所述垃圾短信识别程序被至少一个处理器执行时实现如权利要求1至8中任一项所述的垃圾短信的识别方法的步骤。