CN103813279A

CN103813279A - 一种垃圾短信检测方法及装置

Info

Publication number: CN103813279A
Application number: CN201210457592.0A
Authority: CN
Inventors: 丁志刚; 肖子玉
Original assignee: China Mobile Group Design Institute Co Ltd
Current assignee: China Mobile Group Design Institute Co Ltd
Priority date: 2012-11-14
Filing date: 2012-11-14
Publication date: 2014-05-21

Abstract

本发明公开了一种垃圾短信检测方法和装置，该方法包括：针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合；将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，根据确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。能够较好地提高识别垃圾短息的准确性、提升垃圾短信检测的效率、实时性较好。

Description

一种垃圾短信检测方法及装置

技术领域

本发明涉及垃圾短信过滤方法技术领域，尤其是涉及一种垃圾短信检测方法及装置。

背景技术

随着无线通信网络的不断发展，用户在享受各种业务带来方便的同时，也受到不法分子发送的垃圾短信的困扰。

目前，垃圾短信的检测主要通过两种方法来实现：一种方式是通过短信的发送行为来实现垃圾短信检测，主要包括通过短信发送频次特征、短信被叫号码规律特征、短信主叫号码规律特征等发现垃圾短信。另一种方式是通过内容识别的方式来实现垃圾短信检测，一般采用预先指定的非法关键词匹配策略来实现垃圾短信检测。

其中，通过内容识别的方式来实现垃圾短信检测，如图1所示，其处理流程如下述：

步骤11，确定垃圾短信关键词集合。

其中，确定垃圾短信关键词集合主要有两种方式：

第一种方式：收集垃圾短信样本，采用手工或计算机数据挖掘方式，在手机的垃圾短信样本中提炼垃圾短信的特征词。

第二种方式：网维人员根据经验人为制定一些应限制在短信中传播的词汇。

根据上述两种方式确定的垃圾短信关键词，确定垃圾短信管检测集合。

步骤12，将确定出的垃圾短信关键词集合做适当分级后载入垃圾短信监控系统中，并在垃圾短信监控系统中设定短信在命中各级关键词、各种命中频次、命中组合情况下应采取的处理策略等等。

步骤13，垃圾短信监控系统每收到一条送检的短信，用每一级系统关键词逐词与该短信进行匹配，记录该短信对每一条关键词的命中情况。

步骤14，垃圾短信监控系统根据待检测短信对关键词的命中情况，遵照预设的处理策略，确定该短信是否是垃圾短信。

现有技术中基于内容识别方法来实现垃圾短信的检测，主要存下述两种缺陷：

第一种缺陷：对垃圾短信的识别准确率较低，例如关键词处理策略设置严格容易造成大量误拦截，处理策略设置宽松又无法起到有效的拦截效果。关键词处理策略容易被垃圾短信传播者识破，进而通过编辑“变体”垃圾短信使系统无法识别，手段诸如：用同义词替代关键词、在关键词中间填加特殊符号、利用同音字代替等。

第二种缺陷：垃圾短信检测的效率低下、实时性较差。对于待检测的短信，需要将该短信内容与垃圾短信监控系统中设置的所有关键词逐次匹配，如果关键词数量较少，相应的关键词匹配处理可以在短时间完成，相反如果关键词数量增加到较高量级，考虑逐词索引的线性计算增量、及根据命中情况匹配处理方法时增加的平方级计算消耗，处理每一条待检短信所需时间可能达到小量关键词情况下的数倍。

综上所述，现有技术中垃圾短信检测方法准确性较低、垃圾短信检测的效率低下、实时性较差。

发明内容

本发明实施例提供了一种垃圾短信检测方法及装置，能够较好地提高识别垃圾短息的准确性、提升垃圾短信检测的效率、实时性较好。

一种垃圾短信检测方法，包括：针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合；将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度；根据确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。

一种垃圾短信检测装置，包括：特征词集合确定模块，用于针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合；查询模块，用于将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度。

采用上述技术方案，针对一个待检测短信，将该待检测短信中包含的信息转换为包含至少一个特征词的特征词集合，然后将特征词集合中的每个特征词分别进行查询，根据查询结果，确定所述特征词集合与倒排索引文件中包含的垃圾短信样本能够匹配的样本数量和匹配权重，最后确定待检测短信是否是垃圾短信。对于垃圾短信内容识别不再是简单的关键词匹配，而是结合了大量的垃圾短信样本多维度特征匹配，提高了识别垃圾短信的准确性。并且基于倒排索引的方式，也能够较好地提升垃圾短信检测的效率、实时性较好。

附图说明

图1为现有技术中，提出的基于内容识别的方式来实现垃圾短信检测的方法流程图；

图2为本发明实施例中，提出的垃圾短信检测方法流程图；

图3为本发明实施例中，提出的垃圾短信检测装置结构组成示意图；

图4为本发明实施例中，提出的垃圾短信检测方法的原理示意图。

具体实施方式

针对现有技术中垃圾短信检测时存在的准确性较低、垃圾短信检测的效率低下、实时性较差的问题，本发明实施例这里提出的技术方案，针对一个待检测短信，将该待检测短信中包含的信息转换为包含至少一个特征词的特征词集合然后将特征词集合中的每个特征词分别进行查询，根据查询结果，确定所述特征词集合与倒排索引文件中包含的垃圾短信样本能够匹配的样本数量和匹配权重，最后确定待检测短信是否是垃圾短信，对于垃圾短信内容识别不再是简单的关键词匹配，而是结合了大量的垃圾短信样本多维度特征匹配，提高了识别垃圾短信的准确性。并且基于倒排索引文件进行查询的方式，识别速度较快，对系统性能要求也比较低，较好地提升垃圾短信检测的效率、实时性较好。

下面将结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。

本发明实施例这里提出一种垃圾短信检测方法，如图2所示，其具体处理流程如下述：

步骤21，针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合。

其中，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合可以通过下述步骤来实现：

步骤一：将所述待检测短信中包含的信息经过预处理，转换为可识别的文本形式。

其中，在对待检测短信信息进行整理，将待检测短信的信息转换为可识别的文本形式，这种方式也可以称之为预处理。例如：将待检测短信中包含的文本编码调整为可识别的形式，去掉信息中包含的无法识别的乱码等。

较佳地，由于垃圾短信中经常被不法分子采用一些“变体”手段发送垃圾短信，即在垃圾短信信息中加入特殊符号，在进行预处理过程时，可以在预处理过程中加入“反变体算法”去除待检测短信信息中出现的不合理符号、同义词转换等。例如：将待检测短信信息中包含的“发**票”，经过预处理可以转换成为“发票”。这样，可以进一步地提高识别垃圾短信的准确性。

步骤二：基于分词算法将转换为可识别的文本形式的待检测短信中包含的信息转换为包含至少一个特征词的特征词集合。

其中，分词可以通过计算机执行自动分词算法来完成。分词算法可以但不限于是基于词典的方法、基于统计的方法或者基于规则的方法等等。现有技术中，分词算法不但能够将已知的词汇从文本中分出来，还能够利用语言的语法、语义特征从文本中发现新的词汇（未登录词）。其中，英文是以词为单位的，词和词之间是基于空格隔开，将英文中的词进行切分，成为有意义的词组，就是英文分词。而中文是以字为单位，句子中所有的字连起来可以表达一个含义。将中文的汉字序列切分成有意义的词，就是中文分词。具体实施过程中，有些语言本身包含的词就是分开的，但从广义的概念来讲，无论什么语言，都有分词的概念。例如：英文中，需要把句子分成有意义的词组。各种语言混合、甚至包含各种特殊符号的文本，也需要将其中具有独立的意义的单元分开。该些处理方式均定义为分词。

步骤22，将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重。

其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度。

较佳地，还可以将所述特征词集合中包含的全部特征词进行划分，得到特征词分组，其中，所述特征词分组中包含的特征词均不相同，基于分布式计算方法，将得到的特征词分组在预设的倒排索引文件中进行查询。

其中，可以对特征词集合中包含的全部特征词按照一定的分类文本集按照一定的分类体系或标准进行自动分类标记，其具体实施方式可以是根据待分类特征词的某些特征来进行匹配，可以根据预设的评价评价标准选择最优的匹配结果，从而完成特征词的分类。

其中，在将全部特征词进行划分之后，可以基于分布式计算方法，将得到的特征词分组在预设的倒排索引文件中进行查询。具体地，分布式算法是关于如何将一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。本发明实施例这里提出的技术方案中，在待检测短信的数量比较多的情况下，进行特征词索引时，计算量较大。仅仅由单个的终端或是个人在一个较佳的时间内计算完成的可能性较低。但是进行特征词查询时，划分得到的全部特征词可以划分为计算片断，服务端负责将计算问题分成许多小的计算部分，然后把这些部分分配给许多联网参与计算的计算机进行并行处理，最后将这些计算结果综合起来得到最终的结果。例如，现有技术中垃圾短信监控系统中，用于实时监控垃圾短信的关键词及关键词条数容量最高仅能达到“几千”数量级。基于此，可以采用分布式计算方法，同时设置多个服务器，每个服务器上均设置倒排索引文件，将预处理得到的特征词集合划分为多个组别，然后将得到的特征词分组分配给多个计算机并行处理，从而得到查询结果。

其中，倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引。带有倒排索引的文件称为倒排索引文件，简称倒排文件。倒排索引的优点是可以根据指定的属性值很快的从较多的记录中搜索出匹配属性值的相关记录。要把文本文档样本库设置为倒排索引，首先需要确定文本文档中需要将哪些词或哪些字、哪些句子、甚至哪些段落、哪些符号作为索引的属性，也要确定哪些属性是重要的，哪些是次要的。这些属性可以人为制定、也可以通过“特征选择”算法得到。例如代词、介词等虚词一般不作为属性被索引，一般有意义的实词（如名词）、词组、流行的句子会作为属性被索引，但并不是每一个名词都被索引，属性被赋予的重要程度也不一样，到底哪些应该索引，需要通过特征算法得出。特征选择算法一般不是静态算法，是机器学习的过程，随着样本库更新，算法多轮迭代及特征参数修正，算法得到的特征会更新，随着样本库逐渐扩大、迭代次数增加，特征选择的结果也越能真实的代表文本。

具体地，本发明实施例这里提出的倒排索引文件可以采用下述方式获得：

步骤一：获得至少一个垃圾短信信息样本。

其中，垃圾短信信息样本可以在现有技术中的垃圾短信监控系统拦截的垃圾短信记录以及用户举报、投诉的垃圾短信记录中获得。

步骤二：针对任一垃圾短信信息样本，基于特征选择算法确定表征该垃圾短信信息的特征词，并设置该特征词和所述垃圾短信信息样本的匹配权重。

其中，对获得的每个垃圾短信信息样本中进行分词、预处理，执行特征选择算法，提取其中表征垃圾短信的特征词、特征句子、特征符号等，并赋予特征相应的匹配权重。

具体地，设置特征词和所述垃圾短信信息样本的匹配权重的方法至少包括下述中的一种或者多种：

第一种：根据垃圾短信信息样本的重要程度，设置特征词和所述垃圾短信信息样本的匹配权重。

第二种：根据垃圾短信信息样本中包含的信息长度，设置特征词和所述垃圾短信信息样本的匹配权重。

第三种：根据垃圾短信信息样本中出现特征词的频次，设置特征词和所述垃圾短信信息样本的匹配权重；

第四种：根据垃圾短信信息样本中出现特征词的位置信息，设置特征词和所述垃圾短信信息样本的匹配权重。

步骤三：建立表征垃圾短信信息的特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，形成倒排索引文件。

其中，可以将表征垃圾短信信息的特征词作为倒排索引文件的属性。倒排索引文件可以但不限于是表格的形式。索引表中每一项包含表征垃圾短信信息的特征词、垃圾短信信息样本和匹配权重三者之间的对应关系。

步骤23，根据确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。

若确定出的样本数量大于预设第一阈值，且匹配权重值大于预设第二阈值时，确定所述待检测短信是垃圾短信。

较佳地，在确定出待检测短信是垃圾短信之后还可以对所述待检测短信进行拦截，并对发送所述待检测短信的终端进行拦截。

下面以一具体实例对上述垃圾短信检测方法进行详细阐述，这里假设接收到待检测短信内容为ABxxx，如图3所示，具体处理过程如下述：

步骤31，接收到待检测短信ABxxx。

步骤32，将接收到的待检测短信ABxxx依次进行分词、预处理操作，将该待检测短信中包含的信息ABxxx转换为包含至少一个特征词的特征词集合。

例如，将接收到的待检测短信包含的信息ABxxx转为为特征词集合{A、AB、B}。

步骤33，将特征词集合{A、AB、B}中包含的每个特征词分别在预设的倒排索引文件中进行查询。

经过预处理及分词，待检测短信信息被转换为包含至少一个特征词的特征词集合，将特征词集合中每个特征词分别去倒排索引中查询。其中，可利用分布式计算技术分摊到多台计算机上进行查询，这样可以较好地降低查询的复杂度。例如待检测短信ABxxx被转换成特征词集合{A、AB、B}，则针对分成的 3个特征词在一台服务器中进行3次查询，或者在三台服务器中同时进行1次查询。

其中，进行查询时，垃圾短信监控系统需要设置倒排索引文件。倒排索引文件的形成原理在上述步骤22中已经详细阐述，这里不再赘述。

较佳地，本发明实施例这里以垃圾短信样本为AxxBxxCxxDxx为例来详细阐述倒排索引文件的形成。

步骤一，获得至少一个垃圾短信信息样本。

其中，垃圾短信信息样本可以在现有技术中的垃圾短信监控系统拦截的垃圾短信记录以及用户举报、投诉的垃圾短信记录中获得。为便于阐述，本发明实施例这里以垃圾短信样本为AxxBxxCxxDxx为例来进行详细阐述。

步骤二：对获得的垃圾短信样本AxxBxxCxxDxx进行预处理、分词，执行特征选择算法，提取其中表征垃圾短信的特征词、特征句子、特征符号等，并赋予相应的匹配权重。

例如，垃圾短信样本AxxBxxCxxDxx，其中，大写字母代表在很多垃圾短信中都普遍出现的典型字串（诸如“发票”、“中奖”等词汇），而xx是不具备特征意义的字串（诸如：“是”、“我”、“你”这样的词汇）。通过分词和预处理，将A、B、C、D这些特征字串从已知的垃圾短信信息中分析出来，将提取的特征词作为索引表属性，制作倒排索引文件。其中倒排索引表中的每一项包含一个特征此和具有该特征次的所有垃圾短信样本情况、该特征词同每一垃圾短信样本的匹配权重。匹配权重可以根据该垃圾短信样本本身重要程度、样本长度、出现特征词频次、出现位置等情况综合评价。如表1所示，给出以垃圾短信样本AxxBxxCxxDxx为例制作的倒排索引文件。

表1

形成的倒排索引文件可以载入到垃圾短信监控系统中，若垃圾短信监控系统采用分布式系统，则可以将形成的倒排索引文件同时载入到多个计算机中。形成的倒排索引文件可以根据垃圾短信样本数据库中存储的垃圾短信样本的变化而变化，从而实现定时或者随时更新。

步骤34，确定所述特征词集合与倒排索引文件中包含的垃圾短信样本能够匹配的样本数量和匹配权重。

综合统计特征词集合中包含的各特词在进行倒排索引后，命中的垃圾短信信息样本数量及匹配权重，得到本条待检短信的垃圾短信评定分数。例如，根据表1，确定特征词集合{A、AB、B}的结果应当是：

命中垃圾短信样本的样本数量：6

特征词集合的匹配权重：3+3+3+3+3+5+3+2+3=28

步骤35，根据预设的评定指标确定该待检测短信是否是垃圾短信，并对该待检测短信采用对应的处理方式。

其中，可以依据短信命中的垃圾短信样本数量、待检短信同垃圾短信样本的匹配权重等确定评定指标，评定指标可以由网优人员根据经验制定也可以通过自动文本分类算法计算得到。例如评定标准可以是：

命中垃圾短信样本数量大于6且匹配权重大于20时，确定该待检测短信为垃圾短信，则对该短信实时进行封堵。

命中垃圾短信样本数量大于2，则将该待检测短信挂起，后续由网优人员进行人工审核，若判定不是垃圾短信，则放行，反之，确定该待检测短信为垃圾短信，则对该短信实时进行封堵。

命中垃圾短信样本数量小于等于2，确定该待检测短信不是垃圾短信，放行该短信。

采用本发明实施例上述提出的技术方案，对于垃圾短信内容识别不再是简单的关键词匹配，而是结合了大量的垃圾短信样本进行多维度特征匹配，可以根据需要达到“千万”甚至更高量级，特征不仅可以是词，也可以是字、句子、符号等。现有关键词匹配算法，一般只简单分级后人为的制定在各种关键词命中情况下的处理策略，本发明实施例这里提出对技术方案不但可以人为制定，还可以通过分类算法根据所拥有垃圾短信样本经验动态制定处理策略，分类算法可以在样本更新、算法迭代过程中即时的更新处理策略，垃圾短信样本更新越快，检测系统对于垃圾短信发送者采取的新手段做出的反应也就越快。从而较好地提高了识别垃圾短信的准确性。现有技术中垃圾短信检测的技术方案，基于关键词识别策略属于静态策略，通过人工或计算机辅助制定关键词命中阈值，可配置的策略标准非常有限，容易被垃圾短信发送者通过试验测试套出策略，再应对策略制定变体短信。本发明实施例这里提出的技术方案，识别策略为动态策略，不存在某具体的阈值来决定垃圾短信的判别，而是通过综合特征评定识别垃圾短信，对于垃圾短信发送者来说，应对这种策略的难度很高，很难在短信内容表达不受影响的情况下将变体短信不被系统识别。另外，本发明实施例这里提出的技术方案，应对策略根据样本库更新即时更新，发送者即使采用了变体的手段，一旦变体短信被加入样本库参与特征训练，新的变体手段也会被识破不再有效。因此，本发明实施例这里提出的技术方案，可以有效的识别“变体”垃圾短信。

相应地，本发明实施例这里还提出一种垃圾短信检测装置，如图4所示，包括：

特征词集合确定模块401，用于针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合。

具体地，上述特征词集合确定模块401，具体用于将所述待检测短信中包含的信息经过预处理，转换为可识别的文本形式；基于分词算法将转换为可识别的文本形式的待检测短信中包含的信息转换为包含至少一个特征词的特征词集合。

查询模块402，用于将特征词集合确定模块401确定出的所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度。

具体地，上述查询模块402还包括：

索引子模块，用于建立倒排索引文件的索引子模块，其中所述倒排索引文件采用下述方式获得：获得至少一个垃圾短信信息样本；针对任一垃圾短信信息样本，基于特征选择算法确定表征该垃圾短信信息的特征词，并设置该特征词和所述垃圾短信信息样本的匹配权重；建立表征垃圾短信信息的特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，形成倒排索引文件。

其中，设置特征词和所述垃圾短信信息样本的匹配权重的方法至少包括下述中的一项或多项：

根据垃圾短信信息样本的重要程度，设置特征词和所述垃圾短信信息样本的匹配权重；根据垃圾短信信息样本中包含的信息长度，设置特征词和所述垃圾短信信息样本的匹配权重；根据垃圾短信信息样本中出现特征词的频次，设置特征词和所述垃圾短信信息样本的匹配权重；根据垃圾短信信息样本中出现特征词的位置信息，设置特征词和所述垃圾短信信息样本的匹配权重。

具体地，上述查询模块402，具体用于将所述特征词集合中包含的全部特征词进行划分，得到特征词分组，其中，所述特征词分组中包含的特征词均不相同；基于分布式计算方法，将得到的特征词分组在预设的倒排索引文件中进行查询。

垃圾短信确定模块403，用于根据索引模块402确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。

具体地，上述垃圾短信确定模块403，具体用于若确定出的样本数量大于预设第一阈值，且匹配权重值大于预设第二阈值时，确定所述待检测短信是垃圾短信。

具体地，上述垃圾短信确定模块403，还用于对所述待检测短信进行拦截，并对发送所述待检测短信的终端进行拦截。

本发明实施例上述提出的垃圾短信检测方法，是将获得的垃圾短信样本作为查找记录，将垃圾短信样本中的特征词、特征句、特征符号等作为属性，以此来形成倒排索引文件，根据行程的倒排索引文件对待检测短信进行垃圾短信的判定。这样，垃圾短信的识别过程不再逐关键词去匹配待检测短信，而是将待检测短信作为查询条件，通过倒排索引去匹配垃圾短信样本，根据匹配的结果实时判定垃圾短信。较佳地，本发明实施例中海引入了分布式计算算法，能够较好地提高查询速度。

本发明实施例这里提出的技术方案，对待检测短信的识别过程中，与现有技术的区别在于：现有技术中采用系统关键词逐条匹配待检测短信，而本发明实施例这里提出的技术方案，采用待测检短信匹配行程的索引文件。基于查询次数来分析两种技术方案中的主要计算量：系统关键词的数量直接影响关键词识别方法计算时间，假设系统关键词为1000个，则基本的查询操作即需要1000次，随着系统关键词数量的提高，查询时间也随之升高。本发明实施例这里提出的技术方案中，主要计算量主要受待检测短信被预处理和分词后转换成的特征词集合规模影响，正常情况下，短信的长度一般不会超过70个字，即使每个字单独查询也只有70次基本查询。本发明实施例这里提出的技术方案的查询，所需计算量跟索引的大小有关，计算量较大但能够切分，可以通过上文所述分布式计算技术将计算量分摊到多台终端，这样，理论上只要增加足够多的计算终端每个查询的时间就不会受索引大小影响，时间会非常短。因此本发明实施例这里提出的技术方案，计算量较小，查询速度较快。

本领域的技术人员应明白，本发明的实施例可提供为方法、装置（设备）、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置（设备）和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种垃圾短信检测方法，其特征在于，包括：

针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合；

将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度；

根据确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。

2.如权利要求1所述的方法，其特征在于，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合，包括：

将所述待检测短信中包含的信息经过预处理，转换为可识别的文本形式；

基于分词算法将转换为可识别的文本形式的待检测短信中包含的信息转换为包含至少一个特征词的特征词集合。

3.如权利要求1所述的方法，其特征在于，所述倒排索引文件采用下述方式获得：

获得至少一个垃圾短信信息样本；

针对任一垃圾短信信息样本，基于特征选择算法确定表征该垃圾短信信息的特征词，并设置该特征词和所述垃圾短信信息样本的匹配权重；

建立表征垃圾短信信息的特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，形成倒排索引文件。

4.如权利要求3所述的方法，其特征在于，设置特征词和所述垃圾短信信息样本的匹配权重的方法至少包括下述中的一项或多项：

根据垃圾短信信息样本的重要程度，设置特征词和所述垃圾短信信息样本的匹配权重；

根据垃圾短信信息样本中包含的信息长度，设置特征词和所述垃圾短信信息样本的匹配权重；

根据垃圾短信信息样本中出现特征词的频次，设置特征词和所述垃圾短信信息样本的匹配权重；

根据垃圾短信信息样本中出现特征词的位置信息，设置特征词和所述垃圾短信信息样本的匹配权重。

5.如权利要求1所述的方法，其特征在于，将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，包括：

将所述特征词集合中包含的全部特征词进行划分，得到特征词分组，其中，所述特征词分组中包含的特征词均不相同；

基于分布式计算方法，将得到的特征词分组在预设的倒排索引文件中进行查询。

6.如权利要求1所述的方法，其特征在于，根据确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信，包括：

7.如权利要求6所述的方法，其特征在于，在确定出所述待检测短信是垃圾短信之后，还包括：

对所述待检测短信进行拦截，并对发送所述待检测短信的终端进行拦截。

8.一种垃圾短信检测装置，其特征在于，包括：

特征词集合确定模块，用于针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合；

查询模块，用于将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度；

垃圾短信确定模块，用于根据索引模块确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。

9.如权利要求8所述的装置，其特征在于，所述特征词集合确定模块，具体用于将所述待检测短信中包含的信息经过预处理，转换为可识别的文本形式；基于分词算法将转换为可识别的文本形式的待检测短信中包含的信息转换为包含至少一个特征词的特征词集合。

10.如权利要求8所述的装置，其特征在于，所述查询模块，还包括：

11.如权利要求10所述的装置，其特征在于，设置特征词和所述垃圾短信信息样本的匹配权重的方法至少包括下述中的一项或多项：

12.如权利要求8所述的装置，其特征在于，所述查询模块，具体用于将所述特征词集合中包含的全部特征词进行划分，得到特征词分组，其中，所述特征词分组中包含的特征词均不相同；基于分布式计算方法，将得到的特征词分组在预设的倒排索引文件中进行查询。

13.如权利要求8所述的装置，其特征在于，所述垃圾短信确定模块，具体用于若确定出的样本数量大于预设第一阈值，且匹配权重值大于预设第二阈值时，确定所述待检测短信是垃圾短信。

14.如权利要求8所述的装置，其特征在于，所述垃圾短信确定模块，还用于对所述待检测短信进行拦截，并对发送所述待检测短信的终端进行拦截。