CN107943791A

CN107943791A - 一种垃圾短信的识别方法、装置和移动终端

Info

Publication number: CN107943791A
Application number: CN201711192480.6A
Authority: CN
Inventors: 郭祥; 李强; 周楠
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2018-04-20

Abstract

本发明公开了一种垃圾短信的识别方法、装置和移动终端，所述方法包括：获取终端设备接收到的待检测短信；根据预设分词词表对所述待检测短信进行最大匹配分词处理，得到待检测分词，所述预设分词词表中保存有预先根据训练短信进行分词处理的各个分词；通过将所述待检测分词输入到预先配置的短信识别模型进行分析，确定所述待检测短信是否为垃圾短信。通过上述方案，利用经过学习训练得到的短信识别模型，根据所有分词的整体分类情况识别整个短信的内容，来判断该短信是否是垃圾短信，有效提高垃圾短信识别的准确率，进而对垃圾短信进行全面的拦截处理。

Description

一种垃圾短信的识别方法、装置和移动终端

技术领域

本发明涉及信息处理领域，特别是涉及一种垃圾短信的识别方法、装置和移动终端。

背景技术

现在手机的垃圾短信越来越多，垃圾短信包括各种公司、网站的宣传内容，当人们查看短信时，需要从众多垃圾短信中寻找自己想要查看的短信内容，并且用户想要删除垃圾短信，还要对每个短信内容进行一一识别然后删除，给手机用户造成不便。

目前，为了解决这种情况，开发出了各种拦截垃圾短信的拦截软件，这些拦截软件可以根据短信中包含的内容，参考包含敏感词汇和垃圾短信发送者号码的黑名单来判断短信是否为垃圾短信，一旦发现该短信是垃圾短信就会对其进行拦截。

然而，这样有可能就会将带有敏感词汇的有用短信当做垃圾短信进行拦截，使用户不能及时获知短信的内容；还有可能出现无法拦截没有敏感词汇、或短信发送者不在黑名单内的垃圾短信，使垃圾短信被当做正常短信。因此，拦截软件无法将所有的垃圾短信识别出来，致使垃圾短信的拦截准确率降低，不方便用户使用。

发明内容

有鉴于此，本发明提供了一种垃圾短信的识别方法、装置和移动终端，主要目的在于可以解决拦截软件无法将所有的垃圾短信识别出来，致使垃圾短信的拦截准确率较低的问题。

依据本发明第一方面，提供了一种垃圾短信的识别方法，包括：

获取终端设备接收到的待检测短信；

根据预设分词词表对所述待检测短信进行最大匹配分词处理，得到待检测分词，所述预设分词词表中保存有预先根据训练短信进行分词处理的各个分词；

通过将所述待检测分词输入到预先配置的短信识别模型进行分析，确定所述待检测短信是否为垃圾短信。

依据本发明第二方面，提供了一种垃圾短信的识别装置，包括：

获取单元，用于获取终端设备接收到的待检测短信；

分词单元，用于根据预设分词词表对所述待检测短信进行最大匹配分词处理，得到待检测分词，所述预设分词词表中保存有预先根据训练短信进行分词处理的各个分词；

分析单元，用于通过将所述待检测分词输入到预先配置的短信识别模型进行分析，确定所述待检测短信是否为垃圾短信。

依据本发明第三方面，提供了一种存储设备，其上存储有计算机程序，所述程序被处理器执行时实现第一方面所述的垃圾短信的识别方法。

依据本发明第四方面，提供了一种移动终端，所述移动终端包括存储设备和处理器，

所述存储设备，用于存储计算机程序；

所述处理器，用于执行所述计算机程序以实现第一方面所述的垃圾短信的识别方法。

借由上述技术方案，本发明提供的一种短信识别模型的获取方法、装置和移动终端，与参考包含敏感词汇和垃圾短信发送者号码的黑名单来判断短信是否为垃圾短信相比，本发明根据预设分词词表对待检测短信进行最大匹配分词处理，得到待检测分词，然后将待检测分词输入到预先配置的短信识别模型进行分析，确定该待检测短信是否为垃圾短信。通过上述方案，利用经过学习训练得到的短信识别模型，根据所有分词的整体分类情况识别整个短信的内容，来判断该短信是否是垃圾短信，有效提高垃圾短信识别的准确率，进而对垃圾短信进行全面的拦截处理。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明的垃圾短信的识别方法的一个实施例的流程图；

图2示出了本发明的垃圾短信的识别方法的训练及检测过程示意图；

图3示出了本发明的垃圾短信的识别方法的另一个实施例的流程图；

图4示出了本发明的短信识别模型的训练过程示意图；

图5示出了本发明的垃圾短信的识别装置的一个实施例的结构示意图；

图6示出了本发明的垃圾短信的识别装置的另一个实施例的结构示意图；

图7示出了本发明的移动终端的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的实施例提出了一种垃圾短信的识别方法，优选应用于客户端侧，也可以应用于服务器侧，利用经过学习训练得到的短信识别模型，根据所有分词的整体分类情况识别整个短信的内容，来判断该短信是否是垃圾短信，有效提高垃圾短信识别的准确率，进而对垃圾短信进行全面的拦截处理。

如图1所示，本实施例的垃圾短信的识别方法，步骤包括：

步骤101，获取终端设备接收到的待检测短信。

对于本实施例的执行主体可以为用于垃圾短信识别的装置，可以配置在客户端侧，相应的垃圾短信识别的触发条件是可以由客户端侧检测到终端设备接收到未知短信，需要对该未知短信进行垃圾短信识别时触发垃圾短信识别操作，在客户端本地进行垃圾短信识别；该装置还可以配置在服务器侧，由客户端上传终端设备接收到的未知短信至服务器，在服务器中利用本装置进行垃圾短信识别；此外，还可以由用户根据垃圾短信识别的实际业务需求主动向该装置输入相应的指令，对指定的短信进行垃圾短信识别等。

步骤102，根据预设分词词表对待检测短信进行最大匹配分词处理，得到待检测分词。

其中，预设分词词表中保存有预先根据训练短信进行分词处理的各个分词。对于本实施例，预设分词词表中的分词处理过程需要使用分词模型，该分词模型的学习训练过程会占用较多的存储空间，因此可以不在客户端侧进行，在服务器中分词处理完毕并生成预设分词词表后下发到客户端侧。

在上述技术方案中，终端设备中预先存储有按照各个分词的比划数或首字母顺序进行排序的预设分词词表，将待检测短信的文字内容按照最大匹配分词算法，与预设分词词表中存储的各个分词进行查找比对，从预设分词词表中查找与待检测短信的文字内容相对应的分词，并将该分词按照文字内容的顺序进行排列形成待检测分词，并保存在临时文件库中。其中，最大匹配分词算法包括：正向最大匹配算法、或者逆向最大匹配算法、或者双向匹配算法等。

步骤103，通过将待检测分词输入到预先配置的短信识别模型进行分析，确定待检测短信是否为垃圾短信。

在上述技术方案中，从临时文件库中提取待检测分词，然后将该待检测分词输入短信识别模型中，利用短信识别模型对每个分词进行识别分类，然后根据每个分词的类别，以及各个分词之间的语义关系，对该待检测短信的整体内容进行综合判断，进而确定该待检测短信是否是垃圾短信。其中，短信识别模型是利用模型训练算法，将大量的训练短信经过学习训练之后得到的。

当确定接收的待检测短信为垃圾短信后，将该垃圾短信放入拦截短信中，或者将该垃圾短信放入用户终端的垃圾箱中，或者将该垃圾短信进行彻底删除。另外，短信识别模型并不限于对待检测短信的识别，还可以识别一些即时通讯软件中发送的一些即时消息，或者各个网站推送的广告宣传消息。

如图3所示，在服务器中利用海量日志进行学习训练得到一个词典文件(即预设分词词表)，该文件是基于全局的一个分析利用信息增益、交叉熵的算法计算得到最具有显著区分性的词。利用这些词，服务器对大规模的训练短信进行分词，根据分词特征进行特征选择，再结合分类算法得到分类模型文件(即短信识别模型)。然后再将词典文件和模型文件进行有效的组合，同时进行利用高效的压缩算法生成最终下发至移动终端的合并文件。移动终端在收到一条短信的时候，利用合并文件先对短信进行短信切分，并接收切分后的分词特征，利用合并文件中的模型文件对这些特征进行算法预测，最终输出短信的安全等级。

通过上述技术方案，利用短信识别模型，根据短信中各个分词以及分词之间的连接关系，对每个分词进行分类，然后根据所有分词的整体分类情况识别整个短信的内容，来判断该短信是否是垃圾短信。使得本发明的垃圾短信识别过程相对于传统的垃圾短信识别技术，对于垃圾短信识别的F1值(准确率和召回率的加权平均值)能够由原来的87％左右提升至92％左右。其中，准确率为识别出的垃圾短信数量和总垃圾短信数量的比率，召回率为识别出的垃圾短信数量和总短信数量的比率。

如图3所示，在具体实施例中，在步骤102之前，方法还包括：

步骤10A，对获取的训练短信利用条件随机算法进行分词处理得到第一分词集，并根据第一分词集建立预设分词词表。

步骤10B，根据预设分词词表对训练短信进行最大匹配分词处理，得到第二分词集。

其中，最大匹配分词算法包括：正向最大匹配算法、或者逆向最大匹配算法、或者双向匹配算法等。

步骤10C，将第二分词集利用向量分类算法进行训练，得到短信识别模型。

由于条件随机场(Condition Random Field，CRF)算法以及对训练短信进行训练的过程，需要占用较大的空间。如果终端设备存储空间较大，可以将CRF分词模型放在终端设备中，以及对大量的训练短信进行训练的过程也在终端设备中完成。

如果终端设备的内存相对较小，可以将接收的短信上传至服务器利用服务器进行识别判断，但是这种方式需要占用网络带宽，并且来回传送过程中占用的时间相对较长，如果终端出现断网的情况就无法对接收的短信进行识别判断；也可以先利用服务器通过上述步骤10A-10C的过程，得到预设分词词表和短信识别模型，然后终端设备再将预设分词词表和短信识别模型从服务器中下载下来。由于预设分词词表和短信识别模型占用的空间较小，可以放在内存较小的终端设备中，这样终端设备无需将接收的短信上传服务器识别，可以直接利用预设分词词表和短信识别模型，来完成对短信的整体内容的识别判断过程。

移动端设备的最大难点在于如何在断网情况下进行高准确、高召回的拦截。因此本发明提出在移动设备上也同样适用机器学习算法，将服务器经过海量数据学习生成的短信识别模型，通过优化、裁剪放到移动设备上进行垃圾短信的识别和拦截。在移动设备上进行处理也有服务器不具备的优势，就是可以直接处理短信原文、以及能获取更多的设备通信行为特征。为此利用这些特征在本地一共下放了四种主要的拦截机制：智能垃圾短信识别、诈骗短息识别、伪基站短信识别、以及本地规则策略。利用这些机制能够使移动终端在断网环境，在所用存储资源仅几百KB的情况，做到对99％的诈骗短信，95％伪基站短信，95％垃圾短信的有效识别。

其中，诈骗短信是所有垃圾短信中对用户危害最大的短信。通过对诈骗类垃圾短信抽样分析，发现其中，冒充银行的短信最多，占比高达44.7％；其次是冒充电商商家欺骗迷惑消费者占24.3％，第三的是冒充电信运营商占13.1％。同时诈骗短信也是变化最为频繁的短信。无论是诈骗短信中留下的手机号、固话、还是URL(Uniform Resource Locator，统一资源定位符)其生命周期短则一天，长也就一周左右。所以对于诈骗短信的识别的方法必然不是以快对快的方式来进行，需要针对诈骗短信实施非白即黑策略。对于积分诈骗短信、航空诈骗短信、银行卡信用额度提取短信、兼职短信等，常见类型的诈骗都会应用非白即黑策略。用户输入的短信先应用URL策略和号码策略进行处理，结合服务器收集的强大白文件库，以及机器学习算法共同给出安全等级。非白即黑策略不是简单地针对URL对比白库，这样无法满足对于诈骗短信需要高准确度报出的要求。所以利用机器学习算法(即，向量分类算法)，生成能够识别诈骗短信的相关模型(即短信识别模型)，通过该模型进行诈骗短信的识别判断，进一步提升准确率，将非白即黑准确率提升到99％。通过上述技术方案可以准确高效的拦截诈骗短信，实现以不变应万变。

在具体实施例中，步骤10B具体包括：

步骤10B1，获取训练短信对应的发送者号码。

步骤10B2，将发送者号码划分为个人号码和非个人号码。

步骤10B3，根据预设分词词表，分别对个人号码的训练短信和非个人号码的训练短信进行最大匹配分词处理，得到个人号码训练分词集和非个人号码训练分词集。

在上述技术方案中，收集训练短信时，将每个训练短信及其对应的发送者号码进行一一对应，根据发送者号码将训练短信分为个人号码的训练短信和非个人号码的训练短信，然后分将两种训练短信经过最大匹配分词处理得到的分词分别放入个人号码训练分词集和非个人号码训练分词集中。其中，最大匹配分词算法包括：正向最大匹配算法、或者逆向最大匹配算法、或者双向匹配算法等。

在具体实施例中，步骤10C具体包括：

步骤10C1，将个人号码训练分词集利用向量分类算法进行训练，得到个人号码短信识别模型。

步骤10C2，将非个人号码训练分词集利用向量分类算法进行训练，得到非个人号码短信识别模型。

步骤10C3，将个人号码短信识别模型和非个人号码短信识别模型进行组合作为短信识别模型。

在上述技术方案中，由于一般个人号码发来的短信中垃圾短信比较少，而非个人号码(例如，某公司的公共号码)发来的短信中往往都是广告推销类的短信，垃圾短信比较多。因此两种不同号码发来的短信的识别复杂度和难易度是不同的。为了能够针对这两种不同的短信进行分别识别判断，首先利用个人号码训练分词集和非个人号码训练分词集对向量分类算法进行训练，进而得到个人号码短信识别模型和非个人号码短信识别模型两个识别模型。然后当接收个人号码发来的短信时，直接利用该个人号码短信识别模型进行识别判断，当接收非个人号码发来的短信时，直接利用非个人号码短信识别模型进行识别判断。这样就可以将个人号码短信和非个人号码短信进行区分，并使用不同的短信识别模型进行识别判断，进而有效增强垃圾短信识别的准确率，避免垃圾短信干扰用户的正常生活。

其中，向量分类算法包括：非线性向量分类(libsvm)算法和线性向量分类(liblinear)算法。当处理的数据相对较少时，由于较少的数据比较离散无法呈现线性，就是用非线性向量分类算法；当处理的数据比较多时，数据相对比较集中整体呈现线性，就需要使用线性向量分类算法。本发明处理的训练短信数量比较多，因此优选线性向量分类算法。

在具体实施例中，步骤10A具体包括：

步骤10A1，利用信息增益算法对第一分词集进行降维处理。

步骤10A2，根据降维处理结果，按照特征维度从多到少的顺序，对第一分词集中的各个分词进行排序，并提取前预定数量的分词，生成预设分词词表。

在上述技术方案中，由于第一分词集中某些虚词对垃圾短信的判断作用比较小，出现的频率相对较高，致使这些虚词的维度比较高，然而对于一些对垃圾短信判断非常有用的实词相对出现频率较低，对应的维度也相对较低，这样，如果直接按照第一分词集的维度得到的预设分词词表，不能准确的对垃圾短信进行识别判断。

因此，为了避免这些虚词和形容词的干扰，需要利用信息增益算法对第一分词集中的虚词和形容词进行降维处理。然后按照特征维度从多到少的顺序进行排列，使分词中的虚词和形容词排在最后，然后提取前预定数量(例如前20万)的分词，这样能够从分词筛选出有用的实词，保证利用预设分词词表能够对垃圾短信进行准确的识别判断。

在具体实施例中，步骤10A1具体包括：

步骤10A11，利用信息增益算法，计算第一分词集中分词对应的各个特征项的信息熵。

步骤10A12，通过剔除分词中信息熵小于预定信息熵的特征项，对第一分词集进行降维处理。

在上述技术方案中，特征项包括分词的种类(实词或虚词)、分词出现的频率、分词属于垃圾分词的概率等，根据这些特征项的不同赋予不同的权重值，利用各个特征项的权重值代入信息增益算法，计算每个分词的信息熵，然后按照信息熵由大到小的顺序对分词进行排列，将信息熵小于预定信息熵的分词剔除，完成第一分词集的降维处理。

在具体实施例中，步骤10C之后，方法还包括：

步骤10D，利用预定压缩算法，将预设分词词表与短信识别模型进行压缩合并得到短信识别文件。

步骤102具体包括：

根据短信识别文件中的预设分词词表对待检测短信进行最大匹配分词处理。

步骤103具体包括：

通过将待检测分词输入到短信识别文件中的短信识别模型进行分析。

在上述技术方案中，预定压缩算法包括：RAR压缩算法、7-Zip压缩算法、360压缩算法、2345压缩算法、marisa-trie压缩算法，本发明优选marisa-trie压缩算法，利用marisa-trie压缩算法将预设分词词表与短信识别模型进行压缩合并，压缩比为8:1，这样致使得到的短信识别文件占用空间更小。

在具体实施例中，在步骤10D之前，方法还包括：

步骤10D’，为训练短信匹配相应的主题向量。

步骤10D”，按照训练短信的类型对主题向量进行分类。

步骤10D”’，将主题向量以及与主题向量对应的类型存储在主题向量表中。

步骤10D具体包括：

利用预定压缩算法，将主题向量表、预设分词词表和短信识别模型进行压缩合并得到短信识别文件。

在上述技术方案中，结合训练短信的发送号码和发送时间为训练短信匹配相应的主题向量，不同类型的训练短信对应的主体向量是不同的，进而完成对训练短信的分类，其中训练短信的类型包括推销广告短信、快递短信、个人交互短信等。然后同样利用marisa-trie压缩算法将主题向量表、预设分词词表和短信识别模型进行压缩合并得到短信识别文件中。

这样当接收到短信之后，就可以根据发送号码和发送时间为该短信匹配主题向量，并将主题向量表从短信识别文件中解压缩出来，然后从主题向量表中查找与主题向量对应的类型，进而根据查找到的类型确定该短信的类型。

在具体实施例中，步骤103之后，方法还包括：

步骤104，确定垃圾短信匹配相应的垃圾主题向量。

步骤105，将垃圾主题向量与短信识别文件中的主题向量表进行匹配，确定垃圾短信的类型。

步骤106，从预定处理方式数据库中查询与垃圾短信的类型对应的处理方式信息，预定处理方式数据库中保存有不同垃圾短信类型分别对应的处理方式信息。

步骤107，利用查询到的处理方式信息，对垃圾短信进行处理。

在上述技术方案中，可以根据垃圾短信的垃圾主题向量确定垃圾短信的类型，不同的垃圾短信的类型对应不同的处理方式。

例如，广告类垃圾短信，处理方式：彻底删除；

快递类垃圾短信，处理方式：放入垃圾箱；

个人交互类垃圾短信，处理方式：推送给用户。

在具体实施例中，步骤102具体包括：

步骤1021，对待检测短信按照最大匹配字数进行划分得到至少一个匹配短语。

步骤1022，将匹配短语中的各个文字分别与预设分词词表中的分词进行匹配。

步骤1023，参照匹配结果对匹配短语进行分词处理，得到待检测分词。

例如，待检测短信内容为“我们去吃饭”，最大匹配字数为5，则划分的匹配短语为“我们去吃饭”，

将“我”代入预设分词词表中进行匹配找到词语“我”；

将“我们”代入预设分词词表中进行匹配找到词语“我们”；

将“我们去”代入预设分词词表中进行匹配未找到，则确定词语“我们”；

将“去吃”代入预设分词词表中进行匹配未找到，则确定词语“去”；

将“吃饭”代入预设分词词表中进行匹配，则确定词语“吃饭”。

最终分词结果为“我们/去/吃饭”。

如图4所示，在本发明的另一个实施例中，移动终端由于大小的限制，算法和模型的占用空间都要尽量减小，由于CRF分词模型占用空间较大不能下发到移动终端。所以只能先通过服务器使用CRF分词模型对训练短信进行分词，然后对分词结果用信息增益做降维处理，得到词表(即预设分词词表)。

这样在利用训练短信进行训练过程中，首先，根据该词表做最大匹配分词处理，得到与每个训练短信相对应的分词结果。然后，将每个分词结果按照训练短信发送号码分为个人号码训练分词和非个人号码训练分词。将个人号码训练分词按照liblinear(线性向量分类)算法进行训练，得到个人号码识别模型；将非个人号码训练分词按照liblinear算法进行训练，得到非个人号码识别模型。最后利用marisa-trie压缩算法对词表、个人号码识别模型、非个人号码识别模型进行压缩处理得到短信识别文件，使前后压缩比为8：1左右。将压缩后的文件发送至移动终端。

当移动终端接收到待检测短信时，将压缩后的短信识别文件进行解压，并将待检测短信按照词表做最大匹配分词处理，然后将处理后的分词输入个人号码识别模型和/或非个人号码识别模型进行识别处理，进而确定该短信是否是垃圾短信。

进一步的，作为图1方法的具体实现，本实施例提供了一种垃圾短信的识别装置，如图所示包括：获取单元21、分词单元22和分析单元23。

获取单元21，用于获取终端设备接收到的待检测短信；

分词单元22，用于根据预设分词词表对待检测短信进行最大匹配分词处理，得到待检测分词，预设分词词表中保存有预先根据训练短信进行分词处理的各个分词；

分析单元23，用于通过将待检测分词输入到预先配置的短信识别模型进行分析，确定待检测短信是否为垃圾短信。

在具体实施例中，装置还包括：建立单元24和训练单元25，

建立单元24，用于对获取的训练短信利用条件随机算法进行分词处理得到第一分词集，并根据第一分词集建立预设分词词表；

分词单元22，还用于根据预设分词词表对训练短信进行最大匹配分词处理，得到第二分词集；

训练单元25，用于将第二分词集利用向量分类算法进行训练，得到短信识别模型。

在具体实施例中，分词单元22具体包括：

号码获取模块，用于获取训练短信对应的发送者号码；

划分模块，用于将发送者号码划分为个人号码和非个人号码；

处理模块，用于根据预设分词词表，分别对个人号码的训练短信和非个人号码的训练短信进行最大匹配分词处理，得到个人号码训练分词集和非个人号码训练分词集。

在具体实施例中，训练单元25具体包括：

个人号码短信训练模块，用于将个人号码训练分词集利用向量分类算法进行训练，得到个人号码短信识别模型；

非个人号码短信训练模块，用于将非个人号码训练分词集利用向量分类算法进行训练，得到非个人号码短信识别模型；

组合模块，用于将个人号码短信识别模型和非个人号码短信识别模型进行组合作为短信识别模型。

在具体实施例中，建立单元24具体包括：

降维模块，用于利用信息增益算法对第一分词集进行降维处理；

生成模块，用于根据降维处理结果，按照特征维度从多到少的顺序，对第一分词集中的各个分词进行排序，并提取前预定数量的分词，生成预设分词词表。

在具体实施例中，降维模块具体包括：

计算模块，用于利用信息增益算法，计算第一分词集中分词对应的各个特征项的信息熵；

剔除模块，用于通过剔除分词中信息熵小于预定信息熵的特征项，对第一分词集进行降维处理。

在具体实施例中，装置还包括：压缩单元，

压缩单元，在将第二分词集利用向量分类算法进行训练，得到短信识别模型之后，利用预定压缩算法，将预设分词词表与短信识别模型进行压缩合并得到短信识别文件；

分词单元22，还用于根据短信识别文件中的预设分词词表对待检测短信进行最大匹配分词处理；

分析单元23，还用于通过将待检测分词输入到短信识别文件中的短信识别模型进行分析。

在具体实施例中，装置还包括：主体向量匹配单元、分类单元和存储单元，

主体向量匹配单元，用于在利用预定压缩算法，将预设分词词表与短信识别模型进行压缩合并得到短信识别文件之前，为训练短信匹配相应的主题向量；

分类单元，用于按照训练短信的类型对主题向量进行分类；

存储单元，用于将主题向量以及与主题向量对应的类型存储在主题向量表中；

压缩单元，还用于利用预定压缩算法，将主题向量表、预设分词词表和短信识别模型进行压缩合并得到短信识别文件。

在具体实施例中，装置还包括：类型确定单元、查询单元和处理单元，

主体向量匹配单元，还用于在通过将待检测分词输入到预先配置的短信识别模型进行分析，确定待检测短信是否为垃圾短信之后，确定垃圾短信匹配相应的垃圾主题向量；

类型确定单元，用于将垃圾主题向量与短信识别文件中的主题向量表进行匹配，确定垃圾短信的类型；

查询单元，用于从预定处理方式数据库中查询与垃圾短信的类型对应的处理方式信息，预定处理方式数据库中保存有不同垃圾短信类型分别对应的处理方式信息；

处理单元，用于利用查询到的处理方式信息，对垃圾短信进行处理。

在具体实施例中，分词单元22具体包括：

短语划分模块，用于对待检测短信按照最大匹配字数进行划分得到至少一个匹配短语；

词表匹配模块，用于将匹配短语中的各个文字分别与预设分词词表中的分词进行匹配；

分词模块，用于参照匹配结果对匹配短语进行分词处理，得到待检测分词。

基于上述图1-4所示方法，相应的，本实施例还提供了一种存储设备，其上存储有计算机程序，程序被处理器执行时实现图1-4所示的方法。

基于上述图1-4所示方法和图5、6所示装置的实施例，本实施例还提供了一种移动终端，如图7所示，该移动终端包括设置在总线33上的存储设备32和处理器31，

存储设备32，用于存储计算机程序；

处理器31，用于执行计算机程序以实现图1-4所示的方法。

通过本发明的上述技术方案，利用经过学习训练得到的短信识别模型，根据所有分词的整体分类情况识别整个短信的内容，来判断该短信是否是垃圾短信，有效提高垃圾短信识别的准确率，进而对垃圾短信进行全面的拦截处理。

本发明实施例公开了：

A1、一种垃圾短信的识别方法，包括：

获取终端设备接收到的待检测短信；

A 2、如A 1所述的方法，所述根据预设分词词表对所述待检测短信进行最大匹配分词处理，得到待检测分词之前，所述方法还包括：

对获取的训练短信利用条件随机算法进行分词处理得到第一分词集，并根据所述第一分词集建立预设分词词表；

根据所述预设分词词表对所述训练短信进行最大匹配分词处理，得到第二分词集；

将所述第二分词集利用向量分类算法进行训练，得到短信识别模型。

A 3、如A 2所述的方法，根据所述预设分词词表对所述训练短信进行最大匹配分词处理，得到第二分词集，具体包括：

获取训练短信对应的发送者号码；

将所述发送者号码划分为个人号码和非个人号码；

根据所述预设分词词表，分别对所述个人号码的训练短信和所述非个人号码的训练短信进行最大匹配分词处理，得到个人号码训练分词集和非个人号码训练分词集。

A 4、如A 3所述的方法，将所述第二分词集利用向量分类算法进行训练，得到短信识别模型，具体包括：

将所述个人号码训练分词集利用向量分类算法进行训练，得到个人号码短信识别模型；及

将所述非个人号码训练分词集利用向量分类算法进行训练，得到非个人号码短信识别模型；

将所述个人号码短信识别模型和非个人号码短信识别模型进行组合作为短信识别模型。

A 5、如A 2所述的方法，根据所述第一分词集建立预设分词词表，具体包括：

利用信息增益算法对所述第一分词集进行降维处理；

根据降维处理结果，按照特征维度从多到少的顺序，对所述第一分词集中的各个分词进行排序，并提取前预定数量的分词，生成预设分词词表。

A 6、如A 5所述的方法，所述利用信息增益算法对所述第一分词集进行降维处理，具体包括：

利用所述信息增益算法，计算所述第一分词集中分词对应的各个特征项的信息熵；

通过剔除分词中所述信息熵小于预定信息熵的特征项，对所述第一分词集进行降维处理。

A 7、如A 2所述的方法，将所述第二分词集利用向量分类算法进行训练，得到短信识别模型之后，所述方法还包括：

利用预定压缩算法，将所述预设分词词表与所述短信识别模型进行压缩合并得到短信识别文件；

所述根据预设分词词表对所述待检测短信进行最大匹配分词处理，具体包括；

根据所述短信识别文件中的预设分词词表对所述待检测短信进行最大匹配分词处理；

所述通过将所述待检测分词输入到预先配置的短信识别模型进行分析，具体包括：

通过将所述待检测分词输入到所述短信识别文件中的短信识别模型进行分析。

A 8、如A 7所述的方法，利用预定压缩算法，将所述预设分词词表与所述短信识别模型进行压缩合并得到短信识别文件之前，所述方法还包括：

为所述训练短信匹配相应的主题向量；

按照所述训练短信的类型对所述主题向量进行分类；

将所述主题向量以及与所述主题向量对应的类型存储在主题向量表中；

所述利用预定压缩算法，将所述预设分词词表与所述短信识别模型进行压缩合并得到短信识别文件，具体包括：

利用预定压缩算法，将所述主题向量表、所述预设分词词表和所述短信识别模型进行压缩合并得到短信识别文件。

A 9、如A 8所述的方法，所述通过将所述待检测分词输入到预先配置的短信识别模型进行分析，确定所述待检测短信是否为垃圾短信之后，所述方法还包括：

确定所述垃圾短信匹配相应的垃圾主题向量；

将所述垃圾主题向量与所述短信识别文件中的主题向量表进行匹配，确定所述垃圾短信的类型；

从预定处理方式数据库中查询与所述垃圾短信的类型对应的处理方式信息，所述预定处理方式数据库中保存有不同垃圾短信类型分别对应的处理方式信息；

利用查询到的处理方式信息，对所述垃圾短信进行处理。

A 10、如A 1至A 9中任一项所述的方法，根据预设分词词表对所述待检测短信进行最大匹配分词处理，得到待检测分词，具体包括：

对所述待检测短信按照最大匹配字数进行划分得到至少一个匹配短语；

将所述匹配短语中的各个文字分别与所述预设分词词表中的分词进行匹配；

参照匹配结果对所述匹配短语进行分词处理，得到待检测分词。

B11、一种垃圾短信的识别装置，包括：

获取单元，用于获取终端设备接收到的待检测短信；

B 12、如B 11所述的装置，所述装置还包括：建立单元和训练单元，

建立单元，用于对获取的训练短信利用条件随机算法进行分词处理得到第一分词集，并根据所述第一分词集建立预设分词词表；

所述分词单元，还用于根据所述预设分词词表对所述训练短信进行最大匹配分词处理，得到第二分词集；

训练单元，用于将所述第二分词集利用向量分类算法进行训练，得到短信识别模型。

B 13、如B 12所述的装置，所述分词单元具体包括：

号码获取模块，用于获取训练短信对应的发送者号码；

划分模块，用于将所述发送者号码划分为个人号码和非个人号码；

处理模块，用于根据所述预设分词词表，分别对所述个人号码的训练短信和所述非个人号码的训练短信进行最大匹配分词处理，得到个人号码训练分词集和非个人号码训练分词集。

B 14、如B 13所述的装置，所述训练单元具体包括：

个人号码短信训练模块，用于将所述个人号码训练分词集利用向量分类算法进行训练，得到个人号码短信识别模型；

非个人号码短信训练模块，用于将所述非个人号码训练分词集利用向量分类算法进行训练，得到非个人号码短信识别模型；

组合模块，用于将所述个人号码短信识别模型和非个人号码短信识别模型进行组合作为短信识别模型。

B 15、如B 12所述的装置，所述建立单元具体包括：

降维模块，用于利用信息增益算法对所述第一分词集进行降维处理；

生成模块，用于根据降维处理结果，按照特征维度从多到少的顺序，对所述第一分词集中的各个分词进行排序，并提取前预定数量的分词，生成预设分词词表。

B 16、如B 15所述的装置，所述降维模块具体包括：

计算模块，用于利用所述信息增益算法，计算所述第一分词集中分词对应的各个特征项的信息熵；

剔除模块，用于通过剔除分词中所述信息熵小于预定信息熵的特征项，对所述第一分词集进行降维处理。

B 17、如B 12所述的装置，所述装置还包括：压缩单元，

压缩单元，在将所述第二分词集利用向量分类算法进行训练，得到短信识别模型之后，利用预定压缩算法，将所述预设分词词表与所述短信识别模型进行压缩合并得到短信识别文件；

所述分词单元，还用于根据所述短信识别文件中的预设分词词表对所述待检测短信进行最大匹配分词处理；

所述分析单元，还用于通过将所述待检测分词输入到所述短信识别文件中的短信识别模型进行分析。

B 18、如B 17所述的装置，所述装置还包括：主体向量匹配单元、分类单元和存储单元，

主体向量匹配单元，用于在利用预定压缩算法，将所述预设分词词表与所述短信识别模型进行压缩合并得到短信识别文件之前，为所述训练短信匹配相应的主题向量；

分类单元，用于按照所述训练短信的类型对所述主题向量进行分类；

存储单元，用于将所述主题向量以及与所述主题向量对应的类型存储在主题向量表中；

所述压缩单元，还用于利用预定压缩算法，将所述主题向量表、所述预设分词词表和所述短信识别模型进行压缩合并得到短信识别文件。

B 19、如B 18所述的装置，所述装置还包括：类型确定单元、查询单元和处理单元，

所述主体向量匹配单元，还用于在通过将所述待检测分词输入到预先配置的短信识别模型进行分析，确定所述待检测短信是否为垃圾短信之后，确定所述垃圾短信匹配相应的垃圾主题向量；

类型确定单元，用于将所述垃圾主题向量与所述短信识别文件中的主题向量表进行匹配，确定所述垃圾短信的类型；

查询单元，用于从预定处理方式数据库中查询与所述垃圾短信的类型对应的处理方式信息，所述预定处理方式数据库中保存有不同垃圾短信类型分别对应的处理方式信息；

处理单元，用于利用查询到的处理方式信息，对所述垃圾短信进行处理。

B 20、如B 11至B 19中任一项所述的装置，所述分词单元具体包括：

短语划分模块，用于对所述待检测短信按照最大匹配字数进行划分得到至少一个匹配短语；

词表匹配模块，用于将所述匹配短语中的各个文字分别与所述预设分词词表中的分词进行匹配；

分词模块，用于参照匹配结果对所述匹配短语进行分词处理，得到待检测分词。

C21、一种存储设备，其上存储有计算机程序，所述程序被处理器执行时实现如A1至A10任一项所述的垃圾短信的识别方法。

D22、一种移动终端，所述移动终端包括存储设备和处理器，

所述存储设备，用于存储计算机程序；

所述处理器，用于执行所述计算机程序以实现如A1至A10任一项所述的垃圾短信的识别方法。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种垃圾短信的识别方法、装置和移动终端的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种垃圾短信的识别方法，其特征在于，包括：

获取终端设备接收到的待检测短信；

2.根据权利要求1所述的方法，其特征在于，所述根据预设分词词表对所述待检测短信进行最大匹配分词处理，得到待检测分词之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，根据所述预设分词词表对所述训练短信进行最大匹配分词处理，得到第二分词集，具体包括：

获取训练短信对应的发送者号码；

将所述发送者号码划分为个人号码和非个人号码；

4.根据权利要求3所述的方法，其特征在于，将所述第二分词集利用向量分类算法进行训练，得到短信识别模型，具体包括：

5.根据权利要求2所述的方法，其特征在于，根据所述第一分词集建立预设分词词表，具体包括：

利用信息增益算法对所述第一分词集进行降维处理；

6.根据权利要求5所述的方法，其特征在于，所述利用信息增益算法对所述第一分词集进行降维处理，具体包括：

7.根据权利要求2所述的方法，其特征在于，将所述第二分词集利用向量分类算法进行训练，得到短信识别模型之后，所述方法还包括：

8.一种垃圾短信的识别装置，其特征在于，包括：

获取单元，用于获取终端设备接收到的待检测短信；

9.一种存储设备，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述的垃圾短信的识别方法。

10.一种移动终端，其特征在于，所述移动终端包括存储设备和处理器，

所述存储设备，用于存储计算机程序；

所述处理器，用于执行所述计算机程序以实现权利要求1至7任一项所述的垃圾短信的识别方法。