CN108062303A

CN108062303A - 垃圾短信的识别方法及装置

Info

Publication number: CN108062303A
Application number: CN201711277588.5A
Authority: CN
Inventors: 李强; 周楠; 史东杰
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2018-05-22

Abstract

本发明公开了一种垃圾短信的识别方法及装置，涉及一种短信技术领域，主要目的在于现有被判白的短信中，仍然会包括除文本中的文字关键词以外的特殊表达方式，仅仅对短信中的文字进行训练筛选已经无法准确确定短信是否为垃圾短信的问题。主要技术方案：获取短信的文本信息；判断所述文本信息中是否存在异常信息，所述异常信息为不可进行文字语料识别的信息；若存在异常信息，则对所述异常信息进行预处理；根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信；若为垃圾短信，则将所述垃圾短信进行提示标记。

Description

垃圾短信的识别方法及装置

技术领域

本发明涉及一种短信技术领域，特别是涉及一种垃圾短信的识别方法及装置。

背景技术

短信是指用户通过手机或其他具有电信通讯功能的终端设备发送或接收的文字或数字信息，以便用户之间进行沟通。为了提高商品的购买力度，以及一些信息的推广强度，部分商家会通过短信向用户发送相关的推送信息，但是，作为用户并不希望接收到此类短信，因此，会将这些短信称为“垃圾短信”。

目前，随着短信内容的多样化，以及用户使用语言的灵活性，现有通过接收到的短信文本中的文字关键词等信息识别垃圾短信，但是，被判白的短信中，仍然会包括除文本中的文字关键词以外的特殊表达方式，仅仅对短信中的文字进行训练筛选已经无法准确确定短信是否为垃圾短信，降低了垃圾短信的识别准确性。

发明内容

有鉴于此，本发明提供一种垃圾短信的识别方法及装置，主要目的在于现有被判白的短信中，仍然会包括除文本中的文字关键词以外的特殊表达方式，仅仅对短信中的文字进行训练筛选已经无法准确确定短信是否为垃圾短信的问题。

依据本发明一个方面，提供了一种垃圾短信的识别方法，包括：

获取短信的文本信息；

判断所述文本信息中是否存在异常信息，所述异常信息为不可进行文字语料识别的信息；

若存在异常信息，则对所述异常信息进行预处理；

根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信，所述垃圾短信预测模型用于根据所述处理后的异常信息以及所述文本信息识别短信的文本信息中存在垃圾信息的短信；

若为垃圾短信，则将所述垃圾短信进行提示标记。

进一步地，所述获取短信的文本信息之前，所述方法还包括：

根据时序维度建立具有多个预设神经网络组合结构的垃圾短信预测模型。

进一步地，所述异常信息包括繁体字信息、拼音信息、热门用语、特殊字符，所述若存在异常信息，则对所述异常信息进行预处理包括：

若存在异常信息，则解析所述异常信息的异常类型；

查找与所述异常类型对应的预置编码表，将所述异常信息与所述预置编码表进行对比，确定出根据所述预置编码表进行转换后的异常信息。

进一步地，所述若存在异常信息，则对所述异常信息进行预处理之后，所述方法还包括：

配置转换后的繁体字信息、和/或拼音信息、和/或热门用语、和/或特殊字符的独热码，并将处理后的文本信息转换为句子向量。

进一步地，所述根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信包括：

将不同时序下的所述独热码及所述句子向量作为所述垃圾短信预测模型中不同时序维度下的预设神经网络的输入进行运算，并通过预设输出函数进行输出，确定短信的文本信息中存在垃圾信息的短信。

进一步地，所述根据时序维度建立具有多个预设神经网络组合结构的垃圾短信预测模型包括：

根据预设时序个数将预设神经网络进行组合连接，生产双层回归结构的预测网络模型，将所述预测网络模型的输出结果映射连接至全连接层，并结合预设输出函数建立垃圾短信预测模型。

检测所述短信的文本信息的垃圾信息检测结果是否为非垃圾短信；

若为垃圾短信，则直接进行提示标记；

所述获取短信的文本信息包括：

若为非垃圾短信，则获取所述短信的文本信息。

进一步地，所述方法还包括：

按照预设时间间隔根据确定的垃圾短信的异常信息对所述垃圾短信预测模型进行模型修正。

依据本发明一个方面，提供了一种垃圾短信的识别装置，包括：

获取单元，用于获取短信的文本信息；

判断单元，用于判断所述文本信息中是否存在异常信息，所述异常信息为不可进行文字语料识别的信息；

处理单元，用于若存在异常信息，则对所述异常信息进行预处理；

确定单元，用于根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信，所述垃圾短信预测模型用于根据所述处理后的异常信息以及所述文本信息识别短信的文本信息中存在垃圾信息的短信；

标记单元，用于若为垃圾短信，则将所述垃圾短信进行提示标记。

进一步地，所述装置还包括：

建立单元，用于根据时序维度建立具有多个预设神经网络组合结构的垃圾短信预测模型。

进一步地，所述异常信息包括繁体字信息、拼音信息、热门用语、特殊字符，所述处理单元包括：

解析模块，用于若存在异常信息，则解析所述异常信息的异常类型；

对比模块，用于查找与所述异常类型对应的预置编码表，将所述异常信息与所述预置编码表进行对比，确定出根据所述预置编码表进行转换后的异常信息。

进一步地，所述装置还包括：

配置单元，用于配置转换后的繁体字信息、和/或拼音信息、和/或热门用语、和/或特殊字符的独热码，并将处理后的文本信息转换为句子向量。

进一步地，所述确定单元，具体用于将不同时序下的所述独热码及所述句子向量作为所述垃圾短信预测模型中不同时序维度下的预设神经网络的输入进行运算，并通过预设输出函数进行输出，确定短信的文本信息中存在垃圾信息的短信。

进一步地，所述建立单元，具体用于根据预设时序个数将预设神经网络进行组合连接，生产双层回归结构的预测网络模型，将所述预测网络模型的输出结果映射连接至全连接层，并结合预设输出函数建立垃圾短信预测模型。

进一步地，所述装置还包括：检测单元，

所述检测单元，用于检测所述短信的文本信息的垃圾信息检测结果是否为非垃圾短信；

所述标记单元，还用于若为垃圾短信，则直接进行提示标记；

所述获取单元，具体用于若为非垃圾短信，则获取所述短信的文本信息。

进一步地，所述装置还包括：

修正单元，用于按照预设时间间隔根据确定的垃圾短信的异常信息对所述垃圾短信预测模型进行模型修正。

根据本发明的又一方面，提供了一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述垃圾短信的识别方法对应的操作。

根据本发明的再一方面，提供了一种终端，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述垃圾短信的识别方法对应的操作。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明提供了一种垃圾短信的识别方法及装置，首先获取短信的文本信息，然后判断所述文本信息中是否存在异常信息，所述异常信息为不可进行文字语料识别的信息，若存在异常信息，则对所述异常信息进行预处理，然后根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信，所述垃圾短信预测模型用于根据所述处理后的异常信息以及所述文本信息识别短信的文本信息中存在垃圾信息的短信，若为垃圾短信，则将所述垃圾短信进行提示标记。与现有被判白的短信中，仍然会包括除文本中的文字关键词以外的特殊表达方式，仅仅对短信中的文字进行训练筛选已经无法准确确定短信是否为垃圾短信相比，本发明实施例通过将短信文本中的异常信息处理为可以进行垃圾短信预测模型的数据，再通过不同时序下的数据结合垃圾短信预测模型进行回归运算，实现精确识别短信中的垃圾短信，避免因存在异常信息而未将垃圾短信识别出来的情况，提高了垃圾短信的识别精度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种垃圾短信的识别方法流程图；

图2示出了本发明实施例提供的另一种垃圾短信的识别方法流程图；

图3示出了本发明实施例提供的一种垃圾短信预测模型结构示意图；

图4示出了本发明实施例提供的一种垃圾短信的识别装置框图；

图5示出了本发明实施例提供的另一种垃圾短信的识别装置框图；

图6示出了本发明实施例提供的一种终端示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种垃圾短信的识别方法，如图1所示，所述方法包括：

101、获取短信的文本信息。

其中，所述短信为已经进行过垃圾短信识别后的非垃圾短信，为了避免非垃圾短信的文学信息中存在一些异常信息而导致错误识别，因此，需要获取短信的文本信息再次识别，所述文本信息包括文字信息、数字信息等，本发明实施例不做具体限定。

需要说明的是，当前进行垃圾短信识别执行主体为服务端，如云端服务器，因此，服务端中存储有大量与垃圾短信中对应的文本信息，在用户使用的终端中安装的垃圾短信检测应用程序检测到有短信接收时，即将需要检测的短信发送至服务端，以便进行垃圾短信识别，再将识别后的短信及识别结果返回用户终端。

102、判断所述文本信息中是否存在异常信息。

其中，所述异常信息为不可进行文字语料识别的信息，一般的，短信中的文本信息都会以简体中文、英文、数字等文字形式进行体现，而异常信息则包括繁体字信息、拼音信息、热门用语、特殊字符，所述繁体字信息为与简体中文对应的繁体中文，例如，简体“刘”对应的繁体为“劉”，所述拼音信息为组成中文读音的拼音，例如，“吃饭”的拼音对应“chifan”，所述热门用语为用语网络、社会中的流行用语，例如，“非常棒”的网络用语为“666”，所述特殊字符为体现汉语语义但并非汉语文字的字符，例如，表示“吃饭”、“高兴”的特殊字符，本发明实施例不做具体限定。

需要说明的是，判断是否存在异常信息可以通过将文本信息中的各个字符与服务端中预先存储的语料库中的字符进行一一对比，从而判断文本信息中是否存在异常信息。

103、若存在异常信息，则对所述异常信息进行预处理。

对于本发明实施例，由于需要对存在异常信息的短信进行垃圾短信预测模型识别是否为垃圾短信，因此，需要对异常信息进行处理，得到可以进行垃圾短信预测模型识别的文本信息。

需要说明的是，所述预处理即为将异常信息转换为垃圾短信预测模型可以识别的中文简体及数字等形式。尤其是，现有的垃圾短信识别时，是根据简体中文的语料信息进行判断，若短信的文本信息中存在异常信息，则无法进行识别，极大可能将垃圾短信确定为非垃圾短信，例如，将文本信息中的“我們是專業的電腦修理員”转换为简体中文为“我们是专业的电脑修理员”，因此，需要将异常信息转换为简体中文可以识别的语料信息。

104、根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信。

其中，所述垃圾短信预测模型用于根据所述处理后的异常信息以及所述文本信息识别短信的文本信息中存在垃圾信息的短信，所述不同时序为按照时间排序得到的多个时间顺序下的异常信息及短信的文本信息，一般的，为了增加垃圾短信预测模型的预测精度，可以选取20个时序下的异常信息及短信的文本信息，每个时序的时间间隔可以为1小时、5分钟等，本发明实施例不做具体限定。

需要说明的是，垃圾短信预测模型可以由具有分类功能的机器学习算法进行构建，通过将异常信息及短信的文本信息作为模型输入进行回归，确定出垃圾短信。例如，神经网络算法中的Multi-LSTM(Multi-Long Short-TermMemory)，即多层长短期记忆网络，一种多层的时间递归神经网络，本发明实施例不做具体限定。

105、若为垃圾短信，则将所述垃圾短信进行提示标记。

对于本发明实施例，为了提醒用户接收的短信是垃圾短信，当前服务端需要对垃圾短信进行标记，以便提醒用户不用浏览此类垃圾短信。

本发明提供了一种垃圾短信的识别方法，与现有被判白的短信中，仍然会包括除文本中的文字关键词以外的特殊表达方式，仅仅对短信中的文字进行训练筛选已经无法准确确定短信是否为垃圾短信相比，本发明实施例通过将短信文本中的异常信息处理为可以进行垃圾短信预测模型的数据，再通过不同时序下的数据结合垃圾短信预测模型进行回归运算，实现精确识别短信中的垃圾短信，避免因存在异常信息而未将垃圾短信识别出来的情况，提高了垃圾短信的识别精度。

本发明实施例提供了另一种垃圾短信的识别方法，如图2所示，所述方法包括：

201、检测所述短信的文本信息的垃圾信息检测结果是否为非垃圾短信。

对于本发明实施例，为了提高垃圾短信的识别准确性，需要先针对短信的文本信息进行检测，具体可以为通过语料库中的语料进行对比分析，本发明实施例不做具体限定，确定文本信息为垃圾内容后，再次进行本发明实施例中的方法判断已经被判白的短信的文本信息中是否包含有异常信息，从而提高垃圾短信的识别准确率。

202a、若为垃圾短信，则直接进行提示标记。

对于本发明实施例，已经确定为垃圾短信后，不再进行文本信息中异常信息的识别，直接进行垃圾短信的提示标记，返回至用户的使用终端。

对于本发明实施例，与步骤202a并列的步骤202b、若为非垃圾短信，则获取所述短信的文本信息。

本步骤与图1所示的步骤101方法相同，在此不再赘述。

对于本发明实施例，步骤202b之前，所述方法还包括：根据时序维度建立具有多个预设神经网络组合结构的垃圾短信预测模型。

对于本发明实施例，为了避免通过单一神经网络模型回归得到结果的单一性，可以建立具有多个预设神经网络组合结构的垃圾短信预测模型。其中，为了匹配时序维度，预设神经网络可以为Multi-LSTM，可以更加准确的处理和预测时间序列中间隔和延迟相对较长的事件，时序维度为不同时间顺序下的多个维度关系，如图3所示，针对垃圾短信的识别业务，为垃圾短信预测模型建立20个时序维度的Multi-LSTM网络模型，每个Multi-LSTM中都加入了一个判断数据是否有用的“处理器”cell，通过cell可以将多个Multi-LSTM连接起来，从而建立网络的组合结构的垃圾短信预测模型。

对于本发明实施例，为了提高垃圾短信预测模型的预测准确度及高效性，所述根据时序维度建立具有多个预设神经网络组合结构的垃圾短信预测模型具体包括：根据预设时序个数将预设神经网络进行组合连接，生产双层回归结构的预测网络模型，将所述预测网络模型的输出结果映射连接至全连接层，并结合预设输出函数建立垃圾短信预测模型。

对于本发明实施例，为了提高多个时序维度建立网络模型的回归精度，将串联起来的Multi-LSTM进行组合连接，生成双层回归结构的预测网络模型，所述预设时序个数可以根据识别垃圾短信的业务需求设定为20个，所述预设输出函数为由以交叉熵函数作为损失函数的Softmax输出层。如图3所示，每一层中的第一个Multi-LSTM设定一个初始状态，然后接收输入数据，通过cell将有用的数据专递给下一个Multi-LSTM，并将Multi-LSTM的输出结果映射至全连接层FC，依次类推，得到全连接层的输出结果，并且，为了使得到的结果更加的体现垃圾短信与非垃圾短信之间的区别，使用Softmax输出层进行输出结果，从而得到完整的垃圾短信预测模型。

对于本发明实施例，步骤202b之后的步骤203、判断所述文本信息中是否存在异常信息。

对于本发明实施例，异常信息中的繁体字信息、拼音信息、热门用语、特殊字符，在文本信息中可以以少量字符形式出现，也可以以全部短信内容形式出现，因此，在判断文本信息中是否存在异常信息时，只需要按照异常信息对应的编码表对文本信息中的文字字符进行一一对比，当出现的繁体字信息、拼音信息、热门用语、特殊字符可以与繁体字信息、拼音信息、热门用语、特殊字符编码表对应上时，则确定文本信息中存在异常信息。

204、若存在异常信息，则解析所述异常信息的异常类型。

需要说明的是，异常信息的异常类型包括字体转换和字义转换，即字体转换针对的是相同字义的繁体字信息、拼音信息，字义转换针对的是不同字义的热门用语、特殊字符，以便根据不同的异常类型查找不同的编码表，来转换异常信息。

205、查找与所述异常类型对应的预置编码表，将所述异常信息与所述预置编码表进行对比，确定出根据所述预置编码表进行转换后的异常信息。

对于本发明实施例，在云端服务器中可以存储有异常类型对应的预置编码表，包括字体转换的编码表，即繁体字信息及拼音信息的编码表，以及字义转换的编码表，即热门用语及特殊字符的编码表，每个编码表中映射有繁体字与简体字的对应关系、拼音与中文词汇的对应关系、热门用语与常用语的对应关系、特殊字符与常用文字的对应关系，然后将检测到的异常信息，将每个异常信息与编码表进行对比，然后根据映射的对应关系转换为垃圾短信预测模型可以识别的文本信息，即常用语的简体中文常用文字，编码的具体方式及使用程序本发明实施例不做具体限定。

需要说明的是，为了为垃圾短信预测模型回归运算做准备，以及体现异常信息作为垃圾短信识别的特征，分别拆分异常信息以及剩余信息的文本信息，从而提高垃圾短信预测模型的识别精度。

206、配置转换后的繁体字信息、和/或拼音信息、和/或热门用语、和/或特殊字符的独热码，并将处理后的文本信息转换为句子向量。

为了将进行垃圾短信预测模型预测的数据转换为模型可以识别的数据，以及减少模型运行占据内存的空间，提高垃圾短信的识别效率，需要将转换后的繁体字信息、和/或拼音信息、和/或热门用语、和/或特殊字符配置独热码，并将不带有异常信息的短信的文本信息转换为句子向量。其中，通过将上述异常信息配置为只有一个比特为1，其他全为0的独特码，可以减少系统的占用，从而加快垃圾短信预测模型的运行速率，对于独特码的具体位数可以为8位或16位，本发明实施例不做具体限定。

207、将不同时序下的所述独热码及所述句子向量作为所述垃圾短信预测模型中不同时序维度下的预设神经网络的输入进行运算，并通过预设输出函数进行输出，确定短信的文本信息中存在垃圾信息的短信。

对于本发明实施例，如图3所示，为了将独热码及句子向量作为预设神经网络Multi-LSTM的输入，需要将各组时序下的独热码、句子向量与双层结构中各个Multi-LSTM时序维度匹配对应，按照时间顺序将每个时间点下的独热码及句子向量作为一个Multi-LSTM的输入，从而进行模型运算，预设输出函数包括由以交叉熵函数作为损失函数的Softmax输出层，并最终通过Softmax输出短信内容存在垃圾内容的垃圾短信。其中，Initial State为根据垃圾短信识别业务需求进行设置的初始状态、Final State为通过多个Multi-LSTM一次次筛选后的结束状态，本发明实施例不做具体限定。

208、若为垃圾短信，则将所述垃圾短信进行提示标记。

本步骤与图1所示的步骤105方法相同，在此不再赘述。

进一步地，本发明实施例还包括：按照预设时间间隔根据确定的垃圾短信的异常信息对所述垃圾短信预测模型进行模型修正。

对于本发明实施例，由于进行垃圾短信预测模型确定出的垃圾短信的短信内容具有较强的分类作用，可以按照已确定为垃圾短信对垃圾短信预测模型进行修正。其中所述预设时间间隔可以为1周、1个月等，本发明实施例不做具体限定。所述修正方式可以为根据确定的垃圾短信的对应异常信息对预设分类器进行迭代训练，从而得到更优的分类器，提高垃圾短信的识别效率。

本发明提供了另一种垃圾短信的识别方法，本发明实施例通过预置编码表将存在与已经被判白的短信文本中的繁体字信息、拼音信息、热门用语、特殊字符准换为可以进行垃圾短信预测模型的常用语的简体中文常用文字，结合不同时序维度下的预设神经网络进行运算，对得到的垃圾短信进行提示标记，实现精确识别短信中的垃圾短信，避免因存在繁体字信息、拼音信息、热门用语、特殊字符而未将垃圾短信识别出来的情况，进一步的识别可能出现隐晦含义的文本信息中是否为垃圾内容，提高了垃圾短信的识别精度。

进一步的，作为对上述图1所示方法的实现，本发明实施例提供了一种垃圾短信的识别装置，如图4所示，该装置包括：获取单元31、判断单元32、处理单元33、确定单元34、标记单元35。

获取单元31，用于获取短信的文本信息；所述获取单元31为垃圾短信的识别装置执行获取短信的文本信息的程序模块。

判断单元32，用于判断所述文本信息中是否存在异常信息，所述异常信息为不可进行文字语料识别的信息；所述判断单元32为垃圾短信的识别装置执行判断所述文本信息中是否存在异常信息，所述异常信息为不可进行文字语料识别的信息的程序模块。

处理单元33，用于若存在异常信息，则对所述异常信息进行预处理；所述处理单元33为垃圾短信的识别装置执行若存在异常信息，则对所述异常信息进行预处理的程序模块。

确定单元34，用于根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信，所述垃圾短信预测模型用于根据所述处理后的异常信息以及所述文本信息识别短信的文本信息中存在垃圾信息的短信；所述确定单元34为垃圾短信的识别装置执行根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信的程序模块。

标记单元35，用于若为垃圾短信，则将所述垃圾短信进行提示标记。所述标记单元35为垃圾短信的识别装置执行若为垃圾短信，则将所述垃圾短信进行提示标记的程序模块。

本发明提供了一种垃圾短信的识别装置，与现有被判白的短信中，仍然会包括除文本中的文字关键词以外的特殊表达方式，仅仅对短信中的文字进行训练筛选已经无法准确确定短信是否为垃圾短信相比，本发明实施例通过将短信文本中的异常信息处理为可以进行垃圾短信预测模型的数据，再通过不同时序下的数据结合垃圾短信预测模型进行回归运算，实现精确识别短信中的垃圾短信，避免因存在异常信息而未将垃圾短信识别出来的情况，提高了垃圾短信的识别精度。

进一步的，作为对上述图2所示方法的实现，本发明实施例提供了另一种垃圾短信的识别装置，如图5所示，该装置包括：获取单元41、判断单元42、处理单元43、确定单元44、标记单元45、建立单元46、配置单元47、检测单元48、修正单元49。

获取单元41，用于获取短信的文本信息；

判断单元42，用于判断所述文本信息中是否存在异常信息，所述异常信息为不可进行文字语料识别的信息；

处理单元43，用于若存在异常信息，则对所述异常信息进行预处理；

确定单元44，用于根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信，所述垃圾短信预测模型用于根据所述处理后的异常信息以及所述文本信息识别短信的文本信息中存在垃圾信息的短信；

标记单元45，用于若为垃圾短信，则将所述垃圾短信进行提示标记。

进一步地，所述装置还包括：

建立单元46，用于根据时序维度建立具有多个预设神经网络组合结构的垃圾短信预测模型。

具体的，所述异常信息包括繁体字信息、拼音信息、热门用语、特殊字符，所述处理单元43包括：

解析模块4301，用于若存在异常信息，则解析所述异常信息的异常类型；

对比模块4302，用于查找与所述异常类型对应的预置编码表，将所述异常信息与所述预置编码表进行对比，确定出根据所述预置编码表进行转换后的异常信息。

进一步地，所述装置还包括：

配置单元47，用于配置转换后的繁体字信息、和/或拼音信息、和/或热门用语、和/或特殊字符的独热码，并将处理后的文本信息转换为句子向量。

具体的，所述确定单元44，具体用于将不同时序下的所述独热码及所述句子向量作为所述垃圾短信预测模型中不同时序维度下的预设神经网络的输入进行运算，并通过预设输出函数进行输出，确定短信的文本信息中存在垃圾信息的短信。

具体的，所述建立单元46，具体用于根据预设时序个数将预设神经网络进行组合连接，生产双层回归结构的预测网络模型，将所述预测网络模型的输出结果映射连接至全连接层，并结合预设输出函数建立垃圾短信预测模型。

进一步地，所述装置还包括：检测单元48，

所述检测单元48，用于检测所述短信的文本信息的垃圾信息检测结果是否为非垃圾短信；

所述标记单元45，还用于若为垃圾短信，则直接进行提示标记；

所述获取单元41，具体用于若为非垃圾短信，则获取所述短信的文本信息。

进一步地，所述装置还包括：

修正单元49，用于按照预设时间间隔根据确定的垃圾短信的异常信息对所述垃圾短信预测模型进行模型修正。

本发明提供了另一种垃圾短信的识别装置，本发明实施例通过预置编码表将存在与已经被判白的短信文本中的繁体字信息、拼音信息、热门用语、特殊字符准换为可以进行垃圾短信预测模型的常用语的简体中文常用文字，结合不同时序维度下的预设神经网络进行运算，对得到的垃圾短信进行提示标记，实现精确识别短信中的垃圾短信，避免因存在繁体字信息、拼音信息、热门用语、特殊字符而未将垃圾短信识别出来的情况，进一步的识别可能出现隐晦含义的文本信息中是否为垃圾内容，提高了垃圾短信的识别精度。

根据本发明一个实施例提供了一种存储介质，所述存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的垃圾短信的识别方法。

图6示出了根据本发明一个实施例提供的一种终端的结构示意图，本发明具体实施例并不对终端的具体实现做限定。

如图6所示，该终端可以包括：处理器(processor)502、通信接口(CommunicationsInterface)504、存储器(memory)506、以及通信总线508。

其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502，用于执行程序510，具体可以执行上述垃圾短信的识别方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。终端包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：

获取短信的文本信息；

若存在异常信息，则对所述异常信息进行预处理；

若为垃圾短信，则将所述垃圾短信进行提示标记。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的垃圾短信的识别方法及装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明的实施例还包括了：

A1、一种垃圾短信的识别方法，包括：

获取短信的文本信息；

若存在异常信息，则对所述异常信息进行预处理；

若为垃圾短信，则将所述垃圾短信进行提示标记。

A2、根据A1所述的方法，所述获取短信的文本信息之前，所述方法还包括：

A3、根据A1所述的方法，所述异常信息包括繁体字信息、拼音信息、热门用语、特殊字符，所述若存在异常信息，则对所述异常信息进行预处理包括：

若存在异常信息，则解析所述异常信息的异常类型；

A4、根据A3所述的方法，所述若存在异常信息，则对所述异常信息进行预处理之后，所述方法还包括：

A5、根据A4所述的方法，所述根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信包括：

A6、根据A2所述的方法，所述根据时序维度建立具有多个预设神经网络组合结构的垃圾短信预测模型包括：

A7、根据A1所述的方法，所述获取短信的文本信息之前，所述方法还包括：

若为垃圾短信，则直接进行提示标记；

所述获取短信的文本信息包括：

若为非垃圾短信，则获取所述短信的文本信息。

A8、根据A1-A7任一项所述的方法，所述方法还包括：

B9、一种垃圾短信的识别装置，包括：

获取单元，用于获取短信的文本信息；

B10、根据B9所述的装置，所述装置还包括：

B11、根据B9所述的装置，所述异常信息包括繁体字信息、拼音信息、热门用语、特殊字符，所述处理单元包括：

B12、根据B11所述的装置，所述装置还包括：

B13、根据B12所述的装置，

所述确定单元，具体用于将不同时序下的所述独热码及所述句子向量作为所述垃圾短信预测模型中不同时序维度下的预设神经网络的输入进行运算，并通过预设输出函数进行输出，确定短信的文本信息中存在垃圾信息的短信。

B14、根据B10所述的装置，

所述建立单元，具体用于根据预设时序个数将预设神经网络进行组合连接，生产双层回归结构的预测网络模型，将所述预测网络模型的输出结果映射连接至全连接层，并结合预设输出函数建立垃圾短信预测模型。

B15、根据B9所述的装置，所述装置还包括：检测单元，

B16、根据B9-B15任一项所述的装置，所述装置还包括：

C17、一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如A1-A8中任一项所述的垃圾短信的识别方法对应的操作。

D18、一种终端，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如A1-A8中任一项所述的垃圾短信的识别方法对应的操作。

Claims

1.一种垃圾短信的识别方法，其特征在于，包括：

获取短信的文本信息；

若存在异常信息，则对所述异常信息进行预处理；

若为垃圾短信，则将所述垃圾短信进行提示标记。

2.根据权利要求1所述的方法，其特征在于，所述获取短信的文本信息之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述异常信息包括繁体字信息、拼音信息、热门用语、特殊字符，所述若存在异常信息，则对所述异常信息进行预处理包括：

若存在异常信息，则解析所述异常信息的异常类型；

4.根据权利要求3所述的方法，其特征在于，所述若存在异常信息，则对所述异常信息进行预处理之后，所述方法还包括：

5.一种垃圾短信的识别装置，其特征在于，包括：

获取单元，用于获取短信的文本信息；

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求5所述的装置，其特征在于，所述异常信息包括繁体字信息、拼音信息、热门用语、特殊字符，所述处理单元包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-4中任一项所述的垃圾短信的识别方法对应的操作。

10.一种终端，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-4中任一项所述的垃圾短信的识别方法对应的操作。