CN110019773A

CN110019773A - 一种垃圾短信检测方法、终端及计算机可读存储介质

Info

Publication number: CN110019773A
Application number: CN201710692660.4A
Authority: CN
Inventors: 孙宝华; 林景贤; 李俭
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Priority date: 2017-08-14
Filing date: 2017-08-14
Publication date: 2019-07-16

Abstract

本发明提供了一种垃圾短信检测方法、终端及计算机可读存储介质，其中，垃圾短信检测方法包括：对接收到的短信进行预处理，得到数字编码串；根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信。本方案通过对接收到的短信进行预处理，得到数字编码串；根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信；自动提取特征，无需人工干预，大大提升了检测精度，很好的解决了现有技术中中文垃圾短信检测精度低的问题。

Description

一种垃圾短信检测方法、终端及计算机可读存储介质

技术领域

本发明涉及无线通信技术领域，特别是指一种垃圾短信检测方法、终端及计算机可读存储介质。

背景技术

目前的中文垃圾短信检测算法，采用多层判定器级联的形式，每一层的判定器负责处理一些类型的垃圾短信，并把这一层所不能处理的其他类型传递到下一层处理。级联的各层判定器包括：指纹判定，先验模型判定，大数据聚类分析，文本分类器，策略标记等五个部分组成。其中，每一层的判定器的建立，都是根据业务人员积累的专业知识，提取特征，在特征工程的基础上利用机器学习的算法进行监督学习为主的训练方法训练模型，同时也包括在大数据聚类分析层用到的非监督学习模型。用到的算法包括哈希算法，pagerank算法，SVM算法，等等。

现有技术存在以下几个缺点：精度低，算法的训练和推理的时间长，自动化程度低，过滤比例不能保证100％。

第一，由于现有技术的先验模型算法是基于人工的特征工程，包括的维度比较低，不能保证覆盖描述垃圾短信的特征空间，导致在此基础上的机器学习算法的精度低，受特征空间选取的影响很大。

第二，算法训练时间长。举例来说，仅在指纹判定层，100万的指纹库，需要6个小时的训练时间。文本分类器对于4万条短信，建模需要2天。

第三，自动化程度低，不可扩展。现有技术的特征工程部分，需要人工干预。除此之外，每一层输出的结果，级联到下一层时，还是需要人工干预，自动化程度低，不可扩展。

第四，由于现有技术采取多级判定器的级联，每一级把不能准确判定的短信转到下一级处理，所以目前已有技术存在过滤比例不能保证达到100％的问题。过滤比例是指通过垃圾短信判定系统后，可以给出明确的判定结果，即：正常/垃圾短信。现有技术在多层判定器级联之后，还是不能保证过滤比例100％。

发明内容

本发明的目的在于提供一种垃圾短信检测方法、终端及计算机可读存储介质，解决现有技术中中文垃圾短信检测精度低的问题。

为了解决上述技术问题，本发明实施例提供一种垃圾短信检测方法，包括：

对接收到的短信进行预处理，得到数字编码串；

根据所述数字编码串，得到目标矩阵；

根据所述目标矩阵，确认接收到的短信是否为垃圾短信。

可选的，所述根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信的步骤包括：

利用深度学习模型，根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信。

可选的，所述深度学习模型包括嵌入层、卷积层、池化层、丢弃层和全连接层；

所述利用深度学习模型，根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信的步骤包括：

利用所述嵌入层，对所述数字编码串进行降维处理，得到待处理矩阵；

利用所述卷积层，对所述待处理矩阵进行卷积处理，得到卷积矩阵；

利用池化层，从所述卷积矩阵中提取出特征矩阵；

利用丢弃层，根据预设丢弃率，对所述特征矩阵进行丢弃操作，得到目标矩阵；

利用全连接层，根据所述目标矩阵，得到输出结果；

根据所述输出结果，确认接收到的短信是否为垃圾短信。

可选的，所述利用所述卷积层，对所述待处理矩阵进行卷积处理，得到卷积矩阵的步骤包括：

利用所述卷积层，提取所述待处理矩阵中每个矩阵的邻域范围内的矩阵组合；

根据所述矩阵组合和对应的权值矩阵，得到卷积矩阵。

可选的，所述待处理矩阵为300维矩阵。

可选的，所述矩阵组合中矩阵的数量的可选值包括2、3、4和5。

可选的，每一个所述矩阵组合对应的所述权值矩阵的数量为100。

可选的，所述预设丢弃率为50％。

可选的，所述利用池化层，从所述卷积矩阵中提取出特征矩阵的步骤包括：

利用池化层，根据所述矩阵组合中矩阵的数量的可选值的个数和每一个所述矩阵组合对应的权值矩阵的数量，从所述卷积矩阵中提取出特征矩阵。

可选的，利用深度学习模型，根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信之前，所述垃圾短信检测方法还包括：

根据包含标签信息的短信训练数据，确定所述深度学习模型的各个参数值；

所述标签信息用于标识所述短信训练数据为垃圾短信数据或正常短信数据。

可选的，所述对接收到的短信进行预处理，得到数字编码串的步骤包括：

去除所述短信中的空格；

将去除空格后的短信转换为预设长度的统一码；

根据字典，将所述统一码映射为数字编码串。

可选的，所述将去除空格后的短信转换为预设长度的统一码的步骤包括：

若所述短信的长度小于所述预设长度，则采用预设符号将所述短信的长度补齐为所述预设长度；

将补齐后的所述短信转换为统一码；或者

若所述短信的长度等于所述预设长度，则直接将所述短信转换为统一码；或者

若所述短信的长度大于所述预设长度，则根据所述预设长度，将所述短信进行切割；

将切割后长度等于所述预设长度的短信段落，转换为统一码。

可选的，若所述短信的长度大于所述预设长度，所述垃圾短信检测方法还包括：

若切割后存在长度小于所述预设长度的短信段落，则采用预设符号将所述短信段落的长度补齐为所述预设长度；

将补齐后的所述短信段落转换为统一码。

可选的，在根据字典，将所述统一码映射为数字编码串之前，所述垃圾短信检测方法还包括：

获取短信训练数据，并进行所述预处理；

将预处理后的所述短信训练数据转换为统一码；

统计所述短信训练数据转换形成的各个统一码的出现频次；

按照出现频次由高到低排列，对所述各个统一码进行数字编码，得到所述字典。

可选的，所述对接收到的短信进行预处理，得到数字编码串的步骤还包括：

若所述短信转换形成的统一码不存在于所述字典中，则采用所述预设符号替换对应的统一码，得到数字编码串。

可选的，所述根据所述目标矩阵，确认接收到的短信是否为垃圾短信的步骤包括：

利用交叉熵损失函数，根据所述目标矩阵，得到两个输出值；

根据数值较大的输出值，确认接收到的短信是否为垃圾短信。

本发明实施例还提供了一种终端，包括：处理器和收发器；

所述处理器，用于对所述收发器接收到的短信进行预处理，得到数字编码串；

所述处理器，还用于根据所述数字编码串，得到目标矩阵；

所述处理器，还用于根据所述目标矩阵，确认接收到的短信是否为垃圾短信。

可选的，所述处理器具体用于：

所述处理器更具体用于：

利用池化层，从所述卷积矩阵中提取出特征矩阵；

利用全连接层，根据所述目标矩阵，得到输出结果；

根据所述输出结果，确认接收到的短信是否为垃圾短信。

可选的，所述处理器更具体用于：

根据所述矩阵组合和对应的权值矩阵，得到卷积矩阵。

可选的，所述待处理矩阵为300维矩阵。

可选的，所述预设丢弃率为50％。

可选的，所述处理器更具体用于：

可选的，所述处理器还用于：

利用深度学习模型，根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信之前，根据包含标签信息的短信训练数据，确定所述深度学习模型的各个参数值；

可选的，所述处理器更具体用于：

去除所述短信中的空格；

将去除空格后的短信转换为预设长度的统一码；

根据字典，将所述统一码映射为数字编码串。

可选的，所述处理器更具体用于：

将补齐后的所述短信转换为统一码；或者

可选的，若所述短信的长度大于所述预设长度，所述处理器还用于：

将补齐后的所述短信段落转换为统一码。

可选的，所述处理器还用于：

在根据字典，将所述统一码映射为数字编码串之前，获取短信训练数据，并进行所述预处理；

将预处理后的所述短信训练数据转换为统一码；

统计所述短信训练数据转换形成的各个统一码的出现频次；

可选的，所述处理器更具体用于：

可选的，所述处理器具体用于：

本发明实施例还提供了一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述程序时实现上述的垃圾短信检测方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的垃圾短信检测方法中的步骤。

本发明的上述技术方案的有益效果如下：

上述方案中，所述垃圾短信检测方法通过对接收到的短信进行预处理，得到数字编码串；根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信；自动提取特征，无需人工干预，大大提升了检测精度，很好的解决了现有技术中中文垃圾短信检测精度低的问题。

附图说明

图1为本发明实施例的垃圾短信检测方法流程示意图；

图2为本发明实施例的深度学习模型训练示意图一；

图3为本发明实施例的深度学习模型训练示意图二；

图4为本发明实施例的深度学习模型架构示意图；

图5为本发明实施例的终端结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的技术中中文垃圾短信检测精度低的问题，提供一种垃圾短信检测方法，如图1所示，包括：

步骤11：对接收到的短信进行预处理，得到数字编码串；

步骤12：根据所述数字编码串，得到目标矩阵；

步骤13：根据所述目标矩阵，确认接收到的短信是否为垃圾短信。

本发明实施例提供的所述垃圾短信检测方法通过对接收到的短信进行预处理，得到数字编码串；根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信；自动提取特征，无需人工干预，大大提升了检测精度，很好的解决了现有技术中中文垃圾短信检测精度低的问题。

优选的，所述根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信的步骤包括：利用深度学习模型，根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信。

具体的，所述深度学习模型包括嵌入层、卷积层、池化层、丢弃层和全连接层；

所述利用深度学习模型，根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信的步骤包括：利用所述嵌入层，对所述数字编码串进行降维处理，得到待处理矩阵；利用所述卷积层，对所述待处理矩阵进行卷积处理，得到卷积矩阵；利用池化层，从所述卷积矩阵中提取出特征矩阵；利用丢弃层，根据预设丢弃率，对所述特征矩阵进行丢弃操作，得到目标矩阵；利用全连接层，根据所述目标矩阵，得到输出结果；根据所述输出结果，确认接收到的短信是否为垃圾短信。

更具体的，所述利用所述卷积层，对所述待处理矩阵进行卷积处理，得到卷积矩阵的步骤包括：利用所述卷积层，提取所述待处理矩阵中每个矩阵的邻域范围内的矩阵组合；根据所述矩阵组合和对应的权值矩阵，得到卷积矩阵。

优选的，所述待处理矩阵为300维矩阵。所述矩阵组合中矩阵的数量的可选值包括2、3、4和5。每一个所述矩阵组合对应的所述权值矩阵的数量为100。所述预设丢弃率为50％。对应的，所述目标矩阵包括400个元素。

其中，所述利用池化层，从所述卷积矩阵中提取出特征矩阵的步骤包括：利用池化层，根据所述矩阵组合中矩阵的数量的可选值的个数和每一个所述矩阵组合对应的权值矩阵的数量，从所述卷积矩阵中提取出特征矩阵。

进一步的，利用深度学习模型，根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信之前，所述垃圾短信检测方法还包括：根据包含标签信息的短信训练数据，确定所述深度学习模型的各个参数值；所述标签信息用于标识所述短信训练数据为垃圾短信数据或正常短信数据。

深度学习模型的各个参数值包括所述待处理矩阵的维度、预设丢弃率的值、预设长度的值、矩阵组合中矩阵的数量的可选值、每一个所述矩阵组合对应的权值矩阵的数量等。

本实施例中，所述对接收到的短信进行预处理，得到数字编码串的步骤包括：去除所述短信中的空格；将去除空格后的短信转换为预设长度的统一码；根据字典，将所述统一码映射为数字编码串。

所述预设长度可为70、140或210，但并不以此为限。

具体的，所述将去除空格后的短信转换为预设长度的统一码的步骤包括：

若所述短信的长度小于所述预设长度，则采用预设符号将所述短信的长度补齐为所述预设长度；将补齐后的所述短信转换为统一码；或者

若所述短信的长度等于所述预设长度，则直接将所述短信转换为统一码；或者若所述短信的长度大于所述预设长度，则根据所述预设长度，将所述短信进行切割；将切割后长度等于所述预设长度的短信段落，转换为统一码。

进一步的，若所述短信的长度大于所述预设长度，所述垃圾短信检测方法还包括：若切割后存在长度小于所述预设长度的短信段落，则采用预设符号将所述短信段落的长度补齐为所述预设长度；将补齐后的所述短信段落转换为统一码。

更进一步的，在根据字典，将所述统一码映射为数字编码串之前，所述垃圾短信检测方法还包括：获取短信训练数据，并进行所述预处理；将预处理后的所述短信训练数据转换为统一码；统计所述短信训练数据转换形成的各个统一码的出现频次；按照出现频次由高到低排列，对所述各个统一码进行数字编码，得到所述字典。

为了保证本方案的正常运行，所述对接收到的短信进行预处理，得到数字编码串的步骤还包括：若所述短信转换形成的统一码不存在于所述字典中，则采用所述预设符号替换对应的统一码，得到数字编码串。

具体的，所述根据所述目标矩阵，确认接收到的短信是否为垃圾短信的步骤包括：利用交叉熵损失函数，根据所述目标矩阵，得到两个输出值；根据数值较大的输出值，确认接收到的短信是否为垃圾短信。

下面对本发明实施例提供的所述垃圾短信检测方法进行进一步说明，短信以中文短信为例。

针对上述技术问题，本发明实施例提供一种垃圾短信检测方法，通过利用深度学习模型提高垃圾短信的判定精度；而且提高了模型的训练速度，缩短训练时间；建立一条自动化的处理流程，无需人工干预，过滤比例甚至能够达到100％。

本发明实施例中，关于模型训练部分如图2所示：

步骤21：输入带有标签的训练数据；

步骤22：将训练数据随机划分为训练集和验证集，用于调优的交叉验证；

步骤23：利用训练集和验证集进行深度学习模型研发：调优/特征工程；

步骤24：利用验证集判断深度学习模型是否满足精度要求，若是，进入步骤25，若否，返回步骤23；

步骤25：利用带有标签的预测数据测试深度学习模型，输出精度指标。

其中，包括中文短信输入，输出短信分类判断结果：正常/欺诈，进而得到精度指标。

步骤21-24属于训练部分，步骤25属于预测部分。

具体的，本发明实施例提供的方案要达到的目标是输入一条中文短信，深度学习模型可以给出短信分类的判断结果，即：正常或者垃圾。这个功能是在预测部分的展现。

为了达到这一功能，需要训练出深度学习模型。这一模型是在训练部分完成的并输出给预测部分。训练过程，从带有标签的训练数据作为输入，然后随机的划分(均分)为训练集和验证集，用于调优的交叉验证(机器学习分为有监督学习和无监督学习两种；有监督学习是指每一个样本都有一个对应的类别标记，也就是标签。标签在机器学习中用于两个地方，第一，是训练模型的时候，调优会用到。第二，在验证集上输出精度指标时，需要根据标签与模型输出的判别类型作对比，进而计算判定精度)。然后将训练集上调优并在验证集上验证。当验证集的精度满足要求时输出给预测部分，如果不满足要求就继续调试，直到满足要求；训练部分，如图3所示：

步骤31：输入训练数据；

步骤32：将训练数据随机划分为训练集(training)和验证集(validation)，用于交叉验证；

步骤33：对训练集和验证集进行Padding and Cutting(填充和裁剪)，为了将不定长度短信变成相同长度；

可用某个特殊符号将所有的短信补成等长，比如70个字或210个字。

步骤34：建立字典，为了将中文字符映射成数值，每条短信变成数值向量；

步骤35：训练深度学习模型DNN；

步骤36：利用训练集训练模型，在验证集上验证性能，进而返回步骤35，对DNN调参，当验证集的精度满足要求(也就是模型深度学习模型针对验证集的检测精度满足要求)时输出给预测部分。

预测部分：在训练完成后，输入测试数据，经过Padding and Cutting，并根据以上建立的字典，将每条短信变成数值向量，然后利用得到的数值向量测试深度学习模型DNN，输出精度指标。

对于测试数据，如果存在字典中没有的中文字符，用特殊符号代替。

由上可知，训练数据需经过预处理，包括Padding and Cutting(完成了将每一条不定长的短信切补成相同长度)以及建立字典的流程。在训练数据预处理之后，输入到深度学习模型DNN中训练。在训练深度学习模型的过程中，利用上述提到的已经分好的训练集训练模型，并在验证集上确保训练的模型有很好的泛化能力，即避免过拟合，防止overfitting(过度拟合)。最后，进入模型预测阶段，测试数据经过同样的预处理，输入到已经训练好的深度学习模型中，给出结果及精度指标。

其中，对于数据预处理，具体包含以下内容:

首先，对于每一条中文短信，去除空格。对于中文文本，还需要将万国码UTF-8格式的不同长度的中文短信转换成固定长度L的统一码Unicode(本实施例中用到的是70字，也可以选择140字或210字，或选择其他长度，不一定必须是70的整倍数，而且越长越好)：

对于多于固定长度L的部分，直接切断，使得短信切割到L个Unicode字符长度。

对于少于固定长度L的部分，用特殊符号补齐。此特殊符号的选取为文本中从未出现的符号，比如“</s>”。

其次，在已经完成等长短信的基础上，建立字典。建立字典的目的是将所有在训练数据中出现的Unicode映射到一个整数空间去。具体的编码方法为，对于训练数据集中的所有中文短信，假设有N个不同的Unicode字符，统计每一个Unicode出现的频次，按照字符出现频度由高到低排列，对每一个Unicode从0到N-1编码。在字典建立之后，将上述得到的等长短信的Unicode串中的每一个Unicode映射成字典中的数字。

在完成了以上数据预处理之后，每一条短信将变成了等长的、数字编码的串，然后将处理后的数据随机打乱顺序，输入到深度学习模型中训练。

如图4所示，深度学习模型包括：Embedding Layer-嵌入层41、ConvolutionLayer-卷积层42、Max Pooling Layer-池化层43、Dropout Layer-丢弃层44和全连接层45；

其中，Embedding Layer(词向量word2vec的嵌入层)是为了将数据降维到低维(比如300维)空间；

Convolution Layer(CNN卷积层)是为了提取每个字的邻域范围内的字(就是指近邻的几个字)的组合；

Max Pooling Layer(CNN池化层)：是为了提取最重要的feature(特征)；

Dropout Layer是为了增强在测试数据上的泛化能力，防止overfitting(过度拟合)；

全连接层是为了在前面几层提取的特征基础上用softmax作为输出，得到针对短信的判断结果。

针对上述五个层的具体介绍如下：

word2vec的嵌入层的功能是降维以及将整数编码映射到可以运算的空间上。其目的是将输入的等长的数字串中的每一个整数编码，映射到一个M维的低维空间(M远小于N，即远小于字典长度)。每一条预处理过的短信通过这一步之后，输出的是M×L维度的矩阵。本实施例中可选取M＝300。

卷积层的目的是提取每个字的邻域范围内的字(就是指近邻的几个字)的组合，和卷积神经网络CNN用语图像处理中的像素的概念类似，这里提取的是近邻的K＝[2，3，4，5]个词的组合，K有4个可选择的值，记为Q＝4。对于每一个k in K(表示k是K里的一个具体值)，滤波器(即卷积神经网络的在邻域上的权值矩阵/针对每一个字的组合的权值矩阵)的数量F可调节，目前本实施例中可选取F＝100，可以选择更多以获得更好的结果，但是计算量会有增加。

池化层采取最大池max pooling，选取最明显的特征。比如：一个邻域范围内有四个点，值分别为：

1,2,

3,4,

那么，经过池化层输出为4，因为4是这里最大的数字。

Dropout层的目的是为了防止过拟合，本发明实施例中可采取50％的drop rate；具体为在训练阶段，让神经元节点以一定概率被激活，比如50％的概率。

最后的全连接层将前面几层提取的特征输入到全连接的神经网络上，并以交叉熵损失函数softmax作为输出(利用这个网络就可以得到分类的判定结果。具体地说，前面几层提取的特征将会作为输入，结合标签训练全连接层的参数)。本发明实施例中采取的全链接层的输入可以是F×Q＝400，输出为2，即两类短信，垃圾或者正常。

对于模型的训练和测试(即推理)，阈值设定是本发明实施例采用的办法之一。本实施例中的阈值可以是0.5，也就是softmax结果输出大的那个作为判定结果。

也就是对于上述模型，在softmax层，有两个值作为输出，分别表示判定短信为正常/垃圾的概率，且二者之和等于1。举例来说，对于某一条输入短信，判定其为正常短信的概率为0.39，其为垃圾短信的概率为0.61。那么，由于0.61>0.39，所以这条短信判定为垃圾短信。

需要强调的是，如果短信中出现了训练数据的字典中没有出现的Unicode字符，为了覆盖这种corner case(边界情况)，本发明实施例中采取用特殊符号(比如“</s>”)代替的方式。

进一步，代替为特殊符号“</s>”之后，此字符将和其它字符一样，首先完成字符到数值的转换，然后输入到是深度学习模型中进行判定，最后输入判定结果。

另外，深度学习模型DNN的训练和测试可以在图形处理器GPU上完成，也可以在中央处理器CPU上完成，而且使用单块GPU，训练和测试的速度相对于现有方案都可以提高60倍。

由上可知，本发明实施例提供的方案与现有技术相比，通过在垃圾短信应用领域采用深度学习技术，能大大减少特征工程部分的人力成本，以及对专业领域知识的依赖，并且深度学习采用一种端到端的学习方法，不需要人工提取特征再输入到模型中建模，而是直接在深度神经网络内部自动提取特征，进一步节省大量人力；同时由于参数灵活可调，模型调优的速度大大提升。

因此，与现有方法相比，本发明实施例提供的方案判定准确、训练时间短、自动化程度高、可扩展、覆盖率(过滤比例)高，甚至能够达到100％。

本发明实施例还提供了一种终端，如图5所示，包括：处理器51和收发器52；

所述处理器51，用于对所述收发器52接收到的短信进行预处理，得到数字编码串；

所述处理器51，还用于根据所述数字编码串，得到目标矩阵；

所述处理器51，还用于根据所述目标矩阵，确认接收到的短信是否为垃圾短信。

本发明实施例提供的所述终端通过对接收到的短信进行预处理，得到数字编码串；根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信；自动提取特征，无需人工干预，大大提升了检测精度，很好的解决了现有技术中中文垃圾短信检测精度低的问题。

优选的，所述处理器具体用于：利用深度学习模型，根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信。

所述处理器更具体用于：利用所述嵌入层，对所述数字编码串进行降维处理，得到待处理矩阵；利用所述卷积层，对所述待处理矩阵进行卷积处理，得到卷积矩阵；利用池化层，从所述卷积矩阵中提取出特征矩阵；利用丢弃层，根据预设丢弃率，对所述特征矩阵进行丢弃操作，得到目标矩阵；利用全连接层，根据所述目标矩阵，得到输出结果；根据所述输出结果，确认接收到的短信是否为垃圾短信。

更具体的，所述处理器更具体用于：利用所述卷积层，提取所述待处理矩阵中每个矩阵的邻域范围内的矩阵组合；根据所述矩阵组合和对应的权值矩阵，得到卷积矩阵。

优选的，所述待处理矩阵为300维矩阵。所述矩阵组合中矩阵的数量的可选值包括2、3、4和5。每一个所述矩阵组合对应的所述权值矩阵的数量为100。所述预设丢弃率为50％。

其中，所述处理器更具体用于：利用池化层，根据所述矩阵组合中矩阵的数量的可选值的个数和每一个所述矩阵组合对应的权值矩阵的数量，从所述卷积矩阵中提取出特征矩阵。

进一步的，所述处理器还用于：利用深度学习模型，根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信之前，根据包含标签信息的短信训练数据，确定所述深度学习模型的各个参数值；所述标签信息用于标识所述短信训练数据为垃圾短信数据或正常短信数据。

本实施例中，所述处理器更具体用于：去除所述短信中的空格；将去除空格后的短信转换为预设长度的统一码；根据字典，将所述统一码映射为数字编码串。

具体的，所述处理器更具体用于：若所述短信的长度小于所述预设长度，则采用预设符号将所述短信的长度补齐为所述预设长度；将补齐后的所述短信转换为统一码；或者

进一步的，若所述短信的长度大于所述预设长度，所述处理器还用于：若切割后存在长度小于所述预设长度的短信段落，则采用预设符号将所述短信段落的长度补齐为所述预设长度；将补齐后的所述短信段落转换为统一码。

更进一步的，所述处理器还用于：在根据字典，将所述统一码映射为数字编码串之前，获取短信训练数据，并进行所述预处理；将预处理后的所述短信训练数据转换为统一码；统计所述短信训练数据转换形成的各个统一码的出现频次；按照出现频次由高到低排列，对所述各个统一码进行数字编码，得到所述字典。

为了保证本方案的正常运行，所述处理器更具体用于：若所述短信转换形成的统一码不存在于所述字典中，则采用所述预设符号替换对应的统一码，得到数字编码串。

具体的，所述处理器具体用于：利用交叉熵损失函数，根据所述目标矩阵，得到两个输出值；根据数值较大的输出值，确认接收到的短信是否为垃圾短信。

其中，上述垃圾短信检测方法的所述实现实施例均适用于该终端的实施例中，也能达到相同的技术效果。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述原理前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种垃圾短信检测方法，其特征在于，包括：

对接收到的短信进行预处理，得到数字编码串；

根据所述数字编码串，得到目标矩阵；

根据所述目标矩阵，确认接收到的短信是否为垃圾短信。

2.根据权利要求1所述的垃圾短信检测方法，其特征在于，所述根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信的步骤包括：

3.根据权利要求2所述的垃圾短信检测方法，其特征在于，所述深度学习模型包括嵌入层、卷积层、池化层、丢弃层和全连接层；

利用池化层，从所述卷积矩阵中提取出特征矩阵；

利用全连接层，根据所述目标矩阵，得到输出结果；

根据所述输出结果，确认接收到的短信是否为垃圾短信。

4.根据权利要求3所述的垃圾短信检测方法，其特征在于，所述利用所述卷积层，对所述待处理矩阵进行卷积处理，得到卷积矩阵的步骤包括：

根据所述矩阵组合和对应的权值矩阵，得到卷积矩阵。

5.根据权利要求4所述的垃圾短信检测方法，其特征在于，所述待处理矩阵为300维矩阵。

6.根据权利要求5所述的垃圾短信检测方法，其特征在于，所述矩阵组合中矩阵的数量的可选值包括2、3、4和5。

7.根据权利要求6所述的垃圾短信检测方法，其特征在于，每一个所述矩阵组合对应的所述权值矩阵的数量为100。

8.根据权利要求7所述的垃圾短信检测方法，其特征在于，所述预设丢弃率为50％。

9.根据权利要求4、6或7所述的垃圾短信检测方法，其特征在于，所述利用池化层，从所述卷积矩阵中提取出特征矩阵的步骤包括：

10.根据权利要求2所述的垃圾短信检测方法，其特征在于，利用深度学习模型，根据所述数字编码串，得到目标矩阵；根据所述目标矩阵，确认接收到的短信是否为垃圾短信之前，所述垃圾短信检测方法还包括：

11.根据权利要求1所述的垃圾短信检测方法，其特征在于，所述对接收到的短信进行预处理，得到数字编码串的步骤包括：

去除所述短信中的空格；

将去除空格后的短信转换为预设长度的统一码；

根据字典，将所述统一码映射为数字编码串。

12.根据权利要求11所述的垃圾短信检测方法，其特征在于，所述将去除空格后的短信转换为预设长度的统一码的步骤包括：

将补齐后的所述短信转换为统一码；或者

13.根据权利要求12所述的垃圾短信检测方法，其特征在于，若所述短信的长度大于所述预设长度，所述垃圾短信检测方法还包括：

将补齐后的所述短信段落转换为统一码。

14.根据权利要求11至13任一项所述的垃圾短信检测方法，其特征在于，在根据字典，将所述统一码映射为数字编码串之前，所述垃圾短信检测方法还包括：

获取短信训练数据，并进行所述预处理；

将预处理后的所述短信训练数据转换为统一码；

统计所述短信训练数据转换形成的各个统一码的出现频次；

15.根据权利要求12所述的垃圾短信检测方法，其特征在于，所述对接收到的短信进行预处理，得到数字编码串的步骤还包括：

16.根据权利要求1所述的垃圾短信检测方法，其特征在于，所述根据所述目标矩阵，确认接收到的短信是否为垃圾短信的步骤包括：

17.一种终端，其特征在于，包括：处理器和收发器；

所述处理器，还用于根据所述数字编码串，得到目标矩阵；

18.根据权利要求17所述的终端，其特征在于，所述处理器具体用于：

19.根据权利要求18所述的终端，其特征在于，所述深度学习模型包括嵌入层、卷积层、池化层、丢弃层和全连接层；

所述处理器更具体用于：

利用池化层，从所述卷积矩阵中提取出特征矩阵；

利用全连接层，根据所述目标矩阵，得到输出结果；

根据所述输出结果，确认接收到的短信是否为垃圾短信。

20.根据权利要求19所述的终端，其特征在于，所述处理器更具体用于：

根据所述矩阵组合和对应的权值矩阵，得到卷积矩阵。

21.根据权利要求20所述的终端，其特征在于，所述待处理矩阵为300维矩阵。

22.根据权利要求21所述的终端，其特征在于，所述矩阵组合中矩阵的数量的可选值包括2、3、4和5。

23.根据权利要求22所述的终端，其特征在于，每一个所述矩阵组合对应的所述权值矩阵的数量为100。

24.根据权利要求23所述的终端，其特征在于，所述预设丢弃率为50％。

25.根据权利要求20、22或23所述的终端，其特征在于，所述处理器更具体用于：

26.根据权利要求18所述的终端，其特征在于，所述处理器还用于：

27.根据权利要求17所述的终端，其特征在于，所述处理器更具体用于：

去除所述短信中的空格；

将去除空格后的短信转换为预设长度的统一码；

根据字典，将所述统一码映射为数字编码串。

28.根据权利要求27所述的终端，其特征在于，所述处理器更具体用于：

将补齐后的所述短信转换为统一码；或者

29.根据权利要求28所述的终端，其特征在于，若所述短信的长度大于所述预设长度，所述处理器还用于：

将补齐后的所述短信段落转换为统一码。

30.根据权利要求27至29任一项所述的终端，其特征在于，所述处理器还用于：

将预处理后的所述短信训练数据转换为统一码；

统计所述短信训练数据转换形成的各个统一码的出现频次；

31.根据权利要求28所述的终端，其特征在于，所述处理器更具体用于：

32.根据权利要求17所述的终端，其特征在于，所述处理器具体用于：

33.一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述程序时实现如权利要求1至16中任一项所述的垃圾短信检测方法。

34.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至16中任一项所述的垃圾短信检测方法中的步骤。