CN113220873A

CN113220873A - 一种基于Keras的卷积神经网络的垃圾短信分类方法

Info

Publication number: CN113220873A
Application number: CN202110270522.3A
Authority: CN
Inventors: 刘后胜
Original assignee: ANQING VOCATIONAL & TECHNICAL COLLEGE
Current assignee: ANQING VOCATIONAL & TECHNICAL COLLEGE
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-08-06

Abstract

本发明公开了一种垃圾短信分类处理方法，具体为：利用Keras深度学习框架，搭建卷积神经网络，首先进行数据预处理，用Keras自带的Tokenizer进行词向量化，接着导入序贯模型，搭建嵌入层，卷积层，池化层，全连接层，最后进行训练，评估测试，实现的技术效果中：验证集的精度达到99.47％，测试集的精度达到99.43％。本发明功能性强，可广泛应用于垃圾短信处理技术领域。

Description

一种基于Keras的卷积神经网络的垃圾短信分类方法

技术领域

本发明涉及垃圾短信处理领域，具体是指基于Keras的卷积神经网络的垃圾短信分类方法。

背景技术

随着网络和移动通信技术的发展和壮大，手机短信已经成为人们的一个接收信息的重要途径。短信不仅价格便宜，而且很便利，人们想发就发。垃圾短信，是指未经过用户同意向用户发送不愿接收的商业广告或者不符合法律规范的短信。甚至有电信诈骗者利用短信来欺骗用户，让用户在不知不觉中损失财产。为保证用户切身体验，从数据挖掘的角度，在挖掘有价值的信息的同时，又能避免用户受到垃圾短信的困扰，是目前用户想解决的现实问题。垃圾分类研究，旨在希望建立一个分析平台以很好的过滤用户垃圾短信，从小的方面说，不仅关乎老百姓的财产安全和信息安全，从大的方面的说，甚至关乎国家的社会稳定和社会治安。

因此，一种有效的能将垃圾短信分类出来的方法有待提出。

发明内容

针对以上问题，本发明提出了一种能够高精度将垃圾短信进行分类的方法。

本发明提供的技术方案为：

一种基于Keras的卷积神经网络的垃圾短信分类方法，包括以下步骤：

S1数据预处理；

S2搭建基于Keras的卷积神经网络的模型，并对模型进行处理；

S3加载模型，评估模型，输出分类的准确率，其中，验证集的精度达到99.47％，测试集的精度达到99.43％。

进一步地，所述步骤S1具体为：

S11利用正则方法剔除与短信内容无关的符号信息；

S12调用分词器类函数Tokenizer.fit_on_texts对短信信息进行分词；

S13调用分词器类函数Tokenizer.texts_to_sequences对短信信息进行向量化；

S14调用序列填充函数pad_sequences进行向量的处理，不足最大长度补充0，超过最大长度截断为最大长度；

S15将类别向量转换为独热编码；

S16将短信信息进行划分，64％为训练集，16％为验证集，20％为测试集。

进一步地，所述步骤S2具体为：

S21调用序贯模型；

S22添加嵌入层；

S23添加剔除部分神经元层，即Dropout；

S24添加一维卷积层；

S25添加一维最大池化层；

S26添加展平层；

S27添加全连接层，激活函数为relu；

S28添加全连接层，激活函数为softmax；

S29编译模型，训练数据，保存模型。

本发明与现有技术相比的优点在于：

通过采用本发明提供的方法，能够提高针对垃圾短信进行分类的精确率，具体为：验证集的精度达到99.47％，测试集的精度达到99.43％，从而为用户提供了良好的环境，实用性和功能性强。

附图说明

图1是本发明实施例的网络图。

具体实施方式

下面结合附图1对本发明做进一步的详细说明。

S1数据预处理；

S2搭建基于Keras的卷积神经网络的模型，并对模型进行处理；

S3加载模型，评估模型，输出分类的准确率。

步骤S1具体为：

S11利用正则方法剔除与短信内容无关的符号信息；

S12调用分词器类函数Tokenizer.fit_on_texts对短信信息进行分词；

S15将类别向量转换为独热编码；

步骤S2具体为：

S21调用序贯模型；

S22添加嵌入层；

S23添加剔除部分神经元层，即Dropout；

S24添加一维卷积层；

S25添加一维最大池化层；

S26添加展平层；

S27添加全连接层，激活函数为relu；

S28添加全连接层，激活函数为softmax；

S29编译模型，训练数据，保存模型。

本发明利用Keras深度学习框架，搭建卷积神经网络，首先进行数据预处理，用Keras自带的Tokenizer进行词向量化，接着导入序贯模型，搭建嵌入层，卷积层，池化层，全连接层，最后进行训练，评估测试。

通过采用本发明提供的方法进行验证，使得验证集的精度达到了99.47％，测试集的精度达到99.43％。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种基于Keras的卷积神经网络的垃圾短信分类方法，其特征在于，包括以下步骤：

S1数据预处理；

S2搭建基于Keras的卷积神经网络的模型，并对模型进行处理；

2.根据权利要求1所述的一种基于Keras的卷积神经网络的垃圾短信分类方法，其特征在于，所述步骤S1具体为：

S11利用正则方法剔除与短信内容无关的符号信息；

S12调用分词器类函数Tokenizer.fit_on_texts对短信信息进行分词；

S15将类别向量转换为独热编码；

3.根据权利要求1所述的一种基于Keras的卷积神经网络的垃圾短信分类方法，其特征在于，所述步骤S2具体为：

S21调用序贯模型；

S22添加嵌入层；

S23添加剔除部分神经元层，即Dropout；

S24添加一维卷积层；

S25添加一维最大池化层；

S26添加展平层；

S27添加全连接层，激活函数为relu；

S28添加全连接层，激活函数为softmax；

S29编译模型，训练数据，保存模型。