CN113220873A - 一种基于Keras的卷积神经网络的垃圾短信分类方法 - Google Patents
一种基于Keras的卷积神经网络的垃圾短信分类方法 Download PDFInfo
- Publication number
- CN113220873A CN113220873A CN202110270522.3A CN202110270522A CN113220873A CN 113220873 A CN113220873 A CN 113220873A CN 202110270522 A CN202110270522 A CN 202110270522A CN 113220873 A CN113220873 A CN 113220873A
- Authority
- CN
- China
- Prior art keywords
- model
- layer
- keras
- neural network
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种垃圾短信分类处理方法,具体为:利用Keras深度学习框架,搭建卷积神经网络,首先进行数据预处理,用Keras自带的Tokenizer进行词向量化,接着导入序贯模型,搭建嵌入层,卷积层,池化层,全连接层,最后进行训练,评估测试,实现的技术效果中:验证集的精度达到99.47%,测试集的精度达到99.43%。本发明功能性强,可广泛应用于垃圾短信处理技术领域。
Description
技术领域
本发明涉及垃圾短信处理领域,具体是指基于Keras的卷积神经网络的垃圾短信分类方法。
背景技术
随着网络和移动通信技术的发展和壮大,手机短信已经成为人们的一个接收信息的重要途径。短信不仅价格便宜,而且很便利,人们想发就发。垃圾短信,是指未经过用户同意向用户发送不愿接收的商业广告或者不符合法律规范的短信。甚至有电信诈骗者利用短信来欺骗用户,让用户在不知不觉中损失财产。为保证用户切身体验,从数据挖掘的角度,在挖掘有价值的信息的同时,又能避免用户受到垃圾短信的困扰,是目前用户想解决的现实问题。垃圾分类研究,旨在希望建立一个分析平台以很好的过滤用户垃圾短信,从小的方面说,不仅关乎老百姓的财产安全和信息安全,从大的方面的说,甚至关乎国家的社会稳定和社会治安。
因此,一种有效的能将垃圾短信分类出来的方法有待提出。
发明内容
针对以上问题,本发明提出了一种能够高精度将垃圾短信进行分类的方法。
本发明提供的技术方案为:
一种基于Keras的卷积神经网络的垃圾短信分类方法,包括以下步骤:
S1数据预处理;
S2搭建基于Keras的卷积神经网络的模型,并对模型进行处理;
S3加载模型,评估模型,输出分类的准确率,其中,验证集的精度达到99.47%,测试集的精度达到99.43%。
进一步地,所述步骤S1具体为:
S11利用正则方法剔除与短信内容无关的符号信息;
S12调用分词器类函数Tokenizer.fit_on_texts对短信信息进行分词;
S13调用分词器类函数Tokenizer.texts_to_sequences对短信信息进行向量化;
S14调用序列填充函数pad_sequences进行向量的处理,不足最大长度补充0,超过最大长度截断为最大长度;
S15将类别向量转换为独热编码;
S16将短信信息进行划分,64%为训练集,16%为验证集,20%为测试集。
进一步地,所述步骤S2具体为:
S21调用序贯模型;
S22添加嵌入层;
S23添加剔除部分神经元层,即Dropout;
S24添加一维卷积层;
S25添加一维最大池化层;
S26添加展平层;
S27添加全连接层,激活函数为relu;
S28添加全连接层,激活函数为softmax;
S29编译模型,训练数据,保存模型。
本发明与现有技术相比的优点在于:
通过采用本发明提供的方法,能够提高针对垃圾短信进行分类的精确率,具体为:验证集的精度达到99.47%,测试集的精度达到99.43%,从而为用户提供了良好的环境,实用性和功能性强。
附图说明
图1是本发明实施例的网络图。
具体实施方式
下面结合附图1对本发明做进一步的详细说明。
一种基于Keras的卷积神经网络的垃圾短信分类方法,包括以下步骤:
S1数据预处理;
S2搭建基于Keras的卷积神经网络的模型,并对模型进行处理;
S3加载模型,评估模型,输出分类的准确率。
步骤S1具体为:
S11利用正则方法剔除与短信内容无关的符号信息;
S12调用分词器类函数Tokenizer.fit_on_texts对短信信息进行分词;
S13调用分词器类函数Tokenizer.texts_to_sequences对短信信息进行向量化;
S14调用序列填充函数pad_sequences进行向量的处理,不足最大长度补充0,超过最大长度截断为最大长度;
S15将类别向量转换为独热编码;
S16将短信信息进行划分,64%为训练集,16%为验证集,20%为测试集。
步骤S2具体为:
S21调用序贯模型;
S22添加嵌入层;
S23添加剔除部分神经元层,即Dropout;
S24添加一维卷积层;
S25添加一维最大池化层;
S26添加展平层;
S27添加全连接层,激活函数为relu;
S28添加全连接层,激活函数为softmax;
S29编译模型,训练数据,保存模型。
本发明利用Keras深度学习框架,搭建卷积神经网络,首先进行数据预处理,用Keras自带的Tokenizer进行词向量化,接着导入序贯模型,搭建嵌入层,卷积层,池化层,全连接层,最后进行训练,评估测试。
通过采用本发明提供的方法进行验证,使得验证集的精度达到了99.47%,测试集的精度达到99.43%。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (3)
1.一种基于Keras的卷积神经网络的垃圾短信分类方法,其特征在于,包括以下步骤:
S1数据预处理;
S2搭建基于Keras的卷积神经网络的模型,并对模型进行处理;
S3加载模型,评估模型,输出分类的准确率,其中,验证集的精度达到99.47%,测试集的精度达到99.43%。
2.根据权利要求1所述的一种基于Keras的卷积神经网络的垃圾短信分类方法,其特征在于,所述步骤S1具体为:
S11利用正则方法剔除与短信内容无关的符号信息;
S12调用分词器类函数Tokenizer.fit_on_texts对短信信息进行分词;
S13调用分词器类函数Tokenizer.texts_to_sequences对短信信息进行向量化;
S14调用序列填充函数pad_sequences进行向量的处理,不足最大长度补充0,超过最大长度截断为最大长度;
S15将类别向量转换为独热编码;
S16将短信信息进行划分,64%为训练集,16%为验证集,20%为测试集。
3.根据权利要求1所述的一种基于Keras的卷积神经网络的垃圾短信分类方法,其特征在于,所述步骤S2具体为:
S21调用序贯模型;
S22添加嵌入层;
S23添加剔除部分神经元层,即Dropout;
S24添加一维卷积层;
S25添加一维最大池化层;
S26添加展平层;
S27添加全连接层,激活函数为relu;
S28添加全连接层,激活函数为softmax;
S29编译模型,训练数据,保存模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110270522.3A CN113220873A (zh) | 2021-03-12 | 2021-03-12 | 一种基于Keras的卷积神经网络的垃圾短信分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110270522.3A CN113220873A (zh) | 2021-03-12 | 2021-03-12 | 一种基于Keras的卷积神经网络的垃圾短信分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113220873A true CN113220873A (zh) | 2021-08-06 |
Family
ID=77083608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110270522.3A Pending CN113220873A (zh) | 2021-03-12 | 2021-03-12 | 一种基于Keras的卷积神经网络的垃圾短信分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220873A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180341839A1 (en) * | 2017-05-26 | 2018-11-29 | Oracle International Corporation | Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network |
CN110019773A (zh) * | 2017-08-14 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种垃圾短信检测方法、终端及计算机可读存储介质 |
WO2021022475A1 (zh) * | 2019-08-06 | 2021-02-11 | 中国长城科技集团股份有限公司 | 一种垃圾处理方法、装置及终端设备 |
-
2021
- 2021-03-12 CN CN202110270522.3A patent/CN113220873A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180341839A1 (en) * | 2017-05-26 | 2018-11-29 | Oracle International Corporation | Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network |
CN110019773A (zh) * | 2017-08-14 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种垃圾短信检测方法、终端及计算机可读存储介质 |
WO2021022475A1 (zh) * | 2019-08-06 | 2021-02-11 | 中国长城科技集团股份有限公司 | 一种垃圾处理方法、装置及终端设备 |
Non-Patent Citations (3)
Title |
---|
卜炟: "《开发参考 JSTL网络标签与SSH类参考手册》", 30 November 2010 * |
绿盟科技研究通讯: "《基于Keras的文本分类实践》", 《HTTPS://MP.WEIXIN.QQ.COM/S?SRC=11&TIMESTAMP=1644456906&VER=3611&SIGNATURE=3ZMNW4-LG3JKR1QRAP0XFEHM1AGBXGC2BVXXIDGLGQXJVIC06YZ69B0Y330TSG9GI0D3D9Y-SA-7HE*J5RGEMJVSVZJIYFUC7XQSPDIBRVZKO2YKMCNHIZGSEZU8BUIM&NEW=1》 * |
高志强 等: "《深度学习 从入门到实战》", 30 June 2018 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110401779B (zh) | 一种识别电话号码的方法、装置和计算机可读存储介质 | |
CN103067896B (zh) | 垃圾短信过滤方法及装置 | |
CN103577965B (zh) | 一种事务提醒方法和装置 | |
CN104883671B (zh) | 一种垃圾短信的判断方法及系统 | |
CN103389971A (zh) | 一种确定应用对应的评论内容的优质等级的方法与设备 | |
CN105589845B (zh) | 垃圾文本识别方法、装置及系统 | |
CN105812554A (zh) | 一种智能管理手机短信的方法和系统 | |
CN109344253A (zh) | 添加用户标签的方法、装置、计算机设备和存储介质 | |
CN110290155B (zh) | 社会工程学攻击的防御方法及装置 | |
CN101389085B (zh) | 基于发送行为的垃圾短消息识别系统及方法 | |
CN106161209A (zh) | 一种基于深度自学习的垃圾短信过滤方法及系统 | |
CN113412607B (zh) | 内容推送方法、装置、移动终端及存储介质 | |
CN104410973A (zh) | 一种播放录音的诈骗电话识别方法和系统 | |
CN108366052A (zh) | 验证短信的处理方法及系统 | |
CN107644106A (zh) | 自动挖掘业务中间人的方法、终端设备及存储介质 | |
CN109242410A (zh) | 一种待办事项的生成方法和装置 | |
CN112738338A (zh) | 基于深度学习的电话识别方法、装置、设备及介质 | |
CN112351429B (zh) | 基于深度学习的有害信息检测方法及系统 | |
CN113220873A (zh) | 一种基于Keras的卷积神经网络的垃圾短信分类方法 | |
CN104065617B (zh) | 一种骚扰邮件处理方法、装置和系统 | |
CN116431884A (zh) | 一种链接短信的审核方法、系统、计算设备及存储介质 | |
CN116546448A (zh) | 一种短信推送系统 | |
CN111083705A (zh) | 群发诈骗短信检测方法、装置、服务器及存储介质 | |
CN1996940A (zh) | 一种网络访问控制方法、移动通信装置及控制系统 | |
CN110062342A (zh) | 用于统计含链接网址的短信打开的用户及阅读时间的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210806 |