CN108805132B - 一种基于深度学习的垃圾文本过滤方法 - Google Patents

一种基于深度学习的垃圾文本过滤方法 Download PDF

Info

Publication number
CN108805132B
CN108805132B CN201810557803.5A CN201810557803A CN108805132B CN 108805132 B CN108805132 B CN 108805132B CN 201810557803 A CN201810557803 A CN 201810557803A CN 108805132 B CN108805132 B CN 108805132B
Authority
CN
China
Prior art keywords
text
junk
data
deep learning
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810557803.5A
Other languages
English (en)
Other versions
CN108805132A (zh
Inventor
冯丹
尹祎
施展
苏毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201810557803.5A priority Critical patent/CN108805132B/zh
Publication of CN108805132A publication Critical patent/CN108805132A/zh
Application granted granted Critical
Publication of CN108805132B publication Critical patent/CN108805132B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的垃圾文本过滤方法,先对字符数据进行过滤,去除非必要的符号、空格及语气助词,根据垃圾文本中存在的不同数据类型进行分类,将字符数据和图形数据分别通过标记加以区分,但不改变两类数据的顺序和位置,将图形数据通过深度学习算法转换成字符数据,数据转换为深度学习方法的一个重要组成部分,结合原字符数据通过深度学习算法与云服务器中的违禁词进行对比得到垃圾文本,文本对比为深度学习方法的一个重要推广,能够做到有效的深度拦截和提示。本发明有效解决了现有的文本过滤方法不能很好筛选出由字符数据和图形数据共同组成的垃圾文本问题,将深度学习算法应用到垃圾文本处理,提高了筛选的准确率。

Description

一种基于深度学习的垃圾文本过滤方法
技术领域
本发明属于大数据处理技术领域,更具体地,涉及一种基于深度学习的垃圾文本过滤方法。
背景技术
文本数据是计算机科学中最常见的一种半结构化数据,现实世界中的很多信息都需要通过文本进行表达,用户之间的沟通也可以借助文本信息的交流来实现。这样,就有可能产生对用户无用的垃圾文本信息。
随着计算机科学技术对文本数据生成和处理方式的日益丰富,加之数据传输速度的急速发展,文本信息已不单纯使用ASCⅡ、GBK及BIG5等编码类型进行生成,还有可能借助于图形数据生成丰富的文本信息。进而,垃圾文本信息就有可能隐藏于图形数据中,并将字符数据和图形数据一起发送给用户。
现有的垃圾文本过滤方法在实际使用中存在以下弊端:现有的垃圾文本过滤方法往往存在遗漏的现象,不能被全部拦截,现有的方法单纯处理字符数据能够产生很好的效果,但不能完全应对字符数据和图形数据混合的情况;现有的垃圾文本过滤方法对图形数据的甄别能力较低,往往不能做到有效的拦截或提示。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度学习的垃圾文本过滤方法,由此解决现有的垃圾文本过滤方法对文本中的图形数据的甄别能力较低,往往不能做到有效的拦截或提示的技术问题。
为实现上述目的,本发明提供了一种基于深度学习的垃圾文本过滤方法,包括:
对待识别文本中的数据进行拆分,在数据拆分的过程中,在每个字符之间填入预设字符,以区别原字符数据和图形数据,并对原字符数据和图形数据的顺序和位置进行标记;
通过第一深度学习算法将拆分出的所述图形数据中包含的文本信息转换为目标字符数据;
将所述目标字符数据与所述待识别文本中的原字符数据按照标记的顺序排序后得到目标文本,然后由第二深度学习算法训练得到的垃圾字符识别模型通过排序后的上下文字符内容识别所述目标文本是否含有垃圾字符;
若所述目标文本中含有垃圾字符,则判断所述目标文本中含有的垃圾字符与云服务器中所设定的垃圾字符及包含设定垃圾字符的文本信息是否匹配,若匹配则识别所述待识别文本为垃圾文本,若不匹配,则识别所述待识别文本不是垃圾文本。
优选地,在所述由第二深度学习算法训练得到的垃圾字符识别模型通过排序后的上下文字符内容识别所述目标文本是否含有垃圾字符之前,所述方法还包括:
通过互联网实时更新所述云服务器中所设定的垃圾字符及包含设定垃圾字符的垃圾文本信息;
将所述云服务器中的垃圾文本信息作为训练样本,运用第二深度学习算法进行训练,以此得到垃圾字符识别模型,其中,所述垃圾字符识别模型能够提取出垃圾字符及垃圾字符出现的上下文环境。
优选地,所述在数据拆分的过程中,在每个字符之间填入预设字符,包括:
在数据拆分的过程中,对于原字符数据中的首位均以M开始,后续位数由小到大进行递增,对于图形数据的首位均以N开始,后续位数由小到大进行递增,其中,M与N均为整数,且M与N不同。
优选地,所述通过第一深度学习算法将拆分出的所述图形数据中包含的文本信息转换为目标字符数据,包括:
将所述图形数据进行色彩提取生成像素值;
将提取色彩后的图形数据绘制电子栅格,提取每个栅格中像素的均值;
将提取栅格后的图形数据运用第一深度学习算法转换成目标字符数据。
优选地,所述由第二深度学习算法训练得到的垃圾字符识别模型通过排序后的上下文字符内容识别所述目标文本是否含有垃圾字符,包括:
将所述目标文本按词汇进行划分;
将划分后的目标文本通过由第二深度学习算法训练得到的垃圾字符识别模型判断词汇在相应句中是否属于垃圾字数;
将属于垃圾字符的目标文本视为垃圾文本,进行标记,并将所述目标文本加入云服务器。
优选地,所述第一深度学习算法为CNN算法,所述第二深度学习算法为GRU算法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)运用GRU算法训练云服务器中的整个垃圾文本样本,由此得到的算法不仅能提取出违禁词信息,还能得到违禁词可能出现的上下文环境,且由GRU算法过滤后的待识别文本可以与样本进行对比检查是否为垃圾文本,能做到更准确地区分,此为运用深度学习方法应用在区分垃圾文本的一个重要推广;
(2)运用CNN算法将图形数据转换为字符数据,并与原字符数据按顺序组合,提高识别能力,此为运用深度学习方法区分垃圾文本的一个重要组成部分;
(3)特殊字符填入方法便于不同类型数据的拆分和组合,使用方便,对不同类型数据可以快速进行算法的切换。
附图说明
图1为本发明实施例提供的一种基于深度学习的垃圾文本过滤方法的流程示意图;
图2为本发明实施例提供的一种深度学习方法在垃圾文本过滤中的具体应用示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种基于深度学习的垃圾文本过滤方法,在保留字符数据和图形数据的表达内容前提下,将图形数据中的文本信息识别出来,并转换成字符数据,结合原字符数据,通过与云服务器中的违禁词、违禁符号及包含它们的文本信息对比,筛选出垃圾文本。
如图1所示为本发明实施例提供的一种基于深度学习的垃圾文本过滤方法的流程图,包含:
步骤一:云服务器连接互联网,将云服务器与互联网连接,互联网实时更新云服务器中所设定的违禁词、违禁符号及包含它们的垃圾文本信息;
步骤二:运用深度学习算法GRU(Gated Recurrent Unit)对步骤一生成的文本信息作为样本进行训练得到垃圾字符识别模型;
步骤三:对待识别文本进行拆分,填入特殊的区分符号,在拆分的过程中在每个字符之间填入特殊字符,既能区别原字符数据和图形数据,又能标记两类数据的顺序和位置;
步骤四:对原字符数据信息过滤,去除非必要的符号、空格及语气助词,分离URL特征向量,形成供深度学习的数据;
步骤五:对图形数据信息转换,将步骤三中拆分出的图形数据运用深度学习算法CNN进行识别,通过CNN算法将图形数据中包含的文本信息转换为字符数据,同时保留步骤三中所列图形数据的顺序与上下文位置;
对图形数据转换成字符数据采用以下步骤:
S1.将图形数据进行色彩提取生成像素值;
S2.将提取色彩后的图形数据绘制电子栅格,提取每个栅格中像素的均值;
S3.将提取栅格后的图形数据运用CNN算法转换成目标字符数据;
S4.将转换成的目标字符数据与原字符数据按顺序合并成目标文本。
步骤六:违禁词识别,将步骤五中生成的字符数据与待识别文本中原字符数据按步骤三中的顺序排序,运用深度学习算法GRU通过目标文本信息中上下文词汇内容识别目标文本是否含有违禁词、违禁符号;
对判断文本数据是否含有违禁词采用以下步骤:
S1.将目标文本按“词汇”进行划分;
S2.将划分后的目标文本运用GRU算法判断“词汇”在相应句中是否属于违禁词;
S3.将属于违禁词的目标文本视为垃圾文本,进行标记,将该目标文本加入云服务器。
步骤七:生成结果,判断步骤六中生成含有违禁词、违禁符号的目标文本中是否有云服务器中所设定的违禁词、违禁符号及包含它们的垃圾文本信息组成,有则为垃圾文本,无则不是垃圾文本。
进一步,步骤三中,字符组合填入方法中的字符数据中首位均以M开始,后续位数由小到大递增,图形数据中首位均以N开始,后续位数由小到大递增,以区分数据的类型和数据组合的个数及位置,其中,M与N均为整数,且M与N不同,递增方式不限。
工作原理:
构建混合异构内存的硬件平台,在该硬件平台中部署Hadoop集群,并且本硬件平台采用动态随机存取存储器(Dynamic Random Access Memory,DRAM)、闪存(FlashMemory,FLASH)和相变存储装置(Phase Change Memory,PCM),由于本发明的数据处理为分散式的小数据,单个数据所占比例低,但是基数大,即在DRAM中进行小数据处理,云服务器中的中央处理单元(Central Processing Unit,CPU),将Hadoop集群批处理作业的中间结果存储在混合异构内存的闪存(FLASH)或相变存储装置(PCM)中,后续从闪存(FLASH)或相变存储装置(PCM)读取中间结果进行处理。
如图2所示为本发明实施例提供的一种深度学习方法在垃圾文本过滤中的具体应用示意图,首先将云服务器连接互联网,基于深度学习的垃圾文本过滤方法要保证互联网实时更新云服务器中所设定的违禁词、违禁符号及包含它们的文本信息,然后云服务器控制处理器,处理器对信息进行过滤,去除文本中存在的非必要符号、空格及语气助词,处理器还对文本进行拆分,填入特殊区分符号以形成对不同数据的区别,在排序之后,运用深度学习算法CNN将图形数据转换为字符数据,接着运用深度学习算法GRU生成含有违禁词、违禁符号的文本,最后与云服务器中的文本进行交互,判断是否为垃圾文本,选择是否提示并过滤。
采用上述的处理方法,能够提高垃圾文本的过滤效率,并且在读取数据时,能够减少1/0的占比,很大程度上提高CPU的处理能力,其中,较大占比的数据运入到PCM内存中运行,可以区分对待不同类型数据的处理,降低DRAM和PCM访存速度差异对文本中的数据纳入的差异,提高深度学习算法的效率,更进一步的提高整体反应和访问过程,为拦截垃圾文本提供有力基础,本发明能够快速实现对垃圾文本的拦截,并且本发明有高效率的自我完善过程,其对数据的反应能力较强,有广泛的应用前景。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于深度学习的垃圾文本过滤方法,其特征在于,包括:
对待识别文本中的数据进行拆分,在数据拆分的过程中,在每个字符之间填入预设字符,以区别原字符数据和图形数据,并对原字符数据和图形数据的顺序和位置进行标记;
通过第一深度学习算法将拆分出的所述图形数据中包含的文本信息转换为目标字符数据;
将所述目标字符数据与所述待识别文本中的原字符数据按照标记的顺序排序后得到目标文本,然后由第二深度学习算法训练得到的垃圾字符识别模型通过排序后的上下文字符内容识别所述目标文本是否含有垃圾字符;
若所述目标文本中含有垃圾字符,则判断所述目标文本中含有的垃圾字符与云服务器中所设定的垃圾字符及包含设定垃圾字符的文本信息是否匹配,若匹配则识别所述待识别文本为垃圾文本,若不匹配,则识别所述待识别文本不是垃圾文本。
2.根据权利要求1所述的方法,其特征在于,在所述由第二深度学习算法训练得到的垃圾字符识别模型通过排序后的上下文字符内容识别所述目标文本是否含有垃圾字符之前,所述方法还包括:
通过互联网实时更新所述云服务器中所设定的垃圾字符及包含设定垃圾字符的垃圾文本信息;
将所述云服务器中的垃圾文本信息作为训练样本,运用第二深度学习算法进行训练,以此得到垃圾字符识别模型,其中,所述垃圾字符识别模型能够提取出垃圾字符及垃圾字符出现的上下文环境。
3.根据权利要求1所述的方法,其特征在于,所述在数据拆分的过程中,在每个字符之间填入预设字符,包括:
在数据拆分的过程中,对于原字符数据中的首位均以M开始,后续位数由小到大进行递增,对于图形数据的首位均以N开始,后续位数由小到大进行递增,其中,M与N均为整数,且M与N不同。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述通过第一深度学习算法将拆分出的所述图形数据中包含的文本信息转换为目标字符数据,包括:
将所述图形数据进行色彩提取生成像素值;
将提取色彩后的图形数据绘制电子栅格,提取每个栅格中像素的均值;
将提取栅格后的图形数据运用第一深度学习算法转换成目标字符数据。
5.根据权利要求4所述的方法,其特征在于,所述由第二深度学习算法训练得到的垃圾字符识别模型通过排序后的上下文字符内容识别所述目标文本是否含有垃圾字符,包括:
将所述目标文本按词汇进行划分;
将划分后的目标文本通过由第二深度学习算法训练得到的垃圾字符识别模型判断词汇在相应句中是否属于垃圾字数;
将属于垃圾字符的目标文本视为垃圾文本,进行标记,并将所述目标文本加入云服务器。
6.根据权利要求1所述的方法,其特征在于,所述第一深度学习算法为CNN算法,所述第二深度学习算法为GRU算法。
CN201810557803.5A 2018-06-01 2018-06-01 一种基于深度学习的垃圾文本过滤方法 Active CN108805132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810557803.5A CN108805132B (zh) 2018-06-01 2018-06-01 一种基于深度学习的垃圾文本过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810557803.5A CN108805132B (zh) 2018-06-01 2018-06-01 一种基于深度学习的垃圾文本过滤方法

Publications (2)

Publication Number Publication Date
CN108805132A CN108805132A (zh) 2018-11-13
CN108805132B true CN108805132B (zh) 2021-08-20

Family

ID=64090215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810557803.5A Active CN108805132B (zh) 2018-06-01 2018-06-01 一种基于深度学习的垃圾文本过滤方法

Country Status (1)

Country Link
CN (1) CN108805132B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287147B (zh) * 2019-06-27 2022-08-19 北京奇艺世纪科技有限公司 一种字符串排序方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096005A (zh) * 2016-06-23 2016-11-09 康佳集团股份有限公司 一种基于深度学习的垃圾邮件过滤方法及系统
CN106909669A (zh) * 2017-02-28 2017-06-30 北京时间股份有限公司 一种推广信息的检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040083270A1 (en) * 2002-10-23 2004-04-29 David Heckerman Method and system for identifying junk e-mail

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096005A (zh) * 2016-06-23 2016-11-09 康佳集团股份有限公司 一种基于深度学习的垃圾邮件过滤方法及系统
CN106909669A (zh) * 2017-02-28 2017-06-30 北京时间股份有限公司 一种推广信息的检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Matching Networks for One Shot Learning》;Oriol Vinyals等;《arXiv》;20171229;全文 *
《基于增量学习算法的校园网垃圾邮件检测模型》;陈斌 等;《计算机应用》;20170110;第37卷(第1期);全文 *

Also Published As

Publication number Publication date
CN108805132A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN111507350A (zh) 一种文本识别方法和装置
JP4077919B2 (ja) 画像処理方法及び装置及びその記憶媒体
Van Phan et al. A nom historical document recognition system for digital archiving
CN110633660A (zh) 一种文档识别的方法、设备和存储介质
CN114706966A (zh) 基于人工智能的语音交互方法、装置、设备及存储介质
CN110362826A (zh) 基于人工智能的期刊投稿方法、设备及可读存储介质
CN106649338B (zh) 信息过滤策略生成方法及装置
CN115186080A (zh) 一种智能问答数据处理方法、系统、计算机设备及介质
CN113962199B (zh) 文本识别方法、装置、设备、存储介质及程序产品
CN104573683A (zh) 字符串识别方法和装置
CN108805132B (zh) 一种基于深度学习的垃圾文本过滤方法
CN110413972B (zh) 一种基于nlp技术的表名字段名智能补全方法
KR20190110174A (ko) 딥러닝 알고리즘 기반의 핵심문장 추출 방법
CN115713669B (zh) 一种基于类间关系的图像分类方法、装置、存储介质及终端
CN111737982A (zh) 一种基于深度学习的汉语文本错别字检测方法
CN113378163A (zh) 基于DEX文件分区特性的Android恶意软件家族分类方法
US10163005B2 (en) Document structure analysis device with image processing
CN109947932B (zh) 一种推送信息分类方法及系统
CN110929506A (zh) 一种垃圾信息检测方法、装置、设备及可读存储介质
CN114817925B (zh) 基于多模态图特征的安卓恶意软件检测方法及系统
CN110555431B (zh) 一种图像识别的方法和装置
CN115080745A (zh) 基于人工智能的多场景文本分类方法、装置、设备及介质
CN116414976A (zh) 文档检测方法、装置及电子设备
CN114791812A (zh) Plsql代码的java转换方法、装置、电子设备及存储介质
CN113076539A (zh) 一种基于大数据的计算机安全防护系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant