CN108647206B - 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法 - Google Patents

基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法 Download PDF

Info

Publication number
CN108647206B
CN108647206B CN201810421422.4A CN201810421422A CN108647206B CN 108647206 B CN108647206 B CN 108647206B CN 201810421422 A CN201810421422 A CN 201810421422A CN 108647206 B CN108647206 B CN 108647206B
Authority
CN
China
Prior art keywords
chaotic
chinese
word
particle swarm
particle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810421422.4A
Other languages
English (en)
Other versions
CN108647206A (zh
Inventor
唐贤伦
万亚利
熊德意
李佳歆
林文星
魏畅
昌泉
伍亚明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201810421422.4A priority Critical patent/CN108647206B/zh
Publication of CN108647206A publication Critical patent/CN108647206A/zh
Application granted granted Critical
Publication of CN108647206B publication Critical patent/CN108647206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Computer Hardware Design (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法,首先使用分词器对中文垃圾邮件数据集进行分词、去停用词等预处理;其次采用Word2vec模型获取词向量,通过对词向量求和取平均值获得中文垃圾邮件的文本向量;然后在粒子群算法中引入混沌思想来训练卷积神经网络的网络参数;基于混沌粒子群优化卷积神经网络建立中文垃圾邮件分类模型;最后采用测试集通过所建立的模型实现垃圾邮件分类并计算分类正确率。本发明通过混沌粒子群优化算法寻优参数所建立的模型能够快速收敛,具有良好的鲁棒性和稳定性,同时能够提高中文垃圾邮件的分类识别率。

Description

基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法
技术领域
本发明属于中文垃圾邮件分类技术领域,特别是一种基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法。
背景技术
中文垃圾邮件泛滥严重危害了我国互联网信息技术的发展,因此建立有效的中文垃圾邮件分类识别模型,将垃圾邮件与正常邮件区分开,有助于减少网络资源以及存储空间的浪费,维护互联网信息环境稳定的发展。
常用的垃圾邮件分类方法有神经网络(Neural network,NN)、贝叶斯理论(Bayes)、决策树和支持向量机算法(Support vector machines,SVM)等。由于中文垃圾邮件数量庞大、种类繁多,且垃圾邮件内容形式多样性问题,采用传统的机器学习方法在处理大量数据样本的时候受到了一定的限制,难以建立高效的分类器模型,同时,在实际应用问题中也受到了阻碍。
深度学习近年来得到了研究学者们广泛的关注,一些研究者们将深度学习引入到自然语言处理中,将CNN用于训练文本向量后连接到分类器输出文本分类结果并且取得了很好的效果。针对CNN网络结构层数加深时,网络参数也随之增加且仅靠经验选取的缺点,采用粒子群算法优化网络参数,同时引入混沌运动引导粒子在迭代后期摆脱局部最优限制,提高粒子种群的多样性和搜索的遍历性。
因此,需要一种基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法,引入混沌粒子群算法优化卷积神经网络的网络参数,从而提高中文垃圾邮件的分类识别率。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高了模型的收敛性能及分类识别正确率的基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法。本发明的技术方案如下:
一种基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法,其包括以下步骤:
步骤1:采用包括分词处理、去除停用词、过滤在内的步骤预处理中文垃圾邮件语料;
步骤2:采用Word2vec对步骤1中处理好的语料进行训练,获取词向量及文本向量;
步骤3:使用步骤2中获得的文本向量转化为卷积神经网络的输入向量,并搭建出卷积神经网络结构;
步骤4:使用混沌粒子群优化卷积神经网络的网络参数;优化步骤主要在于:通过粒子群算法寻找卷积神经网络的卷积核、权值及阈值等参数,对获取的最优参数产生混沌序列,计算出混沌序列的适应度值,获得性能最好的可行解,并将其代替粒子群种群中随机选择出的一个粒子,通过误差函数来判断是否到达优化目标。
步骤5:对步骤4中经参数优化的卷积神经网络模型进行性能测试,并计算出分类正确率。
进一步的,所述步骤1采用包括分词处理、去除停用词、过滤在内的步骤预处理中文垃圾邮件语料具体为:通过分词器进行中文邮件数据集的分词处理,同时添加常用的邮件停用词表去除停用词,过滤掉垃圾邮件中的噪音信息,最终得到干净的文本分词结果。
进一步的,所述步骤2采用Word2vec对步骤1中处理好的语料进行训练,获取词向量及文本向量,具体包括:
具体为:采用Word2vec算法中的Skip-gram模型获取词向量,通过求和取平均值获得邮件的文本向量。
进一步的,所述使用Word2vec模型训练词向量时统一将向量维数设置为100维,模型中用到的字典采用自定义形式,最后通过求取词向量的和再获取平均值得到中文邮件的文本向量;
所述Skip-gram模型通过随机梯度下降(SGD)算法来优化以下目标函数
Figure BDA0001650799690000031
其中,w是输入的词语,v(m)是词向量,C是w的上下文,σ是逻辑回归函数,
Figure BDA0001650799690000032
表示词的哈弗曼编码,
Figure BDA0001650799690000033
是表示词u对应的一个辅助向量的参数;Context(w)表示w的上下文,j表示哈弗曼树的第j节点。
进一步的,所述步骤3将文本向量转化为卷积神经网络输入层可接受的输入矩阵;使用数据特征前向传播逐层训练网络,同时根据误差函数进行各层的反向传播,并更新网络参数。
进一步的,所述的卷积神经网络结构模型包括:输入层前连接的是邮件文本经过预处理过程得到干净的邮件纯文本后,再采用Word2vec模型获取词向量维度为100维,通过拼接求和取平均值的方式得到的文本向量;输入层将此文本向量转化成10*10的输入矩阵,卷积层中采用6种不同的卷积核,每种卷积核的大小为5*5来提取输入层特征,获得6张不同的特征图,池化层主要采用平均池化的方式后可获得6张不同的3*3的特征图,全连接层共有54个神经元连接上一层的池化层输出特征图,并与输出层的两个神经元相连接,最终完成二分类输出预测结果。
进一步的,所述步骤4使用混沌粒子群优化卷积神经网络的网络参数,具体为:
粒子群算法优化卷积神经参数;
对最优参数产生混沌序列;
计算混沌序列的适应度值,获得性能最好的可行解;
随机选择种群中的一个粒子,由混沌最优可行解代替;
所述的粒子群速度和位置的更新公式为:
Figure BDA0001650799690000041
其中,c1、c2为非负常数的加速因子,r1、r2为(0,1)范围内选取随机的常数,ω及
Figure BDA0001650799690000042
分别为惯性因子和粒子的速度,决定下一代网络参数的更新方向和大小,
Figure BDA0001650799690000043
即表示粒子i在搜索空间的当前位置,
Figure BDA0001650799690000044
表示第i个粒子迭代k次的个体极值,
Figure BDA0001650799690000045
表示第第j个粒子迭代k次的全局极值。
所述的混沌序列生成函数表示为:
yn+1=uyn(1-yn),n=0,1,2,…,n
其中u为混沌系统因子,且其范围为u∈[0,4]通常取常数u=4,n为混沌系统的搜索次数,当0≤y0≤1时,yn为混沌系统所产生的混沌序列。
本发明的优点及有益效果如下:
本发明利用粒子群算法对卷积神经网络的权值、阈值及卷积核等网络参数自动寻找最优解,能够克服随着卷积神经网络结构层数加深时,网络参数也随之增加且仅靠经验选取的缺点,并对获取的最优参数产生混沌序列,可帮助粒子群算法在寻优过程中逃离局部最优,同时经过有限次迭代次数,本发明所建模型能够快速收敛并获得全局最优解。使用混沌粒子群优化卷积神经网络的中文垃圾邮件识别方法,不仅具有良好的鲁棒性和稳定性,而且能够提高模型的分类识别正确率。
附图说明
图1是本发明提供优选实施例基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法流程图。
图2为卷积神经网络结构模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图所示,本实施例提供的基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法,包括以下步骤:
步骤1:对收集的中文垃圾邮件语料进行预处理。邮件语料主要是以文本的形式进行存储的,由于文本内容包含大量的噪音,比如停用词、助词、符号和字符等影响了文本向量的表示以及分类模型的识别,因此需要对数据集进行相关的预处理工作获取干净的邮件文本。针对中文邮件一个句子的长度由很多词语构成,不利于词向量表示模型对其提取相应的特征,因此,首先采用分词器对中文邮件数据集进行分词处理,即将一个句子分为多个词语。然后通过添加常用的邮件停用词表去除停用词、过滤掉垃圾邮件中的噪音信息,最终得到干净的文本分词结果。
步骤2:首先采用Word2vec算法中的Skip-gram模型来得到词语上下文相关的词向量,使用Word2vec模型训练词向量时统一将向量维数设置为100维,模型中用到的字典采用自定义形式,最后通过求取词向量的和再获取平均值得到中文邮件的文本向量。
所述Skip-gram模型通过随机梯度下降(SGD)算法来优化以下目标函数
Figure BDA0001650799690000051
其中,w是输入的词语,v(m)是词向量,C是w的上下文,σ是逻辑回归函数,
Figure BDA0001650799690000052
表示词的哈弗曼编码,
Figure BDA0001650799690000053
是表示词u对应的一个辅助向量的参数。Context(w)表示w的上下文,j表示哈弗曼树的第j节点。
Figure BDA0001650799690000054
的梯度计算
Figure BDA0001650799690000061
因此,可求出其更新公式为
Figure BDA0001650799690000062
v(m)的梯度计算
Figure BDA0001650799690000063
因此,可得到其更新公式为
Figure BDA0001650799690000064
其中,η代表学习率。
步骤3:使用获得的文本向量转化为卷积神经网络的输入向量,并搭建出卷积神经网络结构。
所述的卷积神经网络结构模型包括:输入层前连接的是邮件文本经过预处理过程得到干净的邮件纯文本后,再采用Word2vec模型获取词向量维度为100维,通过拼接求和取平均值的方式得到的文本向量,输入层将此文本向量转化成10*10的输入矩阵,卷积层中采用6种不同的卷积核,每种卷积核的大小为5*5来进一步提取输入层特征,可获得6张不同的特征图,池化层主要采用平均池化的方式后可获得6张不同的3*3的特征图,全连接层共有54个神经元连接上一层的池化层输出特征图,并与输出层的两个神经元相连接,最终完成二分类输出预测结果。具体CNN网络训练过程如下:
前向传播:
第一层为输入层,该层将邮件文本向量转化成10*10的输入矩阵。
第二层为a2卷积层,输出结果为:
a2=f(z2)=f(a*W2+b) (6)
式中*表示卷积,f(·)为激活函数,本章使用ELU作为网络中的激活函数。
第三层为a3池化层,输出结果为:a3=pooling(a2),其中pooling是采用池化尺寸大小为2*2的池化标准将输入张量缩小的过程。
第四层为a4全连接层,输出结果为:
a4=f(z4)=f(W4a3+b3) (7)
该层采用的是Sigmoid函数作为该层的激活函数。
第五层为a5输出层,输出结果为:
a5=softmax(z5)=softmax(W5a4+b5) (8)
采用softmax函数,计算样本属于各类的概率。
反向传播:
首先采用损失函数计算输出层的残差δL。其次根据反向传播算法计算第l层的残差δl
全连接层:δl=(Wl+1)Tδl+1⊙σ'(zl);
卷积层:δl=δl+1*rot180(Wl+1)⊙σ'(zl);
池化层:δl=upsample(δl+1)⊙σ'(zl)。
更新第l层的Wl,bl计算公式如下:
全连接层:
Wl=Wl-αδl(al-1)T (9)
bl=bl-αδl (10)
卷积层,对于每一个卷积核有:
Wl=Wl-αδl*rot180(al-1) (11)
Figure BDA0001650799690000071
当线性关系系数矩阵W以及偏移向量b通过上述公式更新以后,其变化值都小于停止迭代阈值ε时,则跳出迭代循环,输出各隐藏层与输出层之间的矩阵W及b。
步骤4:使用混沌粒子群优化卷积神经网络的网络参数,首先初始化卷积神经网络结构模型中的参数,包括通过卷积神经网络结构获得卷积核、权值等网络参数;使用卷积神经网络的网络参数初始化每个粒子位置,随机初始化粒子速度,生成粒子种群。
计算适应度值:以均方误差计算适应度函数,获取局部最优粒子和全局最优粒子;
所述适应度函数表示为:
Figure BDA0001650799690000081
其中,
Figure BDA0001650799690000082
是期望输出值;yij是实际输出值;m是输出节点数;n是训练样本数。
更新速度和位置:更新粒子的位置和速度,通过计算适应度函数更新局部最优及全局最优粒子;
混沌优化:首先初始化N维种群中需要混沌映射的变量xi,通过下式将其映射到Logisitic方程的定义域(0,1)上,可得到混沌系统序列yi
Figure BDA0001650799690000083
其中ximax和ximin分别为变量xi的最大和最小取值。
针对混沌序列yi根据公式(7)进行M次迭代,得到混沌变量zi
针对混沌变量zi通过下式逆映射到原解空间中,得到Pi表示为:
Pi=ximin+(ximax-ximin)*zi (15)
将混沌变量产生的可行解限定在相应的取值范围之内,即:
xmin≤Pi≤ximax (16)
其次,在原解空间中,计算可行解序列中每个可行解矢量的适应度值,得到混沌序列可行解中适应值最优的可行解矢量;再将混沌变量可行解中得到的适应度值与原始种群中适应度值作比较,择优选取;在粒子群体中随机选取一个粒子,采用混沌可行解代替该粒子的位置;重复循环执行直到满足优化目标,停止搜索输出最优参数结果。
步骤5:通过构建混沌粒子群优化卷积神经网络参数的训练模型,将邮件语料的测试集采用步骤2获得文本向量,转化成卷积神经网络的输入矩阵输入到所建立模型,混沌粒子群优化算法寻优参数建立的模型能快速收敛,具有良好的鲁棒性和稳定性,同时能够提高中文垃圾邮件的分类识别率。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (6)

1.一种基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法,其特征在于,包括以下步骤:
步骤1:采用包括分词处理、去除停用词、过滤在内的步骤预处理中文垃圾邮件语料;
步骤2:采用Word2vec对步骤1中处理好的语料进行训练,获取词向量及文本向量;
步骤3:使用步骤2中获得的文本向量转化为卷积神经网络的输入向量,并搭建出卷积神经网络结构;
步骤4:使用混沌粒子群优化卷积神经网络的网络参数;优化步骤主要在于:通过粒子群算法寻找卷积神经网络的卷积核、权值及阈值在内的参数,对获取的最优参数产生混沌序列,计算出混沌序列的适应度值,获得性能最好的可行解,并将其代替粒子群种群中随机选择出的一个粒子,通过误差函数来判断是否达到优化目标;
步骤5:对步骤4中经参数优化的卷积神经网络模型进行性能测试,并计算出分类正确率;
所述步骤4使用混沌粒子群优化卷积神经网络的网络参数,具体为:
粒子群算法优化卷积神经网络的网络参数;
对最优参数产生混沌序列;
计算混沌序列的适应度值,获得性能最好的可行解;
随机选择种群中的一个粒子,由混沌最优可行解代替;
所述的粒子群速度和位置的更新公式为:
Figure FDA0003254034560000011
Figure FDA0003254034560000012
其中,c1、c2为非负常数的加速因子,r1、r2为(0,1)范围内选取随机的常数,ω及
Figure FDA0003254034560000013
分别为惯性因子和粒子的速度,决定下一代网络参数的更新方向和大小,
Figure FDA0003254034560000014
即表示粒子i在搜索空间的当前位置,
Figure FDA0003254034560000021
表示粒子i在搜索空间的前一时刻位置,
Figure FDA0003254034560000022
表示在前一时刻粒子的速度,
Figure FDA0003254034560000023
表示第i个粒子迭代k次的个体极值,
Figure FDA0003254034560000024
表示第j个粒子迭代k次的全局极值;
所述的混沌序列生成函数表示为:
yn+1=uyn(1-yn),n=0,1,2,…,n
其中u为混沌系统因子,且其范围为u∈[0,4]通常取常数u=4,n为混沌系统的搜索次数,当0≤y0≤1时,yn为混沌系统所产生的混沌序列。
2.根据权利要求1所述的基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法,其特征在于,所述步骤1采用包括分词处理、去除停用词、过滤在内的步骤预处理中文垃圾邮件语料具体为:通过分词器进行中文邮件数据集的分词处理,同时添加常用的邮件停用词表去除停用词,过滤掉垃圾邮件中的噪音信息,最终得到干净的文本分词结果。
3.根据权利要求1所述的基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法,其特征在于,所述步骤2采用Word2vec对步骤1中处理好的语料进行训练,获取词向量及文本向量,具体包括:
具体为:采用Word2vec算法中的Skip-gram模型获取词向量,通过求和取平均值获得邮件的文本向量。
4.根据权利要求3所述的基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法,其特征在于,所述采用 Word2vec算法训练词向量时统一将向量维数设置为100维,模型中用到的字典采用自定义形式,最后通过求取词向量的和再获取平均值得到中文邮件的文本向量;
所述Skip-gram模型通过随机梯度下降SGD算法来优化以下目标函数
Figure FDA0003254034560000025
其中,w是输入的词语,v(m)是词向量,C是w的上下文,σ是逻辑回归函数,
Figure FDA0003254034560000031
表示词的哈弗曼编码,
Figure FDA0003254034560000032
是表示词u对应的一个辅助向量的参数;Context(w)表示w的上下文,j表示哈弗曼树的第j节点。
5.根据权利要求1-4之一所述的基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法,其特征在于,所述步骤3将文本向量转化为卷积神经网络输入层可接受的输入矩阵;使用数据特征前向传播逐层训练网络,同时根据误差函数进行各层的反向传播,并更新网络参数。
6.根据权利要求5所述的基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法,其特征在于,所述卷积神经网络结构包括:输入层前连接的是邮件文本经过预处理过程得到干净的邮件纯文本后,再采用Word2vec算法获取词向量维度为100维,通过拼接求和取平均值的方式得到的文本向量;输入层将此文本向量转化成10*10的输入矩阵,卷积层中采用6种不同的卷积核,每种卷积核的大小为5*5来提取输入层特征,获得6张不同的特征图,池化层主要采用平均池化的方式后可获得6张不同的3*3的特征图,全连接层共有54个神经元连接上一层的池化层输出特征图,并与输出层的两个神经元相连接,最终完成二分类输出预测结果。
CN201810421422.4A 2018-05-04 2018-05-04 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法 Active CN108647206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810421422.4A CN108647206B (zh) 2018-05-04 2018-05-04 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810421422.4A CN108647206B (zh) 2018-05-04 2018-05-04 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法

Publications (2)

Publication Number Publication Date
CN108647206A CN108647206A (zh) 2018-10-12
CN108647206B true CN108647206B (zh) 2021-11-12

Family

ID=63749485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810421422.4A Active CN108647206B (zh) 2018-05-04 2018-05-04 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法

Country Status (1)

Country Link
CN (1) CN108647206B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800852A (zh) * 2018-11-29 2019-05-24 电子科技大学 一种多模态的垃圾邮件识别方法
CN109800433B (zh) * 2019-01-24 2023-11-10 深圳市小满科技有限公司 基于邮件二分类模型的建档方法、装置、电子设备及介质
CN110134961A (zh) * 2019-05-17 2019-08-16 北京邮电大学 文本的处理方法、装置和存储介质
CN110442618B (zh) * 2019-07-25 2023-04-18 昆明理工大学 融合专家信息关联关系的卷积神经网络评审专家推荐方法
CN112527858B (zh) * 2020-11-26 2024-06-25 微梦创科网络科技(中国)有限公司 基于社交内容的营销账号识别方法、装置、介质和设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930561A (zh) * 2010-05-21 2010-12-29 电子科技大学 一种基于N-Gram分词模型的反向神经网络垃圾邮件过滤装置
CN103500380A (zh) * 2013-10-16 2014-01-08 重庆邮电大学 一种基于rest架构的综合资源管理平台系统
CN103972908A (zh) * 2014-05-23 2014-08-06 国家电网公司 一种基于自适应混沌粒子群算法的多目标无功优化方法
CN104732249A (zh) * 2015-03-25 2015-06-24 武汉大学 基于流行学习和混沌粒子群的深度学习图像分类方法
CN106203615A (zh) * 2015-05-01 2016-12-07 郑州大学 一种基于误差反传梯度下降的粒子群优化方法
CN106777011A (zh) * 2016-12-07 2017-05-31 中山大学 一种基于深度多任务学习的文本分类方法
CN107103359A (zh) * 2017-05-22 2017-08-29 东南大学 基于卷积神经网络的大服务系统在线可靠性预测方法
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN107633058A (zh) * 2017-09-20 2018-01-26 武汉虹旭信息技术有限责任公司 一种基于深度学习的数据动态过滤系统及其方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965677B2 (en) * 1998-10-22 2015-02-24 Intelligent Technologies International, Inc. Intra-vehicle information conveyance system and method
JP6751235B2 (ja) * 2016-09-30 2020-09-02 富士通株式会社 機械学習プログラム、機械学習方法、および機械学習装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930561A (zh) * 2010-05-21 2010-12-29 电子科技大学 一种基于N-Gram分词模型的反向神经网络垃圾邮件过滤装置
CN103500380A (zh) * 2013-10-16 2014-01-08 重庆邮电大学 一种基于rest架构的综合资源管理平台系统
CN103972908A (zh) * 2014-05-23 2014-08-06 国家电网公司 一种基于自适应混沌粒子群算法的多目标无功优化方法
CN104732249A (zh) * 2015-03-25 2015-06-24 武汉大学 基于流行学习和混沌粒子群的深度学习图像分类方法
CN106203615A (zh) * 2015-05-01 2016-12-07 郑州大学 一种基于误差反传梯度下降的粒子群优化方法
CN106777011A (zh) * 2016-12-07 2017-05-31 中山大学 一种基于深度多任务学习的文本分类方法
CN107103359A (zh) * 2017-05-22 2017-08-29 东南大学 基于卷积神经网络的大服务系统在线可靠性预测方法
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN107633058A (zh) * 2017-09-20 2018-01-26 武汉虹旭信息技术有限责任公司 一种基于深度学习的数据动态过滤系统及其方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Adaptive Control based Particle Swarm Optimization and Chebyshev Neural Network for Chaotic Systems;Hong Zhen 等;《JOURNAL OF COMPUTERS》;20140630;第9卷(第6期);1385-1390 *
Model predictive control integrated with multi-agent particle swarm optimization-based SVR;Tang Xianlun 等;《Chinese Control And Decision Conference》;20170717;929-935 *
Multi-frequency sinusoidal wave control in a chaotic neural network;Guoguang He 等;《2015 International Joint Conference on Neural Networks (IJCNN)》;20151001;1-6 *
基于PSO参数优化的LS-SVM风速预测方法研究;朱霄珣 等;《中国电机工程学报》;20161119;第36卷(第23期);6337-6342 *
基于图像分析的车辆识别与跟踪若干关键技术研究;李波;《中国博士学位论文全文数据库 信息科技辑》;20111015(第10期);I138-26 *
粒子群优化的神经网络在交通流预测中的应用;闫纪如;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20140315(第03期);C034-663 *

Also Published As

Publication number Publication date
CN108647206A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN108647206B (zh) 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法
CN108595632B (zh) 一种融合摘要与主体特征的混合神经网络文本分类方法
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN107526785B (zh) 文本分类方法及装置
Xu et al. Investigation on the Chinese text sentiment analysis based on convolutional neural networks in deep learning.
CN110458181B (zh) 一种基于宽度随机森林的句法依存模型、训练方法和分析方法
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN111027595B (zh) 双阶段语义词向量生成方法
CN112163426A (zh) 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
CN112069831B (zh) 基于bert模型和增强混合神经网络的不实信息检测方法
CN111104513B (zh) 一种游戏平台用户问答业务的短文本分类方法
CN113239186A (zh) 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN115794999B (zh) 一种基于扩散模型的专利文档查询方法及计算机设备
CN112070139B (zh) 基于bert与改进lstm的文本分类方法
CN110717330A (zh) 基于深度学习的词句级短文本分类方法
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN111046178A (zh) 一种文本序列生成方法及其系统
CN116152554A (zh) 基于知识引导的小样本图像识别系统
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
Zhang et al. Do you remember? overcoming catastrophic forgetting for fake audio detection
CN113204640B (zh) 一种基于注意力机制的文本分类方法
CN115795035A (zh) 基于进化神经网络的科技服务资源分类方法、系统及其计算机可读存储介质
CN115599915A (zh) 基于TextRank与注意力机制的长文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant