CN106850415B - 邮件分类方法及装置 - Google Patents

邮件分类方法及装置 Download PDF

Info

Publication number
CN106850415B
CN106850415B CN201710161832.5A CN201710161832A CN106850415B CN 106850415 B CN106850415 B CN 106850415B CN 201710161832 A CN201710161832 A CN 201710161832A CN 106850415 B CN106850415 B CN 106850415B
Authority
CN
China
Prior art keywords
vector
output
output value
mail
preset range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710161832.5A
Other languages
English (en)
Other versions
CN106850415A (zh
Inventor
安晶
徐森
刘聪
徐友武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yancheng Institute of Technology
Original Assignee
Yancheng Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yancheng Institute of Technology filed Critical Yancheng Institute of Technology
Priority to CN201710161832.5A priority Critical patent/CN106850415B/zh
Publication of CN106850415A publication Critical patent/CN106850415A/zh
Application granted granted Critical
Publication of CN106850415B publication Critical patent/CN106850415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Sorting Of Articles (AREA)

Abstract

本发明实施例提供邮件分类方法及装置。一实施例中,该方法包括:将接收到的邮件文本进行处理,将所述邮件文本映射成初始向量;利用堆栈自编码器对所述初始向量进行处理得到输出向量;对所述输出向量进行分类,根据所述输出向量的分类判断所述邮件是否垃圾邮件。通过上述方法及装置能够提高垃圾邮件的识别效率,提高用户体验。

Description

邮件分类方法及装置
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种邮件分类方法及装置。
背景技术
由于网络技术的普及,电子邮件传播速度快、成本费用小,已经发展成为现代网络用户之间通信的重要手段之一。然而伴随着电子邮件受欢迎程度的增加,垃圾邮件的数量也在逐年增长。垃圾邮件在全球已经发展到极为严重的程度。因此,如何使用更高效的垃圾邮件识别方法成了相关研究者的关注热点。目前,比较常用的垃圾邮件过滤技术可分为几类:(1)基于邮件主题、邮件正文的关键词过滤;(2)基于黑白名单的过滤;(3)基于规则的过滤;(4)基于意图的检测过滤;(5)基于内容的过滤等。但是,关于垃圾邮件的识别分类还有待提高。
发明内容
有鉴于此,本发明实施例的目的在于提供一种邮件分类方法及装置。
本发明实施例提供的一种邮件分类方法,应用于服务器,该方法包括:
将接收到的邮件文本进行处理,将所述邮件文本映射成初始向量;
利用堆栈自编码器对所述初始向量进行处理得到输出向量;
对所述输出向量进行分类,根据所述输出向量的分类判断所述邮件是否垃圾邮件。
本发明实施例还提供一种邮件分类装置,应用于服务器,该装置包括:
初始向量生成模块,用于将接收到的邮件文本进行处理,将所述邮件文本映射成初始向量;
输出向量训练模块,用于利用堆栈自编码器对所述初始向量进行处理得到输出向量;
邮件判断模块,用于对所述输出向量进行分类,根据所述输出向量的分类判断所述邮件是否垃圾邮件。
与现有技术相比,本发明的邮件分类方法及装置,根据本实施例中的方法,在对邮件映射成的向量进行分类之前,先对向量通过所述堆栈自编码器处理,处理后得到的向量再进行分类,从而对垃圾的邮件进行判断,提高垃圾邮件的识别效率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明较佳实施例提供的服务器的方框示意图。
图2为本发明较佳实施例提供的邮件分类方法的流程图。
图3为本发明实施例提供的自编码器模型的模型示意图。
图4为本发明另一较佳实施例提供的邮件分类方法的流程图。
图5为本发明邮件分类装置的功能模块示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图1所示,是所述服务器100的方框示意图。所述服务器100包括邮件分类装置110、存储器102、处理器104及网络模块106。本领域普通技术人员可以理解,图2所示的结构仅为示意,其并不对服务器100的结构造成限定。例如,服务器100还可包括比图2中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器102可用于存储软件程序以及模块,如本发明实施例中的任务调度方法、装置及系统对应的程序指令/模块,处理器104通过运行存储在存储器102内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现任务调度方法。存储器102可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器102可进一步包括相对于处理器104远程设置的存储器,这些远程存储器可以通过网络连接至服务器100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器104可能是一种集成电路芯片,具有信号的处理能力。上述的处理器104可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者也可以是任何常规的处理器等。
网络模块106用于接收以及发送网络信号。上述网络信号可包括无线信号或者有线信号。在一个实例中,上述网络信号为有线网络信号。此时,网络模块106可相应包括处理器、随机存储器、转换器、晶体振荡器等元件。
上述的软件程序以及模块包括:操作系统108、邮件分类装置110。其中操作系统108例如可为LINUX,UNIX,WINDOWS,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通讯,从而提供其他软件组件的运行环境。邮件分类装置110运行在操作系统108的基础上,用于接收电子邮箱发送的请求,并将接收到的邮件进行判断然后发送给对应的接收账号。
本发明实施例中,所述邮件分类方法可用于邮件分发的服务器100中。当然,在其它实施例中,本发明中的邮件分类方法也可以用于电子终端。
请参阅图2,是本发明较佳实施例提供的应用于图1所示的服务器100的邮件分类方法的流程图。下面将对图2所示的具体流程进行详细阐述。
步骤S101,将接收到的邮件文本进行处理,将所述邮件文本映射成初始向量。
在一实施方式中,利用JavaMail将邮件的标题、正文等内容抽取出来。将提取的文本进行分词得到分词后的邮件文本信息。通过信息检索数据挖掘的常用加权技术(TermFrequency–Inverse Document Frequency,简称TF-IDF)将邮件文本信息表示成向量的形式。当然本领域的技术人员也可以通过其它方式将邮件文本映射成所述初始向量,可以理解的是,本发明实施例并不以将所述邮件文本映射成初始向量的方式为限。
步骤S102,利用堆栈自编码器对所述初始向量进行处理得到输出向量。
如图3所示,图3为本发明实施例的一个实施例中的自编码器模型示意图。图3所示的自编码器包括三层:输入层、隐藏层及输出层。所述自编码器尝试着去学习一个恒等函数,从而使得模型的输出值等于或者尽可能地接近于模型的输入值,即
Figure BDA0001248773200000051
i=1、2、3、4、5、6。本实施例中,堆栈自编码器训练确定一组参数值W,W′,b1,b2,使得模型的假设函数如公式,
Figure BDA0001248773200000052
本实施例中,所述自编码器模型包括三层网络。如图3所示,一个自编码器可包括:输入层、隐藏层及输出层。由多个自编码器堆叠形成本实施例中的堆栈自编码器。所述初始向量经过多层网络的计算得到所述输出向量。
步骤S103,对所述输出向量进行分类,根据所述输出向量的分类判断所述邮件是否垃圾邮件。
本实施例中,将所述输出向量输入到Logistic回归分类器中进行分类,根据所述输出向量的分类结果判断所述邮件是否垃圾邮件。
在其它实施例中,还可以将所述输出向量输入到Softmax分类器进行分类,根据所述输出向量的分类结果判断所述邮件是否垃圾邮件。
在其它实施例中,还可以将所述输出向量输入到SVM分类器进行分类,根据所述输出向量的分类结果判断所述邮件是否垃圾邮件。
本发明实施例中还可包括:根据判断结果对接收到的邮件进行标记,并将标记后的邮件发送给该邮件对应的接收账户。
例如一邮件根据上述步骤S101-S103过程判断为垃圾邮件,则将其标记为垃圾邮件,并将标记后的邮件发送给邮件对应的接收账户。
根据本实施例中的方法,在对邮件映射成的向量进行分类之前,先对向量通过所述自编码器处理,处理后得到的向量再进行分类,从而对垃圾的邮件进行判断,提高垃圾邮件的识别效率。
请参阅图4,是本发明较佳实施例提供的应用于图1所示的服务器100的邮件分类方法的流程图。本实施例与上述邮件分类方法的实施例类似,其不同之处在于,本实施例将更详细描述邮件分类的方式。下面将对图4所示的具体流程进行详细阐述。
步骤S201,将接收到的邮件文本进行处理,将所述邮件文本映射成初始向量。
步骤S202,初始化用于训练所述初始向量的计算公式的参数向量W及b。
本实施例中,所述参数向量可以是随机生成的。随机生成参数向量W及b时,参数向量W及b中每个元素的取值范围为[0,1]。
步骤S203,对所述初始向量进行去噪处理,得到去噪后的初始向量。
通过以下去噪公式对所述初始向量进行去噪处理:
Xc=rand(size,corrupted_level)·X;
其中,X表示所述初始向量,Xc表示所述去噪后的初始向量,rand()表示一随机函数;size表示所述初始向量的维数,corrupted_level控制损坏程度;
利用自编码器对所述初始向量进行处理得到输出向量为:利用自编码器对所述去噪后的初始向量进行训练得到输出向量。
步骤S204,将输入向量代入第一计算公式计算得到对应层的输出向量。
当前层数为0时,所述输入向量为去噪后的初始向量。
本实施例中,所述第一计算公式为:
t(l+1)=W(l)·X(l)+b(l)
所述第二计算公式为:
X(l+1)=rand(t(l+1));
其中,X(l)表示第l层的输入向量,W(l)表示l层的权值,b(l)表示l层的偏值,t(l+1)表示l层的输出向量,X(0)表示去噪的初始向量,rand()表示一随机函数,所述权值W(l)和偏值b(l)可以为随机生成的数值。本实施例中,所述X(0)与Xc使用相同的去噪公式时,则所述X(0)与Xc可能等价。当然,我们也可以在不同的阶段使用不同的去噪公式以实现不同的去噪效果。
本实施例中,所述权值W(l)和偏值b(l)可以通过以下方式得到:
本实施例中,所述服务器获取用于训练的测试向量集,获取样本集
Figure BDA0001248773200000071
其中,
Figure BDA0001248773200000072
表示用于测试的初始向量集。其中,所述测试向量集也可以通过信息检索数据挖掘的常用加权技术Term Frequency–Inverse Document Frequency,简称TF-IDF)将测试邮件进行处理得到。将所述测试向量集代入所述自编码器中训练得到一组参数W,W′,b1,b2。具体地,先随机初始化参数W,W′,b1,b2,初始化参数W,W′,b1,b2的取值范围为[0,1]。将所述测试向量集进行损坏处理,将损坏处理后的向量集代入包括参数W和b1的计算公式,例如,h=f(W·Zc+b1)。其中,Zc表示所述去噪的初始向量,进行计算得到第一输出值;将所述输出向量代入一包括W′和b2的计算公式,例如,Y=g(W′·h+b2),计算得到第二输出值;通过一计算公式计算出第一输出值和第二输出值的误差,一实例中,可以通过以下公式计算第一输出值与第二输出值的误差:
Figure BDA0001248773200000073
其中,
Figure BDA0001248773200000074
随机初始化权值向量及偏值向量:
Figure BDA0001248773200000075
Figure BDA0001248773200000076
其中,初始化的权值向量及偏值向量中的每个值的范围为0-1;
设置用于存储偏导数的变量
Figure BDA0001248773200000077
Figure BDA0001248773200000078
并初始化为0;
其中,Depth表示使用的自编码器模型个数中的隐藏层层数;
计算损失函数J(W,b)对每一层的权值向量W和偏值向量b的偏导数,分别为
Figure BDA0001248773200000081
Figure BDA0001248773200000082
Figure BDA0001248773200000083
Figure BDA0001248773200000084
使用如下公式对所述权值W(l)和偏值b(l)进行更新:
Figure BDA0001248773200000085
Figure BDA0001248773200000086
所述损失函数包括:Ls(W,W′,b1,b2;Z)=1/2||Y-Z||2;或
Lc(W,W′,b1,b2;Z)=-[X log Y+(1-Z)log(1-Y)];或
Figure BDA0001248773200000087
其中Lt表示Ls或Lc,λ表示权重衰减因子,nl表示网络的层数,sl表示隐藏层的单元数,s(l+1)表示输出层的单元数;
其中,所述Y通过以下方式计算得到:
h=f(W·Zc+b1);
Y=g(W′·h+b2);
其中,Z表示所述初始向量,Zc表示所述去噪的初始向量;h表示第一层的输出向量。
在一种实施方式中,当通过一计算公式计算出第一输出值和第二输出值的误差:
Figure BDA0001248773200000088
在预设的范围内,则计算得到的历史权值W(l)和偏值b(l)则可以作为用于测试邮件时使用的参数。若所述通过一计算公式计算出第一输出值和第二输出值的误差:
Figure BDA0001248773200000091
不在预设的范围内时,则将所述第一输出值经过去噪处理后,再次迭代进入下一个自编码器的模型中作为输入向量进行计算得到新的第一输出值及第二输出值,重复上述过程,直到所述计算出第一输出值和第二输出值的误差在预设范围内。输出每一层运算得到的权值W(l)和偏值b(l),并将层数及对应层计算得到的权值W(l)和偏值b(l)对应存储。对邮件进行测试时,计算到对应层时调用上述方式得到的权值W(l)和偏值b(l)作为运算参数。
在另一种实施方式中,将所述第一输出值经过去噪处理后,再次作为输入向量进行计算得到新的第一输出值及第二输出值,重复指定次数的计算后将则计算得到的多层的权值W(l)和偏值b(l)则可以作为用于测试邮件时使用的参数。
步骤S205,记录当前层数。
在一个实例中,使l变量记录所述当前层数,每经过一次计算后,对l重新赋值。例如,l=l+1。
步骤S206,判断所述当前层数是否小于目标层数。
在一个实例中,所述目标层数为堆栈训练得到的自编码器的数量中的隐藏层的数量。本实施例中,所述目标层数可为步骤S204中通过一计算公式计算出第一输出值和第二输出值的误差:
Figure BDA0001248773200000092
不在预设的范围内时,训练使用自编码器的数量。
若是,则执行步骤S207,若否,则执行步骤S208。
步骤S207,根据所述输出向量以第二计算公式计算得到下一层的输入向量。
所述第二计算公式为对所述输出向量进行去噪处理的去噪公式,在一个实例,所述去噪公式为一随机公式:X(l+1)=rand(t(l+1))。
步骤S207之后再次执行步骤S204。将所述输入向量代入所述第一计算公式中计算新的输出向量,更新所述当前层数,直到记录的所述当前层数等于目标层数的输出向量为所述输出向量。
步骤S208,将所述输出向量输入到Logistic回归分类器中进行分类,根据所述输出向量的分类判断所述邮件是否垃圾邮件。
在其它实施例中,还可以将所述输出向量输入到Softmax分类器进行分类,根据所述输出向量的分类结果判断所述邮件是否垃圾邮件。
在其它实施例中,将所述输出向量输入到SVM分类器进行分类,根据所述输出向量的分类结果判断所述邮件是否垃圾邮件。
关于本实施例的其它细节,可进一步地参考上一方法实施例,在此不再赘述。
根据上述实施例中的方法,在自编码器中进行处理邮件的初始向量之前还经过去噪处理,可以提高最后识别的效率。
请参阅图5,是本发明较佳实施例提供的图1所示的邮件分类装置110的功能模块示意图。所述邮件分类装置110包括初始向量生成模块1101、输出向量训练模块1102、邮件判断模块1103。
初始向量生成模块1101,用于将接收到的邮件文本进行处理,将所述邮件文本映射成初始向量。
输出向量训练模块1102,用于利用自编码器对所述初始向量进行处理得到输出向量。
邮件判断模块1103,用于对所述输出向量进行分类,根据所述输出向量的分类判断所述邮件是否垃圾邮件。
其中,所述输出向量训练模块1102包括去噪单元11021,用于对所述初始向量进行去噪处理,得到去噪后的初始向量,其中,通过以下去噪公式对所述初始向量进行去噪处理:
Xc=rand(size,corrupted_level)·X;
其中,X表示所述初始向量,Xc表示去噪的初始向量,rand()表示一随机函数;size表示所述初始向量的维数,corrupted_level控制损坏程度;
自编码训练单元11022,用于将所述去噪的初始向量代入第一计算公式计算得到对应层的输出向量,记录当前层数,根据所述输出向量以第二计算公式计算得到下一层的输入向量,将所述输入向量代入所述第一计算公式中计算新的输出向量,更新所述当前层数,直到记录的所述当前层数等于目标层数的输出向量为所述输出向量。
关于本实施例的其它细节还可以进一步地参考上述两个方法实施例,在此不再赘述。
根据本实施例中的邮件分类装置,根据本实施例中的方法,在对邮件映射成的向量进行分类之前,先对向量通过所述自编码器处理,处理后得到的向量再进行分类,从而对垃圾的邮件进行判断,提高垃圾邮件的识别效率。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种邮件分类方法,应用于服务器,其特征在于,该方法包括:
将接收到的邮件文本进行处理,将所述邮件文本映射成初始向量;
对所述初始向量进行去噪处理,得到去噪后的初始向量;
将所述初始向量代入第一计算公式计算得到输出向量;
所述第一计算公式为:
t(l+1)=W(l)·X(l)+b(l)
基于测试向量集获得第一输出值;
基于所述输出向量获得第二输出值;
计算所述第一输出值和所述第二输出值的误差;
在所述误差不在预设的范围内时,将所述第一输出值以第二计算公式经过去噪处理后,再次迭代进入下一个自编码器的模型中,作为输入向量进行计算得到新的第一输出值及第二输出值,重复迭代,直到所述新的第一输出值及第二输出值的误差在预设范围内时,得到输出向量;
所述第二计算公式为:
X(l+1)=rand(t(l+1));
其中,在所述第一计算公式以及所述第二计算公式中,其中,X(l)表示第l层的输入向量,W(l)表示l层的权值,b(l)表示l层的偏值,t(l+1)表示l层的输出向量;
对使所述误差在预设范围内的所述输出向量进行分类,根据使所述误差在预设范围内的所述输出向量的分类判断所述邮件是否垃圾邮件。
2.如权利要求1所述的邮件分类方法,其特征在于,对所述初始向量进行去噪处理,得到去噪后的初始向量包括:
通过以下去噪公式对所述初始向量进行去噪处理:
Xc=rand(size,corrupted_level)·X;
其中,X表示所述初始向量,Xc表示所述去噪后的初始向量,rand()表示一随机函数;size表示所述初始向量的维数,corrupted_level控制损坏程度。
3.如权利要求2所述的邮件分类方法,其特征在于,对所述初始向量进行去噪处理,得到去噪后的初始向量;将所述初始向量代入第一计算公式计算得到第一输出值,将所述第一输出值经过去噪处理后,再次迭代进入下一个自编码器的模型中作为输入向量进行计算得到新的第一输出值及第二输出值,重复上述过程,直到所述计算出所述第一输出值和所述第二输出值的误差在预设范围内,得到输出向量,还包括:
在每次得到所述新的第一输出值和第二输出值时,记录用于表示当前迭代次数的当前层数;
在所述当前层数等于目标层数的输出向量为所述输出向量。
4.如权利要求1所述的邮件分类方法,其特征在于,所述权值W(l)和偏值b(l)以下方式得到:
获取样本集
Figure FDA0002796550640000021
其中,
Figure FDA0002796550640000022
表示用于测试的初始向量集;
随机初始化权值向量及偏值向量:
Figure FDA0002796550640000023
Figure FDA0002796550640000024
其中,初始化的权值向量及偏值向量中的每个值的范围为0-1;
设置用于存储偏导数的变量
Figure FDA0002796550640000025
Figure FDA0002796550640000026
并初始化为0;
其中,Depth表示使用的自编码器模型的层数;
计算损失函数J(W,b)对每一层的权值向量W和偏值向量b的偏导数,分别为
Figure FDA0002796550640000027
Figure FDA0002796550640000028
Figure FDA0002796550640000029
Figure FDA00027965506400000210
使用如下公式对所述权值W(l)和偏值b(l)进行更新:
Figure FDA0002796550640000031
Figure FDA0002796550640000032
5.如权利要求4所述的邮件分类方法,其特征在于,所述损失函数包括:Ls(W,W′,b1,b2;Z)=1/2||Y-Z||2;或
Lc(W,W′,b1,b2;Z)=-[XlogY+(1-Z)log(1-Y)];或
Figure FDA0002796550640000033
其中Lt表示Ls或Lc,λ表示权重衰减因子,nl表示网络的层数,sl表示隐藏层的单元数,s(l+1)表示输出层的单元数;
其中,所述Y通过以下方式计算得到:
h=f(W·Zc+b1);
Y=g(W′·h+b2);
其中,Z表示所述初始向量,Zc表示所述去噪的初始向量;h表示第一层的输出向量,其中,Zc=rand(size,corrupted_level)·Z。
6.如权利要求4所述的邮件分类方法,其特征在于,所述在所述误差不在预设的范围内时,将所述第一输出值经过去噪处理后,再次迭代进入下一个自编码器的模型中,作为输入向量进行计算得到新的第一输出值及第二输出值,重复迭代,直到所述新的第一输出值及第二输出值的误差在预设范围内时,得到输出向量,包括:
通过所述损失函数计算得到的h=f(W·Zc+b1)作为所述第一输出值,Y=g(W′·h+b2)作为所述第二输出值,在所述第一输出值和所述第二输出值的误差不在预设范围内时,则将所述第一输出值经过去噪处理后,再次迭代进入下一个自编码器的模型中作为输入向量进行计算得到新的第一输出值及第二输出值,重复上述过程,直到所述计算出第一输出值和第二输出值的误差在预设范围内,得到每一层输出的权值W(l)和偏值b(l)形成的权值向量和偏值向量,目标层数为h=f(W·Zc+b1)和Y=g(W′·h+b2)的误差在预设范围内时计算得到的层数。
7.如权利要求1所述的邮件分类方法,其特征在于,所述对使所述误差在预设范围内的所述输出向量进行分类,根据使所述误差在预设范围内的所述输出向量的分类判断所述邮件是否垃圾邮件的步骤包括:
将使所述误差在预设范围内的所述输出向量输入到Logistic回归分类器中进行分类,根据使所述误差在预设范围内的所述输出向量的分类结果判断所述邮件是否垃圾邮件;或者
将使所述误差在预设范围内的所述输出向量输入到Softmax分类器进行分类,根据使所述误差在预设范围内的所述输出向量的分类结果判断所述邮件是否垃圾邮件;或者
将使所述误差在预设范围内的所述输出向量输入到SVM分类器进行分类,根据使所述误差在预设范围内的所述输出向量的分类结果判断所述邮件是否垃圾邮件。
8.如权利要求1-7任意一项所述的邮件分类方法,其特征在于,该方法还包括:
根据判断结果对接收到的邮件进行标记,并将标记后的邮件发送给该邮件对应的接收账户。
9.一种邮件分类装置,应用于服务器,其特征在于,该装置包括:
初始向量生成模块,用于将接收到的邮件文本进行处理,将所述邮件文本映射成初始向量;
输出向量训练模块,对所述初始向量进行去噪处理,得到去噪后的初始向量;将所述初始向量代入第一计算公式计算得到输出向量;基于测试向量集获得第一输出值;基于所述输出向量获得第二输出值;计算所述第一输出值和所述第二输出值的误差;在所述误差不在预设的范围内时,将所述第一输出值经过第二计算公式去噪处理后,再次迭代进入下一个自编码器的模型中,作为输入向量进行计算得到新的第一输出值及第二输出值,重复迭代,直到所述新的第一输出值及第二输出值的误差在预设范围内时,得到输出向量;所述第一计算公式为:t(l+1)=W(l)·X(l)+b(l);所述第二计算公式为:X(l+1)=rand(t(l+1));其中,X(l)表示第l层的输入向量,W(l)表示l层的权值,b(l)表示l层的偏值,t(l+1)表示l层的输出向量;
邮件判断模块,用于对使所述误差在预设范围内的所述输出向量进行分类,根据使所述误差在预设范围内的所述输出向量的分类判断所述邮件是否垃圾邮件。
CN201710161832.5A 2017-03-17 2017-03-17 邮件分类方法及装置 Active CN106850415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710161832.5A CN106850415B (zh) 2017-03-17 2017-03-17 邮件分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710161832.5A CN106850415B (zh) 2017-03-17 2017-03-17 邮件分类方法及装置

Publications (2)

Publication Number Publication Date
CN106850415A CN106850415A (zh) 2017-06-13
CN106850415B true CN106850415B (zh) 2021-01-05

Family

ID=59143963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710161832.5A Active CN106850415B (zh) 2017-03-17 2017-03-17 邮件分类方法及装置

Country Status (1)

Country Link
CN (1) CN106850415B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079851A (zh) * 2007-07-09 2007-11-28 华为技术有限公司 邮件类型判断方法、装置及系统和行为模型建立装置
CN101094197A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 反垃圾邮件的方法及其邮件服务器
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
US7373664B2 (en) * 2002-12-16 2008-05-13 Symantec Corporation Proactive protection against e-mail worms and spam
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN101282310A (zh) * 2008-05-23 2008-10-08 华东师范大学 一种反图片垃圾邮件的方法及装置
CN101316246A (zh) * 2008-07-18 2008-12-03 北京大学 一种基于分类器动态更新的垃圾邮件检测方法及系统
CN104967558A (zh) * 2015-06-10 2015-10-07 东软集团股份有限公司 一种垃圾邮件的检测方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7373664B2 (en) * 2002-12-16 2008-05-13 Symantec Corporation Proactive protection against e-mail worms and spam
CN101094197A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 反垃圾邮件的方法及其邮件服务器
CN101079851A (zh) * 2007-07-09 2007-11-28 华为技术有限公司 邮件类型判断方法、装置及系统和行为模型建立装置
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN101282310A (zh) * 2008-05-23 2008-10-08 华东师范大学 一种反图片垃圾邮件的方法及装置
CN101316246A (zh) * 2008-07-18 2008-12-03 北京大学 一种基于分类器动态更新的垃圾邮件检测方法及系统
CN104967558A (zh) * 2015-06-10 2015-10-07 东软集团股份有限公司 一种垃圾邮件的检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
堆叠去噪自编码器在垃圾邮件过滤中的应用;李艳涛;《计算机应用》;20151110;正文2-5页 *

Also Published As

Publication number Publication date
CN106850415A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
Gupta et al. A comparative study of spam SMS detection using machine learning classifiers
EP3227836B1 (en) Active machine learning
US20120136812A1 (en) Method and system for machine-learning based optimization and customization of document similarities calculation
JP5031206B2 (ja) 指数モデルの適合
Wang et al. Efficient learning by directed acyclic graph for resource constrained prediction
JP4697670B2 (ja) 識別用データ学習システム、学習装置、識別装置及び学習方法
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
US11301506B2 (en) Automated digital asset tagging using multiple vocabulary sets
CN109840413B (zh) 一种钓鱼网站检测方法及装置
US20220294751A1 (en) System and method for clustering emails identified as spam
US20220198316A1 (en) Systems and Methods for Automatic Extraction of Classification Training Data
US11409958B2 (en) Polar word embedding
Imani et al. Hyperparameter optimization and combined data sampling techniques in machine learning for customer churn prediction: a comparative analysis
Wang et al. Swarm Intelligence‐Based Hybrid Models for Short‐Term Power Load Prediction
Aliza et al. A comparative analysis of SMS spam detection employing machine learning methods
CN104156467A (zh) Api推荐方法及api推荐装置
US20210021553A1 (en) System and method for identifying spam email
WO2018101958A1 (en) Fuzzy input for autoencoders
CN106850415B (zh) 邮件分类方法及装置
Homayoun et al. A review on data stream classification approaches
CN104091117A (zh) 基于安全风险的聚类方法及聚类装置
WO2020140687A1 (zh) 一种识别风险对象的方法、装置及设备
Kaur et al. E-mail spam detection using refined mlp with feature selection
CN112818114A (zh) 信息的分类方法、检测方法、计算设备及存储介质
CN113409096B (zh) 目标对象识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170613

Assignee: Jiangsu Shenggong Construction Group Co.,Ltd.

Assignor: YANCHENG INSTITUTE OF TECHNOLOGY

Contract record no.: X2022980029965

Denomination of invention: Mail classification method and device

Granted publication date: 20210105

License type: Common License

Record date: 20230105

Application publication date: 20170613

Assignee: Jiangsu Jiujian Construction Engineering Co.,Ltd.

Assignor: YANCHENG INSTITUTE OF TECHNOLOGY

Contract record no.: X2022980028532

Denomination of invention: Mail classification method and device

Granted publication date: 20210105

License type: Common License

Record date: 20221230

Application publication date: 20170613

Assignee: SUNWAVE COMMUNICATIONS Co.,Ltd.

Assignor: YANCHENG INSTITUTE OF TECHNOLOGY

Contract record no.: X2022980028529

Denomination of invention: Mail classification method and device

Granted publication date: 20210105

License type: Common License

Record date: 20221230

EE01 Entry into force of recordation of patent licensing contract