CN113630302B - 一种垃圾邮件识别方法及装置、计算机可读存储介质 - Google Patents

一种垃圾邮件识别方法及装置、计算机可读存储介质 Download PDF

Info

Publication number
CN113630302B
CN113630302B CN202010386114.XA CN202010386114A CN113630302B CN 113630302 B CN113630302 B CN 113630302B CN 202010386114 A CN202010386114 A CN 202010386114A CN 113630302 B CN113630302 B CN 113630302B
Authority
CN
China
Prior art keywords
feature vector
mail
style
data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010386114.XA
Other languages
English (en)
Other versions
CN113630302A (zh
Inventor
周笑添
张琼
康杨杨
孙常龙
刘晓钟
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010386114.XA priority Critical patent/CN113630302B/zh
Publication of CN113630302A publication Critical patent/CN113630302A/zh
Application granted granted Critical
Publication of CN113630302B publication Critical patent/CN113630302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种垃圾邮件识别方法及装置、计算机可读存储介质,所述方法包括:提取邮件中的样式数据和第一文本数据;将第一文本数据按类别进行拆分;对样式数据以及多个类别的第一文本数据分别进行特征提取,得到样式特征向量和各类别的文本特征向量,将各类别的文本特征向量拼接为总文本特征向量;将样式特征向量和总文本特征向量进行多模态融合,得到多模态融合向量;将多模态融合向量输入多模态融合神经网络模型,以识别邮件是否为垃圾邮件。本申请通过提取邮件中的样式数据和第一文本数据,对样式数据和第一文本数据进行特征提取及多模态融合,提高了学习效果,从而识别出从纯邮件正文端难以识别的垃圾邮件,全面提升了邮件反垃圾能力。

Description

一种垃圾邮件识别方法及装置、计算机可读存储介质
技术领域
本申请涉及但不限于电子邮件技术领域,尤其涉及一种垃圾邮件识别方法及装置、计算机可读存储介质。
背景技术
随着移动互联网时代的来临,人们通过邮件来发送/接收信息也越来越普遍。凡是未经用户许可就强行发送到用户的邮箱中的任何电子邮件都是垃圾邮件。垃圾邮件危害特别大,会占用大量网络带宽,浪费存储空间,影响网络传输和运算速度,造成邮件服务器拥堵,降低了网络的运行效率,严重影响正常的邮件服务。垃圾邮件以其数量多、反复性、强制性、欺骗性、不健康性和传播速度快等特点,严重干扰用户的正常生活,侵犯收件人的隐私权和信箱空间,并耗费收件人的时间、精力和金钱。
传统垃圾邮件的识别方法有很多种,一些方法是基于关键词规则来识别,譬如邮件正文出现“请留下您的信用卡密码”、“若不激活,则会永久封号”等内容的邮件大概率属于垃圾邮件。还有一些方法引入机器学习的技术,通过将整篇邮件文本表征成特征向量,将特征向量输入垃圾邮件分类模型中,判断其是否为垃圾邮件。这些方法都能对垃圾邮件做到一定的处理,但都只是从单纯文本特征的角度对邮件建模进行是否为垃圾邮件的判断,因此,只能提供有限的防护。
发明内容
本申请提供了一种垃圾邮件识别方法及装置、计算机可读存储介质,能够全面提升反垃圾邮件能力。
本申请实施例提供了一种垃圾邮件识别方法,包括:提取邮件中的样式数据和第一文本数据;将第一文本数据按类别进行拆分,得到多个类别的第一文本数据;对样式数据以及多个类别的第一文本数据分别进行特征提取,得到样式特征向量和各个类别的文本特征向量,将各个类别的文本特征向量拼接为总文本特征向量;将样式特征向量和总文本特征向量进行多模态融合,得到多模态融合向量;将多模态融合向量输入训练好的多模态融合神经网络模型,以识别所述邮件是否为垃圾邮件。
在一些可能的实现方式中,所述样式数据包括字符格式和段落格式,其中,字符格式包括字体、字号和文字颜色,段落格式包括文字对齐方式、段落缩进格式和段落间距。
在一些可能的实现方式中,所述类别包括以下任意一个或多个:邮件别名、邮件主题、邮件正文、发件人、邮件附件。
在一些可能的实现方式中,所述对样式数据以及多个类别的第一文本数据分别进行特征提取,包括:通过多视角表示学习的方式对样式数据以及多个类别的第一文本数据分别进行特征提取。
在一些可能的实现方式中,所述将样式特征向量和总文本特征向量进行多模态融合,得到多模态融合向量,包括:分别基于样式特征向量和总文本特征向量,计算各模态映射激活结果:Hv=tanh(Wv),Ht=tanh(Wt),其中,tanh表示双曲正切函数,用作各模态激活函数,v为样式特征向量,t为总文本特征向量,Wv为样式特征向量对应的权重矩阵,Wt为总文本特征向量对应的权重矩阵,Hv为样式特征向量对应的映射激活结果,Ht为总文本特征向量对应的映射激活结果;基于样式特征向量和总文本特征向量,计算多模态映射激活信息z,z=Sigmoid(W[v,t]),W[v,t]为样式特征向量和总文本特征向量拼接后的总特征向量对应的权重矩阵,Sigmoid为多模态激活函数;根据各模态映射激活结果和多模态映射激活信息,计算多模态融合向量H,H=z*Hv+(1-z)Ht。
在一些可能的实现方式中,所述方法还包括:通过预设的多模态训练数据对所述多模态融合神经网络模型进行训练,得到所述训练好的多模态融合神经网络模型。
在一些可能的实现方式中,在所述提取邮件中的样式数据和第一文本数据的步骤之前,所述方法还包括:提取邮件中的第二文本数据,将所述第二文本数据输入预先训练的自编码器模型中,得到所述第二文本数据的重构误差,比较所述重构误差与预设阈值的大小;如果所述重构误差大于预设阈值,判断出所述邮件为异常邮件,确定所述异常邮件是否为垃圾邮件,如果确定出所述异常邮件为垃圾邮件,对所述垃圾邮件进行标注,并使用已标注的垃圾邮件对所述自编码器模型进行迭代更新;如果所述重构误差小于或等于预设阈值,触发所述提取邮件中的样式数据和第一文本数据的步骤。
在一些可能的实现方式中,所述第二文本数据包括邮件主题和邮件正文;所述自编码器模型的训练过程,包括:获取多个第二文本数据,根据获取的多个第二文本数据建立训练数据集及测试数据集;构建自编码器模型,所述自编码器模型为包含输入层、至少一个隐藏层以及输出层的深度神经网络模型;用训练数据集对所述自编码器模型进行训练,在所述训练过程中采用误差反向传播算法优化更新自编码器模型中的权重及偏置参数直至模型收敛;用测试数据集验证所述训练后的自编码器是否有效,并在确认有效后存储该自编码器模型。
本申请实施例还提供了一种垃圾邮件识别装置,包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如以上任意一项所述的垃圾邮件识别方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如以上任意一项所述的垃圾邮件识别方法的步骤。
本申请实施例还提供了一种垃圾邮件识别装置,包括数据提取模块、特征提取模块、多模态融合模块和分类判别模块,其中:所述数据提取模块,用于提取邮件中的样式数据和第一文本数据,将第一文本数据按类别进行拆分,得到多个类别的第一文本数据;所述特征提取模块,用于对样式数据以及多个类别的第一文本数据分别进行特征提取,得到样式特征向量和各个类别的文本特征向量,将各个类别的文本特征向量拼接为总文本特征向量;所述多模态融合模块,用于将样式特征向量和总文本特征向量进行多模态融合,得到多模态融合向量;所述分类判别模块,用于将多模态融合向量输入训练好的多模态融合神经网络模型,以识别所述邮件是否为垃圾邮件。
在一些可能的实现方式中,所述多模态融合模块具体用于:分别基于样式特征向量和总文本特征向量,计算各模态映射激活结果:Hv=tanh(Wv),Ht=tanh(Wt),其中,tanh表示双曲正切函数,用作各模态激活函数,v为样式特征向量,t为总文本特征向量,Wv为样式特征向量对应的权重矩阵,Wt为总文本特征向量对应的权重矩阵,Hv为样式特征向量对应的映射激活结果,Ht为总文本特征向量对应的映射激活结果;基于样式特征向量和总文本特征向量,计算多模态映射激活信息z,z=Sigmoid(W[v,t]),W[v,t]为样式特征向量和总文本特征向量拼接后的总特征向量对应的权重矩阵,Sigmoid为多模态激活函数;根据各模态映射激活结果和多模态映射激活信息,计算多模态融合向量H,H=z*Hv+(1-z)Ht。
本申请的垃圾邮件识别方法及装置、计算机可读存储介质,通过提取邮件中的样式数据和第一文本数据,对样式数据和第一文本数据分别进行特征提取及多模态融合,提高了学习效果,从而识别出从纯邮件正文端难以识别的垃圾邮件,全面提升了邮件反垃圾能力。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例的一种垃圾邮件识别方法的流程示意图;
图2为本申请实施例的一种数据提取和拆分过程示意图;
图3为本申请实施例的一种通过自编码器模型进行邮件异常检测的过程示意图;
图4为本申请实施例的一种对自编码器模型进行训练的过程示意图;
图5为本申请实施例的一种自编码异常检测过程示意图;
图6为本申请实施例的一种特征提取和多模态融合判别过程示意图;
图7为本申请实施例的一种多模态融合的过程示意图;
图8为本申请实施例的一种垃圾邮件识别装置的结构示意图;
图9为本申请实施例的另一种垃圾邮件识别装置的结构示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
在本申请实施例中,垃圾邮件指的是未经用户许可就强行发送到用户的邮箱中的电子邮件。邮件样式指的是带有字体、文本颜色、字符格式、段落格式等信息的邮件风格内容。异常格式邮件指的是邮件样式出现较大异常的邮件,譬如说部分字体偏大、文本颜色鲜艳、段落内容杂乱无章的邮件。多模态融合,指的是一种融合图像、语音、特征表达,使不同特征间能更好的彼此互补增强的特征融合技术。多视角表示学习,指的是训练数据来自不同源或者不同特征集,对该类源或特征单独建模以挖取其特征最好的表示。
如图1所示,本申请实施例提供了一种垃圾邮件识别方法,包括步骤101至步骤104。
步骤101包括:提取邮件中的样式数据和第一文本数据;将第一文本数据按类别进行拆分,得到多个类别的第一文本数据。
在一种示例性实施例中,邮件为EML格式文件。EML格式是微软公司在Outlook中所使用的一种文件格式,并成为各类电子邮件软件的通用格式。EML格式文件里包含了很多信息,除了使用邮箱客户端能够看到的收件人、发件人、邮件主题、邮件正文、邮件附件、邮件别名等第一文本数据之外,还包括邮件的样式数据。样式数据通常是超文本标记语言(Hyper Text Markup Language,HTML)标记字符串。本申请实施例通过提取邮件中的样式数据,充分挖掘出邮件的异常格式信息,进行辅助识别,有效地拦截垃圾邮件。
在一种示例性实施例中,样式数据包括字符格式和段落格式,其中,字符格式是指文档中单个字符或若干字符所具有的格式,可以包括字体、字号、文字颜色、加粗、倾斜、下划线、以不同颜色突出显示等;段落格式是指应用于段落的格式,可以包括文字对齐方式、段落缩进格式、段落间距等,其中,文字对齐方式包括左对齐、右对齐、居中对齐、两端对齐、分散对齐等。
在一种示例性实施例中,类别包括以下任意一个或多个:邮件别名、邮件主题、邮件正文、发件人、邮件附件。
在本申请实施例中,邮件别名指的是一个邮箱地址,它与另一个或多个邮箱地址使用同一个邮箱发送或接收邮件,即一个邮箱有两个或以上的名字。示例性的,假设邮箱域名为yyx@qq.com,邮件别名为yyx01@qq.com、yyx02@tqq.com等等。发件人将邮件发送到这几个邮箱地址中的任一个,收件人都可以收到。同时,发件人也可以用这几个邮箱地址中的任一个发送邮件。
示例性的,如图2所示,在一种应用场景中,首先对邮件进行数据提取,得到第一文本数据和样式数据,然后,对提取出的第一文本数据按照邮件主题、邮件正文、邮件别名三个类别进行拆分,得到邮件主题、邮件正文和邮件别名数据。
在一种示例性实施例中,如图3所示,在提取邮件中的样式数据和第一文本数据的步骤之前,所述方法还包括:
提取邮件中的第二文本数据,将第二文本数据输入预先训练的自编码器模型中,得到第二文本数据的重构误差,比较重构误差与预设阈值的大小;
如果重构误差大于预设阈值,判断出该邮件为异常邮件,确定该异常邮件是否为垃圾邮件,如果确定出该异常邮件为垃圾邮件,对垃圾邮件进行标注,并使用已标注的垃圾邮件对自编码器模型进行迭代更新;
如果重构误差小于或等于预设阈值,触发所述提取邮件中的样式数据和第一文本数据的步骤(即依据邮件中的样式数据和第一文本数据进行进一步的邮件反垃圾处理)。
在该实施例中,确定该异常邮件是否为垃圾邮件的步骤可以通过人工进行确定,也可以通过其他神经网络模型进行确定,本申请对此不作限制。
本实施例通过自编码器模型进行异常检测,可以识别之前未见过的垃圾邮件,并通过使用已标注的垃圾邮件对自编码器模型进行迭代更新,可以对本申请的自编码器模型迅速迭代更新,从而使得本申请的自编码器对新型异常情况及时响应,适应高变种的场景需求。
在一种示例性实施例中,第二文本数据包括邮件主题和邮件正文。
在一种示例性实施例中,该方法还包括:对自编码器模型进行训练。
本实施例中,对自编码器模型进行训练,具体可以包括如下步骤:
获取多个第二文本数据,根据获取的多个第二文本数据建立训练数据集及测试数据集;
构建自编码器模型,所述自编码器模型为包含输入层、至少一个隐藏层以及输出层的深度神经网络模型;
用训练数据集对自编码器模型进行训练,在训练过程中采用误差反向传播算法优化更新自编码器模型中的权重及偏置参数直至模型收敛;
用测试数据集验证所述训练后的自编码器是否有效,并在确认有效后存储该自编码器模型。
自编码器是一种基于无监督学习的数据压缩和特征提取的表达方法。自编码器是一种常用的深度学习基本模型,在训练过程中不需要标注数据,可以以无监督的方式直接从原始数据中进行特征学习。自编码器由编码器(Encoder)和解码器(Decoder)构成。编码器将输入向量x编码为隐层特征向量y,通过线性映射和非线性激活函数实现。解码器将隐层特征向量y重构为输入空间的向量z。训练自编码器的过程就是优化输入信号重构误差(损失)函数的过程。图4体现了用训练数据集对自编码器模型进行训练的过程,如图4所示,训练过程具体可以包括如下步骤:
(1)先对第二文本数据进行特征抽取,得到第二文本数据对应的特征向量;
(2)对得到的特征向量进行编码降维度,得到对应的编码向量;
(3)对得到的编码向量进行解码操作,获得解码向量,将获得的解码向量和该第二文本数据初始的特征向量进行相似度计算获得重构误差,将该重构误差传播到编码器和解码器中,进行参数更新优化;
(4)反复对新获取的第二文本数据重复执行步骤(1)-(3)的操作,直至结果收敛,误差最小。
图5体现了通过自编码器模型对第二文本数据进行异常检测的过程,如图5所示,异常检测的过程具体可以包括如下步骤:
1.先对第二文本数据进行特征抽取,得到第二文本数据对应的特征向量;
2.对得到的特征向量进行编码降维度,得到对应的编码向量;
3.对得到的编码向量进行解码操作,获得解码向量,将获得的解码向量和该第二文本数据初始的特征向量进行相似度计算,获得重构误差,比较重构误差与预设阈值t的大小;
4.若重构误差大于预设阈值t,则认为该第二文本数据对应的邮件属于异常邮件,若重构误差小于或等于阈值t,则认为该第二文本数据对应的邮件属于正常邮件。
如果判断出该邮件为异常邮件,可以将该邮件输入标注系统,由标注人员确定该异常邮件是否确实为垃圾邮件(也可以通过其他神经网络模型判断该异常邮件是否确实为垃圾邮件),如果确定出该异常邮件确实为垃圾邮件,对垃圾邮件进行标注,并使用已标注的垃圾邮件对自编码器模型进行迭代更新。
如果判断出该邮件为正常邮件,可以触发所述提取邮件中的样式数据和第一文本数据的步骤(即依据邮件中的样式数据和第一文本数据进行进一步的邮件反垃圾处理)。
步骤102包括:对样式数据以及多个类别的第一文本数据分别进行特征提取,得到样式特征向量和各个类别的文本特征向量,将各个类别的文本特征向量拼接为总文本特征向量。
在一种示例性实施例中,对样式数据以及多个类别的第一文本数据分别进行特征提取,包括:通过多视角表示学习的方式对样式数据以及多个类别的第一文本数据分别进行特征提取。
针对同一对象从不同途径或不同层面获得的特征数据被称为多视角数据。多视角表示学习是利用事物的多种视角表征进行建模求解的一种新的机器学习方法,它通常遵循以下两个原则:一致性原则和互补性原则。如图6所示,本申请实施例通过对样式数据以及多个类别的第一文本数据使用多视角表示学习的方式分别独立建模进行特征提取,得到样式特征向量和各个类别的文本特征向量,然后对得到的各个类别的文本特征向量进行特征向量的拼接,形成总文本特征向量。本申请实施例通过对第一文本数据进行多视角表示学习,对不同特征独立建模,充分发挥各个特征的优点,提高了学习效果。
在一种示例性实施例中,在将各个类别的文本特征向量拼接为总文本特征向量时,可以按照预设的顺序,将各个类别的文本特征向量前后拼接在一起,形成一个总文本特征向量。
步骤103包括:将样式特征向量和总文本特征向量进行多模态融合,得到多模态融合向量。
一般来说,模态(Modality)是指事物发生或存在的方式,多模态是指两个或者两个以上的模态的各种形式的组合。对每一种信息的来源或者形式,都可以称为一种模态。之所以要对模态进行融合,是因为不同模态的表现方式不一样,看待事物的角度也会不一样,所以存在一些交叉,即存在信息冗余、互补的现象,甚至模态间可能还存在多种不同的信息交互。如果能合理的处理多模态信息,就能得到丰富的特征信息。概括来说,多模态的显著特点是:冗余性和互补性。
在一种示例性实施例中,如图7所示,将样式特征向量和总文本特征向量进行多模态融合,得到多模态融合向量,包括:
分别基于样式特征向量和总文本特征向量,计算各模态映射激活结果:Hv=tanh(Wv),Ht=tanh(Wt),其中,tanh表示双曲正切函数,用作各模态激活函数,v为样式特征向量,t为总文本特征向量,Wv为样式特征向量对应的权重矩阵,Wt为总文本特征向量对应的权重矩阵,Hv为样式特征向量对应的映射激活结果,Ht为总文本特征向量对应的映射激活结果;
基于样式特征向量和总文本特征向量,计算多模态映射激活信息z,z=Sigmoid(W[v,t]),W[v,t]为样式特征向量和总文本特征向量拼接后的总特征向量对应的权重矩阵,Sigmoid为多模态激活函数;
根据各模态映射激活结果和多模态映射激活信息,计算多模态融合向量H,H=z*Hv+(1-z)Ht。
本申请实施例通过多模态融合,加强了传统文本特征向量和样式特征向量的交互,进一步提升了模型效果。
步骤104包括:将多模态融合向量输入训练好的多模态融合神经网络模型,以识别该邮件是否为垃圾邮件。
在一种示例性实施例中,该垃圾邮件识别方法还包括:
通过预设的多模态训练数据对多模态融合神经网络模型进行训练,得到训练好的多模态融合神经网络模型。
本申请实施例的垃圾邮件识别方法,通过提取邮件中的样式数据和第一文本数据,对样式数据和第一文本数据进行多视角表示学习、特征提取及多模态融合,提高了学习效果,从而识别出从纯邮件正文端难以识别的垃圾邮件,全面提升了邮件反垃圾能力。
基于同一发明构思,本申请实施例还提供了一种垃圾邮件识别装置,包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如以上任意一项所述的垃圾邮件识别方法的步骤。
基于同一发明构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如以上任意一项所述的垃圾邮件识别方法的步骤。
基于同一发明构思,如图8所示,本申请实施例还提供了一种垃圾邮件识别装置,包括数据提取模块801、特征提取模块802、多模态融合模块803和分类判别模块804。
具体的,数据提取模块801,用于提取邮件中的样式数据和第一文本数据,将第一文本数据按类别进行拆分,得到多个类别的第一文本数据。
特征提取模块802,用于对样式数据以及多个类别的第一文本数据进行特征提取,得到样式特征向量和各个类别的文本特征向量,将各个类别的文本特征向量拼接为总文本特征向量。
多模态融合模块803,用于将样式特征向量和总文本特征向量进行多模态融合,得到多模态融合向量。
分类判别模块804,用于将多模态融合向量输入训练好的多模态融合神经网络模型,以识别该邮件是否为垃圾邮件。
在一种示例性实施例中,如图9所示,该垃圾邮件识别装置还包括自编码检测模块805和异常标注模块806。
自编码检测模块805,用于提取邮件中的第二文本数据,将第二文本数据输入预先训练的自编码器模型中,得到第二文本数据的重构误差,比较重构误差与预设阈值的大小;如果重构误差大于预设阈值,判断出邮件为异常邮件,将该异常邮件输入异常标注模块806;如果重构误差小于或等于预设阈值,判断出邮件为正常邮件,将该正常邮件输入数据提取模块801。
异常标注模块806,用于确定异常邮件是否为垃圾邮件,如果确定出异常邮件为垃圾邮件,对垃圾邮件进行标注,并使用已标注的垃圾邮件对自编码器模型进行迭代更新。
在一种示例性实施例中,第二文本数据包括邮件主题和邮件正文。
在一种示例性实施例中,该垃圾邮件识别装置还包括自编码训练模块,该自编码训练模块用于对自编码器模型进行训练。
在一种示例性实施例中,邮件为EML格式文件。
在一种示例性实施例中,样式数据包括字符格式和段落格式,其中,字符格式可以包括字体、字号、文字颜色、加粗、倾斜、下划线、以不同颜色突出显示等;段落格式可以包括文字对齐方式、段落缩进格式、段落间距等。
在一种示例性实施例中,类别包括以下任意一个或多个:邮件别名、邮件主题、邮件正文、发件人、邮件附件。
在一种示例性实施例中,特征提取模块802可以通过多视角表示学习的方式对样式数据以及多个类别的第一文本数据分别进行特征提取。
在一种示例性实施例中,特征提取模块802在将各个类别的文本特征向量拼接为总文本特征向量时,可以按照预设的顺序,将各个类别的文本特征向量前后拼接在一起,形成一个总文本特征向量。
在一种示例性实施例中,多模态融合模块803具体用于:
分别基于样式特征向量和总文本特征向量,计算各模态映射激活结果:Hv=tanh(Wv),Ht=tanh(Wt),其中,tanh表示双曲正切函数,用作各模态激活函数,v为样式特征向量,t为总文本特征向量,Wv为样式特征向量对应的权重矩阵,Wt为总文本特征向量对应的权重矩阵,Hv为样式特征向量对应的映射激活结果,Ht为总文本特征向量对应的映射激活结果;
基于样式特征向量和总文本特征向量,计算多模态映射激活信息z,z=Sigmoid(W[v,t]),W[v,t]为样式特征向量和总文本特征向量拼接后的总特征向量对应的权重矩阵,Sigmoid为多模态激活函数;
根据各模态映射激活结果和多模态映射激活信息,计算多模态融合向量H,H=z*Hv+(1-z)Ht。
在一种示例性实施例中,该垃圾邮件识别装置还包括多模态训练模块,多模态训练模块用于通过预设的多模态训练数据对多模态融合神经网络模型进行训练,得到训练好的多模态融合神经网络模型。
本申请实施例的垃圾邮件识别装置,通过提取邮件中的样式数据和第一文本数据,对样式数据和第一文本数据进行多视角表示学习、特征提取及多模态融合,提高了学习效果,从而识别出从纯邮件正文端难以识别的垃圾邮件,全面提升了邮件反垃圾能力。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (11)

1.一种垃圾邮件识别方法,其特征在于,包括:
提取邮件中的样式数据和第一文本数据;
将第一文本数据按类别进行拆分,得到多个类别的第一文本数据;
对样式数据以及多个类别的第一文本数据分别进行特征提取,得到样式特征向量和各个类别的文本特征向量,将各个类别的文本特征向量拼接为总文本特征向量;
将样式特征向量和总文本特征向量进行多模态融合,得到多模态融合向量;
将多模态融合向量输入训练好的多模态融合神经网络模型,以识别所述邮件是否为垃圾邮件,
其中,所述将样式特征向量和总文本特征向量进行多模态融合,得到多模态融合向量,包括:
分别基于样式特征向量和总文本特征向量,计算各模态映射激活结果;
基于样式特征向量和总文本特征向量,计算多模态映射激活信息;
根据各模态映射激活结果和多模态映射激活信息,计算多模态融合向量。
2.根据权利要求1所述的垃圾邮件识别方法,其特征在于,所述样式数据包括字符格式和段落格式,其中,字符格式包括字体、字号和文字颜色,段落格式包括文字对齐方式、段落缩进格式和段落间距。
3.根据权利要求1所述的垃圾邮件识别方法,其特征在于,所述类别包括以下任意一个或多个:邮件别名、邮件主题、邮件正文、发件人、邮件附件。
4.根据权利要求1所述的垃圾邮件识别方法,其特征在于,所述对样式数据以及多个类别的第一文本数据分别进行特征提取,包括:通过多视角表示学习的方式对样式数据以及多个类别的第一文本数据分别进行特征提取。
5.根据权利要求1所述的垃圾邮件识别方法,其中,
分别基于样式特征向量和总文本特征向量,计算各模态映射激活结果Hv包括:Hv=tanh(Wv),Ht=tanh(Wt),其中,tanh表示双曲正切函数,用作各模态激活函数,v为样式特征向量,t为总文本特征向量,Wv为样式特征向量对应的权重矩阵,Wt为总文本特征向量对应的权重矩阵,Hv为样式特征向量对应的映射激活结果,Ht为总文本特征向量对应的映射激活结果;
基于样式特征向量和总文本特征向量,计算多模态映射激活信息z包括:z=Sigmoid(W[v,t]),W[v,t]为样式特征向量和总文本特征向量拼接后的总特征向量对应的权重矩阵,Sigmoid为多模态激活函数;
根据各模态映射激活结果和多模态映射激活信息,计算多模态融合向量H包括:H=z*Hv+(1-z)Ht。
6.根据权利要求1所述的垃圾邮件识别方法,其特征在于,在所述提取邮件中的样式数据和第一文本数据的步骤之前,所述方法还包括:
提取邮件中的第二文本数据,将所述第二文本数据输入预先训练的自编码器模型中,得到所述第二文本数据的重构误差,比较所述重构误差与预设阈值的大小;
如果所述重构误差大于预设阈值,判断出所述邮件为异常邮件,确定所述异常邮件是否为垃圾邮件,如果确定出所述异常邮件为垃圾邮件,对所述垃圾邮件进行标注,并使用已标注的垃圾邮件对所述自编码器模型进行迭代更新;
如果所述重构误差小于或等于预设阈值,触发所述提取邮件中的样式数据和第一文本数据的步骤。
7.根据权利要求6所述的垃圾邮件识别方法,其特征在于,所述第二文本数据包括邮件主题和邮件正文;
所述自编码器模型的训练过程,包括:
获取多个第二文本数据,根据获取的多个第二文本数据建立训练数据集及测试数据集;
构建自编码器模型,所述自编码器模型为包含输入层、至少一个隐藏层以及输出层的深度神经网络模型;
用训练数据集对所述自编码器模型进行训练,在所述训练过程中采用误差反向传播算法优化更新自编码器模型中的权重及偏置参数直至模型收敛;
用测试数据集验证所述训练后的自编码器是否有效,并在确认有效后存储该自编码器模型。
8.一种垃圾邮件识别装置,其特征在于,包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7任意一项所述的垃圾邮件识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的垃圾邮件识别方法的步骤。
10.一种垃圾邮件识别装置,其特征在于,包括数据提取模块、特征提取模块、多模态融合模块和分类判别模块,其中:
所述数据提取模块,用于提取邮件中的样式数据和第一文本数据,将第一文本数据按类别进行拆分,得到多个类别的第一文本数据;
所述特征提取模块,用于对样式数据以及多个类别的第一文本数据分别进行特征提取,得到样式特征向量和各个类别的文本特征向量,将各个类别的文本特征向量拼接为总文本特征向量;
所述多模态融合模块,用于将样式特征向量和总文本特征向量进行多模态融合,得到多模态融合向量;
所述分类判别模块,用于将多模态融合向量输入训练好的多模态融合神经网络模型,以识别所述邮件是否为垃圾邮件,
其中,所述多模态融合模块具体用于:
分别基于样式特征向量和总文本特征向量,计算各模态映射激活结果;
基于样式特征向量和总文本特征向量,计算多模态映射激活信息;
根据各模态映射激活结果和多模态映射激活信息,计算多模态融合向量。
11.根据权利要求10所述的垃圾邮件识别装置,
其中,
分别基于样式特征向量和总文本特征向量,计算各模态映射激活结果Hv包括:Hv=tanh(Wv),Ht=tanh(Wt),其中,tanh表示双曲正切函数,用作各模态激活函数,v为样式特征向量,t为总文本特征向量,Wv为样式特征向量对应的权重矩阵,Wt为总文本特征向量对应的权重矩阵,Hv为样式特征向量对应的映射激活结果,Ht为总文本特征向量对应的映射激活结果;
基于样式特征向量和总文本特征向量,计算多模态映射激活信息z包括:z=Sigmoid(W[v,t]),W[v,t]为样式特征向量和总文本特征向量拼接后的总特征向量对应的权重矩阵,Sigmoid为多模态激活函数;
根据各模态映射激活结果和多模态映射激活信息,计算多模态融合向量H包括:H=z*Hv+(1-z)Ht。
CN202010386114.XA 2020-05-09 2020-05-09 一种垃圾邮件识别方法及装置、计算机可读存储介质 Active CN113630302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010386114.XA CN113630302B (zh) 2020-05-09 2020-05-09 一种垃圾邮件识别方法及装置、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010386114.XA CN113630302B (zh) 2020-05-09 2020-05-09 一种垃圾邮件识别方法及装置、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113630302A CN113630302A (zh) 2021-11-09
CN113630302B true CN113630302B (zh) 2023-07-11

Family

ID=78376318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010386114.XA Active CN113630302B (zh) 2020-05-09 2020-05-09 一种垃圾邮件识别方法及装置、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113630302B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036264B (zh) * 2021-11-19 2023-06-16 四川大学 一种基于小样本学习的电子邮件作者身份归属识别方法
CN114745348A (zh) * 2022-05-26 2022-07-12 北京中睿天下信息技术有限公司 一种邮件指纹提取方法及系统
CN115601771A (zh) * 2022-12-01 2023-01-13 广州数说故事信息科技有限公司(Cn) 基于多模态数据的商单识别方法、装置、介质及终端设备
CN116016416B (zh) * 2023-03-24 2023-08-04 深圳市明源云科技有限公司 垃圾邮件识别方法、装置、设备及计算机可读存储介质
CN117633659B (zh) * 2024-01-25 2024-04-26 成都工业职业技术学院 一种基于计算机的邮件分类方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006020938A2 (en) * 2004-08-14 2006-02-23 Kirusa, Inc. Methods for identifying messages and communicating with users of a multimodal message service
WO2007141095A1 (de) * 2006-06-09 2007-12-13 Nokia Siemens Networks Gmbh & Co. Kg Verfahren und vorrichtung zur abwehr von störenden multimodalen nachrichten
CN102214320A (zh) * 2010-04-12 2011-10-12 宋威 神经网络训练方法及采用该方法的垃圾邮件过滤方法
WO2013097327A1 (zh) * 2011-12-29 2013-07-04 盈世信息科技(北京)有限公司 一种垃圾邮件过滤方法
WO2018124309A1 (en) * 2016-12-30 2018-07-05 Mitsubishi Electric Corporation Method and system for multi-modal fusion model

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103684971B (zh) * 2012-09-07 2017-02-08 盈世信息科技(北京)有限公司 一种邮件处理方法及系统
US9465789B1 (en) * 2013-03-27 2016-10-11 Google Inc. Apparatus and method for detecting spam
CN107294834A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种识别垃圾邮件的方法和装置
CN109947936B (zh) * 2018-08-21 2021-03-02 北京大学 一种基于机器学习动态检测垃圾邮件的方法
CN109800852A (zh) * 2018-11-29 2019-05-24 电子科技大学 一种多模态的垃圾邮件识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006020938A2 (en) * 2004-08-14 2006-02-23 Kirusa, Inc. Methods for identifying messages and communicating with users of a multimodal message service
WO2007141095A1 (de) * 2006-06-09 2007-12-13 Nokia Siemens Networks Gmbh & Co. Kg Verfahren und vorrichtung zur abwehr von störenden multimodalen nachrichten
CN102214320A (zh) * 2010-04-12 2011-10-12 宋威 神经网络训练方法及采用该方法的垃圾邮件过滤方法
WO2013097327A1 (zh) * 2011-12-29 2013-07-04 盈世信息科技(北京)有限公司 一种垃圾邮件过滤方法
WO2018124309A1 (en) * 2016-12-30 2018-07-05 Mitsubishi Electric Corporation Method and system for multi-modal fusion model

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于多模态特征融合的垃圾邮件过滤方法;杨兴华;封化民;江超;陈春萍;;北京电子科技学院学报(第02期);全文 *

Also Published As

Publication number Publication date
CN113630302A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN113630302B (zh) 一种垃圾邮件识别方法及装置、计算机可读存储介质
WO2022142014A1 (zh) 基于多模态信息融合的文本分类方法、及其相关设备
CN106156365B (zh) 一种知识图谱的生成方法及装置
US20170289082A1 (en) Method and device for identifying spam mail
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
US11238539B1 (en) Intelligent routing control
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN113159010A (zh) 视频分类方法、装置、设备和存储介质
CN111612081B (zh) 识别模型的训练方法、装置、设备及存储介质
CN114120304A (zh) 实体识别方法、装置及计算机程序产品
US11599711B2 (en) Automatic delineation and extraction of tabular data in portable document format using graph neural networks
CN111800333B (zh) 会话消息处理方法、装置、计算机可读存储介质及设备
CN109726398B (zh) 一种实体识别及属性判断方法、系统、设备及介质
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN112528674B (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN114626370A (zh) 训练方法、风险预警方法、装置、设备、介质和程序产品
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
CN113688234A (zh) 文本分类管理方法、装置、终端及可读存储介质
CN115952854B (zh) 文本脱敏模型的训练方法、文本脱敏方法及应用
CN106406949B (zh) 配置文件的处理方法及装置
CN113849645B (zh) 邮件分类模型训练方法、装置、设备及存储介质
CN116975298B (zh) 一种基于nlp的现代化社会治理调度系统及方法
CN115563289B (zh) 行业分类标签生成方法、装置、电子设备和可读介质
CN115577680B (zh) 古籍文本断句方法与装置、古籍文本断句模型训练方法
CN117077678B (zh) 一种敏感词识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant