CN116016416A - 垃圾邮件识别方法、装置、设备及计算机可读存储介质 - Google Patents

垃圾邮件识别方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN116016416A
CN116016416A CN202310294582.8A CN202310294582A CN116016416A CN 116016416 A CN116016416 A CN 116016416A CN 202310294582 A CN202310294582 A CN 202310294582A CN 116016416 A CN116016416 A CN 116016416A
Authority
CN
China
Prior art keywords
mail
feature
phrase
feedback information
feature word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310294582.8A
Other languages
English (en)
Other versions
CN116016416B (zh
Inventor
温桂龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Mingyuan Cloud Technology Co Ltd
Original Assignee
Shenzhen Mingyuan Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Mingyuan Cloud Technology Co Ltd filed Critical Shenzhen Mingyuan Cloud Technology Co Ltd
Priority to CN202310294582.8A priority Critical patent/CN116016416B/zh
Publication of CN116016416A publication Critical patent/CN116016416A/zh
Application granted granted Critical
Publication of CN116016416B publication Critical patent/CN116016416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种垃圾邮件识别方法、装置、设备及计算机可读存储介质,涉及网络技术领域,所述方法包括:对待识别邮件的邮件内容进拆分得到多个特征词组;将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息;基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件。可以理解的是,相比于传统方案,本申请通过待识别邮件的完整内容以及增加的预测反馈信息来判断邮件是否为垃圾邮件可以使得判断结果更加符合邮箱使用者预期,从而提高识别结果的准确性,减少错误识别的情况,提高用户使用体验。

Description

垃圾邮件识别方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及网络技术领域,尤其涉及一种垃圾邮件识别方法、装置、设备及计算机可读存储介质。
背景技术
目前,在企业内部和企业之间的沟通中,邮件是最重要且正式的沟通形式。但是邮件又容易被滥用,例如通过邮件发布广告,对接收方造成不便,即便邮件的发送方是较为权威的机构或者企业。同时邮件也容易成为攻击者发起攻击的渠道,例如攻击通过向企业内部发送大量的垃圾信息骗取企业内部的信息造成企业损失等,上述邮件均可被成为垃圾邮件。目前虽然有识别并过滤垃圾邮件的方案,但是仍然会有较大概率出现错误识别情况,从而造成邮箱使用者不便的问题。
上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
发明内容
本申请的主要目的在于提供一种垃圾邮件识别方法、装置、设备及计算机可读存储介质,旨在解决传统识别并过滤垃圾邮件的方案仍然会有较大概率出现错误识别情况从而造成邮箱使用者不便的技术问题。
为实现上述目的,本申请提供一种垃圾邮件识别方法,所述垃圾邮件识别方法包括以下步骤:
对待识别邮件的邮件内容进拆分得到多个特征词组;
将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息;
基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件。
进一步地,所述基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件的步骤包括:
基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值,其中,初始的特征词组合集由拆分得到的所述特征词组组成;
将所述特征词组合集中的各所述特征词组合并生成新的特征词组,并基于新的特征词组生成新的预测反馈信息;
将所述特征词组合集中的特征词组更新替换为各新的特征词组;
返回至所述基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值的步骤,直至新的特征词组为所述待识别邮件的全文内容;
基于各所述垃圾邮件中间概率值计算得到所述待识别邮件为垃圾邮件的综合概率;
若所述综合概率大于预设阈值,则将所述待识别邮件作为垃圾邮件。
进一步地,所述基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值的步骤包括:
将特征词组合集中各所述特征词组和各所述预测反馈信息分别输入至第二预训练模型得到各所述特征词组和各所述预测反馈信息的垃圾邮件贡献度;
基于各所述垃圾邮件贡献度计算所述待识别邮件的垃圾邮件中间概率值。
进一步地,所述将所述特征词组合集中的各所述特征词组合并生成新的特征词组的步骤包括:
从所述特征词组合集中获取目标特征词组,其中,所述目标特征词组为垃圾邮件贡献度最高的特征词组;
将所述目标特征词组和所述目标特征词组的相邻特征词组合并生成新的特征词组,其中,所述相邻特征词组为在所述待识别邮件原文中与所述目标特征词组相邻的特征词组;
删除所述特征词组合集中参与合并的特征词组,返回至所述从所述特征词组合集中获取目标特征词组的步骤,直至所述目标特征词组无相邻特征词组;
将所述特征词组合集中剩余的特征词组作为新的特征词组。
进一步地,在所述将特征词组合集中各所述特征词组和各所述预测反馈信息分别输入至第二预训练模型得到各所述特征词组和各所述预测反馈信息的垃圾邮件贡献度的步骤之前,所述方法包括:
将标记了垃圾邮件或者非垃圾邮件的历史邮件作为训练数据对预设分类模型进行训练得到所述第二预训练模型,其中,所述训练数据还包括有所述历史邮件对应的反馈信息。
进一步地,在所述将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息的步骤之前,所述方法包括:
将所述历史邮件对应的反馈信息作为所述历史邮件的标签对预设语言模型进行训练得到所述第一预训练模型,其中,所述反馈信息包括所述历史邮件的接收人员对所述历史邮件的处理动作和/或处理内容。
进一步地,所述对待识别邮件的邮件内容进行拆分得到多个特征词组的步骤包括:
基于文本语义对所述邮件内容的文本进行拆分,得到多个表达不同语义的所述特征词组。
此外,为实现上述目的,本申请还提供一种垃圾邮件识别装置,所述的垃圾邮件识别装置包括:
拆分模块,用于对待识别邮件的邮件内容进拆分得到多个特征词组;
预测模块,用于将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息;
识别模块,用于基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件。
此外,为实现上述目的,本申请还提供一种垃圾邮件识别设备,所述垃圾邮件识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的垃圾邮件识别程序,所述垃圾邮件识别程序被所述处理器执行时实现上述的垃圾邮件识别方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述可读存储介质上存储有垃圾邮件识别程序,所述垃圾邮件识别程序被处理器执行时实现如上述的垃圾邮件识别方法的步骤。
本申请实施例提出的一种零代码平台产品的自动化测试方法、装置、设备及介质。识别垃圾邮件时,本申请会对待识别邮件的邮件内容进拆分得到多个特征词组;将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息;基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件。本申请将会对邮件的整个文本内容进行拆分,得到多个特征词组,未丢弃邮件中的文本内容,再预测各特征词组的反馈信息,基于特征词组以及预测的反馈信息判断待识别邮件是否为垃圾邮件。可以理解的是,相比于传统方案,本申请通过待识别邮件的完整内容以及增加的预测反馈信息来判断邮件是否为垃圾邮件可以使得判断结果更加符合邮箱使用者预期,从而提高识别结果的准确性,减少错误识别的情况,提高用户使用体验。
附图说明
图1是本申请实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本申请垃圾邮件识别方法的第一实施例的流程示意图;
图3为本申请垃圾邮件识别方法的第二实施例的流程示意图;
图4为本申请垃圾邮件识别方法中第三实施例的流程示意图;
图5为本申请垃圾邮件识别方法中垃圾邮件识别装置示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,图1是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请实施例设备可以是服务器,也可以是智能手机、PC、平板电脑、便携计算机等电子终端设备。
如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的设备结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及垃圾邮件识别程序。
在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的垃圾邮件识别程序,并执行以下操作:
对待识别邮件的邮件内容进拆分得到多个特征词组;
将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息;
基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件。
进一步地,处理器1001可以调用存储器1005中存储的垃圾邮件识别程序,还执行以下操作:
所述基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件的步骤包括:
基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值,其中,初始的特征词组合集由拆分得到的所述特征词组组成;
将所述特征词组合集中的各所述特征词组合并生成新的特征词组,并基于新的特征词组生成新的预测反馈信息;
将所述特征词组合集中的特征词组更新替换为各新的特征词组;
返回至所述基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值的步骤,直至新的特征词组为所述待识别邮件的全文内容;
基于各所述垃圾邮件中间概率值计算得到所述待识别邮件为垃圾邮件的综合概率;
若所述综合概率大于预设阈值,则将所述待识别邮件作为垃圾邮件。
进一步地,处理器1001可以调用存储器1005中存储的垃圾邮件识别程序,还执行以下操作:
所述基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值的步骤包括:
将特征词组合集中各所述特征词组和各所述预测反馈信息分别输入至第二预训练模型得到各所述特征词组和各所述预测反馈信息的垃圾邮件贡献度;
基于各所述垃圾邮件贡献度计算所述待识别邮件的垃圾邮件中间概率值。
进一步地,处理器1001可以调用存储器1005中存储的垃圾邮件识别程序,还执行以下操作:
所述将所述特征词组合集中的各所述特征词组合并生成新的特征词组的步骤包括:
从所述特征词组合集中获取目标特征词组,其中,所述目标特征词组为垃圾邮件贡献度最高的特征词组;
将所述目标特征词组和所述目标特征词组的相邻特征词组合并生成新的特征词组,其中,所述相邻特征词组为在所述待识别邮件原文中与所述目标特征词组相邻的特征词组;
删除所述特征词组合集中参与合并的特征词组,返回至所述从所述特征词组合集中获取目标特征词组的步骤,直至所述目标特征词组无相邻特征词组;
将所述特征词组合集中剩余的特征词组作为新的特征词组。
进一步地,处理器1001可以调用存储器1005中存储的垃圾邮件识别程序,还执行以下操作:
在所述将特征词组合集中各所述特征词组和各所述预测反馈信息分别输入至第二预训练模型得到各所述特征词组和各所述预测反馈信息的垃圾邮件贡献度的步骤之前,所述方法包括:
将标记了垃圾邮件或者非垃圾邮件的历史邮件作为训练数据对预设分类模型进行训练得到所述第二预训练模型,其中,所述训练数据还包括有所述历史邮件对应的反馈信息。
进一步地,处理器1001可以调用存储器1005中存储的垃圾邮件识别程序,还执行以下操作:
在所述将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息的步骤之前,所述方法包括:
将所述历史邮件对应的反馈信息作为所述历史邮件的标签对预设语言模型进行训练得到所述第一预训练模型,其中,所述反馈信息包括所述历史邮件的接收人员对所述历史邮件的处理动作和/或处理内容。
进一步地,处理器1001可以调用存储器1005中存储的垃圾邮件识别程序,还执行以下操作:
所述对待识别邮件的邮件内容进行拆分得到多个特征词组的步骤包括:
基于文本语义对所述邮件内容的文本进行拆分,得到多个表达不同语义的所述特征词组。
参照图2,本申请垃圾邮件识别方法的第一实施例,所述垃圾邮件识别方法包括:
步骤S10,对待识别邮件的邮件内容进拆分得到多个特征词组;
需要说明的是,上述待识别邮件通常为用户邮箱新接收的邮件,将接收的邮件向用户展示前会对邮件进行识别以判断该邮件是否为垃圾邮件,若是垃圾邮件则会将该垃圾邮件过滤掉,以避免损害用户利益。目前,常规方案通常会基于邮件的来源、邮件内容中的关键词或者设置白名单的方式来应对垃圾邮件的情况,但这些常规方案中很容易错判或者漏判,例如一些包含广告的邮件可能是来自于与一些正规机构或者企业,则该邮件的威胁性会小,故很容易将其作为一个正常邮件。又或者,通过设置白名单来阻挡垃圾邮件,虽然安全性相对较高,但也很容易阻挡一些正常沟通的陌生邮件。故针对上述问题,本申请提出一种垃圾邮件识别方法以应对上述问题。
示例性的,对待识别邮件中内容文本进行拆分得到多个特征词组,特征词组可以是单个词语,也可以是短句等。例如可根据文本中的标点符号进行拆分。
进一步的,所述对待识别邮件的邮件内容进行拆分得到多个特征词组的步骤包括:
步骤S110,所述基于文本语义对所述邮件内容的文本进行拆分,得到多个表达不同语义的所述特征词组。
示例性的,本实施例中,可进行多层拆分,例如第一层可通过标点符号进行拆分得到多个短句。再将短句输入至预设的语义识别模型,基于短句各部分的语义进行分割德奥多个不同语义的特征词组。
步骤S20,将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息;
示例性的,分别将每个特征词组输入至第一预训练模型,通过第一预训练模型预测每个特征词组可能的反馈信息(即预测反馈信息)。其中,反馈信息可以是人们对于特征词组的反馈(包括针对特征词组的回复,或者对包含该特征词组邮件的动作等)。
进一步的,在所述将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息的步骤之前,所述方法包括:
步骤S02,将所述历史邮件对应的反馈信息作为所述历史邮件的标签对预设语言模型进行训练得到所述第一预训练模型,其中,所述反馈信息包括所述历史邮件的接收人员对所述历史邮件的处理动作和/或处理内容。
示例性的,第一预训练模型可以是对预设语言模型训练得到,例如语言模型可以是GPT-3模型(Generative Pre-training Transformer-3,预选训练转换模型),在本实施例中,预设语言模型预先会经过大量文本数据训练,在此基础上,将历史邮件文本以及历史邮件文本对应的反馈信息作为训练数据对预设语言模型进行训练,例如对于某一企业而言,训练数据可以是该企业接收到的历史邮件,其中,反馈信息将作为历史邮件文本的标签,反馈信息可包括历史邮件的接收人员对历史邮件的处理动作和/或处理内容,例如,处理动作可以是接收人员对历史邮件进行回复、转发、删除或者查看等动作,处理内容可以是接收人员对历史邮件回复时的回复内容。可以理解的是,若预设语言模型为GPT-3模型,则且本身就具强大的语言文本处理能力,而将历史邮件作为训练数据对模型进行再训练,可对模型预测功能进行微调,使其预测的结果更加符合邮件回复的场景。而对于邮件接收人对接收邮件的反馈信息,实际上也可反应出该邮件对邮件接收人的意义程度,将其作为判断该邮件是否为垃圾邮件的依据,可增强对待识别邮件判断的准确性。
步骤S30,基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件。
示例性的,各特征词组以及各预测反馈信息将会作为识别该待识别邮件是否为垃圾邮件的依据,将各所述特征词组和各所述预测反馈信息分别输入至第二预训练模型得到各所述特征词组和各所述预测反馈信息的垃圾邮件贡献度,基于各所述垃圾邮件贡献度计算所述待识别邮件为垃圾邮件的概率值。上述第二预训练模型实际上也可包括两个子模型,分别用于预测特征词组和预测反馈信息的垃圾邮件贡献度。垃圾邮件贡献度可以是邮件包含该特征词组或者该预测反馈信息后为垃圾邮件的概率。再综合每个特征词组每个预测反馈信息的垃圾邮件贡献度得到待识别邮件为垃圾邮件的概率值,例如,可以是将各垃圾邮件贡献度求和后的平均值作为待识别邮件为垃圾邮件的概率值。
在本实施例中,识别垃圾邮件时,会对待识别邮件的邮件内容进拆分得到多个特征词组;将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息;基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件。本申请将会对邮件的整个文本内容进行拆分,得到多个特征词组,相比仅提取关键词,本申请未丢弃邮件中的文本内容,再预测各特征词组的反馈信息,基于特征词组以及预测的反馈信息判断待识别邮件是否为垃圾邮件。可以理解的是,通过待识别邮件的完整内容以及增加的预测反馈信息来判断邮件是否为垃圾邮件可以使得判断结果更加符合邮箱使用者预期,从而提高识别结果的准确性,减少错误识别的情况,提高用户使用体验。
进一步的,参照图3,基于本申请垃圾邮件识别方法的第一实施例提出本申请垃圾邮件识别方法的第二实施例。本实施例中与上述实施例相同部分可参考上文内容,此处不再赘述。所述基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件的步骤包括:
步骤A10,基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值,其中,初始的特征词组合集由拆分得到的所述特征词组组成;
可以理解的是,对将文本拆分后会丢失词组与词组之间的关联性,针对此情况,在判断过程中会对词组进行组合,从而保留了词组与词之间的联系,以提高识别准确性。
示例性的,上述初始的特征词组合集由拆分得到的特征词组组成,基于特征词组合集中的特征词组、特征词组合集中特征词组的预测反馈信息以及第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值。
进一步的,所述基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值的步骤包括:
步骤A110,将特征词组合集中各所述特征词组和各所述预测反馈信息分别输入至第二预训练模型得到各所述特征词组和各所述预测反馈信息的垃圾邮件贡献度;
步骤A120,基于各所述垃圾邮件贡献度计算所述待识别邮件的垃圾邮件中间概率值。
示例性的,第二预训练模型可以是分类模型,用于评估包含一特征词组或者一预测反馈信息的邮件为垃圾邮件的概率,该概率即为垃圾邮件贡献度。将根据各所述垃圾邮件贡献度计算得到结果作为所述待识别邮件的垃圾邮件中间概率值,计算过程也可参考上述内容,此处不再赘述。
进一步的,在所述将各所述特征词组和各所述预测反馈信息输入至第二预训练模型得到所述待识别邮件的垃圾邮件概率值的步骤之前,所述方法包括:
步骤A01,将标记了垃圾邮件或者非垃圾邮件的历史邮件作为训练数据对预设分类模型进行训练得到所述第二预训练模型,其中,所述训练数据还包括有所述历史邮件对应的反馈信息。
示例性的,将历史邮件作为训练数据对预设分类模型进行训练,其中,历史邮件标记了垃圾邮件或者非垃圾邮件。对应的训练数据还包括有历史邮件对应的反馈信息。可以理解的是,在历史邮件被标记的情况下,相当于也标记了反馈信息。基于上述训练数据对预设分类模型训练得到的第二预训练模型。训练过程中使用梯度下降法对模型参数进行调整。梯度下降法的数学公式如下:
式中,θ为参数,为求导,α为学习效率。对训练过的模型可通过准确性、精密度、召回率和F1分数等方面评估性能。
此外,上述第二预训练模型可以包括两个分类子模型,分别针对邮件文本内容的特征词组和邮件的反馈信息。对应的,对于不同的分类子模型可采用历史邮件中不同特征进行训练,例如,基于标记了的特征词组对一分类子模型进行训练,基于标记了的反馈信息对另一分类子模型进行训练。
步骤A20,将所述特征词组合集中的各所述特征词组合并生成新的特征词组,并基于新的特征词组生成新的预测反馈信息;
示例性的,在得到一个待识别邮件的垃圾邮件中间概率值后,可将特征词组合集中的各所述特征词组进行合并从而组成新的特征词组,如可将邮件原文内容中相邻的任意两特征词组合并。将新的特征词组输入至上述第一预训练模型,可得到各新的特征词组的预测反馈信息。
步骤A30,将所述特征词组合集中的特征词组更新替换为各新的特征词组;
示例性的,将特征词组合集中的特征词组更新替换为各新的特征词组。即每次生成新的特征词组时,将特征词组合集中原来的特征词组删除,再将各新的特征词组加入至特征词组合集,从而完成特征词组合集的更新。
步骤A40,返回至所述基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值的步骤,直至新的特征词组为所述待识别邮件的全文内容;
示例性的,更新特征词组合集后,重新返回执行所述基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值的步骤。直至新的特征词组为待识别邮件的全文内容。即所有拆分的特征词组合并到一起组成原来邮件的全文后,则不在执行词组合并步骤。
步骤A50,基于各所述垃圾邮件中间概率值计算得到所述待识别邮件为垃圾邮件的综合概率;
示例性的,计算方式可以是计算各垃圾邮件中间概率值的平均值并做综合概率,也可以是计算各垃圾邮件中间概率值的积和各非垃圾邮件中间概率值的积,再对两积值进行归一处理得到综合概率(非垃圾邮件中间概率值可以是垃圾邮件中间概率值对应事件的对立事件的概率)。具体的计算方式也可由技术人员设置,但需要说明的是,在对各垃圾邮件中间概率值求积时,可通过扣分机制避免垃圾邮件中间概率值为0的情况。
步骤A60,若所述综合概率大于预设阈值,则将所述待识别邮件作为垃圾邮件。
示例性的,若综合概率大于预设阈值,则可将该待识别邮件作为垃圾邮件,并将垃圾邮件过滤掉。
可以理解的是,在本实施例中会将拆分的词组进行合并,从而保留词组与词组之间的关联性。且基于每个阶段得到的新词组又将可以得到一个待识别邮件为垃圾邮件的中间概率值。最后在综合各中间概率值判断待识别邮件是否为垃圾邮件,以确保判断结果的准确性。
进一步的,参照图4,基于本申请垃圾邮件识别方法的第二实施例提出本申请垃圾邮件识别方法的第三实施例。本实施例中与上述实施例相同部分可参考上文内容,此处不再赘述。所述将所述特征词组合集中的各所述特征词组合并生成新的特征词组的步骤包括:
步骤B10,从所述特征词组合集中获取目标特征词组,其中,所述目标特征词组为垃圾邮件贡献度最高的特征词组;
步骤B20,将所述目标特征词组和所述目标特征词组的相邻特征词组合并生成新的特征词组,其中,所述相邻特征词组为在所述待识别邮件原文中与所述目标特征词组相邻的特征词组;
步骤B30,删除所述特征词组合集中参与合并的特征词组,返回至所述从所述特征词组合集中获取目标特征词组的步骤,直至所述目标特征词组无相邻特征词组;
步骤B40,将所述特征词组合集中剩余的特征词组作为新的特征词组。
示例性的,将特征词组合集中获取目标特征词组,目标特征词组为特征词组合集中垃圾邮件贡献度最高的特征词组,垃圾邮件贡献度可以通过上述第二预训练模型得到。将待识别邮件原文中与目标特征词组相邻的特征词和目标特征词组合并得到新的特征词组。可以理解的是,在本实施例中,优先是从高垃圾邮件贡献度特征词组出发进行合并,可强化词组的特征,从而提最终识别结果的准确性。
当合并出新的特征词组时,可将特征词组合集中参与合并的特征词组删除,并返回至从所述特征词组合集中获取目标特征词组的步骤。直到目标特征词组无相邻特征词组。同时也将特征词组合集中剩余的特征词组同样为新的特征词组。此时相当于一个阶段的新的特征词组生成完成。且基于该阶段的新的特征词组可生成一个垃圾邮件中间概率值。
此外,本申请实施例还提供一种垃圾邮件识别装置100A,所述垃圾邮件识别装置100A包括:
拆分模块10A,用于对待识别邮件的邮件内容进拆分得到多个特征词组;
预测模块20A,用于将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息;
识别模块30A,用于基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件。
可选地,所述识别模块30A还用于:
基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值,其中,初始的特征词组合集由拆分得到的所述特征词组组成;
将所述特征词组合集中的各所述特征词组合并生成新的特征词组,并基于新的特征词组生成新的预测反馈信息;
将所述特征词组合集中的特征词组更新替换为各新的特征词组;
返回至所述基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值的步骤,直至新的特征词组为所述待识别邮件的全文内容;
基于各所述垃圾邮件中间概率值计算得到所述待识别邮件为垃圾邮件的综合概率;
若所述综合概率大于预设阈值,则将所述待识别邮件作为垃圾邮件。
可选地,所述识别模块30A还用于:
将特征词组合集中各所述特征词组和各所述预测反馈信息分别输入至第二预训练模型得到各所述特征词组和各所述预测反馈信息的垃圾邮件贡献度;
基于各所述垃圾邮件贡献度计算所述待识别邮件的垃圾邮件中间概率值。
可选地,所述识别模块30A还用于:
从所述特征词组合集中获取目标特征词组,其中,所述目标特征词组为垃圾邮件贡献度最高的特征词组;
将所述目标特征词组和所述目标特征词组的相邻特征词组合并生成新的特征词组,其中,所述相邻特征词组为在所述待识别邮件原文中与所述目标特征词组相邻的特征词组;
删除所述特征词组合集中参与合并的特征词组,返回至所述从所述特征词组合集中获取目标特征词组的步骤,直至所述目标特征词组无相邻特征词组;
将所述特征词组合集中剩余的特征词组作为新的特征词组。
可选地,垃圾邮件识别装置还包括第一训练模块40A,所述第一训练模块用于:
将标记了垃圾邮件或者非垃圾邮件的历史邮件作为训练数据对预设分类模型进行训练得到所述第二预训练模型,其中,所述训练数据还包括有所述历史邮件对应的反馈信息。
可选地,垃圾邮件识别装置还包括第二训练模块40A,所述第二训练模块用于:
将所述历史邮件对应的反馈信息作为所述历史邮件的标签对预设语言模型进行训练得到所述第一预训练模型,其中,所述反馈信息包括所述历史邮件的接收人员对所述历史邮件的处理动作和/或处理内容。
可选地,所述拆分模块10A还用于:
基于文本语义对所述邮件内容的文本进行拆分,得到多个表达不同语义的所述特征词组。
本申请提供的垃圾邮件识别装置,采用上述实施例中的垃圾邮件识别方法,旨在解决传统识别并过滤垃圾邮件的方案仍然会有较大概率出现错误识别情况从而造成邮箱使用者不便的技术问题。与现有技术相比,本申请实施例提供的垃圾邮件识别装置的有益效果与上述实施例提供的垃圾邮件识别方法的有益效果相同,且该垃圾邮件识别装置中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
此外,为实现上述目的,本申请还提供一种垃圾邮件识别设备,所述垃圾邮件识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的垃圾邮件识别程序,所述垃圾邮件识别程序被所述处理器执行时实现如上述的垃圾邮件识别方法的步骤。
本申请垃圾邮件识别设备的具体实施方式与上述垃圾邮件识别方法各实施例基本相同,在此不再赘述。
此外,为实现上述目的,本申请还提供一种计算机介质,所述计算机介质上存储有垃圾邮件识别程序,所述垃圾邮件识别程序被处理器执行时实现如上述的垃圾邮件识别方法的步骤。
本申请计算机介质具体实施方式与上述垃圾邮件识别方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种垃圾邮件识别方法,其特征在于,所述垃圾邮件识别方法包括以下步骤:
对待识别邮件的邮件内容进拆分得到多个特征词组;
将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息;
基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件。
2.如权利要求1所述的垃圾邮件识别方法,其特征在于,所述基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件的步骤包括:
基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值,其中,初始的特征词组合集由拆分得到的所述特征词组组成;
将所述特征词组合集中的各所述特征词组合并生成新的特征词组,并基于新的特征词组生成新的预测反馈信息;
将所述特征词组合集中的特征词组更新替换为各新的特征词组;
返回至所述基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值的步骤,直至新的特征词组为所述待识别邮件的全文内容;
基于各所述垃圾邮件中间概率值计算得到所述待识别邮件为垃圾邮件的综合概率;
若所述综合概率大于预设阈值,则将所述待识别邮件作为垃圾邮件。
3.如权利要求2所述的垃圾邮件识别方法,其特征在于,所述基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值的步骤包括:
将特征词组合集中各所述特征词组和各所述预测反馈信息分别输入至第二预训练模型得到各所述特征词组和各所述预测反馈信息的垃圾邮件贡献度;
基于各所述垃圾邮件贡献度计算所述待识别邮件的垃圾邮件中间概率值。
4.如权利要求3所述的垃圾邮件识别方法,其特征在于,所述将所述特征词组合集中的各所述特征词组合并生成新的特征词组的步骤包括:
从所述特征词组合集中获取目标特征词组,其中,所述目标特征词组为垃圾邮件贡献度最高的特征词组;
将所述目标特征词组和所述目标特征词组的相邻特征词组合并生成新的特征词组,其中,所述相邻特征词组为在所述待识别邮件原文中与所述目标特征词组相邻的特征词组;
删除所述特征词组合集中参与合并的特征词组,返回至所述从所述特征词组合集中获取目标特征词组的步骤,直至所述目标特征词组无相邻特征词组;
将所述特征词组合集中剩余的特征词组作为新的特征词组。
5.如权利要求4所述的垃圾邮件识别方法,其特征在于,在所述将特征词组合集中各所述特征词组和各所述预测反馈信息分别输入至第二预训练模型得到各所述特征词组和各所述预测反馈信息的垃圾邮件贡献度的步骤之前,所述方法包括:
将标记了垃圾邮件或者非垃圾邮件的历史邮件作为训练数据对预设分类模型进行训练得到所述第二预训练模型,其中,所述训练数据还包括有所述历史邮件对应的反馈信息。
6.如权利要求5所述的垃圾邮件识别方法,其特征在于,在所述将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息的步骤之前,所述方法包括:
将所述历史邮件对应的反馈信息作为所述历史邮件的标签对预设语言模型进行训练得到所述第一预训练模型,其中,所述反馈信息包括所述历史邮件的接收人员对所述历史邮件的处理动作和/或处理内容。
7.如权利要求1所述的垃圾邮件识别方法,其特征在于,所述对待识别邮件的邮件内容进行拆分得到多个特征词组的步骤包括:
基于文本语义对所述邮件内容的文本进行拆分,得到多个表达不同语义的所述特征词组。
8.一种垃圾邮件识别装置,其特征在于,所述垃圾邮件识别装置包括:
拆分模块,用于对待识别邮件的邮件内容进拆分得到多个特征词组;
预测模块,用于将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息;
识别模块,用于基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件。
9.一种垃圾邮件识别设备,其特征在于,所述垃圾邮件识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的垃圾邮件识别程序,所述垃圾邮件识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的垃圾邮件识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有垃圾邮件识别程序,所述垃圾邮件识别程序被处理器执行时实现如权利要求1至7中任一项所述的垃圾邮件识别方法的步骤。
CN202310294582.8A 2023-03-24 2023-03-24 垃圾邮件识别方法、装置、设备及计算机可读存储介质 Active CN116016416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310294582.8A CN116016416B (zh) 2023-03-24 2023-03-24 垃圾邮件识别方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310294582.8A CN116016416B (zh) 2023-03-24 2023-03-24 垃圾邮件识别方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN116016416A true CN116016416A (zh) 2023-04-25
CN116016416B CN116016416B (zh) 2023-08-04

Family

ID=86032169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310294582.8A Active CN116016416B (zh) 2023-03-24 2023-03-24 垃圾邮件识别方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116016416B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015039478A1 (zh) * 2013-09-17 2015-03-26 中兴通讯股份有限公司 垃圾短信的识别方法及装置
CN106372237A (zh) * 2016-09-13 2017-02-01 新浪(上海)企业管理有限公司 欺诈邮件识别方法及装置
US20170193386A1 (en) * 2016-01-04 2017-07-06 Beijing Baidu Netcom Science And Technology, Ltd. Website address identification method and apparatus
CN107086952A (zh) * 2017-04-19 2017-08-22 中国石油大学(华东) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法
CN110213152A (zh) * 2018-05-02 2019-09-06 腾讯科技(深圳)有限公司 识别垃圾邮件的方法、装置、服务器及存储介质
US20190370402A1 (en) * 2018-05-31 2019-12-05 Microsoft Technology Licensing, Llc Profile spam removal in search results from social network
CN111753086A (zh) * 2020-06-11 2020-10-09 北京天空卫士网络安全技术有限公司 一种垃圾邮件识别方法和装置
WO2020233060A1 (zh) * 2019-05-21 2020-11-26 深圳壹账通智能科技有限公司 事件通知方法、事件通知服务器、存储介质及装置
CN112990852A (zh) * 2021-02-23 2021-06-18 杭州安恒信息技术股份有限公司 垃圾邮件过滤方法、装置、电子装置和存储介质
CN113592416A (zh) * 2021-02-23 2021-11-02 腾讯科技(深圳)有限公司 一种邮件识别方法、装置、设备及计算机可读存储介质
CN113630302A (zh) * 2020-05-09 2021-11-09 阿里巴巴集团控股有限公司 一种垃圾邮件识别方法及装置、计算机可读存储介质
CN115086182A (zh) * 2022-06-20 2022-09-20 深圳市恒扬数据股份有限公司 邮件识别模型的优化方法、装置、电子设备及存储介质
WO2023029354A1 (zh) * 2021-08-30 2023-03-09 平安科技(深圳)有限公司 文本信息提取方法、装置、存储介质及计算机设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015039478A1 (zh) * 2013-09-17 2015-03-26 中兴通讯股份有限公司 垃圾短信的识别方法及装置
US20170193386A1 (en) * 2016-01-04 2017-07-06 Beijing Baidu Netcom Science And Technology, Ltd. Website address identification method and apparatus
CN106372237A (zh) * 2016-09-13 2017-02-01 新浪(上海)企业管理有限公司 欺诈邮件识别方法及装置
CN107086952A (zh) * 2017-04-19 2017-08-22 中国石油大学(华东) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法
CN110213152A (zh) * 2018-05-02 2019-09-06 腾讯科技(深圳)有限公司 识别垃圾邮件的方法、装置、服务器及存储介质
US20190370402A1 (en) * 2018-05-31 2019-12-05 Microsoft Technology Licensing, Llc Profile spam removal in search results from social network
WO2020233060A1 (zh) * 2019-05-21 2020-11-26 深圳壹账通智能科技有限公司 事件通知方法、事件通知服务器、存储介质及装置
CN113630302A (zh) * 2020-05-09 2021-11-09 阿里巴巴集团控股有限公司 一种垃圾邮件识别方法及装置、计算机可读存储介质
CN111753086A (zh) * 2020-06-11 2020-10-09 北京天空卫士网络安全技术有限公司 一种垃圾邮件识别方法和装置
CN113592416A (zh) * 2021-02-23 2021-11-02 腾讯科技(深圳)有限公司 一种邮件识别方法、装置、设备及计算机可读存储介质
CN112990852A (zh) * 2021-02-23 2021-06-18 杭州安恒信息技术股份有限公司 垃圾邮件过滤方法、装置、电子装置和存储介质
WO2023029354A1 (zh) * 2021-08-30 2023-03-09 平安科技(深圳)有限公司 文本信息提取方法、装置、存储介质及计算机设备
CN115086182A (zh) * 2022-06-20 2022-09-20 深圳市恒扬数据股份有限公司 邮件识别模型的优化方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
闫斐;: "基于贝叶斯模型的邮件过滤系统", 太原师范学院学报(自然科学版), no. 02 *
黄国伟等: "基于用户反馈的混合型垃圾邮件过滤方法", 《计算机应用》, vol. 33, no. 07, pages 1861 - 1865 *

Also Published As

Publication number Publication date
CN116016416B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
US10721190B2 (en) Sequence to sequence to classification model for generating recommended messages
US10757053B2 (en) High confidence digital content treatment
EP3523710B1 (en) Apparatus and method for providing a sentence based on user input
CN110704661B (zh) 一种图像分类方法和装置
CN111177371B (zh) 一种分类方法和相关装置
CN109033156B (zh) 一种信息处理方法、装置及终端
CN108334196B (zh) 一种文件处理方法及移动终端
US11816609B2 (en) Intelligent task completion detection at a computing device
US20230186607A1 (en) Multi-task identification method, training method, electronic device, and storage medium
CN111539212A (zh) 文本信息处理方法、装置、存储介质及电子设备
CN110570840A (zh) 一种基于人工智能的智能设备唤醒方法和装置
US11010687B2 (en) Detecting abusive language using character N-gram features
CN108549681B (zh) 数据处理方法和装置、电子设备、计算机可读存储介质
CN110008926B (zh) 用于识别年龄的方法和装置
EP3835995A1 (en) Method and device for keyword extraction and storage medium
CN112995414A (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
CN116016416B (zh) 垃圾邮件识别方法、装置、设备及计算机可读存储介质
CN116912478A (zh) 目标检测模型构建、图像分类方法、电子设备
CN113409096B (zh) 目标对象识别方法、装置、计算机设备及存储介质
CN111353422B (zh) 信息提取方法、装置及电子设备
CN116453005A (zh) 一种视频封面的提取方法以及相关装置
CN113569043A (zh) 一种文本类别确定方法和相关装置
CN111723783A (zh) 一种内容识别方法和相关装置
CN112748828A (zh) 一种信息处理方法、装置、终端设备及介质
CN113704447B (zh) 一种文本信息的识别方法以及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant