CN115842677A - 一种自适应的邮件安全检测方法及装置 - Google Patents
一种自适应的邮件安全检测方法及装置 Download PDFInfo
- Publication number
- CN115842677A CN115842677A CN202211674497.6A CN202211674497A CN115842677A CN 115842677 A CN115842677 A CN 115842677A CN 202211674497 A CN202211674497 A CN 202211674497A CN 115842677 A CN115842677 A CN 115842677A
- Authority
- CN
- China
- Prior art keywords
- data
- adaptive
- security detection
- safety
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请提供一种自适应的邮件安全检测方法及装置,涉及人工智能领域,也可用于金融领域,包括:对待检测邮件进行全同态融合处理,得到对应的含标签的邮件数据;将预处理后的含标签的邮件数据输入自适应训练得到的邮件安全检测模型,得到安全检测结果;其中,所述邮件安全检测模型是利用邮件实例集与分类器以自适应的方式训练得到的;基于所述安全检测结果配置邮件服务器的网关,并根据网关配置参数对所述待检测邮件进行安全处理;所述安全处理操作包括放行与拦截。本申请能够基于全同态加密实现自适应的邮件安全检测。
Description
技术领域
本申请涉及人工智能领域,可以用于金融领域,具体是一种自适应的邮件安全检测方法及装置。
背景技术
当前,对垃圾邮件进行鉴别与过滤的需求与日俱增,但大部分邮箱服务器缺乏有效的垃圾邮件过滤机制。虽然部分邮箱服务提供商已推出了一些关于邮件安全过滤机制的方案,但这些方案主要还是通过用户自定义的方法来实现过滤。
这些方案主要包括如下:
(1)基于黑名单的过滤技术。将邮件的IP地址、域名或发件地址等存储于黑名单列表中,但黑名单列表需要通过手工或自动预先生成,数据积累速度较慢。
(2)基于规则库的过滤技术。基于规则库的过滤是指对邮件内容进行包括信头分析、群发过滤和关键词精确匹配在内的多种操作。此类方法效率较高,规则库可以商业共享,但其规则库往往需要用户手工创建与维护,投入较大,更新速度较慢。
(3)基于训练规则的过滤技术。进行模型训练的通常方法是,开放邮件数。但这种方法存在邮件数据共享不变,过滤模型不能通用,垃圾邮件识别模型不够智能以及隐私保护不够完善等诸多方面的问题。
发明内容
针对现有技术中的问题,本申请提供一种自适应的邮件安全检测方法及装置,能够基于全同态加密实现自适应的邮件安全检测。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种自适应的邮件安全检测方法,包括:
对待检测邮件进行全同态融合处理,得到对应的含标签的邮件数据;
将预处理后的含标签的邮件数据输入自适应训练得到的邮件安全检测模型,得到安全检测结果;其中,所述邮件安全检测模型是利用邮件实例集与分类器以自适应方式训练得到的;
基于所述安全检测结果配置邮件服务器的网关,并根据网关配置参数对所述待检测邮件进行安全处理;所述安全处理操作包括放行与拦截。
进一步地,所述对待检测邮件进行全同态融合处理,得到对应的含标签的邮件数据,包括:
对所述待检测邮件中的数据进行噪声控制下的全同态加密操作,得到对应的密文结果;
对所述密文结果进行全同态解密操作,得到所述含标签的邮件数据。
进一步地,对所述含标签的邮件数据进行预处理的步骤,包括:
按照预设的数据清洗策略对所述含标签的邮件数据进行数据清洗;
对数据清洗后的含标签的邮件数据进行特征提取,得到邮件数据特征向量。
进一步地,所述将预处理后的含标签的邮件数据输入自适应训练得到的邮件安全检测模型,得到安全检测结果,包括:
将所述邮件数据特征向量输入所述邮件安全检测模型进行检测,得到对应的类别概率;
根据所述类别概率确定所述安全检测结果。
进一步地,训练邮件安全检测模型的步骤,包括:
当所述邮件实例集基于所述待检测邮件执行自动更新操作,并触发启动邮件安全检测模型训练时,执行如下迭代操作:
按照预设的数据清洗策略对所述邮件实例集进行数据清洗;
将数据清洗后的邮件实例集进行随机划分,得到训练集与测试集;
对所述训练集与测试集进行特征提取,得到对应的历史数据特征向量;
将所述历史数据特征向量输入所述分类器,计算对应的历史类别概率;
根据所述邮件实例集中的数据及对应的历史类别概率构建所述邮件安全检测模型。
进一步地,所述安全检测结果为异常;基于所述安全检测结果配置邮件服务器的网关,并根据网关配置参数对所述待检测邮件进行安全处理,包括:
采集所述待检测邮件对应的标签及配置参数;其中,所述配置参数至少包括发件域名;
根据所述标签及配置参数配置所述邮件服务器的网关;
根据网关配置参数拦截所述待检测邮件。
第二方面,本申请提供一种自适应的邮件安全检测装置,包括:
标签邮件数据生成单元,用于对待检测邮件进行全同态融合处理,得到对应的含标签的邮件数据;
安全检测结果计算单元,用于将预处理后的含标签的邮件数据输入自适应训练得到的邮件安全检测模型,得到安全检测结果;其中,所述邮件安全检测模型是利用邮件实例集与分类器以自适应的方式训练得到的;
安全处理操作执行单元,用于基于所述安全检测结果配置邮件服务器的网关,并根据网关配置参数对所述待检测邮件进行安全处理;所述安全处理操作包括放行与拦截。
进一步地,所述标签邮件数据生成单元,包括:
同态加密模块,用于对所述待检测邮件中的数据进行噪声控制下的全同态加密操作,得到对应的密文结果;
同态解密模块,用于对所述密文结果进行全同态解密操作,得到所述含标签的邮件数据。
进一步地,所述的自适应的邮件安全检测装置,还包括:
数据清洗单元,用于按照预设的数据清洗策略对所述含标签的邮件数据进行数据清洗;
特征向量生成单元,用于对数据清洗后的含标签的邮件数据进行特征提取,得到邮件数据特征向量。
进一步地,所述安全检测结果计算单元,包括:
类别概率计算模块,用于将所述邮件数据特征向量输入所述邮件安全检测模型进行检测,得到对应的类别概率;
检测结果确定模块,用于根据所述类别概率确定所述安全检测结果。
进一步地,所述的自适应的邮件安全检测装置,还包括:
迭代训练执行单元,用于当所述邮件实例集基于所述待检测邮件执行自动更新操作,并触发启动邮件安全检测模型训练时,执行如下迭代操作:按照预设的数据清洗策略对所述邮件实例集进行数据清洗;将数据清洗后的邮件实例集进行随机划分,得到训练集与测试集;对所述训练集与测试集进行特征提取,得到对应的历史数据特征向量;将所述历史数据特征向量输入所述分类器,计算对应的历史类别概率;根据所述邮件实例集中的数据及对应的历史类别概率构建所述邮件安全检测模型。
进一步地,所述安全检测结果为异常;所述安全处理操作执行单元,包括:
标签配置采集模块,用于采集所述待检测邮件对应的标签及配置参数;其中,所述配置参数至少包括发件域名;
网关配置模块,用于根据所述标签及配置参数配置所述邮件服务器的网关;
邮件拦截模块,用于根据网关配置参数拦截所述待检测邮件。
第三方面,本申请提供一种电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述自适应的邮件安全检测方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述自适应的邮件安全检测方法的步骤。
第五方面,本申请提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现所述自适应的邮件安全检测方法的步骤。
针对现有技术中的问题,本申请提供的自适应的邮件安全检测方法及装置,能够在保护数据隐私安全,防止敏感信息泄露的前提下,充分利用海量数据,挖掘垃圾邮件数据特征,支持手工、定期、自动触发数据集迭代与模型训练,达到主动学习,高效防御的目的,从而提高邮件服务器对于垃圾邮件鉴别能力与过滤能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中自适应的邮件安全检测方法的流程图;
图2为本申请实施例中得到对应的含标签的邮件数据的流程图;
图3为本申请实施例中对含标签的邮件数据进行预处理的流程图;
图4为本申请实施例中得到安全检测结果的流程图;
图5为本申请实施例中训练邮件安全检测模型的流程图;
图6为本申请实施例中对待检测邮件进行安全处理的流程图;
图7为本申请实施例中自适应的邮件安全检测装置的结构图之一;
图8为本申请实施例中标签邮件数据生成单元的结构图;
图9为本申请实施例中自适应的邮件安全检测装置的结构图之二;
图10为本申请实施例中安全检测结果计算单元的结构图;
图11为本申请实施例中安全处理操作执行单元的结构图;
图12为本申请实施例中的电子设备的结构示意图;
图13为本申请实施例中基于全同态加密的自适应邮件安全系统及方法流程图;
图14为本申请实施例中数据采集架构图;
图15为本申请实施例中基于FHEW全同态加密方案流程图;
图16为本申请实施例中朴素贝叶斯分类模型的训练步骤示意图;
图17为本申请实施例中智能邮件网关过滤模块流程图;
图18为本申请实施例中自适应动态反馈迭代流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请提供的自适应的邮件安全检测方法及装置,可用于金融领域,也可用于除金融领域之外的任意领域,本申请提供的自适应的邮件安全检测方法及装置的应用领域不做限定。
本申请技术方案中对数据的获取、存储、使用及处理等均符合国家法律法规的相关规定。
在现有的邮件检测与过滤技术中,往往因为以下原因造成检测与过滤不佳。
第一,邮件数据不可共享,过滤模型不通用。由于邮件内容无法保证绝对的正确分类,垃圾邮件本身也属于用户隐私,同业之间难以实现共享,各机构之间的垃圾邮件的训练数据是独立的,训练出的模型,其通用性及准确度均难以保障。
第二,垃圾邮件识别模型不够智能。目前,在一些基于规则的邮件安全过滤方法中,没有说明如何更新模型,也就是不能自主、自适应地或者定期自动地按照实时的垃圾邮件数据库进行训练。
第三,隐私计算算法安全性不够。目前为了保护数据隐私而采用的隐私计算算法,安全性不足。
一实施例中,参见图1,为了能够基于全同态加密实现自适应的邮件安全检测,本申请提供一种自适应的邮件安全检测方法,包括:
S101:对待检测邮件进行全同态融合处理,得到对应的含标签的邮件数据。
S102:将预处理后的含标签的邮件数据输入自适应训练得到的邮件安全检测模型,得到安全检测结果;其中,所述邮件安全检测模型是利用邮件实例集与分类器以自适应方式训练得到的;
S103:基于所述安全检测结果配置邮件服务器的网关,并根据网关配置参数对所述待检测邮件进行安全处理;所述安全处理包括放行与拦截。
针对现有技术的缺陷,本发明旨在构建一个自适应的,也就是能够自动进行迭代训练的邮件安全检测方法,以此利用网关实现持续不断的智能垃圾邮件拦截。
具体地,参见图13所示,本发明提供了一种基于全同态加密的自适应邮件安全系统及方法,包括垃圾邮件数据采集器1、基于FHEW(bootstrapping homomorphicencryption in less than a second)的全同态加密融合组件2、机器学习训练发布组件3、智能邮件网关过滤组件4及自适应动态反馈迭代组件5等。
其通过各邮箱服务商将垃圾邮件数据进行收集整合,并基于全同态加密融合组件进行融合迭代,训练机器学习模型。该方法无需将邮件数据解密给用数方(包括模型训练方),达到数据共享并进行隐私计算的目的。通过机器学习组件训练垃圾邮件识别分类模型,并基于此模型过滤垃圾邮件。此外,自动迭代更新数据集,并通过手工触发、自动触发、定期触发等多种触发方法,触发模型迭代训练与发布,动态持续维护用户邮箱安全防御体系。
本申请提供的自适应的邮件安全检测方法及装置,能够在保护数据隐私安全,防止敏感信息泄露的前提下,充分利用海量数据,挖掘垃圾邮件数据特征,支持手工、定期、自动触发数据集迭代与模型训练,达到主动学习,高效防御的目的,从而提高邮件服务器对于垃圾邮件鉴别能力与过滤能力。
下面对步骤S101至步骤S103分别进行详细说明。
步骤S101:对待检测邮件进行全同态融合处理,得到对应的含标签的邮件数据。
该步骤的执行目的主要在于对邮件数据进行处理的同时保护数据隐私。具体是将待检测邮件中的邮件主题及正文等内容进行全同态融合处理。所谓全同态融合处理既包括了全同态加密处理,又包括了全同态解密处理。最终得到的含标签的邮件数据能够实现可用而不可见。
图2为本申请实施例实现自适应的邮件安全检测方法的一具体实施例。
进一步地,参见图2,所述对待检测邮件进行全同态融合处理,得到对应的含标签的邮件数据,包括:
对所述待检测邮件中的数据进行噪声控制下的全同态加密操作,得到对应的密文结果(S201);对所述密文结果进行全同态解密操作,得到所述含标签的邮件数据(S202)。
具体实施时,首先对邮件数据进行采集,对待检测邮件的邮件数据进行采集的方法与对用于训练的垃圾邮件的邮件数据进行采集的方法相同,仅是采集对象不同。需要说明的是,在进行全同态融合处理的过程中,经过全同态加密(利用私钥)后得到的加密数据(也称密文结果),在使用时需要通过公钥进行全同态解密后才能得到。即便数据提供方与数据使用方属于同一集体/主体,为了保护数据安全,也可以使用全同态融合处理方法处理待处理的数据。考虑到步骤S201中的待检测邮件中的数据已经包含有标签,因此,在步骤S202中,经过全同态解密操作后,可以得到含标签的邮件数据。
参见图14,其为采集用于训练的垃圾邮件的邮件数据的过程:各邮箱服务机构的邮箱用户或管理用户可以删除/举报垃圾邮件,在达到预设的上报阈值后,服务器则自动将对应的邮件置为垃圾邮件,列入邮件过滤列表中,接下来在审核验证为垃圾邮件后,该垃圾邮件会自动加入待训练数据集中,并主动召回所有已投递邮件,避免进一步暴露给其他用户。用户提交反馈的结果进入数据集等待标记分类,按照来源、ip、发件人、url、正文、标题、附件等标记分类标签,记录在各邮件服务器中。这些标签可以通过网页直接获取,也可以是预先进行标注获得。
通过数据采集组件后,各邮件服务商的数据分布储存在各服务器中,需要在数据融合前进行全同态加密操作。
本发明的FHEW全同态加密方案流程参见图15所示。
在上述步骤中,本发明算法过程涉及的一些定义和详细逻辑如下所述:
α表示一个标量或者多项式;
Rq表示一个模q和模Xn+1多项式;
||a||∞表示向量或多项式的无穷范数,即α中最大项;
σ表示一个随机分布(具体为高斯分布)。
定义加密多项式环形式如下:
其中,私钥加密流程Enc包括:
公开参数:多项式环Rq,包含模数q,多项式的阶n,高斯分布σ
输入:私钥s,明文m
输出:密文ct=(c0,c1)
过程:
其中,公钥加密流程Dec包括:
输入:公钥pk=Encsk(0)=(a,as+te),明文数据m
输出:密文ct=(c0,c1)
过程:
其中,解密流程包括:
本发明中设置的通用初始解密公式为c1-c0smodq
即c1-c0s≡Δm+emodq(私钥)或者c1-c0s≡Δm+vmodq(公钥)。
要求||Δm+e||∞<q才是正确的解密,这里的||Δm||∞叫做噪声项。
采用中性取模,即在[0,q/2)表示正数,[q/2,q)表示负数的情况下,额外要求:
||Δm+e||∞<q/2
其中,噪声控制流程包括:
本发明在加密过程中加入噪声控制。如果不进行噪声控制,那么每次乘法之后噪声都会变成原来的平方,很容易大小就比q大,导致解密失败。
本发明使用模数替换Modulus Switching用来缩小模数q,取一个接近q/Δ=p的数p,然后将整个密文ctmodq变为p/q·ctmodq。
模数替换在减少噪声和模数的同时会引入额外的噪声EMS,这里EMS的噪声大小与初始噪声大小e0的大小相近。
从上述描述可知,本申请提供的自适应的邮件安全检测方法,能够对待检测邮件进行全同态融合处理,得到对应的含标签的邮件数据。
步骤S102:将预处理后的含标签的邮件数据输入自适应训练得到的邮件安全检测模型,得到安全检测结果;其中,所述邮件安全检测模型是利用邮件实例集与分类器以自适应方式训练得到的。
本步骤中,要对上一步骤中含标签的邮件数据进行预处理,得到对应的能输入检测模型的特征向量,然后将特征向量输入检测模型,就能够得到安全检测结果。其中,安全检测结果包括正常与异常。邮件实例集中包含有历史邮件数据。
图3为本申请实施例实现自适应的邮件安全检测方法的一具体实施例。
进一步地,参见图3,对所述含标签的邮件数据进行预处理的步骤,包括:按照预设的数据清洗策略对所述含标签的邮件数据进行数据清洗(S301);对数据清洗后的含标签的邮件数据进行特征提取,得到邮件数据特征向量(S302)。其中,举例而言,邮件数据特征向量可以用独热编码(One-of-K or One-Hot-Encording)的形式表示,通过二进制数表示每个解释变量的特征,例如[0,1,0,1,1,1]。在本申请实施例中,邮件标题、正文、签名、发件人、收件人、抄送人、附件、图片、发件IP等均会被作为初始变量集,经过特征提取后,形成邮件数据特征向量。
其中,清洗策略包括但不限于:设置空邮件清洗规则及内网邮件清洗规则。因为这些邮件不需要进行建模训练,因此可以过滤掉。过滤的方法包括但不限于:根据预设的规则进行全同态融合处理(包括加密过程与解密过程)后,进行密文对比,从而进行数据清洗。
图4为本申请实施例实现自适应的邮件安全检测方法的一具体实施例。
进一步地,参见图4,所述将预处理后的含标签的邮件数据输入自适应训练得到的邮件安全检测模型,得到安全检测结果,包括:将所述邮件数据特征向量输入所述邮件安全检测模型进行检测,得到对应的类别概率(S401);根据所述类别概率确定所述安全检测结果(S402)。
图5为本申请实施例实现自适应的邮件安全检测方法的一具体实施例。
可以理解的是,一实施例中,参见图5,训练邮件安全检测模型的步骤,包括:
S501:当所述邮件实例集基于所述待检测邮件执行自动更新操作,并触发启动邮件安全检测模型训练时,执行如下迭代操作:
S502:按照预设的数据清洗策略对所述邮件实例集进行数据清洗;
将数据清洗后的邮件实例集进行随机划分,得到训练集与测试集;
对所述训练集与测试集进行特征提取,得到对应的历史数据特征向量;
将所述历史数据特征向量输入所述分类器,计算对应的历史类别概率;
根据所述邮件实例集中的数据及对应的历史类别概率构建所述邮件安全检测模型。
具体地,朴素贝叶斯有一个特点是增量式学习,先验知识可以与观察到的实例一起决定假设的最终概率。本发明将全同态加密后的邮件数据集映射到待分类项集合中,用已知的垃圾邮件实例集构建分类器,统计得到在各类别下各个特征属性的条件概率估计,然后用构建好的分类器分类未知实例。
本发明中朴素贝叶斯分类模型的处理流程参见图16所示。
在该流程中,本发明算法过程涉及的一些详细逻辑如下:
在本发明中的朴素贝叶斯分类中,对于特征向量X和类别C,利用贝叶斯定理和条件独立性的假设,根据全概率公示展开,每个C=ck的条件概率为:
接下来使用训练数据集,估计出所有的p(X|C=ck)以及p(Xi=xi|C=ck)。
对于新的待分类样本,使得它的特征向量取值对每个ck求出:
并比较这些值的大小,找出其中最大的概率对应的类别:
由此,就可以确定该样本的类别。对于每个样本都进行相应的分类,这样对每个样本都有最大概率判断其类别。
上述算法详细步骤如下:
Step1:找出样本中出现的所有特征属性featList,并计算每种类别的概率Pi
Step2:把样本的特征向量转化为以featList相同长度的只包含0、1的向量,其中1代表该样本中出现了featList中的该属性,0代表没有出现。
Step3:计算每种类别的样本中每个特征出现的概率。
Step4:根据每个样本中的特征属性出现的情况计算其为每种类别的概率并选出其中最大的作为该样本的特征。
Step5:对数据集中的所有样本进行分类,计算预测的准确率。训练过程就是基于训练值D来估计先验概率P(c),并为每个属性条件估计条件概率。
如进行模型训练时一样,在计算待检测邮件的安全检测结果时,也需要先计算其对应的类别概率;然后根据类别概率确定安全检测结果。
参见图18,由于模型训练的结果并不是最终的稳态,本发明提出了一种自适应的反馈迭代训练机制,在该模块中根据增量数据集情况,自动迭代发布存量数据集进行模型训练,并自动发布和上线模型,以此提高对垃圾邮件的自适应过滤能力。首先将各邮件服务器内新添加到垃圾邮件分类的数据进行全同态加密融合,然后将已发布训练的数据进行回退,回退可以重新基于原有数据进行迭代,最后迭代的数据集发布后,将重新出发模型自动训练、发布和上线。此外,用户手工删除上报的垃圾邮件,达到服务器指定阈值后,完成对该垃圾邮件的召回,并自动将垃圾邮件加入到未标注数据集中。
模型的重训练基于数据集的迭代发布,数据集迭代包括了以下触发方式:
自动触发:根据数据集中未标注数据设定阈值自动触发;
定期触发:定期迭代所有数据集中所有未标注数据,并触发训练;
手工触发:由模型管理员手工发起模型训练。
步骤S103:基于所述安全检测结果配置邮件服务器的网关,并根据网关配置参数对所述待检测邮件进行安全处理;所述安全处理操作包括放行与拦截。
在本步骤中,配置邮件服务器网关的目的在于对异常邮件进行拦截。当发现安全检测结果为异常时,可以采集待检测邮件对应的标签及配置参数,并据此配置邮件服务器网关,实现邮件拦截。
一实施例中,若安全检测结果为正常,说明该待检测邮件不是垃圾邮件,因此网关可以执行放行操作。
图6为本申请实施例实现自适应的邮件安全检测方法的一具体实施例。
一实施例中,参见图6,所述安全检测结果为异常;基于所述安全检测结果配置邮件服务器的网关,并根据网关配置参数对所述待检测邮件进行安全处理,包括:采集所述待检测邮件对应的标签及配置参数(S601);其中,所述配置参数至少包括发件域名;根据所述标签及配置参数配置所述邮件服务器的网关(S602);根据网关配置参数拦截所述待检测邮件(S603)。
具体地,参见图17,本发明采用多过滤器作为邮件网关过滤模块,根据邮件来源、IP、url、正文、主题、附件等构建智能过滤器,智能过滤器包括对所有分类标签的垃圾邮件过滤,过滤具体对应机器学习训练的模型接口,由DDS提供数据分发服务。其中,IP过滤类似防火墙过滤,策略过滤模块包括对DNS检索、域名规范、攻击检测、关键字过滤、自定义规则等过滤方法,智能过滤模块采用多过滤器设置,每个过滤器专门负责一种类型垃圾邮件的过滤工作。
从上述描述可知,本申请提供的自适应的邮件安全检测方法及装置,能够在保护数据隐私安全,防止敏感信息泄露的前提下,充分利用海量数据,挖掘垃圾邮件数据特征,支持手工、定期、自动触发数据集迭代与模型训练,达到主动学习,高效防御的目的,从而提高邮件服务器对于垃圾邮件鉴别能力与过滤能力。
基于同一发明构思,本申请实施例还提供了一种自适应的邮件安全检测装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于自适应的邮件安全检测装置解决问题的原理与自适应的邮件安全检测方法相似,因此自适应的邮件安全检测装置的实施可以参见基于软件性能基准确定方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
一实施例中,参见图7,为了能够基于全同态加密实现自适应的邮件安全检测,本申请提供一种自适应的邮件安全检测装置,包括:标签邮件数据生成单元701、安全检测结果计算单元702及安全处理操作执行单元703。
标签邮件数据生成单元701,用于对待检测邮件进行全同态融合处理,得到对应的含标签的邮件数据;
安全检测结果计算单元702,用于将预处理后的含标签的邮件数据输入自适应训练得到的邮件安全检测模型,得到安全检测结果;其中,所述邮件安全检测模型是利用邮件实例集与分类器以自适应的方式训练得到的;
安全处理操作执行单元703,用于基于所述安全检测结果配置邮件服务器的网关,并根据网关配置参数对所述待检测邮件进行安全处理;所述安全处理操作包括放行与拦截。
一实施例中,参见图8,所述标签邮件数据生成单元701,包括:同态加密模块801及同态解密模块802。
同态加密模块801,用于对所述待检测邮件中的数据进行噪声控制下的全同态加密操作,得到对应的密文结果;
同态解密模块802,用于对所述密文结果进行全同态解密操作,得到所述含标签的邮件数据。
一实施例中,参见图9,所述的自适应的邮件安全检测装置,还包括:数据清洗单元901及特征向量生成单元902。
数据清洗单元901,用于按照预设的数据清洗策略对所述含标签的邮件数据进行数据清洗;
特征向量生成单元902,用于对数据清洗后的含标签的邮件数据进行特征提取,得到邮件数据特征向量。
一实施例中,参见图10,所述安全检测结果计算单元702,包括:类别概率计算模块1001及检测结果确定模块1002。
类别概率计算模块1001,用于将所述邮件数据特征向量输入所述邮件安全检测模型进行检测,得到对应的类别概率;
检测结果确定模块1002,用于根据所述类别概率确定所述安全检测结果。
一实施例中,所述的自适应的邮件安全检测装置,还包括:
迭代训练执行单元,用于当所述邮件实例集基于所述待检测邮件执行自动更新操作,并触发启动邮件安全检测模型训练时,执行如下迭代操作:按照预设的数据清洗策略对所述邮件实例集进行数据清洗;将数据清洗后的邮件实例集进行随机划分,得到训练集与测试集;对所述训练集与测试集进行特征提取,得到对应的历史数据特征向量;将所述历史数据特征向量输入所述分类器,计算对应的历史类别概率;根据所述邮件实例集中的数据及对应的历史类别概率构建所述邮件安全检测模型。
一实施例中,参见图11,所述安全检测结果为异常;所述安全处理操作执行单元,包括:标签配置采集模块1101、网关配置模块1102及邮件拦截模块1103。
标签配置采集模块1101,用于采集所述待检测邮件对应的标签及配置参数;其中,所述配置参数至少包括发件域名;
网关配置模块1102,用于根据所述标签及配置参数配置所述邮件服务器的网关;
邮件拦截模块1103,用于根据网关配置参数拦截所述待检测邮件。
从硬件层面来说,为了能够基于全同态加密实现自适应的邮件安全检测,本申请提供一种用于实现所述自适应的邮件安全检测方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(Processor)、存储器(Memory)、通讯接口(Communications Interface)和总线;其中,所述处理器、存储器、通讯接口通过所述总线完成相互间的通讯;所述通讯接口用于实现所述自适应的邮件安全检测装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的自适应的邮件安全检测方法的实施例,以及自适应的邮件安全检测装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,自适应的邮件安全检测方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通讯模块(即通讯单元),可以与远程的服务器进行通讯连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通讯链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图12为本申请实施例的电子设备9600的系统构成的示意框图。如图12所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图12是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,自适应的邮件安全检测方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
S101:对待检测邮件进行全同态融合处理,得到对应的含标签的邮件数据;
S102:将预处理后的含标签的邮件数据输入自适应训练得到的邮件安全检测模型,得到安全检测结果;其中,所述邮件安全检测模型是利用邮件实例集与分类器以自适应方式训练得到的;
S103:基于所述安全检测结果配置邮件服务器的网关,并根据网关配置参数对所述待检测邮件进行安全处理;所述安全处理操作包括放行与拦截。
从上述描述可知,本申请提供的自适应的邮件安全检测方法及装置,能够在保护数据隐私安全,防止敏感信息泄露的前提下,充分利用海量数据,挖掘垃圾邮件数据特征,支持手工、定期、自动触发数据集迭代与模型训练,达到主动学习,高效防御的目的,从而提高邮件服务器对于垃圾邮件鉴别能力与过滤能力。
在另一个实施方式中,自适应的邮件安全检测装置可以与中央处理器9100分开配置,例如可以将数据复合传输装置自适应的邮件安全检测装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现自适应的邮件安全检测方法的功能。
如图12所示,该电子设备9600还可以包括:通讯模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图12中所示的所有部件;此外,电子设备9600还可以包括图12中没有示出的部件,可以参考现有技术。
如图12所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通讯功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通讯模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通讯模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通讯终端的情况相同。
基于不同的通讯技术,在同一电子设备中,可以设置有多个通讯模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通讯模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的自适应的邮件安全检测方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的自适应的邮件安全检测方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
S101:对待检测邮件进行全同态融合处理,得到对应的含标签的邮件数据;
S102:将预处理后的含标签的邮件数据输入自适应训练得到的邮件安全检测模型,得到安全检测结果;其中,所述邮件安全检测模型是利用邮件实例集与分类器以自适应方式训练得到的;
S103:基于所述安全检测结果配置邮件服务器的网关,并根据网关配置参数对所述待检测邮件进行安全处理;所述安全处理操作包括放行与拦截。
从上述描述可知,本申请提供的自适应的邮件安全检测方法及装置,能够在保护数据隐私安全,防止敏感信息泄露的前提下,充分利用海量数据,挖掘垃圾邮件数据特征,支持手工、定期、自动触发数据集迭代与模型训练,达到主动学习,高效防御的目的,从而提高邮件服务器对于垃圾邮件鉴别能力与过滤能力。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种自适应的邮件安全检测方法,其特征在于,包括:
对待检测邮件进行全同态融合处理,得到对应的含标签的邮件数据;
将预处理后的含标签的邮件数据输入自适应训练得到的邮件安全检测模型,得到安全检测结果;其中,所述邮件安全检测模型是利用邮件实例集与分类器以自适应方式训练得到的;
基于所述安全检测结果配置邮件服务器的网关,并根据网关配置参数对所述待检测邮件进行安全处理;所述安全处理包括放行与拦截。
2.根据权利要求1所述的自适应的邮件安全检测方法,其特征在于,所述对待检测邮件进行全同态融合处理,得到对应的含标签的邮件数据,包括:
对所述待检测邮件中的数据进行噪声控制下的全同态加密操作,得到对应的密文结果;
对所述密文结果进行全同态解密操作,得到所述含标签的邮件数据。
3.根据权利要求1所述的自适应的邮件安全检测方法,其特征在于,对所述含标签的邮件数据进行预处理的步骤,包括:
按照预设的数据清洗策略对所述含标签的邮件数据进行数据清洗;
对数据清洗后的含标签的邮件数据进行特征提取,得到邮件数据特征向量。
4.根据权利要求3所述的自适应的邮件安全检测方法,其特征在于,所述将预处理后的含标签的邮件数据输入自适应训练得到的邮件安全检测模型,得到安全检测结果,包括:
将所述邮件数据特征向量输入所述邮件安全检测模型进行检测,得到对应的类别概率;
根据所述类别概率确定所述安全检测结果。
5.根据权利要求1所述的自适应的邮件安全检测方法,其特征在于,训练邮件安全检测模型的步骤,包括:
当所述邮件实例集基于所述待检测邮件执行自动更新操作,并触发启动邮件安全检测模型训练时,执行如下迭代操作:
按照预设的数据清洗策略对所述邮件实例集进行数据清洗;
将数据清洗后的邮件实例集进行随机划分,得到训练集与测试集;
对所述训练集与测试集进行特征提取,得到对应的历史数据特征向量;
将所述历史数据特征向量输入所述分类器,计算对应的历史类别概率;
根据所述邮件实例集中的数据及对应的历史类别概率构建所述邮件安全检测模型。
6.根据权利要求1所述的自适应的邮件安全检测方法,其特征在于,所述安全检测结果为异常;基于所述安全检测结果配置邮件服务器的网关,并根据网关配置参数对所述待检测邮件进行安全处理,包括:
采集所述待检测邮件对应的标签及配置参数;其中,所述配置参数至少包括发件域名;
根据所述标签及配置参数配置所述邮件服务器的网关;
根据网关配置参数拦截所述待检测邮件。
7.一种自适应的邮件安全检测装置,其特征在于,包括:
标签邮件数据生成单元,用于对待检测邮件进行全同态融合处理,得到对应的含标签的邮件数据;
安全检测结果计算单元,用于将预处理后的含标签的邮件数据输入自适应训练得到的邮件安全检测模型,得到安全检测结果;其中,所述邮件安全检测模型是利用邮件实例集与分类器以自适应的方式训练得到的;
安全处理操作执行单元,用于基于所述安全检测结果配置邮件服务器的网关,并根据网关配置参数对所述待检测邮件进行安全处理;所述安全处理操作包括放行与拦截。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述的自适应的邮件安全检测方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6任一项所述的自适应的邮件安全检测方法的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任一项所述的自适应的邮件安全检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211674497.6A CN115842677A (zh) | 2022-12-26 | 2022-12-26 | 一种自适应的邮件安全检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211674497.6A CN115842677A (zh) | 2022-12-26 | 2022-12-26 | 一种自适应的邮件安全检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115842677A true CN115842677A (zh) | 2023-03-24 |
Family
ID=85579235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211674497.6A Pending CN115842677A (zh) | 2022-12-26 | 2022-12-26 | 一种自适应的邮件安全检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115842677A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117014228A (zh) * | 2023-09-27 | 2023-11-07 | 太平金融科技服务(上海)有限公司 | 一种邮件内容检测结果的确定方法、装置、设备及介质 |
-
2022
- 2022-12-26 CN CN202211674497.6A patent/CN115842677A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117014228A (zh) * | 2023-09-27 | 2023-11-07 | 太平金融科技服务(上海)有限公司 | 一种邮件内容检测结果的确定方法、装置、设备及介质 |
CN117014228B (zh) * | 2023-09-27 | 2024-01-23 | 太平金融科技服务(上海)有限公司 | 一种邮件内容检测结果的确定方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11516248B2 (en) | Security system for detection and mitigation of malicious communications | |
US9906554B2 (en) | Suspicious message processing and incident response | |
US8364766B2 (en) | Spam filtering based on statistics and token frequency modeling | |
Chen et al. | TruSMS: A trustworthy SMS spam control system based on trust management | |
US20130018965A1 (en) | Reputational and behavioral spam mitigation | |
US11765192B2 (en) | System and method for providing cyber security | |
KR20190117526A (ko) | 손상된 범위 식별을 위한 다중-신호 분석 | |
US11539726B2 (en) | System and method for generating heuristic rules for identifying spam emails based on fields in headers of emails | |
US20100211645A1 (en) | Identification of a trusted message sender with traceable receipts | |
US8650245B1 (en) | Systems and methods for providing adaptive views of domain name system reputation data | |
WO2012005803A1 (en) | Monitoring communications | |
CN114761953A (zh) | 用于对抗网络攻击的攻击活动智能和可视化 | |
CN104640092A (zh) | 识别垃圾短信的方法、客户端、云端服务器和系统 | |
JP2023515910A (ja) | 電子メール分類のために人間関係構造を使用するシステムおよび方法 | |
Costantino et al. | Privacy-preserving text mining as a service | |
US11909745B2 (en) | Systems and methods for establishing sender-level trust in communications using sender-recipient pair data | |
US7565445B2 (en) | Systems and methods for categorizing network traffic content | |
US20230039382A1 (en) | Adaptive detection of security threats through retraining of computer-implemented models | |
EP3699796B1 (en) | Message report processing and threat prioritization | |
Taufiq Nuruzzaman et al. | Simple SMS spam filtering on independent mobile phone | |
CN115842677A (zh) | 一种自适应的邮件安全检测方法及装置 | |
Gupta | Spam mail filtering using data mining approach: A comparative performance analysis | |
Lv et al. | Spam filter based on naive Bayesian classifier | |
Vijayasekaran et al. | Spam and email detection in big data platform using naives bayesian classifier | |
US20060031507A1 (en) | User oriented penalty count random rejection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |