CN115766293A - 一种风险文件检测方法、装置、电子设备及存储介质 - Google Patents
一种风险文件检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115766293A CN115766293A CN202310006967.XA CN202310006967A CN115766293A CN 115766293 A CN115766293 A CN 115766293A CN 202310006967 A CN202310006967 A CN 202310006967A CN 115766293 A CN115766293 A CN 115766293A
- Authority
- CN
- China
- Prior art keywords
- detection
- risk
- file
- target
- engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 474
- 230000002159 abnormal effect Effects 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000002776 aggregation Effects 0.000 claims description 46
- 238000004220 aggregation Methods 0.000 claims description 46
- 238000012549 training Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 10
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 230000002547 anomalous effect Effects 0.000 claims description 5
- 230000010354 integration Effects 0.000 abstract description 16
- 238000011895 specific detection Methods 0.000 abstract description 8
- 238000000605 extraction Methods 0.000 abstract description 7
- 230000007547 defect Effects 0.000 abstract description 6
- 230000000875 corresponding effect Effects 0.000 description 69
- 241000700605 Viruses Species 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本公开提供了一种风险文件检测方法、装置、电子设备及存储介质,其中,该方法通过多个目标检测引擎对目标文件进行风险检测,再对目标文件及风险检测报告进行特征提取,再利用提取到的各个目标检测引擎分别对应的多个异常维度下的风险信息以及文件属性信息,确定目标文件的风险检测结果,实现对多个目标检测引擎的风险检测报告的整合,使得最终得到的风险检测结果结合多个检测引擎,避免因特定检测引擎自身缺陷,导致对目标文件的风险误判,从而提高风险检测的精确度。
Description
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种风险文件检测方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的发展,出现各式各样的木马、病毒,这些木马、病毒会隐藏在普通文件之中,对网络安全造成巨大的威胁,因此,风险文件的检测对于安全研究人员来说也是一直以来的研究课题。
通常,可以使用特定的检测引擎对文件进行风险检测,然而,检测引擎在设计时可能存在盲区或缺陷,因此,利用特定的检测引擎进行风险检测有可能存在风险检测结果疏漏或不准确的情况。
发明内容
本公开实施例至少提供一种风险文件检测方法、装置、电子设备及存储。
第一方面,本公开实施例提供了一种风险文件检测方法,包括:
响应于接收到待检测的目标文件,调用多个目标检测引擎对所述目标文件进行风险检测,得到各个所述目标检测引擎针对所述目标文件的风险检测报告;
针对各个所述目标检测引擎对应的所述风险检测报告,确定所述风险检测报告在多个异常维度下的风险信息;以及,确定所述目标文件的文件属性信息;
基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息,以及所述文件属性信息,确定所述目标文件的风险检测结果。
一种可选的实施方式中,所述多个异常维度至少包括指示所述目标文件是否异常的维度,以及指示所述目标文件的异常类型的维度;所述文件属性信息至少包括文件类型。
一种可选的实施方式中,所述基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息,以及所述文件属性信息,确定所述目标文件的风险检测结果,包括:
基于所述文件属性信息中指示的所述目标文件的文件类型,获取各个所述目标检测引擎在所述文件类型下的检测准确率;
基于各个所述目标检测引擎对应的所述检测准确率,确定各个所述目标检测引擎对应的权重;
基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息、所述文件属性信息、以及各个所述目标检测引擎对应的权重,确定所述目标文件的风险检测结果。
一种可选的实施方式中,所述基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息、所述文件属性信息、以及各个所述目标检测引擎对应的权重,确定所述目标文件的风险检测结果,包括:
将各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息、所述文件属性信息、以及各个所述目标检测引擎对应的权重输入至训练的多引擎聚合模型,得到所述目标文件的风险检测结果;所述多引擎聚合模型用于将所述文件属性信息和各个所述目标检测引擎对应的权重作为聚合影响因素,对多个所述目标检测引擎的风险检测报告进行聚合。
一种可选的实施方式中,通过以下步骤训练所述多引擎聚合模型:
针对获取的多个第一样本文件,分别对每个所述第一样本文件通过所述多个目标检测引擎进行风险检测,得到第一风险检测报告样本;
基于所述第一风险检测报告样本、以及所述第一风险检测报告样本对应的真值标签,对所述多引擎聚合模型进行训练。
一种可选的实施方式中,在调用多个目标检测引擎对所述目标文件进行风险检测之前,所述方法还包括:
获取多个第二样本文件中每个第二样本文件分别通过多个待筛选检测引擎进行风险检测后得到的第二风险检测报告样本;
基于所述第二风险检测报告样本以及所述第二风险检测报告样本对应的真值标签,确定各个所述待筛选检测引擎的检测准确率;并基于所述第二风险检测报告样本,确定各个所述待筛选检测引擎之间的相似度;
基于各个所述待筛选检测引擎的所述检测准确率,以及各个所述待筛选检测引擎之间的相似度,对所述待筛选检测引擎进行筛选,得到多个所述目标检测引擎。
一种可选的实施方式中,所述第二样本文件为去除证书和/或签名的样本文件。
第二方面,本公开实施例还提供一种风险文件检测装置,包括:
检测模块,用于响应于接收到待检测的目标文件,调用多个目标检测引擎对所述目标文件进行风险检测,得到各个所述目标检测引擎针对所述目标文件的风险检测报告;
确定模块,用于针对各个所述目标检测引擎对应的所述风险检测报告,确定所述风险检测报告在多个异常维度下的风险信息;以及,确定所述目标文件的文件属性信息;
聚合模块,用于基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息,以及所述文件属性信息,确定所述目标文件的风险检测结果。
一种可选的实施方式中,所述多个异常维度至少包括指示所述目标文件是否异常的维度,以及指示所述目标文件的异常类型的维度;所述文件属性信息至少包括文件类型。
一种可选的实施方式中,所述聚合模块具体用于:
基于所述文件属性信息中指示的所述目标文件的文件类型,获取各个所述目标检测引擎在所述文件类型下的检测准确率;
基于各个所述目标检测引擎对应的所述检测准确率,确定各个所述目标检测引擎对应的权重;
基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息、所述文件属性信息、以及各个所述目标检测引擎对应的权重,确定所述目标文件的风险检测结果。
一种可选的实施方式中,所述聚合模块具体用于:
将各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息、所述文件属性信息、以及各个所述目标检测引擎对应的权重输入至训练的多引擎聚合模型,得到所述目标文件的风险检测结果;所述多引擎聚合模型用于将所述文件属性信息和各个所述目标检测引擎对应的权重作为聚合影响因素,对多个所述目标检测引擎的风险检测报告进行聚合。
一种可选的实施方式中,所述装置还包括训练模块,用于:
针对获取的多个第一样本文件,分别对每个所述第一样本文件通过所述多个目标检测引擎进行风险检测,得到第一风险检测报告样本;
基于所述第一风险检测报告样本、以及所述第一风险检测报告样本对应的真值标签,对所述多引擎聚合模型进行训练。
一种可选的实施方式中,在调用多个目标检测引擎对所述目标文件进行风险检测之前,所述训练模块还用于:
获取多个第二样本文件中每个第二样本文件分别通过多个待筛选检测引擎进行风险检测后得到的第二风险检测报告样本;
基于所述第二风险检测报告样本以及所述第二风险检测报告样本对应的真值标签,确定各个所述待筛选检测引擎的检测准确率;并基于所述第二风险检测报告样本,确定各个所述待筛选检测引擎之间的相似度;
基于各个所述待筛选检测引擎的所述检测准确率,以及各个所述待筛选检测引擎之间的相似度,对所述待筛选检测引擎进行筛选,得到多个所述目标检测引擎。
一种可选的实施方式中,所述第二样本文件为去除证书和/或签名的样本文件。
第三方面,本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本公开实施例提供的风险文件检测方法、装置、电子设备及存储介质,通过多个目标检测引擎对目标文件进行风险检测,再对目标文件及风险检测报告进行特征提取,再利用提取到的各个目标检测引擎分别对应的多个异常维度下的风险信息以及文件属性信息,确定目标文件的风险检测结果,实现对多个目标检测引擎的风险检测报告的整合,使得最终得到的风险检测结果结合多个检测引擎,避免因特定检测引擎自身缺陷,导致对目标文件的风险误判,从而提高风险检测的精确度;并且,利用文件属性信息及各个风险检测报告确定目标文件的风险检测结果,能够在整合时同时考虑目标文件本身的文件属性信息及目标检测引擎的检测结果,相较于人工整合的检测结果,不依赖于用户的主观判断,整合方式更客观合理,精确度更高。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种风险文件检测方法的流程图;
图2示出了本公开实施例所提供的一种多引擎聚合模型的训练方法的流程图;
图3示出了本公开实施例所提供的确定风险检测报告在多个异常维度下的风险信息步骤的流程图;
图4示出了本公开实施例所提供的一种风险文件检测装置的示意图;
图5示出了本公开实施例所提供的一种电子设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
下面首先对提出本公开实施例方案的背景思路做下介绍。
风险文件检测引擎能够提供对文件的风险检测,得到文件的风险检测报告,风险检测报告中可以指示有文件是否是风险文件,以及文件对应的异常类型,如病毒类型、木马类型,风险报告还可以包括病毒名、家族等信息。然而,检测引擎在设计时可能存在盲区或缺陷,利用特定检测引擎进行风险检测并不意味着被测文件的安全。
基于上述研究,本公开实施例提供一种风险文件检测方法,利用多个检测引擎对目标文件进行检测,并基于各个检测引擎的风险检测报告,确定目标文件最终的风险检测结果,有效避免特定检测引擎的误检。
在多引擎检测的场景下,不同检测引擎的计算逻辑、算法、使用样本会具有不同程度的区别,导致各个引擎的检测性能具有较大的差异和对不同文件类型的倾向性,得到的检测结果也可能存在差异。而用户面对各检测引擎的检测结果,通常需要根据自身对文件是否存在风险进行判断,该过程依赖于用户对各个检测引擎的了解程度,以及自身关于文件的了解程度,极容易产生误判。
对此,本公开实施例通过将各个检测引擎对应的风险检测报告进行聚合,得到文件的最终检测结果,帮助用户判断文件是否存在异常。
然而,在对多个异常检测报告进行聚合时,通常需要利用一些人为制定的规则,这些规则受到制定者较强的主观影响,准确性难以保障。
为此,本公开实施例引入被检测的目标文件的文件属性信息,以及风险检测报告在多个异常维度下的风险信息,利用文件属性信息及多个异常维度下的风险信息作为聚合影响因素,能够反映各个检测引擎对于不同文件属性信息的文件的检测倾向,基于这些聚合影响因素对风险检测报告进行聚合,得到的风险检测结果更精确。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种风险文件检测方法进行详细介绍,本公开实施例所提供的风险文件检测方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备。在一些可能的实现方式中,该风险文件检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的风险文件检测方法的流程图,所述方法包括步骤S101~S103,以服务器为该方法的执行主体为例,其中:
S101、响应于接收到待检测的目标文件,调用多个目标检测引擎对所述目标文件进行风险检测,得到各个所述目标检测引擎针对所述目标文件的风险检测报告。
其中,目标文件可以通过客户端上传至服务器,或直接从本地存储空间读取。服务器可以部署有多引擎检测系统,能够提供对文件的多引擎检测。服务器在获取到目标文件后,即可利用各个检测引擎对目标文件进行风险检测,得到各个目标检测引擎分别针对目标文件的风险检测报告。
上述风险检测报告可以指示目标文件是否是风险文件,若是风险文件,还可以指示有目标文件的风险类型,如木马类型、病毒类型等,还可以指示有目标文件具有的木马病毒的名称、对应的家族信息等。
上述检测引擎的种类可以互不相同,从而对具有不同特性的检测引擎进行覆盖。由于一些检测引擎之间可能存在相互包含的情况,使得在检测时两者检测性能基本一致,同时也存在一些体量较小引擎或基本不维护、不更新的老旧引擎,此类引擎检测准确率较低,为了提高检测效率,可以先进行检测引擎的筛选,将准确率低、检测性能一致或相近的引擎去除,将通过筛选的检测引擎作为本公开实施例中使用的检测引擎。
示例性的,可以先获取多个第二样本文件,利用多个待筛选检测引擎对第二样本文件进行风险检测,得到各个第二样本文件分别与多个待筛选检测引擎对应的第二风险检测报告样本,然后,可以基于第二风险检测报告样本及第二风险检测报告样本对应的真值标签,确定各个待筛选检测引擎的检测准确率。
上述真值标签可以标注有第二样本文件是否是真正的风险文件,以及对应风险类型、病毒名、家族信息等。通过判断真值标签与第二风险检测报告样本是否一致,可以判断该第二风险检测报告样本是否正确,根据待筛选检测引擎对应的第二风险检测报告样本的总数,以及正确的第二风险检测报告样本数量,即可确定待筛选检测引擎的检测准确率。
同时,还可以基于第二风险检测报告样本,确定各个筛选检测引擎之间的相似度。对于相似度较高的,也即检测报告样本强相关的检测引擎,可以将其视为重复引擎。
之后,可以将重复引擎中的多余检测引擎去除,并将检测准确率低于筛选阈值的待筛选检测引擎去除,即可完成对待筛选检测引擎的筛选,得到本公开实施例中所使用的多个目标检测引擎。
这样,通过检测引擎的筛选,可以降低对目标文件进行风险检测时的计算量,提高检测效率,并且,由于剔除的检测模型的检测准确率较低,或与当前使用的目标检测模型具有较大的重复性,可以保证检测结果的准确度不受检测引擎筛选的影响。
S102、针对各个所述目标检测引擎对应的所述风险检测报告,确定所述风险检测报告在多个异常维度下的风险信息;以及,确定所述目标文件的文件属性信息。
在得到各个目标检测引擎的风险检测报告之后,可以获取进行风险检测报告融合所需要的信息。具体的,可以获取风险检测报告在多个异常维度下的风险信息,以及目标文件的文件属性信息。
其中,风险检测报告中可以按照信息的类型,分为多个异常维度,每个异常维度下的信息能够表征目标文件在不同类型下风险信息,比如,目标文件是否为风险文件,即可为一个异常维度;目标文件的异常类型,则可以为另一个异常维度;类似的,目标文件的病毒名、目标文件对应的病毒的家族信息,则可以分别为两个异常维度。
上述目标文件的文件属性信息,可以指目标文件本身的特征信息,可以包括目标文件的文件类型、目标文件的文件大小、目标文件对应的操作系统类型、目标文件的静态关联控制反转(Inversion of Control,IOC)信息等。
为了便于后续聚合对数据的使用,可以使用特征提取的方式,从风险检测报告中提取多个异常维度的风险信息,以及目标文件的文件属性信息。
通常,在对各个检测引擎的风险检测报告进行聚合时,使用越多种类的数据,聚合时的精确度就越高,但随着数据种类的不断提升,精确度提高的效率就越低,而聚合所需要的计算量就越高,因此,本公开实施例中,不对聚合时使用的其他种类的数据进行限定,但为了考虑到不同检测引擎对不同种类文件的检测倾向性,将文件类型与风险检测报告之间建立关联关系,本公开实施例中的多个异常维度至少包括指示目标文件是否异常的维度,以及指示目标文件的异常类型的维度,文件属性信息可以至少包括文件类型。
S103、基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息,以及所述文件属性信息,确定所述目标文件的风险检测结果。
该步骤中,可以先确定文件属性信息与各个目标检测引擎分别对应的多个异常维度下的风险信息之间的关联关系,再基于确定的关联关系,确定各个目标风险检测引擎的风险检测报告的置信度,最后基于各个风险检测报告的置信度,对各个风险检测报告进行融合,得到目标文件最终的风险检测结果。
上述风险检测结果中,除了指示有目标文件是否是风险文件以外,还可以指示有目标文件对应的风险类型、病毒名、病毒对应的家族信息等。
除了上述风险信息及文件属性信息之外,本公开实施例还可以引入目标检测引擎针对目标文件的文件类型对应的权重,该权重在一定程度上也能够反映目标检测引擎对于不同文件类型的倾向性,示例性的,可以先基于文件属性信息中指示的目标文件的文件类型,获取各个目标检测引擎在该文件类型下的检测准确率,然后,再基于各个目标检测引擎对应的检测准确率,确定各个目标检测引擎对应的权重,再基于所述目标检测引擎分别对应的多个异常维度下的风险信息、文件属性信息、以及各个目标检测引擎对应的权重,确定目标文件的风险检测结果。
在具体的实施场景中,可以利用机器学习模型确定目标文件的风险检测结果。可以将上述风险信息、文件属性信息、各个目标检测引擎对应的权重,整合成一个特征向量,并将其输入至训练的多引擎聚合模型中,多引擎聚合模型在训练过程中,能够学习上述风险信息、文件属性信息、各个目标检测引擎对应的权重,以及样本文件对应的真值标签之间的关联关系,在使用中,即可基于得到的关联关系,根据输入的风险信息、文件属性信息、各个目标检测引擎对应的权重,得到目标文件的风险检测结果。
其中,多引擎聚合模型可以是支持向量机(Support Vector Machine, SVM)、树模型、集成模型、深度神经网络(Deep Neural Network,DNN)等机器学习模型,能够学习样本特征信息与真值标签之间的关联关系,最终实现对目标文件的风险检测。
上述对多引擎聚合模型进行训练可以包括如下步骤:
针对获取的多个第一样本文件,分别对每个所述第一样本文件通过所述多个目标检测引擎进行风险检测,得到第一风险检测报告样本;
基于所述第一风险检测报告样本、以及所述第一风险检测报告样本对应的真值标签,对所述多引擎聚合模型进行训练。
该步骤中,可以先利用多个目标检测引擎对第一样本文件进行风险检测报告,得到第一风险检测报告样本,之后,可以提取第一样本文件的文件属性信息,以及利用第一风险检测报告样本在多个异常维度下的风险信息,利用待训练的多引擎聚合模型对风险检测报告进行聚合,得到各个第一样本文件的风险检测结果样本,然后基于第一风险检测报告样本对应的真值标签,计算多引擎聚合模型的损失,并基于损失对多引擎聚合模型的参数进行优化,直到损失处于可接受范围内。
由于各个目标检测模型可能设置有白名单机制,在对样本文件或目标文件进行检测时,可能会识别文件携带的签名和/或证书,并在白名单命中识别的签名和/或证书时,直接将检测的文件作为可信文件,输出结果,为了进一步更真实的验证各检测引擎的检测能力,以及提升后续机器模型的检测性能,可以将目标文件、第一样本文件、第二样本文件的签名和/或标签去除。
本公开实施例所提供的风险文件检测方法,通过多个目标检测引擎对目标文件进行风险检测,再对目标文件及风险检测报告进行特征提取,再利用提取到的各个目标检测引擎分别对应的多个异常维度下的风险信息以及文件属性信息,确定目标文件的风险检测结果,实现对多个目标检测引擎的风险检测报告的整合,使得最终得到的风险检测结果结合多个检测引擎,避免因特定检测引擎自身缺陷,导致对目标文件的风险误判,从而提高风险检测的精确度;并且,利用文件属性信息及各个风险检测报告确定目标文件的风险检测结果,能够在整合时同时考虑目标文件本身的文件属性信息及目标检测引擎的检测结果,相较于人工整合的检测结果,整合方式更合理,不依赖于用户的主观判断,整合方式更客观合理,精确度更高。
参见图2所示,为本公开实施例所提供的一种多引擎聚合模型的训练方法的流程图,该方法首先获取样本文件,并去除样本数据携带的数字签名及证书,利用处理后的样本文件建立数据集,然后,利用多个目标检测引擎对数据集进行风险检测,得到风险检测报告,之后,利用对风险检测报告进行特征提取,对样本文件的文件属性信息进行提取,之后,利用提取的文件属性信息、风险检测报告,以及样本文件的真值标签,对多引擎聚合模型进行训练。
参见图3所示,为本公开实施例所提供的确定风险检测报告在多个异常维度下的风险信息步骤的流程图,该方法首先获取多个检测引擎的风险检测报告,然后基于风险检测报告,确定各个检测引擎的检测准确度,以及各检测引擎之间的相似度,去除检测精确度低于预设检测阈值的检测引擎,以及去除重复度高的检测引擎,得到可信的目标检测引擎,之后,从风险检测报告中提取出指示文件是否异常的维度的风险信息,以及提取指示有文件的异常类型的维度的风险信息,完成风险信息的提取。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与风险文件检测方法对应的风险文件检测装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述风险文件检测方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图4所示,为本公开实施例提供的一种风险文件检测装置的示意图,所述装置包括:
检测模块410,用于响应于接收到待检测的目标文件,调用多个目标检测引擎对所述目标文件进行风险检测,得到各个所述目标检测引擎针对所述目标文件的风险检测报告;
确定模块420,用于针对各个所述目标检测引擎对应的所述风险检测报告,确定所述风险检测报告在多个异常维度下的风险信息;以及,确定所述目标文件的文件属性信息;
聚合模块430,用于基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息,以及所述文件属性信息,确定所述目标文件的风险检测结果。
本公开实施例所提供的风险文件检测装置,通过多个目标检测引擎对目标文件进行风险检测,再对目标文件及风险检测报告进行特征提取,再利用提取到的各个目标检测引擎分别对应的多个异常维度下的风险信息以及文件属性信息,确定目标文件的风险检测结果,实现对多个目标检测引擎的风险检测报告的整合,使得最终得到的风险检测结果结合多个检测引擎,避免因特定检测引擎自身缺陷,导致对目标文件的风险误判,从而提高风险检测的精确度;并且,利用文件属性信息及各个风险检测报告确定目标文件的风险检测结果,能够在整合时同时考虑目标文件本身的文件属性信息及目标检测引擎的检测结果,相较于人工整合的检测结果,整合方式更合理,不依赖于用户的主观判断,整合方式更客观合理,精确度更高。
一种可选的实施方式中,所述多个异常维度至少包括指示所述目标文件是否异常的维度,以及指示所述目标文件的异常类型的维度;所述文件属性信息至少包括文件类型。
一种可选的实施方式中,所述聚合模块430具体用于:
基于所述文件属性信息中指示的所述目标文件的文件类型,获取各个所述目标检测引擎在所述文件类型下的检测准确率;
基于各个所述目标检测引擎对应的所述检测准确率,确定各个所述目标检测引擎对应的权重;
基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息、所述文件属性信息、以及各个所述目标检测引擎对应的权重,确定所述目标文件的风险检测结果。
一种可选的实施方式中,所述聚合模块430具体用于:
将各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息、所述文件属性信息、以及各个所述目标检测引擎对应的权重输入至训练的多引擎聚合模型,得到所述目标文件的风险检测结果;所述多引擎聚合模型用于将所述文件属性信息和各个所述目标检测引擎对应的权重作为聚合影响因素,对多个所述目标检测引擎的风险检测报告进行聚合。
一种可选的实施方式中,所述装置还包括训练模块,用于:
针对获取的多个第一样本文件,分别对每个所述第一样本文件通过所述多个目标检测引擎进行风险检测,得到第一风险检测报告样本;
基于所述第一风险检测报告样本、以及所述第一风险检测报告样本对应的真值标签,对所述多引擎聚合模型进行训练。
一种可选的实施方式中,在调用多个目标检测引擎对所述目标文件进行风险检测之前,所述训练模块还用于:
获取多个第二样本文件中每个第二样本文件分别通过多个待筛选检测引擎进行风险检测后得到的第二风险检测报告样本;
基于所述第二风险检测报告样本以及所述第二风险检测报告样本对应的真值标签,确定各个所述待筛选检测引擎的检测准确率;并基于所述第二风险检测报告样本,确定各个所述待筛选检测引擎之间的相似度;
基于各个所述待筛选检测引擎的所述检测准确率,以及各个所述待筛选检测引擎之间的相似度,对所述待筛选检测引擎进行筛选,得到多个所述目标检测引擎。
一种可选的实施方式中,所述第二样本文件为去除证书和/或签名的样本文件。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
对应于图1中的风险文件检测方法,本公开实施例还提供了一种电子设备500,如图5所示,为本公开实施例提供的电子设备500结构示意图,包括:
处理器51、存储器52、和总线53;存储器52用于存储执行指令,包括内存521和外部存储器522;这里的内存521也称内存储器,用于暂时存放处理器51中的运算数据,以及与硬盘等外部存储器522交换的数据,处理器51通过内存521与外部存储器522进行数据交换,当所述电子设备500运行时,所述处理器51与所述存储器52之间通过总线53通信,使得所述处理器51执行以下指令:
响应于接收到待检测的目标文件,调用多个目标检测引擎对所述目标文件进行风险检测,得到各个所述目标检测引擎针对所述目标文件的风险检测报告;
针对各个所述目标检测引擎对应的所述风险检测报告,确定所述风险检测报告在多个异常维度下的风险信息;以及,确定所述目标文件的文件属性信息;
基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息,以及所述文件属性信息,确定所述目标文件的风险检测结果。
一种可选的实施方式中,所述处理器51执行的指令中,所述多个异常维度至少包括指示所述目标文件是否异常的维度,以及指示所述目标文件的异常类型的维度;所述文件属性信息至少包括文件类型。
一种可选的实施方式中,所述处理器51执行的指令中,所述基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息,以及所述文件属性信息,确定所述目标文件的风险检测结果,包括:
基于所述文件属性信息中指示的所述目标文件的文件类型,获取各个所述目标检测引擎在所述文件类型下的检测准确率;
基于各个所述目标检测引擎对应的所述检测准确率,确定各个所述目标检测引擎对应的权重;
基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息、所述文件属性信息、以及各个所述目标检测引擎对应的权重,确定所述目标文件的风险检测结果。
一种可选的实施方式中,所述处理器51执行的指令中,所述基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息、所述文件属性信息、以及各个所述目标检测引擎对应的权重,确定所述目标文件的风险检测结果,包括:
将各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息、所述文件属性信息、以及各个所述目标检测引擎对应的权重输入至训练的多引擎聚合模型,得到所述目标文件的风险检测结果;所述多引擎聚合模型用于将所述文件属性信息和各个所述目标检测引擎对应的权重作为聚合影响因素,对多个所述目标检测引擎的风险检测报告进行聚合。
一种可选的实施方式中,所述处理器51执行的指令中,还包括:
针对获取的多个第一样本文件,分别对每个所述第一样本文件通过所述多个目标检测引擎进行风险检测,得到第一风险检测报告样本;
基于所述第一风险检测报告样本、以及所述第一风险检测报告样本对应的真值标签,对所述多引擎聚合模型进行训练。
一种可选的实施方式中,所述处理器51执行的指令中,在调用多个目标检测引擎对所述目标文件进行风险检测之前,还包括:
获取多个第二样本文件中每个第二样本文件分别通过多个待筛选检测引擎进行风险检测后得到的第二风险检测报告样本;
基于所述第二风险检测报告样本以及所述第二风险检测报告样本对应的真值标签,确定各个所述待筛选检测引擎的检测准确率;并基于所述第二风险检测报告样本,确定各个所述待筛选检测引擎之间的相似度;
基于各个所述待筛选检测引擎的所述检测准确率,以及各个所述待筛选检测引擎之间的相似度,对所述待筛选检测引擎进行筛选,得到多个所述目标检测引擎。
一种可选的实施方式中,所述处理器51执行的指令中,所述第二样本文件为去除证书和/或签名的样本文件。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的风险文件检测方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的风险文件检测方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种风险文件检测方法,其特征在于,包括:
响应于接收到待检测的目标文件,调用多个目标检测引擎对所述目标文件进行风险检测,得到各个所述目标检测引擎针对所述目标文件的风险检测报告;
针对各个所述目标检测引擎对应的所述风险检测报告,确定所述风险检测报告在多个异常维度下的风险信息;以及,确定所述目标文件的文件属性信息;
基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息,以及所述文件属性信息,确定所述目标文件的风险检测结果。
2.根据权利要求1所述的方法,其特征在于,所述多个异常维度至少包括指示所述目标文件是否异常的维度,以及指示所述目标文件的异常类型的维度;所述文件属性信息至少包括文件类型。
3.根据权利要求1所述的方法,其特征在于,所述基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息,以及所述文件属性信息,确定所述目标文件的风险检测结果,包括:
基于所述文件属性信息中指示的所述目标文件的文件类型,获取各个所述目标检测引擎在所述文件类型下的检测准确率;
基于各个所述目标检测引擎对应的所述检测准确率,确定各个所述目标检测引擎对应的权重;
基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息、所述文件属性信息、以及各个所述目标检测引擎对应的权重,确定所述目标文件的风险检测结果。
4.根据权利要求3所述的方法,其特征在于,所述基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息、所述文件属性信息、以及各个所述目标检测引擎对应的权重,确定所述目标文件的风险检测结果,包括:
将各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息、所述文件属性信息、以及各个所述目标检测引擎对应的权重输入至训练的多引擎聚合模型,得到所述目标文件的风险检测结果;所述多引擎聚合模型用于将所述文件属性信息和各个所述目标检测引擎对应的权重作为聚合影响因素,对多个所述目标检测引擎的风险检测报告进行聚合。
5.根据权利要求4所述的方法,其特征在于,通过以下步骤训练所述多引擎聚合模型:
针对获取的多个第一样本文件,分别对每个所述第一样本文件通过所述多个目标检测引擎进行风险检测,得到第一风险检测报告样本;
基于所述第一风险检测报告样本、以及所述第一风险检测报告样本对应的真值标签,对所述多引擎聚合模型进行训练。
6.根据权利要求1所述的方法,其特征在于,在调用多个目标检测引擎对所述目标文件进行风险检测之前,所述方法还包括:
获取多个第二样本文件中每个第二样本文件分别通过多个待筛选检测引擎进行风险检测后得到的第二风险检测报告样本;
基于所述第二风险检测报告样本以及所述第二风险检测报告样本对应的真值标签,确定各个所述待筛选检测引擎的检测准确率;并基于所述第二风险检测报告样本,确定各个所述待筛选检测引擎之间的相似度;
基于各个所述待筛选检测引擎的所述检测准确率,以及各个所述待筛选检测引擎之间的相似度,对所述待筛选检测引擎进行筛选,得到多个所述目标检测引擎。
7.根据权利要求6所述的方法,其特征在于,所述第二样本文件为去除证书和/或签名的样本文件。
8.一种风险文件检测装置,其特征在于,包括:
检测模块,用于响应于接收到待检测的目标文件,调用多个目标检测引擎对所述目标文件进行风险检测,得到各个所述目标检测引擎针对所述目标文件的风险检测报告;
确定模块,用于针对各个所述目标检测引擎对应的所述风险检测报告,确定所述风险检测报告在多个异常维度下的风险信息;以及,确定所述目标文件的文件属性信息;
聚合模块,用于基于各个所述目标检测引擎分别对应的所述多个异常维度下的风险信息,以及所述文件属性信息,确定所述目标文件的风险检测结果。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的风险文件检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任意一项所述的风险文件检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310006967.XA CN115766293B (zh) | 2023-01-04 | 2023-01-04 | 一种风险文件检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310006967.XA CN115766293B (zh) | 2023-01-04 | 2023-01-04 | 一种风险文件检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115766293A true CN115766293A (zh) | 2023-03-07 |
CN115766293B CN115766293B (zh) | 2023-04-18 |
Family
ID=85348489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310006967.XA Active CN115766293B (zh) | 2023-01-04 | 2023-01-04 | 一种风险文件检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115766293B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674498A (zh) * | 2019-08-20 | 2020-01-10 | 中国科学院信息工程研究所 | 一种基于多维度文件活动的内部威胁检测方法及系统 |
CN113254935A (zh) * | 2021-07-02 | 2021-08-13 | 北京微步在线科技有限公司 | 恶意文件识别方法、装置及存储介质 |
CN113779356A (zh) * | 2021-09-10 | 2021-12-10 | 未鲲(上海)科技服务有限公司 | 网页的风险检测方法、装置、计算机设备及存储介质 |
CN114386034A (zh) * | 2021-12-21 | 2022-04-22 | 中国电子科技集团公司第三十研究所 | 动态迭代的多引擎融合恶意代码检测方法、设备及介质 |
CN115378747A (zh) * | 2022-10-27 | 2022-11-22 | 北京六方云信息技术有限公司 | 恶意数据检测方法、终端设备以及存储介质 |
-
2023
- 2023-01-04 CN CN202310006967.XA patent/CN115766293B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674498A (zh) * | 2019-08-20 | 2020-01-10 | 中国科学院信息工程研究所 | 一种基于多维度文件活动的内部威胁检测方法及系统 |
CN113254935A (zh) * | 2021-07-02 | 2021-08-13 | 北京微步在线科技有限公司 | 恶意文件识别方法、装置及存储介质 |
CN113779356A (zh) * | 2021-09-10 | 2021-12-10 | 未鲲(上海)科技服务有限公司 | 网页的风险检测方法、装置、计算机设备及存储介质 |
CN114386034A (zh) * | 2021-12-21 | 2022-04-22 | 中国电子科技集团公司第三十研究所 | 动态迭代的多引擎融合恶意代码检测方法、设备及介质 |
CN115378747A (zh) * | 2022-10-27 | 2022-11-22 | 北京六方云信息技术有限公司 | 恶意数据检测方法、终端设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115766293B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI673625B (zh) | 統一資源定位符(url)攻擊檢測方法、裝置以及電子設備 | |
EP3065367B1 (en) | System and method for automated phishing detection rule evolution | |
CN105426356B (zh) | 一种目标信息识别方法和装置 | |
RU2708356C1 (ru) | Система и способ двухэтапной классификации файлов | |
CN107169768B (zh) | 异常交易数据的获取方法和装置 | |
US11888881B2 (en) | Context informed abnormal endpoint behavior detection | |
JP5990284B2 (ja) | キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法 | |
CN105224600B (zh) | 一种样本相似度的检测方法及装置 | |
WO2022199185A1 (zh) | 用户操作检测方法及程序产品 | |
CN111931047B (zh) | 基于人工智能的黑产账号检测方法及相关装置 | |
CN109145030B (zh) | 一种异常数据访问的检测方法和装置 | |
CN114598504B (zh) | 一种风险评估方法、装置、电子设备及可读存储介质 | |
CN117081858B (zh) | 一种基于多决策树入侵行为检测方法、系统、设备及介质 | |
US11727704B2 (en) | Systems and methods for processing a table of information in a document | |
CN110958244A (zh) | 一种基于深度学习的仿冒域名检测方法及装置 | |
Duan et al. | Automated security assessment for the internet of things | |
JP7033262B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN115766293B (zh) | 一种风险文件检测方法、装置、电子设备及存储介质 | |
CN112818114A (zh) | 信息的分类方法、检测方法、计算设备及存储介质 | |
US10586046B1 (en) | Automated security feed analysis for threat assessment | |
Wilkins et al. | COUGAR: clustering of unknown malware using genetic algorithm routines | |
CN112632219B (zh) | 一种垃圾短信的拦截方法和拦截装置 | |
CN114866338A (zh) | 网络安全检测方法、装置及电子设备 | |
CN114866297A (zh) | 网络数据检测方法、装置、电子设备及存储介质 | |
CN114398887A (zh) | 一种文本分类方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |