CN108804917B - 一种文件检测方法、装置、电子设备及存储介质 - Google Patents

一种文件检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN108804917B
CN108804917B CN201711414895.3A CN201711414895A CN108804917B CN 108804917 B CN108804917 B CN 108804917B CN 201711414895 A CN201711414895 A CN 201711414895A CN 108804917 B CN108804917 B CN 108804917B
Authority
CN
China
Prior art keywords
file
dimension
detected
files
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711414895.3A
Other languages
English (en)
Other versions
CN108804917A (zh
Inventor
马建伟
李柏松
王小丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Antiy Technology Group Co Ltd
Original Assignee
Antiy Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Antiy Technology Group Co Ltd filed Critical Antiy Technology Group Co Ltd
Priority to CN201711414895.3A priority Critical patent/CN108804917B/zh
Publication of CN108804917A publication Critical patent/CN108804917A/zh
Application granted granted Critical
Publication of CN108804917B publication Critical patent/CN108804917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection

Abstract

本发明实施例公开一种文件检测方法、装置、电子设备及存储介质,能够对未知文件的安全性进行较为准确和高效的检测。所述方法包括:将待检测文件的文件属性按照预设维度进行维度特征统计;检测统计出的所述待检测文件的维度特征与文件画像库中安全性已知的文件的维度特征的总相关度;根据所述总相关度确定所述待检测文件的威胁程度。本发明可用于网络安全应用中。

Description

一种文件检测方法、装置、电子设备及存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种文件检测方法、装置、电子设备及存储介质。
背景技术
当今,互联网连接着世界,用户可以通过互联网进行各种信息交流和文件传递。然而,在信息交流便捷的同时,未知文件也会给用户带来巨大的安全隐患。
目前,对于文件安全性的判定大多基于黑白库(包含云检测),文件哈希,静态扫描等常用手段,这对于已存在于黑白库中的文件的判定较为适合,但是对于未知文件的安全性判定,却没有准确性和效率较高的检测方法,常常需要大量的人工干预,检测的准确性和检测效率较差。
发明内容
有鉴于此,本发明实施例提供一种文件检测方法、装置、电子设备及存储介质,能够对未知文件的安全性进行较为准确和高效的检测。
第一方面,本发明实施例提供一种文件检测方法,包括:将待检测文件的文件属性按照预设维度进行维度特征统计;检测统计出的所述待检测文件的维度特征与文件画像库中安全性已知的文件的维度特征的总相关度;根据所述总相关度确定所述待检测文件的威胁程度。
结合第一方面,在第一方面的第一种实施方式中,所述预设维度包括以下至少一种:时间属性维度、物理属性维度、运行环境属性维度、加密属性维度;所述时间属性维度包括文件的创建时间和/或修改时间;所述物理属性维度包括:文件的镜像位置、原始文件名、文件内容哈希计算值;所述运行环境属性维度包括文件运行的操作平台和/或软件环境;所述加密属性维度包括以下至少一种:加壳类型,加密类型,混淆类型。
结合第一方面,在第一方面的第二种实施方式中,所述检测统计出的所述待检测文件的维度特征与文件画像库中安全性已知的文件的维度特征的总相关度包括:分别检测所述预设维度中的每个维度上,所述待检测文件的维度特征与安全性已知的文件的维度特征的分相关度;在任一所述分相关度大于第一分阈值的情况下,确定对应的所述维度特征为一个相关维度特征;确定所述相关维度特征的数量在全部维度特征数量中的数量占比为所述总相关度。
结合第一方面或第一方面的第一或第二种实施方式,在第一方面的第三种实施方式中,所述根据所述总相关度确定所述待检测文件的威胁程度包括:在所述总相关度大于第一阈值的情况下,根据所述安全性已知的文件的威胁程度及所述总相关度,确定所述待检测文件的威胁程度。
结合第一方面或第一方面的第一或第二种实施方式,在第一方面的第四种实施方式中,所述根据所述总相关度确定所述待检测文件的威胁程度包括:在所述总相关度小于或等于所述第一阈值的情况下,从所述安全性已知的文件中筛选出与所述待检测文件的维度特征的总相关度大于第二阈值且小于或等于所述第一阈值的文件;其中,所述第二阈值小于所述第一阈值;利用所述待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练,以预测所述待检测文件的威胁程度。
结合第一方面的第四种实施方式,在第一方面的第五种实施方式中,所述从所述安全性已知的文件中筛选出与所述待检测文件的维度特征的总相关度大于第二阈值且小于或等于所述第一阈值的文件包括:分别确定所述预设维度中的每个维度上,所述待检测文件的维度特征与安全性已知的文件的维度特征的分相关度;在任一所述分相关度大于第二分阈值的情况下,确定对应的所述维度特征为一个相关维度特征;从所述安全性已知的文件中筛选出所述相关维度特征的数量在全部维度特征数量中的数量占比大于第二阈值且小于或等于所述第一阈值的文件。
结合第一方面的第四种实施方式,在第一方面的第六种实施方式中,所述利用所述待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练,以预测所述待检测文件的威胁程度包括:对所述待检测文件的文件属性与筛选出的所述文件的文件属性重新进行聚类;对重新聚类后文件属性进行回归分析,以使所述待检测文件的文件属性与筛选出的所述文件的文件属性之间的总相关度大于所述第一阈值。
结合第一方面的第四种实施方式,在第一方面的第七种实施方式中,所述利用所述待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练之后,所述方法还包括:将所述待检测文件的文件属性的维度特征及威胁程度,作为所述待检测文件的文件画像存入所述文件画像库。
第二方面,本发明的实施例还提供一种文件检测装置,包括:统计单元,用于将待检测文件的文件属性按照预设维度进行维度特征统计;检测单元,用于检测统计出的所述待检测文件的维度特征与文件画像库中安全性已知的文件的维度特征的总相关度;确定单元,用于根据所述总相关度确定所述待检测文件的威胁程度。
结合第二方面,在第二方面的第一种实施方式中,所述预设维度包括以下至少一种:时间属性维度、物理属性维度、运行环境属性维度、加密属性维度;所述时间属性维度包括文件的创建时间和/或修改时间;所述物理属性维度包括:文件的镜像位置、原始文件名、文件内容哈希计算值;所述运行环境属性维度包括文件运行的操作平台和/或软件环境;所述加密属性维度包括以下至少一种:加壳类型,加密类型,混淆类型。
结合第二方面,在第二方面的第二种实施方式中,所述检测单元包括:检测模块,用于分别检测所述预设维度中的每个维度上,所述待检测文件的维度特征与安全性已知的文件的维度特征的分相关度;第一确定模块,用于在任一所述分相关度大于第一分阈值的情况下,确定对应的所述维度特征为一个相关维度特征;第二确定模块,用于确定所述相关维度特征的数量在全部维度特征数量中的数量占比为所述总相关度。
结合第二方面或第二方面的第一或第二种实施方式,在第二方面的第三种实施方式中,所述确定单元,具体用于在所述总相关度大于第一阈值的情况下,根据所述安全性已知的文件的威胁程度及所述总相关度,确定所述待检测文件的威胁程度。
结合第二方面或第二方面的第一或第二种实施方式,在第二方面的第四种实施方式中,所述确定单元,包括:筛选模块,用于在所述总相关度小于或等于所述第一阈值的情况下,从所述安全性已知的文件中筛选出与所述待检测文件的维度特征的总相关度大于第二阈值且小于或等于所述第一阈值的文件;其中,所述第二阈值小于所述第一阈值;训练模块,用于利用所述待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练,以预测所述待检测文件的威胁程度。
结合第二方面的第四种实施方式,在第二方面的第五种实施方式中,所述筛选模块,具体用于:分别确定所述预设维度中的每个维度上,所述待检测文件的维度特征与安全性已知的文件的维度特征的分相关度;在任一所述分相关度大于第二分阈值的情况下,确定对应的所述维度特征为一个相关维度特征;从所述安全性已知的文件中筛选出所述相关维度特征的数量在全部维度特征数量中的数量占比大于第二阈值且小于或等于所述第一阈值的文件。
结合第二方面的第四种实施方式,在第二方面的第六种实施方式中,所述训练模块,具体用于:对所述待检测文件的文件属性与筛选出的所述文件的文件属性重新进行聚类;对重新聚类后文件属性进行回归分析,以使所述待检测文件的文件属性与筛选出的所述文件的文件属性之间的总相关度大于所述第一阈值。
结合第二方面的第四种实施方式,在第二方面的第七种实施方式中,所述确定单元还包括存入模块,用于在利用所述待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练之后,将所述待检测文件的文件属性的维度特征及威胁程度,作为所述待检测文件的文件画像存入所述文件画像库。
第三方面,本发明的实施例还提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行本发明任一实施例提供的文件检测方法。
第四方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明任一实施例提供的文件检测方法。
本发明的实施例提供的文件检测方法、装置、电子设备及存储介质,能够将待检测文件的文件属性按照预设维度进行维度特征统计,检测统计出的所述待检测文件的维度特征与文件画像库中安全性已知的文件的维度特征的总相关度,然后根据所述总相关度确定所述待检测文件的威胁程度。这样,从文件属性的多个维度特征来对待检测文件进行安全性鉴定,从而有效提高了未知文件安全性检测的准确性和检测效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明的实施例提供的文件检测方法的一种流程图;
图2为本发明的实施例提供的文件检测方法的另一种流程图;
图3为本发明的实施例提供的文件检测装置的一种结构示意图;
图4为本发明的实施例提供的电子设备的一种结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
第一方面,本发明实施例提供一种文件检测方法,能够将待检测文件的文件属性按照预设维度进行维度特征统计,根据待检测文件的维度特征来确定待检测文件的安全性,从而对未知文件的安全性进行较为准确和高效的检测。
图1为本发明的实施例提供的文件检测方法的一种流程图,如图1所示,本发明地实施例提供的文件检测方法,包括:
S11,将待检测文件的文件属性按照预设维度进行维度特征统计;
其中,待检测文件是安全性未知的文件,但可以获知该待检测文件的文件属性。文件属性是一些描述性的信息,定义了文件在某些方面的独特性质。属性未包含在文件的实际内容中,而是提供了有关文件的信息。文件属性例如可以包括文件的修改日期、作者等。
文件属性中常常包含着关于文件的大量信息,本步骤中,将文件属性中包括的信息进行提炼,按照预设维度统计维度特征,从而可以按照一定的标准、从多个维度描述该文件。
S12,检测统计出的所述待检测文件的维度特征与文件画像库中安全性已知的文件的维度特征的总相关度;
本步骤中,可以将统计出的、待检测文件的各个维度的维度特征与文件画像库中安全性已知的文件的维度特征进行比对,检测出待检测文件的各个维度特征与文件画像库中的文件的维度特征之间的总的相关度。其中,文件画像库是一种信息库,里面存放着各种安全性已知的文件的文件画像。所谓文件画像,是一种基于文件属性生成类似人脸画像的一种形式化描述,可以将文件的平台环境,数字签名,时间戳等信息统一整合成一种易于计算机理解的数字或符号。
S13,根据所述总相关度确定所述待检测文件的威胁程度。
本步骤中,可以根据待检测文件的文件属性的维度特征与文件画像库中的各种文件的文件属性的维度特征之间的总相关度来确定该待检测文件的威胁程度。
本发明的实施例提供的文件检测方法,能够将待检测文件的文件属性按照预设维度进行维度特征统计,检测统计出的所述待检测文件的维度特征与文件画像库中安全性已知的文件的维度特征的总相关度,然后根据所述总相关度确定所述待检测文件的威胁程度。这样,从文件属性的多个维度特征来对待检测文件进行安全性鉴定,从而有效提高了未知文件安全性检测的准确性和检测效率。
可选的,在步骤S11中,将待检测文件的文件属性按照预设维度进行维度特征统计,其中,预设维度可以包括以下一种或多种:时间属性维度、物理属性维度、运行环境属性维度、加密属性维度。
其中,时间属性维度可以包括文件的创建时间和/或修改时间;物理属性维度可以包括:文件的镜像位置、原始文件名、文件内容哈希计算值;运行环境属性维度可以包括文件运行的操作平台和/或软件环境;加密属性维度可以包括以下一种或多种:加壳类型、加密类型、混淆类型等。
需要说明的是,一个文件可以同时具有上述多个文件属性,这些属性从不同的方面或维度对文件的特征进行描述,犹如一幅画像。例如,一个Word文件,其时间属性维度中,文件的创建时间为2017/09/4,物理属性维度中,文件的原始文件名为“本周工作总结”,运行环境属性维度中,文件运行的操作平台为Windows系统,软件环境为office办公软件环境等。
对待检测文件进行维度特征统计之后,在步骤S12中可以检测统计出的所述待检测文件的维度特征与文件画像库中安全性已知的文件的维度特征的总相关度,具体可包括如下步骤:
分别检测所述预设维度中的每个维度上,所述待检测文件的维度特征与安全性已知的文件的维度特征的分相关度;
在任一所述分相关度大于第一分阈值的情况下,确定对应的所述维度特征为一个相关维度特征;
确定所述相关维度特征的数量在全部维度特征数量中的数量占比为所述总相关度。
也就是说,维度特征的总相关度的判定来自于每个维度特征的分相关度的判定。因此,首先需要分别检测所述预设维度中的每个维度上,所述待检测文件的维度特征与安全性已知的文件的维度特征的分相关度。确定每个维度上的维度特征的相关度,具体可以用该维度上待检测文件的维度特征与文件画像库中的文件的维度特征相比对,得出该维度特征的相似程度,例如,如果待检测文件的作者为“第一中学党支部”,文件画像库中一个文件A的作者也为“第一中学党支部”,则可以确定在这个维度上,待检测文件与文件画像库中的该文件A的分相关度为100%,而如果文件画像库中的另一个文件B的作者为“第一中学团支部”,则可以确定在这个维度上,待检查文件与文件B的分相关度例如为70%,而如果文件画像库中的另一个文件C的作者为“第二中学团支部”,则可以确定在这个维度上,待检查文件与文件C的分相关度例如为30%等。
如果待检测文件的文件属性与文件画像库中的文件属性的任一分相关度大于第一分阈值的情况下,则可以确定对应的所述维度特征是一个相关维度特征。其中,第一分阈值的具体数值可以根据需要进行确定和调整,例如,在本发明的一个实施例中,第一分阈值可以为80%、90%等,则待检测文件与文件画像库中的文件A在作者这个维度上就是相关的,确定作者这个维度是一个相关维度特征。这样,对所有维度特征的分相关度进行检测后,可以统计出每个维度特征是否为一个相关维度特征,进而可以确定出所有的相关维度特征的数量在全部维度特征数量中的数量占比,该数量占比即待检测文件的维度特征与文件画像库中安全性已知的文件的维度特征的总相关度。例如,统计的全部维度特征的总数量为10个,其中相关维度特征的数量为7个,则数量占比为7/10,即待检测文件的维度特征与文件画像库中安全性已知的文件A的维度特征的总相关度为7/10。
确定了总相关度后,在步骤S13中即可根据总相关度确定待检测文件的威胁程度。在本发明的一个实施例中,根据总相关度确定待检测文件的威胁程度具体可包括:
在所述总相关度大于第一阈值的情况下,根据所述安全性已知的文件的威胁程度及所述总相关度,确定所述待检测文件的威胁程度。
也就是说,如果待检测文件与文件画像库中的文件足够相关的话,则可以利用文件画像库中安全性已知的文件的威胁程度来确定该待检测文件的威胁程度。例如,如果该第一阈值为60%,则总相关度7/10大于该第一阈值,可以利用文件画像库中安全性已知的文件A的威胁程度来确定该待检测文件的威胁程度,如果文件A的威胁程度为中等威胁,则可以确定待检测文件的威胁程度也是中等威胁。
可选的,在本发明的另一个实施例中,根据所述总相关度确定所述待检测文件的威胁程度具体可以包括:
在所述总相关度小于或等于所述第一阈值的情况下,从所述安全性已知的文件中筛选出与所述待检测文件的维度特征的总相关度大于第二阈值且小于或等于所述第一阈值的文件;其中,所述第二阈值小于所述第一阈值;
利用所述待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练,以预测所述待检测文件的威胁程度。
也就是说,与前述实施例不同,本实施例中,待检测文件与文件画像库中文件属性的总相关度不够高,还不足以根据文件画像库中的文件来确定待检测文件的威胁程度。在这种情况下,可以稍微放宽一下条件、扩大一下范围,在文件画像库中筛选出与所述待检测文件比较相关的文件。例如,如果第一阈值为60%,文件画像库中现有的文件中很难筛选到与待检测文件的总相关度大于该第一阈值的文件,则可以从文件画像库中筛选出总相关度大于50%的文件,利用待检测文件的文件属性与筛选出的文件的文件属性进行模型训练,以预测待检测文件的威胁程度。
具体的,从所述安全性已知的文件中筛选出与所述待检测文件的维度特征的总相关度大于第二阈值且小于或等于所述第一阈值的文件可以包括:
分别确定所述预设维度中的每个维度上,所述待检测文件的维度特征与安全性已知的文件的维度特征的分相关度;
在任一所述分相关度大于第二分阈值的情况下,确定对应的所述维度特征为一个相关维度特征;
从所述安全性已知的文件中筛选出所述相关维度特征的数量在全部维度特征数量中的数量占比大于第二阈值且小于或等于所述第一阈值的文件。
也就是说,在文件筛选上,也是先从每个维度上的维度特征的分相关度来考虑,然后根据相关维度特征的数量占比来进行筛选。所不同的是,在相关维度特征的认定方面,分相关度是与第二分阈值进行比较,第二分阈值可以适当小于第一分阈值,例如,如果第一分阈值为95%,则第二分阈值可以为80%;在数量占比方面同样如此,例如,如果第一阈值为60%,则第二阈值可以为40%。即在文件筛选时,对于每个维度,只要有80%的维度特征相同,即可认为该维度是一个相关维度,只要相关维度的数量在总维度数量中的数量占比大于40%,即可将该文件筛选出来。
接下来可以利用筛选出的文件和待检测文件一起进行模型训练,以便找出这些文件所共同属于的一种文件类型,并预测出待检测文件的威胁程度。具体的,根据本发明的一种实施方式,利用待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练,以预测所述待检测文件的威胁程度可以包括:
对待检测文件的文件属性与筛选出的文件的文件属性重新进行聚类;
对重新聚类后文件属性进行回归分析,以使待检测文件的文件属性与筛选出的文件的文件属性之间的总相关度大于第一阈值。
例如,如果筛选出的文件的文件属性与待检测文件的文件属性的总相关度大于第二阈值(例如40%),则经过重新聚类和回归分析后,待检测文件的文件属性与筛选出的文件的文件属性的总相关度应该大于第一阈值(例如60%)。这样,待检测文件和筛选出的文件就归属到同一个新的文件类别中,待检测文件的威胁程度可以根据其所属类别中文件的威胁程度来判定出,例如可以判定出某个文件是严重威胁、一般威胁、还是没有威胁,并且能够判断出威胁涉及的病毒,如各种蠕虫、木马程序等。
进一步的,利用所述待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练之后,可以将所述待检测文件的文件属性的维度特征及威胁程度,作为所述待检测文件的文件画像存入所述文件画像库,以便为新的文件检测提供依据。可选的,也可以对于预测结果进行标签设定,标明其为预测画像,以便为后续修正找到数据的出处和来源。
下面通过具体实施例对本发明实施例提供的文件检测方法进行详细说明。
如图2所示,本发明的实施例提供的文件检测方法可包括如下步骤:
S201、将安全性已知的文件(例如,已知被判定黑文件或者白文件的文件)按照文件的时间属性(创建时间,修改时间等)、物理属性(文件镜像位置,原始文件名字,文件内容哈希计算值等)、运行环境属性(何种平台操作系统,何种软件环境等)、安全性等维度进行分类。
S202、利用统计分析中的聚类分析算法将安全性已知的文件的文件属性按照其划分的属性维度进行归类划分,生成文件画像;
S203、将生成的文件画像存入文件画像库。
S204、获取未知文件;
可选的,未知文件的来源可以包括上报的未知文件,根据网络流量还原出的文件,以交换方式获取的文件等。
S205、按照已知文件的属性维度对未知文件的文件属性进行划分,未知文件的安全性为待判定的内容。
S206、利用回归分析算法,将未知文件属性与已知文件的文件画像进行关联对比,例如可以采用一元线性回归模型等算法进行关联对比,得到关于该未知文件的多个属性维度的相关度关联图。
S207、根据步骤S206中生成的相关度关联图,判定未知文件的各个维度的属性与文件画像库中的已知文件的各个维度属性的期望值、中值或均值的分相关度是否大于95%(即+/-5%的误差范围);
S208、如果分相关度大于95%,则认为对应维度的维度特征是一个相关维度特征;如果相关维度特征的数量在维度特征的总数量中的数量占比大于60%,则可以确定该未知文件与可以归属到其中一个维度分类中,可以根据该未知文件所属的类别的安全性对该未知文件的安全性进行判定。例如,如果该未知文件所属的类别的安全性为高危威胁,则可以判定该未知文件的安全性也是高危威胁。
S209、如果相关维度特征的数量在维度特征的总数量中的数量占比小于60%,则对未知文件属性集进行有监督的学习,预测出该未知文件的安全性;
可选的,可以将确定为相关维度特征的条件放宽为未知文件的一个维度上的维度特征与文件画像库中的文件属性的维度特征的期望值的相关度达到80-85%,(即误差范围可扩大为+/-15-+-20%);同时还可以将相关维度特征的数量在维度特征的总数量中的数量占比由60%放宽到30%,(如果未达到这个维度占比可以通过人工或者其他手段进行判定并补充数据),然后将未知文件属性集,加入到训练样本中,不断训练,使其训练后的相关维度特征的数量在维度特征的总数量中的数量占比达到60%以上;
可选的,在训练中可以进行人工手段的干预,不断修正训练的数据,预测出基于该未知文件画像的预测结果,并将结果存储到已知文件画像中,对于预测的结果需要进行标签设定,标明其为预测画像,为后续修正找到数据的出处和来源。
第二方面,本发明的实施例还提供一种文件检测装置,能够将待检测文件的文件属性按照预设维度进行维度特征统计,根据待检测文件的维度特征来确定待检测文件的安全性,从而对未知文件的安全性进行较为准确和高效的检测。
如图3所示,本实施例提供的文件检测装置可包括:
统计单元31,用于将待检测文件的文件属性按照预设维度进行维度特征统计;
检测单元32,用于检测统计出的所述待检测文件的维度特征与文件画像库中安全性已知的文件的维度特征的总相关度;
确定单元33,用于根据所述总相关度确定所述待检测文件的威胁程度。
本发明的实施例提供的文件检测装置,能够将待检测文件的文件属性按照预设维度进行维度特征统计,检测统计出的所述待检测文件的维度特征与文件画像库中安全性已知的文件的维度特征的总相关度,然后根据所述总相关度确定所述待检测文件的威胁程度。这样,从文件属性的多个维度特征来对待检测文件进行安全性鉴定,从而有效提高了未知文件安全性检测的准确性和检测效率。
可选的,所述预设维度包括以下至少一种:时间属性维度、物理属性维度、运行环境属性维度、加密属性维度;所述时间属性维度包括文件的创建时间和/或修改时间;所述物理属性维度包括:文件的镜像位置、原始文件名、文件内容哈希计算值;所述运行环境属性维度包括文件运行的操作平台和/或软件环境;所述加密属性维度包括以下至少一种:加壳类型,加密类型,混淆类型。
可选的,所述检测单元包括:
检测模块,用于分别检测所述预设维度中的每个维度上,所述待检测文件的维度特征与安全性已知的文件的维度特征的分相关度;
第一确定模块,用于在任一所述分相关度大于第一分阈值的情况下,确定对应的所述维度特征为一个相关维度特征;
第二确定模块,用于确定所述相关维度特征的数量在全部维度特征数量中的数量占比;
第三确定模块,用于根据所述数量占比确定所述待检测的文件的维度特征与所述文件画像库中安全性已知的文件的维度特征的总相关度。
可选的,确定单元33,具体用于在所述总相关度大于第一阈值的情况下,根据所述安全性已知的文件的威胁程度及所述总相关度,确定所述待检测文件的威胁程度。
可选的,确定单元33可包括:
筛选模块,用于在所述总相关度小于或等于所述第一阈值的情况下,从所述安全性已知的文件中筛选出与所述待检测文件的维度特征的总相关度大于第二阈值且小于或等于所述第一阈值的文件;其中,所述第二阈值小于所述第一阈值;
训练模块,用于利用所述待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练,以预测所述待检测文件的威胁程度。
可选的,所述筛选模块,具体用于:
分别确定所述预设维度中的每个维度上,所述待检测文件的维度特征与安全性已知的文件的维度特征的分相关度;
在任一所述分相关度大于第二分阈值的情况下,确定对应的所述维度特征为一个相关维度特征;
从所述安全性已知的文件中筛选出所述相关维度特征的数量在全部维度特征数量中的数量占比大于第二阈值且小于或等于所述第一阈值的文件。
可选的,所述训练模块,具体用于:
对所述待检测文件的文件属性与筛选出的所述文件的文件属性重新进行聚类;
对重新聚类后文件属性进行回归分析,以使所述待检测文件的文件属性与筛选出的所述文件的文件属性之间的总相关度大于所述第一阈值。
可选的,确定单元33还包括存入模块,用于在利用所述待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练之后,将所述待检测文件的文件属性的维度特征及威胁程度,作为所述待检测文件的文件画像存入所述文件画像库。
第三方面,本发明实施例提供一种电子设备,能够将待检测文件的文件属性按照预设维度进行维度特征统计,根据待检测文件的维度特征来确定待检测文件的安全性,从而对未知文件的安全性进行较为准确和高效的检测。
如图4所示,本发明的实施例提供的电子设备,可以包括:壳体41、处理器42、存储器43、电路板44和电源电路45,其中,电路板44安置在壳体41围成的空间内部,处理器42和存储器43设置在电路板44上;电源电路45,用于为上述电子设备的各个电路或器件供电;存储器43用于存储可执行程序代码;处理器42通过读取存储器43中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例所述的文件检测方法。
处理器42对上述步骤的具体执行过程以及处理器42通过运行可执行程序代码来进一步执行的步骤,可以参见前述实施例的描述,在此不再赘述。
该电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子设备。
第四方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例提供的任一种文件检测方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (16)

1.一种文件检测方法,其特征在于,包括:
将待检测文件的文件属性按照预设维度进行维度特征统计;
检测统计出的所述待检测文件的维度特征与文件画像库中安全性已知的文件的维度特征的总相关度;
根据所述总相关度确定所述待检测文件的威胁程度,所述预设维度包括:时间属性维度、物理属性维度、运行环境属性维度以及加密属性维度;
所述检测统计出的所述待检测文件的维度特征与文件画像库中安全性已知的文件的维度特征的总相关度包括:
分别检测所述预设维度中的每个维度上,所述待检测文件的维度特征与安全性已知的文件的维度特征的分相关度;
在任一所述分相关度大于第一分阈值的情况下,确定对应的所述维度特征为一个相关维度特征;
确定所述相关维度特征的数量在全部维度特征数量中的数量占比为所述总相关度。
2.根据权利要求1所述的方法,其特征在于,
所述时间属性维度包括文件的创建时间和/或修改时间;
所述物理属性维度包括:文件的镜像位置、原始文件名和/或文件内容哈希计算值;
所述运行环境属性维度包括文件运行的操作平台和/或软件环境;
所述加密属性维度包括以下至少一种:加壳类型,加密类型,混淆类型。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述总相关度确定所述待检测文件的威胁程度包括:
在所述总相关度大于第一阈值的情况下,根据所述安全性已知的文件的威胁程度及所述总相关度,确定所述待检测文件的威胁程度。
4.根据权利要求1或2所述的方法,其特征在于,所述根据所述总相关度确定所述待检测文件的威胁程度包括:
在所述总相关度小于或等于第一阈值的情况下,从所述安全性已知的文件中筛选出与所述待检测文件的维度特征的总相关度大于第二阈值且小于或等于所述第一阈值的文件;其中,所述第二阈值小于所述第一阈值;
利用所述待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练,以预测所述待检测文件的威胁程度。
5.根据权利要求4所述的方法,其特征在于,所述从所述安全性已知的文件中筛选出与所述待检测文件的维度特征的总相关度大于第二阈值且小于或等于所述第一阈值的文件包括:
分别确定所述预设维度中的每个维度上,所述待检测文件的维度特征与安全性已知的文件的维度特征的分相关度;
在任一所述分相关度大于第二分阈值的情况下,确定对应的所述维度特征为一个相关维度特征;
从所述安全性已知的文件中筛选出所述相关维度特征的数量在全部维度特征数量中的数量占比大于第二阈值且小于或等于所述第一阈值的文件。
6.根据权利要求4所述的方法,其特征在于,所述利用所述待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练,以预测所述待检测文件的威胁程度包括:
对所述待检测文件的文件属性与筛选出的所述文件的文件属性重新进行聚类;
对重新聚类后文件属性进行回归分析,以使所述待检测文件的文件属性与筛选出的所述文件的文件属性之间的总相关度大于所述第一阈值。
7.根据权利要求4所述的方法,其特征在于,所述利用所述待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练之后,所述方法还包括:
将所述待检测文件的文件属性的维度特征及威胁程度,作为所述待检测文件的文件画像存入所述文件画像库。
8.一种文件检测装置,其特征在于,包括:
统计单元,用于将待检测文件的文件属性按照预设维度进行维度特征统计;
检测单元,用于检测统计出的所述待检测文件的维度特征与文件画像库中安全性已知的文件的维度特征的总相关度;
确定单元,用于根据所述总相关度确定所述待检测文件的威胁程度,所述预设维度包括:时间属性维度、物理属性维度、运行环境属性维度以及加密属性维度;
所述检测单元包括:
检测模块,用于分别检测所述预设维度中的每个维度上,所述待检测文件的维度特征与安全性已知的文件的维度特征的分相关度;
第一确定模块,用于在任一所述分相关度大于第一分阈值的情况下,确定对应的所述维度特征为一个相关维度特征;
第二确定模块,用于确定所述相关维度特征的数量在全部维度特征数量中的数量占比为所述总相关度。
9.根据权利要求8所述的装置,其特征在于,
所述时间属性维度包括文件的创建时间和/或修改时间;
所述物理属性维度包括:文件的镜像位置、原始文件名和/或文件内容哈希计算值;
所述运行环境属性维度包括文件运行的操作平台和/或软件环境;
所述加密属性维度包括以下至少一种:加壳类型,加密类型,混淆类型。
10.根据权利要求8至9中任一项所述的装置,其特征在于,所述确定单元,具体用于在所述总相关度大于第一阈值的情况下,根据所述安全性已知的文件的威胁程度及所述总相关度,确定所述待检测文件的威胁程度。
11.根据权利要求8至9中任一项所述的装置,其特征在于,所述确定单元,包括:
筛选模块,用于在所述总相关度小于或等于第一阈值的情况下,从所述安全性已知的文件中筛选出与所述待检测文件的维度特征的总相关度大于第二阈值且小于或等于所述第一阈值的文件;其中,所述第二阈值小于所述第一阈值;
训练模块,用于利用所述待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练,以预测所述待检测文件的威胁程度。
12.根据权利要求11所述的装置,其特征在于,所述筛选模块,具体用于:
分别确定所述预设维度中的每个维度上,所述待检测文件的维度特征与安全性已知的文件的维度特征的分相关度;
在任一所述分相关度大于第二分阈值的情况下,确定对应的所述维度特征为一个相关维度特征;
从所述安全性已知的文件中筛选出所述相关维度特征的数量在全部维度特征数量中的数量占比大于第二阈值且小于或等于所述第一阈值的文件。
13.根据权利要求11所述的装置,其特征在于,所述训练模块,具体用于:
对所述待检测文件的文件属性与筛选出的所述文件的文件属性重新进行聚类;
对重新聚类后文件属性进行回归分析,以使所述待检测文件的文件属性与筛选出的所述文件的文件属性之间的总相关度大于所述第一阈值。
14.根据权利要求11所述的装置,其特征在于,所述确定单元还包括存入模块,用于在利用所述待检测文件的文件属性与筛选出的所述文件的文件属性进行模型训练之后,将所述待检测文件的文件属性的维度特征及威胁程度,作为所述待检测文件的文件画像存入所述文件画像库。
15.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述权利要求1至7任一项所述的文件检测方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述权利要求1至7中任一项所述的文件检测方法。
CN201711414895.3A 2017-12-22 2017-12-22 一种文件检测方法、装置、电子设备及存储介质 Active CN108804917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711414895.3A CN108804917B (zh) 2017-12-22 2017-12-22 一种文件检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711414895.3A CN108804917B (zh) 2017-12-22 2017-12-22 一种文件检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN108804917A CN108804917A (zh) 2018-11-13
CN108804917B true CN108804917B (zh) 2022-03-18

Family

ID=64095028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711414895.3A Active CN108804917B (zh) 2017-12-22 2017-12-22 一种文件检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN108804917B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111030968A (zh) * 2019-01-24 2020-04-17 哈尔滨安天科技集团股份有限公司 一种可自定义威胁检测规则的检测方法、装置及存储介质
CN112214764B (zh) * 2020-09-08 2024-01-09 中国科学院信息工程研究所 一种面向复杂网络恶意程序分类方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592103A (zh) * 2011-01-17 2012-07-18 中国电信股份有限公司 文件安全处理方法、设备及系统
CN102768717A (zh) * 2012-06-29 2012-11-07 腾讯科技(深圳)有限公司 恶意文件检测的方法及装置
CN102867038A (zh) * 2012-08-30 2013-01-09 北京奇虎科技有限公司 文件类型的确定方法和装置
CN105139404A (zh) * 2015-08-31 2015-12-09 广州市幸福网络技术有限公司 一种可检测拍摄质量的证照相机及拍摄质量检测方法
CN106203076A (zh) * 2016-06-24 2016-12-07 武汉绿色网络信息服务有限责任公司 一种利用ebp判断恶意文件的方法
US9690938B1 (en) * 2015-08-05 2017-06-27 Invincea, Inc. Methods and apparatus for machine learning based malware detection

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050180B (zh) * 2013-03-13 2017-06-06 华为技术有限公司 文件指纹处理方法及装置
CN103544317B (zh) * 2013-11-05 2017-12-19 北京国双科技有限公司 维度表数据的处理方法和装置
US20150046332A1 (en) * 2014-08-08 2015-02-12 Brighterion, Inc. Behavior tracking smart agents for artificial intelligence fraud protection and management
CN105718795B (zh) * 2015-08-28 2019-05-07 哈尔滨安天科技股份有限公司 Linux下基于特征码的恶意代码取证方法及系统
CN105574163A (zh) * 2015-12-16 2016-05-11 北京金山安全软件有限公司 一种文件处理方法、装置及电子设备
CN106934276B (zh) * 2015-12-30 2020-02-28 北京金山安全软件有限公司 一种检测移动终端系统安全性的方法、装置及移动终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592103A (zh) * 2011-01-17 2012-07-18 中国电信股份有限公司 文件安全处理方法、设备及系统
CN102768717A (zh) * 2012-06-29 2012-11-07 腾讯科技(深圳)有限公司 恶意文件检测的方法及装置
CN102867038A (zh) * 2012-08-30 2013-01-09 北京奇虎科技有限公司 文件类型的确定方法和装置
US9690938B1 (en) * 2015-08-05 2017-06-27 Invincea, Inc. Methods and apparatus for machine learning based malware detection
CN105139404A (zh) * 2015-08-31 2015-12-09 广州市幸福网络技术有限公司 一种可检测拍摄质量的证照相机及拍摄质量检测方法
CN106203076A (zh) * 2016-06-24 2016-12-07 武汉绿色网络信息服务有限责任公司 一种利用ebp判断恶意文件的方法

Also Published As

Publication number Publication date
CN108804917A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
US9652617B1 (en) Analyzing security of applications
WO2017045443A1 (zh) 一种图像检索方法及系统
CN108875364B (zh) 未知文件的威胁性判定方法、装置、电子设备及存储介质
WO2016201819A1 (zh) 检测恶意文件的方法和装置
CN111163072B (zh) 机器学习模型中特征值的确定方法、装置及电子设备
CN111159697B (zh) 一种密钥检测方法、装置及电子设备
CN108804918B (zh) 安全性防御方法、装置、电子设备及存储介质
CN111090615A (zh) 混合资产的分析处理方法、装置、电子设备及存储介质
CN111597309A (zh) 相似企业推荐方法、装置、电子设备及介质
CN112148305A (zh) 一种应用检测方法、装置、计算机设备和可读存储介质
CN112685735A (zh) 用于检测异常数据的方法、设备和计算机可读存储介质
CN108804917B (zh) 一种文件检测方法、装置、电子设备及存储介质
CN115174250A (zh) 网络资产安全评估方法、装置、电子设备及存储介质
JP6563350B2 (ja) データ分類装置、データ分類方法、及びプログラム
CN110659493A (zh) 威胁告警方式生成的方法、装置、电子设备及存储介质
CN111027065B (zh) 一种勒索病毒识别方法、装置、电子设备及存储介质
CN107688744B (zh) 基于图像特征匹配的恶意文件分类方法及装置
CN113282921A (zh) 一种文件检测方法、装置、设备及存储介质
CN107656927B (zh) 一种特征选择方法及设备
CN114338102B (zh) 安全检测方法、装置、电子设备及存储介质
CN115600199A (zh) 安全评估的方法、装置、电子设备及计算机可读存储介质
CN111813964B (zh) 基于生态环境的数据处理方法及相关设备
CN112099870B (zh) 文档处理方法、装置、电子设备及计算机可读存储介质
CN114117423A (zh) 仿冒应用信息获取方法、装置和设备
CN113922998A (zh) 一种漏洞风险评估方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 150028 Building 7, Innovation Plaza, Science and Technology Innovation City, Harbin Hi-tech Industrial Development Zone, Harbin, Heilongjiang Province (838 Shikun Road)

Applicant after: Harbin antiy Technology Group Limited by Share Ltd

Address before: 150090 506, room 162, Hongqi Street, Nangang 17 building, Harbin hi tech Industrial Development Zone, Heilongjiang.

Applicant before: Harbin Antiy Technology Co., Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 150028 building 7, innovation and entrepreneurship square, science and technology innovation city, Harbin high tech Industrial Development Zone, Harbin, Heilongjiang Province (No. 838, Shikun Road)

Applicant after: Antan Technology Group Co.,Ltd.

Address before: 150028 building 7, innovation and entrepreneurship square, science and technology innovation city, Harbin high tech Industrial Development Zone, Harbin, Heilongjiang Province (No. 838, Shikun Road)

Applicant before: Harbin Antian Science and Technology Group Co.,Ltd.

GR01 Patent grant
GR01 Patent grant