CN113609479A - 一种文件检测的方法、装置、电子设备及可读存储介质 - Google Patents

一种文件检测的方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113609479A
CN113609479A CN202110905966.XA CN202110905966A CN113609479A CN 113609479 A CN113609479 A CN 113609479A CN 202110905966 A CN202110905966 A CN 202110905966A CN 113609479 A CN113609479 A CN 113609479A
Authority
CN
China
Prior art keywords
file
detection
type
target file
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110905966.XA
Other languages
English (en)
Inventor
李鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202110905966.XA priority Critical patent/CN113609479A/zh
Publication of CN113609479A publication Critical patent/CN113609479A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本申请属于检测技术领域,公开了一种文件检测的方法、装置、电子设备及可读存储介质,该方法包括,获取目标文件的文件关联信息;根据目标文件的文件关联信息,确定目标文件的文件类型;根据文件类型对应设置的文件检测方式,对目标文件进行文件检测,获得检测结果。这样,针对不同的文件类型,采用不同的文件检测方式进行检测,扩大了文件检测的适用范围,提高了文件检测的准确度。

Description

一种文件检测的方法、装置、电子设备及可读存储介质
技术领域
本申请涉及检测技术领域,具体而言,涉及一种文件检测的方法、装置、电子设备及可读存储介质。
背景技术
随着互联网的发展,为提高文件安全性,通常需要对文件进行安全检测。
现有技术下,通常检测文件中是否包含设定关键词,以判断文件是否为异常文件,或者,对邮件的正文和主题进行检测,以判断邮件是否为异常邮件。
但是,现有技术下的检测方式比较单一,且仅能针对特定类型的文件进行检测,适用范围较小。
由此,如何提高文件检测的适用范围,是一个需要解决的技术问题。
发明内容
本申请实施例的目的在于提供一种文件检测的方法、装置、电子设备及可读存储介质,用以在对文件进行检测时,扩大文件检测的适用范围。
一方面,提供一种文件检测的方法,包括:
获取目标文件的文件关联信息;
根据目标文件的文件关联信息,确定目标文件的文件类型;
根据文件类型对应设置的文件检测方式,对目标文件进行文件检测,获得检测结果。
在上述实现过程中,可以对不同文件类型的目标文件,采用不同的文件检测方式进行文件检测,扩大文件检测的适用范围。
一种实施方式中,文件关联信息中包含以下参数中的任意一种或任意组合:
文件头信息、文件组成结构、文件内容以及媒体类型;
文件类型中包含以下类型中的任意一种或任意组合:
图片类型、文档类型、压缩类型、第一加密类型、第二加密类型以及其它类型。
在上述实现过程中,通过目标文件的文件关联信息,确定目标文件的文件类型。
一种实施方式中,在根据目标文件的文件关联信息,确定目标文件的文件类型之后,在根据文件类型对应设置的文件检测方式,对目标文件进行文件检测,获得检测结果之前,还包括:
采用信息摘要算法,确定目标文件的文件内容的散列值;
提取目标文件的文件特征信息;
若目标文件的文件名、散列值以及文件特征信息符合预设免检条件,则停止针对目标文件的文件检测流程。
在上述实现过程中,对目标文件进行筛选,以避免不必要的文件检测操作。
一种实施方式中,根据文件类型对应设置的文件检测方式,对目标文件进行文件检测,获得检测结果,包括:
对目标文件的二进制内容进行恶意检测以及加密检测,获得恶意检测信息和加密检测信息;
按照文件类型对应的文件检测方式,对目标文件进行文件检测,获得文件检测信息;
基于恶意检测信息、加密检测信息以及文件检测信息,获得检测结果。
在上述实现过程中,判断目标文件中是否存在恶意代码信息以及是否加密。
一种实施方式中,按照文件类型对应的文件检测方式,对目标文件进行文件检测,获得文件检测信息,包括:
若文件类型为文档类型,则提取目标文件的文本内容,并基于文本内容,对目标文件进行关键字检测;
若文件类型为图片类型,则提取目标文件的属性信息,并对目标文件进行文字识别,获得文字识别内容,以及基于属性信息和文字识别内容,对目标文件进行关键字检测;
若文件类型为第一加密类型,则对目标文件进行标密检测,获得目标文件的保密信息;
若文件类型为第二加密类型,则对目标文件进行密标检测,获得目标文件的保密信息。
在上述实现过程中,针对不同的文件类型,采用不同的文件检测方式进行检测,可以自适应调整文件检测方式,扩大了文件检测的适用范围,提高了文件检测的准确度。
一种实施方式中,在对目标文件的二进制内容进行恶意检测以及加密检测,获得恶意检测信息和加密检测信息之后,包括:
若文件类型为压缩类型,则基于设定解压文件深度,将目标文件进行解压,获得解压文件;
按照设定文件大小范围和设定文件夹剖析层,对解压文件进行筛选;
将目标文件更新为筛选出的解压文件,执行获取目标文件的文件关联信息的步骤。
在上述实现过程中,将压缩文件解压获得解压文件,并对解压文件进行文件检测。
一方面,提供一种文件检测的装置,包括:
获取单元,用于获取目标文件的文件关联信息;
确定单元,用于根据目标文件的文件关联信息,确定目标文件的文件类型;
获得单元,用于根据文件类型对应设置的文件检测方式,对目标文件进行文件检测,获得检测结果。
一种实施方式中,文件关联信息中包含以下参数中的任意一种或任意组合:
文件头信息、文件组成结构、文件内容以及媒体类型;
文件类型中包含以下类型中的任意一种或任意组合:
图片类型、文档类型、压缩类型、第一加密类型、第二加密类型以及其它类型。
一种实施方式中,获得单元还用于:
采用信息摘要算法,确定目标文件的文件内容的散列值;
提取目标文件的文件特征信息;
若目标文件的文件名、散列值以及文件特征信息符合预设免检条件,则停止针对目标文件的文件检测流程。
一种实施方式中,获得单元用于:
对目标文件的二进制内容进行恶意检测以及加密检测,获得恶意检测信息和加密检测信息;
按照文件类型对应的文件检测方式,对目标文件进行文件检测,获得文件检测信息;
基于恶意检测信息、加密检测信息以及文件检测信息,获得检测结果。
一种实施方式中,获得单元用于:
若文件类型为文档类型,则提取目标文件的文本内容,并基于文本内容,对目标文件进行关键字检测;
若文件类型为图片类型,则提取目标文件的属性信息,并对目标文件进行文字识别,获得文字识别内容,以及基于属性信息和文字识别内容,对目标文件进行关键字检测;
若文件类型为第一加密类型,则对目标文件进行标密检测,获得目标文件的保密信息;
若文件类型为第二加密类型,则对目标文件进行密标检测,获得目标文件的保密信息。
一种实施方式中,获得单元还用于:
若文件类型为压缩类型,则基于设定解压文件深度,将目标文件进行解压,获得解压文件;
按照设定文件大小范围和设定文件夹剖析层,对解压文件进行筛选;
将目标文件更新为筛选出的解压文件,执行获取目标文件的文件关联信息的步骤。
一方面,提供了一种电子设备,包括处理器以及存储器,存储器存储有计算机可读取指令,当计算机可读取指令由处理器执行时,运行如上述任一种文件检测的各种可选实现方式中提供的方法的步骤。
一方面,提供了一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时运行如上述任一种文件检测的各种可选实现方式中提供的方法的步骤。
一方面,提供了一种计算机程序产品,计算机程序产品在计算机上运行时,使得计算机执行如上述任一种文件检测的各种可选实现方式中提供的方法的步骤。
本申请实施例提供的一种文件检测的方法、装置、电子设备及可读存储介质中,获取目标文件的文件关联信息;根据目标文件的文件关联信息,确定目标文件的文件类型;根据文件类型对应设置的文件检测方式,对目标文件进行文件检测,获得检测结果。这样,针对不同的文件类型,采用不同的文件检测方式进行检测,可以自适应调整文件检测方式,扩大了文件检测的适用范围,提高了文件检测的准确度。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种文件检测的方法的实施流程图;
图2为本申请实施例提供的一种文件检测系统的架构示意图;
图3为本申请实施例提供的一种文件检测的装置的结构框图;
图4为本申请实施方式中一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
首先对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
终端设备:可以是移动终端、固定终端或便携式终端,例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。
服务器:可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。
为了在对文件进行检测时,可以扩大文件检测的适用范围,本申请实施例提供了一种文件检测的方法、装置、电子设备及可读存储介质。
本申请实施例中,执行主体可以为电子设备,可选的,电子设备可以为服务器,也可以为终端设备。
参阅图1所示,为本申请实施例提供的一种文件检测的方法的实施流程图,该方法的具体实施流程如下:
步骤100:获取目标文件的文件关联信息。
具体的,文件关联信息为用于确定文件类型的信息。目标文件为待检测的文件。
可选的,文件关联信息中可以包含以下参数中的任意一种或任意组合:
文件头信息、文件组成结构、文件内容以及媒体类型。
其中,媒体类型可以为多用途互联网邮件扩展(Multipurpose Internet MailExtensions,MIME)类型(TYPE)。
一种实施方式中,通过字段MIMETYPE,确定目标文件的媒体类型。
实际应用中,文件关联信息可以根据实际应用场景进行设置,还可以包含文件名等信息,在此不作限制。
这样,就可以在后续步骤中,通过文件关联信息确定文件类型。
步骤101:根据目标文件的文件关联信息,确定目标文件的文件类型。
具体的,文件类型可以包含以下类型中的任意一种或任意组合:
图片类型、文档类型、压缩类型、第一加密类型、第二加密类型以及其它类型。
其中,第一加密类型是指文件采用了第一加密方式进行加密。第二加密类型是指文件采用了第二加密方式进行加密。
一种实施方式中,第一加密方式为非特殊加密,第二加密方式为特殊加密。
实际应用中,文件类型也可以为其它类型,如,邮件类型,在此不作限制。
可选的,一个目标文件可以有一个或多个文件类型。
例如,目标文件为采用第一加密方式进行加密后的压缩文件,则目标文件的文件类型包括压缩类型和第一加密类型。
进一步的,还可以根据确定出的文件类型,更新目标文件的文件名后缀。
一种实施方式中,若目标文件没有文件名后缀,则根据确定出的文件类型,添加目标文件中的文件名后缀。
一种实施方式中,由于目标文件中的文件名后缀可能为错误后缀,因此,可以根据确定出的文件类型,更新目标文件中的文件名后缀。
这样,就可以确定目标文件的文件类型。
步骤102:根据文件类型对应设置的文件检测方式,对目标文件进行文件检测,获得检测结果。
具体的,执行步骤102时,可以采用以下步骤:
S1021:对目标文件的二进制内容进行恶意检测以及加密检测,获得恶意检测信息和加密检测信息。
具体的,提取目标文件的二进制内容,并基于提取的二进制内容,判断目标文件是否为加密后的文件,获得目标文件的加密信息,如,加密类型,若目标文件为加密文件,则根据加密信息,判断目标文件的文件类型为第一加密类型还是第二加密类型,以及,基于目标文件的文件关联信息和二进制内容分别与设定恶意信息的匹配度,判断目标文件是否为恶意文件。
其中,设定恶意信息可以为一个或多个,可以为恶意字符串,也可以为其它形式的信息,可以为用户自定义设置的,也可以为实时或周期性从网络中获取的。
可选的,设定恶意信息为用户自定义的16进制的恶意字符串,也可以为恶意文件的散列值。
这样,若二进制内容中包含恶意字符串,或者,目标文件的散列值为恶意文件的散列值,则可以确定目标文件为恶意文件。
S1022:按照文件类型对应的文件检测方式,对目标文件进行文件检测,获得文件检测信息。
具体的,每一目标文件可以对应一个或多个文件类型,每一文件类型也可以对应一个或多个文件检测方式。
可选的,文件检测方式包括以下方式中的任意一种或任意组合:
恶意检测、加密检测、关键字检测、版式检测、标密检测以及密标检测。
其中,恶意检测用于检测文件中是否包含恶意代码。加密检测用于检测文件是否为加密文件。版式检测用于检测文件的版式。标密检测用于检测第一加密类型的文件的保密信息。密标检测用于检测第二加密类型的文件的保密信息。
例如,目标文件对应的文件类型为图片类型以及第一加密类型,则图片类型对应的文件检测方式为关键字检测以及标密检测。
实际应用中,文件类型与文件检测方式之间的对应关系,可以根据实际应用进行设置,在此不作限制。
其中,执行S1022时,可以采用以下方式:
第一种方式为:若文件类型为文档类型,则提取目标文件的文本内容,并基于文本内容,对目标文件进行关键字检测。
具体的,将文本内容与关键字匹配规则进行匹配,获得关键词检测结果。
其中,关键词检测结果可以为目标文件是否为恶意文件,以及目标文件的恶意类型。
其中,关键字匹配规则可以根据以下参数中的任意一种或任意组合确定:
关键字、关键字的匹配次数、关键字逻辑组合、关键字逻辑组合的匹配次数,关键字位置。
其中,关键字位置是指关键字在目标文件中的位置。关键字逻辑组合可以采用以下方式确定:将多个关键字,按照设定的逻辑关系进行组合。
可选的,逻辑关系可以为用户自定义设置的,也可以为系统默认设置的,可以包括以下关系中的任意一种或任意组合:“与”、“或”以及各关键字在关键子逻辑组合中的排列位置。
实际应用中,关键字匹配规则可以根据实际应用场景进行设置,如,用户可以自定义设置关键字匹配规则,又例如,关键字可以为从网络中筛选出的关键字,如,设定领域中的关键字。
一种实施方式中,若文件内容中包含关键字,且该关键字的出现次数高于设定关键字次数,则确定目标文件为异常的或者恶意的文件。
一种实施方式中,若将关键字逻辑组合与文件内容进行匹配,确定文件内容中包含关键字逻辑组合中的关键字,且文件内容中的各关键字的逻辑关系,符合关键字逻辑组合中的逻辑关系,则确定目标文件为目标的异常文件。
一种实施方式中,采用匹配引擎(hyperscan),将文本内容与关键字匹配规则进行匹配,获得关键词检测结果。
一种实施方式中,将关键字匹配规则进行解析,将“与”关系的关键词进行位置组合,并根据组合结果,对目标文件进行文件检测,接着,将|“或”关系的关键字进行位置组合,并根据组合结果,对目标文件进行文件检测,进一步的,根据匹配结果,判断是否将目标文件与指定关键字(如,指定技术领域的关键字以及自定义的关键字等)。
第二种方式为:若文件类型为图片类型,则提取目标文件的属性信息,并对目标文件进行图文识别,获得图像中的文字识别内容,以及基于属性信息和文字识别内容,对目标文件进行关键字检测。
具体的,若目标文件符合图片筛选条件,则提取目标文件中的属性信息,并将属性信息与对应的关键词字配规则进行匹配,获得属性信息的关键词检测结果,再者,对目标文件进行文字识别,获得文字识别内容,并基于将文字识别内容与对应的关键字匹配结果进行匹配,获得文件识别内容的关键词检测结果。
其中,属性信息可以包括以下参数中的任意一种或任意组合:
图片旋转角度、图片拍摄时间、图片拍摄作者及图片拍摄工具。
可选的,属性信息和文字识别内容分别对应的关键词字配规则可以为同一规则,也可以为不同规则,在此不作限制。
进一步的,还可以将目标文件的图片旋转角度进行修复。
第三种方式为:若文件类型为第一加密类型,则对目标文件进行标密检测,获得目标文件的保密信息。
具体的,若文件类型为第一加密类型,则对应的文件检测方式为版式检测和标密检测,则分别对目标文件进行版式检测和标密检测。
一种实施方式中,获取目标文件的文件内容,并提取文件内容中指定位置的版式内容,将版式内容与版式匹配规则进行匹配,根据获得的规则匹配个数以及规则匹配等级,确定目标文件的版式信息,基于目标文件的头部信息以及页眉页脚信息,确定目标文件的保密信息。
其中,保密信息可以包含以下参数中的任意一种或组合:保密级别以及保密期限。
其中,版式匹配规则可以基于以下参数中的任意一种或任意组合确定:
版式关键字、关键字位置、内容相关性、内容完成行以及落款红章。
实际应用中,版式匹配规则可以为一个,也可以为多个,不同版式匹配规则的等级可以不同,以及保密信息和版式匹配规则均可以根据实际应用场景进行设置,在此不作限制。
这样,就可以采用多个版式匹配规则,全面检测出目标文件的版式信息。
第四种方式为:若文件类型为第二加密类型,则对目标文件进行密标检测,获得目标文件的保密信息。
可选的,文件类型为第二加密类型时,也可以对目标文件进行版式检测。
进一步的,还可以设置各文件检测方式的优先级,当目标文件对应多个文件检测方式时,按照该优先级,依次对目标文件进行文件检测。
这样,就可以针对不同的目标文件,自适应调整文件检测方式,对目标文件进行全面的检测。
需要说明的是,若文件类型为压缩类型,则将目标文件进行解压,并将解压文件确定为目标文件,执行步骤100。
具体的,若文件类型为压缩类型,则基于设定解压文件深度,将目标文件进行解压,获得解压文件,并按照设定文件大小范围和设定文件夹剖析层,对解压文件进行筛选,以及将目标文件更新为筛选出的解压文件。
一种实施方式中,基于解压密码,将解压文件层层解压,直到达到设定解压层数,获得解压文件,并从解压文件中,筛选出设定文件大小范围和设定文件夹剖析层的解压文件,以及将目标文件更新为筛选出的解压文件。
实际应用中,可以采用用户自定义或者系统默认配置的方式,也可以采用其它方式设置解压文件深度、设定文件大小范围和设定文件夹剖析层,在此不作限制。
这样,就可以将文件解压后再进行文件检测。
S1023:基于恶意检测信息、加密检测信息以及文件检测信息,获得检测结果。
在执行步骤102之前,还可以先对文件进行筛选。
一种实施方式中,对文件进行筛选时,可以采用以下步骤:
第一步:采用信息摘要算法,确定目标文件的文件内容的散列值。
可选的,信息摘要算法可以为MD5信息摘要算法。
一种实施方式中,采用MD5信息摘要算法(Message-Digest Algorithm 5,MD5),确定目标文件的文件内容的MD5(散列值)。
实际应用中,信息摘要算法也可以采用其它哈希算法,在此不作限制。
第二步:提取目标文件的文件特征信息。
第三步:若目标文件的文件名、散列值以及文件特征信息符合预设免检条件,则停止针对目标文件的文件检测流程。
具体的,若目标文件的文件名、散列值以及文件特征信息中的任意一种或任意组合,符合预设免检条件,则停止针对目标文件的文件检测流程。
其中,预设免检条件是基于文件名、散列值以及文件特征信息中的任意一种或任意组合设置的。实际应用中,预设免检条件可以根据实际应用场景进行设置,在此不作限制。
一种实施方式中,获取白名单,若文件名、散列值以及文件特征信息中的任意一种或任意组合被白名单包含,则停止针对目标文件的文件检测流程。
其中,白名单中可以包含已检测文件的文件名、安全文件的文件名、散列值以及文件特征信息中的任意一种或任意组合。安全文件为确定安全无异常不需要检测的文件。
一种实施方式中,采集已经检测完成后的各文件的散列值,获得已检测散列值集合,若已检测散列值集合中包含目标文件的散列值,则确定该目标文件已经被检测过,为避免无效的重复检测,停止针对目标文件的文件检测流程。
一种实施方式中,为提高检测效率,也可以获取已检测文件名集合。已检测文件名集合中为已检测文件的文件名的集合。若已检测文件名集合中包含目标文件的文件名,则进一步确定目标文件的散列值,若匹配的已检测文件的散列值与目标文件的散列值相同,则停止针对目标文件的文件检测流程。
这是由于散列值计算会耗费大量的系统资源和时间资源,因此,可以先通过文件名进行匹配,以提高文件匹配效率。
进一步的,还可以采用其它方式,如文件大小以及图片分辨率等,对目标文件进行筛选,在此不作限制。
一种实施方式中,获取目标文件的文件大小,若文件大小低于设定文件容量阈值,则停止针对目标文件的文件检测流程。
一种应用场景中,可以将本申请实施例提供的文件检测方法应用于监控流量的服务器,还可以采用旁路监听的模式,依附于用于安全审计的服务器,以对流量中的各文件进行全面、多维度且准确的文件检测。实际应用中,本申请实施例也可以应用于其它需要文件检测的场景,在此不作限制。
参阅图2所示,为本申请实施例中提供的一种文件检测系统的架构示意图。文件检测系统中包括文件类型识别模块、文件筛选模块、其它类型模块、图片类型模块、文档类型模块、压缩类型模块、二进制内容提取模块、图文识别模块、文本提取模块、解压模块、恶意检测模块、加密检测模块、关键字检测模块、版式检测模块、标密检测模块以及密标检测模块。
一种实施方式中,文件检测系统接收到待检测的目标文件后,通过文件类型识别模块,识别目标文件的文件类型,并通过文件筛选模块对目标文件进行筛选,若目标文件符合预设免检条件,则通过二进制内容提取模块提取目标文件的二进制内容,并采用分别采用恶意检测模块和加密检测模块,基于该二进制内容分别进行恶意检测和加密检测。
若文件类型为图片类型,则采用图文识别模块对目标文件进行图文识别,识别出目标文件图像中的文字,并通过文本提取模块对图文识别内容进行文本提取,以及依次采用关键字模块、版式检测模块、标密检测模块以及密标检测模块,对该文本提取内容进行检测。
若目标文件为文档类型,则通过文本提取模块对目标文件进行文本提取,并依次采用关键字模块、版式检测模块、标密检测模块以及密标检测模块,对目标文件中的文本提取内容进行检测。
若目标文件为压缩类型,则目标文件进行解压,并将解压文件作为新的目标文件,并将新的目标文件输入文件类型识别模块。
最后,文件检测系统输出目标文件的检测结果。
本申请实施例中,可以识别出目标文件的文件类型,并根据目标文件的文件类型,自适应调整对目标文件的文件检测方式,从而可以对任意类型的文件进行检测,提高了文件检测的适用范围,可以精确的检测出目标文件中的恶意攻击信息以及内容涵盖信息,保证了文件检测的准确性、高效性以及全面性,进一步的,可以个性化定制文件检测方式,提高了文件检测的灵活性。
基于同一发明构思,本申请实施例中还提供了一种文件检测的装置,由于上述装置及设备解决问题的原理与一种文件检测的方法相似,因此,上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图3所示,其为本申请实施例提供的一种文件检测的装置的结构示意图,包括:
获取单元301,用于获取目标文件的文件关联信息;
确定单元302,用于根据目标文件的文件关联信息,确定目标文件的文件类型;
获得单元303,用于根据文件类型对应设置的文件检测方式,对目标文件进行文件检测,获得检测结果。
一种实施方式中,文件关联信息中包含以下参数中的任意一种或任意组合:
文件头信息、文件组成结构、文件内容以及媒体类型;
文件类型中包含以下类型中的任意一种或任意组合:
图片类型、文档类型、压缩类型、第一加密类型、第二加密类型以及其它类型。
一种实施方式中,获得单元303还用于:
采用信息摘要算法,确定目标文件的文件内容的散列值;
提取目标文件的文件特征信息;
若目标文件的文件名、散列值以及文件特征信息符合预设免检条件,则停止针对目标文件的文件检测流程。
一种实施方式中,获得单元303用于:
对目标文件的二进制内容进行恶意检测以及加密检测,获得恶意检测信息和加密检测信息;
按照文件类型对应的文件检测方式,对目标文件进行文件检测,获得文件检测信息;
基于恶意检测信息、加密检测信息以及文件检测信息,获得检测结果。
一种实施方式中,获得单元303用于:
若文件类型为文档类型,则提取目标文件的文本内容,并基于文本内容,对目标文件进行关键字检测;
若文件类型为图片类型,则提取目标文件的属性信息,并对目标文件进行文字识别,获得文字识别内容,以及基于属性信息和文字识别内容,对目标文件进行关键字检测;
若文件类型为第一加密类型,则对目标文件进行标密检测,获得目标文件的保密信息;
若文件类型为第二加密类型,则对目标文件进行密标检测,获得目标文件的保密信息。
一种实施方式中,获得单元303还用于:
若文件类型为压缩类型,则基于设定解压文件深度,将目标文件进行解压,获得解压文件;
按照设定文件大小范围和设定文件夹剖析层,对解压文件进行筛选;
将目标文件更新为筛选出的解压文件,执行获取目标文件的文件关联信息的步骤。
本申请实施例提供的一种文件检测的方法、装置、电子设备及可读存储介质中,获取目标文件的文件关联信息;根据目标文件的文件关联信息,确定目标文件的文件类型;根据文件类型对应设置的文件检测方式,对目标文件进行文件检测,获得检测结果。这样,针对不同的文件类型,采用不同的文件检测方式进行检测,可以自适应调整文件检测方式,扩大了文件检测的适用范围,提高了文件检测的准确度。
图4示出了一种电子设备4000的结构示意图。参阅图4所示,电子设备4000包括:处理器4010和存储器4020,还可以包括电源4030、显示单元4040、输入单元4050。
处理器4010是电子设备4000的控制中心,利用各种接口和线路连接各个部件,通过运行或执行存储在存储器4020内的软件程序和/或数据,执行电子设备4000的各种功能,从而对电子设备4000进行整体监控。
本申请实施例中,处理器4010调用存储器4020中存储的计算机程序时执行如图1中所示的实施例提供的文件检测的方法。
可选的,处理器4010可包括一个或多个处理单元;优选的,处理器4010可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器4010中。在一些实施例中,处理器、存储器、可以在单一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
存储器4020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、各种应用等;存储数据区可存储根据电子设备4000的使用所创建的数据等。此外,存储器4020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。
电子设备4000还包括给各个部件供电的电源4030(比如电池),电源可以通过电源管理系统与处理器4010逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗等功能。
显示单元4040可用于显示由用户输入的信息或提供给用户的信息以及电子设备4000的各种菜单等,本发明实施例中主要用于显示电子设备4000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元4040可以包括显示面板4041。显示面板4041可以采用液晶显示屏(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置。
输入单元4050可用于接收用户输入的数字或字符等信息。输入单元4050可包括触控面板4051以及其他输入设备4052。其中,触控面板4051,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板4051上或在触控面板4051附近的操作)。
具体的,触控面板4051可以检测用户的触摸操作,并检测触摸操作带来的信号,将这些信号转换成触点坐标,发送给处理器4010,并接收处理器4010发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4051。其他输入设备4052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
当然,触控面板4051可覆盖显示面板4041,当触控面板4051检测到在其上或附近的触摸操作后,传送给处理器4010以确定触摸事件的类型,随后处理器4010根据触摸事件的类型在显示面板4041上提供相应的视觉输出。虽然在图4中,触控面板4051与显示面板4041是作为两个独立的部件来实现电子设备4000的输入和输出功能,但是在某些实施例中,可以将触控面板4051与显示面板4041集成而实现电子设备4000的输入和输出功能。
电子设备4000还可包括一个或多个传感器,例如压力传感器、重力加速度传感器、接近光传感器等。当然,根据具体应用中的需要,上述电子设备4000还可以包括摄像头等其它部件,由于这些部件不是本申请实施例中重点使用的部件,因此,在图4中没有示出,且不再详述。
本领域技术人员可以理解,图4仅仅是电子设备的举例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
本申请实施例中,一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使得通信设备可以执行上述实施例中的各个步骤。
本申请实施例中,一种计算机程序产品,计算机程序产品在计算机上运行时,使得计算机执行可以执行上述实施例中的各个步骤。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中设定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中设定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中设定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (14)

1.一种文件检测的方法,其特征在于,包括:
获取目标文件的文件关联信息;
根据所述目标文件的文件关联信息,确定所述目标文件的文件类型;
根据所述文件类型对应设置的文件检测方式,对所述目标文件进行文件检测,获得检测结果。
2.如权利要求1所述的方法,其特征在于,所述文件关联信息中包含以下参数中的任意一种或任意组合:
文件头信息、文件组成结构、文件内容以及媒体类型;
所述文件类型中包含以下类型中的任意一种或任意组合:
图片类型、文档类型、压缩类型、第一加密类型、第二加密类型以及其它类型。
3.如权利要求1所述的方法,其特征在于,在根据所述目标文件的文件关联信息,确定所述目标文件的文件类型之后,在根据所述文件类型对应设置的文件检测方式,对所述目标文件进行文件检测,获得检测结果之前,还包括:
采用信息摘要算法,确定所述目标文件的文件内容的散列值;
提取所述目标文件的文件特征信息;
若所述目标文件的文件名、散列值以及文件特征信息符合预设免检条件,则停止针对所述目标文件的文件检测流程。
4.如权利要求1-3任一项所述的方法,其特征在于,根据所述文件类型对应设置的文件检测方式,对所述目标文件进行文件检测,获得检测结果,包括:
对所述目标文件的二进制内容进行恶意检测以及加密检测,获得恶意检测信息和加密检测信息;
按照所述文件类型对应的文件检测方式,对所述目标文件进行文件检测,获得文件检测信息;
基于所述恶意检测信息、所述加密检测信息以及所述文件检测信息,获得检测结果。
5.如权利要求4所述的方法,其特征在于,所述按照所述文件类型对应的文件检测方式,对所述目标文件进行文件检测,获得文件检测信息,包括:
若所述文件类型为文档类型,则提取所述目标文件的文本内容,并基于所述文本内容,对所述目标文件进行关键字检测;
若所述文件类型为图片类型,则提取所述目标文件的属性信息,并对所述目标文件进行文字识别,获得文字识别内容,以及基于所述属性信息和所述文字识别内容,对所述目标文件进行关键字检测;
若所述文件类型为第一加密类型,则对所述目标文件进行标密检测,获得所述目标文件的保密信息;
若所述文件类型为第二加密类型,则对所述目标文件进行密标检测,获得所述目标文件的保密信息。
6.如权利要求4所述的方法,其特征在于,在对所述目标文件的二进制内容进行恶意检测以及加密检测,获得恶意检测信息和加密检测信息之后,包括:
若所述文件类型为压缩类型,则基于设定解压文件深度,将所述目标文件进行解压,获得解压文件;
按照设定文件大小范围和设定文件夹剖析层,对解压文件进行筛选;
将所述目标文件更新为筛选出的解压文件,执行所述获取目标文件的文件关联信息的步骤。
7.一种文件检测的装置,其特征在于,包括:
获取单元,用于获取目标文件的文件关联信息;
确定单元,用于根据所述目标文件的文件关联信息,确定所述目标文件的文件类型;
获得单元,用于根据所述文件类型对应设置的文件检测方式,对所述目标文件进行文件检测,获得检测结果。
8.如权利要求7所述的装置,其特征在于,所述文件关联信息中包含以下参数中的任意一种或任意组合:
文件头信息、文件组成结构、文件内容以及媒体类型;
所述文件类型中包含以下类型中的任意一种或任意组合:
图片类型、文档类型、压缩类型、第一加密类型、第二加密类型以及其它类型。
9.如权利要求7所述的装置,其特征在于,所述获得单元还用于:
采用信息摘要算法,确定所述目标文件的文件内容的散列值;
提取所述目标文件的文件特征信息;
若所述目标文件的文件名、散列值以及文件特征信息符合预设免检条件,则停止针对所述目标文件的文件检测流程。
10.如权利要求7-9任一项所述的装置,其特征在于,所述获得单元用于:
对所述目标文件的二进制内容进行恶意检测以及加密检测,获得恶意检测信息和加密检测信息;
按照所述文件类型对应的文件检测方式,对所述目标文件进行文件检测,获得文件检测信息;
基于所述恶意检测信息、所述加密检测信息以及所述文件检测信息,获得检测结果。
11.如权利要求10所述的装置,其特征在于,所述获得单元用于:
若所述文件类型为文档类型,则提取所述目标文件的文本内容,并基于所述文本内容,对所述目标文件进行关键字检测;
若所述文件类型为图片类型,则提取所述目标文件的属性信息,并对所述目标文件进行文字识别,获得文字识别内容,以及基于所述属性信息和所述文字识别内容,对所述目标文件进行关键字检测;
若所述文件类型为第一加密类型,则对所述目标文件进行标密检测,获得所述目标文件的保密信息;
若所述文件类型为第二加密类型,则对所述目标文件进行密标检测,获得所述目标文件的保密信息。
12.如权利要求10所述的装置,其特征在于,所述获得单元还用于:
若所述文件类型为压缩类型,则基于设定解压文件深度,将所述目标文件进行解压,获得解压文件;
按照设定文件大小范围和设定文件夹剖析层,对解压文件进行筛选;
将所述目标文件更新为筛选出的解压文件,执行所述获取目标文件的文件关联信息的步骤。
13.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-6任一所述方法。
14.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-6任一所述方法。
CN202110905966.XA 2021-08-06 2021-08-06 一种文件检测的方法、装置、电子设备及可读存储介质 Pending CN113609479A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110905966.XA CN113609479A (zh) 2021-08-06 2021-08-06 一种文件检测的方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110905966.XA CN113609479A (zh) 2021-08-06 2021-08-06 一种文件检测的方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113609479A true CN113609479A (zh) 2021-11-05

Family

ID=78307585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110905966.XA Pending CN113609479A (zh) 2021-08-06 2021-08-06 一种文件检测的方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113609479A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114866305A (zh) * 2022-04-27 2022-08-05 国汽智控(北京)科技有限公司 入侵检测方法、装置、计算机设备及介质
CN116150786A (zh) * 2023-01-10 2023-05-23 深圳技术大学 基于指令密匙自行设定的u盘文件加密系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1780266A (zh) * 2004-11-26 2006-05-31 郑志文 解析邮件行为控制电子邮件的方法
CN106911678A (zh) * 2017-02-14 2017-06-30 杭州迪普科技股份有限公司 一种病毒检测方法及装置
CN108427888A (zh) * 2017-02-15 2018-08-21 阿里巴巴集团控股有限公司 文件签名方法、文件校验方法及对应装置和设备
CN111866002A (zh) * 2020-07-27 2020-10-30 中国工商银行股份有限公司 用于检测邮件安全性的方法、装置、系统及介质
CN111966630A (zh) * 2020-08-05 2020-11-20 北京锐安科技有限公司 文件类型的检测方法、装置、设备和介质
CN112637013A (zh) * 2020-12-21 2021-04-09 苏州三六零智能安全科技有限公司 Can总线报文异常检测方法及装置、设备、存储介质
CN113051231A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 文件解析方法、装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1780266A (zh) * 2004-11-26 2006-05-31 郑志文 解析邮件行为控制电子邮件的方法
CN106911678A (zh) * 2017-02-14 2017-06-30 杭州迪普科技股份有限公司 一种病毒检测方法及装置
CN108427888A (zh) * 2017-02-15 2018-08-21 阿里巴巴集团控股有限公司 文件签名方法、文件校验方法及对应装置和设备
CN113051231A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 文件解析方法、装置、计算机设备和存储介质
CN111866002A (zh) * 2020-07-27 2020-10-30 中国工商银行股份有限公司 用于检测邮件安全性的方法、装置、系统及介质
CN111966630A (zh) * 2020-08-05 2020-11-20 北京锐安科技有限公司 文件类型的检测方法、装置、设备和介质
CN112637013A (zh) * 2020-12-21 2021-04-09 苏州三六零智能安全科技有限公司 Can总线报文异常检测方法及装置、设备、存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114866305A (zh) * 2022-04-27 2022-08-05 国汽智控(北京)科技有限公司 入侵检测方法、装置、计算机设备及介质
CN116150786A (zh) * 2023-01-10 2023-05-23 深圳技术大学 基于指令密匙自行设定的u盘文件加密系统
CN116150786B (zh) * 2023-01-10 2023-11-28 深圳技术大学 基于指令密匙自行设定的u盘文件加密系统

Similar Documents

Publication Publication Date Title
US20170279840A1 (en) Automated event id field analysis on heterogeneous logs
CN111601115B (zh) 一种视频检测的方法、相关装置、设备及存储介质
EP3839785B1 (en) Characterizing malware files for similarity searching
CN113609479A (zh) 一种文件检测的方法、装置、电子设备及可读存储介质
CN115150261B (zh) 告警分析的方法、装置、电子设备及存储介质
CN114973351B (zh) 人脸识别方法、装置、设备及存储介质
WO2018140172A1 (en) Determining computer ownership
CN114253866B (zh) 恶意代码检测的方法、装置、计算机设备及可读存储介质
CN116956080A (zh) 一种数据处理方法、装置以及存储介质
CN115580450A (zh) 流量检测的方法、装置、电子设备及计算机可读存储介质
CN114661527A (zh) 数据备份方法、装置、电子设备及存储介质
CN116168038A (zh) 一种图像翻拍检测的方法、装置、电子设备及存储介质
CN111368128B (zh) 目标图片的识别方法、装置和计算机可读存储介质
WO2023217086A1 (zh) 资源文件更新方法、装置、设备及可读存储介质
Toldinas et al. Suitability of the digital forensic tools for investigation of cyber crime in the internet of things and services
CN105354506B (zh) 隐藏文件的方法和装置
CN115600199A (zh) 安全评估的方法、装置、电子设备及计算机可读存储介质
JP5639501B2 (ja) 盗難状態判定システム及び盗難状態判定プログラム
US12001400B2 (en) Method and apparatus for synchronizing file
CN113922998A (zh) 一种漏洞风险评估方法、装置、电子设备及可读存储介质
CN113360916A (zh) 应用程序编程接口的风险检测方法、装置、设备及介质
CN114398994A (zh) 基于图像识别的业务异常检测方法、装置、设备及介质
CN113705722B (zh) 一种操作系统版本识别的方法、装置、设备和介质
Kayabaş et al. Cyber wars and cyber threats against mobile devices: Analysis of mobile devices
CN107169353B (zh) 异常文件识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination