CN113449301A - 一种样本检测方法、装置、设备及计算机可读存储介质 - Google Patents
一种样本检测方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113449301A CN113449301A CN202110691793.6A CN202110691793A CN113449301A CN 113449301 A CN113449301 A CN 113449301A CN 202110691793 A CN202110691793 A CN 202110691793A CN 113449301 A CN113449301 A CN 113449301A
- Authority
- CN
- China
- Prior art keywords
- file
- malicious
- processed
- feature
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/566—Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Storage Device Security (AREA)
Abstract
本申请实施例公开了一种样本检测方法,方法包括:对待处理文件进行分析提取待处理文件中的特征,并计算特征的第一特征值;其中,特征包括代码和/或链接;基于特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定待处理文件是否为恶意文件。本申请实施例还公开了一种样本检测装置、设备及计算机可读存储介质。
Description
技术领域
本申请涉及计算机领域的样本检测技术,尤其涉及一种样本检测方法、装置、设备及计算机可读存储介质。
背景技术
在日常的学习或工作中,用户经常会需求要使用非可移植的可执行文件(Portable Executable,PE),但是,用户使用的非PE文件可能会感染恶意病毒,从而导致电子设备被恶意病毒攻击。为了避免上述情况发生,相关技术中利用第三方杀毒软件从非PE恶意样本文件中解提取特征,之后采用提取到的特征扫描待处理非PE文件进行特征匹配,以此来确定待处理非PE文件是否为恶意文件。但,相关技术中提取得到的特征中包含大量的通配符使得特征的含义不清楚,导致对文件是否为恶意文件的判断不够准确,甚至会存在误判的情况。
发明内容
为解决上述技术问题,本申请实施例提供一种样本检测方法、装置、设备及计算机可读存储介质,解决了相关技术中的提取得到的特征中包含大量的通配符使得特征的含义不清楚的问题,提高了判断文件是否为恶意文件的准确率,避免了误判的情况发生。
本申请的技术方案是这样实现的:
一种样本检测方法,所述方法包括:
对待处理文件进行分析提取所述待处理文件中的特征,并计算所述特征的第一特征值;其中,所述特征包括代码和/或链接;
基于所述特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定所述待处理文件是否为恶意文件。
上述方案中,所述对所述待处理文件进行分析提取所述待处理文件中用于表征网页地址的特征,并计算所述特征的第一特征值,包括:
获取所述待处理文件的文件类型;
确定所述待处理文件的文件类型为目标文件类型的情况下,对所述待处理文件进行分析提取所述待处理文件中的特征,并计算所述特征的第一特征值。
上述方案中,所述确定所述待处理文件的文件类型为目标文件类型的情况下,对所述待处理文件进行分析提取所述待处理文件中的特征,并计算所述特征的第一特征值,包括:
确定所述待处理文件的文件类型为目标文件类型的情况下,确定所述待处理文件中所述特征的位置信息;
基于所述位置信息,从所述待处理文件中提取所述特征;
对所述特征的语义信息进行分析,确定所述特征的第一特征值。
上述方案中,所述基于所述特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定所述待处理文件是否为恶意文件,包括:
将所述待处理文件中的第一特征值与所述恶意特征库中的所述恶意特征的第二特征值进行匹配处理;
在所述恶意特征的第二特征值中存在与所述第一特征值匹配的特征值的情况下,确定所述待处理文件为恶意文件。
上述方案中,所述方法还包括:
在每一所述第一特征值均与所述第二特征值不匹配的情况下,对待处理文件继续进行分析提取所述待处理文件中的剩余特征,并基于所述剩余特征的第一特征值与所述恶意特征库中所述恶意特征的第二特征值,确定所述待处理文件是否为恶意文件。
上述方案中,所述在所述待处理文件中提取到多个特征的情况下,所述基于所述特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定所述待处理文件是否为恶意文件,包括:
针对每一特征,基于所述每一特征的第一特征值与所述恶意特征库中恶意特征的第二特征值确定所述待处理文件的中间结果,所述中间结果包括恶意结果或非恶意结果;
在所有中间结果中存在至少一个恶意结果的情况下,确定所述待处理文件为恶意文件。
上述方案中,所述方法还包括:
在确定所述待处理文件为恶意文件的情况下,生成恶意文件告警信息并输出。
一种样本检测装置,所述装置包括:
计算单元,用于对待处理文件进行分析提取所述待处理文件中的特征,并计算所述特征的第一特征值;其中,所述特征包括代码和/或链接;
确定单元,用于基于所述特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定所述待处理文件是否为恶意文件
一种样本检测设备,所述设备包括:处理器、存储器和通信总线;
所述通信总线用于实现所述处理器和所述存储器之间的通信连接;
所述处理器用于执行所述存储器中存储的样本检测程序,以实现以下步骤:
对待处理文件进行分析提取所述待处理文件中的特征,并计算所述特征的第一特征值;其中,所述特征包括代码和/或链接;
基于所述特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定所述待处理文件是否为恶意文件。
一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述的样本检测方法的步骤。
本申请实施例所提供的样本检测方法、装置、设备及计算机可读存储介质,对待处理文件进行分析提取待处理文件中的特征,并计算特征的第一特征值;其中,特征包括代码和/或链接;基于特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定待处理文件是否为恶意文件;如此,可以基于待处理文件中特征的第一特征值与恶意特征的第二特征值,确定待处理文件是否为恶意文件,而不需要使用第三方杀毒软件来查找特征,解决了相关技术中的提取得到的特征中包含大量的通配符使得特征的含义不清楚的问题,提高了确定待处理文件是否为恶意文件的准确率,避免了误判的情况发生。
附图说明
图1为本申请的实施例提供的一种样本检测方法的流程示意图;
图2为本申请的实施例提供的另一种样本检测方法的流程示意图;
图3为本申请的实施例提供的又一种样本检测方法的流程示意图;
图4为本申请的实施例提供的一种样本检测装置的结构示意图;
图5为本申请的实施例提供的一种样本检测设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请的实施例提供一种样本检测方法,该方法可以应用于样本检测设备中,参照图1所示,该方法包括以下步骤:
步骤101、对待处理文件进行分析提取待处理文件中的特征,并计算特征的第一特征值。
其中,特征包括代码和/或链接。
在本申请实施例中,待处理文件是需要进行分析的文件信息;待处理文件可以是未被病毒攻击的文件,也可以是被病毒攻击的文件;需要说明的是,待处理文件的格式可以是特定格式的文件。样本检测设备可以为具有样本检测分析功能的设备。
在本申请其他实施例中,待处理文件中的特征可以是对待处理文件进行分析后,从待处理文件中提取出具有固定语义格式的信息后得到的;其中,待处理文件中的特征可以包括安全特征和恶意特征;其中,安全特征也可以称之为非恶意特征;需要说明的是,第二特征值可以是采用预定的计算算法对待处理文件中的特征进行计算后得到的。
步骤102、基于特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定待处理文件是否为恶意文件。
其中,恶意特征库中包括恶意特征的第一特征值;恶意特征是具有固定语义格式的信息;待处理文件中的特征的固定语义格式与恶意特征的固定语义格式是相同的。
在本申请实施例中,样本检测设备可以为具有样本检测分析功能的设备。恶意特征指的是携带有恶意病毒的特征;其中,恶意病毒包括但不限于恶意代码和/或恶意链接;恶意特征可以是对大量携带有恶意病毒的文本进行分析后,从该携带有恶意病毒的文本中提取得到的;恶意特征库可以是恶意特征的第一特征值构成的。
需要说明的是,恶意特征库可以是预先在确定待处理文件是否为恶意文件之前确定出来的,也可以是在确定待处理文件是否为恶意文件的处理过程中确定出来的。
在本申请实施例中,可以将待处理文本的特征的第一特征值与恶意特征库中的第二特征值进行匹配处理,之后可以根据第一特征值与恶意特征库中的第二特征值的匹配结果,来确定待处理文件是否为恶意文件。
需要说明的是,本申请实施例中是以待处理文件中具有固定语义格式的信息作为特征,并计算该具有固定语义格式的特征的特征值,之后基于该计算得到的特征值来确定待处理文件是否为恶意文件,如此,在待处理文件中提取特征的时候只需要找到具有固定语义格式的信息就可以,而不需要在待处理文件的全文中一个信息一个信息的去查找,极大的提高了特征提取的效率。
本申请实施例所提供的样本检测方法,对待处理文件进行分析提取待处理文件中的特征,并计算特征的第一特征值;其中,特征包括代码和/或链接;基于特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定待处理文件是否为恶意文件;如此,可以基于待处理文件中的具有固定语义格式的特征的第一特征值与恶意特征的第二特征值,确定待处理文件是否为恶意文件,而不需要使用第三方杀毒软件来查找特征,解决了相关技术中的提取得到的特征中包含大量的通配符使得特征的含义不清楚的问题,提高了确定待处理文件是否为恶意文件的判断准确率,避免了误判的情况发生。
基于前述实施例,本申请的实施例提供一种样本检测方法,参照图2所示,该方法包括以下步骤:
步骤201、样本检测设备获取待处理文件的文件类型。
在本申请实施例中,待处理文件的文件类型可以包括非PE文件和PE文件;PE文件可以指的是在Windows操作系统上的可执行文件,PE文件的文件类型可以包括可执行(Executable,EXE)、动态链接库(Dynamic Link Library,DDL)或系统(Systems,SYS)等类型;非PE文件是被恶意程序攻击的文件。
其中,恶意程序包括宏病毒和脚本病毒。宏病毒通常指利用办公软件中能够用来执行一系列独立操作的宏代码实现其恶意目标的病毒,与操作系统无关,只要计算机能够运行办公软件,便有可能感染宏病毒。脚本病毒通常指采用脚本语言设计的计算机病毒;其中,脚本语言可以包括:JavaScript、VBScript、PowerShell、HTML语言等。
步骤202、样本检测设备确定待处理文件的文件类型为目标文件类型的情况下,对待处理文件进行分析提取待处理文件中的特征,并计算特征的第一特征值。
在本申请实施例中,目标文件类型可以指的是非PE文件;其中,待处理文件中的特征可以是对待处理文件进行分析后,从待处理文件中提取出具有固定语义格式的信息后得到的。
步骤203、样本检测设备将待处理文件中的第一特征值与恶意特征库中的恶意特征的第二特征值进行匹配处理。
在本申请实施例中,可以将待处理文件中的特征的第一特征值,与恶意特征库中的所有的第二特征值进行比对处理;也就是说,可以查找恶意特征库中的所有的第二特征值中是否存在与第一特征值相同的特征值;需要说明的是,可以将第一特征值与第二特征值进行一一比对来确定恶意特征库中是否存在与第一特征值相同的特征值。
其中,恶意特征库可以是根据具有恶意信息的恶意样本文件得到的;其中,恶意样本文件是已经确定的携带有恶意信息(恶意特征)的大量文件;其中,恶意样本文件的格式可以是特定格式。
需要说明的是,恶意样本文件可以是大量的非PE文件;在一种可行的实现方式中,非PE文件的文件类型可以包括:可携带文档格式(Portable Document Format,PDF)、超文本标记语言(HyperText Mark-up Language,HTML)、JS(JavaScript)、VBS(MicrosoftVisual Basic Script Edition);其中,当恶意样本文件的文件类型为PDF时,PDF文件遭到恶意信息攻击时后,该PDF文件可以是携带有恶意信息的恶意样本文件。
在本申请其他实施例中,恶意样本文件中的恶意特征可以是对大量恶意样本文件进行分析后,从大量恶意样本文件中提取出具有固定语义格式的信息后得到的;需要说明的是,恶意特征的第二特征值可以是采用预定的计算算法对恶意样本文件中的恶意特征进行计算后得到的。
获取恶意特征库具体可以通过对恶意样本文件进行分析提取恶意样本文件的恶意特征,并计算恶意特征的第二特征值,基于恶意特征的第二特征值,得到恶意特征库。其中,恶意特征库中包括恶意特征的第二特征值;恶意特征库是由恶意特征的第二特征值构成的一种数据库;需要说明的是,恶意特征库可以是对恶意特征的第二特征值进行处理后得到的。
在本申请实施例中,确定恶意特征库还可以通过以下步骤来实现:
b1、样本检测设备获取具有恶意信息的恶意样本文件,并确定恶意样本文件中恶意特征的位置信息。
在本申请实施例中,恶意特征的位置信息是恶意特征在恶意样本中恶意特征所在的位置;其中,可以在恶意样本文件中恶意特征所对应的位置处打上特定标记,表明此位置处的特征为恶意位置。
b2、样本检测设备基于恶意特征的位置信息,从恶意样本文件中提取恶意特征。
在本申请实施例中,提取恶意样本文件中恶意特征的位置信息处的特征来得到恶意特征;其中,恶意特征的位置信息可以包括恶意样本文件中的多个位置区域。在一种可行的实现方式中,恶意特征可以包括恶意统一资源定位符(Uniform Resource Locator,URL)特征。
b3、样本检测设备采用信息摘要算法计算恶意特征的第二特征值。
在本申请实施例中,信息摘要算法可以包括信息摘要算法第五版(Message-Digest Algorithm 5,MD5)。其中,MD5是一种信息摘要算法;该算法以512位分组来处理输入的信息,且每一分组又被划分为1个32位子分组,经过了一系列的处理后,算法的输出由四个32位分组组成,将这四个32位分组级联后将生成一个128位散列值,用于确保信息传输完整一致。
b4、样本检测设备存储恶意特征的第二特征值至目标类型的特征库中,得到恶意特征库。
在本申请实施例中,目标类型的特征库可以包括恶意软件分析(clamav)特征库为模板的哈希(hash)型特征库;目标类型可以包括hash型;在一种可行的实现方式中,可以将恶意特征的第二特征值存储至以clamav特征库为模板的hash型特征库中,进而得到恶意特征库。
步骤204、样本检测设备在恶意特征的第二特征值中存在与第一特征值匹配的特征值的情况下,样本检测设备确定待处理文件为恶意文件。
在本申请实施中,当恶意特征的第二特征值中存在至少一个与第一特征值相同的特征值时就可以认为待处理文本中存在恶意特征,即该待处理文件为恶意文件。
本申请实施例中只有在待处理文件的文件类型为非PE文件的情况下才进行确定待处理文件是否为恶意文件的处理,可以避免对PE文件的判断,极大的减少了工作量,提高了工作效率。
步骤205、样本检测设备在每一第一特征值均与第二特征值不匹配的情况,对待处理文件继续进行分析提取待处理文件中的剩余特征,并基于剩余特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定待处理文件是否为恶意文件。
需要说明的是,可以先从待处理文件中提取出部分特征,根据部分特征的第一特征值与恶意特征库中恶意特征的第二特征值进行匹配来确定待处理文件是否为恶意文件,降低了确定待处理文件是否为恶意文件的计算复杂度,在部分特征的第一特征值与恶意特征库中恶意特征的第二特征值不匹配时,便可以从待处理文件中提取剩余特征,并将剩余特征的第一特征值与恶意特征的第二特征值进行匹配,来确定待处理文件是否为恶意文件。
在本申请实施例中,可以将样本检测设备中的每一第一特征值与恶意特征库中恶意特征的第二特征值进行匹配,得到每一匹配结果,若每一匹配结果所表征的匹配度均不为0时,确定待处理文件为恶意文件;若每一匹配结果所表征的匹配度为0时,则可以继续对待处理文件进行分析,以提取待处理文件中的剩余特征,根据剩余特征确定待处理文件是否为恶意文件。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本申请实施例所提供的样本检测方法,可以基于待处理文件中的具有固定语义格式的特征信息的第一特征值与恶意特征的第二特征值,确定待处理文件是否为恶意文件,而不需要使用第三方杀毒软件来查找特征,解决了相关技术中的提取得到的特征中包含大量的通配符使得特征的含义不清楚的问题,提高了确定待处理文件是否为恶意文件的准确率,避免了误判的情况发生。
基于前述实施例,本申请的实施例还提供一种样本检测方法,参照图3所示,该方法包括以下步骤:
步骤301、样本检测设备获取待处理文件的文件类型。
步骤302、样本检测设备确定待处理文件的文件类型为目标文件类型的情况下,确定待处理文件中特征的位置信息。
在本申请实施例中,样本检测设备判断待处理文件的类型为PE文件时,样本检测设备释放该样本。特征的位置信息可以是待处理文件中URL所在的位置;位置信息可以包括多个位置区域。
需要说明的是,因为URL特征有自己存在的固定位置,只需要到待处理文件的固定位置去提取特征即可,而不需要对待处理文件的全文进行扫描,极大的减少了时间的损耗,减少了工作量;同时URL特征比较明显且可读性较好,从而保证得到的匹配结果更准确。并且,URL特征的长度有所保证,不会超过URL特征的最长长度,甚至可以提取URL特征中的某个片段作为特征,大大减小了特征的长度。
步骤303、样本检测设备基于特征的位置信息,从待处理文件中提取特征。
其中,位置信息的数量可以有多个。
在本申请实施例中,可以根据每一位置信息,从待处理文件中提取多个特征。
步骤304、样本检测设备对特征的语义进行分析,确定特征的第一特征值。
在本申请实施例中,针对每一特征,样本检测设备可以在特征的格式符合目标格式的情况下,采用信息摘要算法对每一特征的语义信息进行分析,计算每一特征的第一特征值。
在本申请实施例中,目标格式可以指的是固定语义格式;在一种可行的实现方式中,目标格式可以指的URL的格式。需要说明的是,第一特征值也可以是采用MD5算法计算得到的。
需要说明的是,可以从待处理文件的特征的位置信息中逐一位置提取URL特征;其中,当待处理文件中的特征的格式不符合目标格式时,查询是否还存在其他未被提取的URL特征的位置;如果存在,从待处理文件中确定URL特征;如果不存在则释放待处理文本。
在一种可行的实现方式中,以具有固定语义格式的恶意特征和待处理文件中的特征包括URL特征为例,在计算第一特征值和第二特征值的时候,可以对URL的语义信息进行分析,跳过URL特征中的http://或ftp://前缀,后续在URL特征剩余的语义信息中每遇到一个非数字和字母都计算一次md5值,最终得到的md5值就是第一特征值和第二特征值。若待处理文件中的URL特征为可以计算得到如下特征的md5值:www、www.123、www.123.com、www.123.com/test、www.123.com/test.info、www.123.com/test.info/test、www.123.com/test.info/test.pdf等,此时,第一特征值就可以包括www、www.123、www.123.com、www.123.com/test、www.123.com/test.info、www.123.com/test.info/test、www.123.com/test.info/test.pdf等对应的md5值。
在本申请其他实施例中,当扫描完待处理文件中所有可能出现URL特征的位置后,则清理样本检测设备的内存,以保证下一个待处理文件可以正常扫描。
步骤305、样本检测设备在待处理文件中提取到多个特征的情况下,针对每一特征,基于每一特征的第一特征值与恶意特征库中恶意特征的第二特征值确定待处理文件的中间结果。
其中,中间结果包括恶意结果或非恶意结果。
在本申请实施例中,样本检测设备可以对待处理文件进行分析,从待处理文件中提取出多个特征,将多个特征中的每一特征的第一特征值与恶意特征库中的恶意特征的第二特征值进行匹配,并根据匹配结果确定中间结果。
在一种可行的实现方式中,多个特征可以指的是待处理文件中提取的全部特征,若匹配结果表征每一特征的第一特征值与恶意特征库中恶意特征的第二特征值均不匹配,确定中间结果为非恶意结果;若匹配结果表征存在第一特征值与恶意特征库中恶意特征的第二特征值匹配,确定中间结果为恶意结果。
步骤306、样本检测设备在所有中间结果中存在至少一个恶意结果的情况下,确定待处理文件为恶意文件。
在本申请实施例中,每一特征的第一特征值与恶意特征库中的恶意特征的第二特征值进行匹配后都会得到一个中间结果,在中间结果中存在有恶意结果时,则表明待处理文件中存在恶意特征,将待处理文件确定为恶意文件;在所有中间结果中不存在恶意结果的情况下,即中间结果全部为非恶意结果时,确定待处理文件中不具有恶意特征,将待处理文件确定为安全文件。
基于前述实施例,在本申请的其他实施例中,该样本检测方法还可以包括以下步骤:
步骤307、样本检测设备在确定待处理文件为恶意文件的情况下,生成恶意文件告警信息并输出。
其中,恶意文件告警信息用于提示用户待处理文件为恶意文件。
在本申请实施例中,当待处理文件为恶意文件时,生成恶意告警信息并输出至样本检测设备,以让用户知道待处理文件为恶意文件;同时,警告用户该待处理文件携带有病毒,提示用户开启保护软件以保护样本检测设备不受恶意特征的攻击。其中,可以采用任何可行的方式来输出告警信息,例如语音告警、文字告警、颜色告警等。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本申请实施例所提供的样本检测方法,可以基于待处理文件中的具有固定语义格式的特征信息的第一特征值与恶意特征的第二特征值,确定待处理文件是否为恶意文件,而不需要使用第三方杀毒软件来查找特征,解决了相关技术中的提取得到的特征中包含大量的通配符使得特征的含义不清楚的问题,提高了确定待处理文件是否为恶意文件的准确率,避免了误判的情况发生。
基于前述实施例,本申请的实施例提供一种样本检测装置,该样本检测装置可以应用于图1~3对应的实施例提供的样本检测方法中,参照图4所示,该样本检测装置4可以包括:
计算单元41,用于对待处理文件进行分析提取待处理文件中的特征,并计算特征的第一特征值;其中,特征包括代码和/或链接;
确定单元42,用于基于特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定待处理文件是否为恶意文件。
在本申请实施例中,计算单元41还用于执行以下步骤:
获取待处理文件的文件类型;
确定待处理文件的文件类型为目标文件类型的情况下,对待处理文件进行分析提取待处理文件中的特征,并计算特征的第一特征值。
在本申请实施例中,计算单元41还用于执行以下步骤:
确定待处理文件的文件类型为目标文件类型的情况下,确定待处理文件中特征的位置信息;
基于位置信息,从待处理文件中提取特征;
对特征的语义信息进行分析,确定特征的第一特征值。
在本申请实施例中,确定单元42还用于执行以下步骤:
将待处理文件中的第一特征值与恶意特征库中的恶意特征的第二特征值进行匹配处理;
在恶意特征的第二特征值中存在与第一特征值匹配的特征值的情况下,确定待处理文件为恶意文件。
在本申请实施例中,确定单元42还用于执行以下步骤:
在每一第一特征值均与第二特征值不匹配的情况下,对待处理文件继续进行分析提取待处理文件中的剩余特征,并基于剩余特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定待处理文件是否为恶意文件。
在本申请实施例中,确定单元42还用于执行以下步骤:
针对每一特征,基于每一特征的第一特征值与恶意特征库中恶意特征的第二特征值确定待处理文件的中间结果,中间结果包括恶意结果或非恶意结果;
在所有中间结果中存在至少一个恶意结果的情况下,确定待处理文件为恶意文件。
在本申请实施例中,确定单元42还用于执行以下步骤:
在确定待处理文件为恶意文件的情况下,生成恶意文件告警信息并输出。
需要说明的是,本申请实施例中各单元和模块之间的交互过程,可以参照图1~3对应的实施例提供的样本检测方法中的实现过程,此处不再赘述。
本申请实施例所提供的样本检测装置,可以基于待处理文件中的具有固定语义格式的特征信息的第一特征值与恶意特征的第二特征值,确定待处理文件是否为恶意文件,而不需要使用第三方杀毒软件来查找特征,解决了相关技术中的提取得到的特征中包含大量的通配符使得特征的含义不清楚的问题,提高了确定待处理文件是否为恶意文件的准确率,避免了误判的情况发生。
基于前述实施例,本申请的实施例提供一种样本检测设备5,该设备可以应用于图1~3对应的实施例提供的样本检测方法中,参照图5所示,该设备5可以包括:处理器51、存储器52和通信总线53,其中:
通信总线53用于实现处理器51和存储器52之间的通信连接;
处理器51用于执行存储器52中存储的样本检测程序,以实现以下步骤:
对待处理文件进行分析提取待处理文件中的特征,并计算特征的第一特征值;其中,特征包括代码和/或链接;
基于特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定待处理文件是否为恶意文件。
在本申请的其他实施例中,处理器51用于执行存储器52中存储的样本检测程序的对待处理文件进行分析提取待处理文件中的特征,并计算特征的第一特征值,以实现以下步骤:
获取待处理文件的文件类型;
确定待处理文件的文件类型为目标文件类型的情况下,对待处理文件进行分析提取待处理文件中的特征,并计算特征的第一特征值。
在本申请的其他实施例中,处理器51用于执行存储器52中存储的样本检测程序的
确定待处理文件的文件类型为目标文件类型的情况下,对待处理文件进行分析提取待处理文件中的特征,并计算特征的第一特征值,以实现以下步骤:
确定待处理文件的文件类型为目标文件类型的情况下,确定待处理文件中特征的位置信息;
基于位置信息,从待处理文件中提取特征;
对特征的语义信息进行分析,确定特征的第一特征值。
在本申请的其他实施例中,处理器51用于执行存储器52中存储的样本检测程序的基于特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定待处理文件是否为恶意文件,以实现以下步骤:
将待处理文件中的第一特征值与恶意特征库中的恶意特征的第二特征值进行匹配处理;
在恶意特征的第二特征值中存在与第一特征值匹配的特征值的情况下,确定待处理文件为恶意文件。
在本申请的其他实施例中,处理器51用于执行存储器52中存储的样本检测程序,以实现以下步骤:
每一第一特征值均与第二特征值不匹配的情况下,对待处理文件继续进行分析提取待处理文件中的剩余特征,并基于剩余特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定待处理文件是否为恶意文件。
在本申请的其他实施例中,处理器51用于执行存储器52中存储的样本检测程序的在待处理文件中提取到多个特征的情况下,基于特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定待处理文件是否为恶意文件,还用于实现以下步骤:
针对每一特征,基于每一特征的第一特征值与恶意特征库中恶意特征的第二特征值确定待处理文件的中间结果,中间结果包括恶意结果或非恶意结果;
在所有中间结果中存在至少一个恶意结果的情况下,确定待处理文件为恶意文件。
在本申请的其他实施例中,处理器51用于执行存储器52中存储的样本检测程序,还用于实现以下步骤:
在确定待处理文件为恶意文件的情况下,生成恶意文件告警信息并输出。
需要说明的是,本实施例中处理器所执行的步骤的具体实现过程,可以参照图1~3对应的实施例提供的样本检测方法中的实现过程,此处不再赘述。
本申请的实施例所提供的样本检测设备,可以基于待处理文件中的具有固定语义格式的特征信息的第一特征值与恶意特征的第二特征值,确定待处理文件是否为恶意文件,而不需要使用第三方杀毒软件来查找特征,解决了相关技术中的提取得到的特征中包含大量的通配符使得特征的含义不清楚的问题,提高了确定待处理文件是否为恶意文件的准确率,避免了误判的情况发生。
基于前述实施例,本申请的实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现图1~3对应的实施例提供的样本检测方法中的步骤。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种样本检测方法,其特征在于,所述方法包括:
对待处理文件进行分析提取所述待处理文件中的特征,并计算所述特征的第一特征值;其中,所述特征包括代码和/或链接;
基于所述特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定所述待处理文件是否为恶意文件。
2.根据权利要求1所述的样本检测方法,其特征在于,所述对待处理文件进行分析提取所述待处理文件中的特征,并计算所述特征的第一特征值,包括:
获取所述待处理文件的文件类型;
确定所述待处理文件的文件类型为目标文件类型的情况下,对所述待处理文件进行分析提取所述待处理文件中的特征,并计算所述特征的第一特征值。
3.根据权利要求2所述的样本检测方法,其特征在于,所述确定所述待处理文件的文件类型为目标文件类型的情况下,对所述待处理文件进行分析提取所述待处理文件中的特征,并计算所述特征的第一特征值,包括:
确定所述待处理文件的文件类型为目标文件类型的情况下,确定所述待处理文件中所述特征的位置信息;
基于所述位置信息,从所述待处理文件中提取所述特征;
对所述特征的语义信息进行分析,确定所述特征的第一特征值。
4.根据权利要求1所述的样本检测方法,其特征在于,所述基于所述特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定所述待处理文件是否为恶意文件,包括:
将所述待处理文件中的第一特征值与所述恶意特征库中的所述恶意特征的第二特征值进行匹配处理;
在所述恶意特征的第二特征值中存在与所述第一特征值匹配的特征值的情况下,确定所述待处理文件为恶意文件。
5.根据权利要求4所述的样本检测方法,其特征在于,所述方法还包括:
在每一所述第一特征值均与所述第二特征值不匹配的情况下,对待处理文件继续进行分析提取所述待处理文件中的剩余特征,并基于所述剩余特征的第一特征值与所述恶意特征库中所述恶意特征的第二特征值,确定所述待处理文件是否为恶意文件。
6.根据权利要求1所述的样本检测方法,其特征在于,在所述待处理文件中提取到多个特征的情况下,所述基于所述特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定所述待处理文件是否为恶意文件,包括:
针对每一特征,基于所述每一特征的第一特征值与所述恶意特征库中恶意特征的第二特征值确定所述待处理文件的中间结果,所述中间结果包括恶意结果或非恶意结果;
在所有中间结果中存在至少一个恶意结果的情况下,确定所述待处理文件为恶意文件。
7.根据权利要求1-6任一项所述的样本检测方法,其特征在于,所述方法还包括:
在确定所述待处理文件为恶意文件的情况下,生成恶意文件告警信息并输出。
8.一种样本检测装置,其特征在于,所述装置包括:
计算单元,用于对待处理文件进行分析提取所述待处理文件中的特征,并计算所述特征的第一特征值;其中,所述特征包括代码和/或链接;
确定单元,用于基于所述特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定所述待处理文件是否为恶意文件。
9.一种样本检测设备,其特征在于,所述设备包括:处理器、存储器和通信总线;
所述通信总线用于实现所述处理器和所述存储器之间的通信连接;
所述处理器用于执行所述存储器中存储的样本检测程序,以实现以下步骤:
对待处理文件进行分析提取所述待处理文件中的特征,并计算所述特征的第一特征值;其中,所述特征包括代码和/或链接;
基于所述特征的第一特征值与恶意特征库中恶意特征的第二特征值,确定所述待处理文件是否为恶意文件。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至7中任一项所述的样本检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110691793.6A CN113449301A (zh) | 2021-06-22 | 2021-06-22 | 一种样本检测方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110691793.6A CN113449301A (zh) | 2021-06-22 | 2021-06-22 | 一种样本检测方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113449301A true CN113449301A (zh) | 2021-09-28 |
Family
ID=77812090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110691793.6A Pending CN113449301A (zh) | 2021-06-22 | 2021-06-22 | 一种样本检测方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449301A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114363060A (zh) * | 2021-12-31 | 2022-04-15 | 深信服科技股份有限公司 | 一种域名检测方法、系统、设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299609A (zh) * | 2018-08-08 | 2019-02-01 | 北京奇虎科技有限公司 | 一种elf文件检测方法及装置 |
CN112395612A (zh) * | 2019-08-15 | 2021-02-23 | 中兴通讯股份有限公司 | 一种恶意文件检测方法、装置、电子设备及存储介质 |
CN112580048A (zh) * | 2020-12-23 | 2021-03-30 | 苏州三六零智能安全科技有限公司 | 恶意文件静态判别方法、装置、设备及存储介质 |
CN112887328A (zh) * | 2021-02-24 | 2021-06-01 | 深信服科技股份有限公司 | 一种样本检测方法、装置、设备及计算机可读存储介质 |
CN112926054A (zh) * | 2021-02-22 | 2021-06-08 | 亚信科技(成都)有限公司 | 一种恶意文件的检测方法、装置、设备及存储介质 |
-
2021
- 2021-06-22 CN CN202110691793.6A patent/CN113449301A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299609A (zh) * | 2018-08-08 | 2019-02-01 | 北京奇虎科技有限公司 | 一种elf文件检测方法及装置 |
CN112395612A (zh) * | 2019-08-15 | 2021-02-23 | 中兴通讯股份有限公司 | 一种恶意文件检测方法、装置、电子设备及存储介质 |
CN112580048A (zh) * | 2020-12-23 | 2021-03-30 | 苏州三六零智能安全科技有限公司 | 恶意文件静态判别方法、装置、设备及存储介质 |
CN112926054A (zh) * | 2021-02-22 | 2021-06-08 | 亚信科技(成都)有限公司 | 一种恶意文件的检测方法、装置、设备及存储介质 |
CN112887328A (zh) * | 2021-02-24 | 2021-06-01 | 深信服科技股份有限公司 | 一种样本检测方法、装置、设备及计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114363060A (zh) * | 2021-12-31 | 2022-04-15 | 深信服科技股份有限公司 | 一种域名检测方法、系统、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763928B (zh) | 一种开源软件漏洞分析方法、装置和存储介质 | |
Fass et al. | Jast: Fully syntactic detection of malicious (obfuscated) javascript | |
US9876812B1 (en) | Automatic malware signature extraction from runtime information | |
US9294486B1 (en) | Malware detection and analysis | |
Stolfo et al. | Towards stealthy malware detection | |
US9015814B1 (en) | System and methods for detecting harmful files of different formats | |
US20090013405A1 (en) | Heuristic detection of malicious code | |
JP2006522395A (ja) | マクロと実行可能なスクリプトにおいてマルウェアを検出する方法およびシステム | |
EP3637292B1 (en) | Determination device, determination method, and determination program | |
US11270001B2 (en) | Classification apparatus, classification method, and classification program | |
US10462168B2 (en) | Access classifying device, access classifying method, and access classifying program | |
KR20210084204A (ko) | 악성 코드 수집 방법 및 시스템 | |
JP2012088803A (ja) | 悪性ウェブコード判別システム、悪性ウェブコード判別方法および悪性ウェブコード判別用プログラム | |
Alshamrani | Design and analysis of machine learning based technique for malware identification and classification of portable document format files | |
US20080016573A1 (en) | Method for detecting computer viruses | |
CN113449301A (zh) | 一种样本检测方法、装置、设备及计算机可读存储介质 | |
US11550920B2 (en) | Determination apparatus, determination method, and determination program | |
EP4137976A1 (en) | Learning device, detection device, learning method, detection method, learning program, and detection program | |
Kishore et al. | Browser JS Guard: Detects and defends against Malicious JavaScript injection based drive by download attacks | |
CN113536300A (zh) | 一种pdf文件信任过滤及分析方法、装置、设备及介质 | |
Khan et al. | A dynamic method of detecting malicious scripts using classifiers | |
US20240054210A1 (en) | Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program | |
CN113361597B (zh) | 一种url检测模型的训练方法、装置、电子设备和存储介质 | |
CN114900492A (zh) | 异常邮件检测方法、装置、系统与计算机可读存储介质 | |
WO2020194449A1 (ja) | 警告装置、制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |