CN113282925A - 恶意文件检测方法、装置、终端设备以及存储介质 - Google Patents

恶意文件检测方法、装置、终端设备以及存储介质 Download PDF

Info

Publication number
CN113282925A
CN113282925A CN202110353623.7A CN202110353623A CN113282925A CN 113282925 A CN113282925 A CN 113282925A CN 202110353623 A CN202110353623 A CN 202110353623A CN 113282925 A CN113282925 A CN 113282925A
Authority
CN
China
Prior art keywords
malicious file
detected
training
classification model
malicious
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110353623.7A
Other languages
English (en)
Other versions
CN113282925B (zh
Inventor
祁浩湳
刘明峰
王志宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Rongan Networks Technology Co ltd
Original Assignee
Shenzhen Rongan Networks Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Rongan Networks Technology Co ltd filed Critical Shenzhen Rongan Networks Technology Co ltd
Priority to CN202110353623.7A priority Critical patent/CN113282925B/zh
Publication of CN113282925A publication Critical patent/CN113282925A/zh
Application granted granted Critical
Publication of CN113282925B publication Critical patent/CN113282925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种恶意文件检测方法,所述方法包括以下步骤:在获取到待检测恶意文件时,将所述待检测恶意文件转换为待检测灰度图;将所述待检测灰度图输入训练获得的恶意文件分类模型,以获得所述待检测恶意文件的家族分类结果和所述待检测恶意文件的特征区域;基于所述家族分类结果和所述特征区域,获得检测结果。本发明还公开一种恶意文件检测装置、终端设备以及计算机可读存储介质。利用本发明的恶意文件检测方法,提高了恶意文件检测的准确率和说服力。

Description

恶意文件检测方法、装置、终端设备以及存储介质
技术领域
本发明涉及计算机程序检测领域,特别涉及一种恶意文件检测方法、装置、终端设备以及计算机可读存储介质。
背景技术
目前,恶意文件检测领域,将恶意文件转换为图像,并将图像输入训练获得的神经网络模型进行分类,以获得分类结果,并基于分类结果,获得恶意文件的检测结果。
但是,采用现有的恶意文件检测方法,获得的检测结果的准确率较低,检测结果缺乏信服力。
发明内容
本发明的主要目的是提供一种恶意文件检测方法、装置、终端设备以及计算机可读存储介质,旨在解决现有技术中采用现有的恶意文件检测方法,获得的检测结果的准确率较低,检测结果缺乏信服力的技术问题。
为实现上述目的,本发明提出一种恶意文件检测方法,所述方法包括以下步骤:
在获取到待检测恶意文件时,将所述待检测恶意文件转换为待检测灰度图;
将所述待检测灰度图输入训练获得的恶意文件分类模型,以获得所述待检测恶意文件的家族分类结果和所述待检测恶意文件的特征区域;
基于所述家族分类结果和所述特征区域,获得检测结果。
可选的,所述将所述待检测灰度图输入训练获得的恶意文件分类模型的步骤之前,所述方法还包括:
获取训练样本,所述训练样本包括训练恶意样本文件和与所述训练恶意样本文件对应的训练分类结果;
将所述训练恶意样本文件转换为训练灰度图;
利用所述训练灰度图和所述训练分类结果,对预设分类模型进行训练,以获得所述恶意文件分类模型。
可选的,所述利用所述训练灰度图和所述训练分类结果,对预设分类模型进行训练,以获得所述恶意文件分类模型的步骤,包括:
在所述训练灰度图中确定出选定训练灰度图;
在所述训练分类结果中确定出与所述选定灰度图对应的选定训练分类结果;
利用所述预设分类模型中的第一残差网络对所述选定训练灰度图进行全局特征提取,以获得全局特征向量;
对所述选定训练灰度图进行分割,以获得多个分割区域;
利用所述预设分类模型中的第二残差网络对所述多个分割区域进行局部特征提取,以获得所述多个分割区域分别对应的多个局部特征向量;
利用所述多个局部特征向量,在所述多个分割区域中筛选出候选目标区域;
计算所述候选目标区域的候选目标特征分值;
将所述候选目标特征分值、所述多个局部特征向量和所述全局特征向量输入所述预设分类模型中的家族分类网络,以获得实际分类结果;
基于所述选定训练分类结果,利用目标损失函数,确定所述实际分类结果的损失;
利用所述损失对所述预设分类模型进行参数调整,以获得调整后的预设分类模型;
将所述调整后的预设分类模型作为所述预设分类模型,并返回执行所述在所述训练灰度图中确定出选定训练灰度图的步骤,直到实际分类结果的损失满足预设条件,获得所述恶意文件分类模型。
可选的,所述利用所述多个局部特征向量,在所述多个分割区域中筛选出候选目标区域的步骤,包括:
将所述多个局部特征向量输入所述预设分类模型中的特征置信度计算网络,以获得所述多个局部特征向量分别对应的多个置信度;
利用非极大抑制法,在所述多个分割区域中筛选筛选置信度最大的预设数量个候选目标区域。
可选的,所述计算所述候选目标区域的候选目标特征分值的步骤,包括:
利用所述预设分类模型中的局部特征评分网络计算所述候选目标区域的候选目标特征分值。
可选的,所述利用所述损失对所述预设分类模型进行参数调整,以获得调整后的预设分类模型的步骤,包括:
利用所述损失对所述第一残差网络进行参数调整,以获得调整后的第一残差网络;
利用所述损失对所述第二残差网络进行参数调整,以获得调整后的第二残差网络;
利用所述损失对所述特征置信度计算网络进行参数调整,以获得调整后的特征置信度计算网络;
利用所述损失对所述局部特征评分网络进行参数调整,以获得调整后的局部特征评分网络;
基于所述调整后的第一残差网络、所述调整后的第二残差网络、所述调整后的特征置信度计算网络和所述调整后的局部特征评分网络,获得所述调整后的预设分类模型。
可选的,所述在获取到待检测恶意文件时,将所述待检测恶意文件转换为待检测灰度图的步骤,包括:
在获取到待检测恶意文件时,获取所述待检测恶意文件的待检测二进制信息;
将所述待检测二进制信息转换为所述待检测灰度图。
此外,为实现上述目的,本发明还提出了一种恶意文件检测装置,所述装置包括:
获取模块,用于在获取到待检测恶意文件时,将所述待检测恶意文件转换为待检测灰度图;
分类模块,用于将所述待检测灰度图输入训练获得的恶意文件分类模型,以获得所述待检测恶意文件的家族分类结果和所述待检测恶意文件的特征区域;
获得模块,用于基于所述家族分类结果和所述特征区域,获得检测结果。
此外,为实现上述目的,本发明还提出了一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行恶意文件检测程序,所述恶意文件检测程序被所述处理器执行时实现如上述任一项所述的恶意文件检测方法的步骤。
此外,为实现上述目的,本发明还提出了一种计算机可读存储介质,所述计算机可读存储介质上存储有恶意文件检测程序,所述恶意文件检测程序被处理器执行时实现如上述任一项所述的恶意文件检测方法的步骤。
本发明技术方案提出了一种恶意文件检测方法,通过在获取到待检测恶意文件时,将所述待检测恶意文件转换为待检测灰度图;将所述待检测灰度图输入训练获得的恶意文件分类模型,以获得所述待检测恶意文件的家族分类结果和所述待检测恶意文件的特征区域;基于所述家族分类结果和所述特征区域,获得检测结果。
现有的恶意文件检测方法中,通过神经网络模型对待检测灰度图进行分类,以获得待检测恶意文件的分类结果,并基于分类结果确定待检测恶意文件的检测结果,但是,检测结果中缺少待检测恶意文件的特征区域,使得检测结果的准确率较低,检测结果缺乏信服力。而本发明的恶意文件检测方法,恶意文件分类模型输出的结果包括所述待检测恶意文件的家族分类结果和所述待检测恶意文件的特征区域,从而使得检测结果的准确率较高,且具有说服力。所以,利用本发明的恶意文件检测方法,提高了恶意文件检测的准确率和说服力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例方案涉及的硬件运行环境的终端设备结构示意图;
图2为本发明恶意文件检测方法第一实施例的流程示意图;
图3为本发明的待检测恶意文件对应的待检测灰度图;
图4为本发明的候选目标区域的示意图;
图5为本发明的变种恶意文件对应的灰度图;
图6为本发明恶意文件检测装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的终端设备结构示意图。
终端设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station,MS) 等。终端设备可能被称为用户终端、便携式终端、台式终端等。
通常,终端设备包括:至少一个处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的恶意文件检测程序,所述恶意文件检测程序配置为实现如前所述的恶意文件检测方法的步骤。
处理器301可以包括一个或多个处理核心,比如4核心处理器、8 核心处理器等。处理器301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称 CPU(CentralProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301 可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器301还可以包括 AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关恶意文件检测方法操作,使得恶意文件检测方法模型可以自主训练学习,提高效率和准确度。
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的恶意文件检测方法。
在一些实施例中,终端还可选包括有:通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地,外围设备包括:射频电路304、显示屏305和电源306中的至少一种。
通信接口303可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中,处理器301、存储器302和通信接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路304包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路304还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时,显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时,显示屏305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏305可以为一个,电子设备的前面板;在另一些实施例中,显示屏305可以为至少两个,分别设置在电子设备的不同表面或呈折叠设计;在再一些实施例中,显示屏305可以是柔性显示屏,设置在电子设备的弯曲表面上或折叠面上。甚至,显示屏305还可以设置成非矩形的不规则图形,也即异形屏。显示屏305可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
电源306用于为电子设备中的各个组件进行供电。电源306可以是交流电、直流电、一次性电池或可充电电池。当电源306包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图1中示出的结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有恶意文件检测程序,所述恶意文件检测程序被处理器执行时实现如上文所述的恶意文件检测方法的步骤。因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。确定为示例,程序指令可被部署为在一个终端设备上执行,或者在位于一个地点的多个终端设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个终端设备备上执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
基于上述硬件结构,提出本发明恶意文件检测方法的实施例。
参照图2,图2为本发明恶意文件检测方法第一实施例的流程示意图,所述方法用于终端设备,所述包括以下步骤:
步骤S11:在获取到待检测恶意文件时,将所述待检测恶意文件转换为待检测灰度图。
需要说明的是,本发明的执行主体是终端设备,终端设备安装有恶意文件检测程序,终端设备执行恶意文件检测程序时,实现本发明的恶意文件检测方法。待检测恶意文件可以是各种格式的文件,例如 txt、word和exe等,本发明不做限制。
目前,相关技术中,公布了多种恶意文件检测方法,如下:
1、技术人员人工检测:通过对待检测恶意文件进行手动检测,来获得检测结果。尽管该方法有效果,但是技术人员需要对海量的待检测恶意文件逐一进行分析,耗费大量的人力、精力和时间。
2、利用神经网络模型进行恶意文件的检测,但是,针对训练数据集中的恶意样本文件需要将其转换为图数据(可以是灰度图),并在图数据中标出恶意文件的目标区域(恶意代码所在的区域),这同样会耗费大量资源。同时,神经网络模型输出的结果并不包括恶意文件的特征区域(所述目标区域),使得检测结果缺乏信服力。
具体的,步骤S11包括:在获取到待检测恶意文件时,获取所述待检测恶意文件的待检测二进制信息;将所述待检测二进制信息转换为所述待检测灰度图。
在进行转换时,尽量保留原待检测恶意文件大小相近的样本,通过读取样本的二进制信息将样本转化成灰度图像,即所述待检测灰度图,
步骤S12:将所述待检测灰度图输入训练获得的恶意文件分类模型,以获得所述待检测恶意文件的家族分类结果和所述待检测恶意文件的特征区域。
步骤S13:基于所述家族分类结果和所述特征区域,获得检测结果。
需要说明的是,利用本发明的训练好的恶意文件分类模型,获得的输出结果不仅包括待检测恶意文件的家族分类结果,还包括所述待检测恶意文件的特征区域(所述目标区域),使得步骤S13获得的检测结果的准确率更高,更具有说服力。
可以理解的是,在进行步骤S12之前,是需要对预设分类模型进行训练的,以获得训练后的所述恶意文件分类模型,本发明的预设分类模型包括第一残差网络、第二残差网络、特征置信度计算网络、局部特征评分网络、家族分类网络以及多个数据处理过程。
进一步的,步骤S12之前,所述方法还包括:获取训练样本,所述训练样本包括训练恶意样本文件和与所述训练恶意样本文件对应的训练分类结果;将所述训练恶意样本文件转换为训练灰度图;利用所述训练灰度图和所述训练分类结果,对预设分类模型进行训练,以获得所述恶意文件分类模型。
需要说明的是,训练样本包括大量的数据,即包括大量的训练恶意样本文件和大量的与所述训练恶意样本文件对应的训练分类结果。在本发明中,输入预设分类模型的是灰度图,所以,此时需要按照上述步骤S11的方式,将所述训练恶意样本文件转换为训练灰度图。由于,训练灰度图是所述训练恶意样本文件转换后的产物,所以训练灰度图与训练分类结果是具有对应关系的。
具体应用中,还可以获取一定的测试样本,测试样本包括测试恶意样本文件和测试恶意样本文件对应的测试分类结果,以对获得的恶意文件分类模型进行测试。其中,测试样本与训练样本的数据比例可以是1:9,本发明不做限制。
可以理解的是,本发明的训练样本(或测试样本)中,恶意样本文件对应的分类结果是用户标注的,标注时只需要标注其是否为恶意样本文件,以及其家族分类结果即可,并不需要标注其目标区域(恶意代码所在的区域)的位置信息,所以,本发明标注的步骤花费极少的时间。
进一步的,所述利用所述训练灰度图和所述训练分类结果,对预设分类模型进行训练,以获得所述恶意文件分类模型的步骤,包括:在所述训练灰度图中确定出选定训练灰度图;在所述训练分类结果中确定出与所述选定灰度图对应的选定训练分类结果;利用所述预设分类模型中的第一残差网络对所述选定训练灰度图进行全局特征提取,以获得全局特征向量;对所述选定训练灰度图进行分割,以获得多个分割区域,其中,对于每个选定训练灰度图,均需要进行分割;利用所述预设分类模型中的第二残差网络对所述多个分割区域进行局部特征提取,以获得所述多个分割区域分别对应的多个局部特征向量;利用所述多个局部特征向量,在所述多个分割区域中筛选出候选目标区域;计算所述候选目标区域的候选目标特征分值;将所述候选目标特征分值、所述多个局部特征向量和所述全局特征向量输入所述预设分类模型中的家族分类网络,以获得实际分类结果;基于所述选定训练分类结果,利用目标损失函数,确定所述实际分类结果的损失;利用所述损失对所述预设分类模型进行参数调整,以获得调整后的预设分类模型;将所述调整后的预设分类模型作为所述预设分类模型,并返回执行所述在所述训练灰度图中确定出选定训练灰度图的步骤,直到实际分类结果的损失满足预设条件,获得所述恶意文件分类模型。
可以理解的是,上述过程可以简单的理解为选定训练灰度图为1 个时,该选定训练灰度图的流程描述。
其中,所述利用所述多个局部特征向量,在所述多个分割区域中筛选出候选目标区域的步骤,包括:将所述多个局部特征向量输入所述预设分类模型中的特征置信度计算网络,以获得所述多个局部特征向量分别对应的多个置信度;利用非极大抑制法,在所述多个分割区域中筛选筛选置信度最大的预设数量个候选目标区域。
所述计算所述候选目标区域的候选目标特征分值的步骤,包括:利用所述预设分类模型中的局部特征评分网络计算所述候选目标区域的候选目标特征分值。
所述利用所述损失对所述预设分类模型进行参数调整,以获得调整后的预设分类模型的步骤,包括:利用所述损失对所述第一残差网络进行参数调整,以获得调整后的第一残差网络;利用所述损失对所述第二残差网络进行参数调整,以获得调整后的第二残差网络;利用所述损失对所述特征置信度计算网络进行参数调整,以获得调整后的特征置信度计算网络;利用所述损失对所述局部特征评分网络进行参数调整,以获得调整后的局部特征评分网络;基于所述调整后的第一残差网络、所述调整后的第二残差网络、所述调整后的特征置信度计算网络和所述调整后的局部特征评分网络,获得所述调整后的预设分类模型。
需要说明的是,训练的过程,实际是将训练样本分成很多批,每一批训练样本作为一次训练,以进行一次预设分类模型的参数调整。利用多个批次的训练样本进行很多次预设分类模型的参数调整后,使得实际分类结果的损失满足预设条件(实际分类结果的损失小于预设阈值,预设阈值可以是用户基于需求确定,此处不限制),即此时的调整后的预设分类模型即为所述恶意文件分类模型。其中,首次进行训练时,第一批次的训练样本即为所述选定训练灰度图和选定训练分类结果,第二次进行训练时,第二批次的训练样本即为所述选定训练灰度图和选定训练分类结果,如此类推即可。
初始状态的第一残差网络和第二残差网络均是经过训练获得的,但是其包括的参数并不能完全适用于本发明的方法,需要在训练的过程对其参数进行调整。另外,相比于简单的卷积神经网络,残差网络能够训练过程中的梯度弥散/爆炸问题。
对所述选定训练灰度图进行分割时,由于无法得目标区域位于图像的哪一个位置,所以预先设置了大量位置不同、大小不一、特定长宽比的检测框作为分割框,以将选定训练灰度图分割为多个分割区域。可以理解的是,每一个分割框是具有位置信息的,即,当确定了某一个分割框内的区域为目标区域时,便可确定目标区域的位置信息(在选定训练灰度图中的具体位置信息)。
可以理解的是,在本发明中,置信度范围(0,1),预设数量较优的取3,用户可以根据需求设定其他的值,本发明不做限制;其中,候选目标区域是置信度最大的几个区域。
另外,目标损失函数是根据预设分类模型的结构和预设分类模型的分类目的构建的。当最终选择的分割区域越接近目标区域,分类的损失也就越小,同时该区域的特征置信度的计算结果也就越准确。
可以理解的是,预设分类模型中各部分的参数在初始状态是不适用本发明的恶意样本文件检测方法的,需要参照上述过程,进行多次的参数调整,以获得最后的恶意文件分类模型。同时,在训练的过程中,家族分类网络输出的结果也包括训练灰度图对应的特征区域,但是,该输出结果并不用于参数调整。
在另一实施例中,在进行步骤S12时,具体的步骤如下:利用所述预设分类模型中的第一残差网络对所述待检测灰度图进行全局特征提取,以获得第二全局特征向量;对所述待检测灰度图进行分割,以获得多个待检测区域;利用所述预设分类模型中的第二残差网络对所述多个待检测区域进行局部特征提取,以获得所述多个待检测区域分别对应的多个第二局部特征向量;将所述多个第二局部特征向量输入所述预设分类模型中的特征置信度计算网络,以获得所述多个第二局部特征向量分别对应的多个第二置信度;利用非极大抑制法,在所述在所述多个待检测区域中筛选置信度最大的预设数量个第二候选目标区域;利用所述预设分类模型中的局部特征评分网络计算所述第二候选目标区域的第二候选目标特征分值;将所述第二候选目标特征分值、所述多个第二局部特征向量和所述第二全局特征向量输入所述预设分类模型中的家族分类网络,以获得待检测恶意文件的家族分类结果和待检测恶意文件的特征区域。
其中,基于所述家族分类结果和所述特征区域(所述待检测恶意文件的区域,即上文所述的目标区域),获得检测结果,包括:基于所述目标区域的的特征信息(该区域的局部特征向量),确定在所述待检测灰度图中确定出变种恶意文件,并基于变种恶意文件和所述家族分类结果,获得最终的检测结果。
参照图3-5,图3为本发明的待检测恶意文件对应的待检测灰度图;图4为本发明的候选目标区域示意图,其中,在该实施例中,预设数量为3,图4中包括三个候选目标区域,可见,三个候选目标区域的尺寸并不完全相同,即进行本发明的方法时,不同的切割框的尺寸可以是不同的;图5为本发明的变种恶意文件对应的灰度图。
其中,待检测恶意文件的家族为AccoutHunter,其哈希值为: 98eca1c2b6db3224ca1790fba1b1d5915f5448ae85dc4ec553718a0d0dd44 3a2,变种恶意文件的哈希值为 b9c723575b7798f7ac14f7e03b8b2ae047d5d37900a27793972
e512abfecdb07。
本发明技术方案提出了一种恶意文件检测方法,通过在获取到待检测恶意文件时,将所述待检测恶意文件转换为待检测灰度图;将所述待检测灰度图输入训练获得的恶意文件分类模型,以获得所述待检测恶意文件的家族分类结果和所述待检测恶意文件的特征区域;基于所述家族分类结果和所述特征区域,获得检测结果。
现有的恶意文件检测方法中,通过神经网络模型对待检测灰度图进行分类,以获得待检测恶意文件的分类结果,并基于分类结果确定待检测恶意文件的检测结果,但是,检测结果中缺少待检测恶意文件的特征区域,使得检测结果的准确率较低,检测结果缺乏信服力。而本发明的恶意文件检测方法,恶意文件分类模型输出的结果包括所述待检测恶意文件的家族分类结果和所述待检测恶意文件的特征区域,从而使得检测结果的准确率较高,且具有说服力。所以,利用本发明的恶意文件检测方法,提高了恶意文件检测的准确率和说服力。
另外,利用本发明的恶意文件检测方法,除了能获得待检测恶意文件的家族分类结果,还可以基于待检测恶意文件的特征区域(目标区域)的局部特征向量,确定出变种恶意文件,使得检测结果的准确率更高。
参照图6,图6为本发明恶意文件检测装置第一实施例的结构框图,所述装置用于终端设备,所述装置包括:
获取模块10,用于在获取到待检测恶意文件时,将所述待检测恶意文件转换为待检测灰度图;
分类模块20,用于将所述待检测灰度图输入训练获得的恶意文件分类模型,以获得所述待检测恶意文件的家族分类结果和所述待检测恶意文件的特征区域;
获得模块30,用于基于所述家族分类结果和所述特征区域,获得检测结果。
以上所述仅为本发明的可选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (10)

1.一种恶意文件检测方法,其特征在于,所述方法包括以下步骤:
在获取到待检测恶意文件时,将所述待检测恶意文件转换为待检测灰度图;
将所述待检测灰度图输入训练获得的恶意文件分类模型,以获得所述待检测恶意文件的家族分类结果和所述待检测恶意文件的特征区域;
基于所述家族分类结果和所述特征区域,获得检测结果。
2.如权利要求1所述的方法,其特征在于,所述将所述待检测灰度图输入训练获得的恶意文件分类模型的步骤之前,所述方法还包括:
获取训练样本,所述训练样本包括训练恶意样本文件和与所述训练恶意样本文件对应的训练分类结果;
将所述训练恶意样本文件转换为训练灰度图;
利用所述训练灰度图和所述训练分类结果,对预设分类模型进行训练,以获得所述恶意文件分类模型。
3.如权利要求2所述的方法,其特征在于,所述利用所述训练灰度图和所述训练分类结果,对预设分类模型进行训练,以获得所述恶意文件分类模型的步骤,包括:
在所述训练灰度图中确定出选定训练灰度图;
在所述训练分类结果中确定出与所述选定灰度图对应的选定训练分类结果;
利用所述预设分类模型中的第一残差网络对所述选定训练灰度图进行全局特征提取,以获得全局特征向量;
对所述选定训练灰度图进行分割,以获得多个分割区域;
利用所述预设分类模型中的第二残差网络对所述多个分割区域进行局部特征提取,以获得所述多个分割区域分别对应的多个局部特征向量;
利用所述多个局部特征向量,在所述多个分割区域中筛选出候选目标区域;
计算所述候选目标区域的候选目标特征分值;
将所述候选目标特征分值、所述多个局部特征向量和所述全局特征向量输入所述预设分类模型中的家族分类网络,以获得实际分类结果;
基于所述选定训练分类结果,利用目标损失函数,确定所述实际分类结果的损失;
利用所述损失对所述预设分类模型进行参数调整,以获得调整后的预设分类模型;
将所述调整后的预设分类模型作为所述预设分类模型,并返回执行所述在所述训练灰度图中确定出选定训练灰度图的步骤,直到实际分类结果的损失满足预设条件,获得所述恶意文件分类模型。
4.如权利要求3所述的方法,其特征在于,所述利用所述多个局部特征向量,在所述多个分割区域中筛选出候选目标区域的步骤,包括:
将所述多个局部特征向量输入所述预设分类模型中的特征置信度计算网络,以获得所述多个局部特征向量分别对应的多个置信度;
利用非极大抑制法,在所述多个分割区域中筛选筛选置信度最大的预设数量个候选目标区域。
5.如权利要求4所述的方法,其特征在于,所述计算所述候选目标区域的候选目标特征分值的步骤,包括:
利用所述预设分类模型中的局部特征评分网络计算所述候选目标区域的候选目标特征分值。
6.如权利要求5所述的方法,其特征在于,所述利用所述损失对所述预设分类模型进行参数调整,以获得调整后的预设分类模型的步骤,包括:
利用所述损失对所述第一残差网络进行参数调整,以获得调整后的第一残差网络;
利用所述损失对所述第二残差网络进行参数调整,以获得调整后的第二残差网络;
利用所述损失对所述特征置信度计算网络进行参数调整,以获得调整后的特征置信度计算网络;
利用所述损失对所述局部特征评分网络进行参数调整,以获得调整后的局部特征评分网络;
基于所述调整后的第一残差网络、所述调整后的第二残差网络、所述调整后的特征置信度计算网络和所述调整后的局部特征评分网络,获得所述调整后的预设分类模型。
7.如权利要求1-6任一项所述的方法,其特征在于,所述在获取到待检测恶意文件时,将所述待检测恶意文件转换为待检测灰度图的步骤,包括:
在获取到待检测恶意文件时,获取所述待检测恶意文件的待检测二进制信息;
将所述待检测二进制信息转换为所述待检测灰度图。
8.一种恶意文件检测装置,其特征在于,所述装置包括:
获取模块,用于在获取到待检测恶意文件时,将所述待检测恶意文件转换为待检测灰度图;
分类模块,用于将所述待检测灰度图输入训练获得的恶意文件分类模型,以获得所述待检测恶意文件的家族分类结果和所述待检测恶意文件的特征区域;
获得模块,用于基于所述家族分类结果和所述特征区域,获得检测结果。
9.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行恶意文件检测程序,所述恶意文件检测程序被所述处理器执行时实现如权利要求1至7中任一项所述的恶意文件检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有恶意文件检测程序,所述恶意文件检测程序被处理器执行时实现如权利要求1至7中任一项所述的恶意文件检测方法的步骤。
CN202110353623.7A 2021-03-30 2021-03-30 恶意文件检测方法、装置、终端设备以及存储介质 Active CN113282925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110353623.7A CN113282925B (zh) 2021-03-30 2021-03-30 恶意文件检测方法、装置、终端设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110353623.7A CN113282925B (zh) 2021-03-30 2021-03-30 恶意文件检测方法、装置、终端设备以及存储介质

Publications (2)

Publication Number Publication Date
CN113282925A true CN113282925A (zh) 2021-08-20
CN113282925B CN113282925B (zh) 2023-09-05

Family

ID=77276162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110353623.7A Active CN113282925B (zh) 2021-03-30 2021-03-30 恶意文件检测方法、装置、终端设备以及存储介质

Country Status (1)

Country Link
CN (1) CN113282925B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329475A (zh) * 2022-03-15 2022-04-12 北京华云安信息技术有限公司 恶意代码检测模型的训练方法、装置以及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715194A (zh) * 2013-12-13 2015-06-17 北京启明星辰信息安全技术有限公司 恶意软件检测方法和装置
CN108062478A (zh) * 2018-01-04 2018-05-22 北京理工大学 全局特征可视化与局部特征相结合的恶意代码分类方法
CN110704842A (zh) * 2019-09-27 2020-01-17 山东理工大学 一种恶意代码家族分类检测方法
US10572823B1 (en) * 2016-12-13 2020-02-25 Ca, Inc. Optimizing a malware detection model using hyperparameters
CN111552964A (zh) * 2020-04-07 2020-08-18 哈尔滨工程大学 一种基于静态分析的恶意软件分类方法
CN111797396A (zh) * 2020-06-28 2020-10-20 韩山师范学院 恶意代码可视化及变种检测方法、装置、设备及存储介质
CN112347478A (zh) * 2020-10-13 2021-02-09 北京天融信网络安全技术有限公司 一种恶意软件检测方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715194A (zh) * 2013-12-13 2015-06-17 北京启明星辰信息安全技术有限公司 恶意软件检测方法和装置
US10572823B1 (en) * 2016-12-13 2020-02-25 Ca, Inc. Optimizing a malware detection model using hyperparameters
CN108062478A (zh) * 2018-01-04 2018-05-22 北京理工大学 全局特征可视化与局部特征相结合的恶意代码分类方法
CN110704842A (zh) * 2019-09-27 2020-01-17 山东理工大学 一种恶意代码家族分类检测方法
CN111552964A (zh) * 2020-04-07 2020-08-18 哈尔滨工程大学 一种基于静态分析的恶意软件分类方法
CN111797396A (zh) * 2020-06-28 2020-10-20 韩山师范学院 恶意代码可视化及变种检测方法、装置、设备及存储介质
CN112347478A (zh) * 2020-10-13 2021-02-09 北京天融信网络安全技术有限公司 一种恶意软件检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王国栋 等: "基于CNN-BiLSTM的恶意代码家族检测技术", 《计算机工程与应用》, vol. 56, no. 24, pages 72 - 77 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329475A (zh) * 2022-03-15 2022-04-12 北京华云安信息技术有限公司 恶意代码检测模型的训练方法、装置以及设备

Also Published As

Publication number Publication date
CN113282925B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN110121118B (zh) 视频片段定位方法、装置、计算机设备及存储介质
EP3683719A1 (en) Target detection method, device, and system
CN105046254A (zh) 字符识别方法及装置
US20190332847A1 (en) Face model matrix training method and apparatus, and storage medium
CN112215227B (zh) 图像目标检测模型攻击方法、装置、终端设备及存储介质
CN112017669B (zh) 语音对抗样本检测方法、装置、终端设备以及存储介质
CN113282925B (zh) 恶意文件检测方法、装置、终端设备以及存储介质
CN112351097A (zh) 设备控制方法、装置、发送端以及存储介质
US10706282B2 (en) Method and mobile terminal for processing image and storage medium
CN112733688B (zh) 房屋的属性值预测方法、装置、终端设备以及计算机可读存储介质
CN109726726B (zh) 视频中的事件检测方法及装置
CN112560020A (zh) 威胁攻击检测方法、装置、终端设备以及存储介质
CN112200623A (zh) 产品推荐方法、装置、设备及存储介质
CN113225234B (zh) 资产探测方法、装置、终端设备以及计算机可读存储介质
EP3627382A1 (en) Method for iris liveness detection and related product
CN113407392B (zh) 浮点运算单元测试方法、装置、集控设备以及存储介质
CN114972861A (zh) 对抗样本生成方法、装置、设备及存储介质
CN114663710A (zh) 轨迹识别方法、装置、设备及存储介质
CN114494795A (zh) 基于底盘检测的停车检测方法、装置、设备及存储介质
CN113919852A (zh) 产品侵权判定方法、装置、终端设备以及存储介质
CN114610911A (zh) 多模态知识本征表示学习方法、装置、设备及存储介质
CN111738034B (zh) 车道线的检测方法和装置
CN112532971A (zh) 影像处理方法、装置、显示终端以及计算机可读存储介质
CN112150396A (zh) 高光谱图像降维方法、装置、终端设备及存储介质
CN113269730A (zh) 图像处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant