CN110334510A - 一种基于随机森林算法的恶意文件检测技术 - Google Patents

一种基于随机森林算法的恶意文件检测技术 Download PDF

Info

Publication number
CN110334510A
CN110334510A CN201810261903.3A CN201810261903A CN110334510A CN 110334510 A CN110334510 A CN 110334510A CN 201810261903 A CN201810261903 A CN 201810261903A CN 110334510 A CN110334510 A CN 110334510A
Authority
CN
China
Prior art keywords
file
malicious file
random forests
sample
technique based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810261903.3A
Other languages
English (en)
Inventor
杨育斌
吴智东
柯宗贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Blue Shield Information Security Technology Co Ltd
Bluedon Information Security Technologies Co Ltd
Original Assignee
Blue Shield Information Security Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Blue Shield Information Security Technology Co Ltd filed Critical Blue Shield Information Security Technology Co Ltd
Priority to CN201810261903.3A priority Critical patent/CN110334510A/zh
Publication of CN110334510A publication Critical patent/CN110334510A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/53Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Virology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于随机森林算法的恶意文件检测技术,该方法为了解决现有技术中使用特征匹配方法检测恶意文件的缺点或不足,采用了有效特征提取并使用机器学习算法检测恶意文件的方案,从而实现了准确有效识别已知和未知恶意文件的目的。

Description

一种基于随机森林算法的恶意文件检测技术
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于随机森林算法的恶意文件检测技术。
背景技术
自互联网的普及和发展过程中,具有毁坏系统、篡改文件、影响系统稳定与执行效率、窃取信息等的计算机恶意程序一直是计算机使用中的重要问题。这些恶意程序包括特洛伊木马程序,勒索软件,间谍程序等,它们可能对企业或用户造成极大的危害或是极大的财产损失。因此,使用有效的手段进行精确的恶意文件识别,成为计算机安全防御的一个重点。
目前的检测手段主要采用基于特征码的查杀和启发式的人工特征行为查杀。其中基于特征码的查杀是基于杀毒软件技术的检测,这种方法无法有效识别未知恶意程序,只有当恶意程序的特征码加入病毒库后才能被检测。而启发式的人工特征行为查杀是通过对大量病毒的行为特征进行描述分析,将经典的病毒行为特征串作为检测标准,主要通过经验判,存在较高的漏报率和误报率。
上述基于规则的检测方案只能检测已知的恶意文件类型,但无法更好地对日益更新的恶意文件类型进行识别。而通过行为识别未知的恶意文件就显得尤为重要。
发明内容
本发明通过采集恶意文件与正常文件在沙箱中的文件、网络、注册表、进程等行为信息,构建9大类行为特征,组成特征向量。该特征向量作为机器学习算法的输入数据,选取集成算法随机森林,建立有监督的检测模型。当新的文件行为数据产生,该模型能准确有效的识别出文件恶意与否。
本发明技术方案带来的有益效果:
1、漏报和误报低。通过采集恶意文件在沙箱的动态行为特征,构建机器学习的分类器进行检测,相对基于传统的规则匹配,能有效地减少漏报率和误报率。
2、模型容识别率高。可以通过丰富训练样本库的方式,增强模型的识别能力,使该模型能发现已知和未知种类的恶意文件。
3、消耗系统资源低。模型一旦训练完成,可以直接导出称为文件,当需要检测新样本文件时,只需要导入该模型文件,便可完成检测,极大低减少系统资源的消耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明流程图图;
具体实施方式
本发明提供的一种基于随机森林算法的恶意文件检测技术方案如下所述:
步骤1:收集恶意样本和正常样本。分别从开源病毒网站收集公开的恶意、病毒文件和正常无恶意的文件,作为训练样本。
步骤2:搭建安装沙箱模块并收集恶意样本和正常样本在沙箱中产生的所有行为信息。
步骤3:根据window底层API的作用,构造9大类行为特征。
步骤4:将沙箱收集的样本数据,处理为9大行为特征向量,作为训练样本特征向量。
步骤5:使用处理好的训练样本特征向量,输入到随机森林算法,学习一个有监督的分类器。
步骤6:收集待检测未知样本程序文件的沙箱行为数据。
步骤7:计算待检测样本的9大类行为特征,构造待检测特征向量。
步骤8:使用训练好的随机森林模型,检测待检测样本。
步骤9:随机森林输出该样本的检测结果,恶意文件或正常文件。
步骤10:丰富训练样本库,提高模型检测能力。
下面将结合附图,对本发明进行详细说明。所描述的详细案例仅是本发明的一部分,而不是对本发明的限制。
具体实施流程:
步骤1:使用爬虫技术,分别从开源病毒网站收集公开的恶意、病毒文件和正常无恶意的文件,作为训练样本文件。
步骤2:在虚拟环境安装搭建沙箱,并将恶意样本文件和正常样本文件,分别放到沙箱中运行,同时收集各自运行的结果数据。该数据包括动态链接库加载、文件操作、注册表修改、网络连接信息等。
步骤3:根据windowAPI函数的功能,构造了9大类行为特征,分别为“文件操作类”、“网络操作类”、“注册表与服务类”、“进程线程类”、“注入类”、“驱动类”、“加密与解密”、“消息传递”、“其他系统关键API”,其中每类特征是由相关API集合组成。
步骤4:在windows操作系统中,基本上所有的功能都是通过调用API来实现的。如果恶意文件不使用API调用而直接进行系统调用,需要编写大量的程序代码,导致更容易被入侵检测系统检测出来。所以一般恶意文件会选择利用API来实现其一系列的功能。而根据API的功能,构造了9大行为特征类,分别为“文件操作类”、“网络操作类”、“注册表与服务类”、“进程线程类”、“注入类”、“驱动类”、“加密与解密”、“消息传递”、“其他系统关键API”,其中每类特征是由相关API集合组成。在9类行为特征中,每一类特征包含多个API,将所有特征包含的API作为特征指标,构造一个160维的特征向量。而样本文件的沙箱行为数据中,包含了其调用API的种类和调用次数。统计其调用在160维特征中对应API的调用次数,构建该样本文件的特征向量。
步骤5:使用处理好的训练样本特征向量,输入到随机森林算法,学习一个有监督的分类器。随机森林使用了bagging的思想,采取有放回地随机抽取样本和特征,生成多棵决策树,统计所有树的决策结果,将结果投票次数最多的类别指定为最终的输出。将训练样本特征向量输入到随机森林的每一颗决策树进行分类,最后统计所有树的结果进行分类,以此训练随机森林。
步骤6:将待检测的未知样本程序文件,放到沙箱运行,收集其在沙箱中产生的行为数据。
步骤7:计算待检测样本的9大类行为特征,构造待检测特征向量。处理方法与步骤4相同,将待检测的样本文件处理成一个160维的特征向量。
步骤8:使用训练好的随机森林模型,检测待检测样本。将处理好的待检测文件的特征向量输入到训练好的随机森林模型中,进行检测。
步骤9:随机森林输出该样本的检测结果,恶意文件或正常文件。该随机森林是由多棵选取不同特征和随机样本的决策树构成的集成算法,通过多棵决策树检测并投票的方式,判断待检测文件是恶意文件或正常文件。
步骤10:丰富训练样本库。将检测出是恶意文件概率大于0.9放到恶意文件训练样本库,概率小于0.1的放到正常文件训练样本库,而概率介于0.1-0.9的由安全专家进行人工检测,检测完毕亦可以用于丰富训练样本库。
以上对本发明实施例所提供的一种基于随机森林算法的恶意文件检查技术进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (3)

1.一种基于随机森林算法的恶意文件检测技术,该发明通过采集恶意文件与正常文件在沙箱中的文件、网络、注册表、进程等行为信息,构建9大类行为特征,组成特征向量;该特征向量作为机器学习算法的输入数据,选取集成算法随机森林,建立有监督的检测模型;当新的文件行为数据产生,该模型能准确有效的识别出文件恶意与否。
2.根据权利要求1所述的一种基于随机森林算法的恶意文件检测技术,其特征在于,搭建安装沙箱模块并收集恶意样本和正常样本在沙箱中产生的所有行为信息,处理为9大行为特征向量,作为训练样本特征向量。
3.根据权利要求1所述的一种基于随机森林算法的恶意文件检测技术,其特征在于,使用处理好的训练样本特征向量,输入到随机森林算法,学习一个有监督的分类器,计算待检测样本的9大类行为特征,构造待检测特征向量。
CN201810261903.3A 2018-03-28 2018-03-28 一种基于随机森林算法的恶意文件检测技术 Pending CN110334510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810261903.3A CN110334510A (zh) 2018-03-28 2018-03-28 一种基于随机森林算法的恶意文件检测技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810261903.3A CN110334510A (zh) 2018-03-28 2018-03-28 一种基于随机森林算法的恶意文件检测技术

Publications (1)

Publication Number Publication Date
CN110334510A true CN110334510A (zh) 2019-10-15

Family

ID=68138825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810261903.3A Pending CN110334510A (zh) 2018-03-28 2018-03-28 一种基于随机森林算法的恶意文件检测技术

Country Status (1)

Country Link
CN (1) CN110334510A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723371A (zh) * 2020-06-22 2020-09-29 上海斗象信息科技有限公司 构建恶意文件的检测模型以及检测恶意文件的方法
CN112507331A (zh) * 2020-12-03 2021-03-16 北京微步在线科技有限公司 一种模型训练方法、文件识别方法及电子装置
CN117251691A (zh) * 2023-08-04 2023-12-19 华能信息技术有限公司 一种可疑样本分析处理方法及系统
CN117290823A (zh) * 2023-11-21 2023-12-26 中国电信股份有限公司江西分公司 一种app智能检测与安全防护方法、计算机设备及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723371A (zh) * 2020-06-22 2020-09-29 上海斗象信息科技有限公司 构建恶意文件的检测模型以及检测恶意文件的方法
CN111723371B (zh) * 2020-06-22 2024-02-20 上海斗象信息科技有限公司 构建恶意文件的检测模型以及检测恶意文件的方法
CN112507331A (zh) * 2020-12-03 2021-03-16 北京微步在线科技有限公司 一种模型训练方法、文件识别方法及电子装置
CN117251691A (zh) * 2023-08-04 2023-12-19 华能信息技术有限公司 一种可疑样本分析处理方法及系统
CN117290823A (zh) * 2023-11-21 2023-12-26 中国电信股份有限公司江西分公司 一种app智能检测与安全防护方法、计算机设备及介质
CN117290823B (zh) * 2023-11-21 2024-05-10 中国电信股份有限公司江西分公司 一种app智能检测与安全防护方法、计算机设备及介质

Similar Documents

Publication Publication Date Title
Aslan et al. A new malware classification framework based on deep learning algorithms
CN105247532B (zh) 使用硬件特征的对异常进程的无监督的检测
CN110233849B (zh) 网络安全态势分析的方法及系统
Shar et al. Mining SQL injection and cross site scripting vulnerabilities using hybrid program analysis
Murtaza et al. A host-based anomaly detection approach by representing system calls as states of kernel modules
CN110334510A (zh) 一种基于随机森林算法的恶意文件检测技术
Jeon et al. Hybrid malware detection based on Bi-LSTM and SPP-Net for smart IoT
Xiao et al. From patching delays to infection symptoms: Using risk profiles for an early discovery of vulnerabilities exploited in the wild
CN102291392A (zh) 一种基于Bagging算法的复合式入侵检测方法
Liu et al. NSDroid: efficient multi-classification of android malware using neighborhood signature in local function call graphs
CN117081858B (zh) 一种基于多决策树入侵行为检测方法、系统、设备及介质
CN111813960A (zh) 基于知识图谱的数据安全审计模型装置、方法及终端设备
Petersen Data mining for network intrusion detection: A comparison of data mining algorithms and an analysis of relevant features for detecting cyber-attacks
Zuo Defense of Computer Network Viruses Based on Data Mining Technology.
CN114553596A (zh) 适用于网络安全的多维度安全情况实时展现方法及系统
Tumuluru et al. APMWMM: Approach to Probe Malware on Windows Machine using Machine Learning
CN108566307B (zh) 一种定量化的网络安全保护强度评估方法及系统
CN114070642A (zh) 网络安全检测方法、系统、设备及存储介质
Hasan et al. Machine Learning and Data Mining Methods for Cyber Security: A Survey
Ambika An economical machine learning approach for anomaly detection in IoT environment
KR20200109677A (ko) Ai 기반 머신러닝 교차 검증 기법을 활용한 악성코드 탐지 장치 및 방법
Sharma Windows malware detection using machine learning and TF-IDF enriched API calls information
Kwan Malware detection at the microarchitecture level using machine learning techniques
Luh et al. LLR-based sentiment analysis for kernel event sequences
Lasky et al. Machine Learning Based Approach to Recommend MITRE ATT&CK Framework for Software Requirements and Design Specifications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination