CN113935022A - 一种同源样本捕获方法、装置、电子设备及存储介质 - Google Patents

一种同源样本捕获方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113935022A
CN113935022A CN202111546478.0A CN202111546478A CN113935022A CN 113935022 A CN113935022 A CN 113935022A CN 202111546478 A CN202111546478 A CN 202111546478A CN 113935022 A CN113935022 A CN 113935022A
Authority
CN
China
Prior art keywords
sample
homologous
module
detected
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111546478.0A
Other languages
English (en)
Inventor
鲁玮克
樊兴华
薛锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ThreatBook Technology Co Ltd
Original Assignee
Beijing ThreatBook Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ThreatBook Technology Co Ltd filed Critical Beijing ThreatBook Technology Co Ltd
Priority to CN202111546478.0A priority Critical patent/CN113935022A/zh
Publication of CN113935022A publication Critical patent/CN113935022A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/53Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请实施例提供一种同源样本捕获方法、装置、电子设备及存储介质,涉及病毒检测技术领域。该方法包括对进入云沙箱的待测样本进行样本代码基因提取,以获得待测特征矩阵;将所述待测特征矩阵输入预设的机器学习模型,与数据库中的病毒样本特征矩阵进行比对,以得到判定结果;若所述判定结果为同源样本,则标记捕获成功,将样本的动态及静态特征作为代码基因,基于代码基因进行检测,可更快速更精准地发现攻击者编写的最新病毒样本,解决了现有YARA规则检测方法无法检测到无重复字符串及指令码的病毒样本的问题。

Description

一种同源样本捕获方法、装置、电子设备及存储介质
技术领域
本申请涉及病毒检测技术领域,具体而言,涉及一种同源样本捕获方法、装置、电子设备及存储介质。
背景技术
随着网络安全技术的发展,病毒木马也在不断更新迭代。将来自同一黑客或黑客团伙编写的病毒样本,称为同源样本。部署YARA规则是常用的同源样本捕获手段。YARA规则对文件的检测是基于字符串的模式匹配。即安全分析人员捕获到病毒家族的样本后,根据样本涉及的指令码、字符串等特征,编写YARA规则,并将该YARA规则应用在样本库上,当样本库中出现命中相关YARA规则时,即捕获到了指定病毒家族的样本。
由于YARA的检测原理是基于字符串的静态匹配,而当攻击者在编写木马时对样本进行多种特殊处理,如使用加壳、随机字符串、动态读取API等手段以避免出现相同字符串或指令码时,导致使用YARA规则将无法对该样本进行捕获,该样本实现了躲避YARA规则检测的问题。
发明内容
本申请实施例的目的在于提供一种同源样本捕获方法、装置、电子设备及存储介质,将样本的动态及静态特征作为代码基因,基于代码基因进行检测,可更快速更精准地发现攻击者编写的最新病毒样本,解决了现有YARA规则检测方法无法检测到无重复字符串及指令码的病毒样本的问题。
本申请实施例提供了一种同源样本捕获方法,该方法包括:
对进入云沙箱的待测样本进行样本代码基因提取,以获得待测特征矩阵;
将所述待测特征矩阵输入预设的机器学习模型,与数据库中的病毒样本特征矩阵进行比对,以得到判定结果;
若所述判定结果为同源样本,则标记捕获成功。
在上述实现过程中,通过对病毒样本进行代码基因抽取,形成可供机器学习模型训练和判定的特征矩阵,实现了使用机器学习模型捕获同源样本的目的,优化了传统的YARA规则容易被攻击者绕过的缺陷,丰富了安全分析师捕获攻击者最新样本的方法。
进一步地,在所述将所述待测特征矩阵输入预设的机器学习模型的步骤之前,所述方法还包括构建所述机器学习模型:
构建样本训练集;
基于所述样本训练集对机器学习模型进行训练。
在上述实现过程中,利用样本训练集对机器学习模型进行训练,实现对待测样本进行识别的模型构建。
进一步地,所述构建样本训练集,包括:
采集已知的同源样本和非同源样本,并分别提取代码基因,所述代码基因包括静态行为特征和动态行为特征,所述静态行为特征包括导入表中API和文件区段名称,所述动态行为特征为病毒样本的所有行为,包括文件操作、进程操作、注册表操作和系统操作;
分别获取所述代码基因的特征矩阵;
分别对同源样本的特征矩阵和非同源样本的特征矩阵进行标注,以生成样本训练集。
在上述实现过程中,提取样本的静态行为特征和动态行为特征并生成特征矩阵,实现了代码基因提取,更精确地描述了样本的本质特征,强化了样本动态行为特征和静态特征与攻击者的关联,结合云沙箱,能够更快速更精准地发现攻击者编写的最新病毒样本。
进一步地,所述将所述待测特征矩阵输入预设的机器学习模型,与数据库中的样本特征矩阵进行比对,以得到判定结果,包括:
利用所述机器学习模型计算所述待测特征矩阵与所述样本特征矩阵的相似性;
若所述相似性大于预设阈值,则判定所述待测样本与数据库中的当前病毒样本为同源样本。
在上述实现过程中,使用机器学习模型与库中样本特征矩阵做比对,从而根据阈值判定是否为同源样本,实现待测样本的检测。
本申请实施例还提供一种同源样本捕获装置,所述装置包括:
特征提取模块,对进入云沙箱的待测样本进行样本代码基因提取,以获得待测特征矩阵;
比对模块,用于将所述待测特征矩阵输入预设的机器学习模型,与数据库中的病毒样本特征矩阵进行比对,以得到判定结果;
标记模块,用于若所述判定结果为同源样本,则标记捕获成功。
在上述实现过程中,通过对病毒样本进行代码基因抽取,形成可供机器学习模型训练和判定的特征矩阵,实现了使用机器学习模型捕获同源样本的目的,优化了传统的YARA规则容易被攻击者绕过的缺陷,丰富了安全分析师捕获攻击者最新样本的方法。
进一步地,所述装置还包括模型构建模块:
样本集模块,用于构建样本训练集;
训练模块,用于基于所述样本训练集对机器学习模型进行训练。
上述实现过程中,利用样本训练集对机器学习模型进行训练,实现对待测样本进行识别的模型构建。
进一步地,所述样本集模块包括:
采集模块,用于采集已知的同源样本和非同源样本,并分别提取代码基因,所述代码基因包括静态行为特征和动态行为特征,所述静态行为特征包括导入表中API和文件区段名称,所述动态行为特征为病毒样本的所有行为,包括文件操作、进程操作、注册表操作和系统操作;
矩阵生成模块,用于分别获取所述代码基因的特征矩阵;
标注模块,用于分别对同源样本的特征矩阵和非同源样本的特征矩阵进行标注,以生成样本训练集。
在上述实现过程中,提取样本的静态行为特征和动态行为特征并生成特征矩阵,实现了代码基因提取,更精确地描述了样本的本质特征,强化了样本动态行为特征和静态特征与攻击者的关联,结合云沙箱,能够更快速更精准地发现攻击者编写的最新病毒样本。
进一步地,所述比对模块模块包括:
计算模块,用于利用所述机器学习模型计算所述待测特征矩阵与所述样本特征矩阵的相似性;
判断模块,用于若所述相似性大于预设阈值,则判定所述待测样本与数据库中的当前病毒样本为同源样本。
在上述实现过程中,使用机器学习模型与库中样本特征矩阵做比对,从而根据阈值判定是否为同源样本,实现待测样本的检测。
本申请实施例还提供一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行计算机程序以使计算机设备执行上述中任一项所述的同源样本捕获方法。
本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述中任一项所述的同源样本捕获方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种同源样本捕获方法的流程图;
图2为本申请实施例提供的样本检测流程图;
图3为本申请实施例提供的模型构建流程图;
图4为本申请实施例提供的训练样本集构建流程图;
图5为本申请实施例提供的同源样本判定流程图;
图6为本申请实施例提供的一种同源样本捕获装置的结构框图;
图7为本申请实施例提供的另一种同源样本捕获装置的结构框图。
图标:
100-特征提取模块;200-比对模块;210-样本集模块;211-采集模块;212-矩阵生成模块;213-标注模块;220-训练模块;230-模型构建模块;201-计算模块;202-判断模块;300-标记模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参看图1,图1为本申请实施例提供的一种同源样本捕获方法的流程图。该方法可应用于检测最新病毒样本。具体包括以下步骤:
步骤S100:对进入云沙箱的待测样本进行样本代码基因提取,以获得待测特征矩阵;
如图2所示,为样本检测流程图,当新的样本即待测样本进入到云沙箱时,首先提取待测样本的代码基因,该代码基因包括样本的静态特征和动态特征,其中,静态特征包括但不限于导入表中API和文件区段名称;动态特征包括但不限于文件操作、进程操作、注册表操作和系统操作,例如文件创建、进程创建,注册表项创建、系统服务创建和计划任务等,动态行为特征包含了病毒样本所有的动态行为,且无法在静态扫描中发现。
其中,文件创建指的是病毒木马在操作系统中创建的新文件,一般是把自身的拷贝转移到更隐蔽的目录并运行,因此过程中会创建文件。在运行时,系统也会为木马创建新的进程,这就是进程创建的过程。
动态行为特征包括病毒样本在沙箱动态行为监测模块中出现的所有行为,包括但不限于文件操作,如文件创建、文件删除,文件修改等;进程操作,如进程创建、进程注入、进程关闭等;注册表操作,如注册表的表项创建,修改,删除等;系统操作,如增加计划任务、创建服务、访问系统关键目录等。以上内容均可作为病毒样本的动态行为特征,且无法在静态扫描中发现。
步骤S200:将所述待测特征矩阵输入预设的机器学习模型,与数据库中的病毒样本特征矩阵进行比对,以得到判定结果;
在该步骤之前,需要先构建机器学习模型,如图3所示,为模型构建流程图,具体包括以下步骤:
步骤S210:构建样本训练集;
具体地,如图4所示,为训练样本集构建流程图,具体包括:
步骤S211:采集已知的同源样本和非同源样本,并分别提取代码基因,所述代码基因包括静态行为特征和动态行为特征,所述静态行为特征包括导入表中API和文件区段名称,所述动态行为特征为病毒样本的所有行为,包括文件操作、进程操作、注册表操作和系统操作,例如包括文件创建、进程创建、注册表项创建、系统服务创建和计划任务;
步骤S212:分别获取所述代码基因的特征矩阵;
步骤S213:分别对同源样本的特征矩阵和非同源样本的特征矩阵进行标注,以生成样本训练集。
示例地,对已知来自同源样本的特征矩阵进行标注,如同源样本之间两两结合,标注为正样本;已知非同源样本两两结合,标注为负样本。
提取代码基因后进行样本集标注,例如将同源样本标注为1,非同源样本标注为0,并以此作为训练集标签。
步骤S220:基于所述样本训练集对机器学习模型进行训练。
利用标注好的样本训练集对机器学习模型进行训练,生成样本判定模型,使得训练好的模型能够判定两个样本是否为同源样本。
示例地,机器学习模型可以采用xgboost二分类模型。
步骤S300:若所述判定结果为同源样本,则标记捕获成功。
具体地,如图5所示,为同源样本判定流程图,具体包括以下步骤:
步骤S301:利用所述机器学习模型计算所述待测特征矩阵与所述样本特征矩阵的相似性;
示例地,可以使用Smooth Inverse Frequency算法计算两个特征矩阵的相似性。
步骤S302:若所述相似性大于预设阈值,则判定所述待测样本与数据库中的当前病毒样本为同源样本。
将接入云沙箱的最新样本,提取其代码基因,生成相应待测特征矩阵,并使用机器学习模型与库中样本特征矩阵做比对,若机器学习模型判定结果为同源,则视为成功捕获新的同源样本,否则舍弃,继续与数据库中的其他样本进行比对,直至将数据库中的所有病毒样本遍历结束。
数据库中可预先存储多个病毒样本,可将病毒样本的种类和数量覆盖当前最新的病毒样本,从而增加比对结果的准确性。
通过对病毒样本的代码基因抽取,更精确地描述了样本的本质特征,强化了样本动态行为特征和静态特征与攻击者的关联,结合云沙箱,能够更快速更精准地发现攻击者编写的最新病毒样本。
该方法通过对病毒样本进行代码基因抽取,形成可供机器学习模型训练和判定的特征矩阵,实现了使用机器学习模型捕获同源样本,优化了传统上YARA规则容易被攻击者绕过的缺陷,丰富了安全分析师捕获攻击者最新样本的方法。
本申请实施例还提供一种同源样本捕获装置,如图6所示,为一种同源样本捕获装置的结构框图,所述装置包括:
特征提取模块100,对进入云沙箱的待测样本进行样本代码基因提取,以获得待测特征矩阵;
比对模块200,用于将所述待测特征矩阵输入预设的机器学习模型,与数据库中的病毒样本特征矩阵进行比对,以得到判定结果;
标记模块300,用于若所述判定结果为同源样本,则标记捕获成功。
具体地,如图7所示,为另一种同源样本捕获装置的结构框图,所述装置还包括模型构建模块230:
样本集模块210,用于构建样本训练集;
训练模块220,用于基于所述样本训练集对机器学习模型进行训练。
所述样本集模块210包括:
采集模块211,用于采集已知的同源样本和非同源样本,并分别提取代码基因,所述代码基因包括静态行为特征和动态行为特征,所述静态行为特征包括导入表中API和文件区段名称,所述动态行为特征为病毒样本的所有行为,包括文件操作、进程操作、注册表操作和系统操作;
矩阵生成模块212,用于分别获取所述代码基因的特征矩阵;
标注模块213,用于分别对同源样本的特征矩阵和非同源样本的特征矩阵进行标注,以生成样本训练集。
所述比对模块200包括:
计算模块201,用于利用所述机器学习模型计算所述待测特征矩阵与所述样本特征矩阵的相似性;
判断模块202,用于若所述相似性大于预设阈值,则判定所述待测样本与数据库中的当前病毒样本为同源样本。
通过对病毒样本进行代码基因抽取,形成可供机器学习模型训练和判定的特征矩阵,实现了使用机器学习模型捕获同源样本,优化了传统上YARA规则容易被攻击者绕过的缺陷,丰富了安全分析师捕获攻击者最新样本的方法,解决了现有YARA规则检测方法无法检测到无重复字符串及指令码的病毒样本的问题。
本申请实施例还提供一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行计算机程序以使计算机设备执行上述的同源样本捕获方法。
本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述的同源样本捕获方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种同源样本捕获方法,其特征在于,所述方法包括:
对进入云沙箱的待测样本进行样本代码基因提取,以获得待测特征矩阵;
将所述待测特征矩阵输入预设的机器学习模型,与数据库中的病毒样本特征矩阵进行比对,以得到判定结果;
若所述判定结果为同源样本,则标记捕获成功。
2.根据权利要求1所述的同源样本捕获方法,其特征在于,在所述将所述待测特征矩阵输入预设的机器学习模型的步骤之前,所述方法还包括构建所述机器学习模型:
构建样本训练集;
基于所述样本训练集对机器学习模型进行训练。
3.根据权利要求2所述的同源样本捕获方法,其特征在于,所述构建样本训练集,包括:
采集已知的同源样本和非同源样本,并分别提取代码基因,所述代码基因包括静态行为特征和动态行为特征,所述静态行为特征包括导入表中API和文件区段名称,所述动态行为特征为病毒样本的所有行为,包括文件操作、进程操作、注册表操作和系统操作;
分别获取所述代码基因的特征矩阵;
分别对同源样本的特征矩阵和非同源样本的特征矩阵进行标注,以生成样本训练集。
4.根据权利要求1所述的同源样本捕获方法,其特征在于,所述将所述待测特征矩阵输入预设的机器学习模型,与数据库中的样本特征矩阵进行比对,以得到判定结果,包括:
利用所述机器学习模型计算所述待测特征矩阵与所述样本特征矩阵的相似性;
若所述相似性大于预设阈值,则判定所述待测样本与数据库中的当前病毒样本为同源样本。
5.一种同源样本捕获装置,其特征在于,所述装置包括:
特征提取模块,对进入云沙箱的待测样本进行样本代码基因提取,以获得待测特征矩阵;
比对模块,用于将所述待测特征矩阵输入预设的机器学习模型,与数据库中的病毒样本特征矩阵进行比对,以得到判定结果;
标记模块,用于若所述判定结果为同源样本,则标记捕获成功。
6.根据权利要求5所述的同源样本捕获装置,其特征在于,所述装置还包括模型构建模块:
样本集模块,用于构建样本训练集;
训练模块,用于基于所述样本训练集对机器学习模型进行训练。
7.根据权利要求6所述的同源样本捕获装置,其特征在于,所述样本集模块包括:
采集模块,用于采集已知的同源样本和非同源样本,并分别提取代码基因,所述代码基因包括静态行为特征和动态行为特征,所述静态行为特征包括导入表中API和文件区段名称,所述动态行为特征包括文件创建、进程创建、注册表项创建、系统服务创建和计划任务;
矩阵生成模块,用于分别获取所述代码基因的特征矩阵;
标注模块,用于分别对同源样本的特征矩阵和非同源样本的特征矩阵进行标注,以生成样本训练集。
8.根据权利要求5所述的同源样本捕获装置,其特征在于,所述比对模块包括:
计算模块,用于利用所述机器学习模型计算所述待测特征矩阵与所述样本特征矩阵的相似性;
判断模块,用于若所述相似性大于预设阈值,则判定所述待测样本与数据库中的当前病毒样本为同源样本。
9.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行计算机程序以使计算机设备执行根据权利要求1至4中任一项所述的同源样本捕获方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至4任一项所述的同源样本捕获方法。
CN202111546478.0A 2021-12-17 2021-12-17 一种同源样本捕获方法、装置、电子设备及存储介质 Pending CN113935022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111546478.0A CN113935022A (zh) 2021-12-17 2021-12-17 一种同源样本捕获方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111546478.0A CN113935022A (zh) 2021-12-17 2021-12-17 一种同源样本捕获方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113935022A true CN113935022A (zh) 2022-01-14

Family

ID=79289175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111546478.0A Pending CN113935022A (zh) 2021-12-17 2021-12-17 一种同源样本捕获方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113935022A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116471123A (zh) * 2023-06-14 2023-07-21 杭州海康威视数字技术股份有限公司 针对智能设备安全威胁的智能分析方法、装置及设备
CN118410354A (zh) * 2024-07-04 2024-07-30 北京安天网络安全技术有限公司 样本动态行为的获取方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737186A (zh) * 2012-06-26 2012-10-17 腾讯科技(深圳)有限公司 恶意文件识别方法、装置及存储介质
CN105205396A (zh) * 2015-10-15 2015-12-30 上海交通大学 一种基于深度学习的安卓恶意代码检测系统及其方法
CN106778277A (zh) * 2017-01-13 2017-05-31 北京邮电大学 恶意程序检测方法及装置
CN107180191A (zh) * 2017-05-03 2017-09-19 北京理工大学 一种基于半监督学习的恶意代码分析方法和系统
CN108595955A (zh) * 2018-04-25 2018-09-28 东北大学 一种安卓手机恶意应用检测系统及方法
US20180307901A1 (en) * 2016-03-30 2018-10-25 Shenzhen University Non-negative matrix factorization face recognition method and system based on kernel machine learning
CN109190657A (zh) * 2018-07-18 2019-01-11 国家计算机网络与信息安全管理中心 基于数据切片及图像哈希组合的样本同源分析方法
CN110222715A (zh) * 2019-05-07 2019-09-10 国家计算机网络与信息安全管理中心 一种基于动态行为链和动态特征的样本同源分析方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737186A (zh) * 2012-06-26 2012-10-17 腾讯科技(深圳)有限公司 恶意文件识别方法、装置及存储介质
CN105205396A (zh) * 2015-10-15 2015-12-30 上海交通大学 一种基于深度学习的安卓恶意代码检测系统及其方法
US20180307901A1 (en) * 2016-03-30 2018-10-25 Shenzhen University Non-negative matrix factorization face recognition method and system based on kernel machine learning
CN106778277A (zh) * 2017-01-13 2017-05-31 北京邮电大学 恶意程序检测方法及装置
CN107180191A (zh) * 2017-05-03 2017-09-19 北京理工大学 一种基于半监督学习的恶意代码分析方法和系统
CN108595955A (zh) * 2018-04-25 2018-09-28 东北大学 一种安卓手机恶意应用检测系统及方法
CN109190657A (zh) * 2018-07-18 2019-01-11 国家计算机网络与信息安全管理中心 基于数据切片及图像哈希组合的样本同源分析方法
CN110222715A (zh) * 2019-05-07 2019-09-10 国家计算机网络与信息安全管理中心 一种基于动态行为链和动态特征的样本同源分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116471123A (zh) * 2023-06-14 2023-07-21 杭州海康威视数字技术股份有限公司 针对智能设备安全威胁的智能分析方法、装置及设备
CN116471123B (zh) * 2023-06-14 2023-08-25 杭州海康威视数字技术股份有限公司 针对智能设备安全威胁的智能分析方法、装置及设备
CN118410354A (zh) * 2024-07-04 2024-07-30 北京安天网络安全技术有限公司 样本动态行为的获取方法、装置、设备及介质
CN118410354B (zh) * 2024-07-04 2024-10-01 北京安天网络安全技术有限公司 样本动态行为的获取方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Crussell et al. Andarwin: Scalable detection of android application clones based on semantics
CN111639337B (zh) 一种面向海量Windows软件的未知恶意代码检测方法及系统
CN108446559B (zh) 一种apt组织的识别方法及装置
CN106557695A (zh) 一种恶意应用检测方法和系统
CN113935022A (zh) 一种同源样本捕获方法、装置、电子设备及存储介质
CN113468524B (zh) 基于rasp的机器学习模型安全检测方法
KR20120071834A (ko) 악성코드 그룹 및 변종 자동 관리 시스템
CN108256329B (zh) 基于动态行为的细粒度rat程序检测方法、系统及相应的apt攻击检测方法
Feng et al. Automated detection of password leakage from public github repositories
US20200125532A1 (en) Fingerprints for open source code governance
CN111159697A (zh) 一种密钥检测方法、装置及电子设备
CN112560031B (zh) 一种勒索病毒检测方法及系统
Arslan AndroAnalyzer: android malicious software detection based on deep learning
Yesir et al. Malware detection and classification using fasttext and bert
CN115658080A (zh) 一种软件开源代码成分的识别方法及系统
JP7314243B2 (ja) マルウェアの悪意ある行為フィーチャー情報を生成する方法
Chew et al. ESCAPADE: Encryption-type-ransomware: System call based pattern detection
CN111988327B (zh) 威胁行为检测和模型建立方法、装置、电子设备及存储介质
CN109241706B (zh) 基于静态胎记的软件抄袭检测方法
Ratcliffe et al. Detection of anti-forensics and malware applications in volatile memory acquisition
CN111552970B (zh) 基于三位一体综合画像的恶意代码检测及恶意性定位方法
CN112163217B (zh) 恶意软件变种识别方法、装置、设备及计算机存储介质
CN113722714A (zh) 一种网络威胁处理方法及装置
Zheng et al. A Study on Vulnerability Code Labeling Method in Open-Source C Programs
Guan et al. Software birthmark usability for source code transformation using machine learning algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220114