CN115935358A - 一种恶意软件识别方法、装置、电子设备及存储介质 - Google Patents
一种恶意软件识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115935358A CN115935358A CN202211734179.4A CN202211734179A CN115935358A CN 115935358 A CN115935358 A CN 115935358A CN 202211734179 A CN202211734179 A CN 202211734179A CN 115935358 A CN115935358 A CN 115935358A
- Authority
- CN
- China
- Prior art keywords
- training
- malicious
- training samples
- sample set
- malware
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明实施例公开一种恶意软件识别方法、装置、电子设备及存储介质,其中,所述方法包括:获取预设数量的恶意训练样本和良性训练样本,组成训练样本集;提取训练样本集中训练样本的恶意行为特征,其中该特征包括语义层特征和/或启发层特征;利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练;基于训练后的恶意软件识别模型,识别待识别软件是否为恶意软件。本发明实施例提供的技术方案可适用于网络安全攻击检测场景下对恶意软件的识别,能够很好地提升识别的准确性。
Description
技术领域
本发明涉及信息安全技术领域,尤其涉及一种恶意软件识别方法、装置、电子设备及存储介质。
背景技术
近些年,随着网络安全攻击目标范围日趋升级扩散,APT(AdvancedPersistentThreat,高级持续性威胁)攻击、商业窃密、勒索攻击等安全事件层出不穷,作为攻击核心载体的恶意软件也日渐呈现出规模化、复杂化、对抗化的变化趋势。对于安全厂商来讲,传统的签名黑白名单、特征查杀、静态启发等恶意软件识别技术的局限性开始凸显,在未知检出率、及时性以及扫描性能等技术指标上逐渐无法应对当下海量恶意家族样本的激烈对抗形势。另一方面,随着机器学习和深度学习的在图像分类、语义分析等领域的巨大发展和成功落地,以人工智能技术为核心的下一代杀软引擎(NGAV)研发也成为众多安全厂商的产品核心技术。
与其它领域不同,信息安全方向在安全对抗性、准确性、泛化能力、结果可解释性等方面要求更高,AI(Artificial Intelligence,人工智能)技术的落地面临更大的困难挑战。目前,由于恶意软件安全对抗复杂性、性能考虑欠缺,大多数恶意软件识别模型的检测方法准确率欠佳。
发明内容
有鉴于此,本发明实施例提供一种恶意软件识别方法、装置、电子设备及存储介质,以提升恶意软件识别的准确率。
第一方面,本发明实施例提供一种恶意软件识别方法,所述方法包括:
获取预设数量的恶意训练样本和良性训练样本,组成训练样本集;
提取训练样本集中训练样本的恶意行为特征,其中该特征包括语义层特征和/或启发层特征;
利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练;
基于训练后的恶意软件识别模型,识别待识别软件是否为恶意软件。
进一步的,在提取训练样本集中训练样本的恶意行为特征之前,还包括:对训练样本集中的训练样本进行去重处理。
进一步的,在提取训练样本集中训练样本的恶意行为特征之前,还包括:利用多种杀毒引擎,对训练样本集中训练样本的标签信息进行校正。
进一步的,所述方法还包括:
当所述校正失败时,计算该训练样本与所述训练样本集中其它训练样本的特征相似度;
将相似度最大且满足预设的第一相似度阈值的其它训练样本的标签信息,作为该训练样本最终的标签信息。
进一步的,在提取训练样本集中训练样本的恶意行为特征之前,还包括:
计算训练样本集中未知标签信息的目标训练样本的特征与恶意家族特征的相似度;
将相似度最大且满足预设的第二相似度阈值的恶意家族特征所对应的标签信息,作为所述目标训练样本的标签信息。
进一步的,在利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练之前,所述方法还包括:对所提取的恶意行为特征进行降维处理。
进一步的,利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练,包括:
划分训练样本集中训练样本的类型,其中不同类型的训练样本对应不同的恶意软件识别子模型;
针对所划分的每种类型:利用该种类型的训练样本的恶意行为特征及其标签信息,对所对应的恶意软件识别子模型进行训练。
进一步的,在对所对应的恶意软件识别子模型进行训练之后,所述方法还包括:
如果恶意软件识别子模型识别测试样本是否为恶意软件时,无法得到预期的识别结果,则增加新的恶意行为特征,重新训练该恶意软件识别子模型。
进一步的,对所对应的恶意软件识别子模型进行训练,包括:采用集成学习算法,对所对应的恶意软件识别子模型进行训练。
第二方面,本发明实施例提供一种恶意软件识别装置,所述装置包括:
样本获取单元,用于获取预设数量的恶意训练样本和良性训练样本,组成训练样本集;
样本特征提取单元,用于提取训练样本集中训练样本的恶意行为特征,其中该特征包括语义层特征和/或启发层特征;
模型训练单元,用于利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练;
软件识别单元,用于基于训练后的恶意软件识别模型,识别待识别软件是否为恶意软件。
进一步的,所述样本获取单元还用于:在样本特征提取单元提取训练样本集中训练样本的恶意行为特征之前,对训练样本集中的训练样本进行去重处理。
进一步的,所述样本获取单元还用于:在样本特征提取单元提取训练样本集中训练样本的恶意行为特征之前,利用多种杀毒引擎,对训练样本集中训练样本的标签信息进行校正。
进一步的,所述样本获取单元还用于:
当所述校正失败时,计算该训练样本与所述训练样本集中其它训练样本的特征相似度;
将相似度最大且满足预设的第一相似度阈值的其它训练样本的标签信息,作为该训练样本最终的标签信息。
进一步的,所述样本获取单元还用于在样本特征提取单元提取训练样本集中训练样本的恶意行为特征之前:
计算训练样本集中未知标签信息的目标训练样本的特征与恶意家族特征的相似度;
将相似度最大且满足预设的第二相似度阈值的恶意家族特征所对应的标签信息,作为所述目标训练样本的标签信息。
进一步的,所述样本特征提取单元还用于:在模型训练单元利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练之前,对所提取的恶意行为特征进行降维处理。
进一步的,所述模型训练单元用于利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练,包括:
划分训练样本集中训练样本的类型,其中不同类型的训练样本对应不同的恶意软件识别子模型;
针对所划分的每种类型:利用该种类型的训练样本的恶意行为特征及其标签信息,对所对应的恶意软件识别子模型进行训练。
进一步的,所述模型训练单元还用于在对所对应的恶意软件识别子模型进行训练之后:如果恶意软件识别子模型识别测试样本是否为恶意软件时,无法得到预期的识别结果,则增加新的恶意行为特征,重新训练该恶意软件识别子模型。
进一步的,所述模型训练单元用于对所对应的恶意软件识别子模型进行训练,包括:采用集成学习算法,对所对应的恶意软件识别子模型进行训练。
第三方面,本发明实施例提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述第一方面所述的恶意软件识别方法。
第四方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个中央处理器执行,以实现前述第一方面所述的恶意软件识别方法。
本发明实施例提供的技术方案,选用海量的恶意样本和良性样本,保证了训练样本的多样性,在参与模型训练的恶意行为特征中融入深度启发特征、语义特征,突破了传统特征表达深度不足的限制,能够一定程度上提高恶意软件识别模型所识别的准确率。另外,优选方案还从现实环境中恶意样本对抗的复杂性出发,创新性引入多模型分层判定和集成学习模式,恶意样本误报率极低,并且识别准确率和泛化能力都实现较大提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种恶意软件识别方法的流程图;
图2为本发明实施例提供的一种恶意软件识别方案整体框架设计示意图;
图3为本发明实施例三提供的一种恶意软件识别装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供一种恶意软件识别方法,可由对应的恶意软件识别实现,所述装置由软件实现,集成于杀毒引擎中。参见图1,并结合图2,所述方法包括如下步骤101-104。
步骤101、获取预设数量的恶意训练样本和良性训练样本,组成训练样本集。
在实际的安全攻防场景中,杀毒引擎面临的恶意软件数量、家族种类都远超实验室环境,所以在训练样本选取环节,样本数量规模和家族种类都应尽可能贴合真实攻击情况,最少需要达到千万级规模的样本数量,并且也应考虑不同家族、恶意类型、活跃样本分布、正负平衡等维度的均衡性,因此可结合自身收集、历史积累、开源样本收集和第三方渠道交换等多种方式,来保证训练样本的数量级和覆盖度。具体的,参见图2中的样本获取模块左侧部分,可从如下多个样本提供方,收集预设数量的恶意训练样本和良性训练样本:客户端、第三方平台、其它杀毒引擎提供商。训练样本包括样本描述和标签信息,其中:样本描述可以为用来训练的软件的代码文件,也可以是代码文件的特征描述信息,该信息通常采用文字表述;标签信息用于描述用来训练的软件是否是恶意软件,如果是恶意软件则还可进一步描述用来训练的软件具体的恶意类型。
考虑到从多方收集到的训练样本众多繁杂,具有一定的冗余性,作为一种优选的实施方式,对训练样本集中的训练样本进行去重处理。其中,参见图2的样本获取模块右侧部分,去重处理可采用文件解析算法、LSH过滤算法(或者局部敏感HASH算法)实现。其中,文件解析算法可以是通过解析训练样本中的样本描述内容,去除在样本描述内容上达到设定重复度的训练样本。
另外,标签信息的准确性至关重要。现有技术中,通常是由病毒分析工程师手动标注或者复查已标注的各训练样本的标签信息,效率十分低下。为减轻人工复查标注的工作压力,本发明实施例中,还可利用多种杀毒引擎,对训练样本集中训练样本的标签信息进行校正,参见图2的样本获取模块右侧部分。示例性的,对于同一个训练样本,每个杀毒引擎都会给出一个对应的标签信息,如果其中一半以上的杀毒引擎给出的标签信息相同,则将该相同的标签信息作为该训练样本最终的标签信息,否则认为校正失败。或者,每个杀毒引擎会针对同一个训练样本给出多个标签信息及各标签信息的得分,此情况下可以将得分最高且该最高得分满足设定分数的标签信息作为该训练样本最终的标签信息,否则认为校正失败。校正失败时,可由人工确定该训练样本最终的标签信息。优选的,当所述校正失败时,计算该训练样本与训练样本集中其它训练样本的特征相似度;将相似度最大且满足预设的第一相似度阈值的其它训练样本的标签信息,作为该训练样本最终的标签信息。
鉴于训练样本的收集渠道多元化,通常会遇到缺少训练样本标签信息而只有样本描述的情况,为此,本发明实施例还提供一种优选实施方式,引入向量搜索技术根据恶意家族特征相似性进行深度聚类,自动完善训练样本未知的标签信息,具体该方式可包括:计算训练样本集中未知标签信息的目标训练样本的特征与恶意家族特征的相似度;将相似度最大且满足预设的第二相似度阈值的恶意家族特征所对应的标签信息,作为目标训练样本的标签信息。其中,可预先建立多组恶意家族特征与多个标签信息之间的对应关系。
步骤102、提取训练样本集中训练样本的恶意行为特征,其中该特征包括语义层特征和/或启发层特征。
“数据和特征决定模型上限,算法决定模型下限”,在训练样本优化足够满足样本覆盖度和均衡性的基础上,高质量的训练样本的恶意行为特征提取成为恶意软件识别模型判定效果的重中之重。传统的特征提取较多围绕结构源信息、数据代码熵等统计维度,缺乏恶意行为语义信息和家族特征相似性度量的描述。本发明实施例中,训练样本的恶意行为特征除了包含字节层特征、结构层特征和代码层特征之外,还进一步包括深度特征:语义层特征和/或启发层特征,以较大程度的提升恶意软件识别模型的泛化能力,具体可参见图2中的特征提取模块部分。当然,一些应用场景下,恶意行为特征还可仅包括深度特征。其中,语义层特征可包括数据流图、控制流图、系统依赖图、系统调用序列、污点传播路径等特征,比如关键函数的API(application programming interface,应用编程接口)序列特征、文本字符串的语义特征等;启发层特征侧重于专家特征,为人工经验总结的家族特征相似性度量特征,比如一些常用的恶意行为功能的API序列特征、反编译特征、恶意行为函数特征、敏感资源引用特征等。
深层特征提取往往需要消耗较多的计算资源,可分情况选用不同的深层特征和特征提取算法。例如,对于恶意软件识别模型应用于服务端的情况,由于服务端设备性能配置都比较高,计算能力和内存资源分配往往都能够满足,恶意行为特征可包括较多的泛化能力强但提取过程比较耗时的深度特征,这样对于未知样本高效筛选识别更加适用。而对于恶意软件识别模型应用于客户端的情况,则需要在泛化检出能力和客户端性能占用之间取得较好的平衡点,具体的,可对所提取的恶意行为特征进行降维处理。以字符串语义特征为例,通过预训练的GBDT(Gradient Boosting Decison Tree,梯度提升决策树)算法对多个字符串语义特征进行恶意行为相关性排序,将排序靠后的多个字符串语义特征去掉,其它字符串语义特征最终用于作为参与恶意软件识别模型模型训练的恶意行为特征中的字符串语义特征。
步骤103、利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练。
考虑到目前采用AI算法识别恶意软件的智能化程度弱、恶意软件的现实复杂度以及客户端计算资源有限等条件约束,很难通过单一算法或模型实现对不同类型恶意家族软件的准确识别判定。为了应对解决恶意家族软件复杂多变的现实情况,本发明实施例从"经验融合"角度出发,将"分治"思想和专家经验注入恶意软件识别模型训练过程,对训练样本类型划分、训练时学习算法的选用进行合理规划,而后据此按样本类型划分训练样本集进行单独轻量级恶意软件识别子模型训练,对不同类型的恶意软件识别子模型模型设计不同的判定阈值和加权系数。具体的,本步骤103可包括:划分训练样本集中训练样本的类型,其中不同类型的训练样本对应不同的恶意软件识别子模型;针对所划分的每种类型:利用该种类型的训练样本的恶意行为特征及其标签信息,对所对应的恶意软件识别子模型进行训练。其中,样本类型可以从不同维度进行划分。例如,将训练样本集中的训练样本划分为:带有壳保护的与不带有壳保护的,其中带有壳保护的训练样本可进一步划分为加密壳保护的与压缩壳保护的。再例如,按照运行平台架构的不同来划分训练样本集中的训练样本;又或者按照编译类型的不同来划分训练样本集中的训练样本。本发明实施例对此不作具体限定。优选的,采用集成学习算法,对所对应的恶意软件识别子模型进行训练。其中,所述集成学习算法并不是一个单独的机器学习算法,而是通过构建并结合多个机器学习算法来完成学习任务。集成学习往往被视为一种元算法。典型的,所述多个机器学习算法包括随机深林、XGBoost和神经网络。具体可参见图2中的模型训练模块部分。
进一步的,在对所对应的恶意软件识别子模型进行训练之后,本发明实施例中的恶意软件识别方法还包括:如果恶意软件识别子模型识别测试样本是否为恶意软件时,无法得到预期的识别结果,则增加新的恶意行为特征,重新训练该恶意软件识别子模型。其中,所增加的新的恶意行为特征优选为语义层特征。示例性的,当无法得到预期的识别结果的测试样本数量达到设定的第一数量阈值时,在原来所提取的恶意行为特征的基础上增加新的恶意行为特征,重新训练该恶意软件识别子模型,直至无法得到预期的识别结果的测试样本数量低于设定的第二数量阈值。其中,第二数量阈值小于第一数量阈值。
步骤104、基于训练后的恶意软件识别模型,识别待识别软件是否为恶意软件。
训练好恶意软件识别模型后,该模型可被用来识别各类软件是否为恶意软件。具体的,提取待识别软件的恶意行为特征,将所提取的恶意行为特征输入至恶意软件识别模型,根据恶意软件识别模型的输出结果识别待识别软件是否为恶意软件。若恶意软件识别模型分为多个恶意软件识别子模型,则先确定待识别软件的类型,提取完待识别软件的恶意行为特征后,将该提取结果输入至待识别软件类型所对应的恶意软件识别子模型,根据该恶意软件识别子模型的输出结果判断待识别软件是否为恶意软件。
此外,本发明实施例提供一种恶意软件识别装置,所述装置由软件实现,集成于杀毒引擎中。参见图3,所述装置包括:
样本获取单元301,用于获取预设数量的恶意训练样本和良性训练样本,组成训练样本集;
样本特征提取单元302,用于提取训练样本集中训练样本的恶意行为特征,其中该特征包括语义层特征和/或启发层特征;
模型训练单元303,用于利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练;
软件识别单元304,用于基于训练后的恶意软件识别模型,识别待识别软件是否为恶意软件。
进一步的,所述样本获取单元301还用于:在样本特征提取单元302提取训练样本集中训练样本的恶意行为特征之前,对训练样本集中的训练样本进行去重处理。
进一步的,所述样本获取单元301还用于:在样本特征提取单元302提取训练样本集中训练样本的恶意行为特征之前,利用多种杀毒引擎,对训练样本集中训练样本的标签信息进行校正。
进一步的,所述样本获取单元301还用于:
当所述校正失败时,计算该训练样本与所述训练样本集中其它训练样本的特征相似度;
将相似度最大且满足预设的第一相似度阈值的其它训练样本的标签信息,作为该训练样本最终的标签信息。
进一步的,所述样本获取单元301还用于在样本特征提取单元302提取训练样本集中训练样本的恶意行为特征之前:
计算训练样本集中未知标签信息的目标训练样本的特征与恶意家族特征的相似度;
将相似度最大且满足预设的第二相似度阈值的恶意家族特征所对应的标签信息,作为所述目标训练样本的标签信息。
进一步的,所述样本特征提取单元302还用于:在模型训练单元303利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练之前,对所提取的恶意行为特征进行降维处理。
进一步的,所述模型训练单元303用于利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练,包括:
划分训练样本集中训练样本的类型,其中不同类型的训练样本对应不同的恶意软件识别子模型;
针对所划分的每种类型:利用该种类型的训练样本的恶意行为特征及其标签信息,对所对应的恶意软件识别子模型进行训练。
进一步的,所述模型训练单元303还用于在对所对应的恶意软件识别子模型进行训练之后:如果恶意软件识别子模型识别测试样本是否为恶意软件时,无法得到预期的识别结果,则增加新的恶意行为特征,重新训练该恶意软件识别子模型。
进一步的,所述模型训练单元303用于对所对应的恶意软件识别子模型进行训练,包括:采用集成学习算法,对所对应的恶意软件识别子模型进行训练。
本发明实施例提供的恶意软件识别装置与前述方法实施例属于同一发明构思,未在装置实施例中描述的技术细节可参见前述方法实施例中的相关描述,在此不再赘述。
图4为本发明电子设备一个实施例的结构示意图,可以实现本发明方法实施例的流程,如图4所示,上述电子设备可以包括:壳体41、处理器42、存储器43、电路板44和电源电路45,其中,电路板44安置在壳体41围成的空间内部,处理器42和存储器43设置在电路板44上;电源电路45,用于为上述电子设备的各个电路或器件供电;存储器43用于存储可执行程序代码;处理器42通过读取存储器43中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例所述的恶意软件识别方法。
处理器42对上述步骤的具体执行过程以及处理器42通过运行可执行程序代码来进一步执行的步骤,可以参见本发明方法实施例的描述,在此不再赘述。
该电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据处理功能的电子设备。
再者,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或多个程序,所述一个或者多个程序可被一个或者多个中央处理器执行,以实现前述实施例所述的恶意软件识别方法。
本发明实施例提供的技术方案,从大量恶意样本和良性样本筛选入手,在恶意家族类型覆盖度、均衡度、标签准确度等质量标准进行提升;在特征工程方面,摒弃单一表层特征,重点提取和恶意行为、家族特征存在推理关联的深度特征,提升模型泛化能力,同时兼顾特征提取的性能占用;在AI算法选择论证上,将"专家经验融合"和"分治"思想注入模型训练过程,能够真正应对真实样本对抗环境的复杂性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种恶意软件识别方法,其特征在于,所述方法包括:
获取预设数量的恶意训练样本和良性训练样本,组成训练样本集;
提取训练样本集中训练样本的恶意行为特征,其中该特征包括语义层特征和/或启发层特征;
利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练;
基于训练后的恶意软件识别模型,识别待识别软件是否为恶意软件。
2.根据权利要求1所述的方法,其特征在于,在提取训练样本集中训练样本的恶意行为特征之前,还包括:对训练样本集中的训练样本进行去重处理。
3.根据权利要求1所述的方法,其特征在于,在提取训练样本集中训练样本的恶意行为特征之前,还包括:
利用多种杀毒引擎,对训练样本集中训练样本的标签信息进行校正。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当所述校正失败时,计算该训练样本与所述训练样本集中其它训练样本的特征相似度;
将相似度最大且满足预设的第一相似度阈值的其它训练样本的标签信息,作为该训练样本最终的标签信息。
5.根据权利要求1所述的方法,其特征在于,在提取训练样本集中训练样本的恶意行为特征之前,还包括:
计算训练样本集中未知标签信息的目标训练样本的特征与恶意家族特征的相似度;
将相似度最大且满足预设的第二相似度阈值的恶意家族特征所对应的标签信息,作为所述目标训练样本的标签信息。
6.根据权利要求1所述的方法,其特征在于,在利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练之前,所述方法还包括:
对所提取的恶意行为特征进行降维处理。
7.根据权利要求1所述的方法,其特征在于,利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练,包括:
划分训练样本集中训练样本的类型,其中不同类型的训练样本对应不同的恶意软件识别子模型;
针对所划分的每种类型:利用该种类型的训练样本的恶意行为特征及其标签信息,对所对应的恶意软件识别子模型进行训练。
8.根据权利要求7所述的方法,其特征在于,在对所对应的恶意软件识别子模型进行训练之后,所述方法还包括:
如果恶意软件识别子模型识别测试样本是否为恶意软件时,无法得到预期的识别结果,则增加新的恶意行为特征,重新训练该恶意软件识别子模型。
9.根据权利要求7所述的方法,其特征在于,对所对应的恶意软件识别子模型进行训练,包括:
采用集成学习算法,对所对应的恶意软件识别子模型进行训练。
10.一种恶意软件识别装置,其特征在于,所述装置包括:
样本获取单元,用于获取预设数量的恶意训练样本和良性训练样本,组成训练样本集;
样本特征提取单元,用于提取训练样本集中训练样本的恶意行为特征,其中该特征包括语义层特征和/或启发层特征;
模型训练单元,用于利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练;
软件识别单元,用于基于训练后的恶意软件识别模型,识别待识别软件是否为恶意软件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211734179.4A CN115935358A (zh) | 2022-12-30 | 2022-12-30 | 一种恶意软件识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211734179.4A CN115935358A (zh) | 2022-12-30 | 2022-12-30 | 一种恶意软件识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115935358A true CN115935358A (zh) | 2023-04-07 |
Family
ID=86552417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211734179.4A Pending CN115935358A (zh) | 2022-12-30 | 2022-12-30 | 一种恶意软件识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115935358A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108439A (zh) * | 2023-04-12 | 2023-05-12 | 北京华云安信息技术有限公司 | Apt软件家族识别方法、装置及电子设备 |
-
2022
- 2022-12-30 CN CN202211734179.4A patent/CN115935358A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108439A (zh) * | 2023-04-12 | 2023-05-12 | 北京华云安信息技术有限公司 | Apt软件家族识别方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Network attacks detection methods based on deep learning techniques: a survey | |
CN111914569B (zh) | 基于融合图谱的预测方法、装置、电子设备及存储介质 | |
CN111061874B (zh) | 敏感信息检测方法和装置 | |
CN112165462A (zh) | 基于画像的攻击预测方法、装置、电子设备及存储介质 | |
CN110868377B (zh) | 一种网络攻击图的生成方法、装置及电子设备 | |
CN111177367B (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
CN111260220B (zh) | 群控设备识别方法、装置、电子设备和存储介质 | |
CN114386410A (zh) | 预训练模型的训练方法和文本处理方法 | |
CN113381963A (zh) | 一种域名检测方法、装置和存储介质 | |
CN115830649A (zh) | 一种网络资产指纹特征的识别方法、装置及电子设备 | |
CN114422271B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN113592103A (zh) | 一种基于集成学习和动态分析的软件恶意行为识别方法 | |
CN115935358A (zh) | 一种恶意软件识别方法、装置、电子设备及存储介质 | |
CN116992052B (zh) | 用于威胁情报领域的长文本摘要方法、装置和电子设备 | |
Abaimov et al. | A survey on the application of deep learning for code injection detection | |
CN111027065B (zh) | 一种勒索病毒识别方法、装置、电子设备及存储介质 | |
CN114726823B (zh) | 一种基于生成对抗网络的域名生成方法、装置和设备 | |
CN111144546A (zh) | 评分方法、装置、电子设备及存储介质 | |
CN110889467A (zh) | 一种公司名称匹配方法、装置、终端设备及存储介质 | |
CN114417883A (zh) | 一种数据处理方法、装置及设备 | |
CN111026633A (zh) | 一种芯片硬件木马的黑盒检测方法、装置及存储介质 | |
CN114070638B (zh) | 一种计算机系统安全防御方法、装置、电子设备及介质 | |
CN112132367A (zh) | 一种用于企业经营管理风险识别的建模方法及装置 | |
Sokolov | Applied Machine Learning for Cybersecurity in Spam Filtering and Malware Detection | |
Song | Measuring the Unmeasured: New Threats to Machine Learning Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |