具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1示出了本发明实施例提供的电子设备100的方框示意图。电子设备100可以是,但不限于智能手机、平板电脑、膝上型便携计算机、车载电脑、个人数字助理(personal digital assistant,PDA)、穿戴式移动终端等等。所述电子设备100安装有iOS系统,其包括恶意软件识别系统200、存储器101、存储控制器102及处理器103。
所述存储器101、存储控制器102及处理器103各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述恶意软件识别系统200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述电子设备100的操作系统(operatingsystem,OS)中的软件功能模块或安装于电子设备100中的应用程序。所述处理器103用于执行存储器101中存储的可执行模块,例如所述恶意软件识别系统200包括的软件功能模块或计算机程序。
其中,存储器101可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器101用于存储程序,所述处理器103在接收到执行指令后,执行所述程序,本发明任一实施例揭示的流程定义的服务器所执行的方法可以应用于处理器103中,或者由处理器103实现。
处理器103可以是一种集成电路芯片,具有信号处理能力。上述的处理器103可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)、语音处理器以及视频处理器等;还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器103等。
第一实施例
请参考图2,图2为本发明较佳实施例提供的恶意软件识别方法的流程图。恶意软件识别方法包括以下步骤:
步骤S101,在沙箱中运行待识别应用程序。
在本实施例中,所述沙箱可以是虚拟机。虚拟机可以是指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。当电子设备100启动恶意软件识别时,在电子设备100中启动沙箱,并启动需要进行识别的待识别应用程序。避免了恶意软件在电子设备中直接运行导致对用户的损害。
步骤S102,记录所述待识别应用程序运行过程中对应的预先选中的多个特定底层函数的启用情况,以生成与所述待识别应用程序的行为链对应的待识别样本向量。
在本实施例中,每一个应用程序均包括大量的底层函数。所述底层函数是可以由所述应用程序的主程序进行调用用以实现应用程序需执行的对应的动作。底层函数的种类很多,比较常见的可以包括CreateFileW、CreateProcessInternalW、CreateRemoteThread等202个底层函数。需要说明的是,虽然恶意软件程序形态变化多样,但无论恶意程序代码如何进行改变,需要其实现的功能保持不变的,因此,其从底层的角度来看所调用执行的底层函数是不变的。因此,在本实施例中,可以预先从底层函数中筛选出恶意软件执行恶意行为时需要实现的所有功能对应的底层函数作为特定底层函数。例如,与实现创建文件(CreateFileW)、创建进程(CreateProcessInternalW)、创建远程线程(CreateRemoteThread)等154个关键行为对应的底层函数。应用程序的行为链可以是应用程序在实现其功能过程中执行的一连串接连发生的动作。而执行动作可以是由调用对应的底层函数实现,因此,可以根据运行过程中所调用的底层函数对应用程序的行为链进行表征,需要说明的是,应用程序可以包括多个功能,因此,在运行工程也会调用多种底层函数,为了精准的识别出恶意软件执行的恶意行为,可以通过记录运行过程中对选定的特定底层函数的启用情况,从而生成用于表征应用程序行为链的待识别样本向量。具体地,创建与待识别应用程序对应的多个标记位,其中,一个标记位对应一个特定底层函数相对应,根据应用程序运行过程中对特定底层函数的调用情况给对应的标记位进行标记。可选地,如图3所示,所述步骤S102可以包括以下子步骤:
子步骤S1021,当所述待识别应用程序运行过程中一所述特定底层函数被调用,则对所述特定底层函数对应的标记位进行第一标记。
在本实施例中,当一特定底层函数在待识别应用程序运行过程中被调用则对该特定底层函数对应的标记位进行第一标记。作为一种实施方式,可以在待识别应用程序在沙箱运行过程中,记录整个运行过程中出现被调用情况的所有的底层函数,然后与预先选中特定底层函数进行比较,对出现在记录中的特定底层函数对应的标记位进行赋予值1。
子步骤S1022,当所述待识别应用程序运行结束后,对运行过程中未调用过的所述特定底层函数对应的标记位进行第二标记,以便获取与所述待识别应用程序的行为链对应的所述待识别样本向量。
作为一种实施方式,可以在待识别应用程序在沙箱运行过程中,记录整个运行过程中出现被调用情况的所有的底层函数,然后与预先选中特定底层函数进行比较,对未出现在记录中的特定底层函数对应的标记位进行赋予值0。
步骤S103,根据所述待识别应用程序对应的所述第一标记及第二标记,按照预设定的所述多个特定底层函数的标记位的排列顺序,生成所述待识别样本向量。
在本实施例中,每个特定底层函数对应的标记为均存在一第一标记或第二标记。作为一种实施方式,当第一标记为1、第二标记为0时,将所有的特定底层函数的标记位按照预设置的排列顺序进排列后,则可以获得一个所述待识别样本向量,例如,(10111000…1010)。
步骤S104,获取恶意软件识别模型。
在本实施例中,恶意软件识别模型可以存储在电子设备100中。
步骤S105,根据所述恶意软件识别模型,采用机器学习的方式对所述待识别样本向量进行识别分类,以获得与所述待识别样本向量对应的待识别应用程序的识别结果。
在本实施例中,恶意软件识别模型内包括分类器,所述分类器采用机器学习的方式对待识别样本向量进行分类,分类结果可以包括恶意及非恶意。当待识别样本向量被分类为恶意时,则表示对于的待识别应用程序为恶意应用程序,反之,则为非恶意应用程序。同时,恶意软件识别模型可以自主学习,其在被使用过程中不断被完善调整。通过对表征待识别应用程序行为链的待识别样本向量进行识别,即根据行为链的特征进行识别分类,且恶意软件无论如何变幻所要实施的动作不会太大变化,因此,通过这种方法更加能准确的识别出是否为恶意软件。
需要说明的是,在所述步骤S104之前,所述方法还可以包括创建恶意软件识别模型的步骤。
在本实施例中,若电子设备100中已经存在恶意软件识别模型则无需再次执行创建恶意软件模型的步骤。如图4所示,创建恶意软件模型的步骤可以包括以下子步骤:
子步骤S2011,在所述沙箱中依次运行多个样本应用程序。
在本实施例中,样本应用程序中包括恶意软件及非恶意软件。所述多个样本应用程序包括分类信息为恶意的样本应用程序及分类信息为非恶意的样本应用程序。具体地,每个样本应用程序均有对应的分类信息,分类信息包括恶意及非恶意,根据样本应用程序的对应的分类信息可以便知其是否为恶意软件。
子步骤S2012,依次记录每一个所述样本应用程序运行过程中对应的预先选中的多个所述特定底层函数的启用情况,生成与每个所述样本应用程序的行为链对应的训练样本特征向量,以获取对应的训练样本特征向量集。
在本实施例中,当所述样本应用程序运行过程中一所述特定底层函数被调用,则对所述特定底层函数对应的标记位进行第一标记;当所述样本应用程序运行结束后,对运行过程中未调用过的所述特定底层函数对应的标记位进行第二标记,以便获取与所述样本应用程序的行为链对应的所述训练样本特征向量。所述训练样本特征向量集内包括每个所述样本应用程序对应的样本特征向量。可选地,再根据每个所述样本应用程序对应的所述第一标记及第二标记,按照预设定的所述多个特定底层函数的标记位的排列顺序,生成所述训练样本特征向量集,以获得所述训练样本特征向量集。具体地,记录每一个所述样本应用程序运行过程中对应的预先选中的多个所述特定底层函数的启用情况与记录待识别应用程序运行过程中对应的预先选中的多个所述特定底层函数的启用情况相同,在此不再进行赘述。
子步骤S2013,根据每个样本应用程序对应的所述分类信息,生成与所述训练样本特征向量集对应的分类向量集。
作为一种实施方式,分类向量集可以包括与特定底层函数对应的多个一维向量。将样本应用程序对应的分类信息显示其为恶意软件的,将样本应用程序对应的分类向量赋值为1,若为非恶意软件,将样本应用程序对应的分类向量赋值为0。从而建立样本应用程序与其分类信息之间的对应关系。根据每个样本应用程序对分类向量组成分类向量集。
子步骤S2014,根据所述训练样本特征向量集及分类向量集,构建所述恶意软件识别模型。
在本实施例中,通过朴素贝叶斯分类算法,计算每个类别信息在样本应用程序中的出现频率及每个特定底层函数对应标记位的标记对每个类别信息的条件概率估计,从而获得每一个特定底层函数对应标记位的标记对应的恶意概率及非恶意概率,例如,统计特定底层函数对应的标记位为1时,对应的恶意概率及非恶意概率。再根据所有特定底层函数在不同标记情况下对应的恶意概率及非恶意概率,生产分类器。具体地,遍历所述训练样本特征向量集中每一个所述训练样本特征向量,分别统计所述训练样本特征向量集中每个所述特定底层函数对应的标记位为第一标记的第一个数。遍历所述训练样本特征向量集中每一个所述训练样本特征向量,结合所述分类向量集,统计所述训练样本特征向量集内对应的所述分类信息为恶意的训练样本特征向量中,所述特定底层函数对应的标记位为第一标记的第二个数;根据每个所述特定底层函数对应的第一个数及第二个数生成每个所述特定底层函数对应的恶意概率,根据每个特定底层函数对应的恶意概率获得恶意概率集,根据所述恶意概率集生成分类器,以构建所述恶意软件识别模型。作为一种实施方式,统计分类向量集中向量的总数,然后再统计分类向量集中为1的向量数,则获得分类信息为恶意的第一概率,再根据第二个数与第一个数之间的比值获得第二概率,根据第一概率与第二概率之间的比值获得恶意概率。同理,计算对应的标记位为第二标记时的恶意概率、对应的标记位为第一标记时的非恶意概率及第二标记时的非恶意概率。最后生成第一标记对应的恶意概率集及非恶意概率集,第二标记对应的恶意概率集及非恶意概率集,根据所有的恶意概率集及非恶意概率集生成分类器。作为一种实施方式,也可以根据每个特定底层函数为第一标记对应的恶意概率生成分类器。
进一步地,还可以是统计所述训练样本特征向量集内对应的所述分类信息为非恶意的训练样本特征向量中,所述特定底层函数对应的标记位为第一标记的第三个数,根据第一标记及第三标记生成对应的非恶意概率,根据每个特定底层函数对应的恶意概率获得非恶意概率集,根据所述非恶意概率集及恶意概率集生成分类器,以构建所述恶意软件识别模型。
需要说明的是,获得恶意概率或非恶意概率之后,均每个所述特定底层函数对应的恶意概率或非恶意概率进行对数处理,以获得所述恶意概率集。
第二实施例
请参照图5,图5为本发明实施例提供的恶意软件识别系统200的功能模块示意图。所述恶意软件识别系统200包括:运行模块201、记录模块202、生成模块203、获取模块204、识别模块205及模型建立模块206。
运行模块201,用于在沙箱中运行待识别应用程序。
在本发明实施例中,步骤S101可以由运行模块201执行。
记录模块202,用于记录所述待识别应用程序运行过程中对应的预先选中的多个特定底层函数的启用情况,以生成与所述待识别应用程序的行为链对应的待识别样本向量。
在本发明实施例中,步骤S102、子步骤S1021及子步骤S1022均可以由记录模块202执行。
生成模块203,用于根据所述待识别应用程序对应的所述第一标记及第二标记,按照预设定的所述多个特定底层函数的标记位的排列顺序,生成所述待识别样本向量。
在本发明实施例中,步骤S103可以由生成模块203执行。
获取模块204,用于获取恶意软件识别模型。
在本发明实施例中,步骤S104可以由获取模块204执行。
识别模块205,用于根据所述恶意软件识别模型,采用机器学习的方式对所述待识别样本向量进行识别分类,以获得与所述待识别样本向量对应的待识别应用程序的识别结果。
在本发明实施例中,步骤S105可以由识别模块205执行。
模型建立模块206,用于创建恶意软件模型。
在本实施例中,如图6所示,模型建立模块206可以包括以下几个功能子模块:
运行子模块2061,用于在所述沙箱中依次运行多个样本应用程序,其中,所述多个样本应用程序包括分类信息为恶意的样本应用程序及分类信息为非恶意的样本应用程序。
在本发明实施例中,子步骤S2011可以由运行子模块2061执行。
生成子模块2062,用于依次记录每一个所述样本应用程序运行过程中对应的预先选中的多个所述特定底层函数的启用情况,生成与每个所述样本应用程序的行为链对应的训练样本特征向量,以获取对应的训练样本特征向量集;及根据每个所述样本应用程序对应的所述分类信息,生成与所述训练样本特征向量集对应的分类向量集。
在本发明实施例中,子步骤S2012及子步骤S2013可以由生成子模块2062执行。
构建子模块2063,用于根据所述训练样本特征向量集及分类向量集,构建所述恶意软件识别模型。
在本发明实施例中,子步骤S2014可以由构建子模块2063执行。
综上所述,本发明提供的一种恶意软件识别方法及系统,所述方法包括:在沙箱中运行待识别应用程序;记录所述待识别应用程序运行过程中对应的预先选中的多个特定底层函数的启用情况,以生成与所述待识别应用程序的行为链对应的待识别样本向量;获取恶意软件识别模型;根据所述恶意软件识别模型,采用机器学习的方式对所述待识别样本向量进行识别分类,以获得与所述待识别样本向量对应的待识别应用程序的识别结果。利用机器学习的方式对待识别应用程序的行为链进行识别,进而及时判断出是否为恶意软件,实现对恶意软件的高效判断。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。