CN110868421A

CN110868421A - 恶意代码的识别方法、装置、设备及存储介质

Info

Publication number: CN110868421A
Application number: CN201911134972.9A
Authority: CN
Inventors: 杨帆
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-03-06

Abstract

本发明提供一种恶意代码的识别方法、装置、设备及存储介质。该方法包括获取网站的待识别网络流量数据；按照预设规则从该待识别网络流量数据中获取可疑代码；将该可疑代码输入代码识别模型中获得该可疑代码的识别结果；该识别结果为恶意代码、正常代码或无法识别中的一种；若该识别结果为无法识别，则将该可疑代码与备份代码进行比对，该备份代码为该网站的源码；若该备份代码中不存在该可疑代码，则将该可疑代码确定为恶意代码。该方法提高了恶意代码识别的准确率。

Description

恶意代码的识别方法、装置、设备及存储介质

技术领域

本发明涉及恶意代码检测技术，尤其涉及一种恶意代码的识别方法、装置、设备及存储介质。

背景技术

随着互联网的飞速发展，各种网站在人们的日常生活和工作中扮演重要的角色，人们在享受互联网带来的便利的同时，也经受了各种网络安全问题的困扰。例如，黑客在网页中插入恶意代码来获取用户的个人信息、劫持用户访问或者对用户进行监听等，给人们带来极大的损失。

目前，恶意代码的识别主要是依靠与已知的恶意代码库进行比对的方式，将待检测文件与恶意代码库中的恶意代码进行比对来判断此待检测文件是否被恶意代码感染。

这种方式中要求有足够强大的恶意代码库，若恶意代码库不完善，则容易导致恶意代码漏报。

发明内容

本发明提供一种恶意代码的识别方法、装置、设备及存储介质，以提高恶意代码识别的准确率。

第一方面，本发明提供一种恶意代码的识别方法，包括：

获取网站的待识别网络流量数据；

按照预设规则从所述待识别网络流量数据中获取可疑代码；

将所述可疑代码输入代码识别模型中获得所述可疑代码的识别结果；所述识别结果为恶意代码、正常代码或无法识别中的一种；

若所述识别结果为无法识别，则将所述可疑代码与备份代码进行比对，所述备份代码为所述网站的源码；

若所述备份代码中不存在所述可疑代码，则将所述可疑代码确定为恶意代码。

可选的，所述按照预设规则从所述待识别网络流量数据中获取可疑代码，包括：

将所述待识别网络流量数据与恶意代码库进行比对，所述恶意代码库中包括预设的恶意代码样本；

若所述待识别网络流量数据的部分或全部与所述恶意代码库中的任意恶意代码样本匹配，则将所述待识别网络流量数据的部分或全部确定为可疑代码。

将所述待识别网络流量数据中的加密代码确定为可疑代码。

可选的，所述将所述可疑代码输入代码识别模型中获得所述可疑代码的识别结果，包括：

对所述可疑代码中的特征词汇进行标记得到标记值；

将所述标记值输入代码识别模型中获得所述可疑代码的识别结果。

可选的，所述将所述可疑代码与备份代码进行比对，包括：

确定所述可疑代码的文件名，按照所述备份代码的索引从所述备份代码中查找所述文件名对应的代码进行比对。

可选的，当所述备份代码的索引中常用代码的排序在不常用代码之前时，所述按照所述备份代码的索引从所述备份代码中查找所述文件名对应的代码进行比对，包括：

将所述可疑代码的文件名输入代码分类模型，确定所述可疑代码的类型，所述类型包括常用代码或不常用代码；

根据所述可疑代码的类型以及所述备份代码的索引从所述备份代码中查找所述文件名对应的代码进行比对。

可选的，所述获取网站的待识别网络流量数据，包括：

对所述网站的双向网络流量数据进行镜像，将镜像出的双向网络流量数据确定为待识别网络流量数据。

第二方面，本发明提供一种恶意代码的识别装置，包括：

第一获取模块，用于获取网站的待识别网络流量数据；

第二获取模块，用于按照预设规则从所述待识别网络流量数据中获取可疑代码；

识别模块，用于将所述可疑代码输入代码识别模型中获得所述可疑代码的识别结果；所述识别结果为恶意代码、正常代码或无法识别中的一种；

比对模块，用于若所述识别结果为无法识别，则将所述可疑代码与备份代码进行比对，所述备份代码为所述网站的源码；若所述备份代码中不存在所述可疑代码，则将所述可疑代码确定为恶意代码。

可选的，所述第二获取模块具体用于：

将所述待识别网络流量数据中的加密代码确定为可疑代码。

可选的，所述识别模块具体用于：

对所述可疑代码中的特征词汇进行标记得到标记值；

可选的，所述比对模块具体用于：

当所述备份代码的索引中常用代码的排序在不常用代码之前时，将所述可疑代码的文件名输入代码分类模型，确定所述可疑代码的类型，所述类型包括常用代码或不常用代码；

可选的，所述第一获取模块具体用于：

第三方面，本发明提供一种恶意代码的识别设备，包括存储器和处理器；所述存储器和所述处理器连接；

所述存储器，用于存储计算机程序；

所述处理器，用于在计算机程序被执行时，实现如上述第一方面中任一项所述的恶意代码的识别方法。

第四方面，本发明提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述第一方面中任一项所述的恶意代码的识别方法。

本发明提供一种恶意代码的识别方法、装置、设备及存储介质，该方法包括获取网站的待识别网络流量数据；按照预设规则从该待识别网络流量数据中获取可疑代码；将该可疑代码输入代码识别模型中获得该可疑代码的识别结果；该识别结果为恶意代码、正常代码或无法识别中的一种；若该识别结果为无法识别，则将该可疑代码与备份代码进行比对，该备份代码为该网站的源码；若该备份代码中不存在该可疑代码，则将该可疑代码确定为恶意代码。该方法通过预设规则尽可能的获取可疑代码，并通过代码识别模型识别恶意代码，在代码识别模型无法识别的情况下，进一步通过备份代码比对确定恶意代码，提高了恶意代码识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种恶意代码的识别方法的应用场景示意图；

图2为本发明提供的一种恶意代码的识别方法的流程示意图；

图3为本发明提供的一种恶意代码的识别装置的结构示意图；

图4为本发明提供的一种恶意代码的识别设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的一种恶意代码的识别方法的应用场景示意图。如图1所示，服务器10为某网站的服务器，不同的用户可以通过终端设备20和终端设备30等访问服务器10，在访问的过程中产生上行和下行的网络流量数据。在用户通过终端设备20和终端设备30等访问服务器10的过程中，网络流量数据中存在被插入恶意代码的风险，因此需要对访问过程中的网络流量数据进行恶意代码识别，通过服务器40获取用户通过终端设备20和终端设备30等访问服务器10的过程中所产生的网络流量数据，采用本发明提供的恶意代码的识别方法对恶意代码进行识别，来提高恶意代码识别的准确率。一下结合具体的实施例对本发明提供的恶意代码的识别方法进行说明。

图2为本发明提供的一种恶意代码的识别方法的流程示意图。该方法的执行主体为恶意代码的识别装置，该装置可以通过软件和/或硬件的方式实现。如图2所示，该方法包括：

S201、获取网站的待识别网络流量数据。

用户访问某一网站的过程中会产生双向网络流量数据，包括上行网络流量数据和下行网络流量数据，为了减少恶意代码识别过程中对网站服务器性能产生影响，本实施例中可以通过对该网站的双向网络流量数据进行镜像，将镜像出的双向网络流量数据确定为待识别网络流量数据。由于镜像出的待识别网络流量数据与原始网络中的数据完全一致，因此后续可以基于该镜像出的待识别网络流量数据进行识别。此外，在获取到待识别网络流量数据后，还需要按照网络协议对其进行解析，具体包括从数据链路层解析到应用层，例如解析应用层的http协议。

S202、按照预设规则从该待识别网络流量数据中获取可疑代码。

本实施例中的预设规则可以根据实际需求进行自定义，例如根据现有的恶意代码库抓取与恶意代码库匹配的可疑代码，或者，将某一类容易被恶意代码感染的函数作为可疑代码，或者，将频繁进行读写操作的代码确定为可疑代码等，本实施例中获取可疑代码的预设规则可以动态调整，对于不同的网站或企业等可以进行自定义，尽可能多的抓取可疑代码。

S203、将该可疑代码输入代码识别模型中获得该可疑代码的识别结果；该识别结果为恶意代码、正常代码或无法识别中的一种。

本实施例中的代码识别模型为预先训练完成的机器学习模型，在训练阶段，将样本数据分为训练数据和测试数据两部分，在第一次运行训练时随机划分，使用归一化算法对训练数据进行归一化处理以保证数据在统一尺度运行，对归一化数据进行训练，根据训练结果调整模型的参数，得到训练后的代码识别模型。同样的，对测试数据也使用归一化算法对训练数据进行归一化处理，通过测试数据确定代码识别模型的准确度，即识别率。通过该代码识别模型可以确定可以代码为恶意代码、正常代码或无法识别中的一种，对于无法识别的可疑代码，则还需要做进一步的判断。

S204、若该识别结果为无法识别，则将该可疑代码与备份代码进行比对，该备份代码为网站的源码。

S205、若该备份代码中不存在该可疑代码，则将该可疑代码确定为恶意代码。

网站上线时，将其源码备份为备份代码，在通过代码识别模型无法识别可疑代码是否为恶意代码时，则将可疑代码与备份代码进行比对，若在备份代码中存在该可疑代码，则可确定该可疑代码是正常代码，若该备份代码中不存在该可疑代码，则可确定该可疑代码为恶意代码。

本实施例提供的恶意代码的识别方法，通过获取网站的待识别网络流量数据；按照预设规则从该待识别网络流量数据中获取可疑代码；将该可疑代码输入代码识别模型中获得该可疑代码的识别结果；该识别结果为恶意代码、正常代码或无法识别中的一种；若该识别结果为无法识别，则将该可疑代码与备份代码进行比对，该备份代码为该网站的源码；若该备份代码中不存在该可疑代码，则将该可疑代码确定为恶意代码。该方法通过预设规则尽可能的获取可疑代码，并通过代码识别模型识别恶意代码，在代码识别模型无法识别的情况下，进一步通过备份代码比对确定恶意代码，提高了恶意代码识别的准确率。

在具体应用中，可以通过多种方式获取可疑代码。在一种可能的实现方式中，S202中按照预设规则从该待识别网络流量数据中获取可疑代码，包括：

将该待识别网络流量数据与恶意代码库进行比对，该恶意代码库中包括预设的恶意代码样本；若该待识别网络流量数据的部分或全部与该恶意代码库中的任意恶意代码样本匹配，则将该待识别网络流量数据的部分或全部确定为可疑代码。

恶意代码库中包含了预设的已知的恶意代码样本，恶意代码库中存储的可以为恶意代码样本的特征代码，例如包含eval()函数的代码，将待识别网络流量数据与恶意代码库进行比对，若该待识别网络流量数据的部分或全部与该恶意代码库中的任意恶意代码样本匹配，则表示待识别网络流程数据中包含了可疑代码，将匹配的部分确定为可疑代码。

在另一种可能的实现方式中，S202中按照预设规则从该待识别网络流量数据中获取可疑代码，包括：将该待识别网络流量数据中的加密代码确定为可疑代码。

当前，许多恶意代码往往通过加密函数来规避安全监测和流量分析等，因此，经过加密的代码通常也是风险较高的代码，本实施例中将待识别网络流量数据中的加密代码确定为可疑代码，通过识别待识别网络流程数据中的加密函数，例如fromCharCode、replace、RegExp等，来获取加密代码，以便于对这些加密代码做进一步的识别。

在实际应用中，可以将上述两种实现方式中获取可疑代码的方式进行结合，即采用多种方式同时抓取可疑代码，此外，除上述两种方式外，还可以添加自定义的规则，抓取包含一定特征的代码，从而根据实际需求尽量多的抓取可疑代码。

在上述实施例的基础上，S203中将该可疑代码输入代码识别模型中获得该可疑代码的识别结果，包括：

对该可疑代码中的特征词汇进行标记得到标记值；将该标记值输入代码识别模型中获得该可疑代码的识别结果。

在获取到可疑代码之后，可以对可疑代码进行拆分，将其中的特征词汇进行标记，例如采用二进制字符串对特征词汇进行标记，每个特征词汇具有唯一的标记，标记后获得的标记值即为一串二进制字符串，将标记值输入代码识别模型中，即可获得识别结果。

在上述实施例的基础上，S204中将该可疑代码与备份代码进行比对，包括：

确定该可疑代码的文件名，按照该备份代码的索引从该备份代码中查找该文件名对应的代码进行比对。

为了提高查找备份代码的速度，便于快速进行匹配，本实施例中对备份代码进行索引，在确定可疑代码的文件名后，通过备份代码的索引从备份代码中快速查找到备份代码中的相应代码以进行比对，若在备份代码中存在该可疑代码，则可确定该可疑代码是正常代码，若该备份代码中不存在该可疑代码，则可确定该可疑代码为恶意代码。

可选的，该备份代码的索引中常用代码的排序在不常用代码之前，该按照该备份代码的索引从该备份代码中查找该文件名对应的代码进行比对，包括：

将该可疑代码的文件名输入代码分类模型，确定该可疑代码的类型，该类型包括常用代码或不常用代码；

根据该可疑代码的类型以及该备份代码的索引从该备份代码中查找该文件名对应的代码进行比对。

本实施例中的代码分类模型为经过训练的机器学习模型，对于备份代码，将备份代码中的各文件名输入代码分类模型，可以确定备份代码中各文件名对应的代码为常用代码或不常用代码，其中常用代码为多次被插入恶意代码或者多次与可疑代码进行比对的代码。备份代码的索引中常用代码的排序在不常用代码之前，从而提高匹配的速度，提高可疑代码的识别效率。

进一步的，对于可疑代码，通过代码分类模型确定该可疑代码为常用代码或不常用代码，若可疑代码为常用代码，则在索引中从前往后查找便于快速匹配到备份代码中的相应代码以进行比对；若可疑代码为不常用代码，则在索引中从后往前查找便于快速匹配到备份代码中的相应代码以进行比对。

本实施例中，备份代码的索引可以包括文件路径的索引以及文件内容的索引，在确定可疑代码的文件名所对应的备份代码中的文件后，通过文件内容的索引来进行快速匹配，以提高恶意代码识别的效率。

图3为本发明提供的一种恶意代码的识别装置的结构示意图。如图3所示，恶意代码的识别装置300包括：

第一获取模块301，用于获取网站的待识别网络流量数据；

第二获取模块302，用于按照预设规则从该待识别网络流量数据中获取可疑代码；

识别模块303，用于将该可疑代码输入代码识别模型中获得该可疑代码的识别结果；该识别结果为恶意代码、正常代码或无法识别中的一种；

比对模块304，用于若该识别结果为无法识别，则将该可疑代码与备份代码进行比对，该备份代码为该网站的源码；若该备份代码中不存在该可疑代码，则将该可疑代码确定为恶意代码。

可选的，该第二获取模块302具体用于：

将该待识别网络流量数据与恶意代码库进行比对，该恶意代码库中包括预设的恶意代码样本；

若该待识别网络流量数据的部分或全部与该恶意代码库中的任意恶意代码样本匹配，则将该待识别网络流量数据的部分或全部确定为可疑代码。

可选的，该第二获取模块302具体用于：

将该待识别网络流量数据中的加密代码确定为可疑代码。

可选的，该识别模块303具体用于：

对该可疑代码中的特征词汇进行标记得到标记值；

将该标记值输入代码识别模型中获得该可疑代码的识别结果。

可选的，该比对模块304具体用于：

可选的，该备份代码的索引中常用代码的排序在不常用代码之前，该比对模块304具体用于：

可选的，该第一获取模块301具体用于：

对该网站的双向网络流量数据进行镜像，将镜像出的双向网络流量数据确定为待识别网络流量数据。

图4为本发明提供的一种恶意代码的识别设备的结构示意图。如图4所示，恶意代码的识别设备400包括存储器401和处理器402；存储器401和处理器402连接；

存储器401，用于存储计算机程序；

处理器402，用于在计算机程序被执行时，实现上述任一方法实施例中的恶意代码的识别方法。

本发明提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如上述任一方法实施例中的恶意代码的识别方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种恶意代码的识别方法，其特征在于，包括：

获取网站的待识别网络流量数据；

按照预设规则从所述待识别网络流量数据中获取可疑代码；

2.根据权利要求1所述的方法，其特征在于，所述按照预设规则从所述待识别网络流量数据中获取可疑代码，包括：

3.根据权利要求1所述的方法，其特征在于，所述按照预设规则从所述待识别网络流量数据中获取可疑代码，包括：

将所述待识别网络流量数据中的加密代码确定为可疑代码。

4.根据权利要求1所述的方法，其特征在于，所述将所述可疑代码输入代码识别模型中获得所述可疑代码的识别结果，包括：

对所述可疑代码中的特征词汇进行标记得到标记值；

5.根据权利要求1所述的方法，其特征在于，所述将所述可疑代码与备份代码进行比对，包括：

6.根据权利要求5所述的方法，其特征在于，当所述备份代码的索引中常用代码的排序在不常用代码之前时，所述按照所述备份代码的索引从所述备份代码中查找所述文件名对应的代码进行比对，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取网站的待识别网络流量数据，包括：

8.一种恶意代码的识别装置，其特征在于，包括：

第一获取模块，用于获取网站的待识别网络流量数据；

9.一种恶意代码的识别设备，其特征在于，包括存储器和处理器；所述存储器和所述处理器连接；

所述存储器，用于存储计算机程序；

所述处理器，用于在计算机程序被执行时，实现如上述权利要求1-7中任一项所述的恶意代码的识别方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如上述权利要求1-7中任一项所述的恶意代码的识别方法。