CN113254928B

CN113254928B - 基于工业互联网远程恶意代码识别方法

Info

Publication number: CN113254928B
Application number: CN202110528821.2A
Authority: CN
Inventors: 张建强
Original assignee: Chongqing Beite Computer System Engineering Co ltd
Current assignee: Chongqing Beite Computer System Engineering Co ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2023-03-17
Anticipated expiration: 2041-05-14
Also published as: CN113254928A

Abstract

本发明提出了一种基于工业互联网远程恶意代码识别方法，包括以下步骤：S1，获取样本代码，将获取的样本代码作为待识别样本代码，对所述待识别样本代码进行代码识别，以生成对待识别样本代码检测的日志文本；S2，对生成的日志文本中的特征信息进行抽取，利用其抽取的特征信息判断所述待识别样本代码是否是正常代码：若待识别样本代码是正常代码，则不对待识别样本代码进行标识；若待识别样本代码不是正常代码，则对待识别样本代码进行标识；将其标识的待识别样本代码存储于本地恶意代码数据库或/和云端恶意代码数据库。本发明能够诊断恶意代码，增强系统安全性。

Description

基于工业互联网远程恶意代码识别方法

技术领域

本发明涉及一种安全领域，特别是涉及一种基于工业互联网远程恶意代码识别方法。

背景技术

当前网络空间安全的主要威胁之一是恶意代码通过系统漏洞或垃圾邮件等大规模传播，进而对信息系统所造成的破坏。随着网络攻防的博弈，恶意代码呈现出隐形化、多态化、多歧化特点，因此，对恶意代码进行分析十分必要。专利申请号2020102727302，名称为“恶意代码同源性分析方法和恶意代码同源性分析装置”，公开了：获取待分析代码；利用分类模型，对该待分析代码进行识别，得到识别结果；其中，该分类模型是利用预定的恶意代码样本的结构特征训练得到的；该结构特征由基于恶意代码样本切片过滤条件，并对恶意代码样本进行二进制代码过程间切片而得到；根据识别结果，确定该待分析代码所属的网络攻击组织或网络安全事件。通过该技术方案，使用分类模型对待分析代码进行分类识别，判断该待分析代码是否与已知网络攻击组织或事件的恶意代码样本具有同源性进而确定待分析代码是否为恶意代码，由此解决了如何提高分析恶意代码同源性的效率和准确率的问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于工业互联网远程恶意代码识别方法。

为了实现本发明的上述目的，本发明提供了一种基于工业互联网远程恶意代码识别方法，包括以下步骤：

S1，获取样本代码，将获取的样本代码作为待识别样本代码，对所述待识别样本代码进行代码识别，以生成对待识别样本代码检测的日志文本本；

S2，对生成的日志文本中的特征信息进行抽取，利用其抽取的特征信息判断所述待识别样本代码是否是正常代码：

若待识别样本代码是正常代码，则不对待识别样本代码进行标识；

若待识别样本代码不是正常代码，则对待识别样本代码进行标识；将其标识的待识别样本代码存储于本地恶意代码数据库或/和云端恶意代码数据库。将其识别的恶意代码存储于数据库有利于快速分辨，提高效率。

在本发明的一种优选实施方式中，在步骤S1中，包括以下步骤：

S11，统计获取的样本代码总个数，记为M；

S12，向云端获取M个不同的序列号，分别记作第1序列号、第2序列号、第3序列号、……、第M序列号，本地端对第m序列号进行以下操作：

ID_m＝(Serialnumber_m,hash[MD5])，

其中，Serialnumber_m表示第m序列号；m为小于或者等于M的正整数；

hash[MD5]表示采用MD5的摘要单向算法；

ID_m表示第m序列号Serialnumber_m所对应的唯一ID号；

(Serialnumber_m,hash[MD5])表示对第m序列号Serialnumber_m采用MD5的摘要单向算法的二元组表达；

S13，将M个唯一ID号分别依次作为M个样本代码的识别代码名称。起到安全唯一性。

在本发明的一种优选实施方式中，在云端对生成的M个不同的序列号进行以下操作：

其中，

表示云端生成的第m序列号；

表示云端生成的第m序列号

所对应的唯一ID号；

表示对云端生成的第m序列号

采用MD5的摘要单向算法的二元组表达；

对生成的唯一ID号

存储于云端唯一ID号数据库，作为核对本地端上传的标识的待识别样本代码所对应的唯一ID号。

在本发明的一种优选实施方式中，记累计值T＝0；在步骤S2中，利用其抽取的特征信息判断所述待识别样本代码是否是正常代码的方法为：

其中，K_j,μ是与日志文本中抽取的特征i相似的特征j对恶意代码集合P_i,j中恶意代码μ的关联度；

是与日志文本中抽取的特征i相似的特征j对恶意代码集合P_i,j的平均关联度；

P_i,j是恶意代码集合；

μ是恶意代码集合P_i,j中的恶意代码；

η是日志文本中抽取的特征i和与日志文本中提取的特征i相似的特征j的平衡系数，取值范围(0,1]；

λ是补偿系数，

是以自然底数e为底，

为指数；

Q_i,j是日志文本中抽取的特征i和与日志文本中提取的特征i相似的特征j所得到的恶意值；

若恶意值Q_i,j大于或者等于预设恶意阈值，则T＝T+1；

若累计值T大于或者等于预设累计阈值，则待识别样本代码是恶意代码。

综上所述，由于采用了上述技术方案，本发明能够诊断恶意代码，增强系统安全性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明流程示意框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明公开了一种基于工业互联网远程恶意代码识别方法，如图1所示，包括以下步骤：

S1，获取样本代码，将获取的样本代码作为待识别样本代码，对所述待识别样本代码进行代码识别，以生成对待识别样本代码检测的日志文本；

若待识别样本代码不是正常代码，则对待识别样本代码进行标识；将其标识的待识别样本代码存储于本地恶意代码数据库或/和云端恶意代码数据库。

S11，统计获取的样本代码总个数，记为M；

ID_m＝(Serialnumber_m,hash[MD5])，

hash[MD5]表示采用MD5的摘要单向算法；

ID_m表示第m序列号Serialnumber_m所对应的唯一ID号；

S13，将M个唯一ID号分别依次作为M个样本代码的识别代码名称。

其中，

表示云端生成的第m序列号；

表示云端生成的第m序列号

所对应的唯一ID号；

表示对云端生成的第m序列号

采用MD5的摘要单向算法的二元组表达；

对生成的唯一ID号

存储于云端唯一ID号数据库，作为核对本地端上传的标识的待识别样本代码所对应的唯一ID号。其中，当其云端接收到恶意代码及恶意代码所对应的识别代码名称(即唯一ID号)，云端判断其接收到的识别代码名称是否存在于云端唯一ID号数据库：

若云端接收到的识别代码名称存在于云端唯一ID号数据库，则云端将接收到的识别代码名称所对应的恶意代码存储于云端恶意代码数据库；

若云端接收到的识别代码名称不存在于云端唯一ID号数据库，则云端将接收到的识别代码名称所对应的恶意代码存储于云端恶意代码验证数据库。其云端对存储于云端恶意代码验证数据库中的待验证代码执行以下操作：

第一步，对所述待验证代码进行代码识别，以生成对待验证代码检测的云端日志文本；

第二步，对第一步中生成的云端日志文本中的特征信息进行云端抽取，利用其云端抽取的特征信息判断所述待验证代码是否是正常代码：

若待验证代码是正常代码，则将待验证代码从云端恶意代码验证数据库中删除；

若待验证代码不是正常代码，则将待验证代码从云端恶意代码验证数据库中删除，并将待验证代码连同待验证代码对应的识别代码名称存储于云端恶意代码数据库。在第二步中，利用其云端抽取的特征信息判断所述待验证代码是否是正常代码的方法为：

其中，K_i′,μ″是日志文本中云端抽取的特征i′对恶意代码集合P_i′,j″中云端恶意代码μ′的关联度；

是日志文本中云端抽取的特征i′对云端恶意代码集合P_i′,j″的平均关联度；

K_j′,μ″是与日志文本中云端抽取的特征i′相似的特征j′对云端恶意代码集合P_i′,j″中恶意代码μ′的关联度；

是与日志文本中云端抽取的特征i′相似的特征j′对云端恶意代码集合P_i′,j″的平均关联度；

P_i′,j″是云端恶意代码集合；

μ′是云端恶意代码集合P_i′,j″中的恶意代码；

η′是日志文本中云端抽取的特征i′和与日志文本中提取的特征i′相似的特征j′的云端平衡系数，取值范围(0,1]；

λ′是云端补偿系数，

是以自然底数e为底，

为指数；

Q_i′,j″是日志文本中云端抽取的特征i′和与日志文本中提取的特征i′相似的特征j′所得到的恶意值。起到了防止恶意代码的遗漏。

其中，K_i,μ是日志文本中抽取的特征i对恶意代码集合P_i,j中恶意代码μ的关联度；

是日志文本中抽取的特征i对恶意代码集合P_i,j的平均关联度；

K_j,μ是与日志文本中抽取的特征i相似的特征j对恶意代码集合P_i,j中恶意代码μ的关联度；

P_i,j是恶意代码集合；

μ是恶意代码集合P_i,j中的恶意代码；

λ是补偿系数，

是以自然底数e为底，

为指数；

若恶意值Q_i,j大于或者等于预设恶意阈值，则T＝T+1；

若恶意值Q_i,j小于预设恶意阈值，则T＝T+0；

S22，判断下一个特征，执行步骤S21，直至特征执行完毕后，执行步骤S23；

S23，若累计值T大于或者等于预设累计阈值，则待识别样本代码是恶意代码；

若累计值T小于预设累计阈值，则待识别样本代码是正常代码。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于工业互联网远程恶意代码识别方法，其特征在于，包括以下步骤：

S0，在云端对生成的M个不同的序列号进行以下操作：

其中，

表示云端生成的第m序列号；

表示云端生成的第m序列号

所对应的唯一ID号；

表示对云端生成的第m序列号

采用MD5的摘要单向算法的二元组表达；

对生成的唯一ID号

存储于云端唯一ID号数据库，作为核对本地端上传的标识的待识别样本代码所对应的唯一ID号；

S1，获取样本代码，将获取的样本代码作为待识别样本代码，对所述待识别样本代码进行代码识别，以生成对待识别样本代码检测的日志文本；对获取的样本代码进行识别代码名称生成的方法包括以下步骤：

S11，统计获取的样本代码总个数，记为M；

ID_m＝(Serialnumber_m,hash[MD5])，

hash[MD5]表示采用MD5的摘要单向算法；

ID_m表示第m序列号Serialnumber_m所对应的唯一ID号；

S13，将M个唯一ID号分别依次作为M个样本代码的识别代码名称；

若待识别样本代码不是正常代码，则对待识别样本代码进行标识；将其标识的待识别样本代码存储于本地恶意代码数据库或/和云端恶意代码数据库；将其标识的待识别样本代码存储于云端恶意代码数据库的方法为：当其云端接收到恶意代码及恶意代码所对应的识别代码名称，云端判断其接收到的识别代码名称是否存在于云端唯一ID号数据库：

若云端接收到的识别代码名称不存在于云端唯一ID号数据库，则云端将接收到的识别代码名称所对应的恶意代码存储于云端恶意代码验证数据库；

记累计值T＝0；其利用其抽取的特征信息判断所述待识别样本代码是否是正常代码的方法为：

S21，

P_i,j是恶意代码集合；

μ是恶意代码集合P_i,j中的恶意代码；

λ是补偿系数，

是以自然底数e为底，

为指数；

若恶意值Q_i,j大于或者等于预设恶意阈值，则T＝T+1；

若恶意值Q_i,j小于预设恶意阈值，则T＝T+0；