CN113254928B - 基于工业互联网远程恶意代码识别方法 - Google Patents

基于工业互联网远程恶意代码识别方法 Download PDF

Info

Publication number
CN113254928B
CN113254928B CN202110528821.2A CN202110528821A CN113254928B CN 113254928 B CN113254928 B CN 113254928B CN 202110528821 A CN202110528821 A CN 202110528821A CN 113254928 B CN113254928 B CN 113254928B
Authority
CN
China
Prior art keywords
code
malicious
cloud
sample
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110528821.2A
Other languages
English (en)
Other versions
CN113254928A (zh
Inventor
张建强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Beite Computer System Engineering Co ltd
Original Assignee
Chongqing Beite Computer System Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Beite Computer System Engineering Co ltd filed Critical Chongqing Beite Computer System Engineering Co ltd
Priority to CN202110528821.2A priority Critical patent/CN113254928B/zh
Publication of CN113254928A publication Critical patent/CN113254928A/zh
Application granted granted Critical
Publication of CN113254928B publication Critical patent/CN113254928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提出了一种基于工业互联网远程恶意代码识别方法,包括以下步骤:S1,获取样本代码,将获取的样本代码作为待识别样本代码,对所述待识别样本代码进行代码识别,以生成对待识别样本代码检测的日志文本;S2,对生成的日志文本中的特征信息进行抽取,利用其抽取的特征信息判断所述待识别样本代码是否是正常代码:若待识别样本代码是正常代码,则不对待识别样本代码进行标识;若待识别样本代码不是正常代码,则对待识别样本代码进行标识;将其标识的待识别样本代码存储于本地恶意代码数据库或/和云端恶意代码数据库。本发明能够诊断恶意代码,增强系统安全性。

Description

基于工业互联网远程恶意代码识别方法
技术领域
本发明涉及一种安全领域,特别是涉及一种基于工业互联网远程恶意代码识别方法。
背景技术
当前网络空间安全的主要威胁之一是恶意代码通过系统漏洞或垃圾邮件等大规模传播,进而对信息系统所造成的破坏。随着网络攻防的博弈,恶意代码呈现出隐形化、多态化、多歧化特点,因此,对恶意代码进行分析十分必要。专利申请号2020102727302,名称为“恶意代码同源性分析方法和恶意代码同源性分析装置”,公开了:获取待分析代码;利用分类模型,对该待分析代码进行识别,得到识别结果;其中,该分类模型是利用预定的恶意代码样本的结构特征训练得到的;该结构特征由基于恶意代码样本切片过滤条件,并对恶意代码样本进行二进制代码过程间切片而得到;根据识别结果,确定该待分析代码所属的网络攻击组织或网络安全事件。通过该技术方案,使用分类模型对待分析代码进行分类识别,判断该待分析代码是否与已知网络攻击组织或事件的恶意代码样本具有同源性进而确定待分析代码是否为恶意代码,由此解决了如何提高分析恶意代码同源性的效率和准确率的问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于工业互联网远程恶意代码识别方法。
为了实现本发明的上述目的,本发明提供了一种基于工业互联网远程恶意代码识别方法,包括以下步骤:
S1,获取样本代码,将获取的样本代码作为待识别样本代码,对所述待识别样本代码进行代码识别,以生成对待识别样本代码检测的日志文本本;
S2,对生成的日志文本中的特征信息进行抽取,利用其抽取的特征信息判断所述待识别样本代码是否是正常代码:
若待识别样本代码是正常代码,则不对待识别样本代码进行标识;
若待识别样本代码不是正常代码,则对待识别样本代码进行标识;将其标识的待识别样本代码存储于本地恶意代码数据库或/和云端恶意代码数据库。将其识别的恶意代码存储于数据库有利于快速分辨,提高效率。
在本发明的一种优选实施方式中,在步骤S1中,包括以下步骤:
S11,统计获取的样本代码总个数,记为M;
S12,向云端获取M个不同的序列号,分别记作第1序列号、第2序列号、第3序列号、……、第M序列号,本地端对第m序列号进行以下操作:
IDm=(Serialnumberm,hash[MD5]),
其中,Serialnumberm表示第m序列号;m为小于或者等于M的正整数;
hash[MD5]表示采用MD5的摘要单向算法;
IDm表示第m序列号Serialnumberm所对应的唯一ID号;
(Serialnumberm,hash[MD5])表示对第m序列号Serialnumberm采用MD5的摘要单向算法的二元组表达;
S13,将M个唯一ID号分别依次作为M个样本代码的识别代码名称。起到安全唯一性。
在本发明的一种优选实施方式中,在云端对生成的M个不同的序列号进行以下操作:
Figure BDA0003066299820000021
其中,
Figure BDA0003066299820000022
表示云端生成的第m序列号;
Figure BDA0003066299820000031
表示云端生成的第m序列号
Figure BDA0003066299820000032
所对应的唯一ID号;
Figure BDA0003066299820000033
表示对云端生成的第m序列号
Figure BDA0003066299820000034
采用MD5的摘要单向算法的二元组表达;
对生成的唯一ID号
Figure BDA0003066299820000035
存储于云端唯一ID号数据库,作为核对本地端上传的标识的待识别样本代码所对应的唯一ID号。
在本发明的一种优选实施方式中,记累计值T=0;在步骤S2中,利用其抽取的特征信息判断所述待识别样本代码是否是正常代码的方法为:
Figure BDA0003066299820000036
其中,Kj,μ是与日志文本中抽取的特征i相似的特征j对恶意代码集合Pi,j中恶意代码μ的关联度;
Figure BDA0003066299820000037
是与日志文本中抽取的特征i相似的特征j对恶意代码集合Pi,j的平均关联度;
Pi,j是恶意代码集合;
μ是恶意代码集合Pi,j中的恶意代码;
η是日志文本中抽取的特征i和与日志文本中提取的特征i相似的特征j的平衡系数,取值范围(0,1];
λ是补偿系数,
Figure BDA0003066299820000038
Figure BDA0003066299820000039
是以自然底数e为底,
Figure BDA00030662998200000310
为指数;
Qi,j是日志文本中抽取的特征i和与日志文本中提取的特征i相似的特征j所得到的恶意值;
若恶意值Qi,j大于或者等于预设恶意阈值,则T=T+1;
若累计值T大于或者等于预设累计阈值,则待识别样本代码是恶意代码。
综上所述,由于采用了上述技术方案,本发明能够诊断恶意代码,增强系统安全性。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明流程示意框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明公开了一种基于工业互联网远程恶意代码识别方法,如图1所示,包括以下步骤:
S1,获取样本代码,将获取的样本代码作为待识别样本代码,对所述待识别样本代码进行代码识别,以生成对待识别样本代码检测的日志文本;
S2,对生成的日志文本中的特征信息进行抽取,利用其抽取的特征信息判断所述待识别样本代码是否是正常代码:
若待识别样本代码是正常代码,则不对待识别样本代码进行标识;
若待识别样本代码不是正常代码,则对待识别样本代码进行标识;将其标识的待识别样本代码存储于本地恶意代码数据库或/和云端恶意代码数据库。
在本发明的一种优选实施方式中,在步骤S1中,包括以下步骤:
S11,统计获取的样本代码总个数,记为M;
S12,向云端获取M个不同的序列号,分别记作第1序列号、第2序列号、第3序列号、……、第M序列号,本地端对第m序列号进行以下操作:
IDm=(Serialnumberm,hash[MD5]),
其中,Serialnumberm表示第m序列号;m为小于或者等于M的正整数;
hash[MD5]表示采用MD5的摘要单向算法;
IDm表示第m序列号Serialnumberm所对应的唯一ID号;
(Serialnumberm,hash[MD5])表示对第m序列号Serialnumberm采用MD5的摘要单向算法的二元组表达;
S13,将M个唯一ID号分别依次作为M个样本代码的识别代码名称。
在本发明的一种优选实施方式中,在云端对生成的M个不同的序列号进行以下操作:
Figure BDA0003066299820000051
其中,
Figure BDA0003066299820000052
表示云端生成的第m序列号;
Figure BDA0003066299820000053
表示云端生成的第m序列号
Figure BDA0003066299820000054
所对应的唯一ID号;
Figure BDA0003066299820000055
表示对云端生成的第m序列号
Figure BDA0003066299820000056
采用MD5的摘要单向算法的二元组表达;
对生成的唯一ID号
Figure BDA0003066299820000057
存储于云端唯一ID号数据库,作为核对本地端上传的标识的待识别样本代码所对应的唯一ID号。其中,当其云端接收到恶意代码及恶意代码所对应的识别代码名称(即唯一ID号),云端判断其接收到的识别代码名称是否存在于云端唯一ID号数据库:
若云端接收到的识别代码名称存在于云端唯一ID号数据库,则云端将接收到的识别代码名称所对应的恶意代码存储于云端恶意代码数据库;
若云端接收到的识别代码名称不存在于云端唯一ID号数据库,则云端将接收到的识别代码名称所对应的恶意代码存储于云端恶意代码验证数据库。其云端对存储于云端恶意代码验证数据库中的待验证代码执行以下操作:
第一步,对所述待验证代码进行代码识别,以生成对待验证代码检测的云端日志文本;
第二步,对第一步中生成的云端日志文本中的特征信息进行云端抽取,利用其云端抽取的特征信息判断所述待验证代码是否是正常代码:
若待验证代码是正常代码,则将待验证代码从云端恶意代码验证数据库中删除;
若待验证代码不是正常代码,则将待验证代码从云端恶意代码验证数据库中删除,并将待验证代码连同待验证代码对应的识别代码名称存储于云端恶意代码数据库。在第二步中,利用其云端抽取的特征信息判断所述待验证代码是否是正常代码的方法为:
Figure BDA0003066299820000061
其中,Ki′,μ″是日志文本中云端抽取的特征i′对恶意代码集合Pi′,j″中云端恶意代码μ′的关联度;
Figure BDA0003066299820000062
是日志文本中云端抽取的特征i′对云端恶意代码集合Pi′,j″的平均关联度;
Kj′,μ″是与日志文本中云端抽取的特征i′相似的特征j′对云端恶意代码集合Pi′,j″中恶意代码μ′的关联度;
Figure BDA0003066299820000063
是与日志文本中云端抽取的特征i′相似的特征j′对云端恶意代码集合Pi′,j″的平均关联度;
Pi′,j″是云端恶意代码集合;
μ′是云端恶意代码集合Pi′,j″中的恶意代码;
η′是日志文本中云端抽取的特征i′和与日志文本中提取的特征i′相似的特征j′的云端平衡系数,取值范围(0,1];
λ′是云端补偿系数,
Figure BDA0003066299820000071
Figure BDA0003066299820000072
是以自然底数e为底,
Figure BDA0003066299820000073
为指数;
Qi′,j″是日志文本中云端抽取的特征i′和与日志文本中提取的特征i′相似的特征j′所得到的恶意值。起到了防止恶意代码的遗漏。
在本发明的一种优选实施方式中,记累计值T=0;在步骤S2中,利用其抽取的特征信息判断所述待识别样本代码是否是正常代码的方法为:
Figure BDA0003066299820000074
其中,Ki,μ是日志文本中抽取的特征i对恶意代码集合Pi,j中恶意代码μ的关联度;
Figure BDA0003066299820000075
是日志文本中抽取的特征i对恶意代码集合Pi,j的平均关联度;
Kj,μ是与日志文本中抽取的特征i相似的特征j对恶意代码集合Pi,j中恶意代码μ的关联度;
Figure BDA0003066299820000076
是与日志文本中抽取的特征i相似的特征j对恶意代码集合Pi,j的平均关联度;
Pi,j是恶意代码集合;
μ是恶意代码集合Pi,j中的恶意代码;
η是日志文本中抽取的特征i和与日志文本中提取的特征i相似的特征j的平衡系数,取值范围(0,1];
λ是补偿系数,
Figure BDA0003066299820000081
Figure BDA0003066299820000082
是以自然底数e为底,
Figure BDA0003066299820000083
为指数;
Qi,j是日志文本中抽取的特征i和与日志文本中提取的特征i相似的特征j所得到的恶意值;
若恶意值Qi,j大于或者等于预设恶意阈值,则T=T+1;
若恶意值Qi,j小于预设恶意阈值,则T=T+0;
S22,判断下一个特征,执行步骤S21,直至特征执行完毕后,执行步骤S23;
S23,若累计值T大于或者等于预设累计阈值,则待识别样本代码是恶意代码;
若累计值T小于预设累计阈值,则待识别样本代码是正常代码。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (1)

1.一种基于工业互联网远程恶意代码识别方法,其特征在于,包括以下步骤:
S0,在云端对生成的M个不同的序列号进行以下操作:
Figure FDF0000020013660000011
其中,
Figure FDF0000020013660000012
表示云端生成的第m序列号;
Figure FDF0000020013660000013
表示云端生成的第m序列号
Figure FDF0000020013660000014
所对应的唯一ID号;
Figure FDF0000020013660000015
表示对云端生成的第m序列号
Figure FDF0000020013660000016
采用MD5的摘要单向算法的二元组表达;
对生成的唯一ID号
Figure FDF0000020013660000017
存储于云端唯一ID号数据库,作为核对本地端上传的标识的待识别样本代码所对应的唯一ID号;
S1,获取样本代码,将获取的样本代码作为待识别样本代码,对所述待识别样本代码进行代码识别,以生成对待识别样本代码检测的日志文本;对获取的样本代码进行识别代码名称生成的方法包括以下步骤:
S11,统计获取的样本代码总个数,记为M;
S12,向云端获取M个不同的序列号,分别记作第1序列号、第2序列号、第3序列号、……、第M序列号,本地端对第m序列号进行以下操作:
IDm=(Serialnumberm,hash[MD5]),
其中,Serialnumberm表示第m序列号;m为小于或者等于M的正整数;
hash[MD5]表示采用MD5的摘要单向算法;
IDm表示第m序列号Serialnumberm所对应的唯一ID号;
(Serialnumberm,hash[MD5])表示对第m序列号Serialnumberm采用MD5的摘要单向算法的二元组表达;
S13,将M个唯一ID号分别依次作为M个样本代码的识别代码名称;
S2,对生成的日志文本中的特征信息进行抽取,利用其抽取的特征信息判断所述待识别样本代码是否是正常代码:
若待识别样本代码是正常代码,则不对待识别样本代码进行标识;
若待识别样本代码不是正常代码,则对待识别样本代码进行标识;将其标识的待识别样本代码存储于本地恶意代码数据库或/和云端恶意代码数据库;将其标识的待识别样本代码存储于云端恶意代码数据库的方法为:当其云端接收到恶意代码及恶意代码所对应的识别代码名称,云端判断其接收到的识别代码名称是否存在于云端唯一ID号数据库:
若云端接收到的识别代码名称存在于云端唯一ID号数据库,则云端将接收到的识别代码名称所对应的恶意代码存储于云端恶意代码数据库;
若云端接收到的识别代码名称不存在于云端唯一ID号数据库,则云端将接收到的识别代码名称所对应的恶意代码存储于云端恶意代码验证数据库;
记累计值T=0;其利用其抽取的特征信息判断所述待识别样本代码是否是正常代码的方法为:
S21,
Figure FDF0000020013660000021
其中,Ki,μ是日志文本中抽取的特征i对恶意代码集合Pi,j中恶意代码μ的关联度;
Figure FDF0000020013660000022
是日志文本中抽取的特征i对恶意代码集合Pi,j的平均关联度;
Kj,μ是与日志文本中抽取的特征i相似的特征j对恶意代码集合Pi,j中恶意代码μ的关联度;
Figure FDF0000020013660000023
是与日志文本中抽取的特征i相似的特征j对恶意代码集合Pi,j的平均关联度;
Pi,j是恶意代码集合;
μ是恶意代码集合Pi,j中的恶意代码;
η是日志文本中抽取的特征i和与日志文本中提取的特征i相似的特征j的平衡系数,取值范围(0,1];
λ是补偿系数,
Figure FDF0000020013660000031
Figure FDF0000020013660000032
是以自然底数e为底,
Figure FDF0000020013660000033
为指数;
Qi,j是日志文本中抽取的特征i和与日志文本中提取的特征i相似的特征j所得到的恶意值;
若恶意值Qi,j大于或者等于预设恶意阈值,则T=T+1;
若恶意值Qi,j小于预设恶意阈值,则T=T+0;
S22,判断下一个特征,执行步骤S21,直至特征执行完毕后,执行步骤S23;
S23,若累计值T大于或者等于预设累计阈值,则待识别样本代码是恶意代码;
若累计值T小于预设累计阈值,则待识别样本代码是正常代码。
CN202110528821.2A 2021-05-14 2021-05-14 基于工业互联网远程恶意代码识别方法 Active CN113254928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110528821.2A CN113254928B (zh) 2021-05-14 2021-05-14 基于工业互联网远程恶意代码识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110528821.2A CN113254928B (zh) 2021-05-14 2021-05-14 基于工业互联网远程恶意代码识别方法

Publications (2)

Publication Number Publication Date
CN113254928A CN113254928A (zh) 2021-08-13
CN113254928B true CN113254928B (zh) 2023-03-17

Family

ID=77181958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110528821.2A Active CN113254928B (zh) 2021-05-14 2021-05-14 基于工业互联网远程恶意代码识别方法

Country Status (1)

Country Link
CN (1) CN113254928B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795732A (zh) * 2019-10-10 2020-02-14 南京航空航天大学 基于SVM的Android移动网络终端恶意代码的动静结合检测方法
CN111222136A (zh) * 2018-11-23 2020-06-02 中兴通讯股份有限公司 恶意应用归类方法、装置、设备及计算机可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102811213A (zh) * 2011-11-23 2012-12-05 北京安天电子设备有限公司 基于模糊哈希算法的恶意代码检测系统及方法
CN106101130B (zh) * 2016-07-08 2019-05-17 北京易华录信息技术股份有限公司 一种网络恶意数据检测方法、装置及系统
CN108334776B (zh) * 2017-01-19 2020-09-04 中国移动通信有限公司研究院 一种变形恶意代码的检测方法及装置
CN108694319B (zh) * 2017-04-06 2021-04-16 武汉安天信息技术有限责任公司 一种恶意代码家族判定方法及装置
CN107992746B (zh) * 2017-12-14 2021-06-25 华中师范大学 恶意行为挖掘方法及装置
CN112632531A (zh) * 2020-12-15 2021-04-09 平安科技(深圳)有限公司 恶意代码的识别方法、装置、计算机设备及介质
CN112580047B (zh) * 2020-12-23 2022-11-04 苏州三六零智能安全科技有限公司 工业恶意代码标记方法、设备、存储介质及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222136A (zh) * 2018-11-23 2020-06-02 中兴通讯股份有限公司 恶意应用归类方法、装置、设备及计算机可读存储介质
CN110795732A (zh) * 2019-10-10 2020-02-14 南京航空航天大学 基于SVM的Android移动网络终端恶意代码的动静结合检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A Study on Analysis of Malicious Codes Similarity Using N-Gram and Vector Space Model";Donghwi Lee等;《2011 International Conference on Information Science and Applications》;20110523;第15-21页 *
"基于ELF静态结构特征的恶意软件检测方法";白金荣 等;《四川大学学报(工程科学版)》;20120920;第44卷(第5期);第109-114页 *

Also Published As

Publication number Publication date
CN113254928A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN109510815B (zh) 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
CN107154950B (zh) 一种日志流异常检测的方法及系统
CN108200054B (zh) 一种基于dns解析的恶意域名检测方法及装置
CN105224600B (zh) 一种样本相似度的检测方法及装置
CN114021040B (zh) 基于业务访问的恶意事件的告警及防护方法和系统
CN109257393A (zh) 基于机器学习的xss攻击防御方法及装置
CN111914257A (zh) 文档检测的方法、装置、设备、及计算机存储介质
CN114885334B (zh) 一种高并发的短信处理方法
CN113127864B (zh) 特征码提取方法、装置、计算机设备和可读存储介质
CN112839014A (zh) 建立识别异常访问者模型的方法、系统、设备及介质
CN114650176A (zh) 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN115396169A (zh) 基于ttp的多步骤攻击检测与场景还原的方法及系统
CN110598397A (zh) 一种基于深度学习的Unix系统用户恶意操作检测方法
CN108959922B (zh) 一种基于贝叶斯网的恶意文档检测方法及装置
CN105468972B (zh) 一种移动终端文件检测方法
CN113254928B (zh) 基于工业互联网远程恶意代码识别方法
CN110162973A (zh) 一种Webshell文件检测方法及装置
CN112073396A (zh) 一种内网横向移动攻击行为的检测方法及装置
CN112883373A (zh) 一种PHP类型的WebShell检测方法及其检测系统
CN112016088A (zh) 生成文件检测模型的方法、装置、检测文件的方法及装置
CN117171570A (zh) 自动采集与治理样本集并在线生成模型实时检测异常命令行行为的方法
CN112073362B (zh) 一种基于流量特征的apt组织流量识别方法
CN111680286B (zh) 物联网设备指纹库的精细化方法
CN112163217B (zh) 恶意软件变种识别方法、装置、设备及计算机存储介质
CN110661750B (zh) 一种邮件发件人身份检测方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant