CN103902905B - 基于软件结构聚类的恶意代码生成器识别方法及系统 - Google Patents

基于软件结构聚类的恶意代码生成器识别方法及系统 Download PDF

Info

Publication number
CN103902905B
CN103902905B CN201310691228.5A CN201310691228A CN103902905B CN 103902905 B CN103902905 B CN 103902905B CN 201310691228 A CN201310691228 A CN 201310691228A CN 103902905 B CN103902905 B CN 103902905B
Authority
CN
China
Prior art keywords
sample
information
timestamp
malicious code
software structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310691228.5A
Other languages
English (en)
Other versions
CN103902905A (zh
Inventor
康学斌
童志明
肖新光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Antiy Technology Group Co Ltd
Original Assignee
Harbin Antiy Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Antiy Technology Co Ltd filed Critical Harbin Antiy Technology Co Ltd
Priority to CN201310691228.5A priority Critical patent/CN103902905B/zh
Publication of CN103902905A publication Critical patent/CN103902905A/zh
Application granted granted Critical
Publication of CN103902905B publication Critical patent/CN103902905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2151Time stamp

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Virology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Stored Programmes (AREA)
  • Debugging And Monitoring (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提供了一种软件结构聚类的恶意代码生成器识别方法及系统。本发明的方法通过找到相同时间戳的样本,并提取相同时间戳样本的软件结构信息构造向量,通过计算Simhash值,找到Simhash距离小于指定值的样本,则能够判断该类样本具有相似的文件结构,为恶意代码生成器生成的代码。同样本发明还给出了相应的系统结构。通过本发明的方法,能够利用生成器与编译产生的软件结构的差异,发现生成器,并利用大规模相似性找到软件结构相似的样本。

Description

基于软件结构聚类的恶意代码生成器识别方法及系统
技术领域
本发明属于计算机网络安全技术领域,特别涉及一种基于软件结构聚类的恶意代码生成器识别方法。
背景技术
计算机网络不断发展,同时也促使了恶意代码发展演变,恶意代码的开发与使用日趋分工明确,很多恶意代码尤其是远程控制工具,控制服务器,域名以及一些版本等都是可配置的,这便是恶意代码生成器所做的工作。恶意代码生成器使编写恶意代码变得简单,因此导致大量恶意代码的产生,危及网络中的用户。
发明内容
本发明提供了一种基于软件结构聚类的恶意代码生成器识别方法及系统,能够有效识别恶意代码生成器产生的恶意代码,进而发现恶意代码生成器模板。
一种基于软件结构聚类的恶意代码生成器识别方法,包括:
提取未知样本的PE结构的时间戳信息;
采用二分法比较样本的时间戳,找到时间戳相同的样本;
判断时间戳相同,MD5值不同的样本数量是否大于5,如果是,则继续执行下一步,否则结束;
提取样本集中各时间戳相同的样本的软件结构信息;
将提取的软件结构信息构造向量,并计算向量的Simhash值;
找到Simhash的距离小于预设值的样本,则判定所述样本具有相似结构,为生成器生成的恶意代码。
通过上述过程找到的生成器生成的恶意代码,则能够根据任意样本做出、得到恶意代码生成器的模板。
所述的方法中,所述的软件结构信息为:PE文件头、PE入口点、PE节信息、PE节大小、版本信息、尾部数据、字符串信息。
一种基于软件结构聚类的恶意代码生成器识别系统,包括:
数据提取模块,用于提取未知样本的PE结构的时间戳信息;
比较模块,用于采用二分法比较样本的时间戳,找到时间戳相同的样本;
选择模块,用于判断时间戳相同,MD5值不同的样本数量是否大于5,如果是,则继续信息提取,否则结束;
信息提取模块,用于提取各时间戳相同的样本的软件结构信息;
计算模块,用于将提取的软件结构信息构造向量,并计算向量的Simhash值;
判定模块,用于找到Simhash的距离小于预设值的样本,则判定所述样本具有相似结构,为生成器生成的恶意代码。
所述的系统中,所述的软件结构信息为:PE文件头、PE入口点、PE节信息、PE节大小、版本信息、尾部数据、字符串信息。
本发明主要依据生成器产生的恶意代码与开发编译产生的正常程序的显著差异,来发现生成器。恶意代码生成器由于需要传播的简便性,远程控制等恶意代码的配置信息一般有生成器产生,写入到控制代码当中,这样导致了更改有一个信息后,恶意代码的MD5就发生了变化,而普通的软件开发中,MD5变化一般是对代码重新编译产生,而重新编译又会带来很多新的变化,特别是时间戳。对于正常软件来说,时间戳可能相同,但软件结构不相似,而相似的软件结构同时具有相同时间戳,则主要是恶意生成器产生的代码。因此本发明通过找到时间戳相同的样本,判断其结构是否相似,若结构相似,则能够说明为恶意代码生成器生成的恶意代码。
本发明提供了一种软件结构聚类的恶意代码生成器识别方法及系统。本发明的方法通过找到相同时间戳的样本,并提取相同时间戳样本的软件结构信息构造向量,通过计算Simhash值,找到Simhash距离小于指定值的样本,则能够判断该类样本具有相似的文件结构,为恶意代码生成器生成的代码。同样本发明还给出了相应的系统结构。通过本发明的方法,能够利用生成器与编译产生的软件结构的差异,发现生成器,并利用大规模相似性找到软件结构相似的样本。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明软件结构聚类的恶意代码生成器识别方法流程图;
图2为本发明软件结构聚类的恶意代码生成器识别系统结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明。
本发明提供了一种基于软件结构聚类的恶意代码生成器识别方法及系统,能够有效识别恶意代码生成器产生的恶意代码,进而发现恶意代码生成器模板。
一种基于软件结构聚类的恶意代码生成器识别方法,如图1所示,包括:
S101:提取未知样本的PE结构的时间戳信息;
S102:采用二分法比较样本的时间戳,找到时间戳相同的样本;
S103:判断时间戳相同,MD5值不同的样本数量是否大于5,如果是,则继续执行下一步,否则结束;
S104:提取样本集中各时间戳相同的样本的软件结构信息;
S105:将提取的软件结构信息构造向量,并计算向量的Simhash值;
S106:找到Simhash的距离小于预设值的样本,则判定所述样本具有相似结构,为生成器生成的恶意代码。
通过上述过程找到的生成器生成的恶意代码,则能够根据任意样本做出、得到恶意代码生成器的模板。
所述的方法中,所述的软件结构信息为:PE文件头、PE入口点、PE节信息、PE节大小、版本信息、尾部数据、字符串信息。
一种基于软件结构聚类的恶意代码生成器识别系统,如图2所示,包括:
数据提取模块201,用于提取未知样本的PE结构的时间戳信息;
比较模块202,用于采用二分法比较样本的时间戳,找到时间戳相同的样本;
选择模块203,用于判断时间戳相同,MD5值不同的样本数量是否大于5,如果是,则继续信息提取,否则结束;
信息提取模块204,用于提取各时间戳相同的样本的软件结构信息;
计算模块205,用于将提取的软件结构信息构造向量,并计算向量的Simhash值;
判定模块206,用于找到Simhash的距离小于预设值的样本,则判定所述样本具有相似结构,为生成器生成的恶意代码。
所述的系统中,所述的软件结构信息为:PE文件头、PE入口点、PE节信息、PE节大小、版本信息、尾部数据、字符串信息。
本发明主要依据生成器产生的恶意代码与开发编译产生的正常程序的显著差异,来发现生成器。恶意代码生成器由于需要传播的简便性,远程控制等恶意代码的配置信息一般有生成器产生,写入到控制代码当中,这样导致了更改有一个信息后,恶意代码的MD5就发生了变化,而普通的软件开发中,MD5变化一般是对代码重新编译产生,而重新编译又会带来很多新的变化,特别是时间戳。对于正常软件来说,时间戳可能相同,但软件结构不相似,而相似的软件结构同时具有相同时间戳,则主要是恶意生成器产生的代码。因此本发明通过找到时间戳相同的样本,判断其结构是否相似,若结构相似,则能够说明为恶意代码生成器生成的恶意代码。
本发明提供了一种软件结构聚类的恶意代码生成器识别方法及系统。本发明的方法通过找到相同时间戳的样本,并提取相同时间戳样本的软件结构信息构造向量,通过计算Simhash值,找到Simhash距离小于指定值的样本,则能够判断该类样本具有相似的文件结构,为恶意代码生成器生成的代码。同样本发明还给出了相应的系统结构。通过本发明的方法,能够利用生成器与编译产生的软件结构的差异,发现生成器,并利用大规模相似性找到软件结构相似的样本。
虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

Claims (4)

1.一种基于软件结构聚类的恶意代码生成器识别方法,其特征在于,包括:
提取未知样本的PE结构的时间戳信息;
采用二分法比较样本的时间戳,找到时间戳相同的样本;
判断时间戳相同,MD5值不同的样本数量是否大于5,如果是,则继续执行下一步,否则结束;
提取样本集中各时间戳相同的样本的软件结构信息;
将提取的软件结构信息构造向量,并计算向量的Simhash值;
找到Simhash的距离小于预设值的样本,则判定所述样本具有相似结构,为生成器生成的恶意代码。
2.如权利要求1所述的方法,其特征在于,所述的软件结构信息为:PE文件头、PE入口点、PE节信息、PE节大小、版本信息、尾部数据、字符串信息。
3.一种基于软件结构聚类的恶意代码生成器识别系统,其特征在于,包括:
数据提取模块,用于提取未知样本的PE结构的时间戳信息;
比较模块,用于采用二分法比较样本的时间戳,找到时间戳相同的样本;
选择模块,用于判断时间戳相同,MD5值不同的样本数量是否大于5,如果是,则继续信息提取,否则结束;
信息提取模块,用于提取各时间戳相同的样本的软件结构信息;
计算模块,用于将提取的软件结构信息构造向量,并计算向量的Simhash值;
判定模块,用于找到Simhash的距离小于预设值的样本,则判定所述样本具有相似结构,为生成器生成的恶意代码。
4.如权利要求3所述的系统,其特征在于,所述的软件结构信息为:PE文件头、PE入口点、PE节信息、PE节大小、版本信息、尾部数据、字符串信息。
CN201310691228.5A 2013-12-17 2013-12-17 基于软件结构聚类的恶意代码生成器识别方法及系统 Active CN103902905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310691228.5A CN103902905B (zh) 2013-12-17 2013-12-17 基于软件结构聚类的恶意代码生成器识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310691228.5A CN103902905B (zh) 2013-12-17 2013-12-17 基于软件结构聚类的恶意代码生成器识别方法及系统

Publications (2)

Publication Number Publication Date
CN103902905A CN103902905A (zh) 2014-07-02
CN103902905B true CN103902905B (zh) 2017-02-15

Family

ID=50994217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310691228.5A Active CN103902905B (zh) 2013-12-17 2013-12-17 基于软件结构聚类的恶意代码生成器识别方法及系统

Country Status (1)

Country Link
CN (1) CN103902905B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512555B (zh) * 2014-12-12 2018-05-25 哈尔滨安天科技股份有限公司 基于文件字符串聚类的划分同源家族和变种的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7257841B2 (en) * 2001-03-26 2007-08-14 Fujitsu Limited Computer virus infection information providing method, computer virus infection information providing system, infection information providing apparatus, and computer memory product
CN101162485A (zh) * 2006-10-11 2008-04-16 飞塔信息科技(北京)有限公司 一种计算机恶意代码处理方法和系统
CN101470620A (zh) * 2007-12-29 2009-07-01 珠海金山软件股份有限公司 Pe文件源代码一致性的判定方法及装置
US8166544B2 (en) * 2007-11-09 2012-04-24 Polytechnic Institute Of New York University Network-based infection detection using host slowdown
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
CN103221960A (zh) * 2012-12-10 2013-07-24 华为技术有限公司 恶意代码的检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7257841B2 (en) * 2001-03-26 2007-08-14 Fujitsu Limited Computer virus infection information providing method, computer virus infection information providing system, infection information providing apparatus, and computer memory product
CN101162485A (zh) * 2006-10-11 2008-04-16 飞塔信息科技(北京)有限公司 一种计算机恶意代码处理方法和系统
US8166544B2 (en) * 2007-11-09 2012-04-24 Polytechnic Institute Of New York University Network-based infection detection using host slowdown
CN101470620A (zh) * 2007-12-29 2009-07-01 珠海金山软件股份有限公司 Pe文件源代码一致性的判定方法及装置
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
CN103221960A (zh) * 2012-12-10 2013-07-24 华为技术有限公司 恶意代码的检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于特征聚类的海量恶意代码在线自动分析模型;徐小琳,等;《通信学报》;20130831;第34卷(第8期);论文第148-150页 *

Also Published As

Publication number Publication date
CN103902905A (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
TWI729472B (zh) 特徵詞的確定方法、裝置和伺服器
CN111563509B (zh) 一种基于tesseract的变电站端子排识别方法及系统
MY195917A (en) Blockchain-Based Data Processing Method And Device
CN105205397B (zh) 恶意程序样本分类方法及装置
CN103679012A (zh) 一种可移植可执行文件的聚类方法和装置
CN110110075A (zh) 网页分类方法、装置以及计算机可读存储介质
CN102243699A (zh) 一种恶意代码检测方法及系统
CN104834717A (zh) 一种基于网页聚类的Web信息自动抽取方法
NZ757969A (en) Quantifying robustness by analyzing a property graph data model
CN105183742A (zh) 一种简历识别方法
CN103914657A (zh) 一种基于函数特征的恶意程序检测方法
CN110321142A (zh) 一种接口文档更新方法、装置、电子设备及存储介质
CN105183476A (zh) 一种跨平台应用程序的构建方法和装置
CN105404757A (zh) 一种智能变电站scd文件标准化程度的校验方法
CN113204465A (zh) 一种基于执行跟踪的微服务提取方法
CN105426305A (zh) 一种控件属性解析系统及方法
CN113407495A (zh) 一种基于simhash的文件相似度判定方法及系统
CN110399485B (zh) 基于词向量和机器学习的数据溯源方法和系统
CN103440197B (zh) 一种基于对比测试自动生成差异测试报告的方法
CN111104159A (zh) 一种基于程序分析和神经网络的注释定位方法
CN106802958A (zh) Cad数据到gis数据的转换方法及系统
CN104636324B (zh) 话题溯源方法和系统
CN103902905B (zh) 基于软件结构聚类的恶意代码生成器识别方法及系统
CN103729197A (zh) 一种基于lda模型的多粒度层次软件聚类方法
CN104750812A (zh) 一种基于网页标签分析的数据自动采集方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Malicious code generator identification method and system based on software structure cluster

Effective date of registration: 20170621

Granted publication date: 20170215

Pledgee: Bank of Longjiang, Limited by Share Ltd, Harbin Limin branch

Pledgor: Harbin Antiy Technology Co., Ltd.

Registration number: 2017110000004

PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20190614

Granted publication date: 20170215

Pledgee: Bank of Longjiang, Limited by Share Ltd, Harbin Limin branch

Pledgor: Harbin Antiy Technology Co., Ltd.

Registration number: 2017110000004

PC01 Cancellation of the registration of the contract for pledge of patent right
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 150028 Building 7, Innovation Plaza, Science and Technology Innovation City, Harbin Hi-tech Industrial Development Zone, Heilongjiang Province (838 Shikun Road)

Patentee after: Harbin antiy Technology Group Limited by Share Ltd

Address before: 150090 room 506, Hongqi Street, Nangang District, Harbin Development Zone, Heilongjiang, China, 162

Patentee before: Harbin Antiy Technology Co., Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Malicious code generator identification method and system based on software structure cluster

Effective date of registration: 20190828

Granted publication date: 20170215

Pledgee: Bank of Longjiang, Limited by Share Ltd, Harbin Limin branch

Pledgor: Harbin antiy Technology Group Limited by Share Ltd

Registration number: Y2019230000002

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 150028 building 7, innovation and entrepreneurship square, science and technology innovation city, Harbin high tech Industrial Development Zone, Heilongjiang Province (No. 838, Shikun Road)

Patentee after: Antan Technology Group Co.,Ltd.

Address before: 150028 building 7, innovation and entrepreneurship square, science and technology innovation city, Harbin high tech Industrial Development Zone, Heilongjiang Province (No. 838, Shikun Road)

Patentee before: Harbin Antian Science and Technology Group Co.,Ltd.

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20211119

Granted publication date: 20170215

Pledgee: Bank of Longjiang Limited by Share Ltd. Harbin Limin branch

Pledgor: Harbin Antian Science and Technology Group Co.,Ltd.

Registration number: Y2019230000002