CN109784059B - 一种木马文件溯源方法、系统及设备 - Google Patents

一种木马文件溯源方法、系统及设备 Download PDF

Info

Publication number
CN109784059B
CN109784059B CN201910030096.9A CN201910030096A CN109784059B CN 109784059 B CN109784059 B CN 109784059B CN 201910030096 A CN201910030096 A CN 201910030096A CN 109784059 B CN109784059 B CN 109784059B
Authority
CN
China
Prior art keywords
file
label
trojan
gene
fingerprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910030096.9A
Other languages
English (en)
Other versions
CN109784059A (zh
Inventor
刘庆林
魏海宇
刘海洋
吴小勇
白应东
熊文砚
谢辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zorelworld Information Technology Co ltd
Original Assignee
Beijing Zorelworld Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zorelworld Information Technology Co ltd filed Critical Beijing Zorelworld Information Technology Co ltd
Priority to CN201910030096.9A priority Critical patent/CN109784059B/zh
Publication of CN109784059A publication Critical patent/CN109784059A/zh
Application granted granted Critical
Publication of CN109784059B publication Critical patent/CN109784059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种木马文件溯源方法、系统及设备,通过三因子模型分析从多角度、多形态、多层次刻画了木马文件的基因特征,为木马文件溯源提供了更全面、更精准的木马指纹数据,提高了木马文件的分析、识别能力,为木马文件溯源提供了更完备的数据资源。并且与云端黑客指纹档案库联动,能够结合黑客组织的行为习惯,进行木马文件的关联与溯源,拓展了木马文件的分析维度,能够识别隐藏更深、设计更巧的木马文件并溯源。另外,采用多源数据综合评判的木马文件溯源方法,真正实现了多源数据的融合、关联与应用,能够识别高级别、复杂木马样本,具备更精准的判定和溯源能力。

Description

一种木马文件溯源方法、系统及设备
技术领域
本发明涉及木马文件溯源技术领域,具体涉及一种木马文件溯源方法、系统及设备。
背景技术
木马文件溯源,当前主要有两种主流技术方法,一是特征匹配分析方法,二是沙箱检测分析方法。特征匹配分析方法,一般通过文件Hash值、木马上线域名、回联地址等关键信息项刻画木马特征,并将其作为关键指标进行木马文件的识别与溯源。沙箱检测分析方法,利用Sandboxie(沙箱,网络编程虚拟执行环境)创造一种按照安全策略限制程序行为的执行环境,当文件在沙箱运行时拦截系统调用监视程序运行状态,当发现文件执行的操作与文件正常行为不一致时,如打开后缀.doc的文件出现install操作,记录可疑行为,并将此作为木马文件的判定溯源依据。
随着木马技术的发展,现有溯源技术方法已不能有效识别进行了特征混淆、加壳免杀、防护规避处理的木马文件。目前的木马文件溯源技术存在以下不足:
1、检测来源单一:检测依据和指标来源于从木马文件中抽取的有限的静态特征集合,来源单一。
2、检测手段简单:沙箱方法支持动态检测,但检测手段不够全面。通过不一致操作识别可疑行为的方法会存在漏报、误报,影响检测结果,需进行更全面的行为分析才能够保证动态检测的有效性。
3、溯源方法落后:不能结合黑客组织的行为习惯进行木马文件溯源,不能实现精准定位溯源。
4、数据孤立使用:缺乏各特征集合的数据关联和融合,不能实现数据综合分析。
5、缺乏有效的自学习机制,不具备大数据样本训练和实时动态调整能力。
发明内容
本发明实施例的目的在于提供一种木马文件溯源方法、系统及设备,用以解决现有木马文件溯源技术由于检测来源单一、检测手段简单、溯源方法落后、数据孤立使用导致不能有效识别进行了特征混淆、加壳免杀、防护规避处理的木马文件的问题。
为实现上述目的,本发明实施例提供了一种木马文件溯源方法,所述方法包括:接收新采样木马文件;对新采样木马文件进行样本数据解析;提取标签项作为木马文件基因特征;及将提取的标签项发送至云端威胁情报中心服务器进行三因子模型分析与综合评判,判明采样木马文件的基因属性和来源。
本发明实施例具有如下优点:将三因子模型分析与综合评判以及判明采样木马文件的基因属性和来源放在云端,极大地提高了木马文件的采样以及样本数据解析以提取标签项的速度及效率。
本发明实施例还提供的一种木马文件溯源方法,所述方法包括:从木马文件基因特征提取终端接收提取的标签项;从多源信息库获取多源数据信息,所述多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征;依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析,形成新的木马文件基因;采用多源数据综合评判算法进行综合评判打分和阈值计算,输出计算结果判明新采样木马文件的基因属性;及访问云端黑客指纹档案库获取黑客组织信息和木马基因数据,判明新采样木马文件的来源;其中,所述采用多源数据综合评判算法进行综合评判打分和阈值计算之前,所述方法包括,基于新的木马文件基因进行多源数据融合。
本发明实施例具有如下优点:通过三因子模型分析从多角度、多形态、多层次刻画了木马文件的基因特征,为木马文件溯源提供了更全面、更精准的木马指纹数据,提高了木马文件的分析、识别能力,为木马文件溯源提供了更完备的数据资源。并且与云端黑客指纹档案库联动,能够结合黑客组织的行为习惯,进行木马文件的关联与溯源,拓展了木马文件的分析维度,能够识别隐藏更深、设计更巧的木马文件并溯源。另外,采用多源数据综合评判的木马文件溯源方法,真正实现了多源数据的融合、关联与应用,能够识别高级别、复杂木马样本,具备更精准的判定和溯源能力。
本发明实施例的另外一方面,还提供了一种木马文件溯源系统,所述系统应用于木马文件基因特征提取终端,所述木马文件基因特征提取终端与云端威胁情报中心服务器通过有线或无线网络通信连接,所述系统包括:采样模块,用于接收新采样木马文件;样本数据解析模块,用于对新采样木马文件进行样本数据解析;基因特征提取模块,用于提取标签项作为木马文件基因特征;及特征数据发送模块,用于将提取的标签项发送至云端威胁情报中心服务器进行三因子模型分析与综合评判,判明采样木马文件的基因属性和来源。
本发明实施例具有如下优点:将三因子模型分析与综合评判以及判明采样木马文件的基因属性和来源放在云端进行,将木马文件的采样以及样本数据解析以提取标签项单独由木马文件基因特征提取终端执行,使木马文件基因特征提取终端的系统更加简化,极大地提高了木马文件基因特征提取终端的处理速度及工作效率。
本发明实施例的另外一方面,还提供了一种木马文件溯源系统,所述系统应用于云端威胁情报中心服务器,所述云端威胁情报中心服务器分别与木马文件基因特征提取终端、云端黑客指纹档案库通过有线或无线网络通信连接,所述云端威胁情报中心服务器与多源信息库通过有线或无线网络通信连接或所述云端威胁情报中心服务器中内嵌有多源信息库,所述系统包括:特征数据接收单元,用于从木马文件基因特征提取终端接收提取的标签项;多源数据信息获取单元,用于从多源信息库获取多源数据信息,所述多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征;三因子模型分析单元,用于依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析,形成新的木马文件基因;综合评判单元,用于基于新的木马文件基因进行多源数据融合;并采用多源数据综合评判算法进行综合评判打分和阈值计算,输出计算结果判明新采样木马文件的基因属性;及溯源单元,用于访问云端黑客指纹档案库获取黑客组织信息和木马基因数据,判明新采样木马文件的来源。
本发明实施例具有如下优点:通过三因子模型分析从多角度、多形态、多层次刻画了木马文件的基因特征,为木马文件溯源提供了更全面、更精准的木马指纹数据,提高了木马文件的分析、识别能力,为木马文件溯源提供了更完备的数据资源。并且与云端黑客指纹档案库联动,能够结合黑客组织的行为习惯,进行木马文件的关联与溯源,拓展了木马文件的分析维度,能够识别隐藏更深、设计更巧的木马文件并溯源。另外,采用多源数据综合评判的木马文件溯源方法,真正实现了多源数据的融合、关联与应用,能够识别高级别、复杂木马样本,使应用于云端威胁情报中心服务器的系统具备更精准的判定和溯源能力。
本发明公开的实施例的另外一方面,还提供了一种木马文件溯源设备,所述设备包括:木马文件基因特征提取终端,所述木马文件基因特征提取终端存储有计算机程序指令,所述计算机程序指令用于执行如下所述的方法:接收新采样木马文件;对新采样木马文件进行样本数据解析;提取标签项作为木马文件基因特征;及将提取的标签项发送至云端威胁情报中心服务器进行三因子模型分析与综合评判,判明采样木马文件的基因属性和来源;
云端威胁情报中心服务器,所述云端威胁情报中心服务器存储有计算机程序指令,所述计算机程序指令用于执行如下所述的方法:从木马文件基因特征提取终端接收提取的标签项;从多源信息库获取多源数据信息,所述多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征;依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析,形成新的木马文件基因;采用多源数据综合评判算法进行综合评判打分和阈值计算,输出计算结果判明新采样木马文件的基因属性;及访问云端黑客指纹档案库获取黑客组织信息和木马基因数据,判明新采样木马文件的来源;其中,所述采用多源数据综合评判算法进行综合评判打分和阈值计算之前,所述方法包括,基于新的木马文件基因进行多源数据融合;
多源信息库,所述多源信息库中存储有多源数据信息,所述多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征;及
云端黑客指纹档案库,所述云端黑客指纹档案库中存储有黑客组织信息、木马基因数据及木马文件基因与木马文件来源之间映射关系表;
其中,所述云端威胁情报中心服务器分别与所述木马文件基因特征提取终端、所述云端黑客指纹档案库通过有线或无线网络通信连接,所述云端威胁情报中心服务器与所述多源信息库通过有线或无线网络通信连接或所述云端威胁情报中心服务器中内嵌有所述多源信息库。
本发明实施例具有如下优点:由木马文件基因特征提取终端单独执行木马文件的采样以及样本数据解析以提取标签项;由云端威胁情报中心服务器与多源信息库进行通信,通过三因子模型分析从多角度、多形态、多层次刻画了木马文件的基因特征,为木马文件溯源提供了更全面、更精准的木马指纹数据,提高了木马文件的分析、识别能力,为木马文件溯源提供了更完备的数据资源。并且与云端黑客指纹档案库联动,能够结合黑客组织的行为习惯,进行木马文件的关联与溯源,拓展了木马文件的分析维度,能够识别隐藏更深、设计更巧的木马文件并溯源。另外,由云端威胁情报中心服务器采用多源数据综合评判的木马文件溯源方法,真正实现了多源数据的融合、关联与应用,能够识别高级别、复杂木马样本,使具备更精准的判定和溯源能力。本发明实施例提供的一种木马文件溯源设备各个部分结构合理,优化了木马文件溯源处理方案,极大地提高了木马文件溯源处理的准确率、速度及工作效率。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的一种木马文件溯源设备的逻辑结构示意图。
图2为本发明实施例提供的应用于木马文件基因特征提取终端的一种木马文件溯源系统的逻辑结构示意图。
图3为本发明实施例提供的应用于木马文件基因特征提取终端的一种木马文件溯源方法的流程示意图。
图4为本发明实施例提供的应用于云端威胁情报中心服务器的一种木马文件溯源系统的逻辑结构示意图。
图5为本发明实施例提供的应用于云端威胁情报中心服务器的一种木马文件溯源方法的流程示意图。
图6为本发明实施例提供的应用于云端威胁情报中心服务器的一种木马文件溯源系统的逻辑结构示意图。
1-木马文件基因特征提取终端、11-采样模块、12-样本数据解析模块、13-基因特征提取模块、14-特征数据发送模块、2-云端威胁情报中心服务器、21-溯源训练模块、22-溯源分析模块、221-特征数据接收单元、222-多源数据信息获取单元、223-三因子模型分析单元、224-综合评判单元、225-溯源单元、3-多源信息库、4-云端黑客指纹档案库。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
参考图1,本发明实施例提出的一种木马文件溯源设备包括:木马文件基因特征提取终端1、云端威胁情报中心服务器2、多源信息库3和云端黑客指纹档案库4;其中,云端威胁情报中心服务器2分别与木马文件基因特征提取终端1、云端黑客指纹档案库4通过有线或无线网络通信连接,云端威胁情报中心服务器2与多源信息库3通过有线或无线网络通信连接或云端威胁情报中心服务器2中内嵌有多源信息库3。
木马文件基因特征提取终端1存储有计算机程序指令,通过计算机程序指令构建了本发明实施例提出的应用于木马文件基因特征提取终端1的一种木马文件溯源系统,参考图2,其包括:采样模块11、样本数据解析模块12、基因特征提取模块13及特征数据发送模块14。具体地,参考图3,木马文件基因特征提取终端1存储的计算机程序指令用于执行如下所述的方法:采样模块11接收新采样木马文件并发送至样本数据解析模块12;样本数据解析模块12对新采样木马文件进行样本数据解析并发送至基因特征提取模块13;基因特征提取模块13提取标签项作为木马文件基因特征并发送至特征数据发送模块14;特征数据发送模块14将提取的标签项发送至云端威胁情报中心服务器进行三因子模型分析与综合评判,判明采样木马文件的基因属性和来源。
本发明实施例具中,将三因子模型分析与综合评判以及判明采样木马文件的基因属性和来源放在云端,将木马文件的采样以及样本数据解析以提取标签项单独由木马文件基因特征提取终端执行,使木马文件基因特征提取终端的系统更加简化,极大地提高了木马文件基因特征提取终端的处理速度及工作效率。
云端威胁情报中心服务器2存储有计算机程序指令,通过计算机程序指令构建了本发明实施例提出的应用于云端威胁情报中心服务器2的一种木马文件溯源系统,参考图4,其包括:特征数据接收单元221、多源数据信息获取单元222、三因子模型分析单元223、综合评判单元224及溯源单元225。具体地,参考图5,云端威胁情报中心服务器2存储的计算机程序指令用于执行如下所述的方法:特征数据接收单元221从木马文件基因特征提取终端1接收提取的标签项并发送至三因子模型分析单元223;多源信息库3中存储有多源数据信息,多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征,多源数据信息获取单元222从多源信息库3获取多源数据信息并发送至三因子模型分析单元223,多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征;三因子模型分析单元223依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析,形成新的木马文件基因并发送至综合评判单元224和溯源单元225;综合评判单元224基于新的木马文件基因进行多源数据融合;并采用多源数据综合评判算法进行综合评判打分和阈值计算,输出计算结果判明新采样木马文件的基因属性;及云端黑客指纹档案库4中存储有黑客组织信息、木马基因数据及木马文件基因与木马文件来源之间映射关系表;溯源单元225访问云端黑客指纹档案库4获取黑客组织信息和木马基因数据,判明新采样木马文件的来源。
进一步地,三因子模型分析单元223依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析,包括:静态指纹分析;隐态指纹分析;及动态行为指纹分析;其中,三因子模型从静态指纹基因、隐态指纹基因和动态行为指纹基因三个角度刻画木马文件的溯源基因,静态指纹基因、隐态指纹基因和所述动态行为指纹基因分别刻画木马文件的静态文件特征、隐态思维特征和动态行为特征。
更进一步地,静态指纹基因包括如下6个标签项:PE文件基本信息标签、编译信息标签、数字签名信息标签、窗口资源信息标签、PDB路径标签、导出函数标签;隐态指纹基因包括如下3个标签项:自有算法标签、功能函数标签、编程习惯及风格标签;及动态行为指纹基因包括如下10个标签项:基础标签、窗口资源标签、注入类型标签、键盘记录标签、网络事件标签、主动攻击标签、自启动标签、自拷贝标签、文件属性标签、系统属性标签。
每个标签项包含一个或多个资源项及木马文件检测及溯源中的若干数据指标,本发明实施例所定义的标签项和主要资源项覆盖木马文件溯源中所有数据指标,为最完备基因集合。各个标签项覆盖的主要数据指标如下列表所述:
Figure BDA0001943465090000091
Figure BDA0001943465090000101
Figure BDA0001943465090000111
Figure BDA0001943465090000121
优选地,参考图6,本发明实施例提出的应用于云端威胁情报中心服务器2的一种木马文件溯源系统还包括:溯源训练模块21和溯源分析模块22;具体地,溯源训练模块21采用机器学习算法进行样本学习和数据调整,原始数据经大量已知样本训练后各项数值趋近最优化形成溯源分析模型;溯源分析模块22通过溯源分析模型对最新木马文件分析结束后,提供木马样本和反馈结果至溯源训练模块21,溯源训练模块21整理数据、调整规则,并实时输出溯源分析模型;及所述系统通过样本分析、样本训练的内部循环自动实现样本处理和新规则学习,完成自动化木马文件检测及溯源;其中,特征数据接收单元221、多源数据信息获取单元222、三因子模型分析单元223、综合评判单元224及溯源单元225集成至溯源分析模块22。
本发明实施例除具备对已知木马文件的溯源能力外,通过增加溯源训练模块,使系统具备了对未知木马的感知、识别能力,成为具备一定学习能力和动态调整能力的自适应闭环木马文件溯源系统。
本发明实施例首次提出三因子模型分析与多源数据综合评判的木马文件溯源方法。三因子分析运用多种技术从多角度、多形态、多层次刻画了木马文件的基因特征,实现了木马文件的全方位解剖与分析。多源数据综合评判保证了多源数据的有效融合、关联,提高了溯源准确性。溯源训练模块,通过机器学习和结果反馈实现了一个系统内部的简单闭环生态系统,使系统具备自学习和自适应能力,能够在运行中自动学习新规则,提高溯源能力,除已知木马外,还可通过基因分析识别发现未知木马并溯源。
本发明实施例定义了木马溯源的三个主要基因项:静态指纹基因、隐态指纹基因和动态行为指纹基因。每个基因定义了多个标签项,静态指纹基因包含6个标签项、隐态指纹基因包含3个标签项、动态行为指纹基因包含10个标签项,每个标签项包含多个数据指标,其中,静态指纹基因的导出函数标签以及隐态指纹基因的自有算法标签、功能函数标签、编程习惯标签均属首次提出。
本发明实施例提出的一种计算机存储介质,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令用于执行如上所述的方法。
在本发明的实施例中,各个模块或系统可以是由计算机程序指令形成的处理器,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(DigitalSignalProcessor,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(FieldProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,简称ROM)、可编程只读存储器(ProgrammableROM,简称PROM)、可擦除可编程只读存储器(ErasablePROM,简称EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(RandomAccessMemory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(StaticRAM,简称SRAM)、动态随机存取存储器(DynamicRAM,简称DRAM)、同步动态随机存取存储器(SynchronousDRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM,简称SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (9)

1.一种木马文件溯源方法,其特征在于,所述方法包括:
接收新采样木马文件;
对新采样木马文件进行样本数据解析;
提取标签项作为木马文件基因特征;及
将提取的标签项发送至云端威胁情报中心服务器进行三因子模型分析与综合评判,判明采样木马文件的基因属性和来源;
所述三因子模型从静态指纹基因、隐态指纹基因和动态行为指纹基因三个角度刻画木马文件的溯源基因,所述静态指纹基因、所述隐态指纹基因和所述动态行为指纹基因分别刻画木马文件的静态文件特征、隐态思维特征和动态行为特征;所述静态指纹基因包括如下6个标签项:PE文件基本信息标签、编译信息标签、数字签名信息标签、窗口资源信息标签、PDB路径标签、导出函数标签;所述隐态指纹基因包括如下3个标签项:自有算法标签、功能函数标签、编程习惯及风格标签;及所述动态行为指纹基因包括如下10个标签项:基础标签、窗口资源标签、注入类型标签、键盘记录标签、网络事件标签、主动攻击标签、自启动标签、自拷贝标签、文件属性标签、系统属性标签。
2.一种木马文件溯源方法,其特征在于,所述方法包括:
从木马文件基因特征提取终端接收提取的标签项;
从多源信息库获取多源数据信息,所述多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征;
依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析,形成新的木马文件基因;所述三因子模型从静态指纹基因、隐态指纹基因和动态行为指纹基因三个角度刻画木马文件的溯源基因,所述静态指纹基因、所述隐态指纹基因和所述动态行为指纹基因分别刻画木马文件的静态文件特征、隐态思维特征和动态行为特征;所述静态指纹基因包括如下6个标签项:PE文件基本信息标签、编译信息标签、数字签名信息标签、窗口资源信息标签、PDB路径标签、导出函数标签;所述隐态指纹基因包括如下3个标签项:自有算法标签、功能函数标签、编程习惯及风格标签;及所述动态行为指纹基因包括如下10个标签项:基础标签、窗口资源标签、注入类型标签、键盘记录标签、网络事件标签、主动攻击标签、自启动标签、自拷贝标签、文件属性标签、系统属性标签;
采用多源数据综合评判算法进行综合评判打分和阈值计算,输出计算结果判明新采样木马文件的基因属性;及
访问云端黑客指纹档案库获取黑客组织信息和木马基因数据,判明新采样木马文件的来源;
其中,所述采用多源数据综合评判算法进行综合评判打分和阈值计算之前,所述方法包括,基于新的木马文件基因进行多源数据融合。
3.如权利要求2所述的方法,其特征在于,所述依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析,包括:
静态指纹分析;
隐态指纹分析;及
动态行为指纹分析。
4.如权利要求3所述的方法,其特征在于,每个标签项包含一个或多个资源项及木马文件检测及溯源中的若干数据指标,各个标签项覆盖的主要数据指标如下列表所述:
Figure FDA0002617618790000021
Figure FDA0002617618790000031
Figure FDA0002617618790000041
Figure FDA0002617618790000051
5.如权利要求2至4中任一项所述的方法,其特征在于,所述方法还包括:
采用机器学习算法进行样本学习和数据调整,原始数据经大量已知样本训练后各项数值趋近最优化形成溯源分析模型;
通过溯源分析模型对最新木马文件分析结束后,提供木马样本和反馈结果至样本训练,整理数据、调整规则,并实时输出溯源分析模型;及
通过样本分析、样本训练的内部循环自动实现样本处理和新规则学习,完成自动化木马文件检测及溯源。
6.一种木马文件溯源系统,其特征在于,所述系统应用于木马文件基因特征提取终端,所述木马文件基因特征提取终端与云端威胁情报中心服务器通过有线或无线网络通信连接,所述系统包括:
采样模块,用于接收新采样木马文件;
样本数据解析模块,用于对新采样木马文件进行样本数据解析;
基因特征提取模块,用于提取标签项作为木马文件基因特征;及
特征数据发送模块,用于将提取的标签项发送至云端威胁情报中心服务器进行三因子模型分析与综合评判,判明采样木马文件的基因属性和来源;
所述三因子模型从静态指纹基因、隐态指纹基因和动态行为指纹基因三个角度刻画木马文件的溯源基因,所述静态指纹基因、所述隐态指纹基因和所述动态行为指纹基因分别刻画木马文件的静态文件特征、隐态思维特征和动态行为特征;所述静态指纹基因包括如下6个标签项:PE文件基本信息标签、编译信息标签、数字签名信息标签、窗口资源信息标签、PDB路径标签、导出函数标签;所述隐态指纹基因包括如下3个标签项:自有算法标签、功能函数标签、编程习惯及风格标签;及所述动态行为指纹基因包括如下10个标签项:基础标签、窗口资源标签、注入类型标签、键盘记录标签、网络事件标签、主动攻击标签、自启动标签、自拷贝标签、文件属性标签、系统属性标签。
7.一种木马文件溯源系统,其特征在于,所述系统应用于云端威胁情报中心服务器,所述云端威胁情报中心服务器分别与木马文件基因特征提取终端、云端黑客指纹档案库通过有线或无线网络通信连接,所述云端威胁情报中心服务器与多源信息库通过有线或无线网络通信连接或所述云端威胁情报中心服务器中内嵌有多源信息库,所述系统包括:
特征数据接收单元,用于从木马文件基因特征提取终端接收提取的标签项;
多源数据信息获取单元,用于从多源信息库获取多源数据信息,所述多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征;
三因子模型分析单元,用于依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析,形成新的木马文件基因;所述三因子模型从静态指纹基因、隐态指纹基因和动态行为指纹基因三个角度刻画木马文件的溯源基因,所述静态指纹基因、所述隐态指纹基因和所述动态行为指纹基因分别刻画木马文件的静态文件特征、隐态思维特征和动态行为特征;所述静态指纹基因包括如下6个标签项:PE文件基本信息标签、编译信息标签、数字签名信息标签、窗口资源信息标签、PDB路径标签、导出函数标签;所述隐态指纹基因包括如下3个标签项:自有算法标签、功能函数标签、编程习惯及风格标签;及所述动态行为指纹基因包括如下10个标签项:基础标签、窗口资源标签、注入类型标签、键盘记录标签、网络事件标签、主动攻击标签、自启动标签、自拷贝标签、文件属性标签、系统属性标签;
综合评判单元,用于基于新的木马文件基因进行多源数据融合;并采用多源数据综合评判算法进行综合评判打分和阈值计算,输出计算结果判明新采样木马文件的基因属性;及
溯源单元,用于访问云端黑客指纹档案库获取黑客组织信息和木马基因数据,判明新采样木马文件的来源。
8.如权利要求7所述的系统,其特征在于,所述系统还包括:溯源训练模块和溯源分析模块;
所述溯源训练模块采用机器学习算法进行样本学习和数据调整,原始数据经大量已知样本训练后各项数值趋近最优化形成溯源分析模型;
所述溯源分析模块通过溯源分析模型对最新木马文件分析结束后,提供木马样本和反馈结果至所述溯源训练模块,所述溯源训练模块整理数据、调整规则,并实时输出溯源分析模型;及
所述系统通过样本分析、样本训练的内部循环自动实现样本处理和新规则学习,完成自动化木马文件检测及溯源;
其中,所述特征数据接收单元、所述多源数据信息获取单元、所述三因子模型分析单元、所述综合评判单元及所述溯源单元集成至所述溯源分析模块。
9.一种木马文件溯源设备,其特征在于,所述设备包括:
木马文件基因特征提取终端,所述木马文件基因特征提取终端存储有计算机程序指令,所述计算机程序指令用于执行如权利要求1所述的方法;
云端威胁情报中心服务器,所述云端威胁情报中心服务器存储有计算机程序指令,所述计算机程序指令用于执行如权利要求2-5中任一项所述的方法;
多源信息库,所述多源信息库中存储有多源数据信息,所述多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征;及
云端黑客指纹档案库,所述云端黑客指纹档案库中存储有黑客组织信息、木马基因数据及木马文件基因与木马文件来源之间映射关系表;
其中,所述云端威胁情报中心服务器分别与所述木马文件基因特征提取终端、所述云端黑客指纹档案库通过有线或无线网络通信连接,所述云端威胁情报中心服务器与所述多源信息库通过有线或无线网络通信连接或所述云端威胁情报中心服务器中内嵌有所述多源信息库。
CN201910030096.9A 2019-01-11 2019-01-11 一种木马文件溯源方法、系统及设备 Active CN109784059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910030096.9A CN109784059B (zh) 2019-01-11 2019-01-11 一种木马文件溯源方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910030096.9A CN109784059B (zh) 2019-01-11 2019-01-11 一种木马文件溯源方法、系统及设备

Publications (2)

Publication Number Publication Date
CN109784059A CN109784059A (zh) 2019-05-21
CN109784059B true CN109784059B (zh) 2020-11-17

Family

ID=66500330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910030096.9A Active CN109784059B (zh) 2019-01-11 2019-01-11 一种木马文件溯源方法、系统及设备

Country Status (1)

Country Link
CN (1) CN109784059B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131571B (zh) * 2020-11-20 2021-03-19 腾讯科技(深圳)有限公司 威胁溯源方法及相关设备
CN112307301B (zh) * 2020-11-25 2024-04-26 北京北信源软件股份有限公司 基于网络数据分析溯源的规则调整方法及装置
CN113761912B (zh) * 2021-08-09 2024-04-16 国家计算机网络与信息安全管理中心 一种对恶意软件归属攻击组织的可解释判定方法及装置
CN114662111B (zh) * 2022-05-18 2022-08-09 成都数默科技有限公司 一种恶意代码软件基因同源性分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679027A (zh) * 2013-12-05 2014-03-26 北京奇虎科技有限公司 内核级恶意软件查杀的方法和装置
CN104063259A (zh) * 2014-06-05 2014-09-24 中国人民解放军信息工程大学 基于程序文法的指令集类型识别方法
CN107180191A (zh) * 2017-05-03 2017-09-19 北京理工大学 一种基于半监督学习的恶意代码分析方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9992214B1 (en) * 2016-03-28 2018-06-05 Palo Alto Networks, Inc. Generating malware signatures based on developer fingerprints in debug information
CN109063479A (zh) * 2018-07-24 2018-12-21 王超 一种木马感染终端的网络定位方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679027A (zh) * 2013-12-05 2014-03-26 北京奇虎科技有限公司 内核级恶意软件查杀的方法和装置
CN104063259A (zh) * 2014-06-05 2014-09-24 中国人民解放军信息工程大学 基于程序文法的指令集类型识别方法
CN107180191A (zh) * 2017-05-03 2017-09-19 北京理工大学 一种基于半监督学习的恶意代码分析方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《多特征分类识别算法融合的网络钓鱼识别技术》;徐欢潇等;《计算机应用研究》;20170430;第4卷(第4期);1129-1132 *

Also Published As

Publication number Publication date
CN109784059A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109784059B (zh) 一种木马文件溯源方法、系统及设备
EP3651043B1 (en) Url attack detection method and apparatus, and electronic device
CN107204960B (zh) 网页识别方法及装置、服务器
CN107659570A (zh) 基于机器学习与动静态分析的Webshell检测方法及系统
CN104123500B (zh) 一种基于深度学习的Android平台恶意应用检测方法及装置
CN108156131B (zh) Webshell检测方法、电子设备和计算机存储介质
CN109905385B (zh) 一种webshell检测方法、装置及系统
Mehtab et al. AdDroid: rule-based machine learning framework for android malware analysis
Zhu et al. Android malware detection based on multi-head squeeze-and-excitation residual network
CN110135157A (zh) 恶意软件同源性分析方法、系统、电子设备及存储介质
CN108229170B (zh) 利用大数据和神经网络的软件分析方法和装置
CN111881447B (zh) 恶意代码片段智能取证方法及系统
CN107688743A (zh) 一种恶意程序的检测分析方法及系统
CN110765459A (zh) 一种恶意脚本检测方法、装置和存储介质
CN104202291A (zh) 基于多因素综合评定方法的反钓鱼方法
CN111092894A (zh) 一种基于增量学习的webshell检测方法、终端设备及存储介质
CN107330079B (zh) 基于人工智能呈现辟谣信息的方法和装置
CN111090860A (zh) 一种基于深度学习的代码漏洞检测方法及装置
Qiu et al. Predicting the impact of android malicious samples via machine learning
CN111371757B (zh) 恶意通信检测方法、装置、计算机设备和存储介质
CN112817877B (zh) 异常脚本检测方法、装置、计算机设备和存储介质
CN114285587A (zh) 域名鉴别方法和装置、域名分类模型的获取方法和装置
CN111125704A (zh) 一种网页挂马识别方法及系统
CN111475812B (zh) 一种基于数据可执行特征的网页后门检测方法与系统
CN107229865B (zh) 一种解析Webshell入侵原因的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant