CN109784059A

CN109784059A - 一种木马文件溯源方法、系统及设备

Info

Publication number: CN109784059A
Application number: CN201910030096.9A
Authority: CN
Inventors: 刘庆林; 魏海宇; 刘海洋; 吴小勇; 白应东; 熊文砚; 谢辉
Original assignee: Beijing Zhong Rui World Information Technology Co Ltd
Current assignee: Beijing Zhong Rui World Information Technology Co Ltd
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2019-05-21
Anticipated expiration: 2039-01-11
Also published as: CN109784059B

Abstract

本发明公开了一种木马文件溯源方法、系统及设备，通过三因子模型分析从多角度、多形态、多层次刻画了木马文件的基因特征，为木马文件溯源提供了更全面、更精准的木马指纹数据，提高了木马文件的分析、识别能力，为木马文件溯源提供了更完备的数据资源。并且与云端黑客指纹档案库联动，能够结合黑客组织的行为习惯，进行木马文件的关联与溯源，拓展了木马文件的分析维度，能够识别隐藏更深、设计更巧的木马文件并溯源。另外，采用多源数据综合评判的木马文件溯源方法，真正实现了多源数据的融合、关联与应用，能够识别高级别、复杂木马样本，具备更精准的判定和溯源能力。

Description

一种木马文件溯源方法、系统及设备

技术领域

本发明涉及木马文件溯源技术领域，具体涉及一种木马文件溯源方法、系统及设备。

背景技术

木马文件溯源，当前主要有两种主流技术方法，一是特征匹配分析方法，二是沙箱检测分析方法。特征匹配分析方法，一般通过文件Hash值、木马上线域名、回联地址等关键信息项刻画木马特征，并将其作为关键指标进行木马文件的识别与溯源。沙箱检测分析方法，利用Sandboxie(沙箱，网络编程虚拟执行环境)创造一种按照安全策略限制程序行为的执行环境，当文件在沙箱运行时拦截系统调用监视程序运行状态，当发现文件执行的操作与文件正常行为不一致时，如打开后缀.doc的文件出现install操作，记录可疑行为，并将此作为木马文件的判定溯源依据。

随着木马技术的发展，现有溯源技术方法已不能有效识别进行了特征混淆、加壳免杀、防护规避处理的木马文件。目前的木马文件溯源技术存在以下不足：

1、检测来源单一：检测依据和指标来源于从木马文件中抽取的有限的静态特征集合，来源单一。

2、检测手段简单：沙箱方法支持动态检测，但检测手段不够全面。通过不一致操作识别可疑行为的方法会存在漏报、误报，影响检测结果，需进行更全面的行为分析才能够保证动态检测的有效性。

3、溯源方法落后：不能结合黑客组织的行为习惯进行木马文件溯源，不能实现精准定位溯源。

4、数据孤立使用：缺乏各特征集合的数据关联和融合，不能实现数据综合分析。

5、缺乏有效的自学习机制，不具备大数据样本训练和实时动态调整能力。

发明内容

本发明实施例的目的在于提供一种木马文件溯源方法、系统及设备，用以解决现有木马文件溯源技术由于检测来源单一、检测手段简单、溯源方法落后、数据孤立使用导致不能有效识别进行了特征混淆、加壳免杀、防护规避处理的木马文件的问题。

为实现上述目的，本发明实施例提供了一种木马文件溯源方法，所述方法包括：接收新采样木马文件；对新采样木马文件进行样本数据解析；提取标签项作为木马文件基因特征；及将提取的标签项发送至云端威胁情报中心服务器进行三因子模型分析与综合评判，判明采样木马文件的基因属性和来源。

本发明实施例具有如下优点：将三因子模型分析与综合评判以及判明采样木马文件的基因属性和来源放在云端，极大地提高了木马文件的采样以及样本数据解析以提取标签项的速度及效率。

本发明实施例还提供的一种木马文件溯源方法，所述方法包括：从木马文件基因特征提取终端接收提取的标签项；从多源信息库获取多源数据信息，所述多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征；依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析，形成新的木马文件基因；采用多源数据综合评判算法进行综合评判打分和阈值计算，输出计算结果判明新采样木马文件的基因属性；及访问云端黑客指纹档案库获取黑客组织信息和木马基因数据，判明新采样木马文件的来源；其中，所述采用多源数据综合评判算法进行综合评判打分和阈值计算之前，所述方法包括，基于新的木马文件基因进行多源数据融合。

本发明实施例具有如下优点：通过三因子模型分析从多角度、多形态、多层次刻画了木马文件的基因特征，为木马文件溯源提供了更全面、更精准的木马指纹数据，提高了木马文件的分析、识别能力，为木马文件溯源提供了更完备的数据资源。并且与云端黑客指纹档案库联动，能够结合黑客组织的行为习惯，进行木马文件的关联与溯源，拓展了木马文件的分析维度，能够识别隐藏更深、设计更巧的木马文件并溯源。另外，采用多源数据综合评判的木马文件溯源方法，真正实现了多源数据的融合、关联与应用，能够识别高级别、复杂木马样本，具备更精准的判定和溯源能力。

本发明实施例的另外一方面，还提供了一种木马文件溯源系统，所述系统应用于木马文件基因特征提取终端，所述木马文件基因特征提取终端与云端威胁情报中心服务器通过有线或无线网络通信连接，所述系统包括：采样模块，用于接收新采样木马文件；样本数据解析模块，用于对新采样木马文件进行样本数据解析；基因特征提取模块，用于提取标签项作为木马文件基因特征；及特征数据发送模块，用于将提取的标签项发送至云端威胁情报中心服务器进行三因子模型分析与综合评判，判明采样木马文件的基因属性和来源。

本发明实施例具有如下优点：将三因子模型分析与综合评判以及判明采样木马文件的基因属性和来源放在云端进行，将木马文件的采样以及样本数据解析以提取标签项单独由木马文件基因特征提取终端执行，使木马文件基因特征提取终端的系统更加简化，极大地提高了木马文件基因特征提取终端的处理速度及工作效率。

本发明实施例的另外一方面，还提供了一种木马文件溯源系统，所述系统应用于云端威胁情报中心服务器，所述云端威胁情报中心服务器分别与木马文件基因特征提取终端、云端黑客指纹档案库通过有线或无线网络通信连接，所述云端威胁情报中心服务器与多源信息库通过有线或无线网络通信连接或所述云端威胁情报中心服务器中内嵌有多源信息库，所述系统包括：特征数据接收单元，用于从木马文件基因特征提取终端接收提取的标签项；多源数据信息获取单元，用于从多源信息库获取多源数据信息，所述多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征；三因子模型分析单元，用于依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析，形成新的木马文件基因；综合评判单元，用于基于新的木马文件基因进行多源数据融合；并采用多源数据综合评判算法进行综合评判打分和阈值计算，输出计算结果判明新采样木马文件的基因属性；及溯源单元，用于访问云端黑客指纹档案库获取黑客组织信息和木马基因数据，判明新采样木马文件的来源。

本发明实施例具有如下优点：通过三因子模型分析从多角度、多形态、多层次刻画了木马文件的基因特征，为木马文件溯源提供了更全面、更精准的木马指纹数据，提高了木马文件的分析、识别能力，为木马文件溯源提供了更完备的数据资源。并且与云端黑客指纹档案库联动，能够结合黑客组织的行为习惯，进行木马文件的关联与溯源，拓展了木马文件的分析维度，能够识别隐藏更深、设计更巧的木马文件并溯源。另外，采用多源数据综合评判的木马文件溯源方法，真正实现了多源数据的融合、关联与应用，能够识别高级别、复杂木马样本，使应用于云端威胁情报中心服务器的系统具备更精准的判定和溯源能力。

本发明公开的实施例的另外一方面，还提供了一种木马文件溯源设备，所述设备包括：木马文件基因特征提取终端，所述木马文件基因特征提取终端存储有计算机程序指令，所述计算机程序指令用于执行如下所述的方法：接收新采样木马文件；对新采样木马文件进行样本数据解析；提取标签项作为木马文件基因特征；及将提取的标签项发送至云端威胁情报中心服务器进行三因子模型分析与综合评判，判明采样木马文件的基因属性和来源；

云端威胁情报中心服务器，所述云端威胁情报中心服务器存储有计算机程序指令，所述计算机程序指令用于执行如下所述的方法：从木马文件基因特征提取终端接收提取的标签项；从多源信息库获取多源数据信息，所述多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征；依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析，形成新的木马文件基因；采用多源数据综合评判算法进行综合评判打分和阈值计算，输出计算结果判明新采样木马文件的基因属性；及访问云端黑客指纹档案库获取黑客组织信息和木马基因数据，判明新采样木马文件的来源；其中，所述采用多源数据综合评判算法进行综合评判打分和阈值计算之前，所述方法包括，基于新的木马文件基因进行多源数据融合；

多源信息库，所述多源信息库中存储有多源数据信息，所述多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征；及

云端黑客指纹档案库，所述云端黑客指纹档案库中存储有黑客组织信息、木马基因数据及木马文件基因与木马文件来源之间映射关系表；

其中，所述云端威胁情报中心服务器分别与所述木马文件基因特征提取终端、所述云端黑客指纹档案库通过有线或无线网络通信连接，所述云端威胁情报中心服务器与所述多源信息库通过有线或无线网络通信连接或所述云端威胁情报中心服务器中内嵌有所述多源信息库。

本发明实施例具有如下优点：由木马文件基因特征提取终端单独执行木马文件的采样以及样本数据解析以提取标签项；由云端威胁情报中心服务器与多源信息库进行通信，通过三因子模型分析从多角度、多形态、多层次刻画了木马文件的基因特征，为木马文件溯源提供了更全面、更精准的木马指纹数据，提高了木马文件的分析、识别能力，为木马文件溯源提供了更完备的数据资源。并且与云端黑客指纹档案库联动，能够结合黑客组织的行为习惯，进行木马文件的关联与溯源，拓展了木马文件的分析维度，能够识别隐藏更深、设计更巧的木马文件并溯源。另外，由云端威胁情报中心服务器采用多源数据综合评判的木马文件溯源方法，真正实现了多源数据的融合、关联与应用，能够识别高级别、复杂木马样本，使具备更精准的判定和溯源能力。本发明实施例提供的一种木马文件溯源设备各个部分结构合理，优化了木马文件溯源处理方案，极大地提高了木马文件溯源处理的准确率、速度及工作效率。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的一种木马文件溯源设备的逻辑结构示意图。

图2为本发明实施例提供的应用于木马文件基因特征提取终端的一种木马文件溯源系统的逻辑结构示意图。

图3为本发明实施例提供的应用于木马文件基因特征提取终端的一种木马文件溯源方法的流程示意图。

图4为本发明实施例提供的应用于云端威胁情报中心服务器的一种木马文件溯源系统的逻辑结构示意图。

图5为本发明实施例提供的应用于云端威胁情报中心服务器的一种木马文件溯源方法的流程示意图。

图6为本发明实施例提供的应用于云端威胁情报中心服务器的一种木马文件溯源系统的逻辑结构示意图。

1-木马文件基因特征提取终端、11-采样模块、12-样本数据解析模块、13-基因特征提取模块、14-特征数据发送模块、2-云端威胁情报中心服务器、21-溯源训练模块、22-溯源分析模块、221-特征数据接收单元、222-多源数据信息获取单元、223-三因子模型分析单元、224-综合评判单元、225-溯源单元、3-多源信息库、4-云端黑客指纹档案库。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

参考图1，本发明实施例提出的一种木马文件溯源设备包括：木马文件基因特征提取终端1、云端威胁情报中心服务器2、多源信息库3和云端黑客指纹档案库4；其中，云端威胁情报中心服务器2分别与木马文件基因特征提取终端1、云端黑客指纹档案库4通过有线或无线网络通信连接，云端威胁情报中心服务器2与多源信息库3通过有线或无线网络通信连接或云端威胁情报中心服务器2中内嵌有多源信息库3。

木马文件基因特征提取终端1存储有计算机程序指令，通过计算机程序指令构建了本发明实施例提出的应用于木马文件基因特征提取终端1的一种木马文件溯源系统，参考图2，其包括：采样模块11、样本数据解析模块12、基因特征提取模块13及特征数据发送模块14。具体地，参考图3，木马文件基因特征提取终端1存储的计算机程序指令用于执行如下所述的方法：采样模块11接收新采样木马文件并发送至样本数据解析模块12；样本数据解析模块12对新采样木马文件进行样本数据解析并发送至基因特征提取模块13；基因特征提取模块13提取标签项作为木马文件基因特征并发送至特征数据发送模块14；特征数据发送模块14将提取的标签项发送至云端威胁情报中心服务器进行三因子模型分析与综合评判，判明采样木马文件的基因属性和来源。

本发明实施例具中，将三因子模型分析与综合评判以及判明采样木马文件的基因属性和来源放在云端，将木马文件的采样以及样本数据解析以提取标签项单独由木马文件基因特征提取终端执行，使木马文件基因特征提取终端的系统更加简化，极大地提高了木马文件基因特征提取终端的处理速度及工作效率。

云端威胁情报中心服务器2存储有计算机程序指令，通过计算机程序指令构建了本发明实施例提出的应用于云端威胁情报中心服务器2的一种木马文件溯源系统，参考图4，其包括：特征数据接收单元221、多源数据信息获取单元222、三因子模型分析单元223、综合评判单元224及溯源单元225。具体地，参考图5，云端威胁情报中心服务器2存储的计算机程序指令用于执行如下所述的方法：特征数据接收单元221从木马文件基因特征提取终端1接收提取的标签项并发送至三因子模型分析单元223；多源信息库3中存储有多源数据信息，多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征，多源数据信息获取单元222从多源信息库3获取多源数据信息并发送至三因子模型分析单元223，多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征；三因子模型分析单元223依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析，形成新的木马文件基因并发送至综合评判单元224和溯源单元225；综合评判单元224基于新的木马文件基因进行多源数据融合；并采用多源数据综合评判算法进行综合评判打分和阈值计算，输出计算结果判明新采样木马文件的基因属性；及云端黑客指纹档案库4中存储有黑客组织信息、木马基因数据及木马文件基因与木马文件来源之间映射关系表；溯源单元225访问云端黑客指纹档案库4获取黑客组织信息和木马基因数据，判明新采样木马文件的来源。

进一步地，三因子模型分析单元223依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析，包括：静态指纹分析；隐态指纹分析；及动态行为指纹分析；其中，三因子模型从静态指纹基因、隐态指纹基因和动态行为指纹基因三个角度刻画木马文件的溯源基因，静态指纹基因、隐态指纹基因和所述动态行为指纹基因分别刻画木马文件的静态文件特征、隐态思维特征和动态行为特征。

更进一步地，静态指纹基因包括如下6个标签项：PE文件基本信息标签、编译信息标签、数字签名信息标签、窗口资源信息标签、PDB路径标签、导出函数标签；隐态指纹基因包括如下3个标签项：自有算法标签、功能函数标签、编程习惯及风格标签；及动态行为指纹基因包括如下10个标签项：基础标签、窗口资源标签、注入类型标签、键盘记录标签、网络事件标签、主动攻击标签、自启动标签、自拷贝标签、文件属性标签、系统属性标签。

每个标签项包含一个或多个资源项及木马文件检测及溯源中的若干数据指标，本发明实施例所定义的标签项和主要资源项覆盖木马文件溯源中所有数据指标，为最完备基因集合。各个标签项覆盖的主要数据指标如下列表所述：

优选地，参考图6，本发明实施例提出的应用于云端威胁情报中心服务器2的一种木马文件溯源系统还包括：溯源训练模块21和溯源分析模块22；具体地，溯源训练模块21采用机器学习算法进行样本学习和数据调整，原始数据经大量已知样本训练后各项数值趋近最优化形成溯源分析模型；溯源分析模块22通过溯源分析模型对最新木马文件分析结束后，提供木马样本和反馈结果至溯源训练模块21，溯源训练模块21整理数据、调整规则，并实时输出溯源分析模型；及所述系统通过样本分析、样本训练的内部循环自动实现样本处理和新规则学习，完成自动化木马文件检测及溯源；其中，特征数据接收单元221、多源数据信息获取单元222、三因子模型分析单元223、综合评判单元224及溯源单元225集成至溯源分析模块22。

本发明实施例除具备对已知木马文件的溯源能力外，通过增加溯源训练模块，使系统具备了对未知木马的感知、识别能力，成为具备一定学习能力和动态调整能力的自适应闭环木马文件溯源系统。

本发明实施例首次提出三因子模型分析与多源数据综合评判的木马文件溯源方法。三因子分析运用多种技术从多角度、多形态、多层次刻画了木马文件的基因特征，实现了木马文件的全方位解剖与分析。多源数据综合评判保证了多源数据的有效融合、关联，提高了溯源准确性。溯源训练模块，通过机器学习和结果反馈实现了一个系统内部的简单闭环生态系统，使系统具备自学习和自适应能力，能够在运行中自动学习新规则，提高溯源能力，除已知木马外，还可通过基因分析识别发现未知木马并溯源。

本发明实施例定义了木马溯源的三个主要基因项：静态指纹基因、隐态指纹基因和动态行为指纹基因。每个基因定义了多个标签项，静态指纹基因包含6个标签项、隐态指纹基因包含3个标签项、动态行为指纹基因包含10个标签项，每个标签项包含多个数据指标，其中，静态指纹基因的导出函数标签以及隐态指纹基因的自有算法标签、功能函数标签、编程习惯标签均属首次提出。

本发明实施例提出的一种计算机存储介质，所述计算机存储介质存储有计算机程序指令，所述计算机程序指令用于执行如上所述的方法。

在本发明的实施例中，各个模块或系统可以是由计算机程序指令形成的处理器，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(DigitalSignalProcessor，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(FieldProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-OnlyMemory，简称ROM)、可编程只读存储器(ProgrammableROM，简称PROM)、可擦除可编程只读存储器(ErasablePROM，简称EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(RandomAccessMemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(StaticRAM，简称SRAM)、动态随机存取存储器(DynamicRAM，简称DRAM)、同步动态随机存取存储器(SynchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM，简称SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种木马文件溯源方法，其特征在于，所述方法包括：

接收新采样木马文件；

对新采样木马文件进行样本数据解析；

提取标签项作为木马文件基因特征；及

将提取的标签项发送至云端威胁情报中心服务器进行三因子模型分析与综合评判，判明采样木马文件的基因属性和来源。

2.一种木马文件溯源方法，其特征在于，所述方法包括：

从木马文件基因特征提取终端接收提取的标签项；

从多源信息库获取多源数据信息，所述多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征；

依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析，形成新的木马文件基因；

采用多源数据综合评判算法进行综合评判打分和阈值计算，输出计算结果判明新采样木马文件的基因属性；及

访问云端黑客指纹档案库获取黑客组织信息和木马基因数据，判明新采样木马文件的来源；

其中，所述采用多源数据综合评判算法进行综合评判打分和阈值计算之前，所述方法包括，基于新的木马文件基因进行多源数据融合。

3.如权利要求2所述的方法，其特征在于，所述依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析，包括：

静态指纹分析；

隐态指纹分析；及

动态行为指纹分析；

其中，所述三因子模型从静态指纹基因、隐态指纹基因和动态行为指纹基因三个角度刻画木马文件的溯源基因，所述静态指纹基因、所述隐态指纹基因和所述动态行为指纹基因分别刻画木马文件的静态文件特征、隐态思维特征和动态行为特征。

4.如权利要求3所述的方法，其特征在于，所述静态指纹基因包括如下6个标签项：PE文件基本信息标签、编译信息标签、数字签名信息标签、窗口资源信息标签、PDB路径标签、导出函数标签；

所述隐态指纹基因包括如下3个标签项：自有算法标签、功能函数标签、编程习惯及风格标签；及

所述动态行为指纹基因包括如下10个标签项：基础标签、窗口资源标签、注入类型标签、键盘记录标签、网络事件标签、主动攻击标签、自启动标签、自拷贝标签、文件属性标签、系统属性标签。

5.如权利要求4所述的方法，其特征在于，每个标签项包含一个或多个资源项及木马文件检测及溯源中的若干数据指标，各个标签项覆盖的主要数据指标如下列表所述：

6.如权利要求2至5中任一项所述的方法，其特征在于，所述方法还包括：

采用机器学习算法进行样本学习和数据调整，原始数据经大量已知样本训练后各项数值趋近最优化形成溯源分析模型；

通过溯源分析模型对最新木马文件分析结束后，提供木马样本和反馈结果至样本训练，整理数据、调整规则，并实时输出溯源分析模型；及

通过样本分析、样本训练的内部循环自动实现样本处理和新规则学习，完成自动化木马文件检测及溯源。

7.一种木马文件溯源系统，其特征在于，所述系统应用于木马文件基因特征提取终端，所述木马文件基因特征提取终端与云端威胁情报中心服务器通过有线或无线网络通信连接，所述系统包括：

采样模块，用于接收新采样木马文件；

样本数据解析模块，用于对新采样木马文件进行样本数据解析；

基因特征提取模块，用于提取标签项作为木马文件基因特征；及

特征数据发送模块，用于将提取的标签项发送至云端威胁情报中心服务器进行三因子模型分析与综合评判，判明采样木马文件的基因属性和来源。

8.一种木马文件溯源系统，其特征在于，所述系统应用于云端威胁情报中心服务器，所述云端威胁情报中心服务器分别与木马文件基因特征提取终端、云端黑客指纹档案库通过有线或无线网络通信连接，所述云端威胁情报中心服务器与多源信息库通过有线或无线网络通信连接或所述云端威胁情报中心服务器中内嵌有多源信息库，所述系统包括：

特征数据接收单元，用于从木马文件基因特征提取终端接收提取的标签项；

多源数据信息获取单元，用于从多源信息库获取多源数据信息，所述多源数据信息包括刻画木马文件的静态文件特征、隐态思维特征和动态行为特征；

三因子模型分析单元，用于依据三因子模型所包含基因项对新采样木马文件进行特征匹配分析，形成新的木马文件基因；

综合评判单元，用于基于新的木马文件基因进行多源数据融合；并采用多源数据综合评判算法进行综合评判打分和阈值计算，输出计算结果判明新采样木马文件的基因属性；及

溯源单元，用于访问云端黑客指纹档案库获取黑客组织信息和木马基因数据，判明新采样木马文件的来源。

9.如权利要求8所述的系统，其特征在于，所述系统还包括：溯源训练模块和溯源分析模块；

所述溯源训练模块采用机器学习算法进行样本学习和数据调整，原始数据经大量已知样本训练后各项数值趋近最优化形成溯源分析模型；

所述溯源分析模块通过溯源分析模型对最新木马文件分析结束后，提供木马样本和反馈结果至所述溯源训练模块，所述溯源训练模块整理数据、调整规则，并实时输出溯源分析模型；及

所述系统通过样本分析、样本训练的内部循环自动实现样本处理和新规则学习，完成自动化木马文件检测及溯源；

其中，所述特征数据接收单元、所述多源数据信息获取单元、所述三因子模型分析单元、所述综合评判单元及所述溯源单元集成至所述溯源分析模块。

10.一种木马文件溯源设备，其特征在于，所述设备包括：

木马文件基因特征提取终端，所述木马文件基因特征提取终端存储有计算机程序指令，所述计算机程序指令用于执行如权利要求1所述的方法；

云端威胁情报中心服务器，所述云端威胁情报中心服务器存储有计算机程序指令，所述计算机程序指令用于执行如权利要求2-6中任一项所述的方法；