CN113343241B

CN113343241B - 基于在线恶意软件扫描平台的动态标签生成方法

Info

Publication number: CN113343241B
Application number: CN202110817175.1A
Authority: CN
Inventors: 苗功勋; 刘志远; 徐留杰; 张海文; 曲志峰; 韦文峰
Original assignee: BEIJING ZHONGFU TAIHE TECHNOLOGY DEVELOPMENT CO LTD; Nanjing Zhongfu Information Technology Co Ltd; Zhongfu Information Co Ltd; Zhongfu Safety Technology Co Ltd
Current assignee: BEIJING ZHONGFU TAIHE TECHNOLOGY DEVELOPMENT CO LTD; Nanjing Zhongfu Information Technology Co Ltd; Zhongfu Information Co Ltd; Zhongfu Safety Technology Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2023-04-11
Anticipated expiration: 2041-07-20
Also published as: CN113343241A

Abstract

本发明公开了一种基于在线恶意软件扫描平台的动态标签生成方法，包括输入ioc，通过检测引擎判断文件是否为hash；文件为hash，生成hash标签；文件不为hash，继续顺位检测文件是否为ip、domain、url；分别聚合生成对应的ip标签、domain标签、url标签；本发明不仅能够对恶意文件hash进行标记，还能基于恶意软件扫描平台的标记范围，为威胁情报指示器生成标签。

Description

基于在线恶意软件扫描平台的动态标签生成方法

技术领域

本发明涉及计算机安全技术领域，具体为一种基于在线恶意软件扫描平台的动态标签生成方法。

背景技术

在线恶意软件扫描平台已经被广泛使用，尤其是威胁情报从业者和研究人员偏爱使用恶意软件扫描平台给获取到的恶意样本生成标签。类似VirusTotal、HybridAnalysis、OTX等在线恶意软件扫描平台与多个安全厂商合作，调用其接口对用户传入的文件进行扫描，对恶意文件生成标签。而在线扫描平台集成多个安全厂商，其返回的扫描结果也大相径庭，因此如何聚合标签成为研究方向。目前主要的标签生成方法主要有以下三种：第一种：基于阈值的方法，Armin Sarabi和Mingyan Liu等人使用阈值来判断一个文件是否恶意或者属于哪种恶意行为，即检测出恶意的引擎个数大于阈值k则标记为“恶意”。一般情况下该阈值k会设置成1，即有一个检测引擎检测出恶意，则标记该文件为“恶意”。Yue Duan和Mu Zhang等人将这个阈值设置为检测比例，即检测出恶意的引擎个数/总的检测引擎个数*100%。第二种：基于检测引擎信誉度的方法，Mahinthan Chandramohan等人通过选择一些信誉度高的安全厂商的检测引擎综合判断，如大家熟知的卡巴斯基、赛门铁克、火眼等，只考虑这几个知名引擎的检测结果作为最终的标签。第三种：基于专家检测的方法，Graziano等人是找专家对恶意样本打标签，然后将恶意样本在恶意软件扫描平台上的检测报告作为特征，然后通过机器学习进行建模，通过模型判断恶意样本标签。

对于第一种标签生成方法，阈值的设置大多没有经过检验，而且在线恶意软件扫描平台中的安全厂商引擎的检测结果会随着时间不断变化，Shuofei Zhu等人的调研也发现不同的引擎之间的检测结果也具有相关性，换而言之，有些检测引擎之间会互相参照，从而得到同一结果。而对于第二种方法，信誉度高并不能说明检测结果的准确度高，恶意软件扫描平台中的部分安全厂商引擎的版本并不是最新版本，因而实际扫描结果可能存在误差。针对第三种方法，首先无法保证人工判断的标签的正确性是一点，其次检测结果是随着时间变化而变化的，因而只获取一天或者一次的检测结果作为特征得到的模型显然不具备时效性。最重要的一点是威胁情报指示器除了恶意软件文件外，还有ip、域名、url等，然而针对恶意的ip、domain、url，目前的扫描平台并没有给出相应的标签。

基于此，本发明设计了一种基于在线恶意软件扫描平台的动态标签生成方法，以解决上述问题。

发明内容

本发明的目的在于提供一种基于在线恶意软件扫描平台的动态标签生成方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于在线恶意软件扫描平台的动态标签生成方法，包括以下步骤：

S1：输入ioc，通过检测引擎判断文件是否为hash；

S2：文件为hash，生成hash标签，生成方法包括：

S21：扫描平台内各个检测引擎的版本和更新时间；

S22：获取扫描平台的各个检测引擎的扫描结果；

S23：合并关联检测引擎结果；

S24：对多个文件hash的扫描结果进行聚合；

S25：设置标签权重计算器，计算权重；

S26：构建恶意hash标签映射关系；

S27：生成hash标签；

S3：文件不为hash，继续顺位检测文件是否为ip、domain、url；

S4：文件为ip、domain、url的其中一种，继续判断是否存在关联hash；

S5：存在关联hash则通过S2中方法，生成hash标签；

S6：不存在关联hash则进行摘要提取，分别聚合生成对应的ip标签、domain标签、url标签。

优选的，所述S21中，扫描平台内各个检测引擎的版本和更新时间具体为：利用网络爬虫和平台接口动态获取，计算得出最近分析时间与检测引擎更新时间的时间差作为每个检测引擎的时间特征。

优选的，所述S22中，扫描平台的各个检测引擎的扫描结果通过平台接口和网络爬虫获取。

优选的，所述S24中，对多个文件hash的扫描结果进行聚合具体为：整理得到每次扫描结果都相同的检测引擎列表和对应的版本，对多个文件hash的扫描结果进行聚合，生成检测引擎关联列表。

优选的，所述S25中，设置标签权重计算器具体为：每一个检测引擎的检测结果初始权重都为1，每重复一次则权重加1，将得到的检测引擎关联列表合并只作为一条结果，同时根据得到的检测引擎的时间特征对权重分进行增减，引擎的时间特征每超过半年则减0.5分，超过一年则该检测结果失效，最终得到带有权重的检测结果。

优选的，所述S26中，构建恶意hash标签映射关系具体为：通过映射关系列表将每个检测引擎对于恶意软件的相似标签合并成固定的标签，选取最新一次的检测结果生成hash标签，同时将历史的检测结果标记为无效。

优选的，所述S6中，聚合生成对应的ip标签、domain标签、url标签的方法为：

S61：设置黑名单摘要采集器；

S62：构建专属标签词库；

S63：设置摘要分词器；

S64：设置标签生成器；

S65：设置关联文件采集器；

S66：设置标签聚合装置。

优选的，所述S61中，设置黑名单摘要采集器用于采集恶意ip、url、domain黑名单的摘要。

优选的，所述S62中，构建专属标签词库的获取来源是国家网络安全官网公布的威胁情报标准中的各个指示器的恶意类型列表，包括中英文的标签，构建专属标签词库。

优选的，所述S63中，设置摘要分词器是利用Jieba算法结合所构建的专属标签词库对黑名单摘要进行分词处理，得到词组；所述S64中，设置标签生成器是对得到的词组与专属标签词库进行匹配，生成对应的标签；所述S65中，设置关联文件采集器是通过平台的relation接口和网络爬虫获取关联文件的hash；所述S66中，设置标签聚合装置是根据关联文件采集器获取的文件hash结合针对恶意文件hash生成的标签再聚合生成的专属标签，随着关联关系的变化动态分别生成ip标签、domain标签、url标签。

与现有技术相比，本发明的有益效果是：

本发明通过在线恶意软件扫描平台的标签自动生成方法能多方位地获取标签，且由于结合了检测引擎的版本和更新时间作为时间特征，进一步的，生成的标签随着检测时间的不同也会产生差异，如果在两次检测结果不同，则会以最新的检测结果为准，之前的检测结果则标记为无效，如此即可提升标签结果的时效性和准确性，同时结合了黑名单摘要中的标签提取，大大减少了标签的分析时间，通过多次扫描，计算权重，建立标签生命周期，生成动态标签。本发明中提到的标签动态生成方法不仅能够对恶意文件hash进行标记，还能够通过关联关系，以及摘要提取的方法对恶意的ip、domain、url进行标记，拓展基于恶意软件扫描平台的标记范围，能够更全面地为威胁情报指示器生成标签。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种基于在线恶意软件扫描平台的动态标签生成方法，包括以下步骤：

S1：输入ioc，通过检测引擎判断文件是否为hash；

S2：文件为hash，生成hash标签，生成方法包括：

利用网络爬虫（在目标网站允许的请求频率下使用）和平台接口动态获取扫描平台内各个检测引擎的版本和更新时间，计算得出最近分析时间与检测引擎更新时间的时间差作为每个引擎的时间特征；

通过平台接口和网络爬虫获取扫描平台的各个检测引擎的扫描结果；

对多个文件hash的扫描结果进行聚合，整理得到每次扫描结果都相同的检测引擎列表和对应的版本；

设置标签权重计算器，每一个检测引擎的检测结果初始权重都为1，每重复一次则权重加1，将得到的检测引擎关联列表合并只作为一条结果，同时根据得到的检测引擎的时间特征对权重分进行增减，引擎的时间特征每超过半年则减0.5分，超过一年则该检测结果失效，最终得到带有权重的检测结果，计算权重；

每个检测引擎对于恶意软件的标签都不相同，需要通过映射关系列表将相似标签合并成固定的标签；

不同周期内扫描同一个恶意hash会得到不同的检测结果，而本发明只选取最新一次的检测结果，同时将历史的检测结果标记为无效，从而生成动态hash标签；

S3：文件不为hash，继续顺位检测文件是否为ip、domain、url；

S5：存在关联hash则通过S2中方法，生成hash标签；

其中，为了解决现有技术中引擎关联和时效性问题，本发明在计算权重的时候考虑了引擎关联列表和引擎版本时间特征；为了解决信誉度的问题，本发明不是按照信誉度来排名检测结果而是通过多维度的权重计算生成标签；为了解决检测结果随时间变化的问题，本发明构建了标签生命周期，生成动态标签。进一步的威胁情报指示器主要包含ip、domain、url、文件hash等，因而本发明根据不同类型的指示器需要设定不同的标签生成方法。

通过黑名单摘要采集器用于采集恶意ip、url、domain黑名单的摘要，获取来源是国家网络安全官网公布的威胁情报标准中的各个指示器的恶意类型列表，包括中英文的标签，构建专属标签词库，利用Jieba算法结合所构建的专属标签词库对黑名单摘要进行分词处理，得到词组，对得到的词组与专属标签词库进行匹配，生成对应的标签，采集器为通过平台的relation接口和网络爬虫获取关联文件的hash，根据关联文件采集器获取的文件hash结合针对恶意文件hash生成的标签再聚合生成的专属标签，随着关联关系的变化动态分别生成动态的ip标签、domain标签、url标签。

本发明通过提出的动态标签生成方法是基于在线恶意软件扫描平台，针对威胁情报中的指示器设计权重计算模型，随着扫描时间和次数动态生成标签的方法。基于在线恶意软件扫描平台的标签自动生成方法能多方位地获取标签，且由于结合了检测引擎的版本和更新时间作为时间特征，进一步的，生成的标签随着检测时间的不同也会产生差异，如果在两次检测结果不同，则会以最新的检测结果为准，之前的检测结果则标记为无效，如此即可提升标签结果的时效性和准确性，同时结合了黑名单摘要中的标签提取，大大减少了标签的分析时间，通过多次扫描，计算权重，建立标签生命周期，生成动态标签。本发明中提到的标签动态生成方法不仅能够对恶意文件hash进行标记，还能够通过关联关系，以及摘要提取的方法对恶意的ip、domain、url进行标记，拓展基于恶意软件扫描平台的标记范围，能够更全面地为威胁情报指示器生成标签。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.基于在线恶意软件扫描平台的动态标签生成方法，包括以下步骤：

S1：输入ioc，通过检测引擎判断文件是否为hash；

S2：文件为hash，生成hash标签，生成方法包括：

S21：扫描平台内各个检测引擎的版本和更新时间，即利用网络爬虫和平台接口动态获取，计算得出最近分析时间与检测引擎更新时间的时间差作为每个检测引擎的时间特征；

S22：获取扫描平台的各个检测引擎的扫描结果；

S23：合并关联检测引擎结果；

S24：对多个文件hash的扫描结果进行聚合；

S25：设置标签权重计算器，计算权重；

S26：构建恶意hash标签映射关系；

S27：生成hash标签；

S3：文件不为hash，继续顺位检测文件是否为ip、domain、url；

S5：存在关联hash则通过S2中方法，生成hash标签；

S6：不存在关联hash则进行摘要提取，分别聚合生成对应的ip标签、domain标签、url标签，具体步骤如下：

S61：设置黑名单摘要采集器；

S62：构建专属标签词库；

S63：设置摘要分词器；

S64：设置标签生成器；

S65：设置关联文件采集器；

S66：设置标签聚合装置；

所述S22中，扫描平台的各个检测引擎的扫描结果通过平台接口和网络爬虫获取；

所述S25中，设置标签权重计算器具体为：每一个检测引擎的检测结果初始权重都为1，每重复一次则权重加1，将得到的检测引擎关联列表合并只作为一条结果，同时根据得到的检测引擎的时间特征对权重分进行增减，引擎的时间特征每超过半年则减0.5分，超过一年则该检测结果失效，最终得到带有权重的检测结果。

2.根据权利要求1所述的基于在线恶意软件扫描平台的动态标签生成方法，其特征在于：所述S24中，对多个文件hash的扫描结果进行聚合具体为：整理得到每次扫描结果都相同的检测引擎列表和对应的版本，对多个文件hash的扫描结果进行聚合，生成检测引擎关联列表。

3.根据权利要求1所述的基于在线恶意软件扫描平台的动态标签生成方法，其特征在于：所述S26中，构建恶意hash标签映射关系具体为：通过映射关系列表将每个检测引擎对于恶意软件的相似标签合并成固定的标签，选取最新一次的检测结果生成hash标签，同时将历史的检测结果标记为无效。

4.根据权利要求1所述的基于在线恶意软件扫描平台的动态标签生成方法，其特征在于：所述S61中，设置黑名单摘要采集器用于采集恶意ip、url、domain黑名单的摘要。

5.根据权利要求1所述的基于在线恶意软件扫描平台的动态标签生成方法，其特征在于：所述S62中，构建专属标签词库的获取来源是国家网络安全官网公布的威胁情报标准中的各个指示器的恶意类型列表，包括中英文的标签，构建专属标签词库。

6.根据权利要求1所述的基于在线恶意软件扫描平台的动态标签生成方法，其特征在于：所述S63中，设置摘要分词器是利用Jieba算法结合所构建的专属标签词库对黑名单摘要进行分词处理，得到词组；所述S64中，设置标签生成器是对得到的词组与专属标签词库进行匹配，生成对应的标签；所述S65中，设置关联文件采集器是通过平台的relation接口和网络爬虫获取关联文件的hash；所述S66中，设置标签聚合装置是根据关联文件采集器获取的文件hash结合针对恶意文件hash生成的标签再聚合生成的专属标签，随着关联关系的变化动态分别生成ip标签、domain标签、url标签。