CN114647846A

CN114647846A - 基于知识图谱的恶意代码情报智能推荐技术

Info

Publication number: CN114647846A
Application number: CN202210161340.7A
Authority: CN
Inventors: 张磊; 李淑贤; 陈思吉; 李梓萱; 熊彬燕
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-06-21

Abstract

本发明专利提供一种基于知识图谱的恶意代码情报的智能推荐技术。本专利从恶意代码中提取行为特征信息，基于语义进行恶意代码分类，使用知识图谱技术构建恶意代码间联系，然后通过智能推荐算法进行恶意代码情报智能推荐。主要包括以下几个步骤：（1）从现有资源库获取或通过动静态分析进行基于语义的恶意代码行为特征提取；（2）根据恶意代码的行为特征对恶意代码进行分类；（3）利用知识图谱技术构建恶意代码情报视图；（4）使用user‑based CF推荐算法、item‑based协同过滤算法进行恶意代码情报智能推荐。

Description

基于知识图谱的恶意代码情报智能推荐技术

技术领域

本发明涉及一种基于知识图谱的恶意代码情报智能推荐的技术。

背景技术

恶意代码情报数据增长快速、零散繁多，已经严重影响安全分析人员对情报的分析响应速度。且在恶意代码情报研究中，安全分析人员希望能够挖掘出各个情报之间的关系，并在查询时提供上下文关联信息，辅助决策。传统的恶意代码分析技术很难满足以上各项需求，需要一种新技术的支持。本发明专利就是通过结合知识图谱与推荐算法设计的一种基于知识图谱的恶意代码情报智能推荐的技术。

发明内容

该发明专利提供一种基于知识图谱的恶意代码情报的智能推荐技术，以满足安全分析人员对多源异构恶意代码情报的融合分析需求。本专利的技术方案如下所述。

1.从开源数据集，获取足够数量的恶意代码样本。利用Python编写爬虫，建立恶意代码样本库。

2.进行基于语义的恶意代码行为特征提取，可采用两种方法：

(1)直接从现有行为特征资源库获取；

(2)采用动静态分析提取。动态分析可以反映出代码的实际特征，而静态分析可以在没有加密技术支持的情况下，获得完整的代码分支视图，且静态分析有更快的执行速度。可以根据自身需求选择提取方法；

静态分析：首先从程序文件读取可执行的二进制代码，然后利用反汇编工具得到汇编代码，接着生成程序流程图，数据流图等，最终汇总得到分析结果；

动态分析：在代码的实际运行过程中收集需要的信息并以此来得到分析结果。可以借助系统调用序列、数据流、控制依赖关系等语义特征来进行综合分析，提高检测质量。

3.对恶意代码行为特征进行分类。可以根据恶意代码的行为特征，将其分为文件系统行为、注册表行为、网络行为、主动防御行为、进程和服务相关的行为、其他行为等等。

4.对于知识图谱的构建，可以基于以下两种方法：

(1)结构化的恶意代码数据，提取本体和模式信息；

(2)从公开采集的恶意代码数据和分析结果中提取出可用信息，选择其中分析结果较为可靠的恶意代码特征信息；

对信息进行一定的分析处理后，加入知识库，构建知识图谱。

5.知识图谱构建技术

(1)通过实体抽取、关系抽取、属性抽取这三种知识抽取方法，从各类型恶意代码数据源中提取出实体、属性以及实体间的相互关系，在此基础上形成本体化的知识表达；

(2)知识更新包括以全面更新和增量更新为主要方式的概念层更新和数据层更新；

(3)对于新知识，需要对其进行整合以消除矛盾和歧义，并在进行质量评估后，再将合格部分加入到知识库中。即需通过知识融合、知识加工来确定知识库的质量；

(4)本专利在质量评估前，还需知识推理来模拟人类的智能推荐方式，具体有：基于逻辑的推理、基于图的推理和基于深度学习的推理。依据推理控制策略，利用形式化的知识进行机器思维和求解问题。

6.恶意代码情报智能推荐。可采用基于特征的推荐算法、基于路径的推荐算法、基于模型的协同过滤三种方法。本专利采用协同过滤算法进行情报智能推荐。主流的协同过滤算法主要是user-based CF 推荐算法和item-based 协同过滤算法：

user-based CF 推荐算法：计算用户间偏好的相似性，在相似用户的基础上自动的为目标用户进行过滤和筛选，不依赖于抽取“推荐对象”的特征信息。其基本思想为具有相同或相似的价值观、思想观、知识水平和兴趣偏好的用户，其对信息的需求也是相似的；

item-based 协同过滤算法：主要对目标用户所评价的一组项目进行研究，并计算这些项目与目标项目之间的相似性，然后从选择前 K 个最相似度最大的项目输出，这是区别于 User-based 协同过滤。

本发明专利的有益效果是：采用本专利软件方式实现一种基于知识图谱的恶意代码情报智能推荐技术。将零散繁多的恶意代码情报整合，设计构建知识图谱，利用知识图谱强大的语义处理能力可以对大量恶意代码情报的碎片信息进行加工、处理、整合，实现提高情报检索效率，并用程序挖掘出各个情报之间的关系，将知识图谱和推荐系统相结合，使图谱中包含推荐内容、其他关联或结构信息，形成推荐对象关系网，在用户查询时自动推荐相关联的信息，辅助用户做出决策，为恶意代码研究者提供帮助，提高了恶意代码分析效率。

附图说明

为了进一步阐述本发明的实现目标、实现方法和特性，将结合附图进行详细描述，其中:

图1 是一个展示本发明提出方法的具体实现流程图。

图2 是一个展示本发明中知识图谱构建技术的架构图。

具体实施方式

1.获取足够数量的恶意代码样本。利用Python编写爬虫，建立恶意代码样本库。

(1)直接从现有行为特征资源库获取；

(2)采用动静态分析提取。

4.对于知识图谱的构建，可以基于以下两种方法：

(1)结构化的恶意代码数据，提取本体和模式信息；

(2)从公开采集的恶意代码数据和分析结果中提取出可用信息，选择其中分析结果较为可靠的恶意代码特征信息。

对于信息进行一定的分析处理后，加入知识库，构建知识图谱。

5.知识图谱构建技术

Claims

1.一种基于知识图谱的恶意代码情报智能推荐技术，其特征在于可以根据所构建的恶意代码情报智能推荐网络给用户进行智能化信息推荐，提高情报分析和信息检索的效率，技术点包括基于语义的恶意代码行为特征提取分类；知识图谱构建；恶意代码情报智能推荐。

2.根据权利要求1所述，一种基于知识图谱的恶意代码情报智能推荐技术，其特征在于所述恶意代码情报智能推荐技术包括基于语义的恶意代码行为特征提取分类，即将收集到的恶意代码通过现有行为特征资源库和动静态分析方法进行特征提取；然后根据恶意代码的行为特征，将其分为文件系统行为、注册表行为、网络行为、主动防御行为、进程和服务相关的行为、其他行为等等。

3.根据权利要求1所述的一种基于知识图谱的恶意代码智能推荐技术，其特征在于知识图谱的构建技术，需对信息进行一定的分析处理后，加入知识库，构建知识图谱，其中知识库质量通过恶意代码知识抽取、知识更新、知识融合和知识加工确保，并在恶意代码知识推理模拟人类的智能推荐方式后，进一步质量评估，达到构建目的。

4.根据权利要求1所述一种恶意代码情报智能推荐，其特征在于所述的恶意代码情报智能推荐采用user-based CF推荐算法和item-based协同过滤算法为主流算法，其中user-based CF推荐算法可以计算用户间偏好的相似性，在相似用户的基础上自动的为目标用户进行过滤和筛选，不依赖于抽取“推荐对象”的特征信息；而item-based协同过滤算法主要对目标用户所评价的一组项目进行研究，并计算这些项目与目标项目之间的相似性，然后从选择前K个最相似度最大的项目输出。