CN114647846A - 基于知识图谱的恶意代码情报智能推荐技术 - Google Patents
基于知识图谱的恶意代码情报智能推荐技术 Download PDFInfo
- Publication number
- CN114647846A CN114647846A CN202210161340.7A CN202210161340A CN114647846A CN 114647846 A CN114647846 A CN 114647846A CN 202210161340 A CN202210161340 A CN 202210161340A CN 114647846 A CN114647846 A CN 114647846A
- Authority
- CN
- China
- Prior art keywords
- malicious code
- recommendation
- knowledge
- behavior
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000003068 static effect Effects 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000013441 quality evaluation Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 230000003542 behavioural effect Effects 0.000 claims description 3
- 230000007123 defense Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract 1
- 230000006399 behavior Effects 0.000 description 20
- 238000011217 control strategy Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
- G06F21/563—Static detection by source code analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/566—Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/03—Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
- G06F2221/033—Test or assess software
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Virology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明专利提供一种基于知识图谱的恶意代码情报的智能推荐技术。本专利从恶意代码中提取行为特征信息,基于语义进行恶意代码分类,使用知识图谱技术构建恶意代码间联系,然后通过智能推荐算法进行恶意代码情报智能推荐。主要包括以下几个步骤:(1)从现有资源库获取或通过动静态分析进行基于语义的恶意代码行为特征提取;(2)根据恶意代码的行为特征对恶意代码进行分类;(3)利用知识图谱技术构建恶意代码情报视图;(4)使用user‑based CF推荐算法、item‑based协同过滤算法进行恶意代码情报智能推荐。
Description
技术领域
本发明涉及一种基于知识图谱的恶意代码情报智能推荐的技术。
背景技术
恶意代码情报数据增长快速、零散繁多,已经严重影响安全分析人员对情报的分析响应速度。且在恶意代码情报研究中,安全分析人员希望能够挖掘出各个情报之间的关系,并在查询时提供上下文关联信息,辅助决策。传统的恶意代码分析技术很难满足以上各项需求,需要一种新技术的支持。本发明专利就是通过结合知识图谱与推荐算法设计的一种基于知识图谱的恶意代码情报智能推荐的技术。
发明内容
该发明专利提供一种基于知识图谱的恶意代码情报的智能推荐技术,以满足安全分析人员对多源异构恶意代码情报的融合分析需求。本专利的技术方案如下所述。
1.从开源数据集,获取足够数量的恶意代码样本。利用Python编写爬虫,建立恶意代码样本库。
2.进行基于语义的恶意代码行为特征提取,可采用两种方法:
(1)直接从现有行为特征资源库获取;
(2)采用动静态分析提取。动态分析可以反映出代码的实际特征,而静态分析可以在没有加密技术支持的情况下,获得完整的代码分支视图,且静态分析有更快的执行速度。可以根据自身需求选择提取方法;
静态分析:首先从程序文件读取可执行的二进制代码,然后利用反汇编工具得到汇编代码,接着生成程序流程图,数据流图等,最终汇总得到分析结果;
动态分析:在代码的实际运行过程中收集需要的信息并以此来得到分析结果。可以借助系统调用序列、数据流、控制依赖关系等语义特征来进行综合分析,提高检测质量。
3.对恶意代码行为特征进行分类。可以根据恶意代码的行为特征,将其分为文件系统行为、注册表行为、网络行为、主动防御行为、进程和服务相关的行为、其他行为等等。
4.对于知识图谱的构建,可以基于以下两种方法:
(1)结构化的恶意代码数据,提取本体和模式信息;
(2)从公开采集的恶意代码数据和分析结果中提取出可用信息,选择其中分析结果较为可靠的恶意代码特征信息;
对信息进行一定的分析处理后,加入知识库,构建知识图谱。
5.知识图谱构建技术
(1)通过实体抽取、关系抽取、属性抽取这三种知识抽取方法,从各类型恶意代码数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;
(2)知识更新包括以全面更新和增量更新为主要方式的概念层更新和数据层更新;
(3)对于新知识,需要对其进行整合以消除矛盾和歧义,并在进行质量评估后,再将合格部分加入到知识库中。即需通过知识融合、知识加工来确定知识库的质量;
(4)本专利在质量评估前,还需知识推理来模拟人类的智能推荐方式,具体有:基于逻辑的推理、基于图的推理和基于深度学习的推理。依据推理控制策略,利用形式化的知识进行机器思维和求解问题。
6.恶意代码情报智能推荐。可采用基于特征的推荐算法、基于路径的推荐算法、基于模型的协同过滤三种方法。本专利采用协同过滤算法进行情报智能推荐。主流的协同过滤算法主要是user-based CF 推荐算法和item-based 协同过滤算法:
user-based CF 推荐算法:计算用户间偏好的相似性,在相似用户的基础上自动的为目标用户进行过滤和筛选,不依赖于抽取“推荐对象”的特征信息。其基本思想为具有相同或相似的价值观、思想观、知识水平和兴趣偏好的用户,其对信息的需求也是相似的;
item-based 协同过滤算法:主要对目标用户所评价的一组项目进行研究,并 计算这些项目与目标项目之间的相似性,然后从选择前 K 个最相似度最大的项目 输出,这是区别于 User-based 协同过滤。
本发明专利的有益效果是:采用本专利软件方式实现一种基于知识图谱的恶意代码情报智能推荐技术。将零散繁多的恶意代码情报整合,设计构建知识图谱,利用知识图谱强大的语义处理能力可以对大量恶意代码情报的碎片信息进行加工、处理、整合,实现提高情报检索效率,并用程序挖掘出各个情报之间的关系,将知识图谱和推荐系统相结合,使图谱中包含推荐内容、其他关联或结构信息,形成推荐对象关系网,在用户查询时自动推荐相关联的信息,辅助用户做出决策,为恶意代码研究者提供帮助,提高了恶意代码分析效率。
附图说明
为了进一步阐述本发明的实现目标、实现方法和特性,将结合附图进行详细描述,其中:
图1 是一个展示本发明提出方法的具体实现流程图。
图2 是一个展示本发明中知识图谱构建技术的架构图。
具体实施方式
1.获取足够数量的恶意代码样本。利用Python编写爬虫,建立恶意代码样本库。
2.进行基于语义的恶意代码行为特征提取,可采用两种方法:
(1)直接从现有行为特征资源库获取;
(2)采用动静态分析提取。
3.对恶意代码行为特征进行分类。可以根据恶意代码的行为特征,将其分为文件系统行为、注册表行为、网络行为、主动防御行为、进程和服务相关的行为、其他行为等等。
4.对于知识图谱的构建,可以基于以下两种方法:
(1)结构化的恶意代码数据,提取本体和模式信息;
(2)从公开采集的恶意代码数据和分析结果中提取出可用信息,选择其中分析结果较为可靠的恶意代码特征信息。
对于信息进行一定的分析处理后,加入知识库,构建知识图谱。
5.知识图谱构建技术
(1)通过实体抽取、关系抽取、属性抽取这三种知识抽取方法,从各类型恶意代码数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;
(2)知识更新包括以全面更新和增量更新为主要方式的概念层更新和数据层更新;
(3)对于新知识,需要对其进行整合以消除矛盾和歧义,并在进行质量评估后,再将合格部分加入到知识库中。即需通过知识融合、知识加工来确定知识库的质量;
(4)本专利在质量评估前,还需知识推理来模拟人类的智能推荐方式,具体有:基于逻辑的推理、基于图的推理和基于深度学习的推理。依据推理控制策略,利用形式化的知识进行机器思维和求解问题。
6.恶意代码情报智能推荐。可采用基于特征的推荐算法、基于路径的推荐算法、基于模型的协同过滤三种方法。本专利采用协同过滤算法进行情报智能推荐。主流的协同过滤算法主要是user-based CF 推荐算法和item-based 协同过滤算法:
user-based CF 推荐算法:计算用户间偏好的相似性,在相似用户的基础上自动的为目标用户进行过滤和筛选,不依赖于抽取“推荐对象”的特征信息。其基本思想为具有相同或相似的价值观、思想观、知识水平和兴趣偏好的用户,其对信息的需求也是相似的;
item-based 协同过滤算法:主要对目标用户所评价的一组项目进行研究,并 计算这些项目与目标项目之间的相似性,然后从选择前 K 个最相似度最大的项目 输出,这是区别于 User-based 协同过滤。
Claims (4)
1.一种基于知识图谱的恶意代码情报智能推荐技术,其特征在于可以根据所构建的恶意代码情报智能推荐网络给用户进行智能化信息推荐,提高情报分析和信息检索的效率,技术点包括基于语义的恶意代码行为特征提取分类;知识图谱构建;恶意代码情报智能推荐。
2.根据权利要求1所述,一种基于知识图谱的恶意代码情报智能推荐技术,其特征在于所述恶意代码情报智能推荐技术包括基于语义的恶意代码行为特征提取分类,即将收集到的恶意代码通过现有行为特征资源库和动静态分析方法进行特征提取;然后根据恶意代码的行为特征,将其分为文件系统行为、注册表行为、网络行为、主动防御行为、进程和服务相关的行为、其他行为等等。
3.根据权利要求1所述的一种基于知识图谱的恶意代码智能推荐技术,其特征在于知识图谱的构建技术,需对信息进行一定的分析处理后,加入知识库,构建知识图谱,其中知识库质量通过恶意代码知识抽取、知识更新、知识融合和知识加工确保,并在恶意代码知识推理模拟人类的智能推荐方式后,进一步质量评估,达到构建目的。
4.根据权利要求1所述一种恶意代码情报智能推荐,其特征在于所述的恶意代码情报智能推荐采用user-based CF推荐算法和item-based协同过滤算法为主流算法,其中user-based CF推荐算法可以计算用户间偏好的相似性,在相似用户的基础上自动的为目标用户进行过滤和筛选,不依赖于抽取“推荐对象”的特征信息;而item-based协同过滤算法主要对目标用户所评价的一组项目进行研究,并计算这些项目与目标项目之间的相似性,然后从选择前K个最相似度最大的项目输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210161340.7A CN114647846A (zh) | 2022-02-22 | 2022-02-22 | 基于知识图谱的恶意代码情报智能推荐技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210161340.7A CN114647846A (zh) | 2022-02-22 | 2022-02-22 | 基于知识图谱的恶意代码情报智能推荐技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114647846A true CN114647846A (zh) | 2022-06-21 |
Family
ID=81994287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210161340.7A Pending CN114647846A (zh) | 2022-02-22 | 2022-02-22 | 基于知识图谱的恶意代码情报智能推荐技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114647846A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131259A (zh) * | 2020-09-28 | 2020-12-25 | 绿盟科技集团股份有限公司 | 一种相似恶意软件推荐方法、装置、介质和设备 |
CN112187716A (zh) * | 2020-08-26 | 2021-01-05 | 中国科学院信息工程研究所 | 一种网络攻击中恶意代码的知识图谱展示方法 |
CN113392397A (zh) * | 2020-03-11 | 2021-09-14 | 四川大学 | 基于混合特征和emd的恶意代码半监督聚类方法 |
-
2022
- 2022-02-22 CN CN202210161340.7A patent/CN114647846A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392397A (zh) * | 2020-03-11 | 2021-09-14 | 四川大学 | 基于混合特征和emd的恶意代码半监督聚类方法 |
CN112187716A (zh) * | 2020-08-26 | 2021-01-05 | 中国科学院信息工程研究所 | 一种网络攻击中恶意代码的知识图谱展示方法 |
CN112131259A (zh) * | 2020-09-28 | 2020-12-25 | 绿盟科技集团股份有限公司 | 一种相似恶意软件推荐方法、装置、介质和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dinella et al. | Hoppity: Learning graph transformations to detect and fix bugs in programs | |
Alaidi et al. | Dark web illegal activities crawling and classifying using data mining techniques | |
CN106557695B (zh) | 一种恶意应用检测方法和系统 | |
CN111078994A (zh) | 基于画像的医学科普文章推荐方法及系统 | |
CN109522562B (zh) | 一种基于文本图像融合识别的网页知识抽取方法 | |
CN112352232A (zh) | 分类树生成 | |
CN110704846B (zh) | 一种人在回路的智能化安全漏洞发现方法 | |
Osman et al. | An automated approach for classifying reverse-engineered and forward-engineered UML class diagrams | |
Kumar | World towards advance web mining: A review | |
CN115562721A (zh) | 一种从汇编语言中挖掘特征的克隆代码检测方法及系统 | |
Van Dang | Specification Case Studies in RAISE | |
CN114764463A (zh) | 基于事件传播特征的互联网舆情事件自动预警系统 | |
CN114647846A (zh) | 基于知识图谱的恶意代码情报智能推荐技术 | |
Tang et al. | An attention-based automatic vulnerability detection approach with GGNN | |
CN114741088A (zh) | 一种基于用户评论和开发者智慧的App源代码链接方法 | |
Inbarani et al. | Clickstream Intelligent Clustering using Accelerated Ant Colony Algorithm | |
Das et al. | Extraction of interesting patterns through association rule mining for improvement of website usability | |
Zhang et al. | Commit Classification via Diff-Code GCN based on System Dependency Graph | |
Singh et al. | Handling Data and Model Drift for World Application using Big Data | |
CN113721977B (zh) | 编程数据的处理方法与装置 | |
WANI et al. | A SURVEY ON WEB MINING TOOLS | |
CN117763161A (zh) | 一种基于知识图谱的自动化构建知识库的方法 | |
CN114969736A (zh) | 恶意代码行为本体自动生成方法及系统 | |
Zekri et al. | A software prototype for multidimensional design of data warehouses using ontologies | |
Prati et al. | A method for refining knowledge rules using exceptions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20220621 |
|
WD01 | Invention patent application deemed withdrawn after publication |