CN114297403A - 一种知识图谱构建方法及相关装置 - Google Patents

一种知识图谱构建方法及相关装置 Download PDF

Info

Publication number
CN114297403A
CN114297403A CN202111604826.5A CN202111604826A CN114297403A CN 114297403 A CN114297403 A CN 114297403A CN 202111604826 A CN202111604826 A CN 202111604826A CN 114297403 A CN114297403 A CN 114297403A
Authority
CN
China
Prior art keywords
data
entity
relationship
knowledge graph
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111604826.5A
Other languages
English (en)
Inventor
朱广飞
刘俊
谢志荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202111604826.5A priority Critical patent/CN114297403A/zh
Publication of CN114297403A publication Critical patent/CN114297403A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种知识图谱构建方法,包括:基于网络安全数据模型从数据源进行数据提取,获得实体数据和关系数据;其中,网络安全数据模型为根据网络数据的安全特征构建的针对于实体类型、关系类型以及属性信息的数据模型;采用实体数据和关系数据进行知识图谱构建,得到知识图谱。通过预设好的模型从多数据源中抽取数据,由于采用的模型为网络安全数据模型,使得网络数据的安全特征对实体数据以及属性和关系数据及其属性进行提取,以提高获取到的实体数据和关系数据的有效性和可靠性,提高了知识图谱的准确性。本申请还公开了一种知识图谱构建装置、知识图谱构建系统以及计算机可读存储介质,具有以上有益效果。

Description

一种知识图谱构建方法及相关装置
技术领域
本申请涉及安全数据处理领域,特别涉及一种知识图谱构建方法、知识图谱构建装置、知识图谱构建系统以及计算机可读存储介质。
背景技术
随着信息技术的不断发展,网络安全问题越来越受到重视。为了提前避免出现安全问题,提高系统的安全保障,可以从网络数据中提前发现新的威胁或安全知识。
相关技术中,通常采用预设规则的方式对网络数据进行匹配,以便从网络数据中发现相关的威胁数据或者是安全知识。还可以对网络数据构建安全知识图谱,以便从安全知识图谱中发现新的威胁或安全知识。但是,由于网络数据的复杂性和多样性,导致基于网络数据构建出的知识图谱没有办法符合实际的网络安全场景,导致无法从知识图谱中分析出有效的网络安全知识,降低了知识图谱的准确性和有效性。
因此,如何提高构建知识图谱的准确性和有效性是本领域技术人员关注的重点问题。
发明内容
本申请的目的是提供一种知识图谱构建方法、知识图谱构建装置、知识图谱构建系统以及计算机可读存储介质,以提高构建出的知识图谱的准确性和有效性。
为解决上述技术问题,本申请提供一种知识图谱构建方法,包括:
基于网络安全数据模型从数据源进行数据提取,获得实体数据和关系数据;其中,所述网络安全数据模型为根据网络数据的安全特征构建的针对于实体类型、关系类型以及属性信息的数据模型;
采用所述实体数据和所述关系数据进行知识图谱构建,得到知识图谱。
可选的,基于网络安全数据模型从数据源进行数据提取,获得实体数据和关系数据,包括:
基于多数据源获取多源异构数据;
基于所述网络安全数据模型的实体类型与关系类型对所述多源异构数据进行类型匹配,得到初始实体数据和初始关系数据;
基于所述实体类型对应的属性信息对所述初始实体数据的属性进行融合,得到所述实体数据;
基于所述关系类型对应的属性信息对所述初始关系数据的属性进行融合,得到所述关系数据。
可选的,基于多数据源获取多源异构数据,包括:
从安全数据库获取威胁情报数据;
在沙盒环境执行可执行文件,并记录行为数据得到沙盒执行数据;
从归属信息查询平台进行查询,得到网络安全信息数据;
将所述威胁情报数据、所述沙盒执行数据以及所述网络安全信息数据作为所述多源异构数据。
可选的,基于所述网络安全数据模型的实体类型与关系类型对所述多源异构数据进行类型匹配,得到初始实体数据和初始关系数据,包括:
从所述威胁情报数据中提取类型为域名、URL、File以及IP的数据,作为所述初始实体数据;
从所述沙盒执行数据和所述网络安全信息数据中提取所述初始实体数据之间的符合关系类型的数据,得到所述初始关系数据。
可选的,在分别对所述初始实体数据的属性和初始关系数据的属性进行融合之前,还包括:
基于实体定义信息逐一判断所述初始实体数据中的实体描述信息是否合法;
若否,将所述实体描述信息从所述初始实体数据中剔除,并将所述实体描述信息对应的关系描述信息从所述初始关系数据中剔除。
可选的,基于所述实体类型对应的属性信息对所述初始实体数据的属性进行融合,得到所述实体数据,包括:
将所述初始实体数据中相同的实体进行融合,得到已融合的实体数据;
基于所述实体类型对应的属性信息确定所述已融合的实体数据的空缺属性和冗余属性;
将所述已融合的实体数据中的所述冗余属性进行剔除,对所述空缺属性进行查询,并基于查询结果对所述已融合的实体数据进行补充,得到所述实体数据。
可选的,采用所述实体数据和所述关系数据进行知识图谱构建,得到知识图谱,包括:
将所述实体数据和所述关系数据写入图数据库,得到所述知识图谱。
本申请还提供一种知识图谱构建装置,包括:
实体关系数据获取模块,用于基于网络安全数据模型从数据源进行数据提取,获得实体数据和关系数据;其中,所述网络安全数据模型为根据网络数据的安全特征构建的针对于实体类型、关系类型以及属性信息的数据模型;
知识图谱构建模块,用于采用所述实体数据和所述关系数据进行知识图谱构建,得到知识图谱。
本申请还提供一种知识图谱构建系统,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的知识图谱构建方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的知识图谱构建方法的步骤。
本申请所提供的一种知识图谱构建方法,包括:基于网络安全数据模型从数据源进行数据提取,获得实体数据和关系数据;其中,所述网络安全数据模型为根据网络数据的安全特征构建的针对于实体类型、关系类型以及属性信息的数据模型;采用所述实体数据和所述关系数据进行知识图谱构建,得到知识图谱。
通过预设好的模型从多数据源中抽取数据,由于采用的模型为网络安全数据模型,使得网络数据的安全特征对实体数据以及属性和关系数据及其属性进行提取,以提高获取到的实体数据和关系数据的有效性和可靠性,进而再采用该实体数据和关系数据进行知识图谱构建,得到有效的知识图谱,提高对网络数据进行分析的有效性,提高了知识图谱的准确性。
本申请还提供一种知识图谱构建装置、知识图谱构建系统以及计算机可读存储介质,具有以上有益效果,在此不做赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种知识图谱构建方法的流程图;
图2为本申请实施例所提供的一种知识图谱构建方法的知识图谱示意图;
图3为本申请实施例所提供的一种知识图谱构建方法中数据提取流程的流程图;
图4为本申请实施例所提供的一种知识图谱构建装置的结构示意图;
图5为本申请实施例所提供的一种知识图谱构建系统的结构示意图。
具体实施方式
本申请的核心是提供一种知识图谱构建方法、知识图谱构建装置、知识图谱构建系统以及计算机可读存储介质,以提高构建出的知识图谱的准确性和有效性。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中,通常采用预设规则的方式对网络数据进行匹配,以便从网络数据中发现相关的威胁数据或者是安全知识。还可以对网络数据构建安全知识图谱,以便从安全知识图谱中发现新的威胁或安全知识。但是,由于网络数据的复杂性和多样性,导致基于网络数据构建出的知识图谱没有办法符合实际的网络安全场景,导致无法从知识图谱中分析出有效的网络安全知识,降低了知识图谱的准确性和有效性。
因此,本申请提供一种知识图谱构建方法,通过预设好的模型从多数据源中抽取数据,由于采用的模型为网络安全数据模型,使得网络数据的安全特征对实体数据以及属性和关系数据及其属性进行提取,以提高获取到的实体数据和关系数据的有效性和可靠性,进而再采用该实体数据和关系数据进行知识图谱构建,得到有效的知识图谱,提高对网络数据进行分析的有效性,提高了知识图谱的准确性。
进一步的,相关技术中的知识图谱的实体和关系与实际网络中的安全问题中实体和关系不符,使得技术人员无法以简单明了的实体和关系去理解图谱,增加了理解的难度。并且,知识图谱中的实体冗余了较多的属性和关系信息,导致存在较大的耦合性。关系抽象的不清晰,冗余了实体或属性信息,或粒度太粗,或粒度太细,导致关系含糊不清,分析困难。降低了最终生成的知识图谱的准确性和有效性。
简单来说,相关技术中无法从网络数据中抽取到有效的实体数据和关系数据,进而降低了知识图谱的效果。因此,为了提高知识图谱的有效性,以下通过一个实施例,对本申请提供的一种知识图谱构建方法进行说明。
请参考图1,图1为本申请实施例所提供的一种知识图谱构建方法的流程图。
本实施例中,该方法可以包括:
S101,基于网络安全数据模型从数据源进行数据提取,获得实体数据和关系数据;其中,网络安全数据模型为根据网络数据的安全特征构建的针对于实体类型、关系类型以及属性信息的数据模型;
可见,本步骤旨在基于网络安全数据模型从数据源进行数据提取,获得实体数据和关系数据。也就是从原始数据中抽取到用于进行图谱构建的实体数据和关系数据。进一步的,本步骤中主要是基于该网络安全数据模型从数据源进行数据提取,得到符合该网络安全数据模型的实体数据和关系数据,而不是直接基于原始的网络数据进行实体数据和关系数据的提取,避免了实体数据和关系数据的不符合实际的安全场景,降低了数据的冗余问题。
其中,本步骤采用的网络安全数据模型即为根据网络数据的安全特征构建的针对于实体类型、关系类型以及属性信息的数据模型。
进一步的,该数据模型可以为图数据模型。
该网络安全数据模型中的实体数据和关系数据可以表征网络数据中的安全问题,因此也是与网络安全问题最相关的实体数据和关系数据。基于该网络安全数据模型进行数据提取,可以排除网络中复杂且冗余的各项信息数据,提取出网络数据中与安全最相关的实体数据和关系数据,保持了提取数据的有效性和精度。
并且,该网络安全数据模型中还包括了实体类型对应的属性信息和关系类型对应的属性信息。因此,可以基于该属性信息分别对获取到的实体数据的属性和关系数据的属性进行处理,以剔除实体数据和关系数据中的冗余属性,并且对不足的属性进行查找并补充。
此外,当发生数据源的变化时,可以基于数据源中数据的安全特征增加或减少模型中的实体和关系,以保持模型的可靠性。
举例来说,在一般的网络数据中,采用的网络安全数据模型中的实体类型和关系类型可以包括:
实体类型,包括:
Domain(域名):表示域名实体;
URL(uniform resource locator,统一资源定位系统):表示URL实体;
IP(Internet Protocol,网际互连协议):表示IP实体;
File(文件):表示文件样本实体。
关系类型,包括:
HOST_OF:表示Domain是URL的站点;
PARENT_DOMAIN_OF:表示,域名是子域名的父亲;
RESOLVE_TO_IP:表示域名解析到IP;
RESOLVE_TO_DOMAIN:表示域名解析到域名;
DOWNLOAD_TO:表示URL下载到文件;
DROP_TO:表示文件释放了文件;
CONTACT_TO_DOMAIN/IP/.URL:表示文件通信到域名、IP、URL。
可见,基于上述的网络安全数据模型,对数据进行提取的实体类型包括:Domain、URL、IP、File。关系类型包括HOST_OF、PARENT_DOMAIN_OF、RESOLVE_TO_IP、RESOLVE_TO_DOMAIN、DOWNLOAD_TO、DROP_TO、CONTACT_TO_DOMAIN/IP/.URL。
进一步的,基于该网络安全数据模型就可以从网络数据中提取出对应类型的实体数据和关系数据,提高了实体数据和关系数据对于实际安全问题进行表征的有效性。
S102,采用实体数据和关系数据进行知识图谱构建,得到知识图谱。
在S101的基础上,本步骤旨在采用实体数据和关系数据进行知识图谱构建,得到知识图谱。其中,进行知识图谱构建的方式可以采用现有技术提供的任意一种知识图谱构建方式,在此不做具体限定。
请参考图2,图2为本申请实施例所提供的一种知识图谱构建方法的知识图谱示意图。
可见,图中的实体数据和关系数据主要是以上述的实体类型和关系类型为例,然后构建对应的知识图谱。
进一步的,为了提高构建知识图谱的效率,本步骤可以包括:
将实体数据和关系数据写入图数据库,得到知识图谱。
可见,本申请技术方案也就是将实体数据和关系数据直接存入对应的图数据库,直接在图数据库中生成对应的知识图谱。
其中,可以采用的图数据库可以包括Neo4j、nebula graph等。
综上,本实施例通过预设好的模型从多数据源中抽取数据,由于采用的模型为网络安全数据模型,使得网络数据的安全特征对实体数据以及属性和关系数据及其属性进行提取,以提高获取到的实体数据和关系数据的有效性和可靠性,进而再采用该实体数据和关系数据进行知识图谱构建,得到有效的知识图谱,提高对网络数据进行分析的有效性,提高了知识图谱的准确性。
进一步的,为了从数据源中抽取出更加符合实际情况的实体数据和关系数据,提高数据抽取的准确性。以下通过一个具体的实施例,对本申请提供的一种知识图谱构建方法做进一步说明。
请参考图3,图3为本申请实施例所提供的一种知识图谱构建方法中数据提取流程的流程图。
本实施例中,该方法可以包括:
S201,基于多数据源获取多源异构数据;
在S201的基础上,主要是基于多数据源获取多源异构数据。
进一步的,为了获取到更加完全的数据内容,提高数据的丰富性。本步骤可以包括:
步骤2011,从安全数据库获取威胁情报数据;
步骤2012,在沙盒环境执行可执行文件,并记录行为数据得到沙盒执行数据;
步骤2013,从归属信息查询平台进行查询,得到网络安全信息数据;
步骤2014,将威胁情报数据、沙盒执行数据以及网络安全信息数据作为多源异构数据。
可见,本可选方案中主要是说明如何获取到多源异构数据。本可选方案中,从安全数据库获取威胁情报数据,在沙盒环境执行可执行文件,并记录行为数据得到沙盒执行数据,从归属信息查询平台进行查询,得到网络安全信息数据。也就是,从三个不同的数据源中获取到数据。其中,获取的数据可以存储在主流数据库如MySQL,MongoDB,Hbase,或大数据数仓或文件系统,如Hive,HDFS(Hadoop Distributed File System,分布式文件系统)中。
其中,威胁情报数据为IOC(Indicator of compromise)数据,意为威胁指示器,通常指的是在检测或取证中,具有高置信度的威胁对象或特征信息。企业侧的流量检测或主机检测设备,通过预设格式(OpenIOC(Open Indicator of Compromise,安全威胁情报共享框架),STIX(Structured Threat Information eXpression,一种标准化语言)或私有格式)消费该类情报。
其中,沙盒执行数据包含了执行文件时的行为数据,执行文件时对互联网产生的网络流量数据。例如,如文件对IP、域名、URL的通信关系,域名解析到域名或IP的解析关系,文件从URL进行下载文件的关系等。
其中,归属信息查询平台可以包括Whois,Pdns,漏洞信息查询平台等平台。
其中,Pdns(passive dns,被动DNS)是一种存储dns解析数据的方式,用来参考过去的dns解析记录值去发现潜在的安全事件或发现恶意基础设施。Whois用于查询域名的IP以及所有者等信息的传输协议,也即whois就是一个用来查询域名是否已经被注册,以及注册域名的详细信息的数据库,如域名所有人、域名注册商。
进一步的,可以通过Whois可获取到注册人、注册机构等对域名的持有关系。可以通过Pdns,可以提取出域名解析到的IP关系,域名解析到的域名关系数据。可以通过对域名取顶级域名,可以获取到子父域名关系。可以通过对URL提取域名,可以获取到URL是属于域名站点的关系。
最后,将威胁情报数据、沙盒执行数据以及网络安全信息数据作为多源异构数据。
S202,基于网络安全数据模型的实体类型与关系类型对多源异构数据进行类型匹配,得到初始实体数据和初始关系数据;
在S201的基础上,本步骤旨在基于网络安全数据模型的实体类型与关系类型对多源异构数据进行类型匹配,得到初始实体数据和初始关系数据。也就是,从多源异构数据中进行数据提取。
进一步的,提高提取实体数据和关系数据的有效性和准确性,本步骤可以包括:
步骤2021,从威胁情报数据中提取类型为域名、URL、File以及IP的数据,作为初始实体数据;
步骤2022,从沙盒执行数据和网络安全信息数据中提取初始实体数据之间的符合关系类型的数据,得到初始关系数据。
可见,本可选方案中主要是说明如何进行提取得到初始实体数据、初始关系数据。分别从威胁情报数据中提取类型为域名、URL、File以及IP的数据,作为初始实体数据,再从沙盒执行数据和网络安全信息数据中提取初始实体数据之间的符合关系类型的数据,得到初始关系数据。
S203,基于实体类型对应的属性信息对初始实体数据的属性进行融合,得到实体数据;
S204,基于关系类型对应的属性信息对初始关系数据的属性进行融合,得到关系数据。
在S202的基础上,S203和S204旨在基于对应的属性信息分别对初始实体数据的属性和初始关系数据的属性进行融合,得到实体数据和关系数据。
也就是,在获取到的初始实体数据和初始关系数据中存在较多的冗余属性,和未添加的空缺属性,导致无效的属性数据较多,且属性数据还存在不足够的问题,降低了属性的有效性。因此,本步骤中主要是将冗余属性剔除,然后补充空缺的属性。
其中,实体和关系,都会存在对应的属性值,即属性。这类数据由key-value组成,表明实体存在的属性,及关系存在的属性。
由于实体在抽取过程中,可能存在属性值不在被抽取的数据源中,因此本步骤可以对获取到的实体进行空缺属性的查找,并对该实体补充相关的属性信息。
其中,域名/IP/URL/File实体可以包括:域名/IP/URL/File样本的信誉属性(包括:恶意样本/可疑样本/安全样本)。样本在情报鉴定过程中可能会存在的标签属性(例如:动态域名、反向解析域名、dns服务器等附属属性信息)。
其中,关系的属性,可以包括:通信协议(tcp/udp/http/dns)、通信的目的端口和目的IP、解析关系的解析类型、解析时间。
进一步的,为了提高实体数据中属性的有效性,降低其中的冗余属性的数量。S203可以包括:
步骤2031,将初始实体数据中相同的实体进行融合,得到已融合的实体数据;
步骤2032,基于实体类型对应的属性信息确定已融合的实体数据的空缺属性和冗余属性;
步骤2033,将已融合的实体数据中的冗余属性进行剔除,对空缺属性进行查询,并基于查询结果对已融合的实体数据进行补充,得到实体数据。
可见,本可选方案主要是说明如何对实体数据进行属性融合。
进一步的,为了提高关系数据中属性的有效性,降低其中的冗余属性的数量。S204可以包括:
步骤2041,将初始关系数据中相同的关系进行融合,得到已融合的关系数据;
步骤2042,基于关系类型对应的属性信息确定已融合的关系数据的空缺属性和冗余属性;
步骤2043,将已融合的关系数据中的冗余属性进行剔除,对空缺属性进行查询,并基于查询结果对已融合的关系数据进行补充,得到关系数据。
可见,本可选方案主要是说明如何对关系数据进行属性融合。
此外,为了进一步的提高数据的有效性,避免数据中的异常数据,在S203和S204之前,还可以包括:
步骤1,基于实体定义信息逐一判断初始实体数据中的实体描述信息是否合法;
步骤2,若否,将实体描述信息从初始实体数据中剔除,并将实体描述信息对应的关系描述信息从初始关系数据中剔除。
可见,本实施例中主要是对获取到的实体数据进行合法性过滤,将不合法的实体数据及其对应的关系数据进行提取,提高数据的准确性。
其中,实体定义信息主要是满足业界对实体合法性的定义。
其中,域名满足RFC 1035和RFC 3696对域名的描述,RFC:Request for Comments请求注释文档;
其中,IP满足RFC791中对域名的描述;
其中,URL满足RFC1738对域名的描述;
其中,文件采用文件hash值,该文件hash值需满足md5,sha128,sha256的要求;
其他类的实体需要满足业界对其的要求,比如CVE(Common Vulnerabilities andExposures,公共漏洞和暴露)的要求。
可见,本实施例通过预设好的模型从多数据源中抽取数据,由于采用的模型为网络安全数据模型,使得网络数据的安全特征对实体数据以及属性和关系数据及其属性进行提取,以提高获取到的实体数据和关系数据的有效性和可靠性,进而再采用该实体数据和关系数据进行知识图谱构建,得到有效的知识图谱,提高对网络数据进行分析的有效性,提高了知识图谱的准确性。
下面对本申请实施例提供的知识图谱构建装置进行介绍,下文描述的知识图谱构建装置与上文描述的知识图谱构建方法可相互对应参照。
请参考图4,图4为本申请实施例所提供的一种知识图谱构建装置的结构示意图。
本实施例中,该装置可以包括:
实体关系数据获取模块100,用于基于网络安全数据模型从数据源进行数据提取,获得实体数据和关系数据;其中,网络安全数据模型为根据网络数据的安全特征对实体数据和关系数据以及分别对应的属性信息进行构建得到的数据模型;
知识图谱构建模块200,用于采用实体数据和关系数据进行知识图谱构建,得到知识图谱。
可选的,该实体关系数据获取模块100,可以包括:
异构数据获取单元,用于基于多数据源获取多源异构数据;
数据类型匹配单元,用于基于网络安全数据模型的实体类型与关系类型对多源异构数据进行类型匹配,得到初始实体数据和初始关系数据;
实体属性融合单元,用于基于实体类型对应的属性信息对初始实体数据的属性进行融合,得到实体数据;
关系属性融合单元,用于基于关系类型对应的属性信息对初始关系数据的属性进行融合,得到关系数据。
可选的,该异构数据获取单元,具体用于从安全数据库获取威胁情报数据;在沙盒环境执行可执行文件,并记录行为数据得到沙盒执行数据;从归属信息查询平台进行查询,得到网络安全信息数据;将威胁情报数据、沙盒执行数据以及网络安全信息数据作为多源异构数据。
可选的,该数据类型匹配单元,具体用于从威胁情报数据中提取类型为域名、URL、File以及IP的数据,作为初始实体数据;从沙盒执行数据和网络安全信息数据中提取初始实体数据之间的符合关系类型的数据,得到初始关系数据。
可选的,该实体属性融合单元,具体用于将初始实体数据中相同的实体进行融合,得到已融合的实体数据;基于实体类型对应的属性信息确定已融合的实体数据的空缺属性和冗余属性;将已融合的实体数据中的冗余属性进行剔除,对空缺属性进行查询,并基于查询结果对已融合的实体数据进行补充,得到实体数据。
可选的,该知识图谱构建模块200,具体用于将实体数据和关系数据写入图数据库,得到知识图谱。
请参考图5,图5为本申请实施例所提供的一种知识图谱构建系统的结构示意图。
本申请实施例还提供一种知识图谱构建系统,该知识图谱构建系统可以包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如以上实施例所述的知识图谱构建方法的步骤。
如图5所示,为知识图谱构建系统的组成结构示意图,知识图谱构建系统可以包括:处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
在本申请实施例中,处理器10可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
处理器10可以调用存储器11中存储的程序,具体的,处理器10可以执行知识图谱构建方法的实施例中的操作。
存储器11中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本申请实施例中,存储器11中至少存储有用于实现以下功能的程序:
基于网络安全数据模型从数据源进行数据提取,获得实体数据和关系数据;其中,网络安全数据模型为根据网络数据的安全特征构建的针对于实体类型、关系类型以及属性信息的数据模型;
采用实体数据和关系数据进行知识图谱构建,得到知识图谱。
在一种可能的实现方式中,存储器11可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能所需的应用程序等;存储数据区可存储使用过程中所创建的数据。
此外,存储器11可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
通信接口12可以为通信模块的接口,用于与其他设备或者系统连接。
当然,需要说明的是,图5所示的结构并不构成对本申请实施例中知识图谱构建系统的限定,在实际应用中知识图谱构建系统可以包括比图5所示的更多或更少的部件,或者组合某些部件。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如以上实施例所述的知识图谱构建方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种知识图谱构建方法、知识图谱构建装置、知识图谱构建系统以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种知识图谱构建方法,其特征在于,包括:
基于网络安全数据模型从数据源进行数据提取,获得实体数据和关系数据;其中,所述网络安全数据模型为根据网络数据的安全特征构建的针对于实体类型、关系类型以及属性信息的数据模型;
采用所述实体数据和所述关系数据进行知识图谱构建,得到知识图谱。
2.根据权利要求1所述的知识图谱构建方法,其特征在于,基于网络安全数据模型从数据源进行数据提取,获得实体数据和关系数据,包括:
基于多数据源获取多源异构数据;
基于所述网络安全数据模型的实体类型与关系类型对所述多源异构数据进行类型匹配,得到初始实体数据和初始关系数据;
基于所述实体类型对应的属性信息对所述初始实体数据的属性进行融合,得到所述实体数据;
基于所述关系类型对应的属性信息对所述初始关系数据的属性进行融合,得到所述关系数据。
3.根据权利要求2所述的知识图谱构建方法,其特征在于,基于多数据源获取多源异构数据,包括:
从安全数据库获取威胁情报数据;
在沙盒环境执行可执行文件,并记录行为数据得到沙盒执行数据;
从归属信息查询平台进行查询,得到网络安全信息数据;
将所述威胁情报数据、所述沙盒执行数据以及所述网络安全信息数据作为所述多源异构数据。
4.根据权利要求3所述的知识图谱构建方法,其特征在于,基于所述网络安全数据模型的实体类型与关系类型对所述多源异构数据进行类型匹配,得到初始实体数据和初始关系数据,包括:
从所述威胁情报数据中提取类型为域名、URL、File以及IP的数据,作为所述初始实体数据;
从所述沙盒执行数据和所述网络安全信息数据中提取所述初始实体数据之间的符合关系类型的数据,得到所述初始关系数据。
5.根据权利要求2所述的知识图谱构建方法,其特征在于,在分别对所述初始实体数据的属性和初始关系数据的属性进行融合之前,还包括:
基于实体定义信息逐一判断所述初始实体数据中的实体描述信息是否合法;
若否,将所述实体描述信息从所述初始实体数据中剔除,并将所述实体描述信息对应的关系描述信息从所述初始关系数据中剔除。
6.根据权利要求2所述的知识图谱构建方法,其特征在于,基于所述实体类型对应的属性信息对所述初始实体数据的属性进行融合,得到所述实体数据,包括:
将所述初始实体数据中相同的实体进行融合,得到已融合的实体数据;
基于所述实体类型对应的属性信息确定所述已融合的实体数据的空缺属性和冗余属性;
将所述已融合的实体数据中的所述冗余属性进行剔除,对所述空缺属性进行查询,并基于查询结果对所述已融合的实体数据进行补充,得到所述实体数据。
7.根据权利要求1至6任一项所述的知识图谱构建方法,其特征在于,采用所述实体数据和所述关系数据进行知识图谱构建,得到知识图谱,包括:
将所述实体数据和所述关系数据写入图数据库,得到所述知识图谱。
8.一种知识图谱构建装置,其特征在于,包括:
实体关系数据获取模块,用于基于网络安全数据模型从数据源进行数据提取,获得实体数据和关系数据;其中,所述网络安全数据模型为根据网络数据的安全特征构建的针对于实体类型、关系类型以及属性信息的数据模型;
知识图谱构建模块,用于采用所述实体数据和所述关系数据进行知识图谱构建,得到知识图谱。
9.一种知识图谱构建系统,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的知识图谱构建方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的知识图谱构建方法的步骤。
CN202111604826.5A 2021-12-24 2021-12-24 一种知识图谱构建方法及相关装置 Pending CN114297403A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111604826.5A CN114297403A (zh) 2021-12-24 2021-12-24 一种知识图谱构建方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111604826.5A CN114297403A (zh) 2021-12-24 2021-12-24 一种知识图谱构建方法及相关装置

Publications (1)

Publication Number Publication Date
CN114297403A true CN114297403A (zh) 2022-04-08

Family

ID=80968839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111604826.5A Pending CN114297403A (zh) 2021-12-24 2021-12-24 一种知识图谱构建方法及相关装置

Country Status (1)

Country Link
CN (1) CN114297403A (zh)

Similar Documents

Publication Publication Date Title
US11973799B2 (en) Domain name processing systems and methods
CN106789831B (zh) 识别网络攻击的方法和装置
AU2018208693B2 (en) A system to identify machines infected by malware applying linguistic analysis to network requests from endpoints
CN109643358B (zh) 跨租户数据泄漏隔离
CN109446819B (zh) 越权漏洞检测方法及装置
CN109194671B (zh) 一种异常访问行为的识别方法及服务器
CN103888490A (zh) 一种全自动的web客户端人机识别的方法
CN113489713B (zh) 网络攻击的检测方法、装置、设备及存储介质
CN110677384B (zh) 钓鱼网站的检测方法及装置、存储介质、电子装置
CN111259282B (zh) Url去重方法、装置、电子设备及计算机可读存储介质
CN108900554B (zh) Http协议资产检测方法、系统、设备及计算机介质
US11570196B2 (en) Method for determining duplication of security vulnerability and analysis apparatus using same
CN113242236A (zh) 一种网络实体威胁图谱构建方法
CN111104579A (zh) 一种公网资产的识别方法、装置及存储介质
CN112131577A (zh) 一种漏洞检测方法、装置、设备及计算机可读存储介质
CN111835777A (zh) 一种异常流量检测方法、装置、设备及介质
CN112347501A (zh) 数据处理方法、装置、设备及存储介质
CN111277461A (zh) 一种内容分发网络节点的识别方法、系统及设备
Aase et al. Whiskey, Weed, and Wukan on the World Wide Web: On Measuring Censors' Resources and Motivations.
US11582226B2 (en) Malicious website discovery using legitimate third party identifiers
CN114189390A (zh) 一种域名检测方法、系统、设备及计算机可读存储介质
CN112699280A (zh) 网站监测方法、网站图谱建立方法、装置及电子设备
CN114297403A (zh) 一种知识图谱构建方法及相关装置
CN113726826B (zh) 一种威胁情报生成方法及装置
CN115361182A (zh) 一种僵尸网络行为分析方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination