CN112256889B

CN112256889B - 一种安全实体的知识图谱构建方法、装置、设备和介质

Info

Publication number: CN112256889B
Application number: CN202011233266.2A
Authority: CN
Inventors: 彭力扬; 谢鸿明; 李振博; 谢冉
Original assignee: Qax Technology Group Inc; Secworld Information Technology Beijing Co Ltd
Current assignee: Qax Technology Group Inc; Secworld Information Technology Beijing Co Ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2024-04-12
Anticipated expiration: 2040-11-06
Also published as: CN112256889A

Abstract

本发明公开了一种安全实体的知识图谱构建方法，解决现有技术中无法快速准确的发现对安全有严重威胁的安全实体的技术问题，所述方法包括：获取用户的查杀日志；解析所述查杀日志以得到安全实体的关联关系；在解析得到的所有所述关联关系中，统计每类关联关系出现的次数；根据所述每类关联关系的次数确定相应的所述关联关系的权重值；根据所述关联关系的权重值筛选出用于构建知识图谱的关联关系；以筛选出的关联关系中包括的安全实体为基础构建所述知识图谱。本发明公开了一种安全实体的知识图谱构建装置、一种计算机设备和一种计算机可读存储介质。

Description

一种安全实体的知识图谱构建方法、装置、设备和介质

技术领域

本发明涉及计算机技术领域，具体涉及一种安全实体的知识图谱构建方法、装置、计算机设备和计算机可读存储介质。

背景技术

在查杀样本为存在安全威胁的样本时，该存在安全威胁的查杀样本可称为病毒样本，病毒样本是导致安全威胁事件的重要因素，且与病毒样本通过与其他安全实体交互，可以共同实施恶意行为。而在互联网时代，每天都会出现海量的新样本，安全分析人员快速准确的发现哪些安全实体是对安全有严重威胁的，无疑是一种挑战。

针对现有技术中无法快速准确的发现对安全有严重威胁的安全实体的技术问题，目前尚未提供有效的解决方案。

发明内容

本发明的目的在于提供了一种安全实体的知识图谱构建方法、装置、计算机设备和计算机可读存储介质，能够解决现有技术中无法快速准确的发现对安全有严重威胁的安全实体的技术问题。

本发明的一个方面提供了一种安全实体的知识图谱构建方法，所述方法包括：获取用户的查杀日志；解析所述查杀日志以得到安全实体；统计共现的两个安全实体构成的实体对在所述日志中出现的次数；根据所述次数，确定用于衡量所述实体对中安全实体之间关联关系大小的权重值；根据所述权重值，筛选用于构建知识图谱的实体对；以筛选出的实体对中包括的安全实体为基础构建所述知识图谱。

可选地，根据所述次数，确定用于衡量所述实体对中安全实体之间关联关系大小的权重值的步骤包括：确定每个实体对所在的查杀日志的日期；在确定的所述日期不唯一时，从确定的所述日期中筛选出距离当前日期最近的日期；计算所述当前日期距离筛选出的日期的日期间隔；根据每个实体对出现的次数和所述日期间隔确定相应实体对中安全实体之间关联关系大小的权重值。

可选地，根据每个实体对出现的次数和所述日期间隔确定相应实体对中安全实体之间关联关系大小的权重值的步骤包括：通过如下公式确定权重值：

W＝n*C^x，

其中，W为某一实体对中安全实体之间关联关系大小的权重值，n为该实体对出现的次数，C为常数，x为日期间隔。

可选地，根据所述次数，确定用于衡量所述实体对中安全实体之间关联关系大小的权重值的步骤包括：从所述共现的两个安全实体构成的实体对中提取出包括用户和目标安全实体的实体对；确定所述目标安全实体在获取的所有用户的查杀日志中出现的次数；根据提取的所述实体对的次数和所述目标安全实体在获取的所有用户的查杀日志中出现的次数确定提取的所述实体对中实体之间关联关系大小的权重值。

可选地，所述根据提取的所述实体对的次数和所述目标安全实体在获取的所有用户的查杀日志中出现的次数确定提取的所述实体对中实体之间关联关系大小的权重值的步骤包括：其中，W_i,j为提取的实体对中实体之间关联关系大小的权重值，n_i为提取的实体对出现的次数，n_j为提取的实体对中所包括的用户的查杀日志中出现的所有所述安全实体的数量，N为获取的所有用户的数量，df_i为所述目标安全实体在获取的所有用户的查杀日志中出现的次数。

可选地，该方法还包括：在所述以筛选出的实体对中包括的安全实体为基础构建所述知识图谱的步骤之后，从所述知识图谱中筛选出包含用户和具有第一属性的安全实体之间具有直接关联关系的实体对；根据筛选出的所述具有直接关联关系的实体对，确定具有第一属性的安全实体之间具有间接关联关系的实体对；针对每个具有第一属性的安全实体A，构建其与每一个用户之间关系的矩阵,计作矩阵A’＝[a1,a2…，ai，…an]，其中，ai为安全实体A与第i个用户之间的关系，所述关系包括直接关联关系和非直接关联关系；在包含多个矩阵A’时，计算所述多个矩阵A’中两个矩阵之间的相似度；提取相似度大于等于相似度阈值的两个矩阵，确定两个矩阵对应的安全实体A，并将确定的两个安全实体A组成实体对，作为构建的所述知识图谱的补充属性信息。

可选地，在包含多个矩阵A’时，计算所述多个矩阵A’中两个矩阵之间的相似度的步骤包括：将具有间接关联关系的第一属性的安全实体A构建的两个矩阵作为计算目标，计算该两个矩阵的相似度，具体包括：在计算目标的一个矩阵A’＝[a1,a2…，ai，…an]中，提取表征具有直接关联关系ai对应的用户，形成第一用户集；在计算目标的另一个矩阵A’＝[a1,a2…，ai，…an]中，提取表征直接关联关系ai对应的用户，形成第二用户集；统计所述第一用户集和所述第二用户集中相同用户的数量；统计所述第一用户集和所述第二用户集中所有用户的数量；计算统计出的所述相同用户的数量与所述所有用户的数量的比值，作为两个矩阵之间的相似度。

可选地，根据所述权重值，筛选用于构建知识图谱的实体对的步骤包括：计算解析得到的所有所述实体对的权重总值；计算每类所述实体对的权重值与所述权重总的比值；将比值大于等于预设比值阈值的关联关系确定为用于构建所述知识图谱的关联关系。

可选地，根据所述权重值，筛选用于构建知识图谱的实体对的步骤包括：将每个实体对的权重值按照大小关系排序；将排列在预设数量之前的实体对确定为用于构建所述知识图谱的关联关系。

本发明的另一个方面提供了一种安全实体的知识图谱构建装置，所述装置包括：获取模块，用于获取用户的查杀日志；解析模块，用于解析所述查杀日志以得到安全实体；统计模块，用于统计共现的两个安全实体构成的实体对在所述日志中出现的次数；确定模块，用于根据所述次数，确定用于衡量所述实体对中安全实体之间关联关系大小的权重值；筛选模块，用于根据所述权重值，筛选用于构建知识图谱的实体对；构建模块，用于以筛选出的实体对中包括的安全实体为基础构建所述知识图谱。

本发明的又一个方面提供了一种计算机设备，所述计算机设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的安全实体的知识图谱构建方法。

本发明的又一个方面提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时实现上述任一实施例所述的安全实体的知识图谱构建方法。

本发明提供的安全实体的知识图谱构建方法，在解析用户的查杀日志得到安全实体的关联关系之后，统计现的两个安全实体构成的实体对出现的次数，然后根据次数确定实体对的权重值，并筛选出权重值较高的实体对作为构建知识图谱的实体对，这些筛选出的实体对的安全实体的关联关系一般为强关联，强关联即为关联关系中包括的安全实体经常一起出现，通过这些强关联构建知识图谱，一旦检测到任一存在安全威胁的安全实体时，通过知识图谱即可快速准确的发现与该存在安全威胁的安全实体经常一起出现的其他安全实体，进而实现快速准确的发现对安全有严重威胁的安全实体的技术效果。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示意性示出了根据本发明实施例的安全实体的知识图谱构建方法的流程图；

图2示意性示出了根据本发明实施例的安全实体的知识图谱的示意图；

图3示意性示出了根据本发明实施例的安全实体的知识图谱构建装置的框图；

图4示意性示出了根据本发明实施例的适于实现安全实体的知识图谱构建方法的计算机设备的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

样本行为可以看成是样本与其他安全实体的关联关系，这里的其他安全实体例如可以为用户、HTTP、DNS(Domain Name System，域名系统(服务)协议)、域名、远程站点的IP、进程行为链等等，且样本可能与多个其他安全实体产生关联关系。在用户的查杀日志的日志行中，一个样本与某个其他实体共现一次，称该样本与该其他安全实体的关联关系为一次基本关联，如果一个样本在查杀日志中频繁地与某个其他安全实体产生这种基本关联，可以称该样本与该其他安全实体存在强关联。通过强关联可以发现哪些安全实体的经常一起出现，一旦有一个安全实体为存在安全威胁的实体，则可以将这些与该存在安全威胁的安全实体经常一起出现的安全实体一起进行分析。然而，发明人进一步发现，若是单纯对用户的查杀日志进行检索，往往只能发现样本与其他安全实体之间的基本关联，故通过这种直接的日志检索基本不可能发现强关联。另外，一些现有技术中也会使用沙箱或蜜罐方式观察样本行为，但是发明人分析发现：制作病毒样本的人会根据样本的执行环境来伪装样本的行为，如检查样本是否处于沙箱环境来决定样本是否实施恶意行为，或者基于用户端的IP来屏蔽掉一些监控环境，这就导致沙箱或蜜罐无法捕捉到样本的真实行为，并且由于样本行为的多变性，沙箱无法捕捉到较为全面的样本行为。因此，发明人研究出一种安全实体的知识图谱构建方法、装置、计算机设备和计算机可读存储介质，通过基本关联发现强关联，并通过强关联构建安全实体的知识图谱，这样，可以直观明了的知道各个关联度较强的安全实体之间的关系，在检测到任一存在安全威胁的安全实体时，通过知识图谱可以快速准确的发现与该存在安全威胁的安全实体经常一起出现的其他安全实体，进而实现快速准确的发现对安全有严重威胁的安全实体的技术效果。

具体地，图1示意性示出了根据本发明实施例的安全实体的知识图谱构建方法的流程图。如图1所示，该安全实体的知识图谱构建方法可以包括步骤S1～步骤S6，其中：

步骤S1，获取用户的查杀日志。

其中，本实施例可以是获取一个、两个或多个用户中每个用户的查杀日志，优选地，获取多个用户的查杀日志。查杀日志可以是各种形式的查杀日志，如云查杀日志，其中，云查杀日志是指在用户端出现未知安全级别的查杀样本时，需要上传到云端，由云端的病毒查杀引擎检查上传的查杀样本的安全级别，并在云端留下查杀日志，这种日志即称为云查杀日志。

步骤S2，解析所述查杀日志以得到安全实体。

步骤S3，统计共现的两个安全实体构成的实体对在所述日志中出现的次数；

每个实体对包括两个安全实体，这两个安全实体是在用户的查杀日志的某个查杀日志行中共现的。如，某个查杀日志行中有：用户1、域名1和进程1，则该查杀日志行有三个关联关系(三个实体对)，一个关联关系(实体对)为：用户1和域名1，另一个关联关系(实体对)为：用户1和进程1，再一个关联关系(实体对)为：域名1和进程1。

本实施例中，优选关注的关联关系(实体对)为：样本与哪些典型的域名和IP关联，域名与哪些典型的通信协议、通信进程、通信端口和IP关联等等。

在解析得到的所有实体对中，可能包括很多种类，如一个实体对为：用户1和域名1，该实体对分别在3个查杀日志行中出现，则统计该实体对出现的次数为3次。

步骤S4，根据所述次数，确定用于衡量所述实体对中安全实体之间关联关系大小的权重值。

本实施例中，可以先根据所述每个实体对出现的次数确定该实体对的一个初始权重值，例如将每个实体对的次数确定为该实体对的一个初始权重值。

但是，考虑到有时需要对一些特别关注的实体对中安全实体之间关联关系的权重值进行调整，步骤S4还可以包括两种方案，具体如下。

方案一，考虑到有时需要关注出现日期较近的实体对，因此对于日期较远的实体对的权重值相对降低，相应地，对于日期较近的实体对的权重值会相对增加。如步骤S4可以包括步骤A1～步骤A4，其中：

步骤A1，确定所述每个实体对所在的查杀日志的日期；

步骤A2，在确定的所述日期不唯一时，从确定的所述日期中筛选出距离当前日期最近的日期；

步骤A3，计算所述当前日期距离筛选出的日期的日期间隔；

步骤A4，根据每个实体对出现的次数和所述日期间隔确定相应实体对中安全实体之间关联关系大小的权重值。

比如，结合上述示例，关联关系(用户1和域名1)出现的日期分别为3月12日，3月14日和3月17日，则计算3月17日和当前日期之间的日期间隔，然后执行步骤S4。其中，步骤A4具体可以通过以下公式进行权重值的确定：

W＝n*C^x

其中，W为某一实体对中安全实体之间关联关系大小的权重值，n为该实体对出现的次数，C为常数，x为日期间隔。根据用户经验C可以为0.99，当然还可根据需求调整为其他数值。

方案二，对于一些特别频繁出现关联关系要适当降权，如实体对中包括一域名，该域名为用户经常访问的域名，则关注该域名的实际意义不太大，因此可以适当对包含该域名的实体对降权；相应地，对于一些不经常出现的实体对增权。如步骤S4可以包括步骤B1～步骤B3，其中：

步骤B1，从所述共现的两个安全实体构成的实体对中提取出包括用户和目标安全实体的实体对；

步骤B2，确定所述目标安全实体在获取的所有用户的查杀日志中出现的次数；

步骤B3，根据提取的所述实体对的次数和所述目标安全实体在获取的所有用户的查杀日志中出现的次数确定提取的所述实体对中实体之间关联关系大小的权重值。

本实施例中，考虑到特别频繁出现的实体对主要是与用户行为有关的，因此本实施例主要考虑调整包含用户这一安全实体的实体对的权重值。目标安全实体可以是预设的与用户经常一起出现的需要特别关注的安全实体，也可以是预设的较少与用户一起出现的但也需要特别关注的安全实体，还可以是与用户一起出现的任一安全实体。其中，步骤B3具体可以为：

其中，W_i,j为提取的实体对中实体之间关联关系大小的权重值，n_i为提取的实体对出现的次数，n_j为提取的实体对中所包括的用户的查杀日志中出现的所有所述安全实体的数量，N为获取的所有用户的数量，df_i为所述目标安全实体在获取的所有用户的查杀日志中出现的次数。

本实施例主要基于TF-IDF的思想实现权重值的调整，即目标安全实体在与其关联的用户的查杀日志中出现的频率高，并且在其他用户的查杀日志中出现的频率少，则认为该目标安全实体具有很好的类别区分能力，即该目标安全实体与该用户的关联的重要度较高，可以适当对包含该用户与该目标安全实体的实体对加权，如将W_i,j作为该实体对的权重值，反之，可以降权，也可以将W_i,j作为对应需要降权的实体对的权重值。

步骤S5，根据所述实体对的权重值筛选出用于构建知识图谱的关联关系。

本实施例并不是将所有实体对都用来构建知识图谱，而是选择比较重要的实体对构建知识图谱。其中，步骤S5可以包括两种方案，具体如下。

方案一，步骤S5可以包括步骤C1～步骤C3，其中：

步骤C1，计算解析得到的所有所述实体对的权重总值；

步骤C2，计算每类所述实体对的权重值与所述权重总的比值；

步骤C3，将比值大于等于预设比值阈值的实体对确定为用于构建所述知识图谱的实体对。

如，得到的所有实体对为：实体对1(用户1和域名1)、实体对2(用户1和进程1)和实体对3(域名1和进程1)，实体对1的权重值为值1，实体对2的权重值为值2，实体对3的权重值为值3，则权重总值为值1+值2+值3，实体对1对应的比值1为：值1/(值1+值2+值3)，实体对2对应的比值2为：值2/(值1+值2+值3)，实体对3对应的比值3为：值3/(值1+值2+值3)。假设比值1和比值2均大于等于预设比值阈值，则可以将实体对1和实体对2作为用于构建所述知识图谱的实体对。

方案二，步骤S5可以包括步骤D1～步骤D2，其中：

步骤D1，将每类所述实体对的权重值按照大小关系排序；

步骤D2，将排列在预设数量之前的实体对确定为用于构建所述知识图谱的实体对。

例如，结合上述示例，值1>值2>值3，预设数量为2，则可以将实体对1和实体对2作为用于构建所述知识图谱的实体对。

步骤S6，以筛选出的实体对中包括的安全实体为基础构建所述知识图谱。

例如，如图2所示，图2示意性示出了根据本发明实施例的安全实体的知识图谱的示意图，在该知识图谱中，一个实体对包括用户ID和样本md5，一个实体对包括样本md5和的进程链，还有一个实体对包括用户ID和样本文件名，等等。

需要说明的是，上述提到的实体对中安全实体之间关联关系均为直接关联关系，通过直接关联关系可以确定间接关联关系，间接关联关系是以一个共同的安全实体为中间桥梁产生的，如一个对于直接关联关系(用户1和域名1)和一个直接关联关系(用户1和进程1)，产生的间接关联关系包括域名1和进程1。

考虑到有些间接关联关系中包含的安全实体之间的关联程度也是比较强的，共现的频次也比较高，因此通过确定关系比较密切的间接关联关系对快速准确的发现对安全有严重威胁的安全实体也是非常有帮助的。并且鉴于由用户作为中间桥梁产生的间接关联关系比较多，且基于用户鉴定这些间接关联关系的相似度也比较准确，因此本实施例重点关注由用户作为中间桥梁产生的间接关联关系，需知，由其他安全实体作为中间桥梁产生的间接关联关系的分析方法与用户作为中间桥梁产生的间接关联关系的分析一致。具体地，在步骤S6之后，所述方法还可以包括步骤E1～步骤E6，其中：

步骤E1，从所述知识图谱中筛选出包含用户和具有第一属性的安全实体之间具有直接关联关系的实体对；

具有第一属性的安全实体属于同一类安全实体，如样本类的安全实体，包括样本1、样本2、样本3、…等等。

例如，以具有第一属性的安全实体为样本类的安全实体为例，确定出的直接关联关系分别为：用户1-样本1，用户1-样本2，用户1-样本3，用户2-样本3，用户2-样本4。

步骤E2，根据筛选出的所述具有直接关联关系的实体对，确定具有第一属性的安全实体之间具有间接关联关系的实体对；

结合上述示例，间接关联关系为：样本1-样本2，样本1-样本3，样本2-样本3和样本3-样本4。

在上述的实施方式中，定义的用户与具有第一属性的安全实体之间存在的关系包括直接关联关系和非直接关联关系，例如，上述示例中直接关联关系分别为：用户1-样本1、用户1-样本2、用户1-样本3、用户2-样本3，用户2-样本4、那么根据上述直关联关系可以得出，用户1-样本4、用户2-样本1、用户2-样本2为非直接关联关系。

在上述实施例中，定义的具有第一属性的安全实体之间存在间接关联关系，例如，上述记载中直接关联关系分别为：用户1-样本1、用户1-样本2、用户1-样本3、用户2-样本3，用户2-样本4、那么根据上述关联关系可以得出，样本1-样本2，样本1-样本3，样本2-样本3和样本3-样本4为具有间接关联关系的样本。这里提到的具有间接关联关系的样本，是指两个样本之间通过且仅通过一个用户联结而产生的关系。

步骤E3，针对每个具有第一属性的安全实体A，构建其与每一个用户之间关系的矩阵,计作矩阵A’＝[a1,a2…，ai，…an]，其中，ai为安全实体A与第i个用户之间的关系，包括直接关联关系和非直接关联关系；

本实施例中，仍然以具有第一属性的安全实体为样本类的安全实体为例，假设从知识图谱中筛选出的这些具有直接关联关系的实体对中，包含了m个样本、n个用户，则可以组成m个1*n的矩阵，矩阵中的每个元素为安全实体A与一个用户之间的关系，包括直接关联关系和非直接关联关系，假定直接关联关系用数字1表示，非直接关联关系用数字0表示，如果某个用户与某个样本为直接关联关系，则与该用户和该样本对应的位置处填写1，如果某个用户与某个样本为无关系，则与该用户和该样本对应的位置处填写0，这样，每个目标关系即为一个长度为n的0/1向量，例如某一矩阵为：矩阵A’＝[1,1,0]，表示这个样本A与用户1为直接关联关系，与用户2为直接关联关系，与用户3为非直接关联关系。

步骤E4，在包含多个矩阵A’时，计算所述多个矩阵A’中两个矩阵之间的相似度；

在具有第一属性的安全实体(例如样本)为多个时，就会产生多个矩阵，此时，需要计算矩阵与矩阵之间的相似度，计算相似度的方法可以包括多种方案，具体地：

方案一：是采用现有技术中的余弦相似度或Pearson相似度等计算。

方案二：由于每天的安全实体的个数达到千万甚至上亿的数量级，若是采用方案一计算相似度会使得计算量非常大，因此本实施例对计算流程作出了优化，具体地，步骤E4可以包括步骤E41～步骤E4，其中：

步骤E41，先确定计算目标，其中，将具有间接关联关系的第一属性的安全实体A构建的两个矩阵作为计算目标；

本步骤中通过前述步骤E2的计算结果确定具有间接关联关系的第一属性的安全实体，进而确定需要进行计算比较的两个矩阵。

步骤E42，在计算目标的一个矩阵A’＝[a1,a2…，ai，…an]中，提取表征具有直接关联关系ai对应的用户，形成第一用户集；

步骤E43，在计算目标的另一个矩阵A’＝[a1,a2…，ai，…an]中，提取表征直接关联关系ai对应的用户，形成第二用户集；

步骤E44，统计所述第一用户集和所述第二用户集中相同用户的数量；

步骤E45，统计所述第一用户集和所述第二用户集中所有用户的数量；

步骤E46，计算统计出的所述相同用户的数量与所述所有用户的数量的比值，作为两个矩阵之间的相似度。

其中，本实施例表明了在计算所有的目标关系时，只要有两个矩阵时采用步骤E41～步骤E46的方案，即可实现流程优化，当然，优选所有的目标关系的相似度均采用步骤E41～步骤E46的方案实现。

具体地，可以以第一用户集和第二用户集的交集作为分子，以第一用户集和第二用户集的并集为分母，计算第一目标关系和第二目标关系的相似度。其中，该计算出的相似度与方案一中的得到的相似度是正相关的。

另外，再次考虑到数量级的问题，还可以充分利用集群的分布式计算能力，即将整个相似度计算过程拆解为一系列的map/reduce过程，然后汇总最终的计算结果。

需要说明的是，本实施例并不是计算所有目标关系之间的相似度，而是通过间接关联关系确定需要计算哪些目标关系之间的相似度，从而降低计算量。如，基于上述示例确定的间接关联关系，可知样本1和样本4之间并无间接关联关系，因此不需要计算样本1对应的目标关系和样本4对应的目标关系之间的相似度。

步骤E5，提取相似度大于等于相似度阈值的两个矩阵，确定两个矩阵对应的安全实体A，并将确定的两个安全实体A组成实体对，作为构建的所述知识图谱的补充属性信息。

前面构建的知识图谱用到的实体对的安全实体之间关联关系均为直接关联关系，考虑到间接关联关系的实体对也会对安全威胁造成影响，因此本实施例中还对构建知识图谱方案优化，提取这些间接关联关系均为关联度较高的，通过这些关联度较高的间接关联关系，也可以实现快速准确的发现对安全有严重威胁的安全实体的目的。

本发明的实施例提供了一种安全实体的知识图谱构建装置，该安全实体的知识图谱构建装置与上述实施例的安全实体的知识图谱构建方法相对应，相应的技术特征和技术效果在本实施例中不再详述，相关之处可参考上述安全实体的知识图谱构建方法。具体地，图3示意性示出了根据本发明实施例的安全实体的知识图谱构建装置的框图，如图3所示，该安全实体的知识图谱构建装置300可以包括获取模块301、解析模块302、统计模块303、第一确定模块304、第一筛选模块305和构建模块306，其中：

获取模块301，用于获取用户的查杀日志；

解析模块302，用于解析所述查杀日志以得到安全实体；

统计模块303，用于统计共现的两个安全实体构成的实体对在所述日志中出现的次数；

第一确定模块304，用于根据所述次数，确定用于衡量所述实体对中安全实体之间关联关系大小的权重值；

第一筛选模块305，用于根据所述权重值，筛选用于构建知识图谱的实体对；；

构建模块306，以筛选出的实体对中包括的安全实体为基础构建所述知识图谱。

可选地，第一确定模块还用于：确定每个实体对所在的查杀日志的日期；在确定的所述日期不唯一时，从确定的所述日期中筛选出距离当前日期最近的日期；计算所述当前日期距离筛选出的日期的日期间隔；根据每个实体对出现的次数和所述日期间隔确定相应实体对中安全实体之间关联关系大小的权重值。

可选地，第一确定模块在根据每个实体对出现的次数和所述日期间隔确定相应实体对中安全实体之间关联关系大小的权重值时，还用于通过如下公式确定权重值：W＝n*C^x，其中，W为某一类实体对的权重值，n为该实体对的次数，C为常数，x为日期间隔。

可选地，第一确定模块还用于：从所述共现的两个安全实体构成的实体对中提取出包括用户和目标安全实体的实体对；确定所述目标安全实体在获取的所有用户的查杀日志中出现的次数；根据提取的所述实体对的次数和所述目标安全实体在获取的所有用户的查杀日志中出现的次数确定提取的所述实体对中实体之间关联关系大小的权重值。

可选地，第一确定模块在根据提取的所述实体对的次数和所述目标安全实体在获取的所有用户的查杀日志中出现的次数确定提取的所述实体对中实体之间关联关系大小的权重值时，还用于执行如下公式：其中，W_i,j为提取的所述实体对的权重值，n_i为提取的实体对出现的次数，n_j为提取的实体对中所包括的用户的查杀日志中出现的所有所述安全实体的数量，N为获取的所有用户的数量，df_i为所述目标安全实体在获取的所有用户的查杀日志中出现的次数。

可选地，所述装置还包括：第二筛选模块，用于在所述以筛选出的实体对中包括的安全实体为基础构建所述知识图谱的步骤之后，从所述知识图谱中筛选出包含用户和具有第一属性的安全实体之间具有直接关联关系的实体对；第二确定模块，用于根据筛选出的所述具有直接关联关系的实体对，确定具有第一属性的安全实体之间具有间接关联关系的实体对；第三确定模块，用于针对每个具有第一属性的安全实体A，构建其与每一个用户之间关系的矩阵,计作矩阵A’＝[a1,a2…，ai，…an]，其中，ai为安全实体A与第i个用户之间的关系，包括直接关联关系和非直接关联关系；第四确定模块，用于在包含多个矩阵A’时，计算所述多个矩阵A’中两个矩阵之间的相似度；第五确定模块，用于提取相似度大于等于相似度阈值的两个矩阵，确定两个矩阵对应的安全实体A，并将确定的两个安全实体A组成实体对，作为构建的所述知识图谱的补充属性信息。

可选地，第四确定模块还用于：将具有间接关联关系的第一属性的安全实体A构建的两个矩阵作为计算目标，计算该两个矩阵的相似度，具体包括：在计算目标的一个矩阵A’＝[a1,a2…，ai，…an]中，提取表征具有直接关联关系ai对应的用户，形成第一用户集；在计算目标的另一个矩阵A’＝[a1,a2…，ai，…an]中，提取表征直接关联关系ai对应的用户，形成第二用户集；统计所述第一用户集和所述第二用户集中相同用户的数量；统计所述第一用户集和所述第二用户集中所有用户的数量；计算统计出的所述相同用户的数量与所述所有用户的数量的比值，作为两个矩阵之间的相似度。

可选地，构建模块还用于：计算解析得到的所有所述实体对的权重总值；计算每类所述实体对的权重值与所述权重总的比值；将比值大于等于预设比值阈值的关联关系确定为用于构建所述知识图谱的关联关系。

可选地，构建模块还用于：将每个实体对的权重值按照大小关系排序；将排列在预设数量之前的实体对确定为用于构建所述知识图谱的关联关系。

图4示意性示出了根据本发明实施例的适于实现安全实体的知识图谱构建方法的计算机设备的框图。本实施例中，计算机设备400可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图4所示，本实施例的计算机设备400至少包括但不限于：可通过系统总线相互通信连接的存储器401、处理器402、网络接口403。需要指出的是，图4仅示出了具有组件401-403的计算机设备400，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器403至少包括一种类型的计算机可读存储介质，可读存储介质包括包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器401可以是计算机设备400的内部存储单元，例如该计算机设备400的硬盘或内存。在另一些实施例中，存储器401也可以是计算机设备400的外部存储设备，例如该计算机设备400上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器401还可以既包括计算机设备400的内部存储单元也包括其外部存储设备。在本实施例中，存储器401通常用于存储安装于计算机设备400的操作系统和各类应用软件，例如安全实体的知识图谱构建方法的程序代码等。此外，存储器401还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器402在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器402通常用于控制计算机设备400的总体操作。例如执行与计算机设备400进行数据交互或者通信相关的控制和处理等的安全实体的知识图谱构建方法的程序代码。

在本实施例中，存储于存储器401中的安全实体的知识图谱构建方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器402)所执行，以完成本发明。

网络接口403可包括无线网络接口或有线网络接口，该网络接口403通常用于在计算机设备400与其他计算机设备之间建立通信链接。例如，网络接口403用于通过网络将计算机设备400与外部终端相连，在计算机设备400与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，简称为WCDMA)、4G网络、4G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

本实施例还提供一种计算机可读存储介质，包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等，其上存储有计算机程序，所述计算机程序被处理器执行时实现安全实体的知识图谱构建方法。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种安全实体的知识图谱构建方法，其特征在于，所述方法包括：

获取用户的查杀日志；

解析所述查杀日志以得到安全实体；

统计共现的两个安全实体构成的实体对在所述查杀日志中出现的次数；其中，每个实体对包括的两个安全实体是在所述查杀日志的某个查杀日志行中共现的；

根据所述次数，确定用于衡量所述实体对中安全实体之间关联关系大小的权重值；

根据所述权重值，筛选用于构建知识图谱的实体对；

以筛选出的实体对中包括的安全实体为基础构建所述知识图谱；

从所述知识图谱中筛选出包含用户和具有第一属性的安全实体之间具有直接关联关系的实体对；

根据筛选出的所述具有直接关联关系的实体对，确定具有第一属性的安全实体之间具有间接关联关系的实体对；

针对每个具有第一属性的安全实体A，构建其与每一个用户之间关系的矩阵,计作矩阵A’=[a1,a2…，ai，…an]，其中，ai为安全实体A与第i个用户之间的关系，所述关系包括直接关联关系和非直接关联关系；

在包含多个矩阵A’时，计算所述多个矩阵A’中两个矩阵之间的相似度；

提取相似度大于等于相似度阈值的两个矩阵，确定两个矩阵对应的安全实体A，并将确定的两个安全实体A组成实体对，作为构建的所述知识图谱的补充属性信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述次数，确定用于衡量所述实体对中安全实体之间关联关系大小的权重值的步骤包括：

确定每个实体对所在的查杀日志的日期；

在确定的所述日期不唯一时，从确定的所述日期中筛选出距离当前日期最近的日期；

计算所述当前日期距离筛选出的日期的日期间隔；

根据每个实体对出现的次数和所述日期间隔确定相应实体对中安全实体之间关联关系大小的权重值。

3. 根据权利要求2所述的方法，其特征在于，所述根据每个实体对出现的次数和所述日期间隔确定相应实体对中安全实体之间关联关系大小的权重值的步骤包括：

通过如下公式确定权重值：

其中，为某一实体对中安全实体之间关联关系大小的权重值，/>为该实体对出现的次数，/>为常数，/>为日期间隔。

4.根据权利要求1所述的方法，其特征在于，所述根据所述次数，确定用于衡量所述实体对中安全实体之间关联关系大小的权重值的步骤包括：

从所述共现的两个安全实体构成的实体对中提取出包括用户和目标安全实体的实体对；

确定所述目标安全实体在获取的所有用户的查杀日志中出现的次数；

根据提取的所述实体对的次数和所述目标安全实体在获取的所有用户的查杀日志中出现的次数确定提取的所述实体对中实体之间关联关系大小的权重值。

5.根据权利要求4所述的方法，其特征在于，所述根据提取的所述实体对的次数和所述目标安全实体在获取的所有用户的查杀日志中出现的次数确定提取的所述实体对中实体之间关联关系大小的权重值的步骤包括：

其中，为提取的实体对中实体之间关联关系大小的权重值，/>为提取的实体对出现的次数，/>为提取的实体对中所包括的用户的查杀日志中出现的所有所述安全实体的数量，/>为获取的所有用户的数量，/>为所述目标安全实体在获取的所有用户的查杀日志中出现的次数。

6.根据权利要求1所述的方法，其特征在于，在包含多个矩阵A’时，计算所述多个矩阵A’中两个矩阵之间的相似度的步骤包括：

将具有间接关联关系的第一属性的安全实体A构建的两个矩阵作为计算目标，计算该两个矩阵的相似度，具体包括：

在计算目标的一个矩阵A’=[a1,a2…，ai，…an]中，提取表征具有直接关联关系ai对应的用户，形成第一用户集；在计算目标的另一个矩阵A’=[a1,a2…，ai，…an]中，提取表征直接关联关系ai对应的用户，形成第二用户集；

统计所述第一用户集和所述第二用户集中相同用户的数量；

统计所述第一用户集和所述第二用户集中所有用户的数量；

计算统计出的所述相同用户的数量与所述所有用户的数量的比值，作为两个矩阵之间的相似度。

7.一种用于实现权利要求1至6任一项所述方法的安全实体的知识图谱构建装置，其特征在于，所述装置包括：

获取模块，用于获取用户的查杀日志；

解析模块，用于解析所述查杀日志以得到安全实体；

统计模块，用于统计共现的两个安全实体构成的实体对在所述查杀日志中出现的次数；其中，每个实体对包括的两个安全实体是在所述查杀日志的某个查杀日志行中共现的；

第一确定模块，用于根据所述次数，确定用于衡量所述实体对中安全实体之间关联关系大小的权重值；

第一筛选模块，用于根据所述权重值，筛选用于构建知识图谱的实体对；

构建模块，用于以筛选出的实体对中包括的安全实体为基础构建所述知识图谱。

8.一种计算机设备，所述计算机设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的方法。