CN115242438B

CN115242438B - 基于异质信息网络的潜在受害群体定位方法

Info

Publication number: CN115242438B
Application number: CN202210680348.4A
Authority: CN
Inventors: 虞宇琪; 彭成维; 唐剑琪; 严寒冰; 王强; 代锐; 韩志辉; 潘泉波; 周昊; 刘俊贤; 于洪妍; 曹晓菲; 卫斌; 姚怡云; 邹周
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2023-09-01
Anticipated expiration: 2042-06-15
Also published as: CN115242438A

Abstract

本发明是有关于一种基于异质信息网络的潜在受害群体定位方法，包括如下步骤：步骤1：数据接入,采集接入威胁情报及多源网络数据；步骤2：数据预处理,对威胁情报中的入侵指标与网络数据碰撞得到的原始数据进行数据过滤、数据清洗和特征工程；步骤3：多源异构数据融合,面向异构数据进行实体、属性和关系提取，构建实体关系图，生成异质信息网络；步骤4：核心算法,采用语义提取、模型构建和度量分析进行受害群体定位；步骤5：业务应用,实现网络攻击事件受害群体定位，支撑事件影响分析及通报处置。本发明基于异质信息网络实现多源网络安全数据的融合与关联，实现潜在受害者定位，并提出降维预处理流程，提高分析效率，降低人工成本。

Description

基于异质信息网络的潜在受害群体定位方法

技术领域

本发明涉及一种互联网安全领域的攻击事件受害群体分析方法，特别是涉及以威胁情报为线索，基于异质信息网络的潜在受害群体定位方法。

背景技术

应对APT攻击事件不仅要增强“被动检测”能力，还要提升“主动防御”能力，潜在受害群体定位是“主动防御”的前提，只有快速发现潜在受害群体，才能提高失陷主机定位的准确性，进而有针对性的对主机采取处置措施，切断非法控制路径，阻止受控事件发生。现有受害群体分析方法存在以下不足：

1、基于恶意代码检测的分析方法主要是基于恶意代码静态、动态检测结果，提取有效特征进行溯源与关联分析，但是此类方法有赖于恶意代码的获取、脱壳、解密和逆向等技术，且离不开沙箱等虚拟环境。此类分析方法直接有效，但覆盖面小，分析成本高，依赖于恶意代码分析技术和专家经验。

2、流量侧的分析方法包括基于特征和基于行为的分析方法。前者提取流量特征建立检测规则，亦或是提取流量指纹以发现异常流量，此类方法虽能较为有效地捕捉异常，但规则库和指纹库的更新严重依赖于专家经验，异常行为的发现较为滞后，不适用于发现新的恶意流量；后者通常基于IP、端口聚合流量，以生成会话，进而抽取通信行为进行异常行为的检测，此类方法关注于IP对之间的会话行为，但忽略了其他的关系属性，无法聚合多种信息。同时，由于不同网络流量和应用比较复杂，很难定义正常的行为，因此，容易产生高的误报率。

3、主机侧的分析方法，通常提取主机监测日志，生成行为日志序列，使用序列检测方法或是异常检测方法进行分析，此类方法能够检测单机或有限范围内的主机的异常情况，却无法较大范围的对攻击事件的损害范围进行分析。

4、面向单一类别网络数据的攻击检测存在不足。比如，NetFlow数据通常被用于检测易造成流大小异常的攻击，如DDoS攻击及数据窃密等；HTTP流量常用于检测存在明显特征和指纹的攻击，如SQL注入攻击等。单类别数据分析仅可描述某一特定阶段或特定攻击情况。与一般的网络攻击不同的是，APT攻击事件周期长、隐蔽性高、针对性强、杀伤力大且检测难度大，因此，面向单一类别的数据的检测方法不适用于检测以APT为代表的复杂网络攻击。

5、现有的面向数据关联分析的检测系统，大多数仅在数据层面实现多源数据的融合，引擎接入的挖掘分析模块较为简单，难以支撑差异化的业务需求，人工成本依旧较高。大多数系统基于知识图谱技术构建网络实体知识库，利用图数据库、K-V引擎、全文引擎等实现网络安全实体、关系、属性的存储，进而实现多源数据的融合，向上提供多源数据的关联、查询和分析功能。但此类系统缺少对多源数据的深度分析，对各类数据之间潜在关系的挖掘尚且不够深入。

6、目前常用的基于通联关系和推理关系的溯源和受害者定位分析，自动化程度低，分析过程繁琐，分析效率低下，定位结果不准确。业务人员对系统关联结果进行二次筛选和统计分析的工作量仍较大。海量数据使得受害者定位工作变得尤其困难，需付出大量的人力成本，同时存在效果不佳，定位不全、不准确的问题。

7、网络威胁数据种类繁多，关系复杂，碎片化程度高，关联难度大。近些年，以社区发现算法、网络表示学习算法为代表的复杂网络挖掘技术开始被用于网络实体关系挖掘。但目前运用的绝大多数模型为同质信息网络模型，此类模型只能表达交互系统的部分信息且无法区分对象及关系的差异性，忽略了不同类型的节点和边所蕴含的高阶语义，造成信息缺失。

8、异质信息网络能够表达实体之间更加完备的关联关系，在融合多源信息上具有显著优势，异质信息网络模型在网络安全领域的应用尚处于起步阶段。如HinDom将DNS场景建模为异构信息网络(HIN)进行恶意域名识别；Log2vec将log日志转化为异质图，学习低纬度的特性表示，并使用检测算法进行攻击检测；HinDroid将Android应用程序，相关的API及其丰富的关系表示为结构化的异构信息网络(HIN)，进行Android恶意软件的检查。现有的研究大多集中于一种类型的网络异常数据，对于多源异构网络数据的应用较少。

综上，攻击事件潜在受害群体的发现是失陷主机定位的前置环节，同时是APT攻击事件分析、处置和通报的基础。但目前为止，相关工作仍然存在较多问题，因此，亟待探索智能化的方法，在大量未知实体中，寻找与已知威胁实体联系紧密且存在强关联的目标实体，以实现精准、全面、及时的潜在受害群体定位。

鉴于上述现有受害群体分析方法存在的缺陷，本发明人经过不断的研究和设计，经反复实验及改进后，终于创设出确具实用价值的本发明。

发明内容

本发明的主要目的在于，克服现有的受害群体分析方法存在的不足，提供一种新的基于异质信息网络的潜在受害群体定位方法，所要解决的技术问题是使其在有效降低数据量级的同时，面向事件告警、异常日志及威胁情报信息，运用异质信息网络模型，实现多源异构网络数据的关联分析，打破不同监测系统之间的“信息孤岛”，多方位、多角度地融合各类数据价值，支撑潜在受害群体定位，从而更加实用。

本发明的另一目的在于，提供一种新的基于异质信息网络的潜在受害群体定位方法，所要解决的技术问题是将传统人工分析的业务经验与新技术相融合，将业务逻辑转化为模型能够理解的高阶语义，尽可能地用人工智能模型代替人工关联分析和拓线的常规流程，提高受害者定位分析工作的自动化程度，简化分析过程，提高分析效率，降低人工研判成本。

本发明的又一目的在于，提供一种新的基于异质信息网络的潜在受害群体定位方法，所要解决的技术问题是使其有效支撑APT攻击组织长期跟踪和分析，提高对复杂攻击事件受害者定位分析的能力。在攻击事件发生后，能够更加快速、准确、全面、自动化地定位到与事件相关的受害群体，更加及时的采取有效措施，切断网络攻击事件对受控者的攻击途径，进而降低重大网络攻击事件对各单位和重要信息系统的损害程度，有力支撑安全机构预警通报，应急处置业务，提升对APT事件的“主动防御”能力，从而更加适于实用。

本发明的再一目的在于，提供一种新的基于异质信息网络的潜在受害群体定位方法，所要解决的技术问题是探索异质信息网络技术在多源网络安全领域数据融合的应用，设计可行性强、可移植性强的实施方案，加强多源网路安全数据融合及关联分析的能力储备，从而更加适于实用，且具有产业上的利用价值。

本发明以威胁情报为线索，结合业务经验，提出一套完整的、可行性强的潜在受害群体定位技术方案，包含数据收集、数据预处理、网络实体关系提取、语义提取、多源网络实体关系图构建、基于异质信息网络模型的节点表示学习模块及度量分析模块。有效减少数据量级的同时，多方位、多角度地融合多源异构网络数据，更加全面、及时地定位潜在受害群体。

本发明的具体构思是，面向事件监测日志、NetFlow数据、域名解析数据、恶意代码传播日志及URL访问日志这5类异构数据，以威胁情报为线索，提取入侵指标，与网络流量和告警数据进行有效碰撞和关联。威胁情报是APT攻击事件发现和追踪的重要线索，能够有针对性地筛选强相关的数据，极大降低数据量级，减少模型检测负担，提高分析效率。基于碰撞出的多源数据，提取与威胁实体相关联的网络实体，分析攻击者和目标实体之间的交互行为特征及通联关系，将威胁实体与目标实体之间的访问关系、请求关系及下载关系等转化为高阶语义，生成元路径和元图，运用异质信息网络模型挖掘与已知威胁实体存在稳定连接和异常交互行为的潜在受害者。异质信息网络模型能够自然融合不同对象类型及其交互关系，保留多源异构数据的信息，为发现隐含模式提供精准可解释的新途径。

本发明的目的及解决的技术问题是通过以下技术方案来实现的。依据本发明提出的一种基于异质信息网络的潜在受害群体定位方法，其包括以下步骤：

步骤1：数据接入

采集并接入威胁情报数据及支撑关联分析的多源网络数据，其中：

威胁情报数据包含外部威胁情报即安全公司或情报机构发布的报告及内部威胁情报；

多源网络数据包括各监测系统输出的事件告警数据、URL访问日志、NetFlow数据、域名解析数据及恶意代码传播数据；

步骤2：数据预处理

从威胁情报数据提取入侵指标即Indicators of Compromise，简称IOC,将IOC与多源网络数据关联碰撞得到的原始数据进行数据过滤和清洗，消除数据冗余，在此基础上对不同类型的数据进行有针对性的特征工程；

步骤3:多源异构数据融合

首先面向每类网络数据进行网络实体、属性和关系的提取，构建网络实体关系图；将不同网络实体关系图通过相同类型的实体进行关联合并，生成异质信息网络，实现多源异构网络实体关系图的融合；

步骤4：核心算法

包括语义提取、模型构建和度量分析，首先梳理受害者定位的业务逻辑，将业务逻辑抽象为模型能够识别的节点之间的语义关系，生成面向受害者定位的元路径和元图，使得模型在指定的语义关系上，寻找与已标记的威胁实体具备强关联性的潜在受害群体；

其次分别构建基于元路径的随机游走网络实体表示学习模型、基于元图的随机游走网络实体表示学习模型以及基于注意力机制的网络实体表示学习模型；

最后完成度量分析，基于不同应用场景选择不同的模型进行节点表示学习，或采用组合策略对不同模型得到的嵌入式向量进行级联或求和；后运用相似性度量方法或者聚类算法对节点的嵌入式向量进行相似度计算，挖掘与威胁实体存在紧密联系的受害群体；

步骤5：业务应用

实现网络攻击事件潜在受害群体定位，进而支撑攻击事件影响分析以及最终的事件通报和处置。

本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。

进一步，其中所述的数据接入包括情报驱动的入侵指标提取和基于入侵指标的原始数据关联。基于APT攻击组织某次攻击事件的威胁情报，提取有效的入侵指标，主要包括APT组织的IP、URL、域名、恶意代码家族名称和恶意代码的Hash或者MD5等。面向事件告警、域名解析记录、恶意代码传播日志、URL访问路径和NetFlow数据等多源异构网络威胁数据，与入侵指标进行碰撞关联得到待分析的原始网络数据。

进一步，其中所述的数据过滤包括情报驱动的白名单过滤、基于扫描、爬虫、探测等非攻击行为识别的流量过滤和基于完整性的数据过滤；

其中所述的情报驱动的白名单过滤，即提供基于动态白名单的流量过滤功能，一方面对接已有的白名单库，将大型互联网公司的自有IP地址段定期扩充到白名单中；另一方面，对接安全公司的威胁情报库，将标记为安全公司和扫描器的IP纳入白名单中，基于实时更新的白名单，过滤在白名单中的IP的流量日志数据；

其中所述的基于扫描、爬虫、探测等非攻击行为识别的流量过滤是过滤资产探测流量、扫描流量和爬虫流量；由于APT攻击通常针对有限的目标进行长时间的隐蔽性监测、攻击和数据窃取，为避免被检测，一般不会对大量的网络设备发起大规模的探测、扫描和爬虫，因此，基于源IP对原始流量进行汇聚和统计分析，过滤短时间内向多个目的IP的多个端口发起请求或拥有多类网络协议、多种DNS请求的网络实体相关的流量数据，有效降低数据量级；

所述的基于完整性的数据过滤是针对NetFlow数据进行降维，保留有效连接，即将原始NetFlow记录按照源IP、目的IP、源端口、目的端口和协议进行聚合，根据TCP标志位过滤未成功完成三次握手的NetFlow数据。

进一步，所述的数据清洗包括删除重复数据消除数据冗余，删除关键字段为空、乱码、字段值缺失严重的流量记录；与此同时，对以URL为代表的内容数据进行编码解码、中英文编码转换等操作，以增强流量有效载荷的可读性。

进一步，其中所述的特征工程包括字段选择、关键部分提取和聚合统计分析，其中所述的字段选择包括：

从事件监测数据表选择的字段有：源IP、事件名、目的IP、源端口、目的端口、协议和时间；

从域名解析日志表选择的字段有：源IP、目的IP、请求域名、请求类型、应答值、应答类型、时间和请求次数；

从NetFlow数据表选择的字段有：源IP、目的IP、源端口、目的端口、传输协议、TCP标志位、开始时间、包数和字节数；

从URL访问日志表选择的字段有：源IP、目的IP、源端口、目的端口、协议、时间、域名、网址、user-agent、请求方法、引用位置、下载文件名称和响应状态；

从恶意代码传播日志表选择的字段有：日志采集时间、源IP、目的IP、源端口、目的端口、URL、文件MD5、文件名、文件类型和协议类型；

其中所述的关键部分提取包括：

从域名解析日志的应答值中，使用正则表达式，提取IP或者域名；从URL路径中提取访问路径的主体部分以及请求的参数键值；

其中所述的聚合统计分析包括：按照源IP-目的IP、源IP-域名和源IP-URL进行分组，获得联通频次、事件类型频次分布、TCP握手标志位、通联时长、请求类型和响应状态码等统计性特征，作为关系的属性或权重。

进一步，其中所述的网络实体、属性和关系的提取包括面向事件监测数据的网络实体属性关系提取、面向域名解析记录数据的网络实体属性关系提取、面向NetFlow数据的网络实体属性关系提取、面向URL访问日志的网络实体属性关系提取和面向恶意代码传播日志数据表的网络实体属性关系提取。

进一步，其中所述的面向事件监测数据的实体、属性和关系提取包括：

实体：源IP、目的IP

实体属性：IP标签

关系1：源IP对目的IP发起网络攻击

关系属性：事件名

关系权重：事件发生次数和事件类型分布。

进一步，其中所述的面向域名解析记录数据的实体、属性和关系提取包括：

实体：源IP、目的IP、域名

实体属性：IP标签

关系1：源IP向目的IP发起域名解析请求

关系属性：请求类型

关系权重：请求次数

关系2：目的IP向源IP返回域名解析结果，忽略递归和迭代过程关系属性：应答值和应答类型

关系权重：有效响应次数

关系3：若应答成功，源IP访问请求域名对应的目的IP

关系权重：访问次数。

进一步，其中所述的面向NetFlow数据的实体、属性和关系提取包括：

实体：源IP、目的IP

实体属性：IP标签

关系1：存在有效通联关系，即完成TCP三次握手关系权重：通联次数。

进一步，其中所述的面向URL访问日志的实体、属性和关系提取包括：

实体：源IP、目的IP、域名、访问路径即URL、文件

实体属性：IP标签、域名标签、文件类型

关系1：源IP向域名/目的IP发出GET/POST请求，访问了目的IP/

域名下承载的URL，下载/挂载了文件

关系属性：GET/POST请求、响应状态

关系2：URL存放了文件

关系3：域名承载了URL

关系4：域名归属于IP。

进一步，其中所述的面向恶意代码传播日志的实体、属性和关系提取包括：

实体：源IP、目的IP、URL、文件、病毒

实体属性：文件名、文件MD5、病毒名、文件类型

关系1：源IP访问目的IP下的URL，上传或者下载文件，文件是某病毒的相关文件

关系属性：协议类型

关系权重：访问次数。

进一步，所述的构建网络实体关系图是基于提取的实体、属性和关系，将数据表中的结构化数据转化为网络实体关系图，构建的网络实体关系图主要包括：事件监测数据网络关系图、域名解析记录数据网络关系图、NetFlow数据网络关系图、URL访问日志网络关系图和恶意代码传播日志网络关系图；

其中所述的事件监测数据网络关系图，描述的是网络实体之间发生攻击事件的语义；

其中所述的域名解析记录数据网络关系图，描述的是网络实体发起域名解析请求和返回响应信息的语义；

其中所述的NetFlow数据网络关系图，描述的是网络实体存在有效通联关系的语义；

其中所述的URL访问日志网络关系图，描述的是IP访问域名下承载的URL，通过URL下载或者上传文件的语义；

其中所述的恶意代码传播日志网络关系图，描述的是IP访问URL路径下存放的文件，该文件属于某类病毒的语义。

进一步，所述的异质信息网络构建即将权利要求12中构建的面向单类数据的网络实体关系图进行合并，生成融合多类数据信息的异质信息网络关系图。

进一步，用于受害者定位分析的业务逻辑包括：

业务逻辑1：IP访问承载在恶意IP上的恶意URL；

业务逻辑2：IP向恶意IP发送HTTP的POST请求；

业务逻辑3：IP访问恶意域名对应的IP，并通过IP承载的URL路径，下载或上传了存放在URL路径下的恶意代码文件；

业务逻辑4：IP向恶意域名发出解析请求，域名返回对端IP信息后，客户端与对端IP通信；

业务逻辑5：IP与恶意IP存在稳定通联关系；

业务逻辑6：恶意IP向目的IP发起某类攻击事件；

业务逻辑7：IP访问的文件属于某类恶意代码；

业务逻辑8：受害者IP之间的关联性通常较弱；

业务逻辑9：受害者IP与恶意IP开设的端口类型通常不太一致；

业务逻辑10：与恶意IP有关联的IP属于重点单位。

基于以上业务逻辑，生成面向受害者定位的元路径和元图。

进一步，所述的基于元路径随机游走的异质网络表示学习模型，即运用无监督算法Metapath2vec进行实体特征表示，首先基于元路径进行随机游走以获取异构网络中不同类型顶点的组成的序列，然后使用扩展Skip-Gram学习每个不同类型顶点的网络嵌入表示，基于不同元路径学习节点的特征向量能够挖掘在指定语义下存在紧密联系的网络实体。

进一步，所述的基于元图随机游走的异质网络表示学习模型是基于元路径随机游走表示学习模型的延伸，一条元路径能够表达一种语义信息，而元图能够融合多条元路径的语义信息；

首先，根据不同业务需求，组合不同的元路径以产生表达复杂语义的元图；其次，使用基于元图随机游走从异构网络中获取不同类型顶点的序列，使用扩展的Skip-Gram学习每个不同类型顶点的网络嵌入表示。

进一步，所述的运用基于注意力机制的异质图神经网络表示学习模型，即Hierarchical Attention Network，简称HAN，HAN是基于层次注意力机制的半监督模型，首先基于节点级别注意力机制聚合邻居信息，然后利用语义级别注意力机制聚合元路径信息，从而同时考虑基于元路径的邻居之间和不同元路径之间的重要性，HAN能够深入挖掘节点和元路径的重要性，摆脱对元路径和元图选择的依赖，在一定程度上弥补前两个模型的不足，可用于处理实际业务中较为复杂的分析任务。

本发明与现有技术相比具有明显的优点和有益效果。其至少具有下列优点：

1、本发明面向事件监测日志、NetFlow数据、域名解析数据、恶意代码传播日志和URL访问日志这5类异构数据，分别提取网络实体、属性和关系，构建网络实体关系图，并提出了多源异构网络数据融合的设计方案，打破各监测系统“数据孤岛”的问题。相比于单类数据分析而言，融合多源异构数据的分析方法更能够全面地刻画和挖掘出潜在的信息。

2、本发明面向受害者定位的需求，提出一套威胁情报驱动的数据处理流程，通过威胁驱动的白名单过滤、非攻击行为的过滤以及基于完整性的过滤方法，对威胁情报与原始流量碰撞得到的原始流量进行有效过滤，同时进行清洗与特征工程，极大的降低数据量，提高多源数据处理和关联分析的有效性和可行性。

3、本发明包含数据接入、数据预处理、网络实体关系提取、元路径和元图生成、异质信息网络模型的构建以及度量分析等一系列完整的处理流程，具备很强的实用性。

4、本发明与传统的关联分析方法不同的是，本发明将异质信息网络表示学习方法运用于潜在受害者定位问题，相比于基于规则、人工拓线和同质信息网络模型分析方法而言，本发明构建的组合模型分析器能够更好地表示网络图中复杂的语义关系，在一定程度上，摆脱人工经验的依赖，更加深入地挖掘复杂网络数据中潜在的关系，极大减少人工成本，提高潜在受害者定位的效率和质量。

5、本发明总结实际业务逻辑，面向受害者定位，分别构建有针对性和差异化的元路径，以表达不同语义信息。

6、本发明构建元图以融合多条元路径的语义信息，表达更丰富的节点关系，能够在一定程度上弥补元路径对于复杂语义表达能力上的不足，降低元路径选择对于模型效果的影响。

7、本发明构建基于Metapath2vec的无监督模型，适用于实际数据无标签或仅少量含标签的分析场景，并且模型能够通过构建的元路径或元图融合业务人员经验信息，将有效的分析逻辑转化为语义信息，有效支撑潜在受害群体定位。

8、本发明采用基于元图随机游走产生的节点序列，能够表达不同类型节点之间更加复杂的关系，表达能力更强，在一定程度上减少元路径选择对模型效果带来的影响。

9、本发明采用基于注意力机制的异质神经网络表示学习模型同时考虑基于元路径的邻居之间和不同元路径之间的重要性，摆脱元路径选择和元图构建的依赖，适合处理较为复杂的分析任务。

10、本发明采用三类模型进行实体表示学习，模型对于语义的表达能力递增，能够更好地融合节点之间相似、交互等复杂的语义信息，适用于不同业务需求和不同复杂程度的场景。同时，本发明采用组合策略综合各模型分析结果，以更加全面、准确地实现受害群体定位。上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1是本发明技术框架示意图。

图2是本发明网络实体类型图。

图3是本发明网络威胁实体的网络模式图。

图4是本发明网络威胁实体的网络实例示意图。

图5是本发明元路径示例示意图。

图6是本发明元图示例图。

图7是本发明数据预处理流程示意图。

图8是本发明事件监测数据的实体关系图。

图9是本发明域名解析数据的实体关系图。

图10是本发明NetFlow数据的实体关系图。

图11是本发明URL访问日志的实体关系图。

图12是本发明恶意代码传播日志的实体关系图。

图13是本发明多源网络数据实体关系图。

图14是本发明核心算法模块流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的基于异质信息网络的潜在受害群体定位方法，其具体实施方式、方法、步骤、特征及其功效，详细说明如后。

请参阅图1所示，本发明较佳实施例的基于异质信息网络的潜在受害群体定位方法，包括数据接入、数据预处理、多源异构数据融合、核心算法以及业务应用。

其主要包括以下步骤：

步骤1：数据接入

采集接入对威胁情报数据及支撑关联分析的多源网络数据，其中：

威胁情报数据包含外部威胁情报即安全公司或情报机构发布的报告及内部威胁情报。

多源网络数据包括各监测系统输出的事件告警数据、URL访问日志、NetFlow数据、域名解析数据及恶意代码传播数据等。

步骤2：数据预处理

从威胁情报数据提取入侵指标即Indicators of Compromise，简称IOC,将IOC与多源网络数据关联碰撞得到的原始数据进行数据过滤和清洗，消除数据冗余，在此基础上对不同类型的数据进行有针对性的特征工程。

具体地，本发明主要通过白名单过滤、非攻击行为的过滤以及基于完整性的数据过滤，有效降低数据量级，提高多源数据处理和关联分析的有效性和可行性。同时，数据清洗包括删除重复数据，删除关键字段为空、乱码、字段值缺失严重的流量记录，对流量数据进行解码、中英文编码转换等操作，以提高流量内容可读性。在此基础上对不同类型的数据进行有针对性的特征工程。

步骤3:多源异构数据融合

首先面向每类网络数据进行网络实体、属性和关系的提取，构建网络实体关系图；将不同网络实体关系图通过相同类型的实体进行关联合并，生成异质信息网络，实现多源异构网络实体关系图的融合。

步骤4：核心算法

包括语义提取、模型构建和度量分析。首先梳理受害者定位的业务逻辑,将业务逻辑抽象为模型能够识别的节点之间的语义关系，进而生成面向受害者定位的元路径和元图，使得模型在指定的语义关系上，寻找与已标记的威胁实体具备强关联性的潜在受害群体。

分别构建基于元路径的随机游走网络实体表示学习模型、基于元图的随机游走网络实体表示学习模型以及基于注意力机制的网络实体表示学习模型；基于元路径的随机游走网络实体表示学习模型挖掘节点在指定的一条语义上的关联性，基于元图的随机游走网络实体表示学习模型能够挖掘节点在多条语义上的关联性，基于注意力机制的网络实体表示学习模型能够深度挖掘节点在节点级别和元路径级别上的重要性，摆脱元路径的选择对模型效果的影响，以上三类模型对于语义的表达能力及节点交互信息的融合能力递增，适用于不同复杂度的业务场景。必要时，本发明采用组合策略综合各模型分析结果，以更加全面、准确地实现受害群体定位。

最后完成度量分析，基于不同应用场景选择不同的模型进行节点表示学习，或采用组合策略对不同模型得到的嵌入式向量进行级联或求和；后运用相似性度量方法或者聚类算法对节点的嵌入式向量进行相似度计算，挖掘与威胁实体存在紧密联系的受害群体。

步骤5：业务应用

信息网络的对象类型数或者关系类型数大于1，称为异质网络。正式的，异质信息网络，记为G＝(V,E),包含一个节点类型映射和一个关系类型映射ψ:ε→R，其中，V表示节点集合，E表示关系集合。A表示节点类型集合，R表示关系类型集合，节点类型数|A|>1或关系类型数|R|>1。显然，网络威胁实体类型及实体间通联关系不一，为典型的异质信息网络。

参阅图2所示，本发明所定义的网络威胁实体包括：IP地址(I)、域名(D)、恶意软件MD5(M)、病毒名称(N)和URL(U)。

参阅图3所示，网络模式记为T_G＝(A,R),是带有对象类型映射和关系类型映射ψ:ε→R的信息网络/>的元模式。具体地，网络模式是定义在对象类型集合A上的有向图，并以R上的关系为边。网络模式强调关于对象和关系集合的类型约束，这些约束使得异质信息网络半结构化。本发明构建的威胁实体网络模式如图3所示。

参阅图4所示，遵循某种网络模式的信息网络成为该网络模式的网络实例。图4为本发明研究网络威胁实体的网络实例。

参阅图5所示，元路径P是在网络模式T_G＝(A,R)上定义的路径，记为同时，定义对象A₁,A₂,…,A_l+1间的复合关系/>其中/>表示关系上的合成运算符。简单起见，若相同对象类型间没有多种关系类型，则可以利用对象类型来表示元路径：P＝(A₁A₂…A_l+1)。此外，对象a₁和a_l+1间的具体路径P＝(a₁a₂…a_l+1)是路径P的路径实例。形式化地，如果在p中，对于每个a_i，都有/>且每条链接e_i＝<a_i,a_i+1>属于关系R_i,则记为p∈P。以图3的网络模式为例，域名可以通过不同的元路径相关联，如图5所示。

参阅图6所示，元图是多条有公共节点的元路径组合而成的有向无环图。形式化地，元结构/元图记为M＝(V_M,E_M)，其中V_M是M中节点集合，E_M是M中边集合。对于任意节点v∈V_M，v属于节点类型集合A，对于任意边<u,v>∈E_M,<u,v>属于链接类型集合R。图6是网络实体的元图示例。

进一步，参阅图1和图7所示，步骤1的数据接入包括情报驱动的入侵指标提取和基于入侵指标的原始数据关联。基于APT攻击组织某次攻击事件的威胁情报，提取有效的入侵指标，主要包括APT组织的IP、URL、域名、恶意代码家族名称和恶意代码的Hash或者MD5等。面向事件告警、域名解析记录、恶意代码传播日志、URL访问路径和NetFlow数据等多源异构网络威胁数据，与入侵指标进行碰撞关联得到待分析的原始网络数据。

进一步，步骤2：数据数据预处理包括：步骤2.1数据过滤、步骤2.2：数据清洗及步骤2.3特征工程(如图7所示)，具体如下：

由于实时监测系统每秒产生海量的监测日志，即便是基于有限IOC关联的数据，也至少在百万级，因此，数据过滤是数据预处理的重要部分。本发明主要通过威胁驱动的白名单过滤、非攻击行为的过滤以及基于完整性的数据过滤，有效降低数据量级，提高多源数据处理和关联分析的有效性和可行性。

参阅图1和图7所示，步骤2.1数据过滤包括:基于情报驱动的白名单过滤、基于扫描、爬虫、探测等非攻、击行为识别的流量过滤和基于完整性的数据过滤，其中：

基于情报驱动的白名单过滤:提供基于动态白名单的流量过滤功能，一方面对接已有的白名单库，将大型互联网公司的自有IP地址段定期扩充到白名单中；另一方面，对接安全公司的威胁情报库，将标记为安全公司和扫描器的IP纳入白名单中。基于实时更新的白名单，过滤在白名单中的IP的流量日志数据。

基于扫描、爬虫、探测等非攻击行为识别的流量过滤是过滤资产探测流量、扫描流量和爬虫流量。在日常网络监测流量中，存在大量的扫描、爬虫、资产探测数据，这些数据有些来自于安全公司，有些来源于常见的扫描器，有些来源于网络黑客或个人，而APT攻击通常针对有限的目标进行长时间的隐蔽性监测、攻击和数据窃取，为避免被检测，一般不会对大量的网络设备发起大规模的探测、扫描和爬虫。因此，基于源IP对原始流量进行汇聚和统计分析，过滤短时间内向多个目的IP的多个端口发起请求或拥有多类网络协议、多种DNS请求的网络实体相关的流量数据，有效降低数据量级；

基于完整性的数据过滤：攻击事件关联更重要的是发现有效连接，而非仅存在简单的通联关系。因此，针对NetFlow流量的过滤对降低数据量级以及网络数据关联分析起到关键作用。本发明基于完整性的数据过滤是针对NetFlow数据进行降维，保留有效连接，即将查询的原始NetFlow记录按照源IP、目的IP、源端口、目的端口和协议进行聚合，根据TCP标志位过滤未成功完成三次握手的NetFlow。

在完成原始数据过滤的基础上进行步骤2.2数据清洗工作。由于原始数据来自于不同的流量引擎，需要通过删除重复数据消除数据冗余，删除关键字段为空、乱码、字段值缺失严重的流量记录；与此同时，对以URL为代表的内容数据进行编码解码和中英文编码转换操作等，增强流量有效荷载的可读性。

参阅图1和图7所示，网络威胁数据来源于不同的监测系统，字段数量较多，且数据类型、属性、关系存在多样性，不可使用统一标准进行特征选择和提取，需结合数据实际含义和分析经验，有针对性的进行特征选择。步骤2.3：特征工程主要包括步骤2.31字段选择、步骤2.32关键部分提取、步骤2.33聚合统计分析。其中：

步骤2.31：字段选择包括：

从恶意代码传播日志表选择的字段有：日志采集时间、源IP、目的IP、源端口、目的端口、URL、文件MD5、文件名、文件类型和协议类型。

步骤2.32关键部分提取包括：

从域名解析日志的应答值中，使用正则表达式，提取IP或者域名；从URL路径中提取访问路径的主体部分以及请求的参数键值。

步骤2.33聚合统计分析包括：

按照源IP-目的IP、源IP-域名和源IP-URL进行分组，获得联通频次、事件类型频次分布、TCP握手标志位、通联时长、请求类型和响应状态码等统计特征，作为关系的属性或权重。

进一步，参阅图1所示，步骤3：多源异构数据融合包括步骤3.1：面向每个网络数据表进行网络实体、属性和关系提取；步骤3.2构建网络实体关系图；步骤3.3多源异构网络实体关系图融合，其中：

步骤3.1：网络实体、属性和关系提取

在异质网络上衡量对象间的结构相似性和关联性时，节点类型、节点属性、节点关系的提取尤为重要。本发明将结合实际业务分析经验和需求，完成多源网络数据实体、属性、关系和语义提取。

网络实体、属性和关系的提取包括面向事件监测数据的网络实体属性关系提取、面向域名解析记录数据的网络实体、属性和关系提取、面向NetFlow数据的网络实体、属性和关系提取、面向URL访问日志的网络实体、属性和关系提取及面向恶意代码传播日志数据表的网络实体、属性和关系提取，其中：

面向事件监测数据的网络实体、属性和关系提取包括：

实体：源IP、目的IP

实体属性：IP标签

关系1：源IP对目的IP发起网络攻击

关系属性：事件名

关系权重：事件发生次数和事件类型分布

面向域名解析记录数据的网络实体、属性和关系提取包括：

实体：源IP、目的IP、域名

实体属性：IP标签

关系1：源IP向目的IP发起域名解析请求

关系属性：请求类型

关系权重：请求次数

关系2：目的IP向源IP返回响应内容，忽略递归和迭代过程关系属性：应答值和应答类型

关系权重：有效响应次数

关系3：若应答成功，源IP访问请求域名对应的目的IP

关系权重：访问次数

面向NetFlow数据的网络实体、属性和关系提取包括：

实体：源IP、目的IP

实体属性：IP标签

关系1：存在有效通联关系，即完成TCP三次握手关系权重：通联次数

面向URL访问日志的网络实体、属性和关系提取包括：

实体：源IP、目的IP、域名、访问路径即URL、文件

实体属性：IP标签、域名标签、文件类型

关系1：源IP向域名/目的IP发出GET/POST请求，访问了目的IP/域名下承载的URL，下载/挂载了文件

关系属性：GET/POST请求、响应状态

关系2：URL存放了文件

关系3：域名承载了URL

关系4：域名归属于IP

面向恶意代码传播日志数据表的网络实体、属性和关系提取包括：

实体：源IP、目的IP、URL、文件、病毒

实体属性：文件名、文件MD5、病毒名、文件类型

关系属性：协议类型

关系权重：访问次数。

步骤3.2：构建网络实体关系图

基于提取的网络实体、属性和关系，将数据表中的结构化数据转化为网络实体关系图，进而实现多源网络数据融合。构建网络实体关系图包括事件监测数据网络关系图、域名解析记录数据网络关系图、NetFlow数据网络关系图、URL访问日志网络关系图和恶意代码传播日志网络关系图：

事件监测数据网络关系图描述的是网络实体之间发生攻击事件的语义。如图8所示，源IP对目的IP发起某种攻击事件。

域名解析记录数据网络关系图描述的是网络实体发起域名解析请求和返回响应信息的语义。如图9所示，源IP向域名服务器发起域名解析请求，在获得响应数据后，源IP访问域名对应的目的IP。

NetFlow数据网络关系图描述的是网络实体存在有效通联关系的语义。如图10所示，源IP与目的IP之间存在通联/访问关系。

URL访问日志数据网络关系图描述的是IP访问域名下承载的URL，通过URL下载或者上传文件的语义。如图11所示，源IP访问域名承载的URL，通过URL访问了路径下存放的文件/上传文件；域名和目的IP之间存在包含和归属关系；源IP可以向目的IP发起GET/POST请求。

恶意代码传播日志数据网络关系图描述的是IP访问URL路径下存放的文件，该文件属于某类病毒的语义。如图12所示，源IP访问存放在某URL路径下的文件，并且此文件属于某种病毒。

步骤3.3多源异构网络实体关系图融合

如前所述，不同数据中提取的网络威胁实体类型不一致，实体间通联关系不一致，蕴含的网络行为不一致，反映的语义信息相对单一。

本发明基于多源数据表网络化的结果，对相同类型的实体进行关联合并，将5类不同来源、不同类型的网络数据融合在一起，生成典型的异质信息网络，实现多源异构网络实体关系图融合。在保证可行性的基础上，较大程度的融合不同数据表包含的信息，丰富网络图所蕴含的语义信息，并且缓解“数据孤岛”问题。

本发明提出的多源数据融合方案如图13所示，IP之间存在通联关系和发生攻击事件关系、IP和域名之间存在解析和请求关系、URL和文件之间存在上传和下载关系、文件和病毒存在归属关系、域名和IP存在归属关系等。通过多源网络实体关系图，将不同实体进行关联，并赋予关系的属性和权重。显然，融合之后的关系图能够同时涵盖多个数据表蕴含的语义信息，为后续进行基于异质信息网络模型的分析奠定基础。

步骤4核心算法：包括：步骤4.1语义提取、步骤4.2模型构建和度量分析，其中，

步骤4.1语义提取

梳理受害者定位的业务逻辑，使业述务逻辑能够转化为模型能够可识别的语义信息，生成多源网络数据的元路径和元图，以表达更高层次的语义。为更好地表述元路径和元图，本发明对实体和关系进行符号化。I表示IP地址的集合，i∈I；D表示域名的集合，d∈D；M表示恶意软件MD5的集合，m∈M；E表示文件的集合，e∈E；U表示URL路径的集合，u∈U。

4.1.1生成元路径

不同元路径包含的语义不同，基于不同语义训练的模型可能产生不同的相似性分析结果。本发明基于实际业务逻辑，面向受害者定位，分别构建有针对性和差异化的元路径，以表达不同语义信息。

仅基于通联关系的受害者定位往往存在较多误报，因此，本发明拟面向受害者定位，构建异质信息网络，将与威胁实体存在稳定连接或异常交互的语义关系转化为模型可读的元路径，使得模型沿着指定的语义关系进行相关实体的特征表示学习。通常，遭受同一攻击事件的网络实体，其查询的恶意域名集合、访问的URL路径集合、下载的恶意代码集合、通信的邮箱集合及受到的攻击类型往往具有较高的重叠性。鉴于此，本发明首先梳理受害者定位的业务逻辑，并将其语义抽象为元路径。业务逻辑包括：

业务逻辑1：IP访问承载在恶意IP上的恶意URL；

业务逻辑2：IP向恶意IP发送HTTP的POST请求；

业务逻辑5：IP与恶意IP存在稳定通联关系；

业务逻辑6：恶意IP向目的IP发起某类攻击事件；

业务逻辑7：IP访问的文件属于某类恶意代码；

业务逻辑8：受害者IP之间的关联性通常较弱；

业务逻辑10：与恶意IP有关联的IP属于重点单位。

表1面向受害者定位的元路径示例表

基于上述业务逻辑，构建面向受害者定位的元路径，表1为元路径示例表，面向受害群体定位所构建的元路径能够作为模型的约束，使得模型在指定的元路径上寻找在指定语义关系上，与已标记的威胁实体具备强关联性的潜在受害群体。

步骤4.1.2：生成元图

以元路径为输入的模型实际效果很大程度依赖于元路径的构建和选择。元图是多条有公共节点的元路径组合成的有向无环图，能够融合多条元路径的语义信息，表达更丰富的节点关系，能够在一定程度上弥补元路径对于复杂语义表达能力上的不足。本发明基于提取的元路径，构建面向受害者定位的元图，如表2所示。面向受害者定位的元图本质上是元路径的组合，能够融合威胁实体与目标实体更丰富的语义信息和更复杂的节点关系。作为模型的约束，使模型在指定的元图上寻找与已标记的威胁实体具备强关联性的潜在受害者。

表2面向受害者定位的元图示例表

4.2模型构建

如前所述，基于威胁情报的攻击事件受害群体定位所使用的分析数据是多源异构数据，网络实体和关系类别不一，所构成的网络图属于典型的异质信息网络，因此，以Deepwalk、LINE、GCN、GAT等为代表的同质信息网络模型不再适用。

本发明结合受害者定位目标特点，在众多异质信息网络模型中选择较合适的模型进行网络实体表示学习。相比于其他领域而言，网络安全领域对于模型准确性和可解释性有较高要求，误报和“结果不可解释”常常会对事件处置带来不利影响，因此，将业务逻辑转化为元路径，运用异质信息网络学习实体间的语义关系，以实现专家知识的融合，有助于提高模型的准确性和可解释性；同时，对于潜在受害者定位工作而言，实际数据往往是无标签或带少量标签的，因此，选择无监督或者半监督的模型。此外，不同的攻击事件复杂性不一致，碰撞出的原始数据的丰富性也不一致，需要选择适合处理简单和复杂问题的模型，才能够达到具体问题具体分析的效果，从而实现性能和模型效果的平衡。

基于上述思考，本发明选择基于元路径的随机游走表示学习模型、基于元图的随机游走表示学习模型和基于注意力机制的图神经网络模型作为分析模块的核心模型，核心检测模块如图14所示。metepath2vec是基于元路径随机游走的无监督模型，适用于无标签的分析场景，能够结合业务人员分析经验，将有效的业务逻辑通过元路径及元图进行高阶语义表达。为了提高模型的泛化能力，摆脱元路径提取和选择的依赖，本发明运用融合注意力机制的深层模型学习网络实体和元路径的嵌入式向量。上述三种模型适用于不同复杂程度的应用场景，以获得网络实体和元路径的嵌入式向量。特别地，本发明适时采用组合策略，将不同表示学习模型输出的节点嵌入式向量进行级联或加权，以更加全面的对实体进行特征表示。

度量分析模块运用相似性度量算法或者聚类算法，对网络实体进行相似性计算，寻找与威胁实体存在紧密联系的潜在受害群体。

其中，三种表示学习模型包括：

(1)基于元路径随机游走的异质网络表示学习模型

Metapath2vec是异质信息网络中用于实体表示学习的无监督算法，首先基于元路径进行随机游走以获取异构网络中不同类型顶点的序列，然后使用扩展的Skip-Gram学习不同类型顶点的嵌入式表示。基于不同元路径学习节点的特征向量能够挖掘在不同语义下存在紧密联系的网络实体。

Metapath2vec算法基于元路径的第i步的游走的转移概率计算如下：

和/>表示节点/>的第V_t+1种类型节点集合。如上式所示，当节点i和i+1存在边连接且节点i+1的节点类型符合元路径所规定的下一个节点的类型时，转移概率为/>否则，转移概率为0。

本发明基于该算法计算不同元路径下节点的特征表示，进而对不同元路径下得到的嵌入式向量采用求和或者级联的方式进行融合，再输入到度量模型中，实现潜在受害者的定位分析。该算法为异质信息网络浅层模型，能够挖掘实体在某一条语义上的关联性，简单有效，但模型依赖于元路径的选择，适用于简单的应用场景。

(2)基于元图随机游走的异质网络表示学习模型

本发明构建的基于元图随机游走的表示学习模型，是基于元路径随机游走表示学习模型的延伸。一条元路径能够表达一种语义信息，而元图能够融合多条元路径的语义信息。

核心思想：首先，根据不同业务需求，组合不同的元路径以产生表达不同复杂关系和语义的元图；其次，使用基于元图随机游走从异构网络中获取不同类型顶点的序列，使用扩展的Skip-Gram学习每个不同类型顶点的网络嵌入表示。本算法是metapath2vec的扩展，metapath2vec算法将节点之间的转移概率约束在一条元路径规定的节点类型中，扩展到基于元图的随机游走，即在元图上进行随机游走获取不同类型顶点的序列。换句话说，基于元图的随机游走的转移概率的约束条件是：节点i转移到节点i+1，转移的条件是两节点存在边，且i+1的节点类型符合元图约束的节点类型。

基于元图随机游走产生的节点序列，能够表达不同类型节点之间更加复杂的关系，表达能力更强，但如何选择合适的元路径生成元图是影响模型效果的关键。

(3)基于注意力机制的图神经网络的表示学习模型

无论是基于元路径随机游走的模型，还是基于元图随机游走的模型，虽然得到不同类型节点的特征表示，在某些场景下能获得比较好的效果，但模型效果依赖于元路径的生成和元图的构建，且此类模型属于浅层模型，对于复杂网络关系的挖掘深度不够。因此，如何使得模型不同程度地融合邻居节点和元路径的信息是亟待解决的问题。

基于注意力机制的图神经网络的表示学习模型即Hierarchical AttentionNetwork，简称HAN，属于半监督模型。首先基于节点级别注意力机制聚合邻居信息，然后利用语义级别注意力机制聚合元路径信息，从而同时考虑基于元路径的邻居之间和元路径之间的重要性，能够摆脱对元路径选择的依赖，处理实际业务中较为复杂的网络分析。

步骤4.3度量分析

基于不同应用场景选择不同模型进行节点表示学习，或采用组合策略对不同模型得到的嵌入式向量进行级联或求和，得到实体特征向量后，运用余弦相似度等相似性度量方法计算未标记实体与威胁实体的距离，或运用K-means等聚类算法对节点进行聚类，寻找与威胁实体在同一个簇的网络实体，实现潜在受害群体定位。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于异质信息网络的潜在受害群体定位方法，其特征在于，其包括以下步骤：

步骤1：数据接入

步骤2：数据预处理

从威胁情报数据提取入侵指标IOC,将IOC与多源网络数据关联碰撞得到的原始数据进行数据过滤和清洗，消除数据冗余，在此基础上对不同类型的数据进行针对性的特征工程，特征工程包括字段选择、关键部分提取和聚合统计分析；

步骤3：多源异构数据融合

步骤4：核心算法

步骤5：业务应用

2.根据权利要求1所述的基于异质信息网络的潜在受害群体定位方法，其特征在于，其中所述的数据接入包括：

情报驱动的入侵指标提取和基于入侵指标的原始数据关联，基于APT攻击组织某次攻击事件的威胁情报，提取有效的入侵指标主要包括APT组织的IP、URL、域名、恶意代码家族名称和恶意代码的Hash或者MD5，面向事件告警、域名解析记录、恶意代码传播日志、URL访问路径和NetFlow数据多源异构网络威胁数据，与入侵指标进行碰撞关联得到待分析的原始网络数据。

3.根据权利要求1所述的基于异质信息网络的潜在受害群体定位方法，其特征在于，其中所述的数据过滤包括情报驱动的白名单过滤、基于扫描、爬虫、探测的非攻击行为识别的流量过滤和基于完整性的数据过滤；

其中所述的基于扫描、爬虫、探测的非攻击行为识别的流量过滤是过滤资产探测流量、扫描流量和爬虫流量；基于源IP对原始流量进行汇聚和统计分析，过滤短时间内向多个目的IP的多个端口发起请求或拥有多类网络协议、多种DNS请求的网络实体相关的流量数据，有效降低数据量级；

所述的基于完整性的数据过滤是针对NetFlow数据进行降维，保留有效连接，即将NetFlow记录按照源IP、目的IP、源端口、目的端口和协议进行聚合，根据TCP标志位过滤未成功完成三次握手的NetFlow数据。

4.根据权利要求1所述的基于异质信息网络的潜在受害群体定位方法，其特征在于，所述的数据清洗包括删除重复数据消除数据冗余，删除关键字段为空、乱码、字段值缺失严重的流量记录；与此同时，对以URL为代表的内容数据进行编码解码、中英文编码转换操作，以增强流量有效载荷的可读性。

5.根据权利要求1所述的基于异质信息网络的潜在受害群体定位方法，其特征在于，其中所述的字段选择包括：

其中所述的关键部分提取包括：

其中所述的聚合统计分析包括：

按照源IP-目的IP、源IP-域名和源IP-URL进行分组，获得联通频次、事件类型频次分布、TCP握手标志位、通联时长、请求类型和响应状态码作为关系的属性或权重。

6.根据权利要求1所述的基于异质信息网络的潜在受害群体定位方法，其特征在于，其中所述的网络实体、属性和关系的提取包括面向事件监测数据的网络实体属性关系提取、面向域名解析记录数据的网络实体属性关系提取、面向NetFlow数据的网络实体属性关系提取、面向URL访问日志的网络实体属性关系提取和面向恶意代码传播日志数据表的网络实体属性关系提取；

其中所述的面向事件监测数据的实体、属性和关系提取包括：

实体：源IP、目的IP

实体属性：IP标签

关系1：源IP对目的IP发起网络攻击

关系属性：事件名

关系权重：事件发生次数和事件类型分布；

其中所述的面向域名解析记录数据的实体、属性和关系提取包括：

实体：源IP、目的IP、域名

实体属性：IP标签

关系1：源IP向目的IP发起域名解析请求

关系属性：请求类型

关系权重：请求次数

关系权重：有效响应次数

关系3：若应答成功，源IP访问请求域名对应的目的IP

关系权重：访问次数；

其中所述的面向NetFlow数据的实体、属性和关系提取包括：

实体：源IP、目的IP

实体属性：IP标签

关系1：存在有效通联关系，即完成TCP三次握手

关系权重：通联次数；

其中所述的面向URL访问日志的实体、属性和关系提取包括：

实体：源IP、目的IP、域名、访问路径即URL、文件

实体属性：IP标签、域名标签、文件类型

关系属性：GET/POST请求、响应状态

关系2：URL存放了文件

关系3：域名承载了URL

关系4：域名归属于IP；

其中所述的面向恶意代码传播日志的实体、属性和关系提取包括：

实体：源IP、目的IP、URL、文件、病毒

实体属性：文件名、文件MD5、病毒名、文件类型

关系1：源IP访问目的IP承载的URL，上传或者下载文件，文件是某病毒的相关文件

关系属性：协议类型

关系权重：访问次数。

7.根据权利要求1所述的基于异质信息网络的潜在受害群体定位方法，其特征在于，所述的构建网络实体关系图是基于提取的实体、属性和关系，将数据表中的结构化数据转化为网络实体关系图，构建的网络实体关系图主要包括：事件监测数据网络关系图、域名解析记录数据网络关系图、NetFlow数据网络关系图、URL访问日志网络关系图和恶意代码传播日志网络关系图；

8.根据权利要求7中所述的基于异质信息网络的潜在受害群体定位方法，其特征在于，所述的异质信息网络构建即将所述的构建的面向单类数据的网络实体关系图进行合并，生成融合多类数据信息的异质信息网络。

9.根据权利要求1中所述的基于异质信息网络的潜在受害群体定位方法，其特征在于，所述的受害者定位的业务逻辑包括：

业务逻辑1：IP访问承载在恶意IP上的恶意URL；

业务逻辑2：IP向恶意IP发送HTTP的POST请求；

业务逻辑5：IP与恶意IP存在稳定通联关系；

业务逻辑6：恶意IP向目的IP发起某类攻击事件；

业务逻辑7：IP访问的文件属于某类恶意代码；

业务逻辑8：受害者IP之间的关联性通常较弱；

业务逻辑10：与恶意IP有关联的IP属于重点单位；

基于以上业务逻辑，生成面向受害者定位的元路径和元图。

10.根据权利要求1所述的基于异质信息网络的潜在受害群体定位方法，其特征在于，其中基于元路径随机游走的异质网络表示学习模型，即运用无监督算法Metapath2vec进行实体特征表示，首先基于元路径进行随机游走以获取异构网络中不同类型顶点的组成的序列，然后使用扩展Skip-Gram学习每个不同类型顶点的网络嵌入表示，基于不同元路径学习节点的特征向量能够挖掘在指定语义下存在紧密联系的网络实体；

其中基于元图随机游走的异质网络表示学习模型是基于元路径随机游走表示学习模型的延伸，一条元路径能够表达一种语义信息，而元图能够融合多条元路径的语义信息；首先，根据不同业务需求，组合不同的元路径以产生表达复杂语义的元图；其次，使用基于元图随机游走从异构网络中获取不同类型顶点的序列，使用扩展的Skip-Gram学习每个不同类型顶点的网络嵌入表示；

其中运用基于注意力机制的异质图神经网络表示学习模型HAN，HAN是基于层次注意力机制的半监督模型，首先基于节点级别注意力机制聚合邻居信息，然后利用语义级别注意力机制聚合元路径信息，从而同时考虑基于元路径的邻居之间和不同元路径之间的重要性。