CN108920947B

CN108920947B - 一种基于日志图建模的异常检测方法和装置

Info

Publication number: CN108920947B
Application number: CN201810433083.1A
Authority: CN
Inventors: 宗志远
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2020-06-30
Anticipated expiration: 2038-05-08
Also published as: CN108920947A

Abstract

本发明提供了一种基于日志图建模的异常检测方法和装置，该方法和装置应用于非社交网络，具体为根据非社交网络中预先标注的异常数据的关键字段构建一个二分图，二分图的左边节点对应多个用户账号、右边节点则对应业务接口请求时的参数组合；从二分图中进行特征提取，并将提取的特征拼接为特征向量；基于异常数据和特征向量进行k‑means聚类处理，得到最优聚类数目；根据最优聚类数目并使用高斯混合模型拟合出黑产特征概率分布；当接收到传入数据时，根据传入的数据的特征向量和高斯混合模型计算数据的黑产概率，并根据黑产概率和黑产特征概率分布判断数据是否异常。当判定数据异常时，可以及时对用户的访问行为进行干预，从而可以避免黑客对网络攻击。

Description

一种基于日志图建模的异常检测方法和装置

技术领域

本发明涉及网络安全技术领域，特别是涉及一种基于日志图建模的异常检测方法和装置。

背景技术

在QQ、微信、微博等社交网络中，用户之间的关系图可以刻画出他们之间的共同好友、共同偏好等特性，进而可以用于向用户推荐好友，对用户群进行分类处理等。

对于非社交网络来说，用户同样是公司的核心资产，只是用户之间缺乏直接的关联，很难使用现有的社交网络挖掘方法来研究用户问题。这样一来，一方面制约了社交网络中的研究成果在非社交网络的应用，另一方面也导致非社交网络公司缺乏从关系图的角度来认知用户的能力，特别的，黑客在攻击时，往往采用相关联的手段攻击相关联的目标。因此，如何将日志数据构建成图，并从图中挖掘异常的情况，已成为在网络安全分析中非常重要的研究课题。

发明内容

有鉴于此，本发明提供了一种基于日志图建模的异常检测方法，用于对传入数据进行快速分析，以从中检测出异常数据，以此避免黑客对网络的攻击。

为了解决上述问题，本发明公开了一种基于日志图建模的异常检测方法，应用于非社交网络，所述异常检测方法包括步骤：

根据所述非社交网络中预先标注的异常数据的关键字段构建一个二分图，所述二分图的左边节点对应多个用户账号、右边节点则对应业务接口请求时的参数组合；

从所述二分图中进行特征提取，并将提取的特征拼接为特征向量；

基于所述异常数据和所述特征向量进行k-means聚类处理，得到最优聚类数目；

根据所述最优聚类数目并使用高斯混合模型拟合出黑产特征概率分布；

当接收到传入数据时，根据传入的数据的特征向量和所述高斯混合模型计算所述数据的黑产概率，并根据所述黑产概率和所述黑产特征概率分布判断所述数据是否异常。

可选的，所述根据所述非社交网络中预先标注的异常数据的关键字段构建一个二分图，包括：

从所述异常数据中抽取多个关键字段，所述关键字段包括用户账号、用户名、ip、设备id；

利用所述多个关键字段构建上述二分图。

可选的，所述从所述二分图中进行特征提取，并将提取的特征拼接为特征向量，包括：

从所述二分图中提取一度特征和二度特征；

将所述一度特征和所述二度特征进行拼接处理，得到所述特征向量。

可选的，所述基于所述异常数据和所述特征向量进行k-means聚类处理，得到最优聚类数目，包括：

通过预先设定的多个聚类数目进行k-means聚类处理；

根据处理的效果从多个聚类数目中确定所述最优聚类数目

相应的，为了保证上述方法的实施，本发明还提供了一种基于日志图建模的异常检测装置，应用于非社交网络，所述异常检测装置包括：

二分图构建模块，用于根据所述非社交网络中预先标注的异常数据的关键字段构建一个二分图，所述二分图的左边节点对应多个用户账号、右边节点则对应业务接口请求时的参数组合；

特征向量拼接模块，用于从所述二分图中进行特征提取，并将提取的特征拼接为特征向量；

聚类处理模块，用于根据所述最优聚类数目并使用高斯混合模型拟合出黑产特征概率分布；

概率分布计算模块，用于根据所述最优聚类数目并使用高斯混合模型拟合出黑产特征概率分布；；

数据检测模块，用于当接收到传入数据时，根据传入的数据的特征向量和所述高斯混合模型计算所述数据的黑产概率，并根据所述黑产概率和所述黑产特征概率分布判断所述数据是否异常。

可选的，所述二分图构建模块包括：

关键字段抽取单元，用于从所述异常数据中抽取多个关键字段，所述关键字段包括用户账号、用户名、ip、设备id；

二分图构建单元，用于利用所述多个关键字段构建上述二分图。

可选的，所述特征向量拼接模块包括：

特征提取单元，用于从所述二分图中提取一度特征和二度特征；

特征拼接单元，用于将所述一度特征和所述二度特征进行拼接处理，得到所述特征向量。

可选的，所述聚类处理模块包括：

聚类数目设定单元，用于通过预先设定的多个聚类数目进行k-means聚类处理；

最优数目确定单元，用于根据处理的效果从多个聚类数目中确定所述最优聚类数目。

从上述技术方案可以看出，本发明提供了一种基于日志图建模的异常检测方法和装置，该方法和装置应用于非社交网络，具体为根据非社交网络中预先标注的异常数据的关键字段构建一个二分图，二分图的左边节点对应多个用户账号、右边节点则对应业务接口请求时的参数组合；从二分图中进行特征提取，并将提取的特征拼接为特征向量；基于异常数据和特征向量进行k-means聚类处理，得到最优聚类数目；根据最优聚类数目并使用高斯混合模型拟合出黑产特征概率分布；当接收到传入数据时，根据传入的数据的特征向量和高斯混合模型计算数据的黑产概率，并根据黑产概率和黑产特征概率分布判断数据是否异常。当判定数据异常时，可以及时对用户的访问行为进行干预，从而可以避免黑客对网络攻击，从而保证了网络安全。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于日志图建模的异常检测方法的步骤流程图；

图2为发明实施例提供的一种二分图；

图3为本发明实施例提供的一种基于日志图建模的异常检测装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例提供的一种基于日志图建模的异常检测方法的步骤流程图。

参照图1所示，本实施例提供的异常检测方法应用于非社交网络，具体包括如下步骤：

S101：根据异常数据的关键字段构建一个二分图。

这里的异常数据来源于对业务日志预先进行标注的结果，业务日志指的是非社交网络在日常运行中产生的日志文件，对日志文件进行标注可以采用人工标注或者自动标注的方法进行。该二分图的左节点对应多个用户账号，二分图的右节点对应业务接口请求的参数组合，具体参见图2所示。具体过程为：

首先，从业务日志中抽取多个关键字段，如用户账号、用户名、ip和设备id等；然后，利用上述多个关键字段构成该二分图。

S102：从二分图中进行特征提取，并将提取的特征拼接为特征向量。

在得到上述二分图后，从该二分图中进行特征提取，在得到相应特征后将得到的特征拼接为特征向量。其实质是提取左节点中每个用户账号所对应的关键字段，并将得到的所有关键字段按一定的规律或顺序进行排序，从而构成用户账号的特征向量。为了便于进一步计算，可以对特征向量中每个关键字段进行量化，并做归一化处理，以便于后续进行模型训练。

其中一度节点是指与某个节点有关联的其他节点，二度节点是指与某个节点有关系节点的关系节点。具体的提取过程为：

首先，从二分图中提取一度特征和二度特征。一度特征包括该左节点的出度和入度，以及相关联的右节点的参数分布(例如：不同ip数目，不同ua数目)等，出度是指这个节点指向其他节点的数目，而入度是指其他节点执行本节点的数目。ua全称为User Agent，中文名为用户代理，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

二度特征包括该左节点直接关联(邻居)节点的特征，比如邻居节点中最大(最小)的出度和入度，邻居节点的邻居参数分布等。然后，将提取到的一度特征和二度特征进行拼接处理，得到相应的特征向量。username1的一度节点是右边第一个，其二度节点是指username2。

S103：基于异常数据和特征向量进行k-means聚类处理。

在得到上述异常数据的特征向量后，根据上述特征向量对异常数据进行k-means聚类处理。具体过程为：

首先设定多个聚类数目，并根据每个聚类数目对异常数据进行k-means聚类处理，通过不断调整聚类数目，可以得到不同的性能；通过对不同性能的比较，最终从多个聚类数目中确定出最优聚类数目。

k-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。k-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

S104：根据最优聚类数目拟合出黑产特征概率分布。

具体为将最优聚类数目输入到训练好的高斯混合模型进行计算，从而得到黑产特征概率分布。高斯混合模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物，它是一个将事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。

S105：对传入数据计算其黑产概率，并判断其是否为异常数据。

在对传入数据进行判断时，首先对传入数据进行特征提取，提取出相应的特征向量，特征向量的提取与前述对异常数据的特征向量的提取相同，即首先根据传入数据构建一个二分图，然后从该二分图中提取特征向量。然后再使用上述训练好的高斯混合模型对特征向量进行计算，从而得到该传入数据的黑产概率，然后将该黑产概率与上述黑产特征概率分布进行比较，当黑产概率高于根据上述黑产特征概率分布确定的阈值时，该阈值为一个经验数据，可以在具体实践中加以确定并进行调整，判定该传入数据为异常数据。

从上述技术方案中可以看出，本实施例提供了一种基于日志图建模的异常检测方法，该方法应用于非社交网络，具体为根据非社交网络中预先标注的异常数据的关键字段构建一个二分图，二分图的左边节点对应多个用户账号、右边节点则对应业务接口请求时的参数组合；从二分图中进行特征提取，并将提取的特征拼接为特征向量；基于异常数据和特征向量进行k-means聚类处理，得到最优聚类数目；根据最优聚类数目并使用高斯混合模型拟合出黑产特征概率分布；当接收到传入数据时，根据传入的数据的特征向量和高斯混合模型计算数据的黑产概率，并根据黑产概率和黑产特征概率分布判断数据是否异常。当判定数据异常时，可以及时对用户的访问行为进行干预，从而可以避免黑客对网络攻击，从而保证了网络安全。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例二

参照图3所示，本实施例提供的异常检测装置应用于非社交网络，具体包括二分图构建模块10、特征向量拼接模块20、聚类处理模块30、概率分布计算模块40和数据检测模块50。

二分图构建模块用于根据异常数据的关键字段构建一个二分图。

这里的异常数据来源于对业务日志预先进行标注的结果，业务日志指的是非社交网络在日常运行中产生的日志文件，对日志文件进行标注可以采用人工标注或者自动标注的方法进行。该二分图的左节点对应多个用户账号，二分图的右节点对应业务接口请请求的参数组合，具体参见图2所示。该模块包括关键字段抽取单元和二分图构建单元。

关键字段抽取单元用于从业务日志中抽取多个关键字段，如用户账号、用户名、ip和设备id等；二分图构建单元则利用上述多个关键字段构成该二分图。

特征向量拼接模块用于从二分图中进行特征提取，并将提取的特征拼接为特征向量。

其中一度节点是指与某个节点有关联的其他节点，二度节点是指与某个节点有关系节点的关系节点。该模块包括特征提取单元和特征拼接单元。

特征提取单元用于从二分图中提取一度特征和二度特征。一度特征包括该节点的出度和入度，以及相关联节点的参数分布(例如：不同ip数目，不同ua数目)等，出度是指这个节点指向其他节点的数目，而入度是指其他节点执行本节点的数目。

二度特征包括该节点直接关联(邻居)节点的特征，比如邻居节点中最大(最小)的出度和入度，邻居节点的邻居参数分布等。特征拼接单元则用于将提取到的一度特征和二度特征进行拼接处理，得到相应的特征向量。username1的一度节点是右边第一个，其二度节点是指username2。

聚类处理模块用于基于异常数据和特征向量进行k-means聚类处理。

在得到上述异常数据的特征向量后，根据上述特征向量对异常数据进行k-means聚类处理。该模块包括聚类数目设定单元和最优数目确定单元。

聚类数目设定单元用于设定多个聚类数目，并根据每个聚类数目对异常数据进行k-means聚类处理，通过不断调整聚类数目，可以得到不同的性能；最优数目确定单元用于通过对不同性能的比较，最终从多个聚类数目中确定出最优聚类数目。

概率分布计算模块用于根据最优聚类数目拟合出黑产特征概率分布。

具体为根据最优聚类数目并使用训练好的高斯混合模型进行计算，从而得到黑产特征概率分布。

数据检测模块用于对传入数据计算其黑产概率，并判断其是否为异常数据。

在对传入数据进行判断时，首先对传入数据进行特征提取，提取出相应的特征向量，特征向量的提取与前述对异常数据的特征向量的提取相同。然后再使用上述训练好的高斯混合模型对特征向量进行计算，从而得到该传入数据的黑产概率，然后将该黑产概率与上述黑产特征概率分布进行比较，当黑产概率高于根据上述黑产特征概率分布确定的阈值时，判定该传入数据为异常数据。

从上述技术方案中可以看出，本实施例提供了一种基于日志图建模的异常检测装置，该装置应用于非社交网络，具体为根据非社交网络中预先标注的异常数据的关键字段构建一个二分图，二分图的左边节点对应多个用户账号、右边节点则对应业务接口请求时的参数组合；从二分图中进行特征提取，并将提取的特征拼接为特征向量；基于异常数据和特征向量进行k-means聚类处理，得到最优聚类数目；根据最优聚类数目并使用高斯混合模型拟合出黑产特征概率分布；当接收到传入数据时，根据传入的数据的特征向量和高斯混合模型计算数据的黑产概率，并根据黑产概率和黑产特征概率分布判断数据是否异常。当判定数据异常时，可以及时对用户的访问行为进行干预，从而可以避免黑客对网络攻击，从而保证了网络安全。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于日志图建模的异常检测方法，应用于非社交网络，其特征在于，所述异常检测方法包括步骤：

从所述二分图中进行特征提取，并将提取的特征拼接为特征向量，包括：从所述二分图中提取一度特征和二度特征，将所述一度特征和所述二度特征进行拼接处理，得到所述特征向量；

2.如权利要求1所述的异常检测方法，其特征在于，所述根据所述非社交网络中预先标注的异常数据的关键字段构建一个二分图，包括：

利用所述多个关键字段构建上述二分图。

3.如权利要求1所述的异常检测方法，其特征在于，所述基于所述异常数据和所述特征向量进行k-means聚类处理，得到最优聚类数目，包括：

通过预先设定的多个聚类数目进行k-means聚类处理；

根据处理的效果从多个聚类数目中确定所述最优聚类数目。

4.一种基于日志图建模的异常检测装置，应用于非社交网络，其特征在于，所述异常检测装置包括：

聚类处理模块，用于基于所述异常数据和所述特征向量进行k-means聚类处理，得到最优聚类数目；

概率分布计算模块，用于根据所述最优聚类数目并使用高斯混合模型拟合出黑产特征概率分布；

数据检测模块，用于当接收到传入数据时，根据传入的数据的特征向量和所述高斯混合模型计算所述数据的黑产概率，并根据所述黑产概率和所述黑产特征概率分布判断所述数据是否异常；

其中，所述特征向量拼接模块包括：

5.如权利要求4所述的异常检测装置，其特征在于，所述二分图构建模块包括：

6.如权利要求4所述的异常检测装置，其特征在于，所述聚类处理模块包括：