CN110378386A

CN110378386A - 基于有监督的无标记异常识别方法、装置及存储介质

Info

Publication number: CN110378386A
Application number: CN201910537023.9A
Authority: CN
Inventors: 邓悦; 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-10-25
Anticipated expiration: 2039-06-20

Abstract

本发明涉及机器学习领域，提出一种基于有监督的无标记异常识别方法、装置及存储介质，所述方法包括：获取无标记样本数据，所述无标记样本数据包括基础特征以及与所述基础特征对应的目标特征；将所述基础特征作为输入特征、所述目标特征作为目标变量一同输入预测模型进行训练；将所述基础特征输入训练完成的预测模型进行预测，并输出与所述目标特征对应的预测值；基于所述预测值和所述目标特征获取所述预测模型的预测误差，并根据所述预测误差确定正常区间；将预测误差不属于所述正常区间内的无标记样本记为异常样本。本发明不需要对样本数据进行标记，同时能够提高数据异常识别的准确率。

Description

基于有监督的无标记异常识别方法、装置及存储介质

技术领域

本发明涉及异常检测技术领域，尤其涉及一种基于有监督的无标记异常识别方法、装置及计算机可读存储介质。

背景技术

异常检测是检测不符合期望的数据、行为，在实际应用中包括去噪、网络入侵检测、欺诈检测、设备故障检测、机会识别、风险识别、特殊群体识别、患病诊断、视频监测等。异常检测通过对输入数据进行分析，检测异常状态。输入数据类型包括：连续型、二值型、类别型、图、时空数据、图像、音频等，输出异常事件或者异常概率。在选择异常检测方法时既要考虑解决的问题，也要考虑数据状态，如数据类型、数据分布、数据标记、数据量等。

现有异常检测方法要么是有监督的，要么是无监督的。有监督的方法需要大量的标记数据，在实际应用中往往难以获得；而无监督的检测方法需要人工对数据分布进行假设，由于没有任何标记信息因此效果往往不如有监督的方法理想。

目前，亟需一种能够应用于有监督且无标记的异常识别方法。

发明内容

本发明提供一种有监督的无标记异常识别方法、电子装置及计算机可读存储介质，其主要目的在于通过有监督的方式对无标记的数据进行异常识别，对数据要求低，且识别准确率高。

为实现上述目的，本发明提供一种基于有监督的无标记异常识别方法，应用于电子装置，其特征在于，所述方法包括：

获取无标记样本数据，所述无标记样本数据包括基础特征以及与所述基础特征对应的目标特征；

将所述基础特征作为输入特征、所述目标特征作为目标变量一同输入预测模型进行训练；

将所述基础特征输入训练完成的预测模型进行预测，并输出与所述目标特征对应的预测值；

基于所述预测值和所述目标特征获取所述预测模型的预测误差，并根据所述预测误差确定正常区间；

将预测误差不属于所述正常区间内的无标记样本记为异常样本。

优选地，所述预测模型为xgboost模型、CART数、adaboost模型或者GBDT。

优选地，所述预测误差为所述预测值与所述目标特征之间的绝对差值。

优选地，所述根据所述预测误差确定正常区间的步骤包括：

获取所述预测误差的均值和标准差；

基于所述预测误差的均值和标准差定义两个异常临界点；

所述正常区间为所述两个异常临界点之间的区间。

优选地，所述两个异常临界点分别为和所述正常区间为

其中，为所述预测误差的均值，a为预设系数，σ为所述预测误差的标准差。

为实现上述目的，本发明还提供一种电子装置，该电子装置包括：存储器及处理器，所述存储器中包括基于有监督的无标记异常识别程序，所述基于有监督的无标记异常识别程序被所述处理器执行时实现如下步骤：

优选地，所述根据所述预测误差确定正常区间的步骤包括：

获取所述预测误差的均值和标准差；

基于所述预测误差的均值和标准差定义两个异常临界点；

所述正常区间为所述两个异常临界点之间的区间。

优选地，所述两个异常临界点分别为和所述正常区间为

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括基于有监督的无标记异常识别程序，所述基于有监督的无标记异常识别程序被处理器执行时，实现如上所述的基于有监督的无标记异常识别方法中的任意步骤。

本发明提出的基于有监督的无标记异常识别方法、电子装置及计算机可读存储介质，通过大量无标记样本数据训练预测模型，并根据预测模型输出的预测值与真实值(目标特征)之间的差异，确定正常区间范围，通过正常区间对样本数据进行异常识别，样本数据不需要标记信息，且通过有监督的方式进行识别，能够提高数据异常识别的准确度。

附图说明

图1为根据本发明基于有监督的无标记异常识别方法具体实施例的应用环境示意图；

图2为图1中基于有监督的无标记异常识别程序具体实施例的模块示意图；

图3为本发明基于有监督的无标记异常识别方法具体实施例的流程图一；

图4为本发明基于有监督的无标记异常识别方法具体实施例的流程图二。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于有监督的无标记异常识别方法，应用于一种电子装置1。参照图1所示，为本发明基于有监督的无标记异常识别方法较佳实施例的应用环境示意图。

在本实施例中，电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。

该电子装置1包括：处理器12、存储器11、网络接口14及通信总线15。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器11，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于有监督的无标记异常识别程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行基于有监督的无标记异常识别程序10等。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

通信总线15用于实现这些组件之间的连接通信。

图1仅示出了具有组件11-15的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

此外，该电子装置1的显示器的面积可以与所述触摸传感器的面积相同，也可以不同。可选地，将显示器与所述触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

可选地，该电子装置1还可以包括射频(Radio Frequency，RF)电路，传感器、音频电路等等，在此不再赘述。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中可以包括操作系统、以及基于有监督的无标记异常识别程序10；处理器12执行存储器11中存储的基于有监督的无标记异常识别程序10时实现如下步骤：

其中，基础特征为待识别的无标记样本数据的输入特征，目标特征为待识别的无标记样本数据的输出特征。例如，当应用场景为用电量异常时，输入特征可以为季节、天气，输出特征为用电量，进而对用电量是否异常进行测试识别。当应用场景为员工系统访问量时，输入特征可以为员工年龄、司龄、职位等，输出特征为该员工在某段时间内的系统访问量，进而对系统访问量进行是否异常的识别。

在预测模型训练过程中，无标记样本数据作为训练数据，其输入特征和目标特征均输入预测模型中进行训练。在模型训练完成后，再次将无标记样本数据中的基础特征输入预测模型中进行预测，即可获取与真实的目标特征相对应的预测值。

优选地，所述预测模型可以选用xgboost(eXtreme Gradient Boosting，极端梯度提升)模型、CART数、adaboost(adaptive boosting，自适应提升)模型或者GBDT(GradientBoosting Decision Tree，梯度提升树)。

其中，CART(Classification and regression tree，分类与回归树)，是在给定输入随机变量X(基础特征)条件下输出随机变量Y(目标特征)的条件概率分布的学习方法。CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布，也就是在输入给定的条件下输出的条件概率分布。它由树的生成、树的剪枝构成。

而GBDT的原理主要是使用训练集和样本真值(即标准答案)训练一棵树，然后使用这棵树预测训练集，得到与各样本对应的预测值，由于预测值与真值存在一定的偏差，所以二者相减可以得到“残差”。接下来训练第二棵树，此时不再使用真值，而是使用残差作为标准答案。两棵树训练完成后，可以再次得到每个样本的残差，然后进一步训练第三棵树，以此类推。树的总棵数可以人为指定，也可以监控某些指标(例如验证集上的误差)来停止训练。在预测新样本时，每棵树都会有一个输出值，将这些输出值相加，即得到样本最终的预测值。

进一步地，所述根据所述预测误差确定正常区间的步骤包括：

获取所述预测误差的均值和标准差；

基于所述预测误差的均值和标准差定义两个异常临界点；

所述正常区间为所述两个异常临界点之间的区间。

其中，所述两个异常临界点分别为和所述正常区间为为所述预测误差的均值，a为预设系数，σ为所述预测误差的标准差。

所述预测误差的均值计算公式为：

其中，为所述预测误差的均值，x_i为各预测误差，n为预测误差的个数；

所述预测误差的标准差计算公式为：

其中，为所述预测误差的标准差，为所述预测误差的均值，x_i为各预测误差，N为预测误差的个数。

本发明提供的基于有监督的无标记异常识别方法可适用于各种异常识别场景，作为具体示例，以下将以员工系统访问量为例对本发明的异常识别过程进行详细描述。

首先，获取大量的无标记样本数据，无标记样本数据进一步包括基础特征，即员工的基础信息，如年龄、职位、司龄等，以及目标特征，即员工的历史/当前系统访问量，系统访问量与员工的访问时间及访问次数相关，无标记样本数据如下表所示：

上述各时序数据均为无标记样本数据，将其作为训练数据输入预测模型中进行模型训练(其样本ID和时间段不输入预测模型中)，其中基础特征作为输入特征，目标特征作为目标变量，二者同时输入预测模型中进行训练。

在预测模型训练完成后，将无标记样本数据中的基础特征单独输入训练完成的预测模型进行预测，并输出预测的系统访问量，该预测值与实际的系统访问量的差值即为预测模型的预测误差，换言之，预测误差为预测模型输出的预测系统访问量与实际系统访问量之间的差值。

然后，根据预测误差计算预测误差的均值和标准差。

预测误差的均值计算公式为：

所述预测误差的标准差计算公式为：

根据预测误差的均值和标准差，确定异常临界点为和所述正常区间为其中，a为预设系数，取值可以根据测试要求自行设定，通常取值为3，即定义3倍标准差之外的样本数据均为异常数据。

进而根据正常区间，将预测误差不属于所述正常区间内的无标记样本记为异常样本，得到员工系统访问量的异常情况。在应用过程中，将上述无标记样本数据的基础特征输入所述预测模型中进行异常识别即可识别出当前员工的系统访问量是否存在异常。

上述实施例提出的电子装置1，通过大量的无标记样本数据训练预测模型，进而通过预测模型对无标记数据进行预测识别，该方法不需要任何的标记信息，同时又能通过有监督的方法提高异常识别的准确率。

在其他实施例中，基于有监督的无标记异常识别程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由处理器12执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示，为图1中基于有监督的无标记异常识别程序10较佳实施例的程序模块图。

如图2所示，所述基于有监督的无标记异常识别程序10可以被分割为：

样本数据获取单元101，用于获取无标记样本数据，所述无标记样本数据包括基础特征和与所述基础特征对应的目标特征。

预测模型训练单元102，用于将所述基础特征作为输入特征、所述目标特征作为目标变量输入预测模型进行训练。

预测单元103，用于将所述基础特征输入训练完成的预测模型进行预测，并输出与所述目标特征对应的预测值。

正常区间确定单元104，用于基于所述预测值和所述目标特征获取所述预测模型的预测误差，并根据所述预测误差确定正常区间。

识别单元105，用于将预测误差不属于所述正常区间内的无标记样本记为异常样本。

此外，本发明还提供一种基于有监督的无标记异常识别方法。参照图3和图4所示，为本发明基于有监督的无标记异常识别方法不同角度实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于有监督的无标记异常识别方法包括：步骤S110-步骤S150。

S110：获取无标记样本数据，所述无标记样本数据包括基础特征以及与所述基础特征对应的目标特征。

S120：将所述基础特征作为输入特征、所述目标特征作为目标变量一同输入预测模型进行训练。

其中，在预测模型训练过程中，无标记样本数据作为训练数据，其输入特征和目标特征均输入预测模型中进行训练。

S130：将所述基础特征输入训练完成的预测模型进行预测，并输出与所述目标特征对应的预测值。

其中，在模型训练完成后，再次将无标记样本数据中的基础特征输入预测模型中进行预测，即可获取与真实的目标特征相对应的预测值。

S140：基于所述预测值和所述目标特征获取所述预测模型的预测误差，并根据所述预测误差确定正常区间。

其中，所述预测误差为所述预测值与所述目标特征之间的绝对差值。

所述根据所述预测误差确定正常区间的步骤包括：

首先，获取所述预测误差的均值和标准差；

然后，基于所述预测误差的均值和标准差定义两个异常临界点；

最后，所述正常区间为所述两个异常临界点之间的区间。

所述预测误差的均值计算公式为：

所述预测误差的标准差计算公式为：

S150：将预测误差不属于所述正常区间内的无标记样本记为异常样本。

然后，根据预测误差计算预测误差的均值和标准差。

预测误差的均值计算公式为：

所述预测误差的标准差计算公式为：

上述实施例提出的基于有监督的无标记异常识别方法，通过大量无标记样本数据训练预测模型，并根据预测模型输出的预测值与真实值之间的差异，确定正常区间范围，通过正常区间对样本数据进行异常识别，使得样本数据不需要标记信息，且通过有监督的方式进行识别，能够提高数据异常识别的准确度。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括基于有监督的无标记异常识别程序，所述基于有监督的无标记异常识别程序被处理器执行时实现如下操作：

优选地，所述根据所述预测误差确定正常区间的步骤包括：

获取所述预测误差的均值和标准差；

基于所述预测误差的均值和标准差定义两个异常临界点；

所述正常区间为所述两个异常临界点之间的区间。

优选地，所述两个异常临界点分别为和所述正常区间为

优选地，所述预测误差的均值计算公式为：

所述预测误差的标准差计算公式为：

本发明之计算机可读存储介质的具体实施方式与上述基于有监督的无标记异常识别方法、电子装置的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于有监督的无标记异常识别方法，应用于电子装置，其特征在于，所述方法包括：

2.根据权利要求1所述的基于有监督的无标记异常识别方法，其特征在于，所述预测模型为xgboost模型、CART数、adaboost模型或者GBDT。

3.根据权利要求1所述的基于有监督的无标记异常识别方法，其特征在于，所述预测误差为所述预测值与所述目标特征之间的绝对差值。

4.根据权利要求1所述的基于有监督的无标记异常识别方法，其特征在于，所述根据所述预测误差确定正常区间的步骤包括：

获取所述预测误差的均值和标准差；

基于所述预测误差的均值和标准差定义两个异常临界点；

所述正常区间为所述两个异常临界点之间的区间。

5.根据权利要求4所述的基于有监督的无标记异常识别方法，其特征在于，所述两个异常临界点分别为和所述正常区间为

6.一种电子装置，其特征在于，该电子装置包括：存储器及处理器，所述存储器中包括基于有监督的无标记异常识别程序，所述基于有监督的无标记异常识别程序被所述处理器执行时实现如下步骤：

7.根据权利要求6所述的电子装置，其特征在于，所述根据所述预测误差确定正常区间的步骤包括：

获取所述预测误差的均值和标准差；

基于所述预测误差的均值和标准差定义两个异常临界点；

所述正常区间为所述两个异常临界点之间的区间。

8.根据权利要求7所述的电子装置，其特征在于，所述两个异常临界点分别为和所述正常区间为

9.根据权利要求6所述的电子装置，其特征在于，

所述预测误差为所述预测值与所述目标特征之间的绝对差值。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括基于有监督的无标记异常识别程序，所述基于有监督的无标记异常识别程序被处理器执行时，实现如权利要求1至5中任一项所述的基于有监督的无标记异常识别方法的步骤。