CN106326064A

CN106326064A - 一种数据对象异常状态的识别方法和设备

Info

Publication number: CN106326064A
Application number: CN201510379267.0A
Authority: CN
Inventors: 江璇; 林述民
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2015-06-30
Filing date: 2015-06-30
Publication date: 2017-01-11
Anticipated expiration: 2035-06-30
Also published as: CN106326064B

Abstract

本申请公开了一种数据对象异常状态的识别方法和设备，该方法包括识别设备获取与待处理的数据对象对应的包含时间信息的原始数据，并基于所述原始数据生成原始数据曲线；所述识别设备以预先设置的数据对象周期为单位间隔在所述原始数据曲线上选取指标点，并通过所述指标点，所述指标点对应的指标值以及所述原始数据曲线生成数据对象识别曲线；所述识别设备利用所述数据对象识别曲线识别所述待处理的数据对象的异常状态。

Description

一种数据对象异常状态的识别方法和设备

技术领域

本申请实施例涉及通信技术领域，特别涉及一种数据对象异常状态的识别方法和设备。

背景技术

企业的计算机在线系统在一段时间内的运营情况是否存在异常，通常会反映在一些关键指标上。在一段时间内，指标数据的走势往往会受多方面因素影响，如果能够针对指标在一段时间内的变化曲线，进行分解并向决策层还原指标各个维度的走势，可以有针对性地、有效地判断出运营情况是否存在异常。

但现有的指标分解技术主要是利用信号模型进行，比如利用小波分解方法对指标在一段时间范围内的变化曲线进行分解，容易受到噪音的影响，并且分解出来的子曲线与所需要识别的对象的相关性不大，可解释性不强，也即现有技术中的方案无法准确识别对象的异常状态。

发明内容

本申请提出了一种数据对象异常状态的识别方法和设备，用以克服现有技术中的缺陷，实现了对数据对象的异常状态的准确识别。

为此，本申请提出了一种数据对象异常状态的识别方法，包括：

识别设备获取与待处理的数据对象对应的包含时间信息的原始数据，并基于所述原始数据生成原始数据曲线；

所述识别设备以预先设置的数据对象周期为单位间隔在所述原始数据曲线上选取指标点，并通过所述指标点，所述指标点对应的指标值以及所述原始数据曲线生成数据对象识别曲线；

所述识别设备利用所述数据对象识别曲线识别所述待处理的数据对象的异常状态。

可选的，所述识别设备基于所述原始数据生成原始数据曲线，具体包括：

所述识别设备获取所述原始数据中的时间信息以及时间信息对应的数据；

所述识别设备通过以所述时间信息为横轴，以所述时间信息对应的数据为纵轴来生成原始数据曲线。

可选的，所述数据对象识别曲线包括以下一项或多项的任意组合：

数据对象周期曲线，数据对象趋势曲线，数据对象随机曲线；

所述识别设备以预先设置的数据对象周期为单位间隔在所述原始数据曲线上选取指标点，并通过所述指标点，所述指标点对应的指标值以及所述原始数据曲线生成数据对象识别曲线，具体包括：

所述识别设备以预先设置的数据对象周期为单位间隔在所述原始数据曲线上选取指标点，并通过所述指标点以及所述指标点对应的指标值来生成数据对象周期曲线；和/或

所述识别设备基于所述原始数据曲线和所述数据对象周期曲线生成数据对象趋势曲线；和/或

所述识别设备基于所述原始数据曲线，所述数据对象周期曲线以及所述数据对象趋势曲线生成数据对象随机曲线。

可选的，所述识别设备以预先设置的数据对象周期为单位间隔在所述原始数据曲线上选取指标点，并通过所述指标点以及所述指标点对应的指标值来生成数据对象周期曲线，具体包括：

所述识别设备将预设设置的数据对象周期划分为均等的N个部分；

针对每个部分，所述识别设备以预先设置的数据对象周期为单位间隔在所述原始数据曲线上选取预定数量的指标点；

所述识别设备基于获取的预定数量的指标点以及获取的预定数量的指标点对应的指标值为每个部分生成一条周期曲线；

所述识别设备利用线性局部加权回归模型分别对N条周期曲线进行曲线拟合，再将曲线拟合后的N条周期曲线合并形成数据对象周期性曲线。

可选的，所述识别设备基于所述原始数据曲线和所述数据对象周期曲线生成数据对象趋势曲线，具体包括：

所述识别设备确定所述原始数据曲线和所述数据对象周期曲线中的各个指标点以及各指标点对应的指标值；

所述识别设备将所述原始数据曲线中各指标值减去所述数据对象周期曲线中相同指标点的指标值得到各指标点对应的指标差值；

所述识别设备利用各指标点和各指标点对应的指标差值生成差值曲线，并利用局部加权回归模型对所述差值曲线进行拟合生成数据对象趋势曲线。

可选的，所述识别设备基于所述原始数据曲线，所述数据对象周期曲线以及所述数据对象趋势曲线生成数据对象随机曲线，具体包括：

所述识别设备确定所述原始数据曲线，所述数据对象周期曲线以及所述数据对象趋势曲线中的各个指标点以及各指标点对应的指标值；

所述识别设备将所述原始数据曲线中各指标值减去所述数据对象周期曲线和所述数据对象趋势曲线中相同指标点的指标值得到各指标点对应的指标差值；

所述识别设备利用各指标点和各指标点对应的指标差值生成数据对象随机曲线。

可选的，所述识别设备利用所述数据识别曲线识别所述待处理的数据对象的异常状态，具体包括：

所述识别设备利用所述数据识别曲线与历史数据识别曲线进行比较；

若所述数据识别曲线所对应的总面积大于所述历史数据识别曲线所对应的面积，则确定所述待处理的数据对象处于异常状态。

本申请还公开了一种识别设备，包括：

获取模块，用于获取与待处理的数据对象对应的包含时间信息的原始数据；

第一生成模块，用于基于所述原始数据生成原始数据曲线；

第二生成模块，用于以预先设置的数据对象周期为单位间隔在所述原始数据曲线上选取指标点，并通过所述指标点，所述指标点对应的指标值以及所述原始数据曲线生成数据对象识别曲线；

识别模块，用于利用所述数据对象识别曲线识别所述待处理的数据对象的异常状态。

可选的，所述第一生成模块，具体用于：

获取所述原始数据中的时间信息以及时间信息对应的数据；

通过以所述时间信息为横轴，以所述时间信息对应的数据为纵轴来生成原始数据曲线。

所述第二生成模块，具体用于：

以预先设置的数据对象周期为单位间隔在所述原始数据曲线上选取指标点，并通过所述指标点以及所述指标点对应的指标值来生成数据对象周期曲线；和/或

基于所述原始数据曲线和所述数据对象周期曲线生成数据对象趋势曲线；和/或

基于所述原始数据曲线，所述数据对象周期曲线以及所述数据对象趋势曲线生成数据对象随机曲线。

可选的，所述第二生成模块以预先设置的数据对象周期为单位间隔在所述原始数据曲线上选取指标点，并通过所述指标点以及所述指标点对应的指标值来生成数据对象周期曲线，具体包括：

将预设设置的数据对象周期划分为均等的N个部分；

针对每个部分，以预先设置的数据对象周期为单位间隔在所述原始数据曲线上选取预定数量的指标点；

基于获取的预定数量的指标点以及获取的预定数量的指标点对应的指标值为每个部分生成一条周期曲线；

利用线性局部加权回归模型分别对N条周期曲线进行曲线拟合，再将曲线拟合后的N条周期曲线合并形成数据对象周期性曲线。

可选的，所述第二生成模块基于所述原始数据曲线和所述数据对象周期曲线生成数据对象趋势曲线，具体包括：

确定所述原始数据曲线和所述数据对象周期曲线中的各个指标点以及各指标点对应的指标值；

将所述原始数据曲线中各指标值减去所述数据对象周期曲线中相同指标点的指标值得到各指标点对应的指标差值；

利用各指标点和各指标点对应的指标差值生成差值曲线，并利用局部加权回归模型对所述差值曲线进行拟合生成数据对象趋势曲线。

可选的，所述第二生成模块基于所述原始数据曲线，所述数据对象周期曲线以及所述数据对象趋势曲线生成数据对象随机曲线，具体包括：

确定所述原始数据曲线，所述数据对象周期曲线以及所述数据对象趋势曲线中的各个指标点以及各指标点对应的指标值；

将所述原始数据曲线中各指标值减去所述数据对象周期曲线和所述数据对象趋势曲线中相同指标点的指标值得到各指标点对应的指标差值；

利用各指标点和各指标点对应的指标差值生成数据对象随机曲线。

可选的，所述识别模块，具体用于

与现有技术相比，本申请中通过获取与待处理的数据对象对应的包含时间信息的原始数据，并基于原始数据生成原始数据曲线；以预先设置的数据对象周期为单位间隔在原始数据曲线上选取指标点，并通过指标点，所述指标点对应的指标值以及所述原始数据曲线生成数据对象识别曲线；所述识别设备利用所述数据对象识别曲线识别所述待处理的数据对象的异常状态，实现了对数据对象指标的准确分析。

附图说明

图1为本申请实施例提出的一种数据对象异常状态的识别方法的流程示意图；

图2为本申请实施例提出的一种原始数据曲线的示意图；

图3为本申请实施例提出的一种数据对象周期曲线的示意图；

图4为本申请实施例提出的一种数据对象趋势曲线的示意图；

图5为本申请实施例提出的一种数据对象随机曲线的示意图；

图6为本申请实施例提出的一种识别设备的结构示意图。

具体实施方式

针对现有技术中存在的上述问题，本申请实施例一公开了一种数据对象异常状态的识别方法，如图1所示，包括以下步骤：

步骤S101、识别设备获取与待处理的数据对象对应的包含时间信息的原始数据，并基于原始数据生成原始数据曲线。

其中，具体的待处理的数据对象可以是业务，比如在支付网站的某用户的支付业务，也可以是其他的，例如某种行为，例如用户的资金转换迁移等等，具体的基于原始数据生成原始数据曲线过程，包括：获取原始数据中的时间信息以及时间信息对应的数据；通过以时间信息为横轴，以时间信息对应的数据为纵轴来生成原始数据曲线。

例如获取的包含时间信息的原始数据如表1所示。

表1

时间信息	商品销量
		……	……
20141109	32
		20141110	27
20141111	203
		20141112	21
……	……

当然，获取的原始数据中也可以包含多个其他的数据，例如销售额等，具体的可以基于需要分析的数据对象指标进行获取，在此不在进行赘叙。

获取了原始数据之后，基于原始数据生成原始数据曲线，具体的以表1为例，可以以时间信息为横轴，以商品销量为纵轴生成原始数据曲线，生成的原始数据曲线如图2所示，当然也可以反过来，以时间信息为纵轴，以商品销量为横轴生成原始数据曲线，具体的生成方式以及最后生成的曲线可以基于需要进行设置，只要能体现原始数据即可。

步骤S102、识别设备以预先设置的数据对象周期为单位间隔在原始数据曲线上选取指标点，并通过指标点，指标点对应的指标值以及原始数据曲线生成数据对象识别曲线。

具体的，由于数据对象识别曲线包括以下一项或多项的任意组合：数据对象周期曲线，数据对象趋势曲线，数据对象随机曲线；因此识别设备以预先设置的数据对象周期为单位间隔在原始数据曲线上选取指标点，并通过指标点，指标点对应的指标值以及原始数据曲线生成数据对象识别曲线，具体包括：

识别设备以预先设置的数据对象周期为单位间隔在原始数据曲线上选取指标点，并通过指标点以及指标点对应的指标值来生成数据对象周期曲线；和/或

识别设备基于原始数据曲线和数据对象周期曲线生成数据对象趋势曲线；和/或

识别设备基于原始数据曲线，数据对象周期曲线以及数据对象趋势曲线生成数据对象随机曲线。

而具体的，生成数据对象周期曲线的具体过程可以如下：

将预设设置的数据对象周期划分为均等的N个部分；针对每个部分，以预先设置的数据对象周期为单位间隔在原始数据曲线上选取预定数量的指标点；基于获取的预定数量的指标点以及获取的预定数量的指标点对应的指标值为每个部分生成一条周期曲线；利用线性局部加权回归模型分别对N条周期曲线进行曲线拟合，再将曲线拟合后的N条周期曲线合并形成数据对象周期性曲线。

仍以上述例子来进行说明，例如设置数据对象周期为1周，而1周包括7天，因此可以将1周均匀分成7个部分(分别对应周一，周二，以此类推直到周日)，每个部分1天，为每个部分(例如周三)在原始数据曲线上每隔1周获取一个指标点(例如该指标点对应的时间可以是周三，与该部分的时间相同)，共获取预定数量的指标点，具体的指标点的数量基于需要进行设置，例如需要分析的数据区间为2015年01月01日到2015年01月31日，指标点就可以获取到对应的原始数据曲线上对应时间的部分进行获取。

以周一来进行说明，基于获取的周一对应的所有指标点以及指标点对应的数据，生成周一的周期曲线，该周期曲线用于体现每个周一部分的数据。这样一周有7天，可以获取7条周期曲线，利用线性局部加权回归模型分别对这7条周期曲线进行曲线拟合，再将曲线拟合后的7条周期曲线合并形成数据对象周期性曲线，生成的数据对象周期性曲线如图3所示，因为数据对象周期的关系，同为周期中某一阶段(比如都为周一)的指标的长期变化较为平滑，适用线性局部加权回归模型进行曲线拟合可以排除掉某些干扰因素。

在生成了数据对象周期曲线之后，可以基于数据对象周期曲线和原始数据曲线生成数据对象趋势曲线。

具体的生成数据对象趋势曲线的过程包括：

确定原始数据曲线和数据对象周期曲线中的各个指标点以及各指标点对应的指标值；将原始数据曲线中各指标值减去数据对象周期曲线中相同指标点的指标值得到各指标点对应的指标差值；利用各指标点和各指标点对应的指标差值生成差值曲线，并利用局部加权回归模型对差值曲线进行拟合生成数据对象趋势曲线。

仍以上述例子来进行说明，原始数据曲线如图2所示，数据对象周期曲线如图3，具体的生成数据对象趋势曲线的过程是确定原始数据曲线和数据对象周期曲线中的各个指标点(例如周一)，以及各个指标点对应的指标值(例如周一对应的数据)，后续，以周一为例，将原始数据曲线中的周一对应的指标值减去数据对象周期曲线中周一对应的指标值，得到一个差值，其他的部分(周二，周三，…周日)以此类似，可以获取各个指标点以及各个指标点对应的差值，后续就可以利用获取的指标点以及指标点对应的差值生成差值曲线，并继续利用局部加权回归模型对差值曲线进行拟合生成数据对象趋势曲线，生成的数据对象趋势曲线，具体可以如图4所示。

最后，识别设备可以基于前述生成的原始数据曲线，数据对象周期曲线以及数据对象趋势曲线生成数据对象随机曲线；

生成数据对象随机曲线的过程，具体可以包括：确定原始数据曲线，数据对象周期曲线以及数据对象趋势曲线中的各个指标点以及各指标点对应的指标值；将原始数据曲线中各指标值减去数据对象周期曲线和数据对象趋势曲线中相同指标点的指标值得到各指标点对应的指标差值；利用各指标点和各指标点对应的指标差值生成数据对象随机曲线。

与前述生成数据对象趋势曲线的过程类似，不过在此过程中，原始数据曲线中的指标点(以周一为例进行说明)对应的指标值需要减去数据对象周期曲线和数据对象趋势曲线中相同指标点(周一)的指标值得到各指标点对应的指标差值，其他的指标点(对应周二，周三…周日)与此类似，在此不再进行赘叙，得到各指标点以及各指标点对应的第二差值，再基于指标点以及各指标点对应的第二差值生成数据对象随机曲线，具体的数据对象随机曲线可以如图5所示，不需要对利用局部加权回归模型进行修正。

步骤S103、识别设备利用数据对象识别曲线识别待处理的数据对象的异常状态。

具体的，识别设备可以利用数据识别曲线与历史数据识别曲线进行比较；若数据识别曲线所对应的总面积大于历史数据识别曲线所对应的面积，则确定待处理的数据对象处于异常状态。

而由于数据识别曲线可以有数据对象周期曲线，和/或数据对象趋势曲线，和/或数据对象随机曲线，对应的可以找三条对应的历史数据对象的曲线，即历史数据对象周期曲线，历史数据对象趋势曲线，以及历史数据对象随机曲线，也即在获取了数据对象周期曲线，数据对象趋势曲线以及数据对象随机曲线之后，由于原始数据对应的是数据对象指标，就可以利用数据对象周期曲线，和/或数据对象趋势曲线和/或数据对象随机曲线识别待处理的数据对象的异常状态；

具体的，以数据对象周期曲线为例来进行说明，可以利用数据对象周期曲线与历史数据对象周期曲线进行比较，若数据对象周期曲线所对应的面积大于历史数据对象周期曲线所对应的面积，就可以认为待处理的数据对象处于异常状态，当然也可以基于需要通过比较两条或者三条曲线的面积来确定待处理的数据对象是否异常，当需要使用两条曲线时，可以对两条曲线对应的面积的与对应的两条历史曲线的面积的和进行比较，若大于，则确定待处理的数据对象处于异常状态，若还需要比较三条曲线，则与此类似，在此不再进行赘叙。其中，曲线与横轴以及纵轴之间的面积，例如曲线为一条起点的坐标为(0，2)，终点为(2、2)的直线，则对应的面积为4＝2×2。

当然，除此以外，还可以有很多别的方式来进行比较，例如针对每个指标点，求平均值，再和上述三个历史曲线上的对应指标点的平均值进行比较，来进行判断；还可以设置三个历史曲线不同的权重值，后续利用评估的差值以及权重值来汇总共同识别数据对象的异常状态；或者预设多个识别区域，若数据对象周期曲线，数据对象趋势曲线以及数据对象随机曲线分别处于预设的识别区间，以及处于哪个区间，来判断是否异常以及异常的程度，具体可以基于需要进行设置，在此不再进行赘叙。

为了对本申请进行进一步的说明，本申请实施例二还提出了一种识别设备，如图6所示，包括：

获取模块601，用于获取与待处理的数据对象对应的包含时间信息的原始数据；

第一生成模块602，用于基于所述原始数据生成原始数据曲线；

第二生成模块603，用于以预先设置的数据对象周期为单位间隔在所述原始数据曲线上选取指标点，并通过所述指标点，所述指标点对应的指标值以及所述原始数据曲线生成数据对象识别曲线；

识别模块604，用于利用所述数据对象识别曲线识别所述待处理的数据对象的异常状态。

所述第一生成模块602，具体用于：

获取所述原始数据中的时间信息以及时间信息对应的数据；

所述数据对象识别曲线包括以下一项或多项的任意组合：

所述第二生成模块603，具体用于：

所述第二生成模块603以预先设置的数据对象周期为单位间隔在所述原始数据曲线上选取指标点，并通过所述指标点以及所述指标点对应的指标值来生成数据对象周期曲线，具体包括：

将预设设置的数据对象周期划分为均等的N个部分；

所述第二生成模块603基于所述原始数据曲线和所述数据对象周期曲线生成数据对象趋势曲线，具体包括：

所述第二生成模块603基于所述原始数据曲线，所述数据对象周期曲线以及所述数据对象趋势曲线生成数据对象随机曲线，具体包括：

所述识别模块604，具体用于

与现有技术相比，本申请中通过获取与待处理的数据对象对应的包含时间信息的原始数据，并基于原始数据生成原始数据曲线；以预先设置的数据对象周期为单位间隔在原始数据曲线上选取指标点，并通过指标点以及指标点对应的指标值来生成数据对象周期曲线；基于原始数据曲线和数据对象周期曲线生成数据对象趋势曲线；基于原始数据曲线，数据对象周期曲线以及数据对象趋势曲线生成数据对象随机曲线；利用数据对象周期曲线，和/或数据对象趋势曲线，和/或数据对象随机曲线来对数据对象的异常状态进行识别，实现了多个维度对数据对象指标的准确分析。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种数据对象异常状态的识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述识别设备基于所述原始数据生成原始数据曲线，具体包括：

3.如权利要求1所述的方法，其特征在于，所述数据对象识别曲线包括以下一项或多项的任意组合：

4.如权利要求3所述的方法，其特征在于，所述识别设备以预先设置的数据对象周期为单位间隔在所述原始数据曲线上选取指标点，并通过所述指标点以及所述指标点对应的指标值来生成数据对象周期曲线，具体包括：

5.如权利要求3所述的方法，其特征在于，所述识别设备基于所述原始数据曲线和所述数据对象周期曲线生成数据对象趋势曲线，具体包括：

6.如权利要求3所述的方法，其特征在于，所述识别设备基于所述原始数据曲线，所述数据对象周期曲线以及所述数据对象趋势曲线生成数据对象随机曲线，具体包括：

7.如权利要求1所述的方法，其特征在于，所述识别设备利用所述数据识别曲线识别所述待处理的数据对象的异常状态，具体包括：

8.一种识别设备，其特征在于，包括：

第一生成模块，用于基于所述原始数据生成原始数据曲线；

9.如权利要求8所述的设备，其特征在于，所述第一生成模块，具体用于：

获取所述原始数据中的时间信息以及时间信息对应的数据；

10.如权利要求8所述的设备，其特征在于，所述数据对象识别曲线包括以下一项或多项的任意组合：

所述第二生成模块，具体用于：

11.如权利要求10所述的设备，其特征在于，所述第二生成模块以预先设置的数据对象周期为单位间隔在所述原始数据曲线上选取指标点，并通过所述指标点以及所述指标点对应的指标值来生成数据对象周期曲线，具体包括：

将预设设置的数据对象周期划分为均等的N个部分；

12.如权利要求10所述的设备，其特征在于，所述第二生成模块基于所述原始数据曲线和所述数据对象周期曲线生成数据对象趋势曲线，具体包括：

13.如权利要求10所述的设备，其特征在于，所述第二生成模块基于所述原始数据曲线，所述数据对象周期曲线以及所述数据对象趋势曲线生成数据对象随机曲线，具体包括：

14.如权利要求8所述的设备，其特征在于，所述识别模块，具体用于