CN111831704A

CN111831704A - 异常数据的确定方法、装置、存储介质和电子设备

Info

Publication number: CN111831704A
Application number: CN202010438138.5A
Authority: CN
Inventors: 谢梁; 高梓尧; 李沁妤
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-10-27
Anticipated expiration: 2040-05-21
Also published as: CN111831704B

Abstract

本发明实施例提供了一种异常数据的确定方法、装置、存储介质和电子设备。本发明实施例在获取预定时间段内产生的至少一个数据，并确定各第一数据的置信区间，以根据各置信区间确定用于表征各第一数据的异常程度的第一评价参数，同时对各数据进行聚类，确定各第一数据对应的、用于对第一评价参数进行调整的调整参数，进而根据调整参数对各数据的第一评价参数进行调整，确定各数据的第二评价参数，从而将第二评价参数满足一定条件的数据确定为异常数据。在本发明实施例中，通过时间序列预测模型确定数据变化的规律以及置信区间，且置信区间用于表征数据为正常数据的范围，因此通过本发明实施例的方法可以有效提升异常数据确定的准确性。

Description

异常数据的确定方法、装置、存储介质和电子设备

技术领域

本发明涉及数据处理技术领域，具体涉及一种异常数据的确定方法、装置、存储介质和电子设备。

背景技术

随着互联网技术领域的飞速发展以及生活节奏的加快，日常生活中产生的数据的规模越来越庞大。数据所包含的信息量十分庞大，因此对于各行各业，对数据进行准确分析是十分有必要的。但日常生活中无法避免产生异常数据，因此为了对数据进行准确分析，需要从大量数据中确定出正常数据与少量异常数据，从而对异常数据与正常数据分别进行数据分析。但现有技术对于异常数据确定的准确性不高，因此会导致后续数据分析的准确性不高。

发明内容

有鉴于此,本发明实施例的目的在于提供一种异常数据的确定方法、装置、存储介质和电子设备，用于提升异常数据确定的准确性，从而为后续数据分析过程提供较为准确的数据支持。

根据本发明实施例的第一方面，提供一种异常数据的确定方法，所述方法包括：

获取第一序列，所述第一序列为第一时间段内的至少一个第一数据构成的时间序列，所述第一数据用于表征网络访问量数据；

基于预先训练的时间序列预测模型，确定各所述第一数据的置信区间，所述时间序列预测模型根据历史数据训练获得；

根据各所述第一数据以及对应的所述置信区间确定各所述所述第一数据的第一评价参数，所述第一评价参数用于表征所述第一数据的异常程度；

对各所述第一数据进行聚类，确定各所述第一数据的调整参数；

对于各所述第一数据，根据所述调整参数对所述第一评价参数进行调整，确定第二评价参数；

将所述第二评价参数满足第一条件的所述第一数据确定为异常数据。

根据本发明实施例的第二方面，提供一种异常数据的确定装置，所述装置包括：

第一获取单元，用于获取第一序列，所述第一序列为第一时间段内的至少一个第一数据构成的时间序列，所述第一数据用于表征网络访问量数据；

第一确定单元，用于基于预先训练的时间序列预测模型，确定各所述第一数据的置信区间，所述时间序列预测模型根据历史数据训练获得；

第二确定单元，用于根据各所述第一数据以及对应的所述置信区间确定各所述所述第一数据的第一评价参数，所述第一评价参数用于表征所述第一数据的异常程度；

聚类单元，用于对各所述第一数据进行聚类，确定各所述第一数据的调整参数；

调整单元，用于对于各所述第一数据，根据所述调整参数对所述第一评价参数进行调整，确定第二评价参数；

第三确定单元，用于将所述第二评价参数满足第一条件的所述第一数据确定为异常数据。

根据本发明实施例的第三方面，提供一种计算机可读存储介质，其上存储计算机程序指令，其中，所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。

根据本发明实施例的第四方面，提供一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。

本发明实施例在获取预定时间段内产生的至少一个数据，并确定各第一数据的置信区间，以根据各置信区间确定用于表征各第一数据的异常程度的第一评价参数，同时对各数据进行聚类，确定各第一数据对应的、用于对第一评价参数进行调整的调整参数，进而根据调整参数对各数据的第一评价参数进行调整，确定各数据的第二评价参数，从而将第二评价参数满足一定条件的数据确定为异常数据。在本发明实施例中，通过时间序列预测模型确定数据变化的规律以及置信区间，且置信区间用于表征数据为正常数据的范围，因此通过本发明实施例的方法可以有效提升异常数据确定的准确性。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明第一实施例的异常数据的确定方法的流程图；

图2是本发明第一实施例的时间序列预测模型的输入的示意图；

图3是本发明第一实施例的时间序列预测模型的输出的示意图；

图4是本发明第二实施例的异常数据的确定装置；

图5是本发明第三实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

日常生活中会产生各种各样的数据，例如，用户群体每天通过点击预定网站、预定应用软件等所产生的访问量数据(也即，网络访问量数据)，通过预定软件进行购买行为所产生的订单量数据，员工每天的出勤数量数据，每日的用户新增量数据等。日常生活中无法避免产生异常数据，例如，对于预定网站或预定应用软件，某一天的访问量异常。因此为了对数据进行准确分析，需要从大量数据中确定出正常数据与少量异常数据，从而对异常数据与正常数据分别进行数据分析。但现有技术对于异常数据确定的准确性不高，因此会导致后续数据分析的准确性不高。

在本发明实施例中，以数据(包括第一数据、第二数据以及历史数据)为预定地址(例如，网际协议地址,也即IP地址)的网络访问量数据为例进行说明。但是本领域技术人员容易理解，其他类型的数据同样适用于本发明实施例的方法。

图1是本发明第一实施例的异常数据的确定方法的流程图。如图1所示，本实施例的方法包括如下步骤：

步骤S100，获取第一序列。

服务器可以通过预定应用程序接口(API，Application Programming Interface)或者从预定数据库中获取由第一时间段内至少一个第一数据构成的第一序列。在本实施例中，第一序列可以为一天(或多个连续的小时)内各小时产生的第一数据构成的第一序列，也可以为一周(或多周)内各天产生的第一数据构成的第一序列等，本实施例不做具体限定。

例如，第一数据为预定地址的网络访问量数据，服务器可以获取2020年1月-3月内各天产生的访问量作为第一序列。

步骤S200，基于预先训练的时间序列预测模型，确定各第一数据的置信区间。

在本步骤中，服务器可以通过预定应用程序接口或者从预定数据库中获取由第二时间段内的多个第二数据构成的第二序列，并根据第二数据，基于时间序列预测模型，确定各第一数据的置信区间。容易理解，第二时间段的时间戳早于第一时间段。

日常生活中产生的数据通常具有一定的规律性，但数据的产生会受到不同因素(也即，与数据相关的特征)的影响，即使基于同一时间序列预测模型对同一类数据进行预测，选择的因素不同也会使得预测得到的未来一段时间内的数据(也即，预测结果)或多或少存在偏差。因此为了得到较为准确的预测结果，在传统的时间序列预测模型的训练过程中，通常需要通过不断对可能对数据产生影响的特征进行多次调整，且需要对缺失值(包括特征以及待预测的数据)进行填补，从而得到较为准确的预测值，复杂度较高。在本实施例中，选择prophet作为时间序列预测模型。Prophet是一种能够根据少量数据就能够发现数据中的规律性的时间序列预测模型，能够基于历史数据的趋势性、周期性、节假日属性等对未来一段时间内的数据进行较为准确的预测，同时有效降低了数据预测的复杂度。并且，prophet不仅可以进行数值预测，还可以进行置信区间预测，也就是说，prophet的输出可以为待预测数据的取值范围。

Prophet的本质是一个可加模型，具体可以通过如下公式表示：

y(t)＝g(t)+s(t)+h(t)+ε_t；

其中，y(t)为prophet在第t个子时间段的输出，g(t)为第t个子时间段的趋势项，s(t)为第t个子时间段的周期项，h(t)为第t个子时间段的节假日项，ε_t为第t个子时间段的误差项，且ε_t服从正态分布。

Prophet中使用两种趋势模型，包括SGM(饱和增长模型，Saturating GrowthModel)以及PLM(分段线性模型，Piecewise Linear Model)。SGM和PLM均包括不同程度的假设以及调节光滑度的参数，并通过选择变化点(也即，增长率发生变化时对应的点)来预测趋势变化。其中，SGM用于预测g(t)，PLM用于预测s(t)。

具体地，g(t)可以用如下公式表示：

其中，C(t)用于表征第t个子时间段的承载量(也即，增长量的最大值)，可以根据实际需求或历史数据中的最大值等预先进行设置，k+a(t)^Tδ用于表征第t个子时间段的增长率，b+a(t)^Tγ用于表征第t个子时间段的偏移，a(t)用于表征第t个子时间段的指示函数，具体可以通过如下公式表示：

其中，a_j(t)用于表征第t个子时间段相对于第j个变化点的指示值，s_j用于表征第j个变化点的时刻。

s(t)可以通过如下公式表示：

其中，P用于表征数据的周期，具体可以为年、月、周等，2N用于表征周期的数量，a_n以及b_n为prophet训练过程中得到的参数。其中，在周期为年时，P可以被设置为365.25；在周期为周时，P可以被设置为7。

h(t)可以通过如下公式表示：

h(t)＝Z(t)κ；

其中，Z(t)＝[1(t∈D₁)，…，1(t∈D_L)]，κ服从方差为ν²且均值为0的正态分布。其中，ν可以根据实际需求预先进行设置，D_L用于表征第L个节假日的长度。

服务器可以根据历史数据对prophet进行训练。在prophet的训练过程中，服务器可以以第一历史时间段的历史数据和各历史数据对应的日期(或者时间戳)为输入，以第二历史时间段的历史数据和各历史数据对应的日期(或者时间戳)为输出，通常第一历史时间段的时间段长度远大于第二历史时间段的时间段长度。例如，服务器可以以过去一个月中各天的网络访问量数据为输入，以本周中各天的网络访问量数据为输出对prophet进行训练。

在对prophet训练后，服务器可以以第二序列以及各第二数据对应的日期(或者时间戳)为输入，可以得到第一时间段内各日期(或者时间戳)的第一数据的置信区间。

图2是本发明第一实施例的时间序列预测模型的输入的示意图。如图2所示，prophet的输入为ds1以及y。具体地，在prophet的训练过程中，ds1可以为第一历史时间段内各子时间段的时间戳，y可以为第一历史时间段内产生的历史数据；在prophet的应用过程中，ds1可以为第二时间段内各子时间段的时间戳，y可以为第二时间段内各子时间段产生的第二数据。

图3是本发明第一实施例的时间序列预测模型的输出的示意图。如图3所示，在prophet的应用过程中，服务器以第二时间段内的多个第二数据(y)以及各第二数据的时间戳(ds1)为输入，可以得到图3所示的、第一时间段内各第一数据的预测值和置信区间。其中，ds2为第一时间段内各子时间段的时间戳，yhat为第一时间段内各子时间段内产生的第一数据的预测值，yhat_lower以及yhat_upper分别为各第一数据的置信区间的下界和上界。

容易理解，在本实施例中，也可以选择其他时间序列预测模型，并基于不同特征来对第一数据的置信区间进行预测，例如ARIMA(差分整合移动平均自回归模型，Autoregressive Integrated Moving Averagemodel)、指数平滑等。

步骤S300，根据各第一数据以及对应的置信区间确定各第一数据的第一评价参数。

在本实施例中，第一评价参数用于表征第一数据的异常程度。置信区间可以表征第一数据在正常范围内的取值，因此服务器可以基于置信区间来确定第一数据的第一评价参数。

可选地，第一评价参数可以为MPE(平均百分比误差，Mean Percentage Error)。服务器可以根据第一数据是否属于对应的置信区间确定第一数据的第一评价参数。

若第一数据属于对应的置信区间，可以认为第一数据为正常数据的可能性较高，因此服务器可以将第一数据的第一评价参数确定为0；若第一数据不属于对应的置信区间，可以认为第一数据为异常数据的可能性较高，因此服务器可以根据第一数据与置信区间的上界或下界的差值确定第一数据的第一评价参数。具体地，若第一数据大于置信区间的上界，服务器可以根据第一数据与置信区间的上界的差值确定第一评价参数；若第一数据小于置信区间的下界，服务器可以根据第一数据与置信区间的下界的差值确定第一评价参数。

以图3所示的置信区间为例进行说明。例如，2020年1月1日的第一数据为510,2020年1月2日的第一数据为520,2020年1月3日的第一数据为599。服务器可以根据2020年1月1日的置信区间确定第一数据的第一评价参数为510-506＝4，2020年1月2日的置信区间确定第一数据的第一评价参数为0，2020年1月3日的置信区间确定第一数据的第一评价参数为605-599＝6。

步骤S400，对各第一数据进行聚类，确定各第一数据的调整参数。

在本步骤中，服务器可以根据对第一数据的产生存在影响的至少一个特征以及各第一数据确定各第一数据的特征向量，并基于至少一种聚类算法，根据各第一数据的特征向量对各第一数据进行聚类，确定各聚类算法对应的异常数据集合。从而，对于各第一数据，服务器可以根据第一数据属于各异常数据集合的数量确定调整参数。

以第一数据为预定IP地址的网络访问量数据为例。第一数据对应的特征可以包括节假日标识、预定IP地址对应的类别标识、预定IP地址的响应时间等。节假日标识用于表征第一数据对应的日期或者时间戳是否属于节假日，具体地，第一数据对应的日期或者时间戳属于节假日时，第一数据的节假日标识可以为1；第一数据对应的日期或者时间戳不属于节假日时，第一数据的节假日标识可以为0。类别标识可以根据预定IP地址所展示的内容确定，例如，IP地址1所展示的内容为网约车(也即，网络预约出租车经营服务)的车辆信息，则可以确定IP地址1的类别为共享服务类，从而确定IP地址1的类别标识为共享服务类的类别标识。容易理解，不同的类别标识可以用不同的数字表示。预定IP地址的响应时间也即打开预定IP地址对应的网页所花费的时长。对于类别标识相同的多个IP地址，用户选择响应时间最短的IP地址的可能性最高，使得网络访问量数据也会增高。

在本实施例中，可以选择K均值(K-means)算法、孤立森林(Isolation Forest)以及层次聚类算法中的至少一种。

K均值算法可以根据各特征向量将第一数据分为K组，具体可以随机选取K(K为大于1的预定整数)个对象作为初始的聚类中心，并计算各特征向量与各聚类中心之间的距离，并将各特征向量分配给距离该特征向量最近的聚类中心。各聚类中心以及被分配给该聚类中心的特征向量代表一个聚类。每分配一个特征向量，聚类中心会根据该聚类中已分配的特征向量被重新计算，直至满足第一终止条件。第一终止条件可以被设置为全部第一数据被分配给不同的聚类、聚类中心不再发生变化等，本实施例不做具体限定。K的取值可以根据实际需求预先进行设置，例如设置为5，本实施例不做具体限定。对于K均值算法，被分配到各聚类的第一数据可以认为是正常数据，而未被分配到任何聚类的第一数据可以认为是异常数据，服务器可以根据未被分配到任何聚类的第一数据K均值算法对应的异常数据集合。

孤立森林(包括至少一棵孤立树)是一种用于孤立异常数据的聚类算法。在孤立森林中，异常被定义为容易被孤立的离群点，也即分布系数且密度高的群体较远点。在特征空间中，分布稀疏的区域表示事件发生在该区域的概率很低，因此可以认为落在这些区域中的数据是异常的。且孤立森林适用于对连续数据进行异常检测，因此对于确定第一数据中的异常数据具有较高的准确性。对于第一序列X＝{x₁,…,x_n}，各第一数据x_i(1≤i≤n且i为整数，n为大于1的预定整数)的特征向量的维度为d。为了构建一棵孤立树，服务器可以随机选择特征向量中的一个特征q以及特征q的分割值p，递归地分割第一序列，直至满足第二终止条件。第二终止条件可以被设置为孤立树达到预定高度、孤立树的各节点只包括一个第一数据、节点上第一数据的特征全部相同等。在每次基于分割值q对当前节点对应的多个第一数据进行划分时，孤立树可以将当前节点的多个第一数据中划分出与各第一数据的特征q差异较大的第一数据，因此越早被划分的第一数据为异常数据的可能性越大。因此，服务器可以根据深度(也即，从第一数据对应的节点返回到孤立树的根节点所包括的节点数量)小于预定阈值的第一数据确定为孤立森林对应的异常数据，并根据异常数据确定孤立森林对应的异常数据集合。

层次聚类算法可以将第一序列中各第一数据的特征向量看作是给定网络，通过给定网络的拓扑结构定义网络节点间的相似性或距离，然后采用単连结层次聚类或全连接层次聚类将网络节点组成一个树状图层结构，树状结构的叶节点表示网络节点，非叶节点一般由相似或距离接近的子节点合并得到。层次聚类算法的基本思想是：通过相似性度量(具体可以为余弦相似度、闵可夫斯基距离等)计算节点之间的相似性，并按相似性由高到低排序，逐步重新连接各节点。层次聚类算法具体可以为最短距离(single-linkage)聚类算法、最大距离(complete-linkage)聚类算法以及平均距离(average-linkage)聚类算法。对于聚类问题，服务器可以选择最短距离聚类算法，得到多个聚类，并将第一数据的数量小于预定阈值的至少一个聚类确定为层次聚类算法对应的异常数据集合。

被聚类算法确定为异常数据的次数越多，表示第一数据为异常数据的可能性越高。在本实施例中，服务器可以根据第一数据属于各异常数据集合的数量与异常数据集合的总数量的比值、第一数据属于各异常数据集合的数量以及第一数据属于不各异常数据集合的数量与异常数据集合的总数量的比值确定各第一数据的调整参数。

例如，第一序列包括数据d1-数据d10，服务器分别基于K均值算法、孤立森林以及层次聚类算法分别对各第一数据进行聚类，得到K均值算法对应的异常数据集合C1、孤立森林对应的异常数据集合C2以及层次聚类算法对应的异常数据集合C3，其中异常数据集合C1包括数据d1、数据d2和数据d3，异常数据集合C2包括数据d2、数据d5、数据d6和数据d8，异常数据集合C3包括数据d2、d3和d7，服务器根据第一数据属于各异常数据集合的数量，可以确定数据d1的调整参数为1，数据d2的调整参数为3，数据d3的调整参数为2，数据d4的调整参数为0，数据d5的调整参数为1，数据d6的调整参数为1，数据d7的调整参数为1，数据d8的调整参数为1，数据d1的调整参数为0，数据d10的调整参数为0。

容易理解，步骤S200和步骤S400可以同时执行，也可以先后执行，本实施例不做具体限定。

步骤S500，对于各第一数据，根据调整参数对第一评价参数进行调整，确定第二评价参数。

可选地，服务器可以根据各第一数据对应的调整参数与第一评价参数的乘积确定各第一数据的第二评价参数，也可以确定各调整参数对应的权重，并根据各第一数据对应的权重与第一评价参数的乘积确定各第一数据的第二评价参数。

例如，基于上述三种聚类算法得到各第一数据的调整参数后，在调整参数为3时，权重可以被设置为2；在调整参数为2时，权重可以被设置为1.5；在调整参数为1时，权重可以被设置为1；在调整参数为0时，权重可以被设置为0.8。

步骤S600，将第二评价参数满足第一条件的第一数据确定为异常数据。

第二评价参数越高，第一数据为异常数据的可能性越高，因此在本步骤中，第一条件可以被设置为第二评价参数排序在最大的前m位(其中，m为大于等于1的预定整数)、第二评价参数大于第一阈值等，由此，服务器可以将评价参数满足第一条件的第一数据确定为异常数据。

在确定至少要一个异常数据后，服务器可以从第一序列中删除异常数据，从而根据删除异常数据后的第一序列进行数据处理，例如，根据去除异常数据后的第一序列并基于prophet对未来至少一个时间段内网络访问量数据、订单量数据、用户新增量数据等进行预测。

本实施例在获取预定时间段内产生的至少一个数据，并确定各第一数据的置信区间，以根据各置信区间确定用于表征各第一数据的异常程度的第一评价参数，同时对各数据进行聚类，确定各第一数据对应的、用于对第一评价参数进行调整的调整参数，进而根据调整参数对各数据的第一评价参数进行调整，确定各数据的第二评价参数，从而将第二评价参数满足一定条件的数据确定为异常数据。在本实施例中，通过时间序列预测模型确定数据变化的规律以及置信区间，且置信区间用于表征数据为正常数据的范围，因此通过本实施例的方法可以有效提升异常数据确定的准确性。

图4是本发明第二实施例的异常数据的确定装置。如图4所示，本实施例的装置包括第一获取单元41、第一确定单元42、第二确定单元43、聚类单元44、调整单元45和第三确定单元46。

其中，第一获取单元41用于获取第一序列，所述第一序列为第一时间段内的至少一个第一数据构成的时间序列，所述第一数据为网络访问量数据。第一确定单元42用于基于预先训练的时间序列预测模型，确定各所述第一数据的置信区间，所述时间序列预测模型根据历史数据训练获得。第二确定单元43用于根据各所述第一数据以及对应的所述置信区间确定各所述所述第一数据的第一评价参数，所述第一评价参数用于表征所述第一数据的异常程度。聚类单元44用于对各所述第一数据进行聚类，确定各所述第一数据的调整参数。调整单元45用于对于各所述第一数据，根据所述调整参数对所述第一评价参数进行调整，确定第二评价参数。第三确定单元46用于将所述第二评价参数满足第一条件的所述第一数据确定为异常数据。

进一步地，所述第一确定单元42包括第一获取子单元和第一确定子单元。

其中，第一获取子单元用于获取第二序列，所述第二序列中的第二数据为第二时间段内的多个第二数据构成的时间序列，所述第二数据为网络访问量数据。第一确定子单元用于根据各所述第二数据，基于所述时间序列预测模型，确定各所述第一数据的置信区间。

进一步地，所述第一评价参数为平均百分比误差；

所述第二确定单元43包括第二确定子单元和第三确定子单元。

其中，第二确定子单元用于响应于所述第一数据不属于所述置信区间，根据第一差值或第二差值确定所述第一评价参数，所述第一差值为所述第一数据与所述置信区间的上界的差值，所述第二差值为所述第一数据与所述置信区间的下界的差值。第三确定子单元用于响应于所述第一数据属于所述置信区间，确定所述第一评价参数为0。

进一步地，所述聚类单元44包括第二获取子单元、聚类子单元和第四确定子单元。

其中，第二获取子单元用于获取各所述第一数据的特征向量，所述特征向量包括所述第一数据。聚类子单元用于基于至少一种聚类算法，根据各所述特征向量对各所述第一数据进行聚类，确定各所述聚类算法对应的异常数据集合。第四确定子单元用于对于各所述第一数据，根据所述第一数据属于各所述异常数据集合的数量确定所述调整参数。

进一步地，所述聚类算法为K均值算法、孤立森林以及层次聚类算法中的至少一项。

进一步地，所述调整单元45包括第三获取子单元和第五确定子单元。

其中，第三获取子单元用于对于各所述第一数据，获取所述调整参数对应的权重。第五确定子单元用于根据所述权重与所述第一评价参数的乘积确定所述第二评价参数。

进一步地，所述第一数据为订单量数据、用户新增量数据以及出勤量数据中的至少一项。

本实施例在获取预定时间段内产生的至少一个数据，并确定各第一数据的置信区间，以根据各置信区间确定用于表征各第一数据的异常程度的第一评价参数，同时对各数据进行聚类，确定各第一数据对应的、用于对第一评价参数进行调整的调整参数，进而根据调整参数对各数据的第一评价参数进行调整，确定各数据的第二评价参数，从而将第二评价参数满足一定条件的数据确定为异常数据。在本实施例中，通过时间序列预测模型确定数据变化的规律以及置信区间，且置信区间用于表征数据为正常数据的范围，因此通过本实施例的装置可以有效提升异常数据确定的准确性。

图5是本发明第三实施例的电子设备的示意图。图5所示的电子设备为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器501和存储器502。处理器501和存储器502通过总线503连接。存储器502适于存储处理器501可执行的指令或程序。处理器501可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器501通过执行存储器502所存储的命令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线503将上述多个组件连接在一起，同时将上述组件连接到显示控制器504和显示装置以及输入/输出(I/O)装置505。输入/输出(I/O)装置505可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出(I/O)装置505通过输入/输出(I/O)控制器506与系统相连。

其中，存储器502可以存储软件组件，例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解，流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

同时，如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种异常数据的确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预先训练的时间序列预测模型，确定各所述第一数据的置信区间包括：

获取第二序列，所述第二序列中的第二数据为第二时间段内的多个第二数据构成的时间序列，所述第二数据为网络访问量数据；

根据各所述第二数据，基于所述时间序列预测模型，确定各所述第一数据的置信区间。

3.根据权利要求1所述的方法，其特征在于，所述第一评价参数为平均百分比误差；

所述根据各所述第一数据以及对应的所述置信区间确定各所述所述第一数据的第一评价参数包括：

响应于所述第一数据不属于所述置信区间，根据第一差值或第二差值确定所述第一评价参数，所述第一差值为所述第一数据与所述置信区间的上界的差值，所述第二差值为所述第一数据与所述置信区间的下界的差值；

响应于所述第一数据属于所述置信区间，确定所述第一评价参数为0。

4.根据权利要求1所述的方法，其特征在于，所述对各所述第一数据进行聚类，确定各所述第一数据的调整参数包括：

获取各所述第一数据的特征向量，所述特征向量包括所述第一数据；

基于至少一种聚类算法，根据各所述特征向量对各所述第一数据进行聚类，确定各所述聚类算法对应的异常数据集合；

对于各所述第一数据，根据所述第一数据属于各所述异常数据集合的数量确定所述调整参数。

5.根据权利要求4所述的方法，其特征在于，所述聚类算法为K均值算法、孤立森林以及层次聚类算法中的至少一项。

6.根据权利要求1所述的方法，其特征在于，所述根据所述调整参数对所述第一评价参数进行调整，确定第二评价参数包括：

对于各所述第一数据，获取所述调整参数对应的权重；

根据所述权重与所述第一评价参数的乘积确定所述第二评价参数。

7.根据权利要求1所述的方法，其特征在于，所述第一数据还用于表征订单量数据、用户新增量数据以及出勤量数据中的至少一项。

8.一种异常数据的确定装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第一确定单元包括：

第一获取子单元，用于获取第二序列，所述第二序列中的第二数据为第二时间段内的多个第二数据构成的时间序列，所述第二数据为网络访问量数据；

第一确定子单元，用于根据各所述第二数据，基于所述时间序列预测模型，确定各所述第一数据的置信区间。

10.根据权利要求8所述的装置，其特征在于，所述第一评价参数为平均百分比误差；

所述第二确定单元包括：

第二确定子单元，用于响应于所述第一数据不属于所述置信区间，根据第一差值或第二差值确定所述第一评价参数，所述第一差值为所述第一数据与所述置信区间的上界的差值，所述第二差值为所述第一数据与所述置信区间的下界的差值；

第三确定子单元，用于响应于所述第一数据属于所述置信区间，确定所述第一评价参数为0。

11.根据权利要求8所述的装置，其特征在于，所述聚类单元包括：

第二获取子单元，用于获取各所述第一数据的特征向量，所述特征向量包括所述第一数据；

聚类子单元，用于基于至少一种聚类算法，根据各所述特征向量对各所述第一数据进行聚类，确定各所述聚类算法对应的异常数据集合；

第四确定子单元，用于对于各所述第一数据，根据所述第一数据属于各所述异常数据集合的数量确定所述调整参数。

12.根据权利要求11所述的装置，其特征在于，所述聚类算法为K均值算法、孤立森林以及层次聚类算法中的至少一项。

13.根据权利要求8所述的装置，其特征在于，所述调整单元包括：

第三获取子单元，用于对于各所述第一数据，获取所述调整参数对应的权重；

第五确定子单元，用于根据所述权重与所述第一评价参数的乘积确定所述第二评价参数。

14.根据权利要求8所述的装置，其特征在于，所述第一数据还用于表征订单量数据、用户新增量数据以及出勤量数据中的至少一项。

15.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-7中任一项所述的方法。

16.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。