CN115934699A

CN115934699A - 异常数据筛选方法、装置、电子设备及存储介质

Info

Publication number: CN115934699A
Application number: CN202211700714.4A
Authority: CN
Inventors: 罗亮; 严启华; 陈振宇; 宋亮; 苏励
Original assignee: Sichuan Energy Internet Research Institute EIRI Tsinghua University; Southwest University of Science and Technology
Current assignee: Sichuan Energy Internet Research Institute EIRI Tsinghua University; Southwest University of Science and Technology
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-04-07

Abstract

本申请实施例提供了一种异常数据筛选方法、装置、电子设备及存储介质，属于数据处理技术领域。其中方法包括：获取航空时序数据序列，将所述航空时序数据序列分割为多个数据组；获取一个所述数据组中的第i个元素；按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值；若所述误差值大于预设误差阈值，则将所述误差值标记为异常值，获取所述异常值的数量；若所述第i个元素对应的所述异常值的数量大于预设异常阈值，则将所述第i个元素确定为异常数据；获取全部所述数据组中的所述异常数据。本申请实施例提供的异常数据筛选方法，计算简单，易于操作，并且不依赖数据的分布形式，筛选数据精度高。

Description

异常数据筛选方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理领域，尤其涉及一种异常数据筛选方法、装置、电子设备及存储介质。

背景技术

航空时序数据具有数量大、种类多、分布不存在明显规律、价值密度低的特点，如何有效的筛选出航空数据中的异常数据而保留有价值的数据成为了一个重要的研究方向。现有的常见的数据筛选方法包括：哈希计算预处理方法、拉以达准则方法、Z-score方法、DBSCAN方法等。其中，哈希计算预处理方法着重于数据的完整性，需要输入无异常数据才能和异常数据进行比较；拉以达准则方法局限性比较强，只能用于对正态或者近似正态分布的数据进行处理，且仅能剔除粗大的误差数据，准确度略为不足；Z-score方法必须假定数据满足高斯分布；DBSCAN方法采用聚类算法，不适用于数据量大的情况。目前，尚无适用于对航空时序数据进行异常数据筛选的方法。

发明内容

为了解决上述技术问题，本申请实施例提供了一种异常数据筛选方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种异常数据筛选方法，所述方法包括：

获取航空时序数据序列，将所述航空时序数据序列分割为多个数据组；

获取一个所述数据组中的第i个元素；

按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值；

若所述误差值大于预设误差阈值，则将所述误差值标记为异常值，获取所述异常值的数量；

若所述第i个元素对应的所述异常值的数量大于预设异常阈值，则将所述第i个元素确定为异常数据；

获取全部所述数据组中的所述异常数据。

在一实施方式中，所述将所述航空时序数据序列分割为多个数据组，包括：

将所述航空时序数据按照预设时间区间分割为多个数据组，并按照时间顺序对各所述数据组进行排序，其中，各所述数据组中的元素按照时间顺序进行排序。

在一实施方式中，所述按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值，包括：

通过公式

计算所述第i个元素与所述第i+1个元素的均方值；

其中，A_i为所述均方值，X_i为所述第i个元素，X_i+1为所述第i+1个元素；

通过公式

计算所述第i个元素与所述第i+1个元素的误差值；

其中，n_i为所述误差值；

通过上述公式，计算所述第i个元素与所述数据组中的第i+1个元素之后的全部元素的误差值。

在一实施方式中，所述方法还包括：

删去全部所述异常数据；

对各所述数据组中的空位进行插补。

在一实施方式中，所述对各所述数据组中的空位进行插补，包括：

采用预设宽度的滑动窗口获取所述数据组中的相邻两个元素的元素时间间隔；

若所述元素时间间隔小于2倍的采样周期，不进行插补；

若所述元素时间间隔大于等于2倍的采样周期，在所述相邻两个元素之间进行插补。

在一实施方式中，所述若所述元素时间间隔大于等于2倍的采样周期，在所述相邻两个元素之间进行插补，包括：

若所述元素时间间隔等于2倍的采样周期，则使用所述数据组中全部元素的平均值或所述相邻两个元素的平均值进行插补；

若所述元素时间间隔大于2倍的采样周期，则采用多重插补算法在所述相邻两个元素之间进行插补。

第二方面，本申请实施例提供了一种异常数据筛选装置，所述装置包括：

分割模块，用于获取航空时序数据序列，将所述航空时序数据序列分割为多个数据组；

第一获取模块，用于获取一个所述数据组中的第i个元素；

计算模块，用于按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值；

标记模块，用于若所述误差值大于预设误差阈值，则将所述误差值标记为异常值，获取所述异常值的数量；

确定模块，用于若所述第i个元素对应的所述异常值的数量大于预设异常阈值，则将所述第i个元素确定为异常数据；

第二获取模块，用于获取全部所述数据组中的所述异常数据。

在一实施方式中，所述装置还包括：

删除模块，用于删去全部所述异常数据；

插补模块，用于对各所述数据组中的空位进行插补。

第三方面，本申请实施例提供了一种电子设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述计算机程序在所述处理器运行时执行第一方面提供的异常数据筛选方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行第一方面提供的异常数据筛选方法。

上述本申请提供的异常数据筛选方法，获取航空时序数据序列，将所述航空时序数据序列分割为多个数据组；获取一个所述数据组中的第i个元素；按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值；若所述误差值大于预设误差阈值，则将所述误差值标记为异常值，获取所述异常值的数量；若所述第i个元素对应的所述异常值的数量大于预设异常阈值，则将所述第i个元素确定为异常数据；获取全部所述数据组中的所述异常数据。本申请实施例提供的异常数据筛选方法，计算简单，易于操作，并且不依赖数据的分布形式，筛选数据精度高。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对本申请保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本申请实施例提供的异常数据筛选方法的一流程示意图；

图2示出了本申请实施例提供的异常数据筛选装置的一结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在下文中，可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本申请的各种实施例中被清楚地限定。

实施例1

在大数据环境下，数据会快速的累积。对海量数据所蕴含的价值进行分析，并分类筛选出其中有价值的数据十分重要。现有的数据分析和筛选的算法都有其适用的环境，而大数据数据复杂度高、数据量大的特点都提升了选择合适的数据筛选的算法难度。

航空数据电脑中的时序数据，如空速、方位角、航向、距离等，具有数据量大、种类多、分布不存在明显规律、价值密度低的特点。如何更充分、更有效地挖掘航空时序数据潜在的数据价值，减少不必要的计算损耗，达到优化产能的目的，是一个重要的问题。

基于此，本公开实施例提供了一种异常数据筛选方法，能够在最大限度地保留原数据特征的基础上，根据数据的不同类型进行分类并存储。

具体的，参见图1，所述异常数据筛选方法包括：

步骤S110，获取航空时序数据序列，将所述航空时序数据序列分割为多个数据组；

航空时序数据序列，可以是在航空过程中的各个时刻获取到的数据的集合，例如空速、方位角、航向、距离等。这些数据在航空时序数据序列中按照时间顺序由前到后地排布。

因为航空时序数据的数据量很大，所以对航空时序数据序列进行了拆分。按照预设的时间区间将航空时序数据序列分割成了多个数据组，并且将得到的数据组也按照时间顺序进行排列。

步骤S120，获取一个所述数据组中的第i个元素；

以第一次计算时，先获取一个数据组中的第一个数据X₁为例，结合步骤S130描述计算误差值的过程。

步骤S130，按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值；

将第一个数据X₁与它的后一个数据X₂进行比较，计算X₁和X₂的误差值，若这一误差值符合预设误差阈值，则继续计算X₁和X₃的误差值，以此类推，假设一组共有y个数据，则直到X₁与这一组中最后一个元素X_y计算完毕。这时，得到了y个误差值。

当获取的同一数据组中的数据是X_i，X_i+1时，根据上述思路，可以使用公式1计算X_i和X_i+1的均方值，公式1：

其中，A_i为所述均方值，X_i为所述第i个元素，X_i+1为所述第i+1个元素。

然后可以计算误差值n_i＝|a-b|，其中a＝|A_i-X_i ²|，b＝|A_i-X_i+1 ²|。

此外，若某一组数据的整组数据偏离过多，也可以直接舍弃这一组数据。具体地，因为标准差对数据中的异常值较为敏感，所以在各个时间段对应的各组数据中利用标准差公式来判别。将组内的全部数据通过公式2，利用标准差作比较，利用各组数据的标准差判断该组数据的取舍。

公式2：

其中X_g代表该组数据的均值。

通过多组正常数据的e值来对比，一般异常组数据比正常组数据的e值偏离8个以上的单位数值，即可舍去该组数据，不用再做修复处理，或者选择保存另做其他分析。

步骤S140，若所述误差值大于预设误差阈值，则将所述误差值标记为异常值，获取所述异常值的数量；

将大于预设误差阈值的误差值统计出来并单独分组，获取这一组内数据的数量。

预设误差阈值m根据不同的需要进行规定，在一实施方式中，可以为m∈(-f,f)，其中f＝3*AVERAGE(X_t,X_t+1)，AVERAGE(X_t,X_t+1)代表这一数据组的平均值。当ni在预设误差阈值m的范围内，就可以确定误差较小。在实际应用中，f一般为该组数据的1-3倍平均值，过大过小均不具有代表性，阈值范围取的越小，筛选的精确度越高。继续比较X_i与X_i+2、X_i+3…以此类推，当在预设误差阈值内的项数多于预设异常阈值(例如，该组数据的个数的三分之二)，则可以判断当前数据为正常数据，确定为第一类数据；否则为异常数据，确定为第二类数据。

步骤S150，若所述第i个元素对应的所述异常值的数量大于预设异常阈值，则将所述第i个元素确定为异常数据；

若是这个数量大于一定的指标，则说明获取的第i个元素出现了问题，这时，筛选出这个出现问题的数据组作为异常数据，并且从第i+1个数据开始继续进行比较，直至一个数据组中的数据全部都与其他数据比较或被比较。

步骤S160，获取全部所述数据组中的所述异常数据。

此外，在一实施方式中，本实施例提供的异常数据筛选方法还包括：

删去全部所述异常数据；对各所述数据组中的空位进行插补。

筛选出异常数据后，原有的数据组中会产生空位，为了避免这些空位对数据整体产生影响，可以在对数据精确度影响不大的情况下进行插补。

本实施例采用了改进多重插补算法(MI)筛选分类并修复数据，具体地，采用了基于固定窗口宽度的滑动窗口模型。

可以设窗口宽度为N，数据缺失阈值为M，数据的采样频率为T。首先计算滑动窗口相邻两条数据X_i、X_i+1的时间间隔Δt，将Δt和M*T作比较：

当Δt<2*T,则数据正常到达滑动窗口，无数据缺失，无须做插补修复处理；

当2*T≤Δt≤M*T,则数据点X_i和X_i+1之间存在数据缺失，但数据缺失的项小于得出的阈值，若M＝2,使用该组数据的平均值或者前后数据的中值进行插补；

当Δt≥M*T,则缺失数据项超出阈值，采用多重插补算法进行插补修复。

多重插补算法为每组数据中的缺失项产生多个可能的填充值，这些填充值体现了无响应模型的不确定性：第一，每个产生的可能值都可以被用来填充数据列中的空白值，产生的值不考虑顺序相互之间组合产生数据。第二，每个插补数据集合都用针对完整数据集的统计方法进行统计分析。第三，对来自各个插补数据集的结果，根据评分函数进行选择，产生最终的插补值。

假设一段时间的数据，包含三个缺失值X_a，X_b，X_c，将这组数据处理成三组，A组保持原始数据不变，B组仅缺失值X_c，C组缺失值X_a和X_b。在进行多值插补时，对A组将不进行任何处理，对B组产生X_c的一组估计值，例如，作X_c关于X_a，X_b的回归；对C组作产生X_a和X_b的一组成对估计值例如，作X_a，X_b关于X_c的回归。

这样，可以对原数据进行筛选分类后可以较好地将原数据当中的异常数据进行插补修复。

本实施例提供的异常数据筛选方法，通过分段思想，将数据按照时间段进行划分之后，对时间段内的数据进行计算。将长数据拆分成多个短数据以避免完整数据导入造成算力不够的情况。取均值平方作前后数据差的模值与规定阈值比较，放大并且突出了两个数据之间的差异值，这样的操作方法在有效降低计算难度的基础上还大大增加了筛选的精确度。利用标准差来关联检验组和组之间的数据，可有效体现组与组数据的相关关系。即是通过误差值来判断该组数据是否需要保留。对原数据进行筛选分类后可以较好地将原数据当中的异常数据进行插补修复。综上，本实施例提供的异常数据筛选方法，计算简单，易于操作，并且不依赖数据的分布形式，筛选数据精度高。

实施例2

此外，本公开实施例提供了一种异常数据筛选装置。

具体的，如图2所示，异常数据筛选装置200包括：

分割模块210，用于获取航空时序数据序列，将所述航空时序数据序列分割为多个数据组；

第一获取模块220，用于获取一个所述数据组中的第i个元素；

计算模块230，用于按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值；

标记模块240，用于若所述误差值大于预设误差阈值，则将所述误差值标记为异常值，获取所述异常值的数量；

确定模块250，用于若所述第i个元素对应的所述异常值的数量大于预设异常阈值，则将所述第i个元素确定为异常数据；

第二获取模块260，用于获取全部所述数据组中的所述异常数据。

所述异常数据筛选装置200，还包括：

删除模块，用于删去全部所述异常数据；

插补模块，用于对各所述数据组中的空位进行插补。

本实施例提供的异常数据筛选装置200可以实现实施例1所提供的异常数据筛选方法，为避免重复，在此不再赘述。

本实施例提供的本实施例提供的异常数据筛选装置，计算简单，易于操作，并且不依赖数据的分布形式，筛选数据精度高。

实施例3

此外，本公开实施例提供了一种电子设备，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行实施例1所提供的异常数据筛选方法。

本发明实施例提供的电子设备，可以实现实施例1所提供的异常数据筛选方法，为避免重复，在此不再赘述。

本实施例提供的电子设备，计算简单，易于操作，并且不依赖数据的分布形式，筛选数据精度高。

实施例4

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现实施例1所提供的异常数据筛选方法。

在本实施例中，计算机可读存储介质可以为只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本实施例提供的计算机可读存储介质可以实现实施例1所提供的异常数据筛选方法，为避免重复，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种异常数据筛选方法，其特征在于，所述方法包括：

获取一个所述数据组中的第i个元素；

获取全部所述数据组中的所述异常数据。

2.根据权利要求1所述的异常数据筛选方法，其特征在于，所述将所述航空时序数据序列分割为多个数据组，包括：

3.根据权利要求1所述的异常数据筛选方法，其特征在于，所述按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值，包括：

通过公式

计算所述第i个元素与所述第i+1个元素的均方值；

通过公式

n_i＝||A_i-X_i ²|-|A_i-X_i+1 ²||

计算所述第i个元素与所述第i+1个元素的误差值；

其中，n_i为所述误差值；

4.根据权利要求1所述的异常数据筛选方法，其特征在于，所述方法还包括：

删去全部所述异常数据；

对各所述数据组中的空位进行插补。

5.根据权利要求4所述的异常数据筛选方法，其特征在于，所述对各所述数据组中的空位进行插补，包括：

若所述元素时间间隔小于2倍的采样周期，不进行插补；

6.根据权利要求5中所述的异常数据筛选方法，其特征在于，所述若所述元素时间间隔大于等于2倍的采样周期，在所述相邻两个元素之间进行插补，包括：

7.一种异常数据筛选装置，其特征在于，所述装置包括：

第一获取模块，用于获取一个所述数据组中的第i个元素；

8.根据权利要求7所述的异常数据筛选装置，其特征在于，所述装置还包括：

删除模块，用于删去全部所述异常数据；

插补模块，用于对各所述数据组中的空位进行插补。

9.一种电子设备，其特征在于，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器运行时执行权利要求1至6中任一项所述的异常数据筛选方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序在处理器上运行时执行权利要求1至6中任一项所述的异常数据筛选方法。