CN116628615A - 数据异常检测方法、装置、设备以及存储介质 - Google Patents

数据异常检测方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN116628615A
CN116628615A CN202310702544.1A CN202310702544A CN116628615A CN 116628615 A CN116628615 A CN 116628615A CN 202310702544 A CN202310702544 A CN 202310702544A CN 116628615 A CN116628615 A CN 116628615A
Authority
CN
China
Prior art keywords
data
detected
time sequence
characteristic
anomaly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310702544.1A
Other languages
English (en)
Inventor
韩亚
黄海星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Bank Co Ltd
Original Assignee
China Merchants Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Bank Co Ltd filed Critical China Merchants Bank Co Ltd
Priority to CN202310702544.1A priority Critical patent/CN116628615A/zh
Publication of CN116628615A publication Critical patent/CN116628615A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请公开了一种数据异常检测方法、装置、设备以及存储介质,其数据异常检测方法包括:采集检测对象的时序数据,其中,所述时序数据包括待检测数据和采集周期在所述待检测数据之前的历史数据;基于所述时序数据提取得到时序数据的数据特征;基于所述历史数据的数据特征计算得到特征异常范围;根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果。本申请解决了现有数据异常检测方法需消耗大量人力分析并设置检测规则的问题,节省了人力成本,实现不同检测数据的个性化自动异常检测。

Description

数据异常检测方法、装置、设备以及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据异常检测方法、装置、设备以及存储介质。
背景技术
在银行数据仓库系统中,需要对每天新产出的数据结果进行异常检测,以防止错误的数据进入业务系统展示给用户。目前在银行数据仓库中的数据检测内容,主要分为两种:一种是逻辑异常检查,主要检查在数据仓库中每天新产生的数据是否有主键重复、无产出内容等情况的发生;另一种是数据异常检查,主要检查在数据仓库中每天新产生数据的数据量、数据绝对值等是否有异常发生。
针对上述检测内容,目前主要的检测手段为人工设置固定的检测规则,比如设置固定的数据波动阈值。例如:针对数据指标财富中收,设置新产生的值比历史值波动超过20%即为异常发生。
由于所有的检测规则都需要人工确定,所以对于不同的检测对象(数据指标)就需要对应设计符合规律的检测规则。这将导致对数据的异常检测存在严重依赖个人经验,消耗大量人力分析并设置检测规则的问题。
发明内容
本申请的主要目的在于提供一种数据异常检测方法、装置、设备以及存储介质,旨在解决对数据的异常检测需消耗大量人力分析并设置检测规则的问题。
为实现上述目的,本申请提供一种数据异常检测方法,所述数据异常检测方法包括:
采集检测对象的时序数据,其中,所述时序数据包括待检测数据和采集周期在所述待检测数据之前的历史数据;
基于所述时序数据提取得到时序数据的数据特征;
基于所述历史数据的数据特征计算得到特征异常范围;
根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果。
可选地,所述数据特征包括趋势特征,所述基于所述历史数据的数据特征计算得到特征异常范围的步骤包括:
获取所述历史数据的趋势特征;
基于所述历史数据的趋势特征计算加权均值和方差;
通过高斯分布的百分点函数对趋势特征的加权均值和方差进行计算,得到趋势特征异常范围。
可选地,所述数据特征包括数据量特征,所述基于所述历史数据的数据特征计算得到特征异常范围的步骤包括:
获取所述历史数据的数据量特征;
对所述历史数据的数据量特征进行数据转换,以使所述历史数据的数据量特征符合高斯分布;
基于所述历史数据的数据量特征计算均值和方差;
通过高斯分布的百分点函数对数据量特征的均值和方差进行计算,得到数据量特征异常范围。
可选地,所述根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果的步骤包括:
判断所述待检测数据的趋势特征是否满足所述趋势特征异常范围,和/或判断所述待检测数据的数据量特征是否满足所述数据量特征异常范围;
在所述待检测数据的趋势特征满足所述趋势特征异常范围和/或所述待检测数据的数据量特征满足所述数据量特征异常范围的情况下,判定所述待检测数据异常。
可选地,所述基于所述时序数据提取得到时序数据的数据特征的步骤包括:
对所述时序数据进行平滑处理,得到平滑后的时序数据;
将所述平滑后的时序数据输入预先构建的特征提取模型中进行特征提取,得到所述数据特征。
可选地,所述对所述时序数据进行平滑处理,得到平滑后的时序数据的步骤之前,还包括:
基于线性规划拟合训练得到所述特征提取模型。
可选地,所述采集检测对象的时序数据的步骤包括:
基于时间顺序和时间间隔对所述检测对象的时序数据进行采集。
本申请实施例还提出一种数据异常检测装置,所述数据异常检测装置包括:
数据采集模块,用于采集检测对象的时序数据,其中,所述时序数据包括待检测数据和采集周期在所述待检测数据之前的历史数据;
特征提取模块,用于基于所述时序数据提取得到时序数据的数据特征;
范围计算模块,用于基于所述历史数据的数据特征计算得到特征异常范围;
异常检测模块,用于根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果。
本申请实施例还提出一种数据异常检测设备,所述数据异常检测设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据异常检测程序,所述数据异常检测程序被所述处理器执行时实现如上所述的数据异常检测方法的步骤。
本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据异常检测程序,所述数据异常检测程序被处理器执行时实现如上所述的数据异常检测方法的步骤。
本申请实施例提出的数据异常检测方法、装置、设备以及存储介质,通过采集检测对象的时序数据,其中,所述时序数据包括待检测数据和采集周期在所述待检测数据之前的历史数据;基于所述时序数据提取得到时序数据的数据特征;基于所述历史数据的数据特征计算得到特征异常范围;根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果。通过将时序数据划分为待检测数据和采集周期在该待检测数据之前的历史数据,可以有效利用检测对象的时序性质进行数据特征提取和数据异常检测。通过提取检测对象的自身数据特征,根据待检测数据的数据特征与自身数据特征的比对结果,判定待检测数据的异常检测结果,使得不需依赖人工经验对不同检索数据设置检查规则,即可实现不同检测数据的个性化自动异常检测,节省大量人力成本。
附图说明
图1为本申请数据异常检测装置所属终端设备的功能模块示意图;
图2为本申请数据异常检测方法第一示例性实施例的流程示意图;
图3为本申请数据异常检测方法第二示例性实施例的流程示意图;
图4为本申请数据异常检测方法第三示例性实施例的流程示意图;
图5为本申请数据异常检测方法第四示例性实施例的流程示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例的主要解决方案是:通过采集检测对象的时序数据,其中,所述时序数据包括待检测数据和采集周期在所述待检测数据之前的历史数据;基于所述时序数据提取得到时序数据的数据特征;基于所述历史数据的数据特征计算得到特征异常范围;根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果。通过将时序数据划分为待检测数据和采集周期在该待检测数据之前的历史数据,可以有效利用检测对象的时序性质进行数据特征提取和数据异常检测。通过提取检测对象的自身数据特征,根据待检测数据的数据特征与自身数据特征的比对结果,判定待检测数据的异常检测结果,使得不需依赖人工经验对不同检索数据设置检查规则,即可实现不同检测数据的个性化自动异常检测,节省大量人力成本。
具体地,参照图1,图1为本申请数据异常检测装置所属终端设备的功能模块示意图。该数据异常检测装置可以为独立于终端设备的、能够进行数据采集、特征提取和数据异常检测的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等。
在本实施例中,该数据异常检测装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及数据异常检测程序,数据异常检测装置可以将采集到检测对象的包括待检测数据和采集周期在待检测数据之前的历史数据的时序数据,基于时序数据提取得到的时序数据的数据特征,基于历史数据的数据特征计算得到的特征异常范围,以及根据特征异常范围对待检测数据的数据特征进行异常检测得到的数据异常检测结果等信息存储于该存储器130中;输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,存储器130中的数据异常检测程序被处理器执行时实现以下步骤:
采集检测对象的时序数据,其中,所述时序数据包括待检测数据和采集周期在所述待检测数据之前的历史数据;
基于所述时序数据提取得到时序数据的数据特征;
基于所述历史数据的数据特征计算得到特征异常范围;
根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果。
进一步地,存储器130中的数据异常检测程序被处理器执行时还实现以下步骤:
获取所述历史数据的趋势特征;
基于所述历史数据的趋势特征计算加权均值和方差;
通过高斯分布的百分点函数对趋势特征的加权均值和方差进行计算,得到趋势特征异常范围。
进一步地,存储器130中的数据异常检测程序被处理器执行时还实现以下步骤:
获取所述历史数据的数据量特征;
对所述历史数据的数据量特征进行数据转换,以使所述历史数据的数据量特征符合高斯分布;
基于所述历史数据的数据量特征计算均值和方差;
通过高斯分布的百分点函数对数据量特征的均值和方差进行计算,得到数据量特征异常范围。
进一步地,存储器130中的数据异常检测程序被处理器执行时还实现以下步骤:
判断所述待检测数据的趋势特征是否满足所述趋势特征异常范围,和/或判断所述待检测数据的数据量特征是否满足所述数据量特征异常范围;
在所述待检测数据的趋势特征满足所述趋势特征异常范围和/或所述待检测数据的数据量特征满足所述数据量特征异常范围的情况下,判定所述待检测数据异常。
进一步地,存储器130中的数据异常检测程序被处理器执行时还实现以下步骤:
对所述时序数据进行平滑处理,得到平滑后的时序数据;
将所述平滑后的时序数据输入预先构建的特征提取模型中进行特征提取,得到所述数据特征。
进一步地,存储器130中的数据异常检测程序被处理器执行时还实现以下步骤:
基于线性规划拟合训练得到所述特征提取模型。
进一步地,存储器130中的数据异常检测程序被处理器执行时还实现以下步骤:
基于时间顺序和时间间隔对所述检测对象的时序数据进行采集。
本实施例通过上述方案,具体通过采集检测对象的时序数据,其中,所述时序数据包括待检测数据和采集周期在所述待检测数据之前的历史数据;基于所述时序数据提取得到时序数据的数据特征;基于所述历史数据的数据特征计算得到特征异常范围;根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果。通过将时序数据划分为待检测数据和采集周期在该待检测数据之前的历史数据,可以有效利用检测对象的时序性质进行数据特征提取和数据异常检测。通过提取检测对象的自身数据特征,根据待检测数据的数据特征与自身数据特征的比对结果,判定待检测数据的异常检测结果,使得不需依赖人工经验对不同检索数据设置检查规则,即可实现不同检测数据的个性化自动异常检测,节省大量人力成本。
基于上述终端设备架构但不限于上述架构,提出本申请方法实施例。
参照图2,图2为本申请数据异常检测方法第一示例性实施例的流程示意图。所述数据异常检测方法包括:
步骤S10,采集检测对象的时序数据,其中,所述时序数据包括待检测数据和采集周期在所述待检测数据之前的历史数据。
本实施例方法的执行主体可以是一种数据异常检测装置,也可以是一种数据异常检测终端设备或服务器,本实施例以数据异常检测装置进行举例,该数据异常检测装置可以集成在具有数据处理功能的智能手机、平板电脑等终端设备上。
具体地,首先采集检测对象的时序数据,其中,采集到的时序数据包括同一检测对象的待检测数据,和采集周期在该待检测数据之前的历史数据。在本实施例中,检测对象可以是一种数据指标,比如银行数据仓库系统中的数据指标财富中收等。
示例性地,在银行数据仓库环境中,针对某检测对象(数据指标),其更新频率为每天更新一次。以银行数据仓库中的数据异常检测场景为例,可设置采集频率为1天一次,采集周期为30天,则一个周期采集的时序数据的数据量为30个数据点。以最后1天作为待检测数据,则在采集周期前29天内采集到的数据即为历史数据。
步骤S20,基于所述时序数据提取得到时序数据的数据特征。
具体地,根据采集到的时序数据,包括待检测数据和采集周期在待检测数据之前的历史数据,从中提取得到该时序数据的数据特征。在本实施例中,提取数据特征的方法可以包括但不限于统计方法、降维方法、模型方法、特征选择方法和预处理方法等。提取到的数据特征可以包括但不限于时间特征、数据大小特征、数据变化趋势特征和数据属性特征等。
步骤S30,基于所述历史数据的数据特征计算得到特征异常范围。
具体地,根据提取到的历史数据的数据特征进行特征异常范围计算,其中,该特征异常范围用于判断数据特征是否符合设定的特征范围。
步骤S40,根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果。
具体地,根据计算得到的特征异常范围和提取得到的待检测数据的数据特征进行异常检测,检测该待检测数据的数据特征是否符合该特征异常范围。在待检测数据的数据特征符合特征异常范围的情况下,判定得到该待检测数据为异常的结果;在待检测数据的数据特征不符合特征异常范围的情况下,判定得到该待检测数据为正常的结果。
本实施例通过上述方案,具体通过采集检测对象的时序数据,其中,所述时序数据包括待检测数据和采集周期在所述待检测数据之前的历史数据;基于所述时序数据提取得到时序数据的数据特征;基于所述历史数据的数据特征计算得到特征异常范围;根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果。通过将时序数据划分为待检测数据和采集周期在该待检测数据之前的历史数据,可以有效利用检测对象的时序性质进行数据特征提取和数据异常检测。通过提取检测对象的自身数据特征,根据待检测数据的数据特征与自身数据特征的比对结果,判定待检测数据的异常检测结果,使得不需依赖人工经验对不同检索数据设置检查规则,即可实现不同检测数据的个性化自动异常检测,节省大量人力成本。
进一步地,参照图3,图3为本申请数据异常检测方法第二示例性实施例的流程示意图。基于上述所示实施例,在本实施例中,上述数据特征可以包括趋势特征,上述基于所述历史数据的数据特征计算得到特征异常范围的步骤可以包括:
步骤S311,获取所述历史数据的趋势特征;
步骤S312,基于所述历史数据的趋势特征计算加权均值和方差;
步骤S313,通过高斯分布的百分点函数对趋势特征的加权均值和方差进行计算,得到趋势特征异常范围。
在本实施例中,检测对象的时序特征可以包括待检测数据和采集周期在该待检测数据之前的历史数据,对应地,提取得到的时序数据的数据特征可以包括待检测数据的数据特征和历史数据的数据特征。本实施例中,提取的数据特征包括趋势特征。
具体地,获取提取到的历史数据的趋势特征,对该历史数据的趋势特征进行加权均值和方差计算,得到趋势特征的加权均值和方差。然后,通过高斯分布的百分点函数,即累计积分的逆函数,分别对趋势特征的加权均值和方差进行计算,基于计算结果设定得到趋势特征异常范围。其中,趋势特征异常范围用于判断数据的趋势特征是否符合设定的特征范围。
示例性地,假设检测对象的时序数据采集周期的数量为t,则Di为第i个周期采集的数据,其中1<=i<=t。当周期i=t时,Dt为最新数据,即为待检测数据,是本示例性方法需要进行异常检测的校验对象。
在通过上一步时序数据特征提取后,得到了t个w,其中w代表检测对象的趋势特征。在趋势特征w的特征异常范围计算中,首先要排除掉待检测数据的趋势特征,即最新周期的趋势特征wt。计算t-1个w的加权均值和方差:weight_avg(wi)和stg(wi),其中1<=i<=t-1。如下公式1所示,加权均值weight_avg(wi)的计算方式为:
对于计算得到的趋势特征的加权均值和方差,通过高斯分布的百分点函数(累计积分的逆函数),分别计算出点位0.25,0.75的两个值:l,r。则趋势特征w的特征正常范围即为[l,r]。将趋势特征正常范围之外的范围设置为趋势特征异常范围。
本实施例通过在计算趋势特征的均值时,使用了加权平均的方法,并按照数据采样的顺序进行赋权,使得周期越近的趋势特征权重越大。由此可以保证本申请实施例的数据异常检测方法可以跟踪数据自身的变化,进行自适应的进化。
进一步地,参照图4,图4为本申请数据异常检测方法第三示例性实施例的流程示意图。在本实施例中,上述提取到的数据特征还可以包括数据量特征,上述基于所述历史数据的数据特征计算得到特征异常范围的步骤可以包括:
步骤S321,获取所述历史数据的数据量特征;
步骤S322,对所述历史数据的数据量特征进行数据转换,以使所述历史数据的数据量特征符合高斯分布;
步骤S323,基于所述历史数据的数据量特征计算均值和方差;
步骤S324,通过高斯分布的百分点函数对数据量特征的均值和方差进行计算,得到数据量特征异常范围。
具体地,获取提取到的历史数据的数据量特征,由于数据量特征本身不符合高斯分布规律,为使得历史数据的数据量特征符合高斯分布,对提取到的历史数据的数据量特征进行数据转换。然后,对该数据转换后的趋势特征进行均值和方差计算,得到数据量特征的均值和方差。然后,通过高斯分布的百分点函数,即累计积分的逆函数,分别对数据量特征的均值和方差进行计算,基于计算结果设定得到数据量特征异常范围。其中,数据量特征异常范围用于判断数据的数据量特征是否符合设定的特征范围。
示例性的,假设检测对象的时序数据采集周期的数量为t,则Di为第i个周期采集的数据,其中1<=i<=t。在通过上一步时序数据特征提取后,得到了t个b,其中b代表检测对象的数据量特征。在数据量特征b的特征异常范围计算中,由于b本身不符合高斯分布,所以需要对其进行一次转换。假设b’为两个连续周期的b的增量,则通过bi’=bi+1-bi进行数据转换。由此可知,bi’只有t-1个。其中bt-1’对应采集的最新数据,是检验的对象,需要在数据量特征异常范围计算中排除。然后计算t-2个b’的均值和方差:avg(bi’)和stg(bi’),其中1<=i<=t-2。然后视b’满足高斯分布N(avg(bi’),stg(bi’)),通过高斯分布的百分点函数分别计算出点位0.25,0.75的两个值:l’,r’。则数据量特征b’的特征正常范围即为[l’,r’]。将数据量特征正常范围之外的范围设置为数据量特征异常范围。
对于本身数据值会不断增加的数据,其数据量特征并不会满足任何概率分布。因此,本实施例方案通过检测数据量增量,间接对检测对象的数据量进行异常检测。
本实施例通过上述方案,具体通过在异常范围判断中,利用了高斯分布的百分点函数,确认趋势特征和数据量特征的正常/异常区间范围,实现了范围的自适应性。使得对于稳定的数据,正常区间范围会更加严格,而对于波动性强的数据,正常区间范围会相对宽松。
参照图5,图5为本申请数据异常检测方法第四示例性实施例的流程示意图。基于上述所示的实施例,在本实施例中,上述步骤S20,基于所述时序数据提取得到时序数据的数据特征可以包括:
步骤S201,对所述时序数据进行平滑处理,得到平滑后的时序数据。
具体地,对于采集到的时序数据,包括检测对象的待检测数据,和采集周期在该待检测数据之前的历史数据,采用平滑处理技术进行数据处理,得到平滑后的时序数据。
示例性地,假设检测对象的时序数据采集周期的数量为t,则Di为第i个周期采集的数据,其中1<=i<=t。当周期i=t时,Dt为最新数据,即为待检测数据,是本示例性方法需要进行异常检测的校验对象。
对于每个Di,假设Di中有c个数据,则Dij为第i个周期中的第j个数据,其中1<=j<=c。然后,通过平滑处理技术对采集到的数据进行平滑处理。
本示例性方法采用y=min(7,floor(c/2))提取数据,其中,floor()函数表示向下取整。假设Si为平滑后的Di,且Siz=(Diz+Di(z+1)+……+Di(z+y))/y,其中Siz为第i个周期中的第z个数据,1<=z<=c-2*floor(y/2)。可知,平滑后的Si比平滑前的Di数据在个数上少2*floor(y/2)。
步骤S202,将所述平滑后的时序数据输入预先构建的特征提取模型中进行特征提取,得到所述数据特征。
具体地,对于平滑后的时序数据,包括平滑后的待检测数据和平滑后的历史数据,将该平滑后的时序数据输入至预先构建的特征提取模型中进行特征提取,得到提取的数据特征。
本实施例方案通过在提取时序数据的趋势特征前,使用了对数据进行平滑加工的方法,可以减少波动性高的数据对趋势的不利影响。
进一步地,相比上述所示的实施例,本实施例还包括训练特征提取模型的方案。
具体地,在上述步骤S201,对所述时序数据进行平滑处理之前,还可以包括:
步骤S200,基于线性规划拟合训练得到所述特征提取模型。
本实施例以步骤S200在步骤S201之前实施,在其他实施例中,步骤S200也可以在步骤S201与步骤S202之间实施。
更为具体地,基于数据的时序特性和数据本身,采用线性规划拟合的方式构建并训练得到特征提取模型,用以对输入的时序数据进行特征提取。
示例性地,假设平滑后的时序数据Si中,有c个数据,则Sij为第i个周期平滑后的第j个数据,其中1<=j<=c。然后,基于数据的时序特性和数据本身构造线性拟合需要的二维数据空间:<j,Sij>。可知,构造的二维数据空间以数据在时间上的顺序为x轴,数据本身的绝对值作为y轴,通过线性规划方法,训练得到特征提取模型:yi=wi*x+bi。模型中训练得到的参数wi和bi,即为从第i个周期的数据Di中提取到的时序数据特征,分别代表了趋势特征和数据量特征。
本实施例方案通过使用数据的时序性质(发生顺序)和数据本身构造二维数据空间,基于线性规划拟合训练得到特征提取模型,用以提取趋势特征和数据量特征,使得数据异常检测规则可以随着数据的演进而不断进行自我训练和变化,实现检测规则的“自我进化”。
进一步地,在上述实施例方案中,步骤S10,采集检测对象的时序数据可以包括:步骤S101,基于时间顺序和时间间隔对所述检测对象的时序数据进行采集。
具体地,设置数据采样规则满足时序数据的要求,即按照时间顺序,以固定的时间间隔,周期性地对检测对象的数据进行采集。
进一步地,在本实施例中,上述步骤S30,根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果可以包括:
步骤S301,判断所述待检测数据的趋势特征是否满足所述趋势特征异常范围,和/或判断所述待检测数据的数据量特征是否满足所述数据量特征异常范围;
步骤S302,在所述待检测数据的趋势特征满足所述趋势特征异常范围和/或所述待检测数据的数据量特征满足所述数据量特征异常范围的情况下,判定所述待检测数据异常。
在本实施例中,在通过上述步骤后,提取得到待检测数据的趋势特征和/或数据量特征,以及计算得到的趋势特征异常范围和/或数据量特征异常范围。
可选地,判断待检测数据的趋势特征是否满足趋势特征异常范围,在待检测数据的趋势特征满足趋势特征异常范围的情况下,判定该待检测数据异常。反之,则判定该待检测数据正常。
可选地,判断待检测数据的数据量特征是否满足数据量特征异常范围,在待检测数据的数据量特征满足数据量特征异常范围的情况下,判定该待检测数据异常。反之,则判定该待检测数据正常。
示例性地,假设检测对象的时序数据采集周期的数量为t,则Di为第i个周期采集的数据,其中1<=i<=t。当周期i=t时,Dt为最新数据,即为待检测数据,是本示例性方法需要进行异常检测的校验对象。
在完成上述的特征异常范围计算后,得到从D1~Dt-1提取出的时序数据特征计算的趋势特征正常范围[l,r],和数据量特征正常范围[l’,r’]。同时得到从Dt中提取出来的最新周期数据的趋势特征wt和数据量特征b’t。判断wt和b’t是否分别在各自的特征正常范围内,就能够做到异常检测判断。
本实施例通过上述方案,具体通过采集检测对象的时序数据,其中,所述时序数据包括待检测数据和采集周期在所述待检测数据之前的历史数据;基于所述时序数据提取得到时序数据的数据特征;基于所述历史数据的数据特征计算得到特征异常范围;根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果。通过将时序数据划分为待检测数据和采集周期在该待检测数据之前的历史数据,可以有效利用检测对象的时序性质进行数据特征提取和数据异常检测。通过提取检测对象的自身数据特征,根据待检测数据的数据特征与自身数据特征的比对结果,判定待检测数据的异常检测结果,使得不需依赖人工经验对不同检索数据设置检查规则,即可实现不同检测数据的个性化自动异常检测,节省大量人力成本。
此外,本申请实施例还提出一种数据异常检测装置,所述数据异常检测装置包括:
数据采集模块,用于采集检测对象的时序数据,其中,所述时序数据包括待检测数据和采集周期在所述待检测数据之前的历史数据;
特征提取模块,用于基于所述时序数据提取得到时序数据的数据特征;
范围计算模块,用于基于所述历史数据的数据特征计算得到特征异常范围;
异常检测模块,用于根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果。
本实施例实现数据异常检测的原理及实施过程,请参照上述各实施例,在此不再一一赘述。
此外,本申请实施例还提出一种数据异常检测设备,所述数据异常检测设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据异常检测程序,所述数据异常检测程序被所述处理器执行时实现如上所述的数据异常检测方法的步骤。
由于本数据异常检测程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据异常检测程序,所述数据异常检测程序被处理器执行时实现如上所述的数据异常检测方法的步骤。
由于本数据异常检测程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本申请实施例提出的数据异常检测方法、装置、设备以及存储介质,通过采集检测对象的时序数据,其中,所述时序数据包括待检测数据和采集周期在所述待检测数据之前的历史数据;基于所述时序数据提取得到时序数据的数据特征;基于所述历史数据的数据特征计算得到特征异常范围;根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果。通过将时序数据划分为待检测数据和采集周期在该待检测数据之前的历史数据,可以有效利用检测对象的时序性质进行数据特征提取和数据异常检测。通过提取检测对象的自身数据特征,根据待检测数据的数据特征与自身数据特征的比对结果,判定待检测数据的异常检测结果,使得不需依赖人工经验对不同检索数据设置检查规则,即可实现不同检测数据的个性化自动异常检测,节省大量人力成本。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本申请每个实施例的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种数据异常检测方法,其特征在于,所述数据异常检测方法包括:
采集检测对象的时序数据,其中,所述时序数据包括待检测数据和采集周期在所述待检测数据之前的历史数据;
基于所述时序数据提取得到时序数据的数据特征;
基于所述历史数据的数据特征计算得到特征异常范围;
根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果。
2.如权利要求1所述的数据异常检测方法,其特征在于,所述数据特征包括趋势特征,所述基于所述历史数据的数据特征计算得到特征异常范围的步骤包括:
获取所述历史数据的趋势特征;
基于所述历史数据的趋势特征计算加权均值和方差;
通过高斯分布的百分点函数对趋势特征的加权均值和方差进行计算,得到趋势特征异常范围。
3.如权利要求1或2所述的数据异常检测方法,其特征在于,所述数据特征包括数据量特征,所述基于所述历史数据的数据特征计算得到特征异常范围的步骤包括:
获取所述历史数据的数据量特征;
对所述历史数据的数据量特征进行数据转换,以使所述历史数据的数据量特征符合高斯分布;
基于所述历史数据的数据量特征计算均值和方差;
通过高斯分布的百分点函数对数据量特征的均值和方差进行计算,得到数据量特征异常范围。
4.如权利要求3所述的数据异常检测方法,其特征在于,所述根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果的步骤包括:
判断所述待检测数据的趋势特征是否满足所述趋势特征异常范围,和/或判断所述待检测数据的数据量特征是否满足所述数据量特征异常范围;
在所述待检测数据的趋势特征满足所述趋势特征异常范围和/或所述待检测数据的数据量特征满足所述数据量特征异常范围的情况下,判定所述待检测数据异常。
5.如权利要求1所述的数据异常检测方法,其特征在于,所述基于所述时序数据提取得到时序数据的数据特征的步骤包括:
对所述时序数据进行平滑处理,得到平滑后的时序数据;
将所述平滑后的时序数据输入预先构建的特征提取模型中进行特征提取,得到所述数据特征。
6.如权利要求5所述的数据异常检测方法,其特征在于,所述对所述时序数据进行平滑处理,得到平滑后的时序数据的步骤之前,还包括:
基于线性规划拟合训练得到所述特征提取模型。
7.如权利要求1所述的数据异常检测方法,其特征在于,所述采集检测对象的时序数据的步骤包括:
基于时间顺序和时间间隔对所述检测对象的时序数据进行采集。
8.一种数据异常检测装置,其特征在于,所述数据异常检测装置包括:
数据采集模块,用于采集检测对象的时序数据,其中,所述时序数据包括待检测数据和采集周期在所述待检测数据之前的历史数据;
特征提取模块,用于基于所述时序数据提取得到时序数据的数据特征;
范围计算模块,用于基于所述历史数据的数据特征计算得到特征异常范围;
异常检测模块,用于根据所述特征异常范围对所述待检测数据的数据特征进行异常检测,得到数据异常检测结果。
9.一种数据异常检测设备,其特征在于,所述数据异常检测设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据异常检测程序,所述数据异常检测程序被所述处理器执行时实现如权利要求1-7中任一项所述的数据异常检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据异常检测程序,所述数据异常检测程序被处理器执行时实现如权利要求1-7中任一项所述的数据异常检测方法的步骤。
CN202310702544.1A 2023-06-13 2023-06-13 数据异常检测方法、装置、设备以及存储介质 Pending CN116628615A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310702544.1A CN116628615A (zh) 2023-06-13 2023-06-13 数据异常检测方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310702544.1A CN116628615A (zh) 2023-06-13 2023-06-13 数据异常检测方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN116628615A true CN116628615A (zh) 2023-08-22

Family

ID=87592029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310702544.1A Pending CN116628615A (zh) 2023-06-13 2023-06-13 数据异常检测方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN116628615A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118018453A (zh) * 2024-04-09 2024-05-10 四川蜀道电气化建设有限公司 一种适用于复杂环境下的铁路通信保障方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118018453A (zh) * 2024-04-09 2024-05-10 四川蜀道电气化建设有限公司 一种适用于复杂环境下的铁路通信保障方法及系统

Similar Documents

Publication Publication Date Title
EP4198775A1 (en) Abnormal user auditing method and apparatus, electronic device, and storage medium
CN110942088A (zh) 一种基于监狱服刑人员有效影响因子的危险性等级评估方法及其实现系统
CN111625516A (zh) 检测数据状态的方法、装置、计算机设备和存储介质
CN110942248B (zh) 交易风控网络的训练方法及装置、交易风险检测方法
CN109784528A (zh) 基于时间序列和支持向量回归的水质预测方法及装置
CN116628615A (zh) 数据异常检测方法、装置、设备以及存储介质
CN116307215A (zh) 一种电力系统的负荷预测方法、装置、设备及存储介质
CN104144643A (zh) 动作判定装置、动作判定系统和动作判定方法
CN109740052A (zh) 网络行为预测模型的构建方法及装置、网络行为预测方法
CN111582394B (zh) 一种群体评估方法、装置、设备及介质
CN113868953A (zh) 工业系统中多机组运行优化方法、装置、系统及存储介质
CN113222057A (zh) 数据预测模型训练、数据预测方法、装置、设备及介质
CN113705929A (zh) 一种基于负荷特征曲线及典型特征值融合的春节假期负荷预测方法
CN112766402A (zh) 算法选择方法、装置和电子设备
CN110673568A (zh) 玻璃纤维制造业工业设备故障顺序确定方法及系统
CN114154622A (zh) 交通运行体系流量数据采集缺失补全的算法模型
CN116992294A (zh) 卫星测控训练评估方法、装置、设备及存储介质
CN117095541A (zh) 时空特征融合交通流预测方法、装置、设备及存储介质
CN115982653A (zh) 异常账号识别方法、装置、电子设备及可读存储介质
CN115935284A (zh) 电网异常电压检测方法、装置、设备及存储介质
CN112463643A (zh) 一种软件质量预测方法
CN112787882A (zh) 一种物联网边缘流量预测方法、装置及设备
CN111340648A (zh) 一种基于物联网的能源管控方法及系统
CN113657429B (zh) 面向数字孪生城市物联网的数据融合方法及装置
CN109685308A (zh) 一种复杂系统关键路径评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination