CN113705684B - 反向迭代的异常检测方法、装置、电子设备及介质 - Google Patents

反向迭代的异常检测方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN113705684B
CN113705684B CN202111003012.6A CN202111003012A CN113705684B CN 113705684 B CN113705684 B CN 113705684B CN 202111003012 A CN202111003012 A CN 202111003012A CN 113705684 B CN113705684 B CN 113705684B
Authority
CN
China
Prior art keywords
service data
periodic
detection model
data
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111003012.6A
Other languages
English (en)
Other versions
CN113705684A (zh
Inventor
王文进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111003012.6A priority Critical patent/CN113705684B/zh
Publication of CN113705684A publication Critical patent/CN113705684A/zh
Application granted granted Critical
Publication of CN113705684B publication Critical patent/CN113705684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及人工智能及数字医疗技术,揭露了一种反向迭代的异常检测方法,包括:对历史业务数据集合进行数据清洗,得到标准业务数据集合,对标准业务数据集合进行曲线分类,得到周期业务数据集合及非周期业务数据集合,并训练得到周期检测模型及非周期检测模型,利用实时流技术获取实时业务数据,利用周期检测模型及非周期检测模型对实时业务数据进行异常检测,根据异常检测的结果对实时业务数据进行标注并作为历史业务数据。此外,本发明还涉及区块链技术,所述历史业务数据集合可从区块链的节点中获取。本发明还提出一种反向迭代的异常检测方法装置、电子设备以及计算机可读存储介质。本发明可以解决异常检测时效性较低的问题。

Description

反向迭代的异常检测方法、装置、电子设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种反向迭代的异常检测方法、装置、电子设备及计算机可读存储介质。
背景技术
随着人工智能的发展,运维已经进入了智能运维时代,其中,异常检测是智能运维系统中的一项核心功能。传统的运维异常监控基本都是基于规则,根据业务专家的经验来设定阈值报警,然而这种方法的通用性会非常差,而且容易产生大量的误报和漏报,同时用户需要在每种指标数据上单独去配置相应的规则,这样的场景给运维部门也带来了巨大的挑战。
现有技术中,每天生产环境都有大量的数据发布和变更,web服务的稳定性需要运维监控来保障,比如,运维人员通过监控系统中的业务指标来判断系统是否出现异常,业务场景中就包含订单、CPU使用率、内存使用率、磁盘IO、APP的服务指标(响应时间,请求量、错误数)等,仅从列举的指标来看就有上万或几十万条以上,所以单靠人工来手动配置规则来反复添加规则条件和迭代优化规则会使得运维效率低下,同时加上业务数据的频繁变更和业务场景的多样性需要不停的投入人力进去维护和支持这些告警规则,会进一步加大开发和运维的成本,使得异常检测的时效性较低。
发明内容
本发明提供一种反向迭代的异常检测方法、装置、设备及存储介质,其主要目的在于解决异常检测时效性较低的问题。
为实现上述目的,本发明提供的一种反向迭代的异常检测方法,包括:
获取多个数据源的历史业务数据集合,对所述历史业务数据集合进行数据清洗,得到标准业务数据集合;
对所述标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合;
利用所述周期业务数据集合训练预构建的第一检测模型,得到周期检测模型,以及利用所述非周期业务数据集合训练预构建的第二检测模型,得到非周期检测模型;
利用实时流技术获取所述多个数据源的实时业务数据,利用所述周期检测模型及所述非周期检测模型对所述实时业务数据进行异常检测,根据异常检测的结果对所述实时业务数据进行标注,并将标注后的实时业务数据作为所述历史业务数据并返回所述对所述历史业务数据集合进行数据清洗的步骤。
可选地,所述获取多个数据源的历史业务数据集合,对所述历史业务数据集合进行数据清洗,得到标准业务数据集合,包括:
从所述多个数据源中获取预设时间内的历史业务数据集合;
利用预设的距离公式对所述历史业务数据集合中的数据进行去重处理,得到去重数据;
利用预设的双边测试剔除法对所述去重数据进行去异常处理,得到去异常数据;
利用预设的填充算法对所述去异常数据进行缺失值填充,得到所述标准业务数据集合。
可选地,所述对所述标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合,包括:
根据所述预设时间构建所述标准业务数据集合中数据的业务变化曲线;
对同一标准业务数据的业务变化曲线及相邻时间内的业务变化曲线进行标准化处理,得到两条标准业务曲线;
对所述两条标准业务曲线进行差分处理得到差分曲线,并计算所述差分曲线的方差;
汇总所有方差大于预设的方差阈值的业务变化曲线对应的标准业务数据得到所述非周期业务数据集合;
汇总所有方差小于等于所述方差阈值的业务变化曲线对应的标准业务数据得到所述周期业务数据集合。
可选地,所述利用所述周期业务数据集合训练预构建的第一检测模型,得到周期检测模型,包括:
通过所述第一检测模型的输入门计算所述周期业务数据集合中各时刻数据的状态值;
通过所述第一检测模型的遗忘门计算所述周期业务数据集合中各时刻数据的激活值;
根据所述状态值和所述激活值计算所述周期业务数据集合中各时刻数据的状态更新值;
利用所述第一检测模型的输出门计算所述状态更新值对应的预测标签;
根据所述预测标签与预设的真实标签对所述第一检测模型进行反向迭代,直至迭代次数大于等于预设的迭代阈值或所述第一检测模型收敛时,得到所述周期检测模型。
可选地,所述利用所述非周期业务数据集合训练预构建的第二检测模型,得到非周期检测模型,包括:
利用所述第二检测模型输出所述非周期业务数据集合中各数据的预测值;
利用预设的损失函数计算所述预测值与预设的真实值的损失值,当所述损失值大于等于预设的损失阈值时,迭代调整所述第二检测模型中每个神经元的权重,利用调整后的第二检测模型重新输出所述非周期业务数据集合中各数据的预测值,直至所述预测值与预设的真实值的损失值小于预设的损失阈值时,得到所述非周期检测模型。
可选地,所述所述利用预设的损失函数计算所述预测值与预设的真实值的损失值,包括:
利用下述损失函数计算所述预测值与预设的真实值的损失值:
其中,W,b为神经元的权重,hW,b(x)为对非周期业务数据的预测值,y为非周期业务数据的真实值。
可选地,所述利用实时流技术获取所述多个数据源的实时业务数据,利用所述周期检测模型及所述非周期检测模型对所述实时业务数据进行异常检测,包括:
从所述多个数据源中获取实时业务数据流;
利用预设的时间窗口对所述实时业务数据流进行切分,得到切分数据流;
将所述周期检测模型及所述非周期检测模型加载成模型文件,并将所述模型文件存储在预构建的分布式系统;
利用预构建的实时计算引擎从所述分布式系统中调用与所述多个数据源对应的周期检测模型或非周期检测模型,利用调用的所述周期检测模型或所述非周期检测模型对所述切分数据流中的实时业务数据进行检测,得到异常检测结果。
为了解决上述问题,本发明还提供一种反向迭代的异常检测装置,所述装置包括:
数据清洗模块,用于获取多个数据源的历史业务数据集合,对所述历史业务数据集合进行数据清洗,得到标准业务数据集合;
数据分类模块,用于对所述标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合;
模型训练模块,用于利用所述周期业务数据集合训练预构建的第一检测模型,得到周期检测模型,以及利用所述非周期业务数据集合训练预构建的第二检测模型,得到非周期检测模型;
异常检测模块,用于利用实时流技术获取所述多个数据源的实时业务数据,利用所述周期检测模型及所述非周期检测模型对所述实时业务数据进行异常检测,根据异常检测的结果对所述实时业务数据进行标注,并将标注后的实时业务数据作为所述历史业务数据并返回所述对所述历史业务数据集合进行数据清洗的步骤。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现上述所述的反向迭代的异常检测方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的反向迭代的异常检测方法。
本发明通过对标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合,通过不同类型的数据集来训练得到不同的检测模型,提高了异常检测的适用性。通过实时流技术获取多个数据源的实时业务数据,并利用周期检测模型及非周期检测模型对实时业务数据进行异常检测,不需要人工针对不同的数据设定检测规则,提高了异常检测的效率。同时,将异常检测后的数据进行标注并进行迭代训练,提高了模型对业务数据的时效性。因此本发明提出的反向迭代的异常检测方法、装置、电子设备及计算机可读存储介质,可以解决异常检测时效性较低的问题。
附图说明
图1为本发明一实施例提供的反向迭代的异常检测方法的流程示意图;
图2为本发明一实施例提供的反向迭代的异常检测装置的功能模块图;
图3为本发明一实施例提供的实现所述反向迭代的异常检测方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种反向迭代的异常检测方法。所述反向迭代的异常检测方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述反向迭代的异常检测方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的反向迭代的异常检测方法的流程示意图。在本实施例中,所述反向迭代的异常检测方法包括:
S1、获取多个数据源的历史业务数据集合,对所述历史业务数据集合进行数据清洗,得到标准业务数据集合;
本发明实施例中,所述多个数据源可以为不同系统的消息队列,例如,银行领域,所述多个数据源包括银行各大监控系统的实时消息队列cat、detector、Prometheus等。所述历史业务数据包括业务场景中的历史服务数据和历史指标数据,例如,监控系统中的业务数据包括订单、CPU使用率、内存使用率、磁盘IO、APP的服务指标(响应时间,请求量、错误数)等。
本发明其中一个实施例中,所述数据源可以是区块链节点,以及所述历史业务数据集合可以数字医疗相关数据。
本发明一可选实施例中,所述数据清洗包括去重处理、去异常处理以及缺失值填充。
具体地,所述获取多个数据源的历史业务数据集合,对所述历史业务数据集合进行数据清洗,得到标准业务数据集合,包括:
从所述多个数据源中获取预设时间内的历史业务数据集合;
利用预设的距离公式对所述历史业务数据集合中的数据进行去重处理,得到去重数据;
利用预设的双边测试剔除法对所述去重数据进行去异常处理,得到去异常数据;
利用预设的填充算法对所述去异常数据进行缺失值填充,得到所述标准业务数据集合。
本发明实施例中,所述预设的距离公式可以为:
其中,d表示历史业务数据集合中任意两个数据的距离值,w1j和w2j表示历史业务数据集合中任意两个数据,当所述距离值小于预设的距离值时,则删除其中任意一个数据,当所述距离值大于等于预设的距离值时,则同时保留两个数据。
本发明实施例中,所述预设的双边测试剔除法可以为:
其中,i属于正整数,表示去重后的所述历史业务数据集合中数据的平均值,S表示去重后的所述历史业务数据集合中数据的标准差,Yi表示第i个去重数据。G表示去异常阈值,将大于所述异常阈值的数据进行去除。
本发明实施例中,可以通过missmap function缺失函数检测去异常数据中是否存在数据缺失值,若检测没有数据缺失值,则不作处理,若检测存在数充的数据缺失值对应的概率参数,n表示去异常数据的数量,p(xi|θ)表示填充的数据缺失值概率。
本发明实施例中,所述预设时间可以为一天,并通过去重、去异常及缺失值填充,可以提高数据处理的效率。
S2、对所述标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合;
本发明实施例中,所述曲线分类是指根据所述标准业务数据在预设时间内形成的曲线的形状来对所述标准业务数据进行分类。
具体地,所述对所述标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合,包括:
根据所述预设时间构建所述标准业务数据集合中数据的业务变化曲线;
对同一标准业务数据的业务变化曲线及相邻时间内的业务变化曲线进行标准化处理,得到两条标准业务曲线;
对所述两条标准业务曲线进行差分处理得到差分曲线,并计算所述差分曲线的方差;
汇总所有方差大于预设的方差阈值的业务变化曲线对应的标准业务数据得到所述非周期业务数据集合;
汇总所有方差小于等于所述方差阈值的业务变化曲线对应的标准业务数据得到所述周期业务数据集合。
本发明实施例中,所述对同一标准业务数据的业务变化曲线及前一预设时间内的业务变化曲线进行标准化处理,包括:
利用下述z-score标准化公式对同一标准业务数据的业务变化曲线及前一预设时间内的业务变化曲线进行标准化处理:
其中,μ为所述业务变化曲线中数据的均值,δ为所述业务变化曲线中务数据的标准差,xi为所述业务变化曲线中第i个数据,zi为通过标准化得到的第i个数据。
本发明实施例中,所述差分处理是指将同一时刻业务变化曲线对应的值进行相减,从而得到新的差分曲线,例如,对于今天和昨天的CPU使用率变化曲线,将两条曲线相应时刻的数值进行相减,得到CPU使用率差分曲线,并计算CPU使用率差分曲线的方差,若方差小于等于预设的方差阈值,说明变化幅度较小,则可以认为CPU使用率为周期性数据,反之,则为非周期业务数据。
S3、利用所述周期业务数据集合训练预构建的第一检测模型,得到周期检测模型,以及利用所述非周期业务数据集合训练预构建的第二检测模型,得到非周期检测模型;
本发明实施例中,所述第一检测模型可以为LSTM网络(Long Short-Term Memory,长短期记忆网络),所述LSTM网络是一种时间循环神经网络,包括:输入门、遗忘门以及输出门。所述第二检测模型可以为深度神经网络(Deep Neural Networks,DNN)。
具体地,所述利用所述周期业务数据集合训练预构建的第一检测模型,得到周期检测模型,包括:
通过所述第一检测模型的输入门计算所述周期业务数据集合中各时刻数据的状态值;
通过所述第一检测模型的遗忘门计算所述周期业务数据集合中各时刻数据的激活值;
根据所述状态值和所述激活值计算所述周期业务数据集合中各时刻数据的状态更新值;
利用所述第一检测模型的输出门计算所述状态更新值对应的预测标签;
根据所述预测标签与预设的真实标签对所述第一检测模型进行反向迭代,直至迭代次数大于等于预设的迭代阈值或所述第一检测模型收敛时,得到所述周期检测模型。
一可选实施例中,所述状态值的计算方法包括:
其中,it表示状态值,表示输入门中细胞单元的偏置,wi表示输入门的激活因子,ht-1表示周期业务数据在输入门t-1时刻的峰值,xt表示在t时刻的周期业务数据,bi表示输入门中细胞单元的权重。
一可选实施例中,所述激活值的计算方法包括:
其中,ft表示激活值,表示遗忘门中细胞单元的偏置,wf表示遗忘门的激活因子,表示周期业务数据在所述遗忘门t-1时刻的峰值,xt表示在t时刻输入的周期业务数据,bf表示遗忘门中细胞单元的权重。
一可选实施例中,所述状态更新值的计算方法包括:
其中,ct表示状态更新值,ht-1表示周期业务数据在输入门t-1时刻的峰值,表示周期业务数据在遗忘门t-1时刻的峰值。
本发明实施例中,所述利用所述非周期业务数据集合训练预构建的第二检测模型,得到非周期检测模型,包括:
利用所述第二检测模型输出所述非周期业务数据集合中各数据的预测值;
利用预设的损失函数计算所述预测值与预设的真实值的损失值,当所述损失值大于等于预设的损失阈值时,迭代调整所述第二检测模型中每个神经元的权重,利用调整后的第二检测模型重新输出所述非周期业务数据集合中各数据的预测值,直至所述预测值与预设的真实值的损失值小于预设的损失阈值时,得到所述非周期检测模型。
本发明实施例中,所述利用预设的损失函数计算所述预测值与预设的真实值的损失值,包括:
利用下述损失函数计算所述预测值与预设的真实值的损失值:
其中,W,b为神经元的权重,hW,b(x)为对非周期业务数据的预测值,y为非周期业务数据的真实值。
S4、利用实时流技术获取所述多个数据源的实时业务数据,利用所述周期检测模型及所述非周期检测模型对所述实时业务数据进行异常检测,根据异常检测的结果对所述实时业务数据进行标注,并将标注后的实时业务数据作为所述历史业务数据并返回所述对所述历史业务数据集合进行数据清洗的步骤。
具体地,所述利用实时流技术获取所述多个数据源的实时业务数据,利用所述周期检测模型及所述非周期检测模型对所述实时业务数据进行异常检测,包括:
从所述多个数据源中获取实时业务数据流;
利用预设的时间窗口对所述实时业务数据流进行切分,得到切分数据流;
将所述周期检测模型及所述非周期检测模型加载成模型文件,并将所述模型文件存储在预构建的分布式系统;
利用预构建的实时计算引擎从所述分布式系统中调用与所述多个数据源对应的周期检测模型或非周期检测模型,利用调用的所述周期检测模型或所述非周期检测模型对所述切分数据流中的实时业务数据进行检测,得到异常检测结果。
本发明实施例中,所述预设的时间窗口可以为间隔5S的滚动窗口,通过所述滚动窗口将所述实时业务数据划分为固定5S切分的切分数据流。同时,所述预构建的分布式系统可以为Hadoop分布式文件系统(HDFS),所述实时计算引擎可以为Flink,通过将所述周期检测模型及所述非周期检测模型加载成模型文件存储在HDFS不同的集群中,并且通过Flink加载HDFS中的模型文件来实现流式读取文件,提高了对实时业务数据的检测效率。
本发明一可选实施例中,对于各实时业务数据,根据异常检测结果进行标注,比如,异常则为0,非异常则为1,将标注后的数据作为历史业务数据并重新对模型进行训练优化,可以提高模型的泛化能力,同时由于利用实时数据不断优化模型,也提高了模型预测的实时准确率。
本发明通过对标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合,通过不同类型的数据集来训练得到不同的检测模型,提高了异常检测的适用性。通过实时流技术获取多个数据源的实时业务数据,并利用周期检测模型及非周期检测模型对实时业务数据进行异常检测,不需要人工针对不同的数据设定检测规则,提高了异常检测的效率。同时,将异常检测后的数据进行标注并进行迭代训练,提高了模型对业务数据的时效性。因此本发明提出的反向迭代的异常检测方法,可以解决异常检测时效性较低的问题。
如图2所示,是本发明一实施例提供的反向迭代的异常检测装置的功能模块图。
本发明所述反向迭代的异常检测装置100可以安装于电子设备中。根据实现的功能,所述反向迭代的异常检测装置100可以包括数据清洗模块101、数据分类模块102、模型训练模块103及异常检测模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述数据清洗模块101,用于获取多个数据源的历史业务数据集合,对所述历史业务数据集合进行数据清洗,得到标准业务数据集合;
所述数据分类模块102,用于对所述标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合;
所述模型训练模块103,用于利用所述周期业务数据集合训练预构建的第一检测模型,得到周期检测模型,以及利用所述非周期业务数据集合训练预构建的第二检测模型,得到非周期检测模型;
所述异常检测模块104,用于利用实时流技术获取所述多个数据源的实时业务数据,利用所述周期检测模型及所述非周期检测模型对所述实时业务数据进行异常检测,根据异常检测的结果对所述实时业务数据进行标注,并将标注后的实时业务数据作为所述历史业务数据并返回所述对所述历史业务数据集合进行数据清洗的步骤。
详细地,所述反向迭代的异常检测装置100各模块的具体实施方式如下:
步骤一、获取多个数据源的历史业务数据集合,对所述历史业务数据集合进行数据清洗,得到标准业务数据集合;
本发明实施例中,所述多个数据源可以为不同系统的消息队列,例如,银行领域,所述多个数据源包括银行各大监控系统的实时消息队列cat、detector、Prometheus等。所述历史业务数据包括业务场景中的历史服务数据和历史指标数据,例如,监控系统中的业务数据包括订单、CPU使用率、内存使用率、磁盘IO、APP的服务指标(响应时间,请求量、错误数)等。
本发明一可选实施例中,所述数据清洗包括去重处理、去异常处理以及缺失值填充。
具体地,所述获取多个数据源的历史业务数据集合,对所述历史业务数据集合进行数据清洗,得到标准业务数据集合,包括:
从所述多个数据源中获取预设时间内的历史业务数据集合;
利用预设的距离公式对所述历史业务数据集合中的数据进行去重处理,得到去重数据;
利用预设的双边测试剔除法对所述去重数据进行去异常处理,得到去异常数据;
利用预设的填充算法对所述去异常数据进行缺失值填充,得到所述标准业务数据集合。
本发明实施例中,所述预设的距离公式可以为:
其中,d表示历史业务数据集合中任意两个数据的距离值,w1j和w2j表示历史业务数据集合中任意两个数据,当所述距离值小于预设的距离值时,则删除其中任意一个数据,当所述距离值大于等于预设的距离值时,则同时保留两个数据。
本发明实施例中,所述预设的双边测试剔除法可以为:
其中,i属于正整数,表示去重后的所述历史业务数据集合中数据的平均值,S表示去重后的所述历史业务数据集合中数据的标准差,Yi表示第i个去重数据。G表示去异常阈值,将大于所述异常阈值的数据进行去除。
本发明实施例中,可以通过missmap function缺失函数检测去异常数据中是否存在数据缺失值,若检测没有数据缺失值,则不作处理,若检测存在数充的数据缺失值对应的概率参数,n表示去异常数据的数量,p(xi|θ)表示填充的数据缺失值概率。
本发明实施例中,所述预设时间可以为一天,并通过去重、去异常及缺失值填充,可以提高数据处理的效率。
步骤二、对所述标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合;
本发明实施例中,所述曲线分类是指根据所述标准业务数据在预设时间内形成的曲线的形状来对所述标准业务数据进行分类。
具体地,所述对所述标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合,包括:
根据所述预设时间构建所述标准业务数据集合中数据的业务变化曲线;
对同一标准业务数据的业务变化曲线及相邻时间内的业务变化曲线进行标准化处理,得到两条标准业务曲线;
对所述两条标准业务曲线进行差分处理得到差分曲线,并计算所述差分曲线的方差;
汇总所有方差大于预设的方差阈值的业务变化曲线对应的标准业务数据得到所述非周期业务数据集合;
汇总所有方差小于等于所述方差阈值的业务变化曲线对应的标准业务数据得到所述周期业务数据集合。
本发明实施例中,所述对同一标准业务数据的业务变化曲线及前一预设时间内的业务变化曲线进行标准化处理,包括:
利用下述z-score标准化公式对同一标准业务数据的业务变化曲线及前一预设时间内的业务变化曲线进行标准化处理:
其中,μ为所述业务变化曲线中数据的均值,δ为所述业务变化曲线中务数据的标准差,xi为所述业务变化曲线中第i个数据,zi为通过标准化得到的第i个数据。
本发明实施例中,所述差分处理是指将同一时刻业务变化曲线对应的值进行相减,从而得到新的差分曲线,例如,对于今天和昨天的CPU使用率变化曲线,将两条曲线相应时刻的数值进行相减,得到CPU使用率差分曲线,并计算CPU使用率差分曲线的方差,若方差小于等于预设的方差阈值,说明变化幅度较小,则可以认为CPU使用率为周期性数据,反之,则为非周期业务数据。
步骤三、利用所述周期业务数据集合训练预构建的第一检测模型,得到周期检测模型,以及利用所述非周期业务数据集合训练预构建的第二检测模型,得到非周期检测模型;
本发明实施例中,所述第一检测模型可以为LSTM网络(Long Short-Term Memory,长短期记忆网络),所述LSTM网络是一种时间循环神经网络,包括:输入门、遗忘门以及输出门。所述第二检测模型可以为深度神经网络(Deep Neural Networks,DNN)。
具体地,所述利用所述周期业务数据集合训练预构建的第一检测模型,得到周期检测模型,包括:
通过所述第一检测模型的输入门计算所述周期业务数据集合中各时刻数据的状态值;
通过所述第一检测模型的遗忘门计算所述周期业务数据集合中各时刻数据的激活值;
根据所述状态值和所述激活值计算所述周期业务数据集合中各时刻数据的状态更新值;
利用所述第一检测模型的输出门计算所述状态更新值对应的预测标签;
根据所述预测标签与预设的真实标签对所述第一检测模型进行反向迭代,直至迭代次数大于等于预设的迭代阈值或所述第一检测模型收敛时,得到所述周期检测模型。
一可选实施例中,所述状态值的计算方法包括:
其中,it表示状态值,表示输入门中细胞单元的偏置,wi表示输入门的激活因子,ht-1表示周期业务数据在输入门t-1时刻的峰值,xt表示在t时刻的周期业务数据,bi表示输入门中细胞单元的权重。
一可选实施例中,所述激活值的计算方法包括:
其中,ft表示激活值,表示遗忘门中细胞单元的偏置,wf表示遗忘门的激活因子,表示周期业务数据在所述遗忘门t-1时刻的峰值,xt表示在t时刻输入的周期业务数据,bf表示遗忘门中细胞单元的权重。
一可选实施例中,所述状态更新值的计算方法包括:
其中,ct表示状态更新值,ht-1表示周期业务数据在输入门t-1时刻的峰值,表示周期业务数据在遗忘门t-1时刻的峰值。
本发明实施例中,所述利用所述非周期业务数据集合训练预构建的第二检测模型,得到非周期检测模型,包括:
利用所述第二检测模型输出所述非周期业务数据集合中各数据的预测值;
利用预设的损失函数计算所述预测值与预设的真实值的损失值,当所述损失值大于等于预设的损失阈值时,迭代调整所述第二检测模型中每个神经元的权重,利用调整后的第二检测模型重新输出所述非周期业务数据集合中各数据的预测值,直至所述预测值与预设的真实值的损失值小于预设的损失阈值时,得到所述非周期检测模型。
本发明实施例中,所述利用预设的损失函数计算所述预测值与预设的真实值的损失值,包括:
利用下述损失函数计算所述预测值与预设的真实值的损失值:
其中,W,b为神经元的权重,hW,b(x)为对非周期业务数据的预测值,y为非周期业务数据的真实值。
步骤四、利用实时流技术获取所述多个数据源的实时业务数据,利用所述周期检测模型及所述非周期检测模型对所述实时业务数据进行异常检测,根据异常检测的结果对所述实时业务数据进行标注,并将标注后的实时业务数据作为所述历史业务数据并返回所述对所述历史业务数据集合进行数据清洗的步骤。
具体地,所述利用实时流技术获取所述多个数据源的实时业务数据,利用所述周期检测模型及所述非周期检测模型对所述实时业务数据进行异常检测,包括:
从所述多个数据源中获取实时业务数据流;
利用预设的时间窗口对所述实时业务数据流进行切分,得到切分数据流;
将所述周期检测模型及所述非周期检测模型加载成模型文件,并将所述模型文件存储在预构建的分布式系统;
利用预构建的实时计算引擎从所述分布式系统中调用与所述多个数据源对应的周期检测模型或非周期检测模型,利用调用的所述周期检测模型或所述非周期检测模型对所述切分数据流中的实时业务数据进行检测,得到异常检测结果。
本发明实施例中,所述预设的时间窗口可以为间隔5S的滚动窗口,通过所述滚动窗口将所述实时业务数据划分为固定5S切分的切分数据流。同时,所述预构建的分布式系统可以为Hadoop分布式文件系统(HDFS),所述实时计算引擎可以为Flink,通过将所述周期检测模型及所述非周期检测模型加载成模型文件存储在HDFS不同的集群中,并且通过Flink加载HDFS中的模型文件来实现流式读取文件,提高了对实时业务数据的检测效率。
本发明一可选实施例中,对于各实时业务数据,根据异常检测结果进行标注,比如,异常则为0,非异常则为1,将标注后的数据作为历史业务数据并重新对模型进行训练优化,可以提高模型的泛化能力,同时由于利用实时数据不断优化模型,也提高了模型预测的实时准确率。
本发明通过对标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合,通过不同类型的数据集来训练得到不同的检测模型,提高了异常检测的适用性。通过实时流技术获取多个数据源的实时业务数据,并利用周期检测模型及非周期检测模型对实时业务数据进行异常检测,不需要人工针对不同的数据设定检测规则,提高了异常检测的效率。同时,将异常检测后的数据进行标注并进行迭代训练,提高了模型对业务数据的时效性。因此本发明提出的反向迭代的异常检测装置,可以解决异常检测时效性较低的问题。
如图3所示,是本发明一实施例提供的实现反向迭代的异常检测方法的电子设备的结构示意图。
所述电子设备可以包括处理器10、存储器11、通信接口12和总线13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如反向迭代的异常检测程序。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如反向迭代的异常检测程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如反向迭代的异常检测程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述通信接口12用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
所述总线13可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线13可以分为地址总线、数据总线、控制总线等。所述总线13被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器11存储的反向迭代的异常检测程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取多个数据源的历史业务数据集合,对所述历史业务数据集合进行数据清洗,得到标准业务数据集合;
对所述标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合;
利用所述周期业务数据集合训练预构建的第一检测模型,得到周期检测模型,以及利用所述非周期业务数据集合训练预构建的第二检测模型,得到非周期检测模型;
利用实时流技术获取所述多个数据源的实时业务数据,利用所述周期检测模型及所述非周期检测模型对所述实时业务数据进行异常检测,根据异常检测的结果对所述实时业务数据进行标注,并将标注后的实时业务数据作为所述历史业务数据并返回所述对所述历史业务数据集合进行数据清洗的步骤。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取多个数据源的历史业务数据集合,对所述历史业务数据集合进行数据清洗,得到标准业务数据集合;
对所述标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合;
利用所述周期业务数据集合训练预构建的第一检测模型,得到周期检测模型,以及利用所述非周期业务数据集合训练预构建的第二检测模型,得到非周期检测模型;
利用实时流技术获取所述多个数据源的实时业务数据,利用所述周期检测模型及所述非周期检测模型对所述实时业务数据进行异常检测,根据异常检测的结果对所述实时业务数据进行标注,并将标注后的实时业务数据作为所述历史业务数据并返回所述对所述历史业务数据集合进行数据清洗的步骤。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (6)

1.一种反向迭代的异常检测方法,其特征在于,所述方法包括:
获取多个数据源的历史业务数据集合,对所述历史业务数据集合进行数据清洗,得到标准业务数据集合,包括:从所述多个数据源中获取预设时间内的所述历史业务数据集合,利用预设的距离公式对所述历史业务数据集合中的数据进行去重处理,得到去重数据,利用预设的双边测试剔除法对所述去重数据进行去异常处理,得到去异常数据,利用预设的填充算法对所述去异常数据进行缺失值填充,得到所述标准业务数据集合;
对所述标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合,包括:根据所述预设时间构建所述标准业务数据集合中数据的业务变化曲线,对同一标准业务数据的所述业务变化曲线及相邻时间内的所述业务变化曲线进行标准化处理,得到两条标准业务曲线,对所述两条标准业务曲线进行差分处理得到差分曲线,并计算所述差分曲线的方差,汇总所有所述方差大于预设的方差阈值的业务变化曲线对应的标准业务数据得到所述非周期业务数据集合,汇总所有所述方差小于等于所述方差阈值的业务变化曲线对应的标准业务数据得到所述周期业务数据集合;
利用所述周期业务数据集合训练预构建的第一检测模型,得到周期检测模型,包括:通过所述第一检测模型的输入门计算所述周期业务数据集合中各时刻数据的状态值,通过所述第一检测模型的遗忘门计算所述周期业务数据集合中各时刻数据的激活值,根据所述状态值和所述激活值计算所述周期业务数据集合中各时刻数据的状态更新值,利用所述第一检测模型的输出门计算所述状态更新值对应的预测标签,根据所述预测标签与预设的真实标签对所述第一检测模型进行反向迭代,直至迭代次数大于等于预设的迭代阈值或所述第一检测模型收敛时,得到所述周期检测模型;以及利用所述非周期业务数据集合训练预构建的第二检测模型,得到非周期检测模型;
利用实时流技术获取所述多个数据源的实时业务数据,利用所述周期检测模型及所述非周期检测模型对所述实时业务数据进行异常检测,包括:从所述多个数据源中获取所述实时业务数据流,利用预设的时间窗口对所述实时业务数据流进行切分,得到切分数据流,将所述周期检测模型及所述非周期检测模型加载成模型文件,并将所述模型文件存储在预构建的分布式系统,利用预构建的实时计算引擎从所述分布式系统中调用与所述多个数据源对应的周期检测模型或非周期检测模型,利用调用的所述周期检测模型或所述非周期检测模型对所述切分数据流中的实时业务数据进行检测,得到异常检测结果;根据异常检测的结果对所述实时业务数据进行标注,并将标注后的实时业务数据作为所述历史业务数据并返回所述对所述历史业务数据集合进行数据清洗的步骤。
2.如权利要求1所述的反向迭代的异常检测方法,其特征在于,所述利用所述非周期业务数据集合训练预构建的第二检测模型,得到非周期检测模型,包括:
利用所述第二检测模型输出所述非周期业务数据集合中各数据的预测值;
利用预设的损失函数计算所述预测值与预设的真实值的损失值,当所述损失值大于等于预设的损失阈值时,迭代调整所述第二检测模型中每个神经元的权重,利用调整后的第二检测模型重新输出所述非周期业务数据集合中各数据的预测值,直至所述预测值与预设的真实值的损失值小于预设的损失阈值时,得到所述非周期检测模型。
3.如权利要求2所述的反向迭代的异常检测方法,其特征在于,所述利用预设的损失函数计算所述预测值与预设的真实值的损失值,包括:
利用下述损失函数计算所述预测值与预设的真实值的损失值:
其中,W,b为神经元的权重,hW,b(x)为对非周期业务数据的预测值,y为非周期业务数据的真实值。
4.一种反向迭代的异常检测装置,其特征在于,所述装置包括:
数据清洗模块,用于获取多个数据源的历史业务数据集合,对所述历史业务数据集合进行数据清洗,得到标准业务数据集合,包括:从所述多个数据源中获取预设时间内的所述历史业务数据集合,利用预设的距离公式对所述历史业务数据集合中的数据进行去重处理,得到去重数据,利用预设的双边测试剔除法对所述去重数据进行去异常处理,得到去异常数据,利用预设的填充算法对所述去异常数据进行缺失值填充,得到所述标准业务数据集合;
数据分类模块,用于对所述标准业务数据集合中的数据进行曲线分类,得到周期业务数据集合及非周期业务数据集合,包括:根据所述预设时间构建所述标准业务数据集合中数据的业务变化曲线,对同一标准业务数据的所述业务变化曲线及相邻时间内的所述业务变化曲线进行标准化处理,得到两条标准业务曲线,对所述两条标准业务曲线进行差分处理得到差分曲线,并计算所述差分曲线的方差,汇总所有所述方差大于预设的方差阈值的业务变化曲线对应的标准业务数据得到所述非周期业务数据集合,汇总所有所述方差小于等于所述方差阈值的业务变化曲线对应的标准业务数据得到所述周期业务数据集合;
模型训练模块,用于利用所述周期业务数据集合训练预构建的第一检测模型,得到周期检测模型,包括:通过所述第一检测模型的输入门计算所述周期业务数据集合中各时刻数据的状态值,通过所述第一检测模型的遗忘门计算所述周期业务数据集合中各时刻数据的激活值,根据所述状态值和所述激活值计算所述周期业务数据集合中各时刻数据的状态更新值,利用所述第一检测模型的输出门计算所述状态更新值对应的预测标签,根据所述预测标签与预设的真实标签对所述第一检测模型进行反向迭代,直至迭代次数大于等于预设的迭代阈值或所述第一检测模型收敛时,得到所述周期检测模型;以及利用所述非周期业务数据集合训练预构建的第二检测模型,得到非周期检测模型;
异常检测模块,用于利用实时流技术获取所述多个数据源的实时业务数据,利用所述周期检测模型及所述非周期检测模型对所述实时业务数据进行异常检测,包括:从所述多个数据源中获取所述实时业务数据流,利用预设的时间窗口对所述实时业务数据流进行切分,得到切分数据流,将所述周期检测模型及所述非周期检测模型加载成模型文件,并将所述模型文件存储在预构建的分布式系统,利用预构建的实时计算引擎从所述分布式系统中调用与所述多个数据源对应的周期检测模型或非周期检测模型,利用调用的所述周期检测模型或所述非周期检测模型对所述切分数据流中的实时业务数据进行检测,得到异常检测结果;根据异常检测的结果对所述实时业务数据进行标注,并将标注后的实时业务数据作为所述历史业务数据并返回所述对所述历史业务数据集合进行数据清洗的步骤。
5.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至3中任意一项所述的反向迭代的异常检测方法。
6.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任意一项所述的反向迭代的异常检测方法。
CN202111003012.6A 2021-08-30 2021-08-30 反向迭代的异常检测方法、装置、电子设备及介质 Active CN113705684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111003012.6A CN113705684B (zh) 2021-08-30 2021-08-30 反向迭代的异常检测方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111003012.6A CN113705684B (zh) 2021-08-30 2021-08-30 反向迭代的异常检测方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN113705684A CN113705684A (zh) 2021-11-26
CN113705684B true CN113705684B (zh) 2023-11-24

Family

ID=78656669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111003012.6A Active CN113705684B (zh) 2021-08-30 2021-08-30 反向迭代的异常检测方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113705684B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116010485B (zh) * 2023-03-28 2024-06-14 杭州比智科技有限公司 一种动态周期时序的无监督异常检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110865929A (zh) * 2019-11-26 2020-03-06 携程旅游信息技术(上海)有限公司 异常检测预警方法及系统
CN111143102A (zh) * 2019-12-13 2020-05-12 东软集团股份有限公司 异常数据检测方法、装置、存储介质及电子设备
CN111199018A (zh) * 2019-12-27 2020-05-26 东软集团股份有限公司 异常数据检测方法、装置、存储介质及电子设备
CN112069782A (zh) * 2020-09-08 2020-12-11 中国平安财产保险股份有限公司 文档模板生成方法、装置、电子设备及存储介质
CN112148577A (zh) * 2020-10-09 2020-12-29 平安科技(深圳)有限公司 数据异常检测方法、装置、电子设备及存储介质
CN112860968A (zh) * 2021-02-02 2021-05-28 北京三快在线科技有限公司 一种异常检测的方法以及装置
CN113096242A (zh) * 2021-04-29 2021-07-09 平安科技(深圳)有限公司 虚拟主播生成方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110865929A (zh) * 2019-11-26 2020-03-06 携程旅游信息技术(上海)有限公司 异常检测预警方法及系统
CN111143102A (zh) * 2019-12-13 2020-05-12 东软集团股份有限公司 异常数据检测方法、装置、存储介质及电子设备
CN111199018A (zh) * 2019-12-27 2020-05-26 东软集团股份有限公司 异常数据检测方法、装置、存储介质及电子设备
CN112069782A (zh) * 2020-09-08 2020-12-11 中国平安财产保险股份有限公司 文档模板生成方法、装置、电子设备及存储介质
CN112148577A (zh) * 2020-10-09 2020-12-29 平安科技(深圳)有限公司 数据异常检测方法、装置、电子设备及存储介质
CN112860968A (zh) * 2021-02-02 2021-05-28 北京三快在线科技有限公司 一种异常检测的方法以及装置
CN113096242A (zh) * 2021-04-29 2021-07-09 平安科技(深圳)有限公司 虚拟主播生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113705684A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
CN112801718B (zh) 用户行为预测方法、装置、设备及介质
CN113592019B (zh) 基于多模型融合的故障检测方法、装置、设备及介质
CN111782900B (zh) 异常业务检测方法、装置、电子设备及存储介质
CN113626606B (zh) 信息分类方法、装置、电子设备及可读存储介质
CN115146865A (zh) 基于人工智能的任务优化方法及相关设备
WO2022095519A1 (zh) 通关检验方法、装置、电子设备及计算机可读存储介质
CN114997263B (zh) 基于机器学习的结训率分析方法、装置、设备及存储介质
CN114612194A (zh) 产品推荐方法、装置、电子设备及存储介质
CN115081025A (zh) 基于数字中台的敏感数据管理方法、装置及电子设备
CN114781832A (zh) 课程推荐方法、装置、电子设备及存储介质
CN112269875A (zh) 文本分类方法、装置、电子设备及存储介质
CN114840531B (zh) 基于血缘关系的数据模型重构方法、装置、设备及介质
CN113705684B (zh) 反向迭代的异常检测方法、装置、电子设备及介质
CN114187489B (zh) 车辆异常驾驶风险检测方法、装置、电子设备及存储介质
CN111985545A (zh) 基于人工智能的目标数据检测方法、装置、设备及介质
CN113658002B (zh) 基于决策树的交易结果生成方法、装置、电子设备及介质
CN117155771B (zh) 一种基于工业物联网的设备集群故障溯源方法及装置
CN112651782B (zh) 基于缩放点积注意力的行为预测方法、装置、设备及介质
CN117520351A (zh) 基于对象存储的数据入湖方法、装置、设备及介质
CN116843481A (zh) 知识图谱分析方法、装置、设备及存储介质
CN111950707A (zh) 基于行为共现网络的行为预测方法、装置、设备及介质
Bhowmik Machine Learning in Production: From Experimented ML Model to System
CN113706019B (zh) 基于多维数据的业务能力分析方法、装置、设备及介质
CN113657546A (zh) 信息分类方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant