CN113570070B - 流式数据采样与模型更新方法、装置、系统与存储介质 - Google Patents
流式数据采样与模型更新方法、装置、系统与存储介质 Download PDFInfo
- Publication number
- CN113570070B CN113570070B CN202111110570.2A CN202111110570A CN113570070B CN 113570070 B CN113570070 B CN 113570070B CN 202111110570 A CN202111110570 A CN 202111110570A CN 113570070 B CN113570070 B CN 113570070B
- Authority
- CN
- China
- Prior art keywords
- streaming data
- initial model
- model
- test result
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 223
- 238000012549 training Methods 0.000 claims abstract description 126
- 238000009826 distribution Methods 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 17
- 230000002035 prolonged effect Effects 0.000 abstract description 5
- 238000004519 manufacturing process Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种流式数据采样与模型更新方法、装置、系统和计算机可读存储介质,该方法包括:在初始模型在线运行时,获取流式数据,所述初始模型是基于训练样本集合训练得到的;将所述流式数据输入所述初始模型,并根据所述初始模型中的所述训练样本集合对所述流式数据进行重要度测试,得到重要度测试结果;若所述重要度测试结果符合预设条件,则根据所述流式数据,对初始模型进行更新。本发明根据训练样本集合对流式数据进行重要度测试,若重要性测试结果符合预设条件,则根据流式数据对初始模型进行更新,使得模型能够自适应更新,以延长模型维持高性能表现的时间。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及流式数据采样与模型更新方法、装置、系统与计算机可读存储介质。
背景技术
目前的PHM(Prognostic and Health Management,故障诊断与健康管理)模型多以离线训练与部署为主,因此无法从在线的流式数据中捕捉高价值的数据样本,不具备高效的在线更新的能力,难以做到在线的模型自适应更新,这会导致模型能够维持高性能表现的时间大为缩短,很快就无法发挥实时设备状态检测的作用;
因此,如何延长模型维持高性能表现的时间,是急需解决的问题。
发明内容
本发明的主要目的在于提出一种流式数据采样与模型更新方法、装置、系统与计算机可读存储介质,旨在解决如何延长初始模型维持高性能表现的时间的问题。
为实现上述目的,本发明提供一种流式数据采样与模型更新方法,所述流式数据采样与模型更新方法包括如下步骤:
在初始模型在线运行时,获取流式数据,所述初始模型是基于训练样本集合训练得到的;
将所述流式数据输入所述初始模型,并根据所述初始模型中的所述训练样本集合对所述流式数据进行重要度测试,得到重要度测试结果;
若所述重要度测试结果符合预设条件,则根据所述流式数据,对所述初始模型进行更新。
优选地,根据所述初始模型中的所述训练样本集合对所述流式数据进行重要度测试,得到重要度测试结果的步骤包括:
根据所述初始模型中的所述训练样本集合对所述流式数据进行第一重要度测试,得到第一测试结果;
根据所述初始模型中的所述训练样本集合对所述流式数据进行第二重要度测试,得到第二测试结果;
根据所述第一测试结果和所述第二测试结果,得到重要度测试结果。
优选地,根据所述初始模型中的所述训练样本集合对所述流式数据进行第一重要度测试,得到第一测试结果的步骤包括:
构建所述训练样本集合对应的非相似度集合,并计算所述非相似度集合的第一均值和第一方差;
计算所述流式数据与所述训练样本集合的最小非相似度,并根据所述最小非相似度、所述第一均值和所述第一方差,得到第一测试结果。
优选地,根据所述初始模型中的所述训练样本集合对所述流式数据进行第二重要度测试,得到第二测试结果的步骤包括:
计算出所述初始模型对训练样本集合的初始模型预测误差集合,并计算所述初始模型预测误差集合的第二均值和第二方差;
将所述流式数据输入所述初始模型,以计算出所述初始模型对所述流式数据的误差值,并根据所述误差值、所述第二均值和所述第二方差,得到第二测试结果。
优选地,若所述重要度测试结果符合预设条件,则根据所述流式数据,对所述初始模型进行更新的步骤之前,所述流式数据采样与模型更新方法还包括:
根据所述训练样本集合,确定所述初始模型对应的前验概率分布和似然函数,并根据所述前验概率分布和所述似然函数,得到所述初始模型对应的后验分布。
优选地,若所述重要度测试结果符合预设条件,则根据所述流式数据,对所述初始模型进行更新的步骤包括:
若所述重要度测试结果符合预设条件,则将经过所述重要度测试的流式数据代入所述后验分布;
对代入流式数据的后验分布进行递归操作,以对所述初始模型进行更新。
优选地,若所述重要度测试结果符合预设条件,则根据所述流式数据,对所述初始模型进行更新的步骤之后,所述流式数据采样与模型更新方法还包括:
将所述初始模型替换为更新后的模型,并使得所述更新后的模型在线运行。
此外,为实现上述目的,本发明还提供一种流式数据采样与模型更新装置,所述流式数据采样与模型更新装置包括:
获取模块,用于在初始模型在线运行时,获取流式数据,所述初始模型是基于训练样本集合训练得到的;
测试模块,用于将所述流式数据输入所述初始模型,并根据所述初始模型中的所述训练样本集合对所述流式数据进行重要度测试,得到重要度测试结果;
更新模块,用于若所述重要度测试结果符合预设条件,则根据所述流式数据,对所述初始模型进行更新。
进一步地,所述测试模块还用于:
根据所述初始模型中的所述训练样本集合对所述流式数据进行第一重要度测试,得到第一测试结果;
根据所述初始模型中的所述训练样本集合对所述流式数据进行第二重要度测试,得到第二测试结果;
根据所述第一测试结果和所述第二测试结果,得到重要度测试结果。
进一步地,所述测试模块还用于:
构建所述训练样本集合对应的非相似度集合,并计算所述非相似度集合的第一均值和第一方差;
计算所述流式数据与所述训练样本集合的最小非相似度,并根据所述最小非相似度、所述第一均值和所述第一方差,得到第一测试结果。
进一步地,所述测试模块还用于:
计算出所述初始模型对训练样本集合的初始模型预测误差集合,并计算所述初始模型预测误差集合的第二均值和第二方差;
将所述流式数据输入所述初始模型,以计算出所述初始模型对所述流式数据的误差值,并根据所述误差值、所述第二均值和所述第二方差,得到第二测试结果。
进一步地,所述更新模块还用于:
根据所述训练样本集合,确定所述初始模型对应的前验概率分布和似然函数,并根据所述前验概率分布和所述似然函数,得到所述初始模型对应的后验分布。
进一步地,所述更新模块还用于:
若所述重要度测试结果符合预设条件,则将经过所述重要度测试的流式数据代入所述后验分布;
对代入流式数据的后验分布进行递归操作,以对所述初始模型进行更新。
进一步地,所述更新模块还用于:
将所述初始模型替换为更新后的模型,并使得所述更新后的模型在线运行。
此外,为实现上述目的,本发明还提供一种流式数据采样与模型更新系统,所述流式数据采样与模型更新系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的流式数据采样与模型更新程序,所述流式数据采样与模型更新程序被所述处理器执行时实现如上所述的流式数据采样与模型更新方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有流式数据采样与模型更新程序,所述流式数据采样与模型更新程序被处理器执行时实现如上所述的流式数据采样与模型更新方法的步骤。
本发明提出的流式数据高效采样与模型在线更新,在初始模型在线运行时,获取流式数据,所述初始模型是基于训练样本集合训练得到的;将所述流式数据输入所述初始模型,并根据所述初始模型中的所述训练样本集合对所述流式数据进行重要度测试,得到重要度测试结果;若所述重要度测试结果符合预设条件,则根据所述流式数据,对初始模型进行更新。本发明根据训练样本集合对流式数据进行重要度测试,若重要性测试结果符合预设条件,则根据流式数据对初始模型进行更新,使得模型能够自适应更新,以延长模型维持高性能表现的时间。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明流式数据采样与模型更新方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例设备可以是PC机或服务器设备。
如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及流式数据采样与模型更新程序。
其中,操作系统是管理和控制流式数据高效采样、模型在线更新与软件资源的程序,支持网络通信模块、用户接口模块、流式数据采样与模型更新程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。
在图1所示的智能制造设备中,所述智能制造设备通过处理器1001调用存储器1005中存储的流式数据采样与模型更新程序,并执行下述流式数据采样与模型更新方法各个实施例中的操作。
基于上述硬件结构,提出本发明流式数据采样与模型更新方法实施例。
参照图2,图2为本发明流式数据采样与模型更新方法第一实施例的流程示意图,所述方法包括:
步骤S10,在初始模型在线运行时,获取流式数据,所述初始模型是基于训练样本集合训练得到的;
步骤S20,将所述流式数据输入所述初始模型,并根据所述初始模型中的所述训练样本集合对所述流式数据进行重要度测试,得到重要度测试结果;
步骤S30,若所述重要度测试结果符合预设条件,则根据所述流式数据,对所述初始模型进行更新。
本实施例流式数据采样与模型更新方法包括对流式数据进行重要度测试和模型更新,该数据处理方法运用智能制造设备的故障诊断与预测性维护(PHM)系统中,该智能制造设备可以是终端、PC设备或生产制造设备,PHM系统全生命周期包含了PHM目标定义、离线初始模型训练、初始模型部署运维、与在线推理与模型更新4个主要模块;为描述方便,以生产制造设备为例进行描述;生产制造设备中的PHM目标定义已完成,根据目标需求收集训练样本集合并进行了数据驱动的初始模型训练,得到初始模型,初始模型评估达到要求,经过初始模型部署运维阶段,该初始模型得以部署并实现在线运行,并且生产制造设备处于动态生产制造的过程中,在此基础上,在初始模型在线运行时,流式数据采样与模型更新系统从生产制造设备及环境中获取流式数据,该初始模型是基于训练样本集合训练得到的,将流式数据输入所述初始模型,并根据初始模型中的训练样本集合对流式数据进行重要度测试,重要度测试包括第一重要度测试和第二重要度测试,通过对流式数据进行第一重要度测试得到第一测试结果,通过对流式数据进行第二重要度测试得到第二测试结果,并根据第一测试结果和第二测试结果得到重要度测试结果;若判断得到重要度测试结果符合预设条件,则根据通过重要度测试的流式数据,对初始模型进行更新。需要说明的是,流式数据采样与模型更新系统从生产制造设备及环境获取的流式数据可以是单个数据,也可以是流式数据集合,流式数据是生产制造设备在生产制造过程中被采集到的数据;训练样本集合是初始模型训练阶段的数据集合;预设条件是由相关研发人员在流式数据采样与模型更新系统装置中提前设定的,只有在重要度测试结果符合预设条件时,才对初始模型进行更新;初始模型可为数据驱动模型。
本实施例的流式数据采样与模型更新方法,在初始模型在线运行时,获取流式数据,初始模型是基于训练样本集合训练得到的;将流式数据输入初始模型,并根据初始模型中的训练样本集合对流式数据进行重要度测试,得到重要度测试结果;若重要度测试结果符合预设条件,则根据流式数据,对初始模型进行更新。本发明根据训练样本集合对流式数据进行重要度测试,若重要性测试结果符合预设条件,则根据流式数据对初始模型进行更新,使得模型能够自适应更新,以延长模型维持高性能表现的时间。
以下将对各个步骤进行详细说明:
步骤S10,在初始模型在线运行时,获取流式数据,所述初始模型是基于训练样本集合训练得到的;
在本实施例中,流式数据采样与模型更新系统根据目标需求收集训练样本集合,并进行了数据驱动的初始模型训练,得到初始模型,并且初始模型评估达到要求,初始模型经过初始模型部署运维阶段,并实现在线运行,流式数据采样与模型更新系统在初始模型在线运行时,实时获取生产制造设备以及环境中的流式数据。
步骤S20,将所述流式数据输入所述初始模型,并根据所述初始模型中的所述训练样本集合对所述流式数据进行重要度测试,得到重要度测试结果;
在本实施例中,流式数据采样与模型更新系统获取流式数据后,将流式数据输入初始模型,并根据初始模型中的训练样本集合分别对流式数据进行第一重要度测试和第二重要度测试,以完成对流式数据的重要度测试,并根据第一重要度测试得到的第一测试结果和第二重要度测试得到的第二测试结果,确定重要度测试结果。
具体地,步骤S20还包括:
步骤a,根据所述初始模型中的所述训练样本集合对所述流式数据进行第一重要度测试,得到第一测试结果;
在该步骤中,流式数据采样与模型更新系统获取到流式数据后,根据初始模型中的训练样本集合构建出训练样本集合对应的非相似度集合,并根据非相似度集合对流式数据进行第一重要度测试,得到第一测试结果,在一实施例中,流式数据采样与模型更新系统获取的流式数据为单个数据时,先构建出训练样本集合对应的非相似度集合,再计算出非相似度集合对应的第一均值和第一方差,计算出流式数据与训练原本集合的非相似度,根据流式数据与训练样本集合的非相似度以及非相似度集合对应的第一均值和第一方差得到第一测试结果;在另一实施例中,流式数据采样与模型更新系统获取的流式数据为多个数据,即流式数据集合时,在计算出流式数据与训练原本集合的非相似度时,需要计算流式数据集合中每个数据与训练样本集合的非相似度,并分别根据每个非相似度与非相似度集合对应的第一均值和第一方差得到第一测试结果集合。需要说明的是,第一重要度测试为数据重建重要度测试,通过分析流式数据对于训练样本集合的非相似度,以判断是否将流式数据用于初始模型的更新。
进一步地,步骤a包括:
构建所述训练样本集合对应的非相似度集合,并计算所述非相似度集合的第一均值和第一方差;
在该步骤中,流式数据采样与模型更新系统随机根据训练样本集合中的训练样本数据,计算出每个训练样本数据与其它训练样本数据的非相似度,以构建训练样本集合对应的非相似度集合,并计算出非相似度集合对应的第一均值和第一方差;如:对于训练样本集合内的任意样本xi,xj(i≠j),定义非相似度为:
其中,di,j指任意样本xi,xj(i≠j)的非相似度,p为正整数,典型的,p取1或者2,计算出训练样本集合中每个训练样本数据与其它训练样本数据的非相似度后,构建非相似度集合D={di,j,1≤i<j},再计算出非相似度集合对应的第一均值mean(D)和第一方差var(D)。
计算所述流式数据与所述训练样本集合的最小非相似度,并根据所述最小非相似度、所述第一均值和所述第一方差,得到第一测试结果。
在该步骤中,流式数据采样与模型更新系统计算流式数据与训练样本集合中的每个训练样本数据的非相似度,并确定的最小非相似度,并根据最小非相似度、第一均值和第一方差,得到第一测试结果;在一实施例中,流式数据采样与模型更新系统获取的流式数据为单个数据xt时,计算流式数据xt与训练样本集合中每个训练样本数据的非相似度:
其中,dt,i指xt与训练样本集合中任意样本xi的非相似度,p为正整数,典型的,p取1或者2,流式数据采样与模型更新系统计算出流式数据与训练样本集合中每个训练样本数据的非相似度后,确定其中的最小非相似度min(dt,i),并结合第一均值mean(D)和第一方差var(D),得到第一测试结果:
在另一实施例中,流式数据采样与模型更新系统获取的流式数据为多个数据,即流式数据集合时,在计算出流式数据与训练原本集合的非相似度时,需要计算流式数据集合中每个流式数据与训练样本集合的非相似度,并分别根据每个流式数据对应的最小非相似度与非相似度集合对应的第一均值和三倍第一方差得到第一测试结果集合。
步骤b,根据所述初始模型中的所述训练样本集合对所述流式数据进行第二重要度测试,得到第二测试结果;
在该步骤中,流式数据采样与模型更新系统根据初始模型对训练样本集合的预测值以及贝叶斯概率模型对训练样本集合的测量值,确定初始模型对训练样本集合的预测误差集合,计算出初始模型预测误差集合对应的第二均值和第二方差;流式数据采样与模型更新系统根据初始模型对流式数据的预测值以及贝叶斯概率模型对流式数据的测量值,确定初始模型对流式数据的误差值,并根据第二均值、第二方差和初始模型对流式数据的误差值进行第二重要度测试,得到第二测试结果;在一实施例中,流式数据采样与模型更新系统获取的流式数据为单个数据时,先根据初始模型对训练样本集合的预测值以及贝叶斯概率模型对训练样本集合的测量值,确定初始模型预测误差集合,再计算出初始模型预测误差集合对应的第二均值和第二方差,根据初始模型对流式数据的预测值以及贝叶斯概率模型对流式数据测量值,确定初始模型对流式数据的误差值,根据初始模型对流式数据的误差值以及预测误差集合对应的第二均值和第二方差得到第二测试结果;在另一实施例中,流式数据采样与模型更新系统获取的流式数据为多个数据,即流式数据集合时,在计算出初始模型对流式数据的误差值时,需要计算初始模型对流式数据集合中每个数据的误差值,并分别根据初始模型对流式数据集合中每个数据的误差值与预测误差集合对应的第二均值和第二方差得到第二测试结果集合。需要说明的是,第二重要度测试为初始模型重建重要度测试,通过分析初始模型对流式数据的误差值,以判断是否将流式数据用于初始模型的更新。
进一步地,步骤b包括:
计算出所述初始模型对训练样本集合的初始模型预测误差集合,并计算所述初始模型预测误差集合的第二均值和第二方差;
在该步骤中,流式数据采样与模型更新系统计算出初始模型对训练样本集合的初始模型预测误差集合,并计算初始模型预测误差集合的第二均值和第二方差;在一实施例中,流式数据采样与模型更新系统将训练样本集合内的任意样本xi输入初始模型,都能计算出初始模型对任意样本xi的预测值,流式数据采样与模型更新系统通过贝叶斯概率模型对训练样本集合内的任意样本xi进行测量,都能得到测量值yi,因此,初始模型对训练样本集合内的任意样本xi都有预测误差为,将初始模型对训练样本集合中的每个样本数据的预测误差都计算完毕后,构建初始模型预测误差集合,再计算出初始模型预测误差集合E对应的第二均值和第二方差。
将所述流式数据输入所述初始模型,以计算出所述初始模型对所述流式数据的误差值,并根据所述误差值、所述第二均值和所述第二方差,得到第二测试结果。
在该步骤中,流式数据采样与模型更新系统将流式数据输入初始模型,计算出初始模型对流式数据的预测值,流式数据采样与模型更新系统通过贝叶斯概率模型对流式数据测量,得到测量值,并根据预测值和测量值计算出初始模型对流式数据的误差值,再根据初始模型对流式数据的误差值、初始模型预测误差集合的第二均值和第二方差,得到第二测试结果;在一实施例中,流式数据采样与模型更新系统获取的流式数据为单个数据时,对于当前时刻t的流式数据xt,流式数据采样与模型更新系统将流式数据xt输入初始模型,得到预测值,并通过贝叶斯概率模型对流式数据xt进行测量,得到测量值yt初始模型对流式数据xt误差值为,流式数据采样与模型更新系统根据初始模型对流式数据xt误差值、第二均值mean(E)和三倍第二方差3var(E),得到第二测试结果:
在另一实施例中,流式数据采样与模型更新系统获取的流式数据为多个数据,即流式数据集合时,在计算出初始模型对流式数据的误差值时,需要计算初始模型对流式数据集合中每个数据的误差值,并分别根据初始模型对流式数据集合中每个数据的误差值与预测误差集合对应的第二均值和三倍第二方差得到第二测试结果集合。
步骤c,根据所述第一测试结果和所述第二测试结果,得到重要度测试结果。
在该步骤中,流式数据采样与模型更新系统根据第一测试结果和第二测试结果,得到重要度测试结果;在一实施例中,流式数据采样与模型更新系统获取的流式数据为单个数据,并得到第一测试结果为,得到第二测试结果为,对于重要度测试结果有如下规则:
其中,当流式数据采样与模型更新系统得到第一测试结果为1和第二测试结果为1,以及第一测试结果为1或第二测试结果为1的情况下,则重要度测试结果为1,此时流式数据采样与模型更新系统获取的流式数据通过重要度测试,可用于后续更新初始模型的步骤,当流式数据采样与模型更新系统得到第一测试结果和第二测试结果为其他情况,则重要度测试结果为0,此时流式数据采样与模型更新系统获取的流式数据不通过重要度测试,不可用于后续更新初始模型的步骤。
步骤S30,若所述重要度测试结果符合预设条件,则根据所述流式数据,对所述初始模型进行更新。
在本实施例中,流式数据采样与模型更新系统得到重要度测试结果,并将重要度结果与预设条件进行对比,若重要度测试结果不符合预设条件,则对应的流式数据不通过重要度测试,初始模型不需要进行更新,若重要度测试结果符合预设条件,则根据流式数据对初始模型进行更新;如:当流式数据采样与模型更新系统得到第一测试结果为1和第二测试结果为1,以及第一测试结果为1或第二测试结果为1的情况下,则重要度测试结果为1,符合预设条件,此时流式数据采样与模型更新系统获取的流式数据通过重要度测试,根据流式数据对初始模型进行更新,当流式数据采样与模型更新系统得到第一测试结果为0和第二测试结果为0,则重要度测试结果为0,不符合预设条件,此时流式数据采样与模型更新系统获取的流式数据不通过重要度测试,初始模型不需要进行更新。
具体地,在步骤S30之前包括:
步骤d,根据所述训练样本集合,确定所述初始模型对应的前验概率分布和似然函数,并根据所述前验概率分布和所述似然函数,得到所述初始模型对应的后验分布。
在该步骤中,流式数据采样与模型更新系统根据训练样本集合,确定初始模型对应的前验概率分布和似然函数,并根据前验概率分布和似然函数,得到初始模型对应的后验分布,在一实施例中,流式数据采样与模型更新系统根据训练样本集合,确定初始模型初始模型有贝叶斯回归形式:,其中,yt为训练样本集合中的每个样本数据通过贝叶斯概率模型后得出的值,为初始模型对应的计算函数,其中θ为初始模型中的计算参数,xt为训练样本集合中的任意一个样本数据,为期望为0,方差为的正态分布,基于训练样本集合以及初始模型对应的贝叶斯回归形式,确定为参数前验概率分布,为似然函数,因此初始模型的后验分布可分解为:
具体地,在步骤S30包括:
步骤e,若所述重要度测试结果符合预设条件,则将经过所述重要度测试的流式数据代入所述后验分布;
在该步骤中,流式数据采样与模型更新系统得到重要度测试结果,并将重要度结果与预设条件进行对比,若重要度测试结果符合预设条件,则将经过重要度测试的流式数据代入后验分布中。
步骤f,对代入流式数据的后验分布进行递归操作,以对所述初始模型进行更新。
在该步骤中,流式数据采样与模型更新系统对代入经过重要度测试的流式数据的后验分布进行递归操作,以对初始模型进行更新,在一实施例中,通过重要度测试的流式数据为单个数据xt,流式数据采样与模型更新系统将流式数据xt代入后验分布后,对后验分布进行递归操作:
其中,,通过对比,经过递归操作后的后验分布可分解出流式数据xt对应的概率分布为,该概率分布与后验分布未代入流式数据xt时的分布具有关联性,因此通过将流式数据xt代入后验分布,可对初始模型进行更新,得到更新后的模型,使得初始模型能够自适应更新,以延长初始模型维持高性能表现的时间。
本实施例的流式数据采样与模型更新系统在初始模型在线运行时,获取流式数据,该初始模型是基于训练样本集合训练得到的,将流式数据输入所述初始模型,并根据初始模型中的训练样本集合对流式数据进行重要度测试,重要度测试包括第一重要度测试和第二重要度测试,通过对流式数据进行第一重要度测试得到第一测试结果,通过对流式数据进行第二重要度测试得到第二测试结果,并根据第一测试结果和第二测试结果得到重要度测试结果;流式数据采样与模型更新系统若判断得到重要度测试结果符合预设条件,则根据通过重要度测试的流式数据,对初始模型进行更新,使得模型能够自适应更新,以延长模型维持高性能表现的时间。
进一步地,基于本发明流式数据采样与模型更新方法第一实施例,提出本发明流式数据采样与模型更新方法第二实施例。
流式数据采样与模型更新方法的第二实施例与流式数据采样与模型更新方法的第一实施例的区别在于,在步骤S20之后,流式数据采样与模型更新方法还包括:
步骤g,将所述初始模型替换为更新后的模型,并使得所述更新后的模型在线运行。
在本实施例中,流式数据采样与模型更新系统在对初始模型完成更新后,将更新前的初始模型替换为更新后的模型,并利用更新后的模型进行对智能制造设备的故障诊断与预测性维护,同时使得更新后的模型在线运行,获取流式数据,并将通过重要度测试结果符合预设条件的流式数据继续对模型进行更新,以达到延长模型维持高性能表现的时间的目的。
本发明还提供一种流式数据采样与模型更新装置。本发明流式数据采样与模型更新装置包括:
获取模块,用于在初始模型在线运行时,获取流式数据,所述初始模型是基于训练样本集合训练得到的;
测试模块,用于将所述流式数据输入所述初始模型,并根据所述初始模型中的所述训练样本集合对所述流式数据进行重要度测试,得到重要度测试结果;
更新模块,用于若所述重要度测试结果符合预设条件,则根据所述流式数据,对所述初始模型进行更新。
进一步地,所述测试模块还用于:
根据所述初始模型中的所述训练样本集合对所述流式数据进行第一重要度测试,得到第一测试结果;
根据所述初始模型中的所述训练样本集合对所述流式数据进行第二重要度测试,得到第二测试结果;
根据所述第一测试结果和所述第二测试结果,得到重要度测试结果。
进一步地,所述测试模块还用于:
构建所述训练样本集合对应的非相似度集合,并计算所述非相似度集合的第一均值和第一方差;
计算所述流式数据与所述训练样本集合的最小非相似度,并根据所述最小非相似度、所述第一均值和所述第一方差,得到第一测试结果。
进一步地,所述测试模块还用于:
计算出所述初始模型对训练样本集合的初始模型预测误差集合,并计算所述初始模型预测误差集合的第二均值和第二方差;
将所述流式数据输入所述初始模型,以计算出所述初始模型对所述流式数据的误差值,并根据所述误差值、所述第二均值和所述第二方差,得到第二测试结果。
进一步地,所述更新模块还用于:
根据所述训练样本集合,确定所述初始模型对应的前验概率分布和似然函数,并根据所述前验概率分布和所述似然函数,得到所述初始模型对应的后验分布。
进一步地,所述更新模块还用于:
若所述重要度测试结果符合预设条件,则将经过所述重要度测试的流式数据代入所述后验分布;
对代入流式数据的后验分布进行递归操作,以对所述初始模型进行更新。
进一步地,所述更新模块还用于:
将所述初始模型替换为更新后的模型,并使得所述更新后的模型在线运行。
本发明还提供一种流式数据采样与模型更新系统。
流式数据采样与模型更新系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的流式数据采样与模型更新程序,所述流式数据采样与模型更新程序被所述处理器执行时实现如上所述的数据流式数据高效采样与模型在线更新的步骤。
其中,在所述处理器上运行的流式数据采样与模型更新程序被执行时所实现的方法可参照本发明数据流式数据采样与模型更新方法各个实施例,此处不再赘述。
本发明还提供一种计算机可读存储介质。
计算机可读存储介质上存储有流式数据采样与模型更新程序,所述流式数据采样与模型更新程序被处理器执行时实现如上所述的流式数据高效采样与模型在线更新的步骤。
其中,在所述处理器上运行的流式数据采样与模型更新程序被执行时所实现的方法可参照本发明流式数据采样与模型更新方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素,此外,本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
应当理解,尽管在本文可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本文范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语"如果"可以被解释成为"在……时"或"当……时"或"响应于确定"。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。本申请使用的术语“或”、“和/或”、“包括以下至少一个”等可被解释为包括性的,或意味着任一个或任何组合。例如,“包括以下至少一个:A、B、C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A和B和C”,再如,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A和B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
应该理解的是,虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种流式数据采样与模型更新方法,其特征在于,所述流式数据采样与模型更新方法包括如下步骤:
在初始模型在线运行时,获取流式数据,所述初始模型是基于训练样本集合训练得到的;
将所述流式数据输入所述初始模型,并根据所述初始模型中的所述训练样本集合对所述流式数据进行重要度测试,得到重要度测试结果;
若所述重要度测试结果符合预设条件,则根据所述流式数据,对所述初始模型进行更新;
其中,根据所述初始模型中的所述训练样本集合对所述流式数据进行重要度测试,得到重要度测试结果的步骤包括:
根据所述初始模型中的所述训练样本集合对所述流式数据进行第一重要度测试,得到第一测试结果;
根据所述初始模型中的所述训练样本集合对所述流式数据进行第二重要度测试,得到第二测试结果;
根据所述第一测试结果和所述第二测试结果,得到重要度测试结果;
根据所述初始模型中的所述训练样本集合对所述流式数据进行第一重要度测试,得到第一测试结果的步骤包括:
构建所述训练样本集合对应的非相似度集合,并计算所述非相似度集合的第一均值和第一方差;
计算所述流式数据与所述训练样本集合的最小非相似度,并根据所述最小非相似度、所述第一均值和所述第一方差,得到第一测试结果。
2.如权利要求1所述的流式数据采样与模型更新方法,其特征在于,所述根据所述初始模型中的所述训练样本集合对所述流式数据进行第二重要度测试,得到第二测试结果的步骤包括:
计算出所述初始模型对训练样本集合的初始模型预测误差集合,并计算所述初始模型预测误差集合的第二均值和第二方差;
将所述流式数据输入所述初始模型,以计算出所述初始模型对所述流式数据的误差值,并根据所述误差值、所述第二均值和所述第二方差,得到第二测试结果。
3.如权利要求1中所述的流式数据采样与模型更新方法,其特征在于,所述若所述重要度测试结果符合预设条件,则根据所述流式数据,对所述初始模型进行更新的步骤之前,所述流式数据采样与模型更新方法还包括:
根据所述训练样本集合,确定所述初始模型对应的前验概率分布和似然函数,并根据所述前验概率分布和所述似然函数,得到所述初始模型对应的后验分布。
4.如权利要求3所述的流式数据采样与模型更新方法,其特征在于,所述若所述重要度测试结果符合预设条件,则根据所述流式数据,对所述初始模型进行更新的步骤包括:
若所述重要度测试结果符合预设条件,则将经过所述重要度测试的流式数据代入所述后验分布;
对代入流式数据的后验分布进行递归操作,以对所述初始模型进行更新。
5.如权利要求1所述的流式数据采样与模型更新方法,其特征在于,所述若所述重要度测试结果符合预设条件,则根据所述流式数据,对所述初始模型进行更新的步骤之后,所述流式数据采样与模型更新方法还包括:
将所述初始模型替换为更新后的模型,并使得所述更新后的模型在线运行。
6.一种流式数据采样与模型更新装置,其特征在于,所述流式数据采样与模型更新装置包括:
获取模块,用于在初始模型在线运行时,获取流式数据,所述初始模型是基于训练样本集合训练得到的;
测试模块,用于将所述流式数据输入所述初始模型,并根据所述初始模型中的所述训练样本集合对所述流式数据进行重要度测试,得到重要度测试结果;
更新模块,用于若所述重要度测试结果符合预设条件,则根据所述流式数据,对所述初始模型进行更新;
其中,所述测试模块还用于根据所述初始模型中的所述训练样本集合对所述流式数据进行第一重要度测试,得到第一测试结果;
根据所述初始模型中的所述训练样本集合对所述流式数据进行第二重要度测试,得到第二测试结果;
根据所述第一测试结果和所述第二测试结果,得到重要度测试结果;
其中,所述测试模块还用于构建所述训练样本集合对应的非相似度集合,并计算所述非相似度集合的第一均值和第一方差;
计算所述流式数据与所述训练样本集合的最小非相似度,并根据所述最小非相似度、所述第一均值和所述第一方差,得到第一测试结果。
7.一种流式数据采样与模型更新系统,其特征在于,所述流式数据采样与模型更新方法系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的流式数据采样与模型更新程序,所述流式数据采样与模型更新程序被所述处理器执行时实现如权利要求1至5中任一项所述的流式数据采样与模型更新方法的步骤。
8.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有流式数据采样与模型更新程序,所述流式数据采样与模型更新程序被处理器执行时实现如权利要求1至5中任一项所述的流式数据采样与模型更新方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111110570.2A CN113570070B (zh) | 2021-09-23 | 2021-09-23 | 流式数据采样与模型更新方法、装置、系统与存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111110570.2A CN113570070B (zh) | 2021-09-23 | 2021-09-23 | 流式数据采样与模型更新方法、装置、系统与存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113570070A CN113570070A (zh) | 2021-10-29 |
CN113570070B true CN113570070B (zh) | 2022-01-07 |
Family
ID=78173954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111110570.2A Active CN113570070B (zh) | 2021-09-23 | 2021-09-23 | 流式数据采样与模型更新方法、装置、系统与存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113570070B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024005798A1 (en) * | 2022-06-28 | 2024-01-04 | Siemens Industry Software Inc. | A system on a chip comprising a diagnostics module |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8103463B2 (en) * | 2006-09-21 | 2012-01-24 | Impact Technologies, Llc | Systems and methods for predicting failure of electronic systems and assessing level of degradation and remaining useful life |
CN103927412B (zh) * | 2014-04-01 | 2016-10-12 | 浙江大学 | 基于高斯混合模型的即时学习脱丁烷塔软测量建模方法 |
US10496927B2 (en) * | 2014-05-23 | 2019-12-03 | DataRobot, Inc. | Systems for time-series predictive data analytics, and related methods and apparatus |
CN108732931B (zh) * | 2018-05-17 | 2021-03-26 | 北京化工大学 | 一种基于jit-rvm的多模态间歇过程建模方法 |
CN108804784A (zh) * | 2018-05-25 | 2018-11-13 | 江南大学 | 一种基于贝叶斯高斯混合模型的即时学习软测量建模方法 |
CN109993125B (zh) * | 2019-04-03 | 2022-12-23 | 腾讯科技(深圳)有限公司 | 模型训练方法、人脸识别方法、装置、设备及存储介质 |
CN110083065B (zh) * | 2019-05-21 | 2020-07-10 | 浙江大学 | 一种基于流式变分贝叶斯有监督因子分析的自适应软测量方法 |
CN110222855B (zh) * | 2019-06-12 | 2021-10-12 | 中国神华能源股份有限公司 | 列车车轮退化数据的处理方法、装置及存储介质 |
US20210019654A1 (en) * | 2019-07-19 | 2021-01-21 | Google Llc | Sampled Softmax with Random Fourier Features |
US20210035021A1 (en) * | 2019-07-29 | 2021-02-04 | Elan SASSON | Systems and methods for monitoring of a machine learning model |
KR102429233B1 (ko) * | 2019-11-28 | 2022-08-05 | 연세대학교 산학협력단 | 클라우드 플랫폼 서비스 기반 데이터 증강을 통한 건전성 예측 관리 모델 설계 방법 및 시스템 |
US11900223B2 (en) * | 2019-12-20 | 2024-02-13 | Westinghouse Electric Company Llc | Device and method for monitoring a system |
CN111160464B (zh) * | 2019-12-30 | 2023-12-01 | 中国计量大学 | 基于多隐层加权动态模型的工业高阶动态过程软测量方法 |
CN111506598B (zh) * | 2020-04-13 | 2021-10-15 | 中国科学院自动化研究所 | 基于小样本自学习故障迁移的故障判别方法、系统、装置 |
CN111768000A (zh) * | 2020-06-23 | 2020-10-13 | 中南大学 | 在线自适应微调深度学习的工业过程数据建模方法 |
CN111950772A (zh) * | 2020-07-22 | 2020-11-17 | 电子科技大学 | 一种基于多信息感知的时间序列在线预测方法 |
CN112101767B (zh) * | 2020-09-09 | 2023-12-26 | 中国石油大学(北京) | 一种设备运行状态边云融合诊断方法及系统 |
CN112327219B (zh) * | 2020-10-29 | 2024-03-12 | 国网福建省电力有限公司南平供电公司 | 特征自动挖掘和参数自动寻优的配电变压器故障诊断方法 |
CN113420849B (zh) * | 2021-08-25 | 2021-11-30 | 深圳市信润富联数字科技有限公司 | 基于主动学习的模型在线增量训练方法、设备及介质 |
-
2021
- 2021-09-23 CN CN202111110570.2A patent/CN113570070B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113570070A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6643211B2 (ja) | 異常検知システム及び異常検知方法 | |
JP7007243B2 (ja) | 異常検知システム | |
CN109523752B (zh) | 一种设备故障预警方法、装置、电子设备和介质 | |
CN108509975B (zh) | 一种异常在线聚类方法及装置,电子设备 | |
CN110287316A (zh) | 一种告警分类方法、装置、电子设备及存储介质 | |
CN110570544A (zh) | 飞机燃油系统故障识别方法、装置、设备和存储介质 | |
US20240142922A1 (en) | Analysis method, analysis program and information processing device | |
CN115454778A (zh) | 大规模云网络环境下的时序指标异常智能监控系统 | |
CN112686521B (zh) | 一种风控规则调优方法和系统 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN115204536A (zh) | 楼宇设备故障预测方法、装置、设备及存储介质 | |
CN116821141A (zh) | 数据更新方法、故障诊断方法、电子设备和存储介质 | |
CN113570070B (zh) | 流式数据采样与模型更新方法、装置、系统与存储介质 | |
CN110766236A (zh) | 基于统计分析和深度学习的电力设备状态趋势预测方法 | |
CN114139589A (zh) | 故障诊断方法、装置、设备与计算机可读存储介质 | |
CN114202256B (zh) | 架构升级预警方法、装置、智能终端及可读存储介质 | |
CN117540826A (zh) | 机器学习模型的优化方法、装置、电子设备及存储介质 | |
CN112420125A (zh) | 分子属性预测方法、装置、智能设备和终端 | |
JP2011008756A (ja) | シミュレーション評価システム | |
JP2003044123A (ja) | プラント診断装置 | |
CN117290719B (zh) | 基于数据分析的巡检管理方法、装置及存储介质 | |
CN113110961B (zh) | 设备异常检测方法、装置、计算机设备及可读存储介质 | |
CN111949530B (zh) | 测试结果的预测方法、装置、计算机设备及存储介质 | |
CN109343952B (zh) | 贝叶斯网络确定方法、装置、存储介质和电子设备 | |
WO2023093431A1 (zh) | 一种模型训练方法、装置、设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |