CN110826718A - 一种基于朴素贝叶斯的大段不等长缺失数据填补方法 - Google Patents

一种基于朴素贝叶斯的大段不等长缺失数据填补方法 Download PDF

Info

Publication number
CN110826718A
CN110826718A CN201910892758.3A CN201910892758A CN110826718A CN 110826718 A CN110826718 A CN 110826718A CN 201910892758 A CN201910892758 A CN 201910892758A CN 110826718 A CN110826718 A CN 110826718A
Authority
CN
China
Prior art keywords
data
sequence
segment
missing
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910892758.3A
Other languages
English (en)
Other versions
CN110826718B (zh
Inventor
许志城
徐康康
杨海东
印四华
朱成就
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910892758.3A priority Critical patent/CN110826718B/zh
Publication of CN110826718A publication Critical patent/CN110826718A/zh
Application granted granted Critical
Publication of CN110826718B publication Critical patent/CN110826718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Abstract

本发明公开了一种基于朴素贝叶斯的大段不等长缺失数据填补方法,用朴素贝叶斯的思想结合时间序列分析技术对大量已有数据建立概率模型作为数据修补模型,保证模型可以较好地拟合数据的变化规律。使用数据修补模型循环预测出空缺段可能的序列组合,在约束条件的作用筛选出符合空缺段的序列,最终完成缺失数据的数据修补。

Description

一种基于朴素贝叶斯的大段不等长缺失数据填补方法
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种对工业能源管理系统数据采集过程中出现的大段不等长的缺失数据的数据填补方法。
背景技术
工业大数据是智能制造与工业互联网的核心,其本质是通过促进数据的自动流动去解决和控制业务问题,减少决策过程中所带来的不确定性,并尽量克服人工决策的缺点。依托于采集到的数据,可以在工业过程和控制中开发人工智能的应用。
工业设备由于生产流程复杂、传感器数量众多且取样频率快,在短时间内容易累积大量的数据,其主要呈现出机理模型复杂、时间序列排布,呈现出随时间变化而变化的关联性和规律性、数据依赖性强、数据维度高且存在大量无标签数据等特点。
在生产过程中,成千上万的传感器担负着各种各样过程变量的测量任务,是优化程序得以实施的唯一信息来源。在长时间运行过程中,传感器会出现不同程度的精度下降、偏离、漂移,有时甚至会完全失效出现故障并需要拆下来进行检修,这就带来了缺失数据和异常数据的问题。另外,在数据录入过程中认为不重要而未输入以及数据写入数据库的过程也会带来数据缺失问题。在数据缺失中采用均值填补或其他单一简单的填补方式,将会影响采集数据的可靠性。特别是在多设备、多级表计的数据统计环境下,某些数据的不确定性容易让数据分析人员造成误解。
以佛山某铝型材厂的能源管理系统为例,该厂在生产环境中布置了超过150个表计,由于网络波动、电磁干扰等因素,部分设备生产数据的采集经常会出现中断的情况,严重的情况下,中断的时间段长达几个小时,严重影响了采集数据的完整性。对生产数据进行符合生产规律的修补,可以保证采集数据的完整性,对于数据分析人员有极大的价值。
目前大多数研究都是针对单点或者固定长度的数据缺失进行填补,当待修补的序列长度发生变化时,往往要重新训练数据修补模型;并且数据规律发生变化时,模型的更新迭代需要人工的深度参与,过程计算复杂度高,无法快速适应不同长度的数据缺失段的修补和逐渐变化的生产规律。
发明内容
本发明的目的是提供一种基于朴素贝叶斯的大段不等长缺失数据填补方法,依据采集到的历史数据建立数据修补模型,可用于工业能源管理系统中高效率处理大段长度不等的缺失数据填补任务。
为了实现上述任务,本发明采用以下技术方案:
一种基于朴素贝叶斯的大段不等长缺失数据填补方法,包括以下步骤:
采集生产数据,并进行生产数据的预处理,包括对生产数据进行固定频率的降采样,以取得固定时间间隔的生产数据序列;对生产数据序列中的生产数据做偏移量计算,得到偏移序列,并去除偏移序列中的异常值,得到新的偏移序列;
自定义尺度,利用所述新的偏移序列中的最大值和最小值,确定标尺刻度,并建立标尺数组;利用标尺数组标量化所述新的偏移序列,得到标量化后的序列;利用滑动窗口从所述标量化后的序列中取得固定子序列长度的短序列集合;
从所述短序列集合中抽取靠近待修补数据一定时间范围内的短序列子集,对短序列子集中所有的短序列进行切割,指定切割长度并将每个短序列切割成两段,一段作为匹配段,另一段作为预测段;
利用朴素贝叶斯法建立数据修补模型,利用数据修补模型进行待修补数据的修补。
进一步地,所述的去除偏移序列中的异常值,得到新的偏移序列,包括:
求得偏移序列U的平均数μ及其标准差σ;利用平均数μ及其标准差σ对偏移序列U中的数据进行筛选,得到新的偏移序列U0;表示如下:
U0={ui,|ui≤μ+5*σ,ui∈U,i=1,2,…}。
进一步地,所述的自定义尺度,利用所述新的偏移序列中的最大值和最小值,确定标尺刻度,并建立标尺数组,包括:
自定义尺度N,取得偏移量序列U0中的最大值umax和最小值umin,对(umin,umax)进行等距划分,得到标尺刻度(umax-umin)/N;令M=(umax-umin)/N,则标尺数组R表示为:
R={r1,…,ri,…,rN}={0,umin+M*1,…,umin+M*j,…,umin+M*(N-1),Umax},j=1,2,…N。
进一步地,所述的利用标尺数组标量化所述新的偏移序列,得到标量化后的序列,包括:
将所述新的偏移序列U0中位于标尺数组中每相邻的两个数据间的偏移量均转换为固定值。
进一步地,所述的数据修补模型,表示为:
Figure BDA0002209284230000031
其中:
stk表示预测段,shi表示匹配段;
P(Y=stk|X=shi)表示当匹配段为shi时,预测段为stk的概率;
|S(X=shi,Y=stk)|表示短序列子集中匹配段和预测段为(shi,stk)的数量;
|S(X=shi)|表示短序列子集中匹配段为shi的数量。
进一步地,所述的利用数据修补模型进行待修补数据的修补,包括:
获取缺失段段前序列、缺失段缺失时间长度、缺失段两端数值,使用标尺将空缺段段前序列转换成标量序列;将缺失段缺失时间长度除以降采样时间间隔得到修补序列的长度;计算缺失段两端数值之差,并除以标尺刻度,得到目标修补序列标量化后的值;
使用数据修补模型进行连续预测,生成序列;同时使用约束条件筛选出匹配序列,得到修补结果。
进一步地,所述的使用数据修补模型进行连续预测时,采用多级预测策略生成修补序列:
①若在短序列子集中存在指定的匹配段,则以指定匹配段的数量为数据修补模型的分母,不同预测段的数量为分子,构建数据修补模型并进行计算;
②若在短序列子集中不存在指定的匹配段,则以与指定匹配段相似度较高的匹配段集合的总数为分母,匹配段集合不同预测段的数量为分子构建数据修补模型并进行计算;
③若在短序列子集中不存在相似度较高的匹配段,则以所有预测段的总数为分母,不同预测段的数量为分子构建数据修补模型并进行计算,并统计完全重新匹配的次数,直到修补序列长度为L。
进一步地,所述的同时使用约束条件筛选出匹配序列,得到修补结果,包括:
定义重新匹配率,在限定次数内将小于指定重新匹配率的序列加入候选序列集合,找出集合中与修补序列标量化后的值最接近的序列并使用标尺进行转换,得到此次数据修补的结果。
本发明具有以下技术特点:
1.针对工业生产规律会逐渐变化的情况,本发明采用建立数据仓库,分时间段对数据进行建模的方法,可以按实际情况对不同时间段进行取舍,加一个权值做融合计算,适应逐渐变化的生产环境。
2.针对数据缺失段在生产环境中出现长短不一的情况,本发明使用连续预测再用约束条件筛选的方式可以在一次数据修补过程中同时修补长短不一的数据缺失段。
3.针对工业大数据采集设备多,修补效率要求高的情况,本发明提出基于朴素贝叶斯方法建立概率模型的方式在保证模型可以较好地拟合数据的变化规律的同时,与神经网络在环境发生变化后需要重新训练再人工调参的过程相比,可以更高效率地完成数据填补任务。
附图说明
图1为本发明方法的流程示意图;
图2为数据修补流程图;
图3、图4、图5和图6分别为实施例中1h、2h、3h和4h数据缺失修补结果示意图。
具体实施方式
本发明提出一种基于朴素贝叶斯的大段不等长缺失数据填补方法,用朴素贝叶斯的思想结合时间序列分析技术对大量已有数据建立概率模型,保证模型可以较好地拟合数据的变化规律。使用概率模型循环预测出空缺段可能的序列组合,在约束条件的作用筛选出符合空缺段的序列,最终完成缺失数据的数据修补;具体步骤如下:
步骤1,数据采集
对工业设备的生产数据进行固定周期的数据采集。
工厂车间设备在运行的过程中会产生大量的数据,通过网络传输连接工业设备上的组态软件、借助工业以太网关直接连接数控机床的PLC控制器等方式可以采集到工业设备的生产数据。生产数据以固定周期进行采集,并存储到数据库中;所述的生产数据可以为多种数据,本实施例中所述的生产数据主要是指不断累加的用量表数据。
步骤2,数据预处理
为构建数据仓库做铺垫,需要对数据进行初步的预处理,产生符合模型标准的数据。具体过程如下:
步骤2.1,对生产数据进行固定频率的降采样,取得固定时间间隔的生产数据序列;对生产数据序列中的生产数据做偏移量计算,得到偏移序列。
对生产数据,例如用量表数据进行降采样,得到序列R={s1,s2,s3,s4,…}。其中,si表示某一时刻的数据,任意一对数据(si,si+1)之间的时间间隔T固定。
对生产数据序列R做偏移量计算,得到偏移序列U={u1,u2,u3,u4,…}。其中,对于任意一个数据ui,有ui=si+1-si,即ui表示固定时间间隔t内生产数据的偏移量;i=1,2,3,…。
步骤2.2,去除影响修补效果的异常值。
根据切比雪夫定理,对于任意分布规律的数据,至少有96%的数据位于平均数5个标准差范围内;由此对偏移序列U进行处理:
求得偏移序列U的平均数μ及其标准差σ;利用平均数μ及其标准差σ对偏移序列U中的数据进行筛选,得到新的偏移序列U0;具体表示如下:
U0={ui|ui≤μ+5*σ,ui∈U,i=1,2,…}
上式表示从偏移序列U中找出满足不大于μ+5*σ的所有数据ui组成新的偏移序列U0。偏移序列中的每一个偏移量ui对应一个时间戳ti,该时间戳即为ui所对应的时间间隔起点的时间戳。
步骤3,利用滑动窗口构建数据仓库
为了更好地抽象出数据的变化规律,需要对数据进行标量化;同时,为了构建一个能够高效率处理大段长度不等的缺失数据的数据修补模型的数据仓库,选择用滑动窗口的方式取得短序列集合作为数据仓库。具体过程如下:
步骤3.1,取得标尺信息,标量化数据
自定义尺度N,表示将偏移量标量化成标量的最大个数,决定了预测结果的精度。取得偏移量序列U0中的最大值umax和最小值umin,对(umin,umax)进行等距划分,得到标尺刻度(umax-umin)/N;令M=(umax-umin)/N,则标尺数组R表示为:
R={r1,…,ri,…,rN}={0,umin+M*1,…,umin+M*j,…,umin+M*(N-1),Umax},j=1,2,…N。
使用标尺数组标量化序列U0,具体为:
将U0中位于标尺数组中每相邻的两个数据间的偏移量均转换为固定值;标量化后的序列记为U1。例如按照表1对U0中的偏移量做转换。
表1标尺对照表
Figure BDA0002209284230000061
步骤3.2,使用滑动窗口方法,取得固定长度的短序列集合。
滑动窗口是处理时间序列数据的常用方法,指的是按顺序依次取得连续序列。本方案需要使用滑动窗口的方式收集固定长度的短序列集合,具体如下:
记标量化后的序列为U1={u1,u2,u3…},对应的时间戳序列为{t1,t2,t3…}
其中,uk(k=1,2,3….)表示标量化后的偏移量,tk表示该偏移量对应的时间间隔起点的时间戳;对于任意uk和uk+1,满足tk<tk+1,且tk+1-tk为降采样的时间间隔。
故使用滑动窗口方法可取得子序列长度为T的短序列集合S作为数据仓库:
S={s1,s2,s3,s4,s5,…},其中,短序列si={ui,ui+1,…,ui+T-1},其中i表示序列中的滑动窗口的起点标号,i=1,2,3,4,5….,ui∈U1
步骤4,建立预处理模型
为了适应生产规律随时间的变化,从数据仓库的短序列集合S中抽取靠近待修补数据所在时间点一定范围内,例如选择待修补数据所在时间点的前、后Q个时间点的范围内的短序列子集S0作为建模基础。
同时,对短序列子集S0的所有短序列进行切割,指定切割长度(n1,n2)将每个短序列切成两段(sh,st),得到数据修补模型的预处理模型。其中,n1+n2=T,称sh段为匹配段,st段为预测段。
步骤5,建立数据修补模型
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,其基本思想为通过已有的先验知识生成模型计算预测事件的后验概率分布估计。通俗来讲,就是通过对历史数据中两个事件连续发生的概率进行估计,当前一事件发生时,用已估计的概率作为后一事件可能发生的概率。其形式化解释如下:
给定训练数据集A={(x1,y1),(x2,y2),…,(xn,yn)},记X={x1,x2,…,xn},X中的事件相互独立;yi={ci1,ci2,…,cin},表示事件xi发生后事件yi可能的值。因此,对于事件cik有概率公式:
Figure BDA0002209284230000071
其中,P(Y|X)表示X事件发生后Y事件发生的概率;P(X,Y)表示X事件和Y事件同时发生的概率。
利用切割后的短序列子集S0,结合朴素贝叶斯法,建立数据修补模型:
Figure BDA0002209284230000072
其中:
stk表示某一预测段,shi表示某一匹配段;
P(Y=stk|X=shi)表示当匹配段为shi时,预测段为stk的概率;
|S(X=shi,Y=stk)|表示短序列子集中匹配段和预测段为(shi,stk)的数量;
|S(X=shi)|表示短序列子集中匹配段为shi的数量。
基于以上概率模型,下面分步解释数据修补过程:
(1)获取空缺段关键信息
取得缺失段(待修补数据)段前序列、缺失段缺失时间长度、缺失段两端数值。使用标尺将空缺段段前序列转换成标量序列Spre;将缺失段缺失时间长度除以降采样时间间隔得到修补序列的长度L;计算缺失段两端数值之差,并除以标尺刻度,得到目标修补序列标量化后的值。
(2)使用数据修补模型进行连续预测,生成序列;同时使用约束条件筛选出匹配序列,得到修补结果。
切割好的短序列子集S0可以根据不同的预测条件构建出相应的数据修补模型,在约束条件下得到符合缺失段变化规律的目标序列。数据修补流程图如图2所示。
在取得待修补段长度、差值及段前序列等关键信息后,进入数据修补流程。
以段前序列Spre为起点,做连续预测操作。即在每一次预测中,使用前一次预测出来的预测段作为本次的匹配段进行下一段序列的预测。最终,生成长度与空缺段相等的序列。
为保证修补序列的顺利生成,采用多级预测策略生成修补序列:
①若在短序列子集S0中存在指定的匹配段,则以指定匹配段的数量为数据修补模型的分母,不同预测段的数量为分子,构建数据修补模型并进行计算。
②若在短序列子集S0中不存在指定的匹配段,则以与指定匹配段相似度较高的匹配段集合的总数为分母,匹配段集合不同预测段的数量为分子构建数据修补模型并进行计算;这里,相似度指的是指定序列与匹配段做异或计算,1的数目越少相似度越高;所述的相似度较高的匹配段,是满足异或计算后1的数目匹配段总数目的c%以下的匹配段。如计算后的结果在c%以上,则认为不存在相似度较高的匹配段。c的值可以根据实际需求设置。
③若在短序列子集S0中不存在相似度较高的匹配段,则以所有预测段的总数为分母,不同预测段的数量为分子构建数据修补模型并进行计算,并统计完全重新匹配的次数nr,直到修补序列长度为L。
定义重新匹配率
Figure BDA0002209284230000081
即完全重新匹配次数占总预测次数的比例。其中,nr为完全重新匹配次数,L为修补序列长度,n2为预测段长度。使用重新匹配率筛选修补序列,保证了生成序列可以较大程度地利用历史数据的生产规律。
在限定次数内将小于指定重新匹配率的序列加入候选序列集合,找出集合中与目标修补序列标量化后的值最接近的序列并使用标尺进行转换,得到此次数据修补的结果。
下面通过具体的实施例对本申请的技术方案作进一步说明。
步骤1,以某工厂一台慢走丝线切割机的电表数据作为生产数据,采集周期为10s一次,其采集下来的数据主要包括设备编号、采集时间以及表计示数等内容,如表2所示。
表2采集数据示例
Figure BDA0002209284230000082
Figure BDA0002209284230000091
步骤2,为构建数据仓库做铺垫,需要对数据进行初步的预处理,产生符合模型标准的数据。过程包括:
按需求取采样间隔3分钟,对数据进行固定频率的降采样,取得固定时间间隔的生产数据,并求得区间内的偏移量。
去除影响修补效果的异常值;得到的数据如表3所示。
表3预处理电表数据
Meterno metername rectime showvalue 偏移量
166999476 W03-慢走丝线切割电表 2018/10/17 00:00:00 5120.02 0
166999476 W03-慢走丝线切割电表 2018/10/17 00:03:000 5120.02 0.01
166999476 W03-慢走丝线切割电表 2018/10/17 00:06:00 5120.03 0
166999476 W03-慢走丝线切割电表 2018/10/17 00:09:00 5120.03 0
166999476 W03-慢走丝线切割电表 2018/10/20 06:45:00 5325.91 0.3
166999476 W03-慢走丝线切割电表 2018/10/20 06:48:00 5326.21 0.3
步骤3,为了更好地抽象出数据的变化规律,需要对数据进行标量化;同时,为了构建一个能够高效率处理大段长度不等的缺失数据的数据修补模型的数据仓库,选择用滑动窗口的方式取得短序列集合作为数据仓库。过程如下:
步骤3.1,取得标尺信息,标量化数据;
自定义尺度N=10,表示偏移量标量化成标量的最大个数,决定了预测结果的精度。取得偏移量序列U0中的最大值umax=0.25262和最小值umin=0,对(umin,umax)进行等距划分,得到标尺刻度(umax-umin)/N=0.025262并保存标尺数组R={0,0.025262,…,0.22736,0.25262}。
使用标尺数组标量化偏移量序列U0,按照表4对偏移量做转换。
表4标尺对照表
Figure BDA0002209284230000101
(2)使用滑动窗口方法,取得固定长度的短序列集合
对标量化后的偏移量序列U1使用滑动窗口方法,取得子序列长度为T=10的短序列集合S={s1,s2,s3,s4,s5,…},其中,si={ui,ui+1,…,ui+T-1},i表示序列中的滑动窗口的起点标号,i=1,2,3,4,5….,ui∈U1。得到的数据如表5所示。
表5标量化序列表
Met<sub>ern</sub>o metername rectime showvalue 偏移量 标量 序列
166999476 2018/10/17 00:00:00 5120.02 0 A abaabababa
166999476 2018/10/17 00:03:00 5120.02 0.01 B baabababab
166999476 2018/10/17 00:06:00 5120.03 0 A aababababa
166999476 2018/10/17 00:09:00 5120.03 0 A ababababaa
166999476 2018/10/20 06:45:00 5325.91 0.3 J jjjjjiiiig
166999476 2018/10/20 06:48:00 5326.21 0.3 J jjjjiiiigg
步骤4,假设要修补2018/11/1当天的数据采集出现空缺的部分。为了适应生产规律随时间的变化,从数据仓库的短序列集合S中抽取靠近待修补数据所在时间点2018/8/1到2018/10/31范围内的短序列子集S0作为建模基础。
同时,对短序列子集S0的所有短序列进行切割,指定切割长度(n1,n2)=(6,4)将序列切成两段(sh,st),得到数据修补模型的预处理模型。如,对于序列“abaabababa”,则切割为(“abaaba”,“baba”)。
步骤5,利用模块中的切割好的短序列子集S0,结合朴素贝叶斯法,可以得到一个数据修补模型:
Figure BDA0002209284230000111
假设在短序列子集S0中,|S(X=“abaaba”,Y=“baba”)|=748;|S(X=“abaaba”)|=1360;则在匹配段为“abaaba”的条件下,预测段为“baba”的概率P(Y=“baba”|X=“abaaba”)=55%。
基于以上概率模型,下面分步解释数据修补过程:
(1)获取空缺段关键信息
假设空缺段段前序列为[5963.08,5963.23,5963.45,5963.7,5963.94,5964.1,5964.32]、缺失段缺失时间长度1小时、缺失段两端数值为[5964.32,5968.03]。使用标尺将空缺段段前序列转换成标量序列Spre=[g,j,j,j,h,j];将缺失段缺失时间长度除以降采样时间间隔得到修补序列的长度L=20;计算缺失段两端数值之差,并除以标尺刻度,得到目标修补序列标量化后的值Q=146。
(2)使用数据修补模型进行连续预测,生成序列;同时使用约束条件筛选出匹配序列,得到修补结果。
第一次预测,使用Spre=[g,j,j,j,h,j]作为匹配段进行预测,使用数据修补模型按概率取得预测段[j,j,i,i]。
同理,取当前序列的前6位作为匹配段,即[h,j,j,j,i,i],使用数据修补模型按概率进行预测;若在短序列子集S0中不存在指定的匹配段,则以与指定匹配段相似度较高的匹配段集合,即[*,j,j,j,i,i],[h,*,j,j,i,i],[h,j,*,j,i,i],[h,j,j,*,i,i],[h,j,j,j,*,i],[h,j,j,j,i,*]的总数为分母,匹配段集合的不同预测段的数量为分子进行计算;这里,相似度指的是指定序列与匹配段做异或计算,1的数目越少相似度越高。若在短序列子集S'中不存在相似度较高的匹配段,则以所有预测段的总数为分母,不同预测段的数量为分子进行计算,并统计完全重新匹配的次数nr;以此类推,直到预测序列长度为L。
根据重新匹配率公式有
Figure BDA0002209284230000112
使用Pr<=20%作为约束条件,即完全重新匹配的次数nr<=1。将符合条件的序列加入候选集合。找出集合中与目标修补序列标量化后的值T=146最接近的序列并使用标尺进行转换,输出此次数据填补模型的结果。
使用15天的数据建立模型,设定标尺长度为10,最大重新匹配率20%,匹配比为[6,4],分别对1h,2h,3h,4h的空缺段进行数据填补,结果如图3,图4,图5,图6所示。
由图3,图4,图5,图6的结果可以看出,用朴素贝叶斯的思想结合时间序列分析技术对大量已有数据建立数据修补模型,保证了模型较好地拟合数据的变化规律。同时,采用分时间段对数据进行建模的方法,可以按实际情况对不同时间段进行取舍,加一个权值做融合计算,适应逐渐变化的生产环境。根据需求调节时间范围、标尺精度及约束条件等会得到更符合要求的修补效果。

Claims (8)

1.一种基于朴素贝叶斯的大段不等长缺失数据填补方法,其特征在于,包括以下步骤:
采集生产数据,并进行生产数据的预处理,包括对生产数据进行固定频率的降采样,以取得固定时间间隔的生产数据序列;对生产数据序列中的生产数据做偏移量计算,得到偏移序列,并去除偏移序列中的异常值,得到新的偏移序列;
自定义尺度,利用所述新的偏移序列中的最大值和最小值,确定标尺刻度,并建立标尺数组;利用标尺数组标量化所述新的偏移序列,得到标量化后的序列;利用滑动窗口从所述标量化后的序列中取得固定子序列长度的短序列集合;
从所述短序列集合中抽取靠近待修补数据一定时间范围内的短序列子集,对短序列子集中所有的短序列进行切割,指定切割长度并将每个短序列切割成两段,一段作为匹配段,另一段作为预测段;
利用朴素贝叶斯法建立数据修补模型,利用数据修补模型进行待修补数据的修补。
2.如权利要求1所述的基于朴素贝叶斯的大段不等长缺失数据填补方法,其特征在于,所述的去除偏移序列中的异常值,得到新的偏移序列,包括:
求得偏移序列U的平均数μ及其标准差σ;利用平均数μ及其标准差σ对偏移序列U中的数据进行筛选,得到新的偏移序列U0;表示如下:
U0={ui,|ui≤μ+5*σ,ui∈U,i=1,2,…}。
3.如权利要求1所述的基于朴素贝叶斯的大段不等长缺失数据填补方法,其特征在于,所述的自定义尺度,利用所述新的偏移序列中的最大值和最小值,确定标尺刻度,并建立标尺数组,包括:
自定义尺度N,取得偏移量序列U0中的最大值umax和最小值umin,对(umin,umax)进行等距划分,得到标尺刻度(umax-umin)/N;令M=(umax-umin)/N,则标尺数组R表示为:
R={r1,…,ri,…,rN}={0,umin+M*1,…,umin+M*j,…,umin+M*(N-1),Umax},j=1,2,…N。
4.如权利要求1所述的基于朴素贝叶斯的大段不等长缺失数据填补方法,其特征在于,所述的利用标尺数组标量化所述新的偏移序列,得到标量化后的序列,包括:
将所述新的偏移序列U0中位于标尺数组中每相邻的两个数据间的偏移量均转换为固定值。
5.如权利要求1所述的基于朴素贝叶斯的大段不等长缺失数据填补方法,其特征在于,所述的数据修补模型,表示为:
Figure FDA0002209284220000021
其中:
stk表示预测段,shi表示匹配段;
P(Y=stk|X=shi)表示当匹配段为shi时,预测段为stk的概率;
|S(X=shi,Y=stk)|表示短序列子集中匹配段和预测段为(shi,stk)的数量;
|S(X=shi)|表示短序列子集中匹配段为shi的数量。
6.如权利要求1所述的基于朴素贝叶斯的大段不等长缺失数据填补方法,其特征在于,所述的利用数据修补模型进行待修补数据的修补,包括:
获取缺失段段前序列、缺失段缺失时间长度、缺失段两端数值,使用标尺将空缺段段前序列转换成标量序列;将缺失段缺失时间长度除以降采样时间间隔得到修补序列的长度;计算缺失段两端数值之差,并除以标尺刻度,得到目标修补序列标量化后的值;
使用数据修补模型进行连续预测,生成序列;同时使用约束条件筛选出匹配序列,得到修补结果。
7.如权利要求6所述的基于朴素贝叶斯的大段不等长缺失数据填补方法,其特征在于,所述的使用数据修补模型进行连续预测时,采用多级预测策略生成修补序列:
①若在短序列子集中存在指定的匹配段,则以指定匹配段的数量为数据修补模型的分母,不同预测段的数量为分子,构建数据修补模型并进行计算;
②若在短序列子集中不存在指定的匹配段,则以与指定匹配段相似度较高的匹配段集合的总数为分母,匹配段集合不同预测段的数量为分子构建数据修补模型并进行计算;
③若在短序列子集中不存在相似度较高的匹配段,则以所有预测段的总数为分母,不同预测段的数量为分子构建数据修补模型并进行计算,并统计完全重新匹配的次数,直到修补序列长度为L。
8.如权利要求6所述的基于朴素贝叶斯的大段不等长缺失数据填补方法,其特征在于,所述的同时使用约束条件筛选出匹配序列,得到修补结果,包括:
定义重新匹配率,在限定次数内将小于指定重新匹配率的序列加入候选序列集合,找出集合中与修补序列标量化后的值最接近的序列并使用标尺进行转换,得到此次数据修补的结果。
CN201910892758.3A 2019-09-20 2019-09-20 一种基于朴素贝叶斯的大段不等长缺失数据填补方法 Active CN110826718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910892758.3A CN110826718B (zh) 2019-09-20 2019-09-20 一种基于朴素贝叶斯的大段不等长缺失数据填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910892758.3A CN110826718B (zh) 2019-09-20 2019-09-20 一种基于朴素贝叶斯的大段不等长缺失数据填补方法

Publications (2)

Publication Number Publication Date
CN110826718A true CN110826718A (zh) 2020-02-21
CN110826718B CN110826718B (zh) 2022-05-13

Family

ID=69548144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910892758.3A Active CN110826718B (zh) 2019-09-20 2019-09-20 一种基于朴素贝叶斯的大段不等长缺失数据填补方法

Country Status (1)

Country Link
CN (1) CN110826718B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115547508A (zh) * 2022-11-29 2022-12-30 联仁健康医疗大数据科技股份有限公司 数据校正方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212851A1 (en) * 2002-05-10 2003-11-13 Drescher Gary L. Cross-validation for naive bayes data mining model
CN102025531A (zh) * 2010-08-16 2011-04-20 北京亿阳信通软件研究院有限公司 一种性能数据的填补方法及其装置
US20110093428A1 (en) * 2008-03-28 2011-04-21 Nederlandse Organisatie Voor Toegepastnatuurwetenschappelijk Onderzoek Tno Automated filling of conditional probability data in a decision support apparatus that uses a bayesian belief network
CN103246702A (zh) * 2013-04-02 2013-08-14 大连理工大学 一种基于分段形态表示的工业序列数据缺失的填补方法
CN108304887A (zh) * 2018-02-28 2018-07-20 云南大学 基于少数类样本合成的朴素贝叶斯数据处理系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212851A1 (en) * 2002-05-10 2003-11-13 Drescher Gary L. Cross-validation for naive bayes data mining model
US20110093428A1 (en) * 2008-03-28 2011-04-21 Nederlandse Organisatie Voor Toegepastnatuurwetenschappelijk Onderzoek Tno Automated filling of conditional probability data in a decision support apparatus that uses a bayesian belief network
CN102025531A (zh) * 2010-08-16 2011-04-20 北京亿阳信通软件研究院有限公司 一种性能数据的填补方法及其装置
CN103246702A (zh) * 2013-04-02 2013-08-14 大连理工大学 一种基于分段形态表示的工业序列数据缺失的填补方法
CN108304887A (zh) * 2018-02-28 2018-07-20 云南大学 基于少数类样本合成的朴素贝叶斯数据处理系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宫义山等: "基于贝叶斯网络的缺失数据处理", 《沈阳工业大学学报》 *
张文等: "基于朴素贝叶斯和EM算法的软件工作量缺失数据处理方法", 《系统工程理论与实践》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115547508A (zh) * 2022-11-29 2022-12-30 联仁健康医疗大数据科技股份有限公司 数据校正方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110826718B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN107561997B (zh) 一种基于大数据决策树的电力设备状态监测方法
CN109727446B (zh) 一种用电数据异常值的识别与处理方法
CN111401573B (zh) 一种工况状态建模与修正模型方法
CN110610121B (zh) 基于曲线聚类的小时级源荷功率异常数据辨识与修复方法
CN112749840B (zh) 一种火电机组能效特征指标基准值的获取方法
CN113344288B (zh) 梯级水电站群水位预测方法、装置及计算机可读存储介质
CN110621026A (zh) 一种基站流量多时刻预测方法
CN114169434A (zh) 一种负荷预测方法
CN111984705A (zh) 一种电能质量监测装置的精度评估管理方法和装置
CN110826718B (zh) 一种基于朴素贝叶斯的大段不等长缺失数据填补方法
Huang et al. An adversarial learning approach for machine prognostic health management
CN115456306A (zh) 一种母线负荷预测方法、系统、设备及存储介质
CN113256036B (zh) 基于Prophet-LSTNet组合模型的供电成本分析预测方法
CN108134687B (zh) 一种基于马尔可夫链的灰色模型局域网峰值流量预测方法
CN116485075A (zh) 一种基于fts的电网负荷预测方法
CN115618708A (zh) 基于增量式Informer算法的设备健康状态预测方法
CN114926075A (zh) 基于工时预测的机械零件生产调度方法
CN115374991A (zh) 一种基于改进统计升尺度的光伏集群出力预测方法
CN114336792A (zh) 一种电网运行状态预测方法与系统
CN109376957B (zh) 一种火电厂负荷的预测方法
CN114186739A (zh) 基于深度学习的台区短期负荷预测方法
CN112561153A (zh) 一种基于模型集成的景区人群聚集预测方法
CN113255207A (zh) 基于迭代多输出-马尔科夫链的空分系统氩馏分变量多步预测方法
Xu et al. An Improved GA-KRR Nested Learning Approach for Refrigeration Compressor Performance Forecasting
CN105956615B (zh) 一种卫星遥测数据的混合建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant