CN110826718A

CN110826718A - 一种基于朴素贝叶斯的大段不等长缺失数据填补方法

Info

Publication number: CN110826718A
Application number: CN201910892758.3A
Authority: CN
Inventors: 许志城; 徐康康; 杨海东; 印四华; 朱成就
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2020-02-21
Anticipated expiration: 2039-09-20
Also published as: CN110826718B

Abstract

本发明公开了一种基于朴素贝叶斯的大段不等长缺失数据填补方法，用朴素贝叶斯的思想结合时间序列分析技术对大量已有数据建立概率模型作为数据修补模型，保证模型可以较好地拟合数据的变化规律。使用数据修补模型循环预测出空缺段可能的序列组合，在约束条件的作用筛选出符合空缺段的序列，最终完成缺失数据的数据修补。

Description

一种基于朴素贝叶斯的大段不等长缺失数据填补方法

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种对工业能源管理系统数据采集过程中出现的大段不等长的缺失数据的数据填补方法。

背景技术

工业大数据是智能制造与工业互联网的核心，其本质是通过促进数据的自动流动去解决和控制业务问题，减少决策过程中所带来的不确定性，并尽量克服人工决策的缺点。依托于采集到的数据，可以在工业过程和控制中开发人工智能的应用。

工业设备由于生产流程复杂、传感器数量众多且取样频率快，在短时间内容易累积大量的数据，其主要呈现出机理模型复杂、时间序列排布，呈现出随时间变化而变化的关联性和规律性、数据依赖性强、数据维度高且存在大量无标签数据等特点。

在生产过程中，成千上万的传感器担负着各种各样过程变量的测量任务，是优化程序得以实施的唯一信息来源。在长时间运行过程中，传感器会出现不同程度的精度下降、偏离、漂移，有时甚至会完全失效出现故障并需要拆下来进行检修，这就带来了缺失数据和异常数据的问题。另外，在数据录入过程中认为不重要而未输入以及数据写入数据库的过程也会带来数据缺失问题。在数据缺失中采用均值填补或其他单一简单的填补方式，将会影响采集数据的可靠性。特别是在多设备、多级表计的数据统计环境下，某些数据的不确定性容易让数据分析人员造成误解。

以佛山某铝型材厂的能源管理系统为例，该厂在生产环境中布置了超过150个表计，由于网络波动、电磁干扰等因素，部分设备生产数据的采集经常会出现中断的情况，严重的情况下，中断的时间段长达几个小时，严重影响了采集数据的完整性。对生产数据进行符合生产规律的修补，可以保证采集数据的完整性，对于数据分析人员有极大的价值。

目前大多数研究都是针对单点或者固定长度的数据缺失进行填补，当待修补的序列长度发生变化时，往往要重新训练数据修补模型；并且数据规律发生变化时，模型的更新迭代需要人工的深度参与，过程计算复杂度高，无法快速适应不同长度的数据缺失段的修补和逐渐变化的生产规律。

发明内容

本发明的目的是提供一种基于朴素贝叶斯的大段不等长缺失数据填补方法，依据采集到的历史数据建立数据修补模型，可用于工业能源管理系统中高效率处理大段长度不等的缺失数据填补任务。

为了实现上述任务，本发明采用以下技术方案：

一种基于朴素贝叶斯的大段不等长缺失数据填补方法，包括以下步骤：

采集生产数据，并进行生产数据的预处理，包括对生产数据进行固定频率的降采样，以取得固定时间间隔的生产数据序列；对生产数据序列中的生产数据做偏移量计算，得到偏移序列，并去除偏移序列中的异常值，得到新的偏移序列；

自定义尺度，利用所述新的偏移序列中的最大值和最小值，确定标尺刻度，并建立标尺数组；利用标尺数组标量化所述新的偏移序列，得到标量化后的序列；利用滑动窗口从所述标量化后的序列中取得固定子序列长度的短序列集合；

从所述短序列集合中抽取靠近待修补数据一定时间范围内的短序列子集，对短序列子集中所有的短序列进行切割，指定切割长度并将每个短序列切割成两段，一段作为匹配段，另一段作为预测段；

利用朴素贝叶斯法建立数据修补模型，利用数据修补模型进行待修补数据的修补。

进一步地，所述的去除偏移序列中的异常值，得到新的偏移序列，包括：

求得偏移序列U的平均数μ及其标准差σ；利用平均数μ及其标准差σ对偏移序列U中的数据进行筛选，得到新的偏移序列U₀；表示如下：

U₀＝{u_i,|u_i≤μ+5*σ,u_i∈U,i＝1,2,…}。

进一步地，所述的自定义尺度，利用所述新的偏移序列中的最大值和最小值，确定标尺刻度，并建立标尺数组，包括：

自定义尺度N，取得偏移量序列U₀中的最大值u_max和最小值u_min，对(u_min,u_max)进行等距划分，得到标尺刻度(u_max-u_min)/N；令M＝(u_max-u_min)/N，则标尺数组R表示为：

R＝{r₁,…,r_i,…,r_N}＝{0,u_min+M*1，…,u_min+M*j,…,u_min+M*(N-1)，U_max}，j＝1,2,…N。

进一步地，所述的利用标尺数组标量化所述新的偏移序列，得到标量化后的序列，包括：

将所述新的偏移序列U₀中位于标尺数组中每相邻的两个数据间的偏移量均转换为固定值。

进一步地，所述的数据修补模型，表示为：

其中：

s_tk表示预测段，s_hi表示匹配段；

P(Y＝s_tk|X＝s_hi)表示当匹配段为s_hi时，预测段为s_tk的概率；

|S(X＝s_hi,Y＝s_tk)|表示短序列子集中匹配段和预测段为(s_hi,s_tk)的数量；

|S(X＝s_hi)|表示短序列子集中匹配段为s_hi的数量。

进一步地，所述的利用数据修补模型进行待修补数据的修补，包括：

获取缺失段段前序列、缺失段缺失时间长度、缺失段两端数值，使用标尺将空缺段段前序列转换成标量序列；将缺失段缺失时间长度除以降采样时间间隔得到修补序列的长度；计算缺失段两端数值之差，并除以标尺刻度，得到目标修补序列标量化后的值；

使用数据修补模型进行连续预测，生成序列；同时使用约束条件筛选出匹配序列，得到修补结果。

进一步地，所述的使用数据修补模型进行连续预测时，采用多级预测策略生成修补序列：

①若在短序列子集中存在指定的匹配段，则以指定匹配段的数量为数据修补模型的分母，不同预测段的数量为分子，构建数据修补模型并进行计算；

②若在短序列子集中不存在指定的匹配段，则以与指定匹配段相似度较高的匹配段集合的总数为分母，匹配段集合不同预测段的数量为分子构建数据修补模型并进行计算；

③若在短序列子集中不存在相似度较高的匹配段，则以所有预测段的总数为分母，不同预测段的数量为分子构建数据修补模型并进行计算，并统计完全重新匹配的次数，直到修补序列长度为L。

进一步地，所述的同时使用约束条件筛选出匹配序列，得到修补结果，包括:

定义重新匹配率,在限定次数内将小于指定重新匹配率的序列加入候选序列集合，找出集合中与修补序列标量化后的值最接近的序列并使用标尺进行转换，得到此次数据修补的结果。

本发明具有以下技术特点：

1.针对工业生产规律会逐渐变化的情况，本发明采用建立数据仓库，分时间段对数据进行建模的方法，可以按实际情况对不同时间段进行取舍，加一个权值做融合计算，适应逐渐变化的生产环境。

2.针对数据缺失段在生产环境中出现长短不一的情况，本发明使用连续预测再用约束条件筛选的方式可以在一次数据修补过程中同时修补长短不一的数据缺失段。

3.针对工业大数据采集设备多，修补效率要求高的情况，本发明提出基于朴素贝叶斯方法建立概率模型的方式在保证模型可以较好地拟合数据的变化规律的同时，与神经网络在环境发生变化后需要重新训练再人工调参的过程相比，可以更高效率地完成数据填补任务。

附图说明

图1为本发明方法的流程示意图；

图2为数据修补流程图；

图3、图4、图5和图6分别为实施例中1h、2h、3h和4h数据缺失修补结果示意图。

具体实施方式

本发明提出一种基于朴素贝叶斯的大段不等长缺失数据填补方法，用朴素贝叶斯的思想结合时间序列分析技术对大量已有数据建立概率模型，保证模型可以较好地拟合数据的变化规律。使用概率模型循环预测出空缺段可能的序列组合，在约束条件的作用筛选出符合空缺段的序列，最终完成缺失数据的数据修补；具体步骤如下：

步骤1，数据采集

对工业设备的生产数据进行固定周期的数据采集。

工厂车间设备在运行的过程中会产生大量的数据，通过网络传输连接工业设备上的组态软件、借助工业以太网关直接连接数控机床的PLC控制器等方式可以采集到工业设备的生产数据。生产数据以固定周期进行采集，并存储到数据库中；所述的生产数据可以为多种数据，本实施例中所述的生产数据主要是指不断累加的用量表数据。

步骤2，数据预处理

为构建数据仓库做铺垫，需要对数据进行初步的预处理，产生符合模型标准的数据。具体过程如下：

步骤2.1，对生产数据进行固定频率的降采样，取得固定时间间隔的生产数据序列；对生产数据序列中的生产数据做偏移量计算，得到偏移序列。

对生产数据，例如用量表数据进行降采样，得到序列R＝{s₁,s₂,s₃,s₄,…}。其中，s_i表示某一时刻的数据，任意一对数据(s_i,s_i+1)之间的时间间隔T固定。

对生产数据序列R做偏移量计算，得到偏移序列U＝{u₁,u₂,u₃,u₄,…}。其中，对于任意一个数据u_i，有u_i＝s_i+1-s_i，即u_i表示固定时间间隔t内生产数据的偏移量；i＝1,2,3,…。

步骤2.2，去除影响修补效果的异常值。

根据切比雪夫定理，对于任意分布规律的数据，至少有96％的数据位于平均数5个标准差范围内；由此对偏移序列U进行处理：

求得偏移序列U的平均数μ及其标准差σ；利用平均数μ及其标准差σ对偏移序列U中的数据进行筛选，得到新的偏移序列U₀；具体表示如下：

U₀＝{u_i|u_i≤μ+5*σ,u_i∈U,i＝1,2,…}

上式表示从偏移序列U中找出满足不大于μ+5*σ的所有数据u_i组成新的偏移序列U₀。偏移序列中的每一个偏移量u_i对应一个时间戳t_i，该时间戳即为u_i所对应的时间间隔起点的时间戳。

步骤3，利用滑动窗口构建数据仓库

为了更好地抽象出数据的变化规律，需要对数据进行标量化；同时，为了构建一个能够高效率处理大段长度不等的缺失数据的数据修补模型的数据仓库，选择用滑动窗口的方式取得短序列集合作为数据仓库。具体过程如下：

步骤3.1，取得标尺信息，标量化数据

自定义尺度N，表示将偏移量标量化成标量的最大个数，决定了预测结果的精度。取得偏移量序列U₀中的最大值u_max和最小值u_min，对(u_min,u_max)进行等距划分，得到标尺刻度(u_max-u_min)/N；令M＝(u_max-u_min)/N，则标尺数组R表示为：

使用标尺数组标量化序列U₀，具体为：

将U₀中位于标尺数组中每相邻的两个数据间的偏移量均转换为固定值；标量化后的序列记为U₁。例如按照表1对U₀中的偏移量做转换。

表1标尺对照表

步骤3.2，使用滑动窗口方法，取得固定长度的短序列集合。

滑动窗口是处理时间序列数据的常用方法，指的是按顺序依次取得连续序列。本方案需要使用滑动窗口的方式收集固定长度的短序列集合，具体如下：

记标量化后的序列为U₁＝{u₁，u₂，u₃…}，对应的时间戳序列为{t₁，t₂，t₃…}

其中，u_k(k＝1,2,3….)表示标量化后的偏移量，t_k表示该偏移量对应的时间间隔起点的时间戳；对于任意u_k和u_k+1，满足t_k<t_k+1，且t_k+1-t_k为降采样的时间间隔。

故使用滑动窗口方法可取得子序列长度为T的短序列集合S作为数据仓库：

S＝{s₁,s₂,s₃,s₄,s₅,…}，其中，短序列s_i＝{u_i,u_i+1,…,u_i+T-1}，其中i表示序列中的滑动窗口的起点标号，i＝1,2,3,4,5….，u_i∈U₁。

步骤4，建立预处理模型

为了适应生产规律随时间的变化，从数据仓库的短序列集合S中抽取靠近待修补数据所在时间点一定范围内，例如选择待修补数据所在时间点的前、后Q个时间点的范围内的短序列子集S₀作为建模基础。

同时，对短序列子集S₀的所有短序列进行切割，指定切割长度(n₁,n₂)将每个短序列切成两段(s_h,s_t)，得到数据修补模型的预处理模型。其中，n₁+n₂＝T，称s_h段为匹配段，s_t段为预测段。

步骤5，建立数据修补模型

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法，其基本思想为通过已有的先验知识生成模型计算预测事件的后验概率分布估计。通俗来讲，就是通过对历史数据中两个事件连续发生的概率进行估计，当前一事件发生时，用已估计的概率作为后一事件可能发生的概率。其形式化解释如下：

给定训练数据集A＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}，记X＝{x₁,x₂,…,x_n}，X中的事件相互独立；y_i＝{c_i1,c_i2,…,c_in}，表示事件x_i发生后事件y_i可能的值。因此，对于事件c_ik有概率公式：

其中，P(Y|X)表示X事件发生后Y事件发生的概率；P(X,Y)表示X事件和Y事件同时发生的概率。

利用切割后的短序列子集S₀，结合朴素贝叶斯法，建立数据修补模型：

其中：

s_tk表示某一预测段，s_hi表示某一匹配段；

P(Y＝s_tk|X＝s_hi)表示当匹配段为s_hi时，预测段为s_tk的概率；

|S(X＝s_hi)|表示短序列子集中匹配段为s_hi的数量。

基于以上概率模型，下面分步解释数据修补过程：

(1)获取空缺段关键信息

取得缺失段(待修补数据)段前序列、缺失段缺失时间长度、缺失段两端数值。使用标尺将空缺段段前序列转换成标量序列Spre；将缺失段缺失时间长度除以降采样时间间隔得到修补序列的长度L；计算缺失段两端数值之差，并除以标尺刻度，得到目标修补序列标量化后的值。

(2)使用数据修补模型进行连续预测，生成序列；同时使用约束条件筛选出匹配序列，得到修补结果。

切割好的短序列子集S₀可以根据不同的预测条件构建出相应的数据修补模型，在约束条件下得到符合缺失段变化规律的目标序列。数据修补流程图如图2所示。

在取得待修补段长度、差值及段前序列等关键信息后，进入数据修补流程。

以段前序列S_pre为起点，做连续预测操作。即在每一次预测中，使用前一次预测出来的预测段作为本次的匹配段进行下一段序列的预测。最终，生成长度与空缺段相等的序列。

为保证修补序列的顺利生成，采用多级预测策略生成修补序列：

①若在短序列子集S₀中存在指定的匹配段，则以指定匹配段的数量为数据修补模型的分母，不同预测段的数量为分子，构建数据修补模型并进行计算。

②若在短序列子集S₀中不存在指定的匹配段，则以与指定匹配段相似度较高的匹配段集合的总数为分母，匹配段集合不同预测段的数量为分子构建数据修补模型并进行计算；这里，相似度指的是指定序列与匹配段做异或计算，1的数目越少相似度越高；所述的相似度较高的匹配段，是满足异或计算后1的数目匹配段总数目的c％以下的匹配段。如计算后的结果在c％以上，则认为不存在相似度较高的匹配段。c的值可以根据实际需求设置。

③若在短序列子集S₀中不存在相似度较高的匹配段，则以所有预测段的总数为分母，不同预测段的数量为分子构建数据修补模型并进行计算，并统计完全重新匹配的次数n_r，直到修补序列长度为L。

定义重新匹配率

即完全重新匹配次数占总预测次数的比例。其中，n_r为完全重新匹配次数，L为修补序列长度，n₂为预测段长度。使用重新匹配率筛选修补序列，保证了生成序列可以较大程度地利用历史数据的生产规律。

在限定次数内将小于指定重新匹配率的序列加入候选序列集合，找出集合中与目标修补序列标量化后的值最接近的序列并使用标尺进行转换，得到此次数据修补的结果。

下面通过具体的实施例对本申请的技术方案作进一步说明。

步骤1，以某工厂一台慢走丝线切割机的电表数据作为生产数据，采集周期为10s一次，其采集下来的数据主要包括设备编号、采集时间以及表计示数等内容，如表2所示。

表2采集数据示例

步骤2，为构建数据仓库做铺垫，需要对数据进行初步的预处理，产生符合模型标准的数据。过程包括：

按需求取采样间隔3分钟，对数据进行固定频率的降采样，取得固定时间间隔的生产数据，并求得区间内的偏移量。

去除影响修补效果的异常值；得到的数据如表3所示。

表3预处理电表数据

Meterno	metername	rectime	showvalue	偏移量
					166999476	W03-慢走丝线切割电表	2018/10/17 00:00:00	5120.02	0
166999476	W03-慢走丝线切割电表	2018/10/17 00:03:000	5120.02	0.01
					166999476	W03-慢走丝线切割电表	2018/10/17 00:06:00	5120.03	0
166999476	W03-慢走丝线切割电表	2018/10/17 00:09:00	5120.03	0
					…	…	…	…	…
166999476	W03-慢走丝线切割电表	2018/10/20 06:45:00	5325.91	0.3
					166999476	W03-慢走丝线切割电表	2018/10/20 06:48:00	5326.21	0.3
…	…	…	…	…

步骤3，为了更好地抽象出数据的变化规律，需要对数据进行标量化；同时，为了构建一个能够高效率处理大段长度不等的缺失数据的数据修补模型的数据仓库，选择用滑动窗口的方式取得短序列集合作为数据仓库。过程如下：

步骤3.1，取得标尺信息，标量化数据；

自定义尺度N＝10，表示偏移量标量化成标量的最大个数，决定了预测结果的精度。取得偏移量序列U₀中的最大值u_max＝0.25262和最小值u_min＝0，对(u_min,u_max)进行等距划分，得到标尺刻度(u_max-u_min)/N＝0.025262并保存标尺数组R＝{0，0.025262，…,0.22736，0.25262}。

使用标尺数组标量化偏移量序列U₀，按照表4对偏移量做转换。

表4标尺对照表

(2)使用滑动窗口方法，取得固定长度的短序列集合

对标量化后的偏移量序列U₁使用滑动窗口方法，取得子序列长度为T＝10的短序列集合S＝{s₁,s₂,s₃,s₄,s₅,…},其中，s_i＝{u_i,u_i+1,…,u_i+T-1},i表示序列中的滑动窗口的起点标号，i＝1,2,3,4,5….，u_i∈U₁。得到的数据如表5所示。

表5标量化序列表

Met<sub>ern</sub>o

metername

rectime

showvalue

偏移量

标量

序列

166999476

…

2018/10/17 00:00:00

5120.02

0

A

abaabababa

166999476

…

2018/10/17 00:03:00

5120.02

0.01

B

baabababab

166999476

…

2018/10/17 00:06:00

5120.03

0

A

aababababa

166999476

…

2018/10/17 00:09:00

5120.03

0

A

ababababaa

…

166999476

…

2018/10/20 06:45:00

5325.91

0.3

J

jjjjjiiiig

166999476

…

2018/10/20 06:48:00

5326.21

0.3

J

jjjjiiiigg

…

步骤4，假设要修补2018/11/1当天的数据采集出现空缺的部分。为了适应生产规律随时间的变化，从数据仓库的短序列集合S中抽取靠近待修补数据所在时间点2018/8/1到2018/10/31范围内的短序列子集S₀作为建模基础。

同时，对短序列子集S₀的所有短序列进行切割，指定切割长度(n₁,n₂)＝(6,4)将序列切成两段(s_h,s_t)，得到数据修补模型的预处理模型。如，对于序列“abaabababa”，则切割为(“abaaba”，“baba”)。

步骤5，利用模块中的切割好的短序列子集S₀，结合朴素贝叶斯法，可以得到一个数据修补模型：

基于以上概率模型，下面分步解释数据修补过程：

(1)获取空缺段关键信息

假设空缺段段前序列为[5963.08，5963.23，5963.45，5963.7，5963.94，5964.1，5964.32]、缺失段缺失时间长度1小时、缺失段两端数值为[5964.32，5968.03]。使用标尺将空缺段段前序列转换成标量序列Spre＝[g,j,j,j,h,j]；将缺失段缺失时间长度除以降采样时间间隔得到修补序列的长度L＝20；计算缺失段两端数值之差，并除以标尺刻度，得到目标修补序列标量化后的值Q＝146。

第一次预测，使用S_pre＝[g,j,j,j,h,j]作为匹配段进行预测，使用数据修补模型按概率取得预测段[j,j,i,i]。

同理，取当前序列的前6位作为匹配段，即[h,j,j,j,i,i]，使用数据修补模型按概率进行预测；若在短序列子集S₀中不存在指定的匹配段，则以与指定匹配段相似度较高的匹配段集合，即[*,j,j,j,i,i],[h,*,j,j,i,i],[h,j,*,j,i,i],[h,j,j,*,i,i],[h,j,j,j,*,i],[h,j,j,j,i,*]的总数为分母，匹配段集合的不同预测段的数量为分子进行计算；这里，相似度指的是指定序列与匹配段做异或计算，1的数目越少相似度越高。若在短序列子集S＇中不存在相似度较高的匹配段，则以所有预测段的总数为分母，不同预测段的数量为分子进行计算，并统计完全重新匹配的次数n_r；以此类推，直到预测序列长度为L。

根据重新匹配率公式有

使用P_r<＝20％作为约束条件，即完全重新匹配的次数n_r<＝1。将符合条件的序列加入候选集合。找出集合中与目标修补序列标量化后的值T＝146最接近的序列并使用标尺进行转换，输出此次数据填补模型的结果。

使用15天的数据建立模型，设定标尺长度为10，最大重新匹配率20％，匹配比为[6,4]，分别对1h,2h,3h,4h的空缺段进行数据填补，结果如图3，图4，图5，图6所示。

由图3，图4，图5，图6的结果可以看出，用朴素贝叶斯的思想结合时间序列分析技术对大量已有数据建立数据修补模型，保证了模型较好地拟合数据的变化规律。同时，采用分时间段对数据进行建模的方法，可以按实际情况对不同时间段进行取舍，加一个权值做融合计算，适应逐渐变化的生产环境。根据需求调节时间范围、标尺精度及约束条件等会得到更符合要求的修补效果。

Claims

1.一种基于朴素贝叶斯的大段不等长缺失数据填补方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于朴素贝叶斯的大段不等长缺失数据填补方法，其特征在于，所述的去除偏移序列中的异常值，得到新的偏移序列，包括：

U₀＝{u_i,|u_i≤μ+5*σ,u_i∈U,i＝1,2,…}。

3.如权利要求1所述的基于朴素贝叶斯的大段不等长缺失数据填补方法，其特征在于，所述的自定义尺度，利用所述新的偏移序列中的最大值和最小值，确定标尺刻度，并建立标尺数组，包括：

4.如权利要求1所述的基于朴素贝叶斯的大段不等长缺失数据填补方法，其特征在于，所述的利用标尺数组标量化所述新的偏移序列，得到标量化后的序列，包括：

5.如权利要求1所述的基于朴素贝叶斯的大段不等长缺失数据填补方法，其特征在于，所述的数据修补模型，表示为：

其中：

s_tk表示预测段，s_hi表示匹配段；

P(Y＝s_tk|X＝s_hi)表示当匹配段为s_hi时，预测段为s_tk的概率；

|S(X＝s_hi)|表示短序列子集中匹配段为s_hi的数量。

6.如权利要求1所述的基于朴素贝叶斯的大段不等长缺失数据填补方法，其特征在于，所述的利用数据修补模型进行待修补数据的修补，包括：

7.如权利要求6所述的基于朴素贝叶斯的大段不等长缺失数据填补方法，其特征在于，所述的使用数据修补模型进行连续预测时，采用多级预测策略生成修补序列：

8.如权利要求6所述的基于朴素贝叶斯的大段不等长缺失数据填补方法，其特征在于，所述的同时使用约束条件筛选出匹配序列，得到修补结果，包括: