CN114970674A

CN114970674A - 一种基于关联度对齐的时序数据概念漂移适配方法

Info

Publication number: CN114970674A
Application number: CN202210413557.2A
Authority: CN
Inventors: 于歌; 张玺
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-08-30

Abstract

本发明提供一种基于关联度对齐的时序数据概念漂移适配方法，对分布不同的时序数据进行分析并快速建立量化模型，从数据分布对齐角度构建基于关联度匹配的时序预测，从损失函数可微分角度设计蒙特卡洛求解参数，可对不同工况下的不确定时序信号精准地预测。本发明复杂度低，计算周期短以及可移植性高。且利用全面分析时序信号所含信息，为不确定环境下存在概念漂移下系统的安全和维护提供科学分析依据，提高网络对未来复杂时刻的预测能力。通过动态参数寻优网络，弥补专家经验的缺失，鲁棒性强，短时间内实现未来数据的预测，降低概念漂移造成的社会危害。

Description

一种基于关联度对齐的时序数据概念漂移适配方法

技术领域

本发明属于时序数据处理技术领域，涉及概念漂移学习技术，具体涉及一种基于关联度对齐的时序数据概念漂移适配方法。

背景技术

随着信息和传感技术的发展，现实世界中充满了各种各样的时序数据。因此，基于数据驱动的人工智能时序数据预测方法蓬勃发展。这些技术的成功取决于一个基本假设，训练数据与测试数据服从相同的分布。不幸的是，数据的统计特性在充满不确定和非平稳环境中随时间动态变化。例如COVID-19之后的消费模式数据、复杂工作条件下的机器退化数据、垃圾邮件和金融欺诈检测数据、气候预测和客户对在线购物的偏好数据等。训练样本与测试样本分布存在差异情况下模型的泛化能力无法保证。这种情况导致了时序数据的概念漂移问题，即目标变量的统计特性随着时间以不可预见的方式变化，这是大数据时代的普遍问题，其本质是数据数据分布与统计特征的不确定性。

当前一种解决策略是通过探索变量之间的相关性和未来数据分布差距的不确定性来学习自适应数据预测与决策系统。概念漂移下的这种策略研究可以分为三个部分:漂移检测、漂移理解和漂移适应。具体来说，漂移检测可以通过识别变化点或变化时间区间的技术和机制来对概念漂移进行表征和量化，漂移理解是描述漂移的严重程度，漂移适应是根据漂移对现有的学习模型进行更新。尽管概念漂移的解决上取得了明显的成功，但现有的大多数研究很少关注存在虚假相关性的概念漂移场景，这实际上在时序数据中更为常见。例如背景噪音的干扰，风场数据中障碍物对采集数据的影响，多数情况下数据中存在潜在的背景变量伪相关性，当其对模型影响度越高，模型性能的稳定性越低。因此，对于时序数据通过建模不确定性来缓解虚假相关性所造成的偏差，以应对概念漂移，尚没有形成快速稳定的预测方法，因此亟待将智能化技术与时序数据分析有效结合一起，针对概念漂移问题，形成完备的序列预测方法。

发明内容

针对上述现有技术的不足，本发明提供一种基于关联度对齐的时序数据概念漂移预测方法，对分布不同的时序数据进行分析并快速建立量化模型，从数据分布对齐角度构建基于关联度匹配的时序预测，从损失函数可微分角度设计蒙特卡洛求解参数。本发明可对不同工况下的不确定时序信号精准地预测，算法复杂度低，计算周期短以及可移植性高。

本发明的技术方案是：

一种基于关联度对齐的时序数据概念漂移适配方法，包括如下步骤：

步骤1：对原始时序数据

按照维度进行预处理为

T_x为维度，

t为时刻，即第m维，x^m＝{x_m,1,…,x_m,t}。与X对应的待预测的目标序列

T_y为维度，即第n维，yⁿ＝{y_n,1,...,y_n,u}。

步骤1.1：将原始时序数据

进行归一化处理得到

是

按维度取最小值，

是

按维度取最大值；

步骤1.2：将

进行标准化处理得到X，

其中

为

按维度的平均值，

为

按维度计算的标准差。

步骤2：对于X与Y构成的历史数据

按固定滑窗大小m服从概率参数Θ采样，得到包含N个样本的训练样本集

其中

为训练样本集的网络输入样本，

为训练标签。相应的，把

接下来的n个采样值，即t到t+n，作为测试样本集

为测试样本集的网络输入样本，

为测试标签。

步骤3：构造网络损失函数，包含两个部分，一部分是训练样本集上的有监督损失l₁，一部分是衡量训练样本集和测试样本集的分布差异l₂。

步骤3.1：构造网络损失函数中训练样本集上的有监督损失为，

即计算测试集上网络的预测值

与标签y^t的偏差。

步骤3.2：构造网络损失函数中训练样本集与测试样本集的分布差异，用wasserstein距离来度量，表示为

式子计算了训练集样本与测试集样本之间的分布差异，其中

代表概率分布。然后l₂损失被分解为考虑训练集和测试集的耦合关系

和不考虑训练集和测试集的耦合关系

两部分组成。具体求解如下：

步骤3.2.1：对于

的估计:

(1)定义训练样本集与测试样本集的参数Θ′_coup下条件分布等于参数Θ_coup下的联合分布，下角标“a”,“e”代表“train”,“test”。

(2)假设测试样本集服从的分布为，

依赖于上一时刻的训练数据

与上一时刻的测试数据

即为耦合项，∈_n是随机扰动项，其中

为均值为0，方差为

的正态分布。因此条件分布可以更新为：

(3)对于

的求解，建立隐式方程求解，即对其条件分布建立对数最大似然函数

进行参数估计，通过最大化下面的式子，找到对应于

的最优参数

步骤3.2.2：对于

的估计，通过一个特征提取器提前训练数据集的映射，

建模训练样本集映射后的条件分布

为

然后建模测试样本集映射后的条件分布

为

其中

为均值，

为相应的方差，

和

都是扰动项，服从标准正态分布。可以得到

的一个闭式解：

步骤4:将步骤1到步骤3记为对于任务时刻t的一次任务Task_t，在时刻t∈[1,...,T]上循环记录T个任务，总的损失为各个任务损失的累加，即网络总最优参数Θ^*可以通过

求得。

步骤5：由于原损失函数积分很难求解，采用蒙特卡洛积分获得损失函数近似估计，具体的，重复K次随机采样，则最优参数表达为：

步骤6：采用梯度下降方法迭代更新参数，_τ为迭代次数，

其中

表示第t次任务的损失函数，

为求导数操作，当迭代参数Θ_τ-Θ_τ+1小于一个阈值后，停止迭代，此时参数为最优参数，网络输出为最优预测结果。

与现有技术相比，本发明的有益效果是：

1全面分析时序信号所含信息，为不确定环境下存在概念漂移下系统的安全和维护提供科学分析依据，提高网络对未来复杂时刻的预测能力。

2通过动态参数寻优网络，弥补专家经验的缺失，鲁棒性强，短时间内实现未来数据的预测，降低概念漂移造成的社会危害。

3采用蒙特卡洛可微方式，通过损失函数步进反馈确定网络结构，实现对不同样本集的自适应性，使网络在时序领域具有普适性和可移植性。

附图说明

图1为本发明实施例基于关联度对齐的时序数据概念漂移适配方法的流程框图。

图2为本发明实施例的在风场数据中的不同类别特征间的MMD距离。

图3为本发明实施例的在两个样本集下特征间平均MMD距离T-sne可视化图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明，但不以任何方式限制本发明的范围。

如图1所示，本发明提供的基于关联度对齐的时序数据概念漂移适配方法具体分为如下步骤：对时序信号进行归一化与标准化预处理，将数据按照概率参数重采样构造训练样本集与测试样本集，构建网络损失函数，采用蒙特卡洛积分获得损失函数的近似估计，梯度下降方法迭代更新最优参数，确定最终网络，对未来时序信号进行预测。

本发明实施时，构建时序数据概念漂移适配网络模型具体是：T_x＝20000，T_y＝120，m＝4，u＝1,m＝2000，K＝95，学习率为0.001，迭代阈值Theta＝0.1，最大训练迭代次数为80。

具体步骤如下：

步骤1：对原始时序数据

按照维度进行预处理为

T_x为维度，

T_y为维度，即第n维，yⁿ＝{y_n,1,...,y_n,u}。

步骤1.1：将原始时序数据

进行归一化处理得到

是

按维度取最小值，

是

按维度取最大值；

步骤1.2：将

进行标准化处理得到X，

其中

为

按维度的平均值，

为

按维度计算的标准差。

步骤2：对于X与Y构成的历史数据

其中

为训练样本集的网络输入样本，

为训练标签。相应的，把

接下来的n个采样值，即t到t+n，作为测试样本集

为测试样本集的网络输入样本，

为测试标签。

即计算测试集上网络的预测值

与标签y^t的偏差。

式子计算了训练集样本与测试集样本之间的分布差异，其中

和不考虑训练集和测试集的耦合关系

两部分组成。具体求解如下：

步骤3.2.1：对于

的估计:

(2)假设测试样本集服从的分布为，

依赖于上一时刻的训练数据

与上一时刻的测试数据

即为耦合项，∈_n是随机扰动项，其中

为均值为0，方差为

的正态分布。因此条件分布可以更新为：

(3)对于

进行参数估计，通过最大化下面的式子，找到对应于

的最优参数

步骤3.2.2：对于

的估计，通过一个特征提取器提前训练数据集的映射，

建模训练样本集映射后的条件分布

为

然后建模测试样本集映射后的条件分布

为

其中

为均值，

为相应的方差，

和

都是扰动项，服从标准正态分布。可以得到

的一个闭式解：

求得。

步骤6：采用梯度下降方法迭代更新参数，_τ为迭代次数，

其中

表示第t次任务的损失函数，

采用本发明算法与现有传统非适配方法，分别在MFL数据集和轴承数据集上进行仿真试验，仿真结果如表1：

表1：本发明算法与传统线性回归方法在风场数据集上仿真结果对比

表1反映了本发明算法在风场数据预测平均误差。其中本专利算法结果精度高，鲁棒性强。

图2、图3分别反映了本发明算法在风场数据集中，风速和风向数据预测精度。

以上实验结果验证了本发明算法泛化能力和鲁棒性较好，能够针对时序数据概念漂移完成关联度对齐，方法复杂度低，计算周期短以及可移植性高，预测故障类型精准。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于关联度对齐的时序数据概念漂移适配方法，其特征在于，步骤包括：

步骤1：对原始时序数据

按照维度进行预处理为

T_x为维度，

T_y为维度，即第n维，yⁿ＝{y_n,1,...,y_n,u}；

步骤2：对于X与Y构成的历史数据

其中

为训练样本集的网络输入样本，

为训练标签。相应的，把

接下来的n个采样值，即t到t+n，作为测试样本集

为测试样本集的网络输入样本，

为测试标签；

步骤3：构造网络损失函数，包含两个部分，一部分是训练样本集上的有监督损失l₁，一部分是衡量训练样本集和测试样本集的分布差异l₂；

即计算测试集上网络的预测值

与标签y^t的偏差；

式子计算了训练集样本与测试集样本之间的分布差异，其中

和不考虑训练集和测试集的耦合关系

两部分组成；

求得；

步骤6：采用梯度下降方法迭代更新参数，τ为迭代次数，

其中

表示第t次任务的损失函数，

2.根据权利要求1所述基于关联度对齐的时序数据概念漂移适配方法，其特征在于，步骤1具体包括：

步骤1.1：将原始时序数据

进行归一化处理得到

是

按维度取最小值，

是

按维度取最大值；

步骤1.2：将

进行标准化处理得到X，

其中

为

按维度的平均值，

为

按维度计算的标准差。

3.根据权利要求1所述基于关联度对齐的时序数据概念漂移适配方法，其特征在于，步骤3.2中：对于

的估计：

(1)定义训练样本集与测试样本集的参数Θ′_coup下条件分布等于参数Θ_coup下的联合分布，其中下角标“a”,“e”分别代表“train”,“test”。

(2)假设测试样本集服从的分布为，

依赖于上一时刻的训练数据

与上一时刻的测试数据

即为耦合项，∈_n是随机扰动项，其中

为均值为0，方差为

的正态分布。因此条件分布可以更新为：

(3)对于

进行参数估计，通过最大化下面的式子，找到对应于

的最优参数

4.根据权利要求3所述基于关联度对齐的时序数据概念漂移适配方法，其特征在于，所述步骤3.2中对于

的估计：

通过一个特征提取器提前训练数据集的映射，

建模训练样本集映射后的条件分布

然后建模测试样本集映射后的条件分布

为

其中

为均值，

为相应的方差，

和

都是扰动项，服从标准正态分布。可以得到

的一个闭式解：

5.根据权利要求1所述基于关联度对齐的时序数据概念漂移适配方法，其特征在于，所述步骤6采用梯度下降方法迭代更新参数。