CN114970674A - 一种基于关联度对齐的时序数据概念漂移适配方法 - Google Patents
一种基于关联度对齐的时序数据概念漂移适配方法 Download PDFInfo
- Publication number
- CN114970674A CN114970674A CN202210413557.2A CN202210413557A CN114970674A CN 114970674 A CN114970674 A CN 114970674A CN 202210413557 A CN202210413557 A CN 202210413557A CN 114970674 A CN114970674 A CN 114970674A
- Authority
- CN
- China
- Prior art keywords
- sample set
- test
- distribution
- data
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Abstract
本发明提供一种基于关联度对齐的时序数据概念漂移适配方法,对分布不同的时序数据进行分析并快速建立量化模型,从数据分布对齐角度构建基于关联度匹配的时序预测,从损失函数可微分角度设计蒙特卡洛求解参数,可对不同工况下的不确定时序信号精准地预测。本发明复杂度低,计算周期短以及可移植性高。且利用全面分析时序信号所含信息,为不确定环境下存在概念漂移下系统的安全和维护提供科学分析依据,提高网络对未来复杂时刻的预测能力。通过动态参数寻优网络,弥补专家经验的缺失,鲁棒性强,短时间内实现未来数据的预测,降低概念漂移造成的社会危害。
Description
技术领域
本发明属于时序数据处理技术领域,涉及概念漂移学习技术,具体涉及一种基于关联度对齐的时序数据概念漂移适配方法。
背景技术
随着信息和传感技术的发展,现实世界中充满了各种各样的时序数据。因此,基于数据驱动的人工智能时序数据预测方法蓬勃发展。这些技术的成功取决于一个基本假设,训练数据与测试数据服从相同的分布。不幸的是,数据的统计特性在充满不确定和非平稳环境中随时间动态变化。例如COVID-19之后的消费模式数据、复杂工作条件下的机器退化数据、垃圾邮件和金融欺诈检测数据、气候预测和客户对在线购物的偏好数据等。训练样本与测试样本分布存在差异情况下模型的泛化能力无法保证。这种情况导致了时序数据的概念漂移问题,即目标变量的统计特性随着时间以不可预见的方式变化,这是大数据时代的普遍问题,其本质是数据数据分布与统计特征的不确定性。
当前一种解决策略是通过探索变量之间的相关性和未来数据分布差距的不确定性来学习自适应数据预测与决策系统。概念漂移下的这种策略研究可以分为三个部分:漂移检测、漂移理解和漂移适应。具体来说,漂移检测可以通过识别变化点或变化时间区间的技术和机制来对概念漂移进行表征和量化,漂移理解是描述漂移的严重程度,漂移适应是根据漂移对现有的学习模型进行更新。尽管概念漂移的解决上取得了明显的成功,但现有的大多数研究很少关注存在虚假相关性的概念漂移场景,这实际上在时序数据中更为常见。例如背景噪音的干扰,风场数据中障碍物对采集数据的影响,多数情况下数据中存在潜在的背景变量伪相关性,当其对模型影响度越高,模型性能的稳定性越低。因此,对于时序数据通过建模不确定性来缓解虚假相关性所造成的偏差,以应对概念漂移,尚没有形成快速稳定的预测方法,因此亟待将智能化技术与时序数据分析有效结合一起,针对概念漂移问题,形成完备的序列预测方法。
发明内容
针对上述现有技术的不足,本发明提供一种基于关联度对齐的时序数据概念漂移预测方法,对分布不同的时序数据进行分析并快速建立量化模型,从数据分布对齐角度构建基于关联度匹配的时序预测,从损失函数可微分角度设计蒙特卡洛求解参数。本发明可对不同工况下的不确定时序信号精准地预测,算法复杂度低,计算周期短以及可移植性高。
本发明的技术方案是:
一种基于关联度对齐的时序数据概念漂移适配方法,包括如下步骤:
步骤2:对于X与Y构成的历史数据按固定滑窗大小m服从概率参数Θ采样,得到包含N个样本的训练样本集 其中为训练样本集的网络输入样本,为训练标签。相应的,把接下来的n个采样值,即t到t+n,作为测试样本集 为测试样本集的网络输入样本,为测试标签。
步骤3:构造网络损失函数,包含两个部分,一部分是训练样本集上的有监督损失l1,一部分是衡量训练样本集和测试样本集的分布差异l2。
步骤3.2:构造网络损失函数中训练样本集与测试样本集的分布差异,用wasserstein距离来度量,表示为式子计算了训练集样本与测试集样本之间的分布差异,其中代表概率分布。然后l2损失被分解为考虑训练集和测试集的耦合关系和不考虑训练集和测试集的耦合关系两部分组成。具体求解如下:
(1)定义训练样本集与测试样本集的参数Θ′coup下条件分布等于参数Θcoup下的联合分布,下角标“a”,“e”代表“train”,“test”。
(2)假设测试样本集服从的分布为,
步骤3.2.2:对于的估计,通过一个特征提取器提前训练数据集的映射,建模训练样本集映射后的条件分布为然后建模测试样本集映射后的条件分布为其中为均值,为相应的方差,和都是扰动项,服从标准正态分布。可以得到的一个闭式解:
步骤5:由于原损失函数积分很难求解,采用蒙特卡洛积分获得损失函数近似估计,具体的,重复K次随机采样,则最优参数表达为:
与现有技术相比,本发明的有益效果是:
1全面分析时序信号所含信息,为不确定环境下存在概念漂移下系统的安全和维护提供科学分析依据,提高网络对未来复杂时刻的预测能力。
2通过动态参数寻优网络,弥补专家经验的缺失,鲁棒性强,短时间内实现未来数据的预测,降低概念漂移造成的社会危害。
3采用蒙特卡洛可微方式,通过损失函数步进反馈确定网络结构,实现对不同样本集的自适应性,使网络在时序领域具有普适性和可移植性。
附图说明
图1为本发明实施例基于关联度对齐的时序数据概念漂移适配方法的流程框图。
图2为本发明实施例的在风场数据中的不同类别特征间的MMD距离。
图3为本发明实施例的在两个样本集下特征间平均MMD距离T-sne可视化图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明,但不以任何方式限制本发明的范围。
如图1所示,本发明提供的基于关联度对齐的时序数据概念漂移适配方法具体分为如下步骤:对时序信号进行归一化与标准化预处理,将数据按照概率参数重采样构造训练样本集与测试样本集,构建网络损失函数,采用蒙特卡洛积分获得损失函数的近似估计,梯度下降方法迭代更新最优参数,确定最终网络,对未来时序信号进行预测。
本发明实施时,构建时序数据概念漂移适配网络模型具体是:Tx=20000,Ty=120,m=4,u=1,m=2000,K=95,学习率为0.001,迭代阈值Theta=0.1,最大训练迭代次数为80。
具体步骤如下:
步骤2:对于X与Y构成的历史数据按固定滑窗大小m服从概率参数Θ采样,得到包含N个样本的训练样本集 其中为训练样本集的网络输入样本,为训练标签。相应的,把接下来的n个采样值,即t到t+n,作为测试样本集 为测试样本集的网络输入样本,为测试标签。
步骤3:构造网络损失函数,包含两个部分,一部分是训练样本集上的有监督损失l1,一部分是衡量训练样本集和测试样本集的分布差异l2。
步骤3.2:构造网络损失函数中训练样本集与测试样本集的分布差异,用wasserstein距离来度量,表示为式子计算了训练集样本与测试集样本之间的分布差异,其中代表概率分布。然后l2损失被分解为考虑训练集和测试集的耦合关系和不考虑训练集和测试集的耦合关系两部分组成。具体求解如下:
(1)定义训练样本集与测试样本集的参数Θ′coup下条件分布等于参数Θcoup下的联合分布,下角标“a”,“e”代表“train”,“test”。
(2)假设测试样本集服从的分布为,
步骤3.2.2:对于的估计,通过一个特征提取器提前训练数据集的映射,建模训练样本集映射后的条件分布为然后建模测试样本集映射后的条件分布为其中为均值,为相应的方差,和都是扰动项,服从标准正态分布。可以得到的一个闭式解:
步骤5:由于原损失函数积分很难求解,采用蒙特卡洛积分获得损失函数近似估计,具体的,重复K次随机采样,则最优参数表达为:
采用本发明算法与现有传统非适配方法,分别在MFL数据集和轴承数据集上进行仿真试验,仿真结果如表1:
表1:本发明算法与传统线性回归方法在风场数据集上仿真结果对比
表1反映了本发明算法在风场数据预测平均误差。其中本专利算法结果精度高,鲁棒性强。
图2、图3分别反映了本发明算法在风场数据集中,风速和风向数据预测精度。
以上实验结果验证了本发明算法泛化能力和鲁棒性较好,能够针对时序数据概念漂移完成关联度对齐,方法复杂度低,计算周期短以及可移植性高,预测故障类型精准。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (5)
1.一种基于关联度对齐的时序数据概念漂移适配方法,其特征在于,步骤包括:
步骤2:对于X与Y构成的历史数据按固定滑窗大小m服从概率参数Θ采样,得到包含N个样本的训练样本集其中为训练样本集的网络输入样本,为训练标签。相应的,把接下来的n个采样值,即t到t+n,作为测试样本集 为测试样本集的网络输入样本,为测试标签;
步骤3:构造网络损失函数,包含两个部分,一部分是训练样本集上的有监督损失l1,一部分是衡量训练样本集和测试样本集的分布差异l2;
步骤3.2:构造网络损失函数中训练样本集与测试样本集的分布差异,用wasserstein距离来度量,表示为式子计算了训练集样本与测试集样本之间的分布差异,其中代表概率分布。然后l2损失被分解为考虑训练集和测试集的耦合关系和不考虑训练集和测试集的耦合关系两部分组成;
步骤5:由于原损失函数积分很难求解,采用蒙特卡洛积分获得损失函数近似估计,具体的,重复K次随机采样,则最优参数表达为:
5.根据权利要求1所述基于关联度对齐的时序数据概念漂移适配方法,其特征在于,所述步骤6采用梯度下降方法迭代更新参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210413557.2A CN114970674A (zh) | 2022-04-15 | 2022-04-15 | 一种基于关联度对齐的时序数据概念漂移适配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210413557.2A CN114970674A (zh) | 2022-04-15 | 2022-04-15 | 一种基于关联度对齐的时序数据概念漂移适配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114970674A true CN114970674A (zh) | 2022-08-30 |
Family
ID=82976778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210413557.2A Pending CN114970674A (zh) | 2022-04-15 | 2022-04-15 | 一种基于关联度对齐的时序数据概念漂移适配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970674A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115879569A (zh) * | 2023-03-08 | 2023-03-31 | 齐鲁工业大学(山东省科学院) | 一种IoT观测数据的在线学习方法及系统 |
-
2022
- 2022-04-15 CN CN202210413557.2A patent/CN114970674A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115879569A (zh) * | 2023-03-08 | 2023-03-31 | 齐鲁工业大学(山东省科学院) | 一种IoT观测数据的在线学习方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sangiorgio et al. | Robustness of LSTM neural networks for multi-step forecasting of chaotic time series | |
CN116757534B (zh) | 一种基于神经训练网络的智能冰箱可靠性分析方法 | |
CN114422381A (zh) | 通信网络流量预测方法、系统、存储介质及计算机设备 | |
CN110956309A (zh) | 基于crf和lstm的流程活动预测方法 | |
CN114970926A (zh) | 一种模型训练方法、企业经营风险预测方法和装置 | |
CN112765894B (zh) | 一种基于k-lstm的铝电解槽状态预测方法 | |
CN114970674A (zh) | 一种基于关联度对齐的时序数据概念漂移适配方法 | |
CN113449919B (zh) | 一种基于特征和趋势感知的用电量预测方法及系统 | |
CN108984851B (zh) | 一种带时延估计的加权高斯模型软测量建模方法 | |
CN116303786B (zh) | 一种基于多维数据融合算法的区块链金融大数据管理系统 | |
JP2022521957A (ja) | データ分析方法、デバイス及びコンピュータプログラム | |
CN115482877A (zh) | 一种基于时序图网络的发酵过程软测量建模方法 | |
CN115081609A (zh) | 一种智能决策中的加速方法、终端设备及存储介质 | |
Adeyemo et al. | Surrogate-based digital twin for predictive fault modelling and testing of cyber physical systems | |
Jerome et al. | Forecasting and anomaly detection on application metrics using lstm | |
CN113139332A (zh) | 一种自动化模型构建方法、装置及设备 | |
CN112348275A (zh) | 一种基于在线增量学习的区域生态环境变化预测方法 | |
CN112231925A (zh) | 一种考虑状态依赖时滞的剩余寿命预测方法 | |
CN111126694A (zh) | 一种时间序列数据预测方法、系统、介质及设备 | |
Zheng et al. | Research on Predicting Remaining Useful Life of Equipment Based on Health Index | |
Molawade et al. | Statistical Review of Dataset and Mathematical Model for Software Reliability Prediction Using Linear Regression | |
CN115953031A (zh) | 风险预测模型的训练方法及装置、计算机可读存储介质 | |
CN113657544A (zh) | 一种基于融合神经网络的传感器节点数据预测方法 | |
CN115600105A (zh) | 基于mic-lstm的水体缺失数据插补方法及装置 | |
CN117875483A (zh) | 基于大数据的配网作业安全分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20220830 |