CN111090679B

CN111090679B - 基于时序影响和图嵌入的时序数据表示学习方法

Info

Publication number: CN111090679B
Application number: CN201911055610.0A
Authority: CN
Inventors: 郑松松; 庄越挺; 丁学峰; 杨洋; 程自强; 尹小明; 殷杰
Original assignee: Zhejiang University ZJU; State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Zhejiang Huayun Information Technology Co Ltd; Huzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Changxing Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Zhejiang University ZJU; State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Zhejiang Huayun Information Technology Co Ltd; Huzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Changxing Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-12-05
Anticipated expiration: 2039-10-31
Also published as: CN111090679A

Abstract

本发明公开了基于时序影响和图嵌入的时序数据表示学习方法，涉及一种学习方法。目前的模型都没有考虑子序列对时间信息的敏感性及子序列之间的相关性，会影响对子序列的演化、整个时间序列的演化趋势进行准确地分析和预测。本发明挖掘具有时序影响因子的、具有代表性的子序列，并通过构建时序演化图进一步提取子序列之间的相关性和影响；通过图嵌入算法对时序演化图进行表示学习，得到子序列的表示向量，进而对原时间序列进行表示学习，解决对时间序列的特征提取这一问题。能在复杂的时序数据中挖掘足够多的信息，能充分刻画子序列在时间维度和所在的特征空间内的特征，以辅助我们对时间序列进行分类和异常预测。

Description

基于时序影响和图嵌入的时序数据表示学习方法

技术领域

本发明涉及一种学习方法，尤其涉及基于时序影响和图嵌入的时序数据表示学习方法。

背景技术

时间序列(time series)，是一组按照时间发生的先后顺序进行排列的数据点序列。通常，序列的时间间隔为某一恒定值，如秒、分、小时、天等。时间序列可以看作是一组按照时间排序的随机变量，具有非稳定性(Nonstationarity)和波动幅度随时间变化(Time-varying volatility)的特点，这两个特征使得用传统的统计方法分析时间序列变量变得十分困难。但是生产应用中，大量数据来源都包含了时间信息，并且伴随时间的推移，数据愈加丰富，其分布也可能发生变化。这意味着时序数据更能反应变量的分布和隐含特征，因此时间序列分析也被广泛应用于数理统计、信号处理、模式识别、计量经济学、天气预报、地震预测、通信工程以及绝大多数涉及到时间数据测量的应用科学与工程学。

Xing,Pei,and Keogh指出，时间序列分析所面临的一大挑战，在于很难直接从时序数据中挖掘出显式特征[3]。因此许多研究工作专注于时间序列的特征提取，亦即表示学习，希望充分利用时间这一维度，获取数据中蕴含的丰富信息。总体来说，时间序列的表示学习可以分为以下几类:

1)人工提取特征:在时序数据中提取相关统计量，用这些统计量来表达时间序列的特性。这一类方法通常比较简单和直观，易于理解和实现，但在复杂的时序数据中难以挖掘足够多的信息。

2)基于符号(symbol)的表示学习:对时序数据进行抽象的符号表示，将原始数值映射到给定的符号域。经过符号变换后，可以用符号组成的单词(word)、句子(sentence)来表达时间序列，进而借鉴自然语言处理(NLP,Natural Language Processing)领域的一些方法对原始序列进行特征提取。

3)基于核函数的传统表示学习:在机器学习领域，有一类特征映射叫做核函数(kernel function)，核心思想是通过给定变换，将原始向量映射到新的高维特征空间中，并保证映射后的向量在新空间上保持原有的某些性质。通过巧妙地设计和修改核函数，可以将这种表示方法应用到时间序列上，把原始序列映射到特征空间，然后直接应用到聚类/分类任务中。

4)基于时间间隔和子序列的表示学习:相比于传统的(非)结构化数据，时间序列最大的特点在于时间跨度。而一段时间序列的意义往往通过其包含的部分子序列(subsequence)体现出来。因此一个特征提取的方向是挖掘具有代表性的子序列(timeinterval,shapelets)，然后借助子序列的统计特征或者原始序列与子序列的关系来进行表示学习。这一类方法在部分时间序列分类任务上取得了非常好的效果，并且具有良好的可解释性(interpretability)。

但是过去这些模型都没有考虑：1)子序列在时间这一维度上的特征，即子序列对时间信息的敏感性；2)子序列之间的相关性，即子序列共同出现可能有特别的意义。忽略子序列在不同时刻所表征的不同含义可能会降低对时间序列的建模效果，尤其在时间序列异常检测这一类问题上，因为异常往往出现在某些特定的时间节点；而不充分考虑子序列之间的相关性，则可能使得我们无法对子序列的演化、进而对整个时间序列的演化趋势进行准确地分析和预测。因此，子序列的演化和相关性也是值得关注的挖掘的信息之一。

发明内容

本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进，提供基于时序影响和图嵌入的时序数据表示学习方法，以加强对时间序列的建模效果，以提高分析和预测的准确性为目的。为此，本发明采取以下技术方案。

基于时序影响和图嵌入的时序数据表示学习方法包括步骤：

1)挖掘具有时序影响因子的子序列；

通过定义子序列到原时间序列的有权距离，利用机器学习算法对权重进行优化，进而得到具有代表性的子序列及其最优的时序影响因子；挖掘具有时序影响因子的子序列包括步骤：

11)定义基于子序列到正负样本之间距离的损失函数；

12)求解每个子序列对应的最优时间因子权重；

13)根据损失函数最优值的大小，找到函数值最小的K个子序列作为特征子序列；

2)子序列演化

根据得到特征子序列，进一步地对子序列的演化转移进行刻画，挖掘更深层次的内部演化规律，从而对子序列和原始时间序列进行表示学习；子序列演化包括步骤：

21)对原始时间序列按照特征子序列的长度作片段划分，对每个片段匹配距离其最近的特征子序列，并认为相邻两个片段所对应的特征子序列发生了“转移”，即为子序列的演化；

22)在时间序列集合上统计得到特征子序列的转移概率，进而构建演化图，其中图的节点即为学习得到的具有代表性的子序列，有权边为子序列之间的转移概率；

23)通过图嵌入算法,得到节点即特征子序列的表示向量，再将原始时间序列的每个片段所对应的表示向量拼接起来得到时间序列的表示向量，以应用在分类/异常检测任务中。

本方法挖掘了时间序列中子序列的时序影响和彼此的演化关系，通过挖掘具有时序影响因子的、具有代表性的子序列，并通过构建时序演化图进一步提取子序列之间的相关性和影响。通过图嵌入算法对时序演化图进行表示学习，得到子序列的表示向量，进而对原时间序列进行表示学习，解决对时间序列的特征提取这一问题。其基于时序影响和图嵌入的框架，给定时间序列集合和对序列对应的时间，便可以挖掘得到具有代表性的子序列及其时序影响因子，并在该时间序列集合上构建子序列演化图，结合图嵌入算法对子序列和原时间序列进行表示学习。

作为优选技术手段：在步骤1)中，对子序列到子序列、子序列到时间序列的加权距离进行如下定义：

这里时间序列t＝{s₁,s₂,…s_m}，f(h|u)是以u为参数的函数，用来控制函数域值(scale)。

作为优选技术手段：在定义了如上加权距离后，定义如下损失函数，用机器学习算法得到最优参数：

即遍历所有正负样本对，极大化给定子序列和正负样本对的距离差，也即最小化该距离和的相反数。最后两项为控制模型复杂度而进行的正则化项；其中，

f(h|u)＝log 1p(|u·h|)

α和β是正则化项的权重参数，需要在实际应用中根据数据分布进行调整，一般α取0.1，β取0.05。需要通过上述损失函数，对每个待选子序列求得其最优时序影响因子w_i,u_i，选择损失函数最小的K个子序列作为学习得到的具有代表性的子序列，这里K为模型的超参，代表用于刻画时间序列特征的特征子序列的个数，取决于具体的数据分布和规模。

作为优选技术手段：当在数据集规模为10,00的情况下，K取100。

作为优选技术手段：在步骤2)中，从时间序列集合中统计得到模式图，模式图的节点为具有代表性的子序列，边的添加方式为：将原始时间序列的每一小段按照最近距离的原则对应到A个子序列上；对两两相邻的小段，在其对应到的子序列对上增加一条边，边权为归一化的距离：

然后结合图嵌入算法，对子序列进行表示学习，得到μ(v_i,j)；选择直接调用加权图嵌入算法，算法的输入为一个带权图G，基于随机游走算法对节点路径进行采样，挖掘图的拓扑结构和节点之间的关联关系，迭代更新节点的表示向量，最终输出图G的所有节点的表示向量μ(v)。

作为优选技术手段：得到图G的所有节点的表示向量μ(v)后，将原始时间序列每一小段对应的子序列的表示向量再乘以权重并拼接起来得到时间序列的表示向量：

φ(t)＝(p_i，j*μ(v_i，j))，1≤i≤m，1≤j≤A

有益效果：本技术方案可以挖掘得到具有代表性的子序列及其时序影响因子，并在该时间序列集合上构建子序列演化图，结合图嵌入算法对子序列和原时间序列进行表示学习，能在复杂的时序数据中挖掘足够多的信息，其应用在分类/异常检测任务中，准确性高。具体地，本技术方案可以从大规模时间序列中挖掘出具有代表性(能够较好地区分异常时间序列)的子序列，同时通过图嵌入的方式，对子序列之间的相关性和演化规律进行建模，进而充分刻画子序列在时间维度和所在的特征空间内的特征，以辅助我们对时间序列进行分类和异常预测。

附图说明

图1是本发明的框架图。

图2是本发明的原理图。

图3是本发明的流程图

具体实施方式

以下结合说明书附图对本发明的技术方案做进一步的详细说明。

如图2、3所示，本发明包括步骤：

1)挖掘具有时序影响因子的子序列；

11)定义基于子序列到正负样本之间距离的损失函数；

12)求解每个子序列对应的最优时间因子权重；

2)子序列演化

如图1显示了本“基于时序影响和图嵌入的时序数据表示学习算法”框架。该框架分为两部分，包含挖掘具有时序影响因子的子序列(左)，以及子序列演化图(右)。

在挖掘具有时序影响因子的子序列过程中，通过定义子序列到原时间序列的有权距离，利用机器学习算法对权重进行优化，进而得到具有代表性的子序列及其最优的时序影响因子。具体地，有权距离基于时间偏移(time warping)，同时引入两层时间因子权重，刻画子序列内部随着时间波动的变化情况和子序列在不同时刻出现的意义。如图1的(b)部分，低层时间因子是以天为维度的，描绘子序列在一个月内每天的波动情况，高层时间因子以月份为维度，表示子序列出现在不同月份的重要性。通过定义基于子序列到正负样本之间距离的损失函数，求解每个子序列对应的最优时间因子权重，最后根据损失函数最优值的大小，找到函数值最小的K个子序列作为特征子序列。

在得到特征子序列后，模型进一步地对子序列的演化转移进行刻画，挖掘更深层次的内部演化规律，从而对子序列和原始时间序列进行表示学习。如图1的(a)部分所示，首先对原始时间序列按照特征子序列的长度作片段划分，对每个片段匹配距离其最近的特征子序列，并认为相邻两个片段所对应的特征子序列发生了“转移”。这种假设是合理的，因为时间序列的主要特点就是按照某种内在规律随着时间不断变化，从子序列的角度来看即为子序列的演化。然后在时间序列集合上统计得到特征子序列的转移概率，进而构建演化图，其中图的节点即为学习得到的具有代表性的子序列，有权边为子序列之间的转移概率。最后通过图嵌入算法(deepwalk)得到节点即特征子序列的表示向量，再将原始时间序列的每个片段所对应的表示向量拼接起来得到时间序列的表示向量，应用在分类/异常检测任务中。

如图1的左部分所示，在具有时序影响因子的子序列挖掘中，模型首先对子序列到子序列、子序列到时间序列的加权距离进行如下定义：

在定义了如上加权距离后，定义如下损失函数，用机器学习算法得到最优参数：

即遍历所有正负样本对，极大化给定子序列和正负样本对的距离差，也即最小化该距离和的相反数。最后两项为控制模型复杂度而进行的正则化项。其中，

f(h|u)＝log 1p(|u·h|)

α和β是正则化项的权重参数，需要在实际应用中根据数据分布进行调整，一般α取0.1，β取0.05。需要通过上述损失函数，对每个待选子序列求得其最优时序影响因子w_i,u_i，选择损失函数最小的K个子序列作为学习得到的具有代表性的子序列。这里K为模型的超参，代表用于刻画时间序列特征的特征子序列的个数，取决于具体的数据分布和规模，在数据集规模为10,000左右的情况下，K一般取100。

如图1的右部分所示，模型首先从时间序列集合中统计得到该模式图，节点为上述提及的具有代表性的子序列，边的添加方式为：将原始时间序列的每一小段按照最近距离的原则对应到A个子序列上；对两两相邻的小段(segment)，在其对应到的子序列对上增加一条边，边权为归一化的距离：

然后结合图嵌入算法(deepwalk)，对子序列进行表示学习，得到μ(v_i,j)。这里选择直接调用加权deepwalk算法，该算法的输入为一个带权图G，基于random walk算法对节点路径进行采样，挖掘图的拓扑结构和节点之间的关联关系，迭代更新节点的表示向量，最终输出图G的所有节点的表示向量μ(v)。

最后将原始时间序列每一小段对应的子序列的表示向量再乘以权重并拼接起来得到时间序列的表示向量：

φ(t)＝(P_i,j*μ(V_i,j))，1≤i≤m，1≤j≤A

以下通过实验验证本发明方法的优点

一、数据说明

数据主要来源于国家电网用电信息采集系统，具体包括采集系统中每户的单日用电数据，覆盖范围为单个用户至少一年的用电数据。电力数据(包括电能，负荷)由电表采集获得，电表会定期地发送不同类型的采集数据给对应的数据采集终端。

实验采集了2017年全省1,433例窃电用户的全年用电数据(365天)，并采样这些用户所在台区的所有用户的全年用电数据，共计60,872例。用电数据包含尖、峰、平、谷四个时段以及当日总用电量。实验目标是给定一个用户一年的用电数据，判断该用户在这一年内是否发生过窃电行为。

二、基准算法说明

主要介绍用于比较的几类算法的基本情况。

· 人工提取特征，主要包括用电量的均值、方差、峰谷比等结合专家经验得到的特征。

· 1-NN-DTW，该方法基于DTW(dynamic time warping)距离，用和测试样本最近的训练样本的标签作为输出。

· 基于子序列的方法，如Shapelets-DTW(decision trees)，Bag-of-Shapelets(BoS)。

· 深度模型，如LSTM,VAE。

2.3算法性能比较

测试结果如下表所示。

可以看到，本方法在Precision和F1这两个指标上都取得了较为理想的结果。

Precision和F1是预测任务中常用的衡量指标，含义如下：

其中TP表示True Positive，即真实标签是正例而分类器也判定为正例(Positive)；FP表示False Positive，即真实标签是负例而分类器判定为正例(Positive)；FN表示False Negative，即真实标签是正例而分类器判定负例(Negative)；TN表示TrueNegative，即真实标签是负例而分类器也判定负例(Negative)。

可以看到，已有方法在按年预测的设定下有较高的准确率(accuracy)，但这主要是由于正负样本比较为悬殊；而在精确率(Precision)和以及F1值的比较上，已有方法明显较低，尤其是Precision很难超过20％，而提出的T2G+Features模型可以大大提高精准率，Precision可以达到50％，这对实际应用，比如窃电排查来说是十分重要的，因为精确率意味着排查成本的降低和排查效率的提高。从综合指标F1来看，T2G+Features模型也击败了众多已有的方法(22.37％vs.17.39％)，取得了比较理想的结果。

以上图1、2所示的基于时序影响和图嵌入的时序数据表示学习方法是本发明的具体实施例，已经体现出本发明实质性特点和进步，可根据实际的使用需要，在本发明的启示下，对其进行形状、结构等方面的等同修改，均在本方案的保护范围之列。

Claims

1.基于时序影响和图嵌入的数据表示学习的窃电判断方法，其特征在于，基于时序影响和图嵌入的数据表示学习的方法包括步骤：

1)挖掘具有时序影响因子的子序列；

11)定义基于子序列到正负样本之间距离的损失函数；

12)求解每个子序列对应的最优时间因子权重；

2)子序列演化

23)通过图嵌入算法,得到节点即特征子序列的表示向量，再将原始时间序列的每个片段所对应的表示向量拼接起来得到时间序列的表示向量，以应用在分类/异常检测任务中；

在窃电判断时，获取每户的单日用电数据，覆盖范围为单个用户至少一年的用电数据；基于时序影响和图嵌入的数据表示学习方法构建的模型，判断该用户在这一年内是否发生过窃电行为。

2.根据权利要求1所述的基于时序影响和图嵌入的数据表示学习的窃电判断方法，其特征在于：在步骤1)中，对子序列到子序列、子序列到时间序列的加权距离进行如下定义：

这里时间序列t＝{s₁,s₂,…s_m}，f(h|u)是以u为参数的函数，用来控制函数域值(scale),v_i表示子序列v的第i个元素，同理s_i表示子序列s的第i个元素；而代表子序列v到时间序列t的第m个子序列s_m的距离。

3.根据权利要求2所述的基于时序影响和图嵌入的数据表示学习的窃电判断方法，其特征在于：在定义了如上加权距离后，定义如下损失函数，用机器学习算法得到最优参数：

即遍历所有正负样本对，极大化给定子序列和正负样本对的距离差，也即最小化该距离和的相反数；最后两项为控制模型复杂度而进行的正则化项；其中，

f(h|u)＝log1p(|u·h|)

α和β是正则化项的权重参数，需要在实际应用中根据数据分布进行调整，一般α取0.1，β取0.05；需要通过上述损失函数，对每个待选子序列求得其最优时序影响因子w_i,u_i，选择损失函数最小的K个子序列作为学习得到的具有代表性的子序列，这里K为模型的超参，代表用于刻画时间序列特征的特征子序列的个数，取决于具体的数据分布和规模。

4.根据权利要求3所述的基于时序影响和图嵌入的数据表示学习的窃电判断方法，其特征在于：当在数据集规模为10,00的情况下，K取100。

5.根据权利要求1所述的基于时序影响和图嵌入的数据表示学习的窃电判断方法，其特征在于：在步骤2)中，从时间序列集合中统计得到模式图，模式图的节点为具有代表性的子序列，边的添加方式为：将原始时间序列的每一小段按照最近距离的原则对应到A个子序列上；对两两相邻的小段，在其对应到的子序列对上增加一条边，边权为归一化的距离：

6.根据权利要求5所述的基于时序影响和图嵌入的数据表示学习的窃电判断方法，其特征在于：得到图G的所有节点的表示向量μ(v)后，将原始时间序列每一小段对应的子序列的表示向量再乘以权重并拼接起来得到时间序列的表示向量：

φ(t)＝(p_i，j*μ(v_i，j))，1≤i≤m，1≤j≤A。