CN111090679B - 基于时序影响和图嵌入的时序数据表示学习方法 - Google Patents
基于时序影响和图嵌入的时序数据表示学习方法 Download PDFInfo
- Publication number
- CN111090679B CN111090679B CN201911055610.0A CN201911055610A CN111090679B CN 111090679 B CN111090679 B CN 111090679B CN 201911055610 A CN201911055610 A CN 201911055610A CN 111090679 B CN111090679 B CN 111090679B
- Authority
- CN
- China
- Prior art keywords
- time sequence
- subsequence
- graph
- subsequences
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000010586 diagram Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 27
- 230000005611 electricity Effects 0.000 claims description 20
- 238000005065 mining Methods 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 4
- 238000005295 random walk Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 4
- 230000035945 sensitivity Effects 0.000 abstract description 2
- 230000005856 abnormality Effects 0.000 abstract 1
- 239000000284 extract Substances 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012731 temporal analysis Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000000700 time series analysis Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于时序影响和图嵌入的时序数据表示学习方法,涉及一种学习方法。目前的模型都没有考虑子序列对时间信息的敏感性及子序列之间的相关性,会影响对子序列的演化、整个时间序列的演化趋势进行准确地分析和预测。本发明挖掘具有时序影响因子的、具有代表性的子序列,并通过构建时序演化图进一步提取子序列之间的相关性和影响;通过图嵌入算法对时序演化图进行表示学习,得到子序列的表示向量,进而对原时间序列进行表示学习,解决对时间序列的特征提取这一问题。能在复杂的时序数据中挖掘足够多的信息,能充分刻画子序列在时间维度和所在的特征空间内的特征,以辅助我们对时间序列进行分类和异常预测。
Description
技术领域
本发明涉及一种学习方法,尤其涉及基于时序影响和图嵌入的时序数据表示学习方法。
背景技术
时间序列(time series),是一组按照时间发生的先后顺序进行排列的数据点序列。通常,序列的时间间隔为某一恒定值,如秒、分、小时、天等。时间序列可以看作是一组按照时间排序的随机变量,具有非稳定性(Nonstationarity)和波动幅度随时间变化(Time-varying volatility)的特点,这两个特征使得用传统的统计方法分析时间序列变量变得十分困难。但是生产应用中,大量数据来源都包含了时间信息,并且伴随时间的推移,数据愈加丰富,其分布也可能发生变化。这意味着时序数据更能反应变量的分布和隐含特征,因此时间序列分析也被广泛应用于数理统计、信号处理、模式识别、计量经济学、天气预报、地震预测、通信工程以及绝大多数涉及到时间数据测量的应用科学与工程学。
Xing,Pei,and Keogh指出,时间序列分析所面临的一大挑战,在于很难直接从时序数据中挖掘出显式特征[3]。因此许多研究工作专注于时间序列的特征提取,亦即表示学习,希望充分利用时间这一维度,获取数据中蕴含的丰富信息。总体来说,时间序列的表示学习可以分为以下几类:
1)人工提取特征:在时序数据中提取相关统计量,用这些统计量来表达时间序列的特性。这一类方法通常比较简单和直观,易于理解和实现,但在复杂的时序数据中难以挖掘足够多的信息。
2)基于符号(symbol)的表示学习:对时序数据进行抽象的符号表示,将原始数值映射到给定的符号域。经过符号变换后,可以用符号组成的单词(word)、句子(sentence)来表达时间序列,进而借鉴自然语言处理(NLP,Natural Language Processing)领域的一些方法对原始序列进行特征提取。
3)基于核函数的传统表示学习:在机器学习领域,有一类特征映射叫做核函数(kernel function),核心思想是通过给定变换,将原始向量映射到新的高维特征空间中,并保证映射后的向量在新空间上保持原有的某些性质。通过巧妙地设计和修改核函数,可以将这种表示方法应用到时间序列上,把原始序列映射到特征空间,然后直接应用到聚类/分类任务中。
4)基于时间间隔和子序列的表示学习:相比于传统的(非)结构化数据,时间序列最大的特点在于时间跨度。而一段时间序列的意义往往通过其包含的部分子序列(subsequence)体现出来。因此一个特征提取的方向是挖掘具有代表性的子序列(timeinterval,shapelets),然后借助子序列的统计特征或者原始序列与子序列的关系来进行表示学习。这一类方法在部分时间序列分类任务上取得了非常好的效果,并且具有良好的可解释性(interpretability)。
但是过去这些模型都没有考虑:1)子序列在时间这一维度上的特征,即子序列对时间信息的敏感性;2)子序列之间的相关性,即子序列共同出现可能有特别的意义。忽略子序列在不同时刻所表征的不同含义可能会降低对时间序列的建模效果,尤其在时间序列异常检测这一类问题上,因为异常往往出现在某些特定的时间节点;而不充分考虑子序列之间的相关性,则可能使得我们无法对子序列的演化、进而对整个时间序列的演化趋势进行准确地分析和预测。因此,子序列的演化和相关性也是值得关注的挖掘的信息之一。
发明内容
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供基于时序影响和图嵌入的时序数据表示学习方法,以加强对时间序列的建模效果,以提高分析和预测的准确性为目的。为此,本发明采取以下技术方案。
基于时序影响和图嵌入的时序数据表示学习方法包括步骤:
1)挖掘具有时序影响因子的子序列;
通过定义子序列到原时间序列的有权距离,利用机器学习算法对权重进行优化,进而得到具有代表性的子序列及其最优的时序影响因子;挖掘具有时序影响因子的子序列包括步骤:
11)定义基于子序列到正负样本之间距离的损失函数;
12)求解每个子序列对应的最优时间因子权重;
13)根据损失函数最优值的大小,找到函数值最小的K个子序列作为特征子序列;
2)子序列演化
根据得到特征子序列,进一步地对子序列的演化转移进行刻画,挖掘更深层次的内部演化规律,从而对子序列和原始时间序列进行表示学习;子序列演化包括步骤:
21)对原始时间序列按照特征子序列的长度作片段划分,对每个片段匹配距离其最近的特征子序列,并认为相邻两个片段所对应的特征子序列发生了“转移”,即为子序列的演化;
22)在时间序列集合上统计得到特征子序列的转移概率,进而构建演化图,其中图的节点即为学习得到的具有代表性的子序列,有权边为子序列之间的转移概率;
23)通过图嵌入算法,得到节点即特征子序列的表示向量,再将原始时间序列的每个片段所对应的表示向量拼接起来得到时间序列的表示向量,以应用在分类/异常检测任务中。
本方法挖掘了时间序列中子序列的时序影响和彼此的演化关系,通过挖掘具有时序影响因子的、具有代表性的子序列,并通过构建时序演化图进一步提取子序列之间的相关性和影响。通过图嵌入算法对时序演化图进行表示学习,得到子序列的表示向量,进而对原时间序列进行表示学习,解决对时间序列的特征提取这一问题。其基于时序影响和图嵌入的框架,给定时间序列集合和对序列对应的时间,便可以挖掘得到具有代表性的子序列及其时序影响因子,并在该时间序列集合上构建子序列演化图,结合图嵌入算法对子序列和原时间序列进行表示学习。
作为优选技术手段:在步骤1)中,对子序列到子序列、子序列到时间序列的加权距离进行如下定义:
这里时间序列t={s1,s2,…sm},f(h|u)是以u为参数的函数,用来控制函数域值(scale)。
作为优选技术手段:在定义了如上加权距离后,定义如下损失函数,用机器学习算法得到最优参数:
即遍历所有正负样本对,极大化给定子序列和正负样本对的距离差,也即最小化该距离和的相反数。最后两项为控制模型复杂度而进行的正则化项;其中,
f(h|u)=log 1p(|u·h|)
α和β是正则化项的权重参数,需要在实际应用中根据数据分布进行调整,一般α取0.1,β取0.05。需要通过上述损失函数,对每个待选子序列求得其最优时序影响因子wi,ui,选择损失函数最小的K个子序列作为学习得到的具有代表性的子序列,这里K为模型的超参,代表用于刻画时间序列特征的特征子序列的个数,取决于具体的数据分布和规模。
作为优选技术手段:当在数据集规模为10,00的情况下,K取100。
作为优选技术手段:在步骤2)中,从时间序列集合中统计得到模式图,模式图的节点为具有代表性的子序列,边的添加方式为:将原始时间序列的每一小段按照最近距离的原则对应到A个子序列上;对两两相邻的小段,在其对应到的子序列对上增加一条边,边权为归一化的距离:
然后结合图嵌入算法,对子序列进行表示学习,得到μ(vi,j);选择直接调用加权图嵌入算法,算法的输入为一个带权图G,基于随机游走算法对节点路径进行采样,挖掘图的拓扑结构和节点之间的关联关系,迭代更新节点的表示向量,最终输出图G的所有节点的表示向量μ(v)。
作为优选技术手段:得到图G的所有节点的表示向量μ(v)后,将原始时间序列每一小段对应的子序列的表示向量再乘以权重并拼接起来得到时间序列的表示向量:
φ(t)=(pi,j*μ(vi,j)),1≤i≤m,1≤j≤A
有益效果:本技术方案可以挖掘得到具有代表性的子序列及其时序影响因子,并在该时间序列集合上构建子序列演化图,结合图嵌入算法对子序列和原时间序列进行表示学习,能在复杂的时序数据中挖掘足够多的信息,其应用在分类/异常检测任务中,准确性高。具体地,本技术方案可以从大规模时间序列中挖掘出具有代表性(能够较好地区分异常时间序列)的子序列,同时通过图嵌入的方式,对子序列之间的相关性和演化规律进行建模,进而充分刻画子序列在时间维度和所在的特征空间内的特征,以辅助我们对时间序列进行分类和异常预测。
附图说明
图1是本发明的框架图。
图2是本发明的原理图。
图3是本发明的流程图
具体实施方式
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
如图2、3所示,本发明包括步骤:
1)挖掘具有时序影响因子的子序列;
通过定义子序列到原时间序列的有权距离,利用机器学习算法对权重进行优化,进而得到具有代表性的子序列及其最优的时序影响因子;挖掘具有时序影响因子的子序列包括步骤:
11)定义基于子序列到正负样本之间距离的损失函数;
12)求解每个子序列对应的最优时间因子权重;
13)根据损失函数最优值的大小,找到函数值最小的K个子序列作为特征子序列;
2)子序列演化
根据得到特征子序列,进一步地对子序列的演化转移进行刻画,挖掘更深层次的内部演化规律,从而对子序列和原始时间序列进行表示学习;子序列演化包括步骤:
21)对原始时间序列按照特征子序列的长度作片段划分,对每个片段匹配距离其最近的特征子序列,并认为相邻两个片段所对应的特征子序列发生了“转移”,即为子序列的演化;
22)在时间序列集合上统计得到特征子序列的转移概率,进而构建演化图,其中图的节点即为学习得到的具有代表性的子序列,有权边为子序列之间的转移概率;
23)通过图嵌入算法,得到节点即特征子序列的表示向量,再将原始时间序列的每个片段所对应的表示向量拼接起来得到时间序列的表示向量,以应用在分类/异常检测任务中。
如图1显示了本“基于时序影响和图嵌入的时序数据表示学习算法”框架。该框架分为两部分,包含挖掘具有时序影响因子的子序列(左),以及子序列演化图(右)。
在挖掘具有时序影响因子的子序列过程中,通过定义子序列到原时间序列的有权距离,利用机器学习算法对权重进行优化,进而得到具有代表性的子序列及其最优的时序影响因子。具体地,有权距离基于时间偏移(time warping),同时引入两层时间因子权重,刻画子序列内部随着时间波动的变化情况和子序列在不同时刻出现的意义。如图1的(b)部分,低层时间因子是以天为维度的,描绘子序列在一个月内每天的波动情况,高层时间因子以月份为维度,表示子序列出现在不同月份的重要性。通过定义基于子序列到正负样本之间距离的损失函数,求解每个子序列对应的最优时间因子权重,最后根据损失函数最优值的大小,找到函数值最小的K个子序列作为特征子序列。
在得到特征子序列后,模型进一步地对子序列的演化转移进行刻画,挖掘更深层次的内部演化规律,从而对子序列和原始时间序列进行表示学习。如图1的(a)部分所示,首先对原始时间序列按照特征子序列的长度作片段划分,对每个片段匹配距离其最近的特征子序列,并认为相邻两个片段所对应的特征子序列发生了“转移”。这种假设是合理的,因为时间序列的主要特点就是按照某种内在规律随着时间不断变化,从子序列的角度来看即为子序列的演化。然后在时间序列集合上统计得到特征子序列的转移概率,进而构建演化图,其中图的节点即为学习得到的具有代表性的子序列,有权边为子序列之间的转移概率。最后通过图嵌入算法(deepwalk)得到节点即特征子序列的表示向量,再将原始时间序列的每个片段所对应的表示向量拼接起来得到时间序列的表示向量,应用在分类/异常检测任务中。
如图1的左部分所示,在具有时序影响因子的子序列挖掘中,模型首先对子序列到子序列、子序列到时间序列的加权距离进行如下定义:
这里时间序列t={s1,s2,…sm},f(h|u)是以u为参数的函数,用来控制函数域值(scale)。
在定义了如上加权距离后,定义如下损失函数,用机器学习算法得到最优参数:
即遍历所有正负样本对,极大化给定子序列和正负样本对的距离差,也即最小化该距离和的相反数。最后两项为控制模型复杂度而进行的正则化项。其中,
f(h|u)=log 1p(|u·h|)
α和β是正则化项的权重参数,需要在实际应用中根据数据分布进行调整,一般α取0.1,β取0.05。需要通过上述损失函数,对每个待选子序列求得其最优时序影响因子wi,ui,选择损失函数最小的K个子序列作为学习得到的具有代表性的子序列。这里K为模型的超参,代表用于刻画时间序列特征的特征子序列的个数,取决于具体的数据分布和规模,在数据集规模为10,000左右的情况下,K一般取100。
如图1的右部分所示,模型首先从时间序列集合中统计得到该模式图,节点为上述提及的具有代表性的子序列,边的添加方式为:将原始时间序列的每一小段按照最近距离的原则对应到A个子序列上;对两两相邻的小段(segment),在其对应到的子序列对上增加一条边,边权为归一化的距离:
然后结合图嵌入算法(deepwalk),对子序列进行表示学习,得到μ(vi,j)。这里选择直接调用加权deepwalk算法,该算法的输入为一个带权图G,基于random walk算法对节点路径进行采样,挖掘图的拓扑结构和节点之间的关联关系,迭代更新节点的表示向量,最终输出图G的所有节点的表示向量μ(v)。
最后将原始时间序列每一小段对应的子序列的表示向量再乘以权重并拼接起来得到时间序列的表示向量:
φ(t)=(Pi,j*μ(Vi,j)),1≤i≤m,1≤j≤A
以下通过实验验证本发明方法的优点
一、数据说明
数据主要来源于国家电网用电信息采集系统,具体包括采集系统中每户的单日用电数据,覆盖范围为单个用户至少一年的用电数据。电力数据(包括电能,负荷)由电表采集获得,电表会定期地发送不同类型的采集数据给对应的数据采集终端。
实验采集了2017年全省1,433例窃电用户的全年用电数据(365天),并采样这些用户所在台区的所有用户的全年用电数据,共计60,872例。用电数据包含尖、峰、平、谷四个时段以及当日总用电量。实验目标是给定一个用户一年的用电数据,判断该用户在这一年内是否发生过窃电行为。
二、基准算法说明
主要介绍用于比较的几类算法的基本情况。
· 人工提取特征,主要包括用电量的均值、方差、峰谷比等结合专家经验得到的特征。
· 1-NN-DTW,该方法基于DTW(dynamic time warping)距离,用和测试样本最近的训练样本的标签作为输出。
· 基于子序列的方法,如Shapelets-DTW(decision trees),Bag-of-Shapelets(BoS)。
· 深度模型,如LSTM,VAE。
2.3算法性能比较
测试结果如下表所示。
可以看到,本方法在Precision和F1这两个指标上都取得了较为理想的结果。
Precision和F1是预测任务中常用的衡量指标,含义如下:
其中TP表示True Positive,即真实标签是正例而分类器也判定为正例(Positive);FP表示False Positive,即真实标签是负例而分类器判定为正例(Positive);FN表示False Negative,即真实标签是正例而分类器判定负例(Negative);TN表示TrueNegative,即真实标签是负例而分类器也判定负例(Negative)。
可以看到,已有方法在按年预测的设定下有较高的准确率(accuracy),但这主要是由于正负样本比较为悬殊;而在精确率(Precision)和以及F1值的比较上,已有方法明显较低,尤其是Precision很难超过20%,而提出的T2G+Features模型可以大大提高精准率,Precision可以达到50%,这对实际应用,比如窃电排查来说是十分重要的,因为精确率意味着排查成本的降低和排查效率的提高。从综合指标F1来看,T2G+Features模型也击败了众多已有的方法(22.37%vs.17.39%),取得了比较理想的结果。
以上图1、2所示的基于时序影响和图嵌入的时序数据表示学习方法是本发明的具体实施例,已经体现出本发明实质性特点和进步,可根据实际的使用需要,在本发明的启示下,对其进行形状、结构等方面的等同修改,均在本方案的保护范围之列。
Claims (6)
1.基于时序影响和图嵌入的数据表示学习的窃电判断方法,其特征在于,基于时序影响和图嵌入的数据表示学习的方法包括步骤:
1)挖掘具有时序影响因子的子序列;
通过定义子序列到原时间序列的有权距离,利用机器学习算法对权重进行优化,进而得到具有代表性的子序列及其最优的时序影响因子;挖掘具有时序影响因子的子序列包括步骤:
11)定义基于子序列到正负样本之间距离的损失函数;
12)求解每个子序列对应的最优时间因子权重;
13)根据损失函数最优值的大小,找到函数值最小的K个子序列作为特征子序列;
2)子序列演化
根据得到特征子序列,进一步地对子序列的演化转移进行刻画,挖掘更深层次的内部演化规律,从而对子序列和原始时间序列进行表示学习;子序列演化包括步骤:
21)对原始时间序列按照特征子序列的长度作片段划分,对每个片段匹配距离其最近的特征子序列,并认为相邻两个片段所对应的特征子序列发生了“转移”,即为子序列的演化;
22)在时间序列集合上统计得到特征子序列的转移概率,进而构建演化图,其中图的节点即为学习得到的具有代表性的子序列,有权边为子序列之间的转移概率;
23)通过图嵌入算法,得到节点即特征子序列的表示向量,再将原始时间序列的每个片段所对应的表示向量拼接起来得到时间序列的表示向量,以应用在分类/异常检测任务中;
在窃电判断时,获取每户的单日用电数据,覆盖范围为单个用户至少一年的用电数据;基于时序影响和图嵌入的数据表示学习方法构建的模型,判断该用户在这一年内是否发生过窃电行为。
2.根据权利要求1所述的基于时序影响和图嵌入的数据表示学习的窃电判断方法,其特征在于:在步骤1)中,对子序列到子序列、子序列到时间序列的加权距离进行如下定义:
这里时间序列t={s1,s2,…sm},f(h|u)是以u为参数的函数,用来控制函数域值(scale),vi表示子序列v的第i个元素,同理si表示子序列s的第i个元素;而代表子序列v到时间序列t的第m个子序列sm的距离。
3.根据权利要求2所述的基于时序影响和图嵌入的数据表示学习的窃电判断方法,其特征在于:在定义了如上加权距离后,定义如下损失函数,用机器学习算法得到最优参数:
即遍历所有正负样本对,极大化给定子序列和正负样本对的距离差,也即最小化该距离和的相反数;最后两项为控制模型复杂度而进行的正则化项;其中,
f(h|u)=log1p(|u·h|)
α和β是正则化项的权重参数,需要在实际应用中根据数据分布进行调整,一般α取0.1,β取0.05;需要通过上述损失函数,对每个待选子序列求得其最优时序影响因子wi,ui,选择损失函数最小的K个子序列作为学习得到的具有代表性的子序列,这里K为模型的超参,代表用于刻画时间序列特征的特征子序列的个数,取决于具体的数据分布和规模。
4.根据权利要求3所述的基于时序影响和图嵌入的数据表示学习的窃电判断方法,其特征在于:当在数据集规模为10,00的情况下,K取100。
5.根据权利要求1所述的基于时序影响和图嵌入的数据表示学习的窃电判断方法,其特征在于:在步骤2)中,从时间序列集合中统计得到模式图,模式图的节点为具有代表性的子序列,边的添加方式为:将原始时间序列的每一小段按照最近距离的原则对应到A个子序列上;对两两相邻的小段,在其对应到的子序列对上增加一条边,边权为归一化的距离:
然后结合图嵌入算法,对子序列进行表示学习,得到μ(vi,j);选择直接调用加权图嵌入算法,算法的输入为一个带权图G,基于随机游走算法对节点路径进行采样,挖掘图的拓扑结构和节点之间的关联关系,迭代更新节点的表示向量,最终输出图G的所有节点的表示向量μ(v)。
6.根据权利要求5所述的基于时序影响和图嵌入的数据表示学习的窃电判断方法,其特征在于:得到图G的所有节点的表示向量μ(v)后,将原始时间序列每一小段对应的子序列的表示向量再乘以权重并拼接起来得到时间序列的表示向量:
φ(t)=(pi,j*μ(vi,j)),1≤i≤m,1≤j≤A。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911055610.0A CN111090679B (zh) | 2019-10-31 | 2019-10-31 | 基于时序影响和图嵌入的时序数据表示学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911055610.0A CN111090679B (zh) | 2019-10-31 | 2019-10-31 | 基于时序影响和图嵌入的时序数据表示学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111090679A CN111090679A (zh) | 2020-05-01 |
CN111090679B true CN111090679B (zh) | 2023-12-05 |
Family
ID=70394208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911055610.0A Active CN111090679B (zh) | 2019-10-31 | 2019-10-31 | 基于时序影响和图嵌入的时序数据表示学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090679B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742396B (zh) * | 2021-08-26 | 2023-10-27 | 华中师范大学 | 一种对象学习行为模式的挖掘方法及装置 |
CN114780619B (zh) * | 2022-06-07 | 2022-09-13 | 国网浙江省电力有限公司金华供电公司 | 一种自动工程审价审计数据的异常预警方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059845A (zh) * | 2019-02-01 | 2019-07-26 | 国网浙江省电力有限公司温州供电公司 | 基于时序演化基因模型的计量装置时钟误差趋势预测方法 |
CN110265151A (zh) * | 2019-04-02 | 2019-09-20 | 莫毓昌 | 一种基于ehr中异构时态数据的学习方法 |
CN110290120A (zh) * | 2019-06-12 | 2019-09-27 | 西安邮电大学 | 一种云平台的时序演化网络安全预警方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160239000A1 (en) * | 2015-02-12 | 2016-08-18 | Nec Laboratories America, Inc. | TS-DIST: Learning Adaptive Distance Metric in Time Series Sets |
-
2019
- 2019-10-31 CN CN201911055610.0A patent/CN111090679B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059845A (zh) * | 2019-02-01 | 2019-07-26 | 国网浙江省电力有限公司温州供电公司 | 基于时序演化基因模型的计量装置时钟误差趋势预测方法 |
CN110265151A (zh) * | 2019-04-02 | 2019-09-20 | 莫毓昌 | 一种基于ehr中异构时态数据的学习方法 |
CN110290120A (zh) * | 2019-06-12 | 2019-09-27 | 西安邮电大学 | 一种云平台的时序演化网络安全预警方法 |
Non-Patent Citations (1)
Title |
---|
一种联合的时序数据特征序列分类学习算法;史苇杭;林楠;;计算机工程(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111090679A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Using Bayesian deep learning to capture uncertainty for residential net load forecasting | |
CN109190890A (zh) | 一种基于用户电力消费数据的用户行为分析方法 | |
CN105354595A (zh) | 一种鲁棒视觉图像分类方法及系统 | |
CN103440512A (zh) | 一种基于张量局部保持投影的大脑认知状态的识别方法 | |
Yang et al. | Enhanced hierarchical symbolic dynamic entropy and maximum mean and covariance discrepancy-based transfer joint matching with Welsh loss for intelligent cross-domain bearing health monitoring | |
CN111090679B (zh) | 基于时序影响和图嵌入的时序数据表示学习方法 | |
CN110045227B (zh) | 一种基于随机矩阵与深度学习的配电网故障诊断方法 | |
CN114707754A (zh) | 一种基于BiLSTM-CNN模型的智能电表故障预测方法及系统 | |
CN116362785A (zh) | 大数据环境下的电力用户用电异常诊断方法及装置 | |
Li et al. | GMM-HMM-based medium-and long-term multi-wind farm correlated power output time series generation method | |
CN117171702A (zh) | 一种基于深度学习的多模态电网故障检测方法和系统 | |
Zhang et al. | An autocorrelation incremental fuzzy clustering framework based on dynamic conditional scoring model | |
Simmons et al. | Data mining on extremely long time-series | |
Yang et al. | Non-intrusive load classification and recognition using soft-voting ensemble learning algorithm with decision tree, K-Nearest neighbor algorithm and multilayer perceptron | |
CN114328663A (zh) | 一种基于数据挖掘的高维剧场数据降维可视化处理方法 | |
CN113987910A (zh) | 一种耦合神经网络与动态时间规划的居民负荷辨识方法及装置 | |
Liao et al. | Reducing annotation efforts in electricity theft detection through optimal sample selection | |
CN113762591A (zh) | 一种基于gru和多核svm对抗学习的短期电量预测方法及系统 | |
CN112053219A (zh) | 一种基于ocsvm的消费金融欺诈行为检测方法 | |
Rodríguez-Gómez et al. | A novel clustering based method for characterizing household electricity consumption profiles | |
CN116561569A (zh) | 一种基于EO特征选择结合AdaBoost算法的工业电力负荷辨识方法 | |
CN106816871B (zh) | 一种电力系统状态相似性分析方法 | |
CN113326371B (zh) | 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法 | |
Qin | Software reliability prediction model based on PSO and SVM | |
Zheng et al. | Network intrusion detection model based on Chi-square test and stacking approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |