CN111310117A - 一种基于张量火车分解模型的交通大数据填充方法 - Google Patents

一种基于张量火车分解模型的交通大数据填充方法 Download PDF

Info

Publication number
CN111310117A
CN111310117A CN202010058620.6A CN202010058620A CN111310117A CN 111310117 A CN111310117 A CN 111310117A CN 202010058620 A CN202010058620 A CN 202010058620A CN 111310117 A CN111310117 A CN 111310117A
Authority
CN
China
Prior art keywords
tensor
filling
model
kernel
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010058620.6A
Other languages
English (en)
Other versions
CN111310117B (zh
Inventor
谭华春
丁璠
王梵晔
蒋竺希
伍元凯
李琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010058620.6A priority Critical patent/CN111310117B/zh
Publication of CN111310117A publication Critical patent/CN111310117A/zh
Application granted granted Critical
Publication of CN111310117B publication Critical patent/CN111310117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于张量火车分解模型的交通大数据填充方法,该方法包括:构建包含5个交通数据维度的五维张量模型;通过L2正则约束,构建初始基于张量火车分解模型的填充模型;对所述填充模型中进行共轭梯度优化,获得每个核向量的优化后的填充模型;或对所述的填充模型,进行迹范数优化,得到最终填充模型;通过所述第一填充模型和/或第二填充模型,进行交通大数据填充。本发明提供的方法能够提高数据填充的精度,在高丢失率下能够保持填充稳定性。

Description

一种基于张量火车分解模型的交通大数据填充方法
技术领域
本发明属于交通领域,具体涉及一种基于张量火车分解的交通大数据填充方法。
背景技术
自大数据的快速发展以来,海量数据的获取为交通领域带来了极大的机遇与挑战,现代计算机技术与传统的交通技术的结合,更是催生出一系列智能交通产业,2017年,“互联网+交通”的模式在各大城市如雨后春笋般开展起来。然而,大数据产业需要完成健康的数据作为支持,在实际生活中,由于检测设备、传输设备的故障或恶劣天气的影响等,使得原始交通数据中存在不同程度的丢失现象,给交通数据的分析和深层次的挖掘带来不利影响。
张量是高维数据的天然表达,尤其适用于多维,多模态,多关系数据的表达和分析,因此张量模型被广泛应用于图像处理,能源以及交通等学科。将数据构建成张量模型并通过张量填充补全缺失数据,已成为大数据分析领域的学术热点问题之一。张量分解是张量填充问题的主要方法之一,张量分解用一系列核张量和因子矩阵的乘积来近似原始张量,这些因子矩阵和核张量是原始张量在不同子空间的投影,通过选择合适的子空间,使这些投影具有某种意义,能提取出原始张量的某些特征。同时,对于存在数据缺失的原始张量,也可通过对子空间的分析计算,估计出原始张量对应位置的缺失值。现存的张量分解算法大都基于张量的平行因子分解(CP分解)和张量的高阶奇异值分解(Tucker分解)。由于CP分解模型不能很好表征数据导致分解不稳定,而Tucker分解在高维数据的应用上计算量较大,不合适高维数据的分解,现正展开对于张量火车分解模型(TT分解)的研究。
张量火车分解模型将一个高阶张量分解成一系列稀疏互联的低阶张量(例如二维矩阵和三维张量),这些低阶张量互相由彼此相对应的一条边界连着。对于一个d阶张量来说,对其进行张量火车分解后,其每个元素如下所示:
Figure BDA0002373660580000011
其中
Figure BDA0002373660580000012
是一个rk-1×rk的根据维度参数索引的矩阵,这些矩阵相乘后,大小变为r0×rd,由此可以推出r0=rd=1,这也是张量火车的边界条件。对比张量CP分解的定义,张量火车的每个核可以看成一个块化的秩一张量。与CP分解不同的是,rk可以作为附属矩阵的秩进行计算。上述式子的索引表达式形式如下:
Figure BDA0002373660580000013
张量火车分解的核张量gk实际上是个大小为rk-1×ik×rk三阶张量,其元素为
Figure BDA0002373660580000014
由于边界条件r0=rd=1,第一个核张量的最后一个核张量实际上是矩阵。这个分解可以用一个线性张量网络来表示,图2描述了一个四阶张量火车分解的张量网络图。rk被称为张量火车分解的秩(TT-rank),
Figure BDA0002373660580000021
被称作张量火车分解的核张量。
张量火车分解模型的展开方式同一般张量展开方式不同,一般张量的展开都是沿着某一维度进行n模式展开,而张量火车分解模型由于秩rk的限制,并且其最多只出现2次,不同维度间存在线性连接关系,因此张量火车分解模型的展开式如下所示:
Figure BDA0002373660580000022
模型展开后的矩阵大小为
Figure BDA0002373660580000023
即沿k模式展开后,矩阵的行大小为原始张量从第一维度到第k维度的枚举计算,矩阵的列大小为k维到最后一个维度的枚举计算。
关于张量填充的研究现在正处于初始阶段,刘霁等人将迹范数从矩阵上推广到张量上,提出了高精度低秩张量填充算法HaLRTC,该方法引入n个附属矩阵
Figure BDA0002373660580000024
将这n个附属矩阵分别按每个维度进行展开使其等于原张量的各个模式展开,从而将原张量的各个模式展开矩阵互相分离,使其分别求解时,不互相影响。采用增广拉格朗日乘子法进行优化求解,将优化所得各模式展开按一定权重求和即得所求张量。其目标函数如下所示:
Figure BDA0002373660580000025
高精度低秩张量填充算法在待填充张量具有极强的低秩特性时,对张量的填充结果精度更高。
Johann A.Bengua于2016年提出了基于张量火车分解的简单低秩张量填充算法(SiLRTC_TT)。通过对张量的n模式展开分别加权求迹,从而分离出原张量各个模式的展开矩阵,而基于张量火车分解的迹范数填充算法则是对每个张量火车展开矩阵加迹范数约束,使模型具有较低的TT秩。之后将约束条件进行松弛处理,允许模型具有一定噪音,再通过批量梯度下降方式进行求解,其目标函数如下所示:
Figure BDA0002373660580000026
发明内容
为解决上述问题,本发明公开了一种基于张量火车分解模型的交通大数据填充方法,能够提高数据填充的精度,在高丢失率下能够保持填充稳定性。
为达到上述目的,本发明的技术方案如下:
一种基于张量火车分解模型的交通大数据填充方法,该方法可以包括:
构建包含5个交通数据维度的五维张量模型;
通过L2正则约束,构建初始基于张量火车分解模型的填充模型;
对所述填充模型中进行共轭梯度优化,获得每个核向量的优化后的第一填充模型,或对所述填充模型进行迹范数优化,得到第二填充模型;
通过所述第一填充模型或所述第二填充模型,进行交通大数据填充。
优选的,所述五维张量模型为:
Figure BDA0002373660580000031
其中,L=7表示检测点数,W=8表示周,D=7表示天,T=288表示时刻,Y=3表示年。
优选的,所述通过L2正则约束,构建初始基于张量火车分解模型的填充模型;的函数为:
Figure BDA0002373660580000032
式(8)中,
Figure BDA0002373660580000037
为待填充的多维张量,
Figure BDA0002373660580000033
Figure BDA0002373660580000038
的张量火车分解因子,αk为正则项系数,用于权衡目标函数中每个核张量的比重。
优选的,所述对所述填充模型中进行共轭梯度优化,获得每个核向量的优化后的第一填充模型,包括:
分别对第一个核张量和最后一个核张量通过矩阵求偏导进行优化;
对中间核张量进行共轭梯度优化;
优选的,对所述第一个核张量优化包括:
先通过右乘操作固定其余待求核张量,得到带优化核张量
Figure BDA0002373660580000034
和固定部分
Figure BDA0002373660580000035
将其它核张量视为一个常数,最终目标函数化为以下形式:
Figure BDA0002373660580000036
Figure BDA0002373660580000041
对目标函数关于
Figure BDA0002373660580000042
进行求导得到导数为
Figure BDA0002373660580000043
令导数等于0,获得优化后的核张量:
Figure BDA0002373660580000044
其中(.)-1上标表示对矩阵的求逆运算。
优选的,对中间核张量优化具体为:
对待求核张量进行左乘和右乘操作,用于固定其他核张量,得到变化后的公式:
Figure BDA0002373660580000045
将待求核张量的第二模式展开上乘以一个单位矩阵,使
Figure BDA0002373660580000046
变为
Figure BDA0002373660580000047
使其形式同三阶Tucker分解,得到:
Figure BDA0002373660580000048
将张量
Figure BDA00023736605800000417
和张量
Figure BDA0002373660580000049
做一个向量化处理,将这两个张量拉长成两个大小为
Figure BDA00023736605800000410
的列向量x和g;
根据克劳尼克积将变量V和U进行结合固定,得到矩阵
Figure BDA00023736605800000411
目标函数:
Figure BDA00023736605800000412
其中,x为向量化后的待求张量,对应式(12)中的
Figure BDA00023736605800000418
g为向量化后的待求核张量,对应式(12)中的
Figure BDA00023736605800000413
L为
Figure BDA00023736605800000414
在三个模式上的因子矩阵的克劳内克乘积。
优选的,对最后一个核张量优化包括:
进行最后一个核张量的左乘操作固定其余函数,化简得到目标函数如下:
Figure BDA00023736605800000415
将目标函数导数为0,得到最后核张量的解:
Figure BDA00023736605800000416
优选的,所述对所述填充模型,进行迹范数优化,得到第二填充模型;包括:
对每个火车分解的核张量都加上一个低秩约束,以使得张量火车分解的每个核张量都具有低秩特征;
引入两个拉格朗日乘子β和
Figure BDA0002373660580000051
将目标函数所带约束与目标函数整合,获得增广拉格朗日函数:
Figure BDA0002373660580000052
利用最小化迹范数问题的闭式解直接进行求解。
本发明的有益效果是:
本专利提出一种基于张量火车分解模型的交通大数据填充方法,通过L2正则和迹范数正则对核张量进行约束寻优,并以此表征原始张量,实现对原始张量缺失数据的估计填充。求解时,设计推导了不同的优化求解方法。第一种优化方法针对算法加速,对模型进行约束松弛,并引入共轭梯度法进行优化求解,利用共轭梯度法的步收敛性快速收敛至最优值;第二种优化方法针对自适应秩约束,通过最小化核张量的迹范数对核张量进行低秩约束,规避了手动调秩。之后选用增广拉格朗日法转化目标函数的约束,并采用局部线性法将目标函数转化为迹范数求解通式,从而获得最优解。本发明提供的方法能够提高数据填充的精度,在高丢失率下能够保持填充稳定性。
附图说明
图1是本发明中基于张量火车分解模型的交通大数据填充方法流程图;
图2是现有技术张量火车分解模型示意图;
图3是固定其余核张量时进行的右乘操作示意图;
图4是固定中间核张量时同时进行的左乘和右乘操作示意图;
图5是各填充算法在不同丢失率下的算法精度效果对比图,其中,LRSE值越低,说明填充精度越高;
图6是各填充算法在80%的丢失率下分别对4维张量和5维张量进行填充的精度效果对比图,其中,MAE值越小说明填充精度越高。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
如图所示,本发明所述的一种基于张量火车分解模型的交通大数据填充方法,通过L2正则和迹范数正则对核张量进行约束寻优,并以此表征原始张量,实现对原始张量缺失数据的估计填充。求解时,设计推导了不同的优化求解方法。第一种优化方法针对算法加速,对模型进行约束松弛,并引入共轭梯度法进行优化求解,利用共轭梯度法的步收敛性快速收敛至最优值;第二种优化方法针对自适应秩约束,通过最小化核张量的迹范数对核张量进行低秩约束,规避了手动调秩。之后选用增广拉格朗日法转化目标函数的约束,并采用局部线性法将目标函数转化为迹范数求解通式,从而获得最优解。本专利公开的张量填充方法可用图1中的流程图来表示。
本发明实施例提供的交通大数据填充方法,可以包括:构建包含5个交通数据维度的五维张量模型;通过L2正则约束,构建初始基于张量火车分解模型的填充模型;对所述填充模型中进行共轭梯度优化,获得每个核向量的优化后的第一填充模型,或对所述优化填充模型,进行迹范数优化,得到第二填充模型;通过第一填充模型或第二填充模型进行交通大数据填充。本发明提供的方法能够提高数据填充的精度,在高丢失率下能够保持填充稳定性。
以下结合附图,对本发明的实施例做进一步详细阐述。
步骤一、张量模型构建
由于路段交通数据包含了检测点、时刻、天、周、年5个维度,这里将交通数据构建成一个五维张量,如下所示:
Figure BDA0002373660580000061
其中,L=7表示检测点数,W=8表示周,D=7表示天,T=288表示时刻,Y=3表示年。同时,为了验证后文针对数据丢失问题提出的基于张量火车分解的填充方法,这里再建一个四维交通数据张量模型作为对照组,该张量仅包含一年内的交通信息,并未将年维度的交通信息进行考虑,模型如下所示:
Figure BDA0002373660580000062
其中,L=7表示检测点数,W=8表示周,D=7表示天,T=288表示时刻。
步骤二、张量填充模型构建
针对张量填充问题,对每个核张量都加上L2正则约束,防止模型中存在过大的参数影响整个模型,保证每个核函数不会对模型产生较大影响。本发明提出的基于张量火车分解的填充问题等价于解决以下最小化问题:
Figure BDA0002373660580000063
式(8)中,
Figure BDA0002373660580000065
为待填充的d维张量,
Figure BDA0002373660580000064
Figure BDA0002373660580000066
的张量火车分解因子,αk为正则项系数,权衡目标函数中每个核张量的比重,αk的值越大,对其对应核张量的约束性也越强。
步骤三:基于共轭梯度法的优化求解或基于迹范数约束的优化求解
首先,详细讨论基于共轭梯度法的优化求解。
1)对第一个核张量进行优化时,先通过右乘操作固定其余待求核张量,得到带优化核张量
Figure BDA0002373660580000071
和固定部分
Figure BDA0002373660580000072
如图3所示。此时目标函数最小值点只与
Figure BDA00023736605800000715
有关,此时将其它核张量视为一个常数,在优化时常数不影响整个式子的最小值点,因此在优化目标里省略对常数部分的描述,最终目标函数化为以下形式:
Figure BDA0002373660580000073
由于所求目标函数是在矩阵上的优化,因此这里直接采用闭式解求解就能取得最优值,直接对目标函数关于
Figure BDA0002373660580000074
进行求导得到导数为
Figure BDA0002373660580000075
令导数等于0,可求的优化后的核张量:
Figure BDA0002373660580000076
其中(.)-1上标表示对矩阵的求逆运算。
2)对中间核张量进行优化时,先对待求核张量进行左乘和右乘操作,用于固定其他核张量,如图4所示。变化后的公式如下所示:
Figure BDA0002373660580000077
将待求核张量的第二模式展开上乘以一个单位矩阵,即使
Figure BDA0002373660580000078
变为
Figure BDA0002373660580000079
使其形式同三阶Tucker分解,得到如下形式:
Figure BDA00023736605800000710
求解该目标函数时首先将张量
Figure BDA00023736605800000716
和张量
Figure BDA00023736605800000711
都做一个向量化处理,将这两个张量拉长成两个大小为
Figure BDA00023736605800000712
的列向量x和g,根据克劳尼克积将变量V和U进行结合固定,得到矩阵
Figure BDA00023736605800000713
此时,目标函数如下所示:
Figure BDA00023736605800000714
其中,x为向量化后的待求张量,对应式(12)中的
Figure BDA00023736605800000717
g为向量化后的待求核张量,对应式(12)中的
Figure BDA0002373660580000081
L为
Figure BDA0002373660580000082
在三个模式上的因子矩阵的克劳内克乘积。经过变化,式(13)可化简为如下公式:
Figure BDA0002373660580000083
对比共轭梯度法求解的一般形式
Figure BDA0002373660580000084
可以发现原始目标函数化为了关于g的一般二次型函数,其中:
A=2(LTL+αkI)
b=-2xTL
c=xTx (15)
用共轭梯度法的求解通式即可求得核张量
Figure BDA0002373660580000085
所有中间核张量的求法都一致,唯一的区别是每次迭代前都要重新计算V和U。
3)对最后一个核张量进行优化的方法同第一个核张量的优化类似,首先进行最后一个核张量的左乘操作固定其余函数,化简得到目标函数如下:
Figure BDA0002373660580000086
将目标函数导数为0得到最后核张量的解如下所示:
Figure BDA0002373660580000087
其次,详细讨论采用基于迹范数约束的优化求解方法。
为保证张量火车分解的每个核张量都具有低秩特征,对每个火车分解的核张量都加上一个低秩约束得到目标函数如式(18)所示:
Figure BDA0002373660580000088
对目标函数,采用增广拉格朗日法进行求解时,将引入两个拉格朗日乘子β和
Figure BDA0002373660580000089
将目标函数所带约束与目标函数整合,所得增广拉格朗日函数如下所示:
Figure BDA00023736605800000810
Figure BDA0002373660580000091
1)对
Figure BDA0002373660580000092
进行优化时,同样固定其余核张量,化简得到目标函数如下所示:
Figure BDA0002373660580000093
此时将目标函数中不可微的部分进行分离得到由两个函数组成的目标函数,如下所示:
Figure BDA0002373660580000094
其中,
Figure BDA0002373660580000095
此时采用局部线性化方式来将函数
Figure BDA0002373660580000096
化为二次展开式,如下所示:
Figure BDA0002373660580000097
式中,
Figure BDA0002373660580000098
表示在前一次迭代取得最优值后的
Figure BDA0002373660580000099
值,
Figure BDA00023736605800000910
是函数f2的变量。之后函数化简成二次型函数形式,得到如下公式:
Figure BDA00023736605800000911
其中
Figure BDA00023736605800000912
Figure BDA00023736605800000913
Figure BDA00023736605800000914
处的导数,
Figure BDA00023736605800000915
的导函数如下所示:
Figure BDA00023736605800000916
综上,得到关于
Figure BDA00023736605800000917
的优化目标函数如下所示:
Figure BDA00023736605800000918
对于该目标函数,可以用求解最小化迹范数问题的闭式解直接进行求解,
Figure BDA00023736605800000919
的最优值为:
Figure BDA00023736605800000920
其中,τ为利普西斯常数。
利普西斯常数的确定可以根据其定义来推导:若存在常数τ>0,能够满足所有不等式||f(x1)-f(x2)||≤τ||x1-x2||,则函数f(x)满足利普西斯条件,且τ称为利普西斯常数。
Figure BDA00023736605800000921
Figure BDA0002373660580000101
因此,利普西斯常数为:
τ=σ1(2γ1I+2βAAT) (27)。
2)中间核函数
Figure BDA0002373660580000102
的进行优化
求解中间核张量
Figure BDA0002373660580000103
时,需要固定
Figure BDA0002373660580000104
两边的所有核张量。通过左乘和右乘得到左右两边的分解因子分别为
Figure BDA0002373660580000105
Figure BDA0002373660580000106
此时,带求解的核张量
Figure BDA0002373660580000107
是一个大小为rk×Ik×rk+1的三阶张量,用增广拉格朗日法进行求解,约束项变为:
Figure BDA0002373660580000108
之后,再通过克罗内克积将左右两边的因子矩阵合并成一个固定值,则式(28)中
Figure BDA0002373660580000109
项则化简为矩阵
Figure BDA00023736605800001010
将化简项中
Figure BDA00023736605800001011
用A来代替,则目标函数变为如下形式:
Figure BDA00023736605800001012
式(4.45)与式(4.27)具有完全相同的形式,因此对于中间张量
Figure BDA00023736605800001013
的求解,采用的方法同对的求解方法。
3)对
Figure BDA00023736605800001015
进行优化
固定其余核函数得到待求目标函数即为如下所示:
Figure BDA00023736605800001016
观察待求解的目标函数可发现,求解
Figure BDA00023736605800001017
与求解
Figure BDA00023736605800001018
的目标函数具有极其相似的形式,唯一不同的是固定核张量与待求核张量的位置的互换,因此采用同样的方法进行求解,仍旧将目标函数中的不可微项分离,得到如下公式:
Figure BDA00023736605800001019
之后,对
Figure BDA00023736605800001020
用局部线性化方式进行处理,将原函数化简成一个关于
Figure BDA00023736605800001021
的二次标准方程函数,如下公式所示:
Figure BDA0002373660580000111
对式(4.37)中的
Figure BDA0002373660580000112
关于
Figure BDA0002373660580000113
进行求导,得到导函数:
Figure BDA0002373660580000114
综上,得到关于
Figure BDA0002373660580000115
的优化目标函数如下所示:
Figure BDA0002373660580000116
对于该目标函数,用求解最小化迹范数问题的闭式解求解,得到:
Figure BDA0002373660580000117
其中利普西斯常数为:
τ=σd(2γdI+2βATA) (36)
以下可以通过实验效果图,对比展示本发明提供的交通大数据填充方法的效果:
在真实数据上进行实验,将张量填充方法应用于丢失交通数据上以验证实际恢复效果,将完整交通数据作为对照组,随机将原始交通数据以一定比例进行丢失并进行填充。数据的丢失率设置为从0.1到0.9以0.1的跨度递增,具体精度衡量指标包括平均绝对误差(MAE)、相对错误率(LRSE),速度衡量指标为总体运行时间和单步运行时间。
分别对HaLRTC张量填充方法、SiLRTC填充方法和本发明提出的张量填充方法进行实验对比,分别从速度和精度两个方面评估填充效果。速度结果如表1和表2所示,可以看出本发明所提出模型通过共轭梯度法进行优化,在速度有了极大的提升,同时面对高维数据填充速度有极大的优势。表3、图5和图6则展示了填充精度结果,可以看出针对不同维度数据进行填充的效果,可以看出,本发明所提的方法在高丢失率的数据填充精度上有了极大的提高,在极高丢失率下也能保证填充的稳定性,同时数据维度对填充精度的影响也较小,十分适用于高维数据的填充。
表1 80%丢失率下4种算法训练时间对比
Figure BDA0002373660580000118
表2针对不同维度张量进行填充的时间对比
Figure BDA0002373660580000121
表3在80%的丢失率下各算法误差对比
Figure BDA0002373660580000122
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明。所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于张量火车分解模型的交通大数据填充方法,其特征在于,所述方法包括:
构建包含5个交通数据维度的五维张量模型;
通过L2正则约束,构建初始基于张量火车分解模型的填充模型;
对所述填充模型中进行共轭梯度优化,获得每个核向量的优化后的第一填充模型,或对所述填充模型进行迹范数优化,得到第二填充模型;
通过所述第一填充模型或所述第二填充模型进行交通大数据填充。
2.如权利要求1所述的一种基于张量火车分解模型的交通大数据填充方法,其特征在于,所述五维张量模型为:
Figure FDA0002373660570000011
其中,L=7表示检测点数,W=8表示周,D=7表示天,T=288表示时刻,Y=3表示年。
3.如权利要求1所述的一种基于张量火车分解模型的交通大数据填充方法,其特征在于,所述通过L2正则约束,构建初始基于张量火车分解模型的填充模型;的函数为:
Figure FDA0002373660570000012
Figure FDA0002373660570000013
Figure FDA0002373660570000014
式(8)中,
Figure FDA0002373660570000015
为待填充的多维张量,
Figure FDA0002373660570000016
Figure FDA0002373660570000017
的张量火车分解因子,αk为正则项系数,用于权衡目标函数中每个核张量的比重。
4.如权利要求1所述的一种基于张量火车分解模型的交通大数据填充方法,其特征在于,所述对所述填充模型中进行共轭梯度优化,获得每个核向量的优化后的第一填充模型,包括:
对第一个核张量和最后一个核张量通过矩阵求偏导进行优化;以及
对中间核张量进行共轭梯度优化。
5.如权利要求4所述的一种基于张量火车分解模型的交通大数据填充方法,其特征在于,对所述第一个核张量优化包括:
先通过右乘操作固定其余待求核张量,得到带优化核张量
Figure FDA0002373660570000018
和固定部分
Figure FDA0002373660570000021
将其它核张量视为一个常数,最终目标函数化为以下形式:
Figure FDA0002373660570000022
Figure FDA0002373660570000023
对目标函数关于
Figure FDA0002373660570000024
进行求导得到导数为
Figure FDA0002373660570000025
令导数等于0,获得优化后的核张量:
Figure FDA0002373660570000026
其中(.)-1上标表示对矩阵的求逆运算。
6.如权利要求4所述的一种基于张量火车分解模型的交通大数据填充方法,其特征在于,对中间核张量优化具体为:
对待求核张量进行左乘和右乘操作,用于固定其他核张量,得到变化后的公式:
Figure FDA0002373660570000027
Figure FDA0002373660570000028
将待求核张量的第二模式展开上乘以一个单位矩阵,使
Figure FDA0002373660570000029
变为
Figure FDA00023736605700000210
使其形式同三阶Tucker分解,得到:
Figure FDA00023736605700000211
Figure FDA00023736605700000212
将张量
Figure FDA00023736605700000213
和张量
Figure FDA00023736605700000214
做一个向量化处理,将这两个张量拉长成两个大小为
Figure FDA00023736605700000215
的列向量x和g;
根据克劳尼克积将变量V和U进行结合固定,得到矩阵
Figure FDA00023736605700000216
目标函数:
Figure FDA00023736605700000217
Figure FDA0002373660570000031
其中,x为向量化后的待求张量,对应式(12)中的
Figure FDA0002373660570000032
g为向量化后的待求核张量,对应式(12)中的
Figure FDA0002373660570000033
L为
Figure FDA0002373660570000034
在三个模式上的因子矩阵的克劳内克乘积。
7.如权利要求4所述的一种基于张量火车分解模型的交通大数据填充方法,其特征在于,对最后一个核张量优化包括:
进行最后一个核张量的左乘操作固定其余函数,化简得到目标函数如下:
Figure FDA0002373660570000035
Figure FDA0002373660570000036
将目标函数导数为0,得到最后核张量的解:
Figure FDA0002373660570000037
8.如权利要求1所述的一种基于张量火车分解模型的交通大数据填充方法,其特征在于,所述对填充模型进行迹范数优化,得到第二填充模型;包括:
对每个火车分解的核张量都加上一个低秩约束,以使得张量火车分解的每个核张量都具有低秩特征;
引入两个拉格朗日乘子β和
Figure FDA0002373660570000038
将目标函数所带约束与目标函数整合,获得增广拉格朗日函数:
Figure FDA0002373660570000039
Figure FDA00023736605700000310
利用最小化迹范数问题的闭式解直接进行求解。
CN202010058620.6A 2020-01-19 2020-01-19 一种基于张量火车分解模型的交通大数据填充方法 Active CN111310117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010058620.6A CN111310117B (zh) 2020-01-19 2020-01-19 一种基于张量火车分解模型的交通大数据填充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010058620.6A CN111310117B (zh) 2020-01-19 2020-01-19 一种基于张量火车分解模型的交通大数据填充方法

Publications (2)

Publication Number Publication Date
CN111310117A true CN111310117A (zh) 2020-06-19
CN111310117B CN111310117B (zh) 2023-03-31

Family

ID=71160049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010058620.6A Active CN111310117B (zh) 2020-01-19 2020-01-19 一种基于张量火车分解模型的交通大数据填充方法

Country Status (1)

Country Link
CN (1) CN111310117B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820104A (zh) * 2020-12-31 2021-05-18 北京航空航天大学 一种基于时空聚类张量分解的交通数据补全方法
CN113450572A (zh) * 2021-09-02 2021-09-28 西南交通大学 一种交通状态估计方法、装置、设备及可读存储介质
CN115083151A (zh) * 2022-06-02 2022-09-20 福建师范大学 基于Hessian正则时空低秩约束的交通数据矩阵填充方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107561576A (zh) * 2017-08-31 2018-01-09 电子科技大学 基于字典学习正则化稀疏表示的地震信号恢复方法
CN108804392A (zh) * 2018-05-30 2018-11-13 福州大学 一种基于时空约束的交通数据张量填充方法
US20180373987A1 (en) * 2017-05-18 2018-12-27 salesforce.com,inc. Block-diagonal hessian-free optimization for recurrent and convolutional neural networks
CN109241491A (zh) * 2018-07-28 2019-01-18 天津大学 基于联合低秩和稀疏表示的张量结构性缺失填充方法
CN110688605A (zh) * 2019-05-23 2020-01-14 东南大学 一种基于柯西分布张量分解的数据重建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180373987A1 (en) * 2017-05-18 2018-12-27 salesforce.com,inc. Block-diagonal hessian-free optimization for recurrent and convolutional neural networks
CN107561576A (zh) * 2017-08-31 2018-01-09 电子科技大学 基于字典学习正则化稀疏表示的地震信号恢复方法
CN108804392A (zh) * 2018-05-30 2018-11-13 福州大学 一种基于时空约束的交通数据张量填充方法
CN109241491A (zh) * 2018-07-28 2019-01-18 天津大学 基于联合低秩和稀疏表示的张量结构性缺失填充方法
CN110688605A (zh) * 2019-05-23 2020-01-14 东南大学 一种基于柯西分布张量分解的数据重建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈建恒等: "求解张量填充问题的非线性共轭梯度算法", 《桂林电子科技大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820104A (zh) * 2020-12-31 2021-05-18 北京航空航天大学 一种基于时空聚类张量分解的交通数据补全方法
CN112820104B (zh) * 2020-12-31 2022-05-31 北京航空航天大学 一种基于时空聚类张量分解的交通数据补全方法
CN113450572A (zh) * 2021-09-02 2021-09-28 西南交通大学 一种交通状态估计方法、装置、设备及可读存储介质
CN115083151A (zh) * 2022-06-02 2022-09-20 福建师范大学 基于Hessian正则时空低秩约束的交通数据矩阵填充方法

Also Published As

Publication number Publication date
CN111310117B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
Gavrylenko et al. Fredholm determinant and Nekrasov sum representations of isomonodromic tau functions
CN111310117B (zh) 一种基于张量火车分解模型的交通大数据填充方法
Frei et al. Bridging the ensemble Kalman and particle filters
Bebendorf et al. Adaptive low-rank approximation of collocation matrices
Evensen Sampling strategies and square root analysis schemes for the EnKF
Cornwall Confinement and chiral-symmetry breakdown: Estimates of F π and of effective quark masses
Evensen et al. Rank issues
Liang et al. Improved Fermi operator expansion methods for fast electronic structure calculations
CN110826700A (zh) 建模邻居交互的双线性图神经网络模型的实现及分类方法
CN107292337A (zh) 超低秩张量数据填充方法
CN110139046A (zh) 一种基于张量的视频帧合成方法
Yu et al. Modeling spatial extremes via ensemble-of-trees of pairwise copulas
Quirynen et al. Lifted implicit integrators for direct optimal control
McArdle et al. Exploiting fermion number in factorized decompositions of the electronic structure Hamiltonian
CN114118406A (zh) 一种卷积神经网络的量化压缩方法
Li Linear stability of solitary waves of the Green‐Naghdi equations
Bai et al. A reduced order modeling method based on GNAT-embedded hybrid snapshot simulation
Gőzse et al. Model order reduction of LPV systems based on parameter varying modal decomposition
Roenko et al. Estimating the radiative part of QED effects in superheavy nuclear quasimolecules
CN117036704A (zh) 一种基于解耦3d自注意力网络的医学图像器官分割方法
CN110210691B (zh) 资源推荐方法、装置、存储介质及设备
Rong et al. Soft Taylor pruning for accelerating deep convolutional neural networks
Parnachev et al. One-loop quantum energy densities of domain wall field configurations
Blanes et al. Efficient Splitting Methods Based on Modified Potentials: Numerical Integration of Linear Parabolic Problems and Imaginary Time Propagation of the Schrodinger Equation
Haxton et al. Piecewise moments method: Generalized Lanczos technique for nuclear response surfaces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant