CN111640298A - 交通数据填充方法、系统、存储介质及终端 - Google Patents

交通数据填充方法、系统、存储介质及终端 Download PDF

Info

Publication number
CN111640298A
CN111640298A CN202010393252.0A CN202010393252A CN111640298A CN 111640298 A CN111640298 A CN 111640298A CN 202010393252 A CN202010393252 A CN 202010393252A CN 111640298 A CN111640298 A CN 111640298A
Authority
CN
China
Prior art keywords
tensor
traffic flow
filling
principal component
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010393252.0A
Other languages
English (en)
Inventor
蒋昌俊
闫春钢
张亚英
丁志军
龚遄飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010393252.0A priority Critical patent/CN111640298A/zh
Publication of CN111640298A publication Critical patent/CN111640298A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/513Sparse representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Chemical & Material Sciences (AREA)
  • Multimedia (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供一种交通数据填充方法、系统、存储介质及终端;所述方法包括以下步骤:根据交通数据构建交通流张量,并对交通流张量进行预填充,获取预填充后的交通流张量;对预填充后的交通流张量进行主成分提取,获取主成分张量和残差张量;对主成分张量和残差张量分别进行张量分解,以获取填充后的交通流张量;本发明提出了一种基于主成分提取与张量分解相结合的交通数据填充方法,能够提取未缺失交通数据中的数据规律,并根据其数据的内部规律对缺失的数据进行还原,该方法能够面向各种交通场景和不同的交通数据,同时能够适应不同的交通数据缺失模式。

Description

交通数据填充方法、系统、存储介质及终端
技术领域
本发明属于智能交通技术领域,特别是涉及一种交通数据填充方法、系统、存储介质及终端。
背景技术
随着我国经济的快速发展,智能交通在人们日常生活中日趋重要,但是由于采样硬件故障或者数据失真等各种不可控因素,城市交通数据不可避免的遭受着各种形式的数据缺失,寻找一种有效的填充方法来对稀疏的交通数据进行填充对智能交通系统的构建和管理起到了极大的帮助。
针对交通流数据的稀疏性以及缺失问题,国内外广大学者已经进行了许多的研究以填充估计缺失的交通流数据,并且已经提出了许多优秀的填充估计方法,从模型建立的角度来说,这些方法大致可以分为三类:基于预测的方法、基于插值的方法及基于统计学习的方法。
其中,基于预测的方法只会用到缺失数据点之前的数据而不会用到数据集中全部的数据,这势必会导致数据整体填充效果降低,而且这种类型的方法一般来说模型较为复杂,且模型训练过程中的时间消耗可能太大;对于基于插值的方法来说,插值要求缺失点周围的数据已知,这样才能直接保证数据的填充精度,以至于基于插值的方法无法应对数据连续缺失或数据缺失率较高的情况;对于基于统计学习的方法来说,无论是哪一种主成分分析,都要求数据本身具有较强的规律性,如果数据本身规律性较弱,那么就无法得到合适的结果。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种交通数据填充方法、系统、存储介质及终端,用于解决现有技术中交通数据填充方法无法实现面向不同交通场景和不同交通数据,不能适应不同交通数据缺失模式的问题。
为实现上述目的及其他相关目的,本发明提供一种交通数据填充方法,包括以下步骤:根据交通数据构建交通流张量,并对所述交通流张量进行预填充,获取预填充后的交通流张量;对所述预填充后的交通流张量进行主成分提取,获取主成分张量和残差张量;对所述主成分张量和所述残差张量分别进行张量分解,以获取填充后的交通流张量。
于本发明的一实施例中,对所述交通流张量进行预填充包括以下步骤:对所述交通数据存在的随机缺失,采用相邻时间段的平均值填充方法对所述交通流张量进行预填充;计算公式为:
Figure BDA0002486401310000021
Figure BDA0002486401310000025
其中,n1和n2表示偏移值,为两个预设常数;Ar,k表示第r个路段的交通流张量的第k个时间段;
Figure BDA0002486401310000026
为一约束条件,表示n1、n2取最小值,使得
Figure BDA0002486401310000027
的值大于0;
对所述交通数据存在的连续缺失,采用选取路段的时段平均值填充方法对所述交通流张量进行预填充;计算公式为:
Figure BDA0002486401310000022
其中,
Figure BDA0002486401310000028
表示未缺失的天数,为一预设值;Ar,d,k表示第r个路段的交通流张量第d天,第k个时间段的值;i表示天数,i的值从1取到
Figure BDA0002486401310000023
表示第r个路段,第k个时间段在未缺失的
Figure BDA0002486401310000024
天内交通流张量的数据平均值。
于本发明的一实施例中,对所述预填充后的交通流张量进行主成分提取,获取主成分张量和残差张量包括以下步骤:确定所述预填充后的交通流张量的维度;将所述预填充后的交通流张量沿不同的维度展开,获取沿不同维度的展开矩阵;对所述展开矩阵进行奇异值分解,获取所述主成分张量;根据所述预填充后的交通流张量与所述主成分张量,获取所述残差张量。
于本发明的一实施例中,对所述主成分张量和所述残差张量分别进行张量分解,以获取填充后的交通流张量包括以下步骤:预设初始阈值;基于所述初始阈值构建反映阈值变化规律的阈值变化公式,以实现在每一次张量分解时降低阈值;根据所述阈值变化公式,确定每一次张量分解时对应的阈值,以基于所述阈值优化所述主成分张量的核心张量;反复执行前一所述步骤,直至达到预设最大步骤或者预设收敛条件时停止,获取此时所述主成分张量的最终核心张量;获取所述主成分张量在不同维度的因子矩阵;根据所述最终核心张量及所述因子矩阵,获取对所述主成分张量进行张量分解后最终产生的第一填充张量;重复上述步骤,获取对所述残差张量进行张量分解后最终产生的第二填充张量;将所述第一填充张量与所述第二填充张量叠加,以获取所述填充后的交通流张量。
于本发明的一实施例中,基于所述阈值优化所述主成分张量的核心张量包括:将那些大于所述阈值的项保留在所述核心张量中,而小于或等于所述阈值的项设为0;计算公式为:
Figure BDA0002486401310000031
其中,
Figure BDA0002486401310000032
表示核心张量
Figure BDA0002486401310000033
第i片,第j行,第k列的值;τ表示阈值;
Figure BDA0002486401310000034
表示对
Figure BDA0002486401310000035
进行sign函数运算;
Figure BDA0002486401310000036
表示优化后的核心张量第i片,第j行,第k列的值。
于本发明的一实施例中,还包括:对于所述预填充后的交通流张量中未缺失的项,引入反馈机制以减少填充误差;计算公式为:
Figure BDA0002486401310000037
其中,i、j、k表示张量的第i片、第j行、第k列;
Figure BDA00024864013100000315
表示预填充后的交通流张量;ε表示观察张量,其与预填充后的交通流张量
Figure BDA00024864013100000314
大小一致,由1和0组成,预填充后的交通流张量
Figure BDA0002486401310000038
中未缺失的项在观察张量ε相同位置的值为1,反之为0;
Figure BDA0002486401310000039
表示经过第k次张量分解后产生的填充后的交通流张量;
Figure BDA00024864013100000310
表示经过第k-1次张量分解后产生的填充后的交通流张量;
Figure BDA00024864013100000311
表示引入反馈机制后经过第k次张量分解后产生的填充后的交通流张量;λ表示权重。
于本发明的一实施例中,还包括:采用截断奇异值方法动态调整张量分解过程中的张量秩,以根据调整后的张量秩对所述主成分张量和所述残差张量分别进行张量分解;动态调整所述张量秩的计算公式为:
Figure BDA00024864013100000312
其中,Si,i表示奇异值矩阵中第i行第i列的值,奇异值矩阵是奇异值由大到小分布在对角线上的矩阵,其余值均为0,i的值从1取到n,n表示奇异值的数量;ri代表最终秩的结果;
Figure BDA00024864013100000313
表示取最小的ri,使得前ri个奇异值之和占全部奇异值之和的比例为ρd
本发明提供一种交通数据填充系统,包括:预填充模块、主成分提取模块和张量分解模块;所述预填充模块用于根据交通数据构建交通流张量,并对所述交通流张量进行预填充,获取预填充后的交通流张量;所述主成分提取模块用于对所述预填充后的交通流张量进行主成分提取,获取主成分张量和残差张量;所述张量分解模块用于对所述主成分张量和所述残差张量分别进行张量分解以获取填充后的交通流张量。
本发明提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的交通数据填充方法。
本发明提供一种终端,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述的交通数据填充方法。
如上所述,本发明所述的交通数据填充方法、系统、存储介质及终端,具有以下有益效果:
(1)针对交通数据稀疏的稀疏性以及缺失问题,提出了一种基于主成分提取与张量分解相结合的交通数据填充方法,这种方法能够提取未缺失交通数据中的数据规律,并根据其数据的内部规律对缺失的数据进行还原,该方法能够面向各种交通场景和不同的交通数据,同时能够适应不同的交通数据缺失模式;
(2)采用主成分提取的方法,充分利用了交通数据内部的结构性与关联性,挖掘了交通数据内部的数据特征;
(3)对传统的张量分解方法进行改进,使之更加适用于交通数据的填充,并且提升了计算效率。
附图说明
图1显示为本发明的交通数据填充方法于一实施例中的流程图。
图2显示为本发明的交通数据的随机缺失于一实施例中的示意图。
图3显示为本发明的交通数据的连续缺失于一实施例中的示意图。
图4显示为本发明的获取主成分张量和残差张量于一实施例中的流程图。
图5显示为本发明的对交通数据进行主成分提取于一实施例中的示意图。
图6显示为本发明的传统张量分解方法于一实施例中的分解示意图。
图7显示为本发明的获取填充后的交通流张量于一实施例中的流程图。
图8显示为本发明的交通数据填充系统于一实施例中的结构示意图。
图9显示为本发明的终端于一实施例中的结构示意图。
标号说明
81 预填充模块
82 主成分提取模块
83 张量分解模块
91 处理器
92 存储器
S1~S3 步骤
S21~S24 步骤
S31~S38 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明的交通数据填充方法、系统、存储介质及终端,针对交通数据稀疏的稀疏性以及缺失问题,提出了一种基于主成分提取与张量分解相结合的交通数据填充方法,这种方法能够提取未缺失交通数据中的数据规律,并根据其数据的内部规律对缺失的数据进行还原,该方法能够面向各种交通场景和不同的交通数据,同时能够适应不同的交通数据缺失模式;采用主成分提取的方法,充分利用了交通数据内部的结构性与关联性,挖掘了交通数据内部的数据特征;对传统的张量分解方法进行改进,使之更加适用于交通数据的填充,并且提升了计算效率。
如图1所示,于一实施例中,本发明的交通数据填充方法包括以下步骤:
步骤S1、根据交通数据构建交通流张量,并对所述交通流张量进行预填充,获取预填充后的交通流张量。
需要说明的是,交通数据是带有路段、天数以及时间段信息的,交通流张量即是对交通数据的一个高维表达,诸如,xr,d,t就代表这个数据集中第r个路段、第d天、第t个时间段的速度或者流量。
需要说明的是,根据现实中交通数据采样的真实情况,可以认为交通数据主要存在两种缺失模式,即随机缺失和连续缺失。
如图2所示,随机缺失即交通数据的缺失无规律平均地分布在各个路段与各个时间点。
如图3所示,连续缺失主要是交通数据的缺失集中在某一天或者某一个时段。
需要说明的是,面对两种不同的交通数据缺失情况,需采取不同的预填充策略。
于一实施例中,对所述交通流张量进行预填充包括以下步骤:对所述交通数据存在的随机缺失,采用相邻时间段的平均值填充方法对所述交通流张量进行预填充;计算公式为:
Figure BDA0002486401310000061
Figure BDA0002486401310000069
其中,n1和n2表示偏移值,为两个预设常数;Ar,k表示第r个路段的交通流张量的第k个时间段,为缺失值;
Figure BDA0002486401310000062
为一约束条件,表示n1、n2取最小值,使得
Figure BDA0002486401310000063
的值大于0,即
Figure BDA0002486401310000064
均为非缺失值;
与普通平均填充相比,这种邻近插值填充可以使用邻近数据而非历史平均数据填充缺失数据,通过这种方式,能够在保留交通数据趋势的基础上更准确地将缺失的数据进行预填充处理。
对于连续缺失的情况不能沿用随机缺失中的预填充方法,这是因为假设有连续一天的缺失情况,使用前后平均值填充那么会使用前一天的最后一个时段和后一天的第一个时段的平均值填充,这使得缺失的这一天的数据不仅是一样的,还是不能反应出真实变化规律的,因此在长时间的连续缺失时(例如一天为单位)用前一个时段和后一个时段的平均值填充往往不能得到贴近于真实的结果;面对这种缺失情况,使用选取路段的时段平均值进行填充,即对于缺失的某一天的各个时段数据取用这个路段在整个数据集天数中的时段平均值来进行填充。
具体地,对所述交通数据存在的连续缺失,采用选取路段的时段平均值填充方法对所述交通流张量进行预填充;计算公式为:
Figure BDA0002486401310000065
其中,
Figure BDA0002486401310000066
表示未缺失的天数,为一预设值;Ar,d,k表示第r个路段的交通流张量第d天,第k个时间段的值,为缺失值;i表示天数,i的值从1取到
Figure BDA0002486401310000067
表示第r个路段,第k个时间段在未缺失的
Figure BDA0002486401310000068
天内交通流张量的数据平均值。
需要说明的是,对连续缺失采用选取路段的时段平均值填充方法进行交通流张量的预填充,虽不能十分保留每一天的数据变化规律,但在整体上仍保留了其基本的变化规律。
步骤S2、对所述预填充后的交通流张量进行主成分提取,获取主成分张量和残差张量。
需要说明的是,由于交通流张量数据具有一定的时空特征,例如工作日和周末、早晚高峰时间等,因此,将交通流张量数据趋势分解为主要趋势和残差是合理的。
如图4所示,于一实施例中,采用改进的奇异值分解方法对所述预填充后的交通流张量进行主成分提取,获取主成分张量和残差张量包括以下步骤:
步骤S21、确定所述预填充后的交通流张量的维度。
具体地,以交通流张量包括路段、天数和时间段这三个维度为例进行说明。
步骤S22、将所述预填充后的交通流张量沿不同的维度展开,获取沿不同维度的展开矩阵。
具体地,如将预填充后的交通流张量沿路段的维度展开,得到A1~n∈RD*T(一三阶张量可看做是由n个矩阵构成的,这里的1~n的展开就是张量的切片)的道路矩阵,其中,n代表道路网络中的路段数。
步骤S23、对所述展开矩阵进行奇异值分解,获取所述主成分张量。
需要说明的是,奇异值分解是一种通用的矩阵降维方法,可以将矩阵分解为Ai=UiSiVi的形式,其中,Ui∈RD*D是左奇异矩阵,Si∈RD*T是奇异值矩阵,而Vi∈RT*T是右奇异矩阵,i表示道路网路中的第i路段,i的值从1取到n;矩阵Si的非零元素即该矩阵的奇异值从最大到最小排列在对角线上,数值大小表示特征的重要性,越大表示其对应的特征向量保留的信息越重要;具体地,预设一个奇异值截断比ρ,以获取前k个最大奇异值,以将Si矩阵简化为S′i∈Rk*k,类似地,可以将尺寸减小的Ui∈*D*D截断为U′i∈RD*k和将Vi∈RT*T截断为V′i∈Rk*T
具体地,将某个路段的主要趋势矩阵表示为:
Figure BDA0002486401310000071
其中,
Figure BDA0002486401310000072
分别表示矩阵Ui、Si、Vi经过奇异值截断之后的表达。
最后,将n个矩阵分解的结果合并,形成主成分张量(主成分张量相当于是由n个分解矩阵组成的张量)。
步骤S24、根据所述预填充后的交通流张量与所述主成分张量,获取所述残差张量。
具体地,根据预填充后的交通流张量与主成分张量之间的差来获得残差张量,可表示为:
残差张量=预填充后的交通流张量-主成分张量。
如图5所示,于一实施例中,展示了一个路段一天之中的交通数据(如图a所示)主成分提取的结果,包括一主成分张量(如图b所示)和一残差张量(如图c所示)。
步骤S3、对所述主成分张量和所述残差张量分别进行张量分解,以获取填充后的交通流张量。
具体地,对经步骤S23获取的主成分张量和经步骤S24获取的残差张量分别进行张量分解,以基于分解后产生的张量获取填充后的交通流张量。
如图6所示,传统的张量分解方法,对于一个三阶张量
Figure BDA0002486401310000081
可以将其分解形式表示为:
Figure BDA0002486401310000082
其中,
Figure BDA0002486401310000083
表示张量分解的核心张量,M1、M2、M3分别表示三个不同维度的因子矩阵。
如图7所示,于一实施例中,对所述主成分张量和所述残差张量分别进行张量分解,以获取填充后的交通流张量包括以下步骤:
步骤S31、预设初始阈值。
具体地,对于核心张量
Figure BDA0002486401310000084
预先建立一个初始阈值。
步骤S32、基于所述初始阈值构建反映阈值变化规律的阈值变化公式,以实现在每一次张量分解时降低阈值。
需要说明的是,随着张量分解的进行,核心张量
Figure BDA0002486401310000085
中的值会变小,因此在分解过程中需要降低阈值以确保可以在核心张量
Figure BDA0002486401310000086
中保留足够的特征项。
具体地,可构建阈值变化公式如:
τm=τm-1ξ;
其中,τm表示第m次分解时的阈值;τm-1表示第(m-1)次分解时的阈值;τm=τm-1ξ表示阈值以一定的比率ξ变化,ξ为一预设值,将ξ预设为0.9。
需要说明的是,ξ的值取0.9只是一种实施方式,只要保证其小于1,使阈值以一定的比率减小即可。
步骤S33、根据所述阈值变化公式,确定每一次张量分解时对应的阈值,以基于所述阈值优化所述主成分张量的核心张量。
于一实施例中,基于所述阈值优化所述主成分张量的核心张量包括:将那些大于所述阈值的项保留在所述核心张量中,而小于或等于所述阈值的项设为0。
具体地,优化计算公式表示为:
Figure BDA0002486401310000087
其中,
Figure BDA0002486401310000088
表示核心张量
Figure BDA0002486401310000089
第i片,第j行,第k列的值;τ表示阈值;
Figure BDA00024864013100000810
表示对
Figure BDA0002486401310000091
进行sign函数运算;
Figure BDA0002486401310000092
表示优化后的核心张量第i片,第j行,第k列的值。
步骤S34、反复执行前一所述步骤,直至达到预设最大步骤或者预设收敛条件时停止,获取此时所述主成分张量的最终核心张量。
具体地,反复执行步骤S33,实现对主成分张量的核心张量的不断优化,直至达到预设最大步骤或者预设收敛条件时停止执行步骤S33,获取此时对应的最终核心张量。
需要说明的是,预设最大步骤和预设收敛条件均是预先设置的执行停止规则,是停止执行步骤S33的依据,预设最大步骤和预设收敛条件不作为限制本发明的条件,只要保证执行步骤S33满足需求次数后,能够停止执行步骤S33即可。
步骤S35、获取所述主成分张量在不同维度的因子矩阵。
需要说明的是,该步骤S35与前述步骤S31至步骤S34的执行步骤没有一定的先后顺序,步骤S35可以在步骤S31至步骤S34之间任一位置执行,只要保证经步骤S31至步骤S35后,能够获得主成分张量的最终核心张量及对应不同维度的因子矩阵即可。
步骤S36、根据所述最终核心张量及所述因子矩阵,获取对所述主成分张量进行张量分解后最终产生的第一填充张量。
具体地,依据公式
Figure BDA0002486401310000093
将经步骤S31至步骤S34获取的最终核心张量与经步骤S35获取的三个不同维度的因子矩阵进行向量乘运算,运算结果作为第一填充张量。
步骤S37、重复上述步骤,获取对所述残差张量进行张量分解后最终产生的第二填充张量。
需要说明的是,该步骤S37(对残差张量进行张量分解的步骤)意为重复执行步骤S31至步骤S36(对主成分张量进行张量分解的步骤),在重复执行步骤S31至步骤S36过程中,将主成分张量对应换成残差张量,以实现对残差张量的张量分解,最终获取第二填充张量。
进一步地,对残差张量进行张量分解的步骤与对主成分张量进行张量分解的步骤没有先后的执行顺序,可同时进行,也可交叉着进行,只要保证分别对主成分张量和残差张量进行了张量分解,获取对应的第一填充张量和第二填充张量即可。
步骤S38、将所述第一填充张量与所述第二填充张量叠加,以获取所述填充后的交通流张量。
具体地,将第一填充张量和第二填充张量进行叠加运算,运算结果即为填充后的交通流张量。
于一实施例中,还包括:对于所述预填充后的交通流张量中未缺失的项,引入反馈机制以减少填充误差。
具体地,引入反馈机制的计算公式表示为:
Figure BDA0002486401310000101
其中,i、j、k表示张量的第i片、第j行、第k列;
Figure BDA0002486401310000102
表示预填充后的交通流张量;ε表示观察张量,其与预填充后的交通流张量
Figure BDA0002486401310000103
大小一致,由1和0组成,预填充后的交通流张量
Figure BDA0002486401310000104
中未缺失的项在观察张量ε相同位置的值为1,反之为0;
Figure BDA0002486401310000105
表示经过第k次张量分解后产生的填充后的交通流张量;
Figure BDA0002486401310000106
表示经过第k-1次张量分解后产生的填充后的交通流张量;
Figure BDA0002486401310000107
表示引入反馈机制后经过第k次张量分解后产生的填充后的交通流张量;λ表示权重,为预设值。
引入反馈机制对于那些未缺失的数据,将前一次分解反馈的填充后的交通流张量和预填充后的交通流张量之差添加到预填充后的交通流张量,而不是直接使用预填充后的交通流张量;引入反馈机制将有助于减少填充误差。
于一实施例中,还包括:采用截断奇异值方法动态调整张量分解过程中的张量秩,以根据调整后的张量秩对所述主成分张量和所述残差张量分别进行张量分解;动态调整所述张量秩的计算公式为:
Figure BDA0002486401310000108
其中,Si,i表示奇异值矩阵中第i行第i列的值,奇异值矩阵是奇异值由大到小分布在对角线上的矩阵,其余值均为0,i的值从1取到n,n表示奇异值的数量;ri代表最终秩的结果;
Figure BDA0002486401310000109
表示取最小的ri,使得前ri个奇异值之和占全部奇异值之和的比例为ρd;ρd为一预设值。
需要说明的是,动态调整张量秩,一方面,可以保留交通数据的最重要特征,以使分解不受某些噪声特性的影响;另一方面,通过动态可以减小核心张量达到降维的效果,从而提高数据插补的效率。
进一步地,本发明从减小阈值、引入反馈机制及动态调整张量秩这三个方面对传统的张量分解方法进行了改进,使之更适用于交通数据的填充。
需要说明的是,本发明所述的交通数据填充方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
如图8所示,于一实施例中,本发明的交通数据填充系统包括预填充模块81、主成分提取模块82和张量分解模块83。
所述预填充模块81用于根据交通数据构建交通流张量,并对所述交通流张量进行预填充,获取预填充后的交通流张量。
所述主成分提取模块82用于对所述预填充后的交通流张量进行主成分提取,获取主成分张量和残差张量。
所述张量分解模块83用于对所述主成分张量和所述残差张量分别进行张量分解以获取填充后的交通流张量。
需要说明的是,所述预填充模块81、所述主成分提取模块82和所述张量分解模块83的结构及原理与上述交通数据填充方法中的步骤一一对应,故在此不再赘述。
需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述系统的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述系统的存储器中,由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个数字信号处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
本发明的存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述的交通数据填充方法。所述存储介质包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
如图9所示,本发明的终端包括处理器91及存储器92。
所述存储器92用于存储计算机程序。优选地,所述存储器92包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
所述处理器91与所述存储器92相连,用于执行所述存储器92存储的计算机程序,以使所述终端执行上述的交通数据填充方法。
优选地,所述处理器91可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,本发明的交通数据填充系统可以实现本发明的交通数据填充方法,但本发明的交通数据填充方法的实现装置包括但不限于本实施例列举的交通数据填充系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
综上所述,本发明的交通数据填充方法、系统、存储介质及终端,针对交通数据稀疏的稀疏性以及缺失问题,提出了一种基于主成分提取与张量分解相结合的交通数据填充方法,这种方法能够提取未缺失交通数据中的数据规律,并根据其数据的内部规律对缺失的数据进行还原,该方法能够面向各种交通场景和不同的交通数据,同时能够适应不同的交通数据缺失模式;采用主成分提取的方法,充分利用了交通数据内部的结构性与关联性,挖掘了交通数据内部的数据特征;对传统的张量分解方法进行改进,使之更加适用于交通数据的填充,并且提升了计算效率;所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种交通数据填充方法,其特征在于,包括以下步骤:
根据交通数据构建交通流张量,并对所述交通流张量进行预填充,获取预填充后的交通流张量;
对所述预填充后的交通流张量进行主成分提取,获取主成分张量和残差张量;
对所述主成分张量和所述残差张量分别进行张量分解,以获取填充后的交通流张量。
2.根据权利要求1所述的交通数据填充方法,其特征在于,对所述交通流张量进行预填充包括以下步骤:
对所述交通数据存在的随机缺失,采用相邻时间段的平均值填充方法对所述交通流张量进行预填充;计算公式为:
Figure FDA0002486401300000011
Figure FDA0002486401300000012
其中,n1和n2表示偏移值,为两个预设常数;Ar,k表示第r个路段的交通流张量的第k个时间段;
Figure FDA0002486401300000013
为一约束条件,表示n1、n2取最小值,使得
Figure FDA0002486401300000014
的值大于0;
对所述交通数据存在的连续缺失,采用选取路段的时段平均值填充方法对所述交通流张量进行预填充;计算公式为:
Figure FDA0002486401300000015
其中,
Figure FDA0002486401300000016
表示未缺失的天数,为一预设值;Ar,d,k表示第r个路段的交通流张量第d天,第k个时间段的值;i表示天数,i的值从1取到
Figure FDA0002486401300000017
Figure FDA0002486401300000018
表示第r个路段,第k个时间段在未缺失的
Figure FDA0002486401300000019
天内交通流张量的数据平均值。
3.根据权利要求1所述的交通数据填充方法,其特征在于,对所述预填充后的交通流张量进行主成分提取,获取主成分张量和残差张量包括以下步骤:
确定所述预填充后的交通流张量的维度;
将所述预填充后的交通流张量沿不同的维度展开,获取沿不同维度的展开矩阵;
对所述展开矩阵进行奇异值分解,获取所述主成分张量;
根据所述预填充后的交通流张量与所述主成分张量,获取所述残差张量。
4.根据权利要求1所述的交通数据填充方法,其特征在于,对所述主成分张量和所述残差张量分别进行张量分解,以获取填充后的交通流张量包括以下步骤:
预设初始阈值;
基于所述初始阈值构建反映阈值变化规律的阈值变化公式,以实现在每一次张量分解时降低阈值;
根据所述阈值变化公式,确定每一次张量分解时对应的阈值,以基于所述阈值优化所述主成分张量的核心张量;
反复执行前一所述步骤,直至达到预设最大步骤或者预设收敛条件时停止,获取此时所述主成分张量的最终核心张量;
获取所述主成分张量在不同维度的因子矩阵;
根据所述最终核心张量及所述因子矩阵,获取对所述主成分张量进行张量分解后最终产生的第一填充张量;
重复上述步骤,获取对所述残差张量进行张量分解后最终产生的第二填充张量;
将所述第一填充张量与所述第二填充张量叠加,以获取所述填充后的交通流张量。
5.根据权利要求4所述的交通数据填充方法,其特征在于,基于所述阈值优化所述主成分张量的核心张量包括:将那些大于所述阈值的项保留在所述核心张量中,而小于或等于所述阈值的项设为0;计算公式为:
Figure FDA0002486401300000021
其中,
Figure FDA0002486401300000027
表示核心张量
Figure FDA0002486401300000022
第i片,第j行,第k列的值;τ表示阈值;
Figure FDA0002486401300000023
表示对
Figure FDA0002486401300000024
进行sign函数运算;
Figure FDA0002486401300000025
表示优化后的核心张量第i片,第j行,第k列的值。
6.根据权利要求1所述的交通数据填充方法,其特征在于,还包括:对于所述预填充后的交通流张量中未缺失的项,引入反馈机制以减少填充误差;计算公式为:
Figure FDA0002486401300000026
其中,i、j、k表示张量的第i片、第j行、第k列;
Figure FDA0002486401300000028
表示预填充后的交通流张量;ε表示观察张量,其与预填充后的交通流张量
Figure FDA0002486401300000037
大小一致,由1和0组成,预填充后的交通流张量中未缺失的项在观察张量ε相同位置的值为1,反之为0;
Figure FDA0002486401300000032
表示经过第k次张量分解后产生的填充后的交通流张量;
Figure FDA0002486401300000033
表示经过第k-1次张量分解后产生的填充后的交通流张量;
Figure FDA0002486401300000034
表示引入反馈机制后经过第k次张量分解后产生的填充后的交通流张量;λ表示权重。
7.根据权利要求1所述的交通数据填充方法,其特征在于,还包括:采用截断奇异值方法动态调整张量分解过程中的张量秩,以根据调整后的张量秩对所述主成分张量和所述残差张量分别进行张量分解;动态调整所述张量秩的计算公式为:
Figure FDA0002486401300000035
其中,Si,i表示奇异值矩阵中第i行第i列的值,奇异值矩阵是奇异值由大到小分布在对角线上的矩阵,其余值均为0,i的值从1取到n,n表示奇异值的数量;ri代表最终秩的结果;
Figure FDA0002486401300000036
表示取最小的ri,使得前ri个奇异值之和占全部奇异值之和的比例为ρd
8.一种交通数据填充系统,其特征在于,包括:预填充模块、主成分提取模块和张量分解模块;
所述预填充模块用于根据交通数据构建交通流张量,并对所述交通流张量进行预填充,获取预填充后的交通流张量;
所述主成分提取模块用于对所述预填充后的交通流张量进行主成分提取,获取主成分张量和残差张量;
所述张量分解模块用于对所述主成分张量和所述残差张量分别进行张量分解以获取填充后的交通流张量。
9.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的交通数据填充方法。
10.一种终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1至7中任一项所述的交通数据填充方法。
CN202010393252.0A 2020-05-11 2020-05-11 交通数据填充方法、系统、存储介质及终端 Pending CN111640298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010393252.0A CN111640298A (zh) 2020-05-11 2020-05-11 交通数据填充方法、系统、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010393252.0A CN111640298A (zh) 2020-05-11 2020-05-11 交通数据填充方法、系统、存储介质及终端

Publications (1)

Publication Number Publication Date
CN111640298A true CN111640298A (zh) 2020-09-08

Family

ID=72331968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010393252.0A Pending CN111640298A (zh) 2020-05-11 2020-05-11 交通数据填充方法、系统、存储介质及终端

Country Status (1)

Country Link
CN (1) CN111640298A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410386A (zh) * 2022-09-05 2022-11-29 同盾科技有限公司 短时速度预测方法及装置、计算机存储介质、电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136239A (zh) * 2011-11-29 2013-06-05 北京理工大学 一种基于张量重建的交通数据丢失恢复方法
CN104715241A (zh) * 2015-03-23 2015-06-17 南京工业大学 一种基于张量分解的fMRI特征提取与识别方法
CN106651820A (zh) * 2016-09-23 2017-05-10 西安电子科技大学 基于稀疏张量近邻嵌入的遥感图像融合方法
CN107515843A (zh) * 2017-09-04 2017-12-26 四川易诚智讯科技有限公司 基于张量近似的各向异性数据压缩方法
CN107992536A (zh) * 2017-11-23 2018-05-04 中山大学 基于张量分解的城市交通缺失数据填补方法
CN110209758A (zh) * 2019-04-18 2019-09-06 同济大学 一种基于张量分解的文本增量降维方法
CN110322693A (zh) * 2019-07-10 2019-10-11 山东大学 一种交通数据补全方法、系统、设备及介质
CN110457295A (zh) * 2019-07-05 2019-11-15 国网浙江省电力有限公司电力科学研究院 基于社会关系感知的时序数据补全系统
CN110533736A (zh) * 2019-08-07 2019-12-03 浙江理工大学 基于改进鲁棒张量主成分分析的动态磁共振图像重构方法
US20190370346A1 (en) * 2018-05-31 2019-12-05 Robert Bosch Gmbh System and method for large scale multidimensional spatio-temporal data analysis
CN110688605A (zh) * 2019-05-23 2020-01-14 东南大学 一种基于柯西分布张量分解的数据重建方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136239A (zh) * 2011-11-29 2013-06-05 北京理工大学 一种基于张量重建的交通数据丢失恢复方法
CN104715241A (zh) * 2015-03-23 2015-06-17 南京工业大学 一种基于张量分解的fMRI特征提取与识别方法
CN106651820A (zh) * 2016-09-23 2017-05-10 西安电子科技大学 基于稀疏张量近邻嵌入的遥感图像融合方法
CN107515843A (zh) * 2017-09-04 2017-12-26 四川易诚智讯科技有限公司 基于张量近似的各向异性数据压缩方法
CN107992536A (zh) * 2017-11-23 2018-05-04 中山大学 基于张量分解的城市交通缺失数据填补方法
US20190370346A1 (en) * 2018-05-31 2019-12-05 Robert Bosch Gmbh System and method for large scale multidimensional spatio-temporal data analysis
CN110209758A (zh) * 2019-04-18 2019-09-06 同济大学 一种基于张量分解的文本增量降维方法
CN110688605A (zh) * 2019-05-23 2020-01-14 东南大学 一种基于柯西分布张量分解的数据重建方法
CN110457295A (zh) * 2019-07-05 2019-11-15 国网浙江省电力有限公司电力科学研究院 基于社会关系感知的时序数据补全系统
CN110322693A (zh) * 2019-07-10 2019-10-11 山东大学 一种交通数据补全方法、系统、设备及介质
CN110533736A (zh) * 2019-08-07 2019-12-03 浙江理工大学 基于改进鲁棒张量主成分分析的动态磁共振图像重构方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHUANFEI GONG: "Urban Traffic Data Imputation With Detrending and Tensor Decomposition", 《IEEE ACCESS》 *
伍元凯: "基于动态张量填充的短时交通流预测研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 *
杜战战: "人体运动捕获数据的分析方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
陈龙喜: "张量主成分分析方法和应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410386A (zh) * 2022-09-05 2022-11-29 同盾科技有限公司 短时速度预测方法及装置、计算机存储介质、电子设备
CN115410386B (zh) * 2022-09-05 2024-02-06 同盾科技有限公司 短时速度预测方法及装置、计算机存储介质、电子设备

Similar Documents

Publication Publication Date Title
CN111161535A (zh) 基于注意力机制的图神经网络交通流量预测方法及系统
CN108090788B (zh) 基于时间信息集成模型的广告转化率预估方法
CN110019420B (zh) 一种数据序列预测方法及计算设备
CN109785279B (zh) 一种基于深度学习的图像融合重建方法
CN111738435B (zh) 一种基于移动设备的在线稀疏训练方法及系统
CN111640296B (zh) 交通流预测方法、系统、存储介质及终端
CN111640298A (zh) 交通数据填充方法、系统、存储介质及终端
CN116910463A (zh) 一种空气污染监测数据缺失值填补方法
CN111241076B (zh) 一种基于张量链分解的流式数据增量处理方法及装置
Fuketa et al. Image-classifier deep convolutional neural network training by 9-bit dedicated hardware to realize validation accuracy and energy efficiency superior to the half precision floating point format
CN113850365A (zh) 卷积神经网络的压缩和移植方法、装置、设备及存储介质
CN115376309B (zh) 一种基于多视角时间矩阵分解的缺失交通数据修复方法
CN116128091A (zh) 基于vmd-cnn-lstm的短期电力负荷预测方法
CN115392964A (zh) 基于信号分解和深度学习的农产品价格预测方法及系统
CN114819127A (zh) 一种基于fpga的背压索引式组合计算单元
CN114611667A (zh) 一种基于小规模参数矩阵计算特征图边界的重构方法
US11270208B2 (en) Neural network batch normalization optimization method and apparatus
CN111539460A (zh) 图像分类方法、装置、电子设备及存储介质
CN111143761A (zh) 一种基于离散制造设备过程数据的矩阵补全方法
Venables et al. Linear statistical models
CN101662594B (zh) 超大图片及视频编辑方法及系统
CN110110214A (zh) 基于双向加权值及用户行为的动态推荐及加噪方法
CN112667913A (zh) 数据推荐方法、装置、设备及存储介质
CN117828546A (zh) 一种电网净负荷预测方法、装置和设备
CN111143762A (zh) 一种张量数据分解方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200908

RJ01 Rejection of invention patent application after publication