CN110223509A - 一种基于贝叶斯增强张量的缺失交通数据修复方法 - Google Patents

一种基于贝叶斯增强张量的缺失交通数据修复方法 Download PDF

Info

Publication number
CN110223509A
CN110223509A CN201910319516.5A CN201910319516A CN110223509A CN 110223509 A CN110223509 A CN 110223509A CN 201910319516 A CN201910319516 A CN 201910319516A CN 110223509 A CN110223509 A CN 110223509A
Authority
CN
China
Prior art keywords
parameter
tensor
posterior distrbutionp
distribution
bayes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910319516.5A
Other languages
English (en)
Other versions
CN110223509B (zh
Inventor
何兆成
陈一贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201910319516.5A priority Critical patent/CN110223509B/zh
Publication of CN110223509A publication Critical patent/CN110223509A/zh
Application granted granted Critical
Publication of CN110223509B publication Critical patent/CN110223509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于贝叶斯增强张量分解的缺失交通数据修复方法,步骤如下:将路网车速数据组织成一个3阶数据张量引入显性因子结构进行建模;输入数据张量,指示张量;更新全局参数μ的后验分布;更新超参数的后验分布;更新偏置参数φ的后验分布和因子矩阵参数U的后验分布,直到i=m;更新偏置参数θ的后验分布和因子矩阵参数V的后验分布,直到j=n;更新偏置参数η的后验分布和因子矩阵参数X的后验分布,直到t=f;重复步骤S5~S9直到精度参数τ与前一代的参数τ的差Δτ<ε时,则模型收敛,进入下一步;利用更新后的{μ,φ,θ,η,U,V,X}参数值,代入yijt的表达式中计算估计张量

Description

一种基于贝叶斯增强张量的缺失交通数据修复方法
技术领域
本发明涉及智能交通系统技术领域,更具体的,涉及一种基于贝叶斯增强张量的缺失交通数据修复方法。
背景技术
数据缺失已经成为了智能交通系统领域的一个普遍且不可避免的问题,造成该问题的原因是多样的。首先由于部分交通数据的天然稀疏性,无法有效地对其进行完整的采集。此外,从交通管理成本的角度考虑,传感器有限的空间分布限制了数据的完备性。再者,数据采集设备本身的通讯故障以及传输失效等不确定性因素是另一个常见的因素。因此,能够准确地对缺失数据进行修复并增强数据质量对于支撑智能交通系统的应用是很有必要的。
以路段车速为例,路段车速是一种重要的交通流参数,可以用于行程时间计算与预测,在路网交通状态评估等领域扮演着重要的角色。我们通常使用浮动车GPS数据(出租车和营运车等)来估算浮动车的运行速度,并进一步取其均值作为路段车速。由于浮动车的时空覆盖范围不一,且网络传输不稳定,不同路段在不同的时间下会产生不同程度的数据缺失,造成数据质量欠佳,影响其后续应用。
路网交通数据蕴含着时空变化规律,通过提取其时空多维特征可以对缺失值进行修复。现有的基于张量分解的交通数据填补技术无法同时挖掘出显性和隐性的交通特征,因而导致数据估计不够准确且模型解释性较差。
发明内容
本发明对城市交通数据,尤其是路网车速数据进行分析,发现路段车速值在时间和空间上具有密切的关联关系,从而形成时空的交通模式。基于这种特性,为了在数据缺失的路段上对齐车速值进行修复,提出了一种基于贝叶斯增强张量的缺失交通数据修复方法,其能有效对缺失数据进行修复,实现数据质量增强。
为实现上述本发明目的,采用的技术方案如下:一种基于贝叶斯增强张量分解的缺失交通数据修复方法,所述该修复方法包括以下步骤:
S1:将路网车速数据组织成一个3阶数据张量数据张量中的每一个yijt表示第i个路段,第j天和第t个时间窗的车速值;采用张量CP分解把多维数据映射到低维隐性因子空间中,得到不同维度复杂的联系被建模成隐性空间因子的内积,并引入了显性因子结构,使得显性因子与隐性因子在分解过程中相互作用,从而进行建模,其数学表达:
式中:是所有元素的全局参数;φ表示路段维度的偏置向量,θ表示天维度的偏置向量,η表示时间窗维度的偏置向量,uik表示U矩阵的元素,vjk表示V矩阵的元素,xtk表示X矩阵的元素,U、V、X是数据张量分解得到的因子矩阵,r是CP分解的秩,表示所有的索引元素(i,j,k);
S2:采用贝叶斯推断方法从数据张量中学习出模型的全部参数{μ,φ,θ,η,U,V,X},采用高斯分布假设和对建模参数配置共轭先验进行定义贝叶斯增强张量分解模型;
S3:输入部分数据张量指示张量其中:Ω表示观测值索引的集合,对应着一个与大小相当的张量中的每一个元素则yijk数据值存在,否则
S4:更新全局参数μ的后验分布;
S5:更新超参数的后验分布q(μuu),q(μvv),q(μxx),其中,μu、μv、μx表示分布的均值向量参数,Λu、Λv、Λx表示方差矩阵参数;
S6:更新偏置参数φ的后验分布q(φi)和因子矩阵参数U的后验分布q(ui),直到i=m;
S7:更新偏置参数θ的后验分布q(θj)和因子矩阵参数V的后验分布q(vj),直到j=n;
S8:更新偏置参数η的后验分布q(ηt)和因子矩阵参数X的后验分布q(xt),直到t=f;
S9:更新精度参数τ的后验分布q(τ);
S10:重复步骤S5~S9直到精度参数τ与前一代的参数τ的差Δτ<ε时,则模型已经收敛,进入下一步;
S11:利用更新后的{μ,φ,θ,η,U,V,X}参数值,代入yijt的表达式中计算估计张量
S12:输出估计张量和更新后的{μ,φ,θ,η,U,V,X}参数。
优选地,步骤S2,所述高斯分布假设,具体地,在张量分解中对于数据张量中的每一个元素,都假设其为高斯分布,因此
其中,τ是高斯分布的精度参数;
在上述高斯分布假设的基础上,对模型参数配置共轭先验,即
τ~Gamma(a0,b0)
其中,向量是因子矩阵的第i行,维度等于CP分解的秩r,向量是因子矩阵的第j行,维度等于CP分解的秩r;是因子矩阵的第t行;伽马分布的概率密度函数由形状参数a和率参数b定义,公式如下:
进一步地,将超参数{μuuvvxx}加入Gaussian-Wishart共轭先验,具体如下:
其中,参数{Λuvx}的边缘分布是一个Wishart分布,用表示,而参数{μuvx}基于{Λuvx}的条件分布是一个多元高斯分布;Wishart分布由尺度参数矩阵W和自由度ν定义,具体如下:
其中,C是归一化常量,而函数tr(·)表示矩阵的迹;
用符号Θ表示模型中未知的参数{μ,φ,θ,η,U,V,X,τ,μuuvvxx},通过最小化KL散度找到一个分布q(Θ)使得其逼近真实的后验分布具体如下:
由于是观测证据为一确定值,因此通过最大化变分下界 来优化KL散度;根据平均场理论,变分后验分布q(Θ)根据参数进行分解,具体如下:
因此对于任意的参数Θs,最大化下界转化为下面的等价形式,
其中,表示对q(Θ\Θs)分布除了Θs之外的所有变量求期望,而则表示模型的联合概率分布。
这里所述的逼近是变分贝叶斯方法本身就是一个逼近推断方法(approximateinference),意思是真实的后验分布是找不到的,只能通过构造这样的分布函数去不断逼近真实的后验分布。
再进一步地,在步骤S3之后,步骤S4之前还需要进行以下处理:
D1:初始化超参数和0参数:μ0=0,μ(k)=0,W0=I,Λ(k)=I,v0=r,a0,b00,τ,τ0=1,其中:I为单位矩阵,0表示0向量;
D2:随机初始化全局参数μ、偏置参数{φ,θ,η}和因子矩阵参数{U,V,X}。
再进一步地,步骤S4,所述更新全局参数μ的后验分布,具体地,其变分后验为分布参数为
式中:
其中,表示求“期望”这一运算法则。
再进一步地,步骤S5,所述更新超参数的后验分布q(μuu),具体地,其后验分布为分布参数为
式中:
所述更新超参数的后验分布q(μvv),具体地,其后验分布为 分布参数为
式中:
所述更新超参数的后验分布q(μxx),具体地,其后验分布为 分布参数为:
式中:
再进一步地,步骤S6,更新偏置参数φ,具体地,其后验分布为分布参数为:
其中:
对于因子矩阵参数U,其后验分布为分布参数为:
其中符号表示哈达玛积,因此
式中,表示后验分布的参数,分别对应均值和精度参数;fijt、wijt只是辅助参数,没有实际意义。
再进一步地,步骤S7,更新偏置参数θ,具体地其后验分布为 分布参数为
其中:
对于因子矩阵参数V,其后验分布为分布参数为
其中
式中,表示后验分布的参数,分别对应均值和精度参数;fijt、wijt只是辅助参数,没有实际意义。
再进一步地,步骤S8,更新偏置参数η,具体地其后验分布为 分布参数为:
其中:
对于因子矩阵参数X,其后验分布为分布参数为:
其中
式中,表示后验分布的参数,分别对应均值和精度参数;fijt、wijt只是辅助参数,没有实际意义。
再进一步地,步骤10,所述更新精度参数τ的后验分布q(τ),对于观测值的精度参数τ,其变分后验为分布参数为:
式中:
本发明的有益效果如下:
1.本发明利用城市路网上的浮动车数据,在张量分解模型中进一步考虑了空间个体特征(路段)、时间特征以及时空关联特征,使用变分贝叶斯方法进行训练,以车速观测值作为输入,最后以缺失填补值作为输出,从而在只有部分观测的情况下有效地对缺失数据进行修复,实现数据质量增强。
2.在传统张量分解的基础上引入显性因子结构,使得本发明贝叶斯增强张量分解模型能够同时捕捉交通数据时空模式的显性个体特征和隐性关联关系。
3.使用贝叶斯框架对该增强张量分解模型进行建模,有效防止求解出行过拟合现象,且在高缺失率下修复效果显著;
4.使用变分贝叶斯推断求解模型参数,既保证了修复效果又能快速收敛,提高了算法效率。
附图说明
图1是本实施例所述交通数学修复方法的框架图。
图2是本实施例增强张量分解示意图。
图3是本实施例贝叶斯增强张量分解的概率图模型。
图4是本实施例路段#1两周时间内车速真值与估计值的时间序列曲线对比。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
如图1所示,一种基于贝叶斯增强张量分解的缺失交通数据修复方法,在进行交通数据修复之前需要进行建模,具体的方法步骤如下:
D1:对时空维度进行划分,把路段车速数据组织成一个高阶张量,具体地,路段车速数据采集自浮动车,对路段上的浮动车按照规定的时间窗进行聚合(如10分钟,那么1天就形成144个时间窗),可以得到各个路段在时间维度上的车速数据序列。考虑到在时间维度上,交通数据具有天、周和月等不同的模式,可以对时间维度进一步进行划分。本实施例,在时间维度上,提取出天和时间窗两个维度。因此,路网车速数据就可以被组织成为一个3阶张量张量中的每一个yijt表示第i个路段,第j天和第t个时间窗的车速值。
由于存在缺失数据值,更一般地,使用表示部分观测数据张量,其中Ω是观测值索引的集合,对应着一个与大小相当的张量 中的每一个元素则yijk数据值存在,否则本实施例的目的是依靠数据张量的多重代数结构,利用部分观测值对数据张量中的缺失值进行估计。
D2:在张量分解方法中,CP分解可以把多维数据映射到低维隐性因子空间中,因此不同维度复杂的联系被建模成隐性空间因子的内积。本实施例将在张量CP分解的基础上,引入了显性因子结构,使得显性因子与隐性因子在分解过程中相互作用,其数学表达:
式中:是所有元素的全局参数;φ表示路段维度的偏置向量,θ表示天维度的偏置向量,η表示时间窗维度的偏置向量,uik表示U矩阵的元素,vjk表示V矩阵的元素,xtk表示X矩阵的元素,U、V、X是数据张量分解得到的因子矩阵,r是CP分解的秩,表示所有的索引元素(i,j,k);在本模型中,{μ,φ,θ,η}代表了显性模式,而因子矩阵{U,V,X}则表示隐性因子,本模型的分解结构示意图如图2所示。
D3:使用贝叶斯推断方法从数据张量中学习出模型的全部参数{μ,φ,θ,η,U,V,X},在张量分解中,由于高斯分布假设可以获得和一般损失同样的形式,因此对于数据张量中的每一个元素,都假设其为高斯分布,因此
其中τ是高斯分布的精度参数,在贝叶斯模型中能够有效改善模型的鲁棒性。
D4:贝叶斯推断的核心思想是利用最大后验法学习出模型参数,因此在上述高斯假设的基础上,需要对模型参数配置共轭先验,即
其中,向量是因子矩阵的第i行,维度等于CP分解的秩r,向量同理。伽马分布的概率密度函数由形状参数a和率参数b定义,
D5:对于超参数{μuuvvxx}可以加入Gaussian-Wishart共轭先验,如下:
其中:参数{Λuvx}的边缘分布是一个Wishart分布(用表示),而参数{μuvx}基于{Λuvx}的条件分布是一个多元高斯分布。Wishart分布可以由尺度参数矩阵W和自由度ν定义,具体公式如下:
其中,C是归一化常量,而函数tr(·)表示矩阵的迹。
D6:上述高斯分布假设与对建模参数配置共轭先验设置定义了贝叶斯增强张量分解模型,可以用符号Θ表示模型中未知的参数{μ,φ,θ,η,U,V,X,τ,μuuvvxx},其概念图模型如图3所示,利用贝叶斯增强张量分解模型,可以使用变分贝叶斯推断的方法进行快速迭代求解。
D7:变分贝叶斯推断是一种对后验逼近问题的确定性求解方法。在本实施例,目的是找到一个分布q(Θ)使得其尽可能地逼近真实的后验分布而这可以通过最小化KL散度求得,
由于是观测证据为一确定值,因此可以通过最大化变分下界来优化KL散度;根据平均场理论,变分后验分布q(Θ)可以根据参数进行分解,具体如下:
因此对于任意的参数Θs,最大化下界可以转化为下面的等价形式,
其中:表示对q(Θ\Θs)分布除了Θs之外的所有变量求期望,而则表示模型的联合概率分布。
利用上述等价式,可以求得各个参数的变分后验表达式:
(1)对于全局参数μ,其变分后验为分布参数为
其中
其中,表示求“期望”这一运算法则。
(2)对于偏置参数{φ,θ,η}的后验分布
对于φi,i∈{1,…,m},其后验分布为分布参数为:
其中:
对于θj,j∈{1,…,n},其后验分布为分布参数为:
其中:
对于ηt,t∈{1,…,f},其后验分布为分布参数为:
其中:
(3)对于因子矩阵参数{U,V,X}的后验分布
对于因子矩阵参数U,其后验分布为分布参数为
其中符号表示哈达玛积,因此
对于因子矩阵参数V,其后验分布为分布参数为:
其中
对于因子矩阵参数X,其后验分布为分布参数为
其中
(4)对于超参数{μuuvvxx}的后验分布,
对于(μuu),其后验分布为:
分布参数为
其中:
对于q(μvv),具体地,其后验分布为:
分布参数为:
式中:
对于q(μxx),具体地,其后验分布为
分布参数为:
式中:
(5)对于观测值的精度参数τ,其变分后验为分布参数为
其中
本实施例根据以上步骤,将贝叶斯增强张量分解模型参数的变分后验分布已经全部推倒出来,在实际使用中需要利用推导式进行迭代更新,直到收敛,以学习出模型的全部参数,从而对缺失值进行估计。因此,贝叶斯增强张量分解用于缺失交通数据修复的算法如下:
步骤S1:输入部分数据张量指示张量其中:Ω表示观测值索引的集合,对应着一个与大小相当的张量中的每一个元素则yijk数据值存在,否则
步骤S2:初始化超参数和0参数:μ0=0,μ(k)=0,W0=I,Λ(k)=I,ν0=r,a0,b00,τ,τ0=1,其中:I为单位矩阵,0表示0向量;
步骤S3:随机初始化全局参数μ、偏置参数{φ,θ,η}和因子矩阵参数{U,V,X};
步骤S4:利用公式(16,17)更新全局参数μ的后验分布;
步骤S5:利用公式(30)更新超参数的后验分布q(μuu),利用公式(31)更新超参数的后验分布q(μvv),利用公式(32)更新超参数的后验分布q(μxx),其中:μ表示分布的均值向量参数,Λ表示分布的协方差矩阵参数;
步骤S6:利用公式(18,19)更新偏置参数φ的后验分布q(φi)和利用公式(24,25)因子矩阵参数U的后验分布q(ui),直到i=m;
步骤S7:利用公式(20,21)更新偏置参数θ的后验分布q(θj)和利用公式(26,27)因子矩阵参数V的后验分布q(vj),直到j=n;
步骤S8:利用公式(22,23)更新偏置参数η的后验分布q(ηt)和利用公式(28,29)因子矩阵参数X的后验分布q(xt),直到t=f;
步骤S9:利用公式(33,34)更新精度参数τ的后验分布q(τ);
步骤S10:重复步骤S4~S9直到精度参数τ与前一代的参数τ的差Δτ<ε时,则模型已经收敛,进入下一步;
步骤S11:利用更新后的{μ,φ,θ,η,U,V,X}参数值,代入yijt的表达式中计算估计张量
步骤S12:输出估计张量和更新后的{μ,φ,θ,η,U,V,X}参数。
其中张量的每一个元素由更新后{μ,φ,θ,η,U,V,X}参数根据贝叶斯增强张量分解的数学式进行计算,因此就可以填补缺失位置的车速值。
为了证明本实施例所述基于贝叶斯增强张量分解的缺失交通数据修复方法的效果可靠性,本实施例根据以上步骤进行相关实验,具体地,如下:
数据集:本实施例使用了广州城市路网车速数据作为验证数据集,该车速数据从214条道路中的浮动车进行采集,时间跨度为61天(从2016年8月1日到9月30日),采集间隔10分钟(每天144个时间窗)。将该数据集组织成3阶张量,其大小为216×61×144,其中,有约1.29%的位置天然缺失。
评价指标:引入两个误差评价指标,平均绝对相对误差(MAPE)和根均方差(RMSE)。
其中N是缺失值的数量,yl分别是真实值和修复值。
对比方法:历史平均法(DA)利用其他天相同路段和相同时间窗的均值作为修复值;STD、HaLRTC、BCPF和BGCP都是张量分解方法,是近年来交通缺失数据修复的基准模型。BCPF和BGCP都是贝叶斯概率分解方法,前者使用变分推断求解,后者使用MCMC采样方法进行求解。
实验设置:为了验证本实施例所述基于贝叶斯增强张量分解的缺失交通数据修复方法的技术效果,实验在两种缺失场景下进行:随机缺失和块状缺失(如整天缺失),在每一种缺失场景下又设置了10%、30%和50%三种不同的缺失率。每种实验场景中分解模型使用的CP秩如表1和表2所示。本实施例基于贝叶斯增强张量分解的缺失交通数据修复方法和BCPF方法的迭代次数为200代,而BGCP方法的迭代次数为1000代。由于在块状缺失下模型容易过拟合,因此根据缺失率的大小选用了较小的CP秩(分别为20、15和10)进行张量分解。
效果与说明:
表1随机缺失场景不同缺失率下各模型修复效果对比
对于随机缺失场景,从表1实验结果可以看出,在低缺失率下(10%)HALRTC模型达到了最优的效果,然而受困于训练数据,在较高缺失率时(30%和50%)本发明提出的模型都要比其他基准模型更优,且随着缺失率的不断增加,本发明方法在误差上变化不大,修复效果基本维持在同一水平。
表2块状缺失场景不同缺失率下各模型修复效果对比
对于块状缺失场景,首先BCPF模型因为分解结构过于简单,在此场景下无论设置多少的CP秩(例如5甚至更小)都出现过拟合现象,因此在表2的实验结果中没有展示。可以看出,面对块状数据缺失,本发明方法由于有效地结合了交通数据的显隐性模式,从而能够获得最优的修复效果,而其他模型次之,且对高缺失率较敏感,在高缺失率下面效果不佳。
如图4所示,展示了本实施例所述基于贝叶斯增强张量分解的缺失交通数据修复方法在块状缺失场景下,缺失率为50%时,路段#1在8月1日到14日的修复效果,其中白色方块表示块状缺失(车速值整天地丢失),而灰色方块则表示部分观测数据,可以看到全局参数和偏置的和能够初步表达出路段的在各个时间段的一般水平,而加上隐性因子的耦合结果后可以较为准确地逼近真值。甚至在异常天出现整天缺失的情况下(第一个白色方块),本实施例所述基于贝叶斯增强张量分解的缺失交通数据修复方法仍然能够复原出当天的车速值,可见该方法的有效性。
综上,本实施例提出来的基于贝叶斯增强张量分解的缺失交通数据修复方法是一个有效、稳定且高效的交通缺失数据修复方法。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于贝叶斯增强张量分解的缺失交通数据修复方法,其特征在于:所述该修复方法包括以下步骤:
S1:将路网车速数据组织成一个3阶数据张量数据张量中的每一个yijt表示第i个路段,第j天和第t个时间窗的车速值;采用张量CP分解把数据张量映射到低维隐性因子空间中,被建模成隐性空间因子的内积,并引入显性因子结构,使得显性因子与隐性因子在分解过程中相互作用,从而进行建模,其数学表达:
式中:是所有元素的全局参数;φ表示路段维度的偏置向量,θ表示天维度的偏置向量,η表示时间窗维度的偏置向量,uik表示U矩阵的元素,vjk表示V矩阵的元素,xtk表示X矩阵的元素,U、V、X是数据张量分解得到的因子矩阵,r是CP分解的秩,表示所有的索引元素(i,j,k);
S2:采用贝叶斯推断方法从数据张量中学习出模型的全部参数{μ,φ,θ,η,U,V,X},采用高斯分布假设和对模型参数配置共轭先验进行定义贝叶斯增强张量分解模型;
S3:输入部分数据张量指示张量其中:Ω表示观测值索引的集合,对应着一个与大小相当的张量中的每一个元素oijk=1,则yijk数据值存在,否则oijk=0;
S4:更新全局参数μ的后验分布;
S5:更新超参数的后验分布q(μu,Λu),q(μv,Λv),q(μx,Λx),其中,μu、μv、μx表示分布的均值向量参数,Λu、Λv、Λx表示方差矩阵参数;
S6:更新偏置参数φ的后验分布q(φi)和因子矩阵参数U的后验分布q(ui),直到i=m;
S7:更新偏置参数θ的后验分布q(θj)和因子矩阵参数V的后验分布q(vj),直到j=n;
S8:更新偏置参数η的后验分布q(ηt)和因子矩阵参数X的后验分布q(xt),直到t=f;
S9:更新精度参数τ的后验分布q(τ);
S10:重复步骤S5~S9直到精度参数τ与前一代的参数τ的差Δτ<ε时,则模型已经收敛,进入下一步;
S11:利用更新后的{μ,φ,θ,η,U,V,X}参数值,代入yijt的表达式中计算估计张量
S12:输出估计张量和更新后的{μ,φ,θ,η,U,V,X}参数。
2.根据权利要求1所述的基于贝叶斯增强张量分解的缺失交通数据修复方法,其特征在于:步骤S2,所述高斯分布假设,具体地,在张量分解中对于数据张量中的每一个元素,都假设其为高斯分布,因此
其中,τ是高斯分布的精度参数;
在上述高斯分布假设的基础上,对模型参数配置共轭先验,即
τ~Gamma(a0,b0)
其中,向量是因子矩阵的第i行,维度等于CP分解的秩r,向量是因子矩阵的第j行,维度等于CP分解的秩r;是因子矩阵的第t行;伽马分布的概率密度函数由形状参数a和率参数b定义,公式如下:
3.根据权利要求2所述的基于贝叶斯增强张量分解的缺失交通数据修复方法,其特征在于:采用Gaussian-Wishart共轭先验对超参数{μu,Λu,μv,Λv,μx,Λx}进行处理,具体如下:
其中,参数{Λu,Λv,Λx}的边缘分布是一个Wishart分布,用表示,而参数{μu,μv,μx}基于{Λu,Λv,Λx}的条件分布是一个多元高斯分布;Wishart分布由尺度参数矩阵W和自由度ν定义,具体如下:
其中,C是归一化常量,而函数tr(·)表示矩阵的迹;
用符号Θ表示模型中未知的参数{μ,φ,θ,η,U,V,X,τ,μu,Λu,μv,Λv,μx,Λx},通过最小化KL散度找到一个分布q(Θ)使得其逼近真实的后验分布具体如下:
由于是观测证据为一确定值,因此通过最大化变分下界 来优化KL散度;根据平均场理论,变分后验分布q(Θ)根据参数进行分解,具体如下:
因此对于任意的参数Θs,最大化下界转化为下面的等价形式,
其中,表示对q(Θ\Θs)分布除了Θs之外的所有变量求期望,而则表示模型的联合概率分布。
4.根据权利要求3所述的基于贝叶斯增强张量分解的缺失交通数据修复方法,其特征在于:在步骤S3之后,步骤S4之前还需要进行以下处理:
D1:初始化超参数和0参数:μ0=0,μ(k)=0,W0=I,Λ(k)=I,v0=r,a0,b0,β0,τ,τ0=1,其中:I为单位矩阵,0表示0向量;
D2:随机初始化全局参数μ、偏置参数{φ,θ,η}和因子矩阵参数{U,V,X}。
5.根据权利要求4所述的基于贝叶斯增强张量分解的缺失交通数据修复方法,其特征在于:步骤S4,所述更新全局参数μ的后验分布,具体地,其变分后验为分布参数为
式中:
其中,表示求“期望”这一运算法则。
6.根据权利要求5所述的基于贝叶斯增强张量分解的缺失交通数据修复方法,其特征在于:步骤S5,所述更新超参数的后验分布q(μu,Λu),具体地,其后验分布为分布参数为
式中:
所述更新超参数的后验分布q(μv,Λv),具体地,其后验分布为 分布参数为:
式中:
所述更新超参数的后验分布q(μx,Λx),具体地,其后验分布为 分布参数为:
式中:
7.根据权利要求6所述的基于贝叶斯增强张量分解的缺失交通数据修复方法,其特征在于:步骤S6,更新偏置参数φ,具体地,其后验分布为分布参数为:
其中:
对于因子矩阵参数U,其后验为分布参数为:
其中:符号表示哈达玛积,因此
式中,表示后验分布的参数,分别对应均值和精度参数;fijt、wijt只是辅助参数,没有实际意义。
8.根据权利要求7所述的基于贝叶斯增强张量分解的缺失交通数据修复方法,其特征在于:步骤S7,更新偏置参数θ,具体地其后验分布为 分布参数为
其中:
对于因子矩阵参数V,其后验分布为分布参数为
其中
式中,表示后验分布的参数,分别对应均值和精度参数;fijt、wijt只是辅助参数,没有实际意义。
9.根据权利要求8所述的基于贝叶斯增强张量分解的缺失交通数据修复方法,其特征在于:步骤S8,更新偏置参数η,具体地,其后验分布为 分布参数为:
其中:
对于因子矩阵参数X,其后验分布为分布参数为
其中
式中,表示后验分布的参数,分别对应均值和精度参数;fijt、wijt只是辅助参数,没有实际意义。
10.根据权利要求9所述的基于贝叶斯增强张量分解的缺失交通数据修复方法,其特征在于:步骤10,所述更新精度参数τ的后验分布q(τ),对于观测值的精度参数τ,其变分后验为分布参数为
式中:
CN201910319516.5A 2019-04-19 2019-04-19 一种基于贝叶斯增强张量的缺失交通数据修复方法 Active CN110223509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910319516.5A CN110223509B (zh) 2019-04-19 2019-04-19 一种基于贝叶斯增强张量的缺失交通数据修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910319516.5A CN110223509B (zh) 2019-04-19 2019-04-19 一种基于贝叶斯增强张量的缺失交通数据修复方法

Publications (2)

Publication Number Publication Date
CN110223509A true CN110223509A (zh) 2019-09-10
CN110223509B CN110223509B (zh) 2021-12-28

Family

ID=67819884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910319516.5A Active CN110223509B (zh) 2019-04-19 2019-04-19 一种基于贝叶斯增强张量的缺失交通数据修复方法

Country Status (1)

Country Link
CN (1) CN110223509B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475496A (zh) * 2020-03-26 2020-07-31 深圳先进技术研究院 基于多条件约束的时间序列数据生成方法、装置及介质
CN113378931A (zh) * 2021-06-11 2021-09-10 北京航空航天大学 一种基于贝叶斯张量分解的智能路侧多源数据融合方法
CN113704688A (zh) * 2021-08-17 2021-11-26 南昌航空大学 基于变分贝叶斯平行因子分解的缺失振动信号的恢复方法
CN114048783A (zh) * 2021-11-17 2022-02-15 东南大学 一种基于移动群体感知的蜂窝信号地图构建方法
US11797372B2 (en) 2020-03-26 2023-10-24 Shenzhen Institutes Of Advanced Technology Method and apparatus for generating time series data based on multi-condition constraints, and medium

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6577946B2 (en) * 2001-07-10 2003-06-10 Makor Issues And Rights Ltd. Traffic information gathering via cellular phone networks for intelligent transportation systems
US20050091176A1 (en) * 2003-10-24 2005-04-28 Mitsubishi Denki Kabushiki Kaisha Forecasting apparatus
CN103258427A (zh) * 2013-04-24 2013-08-21 北京工业大学 基于信息物理网络的城市快速路交通实时监控系统与方法
US20150006068A1 (en) * 2013-07-01 2015-01-01 Iteris, Inc. Traffic speed estimation using temporal and spatial smoothing of gps speed data
CN105679022A (zh) * 2016-02-04 2016-06-15 北京工业大学 一种基于低秩的多源交通数据的补全方法
CN105869402A (zh) * 2016-05-12 2016-08-17 中山大学 基于多类型浮动车数据的高速公路路段速度修正方法
CN106683122A (zh) * 2016-12-16 2017-05-17 华南理工大学 一种基于高斯混合模型和变分贝叶斯的粒子滤波方法
CN107766583A (zh) * 2017-11-22 2018-03-06 中山大学 基于子图划分的知识图谱降维表达方法
CN109308804A (zh) * 2018-08-08 2019-02-05 北京航空航天大学 基于张量分解的旅行时间估计方法
CN109493599A (zh) * 2018-11-16 2019-03-19 南京航空航天大学 一种基于生成式对抗网络的短时交通流预测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6577946B2 (en) * 2001-07-10 2003-06-10 Makor Issues And Rights Ltd. Traffic information gathering via cellular phone networks for intelligent transportation systems
US20050091176A1 (en) * 2003-10-24 2005-04-28 Mitsubishi Denki Kabushiki Kaisha Forecasting apparatus
CN103258427A (zh) * 2013-04-24 2013-08-21 北京工业大学 基于信息物理网络的城市快速路交通实时监控系统与方法
US20150006068A1 (en) * 2013-07-01 2015-01-01 Iteris, Inc. Traffic speed estimation using temporal and spatial smoothing of gps speed data
CN105679022A (zh) * 2016-02-04 2016-06-15 北京工业大学 一种基于低秩的多源交通数据的补全方法
CN105869402A (zh) * 2016-05-12 2016-08-17 中山大学 基于多类型浮动车数据的高速公路路段速度修正方法
CN106683122A (zh) * 2016-12-16 2017-05-17 华南理工大学 一种基于高斯混合模型和变分贝叶斯的粒子滤波方法
CN107766583A (zh) * 2017-11-22 2018-03-06 中山大学 基于子图划分的知识图谱降维表达方法
CN109308804A (zh) * 2018-08-08 2019-02-05 北京航空航天大学 基于张量分解的旅行时间估计方法
CN109493599A (zh) * 2018-11-16 2019-03-19 南京航空航天大学 一种基于生成式对抗网络的短时交通流预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHEN, XY (CHEN, XINYU) ; HE, ZHAOCHENG: "A Bayesian tensor decomposition approach for spatiotemporal traffic data imputation", 《TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES》 *
GANG CHANG; TONGMIN GE: "Comparison of missing data imputation methods for traffic flow", 《IEEE XPLOR》 *
ZHAOCHENG HE; YIXIAN CHEN: "Identifying Station-Link Correlation for Target Passenger Flow Control in Subway Network", 《IEEE XPLORE》 *
邹晓芳: "城市快速路交通流故障数据修复方法研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475496A (zh) * 2020-03-26 2020-07-31 深圳先进技术研究院 基于多条件约束的时间序列数据生成方法、装置及介质
US11797372B2 (en) 2020-03-26 2023-10-24 Shenzhen Institutes Of Advanced Technology Method and apparatus for generating time series data based on multi-condition constraints, and medium
CN113378931A (zh) * 2021-06-11 2021-09-10 北京航空航天大学 一种基于贝叶斯张量分解的智能路侧多源数据融合方法
CN113704688A (zh) * 2021-08-17 2021-11-26 南昌航空大学 基于变分贝叶斯平行因子分解的缺失振动信号的恢复方法
CN113704688B (zh) * 2021-08-17 2023-05-05 南昌航空大学 基于变分贝叶斯平行因子分解的缺失振动信号的恢复方法
CN114048783A (zh) * 2021-11-17 2022-02-15 东南大学 一种基于移动群体感知的蜂窝信号地图构建方法
CN114048783B (zh) * 2021-11-17 2024-04-16 东南大学 一种基于移动群体感知的蜂窝信号地图构建方法

Also Published As

Publication number Publication date
CN110223509B (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
CN110223509A (zh) 一种基于贝叶斯增强张量的缺失交通数据修复方法
CN110738252B (zh) 空间自相关的机器学习卫星降水数据降尺度方法、系统
CN108090558B (zh) 一种基于长短期记忆网络的时间序列缺失值自动填补方法
Nkuna et al. Filling of missing rainfall data in Luvuvhu River Catchment using artificial neural networks
CN109063569B (zh) 一种基于遥感影像的语义级变化检测方法
CN111639787A (zh) 一种基于图卷积网络的时空数据预测方法
CN102495919B (zh) 一种生态系统碳交换影响因素提取方法及系统
CN106203625A (zh) 一种基于多重预训练的深层神经网络训练方法
CN104865956A (zh) 一种基于贝叶斯网络的复杂系统中传感器故障诊断方法
CN113762595B (zh) 通行时间预测模型训练方法、通行时间预测方法及设备
CN112820104B (zh) 一种基于时空聚类张量分解的交通数据补全方法
CN115512543B (zh) 一种基于深度逆向强化学习的车辆路径链重构方法
CN113591380A (zh) 基于图高斯过程的交通流预测方法、介质及设备
CN109782124A (zh) 一种基于梯度下降算法的主配用一体化故障定位方法及系统
Hu et al. Combining human and machine intelligence to derive agents’ behavioral rules for groundwater irrigation
CN106169095A (zh) 主动学习大数据标注方法和系统
Egbo et al. Forecasting students’ enrollment using neural networks and ordinary least squares regression models
Kalaiarasi et al. Crop yield prediction using multi-parametric deep neural networks
CN113762481A (zh) 一种基于深度学习的层析成像方法及系统
CN115829163B (zh) 基于多模式集成的长江中下游流域径流预测方法和系统
Tao et al. Chaotic time series prediction based on radial basis function network
CN115392128B (zh) 一种利用时空卷积lstm网络模拟流域径流量的方法
CN116071644B (zh) 逐日叶面积指数数据反演方法、装置、设备及存储介质
CN114692832A (zh) 一种网络流量测量数据中缺失值的恢复方法及系统
Mo et al. Neural networks based real-time transit passenger volume prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant