CN110766066B - 一种基于fnn的张量异质集成车联网缺失数据估计方法 - Google Patents

一种基于fnn的张量异质集成车联网缺失数据估计方法 Download PDF

Info

Publication number
CN110766066B
CN110766066B CN201910993396.7A CN201910993396A CN110766066B CN 110766066 B CN110766066 B CN 110766066B CN 201910993396 A CN201910993396 A CN 201910993396A CN 110766066 B CN110766066 B CN 110766066B
Authority
CN
China
Prior art keywords
tensor
data
model
decomposer
fuzzy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910993396.7A
Other languages
English (en)
Other versions
CN110766066A (zh
Inventor
张婷
张德干
张捷
高瑾馨
王法玉
李可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Technology
Original Assignee
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Technology filed Critical Tianjin University of Technology
Priority to CN201910993396.7A priority Critical patent/CN110766066B/zh
Publication of CN110766066A publication Critical patent/CN110766066A/zh
Application granted granted Critical
Publication of CN110766066B publication Critical patent/CN110766066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于FNN的张量异质集成车联网缺失数据估计方法。车联网通过大量的传感器收集的数据来获得交通状况信息。然而数据缺失、异常数据等低质问题一直严重制约着车联网的发展和应用。FNNTEL方法针对大型路网数据缺失、低质异常问题,对时空多维数据集中进行鲁棒的缺失数据归算,采用张量分解数据采样新策略;首次将异质集成思想引入到交通数据归算建模中,构建张量分解的异质集成模型,既能保留交通数据的多维性,又能提取底层的多模式关联;将模糊神经网络对模型进行优化。与近年来较为先进的BGCP、HTD、XalRTC等算法相比,FNNTEL方法提高了数据缺失重构能力,降低了数据的插补误差,有效提高归算精度。

Description

一种基于FNN的张量异质集成车联网缺失数据估计方法
技术领域
本发明属于物联网与大数据处理领域,具体涉及一种基于FNN的张量异质集成车联网缺失数据估计方法。
背景技术
随着车联网(Internet of Vehicles,IOV)和传感器技术的飞速发展,大量的城市交通数据通过环路探测器、微波检测器、视频传感器以及浮动车等路网中固定或移动的传感器不断收集,用以捕捉交通路网的基本状态和动态,从而形成交通多维大数据。然而由于固定传感器空间范围有限,移动传感器具有高度不稳定的空间和时间分辨率,同时数据集采集过程常常伴随着传感器故障或传输失真等有损通信等因素,不可避免的造成流量数据缺失、丢失或异常等现象的发生,甚至可能会导致出现高比例的数据丢失。据报道,德州交通研究所数据库显示,交通流量数据的缺失率通常在16%到93%之间。在加拿大阿尔伯塔省近7%的交通数据在7年内失踪,有时失踪率高达90%。第十七届世界智能交通系统大会上,中国研究人员在报告中强调,北京经常发生交通数据丢失的情况。由此可见,数据缺失、异常数据等低质量问题一直是一个严重制约着车联网的发展和应用的难点。因此,为了充分利用不完整的时空数据,精确估计缺失数据、修复异常数据是交通数据处理的重要任务。
交通路网数据具有数据规模交大、多网多源、复杂异构,采集方式(流式与批式)多样,高维且结构复杂等特点。而张量能够最大程度保持数据内在结构特性,捕获数据的全局结构,更好的表达高阶数据复杂的本质结构。张量分解以低维子空间的形式表示张量近似内在结构。同时,相邻道路的交通状态趋向于强相关,意味着道路网络可以用低维模型来表示。张量完成方法利用这些模式来估计缺失值,通过获得不完全张量的合适的低秩逼近。因此,在交通研究领域数据缺失估计中效果较好。
发明内容
本发明的目的是解决车联网(IOV)通过大量的传感器收集到的交通状况信息,长期存在的数据缺失、异常数据等低质问题,为此提供一种基于模糊神经网络(FNN)的张量异质集成车联网缺失数据估计方法(FNNTEL)。在路网交通数据不完整时空数据插补估计中,归算最优结果是一个NP-hard问题。近年来学术界针对交通数据缺失恢复做了许多研究,但如何充分利用时空交通模式提高数据插补性能问题仍然是努力的方向。目前提出的解决问题的方法综合起来主要为插值、统计学习和预测三类。插值函数法通常假定缺失数据的问题局限于某些已知的连接和时间间隔,利用历史数据获取目标道路与其邻近或过去道路之间的关系函数,这种技术需要完整的历史数据来得到关系模型,如历史数据有缺少值,这些方法将无法使用。然而在实际场景中,未损坏的历史数据也有可能不可用。此外,有研究人员提出基于EM imputation methods的利用观测数据与潜在变量之间的贝叶斯主成分分析(BPCA)算法和概率主成分分析(PPCA)来解决缺失数据问题。然而由于EM方法的固有特性和矩阵模型的固有特性,当缺失率较高时,这些方法的性能可能较差。多数关于张量分解的研究,取决于范数最小化寻找原始含缺失数据张量的低秩近似表示。这种优化方法因为仅计算单点估计,当丢失率很大时通常倾向于过拟合,在处理稀疏张量时,难以捕获全局信息并做出良好的估计。本发明针对大型路网缺失数据问题,建立在张量模式基础上,将张量分解的处理方法进行异质集成,并利用FNN方法进行建模。与近年来较为先进的BGCP、HTD、XalRTC等算法相比,FNNTEL方法提高了数据缺失重构能力,降低了数据的插补误差,即使在数据量级较大的情况下,依然收到理想的效果,具有一定的实用价值。
本发明提供的基于FNN的张量异质集成车联网缺失数据估计方法,主要包括如下关键步骤:
第1、系统模型建立;主要包括:
第1.1、建立数据张量模型;
第1.2、建立多维数据插补模型。
第2、采样阶段;对包含不完成缺失的原始数据形成张量数据集,对数据集进行Bootstrap自主采样,形成最终张量数据集;具体包括:
第2.1、原始数据形成张量数据集,对原始的交通多维数据进行采集,大量的城市交通数据通过环路探测器、微波检测器、视频传感器以及浮动车等路网中固定或移动的传感器不断收集,进行张量设置与性能度量;
第2.2、采用新策略对张量进行采样。运用Bootstrap技术,根据均匀概率分布,对含缺失、低质等原始张量数据进行随机抽样,获取多个有多样性差异的样本,样本规模与原始张量数据集一样;
第2.3、通过新策略采样对张量进行采样,增加了张量分解性能间的差异度,从而提高了数据缺失估计的精度。形成最终张量数据集。
第3、模型构建阶段。根据相关参数对不同张量分解器进行设定,针对基分解器进行最优权值计算,最终形成分解器组件,根据目标函数最终形成张量异质集成模型;具体包括:
第3.1、分别对利用新策略采样得到的数据进行张量分解,形成分解器组件,提高多样性和准确性;
第3.2、对基分解器进行最优权值计算;
第3.3、异质集成新的组件模型。
第4、模型优化阶段。首先通过训练进行模糊神经网络(FNN)构建,接着对形成的张量异质集成模型进行优化,对比目标函数选择最优。
第4.1、通过训练与预测,进行模糊神经网络(FNN)的构建;
第4.2、针对异质集成新的张量模型,进行FNN优化;
第4.3、对比目标函数选择最优。
本发明的优点和积极效果是:
本发明主要设计一种基于FNN的张量异质集成车联网缺失数据估计方法,该方法的研究主要针对,车联网(IOV)交通数据原始信息采集的数据缺失、异常数据等低质问题。FNNTEL方法建立在张量模式基础上,张量分解异质集成建模,并利用FNN方法进行优化。与近年来较为先进的BGCP、HTD、XalRTC等算法相比,FNNTEL方法提高了数据缺失重构能力,降低了数据的插补误差,即使在数据量级较大的情况下,依然收到理想的效果,具有一定的实用价值。
附图说明
图1是FNNTEL方法的流程图;
图2(a)是FNN模型训练结果图;
图2(b)是FNN模型预测数据结果图;
图3(a)是城市路网数据10%-90%随机性缺失多维交通数据序列展示图,数据来源为A城市路网交通速度数据集,数据量180万条;
图3(b)是高速路网数据10%-90%结构性缺失多维交通数据序列展示图,数据来源为B城市局部高速公路路网交通速度数据集,数据量15万条;
图4是B城市高速公路某天6个观测点路段时间序列图;
图5(a)是A城市路网数据时间序列里某个观测点某天采集点的数据图;
图5(b)是A城市观测点平均数据图,红色标记显示为休息日的平均速度;
图6(a)是城市路网数据选择不同等级引起的算法重建性能的变化图;
图6(b)是高速路网数据选择不同等级引起的算法重建性能的变化图;
图7(a)是城市路网数据在不同数据缺失率下的相对误差图;
图7(b)是高速路网数据在不同数据缺失率下的相对误差图;
图8(a)是城市路网数据在不同数据缺失率下的绝对误差图;
图8(b)是高速路网数据在不同数据缺失率下的绝对误差图;
图9(a)是城市路网数据在不同数据缺失率下的均方根误差图;
图9(b)是高速路网数据在不同数据缺失率下的均方根误差图;
图10(a)是城市路网数据在对应路段随机数据缺失达到40%时的数据缺失估计值及真实值对比图;
图10(b)是城市路网数据在对应路段随机数据缺失达到95%时的数据缺失估计值及真实值对比图;
图11(a)是高速公路路网数据在对应路段光纤数据缺失达到40%时的数据缺失估计值及真实值对比图;
图11(b)是高速路网数据在在对应路段光纤数据缺失达到70%时的数据缺失估计值及真实值对比图。
具体实施方式
本实施例设计的方法是借助MATLAB2016开发工具对本发明方法进行仿真实验。将该方法和BGCP、HTD、XalRTC、CP_WOPT方法进行对比分析。在相同的测试环境与测试参数下,分析对比这五种不同的方法的相对误差、绝对误差估计精度和均方根误差。参见附图1,具体实施过程详述如下:
步骤1、系统模型建立:
步骤1.1、建立数据张量模型
1)数据集张量设置
道路用线段Li表示,E为大小为p的测试道路网,
Figure GDA0002310399810000051
在区间道路Li上的平均速度(tj-Δt,tj)为V(Li,tj),采样间隔Δt为10min。每个链路Li创建一个速度剖面ai∈Rn,如ai=[V(Li,t1),...,V(Li,tn)]T。速度配置文件包含每个道路一天的速度数据,则速度数据矩阵A∈Rn×p,比如
Figure GDA0002310399810000052
令D∈Rn×p为相应的缺失数据矩阵。集合Ω收录词条的位置在D的速度数据是可用的,集合Θ=ΩC表示在D丢失速度值的位置。创建路网配置张量X∈Rn ×p×q,q为60天的数据。通过叠放在一起的网络配置矩阵{X1,X2,...Xq}从不同的日子形成3阶张量,其中,不完全张量由D∈Rn×p×q表示。
2)路网选取与数据来源
首先选取A城市交通委员会发布的大规模城市路网交通速度数据集作为实验数据之一,将速度数据构造成X表示的原始张量。该数据集包含两个月内(2016年8-9月)的200个路段的车辆行驶速度观测,以10min为采集周期(每天144个测试采集)。数据集设置为三阶张量(路段×天数×每天时间间隔,尺寸为200×60×144),数据量为180万。为更好的进行实验测试,接下来我们选取B城市高速公路开放的速度采集数据集为实验数据之二,该数据集包含20天内(2015年9月15-10月5日)的26个高速路段的车辆行驶速度观测,以5min为采集周期(每天288个测试采集)。数据集设置为三阶张量(路段×天数×每天时间间隔,尺寸为26×20×288),数据量为15万。
步骤1.2、建立多维数据插补模型
在步骤1.1中建立的张量模型基础上,首先构建张量分解模型,在此基础上对张量的基分解器进行异质集成,并利用模糊神经网络对集成结果进行优化,该模型表征了数据插补及优化的过程。
步骤2、采样阶段:
步骤2.1、原始数据形成张量数据集
对原始的交通多维数据进行采集,大量的城市交通数据通过环路探测器、微波检测器、视频传感器以及浮动车等路网中固定或移动的传感器不断收集,进行张量设置与性能度量。
定义1加权相对误差(WRE)。为实际张量数据A与估计张量数据
Figure GDA0002310399810000061
之间的误差:
Figure GDA0002310399810000062
式中符号o代表两张量之间的元素相乘。张量W∈Rn×p×q为带权值的张量:
Figure GDA0002310399810000063
张量A∈Rn×p×q的Fresenius范数||A||F定义为:
Figure GDA0002310399810000064
定义2均方根误差(RMSE)的估计算法如下:
Figure GDA0002310399810000065
式中|Θ|代表集Θ的大小。我们计算了估算速度数据中的偏差,如下所示:
Figure GDA0002310399810000066
计算估计值方差如下:
Figure GDA0002310399810000067
式中
Figure GDA0002310399810000068
代表式(6)中和
Figure GDA0002310399810000069
的平均值。
定义3加权绝对误差(MAD)表示如下:
Figure GDA0002310399810000071
定义4平均绝对百分比相对误差(MAPE)表示如下:
Figure GDA0002310399810000072
步骤2.2、采用新策略对张量进行采样
运用Bootstrap技术,根据均匀概率分布,对含缺失、低质等原始张量数据进行随机抽样,获取多个有多样性差异的样本,样本规模与原始张量数据集一样,增加张量分解性能间的差异度,从而提高了数据缺失估计的精度。
对样本张量X运用Bootstrap技术,形成新的张量X’,则X’中不包含某个样本的概率为:
Figure GDA0002310399810000073
步骤2.3、通过新策略采样对张量进行采样,增加了张量分解性能间的差异度,从而提高了数据缺失估计的精度。形成最终张量数据集。
步骤3、模型构建阶段:
张量分解的目标是利用参数相对较少的简单结构,有效地再现多元数据中不同模态之间的复杂依赖关系和高阶相互作用,用高阶奇异值分解等工具来实现对体数据的近似。根据相关参数对不同张量分解器进行设定,针对基分解器进行最优权值计算,最终形成分解器组件,根据目标函数最终形成张量异质集成模型。
步骤3.1、设定基分解器
分别对利用新策略采样得到的数据进行张量分解,设定基分解器,形成分解器组件,提高多样性和准确性。
设X∈Rn×p×q表示路网速度数据三阶张量,其中n为道路区间,p为天数,q为每日数据采集点,此张量分布是由堆叠在一起的从不同时间中获得的网络分布矩阵{X1,X2,...,Xq}得到。
定义5CANDECOMP/PARAFAC模型。即张量CP分解,基本思想是近似使用低秩结构,做奇异值分解(SVD)的高阶推广。如下所示:设D为不完整张量配置,通过以下方式对观测数据进行重建误差最小化,得到一个合适的低秩近似
Figure GDA0002310399810000081
Figure GDA0002310399810000082
Figure GDA0002310399810000083
定义6HOSVD模型。张量HOSVD算法基于Tucker分解模型,将一个张量表示成一个核心张量和各维上因子矩阵相乘的形式[31],是SVD在张量的高阶推广。其中
Figure GDA0002310399810000084
表示核心张量,为原始张量在各个维度上主成份的相关系数,因子矩阵
Figure GDA0002310399810000085
为各个维度上的主成份。
Figure GDA0002310399810000086
定义7HalRTC模型。高精度低秩张量完成模型,目标函数如公式(12)所示,其中,符号||·||*表示迹范数。
Figure GDA0002310399810000087
步骤3.2、对基分解器进行权值最优组合
针对路网交通不完整时空数据插补,采用异质集成学习思想,把多个单一模型进行权值最优组合,从而获得更准确、稳定和强壮的最优结果。针对不同的张量基分解器模型进行异质集成形成组件分解器。
张量分解模型由张量分解提取出的主成分以及相关系数构成,以分解模型与原始张量的误差为优化目标,恢复张量结构下缺失的数据。由于张量秩的不确定性,分解模型与原始张量之间总是存在一定的误差,为进一步缩小误差,根据秩值设定权值最优,基于集成学习的异质集成张量分解模型并进行优化,从而提高数据插补精度。根据对比分析,所采取的张量分解模型分别为加权优化张量分解模型CP_WOPT、HOSVD-WOPT模型以及HalRTC模型,分别从不完整的网络配置张量D中获得相应的估计
Figure GDA0002310399810000091
CP_WOPT算法。利用CP分解模型,采用梯度优化的方法,基于一阶导数求解原始张量与分解模型之间误差的最优解。针对大规模稀疏张量,CP-WOPT算法采用稀疏的张量表示法,可解决大规模、高缺失比的张量插补问题。如公式(14)所示,W为与含缺失值的原始张量X大小相同的张量,其中已知元素值取1,未知元素值取0。A(1),A(2),…,A(N)为因子矩阵。
Figure GDA0002310399810000092
HOSVD–WOPT算法。算法是针对稀疏张量的基于Tucker分解模型,WOPT为带权值的优化。
Figure GDA0002310399810000093
HalRTC算法。矩阵Bi(i)表示张量Bi在模态i下的展开。
Figure GDA0002310399810000094
将张量模型进行异质集成,得到集成张量插补模型为:
Figure GDA0002310399810000095
步骤3.3、异质集成新的组件模型
张量分解的异质集成需要选择合适的分解器。由于每种分解器都各有其优缺点,其性能不仅取决于应用场景、数据集的类型,还需要考虑算法秩值、时间复杂度和精度等。因此,将多个种类的分解器进行集成,放大各自的优势,弥补缺陷。根据算法性能,这里选取CP_WOPT、HOSVD_WOPT及HalRTC算法作为组件的基张量分解器,对Mi进行张量分解。
对遴选的张量分解器做最优权值集成。权值代表分解器在集成中的重要性,计算3个基分解器函数Aw(x),At(x),Ah(x)最优权值p1,p2,p3,并可将其推广到N阶。分解器的泛化误差如公式,如公式(18)所示。
Figure GDA0002310399810000096
其中,Ai(x)表示分解器函数,
Figure GDA0002310399810000101
表示最优分解器。我们定义第i个分解器与第j个分解器的相关度如公式(19)所示。
Figure GDA0002310399810000102
加入组件分解器权重,根据公式(18)、(19)得到异质集成得泛化误差,如公式(20)所示。
Figure GDA0002310399810000103
张量分解器集成基于最优权值选取,伪代码描述如下:
Figure GDA0002310399810000104
步骤4、模型优化阶段:
原始张量和分解模型之间总是存在一定的误差,实际应用中,通常张量分解模型秩的设定为经验值设定。从实验中得知,CP算法便于理解和实现,但是该算法不能够确保获得全局最优的解,也不能保证收敛到某个驻点。最终的生成的CP分解模型在很大程度上依赖于初始的猜测值,这也使得CP分解模型不够“准确”,容易造成原始张量和CP分模型之间较大的误差,并不能完全提取出张量的主成分。算法适用于数据缺失比例不是很高的情况,如果数据缺失比例过大,该算法不仅运算速度非常慢,而且很有可能根本不收敛。HOSVD模型将张量的主成分存入因子矩阵,各维之间的协方差存入核心张量中,其较CP模型分解精度较高,但算法时间较长。HalRTC模型利用ADMMs方法,进行高质量低秩完成。因此,我们需要在算法秩值、时间复杂度和精度之间做一个权衡。附图6(a)是城市路网数据选择不同等级引起的算法重建性能的变化图;附图6(b)是高速路网数据选择不同等级引起的算法重建性能的变化图;
通过训练进行模糊神经网络(FNN)构建,接着对形成的张量异质集成模型进行优化,对比目标函数选择最优。
步骤4.1、通过训练与预测,进行模糊神经网络(FNN)的构建
T-S模糊神经网络具有很强的自适应能力,网络由前件网络和后件网络两部分组成,前件网络用来匹配模糊规则,后件网络用来产生模糊规则。
1)前件网络:前件网络由四层组成,第一层为模糊神经网络输入层。设输入向量x=[x1,x2,…,xn]T,xi为输入层的输入值,用于表示张量分解的各项指标m。中间一层为模糊化层,针对输入数据进行模糊处理,计算各输入分量执行相应的隶属度函数
Figure GDA0002310399810000111
其中i=1,2,…n;j=1,2,…m,n为输入参数,m为模糊子集数。隶属度函数如公式(21)所示,其中
Figure GDA0002310399810000112
Figure GDA0002310399810000113
分别为隶属度函数的中心和宽度。中间二层为模糊规则层,用于匹配模糊规则的前件,将隶属度进行模糊计算,采用模糊算子为连乘算子,如公式(22)所示。中间三层实现归一化计算,如公式(23)所示。
Figure GDA0002310399810000114
Figure GDA0002310399810000115
Figure GDA0002310399810000121
2)后件网络:后件网络由各结构相同的并列子网组成,每个子网产生一个输出量。T-S模糊规则后件是输入变量的线性组合,模糊系统的输出量为每条规则的输出量的加权平均。后件网络的第一层是输入层,其中x0=1,为模糊规则后件常数项。第二层计算每一条模糊规则后件,如公式(24)所示,其中
Figure GDA0002310399810000122
为模糊系统参数,yj为输出。第三层为归一化后实际输出,如公式(25)所示。
Figure GDA0002310399810000123
Figure GDA0002310399810000124
3)模糊神经网络学习算法
网络期望输出与实际输出误差值e的计算,如公式(26)所示,其中,yd为期望输出值,yc为实际输出值。系数修正如公式(27)所示,参数修正如公式(28)、(29)、(30)所示,
Figure GDA0002310399810000125
Figure GDA0002310399810000126
其中,α为网络学习率。
Figure GDA0002310399810000127
Figure GDA0002310399810000128
Figure GDA0002310399810000129
步骤4.2、针对异质集成新的张量模型,进行FNN优化
对原始缺失数据进行张量分解,在组件分解器的基础上,张量分解异质集成的目标是优化组件分解器,最终使得路网数据得到最优插值结果。
利用组件分解器形成最优结果是一个全局优化问题。最直接和最常见的评价函数是集成分解器的预测误差。通常传统遗传算法、粒子群算法等针对全局优化效果较好,但算法复杂,计算效率相对较低。针对非线性候选集,T-S模糊神经网络模型易于优化。
在基于最优权值集成的张量分解器的基础上,用平均绝对百分比误差(MAPE)、加权相对误差(MAD)、均方根误差(RMSE)三个指标估算性能,秩值R选取范围为5-35,形成训练集
Figure GDA0002310399810000137
构建模糊神经网络模型进行优化,使得归算精度最高,从而优化插补结果。
第一层:模糊神经网络的输入层。模型分别引入CP_WOPT、HOSVD_WOPT及HalRTC基张量分解器的MAPE、MAD、RMSE,m=9个精度指标,作为模型的输入函数。结合最优权值集成为输入的每个参数都对其定义了模糊集合的具体位置等级。指定
Figure GDA0002310399810000131
为模糊神经网络的每层输出值,对模糊神经网络本身进行样本训练。
第二层:模糊神经网络隶属函数生成层。针对输入数据进行模糊处理,计算各输入分量执行相应的隶属度函数μ(xi),其中
Figure GDA0002310399810000132
Figure GDA0002310399810000133
分别为隶属度函数的中心和宽度。
第三层:模糊神经网络规则层。相连系统输入变量的模糊子集。输入是隶属度,输出是相应规则的权重因子。
第四层:系统输出层。最优目标函数的性能指标。dm是第m集对应于期望输出的输入矢量;ym是对应于实际输出第m个输入向量,N是训练样本的总数。
Figure GDA0002310399810000134
实验中选取了100个训练数据集进行模型训练,选取20个数据集进行模型测试,其隐含层节点由经验公式
Figure GDA0002310399810000135
求得,其中M为隐藏节点数,I为输入节点数,O为输出节点数,
Figure GDA0002310399810000136
为经验值。目标函数如公式(18)所示:
其中,xw、xt、xh分别为基础张量分解器。取100次运行集成运行结果数据,进行100次迭代进化,进行模型训练。训练及预测结果见附图2(a)和图2(b)。
测试环境与测试数据设置:
实验依托路网采集真实数据集,在不同数据规模、不同数据路网形式以及类元素随机缺失和类结构性光纤缺失的情况下,对模型性能进行实验研究。实验数据一:选取A城市路网交通速度数据集,数据量180万条;实验数据二:B城市局部高速公路路网交通速度数据,数据量15万条,在随机缺失数据10%-90%以及极端缺失和恶劣天气下的结构性光纤缺失情况进行了测试。将数据构造成X表示的原始张量,其中A城市数据用X1∈R214×61×144表示,B城市数据用X2∈R10×20×288表示。实验中,两种实验数据的缺失率
Figure GDA0002310399810000141
从10%到90%。附图3(a)为A城市路网交通数据10%-90%随机性缺失多维交通数据序列展示图;附图3(b)为B城市高速公路路网交通数据10%-90%光纤结构性缺失多维交通数据序列展示图;附图4为选取B城市高速公路某天11个观测点时间序列图;附图5(a)为A城市路网数据时间序列里某个观测点某天144个采集点的数据图及观测点平均数据;图5(b)是A城市观测点平均数据图,红色标记显示为休息日的平均速度;
本实例的实验测试结果如下:
1.由附图7可以看出,本发明提出的FNNTEL算法在不同数据集、不同缺失率(10%-90%)下的相对误差(Mape),FNNTEL算法较FaLRTC、SaLRTC、BDCP、HTD归算精度好,且算法稳定性高。
2.由附图8可以看出,本发明提出的FNNTEL算法在不同数据集、不同缺失率(10%-90%)下的绝对误差(Mad),FNNTEL算法较FaLRTC、SaLRTC、BDCP、HTD归算精度较好,且算法稳定性较高,只有在缺失80%以上精度有所波动。
3.由附图9可以看出,本发明提出的FNNTEL算法在不同数据集、不同缺失率(10%-90%)下的均方根误差(Rmse),FNNTEL算法较FaLRTC、SaLRTC、BDCP、HTD归算精度较好,算法稳定性较高。
4.由附图10可以看出,本发明提出的FNNTEL算法在不同数据环境下,随机数据缺失在某路段的缺失修复数据与真实数据对比效果显示,尽管数据缺失情况严重,在已知的数据信息很少时,模型修复后的数据依然准确度较高,且能较完整反映出交通流的情况。
5.由附图11可以看出,本发明提出的FNNTEL算法在不同数据环境下,结构性光纤数据缺失在某路段的缺失修复数据与真实数据对比效果显示,尽管数据缺失情况严重,在已知的数据信息很少时,模型修复后的数据依然准确度较高,进一步证明了模型的优越性。由此可见,模型在随机缺失和结构性光纤缺失情景中具有一致和稳健的表现。
表1和表2给出了不同模型在不同道路类型,不同的数据缺失率下的估计精度误差。
表1百万级城市路网数据不同的数据缺失率下的估计精度
Figure GDA0002310399810000151
Figure GDA0002310399810000161
表2十万级高速路网数据不同的数据缺失率下的估计精度
Figure GDA0002310399810000162

Claims (2)

1.一种基于FNN的张量异质集成车联网缺失数据估计方法,其特征在于该方法主要包括如下步骤:
第1、系统模型构建
包括数据张量模型和多维数据插补模型的建立;
第2、采样阶段
包括原始数据形成张量数据集,对数据集进行Bootstrap自主采样,形成最终张量数据集;
第3、模型构建阶段
根据相关参数形成分解器组件,针对基分解器进行最优权值计算,根据目标函数最终形成张量异质集成模型;目标函数如公式(12)所示,
Figure FDA0004225566260000011
Figure FDA0004225566260000012
为因子矩阵;
第3.1、分别对利用新策略采样得到的数据进行张量分解,形成分解器组件;
第3.2、对基分解器进行最优权值计算;
针对路网交通不完整时空数据插补,采用异质集成学习思想,把多个单一模型进行权值最优组合,针对不同的张量基分解器模型进行异质集成形成组件分解器,张量分解模型由张量分解提取出的主成分以及相关系数构成,以分解模型与原始张量的误差为优化目标,恢复张量结构下缺失的数据,张量分解模型分别为加权优化张量分解模型CP_WOPT、HOSVD-WOPT模型以及HalRTC模型,分别从不完整的网络配置张量D中获得相应的估计
Figure FDA0004225566260000013
CP_WOPT算法是利用CP分解模型,采用梯度优化的方法,基于一阶导数求解原始张量与分解模型之间误差的最优解,针对大规模稀疏张量,CP-WOPT算法采用稀疏的张量表示法,如公式(14)所示,W为与含缺失值的原始张量X大小相同的张量,其中已知元素值取1,未知元素值取0,A(1),A(2),…,A(N)为因子矩阵;
Figure FDA0004225566260000021
HOSVD–WOPT算法是针对稀疏张量的基于Tucker分解模型,WOPT为带权值的优化;
Figure FDA0004225566260000022
HalRTC算法是:
Figure FDA0004225566260000023
矩阵Bi(i)表示张量Bi在模态i下的展开,将张量模型进行异质集成,得到集成张量插补模型为:
Figure FDA0004225566260000024
第3.3、异质集成新的组件模型;
张量分解的异质集成选取CP_WOPT、HOSVD_WOPT及HalRTC算法作为组件的基张量分解器,对遴选的张量分解器做最优权值集成,权值代表分解器在集成中的重要性,计算3个基分解器函数Aw(x),At(x),Ah(x)最优权值p1,p2,p3,并可将其推广到N阶,分解器的泛化误差如公式,如公式(18)所示,
Figure FDA0004225566260000025
其中,Ai(x)表示分解器函数,
Figure FDA0004225566260000026
表示最优分解器,定义第i个分解器与第j个分解器的相关度如公式(19)所示,
Figure FDA0004225566260000027
加入组件分解器权重,根据公式(18)、(19)得到异质集成得泛化误差,如公式(20)所示,
Figure FDA0004225566260000028
第4、模型优化阶段
首先进行模糊神经网络构建,接着对形成的张量异质集成模型进行优化,对比目标函数选择最优;具体包括:
第4.1、通过训练与预测,进行模糊神经网络的构建;
模糊神经网络由前件网络和后件网络两部分组成,前件网络用来匹配模糊规则,后件网络用来产生模糊规则,
1)前件网络:前件网络由四层组成,第一层为模糊神经网络输入层,设输入向量x=[x1,x2,...,xn]T,xi为输入层的输入值,用于表示张量分解的各项指标m,中间一层为模糊化层,针对输入数据进行模糊处理,计算各输入分量执行相应的隶属度函数
Figure FDA0004225566260000031
其中i=1,2,…n;j=1,2,…m,n为输入参数,m为模糊子集数,隶属度函数如公式(21)所示,其中
Figure FDA0004225566260000032
Figure FDA0004225566260000033
分别为隶属度函数的中心和宽度,中间二层为模糊规则层,用于匹配模糊规则的前件,将隶属度进行模糊计算,采用模糊算子为连乘算子,如公式(22)所示,中间三层实现归一化计算,如公式(23)所示,
Figure FDA0004225566260000034
Figure FDA0004225566260000035
Figure FDA0004225566260000036
2)后件网络:后件网络由各结构相同的并列子网组成,每个子网产生一个输出量,T-S模糊规则后件是输入变量的线性组合,模糊系统的输出量为每条规则的输出量的加权平均,后件网络的第一层是输入层,其中x0=1,为模糊规则后件常数项,第二层计算每一条模糊规则后件,如公式(24)所示,其中
Figure FDA0004225566260000037
为模糊系统参数,yj为输出,第三层为归一化后实际输出,如公式(25)所示,
Figure FDA0004225566260000041
Figure FDA0004225566260000042
3)模糊神经网络学习算法
网络期望输出与实际输出误差值e的计算,如公式(26)所示,其中,yd为期望输出值,yc为实际输出值,系数修正如公式(27)所示,参数修正如公式(28)、(29)、(30)所示,
Figure FDA0004225566260000043
Figure FDA0004225566260000044
其中,α为网络学习率,
Figure FDA0004225566260000045
Figure FDA0004225566260000046
Figure FDA0004225566260000047
第4.2、针对异质集成新的张量模型,进行模糊神经网络优化;
在基于最优权值集成的张量分解器的基础上,用平均绝对百分比误差(MAPE)、加权相对误差(MAD)、均方根误差(RMSE)三个指标估算性能,秩值R选取范围为5-35,形成训练集
Figure FDA00042255662600000411
第一层:模糊神经网络的输入层,模型分别引入CP_WOPT、HOSVD_WOPT及HalRTC基张量分解器的MAPE、MAD、RMSE,m=9个精度指标,作为模型的输入函数,结合最优权值集成为输入的每个参数都对其定义了模糊集合的具体位置等级,指定
Figure FDA0004225566260000048
为模糊神经网络的每层输出值,对模糊神经网络本身进行样本训练;
第二层:模糊神经网络隶属函数生成层,针对输入数据进行模糊处理,计算各输入分量执行相应的隶属度函数μ(xi),其中
Figure FDA0004225566260000049
Figure FDA00042255662600000410
分别为隶属度函数的中心和宽度;
第三层:模糊神经网络规则层,相连系统输入变量的模糊子集,输入是隶属度,输出是相应规则的权重因子;
第四层:系统输出层,最优目标函数的性能指标:
Figure FDA0004225566260000051
其中dm是第m集对应于期望输出的输入矢量;ym是对应于实际输出第m个输入向量,N是训练样本的总数;
第4.3、对比目标函数选择最优。
2.根据权利要求1所述的基于FNN的张量异质集成车联网缺失数据估计方法,其特征在于,第2步所述采样阶段包括:
第2.1、原始数据形成张量数据集,对原始的交通多维数据进行采集,大量的城市交通数据通过环路探测器、微波检测器、视频传感器以及浮动车等路网中固定或移动的传感器不断收集,进行张量设置与性能度量;
第2.2、采用新策略对张量进行采样,运用Bootstrap技术,根据均匀概率分布,对含缺失、低质等原始张量数据进行随机抽样,获取多个有多样性差异的样本,样本规模与原始张量数据集一样;
第2.3、通过新策略采样,增加了张量分解性能间的差异度,形成最终张量数据集。
CN201910993396.7A 2019-10-18 2019-10-18 一种基于fnn的张量异质集成车联网缺失数据估计方法 Active CN110766066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910993396.7A CN110766066B (zh) 2019-10-18 2019-10-18 一种基于fnn的张量异质集成车联网缺失数据估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910993396.7A CN110766066B (zh) 2019-10-18 2019-10-18 一种基于fnn的张量异质集成车联网缺失数据估计方法

Publications (2)

Publication Number Publication Date
CN110766066A CN110766066A (zh) 2020-02-07
CN110766066B true CN110766066B (zh) 2023-06-23

Family

ID=69332444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910993396.7A Active CN110766066B (zh) 2019-10-18 2019-10-18 一种基于fnn的张量异质集成车联网缺失数据估计方法

Country Status (1)

Country Link
CN (1) CN110766066B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6791347B1 (ja) * 2019-12-19 2020-11-25 トヨタ自動車株式会社 モデル診断装置及びモデル診断システム
CN116627953B (zh) * 2023-05-24 2023-10-27 首都师范大学 一种地下水位监测数据缺失的修复方法
CN117272704B (zh) * 2023-11-23 2024-01-26 湖南华自卓创智能技术有限责任公司 一种面向多源异构数据的数字孪生驱动的数据处理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108091135A (zh) * 2017-12-12 2018-05-29 重庆师范大学 基于优化小波神经网络的停车泊位多步预测方法
WO2018119316A1 (en) * 2016-12-21 2018-06-28 Emory University Methods and systems for determining abnormal cardiac activity
CN108960323A (zh) * 2018-07-03 2018-12-07 北京航空航天大学 一种基于张量分解和共同近邻确定位错核结构的方法
CN109711640A (zh) * 2019-01-23 2019-05-03 北京工业大学 一种基于模糊c均值交通流量聚类以及误差反馈卷积神经网络的短时交通流预测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136239B (zh) * 2011-11-29 2015-03-25 北京理工大学 一种基于张量重建的交通数据丢失恢复方法
JP7006296B2 (ja) * 2018-01-19 2022-01-24 富士通株式会社 学習プログラム、学習方法および学習装置
CN109284855B (zh) * 2018-07-25 2021-10-29 同济大学 基于城市场景中车联网时空数据分析的车辆节点之间连通强度的预测度量模型
CN110068302A (zh) * 2019-03-07 2019-07-30 中科院微电子研究所昆山分所 一种基于深度神经网络的车辆测距方法
CN110139046B (zh) * 2019-05-05 2021-03-23 西安电子科技大学 一种基于张量的视频帧合成方法
CN110087207B (zh) * 2019-05-05 2020-04-10 江南大学 无线传感器网络缺失数据重建方法
CN110162744B (zh) * 2019-05-21 2023-01-17 天津理工大学 一种基于张量的车联网数据缺失多重估计新方法
CN110222213B (zh) * 2019-05-28 2021-07-16 天津大学 一种基于异构张量分解的图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018119316A1 (en) * 2016-12-21 2018-06-28 Emory University Methods and systems for determining abnormal cardiac activity
CN108091135A (zh) * 2017-12-12 2018-05-29 重庆师范大学 基于优化小波神经网络的停车泊位多步预测方法
CN108960323A (zh) * 2018-07-03 2018-12-07 北京航空航天大学 一种基于张量分解和共同近邻确定位错核结构的方法
CN109711640A (zh) * 2019-01-23 2019-05-03 北京工业大学 一种基于模糊c均值交通流量聚类以及误差反馈卷积神经网络的短时交通流预测方法

Also Published As

Publication number Publication date
CN110766066A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
Zhang et al. A new method of data missing estimation with FNN-based tensor heterogeneous ensemble learning for internet of vehicle
CN109492822B (zh) 空气污染物浓度时空域关联预测方法
CN110766066B (zh) 一种基于fnn的张量异质集成车联网缺失数据估计方法
CN113313947B (zh) 短期交通预测图卷积网络的路况评估方法
CN101354757B (zh) 一种精细尺度下的动态风险及易损性预测方法
CN111859800A (zh) 用于pm2.5浓度分布的时空估算和预测的方法
Cherkassky et al. Computational intelligence in earth sciences and environmental applications: Issues and challenges
CN110895878B (zh) 一种基于ge-gan的交通状态虚拟检测器的生成方法
CN100370486C (zh) 基于嵌入式隐马尔可夫模型与交叉熵的台风中心定位方法
Xu et al. Graph partitioning and graph neural network based hierarchical graph matching for graph similarity computation
CN110162744B (zh) 一种基于张量的车联网数据缺失多重估计新方法
Tang et al. Dynamic origin‐destination flow estimation using automatic vehicle identification data: A 3D convolutional neural network approach
CN112927510B (zh) 一种交通流量预测方法
CN117494034A (zh) 基于交通拥堵指数和多源数据融合的空气质量预测方法
CN112966871A (zh) 基于卷积长短期记忆神经网络的交通拥堵预测方法及系统
Lin et al. Deep transfer learning for hyperspectral image classification
Liang et al. Semantics-aware dynamic graph convolutional network for traffic flow forecasting
CN112562312B (zh) 一种基于融合特征的GraphSAGE交通路网数据预测的方法
CN114169645A (zh) 一种智能电网短期负荷预测方法
CN110826244A (zh) 模拟轨道交通影响城市生长的共轭梯度元胞自动机方法
Zuo et al. Comparison of six machine learning methods for estimating PM2. 5 concentration using the Himawari-8 aerosol optical depth
Samaranayake et al. Learning the dependency structure of highway networks for traffic forecast
CN118035777A (zh) 基于时空图数据的空气污染物浓度预测方法及装置
Brahma et al. Visualizing solar irradiance data in ArcGIS and forecasting based on a novel deep neural network mechanism
Hu et al. Spatial modelling of temperature and humidity using systems of stochastic partial differential equations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant