CN112905379B - 基于自我注意力机制的图自编码器的交通大数据修复方法 - Google Patents

基于自我注意力机制的图自编码器的交通大数据修复方法 Download PDF

Info

Publication number
CN112905379B
CN112905379B CN202110260633.6A CN202110260633A CN112905379B CN 112905379 B CN112905379 B CN 112905379B CN 202110260633 A CN202110260633 A CN 202110260633A CN 112905379 B CN112905379 B CN 112905379B
Authority
CN
China
Prior art keywords
data
matrix
self
missing
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110260633.6A
Other languages
English (en)
Other versions
CN112905379A (zh
Inventor
张伟斌
张蒲璘
姜影
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202110260633.6A priority Critical patent/CN112905379B/zh
Publication of CN112905379A publication Critical patent/CN112905379A/zh
Application granted granted Critical
Publication of CN112905379B publication Critical patent/CN112905379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于自我注意力机制的图自编码器的交通大数据修复方法,包括:确定需要进行交通数据修复的区域,采集该区域的历史交通数据;构建掩码矩阵,同时基于所选区域的路网结构生成邻接矩阵;基于自我注意力机制和图卷积网络构建数据修复模型;对数据修复模型进行训练;针对需要修复的交通数据,利用训练好的数据修复模型获得数据修复结果。本发明在GCN的基础上引入自编码器、多头注意力机制等结构,利用GCN的结构有效地学习城市路网的拓扑图结构,利用多头注意力机制学习交通流数据的时空关联性,并利用自编码器依据存在缺失的交通数据生成完整的交通数据,且通过多头注意力机制和GCN可以有效提高模型数据修复的准确性。

Description

基于自我注意力机制的图自编码器的交通大数据修复方法
技术领域
本发明属于深度学习和交通数据修复等技术领域,特别是一种于自我注意力机制的图自编码器的交通大数据修复方法。
背景技术
随着大量传感器的部署,人们从多种渠道收集到了海量的交通数据。收集到的交通数据往往具有“真假共存”属性,其表现为数据中存在缺失、错误、冗余等异常现象,因此需要ITS(智能交通系统)能够从含有缺失的数据中尽可能准确地修复数据中存在的缺失,提高数据的完整度。然而,交通数据修复问题有其固有的特殊性,该问题与其他数据修复问题的主要不同之处在于其需要考虑空间路网拓扑结构和交通数据随时间变化的规律性和突变性,例如某条道路在某一时刻的交通流数据与其相邻时刻数据有较强的关联性,同一时段内临近道路之间的交通流数据具有较强的相似性。因此针对交通流数据修复问题需要谨慎的设计适合交通流特征的模型。
传统的数据修复方法往往具有各自的局限,例如基于统计分析利用平均数、众数、中位数等方法的数据修复方法往往忽略数据中的相互依赖关系;基于统计机器学习模型对数据施加比较强的约束,比如线性的假设、数据的平滑性等。
A.V.Dalca等人提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)和稀疏感知的变分逼近学习算法。A.Nazaba等人提出的基于变分自编码的改进算法的HI-VAE算法能够准确填补多种缺失数据。V.Fortuin等人提出了一种新的深度顺序潜变量模型GP-VAE,用于降维和数据修复。基于循环神经网络(Recurrent neural network,RNN)的模型往往假设是数据间的关系是序列型的,它不能并行处理且难以对不同时间戳输入数据间的相互依赖直接建模,更为重要的是他们无法利用空间路网的拓扑图结构,因此修复精度难以进一步提高。
发明内容
本发明的目的在于针对上述现有技术存在的问题,提供一种基于自我注意力机制的图自编码器的交通大数据修复方法。
实现本发明目的的技术解决方案为:一种基于自我注意力机制的图自编码器的交通大数据修复方法,所述方法包括以下步骤:
步骤1,确定需要进行交通数据修复的区域,采集该区域的历史交通数据;
步骤2,基于所述历史交通数据,构建掩码矩阵,同时基于步骤1所选区域的路网结构生成邻接矩阵;
步骤3,基于自我注意力机制和图卷积网络构建数据修复模型;
步骤4,利用步骤1和步骤2的数据对所述数据修复模型进行训练;
步骤5,针对需要修复的交通数据,利用训练好的数据修复模型获得数据修复结果。
进一步地,步骤2中所述构建掩码矩阵,具体为:掩码矩阵中的每个位置点表示某一时刻某一条道路的历史交通数据,若某位置点的历史交通数据缺失,则掩码矩阵的对应位置记为0,表示该位置数据缺失,否则对应位置记为1。
进一步地,步骤2中所述邻接矩阵为表示道路相邻关系的邻接矩阵A,横纵坐标轴均为道路编号,若道路i与道路j相邻,则A(i,j)=A(j,i)=1,否则A(i,j)=A(j,i)=0,A(i,j)、A(j,i)分别表示矩阵A中第i行第j列的数据、第j行第i列的数据。
进一步地,步骤3中所述修复模型包括依次串联的第一模块和第二模块,输入数据依次经第一模块、第二模块后输出;其中,第一模块包括相串联的m个子单元,每个子单元均包括:以并联方式设置的一个图卷积网络层和一个多头注意力层,两者输出相加后进行层归一化,之后连接一个全连接层;第二模块包括n个串联的全连接层;
该模型中的多头注意力层用于捕获数据中的时空关联性,图卷积网络层用于利用缺失路段临近道路的数据对缺失部分进行填补。
进一步地,所述第一模块中第一个图卷积网络层的输入包括历史交通数据、掩码矩阵和邻接矩阵,之后的图卷积网络层的输入为前一层网络输出值、掩码矩阵和邻接矩阵;第一模块中第一个多头注意力层的输入包括掩码矩阵、邻接矩阵以及历史交通数据经过位置编码后得到的编码矩阵,之后的多头注意力层的输入包括掩码矩阵、邻接矩阵以及前一层网络的输出值和编码矩阵。
进一步地,所述图卷积网络层即GCN层利用缺失路段临近道路的数据对缺失部分进行填补的计算公式为:
式中,m1为掩码矩阵,⊙为哈米特乘法,输入输出/>σ为激活函数,/>为一个沿主对角线对称矩阵,/>为/>的度矩阵,且/>W为可学习的参数,A为邻接矩阵,din=dout,N为道路数。
进一步地,步骤4所述利用步骤1和步骤2的数据对所述数据修复模型进行训练,具体包括:
步骤4-1,基于步骤1的历史交通数据和步骤2的掩码矩阵构造训练数据集,包括时间缺失模式的训练数据集、空间缺失模式的训练数据集和块状缺失模式的训练数据集;
其中,构造时间缺失模式的训练数据集,具体过程包括:在掩码矩阵中按照缺失率随机选取l列数据置为0,由此形成多种不同数据缺失率的时间缺失模式的掩码矩阵,由这些掩码矩阵构成时间缺失模式的训练数据集;其中,l=r3*din,r3为缺失率,din为样本数据的列数,代表时间长度;
构造空间缺失模式的训练数据集,具体过程包括:在掩码矩阵中按照缺失率随机选取p行数据置为0,由此形成多种不同数据缺失率的空间缺失模式的掩码矩阵,由这些掩码矩阵构成空间缺失模式的训练数据集;其中,l=r4*N,r4为缺失率,N为样本数据的行数,代表道路数;
构造块状缺失模式的训练数据集,具体过程包括:在掩码矩阵中按照缺失率随机选取连续的p行和l列形成的块状区域中的数据置为0,由此形成多种不同数据缺失率的块状缺失模式的掩码矩阵,由这些掩码矩阵构成块状缺失模式的训练数据集;其中,p=r1*N,l=r2*din,r1,r2均为缺失率;
步骤4-2,基于监督学习模式和Adam梯度下降算法,利用步骤4-1中三种训练数据集中的数据分别训练步骤3的数据修复模型,获得不同缺失模式及不同数据缺失率对应的训练后的数据修复模型。
进一步地,步骤4-2中监督学习模式所采用的损失函数为:
其中,
式中,N为道路数,y为真实数据,为生成数据,/>中的每个位置点(i,k)表示真实数据某条道路i某一时段k的数据采集情况,若采集到数据,/>对应位置/>为1,否则为0。
进一步地,步骤5所述针对需要修复的交通数据,利用训练好的数据修复模型获得数据修复结果,具体包括:
步骤5-1,针对需要修复的交通数据,构造其掩码矩阵;
步骤5-2,判断步骤5-1中掩码矩阵的数据缺失模式,该数据缺失模式包括所述时间缺失模式、空间缺失模式和块状缺失模式;
步骤5-3,计算步骤5-1中掩码矩阵的数据缺失率;
步骤5-4,结合步骤5-2获得的数据缺失模式和步骤5-3的数据缺失率,从步骤4-2的训练结果中提取对应的数据修复模型;其中,对于数据缺失率,选取缺失率差值小于预设阈值的数据修复模型;
步骤5-5,利用步骤5-4选取的数据修复模型对需要修复的交通数据进行修复。
本发明与现有技术相比,其显著优点为:1)利用GCN网络结构以及空间路网拓扑结构学习数据中的空间关系,提高了模型修复效果;2)在时间维度缺失、空间维度缺失和块状缺失这三类数据缺失模式下,本发明的方法相比于其他数据修复方法具有更高的修复准确度;3)采用注意力机制,可以对不同道路和不同时间的数据赋予不同的权值,达到准确修复的目的,提高修复准确度。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为一个实施例中基于自我注意力机制的图自编码器的交通大数据修复方法的流程图。
图2为一个实施例中数据修复模型的结构图。
图3为一个实施例中多头注意力结构图。
图4为一个实施例中GCN映射关系图。
图5为一个实施例中三种缺失模式图,图5中的(a)至(c)分别为块状缺失模式、时间缺失模式和空间缺失模式。
图6为一个实施例中本发明所提出修复模型与其他几种修复模型的修复结果比较图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,结合图1,提供了一种基于自我注意力机制的图自编码器的交通大数据修复方法,所述方法包括以下步骤:
步骤1,确定需要进行交通数据修复的区域,采集该区域的历史交通数据;
这里,所述历史交通数据包括道路流量、速度和占有率数据等。
步骤2,基于所述历史交通数据,构建掩码矩阵,同时基于步骤1所选区域的路网结构生成邻接矩阵;
步骤3,基于自我注意力机制和图卷积网络构建数据修复模型;
步骤4,利用步骤1和步骤2的数据对所述数据修复模型进行训练;
步骤5,针对需要修复的交通数据,利用训练好的数据修复模型获得数据修复结果。
进一步地,在其中一个实施例中,步骤2中所述构建掩码矩阵,具体为:掩码矩阵中的每个位置点表示某一时刻某一条道路的历史交通数据,若某位置点的历史交通数据缺失,则掩码矩阵的对应位置记为0,表示该位置数据缺失,否则对应位置记为1。
进一步地,在其中一个实施例中,步骤2中所述邻接矩阵为表示道路相邻关系的邻接矩阵A,横纵坐标轴均为道路编号,若道路i与道路j相邻,则A(i,j)=A(j,i)=1,否则A(i,j)=A(j,i)=0,A(i,j)、A(j,i)分别表示矩阵A中第i行第j列的数据、第j行第i列的数据。
进一步地,在其中一个实施例中,结合图2,步骤3中所述修复模型包括依次串联的第一模块和第二模块,输入数据依次经第一模块、第二模块后输出;其中,第一模块包括相串联的m个子单元,每个子单元均包括:以并联方式设置的一个图卷积网络层和一个多头注意力层,两者输出相加后进行层归一化,之后连接一个全连接层;第二模块包括n个串联的全连接层;该模型中的多头注意力层用于捕获数据中的时空关联性,图卷积网络层用于利用缺失路段临近道路的数据对缺失部分进行填补。
这里,多头注意力网络为:一个注意力函数可以描述一个三元函数Attention(Q,K,V),其中三个变量依次称为“查询”、“键”和“值”。注意力函数为将“查询”和一组“键”-“值”对映射到输出,其中“查询”、“键”、“值”和输出都是向量。输出是“值”的加权总和,其中分配给每个值的权重是通过“查询”与相应“键”计算获得的。多头注意力网络为同时包含多个注意力函数,在本发明中每个多头注意力网络包括6个注意力函数。本发明使用位置编码作为促进多头注意力网络学习的工具。多头注意力机制如图3所示。
这里优选地,m=3,n=2。
进一步地,在其中一个实施例中,所述第一模块中第一个图卷积网络层的输入包括历史交通数据、掩码矩阵和邻接矩阵,之后的图卷积网络层的输入为前一层网络输出值、掩码矩阵和邻接矩阵;第一模块中第一个多头注意力层的输入包括掩码矩阵、邻接矩阵以及历史交通数据经过位置编码后得到的编码矩阵,之后的多头注意力层的输入包括掩码矩阵、邻接矩阵以及前一层网络的输出值和编码矩阵。
这里,位置编码为:由于提出的模型不包含循环和卷积等包含输入数据位置信息的运算,并且整个注意力的计算也是并行的,这导致计算过程忽略了数据中的顺序信息。为了让模型能够利用序列之中包含的顺序信息,需要人为生成一些关于序列中标记的相对或绝对位置的信息并且注入到输入数据中。位置编码信息的维度与模型每个时间输入数据的特征维度相同,输入的位置编码和输入可以相加作为模型的输入。在所提出的模型中,使用不同频率的正弦和余弦函数的采样值作为位置编码的信息,如下式所示:
其中,pos表示输入数据的位置,i表示维度,dmod el表示输入的时间维度长度。也就是说,位置编码的每个维度对应一个正弦信号。选择这个函数是因为它能让模型很容易学会通过相对位置来参与计算,对于任意的固定偏移量k,PE(pos,2i)可以表示为PE(pos,i)的一个函数。在交通数据修复问题中,对一天的不同采集时刻施加不同的位置编码,那么自编码网络能够将提取位置编码的信息用于构造输入数据的缺失部分,可以将位置输入信息做为模型数据生成的一种条件信息输入,那么缺失数据生成问题转化为类似条件数据生成问题。
进一步地,在其中一个实施例中,所述图卷积网络层即GCN层利用缺失路段临近道路的数据对缺失部分进行填补的计算公式为:
式中,m1为掩码矩阵,⊙为哈米特乘法,输入输出/>σ为激活函数,/>为一个沿主对角线对称矩阵,/>为/>的度矩阵,且/>W为可学习的参数,A为邻接矩阵,din=dout,N为道路数。其中,/>对于某个点的信号值是由它自身的信号值和它一阶邻居信号值求和得到的,其形式可以由图4表示。
进一步地,在其中一个实施例中,步骤4所述利用步骤1和步骤2的数据对所述数据修复模型进行训练,具体包括:
步骤4-1,基于步骤1的历史交通数据和步骤2的掩码矩阵构造训练数据集,包括时间缺失模式的训练数据集、空间缺失模式的训练数据集和块状缺失模式的训练数据集;
其中,构造时间缺失模式的训练数据集,具体过程包括:在掩码矩阵中按照缺失率随机选取l列数据置为0,由此形成多种不同数据缺失率的时间缺失模式的掩码矩阵,由这些掩码矩阵构成时间缺失模式的训练数据集;其中,l=r3*din,r3为缺失率,din为样本数据的列数,代表时间长度;
构造空间缺失模式的训练数据集,具体过程包括:在掩码矩阵中按照缺失率随机选取p行数据置为0,由此形成多种不同数据缺失率的空间缺失模式的掩码矩阵,由这些掩码矩阵构成空间缺失模式的训练数据集;其中,l=r4*N,r4为缺失率,N为样本数据的行数,代表道路数;
构造块状缺失模式的训练数据集,具体过程包括:在掩码矩阵中按照缺失率随机选取连续的p行和l列形成的块状区域中的数据置为0,由此形成多种不同数据缺失率的块状缺失模式的掩码矩阵,由这些掩码矩阵构成块状缺失模式的训练数据集;其中,p=r1*N,l=r2*din,r1,r2均为缺失率;
步骤4-2,基于监督学习模式和Adam梯度下降算法,利用步骤4-1中三种训练数据集中的数据分别训练步骤3的数据修复模型,获得不同缺失模式及不同数据缺失率对应的训练后的数据修复模型。
进一步地,在其中一个实施例中,步骤4-2中监督学习模式所采用的损失函数为:
其中,
式中,N为道路数,y为真实数据,为生成数据,/>中的每个位置点(i,k)表示真实数据某条道路i某一时段k的数据采集情况,若采集到数据,/>对应位置/>为1,否则为0。
进一步地,在其中一个实施例中,步骤5所述针对需要修复的交通数据,利用训练好的数据修复模型获得数据修复结果,具体包括:
步骤5-1,针对需要修复的交通数据,构造其掩码矩阵;
步骤5-2,判断步骤5-1中掩码矩阵的数据缺失模式,该数据缺失模式包括所述时间缺失模式、空间缺失模式和块状缺失模式;
步骤5-3,计算步骤5-1中掩码矩阵的数据缺失率;
步骤5-4,结合步骤5-2获得的数据缺失模式和步骤5-3的数据缺失率,从步骤4-2的训练结果中提取对应的数据修复模型;其中,对于数据缺失率,选取缺失率差值小于预设阈值的数据修复模型;
步骤5-5,利用步骤5-4选取的数据修复模型对需要修复的交通数据进行修复。
作为一种具体示例,在其中一个实施例中,对本发明基于自我注意力机制的图自编码器的交通大数据修复方法进行进一步验证说明。
为验证本发明所提出模型的有效性,本实施例使用真实数据集对模型效果进行实验。实验中使用“历史平均值算法”、“K-临近值算法”、“自编码器网络”、“本发明所提出模型”四种模型,利用某市采集到的交通流流量数据进行数据修复。缺失模式为空间缺失,缺失率为从10%-80%以10%递增,计算误差的方法为平均绝对误差,实验结果如图6所示。由图可以看出,本发明提出的模型,误差更低。
由上可知,该方法能够有效学习城市路网的拓扑结构,并能多头注意力网络学习数据中蕴含的时空关联性,最终给出一个较好的修复结果。且通过与不同修复模型的对比分析中验证了本发明所提出的方法的有效性。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种基于自我注意力机制的图自编码器的交通大数据修复方法,其特征在于,所述方法包括以下步骤:
步骤1,确定需要进行交通数据修复的区域,采集该区域的历史交通数据;
步骤2,基于所述历史交通数据,构建掩码矩阵,同时基于步骤1所选区域的路网结构生成邻接矩阵;所述邻接矩阵为表示道路相邻关系的邻接矩阵A,横纵坐标轴均为道路编号,若道路i与道路j相邻,则A(i,j)=A(j,i)=1,否则A(i,j)=A(j,i)=0,A(i,j)、A(j,i)分别表示矩阵A中第i行第j列的数据、第j行第i列的数据;
步骤3,基于自我注意力机制和图卷积网络构建数据修复模型;所述修复模型包括依次串联的第一模块和第二模块,输入数据依次经第一模块、第二模块后输出;其中,第一模块包括相串联的m个子单元,每个子单元均包括:以并联方式设置的一个图卷积网络层和一个多头注意力层,两者输出相加后进行层归一化,之后连接一个全连接层;第二模块包括n个串联的全连接层;
该模型中的多头注意力层用于捕获数据中的时空关联性,图卷积网络层用于利用缺失路段临近道路的数据对缺失部分进行填补;
所述第一模块中第一个图卷积网络层的输入包括历史交通数据、掩码矩阵和邻接矩阵,之后的图卷积网络层的输入为前一层网络输出值、掩码矩阵和邻接矩阵;第一模块中第一个多头注意力层的输入包括掩码矩阵、邻接矩阵以及历史交通数据经过位置编码后得到的编码矩阵,之后的多头注意力层的输入包括掩码矩阵、邻接矩阵以及前一层网络的输出值和编码矩阵;
所述图卷积网络层即GCN层利用缺失路段临近道路的数据对缺失部分进行填补的计算公式为:
式中,m1为掩码矩阵,⊙为哈米特乘法,输入输出/>σ为激活函数,/>为一个沿主对角线对称矩阵,/>为/>的度矩阵,且/>W为可学习的参数,A为邻接矩阵,din=dout,N为道路数,din为样本数据的列数,代表时间长度;
步骤4,利用步骤1和步骤2的数据对所述数据修复模型进行训练;
步骤5,针对需要修复的交通数据,利用训练好的数据修复模型获得数据修复结果。
2.根据权利要求1所述的基于自我注意力机制的图自编码器的交通大数据修复方法,其特征在于,步骤1中所述历史交通数据包括道路流量、速度和占有率数据。
3.根据权利要求2所述的基于自我注意力机制的图自编码器的交通大数据修复方法,其特征在于,步骤2中所述构建掩码矩阵,具体为:掩码矩阵中的每个位置点表示某一时刻某一条道路的历史交通数据,若某位置点的历史交通数据缺失,则掩码矩阵的对应位置记为0,否则对应位置记为1。
4.根据权利要求1所述的基于自我注意力机制的图自编码器的交通大数据修复方法,步骤4所述利用步骤1和步骤2的数据对所述数据修复模型进行训练,具体包括:
步骤4-1,基于步骤1的历史交通数据和步骤2的掩码矩阵构造训练数据集,包括时间缺失模式的训练数据集、空间缺失模式的训练数据集和块状缺失模式的训练数据集;
其中,构造时间缺失模式的训练数据集,具体过程包括:在掩码矩阵中按照缺失率随机选取l列数据置为0,由此形成多种不同数据缺失率的时间缺失模式的掩码矩阵,由这些掩码矩阵构成时间缺失模式的训练数据集;其中,l=r3*din,r3为缺失率,din为样本数据的列数,代表时间长度;
构造空间缺失模式的训练数据集,具体过程包括:在掩码矩阵中按照缺失率随机选取p行数据置为0,由此形成多种不同数据缺失率的空间缺失模式的掩码矩阵,由这些掩码矩阵构成空间缺失模式的训练数据集;其中,l=r4*N,r4为缺失率,N为样本数据的行数,代表道路数;
构造块状缺失模式的训练数据集,具体过程包括:在掩码矩阵中按照缺失率随机选取连续的p行和l列形成的块状区域中的数据置为0,由此形成多种不同数据缺失率的块状缺失模式的掩码矩阵,由这些掩码矩阵构成块状缺失模式的训练数据集;其中,p=r1*N,l=r2*din,r1,r2均为缺失率;
步骤4-2,基于监督学习模式和Adam梯度下降算法,利用步骤4-1中三种训练数据集中的数据分别训练步骤3的数据修复模型,获得不同缺失模式及不同数据缺失率对应的训练后的数据修复模型。
5.根据权利要求4所述的基于自我注意力机制的图自编码器的交通大数据修复方法,其特征在于,步骤4-2中监督学习模式所采用的损失函数为:
其中,
式中,N为道路数,y为真实数据,为生成数据,/>中的每个位置点(i,k)表示真实数据某条道路i某一时段k的数据采集情况,若采集到数据,/>对应位置/>为1,否则为0。
6.根据权利要求5所述的基于自我注意力机制的图自编码器的交通大数据修复方法,其特征在于,步骤5所述针对需要修复的交通数据,利用训练好的数据修复模型获得数据修复结果,具体包括:
步骤5-1,针对需要修复的交通数据,构造其掩码矩阵;
步骤5-2,判断步骤5-1中掩码矩阵的数据缺失模式,该数据缺失模式包括所述时间缺失模式、空间缺失模式和块状缺失模式;
步骤5-3,计算步骤5-1中掩码矩阵的数据缺失率;
步骤5-4,结合步骤5-2获得的数据缺失模式和步骤5-3的数据缺失率,从步骤4-2的训练结果中提取对应的数据修复模型;其中,对于数据缺失率,选取缺失率差值小于预设阈值的数据修复模型;
步骤5-5,利用步骤5-4选取的数据修复模型对需要修复的交通数据进行修复。
CN202110260633.6A 2021-03-10 2021-03-10 基于自我注意力机制的图自编码器的交通大数据修复方法 Active CN112905379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110260633.6A CN112905379B (zh) 2021-03-10 2021-03-10 基于自我注意力机制的图自编码器的交通大数据修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110260633.6A CN112905379B (zh) 2021-03-10 2021-03-10 基于自我注意力机制的图自编码器的交通大数据修复方法

Publications (2)

Publication Number Publication Date
CN112905379A CN112905379A (zh) 2021-06-04
CN112905379B true CN112905379B (zh) 2023-07-18

Family

ID=76108063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110260633.6A Active CN112905379B (zh) 2021-03-10 2021-03-10 基于自我注意力机制的图自编码器的交通大数据修复方法

Country Status (1)

Country Link
CN (1) CN112905379B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705880A (zh) * 2021-08-25 2021-11-26 杭州远眺科技有限公司 基于时空注意力图卷积网络的交通速度预测方法和装置
CN114972082A (zh) * 2022-05-13 2022-08-30 天津大学 一种对高比例负荷缺失数据的恢复与评估方法
CN114897161B (zh) * 2022-05-17 2023-02-07 中国信息通信研究院 一种基于掩码的图分类后门攻击防御方法、系统、电子设备及存储介质
CN116415928B (zh) * 2023-03-06 2023-11-17 武汉理工大学 基于深度学习的城市内涝交通路网快速修复方法及系统
CN116542438B (zh) * 2023-03-28 2024-01-30 大连海事大学 一种基于无基准真相的公交乘客起止点估计修补方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785014B (zh) * 2020-05-26 2021-10-29 浙江工业大学 一种基于dtw-rgcn的路网交通数据修复的方法
CN112185104B (zh) * 2020-08-22 2021-12-10 南京理工大学 一种基于对抗自编码器的交通大数据修复方法
CN112330951B (zh) * 2020-09-11 2021-12-17 浙江工业大学 一种基于生成对抗网络实现路网交通数据修复的方法

Also Published As

Publication number Publication date
CN112905379A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112905379B (zh) 基于自我注意力机制的图自编码器的交通大数据修复方法
CN111161535B (zh) 基于注意力机制的图神经网络交通流量预测方法及系统
CN113313947B (zh) 短期交通预测图卷积网络的路况评估方法
CN113487061A (zh) 一种基于图卷积-Informer模型的长时序交通流量预测方法
CN109887282A (zh) 一种基于层级时序图卷积网络的路网交通流预测方法
CN114299723B (zh) 一种交通流量预测方法
CN111583648B (zh) 融合gps数据和卡口流量数据的城市交通流量预测方法
CN111291924B (zh) 面向长时交通速度预测的几何代数深度神经网络模型方法
CN114944053A (zh) 一种基于时空超图神经网络的交通流预测方法
CN108053052A (zh) 一种油罐车油气泄漏速度智能监测系统
CN112884014A (zh) 一种基于路段拓扑结构分类的交通速度短时预测方法
CN115935796A (zh) 一种基于时空异质的和同步的图卷积网络交通流预测方法
CN111209968A (zh) 基于深度学习的多气象因子模式预报温度订正方法及系统
Adnan et al. New Artificial Neural Network and Extended Kalman Filter hybrid model of flood prediction system
CN115862324A (zh) 一种智慧交通的时空同步图卷积神经网络及交通预测方法
CN115206092A (zh) 一种基于注意力机制的BiLSTM和LightGBM模型的交通预测方法
CN112862177A (zh) 一种基于深度神经网络的城市区域聚集度预测方法、设备及介质
CN115099328A (zh) 基于对抗网络的交通流量预测方法、系统、设备及存储介质
CN112382094B (zh) 基于时空势能场的城市交通流量可解释预测方法
CN111815075B (zh) 一种重大公共卫生事件下交通出行需求的预测方法
CN113627676A (zh) 一种基于多注意力因果关系的交通预测方法及系统
CN109116300A (zh) 一种基于非充分指纹信息的极限学习定位方法
CN116050460A (zh) 基于注意力神经网络的气温数据空间插值方法
Xue et al. Sparse big data for vehicular network traffic flow estimation: A machine learning approach
CN114881308A (zh) 基于元学习的网联车辆速度预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant