CN114758282B - 基于时序校正卷积的视频预测方法 - Google Patents
基于时序校正卷积的视频预测方法 Download PDFInfo
- Publication number
- CN114758282B CN114758282B CN202210463423.1A CN202210463423A CN114758282B CN 114758282 B CN114758282 B CN 114758282B CN 202210463423 A CN202210463423 A CN 202210463423A CN 114758282 B CN114758282 B CN 114758282B
- Authority
- CN
- China
- Prior art keywords
- convolution
- time
- space
- video
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了基于时序校正卷积的视频预测方法。本发明方法对给定的原始视频进行采样预处理获得视频帧序列,并将该序列输入时序上下文融合模块,得到融合外观特征图和融合时空编码特征图,同时将该序列输入时序卷积校正模块得到卷积校正张量;然后,将得到的融合外观特征图、融合时空编码特征图和卷积校正张量通过自适应卷积时空编码器生成预测时空编码特征图;最后将预测时空编码特征图通过时空记忆解码器进行解码,输出预测视频帧序列。本发明方法不仅能够依据不同时刻的视频帧对卷积核参数进行校正,还能通过时序上下文融合策略对当前视频帧和历史帧时空编码特征的内在关系进行建模,从而生成更高视觉质量的预测视频帧序列。
Description
技术领域
本发明属于计算机视觉技术领域,尤其是视频理解中的视频预测领域,涉及一种基于时序校正卷积的视频预测方法。
背景技术
近几年,随着移动互联网的飞速发展和视频感知设备的广泛普及,海量的视频数据源源不断从各类终端产生。如何通过历史视频数据预测未来成为研究者们关心的问题,即视频预测(Video Prediction)任务。该任务旨在给定过去时刻视频帧的情况下,生成未来时刻的视频帧,可以广泛应用于气象预测、城市交通状况预测、机器人动作规划以及无人驾驶等领域。例如,雷达回波图像能反映当地的降雨情况,视频预测方法通过刻画雷达回波历史图像的潜在变化规律,生成能准确反映短期气象变化趋势的视频,提升灾害天气的短期预报精度。此外,根据城市交通GPS数据,视频预测能够对城市的高峰期交通状况进行预判,从而帮助用户规划更合理的驾驶路线。
传统视频预测方法主要有基于浅层模型的手工提取特征方法、高斯过程模型、状态空间模型等,但这些方法难以表示真实复杂场景视频的潜在结构。近几年来,深度学习在计算机视觉领域获得巨大的成功,特别是在视频理解领域较大地提升了任务性能,其已被应用于视频预测模型的研发。例如,为了对视频中的时空特征进行建模,研究人员利用卷积神经网络与循环神经网络分别刻画空间特征与时间特征的特点,提出基于长短时记忆单元的卷积长短时记忆网络(ConvLSTM:Convolutional Long Short-Term Memory),以增强视频数据的表征与预测能力。进一步,为了刻画预测视频帧的底层细节特征(如纹理、边缘),现有工作在ConvLSTM的基础上增加时空记忆单元,实现更有效的时空特征建模。但是,这些方法容易出现梯度消失问题,难以捕捉距离较远的历史视频帧与当前视频帧之间的长时外观特征依赖关系。为此,后续工作重用历史时空特征,即利用当前帧的外观特征和历史帧的时空特征对当前时空特征进行更新,以缓解梯度消失现象,从而增强模型对长时依赖关系捕捉的能力。
上述方法存在的不足点主要表现在三个方面:1)均使用相同的卷积核作用于对不同时刻视频帧的每个区域,然而视频序列中的空间特征随时间而变化,不同时刻采用相同参数的卷积核将妨碍模型对空间特征的刻画;2)为应对不同的视频帧采用的自适应调整卷积核参数方法(称为动态卷积),需要较大的计算开销以校正高维特征表示使之适应当前视频帧;3)若当前视频帧包含上下文无关的目标(如新物体)时,使得该帧的外观特征和历史帧的时空特征不相似,导致难以有效利用历史时空特征。因此,为了缓解现有方法对空间特征刻画不充分、难以有效利用历史时空特征和计算开销大的问题,迫切需要一种能够根据不同时刻的输入视频帧自适应地学习卷积核参数并能更有效利用历史时空特征的方法,从而提高预测视频的清晰度。
发明内容
本发明针对现有技术的不足,提供一种基于时序校正卷积的视频预测方法,一方面能根据不同时刻输入的视频帧自适应地学习卷积核参数,另一方面能利用时序上下文融合机制加强对历史时空特征的利用,并使当前视频帧和历史时空特征进行充分交互,以挖掘上下文无关帧图像和历史时空特征之间的潜在关系,从而生成画面更清晰的预测视频帧。
本发明方法首先获取原始视频数据集合,依次进行如下操作:
步骤(1)对原始视频进行采样,获得视频帧序列,将视频帧序列输入至时序上下文融合模块,输出对应的融合外观特征图和融合时空编码特征图;
步骤(2)构建时序卷积校正模块,输入为同一视频帧序列内两个长短不同的片段,输出卷积校正张量;
步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器,输入为融合外观特征图、融合时空编码特征图、卷积校正张量,输出为预测时空编码特征图;
步骤(4)构建时空记忆解码器,输入为融合时空编码特征图和预测时空编码特征图,输出为预测视频帧;
步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型,对新的视频序列依次通过步骤(1)~(4)得到后续预测视频序列。
进一步,步骤(1)具体是:
(1-2)构建由两个二维卷积层组成的时序上下文融合模块,卷积核尺寸为5×5,填充为2,步长为1,两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征;
(1-3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列C表示通道维度,当不足3帧时,该序列的元素均由全0初始化补全;将Xt和第t-3个时空编码特征图Ht-3经过卷积和逐元素相乘操作融合,得到强化外观特征图X′t=2σ(Conv1(Ht-3))⊙Xt,符号⊙表示逐元素乘积,σ(·)表示Sigmoid激活函数;再将第t-1个时空编码特征图Ht-1和强化外观特征图X′t经过卷积和逐元素相乘操作融合,得到强化时空编码特征图H′t-1=2σ(Conv2(X′t))⊙Ht-1,Conv1(·)、Conv2(·)表示卷积核大小为5×5的二维卷积层;
(1-4)将强化外观特征图X′t和第t-2个时空编码特征图Ht-2经过卷积和逐元素相乘操作融合,得到融合外观特征图X″t=2σ(Conv1(Ht-2))⊙X′t;再将融合外观特征图X″t与强化时空编码特征图H′t-1经过卷积和逐元素相乘操作融合,得到融合时空编码特征图H″t-1=2σ(Conv2(X″t))⊙H′t-1。
(2-2)将短期历史视频帧序列在空间维度上进行全局平均池化后,通过三维卷积得到短期上下文时空特征Pooling(·)为空间维度上的全局平均池化,Conv3D1(·)表示输入通道为3、输出通道为C、卷积核尺寸为3×1×1的三维卷积层;
(2-3)将长期历史视频帧序列在时序、空间维度上进行全局平均池化后,通过三维卷积得到长期上下文时空特征GAP(·)为在时序、空间维度上的全局平均池化操作,Conv3D2(·)表示输入通道为3、输出通道为C、卷积核尺寸为1×1×1的三维卷积层;
(2-4)将短期上下文时空特征At和长期上下文时空特征Bt通过Rt=δ(At+Bt)得到卷积校正张量其中δ(·)为ReLU激活函数,Rt的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数。
再进一步,步骤(3)具体是:
(3-1)利用卷积长短时记忆模块构建自适应卷积时空编码器,所述的卷积长短时记忆模块(ConvLSTM)是将长短时记忆单元LSTM中的全连接层替换成卷积层后得到的模块;
It=σ((Broadcast(Rt)⊙W1)*X″t+(Broadcast(Rt)⊙W2)*H″t-1);其中,和为二维卷积对应的卷积核,上标表示四个维度,分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数,Broadcast(·)用于对Rt的卷积核长、卷积核宽和卷积核输入通道数维度进行复制使其维度和对应卷积核相等,*表示卷积操作;
又进一步,步骤(4)具体是:利用一个二维卷积层构建时空记忆解码器,将融合时空编码特征图H″t-1和预测时空编码特征图Ht输入时空记忆解码器,由卷积操作得到预测视频帧其中Conv3(·)表示卷积核尺寸为1×1二维卷积层,[·,·]表示在通道维度上的拼接操作。
还进一步,步骤(5)具体是:
(5-1)构建由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型;
(5-4)利用随机梯度下降算法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的视频预测模型;
(5-5)对于新的视频通过采样得到M个视频帧,输入上述优化的视频预测模型,依照(5-2)依次输出指定数量的预测视频帧序列作为最终结果。
本发明提出了基于时序校正卷积的视频预测方法,该方法具有以下几个特点:1)利用时序卷积校正模块对不同时刻的卷积核进行校正,针对不同的输入视频帧模型采用不同的卷积参数提取特征,以适应视频帧序列中空间特征不断变化的特点;2)相比现有的动态卷积方法校正高维特征,本发明直接对卷积核进行校正,降低了模型的计算开销;3)通过时序上下文融合模块将历史视频编码特征分别与当前视频帧及其时空编码特征进行融合,使得输入自适应卷积时空编码器中的视频帧包含更多的历史时空特征,增强模型对长时依赖关系捕捉的能力。
本发明适用于预测多个未来视频帧的情况,有益效果包括:1)自适应卷积时空编码器根据校正后的卷积核对视频帧进行特征提取,增强模型对空间特征的刻画能力,以提高预测视频帧的清晰度;2)时序卷积校正模块直接对卷积核本身进行校正而非对高维特征进行校正,极大地减少动态卷积带来的计算开销;3)时序上下文融合模块通过将历史时空编码特征分别与当前视频帧及对应时空编码特征进行融合,增强模型挖掘上下文无关图像和历史时空编码特征之间关系的能力,有助于加强模型对长时依赖捕捉的能力,从而指导模型生成更加清晰的预测结果。本发明所具有的自适应校正卷积机制和时序上下文融合机制,可显著提高视频预测模型的性能,有期望被应用于雷达回波预测、城市交通情况预测等实际任务中。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1,基于时序校正卷积的视频预测方法,首先获取原始视频数据集合,然后依次进行如下操作:首先对原始视频进行均匀采样得到视频帧序列;构建时序上下文融合模块得到融合外观特征和融合时空编码特征图;再构建时序卷积校正模块,输出卷积校正张量;然后将融合外观特征、融合时空编码特征图和卷积校正张量输入自适应卷积时空编码器,得到预测时空编码特征图;最后,使用时空记忆解码器将预测时空编码特征图解码为预测视频帧;该方法利用时序卷积校正模块提取不同时刻的不同空间特征,并通过融合时序上下文时空编码特征加强对长时间的时空依赖关系捕捉的能力,从而生成更加清晰的预测视频。具体如下:
步骤(1)对原始视频进行采样,获得视频帧序列,将视频帧序列输入至时序上下文融合模块,输出对应的融合外观特征图和融合时空编码特征图;具体是:
(1-2)构建由两个二维卷积层组成的时序上下文融合模块,卷积核尺寸为5×5,填充为2,步长为1,两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征;
(1-3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列C表示通道维度,当不足3帧时,该序列的元素均由全0初始化补全;将Xt和第t-3个时空编码特征图Ht-3经过卷积和逐元素相乘操作融合,得到强化外观特征图X′t=2σ(Conv1(Ht-3))⊙Xt,符号⊙表示逐元素乘积,σ(·)表示Sigmoid激活函数;再将第t-1个时空编码特征图Ht-1和强化外观特征图X′t经过卷积和逐元素相乘操作融合,得到强化时空编码特征图H′t-1=2σ(Conv2(X′t))⊙Ht-1,Conv1(·)、Conv2(·)表示卷积核大小为5×5的二维卷积层;
(1-4)将强化外观特征图X′t和第t-2个时空编码特征图Ht-2经过卷积和逐元素相乘操作融合,得到融合外观特征图X″t=2σ(Conv1(Ht-2))⊙X′t;再将融合外观特征图X″t与强化时空编码特征图H′t-1经过卷积和逐元素相乘操作融合,得到融合时空编码特征图H″t-1=2σ(Conv2(X″t))⊙H′t-1。
步骤(2)构建时序卷积校正模块,输入为同一视频帧序列内两个长短不同的片段,输出卷积校正张量;所述时序卷积校正模块由两个三维卷积层构成,分别用于提取短期和长期历史视频帧序列中的时空特征,根据短期历史视频帧序列和长期历史视频帧序列生成卷积校正张量,具体是:
(2-2)将短期历史视频帧序列在空间维度上进行全局平均池化后,通过三维卷积得到短期上下文时空特征Pooling(·)为空间维度上的全局平均池化,Conv3D1(·)表示输入通道为3、输出通道为C、卷积核尺寸为3×1×1的三维卷积层;
(2-3)将长期历史视频帧序列在时序、空间维度上进行全局平均池化后,通过三维卷积得到长期上下文时空特征GAP(·)为在时序、空间维度上的全局平均池化操作,Conv3D2(·)表示输入通道为3、输出通道为C、卷积核尺寸为1×1×1的三维卷积层;
(2-4)将短期上下文时空特征At和长期上下文时空特征Bt通过Rt=δ(At+Bt)得到卷积校正张量其中δ(·)为ReLU激活函数,Rt的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数。
步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器,输入为融合外观特征图、融合时空编码特征图、卷积校正张量,输出为预测时空编码特征图;具体是:
(3-1)利用卷积长短时记忆模块构建自适应卷积时空编码器,所述的卷积长短时记忆模块(ConvLSTM)是将长短时记忆单元LSTM中的全连接层替换成卷积层后得到的模块;
It=σ((Broadcast(Rt)⊙W1)*X″t+(Broadcast(Rt)⊙W2)*H″t-1);其中,和为二维卷积对应的卷积核,上标表示四个维度,分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数(卷积核W1和W2的长和宽相同,卷积核W2的输入通道数和输出通道数相同),Broadcast(·)用于对Rt的卷积核长、卷积核宽和卷积核输入通道数维度进行复制使其维度和对应卷积核相等,*表示卷积操作;
步骤(4)构建时空记忆解码器,输入为融合时空编码特征图和预测时空编码特征图,输出为预测视频帧;具体是:利用一个二维卷积层构建时空记忆解码器,将融合时空编码特征图H″t-1和预测时空编码特征图Ht输入时空记忆解码器,由卷积操作得到预测视频帧 其中Conv3(·)表示卷积核尺寸为1×1二维卷积层,[·,·]表示在通道维度上的拼接操作。
步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型,对新的视频序列依次通过步骤(1)~(4)得到后续预测视频序列;具体是:
(5-1)构建由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型;
(5-2)将视频帧序列的前t′帧依次输入视频预测模型,t′=1,2,…,M,M<N,其中M作为上下文视频帧(用于为后续视频预测提供参考)数量,获得预测视频帧再将依次输入视频预测模型,t″=M,…,(N-1),得到预测视频帧
(5-4)利用随机梯度下降算法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的视频预测模型;
(5-5)对于新的视频通过采样得到M个视频帧,输入上述优化的视频预测模型,依照(5-2)依次输出指定数量的预测视频帧序列作为最终结果。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (5)
1.基于时序校正卷积的视频预测方法,其特征在于,首先获取原始视频数据集合,然后依次进行如下操作:
步骤(1)对原始视频进行采样,获得视频帧序列,将视频帧序列输入至时序上下文融合模块,输出对应的融合外观特征图和融合时空编码特征图;
步骤(2)构建时序卷积校正模块,输入为同一视频帧序列内两个长短不同的片段,输出卷积校正张量;
(2-2)将短期历史视频帧序列在空间维度上进行全局平均池化后,通过三维卷积得到短期上下文时空特征Pooling(·)为空间维度上的全局平均池化,Conv3D1(·)表示输入通道为3、输出通道为C、卷积核尺寸为3×1×1的三维卷积层;
(2-3)将长期历史视频帧序列在时序、空间维度上进行全局平均池化后,通过三维卷积得到长期上下文时空特征GAP(·)为在时序、空间维度上的全局平均池化操作,Conv3D2(·)表示输入通道为3、输出通道为C、卷积核尺寸为1×1×1的三维卷积层;
(2-4)将短期上下文时空特征At和长期上下文时空特征Bt通过Rt=δ(At+Bt)得到卷积校正张量其中δ(·)为ReLU激活函数,Rt的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数;
步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器,输入为融合外观特征图、融合时空编码特征图、卷积校正张量,输出为预测时空编码特征图;
步骤(4)构建时空记忆解码器,输入为融合时空编码特征图和预测时空编码特征图,输出为预测视频帧;
步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型,对新的视频序列依次通过步骤(1)~(4)得到后续预测视频序列。
2.如权利要求1所述基于时序校正卷积的视频预测方法,其特征在于,步骤(1)具体是:
(1-2)构建由两个二维卷积层组成的时序上下文融合模块,卷积核尺寸为5×5,填充为2,步长为1,两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征;
(1-3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列C表示通道维度,当不足3帧时,该序列的元素均由全0初始化补全;将Xt和第t-3个时空编码特征图Ht-3经过卷积和逐元素相乘操作融合,得到强化外观特征图X′t=2σ(Conv1(Ht-3))⊙Xt,符号⊙表示逐元素乘积,σ(·)表示Sigmoid激活函数;再将第t-1个时空编码特征图Ht-1和强化外观特征图X′t经过卷积和逐元素相乘操作融合,得到强化时空编码特征图H′t-1=2σ(Conv2(X′t))⊙Ht-1,Conv1(·)、Conv2(·)表示卷积核大小为5×5的二维卷积层;
3.如权利要求2所述基于时序校正卷积的视频预测方法,其特征在于,步骤(3)具体是:
(3-1)利用卷积长短时记忆模块构建自适应卷积时空编码器,所述的卷积长短时记忆模块是将长短时记忆单元LSTM中的全连接层替换成卷积层后得到的模块;
It=σ((Broadcast(Rt)⊙W1)*X″t+(Broadcast(Rt)⊙W2)*H″t-1);其中,和为二维卷积对应的卷积核,上标表示四个维度,分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数,Broadcast(·)用于对Rt的卷积核长、卷积核宽和卷积核输入通道数维度进行复制使其维度和对应卷积核相等,*表示卷积操作;
5.如权利要求4所述基于时序校正卷积的视频预测方法,其特征在于,步骤(5)具体是:
(5-1)构建由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型;
(5-4)利用随机梯度下降算法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的视频预测模型;
(5-5)对于新的视频通过采样得到M个视频帧,输入上述优化的视频预测模型,依照(5-2)依次输出指定数量的预测视频帧序列作为最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210463423.1A CN114758282B (zh) | 2022-04-28 | 2022-04-28 | 基于时序校正卷积的视频预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210463423.1A CN114758282B (zh) | 2022-04-28 | 2022-04-28 | 基于时序校正卷积的视频预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114758282A CN114758282A (zh) | 2022-07-15 |
CN114758282B true CN114758282B (zh) | 2022-12-06 |
Family
ID=82332613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210463423.1A Active CN114758282B (zh) | 2022-04-28 | 2022-04-28 | 基于时序校正卷积的视频预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114758282B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115049969B (zh) * | 2022-08-15 | 2022-12-13 | 山东百盟信息技术有限公司 | 一种改进YOLOv3和BiConvLSTM的不良视频检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700475A (zh) * | 2020-12-31 | 2021-04-23 | 荆门汇易佳信息科技有限公司 | 不同场景下自适应的多目标视频追踪系统 |
CN113422952A (zh) * | 2021-05-17 | 2021-09-21 | 杭州电子科技大学 | 基于时空传播层次编解码器的视频预测方法 |
CN114067251A (zh) * | 2021-11-18 | 2022-02-18 | 西安交通大学 | 一种无监督监控视频预测帧异常检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11074802B2 (en) * | 2017-02-02 | 2021-07-27 | Hill-Rom Services, Inc. | Method and apparatus for automatic event prediction |
US10482572B2 (en) * | 2017-10-06 | 2019-11-19 | Ford Global Technologies, Llc | Fusion of motion and appearance features for object detection and trajectory prediction |
CN108769674B (zh) * | 2018-06-27 | 2019-11-12 | 北京大学深圳研究生院 | 一种基于自适应层次化运动建模的视频预测方法 |
CN111598059A (zh) * | 2020-06-28 | 2020-08-28 | 中国人民公安大学 | 犯罪预测模型的训练方法、装置及电子设备 |
-
2022
- 2022-04-28 CN CN202210463423.1A patent/CN114758282B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700475A (zh) * | 2020-12-31 | 2021-04-23 | 荆门汇易佳信息科技有限公司 | 不同场景下自适应的多目标视频追踪系统 |
CN113422952A (zh) * | 2021-05-17 | 2021-09-21 | 杭州电子科技大学 | 基于时空传播层次编解码器的视频预测方法 |
CN114067251A (zh) * | 2021-11-18 | 2022-02-18 | 西安交通大学 | 一种无监督监控视频预测帧异常检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114758282A (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782490B (zh) | 一种具有时空一致性的视频深度图估计方法及装置 | |
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
US11870947B2 (en) | Generating images using neural networks | |
CN110533721B (zh) | 一种基于增强自编码器的室内目标物体6d姿态估计方法 | |
CN110059772B (zh) | 基于多尺度解码网络的遥感图像语义分割方法 | |
CN110309732B (zh) | 基于骨架视频的行为识别方法 | |
CN113837938B (zh) | 基于动态视觉传感器重建潜在图像的超分辨率方法 | |
CN110443883B (zh) | 一种基于dropblock的单张彩色图片平面三维重建方法 | |
CN113066017B (zh) | 一种图像增强方法、模型训练方法及设备 | |
CN112634296A (zh) | 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 | |
CN111787187B (zh) | 利用深度卷积神经网络进行视频修复的方法、系统、终端 | |
CN113077505B (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN117499658A (zh) | 使用神经网络生成视频帧 | |
CN112258436A (zh) | 图像处理模型的训练方法、装置、图像处理方法及模型 | |
CN115002379B (zh) | 视频插帧方法、训练方法、装置、电子设备和存储介质 | |
CN115345866B (zh) | 一种遥感影像中建筑物提取方法、电子设备及存储介质 | |
KR102543690B1 (ko) | 사전 정보 학습 기반 영상 업스케일링 장치 및 방법 | |
CN114758282B (zh) | 基于时序校正卷积的视频预测方法 | |
CN116205962B (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN111242999B (zh) | 基于上采样及精确重匹配的视差估计优化方法 | |
CN114638768B (zh) | 一种基于动态关联学习网络的图像去雨方法、系统及设备 | |
CN114170438A (zh) | 神经网络训练的方法、电子设备及计算机存储介质 | |
CN113947538A (zh) | 一种多尺度高效卷积自注意力单幅图像除雨方法 | |
CN113256519A (zh) | 图像的恢复方法、设备、存储介质及程序产品 | |
CN110532868B (zh) | 一种预测自由空间语义边界的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |