CN113422952B - 基于时空传播层次编解码器的视频预测方法 - Google Patents
基于时空传播层次编解码器的视频预测方法 Download PDFInfo
- Publication number
- CN113422952B CN113422952B CN202110534056.5A CN202110534056A CN113422952B CN 113422952 B CN113422952 B CN 113422952B CN 202110534056 A CN202110534056 A CN 202110534056A CN 113422952 B CN113422952 B CN 113422952B
- Authority
- CN
- China
- Prior art keywords
- video
- low
- level
- layer
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/107—Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了基于时空传播层次编解码器的视频预测方法。本发明方法首先对给定的原始视频进行采样获得帧序列并输入至低层视觉记忆编码器,得到低层视觉编码特征和低层记忆状态特征;然后分别利用时空传播模块从低层视觉编码表示中提取时空编码特征,以及通过高层语义编码器提取高层语义特征;再将得到的低层视觉编码特征、低层记忆状态特征和高层语义编码特征通过层次特征解码器进行信息融合,输出预测视频帧。本发明方法不仅能够将低层视觉记忆特征和高层语义特征相融合,并通过时空传播模块使得低层视觉信息沿时序方向传播,还能利用视频首帧的先验知识一定程度上解决视频帧模糊问题,从整体上提高预测视频帧的清晰度和视觉质量。
Description
技术领域
本发明属于计算机视觉领域,尤其是视频感知中的视频预测技术领域,涉及一种基于时空传播层次编解码器的视频预测方法。
背景技术
在互联网+时代,每天都有成千上万的视频在各类终端设备上产生,视频感知受到了学界和业界的广泛关注,而视频预测则是其中一个充满挑战而又具有较高应用价值的视觉任务。该任务其旨在给定部分视频段的情况下,生成后续时刻的视频段。视频预测在雷达气象图预测、交通流预测、机器人物体交互预测、无人驾驶等实际场景有着广泛的应用。例如,在无人驾驶环境中,传统的雷达测距只能对近距离车辆交互情况进行判断,而视频预测能够利用视觉信息对道路上的行人与车辆进行预测,辅助自动驾驶系统的驾驶操作,规避行人车辆,从而保障驾驶员和乘客的安全。视频预测主要遇到的困难包括视频中物体的外观随着时间和拍摄光照发生变化,长期预测造成的图像模糊等等。
传统视频预测方法都是基于神经元模型,研究者们通过改变神经元间的连接方式和权重变化规则获取更好的性能。但这类方法只能应用于简单符号组成的画面,无法对真实视频进行预测。近年来,以神经网络为主要研究对象的深度学习被广泛应用于计算机视觉的各个领域,促使许多研究者开始使用深度学习技术来解决视频预测问题。比如研究者提出采用堆叠多个卷积长短期神经网络(ConvLSTM:Convolutional Long-Short TimeMemory)的方法,以此增强对时间和空间信息的学习能力,从而得到更清晰的预测结果,也有研究者通过往ConvLSTM中增加更多的模块来提高视频预测性能。另外,基于双流的网络架构被广泛地运用到视频预测领域,其主要思想是将视频分为内容和动作两个部分分别进行预测,再将两部分融合得到最终预测视频。同时,为了预测多个未来视频帧,自递归方法被广泛运用到视频预测领域,将网络生成的视频帧作为输入再次送入网络当中,得到下一时刻的视频帧,反复进行如上操作,以此实现多视频帧预测。
上述方法的不足点主要表现在以下几个方面:第一,堆叠多个ConvLSTM的方法没有将学习到的低层视觉特征和高层语义特征很好地融合,没有充分利用学习到的特征,导致预测结果仍然存在模糊的情况;第二,基于双流架构的视频预测方法没有将视频的低层视觉特征在时序上进行有效的传播,导致预测视频中对象轮廓的位置不够准确;第三,自递归方法通过将网络生成的视频帧再次送入网络来实现多视频帧的视频预测,但网络生成的视频帧中存在误差,它们会由于这种形式不断累积,导致在多视频帧预测后期出现模糊的情况。因此,为了缓解不同层次特征融合不够充分、视频对象轮廓位置不够准确以及预测后期出现模糊等问题,迫切需要一种能融合不同层次特征,并提供更准确轮廓位置信息同时能缓解误差累积的方法,从而提高视频预测的准确性。
发明内容
本发明的目的就是针对现有技术的不足,提供基于时空传播层次编解码器的视频预测方法,不仅将低层视觉编码特征与高层语义特征相融合,还能通过时空传播机制对低层视觉信息的时空特性进行刻画,同时利用视频首帧为后续帧的预测提供先验知识,从而获得视觉内容更加清晰的视频预测帧。
本发明方法首先获取原始视频数据集合,然后依次进行如下操作:
步骤(1)对每个视频进行采样,获得视频帧序列,并将其输入至低层视觉记忆编码器中,输出对应的低层视觉编码特征和低层记忆状态特征;
步骤(2)将低层视觉编码特征输入至时空传播模块,输出时空编码特征;
步骤(3)构建高层语义编码器,输入为时空编码特征,输出高层语义编码特征;
步骤(4)构建层次特征解码器,输入为低层视觉编码特征、低层记忆状态特征和高层语义编码特征,输出预测视频帧;
步骤(5)建立由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型,先迭代训练该模型直至收敛,然后将新视频采样后的视频帧序列输入至该模型,得到最终的预测帧序列。
进一步,步骤(1)具体是:
(1-2)构建由一个二维卷积层和一个卷积长短期记忆模块组成的低层视觉记忆编码器,所谓的卷积长短期记忆模块,是指将长短期记忆单元LSTM(Long-Short TimeMemory)的全连接操作替换成卷积操作后的模块;
更进一步,步骤(2)具体是:
(2-1)构建由三个结构相同但参数不共享的二维卷积层,以及逐元素相乘操作和逐元素相加操作组成的时空传播模块;
(2-3)对拼接时序编码特征进行三次卷积操作,得到时空编码特征即其中,符号表示逐元素相乘,表示逐元素相加,σ(·)表示sigmoid激活函数,Convi(·),i=1,2,3表示结构相同但参数不共享的卷积操作;输出时空编码特征
又进一步,步骤(3)具体是:
(3-1)构建由一个卷积层和一个卷积长短期记忆模块组成的高层语义编码器;
又进一步,步骤(4)具体是:
(4-1)构建由一个卷积长短期记忆模块和两个逆卷积层组成的层次特征解码器,逆卷积层对输入特征图用0填充,再对其进行卷积操作,从而扩大特征图的尺寸,可以将因卷积操作缩小的特征图还原至原视频帧尺寸大小;
再进一步,步骤(5)具体是:
(5-1)构建由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型;
(5-2)将视频帧序列的前M+t′帧输入视频预测模型,t′=0,…,(N-M-2),得到预测视频帧q′M+t′+1;将预测视频帧q′M+t′+1与首帧X1融合,获得初始输入张量其中,融合操作表示为Conv(·)表示卷积操作;再次输入视频预测模型,得到M+t′+2时刻的预测视频帧q′M+t′+2;
(5-4)利用随机梯度下降法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的预测模型;
(5-5)对于新的视频通过采样得到M个视频帧,并输入上述优化的预测模型,依照(5-2)依次输出指定数量的预测视频帧作为视频预测结果。
本发明方法利用低层视觉特征与高层语义特征融合机制、低层视觉信息时序传播和首帧复用策略对视频的后续帧进行预测,具有以下几个特点:1)不同于已有方法通过高层语义编码特征得到视频帧,所设计的网络架构将低层视觉编码特征和高层语义编码特征两个不同层次的特征进行融合,使网络能学习到更有效的特征表示;2)通过构建时空传播模块,将低层视觉编码特征在时序上进行传播,而传统方法忽略了低层视觉编码特征在时序上对最终预测视频帧的作用;3)现有的方法一般依赖自回归而导致误差累积,本发明方法通过在预测后期将视频首帧作为先验信息加入网络,从真实视频帧获得准确的先验知识。
本发明方法适用于预测多个未来视频帧的情况,有益效果包括:1)利用时空传播层次编解码器,将多种不同层次的特征融合起来,从而获得更高的预测质量;2)通过构建时空传播模块,将低层视觉编码特征沿时序进行传播,使预测视频中的对象具有更准确的轮廓位置;3)通过对视频首帧的再次利用,充分捕捉真实视频帧的先验知识,指导模型生成物体外观更加清晰的预测视频帧。本发明所具有的多层次特征融合能力和低层视觉特征时序传播机制,大大提高了视频预测模型的性能,可应用于雷达天气气象图预测、交通流预测等实际领域。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
基于时空传播层次编解码器的视频预测方法,首先对给定的视频进行采样并输入低层视觉记忆编码器得到低层视觉编码特征和低层记忆状态特征;然后利用时空传播模块从低层视觉编码特征中提取时空编码特征;再利用由一个二维卷积层和一个卷积长短期记忆模块构成的高层语义编码器提取高层语义编码特征;最后,将得到的低层视觉编码特征、低层记忆状态特征和高层语义编码特征通过层次特征解码器进行信息融合,得到预测视频帧。该方法利用层次编解码器将低层视觉和高层语义的特征相融合,并利用时空传播模块将低层视觉编码信息沿时序方向进行传播,同时通过首帧复用缓解视频预测后期视频帧模糊的现象,从而得到更加清晰的视频预测结果。
如图1,该方法首先获取原始视频数据集合,然后进行如下操作:
步骤(1)对每个视频进行采样,获得视频帧序列,并将其输入至低层视觉记忆编码器中,输出对应的低层视觉编码特征和低层记忆状态特征;具体是:
(1-2)构建由一个二维卷积层和一个卷积长短期记忆模块组成的低层视觉记忆编码器,所谓的卷积长短期记忆模块,是指将长短期记忆单元LSTM(Long-Short TimeMemory)的全连接操作替换成卷积操作后的模块;
步骤(2)将低层视觉编码特征输入至时空传播模块,输出时空编码特征;具体是:
(2-1)构建由三个结构相同但参数不共享的二维卷积层,以及逐元素相乘操作和逐元素相加操作组成的时空传播模块;
(2-3)对拼接时序编码特征进行三次卷积操作,得到时空编码特征即其中,符号表示逐元素相乘,表示逐元素相加,σ(·)表示sigmoid激活函数,Convi(·),i=1,2,3表示结构相同但参数不共享的卷积操作;输出时空编码特征
步骤(3)构建高层语义编码器,输入为时空编码特征,输出高层语义编码特征;具体是:
(3-1)构建由一个卷积层和一个卷积长短期记忆模块组成的高层语义编码器;
步骤(4)构建层次特征解码器,输入为低层视觉编码特征、低层记忆状态特征和高层语义编码特征,输出预测视频帧;具体是:
(4-1)构建由一个卷积长短期记忆模块和两个逆卷积层组成的层次特征解码器,逆卷积层对输入特征图用0填充,再对其进行卷积操作,从而扩大特征图的尺寸,可以将因卷积操作缩小的特征图还原至原视频帧尺寸大小;
步骤(5)建立由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型,先迭代训练该模型直至收敛,然后将新视频采样后的视频帧序列输入至该模型,得到最终的预测帧序列;具体是:
(5-1)构建由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型;
(5-2)将视频帧序列的前M+t′帧输入视频预测模型,t′=0,…,(N-M-2),得到预测视频帧q′M+t′+1;将预测视频帧q′M+t′+1与首帧X1融合,获得初始输入张量其中,融合操作表示为Conv(·)表示卷积操作;再次输入视频预测模型,得到M+t′+2时刻的预测视频帧q′M+t′+2;
(5-4)利用随机梯度下降法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的预测模型;
(5-5)对于新的视频通过采样得到M个视频帧,并输入上述优化的预测模型,依照(5-2)依次输出指定数量的预测视频帧作为视频预测结果。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (4)
1.基于时空传播层次编解码器的视频预测方法,其特征在于,该方法首先原始视频数据集合,然后进行以下操作:
步骤(1)对每个视频进行采样,获得视频帧序列,并将其输入至低层视觉记忆编码器中,输出对应的低层视觉编码特征和低层记忆状态特征;具体是:
(1-2)构建由一个二维卷积层和一个卷积长短期记忆模块组成的低层视觉记忆编码器,所述的卷积长短期记忆模块是将长短期记忆单元LSTM的全连接操作替换成卷积操作后的模块;
步骤(2)将低层视觉编码特征输入至时空传播模块,输出时空编码特征;具体是:
(2-1)构建由三个结构相同但参数不共享的二维卷积层,以及逐元素相乘操作和逐元素相加操作组成的时空传播模块;
(2-3)对拼接时序编码特征进行三次卷积操作,得到时空编码特征即其中,符号表示逐元素相乘,表示逐元素相加,σ(·)表示sigmoid激活函数,Convi(·),i=1,2,3表示结构相同但参数不共享的卷积操作;输出时空编码特征
步骤(3)构建高层语义编码器,输入为时空编码特征,输出高层语义编码特征;
步骤(4)构建层次特征解码器,输入为低层视觉编码特征、低层记忆状态特征和高层语义编码特征,输出预测视频帧;
步骤(5)建立由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型,先迭代训练该模型直至收敛,然后将新视频采样后的视频帧序列输入至该模型,得到最终的预测帧序列。
4.如权利要求3所述的基于时空传播层次编解码器的视频预测方法,其特征在于,步骤(5)具体是:
(5-1)构建由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型;
(5-2)将视频帧序列的前M+t′帧输入视频预测模型,t′=0,…,(N-M-2),得到预测视频帧q′M+t′+1;将预测视频帧q′M+t′+1与首帧X1融合,获得初始输入张量其中,融合操作表示为Conv(·)表示卷积操作;再次输入视频预测模型,得到M+t′+2时刻的预测视频帧q′M+t′+2;
(5-4)利用随机梯度下降法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的预测模型;
(5-5)对于新的视频通过采样得到M个视频帧,并输入上述优化的预测模型,依照(5-2)依次输出指定数量的预测视频帧作为视频预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110534056.5A CN113422952B (zh) | 2021-05-17 | 2021-05-17 | 基于时空传播层次编解码器的视频预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110534056.5A CN113422952B (zh) | 2021-05-17 | 2021-05-17 | 基于时空传播层次编解码器的视频预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113422952A CN113422952A (zh) | 2021-09-21 |
CN113422952B true CN113422952B (zh) | 2022-05-31 |
Family
ID=77712450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110534056.5A Active CN113422952B (zh) | 2021-05-17 | 2021-05-17 | 基于时空传播层次编解码器的视频预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113422952B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114463218B (zh) * | 2022-02-10 | 2023-10-24 | 中国科学技术大学 | 一种基于事件数据驱动的视频去模糊方法 |
CN114758282B (zh) * | 2022-04-28 | 2022-12-06 | 杭州电子科技大学 | 基于时序校正卷积的视频预测方法 |
CN116723333B (zh) * | 2023-08-02 | 2023-10-31 | 清华大学 | 基于语义信息的可分层视频编码方法、装置及产品 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388900B (zh) * | 2018-02-05 | 2021-06-08 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
TWI709107B (zh) * | 2018-05-21 | 2020-11-01 | 國立清華大學 | 影像特徵提取方法及包含其顯著物體預測方法 |
CN110929587B (zh) * | 2019-10-30 | 2021-04-20 | 杭州电子科技大学 | 一种基于层次注意力机制的双向重构网络视频描述方法 |
CN111860162B (zh) * | 2020-06-17 | 2023-10-31 | 上海交通大学 | 一种视频人群计数系统及方法 |
CN112040222B (zh) * | 2020-08-07 | 2022-08-19 | 深圳大学 | 一种视觉显著性预测方法及设备 |
CN112004085B (zh) * | 2020-08-14 | 2023-07-07 | 北京航空航天大学 | 一种场景语义分割结果指导下的视频编码方法 |
CN112288776B (zh) * | 2020-10-26 | 2022-06-24 | 杭州电子科技大学 | 一种基于多时间步金字塔编解码器的目标跟踪方法 |
-
2021
- 2021-05-17 CN CN202110534056.5A patent/CN113422952B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113422952A (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113422952B (zh) | 基于时空传播层次编解码器的视频预测方法 | |
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN112634276A (zh) | 一种基于多尺度视觉特征提取的轻量级语义分割方法 | |
CN111563909B (zh) | 一种复杂街景图像语义分割方法 | |
CN111275711B (zh) | 基于轻量级卷积神经网络模型的实时图像语义分割方法 | |
CN110781776B (zh) | 一种基于预测和残差细化网络的道路提取方法 | |
CN112733768B (zh) | 基于双向特征语言模型的自然场景文本识别方法及装置 | |
CN111062395B (zh) | 一种实时的视频语义分割方法 | |
CN113139446B (zh) | 一种端到端自动驾驶行为决策方法、系统及终端设备 | |
CN113657388A (zh) | 一种融合图像超分辨率重建的图像语义分割方法 | |
CN110675329A (zh) | 基于视觉语义引导的图像去模糊方法 | |
CN114913493A (zh) | 一种基于深度学习的车道线检测方法 | |
CN112417973A (zh) | 一种基于车联网的无人驾驶系统 | |
CN114463545A (zh) | 一种基于多通道深度加权聚合的图像语义分割算法及系统 | |
CN115527096A (zh) | 一种基于改进YOLOv5的小目标检测方法 | |
CN115861635A (zh) | 抗透射畸变的无人机倾斜影像语义信息提取方法及设备 | |
Van Quyen et al. | Feature pyramid network with multi-scale prediction fusion for real-time semantic segmentation | |
CN115995002B (zh) | 一种网络构建方法及城市场景实时语义分割方法 | |
CN116993987A (zh) | 一种基于轻量级神经网络模型的图像语义分割方法及系统 | |
Khan et al. | Latent space reinforcement learning for steering angle prediction | |
CN115331460A (zh) | 一种基于深度强化学习的大规模交通信号控制方法及装置 | |
CN113255459A (zh) | 一种基于图像序列的车道线检测方法 | |
CN112149496A (zh) | 一种基于卷积神经网络的实时道路场景分割方法 | |
Manjunatha et al. | Improving Autonomous Driving Policy Generalization via Auxiliary Tasks and Latent Modeling | |
CN117974497A (zh) | 一种雾霾场景驾驶视觉增强及目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |