CN108881899B - 基于光流场金字塔的图像预测方法和装置及电子设备 - Google Patents
基于光流场金字塔的图像预测方法和装置及电子设备 Download PDFInfo
- Publication number
- CN108881899B CN108881899B CN201810744634.6A CN201810744634A CN108881899B CN 108881899 B CN108881899 B CN 108881899B CN 201810744634 A CN201810744634 A CN 201810744634A CN 108881899 B CN108881899 B CN 108881899B
- Authority
- CN
- China
- Prior art keywords
- optical flow
- layer
- image frame
- estimator
- flow field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003287 optical effect Effects 0.000 title claims abstract description 218
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims description 38
- 238000009826 distribution Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 10
- 230000009466 transformation Effects 0.000 description 10
- 238000006073 displacement reaction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000001131 transforming effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
- H04N17/004—Diagnosis, testing or measuring for television systems or their details for digital television systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Studio Devices (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于光流场金字塔的图像预测方法和装置及电子设备。根据一实施例,提供一种使用金字塔光流估计器的图像预测方法,所述金字塔光流估计器包括至少两层光流估计器,所述方法包括:每层光流估计器使用已知图像帧的对应缩放版本和上一层光流估计器产生的上一层预测图像帧作为输入,估计当前层光流场;以及使用所估计的当前层光流场和所述上一层预测图像帧生成当前层预测图像帧,其中,作为第一层光流估计器的输入的上一层预测图像帧为零,且与最后一层光流估计器对应的当前层预测图像帧被作为预测图像帧输出。本发明的图像预测方法和装置可用于辅助驾驶等领域。
Description
技术领域
本发明总体上涉及图像处理领域,更特别地,涉及一种基于光流场金字塔的图像预测方法和装置、及电子设备。
背景技术
视频预测可广泛应用于多种领域,例如可以用于辅助驾驶中,基于当前的驾驶环境预测将来的驾驶环境,从而提前采取相应的驾驶策略。一种常用的视频预测方法包括使用光流场,光流场描述图像序列中相邻图像帧之间对应像素的位移矢量,图1A示出了示例性后验光流场,图1B示出了示例性先验光流场。如图1A所示,当已知了前一图像帧1和后一图像帧2时,即可确定图像帧1和图像帧2之间对应像素的光流场,其称为后验光流场,图1A中作为示例示出了圆形像素和三角形像素的位移矢量。如图1B所示,当已知图像帧1,但是并不知道下一图像帧2时,可以基于已知图像帧1估计先验光流场,其表示像素可能的位移矢量及其概率,根据光流场通过对相应的像素应用仿射变换,即可得到可能的图像帧2,例如图1B所示的具有概率A的可能的图像帧2和具有概率B的可能的图像帧2。因此,当根据若干已知图像帧预测出先验光流场时,即可通过像素的仿射变换来获得预测图像帧。
针对图像序列预测问题进行光流场的估计时,需要能够兼顾预测精度和输出的动态范围。图像中像素位移的大小可能因车辆移动速度而发生变化,同一帧图像中不同像素的位移也有可能彼此差异较大。为了能够在预测过程中兼顾不同速度的像素运动模式,对应光流场的矢量长度需要有很大的动态范围。另一方面,在同样的相对预测精度下,增大动态范围意味着绝对精度的降低;而保证绝对预测精度则意味着需要限制预测动态范围,这构成了一项需要调和的基本矛盾。现有的单一尺度下的光流场预测很难兼顾精度与动态范围,一般需要通过牺牲动态范围的方式来保证精度,例如通过限制光流场的最大长度,或通过数学方法平衡不同长度光流数据样本对于最终模型估计的贡献。
在更一般的光流估计问题中,已有工作提出了基于空间金字塔的光流场估计方法,其相对于单一空间尺度的光流场估计方法而言,能够更好地兼顾精度和动态范围。基于空间金字塔的光流场估计方法将光流场的估计问题拆解为多个空间尺度上子光流场估计问题的叠加,可以看做多个相对精度相似的光流场估计器的级联:金字塔的顶层估计粗糙空间尺度上的光流场,底层在粗糙空间尺度光流场的基础上估计空间尺度相对较小的残差光流场。在空间金字塔的各个层级中,多尺度的图像像素变换操作通过对原图像按尺度比例进行双线性插值缩放,并在缩放过后的图像上进行像素仿射变换,实现多尺度的光流图像变换操作。但是,这些方法都是针对非预测类任务的后验估计方法(图1A所示),与预测类任务的先验估计方法(图1B所示)有很大区别。具体来说,在后验估计中图像序列中所有图像帧在估计时均为已知,此时图像帧之间的光流场是确定性的;而在图像序列预测任务中光流场的估计是先验的,即需要预测未知图像帧之间的光流场。因为预测问题的不确定性,未知图像帧之间的光流场是随机的,需要估计光流场各种可能取值情况的概率分布。如何表达和估计一个空间金字塔上的随机光流场概率分布,以及如何利用得到的随机光流场进行预测推断,并高效地进行像素级图像变换,都是尚未解决的问题。目前,尚没有合适的方法将空间金字塔的思想应用于预测类任务的先验光流场估计中。
因此,在图像序列预测任务中进行光流场估计时,兼顾预测精度和输出的动态范围,仍是需要解决的问题之一。
发明内容
本发明的一个方面在于提供一种利用光流场的图像预测方法,其能够在保证预测精度的同时,提供良好的动态范围。
根据一示例性实施例,提供一种使用金字塔光流估计器的图像预测方法,所述金字塔光流估计器包括至少两层光流估计器,所述方法包括:每层光流估计器使用已知图像帧的对应缩放版本和上一层光流估计器产生的上一层预测图像帧作为输入,估计当前层光流场;以及使用所估计的当前层光流场和所述上一层预测图像帧生成当前层预测图像帧,其中,作为第一层光流估计器的输入的上一层预测图像帧为零,且与最后一层光流估计器对应的当前层预测图像帧被作为预测图像帧输出。
在一些示例中,与至少相邻两层光流估计器对应的所述已知图像帧的缩放版本具有彼此不同的图像尺寸。
在一些示例中,与所述至少相邻两层光流估计器中的上一层光流估计器对应的所述已知图像帧的缩放版本的图像尺寸小于与所述至少相邻两层光流估计器中的下一层光流估计器对应的所述已知图像帧的缩放版本的图像尺寸。
在一些示例中,与所述至少相邻两层光流估计器中的上一层光流估计器对应的所述已知图像帧的缩放版本的图像尺寸是与所述至少相邻两层光流估计器中的下一层光流估计器对应的所述已知图像帧的缩放版本的图像尺寸的1/2。
在一些示例中,与所述金字塔光流估计器中的最后一层光流估计器对应的所述已知图像帧的缩放版本的图像尺寸是所述已知图像帧的原始尺寸。
在一些示例中,估计当前层光流场包括:生成随机光流场概率分布;以及对所述随机光流场概率分布进行采样、平均或取最大概率操作以生成所述当前层光流场。
在一些示例中,所述方法还包括:将所输出的预测图像帧作为已知图像帧来预测下一个预测图像帧。
在一些示例中,所述方法还包括:对所述金字塔光流估计器进行训练。
在一些示例中,对所述金字塔光流估计器进行训练包括:使用光流场真值数据作为监督信号来训练所述金字塔光流估计器在已知图像帧下输出目标图像帧;或者使用所述金字塔光流估计器中的所述至少两层光流估计器生成相应的预测图像帧,并且基于所述预测图像帧与目标预测帧之间的误差来调整所述至少两层光流估计器的参数;或者使用所述金字塔光流估计器获得多个已知图像帧之间的后验光流场,然后再使用所述后验光流场作为监督信号来训练所述金字塔光流估计器在已知图像帧下输出目标图像帧。
根据另一示例性实施例,提供一种图像预测装置,包括:图像缩放单元,配置为对图像帧进行缩放以获得所需的缩放版本;金字塔光流估计器,包括至少两层光流估计器,每层光流估计器配置为使用已知图像帧的对应缩放版本和上一层光流估计器产生的上一层预测图像帧作为输入,估计当前层光流场,其中作为第一层光流估计器的输入的上一层预测图像帧为零;以及预测帧生成器,包括与所述至少两层光流估计器对应的至少两层预测帧生成单元,每层预测帧生成单元配置为使用对应的一层光流估计器所估计的当前层光流场和上一层预测图像帧生成当前层预测图像帧,其中,与最后一层光流估计器对应的当前层预测图像帧被作为预测图像帧输出。
在一些示例中,所述装置还包括:训练单元,配置为对所述金字塔光流估计器进行训练。
在一些示例中,所述训练单元配置为:使用光流场真值数据作为监督信号来训练所述金字塔光流估计器在已知图像帧下输出目标图像帧;或者使用所述金字塔光流估计器中的所述至少两层光流估计器生成相应的预测图像帧,并且基于所述预测图像帧与目标预测帧之间的误差来调整所述至少两层光流估计器的参数;或者使用所述金字塔光流估计器获得多个已知图像帧之间的后验光流场,然后再使用所述后验光流场作为监督信号来训练所述金字塔光流估计器在已知图像帧下输出目标图像帧。
根据另一示例性实施例,提供一种电子设备,包括:处理器;以及存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行上述图像预测方法。
根据另一示例性实施例,提供一种车辆,其包括上述电子设备。
根据另一示例性实施例,提供一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行上述图像预测方法。
在本发明的上述实施例中,通过将空间金字塔的思想应用于预测类任务的先验光流场估计中,能兼顾预测精度和输出的动态范围,从而实现了良好的预测效果。
本发明的上述和其他特征和优点将从下面结合附图对示例性实施例的描述而变得显而易见。
附图说明
图1A示出后验光流场的示意图。
图1B示出先验光流场的示意图。
图2示出根据本发明一示例性实施例的图像预测方法的训练过程的示意图。
图3示出根据本发明一示例性实施例的图像预测方法的预测过程的示意图。
图4示出根据本发明一示例性实施例的图像预测装置的功能框图。
图5示出根据本发明一示例性实施例的电子设备的结构框图。
图6示出根据本发明一示例性实施例的配备有图5的电子设备的车辆的示意图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。注意,附图不是按比例绘制的。
图2示出根据本发明一示例性实施例的图像预测方法的训练过程的示意图,图3示出根据本发明一示例性实施例的图像预测方法的预测过程的示意图。在本发明的图像预测方法中,采用了光流金字塔的思想。具体而言,在图2的示例中,采用了层1光流估计器10a、层2光流估计器10b和层3光流估计器10c,其构成金字塔光流估计器10。虽然这里示出了3层估计器,但是应理解,金字塔光流估计器10可包括例如2层估计器、4层估计器或更多层估计器等。
在训练时,已知图像帧1,其可包括多个已知图像帧,在经过适当的缩放之后,被提供给相应层的估计器。例如,已知图像帧1的原始图像可以被提供给最底层的估计器,图2中为层3估计器10c,此时,层3估计器10c工作在基础尺度。已知图像帧1的缩放为原始图像尺寸的1/2的缩放版本可以被提供给层2估计器10b,此时,层2估计器10b的工作尺度是层3估计器10c的工作尺度的2倍。已知图像帧1的缩放为原始图像尺寸的1/4的缩放版本可以被提供给层1估计器10a,此时,层1估计器10a的工作尺度是层3估计器10c的工作尺度的4倍,是层2估计器10b的工作尺度的2倍。虽然这里示出了上层估计器接收到的图像尺寸是下层估计器接收到的图像尺寸的1/2,但是应理解,也可以是其他比例。一般而言,上层估计器接收到的图像尺寸小于下层估计器接收到的图像尺寸,从而上层估计器的工作尺度大于下层估计器的工作尺度,但是也可以存在其他情况。例如,上层估计器接收到的图像尺寸等于下层估计器接收到的图像尺寸,从而通过重复计算来提高预测的准确性,或者甚至某一个上层估计器接收到的图像尺寸可以大于其下一层估计器接收到的图像尺寸。
各层光流估计器接收原始图像的对应缩放版本,并且还接收直接相邻的上一层光流估计器产生的上一层预测图像帧,将二者作为输入,来估计当前层光流场。对于最上层的光流估计器10a而言,其不接收上一层预测图像帧,或者说其接收到的上一层预测图像帧为零。下面来具体描述该过程。
如图2所示,层1估计器10a接收已知图像帧1的1/4图像尺寸的缩放版本,并且产生已知帧到未知帧之间的层1先验光流场分布11a。在一些实施例中,层1估计器10a(以及后面描述的估计器10b和10c)可产生随机光流场概率分布,然后通过平均、采样、取最大概率等方式,从随机光流场概率分布产生确定的先验光流场分布11a。对应的层1预测图像生成器12a利用层1估计器10a产生的先验光流场分布11a以及其对应的已知图像帧,这里是原始的已知图像帧1的1/4缩放版本,产生层1预测图像帧2a。层1预测图像生成器12a可以通过例如卷积、仿射变换等,根据层1先验光流场分布11a对已知图像帧1的1/4缩放版本中的像素进行位移(warpping),例如仿射变换,来产生层1预测图像帧2a。可以理解,层1预测图像帧2a的图像尺寸是原始的已知图像帧1的1/4。然后,可以将层1预测图像帧2a与其对应的层1真值图像帧2a’相比较,计算二者之间的误差。可以理解,层1真值图像帧2a’可以是已知图像帧1的真实下一帧图像的1/4缩放版本。以层1预测图像帧2a和层1真值图像帧2a’之间的误差为训练代价,来优化层1估计器10a。可以看出,整个层1的工作尺度是基础尺度的4倍。
类似地,层2估计器10b接收已知图像帧1的1/2图像尺寸的缩放版本,并且还接收上一层光流估计器10a产生的层1预测图像帧2a,产生已知帧(1/2缩放版本)到未知帧之间的先验光流场分布11b。可以理解,层2的工作尺度是基础尺度的2被,所以相对于层1,可以在更精细的尺度上进行光流场估计。由于层1预测图像帧2a是基础尺寸的1/4,所以其可以通过例如双线性插值被放大至基础尺寸的1/2(与已知图像帧1的1/2缩放版本相同大小)后,供层2估计器10b使用。供层2估计器10b在其工作尺度上产生来自上一层的粗糙尺度上的光流场与目标光流场之间的残差光流场作为层2先验光流场分布11b,目标光流场即已知图像帧1与预测目标帧之间光流场。应理解,实际上层1估计器10a也是产生上一层光流场与目标光流场之间的残差光流场,只是其收到的上一层光流场为零。
对应的层2预测图像生成器12b利用层2估计器10b产生的层2先验光流场分布11b,以及上一层产生的预测图像帧2a(其可被放大到层2对应的尺寸),产生层2预测图像帧2b,其图像尺寸是原始的已知图像帧1的1/2。可以通过根据先验光流场分布11b对预测图像帧2a进行仿射变换来产生层2预测图像帧2b。然后,可以将层2预测图像帧2b与其对应的层2真值图像帧2b’相比较,计算二者之间的误差。可以理解,层2真值图像帧2b’可以是已知图像帧1的真实下一帧图像的1/2缩放版本。以层2预测图像帧2b和层2真值图像帧2b’之间的误差为训练代价,来优化层2估计器10b。
层3与层2类似,其包括层3估计器10c和层3预测图像生成器12c,它们工作在基础尺度上。层3估计器10c利用已知图像帧1的原始版本和上一层预测图像帧2b产生层3先验光流场分布11c,层3预测图像生成器12c根据先验光流场分布11c对层2预测图像帧2b进行仿射变换,从而得到层3预测图像帧2c。以层3预测图像帧2c和层3真值图像帧2c’之间的误差为训练代价,来优化层3估计器10c。
如上所述,光流分布11a、11b和11c为不同尺度下的光流分布,其构成了光流金字塔;预测图像帧2a、2b和2c为不同尺度下的预测图像帧,其构成了预测图像帧金字塔;目标图像帧真值2a’、2b’和2c’为不同尺度下的目标图像帧真值,其构成了目标图像帧真值金字塔。
上面结合图2描述了无监督的训练方式,应理解,在图2所示的框架下,还可以进行有监督训练或者其他方式的无监督训练。例如,作为有监督训练的示例,训练数据集可包括图像帧之间的光流场真值,此时可以将部分图像帧当做已知帧,将剩余的后续图像帧当做预测目标帧,将相应光流场数据作为监督信号训练当前金字塔在已知帧下的输出。另一种无监督训练方式可包括通过后验光流估计的方法得到已知帧与目标帧之间的光流场的一个后验估计,再使用这个后验估计作为监督信号,通过类似有监督的方式训练估计器生成先验光流场。当然,其他训练方式也是可能的。
当完成了上述训练过程后,即可使用训练好的估计器来进行图像预测,下面参照图3来描述图像预测过程。与图2所示的训练过程类似,简言之,每层光流估计器使用已知图像帧的对应缩放版本和上一层光流估计器产生的上一层预测图像帧作为输入,估计当前层光流场,并且使用所估计的当前层光流场和所述上一层预测图像帧生成当前层预测图像帧,基础层产生的当前层预测图像帧即为最终的预测结果被输出。其中,作为第一层光流估计器的输入的上一层预测图像帧为零,并且第一层预测图像帧利用已知图像帧的对应缩放版本和当前层光流场来产生。
参照图3,已知图像帧1的1/4缩放版本被提供给层1估计器10a,其产生层1光流场分布11a。层1预测图像生成器12a通过根据层1光流场11a对已知图像帧1的1/4缩放版本进行仿射变换,获得层1预测图像帧2a。
已知图像帧1的1/2缩放版本被提供给层2估计器10b,其还接收上一层预测图像帧2a,产生预测目标与上一层预测图像帧2a之间的残差光流场,作为层2光流场分布11b。层2预测图像生成器12b通过根据层2光流场11b对上一层预测图像帧2a进行仿射变换,获得层2预测图像帧2b。
已知图像帧1的原始版本可以被提供给作为基础层的层3估计器10c,其还接收上一层预测图像帧2b,产生预测目标与上一层预测图像帧2b之间的残差光流场,作为层3光流场分布11c。层3预测图像生成器12c通过根据层3光流场11c对上一层预测图像帧2b进行仿射变换,获得层3预测图像帧2c。由于层3为基础层,所以层3预测图像帧2c被作为预测结果输出。在一些实施例中,作为预测结果的层3预测图像帧2c还可以被用作已知图像帧1,来进一步预测下一图像帧。
图4示出根据本发明一示例性实施例的图像预测装置100的功能框图。如图4所示,根据本发明一示例性实施例的图像预测装置100可包括训练单元110、图像缩放单元120、金字塔光流估计器130和预测帧生成器140。
图像缩放单元110可用于对已知图像帧1进行缩放,以获得所需的缩放版本,例如与金字塔光流估计器130中的各层光流估计器对应的缩放版本。
金字塔光流估计器130可包括至少两层光流估计器,例如图4所示的层1估计器131和层2估计器132等,每层光流估计可使用已知图像帧的对应缩放版本和上一层光流估计器产生的上一层预测图像帧作为输入,估计当前层光流场。其中,作为第一层光流估计器131的输入的上一层预测图像帧为零。
虽然未示出,预测帧生成器140可包括与各层光流估计器对应的各层预测帧生成单元,每层预测帧生成单元可使用对应的一层光流估计器所估计的当前层光流场和上一层预测图像帧生成当前层预测图像帧。对于第一层预测帧生成单元而言,其可以使用所估计的第一层光流场和已知图像帧的对应缩放版本来生成第一层预测图像帧。其中,最后一层预测图像帧被作为预测结果输出。
训练单元110则可用于利用训练数据集对金字塔光流估计器130进行训练,具体训练过程可参照上面结合图2描述的实施例,此处不再重复描述。
上述图像预测装置100中的各个单元和模块的具体功能和操作已经在上面参考图2到图3描述的图像预测方法中得到了详细介绍,因此这里仅简要说明,而省略了其重复详细描述。
根据本申请实施例的图像预测装置100可以实现在图像预测设备中,例如可以作为一个软件模块和/或硬件模块而集成到图像预测设备中。图5示出可实现图像预测装置100的示例性电子设备200的结构框图。
如图5所示,电子设备200包括一个或多个处理器210和存储器220。
处理器210可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备200中的其他组件以执行期望的功能,例如上述图像预测功能。
存储器220可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器210可以运行所述程序指令,以实现上文所述的本申请的各个实施例的图像预测方法以及/或者其他期望的功能。
在一个示例中,电子设备200还可以包括输入单元230和输出单元240,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。输入单元230可用于接收连续视频图像,例如输入单元230可连接到车载摄像头以接收其所拍摄的视频图像,该视频图像可用于进行上面描述的训练或预测过程。输出单元240可输出预测结果,例如可以将预测结果输出到车载辅助驾驶系统。车载辅助驾驶系统可以基于该预测结果来做出驾驶策略判断,从而实现安全可靠的辅助驾驶。
当然,为了简化,图5中仅示出了该电子设备200中与本申请有关的组件中的一些,而省略了许多其他必要或可选的组件。除此之外,根据具体应用情况,电子设备200还可以包括任何其他适当的组件。
图6示出了可配备这样的电子设备200的车辆的示意图。如图6所示,车辆300可包括摄像头301和电子设备310。摄像头301可以是单目、多目摄像头,也可以是红外摄像头、激光雷达等,以拍摄周围驾驶环境的图像。电子设备310可以实现为参照图5描述的电子设备200,其接收来自摄像头301的视频图像,以执行前述训练或预测过程。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行上面描述的根据本申请各种实施例的图像预测方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行上面描述的根据本申请各种实施例的图像预测方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (15)
1.一种使用金字塔光流估计器的图像预测方法,所述金字塔光流估计器包括至少两层光流估计器,所述方法包括:
每层光流估计器使用已知图像帧的对应缩放版本和上一层光流估计器产生的上一层预测图像帧作为输入,估计当前层光流场;以及
使用所估计的当前层光流场和所述上一层预测图像帧生成当前层预测图像帧,
其中,作为第一层光流估计器的输入的上一层预测图像帧为零,且与最后一层光流估计器对应的当前层预测图像帧被作为预测图像帧输出,且
其中,估计当前层光流场包括:
生成随机光流场概率分布;以及
从所述随机光流场概率分布产生确定的所述当前层光流场。
2.如权利要求1所述的方法,其中,与至少相邻两层光流估计器对应的所述已知图像帧的缩放版本具有彼此不同的图像尺寸。
3.如权利要求2所述的方法,其中,与所述至少相邻两层光流估计器中的上一层光流估计器对应的所述已知图像帧的缩放版本的图像尺寸小于与所述至少相邻两层光流估计器中的下一层光流估计器对应的所述已知图像帧的缩放版本的图像尺寸。
4.如权利要求3所述的方法,其中,与所述至少相邻两层光流估计器中的上一层光流估计器对应的所述已知图像帧的缩放版本的图像尺寸是与所述至少相邻两层光流估计器中的下一层光流估计器对应的所述已知图像帧的缩放版本的图像尺寸的1/2。
5.如权利要求1所述的方法,其中,与所述金字塔光流估计器中的最后一层光流估计器对应的所述已知图像帧的缩放版本的图像尺寸是所述已知图像帧的原始尺寸。
6.如权利要求1所述的方法,其中,从所述随机光流场概率分布产生确定的所述当前层光流场包括:
对所述随机光流场概率分布进行采样、平均或取最大概率操作以生成确定的所述当前层光流场。
7.如权利要求1所述的方法,还包括:
将所输出的预测图像帧作为已知图像帧来预测下一个预测图像帧。
8.如权利要求1所述的方法,还包括:
对所述金字塔光流估计器进行训练。
9.如权利要求8所述的方法,其中,对所述金字塔光流估计器进行训练包括:
使用光流场真值数据作为监督信号来训练所述金字塔光流估计器在已知图像帧下输出目标图像帧;或者
使用所述金字塔光流估计器中的所述至少两层光流估计器生成相应的预测图像帧,并且基于所述预测图像帧与目标预测帧之间的误差来调整所述至少两层光流估计器的参数;或者
使用所述金字塔光流估计器获得多个已知图像帧之间的后验光流场,然后再使用所述后验光流场作为监督信号来训练所述金字塔光流估计器在已知图像帧下输出目标图像帧。
10.一种图像预测装置,包括:
图像缩放单元,配置为对图像帧进行缩放以获得所需的缩放版本;
金字塔光流估计器,包括至少两层光流估计器,每层光流估计器配置为使用已知图像帧的对应缩放版本和上一层光流估计器产生的上一层预测图像帧作为输入,估计当前层光流场,其中作为第一层光流估计器的输入的上一层预测图像帧为零;以及
预测帧生成器,包括与所述至少两层光流估计器对应的至少两层预测帧生成单元,每层预测帧生成单元配置为使用对应的一层光流估计器所估计的当前层光流场和上一层预测图像帧生成当前层预测图像帧,
其中,与最后一层光流估计器对应的当前层预测图像帧被作为预测图像帧输出,且
其中,估计当前层光流场包括:
生成随机光流场概率分布;以及
从所述随机光流场概率分布产生确定的所述当前层光流场。
11.如权利要求10所述的装置,还包括:
训练单元,配置为对所述金字塔光流估计器进行训练。
12.如权利要求11所述的装置,其中,所述训练单元配置为:
使用光流场真值数据作为监督信号来训练所述金字塔光流估计器在已知图像帧下输出目标图像帧;或者
使用所述金字塔光流估计器中的所述至少两层光流估计器生成相应的预测图像帧,并且基于所述预测图像帧与目标预测帧之间的误差来调整所述至少两层光流估计器的参数;或者
使用所述金字塔光流估计器获得多个已知图像帧之间的后验光流场,然后再使用所述后验光流场作为监督信号来训练所述金字塔光流估计器在已知图像帧下输出目标图像帧。
13.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-9中的任一项所述的方法。
14.一种车辆,包括权利要求13所述的电子设备。
15.一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-9中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810744634.6A CN108881899B (zh) | 2018-07-09 | 2018-07-09 | 基于光流场金字塔的图像预测方法和装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810744634.6A CN108881899B (zh) | 2018-07-09 | 2018-07-09 | 基于光流场金字塔的图像预测方法和装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108881899A CN108881899A (zh) | 2018-11-23 |
CN108881899B true CN108881899B (zh) | 2020-03-10 |
Family
ID=64300164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810744634.6A Active CN108881899B (zh) | 2018-07-09 | 2018-07-09 | 基于光流场金字塔的图像预测方法和装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108881899B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626308B (zh) * | 2020-04-22 | 2023-04-18 | 上海交通大学 | 一种基于轻量卷积神经网络的实时光流估计方法 |
CN113160277A (zh) * | 2021-01-29 | 2021-07-23 | 北京小米松果电子有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934820A (zh) * | 2017-03-17 | 2017-07-07 | 南昌航空大学 | 基于引导滤波的图像序列金字塔分层光流计算方法 |
CN108022261A (zh) * | 2017-11-01 | 2018-05-11 | 天津大学 | 一种改进的光流场模型算法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8774499B2 (en) * | 2011-02-28 | 2014-07-08 | Seiko Epson Corporation | Embedded optical flow features |
US9681150B2 (en) * | 2014-06-13 | 2017-06-13 | Texas Instruments Incorporated | Optical flow determination using pyramidal block matching |
-
2018
- 2018-07-09 CN CN201810744634.6A patent/CN108881899B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934820A (zh) * | 2017-03-17 | 2017-07-07 | 南昌航空大学 | 基于引导滤波的图像序列金字塔分层光流计算方法 |
CN108022261A (zh) * | 2017-11-01 | 2018-05-11 | 天津大学 | 一种改进的光流场模型算法 |
Non-Patent Citations (1)
Title |
---|
OPTICAL FLOW ROBUST ESTIMATION IN A HYBRID MULTI-RESOLUTION MRF FRAMEWORK;C. Cassisa等;《2008 IEEE International Conference on Acoustics, Speech and Signal Processing》;20080512;第793-796页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108881899A (zh) | 2018-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11763466B2 (en) | Determining structure and motion in images using neural networks | |
JP7050888B2 (ja) | イメージ深度予測ニューラルネットワーク | |
US11200696B2 (en) | Method and apparatus for training 6D pose estimation network based on deep learning iterative matching | |
US11100646B2 (en) | Future semantic segmentation prediction using 3D structure | |
US11144782B2 (en) | Generating video frames using neural networks | |
KR20180065498A (ko) | 딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법 | |
CN109889849B (zh) | 视频生成方法、装置、介质及设备 | |
CN111739005B (zh) | 图像检测方法、装置、电子设备及存储介质 | |
WO2020061884A1 (en) | Composite binary decomposition network | |
WO2020088766A1 (en) | Methods for optical flow estimation | |
US11967150B2 (en) | Parallel video processing systems | |
CN108881899B (zh) | 基于光流场金字塔的图像预测方法和装置及电子设备 | |
JP2017068608A (ja) | 演算装置、方法及びプログラム | |
EP3563344A1 (en) | Agent navigation using visual inputs | |
CN115147683A (zh) | 位姿估计网络模型的训练方法、位姿估计方法及装置 | |
CN110751672B (zh) | 利用稀释卷积实现多尺度光流像素变换的方法和装置 | |
US20220215580A1 (en) | Unsupervised learning of object keypoint locations in images through temporal transport or spatio-temporal transport | |
CN110719487B (zh) | 视频预测方法和装置、电子设备及车辆 | |
CN110753239B (zh) | 视频预测方法、视频预测装置、电子设备和车辆 | |
CN114387197A (zh) | 一种双目图像处理方法、装置、设备和存储介质 | |
CN111508010B (zh) | 对二维图像进行深度估计的方法、装置及电子设备 | |
JP2020024612A (ja) | 画像処理装置、画像処理方法、処理装置、処理方法、及びプログラム | |
WO2023225340A1 (en) | Performing computer vision tasks using guiding code sequences | |
WO2023059737A1 (en) | Self-attention based neural networks for processing network inputs from multiple modalities | |
CN112801017A (zh) | 一种视觉场景描述方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |