CN111507906A

CN111507906A - 用用于容错及波动鲁棒性的神经网络除抖动的方法及装置

Info

Publication number: CN111507906A
Application number: CN202010020867.9A
Authority: CN
Inventors: 金桂贤; 金镕重; 金寅洙; 金鹤京; 南云铉; 夫硕焄; 成明哲; 吕东勋; 柳宇宙; 张泰雄; 郑景中; 诸泓模; 赵浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-31
Filing date: 2020-01-09
Publication date: 2020-08-07
Anticipated expiration: 2040-01-09
Also published as: JP6901803B2; KR102320999B1; EP3690811A1; KR20200095339A; JP2020126617A; CN111507906B; US10482584B1

Abstract

本申请涉及为了在极限状况的容错及波动鲁棒性而提供的，为了使用神经网络去除视频上的抖动而从由于晃动的摄像头而生成的视频检测抖动的方法，其特征在于包括：计算装置生成对应于第t图像内的各客体的各第t掩码的步骤；对各第t掩码、各第t剪切的图像、各第t‑1掩码及各第t‑1剪切的图像适用至少一次第二神经网络运算生成包含于第t图像的各客体像素的各第t客体运动向量的步骤；以及参照各第t客体运动向量生成对应于第t图像内的像素中各参考像素的各第t抖动向量的步骤。本发明可用于视频稳定化、超精密客体追踪、行动预测、运动分解等。

Description

用用于容错及波动鲁棒性的神经网络除抖动的方法及装置

技术领域

本发明涉及与自动行驶车辆一起利用的学习方法及学习装置，更具体来讲涉及为了使用至少一个神经网络(Neural Network)去除视频(Video)上的抖动(Jittering)，从由于晃动的摄像头而生成的所述视频检测抖动的学习方法及学习装置、以及利用其的测试方法及测试装置。

背景技术

深度卷积神经网络(Deep Convolution Neural Networks；Deep CNNs)是深度学习领域发生的惊人的发展核心。CNNs为了解决文字识别问题而自90年代以来开始使用，而像目前广泛使用是则多亏近来的研究结果。这种深度CNN在2012年ImageNet图像分类比赛打败其他竞争者获胜。自那以后卷积神经网络在机器学习(Machine Learning)领域成为了非常有用的工具。

CNN还广泛用于车辆的自动行驶领域，其主要执行分析通过附着于车辆的摄像头获取的图像检测障碍物，检测自由空间(Free Space)等功能使得车辆能够安全行驶。

然而，如上利用CNN使得车辆自动行驶的方法在特定状况下可能难以执行。即，CNN须使用通过摄像头得到的图像，由于摄像头晃动等问题导致图像严重晃动的情况下，视频的各帧发生图像显著改变的抖动(Jittering)现象。发生这种抖动现象的情况下CNN难以追踪图像上的客体的运动。尤其，这种抖动现象在常常越野行驶的军用车辆自动行驶的状况下经常发生，防止这种现象的方法非常重要。

用于防止这种抖动的现有技术有物理地测定摄像头的运动后利用其补正发生抖动的图像的方法，这种方法需要大量费用、摄像头模块的重量过大、使用多个装置，因此引起故障的危险性高。现有技术中有不同于以上所述物理性方法的软件性方法，但该方法也只考虑图像的客体的光流，因此具有补正发生抖动的图像的过程中导致图像发生很大失真的问题。

发明内容

技术问题

本发明的目的是解决上述问题。

本发明的另一目的是通过多个神经网络(Neural Network)补正发生抖动(Jittering)的图像使得即使摄像头晃动也能够获取合适的图像。

技术方案

为了达成如上所述的本发明的目的且实现下述本发明的特征性效果的本发明的特征性的构成如下所述。

根据本发明的一个方面，提供一种为了使用至少一个神经网络(Neural Network)去除视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述视频检测抖动的方法，其特征在于，包括：(a)获取到对应于所述视频的第t帧的第t图像时，计算装置使第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t图像内的各客体的第t掩码的步骤；(b)所述计算装置使第二神经网络对(i)各所述第t掩码、(ii)与其对应的作为所述第t图像的一部分的各第t剪切的(Cropped)图像、(iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量(Object Motion Vector)的步骤；以及(c)所述计算装置使抖动预测单元(Jittering Estimation Unit)参照各所述第t客体运动向量生成对应于所述第t图像内的像素中各参考像素(Reference Pixel)的各第t抖动向量(Jittering Vector)的步骤。

根据一个实施例，其特征在于，还包括：(d)所述计算装置使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第t图像的抖动的第t调整图像(Adjusted Image)的步骤。

根据一个实施例，其特征在于，还包括：(e)所述计算装置使学习单元(LearningUnit)参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii)优化之前的所述第t客体运动向量算出至少一个损失，并使得反向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的步骤。

根据一个实施例，其特征在于，在所述(c)步骤中，所述计算装置使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的各像素的各地点运动的程度的各第t光流向量(Optical Flow Vector)及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第t FPV向量生成所述第t抖动向量。

根据一个实施例，其特征在于，在所述(d)步骤中，所述计算装置使所述抖动预测单元算出最小化以下数学式的

以生成所述第t抖动向量，

表示所述第t抖动向量，

表示所述第t FPV向量，

表示所述第t客体运动向量，

表示第t-1FPV向量，

表示第t-1客体运动向量，λ_v及λ_o表示关于

及

的各加权值。

根据一个实施例，其特征在于，所述数学式使得对满足以下条件的项(Term)有效，

表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光流向量，

表示关于非所述参考像素的其余像素的第二的第t光流向量，

表示关于作为所述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第t客体运动向量，Σ符号下端的i，j∈NB(x，y)表示使用关于包括指定像素的网格内的所述参考像素中的一部分的信息，w_ij，xy表示关于所述网格内的所述指定像素的至少一个位置的各加权值。

根据一个实施例，其特征在于，所述计算装置使所述抖动预测单元算出最小化以下数学式的

表示所述第t抖动向量，

表示所述第t FPV向量，

表示所述第t客体运动向量，

表示关于第t-k图像的第t-k FPV向量，

表示关于所述第t-k图像的第t-k客体运动向量，w_k表示关于

及

的各加权值，K为指定常数。

根据一个实施例，其特征在于，在所述(b)步骤中，所述第二神经网络包括第2_1神经网络及第2_2神经网络，所述第2_1神经网络执行至少一次对各所述第t掩码、各所述第t剪切的图像、各所述第t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1神经网络运算生成至少一个中间特征地图(Intermediate FeatureMap)，所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容，对所述中间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第t客体运动向量。

根据一个实施例，其特征在于，所述第2_2神经网络使得(i)反映对关于第一图像至所述第t-1图像中至少一部分的值的分析，使用所述第2_1神经网络生成的所述第2_2神经网络的状态向量(State Vector)生成所述第t客体运动向量，(ii)更新所述状态向量。

根据一个实施例，其特征在于，所述参考像素是位于所述第t图像上的所述网格的网格单元(Grid Cell)的边界(Boundary)上的顶点。

根据一个实施例，其特征在于，在所述(a)步骤中，所述第一神经网络包括至少一个区域候网络(Region Proposal Network，RPN)、至少一个卷积层及至少一个池化层，所述RPN生成至少一个ROI时，所述第一神经网络利用双线性插值法(Bilinear Interpolation)从所述第t图像上选择对应于所述ROI的至少一个区域后，对其适用至少一次所述卷积层的运算生成所述第t掩码。

根据本发明的另一方面，提供一种为了使用至少一个神经网络(Neural Network)去除测试用视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述测试用视频去除所述抖动的测试方法，其特征在于，包括：(a)学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习用第t图像时，使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运算生成对应于所述学习用第t图像内的各学习用客体的学习用第t掩码，(2)使第二神经网络对(i)各所述学习用第t掩码、(ii)与其对应的作为所述学习用第t图像的一部分的各学习用第t剪切的(Cropped)图像、(iii)各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运动向量(Object Motion Vector)，(3)使抖动预测单元(Jittering Estimation Unit)参照各所述学习用第t客体运动向量生成对应于所述学习用第t图像内的像素中各学习用参考像素(Reference Pixel)的各学习用第t抖动向量(Jittering Vector)，(4)使学习单元参照(i)通过用于生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的所述学习用第t客体运动向量算出至少一个损失，并使得反向传播所述损失完成了所述第二神经网络的至少一个参数的至少一部分的学习的状态下，获取到对应于所述测试用视频的测试用第t帧的测试用第t图像时，测试装置使所述第一神经网络对所述测试用第t图像适用第一神经网络运算生成对应于所述测试用第t图像内的各测试用客体的各测试用第t掩码的步骤；(b)所述测试装置使所述第二神经网络对(i)各所述测试用第t掩码、(ii)与其对应的作为所述测试用第t图像的一部分的各测试用第t剪切的(Cropped)图像、(iii)各测试用第t-1掩码及(iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生成关于包含于所述测试用第t图像的对应于各所述测试用客体的各测试用客体像素的各测试用第t客体运动向量(Object Motion Vector)的步骤；以及(c)所述测试装置使所述抖动预测单元(Jittering Estimation Unit)参照各所述测试用第t客体运动向量生成对应于所述测试用第t图像内的像素中各测试用参考像素(Reference Pixel)的各测试用第t抖动向量(Jittering Vector)的步骤。

根据一个实施例，其特征在于，包括(d)所述计算装置使所述抖动预测单元参照所述测试用第t抖动向量生成缓解了所述测试用第t图像的抖动的测试用第t调整图像(Adjusted Image)的步骤。

根据本发明的又一方面，提供一种为了使用至少一个神经网络(Neural Network)去除视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述视频检测抖动的装置，其特征在于，包括：至少一个存储器，其存储指令；以及至少一个处理器，其构成为运行用于执行(I)获取到对应于所述视频的第t帧的第t图像时，使第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t图像内的各客体的第t掩码的过程，(II)使第二神经网络对(i)各所述第t掩码、(ii)与其对应的作为所述第t图像的一部分的各第t剪切的(Cropped)图像、(iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量(Object Motion Vector)的过程，以及(III)使抖动预测单元(Jittering Estimation Unit)参照各所述第t客体运动向量生成对应于所述第t图像内的像素中各参考像素(Reference Pixel)的各第t抖动向量(Jittering Vector)的过程的所述指令。

根据一个实施例，其特征在于，所述处理器还包括(IV)使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第t图像的抖动的第t调整图像(Adjusted Image)的过程。

根据一个实施例，其特征在于，所述处理器还包括(V)使学习单元(LearningUnit)参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii)优化之前的所述第t客体运动向量算出至少一个损失，并使得反向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的过程。

根据一个实施例，其特征在于，在所述(III)过程中，所述处理器使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的各像素的各地点运动的程度的各第t光流向量(Optical Flow Vector)及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第t FPV向量生成所述第t抖动向量。

根据一个实施例，其特征在于，在所述(IV)过程中，所述处理器使所述抖动预测单元算出最小化以下数学式的

以生成所述第t抖动向量，

表示所述第t抖动向量，

表示所述第t FPV向量，

表示所述第t客体运动向量，

表示第t-1FPV向量，

表示第t-1客体运动向量，λ_v及λ_o表示关于

及

的各加权值。

表示关于非所述参考像素的其余像素的第二的第t光流向量，

根据一个实施例，其特征在于，所述处理器使所述抖动预测单元算出最小化以下数学式的

表示所述第t抖动向量，

表示所述第t FPV向量，

表示所述第t客体运动向量，

表示关于第t-k图像的第t-k FPV向量，

表示关于所述第t-k图像的第t-k客体运动向量，w_k表示关于

及

的各加权值，K为指定常数。

根据一个实施例，其特征在于，在所述(II)过程中，所述第二神经网络包括第2_1神经网络及第2_2神经网络，所述第2_1神经网络执行至少一次对各所述第t掩码、各所述第t剪切的图像、各所述第t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1神经网络运算生成至少一个中间特征地图(Intermediate FeatureMap)，所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容，对所述中间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第t客体运动向量。

根据一个实施例，其特征在于，在所述(I)过程中，所述第一神经网络包括至少一个区域候网络(Region Proposal Network，RPN)、至少一个卷积层及至少一个池化层，所述RPN生成至少一个ROI时，所述第一神经网络利用双线性插值法(Bilinear Interpolation)从所述第t图像上选择对应于所述ROI的至少一个区域后，对其适用至少一次所述卷积层的运算生成所述第t掩码。

根据本发明的又一方面，提供一种为了使用至少一个神经网络(Neural Network)去除测试用视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述测试用视频去除所述抖动的测试装置，其特征在于，包括：至少一个存储器，其存储指令；以及至少一个处理器，其构成为在学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习用第t图像时，使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运算生成对应于所述学习用第t图像内的各学习用客体的学习用第t掩码，(2)使第二神经网络对(i)各所述学习用第t掩码、(ii)与其对应的作为所述学习用第t图像的一部分的各学习用第t剪切的(Cropped)图像、(iii)各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运动向量(Object Motion Vector)，(3)使抖动预测单元(Jittering Estimation Unit)参照各所述学习用第t客体运动向量生成对应于所述学习用第t图像内的像素中各学习用参考像素(Reference Pixel)的各学习用第t抖动向量(Jittering Vector)，(4)使学习单元参照(i)通过用于生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的所述学习用第t客体运动向量算出至少一个损失，并使得反向传播所述损失完成了所述第二神经网络的至少一个参数的至少一部分的学习的状态下，运行用于执行(I)获取到对应于所述测试用视频的测试用第t帧的测试用第t图像时，测试装置使所述第一神经网络对所述测试用第t图像适用第一神经网络运算生成对应于所述测试用第t图像内的各测试用客体的各测试用第t掩码的过程、(II)使所述第二神经网络对(i)各所述测试用第t掩码、(ii)与其对应的作为所述测试用第t图像的一部分的各测试用第t剪切的(Cropped)图像、(iii)各测试用第t-1掩码及(iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生成关于包含于所述测试用第t图像的对应于各所述测试用客体的各测试用客体像素的各测试用第t客体运动向量(ObjectMotion Vector)的过程、及(III)使所述抖动预测单元(Jittering Estimation Unit)参照各所述测试用第t客体运动向量生成对应于所述测试用第t图像内的像素中各测试用参考像素(Reference Pixel)的各测试用第t抖动向量(Jittering Vector)的过程的所述指令。

根据一个实施例，其特征在于：所述处理器包括(IV)使所述抖动预测单元参照所述测试用第t抖动向量生成缓解了所述测试用第t图像的抖动的测试用第t调整图像(Adjusted Image)的过程。

此外，还提供用于存储用于运行本发明的方法的计算机程序的计算机可读存储介质。

技术效果

本发明提供使用多个神经网络(Neural Network)补正从晃动的摄像头获取的发生抖动(Jittering)的图像的方法，因此具有即使摄像头晃动也能够获取合适的图像的效果。

本发明还具有在极限状况下提供容错(Fault Tolerance)及波动鲁棒性(Fluctuation Robustness)的多个神经网络的效果。

附图说明

为了用于说明本发明的实施例而所附的以下附图只是本发明的实施例中的一部分而已，本发明所属技术领域的一般技术人员(以下“普通技术人员”)在未经过创造性劳动的情况下可基于这些附图得到其他附图。

图1是简要示出执行本发明的一个实施例的使用多个神经网络(Neural Network)从视频上去除抖动(Jittering)的方法的计算装置的构成的示意图；

图2是简要示出本发明的一个实施例的学习使用多个神经网络从视频上去除抖动的方法的过程的示意图；

图3是简要示出执行本发明的一个实施例的使用多个神经网络从视频上去除抖动的方法的第二神经网络的例示性结构的示意图；

图4是简要示出为了执行本发明的一个实施例的使用多个神经网络从视频上去除抖动的方法而建模第t图像上的非参考像素(Reference Pixel)的特定像素的光流向量(Optical Flow Vector)的例示的示意图。

具体实施方式

以下参见例示能够实施本发明的特定实施例的附图对本发明进行详细说明。通过详细说明这些实施例使得本领域普通技术人员足以实施本发明。应理解虽然本发明的多种实施例彼此互异，但不必相互排他。例如，此处记载的特定形状、结构及特性在关于一个实施例不超出本发明的精神及范围的前提下可以以其他实施例实现。并且，在不超出本发明的精神及范围的前提下公开的各实施例内的个别构成要素的位置或配置是可以变更的。因此以下具体说明并非以限定为目的，确切来讲，本发明的范围仅限于权利要求所记载的范围及与之等同的所有范围。在附图中类似的附图标记在各方面表示相同或类似的功能。

本发明所述的各种图像可包括铺装或非铺装道路相关图像，该情况下可想到道路环境中可能出现的物体(例如，汽车、人、动物、植物、物件、建筑物、飞机或无人机之类的飞行器、其他障碍物)，但并不局限于此，本发明所述的各种图像还可以是与道路无关的图像(例如，非铺装道路、胡同、空地、大海、湖泊、河流、山川、草地、沙漠、天空、室内相关的图像)，该情况下，可想到非铺装道路、胡同、空地、大海、湖泊、河流、山川、草地、沙漠、天空、室内环境中可能出现的物体(例如，汽车、人、动物、植物、物件、建筑物、飞机或无人机之类的飞行器、其他障碍物)，但并不局限于此。

以下，为了使得本发明所属技术领域的普通技术人员能够轻易地实施本发明，参见附图对本发明的优选实施例进行具体说明。

图1是简要示出执行本发明的一个实施例的使用多个神经网络(Neural Network)从视频上去除抖动(Jittering)的方法的计算装置的构成的示意图。

参见图1，计算装置100可包括以下要具体说明的构成要素即第一神经网络130、第二神经网络140、抖动预测单元(Jittering Estimation Unit)150及学习单元160。第一神经网络130、第二神经网络140、抖动预测单元150及学习单元160的输入输出及运算过程可分别通过通信部110及处理器120实现。但图1省略了通信部110及处理器120之间的具体连接关系。在此，存储器115可以是存储有下述多种指令的状态，处理器120被设定成运行存储于存储器115的指令，处理器120可通过执行以下要说明的过程执行本发明。尽管如上说明了计算装置100，但并不排除计算装置100具有包括用于实施本发明的处理器、存储器、介质或其他计算装置的所有组合的集成处理器(Integrated Processor)的情况。

如以上对计算装置100的整体构成进行了说明，以下对计算装置100执行的使用多个神经网络从视频上去除抖动的方法进行说明。

图2是关于本发明的一个实施例的学习使用多个神经网络从视频上去除抖动的方法的过程的示意图。

参见图2，可通过第一神经网络130、第二神经网络140及抖动预测单元150依次执行运算。学习单元160可以利用运算结果生成至少一个损失后反向传播该损失学习第二神经网络140的至少一个参数的至少一部分。

具体来讲，首先，计算装置100可获取或支持其他装置获取第t图像。第t图像可以是从晃动的摄像头获取的影像，即，视频发生抖动时该视频的第t个帧。另外，本发明的一个实施例的方法适用于摄像头晃动而发生抖动的情况，晃动的摄像头的效果从视频的第一帧以后开始发生，因此在此声明在以下具体说明中假设了t为2以上。获取的所述第t图像首先输入到第一神经网络130。计算装置100可以使第一神经网络130对第t图像适用至少一次第一神经网络运算生成对应于第t图像内的各客体的各第t掩码。

第t掩码可以是通过第一神经网络130对第t图像适用客体检测及图像分割的结果。具体来讲，第一神经网络130可包括至少一个RPN(Region Proposal Network，区域候选网络)、至少一个卷积层及至少一个池化层。在此，RPN生成至少一个ROI(感兴趣区域)的情况下，第一神经网络可通过双线性插值法(Bilinear Interpolation)从第t图像上选择对应于ROI的至少一个区域后，对所述至少一个区域适用至少一次卷积层运算生成第t掩码。因此，各第t掩码可以是包括第t图像上的各客体的边界框(Bounding Box)，各第t掩码可具有相当于客体的像素用1表示，不相当于客体的像素用0表示的结构。

在此，作为例示，第一神经网络130可具有与已知的掩码R-CNN(Mask R-CNN)类似的结构。并且，第一神经网络130可以在执行学习本发明的一个实施例的方法的过程之前已经学习了如上所述的生成第t掩码的方法。

之后，计算装置100使第二神经网络140获取(i)各第t掩码、(ii)与其对应的作为第t图像的一部分的各第t剪切的(Cropped)图像、(iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像，(iii)及(iv)可以是对应于作为第t帧的上一帧的第t-1帧的第t-1图像。第t剪切的图像可以是对应于第t图像的一部分的图像，所述一部分对应于第t掩码。并且，第t-1掩码及第t-1剪切的图像可以是第二神经网络140对第t-1图像进行处理时生成的。

获取到各第t掩码、各第t剪切的图像、各第t-1掩码及各第t-1剪切的图像的情况下，计算装置100可以使第二神经网络140对各第t掩码、各第t剪切的图像、各第t-1掩码及各第t-1剪切的图像适用至少一次第二神经网络运算使得生成第t客体运动向量。

各第t客体运动向量是表示在拍摄了第t-1图像的时间点与拍摄了所述第t图像的时间点之间各客体运动的程度的向量。即，存在对应于第t-1特定掩码及特定第t掩码的特定客体的情况下，第二神经网络140可以(i)获取比较了对应于特定客体的特定客体像素的第t-1特定掩码上的位置与在特定第t掩码的位置的位置比较信息(ComparisonInformation)，(ii)比较第t-1特定剪切的图像与特定第t剪切的图像获取关于背景的变化的变化信息(Change Information)后，(iii)参照位置比较信息及变化信息生成表示特定客体在拍摄了第t-1图像的时间点与拍摄了所述第t图像的时间点之间运动的程度的特定第t客体运动向量。

在此，第二神经网络140可具有单一的CNN的结构，通过该结构执行的第二神经网络运算可包括至少一个卷积运算及附加于其的运算。但这是用于更有效地用少量的资源而却得到更好的结果的结构，第二神经网络140可包括第2_1神经网络及第2_2神经网络。为了对此进行说明而参见图3。

图3是简要示出执行本发明的一个实施例的使用多个神经网络从视频上去除抖动的方法的第二神经网络的例示性结构的示意图。

参见图3可知，第2_1神经网络141与第2_2神经网络142依次执行运算生成第t抖动向量。

具体来讲，第2_1神经网络141可具有CNN的结构，其可对各第t掩码、各第t剪切的图像、各第t-1掩码及各第t-1剪切的图像适用至少一次包括卷积运算的第2_1神经网络运算，生成包括关于输入的值的分析信息的至少一个中间特征地图(Intermediate FeatureMap)。之后，具有RNN结构的第2_2神经网络142可获取中间特征地图，可通过其参照关于输入的值的分析信息对中间特征地图适用第2_2神经网络运算生成第t客体运动向量。所述分析结果包括对获取到第t图像之前输入到第2_2神经网络的值的分析结果。该过程可参照每当执行了第2_2神经网络运算的情况下第2_2神经网络142处理输入到自身的值时更新的状态向量(State Vector)通过第2_2神经网络142实现。

之后，计算装置100可使抖动预测单元150参照第t客体运动向量生成第t抖动向量。在该过程中可算出用于学习第二神经网络140的至少一部分参数的损失，以下对各过程进行说明。

具体来讲，计算装置100可以使抖动预测单元150参照第t客体运动向量生成对应于包含在第t图像的像素中参考像素(Reference Pixel)的第t抖动向量。参考像素是指位于第t图像上生成的网格的至少一个网格单元(Grid Cell)的边界(Boundary)上的顶点。实质上，若对第t图像内的所有像素计算抖动程度，其运算量过大，这在实时性非常重要的自动行驶方面可引发延迟，可使用分割第t图像的网格且计算作为网格单元的顶点的像素的抖动生成关于第t图像的第t抖动向量。即，第t抖动向量是指追踪了能够代表第t图像内的各像素的参考像素的抖动的结果，成为表示摄像头的抖动的振幅与方向的指标。

为了生成第t抖动向量，计算装置100使抖动预测单元150进一步地参照第t光流向量及第t FPV向量对第t客体运动向量进行优化的过程，以下对此进行具体说明。

首先，(i)各第t光流向量表示对应于第t图像内的各像素的各地点在拍摄了第t-1图像的时间点与拍摄了第t图像的时间点之间运动的程度，(ii)各第t FPV向量可表示在摄像头拍摄了第t-1图像的时间点与拍摄了第t图像的时间点之间各地点在三维上运动的程度。在此，第t光流向量不同于所述的其他向量，不是推定的，而是通过卢卡斯-卡纳德方法(Lucas-Kanade Method)比较第t-1图像及第t图像并适用以准确地算出的。即，这是并不随以下要说明的优化过程变化的常数。并且，第t抖动向量、第t FPV向量仅对参考像素算出，可以设定第t图像上非被判别为对应于客体的客体像素的像素的第t客体运动向量为0。

为了优化过程，假设第t光流向量、第t FPV向量、第t客体运动向量、第t抖动向量之间存在如以下两个数学式所示的关系。

所述数学式基本表示测定的第t光流向量由第t FPV向量、第t客体运动向量、第t抖动向量之和构成这一假设。具体来讲，第一个左侧数学式的项(Term)中，

表示关于参考像素的第一的第t光流向量，

表示客体像素及作为参考像素的特定像素的第t客体运动向量，

表示第t FPV向量，

表示第t抖动向量。

参考像素的第一的第t光流向量如第一个数学式建模成其余向量的和(Sum)，反面，并非参考像素的像素的第二的第t光流向量建模成关于周边参考像素的第t FPV向量及第t抖动向量的加权和(Weighted Sum)。

表示关于非参考像素的其余像素的第t光流向量，

表示非参考像素的其余像素的第t客体运动向量，Σ符号表示构成网格的关于参考像素中部分参考像素的第t FPV向量及第t抖动向量的加权和。为了对此具体说明而参照图4。

图4是简要示出为了执行本发明的一个实施例使用多个神经网络从视频去除抖动的方法而建模第t图像上的非参考像素的特定像素的光流向量的示意图。

若以图4为例对所述说明进行补充说明，对应于人客体的手臂部分的特定像素的第t光流向量151建模成由第t客体运动向量152、关于特定像素周边的参考像素的第t FPV向量153_1、153_2、153_3、153_4及关于特定像素周边的参考像素的第t抖动向量154_1、154_2、154_3、154_4构成。在此，关于反映多少各第t FPV向量153_1、153_2、153_3、153_4及各第t抖动向量154_1、154_2、154_3、154_4，可根据所述数学式的Σ符号内的加权值w_ij，xy确定。作为例示，可根据特定像素与各参考像素之间的距离确定所述加权值。

在上述假设下，除第t光流向量以外的其余向量可通过如下数学式优化。

即，在上述假设下，找出最小化所述数学式的

以优化第t客体运动向量，生成第t FPV向量、第t抖动向量。是第t客体运动向量的情况下，可以以通过第二神经网络140生成的第t客体运动向量为基准，利用所述式进行调整的方式优化。

在所述数学式中，

表示第t-1FPV向量，

表示第t-1客体运动向量，λ_v及λ_o表示关于

及

的各加权值。在此，

防止明显解(Trivial Solution)，能够最大化关于非抖动的运动的向量的信息的量。其余项起到防止第t FPV向量及第t客体运动向量相比于各第t-1FPV向量及第t-1客体运动向量非现实地很大的作用。这是因为非抖动的运动(Motion)具有在一个帧单位的短时间内并不大幅变化的特性。

作为另一例，以下说明根据其他数学式经过优化过程的实施例。

原来的数学式与所述数学式的区别在于原来的数学式利用了参照对应于第t帧之前的帧的第t-1图像生成的信息，而新实施例的所述其他数学式利用参照对应于第t帧之前的K个帧的图像生成的信息。

表示关于第t-k图像的第t-k FPV向量，

表示关于第t-k图像的第t-k客体运动向量，所述新数学式能够起到如之前说明的作用。w_k可表示关于

及

的加权值，作为例示，可用

之类的数学式表示。使用这种过程的情况下运算量增大，但能够更准确地优化第t客体运动向量，能够生成第t FPV向量及第t抖动向量。

为了如上生成缓解了第t图像的抖动的第t调整图像而可以参照第t抖动向量。作为例示，可以将各参考像素的各位置移动成和与各自对应的第t抖动向量具有相同的振幅但方向相反，然后与之相符地调整包含于网格内部的各图像以缓解抖动生成第t调整图像。

以上对优化过程进行了说明，以下说明利用优化过程中能够算出的损失学习第二神经网络140的过程。

在优化过程中，如上所述，第t客体运动向量在生成第t FPV向量、第t抖动向量的同时被优化。此时，学习单元160可以(i)从抖动预测单元150获取优化的第t客体运动向量，(ii)从第二神经网络140获取优化之前的第t客体运动向量后，(iii)生成彼此对应的优化之前与优化之后各第t客体运动向量的差异信息(Difference Information)，(iv)参照所述差异信息生成损失。之后，可反向传播该损失学习第二神经网络140。第一神经网络130可以是如上已经学习的状态，抖动预测单元150使用预先设定的数学式，因此没有可学习的。

已对本发明的一个实施例的学习方法进行了说明，以下对测试本发明的方法进行说明。

作为参考，为了防止在以下说明中发生混淆，对与学习过程相关的术语添加术语“学习用”，对与测试过程相关的术语添加术语“测试用”。

在学习装置结束了(1)获取到相当于学习用视频上的学习用第t帧的学习用第t图像的情况下，可以使第一神经网络130对学习用第t图像适用至少一次第一神经网络运算以生成对应于学习用第t图像内的各学习用客体的各学习用第t掩码，(2)使第二神经网络140对(i)各学习用第t掩码、(ii)与其对应的作为学习用第t图像的一部分的各学习用第t剪切的(Cropped)图像、(iii)各学习用第t-1掩码及(iv)在与其对应的学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于学习用第t图像的对应于各学习用客体的学习用客体像素的各学习用第t客体运动向量(ObjectMotion Vector)，(3)使抖动预测单元150参照各学习用第t客体运动向量生成对应于学习用第t图像内的像素中各学习用参考像素(Reference Pixel)的各学习用第t抖动向量(Jittering Vector)，(4)使学习单元160参照(i)通过用于生成学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的学习用第t客体运动向量算出至少一个损失，反向传播损失学习第二神经网络140的至少一个参数的至少一部分的过程的状态下，获取到相当于测试用视频的测试用第t帧的测试用第t图像的状态下，测试装置可以使第一神经网络对测试用第t图像适用第一神经网络运算生成对应于测试用第t图像内的各测试用客体的各测试用第t掩码。

之后测试装置可以使第二神经网络对(i)各测试用第t掩码、(ii)与其对应的作为测试用第t图像的一部分的各测试用第t剪切的(Cropped)图像、(iii)各测试用第t-1掩码及(iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生成关于包含于测试用第t图像的对应于各测试用客体的各测试用客体像素的各测试用第t客体运动向量(Object Motion Vector)。

并且测试装置可以使抖动预测单元(Jittering Estimation Unit)参照测试用第t客体运动向量生成对应于测试用第t图像内的像素中各测试用参考像素(ReferencePixel)的各测试用第t抖动向量(Jittering Vector)。

并且，测试装置可以使所述抖动预测单元参照测试用第t抖动向量生成缓解了测试用第t图像的抖动的测试用第t调整图像(Adjusted Image)。

根据如上本发明的一个实施例使用多个神经网络执行补正从晃动的摄像头获取的发生抖动的图像的方法，因此即使摄像头晃动也能够对此补正以从该摄像头获取合适的图像。

并且，本发明的一个实施例的方法可用于影像稳定化、超精密客体追踪、行动预测、运动(Motion)分解。

本发明所属技术领域的普通技术人员能够理解，以上说明的图像、例如原始图像、原始标签及附加标签之类的图像数据的收发可通过学习装置及测试装置的通信部实现，用于与特征图执行运算的数据可通过学习装置及测试装置的处理器(及/或存储器)存储/维护，卷积运算、去卷积运算、损失值运算过程主要可以通过学习装置及测试装置的处理器执行，但本发明不限于此。

以上说明的本发明的实施例可实现为能够通过多种计算机构成要素执行的程序命令的形态存储在计算机可读存储介质中。所述计算机可读存储介质可包括程序指令、数据文件、数据结构等或其组合。存储在所述计算机可读存储介质中的程序指令可以是为本发明而专门设计和构成的，但也可以是计算机软件领域的技术人员公知使用的。计算机可读存储介质例如可以是硬盘、软盘及磁带之类的磁介质、CD-ROM、DVD之类的光存储介质、软光盘(floptical disk)之类的磁-光介质(magneto-optical media)及ROM、RAM、闪速存储器等为了存储和执行程序命令而专门构成的硬件装置。并且，程序命令不仅包括通过编译器得到的机器代码，还包括能够通过解释器由计算机运行的高级语言代码。所述硬件装置可构成为为了执行本发明的处理而作为一个以上的软件模块工作，反之相同。

以上通过具体构成要素等特定事项与限定的实施例及附图对本发明进行了说明，但是其目的只是用于帮助更全面的理解，本发明并不限定于上述实施例，本发明所属领域的普通技术人员可根据以上记载想到多种修改及变更。

因此本发明的思想不应局限于以上说明的实施例，应理解所述权利要求范围及与该权利要求范围等同或等价变形的所有一切都属于本发明思想的范畴。

Claims

1.一种方法，是为了使用至少一个神经网络去除视频上的抖动而从由于晃动的摄像头而生成的所述视频检测抖动的方法，其特征在于，包括：

(a)获取到对应于所述视频的第t帧的第t图像时，计算装置使第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t图像内的各客体的第t掩码的步骤；

(b)所述计算装置使第二神经网络对(i)各所述第t掩码、(ii)与其对应的作为所述第t图像的一部分的各第t剪切的图像、(iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量的步骤；以及

(c)所述计算装置使抖动预测单元参照各所述第t客体运动向量生成对应于所述第t图像内的像素中各参考像素的各第t抖动向量的步骤。

2.根据权利要求1所述的方法，其特征在于，还包括：

(d)所述计算装置使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第t图像的抖动的第t调整图像的步骤。

3.根据权利要求1所述的方法，其特征在于，还包括：

(e)所述计算装置使学习单元参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii)优化之前的所述第t客体运动向量算出至少一个损失，并使得反向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的步骤。

4.根据权利要求1所述的方法，其特征在于，在所述(c)步骤中，

所述计算装置使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的各像素的各地点运动的程度的各第t光流向量及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第t FPV向量生成所述第t抖动向量。

5.根据权利要求2所述的方法，其特征在于：

在所述(d)步骤中，所述计算装置使所述抖动预测单元算出最小化以下数学式的

以生成所述第t抖动向量，

表示所述第t抖动向量，

表示所述第t FPV向量，

表示所述第t客体运动向量，

表示第t-1FPV向量，

表示第t-1客体运动向量，λ_v及λ₀表示关于

及

的各加权值。

6.根据权利要求5所述的方法，其特征在于：

所述数学式使得对满足以下条件的项有效，

表示关于非所述参考像素的其余像素的第二的第t光流向量，

7.根据权利要求4所述的方法，其特征在于：

所述计算装置使所述抖动预测单元算出最小化以下数学式的

表示所述第t抖动向量，

表示所述第t FPV向量，

表示所述第t客体运动向量，

表示关于第t-k图像的第t-k FPV向量，

表示关于所述第t-k图像的第t-k客体运动向量，w_k表示关于

及

的各加权值，K为指定常数。

8.根据权利要求1所述的方法，其特征在于：

在所述(b)步骤中，所述第二神经网络包括第2_1神经网络及第2_2神经网络，

所述第2_1神经网络执行至少一次对各所述第t掩码、各所述第t剪切的图像、各所述第t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1神经网络运算生成至少一个中间特征地图，

所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容，对所述中间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第t客体运动向量。

9.根据权利要求8所述的方法，其特征在于：

所述第2_2神经网络使得(i)反映对关于第一图像至所述第t-1图像中至少一部分的值的分析，使用所述第2_1神经网络生成的所述第2_2神经网络的状态向量生成所述第t客体运动向量，(ii)更新所述状态向量。

10.根据权利要求1所述的方法，其特征在于：

所述参考像素是位于所述第t图像上的所述网格的网格单元的边界上的顶点。

11.根据权利要求1所述的方法，其特征在于：

在所述(a)步骤中，

所述第一神经网络包括至少一个RPN、至少一个卷积层及至少一个池化层，

所述RPN生成至少一个ROI时，所述第一神经网络利用双线性插值法从所述第t图像上选择对应于所述ROI的至少一个区域后，对其适用至少一次所述卷积层的运算生成所述第t掩码。

12.一种方法，是为了使用至少一个神经网络去除测试用视频上的抖动而从由于晃动的摄像头而生成的所述测试用视频去除所述抖动的测试方法，其特征在于，包括：

(a)学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习用第t图像时，使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运算生成对应于所述学习用第t图像内的各学习用客体的学习用第t掩码，(2)使第二神经网络对(i)各所述学习用第t掩码、(ii)与其对应的作为所述学习用第t图像的一部分的各学习用第t剪切的图像、(iii)各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运动向量，(3)使抖动预测单元参照各所述学习用第t客体运动向量生成对应于所述学习用第t图像内的像素中各学习用参考像素的各学习用第t抖动向量，(4)使学习单元参照(i)通过用于生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的所述学习用第t客体运动向量算出至少一个损失，并使得反向传播所述损失完成了所述第二神经网络的至少一个参数的至少一部分的学习的状态下，获取到对应于所述测试用视频的测试用第t帧的测试用第t图像时，测试装置使所述第一神经网络对所述测试用第t图像适用第一神经网络运算生成对应于所述测试用第t图像内的各测试用客体的各测试用第t掩码的步骤；

(b)所述测试装置使所述第二神经网络对(i)各所述测试用第t掩码、(ii)与其对应的作为所述测试用第t图像的一部分的各测试用第t剪切的图像、(iii)各测试用第t-1掩码及(iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生成关于包含于所述测试用第t图像的对应于各所述测试用客体的各测试用客体像素的各测试用第t客体运动向量的步骤；以及

(c)所述测试装置使所述抖动预测单元参照各所述测试用第t客体运动向量生成对应于所述测试用第t图像内的像素中各测试用参考像素的各测试用第t抖动向量的步骤。

13.根据权利要求12所述的方法，其特征在于，包括：

(d)所述计算装置使所述抖动预测单元参照所述测试用第t抖动向量生成缓解了所述测试用第t图像的抖动的测试用第t调整图像的步骤。

14.一种装置，是为了使用至少一个神经网络去除视频上的抖动而从由于晃动的摄像头而生成的所述视频检测抖动的计算装置，其特征在于，包括：

至少一个存储器，其存储指令；以及

至少一个处理器，其构成为运行用于执行(I)获取到对应于所述视频的第t帧的第t图像时，使第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t图像内的各客体的第t掩码的过程，(II)使第二神经网络对(i)各所述第t掩码、(ii)与其对应的作为所述第t图像的一部分的各第t剪切的图像、(iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量的过程，以及(III)使抖动预测单元参照各所述第t客体运动向量生成对应于所述第t图像内的像素中各参考像素的各第t抖动向量的过程的所述指令。

15.根据权利要求14所述的装置，其特征在于：

所述处理器还包括(IV)使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第t图像的抖动的第t调整图像的过程。

16.根据权利要求14所述的装置，其特征在于：

所述处理器还包括(V)使学习单元参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii)优化之前的所述第t客体运动向量算出至少一个损失，并使得反向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的过程。

17.根据权利要求14所述的装置，其特征在于：

在所述(III)过程中，所述处理器使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的各像素的各地点运动的程度的各第t光流向量及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第tFPV向量生成所述第t抖动向量。

18.根据权利要求15所述的装置，其特征在于：

在所述(IV)过程中，所述处理器使所述抖动预测单元算出最小化以下数学式的

以生成所述第t抖动向量，

表示所述第t抖动向量，

表示所述第t FPV向量，

表示所述第t客体运动向量，

表示第t-1 FPV向量，

表示第t-1客体运动向量，λ_v及λ_o表示关于

及

的各加权值。

19.根据权利要求18所述的装置，其特征在于：

所述数学式使得对满足以下条件的项有效，

表示关于非所述参考像素的其余像素的第二的第t光流向量，

表示关于作为所述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第t客体运动向量，∑符号下端的i，j∈NB(x，y)表示使用关于包括指定像素的网格内的所述参考像素中的一部分的信息，w_ij，xy表示关于所述网格内的所述指定像素的至少一个位置的各加权值。

20.根据权利要求17所述的装置，其特征在于：

所述处理器使所述抖动预测单元算出最小化以下数学式的

表示所述第t抖动向量，

表示所述第t FPV向量，

表示所述第t客体运动向量，

表示关于第t-k图像的第t-k FPV向量，

表示关于所述第t-k图像的第t-k客体运动向量，w_k表示关于

及

的各加权值，K为指定常数。

21.根据权利要求14所述的装置，其特征在于：

在所述(II)过程中，

所述第二神经网络包括第2_1神经网络及第2_2神经网络，

22.根据权利要求21所述的装置，其特征在于：

23.根据权利要求14所述的装置，其特征在于：

24.根据权利要求14所述的装置，其特征在于：

在所述(I)过程中，

25.一种装置，是为了使用至少一个神经网络去除测试用视频(Video)上的抖动而从由于晃动的摄像头而生成的所述测试用视频去除所述抖动的测试装置，其特征在于，包括：

至少一个存储器，其存储指令；以及

至少一个处理器，其构成为在学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习用第t图像时，使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运算生成对应于所述学习用第t图像内的各学习用客体的学习用第t掩码，(2)使第二神经网络对(i)各所述学习用第t掩码、(ii)与其对应的作为所述学习用第t图像的一部分的各学习用第t剪切的图像、(iii)各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运动向量，(3)使抖动预测单元参照各所述学习用第t客体运动向量生成对应于所述学习用第t图像内的像素中各学习用参考像素的各学习用第t抖动向量，(4)使学习单元参照(i)通过用于生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的所述学习用第t客体运动向量算出至少一个损失，并使得反向传播所述损失完成了所述第二神经网络的至少一个参数的至少一部分的学习的状态下，运行用于执行(I)获取到对应于所述测试用视频的测试用第t帧的测试用第t图像时，测试装置使所述第一神经网络对所述测试用第t图像适用第一神经网络运算生成对应于所述测试用第t图像内的各测试用客体的各测试用第t掩码的过程、(II)使所述第二神经网络对(i)各所述测试用第t掩码、(ii)与其对应的作为所述测试用第t图像的一部分的各测试用第t剪切的图像、(iii)各测试用第t-1掩码及(iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生成关于包含于所述测试用第t图像的对应于各所述测试用客体的各测试用客体像素的各测试用第t客体运动向量的过程、及(III)使所述抖动预测单元参照各所述测试用第t客体运动向量生成对应于所述测试用第t图像内的像素中各测试用参考像素的各测试用第t抖动向量的过程的所述指令。

26.根据权利要求25所述的装置，其特征在于：

所述处理器包括(IV)使所述抖动预测单元参照所述测试用第t抖动向量生成缓解了所述测试用第t图像的抖动的测试用第t调整图像的过程。