CN115702437A

CN115702437A - 信号处理装置及信号处理方法

Info

Publication number: CN115702437A
Application number: CN202180039976.8A
Authority: CN
Inventors: 新井洋; 大塚由里子; 西健一郎; 益浦健; 冲山纪光; 松井佑史; 高岛敏
Original assignee: Sony Semiconductor Solutions Corp
Current assignee: Sony Semiconductor Solutions Corp
Priority date: 2020-06-09
Filing date: 2021-04-20
Publication date: 2023-02-14
Also published as: JPWO2021251005A1; US20230308759A1; WO2021251005A1; US11974042B2

Abstract

根据本技术的信号处理装置，包括：近似曲面转换单元，包括第一堆叠式自动编码器，第一堆叠式自动编码器使用由针对对象的多个元素中的每个元素的坐标数据作为学习用输入数据而被预训练，近似曲面转换单元被配置为使用每个元素的坐标数据作为输入数据，在第一堆叠式自动编码器的中间层中获得指示对象的近似曲面转换的近似曲面数据；以及几何调制处理单元，包括第二堆叠式自动编码器，第二堆叠式自动编码器已经使用由近似曲面数据作为的学习用输入数据和使用由在针对对象执行的几何调制处理中针对每个元素的坐标转换所获得的结果构成的训练数据，进行机器学习，并且几何调制处理单元通过使用第二堆叠式自动编码器来执行针对近似曲面数据的几何调制处理。

Description

信号处理装置及信号处理方法

技术领域

本技术涉及信号处理装置和用于该装置的方法，并且更具体地，涉及用于对在空间中限定的对象执行几何调制处理的技术。

背景技术

例如，对于一些领域中(诸如图像处理)在空间中限定的对象，执行几何调制处理(诸如变形、移动和旋转)。例如，该对象由多个多边形作为组成元素构成，诸如多边形数据。在这种情况下，通常对物体执行的几何调制处理是针对各多边形的坐标数据的坐标转换处理。

另外，下述的专利文献1是一个相关联的现有技术。

[引用列表]

[专利文献]

[PTL1]

JP 2014-66995A。

发明内容

[技术问题]

这里注意，在采用坐标转换处理以实现对由如上所述的多个元素构成的对象执行的几何调制处理的情况下，需要对于每个元素进行坐标转换。在这种情况下，几何调制处理的计算成本趋于增加。

考虑到上述情况，开发了本技术。本技术的目的是降低与对对象执行的几何调制处理相关联的计算成本。

[问题的解决方案]

根据本技术的信号处理装置包括：近似曲面转换单元，其包括第一堆叠式自动编码器，所述第一堆叠式自动编码器基于学习用输入数据被预处理，所述学习用输入数据由针对对象的多个元素中的每个元素获取的坐标数据构成，并且所述第一堆叠式自动编码器基于由针对每个元素获取的坐标数据构成的输入数据在所述第一堆叠式自动编码器的中间层中获得指示所述对象的近似曲面的近似曲面数据；以及几何调制处理单元，其包括第二堆叠式自动编码器，所述第二堆叠式自动编码器已经基于学习输入数据和训练数据通过机器学习而学习，所述学习输入数据由所述近似曲面数据构成，所述训练数据由针对每个所述元素的坐标转换来进行针对所述对象执行的几何调制处理所获得的结果构成，并且几何调制处理单元通过使用所述第二堆叠式自动编码器来针对所述近似曲面数据执行几何调制处理。

几何调制处理是指用于改变对象的形状、位置、姿势和大小中的至少任意一个的处理。在这种情况下，姿势的改变是例如旋转等。

根据上述配置，针对近似曲面数据执行对象的诸如变形、移动和旋转的几何调制处理，近似曲面数据是通过使用第一堆叠式自动编码器对每个元素的坐标数据进行维度压缩而获得的数据。

根据本技术的上述信号处理装置可被配置为使得，作为用于由成像装置捕获的捕获图像的稳定化处理，使用格点网格执行稳定处理，格点网格包括在捕获图像的输出坐标系统中在水平方向和垂直方向中的每个方向上布置的多个格点并且为每个格点提供与成像装置关联的运动信息，并且使得对象是格点网格。

在该配置中，针对格点网格的近似曲面数据执行通过使用格点网格的稳定化处理对格点网格执行的诸如变形和旋转的几何调制处理。

如上所述的根据本技术的信号处理装置可以具有如下配置：还包括格点网格段矩阵转换单元，所述格点网格段矩阵转换单元包括第三堆叠式自动编码器，所述第三堆叠式自动编码器将通过段搜索处理所获得的结果所构成的训练数据、以及将由经过几何调制处理的近似曲面数据作为学习用输入数据进行机器学习，段搜索处理用于识别通过以段为单位对所述稳定性处理的输出图像的图像帧进行分割而形成的段矩阵中的各段位于已经经过所述几何调制处理的所述格点网的各网格中的哪个网格内，并且所述格点网段矩阵转换单元将已经经过所述几何调制处理的所述近似曲面数据作为输入数据，在所述第三堆叠式自动编码器的中间层中获得表示每个段与格点网的每个网格之间的对应关系的近似曲面数据。

根据该结构，能够根据由格点网格的近似曲面数据构成的输入，得到表示各段和格点网中的每个网格之间的对应关系的近似曲面数据(通过从格点网向段矩阵的域变换而生成的近似曲面数据)。也就是说，当要获得与段搜索结果相对应的近似曲面数据时，可以消除执行相对繁重的处理以产生与段矩阵相对应的近似曲面数据的需要。

如上所述的根据本技术的信号处理装置可以具有如下配置：还包括网格重划分近似曲面数据生成单元，该网格重划分近似曲面数据生成单元包括第四堆叠式自动编码器，该第四堆叠式自动编码器将由网格重划分数据生成单元获得的网格重划分数据作为训练数据，且将经过所述几何调制处理的所述近似曲面数据和由所述格点网段矩阵转换单元获得的近似曲面数据作为学习用输入数据来进行机器学习，所述网格重划分数据生成单元基于所述段搜索处理的结果和与各格点相关联的所述运动信息生成所述网格重划分数据，所述网格重划分数据指示所述段的粒度的所述运动信息，并且所述网格重划分近似曲面数据生成单元将由经过所述几何调制处理的所述近似曲面数据、由所述格点网段矩阵转换单元获得的近似曲面数据、和与各格点相关联的所述运动信息作为输入数据，在所述第四堆叠式自动编码器的中间层中获得所述网格重划分数据的近似曲面数据。

在该结构中，来自格点网格的几何调制处理以重划分数据生成的每一过程可通过每一处理近似曲面数据的处理来一致地实现。

根据上述本技术的信号处理装置可以具有配置，该配置进一步包括运动信息解码单元，包括第五堆叠式自动编码器，所述第五堆叠式自动编码器将由各像素运动信息计算单元获得的在输出图像的图像帧内每个像素位置的所述运动信息作为训练数据，且将由所述网格重划分近似曲面数据生成单元获得的近似曲面数据和指定所述像素位置的坐标数据作为学习用输入数据来进行机器学习，所述各像素运动信息计算单元根据由所述网格重划分数据生成单元获得的所述网格重划分数据求出每个像素位置的所述运动信息，并且所述运动信息解码单元将由所述网格重划分近似曲面数据生成单元获得的近似曲面数据和指定所述像素位置的所述坐标数据作为输入，输出在所述输出图像的图像帧内的指定坐标中的所述运动信息。

在该结构中，可从与网格重划分数据对应的近似曲面数据适当地解码稳定处理所需的各输出像素位置的运动信息。

上面描述的根据本技术的信号处理装置可以被配置为使得包括在几何调制处理单元中的第二堆叠式自动编码器学习用于几何调制几何调制处理的每个不同参数设置的近似曲面数据的算法，并且几何调制处理单元根据每个参数设置切换算法。

在该结构中，在用于近似曲面数据的几何调制处理中允许参数设置改变。

此外，根据本技术的信号处理方法包括：在第一堆叠式自动编码器的中间层中获得表示物体的近似曲面的近似曲面数据，对于将由多个元素构成的对象的每个所述元素的坐标数据作为学习用输入数据而预训练第一堆叠式自动编码器，基于每个元素的坐标数据构成的输入数据，获得近似曲面数据，通过使用第二堆叠式自动编码器对近似曲面数据执行几何调制处理，第二堆叠式自动编码器已经基于近似曲面数据构成的学习用输入数据和针对对象执行的几何调制处理中针对每个元素的坐标转换获得结果构成的训练数据，进行机器学习。

上述信号处理方法还可提供与根据上述本技术的信号处理装置的效果类似的有益效果。

附图说明

图1是示出根据本技术的实施方式的信号处理装置的配置实例的框图。

图2是示出根据本实施方式的稳定处理单元的内部配置实例的框图。

图3是描述使用倾斜相机成像的状态的示图。

图4是描述IMU四元数与图像输入之间的关系的示图。

图5是描述格点网的实例的示图。

图6是说明格点网的坐标转换的说明图。

图7是说明段矩阵与格点网之间的关系的示图。

图8是说明根据实施方式的段搜索的说明图。

图9是说明为了获得每个段位置的参考坐标而执行的三角插值的说明图。

图10是说明三角插值的实例的示图。

图11是网格重划分数据的说明图。

图12是示出如何基于网格重划分数据获得每个像素位置的参考坐标的概念图。

图13是说明由插值滤波器执行的插值处理的说明图。

图14是示出参考坐标计算单元的功能配置的实例的功能框图。

图15是说明格点网生成/形成单元的功能配置的示图。

图16是说明用于实现针对近似曲面数据执行的几何调制处理的机器学习的示图。

图17是CNN的说明图。

图18是说明堆叠式自动编码器中的输入数据的编码和解码的说明图。

图19是说明格点网的四边形元素的说明图。

图20描述了在假设格点网是一维的情况下的格点网的近似曲线的实例。

图21是描述在假设段矩阵为一维的情况下的段矩阵的近似曲线的实例的示图。

图22是包括在网格重划分扩展解码学习器中的扩展解码器的说明性示图。

图23是描述使用已经学习过的每个学习者的参考坐标生成单元的配置实例的示图。

图24是说明格点网的修改的说明图。

具体实施方式

在下文中，将参照附图按照以下顺序描述根据本技术的实施方式。

<1.成像装置的总体配置>

<2.稳定化处理>

[2-1.稳定化处理部的内部结构]

[2-2.实施方式采用的稳定化处理方法]

[2-3.实施方式的几何调制处理]

<3.修改>

<4.实施方式概述>

<5.本技术>

<1.成像装置的总体配置>

图1是示出根据本技术的实施方式的信号处理装置1的配置实例的框图。这里通过举例的方式给出了信号处理装置1应用于用作数字相机装置的成像装置的情况。具体地，信号处理装置1执行用于实现由成像装置捕获的图像的电图像稳定(EIS)的信号处理。在本说明书中，用于电图像稳定的处理将被表示为“稳定化处理”。

如图1所示，信号处理装置1包括IMU(惯性测量单元)传感器2、图像传感器3、预处理单元4、预处理单元5、四元数计算单元6以及稳定化处理单元7。

例如，图像传感器3由CMOS(互补金属氧化物半导体)型、CCD(电荷耦合器件)型等的图像传感器构成，并且对由多个二维布置的光接收元件接收的光进行光电转换，以获取捕获图像。

通过图像传感器3获取的捕获图像经受由预处理单元5执行的预定预处理，诸如白平衡调整和去马赛克处理，然后输出到稳定化处理单元7。

IMU传感器2包括用于检测包括信号处理装置1的成像装置的运动的运动传感器，并且输出指示检测该运动的结果的信号。本实施方式的IMU传感器2包括加速度传感器和角速度传感器，加速度传感器和角速度传感器均具有三个轴以用作运动传感器。根据本实施方式，从加速度传感器和角速度传感器(由两组三个轴构成的六个系统)中的每个输出检测信号，作为表示上述运动检测结果的信号。

从IMU传感器2输出并且表示运动检测结果的每个信号在下文中将统称为“IMU信号”。

预处理单元4执行预定处理，作为用于从IMU传感器2输入的IMU信号的预处理，并且将处理的IMU信号输出至四元数计算单元6。

四元数计算单元6基于经由预处理单元4输入的IMU信号，计算表示成像装置的姿势的四元数。

由四元数计算单元6计算的四元数(在下文中表示为“IMU四元数”)被输入到稳定化处理单元7。

稳定化处理单元7基于以上述方式输入的IMU四元数，对经由预处理单元5输入的捕获图像执行稳定化处理。

<2.稳定化处理>

[2-1.稳定化处理单元的内部结构]

图2是描述稳定处理单元7的内部配置实例的框图。

这里，在以下描述中，输入到稳定化处理单元7的输入图像的坐标系(即，本实施方式中的由预处理单元5预处理的捕获图像)将被表示为“输入坐标系”，从稳定化处理单元7输出的输出图像的坐标系(即，稳定的输出图像)将被表示为“输出坐标系”。

稳定化处理单元7剪切输入图像的一部分以执行获得稳定的输出图像的处理作为电图像稳定(EIS)，因此需要满足输入图像的像素数量大于输出图像的像素数量的前提条件。具体地，在本实施方式中，假定输入图像是4k图像(水平像素：大约4000像素，垂直像素：大约2000像素)并且输出图像是2k图像(水平像素：大约2000像素，垂直像素：大约1000像素)。

如图2所示，稳定化处理单元7包括参考坐标计算单元11、缓冲控制单元12、缓冲存储器13、存储器控制单元14、缓存存储器15以及插值滤波器16。

IMU四元数从四元数计算单元6输入至参考坐标计算单元11。参考坐标计算单元11基于IMU四元数计算输出图像的每个像素的参考坐标CR。

参考坐标CR是指示用作用于从输入图像剪切输出图像的输出坐标系中的各个像素位置处的值的输入坐标系中的位置的值的信息。具体地，参考坐标CR是指示针对输出坐标系中的每个像素位置要参考的输入坐标系中的位置的值的信息。

缓冲存储器13是顺序地缓冲每个帧的输入图像的存储器。缓冲控制单元12控制图像数据向缓冲存储器13的写入和从缓冲存储器13的读取。

缓存存储器15是用于从输入图像中剪切输出图像的存储器。存储器控制单元14控制图像数据向缓存存储器15的写入和从缓存存储器15的读取。

存储器控制单元14经由缓冲控制单元12获取在缓冲存储器13中缓冲的图像数据中包括的并且与剪切范围对应的图像数据，并且将获取的图像数据写入缓存存储器15。

此外，存储器控制单元14从如上所述缓存在缓存存储器15中的图像数据(输入图像的图像数据)读取包含用于输出坐标系中的每个像素位置的由输入坐标系中的参考坐标CR表示的像素和该像素周围的像素的多个像素的图像数据(例如，如果插值滤波器16是Lanczos2插值滤波器，则包含4×4＝16像素的图像数据)，并将所读取的图像数据输出至插值滤波器16。

如上所述插值滤波器16针对输出坐标系中的每个像素位置，依次接收包含多个像素并且由存储器控制单元14读取的图像数据的输入，并且针对输出坐标系中的每个像素位置使用下述方法执行插值处理，以获得输出坐标系中的相应像素位置处的值。以这种方式，获取稳定的输出图像。

[2-2.实施方式采用的稳定化处理方法]

将参照图3至图15描述在实施方式中采用的稳定化处理的方法。

在稳定化处理中，执行从捕获图像消除相机的倾斜和运动的影响的处理。

图3描述了使用倾斜相机成像的状态。

这里的倾斜状态是相机在滚动方向上倾斜的状态并且未维持在水平和垂直方向上的状态。在这种情况下，通过成像获取的图像数据处于如图3B中所示对象倾斜的状态。

即使对于这种状态下的图像数据，通过执行用于在与相机的倾斜方向相同的方向上旋转图像数据的图像的稳定化处理，也可获取图3C中的图像数据。图3C中的该图像数据与在图3D中描述的由相机以直的姿势(不倾斜于滚动方向的姿势)捕获的图像的图像数据相似。

当从输入图像中剪切尺寸小于输入图像的输出图像时，通过基于姿势信息旋转用于剪切的像素范围来实现以这种方式进行的相对于姿势倾斜的这种旋转。

图4描述了IMU四元数与图像输入之间的关系。

在利用运动的相机进行成像期间，IMU四元数甚至在一个帧的周期内改变。

假设为每多条线获取IMU数据，例如，还为每多条线获取IMU四元数(在图4中由r0、r1、r2和r3表示)，如图4中所示。这里给出的是在由垂直同步信号Vsync指示的一个帧的周期内获取四个IMU四元数的情况。然而，为了便于解释，仅通过实例的方式给出该情况。在这种情况下，IMU四元数r0对应于帧的最上面的1/4图像，IMU四元数r1对应于后续1/4图像，IMU四元数r2对应于后续1/4图像，并且IMU四元数r3对应于最终1/4图像。

图4中的每条“虚拟线L1”在本文中指示对应于具有相同值的IMU四元数的虚拟线。

根据常规方法，如上所述在一个帧的周期内多次获取IMU数据的前提下，假设各自对应于IMU四元数的相同值的多个虚拟线L1。在这种假设下，参考坐标CR根据每条虚拟线L1被应用于输出坐标系中的每个像素位置，并且基于由此应用的参考坐标CR的输入图像被剪切以获得稳定的图像。

然而，已经清楚的是，使用如上所述的虚拟线L1的稳定化处理不能实现充分的稳定化性能。

因此，本实施方式采用使用如图5中通过示例方式描述的格点网的方法。

格点网具有布置在水平方向和垂直方向这两者上的多个格点(在图5中由黑色三角形标记表示)。

格点网包括在垂直方向上布置的多个格点行。各格点行由沿水平方向布置的多个格点构成。换言之，可以说格点网包括沿水平方向布置的多个格点列。各格点列由沿垂直方向布置的多个格点构成。

格点网中包括的各个格点行与图4中指示的虚拟线L1对应。为相互关联的每个格点行定义基于在对应行位置的定时获取的IMU数据的IMU四元数。换言之，为每格点行均衡针对与相应格点相关联的IMU四元数获取的值。

要注意的是，在图5中提出的实例是以下情况：在格点网的每个格点行中的格点的数量为6，即，在水平方向上的分割的数量为5，并且在每个格点列中的格点的数量为5，即，在垂直方向上的分割的数量为4。然而，格点网在水平方向和垂直方向上的各自的划分数量不限于这些数量。

格点网中的各个格点的位置作为输入坐标系中的位置来管理，以与IMU数据的获取定时相对应地处理这些位置。

参考坐标计算单元11将该输入坐标系中的格点的位置变换为输出坐标系中的位置。

图6是说明格点网的坐标转换的说明图。

为了将格点的位置转换成输出坐标系中的位置，仅需要将与给予输入图像的改变相似的改变添加到格点网。具体地，如图6所示，首先，对格点网执行透镜失真去除处理以与对输入图像执行的透镜失真去除处理建立对应关系，然后，在与相机的方向相同的方向上旋转格点网。以这种方式，可实现到输出坐标系的转换。

根据本实施方式的稳定化处理使用如上所述转换成输出坐标系的格点网和图7A中描述的段矩阵。

段矩阵表示通过将输出图像(通过稳定化处理形成的输出图像的图像帧)分割成预定段而产生的相应段的位置(在图6中由黑色圆圈标记表示)。在本实施方式中，例如，假设一个段具有64像素×64像素的尺寸。

图7B描述了已经经历坐标转换到输出坐标系的格点网，以及在输出坐标系中与格点网重叠的段矩阵。

如上所述，因为输入图像的尺寸大于输出图像的尺寸，所以格点网的尺寸大于段矩阵的尺寸。

通过将格点网转换成输出坐标系，如图7B所示，可识别在段矩阵中的各段的位置(黑色圆圈标记)与格点网中的各个格点之间的位置关系。

参考坐标计算单元11基于各段与输出坐标系中的格点的位置关系，取得各段的参考坐标CR。

为此，首先，如图8所示，参考坐标计算单元11执行段搜索。

段搜索是用于识别包括在格点网中并且包含用于构成段矩阵的每个段的由黑色圆圈标记指示的段位置的网格的处理。

具体地，参考坐标计算单元11基于格点网中包含的各网格的内部/外部确定来识别对应的网格中包含的段位置。此内部/外部确定识别包含在格点网中且包含每个段位置的对应段位置的网格。

基于包含相应段位置的四个格点处的IMU四元数，可获得用于每个段位置的参考坐标CR。在以下描述中，假设指示根据相应IMU四元数计算的参考坐标CR的信息是针对格点网中彼此相关联的每个格点给出的。在下文中，将以这种方式为彼此相关联的每个格点给出的参考坐标CR称为“格点参考坐标”。

参考坐标计算单元11在基于内部/外部确定(段搜索)识别包括在格点网中并且包含相应的一个段位置的每个网格之后，通过使用在图9中描述的三角插值法为每个段位置计算参考坐标CR。

具体地，此三角插值法使用指示段位置的坐标的信息、指示在格点网中包含该段位置的网格的四个格点中包括的三个格点的坐标的信息以及指示与这些格点相关联的格点参考坐标的信息。

例如，通过图10中描述的处理可实现这种三角内插法。

通过使用三角插值法获得在各个段位置处的参考坐标CR，可获得图11中所示的网格重划分数据。该网格重划分数据是指示输出坐标系中的具有段粒度的相应位置处的参考坐标CR的数据。在图11中，具有段粒度的相应位置处的每个参考坐标CR(即，为每个段位置计算的每个参考坐标CR)由黑色菱形标记表示。

参考坐标计算单元11基于上述网格重划分数据获得输出图像中的每个像素位置的参考坐标CR。

图12是示出如何基于网格重划分数据获得每个像素位置的参考坐标CR的概念图。在图12中，每个像素位置的参考坐标CR由黑色方形标记表示。

根据本实施方式，基于使用网格重划分数据(具有段粒度的参考坐标CR)的线性插值(双线性插值)获得每一个参考坐标CR。具体地，每个参考坐标CR是基于双线性插值获得的，该双线性插值使用包含目标像素位置的段的四个角处的各个点的参考坐标CR。

在这种情况下，采用双线性插值来代替上述三角插值，因为双线性插值比三角插值更轻，并且类似地，一旦被转换成网格重划分数据，就从数据获得足够的精度。然而，在三角插值被作为LSI(大规模集成电路)中的硬件电路并入的情况下，考虑到电路规模，使用该块的所有像素的三角插值被认为比作为单独设置的双线性插值电路并入的双线性插值更有利。

通过针对输出图像中的每个像素位置获得参考坐标CR，可以针对每个像素位置识别输入坐标系中要参考的位置的值。然而，每一个参考坐标CR通过如上所述的基于网格重划分数据的插值处理来计算。在这种情况下，每个参考坐标CR可以不具有整数值(即，针对输入图像中的每个像素获得的值)，而是包含小数的值。因此，在图2中描述的插值滤波器16用于基于参考坐标CR渲染输出图像。

图13是由插值滤波器16执行的插值处理的说明图。

在存储器控制单元14的控制下，从缓存存储器15中缓存的输入图像(像素值)向插值滤波器16顺序地输入渲染每个输出像素所需的多个像素的像素值。具体地，渲染每个输出像素所需的多个像素的像素值是由包括如下像素的多个像素构成的区域中的数据：包含在由对应输出像素的参考坐标CR表示的输入坐标系中的位置的像素；以及包围对应像素的像素(见图13中的由粗框包围的区域Ar)。

以下，为了便于说明，将包含输入坐标系中的位置的参考坐标CR所示的像素称为“参考像素Pr”。另外，将包含参考像素Pr和包围参考像素Pr的渲染所需要的像素的像素区域称为“参考区域Ar”。参考区域Ar是对应于参考像素Pr周围的m个像素×m个像素(m：3以上的自然数)的区域。另外，在图13中，虽然参考区域Ar是在参考像素Pr的周围与3像素×3像素＝9像素对应的区域，但为了便于说明，仅以举例的方式示出。参考区域Ar的尺寸不限于该尺寸。

插值滤波器16通过使用包含在参考区域Ar中的各像素的值执行插值处理来获得由参考坐标CR指示的用于处理目标输出像素的位置的值。例如，Lanczos滤波器被用于该插值处理。具体地，考虑到防止混叠，考虑使用Lanczos2滤波器或与高斯滤波器混合的混合滤波器。例如，该混合滤波器对于具有RGGB布置的RAW格式作为图像格式的Lanczos2插值是有效的，并且用于防止尤其在高频带中的混叠。

插值滤波器16为每个输出像素顺序地执行该插值处理。以这种方式，获取稳定的输出图像。

应注意，如上所述，稳定的输出图像的渲染可包括用于透镜阴影的亮度调整以及基于由插值滤波器16执行的插值处理的像素值的计算。在这种情况下，除了插值处理以外，亮度控制信息等以及参考坐标CR被给予每个格点以实现增益调整。

类似地，为了应用于基于格点具有高自由度的坐标校正、深度校正等的目的，通过用于自身位置估计的SLAM技术获得的局部运动信息、通过深度传感器(诸如ToF传感器)获得图像深度而获得的深度信息等可被给予每个网格点。

图14是示出图2所示的参考坐标计算单元11的功能配置的实例的功能框图。

如图14所示，参考坐标计算单元11具有格点网生成/形成单元21、段矩阵生成单元22、段搜索单元23、网格重划分数据生成单元24和单个像素坐标插值单元25的功能。

格点网生成/形成单元21执行用于形成格点网的处理，诸如，生成格点网和用于转换成上述输出坐标系的旋转(见图6)。

图15是用于说明格点网生成/形成单元21的功能配置的示图。应注意，图15包括示意性呈现用于形成格点网的处理以及格点网生成/形成单元21的功能配置的概念图。

如图15所示，格点网生成/形成单元21具有格点网生成器31、透镜失真校正器32、投影仪33、旋转器34、自由曲率透视投影仪35、扫描控制器36、限幅器37、以及各格点参考坐标计算器38的功能。

格点网生成/形成单元21生成并形成格点网。

透镜失真校正器32基于透镜参数对格点网执行透镜失真校正处理。

投影仪33在格点网通过透镜失真校正器32经受透镜失真校正处理之后将格点网投影到虚拟天球(celestial sphere)中。例如，可采用中心投影、等距投影等作为投影方法(图15的概念图描述了中心投影的实例)。根据本实施方式的投影仪33基于投影参数基于上述中心投影或等距离投影来执行投影处理。

旋转器34在由投影仪33将格点网投影到虚拟天球之后基于IMU四元数旋转格点网。该旋转实现了用于在与如上所述的相机的方向相同的方向上旋转格点网的操作。参考包含在IMU四元数中并且指示旋转量(旋转量参数)的信息进行该旋转。

自由曲率透视投影仪35基于投影参数通过自由曲率透视投影将由旋转器34旋转的格点网投影(重新投影)到平面。本文应用的自由曲率透视投影可以为重新投影的格点网提供期望的透镜效果，从而实现输出图像的图片创建。投影参数是用于指定这种透镜效果的模式的参数。

扫描控制器36对投影到平面上的格点网执行仿射变换处理，以实现用于比例缩小和偏移改变的适当设置。例如，扫描控制器36基于作为预先指定的减小/偏移参数的预定参数，来实现这些比例减小设置和偏移改变。

限幅器(clipper)37基于限幅参数对由扫描控制器36处理的格点网执行限幅处理，以防止超过定点精度的过度数据。另外，在任意抓取点超过定点数据范围的情况下，这些抓取点所属的段都被指定为无效段，并在稍后阶段进行针对黑屏输出的异常处理。

由限幅器37执行的此限幅处理定义相应格点在输出坐标系中的坐标。

各格点参考坐标计算器38基于IMU四元数计算格点网中的各格点的参考坐标(上述格点参考坐标)。

现在描述返回图14。

如上所述，由限幅器37执行的限幅处理限定的与输出坐标系中的各个格点相关联的坐标信息，作为各个格点坐标信息从格点网生成/形成单元21提供给段搜索单元23。

另外，由各格点参考坐标计算器38求出的各格点参考坐标从格点网生成/形成单元21提供给网格重划分数据生成单元24。

段搜索单元23基于由段矩阵生成单元22生成的段矩阵和从格点网生成/形成单元21提供的各个格点坐标信息来执行上述段搜索(内部/外部确定：参见图7和图8)。结果，针对包括在段矩阵中的每个段位置，识别包含相应段位置的四个格点。

网格重划分数据生成单元24基于指示各个格点参考坐标并且从格点网生成/形成单元21提供的信息和指示由段搜索单元23获得的段搜索结果的信息，针对每个段位置执行上述三角插值(参见图9和图10)，以生成网格重划分数据(见图11)。如上所述，网格重划分数据还可以表示为具有段粒度的参考坐标CR。

网格重划分数据生成单元24将生成的网格重划分数据输出到单个像素坐标插值单元25。

单个像素坐标插值单元25基于网格重划分数据获得输出图像中的每个像素位置的参考坐标CR。如上所述，通过基于网格重划分数据的双线性插值来获得各像素位置的参考坐标CR。

单个像素坐标插值单元25将各个像素位置的参考坐标CR输出至图2中所示的存储器控制单元14。

图2中所示的存储器控制单元14基于参考坐标CR控制从缓冲存储器13到缓存存储器15的数据写入。

此外，存储器控制单元14基于参考坐标CR从缓存存储器15顺序地读取包含用于输出图像中的每个像素位置的相应像素位置的参考区域Ar(参见图13)的数据，并将所读取的数据输出至插值滤波器16。

因此，插值滤波器16使用输出图像中的每个像素位置的参考区域Ar的数据顺序地执行插值处理，以获得稳定的输出图像。

如上所述，为了针对输出图像中的每个像素位置获得参考坐标CR，在本实施方式中采用的稳定化处理方法不是仅基于如常规采用的由虚拟线L1构成的一维信息，而是基于由格点网构成的二维信息，确保与输出坐标系的一致性。

该方法可以提高参考坐标CR的精度，并且还提高稳定化处理的性能。

[2-3.实施方式的几何调制处理]

这里注意，在本实施方式中，如参考图15显而易见的，执行用于格点网的几何调制处理，诸如由透镜失真校正器32执行的透镜失真校正处理(即，格点网的变形)、由旋转器34进行的旋转以及由扫描控制器36执行的仿射变换处理(即，格点网的移动或缩放放大/缩小)。

本文中的几何调制处理是指用于改变对象的形状、位置、姿态和大小中的至少任意一个的处理。本文中所提及的对象由多个元素构成。格点网被呈现为该对象的示例。即，格点网被视为由多个格点作为元素构成的对象。可选地，在格点网中由四个相邻的格点包围的一个网格被指定为多边形的情况下，格点网也被视为由多个多边形作为元素构成的对象。

如上所述，通常执行由多个元素构成的对象的几何调制处理，作为每个元素的坐标转换处理。然而，就几何调制处理所需的计算成本的增加而言，不希望将坐标转换应用于元素中的每一者。

因此，本实施方式采用以下方法：利用基于在AI(人工智能)领域中使用的堆叠式自动编码器(以下称为“SAE”)的自教导学习的功能，将作为对象的格点网转换成近似曲面，并且以近似曲面数据的形式对格点网执行几何调制处理。

图16是说明用于实现对上述近似曲面数据执行的几何调制处理的机器学习的示图。

首先，在学习环境中采用的格点网生成/形成单元21包括透镜失真校正器32p、投影仪33p、旋转器34p、自由曲率透视投影仪35p、扫描控制器36p、限幅器37p、以及各格点参考坐标计算器38p。透镜失真校正器32p、投影仪33p、旋转器34p、自由曲率透视投影仪35p、扫描控制器36p、以及限幅器37p分别具有与上述透镜失真校正器32、投影仪33、旋转器34、自由曲率透视投影仪35、扫描控制器36、以及限幅器37的功能相似的功能，但是与这些组件的不同之处在于作为构成格点网的相应元素的坐标转换处理而执行相应处理。

具体地，透镜失真校正器32p针对格点网执行透镜失真校正处理，作为针对格点网的每个格点的坐标转换处理。此外，投影仪33p执行上述用于将格点网投影到虚拟天球的投影处理，作为针对每个格点的坐标转换处理。在此要注意的是，为了进行确认，该投影处理包括从格点的坐标的二维坐标到三维坐标的转换处理。

此外，旋转器34p对投影到虚拟天球的格点网执行旋转处理，作为对每个格点的坐标转换处理，而自由曲率透视投影仪35p对旋转后的格点网执行重新投影处理，作为对每个格点的坐标转换处理(这里的处理包括从三维坐标到二维坐标的转换处理)。扫描控制器36p对重新投影后的格点网进行仿射变换处理，作为对各格点的坐标变换处理，而限幅器37p对仿射变换后的格点网进行限幅处理，作为对各格点的坐标变换处理。

此外，在学习环境中使用格点网近似曲面转换单元39、透镜失真校正学习器32b、投影学习器33b、旋转学习器34b、自由曲率透视投影学习器35b、扫描控制学习器36b、以及限幅学习器37b。

格点网近似曲面转换单元39、透镜失真校正学习器32b、投影学习器33b、旋转学习器34b、自由曲率透视投影学习器35b、扫描控制学习器36b以及限幅学习器37b均由基于DNN(深度神经网络)的机器学习器构成。具体地，根据本实施方式，采用基于CNN(卷积神经网络)的机器学习器。

图17是CNN的说明图。

注意，DNN的一般技术(诸如各自用于DNN的输入和输出的抽头数、层数、激活函数、以及丢弃方法)在以下描述中不是本技术的要点。因而，这里省略这些点的详细描述。注意，下文呈现的DNN的层和抽头的特定数量仅是为了便于解释而给出的示例，并且不限于这些数量。

DNN技术中最广泛的CNN包括重复卷积处理(卷积)和池化的SAE(堆叠式自动编码器)以及被布置在SAE之后的阶段中的全连接层，如图17中所描绘的。例如，通常已知诸如AlexNet的网结构。

根据CNN，对SAE执行预训练处理。预训练处理是一种类型的无监督学习(也称为半监督学习)，并且是指以匹配输出和输入的方式进行的学习的处理。此外，在后续阶段中在全连接层中执行的监督学习(称为细调)可以生成识别算法。

注意，CNN的类型不限于该示例。近年来，各种其他衍生类型的CNN是可用的。

图18是说明SAE中的输入数据的编码和解码的说明图。

SAE对输入到输入层的输入数据执行编码处理。该编码处理是用于输入数据的维度压缩处理。维度压缩数据基于输入数据在中间层中获得。在从中间层到输出层的阶段，对编码数据执行解码处理。

SAE在本文中通常提供用于维度压缩的目的，但是具有通过预训练实现的目标特征表达的自教导学习的功能，以用于输入和输出之间的匹配。

SAE的这种自教导学习功能用于将格点网转换成近似曲面。

具体地，格点网近似曲面转换单元39将格点网生成器31生成的格点网(各格点的坐标数据)作为输入数据，来进行预训练作为SAE的预训练。

在格点网被输入到格点网近似曲面转换单元39的SAE的情况下，在SAE的中间层中实现格点网的尺寸压缩。在这种情况下，表示格点网的形状并通过中间层中的该尺寸压缩获得的近似曲面数据，可基于上述预训练获取。即，在中间层中获得被转换成近似曲面的格点网的数据。

在图16中，透镜失真校正学习器32b、投影学习器33b、旋转学习器34b、自由曲率透视投影学习器35b、扫描控制学习器36b以及限幅学习器37b基于由透镜失真校正器32p、投影仪33p、旋转器34p、自由曲率透视投影仪35p、扫描控制器36p以及限幅器37p的输出(处理结果)构成的训练数据，执行机器学习(上述细调)。

具体地，透镜失真校正学习器32b基于由在格点网近似曲面转换单元39的SAE的中间层中获得的格点网的近似曲面数据构成的学习用输入数据并且基于由从透镜失真校正器32p的输出构成的训练数据，执行机器学习。

当透镜失真校正学习器32b生成用于进行校正(变形)的算法时，由学习器执行的这种机器学习与由透镜失真校正器32p针对输入的近似曲面数据做出的校正处理的算法相似。

因而，无需对每个格点的坐标数据执行坐标转换处理，以执行作为用于格点网的透镜失真校正处理的几何调制处理。因此，可实现几何调制处理的计算成本的降低。

投影学习器33b基于由在透镜失真校正学习器32b(即，紧靠投影学习器33b之前布置的学习器)的SAE的中间层中获得的格点网的近似曲面数据构成的学习用输入数据并且基于由从投影仪33p的输出构成的训练数据，执行机器学习。

当投影学习器33b生成用于进行几何调制(变形)的算法时，由学习器执行的这种机器学习与由投影仪33p对输入的近似曲面数据进行的投影过程的算法相似。

因而，作为格点网的投影处理，不需要对每个格点的坐标数据执行坐标转换处理，以执行几何调制处理。因此，可实现几何调制处理的计算成本的降低。

类似地，旋转学习器34b、自由曲率透视投影学习器35b、扫描控制学习器36b、以及限幅学习器37b各自基于由从旋转器34p、自由曲率透视投影仪35p、扫描控制器36p、以及限幅器37p中的相应一者的输出构成的训练数据，并且基于由在紧靠之前布置的学习器的SAE的中间层中获得的近似曲面数据构成的学习用输入数据，执行机器学习。

以这种方式，每个学习器如旋转学习器34b、自由曲率透视投影学习器35b、扫描控制学习器36b和限幅学习器37b生成用于进行几何调制的算法，该几何调制类似于在针对输入的近似曲面数据执行旋转器34p的旋转处理、自由曲率透视投影仪35p的重新投影处理、扫描控制器36p的仿射变换处理以及限幅器37p的限幅处理的情况下所进行的几何调制。

因而，为了实现旋转处理、重新投影处理、仿射变换处理和限幅处理，不需要针对每个格点执行坐标转换处理。因此，可实现计算成本的降低。

根据本文中的本实施方式，每个学习器(即，透镜失真校正学习器32b、投影学习器33b、旋转学习器34b、自由曲率透视投影学习器35b、扫描控制学习器36b、以及限幅学习器37b)针对相应几何调制处理的不同参数设置中的每个参数设置，学习对输入的近似曲面数据进行几何调制的算法。

具体地，透镜失真校正学习器32b针对不同透镜参数的每个设置学习对输入近似曲面数据的几何调制的算法。例如，在允许将两种类型的参数设置“A”和“B”设置为透镜参数的情况下，基于在透镜参数A的设置状态下由从透镜失真校正器32p的输出构成的训练数据来执行透镜参数A的学习，以生成用于透镜参数A的算法。此外，在镜头参数B的设置状态下，基于由从镜头失真校正器32p的输出构成的训练数据来执行镜头参数B的学习，以生成用于镜头参数B的算法。此时，透镜失真校正学习器32b存储针对各个参数设置生成的算法，以使得可识别与对应算法相关联的参数设置。

投影学习器33b、旋转学习器34b、自由曲率透视投影学习器35b、扫描控制学习器36b、以及限幅学习器37b均以类似的方式针对每个参数设置执行学习，并且存储通过学习针对每个参数设置生成的算法，使得可识别与对应算法相关联的参数设置。

根据本文的本实施方式，上述段矩阵和网格重划分数据中的每一个也被处理为近似曲面数据，以进一步降低计算成本。

为此目的，设置在本实施方式的学习环境中的是段矩阵生成单元22、段搜索单元23、网格重划分数据生成单元24和单个像素坐标插值单元25，并且进一步地，格点网段矩阵转换学习器26b、网格重划分学习器27b以及网格重划分扩展解码学习器28b，如图16所示。

根据本实施方式，基于CNN的学习器被用于每个学习器，即，格点网段矩阵转换学习器26b、网格重划分学习器27b、以及网格重划分扩展解码学习器28b。

格点网段矩阵转换学习器26b基于由在限幅学习器37b的SAE的中间层中获得的近似曲面数据(格点网的近似曲面数据)构成的学习用输入数据并且基于由段搜索单元23获得的段搜索处理结果构成的训练数据，执行机器学习。假设这里的段搜索处理结果的数据是指示针对段矩阵中的每个段位置(段编号)的、针对包含格点网中的对应段位置的四边形元素给出的编号的数据。

图19是说明网格点网格的四边形元素的说明图。

如图19中所示，格点网的四边形元素中的每一个表示由四个相邻的格点(在行方向、列方向以及倾斜方向的每一个上邻接的四个格点)包围的网格部分。赋予每个四边形元素的数字指示赋予相应网格的数字。

格点网段矩阵转换学习器26b通过使用上述机器学习生成用于实现从格点网的近似曲面到段矩阵的近似曲面的域转换的算法。

将参照图20和图21基于一维情况的实例描述这种域转换的原理。图20描述了在假设格点网是一维的情况下的格点网的近似曲线的实例。水平轴表示赋予元素的数字，而垂直轴表示坐标。从该一维的实例可知，格点网的近似曲面数据可以表示为相当于格点网的四边形元素的数字与坐标的关系表达的数据。

图21描述了在假设段矩阵为一维的情况下段矩阵的近似曲线的实例。水平轴表示段数字，而垂直轴表示给予格点网的四边形元素的数字。段矩阵的近似曲线可以表示为相当于给予格点网的四边形元素的数字与段数字之间的关系表达的曲线。

从图20与图21之间的比较中显而易见的是，段矩阵的近似曲面与格点网的近似曲面表现出可变形的相关性。

格点网段矩阵转换学习器26b通过基于学习用输入数据和基于训练数据执行机器学习，生成用于将从限幅学习器37b输入的格点网的近似曲面数据转换为段矩阵的近似曲面数据(给予格点网的四边形元素的数字与段数字之间的关系表达式)的算法，学习用输入数据由从限幅学习器37b接收的上述近似曲面数据构成，训练数据由通过段搜索单元23获得的段搜索处理结果构成。

网格重划分学习器27b基于学习用输入数据和基于训练数据执行机器学习，学习用输入数据由在格点网段矩阵转换学习器26b的SAE的中间层中获得的段矩阵的近似曲面数据和在限幅学习器37b的SAE的中间层中获得的格点网的近似曲面数据构成，训练数据由从网格重划分数据生成单元24的输出构成(具有段粒度的参考坐标CR)。

通过该机器学习，网格重划分学习器27b生成用于获得近似曲面数据的算法，近似曲面数据等同于段矩阵中的每个段的位置(数字)与对应于该段位置的参考坐标CR之间的关系表达式。

网格重划分扩展解码学习器28b基于学习用输入数据和基于训练数据执行机器学习，学习用输入数据由在网格重划分学习器27b的中间层中获得的近似曲面数据和用于指定输出图像中的像素位置的坐标数据(考虑到输出坐标系是二维坐标系，在图22中表示为x和y)构成，训练数据由从单个像素坐标插值单元25的输出构成(即，用于输出图像中的每个像素位置的参考坐标CR)。

图22是包括在网格重划分扩展解码学习器28b中的SAE中的扩展解码器的说明性示图。

网格重划分扩展解码学习器28b基于由从网格重划分学习器27b接收的近似曲面数据构成的输入，来执行用于输出由x和y坐标数据指定的像素位置的参考坐标CR的学习。

通过执行这种学习，网格重划分扩展解码学习器28b基于从网格重划分学习器27b输入的近似曲面数据，生成用于解码由x和y坐标数据指定的像素位置的参考坐标CR的算法。

图23是描述使用已学习的每个学习器的参考坐标计算单元11的配置实例的示图。

如图23中描述的，参考坐标计算单元11的格点网生成/形成单元21包括格点网生成器31和各格点参考坐标计算器38，并且进一步包括格点网近似曲面转换单元39、透镜失真校正学习器32a、投影学习器33a、旋转学习器34a、自由曲率透视投影学习器35a、扫描控制学习器36a以及限幅学习器37a。

应注意，透镜失真校正学习器32a、投影学习器33a、旋转学习器34a、自由曲率透视投影学习器35a、扫描控制学习器36a、以及限幅学习器37a分别表示各自已经学习的透镜失真校正学习器32b、投影学习器33b、旋转学习器34b、自由曲率透视投影学习器35b、扫描控制学习器36b、以及限幅学习器37b。

此外，参考坐标计算单元11包括格点网段矩阵转换限幅学习器26a、网格重划分学习器27a以及网格重划分扩展解码学习器28a。此处，格点网段矩阵转换学习器26a、网格重划分学习器27a以及网格重划分扩展解码学习器28a分别表示各自已经学习的格点网段矩阵转换学习器26b、网格重划分学习器27b以及网格重划分扩展解码学习器28b。

格点网生成/形成单元21的格点网近似曲面转换单元39接收由格点网生成器31针对格点网的每个格点生成的坐标数据的输入。

这里注意，如果要使用的格点网的数据是每个帧共有的数据就足够了。因而，只要至少进行一次生成近似曲面数据的格点网近似曲面转换单元39的生成处理(将生成的近似曲面数据存储到存储器中，每个帧依次读出即可)即可。

如图23所示，对透镜失真校正学习器32a给予由从格点网近似曲面转换单元39接收的近似曲面数据构成的输入数据，而对投影学习器33a给予由已经经受由透镜失真校正学习器32a执行的几何调制处理的近似曲面数据构成的输入数据作为透镜失真校正处理。此外，旋转学习器34a被给予由已经经受由投影学习器33a执行的几何调制处理的近似曲面数据构成的输入数据作为投影处理，而自由曲率透视投影学习器35a被给予由已经经受由旋转学习器34a执行的几何调制处理的近似曲面数据构成的输入数据作为旋转处理。此外，扫描控制学习器36a被给予已经经受由自由曲率透视投影学习器35a执行的几何调制处理的近似曲面数据构成的输入数据作为重新投影处理，而限幅学习器37a被给予已经经受由扫描控制学习器36a执行的几何调制处理的近似曲面数据构成的输入数据作为仿射变换处理。

如从以上描述中理解的，根据本实施方式，透镜失真校正学习器32a、投影学习器33a、旋转学习器34a、自由曲率透视投影学习器35a、扫描控制学习器36a、以及限幅学习器37a均学习与对近似曲面数据执行的几何调制处理相关联的每个不同参数设置的算法。本文中描述的透镜失真校正学习器32a、投影学习器33a、旋转学习器34a、自由曲率透视投影学习器35a、扫描控制学习器36a、以及限幅学习期37a均具有从多个学习算法中选择性地切换要使用的算法以使用对应于参数设置的算法的功能。

格点网段矩阵转换学习器26a被给予由格点网的近似曲表数据组成的输入数据，该近似曲面数据已经经受由限幅学习器37a执行的几何调制处理作为限幅过程。

网格重划分学习器27a被给予输入数据，该输入数据由通过由格点网段矩阵转换学习器26a执行的转换处理所获得的段矩阵的曲面数据、从各网格点参考坐标计算器38接收的各格点参考坐标、以及从限幅学习器37a接收的近似曲面数据组成。

网格重划分扩展解码学习器28a被给予输入数据，该输入数据由与网格重划分学习器27a获得的网格重划分数据相关的近似曲面数据(近似曲面数据等效于段位置与参考坐标CR之间的关系表达式)以及用于指定输出图像中的像素位置的x和y坐标数据构成。以这种方式，网格重划分扩展解码学习器28a基于从网格重划分学习器27a输入的近似曲面数据，在由x和y坐标数据指定的像素位置处解码参考坐标CR，并且输出经解码的参考坐标CR。

<3.修改>

应注意，本技术并不局限于上述所述具体实例，并且可采用各种修改的配置。

例如，，将图24A所示的固定网模式下的格点网生成为在上述实例中的格点网，但也可以采用例如图24B-图24D所示的一维可变网模式、二维可变网模式、有限元网模式等固定网模式以外的格点网来生成格点网。

而且，虽然在上述实例中本技术应用于由信号处理装置1执行的稳定化处理，但是本技术可适用于各自对由多个元素构成的对象执行几何调制处理的广泛应用。

此外，虽然在上述实例中作为对象的几何调制处理的实例呈现了透镜失真校正处理、对虚拟天球的投影处理、在虚拟天球中的旋转处理、重新投影处理、用于比例减小和偏移改变的仿射变换处理以及限幅处理，但是本技术可适用的几何调制处理不限于这些处理。

<4.实施方式概述>

如上所述，根据本实施方式的信号处理装置(信号处理装置1)包括：近似曲面转换单元(格点网近似曲面转换单元39)，其包括第一堆叠式自动编码器，该第一堆叠式自动编码器基于学习用输入数据被预训练，该学习用输入数据由针对对象的多个元素中的每个元素获取的坐标数据构成，并且该近似曲面转换单元基于由针对每个元素获取的坐标数据构成的输入数据来在第一堆叠式自动编码器的中间层中获得指示对象的近似曲面的近似曲面数据；以及几何调制处理单元(例如，透镜失真校正学习器32a)，所述几何调制处理单元包括第二堆叠式自动编码器，所述第二堆叠式自动编码器已经基于学习用输入数据和训练数据进行机器学习，所述学习用输入数据由近似曲面数据构成，所述训练数据由通过在对对象执行的几何调制处理中针对每个元素的坐标转换获得的结果构成，并且所述几何调制处理单元通过使用第二堆叠式自动编码器对近似曲面数据执行几何调制处理。

因而，与对对象的每个元素执行坐标转换的情况相比，可实现与对象的几何调制处理相关联的计算成本的降低。

此外，根据本实施方式的信号处理装置，作为对由成像装置捕获的捕获图像的稳定化处理，使用格点网执行稳定化处理，该格点网包括在捕获图像的输出坐标系中在水平方向和垂直方向中的每个方向上布置的多个格点，并且为每个格点提供与成像装置关联的运动信息，并且对象是格点网。

在该配置中，针对格点网的近似曲面数据执行通过使用格点网的稳定化处理对格点网执行的诸如变形和旋转的几何调制处理。

因而，可实现与用于格点网的几何调制相关联的计算成本的降低，并因此可实现用于稳定化处理的计算成本的降低。

此外，根据该实施方式的信号处理装置进一步包括格点网段矩阵转换单元(格点网段矩阵转换学习器26a)，该格点网段矩阵转换单元包括第三堆叠式自动编码器，该第三堆叠式自动编码器已经基于训练数据和基于学习用输入数据进行机器学习，该训练数据由通过段搜索处理所获得的结果构成，该段搜索处理用于识别包括在经受几何调制处理的格点网的多个网格中的并且在通过将通过稳定化处理输出的输出图像的图像帧划分为段而形成的段矩阵中包含搜索到的段的网格，该学习用输入数据由已经经受几何调制处理的近似曲面数据构成，格点网段矩阵转换单元基于由已经经受几何调制处理的近似曲面数据构成的输入数据，在第三堆叠式自动编码器的中间层中获得指示每个段和每个格点网的网格之间的对应关系的近似曲面数据。

在该配置中，根据由格点网的近似曲面数据构成的输入，得到表示格点网中的各段和网格之间的对应关系的近似曲面数据(通过从格点网转换到段矩阵的域中而生成的近似曲面数据)。也就是说，当要获得与段搜索结果相对应的近似曲面数据时，可以消除执行相对繁重的处理以产生与段矩阵相对应的近似曲面数据的需要。

因此，可实现与稳定化处理相关的计算成本的降低。

此外，根据本实施方式的信号处理装置进一步包括网格重划分近似曲面数据生成单元(网格重划分学习器27a)，该网格重划分近似曲面数据生成单元包括第四堆叠式自动编码器，该第四堆叠式自动编码器基于通过网格重划分数据生成单元(网格重划分数据生成单元24)获得的网格重划分数据所构成的训练数据以及基于学习用输入数据进行机器学习，该网格重划分数据生成单元用于参考段搜索处理的结果和与各个格点相关联的运动信息来生成指示具有段的粒度的运动信息的网格重划分数据，该学习用输入数据由已进行几何调制处理的近似曲面数据和由格点网段矩阵转换单元获得的近似曲面数据构成，并且该网格重划分近似曲面数据生成单元基于由已进行几何调制处理的近似曲面数据、由格点网段矩阵转换单元获得的近似曲面数据以及与各个格点相关联的运动信息构成的输入数据，在第四堆叠式自动编码器的中间层中获得网格重划分数据的近似曲面数据。

在此配置中，从格点网的几何调制处理到网格重划分数据生成的每一处理可通过每一处理近似曲面数据的处理来一致地实现。

因此，可实现与稳定化处理相关的计算成本的降低。

此外，根据该实施方式的信号处理装置进一步包括运动信息解码单元(网格重划分扩展解码学习器28a)，包括第五堆叠式自动编码器，该第五堆叠式自动编码器基于通过各像素运动信息计算单元(各格点参考坐标计算器38)针对输出图像的图像帧内的每个像素位置获得的由运动信息构成的训练数据并且基于学习由通过网格重划分近似曲面数据生成单元获得的近似曲面数据和指定像素位置的坐标数据构成的输入数据，进行机器学习，该各像素运动信息计算单元参考由网格重划分数据生成单元获得的网格重划分数据来获得指示每个像素位置的运动信息，并且运动信息解码单元基于由通过网格重划分近似曲面数据生成单元获得的近似曲面数据和指定像素位置的坐标数据构成的输入数据，在输出图像的图像帧内的指定坐标中输出运动信息。

在该配置中，可从与网格重划分数据对应的近似曲面数据适当地解码稳定化处理所需的各输出像素位置的运动信息。

此外，根据本实施方式的信号处理装置，几何调制处理单元中所包括的第二堆叠式自动编码器学习用于对几何调制处理的各个不同参数设置的近似曲面数据进行几何调制的算法，并且几何调制处理单元根据各个参数设置来切换该算法。

在该配置中，在用于近似曲面数据的几何调制处理中允许参数设置改变。

因此，使用单个信号处理装置可处理在每个不同的参数设置中的几何调制处理，因此，消除了准备对于每个参数设置不同的信号处理装置的需要。

此外，允许参数设置之间的动态切换的这种情况是可处理的。例如，对于作为几何调制处理的透镜失真校正处理执行变形的可更换镜头的相机系统，需要根据透镜改变动态改变透镜失真校正处理的参数设置。在这种情况下，使用单个信号处理装置可实现参数设置的动态改变。

此外，根据本实施方式的信号处理方法包括：基于学习用输入数据来在被预训练的第一堆叠式自动编码器的中间层中获得表示对象的近似曲面的近似曲面数据，所述学习用输入数据由针对所述对象的多个元素中的每个元素获取的坐标数据构成，所述近似曲面数据是基于由针对所述元素中的每个元素获取的坐标数据构成的输入数据获得的；以及通过使用第二堆叠式自动编码器，对所述近似曲面数据执行几何调制处理，所述第二堆叠式自动编码器已经基于学习用输入数据和训练数据进行机器学习，所述学习用输入数据由近似曲面数据构成，所述训练数据由通过在对对象执行的几何调制处理中针对每个元素的坐标转换而获得的结果构成。

上述第一信号处理方法还可提供与上述第一信号处理装置的操作和效果类似的操作和效果。

应注意，提供的有利效果仅通过实例的方式呈现并且不限于本说明书中描述的那些效果。此外，可以提供其他有利效果。

<5.本技术>

应注意，本技术还可具有以下配置。

(1)

一种信号处理装置，包括：

近似曲面转换单元，包括第一堆叠式自动编码器，所述第一堆叠式自动编码器基于学习用输入数据被预训练，所述学习用输入数据由针对对象的多个元素中的每个元素获取的坐标数据构成，并且所述第一堆叠式自动编码器基于由针对所述元素中的每个元素获取的坐标数据构成的输入数据，来在所述第一堆叠式自动编码器的中间层中获得指示所述对象的近似曲面的近似曲面数据；以及

几何调制处理单元，包括第二堆叠式自动编码器，所述第二堆叠式自动编码器已经基于学习用输入数据和训练数据进行机器学习，所述学习用输入数据由所述近似曲面数据构成，所述训练数据由通过在对所述对象执行的几何调制处理中对所述元素中的每个元素的坐标转换而获得的结果构成，并且所述第二堆叠式自动编码器通过使用所述第二堆叠式自动编码器对所述近似曲面数据执行所述几何调制处理。

(2)

根据上述(1)的信号处理装置，其中，

作为用于由成像装置捕获的捕获图像的稳定化处理，使用格点网执行稳定化处理，所述格点网包括在捕获图像的输出坐标系中在水平方向和垂直方向中的每个方向上布置的多个格点，并且所述稳定化处理被给予每个所述格点的与所述成像装置相关联的运动信息，并且

所述对象是所述格点网。

(3)

根据上述(2)的信号处理装置，进一步包括：

格点网段矩阵转换单元，包括第三堆叠式自动编码器，所述第三堆叠式自动编码器基于通过段搜索处理所获得的结果所构成的训练数据和基于学习用输入数据进行机器学习，所述段搜索处理用于识别网格，网格包括在经过了几何调制处理的格点网的网格中，并且网格包括通过将通过稳定化处理输出的输出图像的图像帧分割成段而形成的段矩阵中的段中的搜索段，并且所述第三堆叠式自动编码器基于由进行了几何调制处理的近似曲面数据构成的输入数据来在所述第三堆叠式自动编码器的中间层中获得指示每个段与格点网的每个网格之间的对应关系的近似曲面数据。

(4)

根据上述(3)的信号处理装置，进一步包括：

网格重划分近似曲面数据生成单元，包括第四堆叠式自动编码器，所述第四堆叠式自动编码器基于由网格重划分数据生成单元获得的网格重划分数据构成的训练数据、学习用输入数据进行机器学习，其中，网格重划分数据生成单元参考段搜索处理的结果和与各个格点相关联的运动信息来生成指示具有段粒度的运动信息的网格重划分数据，所述学习用输入数据由经受了几何调制处理的近似曲面数据和由格点网段矩阵转换单元获得的近似曲面数据构成，并且所述第四堆叠式自动编码器基于由经受了几何调制处理的近似曲面数据、由格点网段矩阵转换单元获得的近似曲面数据和与各个格点相关联的运动信息构成的输入数据，在第四堆叠式自动编码器的中间层获得网格重划分数据的近似曲面数据。

(5)

根据上述(4)的信号处理装置，进一步包括：

运动信息解码单元，包括第五堆叠式自动编码器，所述第五堆叠式自动编码器基于由各像素运动信息计算单元针对输出图像的图像帧内的每个像素位置获得的运动信息所构成的训练数据和基于由通过网格重划分近似曲面数据生成单元获得的近似曲面数据和指定像素位置的坐标数据所构成的学习用输入数据，进行机器学习，所述各像素运动信息计算单元参考由网格重划分数据生成单元获得的网格重划分数据，获得指示像素位置的运动信息，并且运动信息解码单元基于由通过网格重划分近似曲面数据生成单元获得的近似曲面数据和指定像素位置的坐标数据所构成的输入，在输出图像的图像帧内的指定坐标中输出运动信息。

(6)

根据上述(1)至(5)中任一项的信号处理装置，其中，

包括在所述几何调制处理单元中的所述第二堆叠自动编码器针对所述几何调制处理的不同参数设置中的每个参数设置学习用于对所述近似曲面数据进行几何调制的算法，以及

所述几何调制处理单元根据所述参数设置中的每个参数设置切换所述算法。

(7)

一种信号处理方法，包括：

在基于学习用输入数据而预训练的第一堆叠式自动编码器的中间层中，获得指示对象的近似曲面的近似曲面数据，所述学习用输入数据由针对所述对象的多个元素中的每个元素获取的坐标数据构成，所述近似曲面数据是基于由针对所述元素中的每个元素获取的坐标数据构成的输入数据而获得的；以及

通过使用第二堆叠式自动编码器，对所述近似曲面数据执行几何调制处理，所述第二堆叠式自动编码器已经基于学习用输入数据和训练数据进行机器学习，所述学习用输入数据由近似曲面数据构成，所述训练数据由通过在对所述对象执行的几何调制处理中针对每个所述元素的坐标转换而获得的结果构成。

[参考标号列表]

1 信号处理装置

2 IMU传感器

3 图像传感器

6 四元数计算单元

7 稳定化处理单元

11 参考坐标计算单元

12 缓冲控制单元

13 缓冲存储器

14 存储器控制单元

15 缓存存储器

16 插值滤波器

CR 参考坐标

L1 虚拟线

Pr 参考像素

Ar 参考区域

21格点网生成/形成单元

22 段矩阵生成单元

23 段搜索单元

24网格重划分数据生成单元

25 单个像素坐标插值单元

31 格点网生成器

32 透镜失真校正器

33 投影仪

34 旋转器

35 自由曲率透视投影仪

36 扫描控制器

37 限幅器

38 各格点参考坐标计算器

32b、32a透镜失真校正学习器

33b、33a投影学习器

34b、34a旋转学习器

35b、35a自由曲率透视投影学习器

36b、36a扫描控制学习器

37b、37a限幅学习器

26b、26a格点网段矩阵转换学习器

27b、27a网格重划分学习器

28b、28a网格重划分扩展解码学习器

39格点网近似曲面转换单元。

Claims

1.一种信号处理装置，包括：

近似曲面转换单元，包括第一堆叠式自动编码器，所述第一堆叠式自动编码器将由多个元素构成的对象的每个所述元素的坐标数据作为学习用输入数据进行预训练，并且所述近似曲面转换单元将每个所述元素的坐标数据作为输入数据，在所述第一堆叠式自动编码器的中间层中获得对所述对象进行近似曲面转换而得的近似曲面数据；以及

几何调制处理单元，包括第二堆叠式自动编码器，所述第二堆叠式自动编码器将所述近似曲面数据作为学习用输入数据，并且将通过针对每个所述元素的坐标转换来进行对所述对象的几何调制处理而获得的结果作为训练数据来进行机器学习，并且所述几何调制处理单元通过使用所述第二堆叠式自动编码器对所述近似曲面数据执行所述几何调制处理。

2.根据权利要求1所述的信号处理装置，其中，

作为用于由成像装置捕获的捕获图像的稳定化处理，使用格点网执行所述稳定化处理，所述格点网包括在所述捕获图像的输出坐标系中在水平方向和垂直方向中的每个方向上布置的多个格点，并且所述格点网为每个所述格点提供与所述成像装置相关联的运动信息，并且

所述对象是所述格点网。

3.根据权利要求2所述的信号处理装置，还包括：

格点网段矩阵转换单元，包括第三堆叠式自动编码器，所述第三堆叠式自动编码器将段搜索处理的结果作为训练数据并且将已经经过所述几何调制处理的所述近似曲面数据作为学习用输入数据来进行机器学习，所述段搜索处理用于识别通过以段为单位对所述稳定化处理的输出图像的图像帧进行分割而形成的段矩阵中的各段、位于已经经过所述几何调制处理的所述格点网的各网格中的哪个网格内，并且所述格点网段矩阵转换单元将已经经过所述几何调制处理的所述近似曲面数据作为输入数据，在所述第三堆叠式自动编码器的中间层中获得表示每个段与所述格点网的每个网格之间的对应关系的近似曲面数据。

4.根据权利要求3所述的信号处理装置，还包括：

网格重划分近似曲面数据生成单元，包括第四堆叠式自动编码器，所述第四堆叠式自动编码器由网格重划分数据生成单元获得的网格重划分数据作为训练数据，并且将经过所述几何调制处理的所述近似曲面数据和由所述格点网段矩阵转换单元获得的近似曲面数据作为学习用输入数据来进行机器学习，所述网格重划分数据生成单元基于所述段搜索处理的结果和与各格点相关联的所述运动信息生成所述网格重划分数据，所述网格重划分数据指示段粒度的所述运动信息，并且所述网格重划分近似曲面数据生成单元将由经过所述几何调制处理的所述近似曲面数据、由所述格点网段矩阵转换单元获得的近似曲面数据、和与各格点相关联的所述运动信息作为输入数据，在所述第四堆叠式自动编码器的中间层中获得所述网格重划分数据的近似曲面数据。

5.根据权利要求4所述的信号处理装置，还包括：

运动信息解码单元，包括第五堆叠式自动编码器，所述第五堆叠式自动编码器将由各像素运动信息计算单元获得的每个像素位置的运动信息作为训练数据，并且将由所述网格重划分近似曲面数据生成单元获得的近似曲面数据和指定所述像素位置的坐标数据作为学习用输入数据来进行机器学习，所述各像素运动信息计算单元根据由所述网格重划分数据生成单元获得的所述网格重划分数据求出输出图像的图像帧内的每个像素位置的所述运动信息，并且所述运动信息解码单元将由所述网格重划分近似曲面数据生成单元获得的近似曲面数据和指定所述像素位置的所述坐标数据作为输入，输出在所述输出图像的图像帧内的指定坐标中的运动信息。

6.根据权利要求1所述的信号处理装置，其中，

包括在所述几何调制处理单元中的所述第二堆叠式自动编码器针对所述几何调制处理的不同参数设置中的每个参数设置，学习用于对所述近似曲面数据进行几何调制的算法，以及

所述几何调制处理单元根据所述参数设置切换所述算法。

7.一种信号处理方法，包括：

对于将由多个元素构成的对象的每个所述元素的坐标数据作为学习用输入数据而预训练的第一堆叠式自动编码器，将每个所述元素的所述坐标数据作为输入数据，在所述第一堆叠式自动编码器的中间层中获得对所述对象进行近似曲面转换而得的近似曲面数据；以及

通过使用第二堆叠式自动编码器，对所述近似曲面数据执行几何调制处理，所述第二堆叠式自动编码器将所述近似曲面数据作为学习用输入数据，并且将通过针对每个所述元素的坐标转换进行对所述对象的几何调制处理而获得的结果作为训练数据，来进行机器学习。