CN111294614A

CN111294614A - 用于数字图像、音频或视频数据处理的方法和设备

Info

Publication number: CN111294614A
Application number: CN201911234128.3A
Authority: CN
Inventors: E.胡格博姆; D.张; M.韦林
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-12-06
Filing date: 2019-12-05
Publication date: 2020-06-16
Anticipated expiration: 2039-12-05
Also published as: US20200184595A1; US11276140B2; EP3664017B1; EP3664017A1; CN111294614B

Abstract

用于数字图像、音频或视频数据处理的方法和设备。数字图像数据、数字视频数据或数字音频数据增强的计算机实现方法以及编码或解码该数据特别用于传输或存储的计算机实现方法，其中表示所述数字数据的部分的元素包括元素在多个数据元素的有序输入数据中的位置的指示，多个元素取决于可逆线性映射被变换成表示，可逆线性映射将多个元素的输入映射到表示，可逆线性映射包括至少一个自回归卷积。取决于表示来修改表示以确定经修改的表示。传输和/或存储表示。取决于表示来确定表示输出数据的多个元素，其中表示取决于可逆线性映射的逆被变换。当确定经修改的表示时，取决于它确定表示输出数据的多个元素，经修改的表示取决于可逆线性映射的逆被变换。

Description

用于数字图像、音频或视频数据处理的方法和设备

技术领域

本发明涉及一种用于数字图像、音频或视频数据处理的方法和设备。特别地，本发明涉及一种用于基于生成建模对数字图像、音频或视频数据的增强、传输或存储的计算机实现的方法和设备。

背景技术

已经使用基于似然性的方法和非基于似然性的方法来进行生成建模。基于似然性的方法基于自回归模型和生成流。

Tim Salimans, Andrej Karpathy, Xi Chen, 和Diederik P Kingma的“Pixel-cnn++: Improving the pixelcnn with discretized logistic mixture likelihoodand other modifications.”arXiv 预印本 arXiv:1701.05517, 2017 以及 Aaron vanden Oord, Nal Kalchbrenner, Lasse Espeholt, Oriol Vinyals, Alex Graves, 等人的“Conditional image generation with pixelcnn decoders”在《神经信息处理系统进展》(Advances In Neural Information Processing Systems) pp. 4790-4798, 2016公开了自回归模型的各方面。

发明内容

在一个方面，提供了用于数字图像、音频或视频数据的增强、传输或存储的具有显著改进性能的计算机实现的方法。该计算机实现的方法提供了特别是针对图像变换、针对图像识别、针对异常检测和/或针对图像验证的改进的性能。附加地或可替换地，该计算机实现的方法提供对至少部分自主的车辆或机器人的控制。

在另一方面，提供了特别是根据该计算机实现的方法实现神经网络的显著改进的设计的对应设备。

一种用于数字图像增强的计算机实现的方法包括：表示数字图像像素的元素包括空间维度的指示，空间维度指示该像素在数字图像中的位置，并且其中该元素包括通道维度的指示，通道维度指示该像素在数字图像中的通道，其中表示数字图像像素的多个元素取决于可逆线性映射被变换成表示，其中可逆线性映射将该多个元素的输入映射到该表示，其中取决于该表示来修改该表示以确定经修改的表示，并且其中表示增强数字图像像素的多个元素取决于经修改的表示被确定，其中经修改的表示取决于可逆线性映射的逆被变换，并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆，并且为增强的图像提供有效的数据处理。

有利地，该计算机实现的方法包括根据该方法处理数字视频的多个数字图像。这允许用于视频数据的顺序图像处理。

一种用于数字视频增强的计算机实现的方法包括：表示数字视频的数字图像像素的元素包括空间维度的指示，空间维度指示该像素在数字图像中的位置，并且其中该元素包括通道维度的指示以及时间维度的指示，该通道维度指示该像素在数字图像中的通道，该时间维度指示数字图像在视频时间线中的位置，其中表示数字图像像素的多个元素取决于可逆线性映射被变换成表示，其中可逆线性映射将该多个元素的输入映射到该表示，其中取决于该表示来修改该表示以确定经修改的表示，并且其中表示增强的数字视频的像素的多个元素取决于经修改的表示被确定，其中经修改的表示取决于可逆线性映射的逆被变换，并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆，并且为增强的视频提供有效的数据处理。

一种用于数字音频增强的计算机实现的方法包括：表示数字音频样本的部分的元素包括空间维度的指示，其中空间维度的指示是恒定值，特别是一个恒定值，并且其中该元素包括时间维度的指示，时间维度指示音频样本在音频时间线中的位置，其中表示音频样本的部分的多个元素取决于可逆线性映射被变换成表示，其中可逆线性映射将该多个元素的输入映射到该表示，其中取决于该表示来修改该表示以确定经修改的表示，并且其中表示增强的数字音频样本的部分的多个元素取决于经修改的表示被确定，其中经修改的表示取决于可逆线性映射的逆被变换，并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆，并且为增强的音频提供有效的数据处理。

有利地，数字音频样本包括音频通道，其中该元素包括通道维度的指示，通道维度指示音频样本中的音频通道，并且包括通道维度的指示并表示音频样本的部分的多个元素取决于可逆线性映射被变换成表示，其中可逆线性映射将包括通道维度的指示的多个元素的输入映射到该表示，其中取决于该表示来修改该表示以确定经修改的表示，并且其中包括通道维度的指示并且表示增强的数字音频样本的部分的多个元素取决于经修改的表示被确定，其中经修改的表示取决于可逆线性映射的逆被变换。这为处理具有多个通道的音频提供了进一步的改进。

一种用于编码数字图像数据以便可靠和/或高效传输或存储的计算机实现的方法包括：表示数字图像像素的元素包括空间维度的指示，空间维度指示该像素在数字图像中的位置，并且其中该元素包括通道维度的指示，通道维度指示该像素在数字图像中的通道，其中表示数字图像像素的多个元素取决于可逆线性映射被变换成表示，其中可逆线性映射将该多个元素的输入映射到该表示，其中该表示被传输或存储，并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆，并且为增强的编码提供有效的数据处理。

一种用于解码数字图像数据以便可靠和/或高效传输或存储的计算机实现的方法，包括：从传输接收表示或从存储读取表示，并且其中表示经解码的数字图像的像素的多个元素取决于该表示被确定，其中该表示取决于可逆线性映射的逆被变换，其中可逆线性映射将多个元素的输入映射到该表示，其中该多个元素中表示数字图像像素的元素包括空间维度的指示，空间维度指示该像素在数字图像中的位置，并且其中该元素包括通道维度的指示，通道维度指示该像素在数字图像中的通道，其中表示数字图像像素的多个元素取决于可逆线性映射而可变换成该表示，并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆，并且为增强的解码提供有效的数据处理。

有利地，对于数字视频传输或存储，根据该编码或解码方法来处理数字视频的多个数字图像。这特别地允许用于视频数据的顺序处理。

一种用于编码数字视频数据以便可靠和/或高效传输或存储的计算机实现的方法，包括：表示数字视频的数字图像像素的元素包括空间维度的指示，空间维度指示该像素在数字图像中的位置，并且其中该元素包括通道维度的指示以及时间维度的指示，该通道维度指示该像素在数字图像中的通道，该时间维度指示数字图像在视频时间线中的位置，其中表示数字图像像素的多个元素取决于可逆线性映射被变换成表示，其中可逆线性映射将该多个元素的输入映射到该表示，其中该表示被传输或存储，并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆，并且为增强的编码提供有效的数据处理。

一种用于解码数字视频数据以便可靠和/或高效传输或存储的计算机实现的方法，包括：从传输接收表示或从存储读取表示，并且其中表示经解码的数字视频的像素的多个元素取决于该表示被确定，其中该表示取决于可逆线性映射的逆被变换，其中可逆线性映射将多个元素的输入映射到该表示，其中表示数字视频的数字图像像素的元素包括空间维度的指示，空间维度指示该像素在数字图像中的位置，并且其中该元素包括通道维度的指示以及时间维度的指示，该通道维度指示该像素在数字图像中的通道，该时间维度指示数字图像在视频时间线中的位置，其中表示数字图像像素的多个元素取决于可逆线性映射而可变换成该表示，并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆，并且为增强的解码提供有效的数据处理。

一种用于编码数字音频数据的计算机实现的方法，其特征在于，表示数字音频样本的部分的元素包括空间维度的指示，其中空间维度的第一指示和第二指示是恒定值，特别是一个恒定值，并且其中该元素包括时间维度的指示，时间维度指示音频样本在音频时间线中的位置，其中表示音频样本的部分的多个元素取决于可逆线性映射被变换成表示，其中可逆线性映射将该多个元素的输入映射到该表示，并且其中该表示被传输或存储，并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆，并且为增强的编码提供有效的数据处理。

有利地，数字音频样本包括音频通道，其中该元素包括通道维度的指示，通道维度指示音频样本中的音频通道，并且包括通道维度的指示并表示音频样本的部分的多个元素取决于可逆线性映射被变换成表示，其中可逆线性映射将包括通道维度的指示的多个元素的输入映射到该表示，并且其中该表示被传输或存储。这允许对具有若干通道的音频进行高效处理。

一种用于解码数字音频数据以便可靠和/或高效传输或存储的计算机实现的方法，其特征在于，从传输接收表示或从存储读取表示，并且其中表示经解码的数字音频数据的部分的多个元素取决于该表示被确定，其中该表示取决于可逆线性映射的逆被变换，其中可逆线性映射将多个元素的输入映射到该表示，其中表示数字音频数据的部分的元素包括空间维度的指示，其中空间维度的第一指示和第二指示是恒定值，特别是一个恒定值，并且其中该元素包括时间维度的指示，时间维度指示音频样本在音频时间线中的位置，其中表示音频样本的部分的多个元素取决于可逆线性映射而可变换成表示，并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆，并且为增强的解码提供有效的数据处理。

有利地，数字音频样本包括音频通道，其中该元素包括通道维度的指示，通道维度指示音频样本中的音频通道，并且包括通道维度的指示并表示音频样本的部分的多个元素取决于可逆线性映射而可变换成表示，其中可逆线性映射将包括通道维度的指示的多个元素的输入映射到该表示，并且其中包括通道维度的指示并且表示经解码的数字音频数据的部分的多个元素取决于该表示被确定，并且其中可逆线性映射包括至少一个自回归卷积。这允许对具有若干通道的音频进行高效处理。

有利地，用于可逆线性映射的卷积神经网络根据输入确定该表示。这进一步改进了效率。

有利地，该表示取决于输入和第一卷积滤波器的第一自回归卷积、并且取决于第一自回归卷积和第二卷积滤波器的连续第二自回归卷积而被确定。针对卷积连续使用不同的滤波器（即，核）进一步改进效率。

有利地，自回归卷积对输入施加一次序，使得对于特定元素的表示值仅取决于表示如下输入的输入元素：该输入在所施加的次序中、在该次序中的特定元素之前。该次序可以是图像或视频的数字表示中的像素的次序、音频数据的次序等。这提供了非常灵活和高效的处理。

有利地，输入维度的输入通过多个连续自回归卷积被映射到该表示，其中连续卷积的维度等于或小于输入维度。该约束促进具有允许可逆线性映射的自回归卷积的高效的卷积神经网络。

有利地，针对图像变换、针对图像识别、针对异常检测和/或针对图像验证来修改该表示。通过修改该表示，这些应用可显著地改进。

有利地，取决于沿着维度N一个接一个地级联特别是具有相同大小的多个（N-1）维核来确定用于映射的N维核。这样，用于（N-1）维可逆卷积的核被扩展以用于N维可逆卷积。

有利地，确定N维核包括将（N-1）维核与作为最后维度条目的N维核相关联，其中N维核的最后维度条目的大小定义了中心值，其中对于具有小于中心值的索引的N维核的最后维度中的N维核的任何条目，分配任意值，其中对于具有大于中心值的索引的最后维度中的任何条目，分配零。这样，在N维可逆卷积中仅考虑过去的值。

有利地，取决于该表示、取决于处理该表示的结果和/或取决于通过可逆线性映射的逆确定的音频数据、视频数据或图像数据，控制至少部分自主的车辆或机器人。这为这样的设备的可显著改进的控制提供了框架。

一种设备包括处理器和存储装置，存储装置包括特别地用于卷积神经网络的指令，其中当所述指令被处理器执行时，处理器被适配为执行至少一个计算机实现的方法。

该设备有利地包括被适配为输出图像变换、图像识别、异常检测和/或图像验证的结果的输出。

该设备有利地包括致动器，致动器被适配为取决于该表示、取决于处理该表示的结果和/或取决于通过可逆线性映射的逆确定的音频数据、视频数据或图像数据来控制至少部分自主的车辆或机器人。

附图说明

从以下描述和附图中，另外的有利方面将是清楚的。在附图中：

图1描绘了用于具有单个通道的自回归卷积的填充的可视化，

图2描绘了当使用两个连续的自回归卷积时，在2D中新出现的（emerging）卷积的可视化，

图3描绘了新出现的方形卷积的构造，

图4描绘了流模块的各方面，

图5描绘了多尺度架构的各方面，

图6描绘了用于增强数字图像数据的方法中的步骤，

图7描绘了用于数字视频增强的方法中的步骤，

图8描绘了用于数字音频数据增强的方法中的步骤，

图9描绘了用于编码和解码数字图像数据的方法中的步骤，

图10描绘了用于编码和解码数字视频数据的方法中的步骤，

图11描绘了用于编码和解码数字音频数据的方法中的步骤。

具体实施方式

在用于生成建模的基于似然性的方法中，通过最大化训练样本

的似然性来对数据分布

进行建模：

（1）

示例包括变分自动编码器、自回归模型和生成流。

出于可处理性（tractability）的原因，变分自动编码器最大化关于似然性的下界。自回归模型和生成流通过利用双射变量变换直接最大化似然性。

将自回归模型、生成流以及该方法的以下描述背后的数学背景如下给出。

该方法旨在借助于双射随机变量变换来学习生成模型分布。

假设函数f的存在，该函数f将x（诸如图像）映射到随机变量z上，即

。

当f是可逆的并且因此是双射的（

）时，复概率密度

等于在简单概率密度

之下的变换的概率密度乘以雅可比行列式

（2）

利用z的可处理的先验概率密度

，于是可以评估概率密度函数

。

在机器学习的上下文中，函数f例如通过神经网络建模，并且然后被训练为使所有训练样本的似然性最大化。

在两个约束之下进行对应神经网络的构造：

首先，雅可比的对数行列式应该是可处理的。其次，函数f的逆是可处理的，使得新的样本可以被生成为

。由于这两个约束限制了函数f的设计空间，因此得到的模型可能仅是近似。换言之，设计用于描述函数f的神经网络对于达到具有可伸缩的可处理性的良好建模准确性是关键的。

为了设计函数f，自回归模型利用以下因式分解对数据概率密度

建模：

（3）

即，x的第i个元素

取决于先前的元素

。利用该自回归结构，下面的函数f的逆的雅可比是三角形的，因此易于评估等式（2）。

为了定义等式（3）中的因式分解，必须预先指定x的所有元素的排序，例如，如果x是图像并且

代表一个像素，则逐行或逐列地预先指定x的所有元素的排序。

当对训练数据样本建模时，排序施加了顺序结构。然而，这样的结构可能与真实数据生成过程不一致，因此损害准确性。此外，当使用经训练的自回归模型生成样本时，x的每个条目必须遵循给定的次序而被顺序地生成。这限制了其用于延迟关键的应用。

在另一方面，生成流不对数据施加任何特定的结构。样本生成可以并行进行，这使得它们可伸缩。然而，生成流变换到目前为止已受到限制，即函数f的设计空间进一步变窄。

在Laurent Dinh, Jascha Sohl-Dickstein和Samy Bengio的“Densityestimation using real nvp.”arXiv预印本arXiv:1605.08803, 2016中，作者使用了一种分离数据的特定维度的机制。通过其他维度使特定维度上的仿射变换参数化。

在Diederik P Kingma和Prafulla Dhariwal的“Glow: Generative flow withinvertible 1x1 convolutions.”arXiv预印本arXiv:1807.03039, 2018中，作者提出了1乘1可逆卷积，其是在使用真实nvp进行密度估计中使用的通道排列的广义化。

下面描述的方法使用在下面描述中被称为可逆2D卷积的更具表达性的变换。在该上下文中的2D是指二维，即在变换中确定二维卷积。该变换在下面被称为可逆线性映射。该上下文中的线性映射是指矩阵向量乘法，如果矩阵是可逆的，则该矩阵向量乘法是可逆的。可逆自回归卷积是一种特殊类型的线性映射。它的相关联矩阵是三角形的。可逆2D卷积利用自回归结构来计算确切的逆，并且与针对生成流设计的层兼容。更具体地，基于自回归卷积提供可逆2D卷积。并且为高效的新出现的可逆卷积提供方形感受野（receptive field）。

在以下描述中，使用数字图像数据处理来描述该方法。表示数字图像的像素的元素

包括空间维度D₁、D₂的指示d₁、d₂以及通道维度C的指示c。在该上下文中，像素是指包括数字图像的部分的表示（例如c、d₁、d₂）的元组。在该示例中，元素

通过索引c、d₁、d₂来表示像素。

空间维度d₁、d₂指示像素在数字图像中的位置。在一个方面，笛卡尔坐标（即空间维度的第一指示d₁和空间维度的第二指示d₂）可以从数字图像的左下角开始用于矩形数字图像。非矩形（例如椭圆形或圆形）的数字图像可以通过添加像素以创建具有矩形空间维度的数字图像而被处理。

通道维度C指示像素在数字图像中的通道。通道维度一般不受限制。对于数字彩色图像而言，通道维度包括例如数字彩色图像的颜色通道。更具体地，可以根据加性颜色模型、例如使用红R、绿G、蓝B颜色来编码数字图像。例如，颜色通道R、G、B被编码为通道号R=0、G=1、B=2。可以相像地使用减性颜色模型，例如使用青色、品红色、黄色和黑色的CMYK颜色模型。

在以灰度编码的数字图像中，通道维度可以反映可用于编码的黑色阴影（shade）。在黑白数字图像中，通道维度可以被减小到单个通道。

下面描述可逆自回归卷积、2D卷积的新出现的卷积、可逆的新出现的方形卷积和可逆循环卷积的各方面。这些为此后描述的神经网络架构提供了基础。

可逆自回归卷积

自回归卷积对图像中的像素施加一次序，该次序强制值仅受一像素“之前”而不是“之后”的像素制约。这些卷积是自回归的，即顺序地回归下面的像素值。在示例中，通过卷积滤波器上的零填充来强制该次序。图1示意性地描绘了用于具有单个通道的自回归卷积的填充的可视化。图1中的白色区域标示填充。在图1中，卷积滤波器是行向量。从图1的左侧到图1的右侧，描绘了1D、2D和3D卷积填充。1D、2D和3D是指卷积的维度，即1D是指一维卷积，2D是指二维卷积，并且3D是指三维卷积。图1中的1D卷积滤波器具有3乘1像素的维度，其中最左边的像素被零填充。2D卷积滤波器具有3乘3像素的维度，其中最低的像素行和第二行的最右边的像素被零填充。3D卷积滤波器使用具有不同的零填充像素的3乘3维度的三个卷积滤波器。在图1中，一个通道的像素在标示滤波器的较大矩形中被标示为小方形。

作为示例，具有单个通道的音频信号的输入是时间维度，而空间维度和通道维度变为一个。对于该输入，例如使用1D卷积。作为另一个示例，灰度图像的输入是高度和宽度，因为空间维度D1、D2和通道维度C以及时间维度变为一个。对于具有若干颜色通道的彩色图像，输入是高度、宽度、通道。对于该输入，使用3D卷积。对于视频信号，输入是高度、宽度、时间、通道。对于该输入，使用4D卷积。

用于1D卷积的核k例如是作为核的行向量。用于2D卷积的核k例如是作为核的矩阵。对于卷积的每个维度，核维度增加一个维度。用于3D卷积的核k具有立方维度。

从1D、2D和3D进行广义化以用于N维可逆卷积，其中N是正整数N，下面的归纳掩蔽策略适用：

给定用于（N-1）维卷积的核，该核被扩展到用于N维卷积的核。

N维核可以被看作是沿着维度N一个接一个地级联具有相同大小的多个（N-1）维核。于是最后维度的大小K_N等于（N-1）维核的数量。由k为最后维度的条目做索引，范围从0到K_N -1。k的中心值被标示为k_ct并且等于floor（

）。K_N个（N-1）维核中的每一个都可以与N维核相关联，N维核具有呈现在0与K_N -1之间的特定值的最后维度条目k。给定用于（N-1）维可逆卷积的核，通过三个步骤扩展该核以用于N维可逆卷积。首先，（N-1）维核与N维核相关联，N维核具有等于k_ct的最后维度条目k。其次，对于最后维度中其索引小于k_ct的任何条目，N维核可以呈现任意值。第三，对于最后维度中其索引大于k_ct的任何条目，N维核仅可以呈现零。

例如，5维核具有（K₁，K₂，K₃，K₄，K₅）的大小。K₅代表核在其最后维度N=5中的维度大小，而K₁、K₂、K₃、K₄是核的前4个维度的维度大小。在K₅ = 5的情况下，最后维度的中心条目等于k_ct = 2。对于具有最后维度索引k < k_ct的5维核的条目，可以使用非零值。对于具有k >k_ct的其他条目，使用值零。这意味着卷积不依赖于未来的值，即在输入次序中在k_ct之后的值。使用过去的信息，即在输入次序中在k_ct之前的值。对于k = k_ct——其指示在输入次序中维度N中的现在（present），基于已被定义的（N-1）卷积的核来查看所有先前的维度。

自回归卷积的线性变换原则上可被表达为三角形矩阵。为了以线性时间计算雅可比行列式，仅需查找该矩阵的对角条目。

可通过顺序地遍历通过所施加的次序来计算自回归卷积的逆。

假设卷积

，其中滤波器k在其边界外部利用零被无限地填充，并且以坐标（0，0）为中心。通道c中z的

元素等于

（4）

其中c是通道的索引，并且

是空间索引，即在数字图像的示例中的维度d1、维度d2。数字图像的表示

是由元素的线性映射产生的潜在变量z。

可利用被称为前向/后向替换（substitution）的过程来计算等式（4）中给出的卷积的逆，

（5）

以自回归卷积施加的次序计算逆

。

可逆自回归卷积对输入施加一次序，使得对于特定元素的表示值仅取决于表示如下输入的输入元素：该输入在所施加的次序中、在该次序中的斑点元素（speck element）之前。

输入维度的输入通过多个连续自回归卷积被映射到表示，其中连续卷积的维度等于或小于输入维度。

在一个方面，该表示取决于输入和第一卷积滤波器的第一自回归卷积、并且取决于第一自回归卷积和第二卷积滤波器的连续第二自回归卷积而被确定。

在用于实现该方法的人工神经网络中，上述被实现为卷积层。这样的卷积层不仅可适用于人工神经网络的输入层，而且还可适用于人工神经网络的隐藏层。

如上所述，特别是用于可逆线性映射的卷积神经网络根据输入确定表示。更具体地，该表示是取决于至少一个可逆自回归卷积而根据输入确定的。

在该上下文中的特别是用于两个输入通道的线性映射是指来自第一通道的第一输入和来自第二通道的第二输入通过自回归卷积被映射到潜在变量。一般而言，可逆线性映射包括至少一个自回归卷积。并且该卷积是可逆的，因为它们是自回归的。

在该上下文中的可逆自回归卷积是指通过自回归卷积的线性映射，该自回归卷积对输入施加一次序，使得输入的表示值仅取决于表示如下输入的元素：该输入在所施加的次序中、在该次序中的特定输入元素之前。在该次序中的特定输入元素之后的输入元素被零填充。通过以自回归卷积施加的次序计算逆，该线性映射、即自回归卷积是可逆的。

2D卷积的新出现的卷积

自回归卷积当被独立使用时是更不具表达性的。图1中的卷积被限制到使用数字图像坐标的上方或左边的值。然而，可以通过合成不同的自回归卷积来克服该限制。通过执行连续的自回归卷积，构造具有丰富感受野的新出现的卷积是可能的。在图2中描绘了使用两个接续的自回归卷积的新出现的卷积的感受野。

在图2中，每行在两个左列中指示使用不同卷积滤波器应用于数字图像的两个接续的卷积。在该示例中，右列中的第一卷积滤波器对于所有行都是相同的。在该示例中，中间列中的第二卷积滤波器相对于第一卷积滤波器旋转、取逆或者旋转并取逆。右列指示根据接续的卷积的有效卷积滤波器。图2中的白色区域标示填充。

可逆的新出现的方形卷积

两个自回归卷积可以被修改以获得具有方形感受野的等效卷积。这在图3中被示意性地描绘。可以利用两种方法高效地计算用于3乘3滤波器的新出现的方形卷积：

a）卷积可以被表达为两个连续的2乘2卷积。

b）可以对滤波器（g和h）进行卷积以获得等效的3乘3滤波器。然后通过滤波器

与特征图（feature map）f之间的卷积获得卷积的输出：

注意到，在深度学习框架中，卷积实际上通常是互相关（cross-correlation）。等式中

标示互相关，并且

标示卷积。在描述中，两个操作均被称为卷积。

此外，任何d乘d卷积都可以通过两个连续的自回归k乘k卷积来表达，其中k =（d +1）/2。仅在采样期间有必要计算逆，该逆将被计算为分解的卷积的逆。

可逆循环卷积

两个信号的傅里叶变换的乘法等效于其卷积的傅里叶变换。卷积层的计算是互相关的聚合，如等式（6）中所示。注意到，因为傅里叶变换假设周期函数，所以获得的卷积是循环的。这些卷积是1乘1卷积的广义化。换言之，1x1卷积是循环卷积的特例。

（6）

每个相关可以写成频域中的乘法。令函数

标示傅里叶变换并且

标示傅里叶逆变换。令

和

作为频域中的输出、输入和滤波器信号。因为这些是互相关，因此

标示

的镜像和复共轭。在频域中，卷积输出被计算为滤波器和输入的频域表示之间的逐元素（elementwise）乘法（由

标示）。

（7）

如果我们在每个频率分量u、v处分离计算，则求和等效于矩阵乘法。输出向量

可以写成矩阵

和输入向量

的乘法，如（8）中所示。这里

是

矩阵。可以通过取得傅里叶逆变换来检索输出特征图

。

（8）

由于傅里叶变换及其逆变换是酉变换，因此傅里叶变换的行列式等于一。频域中的变换的行列式可以写成滤波器的对数行列式之和（9）。

（9）

如（10）中所示，对循环卷积取逆需要针对每个频率u、v对矩阵

的逆。通过傅里叶逆变换获得输入特征图

。

（10）

人工神经网络架构

下面参考图4描述实现生成流的示例性人工神经网络架构。在步骤402中，对输入执行激活标准化，简称“actnorm”。

人工神经网络执行例如特别是使用每通道的尺度和偏置参数以及对于小批量大小1的仿射变换。

该步骤中的参数可以是可训练的，并且被初始化，例如使得第一小批量数据在actnorm之后具有均值0和标准偏差1。

此后，在步骤404中执行1x1卷积。1x1卷积特别地具有相等数量的输入和输出通道。

此后，在步骤406中执行如上所述的可逆卷积。例如，在该步骤中可以执行2D卷积的新出现的卷积、可逆的新出现的方形卷积或可逆的循环卷积。

此后，在步骤408中执行1x1卷积。1x1卷积特别地具有相等数量的输入和输出通道。

此后，在步骤410中执行仿射耦合层以确定生成流的输出。

步骤402至410被包括在新的流模块400中，该流模块400作为流模块被包括在如图5中所描绘的多尺度架构500中。

可以如“Glow: Generative flow with invertible 1x1 convolutions”中所描述的那样来实现步骤402、404、408和410以及多尺度架构500。

在多尺度架构500中， K意味着按顺序次序的K次流操作。三个步骤——挤压、流操作和分裂作为整块被重复L次。在每次，分裂生成一个z_l 作为最终z表示的部分输出，并且将另一个馈送到下一个挤压、流操作和分裂，这输出z_l+1。最后的挤压、流操作和分裂与在结束处的挤压和流操作一起生成z的最后部分（即z_L）。

基于该方法技术，在以下部分中描述了计算机实现的方法的各方面，这些方面显著改进了数字图像、音频或视频数据的增强、传输或存储的性能。计算机实现的方法提供了特别是针对图像变换、针对图像识别、针对异常检测和/或针对图像验证的改进的性能。该计算机实现的方法可以在对至少部分自主的车辆或机器人的控制中使用。

增强数字图像数据

下面参考图6描述了用于增强数字图像数据的方法。

在步骤602中，表示数字图像像素的多个元素

取决于可逆线性映射被变换成表示

。

可逆线性映射将多个元素

的输入映射到表示

。

例如根据可逆线性映射来确定该表示。

在步骤604中，取决于表示

修改表示

以确定经修改的表示

。

在步骤606中，取决于经修改的表示

，确定表示增强的数字图像的像素的多个元素

。取决于可逆线性映射的逆来变换经修改的表示

。

取决于可逆线性映射的逆来变换经修改的表示

，例如根据

上述方法可以应用于数字音频或数字视频处理。下面将描述数字音频或数字视频处理的各方面。

数字视频增强

在一个方面，根据上述用于数字图像增强的方法，数字视频的多个数字图像特别是顺序地被处理以用于数字视频增强。

参考图7描述了用于数字视频增强的计算机实现的方法。

表示数字视频的数字图像像素的元素

包括空间维度D₁、D₂的指示d₁、d₂、通道维度C的指示c、时间维度T的指示t。在该上下文中，像素是指包括数字视频的部分的表示（例如，c、t、d₁、d₂）的元组。

空间维度D₁、D₂指示像素在数字图像中的位置，如针对数字图像处理所描述的。通道维度C指示像素在数字图像中的通道，如针对数字图像处理所描述的。

时间维度T指示数字图像在视频时间线中的位置。

在步骤702中使用该附加维度。在步骤702中，线性映射将多个元素

的输入映射到表示

。例如根据如下可逆线性映射来确定该表示

这意味着表示数字图像像素的多个元素

取决于该可逆线性映射被变换成表示

。

在步骤704中，取决于表示

修改表示

以确定经修改的表示

。

在步骤706中，取决于经修改的表示

确定表示增强的数字视频的像素的多个元素

。经修改的表示

取决于可逆线性映射的逆被变换，例如根据

数字音频增强

参考图8描述了用于数字音频增强的计算机实现的方法。

表示数字音频样本的部分的元素

包括空间维度D₁、D₂的第一指示d₁和第二指示d₂。并且空间维度D₁、D₂的第一指示d₁和第二指示d₂是恒定值，特别是一个恒定值。

元素

包括时间维度T的指示t。时间维度T指示音频样本在音频时间线中的位置。

在步骤802中，表示音频样本的部分的多个元素

取决于可逆线性映射被变换成表示

。可逆线性映射将多个元素

的输入映射到表示

。在一个方面，仅有一个音频通道，即在该示例中没有使用通道维度。

例如根据可逆线性映射来确定该表示

在步骤804中，取决于表示

修改表示

以确定经修改的表示

。

在步骤806中，取决于经修改的表示

确定表示增强的数字音频样本的部分的多个元素

。

经修改的表示

取决于可逆线性映射的逆被变换，例如根据

在另一方面，数字音频样本包括音频通道。在该示例中，元素

包括通道维度C的指示c。通道维度C指示音频样本中的音频通道。

在该方面，在步骤802中，包括通道维度C的指示c并且表示音频样本的部分的多个元素

取决于可逆线性映射被变换成表示

。可逆线性映射将包括通道维度C的指示c的多个元素

的输入映射到表示

。例如根据如下可逆线性映射来确定该表示

在步骤804中，取决于表示

来修改该表示

以确定经修改的表示

。

在步骤806中，取决于经修改的表示

确定包括通道维度C的指示c并且表示增强的数字音频样本的部分的多个元素

。经修改的表示

取决于可逆线性映射的逆被变换，例如根据

。

编码和解码数字图像数据、传输或存储

参考图9描述了用于编码数字图像数据的方法以及用于解码数字图像数据的方法。

在步骤902中，如在用于增强数字图像数据的方法中的步骤602中所描述的那样确定表示

。

此后，在步骤904中，并且附加于或代替于如步骤604中描述的修改表示，传输或存储该表示。这提供了可靠和/或高效的传输或存储。

在步骤906中，从传输接收表示

或者从存储读取表示

。

此后，在步骤908中，如步骤606中所描述的，取决于表示

来确定表示经解码的数字图像的像素的多个元素

。

编码和解码数字视频数据、传输或存储

在一个方面，根据特别是用于传输或存储的用于编码数字图像数据的方法以及用于解码数字图像数据的方法来处理数字视频的多个数字图像。

在另一方面，参考图10描述了特别是用于传输或存储的用于编码数字视频数据的方法以及用于解码数字视频数据的方法。

如步骤702中所描述的，表示数字图像的像素的多个元素

被变换成表示

。

此后，在步骤1004中，并且附加于或代替于如步骤704中描述的修改表示，传输或存储表示

。这提供了可靠和/或高效的传输或存储。

在步骤1006中，从传输接收表示

或者从存储读取表示

。

此后，在步骤1008中，如步骤706中所描述的，确定表示经解码的数字视频的像素的多个元素

。

编码和解码数字音频数据、传输或存储

参考图11描述了特别是用于传输或存储的用于编码数字音频数据的方法以及用于解码数字音频数据的方法。

在一个方面，处理数字音频数据样本的一个通道。在另一方面，处理多个通道。

在步骤1102中，为了处理一个通道，表示音频样本的部分的多个元素

被变换成表示

，如步骤802中所描述的。为了处理多个通道，处理包括通道维度C的指示c的多个元素

，如步骤802中所描述的。

此后，在步骤1104中，传输或存储表示

或包括通道维度C的指示c的表示

。

在步骤1106中，从存储传输或读取表示

或包括通道维度C的指示c的表示

。

此后，在步骤1108中，如在步骤806中所描述那样，确定表示经解码的数字音频数据的部分的多个元素

或包括通道维度C的指示c的多个元素

。

在上述修改表示的步骤中，例如针对图像变换、针对图像识别、针对异常检测和/或针对图像验证来修改表示。数字音频和数字视频数据也可以出于变换、识别、异常检测和/或验证的目的而被处理。

在一个方面，取决于上述表示中的至少一个、取决于处理这些表示中的至少一个的结果和/或由通过如上所述的可逆线性映射的逆所确定的音频数据、视频数据或图像数据来控制至少部分自主的车辆或机器人。

Claims

1.一种用于数字图像增强的计算机实现的方法，其特征在于，表示数字图像像素的元素

包括空间维度

的指示

，空间维度

指示所述像素在数字图像中的位置，并且其中元素

包括通道维度

的指示

，通道维度

指示所述像素在数字图像中的通道，其中表示数字图像像素的多个元素

取决于可逆线性映射被变换成表示

，其中可逆线性映射将多个元素

的输入映射到表示

，其中取决于表示

修改表示

以确定经修改的表示

，并且其中表示增强的数字图像的像素的多个元素

取决于经修改的表示

被确定，其中经修改的表示

取决于可逆线性映射的逆被变换，并且其中可逆线性映射包括至少一个自回归卷积。

2.一种用于数字视频增强的计算机实现的方法，其特征在于，根据权利要求1所述的方法处理数字视频的多个数字图像。

3.一种用于数字视频增强的计算机实现的方法，其特征在于，表示数字视频的数字图像像素的元素

包括空间维度

的指示

，空间维度

指示所述像素在数字图像中的位置，并且其中元素

包括通道维度

的指示

以及时间维度

的指示

，通道维度

指示所述像素在数字图像中的通道，时间维度

指示数字图像在视频时间线中的位置，其中表示数字图像像素的多个元素

取决于可逆线性映射被变换成表示

，其中可逆线性映射将多个元素

的输入映射到表示

，其中取决于表示

修改表示

以确定经修改的表示

，并且其中表示增强的数字视频的像素的多个元素

取决于经修改的表示

被确定，其中经修改的表示

4.一种用于数字音频增强的计算机实现的方法，其特征在于，表示数字音频样本的部分的元素

包括空间维度的指示，其中空间维度的指示是恒定值，特别是一个恒定值，并且其中元素

包括时间维度

的指示

，时间维度

指示音频样本在音频时间线中的位置，其中表示音频样本的部分的多个元素

取决于可逆线性映射被变换成表示

，其中可逆线性映射将多个元素

的输入映射到表示

，其中取决于表示

来修改表示

以确定经修改的表示

，并且其中表示增强的数字音频样本的部分的多个元素

取决于经修改的表示

被确定，其中经修改的表示

5.根据权利要求4所述的计算机实现的方法，其中，数字音频样本包括音频通道，其中元素

包括通道维度

的指示

，通道维度

指示音频样本中的音频通道，并且包括通道维度

的指示

并表示音频样本的部分的多个元素

取决于可逆线性映射被变换成表示

，其中可逆线性映射将包括通道维度

的指示

的多个元素

的输入映射到表示

，其中取决于表示

修改表示

以确定经修改的表示

，并且其中包括通道维度

的指示

并表示增强的数字音频样本的部分的多个元素

取决于经修改的表示

被确定，其中经修改的表示

取决于可逆线性映射的逆被变换。

6.一种用于编码数字图像数据以便可靠和/或高效传输或存储的计算机实现的方法，其特征在于，表示数字图像像素的元素

包括空间维度

的指示

，空间维度

指示所述像素在数字图像中的位置，并且其中元素

包括通道维度

的指示

，通道维度

取决于可逆线性映射被变换成表示

，其中可逆线性映射将多个元素

的输入映射到表示

，其中表示

被传输或存储，并且其中可逆线性映射包括至少一个自回归卷积。

7.一种用于解码数字图像数据以便可靠和/或高效传输或存储的计算机实现的方法，其特征在于，从传输接收表示

或从存储读取表示

，并且其中表示经解码的数字图像的像素的多个元素

取决于表示

被确定，其中表示

取决于可逆线性映射的逆被变换，其中可逆线性映射将多个元素

的输入映射到表示

，其中多个元素

中表示数字图像像素的元素

包括空间维度

的指示

，空间维度

指示所述像素在数字图像中的位置，并且其中元素

包括通道维度

的指示

，通道维度

取决于可逆线性映射而可变换成表示

，并且其中可逆线性映射包括至少一个自回归卷积。

8.一种用于数字视频传输或存储的计算机实现的方法，其特征在于，根据权利要求6或7所述的方法处理数字视频的多个数字图像。

9.一种用于编码数字视频数据以便可靠和/或高效传输或存储的计算机实现的方法，其特征在于，表示数字视频的数字图像像素的元素

包括空间维度

的指示

，空间维度

指示所述像素在数字图像中的位置，并且其中元素

包括通道维度

的指示

以及时间维度

的指示

，通道维度

指示所述像素在数字图像中的通道，时间维度

取决于可逆线性映射被变换成表示

，其中可逆线性映射将多个元素

的输入映射到表示

，其中表示

10.一种用于解码数字视频数据以便可靠和/或高效传输或存储的计算机实现的方法，其特征在于，从传输接收表示

或从存储读取表示

，并且其中表示经解码的数字视频的像素的多个元素

取决于表示

被确定，其中表示

的输入映射到表示

，其中表示数字视频的数字图像像素的元素

包括空间维度

的指示

，空间维度

指示所述像素在数字图像中的位置，并且其中元素

包括通道维度

的指示

以及时间维度

的指示

，通道维度

指示所述像素在数字图像中的通道，时间维度

取决于可逆线性映射而可变换成表示

，并且其中可逆线性映射包括至少一个自回归卷积。

11.一种用于编码数字音频数据的计算机实现的方法，其特征在于，表示数字音频样本的部分的元素

包括空间维度

的指示

，其中空间维度

的第一指示和第二指示是恒定值，特别是一个恒定值，并且其中元素

包括时间维度

的指示

，时间维度

取决于可逆线性映射被变换成表示

，其中可逆线性映射将多个元素

的输入映射到表示

，并且其中表示

12.根据权利要求11所述的计算机实现的方法，其中，数字音频样本包括音频通道，其中元素

包括通道维度

的指示

，通道维度

指示音频样本中的音频通道，并且包括通道维度

的指示

并表示音频样本的部分的多个元素

取决于可逆线性映射被变换成表示

，其中可逆线性映射将包括通道维度

的指示

的多个元素

的输入映射到表示

，并且其中表示

被传输或存储。

13.一种用于解码数字音频数据以便可靠和/或高效传输或存储的计算机实现的方法，其特征在于，从传输接收表示

或从存储读取表示

，并且其中表示经解码的数字音频数据的部分的多个元素

取决于表示

被确定，其中表示

的输入映射到表示

，其中表示数字音频数据的部分的元素

包括空间维度

的指示

，其中空间维度

包括时间维度

的指示

，时间维度

取决于可逆线性映射而可变换成表示

，并且其中可逆线性映射包括至少一个自回归卷积。

14.根据权利要求13所述的计算机实现的方法，其中，数字音频样本包括音频通道，其中元素

包括通道维度

的指示

，通道维度

指示音频样本中的音频通道，并且包括通道维度

的指示

并表示音频样本的部分的多个元素

取决于可逆线性映射而可变换成表示

，其中可逆线性映射将包括通道维度

的指示

的多个元素

的输入映射到表示

，并且其中包括通道维度

的指示

并表示经解码的数字音频数据的部分的多个元素取决于表示

被确定，并且其中可逆线性映射包括至少一个自回归卷积。

15.根据前述权利要求中的一项所述的计算机实现的方法，其中，用于可逆线性映射的卷积神经网络根据输入确定所述表示。

16.根据前述权利要求中的一项所述的计算机实现的方法，其中，所述表示取决于输入和第一卷积滤波器的第一自回归卷积、并且取决于第一自回归卷积和第二卷积滤波器的连续第二自回归卷积而被确定。

17.根据前述权利要求中的一项所述的计算机实现的方法，其中，自回归卷积对输入施加一次序，使得对于特定元素的表示值仅取决于表示如下输入的输入元素：所述输入在所施加的次序中、所述次序中的特定元素之前。

18.根据前述权利要求中的一项所述的计算机实现的方法，其中，输入维度的输入通过多个连续自回归卷积被映射到所述表示，其中连续卷积的维度等于或小于输入维度。

19.根据前述权利要求中的一项所述的计算机实现的方法，包括，取决于沿着维度N一个接一个地级联特别是具有相同大小的多个（N-1）维核来确定用于映射的N维核。

20.根据权利要求19所述的计算机实现的方法，其中，确定N维核包括将（N-1）维核与作为最后维度条目

的N维核相关联，其中N维核的最后维度的大小定义了中心值

，其中对于具有小于中心值

的索引

的N维核的最后维度中的N维核的任何条目，分配任意值，其中对于具有大于中心值

的索引

的最后维度中的任何条目，分配零。

21.根据前述权利要求中的一项所述的计算机实现的方法，其中，针对图像变换、针对图像识别、针对异常检测和/或针对图像验证来修改所述表示。

22.根据前述权利要求中的一项所述的计算机实现的方法，其中，取决于所述表示、取决于处理所述表示的结果和/或取决于通过可逆线性映射的逆确定的音频数据、视频数据或图像数据，控制至少部分自主的车辆或机器人。

23.一种设备，包括处理器和存储装置，存储装置包括特别地用于卷积神经网络的指令，其中当所述指令被处理器执行时，处理器被适配为执行根据权利要求1至21中的一项所述的计算机实现的方法。

24.根据权利要求23所述的设备，包括输出，其被适配为根据权利要求19输出图像变换、图像识别、异常检测和/或图像验证的结果。

25.根据权利要求23或24所述的设备，包括致动器，其被适配为取决于所述表示、取决于处理所述表示的结果和/或取决于通过可逆线性映射的逆确定的音频数据、视频数据或图像数据来控制至少部分自主的车辆或机器人。

26.一种计算机可读介质，包括指令，所述指令当由计算机执行时，使得计算机施行权利要求1至22中任一项所述的方法的步骤。

27.一种计算机程序，包括指令，所述指令当由计算机执行时，使得计算机施行权利要求1至22中任一项所述的方法的步骤。