CN114787828A

CN114787828A - 利用具有有意受控畸变的成像器进行人工智能神经网络的推理或训练

Info

Publication number: CN114787828A
Application number: CN202080079552.XA
Authority: CN
Inventors: P·鲁莱特; P·科宁; P·妮妮; S·蒂鲍尔特; J·帕伦特; V·娜塔辛; J·布凯
Original assignee: Jiyi Meijing Co
Current assignee: Jiyi Meijing Co
Priority date: 2019-11-18
Filing date: 2020-11-17
Publication date: 2022-07-22
Also published as: JP2024026745A; JP2023502653A; US20210150679A1; WO2021099942A1

Abstract

公开了一种用于训练和使用具有有意畸变的图像的卷积神经网络的方法。通过有意地使图像畸变以创建具有更高像素数量的感兴趣区域，所述神经网络的结果输出得到改善。使用成像器装置来创建畸变图像，所述成像器装置包括专门设计用于输出畸变图像的光学系统或者包括软件或硬件图像畸变处理算法以从正常图像创建畸变图像。还描述了一种使用来自各种现有数据集的畸变图像生成器训练神经网络的方法。

Description

利用具有有意受控畸变的成像器进行人工智能神经网络的推理或训练

相关申请的交叉引用

本申请要求目前未决的于2019年11月18日提交的美国临时专利申请No.62/936,647，名称为“Using imager with on-purpose controlled distortion for inferenceor training of an artificial intelligence neural network”权益，其全部内容通过引用并入本文。

背景技术

本发明的实施例涉及人工智能卷积神经网络及其使用领域，并且更具体地涉及如何利用具有受控畸变的成像器来正确使用这些神经网络。

由于个人计算机、移动装置或大型公司的大型服务器集群的处理能力日益增强，使用人工智能处理或分析数字图像文件越来越受欢迎。人工智能使用的兴起还可以用其在广泛应用中可能带来的新功能来解释。

在分析数字图像文件时，最常见的神经网络类型是卷积神经网络，这意味着某些卷积运算是在网络的某些层中执行的。过去已经提出了使用神经网络(NN)处理用于一般应用的数字图像文件的想法，包括在美国专利号9,715,642、9,754,351或10,360,494中卷积神经网络(CNN)的使用。过去将卷积神经网络用于某些特定应用也已被广泛提出，包括美国专利申请公开号No.2018/0032844中的对象识别，美国专利No.10,268,947中的人脸识别，美国专利No.10,353,271中的深度估计，美国专利申请公开号No.2018/0150684中的年龄和性别估计，等等。

然而，现有的卷积神经网络处理图像在输入图像分辨率方面受到很大限制，特别是对于需要全局图像分析的应用，这些应用不能被顺序地应用于图像的更小子部分，例如单个图像的深度估计。使用具有约10GB的RAM存储器的GPU的现代计算机，这些神经网络目前仅限于分析和处理约512x512分辨率的图像(约0.25MPx)，其大大低于现代移动设备或相机中可用的约20-50MPx图像。与使用输入图像的全分辨率可能的情况相比，对于某些应用可以有效处理的数字图像文件的分辨率限制的结果是神经网络的处理或分析较差。这种限制在处理能力受到高度限制的嵌入式系统应用中更为关键。

在不必增加图像中的像素总数的情况下增加感兴趣对象上的像素数量的一种方法是使用有意受控畸变。在光学系统、硬件或软件级别上有意地修改图像分辨率的想法在过去已经提出，如在美国专利No.6,844,990、No.6,865,028、No.9,829,700或No.10,204,398中。但是，在现有的卷积神经网络中，无法很好地分析或处理来自成像器的这些畸变图像，并且需要新型的网络或训练方法来使用具有有意受控畸变的图像。在神经网络中具有高分辨率输入的另一种方法是裁剪完整图像的子区域，并仅在神经网络内部分析该子区域。然而，裁剪完整图像的子区域或感兴趣区域会失去完整场景信息和连续性，这在神经网络需要来自完整场景的全局信息以提供最佳输出的应用中很重要。

一种通常具有受控畸变的数字图像文件是广角图像，其总视场通常大于约80°。然而，与没有受控畸变的窄角图像相比，这种带有相关地面实况数据的广角图像很少见。用于训练现有神经网络的大多数现有大型图像数据集都是基于没有畸变的窄角图像，因此需要一种新的训练方法使用广角图像或具有有意受控畸变的窄角图像来训练神经网络。

发明内容

为了克服前面提到的所有问题，本发明的实施例提出了一种使用具有有意目标畸变的图像训练和使用卷积神经网络方法。

在根据本发明的优选实施例中，该方法从成像器创建具有受控畸变的数字图像文件开始。该成像器可以是创建畸变图像的任何装置，包括虚拟图像生成器、图像畸变变换软件或硬件、或者具有光学系统的装置，该光学系统使用该光学系统焦平面中的图像传感器直接捕获具有受控畸变的图像。该成像器可以输出具有独特的静态畸变分布(profile)或可以随时间变化的动态畸变分布的图像。对于该优选实施例，从成像器输出的具有受控畸变的图像具有至少一个感兴趣区域，其中分辨率(以对象视场的每度像素计算)比没有受控畸变的正常数字图像文件高至少10％。然后将具有受控畸变的图像输入任意类型的神经网络。该神经网络通常包括至少一层卷积运算，但根据本发明并不总是需要。该神经网络可以在任何能够执行算法的物理装置上运行。当该神经网络已被使用具有受控畸变的图像专门训练时，它可以处理输入的畸变图像。将该畸变图像输入用畸变图像集专门训练的神经网络中，得到的结果是在像素数量增加的感兴趣区域中更精确的结果输出解释数据，这也有助于在感兴趣区域之外的图像的其他部分获得改善的结果。解释数据的这种改善的结果可以是任何内容，具体取决于神经网络的应用，包括图像深度信息、对象识别、对象分类、对象分割、光流估计、连接边线(connecting edges and lines)、即时定位与地图构建(SLAM)、超分辨率图像构建等。在本发明的一些实施例中，来自神经网络输出的解释数据仍然可以是具有受控畸变的图像。在那种情况下，取决于图像是否被人类观察者使用，图像畸变校正和畸形矫正(dewarping)的可选步骤可以获得没有畸变的最终输出图像。如果来自神经网络的输出要由另一个算法单元、计算机或任何其他自动化过程直接使用，则通常不需要此可选步骤。

为了使用具有有意受控畸变的输入数字图像文件的卷积神经网络，该神经网络必须针对这些图像文件被专门的训练。根据本发明的方法，包括来自现有没有受控畸变的大型图像数据集的畸变图像数据集生成器。由于现有的图像数据集包括使用不具有有意畸变的普通镜头捕获的各种对象，因此不能直接使用它们来训练我们提出的网络。畸变图像数据集生成器处理来自现有数据集的原始图像，以添加任意类型的有意畸变，包括径向对称畸变、以或不以特定对象为中心的自由形式畸变或图像角落中的拉伸畸变。然后，可以可选地通过使用数据增强技术或诸如旋转、平移、缩放、相似扩大(homothety)和镜像的操作来扩展所产生畸变图像数据集，以增加训练神经网络的情况数量。数据集还可以通过使用投影技术进行扩展，如平面投影、直线投影、透视倾斜校正投影或任意类型的投影技术。然后，使用利用具有受控畸变图像生成的新数据集来训练神经网络，以通过任意类型的监督或无监督学习技术来学习使用具有受控畸变的这些图像。

在根据本发明的一些替代实施例中，首先将来自成像器的原始图像(无论其有没有畸变)变换为定义明确的标准化视图，该视图具有有意受控的标准化畸变，以便使用利用此标准化畸变分布专门训练的神经网络，从而避免对于每个新的畸变分布对神经网络进行长时间的重新训练。标准化视图可以具有或者不具有缺失纹理信息的一些区域，具体取决于如何捕获原始图像以及标准化视图的要求。

在根据本发明的一些替代实施例中，首先对来自成像器的原始图像进行处理以去除或最小化图像畸变，以便将处理后的图像与已经用不具有受控畸变的图像训练好的现有神经网络一起使用，从而避免对于成像器生成的特定畸变分布训练新的神经网络。

附图说明

当结合附图阅读时，将更好地理解上述发明内容以及以下对本发明优选实施例的详细描述。为了说明的目的，在附图中示出了目前优选的实施例。然而，应当理解，本发明不限于所示的精确布置和手段。

在附图中：

图1示出了根据现有技术的使用神经网络对正常图像的推理处理；

图2示出了使用神经网络对具有受控畸变的图像进行推理处理以改善网络的输出的方法；

图3示出了如何通过深度学习来训练人工智能神经网络以改善其对具有受控畸变的图像的表现；

图4示出了如何使用软件或硬件图像变换算法从原始数据集创建畸变数据集；

图5比较了不用具有受控畸变的图像训练的推理神经网络与用具有受控畸变的图像训练的神经网络来处理具有畸变的图像的表现；

图6示出了在神经网络内部进行推理处理之前从成像器输出的图像中的受控畸变随时间变化的示例。

图7示出了在将图像输入神经网络进行推理处理之前将畸变变换为标准化畸变分布的示例；以及

图8示出了在将图像输入神经网络进行推理处理之前对畸变进行畸形矫正的示例。

具体实施方式

在权利要求书和说明书的相应部分中使用的词语“一”和“一个”表示“至少一个”。

图1示出了根据现有技术的使用人工智能神经网络对正常图像的推理处理。利用人工智能神经网络100对正常图像110进行图像处理，以在140处输出结果。该神经网络可以是任意类型。在一些实施例中，神经网络可以是经由深度机器学习技术等训练的卷积神经网络(CNN)，但是根据本发明的情况并不总是如此，并且也可以使用具有或不具有任何图像卷积的一些其他神经网络。在一些实施例中，该网络可以是生成对抗网络(GAN)。输入的正常图像110经由输入层120的输入节点输入到用于推理处理的网络中。节点的确切数量取决于应用，具有三个输入节点的图只是一个示例网络，绝不限制可用于处理输入数字图像的网络类型。该网络也可以由未知数量的隐藏层组成，如该示例图中的层125和层130，每个层具有任意数量的节点。它也可以由几个子网络或几个子层组成，每个子网络或子层分别执行单独的任务，包括但绝不限于卷积、池化(最大池化、平均池化或其他类型的池化)、跨步(striding)、填充、下采样、上采样、多特征融合、修正线性单元、级联(concatenate)、全连接层、平铺展开层等。该网络还可以包括最终的输出层135，该输出层包括任意数量的输出节点。在该示例图中，节点周围的虚线表示未使用具有受控畸变的图像训练的神经网络。该网络的输出解释数据140是原始输入数字图像的结果，并且可以是各种类型的，包括但绝不限于图像深度信息、对象识别、对象分类、对象分割、光流估计、连接边线，定位与地图构建(SLAM)、超分辨率图像创建等。由于输入数字图像110不具有受控畸变以在图像中创建感兴趣区域，图像中没有像素数量增加的部分，因此神经网络的结果符合现有技术。具体地，对于图1的示例，所示的应用是由输入图像生成深度图。所得到的深度图在图像的任何地方都具有低分辨率，包括图2的示例中将作为感兴趣对象的汽车上。

图2示出了根据本发明的使用人工智能神经网络对具有受控畸变的图像进行推理处理以改善神经网络的输出的方法。该方法从成像器205创建具有受控畸变的图像开始。成像器205可以是创建具有受控畸变以增加感兴趣区域中的像素数量的数字图像文件的任意类型的装置，包括(但绝不限制本发明的范围)虚拟图像生成器、软件或硬件图像畸变变换算法或有意改变数字图像文件畸变的装置。该有意改变数字图像文件畸变的装置可以是任意类型的，包括但绝不限于包括中央处理单元(CPU)、一些存储器单元和一些接收和发送数字图像文件的方式的计算机，例如个人计算机(PC)、智能手机、平板电脑、嵌入式系统或能够变换数字图像文件畸变的任何其他装置。该成像器也可以主要是硬件算法，或者在专用集成电路(ASIC)、现场可编程门阵列(FPGA)等上执行。该成像器还可以是包括至少一个相机系统的装置，所述相机系统包括至少一个或多个光学系统，所述光学系统形成具有受控畸变的图像等。这里，光学系统可以由折射光学元件、反射光学元件、衍射光学元件、超材料光学元件或任何其他光学元件的任意组合制成。该光学系统还可以是包括具有源光学元件(如可变形镜、液体透镜、空间光调制器等)的光学系统，以便实时地改变和调整光学系统所得的畸变分布。该光学系统可以使用任意数量的非球面或自由形式的(freeform)光学元件来创建至少一个分辨率提高的区域，以便更好地控制畸变。在根据本发明的一些实施例中，该光学系统优选地是具有对角视场大于60°的广角镜头，其中广角镜头包括依次划分为前组元件、孔径光阑、后组元件的多个光学元件，该广角镜头在成像平面上形成图像。

该成像器装置205的输出是具有有意受控畸变的图像210。在图2的这个示例中，为了简单起见，只示出了一个图像文件，但是根据本发明的方法也可以兼容多个图像文件，所述多个图像文件被合成或未被合成数字视频文件。该数字图像文件210具有被定义为至少一个感兴趣区域的受控畸变，其中，以对象视场的每度像素计算的分辨率(或放大率)比正常数字图像文件110高至少10％。在根据本发明的一些其他实施例中，受控畸变被定义为具有感兴趣区域，所述感兴趣区域的每度像素比在没有畸变图像中多至少20％、30％、40％或50％。通过创建该至少一个感兴趣区域，成像器可以保持与没有该感兴趣区域的图像相同的总视场或者可以改变该总视场。

然后，将具有有意受控畸变的数字图像文件210输入到人工智能神经网络200内。神经网络200可以是任意类型，包括经由深度学习技术训练的机器学习神经网络，包括但绝不限于卷积神经网络(CNN)等。神经网络200包括运行在物理计算装置上以解释任意类型的输入数据的算法、软件代码等，并且被训练用于处理具有受控畸变的图像。该物理计算装置可以是能够运行这种算法的任何硬件，包括但绝不限于个人计算机、移动电话、平板电脑、汽车、机器人、嵌入式系统等。该物理计算装置可以包括以下任一项：电子主板(或母板)、至少一个处理器、部分中央处理单元(CPU)或无中央处理单元、一些存储器(RAM、ROM等)、驱动器(硬盘驱动器、SSD驱动器等)、图形处理单元(GPU)、张量处理单元(TPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者允许神经网络运行并将输入数字图像文件变换为输出解释数据结果的任何其他组件。

在图2的这个实施例中，人工智能神经网络200已经用具有受控畸变的变形图像进行了专门训练以便更好地处理它们，如将参照图3解释的那样。具有受控畸变的输入数字图像文件210由网络200经由输入层220的输入节点接收。节点的数量取决于应用，具有三个输入节点的图只是一个示例网络，绝不限制可用于处理输入数字图像的网络类型。该网络也可以由未知数量的隐藏层组成，如该示例图中的层225和层230，每个层具有任意数量的节点。它也可以由几个子网络或几个子层组成，每个子网络或子层分别执行单独的任务，包括但绝不限于卷积、池化(最大池化、平均池化或其他类型的池化)、跨步、填充、下采样、上采样、多特征融合、修正线性单元、级联、全连接层、平铺展开层等。网络还可以包括输出层235，该输出层包括任意数量的输出节点。在该示例图中，节点周围的实线表示使用具有受控畸变的图像训练的神经网络以输出改善的结果，并且该神经网络中的箭头是从左到右的或者从该神经网络的输入到输出层，表示网络的推理处理。然后，该网络继续对输入数字图像文件进行推理处理，以输出解释数据。网络的输出解释数据240源自具有受控畸变的输入数字图像文件210并且可以是各种类型的，包括但绝不限于图像深度信息、对象识别、对象分类、对象分割、光流估计、连接边线、即时定位与地图构建(SLAM)、超分辨率图像创建等。

因为输入数字图像文件210具有控制畸变以在图像中创建感兴趣区域，该图像至少部分具有增加的像素数量，并且因此与来自不具有受控畸变的输入数字图像文件的结果(如现有技术的输出140)相比，来自人工智能神经网络的输出解释数据的结果得到改善。例如，当人工智能算法的应用是从图中所示的单个图像估计深度图时，这种改进可以是更精确的深度图，具有更高的分辨率，与现有技术中使用不具有受控畸变的正常图像的网络相比，由于感兴趣的对象的像素数量更多，可能得到更好的对象分类或识别或者来自神经网络的任何其他改善结果。可以根据神经网络的输出是定性的还是定量的，以各种方式来测量在至少单个图像上的改善，包括但不限于输出与真实值之间的相对(以％计算)或绝对(以适合于网络的应用的单位计算)差异的减小、均方根RMS误差、平均相对误差、平均log10误差、阈值精度等。还可以基于输出中的真阳性、假阴性、真阴性和假阳性的分数作为精度P分数、召回率R分数、F分数等来计算改善。该改善还可以作为来自神经网络的概率输出或置信度输出的提高来测量，特别是当输出是定性的时，例如在分类神经网络中。在一些实施例中，也通过使用具有受控畸变的输入数字图像文件的大型数据集并将其结果与类似的没有受控畸变的输入数字图像的大型数据集的结果进行比较，以提高的准确度百分比来测量具有受控畸变的原始图像与没有受控畸变的原始图像之间的改善。

在图2的示例中，神经网络的输出是数字图像文件，但情况并非总是如此，并且输出也可以是文本输出、光信号、触觉反馈或者通过将具有受控畸变的图像输入到神经网络而产生的任何其他输出。在输出是数字图像文件240的情况下，如果要向人类观察者显示输出数字图像，图像还可以可选地通过图像畸形矫正进一步处理以至少部分地去除受控畸变，从而获得具有较少或没有受控畸变的数字图像文件250。该可选的附加畸形矫正步骤使用在由处理器等构成的计算机上运行的软件算法执行或者直接在配置为处理输出数字图像文件240以去除、校正修改或处理畸变的硬件装置上执行。

如果输出图像将由软件或硬件算法或无需人工干预即可使用该图像的任何其他计算机使用，则可以不需要此可选步骤。在本发明的一些实施例中，全神经网络200由若干子网络组成，这些子网络被配置为分析全局图像和图像的局部子部分并组合结果。对于全局图像，子网络可以包括若干下采样层和紧随其后的若干上采样层，以恢复原始图像分辨率，这些层可以使用卷积也可以不使用卷积。对于图像的局部子部分，子网络可以直接处理例如(在绝不限制本发明的范围的情况下)原始图像的几个裁剪部分，或者将来自应用到全局图像的下采样或上采样子网络的中间层作为输入。然后，可以将来自全局图像子网络和局部图像子网络的结果利用平均层、级联与卷积层等进行组合以产生整个网络的最终输出。

图3示出了通过深度学习来训练人工智能神经网络以改善其对具有受控畸变的图像的表现的方法。在图3的这个示例中，为了简单起见，只示出了图像文件，但是根据本发明的方法也将兼容数字视频文件。通过监督学习、半监督学习或无监督学习来训练神经网络的方法从没有有意添加受控畸变的图像310的大型数据库开始。这些图像数据库也经常被称为数据集。在图3的这个示例中，没有受控畸变的原始图像310是具有正常比例的猫的原始图像。为了能够使用这些大型现有数据集来训练具有监督、半监督或无监督学习的神经网络，根据本发明的方法将来自数据集的原始图像处理成软件或硬件图像变换算法320，该算法以与从图2中的成像器205输出的数字文件210类似的方式将原始图像变换为具有目标受控畸变分布。软件或硬件图像变换算法320在图像变换装置上执行，并将在图4中进一步解释。在根据本发明的一些实施例中，除了对图像本身进行处理外，它们相应的所需结果图像(通常称为地面实况图像)也可以以相同的方式进行处理，以添加有意受控畸变。受控畸变目标可以是任意类型，包括但绝不限于：如示例330中的广角图像中经常出现的具有旋转对称性的径向桶形畸变，如示例340中具有或不具有旋转对称性且以特定对象为中心或不以特定对象为中心的自由形式畸变，如示例350中仅在图像的角落或图像的任何其他部分可见的拉伸畸变或枕型畸变，如示例360中整个图像中的拉伸畸变或枕形畸变，至少会产生一个感兴趣区域且该区域的每度像素比完美图像多至少10％的任何其他类型的畸变。在这里，完美图像可以是遵循直线投影的具有均匀像素密度和比例的图像，也可以是给定神经网络的任何其他理想图像。在根据本发明的一些其他实施例中，受控畸变被定义为具有感兴趣区域，所述感兴趣区域的每度像素比在没有畸变的图像中多至少20％、30％、40％或50％。

生成的具有受控畸变的任何新图像可以具有与没有受控畸变的原始图像相同的视场或不同的视场。当生成的新图像的视场大于原始图像的视场时，图像的剩余部分可以填充任何内容，包括计算机生成的背景图像、从另一图像中提取的背景、原始图像的多个副本、来自原始数据集的多个图像、图像外推、空白或任何其他类型的图像补全，以根据需要填充视场的缺失部分。

然后使用具有受控畸变的图像(如330、340、350和/或360)生成的新数据集来训练神经网络370以学习使用这些具有受控畸变的图像。在图3的这个示例中，图示神经网络中的箭头是从右到左或者从神经网络的输出到输入层，通过反向传播来表示网络的训练，而不是在其他示图中用从左到右的箭头表示从输入到输出的推理处理。这种学习可以是监督学习，其中输入图像和神经网络所需的输出地面实况结果形成一个已知对。它也可以用于无监督学习中，其中输入图像与来自网络的未知地面实况输出结果相关联。新数据集还可以用于深度学习神经网络的任何其他类型的学习或强化，包括被称为半监督的监督和无监督之间的混合模式，或使用图像数据集训练人工智能的任何其他方式。当训练网络时，可以使用任何优化技术来优化每一层的每个节点之间的权重，包括(但绝不限制本发明的范围)梯度下降、反向传播、遗传算法、模拟退火、随机化优化算法等。在神经网络优化期间使用的损失函数(也称为成本函数或能量函数)可以是根据本发明的任意类型，具体取决于神经网络的所需应用。在本发明的一些实施例中，当训练神经网络以分析或处理通常具有大于约60°的总视场的广角图像时，因为现有的广角数据集非常罕见并且通常没有期望应用的地面实况结果，因此可以使用虚拟3D环境生成的广角图像来训练神经网络。在某些情况下，当存在小型的广角数据集但需要更大型以进行精确训练时，使用现有的真实广角图像和虚拟生成的广角图像的组合。

图4示出了如何使用在图像变换装置上运行的软件或硬件图像变换算法从原始数据集创建畸变数据集。该方法从原始图像数据集410开始。在互联网上存在一些公开可用的数据集，包括真实自然对象的图像、人造或虚拟对象的图像、或者混合真实和虚拟对象的混合数据集。这些图像或视频数据集中的对象可以是各种类型，包括文本、人脸、动物、建筑物、街景等，以帮助训练各种类型的人工智能神经网络。这些现有的数据集是从没有有意畸变的普通镜头中捕获的，或者是使用没有受控畸变的正常视图生成的。然后，在步骤420中，该方法从该数据集中选择一张图像以适应它。图4所示的示例方法仅从原始数据集中变换一张图像，但在生成新数据集的实际情况中，可以将相同的方法连续应用于所需的多个原始图像。此外，根据本发明的方法还兼容从多个图像文件创建数据集，所述多个图像文件被合成或不被合成为数字视频文件。在根据本发明的一些实施例中，除了处理原始图像410之外，它们对应的所需结果图像(通常称为地面实况图像)也以相同的方式被处理，以向原始图像和地面实况图像两者添加有意受控畸变。

该方法的下一个步骤是在步骤430选择所需的有意受控畸变的目标和图像视场。有意添加的受控畸变目标取决于使用新数据集进行训练的神经网络所需的特定应用，并且可以是任意类型，包括但绝不限于广角图像中常见的具有旋转对称性的径向桶形畸变、具有或不具有旋转对称性且以或不以特定对象为中心的自由形式畸变、仅在图像的角落或图像的任何其他部分可见的拉伸畸变或枕型畸变，整个图像的拉伸畸变或枕型畸变、或产生至少一个感兴趣区域的任何其他类型的畸变，其中感兴趣区域中每度像素比来自原始数据集410的原始图像中多至少10％，该原始图像通常具有均匀的像素密度或遵循直线投影。在根据本发明的一些其他实施例中，受控畸变被定义为具有感兴趣区域，所述感兴趣区域的每度像素比来自原始数据集410的没有畸变的原始图像多至少20％、30％、40％或50％。对于视场，它的选择还取决于要使用新数据集进行训练的神经网络所需的特定应用，并且可以是从超窄角视场到超广角视场的不同的任何值。变换后的图像的视场可以与原始图像的视场不同或相同。

一旦选择了所需的受控畸变的目标和视场，下一步骤就是图像变换步骤440。所述变换包括图像变换装置，该图像变换装置被配置为执行软件或硬件变换算法。该装置可以进行某些图像处理，包括但不限于畸变变换。该处理由能够执行图像畸变变化算法或任何图像处理算法的任何装置在硬件或软件级别上执行。改变数字图像文件的畸变的图像变换装置可以是任意类型，包括但绝不限于包括中央处理单元(CPU)、一些存储器单元以及一些接收和发送数字图像文件的方式的计算机。其可以是个人计算机(PC)、智能手机、平板电脑、嵌入式系统或任何其他能够变换数字图像文件畸变的装置。这种变换畸变的装置还可以主要由硬件算法组成，或者在专用集成电路(ASIC)、现场可编程门阵列(FPGA)等上执行。

在步骤440中，图像变换装置接收没有受控畸变的原始数字图像文件，并且在将该原始输入数字图像文件变换为具有受控畸变目标的输出变换数字图像文件之前，接收对受控畸变目标的选择。步骤440的输出是步骤450，其中具有期望的畸变和视场的单个数字图像存储在存储器中或存储驱动器上。这个新数字图像的相关地面实况信息或分类要么从原始数据集中已经可用的信息中知道，要么通过任何其他方式确定，包括来自近集理论或拓扑相似性的任何通用近邻算法，以比较原始图像和新图像。然后，在步骤460中，可选地使用具有畸变的单个图像450来创建多个类似的变换数字图像，通过使用诸如旋转、平移、缩放、相似扩大、镜像或任何其他图像变换操作之类的数据增强技术操作来增加用于训练神经网络的完整图像中的情况、方向、大小或位置的数量。该数据集还可以通过使用投影技术进行扩展，如平面投影、直线投影、透视倾斜校正或任意类型的投影。然后，将来自数据增强步骤460的所有结果图像添加到具有有意畸变图像的新数据集470中，作为创建该新图像数据集以训练神经网络的方法的最后步骤。然后，使用这个新变换数字图像文件训练神经网络，用于推理处理具有受控畸变的数字图像文件。

图5比较了不用具有受控畸变的图像训练的神经网络与用具有受控畸变的图像训练的神经网络处理具有畸变的图像的表现。在图5的这个示例中，为了简单起见，只示出了一个图像文件，但是根据本发明的方法也兼容多个图像文件，所述多个图像文件被合成或不被合成为数字视频文件。具有畸变的原始图像510是具有5个人的示例组图片，其来自图2中所述的成像器装置并且具有朝向图像角落的每度像素的增加。这种图像在对角线视场超过60°的广角成像器中很常见，其中角落拉伸图像比例，以便在图像中保持对象中的直线尽可能笔直，从中心向角落每度像素的增加。图像的这种拉伸使得使用经典图像处理或基于人工智能的图像处理算法的自动分析更难输出最佳结果，因为人脸的比例与算法所使用的不同。因此，当具有畸变的图像510被输入到未使用畸变图像520训练的神经网络中时，输出530是差的。在图5的这个示例中，网络的输出是人的分类和识别，但这只是根据本发明的示例输出，并且根据本发明可以使用来自神经网络的任何图像处理或图像分析输出。在结果窗口530中，人A和人E被拉伸到使得算法甚至无法将状分类为人。对于人B和人D来说，他们没有被如此拉伸。算法520能够将它们分类为人类，但不能识别它们。该算法仅能识别位于中心的人C，因为在图像的中心，每度像素数量基本不变，并且人脸比例保持不变。当具有畸变的相同图像510被输入到图3所描述的使用畸变图像540训练的神经网络中时，输出结果550得到改善。这次，由于网络用于识别具有畸变比例的人，因此它能够正确识别所有五个人。图5的这个示例具有分类和识别应用，但是当输入数字图像文件具有受控畸变时，根据本发明的方法使用畸变图像训练的卷积神经网络为任何应用提供改善的表现。

图6示出了一个示例，其中从成像器输出的输入数字图像文件中的受控畸变如同在形成视频序列的帧中随时间变化。在该示例中，成像器是包括允许及时改变畸变的有源光学元件的相机系统，或者是能够直接变换图像畸变或能够执行软件图像变换算法的硬件装置，例如计算机、移动电话、平板电脑、嵌入式系统、ASIC，FPGA等。在图6的示例中，成像器输出在表示来自视频序列不同时间的三个不同时间捕获或生成的运动的猫的三个图像610、620和630，从而允许用增加分辨率的区域跟随感兴趣的对象。添加到图像610中的有意受控畸变由变形网格605表示。网格中的圆圈区域607和图像中的612表示根据需要应用局部放大来畸变图像以向神经网络提供更多的成像像素的区域。如果总视场保持不变，则放大倍数增加的区域被放大倍数降低的区域包围以补偿感兴趣的区域，并且在相同的像素总数中仍然具有相同的总视场。然而，这并不总是需要的，并且在一些其他实施例中，放大倍数增加的区域可以由更小的总视场来补偿，而不是由放大倍数降低的区域来补偿。

之后，由图中的垂直轴表示，对分别应用了变形网格615和625的图像620和图像630应用相同种类的局部放大。网格中的圆圈区域617和627以及图像中的圆圈区域622和632表示这个局部放大的区域。在图6的这个示例中，每个图像只有1个局部放大区域，但这绝不限制本发明的范围，本发明也可以同时与图像中的这些局部放大区域中的多个一起使用。本发明还可以同时在图像中应用多个这些局部放大区域。然后，将具有有意受控畸变的图像输入到人工智能神经网络645中，该人工智能神经网络是通过使用畸变图像的学习技术进行训练，如图3所解释。由于行走的猫周围的放大视图，神经网络的输入在该区域具有更多的信息像素。因为网络具有分辨率增加的对象作为输入，神经网络645的输出是改善的结果650。

在图6的这个示例中，在所有三种情况下，神经网络能够识别运动的猫，但是神经网络645的应用不限于识别，并且可以是根据本发明的具有任意类型的输出650的任何其他应用。作为比较，图6还在640处示出了来自成像器的第四输出，但是这次没有跟随感兴趣对象的实时受控畸变。添加到图像640的有意受控畸变的缺乏由均匀网格635表示。然后在神经网络655中处理图像640并且输出结果660，神经网络655可以与网络645相同或不同。在这个示例中，这一次，由于感兴趣对象的分辨率不够高，神经网络无法识别图像中的猫。在本信息的一些实施例中，神经网络被配置为组合在不同时间捕获或生成的至少两个图像帧的输入或输出，以便通过对视频中的连续图像帧之间的时间一致性赋予一定权重来改善结果。可以可选地通过使用递归神经网络来完成此视频处理。

图7示出了一个示例，其中在将具有标准化受控畸变的图像输入到神经网络中之前，将图像的畸变变换为具有标准化受控畸变分布格式的变换数字图像文件。在该示例中，感兴趣的对象是人脸，但是根据本发明的方法不限于任意类型的对象并且可以应用于任何其他对象。该示例从原始图像710开始。该原始图像710可能已经具有或不具有一些受控畸变。该图像的源可以是任何成像器，包括具有光学系统的装置或能够生成虚拟图像或图像变换的任何装置。在图7的示例中，每个检测到的人脸可以被单独地变换为具有受控畸变的统一和标准图像格式。使用软件或硬件图像变换算法720将图像710中的三个人脸变换成具有标准化受控畸变的变换数字图像文件730、740和750。所应用的变换对于任何人脸都可以是相同的或不同的，具体取决于例如人脸在图像中的位置或其正在注视的方向。变换算法720可以由被配置为变换图像的畸变分布的任何硬件装置来执行，包括计算机，该计算机包含用于执行软件算法的处理器、ASIC、FPGA等。

在具有标准化受控畸变的示例图像730和750中，因为人脸没有直接注视图像捕获系统，所以部分人脸没有被相机成像，因此当变换到该标准化视图时出现黑色区域。畸变图像740正直视人脸，并且在变换到标准化畸变视图之后不存在缺失信息的黑色区域。因为图像格式是标准的，所以神经网络760只需要训练一次，而不是对它可以接收的每种类型的畸变图像分别进行训练，这是使用标准化畸变格式的主要优点。使用相同的标准化畸变格式可以避免生成新的畸变数据集以及重新训练神经网络所需的成本和时间。在此示例中，神经网络760的结果输出770是所有人脸都被很好地识别，由于具有有意畸变的标准化图像而获得更好的性能，但是该输出可以是任意类型，具体取决于使用神经网络的应用。该示例的方法提供了改善，因为选择了标准化受控畸变分布以最大化MxN像素输入区域中人脸的像素覆盖率，其中M、N分别是输入数字图像中的行数、列数。然而，图7所示的视图仅是用于变换数字图像文件的标准化投影的一个示例，并且根据本发明的方法可以使用任何其他标准化投影，包括但绝不限于具有等矩形畸变投影的图像，具有预设圆形、矩形或自由形式放大倍数的图像等。

在图8示出的示例中，图像变换装置从输入数字图像文件中至少部分地去除受控畸变。这是通过在将变换数字图像文件输入神经网络之前，将输入数字图像文件处理或畸形矫正为变换数字图像文件来完成的。在该示例中，感兴趣的对象是人脸，但是根据本发明的方法不限于任意类型的对象并且可以应用于任何其他对象。该示例从具有畸变的原始图像810开始。该图像的源可以是具有光学系统的任何成像器装置或能够生成虚拟图像或图像变换的任何装置。在图8的示例实施例中，在软件或硬件图像变换算法820中处理所有检测到的人脸以至少部分地去除畸变。变换算法820可以由被配置为变换图像的畸变分布的任何硬件装置来完成，包括计算机，该计算机包含用于执行软件算法的处理器、ASIC、FPGA等。变换算法820对原始图像810进行畸形矫正以去除、校正、修改或处理畸变，从而获得没有畸变的人脸图像830、840和850。然后将图像830、840和850输入到普通神经网络860中，该神经网络860使用没有有意受控畸变的图像训练，并且输出是结果870。在这个示例中，来自神经网络860的结果输出870是所有的人脸都被很好地识别，这可能是因为原始图像810中的畸变在输入神经网络之前被畸形矫正。该示例输出不限于人脸识别，并且可以是任意类型，具体取决于使用神经网络的应用。

在根据本发明的一些其他实施例中，在输入神经网络之前的原始图像包括附加信息或参数，无论是写在数字图像文件元数据内、写在图像中可见或不可见的标记或水印内，还是经由另一个源传输到神经网络。这些附加信息或参数可用于帮助图像变换算法或神经网络本身以进一步改善结果。

以上所有附图和示例都显示了使用有意受控畸变来改善来自神经网络的结果输出的方法。在所有这些示例中，成像器、相机或镜头可以具有从非常窄到极广角的任何视场。具有至少输入和输出的神经网络可以是任意类型。这些示例并非旨在穷举或限制本发明的范围和精神。本领域的技术人员将理解，在不脱离其广泛的发明构思的情况下，可以对上述示例和实施例进行改变。因此，应当理解，本发明不限于所公开的特定示例或实施例，而是旨在覆盖在由所附权利要求限定的本发明的精神和范围内的修改。

Claims

1.一种用于使用人工智能神经网络对具有受控畸变的至少一个输入数字图像文件进行推理处理以改善所述神经网络的输出的方法，所述方法包括：

a.由神经网络接收由成像器创建的具有受控畸变的输入数字图像文件；

b.由所述神经网络对所述输入数字图像文件进行推理处理，所述神经网络由在计算装置上运行的算法或软件代码形成并被训练用于处理具有受控畸变的图像；以及

c.由所述神经网络输出通过所述推理处理从所述输入数字图像文件导出的解释数据。

2.根据权利要求1所述的方法，其特征在于，从所述神经网络输出的所述解释数据是输出数字图像文件，所述方法还包括：

d.对所述输出数字图像文件进行畸形矫正，以至少部分地去除所述受控畸变。

3.根据权利要求1所述的方法，其特征在于，所述成像器是将数字图像文件的畸变有意地改变为受控畸变的装置。

4.根据权利要求1所述的方法，其特征在于，所述成像器包括至少一个相机系统，所述至少一个相机系统包括至少一个光学系统。

5.根据权利要求1所述的方法，其特征在于，所述神经网络是经由深度学习技术训练的机器学习神经网络。

6.根据权利要求1所述的方法，其特征在于，所述神经网络使用具有控制畸变的数字图像文件进行训练。

7.根据权利要求1所述的方法，其特征在于，来自所述神经网络的所述解释数据是图像深度信息、对象识别、对象分类、对象分割、光流估计、边线连接、即时定位与地图构建或超分辨率图像中的一个。

8.根据权利要求1所述的方法，其特征在于，来自所述成像器的所述输入数字图像文件中的所述受控畸变随时间变化。

9.根据权利要求1所述的方法，其特征在于，所述输入数字图像文件包括附加信息或参数。

10.根据权利要求1所述的方法，其特征在于，具有受控畸变的所述输入数字图像文件具有至少一个感兴趣区域，所述感兴趣区域中的分辨率比不具有受控畸变的数字图像文件高至少10％。

11.一种训练人工智能神经网络的方法，所述人工智能神经网络用于对至少一个具有受控畸变的输入数字图像文件进行推理处理，所述方法包括：

a.由图像变换装置接收不具有受控畸变的原始数字图像文件；

b.由所述图像变换装置接收对受控畸变目标的选择；

c.由所述图像变换装置将所述原始输入数字图像文件变换为具有所述受控畸变目标的输出变换数字图像文件；以及

d.使用所述变换数字图像文件训练神经网络，所述神经网络用于推理处理具有受控畸变的数字图像文件。

12.根据权利要求11所述的方法，其特征在于，所述图像变换装置被配置为执行软件或硬件变换算法。

13.根据权利要求11所述的方法，其特征在于，所述受控畸变目标是具有旋转对称性的径向桶形畸变、具有或不具有旋转对称性的自由形式畸变、所述图像的部分拉伸畸变或整个图像拉伸畸变中的一个。

14.根据权利要求11所述的方法，其特征在于，所述神经网络的训练经由梯度下降、反向传播、遗传算法、模拟退火或随机化优化算法中的一个来完成。

15.根据权利要求11所述的方法，其特征在于，不具有受控畸变的所述原始数字图像文件具有视场，具有所述受控畸变目标的所述变换数字图像文件具有视场，所述原始数字图像文件的所述视场与所述变换数字图像文件的所述视场不同。

16.根据权利要求11所述的方法，其特征在于，使用数据增强从单个原始数字图像文件创建多个变换数字图像文件。

17.根据权利要求16所述的方法，其特征在于，所述多个变换数字图像文件是对所述原始数字图像文件执行旋转、平移、缩放、相似扩大或镜像操作中的至少一种的结果。

18.一种用于使用人工智能神经网络对具有受控畸变的至少一个输入数字图像文件进行推理处理以改善神经网络的输出的方法，所述方法包括：

a.由图像变换装置接收由成像器创建的具有受控畸变的输入数字图像文件；

b.由所述图像变换装置将所述输入数字图像文件变换为变换数字图像文件；

c.由神经网络推理处理所述变换数字图像文件，所述神经网络由在计算装置上运行的算法或软件代码形成；以及

d.由所述神经网络输出通过所述推理处理从所述变换数字图像文件导出的解释数据。

19.根据权利要求18所述的方法，其特征在于，所述变换数字图像文件具有标准化的受控畸变。

20.根据权利要求18所述的方法，其特征在于，所述图像变换装置从所述输入数字图像文件中至少部分地去除所述受控畸变。