CN112689843A

CN112689843A - 闭环自动数据集创建系统和方法

Info

Publication number: CN112689843A
Application number: CN201980059694.7A
Authority: CN
Inventors: P·M·布朗热
Original assignee: Flier Business Systems
Current assignee: Flier Business Systems
Priority date: 2018-07-12
Filing date: 2019-07-09
Publication date: 2021-04-20
Anticipated expiration: 2039-07-09
Also published as: CN112689843B; US20210133510A1; WO2020014286A1; GB2589495A; GB2589495B; GB202020338D0; US11568178B2

Abstract

提供了用于训练神经网络以对图像分类的各种技术。使用包括多个合成图像的训练数据集来训练卷积神经网络(CNN)。CNN训练过程会在处理训练数据集时跟踪与图像相关的量度和其他信息量度。然后可以使用真实图像的验证数据集对经训练的推理CNN进行测试，以生成性能结果(例如，经训练的推理CNN是否正确还是不正确地标记了训练图像)。在一个或多个实施例中，训练数据集和分析引擎提取并分析信息量度和性能结果，生成用于修改的训练数据集的参数以提高CNN性能，并生成使合成图像生成器生成新的训练数据集的相应指令。该过程以迭代的方式重复，以构建用于训练推理CNN的最终的训练数据集。

Description

闭环自动数据集创建系统和方法

相关申请的交叉引用

本申请要求享有2018年7月12日提交的题为“闭环自动数据集创建系统和方法”的美国临时专利申请No.62/697,379的权益和优先权，通过引用的方式将其全部内容合并于此。

技术领域

本公开的一个或多个实施例总体上涉及图像分类，并且更具体地，例如，涉及对用于图像分类的神经网络进行训练和/或验证的系统和方法。

背景技术

在图像处理领域中，一直需要一种有效且可靠的方式来检测成像设备的视场(例如，场景)内的感兴趣对象并对其进行分类。在一种方法中，将感兴趣对象的各种图像收集到训练数据集中，以训练神经网络对对象进行分类。可以通过利用摄像机以各种角度和在各种设置下捕获对象的图像来生成训练图像。对于每个对象分类，训练数据集通常包括数千个图像，并且可能耗时、昂贵且制作麻烦。由于位置危险、尝试捕获罕见且不可预测的事件的图像或需要大量的成像场景，所以某些训练图像可能无法使用摄像机捕获。此外，训练神经网络可能很耗时且需要大量处理，需要花费几天甚至更长的时间才能完成训练数据集。结果，这种图像分类神经网络可能难以适应新的对象和环境和/或难以用新的训练数据进行更新。鉴于前述内容，持续需要一种改进的对象检测和分类技术方案，其易于适应新的使用情况并且提供优于常规系统的性能或其他优点。

发明内容

提供了用于训练神经网络以对图像分类的各种技术。在一个或多个实施例中，使用包括多个合成图像的训练数据集来训练卷积神经网络(CNN)。CNN训练过程会在处理训练数据集时跟踪与图像相关的量度和其他信息量度。然后可以使用真实图像的验证数据集对经训练的推理CNN进行测试，以生成性能结果(例如，推理是否对感兴趣的对象进行了准确分类)。在一个或多个实施例中，训练数据集和分析引擎提取并分析信息量度和性能结果，生成用于修改的训练数据集的参数以提高CNN性能，并生成使合成图像生成器生成新的训练数据集的相应指令。该过程以迭代的方式重复，以构建用于训练推理CNN的最终的训练数据集。

在一个或多个实施例中，生成合成图像以训练用于图像分类的神经网络(例如，CNN)。在一个或多个实施例中，图像分类系统包括在合成训练数据集上训练的神经网络，所述合成训练数据集包括从虚拟三维场景中虚拟表示的成像传感器渲染的对象。在一些实施例中，合成图像包括合成可见光图像和/或合成红外图像，其中，使用虚拟三维场景中的虚拟对象的红外辐射签名和虚拟表示的红外传感器的红外响应模型生成所述合成红外图像。在一个或多个实施例中，一种用于生成合成红外训练数据的系统包括：三维场景建模系统，其用于生成包括多个对象的三维场景，每个对象均具有红外辐射模型；以及红外传感器建模系统，其用于对三维场景中虚拟表示的红外传感器的成像响应进行建模。

本发明的范围由权利要求限定，通过引用的方式将权利要求并入到本部分。通过考虑以下对一个或多个实施例的详细描述，本领域技术人员将更全面地理解本发明的实施例以及本发明的附加优点的实现。将参考首先将简要描述的附图。

附图说明

图1示出了根据本公开的各种实施例的用于神经网络的神经网络训练和验证系统以及过程。

图2示出了根据本公开的各种实施例的用于生成用于训练图像分类系统的一组合成图像数据的示例性系统。

图3A-B示出了根据本公开的各种实施例的使用合成图像数据训练的示例性图像分类系统。

图4A示出了根据本公开的各种实施例的使用合成图像的神经网络训练过程。

图4B示出了根据本公开的各种实施例的图4A的神经网络的验证过程。

图4C示出了根据本公开的各种实施例的使用合成图像的神经网络训练过程。

图4D示出了根据本公开的各种实施例的图4C的经过训练的神经网络的操作。

图5示出了根据本公开的各种实施例的用于生成用于对象分类的合成训练数据的示例性过程。

图6示出了根据本公开的各种实施例的与使用合成图像数据训练的图像分类系统一起使用的成像系统。

通过参考下面的详细描述，将最好地理解本公开的实施例及其优点。应当理解，相同的附图标记用于标识在一个或多个附图中示出的相同的元件。

具体实施方式

本公开的各方面总体上涉及图像分类，并且更具体地，例如，涉及对用于图像分类的神经网络进行训练和验证的系统和方法。在一个或多个实施例中，生成虚拟三维环境的合成图像，并将其用于训练用于图像分类的神经网络(例如，卷积神经网络(CNN))。使用CNN进行视频和/或图像分析通常包括成千上万张不同的训练图像，以在许多使用环境中达到可接受的精度水平，但是使用物理成像设备捕获此类图像以对真实世界场景进行成像可能非常昂贵。根据本文公开的各种实施例，生成合成训练数据集以训练CNN，验证训练结果，并且训练数据集分析引擎对信息量度和性能结果进行分析以确定新训练数据集的参数。新参数可以用于生成用于合成图像生成器的指令以更新训练数据集，以便训练性能结果得到改进的推理CNN。

参考图1，将描述用于训练和验证神经网络的系统的各种实施例。在一个或多个实施例中，系统50在迭代过程中生成训练数据集，该迭代过程产生高性能的CNN对象分类。系统50包括合成图像生成器52(例如，图2中的环境仿真系统102)，其用于在训练过程58中生成用于训练神经网络的训练数据集56。训练过程58利用训练数据集56进行训练，以生成经过训练的推理CNN 60，并在训练过程中还生成图像特定数据和其他信息量度。使用标记图像的验证数据集62来验证经训练的推理CNN 60，以测量作为图像分类器的推理CNN 60的性能。

在各种实施例中，验证数据集62包括多个标记的真实世界图像，将该图像输入到经过训练的推理CNN 60中并对其进行分类以测量经过训练的推理CNN 60的性能。验证测试图像可以包括代表推理CNN 60的真实世界用例的各种对象、对象大小和背景。可以使用任何图像捕获设备(视情况包括生成可见光和/或红外图像的设备)捕获真实世界的图像。将包括合适的图像标记和图像分类错误的性能结果提供给训练数据集分析引擎70。训练数据集分析引擎70还接收在训练过程58中编译的图像特定数据和其他信息量度，并接收定义经过训练的推理CNN 60的使用范围的配置参数64。在一个实施例中，性能评估器66接收推理CNN 60的输出并从验证数据集62接收地面真值注释，以生成提供给训练数据集分析引擎70的性能结果数据。

训练数据集分析引擎70然后可以分析接收到的数据，以通过识别要保留的图像(例如，有助于适当分类的图像)、要从中删除的图像(例如，对适当分类没有帮助的图像)和/或要加入到训练数据集56的图像，来修改训练数据集56。在一个或多个实施例中，训练数据集分析引擎70接收信息量度和性能结果，根据配置参数分析可用数据，并指示合成图像生成器52生成更新的训练数据集56，其中，预测该更新的训练数据集56将训练具有改进结果的推理CNN。

在各种实施例中，训练数据集分析引擎70包括数据提取器/分析器72、数据集生成器74和汇编器/接口76。在一个或多个实施例中，数据提取器/分析器72接收信息量度和性能结果，提取特征以进一步处理，并分析来自训练数据集56的一个或多个图像的相关性能。量度包括例如提取的特征、指示神经网络参数变化的数据、来自先前迭代的数据以及在训练期间捕获的其他数据。在一些实施例中，提取器/分析器72基于性能结果和/或图像对神经网络的训练的影响，对来自训练数据集56的图像进行排名。数据集生成器74使用数据提取器/分析器72的结果，并鉴于配置参数64，生成新训练数据集56的参数和定义要生成的下一个训练数据集的新合成图像的参数，该新训练数据集56包括当前训练数据集56图像的子集。汇编器/接口76将新训练数据集的参数转换为指示图像创建接口54以使合成图像生成器52生成新训练数据集56的指令。在一些实施例中，该过程迭代地继续，直到生成满足某些性能标准(例如，在验证过程中正确分类的图像的百分比、各种尺寸的对象的性能、验证成本和/或其他标准)的最终的训练数据集80。

在各种实施例中，数据提取器/分析器72可以将信息量度和/或性能结果提取到各种类别中以作进一步分析，包括基于来自训练数据集的图像的不同分类标签来编译数据，基于性能/较低性能、图像特性(例如，图像尺寸、对象尺寸、提取的特征)以及其他适当的分组来编译数据。在一个或多个实施例中，数据集生成器74是一个或多个算法、神经网络和/或接收信息量度和性能结果并确定如何修改训练数据集以提高性能的其他过程。配置参数64定义分类CNN的一个或多个目标，例如，定义要在训练数据集中使用的标签、对象和环境的参数。例如，配置参数64可用于确定神经网络应分类哪些资源(例如，人、自行车、车辆、道路、动物)和资源应出现的背景环境(例如，建筑物、天空、树木)。

在各种实施例中，合成图像生成器52可以接收用于创建新训练数据集56的指令，该指令包括要维护的当前数据集图像的标识以及要删除的当前哪些图像的标识。合成图像生成器52还可以接收用于根据接收的参数生成新合成图像的指令。在各种实施例中，合成图像生成可以包括随机图像生成，其中，通过配置参数64和由数据集生成器74定义的期望参数和不期望参数的标识来通知该随机图像生成。例如，可以训练推理CNN 60标记可能会在各种真实背景中出现的某些对象(例如，人、动物、车辆)，并且当前训练数据集可能在对某些背景中的人进行分类时产生了无法接受的结果。可以命令合成图像生成器52通过根据接收到的参数以随机的角度和距离、利用随机的背景环境生成随机版本的对象(例如，男人/女人、年轻人/老年人、不同穿着的人等)，来创建特定对象分类(例如，人)的图像。在各种实施例中，合成图像生成器52不限于生成代表真实世界场景的图像。由于系统的目标是训练推理CNN进行分类，因此可以认识到，代表非真实场景(例如，飞猪)的合成图像如果可以改善结果，则对训练CNN可能有用。

在一些实施例中，数据集生成器74从训练数据集56确定要保持在训练数据集中的图像的子集并定义要生成的新图像。在一些实施例中，可以通过基于整体性能对每个图像的影响进行排名，对来自训练数据集56的图像进行性能结果排名。例如，数据集生成器74可以针对每个图像分类保持一定数量的排名靠前的图像，保持贡献超过标识的性能阈值的图像，和/或保持一定数量的总体上排名靠前的图像。数据集生成模块74还可以从训练数据集56中移除排名最后和/或没有贡献或低于标识的性能阈值的图像。例如，训练数据集分析引擎70可以对例如1000幅图像进行排名，并且保持最佳的100幅图像，去除剩余的900幅图像。新训练数据集可以包括先前的100幅图像和新生成的900幅合成图像，其中，新生成的900幅合成图像是用以提高性能而选择的图像。各种参数可以表示用于随机场景生成的一般类别，包括前景对象、尺寸、类型和角度；摄像机的位置和类型(例如，可见光摄像机、红外成像设备)；以及背景资源的存在。

本领域技术人员将意识到，创建合成训练数据集和训练神经网络既耗时又需要大量处理，这可能需要数天或数周的时间来执行。本文所述的过程大大减少了生成训练数据集所需的时间，并提高了所得到的经过训练的推理CNN的性能。

参考图2，将描述用于生成合成训练数据集的合成成像系统100的实施例。如图所示，合成成像系统100包括可通过用户界面端口110操作的环境模拟系统102。在各种实施例中，环境模拟系统102可包括一个或多个计算设备，其可用于生成模拟真实世界的设置的三维(3D)环境。3D环境可以由多个对象构成，包括地形、建筑物、车辆、人、动物和可能出现在捕获的真实世界场景的图像中的其他对象。在各种实施例中，合成成像系统100被配置为生成合成图像，该合成图像模拟从真实图像捕获设备捕获的图像。

在各种实施例中，环境模拟系统102包括场景生成器104。场景生成器104用于利用来自对象数据库112的数据来构建虚拟3D环境，该对象数据库112存储3D模型和使得可以将建模的3D对象置于场景中的其他对象数据。场景生成器104还可以应用环境效果114(例如，天气情况、温度、当日时间等)。环境模拟系统102可以可选地包括用于捕获场景的红外图像的红外传感器模拟器/图像捕获部件106和/或用于捕获生成的场景的可见光图像的光学图像捕获部件108。

红外传感器模拟器106用于从红外传感器的视角渲染生成的场景的合成红外图像。创建用于每个真实世界摄像机或成像设备的红外传感器模型，并将其存储在传感器模型数据库116中，并且该红外传感器模型可以包括传感器属性，例如，检测到的波长和物理设备的像素分辨率。在操作中，创建场景、应用环境条件、并将虚拟红外摄像机放置到场景内。传播从场景中每个对象的表面生成的红外辐射(例如热量)，以模拟真实生活中的热传递(例如，通过从每个表面应用热射线追踪)、热信号和其他红外辐射。在一些实施例中，当一个或多个对象移动通过场景时，可将运动因子应用于建模红外辐射。合成的红外图像从如适当的传感器模型所模拟的虚拟红外摄像机的位置捕获场景中的红外辐射。

在各种实施例中，创建红外传感器模型以近似各种红外传感器(例如长波、中波和短波红外传感器)的真实世界传感器响应。传感器模型还可以对有源和无源红外传感器系统、不同波长(例如，近红外(例如夜视))和不同物理探测器(例如，微辐射热计、量子阱、二极管探测器)建模。红外传感器模拟器106还可以将红外与任何其他形式相结合(例如，以覆盖红外和可见光)。在一些实施例中，将噪声添加到合成红外图像的子集，以说明制造公差和影响真实世界红外传感器的操作的其他变化。例如，实施例可以将十种类型的噪声中的一种噪声随机地应用于图像的子集，以模拟真实世界的红外摄像机捕获的图像范围。可能还会添加噪声以说明其他系统和成像变化(包括非现实效果)，以使系统无论其周围环境和遮挡如何都能学会识别对象。

在一些实施例中，光学图像捕获部件108可以用于生成场景的合成可见光图像。在包括捕获可见光图像和红外图像的实施例中，合成可见光图像可以与合成红外图像一起存储以用于对象分类。在其他实施例中，红外传感器模拟器106和光学图像捕获部件108可用于对生成单个组合图像的多光谱动态成像系统(MSX)建模，其中，该单个组合图像包括捕获的合成红外图像的辐射分量和包括与可见光图像混合的场景的红外(例如，热)特性的混合分量。

在各种实施例中，存储在对象数据库112中的对象包括丝网模型，该丝网模型包括多个多边形，例如三角形。丝网模型包括反射可见光的皮肤，从而可以在三维场景中直观地显示对象。对于红外成像，将红外辐射模型应用于场景中的三维对象。红外辐射模型数据库118存储用于模拟从三维对象发射的辐射的模型，该模型包括将对象与红外辐射模型相关联的场。在一个或多个实施例中，使用对象的表面发射率和/或预期温度的属性对对象的每个三角形表面进行建模。例如，对于每个三角形，基于特定皮肤的发射率创建模型，并且可以通过光线追踪过程从每个三角形表面在场景中传播红外辐射。

三维丝网结构上对象皮肤的属性可能与真实世界的红外辐射模型相关联。挑战是为场景中可能出现的每个对象创建模型。一种方法是捕获要建模的每个对象的真实世界的红外图像，但是，这可能既耗时又昂贵。在一个实施例中，三维对象包括具有已知纹理和其他性质的表面皮肤，并且系统应用通常与表面皮肤和/或一般对象分类相关的红外辐射模型。例如，具有毛皮的哺乳动物的红外辐射模型可以应用于具有相似毛皮特征的其他哺乳动物。在一个实施例中，通用模型可以用于新对象。如果来自验证过程的反馈表明通用模型未产生准确的图像分类结果，则可以为对象创建或应用新模型，以减少系统错误。可以根据需要更新模型以训练用于精确图像分类的系统。

如本文进一步描述的，本公开的实施例是可扩展的，从而允许创建图像分类足够准确的合成图像，同时在实际系统的约束内优化性能。在一个实施例中，考虑到时间、处理、带宽和存储约束，对象分辨率(例如，三角形的大小)是可扩展的以优化环境模拟系统102的操作。许多对象可以用较低的分辨率来精确地建模(例如，较大的三角形和/或应用较少的每个三角形跟踪的光线)，并且可以根据需要添加复杂度以进行准确的图像分类。例如，建筑对象可能不需要每个砖块的发射率模型，只要对足够的特征进行建模以使得图像分类系统能够正确检测或忽略对象即可。作为另一示例，在诸如用于识别人的系统的许多应用中，诸如树木之类的对象在建模中不需要高度的准确性(例如，不需要对每片叶子进行建模)，而是可以以比其他对象较低的复杂度进行建模。通过将一定范围的复杂性应用于热建模，可以创建准确而实用的系统。

在操作中，操作员访问用户界面端口110并通过数据集创建控制接口120建立训练参数。训练参数可以包括位置、环境、要检测的对象以及可能出现在图像捕获设备(例如，监控系统)捕获的图像中的其他因素。数据集创建控制接口120生成具有各种位置、对象、角度、距离的一系列图像，并且将这些图像连同每个图像的注释一起存储在合成图像数据库122中，注释包括要从图像和各个场景中检测到的对象、环境数据和数据集标识符。可以对捕获的合成图像进行编译以生成用于训练神经网络或其他图像分类系统的训练数据集。在一些实施例中，训练数据集还可以包括由摄像机捕获的真实图像124、由光学图像捕获部件108捕获的光学图像以及其他适当的数据。

在各种实施例中，期望具有包括许多不同场景的合成图像的训练集。环境模拟系统102可以被配置为使用随机创建的环境来创建场景，包括场景中随机的对象数量和类型、随机的对象的位置、随机的摄像机的位置以及影响场景以创建唯一图像的其他随机因素。在一些实施例中，对非真实的场景、背景和效果进行成像以扩展训练数据集并创建熵。

合成成像系统100可以体现在一个或多个计算设备、服务器和/或一个或多个数据库上，并且可以与图像分类系统中的其他部件组合。参考图3A，将描述图像分类系统200的各种实施例。图像分类系统200可以实现在一个或多个服务器上，例如，执行用于生成、存储、分类和检索图像的数据处理和/或其他软件执行操作的应用服务器。在一些实施例中，图像分类系统的部件200可以分布在通信网络(例如，网络222)上。通信网络222可以包括一个或多个局域网(例如，无线局域网(WLAN))，广域网(例如，互联网)以及适用于便于本文所述的部件之间通信的其他有线或无线通信路径。图像分类系统200包括通信部件214，其用于便于通过通信网络222与一个或多个网络设备220通信。

在各种实施例中，图像分类系统200可以用作通用图像分类系统(例如，基于云的图像分类系统)，或者可以被配置为在专用系统(例如，视频监控系统，其存储通过多个图像捕获设备实时捕获的视频和图像，并使用数据库202识别和分类对象)中操作。图像分类系统200可被|配置为从一个或多个网络设备220接收一个或多个图像(例如，通过视频监控系统的红外摄像机捕获的图像或可见光图像)并处理相关的对象标识/分类请求。

如图所示，图像分类系统200包括一个或多个处理器204，其用于执行图像分类系统200的数据处理和/或其他软件执行操作。处理器204可以包括逻辑设备、微控制器、处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或图像分类系统200可以用来执行适当指令(例如，存储在存储器206中的软件指令)的其他设备，存储器206包括3D模拟和图像捕获器208、训练数据集生成部件210和图像分类部件212(例如，由训练数据集训练的神经网络)和/或其他应用。存储器206可以在存储可执行指令、数据和信息(包括图像数据、视频数据、音频数据、网络信息)的一个或多个存储器设备(例如，存储器部件)中实现。存储设备可以包括用于信息存储的各种类型的存储器，包括易失性和非易失性存储设备，例如，RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦除只读存储器)、闪存存储器、磁盘驱动器和本文所述的其他类型的存储器。

每个网络设备220都可以实现为计算设备，例如，台式计算机或网络服务器、移动计算设备(例如，移动电话、平板电脑、膝上型计算机)、或具有用于与图像分类系统200中的其他设备连接的通信电路(例如，无线通信电路或有线通信电路)的其他计算设备。在各种实施例中，网络设备220可以包括成像设备或视频监控系统的部件。

通信部件214可以包括用于使用各种通信协议与其他设备进行通信的电路。在各种实施例中，通信部件214可以被配置为通过有线通信链路(例如，通过网络路由器、交换机、集线器或其他网络设备)进行通信以用于有线通信。例如，有线链路可以用电力线电缆、同轴电缆、光纤电缆或支持相应的有线网络技术的其他适当的电缆或电线来实现。通信部件214可以进一步被配置为经由诸如以太网接口、电力线调制解调器、数字用户线(DSL)调制解调器、公共交换电话网(PSTN)调制解调器、电缆调制解调器之类的有线通信部件和/或其他用于有线通信的适当部件与有线网络和/或设备接口连接。通信部件214也可以支持专有的有线通信协议和接口。

在各个实施例中，如图3B所示的经过训练的图像分类系统可以在实时环境中实现。图像分类系统250可以包括热成像摄像机或可用于接收和/或生成热图像的其他设备或系统。在所示的实施例中，图像分类系统250包括处理器和存储器260，其可用于在其上存储经过训练的神经网络并实现神经网络运行时间接口270。

在各种实施例中，本文公开的合成训练数据集可以用于训练神经网络或其他分类系统进行对象分类。参考图4A，现在将描述利用合成训练数据的神经网络的实施例。在一个实施例中，神经网络300是卷积神经网络(CNN)，其接收训练数据集302并输出每个图像的分类。训练数据集包括本文所述的合成图像，并且还可以包括从红外、可见光或其他类型的摄像机捕获的真实图像。对于对象分类来说，图像可以包括捕获图像的感兴趣区域，该捕获图像包括要识别的对象。在一个实施例中，训练始于通过神经网络300的前向传递，包括在多个卷积层306和池化层308中的特征提取304，接着是在多个完全连接层312和输出层314中的图像分类310。接下来，考虑到在前向传递中的错误(例如，错误分类的对象)，可以使用后向传递通过神经网络300来更新CNN参数。在各种实施例中，根据本公开可以使用其他神经网络过程。

在图4B示出了对经过训练的神经网络进行验证的实施例。将一组代表真实世界图像的完整注释的验证测试图像320馈送到经过训练的神经网络322。验证测试图像320包括各种对象、对象尺寸和要分类的背景。性能评估系统323检测并分析错误(例如，图像分类与地面真值注释)，并将结果反馈给3D环境模拟系统324以更新合成模型，合成模型接着更新训练数据集326。在各种实施例中，可以通过添加更多示例对象(例如，更多类型的云)、增加3D模型的分辨率和/或增加热建模的准确性来校正检测到的错误，以帮助区分图像中的对象。通过调整合成训练数据集以提高准确性，操作员可以避免为更新训练数据集而花费大量时间和精力来收集所需的真实世界图像。

现在参考图4C，将描述利用合成训练数据训练神经网络的实施例的更多细节。使用包括本文所述的合成图像的训练数据集332来训练神经网络320(例如，卷积神经网络)。训练包括前向传递通过神经网络330以产生图像分类。在所示的实施例中，将热图像(例如，大象的合成热图像)馈送到神经网络330以在输出层产生分类。每个合成图像都用正确的分类标记，并且将神经网络330的输出与正确的标记进行比较。如果神经网络330错误地标记了输入图像(例如，确定图像是“犀牛”而不是“大象”)，则可以使用通过神经网络330的后向传递来调整神经网络以校正错误分类。参考图4D，然后可以在运行时环境上的应用程序(即，神经网络推理应用程序)中实现经过训练的神经网络340，以对热图像342进行分类。

参考图5，现在将描述生成用于检测图像中的对象的训练数据的过程的实施例。在步骤402，操作员定义训练数据集的参数，所述训练数据集的参数包括要检测和分类的对象的标识、要建模的成像传感器以及要在其中捕获图像的用例/环境。在步骤404，构建三维虚拟世界以对用例/环境建模。接下来，在步骤406，构建成像场景以填充训练数据集，所述成像场景包括成像传感器位置和对象在3D虚拟世界中的方向/位置。在步骤408，对于每个成像场景，应用传感器模型并以合成图像的形式生成模拟的传感器响应。在步骤410，对选择的图像进行增强以对各种真实世界和/或非真实场景进行建模，以训练神经网络在各种周围环境和遮蔽条件下对图像进行分类。例如，可以通过风格转换技术和其他图像增强技术来增强选择的图像，以增加各种类型的噪声、缩放图像、翻转图像、使图像变形。

在步骤412，将每个捕获的合成图像与描述成像场景的注释一起存储到训练集数据库中。在各种实施例中，注释可以标识图像中的对象、对象细节、建模的传感器类型、3D环境、摄像机位置和方位、背景对象/环境、当天的时间、天气以及适于定义成像场景的其他信息。在步骤414，使用合成训练数据集来训练神经网络。在步骤416，使用真实世界图像来验证神经网络，并且将结果用于更新虚拟世界和成像场景的参数，以提高性能。

参照图6，将描述成像系统的各种实施例。成像系统可以用于捕获和处理图像，以对出现在视场中的对象进行检测、分类和/或计数。如图所示，成像系统500可以用于对视场中的场景570进行成像。成像系统500包括处理部件510、存储器部件520、图像捕获部件530、光学部件532(例如，被配置为通过摄像机部件501中的孔534接收电磁辐射并将电磁辐射传递至图像捕获部件530的一个或多个透镜)、图像捕获接口部件536、显示部件540、控制部件550、通信部件552和其他感测部件。

在各种实施例中，成像系统500可以实现为成像设备(例如，摄像机部件501)，以捕获例如摄像机部件501的视场中的场景570的图像帧。在一些实施例中，摄像机部件501可包括容纳在保护性外壳中的图像捕获部件530、光学部件532和图像捕获接口部件536。成像系统500可以表示适于对场景570进行成像并提供相关的图像数据的任何类型的摄像机系统。可以在各种类型的固定位置和环境(例如，作为场所监控系统的一部分来跟踪交通、监控/跟踪人等的高速公路立交桥)，用摄像机部件501来实现成像系统500。在一些实施例中，可以以固定的布置安装摄像机部件501，以捕获场景570的连续图像。成像系统500可以包括便携式设备并且可以实现为例如手持设备，和/或在其他例子中耦合到各种类型的车辆(例如，陆基车辆、水上飞机、飞机、航天器或其他车辆)。

处理部件510可以包括例如微处理器、单核处理器、多核处理器、微控制器、逻辑设备(例如，被配置为执行处理操作的可编程逻辑设备)、数字信号处理(DSP)设备、一个或多个用于存储可执行指令(例如，软件、固件或其他指令)的存储器、和/或处理设备和/或存储器的任何其他适当组合，以通过执行指令来执行本文所述的各种操作。处理部件510适于与部件520、530、540和550接口连接并通信，以执行如本文所述的方法和处理步骤。处理部件510还适于通过图像处理模块580、对象检测模块582和经过合成训练的图像分类模块584，对图像捕获部件530捕获的图像中的对象进行检测和分类。

应当理解，处理操作和/或指令可以集成在软件和/或硬件中，作为处理部件510的一部分，或者可以是存储在存储器部件520中的代码(例如，软件或配置数据)。可以由计算机可读介质(例如，存储器、硬盘驱动器、光盘、数字视盘或闪存)以非临时方式存储本文公开的处理操作和/或指令的实施例，以通过计算机(例如，基于逻辑或基于处理器的系统)执行所述处理操作和/或指令来执行本文公开的各种方法。

在一个实施例中，存储器部件520包括一个或多个存储器设备(例如，一个或多个存储器)，以存储数据和信息。一个或多个存储设备可以包括各种类型的存储器，包括易失性和非易失性存储设备，例如，RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦除只读存储器)、闪存或其他类型的存储器。在一个实施例中，处理部件510适于执行存储在存储器部件520和/或机器可读介质中的软件，以按照本文所述的方式执行各种方法、过程和操作。

在一个实施例中，图像捕获部件530包括用于捕获表示场景570的图像的图像信号的一个或多个传感器。在一个实施例中，图像捕获部件530的传感器用于将捕获的场景570的红外图像信号表示(例如，转换)为数字数据(例如，通过作为传感器的一部分而包括的或作为红外成像系统500的一部分与传感器分离的模数转换器来执行)。红外传感器可以包括以阵列或其他方式在基板上实现的多个红外传感器(例如，红外检测器)。例如，在一个实施例中，红外传感器可以实现为焦平面阵列(FPA)。红外传感器可以被配置为检测来自目标场景的红外辐射(例如，红外能量)，例如，包括中波红外波段(MWIR)、长波红外波段(LWIR)和/或在特定实施方式中可能是需要的其他热成像波段。红外传感器可以实现为例如测微辐射热计或以任何期望的阵列图案布置以提供多个像素的其他类型的热成像红外传感器。

处理部件510可以适于从图像捕获部件530接收图像信号、处理图像信号(例如，以提供处理后的图像数据)、将图像信号或图像数据存储到存储器部件520中、和/或从存储器部件520获取存储的图像信号。在各个方面，如本文所述，可以使处理部件510远程地定位，并且处理部件510可以适于经由与图像捕获接口部件536的有线或无线通信来从图像捕获部件530远程接收图像信号。

显示部件540可以包括图像显示设备(例如，液晶显示器(LCD))或各种其他类型的通常已知的视频显示器或监视器。在各种实施例中，控制部件550可以包括用户输入和/或接口设备，例如，键盘、控制面板单元、图形用户界面或其他用户输入/输出。控制部件550可以适于被集成为显示部件540的一部分，以同时用作用户输入设备和显示设备，例如，举例来说，适于通过用户触摸显示屏不同部分来接收输入信号的触摸屏设备。

处理部件510可以适于与图像捕获接口部件536通信(例如，通过从图像捕获部件530接收数据和信息)。图像捕获接口部件536可以被配置为从图像捕获部件530接收图像信号(例如，图像帧)，并且以本文进一步描述的通信部件552的方式，直接或通过一个或多个有线或无线通信部件(例如，由连接537表示)将图像信号传送至处理部件510。在各个实施例中，摄像机部件501和处理部件510可以彼此靠近或远离。

在一个实施例中，通信部件552可以实现为适于与包括网络中的其他设备的网络进行通信的网络接口部件，并且可以包括一个或多个有线或无线通信部件。在各种实施例中，网络554可以实现为单个网络或多个网络的组合，并且可以包括有线或无线网络，其包括无线局域网、广域网、互联网、云网络服务、和/或其他适当类型的通信网络。

在各种实施例中，成像系统500具有对场景570中的对象进行实时检测、分类和计数的能力。例如，成像系统500可以被配置为使用摄像机部件501(例如，红外摄像机)捕获场景570的图像。捕获的图像可以由处理部件510接收并存储到存储器部件520中。图像处理模块580和对象检测模块582可以从每个捕获的图像中提取与检测到的对象相对应的场景570的像素值的子集。经过合成训练的图像分类模块584根据系统偏好对检测到的对象进行分类并将结果存储到存储器部件520、物体数据库或其他存储器中。在一些实施例中，成像系统500可以通过网络554(例如，互联网或云)将图像或检测到的对象发送到服务器系统(例如，图像分类系统556)，以进行远程图像分类。

对象检测模块582和经过合成训练的图像分类模块584提供对捕获图像的分析，以对捕获图像中的对象进行检测和分类。在各种实施例中，对象检测模块582与对象分类数据库接口连接，该对象分类数据库存储用于分析和识别数字化对象的信息以及由图像捕获设备捕获的其他传感器信息。例如，数据库可以存储用于一般地识别检测到的对象(例如，人、动物、汽车、摩托车、植物、被风吹动的对象、阴影等)的类别的对象分类标准、可能包括合成图像的已知对象的参考图像、每个图像捕获设备的视场参数(例如，用于估计对象尺寸)、每个图像捕获设备共有的学习和配置的活动(例如，可能由非标准事件触发了对象的错误检测和分类)、以及其他对象分类信息。

在适用的情况下，可以使用硬件、软件或硬件和软件的组合来实现本公开提供的各种实施例。同样，在适用的情况下，在不脱离本公开的精神的情况下，本文提出的各种硬件部件和/或软件部件可以组合成包括软件、硬件和/或两者的复合部件。在适用的情况下，在不脱离本公开的精神的情况下，可以将本文提出的各种硬件部件和/或软件部件分成包括软件、硬件或两者的子部件。

可以将根据本公开的软件(例如，非暂时性指令、程序代码和/或数据)存储到一个或多个非暂时性机器可读介质上。还预期，可以使用联网的和/或其他方式的一个或多个通用或专用计算机和/或计算机系统来实现本文中标识的软件。在适用的情况下，可以更改本文描述的各个步骤的顺序，组合为复合步骤和/或分成子步骤，以提供本文描述的特征。

上述实施例是示例性的而不限制本发明。还应该理解，根据本发明的原理，许多修改和变化是可能的。因此，本发明的范围仅由所附的权利要求书限定。

Claims

1.一种系统，该系统包括：

合成图像生成器，所述合成图像生成器用于生成包括多个图像的训练数据集；

神经网络训练系统，所述神经网络训练系统用于使用来自所述训练数据集的所述多个图像来训练神经网络并产生经训练的神经网络；以及

训练数据集分析引擎，所述训练数据集分析引擎用于生成新的训练数据集参数，所述新的训练数据集参数包括所述多个图像的子集和将由所述合成图像生成器生成的新的图像。

2.根据权利要求1所述的系统，其中，所述神经网络训练系统还用于生成表示所述多个图像对所述神经网络训练系统的贡献的信息量度。

3.根据权利要求2所述的系统，其中，所述训练数据集分析引擎用于响应于所述信息量度而生成新的训练数据。

4.根据权利要求1所述的系统，还包括验证系统，所述验证系统包括验证数据集，所述验证数据集包括多个标记的真实世界图像，其中，所述经训练的神经网络对来自所述验证数据集的图像进行分类。

5.根据权利要求4所述的系统，其中，将图像分类提供给所述训练数据集，并且其中，所述训练数据集分析引擎用于响应于所述图像分类而生成新的训练数据。

6.根据权利要求1所述的系统，其中，所述训练数据集分析引擎包括数据提取器/分析器，所述数据提取器/分析器用于接收信息量度并基于对所述神经网络的贡献来评估图像。

7.根据权利要求1所述的系统，其中，所述训练数据集分析引擎包括数据集生成器，所述数据集生成器用于定义更新的训练数据集和定义将生成的新合成图像的参数，其中，所述更新的训练数据集包括所述多个图像的子集。

8.根据权利要求7所述的系统，其中，所述训练数据集和分析引擎包括汇编器/接口，所述汇编器/接口用于生成使所述合成图像生成器创建所述更新的训练数据集的指令。

9.根据权利要求1所述的系统，还包括定义图像分类系统的范围的配置参数。

10.根据权利要求1所述的系统，其中，所述训练数据集分析引擎还用于基于对所述神经网络的性能的相对贡献来对所述多个图像中的每个图像进行排名，并且其中，所述多个图像的子集包括排名靠前的图像。

11.根据权利要求1所述的系统，其中，所述合成图像生成器用于接收所述新的训练数据集参数、生成包括随机对象类型和/或在三维虚拟环境内的布置的成像场景；以及

对于每个成像场景，为更新的训练数据集生成相应的合成图像。

12.根据权利要求1所述的系统，其中，所述合成图像生成器用于接收所述新的训练数据集参数，并生成包括所述多个图像的子集的新的训练数据集。

13.根据权利要求1所述的系统，其中，所述系统还用于使用所述多个图像来训练所述神经网络，使用真实图像来验证所述训练以检测分类错误，以及响应于检测到的分类错误来更新所述参数以提高分类精度。

14.一种方法，所述方法包括：

通过合成图像生成器生成包括多个图像的训练数据集；

通过神经网络训练系统使用来自所述训练数据集的所述多个图像来训练神经网络，以产生经训练的神经网络；以及

生成新的训练数据集参数，所述新的训练数据集参数包括所述多个图像的子集和将由所述合成图像生成器生成的新的图像。

15.根据权利要求14所述的方法，其中，训练所述神经网络还包括：生成表示所述多个图像对所述神经网络训练系统的贡献的信息量度。

16.根据权利要求15所述的方法，其中，响应于所述信息量度，生成新的训练数据。

17.根据权利要求14所述的方法，还包括使用验证数据集来验证所述经训练的神经网络，所述验证数据集包括多个标记的真实世界图像。

18.根据权利要求17所述的方法，其中，响应于所述图像分类，生成新的训练数据。

19.根据权利要求14所述的方法，还包括接收信息量度并基于对所述神经网络的贡献来评估图像。

20.根据权利要求14所述的方法，还包括定义更新的训练数据集和定义将生成的新合成图像的参数，其中，所述更新的训练数据集包括所述多个图像的子集。

21.根据权利要求20所述的方法，还包括生成使所述合成图像生成器创建所述更新的训练数据集的指令。

22.根据权利要求14所述的方法，还包括确定定义分类系统的范围的配置参数。

23.根据权利要求14所述的方法，还包括基于对所述神经网络的性能的相对贡献来对所述多个图像中的每个图像进行排名，并且其中，所述多个图像的子集包括排名靠前的图像。

24.根据权利要求14所述的方法，还包括接收所述新的训练数据集参数、生成包括随机对象类型和/或在三维虚拟环境内的布置的成像场景；以及

25.根据权利要求14所述的方法，还包括接收所述新的训练数据集参数，并生成包括所述多个图像的子集的新的训练数据集。

26.根据权利要求14所述的方法，还包括使用存储的合成图像来训练神经网络，使用真实图像来验证所述训练以检测分类错误，以及响应于检测到的分类错误来更新所述参数以提高分类精度。