CN109313717A

CN109313717A - 一种在神经网络中用于对象检测的模型构建

Info

Publication number: CN109313717A
Application number: CN201780026774.3A
Authority: CN
Inventors: 肯·法兰克; 珍妮特·B·佩德森; 亨利克·索尔斯戈德
Original assignee: Scopito ApS
Current assignee: Scopito ApS
Priority date: 2016-05-02
Filing date: 2017-04-25
Publication date: 2019-02-05
Also published as: FI3452959T3; WO2017190743A1; ES2942621T3; EP3452959B1; EP3452959A1; DK3452959T3; US20190156202A1

Abstract

本发明涉及一种计算机实施的方法，用于在神经网络中对未处理的图像中的对象检测构建模型，其中该构建可基于至少一个图像训练批次来执行。该模型通过训练神经网络中的一个或多个集合模型变量被构建，以将各个注释过的对象分类为对象类中的成员。结合一组规范，该模型当在神经网络中实施时能够在具有对象检测概率的未处理图像中进行对象检测。

Description

一种在神经网络中用于对象检测的模型构建

技术领域

背景技术

随着数据的数量增长和对自动化任务的需求不断扩大，深度学习、神经网络和云基础设施有效地执行复杂数据分析的巨大潜力变得越来越明显。

全世界的大规模研究和投资正在投入机器学习和深度卷积神经网络(CNNs)中。大型公司和研究机构示出了技术发展最新水平，其中单个神经网络可取代以前需要针对每个实例特定研发的非常复杂的算法。

商用机器学习图像识别解决方案开始出现在市场上。然而，这些解决方案使用预先训练的模型，其能够识别如人，汽车，狗或建筑物的常见对象类型。CNNs的问题在于准备数据和配置网络以获得良好的训练结果是非常复杂的。此外，需要非常强大的个人电脑(PCs)和图形处理单元(GPUs)。

现今，高技术人员仍然执行和访问复杂的机器学习技术，以构建预先训练的模型。例如，需要高水平的计算机科学和深度学习能力来注释、训练和配置神经网络，从而高精确地检测定制的对象。通常，预先训练模型仅在训练的狭窄领域内使用。

一个主要问题是，现今预先训练模型的实施是在标准化训练数据上完成的。这些标准化的训练数据受限制于尺寸和应用领域两者，因此，在扩展训练以研发用于其他应用的预先训练模型方面存在问题。特别是神经网络领域的研究人员已经尝试将神经网络转化到新的领域，然而，由于注释数据的工作非常耗时，他们经常使用过少的图像。

一般而言，现今预先训练模型实施是非常耗时的训练和构建模型的任务，并且需要专业知识。神经网络的建立需要专家，而数据注释非常耗时并且可能需要耗费数周或更长的时间。

作为机器学习技术的一个实例，WO 2016/020391可能会被提及。WO2016/020391公开了一种用于训练分类器的方法。该分类器用在组织学领域中自动分析生物图像的方法中。

该方法基于使用生物图像分析设备来分析图像，该生物图像分析设备被编程以执行分类器功能。通过将对象特征与对象特征相关的环境特征结合而执行分类。对象特征可包括对象内的所有像素的大小，形状和平均亮度，并且该环境特征是一组对象或像素的特性。在组织学中，这些结构的存在，程度，尺寸，形状和其他形态外观是疾病存在或严重程度的重要指标，这激发了对特定对象的精确识别的需要。因此，公开的方法旨在实现高水平的对象特殊性。

为了实施该方法，使用SVMs。SVMs是监督学习模型，具有相关的分析数据和识别图案的学习算法，用于分类和回归分析。给定一组具有像素点的训练数字图案，将每个像素点标记，归属于两个类别中的一个，SVM训练算法构建将新样本分配到一个类别或另一个类别的模型，使其为非概率性的二元分类器。SVM模型是作为空间中的点的样本代表，映射，如此通过尽可能宽的清晰间隙将分类的样本分开。接着，将新样本映射到相同的空间中，并基于它们落入的间隙的一侧，预测新样本以归属类别。

公开于WO 2016/020391中的一种用于训练分类器的方法基于三因素框架，其中使用训练数字图像的训练集。分析图像以计算训练环境特征的值，并确定特定对象特征的特征值。在单个对象特征和一个或多个环境特征上训练分类器。

在训练阶段期间，分类器构建模型，该模型不明确地指定对象特征和一个或多个环境特征之间的关系。在一个实例中，使用由总共210个视界(FOV)图像组成的训练数据集，其中恶性肿瘤细胞和淋巴细胞被手动注释为训练数据。将该训练数据输入到未经训练的线型SVM分类器中。该实例示出了环境特征比单独有对象特征具有更强的描述能力。

美国专利2014/0254923公开了一种将图像中的对象进行分类的计算机实施的方法。已公开的方法没有如WO 2016/020391那样依赖于环境特征，而是依赖于单独的对象检测。该方法使用矢量描述，以便考虑旋转和缩放，并且通过经过训练的对象分类过程对图像中的对象进行分类。但是，对象分类过程通过使用具有已知内容的已知图像训练数据集来训练。

为了真正地开发机器学习技术和神经网络的巨大潜力来有效地执行复杂的数据分析，需要简化程序的解决方案。解决方案包括用于各种结构和基础设施检测的预先训练的通用型模型，解决方案允许非技术人员在CNN中训练模型，并使用这些构建的模型来分析他们的数据，解决方案利用云基础设施和CNNs的优势来创建可在许多不同检测领域中运行的单一可扩展的解决方案。

同时，图像记录在前所未有的规模和质量上变得简单。记录或收集也可由无人驾驶飞行器例如无人机来执行。来自无人机检测的图像采集包括海量或大量的数据，且示出了当训练或应用神经网络来图像识别时引入精确度的问题。

发明目的

本发明的目的旨在克服现有技术中的一个或多个前面所述的缺点。

发明内容

本发明的目的可通过在神经网络中对未处理图像中的目标检测而构建模型的计算机实施的方法来实现，其中可基于至少一个图像训练批次来执行构建。该方法包括提供配置有一组规范的神经网络的行动，建立至少一个图像训练批次的行动，以及提供图形用户界面(GUI)的行动，该图像训练批次包括至少一个训练图像，该训练图像包括一个或多个对象，其中单独的对象是对象类中的成员，该图形用户界面被配置为用于显示来自该图像训练批次的训练图像。此外，该方法包括迭代地执行下列步骤中的一个或多个的行动：一个行动为通过用户交互来注释训练图像中的一个或多个对象，而形成单独地注释过的对象，另一个行动为通过用户交互，为训练图像中的注释过的对象将注释与对象类相关联。一个行动为返回用户注释过的图像训练数据集，该用户注释过的图像训练数据集包括具有一个或多个注释过的对象的训练图像，每个单独的注释过的对象与一个对象类相关联。而另一个行动为通过在神经网络中训练一个或多个集合模型变量来构建一个或多个模型，以将单独地注释过的对象分类为对象类的成员。与一组规范结合的模型当在神经网络中实施时能够在具有对象检测概率的未处理图像中进行对象检测。

该神经网络可能是卷积神经网络(CNN)、区域神经网络(R-NN)、区域卷积神经网络(R-CNN)、快速R-CNN、完全分段的CNN或任何相似的结构。神经网络可在如实例的不同的框架中实施，但不限于这些，可为所述的商业框架，例如Tensorflow、Theano、Caffe或Torch。

该神经网络的规范可包括关于例如数据类型、学习速率、步长、迭代次数、动量、层的数量和结构、例如激活函数(relu，sigmoid，tanh)的层配置、池化、卷积层的数量、卷积滤波器的尺寸、完全连接的层的数量、完全连接的层的尺寸、输出(输出类)的数量和分类函数的说明。此外，该规范可包括关于网络的深度的信息，以及用于神经网络的建立的结构。该神经网络可配置有不同或附加的规范，因此决不限于所述的实例。各种规范可被经常重复使用，许多神经网络已经配置有一组规范，如实例可为所提及的商业上可获得的Alexnet或VGG，其指定了上述规范的范围。本领域技术人员将知道如何使用配置有一组规范的已经建立的神经网络，调整或设置已建立的神经网络的规范，或者甚至可能建立具有一组规范的神经网络。

图像可指为由传感器记录的数据点的任意多维表示、正射影像或数据点的其他多维表示。这可能包括例如雷达图像，来自电子显微镜或MR扫描仪的扫描图像，光学图像，热图像，点云，声学数据记录或地震记录。这恰好是图像的几个实例，因此本发明的范围决不限于所提及的实例。

如果图像提供特定的行动，可能仅仅进行迭代执行的动作。在图像训练批次包括空白训练图像或包含不相关的待注释对象的训练图像的情况下，可省略与注释对象相关的动作。

图像中的对象检测包括对象识别和对象定位这两种。对象识别还可被视为对象分类。

对象检测可以用于例如映射设施或测绘基础设施，其中对象检测可为实际图像对象，热图像中的温度变化或声学图像上的特定频率尺度。对象检测可包括例如常见发生的对象，很少发生的对象或其组合。应当再次提及的是，这些仅是有限数量的实例，且本发明的范围决不限于这些。

对象检测的概率是指通过网络在图像上进行对象检测的可能性以及归属于一对象类的可能性，然而精确度是指当确定在图像验证批次上测试网络预测的对象和对象类时网络实际的精确程度。

在一个方面中，对象检测的精确度可描述用户在程序中设置阈值的情况。如果标记的对象高于这个阈值，则神经网络将建议这个对象类与标记的对象相关联。

该实施例的一个效果是，为了构建模型以将单独地注释过的对象分类为对象类中的成员，用于训练神经网络中的集合模型变量的数据仅包括训练图像数据批次、相关对象的注释和相关联的对象类。因此，所提供的数据准备不需要高水平的计算机科学和深度学习能力，这具有的优点是训练可由计算机科学和深度学习中的非技术人员来执行。执行训练的人员只需要识别图像上的相关对象的技能。

该实施例的另一个效果是该训练可在各种对象上执行，具有可训练集合模型变量来构建用于各种对象检测的模型的优点。因此，这个实施例关于为在许多不同的检查领域中工作的对象检测构建模型是有利的。此外，关于构建具有高度不变性的对象检测的模型方面是有利的，以便具体地概述例如对象，尺寸，比例，旋转，颜色诸如此类。不变性可包含多种特征，且决不限于这里所提及的实例。

因此，根据上面所述，训练可包含一个模型或多个模型，用于一个或多个对象的检测，构建每个模型，用于检测一个或多个对象。

而该实施例的另一个效果是该训练可以以给定的精确度执行对象检测。优点是可以完成训练，且对于给定任务，对象检测的精确度被评估为是足够的，从而将训练工作量和时间限制到最小。这关于训练水平可能习惯于对象检测的复杂性的这一事实也是有利的。

该实施例的另一个效果是可使用图像训练批次来执行训练，该图像训练批次包括具有多个对象的图像，其中每个单独的对象归属于不同的对象类。这样的一个优点可能是在一个训练过程中可构建单独的对象类的多个模型，从而将训练工作量和时间限制到最小。例如，多个模型可用作在各种结构检查和基础设施检查上的多对象检测的一个综合模型，或者可将单个模型分离，用于在非常特定的基础设施检查中的单个结构上的更集中的对象检测。

而该实施例的另一个效果是，训练要么可由多个图像训练批次上的多个用户执行，要么可由一个图像训练批次上的多个用户执行，其优点是可以利用云基础设施和CNNs的优势来为每个用户构建具有有限的训练工作量和时耗的模型。

在训练几个用户的情况下，可能优选的是将历史记录合并到用户交互上并指定不同的用户等级，其中用户等级与用于对象注释和对象分类的层次相关联。

多个用户的效果可能是可将训练划分至更多用户。此外，如果每个用户贡献不同的图像，更多用户可提供更加多样的图像训练批次。此外，如果更多用户贡献他们自己的图像，则可以建立更加全面的图像训练批次。这有利于减少单独用户的时耗，提高对象检测的精确度并因此构建更精确的模型。

本发明的一个目的可通过计算机实施的方法来实现，该方法包括迭代地执行以下行动中的一个或多个的进一步行动，其中一个行动包括显示训练图像，该训练图像包括一个或多个机器标记的对象，该标记的对象与机器执行的一个或多个单独的对象分类相关联；另一个行动包括改变机器对象的标记、机器对象的分类或两者；以及又一个行动包括评估集合模型变量的训练水平以终止模型训练。

通常，使用注释与通过图形用户界面借助用户交互来执行的行动有关，而使用标记与基于构建的模型，通过神经网络执行的行动有关。

这个实施例的一个效果可能是在迭代执行的行动中连续地训练集合模型变量，并且将所构建的模型在每次执行迭代后相应地改进。考虑到连续地评估训练水平以便一旦达到对象体检测的合适精度，训练可被终止，从而限制过度训练的训练工作量和时耗，这样是有利的。

迭代训练可能具有进一步的效果是，正确执行的标记可被简单地接受，因此随着训练进行，必须执行的注释越来越少。随着训练进行，注释可被限制于图像上执行，该图像具有新的信息、不同的视点或在同一类中的对象，但该图象具有的特点在先前图像上看不到。因此，迭代训练呈现出训练所消耗的时间由于时间因素而减少的优点。

该实施例的另一个效果可能是对象标记和对象分类可以被改变以校正集合模型变量的训练。这样对于连续调整训练可能是有利的。

模型可能还包括图像的一部分或几个部分的集体变量，该图像的一部分或几个部分不包括对象，其可被称为背景。因此，注释的迭代行动可包括注释背景的部分，并将这个注释或这些注释与适用的对象类例如″背景″，″其他的″，″不适用的″，″非对象″或其他有创意的命名的类相关联。背景的注释可能包括图像背景的一小部分，完整的图像或围绕其他注释过的对象的图像的剩余部分。注释包括背景的部分和对其进行分类的效果是在背景和其他对象之间建立分割，其他对象为待检测的相关对象。很重要的是在带标注的背景部分中获得广泛的多样性以提高背景和其他对象之间的分割的精确度，因此提高对象检测的概率和精确度。

基于所执行的实验，最佳的结果通过注释图像背景的一小部分，结合注释没有任何相关对象的完整图像被获得。然而，上述方法的全部，单个或组合，仍可适用，具有良好的结果。

本发明的一个目的可以通过计算机实施的方法来实现，其中注释、关联和返回的行动在随后执行构建行动前被迭代地执行。

这个实施例的一个效果可能是，可在训练图像子批次上执行用户交互，不用等待每个图像之间执行的构建行动。通过推迟构建行动并收集整个子批次的构建行动，用户可以在执行构建行动的时候获得在子批次上集中的工作努力和执行其他任务的连续时间的优点。

本发明的一个目的可以通过计算机实施的方法来实现，该方法包括执行智能扩增的另一个行动。

数据扩增是在不改变对象类的情况下改变对象图像的技术，而不管图像中的局部化。这意味着无论对象是否比以前更亮或更暗，无论是否旋转，是否被翻转，它都是相同的对象，举一些例子。为减少在神经网络中训练一个或多个集合模型变量所需的训练数据的数量，习惯作法是改编现有的图像训练集以模拟不同的图像。这意味着对象的一个图像可以被扩展为同一对象的多个图像，但是具有不同的变化的成像——新图像的数量可能多达500个或更多。智能扩增意味着仅考虑对象的图像的相关变化。因此，智能扩增的目的是以智能的方式来使用数据扩增以降低神经网络的复杂性。例如，如果图像化的对象的旋转从未在真实图像中发生，该旋转将占用神经网络中的复杂性并且可能永远不会被使用。这意味着一些权重将为这个信息保留，从而不能用于可能更相关的其他内容，这可能花费精确度。

因此，结合在这个实施例中的智能扩增为更好的对象检测精确度提供了图像处理。基于注释以及关联注释和对象类，这个处理可能包括图像的缩放，图像的旋转。注释可以在不同尺寸的对象上执行，或以不同的角度显示，这恰好是为了更精确的对象检测可以在智能扩增中所使用。

本发明的一个目的可以通过计算机实施的方法来实现，该方法包括建立至少一个图像验证批次的另一个行动。

建立图像验证批次可以具有评估所构建模型的精确度的效果。图像验证批次不用于训练，而仅测试所构建的模型。将先前到达的训练水平与在进一步训练之后构建的后续模型相比，这个可能是有利的。

此外，基于验证批次和对象检测执行所依据的精确度，可以使用该精确度自身来确立模型是否具有足够的精度。因此，评估是否应该改变模型，是否应该提供更多的训练数据，或者是否使用更简单的模型就可达到该精确度是可能的。例如使用更简单的模型的优点是需要更少存储器，因此可能需要更少的磁盘空间和更少的训练数据。

本发明的一个目的可以通过计算机实施的方法来实现，该方法包括由于评估了所构建的模型或神经网络的规范使用而降低模型的复杂性，减少规范或两者皆有的进一步行动。

这个实施例的效果可能是更简单的模型或更简单的神经网络可被用于训练集合模型变量。这样关于减少处理时间方面可能是有利的。而另一个优点可能是可以减少所需的PC容量。又一个优点可能是可以使用较弱的图形处理单元(GPUs)。这样开启了使用更便宜的硬件元件，从而节省了训练或对象识别，或两者皆有的成本。

如上所述，例如使用更简单模型的优点是需要更少存储器，因此可能需要更少的磁盘空间和更少的训练数据。

本发明的一个目的可以通过计算机实施的方法来实现，该方法包括减少图像训练批次，而作为评估对象检测的精确度的进一步行动。

减少图像训练批次的效果是可以减少用户花费训练的工作量和时间，导致训练成本降低。

在另一方面，图像训练批次可以通过省略混乱、摇动或模糊的图像来减少。包括这些图像可能会损害训练，降低训练的精确度。可替代地，这样的图像中的相关对象可以被删减，因此仍然可用在图像训练批次中，这可能具有扩大对象识别并因此提高对象检测的精确度的优点。

本发明的一个目的可以通过计算机实施的方法来实现，其中通过对训练图像的区域选择来执行注释对象，该训练图像包括对象或对象的像素分割。

这个实施例的一个效果是注释对象的习惯作法可以被执行，并具有促进计算机实施的方法可以在广泛的神经网络上执行的优点。

本发明的一个目的可以通过计算机实施的方法来实现，在其中使用配置有缩放功能的计算机实施的注释工具来执行注释对象。计算机实施的注释工具被配置为通过用户交互为训练图像中的对象区域选择提供区域选择界面，被配置为通过用户交互为训练图像中的对象像素分割提供像素分割界面，或被配置为两者皆有，其中区域选择是可调整的，像素分割配置为通过对借助用户交互而选取的一小部分像素的相似像素进行分组来预先分割像素。此外，注释工具配置为将注释从对象的像素分割转换为训练图像中的对象的区域选择。

该缩放功能具有执行更精确的注释的效果，包括背景的最小量，具有精确对象检测的优点。

可调节的区域选择提供与缩放功能相同的效果和优点。

在本实施例中的像素分割配置为预先分割像素的实际情况的一个效果是，通过用户交互可选择仅一小部分像素，之后计算机实施的注释工具通过对借助用户交互而选取的一小部分像素的相似像素进行分组来预先分割像素。因此，用户不必选择对象中包含的每个像素，这可能是一个枯燥乏味且不精确的过程。

该实施例的另一个效果是，随着注释工具被配置为将注释从对象的像素分割转换到训练图像中的对象的区域选择中，该注释可以被保存到其他神经网络的格式，因此可独立于神经网络的格式或类型而被使用。

本发明的一个目的可以通过计算机实施的方法来实现，其中该计算机实施的注释工具还提供颜色叠加注释，提供一个或多个单独注释过的对象、机器标记的对象或两者组合的再分类，或提供两者，其中颜色与对象分类相关联，对象分类与注释相关联。此外，该注释工具被配置为在一个或多个训练图像中显示与对象类相关联的所有注释和机器标记。

这个实施例的一个效果是，由于颜色叠加，相关联的类容易被识别。通常，在同一图像上将有几种类型的对象类，这对于容易地识别不同的关联类并因此识别错误的注释或分类是特别有利的。该实施例具有进一步的效果是错误的注释或分类可以被立即校正。

该实施例的另一个效果是，当所有注释、标记和相关联的对象类被显示时，它提供了错误的简单校正，具有优化训练的优点。

本发明的一个目的可以通过计算机实施的方法实现，其中该计算机实施的注释工具还提供已执行的注释的历史记录。

假如训练几个用户，这个实施例可能具有的效果是，由超级用户执行的注释可能不会由更少经验的用户重写，这样对于实现高水平的训练可能是有利的。进一步的效果是用户可以观察到他/她自己的注释过的历史记录，这对于提高他/她自己的技术可能是有利的。

这样的另一个影响可能是，历史记录包括关于对象是否由人来最初注释或是否由神经网络来最初标记的相关信息。即使注释或标记被接受，可能存在边缘精密度的问题。相对于用户必须进行注释，用户可能倾向于接受来自神经网络的不精确但正确的结果。如果没有校正，这可能会在训练中出现不准确。因此，对于有经验的用户，这个可被查阅注释/标记的历史记录时发现，并被校正以恢复或提高训练中的精确度。

在一个方面，计算机实施的注释工具可包括旋转标记或注释的功能。旋转的标记或注释提供倾斜的选择对象，而不会获得太多背景。因此，实现标记/注释更好地贴合选择对象，使得训练变得更加精确。

在另一个方面，计算机实施的注释工具可包括移动区域选择到新对象的功能，从而如果新对象具有相同特性，则避免重新绘制注释框。

在另外一个方面，计算机实施的注释工具可包括重复区域选择的功能。如果多个对象出现在图像中，这个功能可对下一个对象重复区域选择，从而如果下一个对象具有相同特性，则避免重新绘制注释框。

在另外一个方面，计算机实施的注释工具可包括一键功能，用于保存包括注释和对象类的图像，该功能为待保存的图像数据集提供独特的标识符。因此，避免了重新绘制现有数据并减少了时耗。此外，用户不需要记住名称的序列，因为该功能可记录这些名称。

本发明的一个目的可以通过计算机实施的方法来实现，其中使用计算机实施的导航工具来执行图像训练批次中的导航，该导航工具通过图像管理提供导航，并提供评估图像训练批次的进展的状态。

这个实施例的一个效果可能是用户可通过跟随进展来被激励，具有让用户保持警惕的优点，从而避免了错误的注释或与注释相关联的错误的对象类。

另一个效果可能是用户可获得图像训练批次的更好的概况并且可浏览训练图像，从而仅关注于相关对象的图像。这样可能具有保持用户警惕以避免错误并且进一步限制了用户为训练提供的训练工作量和时耗的优点。

本发明的一个目的可以通过在神经网络中的计算机实施的方法来实现，该方法用于在具有对象检测概率的未处理图像中的对象检测。该方法包括提供构建的模型给配置有一组规范的神经网络的行动，建立至少一个未处理的图像批次的行动，其中未处理的图像批次包括至少一个未处理图像以待对象检测，提供图形用户界面(GUI)的行动，其中图形用户界面被配置为显示一个或多个具有一组标记对象的未处理图像，每个标记对象与对象类相关联，执行未处理图像中对象检测的行动，以及返回具有一组已标记对象的未处理图像的行动，每个标记对象与对象类相关联。

这个实施例的一个效果是机器学习技术和神经网络有效地执行复杂数据分析的巨大潜力可以被计算机科学中的非技术人员利用。这对于允许计算机科学中的非技术人员使用神经网络中的已构建模型来分析其数据是有利的，这可能提供了减少的时间和成本。成本和时间的减少可能是关于硬件需求和劳动力的。

本发明的一个目的可通过在神经网络中计算机实施的方法来实现，该方法用于对象检测，包括为进一步训练模型的一个或多个集合模型变量提供对神经网络的访问的进一步动作，以便模型可提高对象检测的精确度。

这个实施例的一个效果是模型可被连续地改进或更新。如果在市场上出现具有新特征的对象，该对象属于已经存在的对象类，这样是有利的。在这种情况下，模型可以被训练到包括这个对象而无需训练新模型。

用户案例的实例

案例1：

用户进行检查，结果是1000个图像，并且想要设置新模型来检测一类对象，在这个案例中为绝缘体。因此，图像训练集包括1000个图像。

用户选择包括一组规范的现有的神经网络。然后，用户指定相关的对象类的数量，在这个案例中为两类：绝缘体和背景。此外，用户指定通过像素分割来执行注释。

然后，用户浏览前10个训练图像并选择一小部分像素，随后注释工具通过预分割图像中的像素来执行完整的像素分割。

在前十个图像注释后，执行训练集合模型变量的第一过程，并构建模型。然后，该模型能够为剩余的990个图像提供推荐的标记。

用户浏览紧接着的40个图像。在30个图像上，正确标记对象，因此用户没有改变标记或分类就接受这些对象。在10张图像上，未正确标记对象，因此这些会被校正。

现在，执行训练集合模型变量的第二过程，并构建更新的模型。模型由第二过程改进，且具有改进的对象检测的精确度。

随着模型被改进，用户现在浏览紧接着的100个图像。这次只有图像中的10个包含不正确的标记。其他90个图像上的标记是正确的且被接受。

接受图像是一个按钮点击，接着程序将自动转到下一个图像。当用户到达第500个图像时，这个图像和紧接着的100个图像不包括这个案例的任意相关对象(绝缘体)。用户进入导航缩略图视图，其中当前的图像被突出显示并通过紧接着的100个图像向下滚动到第600个图像——绝缘体再次出现在图像上。然后，用户通过借助用户界面点击那个图像来选择这个图片，之后用户继续接受或校正标记。

在两者之间，用户可能有选择地停下来训练模型，以便标记迭代地更好。用户可在完成1000个图像之后停止，构建更新的模型-对于这种情况为″第一版″模型。

在继续之前，用户现在相同的1000个图像上开始新的训练，从所构建的″第一版″模型开始。这一次训练以更多的迭代次数完成。这样延长了训练时间，但是这样做提高了模型的精确度。在完成了1000个图像之后，构建进一步更新的模型一对于这种情况为″第二版″模型。

第二个用户也对绝缘体感兴趣，但想在玻璃绝缘体和陶瓷绝缘体之间进行区分。因此，用户指定了两个新的类：″绝缘体，玻璃″和″绝缘体，陶瓷″。

第二个用户受益于使用大量图像训练批次以在绝缘体上构建对象检测的模型的实际情况。第二个用户现在加载先前注释过的训练集，并且在缩略图视图中，用户现在可以观察到所有绝缘体的标记。对于每个绝缘体，第二个用户现在可以通过用户界面，简单地点击每个标记并将对象类更改为两个新指定的类中的任一个。第二个用户不必再次进行标记，且此外不必浏览没有绝缘体的图像。第二个用户现在可通过构建新的更新模型来完成训练——对于这种情况为″第三版″模型。

第三个用户只想知道绝缘体是否被包含在未处理的图像批次中。这个用户对于准确地知道绝缘体包含哪些像素图像不感兴趣。这个用户指定应该使用区域选择。这个用户——正如第二个用户一样——受益于使用大量的图像训练批次以在绝缘体上构建对象检测的″第一版″模型的实际情况。此外，这个用户——再次正如第二个用户——现在加载先前注释过的训练集，神经网络将像素分割的绝缘体转换为区域选择的绝缘体，对这种类型的神经网络使用智能数据扩增。第三个用户现在可通过构建又一个新的更新模型完成训练——对于这种情况为″第四版″模型。

本发明目的可通过使用计算机实施的方法来实现，该方法用于构建神经网络中的所概述的模型，并且其中图像通过使用空中载具：例如无人机的来收集。

特别是无人空中载具例如：无人机可用于区域检查或基础设施检查。无人机已被证明是一种携带图像记录设备到那无法接近的地方的有价值的工具。同样，已经证明无人机能够在对象的细微角度、距离等定位图像记录设备。此外，无人机已被证明能够跟踪结构或基础设施的路径，并且能够在操作期间收集大量图像。

在实践中，无人机的操作员和检查员的目标是在飞行期间收集尽可能多的图像，该飞行通常是详细计划的，且必须考虑有限的飞行时间来执行。

因此，来自无人机飞行的图像批次包括沿着飞行路径通常来自对象的不同的——或稍微不同的——角度或通常来自不同位置的相似对象的大量图像。这种图像的系列或集合的另一个问题是无人机检查的结果是从远景拍摄的图像，其是人工检查无法观察。

已公开的方法示出了克服模型训练或构建的问题，并使得收集到的大量数据能够管理。

同样地，如所公开的在神经网络中用于对象检测的的计算机实施的方法，其中从无人机飞行器获得的未处理图像或图像批次，示出为比其它更精确。

案例1的另一方面：

用户可以选择将20％的图像保留用于图像验证批次，因此，剩余的80％的图像包括图像训练批次。图像验证批次可用于测试已构建模型的精确度。

通过训练集合模型变量且当构建中间模型时，可借助验证批次的使用来测试中间模型的精确度。因此，可对用户提供模型的精确度。此外，神经网络可以建议是否应该进一步改进模型或者是否可对训练进行简化。

作为″第三版″模型和″第四版″模型的进一步训练，相应的第二个用户和第三个用户可以添加和注释具有成像绝缘体的新图像。这些成像的绝缘体可以是先前已知的绝缘体或系统未知的新类。

案例2：

用户加载格陵兰的卫星图像地图。用户标记北极熊×次。系统现在可以检测北极熊的位置和北极熊的总数。

案例3：

用户为给定区域添加一个或多个集中供热管的热图像。用户指定5个类，每个类表示泄漏的严重程度。在标记这些类后，系统现在可以识别严重程度1-5的泄漏。在这种情况下，本发明用于对对象进行对象检测，其中对象类由故障类组成。

案例4：

每当集合模型变量的训练完成并因此完成构建的模型时，神经网络评估所完成的模型是否对于其他用户可用。评估标准可以是例如用户排名，模型精确度和验证批次中的图像数量，因此图像的数量是用作确定精确度。

附图说明

图1示出了计算机实施的方法的一个实施例，该方法用于在神经网络中对未处理图像中的对象检测构建模型。

图2示出了在神经网络中对未处理的图像中对象检测构建模型的一个实施例。

图3示出了计算机实施的方法的一个实施例，该方法用于在神经网络中对未处理图像中的对象检测构建模型。

图4示出了该计算机实施的方法的一个实施例，该方法用于在神经网络中对未处理图像中的对象检测构建模。

图5示出了计算机实施的方法的一个实施例，该方法用于在神经网络中对未处理图像中的对象检测构建模型。

图6示出了训练图像。

图7示出了区域分割(7A)和像素分割(7B和7C)。

图8示出了计算机实施的注释工具的一个实施例。

图9示出了智能数据扩增的一个实施例。

图10示出了该计算机实施的导航工具的一个实施例。

图11示出了在神经网络中计算机实施的方法的一个实施例，该方法用于未处理图像中的对象检测。

具体实施方式

图1示出了计算机实施的方法(100)的一个实施例，该方法用于在神经网络(10)中对未处理图像(50)中的对象检测(40)构建(102)模型(20)。该方法包括提供(104)神经网络(10)和GUI(80)的行动。此外，将包括训练图像(60)的图像训练批次(60)建立(106)在这个实施例中。神经网络(10)配置有一组规范(12)。这些规范可以包括其他的关于层数和集合模型变量的信息。可配置GUI(80)，用于显示训练图像(66)并用于显示用户交互(82)，例如注释过的对象和对象类。

计算机实施的方法(100)还包括可迭代地执行(108)的行动。这些行动包括在训练图像(66)上注释(110)对象(70)并将每个注释与对象类(90)相关联(112)。注释(110)和关联(112)的行动可以以任意优选的顺序执行，以便可以注释对象之后对象类与对象注释相关联，或者对象可对象类相关联之后可以注释对象。在该实施例中进一步示出的迭代执行的行动包括返回(114)用户注释的图像训练数据集，该训练数据集包括训练图像和具有关联的对象类的注释对象，如果相关的对象存在于图像上，构建(102)一个或多个模型。

虚线示出了注释(110)和关联(112)的行动可互换，如所描述。此外，虚线示出了可在迭代过程中执行的行动，其中模型构建为每个执行的迭代接收附加的输入。该实施例可以仅包括单个迭代的行动，因此每个行动可能仅执行一次。此外，每次迭代可能仅包括行动中的一些。例如，如果图像上没有出现相关的对象，将不执行对象类的注释(110)和关联(112)。

在完成图像训练批次(60)后，构建(102)训练模型(20)。

图2示出了在神经网络(10)中对未处理图像中的对象检测构建模型(20)的一个实施例。训练图像(66)可以在图像数据集(18)中被描述，这里由三角形，十字形和圆形示出。图像数据集由神经网络(10)中的集合模型变量来解释。训练图像(66)可包括注释(24)，因此可将该图像数据集的一部分解释为注释过的数据。构建的模型(20)包括已训练的集合模型变量(16)，该集合模型变量是借助神经网络(10)中的集合模型变量(14)来解释图像数据集的过程的结果。

构建的模型(20)进一步包括神经网络(10)配置有的一组规范(12)。

图3示出了计算机实施的方法(100)的一个实施例，该方法用于在神经网络(10)中对处理图像中的对象检测构建(102)模型(20)。所示的实施例包括根据图1所述的方法，但具有附加的行动。虚线是指已经在图1中描述的行动。该实施例示出了可以在构建(102)模型后执行的进一步动作，因此指向构建模型的行动的虚线箭头是该迭代执行的行动，从图1中所述的行动的继续。

可基于单个训练图像(66)构建模型。因此，一旦模型被构建(102)，计算机实施的方法(100)可以包括以下描述的行动，其可以与图1中所述的注释(110)、关联(112)和返回(114)的，迭代执行的行动一起迭代地执行。

这些行动可包括显示来自图像训练批次(60)的训练图像(66)，该训练图像可以包括机器标记对象(74)和使用构建的模型来执行的相关对象分类(94)。如果机器标记或分类或两者都不正确，这样可能只好进行校正，因此，改变(130)对象标记、分类或两者的行动可以通过用户交互来执行。如果没有执行改变(130)，可执行评估(124)训练水平的行动。如果没有执行改变(130)并且此外没有发现未被标记、未被分类或者两者皆有的相关对象，训练水平可以被评估(124)为足够的，因此训练可以以构建的模型(102)作为结果而被终止。

图4示出了计算机实施的方法(100)的一个实施例，该方法用于在神经网络(10)中对未处理图像(50)中的对象检测(40)构建(102)模型(20)。

根据图1中所示的实施例，方法包括提供(104)神经网络(10)和GUI(80)的行动。此外，包括训练图像(60)的图像训练批次(60)在这个实施例中被建立。神经网络(10)配置有一组规范(12)。这些规范除了其他以外，可能包括关于层数和集合模型变量的信息。GUI(80)可以配置为用于显示训练图像(66)和用于显示用户交互(82)，例如注释过的对象和对象类别。

计算机实施的方法(100)还包括可被迭代地执行(108)的行动。这些行动包括在训练图像(66)上注释(110)对象(70)并将每个注释与对象类(90)相关联(112)。注释(110)和关联(112)的行动可以以任意优选的顺序执行，以便对象可以被注释之后对象类别与该对象注释相关联，或者对象与对象类相关联之后对象可被注释。该迭代执行的行动还包括返回(114)用户注释过的图像训练数据集，如果相关对象出现图像上，该训练数据集包括训练图像和具有相关联的对象类的注释过的对象。

这个实施例与图1中的实施例不同，因为在随后执行(108)构建(102)的行动之前，注释(110)，关联(112)和返回(114)的行动可被迭代地执行。

所示方法的可替代的实施例可包括执行两个迭代过程。包括注释(110)，关联(112)和返回(114)的行动的内部迭代过程可在随后执行(108)外部迭代过程之前被迭代地执行(108)，其中在外部迭代过程中执行构建(102)的进一步行动。

虚线示出了注释(110)和关联(112)的行动可以互换，如所述。此外，虚线示出了可在迭代的过程中执行该行动，其中该模型构建为每个执行的迭代接收附加的输入。该实施例可能仅包括行动的单个迭代，因此可能仅执行每个行动一次。此外，每次迭代可能仅包括其中一些行动。例如，如果图像上不出现相关的对象，不执行注释(110)和对象类的关联(112)的动作。

在完成图像训练批次(60)后，构建(102)训练过的模型(20)。

图5示出了计算机实施的方法(100)的另一个实施例，该方法用于在神经网络中对未处理图像中的对象检测构建模型(20)。方法包括提供(104)神经网络(10)和未示出的GUI(80)的行动。此外，在实施例中建立(106)包括训练图像(60)的图像训练批次(60)。在实施例中，在图像训练批次(60)的第一子批次中执行对象的注释(110)。基于注释过的图像，集合模型变量在神经网络中被训练(116)，用于构建模型(20)。随后建立(106)剩余图像训练批次的第二子批次，并且所构建的模型用于标记(122)第二子批次中的对象。在机器执行标记(122)之后，由用户交互评估(124)这些标记。第二子批次的这种评估可导致机器标记、对象的附加注释(110)或两者皆有的改变(130)。根据机器标记的评估(124)是否给出改变(130)对象标记或注释(110)附加的对象的理由，集合模型变量可能要么通过确认对象标记(122)是正确的，要么通过执行改变和/或附加的注释，而被进一步训练(116)。

如果模型被评估为待进一步被训练，图像的第三子批次可被建立，并且使用更新的构建模型来开始标记(122)对象，的另一迭代可被执行。

如果集合模型变量被评估为经过充分的训练，该方法可被终止(126)并且训练过的集合模型变量(16)包括已构建的模型(20)，用于随后在神经网络中对未处理图像中的对象检测的使用。

在图6中，训练图像(66)被示出，其上不同的对象(70)被注释(24)并且与对象类(90)相关联。使用区域选择(28)来注释(24)对象(70)。关于训练图像的实例涉及高压电缆系统。注释过的对象是两个吸振器和两个绝缘体。四个对象(70)都被单独注释(24)并与对象类(90)相关联。在其他连接中可能相关的其他对象可能是例如电缆或电线杆，然后其应当被注释(24)为对象且与对象类(90)相关联。

图7示出了对象注释的两种不同的方法：区域选择(28)和像素分割(26)。对于所示实施例，绝缘体用作示范的对象。计算机实施的注释工具提供这两种注释，且可以在这两种情况下使用。然而，也可以使用其他合适的注释工具。

在图7A中，区域选择(28)被示出。区域选择通过将对象定框来简单地执行，如虚线所示。像素分割(26)在图7B和7C中示出。像素分割(26)通过选择构成成像对象的像素，或选择构成成像对象的一小部分的像素中的一小部分来执行。从选出的像素，注释工具定位对象的边界。因此，该对象通过所定位的边界被注释，如在图7C中通过图案化的区域所示。

在图8中，示出了使用计算机实施的注释工具(160)的注释(24)的一个实施例。注释随后可用于智能扩增(140)。在图8A中，使用区域选择注释(24)训练图像(66)上的对象(70)。实例的对象是吸振器。在图8B中，旋转区域选择被使用。该旋转区域选择可随后用于智能扩增如图9所示的智能扩增。图8B中的旋转注释可以提供更精确的对象分类。

图9示出了智能数据扩增的实施例。在图9A中，使用区域选择来注释对象，在图9B中，像素分割用于注释对象。在两种情况下，智能扩增(140)通过提取尺寸的信息并通过对象的旋转来执行。在图示的实施例中，提取对象的宽度、长度和旋转。尺寸和旋转的相关信息可用作缩放图像，以便更精确地检测对象。此外，这个可以用于从像素分割转换为区域选择的注释或标记的时候。

在图10中，示出了该计算机实施的导航工具的一个实施例。图示示出了图形导航工具，如GUI(80)所显示。GUI(80)可以被划分为几个部分：一个部分，其中带有注释(24)的当前训练图像(66)被显示，且在训练图像(66)之间设置有向前向后的导航(30)；另一部分，在训练图像(66)下面示出处可显示评估图像训练批次的进展(196)的状态(194)。状态可以显示已经执行了多少个图像训练批次中的训练图像(66)注释和对象分类。状态可以以百分比，如当前图像编号比图像的总量，或者以其他适当的尺度来显示。而另一部分可以显示包括图像训练批次(60)的两列图像，其中一列示出先前训练图像，在该训练图像上已经执行了注释(24)，因此这列示出了注释历史记录。另一行可示出后续的训练图像，其尚未经过注释(24)和对象分类。两列都可在训练图像(66)之间设置有向前和向后的导航(30)。每列可被单独显示或一起显示。

图11示出了神经网络(10)中的计算机实施的方法(200)的一个实施例，该方法用于具有对象检测概率的未处理图像(50)中的对象检测。方法包括提供了(104)设置有一组规范和图形用户界面(GUI)(80)的神经网络(10)的行动。此外，建立(106)至少一个未处理的图像批次(52)的行动包括在方法中。

未处理的图像批次(52)可包括至少一个未经处理的图像(50)以作为对象检测的主题。神经网络(10)设置有含有已训练的集合模型变量的构建的模型(20)，并且GUI(80)被配置为显示具有一组标记对象(74)和关联的对象类(90)的一个或多个未处理的图像(50)。

此后，方法包括执行(108)未处理图像中的对象检测并且返回(114)具有一组标记对象(74)和机器分类的对象(94)的未处理图像(50)的进一步行动。

Claims

1.一种计算机实施的方法(100)，用于在神经网络(10)中为未处理的图像(50)中的对象检测(40)构建(102)模型(20)，所述构建(102)基于至少一个图像训练批次(60)来执行，所述方法包括行动：

-提供(104)配置有一组规范(12)的神经网络(10)；

-建立(106)至少一个图像训练批次(60)，所述批次(60)包括至少一个训练图像(66)，所述训练图像包括一个或多个对象(70)，其中单独的对象(70)是对象类(90)中的成员；

-提供(104)图形用户界面(GUI)(80)，所述图形用户界面被配置为显示来自图像训练批次(60)的训练图像(66)；以及

-迭代地执行(108)以下行动中的一个或多个：

○通过用户交互(82)，在训练图像(66)中注释(110)一个或多个对象(70)，生成单独注释过的对象(72)；

○通过用户交互(82)，为训练图像(66)中注释过的对象(72)将注释(24)与对象类(90)相关联(112)；

○返回(114)用户注释过的图像训练数据集(62)，该图像训练数据集包括具有一个或多个注释过的对象(72)的训练图像(66)，每个单独注释过的对象(72)与对象类(90)相关联；以及

○通过训练(116)神经网络(10)中的一个或多个集合模型变量(14)来构建(102)一个或多个模型(20)，以将所述单独注释过的对象(72)分类(118)为对象类(90)中的成员，

当在神经网络(10)中实现时，所述模型(20)结合所述的一组规范(12)，能够在具有对象检测(40)的概率(42)的未处理图像(50)中，进行对象检测(40)。

2.根据权利要求1所述的计算机实施的方法(100)包括迭代地执行(108)以下行动中的一个或多个的进一步行动：

○显示(120)训练图像(66)，所述训练图像包括一个或多个机器标记对象(74)，所述机器标记对象与机器执行的一个或多个单独对象(70)的分类(94)相关联；

○改变(130)机器对象标记(122)、机器对象分类(118)或两者；以及

○为终止(126)所述模型(20)的所述训练(116)，评估(124)集合模型变量(14)的训练水平(116)。

3.根据上述权利要求中任一项所述的计算机实施的方法(100)，其特征在于，在随后执行(108)构建(102)的行动前，迭代地执行注释(110)、关联(112)和返回(114)的行动(108)。

4.根据上述权利要求中任一项所述的计算机实施的方法(100)，包括执行智能扩增(140)的进一步行动。

5.根据上述权利要求中任一项所述的计算机实施的方法(100)，包括建立(106)至少一个图像验证批次(68)的进一步行动。

6.根据上述权利要求中任一项所述的计算机实施的方法(100)，包括减少(128)模型(20)、规范(12)或两者的复杂度的进一步行动，作为评估(124)构建的模型(20)或神经网络规范(12)的使用的结果。

7.根据上述权利要求中任一项所述的计算机实施的方法(100)，包括减少(128)图像训练批次(60)，而作为评估(124)对象检测(40)的精确度(43)的进一步行动。

8.根据上述权利要求中任一项所述的计算机实施的方法(100)，其特征在于，通过所述训练图像(66)的区域选择(28)来执行注释(110)对象，所述训练图像包括所述对象(70)或所述对象(70)的像素分割(26)。

9.根据上述权利要求中任一项所述的计算机实施的方法(100)，其特征在于，使用配置有缩放功能(162)的计算机实施的注释工具(160)来执行注释(110)对象(70)，用于：

-通过用户交互(82)为所述训练图像(66)中的对象(70)的区域选择(28)提供(104)区域选择界面(164)，所述区域选择(28)是可调整的(166)；

-通过用户交互(82)在所述训练图像中(66)为对象(70)的像素分割(26)提供(104)像素分割界面(168)，所述像素分割(26)被配置为通过对借助用户交互(82)选取的一小部分像素(172)的相似的像素(172)进行分组来预先分割(170)像素(172)；或者

-提供两者，

所述注释工具(160)被配置为在所述训练图像(66)中将注释(24)从对象(70)的像素分割(26)转换为对象(70)的区域选择(28)。

10.根据权利要求9所述的计算机实施的方法(100)，其特征在，所述计算机实施的注释工具(160)还提供：

-颜色叠加注释(174)，该颜色与对象分类(90)相关联，且该对象分类(90)与所述注释(24)相关联；

-一个或多个单独注释过的对象(72)、机器标记的对象(74)或两者的组合的重新分类(96)；或者

-两者，

所述注释工具(160)被配置为在一个或多个训练图像(66)中示出与对象类(90)相关联的所有注释(24)和机器标记(22)。

11.根据权利要求9或10所述的计算机实施的方法(100)，其特征在于，所述计算机实施的注释工具(160)还提供执行过的注释(24)的历史记录(180)。

12.根据上述权利要求中任一项所述的计算机实施的方法(100)，其特征在于，使用计算机实施的导航工具(190)，执行图像训练批次(60)中的导航(30)；所述导航工具(190)提供：

-借助图像管理(192)的导航(30)；和

-评估图像训练批次(60)的进展(196)的状态(194)。

13.一种在神经网络(10)中的计算机实施的方法(200)，该方法用于具有对象检测(40)概率(42)的未处理图像(50)中的对象检测(40)，包括以下行动：

-根据权利要求1-12中所述的配置有一组规范(12)的神经网络(10)，提供(104)构建模型(20)；

-建立(106)至少一个未处理的图像批次(52)，该批次(52)包括至少一个未经处理的图像(50)以进行对象检测(40)；

-提供(104)图形用户界面(GUI)(80)，该图形用户界面被配置为显示具有一组标记对象(74)的一个或多个未处理的图像(50)，每个单独的标记对象(74)与对象类(90)相关联；

-在未处理的图像(50)中执行(108)对象检测(40)；和

-返回(114)具有一组标记对象(74)的未处理图像(50)，每个标记对象(74)与对象类(90)相关联。

14.根据权利要求13所述的计算机实施的方法(200)，包括为进一步训练(116)模型(20)的一个或多个集体模型变量(14)提供(104)对神经网络(10)的访问的进一步动作，以便模型(20)得到改进的对象检测(40)精确度(43)。

15.一种根据权利要求1至12中任一项所述的在神经网络(10)中用于构建(102)模型(20)的计算机实施的方法(100)或根据权利要求13或14所述的在神经网络(10)中用于对象检测(40)的计算机实施的方法(200)的应用，其特征在于，通过使用空中载具，例如无人机来收集至少一个图像训练批次(60)或未经处理的图像(50)。