CN117437497A

CN117437497A - 机器学习模型训练集装置及方法

Info

Publication number: CN117437497A
Application number: CN202310899532.2A
Authority: CN
Inventors: 詹姆斯·弗拉登伯格·米勒; 沃尔特·V·迪克逊; 尼哈尔·沙
Original assignee: General Electric Co
Current assignee: General Electric Co
Priority date: 2022-07-22
Filing date: 2023-07-21
Publication date: 2024-01-23
Also published as: EP4310788A1; US20240029407A1

Abstract

一种控制电路，其访问给定三维物体的三维图像信息。控制电路访问对应于三维物体的特征的选择，然后根据三维和前述特征的选择自动生成三维物体的多个合成图像。通过一种方法，这些合成图像包括与上述特征相对应的补充视觉强调。然后，在训练机器学习模型时，可以将生成的多个合成图像用作训练集。

Description

机器学习模型训练集装置及方法

技术领域

这些教导大体上涉及机器学习模型，并且更具体地，涉及其训练。

背景技术

机器学习包括人工智能的一个分支。机器学习通常采用诸如贝叶斯网络、决策树、最近邻方法等学习算法，并且该过程可以根据需要以有监督或无监督的方式运行。深度学习(有时也称为分层学习、深度神经学习或深度结构化学习)是机器学习的一个子集，它采用能够从非结构化或未标记的数据中学习(通常是无监督的)的网络。深度学习架构包括深度神经网络、深度信念网络、循环神经网络和卷积神经网络。

许多机器学习算法基于被称为训练数据或训练集(corpus)的样本数据构建所谓的“模型”，以便在没有明确编程的情况下做出预测或决策。

附图说明

通过提供在下面的详细描述中描述的机器学习模型训练集装置和方法，特别是当结合附图进行研究时，可以至少部分地满足各种需求。在参考附图的说明书中阐述了针对本领域普通技术人员的本公开的完整且可行的公开，包括其最佳模式，其中：

图1包括根据这些教导的各种实施例构造的框图；

图2包括根据这些教导的各种实施例构造的流程图；

图3包括根据这些教导的各种实施例构造的屏幕截图；

图4包括根据这些教导的各种实施例构造的合成图像的屏幕截图；

图5包括根据这些教导的各种实施例构造的屏幕截图；和

图6包括根据这些教导的各种实施例构造的合成图像的屏幕截图。

附图中的元件是为了简单和清楚起见而示出的，并且不一定是按比例绘制的。例如，附图中一些元件的尺寸和/或相对定位可能相对于其他元件被夸大，以帮助提高对本教导的各种实施例的理解。而且，在商业上可行的实施例中有用或必要的常见但易于理解的元件通常没有被描绘，以便于减少对本教导的这些不同实施例的阻碍的视图。某些动作和/或步骤可以以特定的发生顺序来描述或描绘，而本领域技术人员将理解，实际上并不需要这种关于顺序的特异性。

具体实施方式

有监督学习人工智能方法通常使用带注释或标记的数据来学习对给定输入的期望响应。在训练基于图像的有监督学习人工智能方法时，注释和标签有时采用标签图的形式，每个像素处的标签限定物体或事件的位置、边界或区域。

当缺乏足够的图像数据来训练特定任务时，有时可以替代合成地生成的数据。当人工智能方法应用于制造物体的图像时，物体的计算机图形渲染可以作为合成图像数据。计算机图形渲染允许在合成数据生成期间改变物体的位置和姿态。

用于人工智能训练的合成数据生成的计算机图形渲染方法集中于现实渲染，其通常不解决强调导致微妙但任务重要的图像特征的特定几何特征的问题。因此，计算机图形渲染可能不足以突出人工智能方法应旨在识别以触发所需响应的几何特征。为了解决这个问题，通过一种现有技术方法，生成大量合成图像的集，然后一个或多个专家手动标记合成图像中感兴趣的特征以形成训练(例如机器学习模型)所需的数据。

然而，这种方法可能极其耗时并且也相对昂贵。即使是专家也会犯错误，尤其是在一遍又一遍地执行或多或少相似的任务时。

这些都是航空应用环境中的重大挑战，在航空应用环境中，机器学习模型通常与可能从各种视场成像的非常高精度的机械零件和组件一起工作。

一般而言，本公开的各个方面可以与访问给定三维物体的三维图像信息的控制电路一起使用。控制电路访问对应于三维物体的特征的选择，然后根据三维图像信息和前述特征的选择自动生成三维物体的多个合成图像。通过一种方法，这些合成图像包括与上述特征相对应的补充视觉强调。然后，在训练机器学习模型时，可以将生成的多个合成图像用作训练集。

通过一种方法，前述三维图像信息包括三维计算机辅助设计(CAD)信息。在这种情况下，自动生成前述多个合成图像可以包括使用三维CAD信息本身的CAD处理。

这些教导将适应生成相对大量的多个此类合成图像。例如，所生成的多个合成图像可以包括至少100,000个合成图像、至少100万个合成图像、或者根据需要甚至更多。

通过一种方法，前述访问的选择可以包括用户选择。这样的选择可以由用户经由相应的用户界面(例如光标或触摸响应显示器)来输入。

通过一种方法，前述补充视觉强调包括颜色。通过一种方法，补充视觉强调包括注释层的一部分。

如上所述训练的机器学习模型可以用于例如根据需要处理图像。

这些教导将适应让专家(或多个专家)通过标记对应于渲染物体的关键位置、边缘、拐角、圆角等来注释三维几何结构模型(例如，CAD模型)。这些几何结构注释然后可以被这些教导利用以强调例如后续合成图像生成期间的几何特征。由于注释与三维几何结构相关联，可以理解的是，上述强调可以考虑每个生成的图像中的物体的位置和姿态，并利用渲染引擎的本征隐藏表面去除能力来仅应用观察者能够看到特征的强调。

这些教导允许在合成图像生成过程期间自动地、快速地并且以极高的精度和准确度应用注释。这一速度与之前生成合成图像集，然后让专家手动标记每个此类图像中感兴趣的特征的做法形成鲜明对比。通过对三维几何结构进行注释，并利用计算机图形渲染引擎构建图像级注释，避免了对计算机生成大量图像集的手动注释。作为一个示例，在一种应用设置中，每个合成图像的注释可能比手动图像注释快三千倍。生成的注释也往往比手动图像注释所实现的注释更加一致准确。

除非本文另外阐述了不同的具体含义，否则本文中使用的术语和表达具有如上文所阐述的本领域技术人员所认为的术语和表达的普通技术含义。除非另有明确说明，本文使用的词语“或”应被解释为具有析取结构而不是合取结构。除非另有说明，术语“联接”、“固定”、“附接到”等既指直接联接、固定或附接，也指通过一个或多个中间部件或特征间接联接、固定或附接。

单数形式“一”、“一个”和“该”包括复数引用，除非上下文另有明确说明。

如本文在整个说明书和权利要求书中所使用的近似语言被应用于修改可以允许变化而不导致与其相关的基本功能改变的任何定量表示。因此，由诸如“约”、“大约”和“基本上”的一个或多个术语修饰的值不限于指定的精确值。在至少一些情况下，近似语言可以对应于用于测量该值的仪器的精度、或者用于构造或制造部件和/或系统的方法或机器的精度。例如，近似语言可以指在10％的范围内。

在对以下详细描述进行彻底回顾和研究后，上述和其他益处可以变得更加清楚。现在参考附图，特别是图1，现在将呈现与这些教导中的许多教导兼容的说明性装置100。

为了说明性示例，这里将假设所选择的控制电路101执行该过程的动作、步骤和/或功能。作为“电路”，控制电路101因此包括这样的结构，该结构包括以有序方式传送电力的至少一个(并且通常是多个)导电路径(例如由诸如铜或银的导电金属组成的路径)，该路径通常还包括相应的电气元件(适当地包括无源(例如电阻器和电容器)和有源(例如各种基于半导体的器件中的任何一种))以允许电路实现这些教导的控制方面。

这样的控制电路101可以包括固定用途的硬连线硬件平台(包括但不限于专用集成电路(ASIC)(它是根据设计定制的用于特定用途的集成电路，而不是用于通用用途)、现场可编程门阵列(FPGA)等)或者可以包括部分或全部可编程硬件平台(包括但不限于微控制器、微处理器等)。这种结构的这些架构选择在本领域中是公知和理解的，并且在此不需要进一步描述。该控制电路101被构造为(例如，通过使用本领域技术人员将充分理解的相应编程)执行本文描述的步骤、动作和/或功能中的一个或多个。

在该说明性示例中，控制电路101可操作地联接到存储器102。该存储器102可以与控制电路101集成，或者可以根据需要与控制电路101物理分离(全部或部分)。该存储器102还可以相对于控制电路101是本地的(其中，例如，两者共享公共电路板、底盘、电源和/或外壳)或者可以相对于控制电路101部分或完全远程(例如，与控制电路101相比，存储器102在物理上位于另一设施、城域甚至是国家)。还应当理解，该存储器102可以包括多个物理上分立的存储器，这些存储器总体上存储与这些教导相对应的相关信息。

除了本文描述的其他信息之外，该存储器102可以用于例如非暂时性地存储计算机指令，当由控制电路101执行时，使得控制电路101如本文描述的那样动作。(如本文所使用的，对“非暂时性”的引用将被理解为指的是存储内容的非短暂状态(因此排除存储内容仅构成信号或波的情况)而不是存储介质本身的易失性，因此包括非易失性存储器(例如只读存储器(ROM))以及易失性存储器(例如动态随机存取存储器(DRAM)。)

通过一种可选的方法，控制电路101可操作地联接到用户界面103。该用户界面103可以包括多种用户输入机构中的任何一种(例如但不限于键盘和小键盘、光标控制设备、触敏显示器、语音识别接口、手势识别接口等)和/或用户输出机构(例如但不限于视觉显示器、音频换能器、打印机等)以便于从用户接收信息和/或指令和/或向用户提供信息。

通过另一可选方法(代替前述方法或与其组合)，控制电路101可以可操作地联接到网络接口104。如此构造，控制电路101可以与其他元件(装置100内外)通信。例如，控制电路101可以通过网络接口104与一个或多个远程资源105通信。包括无线和非无线平台的网络接口在本领域中是众所周知的并且在此不需要具体阐述。

现在参考图2，将描述可以由前述控制电路101执行的处理。应当理解，该过程的细节旨在用于说明性目的，并且不应被解释为暗示对这些教导的任何特定限制。

在框201处，控制电路访问三维物体的三维图像信息。作为这些方面的一个说明性示例，三维图像信息可以包括三维计算机辅助设计或绘图信息。三维物体本身基本上可以是任何三维物体。这包括现实世界的物理物体以及尚不存在的物体，甚至是在现实世界中难以或不可能实现的想象物体。如本文所使用的，应当理解，表述“三维图像”和“三维图像信息”可以指三维图像，例如计算机断层扫描或超声图像，但也可以指三维计算机辅助绘图(CAD)模型文件、三维几何结构扫描模型等等。考虑到上述内容，并通过几个例子，这些三维图像首先可以来源于CAD程序、采用各种扫描技术(包括立体成像、结构光、飞行时间等)、计算机断层扫描和/或超声成像系统、接触式探头(例如Arm或RomerTM系统)等中的任何一个的三维扫描仪。

在框202处，该过程然后提供访问与三维物体的特征相对应的选择。通过一种方法，这可以包括经由例如前述用户界面103进行对该特征的选择。作为这些方面的一个简单示例，用户可以通过使用适当的输入工具在用户界面103上显示的特征上进行追踪来实现该选择。例如，可以通过使用对应的对比色来视觉地指示该选择。

图3给出了这些方面的一个说明性示例。该屏幕截图300呈现了一些三维CAD几何结构301。在该示例中，用户通过突出显示特定平台边缘302来注释前述图像。图5呈现了在这些方面的另一个说明性示例。该屏幕截图500呈现了不同的三维CAD几何结构501，用户已在其上通过突出显示圆角特征502来进行注释。这些教导将适应适当地使该图像尽可能细节丰富(或简单且缺乏细节)，以适合给定应用设置的需要。例如，可以根据需要包括(或不包括)表面阴影和/或纹理特征。此外，这些图像根据需要可以是真实的(或不真实的)。

在访问前述基于特征的选择之后，在框203处，控制电路101根据三维图像信息和前述特征的前述选择自动生成三维物体的多个合成图像，。这些合成图像可以包括例如来自各种逐渐不同的视场的三维物体的视图。更具体地，这些合成图像中的大多数或全部可以以突出显示和/或注释的方式包括前述用户突出显示的特征(在某种程度上，后者将以其他方式在相应视图中可见)。

当三维图像信息包括三维几何模型，例如三维CAD模型/信息时，可以使用三维CAD信息本身的CAD处理来自动生成多个合成图像。

如此生成的合成图像的数量可以随着应用设置的需要而变化。然而，这些教导能够容易地快速生成大量不同的合成图像。作为一个示例，这些教导将有助于自动生成至少100,000个合成图像。作为另一个示例，这些教导将支持生成至少一百万个合成图像。

根据这些教导，这些合成图像中的至少一些包括与用户先前选择的前述特征/注释相对应的补充视觉强调。具体地，无论何时以及无论在何种程度上前述特征在特定合成图像中可见，都可以在视觉上强调该特征。通过一种方法，补充视觉强调可以包括颜色，例如与底层合成图像本身形成对比的颜色。通过一种方法，补充视觉强调包括合成图像的注释层的一部分。

图4呈现了对应于上面关于图3描述的图像的合成图像400的说明性示例。在该示例中，合成图像400渲染原始三维几何结构的深度和轮廓边缘，并在渲染之后添加有带注释的边缘。同样，图6呈现了对应于上面关于图5描述的图像的合成图像600的说明性示例。同样，该合成图像600包括渲染原始三维几何结构的深度和轮廓边缘，并且在该渲染之后添加有带注释的圆角。需要说明的是，一个原始用户突出显示/注释的图像用于例如以某种方式突出显示所述用户选择的特征(当存在于一个或多个特定视图中时)的各种角度和/或深度，生成物体的多个对应图像，以便于机器学习模型在训练期间进行识别。

在前述两个图像中，特征以与背景(均匀的白色)相比形成鲜明对比的颜色(黑色)出现。如果需要，可以通过反转该配色方案来实现基本上相同的结果，使得背景为黑色，而所描绘的特征为白色。这些教导将适应这些方面的其他方法。例如，可以采用其他颜色。这些教导还将适应对特征本身使用不同的对比颜色(例如使用红色来突出显示最重要的特征并且使用黑色来指示其他所描绘的特征)。

当对所描绘的特征使用不同的颜色(或任何其他区别指示符)时，这些教导还将适应使用不同的颜色/指示符来识别两个或更多个不同的特征，这些特征都被用户选择为重要的，但是其中一个特征可以被认为比另一个描绘的特征更重要。当要训练的模型被构造为对不同的选定特征进行彼此不同的加权时，后一种方法可能很有用。代替前述内容或与其组合，将理解的是，可以采用颜色/指示符来充当与训练过程相对应的标签图(labelmap)。

通过一种方法，上述合成构建的图像可以利用不同的像素值来表示不同的特征/标签类别。例如，第一特征可以使用一个像素值，而第二不同的特征可以使用不同的像素值，等等。当可视化这些图像时，可以使用不同的颜色来表示不同的对应像素值。人类可能无法轻易区分共享相似颜色表示的不同像素值/标签。为了使人类更容易理解，可以在可视化过程中使用调色板或颜色图来增加共享相似(但不相同)像素值/标签的特征之间的对比度/色差。在以期望特征/像素值渲染合成图像之后，通过一种方法，这些教导将适应训练方案，该训练方案允许组合多个像素/标签值以限定特定特征或特征集，或者忽略/忽视特定特征，或者甚至优先处理特定值/特征以实现特定训练任务的目标。

因此，并且举例来说，这些教导可以对应于注释三维几何模型，例如CAD模型，或者代替其，由三维扫描产生的三维表面模型和/或三维点云(使用例如立体成像、结构光、飞行时间、接触式探针以及在这些方面的任何其他有用的方法)。应当理解，前述内容包括从体积图像数据(包括计算机断层扫描、磁共振、超声、正电子发射断层扫描等)提取的三维表面模型。并且尽管前述示例具有特殊性，但是对于许多有用的应用，各种其他三维图像中的任何一种都可以充当CAD模型的直接或间接替代物。

在框204处，该过程然后提供使用多个合成图像作为训练集来训练机器学习模型。该训练可以专门使用那些合成图像来完成，或者该训练可以根据需要用其他图像来补充。在许多应用设置中，可以如此利用合成图像而不将那些图像转换为硬拷贝。通过一种方法，给定合成图像的数字文件在用于训练给定机器学习模型之后可以被丢弃(例如，仅在几秒钟内)。(这些教导在实践中高度灵活，能够适应各种不同的机器学习模型方法。由于这些教导对任何特定机器学习模型的选择不太敏感，为了简洁，此处未提供关于这些模型的更多详细信息。)

这些教导将适应对多种特征中的任何特征的选择和注释。这些方面的非穷举性列表包括但不限于边缘、拐角、折痕、圆角、狭槽、孔、边沿、表面的特定补丁或区域等等。这些教导还将适应某物的单独的、分立的部件，例如汽车的轮子、引擎盖或挡泥板、电机的输出轴等等。

一旦被训练，机器学习模型可以可选地用于处理例如一个或多个期望的图像，如可选框205所示。作为这些方面的一个非限制性示例，这种模型可用于涡轮叶片检查机器人中，以便于在关键部件和/或关键特征与一个或多个其他表面之间进行精确测量。

这些教导将适应在训练循环本身内部生成部分或全部前述训练集。这些教导还将适应在参与机器学习模型的训练循环之前预生成部分或全部训练集。应当理解，这些教导可以应用于避免在训练期间向机器学习模型呈现任何相同的图像，从而消除可归因于这种冗余的任何偏差。

至少在很大程度上，前述示例至少暗示经由发射的和/或反射的光/辐射捕获的视觉表示。然而，这些教导在实践中高度灵活，并且将适应严格来说不包括视觉模态的其他应用设置和模态。例如，通过一种方法，这些教导将适应合成地生成超声信号(例如，每个元素的幅度与时间)，超声信号在处理时可能具有视觉表征，但其中，基于这些潜在信号而不是基于其任何视觉表征训练机器学习模型可能是有用的。

作为另一示例，目的可以是结合手头的三维几何结构来训练关于特定热特征的机器学习模型。因此，该热特征可以作为上述特征的基础。

作为又一示例，这些教导将适应单独的模态，例如目标感测模态(例如，飞行时间模态)。这种方法在训练机器学习模型以通过使上述特征(即，注释)用于在该模态中生成增强的响应来处理/识别特定感测模态中的信号的背景下是有用的。

作为这些教导的灵活性的另一个示例，前述注释本质上不需要是视觉的(注释也不一定需要从特定且直接的用户输入导出)。例如，CAD工具中可能存在可用于注释三维模型的编程特征增强。作为说明，可以标记模型中的某些结构(例如飞机蒙皮中的特定孔或垫片的位置)。

本公开的附加方面由以下条项的主题提供：

1.一种方法，包括：

通过控制电路：

访问三维物体的三维图像信息；

访问与三维物体的特征相对应的选择；

根据三维图像信息的函数和特征的选择，自动生成三维物体的多个合成图像，其中合成图像包括与特征相对应的补充视觉强调；和

使用多个合成图像作为训练集来训练机器学习模型。

2.根据条项1所述的方法，其中三维图像信息包括三维计算机辅助设计(CAD)信息。

3.根据条项2所述的方法，其中自动生成多个合成图像包括使用三维CAD信息本身的CAD处理。

4.根据条项1所述的方法，其中多个合成图像包括来自不同视点的三维物体的视图。

5.根据条项1所述的方法，其中多个合成图像包括三维物体的视图，视图包括三维物体的深度和轮廓边缘。

6.根据条项1所述的方法，其中补充视觉强调包括颜色。

7.根据条项1所述的方法，其中补充视觉强调包括注释层的一部分。

8.一种装置，包括：

控制电路，控制电路被构造成：

访问三维物体的三维图像信息；

访问与三维物体的特征相对应的选择；

使用多个合成图像作为训练集来训练机器学习模型。

9.根据条项8所述的装置，其中三维图像信息包括三维计算机辅助设计(CAD)信息。

10.根据条项9所述的装置，其中控制电路被构造成通过使用三维CAD信息本身的CAD处理来自动生成多个合成图像。

11.根据通信8所述的装置，其中多个合成图像包括来自不同视点的三维物体的视图。

12.根据条项8所述的装置，其中多个合成图像包括三维物体的视图，视图包括三维物体的深度和轮廓边缘。

13.根据条项8所述的装置，其中补充视觉强调包括颜色。

14.根据条项8所述的装置，其中补充视觉强调包括注释层的一部分。

15.一种方法，包括：

通过控制电路：

使用机器学习模型处理图像，其中机器学习模型通过以下方式进行训练：

访问三维物体的三维图像信息；

访问与三维物体的特征相对应的选择；

使用多个合成图像作为训练集来训练机器学习模型。

16.根据条项15所述的方法，其中三维图像信息包括三维计算机辅助设计(CAD)信息。

17.根据条项16所述的方法，其中自动生成多个合成图像包括使用三维CAD信息本身的CAD处理。

18.根据条项15所述的方法，其中多个合成图像包括三维物体的视图，视图包括三维物体的深度和轮廓边缘。

19.根据条项15所述的方法，其中补充视觉强调包括颜色。

20.根据条项15所述的方法，其中补充视觉强调包括注释层的一部分。

本领域技术人员将认识到，在不脱离本公开的范围的情况下，可以对上述实施例进行各种修改、变更和组合，并且这样的修改、变更和组合应当被视为在本发明概念的范围内。

Claims

1.一种方法，其特征在于，包括：

通过控制电路：

访问三维物体的三维图像信息；

访问与所述三维物体的特征相对应的选择；

根据所述三维图像信息和所述特征的所述选择，自动生成所述三维物体的多个合成图像，其中所述合成图像包括与所述特征相对应的补充视觉强调；和

使用所述多个合成图像作为训练集来训练机器学习模型。

2.根据权利要求1所述的方法，其特征在于，其中所述三维图像信息包括三维计算机辅助设计(CAD)信息。

3.根据权利要求2所述的方法，其特征在于，其中自动生成所述多个合成图像包括使用所述三维CAD信息本身的CAD处理。

4.根据权利要求1所述的方法，其特征在于，其中所述多个合成图像包括来自不同视点的所述三维物体的视图。

5.根据权利要求1所述的方法，其特征在于，其中所述多个合成图像包括所述三维物体的视图，所述视图包括所述三维物体的深度和轮廓边缘。

6.根据权利要求1所述的方法，其特征在于，其中所述补充视觉强调包括颜色。

7.根据权利要求1所述的方法，其特征在于，其中所述补充视觉强调包括注释层的一部分。

8.一种装置，其特征在于，包括：

控制电路，所述控制电路被构造成：

访问三维物体的三维图像信息；

访问与所述三维物体的特征相对应的选择；

使用所述多个合成图像作为训练集来训练机器学习模型。

9.根据权利要求8所述的装置，其特征在于，其中所述三维图像信息包括三维计算机辅助设计(CAD)信息。

10.根据权利要求9所述的装置，其特征在于，其中所述控制电路被构造成通过使用所述三维CAD信息本身的CAD处理来自动生成所述多个合成图像。