CN114596252A

CN114596252A - 用于缺陷检测的分层图像分解

Info

Publication number: CN114596252A
Application number: CN202111430899.7A
Authority: CN
Inventors: F·M·施德格尔; A·C·I·马洛西
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-12-07
Filing date: 2021-11-29
Publication date: 2022-06-07
Also published as: US11748865B2; GB2602880B; JP2022090633A; GB2602880A; US20220180497A1; GB202116711D0; DE102021128523A1

Abstract

本发明的各方面公开了一种用于在推理时改进高分辨率图像中的对象检测的方法、计算机程序产品和系统。该方法包括接收高分辨率图像的一个或多个处理器。该方法还包括一个或多个处理器将所接收的图像分解为分层组织的图像层。每层包括接收的图像的至少一个图像块。每个图像块具有适合于基线图像识别算法的对应分辨率。该方法还包括一个或多个处理器将基线算法应用于每一层的每个图像块。该方法还包括一个或多个处理器执行基线算法应用的结果到层的图像块的结果聚合。

Description

用于缺陷检测的分层图像分解

背景技术

本发明一般涉及对象检测领域，并且更具体地涉及高分辨率图像中的对象检测。

研究组织和企业在实现AI(人工智能)驱动的应用方面已经做出了巨大的努力，以便使过程自动化、实现更加人性化的用户界面或者帮助分析大量数据。深度学习方法已经证明了显著的成功并且已经胜过经典的机器学习解决方案。两个主要因素，主要是性能计算基础设施的可用性和大的标记数据集的可用性，已经推动了深度学习技术的成功。深度学习方法经常用于图像分类、对象检测、视频分析、文本翻译和音频类型分类，仅举几个例子。特别地，利用像素数据操作的最近和更高级的模型可以利用卷积神经网络。由此，处理图像数据的深度学习方法可以被分成三个主要任务：a)分类，b)检测，和c)分割。所有三个任务共享单个输入，但是它们定义了该方法必须产生什么。对于分类，预测单个类标签(例如，示出看门狗的图像)，为了检测，产生边界框(例如，看门狗位于矩形[X，Y，dX，dY])中；对于分割，预测属于预期目标的像素(例如，像素p1、p2、p3、...、pN表示看门狗)。

自动缺陷检测定义了对象检测的一般任务的子集，其中目标是标识(检测和/或分割)工业图像上的缺陷。应用可以包括来自各种域的使用情况，包括医学域(例如，根据X射线扫描来标识人类的解剖结构)、材料制造业(例如，标识所生产的钢铁或其他产品上的缺陷)或者民事基础设施(例如，桥梁或高楼)上的缺陷检测。

发明内容

本发明的各方面公开了一种用于以推理时间改进高分辨率图像中的对象检测的方法、计算机程序产品和系统。该方法包括接收高分辨率图像的一个或多个处理器。该方法还包括一个或多个处理器将所接收的图像分解为图像的分层组织的层。每层包括所接收的图像的至少一个图像块。每个图像块具有适合于基线图像识别算法的对应分辨率。该方法还包括一个或多个处理器将基线算法应用于每层的每个图像块。该方法还包括一个或多个处理器对将基线算法应用于层的图像块的结果执行结果聚合。

在另一实施例中，执行基线算法应用的结果到层的图像块的结果聚合还包括一个或多个处理器聚合每层的基线算法的结果，一个或多个处理器执行基线算法的结果与相邻的成对层比较，以及一个或多个处理器根据成对层比较执行基线算法结果的分层聚合。

附图说明

应当注意，本发明的实施例是参考不同的主题来描述的。特别地，一些实施例是参考方法类型权利要求来描述的，而其他实施例是参考装置类型权利要求来描述的。然而，本领域技术人员将从以上和以下描述中了解到，除非另外指出，除了属于一种类型的主题的特征的任何组合之外，与不同主题相关的特征之间的任何组合，特别是方法类型权利要求的特征与装置类型权利要求的特征之间的任何组合，也被认为是在本文件内公开的。

从下文将描述的实施例的示例中，本发明的上述方面和其它方面是显而易见的，并且将参考实施例的示例进行解释，但是本发明不限于此。将仅通过示例并参考以下附图来描述本发明的优选实施例。

图1描绘了根据本发明的实施例的用于以推理时间改进高分辨率图像中的对象检测的方法的实施例的框图。

图2描述了根据本发明的实施例的框图，其中原始高分辨率图像被用作所述处理的基础。

图3描绘了根据本发明的实施例的详述将输入图像块集合馈送到对象识别基线算法的框图。

图4描述了根据本发明实施例的详细描述用于产生最终结果的成对层比较和最终取并聚合步骤的框图。

图5描绘了根据本发明实施例的在区块的边缘处进行处理的边界区域的图。

图6描绘根据本发明的实施例的用于改进推理时间时高分辨率图像中的对象检测的对象辨识系统的框图。

图7描绘根据本发明的实施例的包括本发明的对象识别系统的计算系统的实施例的框图。

具体实施方式

本发明的实施例认识到，即使在使用最新的深度学习方法时，对象检测的许多用例也定义了非常具有挑战性的问题实例。原因是多方面的，并且可以通过光的变化来解释，光的变化包括但不限于：不同的光条件、不同的图像分辨率、用于捕获图像的不同相机(例如，不同的镜头失真、相机的灵敏度(ISO)等)、不同的视点、不同的缩放水平、来自障碍物(例如，桥梁的柱子前方的树)的遮挡、以及不同的背景(例如，与两个桥梁不同的外观)、背景中不期望的障碍物对象(例如，桥梁附近的人、汽车和船，其中桥梁及其缺陷是主要主体)。另外，许多缺陷不具有清晰的边界，这使得缺陷难以作为对象被检测到。

本发明的进一步实施例认识到传统的深度学习方法通常在相对较小的图像大小上操作。例如，在CIFAR-10数据集上评估的最先进的图像分类算法使用形状为32乘以32像素的输入。此外，广泛的图像网络提供不同的图像大小，大多数算法遵循统一的训练和评估设置，其中图像被调整为224乘以224像素的固定大小。对象检测算法，例如掩膜R-CNN(基于区域的卷积神经网络)在1024像素的固定尺度上运行。然而，与此相反，本发明的实施例认识到高分辨率图像如今几乎可以免费获得；许多相机支持2K、4K和8K模式，也有支持16K到64K的高端相机。在这种设置下捕获图像会导致处理像素宽度比检测器原始公式的预期大小大2到64倍的图像。

本发明的实施例认识到缺陷主要是小特征，其仅位于高分辨率图像中的一些稀疏位置处。此后，简单地将图像调整大小到较小的分辨率是有问题的，因为那样会损失分辨率的实质因素。另外，将一个高分辨率图像分块为单独处理的较小图像确实有助于保持高分辨率。然而，分块伴随有处理重叠区域(例如，一个块上的部分可见缺陷)所必需的额外开销，且其将一个图像的工作负荷扩展到从所述图像提取的块的数目，从而导致较大工作负荷。本发明的实施例认识到，如在深度学习方法中所要求的，为了得到深度学习方法的良好泛化行为，重要的是训练和测试图像遵循相同的统计。通过不同的分块设置进行实验，并确保训练匹配中一个图像块的统计，测试场景中图像块的统计正在成为重要的任务。此外，本发明的实施例认识到触发模型的再训练的在训练域中应用的Modifi阳离子在计算上非常密集，因此是无效的和昂贵的。

本发明的附加实施例认识到，为了实现第一开发周期，通常已知的对象标识算法被反复地重复使用。算法通常依赖于固定的图像分辨率。然而，相机分辨率迅速增加，使得已知对象标识算法的假定图像分辨率可能落后于其开发。另外，即使对象标识算法将跟上越来越高分辨率相机的可用性，本发明的实施例也认识到，用于重新训练现有神经网络及其超参数的重新配置的计算工作将是巨大的，这被认为是传统方法的关键缺点。为了克服这种死锁情况，本发明的实施例认识到需要提供立体对象标识能力，而不需要重新训练现有的图像识别算法。

在本说明书的上下文中，可以使用以下惯例、术语和/或表达。

术语“对象检测”可以表示由用于标识给定数字图像中的一个或多个预定义项目、样本或图案的方法所支持的系统的活动。

术语“高分辨率图像”可以表示具有比用作典型图像的对象检测处理的输入分辨率的给定算法更高的分辨率的图像。因此，基线算法所需的输入的分辨率和高分辨率图像的分辨率不匹配。因此，可能需要使用已经预先训练的基线算法来处理高分辨率图像或其至少部分(例如，图像块)的措施，而不需要重新训练或重新配置或重新设计预先训练的基线算法。

术语“推理时间”可以表示经训练的机器学习系统(例如，卷积神经网络)可以预测输入图像的类别或分割的时间。与推理时间相反的是训练时间。机器学习系统的预先训练可能需要大量的计算能力和时间，而经训练的机器学习系统的推理活动可以被优化为仅以很少的计算资源来工作。

术语“分解图像”可以表示将给定数字图像切割成部分(例如，矩形片段)的过程，其也可以表示为图像块。

术语“分层组织的层”可以表示包括给定层中的给定原始(即，接收的)数字图像的预定数量的子图像的多个层。因此，可以用不同的分辨率来区分这些层。最低层可以是具有最高分辨率的层，即，给定数字图像可用的最大像素数量也提供全局坐标的基础。最高层可以被定义为对于给定的数字图像具有最低像素数的层，即具有最低分辨率的层。

术语“适合的分辨率”(例如，特别是适合基线算法的分辨率)可以表示针对对象识别算法(如掩膜R-CNN或快速R-CNN)优化的数字图像的分辨率。例如，算法以224×224像素的分辨率工作。因此，具有1000×1000像素的数字图像不适合给定的基线算法。

术语“经训练的基线图像识别算法”可以表示也完全可以在硬件中实现(例如，使用忆阻设备的交叉杆)的图像检测和/或标识算法，其已经经历了训练，使得可以定义(例如，卷积神经网络的)超参数和加权因子，并且相应地开发神经网络模型。然后，经训练的基线算法可以在干扰时间用于对象标识任务。

术语“智能结果聚合”可以表示作为这里提出的对象识别过程的工具的多步骤过程。智能结果聚合可以至少包括以下步骤：(i)每层聚合基线算法的结果，(ii)执行成对层比较，以及(iii)执行比较结果的分级聚合。多步骤工艺的细节由从属权利要求限定，并且在附图的上下文中更详细地描述。

术语“重叠区域”可以表示图像的图像块的一部分，其可以是同一数字图像的两个相邻图像块的一部分。图像部分可以是并排放置的左图像块和右图像块的一部分。

术语“中间图像层”可以表示通过作为智能结果聚合过程的一部分的中间结果的逐层比较而构建的层。因此，给定数量的M层(例如，4层)产生N个中间图像层，其中N＝M-1。参考图4更详细地描述实际示例。

术语“逐像素并集”可表示用逻辑“或”功能组合两个形状的过程。“或”功能可应用于编码形状的二进制掩膜。类似地，相同的术语可表示采用可被编码为多边形的两个形状的“并集”的过程。

术语“逐像素交叉”可以表示将两个形状与逻辑“与”功能组合的过程。“与”功能可应用于编码形状的二进制掩膜。类似地，相同的术语可以表示采用可以被编码为多边形的两个形状的“区间”的过程。

术语“识别的项目”可以表示具有预定义形状(即，形状或其他特性特征)的数字图像中的对象，所使用的机器学习系统已经被训练到该预定义形状的识别或标识。在这种意义上，识别的项目可以与所识别的对象相同。

术语“掩膜R-CNN算法”可以表示已知的卷积神经网络算法，其用于例如基于用于对象检测的已知处理架构的分割。由此，可以将图像输入呈现给神经网络；可以在所接收的数字图像上运行所选择的搜索过程，然后，可以使用来自所选择的搜索过程的输出区域，以用于将来的提取和使用预先训练的卷积神经网络的分类。

术语“快速R-CNN算法”可以表示掩膜R-CNN算法的增强版本。快速R-CNN算法仍可使用所选搜索算法来获得区域提议，但可添加感兴趣区域(ROI)池化模块。快速R-CNN算法可以从特征图中提取固定大小的窗口，以便获得最终的类标签和用于所接收的数字图像内的给定对象的边界框。该方法的益处可能在于卷积神经网络现在是端到端可训练的。

术语“预先训练的”可以表示图像或对象识别系统在使用之前已经被训练。特别地，预训练的对象识别系统或方法可以用作用于处理要分类的数字图像的工具，所述数字图像不直接适合于所使用的先前训练的基线算法(例如，由于分辨率不匹配)。相反(例如，在传统系统上)，这里提出的概念使用给定(即，接收的)数字图像的分解以及智能结果聚合，以便克服接收的数字图像的分辨率与基线对象标识算法所需的分辨率的失配。

术语“神经网络模型”可以表示给定神经网络的所有权重连同所使用的神经网络的逻辑组织(即，底层机器学习系统(这里是卷积神经网络)的超参数)的总和。

下面，将给出附图的详细描述。图中的所有说明都是示意性的。首先，给出了用于在推理时改进高分辨率图像中的对象检测的本发明方法的实施例的框图。然后，将描述用于改进在推理时高分辨率图像中的对象检测的对象识别系统的其他实施例以及实施例。

图1示出了根据本发明的实施例的用于在推理时改进高分辨率图像中的对象检测(例如，缺陷检测)的方法100的实施例的框图。在示例实施例中，根据本发明的实施例，对象识别系统600(图6中描绘的)可以执行方法100的处理步骤(即，执行图1)。在附加示例方面，根据本发明的各实施例，对象识别系统600(结合方法100)可执行关于图2至图5更详细地描绘和描述的操作。

在步骤102中，方法100接收高分辨率图像。在示例实施例中，方法100接收具有比由基础基线图像识别算法(例如，掩膜R-CNN)使用的图像分辨率更大的分辨率的数字图像。

在步骤104中，该方法将接收到的图像分解为图像的分层组织的层。在示例实施例中，每个层包括接收的图像的至少一个图像块(只有具有F＝max的图像只具有一个图像块，所有其它层具有更多图像块)。在附加实施例中，每个图像块具有适于(例如，要求的或推荐的)预先训练的基线图像识别算法的分辨率。

在步骤106中，方法100将基线算法应用于每一层的图像块中的每个图像块。在示例实施例中，方法100可以操作以基于预训练标识感兴趣区域、对象的边界框(即，环绕缺陷和分类的矩形)和/或备选地附加地掩膜多边形、形状。

另外，在过程108中，方法100执行智能结果聚合。例如，方法100利用三步方法对将基线算法应用于层的图像块的结果智能地聚合，如步骤110和步骤114所述。

在步骤110中，方法100按照层聚合基线算法的结果。在步骤112中，方法100对基线算法在相邻的成对层的结果执行成对层比较。在步骤114中，方法100根据成对层比较来执行基线算法结果的分层聚合。因此，方法100可以利用一致的缩放因子，这意味着，取决于分辨率，一个分辨率中的一个像素可以与另一分辨率中的四个像素和/或16个像素和甚至更高的分辨率进行比较。如果在高于最低分辨率的分辨率中(例如，在黑白图像中或在一个或多个颜色通道中)，白色或黑色的像素的数量是相等分布的(即50/50)，则执行对于两个颜色选项之一的随机决定。

图2描述了一个实施例的框图200，其中原始的、接收到的高分辨率图像202被用作本发明实施例的操作(例如，方法100的过程)的基础。矩形204表示基线图像识别算法所使用和/或要求的工作分辨率的固定工作尺寸。因此，必须将分别对应于f＝1.0、f＝2.0、f＝6.0的不同层、特别是层1、层2、层3的图像切割成图像块。第一层图像206被切割成24个图像块，使得每个图像块具有等于基线算法的图像的工作尺寸的像素数量。

相应地，具有比层1的图像低的分辨率的层2的图像208仅需要6个图像块，而具有最低分辨率的图像210(层3)仅需要单个图像块，因为对应的分辨率匹配基线算法的工作大小。层的数量是可配置的，并且可以取决于所接收的数字图像的图像分辨率。

作为分块步骤的结果，本发明的实施例生成图像块212、图像块214和图像块216的集合，其中图像206、图像208和图像210的分辨率越高，每集合的图像块数量越多。然后，使用图像块的集合作为基线算法的输入。作为示例，图像块216是图像206的右下角，并且图像块214是层2图像208的中上部。整个过程将参照图3进一步详细描述。

图3描绘了根据本发明的实施例的框图300，其详细描述了将输入图像块212、图像块214和图像块216(参见图2)的集合馈送到对象识别基线算法302。在各种实施例中，对象识别基线算法302可以以预先训练的形式使用，而不需要任何附加训练。例如，对象识别基线算法302可以被用作可获取的。然后，基线算法302的输出304、输出306和输出308的集合可以按照层合并，这由箭头310和箭头312表示。对于具有最低分辨率(304)的结果集，不需要聚合。

然后，层结果314、层结果316和层结果318被输入到智能结果聚合步骤320，以便产生对象识别过程的最终结果(关于图4进一步详细描述)。

图4描述了根据本发明实施例的详细描述用于产生最终结果402的成对层比较和最终取并聚合步骤的框图400。在图2的层概念的所描绘的示例中，四个不同的结果集404、结果集406、结果集408和结果集410(逻辑上对应于图3的层结果314、层结果316和层结果318)被用作层结果。相邻实例(在不同分辨率层的意义上)被成对比较，并且在中间层数据集412、414和416中构建交集(即，逻辑“与”)，如图4所示，本发明的实施例然后可以在逻辑“或”操作418中合并中间数据集412、414、416以构建最终结果402并完成智能结果聚合。

此外，如图4所示，标记为f＝4(410)的结果集具有最低的分辨率(对应于最高层)，并且f＝1(404)的结果集具有最高的分辨率，并且还可以表示对全局坐标的引用。

图5描绘了根据本发明实施例的处理区块的边缘的边界区域的图500。如图5所示，图像块502和另一图像块504都具有相应的边界区域。图像块502和图像块504的基线针对相应图像块502和504的相应边界/边界区域506和508提供独立的结果。矩形510形式的合并的图像块502和504在全局坐标中(即，在具有最高分辨率的原始图像的坐标中)示出结果。由此，在结果实体中存在两个单独的部分检测。检测到部分重叠作为边界区域处理的结果(用矩形512表示)，并且两个部分结果被统一为一个检测结果516。

大矩形(包围原始图像514)示出了作为正式高清/高分辨率(即，高分辨率)图像的一部分或更好地具有全局坐标的相应处理。结果，缺陷(即，识别的对象)被显示为表面中的黑色划痕。图5的描绘可以假设原始图像514是示出要视觉检查的元件的表面的图像。

所提出的用于在推理时改进高分辨率图像中对象检测的方法可以提供多种优势、技术效果、贡献和/或改进。在各种场景中，高分辨率图像可以有效且高效地馈送到基线对象检测算法，而无需重新训练已在低分辨率图像上训练的基线算法。然而，由于分辨率不断提高(即每个区域的像素数更多)的图像变得可用，并且由于经过训练的基线算法不适用于处理可用分辨率(例如，由于训练和推理过程中的计算周期较长，因此更多所需的计算能力)，在本发明的各种实施例中提出了用于产生具有更高分辨率的数字图像结果的特殊活动。

本发明的一些实施例可以是完全自动化的，并且仅依赖于简单的设置：例如所使用的分层的数量、基线模型的灵敏度阈值和预定义的图像块大小(每个数字图像的图像块数量)。基于这一点，本发明的实施例已经可以使用基线算法的默认参数来很好地工作。本发明的各种实施例还共享使用深度学习技术进行缺陷检测的优点，这可能不需要人工特征工程，并且在许多情况下，可以在大的性能裕度下优于传统的机器学习方法。本发明的进一步实施例也已经通过使用掩膜R-CNN(基于区域的卷积神经网络)作为基线算法，使用真实数据对一种缺陷检测任务进行了验证。

特别地，当真实数据具有对应于4K或8K相机的分辨率时，重新使用先前训练的图像标识模型的能力可能是相当大的优势，所述先前训练的图像标识模型已经使用具有低分辨率的训练图像作为注释的训练模式。不需要重新训练基线算法，使得本发明的实施例可以在推理阶段期间使用。因此，高分辨率图像和相应的对象标识可以利用最初设计用于较低分辨率图像并且使用较低分辨率图像训练的基线算法来处理。本发明的一些实施例还可以通过仅设置一小组配置参数来适应各种分辨率的高分辨率图像。

此外，本发明的实施例还可以有效地解决模式标识的精确性(也表示为肯定预测值)和召回(也称为算法的灵敏度)挑战，因为假阳性检测的数量和假阴性检测的数量分别被最小化。

根据本发明的一个有利实施例，按照层对基线算法的结果的聚合(即，智能结果聚合的第一子步骤)还可以包括提取对识别出的对象的形状进行编码的多边形，并且将针对图像块的局部多边形坐标映射到针对具有最高分辨率的图像块的全局坐标。由此，基线算法的结果中具有较高分辨率的多边形的形状被压缩，使得经压缩的形状与具有较低分辨率的图像块中的形状相当。在这种情况下，可以注意到，代替可用的最高分辨率的坐标，还可以使用其它缩放机制(即，可以使用抽象坐标)。另外，本发明的实施例还可以操作来扩展具有较低分辨率的图像以匹配具有高分辨率的图像。为此，可以在较低分辨率图像中生成从一个像素到三个或更多像素。提取识别对象的形状的多边形编码也可以被视为更精确的图像捕获技术，而不是仅使用识别图像的最小边界或环绕矩形。

根据本发明的另一有利实施例，按照层对基线算法的结果的聚合(活动也与智能结果聚合的第一子步骤相关)还可以包括消除相应层的相邻图像块边界之间的重叠区域，并且将相邻分块的检测到的部分对象合并到一个检测到的对象中。为了重建无缝图像，边缘区域处理可能是有利的。作为提醒：在分解期间已经创建了重叠。

根据本发明的另一实施例，基线算法的结果可以包括从包括以下的组中选择的至少一项：所识别项目的类别、包围图像块中的所标识的对象的边界框、以及由环绕所述图像块中的所识别的对象的形状的多边形表示的掩膜。特别地，所识别的项目或对象可以涉及材料缺陷或表面(例如，钢筋腐蚀、裂纹、锈、剥落和/或藻类)。因此，本发明的实施例可以有利地用于基础设施部件的检查，所述基础设施部件例如桥梁、建筑物、桅杆、管道、管线和/或其它工业或基础设施元件。因此，在一个实施例中，待检测对象可以是材料缺陷，尤其是待检测对象的材料缺陷。

根据本发明的另一实施例，基线算法可以是掩膜R-CNN算法或快速R-CNN算法。这两种算法都是已知的，并且经常在对象检测的上下文中使用。由此，输入图像被呈现给神经网络，对图像运行选择性搜索，然后来自选择性搜索的输出区域被用于使用预先训练的卷积神经网络的分类的特征提取。而且，快速R-CNN基于预训练的卷积神经网络，其中最后三个分类层已经被特定于所需对象类的新分类层替换。

根据本发明的附加实施例，可以从包括224×224像素、512×512像素、800×800像素和1024×800的组中选择适合于基线图像识别算法的分辨率。此外，也可以使用其他分辨率。然而，通常使用的基线算法通常在固定分辨率(例如，224×224)上工作，这使得比较和确定不同分辨率图像之间的关系变得困难。

根据本发明的另一实施例，可以预先训练基线算法，使得神经网络模型被构建为用于针对对象标识的推理任务。预训练通常可以在使用基线算法掩膜R-CNN或快速R-CNN时完成。因此，根据所提出的概念，可能已经对低分辨率图像或滤波器执行的训练也可以用于高分辨率图像。

出于完整性原因，图6描绘用于在推理时改进高分辨率图像中的对象检测的对象辨识系统600的框图。对象识别系统600包括处理器604，其通信地耦合到存储用于使系统执行以下操作的指令的存储器602：(具体地由接收器606)接收高分辨率图像；将所接收的图像分解(具体地，通过分解单元608)为图像的分层组织的层。由此，每个层包括接收的图像的至少一个图像块，并且每个图像块具有适合于(或者特别地要求、推荐或者有效)基线图像识别算法的分辨率。

指令还包括(具体地，通过基线调用模块610)将基线算法应用于每一层的图像块中的每个图像块，并且(具体地，通过智能结果聚合单元)对将基线算法应用于层的图像块的结果执行结果聚合。该特定功能由适于按照层聚合基线算法的结果的第一聚合模块614、适于对基线算法在相邻的成对层的结果执行成对层比较层比较模块616、以及适于根据成对层比较来执行基线算法结果的分层聚合的第二聚合模块618来实现。

另外，模块和单元(具体地，存储器602、处理器604、接收器606、分解单元608、基线调用模块610、智能驻留聚合单元612、第一聚合模块614、层比较模块616和第二聚合模块618)可以通过直接连接或借助于系统内部总线系统620数据、信号和/或信息交换而彼此通信联系。

本发明的实施例实际上可以与任何类型的计算机一起实现，而不管平台是否适于存储和/或执行程序代码。图7作为示例描绘了适于执行与所提出的方法相关的程序代码的计算系统700。

计算系统700仅是合适的计算机系统的一个示例，并且不旨在对本文描述的本发明的实施例的使用范围或功能提出任何限制，无论计算机系统700是否能够被实现和/或执行上文阐述的任何功能。在计算机系统700中，存在可与众多其它通用或专用计算系统环境或配置一起操作的组件。适合与计算机系统/服务器700一起使用的公知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统、以及包括任何上述系统或设备的分布式云计算环境等。计算机系统/服务器700可以在计算机系统700执行的诸如程序模块等计算机系统可执行指令的一般上下文中描述。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器700可以在分布式云计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可以位于本地和远程计算机系统存储介质中，包括存储器存储设备。

如图7所示，计算机系统/服务器700以通用计算设备的形式示出。计算机系统/服务器700的组件可以包括但不限于一个或多个处理器或处理单元702、系统存储器704、以及将包括系统存储器704在内的各种系统组件耦合到处理单元702的总线706。总线706表示若干类型的总线结构中的任何一种的一个或多个，包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线体系结构中的任何一种的处理器或局部总线。作为示例而非限制，这些体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线。计算机系统/服务器700通常包括各种计算机系统可读介质。这样的介质可以是可由计算机系统/服务器700访问的任何可用介质，并且它包括易失性和非易失性介质、可移动和不可移动介质。

系统存储器704可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)708和/或高速缓冲存储器710。计算机系统/服务器700还可以包括其它可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例，存储系统712可被提供用于从不可移动、非易失性磁介质(未示出，并且通常被称为“硬盘驱动器”)读取和向其写入。尽管未示出，但是可以提供用于从可移动、非易失性磁盘(例如，“软盘”)读取和向其写入的磁盘驱动器，以及用于从诸如CD-ROM、DVD-ROM或其它光学介质的可移动、非易失性光盘读取或向其写入的光盘驱动器。在这样的实例中，每个可以通过一个或多个数据介质接口连接到总线706。如下面将进一步描绘和描述的，存储器704可以包括至少一个程序产品，该程序产品具有一组(例如，至少一个)程序模块，该程序模块被配置成执行本发明的实施例的功能。

具有一组(至少一个)程序模块716的程序/实用程序以及操作系统、一个或多个应用程序、其它程序模块和程序数据可被存储在存储器704中，这是作为示例而非限制的。操作系统、一个或多个应用程序、其它程序模块和程序数据或其某种组合中的每一个可包括联网环境的实现。程序模块716通常执行如本文所述的本发明实施例的功能和/或方法。

计算机系统/服务器700还可以与一个或多个外部设备718通信，诸如键盘、定点设备、显示器720等；一个或多个设备，其使得用户能够与计算机系统/服务器700交互；和/或使计算机系统/服务器700能够与一个或多个其它计算设备通信的任何设备(例如，网卡、调制解调器等)。这种通信可以经由输入/输出(I/O)接口714发生。此外，计算机系统/服务器700可以经由网络适配器722与一个或多个网络通信，所述网络诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，因特网)。如所描绘的，网络适配器722可以经由总线706与计算机系统/服务器700的其他组件通信。应当理解，尽管未示出，但是可以结合计算机系统/服务器700使用其他硬件和/或软件组件。实例包括但不限于：微码、设备驱动程序、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器和数据档案存储系统等。

另外，用于在推理时改进高分辨率图像中的对象检测的对象辨识系统600可附接到总线系统(例如，总线706)。

这里描述的程序是基于在本发明的特定实施例中实现它们的应用来标识的。然而，应当理解，这里的任何特定程序术语仅是为了方便而使用，因此本发明不应当限于仅在由这样的术语标识和/或暗示的任何特定应用中使用。

本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据，或者以一种或多种编程语言(包括面向对象的编程语言，例如Smalltalk、C++等)和过程编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所注明的功能可不按图中所注明的次序发生。例如，连续示出的两个框实际上可以作为一个步骤来实现，同时、基本同时、以部分或全部时间重叠的方式执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

已经出于说明的目的给出了本发明的各种实施例的描述，但是其不旨在是穷尽的或限于所公开的实施例。在不背离本发明的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员来说是显而易见的。选择本文所使用的术语是为了最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或为了使本领域的其他普通技术人员能够理解本文所公开的实施例。

本文所用的术语仅是为了描述特定实施例的目的，而不是要限制本发明。如本文所用，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文另有明确指示。还将理解，术语“包括”和/或“包含”在本说明书中使用时，指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在，但不排除一个或多个其它特征、整数、步骤、操作、元件、组件和/或其群组的存在或添加。

在以下权利要求中的所有装置或步骤加上功能元件的对应结构、材料、动作和等同物旨在包括用于与如具体要求保护的其它要求保护的元件组合执行功能的任何结构、材料或动作。已经出于说明和描述的目的给出了本发明的描述，但是该描述不是穷举的或者将本发明限制为所公开的形式。在不背离本发明的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员来说是显而易见的。选择和描述实施例是为了最好地解释本发明的原理和实际应用，并且使本领域的其他普通技术人员能够理解本发明的具有各种修改的各种实施例，如适合于预期的特定使用。

Claims

1.一种方法，包括：

由一个或多个处理器接收高分辨率图像；

由一个或多个处理器将所接收的所述图像分解为图像的分层组织的层，其中每层包括所接收的所述图像的至少一个图像块，并且其中所述图像块中的每个图像块具有适合于基线图像识别算法的对应分辨率；

由一个或多个处理器将所述基线算法应用于每层的所述图像块中的每个图像块；以及

由一个或多个处理器对将所述基线算法应用于所述层的所述图像块的结果执行结果聚合。

2.根据权利要求1所述的方法，其中对将所述基线算法应用于所述层的所述图像块的结果执行所述结果聚合还包括：

由一个或多个处理器按层聚合所述基线算法的结果；

由一个或多个处理器对所述基线算法在相邻的成对层的结果执行成对层比较；以及

由一个或多个处理器根据所述成对层比较来执行所述基线算法结果的分层聚合。

3.根据权利要求2所述的方法，其中对将所述基线算法应用于所述层的所述图像块的结果执行所述结果聚合还包括：

由一个或多个处理器提取对所识别的对象的形状进行编码的多边形；以及

由一个或多个处理器将用于所述图像块的局部多边形坐标映射至用于具有最高对应分辨率的所述图像块的全局坐标，由此压缩所述基线算法的结果中具有较高分辨率的多边形的形状，使得经压缩的所述形状与具有较低分辨率的块中的形状是相当的。

4.根据权利要求3所述的方法，还包括：

由一个或多个处理器消除相应层的相邻图像块边界之间的重叠区域；以及

由一个或多个处理器将所述相邻图像块的检测到的部分对象合并到一个检测到的对象中。

5.根据权利要求4所述的方法，其中，执行成对层比较还包括：

由一个或多个处理器比较相邻层的图像块的经压缩的相关形状；以及

由一个或多个处理器基于对所述经压缩的相关形状的所述比较来构建形状的交集，由此构建N个中间图像层，其中N比分层组织的层的数目小1。

6.根据权利要求5所述的方法，其中执行分层聚合还包括：

由一个或多个处理器构建所有N个中间图像层的逐像素并集，由此构建分辨率等于所接收的所述高分辨率图像的分辨率的最终图像，所述高分辨率图像包括所述检测到的对象的多边形环绕。

7.根据权利要求1所述的方法，其中所述基线算法的所述结果包括从包括以下的组中选择的至少一项：所识别项目的类别、包围图像块中的所标识的对象的边界框、以及由环绕所述图像块中的所识别的对象的形状的多边形表示的掩膜。

8.根据权利要求1所述的方法，其中所述基线算法是掩膜基于区域的卷积神经网络R-CNN算法或快速R-CNN算法。

9.根据权利要求1所述的方法，其中适合于基线图像识别算法的分辨率从包括以下的组中被选择：224×224像素、512×512像素、800×800像素和1024×800像素。

10.根据权利要求1所述的方法，其中所述基线算法被预先训练，使得神经网络模型被构建为用于针对对象识别的推理任务。

11.根据权利要求1所述的方法，其中所述待检测对象是材料缺陷。

12.一种计算机程序产品，包括：

一个或多个计算机可读存储介质和存储在所述一个或多个计算机可读存储介质上的程序指令，所述程序指令包括：

用于执行根据权利要求1至11中任一项所述的方法的程序指令。

13.一种计算机系统，包括：

一个或多个计算机处理器；

一个或多个计算机可读存储介质；以及

存储在所述计算机可读存储介质上以供由所述一个或多个处理器中的至少一个处理器执行的程序指令，所述程序指令包括：

执行根据权利要求1至11中任一项所述的方法接收高分辨率图像的程序指令。