CN111241897A

CN111241897A - 通过推断视觉关系的工业检验单数字化

Info

Publication number: CN111241897A
Application number: CN201910198486.7A
Authority: CN
Inventors: 罗希特·拉胡尔; 阿林达·乔杜里; 洛维克·维格; 阿尼美什; 萨马斯·米塔尔
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2018-11-28
Filing date: 2019-03-15
Publication date: 2020-06-05
Anticipated expiration: 2039-03-15
Also published as: US10970531B2; JP2020087404A; AU2019201380B1; CA3035387C; CA3035387A1; EP3660731A1; US20200167557A1; JP6784791B2; EP3660731B1; EP3660731C0; CN111241897B

Abstract

本公开涉及工业检验单的数字化。基于纸的检验单的数字扫描是工厂设置中的常见处理。基于纸的扫描具有与几十年的检验中检测到的数百万个故障有关的数据。技术挑战的范围从图像处理和布局分析到字和图形项识别。本公开提供了在扫描中的静态背景和动态背景这二者、机器模板图中的可变性、将被标识的图形对象的非结构化形状以及手写文本的笔画中的可变性存在的情况下工作的视觉流水线。除了用于箭头检测和对话云移除的混合技术之外，所述流水线还合并用于准确文本读取的基于胶囊和空间变换器网络的分类器和用于文本检测的定制的联结文本提议网络(CTPN)。

Description

通过推断视觉关系的工业检验单数字化

优先权声明

本申请要求2018年11月28日提交的印度专利申请No.201821044939的优先权，前述申请的全部内容通过引用并入本文。

技术领域

本文中的公开总体上涉及分析工业检验单，更具体地，涉及用于通过推断视觉关系来使工业检验单数字化的系统和计算机实现方法。

背景技术

记录重型工厂设备中的故障的传统模式一直是经由手标记的检验单，其中检验工程师手动地在机器的纸轮廓上标记出现故障的机器区域。多年以来，数百万个这样的检验单已经被记录，并且这些单内的数据一直无法访问。然而，在工业变得数字化并且认识到故障数据的可能值以用于机器健康监控的情况下，趋向这些手标记的检验记录的数字化的动力增加。

发明内容

本公开的实施例呈现了作为对于发明人在常规系统中认识到的上述技术问题中的一个或多个的解决方案的技术改进。

在一方面，提供了一种处理器实现方法，所述方法包括以下步骤：一个或多个硬件处理器接收包括多个图像的输入，所述多个图像用相同的一个或多个模板表征，其中所述一个或多个模板中的每个模板包括静态部分和动态部分，所述静态部分是具有一个或多个预定义的区域的机器的线图表示，所述动态部分包括与对应的机器的所述一个或多个预定义的区域相关联的手写内容；所述一个或多个硬件处理器基于所述一个或多个模板中标识的静态部分来从所述多个图像中的每个消除所述一个或多个模板以获得包括所述动态部分的多个去模板化的图像，其中所述手写内容包括与一个或多个连接符相关联的独立的文本块和一个或多个对话云中的至少一个，其中所述一个或多个对话云中的每个包括文本块和围绕所述文本块的云；所述一个或多个硬件处理器对所述多个去模板化的图像进行处理以通过使用用于分割所述一个或多个对话云的基于编码器-解码器的SegNet架构来消除其一个或多个对话云以获得多个去云化的图像，所述去云化的图像包括多个文本块；所述一个或多个硬件处理器通过使用卷积神经网络(CNN)分类器和Hough线变换来检测所述多个去云化的图像中的所述一个或多个连接符以分别检测构成所述一个或多个连接符的一个或多个箭头和一个或多个线中的至少一个；所述一个或多个硬件处理器使用联结文本提议网络(CTPN)来检测所述输入的所述多个图像中的每个中的每个文本块的坐标，所述坐标在每个文本块周围形成边界框；所述一个或多个硬件处理器基于对应的文本块的关联的坐标并且通过使用聚类法来将所述一个或多个连接符中的每个映射到所述对应的文本块；所述一个或多个处理器使用所述去云化的图像、胶囊网络(CapsNet)和空间变换器网络(STN)来标识美国信息交换标准代码(ASCII)格式的、与每个文本块相关联的文本；并且所述一个或多个处理器执行标识的与每个文本块相关联的文本与对应的机器的所述一个或多个预定义的区域中的一个的一对一映射，从而通过使用映射的一个或多个连接符和对应的文本块的坐标来提供它们之间的视觉关系。

在另一方面，提供了一种系统，所述系统包括：一个或多个数据存储装置，所述一个或多个数据存储装置操作地耦合到一个或多个硬件处理器，并且被配置为存储用于供所述一个或多个硬件处理器执行以执行以下步骤的指令：接收包括多个图像的输入，所述多个图像用相同的一个或多个模板表征，其中所述一个或多个模板中的每个模板包括静态部分和动态部分，所述静态部分是具有一个或多个预定义的区域的机器的线图表示，所述动态部分包括与对应的机器的所述一个或多个预定义的区域相关联的手写内容；基于所述一个或多个模板中标识的静态部分来从所述多个图像中的每个消除所述一个或多个模板以获得包括所述动态部分的多个去模板化的图像，其中所述手写内容包括与一个或多个连接符相关联的独立的文本块和一个或多个对话云中的至少一个，其中所述一个或多个对话云中的每个包括文本块和围绕所述文本块的云；对所述多个去模板化的图像进行处理以通过使用用于分割所述一个或多个对话云的基于编码器-解码器的SegNet架构来消除其一个或多个对话云以获得多个去云化的图像，所述去云化的图像包括多个文本块；通过使用卷积神经网络(CNN)分类器和Hough线变换来检测所述多个去云化的图像中的所述一个或多个连接符以分别检测构成所述一个或多个连接符的一个或多个箭头和一个或多个线中的至少一个；使用联结文本提议网络(CTPN)来检测所述输入的所述多个图像中的每个中的每个文本块的坐标，所述坐标在每个文本块周围形成边界框；基于对应的文本块的关联的坐标并且通过使用聚类法来将所述一个或多个连接符中的每个映射到所述对应的文本块；使用所述去云化的图像、胶囊网络(CapsNet)和空间变换器网络(STN)来标识美国信息交换标准代码(ASCII)格式的、与每个文本块相关联的文本；并且执行标识的与每个文本块相关联的文本与对应的机器的所述一个或多个预定义的区域中的一个的一对一映射，从而通过使用映射的一个或多个连接符和对应的文本块的坐标来提供它们之间的视觉关系。

在又一方面，提供了一种计算机程序产品，所述计算机程序产品包括其中包含计算机可读程序的非暂时性计算机可读介质，其中所述计算机可读程序在被计算装置执行时使所述计算装置：接收包括多个图像的输入，所述多个图像用相同的一个或多个模板表征，其中所述一个或多个模板中的每个模板包括静态部分和动态部分，所述静态部分是具有一个或多个预定义的区域的机器的线图表示，所述动态部分包括与对应的机器的所述一个或多个预定义的区域相关联的手写内容；基于所述一个或多个模板中标识的静态部分来从所述多个图像中的每个消除所述一个或多个模板以获得包括所述动态部分的多个去模板化的图像，其中所述手写内容包括与一个或多个连接符相关联的独立的文本块和一个或多个对话云中的至少一个，其中所述一个或多个对话云中的每个包括文本块和围绕所述文本块的云；对所述多个去模板化的图像进行处理以通过使用用于分割所述一个或多个对话云的基于编码器-解码器的SegNet架构来消除其一个或多个对话云以获得多个去云化的图像，所述去云化的图像包括多个文本块；通过使用卷积神经网络(CNN)分类器和Hough线变换来检测所述多个去云化的图像中的所述一个或多个连接符以分别检测构成所述一个或多个连接符的一个或多个箭头和一个或多个线中的至少一个；使用联结文本提议网络(CTPN)来检测所述输入的所述多个图像中的每个中的每个文本块的坐标，所述坐标在每个文本块周围形成边界框；基于对应的文本块的关联的坐标并且通过使用聚类法来将所述一个或多个连接符中的每个映射到所述对应的文本块；使用所述去云化的图像、胶囊网络(CapsNet)和空间变换器网络(STN)来标识美国信息交换标准代码(ASCII)格式的、与每个文本块相关联的文本；并且执行标识的与每个文本块相关联的文本与对应的机器的所述一个或多个预定义的区域中的一个的一对一映射，从而通过使用映射的一个或多个连接符和对应的文本块的坐标来提供它们之间的视觉关系。

根据本公开的实施例，所述一个或多个处理器被进一步地配置为通过以下步骤来消除所述一个或多个模板：使所述输入中的所述多个图像反转；执行反转的多个图像的纵深平均化；将自适应阈值化应用于平均化的图像以用于提取所述一个或多个模板；使用规范化互相关法来使提取的一个或多个模板与所述输入匹配以获得所述一个或多个模板中的每个点与所述输入的相关性；基于表现出最大相关性的点来确定所述一个或多个模板的位置；并且基于确定的所述一个或多个模板的位置来从所述输入消除所述一个或多个模板。

根据本公开的实施例，所述一个或多个处理器被进一步配置为通过以下步骤来对所述多个去模板化的图像进行处理：使用在多个对话云图像的数据集上预先训练的SegNet架构来产生用于所述一个或多个对话云的掩膜以区分包括背景类、边界类和对话云类的三个类；并且从所述去模板化的图像减去所述掩膜以获得所述多个去云化的图像。

根据本公开的实施例，在所述多个去云化的图像中：使用预先训练的CNN来检测所述一个或多个箭头以区分包括箭头类和背景类的两个类；并且通过使用Hough线变换来检测所述一个或多个线以检测所述一个或多个线的存在；合并检测到的具有相同斜率和它们之间的小于50px(像素)的Euclidean距离的一个或多个线；并且基于所述一个或多个连接符与对应的文本块的映射来对所述一个或多个线进行过滤。

根据本公开的实施例，所述一个或多个处理器被进一步配置为通过以下步骤来检测输入中的所述多个图像中的每个中的每个文本块的坐标：使用CTPN来找出文本线以定位每个文本块周围的边界文本框；并且以一定重叠对所述多个图像中的每个中的480×360px窗口进行采样。

根据本公开的实施例，所述一个或多个处理器被进一步配置为通过以下步骤来将所述一个或多个连接符中的每个映射到对应的文本块：通过外推所述一个或多个连接符的尾部来将所述一个或多个连接符中的每个与每个文本块周围的边界框中的一个相关联；并且使用聚类法来聚集所述文本块以使得文本块的数量等于所述一个或多个连接符的数量。

根据本公开的实施例，所述聚类法要么是(ii)K-均值聚类法，其中K是与所述边界框中的每个相关联的连接符的数量，要么是(ii)均值-偏移聚类法。

根据本公开的实施例，所述一个或多个处理器被进一步配置为通过以下步骤来标识与每个文本块相关联的文本：使用连接成分分析(CCA)来分割每个文本块以产生其中具有一个或多个字符的段；对产生的段中的分割的无序的字符进行排列以获得按人类可读的形式布置的字符；使用CapsNet来识别产生的其中具有多于一个的字符的段；并且使用STN来识别产生的其中具有一个字符的段。

根据本公开的实施例，所述一个或多个处理器被进一步配置为通过外推所述一个或多个连接符以使得所述文本块的接近度指示尾部并且与预定义区域的接近度指示箭头头部来执行标识的与每个文本块相关联的文本与一个或多个预定义的区域的一对一映射。

将理解，前面的概况描述和下面详细描述这二者都仅仅是示例性的和说明性的，而不是限制要求保护的本发明。

附图说明

合并在本公开中并且构成本公开的一部分的附图例示说明示例性实施例，并且与描述一起用于说明公开的原理。

图1例示说明根据本公开的实施例的用于通过推断视觉关系来使工业检验单数字化的系统的示例性框图。

图2A和图2B例示说明根据本公开的实施例的用于通过推断视觉关系来使工业检验单数字化的计算机实现方法的示例性流程图。

图3A例示说明工业检验单，图3B例示说明根据本公开的实施例的工业检验单中的基本组成。

图4A至图4F例示说明根据本公开的实施例的图2A和2B的方法的各阶段的输出。

图5A例示说明根据本公开的实施例的图1的系统的输入中的图像。

图5B例示说明根据本公开的实施例的图5A的图像中的模板。

图5C例示说明根据本公开的实施例的去模块化的图像。

图6A至图6C例示说明根据本公开的实施例的获得去云化的图像的各阶段的输出。

图7例示说明根据本公开的实施例的当连接符在去云化的图像中被检测到时的输出。

图8A例示说明根据本公开的实施例的联结文本提议网络(CTPN)检测到的文本框。

图8B例示说明根据本公开的实施例的与连接符映射的文本框。

图9例示说明根据本公开的实施例的文本块上的分割的输出。

图10例示说明根据本公开的实施例的在段中的字符被排列以获得按人类可读的形式布置的字符之后的文本块上的分割的输出。

图11例示说明根据本公开的实施例的胶囊网络(CapsNet)和空间变换器网络(STN)用于标识文本块中的相关联的文本的使用。

图12例示说明根据本公开的实施例的在图11的输出中基于损坏代码的语法进行的校正。

图13例示说明根据本公开的实施例的标识的与文本块相关联的文本与对应的机器的一个或多个预定义的区域中的一个的一对一映射。

附图说明

参照附图来描述示例性实施例。在图中，标号的最左边的数字(一个或多个)标识该标号在其中第一次出现的图。在方便的任何地方，相同的标号在附图中始终被用来指代相同的或相似的部分。虽然本文中描述公开的原理的例子和特征，但是在不脱离公开的实施例的精神和范围的情况下，修改、改动和其他实现是可能的。意图是，以下详细描述仅被认为是示例性的，真实范围和精神由权利要求指示。

工厂设备的工业检验是工厂设置中的常见处理，该处理涉及对设备进行物理检查、随后在基于纸的检验单上标记故障。基于纸的扫描具有与几十年的检验中检测到的数百万个故障有关的数据。考虑到用于预见性维护的故障数据的巨大值，工业热衷于利用以高度非结构化的扫描的检验单的形式存储的巨大的故障数据储存库并且从它们产生结构化的报告。可靠地检测打印的文本在本领域中已经被解决，但是使基于纸的扫描数字化的挑战包括考虑到笔画的可能的可变性、具有静态内容和动态内容这二者的图像的预处理、机器模板图中的可变性、将被标识的图形对象的非结构化形状和布局分析来检测手写文本。以下提供的描述涉及从锅炉和容器检验单提取信息。然而，本公开的系统和方法一般可以被应用于任何机器。

现在参照附图，更具体来说参照图1至图13，在图1至图13中，类似的引用字符在这些图中始终一致地表示对应的特征，示出了优选实施例，并且在以下示例性系统和/或方法的上下文中描述这些实施例。

图1例示说明根据本公开的实施例的用于通过推断视觉关系来使工业检验单数字化的系统100的示例性框图。在实施例中，系统100包括一个或多个处理器104、通信接口装置(一个或多个)或输入/输出接口(一个或多个)106、以及操作地耦合到所述一个或多个处理器104的一个或多个数据存储装置或存储器102。作为硬件处理器的所述一个或多个处理器104可以被实现为一个或多个微处理器、微计算机、微控制器、数字信号处理器、中央处理单元、状态机、图形控制器、逻辑电路和/或基于操作指令操纵信号的任何装置。在其他能力之中，处理器(一个或多个)被配置为提取并且执行存储在存储器中的计算机可读指令。在本公开的上下文中，表达“处理器”和“硬件处理器”可以互换使用。在实施例中，系统100可以在各种计算系统中实现，比如膝上型计算机、笔记本、手持装置、工作站、大型计算机、服务器、网络云等。

I/O接口(一个或多个)106可以包括各种软件和硬件接口，例如，web接口、图形用户界面等，并且可以促进多种多样的网络N/W和协议类型内的多个通信，所述网络N/W和协议类型包括有线网络(例如，LAN、线缆等)和无线网络(比如WLAN、蜂窝或卫星)。在实施例中，I/O接口(一个或多个)可以包括用于将若干个装置彼此连接或连接到另一个服务器的一个或多个端口。

存储器102可以包括本领域中已知的任何计算机可读介质，包括，例如，易失性存储器(比如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM))和/或非易失性存储器(比如只读存储器(ROM)、可擦可编程ROM、闪存、硬盘、光盘和磁带)。在实施例中，系统100的一个或多个模块可以被存储在存储器102中。

图2A和图2B例示说明根据本公开的实施例的用于通过推断视觉关系来使工业检验单数字化的计算机实现方法200的示例性流程图。在实施例中，系统100包括操作地耦合到一个或多个处理器104的一个或多个数据存储装置或存储器102，并且被配置为存储被配置为供所述一个或多个处理器104执行方法200的步骤的指令。现在将参照图1的系统100的组件来详细地说明方法200的步骤。尽管处理步骤、方法步骤、技术等可以按顺序的次序描述，但是这样的处理、方法和技术可以被配置为按替代的次序工作。换句话说，可以被描述的步骤的任何顺序或次序不一定指示步骤按该次序执行的要求。本文中描述的处理的步骤可以按任何实用的次序执行。此外，一些步骤可以同时执行。

图3A例示说明工业检验单，图3B例示说明根据本公开的实施例的工业检验单中的基本组成。如在图3A中所见的，工业检验单已经打印了不同类型的机器的线图表示，单个的线图在下文中被称为模板。如在图3B中所见的，与机器相关联的每个模板具有通常由检验工程师标识的一个或多个预定义的区域。线图表示(比如说机器的3维(3D)正交视图)形成模板的在一组检验单上保持恒定的静态部分。检验工程师通常对照机器的其中损坏可能已经发生的组件来标记手写内容。与所述一个或多个预定义的区域中的每个相关联的手写内容构成模板的动态部分。通常，手写内容包括独立的文本块的形式的损坏代码和/或评论。文本块中的一些可能被云或气泡包围，并且在下文中被称为对话云。手写内容还包括一个或多个连接符，所述一个或多个连接符被标记以使得独立的文本块和对话云中的每个与连接到所述一个或多个预定义的区域中的一个的连接符相关联以建立预定义的区域和文本块中包括的损坏代码之间的视觉关系。根据本公开，模板上的损坏代码是局部的，并且与将被存储为数字化的文档的对应的预定义的区域相关联。多年来收集的视觉关系的分析然后可以被用于各种目的，包括机器健康监控。

图4A至图4F例示说明根据本公开的实施例的图2A和2B的方法的各阶段的输出。根据本公开的实施例，所述一个或多个处理器104被配置为在步骤202接收包括多个图像的输入，其中所述多个图像用相同的一组模板表征，如上面所说明的，每个模板包括静态部分和动态部分。图4A例示说明根据本公开的实施例的示例性输入。模板和对话云然后被从输入消除。

因此，根据本公开的实施例，所述一个或多个处理器104被配置为在步骤204基于所述模板中的每个中标识的静态部分来从所述多个图像中的每个消除所述一个或多个模板以获得多个去模板化的图像。图4B例示说明示例性的去模板化的图像。在实施例中，去模板化的图像包括动态部分，其中手写内容包括与一个或多个连接符相关联的独立的文本块和一个或多个对话云中的至少一个。

在实施例中，消除所述一个或多个模板的步骤包括首先使接收的输入中的所述多个图像反转，接着再进行反转的多个图像的纵深平均化，然后将自适应阈值化应用于平均化的图像以用于提取所述一个或多个模板。可以注意到，每个模板的相对起始点在所述多个图像之间是不一致的。因此，需要找到每个单个的模板并且在输入的所述多个图像中找出它们。为此，平均化的图像上的轮廓可以被检测并且被按其中输入图像形成根节点、检测到的模板形成模板的树结构布置。深度1处的节点然后可以被标识为单个的模板。在实施例中，使用规范化互相关法来使提取的一个或多个模板与输入匹配以获得所述一个或多个模板中的每个点与输入的相关性。然后基于表现出最大相关性的点来确定所述一个或多个模板的位置。为了消除如所说明的那样找出的模板，如下所示，在两个图像T和R上使用算子Not(T(i,j))和R(i,j)，其中T表示模板图像，R表示输入图像。

图5A例示说明根据本公开的实施例的图1的系统的输入中的图像。分别地，图5B例示说明根据本公开的实施例的图5A的图像中的模板，图5C例示说明根据本公开的实施例的去模块化的图像。

对话云包含如前所述的文本块。它们零星地存在于所述多个图像中，并且干扰动态部分(比如连接符和文本块中的文本)的检测。因此，在本公开的实施例中，所述一个或多个处理器104被配置为在步骤206对所述多个去模板化的图像进行处理以通过使用用于分割所述一个或多个对话云的基于编码器-解码器的SegNet架构并且获得多个去云化的图像来消除其一个或多个对话云。图4C例示说明根据本公开的实施例的去云化的图像。可以注意到，去云化的图像现在仅包括多个文本块。

在实施例中，对所述多个去模板化的图像进行处理的步骤包括使用在多个对话云图像的数据集上预先训练的SegNet架构来产生用于所述一个或多个对话云的掩膜以区分包括背景类、边界类和对话云类的三个类。一般来说，SegNet架构能够学习对话云的结构。有时，SegNet架构可能将几个像素分类为背景类，这可能导致引入云存在于其中的椒盐噪声，但是当与每个文本块相关联的文本被标识时，该问题稍后在步骤214处得到解决。在实施例中，然后减去来自去模板化的图像的掩膜以获得多个去云化的图像。图6A至图6C例示说明根据本公开的实施例的获得去云化的图像的各阶段的输出。可以注意到，图6A表示去模板化的图像，图6B表示对话云，图6C表示从图6A的对话云获得的文本块。

根据本公开，下一步涉及找出如图4D所示的文本块和一个或多个连接符。为此，所述一个或多个连接符需要被标识。

连接符建立文本块和对应的预定义的区域之间的一对一关系。所述一个或多个连接符可以表现为具有突出的头部的箭头，但是通常也可以只是线或多段虚线，这增加了自动处理的复杂度。根据本公开，使用两种方法来解决该问题，其中使用卷积神经网络(CNN)分类器来检测具有突出的头部的箭头，使用Hough线变换来检测线。

因此，在本公开的实施例中，所述一个或多个处理器104被配置为在步骤208通过使用卷积神经网络(CNN)分类器和Hough线变换来检测所述一个或多个去云化的图像中的所述一个或多个连接符以分别检测构成所述一个或多个连接符的一个或多个箭头和一个或多个线中的至少一个。在实施例中，使用预先训练的CNN来检测所述一个或多个箭头以区分包括箭头类和背景类的两个类。可以注意到，包括没有突出头部(线)的连接符使CNN分类器混乱，并且精度急剧下降。因此，在本公开中，使用CNN分类器来检测仅具有突出的头部的箭头的形式的一个或多个连接符。随后，使用文本块的信息来标识检测到的箭头中的每个的尾部和头部。

根据实施例，一旦箭头被检测到，没有突出的头部的一个或多个线就保留。使用Hough线变换来检测所述一个或多个线的存在。然后合并检测到的具有相同斜率并且具有它们之间的小于50px(像素)的Euclidean距离的一个或多个线。执行线过滤来基于所述一个或多个连接符与对应的文本块的映射(关联)对所述一个或多个线进行过滤。过滤步骤帮助移除检测到的噪声。图7例示说明根据本公开的实施例的当连接符在去云化的图像中被检测到时的输出。

所述流水线中的下一个阶段涉及文本块检测。所述多个图像中的文本块通常存在于模板的附近。为了检测文本块，一直使用联结文本提议网络(CTPN)。因此，在本公开的实施例中，所述一个或多个处理器104被配置为在步骤210使用CTPN来检测输入的多个图像中的每个中的每个文本块的坐标，其中所述坐标在每个文本块周围形成边界框。可以注意到，当CTPN是在全尺寸图像上训练的时，共线地出现的多个文本块在单个边界框中被捕捉。这个异常是由当从整个图像的全局上下文看时单个的文本块的低视觉分辨率造成的。CTPN仅捕捉任何相关的文本作为单项，如果它们在水平方向上接近的话。因此，根据本公开，以一定重叠在所述多个图像中的每个中对480×360px窗口进行采样。图8A例示说明根据本公开的实施例的通过CTPN检测到的文本框。从图8A可以注意到，存在包含多于一个的文本块的一些文本框。

根据本公开，为了解决这个问题，使用来自检测到的一个或多个连接符的信息，因为每个文本块必须具有指向它的对应的连接符尾部。因此，在本公开的实施例中，所述一个或多个处理器104被配置为在步骤212基于通过外推所述一个或多个连接符的尾部而关联的相关联的坐标并且通过使用聚类法来将所述一个或多个连接符中的每个映射到对应的文本块。根据本公开，聚类法可以要么是(ii)K-均值聚类法，其中K是与边界框中的每个相关联的连接符的数量，要么是(ii)均值-偏移聚类法。一旦所有的检测到的一个或多个连接符与边界框相关联，文本块就被聚集以使得聚类的数量等于连接符的数量。因此，如果存在具有与它相关联的两个或更多个箭头的边界框，则需要获得与连接符的数量相同数量的文本块，从而确保如图8B所示每个文本块与单个连接符相关联，图8B例示说明根据本公开的实施例的与连接符映射的文本框。

文本读取是所述流水线中的用于标识如图4E所示的损坏代码的下一个阶段。因此，在本公开的实施例中，所述一个或多个处理器104被配置为在步骤214使用去云化的图像、胶囊网络(CapsNet)和空间变换器网络(STN)来标识美国信息交换标准代码(ASCII)格式的、与每个文本块相关联的文本。标识与每个文本块相关联的文本的主要挑战是由以下事实引起的，即，构成该文本的损坏代码不总是在直线上水平方向上结构化的，而是由根据如图9所示的可用于在工业检验单上书写的空间具有不均匀对齐的多个线组成。由于这些不规则性，难以将整个文本序列作为整体读取。因此，根据本公开，一个字符一次被读取，然后被按适当的次序布置以产生最终序列。使用连接成分分析(CCA)来对每个文本块进行分割并且产生具有无序的一个或多个字符的段。图9例示说明根据本公开的实施例的文本块上的分割的输出。CCA使用区域生长法，并且可以仅分割出既不重叠、又不具有共同的任何边界像素的字符。所以CCA输出可以在一个段中具有一个或多于一个的字符。实验表明，段在它们中最多具有两个字符。然后对分割的字符进行排列以获得按人类可读的形式(从左到右或从上到下)布置的字符。图10例示说明根据本公开的实施例的在段中的字符被排列以获得按人类可读的形式布置的字符之后的文本块上的分割的输出。

根据本公开，字符识别被实现为两步处理。第一步是确定段是否包含一个或两个字符。使用CapsNet来识别产生的具有多于一个的字符的段。通过引入表示图像中不存在任何字符的新的输出类“无(None)”来对CapsNet的标准公式化进行修改。因此，在段中仅存在单个字符的情况下，CapsNet预测“无”是所述两个类中的一个。CapsNet的性能被发现是有限的。因此，使用STN来识别单字符段。STN由可以被插入在CNN架构中的任何地方以提高其几何不变性的可区分的模块组成。结果，STN对于解决图像中的字符的空间定向的随机性更加有效，从而提高识别性能。因此，根据本公开，CapsNet预测识别具有多于一个的字符的段，STN识别仅具有一个字符的段。图11例示说明根据本公开的实施例的胶囊网络(CapsNet)和空间变换器网络(STN)用于标识文本块中的相关联的文本的使用。

在本公开的实施例中，校正模块可以被合并在系统100中以使用域知识来增加神经网络预测。在实施例中，校正可以涉及两个部分。首先，可以执行使用损坏代码的语法的基于规则的方法来纠正网络的预测。例如，按照语法，大写字母“B”可能仅存在于一对圆括号之间，即，“(B)”。如果网络预测“1B)”，则校正模块通过用“(”取代“1”来校正序列的这个部分。第二，可以执行基于编辑距离的方法，该方法从可能的损坏代码的详尽列表找到与预测的损坏序列最接近的序列。图12例示说明根据本公开的实施例的在图11的输出中基于损坏代码的语法进行的校正。

最后，通过利用关于一个或多个连接符和文本块的坐标的知识，如图4F所示那样执行损坏代码与预定义的区域的一对一映射。因此，在本公开的实施例中，所述一个或多个处理器104被配置为在步骤216使用映射的一个或多个连接符和对应的文本块的坐标来执行标识的与每个文本块相关联的文本与对应的机器的所述一个或多个预定义的区域中的一个的一对一映射。图13例示说明根据本公开的实施例的标识的与文本块相关联的文本与对应的机器的一个或多个预定义的区域中的一个的一对一映射。所述一个或多个连接符的头部指向对应的预定义的区域，而尾部指向对应的文本块。在实施例中，可以执行射线透射法。当连接符被外推时，它们首先相交的预定义的区域可以被标识为如图13所示的将与其尾部处的对应的文本块相关联的相关区域。

实验

使用具有分布在10组图像之间的72种不同种类的机器结构的数据集。有50个相等分布的图像用于测试。这暗示着，特定的一组具有形成静态背景的相同的机器线图。为了训练的目的，使单独的一组450个图像保持相同的背景机器线图组分布。所有的单子都是JPEG格式，分辨率为3500X 2400sq.px。它们被转换为二值化版本，在二值化版本中，前景是白色的，背景是黑色的。转换是通过Otsu二值化进行的。

对话云分割：为了该处理，在200个图像上训练SegNet架构。对云像素和背景像素进行分类。因为注意到有不平衡，所以对于前景，用8.72对类进行加权，对于背景，用0.13对类进行加权。

箭头分类器：CNN包括6个卷积层和具有ReLU激活的2个全连接层。使用最大池和丢失(max pool and dropout)(0:5概率)来进行规则化。设置0:001的学习率，并且与交叉熵损失一起使用Adam在“A method for stochastic optimization”arXiv预印本arXiv:1412.6980中提供的优化器来在800个图像上训练它，每一类图像数量相等。使用Xavier初始化器对网络进行初始化，并且对网络进行训练，直到实现的最佳验证准确度在50次之后。与每一个卷积层一起使用批规范化以便使网络收敛地更快。在400个图像的平衡的测试组上，网络99:7％准确。用填充将输入图像大小重调为(128x 128)以使得图像的纵横比不受干扰。

胶囊网络：使用CapsNet来对MNIST数据集上的重叠字符进行分类。将学习率设置为0.0005，并且使用Adam优化器来在所有的单字符上以及在彼此邻近的可能的多对字符上对网络进行训练。

STN：这些是包含一个或几个空间变换器模块的卷积神经网络。这些模块试图以计算高效的方式使网络在空间上对于其输入数据是不变的，这导致更准确的对象分类结果。使用Jaderberg等人在“Advances in neural information processing systems”中的“Spatial transformer networks”中提供的架构。在该网络上在所有的31个字符的图像上对网络进行训练。对所有的输入图像进行填充，并且将这些图像的大小重调为32x 32，以使得它们不失去它们的原始纵横比。

实验结果

表1提供用于文本提取和映射的各组件的准确度。

表1：

表2提供用于文本读取的各组件的准确度。

表2：

组件	准确度
		CCA	97.54％
排列	98.08％
		CapsNet(重叠)	66.11％
CapsNet(非重叠)	89.59％
		STN	95.06％
序列读取	94.63

表3提供本公开的整个框架的累积准确度。

表3：

组件	单个的准确度	累积准确度
			文本关联	87.1％	87.1％
文本读取	94.63％	82.3％

测试结果的分析

连接符检测的结果在表1中示出。在存在的429个箭头中正确地找出了总共385个箭头。检测是对其中模板被移除的图像上执行的。大部分的错误否定是由于概率性Hough线丢失了整个线或线的大部分而发生的，这导致其在箭头过滤阶段期间被移除。

使用CTPN的文本块检测结果在表1中示出。在总共429个文本块中正确地检测到392个文本块。它丢失了整个的几个文本块，并且导致几个错误否定，在这些错误否定中，产生了在其内部包围多于一个的文本的边界框。在CTPN检测到的392个文本块中，374个正确地与箭头相关联，给予了表1所示的块关联准确度。

对于与多个箭头相关联的框(CTPN的包围多于一个的文本块的错误否定)，对属于同一个文本块的连接的组件应用K-均值聚类。在需要聚类的23个这样的文本块中，如表1所示，它们中的22个正确地得到95.6％的总准确度。

文本读取实验是在349个块上执行的。CCA的准确度被计算为输出总数中的正确字符输出的百分比。排列准确度被计算为总数图像块进行的正确排列的百分比。CapsNet的性能是针对表2中提及的两个任务测得的，一个是重叠字符的识别，另一个是非重叠字符的情况下的字符级识别。STN准确度示出好于CapsNet的字符级准确度的字符级准确度。序列级准确度是通过计算地面实况(ground truth)以及通过如表2所示的两个校正模块的网络的最终预测而测得的。当且仅当预测的串中的所有的字符都按正确的次序与地面实况匹配时，预测才被认为是正确的。所述框架的累积准确度在表3中提供。

因此，本公开的系统和方法对于检测提供了87.1％的检测准确度，对于读取提供了94.63％的准确度，从而实现了高准确度。还注意到对于箭头、云、文本检测和字符识别中的不同类型的噪声也是鲁棒的。

撰写的说明书描述了本文中的主题以使得本领域任何技术人员都能够做出和使用实施例。主题实施例的范围由权利要求限定，并且可以包括本领域技术人员想到的其他修改。如果这样的其他的修改具有与权利要求的字面语言相同的类似元素，或者如果它们具有与权利要求的字面语言没有实质不同的等同元素，则它们意图在权利要求的范围内。

要理解，除了其中具有消息的计算机可读手段之外，保护范围还扩展到这样的程序；当所述程序在服务器或移动装置或任何合适的可编程装置上运行时，这样的计算机可读存储手段包含用于实现所述方法的一个或多个步骤的计算机代码手段。硬件装置可以是可以被编程的任何种类的装置，包括，例如，任何种类的计算机，比如服务器或个人计算机等、或它们的任何组合。所述装置还可以包括可以例如是硬件手段(比如，例如，专用集成电路(ASIC)、现场可编程门阵列(FPGA))或硬件手段和软件手段的组合(例如，ASIC和FPGA、或其中安置有软件模块的至少一个微处理器和至少一个存储器)的手段。因此，所述手段可以包括硬件手段和软件手段这二者。本文中描述的方法实施例可以用硬件和软件来实现。所述装置还可以包括软件手段。可替代地，实施例可以在不同的硬件装置上、例如使用多个CPU来实现。

本文中的实施例可以包括硬件元件和软件元件。用软件实现的实施例包括但不限于，固件、驻留软件、微代码等。本文中描述的各种模块执行的功能可以在其他模块或其他模块的组合中实现。为了本描述的目的，计算机可用的或计算机可读的介质可以是可以包括、存储、传送、传播或传输供指令执行系统、设备或装置使用的或者与指令执行系统、设备或装置有关的程序的任何设备。

陈述例示说明的步骤是为了说明所示的示例性实施例，并且应意识到正在进行中的技术开发将改变执行特定功能的方式。这些例子在本文中是出于例示说明、而非限制的目的而呈现的。此外，为了便于描述，功能构建块的边界在本文中一直是任意定义的。可以定义替代的边界，只要指定的功能和它们的关系被适当地执行即可。替代(包括本文中描述的那些的等同、扩展、变化、偏离等)对于相关领域技术人员来说基于本文中包含的教导将是显而易见的。这样的替代落在所公开的实施例的范围和精神内。此外，词语“包括”、“具有”、“包含”和其他类似的形式意图在意义上是等同的，并且是开放性的，因为这些词语中的任何一个后面的一个项或多个项并不意在于是这样的一个项或多个项的穷举列表或者意在于仅限于列出的一个项或多个项。还必须注意到，如本文中和所附权利要求中所使用的，单数形式“一个”和“该”包括复数指代，除非上下文另有明确规定。

此外，一个或多个计算机可读存储介质可以用于实现与本公开一致的实施例。计算机可读存储介质是指其上可以存储处理器可读的信息或数据的任何类型的物理存储器。因此，计算机可读存储介质可以存储用于供一个或多个处理器执行的指令，包括用于使处理器(一个或多个)执行与本文中描述的实施例一致的步骤或阶段的指令。术语“计算机可读介质”应被理解为包括有形物品，并且不包括载波和瞬态信号，即，是非暂时性的。例子包括随机存取存储器(RAM)、只读存储器(ROM)、易失性存储器、非易失性存储器、硬盘驱动器、CD ROM、DVD、闪存驱动器、硬盘和任何其他的已知的物理存储介质。

意图是本公开和例子被认为仅仅是示例性的，所公开的实施例的真实范围和精神由权利要求指示。

Claims

1.一种处理器实现方法(200)，包括以下步骤：

一个或多个硬件处理器接收包括多个图像的输入，所述多个图像用相同的一个或多个模板表征，其中所述一个或多个模板中的每个模板包括静态部分和动态部分，所述静态部分是具有一个或多个预定义的区域的机器的线图表示，所述动态部分包括与对应的机器的所述一个或多个预定义的区域相关联的手写内容(202)；

所述一个或多个硬件处理器基于所述一个或多个模板中标识的静态部分来从所述多个图像中的每个消除所述一个或多个模板以获得包括所述动态部分的多个去模板化的图像，其中所述手写内容包括与一个或多个连接符相关联的独立的文本块和一个或多个对话云中的至少一个，其中所述一个或多个对话云中的每个包括文本块和围绕所述文本块的云(204)；

所述一个或多个硬件处理器对所述多个去模板化的图像进行处理以通过使用用于分割所述一个或多个对话云的基于编码器-解码器的SegNet架构来消除其一个或多个对话云以获得多个去云化的图像，所述去云化的图像包括多个文本块(206)；

所述一个或多个硬件处理器通过使用卷积神经网络(CNN)分类器和Hough线变换来检测所述多个去云化的图像中的所述一个或多个连接符以分别检测构成所述一个或多个连接符的一个或多个箭头和一个或多个线中的至少一个(208)；

所述一个或多个硬件处理器使用联结文本提议网络(CTPN)来检测所述输入的所述多个图像中的每个中的每个文本块的坐标，所述坐标在每个文本块周围形成边界框(210)；

所述一个或多个硬件处理器基于对应的文本块的关联的坐标并且通过使用聚类法来将所述一个或多个连接符中的每个映射到所述对应的文本块(212)；

所述一个或多个处理器使用所述去云化的图像、胶囊网络(CapsNet)和空间变换器网络(STN)来标识美国信息交换标准代码(ASCII)格式的、与每个文本块相关联的文本(214)；并且

所述一个或多个处理器执行标识的与每个文本块相关联的文本与对应的机器的所述一个或多个预定义的区域中的一个的一对一映射，从而通过使用映射的一个或多个连接符和对应的文本块的坐标来提供它们之间的视觉关系(216)。

2.根据权利要求1所述的处理器实现方法，其中，消除所述一个或多个模板的步骤包括：

使所述输入中的所述多个图像反转；

执行反转的多个图像的纵深平均化；

将自适应阈值化应用于平均化的图像以用于提取所述一个或多个模板；

使用规范化互相关法来使提取的一个或多个模板与所述输入匹配以获得所述一个或多个模板中的每个点与所述输入的相关性；

基于表现出最大相关性的点来确定所述一个或多个模板的位置；并且

基于确定的所述一个或多个模板的位置来从所述输入消除所述一个或多个模板。

3.根据权利要求1所述的处理器实现方法，其中，对所述多个去模板化的图像进行处理的步骤包括：

使用在多个对话云图像的数据集上预先训练的SegNet架构来产生用于所述一个或多个对话云的掩膜以区分包括背景类、边界类和对话云类的三个类；并且

从所述去模板化的图像减去所述掩膜以获得所述多个去云化的图像。

4.根据权利要求1所述的处理器实现方法，其中，检测所述多个去云化的图像中的所述一个或多个连接符的步骤包括：

使用预先训练的CNN来检测所述一个或多个箭头以区分包括箭头类和背景类的两个类；并且

通过使用Hough线变换来检测所述一个或多个线以检测所述一个或多个线的存在；合并检测到的具有相同斜率和它们之间的小于50px(像素)的Euclidean距离的一个或多个线；并且基于所述一个或多个连接符与对应的文本块的映射来对所述一个或多个线进行过滤。

5.根据权利要求1所述的处理器实现方法，其中，检测所述输入中的所述多个图像中的每个中的每个文本块的坐标的步骤包括：

使用CTPN来找出文本线以定位每个文本块周围的边界文本框；并且

以一定重叠对所述多个图像中的每个中的480×360px窗口进行采样。

6.根据权利要求1所述的处理器实现方法，其中，将所述一个或多个连接符中的每个映射到对应的文本块的步骤包括：

通过外推所述一个或多个连接符的尾部来将所述一个或多个连接符中的每个与每个文本块周围的边界框中的一个相关联；并且

使用聚类法来聚集所述文本块以使得文本块的数量等于所述一个或多个连接符的数量。

7.根据权利要求1所述的处理器实现方法，其中，所述聚类法要么是(ii)K-均值聚类法，其中K是与所述边界框中的每个相关联的连接符的数量，要么是(ii)均值-偏移聚类法。

8.根据权利要求1所述的处理器实现方法，其中，标识与每个文本块相关联的文本的步骤包括：

使用连接成分分析(CCA)来分割每个文本块以产生其中具有一个或多个字符的段；

对产生的段中的分割的无序的字符进行排列以获得按人类可读的形式布置的字符；

使用CapsNet来识别产生的其中具有多于一个的字符的段；并且

使用STN来识别产生的其中具有一个字符的段。

9.根据权利要求1所述的处理器实现方法，其中，执行标识的与每个文本块相关联的文本与所述一个或多个预定义的区域中的一个的一对一映射的步骤包括外推所述一个或多个连接符以使得所述文本块的接近度指示尾部并且与预定义区域的接近度指示箭头头部。

10.一种系统(100)，包括：

一个或多个数据存储装置(102)，所述一个或多个数据存储装置(102)操作地耦合到一个或多个硬件处理器(104)，并且被配置为存储用于供所述一个或多个硬件处理器执行以执行以下步骤的指令：

接收包括多个图像的输入，所述多个图像用相同的一个或多个模板表征，其中所述一个或多个模板中的每个模板包括静态部分和动态部分，所述静态部分是具有一个或多个预定义的区域的机器的线图表示，所述动态部分包括与对应的机器的所述一个或多个预定义的区域相关联的手写内容；

基于所述一个或多个模板中标识的静态部分来从所述多个图像中的每个消除所述一个或多个模板以获得包括所述动态部分的多个去模板化的图像，其中所述手写内容包括与一个或多个连接符相关联的独立的文本块和一个或多个对话云中的至少一个，其中所述一个或多个对话云中的每个包括文本块和围绕所述文本块的云；

对所述多个去模板化的图像进行处理以通过使用用于分割所述一个或多个对话云的基于编码器-解码器的SegNet架构来消除其一个或多个对话云以获得多个去云化的图像，所述去云化的图像包括多个文本块；

通过使用卷积神经网络(CNN)分类器和Hough线变换来检测所述多个去云化的图像中的所述一个或多个连接符以分别检测构成所述一个或多个连接符的一个或多个箭头和一个或多个线中的至少一个；

使用联结文本提议网络(CTPN)来检测所述输入的所述多个图像中的每个中的每个文本块的坐标，所述坐标在每个文本块周围形成边界框；

基于对应的文本块的关联的坐标并且通过使用聚类法来将所述一个或多个连接符中的每个映射到所述对应的文本块；

使用所述去云化的图像、胶囊网络(CapsNet)和空间变换器网络(STN)来标识美国信息交换标准代码(ASCII)格式的、与每个文本块相关联的文本；并且

执行标识的与每个文本块相关联的文本与对应的机器的所述一个或多个预定义的区域中的一个的一对一映射，从而通过使用映射的一个或多个连接符和对应的文本块的坐标来提供它们之间的视觉关系。

11.根据权利要求10所述的系统，其中，所述一个或多个处理器被进一步地配置为通过以下步骤来消除所述一个或多个模板：

使所述输入中的所述多个图像反转；

执行反转的多个图像的纵深平均化；

12.根据权利要求10所述的系统，其中，所述一个或多个处理器被进一步配置为通过以下步骤来对所述多个去模板化的图像进行处理：

13.根据权利要求10所述的系统，其中，所述一个或多个处理器被进一步配置为通过以下步骤来检测所述多个去云化的图像中的所述一个或多个连接符：

14.根据权利要求10所述的系统，其中，所述一个或多个处理器被进一步配置为通过以下步骤来检测所述多个图像中的每个中的每个文本块的坐标：

15.根据权利要求10所述的系统，其中，所述一个或多个处理器被进一步配置为通过以下步骤来将所述一个或多个连接符中的每个映射到对应的文本块：

16.根据权利要求10所述的系统，其中，所述聚类法要么是(ii)K-均值聚类法，其中K是与所述边界框中的每个相关联的连接符的数量，要么是(ii)均值-偏移聚类法。

17.根据权利要求10所述的系统，其中，所述一个或多个处理器被进一步配置为通过以下步骤来标识与每个文本块相关联的文本：

使用CapsNet来识别产生的其中具有多于一个的字符的段；并且

使用STN来识别产生的其中具有一个字符的段。

18.根据权利要求10所述的系统，其中，所述一个或多个处理器被进一步配置为通过外推所述一个或多个连接符以使得所述文本块的接近度指示尾部并且与预定义区域的接近度指示箭头头部来执行标识的与每个文本块相关联的文本与一个或多个预定义的区域的一对一映射。

19.一种计算机程序产品，所述计算机程序产品包括其中包含计算机可读程序的非暂时性计算机可读介质，其中所述计算机可读程序在被计算装置执行时使所述计算装置：