CN103827918A

CN103827918A - 使用生成的字符模板来光学字符识别的方法和系统

Info

Publication number: CN103827918A
Application number: CN201280046267.3A
Authority: CN
Inventors: A.F.费罗
Original assignee: General Electric Co
Current assignee: General Electric Co
Priority date: 2011-09-23
Filing date: 2012-08-30
Publication date: 2014-05-28
Also published as: US20130077856A1; EP2758938A1; JP2014526760A; WO2013043338A1; WO2013043338A8

Abstract

一种用于训练机器视觉系统的方法和系统，所述机器视觉系统与OCR算法一起用于识别字符。所述方法包括：识别待识别的字符，并且单独为所述字符中的每一个生成至少第一模板集合。每个模板包括由多个单元构成的网格，并且通过选择所述网格的某些单元来限定图案而生成，所述图案与所述字符中的相应一个相关联。然后将与所述模板相关的信息保存在介质上，随后可从所述介质中检索所述信息来重新生成所述模板。所述模板可用于光学字符识别算法中，以便识别标识中包含的至少一些所述字符。

Description

使用生成的字符模板来光学字符识别的方法和系统

相关申请案的交叉引用

本申请要求2011年9月23日申请的美国临时申请号61/538,564的权利，所述申请的内容以引用方式并入本说明书。

背景技术

本发明大体上涉及成像技术及其使用。更具体来说，本发明涉及机器视觉(MV)成像的方法和设备，所述方法和设备能够与基于图像的方法和设备(例如，在监测、检查和/或控制应用程序中所使用的类型)中所采用的目标字符识别(OCR)算法一起使用。

机器视觉(MV)通常是指：使用图像感测技术来获取(“读取”)视觉图像并且将所述图像转换成计算机能够从所述图像提取数据的形式、将所提取的数据与以前开发的标准相关联的数据进行比较，并且随后基于所述比较生成可能对给定应用程序有用的输出。作为非限定性实例，此类应用程序可包括部件识别、裂纹检测、部件在三维空间中的位置等。机器视觉系统的领域通常涵盖OCR设备和算法。一个非限定性实例是识别(“读取”)与制造的物品相关联的一系列字符，例如，包括序列号、部件号、供应商代码等在内的部件标识。部件标识(和许多其他应用程序)中所使用的字符不限于数字，而是经常包括被视为人类可读的字母数字字符和/或可能被视为人类不可读的符号，所述符号包括(但不限于)一维和二维数据矩阵条形码。

利用OCR设备和算法的机器视觉系统通常通过以下方式来识别物品上的标识：从所述物品上获取包含所述标识的图像，并且随后将所获取的图像与所存储的排版模板相比较，从而识别所获取图像中的各个字符。所述模板通常是使用以前获取的图像数据训练(train)的，在此情况下，许多模板可映射到单一字符。图1表示用于执行一种过程的视觉系统10，所述过程包括：识别应用程序特定参数，并且随后例如从部件标识12的字符获取训练图像，模板14从所述训练图像生成。这些步骤通常由一位应用程序工程师来执行，所述应用程序工程师将模板14存储在合适的存储装置16中。用于给定字符的每个模板14对应于所述字符的物理范围，本说明书中称为图像空间。因为在缩放比例、照明条件、表面光洁度等方面可能发生变化，所以必须获取足够的训练图像来开发用于将要由视觉系统10识别的每个字符的多个模板14。随后，可使用现有的OCR算法，通过将在线获取的图像(例如，从制造的物品获取的)与所存储的用于字符识别的模板14相比较来执行字符识别。使用这种类型的过程，必须针对特定应用程序及其应用程序特定参数来训练每个视觉系统10。

例如，如果特定字符以前不曾见过并且未经成像，则图1中所示的方法所采用的训练方式可能导致训练不足(under-training)，并且如果字符已被训练多次并有各种伪影(artifact)或噪声嵌入，则所述训练方式可能导致训练过度(over-training)。此外，使用所获取的图像数据来训练OCR算法产生排版模板14，所述排版模板14的质量取决于几乎恒定的成像条件，如缩放比例、照明条件、表面光洁度和类似条件。

由于现有(或称“现用”，off-the-shelf)快速原型视觉系统提供的成像套件，在机器视觉应用程序中存在追求现有快速原型视觉系统的动机，这促使设立对于常见任务的检查。然而，训练排版可能是一项艰巨的任务，因为需要每个字符的代表性实例，有时需要同一字符在存在噪声、伪影或几何图形变化时的多个实例。对重复字符训练的需要在用于广泛应用程序或通用应用程序的情况下尤其是个问题，所述情况例如为：读取可能具有不同几何图形的不同制造物品，或读取处于不同照明条件、不同缩放比例等条件下的物品。重复训练的缺点是训练过度，其中当具有不同异常的每个实例性字符被添加至限定单一字符的集合时，字符的特定特征可能发生失真或甚至丢失。

鉴于上述情况，应了解的是，存在对于能够克服现存OCR训练方法中所遇到缺点的OCR系统的持续需求。具体来说，如果存在提高读取过程期间准确度的简化训练方法，这将是有利的。将更加有利的是，提供独立于终端应用程序的OCR训练方法。

发明内容

本发明提供用于训练机器视觉系统的方法和系统，所述机器视觉系统与OCR算法一起使用来识别字符。

根据本发明的第一方面，提供一种方法，所述方法包括：识别待识别的字符，并且单独生成用于所述字符中的每一个的至少第一模板集合。每个模板包括由多个单元构成的网格并且通过选择所述网格的某些单元生成，从而限定与所述字符中的相应一个相关联的图案。随后将与每个模板的形状相关的信息保存在可从其中检索所述信息的介质上。所述模板随后可通过从所述介质上检索所述信息来重新生成，并且可输出用于光学字符识别算法中，从而识别标识中包含的至少一些所述字符。

根据本发明的第二方面，一种用于执行字符识别的系统包括：用于单独为多个字符中的每一个生成至少第一模板集合的装置；适于保存所述模板并且可从其中检索所述模板的介质；和适于使用所述模板来识别标识中包含的至少一些所述字符的光学字符识别算法。每个模板包括由多个单元构成的网格并且通过选择所述网格的某些单元生成，从而限定与所述字符中的相应一个相关联的图案。

本发明的一个技术效果是能够生成基本上无噪声、无伪影并且可与某些排版或字体相关联的模板，以使得对OCR算法的训练针对每种排版或字体仅需一次，而不是针对每个独特的OCR应用程序来执行。因此，单独的模板集合可容易地适用于采用相同排版或字体的多个应用程序，但是其字符是在不同条件下读取的，这将使常规OCR机器视觉系统的使用复杂化。因为所述模板不是从图像源生成的，所以它们不存在失真、照明缺陷、表面纹理和其他特定的应用程序异常。此方法提供用于OCR算法的最通用模板，以用于与使用所训练的排版的众多应用程序相关联。另一个优点是，所述模板可用来由与终端应用程序分开的某人在在线过程之外训练OCR算法，并且这样操作时能够增加字符识别训练过程的速度和效率。

本发明的其他方面和优势可从以下具体实施方式中更好地了解。

附图说明

图1示出使用现有技术OCR训练过程来识别字符的机器视觉系统。

图2示意性地描绘根据本发明实施例的模板实例，所述模板可结合机器视觉系统使用来识别字符。

图3描绘涡轮机叶片上的并且使用在线机器视觉读取过程可读取的部件标识。

图4描绘类似于图2所示的并且针对图3中所示标识的字符中的每一个生成的各个模板。

图5提供可使用类似于图2所示模板来执行的离线模板生成过程和在线字符读取过程的示例性流程图。

图6示意性地描绘能够用于图5所示离线训练过程的离线模板生成系统。

图7示出在OCR训练过程中使用图6所示离线模板生成系统来识别字符的机器视觉系统。

具体实施方式

以下对机器视觉系统和操作这样的系统来产生输出的方法的实施例进行描述，所述输出可与OCR算法一起使用来识别字符，例如，物品上部件标识的字符。图2描绘可由本发明采用来识别字符的模板20的实例，其非限定性实例是图2中所示的百分比符号(％)34。模板20配置为以行26和列28排列的单元24的网格22。如从图2中明显看出，一些单元24是“接通”(阴影)30而另一些是“断开”32，其中这些“接通”单元24对应于百分比符号34的形状。这样，单元24的“接通”或“断开”状态构成表示特定字符的数据。如果标识是用将点压印(刻)在物品上来形成字符的机器形成的，那么每个单元24可表示限定所述字符的点刻网格的单一点，并且模板20可以是通过对所述点刻网格进行上采样以达与所述字符图像相同的分辨率而形成的单元网格22的表现形式(manifestation)。

根据本发明的一个优选方面，网格22及其单元24有效地构成与模板20针对字符的形状相关的信息，并且此信息可在离线过程中生成，通过所述离线过程形成用于任意数目的应用程序中需要读取的每个字符的一个单独模板20。相对于如图1所示现有技术系统10所要求的那样，在在线“应用程序”级别上获取多个训练图像以便训练机器视觉系统的现有技术实践而言，表示模板20的信息可在离线“系统”级别上产生。更具体来说，所述信息可通过以下方式离线生成：识别哪些字符用于或可用于可使用模板20的一个或多个应用程序，并且随后选择能够分别地与所识别的字符相关的“接通”和“断开”单元24的图案。针对每个模板20的单元24阵列限定本说明书中所称的“网格空间”，所述网格空间由所述阵列的行26和列28限定。针对给定字符，可将阵列的大小(并且，因此为模板20中单元24的数目)限制到表征受关注字符的数据所必需的最小尺寸。同时，可利用模板20的接通-断开格式来在给定的网格空间中产生最高对比度。在图2所示的实例中，5×7单元24的阵列足以限定模板20用于百分比符号34的网格空间，尽管应理解，更小或更大的阵列是可预见的。在任何情况下，“接通”单元24的图案体现了字符的分辨率，而不是所获取用来生成图1所示常规机器视觉系统的模板14的图像的分辨率。如将要参照图5至图7所论述，在生成用于预期应用程序的所需数目的模板20之后，可将与模板20相关的信息存储，以供后续在在线机器视觉字符读取过程中使用。

因为将字符限定在网格空间中而不是限定在图1所示的图像空间中，所以模板20可被开发并且基本上用于涉及相同排版或字体的任何应用程序。更具体来说，由网格空间限定的模板20不像图像空间模板那样仅限于某些应用程序，所述图像空间模板必须考虑到针对每个特定应用程序可能存在的具体环境因素。如将要在下面论述，虽然可开发不同的模板20集合用于具有不同排版或字体的应用程序，但是排版开发和产生的模板20以其他方式独立于终端应用程序。

图3示意性地描绘涡轮机叶片36的根部端，在其上已压印或以其他方式产生了示例性部件标识38(例如，序列号、部件号、供应商代码等)，并且所述部件标识38的各个字符可在叶片36上所执行的处理、检查或一些其他在线过程期间被读取。图4示意性地描绘针对标识38的每个字符生成的模板20。虽然将标识38表示为仅包括字母数字字符(并且因此被视为人类可读的)，但是本发明还可采用基本上任何系列的字符，包括可被视为人类不可读的符号或其他字符，包括(但不限于)一维和二维数据矩阵条形码。如从图4中明显看出，每个字符可由包括5×7单元24的网格空间的一个模板20来限定，尽管同样，可使用更少或更多数目的单元24。如前面所指出，模板20可在系统级别上离线限定，并且后续在应用程序级别上生成并由OCR算法在线使用来识别字符。

除模板20之外，可需要其他输入来供OCR算法使用。例如，某些信息可从表示模板20的信息中计算出或导出并且可用作供OCR算法使用的输出。非限定性实例包括：用于限定类似模板的“查找表”(LUT)、用于限定模板内特定类似区域的LUT、用于模板间距的LUT、用于比例和公差的LUT，以及使用模板形态中所包含的信息知识可容易地并自动生成的任何其他OCR特定输入。如从以下关于图6的论述将更好地理解，可使用这些额外的输入来帮助训练OCR算法，以便更好地关联被读取的图像与特定字符模板20。限定模板20的离线过程可容易地输出这些额外的输入，因为所述离线过程具有与每个字符在最基本比例(即，网格空间)处的形状相关的信息。

图5描绘本发明的离线阶段包括对于特定标识(如图3和图4所示的标识38)确定OCR参数的步骤，在所述步骤期间，针对待读取的标识的每个受关注字符生成模板20并且存储限定模板20的信息集合。图5描绘一个额外的步骤，其中针对物品确定将要从其中读取字符的受关注区域(ROI)，例如，叶片36的图像内。作为离线过程的一部分，这些步骤可重复进行，以便产生用于可利用不同排版或字体的任何数目的标识系统的单独模板20集合。图5进一步描绘利用本发明的模板生成离线过程的输出的在线或应用程序级别。在线过程被描绘成包括以下步骤：读取适当的模板20集合，使用受关注区域来修剪(crop)标识以便避免对物品上不具有受关注标识的区域的不必要读取，并且随后在OCR算法中使用模板20来读取并识别标识的字符。除使用本发明的模板生成离线过程的输出之外，图5所示的在线过程表示现有OCR算法的操作。所述OCR算法使用一种相关技术来将标识38的图像与模板20相比较，从而生成从标识38中识别到的字符的数字表现形式。

如图6中所描绘，与模板20的形状相关的信息可通过使用离线系统40生成，并且随后存储在OCR算法可访问的合适存储装置42上的模板数据库中。如从图6明显看出，模板20的屏幕图像可显示在个人计算机或其他合适的处理设备的屏幕46上，用户可从所述屏幕46上选择各个单元24来限定能够唯一地识别待识别字符的“接通”单元。针对在将要在其中执行字符识别的一个或多个应用程序中可能被读取的每个字符重复此步骤。从图6中所示模板20的整洁网格空间与图1所示常规机器视觉系统的模板14之间的比较，可容易了解本发明的离线模板生成方法的好处。

所需的以供由OCR算法使用的任何其他输入也可存储在存储装置42上。另外，某些信息可从模板20包含的数据计算出或导出并且可供OCR算法使用。例如，图6描绘纳入了“查找表”(LUT)44，所述查找表44可生成用于具有类似模板20的字符，例如数字“1”和大写字母“I”。可对OCR算法进行训练以用于：使在受关注区域内被读取的每个图像与字符模板20相关联，分析所读取图像的每一个像素，并且生成受关注区域内每一个像素的输出相关性得分。高的相关性表示识别出已读取的字符。还可教导OCR算法来查阅查找表44，以便提高相关性得分。例如，LUT44可提供关于模板20的什么区是一致的信息，以使OCR算法可将这些区遮住以便提高相关性得分差异，否则得分会太接近以至于不能做出决定。因此，OCR算法可使用迭代过程来将所读取的图像与所存储的模板20的字符相关，并且还利用可能对训练过程有用的其他输入。

如前面所指出，可开发不同的模板20集合来用于采用不同排版或字体的应用程序。例如，可开发用于不同排版或字体的模板20，并且将不同模板20存储在存储装置42上的单独项目文件中。此外，可调整模板20的比例(放大/缩小)用于将网格空间中的模板20转化成图像空间中的图像券(coupon)，以便输入到OCR算法(图7中识别为“应用程序细节”)中。例如，对于5×7单元的网格空间来说，可使用5.0的缩放比例来生成每个模板20一个25×35像素的图像。类似地是，可利用非整数的缩放比例来将模板20从网格空间转化成图像空间，以使得由OCR算法做出的相关性将与采用所述算法的每个相应应用程序中所获取的图像尽可能接近地匹配。此处假设OCR算法可要求模板20与已获取的图像具有一致的分辨率和缩放比例。

图7描绘类似于图1所示现有技术，但是被修改来图示本发明某些方面的流程图。图7同样描绘某些步骤在检查过程的系统级别上离线执行，而其他步骤在所述检查过程的应用程序级别上在线执行。在离线过程中，识别了针对一个或多个受关注应用程序将需要识别的字符，并且例如在图6所示屏幕显示器46上，“绘制出”用于这些字符中的每一个的模板20。如前面所提及，可生成单独的模板20集合并作为单独的项目存储在存储装置32上。还可生成用于每个项目及其模板20集合的查找表44。如前面所指出，查找表44的使用不意图包括所有实例，而仅包括可在本发明的离线过程内生成的OCR相关输入参数的一个实例。还可生成能够从网格空间中的模板中导出的其他OCR相关输入。用户可生成适当的模板20并且将它们保存在存储装置42上，以便随后通过输入对应于特定应用程序的应用程序细节来在线使用。随后将适当的模板20输出到图像空间中，这意味着对所述模板20进行重新采样以达图像中期望的相同分辨率和缩放比例，此后，读取受关注字符并且运行OCR算法来识别所述字符。

因为可在与某些排版或字体相关联的项目文件中组织模板20，所以对OCR算法的训练针对每种排版或字体仅需一次，而不是如图1所示现有技术系统10所要求的那样需要针对每个独特的应用程序执行。此外，对OCR算法的训练可在检查过程的在线过程之外进行。因此，一个显著的好处是，离线过程减少了训练OCR算法的过程对于每个应用程序的工程加工时间(engineering touch time)，并且提高了机器视觉系统的速度、效率，而且最重要的是提高了准确度，所述机器视觉系统的输出可被其他标准在线OCR算法使用。另一个好处是，因为OCR算法的训练离线进行，所以模板20可更容易地适用于采用相同排版或字体的多个其他应用程序，但是其字符是在不同条件下读取的，这可能使图1中所描绘类型的常规系统的使用复杂化。

图1中所描绘类型的现有技术训练方法还依赖于看到相同字符的多个实例，以便增加受不同环境影响的图像与先前看到的模板的图像相关联的机会。这可能导致训练过度，其中字符的特定和细微特征可能丢失。本发明通过使用模板20将此问题解决，所述模板20从一开始就不受环境影响并且可为OCR算法提供用于每个字符的恰好一个实例性模板20。图1中所示的现有技术训练方法还依赖于至少要看到字符的实例一次。如果在在线模式中释放模板集合之前这并不可能，则将经受训练不足，其中OCR算法将在第一次看到字符时或看到受环境影响而不与先前实例性模板中的任何一个相关联的字符时失效。本发明通过允许用户在系统级别上离线训练整个字符集合来解决这个问题。图1中所示的现有技术训练方法还依赖于在训练过程内看到字符串形式的多个字符，以便将字符间距信息训练到OCR算法中。由于与以上所述相同的原因，本发明通过以下方式解决这个问题：允许用户在系统级别上将此间距训练到网格空间中，并且实时地(on thefly)，将所述信息嵌入用于单一排版的排版属性中。

虽然已根据特定实施例对本发明进行了描述，但是明显的是，所属领域技术人员可采用其他形式。例如，用来建构机器视觉系统的硬件和软件的物理配置可不同于以上所述或以上所示的物理配置。因此，本发明的范围应仅由以下权利要求书来限定。

Claims

1.一种训练用于字符识别的机器排版的方法，所述方法包括：

识别待识别的字符；

单独为所述字符中的每一个生成至少第一模板集合，所述模板中的每一个包括由多个单元构成的网格并且每个模板通过选择所述网格的某些单元来限定图案而生成，所述图案与所述字符中的相应一个相关联；

将与每个模板的形状相关的信息保存在可从中检索所述信息的介质上；

从所述介质中检索所述信息；

根据所述信息重新生成所述模板；以及

输出所述模板，以用在光学字符识别算法中来识别标识中包含的至少一些所述字符。

2.如权利要求1所述的方法，其中识别所述字符、生成所述模板和保存所述模板的步骤是在检查过程中离线执行的。

3.如权利要求1所述的方法，其中检索和使用所述模板的步骤是在检查过程中在线执行的。

4.如权利要求1所述的方法，其中生成所述模板的步骤是通过在屏幕上显示所述网格并且从所述屏幕中选择所述单元来执行的。

5.如权利要求1所述的方法，其中生成所述第一模板集合的步骤是针对单一排版或字体执行的。

6.如权利要求5所述的方法，所述方法进一步包括为第二排版或字体生成至少第二模板集合。

7.如权利要求1所述的方法，所述方法进一步包括：从所述模板中生成OCR相关输入参数以及将所述输入参数保存在所述介质上。

8.如权利要求1所述的方法，所述方法进一步包括：从所述网格中导出查找表以及将所述查找表保存在所述介质上。

9.如权利要求1所述的方法，其中在所述光学字符识别算法中使用所述模板的步骤包括：在识别所述标识中包含的所述字符之前将所述模板输出至图像空间中的图像券。

10.如权利要求1所述的方法，其中所述输出步骤包括：对所述模板进行重新采样以达到所述字符的匹配分辨率和缩放比例。

11.如权利要求1所述的方法，其中所述标识是元件上的部件标识。

12.如权利要求1所述的方法，其中所述元件是燃气涡轮发动机元件。

13.一种训练用于字符识别的机器排版的系统，所述系统包括：

用于单独为多个字符中的每一个生成至少第一模板集合的装置，所述模板中的每一个包括由多个单元构成的网格，并且每个模板通过选择所述网格的某些单元来限定图案而生成，所述图案与所述字符中的相应一个相关联；

适于保存与每个模板的形状相关的信息并且可从中检索所述信息的介质；

用于从所述信息重新生成所述模板的装置；以及

适于使用所述模板来识别标识中包含的至少一些所述字符的光学字符识别算法。

14.如权利要求13所述的系统，其中所述生成装置和介质是离线系统的元件，并且所述光学字符识别算法是在线系统的元件。

15.如权利要求13所述的系统，其中所述生成装置包括屏幕，在所述屏幕上显示所述网格并且使用所述屏幕可选择所述单元。

16.如权利要求13所述的系统，其中所述生成装置配置用于生成用于单一排版或字体的所述第一模板集合。

17.如权利要求16所述的系统，其中所述生成装置配置用于生成用于第二排版或字体的至少第二模板集合。

18.如权利要求13所述的系统，所述系统进一步包括：从所述网格中导出的并且存储在所述介质上的查找表。

19.如权利要求13所述的系统，所述系统进一步包括：用于在识别所述标识中包含的所述字符之前将所述模板输出到图像空间中的装置。

20.如权利要求13所述的系统，其中所述光学字符识别算法使用关联技术来将所述标识的图像与所述模板相比较，从而生成从所述标识识别到的至少一个字符的数字表现形式。