CN113076939B

CN113076939B - 语境化字符识别系统

Info

Publication number: CN113076939B
Application number: CN202011515538.8A
Authority: CN
Inventors: R.K.古普塔; J.赫内; A.R.卡蒂
Original assignee: SAP SE
Current assignee: SAP SE
Priority date: 2020-01-06
Filing date: 2020-12-21
Publication date: 2024-05-03
Anticipated expiration: 2040-12-21
Also published as: EP3846075A1; US11301627B2; US20210209301A1; CN113076939A

Abstract

这里描述了用于提供语境化字符识别系统的系统、方法和各种实施例。实施例通过确定图像的多个预测单词来操作。识别准确性度量或多个预测单词中的每一个，并且识别具有低于阈值的准确性度量的可替换单词。识别与可替换单词相关联的多个候选单词，并且基于语境分析计算候选单词中的每一个的概率。选择候选单词中的具有最高概率的一个。输出包括替换可替换单词的具有最高概率的选择的候选单词的多个预测单词。

Description

语境化字符识别系统

技术领域

本公开涉及语境字符识别系统，更具体地，涉及用于提供语境化字符识别系统的系统、装置、设备、方法和/或计算机程序产品。

背景技术

光学字符识别(OCR)是从图像识别或读取字符或文本的过程。OCR通过将图像中的各种形状和对象与图像的背景区分开来操作。使用视觉特征，OCR随后可以将区分出的形状和对象与一组已知字符比较，以识别可能出现在图像中的各种字符和单词(word)。然而，OCR被限制于使用视觉特征来进行其确定，并且因此有其局限性，因为有时严格使用视觉分析难以识别字符和单词。

发明内容

根据本公开的一方面，提供了一种用于提供语境化字符识别系统的方法，包括：确定图像的多个预测单词，其中所述多个预测单词是基于图像的光学分析生成的；为多个预测单词中的每一个识别准确性度量；基于可替换单词的准确性度量低于阈值，从多个可预测单词中识别可替换单词；识别与可替换单词相关联的多个候选单词；基于相对于多个预测单词中的一个或多个的每个候选单词的语境分析，为多个候选单词中的每一个计算概率；选择多个候选单词中的具有最高概率的一个，其中选择的候选单词的概率超过准确性度量和阈值；以及输出包括替换可替换单词的具有最高概率的选择的候选单词的多个预测单词。

根据本公开的另一方面，提供了一种用于提供语境化字符识别系统的系统，包括：存储器；以及至少一个处理器，耦合到存储器并被配置为执行操作，所述操作包括：确定图像的多个预测单词，其中所述多个预测单词是基于图像的光学分析生成的；为多个预测单词中的每一个识别准确性度量；基于可替换单词的准确性度量低于阈值，从多个可预测单词中识别可替换单词；识别与可替换单词相关联的多个候选单词；基于相对于多个预测单词中的一个或多个的每个候选单词的语境分析，为多个候选单词中的每一个计算概率；选择多个候选单词中的具有最高概率的一个，其中选择的候选单词的概率超过准确性度量和阈值；以及输出包括替换可替换单词的具有最高概率的选择的候选单词的多个预测单词。

根据本公开的又一方面，提供了一种非瞬时性计算机可读设备，具有存储在其上的指令，当由至少一个计算设备运行所述指令时，使得所述至少一个计算设备执行操作，所述操作包括：确定图像的多个预测单词，其中所述多个预测单词是基于图像的光学分析生成的；为多个预测单词中的每一个识别准确性度量；基于可替换单词的准确性度量低于阈值，从多个可预测单词中识别可替换单词；识别与可替换单词相关联的多个候选单词；基于相对于多个预测单词中的一个或多个的每个候选单词的语境分析，为多个候选单词中的每一个计算概率；选择多个候选单词中的具有最高概率的一个，其中选择的候选单词的概率超过准确性度量和阈值；以及输出包括替换可替换单词的具有最高概率的选择的候选单词的多个预测单词。

附图说明

附图被合并于此并形成说明书的一部分。

图1是示出根据一些实施例的用于提供语境化(contextualized)字符识别系统(CRS)的示例功能的框图。

图2A示出根据示例实施例的从中提取文本的示例图像204。

图2B示出根据示例实施例的OCR和语境化字符识别处理的示例。

图3A示出根据实施例的示例单词框。

图3B示出根据示例实施例的对应于被识别的单词边界(bounding)或单词框的字符框的示例集合。

图3C示出根据示例实施例的具有像素视图(view)的示例单词网格(grid)。

图4是示出根据一些实施例的用于提供语境化字符识别系统的示例操作的流程图。

图5是用于实施各种实施例的示例计算机系统。

在附图中，类似的参考标号通常表示相同或相似的元素。此外，一般来说，参考标号的最左边的(多个)数字标识了第一次出现该参考标号的附图。

具体实施方式

这里提供用于提供语境化字符识别系统的系统、装置、设备、方法和/或计算机程序产品实施例和/或其组合和子组合。

光学字符识别(OCR)是从图像中识别或读取字符或文本的过程。OCR通过将图像中的各种形状和对象与图像的背景区分开来操作。使用视觉特征，OCR随后可以将区分出的形状和对象与一组已知字符比较，以识别可能出现在图像中的各种字符和单词。然而，OCR被限制于使用视觉特征来进行其确定，并且因此有其局限性，因为有时严格使用视觉分析难以识别字符和单词。

图1是示出根据一些实施例的用于提供语境化字符识别系统(CRS)102的示例功能的框图100。在实施例中，CRS 102可以通过向图像104的识别出的视觉元素、字符或单词添加语境化处理来增强标准OCR。

光学字符识别(OCR)是一个计算机化的过程，通过该过程，一个或多个计算设备使用图像中的视觉提示(cue)来识别可能出现在图像中的单词。然而，OCR遇到的问题之一是，单独基于计算机化视觉分析，并不是所有的文本都是容易地可读取或可识别的。因此，OCR易于输出错误的单词或字符，该单词或字符可能没有逻辑或语境(contextual)意义。CRS102可以通过添加、分层放置或实施语境化处理来识别图像104内的字符、文本、单词和/或短语来增强标准OCR处理。

CRS 102可以识别图像104的单词、字符、符号和/或对象。例如，用户可以将图像104提交给CRS 102用于处理，并且可以接收最终文本107的输出，在最终文本107中来自图像104的跨一种或多种语言的一个或多个单词、短语、字符、符号、文本或其他对象被自动地识别(例如，在不介入用户干预的情况下)。

在实施例中，CRS 102可以使用OCR引擎105来识别预测文本107。例如，OCR引擎105可以包括一个或多个处理器，其被配置成执行图像104的标准OCR处理并输出预测文本107。在另一实施例中，CRS 102可从第三方OCR引擎105接收图像104(或图像104的部分)和预测文本107，该第三方OCR引擎105未被集成为CRS 102的一部分，但其如下更详细地描述的，提供预测文本107和/或图像104的边界框。

预测文本107可以包括最初被预测(使用OCR或视觉处理)为被跨图像104的一个多个部分、段或区域显示的一个或多个字符或单词。预测文本107可以包括一个或多个预测单词108A、108B、108C(这里通常指代预测单词108)。预测单词108可以每个包括跨一种或多种语言的一个或多个字母数字文本符号和/或字符。示例预测单词108包括“一个”、“医生”、“3/4”、“品脱大小”、“100美元”和“真棒！”。预测单词108可被一起分组或组合成预测文本107，该预测文本107可包括短语、标题、句子、段落或一个或多个预测单词108的其他逻辑或语境分组。

在实施例中，CRS 102可以分别为预测单词108A、108B和108C中的每一个计算、生成或确定准确性度量110A、110B和110C。准确性110可以是关于OCR引擎指示正确的预测单词108的准确程度的指示或预测。该计算可以基于由语言模型116使用的语言统计。在实施例中，准确性可以对应于预测短语或文本107的剩余预测单词108的语境中的每个预测单词108的语境准确性。

使用语言模型116，CRS 102可以为相应的预测单词108A、108B、108C中的每一个的生成、计算或确定准确性110A、110B、110C。语言模型116可以是程序或系统，包括已经被训练为识别句子中出现的错误的或不可能的单词的人工智能或机器学习系统。在实施例中，语言模型116可以被训练为理解跨一种或多种语言的语法规则、短语、口语俗语、语言统计和句子结构。在实施例中，语言模型116也可以包括其自己的词典和/或同义词库。

因此，语言模型116可以被配置成使用语境分析来分配、生成或计算关于句子或短语中的各种单词的属于该句子或短语的正确性或可能性的百分比或其他度量。在实施例中，语言模型116可以考虑相关的语境(例如，选择的单词之前和/或之后的短语)以识别选择的单词的概率、准确性或正确性。在实施例中，语言模型116可以将每个预测单词108与预测文本107的每个其他预测单词108比较，以确定哪些预测单词108是最可能或最不可能是准确的或不准确的，以及属于或不属于预测文本107。

在简单的示例中，如果预测文本107是“The dog klumped over the log”。语言模型可以为每个单词输出概率，并向单词“klumped”分配最低的准确性，因为它没有出现在字典中，和/或它对于其他单词似乎没有语境的意义。CRS102通过这里描述的处理为单词“klumped”识别和分析各种替换或候选，并输出指示“The dog jumped over the log”的最终文本106。

图像104的各种字母或符号可能难以视觉地识别。如上面的示例中提供的，“jumped”可能被预测为单词“klumped”。或者在另一个例子中，垂直线可以是数字“1”、小写字母“l”、大写字母“L”、大写字母“I”、小写字母“i”、管道符号“|”或数字“1”。在没有人为干预的情况下，仅使用OCR或视觉分析的系统可能不可能区分在特定预测短语或文本107中的特定预测单词108中哪个字母或符号最有意义。

因此，用于预测单词108的准确性度量110可用于基于语境化处理来识别具有可能的视觉歧义的那些单词或字符。在没有语境化处理的情况下，这些歧义可能会被忽略，或者可能要求人为干预来进行检查——这仍然可能导致歧义被忽视，因为人类检查者仍然易于犯错误。OCR引擎和/或CRS 102可以能够预测或计算每个预测单词108的歧义或可能的准确性的等级作为准确性度量110。

在实施例中，CRS 102可以将准确性110A-C与阈值112比较。阈值112可以是为了预测单词108A-C不被进一步评估(以识别可能的替换单词或字符)而需要满足的最小准确性或预测阈值。在实施例中，将准确性110与阈值112比较可以指示在识别图像104的文本中是否存在视觉歧义，或者相应的预测单词108是否被接受为是准确的或足够准确的。

例如，阈值112可以是80％。然后，例如，具有小于80％的相应的准确性110A-C的任何预测单词108A-C可进行如这里描述的附加的语境处理以确定候选单词114以替换潜在错误的预测单词108。附加的语境化处理的结果可以导致产生与预测单词108相同的单词(例如，由此有效地提高其准确性)和/或可以识别具有更大的置信度、预测、概率或准确性度量的替换单词。

在实施例中，如果没有识别出具有满足阈值112的属于概率的替换单词，那么可以使用原始预测单词108或者可以选择具有最高概率或准确性度量的替换单词替换具有低于阈值112的准确性的原始预测单词108。

在实施例中，CRS 102可以选择预测单词108A用于附加处理和可能的替换，因为准确性度量110A小于阈值112。CRS 102然后可以识别包括一个或多个可替代的字符、字母或符号(相对于选择的预测单词108A)的一组候选114A、114B和114C，作为在最终输出文本106中用于替换预测单词108A的可能的替代物。下面将更详细地讨论识别候选114的过程。

使用语言模型116，CRS 102可以为用于选择的预测单词108A的识别出的替换生成、计算或确定概率118A、118B、118C，这里指代为候选114A、114B、114C。如上面指示的，语言模型116可以是程序或系统，包括已经被训练为识别句子中出现的错误的或不可能的单词的人工智能或机器学习系统。用于使用语言统计来识别概率118的语言模型116可以是用于识别准确性110的相同语言模型116。

在实施例中，如这里所使用的，术语准确性110和概率118可用于指代关于属于预测文本107的短语的特定单词的正确性的可能性的相同单元或类型的测量，并且该术语可以互换使用。然而，为了清楚起见，概率118可以用于指代候选114的正确性的可能性，而准确性110可以用于指代最初预测的单词108(例如，从图像104使用识别的视觉方法(诸如OCR)来确定的)的正确性的可能性。可以在生成用于替换选择的预测单词108的一个或多个候选单词114之前确定或生成选择的预测单词108。

图2A示出根据示例实施例的从中提取文本的示例图像204。使用OCR引擎，CRS 102可以在图像204中识别五个不同的单词。使用视觉分析，OCR引擎可以清楚地读取或检测单词“This”“is”“some”和“text”的字符。

然而，由于图像质量、设计或视觉失真，OCR引擎可能难以检测单词“readable”的第一个字符。在实施例中，OCR引擎可能基于图像204的文本的视觉外观或特性将单词预测为“Aeadable”。

图2B示出根据示例实施例的OCR和语境化字符识别处理的示例。预测文本207可以包括通过图像204的视觉处理检测或识别的文本、符号和/或字符。如图所示，预测文本207包括预测单词208A-208E。预测文本207可以被提供给语言模型116，语言模型116可以使用语言和统计分析，为每个预测单词208生成或计算相应的准确性210A-210E。

在实施例中，用于预测文本207的阈值112可以是70％或0.70。如图所示，预测单词208D可以具有低于阈值112的准确性210D。因此，CRS 102可以识别候选单词214(如由语言模型116评分的)以替换选择的预测单词208D“Aeadable”。在其他实施例中，可以使用多个不同的阈值112来评估相同的预测文本207，导致预测单词208的不同组合被选择用于评估，并且生成或识别候选单词214的不同集合。

在实施例中，语言模型116可以是需要被训练的基于人工智能或机器学习的系统。一个这样的训练可以包括三类分类训练。例如，在训练语言模型116中，单词或短语的每个字符(除了空格之外)被标记为0。如果前面的单词是正确的，每个单词后面的空格可以标记为1，或者如果前面的单词是不正确的，可以标记为2。因此，语言模型116可以被训练为用于每个字符的三类分类问题。

在训练过程期间，可以选择句子中的一些单词并且可以通过以下方式在数据集中生成负单词(negative word)：随机替换字符、随机删除字符、随机重复字符和/或随机添加字符。语言模型116然后可以被训练以针对三个给定类(零、一、二)输出每个字符的概率。零可以指示输出是单词的字符，一指示前面的单词的结尾是正确的，以及二指示前面的单词的结尾是不正确的。在其他实施例中，可以使用其他语言模型116训练技术和操作。

下面将描述各种技术，该各种技术可以由CRS 102使用以生成或识别一个或多个候选单词114作为可能的替代物以替换具有低于阈值112的准确性210D的原始预测单词208D。CRS 102然后可以选择由语言模型116确定的具有属于预测文本207的最高可能性的候选214，该语言模型116被配置成为预测文本207的其它单词中的一个或多个的语境中的每一个单词评分。

在实施例中，可以为具有落于特定选择阈值112之下的准确性210D的每一个选择的预测单词208D检索附加信息。该附加信息可以包括边界框细节和/或其分段掩码，这些可以用于从图像204识别预测单词208D。

在实施例中，CRS 102可以提取预测单词208D的边界框信息和预测单词208D的每个字符的边界框信息二者。该字符边界框信息可以映射到分段掩码中。在实施例中，CRS102可以从表示字符的子分段掩码计算或确定所有像素值。CRS 102然后可以为选择的预测单词208D的每个字符重复该过程。

在实施例中，每个像素值可以表示一个字母，因此对于每个字符可以有一个或多个字符或字母。结果可能是对于预测单词208D的一个或多个字符，可能存在多个可能的字母。使用组合学，CRS 102然后可以生成各种可能的候选114。例如，其中第一个字符是数字1的预测单词“1og”，可能的候选114可以包括其中第一个字符是数字1的“1og”、其中第一个字符是小写L的“log”以及“tog”。

在实施例中，非最大抑制(NMS)可以被用于识别一个或多个候选114。CRS 102可使用NMS通过使用基于边界框之间的重叠的区域的各种边界框组合或压缩技术来从各种边界框的集合中选择单个边界框，以识别候选114。

例如，在OCR期间，可以通过各种边界框提议相同对象的多个实例。因此，NMS(或其它技术)可以用于过滤候选框提议的列表并获得最佳提议(基于所使用的技术来确定)。在实施例中，如果由单词框中心坐标预测的边界框低于某一阈值，应用的NMS算法可以丢弃该边界框并选择具有最高概率的边界框。剩余的靠近的边界框也可以基于重叠值(即交集并集比(IoU)值)被丢弃。

在实施例中，CRS 102可以使用多个不同的NMS重叠值，其中的每一个可以预测是唯一的或不同的单词。可以使用的示例NMS重叠阈值为[0.075,0.2,0.3,0.4,0.5]。CRS 102然后可以生成一组单词作为可能的候选单词，消除可能存在的任何重复。在另一实施例中，可以使用不同的NMS阈值来生成候选单词114。

图3A示出根据实施例的示例单词框324。在实施例中，单词框324可以对应于来自图像204的边界框或(在应用NMS之后)的结果边界框。单词框324可以包括构成来自图像204的预测单词“Aedable”的预测字符，该预测单词“Aedable”可以被用作候选214(可以对应于被类似地编号的候选114)。

图3B示出根据示例实施例的对应于识别出的单词边界或单词框324的字符框322的示例集合。如上面提到的，每个单词框324可以包括一组字符框322或字符边界框或者从一组字符框322或字符边界框组合。字符框322A-F示出被用于生成单词框324的示例字符。在实施例中，示出的字符框322A-F可以是将NMS应用到来自图像204的字符边界框所得到的框。

图3C示出根据示例实施例的具有像素视图的示例单词网格320。在实施例中，单词网格320可以使用像素分析来生成。在像素分析或像素级(pixel wise)预测中，CRS 102可以分析图像204或其部分的各种像素(尤其是边框像素)，并且基于像素分析，识别或预测该像素对应的最可能的字符。单词网格320的每个框可以对应于图像104的特定像素，如可以从字符边界框检测到的。

例如，OCR可以为预测单词208D的每个字符生成边界框(如图3B所示)。使用像素级预测，在每个字符的边框像素的子集上，CRS 102可以基于边框像素预测生成包括各种字符预测的字符网格321A-I。如图所示，字符网格321B-321I中的每一个可以包括相同预测字符的所有，而字符网格321A包括两个可能的字符。

字符网格321A预测字符“A”和“r”二者。在实施例中，CRS 102可以分析各种组合或可能的替代字符，以为每个网格321识别最可能的字符或多个字符，从而一次产生一个或多个候选单词。

在实施例中，CRS 102可以在像素级别为字符网格321中的每个字符获得独特的字符或字符组合的所有。例如，这可以产生输出：[[r，A]，[e]，[a]，[d]，[a]，[b]，[l]，[e]]。然后，可能的候选114可以是“readable”和“Aeadable”二者。

在实施例中，如网格321A中所示，“A”可以比“r”出现得更多，并且因此(图3B的)第一字符框322A的预测字符输出可以是“A”。或者，例如，字符网格分析可以为第一字符框322A产生两个可能的替代物，一个可以是“A”以及一个可以是“r”。例如，在执行逐列分析中，分部302A的第一列可以产生“r”作为是最主要的字符，而分部302A的其他三列可以产生“A”作为是最主要的字符。

使用分段方法，来自字符网格312的每一列的最频繁的字符可以被选择并被布置在一起。例如，最频繁的字符可以输出：[r，A，A，A，e，e，e，e，a，a，a，a，d，d，d，d，a，a，a，a，b，b，b，b，l，l，l，l，e，e，e，e]。然后，从这个中间输出中，可以移除连续的重复。结果输出将是候选114:rAeadable。在图2B中示出使用各种候选生成技术的可能的候选的子集，作为候选214A、214B和214C。

如上面参考的，在实施例中，CRS 102可以使用OCR系统生成预测文本207，并且可以向语言模型116提交或提供预测文本207。语言模型116然后可以生成或输出预测单词208A-E的至少一个子集的准确性210A-E。CRS 102可选择具有最低准确性210D(由语言模型116确定)或落于选择的阈值112之下的准确性的候选单词208D用于附加处理。

CRS 102然后可以使用各种不同的技术来生成新的候选单词214A-C以替换选择的预测单词208D。使用语言模型116，CRS 102可以为每个候选214A-C生成相应的概率218A-218C，并且确定选择哪个候选(如果有的话)来替换选择的预测单词208D。

在实施例中，CRS 102可以选择具有最高概率218C(可以或可以不超过阈值112)的候选214C。CRS 102然后可以用最高得分的候选214C替换选择的预测单词20D，以生成最终文本206。该最终文本206然后可以被嵌入图片，用于分类、制表或标记在用户设备的屏幕上显示的图像204，或用于执行搜索。

图4是示出根据一些实施例的用于提供语境化字符识别系统(CRS 102)的示例操作的流程图400。方法400可以通过处理逻辑来执行，该处理逻辑可以包括硬件(例如，电路、专用逻辑、可编程逻辑、微码等)、软件(例如，在处理设备上运行的指令)或其组合。应当理解，可以不需要所有步骤来执行这里提供的公开。另外，一些步骤可以同时执行，或者以与图4所示不同的顺序执行，如本领域普通技术人员将理解的。应参考图1、图2A和图2B描述方法400。

在410中，确定图像的多个预测单词。例如，CRS 102可以使用光学或视觉分析(诸如OCR)来生成图像204的预测文本207。

在420中，识别准确性度量或多个预测单词中的每一个。例如，使用语言模型116，CRS 102可以为预测文本207的每个预测单词208A-208E接收、计算或生成准确性210A-210E。如上面提到的，准确性210可以是每个预测单词108的作为正确的或属于预测文本107中的正确性度量或概率(例如，基于语言模型116的语境规则)。

在430中，基于可替换单词的准确性度量低于阈值从多个单词中识别该可替换单词。例如，CRS 102可以确定预测单词208D的准确性210D落于选择的阈值112之下，并且因此可以被识别为可替换单词。在实施例中，可以针对预测单词208的准确性210使用和测试多个变化的阈值，以确定不同的可替换单词。

在440中，识别与可替换单词相关联的多个候选单词。例如，使用各种候选生成技术，CRS 102可以生成三个候选单词214A-C以可能地替换可替换预测单词208D。

在450中，基于相对于预测单词中的一个或多个的每个候选单词的语境分析来计算候选单词中的每一个的概率。例如，使用语言模型116，CRS 102可以接收对应于候选单词214A-C的识别的概率218A-C。在实施例中，准确性210和概率218可以基于语境分析计算，在语境分析中，包括出现在多个预测单词中的选择的一个(例如，可替换单词)之前的一个或多个预测单词108的短语与出现在多个预测单词108中的选择的一个之后的一个或多个预测单词的短语进行比较。或者，例如，可替换单词或候选单词可以只与来自预测文本107的前面或后面的短语进行比较(例如，如果选择的单词出现在预测文本107的结尾或开头)。

在460中，选择候选单词中的具有最高概率的一个。例如，可以选择具有最高概率218C(即大于原始预测单词208D的准确性210D)的候选214C。在实施例中，可以仅当概率218C超过阈值112时，选择候选214C。

例如，如果概率218C不超过阈值112，则在实施例中，可以向原始预测提供尊重(deference)，并且即使候选214C具有超过准确性210D的概率218C，可以使用预测单词208D。在另一个实施例中，具有最高概率218A-C的候选，即使小于阈值112也可以被选择。

在实施例中，CRS 102可以使用两个或更多个阈值度量112。例如，第一阈值112可用于确定是否应替换预测单词108(用候选单词114)。以及第二阈值112可用于确定选择的候选114是否具有足够高的概率118(以用作候选114或用于替换预测单词108)。在实施例中，CRS 102可以使用不同的阈值112。

在470中，输出包括替换可替换单词的具有最高概率的选择的候选单词的预测单词。例如，CRS 102可以生成并输出最终文本207。

例如，可以使用一个或多个众所周知的计算机系统(诸如图5中示出的计算机系统500)来实施各种实施例。例如，可以使用一个或多个计算机系统500来实施这里讨论的实施例中的任何一个，以及它们的组合和子组合。

计算机系统500可以包括一个或多个处理器(也称为中央处理单元，或CPU)，诸如处理器504。处理器504可以连接到通信基础设施或总线506。

计算机系统500还可以包括(多个)客户输入/输出设备503，诸如监视器、键盘、指向设备等，其可以通过(多个)客户输入/输出接口502与通信基础设施506通信。

处理器504中的一个或多个可以是图形处理单元(GPU)。在实施例中，GPU可以是处理器，该处理器是被设计以处理数学密集应用的专用电子电路。GPU可以具有并行结构，该并行结构对于大块数据(诸如对计算机图形应用、图像、视频等常见的数学密集数据)的并行处理是高效的。

计算机系统500还可以包括主存储器或主要存储器508，诸如随机存取存储器(RAM)。主存储器508可以包括一个或多个级别的高速缓存。主存储器508可以已经在其中存储控制逻辑(即，计算机软件)和/或数据。

计算机系统500还可以包括一个或多个辅助存储设备或存储器510。辅助存储器510可包括，例如，硬盘驱动器512和/或可移除存储设备或驱动器514。可移除存储驱动器514可以是软盘驱动器、磁带驱动器、光盘驱动器、光存储设备、带备份设备和/或任何其他存储设备/驱动器。

可移除存储驱动器514可以与可移除存储单元518交互。可移除存储单元518可以包括已经在其上存储了计算机软件(控制逻辑)和/或数据的计算机可用或可读存储设备。可移除存储单元518可以是软盘、磁带、光盘、DVD、光存储盘和/任何其他计算机数据存储设备。可移除存储驱动器514可以从可移除存储单元518读取和/或向可移除存储单元518写入。

辅助存储器510可以包括允许由计算机系统500访问计算机程序和/或其他指令和/或数据的其他装置、设备、组件、工具或其他方法。这样的装置、设备、组件、工具或其它方法可以包括，例如，可移除存储单元522和接口520。可移除存储单元522和接口520的示例可以包括程序暗盒和暗盒接口(诸如在视频游戏设备中找到的)、可移除存储器芯片(诸如EPROM或PROM)和相关联的插座、存储棒和USB端口、存储卡和相关联的存储卡插槽和/或任何其他可移除存储单元和相关联的接口。

计算机系统500还可以包括通信或网络接口524。通信接口524可以使得计算机系统500能够与外部设备、外部网络、外部实体等的任何组合(由参考号528单独或共同引用)进行通信和交互。例如，通信接口524可允许计算机系统500通过通信路径526与外部或远程设备528通信，该通信路径526可以是有线的和/或无线的(或其组合)，并且可以包括LAN、WAN、因特网等的任何组合。控制逻辑和/或数据可经由通信路径526传输到计算机系统500或从计算机系统500传输。

计算机系统500还可以是，举几个非限制性示例，个人数字助理(PDA)、桌上型工作站、膝上型或笔记本电脑、上网本、平板、智能电话、智能手表或其他可穿戴设备、电器、物联网的一部分和/或嵌入式系统中的任何一种或其任何组合。

计算机系统500可以是客户端或服务器，其通过任何交付范式访问或托管任何应用和/或数据，交付范式包括但不限于远程或分布式云计算解决方案；本地或内部软件(基于云的“内部”解决方案)；“即服务”模型(例如，内容即服务(CaaS)，数字内容即服务(DCaaS)、软件即服务(SaaS)、管理软件即服务(MSaaS)、平台即服务(PaaS)、桌面即服务(DaaS)、框架即服务(FaaS)、后端即服务(BaaS)、移动后端即服务(MBaaS)、基础设施即服务(IaaS)等)；和/或混合模型，包括前述示例或其他服务或交付范例的任何组合。

计算机系统500中的任何适用的数据结构、文件格式和图式可以从标准得到，标准包括但不限于JavaScript对象标记(JSON)、可扩展标记语言(XML)、又一种标记语言(YAML)、可扩展超文本标记语言(XHTML)、无线标记语言(WML)、MessagePack、XML用户界面语言(XUL)或以单独或组合形式的任何其他功能相似的表示。可替代地，专有的数据结构、格式或图式可以单独使用，或者与已知的或开放的标准结合使用。

在一些实施例中，包括具有存储在其上的控制逻辑(软件)的有形的、非瞬时性的计算机可用或可读介质的有形的、非瞬时性的装置或制品在这里也可以被指代为计算机程序产品或程序存储设备。这包括但不限于计算机系统500、主存储器508、辅助存储器510和可移除存储单元518和522，以及具体实现前述内容的任何组合的有形的制品。当由一个或多个数据处理设备(诸如计算机系统500)运行这种控制逻辑时，可以导致这样的数据处理设备如这里所描述的工作。

基于本公开中包含的教导，对于相关(多个)领域的技术人员来说，如何使用图5中所示的以外的数据处理设备、计算机系统和/或计算机架构来制作和使用本公开的实施例将是明显的。具体地，实施例可以使用这里描述的软件、硬件和/或操作系统实施方式以外的软件、硬件和/或操作系统实施方式来操作。

应当理解，详细描述部分并且不是任何其他部分意图于用于解释权利要求。如(多个)发明人所设想的，其它部分可以阐述一个或多个但不是所有示例性实施例，并且因此，不意图于以任何方式限制这个公开或所附权利要求。

尽管本公开描述了用于示例性领域和应用的示例性实施例，但是应当理解，本公开不限于此。其他实施例及其修改是可能的，并且在本公开的范围和精神内。例如，在不限制本段的一般性的情况下，实施例不限于图中所示和/或在此描述的软件、硬件、固件和/或实体。此外，实施例(无论这里是否明确描述)对于这里所描述的示例之外的领域和应用具有重要的实用性。

这里已经借助说明指定功能的实施方式及其关系的功能构建块描述了实施例。为了便于描述，在这里已经任意地定义了这些功能构建块的边界。只要适当地执行指定功能和关系(或其等同物)，就可以定义替代边界。另外，替代实施例可以使用与这里描述的那些顺序不同的顺序来执行功能块、步骤、操作、方法等。

这里对“一个实施例”、“实施例”、“示例实施例”或类似短语的引用指示所描述的实施例可以包括特定特征、结构或特性，但是每个实施例可以不必须包括特定特征、结构或特性。此外，这样的短语不必须指代同一实施例。另外，当结合实施例描述特定特征、结构或特性时，将这样的特征、结构或特性并入其他实施例(无论本文是否明确提及或描述)中将会在相关(多个)领域的技术人员所知范围内。此外，可以使用表达式“耦合”和“连接”及其衍生词来描述一些实施例。这些术语不必须是彼此的同义词。例如，可以使用术语“连接”和/或“耦合”来描述一些实施例，以指示两个或更多个元件彼此直接物理或电接触。然而，术语“耦合”也可以意味着两个或更多个元素彼此不直接接触，但仍然彼此合作或相互作用。

本公开的广度和范围不应受到上述示例性实施例中的任何一个的限制，而应仅根据所附权利要求及其等同物来定义。

Claims

1.一种用于语境化字符识别的方法，包括：

确定图像的多个预测单词，其中所述多个预测单词是基于图像的光学分析生成的；

基于语言模型为所述多个预测单词中的每一个识别准确性度量，其中，所述语言模型已经被训练为识别错误或不可能的单词，并且被配置为生成所述准确性度量；

从所述多个预测单词中识别可替换单词，识别所述可替换单词是基于所述可替换单词的准确性度量低于阈值；

识别所述可替换单词的多个字符，其中所述多个字符中的每个字符包括多个像素，所述多个像素包括边框像素和非边框像素两者；

选择所述可替换单词的所述多个字符中的第一字符；

对所述可替换单词的选择的第一字符的多个像素的子集执行像素分析，其中，所述像素分析产生关于所述子集的多个像素中的每个像素表示哪个字符的预测，并且其中，所述像素分析为所述子集的多个像素预测至少两个不同的字符；

基于通过所述像素分析预测的至少两个不同的字符来识别与所述可替换单词相关联的多个候选单词；

基于相对于所述多个预测单词中的一个或多个的每个候选单词的语境分析，为所述多个候选单词中的每一个计算概率；

选择所述多个候选单词中的具有最高概率的一个，其中选择的候选单词的概率超过所述准确性度量和所述阈值；以及

输出包括替换所述可替换单词的具有最高概率的选择的候选单词的多个预测单词。

2.根据权利要求1所述的方法，还包括：

接收所述图像；

识别所述图像中的多个字符；以及

将所述多个字符组合成所述多个预测单词。

3.根据权利要求1所述的方法，其中基于所述语境分析计算所述准确性度量，在所述语境分析中，出现在所述多个预测单词中的选择的一个之前的一个或多个预测单词的短语与出现在所述多个预测单词中的选择的一个之后的一个或多个预测单词的短语进行比较。

4.根据权利要求1所述的方法，其中，识别多个候选单词包括：

确定所述可替换单词包括多个字符；

为所述多个字符中的至少一个识别替代字符；以及

将包括所述替代字符的可替换单词识别为是所述多个候选单词中的一个。

5.根据权利要求4所述的方法，其中，识别替代字符基于所述多个字符中的至少一个的光学分析。

6.根据权利要求1所述的方法，其中，识别多个候选单词包括：

使用具有多个阈值的非最大抑制来生成所述多个候选单词中的一个。

7.根据权利要求1所述的方法，其中，识别多个候选单词包括：

跨用于所述可替换单词中的至少一个字符的多个像素，针对每一个像素识别字符预测，其中所述可替换单词包括多个字符；

确定跨所述多个像素存在至少两个不同的预测，包括第一预测和第二预测；以及

识别所述多个候选单词中的包括第一预测和所述多个字符的第一候选单词。

8.根据权利要求7所述的方法，还包括：

识别所述多个候选单词中的包括第二预测和所述多个字符的第二候选单词。

9.根据权利要求1所述的方法，其中，执行像素分析包括：

从字符网格的每列中选择最主要的字符，所述字符网格包括对所述多个像素的所述子集的子集的预测，以识别所述至少两个不同的字符。

10.一种用于语境化字符识别的系统，包括：

存储器；以及

至少一个处理器，耦合到所述存储器并被配置为执行操作，所述操作包括：

确定图像的多个预测单词，其中所述多个预测单词是基于所述图像的光学分析生成的；

选择所述可替换单词的所述多个字符中的第一字符；

11.根据权利要求10所述的系统，其中所述操作还包括：

接收所述图像；

识别所述图像中的多个字符；以及

将所述多个字符组合成所述多个预测单词。

12.根据权利要求10所述的系统，其中基于所述语境分析计算所述准确性度量，在所述语境分析中，出现在所述多个预测单词中的选择的一个之前的一个或多个预测单词的短语与出现在所述多个预测单词中的选择的一个之后的一个或多个预测单词的短语进行比较。

13.根据权利要求10所述的系统，其中，识别多个候选单词包括：

确定所述可替换单词包括多个字符；

为所述多个字符中的至少一个识别替代字符；以及

14.根据权利要求13所述的系统，其中，识别替代字符基于所述多个字符中的至少一个的光学分析。

15.根据权利要求10所述的系统，其中，识别多个候选单词包括：

16.根据权利要求10所述的系统，其中，识别多个候选单词包括：

17.根据权利要求16所述的系统，所述操作还包括：

18.一种非瞬时性计算机可读设备，具有存储在其上的指令，所述指令当由至少一个计算设备运行时，使得所述至少一个计算设备执行操作，所述操作包括：

选择所述可替换单词的所述多个字符中的第一字符；

19.根据权利要求18所述的非瞬时性计算机可读设备，所述操作还包括：

接收所述图像；

识别所述图像中的多个字符；以及

将所述多个字符组合成所述多个预测单词。

20.根据权利要求18所述的非瞬时性计算机可读设备，其中基于所述语境分析计算所述准确性度量，在所述语境分析中，所述多个预测单词的中的每一个与所述多个预测单词中的一个或多个其它预测单词进行比较。