CN116324910A

CN116324910A - 用于执行设备上图像到文本转换的方法和系统

Info

Publication number: CN116324910A
Application number: CN202280006951.2A
Authority: CN
Inventors: 苏库马尔·莫哈拉纳; 戈皮·拉梅纳; 拉奇特·S·蒙贾尔; 马诺伊·戈亚尔; 鲁提卡·莫哈里尔; 尼基尔·阿罗拉; 阿伦·D·普拉布; 沙博哈姆·瓦特萨尔
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-02-10
Filing date: 2022-02-10
Publication date: 2023-06-23
Also published as: WO2022173239A1; EP4182895A4; US20220343663A1; EP4182895A1

Abstract

提供了一种用于执行设备上图像到文本转换的方法和系统。本文的实施例涉及执行图像到文本转换的领域，且更具体地涉及以改进的精确度执行设备上图像到文本转换。提供了一种执行设备上图像到文本转换的方法。该方法包括从图像中进行语言检测、理解编辑的图像中的文本、以及使用上下文和本地化的词汇集进行后光学字符识别(OCR)校正。

Description

用于执行设备上图像到文本转换的方法和系统

技术领域

本公开涉及执行图像到文本转换的领域。更具体地，本公开涉及以改进的精确度执行设备上图像到文本的转换。

背景技术

光学字符识别(OCR)是图像到必须被用于诸如编辑或搜索的数据处理的机器可读形式/文本的电子或机械转换。图像可以包括打字文本、手写文本或打印文本中的至少一个。然而，现有的OCR解决方案无法理解用户编辑的文本，例如高亮文本、加删除线、插入等。因此，导致像视觉问题回答(VQA)那样的下游任务中的错误。此外，现有的OCR解决方案可能在转换图像的复杂文本时产生错误，即使该文本存在于图像的其它清晰区域中的其它地方。此外，在许多自然语言处理(NLP)和视觉任务中，选择来自图像语言是一个短板，因为即使图像采用不同的语言，也可能将默认语言认作设备区域表示。

一些现有的OCR解决方案可以包括用于执行图像到文本转换的机器学习(ML)工具包。然而，ML工具包支持拉丁语/字母系统作为默认，并且不支持其他字母系统。

一些现有的OCR解决方案是基于云的OCR解决方案。基于云的OCR解决方案可以在OCR之前执行字母系统检测方法以检测每个字/行的字母系统，或者在OCR之后并行地执行所有字母系统的语言模型。因此，基于云的OCR解决方案既不能扩展到设备(由于巨大的存储器使用和功耗)，也不能尊重用户隐私(因为图像必须上传到服务器)。此外，基于字母系统的OCR具有比基于语言的OCR更低的精确度。

图1A、图1B和图1C描述了与根据现有技术的现有OCR解决方案相关联的缺点。

参照图1A，要转换成文本的图像包括不同语言的屏幕截图。在这种情况下，由于现有的OCR解决方案将设备区域表示视为默认语言，因此转换后的文本可能包括错误。

参照图1B，要转换成文本的图像包括复杂字体的文本以及清楚和简单字体的文本。在这种情况下，转换后的文本可能包括关于复杂字体的文本的错误。然而，现有的OCR解决方案不使用清楚和简单字体的文本来校正复杂字体文本中的错误，因为现有的OCR解决方案考虑词汇或全局知识来校正从图像中提取的文本。

参照图1C，图像包括用户编辑的部分。然而，现有的OCR解决方案在将图像转换为文本时可能忽略这样的用户编辑部分，因为现有的OCR解决方案无法理解用户编辑的文档图像。

因此，现有的OCR解决方案不涉及任何通过理解用户编辑的部分、从图像中的文本确定语言等来执行图像到文本转换的快速设备上方法。

上述信息仅作为背景信息来呈现，以帮助理解本公开。关于上述中的任何一个是否可以作为关于本公开的现有技术适用，没有作出任何确定，并且没有作出断言。

发明内容

技术问题

本公开的方面是解决至少上述问题和/或缺点，并提供至少下述优点。因此，本公开的一个方面是提供用于执行设备上图像到文本转换的方法和系统。

本公开的另一方面是提供用于从表示要被转换成文本的内容的至少一个图像中识别至少一个块并且识别与要被转换成文本的内容相关的至少一个标记的方法和系统。

本公开的另一方面是提供用于基于所识别的至少一个标记对所述至少一个图像的所述至少一个块执行光学字符识别(OCR)以创建第一组转换后文本并通过使用第一神经网络将所识别的至少一个标记与所述第一组转换后文本相关联来生成文本转换输出的方法和系统。

实施例公开的另一方面是提供用于确定存在于至少一个图像中的至少一个文本的语言并基于所确定的存在于至少一个图像中的至少一个文本和至少一个其他文本的语言以及用户输入，将存在于至少一个图像中的至少一个文本翻译成另一种语言来生成文本转换后的输出的方法和系统。

另外的方面将部分地在随后的描述中阐述，并且部分地将从描述中显而易见，或者可以通过所呈现的实施例的实践来获知。

技术方案

根据本公开的一个方面，提供了用于将图像转换为文本的方法和系统。该方法包括从表示要被转换成文本的内容的至少一个图像中识别至少一个块。该方法包括识别与要被转换成文本的内容相关的至少一个标记，其中该至少一个标记指示至少一个手写文本、至少一个词汇和相关联的方向属性、至少一个非文本注释和至少一个用户编辑的文本片段中的至少一个。该方法包括：基于所识别的至少一个标记对所述至少一个图像的所述至少一个块执行光学字符识别(OCR)，以创建第一组转换后文本。该方法包括通过使用第一神经网络将识别出的至少一个标记与第一组转换后文本相关联来生成文本转换后的输出。

根据本公开的另一方面，提供了一种用于将图像转换为文本的电子设备。该电子设备包括存储器和联接到存储器的控制器。控制器被配置成从表示要被转换成文本的内容的至少一个图像中识别至少一个块。控制器被配置为识别与要被转换成文本的内容相关的至少一个标记，其中至少一个标记指示至少一个手写文本、至少一个词汇和相关联的方向属性、至少一个非文本注释、以及至少一个用户编辑的文本片段中的至少一个。控制器被配置为基于所识别的至少一个标记对至少一个图像的至少一个块执行光学字符识别(OCR)以创建第一组转换后文本。控制器被配置为通过使用第一神经网络将识别出的至少一个标记与第一组转换后文本相关联来生成文本转换后的输出。

根据本公开的另一方面，提供了一种设备上图像到文本转换方法。该方法包括：由电子设备识别表示要被转换成文本的内容的一个或多个图像块；由电子设备识别指示手写文本、词汇和相关方向属性的与要被转换成文本的内容相关的标记；由电子设备对一个或多个图像块执行光学字符识别以创建第一组转换后文本；以及由电子设备应用预先学习的人工智能AI模型将识别的手写文本、词汇和相关联的方向属性与第一组转换后文本相关联，以创建最终的图像到文本转换后的输出。

根据本公开的另一方面，提供了一种设备上文本识别方法。该方法包括：由电子设备200接收包含一个或多个文本块的图像作为输入，由电子设备识别一个或多个文本块中的一个或多个用户编辑的文本片段，由电子设备提取一个或多个文本块、来自图像的一个或多个用户编辑的文本片段、以及每个用户编辑的文本片段的相对位置，以及由电子设备通过在相对位置插入所识别的一个或多个用户编辑的文本片段来修改所提取的一个或多个文本块。

通过下面结合附图的详细描述，本公开的其它方面，优点和显著特征对于本领域技术人员将变得显而易见，所述详细描述公开了本公开的各种实施例。

附图说明

从以下结合附图的描述中，本公开的某些实施例的上述和其它方面，特征和优点将变得更加明显，其中：

图1A、图1B和图1C描述了与根据现有技术的现有光学字符识别(OCR)解决方案相关的缺点；

图2示出了根据本公开的实施例的用于执行图像到文本转换的电子设备；

图3示出了根据本公开的实施例的在用于将图像转换为文本的电子设备中可执行的图像到文本转换器；

图4是描述根据本公开的实施例的用于将图像转换为文本的方法的示例流程图；

图5是描述根据本公开的实施例的检测图像中的文本的位置的示例图；

图6是描述根据本公开的实施例的执行文本定位以识别图像中的一个或多个标记的示例图；

图7是描述根据本公开的实施例的识别图像中手写文本和打印文本的示例图；

图8是示出根据本公开的实施例的用于对第一组转换后文本执行后OCR校正的方法的示例流程图；

图9是描述根据本公开的实施例对第一组转换后文本执行的后OCR校正的示例图；

图10、图11、图12和图13是描述根据本公开的各种实施例对第一组转换后文本执行OCR后校正的使用场景的示例图；

图14是示出根据本公开的实施例的将包括手写注释的图像转换为文本的场景的示例图；

图15是示出根据本公开的实施例的将包括手写注释和非文本注释的图像转换为文本的场景的示例图；

图16是描述根据本公开的实施例的将包括用户编辑的片段的图像转换为文本的示例图；

图17是描述根据本公开的实施例的基于非文本注释将图像转换为文本的示例图；

图18A、图18B和图18C描述了根据本公开的各种实施例的非文本注释属性表；

图19是描述根据本公开的实施例的注释类型搜索的执行的示例图；

图20是描述根据本公开的实施例的非文本注释和相关联类别的识别的示例图；

图21是描述根据本公开的实施例的智能笔记应用中的便携式文档格式(PDF)编辑的示例图；

图22是描述根据本公开的实施例的通过确定加下划线/高亮的文本来进行图像到文本的转换的示例图；

图23和图24是描述根据本公开的各种实施例的图像中存在的文本语言的检测的示例图；

图25示出了根据本公开的实施例的与图像中的文本的单词相关联的辨别特征的细节；

图26是描述根据本公开的实施例的检测变音符并相应地对图像中存在的文本语言进行分类的示例图；

图27是描述根据本公开的实施例的文本从一种语言到另一种语言的转换的示例图；

图28是描述根据本公开的实施例的图像到文本转换的示例图；

图29、图30、图31、图32、图33、图34、图35、图36、图37和图38是描述根据本公开的各种实施例的具有改进的精度的设备上图像到文本转换的示例图；

图39是描述根据本公开的实施例的将注释的图像转换为校正文本的场景的示例图；

图40是描述根据本公开的实施例的在基于自然语言处理(NLP)的应用中实现图像到文本转换的示例图；

图41是描述根据本公开的实施例的基于对图像中存在的文本语言的检测的编辑应用的示例图；

图42是描述根据本公开的实施例的识别编辑的表单并从编辑的表单再生原始表单的示例图；

图43是描述根据本公开的实施例的从图像中提取文本的示例图；

图44是描述根据本公开的实施例的在执行图像到文本转换时掩蔽隐私特征的示例图；

图45是描述根据本公开的实施例的可以使用图像到文本转换的应用的示例图；以及

图46是描述根据本公开实施例的用于将图像转换为文本的方法的流程图。

在所有附图中，相同的附图标记用于表示相同的元件。

具体实施方式

提供以下参考附图的描述来帮助全面理解如由权利要求书及其等同物所定义的本公开的各种实施例。它包括各种具体细节以帮助理解，但是这些仅被认为是示例性的。因此，本领域的普通技术人员将认识到，在不脱离本公开的范围和精神的情况下，可以对这里描述的各种实施例进行各种改变和修改。此外，为了清楚和简洁起见，可以省略对众所周知的功能和结构的描述。

在以下描述和权利要求中使用的术语和词不限于书目含义，而是仅由发明人使用以使得能够清楚和一致地理解本公开。因此，本领域的技术人员应当清楚，提供本公开的各种实施例的以下描述仅仅是为了说明的目的，而不是为了限制由所附权利要求及其等同物限定的公开。

应当理解，除非上下文另有明确规定，单数形式“一个”、“一种”和“该”包括复数指示物。因此，例如，提及“部件表面”包括提及一个或多个这样的表面。

本文中的实施例公开了用于执行设备上图像到文本转换的方法和系统，包括从图像中的语言检测，理解编辑图像中的文本以及使用上下文和本地化词汇集来进行后光学字符识别OCR校正。

现在参考附图，更具体地参考图2至图46，示出了示例性实施例(其中所有附图中相似的附图标记始终表示相应特征)。

图2描述了根据本公开实施例的用于执行图像到文本转换的电子设备。

这里所指的电子设备200可以是能够支持媒体的任何用户设备。电子设备200的示例可以是但不限于智能电话、移动电话、视频电话、计算机、平板个人计算机(PC)、膝上型计算机、可佩戴设备、个人数字助理(PDA)、IoT设备、服务器(独立服务器或云上的服务器)、或支持媒体的任何其它设备。媒体的示例可以是但不限于图像、文本等。

电子设备200可以被配置为执行图像到文本的转换，以将图像转换为文本。在一个实施例中，电子设备200通过使用如下方法来将图像转换为文本，包括从图像中进行语言检测、理解编辑图像中的文本、以及使用上下文和本地化词汇集来进行后光学字符识别(OCR)校正。

电子设备200包括控制器/处理器202、显示器204、通信接口206和存储器208。

控制器202可以包括一个或多个处理器。所述一个或多个处理器可以是通用处理器(例如中央处理单元(CPU)、应用处理器(AP)等)，图形处理单元(例如图形处理单元(GPU)、可视处理单元(VPU))，和/或人工智能AI专用处理器(例如神经处理单元NPU)。

控制器202可以被配置为将图像转换为文本。这里所指的图像可以包括但不限于以下图像中的至少一个：相机拍摄的图像、屏幕截图、计算机生成的图像、跨社交网络站点共享的图像、便携式文档格式(PDF)、网站帖子、文档、注释等。在一个示例中，图像可以被存储在存储器208中。在另一示例中，控制器202可以通过通信网络从至少一个外部设备接收用于转换的图像。至少一个外部设备的示例可以是但不限于服务器、数据库、另一电子设备等。通信网络的示例可以是但不限于有线网络、增值网络、无线网络、卫星网络或其组合。

控制器202可以向用户提供各种应用，通过这些应用，用户可以选择用于图像到文本转换的图像。应用的示例可以是但不限于照片编辑应用、笔记应用、标签板应用、图库应用、视觉翻译应用、搜索应用等。

在一个实施例中，控制器202使用第一神经网络302将图像转换为文本。

为了将图像转换为文本，控制器202从表示要被转换为文本的内容的图像中识别一个或多个块。

参照图4和图5，文本单词基于它们的相对位置被排列成块。

控制器202识别与要被转换成文本的内容相关的一个或多个标记。标记的示例可以是但不限于至少一个手写文本/手写注释、至少一个词汇、至少一个非文本注释、至少一个用户编辑的文本片段等。手写文本可以包括由用户手动在图像上书写的文本。词汇可以包括关于存在于图像文本中的单独单词或单词串的诸如语义、语法等信息。非文本注释可以包括但不限于形状、高亮、标记、下划线等中的至少一个。用户编辑的文本片段可以包括编辑的符号，例如但不限于插入、删除、下划线等。

为了识别手写文本和打印文本，控制器202分析参数(例如但不限于编辑的符号(如图18所示)、文本/字符映射、连接/关联映射、注释/手写映射、字母系统映射等)。本文的实施例可互换地使用术语“映射”和“分数”。基于所分析的参数，控制器202在必须被转换成文本的图像的一个或多个块的内容中识别手写文本和打印文本。编辑的符号包括但不限于插入标记、删除线、高亮、下划线、引用等中的至少一个。文本/字符映射表示文本像素或非文本的概率。连接/关联映射指示像素与要被转换成文本的内容中存在的单词的字符有联系的概率。注释/手写映射指示文本像素是否被手写的概率。字母系统映射指示文本像素是否与特定语言(例如，拉丁语)相关联的概率。

为了识别非文本注释，控制器202训练第二神经网络304以将图像划分成前景非文本注释映射/分数(如图6所示)和背景图像。控制器202对阈值化的前景非文本注释映射应用连通区域分析，以识别非文本注释和包括要被转换成文本的内容的一个或多个块中的相关位置。在这里的实施例中，连通区域分析可以包括使用计算机视觉来从来自神经网络的逐像素输出来确定连接的区域。这有助于形成映射/分数(如图6所示)，该映射/分数转换为图像中的文本框(如图5所示)。控制器202还确定所识别的非文本注释的类别。为了确定所识别的非文本注释的类别，控制器202从一个或多个块中裁剪所识别的非文本注释。控制器202使用第三神经网络306来处理裁剪的非文本注释，以确定所识别的非文本注释的类别。

控制器202分析编辑的符号以识别包括要被转换成文本的内容的一个或多个块中的用户编辑的片段。

当一个或多个标记被识别时，控制器202就基于所识别的一个或多个标记对图像的一个或多个块执行OCR，以创建第一组转换后文本。第一组转换后文本包括相对于识别的一个或多个标记排列图像中存在的文本的行、词、段落等中的至少一个。

为了创建第一组转换后文本，控制器202分析包括要转换成文本的内容的图像的一个或多个块中的打印文本。控制器202通过相对于图像中的打印文本排列识别的一个或多个标记来创建第一组转换后文本。此外，在创建第一组转换后文本之后，控制器202基于图像的视觉特性、从图像中提取的上下文和本地化词汇、图像中存在的对象的注释、图像中存在的对象(即，物理对象，例如时钟、机器等)、属于存在于图像的一个或多个块中的其他字母系统的翻译文本、识别的标记的置信度值等来执行对第一组转换后文本的校正(也可以称为后OCR校正)。在示例中，对象(时钟)用作从图像中的视觉特性识别的上下文(如图13中的示例中所示)。控制器202可以从图像的视觉特性和元数据中提取上下文词汇。图像的元数据可以包括拍摄图像的位置、拍摄图像的日期/时间、与图像一起存储的话题标签(如果有的话)、用于拍摄图像的设置等中的至少一个。控制器202可以从清楚文本区域和与图像的其它部分相比具有高置信度值的图像的部分/区域中提取本地化词汇。

在创建和校正第一组转换后文本之后，控制器202通过将识别出的一个或多个标记与第一组转换后文本相关联来生成文本转换后的输出。文本转换输出可以是从图像转换的文本。控制器202使用第一神经网络302将识别的一个或多个标记与第一组转换后文本相关联。

如果识别出的一个或多个标记包括手写文本，则控制器202检测手写文本相对于要转换成文本的一个或多个块的内容中的打印文本的位置和接近度。为了检测手写文本相对于打印文本的位置，控制器202将图像的一个或多个块的像素划分成文本和非文本。控制器202通过对划分的像素应用连通区域分析来检测手写文本的位置。在这里的实施例中，连通区域分析可以包括使用计算机视觉来从来自神经网络的逐像素输出来确定连接的区域。这有助于形成映射/分数(如图6所示)，该映射/分数转换为图像中的文本框(如图5所示)。控制器202基于手写文本相对于相应打印文本的位置和接近程度准备目标动作。在本文的示例中，目标动作是排列/关联手写文本与打印文本。控制器202通过基于手写文本相对于打印文本的位置和接近度从图像中的一个或多个块的内容中裁剪与手写文本相对应的单词来准备目标动作。在准备目标动作之后，控制器202将目标动作应用到第一组识别或识别的文本上，以使用第一神经网络302生成转换后的文本(即，目标对象)，从而生成文本转换后的输出。文本转换后的输出包括打印文本和手写文本。

如果所识别的一个或多个标记包括非文本注释，则控制器202使用注释属性表来确定所识别的非文本注释的非文本注释属性。注释属性表包括用于每个非文本注释的非文本注释属性。非文本注释属性指示多个非文本注释中的每一个与注释关联和至少一个注释动作的映射。例如，如果非文本注释包括插入标记，则相关联的非文本注释属性指示在文本中插入某物。对于另一个示例，如果非文本注释包括删除标记，则相关联的非文本注释属性指示删除文本中的标点符号、字母、单词等。在确定所识别的非文本注释的非文本注释属性之后，控制器202准备注释动作/目标动作。在本文的示例中，注释动作指非文本注释与必须被转换成文本的图像的一个或多个块的内容中存在的打印文本或手写文本的关联。控制器202基于所识别的非文本注释和相关联的非文本注释属性、非文本注释相对于打印文本或手写文本的位置、非文本注释的类别等中的至少一个来准备注释动作，但不限于此。在准备注释动作之后，控制器202使用第一神经网络302对第一组转换后文本应用注释动作，以生成文本转换后的输出。或者，控制器202向用户提供注释动作，并从用户接收用户输入以应用注释动作。在从用户接收到用于应用注释动作的用户输入之后，控制器202使用第一神经网络302对第一组转换后文本应用注释动作，以生成文本转换后的输出。控制器202还相对于相应的非文本注释编索引文本转换后的输出。控制器202基于用于搜索的相关联的非文本注释将文本转换后的输出呈现给用户。

如果所识别的一个或多个标记包括用户编辑的片段，则控制器202确定用户编辑的片段在必须被转换成文本的图像的一个或多个块的内容中的相对位置。控制器202基于所确定的用户编辑的片段的相对位置来创建编辑动作/目标动作。在这里的示例中，编辑动作指示基于用户编辑的片段修改图像的一个或多个块的内容中的打印文本或手写文本。控制器202使用第一神经网络302对第一组转换后文本应用编辑动作，以生成文本转换后的输出。

控制器202还可以被配置为通过将图像中的文本从一种语言翻译成另一种语言(即，基于语言翻译/语言转换)来生成文本转换后的输出。为了基于语言翻译生成文本转换后的输出，控制器202自动地确定图像中的文本的语言，而不需要用户输入，其中文本可以包括打印文本和/或手写文本。为了检测图像中文本的语言，控制器202检测图像中存在的文本的单词的字母系统。控制器202检测与文本的每个单词相关联的辨别特征的存在。该辨别特征包括但不限于以下的至少一个：变音符、变音符号、特殊字符、连写等。控制器202基于检测到的辨别特征和文本单词的自然语言处理NLP来确定文本的每个单词的语言。一旦确定了文本的语言，控制器202就基于所确定的文本语言和存在于图像中的其它文本的语言以及用户输入，通过将图像的文本翻译成另一种语言来产生文本转换后的输出。在示例中，用户输入可以是用户在图像上执行的手势，以将文本从一种语言转换为另一种语言。

显示器204可以被配置成使用户能够与电子设备200交互，并提供输入/用户输入。显示器204还可以被配置为向用户提供/显示文本转换后的输出。

通信接口206可以被配置为使得电子设备200能够使用通信网络所支持的接口与至少一个外部实体进行通信。接口的示例可以是但不限于有线接口、无线接口、或支持有线或无线连接上的通信的任何结构。

所提及的存储器208可包括(但不限于)NAND、嵌入式多媒体卡(eMMC)、安全数字(SD)卡、通用串行总线(USB)、串行高级技术附件(SATA)、固态驱动器(SSD)等中的至少一者。此外，存储器208可以包括一个或多个计算机可读存储介质。存储器208可以包括一个或多个非易失性存储元件。这种非易失性存储元件的示例可以包括随机存取存储器(RAM)、只读存储器(ROM)、磁硬盘、光盘、软盘、闪存、或电可编程存储器(EPROM)或电可擦除可编程(EEPROM)存储器的形式。此外，在一些示例中，存储器208可以被认为是非暂时性存储介质。术语“非暂时性”可以表示存储介质没有包含在载波或传播信号中。然而，术语“非暂时性”不应被解释为意味着存储器是不可移动的。在某些示例中，非暂时性存储介质可以存储随时间变化的数据(例如，在随机存取存储器RAM或高速缓存中)。

存储器208可以存储必须被转换成文本的图像的块、块的内容、一个或多个标记、第一组转换后文本、文本转换后的输出等中的至少一个。

存储器208还可以包括图像到文本转换器300。图像到文本转换器300可以由控制器202执行，以将图像转换为文本。

存储器208还可以包括第一神经网络302、第二神经网络304和第三神经网络306。第一神经网络302可以由控制器202执行/处理，以对第一组转换后文本应用目标动作，从而生成文本转换后的输出。第二神经网络304可以由控制器202执行/处理，以将图像划分成前景非文本注释映射和背景图像。第三神经网络306可以由控制器202执行/处理以确定非文本注释的类别。

第一神经网络302、第二神经网络304和第三神经网络306的示例可以是但不限于人工智能(AI)模型、多类支持向量机(SVM)模型、卷积神经网络(CNN)模型、深度神经网络(DNN)、递归神经网络(RNN)、受限Boltzmann机器(RBM)、深度信念网络(DBN)、双向递归深度神经网络(BRDNN)、生成对手网络(GAN)、基于回归的神经网络、深度增强模型(具有ReLU激活)、深度Q网络等。第一神经网络302、第二神经网络304和第三神经网络306可以包括多个节点，节点可以分层排列。层的实例可以是但不限于卷积层、激活层、平均池层、最大池层、级联层、丢弃层、完全连接层、SoftMax层等。每一层具有多个权重值，并通过计算前一层和运算多个权重/系数来执行层运算。第一神经网络302、第二神经网络304和第三神经网络306的层的拓扑可以基于相应网络的类型而变化。在一个示例中，第一神经网络302和第二神经网络304可以包括输入层、输出层和隐藏层。输入层接收层输入，并将接收到的层输入转发到隐藏层。隐藏层将从输入层接收的层输入转换为表示，该表示可用于在输出层中生成输出。隐藏层从输入中提取有用/低级特征，在网络中引入非线性，并减小特征维度，以使特征等同于缩放和平移。层的节点可以通过边缘完全连接到相邻层中的节点。在输入层的节点处接收到的输入可以经由激活函数传播到输出层的节点，该激活函数基于分别与连接层的每个边缘相关联的系数/权重来计算网络中每个连续层的节点的状态。

可以使用至少一种学习方法训练第一神经网络302、第二神经网络304和第三神经网络306，以分别通过对第一组转换后文本应用目标动作来生成文本转换后的输出，将图像划分成非文本注释映射和背景图像，以及确定非文本注释的类别。学习方法的示例可以是但不限于监督学习、无监督学习、半监督学习、强化学习、基于回归的学习等。经过训练的第一神经网络302、第二神经网络304和第三神经网络306可以是神经网络模型，其中用于执行预期的功能的层数、处理层的序列、与每一层相关的参数可以是已知和固定的。与每一层相关的参数的示例可以是，但不限于与各层相关的激活函数、偏差、输入权重、输出权重等。可通过非易失性存储器、易失性存储器和控制器202来执行与学习方法相关联的功能。控制器202可以包括一个或多个处理器。此时，一个或多个处理器可以是诸如中央处理单元(CPU)、应用处理器(AP)等的通用处理器；诸如图形处理单元(GPU)、可视处理单元VPU的仅图形处理单元；和/或诸如神经处理单元NPU的人工智能AI专用处理器。

这里，通过由学习装置对多个学习数据应用学习方法来提供预定的操作规则或实现期望特性的第一神经网络302、第二神经网络304和第三神经网络306。第一神经网络302、第二神经网络304和第三神经网络306的功能可以在执行根据实施例的学习的电子设备200本身中执行，和/或可以通过单独的服务器/系统来实现。

图3示出了根据本公开的实施例的可在电子设备200中执行的用于将图像转换为文本的图像到文本转换器300。

图像到文本转换器300包括块提取模块308、标记识别模块310、OCR模块312、文本输出模块314和语言翻译模块316。

块提取模块308可以被配置成从包括要被转换成文本的内容的图像中提取一个或多个块。

标记识别模块310可以被配置为识别与要被转换成文本的内容相关的一个或多个标记。一个或多个标记可以包括手写文本、一个或多个词汇和相关联的方向属性、非文本注释、用户编辑的文本片段等中的至少一个。

OCR模块312可以被配置为基于所识别的一个或多个标记，对图像的一个或多个块的内容执行OCR，以创建第一组转换后文本。

文本输出模块314可以被配置为通过使用第一神经网络302将识别出的一个或多个标记与第一组转换后文本相关联来生成文本转换后的输出。文本转换输出包括一个或多个标记和打印文本。

语言翻译模块316可被配置成将一种语言的图像中存在的文本翻译成另一种语言。语言翻译模块316检测文本单词的字母系统以及与每个单词相关联的辨别特征的存在。语言翻译模块316基于单词的字母系统和相关联的辨别特征以及文本的单词的NLP来确定文本的语言。语言翻译模块316基于所确定的文本语言和图像中存在的其它文本的语言，将图像中存在的文本从一种语言翻译成另一种语言。

图2和图3示出了电子设备200的块，但是应当理解，其它实施例不限于此。在其它实施例中，电子设备200可以包括更少或更多数量的块。此外，块的标记或名称仅用于说明的目的，而不限制这里的实施例的范围。可以将一个或多个块组合在一起以在电子设备200中执行相同或基本类似的功能。

图4是描述根据本公开的实施例的用于将图像转换为文本的方法的示例流程图。

在操作401，电子设备可以接收具有文本(打印文本)和手写注释的图像。在操作402，电子设备200可以识别文本在图像中的位置。在操作403，电子设备200可以将文本分类为打印文本和手写注释。在操作404，电子设备200可以通过将打印文本排列成单词、行和段落，从而对图像执行OCR，进而创建第一组转换后文本。

在操作405，电子设备200可以获得手写注释的OCR，并且基于手写注释的位置将手写注释排列成一个或多个块。电子设备200将手写注释的OCR添加到处理队列。

在操作406，电子设备200可以检测非文本注释以及相关联的位置和类别。在操作407，电子设备200可以直接将非文本注释连接到相关的最近打印文本，并且将每个非文本注释与打印文本连接，并且将连接的非文本注释标记为注释对象。

在操作408，电子设备200可以检查处理队列是否为空。如果处理队列为空，则电子设备200可以执行操作413。如果处理队列不是空的，则在操作409，电子设备200可以从处理队列中检索对应于手写注释的块。在操作410，电子设备200可以对对应于手写注释的块执行NLP，并且检索目标动作和目标覆盖范围。在本文的示例中，目标覆盖范围可以指示段落(段)、行、页等中的至少一个。在本文的示例中，目标动作可以指示检查特定段落/行中的语法等。在执行NLP时，在操作411，电子设备200可以检查是否存在目标覆盖和目标动作。

如果存在目标覆盖和目标动作，则在操作412，电子设备200可以连接最近的未注释目标对象并分配目标动作。在连接最近的未注释目标对象并分配目标动作之后，电子设备200可以执行操作408以检查处理队列是否为空。如果处理队列不是空的，则电子设备200重复操作409至操作412。如果处理队列是空的，则在操作413，电子设备200可以在用户长时间按下图像时向用户提供用于目标对象和推荐的目标动作的可视提示。在操作414，当用户确认目标对象和目标动作时，电子设备200可以对目标对象应用目标动作。

如果不存在目标覆盖和目标动作，则在操作415，电子设备200可以检查是否存在与目标动作相关的信息。如果存在与目标动作相关的信息，则在操作416，电子设备200可以获得最近的注释的目标对象并分配目标动作。然后，电子设备200可以从操作408开始执行。

如果存在与目标动作相关的信息，则在操作417，电子设备200可以获得最近的注释的目标对象。在操作418，电子设备200可以检查所获得的注释的目标对象是否被连接到可动作非文本注释。如果所获得的注释的目标对象没有连接到可动作非文本注释，则电子设备200可以从操作408开始执行。

如果所获得的注释的目标对象被连接到可动作非文本注释，则在操作419，电子设备200可以将目标动作分配给注释的对象，并将手写文本标记为目标动作的附加信息。在分配目标动作之后，电子设备200从操作408开始执行。方法400中的各种动作可以以所呈现的顺序、以不同的顺序或同时执行。此外，在一些实施例中，可以省略图4中列出的一些动作。

图5是描述根据本公开的实施例的对图像中的文本的位置的检测的示例图。

这里的实施例使得电子设备200能够使用第二神经网络304将图像的像素划分成文本和非文本。电子设备200对被划分成文本的像素应用连通区域分析，以确定单词框和相关联的坐标。单词框和相关联的坐标可以提供关于文本(打印文本和手写文本)在图像中的位置的信息。因此，电子设备200能够检测文本在具有复杂背景和任何方向的图像中的位置。

图6是描述根据本公开的实施例执行文本定位以识别图像中的一个或多个标记的示例图。

电子设备200在图像上执行文本定位以识别图像中存在的一个或多个标记。在本文的实施例中，执行文本定位是指分析图像的文本/字符映射、连接/关联映射、注释/手写映射和字母系统映射。文本/字符映射/字符分数可用于识别图像中包括字符的区域。连接/关联映射/密切关系分数可用于识别图像中同一单词的字符间空间。注释/手写映射/注释分数可用于识别图像中覆盖和注释的文本区域。字母系统映射/字母系统分数可用于识别区域中的每个单词的字母系统。

图7是描述根据本公开的实施例的对图像中的手写文本和打印文本的识别的示例图。

参照图7，电子设备200分析编辑的符号、文本/字符映射、连接/关联映射、注释/手写映射和字母系统映射中的至少一个，以识别要被转换成文本的图像的内容中的至少一个手写文本和至少一个打印文本。

图8是描述根据本公开实施例的用于对第一组转换后文本执行后OCR校正的方法的示例流程图。

参照图8，在操作801，电子设备200可以接收必须被转换成文本的图像。

在操作802，电子设备200可以检测存在于图像中的文本的单词的字母系统。在操作803，电子设备200可以检测图像中存在的文本的语言。在操作804，电子设备200可以识别必须被转换成文本的图像的一个或多个块。在操作805，电子设备200可以识别在图像的一个或多个块中预置的一个或多个标记/用户编辑的片段。在操作806，电子设备200可以从接收到的图像、文本的语言、一个或多个标记等中的至少一个提取上下文和本地化词汇。

在提取上下文和本地化词汇之后，在操作807，电子设备200可以对第一组转换后文本执行OCR校正。在操作808处，电子设备200可通过对经校正的第一组转换后文本应用目标动作来产生文本转换后的输出。方法800中的各种动作可以以所呈现的顺序，以不同的顺序或同时执行。此外，在一些实施例中，可以省略图8中列出的一些动作。

图9是描述根据本公开实施例对第一组转换后文本执行后OCR校正的示例图。

参照图9，电子设备200从必须转换成文本的图像的一个或多个块中提取内容。电子设备200可以检测存在于所提取的上下文中的对象和标签/图库标签。电子设备200还可以从要转换成文本的图像中提取上下文。上下文可提供关于图像的拍摄位置、用于拍摄/创建图像的应用的细节或图像的任何其它元数据中的至少一者的信息，但不限于此。电子设备200还可以通过执行文本识别来估计文本的置信度值/置信度分数。然后，电子设备200可以基于图像中存在的对象和图库标签、图像的上下文、置信度值等来创建本地化词汇。电子设备200还可以从图像的视觉特性和元数据中提取上下文词汇。

然后，电子设备200可以基于上下文和本地化词汇对第一组转换后文本执行OCR校正。

图10、图11、图12和图13是描述根据本公开的各种实施例的对第一组转换后文本执行OCR后校正的使用场景的示例图。

本文的实施例使得电子设备200能够基于图像的视觉特性、从图像中提取的上下文和本地化词汇、对图像中存在的对象的注释、属于图像的一个或多个块中存在的其他字母系统的翻译后的文本、识别的标记的置信值等中的至少一个来执行OCR后校正(即，对第一组转换后文本执行校正)。

参考图10，对于图像中的文本“Master the pen…”，电子设备200可能将第一组转换后文本生成为“MOSLER THE…”。在这种情况下，电子设备200可以对第一组转换后文本执行后OCR校正，因为置信度值低。在执行后OCR校正之后，电子设备200可以生成文本转换后的输出。

此外，在将图像转换为文本时，具有定制字体的标志和符号经常会引起错误。因此，电子设备200可以使用包括标志和符号的文本来对包括复杂文本的第一组转换后文本执行OCR后校正。

参照图11，接收到的用于图像到文本转换的图像可以包括韩语文本和英语文本。在这种情况下，电子设备200可以使用从图像的清楚文本区域提取的本地化词汇/词汇集来执行OCR后校正。

参照图12，接收到的用于图像到文本转换的图像可以包括屏幕截图。在这种情况下，电子设备200可以使用图像的元数据来执行后OCR应用。在本文的示例中，图像的元数据可以包括但不限于图像的位置、屏幕截图应用等中的至少一个。

参考图13，其中接收到的用于图像到文本转换的图像可以包括时钟(即，对象的示例)。在这种情况下，电子设备200使用存在于图像中的对象和图库标签来对第一组转换后文本执行OCR校正。

图14是描述根据本公开实施例的将包括手写注释的图像转换为文本的场景的示例图。

参照图14，用户拍摄具有手写注释的现实日历的图片，并将该图片提供给电子设备200以与用户的数字日历同步。在这种场景下，电子设备200可以获得文本在图像中的位置。电子设备200将文本的单词分类为打印文本和手写注释/文本(标记的示例)。电子设备200对图像中的文本执行OCR，以创建第一组转换后文本。在创建第一组转换后文本之后，电子设备200可以从手写注释中提取手写文本。然后，电子设备200可以基于手写文本相对于打印文本的位置和接近度将手写文本与相应的打印文本相关联。

在将手写文本与打印文本相关联时，电子设备200可以分析打印文本并准备目标对象。电子设备200可以分析手写文本并准备目标动作/目标事件。在这里的示例中，目标对象可以是用户的数字日历，并且目标动作可以是将图片中存在的手写文本与用户的数字日历同步。在准备目标对象和目标动作之后，电子设备200可以在目标对象上应用目标动作。由此，将手写文本与用户的数字日历同步。

图15是描述根据本公开实施例的将包括手写注释和非文本注释的图像转换为文本的场景的示例图。

参照图15，用户将S笔悬停在图像中存在的手写注释上。在这种情况下，电子设备200可以获得文本在图像中的位置。电子设备200可以将文本的单词分类为打印文本和手写注释/文本(标记的示例)。电子设备200还可以检测非文本注释(例如，形状、高亮、标记的文本、删除线等)。在检测到非文本注释之后，电子设备200可以选择由非文本注释和用户输入(即，由用户执行的悬停手势)注释的打印文本单词位置。电子设备200可以对图像中的文本执行OCR，以创建第一组转换后文本。

在创建第一组转换后文本之后，电子设备200可以从手写注释中提取手写文本。然后，电子设备200可以基于手写文本相对于打印文本的位置和接近度将手写文本与相应的打印文本相关联。

在将手写文本与打印文本相关联时，电子设备200可以分析打印文本并准备目标对象。电子设备200可以分析手写文本并准备目标动作/目标事件。在这里的示例中，目标对象可以是用户想要在其中保存手写文本的存储器位置，或者是用户想要与之共享手写文本的至少一个外部实体。在这里的示例中，目标动作可以是保存/复制/共享手写文本。在准备目标对象和目标动作之后，电子设备200可以在目标对象上应用目标动作。从而，保存/复制/共享事件/手写文本。

图16是描述根据本公开实施例的将包括用户编辑的片段的图像转换为文本的示例图。

参照图16，电子设备200可以执行文本识别以识别编辑符号，例如但不限于插入标记、星号符号或任何其它标记符号。电子设备200还可以执行文本定位以检测用户编辑的片段，例如但不限于，下划线、删除线、高亮、圈出文本或任何其它标记。基于检测到的用户编辑的片段和编辑符号，电子设备200可以准备编辑动作以基于用户编辑的片段和编辑符号来修改/重新排列文本。电子设备200可以对第一组转换后文本应用目标动作，以生成文本转换后的输出。

图17是描述根据本公开实施例的基于非文本注释将图像转换为文本的示例图。

参照图17，电子设备200可以获得文本在图像中的位置。电子设备200将文本的单词分类为打印文本和手写注释/文本(标记的示例)。电子设备200还可以检测非文本注释(例如，形状、高亮、标记文本、下划线等)。在检测到非文本注释之后，电子设备200可以选择由非文本注释和用户输入注释的打印文本单词位置。电子设备200可以对图像中的文本执行OCR，以创建第一组转换后文本。

图18A、图18B和图18C描述了根据本公开的各种实施例的非文本注释属性表。

参照图18A至图18C，电子设备200可以从手写注释中提取手写文本。然后，电子设备200可以从注释属性表中获得非文本注释属性。

一旦获得了非文本注释属性，电子设备200就可以分析打印文本并准备目标对象。电子设备200可以基于所提取的非注释属性来分析非文本注释和相关文本，以准备目标动作。例如，电子设备200分析非文本注释“^”和手写文本“LIGHTWEIGHT”，并准备用于插入手写文本“LIGHTWEIGHT”的目标动作。

电子设备200还可以向用户呈现准备好的目标动作。在用户选择时，电子设备200可以对目标对象应用目标动作。例如，电子设备200将手写文本“LIGHTWEIGHT”应用为具有目标对象的类似字体的lightweight。

图19是描述根据本公开实施例的注释类型搜索的执行的示例图。

参照图19，用户高亮文档/注释/图像的文本。在这种情况下，电子设备200可以检测文本在图像中的位置。电子设备200可以获得非文本注释和相关联的类型(例如，包围、高亮、标记、补注号、删除线等)。在获得非文本注释之后，电子设备200可以对图像执行OCR以创建第一组转换后文本。在创建第一组转换后文本之后，电子设备200可以用非文本注释类型来对图像的文本和相关联的位置进行编索引。电子设备200还可以用非文本注释类型来对图像/文档进行编索引。然后，电子设备200可以在搜索应用中基于非文本注释类型来呈现图像/文档。因此，当用户正在搜索时，可以向用户呈现具有注释类型的图像/文档。

图20是描述根据本公开实施例的对非文本注释和相关联类别的识别的示例图。

参照图20，电子设备200可以训练第二神经网络304以将图像划分成前景非文本注释映射和背景图像。然后，电子设备200可以对前景非文本注释映射进行阈值处理，并且对阈值处理的前景非文本注释映射应用连通区域分析，以识别至少一个非文本注释以及包括将被转换成文本的内容的图像的至少一个块中的相关位置。

电子设备200可以从至少一个块中裁剪所识别的至少一个非文本注释，并且使用第三神经网络306来处理所裁剪的至少一个非文本注释，以利用置信度值来确定所识别的至少一个非文本注释的类别。

图21是描述根据本公开的实施例的智能笔记应用中的PDF编辑的示例图。

参照图21，用户将PDF附加到电子设备200上的笔记应用，并选择“智能编辑”选项。在这种情况下，在触摸注释时，可以向用户呈现应用注释的选项。一旦用户选择了应用注释的选项，电子设备200就可以按照打印文本的属性来应用注释。

图22是描述根据本公开的实施例的通过确定下划线/高亮文本来进行图像到文本的转换的示例图。

参照图22，用户在编辑的屏幕截图/文档(图像的示例)中高亮文本。在这种情况下，现有的OCR解决方案通过忽略文本上的高亮来生成文本转换后的输出。相反，这里的实施例使得电子设备200能够通过确定高亮文本来生成文本转换后的输出。

图23和图24是描述根据本公开的各种实施例的对图像中存在的文本语言的检测的示例图。

图25示出了根据本公开的实施例的与图像中的文本的单词相关联的辨别特征的细节。

参照图23至图24，电子设备200可以执行文本定位并检测图像中出现的文本的单词的字母系统。在检测到单词的字母系统之后，电子设备200可以检测与每个单词相关联的辨别特征的存在。辨别特征包括以下特征中的至少一个：变音符、元音变音、特殊字符、连写等。在图25中描述了辨别特征的细节。

然后，电子设备200可以基于检测到的文本的单词的辨别特征和NLP来确定文本的每个单词的语言。

使用上述用于检测文本语言的方法可以消除用所有字母系统执行OCR的需要。因此，可以节省时间，并且可以提高精确度，因为由于正确的语言而变音符已知。

图26是描述根据本公开的实施例的检测变音符并相应地对图像中存在的文本语言进行分类的示例图。

参照图26，电子设备200检测存在于图像中的文本的单词的字母系统。在检测单词的字母系统之后，电子设备200可以将所检测到的文本单词的字母系统馈送到变音符检测网络。该变音符检测网络处理该文本的单词的字母系统并产生输出。变音符检测网络生成的输出描述了变音符/变音符字符是否与图像中存在的文本相关联。

基于由变音符检测网络生成的输出，电子设备200可以检查变音符/变音符字符是否与图像中存在的文本相关联。如果该变音符/变音符字符不与图像中存在的文本相关联，则电子设备200可以检测图像中存在的文本的语言为英语。如果该分词/分词字符与图像中存在的文本相关联，则电子设备200可以使用语言分类网络来将图像中存在的文本的语言分类(即，确定文本的语言)为以下中的至少一个，但不限于以下中的至少一个：匈牙利语、德语、西班牙语等。本领域的普通技术人员可以基于其名称直观地推断出变音符检测网络和语言分类网络的功能，因此，省略了其详细描述。

图27是描述根据本公开的实施例的文本从一种语言到另一种语言的转换的示例图。

参照图27，用户在照片编辑应用中添加舒适语言的文本并执行语言转换的手势。在这种情况下，电子设备200可以将文本翻译成英语，因为电子设备200可以确定图像中存在的其他语言是英语。

图28是描述根据本公开实施例的图像到文本转换的示例图。

本文的实施例使得电子设备200能够通过确定图像中存在的文本的语言并检测必须被转换成文本的图像的一个或多个块中存在的一个或多个标记来将图像转换成文本。

参照图28，电子设备200可以接收要被转换成文本的示例性图像。为了将图像转换为文本，电子设备200可以基于文本中存在的至少一个单词(例如，单词“religioser”)的字母系统和相关联的辨别特征来确定图像中存在的文本的语言以及每个单词的NLP。在这里的示例中，电子设备200可以确定图像中存在的文本的语言是德语。

此外，电子设备200可以识别图像的一个或多个块的内容中的用户编辑的片段(标记的示例)。在这里的示例中，用户编辑的片段可以指示在“Juden im”和“Reich”之间添加单词“Persian”，并且划掉单词“Ende Februar”。在识别出用户编辑的片段之后，基于识别出的用户编辑的片段，电子设备200可以对图像的块执行OCR以生成第一组转换后文本。电子设备200可以准备编辑动作以在“Juden im”和“Reich”之间添加单词“Persian”(即，“Juden im Persian{edit_insert}Reich；...”)并划掉单词“Ende Februar”(即，“Adar(Ende Februar{edit_strike}/Anfang

)...”)。电子设备200可以对第一组转换后文本应用编辑动作，以生成文本转换后的输出。文本转换后的输出包括添加在“Juden im”和“Reich”之间的单词“Persian”以及单词“Ende Februar”的缺失。

图29至图38是描述根据本公开的各种实施例的以改进的精确度进行设备上图像到文本转换的示例图。

图29示出了根据本公开的实施例的包括风景的图像被转换为文本。

图30示出了根据本公开的实施例的包括图形的图像被转换为文本。

图31示出了根据本公开的实施例的包括风景文本的图像被转换为文本。

图32示出了根据本公开的实施例的包括具有复杂背景的风景文本的图像被转换为文本。

图33示出了根据本公开的实施例的包括具有复杂背景的风景文本的图像被转换为文本。

图33示出了根据本文所公开的实施例的包括具有复杂字体的风景文本的图像被转换为文本。

图34示出了根据本公开的实施例的相机拍摄的图像被转换为文本。

图35示出了根据本公开的实施例的倾斜文档文本被转换为文本。

图36示出了根据本公开的实施例的包括倾斜风景文本的图像被转换为文本。

图37示出了根据本公开的实施例的相机拍摄的图像被转换为文本。

图38示出了根据本公开的实施例的包括倾斜风景文本的图像被转换为文本。

参照图29至图38，可以将各种类型的图像转换为文本。

图39是描述根据本公开实施例的将经注释的图像转换为经校正的文本的场景的实例图。

参照图39，用户开始阅读网站或PDF上的某些东西，用户想要注释和共享上述网站或PDF上的某些东西。在这种情况下，电子设备200可以通过以适当的文本形式应用注释来将pdf转换为文本。

图40是描述根据本公开实施例的在基于NLP的应用中实现图像到文本转换的示例图。

本文的实施例通过识别一个或多个标记并检测图像中文本的语言来将图像转换为文本。因此，在此描述的图像到文本的转换可以在基于NLP的应用中实现，例如但不限于视觉问题应答(VQA)、总结、文本情感分析、话题标签预测等。

参照图40，当在电子商务网站页面上查看与智能电话有关的详细信息时，用户提出一个询问，该询问声明“Galaxy S20 Ultra的原始价格是？Galaxy S20 Ultra节省了多少？”。在这种情况下，现有的OCR解决方案仅向用户提供实际的价格/原始价格作为对用户提出的查询的答复，因为现有的OCR解决方案忽略了诸如删除线等标记。相反，本文的实施例使得电子设备200能够检测和识别删除线文本，并相应地继续流水线任务，如VQA，其可以利用删除线文本来更好地理解图像/文档。因此，电子设备200通过提供与原始价格和节省的价格相关的细节来提供对用户提出的查询的答复，从而增强用户体验。

图41是描述根据本公开的实施例的基于检测图像中存在的文本语言来应用编辑的示例图。

参照图41，用户打开照片编辑器以向图像添加一些文本。在打开照片编辑器之后，键盘打开，带有默认的英语键集，因为用户的默认语言是英语。在这种情况下，电子设备200可以自动地将图像中存在的文本的语言确定为韩语，并且打开具有韩语键集的键盘，从而增强用户体验。

图42是描述根据本公开的实施例的识别经编辑表单并从经编辑表单再生原始表单的示例图。

参照图42，电子设备200可以接收经编辑表单的图像以转换为原始表单。在这种情况下，电子设备200可以检测用户编辑的片段/诸如下划线的编辑的特征，并相应地确定经编辑表单中与下划线相关联的区域，其中所确定的区域是用户已经输入文本的区域。电子设备200可以通过从所确定的区域移除文本来再生原始表单。

图43是描述根据本公开的实施例从图像中提取文本的示例图。

参照图43，用户轻点图像中的文本“I DON'T ALWAYS DO MEMES”。在这种情况下，电子设备200确定用户在图像中轻点的文本的语言，并因此通过执行OCR从图像中提取相应的文本。由此，用户可以复制或共享所提取的文本。

图44是描述根据本公开的实施例的在执行图像到文本转换时掩蔽隐私特征的示例图。

参照图44，电子设备200可以检测图像中的隐私特征，例如但不限于，车牌、版权、加水印的文本等。电子设备200可以在从图像输出的转换后文本中掩蔽检测到的私人特征。

图45是描述根据本公开实施例的可使用图像到文本转换的应用的示例图。

参照图45，在上述实施例中所描述的图像到文本的转换可以用在如下电子设备200上的应用中，例如但不限于标签板、智能选择应用、图库OCR搜索应用、方向检测、视觉翻译应用、用于支付的智能捕获应用、快速搜索应用等。

在方法4600中，在操作4602，该方法包括由电子设备200从表示要转换成文本的内容的至少一个图像中识别至少一个块。在操作4604，该方法包括由电子设备200识别与要被转换成文本的内容相关的至少一个标记。所述至少一个标记指示至少一个手写文本、至少一个词汇和相关联的方向属性、至少一个非文本注释和至少一个用户编辑的文本片段中的至少一个。

在操作4606，该方法包括由电子设备200基于所识别的至少一个标记对至少一个图像的至少一个块执行OCR，以创建第一组转换后文本。在操作4608，该方法包括由电子设备200通过使用第一神经网络302将识别出的至少一个标记与第一组转换后文本相关联来生成文本转换后的输出。

本文的实施例执行设备上图像到文本的转换，包括从图像的语言检测、对编辑的图像中的文本的理解以及用于后光学字符识别OCR校正的本地化词汇。

本文的实施例自动检测图像中存在的文本语言，并使用检测到的语言作为对OCR的输入，可以提高OCR的精确度。如果模糊图像具有变音符和其它语言标记，则可以识别改进的精确度。

本文的实施例利用以下特征将图像转换为文本：

自动设备上OCR；

文档定向识别；

注释识别；

视觉语言检测；以及

基于本地化词汇的后OCR校正。

在此公开的实施例可以通过运行在至少一个硬件设备上并执行网络管理功能以控制元件的至少一个软件程序来实现。图2和图3中所示的元件可以是硬件设备或者硬件设备和软件模块的组合中的至少一个。

本文公开的实施例描述了用于执行设备上图像到文本转换的方法和系统。因此，应当理解，保护的范围被扩展到这种程序：当程序在服务器或移动设备或任何合适的可编程设备上运行时，除了其中具有消息的计算机可读装置之外，这种计算机可读存储装置包含用于实现该方法的一个或多个步骤的程序代码装置。在优选实施例中，通过以例如超高速集成电路硬件描述语言(VHDL)另一种编程语言编写的软件程序或通过在至少一个硬件设备上执行的一个或多个VHDL或几个软件模块实现的软件程序来实现该方法。硬件设备可以是可以被编程的任何类型的便携式设备。该设备还可以包括这样的装置，其可以是硬件装置(例如ASIC)、或者硬件和软件装置的组合(例如ASIC和FPGA)、或者至少一个微处理器和至少一个具有位于其中的软件模块的存储器。这里描述的方法实施例可以部分地以硬件实现，部分地以软件实现。或者，可在不同硬件设备上(例如，使用多个CPU)实施本公开。

前面对具体实施例的描述将如此完全地揭示本文中的实施例的一般性质，使得其它人可通过应用现有知识而容易地修改和/或适配此类具体实施例于各种应用而不脱离一般概念，且因此，此类适配和修改应且意欲被理解在所揭示实施例的等同物的意义和范围内。应当理解，这里使用的措辞或术语是为了描述的目的而不是限制的目的。因此，虽然已经根据实施例描述了本文的实施例，但是本领域技术人员将认识到，可以在如本文所述的实施例的精神和范围内通过修改来实践本文的实施例。

虽然已经参考本公开的各种实施例示出和描述了本公开，但是本领域技术人员将理解，在不脱离由所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以在形式和细节上进行各种改变。

Claims

1.一种用于将图像转换为文本的方法，所述方法包括：

由电子设备从至少一个图像中识别至少一个块，所述块表示要被转换成文本的内容；

由所述电子设备识别与要被转换成文本的所述内容相关的至少一个标记，所述至少一个标记指示至少一个手写文本、至少一个词汇和相关联的方向属性、至少一个非文本注释、或至少一个用户编辑的文本片段中的至少一个；

由所述电子设备基于所识别的至少一个标记对所述至少一个图像的所述至少一个块执行光学字符识别OCR，以创建第一组转换后的文本；以及

由所述电子设备通过使用第一神经网络将所识别的至少一个标记与所述第一组转换后的文本相关联来生成文本转换后的输出。

2.根据权利要求1所述的方法，其中，所述至少一个图像包括至少一个相机拍摄的图像、至少一个屏幕截图、至少一个计算机生成的图像、或至少一个跨社交网络站点共享的图像中的至少一个。

3.根据权利要求1所述的方法，

其中，所述至少一个标记是所述至少一个手写文本，以及

其中，由所述电子设备识别所述至少一个标记包括：

分析编辑符号、文本/字符映射、连接/关联映射、注释/手写映射、或字母系统映射中的至少一个，以识别要被转换成文本的所述内容中的所述至少一个手写文本或至少一个打印文本。

4.根据权利要求3所述的方法，

其中，所述编辑符号包括插入标记、删除线、高亮、下划线或引用中的至少一个，

其中，所述文本/字符映射指示文本像素或非文本的概率，

其中，所述连接/关联映射指示像素与单词的字符有关的概率，

其中，所述注释/手写映射指示所述文本像素是否被手写的概率，以及

其中，所述字母系统映射指示所述文本像素是否与特定语言相关联的概率。

5.根据权利要求1所述的方法，

其中，所述至少一个标记是所述至少一个非文本注释，以及

其中，由所述电子设备识别所述至少一个标记包括：

训练第二神经网络，以将所述至少一个图像划分为前景非文本注注释映射和背景图像；

对所述前景非文本注释映射进行阈值处理；以及

对阈值处理后的前景非文本注释映射应用连通区域分析，以识别所述至少一个非文本注释、以及包括所述要被转换成文本的所述内容的所述至少一个块中的相关联的位置。

6.根据权利要求1所述的方法，

其中，所述至少一个标记是所述至少一个用户编辑的文本片段；以及

其中，由所述电子设备识别所述至少一个标记包括：

分析编辑符号，以识别包括要被转换成文本的所述内容的所述至少一个块中的所述至少一个用户编辑的文本片段。

7.根据权利要求6所述的方法，还包括：

从所述至少一个块裁剪所识别的至少一个非文本注释；以及

使用第三神经网络处理所裁剪的至少一个非文本注释，以确定所识别的至少一个非文本注释的类别。

8.根据权利要求1所述的方法，其中，由所述电子设备对所述至少一个图像的所述至少一个块执行所述OCR，以创建所述第一组转换后的文本包括：

分析所述至少一个图像的所述至少一个块中的至少一个打印文本；以及

通过相对于所述至少一个打印文本排列所识别的至少一个标记来创建所述第一组转换后的文本。

9.根据权利要求8所述的方法，还包括：由所述电子设备基于所述至少一个图像的视觉特性、从所述至少一个图像提取的上下文和本地化词汇、所述至少一个图像中出现的对象的注释、属于所述至少一个图像中出现的其它字母系统的翻译文本、以及所识别的至少一个标记的置信度值来执行对所述第一组转换后的文本的校正。

10.根据权利要求1所述的方法，

其中，在所识别的至少一个标记是至少一个手写文本的情况下，由所述电子设备生成所述文本转换后的输出包括：

基于位置和接近度将所述至少一个手写文本与要被转换成文本的所述内容中出现的所对应的至少一个打印文本相关联；

基于所述至少一个手写文本相对于所对应的至少一个打印文本的位置和接近度来准备目标动作；以及

使用第一神经网络对所述第一组转换后的文本应用所准备的目标动作，以生成所述文本转换后的输出，以及

其中，所述文本转换后的输出包括所述至少一个打印文本和所述至少一个手写文本。

11.根据权利要求10所述的方法，其中，检测所述至少一个手写文本的位置包括：

将所述至少一个图像的所述至少一个块的像素划分成文本和非文本；以及

通过对所划分的像素应用所述连通区域分析来检测所述至少一个手写文本的位置。

12.根据权利要求10所述的方法，其中，准备所述目标动作包括：

基于所述至少一个手写文本相对于所述至少一个打印文本的位置和接近度，从所述至少一个图像的所述至少一个块中裁剪对应于所述至少一个手写文本的单词。

13.根据权利要求1所述的方法，其中，在所识别的至少一个标记包括所述至少一个非文本注释的情况下，由所述电子设备生成所述文本转换后的输出包括：

使用注释属性表为所识别的至少一个非文本注释确定至少一个非文本注释属性；

通过分析所识别的至少一个非文本注释和所关联的至少一个非文本注释属性、所述至少一个非文本注释相对于至少一个打印文本或至少一个手写文本的位置、以及所述至少一个非文本注释的类别来准备注释动作，所述注释动作指示所述至少一个非文本注释与所述至少一个打印文本或所述至少一个手写文本的关联；以及

使用所述第一神经网络对所述第一组转换后的文本应用所述注释动作，以生成所述文本转换后的输出。

14.根据权利要求13所述的方法，还包括：

由所述电子设备向用户提供所述注释动作；以及

在从所述用户接收到用于应用所述注释动作的输入时，由所述电子设备使用所述第一神经网络对所述第一组转换后的文本应用所述注释动作，以生成所述文本转换后的输出。

15.一种电子设备，包括：

存储器；以及

连接到所述存储器的处理器，被配置为：

从表示要被转换成文本的内容的至少一个图像中识别至少一个块，

识别与要被转换成所述文本的所述内容相关的至少一个标记，所述至少一个标记指示至少一个手写文本、至少一个词汇和相关联的方向属性、至少一个非文本注释、或至少一个用户编辑的文本片段中的至少一个，

基于所识别的至少一个标记对所述至少一个图像的所述至少一个块执行光学字符识别，以创建第一组转换后的文本，以及

通过使用第一神经网络关联所识别的至少一个标记与所述第一组转换后的文本来生成文本转换后的输出。