CN114519859A

CN114519859A - 文本识别方法、装置、电子设备及介质

Info

Publication number: CN114519859A
Application number: CN202210152851.2A
Authority: CN
Inventors: 杨柳青
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-05-20

Abstract

本申请公开了一种文本识别方法、装置、电子设备及介质，属于文本识别技术领域。该文本识别方法包括：在第一显示区域显示第一图像，在第二显示区域显示第一文档，第一文档中包括根据在第一图像中识别出的文字生成的第一文本；接收用户的第一输入，第一输入用于在第一图像中选择目标图像区域；响应于第一输入，根据在目标图像区域中识别出的文字生成第二文本，将第一文档更新为第二文档；其中，第二文档为将第一文档中的第一文本更新为第二文本后得到的文档。

Description

文本识别方法、装置、电子设备及介质

技术领域

本申请属于文本识别技术领域，具体涉及一种文本识别方法、装置、电子设备及介质。

背景技术

在图像中识别文字的技术已经逐渐成熟，例如，通过光学字符识别(OpticalCharacter Recognition，OCR)技术可以在扫描或拍摄纸质文档得到的图像中识别文字内容得到文本。

目前，在对图像中的文字进行识别时，用户通常需要在软件中拍摄图像或选中已有的图像，然后，系统后台通过识别算法识别被选中图像中的文字，缓存在系统后台的粘贴板中，用户可以打开一个文档，自己将系统后台粘贴板中存在的文字粘贴到文档中。当用户需要调整图像中所需的文字时，可以通过对文档进行文本编辑，或者，在文档中删除这部分文字，并重新打开图像，在图像中选择所需文字对应的区域重新粘贴。这种文本识别方式不便于用户对图像中需要的文字内容进行调整，操作比较繁琐。

发明内容

本申请实施例的目的是提供一种文本识别方法、装置、电子设备及介质，能够解决相关技术中文本识别方式在调整文字内容时的操作比较繁琐的问题。

第一方面，本申请实施例提供了一种文本识别方法，该方法包括：

在第一显示区域显示第一图像，在第二显示区域显示第一文档，第一文档中包括根据在第一图像中识别出的文字生成的第一文本内容；

接收用户的第一输入，第一输入用于在第一图像中选择目标图像区域；

响应于第一输入，根据在目标图像区域中识别出的文字生成第二文本内容，将第一文档更新为第二文档；其中，第二文档为将第一文档中的第一文本内容更新为第二文本内容后得到的文档。

第二方面，本申请实施例提供了一种文本识别装置，该装置包括：

第一显示单元，用于在第一显示区域显示第一图像，在第二显示区域显示第一文档，第一文档中包括根据在第一图像中识别出的文字生成的第一文本内容；

第一接收单元，用于接收用户的第一输入，第一输入用于在第一图像中选择目标图像区域；

第一更新单元，用于响应于第一输入，根据在目标图像区域中识别出的文字生成第二文本内容，将第一文档更新为第二文档；

其中，第二文档为将第一文档中的第一文本内容更新为第二文本内容后得到的文档。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，通过在第一显示区域显示第一图像，在第二显示区域显示第一文档，其中，第一文档中包括根据在第一图像中识别出的文字生成的第一文本，进而，在接收用户的用于在第一图像中选择目标图像区域的第一输入之后，响应于第一输入，根据在目标图像区域中识别出的文字生成第二文本，将第一文档更新为第二文档，第二文档为将第一文档中的第一文本更新为第二文本后得到的文档，这样，可以方便用户对图像中需要的文字内容进行调整，操作比较简单，解决了文本识别方式在调整文字内容时的操作比较繁琐的问题。

附图说明

图1是本申请实施例提供的文本识别方法的一种可选的流程示意图；

图2是本申请实施例提供的文本识别方法的一种可选的界面示意图；

图3是本申请实施例提供的文本识别方法的一种可选的界面示意图；

图4是本申请实施例提供的文本识别方法的一种可选的界面示意图；

图5是本申请实施例提供的文本识别方法的一种可选的界面示意图；

图6是本申请实施例提供的文本识别装置的一种可选的结构框图；

图7是本申请实施例提供的电子设备的一种可选的结构框图；

图8是本申请实施例提供的电子设备的另一种可选的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一某某可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

包含文字的图像可以是对纸质书籍、印刷文字等拍摄得到的，也可以是将包含有文字的、不便于编辑的文件类型(例如PDF文件类型、未提供复制功能的网页等)通过截图或转换的方式转换为图像得到的。为了方便用户对图像中文字的内容进行编辑，相关技术中提供了图像文本识别技术，一个示例的文本识别技术为OCR(optical characterrecognition，光学字符识别)技术，可以识别图像中的文字，以便于用户对文字进行编辑。

但是，目前提供的文本识别方法中，通常是在用户选中图像之后，自动在后台识别，并将识别出的文字暂时缓存起来，由用户自己粘贴到文档中，这种文本识别的操作方式比较繁琐，用户不便于实时查看文本识别的结果，并且需要手动的将文字内容进行粘贴。

为了解决上述问题，本申请实施例提供了一种文本识别方法，通过在第一显示区域显示第一图像，在第二显示区域显示第一文档，其中，第一文档中包括根据在第一图像中识别出的文字生成的第一文本，进而，在接收用户的用于在第一图像中选择目标图像区域的第一输入之后，响应于第一输入，根据在目标图像区域中识别出的文字生成第二文本，将第一文档更新为第二文档，其中，第二文档为将第一文档中的第一文本更新为第二文本后得到的文档，这样，可以方便用户对图像中需要的文字内容进行调整，操作比较简单，解决了文本识别方式在调整文字内容时的操作比较繁琐的问题。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的文本识别方法进行详细地说明。

图1是本申请实施例提供的文本识别方法的一种可选实施例的流程示意图，如图1所示，该方法包括如下步骤：

步骤101，在第一显示区域显示第一图像，在第二显示区域显示第一文档，第一文档中包括根据在第一图像中识别出的文字生成的第一文本；

步骤102，接收用户的第一输入，第一输入用于在第一图像中选择目标图像区域；

步骤103，响应于第一输入，根据在目标图像区域中识别出的文字生成第二文本，将第一文档更新为第二文档；其中，第二文档为将第一文档中的第一文本更新为第二文本后得到的文档。

本申请实施例提供的文本识别方法可以由电子设备执行，这样，本申请实施中所述的任意一个输入，都可以是用户通过电子设备的用户输入单元执行的输入操作，用户输入单元可以包括触摸屏、键盘、鼠标、摄像头(用于采集用户手势图像等)等，每个输入可以仅包括一个输入操作，也可以是包括多个输入操作的操作组合，操作组合中的每个输入操作可以是同步的或者有顺序的，其中，针对操作组合中的每个输入操作可以提供对应的响应界面，以在对应的响应界面中接收下一步的输入操作，直至操作组合执行完毕。

在本申请实施例中，电子设备可以通过屏幕同时显示第一显示区域和第二显示区域。第一显示区域是用于显示图像的区域，第二显示区域是用于显示文档的区域，在图像中识别出的文字所生成的文本可以直接显示在文档中，便于用户进行编辑(可以包括修改、删除、复制、粘贴等)。

可选地，第一显示区域和第二显示区域可以是不重叠的，示例性地，第一显示区域和第二显示区域可以是左右并列、上下并列的。在一个应用场景中，电子设备的屏幕可以是折叠屏，这种情况下，可以将第一显示区域和第二显示区域分别地显示在折叠屏的不同分屏中，以方便用户查看。

在一个可选的示例中，在第一显示区域显示的第一图像可以是在第一显示区域中接收到的输入操作所指定的。第一显示区域中可以提供选择图像的控件，例如图2所示的示例中，第一显示区域在折叠屏手机的左屏201中显示，第一显示区域内显示的是照相功能界面，用户可以通过点击“拍照”控件203或者通过点击“图片”控件204在相册中选择已存在的图像实现生成/选中第一图像。在生成/选中第一图像之后，可以在第一显示区域内显示第一图像，如图3所示，在第一显示区域301中显示第一图像303。

在第二显示区域显示的第一文档可以是在第二显示区域中接收到的输入操作所指定的。第二显示区域中可以提供选择文档的控件，例如图3所示的示例中，第二显示区域在折叠屏手机的右屏202中显示，用户可以通过点击“新建文档”控件205来新建文档，或者通过点击“更多文档”控件206选择已存在的文档。在新建/选中第一文档之后，可以在第二显示区域内显示第一文档，其中，在未选中第一图像的情况下，新建的文档可以是空白的，而被选中的已存在的文档中可能已包括一些文本。

生成/选中第一图像和新建/选择第一文档的顺序可以是按照任意的顺序执行的，在已经执行了生成/选中第一图像的情况下，再新建/选择第一文档之后，第一文档中可以自动包含第一图像中识别出的第一文本。

或者，第一文本也可以是由用户的输入操作(第二输入)指示的，例如在指定了第一图像之后，可以点击图3所示的“预览文档”控件302，以将识别出的第一文本直接粘贴到第二显示区域的文档中。通过第二输入指示文本图像的转换，可以提高用户操作的自主性。

在第一显示区域中第一文档中包括根据在第一图像中识别出的文字生成的第一文本，但是，有时用户可能只想识别在图像中的一部分文字内容，因此，本申请实施例提供了一种便捷的调整识别区域并相应地更新文档的实施方式。

具体而言，在接收用户的用于在第一图像中选择目标图像区域的第一输入之后，响应于第一输入，根据在目标图像区域中识别出的文字生成第二文本，将第一文档中的第一文本更新为第二文本后，得到第二文档。这里，第二文档是第一文档中将第一文本替换为第二文本得到的文档。参考图3，第一输入可以是在显示出的第一图像中，通过选中四个点的方式在第一图像中框选出目标图像区域304。

可选地，在本申请实施例中，从图像中识别出的文本在文档中的显示方式，可以是每识别出一个文字单位(可以是字、词、句、段落等，本申请实施例对此不限定)就显示在文档中，也可以是将图像(或被选中的目标图像区域)中的文本全部识别完毕之后，再显示在文档中。

用户可以通过步骤102～103反复地调整目标图像区域的范围，并同步在第二显示区域的文档中观察识别出的文本，在用户满意后，可以通过输入进行确认操作，示例性地，用户可以在如图3所示的第一显示区域内选择“确认生成”控件305，以对第一图像中已识别的文本进行确认，这样，可以方便用户对所需要的文本所在的图像区域进行调整，实时观察识别出的文本，并且不需要用户对调整之前生成的文本执行删除处理，直接将调整前的文本替换为调整后的文本，方便用户操作。

在将第一文档更新为第二文档之后，如果接收到用户的第七输入，可以响应于第七输入，关闭第一显示区域和第二显示区域，并存储第二文档，具体可以存储在本地或远端服务器中，本申请实施例对此不作限定。示例性地，第七输入可以是点击如图3所示的“生成文档”控件307，从而确定将当前的文档进行保存。

可选地，本申请实施例还提供了一种可选的实施方式，能够同时在文档中插入多张图像识别出的文字。具体而言，在将第一文档更新为第二文档之后，还可以包括执行如下步骤：

步骤104，接收用户的第三输入，第三输入用于选择第二图像；

步骤105，响应于第三输入，根据在第二图像中识别出的文字生成第三文本，并将第二文档更新为第三文档。

其中，第三文档包括第二文档中的文本和第三文本，也即，在第二文档中增加从第二图像中识别出的第三文本，从而得到更新后的第三文档。当然，在更新为第三文档之后，用户仍然可以对第二图像中想要识别的图像区域进行调整，与步骤102～步骤103相似，在此不再赘述。

在本申请实施例中，第三输入用于指示选中第二图像。示例性地，参考图3，用户可以选择“生成下一张”控件306，以指示选择第二图像，然后第一显示区域内显示的界面可以跳转回图2示例的第一显示区域，继而接收用户拍照或在相册中选择图像的输入。

在通过第三输入选择好第二图像之后，可以在第一显示区域内显示第二图像。

可选地，第一图像和第二图像可以同时显示在第一显示区域内。

可选地，可以将第一图像通过缩略图、标识等形式显示在第一显示区域内，以增加第二图像在第一显示区域内的显示面积。示例性地，参考图4，在位于左侧分屏的第一显示区域内，显示有“图片1”的标识401、“图片2”的标识402和“图片3”的标识403，以分别表示已被选中过的三张图像。

在将第二文档更新为第三文档之前，用户还可以通过第四输入指定在第二文档中插入第三文本的目标位置，这样，在接收到第三输入之后，在第二文档中的目标位置插入第三文本，输出第三文档。

可选地，在默认情况下，第二显示区域的文档中可以是按顺序地显示被选中的每个图像识别出的文本内容，参考图4，在右侧分屏的第二显示区域内，“图片1”、“图片2”、“图片3”识别出的文字分别对应于“文本内容1/3”、“文本内容2/3”、“文本内容3/3”的文本内容。

为了便于用户对当前图像中识别出的文本内容的插入位置进行编辑，提供了一种可选的实施方式，在第一显示区域包括第一图像和第二图像的情况下，在将第二文档更新为第三文档之后，如果接收到用户输入的用于调整第一图像在第一显示区域中的相对位置第五输入，则响应于第五输入，调整第三文本在第三文档中的位置。

通过这种可选的实施方式，可以提高用户对一个图像中识别出的文本进行编辑的快捷性，可以直接移动该图像中识别出的整段文本。

能理解的是，在第一图像通过缩略图、标识等形式显示在第一显示区域内的情况下，在调整第一图像的相对位置时，可以是对第一图像的缩略图、标识等进行操作。

可以理解的是，在具体实施中，可以根据不同的需求，设置是否允许将当前选中的图像中识别出的文本内容插入在其它图像识别出的文本内容中间，也即，是否仅允许对每个图像识别出的文本内容进行整段的编辑，如果仅能整段编辑，则不允许识别出的文本插入在其它图像识别出的文本中间，反之，可以设置允许对多个图像识别出的文本的交叉编辑，则可以将一张图像中识别出的文本插入在另一图像识别出的文本中间。

示例性地，参考图4，如果用户将“图片1”的标识401拖动至“图片3”的标识402之后，那么，第一显示区域和第二显示区域内显示的内容可以变化为图5，由图5可以看出，除了第一显示区域内“图片1”的标识的显示顺序发生了变化，第二显示区域内与“图片1”相对应的文字内容“文本内容1/3”的位置也相应地变化。

通过这种实施方式，可以方便用户调整各个图像中识别出的文字的相对顺序，简化了用户操作。

此外，还可以通过对第一显示区域中图像的删除操作，直接在文档中删除对应识别出的文字，在第二显示区域内的文档中显示第一图像中的文字之后，还可以接收用于删除第一图像的第六输入，这样，响应于第六输入，可以在文档中删除第一图像中的文本内容，简化了用户对识别出的文本内容进行编辑的操作，提供了一种更便捷的删除操作方式。

示例性地，第六输入可以是点击选中第一图像，在不放开的情况下(例如长按)向左或向右进行滑动，从而删除第一图像和第一图像识别出的文字。

本申请实施例提供的文本识别方法，执行主体可以为文本识别装置。本申请实施例中以文本识别装置执行文本识别方法为例，说明本申请实施例提供的文本识别装置。

本申请实施例中的文本识别装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的文本识别装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的文本识别装置能够实现图1至图5的方法实施例实现的各个过程，为避免重复，这里不再赘述。

图6是本申请实施例提供的文本识别装置的一种可选实施例的结构框图，如图6所示，本申请实施例提供的文本识别装置包括第一显示单元11，第一接收单元12和第一更新单元13。

第一显示单元11用于在第一显示区域显示第一图像，在第二显示区域显示第一文档，第一文档中包括根据在第一图像中识别出的文字生成的第一文本；

第一接收单元12用于接收用户的第一输入，第一输入用于在第一图像中选择目标图像区域；

第一更新单元13用于响应于第一输入，根据在目标图像区域中识别出的文字生成第二文本，将第一文档更新为第二文档；

其中，第二文档为将第一文档中的第一文本更新为第二文本后得到的文档。

可选地，第一显示单元11可以包括：

接收子单元，用于接收用户的第二输入；

显示子单元，用于响应于第二输入，根据在第一图像中识别出的文字生成第一文本，并在第一显示区域显示第一图像，在第二显示区域显示包括第一文本的第一文档。

可选地，该装置还可以包括：

第二接收单元，用于在将第一文档更新为第二文档之后，接收用户的第三输入，第三输入用于选择第二图像；

第二更新单元，用于响应于第三输入，根据在第二图像中识别出的文字生成第三文本，并将第二文档更新为第三文档；

其中，第三文档包括第二文档中的文本和第三文本。

可选地，该装置还可以包括：

第三接收单元，用于在将第二文档更新为第三文档之前，接收用户的第四输入，第四输入用于在第二文档中选择目标位置；

第二更新单元包括：输出子单元，用于在第二文档中的目标位置插入第三文本，输出第三文档。

可选地，第一显示区域可以包括第一图像和第二图像，该装置还可以包括：

第四接收单元，用于在将第二文档更新为第三文档之后，接收用户的第五输入，第五输入用于调整第一图像在第一显示区域中的相对位置；

调整单元，用于响应于第五输入，调整第三文本在第三文档中的位置。

可选地，该装置还可以包括：

第五接收单元，用于在接收用户的第一输入之前，接收用户的第六输入，第六输入用于删除第一图像；

删除单元，用于响应于第六输入，在第一文档中删除第一文本。

可选地，该装置还可以包括：

第六接收单元，用于在将第一文档更新为第二文档之后，接收用户的第七输入；

存储单元，用于响应于第七输入，关闭第一显示区域和第二显示区域，存储第二文档。

可选地，如图7所示，本申请实施例还提供一种电子设备900，包括处理器901和存储器902，存储器902上存储有可在所述处理器901上运行的程序或指令，该程序或指令被处理器901执行时实现上述文本识别方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图8为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器1010用于执行以下步骤：

在第一显示区域显示第一图像，在第二显示区域显示第一文档，第一文档中包括根据在第一图像中识别出的文字生成的第一文本；

响应于第一输入，根据在目标图像区域中识别出的文字生成第二文本，将第一文档更新为第二文档；

可选地，处理器1010在执行在第一显示区域显示第一图像，在第二显示区域显示第一文档时，可以包括执行如下步骤：

接收用户的第二输入；

响应于第二输入，根据在第一图像中识别出的文字生成第一文本，并在第一显示区域显示第一图像，在第二显示区域显示包括第一文本的第一文档。

可选地，处理器1010在执行将第一文档更新为第二文档之后，还可以包括执行如下步骤：

接收用户的第三输入，第三输入用于选择第二图像；

响应于第三输入，根据在第二图像中识别出的文字生成第三文本，并将第二文档更新为第三文档；

其中，第三文档包括第二文档中的文本和第三文本。

可选地，处理器1010在执行将第二文档更新为第三文档之前，还可以包括执行如下步骤：

接收用户的第四输入，第四输入用于在第二文档中选择目标位置；

将第二文档更新为第三文档包括：在第二文档中的目标位置插入第三文本，输出第三文档。

可选地，第一显示区域包括第一图像和第二图像，处理器1010在执行将第二文档更新为第三文档之后，还可以包括执行如下步骤：

接收用户的第五输入，第五输入用于调整第一图像在第一显示区域中的相对位置；

响应于第五输入，调整第三文本在第三文档中的位置。

可选地，处理器1010在执行接收用户的第一输入之前，还可以包括执行如下步骤：

接收用户的第六输入，第六输入用于删除第一图像；

响应于第六输入，在第一文档中删除第一文本。

接收用户的第七输入；

响应于第七输入，关闭第一显示区域和第二显示区域，存储第二文档。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的至少一种。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器1009可以包括易失性存储器或非易失性存储器，或者，存储器1009可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器1010可包括一个或多个处理单元；可选的，处理器1010集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述文本识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述文本识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述文本识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种文本识别方法，其特征在于，包括：

在第一显示区域显示第一图像，在第二显示区域显示第一文档，所述第一文档中包括根据在所述第一图像中识别出的文字生成的第一文本；

接收用户的第一输入，所述第一输入用于在所述第一图像中选择目标图像区域；

响应于所述第一输入，根据在所述目标图像区域中识别出的文字生成第二文本，将所述第一文档更新为第二文档；

其中，所述第二文档为将所述第一文档中的所述第一文本更新为所述第二文本后得到的文档。

2.根据权利要求1所述的方法，其特征在于，所述在第一显示区域显示第一图像，在第二显示区域显示第一文档，包括：

接收用户的第二输入；

响应于所述第二输入，根据在所述第一图像中识别出的文字生成所述第一文本，并在所述第一显示区域显示所述第一图像，在所述第二显示区域显示包括所述第一文本的第一文档。

3.根据权利要求1所述的方法，其特征在于，在将所述第一文档更新为第二文档之后，还包括：

接收用户的第三输入，所述第三输入用于选择第二图像；

响应于所述第三输入，根据在所述第二图像中识别出的文字生成第三文本，并将所述第二文档更新为第三文档；

其中，所述第三文档包括所述第二文档中的文本和所述第三文本。

4.根据权利要求3所述的方法，其特征在于，在将所述第二文档更新为第三文档之前，还包括：

接收用户的第四输入，所述第四输入用于在所述第二文档中选择目标位置；

所述将所述第二文档更新为第三文档包括：在所述第二文档中的所述目标位置插入所述第三文本，输出第三文档。

5.根据权利要求3所述的方法，其特征在于，所述第一显示区域包括所述第一图像和所述第二图像，在将所述第二文档更新为第三文档之后，还包括：

接收用户的第五输入，所述第五输入用于调整所述第一图像在所述第一显示区域中的相对位置；

响应于所述第五输入，调整所述第三文本在所述第三文档中的位置。

6.根据权利要求1所述的方法，其特征在于，在接收用户的第一输入之前，还包括：

接收用户的第六输入，所述第六输入用于删除所述第一图像；

响应于所述第六输入，在所述第一文档中删除所述第一文本。

7.根据权利要求1-6任一项所述的方法，其特征在于，在将所述第一文档更新为第二文档之后，还包括：

接收用户的第七输入；

响应于所述第七输入，关闭所述第一显示区域和所述第二显示区域，存储所述第二文档。

8.一种文本识别装置，其特征在于，包括：

第一显示单元，用于在第一显示区域显示第一图像，在第二显示区域显示第一文档，所述第一文档中包括根据在所述第一图像中识别出的文字生成的第一文本；

第一接收单元，用于接收用户的第一输入，所述第一输入用于在所述第一图像中选择目标图像区域；

第一更新单元，用于响应于所述第一输入，根据在所述目标图像区域中识别出的文字生成第二文本，将所述第一文档更新为第二文档；

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的文本识别方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的文本识别方法的步骤。