CN115170785B

CN115170785B - 图像的文字识别方法、电子设备及存储介质

Info

Publication number: CN115170785B
Application number: CN202111390000.3A
Authority: CN
Inventors: 毛璐; 于明雨; 潘宇欣; 车浩; 孙甜甜; 唐成达
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2023-05-09
Anticipated expiration: 2041-11-22
Also published as: CN115170785A

Abstract

本申请提供了一种图像的文字识别方法、电子设备及存储介质，涉及计算机技术领域。采用本申请中的方法，获取第一照片的属性信息，根据第一照片的属性信息确定第一照片的拍照模式所属的模式类别；当第一照片的拍照模式属于第一类模式，对第一照片进行OCR文字识别操作，当第一照片的拍照模式属于第二类模式且电子设备处于灭屏且充电的状态，对第一照片进行OCR文字识别的操作；若接收到第一用户操作，展示第一照片以及第一提示信息。由于不是对所有的图像均进行OCR识别的操作，而是根据照片的拍照模式所属模式类别，确定是否对照片进行OCR识别的操作，减少电子设备的功耗，优化电子设备对图库中的图像进行OCR文字识别的效率。

Description

图像的文字识别方法、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像的文字识别方法、电子设备及存储介质。

背景技术

光学字符识别(Optical Character Recognition，OCR)是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。OCR技术现已广泛地应用在医疗、保险、金融、物流、传统制造业、购物等领域。例如，在物流领域的一种应用场景中，用户使用手机拍摄物流订单的照片，通过OCR文字识别技术识别该照片上的快递单号。通过OCR文字识别技术，可以快速获取照片上的快递单号，无需人工录入而直接导入系统进行快递查询。然而，目前电子设备(如手机、平板电脑等)对图库中的图像进行OCR文字识别的功耗大，时延长，影响用户的体验。

发明内容

本申请实施例提供了一种优化的图像的文字识别方法、电子设备及存储介质。

在一些实施例中，电子设备可以对需要进行文字识别的图像进行文字识别，而不是对所有图像均进行文字识别的操作，减少电子设备对图像进行文字识别的功耗，有效提高电子设备的对图像进行OCR文字识别的效率，提高用户对电子设备的使用体验。

第一方面，提供一种图像的文字识别方法，应用于电子设备，该方法包括：获取第一照片的属性信息，第一照片的属性信息包括：第一照片的拍照模式标签；根据第一照片的拍照模式标签确定第一照片的拍照模式所属的模式类别，模式类别包括第一类模式和第二类模式；当根据第一照片的拍照模式标签确定第一照片的拍照模式属于第一类模式，则对第一照片进行OCR文字识别，存储第一照片的文字识别结果；响应于接收到的第一用户操作，展示第一照片以及提示第一提示信息，第一用户操作用于指示电子设备展示第一照片，第一提示信息用于指示用户查看第一照片的文字识别结果；当根据第一照片的拍照模式标签确定第一照片的拍照模式属于第二类模式，则检测电子设备是否处于灭屏且充电的状态；当检测到电子设备处于灭屏且充电的状态时，则对第一照片进行OCR文字识别，存储第一照片的文字识别结果；响应于接收到的第一用户操作，展示第一照片以及提示第一提示信息。

这样，第一照片的拍照模式标签可以用于指示该第一照片的拍照模式，根据第一照片的拍照模式可以确定该第一照片的拍照模式所属的模式类别，该模式类别包括第一类模式和第二类模式。该模式类别可以用于指示图像中出现文字的概率，例如，第一类模式可以包括第一概率模式，该第一概率模式用于指示图像出现文字的概率大于第一阈值(如：第一阈值为50％)。第二类模式可以包括第二概率模式，该第二概率模式可以用于指示图像出现文字的概率大于第二阈值且小于第一阈值，如，大于0且小于50％。电子设备通过对第一照片的拍照模式的类别判定，从而可以针对存在文字概率不同的照片进行不同的处理，如，对属于第一类模式的照片直接进行文字识别的操作。而对属于第二类模式的照片进行处理时，需要检测电子设备是否处于灭屏且充电的状态，在电子设备处于灭屏且充电的状态时，对属于第二类模式的照片进行文字识别的操作。由于不是直接对任意的照片均进行文字识别的操作，而是有选择地对存在文字的照片进行文字识别操作，提高了电子设备对照片进行文字识别的效率，减少了对无文字的照片的识别操作，进而减少了不必要的功耗。另外，电子设备检测到第一照片的拍照模式属于第二类模式时，检测电子设备的工作状态，当电子设备处于灭屏且充电的状态时，用户未使用该电子设备，处于充电且灭屏的状态时该电子设备的电量充足，此时对第二类模式的照片进行文字识别操作，避免电子设备在电量不充足状态对照片进行文字识别的操作，提高电子设备的续航能力。

根据第一方面，该方法还包括：当电子设备检测到第一照片的拍照模式属于第三类模式，则取消对第一照片进行OCR文字识别的操作；响应于接收到的第一用户操作，展示第一照片。模式类别还包括第三类模式，第三类模式可以指示照片存在文字的概率低，例如，第三类模式可以是第三概率模式，该第三概率模式用于指示图像出现文字的概率小于等于第二阈值(如第二阈值为5％、0等)且大于等于0。由此，电子设备在检测到第一照片的拍照模式属于第三类模式时，取消对该第一照片进行OCR文字识别的操作，由于第三类模式的照片中存在文字的概率低，电子设备不对该类第一照片进行文字识别的操作，可以减少电子设备的功耗。此外，当电子设备接收到第一用户操作时，由于可以直接显示该第一照片，而无需再对该第一照片进行OCR文字识别中的操作，时延少，提高用户的使用体验。

根据第一方面，电子设备在检测到第一照片的拍照模式属于第三类模式之后，该方法还包括：电子设备响应于接收到的第二用户操作，对第一照片进行OCR文字识别，获得第一照片的文字识别结果，其中，第二用户操作用于指示电子设备对第一照片进行OCR文字识别的操作；展示第一照片的文字识别结果。当电子设备接收到第二用户操作时，可以强制对该第一照片进行文字识别的操作，提高用户的使用体验。

根据第一方面，该方法还包括：电子设备当检测到第一照片的拍照模式属于第二类模式，且检测到电子设备未处于灭屏且充电的状态，则取消对第一照片进行OCR文字识别的操作；若接收到第二用户操作，对第一照片进行OCR文字识别，获得第一照片的文字识别结果；第二用户操作用于指示电子设备对第一照片进行OCR文字识别的操作；展示第一照片的文字识别结果。这样，电子设备在检测到第一照片的拍照模式属于第二类模式，且检测到该电子设备未处于灭屏且充电的状态时，取消对第一照片进行OCR文字识别的操作，由于为第一照片的拍照模式属于第二类模式，该第一照片中存在文字的概率相比拍照模式属于第一类模式的照片中存在文字的概率小，此时，取消对该第一照片进行OCR文字识别的操作，可以避免出现因不存在文字而导致功耗的无用消耗，减少电子设备的功耗。

根据第一方面，该方法还包括：电子设备获取第二照片的属性信息，第二照片的属性信息包括：第二照片的拍照模式标签；根据第二照片的拍照模式标签确定第二照片的拍照模式所属的模式类别；当根据第二照片的拍照模式标签确定第二照片的拍照模式属于第二类模式，则检测电子设备是否处于灭屏且充电的状态；当检测到电子设备未处于灭屏且充电的状态，则对第二照片进行文本检测的操作，获得第二照片的文本检测结果，并保存第二照片的文本检测结果。电子设备对拍照模式属于第二类模式的照片仅进行OCR文字识别中的文本检测的操作，由于OCR文字识别中文本识别操作的功耗大，本示例中电子设备不对第二照片进行文本识别的操作，可以降低手机的功耗。

根据第一方面，在保存第二照片的文本检测结果之后，该方法还包括：响应于接收到的第三用户操作，展示第二照片以及在第二照片的文本检测结果指示第二照片中存在文本的情况下提示第二提示信息，第三用户操作用于指示电子设备展示第二照片，第二提示信息用于指示第二照片存在文本。该电子设备接收到该第三用户操作时，可以直接展示该第二照片，同时，由于存储有文本检测结果，在该文本检测结果指示存在文本时，提示该第二提示信息，从而使得用户可以根据第二提示信息获知该照片存在文本。

根据第一方面，该方法还包括：电子设备响应于接收到第四用户操作，第四用户操作用于指示对第二照片进行OCR文字识别中的文本识别的操作：获取文本检测结果；当确定文本检测结果指示第二照片中存在文本，则对第二照片进行文本识别的操作，获得第二照片的文字识别结果；展示第二照片的文字识别结果。在保存了第二照片的文本检测结果后，当接收到第四用户操作，电子设备由于仅需对第二照片进行文本识别的操作，无需对该第二照片进行OCR文字识别中的文本检测的操作，提高了展示文字识别结果的速度，提高用户的使用体验。

根据第一方面，在保存第二照片的文本检测结果之后，该方法还包括：电子设备当检测到电子设备处于灭屏且充电的状态，则获取文本检测结果，当文本检测结果指示第二照片中存在文本，则对第二照片进行OCR文字识别中的文本识别的操作，获得第二照片的文字识别结果；响应于接收到的第三用户操作，展示第二照片以及提示第三提示信息，第三用户操作用于指示电子设备展示第二照片，第三提示信息用于指示用户查看第二照片的文字识别结果。在电子设备检测到电子设备处于灭屏且充电的状态，触发电子设备获取第二照片的文本检测结果，基于该文本检测结果进行文本识别的操作；而不是再次对第二照片进行文本检测的操作，减少了电子设备的功耗；且该电子设备在检测到处于灭屏且充电的状态时，主动触发对第二照片进行文本识别的操作，无需人工触发，减少了人工的参与，使得电子设备更加智能。

根据第一方面，在保存第二照片的文本检测结果之后，方法还包括：电子设备当确定文本检测结果指示第二照片中存在文本，则为第二照片添加第三标签，第三标签用于指示第二照片中存在文本；该方法还包括：电子设备当检测到电子设备处于灭屏且充电的状态，获取包含第三标签的照片，包含第三标签的照片包括第二照片；对获取的包含第三标签的各个照片进行OCR文字识别中的文本识别，获得包含第三标签的各个照片的识别结果，并保存包含第三标签的各个照片的文字识别结果。电子设备检测到处于灭屏且充电状态时，该电子设备查询包含第三标签的照片，对包含第三标签的照片进行文本识别；而无需对所有拍照模式属于第二类模式的照片进行文本检测和文本识别两个操作，可以进一步降低手机的功耗。

根据第一方面，第一类模式包括以下任一种或多种的组合：文档矫正模式或水印模式。预先设置第一类模式可以包含的拍照模式，从而便于电子设备快速判定照片的拍照模式所属模式类别。

根据第一方面，第二类模式包括以下任一种或多种的组合：大光圈模式、高像素模式或普通拍照模式。预先设置第二类模式可以包含的拍照模式，从而便于电子设备快速判定照片的拍照模式所属模式类别。

根据第一方面，第三类模式包括以下任一种或多种的组合：夜景模式、人像模式、全景模式、慢动作模式、水下模式、黑白艺术模式、流光快门模式、延时摄影模式、超级微距模式、多机位模式或专业模式。预先设置第三类模式可以包含的拍照模式，从而便于电子设备快速判定照片的拍照模式所属模式类别。

根据第一方面，第一照片的属性信息还包括第一照片的第一标签，第一标签用于指示第一照片的类别，该类别包括照片或截图；在根据第一照片的拍照模式标签确定第一照片的拍照模式所属的模式类别之前，该方法还包括：检测到第一标签指示第一照片的类别为照片。电子设备根据第一标签可以快速检测到属于照片的图像，以便于对照片进行本示例中的文字识别的操作。

根据第一方面，在获取第一照片的属性信息之前，方法还包括：检测到的预设触发条件，该预设触发条件包括：用户查看图库中任一图像的查看操作，或，电子设备处于灭屏且充电的状态。电子设备设置有多种触发方式，使得电子设备可以及时对照片进行文字识别的操作，便于用户查看，提高用户使用电子设备的体验。

根据第一方面，在存储第一照片的文字识别结果之后，方法还包括：在图库界面中第一照片的缩略图上添加识别标记，识别标记用于指示所述第一照片存在文字识别结果。电子设备在第一照片的缩略图上添加识别标记，使得用户在未查看该第一照片时，通过缩略图中的识别标记即可获知该第一照片存在文字识别结果，以便查看该第一照片的文字识别结果。

根据第一方面，在存储第二照片的文字识别结果之后，方法还包括：在图库界面中第二照片的缩略图上添加识别标记，识别标记用于指示所述第二照片存在文字识别结果。电子设备在第二照片的缩略图上添加识别标记，使得用户在未查看该第二照片时，通过缩略图中的识别标记即可获知该第二照片存在文字识别结果，以便查看该第二照片的文字识别结果。

第二方面，本申请提供了一种电子设备，包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中一个或多个计算机程序存储在存储器上，当计算机程序被一个或多个处理器执行时，使得电子设备执行上述第一方面任意一种实现方式所对应的图像的文字识别的方法。

第二方面实现方式与第一方面以及第一方面的任意一种实现方式相对应。第二方面任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第三方面，本申请提供了一种计算机可读介质，用于存储计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行上述第一方面的任意一种实现方式所对应的图像的文字识别的方法。

附图说明

图1是示例性示出的电子设备的结构示意图；

图2是本申请实施例提供的一种图像的文字识别方法的流程图；

图3是本申请实施例提供的一种手机拍照的场景示意图；

图4是本申请实施例提供的一种图像的属性信息的示意图；

图5是本申请实施例提供的一种模式类别的示意图；

图6是本申请实施例提供的一种查看图像的场景示意图；

图7是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图8是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图9是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图10是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图11是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图12是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图13是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图14是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图15a是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图15b是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图15c是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图16是示例性示出的电子设备的软件结构示意图；

图17为示例性示出的一种手机内部模块之间的交互示意图；

图18为示例性示出的一种手机内部模块之间的交互示意图；

图19为示例性示出的一种场景下手机内部模块之间的交互示意图；

图20为示例性示出的又一场景下手机内部模块之间的交互示意图；

图21为示例性示出的一种手机处于充电且灭屏的状态下内部模块之间的交互示意图。

具体实施方式

图1为本申请实施例示出的一种电子设备100的结构示意图。

电子设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。

在本申请实施例中，处理器110可以用于根据用户的操作或者检测到预设识别条件，触发对图像进行文字识别。处理器110还可以用于检测电子设备当前所处状态，如检测电子设备是否处于充电状态、灭屏状态或者灭屏且充电状态等。处理器110还可以用于根据用户操作截取屏幕的内容形成的图像，并将截取的图像存储在图库中。

本申请实施例中，显示屏194可以用于显示图库中的图像，显示应用程序的界面等。显示屏还可以显示出电子设备为用户提供的各种可操作控件(如可点击的按钮、可滑动的滑块等)等。

本申请实施例中，内部存储器121可以用于存储图像，如摄像头拍摄的图像、电子设备截屏产生的图像等。内部存储器121还可以存储图像的OCR文字识别的识别结果等。

在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例。

在一些实施例中，电子设备100的图库中存储有若干张图像(如：500张)，该电子设备100响应于用户查看图像的操作，依次对用户查看的图像进行OCR文字识别。

文本检测模型用于定位图像中文本的位置。电子设备100将一张图像输入该文本检测模型，该文本检测模型输出图像中每个文本区域、每个字符的坐标。文本检测模型检测文本的方法包括：基于候选框的文本检测方法、基于语义分割的文本检测方法、以及基于两种文本检测方法的混合方法。

当用户点击进入电子设备100的图库时，将触发电子设备对该图像进行OCR文字识别。即用户每查看一张图像，电子设备100都将对查看的图像进行OCR文字识别，导致电子设备100的功耗增加，例如，假设对一张具有5行文本的图像进行OCR文字识别的时延为630ms，功耗为m。当用户依次查看50张相同的图像时，该电子设备100将依次对该50张图像进行OCR文字识别，此时查看50张图像的时延为630ms*50；消耗的功耗为m*50；电子设备的功耗增加。另外，由于OCR文字识别的时延长，也影响用户查看图像的速度，影响用户的体验。

本申请一些实施例提供了一种图像的文字识别方法，以优化电子设备对图库中图像进行OCR文字识别的效率。示例性地，本申请实施例中电子设备100以手机为例。

图2为示例性示出的本申请实施例提供的一种图像的文字识别方法的流程图。该图像的文字识别方法包括以下步骤：

步骤201：手机读取图像的属性信息。

示例性地，手机将不同来源方式的图像存储于图库中，以供用户查看。例如，手机通过拍照方式获得的图像、手机接收其他设备发送的图像、或者手机通过截屏获得图像。

手机存储有每张图像对应的属性信息。示例性地，属性信息可以包括：第一标签；第一标签用于指示获取图像的来源方式，例如，第一标签为“DCIM”，可以用于指示图像来源于拍摄，第一标签为“Screenshot”，可以用于指示图像来源于截屏操作。属性信息还可以包括：第二标签、图像的获取时间信息以及内容标签等。第二标签用于指示图像所属应用的信息。图像的获取时间信息用于指示该当前手机获取图像的时间或者指示发送图像的源电子设备生成图像的时间。内容标签用于指示图像的内容所属的类别，例如，图像中内容呈现的是蛋糕，则该图像的内容所属类别为食物，即该内容标签“food”用于指示该图像的内容为食物。需要说明的是，本申请中属性信息包含的内容仅为示意性举例，本申请不做限定。在其他实施例中，属性信息还可以包括以下信息中的一种或多种信息的组合：图像的颜色信息(如RGB三色的详细信息)、拍照模式标签(如：人像拍照模式标签、夜景拍照模式标签、大光圈拍照模式标签等)、源设备信息等，其中，源设备信息用于指示发送图像的设备的型号信息、系统信息(如Android版本信息)等。

手机可以按照数据结构的方式将图像的属性信息存储于手机的数据库中。其中，手机将绑定该图像与该图像的属性信息。示例性地，手机可以通过图像的标识信息绑定该图像与该图像的属性信息。图像的标识信息可以用于唯一指示该图像。手机可以根据属性信息生成图像的标识信息，例如，手机可以为图像设置唯一对应的标识信息(如IMG2)，也可以用拍摄图像的时间作为图像的标识信息。需要说明的是，本示例中的标识信息仅为示例性举例，在其他实施例中，标识信息还可以是随机生成，例如，手机随时生成的预设位数的字符串，并将随机生成的字符串作为图像的标识信息，本申请不限制图像的标识信息的生成方式。本示例中属性信息可以以表的形式存储于数据库中，表的形式如表1所示，其中，表1中属性信息包括：第一标签、第二标签、图像的获取时间、拍照模式标签以及内容标签。手机通过图像标识绑定图像以及图像对应的属性信息。需要说明的是，本示例中属性信息中包含的项目仅为示例性举例，在本申请另一些实施例中，属性信息可以包括比表1更多或更少的项目。手机可以根据图像标识查找图像对应的属性信息。

表1

本示例中，图库界面上以缩略图的方式显示图像，用户点击缩略图，手机响应于用户的点击操作，打开与该缩略图对应的图像。手机还可以通过该缩略图确定该缩略图对应图像的标识信息，从数据库中查找与该标识信息绑定的属性信息。

本示例中，读取图像的属性信息的触发时机可以是手机的摄像头拍摄照片时，如检测到用户点击拍照按钮时触发读取拍摄的图像的属性信息的操作，或者，检测到拍摄的操作时触发读取该图像的属性信息的操作。需要说明的是，读取图像的属性信息的触发时机仅为示意性举例。可以理解的是，在不同的应用场景，可以采用不同的读取图像的属性信息的触发时机。

在一些实施例中，由于图像的属性信息中包括图像的第一标签，通过该第一标签的内容，可以准确获知该图像的来源方式，进而手机可以快速辨别图像是否需要进行OCR文字识别，减少不必要的OCR文字识别操作。

步骤202：手机根据该属性信息，判断该图像是否属于照片。若手机确定该图像不属于照片，则手机执行步骤203。若手机确定该图像属于照片，则手机执行步骤204。

在一些实施例中，手机读取图像的属性信息之后，可以从属性信息中获取第一标签信息。手机可以根据第一标签信息，确定该图像所属类别。例如，属性信息中获取到第一标签信息包括“DCIM”，则手机确定该图像属于照片，手机执行步骤204。当第一标签信息为“Screenshot”，则手机确定该图像属于截图，则手机执行步骤203，即手机采用其他OCR文字识别的策略对该图像进行识别。可选地，本示例中照片可以是指由当前手机拍摄获得的图像。

手机可以预先存储第一标签与图像的类别之间的对应关系，例如，“Screenshot”——截图，“DCIM”——照片。当手机从属性信息中获取到第一标签，即可根据存储的第一标签与图像的类别之间的对应关系，确定图像的类别。需要说明的是，第一标签的内容为示例性举例，在其他实施例中，例如指示照片的第一标签可以为“Camera”。本示例中对第一标签的内容不做具体的限制。

在一些实施例中，当手机确定图像不属于照片后，可以直接结束本申请中对图像进行文字识别的流程。

步骤203：手机采用其他OCR文字识别的策略。

示例性地，其他OCR文字识别的策略可以是对图像直接进行OCR文字识别，例如，图像属于截图或者网络图像时，手机可以直接对该图像执行OCR文字识别，即对该图像执行文本检测和文本识别两个步骤。

步骤204：手机从该图像的属性信息中获取该图像的拍照模式的信息。

示例性地，手机可以从属性信息中读拍照模式标签的内容，将该拍照模式标签的值作为拍照模式的信息，例如，获取的属性信息为“DCIM_20210928_2010_拍摄_Text”，该图像的属性信息中第一项属性为图像的来源方式，获取到第一标签的值为“DCIM”。

可选地，若属性信息在数据库中以表的形式存储，手机可以第一标签的属性名以及图像的标识信息，从表中读取该图像的第一标签的值。例如，图像的标识信息为“IMG2”，根据表1的内容，可以读取该图像的第一标签的值为“DCIM”。

步骤205：手机识别拍照模式的类型。当识别到该图像的拍照模式属于第二概率模式，则执行步骤206。当识别到该图像的拍照模式属于第一概率模式，则执行步骤207。当识别到该图像的拍照模式属于第三概率模式，则结束流程。

示例性地，图像的拍照模式的模式类别可以预先划分，例如，电子设备可以对各种图像进行OCR文字识别，通过大数据统计的方式确定出第一类模式(如第一概率模式)、第二类模式(如第二概率模式)以及第三类模式(如第三概率模式)。示例性地，第一概率模式用于指示图像出现文字的概率大于第一阈值(如：第一阈值为50％)，第二概率模式用于指示图像出现文字的概率大于第二阈值且小于第一阈值，如，大于0且小于50％。第三概率模式用于指示图像出现文字的概率小于等于第二阈值且大于等于0。需要说明的是，第一阈值、第二阈值仅为示例性举例，在其他实施例中，第二阈值可以为0。可选地，第一阈值还可以是60％，第二阈值还可以是20％、10％等。

在一个示例中，手机根据拍照模式标签的值以及预先存储的模式类别，确定图像的拍照模式所属的类别。例如，拍照模式标签的值为“人像”，根据预先存储的模式类别，手机确定该“人像”标签属于第三概率模式。拍照模式标签的值为“文档矫正”，根据预先存储的模式类别，手机确定该“文档矫正”标签属于第一概率模式。拍照模式标签的值为“大光圈”，根据预先存储的模式类别，手机确定该“大光圈”标签属于第二概率模式。

在另一个示例中，手机还可以通过其他方式确定拍照模式标签的类别。例如，可以训练拍照模式的模式分类模型，将图像的内容标签输入该训练好的模式分类模型中，该模式分类模型即可输出该拍照模式标签的类别。模式分类模型可以预先训练好。训练的方式将不再进行赘述。可以理解的是，还可以采用其他方式确定拍照模式标签的类别。

步骤206：判断手机是否处于灭屏且充电的状态。当手机确定处于灭屏且充电的状态，则执行步骤207。当手机确定未处于灭屏且充电状态，则结束流程。

步骤207：执行OCR文字识别。

手机对该图像进行OCR文字识别，OCR文字识别的过程包括：文本检测和文本识别。当手机检测到文本后，继续对该图像进行文本识别，手机获取对该图像进行文本识别的识别结果，该识别结果也即为OCR文字识别的识别结果。当手机未检测到文本，则手机结束流程。

步骤208：手机存储OCR文字识别的文字识别结果。

示例性的，手机可以存储OCR文字识别的识别结果。手机响应于用户查看OCR文字识别结果的操作时，显示该识别结果。示例性地，查看OCR文字识别结果的操作可以是点击界面中的指定按钮。

下面结合具体场景，对本申请实施例中图像的文字识别方法进行详细说明。

图3为示例性示出的手机拍照的场景示意图。

手机启动“照相机”应用，该“照相机”应用用于拍摄图像，如图3所示，界面301为该“照相机”应用的界面。本示例中，用户使用手机对运动记录文档进行拍摄，且用户选择的拍照模式为水印模式302。标号303指示的图像中包括手机界面上的被拍摄物体。水印拍照模式下，在图像上添加有默认的水印标记(如303中示出的“水印打卡”)。手机响应于用户的拍照操作(如点击界面301中的黑色按钮)，手机生成如标号303所示的图像。在手机生成该图像后，手机读取该图像的属性信息。该图像的属性信息如图3中的标号304所示，即属性信息为“DCIM_20210928_2010_水印”。可选地，手机设置该标号303所示图像的标识信息为“IMG2”(后文中“图像IMG2”用于指示标识信息为“IMG2”的图像)。

图4为示例性示出的图像的属性信息304的示意图。如图4所示，该属性信息304包括：第一标签3041、图像的获取时间信息3042、拍照模式标签3043。如图4所示，拍照模式标签3043“水印”，用于指示该图像的拍照模式为水印模式。该第一标签为“DCIM”，用于指示该图像来源于拍照方式。图像的获取时间信息3042用于指示该图像的获取时间为2021年9月28日20点10分。

图5为示例性示出的模式类别的示意图。手机可以预先存储如图5所示的模式类别的信息。示例性地，第一概率模式包括：文档矫正模式、水印模式。本示例中，第一概率模式中包含的模式仅为举例，在其他实施例中，第一概率模式还可以为其他用于拍摄文档或包含文字的拍摄模式。

第二概率模式可以包括：大光圈模式、高像素模式以及普通拍照模式。本示例中，第二概率模式中包含的模式仅为举例，在其他实施例中，第二概率模式还可以为其他用于拍摄高像素图像的拍摄模式。

第三概率模式可以包括：夜景模式、人像模式、全景模式、慢动作模式、水下模式、黑白艺术模式、流光快门模式、延时摄影模式、超级微距模式、多机位模式以及专业模式。

第三概率模式中包含各类标签仅为举例，在其他实施例中，还可以包括其他未列举的模式。

继续参照图3，手机获取该属性信息(即“DCIM_20210928_2010_水印”)中的第一标签，该第一标签的值为“DCIM”。手机可以根据该第一标签的值确定该图像属于照片。手机从该属性信息中获取拍照模式标签，获取该拍照模式标签的值“水印”，手机确定该图像的拍照模式为水印模式。该手机根据预先存储的模式类别的信息(即如图5所示的模式类别的分类信息)确定水印模式属于第一概率模式，该手机执行OCR文字识别步骤，即手机对拍摄的图像(即图像IMG2)进行OCR文字识别。手机获取OCR文字识别的识别结果，并存储该识别结果。手机可以以数据结构的方式存储该图像IMG2的识别结果，如手机将该图像IMG2的标识信息(即IMG2)作为键(Key)，以该识别结果作为该键对应的值(value)进行存储。也可以将该识别结果存储于该图像的属性信息中。本示例对此不作限定。

需要说明的是，本示例中以手机对该图像IMG2进行OCR文字识别的时长以520ms为例进行说明。在其他实施例中，对图像进行OCR文字识别的时延与该图像中文字的个数相关，字数越多，OCR文字识别的时长越长。示例性地，手机经过520ms之后，获得该图像IMG2的识别结果。

图6为示例性示出的一种查看图像的场景示意图。

在手机完成对图像IMG2的OCR文字识别后，用户可以随时查看图像IMG2的识别结果。例如，经过10分钟后，手机响应于用户查看图库的操作(如：点击相册的图标)，在显示屏中展示如图6中的6a所示的图库界面601，该界面601中显示有当前查看图库的时间603(即20点20分)。该图库界面601中显示了6张图像的缩略图。用户可以通过点击缩略图的方式，查看缩略图对应的图像。本示例中，手机在获取到点击缩略图602的操作时，手机查询该缩略图602对应的图像，如本示例中查询到该缩略图602对应的图像为图像IMG2。手机查询该图像IMG2是否有对应的识别结果，当手机检测到存储有该图像IMG2的识别结果后，手机可以将界面601切换至界面604，如图6中的6b所示。界面604中包括有图像IMG2，以及控件605(即显示有“点击显示识别结果”的控件)，该控件605用于指示用户查看图像IMG2的OCR文字识别的识别结果。示例性地，手机响应于用户点击该控件605的操作，经过10ms之后，将界面604切换为界面606，如图6中的6c所示。该界面606中包括该蒙板607，展示在蒙板607之上图像608以及图像608的识别结果609。标号610用于指示复制文字的控件。该控件610被点击后，手机为用户提供通过触摸屏幕复制的文字的操作，以供用户复制文字。需要说明的是，6b切换至6c所经历的时延为示例性举例，在其他实施例中，从6b切换至6c所经历的时延还可以是其他值，如20ms、5ms等，具体时延与手机展示图像的系统性能相关，本实施例中不做具体限定。

需要说明的是，蒙板607仅为示例性举例，在其它实施例中，也可以没有蒙板607以及图像608，例如，在界面606上仅显示图像IMG2的识别结果609。

本示例中，还可以采用其他的形式提示用户查看图像IMG2的识别结果，例如，可以通过颜色(如黄色、灰色等)指示该当前显示的图像有对应的文字识别结果。还可以是通过语音提示手机存储图像IMG2的识别结果。

本示例中，在生成图像的属性信息后，立即触发手机对被摄图像进行文字识别的操作，使得后续展示图像的识别结果的速度快。

图7为示例性示出的另一种图像的文字识别的应用场景示意图。

图7中的7a示出了该手机拍摄图像的界面图。该手机启动“照相机”应用，如7a所示，界面701为该“照相机”应用的界面。示例性地，用户选择的拍照模式为大光圈模式702。手机设置大光圈数值为f2.5(如标号705所示)。手机响应于用户的拍摄操作(如点击界面701中的黑色按钮)，拍摄标号703指示的图像，该标号703指示的图像中包括手机界面上的被拍摄物体。在生成形如703所示的图像后，手机读取该图像的属性信息。该图像的属性信息如图7中的标号704所示，即属性信息为“DCIM_20210928_2010_大光圈”。可选地，手机设置该图像的标识信息为“IMG3”(后文中“图像IMG3”用于指示标识信息为“IMG3”的图像)。

手机获取该属性信息(即“DCIM_20210928_2010_大光圈”)中的第一标签，该第一标签的值为“DCIM”。手机可以根据该第一标签的值确定该图像属于照片。手机从该属性信息中获取拍照模式标签，获取该拍照模式标签的值“大光圈”，手机确定该图像的拍照模式为大光圈模式。该手机根据预先存储的模式类别的信息(即如图5所示的模式类别的分类信息)确定大光圈模式属于第二概率模式。

当识别到图像IMG3的拍照模式属于第二概率模式，手机检测当前是否处于灭屏且充电的状态。需要说明的是，本示例中可以部署图像文字识别应用，由图像文字识别应用执行本申请中图像的文字识别方法。该图像文字识别应用可以在首次使用时，向手机的感知模块发起注册请求，以请求监听手机处于灭屏且充电的状态。当感知模块监听到手机处于灭屏且充电的状态时，向该图像文字识别应用发送该监听事件(即手机处于灭屏且充电状态的事件)。当图像文字识别应用接收到该监听事件，则确定手机处于灭屏且充电的状态。若图像文字识别应用未接收到该监听事件，则确定该手机未处于灭屏且充电的状态。本示例中，该手机未检测到手机处于灭屏且充电的状态，则可以直接结束对图像IMG3的文字识别流程。

在手机完成对图像IMG3的OCR文字识别后，用户可以随时查看图像IMG3。经过10分钟后，手机响应于用户查看图库的操作(如：点击相册的图标)，在显示屏中展示如图7中的7b所示的图库界面706，该界面706中显示有当前的时间707(即20点20)。该图库界面706中显示了6张图像的缩略图。用户可以通过点击缩略图的方式，查看缩略图对应的图像。示例性地，手机在获取到点击缩略图708的操作时，手机查询该缩略图708对应的图像，如本示例中查询到该缩略图708对应的图像为图像IMG3。手机查询该图像IMG3是否有对应的识别结果。当手机检测到不存在图像IMG3的识别结果后，手机可以经过10ms，将界面706切换至界面709，如图7中的7c所示，该界面709上展示了图像IMG3。界面709中还展出了控件710(即7c显示有“点击触发OCR文字识别”的控件)。手机可以响应于点击该控件710的操作，对界面709中的图像IMG3进行文本检测和文本识别，并将界面709切换至用于展示识别结果的界面711。该界面711中包括该蒙板712，展示在蒙板712之上图像713以及图像713的识别结果714。标号715用于指示复制文字的控件。需要说明的是，7c切换至7d所经历的时延为示例性举例，具体时延与图像中文字的个数相关，文字个数越多，手机消耗的功耗增加，时延越长，本实施例中不做具体限定。

本示例中，手机响应于用户拍摄图像的操作，读取拍摄获得的图像的属性信息。手机根据图像的属性信息，判定是否立即对图像进行OCR文字识别。由于第二概率模式拍摄的图像中存在文字的概率小，在手机未处于灭屏且充电状态时，不对属于第二概率模式的图像进行OCR文字识别，避免因该图像中无文字，导致不必要的消耗，减少手机进行OCR文字识别的功耗。另外，本示例中提供用户对图像强制进行OCR文字识别的控件，提高用户使用OCR文字识别的体验。

图8为示例性示出的另一种图像的文字识别的应用场景示意图。

图8中的8a示出了该手机拍摄图像的界面图。该手机启动“照相机”应用，如8a所示，界面801为该“照相机”应用的界面。示例性地，用户选择的拍照模式为人像模式802。手机响应于用户的拍摄操作(如点击界面801中的黑色按钮)，对人物进行拍摄，形成包含人物(如8a中人物)的图像。在生成该图像后，手机读取该图像的属性信息。该图像的属性信息如图8中的标号803所示，即属性信息为“DCIM_20210928_2010_人像”。可选地，手机设置该图像的标识信息为“IMG4”(后文中“图像IMG4”用于指示标识信息为“IMG4”的图像)。手机获取该属性信息(即“DCIM_20210928_2010_人像”)中的第一标签，该第一标签的值为“DCIM”。手机可以根据该第一标签的值确定该图像IMG4属于照片。手机从该属性信息中获取拍照模式标签，获取该拍照模式标签的值“人像”，手机确定该图像IMG4的拍照模式为人像模式。该手机根据预先存储的模式类别的信息(即如图5所示的模式类别的分类信息)确定人像模式属于第三概率模式。当识别到图像IMG4的拍照模式属于第三概率模式，可以直接结束对图像IMG4的文字识别流程。

图8中的8b示出了该手机的图库主界面804，该图库主界面804中展示了各图像的缩略图。本示例中，用户经过k(如k为10)分钟后，点击进入图库主界面，即手机切换至如8b所示的图库主界面804。手机响应于用户点击缩略图805的操作，手机可以查询到该缩略图805对应的图像为图像IMG4。手机可以经过10ms后，手机切换至界面806，并在界面806上展示该图像IMG4，如8c所示。界面806中还展出了控件807(即8c中显示有“点击触发OCR文字识别”的控件)。手机可以响应于点击该控件807的操作，对界面806中的图像IMG4进行文本检测，当手机检测到界面806中存在文字，则继续对图像IMG4进行文本识别，并存储图像IMG4的识别结果。当手机检测到界面806中不存在文字，则手机结束对该图像IMG4的OCR文字识别操作。

本示例中，由于第三概率模式指示图像不涉及文本，当手机确定图像的拍照模式属于第三概率模式，结束对该图像的文本识别的流程。由于不对属于第三概率模式的图像进行OCR文字识别，大大减小了手机的功耗。另外，本示例中，针对图库中的图像进行识别，当手机确定图像的拍照模式属于第一概率模式时，直接对该图像进行OCR文字识别。当手机确定图像的拍照模式第三概率模式时，结束对该图像的OCR文字识别。当手机确定图像的拍照模式属于第二概率模式时，且手机检测到处于灭屏且充电的状态时，对图像进行OCR文字识别，而手机未处于灭屏且充电的状态时，不对图像进行OCR文字识别。本申请中，根据图像的拍照模式的类别，决定是否立即对图像进行OCR文字识别,由于存在直接结束对OCR文字识别的情况，从而大大减小了手机在查看图像时的不必要的功耗。

图9为示例性示出的另一种图像的文字识别的应用场景示意图。

图9中的9a示出了该手机拍摄图像的界面图。该手机启动“照相机”应用，如9a所示，界面1001为该“照相机”应用的界面。示例性地，用户选择的拍照模式为大光圈模式1002。手机设置大光圈数值为f2.5(如标号1005所示)。手机响应于用户的拍摄操作(如点击界面1001中的黑色按钮)，拍摄标号1003指示的图像，该标号1003指示的图像中包括手机界面上的被拍摄物体。在生成该图像后，手机读取该图像的属性信息。该图像的属性信息如9a中的标号1004示，即属性信息为“DCIM_20210928_2010_大光圈”。可选地，手机设置该图像的标识信息为“IMG5”(后文中“图像IMG5”用于指示标识信息为“IMG5”的图像)。

当识别到图像IMG5的拍照模式属于第二概率模式，手机检测当前是否处于灭屏且充电的状态。当手机确定未处于灭屏且充电的状态，手机可以对图像IMG5进行文本检测操作。当手机检测到该图像IMG5中存在文本，则存储该图像IMG5的文本检测结果。示例性地，手机对图像IMG5进行文本检测的时延为120ms。经过120ms后，手机响应于用户查看图库的操作，即手机切换至如9b所示的图库主界面1006。如9b所示，9b示出了该手机的图库主界面1006，该图库主界面1006中展示了各图像的缩略图。手机响应于用户点击缩略图1008的操作，经过10ms后，从界面1006切换至界面1009。界面1009上显示缩略图1008对应的图像IMG5。手机确定该图像IMG5的文本检测结果指示存在文本，在该界面1006上还展示有控件1010，该控件1010用于指示图像中存在文本，且用于触发文本识别的操作。例如，手机响应于用户点击该控件1010的操作，则手机对该图像IMG5进行文本识别，并获得对该图像IMG5进行文本识别的识别结果，手机经过400ms的文本识别后，在显示屏中展示该图像IMG4的识别结果，如9d所示，界面1011上显示有蒙板1012，蒙板1012上展示有图像1013(即图像IMG5)，标号1014为图像IMG5的识别结果，控件1015用于为用户提供复制文字的功能。本示例中对图像IMG5进行OCR文字识别的总时延为520ms，其中，手机对图像IMG5进行文本检测的时延为120ms，对图像进行文本识别的时延为400ms。需要说明的是，本示例中对图像IMG5进行文字检测以及文字识别的时延仅为举例，其中，本示例中以文本识别的时延为400ms为例，在其他实施例中，图像中文字的字数不同，对应文本识别的时延也不同，例如，对100个文字进行识别的时延为500ms。

本示例中，若图像的拍照模式属于第二概率模式，且手机检测到未处于灭屏且充电的状态时，可以预先对图像进行文本检测。手机仅在检测到用户指示对图像进行文本识别的操作时，对图像进行文本识别，减少了手机的功耗。另外，手机响应于用户的文本识别操作后，手机由于仅需对图像进行文本识别的步骤，而不是对图像进行文本检测以及文本识别两个步骤，提高了展示识别结果的速度，提高用户的使用体验。

图10为示例性示出的另一种图像的文字识别的应用场景示意图。

图10中的10a示出了该手机拍摄图像的界面图。该手机启动“照相机”应用，如10a所示，界面1101为该“照相机”应用的界面。示例性地，用户选择的拍照模式为大光圈模式1102。手机设置大光圈数值为f2.5(如标号1105所示)。手机响应于用户的拍摄操作(如点击界面1101中的黑色按钮)，拍摄标号1103指示的图像，该标号1103指示的图像中包括手机界面上的被拍摄物体。在生成该图像后，手机读取该图像的属性信息。该图像的属性信息如10a中的标号1104，即属性信息为“DCIM_20210928_2010_大光圈”。可选地，手机设置该图像的标识信息为“IMG6”(后文中“图像IMG6”用于指示标识信息为“IMG6”的图像)。

手机获取该属性信息(即“DCIM_20210928_2010_大光圈”)中的第一标签，该第一标签的值为“DCIM”。手机可以根据该第一标签的值确定该图像属于照片。手机从该属性信息中获取拍照模式标签，获取该拍照模式标签的值“大光圈”，手机确定该图像的拍照模式为大光圈模式。该手机根据预先存储的模式类别的信息(即如图5所示的模式类别的分类信息)确定大光圈模式属于第二概率模式。当识别到图像IMG6的拍照模式属于第二概率模式，手机检测当前是否处于灭屏且充电的状态。本示例中，手机确定未处于灭屏且充电的状态，手机可以对图像IMG6进行文本检测操作。当手机检测到该图像IMG6中存在文本，则存储该图像IMG6的文本检测结果，且不再对该图像进行后续的文本识别操作。可选地，本示例中的手机可以在图像的属性信息中增加第三标签，该第三标签用于指示该图像IMG6中包含文本，例如，该图像IMG6的属性信息可以为“DCIM_20210928_2010_大光圈_discoveredtext”，其中，“discovered text”为第三标签的值。

经过120ms后，手机响应于用户查看图库的操作，手机切换至如10b所示的图库主界面1106。如10b所示，10b示出了该手机的图库主界面1106，该图库主界面1106中展示了各图像的缩略图。缩略图1109对应的图像为IMG6，标号1107为电池电量的标识信息。该电池电量的标识信息1107指示手机的电量。示例性地，10b中标号1108示出了该图像IMG6的属性信息，该图像IMG6的属性信息中包括了第三标签“discovered text”。

该电池电量的标识信息1107指示当前手机的电量低，用户可以对手机进行了灭屏操作(也可以手机检测到电量低，自行关闭了手机，即手机进行了灭屏操作)，用户为该手机进行充电操作。如图10中的10c所示，显示屏1110处于熄灭状态，充电线1111为该手机进行充电。当手机检测到手机处于灭屏且充电状态，可以查询具有第三标签的图像，并对具有第三标签的图像进行文本识别。本示例中，手机查询到IMG6的属性信息中具有第三标签，则手机对图像IMG6进行文本识别，获得该图像的文本识别结果，并存储图像IMG6的识别结果。

图10中的10d示出了用户点击缩略图查看图像IMG6的场景示意图。如10d所示，手机经过1小时充电后的电量处于满电状态。该图库主界面1112中的电池标识1113显示电量满格。手机响应于用户点击缩略图1114的操作，查询到该缩略图1114对应的图像为图像IMG6。手机在展示该图像IMG6之前，查询该图像IMG6是否有OCR文字识别的识别结果。本示例中，该手机查询到图像IMG6有对应的识别结果，如图10中的10e所示，手机可以经过10ms，从图库主界面1112切换至界面1116。在该界面1116上显示用于指示查看识别结果的控件1117。如10e所示，该控件1117上可以显示用于提示用户点击查看识别结果的信息，如控件1117上显示文字“点击显示识别结果”。可以理解的是，控件1117不限于本示例中所列举的样式，在其他实施例中，控件1117可以通过颜色提示用户点击显示识别结果。可选地，手机还可以通过检测到快捷查看操作后，显示图像IMG6的识别结果，快捷查看操作可以根据实际应用进行设置，例如，可以三指左滑/右滑屏幕，连续三次击打屏幕等，本示例中不作具体限制。

在一个示例中，用户点击该控件1117，手机响应于用户点击控件的操作，手机可以经过10ms后，在显示屏中展示该识别结果。识别结果的示意图可以参照图9中的9d所示。

本示例中，手机检测到图像的拍照模式属于第二概率模式。且手机检测到未处于灭屏且充电状态时，对属于第二概率模式的图像仅进行文本检测的操作，由于不进行文本识别操作，降低了手机的功耗。另外，当手机检测到该图像具有文本时，可以对该图像添加第三标签。手机检测到处于灭屏且充电状态时，该手机查询具有第三标签信息的图像，对具有第三标签信息的图像进行文本识别。而无需对所有属于第二概率模式的图像进行文本检测和文本识别两个步骤，可以进一步降低手机的功耗。

图11为示例性示出的另一种图像的文字识别的应用场景示意图。

图11中的11a示出了该手机拍摄图像的界面图。该手机启动“照相机”应用，如11a所示，界面1201为该“照相机”应用的界面。示例性地，用户选择的拍照模式为大光圈模式1202。手机设置大光圈数值为f2.5(如标号1205所示)。手机响应于用户的拍摄操作(如点击界面1201中的黑色按钮)，拍摄标号1203指示的图像，该标号1203指示的图像中包括手机界面上的被拍摄物体。在生成该图像后，手机读取该图像的属性信息。该图像的属性信息如11a中的标号1204示，即属性信息为“DCIM_20210928_2010_大光圈”。可选地，手机设置该图像的标识信息为“IMG7”(后文中“图像IMG7”用于指示标识信息为“IMG7”的图像)。

在一个示例中，手机检测拍摄图像后，触发手机读取该图像IMG7的属性信息(即“DCIM_20210928_2010_大光圈”)，手机获取该属性信息中的第一标签，该第一标签的值为“DCIM”。手机可以根据该第一标签的值确定该图像属于照片。手机从该属性信息中获取拍照模式标签，获取该拍照模式标签的值“大光圈”，手机确定该图像的拍照模式为大光圈模式。该手机根据预先存储的模式类别的信息(即如图5所示的模式类别的分类信息)确定大光圈模式属于第二概率模式。当识别到图像IMG7的拍照模式属于第二概率模式，手机检测当前是否处于灭屏且充电的状态。

本示例中，手机在拍摄图像之后，检测到电量低，自行进行了灭屏操作。用户为该手机进行充电操作。如图11中的11b所示，显示屏1206处于熄灭状态，充电线1207为该手机进行充电。

由于手机在拍照完后自动进行了灭屏操作，手机确定处于灭屏且充电的状态，手机可以继续对图像IMG7进行OCR文字识别的操作(即包括文本检测和文本识别的操作)。获取对图像IMG7进行文字识别的识别结果，并存储图像IMG7的识别结果。

在一个示例中，当手机检测到充电结束或亮屏状态的情况下，参照图10中的10d～10e，手机响应于用户查看图像IMG7的操作，查询该图像IMG7是否有OCR文字识别的识别结果。本示例中，手机查询到该图像IMG7有OCR文字识别的识别结果，则手机可以经过10ms，从图库主界面切换至显示图像IMG7的界面。同时该显示图像IMG7的界面上还展示有用于触发展示识别结果的控件。其中，响应于用户查看识别结果的操作，手机经过10ms即可显示该识别结果。

需要说明的是，本示例中，展示图像消耗系统的时延以10ms为例，在其他实施例中，手机展示图像所需的时延还可以是5ms等，本示例中不进行具体的限制。

本示例中，手机在触发了读取图像的属性信息后，进行了灭屏操作。当手机确定图像的拍照模式属于第二概率模式，且手机检测到处于灭屏且充电状态，手机可以直接对该图像进行OCR文字识别(即对图像进行文本检测和文本识别两个步骤)。在灭屏状态时，直接对该图像进行OCR文字识别，而不是对其他图像进行文本检测和文本识别，使得对图像进行OCR文字识别具有记忆功能。

图12为示例性示出的另一种图像的文字识别的应用场景示意图。

图12中的12a所示，显示屏1301处于熄灭状态，充电线1302为该手机充电。手机检测到处于充电且灭屏的状态，则手机可以依次遍历图库中的每张图像，对每张图像进行如图2所示的图像的文字识别的方法的流程。为了便于理解，图12中的12b示出了手机处于充电且灭屏状态下图库的示意图。在一个示例中，手机没有存储任何一张图像的识别结果。手机可以按照最近时间依次遍历图像。例如，手机读取图库缩略图1304对应的图像，读取缩略图1304对应的图像的属性信息(即读取“DCIM_20210928_2010_人像”)。手机获取该属性信息的第一标签，确定该图像属于照片。手机从该属性信息中获取拍照模式标签，该拍照模式标签的值为“人像”，手机确定该图像的拍照模式为人像模式。该手机根据预先存储的模式类别的信息，确定人像模式属于第三概率模式，则手机结束对缩略图1304对应的图像的文字识别的流程。

手机结束对缩略图1304对应的图像的处理后，读取图库下一张图像(如缩略图1305对应的图像为IMG8，后文中“图像IMG8”用于指示标识信息为“IMG8”的图像)的属性信息(即读取“DCIM_20210928_2010_大光圈”)。手机获取该属性信息(即“DCIM_20210928_2010_大光圈”)中的第一标签，该第一标签的值为“DCIM”。手机可以根据该第一标签的值确定该图像属于照片。手机从该属性信息中获取拍照模式标签，获取该拍照模式标签的值“大光圈”，手机确定该图像的拍照模式为大光圈模式。该手机根据预先存储的模式类别的信息，确定大光圈模式属于第二概率模式。当识别到图像IMG8的拍照模式属于第二概率模式，手机检测当前是否处于灭屏且充电的状态。手机检测到处于灭屏且充电的状态，则对该图像IMG8进行进行文本检测和文本识别的操作，并存储该图像IMG8的识别结果。

手机结束对图像IMG8的文字识别后，读取图库下一张图像(如缩略图1306对应的图像的标识信息为“IMG9”，后文中“图像IMG9”用于指示标识信息为“IMG9”的图像)的属性信息。手机获取该属性信息(即“DCIM_20210928_2010_水印”)中的第一标签，该第一标签的值为“DCIM”。手机可以根据该第一标签的值确定该图像属于照片。手机从该属性信息中获取拍照模式标签，获取该拍照模式标签的值“水印”，手机确定该图像的拍照模式为水印模式。该手机根据预先存储的模式类别的信息确定水印模式属于第一概率模式，该手机执行OCR文字识别步骤，即手机对拍摄的图像(即图像IMG9)进行OCR文字识别，并存储该识别结果。手机继续对后续的图像进行处理，本示例中将不再一一列举。需要说明的是，标号1307为手机中时间的标识，通过标号1307可知当前充电的时间为20点10分。

经过1小时的充电后，手机充满电量后，响应于用户查看图库的操作，手机展示图库主界面1308，如12c所示，图库主界面中标号1309所示的时间(即21点10分)。手机响应于用户点击缩略图1310的操作，查询缩略图1310对应的图像(缩略图1310对应的图像的标识信息为“IMG9”，后文中“图像IMG9”用于指示标识信息为“IMG9”的图像)。手机可以在读取该图像IMG9的属性信息之前，根据图像IMG9的标识信息(即标识信息为“IMG9”)，查询该图像IMG9是否有文本识别的识别结果。本示例中，该手机查询到图像IMG9有对应的识别结果，手机经过10ms，手机切换至界面1311。在该界面1311上显示用于指示查看识别结果的控件1313。手机响应于控件1313，手机切换界面，以显示图像IMG9的识别结果，识别结果可以参照图9中的9d所示的识别结果1014。

需要说明的是，手机检测到未处于灭屏且充电的状态，则结束主动对图像进行文字识别的流程。若手机接收到用户点击图像的操作，则触发手机进行本申请实施例中的图像的文字识别的流程。

本示例中，手机处于灭屏且充电状态时，将触发手机主动访问图库，并对图库中的每张图像进行本申请实施例中图像的文字识别的操作。手机若确定图像的拍照模式属于第三概率模式，则手机不对该图像进行任何OCR文字识别的操作。手机若确定图像的拍照模式为第二概率模式且检测到手机依然处于灭屏且充电状态，手机对该图像进行OCR文字识别的操作。手机若确定图像的拍照模式属于第一概率模式，则直接对该图像进行OCR文字识别。并保存图像的文字识别结果。在手机结束充电或处于亮屏状态后，手机可以快速响应于用户查看识别结果的操作，快速在显示屏中展示出图像的文字识别结果，减少展示识别结果的时延，提高用户的使用文字识别的体验。且本申请中，手机处于灭屏且充电的状态，手机主动进行图像的文字识别，减少手机处于未充电状态时对图像进行OCR文字识别，进而减小手机的功耗，提高手机的续航能量。

图13为示例性示出的另一种图像的文字识别的应用场景示意图。

在一个示例中，手机处于灭屏且充电状态时，将触发手机主动访问图库，依次对图库中的图像进行本申请实施例中图像的文字识别的操作。手机若保存了图像的文字识别结果，可以在图库中查找该图像的缩略图，并在图库上进行标记，以提示用户该缩略图对应的图像有文字识别结果。本示例中，如图13中的13a所示，界面1401展示了图库中的各缩略图，缩略图1402对应的图像的拍照模式为第三概率模式，无文字识别结果，手机不进行标记。手机存储有缩略图1403对应的图像的文字识别结果，手机在该缩略图1403下显示标记1404，以指示用户该存储有该缩略图1403对应的图像的文字识别结果。手机存储有缩略图1405对应的图像的文字识别结果，手机在该缩略图1405下显示标记1406。如13b所示，手机响应于用户点击缩略图1403的操作，经过10ms时延，手机将界面1401切换为界面1408。该界面1408上显示有该缩略图1403对应的图像以及控件1409，控件1409用于触发显示当前界面中图像的OCR文字识别结果，控件1409可以通过文字提示用户触发显示OCR文字识别的识别结果，例如，如13b所示在控件1409上显示文字“点击显示识别结果”，或者，可以通过控件1409的颜色提示用户触发显示当前界面中图像的OCR文字识别的识别结果。

本示例中，在图库界面显示有标记，该标记用于指示用户图像具有文字识别结果，便于用户快速查看文字识别结果，减少查看文字识别结果时延，提高用户的体验。

图14为示例性示出的另一种图像的文字识别的应用场景示意图。手机检测到拍摄操作后，不触发执行本申请实施例中如图2所示的图像的文字识别的流程。本示例中，手机检测到用户查看图像的操作后，触发手机执行如图2所示的图像的文字识别的流程。图14中的14a示出了图库主界面的示意图。手机响应于与用户点击缩略图1502的操作，手机读取该缩略图1502对应的图像的属性信息(如：DCIM_20210928_2010_大光圈)。一个示例中，缩略图1502对应的图像的标识信息为IMG11。手机获取图像IMG11的属性信息中的第一标签“DCIM”，确定该图像IMG11属于照片。手机获取该属性信息中的拍照模式标签“大光圈”，确定该图像IMG11的拍照模式为大光圈模式。手机根据如图5所示的模式类别的信息，确定该图像IMG11属于第二概率模式。手机检测是否处于灭屏且充电的状态，示例性地，手机检测到手机未处于灭屏且充电的状态。可选地，手机对图像IMG11进行文本检测的操作，并存储该文本检测的文本检测结果。手机可以经过120ms后，从界面1501切换至界面1507，在该界面1507上显示控件1508，该控件1508用于指示该图像中存在文本，以及用于触发对图像IMG11进行后续的文本识别的操作。

需要说明的是，本示例中触发执行本申请实施例中如图2所示的图像的文字识别的流程的时机仅为示例性举例，在其他实施例中，还可以是点击图库时触发等。

另外，本示例中的方法也可以对摄像模式进行处理，录像可以被划分为第三概率模式，也可以被划分为第二概率模式。例如，录像可以被划分为第二概率模式，用户打开摄影文件，并指定某一帧图像为待处理的指定图像。手机检测到用户确定了指定图像后，获取该指定图像的属性信息，该指定图像的属性信息可以为“DCIM_20210928_2010_录像”)。手机读取第一标签，确定该指定图像为照片，获取拍摄模式标签，确定该指定图像为第二概率模式。若检测到手机处于灭屏且充电的状态，则识别该指定图像，并存储图像的识别结果。

图15a为示例性示出的一种对图像进行文字识别的场景示意图。本示例中的场景中，以手机检测到用户查看图像的操作时触发执行本示例中图像的文字识别的操作为例。用户点击查看图像1602，手机获取该图像1602的属性信息。手机从图像1602的属性信息中获取第一标签，第一标签用于指示图像的来源方式。当手机根据第一标签确定该图像1602为照片，则手机从图像1602的属性信息中获取图像1602的拍照模式标签，读取该图像1602的拍照模式标签的值。手机根据模式类别，确定图像1602的拍照模式属于第二概率模式，则手机检测是否处于充电且灭屏的状态。当手机检测到未处于充电且灭屏的状态，则结束对图像1602进行文字识别的操作。手机可以在经过10ms的时长后，显示如图15a所示的显示界面1601，显示界面1601上显示有该图像1602，同时在该图像1602上显示有控件1603。控件1603用于触发对图像1602进行OCR文字识别的操作。例如，若用户点击该图像1602，则触发手机对该图像1602进行OCR文字识别，即进行文本检测和文本识别(也称文字识别)的操作。手机可以切换至新的界面显示该OCR文字识别结果。手机也可以在该图像1602上对识别到的文字以高亮颜色进行标注。

图15b为示例性示出的一种对图像进行文字识别的场景示意图。本示例中的场景中，用户点击查看图像1505，手机获取该图像1505的属性信息，手机从图像1505的属性信息中获取第一标签，第一标签用于指示图像的来源方式。当手机根据第一标签确定该图像1505为照片，则手机从图像1505的属性信息中获取图像1505的拍照模式标签，读取该图像1505的拍照模式标签的值。手机确定图像1505的拍照模式属于第二概率模式，则手机检测是否处于充电且灭屏的状态。当手机检测到未处于充电且灭屏的状态，则对图像1505进行文本检测的操作，获取文本检测结果。当手机检测到该图像1505存在文本检测结果，可以在图像1505上显示控件1606。例如，手机可以在经过230ms的时长后，显示为如图15b所示的显示界面1604，显示界面1604上显示有该图像1505，同时在该图像1505上显示有控件1606。控件1606用于触发对图像1505进行文本识别的操作。控件1606可以设置为灰色，本示例中以横线填充代表灰色。在其他示例中，控件1606的颜色还可以设置为其他颜色，如白色等。当手机检测到用户点击该控件1606的操作，触发手机对该图像1606进行文本识别的操作，手机可以切换至新的界面显示该OCR文字识别结果。手机也可以在该图像1602上对识别到的文字以高亮颜色进行标注。

图15c为示例性示出的一种对图像进行文字识别的场景示意图。本示例中的场景中，用户点击查看图像1608，手机获取该图像1608的属性信息，手机从图像1608的属性信息中获取第一标签，第一标签用于指示图像的来源方式。当手机根据第一标签确定该图像1608为照片，则手机从图像1608的属性信息中获取图像1608的拍照模式标签，读取该图像1608的拍照模式标签的值。手机确定图像1608的拍照模式属于第一概率模式，则对图像1608进行OCR文字识别的操作，获取OCR文字识别结果。当手机检测到该图像1608存在OCR文字识别结果，可以在图像1608上显示控件1611。例如，手机可以在经过630ms的时长后，切换为如图15c所示的显示界面1607，显示界面1607上显示有该图像1608，同时在该图像1608上显示有控件1611。控件1611填充颜色与控件1605的填充颜色不同，例如，可以是蓝牙填充该控件1611。

在一个示例中，手机在该图像1602上对识别到的文字以高亮颜色进行标注，如图15c中的1609、1610等。其中，本示例中，高亮以虚线框表征。该控件1611还可以是图标，以用于指示该图像1608存在OCR文字识别结果。

在另一个示例中，手机响应于用户点击控件1611的操作，在该图像1608上对识别到的文字以高亮颜色进行标注。其中，本示例中，高亮以虚线框表征。

另外，执行本申请示例中图像的文字识别的操作的电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图16是本申请实施例的电子设备100的软件结构框图。

电子设备100的分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为五层，从上至下分别为应用程序层，应用程序框架层，系统层，硬件抽象层以及内核层。

应用程序层可以包括一系列应用程序包。

如图16所示，应用程序包可以包括相机，图库，相机，系统管理，OCR引擎以及智慧截屏等应用程序。

本申请实施例中图库展示图像、触发OCR引擎对图像进行OCR文字识别的操作。

OCR引擎可以对图像进行OCR文字识别的操作，OCR文字识别包括文本检测和文本识别两个步骤。

如图16所示，应用程序框架层可以包括活动管理器，窗口提供器，内容管理器，通知管理器以及电池管理器等。通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息。本示例中通知管理器可以向手机发送灭屏且充电的消息。

本申请实施例中电池管理器可以检测电池的状态以及检测手机是否处于灭屏状态。同时，电池管理器在检测到电子设备处于充电且灭屏的状态时，则可以向图库发送灭屏且充电的消息。

如图16所示，系统层可以包括多个功能模块。例如：表面管理层(surfacemanager)，媒体库(Media Libraries)，SQLite，二维图像处理库以及Android运行时等。

如图16所示，硬件抽象层可以包括多个模块。例如：图形模块，蓝牙模块，摄像头模块、Wi-Fi模块以及硬件合成器等模块。图形模块用于生成图像。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动等。

图17为示例性示出的一种手机内部模块之间的交互示意图。本示例中，以手机检测到用户查看图像的操作时触发执行本示例中图像的文字识别的操作为例。

步骤1700：用户触发拍照操作。例如，用户点击拍照按钮，或者用户通过声音控制拍照操作，或者点击延时拍照的按钮等。

步骤1701：相机执行拍照的操作。

相机检测到用户触发拍照的操作，执行拍照的操作。生成图像以及拍照模式信息，相机将图像以及图像的拍照模式的信息发送至多媒体数据库。

步骤1702：多媒体数据库存储图像A以及拍照模式。多媒体数据库可以将拍照模式的信息存储至图像的属性信息中，以拍照模式标签指示该图像的拍照模式。

步骤1704：用户执行打开图像A的操作。

本示例中，手机显示图库主界面，图库主界面中显示有各图像的缩略图。用户执行打开图像A的操作。打开图像的操作可以是点击该图像的缩略图。

步骤1705：手机的图库接收到用户打开图像A的操作。

手机的图库接收到打开图像A的操作，可以触发图库执行步骤1706。

步骤1706：图库向多媒体数据库发起查询图像A是否存在检测结果的请求。

多媒体数据库可以是SQLite数据库。可选地，图像A的检测结果用于指示图像A的拍照模式所属的概率类别。例如，概率类别包括：第一概率模式、第二概率模式以及第三概率模式。

步骤1707：当多媒体数据库查询到图像A存在检测结果，则执行步骤1708。

在一个示例中，可以为图像添加用于指示图像是否存在检测结果的检测标签，例如，本示例中以“Judge_flag”作为该检测标签的标识，当多媒体数据库查询到图像A中的Judge_flag的值为真值(如“Judge_flag＝true或者Judge_flag＝1”)，则确定该图像A存在检测结果。当多媒体数据库查询到图像A中的Judge_flag的值为假值(如“Judge_flag＝false或者Judge_flag＝0”)，则确定该图像A不存在检测结果。

在一个示例中，当多媒体数据库查询到该图像A存在检测结果，则进一步查询该图像A是否存在OCR文字识别结果。当多媒体数据库查询到图像A存在OCR文字识别结果，则将图像A以及该图像A的识别结果返回图库。当多媒体数据库未查询到该图像A的OCR文字识别结果，则将该图像A以及图像A的检测结果返回该图库。例如，当多媒体数据库查询到图像A1的拍照模式属于第三概率模式且未查询到图像A1的识别结果，该多媒体数据库可以将该图像A1以及该图像A1的检测结果(即图像A1的拍照模式为第三概率模式)返回图库。

需要说明的是，当多媒体数据库查询到图像A1的检测结果且未查询到图像A1的OCR文字识别结果，则将该图像A1以及该图像A的检测结果返回图库。使得图库无需再次根据图像的拍照模式标签判断该图像所属的概率类型，进一步减少了手机的功耗。

在另一个示例中，当多媒体数据库未查询到该图像A存在检测结果，则向图库返回图像A以及图像A的属性信息。

本示例中，以查询到图像A的检测结果以及图像A的OCR文字识别结果为例。该多媒体数据库将执行步骤1708。

步骤1708：多媒体数据库向图库返回该图像A以及该图像A的OCR文字识别结果。

步骤1709：图库显示图像A以及显示控件A。

控件A用于指示触发对图像A进行OCR文字识别的操作，该控件A可以如图15c所示的控件1611。

步骤1710：用户点击控件A。

需要说明的是，控件A的触发还可以是其他方式，如双击、滑动、多指触摸等。

步骤1711：图库显示图像A以及显示OCR文字识别结果。

图库响应于用户点击控件A的操作，显示该图像的OCR文字识别结果。在一个示例中，图库可以同时显示该图像A以及该图像A的OCR文字识别结果，如图15c所示。

在另一个示例中，图库仅显示图像A的OCR文字识别结果。

本示例中，图库在展示图像之前，向多媒体数据库查询是否存在检测结果。当检测到存在图像的检测结果时，可以直接获取该图像的检测结果，无需再次对图像进行本申请中图像的文字识别的操作，进一步缩小了手机的功耗。

图18为示例性示出的一种手机内部模块之间的交互示意图。

步骤1801：用户执行打开图像B的操作。

本示例中，手机显示图库主界面，图库主界面中显示有各图像的缩略图。用户执行打开图像B的操作。打开图像的操作可以是点击该图像的缩略图。

步骤1802：手机的图库接收到用户打开图像B的操作。

手机的图库接收到打开图像B的操作，可以触发图库执行步骤1803。

步骤1803：图库向多媒体数据库发起查询图像B是否存在检测结果的请求。

步骤1804：多媒体数据库若未查询到图像B存在检测结果，则执行步骤1805。

在一个示例中，当多媒体数据库未查询到该图像B存在检测结果，则向图库返回图像B以及图像B的属性信息。

需要说明的是，本示例中以多媒体数据未查询到图像B的检测结果为例。该多媒体数据库将执行步骤1805。

本示例中，多媒体数据库查询图像B是否存在检测结果的方式与步骤1707类似，可以参照步骤1707中的相关描述来理解，此处不再进行赘述。

步骤1805：多媒体数据库向图库返回该图像B以及该图像B的属性信息。

该图像B的属性信息可以包括该图像B的第一标签以及拍照模式标签，该拍照模式标签用于指示图像B中的拍照模式的类别。第一标签用于指示图像的来源方式，第一标签的值为“DCIM”，指示该图像为照片。

需要说明的是，当图库根据第一标签确定图像为截图，则可以结束流程；也可以采用其他策略对图像B进行OCR文字识别。

步骤1806：图库从属性信息中获取拍照模式标签。

一个示例中，图库获取该属性信息(即“DCIM_20210928_2010_水印”)中的第一标签，该第一标签的值为“DCIM”。图库可以根据该第一标签的值确定该图像属于照片。图库从该属性信息中获取拍照模式标签，获取该拍照模式标签的值“水印”。

步骤1807：图库检测到图像B的拍照模式属于第一概率模式。则执行步骤1808。

本示例中，拍照模式标签的值为“水印”，该图库根据预先存储的模式类别的信息(如图5)确定该图像B的拍照模式为水印模式。

步骤1808：图库触发OCR引擎执行OCR文字识别。

OCR引擎包括执行文本检测和文本识别(也称文字识别)两个步骤。

步骤1809：OCR引擎执行OCR文字识别。

本示例中，OCR引擎对图像B进行OCR文字识别的操作，获得图像B的OCR文字识别结果(也可以称为图像B的文字识别结果)。

步骤1810：OCR引擎向多媒体数据库传输图像B的OCR文字识别结果。

步骤1811：OCR引擎向图库返回图像B的OCR文字识别结果。

步骤1812：多媒体数据库存储图像B的OCR文字识别结果。

示例性地，该多媒体数据库接收到OCR引擎传输的图像B的OCR文字识别结果(也即OCR识别结果)，存储该图像B的识别结果，同时该多媒体数据库还可以将检测标签置为真值，如Judge_flag＝true。

步骤1813：图库显示图像B以及显示控件B。

图库接收到OCR引擎返回的OCR文字识别结果后，可以显示图像B以及控件B，控件B用于指示触发显示图像B的OCR文字识别结果。控件B可以如图15c所示的控件1611。

步骤1814：用户点击控件B。

需要说明的是，控件B的触发还可以是其他方式，如双击、滑动、多指触摸等。

步骤1815：图库显示图像B以及显示OCR文字识别结果。

图库响应于用户点击控件B的操作，显示该图像的OCR文字识别结果。

在一个示例中，图库可以同时显示该图像B以及该图像B的OCR文字识别结果。

在另一个示例中，图库可以仅显示图像B的OCR文字识别结果。本示例中以图库同时显示该图像B以及该图像B的OCR文字识别结果为例。

图19为示例性示出的一种手机内部模块之间的交互示意图。

步骤1901：用户执行打开图像C的操作。

本示例中，手机显示图库主界面，图库主界面中显示有各图像的缩略图。用户执行打开图像C的操作。打开图像的操作可以是点击该图像的缩略图。

步骤1902：手机的图库接收到用户打开图像C的操作。

手机的图库接收到打开图像C的操作，可以触发图库执行步骤1903。

步骤1903：图库向多媒体数据库发起查询图像C是否存在检测结果的请求。

步骤1904：多媒体数据库若未查询到图像C存在检测结果，则执行步骤1905。

在一个示例中，当多媒体数据库未查询到该图像C存在检测结果，则向图库返回图像C以及图像C的属性信息。

本示例中，以多媒体数据库未查询到图像C的检测结果为例。该多媒体数据库将执行步骤1905。

本示例中多媒体数据库查询图像C是否存在检测结果的方式与步骤1707类似，可以参照步骤1707中的相关描述来理解，此处不再进行赘述。

步骤1905：多媒体数据库向图库返回该图像C以及该图像C的属性信息。

该步骤与步骤1805类似，可以参照步骤1805的描述，此处不再进行赘述。

步骤1906：图库从图像C的属性信息中获取拍照模式标签。

一个示例中，图库可以获取该图像C的属性信息(如“DCIM_20210928_2010_大光圈”)中的第一标签。图库根据该第一标签的值确定该图像属于照片。图库从该属性信息中获取拍照模式标签的值。例如，图库从该属性信息中获取拍照模式标签的值“大光圈”。

步骤1907：图库检测到图像C的拍照模式属于第二概率模式。则执行步骤1908。

本示例中，图库根据预先存储的模式类别的信息(即如图5所示的模式类别的分类信息)确定大光圈模式属于第二概率模式。

步骤1908：确定手机未处于灭屏且充电的状态。

一个示例中，由手机中的电池管理模块检测手机是否处于灭屏且充电的状态，当检测到手机处于灭屏且充电的状态，则电池管理模块调用通知管理器的通知接口；该通知管理器向图库发送手机处于灭屏且充电的状态的信息。图库接收到该通知管理器发送的信息后，确定手机处于灭屏且充电的状态。

当图库在预设时长内未接收到通知管理器发送的手机处于灭屏且充电状态的信息，则图库确定手机未处于灭屏且充电的状态。可选地，预设时长可以根据需求进行设置，例如，预设时长可以设置为1ms、0.5ms等。本示例中，以图库未接收到通知管理器发送的手机处于灭屏且充电状态的信息为例。

当图库确定手机未处于灭屏且充电的状态，则执行步骤1909。

步骤1909：图库触发OCR引擎对图像C进行文本检测的操作。

OCR引擎包括执行文本检测和文本识别(也称文字识别)两个步骤。本示例中，图库向OCR引擎发送图库发送文本检测的指示(即图库指示对图像C进行文本检测)。

步骤1910：OCR引擎对图像C进行文本检测的操作，获得文本检测结果。

步骤1911：OCR引擎向多媒体数据库传输文本检测结果。

步骤1912：OCR引擎向图库传输文本检测结果。

步骤1913：多媒体数据库存储图像C的文本检测结果。

示例性地，多媒体数据存储图像C的文本检测结果，同时该多媒体数据库还可以将检测标签置为真值，如Judge_flag＝true。

步骤1914：图库显示图像C以及显示控件C。

图库接收到OCR引擎返回的图像C的文本检测结果后，可以显示图像C以及控件C，控件C用于指示触发OCR引擎对图像C进行文本识别的操作。控件C可以如图15b所示的控件1606。

步骤1915：用户点击控件C。

图库显示该控件C(如图16中的控件1606)，可选地，该控件C的颜色为灰色，以用于指示用户该图像C中存在文本。用户可以通过点击控件C的方式触发该控件。

需要说明的是，控件C的触发还可以是其他方式，如双击、滑动、多指触摸等。

步骤1916：图库响应于接收的点击控件C的操作，读取图像C的文本检测结果。

图库接收到用户点击控件C的操作，响应于该点击控件C的操作，图库向多媒体数据库发送读取文本检测结果的请求。该请求用于指示多媒体数据库向OCR引擎返回该图像C的文本检测结果，以及指示多媒体数据库触发OCR引擎对图像C进行文本识别的操作。

步骤1917：多媒体数据库向OCR引擎返回该图像C的文本检测结果，并触发该OCR引擎对图像C进行文本识别的操作。

步骤1918：OCR引擎根据文本检测结果对图像C进行文本识别的操作。

OCR引擎根据文本检测结果，可以获取文本所在区域，进而对图像C中的文本进行识别操作，获得图像C的OCR文字识别结果。

步骤1919：OCR引擎向图库返回OCR文字识别结果。

步骤1920：图库显示图像C以及显示OCR文字识别结果。

在一个示例中，图库可以同时显示该图像C以及该图像C的OCR文字识别结果，如图15c所示。在另一个示例中，图库可以仅显示图像C的OCR文字识别结果。本示例中以图库同时显示该图像C以及该图像C的OCR文字识别结果为例。

步骤1921：OCR引擎向多媒体数据库传输OCR文字识别结果。

步骤1922：多媒体数据库存储图像C的OCR文字识别结果。

图20为示例性示出的一种手机内部模块之间的交互示意图。

步骤2001：用户执行打开图像D的操作。

本示例中，手机显示图库主界面，图库主界面中显示有各图像的缩略图。用户执行打开图像D的操作。打开图像的操作可以是点击该图像D的缩略图。

步骤2002：手机的图库接收到用户打开图像D的操作。

手机的图库接收到打开图像D的操作，可以触发图库执行步骤2003。

步骤2003：图库向多媒体数据库发起查询图像D是否存在检测结果的请求。

步骤2004：多媒体数据库若未查询到图像D存在检测结果，则执行步骤2005。

步骤2005：多媒体数据库向图库返回该图像D以及该图像D的属性信息。

步骤2006：图库从图像D的属性信息中获取拍照模式标签。

一个示例中，图库读取该图像D的属性信息。例如，该图像D的属性信息为“DCIM_20210928_2010_人像”。图库获取该属性信息中的第一标签，该第一标签的值为“DCIM”。图库可以根据该第一标签的值确定该图像IMG4属于照片，则图库可以继续查询拍照模式模式标签，从该属性信息中获取拍照模式标签。例如，本示例中获取该拍照模式标签的值“人像”，图库确定该图像D的拍照模式为人像模式。该图库根据预先存储的模式类别的信息(如图5所示的模式类别的分类信息)确定人像模式属于第三概率模式。

步骤2007：图库检测到图像D的拍照模式属于第三概率模式。则执行步骤2008。

本示例中，拍照模式标签的值为“人像”，图库可以确定该图像D的拍照属于人像拍照模式。该图库根据预先存储的模式类别的信息(如图5所示)确定人像拍照模式属于第三概率模式。

在一个示例中，图库在确定该图像D的拍照模式属于第三概率模式后，可以向多媒体数据库发送该图像D的检测结果，由多媒体数据存储该图像D的检测结果，同时该多媒体数据库还可以将该图像D的检测标签置为真值，如Judge_flag＝true。

步骤2008：图库显示图像D以及显示控件D

图库接收到OCR引擎返回的图像D的文本检测结果后，可以显示图像D以及控件D，控件D用于指示触发OCR引擎对图像D进行文本识别的操作。控件D可以如图15a所示的控件1603。

步骤2009：用户点击控件D。

图库显示该控件D(如图15a中的控件1603)，可选地，该控件D的颜色为灰色，以用于指示用户该图像D中存在文本。用户可以通过点击控件D的方式触发该控件。

步骤2010：图库响应于接收的点击控件D的操作，触发OCR引擎对图像D进行OCR文字识别的操作。

步骤2011：OCR引擎对图像D进行OCR文字识别的操作。

OCR引擎对图像D进行OCR文字识别的操作，获得图像D的OCR文字识别结果。OCR引擎先对图像D进行文本检测的操作，当OCR引擎未检测到文本，则OCR对图像D不再进行文本识别的操作。

步骤2012：OCR引擎向图库返回OCR文字识别结果。该图像D的OCR文字识别结果指示该图像D中不存在文字。

步骤2013：OCR引擎向多媒体数据库传输该OCR文字识别结果。

步骤2014：多媒体数据库存储图像D的OCR文字识别结果。

步骤2015：图库显示图像D以及显示OCR文字识别结果。

图库控制显示屏显示图像D以及显示图像D的OCR文字识别结果。可以理解的是，由于图像D的识别结果指示图像D中不存在文本，可以在显示屏中显示“未发现文字”的提示信息，或者以其他形式的图标进行提示“如可以将如图15a所示的控件1603上标注感叹号，或者将该控件1603的颜色切换为白色或者红色”。在另一个示例中，由于图像D的OCR文字识别结果指示不存在文字，图库可以仅显示图像D。

步骤2100：手机的电池管理检测到手机处于灭屏且充电的状态，调佣通知管理器中的通知接口。

步骤2101：通知管理器向图库发送指示手机处于灭屏且充电的状态的信息。

通知管理器的通知接口接收到电池管理发送的信息后，向图库发送用于指示手机处于灭屏且充电的状态的信息。

步骤2102：图库向多媒体数据库查询图像E是否存在检测结果。

该场景中，图库在确定手机处于灭屏且充电的状态，可以依次对图库中的图像进行本申请示例中的图像的文字识别操作。图库可以按照最近时间依次遍历图库中的图像，例如，图库开始对图像E进行处理。该图库向多媒体数据库查询图像E是否存在检测结果。可选地，图像E的检测结果用于指示图像E的拍照模式所属的概率类别。例如，概率类别包括：第一概率模式、第二概率模式以及第三概率模式。

步骤2103：多媒体数据库若未查询到图像E存在检测结果，则执行步骤2104。

本示例中多媒体数据库查询图像E是否存在检测结果的方式可以参考步骤1707。

在一个示例中，当多媒体数据库未查询到该图像E存在检测结果，则向图库返回图像E以及图像E的属性信息。需要说明的是，本示例中以多媒体数据未查询到图像E的检测结果为例。

步骤2104：多媒体数据库向图库返回该图像E以及该图像E的属性信息。

步骤2105：图库从图像E的属性信息中获取拍照模式标签。

该步骤与步骤1906类似，可以参照步骤1906的描述，此处不再进行赘述。

步骤2106：图库检测到图像E的拍照模式属于第二概率模式。则执行步骤2107。

步骤2107：图库确定手机处于灭屏且充电的状态。

图库在预设时长内未收到手机结束灭屏且充电的状态，则图库确定手机依然处于灭屏且充电的状态。可选地，预设时长可以根据需求进行设置，例如，预设时长为1ms等。

步骤2108：图库触发OCR引擎对图像E进行OCR文字识别。

步骤2109：OCR引擎对图像E进行OCR文字识别的操作。

OCR引擎对图像E进行OCR文字识别的操作，获得图像E的OCR文字识别结果。

步骤2110：OCR引擎向多媒体数据库传输OCR文字识别结果。

示例性地，OCR引擎向多媒体数据库传输该图像E的OCR文字识别结果。

步骤2111：OCR引擎向图库传输OCR文字识别结果。

示例性地，OCR引擎向图库传输该图像E的OCR文字识别结果。

步骤2112：多媒体数据库存储该OCR文字识别结果。

该多媒体数据库接收到OCR引擎传输的图像E的OCR文字识别结果，存储该图像E的识别结果，同时该多媒体数据库还可以将检测标签置为真值，如Judge_flag＝true。

步骤2113：图库向多媒体数据库发起查询图像F是否存在检测结果的请求。

在一个示例中，多媒体数据存储了该图像E的OCR文字识别结果后。可以触发图库对下一张图像F进行处理。例如，可以向图库发送存储了图像E的OCR文字识别结果的消息。在另一个示例中，图库可以并行对多个图像进行处理。图库还可以在检测到达到预设处理时长后，自动触发对下一张图像F的处理。

图库对图像F进行处理，即可以向多媒体数据库发起查询图像F是否存在检测结果的请求。

步骤2114：多媒体数据库若未查询到图像F存在检测结果，则执行步骤2115。

步骤2115：多媒体数据库向图库返回该图像F以及该图像F的属性信息。

步骤2116：图库从图像F的属性信息中获取拍照模式标签。

步骤2117：图库检测到图像F的拍照模式属于第三概率模式。

步骤2118：图库向多媒体数据库返回图像F的拍照模式的类别。

步骤2119：多媒体数据库存储图像F的检测结果。

示例性地，图像F的拍照模式属于第三概率模式，图库不触发OCR引擎进行OCR文字识别，多媒体数据存储该图像F的检测结果(即指示图像F的拍照模式属于第三概率模式)，同时该多媒体数据库将检测标签置为真值，如Judge_flag＝true。

可以理解的是，各实施例中相同或相似之处可以相互参考进行理解。电子设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。

Claims

1.一种图像的文字识别方法，其特征在于，应用于电子设备，所述方法包括：

获取第一照片的属性信息，所述第一照片的属性信息包括：所述第一照片的拍照模式标签；

根据所述第一照片的拍照模式标签确定所述第一照片的拍照模式所属的模式类别，所述模式类别包括第一类模式和第二类模式；

当根据所述第一照片的拍照模式标签确定所述第一照片的拍照模式属于第一类模式，则对所述第一照片进行OCR文字识别，存储所述第一照片的文字识别结果；响应于接收到的第一用户操作，展示所述第一照片以及提示第一提示信息，所述第一用户操作用于指示所述电子设备展示所述第一照片，所述第一提示信息用于指示用户查看所述第一照片的文字识别结果；

当根据所述第一照片的拍照模式标签确定所述第一照片的拍照模式属于第二类模式，则检测所述电子设备是否处于灭屏且充电的状态；当检测到所述电子设备处于灭屏且充电的状态时，则对所述第一照片进行OCR文字识别，存储所述第一照片的文字识别结果；响应于接收到的所述第一用户操作，展示所述第一照片以及提示所述第一提示信息；当检测到所述第一照片的拍照模式属于第二类模式，且检测到所述电子设备未处于灭屏且充电的状态，则取消对所述第一照片进行OCR文字识别的操作。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当检测到所述第一照片的拍照模式属于第三类模式，则取消对所述第一照片进行OCR文字识别的操作；

响应于接收到的所述第一用户操作，展示所述第一照片。

3.根据权利要求2所述的方法，其特征在于，在检测到所述第一照片的拍照模式属于第三类模式之后，所述方法还包括：

响应于接收到的第二用户操作，对所述第一照片进行OCR文字识别，获得所述第一照片的文字识别结果，其中，所述第二用户操作用于指示所述电子设备对所述第一照片进行OCR文字识别的操作；

展示所述第一照片的文字识别结果。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若接收到第二用户操作，对所述第一照片进行OCR文字识别，获得所述第一照片的文字识别结果；所述第二用户操作用于指示所述电子设备对所述第一照片进行OCR文字识别的操作；

展示所述第一照片的文字识别结果。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第二照片的属性信息，所述第二照片的属性信息包括：所述第二照片的拍照模式标签；

根据所述第二照片的拍照模式标签确定所述第二照片的拍照模式所属的模式类别；

当根据所述第二照片的拍照模式标签确定所述第二照片的拍照模式属于第二类模式，则检测所述电子设备是否处于灭屏且充电的状态；当检测到所述电子设备未处于灭屏且充电的状态，则对所述第二照片进行OCR文字识别中的文本检测的操作，获得所述第二照片的文本检测结果，并保存所述第二照片的文本检测结果。

6.根据权利要求5所述的方法，其特征在于，在所述保存所述第二照片的文本检测结果之后，所述方法还包括：

响应于接收到的第三用户操作，展示所述第二照片以及在所述第二照片的文本检测结果指示所述第二照片中存在文本的情况下提示第二提示信息，所述第三用户操作用于指示所述电子设备展示所述第二照片，所述第二提示信息用于指示所述第二照片存在文本。

7.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

响应于接收到第四用户操作，所述第四用户操作用于指示对所述第二照片进行OCR文字识别中的文本识别的操作：

获取所述文本检测结果；

当确定所述文本检测结果指示所述第二照片中存在文本，则对所述第二照片进行OCR文字识别中的文本识别的操作，获得所述第二照片的文字识别结果；

展示所述第二照片的文字识别结果。

8.根据权利要求5所述的方法，其特征在于，在所述保存所述第二照片的文本检测结果之后，所述方法还包括：

当检测到所述电子设备处于灭屏且充电的状态，则获取所述文本检测结果，当所述文本检测结果指示所述第二照片中存在文本，则对所述第二照片进行所述OCR文字识别中的文本识别的操作，获得所述第二照片的文字识别结果；

响应于接收到的第三用户操作，展示所述第二照片以及提示第三提示信息，所述第三用户操作用于指示所述电子设备展示所述第二照片，所述第三提示信息用于指示用户查看所述第二照片的文字识别结果。

9.根据权利要求5所述的方法，其特征在于，在所述保存所述第二照片的文本检测结果之后，所述方法还包括：

当确定所述文本检测结果指示所述第二照片中存在文本，则为所述第二照片添加第三标签，所述第三标签用于指示所述第二照片中存在文本；

所述方法还包括：

当检测到所述电子设备处于灭屏且充电的状态，获取包含所述第三标签的照片，所述包含所述第三标签的照片包括所述第二照片；

对获取的包含所述第三标签的各个照片进行所述OCR文字识别中的文本识别，获得包含所述第三标签的各个照片的识别结果，并保存包含所述第三标签的各个照片的文字识别结果。

10.根据权利要求1至6、8或9中任一项所述的方法，其特征在于，所述第一类模式包括以下任一种或多种的组合：文档矫正模式或水印模式。

11.根据权利要求1至6、8或9中任一项所述的方法，其特征在于，第二类模式包括以下任一种或多种的组合：大光圈模式、高像素模式或普通拍照模式。

12.根据权利要求2或3所述的方法，其特征在于，第三类模式包括以下任一种或多种的组合：夜景模式、人像模式、全景模式、慢动作模式、水下模式、黑白艺术模式、流光快门模式、延时摄影模式、超级微距模式、多机位模式或专业模式。

13.根据权利要求1至6、8或9中任一项所述的方法，其特征在于，所述第一照片的属性信息包括所述第一照片的第一标签，所述第一标签用于指示所述第一照片的类别，所述类别包括照片或截图；

在根据所述第一照片的拍照模式标签确定所述第一照片的拍照模式所属的模式类别之前，所述方法还包括：检测到所述第一标签指示所述第一照片的类别为照片。

14.根据权利要求1至6、8或9中任一项所述的方法，其特征在于，在所述获取第一照片的属性信息之前，所述方法还包括：

检测到的预设触发条件，所述预设触发条件包括：用户查看图库中任一图像的查看操作，或，所述电子设备处于灭屏且充电的状态。

15.根据权利要求1所述的方法，其特征在于，在存储所述第一照片的文字识别结果之后，所述方法还包括：

在图库界面中所述第一照片的缩略图上添加识别标记，所述识别标记用于指示所述第一照片存在文字识别结果。

16.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

以及一个或多个计算机程序，其中所述一个或多个计算机程序存储在所述存储器上，当所述计算机程序被所述一个或多个处理器执行时，使得所述电子设备执行如权利要求1-15中任一项所述的图像的文字识别的方法。

17.一种计算机可读存储介质，包括计算机程序，其特征在于，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1-15中任意一项所述的图像的文字识别方法。