CN115033318B

CN115033318B - 图像的文字识别方法、电子设备及存储介质

Info

Publication number: CN115033318B
Application number: CN202111387769.XA
Authority: CN
Inventors: 潘宇欣; 毛璐; 关键; 孙甜甜; 周元甲
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2023-04-14
Anticipated expiration: 2041-11-22
Also published as: CN115033318A

Abstract

本申请提供了一种图像的文字识别方法、电子设备及存储介质，涉及计算机技术领域。采用本申请中的方法，获取第一截图的属性信息，根据第一截图的属性信息确定第一截图所属应用所属的应用类别；当第一截图所属应用属于第一类应用，对第一截图进行OCR文字识别操作，当第一截图所属应用属于第二类应用且电子设备处于灭屏且充电的状态，对第一截图进行OCR文字识别的操作；若接收到第一用户操作，展示第一截图以及第一提示信息。由于不是对所有的图像均进行OCR识别的操作，而是根据截图所属应用所属应类别，确定是否需要对截图进行OCR识别的操作，减少电子设备的功耗，优化电子设备对图库中的图像进行OCR文字识别的效率。

Description

图像的文字识别方法、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像的文字识别方法、电子设备及存储介质。

背景技术

光学字符识别(Optical Character Recognition，OCR)是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。OCR技术现已广泛地应用在医疗、保险、金融、物流、传统制造业、购物等领域。例如，在物流领域的一种应用场景中，用户使用手机拍摄物流订单的照片，通过OCR文字识别该照片上的快递单号。通过OCR技术，可以快速获取照片上的快递单号，无需人工录入而直接导入系统进行快递查询。

然而，目前电子设备(如手机、平板电脑等)对图库中的图像进行OCR文字识别的功耗大，时延长，影响用户的体验。

发明内容

本申请实施例提供了一种优化的图像的文字识别方法、电子设备及存储介质。

在本申请提供的一些实施例中，电子设备可以对需要进行文字识别的图像进行文字识别，而不是对所有图像均进行文字识别的操作，减少电子设备对图像进行文字识别的功耗，有效提高电子设备的对图像进行OCR文字识别的效率，提高用户对电子设备的使用体验。

第一方面，本申请提供一种图像的文字识别方法，应用于电子设备，包括：获取第一截图的属性信息，第一截图的属性信息包括：第一截图的应用标签，第一截图的应用标签用于指示第一截图所属应用的信息；根据第一截图的应用标签确定第一截图所属应用属于的应用类别，应用类别包括：第一类应用和第二类应用；当确定第一截图所属应用属于第一类应用，则对第一截图进行OCR文字识别，存储第一截图的文字识别结果；响应于接收到的第一用户操作，展示第一截图的文字识别结果以及提示第一提示信息，第一用户操作用于指示电子设备展示第一截图，第一提示信息用于指示用户查看第一截图的文字识别结果；当确定第一截图所属应用属于第二类应用，则检测电子设备是否处于灭屏且充电的状态；当检测到电子设备处于充电且灭屏的状态，则对第一截图进行的 OCR文字识别，存储第一截图的文字识别结果；响应于接收到的第一用户操作，展示第一截图以及第一提示信息。

这样，第一截图的应用标签可以用于指示该第一截图所属应用的信息，根据第一截图的应用标签可以确定该第一截图所属应用的应用类别，该应用类别包括第一类应用和第二类应用。该应用类别可以用于指示图像中出现文字的概率，例如，第一类应用可以包括第一概率应用，该第一概率应用用于指示图像出现文字的概率大于第一阈值(如：第一阈值为50％)。第二类应用可以包括第二概率应用，该第二概率应用可以用于指示图像出现文字的概率大于第二阈值且小于第一阈值，如，大于0且小于50％。电子设备通过对第一截图所属应用的类别判定，从而可以对存在文字概率不同的截图进行不同的处理，如，对属于第一类应用的截图直接进行文字识别的操作。而对属于第二类应用的截图进行处理时，需要检测电子设备是否处于灭屏且充电的状态，在电子设备处于灭屏且充电的状态时，对属于第二类应用的截图进行文字识别的操作。由于不是直接对任意的截图均进行文字识别的操作，而是有选择地对存在文字的截图进行文字识别操作，提高了电子设备对截图进行文字识别的效率，减少了对无文字的截图的识别操作，进而减少了不必要的功耗。另外，在电子设备处于灭屏且充电的状态时，用户未使用该电子设备，处于充电且灭屏的状态时该电子设备的电量充足，此时对所属应用为第二类应的截图进行文字识别操作，避免电子设备在电量不充足状态对截图进行文字识别的操作，提高电子设备的续航能力。

根据第一方面，该方法还包括：当检测到第一截图所属应用属于第三类应用，则取消对第一截图进行OCR文字识别的操作。应用类别还包括第三类应用，第三类应用可以指示截图存在文字的概率低，例如，第三类应用可以是第三概率应用，该第三概率应用用于指示图像出现文字的概率小于等于第二阈值(如第二阈值为5％、0等)且大于等于 0。由此，电子设备在检测到第一应用所属应用属于第三类应用时，取消对该第一应用进行OCR文字识别的操作，由于应用属于第三类应用的截图中存在文字的概率低，电子设备不对该类第一截图进行文字识别的操作，可以减少电子设备的功耗。此外，当电子设备接收到第一用户操作时，由于可以直接显示该第一截图，而无需再对该第一截图进行 OCR文字识别中的操作，时延少，提高用户的使用体验。

根据第一方面，在检测到第一截图所属应用属于第三类应用之后，该方法还包括：电子设备响应于接收到的第二用户操作，对第一截图进行OCR文字识别，获得第一截图的文字识别结果，其中，第二用户操作用于指示电子设备对第一截图进行OCR文字识别的操作；展示第一截图的文字识别结果。当电子设备接收到第二用户操作时，可以强制对该第一截图进行文字识别的操作，提高用户的使用体验。

根据第一方面，该方法还包括：电子设备当检测到第一截图所属应用属于第二类应用且检测到电子设备未处于灭屏且充电的状态，则取消对第一截图进行OCR文字识别的操作；若接收到第二用户操作，对第一截图进行OCR文字识别，获得第一截图的文字识别结果，第二用户操作用于指示电子设备对第一截图进行OCR文字识别的操作；展示第一截图的文字识别结果。这样，电子设备在检测到第一截图的拍照模式属于第二类模式，且检测到该电子设备未处于灭屏且充电的状态时，取消对第一截图进行OCR文字识别的操作，由于为第一截图所属应用属于第二类应用，该第一截图中存在文字的概率相比所属应用为第一类应用的截图中存在文字的概率小，此时，取消对该第一截图进行OCR文字识别的操作，可以避免出现因不存在文字而导致功耗的无用消耗，减少电子设备的功耗。

根据第一方面，该方法还包括：电子设备获取第二截图的属性信息，第二截图的属性信息包括：第二截图的应用标签，第二截图的应用标签用于指示第二截图所属应用的信息；根据第二截图的应用标签确定第二截图所属应用属于的应用类别；当确定第二截图所属应用属于第二类应用，则检测电子设备是否处于灭屏且充电的状态；当检测到电子设备未处于灭屏且充电的状态，则对第二截图进行OCR文字识别中的文本检测的操作，获得第二截图的文本检测结果，并保存第二截图的文本检测结果。电子设备对所属应用属于第二类应用的截图仅进行OCR文字识别中的文本检测的操作，由于OCR文字识别中文本识别操作的功耗大，本示例中电子设备不对第二截图进行文本识别的操作，可以降低手机的功耗。

根据第一方面，在保存第二截图的文本检测结果之后，该方法还包括：电子设备响应于接收到的第三用户操作，展示第二截图以及在第二截图的文本检测结果指示第二截图中存在文本的情况下提示第二提示信息，第三用户操作用于指示电子设备展示第二截图，第二提示信息用于指示第二截图存在文本。该电子设备接收到该第三用户操作时，可以直接展示该第二截图，同时，由于存储有文本检测结果，在该文本检测结果指示存在文本时，提示该第二提示信息，从而使得用户可以根据第二提示信息获知该第二截图存在文本。

根据第一方面，该方法还包括：电子设备响应于接收到第四用户操作，第四用户操作用于指示对第二截图进行OCR文字识别中的文本识别的操作：获取文本检测结果；当确定文本检测结果指示第二截图中存在文本，则对第二截图进行OCR文字识别中的文本识别的操作，获得第二截图的文字识别结果；展示第二截图的文字识别结果。在保存了第二截图的文本检测结果后，当接收到第四用户操作，电子设备由于仅需对第二截图进行文本识别的操作，无需对该第二截图进行OCR文字识别中的文本检测的操作，提高了展示文字识别结果的速度，提高用户的使用体验。

根据第一方面，在保存第二截图的文本检测结果之后，该方法还包括：电子设备当检测到电子设备处于灭屏且充电的状态，则获取文本检测结果，当文本检测结果指示第二截图中存在文本，则对第二截图进行OCR文字识别中的文本识别的操作，获得第二截图的文字识别结果；响应于接收到的第三用户操作，展示第二截图以及提示第三提示信息，第三用户操作用于指示电子设备展示第二截图，第三提示信息用于指示用户查看第二截图的文字识别结果。在电子设备检测到电子设备处于灭屏且充电的状态，触发电子设备获取第二截图的文本检测结果，基于该文本检测结果进行文本识别的操作；而不是再次对第二截图进行文本检测的操作，减少了电子设备的功耗；且该电子设备在检测到处于灭屏且充电的状态时，主动触发对第二截图进行文本识别的操作，无需人工触发，减少了人工的参与，使得电子设备更加智能。

根据第一方面，在保存第二截图的文本检测结果之后，该方法还包括：电子设备当确定文本检测结果指示第二截图中存在文本，则为第二截图添加第三标签，第三标签用于指示第二截图中存在文本；该方法还包括：电子设备当检测到电子设备处于灭屏且充电的状态，获取包含第三标签的截图，包含第三标签的截图包括第二截图；对获取的包含第三标签的各个截图进行OCR文字识别中的文本识别的操作，获得包含第三标签的各个截图的文字识别结果。电子设备检测到处于灭屏且充电状态时，该电子设备查询包含第三标签的截图，对包含第三标签的截图进行文本识别；而无需对所有所属应用属于第二类应用的截图进行文本检测和文本识别两个操作，可以进一步降低手机的功耗。

根据第一方面，第一类应用包括以下任一种或多种的组合：社交类应用、教育类应用、新闻阅读类应用、出行导航类应用、旅游住宿类应用、购物类应用、商务类应用、美食类应用、便携生活类应用或儿童类应用。预先设置第一类应用可以包含的应用，从而便于电子设备快速判定截图所属应的类别。

根据第一方面，第二类应用包括以下任一种或多种的组合：影音类应用、金融财经类应用、运动健康类应用、使用工具类应用或汽车类应用。预先设置第二类应用可以包含的应用，从而便于电子设备快速判定截图所属应的类别。

根据第一方面，第三类应用包括以下任一种或多种的组合：拍摄美化类应用或主题个性类应用。预先设置第二类应用可以包含的应用，从而便于电子设备快速判定截图所属应的类别。

根据第一方面，第一截图的属性信息包括第一截图的第一标签，第一标签用于指示第一截图的类别，该类别包括照片或截图；在根据第一截图的应用标签确定第一截图所属应用属于的应用类别之前，方法还包括：检测到第一标签指示第一截图的类别为截图。电子设备根据第一标签可以快速检测到属于截图的图像，以便于对截图进行本示例中的文字识别的操作。

根据第一方面，在获取第一截图的属性信息之前，方法还包括：检测到的预设触发条件，预设触发条件包括：用户查看图库中任一图像的操作，或者，电子设备处于灭屏且充电的状态，或者，用户查看图库的操作。电子设备设置有多种触发方式，使得电子设备可以及时对第一截图进行文字识别的操作，便于用户查看，提高用户使用电子设备的体验。

根据第一方面，在获取第二截图的属性信息之前，方法还包括：检测到的预设触发条件，预设触发条件包括：用户查看图库中第二截图的操作，或者，电子设备处于灭屏且充电的状态，或者，用户查看图库的操作。电子设备设置有多种触发方式，使得电子设备可以及时对第二截图进行文字识别的操作，便于用户查看，提高用户使用电子设备的体验。

根据第一方面，在存储第一截图的文字识别结果之后，该方法还包括：在图库界面中第一截图的缩略图上添加识别标记，识别标记用于指示第一截图存在文字识别结果。电子设备在第一截图的缩略图上添加识别标记，使得用户在未查看该第一截图时，通过缩略图中的识别标记即可获知该第一截图存在文字识别结果，以便查看该第一截图的文字识别结果。

根据第一方面，在存储第二截图的文字识别结果之后，该方法还包括：在图库界面中第二截图的缩略图上添加识别标记，识别标记用于指示第二截图存在文字识别结果。电子设备在第二截图的缩略图上添加识别标记，使得用户在未查看该第二截图时，通过缩略图中的识别标记即可获知该第二截图存在文字识别结果，以便查看该第二截图的文字识别结果。

第二方面，本申请提供了一种电子设备，包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中一个或多个计算机程序存储在存储器上，当计算机程序被一个或多个处理器执行时，使得电子设备执行上述第一方面任意一种实现方式所对应的图像的文字识别的方法。

第二方面实现方式与第一方面以及第一方面的任意一种实现方式相对应。第二方面任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第三方面，本申请提供了一种计算机可读介质，用于存储计算机程序，当计算机程序在电子设备上运行时，使得电子设备执行上述第一方面的任意一种实现方式所对应的图像的文字识别的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是示例性示出的电子设备的结构示意图；

图2是本申请实施例提供的一种图像的文字识别方法的流程图；

图3是本申请实施例提供的一种手机截屏的场景示意图；

图4是本申请实施例提供的一种图像的属性信息的示意图；

图5是本申请实施例提供的一种应用类别的示意图；

图6是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图7是本申请实施例提供的另一种图像的文字识别的应用场景示意图；

图8是本申请实施例提供的另一种图像的文字识别的应用场景示意图；

图9是本申请实施例提供的另一种手机充电后的图像的文字识别的应用场景示意图；

图10是本申请实施例提供的另一种图像的文字识别的应用场景示意图；

图11是本申请实施例提供的另一种图像的文字识别的应用场景示意图；

图12是本申请实施例提供的另一种图像的文字识别的应用场景示意图；

图13是本申请实施例提供的另一种图像的文字识别的应用场景示意图；

图14是本申请实施例提供的另一种图像的文字识别的应用场景示意图；

图15a是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图15b是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图15c是本申请实施例提供的一种图像的文字识别的应用场景示意图；

图16是示例性示出的电子设备的软件结构示意图；

图17为示例性示出的一种手机截屏操作的内部模块之间的交互示意图；

图18为示例性示出的一种手机内部模块之间的交互示意图；

图19为示例性示出的一种场景下手机内部模块之间的交互示意图；

图20为示例性示出的又一场景下手机内部模块之间的交互示意图；

图21为示例性示出的另一场景下手机内部模块之间的交互示意图；

图22为示例性示出的一种手机处于充电且灭屏的状态下内部模块之间的交互示意图。

具体实施方式

图1为本申请实施例示出的一种电子设备100的结构示意图。应该理解的是，图1所示电子设备100仅是电子设备的一个范例，并且电子设备100可以具有比图中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图1中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

电子设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器 170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达 191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。在本申请实施例中，处理器110可以用于根据用户的操作或者检测到预设的触发条件，触发对图像进行文字识别。处理器110还可以用于检测电子设备当前所处状态，如检测电子设备是否处于充电状态、灭屏状态或者灭屏且充电状态等。处理器110还可以用于根据用户操作截取屏幕的内容形成的图像，并将截取的图像存储在图库中。本申请实施例中，显示屏194可以用于显示图库中的图像，显示应用程序的界面等。显示屏还可以显示出电子设备为用户提供的各种可操作控件(如可点击的按钮、可滑动的滑块等)等。本申请实施例中，内部存储器121可以用于存储图像，如摄像头拍摄的图像、电子设备截屏产生的图像等。内部存储器121还可以存储图像的 OCR文字识别的识别结果等。

可以理解的是，在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例。

在一些实施例中，电子设备100的图库中存储有若干张图像(如：500张)，该电子设备100响应于用户查看图像的操作，依次对用户查看的图像进行OCR文字识别。可选地，电子设备100可以使用基于深度学习的OCR文字识别技术。深度学习的OCR文字识别技术是通过收集数据并训练出深度学习模型(如OCR模型)，使用训练完成的OCR 模型进行识别的技术。基于深度学习的OCR模型包括文本检测模型和文本识别模型。该电子设备100可以部署文本检测模型实现对图像的文本检测，部署文本识别模型实现对图像的文本识别。也即OCR文字识别包括文本检测的操作和文本识别的操作。

文本检测模型用于定位图像中文本的位置。电子设备100将一张图像输入该文本检测模型，该文本检测模型输出图像中每个文本区域、每个字符的坐标。文本检测模型检测文本的方法包括：基于候选框的文本检测方法、基于语义分割的文本检测方法、以及基于两种文本检测方法的混合方法。

文本识别模型用于识别图像中的文本。可选地，电子设备100将单个文本区域的切片图像输入文本识别模型，该文本识别模型将输出切片中的文字内容。文本识别模型识别文本的框架包括：卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)以及联结主义时间分类(Connectionist TemporalClassification，CTC)算法三者组合框架，或者，采用CNN、Sequence to Sequence模型以及注意力模型(Attention)三者组合的框架。

为了确保对图像的文本识别的准确性，在进行OCR文字识别之前进行预处理，如对图像进行旋转矫正等，还可以在OCR文本识别后，进行后处理，如进行文本的纠错操作。

当用户点击进入电子设备100的图库时，将触发电子设备对该图像进行OCR文字识别。即用户每查看一张图像，电子设备100都将对查看的图像进行OCR文字识别，导致电子设备100的功耗增加，例如，假设对一张具有5行文本的图像进行OCR文字识别的时延为630ms，功耗为m。当用户依次查看50张相同的图像时，该电子设备100将依次对该50张图像进行OCR文字识别，此时查看50张图像的时延为630ms*50；消耗的功耗为m*50；电子设备的功耗增加。另外，由于OCR文字识别的时延长，也影响用户查看图像的速度，影响用户的体验。

本申请一些实施例提供了一种图像的文字识别方法，以优化电子设备对图库中图像进行OCR文字识别的效率。示例性地，本申请实施例中电子设备100以手机为例。

图2为示例性示出的本申请实施例提供的一种图像的文字识别方法的流程图。该图像的文字识别方法包括以下步骤：

步骤201：手机读取图像的属性信息。

示例性地，手机将不同来源方式的图像存储于图库中，以供用户查看。例如，手机通过拍照方式获得的图像、手机接收其他设备发送的图像、或者手机通过截屏获得图像。

手机存储有每张图像对应的属性信息。示例性地，属性信息可以包括：第一标签和应用标签(后文中的第二标签即为该应用标签，后续将不再解释)。属性信息还可以包括：图像的获取时间信息等。第一标签用于指示获取图像的来源方式。第二标签用于指示图像所属应用。图像的获取时间信息用于指示该当前手机获取图像的时间或者指示发送图像的源电子设备生成图像的时间。

需要说明的是，本申请中属性信息的内容仅为示意性举例，本申请不做限定。在其他实施例中，属性信息还可以包括以下信息中的一种或多种信息的组合：图像的颜色信息(如RGB三色的详细信息)、拍照模式信息(如：人像拍照模式、夜景拍照模式、大光圈拍照模式等)、所属相册的信息(如：美食相册、景物相册等)、内容标签(如文字标签、美食标签等)、源设备信息等，其中，内容标签用于指示图像的内容所属类别；源设备信息用于指示发送图像的设备的型号信息、系统信息(如Android版本信息)等。

手机可以按照数据结构的方式将图像的属性信息存储于手机的数据库中。其中，手机将绑定该图像与该图像的属性信息。示例性地，手机可以通过图像的标识信息绑定该图像与该图像的属性信息。图像的标识信息可以用于唯一指示该图像。手机可以根据根据属性信息生成图像的标识信息，例如，可以将图像的来源、拍摄时间以及所属应用信息的组合作为图像的标识信息，也可以用拍摄图像的时间作为图像的标识信息。需要说明的是，本示例中的标识信息仅为示例性举例，在其他实施例中，标识信息还可以是随机生成，例如，手机随时生成的预设位数的字符串，并将随机生成的字符串作为图像的标识信息，本申请不限制图像的标识信息的生成方式。

本示例中，图库界面上以缩略图的方式显示图像，用户点击缩略图，手机响应于用户的点击操作，打开与该缩略图对应的图像。手机响应于用户点击缩略图的操作，可以通过该缩略图确定该缩略图对应图像的标识信息。手机从数据库中查找与该标识信息绑定的属性信息。

本示例中，读取图像的属性信息的触发时机仅为示意性举例，在其他实施例中，还可以是手机保存该图像的同时获取属性信息，还可以是响应于用户点击图库时，依次获取图库中图像的属性信息。可以理解的是，在不同的应用场景，可以采用不同的触发读取图像的属性信息的时机。

在一些实施例中，图像的属性信息包括第一标签、第二标签以及图像的获取时间信息，通过读取该图像的属性信息，可以准确获知该图像来源信息、所属应用信息等，电子设备可以快速辨别需要进行OCR文字识别的图像，减少不必要的OCR文字识别操作。

步骤202：手机根据该属性信息，判断该图像是否属于截图。若手机确定该图像不属于截图，则手机执行步骤203。若手机确定该图像属于截图，则手机执行步骤204。

在一些实施例中，，手机读取图像的属性信息之后，可以从属性信息中获取第一标签。手机可以根据第一标签，确定该图像所属类别。例如，属性信息中获取到第一标签为“Screenshot”，则手机确定该图像属于截图。手机执行步骤204。若第一标签包括“DCIM”，则确定该图像属于照片，则手机执行步骤203，即手机采用其他OCR文字识别的策略对该图像进行识别。

可以理解的是，手机可以预先存储第一标签与图像的类别之间的对应关系，例如，“Screenshot”——截图，“DCIM”——照片。当手机从属性信息中获取到第一标签，即可根据存储的第一标签与图像的类别之间的对应关系，确定图像的类别。需要说明的是，第一标签的值为示例性举例。

本示例中，手机通过属性信息可以快速筛选出属于截图的图像。

步骤203：手机采用其他OCR文字识别的策略。

示例性地，其他OCR文字识别的策略可以是对图像直接进行OCR文字识别，例如，图像为拍摄的照片时，手机可以直接对该照片执行OCR文字识别，即对该照片执行文本检测和文本识别两个步骤。

步骤204：手机从该图像的属性信息中获取该图像所属应用的信息。

示例性地，手机可以从属性信息中获取第二标签，读取该第二标签，例如，第二标签的值为：“taobao”，该第二标签“taobao”可以指示该截图所属应用为“淘宝”。

可以理解的是，手机可以预先存储第二标签与应用名称之间的对应关系，例如，“taobao”——淘宝，“meitu”——美图秀秀。当手机从属性信息中获取到第二标签，即可根据存储的第二标签与应用名称之间的对应关系，确定图像所属应用的名称。需要说明的是，第二标签的内容为示例性举例。

步骤205：手机检测应用的类型。当检测到该应用属于第二概率应用，则执行步骤206。当检测到该应用属于第一概率应用，则执行步骤207。当检测到该应用属于第三概率应用，则结束流程。

示例性地，图像所属应用的应用类别可以预先划分，例如，电子设备可以对各种截图进行OCR文字识别，通过大数据统计的方式确定出第一类应用、第二类应用以及第三类应。在一些实施例中，第一类应用可以为第一概率应，第二类应用可以为第二概率应用，第三类应用可以为第三概率应用。示例性地，第一概率应用用于指示应用出现文字的概率大于第一阈值(如：第一阈值为50％)，第二概率应用用于指示应用出现文字的概率大于第二阈值且小于第一阈值，如，大于0且小于50％。第三概率应用用于指示应用出现文字的概率为0。需要说明的是，第一阈值、第二阈值仅为示例性举例，第二阈值可以为0；在其他实施例中，第一阈值还可以是60％，第二阈值还可以是20％、10％等。

在一个示例中，手机获取截图所属应用的信息，以及预先存储的应用类别，确定截图所属应用的类别。例如，截图所属应用的名称为“淘宝”，根据预先存储的应用类别，手机确定该截图所属应用属于第一概率应用。

在另一个示例中，手机还可以通过其他方式确定截图所属应用的类别。例如，可以训练截图所属应用分类模型，将截图所属应用的信息输入该截图所属应用分类模型，即可确定该截图所属应用的类别。截图所属应用分类模型可以预先训练好。训练的方式将不再进行赘述。

可以理解的是，手机还可以采用其他方式确定截图所属应用的类别。

步骤206：判断手机是否处于灭屏且充电的状态。当手机确定处于灭屏且充电的状态，则执行步骤207。当手机确定未处于灭屏且充电状态，则结束流程。

步骤207：执行OCR文字识别。

手机对该图像进行OCR文字识别，OCR文字识别的过程包括：文本检测和文本识别。当手机检测文本后，则继续对该图像进行文本识别，手机获取对该图像进行文本识别的识别结果，该识别结果也即为OCR文字识别的识别结果。

步骤208：手机存储OCR文字识别的识别结果。

示例性的，手机可以存储OCR文字识别的识别结果。手机响应于用户查看OCR文字识别结果的操作时，显示该识别结果。示例性地，手机存储有图像的识别结果，可以在显示界面中显示查看按钮，以供用户点击查看识别结果。

下面结合具体场景，对本申请实施例中的图像的文字识别方法进行详细说明。

图3为示例性示出的手机截屏的场景示意图。

手机启动“备忘录”应用，该“备忘录”应用用于记录待办事项，如图3所示，界面301为该“备忘录”应用的界面。该界面301中显示了该两项待办事件，即12点吃药以及14点打电话。该手机响应于用户的截屏操作(如：双击屏幕或点击截屏按钮等)，手机对该界面301进行截屏操作。并在界面301上显示截屏操作生成的图像(即图像302)。示例性地，如图3所示，该图像302悬于该界面301上，该图像302以虚线圆圈处为移动原点，按照黑色箭头指示方向移动，直至该图像302从界面301上消失。该图像302 被手机存储于图库中。可选地，当该图像302在移动过程中，手机检测到用户对该图像 302的删除操作，手机丢弃该图像302。可选地，删除操作可以是用户拖动截图向黑色箭头相反的方向滑动等。本示例中的删除操作仅为示例性举例，在其他实施例中，截图上还可以包括删除按钮如“X”，用户点击该删除按钮。

示例性地，手机响应于截屏操作，生成用于指示截屏操作的第一标签。可选地，当手机生成图像302，手机读取前台活跃的应用信息，将当前前台活跃的应用信息作为属性信息中的第二标签。该图像的属性信息可以如图3中的标号303所示。

图4为示例性示出的该图像302的属性信息303的示意图。如图4所示，该属性信息303包括：第一标签3031、图像的获取时间信息3032以及第二标签3033。如图4所示，该第一标签为“Screenshot”，用于指示该图像来源于截图方式。标号3032用于指示该图像302的获取时间为2021年9月28日20点。第二标签3033用于指示该图像302所属应用的信息，例如，手机根据“Memorandum”，可以确定图像302所属应用的名称为“备忘录”。

图5为示例性示出的应用类别的示意图。手机可以预先存储如图5所示的应用类别的信息。示例性地，第一概率应用包括：社交类应用、教育类应用、新闻阅读类应用、出行导航类应用、旅游住宿类应用、购物类应用、商务类应用、美食类应用、便携生活类应用以及儿童类应用。社交类应用如：微信。教育类应用如：XX学英语、XX辅导等。新闻阅读类应用如：人民日报、央视新闻等应用。出行导航类应用如：百度地图、高德地图、XX打车应用等。旅游住宿类应用如：携程应用、去哪儿应用等。购物类应用如淘宝、京东等应用。商务类应用如：招聘应用、商标查询应用等。美食类应用如：下厨房应用等。便携生活类应用如：备忘录、支付宝等应用。儿童类应用如：XX绘本读物。需要说明的是，第一概率应用中各类所包含的应用仅为举例，在其他实施例中，每个类别还可以包括其他未列举的应用，如社交类应用还可以包括：钉钉、飞鸽等。

第二概率应用可以包括：影音类应用(如：视频应用)、金融财经类应用(如：交易所应用等)、运动健康类应用(如：XX运动健康等)、使用工具类应用(如：测量工具应用、网盘应用等)、汽车类应用(如：二手车交易应用、车类查询应用等)。第二概率应用中各类所包含的应用仅为举例，在其他实施例中，每个类别还可以包括其他未列举的应用，如影音类应用还可以包括：酷我音乐等。

第三概率应用可以包括：拍摄美化类应用(如美图应用等)以及主题个性类应用(如：主题应用等)。第三概率应用中各类所包含的应用仅为举例，在其他实施例中，每个类别还可以包括其他未列举的应用。

图6为示例性示出的一种图像的文字识别的应用场景示意图。

手机响应于用户查看图库的操作(如：点击相册的图标)，在显示屏中展示如图6中的6a所示的图库界面601。该图库界面601中显示了6张图像的缩略图。6a中缩略图602 为图像302的缩略图。用户可以通过点击缩略图的方式，查看缩略图对应的图像。本示例中，手机在获取到点击缩略图602的操作时，可以触发手机读取该缩略图602对应的图像(即图像302)的属性信息。该属性信息包括：Screenshot_20210928_2000_Memorandum。示例性地，手机获取该属性信息中的第一标签，该第一标签为“Screenshot”。手机可以根据该第一标签确定该图像属于截图。手机从该属性信息中获取第二标签，根据该第二标签“Memorandum”，手机确定该图像所属应用为“备忘录”。手机根据“备忘录”的应用名称，确定该“备忘录”应用属于便携生活类应用。该手机根据预先存储的应用类别的信息(即如图5所示的应用类别分类信息)确定便携生活类应用属于第一概率应用，即该缩略图602对应图像的所属应用属于第一概率应用。该手机执行OCR文字识别步骤，对该图像302(即缩略图602对应的图像)进行OCR文字识别。手机获取OCR文字识别的识别结果，并存储该识别结果。手机可以以数据结构的方式存储该识别结果，如手机将该图像302的标识信息作为键(Key)，以该识别结果作为该键对应的值(value)进行存储。也可以将该识别结果存储于该图像的属性信息中。本示例对此不作限定。

需要说明的是，本示例中以手机对该图像302进行OCR文字识别的时长为630ms为例进行说明。在其他实施例中，对图像进行OCR文字识别的时延与该图像中文字的个数相关，字数越多，OCR文字识别的时长越长。

图6中的6b为示例性示出的一种图像展示的场景示意图。用户点击该缩略图602，手机经过630ms之后，显示如6b所示的界面603。界面603中包括有缩略图602对应的图像(即图像302)，以及控件604(即显示有“点击显示识别结果”的控件)，该控件604 用于指示用户查看当前图像的OCR文字识别的识别结果。示例性地，手机响应于用户点击该控件604的操作，经过10ms之后，将界面603切换为界面605。该界面605中包括该蒙板606，展示在蒙板606之上图像607以及图像607的识别结果608。标号609用于指示复制文字的控件。该控件609被点击后，手机为用户提供通过触摸屏幕复制的文字的操作，以供用户复制文字。需要说明的是，6b切换至6c所经历的时延为示例性举例，在其他实施例中，从6b切换至6c所经历的时延还可以是其他值，如20ms、5ms等，具体时延与手机的系统性能相关，本实施例中不做具体限定。

需要说明的是，蒙板606仅为示例性举例，在其它实施例中，也可以没有蒙板以及图像607，例如，在界面605上显示界面603中图像的识别结果。

本示例中，还可以采用其他的形式提示用户点击，例如，可以通过颜色指示该当前显示的图像有对应的文字识别结果。例如，控件为黄色时，指示该图像有对应的文字识别结果，还可以是通过语音提示手机存储有显示界面显示的图像的识别结果。

图7为示例性示出的另一种图像的文字识别的应用场景示意图。

图7中的7a为示例性示出的手机截屏的场景示意图。手机启动“运动类”应用，该“运动类”应用用于记录用户运动消耗的能量。如7a所示，显示屏显示了该“运动类” 应用的主界面701。该主界面701中显示了该用户的运动记录以及运动消耗的能量。该手机响应于用户的截屏操作(如：双击屏幕或点击截屏按钮等)，手机对当前界面701进行截屏操作。并在界面701上显示截屏操作生成的图像(即图像702)。示例性地，如7a 所示，该图像702悬于在该界面701上，该图像702以虚线圆圈处为移动原点，按照黑色箭头指示方向移动，直至该图像702从界面701上消失。手机将该图像702存储于图库中。可选地，当该图像702在移动过程中，手机检测到用户对该图像702的删除操作，手机丢弃该图像702。与图像302类似，图像702在保存过程中，生成该图像702的属性信息703。该图像702的属性信息703为“Screenshot_20210928_2010_sports”，手机将该图像702的属性信息703存储至数据库，并与该图像702绑定。

图7中的7b为示例性示出的图库界面点击查看图像702的示意图。

7b示出了该手机的图库主界面704，该图库主界面704中展示了各图像的缩略图。本示例中，如7b所示，缩略图705为图像702的缩略图。本示例中，手机在检测到点击缩略图705的操作时，可以触发手机读取该缩略图705对应的图像(即图像702)的属性信息。该手机读取图像702的属性信息，即手机读取“Screenshot_20210928_2010_sports”。手机从属性信息中获取第一标签“Screenshot”。手机根据第一标签确定该图像702属于截图。手机确定该图像702属于截图后，手机从该属性信息中获取第二标签(即“sport”)，根据该第二标签“sport”，手机确定该图像所属应用为“运动健康”。手机根据“运动健康”的应用名称，确定该“运动健康”应用属于运动类应用。该手机根据预先存储的应用类别的信息(即如图5所示的应用类别分类信息)确定运动类应用属于第二概率应用。

当确定该“运动健康”属于第二概率应用，手机检测当前是否处于灭屏且充电的状态。需要说明的是，本示例中图像的文字识别方法可以通过图像文字识别应用执行，该图像文字识别应用可以在首次使用时，向手机的感知模块发起注册请求，以请求监听手机处于灭屏且充电的状态。当感知模块监听到手机处于灭屏且充电的状态时，向该图像文字识别应用发送该监听事件(即手机处于灭屏且充电状态的事件)。当图像文字识别应用接收到该监听事件，则确定手机处于灭屏且充电的状态。若图像文字识别应用未接收到该监听事件，则确定该手机未处于灭屏且充电的状态。本示例中，该手机未检测到手机处于灭屏且充电的状态，则直接结束对图像的文字识别流程。

手机检测到图像702所属应用的类别的速度快，如7c所示，在经过10ms后，手机将图库主界面704切换至界面706。该界面706上展示了与缩略图705对应的图像(即图像702)。界面706中还展出了控件707(即图7c显示有“点击触发OCR文字识别”的控件)。手机响应于点击该控件707的操作，对界面706中的图像进行文本检测和文本识别，并将界面706切换至用于展示识别结果的界面(本示例中未示出识别结果的界面)。

本示例中，手机响应于用户查看图像的操作，读取图像的属性信息。手机根据图像的属性信息，判定是否立即对图像进行OCR文字识别。由于属于第二概率应用的图像中存在文字的概率小，在手机未处于灭屏且充电状态时，不对该属于第二概率应用的图像进行OCR文字识别，避免因该图像中无文字，导致不必要的消耗，减少手机进行OCR文字识别的功耗。例如，用户依次查看图库6张图像，手机在检测到用户查看图像的操作后，会依次对6张图像进行OCR文字识别，若一张图像进行OCR文字识别的功耗为n，则手机的功耗为6n。而本示例中，用户依次点击同样6张图像，若手机确定有一张图像属于截图且该截图所属应用属于第二概率应用，且检测到手机未处于灭屏且充电的状态，不对该图像进行OCR文字识别，而直接展示图像。即6张图像的功耗将为5n。可见，采用本申请实施例中的图像识别的方法可以减小手机的功耗。另外，本示例中提供用户对图像强制进行OCR文字识别的控件，提高用户使用OCR文字识别的体验。

图8为示例性示出的另一种图像的文字识别的应用场景示意图。

图8中的8a为示例性示出的手机截屏的场景示意图。手机启动“运动类”应用，该“运动类”应用用于记录用户运动消耗的能量。如8a所示，显示屏显示了该“运动类” 应用的主界面801。该主界面801中显示了该用户的运动记录以及运动消耗的能量。该手机响应于用户的截屏操作(如：双击屏幕或点击截屏按钮等)，手机对当前界面801进行截屏操作，在界面801上显示截屏操作生成的图像(即图像802)。示例性地，如8a所示，图像802悬于在该界面801上，该图像802以虚线圆圈处为移动原点，按照黑色箭头指示方向移动，直至该图像802从该界面801上消失，该手机保存该图像802。可选地，当该图像802在移动过程中，手机检测到用户对该图像802的删除操作，手机丢弃该图像 802。与图像302类似，图像802在保存过程中，生成该图像802的属性信息803。该图像802的属性信息803为“Screenshot_20210928_2010_sports”，手机将该图像802的属性信息803存储至数据库，并与该图像802绑定。

图8中的8b为示例性示出的图库界面点击查看图像802的示意图。8b示出了该手机的图库主界面804，该图库主界面804中展示了各图像的缩略图。本示例中，如8b所示，缩略图805为图像802的缩略图。本示例中，手机响应于用户点击缩略图805的操作，手机获知该缩略图805对应图像802。该手机读取该图像802的属性信息，即手机读取 “Screenshot_20210928_2010_sports”。手机从属性信息中获取第一标签“Screenshot”，确定该图像802属于截图。手机确定该图像802属于截图后，手机从该属性信息中获取第二标签(即“sport”)，根据该第二标签“sport”，手机确定该图像所属应用为“运动健康”。手机根据“运动健康”的应用名称，确定该“运动健康”应用属于运动类应用。手机根据预先存储的应用类别的信息(即图5所示的应用类别)，确定该“运动类”应用属于第二概率应用。

在一个场景中，用户点击了该缩略图805后，用户发现手机电量低，对手机进行了灭屏操作(也可以手机检测到电量低，自行关闭了手机，即灭屏操作)，用户为该手机进行充电操作。如8c所示，充电线806为该手机进行充电。该8c示出了手机处于灭屏且充电状态的示意图。手机在确定该图像802所属应用为第二概率应用后，检测到手机处于灭屏且充电状态，对该图像802进行OCR文字识别(即对图像802进行文本检测和文本识别的步骤)，获取对图像802进行OCR文字识别的识别结果，并存储图像802的识别结果。

在另一个示例中，手机确定图像802所属应用为第二概率应用，若手机检测到未处于灭屏且充电的状态，则对图像802不进行OCR文字识别。与图7中的7c类型，手机经过10ms后在显示屏中显示图像802，并在该显示屏中显示用于强制进行图像文字识别的按钮。当用户经过m(如m为60)分钟的使用后，对该手机进行了灭屏操作，手机响应于灭屏操作，熄灭屏幕。用户为该手机进行充电，当手机检测到手机处于灭屏且充电的状态。手机的感知模块检测到手机处于灭屏且充电状态后，触发手机对图像802进行OCR 文字识别(即进行文本检测和文本识别的步骤)，获取对图像802进行OCR文字识别的识别结果，并存储图像802的识别结果。

经过1小时的充电后，用户停止对手机的充电，图9中的9a示出了手机经过1小时充电后的电量处于满电状态的示意图。如9a所示，图库主界面901示出了各图像的缩略图，该主界面中的电池标识902显示电量满格。手机响应于用户点击缩略图903的操作，查询到该缩略图903对应的图像为图像802。手机根据图像802的标识信息查询到该图像 802的OCR文字识别的识别结果。如9b所示，手机经过10ms，从图库主界面901切换至界面904。在该界面904上显示用于指示查看识别结果的控件906。如9b所示，该控件906上可以显示用于提示用户点击查看识别结果的信息，如控件906上显示文字“点击显示识别结果”。可以理解的是，控件906不限于本示例中所列举的样式，在其他实施例中，控件906可以通过颜色提示用户点击显示识别结果。可选地，手机还可以通过检测到快捷查看操作后，显示图像802的识别结果，快捷查看操作可以根据实际应用进行设置，例如，可以三指左滑/右滑屏幕，连续三次击打屏幕等，本示例中不作具体限制。

在一个示例中，用户点击该控件906，手机响应于用户点击控件的操作，手机可以经过10ms后，从界面904切换至界面907。图9中的9c为示例性示出的图像的识别结果的示意图。该界面907中包括蒙板908，展示在蒙板908上的图像909和识别结果910。标号910用户指示复制文字的控件，手机若检测到该复制文字的控件911被点击后，手机为用户提供通过触摸屏幕复制的文字的操作，以供用户复制文字。需要说明的是，9a 切换至9b，以及9b切换9c所经历的时延为示例性举例，在其他实施例中，9a切换至 9b，以及9b切换9c所经历的时延还可以是其他值，如20ms、5ms等，具体时延与手机的系统性能相关，本实施例中不做具体限定。

本示例中，手机检测到图像属于截图，且该截图所属应用为第二概率应用。当手机检测到该手机未处于灭屏且充电状态时，不对该截图进行OCR文字识别，节省手机的功耗。当手机检测到手机处于灭屏且充电状态时，对该截图进行OCR文字识别并保存该截图的OCR文字识别的识别结果。手机检测到用户查看该截图的操作时，手机可以直接展示该截图的识别结果，而不是检测到用户的查看指令后，才对图像进行OCR文字识别，并在显示屏中展示图像的识别结果。由于不是实时对图像进行OCR文字识别，加快了手机展示识别结果的速度，减少了展示图像的识别结果的时延，提高用户使用图像的OCR文字识别的使用体验。由于手机处于灭屏且充电状态时，用户未使用手机，故在此状态下进行OCR文字识别，避免手机在未充电状态时对电量的消耗，可以提高手机的续航能力。

图10为示例性示出的另一种图像的文字识别的应用场景示意图。

图10中的10a为用户点击缩略图的示意图。如10a所示，图库主界面1001示出各图像的缩略图。手机响应于点击缩略图1002的操作，查询该缩略图1002对应的图像。手机根据查询到的图像(如查询到图像802)，获取图像802的属性信息(即读取 Screenshot_20210928_2010_sports)。手机根据该属性信息中的第一标签，确定该图像属于截图。当手机确定该图像属于截图后，手机从该属性信息中获取第二标签(即“sport”)，根据该第二标签“sport”，手机确定该图像所属应用为“运动健康”。手机根据“运动健康”的应用名称，确定该“运动健康”应用属于运动类应用。手机根据预先存储的应用类别的信息(即图5所示的应用类别)，确定该“运动类”应用属于第二概率应用。手机检测到手机未处于灭屏且充电的状态，则手机可以对该图像进行文本检测。若手机检测到该图像中存在文本，则存储对该图像802进行文本检测的文本检测结果。手机经过 230ms的文本检测后，切换至如10b所示的界面。如10b所示，界面1003上显示查询到的图像(即图像802)。手机确定该文本检测结果指示该图像中存在文本，则在该界面1003 上还展示有控件1004，该控件1004用于指示图像中存在文本，且用于触发文本识别的操作。例如，手机响应于用户点击该控件1004的操作，则手机对该图像进行文本识别，获得文本结果，手机经过400ms的文本识别后，在显示屏中展示对该图像进行文本识别的识别结果。本示例中对图像802进行OCR文字识别的时延为630ms，其中，手机对图像 802进行文本检测的时延为230ms，对图像进行文本识别的时延为400ms。需要说明的是，本示例中对图像802进行OCR文字识别的时延仅为举例，其中，本示例中以文本识别的时延为400ms为例，在其他实施例中，图像中文字的字数不同，对应文本识别的时延也不同，例如，对100个文字进行识别的时延为500ms。

本示例中，若图像所属应用属于第二概率应用且手机检测到未处于灭屏且充电的状态时，可以预先对图像进行文本检测。手机仅在检测到用户需要识别文本的操作时，对图像进行文本识别，减少了手机的功耗。另外，由于手机响应于用户的文本识别操作后，才对图像进行文本识别的操作，由于无需对图像进行文本检测的步骤，提高了展示识别结果的速度，提高用户的使用体验。

图11为示例性示出的另一种图像的文字识别的应用场景示意图。

图11中的11a为用户点击缩略图的示意图。如11a所示，图库主界面1101示出各图像的缩略图。如11a所示，手机响应于用户的点击缩略图1102操作，查询该缩略图1102 对应的图像。手机根据查询到的图像(如查询到对应的图像为图像802)，读取图像802 的属性信息(即读取Screenshot_20210928_2010_sports)。手机根据该属性信息中的第一标签，确定该图像属于截图。当手机确定该图像属于截图后，手机从该属性信息中获取第二标签(即“sport”)，根据该第二标签“sport”，手机确定该图像所属应用为“运动健康”。手机根据“运动健康”的应用名称，确定该“运动健康”应用属于运动类应用。手机根据预先存储的应用类别的信息(即图5所示的应用类别)，确定该“运动类”应用属于第二概率应用。手机检测到手机未处于灭屏且充电的状态，则手机可以对该图像进行文本检测。该手机检测到该图像中存在文本，则存储对该图像802进行文本检测的文本检测结果。本示例中，手机可以在图像的属性信息中增加第三标签信息，该第三标签信息用于指示该图像中包含文本，例如，该图像的属性信息可以为 “Screenshot_20210928_2010_sports_discoveredtext”，其中，“discovered text”为第三标签信息。

与图10中的10a类似，手机经过230ms的文本检测后，切换至如11b所示的界面1103。如11b所示，界面1103上显示与缩略图对应的图像(如图像802)。由于手机检测到图像中存在文本，在该界面1103上还展示有控件1105，该界面1103上的控件1005用于指示图像中存在文本，且用于触发文本识别的操作。

本示例中，若用户未点击该控件1105。当手机检测到处于灭屏且充电状态，该手机查询具有第三标签信息的图像，对具有第三标签信息的图像进行文本识别。该手机存储具有第三标签信息的图像的文本识别结果。当用户再次点击该图像的缩略图时，经过 10ms后，手机展示该图像，并在界面上显示用于查看识别结果的控件，手机响应于用户查看识别结果的操作，展示该图像的OCR文字识别的识别结果。

本示例中，若图像所属应用属于第二概率应用且手机检测到未处于灭屏且充电的状态时，可以预先对图像进行文本检测，并对具有文本的图像添加标记(如在图像的属性信息中增加第三标签)。当手机检测到处于灭屏且充电的状态时，仅对具有标记的图像进行文本识别，而不是对所有属于第二概率应用的截图进行文本检测和文本识别两个步骤，可以减少手机的功率消耗。另外，手机处于灭屏且充电的状态时，对标记的图像进行文本识别，由于无需进行文本检测，减少了不必要的功耗，也加快了OCR文字识别的速度。

图12为示例性示出的另一种图像的文字识别的应用场景示意图。

图12中的12a为用户点击图库中缩略图的示意图。如12a所示，图库主界面1201示出各图像的缩略图。手机响应于用户的点击缩略图1202操作，查询该缩略图对应的图像，并读取查询到的图像的属性信息(即读取Screenshot_20210928_2010_meitu)。手机根据该属性信息中的第一标签(即“Screenshot”)，确定该图像属于截图。当手机确定该图像属于截图后，手机从该属性信息中获取第二标签(即“meitu”)，根据该第二标签“meitu”，手机确定该图像所属应用为“美图秀秀”。手机根据“美图秀秀”的应用名称，确定该“美图秀秀”应用属于拍摄美化类应用。手机根据预先存储的应用类别的信息(即图5所示的应用类别)，确定该“美图秀秀”属于第三概率应用。由于手机确定该缩略图对应图像所属应用为第三概率应用，则手机结束对该图像的文本识别的流程。手机可以经过10ms 的时延后，在显示屏中展示如12b所示的界面1203。该界面1203中展示有缩略图对应的图像，如12b所示，该图像中不涉及文本，属于人物图像。可选地，在该界面1203中还可以显示用于指示用户进行文识别的控件。如12b所示，在界面1203中显示有“点击触发OCR文字识别”的控件1204。手机响应于用户点击该控件1204的操作，对该图像进行文本检测。该手机检测到该图像中不存在文本，不进行后续的文本识别的操作。手机可以在界面1203中提示，该图像中未检测到文本。

本示例中，由于第三概率应用中不涉及文本，当手机确定图像所属应用属于第三概率应用，结束对该图像的文本识别的流程。由于不对属于第三概率应用的图像进行OCR文字识别，大大减小了手机的功耗。另外，本示例中，针对图库中的截图进行识别，当手机确定截图所属应用为第一概率应用时，直接对该截图进行OCR文字识别。当手机确定截图所属应用为第三概率应用时，结束对该图像的OCR文字识别。当手机确定截图所属应用为第二概率应用时，且手机检测到处于灭屏且充电的状态时，对图像进行OCR文字识别，而手机未处于灭屏且充电的状态时，不对图像进行OCR文字识别。本申请中，根据截图所属应用的类别，决定是否立即对图像进行OCR文字识别，或对图像结束OCR 文字识别，从而大大减小了手机在查看图像时消耗的不必要的功耗。

图13为示例性示出的另一种图像的文字识别的应用场景示意图。

图13中13a为示例性示出的手机截屏的场景示意图。手机启动“运动类”应用，该“运动类”应用用于记录用户运动消耗的能量。如13a所示，显示屏显示了该“运动类” 应用的主界面1301。该主界面1301中显示了该用户的运动记录以及运动消耗的能量。该手机响应于用户的截屏操作(如：双击屏幕或点击截屏按钮等)，手机对当前界面1301 进行截屏操作，在界面1301上显示截屏操作生成的图像(即图像1302)。示例性地，该图像1302悬浮在该界面1301上，该图像1302以虚线圆圈处为移动原点，按照黑色箭头指示方向移动，该截图即可存储于手机的图库中。可选地，当该图像1302在移动过程中，手机响应于用户的删除操作，丢弃图像1302。图像1302在保存过程中，生成该图像1302 的属性信息1303。该图像1302的属性信息1303为“Screenshot_20210928_2010_sports”，手机将该图像1302的属性信息1303存储至数据库，并与该图像1302绑定。

本示例中，如13a所示，手机的电池标识1304指示手机电量不足。手机响应于用户的灭屏操作，熄灭屏幕。用户通过充电线1306为手机进行充电。如13b所示，显示屏1305 处于熄灭状态，充电线1306为该手机充电。手机检测到手机处于充电且灭屏的状态，手机依次遍历图库中的每张图像，对每张图像进行如图2所示的图像的文字识别的方法的流程。示例性地，手机读取图库中存储的图像1302，读取该图像1302的属性信息(即读取“Screenshot_20210928_2010_sports”)。手机读取“Screenshot_20210928_2010_sports”中的第一标签“Screenshot”，根据该第一标签“Screenshot”，确定该图像属于截图。手机确定图像1302属于截图后，读取“Screenshot_20210928_2010_sports”中的第二标签。手机根据第二标签确定该截图1302所属应用为第二概率应用，手机检测到处于灭屏且充电的状态，则对该图像1302进行OCR文字识别(即包括文本检测和文本识别的步骤)。手机获取对图像1302的OCR文字识别的识别结果，并保存该识别结果。手机结束对图像1302的文字识别后，并读取图库中下一张图像(如：该图像的标识信息为DCIM 1) 的属性信息，读取属性信息中的第一标签，若第一标签为“DCIM”，该第一标签指示该图像属于照片，则手机确定该图像属于照片。手机将采用其他的方式对图像DCIM1进行文字识别，结束对图像DCIM1的文字识别的流程。手机继续读取下一张图像(如：该图像的标识信息为shot2)的属性信息，并读取图像shot2的属性信息中的第一标签，若该第一标签为“Screenshot”，手机确定该图像shot2属于截图。手机从图像shot2的属性信息中获取第二标签。若第二标签为“mietu”，手机确定该图像shot2所属应用为“美图”。手机根据预先存储的应用类别信息，确定该应用(即美图)属于第三概率应用。手机则结束对该图像shot2的文字识别的流程。手机读取下一张图像(如：该图像的标识信息为 shot3)的属性信息，并读取图像shot3的属性信息中的第一标签，若该第一标签为 “Screenshot”，手机确定该图像shot3属于截图。手机从图像shot3的属性信息中获取第二标签。若第二标签为“taobao”，手机确定该图像shot3所属应用为“淘宝”。手机根据预先存储的应用类别信息，确定该应用(即淘宝)属于第一概率应用。手机直接对该图像shot3进行文字识别(即包括文本检测和文本识别的步骤)，手机获取对图像shot2的 OCR文字识别的识别结果，并保存该识别结果。手机继续对后续的图像进行处理，本示例中将不再一一列举。

需要说明的是，当手机检测到未处于灭屏且充电的状态，手机结束主动对图像进行 OCR文字识别的流程。手机处于未处于灭屏且充电状态，若手机接收到用户点击图像，则触发手机进行本申请实施例中的图像的文字识别的流程。

手机充满电量后，如图13中的13c所示，手机响应于用户查看图库的操作，在显示屏中显示图库界面1307。该图库界面1307中存储有图像，当前图库界面1307中显示了 6张图像的缩略图。用户点击缩略图1308，手机响应于用户点击缩略图1308的操作，展示该缩略图1308对应的图像。如图13d所示，经过10ms，手机切换为界面1309，该界面1309上显示有该缩略图1308对应的图像以及控件1310，控件1310用于触发显示当前界面中图像的OCR文字识别结果，控件1310可以通过文字提示用户触发显示OCR文字识别结果，例如，如图13d所示在控件1310上显示文字“点击显示识别结果”，或者，可以通过控件1310的颜色提示用户触发显示当前界面中图像的OCR文字识别结果。

手机响应于用户点击控件1310的操作，手机经过10ms，将界面1310切换为界面1311，该界面1311上显示有蒙板1312，在蒙板1312上展示有包含文字部分的图像1313。该图图像的文字识别结果1314展示于该蒙板上。需要说明的是，本示例中展示图像识别结果的方式仅为举例，在其他实施例中，可以不展示图像1313，直接展示1314。手机也可以不显示蒙板1312，本示例中不再一一列举。

本示例中，手机处于灭屏且充电状态时，将触发手机主动访问图库，并对图库中的每张图像进行本申请实施例中图像的文字识别的操作。手机若确定图像所属应用为第三概率应用，则手机不对该图像进行文字识别的操作。手机若确定图像所属应用为第二概率应用且检测到手机依然处于灭屏且充电状态，手机对该图像进行文本识别的操作。手机若确定图像所属应用为第一概率应用，则直接对该图像进行文字识别。并保存图像的文字识别结果。当手机未处于灭屏且充电状态，手机可以快速展示出图像的文字识别结果，减少展示识别结果的时延，提高用户的使用文字识别的体验。且本申请中，手机主动进行图像的文字识别时由于手机处于灭屏且充电的状态，使得手机处于未充电状态时，不会消耗能量，从而提高手机的续航能量。

图14为示例性示出的另一种图像的文字识别的应用场景示意图。

在一个示例中，手机处于灭屏且充电状态时，将触发手机主动访问图库，依次对图库中的图像进行本申请实施例中图像的文字识别的操作。手机若保存了图像的文字识别结果，可以在图库中查找该图像的缩略图，并在图库上进行标记，以提示用户该缩略图对应的图像有文字识别结果。本示例中，如图14中的14a所示，界面1401展示了图库中的图像，手机存储有缩略图1402对应图像的文字识别结果，手机在该缩略图1402下显示标记1403，以指示用户该缩略图1402对应图像存在文字识别结果。图像1404对应图像为美化类应用，属于第三概率应用，手机则不进行标记。

如图14中的14b所示，手机响应于用户点击缩略图1402，经过10ms时延，手机将界面1401切换为界面1405。该界面1405上显示有该缩略图1402对应的图像以及控件 1406，控件1406用于触发显示当前界面中图像的OCR文字识别结果，控件1406可以通过文字提示用户触发显示OCR文字识别结果，例如，如14b所示在控件1406上显示文字“点击显示识别结果”，或者，可以通过控件1406的颜色提示用户触发显示当前界面中图像的OCR文字识别结果。

手机响应于用户点击控件1406的操作，手机经过10ms，将界面1405切换为界面1407，该界面1407上显示有蒙板1408，在蒙板1408上展示有包含文字部分的图像1409。该图图像的文字识别结果1410展示于该蒙板上。需要说明的是，本示例中展示图像识别结果的方式仅为举例，在其他实施例中，可以不展示图像1409，直接展示1410。手机也可以不显示蒙板1408，本示例中不再一一列举。

本示例中，在图库界面显示有标记，该标记用于指示用户图像具有文字识别结果，便于用户快速查看文字识别结果，减少查看文字识别结果时延，提高用户的体验。

图15a为示例性示出的一种对图像进行文字识别的场景示意图。本示例中的场景中，以手机检测到用户查看图像的操作时触发执行本示例中图像的文字识别的操作为例。用户点击查看图像1502，手机获取该图像1502的属性信息。手机从图像1502的属性信息中获取第一标签，第一标签用于指示图像的来源方式。当手机根据第一标签确定该图像1502为截图，则手机从截图1502的属性信息中获取图像1502的第二标签，读取该图像1502的第二标签的值。手机根据应用类别，确定图像1502所属应用属于第二概率应用，则手机检测是否处于充电且灭屏的状态。当手机检测到未处于充电且灭屏的状态，则结束对图像1502进行文字识别的操作。手机可以在经过10ms的时长后，显示如图15a所示的显示界面1501，显示界面1501上显示有该图像1502，同时在该图像1502上显示有控件1503。控件1503用于触发对图像1502进行OCR文字识别的操作。例如，若用户点击该图像1502，则触发手机对该图像1502进行OCR文字识别，即进行文本检测和文本识别(也称文字识别)的操作。手机可以切换至新的界面显示该OCR文字识别结果。手机也可以在该图像1502上对识别到的文字以高亮颜色进行标注。

图15b为示例性示出的一种对图像进行文字识别的场景示意图。本示例中的场景中，用户点击查看图像1505，手机获取该图像1505的属性信息，手机从图像1505的属性信息中获取第一标签，第一标签用于指示图像的来源方式。当手机根据第一标签确定该图像1505为截图，则手机从图像1505的属性信息中获取图像1505的第二标签，读取该图像1505的第二标签的值。手机确定图像1505的拍照模式属于第二概率模式，则手机检测是否处于充电且灭屏的状态。当手机检测到未处于充电且灭屏的状态，则对图像1505 进行文本检测的操作，获取文本检测结果。当手机检测到该图像1505存在文本检测结果，可以在图像1505上显示控件1506。例如，手机可以在经过230ms的时长后，显示为如图15b所示的显示界面1504，显示界面1504上显示有该图像1505，同时在该图像1505 上显示有控件1506。控件1506用于触发对图像1505进行文本识别的操作。控件1506 可以设置为灰色，本示例中以横线填充代表灰色。在其他示例中，控件1506的颜色还可以设置为其他颜色，如白色、黄色等。当手机检测到用户点击该控件1506的操作，触发手机对该图像1506进行文本识别的操作，手机可以切换至新的界面显示该OCR文字识别结果。手机也可以在该图像1502上对识别到的文字以高亮颜色进行标注。

图15c为示例性示出的一种对图像进行文字识别的场景示意图。本示例中的场景中，用户点击查看图像1508，手机获取该图像1508的属性信息，手机从图像1508的属性信息中获取第一标签，第一标签用于指示图像的来源方式。当手机根据第一标签确定该图像1508为截图，则手机从图像1508的属性信息中获取图像1508的第二标签，读取该图像1508的第二标签的值。手机确定图像1508所属应用属于第一概率应用，则对图像1508 进行OCR文字识别的操作，获取OCR文字识别结果。当手机检测到该图像1508存在 OCR文字识别结果，可以在图像1508上显示控件1511。例如，手机可以在经过630ms 的时长后，切换为如图15c所示的显示界面1507，显示界面1507上显示有该图像1508，同时在该图像1508上显示有控件1511。控件1511填充颜色与控件1505的填充颜色不同，例如，可以是蓝牙填充该控件1511。

在一个示例中，手机在该图像1508上对识别到的文字以高亮颜色进行标注，如图15c 中的1509、1510等。其中，本示例中，高亮以虚线框表征。该控件1511还可以是图标，以用于指示该图像1508存在OCR文字识别结果，点击高亮字体，即可实现对选中的文字进行复制，例如，用户长按文字1510，手机响应于用户的长按操作，对文字1510进行复制。

在另一个示例中，手机响应于用户点击控件1511的操作，可以切换界面，在新的显示界面上显示图像1508的识别结果。

本示例中，不再一一列举对图像进行了如本申请中图像的文字识别的操作后的可能示意图。

另外，执行本申请示例中图像的文字识别的操作的电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图16是本申请实施例的电子设备100的软件结构框图。

电子设备100的分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为五层，从上至下分别为应用程序层，应用程序框架层，系统层，硬件抽象层以及内核层。

应用程序层可以包括一系列应用程序包。

如图16所示，应用程序包可以包括相机，图库，相机，系统管理，OCR引擎以及智慧截屏等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

本申请实施例中图库展示图像、触发OCR引擎对图像进行OCR文字识别的操作。

OCR引擎可以对图像进行OCR文字识别的操作，OCR文字识别包括文本检测和文本识别两个步骤。

智慧截屏可以对显示界面进行截取操作。

如图16所示，应用程序框架层可以包括活动管理器，窗口提供器，内容管理器，通知管理器以及电池管理器等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

本示例中通知管理器可以向手机发送灭屏且充电的消息。

电池管理器可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。本申请实施例中电池管理器可以检测电池的状态以及检测手机是否处于灭屏状态。同时，电池管理器在检测到电子设备处于充电且灭屏的状态时，则可以向图库发送灭屏且充电的消息。

如图16所示，系统层可以包括多个功能模块。例如：表面管理层(surfacemanager)，媒体库(Media Libraries)，SQLite，二维图像处理库以及Android运行时等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG 等。

二维图形处理库用于实现二维图形绘图，图像渲染，合成，和图层处理等。

Android运行时(即Android runtime)包括核心库和虚拟机。负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

如图16所示，硬件抽象层可以包括多个模块。例如：图形模块，蓝牙模块，摄像头模块、Wi-Fi模块以及硬件合成器等模块。图形模块用于生成图像。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动等。

图17为示例性示出的一种手机截屏操作的内部模块之间的交互示意图。

步骤1701：用户执行截屏的操作。

示例性地，用户的截屏操作可以是双击屏幕、点击截屏按钮、多指滑动屏幕等操作。

步骤1702：手机的智慧截屏响应于用户的截屏的操作，读取当前前台活跃的应用的应用信息。

示例性地，智慧截屏接收到用户的截屏操作后，生成图像A。可以读取前台活跃的应用的应用信息。可选地，应用信息可以是应用程序的名称、应用程序的标识信息等。

步骤1703：智慧截屏向图库发送图像A以及读取的应用信息。

示例性地，智慧截屏向图库发送生成的图像A以及读取的应用信息。

步骤1704：图库向多媒体数据库发送接收的图像A以及读取的应用信息。

示例性地，图库接收到图像A以及读取的应用信息后，向多媒体数据库传输该图像A以及读取的应用信息。

步骤1705：多媒体数据库存储该图像A以及读取的应用信息。

示例性地，多媒体数据库存储该图像A以及读取的应用信息。可选地，可以将读取的应用信息存储该图像A的属性信息中，例如，图像A的所属应用的名称为 “Memorandum”，则多媒体数据库可以将属性信息中第二标签的值置为“Memorandum”，可选地，该第二标签的标识可以为“ScreenshotApp”。该图像A的属性信息还可以包括该图像的来源方式，例如，图像A由智慧截屏获取，智慧截屏可以生成截屏的标识信息并一并通过图库传输至多媒体数据库，该多媒体数据库将截屏的标识信息(如 “Screenshot”)作为属性信息中第一标签的值，第一标签的标识信息可以设置为“type”，即第一标签可以表示为“type:Screenshot”，其中，type指示第一标签的标识信息， Screenshot指示第一标签的值。

可以理解的是，图像A的属性信息还可以包括其他内容，如内容标签。图像A的属性信息还可以包括图像A所属的概率类别的检测结果，图像A的检测结果可以用于指示图像A所属的概率类别。例如，若图像A为截图，图像A所属应用的概率类别可以作为该图像A的所属的概率类别。图像所属应用的概率类别可以包括：第一概率应用、第二概率应用以及第三概率应用。

图18为示例性示出的一种手机内部模块之间的交互示意图。

步骤1801：用户执行打开图像A的操作。

本示例中，手机显示图库主界面，图库主界面中显示有各图像的缩略图。用户执行打开图像A的操作。打开图像的操作可以是点击该图像的缩略图。

步骤1802：手机的图库接收到用户打开图像A的操作。

手机的图库接收到打开图像A的操作，可以触发图库执行步骤1803。

步骤1803：图库向多媒体数据库发起查询图像A的属性信息的请求。

步骤1804：多媒体数据库向图库返回该图像A以及图像A的属性信息。

在一个示例中，多媒体数据库可以是SQLite数据库。该图像A的属性信息可以包括：第一标签、应用标签(也称第二标签，后文使用第二标签为例进行说明)以及图像A的检测标签。可选地，图像A检测标签可以为“screenshotTypeJude”，该检测标签用于指示图像A是否存在检测结果。该检测标签的值若为真值(如真值为true或1)，指示图像A 存在检测结果，也即指示手机检测过该图像A所属的概率类别。若检测标签的值为假值 (如真值为false或0)，指示图像A不存在检测结果，也即指示手机未检测该图像A所属的概率类别。

多媒体数据库接收到图库发送的查询请求，将该图像A以及该图像A的属性信息返回图库。

步骤1805：图库根据图像A的属性信息，检测到图像A存在检测结果。

示例性地，图库可以从图像A的属性信息中读取检测标签“screenshotTypeJude”的值，根据检测标签的值确定图像A是否存在检测结果。

在一个示例中，当检测到该检测标签的值为true(如“screenshotTypeJude：true”)，则该图库确定图像A存在检测结果。

在另一示例中，当图库检测到该检测标签的值为false(如“screenshotTypeJude：false”)，则该图库确定图像A不存在检测结果。

本示例中以图库检测到图像A存在检测结果为例。

步骤1806：图库向多媒体数据库发送查询图像A的OCR文字识别结果的请求。

步骤1807：多媒体数据库向图库返回该图像A的OCR文字识别结果。

在一个示例中，当多媒体数据库查询到图像A存在OCR文字识别结果，则将该图像A的识别结果返回图库。

需要说明的是，在另一个示例中，当多媒体数据库未查询到该图像A的OCR文字识别结果，则将该图像A的检测结果返回该图库。例如，图库确定图像A1存在检测结果，该多媒体数据库查询到该图像A1的检测结果(如检测结果指示图像A1所属应用属于第三概率应用)且未查询到图像A1的识别结果，该多媒体数据库可以将该该图像A1 的检测结果返回图库。多媒体数据库将该图像的检测结果返回图库。使得图库无需再次根据图像的第二标签判断该图像所属的概率类型，进一步减少了手机的功耗。

步骤1808：图库显示图像A以及显示控件A。

在一个示例中，控件A用于指示显示图像A的OCR文字识别结果(也称“OCR识别结果”)，该控件A可以如图15c所示的控件1511。即图库显示该图像A以及蓝色的控件A(即图15c中的控件1511)

步骤1809：用户点击控件A。

需要说明的是，控件A的触发还可以是其他方式，如双击、滑动、多指触摸等。

步骤1810：图库显示图像A以及显示OCR文字识别结果。

图库响应于用户点击控件A的操作，显示该图像的OCR文字识别结果。在一个示例中，图库可以同时显示该图像A以及该图像A的OCR文字识别结果，如图15c所示。

在另一个示例中，图库仅显示图像A的OCR文字识别结果。

需要说明的是，在另一个示例中，可选地，步骤1808还可以为：图库显示图像A以及图像A的OCR文字识别结果，其显示界面如图15c所示，以高亮的方式标注图像中的文字，其他非文字部分不做改变(或者对非文字部分增加蒙板)。本示例中，执行步骤1808 后，结束流程。

本示例中，图库在展示图像之前，向多媒体数据库查询是否存在检测结果。当检测到存在图像的检测结果时，可以直接获取该图像的检测结果，无需再次对图像进行本申请中图像的文字识别的操作，进一步缩小了手机的功耗。

图19为示例性示出的一种手机内部模块之间的交互示意图。

步骤1901：用户执行打开图像B的操作。

该步骤与1801类似，此处将不再进行赘述。

步骤1902：手机的图库接收到用户打开图像B的操作。

手机的图库接收到打开图像B的操作，可以触发图库执行步骤1903。

步骤1903：图库向多媒体数据库发起查询图像B的属性信息的请求。

步骤1904：多媒体数据库向图库返回该图像B以及该图像B的属性信息。

步骤1905：根据图像B的属性信息，检测到图像B不存在检测结果。

示例性地，图库可以从图像B的属性信息中读取检测标签“screenshotTypeJude”的值，根据检测标签的值确定图像B是否存在检测结果。在一个示例中，当图库检测到该检测标签的值为false(如“screenshotTypeJude：false”)，则该图库确定图像B不存在检测结果。

本示例中以图库检测到图像B不存在检测结果为例。

步骤1906：图库从属性信息中获取第二标签。

一个示例中，图库可以获取图像B的属性信息(如属性信息为： Screenshot_20210928_2000_Memorandum)。图库根据该属性信息中的第一标签(如第一标签的标识为type，第一标签的值为“Screenshot”)，该图库确定该图像B属于截图。当图库确定该图像属于截图后，从该属性信息中获取第二标签(如：第二标签的标识可以为“ScreenshotApp”，第二标签的值为“Memorandum”)，根据该第二标签的值 “Memorandum”，手机确定该图像B所属应用为“备忘录”。

步骤1907：图库根据第二标签确定图像B所属应用属于第一概率应用。则执行步骤1908。

本示例中，图库根据根据“备忘录”的应用名称，确定该“备忘录”应用属于便携生活类应用。该图库根据预先存储的应用类别的信息(即如图5所示的应用类别分类信息)确定便携生活类应用属于第一概率应用。

步骤1908：图库触发OCR引擎执行OCR文字识别。

OCR引擎包括执行文本检测和文本识别(也称文字识别)两个步骤。

步骤1909：OCR引擎执行OCR文字识别。

本示例中，OCR引擎对图像B进行OCR文字识别的操作，获得图像B的OCR文字识别结果。

步骤1910：OCR引擎向多媒体数据库传输图像B的OCR文字识别结果。

步骤1911：OCR引擎向图库返回图像B的OCR文字识别结果。

步骤1912：多媒体数据库存储图像B的OCR文字识别结果。

示例性地，该多媒体数据库接收到OCR引擎传输的图像B的OCR文字识别结果，存储该图像B的识别结果，同时该多媒体数据库还可以将检测标签置为真值，如screenshotTypeJude＝true。多媒体数据库还可以存储该图像B的所属应用为第一概率应用的检测结果。

步骤1913：图库显示图像B以及显示控件B。

图库接收到OCR引擎返回的OCR文字识别结果后，可以显示图像B以及控件B，控件B用于指示触发执行图像B的OCR文字识别结果。控件B的形态可以如图15c所示的控件1511。

步骤1914：用户点击控件B。

步骤1915：图库显示图像B以及显示OCR文字识别结果。

图库响应于用户点击控件B的操作，显示该图像的OCR文字识别结果。

在一个示例中，图库可以同时显示该图像B以及该图像B的OCR文字识别结果。

在另一个示例中，图库可以仅显示图像B的OCR文字识别结果。本示例中以图库同时显示该图像B以及该图像B的OCR文字识别结果为例。

图20为示例性示出的一种手机内部模块之间的交互示意图。

步骤2001：用户执行打开图像C的操作。

该步骤与步骤1801类似，可以参照1801的相关描述，此处将不再进行赘述。

步骤2002：手机的图库接收到用户打开图像C的操作。

手机的图库接收到打开图像C的操作，可以触发图库执行步骤2003。

步骤2003：图库向多媒体数据库发起查询图像C的属性信息的请求。

步骤2004：多媒体数据库向图库返回该图像C以及图像C的属性信息。

步骤2005：图库根据图像C的属性信息，检测图像C不存在检测结果。

步骤2006：图库从图像C的属性信息中获取第二标签。

一个示例中，图库可以获取图像C的属性信息(如Screenshot_20210928_2010_sports)。图库根据该属性信息中的第一标签(如第一标签的标识为type，第一标签的值为“Screenshot”)，该图库确定该图像C属于截图。当图库确定该图像属于截图后，从该属性信息中获取第二标签(如第二标签的标识可以为“ScreenshotApp”，第二标签的值为“sport”)，根据该第二标签的值“sport”，手机确定该图像C所属应用为“运动健康”。

步骤2007：图库根据第二标签确定图像C所属应用属于第二概率应用。

本示例中，图库根据“运动健康”的应用名称，确定该“运动健康”应用属于运动类应用。图库根据预先存储的应用类别的信息(即图5所示的应用类别)，确定该“运动类”应用属于第二概率应用。

步骤2008：确定手机未处于灭屏且充电的状态。

一个示例中，由手机中的电池管理模块检测手机是否处于灭屏且充电的状态，当检测到手机处于灭屏且充电的状态，则电池管理模块调用通知管理器的通知接口；该通知管理器向图库发送手机处于灭屏且充电的状态的信息。图库接收到该通知管理器发送的信息后，确定手机处于灭屏且充电的状态。

当图库在预设时长内未接收到通知管理器发送的手机处于灭屏且充电状态的信息，则图库确定手机未处于灭屏且充电的状态。可选地，预设时长可以根据需求进行设置，例如，预设时长可以设置为1ms、0.5ms等。本示例中，以图库未接收到通知管理器发送的手机处于灭屏且充电状态的信息为例。

当图库确定手机未处于灭屏且充电的状态，则执行步骤2009。

步骤2009：图库触发OCR引擎对图像C进行文本检测的操作。

OCR引擎包括执行文本检测和文本识别(也称文字识别)两个步骤。本示例中，图库向OCR引擎发送图库发送文本检测的指示(即图库指示对图像C进行文本检测)。

步骤2010：OCR引擎对图像C进行文本检测的操作，获得文本检测结果。

步骤2011：OCR引擎向多媒体数据库传输文本检测结果。

步骤2012：OCR引擎向图库传输文本检测结果。

步骤2013：多媒体数据库存储图像C的文本检测结果。

示例性地，多媒体数据存储图像C的文本检测结果，同时该多媒体数据库还可以将检测标签置为真值，如screenshotTypeJude＝true。多媒体数据库还可以存储该图像C的所属应用为第二概率应用的检测结果。

步骤2014：图库显示图像C以及显示控件C。

图库接收到OCR引擎返回的图像C的文本检测结果后，可以显示图像C以及控件C，控件C用于指示触发OCR引擎对图像C进行文本识别的操作。控件C的形态可以如图 15b所示的控件1506。

步骤2015：用户点击控件C。

图库显示该控件C(如图15b中的控件1506)，可选地，该控件C的颜色为灰色，以用于指示用户该图像C中存在文本。用户可以通过点击控件C的方式触发该控件。

需要说明的是，控件C的触发还可以是其他方式，如双击、滑动、多指触摸等。

步骤2016：图库响应于接收的点击控件C的操作，触发OCR引擎对图像C进行文本识别的操作。

图库接收到用户点击控件C的操作，响应于该点击控件C的操作，图库向多媒体数据库发送读取文本检测结果的请求。该请求用于指示多媒体数据库向OCR引擎返回该图像C的文本检测结果，以及指示多媒体数据库触发OCR引擎对图像C进行文本识别的操作。

步骤2017：OCR引擎根据文本检测结果对图像C进行文本识别的操作。

OCR引擎根据文本检测结果，可以获取文本所在区域，进而对图像C中的文本进行识别操作，获得图像C的OCR文字识别结果。

步骤2018：OCR引擎向图库返回OCR文字识别结果。

步骤2019：OCR引擎向多媒体数据库传输OCR文字识别结果。

步骤2020：图库显示图像C以及显示OCR文字识别结果。

在一个示例中，图库可以同时显示该图像C以及该图像C的OCR文字识别结果，如图15c所示。在另一个示例中，图库可以仅显示图像C的OCR文字识别结果。本示例中以图库同时显示该图像C以及该图像C的OCR文字识别结果为例。

步骤2021：多媒体数据库存储图像C的OCR文字识别结果。

图21为示例性示出的一种手机内部模块之间的交互示意图。

步骤2101：用户执行打开图像D的操作。

该步骤与1801类似，此处将不再进行赘述。

步骤2102：手机的图库接收到用户打开图像D的操作。

手机的图库接收到打开图像D的操作，可以触发图库执行步骤2103。

步骤2103：图库向多媒体数据库发起查询图像D的属性信息的请求。

步骤2104：多媒体数据库向图库返回该图像D以及该图像D的属性信息。

步骤2105：根据图像D的属性信息，检测到图像D不存在检测结果。

本示例中该步骤与步骤1905类似，可以参照步骤1905中的相关描述来理解，此处不再进行赘述。

步骤2106：图库从图像D的属性信息中获取第二标签。

一个示例中，图库可以根据该属性信息(如：Screenshot_20210928_2010_meitu)中的第一标签的值(即“Screenshot”)，确定该图像属于截图。当图库确定该图像D属于截图后，从该属性信息中获取第二标签的值(即“meitu”)。图库根据该第二标签的值“meitu”，确定该图像D所属应用为“美图秀秀”。

步骤2107：图库根据第二标签确定图像D所属应用属于第三概率应用。则执行步骤2108。本示例中，图库根据“美图秀秀”的应用名称，确定该“美图秀秀”应用属于拍摄美化类应用。图库根据预先存储的应用类别的信息(即图5所示的应用类别)，确定该 “美图秀秀”属于第三概率应用。

在一个示例中，图库在确定该图像D的内容标签属于第三概率应用后，可以向多媒体数据库发送该图像D的检测结果，由多媒体数据库存储该图像D的检测结果，同时该多媒体数据库还可以将该图像D的检测标签置为真值，如screenshotTypeJude＝true。

步骤2108：图库显示图像D以及显示控件D

图库确定图像所属应用为第三概率应用后，可以显示图像D以及控件D，控件D用于指示触发OCR引擎对图像D进行OCR文字识别的操作。控件D可以如图15a所示的控件 1503。

步骤2109：用户点击控件D。

图库显示该控件D(如图15a中的控件1503)，可选地，该控件D的颜色为透明色，以用于指示触发OCR引擎对图像D进行OCR文字识别的操作。用户可以通过点击控件D 的方式触发该控件。

需要说明的是，控件D的触发还可以是其他方式，如双击、滑动、多指触摸等。

步骤2110：图库响应于接收的点击控件D的操作，触发OCR引擎对图像D进行OCR 文字识别的操作。

图库接收到用户点击控件D的操作，响应于该点击控件D的操作，图库触发OCR 引擎对图像D进行OCR文字识别的操作。

步骤2111：OCR引擎对图像D进行OCR文字识别的操作。

OCR引擎对图像D进行OCR文字识别的操作，获得图像D的OCR文字识别结果。 OCR引擎先对图像D进行文本检测的操作，当OCR引擎未检测到文本，则OCR对图像 D不再进行文本识别的操作。

步骤2112：OCR引擎向图库返回OCR文字识别结果。

该图像D的OCR文字识别结果指示该图像D中不存在文字。OCR引擎可以向图库返回该图像D的OCR文字识别结果。

步骤2113：OCR引擎向多媒体数据库传输该OCR文字识别结果。

步骤2114：多媒体数据库存储图像D的OCR文字识别结果。

多媒体数据可以存储该图像D的OCR文字识别结果。

步骤2115：图库显示图像D以及显示OCR文字识别结果。

图库控制显示屏显示图像D以及显示图像D的OCR文字识别结果。可以理解的是，由于图像D的识别结果指示图像D中不存在文本，可以在显示屏中显示“未发现文字” 的提示信息。可选地，还可以以其他形式的图标进行提示图像D中不存在文字，“例如，可以将如图15a所示的控件1503上标注感叹号，或者将该控件1503的颜色切换为红色”。

在另一个示例中，由于图像D的OCR文字识别结果指示不存在文字，图库可以仅显示图像D。

步骤2200：手机的电池管理检测到手机处于灭屏且充电的状态，调用通知管理器中的通知接口。

步骤2201：通知管理器向图库发送指示手机处于灭屏且充电的状态的信息。

通知管理器的通知接口接收到电池管理发送的信息后，向图库发送用于指示手机处于灭屏且充电的状态的信息。

步骤2202：图库向多媒体数据库发送查询图像E的属性信息的请求。

该场景中，图库在确定手机处于灭屏且充电的状态，可以依次对图库中的图像进行本申请示例中的图像的文字识别操作。图库可以按照最近时间依次遍历图库中的图像，例如，图库开始对图像E进行处理。该图库向多媒体数据库发起查询图像E的属性信息的请求。

步骤2203：多媒体数据库向图库返回该图像E以及该图像E的属性信息。

步骤2204：图库根据图像E的属性信息，检测到图像E不存在检测结果。

步骤2205：图库从图像E的属性信息中获取第二标签。

步骤2206：图库根据第二标签确定图像E所属应用属于第二概率应用。则执行步骤2207。

步骤2207：图库确定手机处于灭屏且充电的状态。

图库在预设时长内未收到手机结束灭屏且充电的状态，则图库确定手机依然处于灭屏且充电的状态。可选地，预设时长可以根据需求进行设置，例如，预设时长为1ms等。

步骤2208：图库触发OCR引擎对图像E进行OCR文字识别。

步骤2209：OCR引擎对图像E进行OCR文字识别的操作。

OCR引擎对图像E进行OCR文字识别的操作，获得图像E的OCR文字识别结果。

步骤2210：OCR引擎向多媒体数据库传输OCR文字识别结果。

示例性地，OCR引擎向多媒体数据库传输该图像E的OCR文字识别结果。

步骤2211：OCR引擎向图库传输OCR文字识别结果。

示例性地，OCR引擎向图库传输该图像E的OCR文字识别结果。

步骤2212：多媒体数据库存储该OCR文字识别结果。

该多媒体数据库接收到OCR引擎传输的图像E的OCR文字识别结果，存储该图像 E的识别结果，同时该多媒体数据库还可以将检测标签置为真值，如 screenshotTypeJude＝true。该多媒体数据库还可以存储该图像E的检测结果(如检测结果用于指示该图像E所属应用属于第二概率应用)。

步骤2213：图库向多媒体数据库发起查询图像F的属性信息的请求。

在一个示例中，多媒体数据存储了该图像E的OCR文字识别结果后。可以触发图库对下一张图像F进行处理。例如，可以向图库发送存储了图像E的OCR文字识别结果的消息，从而触发图库对图像F进行处理。

在另一个示例中，图库可以并行对多个图像进行处理。图库还可以在检测到达到预设处理时长后，自动触发对下一张图像F的处理。

图库对图像F进行处理，即可以向多媒体数据库发起查询图像F是否存在检测结果的请求。

步骤2214：多媒体数据库向图库返回该图像F以及该图像F的属性信息。

步骤2215：图库根据图像F的属性信息，检测到图像F不存在检测结果。

步骤2216：图库从图像F的属性信息中获取第二标签。

步骤2217：图库根据第二标签确定图像F所属应用属于第三概率应用。

步骤2218：图库向多媒体数据库返回图像F所属应用的类别。

步骤2219：多媒体数据库存储图像F所属应用属于的类别。

示例性地，图库确定图像F所属应用属于第三概率应用，图库不触发OCR引擎进行OCR文字识别。多媒体数据可以存储该图像F的检测结果(即指示图像F所属应用属于第三概率应用)，同时该多媒体数据库将检测标签置为真值，如screenshotTypeJude＝true。

可以理解的是，各实施例中相同或相似之处可以相互参考进行理解，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。

Claims

1.一种图像的文字识别方法，其特征在于，应用于电子设备，包括：

获取第一截图的属性信息，所述第一截图的属性信息包括：所述第一截图的应用标签，所述第一截图的应用标签用于指示所述第一截图所属应用的信息；

根据所述第一截图的应用标签确定所述第一截图所属应用属于的应用类别，所述应用类别包括：第一类应用和第二类应用；

当确定所述第一截图所属应用属于第一类应用，则对所述第一截图进行OCR文字识别，存储所述第一截图的文字识别结果；响应于接收到的第一用户操作，展示所述第一截图的文字识别结果以及提示第一提示信息，所述第一用户操作用于指示所述电子设备展示所述第一截图，所述第一提示信息用于指示用户查看所述第一截图的文字识别结果；

当确定所述第一截图所属应用属于第二类应用，则检测所述电子设备是否处于灭屏且充电的状态；当检测到所述电子设备处于充电且灭屏的状态，则对所述第一截图进行的OCR文字识别，存储所述第一截图的文字识别结果；响应于接收到的所述第一用户操作，展示所述第一截图以及所述第一提示信息；

当检测到所述第一截图所属应用属于第二类应用且检测到所述电子设备未处于灭屏且充电的状态，则取消对所述第一截图进行OCR文字识别的操作。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当检测到所述第一截图所属应用属于第三类应用，则取消对所述第一截图进行所述OCR文字识别的操作。

3.根据权利要求2所述的方法，其特征在于，在检测到所述第一截图所属应用属于第三类应用之后，所述方法还包括：

响应于接收到的第二用户操作，对所述第一截图进行OCR文字识别，获得所述第一截图的文字识别结果，其中，所述第二用户操作用于指示所述电子设备对所述第一截图进行OCR文字识别的操作；

展示所述第一截图的文字识别结果。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若接收到第二用户操作，对所述第一截图进行OCR文字识别，获得所述第一截图的文字识别结果，所述第二用户操作用于指示所述电子设备对所述第一截图进行OCR文字识别的操作；

展示所述第一截图的文字识别结果。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第二截图的属性信息，所述第二截图的属性信息包括：所述第二截图的应用标签，所述第二截图的应用标签用于指示所述第二截图所属应用的信息；

根据所述第二截图的应用标签确定所述第二截图所属应用属于的应用类别；

当确定所述第二截图所属应用属于第二类应用，则检测所述电子设备是否处于灭屏且充电的状态；

当检测到所述电子设备未处于灭屏且充电的状态，则对所述第二截图进行OCR文字识别中的文本检测的操作，获得所述第二截图的文本检测结果，并保存所述第二截图的文本检测结果。

6.根据权利要求5所述的方法，其特征在于，在所述保存所述第二截图的文本检测结果之后，所述方法还包括：

响应于接收到的第三用户操作，展示所述第二截图以及在所述第二截图的文本检测结果指示所述第二截图中存在文本的情况下提示第二提示信息，所述第三用户操作用于指示所述电子设备展示所述第二截图，所述第二提示信息用于指示所述第二截图存在文本。

7.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

响应于接收到第四用户操作，所述第四用户操作用于指示对所述第二截图进行OCR文字识别中的文本识别的操作：

获取所述文本检测结果；

当确定所述文本检测结果指示所述第二截图中存在文本，则对所述第二截图进行OCR文字识别中的文本识别的操作，获得所述第二截图的文字识别结果；

展示所述第二截图的文字识别结果。

8.根据权利要求5所述的方法，其特征在于，在所述保存所述第二截图的文本检测结果之后，所述方法还包括：

当检测到所述电子设备处于灭屏且充电的状态，则获取所述文本检测结果，当所述文本检测结果指示所述第二截图中存在文本，则对所述第二截图进行所述OCR文字识别中的文本识别的操作，获得所述第二截图的文字识别结果；

响应于接收到的第三用户操作，展示所述第二截图以及提示第三提示信息，所述第三用户操作用于指示所述电子设备展示所述第二截图，所述第三提示信息用于指示用户查看所述第二截图的文字识别结果。

9.根据权利要求5所述的方法，其特征在于，在所述保存所述第二截图的文本检测结果之后，所述方法还包括：

当确定所述文本检测结果指示所述第二截图中存在文本，则为所述第二截图添加第三标签，所述第三标签用于指示所述第二截图中存在文本；

所述方法还包括：

当检测到所述电子设备处于灭屏且充电的状态，获取包含所述第三标签的截图，所述包含所述第三标签的截图包括所述第二截图；

对获取的包含所述第三标签的各个截图进行OCR文字识别中的文本识别的操作，获得包含所述第三标签的各个截图的文字识别结果。

10.根据权利要求1至6、8或9中任一项所述的方法，其特征在于，第一类应用包括以下任一种或多种的组合：社交类应用、教育类应用、新闻阅读类应用、出行导航类应用、旅游住宿类应用、购物类应用、商务类应用、美食类应用、便携生活类应用或儿童类应用。

11.根据权利要求1至6、8或9中任一项所述的方法，其特征在于，第二类应用包括以下任一种或多种的组合：影音类应用、金融财经类应用、运动健康类应用、使用工具类应用或汽车类应用。

12.根据权利要求2或3所述的方法，其特征在于，第三类应用包括以下任一种或多种的组合：拍摄美化类应用或主题个性类应用。

13.根据权利要求1至6、8或9中任一项所述的方法，其特征在于，所述第一截图的属性信息包括所述第一截图的第一标签，所述第一标签用于指示所述第一截图的类别，所述类别包括照片或截图；

在所述根据所述第一截图的应用标签确定所述第一截图所属应用属于的应用类别之前，所述方法还包括：检测到所述第一标签指示所述第一截图的类别为截图。

14.根据权利要求1至6、8或9中任一项所述的方法，其特征在于，在所述获取第一截图的属性信息之前，所述方法还包括：

检测到的预设触发条件，所述预设触发条件包括：用户查看图库中任一图像的操作，或者，所述电子设备处于灭屏且充电的状态，或者，用户查看所述图库的操作。

15.根据权利要求1所述的方法，其特征在于，在存储所述第一截图的文字识别结果之后，所述方法还包括：

在图库界面中所述第一截图的缩略图上添加识别标记，所述识别标记用于指示所述第一截图存在文字识别结果。

16.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

以及一个或多个计算机程序，其中所述一个或多个计算机程序存储在所述存储器上，当所述计算机程序被所述一个或多个处理器执行时，使得所述电子执行如权利要求1-15中任一项所述的图像的文字识别的方法。

17.一种计算机可读存储介质，包括计算机程序，其特征在于，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1-15中任意一项所述的图像的文字识别方法。