CN115035360A - 图像的文字识别方法、电子设备及存储介质 - Google Patents
图像的文字识别方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115035360A CN115035360A CN202111389990.9A CN202111389990A CN115035360A CN 115035360 A CN115035360 A CN 115035360A CN 202111389990 A CN202111389990 A CN 202111389990A CN 115035360 A CN115035360 A CN 115035360A
- Authority
- CN
- China
- Prior art keywords
- image
- tag
- character recognition
- text
- mobile phone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Character Discrimination (AREA)
Abstract
本申请提供了一种图像的文字识别方法、电子设备及存储介质,涉及计算机技术领域。采用本申请中的方法,获取第一图像的属性信息,根据第一图像的属性信息确定第一图像的拍照模式所属的模式类别;当第一图像的内容标签属于第一类标签,对第一图像进行OCR文字识别操作,当第一图像的内容标签属于第二类标签且电子设备处于灭屏且充电的状态,对第一图像进行OCR文字识别的操作;若接收到第一用户操作,展示第一图像以及第一提示信息。由于不是对所有的图像均进行OCR识别的操作,而是根据图像的内容标签所属的标签类别,确定是否对图像进行OCR识别的操作,减少电子设备对图像进行文字识别的功耗,优化电子设备对图库中的图像进行OCR文字识别的效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像的文字识别方法、电子设备及存储介质。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。OCR技术现已广泛地应用在医疗、保险、金融、物流、传统制造业、购物等领域。例如,在物流领域的一种应用场景中,用户使用手机拍摄物流订单的照片,通过OCR文字识别该照片上的快递单号。通过OCR技术,可以快速获取照片上的快递单号,无需人工录入而直接导入系统进行快递查询。
然而,目前电子设备(如手机、平板电脑等)对图库中的图像进行OCR文字识别的功耗大,时延长,影响用户的体验。
发明内容
本申请实施例提供了一种优化的图像的文字识别方法、电子设备及存储介质。
在本申请一些实施例中,电子设备可以对需要进行文字识别的图像进行文字识别,而不是对所有图像均进行文字识别的操作,减少电子设备对图像进行文字识别的功耗,有效提高电子设备的对图像进行OCR文字识别的效率,提高用户对电子设备的使用体验。
第一方面,本申请提供一种图像的文字识别的方法,应用于电子设备,该方法包括:
电子设备获取第一图像的属性信息,第一图像的属性信息包括:第一图像的内容标签,第一图像的内容标签用于指示第一图像的内容所属的类别;根据第一图像的内容标签确定第一图像的内容标签所属的标签类别,标签类别包括:第一类标签和第二类标签;当确定第一图像的内容标签属于第一类标签,则对第一图像进行OCR文字识别,存储第一图像的文字识别结果;响应于接收到的第一用户操作,展示第一图像以及提示第一提示信息,第一用户操作用于指示电子设备展示第一图像,第一提示信息用于指示用户查看第一图像的文字识别结果;当确定第一图像的内容标签属于第二类标签,则检测电子设备是否处于灭屏且充电的状态;当检测到电子设备处于充电且灭屏的状态时,则对第一图像进行的OCR文字识别,存储第一图像的文字识别结果;响应于接收到的第一用户操作,展示第一图像以及提示第一提示信息。
这样,第一图像的内容标签可以用于指示该第一图像的内容所属的类别,根据第一图像的内容标签可以确定该第一图像的内容标签所属的标签类别,该标签类别包括第一类标签和第二类标签。该标签类别可以用于指示图像中出现文字的概率,例如,第一类标签可以包括第一概率标签,第一概率标签用于指示图像出现文字的概率大于第一阈值(如:第一阈值为50%)。第二类标签可以包括第二概率标签,第二概率标签用于指示图像出现文字的概率大于第二阈值且小于第一阈值,如,大于0且小于50%。电子设备通过对第一图像的内容标签进行标签类别的判定,从而可以针对存在文字概率不同的图像进行不同的处理,如,对属于第一类标签的图像直接进行文字识别的操作。而对属于第二类标签的图像进行处理时,需要检测电子设备是否处于灭屏且充电的状态,在电子设备处于灭屏且充电的状态时,对属于第二类标签的图像进行文字识别的操作。由于不是直接对任意的图像都进行文字识别的操作,而是有选择地对存在文字的图像进行文字识别操作,提高了电子设备对图像进行文字识别的效率,减少对无文字的图像进行OCR文字识别的概率,进而减少了电子设备不必要的功耗。另外,电子设备检测到第一图像的内容标签属于第二类标签时,检测电子设备的工作状态,当电子设备处于灭屏且充电的状态时,用户未使用该电子设备,处于充电且灭屏的状态时该电子设备的电量充足,此时对内容标签属于第二类标签的图像进行文字识别操作,避免电子设备在电量不充足状态对照片进行文字识别的操作,从而可以提高电子设备的续航能力。
根据第一方面,该方法还包括:电子设备当检测到第一图像的内容标签属于第三类标签,则取消对第一图像进行OCR文字识别的操作;响应于接收到的第一用户操作,展示第一图像。标签类别还包括第三类标签,第三类标签可以指示图像中存在文字的概率低,例如,第三类标签可以是第三概率标签,该第三概率标签用于指示图像出现文字的概率小于等于第二阈值(如第二阈值为5%、0等)且大于等于0。当电子设备在检测到第一图像的内容标签属于第三类标签时,取消对该第一图像进行OCR文字识别的操作,由于内容标签属于第三类标签的图像中存在文字的概率低,电子设备不对该类第一照片进行文字识别的操作,可以减少电子设备的功耗,减少电子设备进行不必要的OCR文字识别操作。此外,当电子设备接收到第一用户操作时,可以直接显示该第一图像,而无需对该电子设备进行OCR文字识别的操作,时延少,提高用户的使用体验。
根据第一方面,在电子设备检测到第一图像的内容标签属于第三类标签之后,该方法还包括:电子设备响应于接收到的第二用户操作,对第一图像进行OCR文字识别,获得第一图像的文字识别结果,其中,第二用户操作用于指示电子设备对第一图像进行OCR文字识别的操作;展示第一图像的文字识别结果。当电子设备接收到第二用户操作时,可以强制对该第一图像进行文字识别的操作,提高用户的使用体验。
根据第一方面,该方法还包括:电子设备当确定第一图像的内容标签属于第二类标签,且检测到电子设备未处于灭屏且充电的状态,则取消对第一图像进行OCR文字识别的操作;若接收到的第二用户操作,对第一图像进行OCR文字识别,获得所述第一图像的文字识别结果,其中,第二用户操作用于指示电子设备对第一图像进行OCR文字识别的操作;展示第一图像的文字识别结果。这样,电子设备在检测到第一图像的拍照模式属于第二类模式,且检测到该电子设备未处于灭屏且充电的状态时,取消对第一图像进行OCR文字识别的操作,由于为第一图像的内容标签属于第二类标签,第一图像中存在文字的概率相比内容标签属于第一类标签的图像中存在文字的概率小,此时,取消对该第一照片进行OCR文字识别的操作,可以避免出现因不存在文字而导致功耗的无用消耗,减少电子设备的功耗。
根据第一方面,该方法还包括:电子设备获取第二图像的属性信息,第二图像的属性信息包括:第二图像的内容标签,第二图像的内容标签用于指示第二图像的内容所属的类别;根据第二图像的内容标签确定第二图像的内容标签所属的标签类别;当确定第二图像的内容标签属于第二概率标签,则检测电子设备是否处于灭屏且充电的状态;当检测到电子设备未处于灭屏且充电的状态,则对第二图像进行OCR文字识别中的文本检测的操作,获得第二图像的文本检测结果,并保存第二图像的文本检测结果。电子设备对内容标签属于第二类标签的图像仅进行OCR文字识别中的文本检测的操作,由于OCR文字识别中文本识别操作的功耗大,本示例中电子设备不对第二图像进行文本识别的操作,可以降低手机的功耗。
根据第一方面,在保存第二图像的文本检测结果之后,该方法还包括:电子设备响应于接收到的第三用户操作,展示第二图像以及在第二图像的文本检测结果指示第二图像中存在文本的情况下提示第二提示信息,第三用户操作用于指示电子设备展示第二图像,第二提示信息用于指示第二图像存在文本。该电子设备接收到该第三用户操作时,可以直接展示该第二图像,同时,由于存储有文本检测结果,在该文本检测结果指示存在文本时,提示该第二提示信息,从而使得用户可以根据第二提示信息获知该第二图像存在文本。
根据第一方面,该方法还包括:电子设备响应于接收到的第四用户操作,第四用户操作用于指示对第二图像进行OCR文字识别中的文本识别的操作:获取文本检测结果;当确定文本检测结果指示第二图像中存在文本,则对第二图像进行该OCR文字识别中的文本识别的操作,获得第二图像的文字识别结果;展示第二图像的识别结果。在保存了第二图像的文本检测结果后,当接收到第四用户操作,电子设备由于仅需对第二图像进行文本识别的操作,无需对该第二图像进行OCR文字识别中的文本检测操作,提高了展示文字识别结果的速度,提高用户的使用体验。
根据第一方面,在保存第二图像的文本检测结果之后,该方法还包括:当检测到电子设备处于灭屏且充电的状态,则获取文本检测结果;当文本检测结果指示第二图像中存在文本,则对第二图像进行OCR文字识别中的文本识别的操作,获得第二图像的文字识别结果;响应于接收到的第三用户操作,展示第二图像以及提示第三提示信息,第三用户操作用于指示电子设备展示第二图像,第三提示信息用于指示用户查看第二图像的文字识别结果。在电子设备检测到电子设备处于灭屏且充电的状态,触发电子设备获取第二图像的文本检测结果,基于该文本检测结果进行文本识别的操作;而不是再次对第二图像进行文本检测的操作,减少了电子设备的功耗;且该电子设备在检测到处于灭屏且充电的状态时,主动触发对第二图像进行文本识别的操作,无需人工触发,减少了人工的参与,提高了电子设备对第二图像进行文字识别的效率,使得电子设备更加智能。
根据第一方面,在保存第二图像的文本检测结果之后,该方法还包括:当确定文本检测结果指示第二图像中存在文本,则为第二图像添加第三标签,第三标签用于指示第二图像中存在文本;该方法还包括:当检测到电子设备处于灭屏且充电的状态,获取包含第三标签的图像,包含第三标签的图像包括第二图像;对获取的包含第三标签的各图像进行OCR文字识别中的文本识别,获得包含第三标签的各图像的识别结果,并保存包含第三标签的各图像的文字识别结果。电子设备检测到处于灭屏且充电状态时,该电子设备查询包含第三标签的图像,对包含第三标签的图像进行文本识别;而无需对所有图像进行文本检测和文本识别两个操作,可以进一步降低手机的功耗。
根据第一方面,第一类标签包括:文档一类;文档一类包括以下任一种或多种的组合:纸质文档、身份证、护照、银行卡、演示文稿、名片、房产证、户口本、发票、火车票、飞机票、电影票、荣誉证书、表格、结婚证、驾驶证、行驶证或设计图。预先设置第一类标签可以包含的内容标签,从而便于电子设备快速判定图像的内容标签所属的标签类别。
根据第一方面,第二类标签包括包括以下任一种或多种的组合:交通工具一类标签或电器一类标签;交通工具一类标签用于指示图像的内容属于表面覆盖有文字或覆盖的文字大于预设字数的交通工具;电器一类标签用于指示图像的内容属于表面覆盖有文字的电器或覆盖的文字大于预设字数的电器。预先设置第二类标签可以包含的内容标签,从而便于电子设备快速判定图像的内容标签所属的标签类别。
根据第一方面,第三类标签包括以下任一种或多种的组合:人像标签、风景标签、动物标签、家居标签、艺术标签、节目标签、运动标签、动作标签、活动标签、配饰标签、服饰标签、玩具标签、工具标签、交通工具二类标签、电器二类标签或文档二类标签;其中,交通工具二类标签用于指示图像的内容属于表面无覆盖文字或文字少于预设字数的交通工具;电器二类标签用于指示图像的内容属于表面无覆盖文字或文字少于预设字数的电器;文档二类标签用于指示图像的内容属于二维码或条形码。预先设置第三类标签可以包含的内容标签,从而便于电子设备快速判定图像的内容标签所属的标签类别。
根据第一方面,在获取第一图像的属性之前,方法还包括:检测到的预设触发条件,预设触发条件包括:用户查看图库的操作,或者,电子设备处于灭屏且充电的状态。电子设备设置有多种触发方式,使得电子设备可以及时对图像进行文字识别的操作,便于用户查看,提高用户使用电子设备的体验。
根据第一方面,在存储第一图像的文字识别结果之后,该方法还包括:在图库界面中第一图像的缩略图上添加识别标记,识别标记用于指示第一图像存在文字识别结果。电子设备在第一图像的缩略图上添加识别标记,使得用户在未查看该第一图像时,通过缩略图中的识别标记即可获知该第一图像存在文字识别结果,以便查看该第一图像的文字识别结果。
根据第一方面,在存储第二图像的文字识别结果之后,该方法还包括:在图库界面中第二图像的缩略图上添加识别标记,识别标记用于指示第二图像存在文字识别结果。电子设备在第二图像的缩略图上添加识别标记,使得用户在未查看该第二图像时,通过缩略图中的识别标记即可获知该第二图像存在文字识别结果,以便查看该第二图像的文字识别结果。
第二方面,本申请提供了一种电子设备,包括:一个或多个处理器;存储器;以及一个或多个计算机程序,其中一个或多个计算机程序存储在存储器上,当计算机程序被一个或多个处理器执行时,使得电子设备执行执行上述第一方面任意一种实现方式所对应的图像的文字识别的方法。
第二方面实现方式与第一方面以及第一方面的任意一种实现方式相对应。第二方面任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第三方面,本申请提供了一种计算机可读介质,用于存储计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行上述第一方面的任意一种实现方式所对应的图像的文字识别的方法。
附图说明
图1是示例性示出的电子设备的结构示意图;
图2是本申请实施例提供的一种图像的文字识别方法的流程图;
图3是本申请实施例提供的一种手机添加内容标签的场景示意图;
图4是本申请实施例提供的一种图像的属性信息的示意图;
图5是本申请实施例提供的一种标签类别的示意图;
图6是本申请实施例提供的一种图像的文字识别的应用场景示意图;
图7是本申请实施例提供的另一种图像的文字识别的应用场景示意图;
图8是本申请实施例提供的另一种图像的文字识别的应用场景示意图;
图9是本申请实施例提供的一种用户点击缩略图查看图像IMG3的场景示意图;
图10是本申请实施例提供的另一种图像的文字识别的应用场景示意图;
图11是本申请实施例提供的另一种图像的文字识别的应用场景示意图;
图12是本申请实施例提供的另一种图像的文字识别的应用场景示意图;
图13是本申请实施例提供的另一种图像的文字识别的应用场景示意图;
图14是本申请实施例提供的另一种图像的文字识别的应用场景示意图;
图15是本申请实施例提供的另一种图像的文字识别的应用场景示意图;
图16a是本申请实施例提供的另一种图像的文字识别的应用场景示意图;
图16b是本申请实施例提供的另一种图像的文字识别的应用场景示意图;
图16c是本申请实施例提供的另一种图像的文字识别的应用场景示意图;
图17是示例性示出的电子设备的软件结构示意图;
图18为示例性示出的一种手机内部模块之间的交互示意图;
图19为示例性示出的一种手机内部模块之间的交互示意图;
图20为示例性示出的一种场景下手机内部模块之间的交互示意图;
图21为示例性示出的又一场景下手机内部模块之间的交互示意图;
图22为示例性示出的一种手机处于充电且灭屏的状态下内部模块之间的交互示意图。
具体实施方式
图1为本申请实施例示出的一种电子设备100的结构示意图。应该理解的是,图1所示电子设备100仅是电子设备的一个范例,并且电子设备100可以具有比图中所示的更多的或者更少的部件,可以组合两个或多个的部件,或者可以具有不同的部件配置。图1中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
电子设备100可以包括:处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
在本申请实施例中,处理器110可以用于根据用户的操作或者检测到预设识别条件,触发对图像进行文字识别。处理器110还可以用于检测电子设备当前所处状态,如检测电子设备是否处于充电状态、灭屏状态或者灭屏且充电状态等。处理器110还可以用于根据用户操作截取屏幕的内容形成的图像,并将截取的图像存储在图库中。
本申请实施例中,显示屏194可以用于显示图库中的图像,显示应用程序的界面等。显示屏还可以显示出电子设备为用户提供的各种可操作控件(如可点击的按钮、可滑动的滑块等)等。
本申请实施例中,内部存储器121可以用于存储图像,如摄像头拍摄的图像、电子设备截屏产生的图像等。内部存储器121还可以存储图像的OCR文字识别的识别结果等。
在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。
电子设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统为例。
在一些实施例中,电子设备100的图库中存储有若干张图像(如:500张),该电子设备100响应于用户查看图像的操作,依次对用户查看的图像进行OCR文字识别。可选地,电子设备100可以使用基于深度学习的OCR文字识别技术。深度学习的OCR文字识别技术是通过收集数据并训练出深度学习模型(如OCR模型),使用训练完成的OCR模型进行识别的技术。基于深度学习的OCR模型包括文本检测模型和文本识别模型。该电子设备100可以部署文本检测模型实现对图像的文本检测,部署文本识别模型实现对图像的文本识别。也即OCR文字识别包括文本检测的操作和文本识别的操作。
文本检测模型用于定位图像中文本的位置。电子设备100将一张图像输入该文本检测模型,该文本检测模型输出图像中每个文本区域、每个字符的坐标。文本检测模型检测文本的方法包括:基于候选框的文本检测方法、基于语义分割的文本检测方法、以及基于两种文本检测方法的混合方法。
文本识别模型用于识别图像中的文本。可选地,电子设备100将单个文本区域的切片图像输入文本识别模型,该文本识别模型将输出切片中的文字内容。文本识别模型识别文本的框架包括:卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)以及联结主义时间分类(Connectionist TemporalClassification,CTC)算法三者组合框架,或者,采用CNN、Sequence to Sequence模型以及注意力模型(Attention)三者组合的框架。
为了确保对图像的文本识别的准确性,在进行OCR文字识别之前进行预处理,如对图像进行旋转矫正等,还可以在OCR文本识别后,进行后处理,如进行文本的纠错操作。
当用户点击进入电子设备100的图库时,将触发电子设备对该图像进行OCR文字识别。即用户每查看一张图像,电子设备100都将对查看的图像进行OCR文字识别,导致电子设备100的功耗增加,例如,假设对一张具有5行文本的图像进行OCR文字识别的时延为630ms,功耗为m。当用户依次查看50张相同的图像时,该电子设备100将依次对该50张图像进行OCR文字识别,此时查看50张图像的时延为630ms*50;消耗的功耗为m*50;电子设备的功耗增加。另外,由于OCR文字识别的时延长,也影响用户查看图像的速度,影响用户的体验。
本申请一些实施例提供了一种图像的文字识别方法,以优化电子设备对图库中图像进行OCR文字识别的效率。示例性地,本申请实施例中电子设备100以手机为例。
图2为示例性示出的本申请实施例提供的一种图像的文字识别方法的流程图。该图像的文字识别方法包括以下步骤:
步骤201:手机读取图像的属性信息。
示例性地,手机将不同来源方式的图像存储于图库中,以供用户查看。例如,手机通过拍照方式获得的图像、手机接收其他设备发送的图像、或者手机通过截屏获得图像。
手机存储有每张图像对应的属性信息。示例性地,属性信息可以包括:内容标签;还可以包括:第一标签、第二标签以及图像的获取时间信息等。内容标签用于指示图像的内容所属的类别,例如,图像中内容呈现的是蛋糕,则该图像的内容所属类别为食物,即该内容标签“food”用于指示该图像的内容为食物。第一标签用于指示获取图像的来源方式,例如,第一标签为“DCIM”,可以用于指示图像来源于拍摄,第一标签为“Screenshot”,可以用于指示图像来源于截屏操作。第二标签用于指示图像所属应用的信息。图像的获取时间信息用于指示该当前手机获取图像的时间或者指示发送图像的源电子设备生成图像的时间。需要说明的是,本申请中属性信息包含的内容仅为示意性举例,本申请不做限定。在其他实施例中,属性信息还可以包括以下信息中的一种或多种信息的组合:图像的颜色信息(如RGB三色的详细信息)、拍照模式标签(如:人像拍照模式标签、夜景拍照模式标签、大光圈拍照模式标签等)、源设备信息等,其中,源设备信息用于指示发送图像的设备的型号信息、系统信息(如Android版本信息)等。
手机可以按照数据结构的方式将图像的属性信息存储于手机的数据库中。其中,手机将绑定该图像与该图像的属性信息。示例性地,手机可以通过图像的标识信息绑定该图像与该图像的属性信息。图像的标识信息可以用于唯一指示该图像。手机可以根据属性信息生成图像的标识信息,例如,手机可以为图像设置唯一对应的标识信息(如IMG2),也可以用拍摄图像的时间作为图像的标识信息。需要说明的是,本示例中的标识信息仅为示例性举例,在其他实施例中,标识信息还可以是随机生成,例如,手机随时生成的预设位数的字符串,并将随机生成的字符串作为图像的标识信息,本申请不限制图像的标识信息的生成方式。本示例中属性信息可以以表的形式存储于数据库中,表的形式如表1所示,其中,表1中属性信息包括:第一标签、第二标签、图像的获取时间、拍照模式标签以及内容标签。手机通过图像标识绑定图像以及图像对应的属性信息。需要说明的是,本示例中属性信息中包含的项目仅为示例性举例,在本申请另一些实施例中,属性信息可以包括比表1更多或更少的项目。手机可以根据图像标识查找图像对应的属性信息。
表1
本示例中,图库界面上以缩略图的方式显示图像,用户点击缩略图,手机响应于用户的点击操作,打开与该缩略图对应的图像。手机还可以通过该缩略图确定该缩略图对应图像的标识信息,从数据库中查找与该标识信息绑定的属性信息。
本示例中,读取图像的属性信息的触发时机可以是用户点击图库中缩略图时。需要说明的是,读取图像的属性信息的触发时机仅为示意性举例,在其他实施例中,还可以是手机生成图像对应的内容标签时,还可以是手机响应于用户点击图库的操作时。可以理解的是,在不同的应用场景,可以采用不同的读取图像的属性信息的触发时机。
在一些实施例中,由于图像的属性信息中包括图像的内容标签,通过读取该图像的属性信息,可以准确获知该图像内容的所属类别,进而手机可以快速辨别图像是否需要进行OCR文字识别,减少不必要的OCR文字识别操作。
步骤202:手机根据该属性信息,判断该图像的内容标签是否为空。若手机确定该图像中的内容标签为空,则手机执行步骤203。若手机确定该图像内容标签不为空,则手机执行步骤204。
在一些实施例中,手机读取图像的属性信息之后,可以检测图像的内容标签是否为空。例如,本示例中内容标签以“content tag”为属性名为例,手机检测该“content tag”对应的值为“人像”,则手机确定该图像的内容标签不为空;手机执行步骤204。当内容标签(即“content tag”)对应的值为“null”,则手机确定该图像的内容标签为空,执行步骤203。
可选地,在一些实施例中,当手机确定图像的内容标签为空后,也可以直接结束本申请中对图像进行文字识别的流程。
步骤203:手机采用其他OCR文字识别的策略。
示例性地,其他OCR文字识别的策略可以是对图像直接进行OCR文字识别,例如,图像的内容标签为空时,手机可以直接对该照片执行OCR文字识别,即对该照片执行文本检测和文本识别两个步骤。
步骤204:手机从该图像的属性信息中获取该图像的内容标签。
示例性地,手机可以从属性信息中读取该内容标签的内容,例如,获取的属性信息为“Camera_20210928_2010_拍摄_Text”,其中,该属性信息中的第四项属性为内容标签,则手机读取该内容标签的取值为“Text”。
可选地,若属性信息在数据库中以表的形式存储,手机可以根据内容标签的属性名以及图像的标识信息,从表中读取该图像的内容标签的值。例如,图像的标识信息为“IMG1”,根据表1的内容,可以读取该图像对应的内容标签的值为“Text”。
步骤205:手机识别内容标签的类型。当识别到该图像的内容标签属于第二概率标签,则执行步骤206。当识别到该图像的内容标签属于第一概率标签,则执行步骤207。当识别到该图像的内容标签属于第三概率标签,则结束流程。
示例性地,图像的内容标签的标签类别可以预先划分,例如,电子设备可以对各种图像进行OCR文字识别,通过大数据统计的方式确定出第一类标签(如第一概率标签)、第二类标签(如第二概率标签)以及第三类标签(如第三概率标签)。第一概率标签、第二概率标签以及第三概率标签。示例性地,第一概率标签用于指示图像出现文字的概率大于第一阈值(如:第一阈值为50%),第二概率标签用于指示图像出现文字的概率大于第二阈值且小于第一阈值,如,大于0且小于50%。第三概率标签用于指示图像出现文字的概率小于等于第二阈值且大于等于0。需要说明的是,第一阈值、第二阈值仅为示例性举例,在其他实施例中,可选地,第一阈值还可以是60%,第二阈值还可以是20%、10%等。
在一个示例中,手机根据内容标签的值以及预先存储的标签类别,确定图像的内容标签所属的类别。例如,内容标签的值为“人像”,根据预先存储的标签类别,手机确定该“人像”标签属于第三概率标签。
在另一个示例中,手机还可以通过其他方式确定内容标签的类别。例如,可以训练内容标签的分类模型,将图像的内容标签输入该训练好的分类模型中,该分类模型即可输出该内容标签的类别。分类模型可以预先训练好。训练的方式将不再进行赘述。可以理解的是,还可以采用其他方式确定内容标签的类别。
步骤206:判断手机是否处于灭屏且充电的状态。当手机确定处于灭屏且充电的状态,则执行步骤207。当手机确定未处于灭屏且充电状态,则结束流程。
步骤207:执行OCR文字识别。
手机对该图像进行OCR文字识别,OCR文字识别的过程包括:文本检测和文本识别。当手机检测到文本后,继续对该图像进行文本识别,手机获取对该图像进行文本识别的识别结果,该识别结果也即为OCR文字识别的识别结果。当手机未检测到文本,则手机结束流程。
步骤208:手机存储OCR文字识别的识别结果。
示例性的,手机可以存储OCR文字识别的识别结果。手机响应于用户查看OCR文字识别结果的操作时,显示该识别结果。示例性地,查看OCR文字识别结果的操作可以是点击界面中的指定按钮。
下面结合具体场景,对本申请实施例中图像的文字识别方法进行详细说明。
图3为示例性示出的手机添加内容标签的场景示意图。
手机中图库用于存储图像。图3中的3a示出了手机的图库界面图,该图库界面301中显示有6张缩略图。在本示例中,用户使用手机的相机对备忘录进行了拍摄。该图像被存储至图库中。该图库可以对该缩略图302进行图像识别,并根据图像识别结果确定该缩略图302对应图像的内容标签。图像识别是对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,通常可以利用深度学习算法实现,如手机利用深度学习算法识别图像中的内容为纸质文档,进而确定纸质文档属于文档一类,则手机可以为该图像标记文档一类的内容标签(如:Text1)。
如图3中的3a所示,手机确定该缩略图302对应图像的内容为Text1,则手机将该内容标签“Text1”添加至该图像的属性信息303(该属性信息303为“DCIM_20210928_2010_拍摄”)中,图3中的3b示出了添加了内容标签后的属性信息303’。该属性信息303’变更为“DCIM_20210928_2010_拍摄_Text1”。
图4为示例性示出的该属性信息303’的示意图。如图4所示,该属性信息303’包括:第一标签3031、图像的获取时间信息3032、第二标签3033以及内容标签3034。如图4所示,内容标签3034“Text1”,用于指示该图像的内容属于文档一类。该第一标签为“DCIM”,用于指示该图像来源于拍照方式。图像的获取时间信息3032用于指示该图像的获取时间为2021年9月28日20点10分。第二标签3033用于指示该图像所属应用的信息,例如,手机根据“拍摄”,可以确定图像所属应用的名称为照相机。
图5为示例性示出的标签类别的示意图。手机可以预先存储如图5所示的标签类别的信息。示例性地,第一概率标签包括:文档一类。文档一类包括:纸质文档、身份证、护照、银行卡、演示文稿、名片、房产证、户口本、发票、火车票、飞机票、电影票、荣誉证书、表格、结婚证、驾驶证、行驶证、设计图等。需要说明的是,文档一类中包含的各类型的物体仅为举例,在其他实施例中,该文档一类还可以包括其他未列举的包含文字的实体,如报纸、期刊杂志等。
第二概率标签可以包括:交通工具一类、电器一类。可选地,交通工具一类可以是覆盖有文字的交通工具,例如,车身覆盖有广告的汽车、火车、轮船等。电器一类可以是覆盖有文字的电器,例如,机身上覆盖有使用说明的打印机、自助充卡机等。交通工具一类以及电器一类中包含的各类物体仅为举例,在其他实施例中,交通工具一类还可以包括其他未列举的物体,如覆盖有公益口号的救援车等,电器一类中还可以是自动售货机、智能货柜等。
第三概率标签可以包括:人像、风景、动物、家居、艺术、节目、运动、动作、活动、配饰、服饰、玩具、工具、交通工具二类、电器二类以及文档二类。可选地,交通工具二类可以是无覆盖文字或文字少于预设字数(如5个字)的交通工具,如,挖掘机、代步机等。电器二类可以是无覆盖文字或文字少于预设字数(如5个字)的电器,如电灯、插线板等
家居可以用于指示图像中物体为沙发、餐桌等。艺术可以用于指示图像中物体为画、瓶子等艺术品。节目可以用于指示图像所处时间为节假日,如图像包含爆竹,则可以使用节日的内容标签。运动标签可以用于指示图像中的人物的运动,如图像中人物的起跑姿势,可以使用跑步的标签。动作可以用于指示图像中的人物或动物的姿态。活动可以用于指示图像中人物的任务、配饰可以用于指示图像中的人物衣服的装饰物、服饰可以用于指示图像中的人物的服装等。
第三概率标签中包含各类标签仅为举例,在其他实施例中,还可以包括其他未列举的标签。
图6为示例性示出的一种图像的文字识别的应用场景示意图。
手机响应于用户查看图库的操作(如:点击相册的图标),在显示屏中展示如图6中的6a所示的图库界面601。该图库界面601中显示了6张图像的缩略图。用户可以通过点击缩略图的方式,查看缩略图对应的图像。本示例中,手机在获取到点击缩略图602的操作时,可以触发手机读取该缩略图602对应的图像(如该图像的标识信息为IMG1,后文中“图像IMG1”用于指示标识信息为IMG1的图像)的属性信息。示例性地,该属性信息包括:DCIM_20210928_2010_拍摄_Text1。手机检测到该图像IMG1(即缩略图602对应的图像)的内容标签不为空。手机从该属性信息中获取该内容标签,根据该内容标签的内容“Text1”,手机确定该图像的内容属于文档一类。该手机根据预先存储的标签类别的信息(即如图5所示的标签类别的信息)确定文档一类的标签属于第一概率标签,即确定该图像IMG1的内容标签属于第一概率标签。该手机执行OCR文字识别步骤,对该图像IMG1进行OCR文字识别。手机获取OCR文字识别的识别结果,并存储该识别结果。手机可以以数据结构的方式存储该识别结果,如手机将该图像IMG1的标识信息作为键(Key),以该识别结果作为该键对应的值(value)进行存储。也可以将该识别结果存储于该图像的属性信息中。本示例对此不作限定。
需要说明的是,本示例中以手机对该图像IMG1进行OCR文字识别的时长为630ms为例进行说明。在其他实施例中,对图像进行OCR文字识别的时延与该图像中文字的个数相关,字数越多,OCR文字识别的时长越长。
示例性地,手机经过630ms之后,获得该图像IMG1的识别结果。手机可以将界面601切换至界面603,如图6中的6b所示。界面603中包括有图像IMG1,以及控件604(即显示有“点击显示识别结果”的控件),该控件604用于指示用户查看图像IMG1的OCR文字识别的识别结果。示例性地,手机响应于用户点击该控件604的操作,经过10ms之后,将界面603切换为界面605,如图6中的6c所示。该界面605中包括该蒙板606,展示在蒙板606之上图像607以及图像607的识别结果608。标号609用于指示复制文字的控件。该控件609被点击后,手机为用户提供通过触摸屏幕复制的文字的操作,以供用户复制文字。需要说明的是,6b切换至6c所经历的时延为示例性举例,在其他实施例中,从6b切换至6c所经历的时延还可以是其他值,如20ms、5ms等,具体时延与手机的系统性能相关,本实施例中不做具体限定。
需要说明的是,蒙板606仅为示例性举例,在其它实施例中,也可以没有蒙板以及图像607,例如,在界面605上仅显示图像IMG1的识别结果。
本示例中,还可以采用其他的形式提示用户点击,例如,可以通过颜色指示该当前显示的图像有对应的文字识别结果。例如,控件为黄色时,指示该图像有对应的文字识别结果,还可以是通过语音提示手机存储有显示界面显示的图像的识别结果。
图7为示例性示出的另一种图像的文字识别的应用场景示意图。
图7中的7a示出了该手机的图库主界面701,该图库主界面701中展示了各图像的缩略图。本示例中,如图7中的7a所示,手机在检测到点击缩略图702的操作时,可以触发手机读取该缩略图702对应的图像(如该图像的标识信息为IMG2,后文中“图像IMG2”用于指示标识信息为IMG2的图像)的属性信息。该手机读取图像IMG2的属性信息,即手机读取“DCIM_20210928_2010_拍摄_Vehicle_1”。手机检测到该图像IMG2的内容标签不为空。手机从该属性信息中获取内容标签,根据该该内容标签的内容“Vehicle_1”,手机确定该图像的内容属于交通工具一类。该手机根据预先存储的标签类别的信息(即如图5所示的标签类别的信息)确定交通工具一类的标签属于第二概率标签。
当识别到图像IMG2的内容标签属于第二概率标签,手机检测当前是否处于灭屏且充电的状态。需要说明的是,本示例中可以部署图像文字识别应用,由图像文字识别应用执行本申请中图像的文字识别方法。该图像文字识别应用可以在首次使用时,向手机的感知模块发起注册请求,以请求监听手机处于灭屏且充电的状态。当感知模块监听到手机处于灭屏且充电的状态时,向该图像文字识别应用发送该监听事件(即手机处于灭屏且充电状态的事件)。当图像文字识别应用接收到该监听事件,则确定手机处于灭屏且充电的状态。若图像文字识别应用未接收到该监听事件,则确定该手机未处于灭屏且充电的状态。本示例中,该手机未检测到手机处于灭屏且充电的状态,则可以直接结束对图像的文字识别流程。
手机识别图像IMG2的内容标签的类别的速度快,如图7中的7b所示,在经过10ms后,手机将图库主界面701切换至界面703。该界面703上展示了图像IMG2。界面703中还展出了控件704(即7b显示有“点击触发OCR文字识别”的控件)。手机可以响应于点击该控件704的操作,对界面703中的图像IMG2进行文本检测和文本识别,并将界面703切换至用于展示识别结果的界面(本示例中未示出识别结果的界面,显示识别结果的界面样式与图6中的6c类似)。
本示例中,手机响应于用户查看图像的操作,读取图像的属性信息。手机根据图像的属性信息,判定是否立即对图像进行OCR文字识别。由于内容标签属于第二概率标签的图像中存在文字的概率小,在手机未处于灭屏且充电状态时,不对内容标签属于第二概率标签的图像进行OCR文字识别,避免因该图像中无文字,导致不必要的消耗,减少手机进行OCR文字识别的功耗。例如,用户依次查看图库6张图像,手机在检测到用户查看图像的操作后,会依次对6张图像进行OCR文字识别,若一张图像进行OCR文字识别的功耗为n,则手机的功耗为6n。而本示例中,用户依次点击同样6张图像,若手机确定有一张图像的内容标签属于第二概率标签,且检测到手机未处于灭屏且充电的状态,不对该图像进行OCR文字识别,而直接展示该图像。即6张图像的功耗将为5n。可见,采用本申请实施例中的图像识别的方法可以减小手机的功耗。另外,本示例中提供用户对图像强制进行OCR文字识别的控件,提高用户使用OCR文字识别的体验。
图8为示例性示出的另一种图像的文字识别的应用场景示意图。
图8中的8a示出了该手机的图库主界面801,该图库主界面801中展示了各图像的缩略图。本示例中,如8a所示,手机响应于用户点击缩略图802的操作,手机读取该缩略图802对应的图像(如该图像的标识信息为IMG3,后文中“图像IMG3”用于指示标识信息为IMG3的图像)的属性信息,即手机读取“DCIM_20210928_2010_拍摄_Vehicle_1”。手机检测到该图像IMG3的内容标签不为空。手机从该属性信息中获取内容标签,根据该内容标签的内容“Vehicle_1”,手机确定该图像的内容属于交通工具一类。该手机根据预先存储的标签类别的信息(即如图5所示的标签类别的信息)确定交通工具一类的标签属于第二概率标签。需要说明的是,手机的电池标识803指示该手机处于电量低的状态。
在一个场景中,手机识别到该图像IMG3的内容标签属于第二概率标签,手机检测当前是否处于灭屏且充电的状态。该手机未检测到手机处于灭屏且充电的状态,则手机不对该图像IMG3进行OCR文字识别。如图8中的8b所示,在经过10ms后,手机将图库主界面801切换至界面804。该界面804上展示了图像IMG3。界面804中还展示了控件805(即8b显示有“点击触发OCR文字识别”的控件)。可选地,本示例中用户未点击该控件805。
用户发现手机电量低(如803所示),用户对手机进行了灭屏操作(也可以手机检测到电量低,自行关闭了手机,即手机进行了灭屏操作),用户为该手机进行充电操作。如图8中的8c所示,显示屏806处于熄灭状态,充电线807为该手机进行充电。当手机检测到手机处于灭屏且充电状态,则对该图像IMG3进行OCR文字识别(即对图像IMG3进行文本检测和文本识别的步骤),获取对图像IMG3进行OCR文字识别的识别结果,并存储图像IMG3的识别结果。
图9为示例性示出的用户点击缩略图查看图像IMG3的场景示意图。如图9中的9a所示,手机经过1小时充电后的电量处于满电状态。图库主界面901示出了各图像的缩略图,该主界面中的电池标识903显示电量满格。手机响应于用户点击缩略图902的操作,查询到该缩略图902对应的图像为图像IMG3。手机可以在读取该图像IMG3的属性信息之前,根据图像IMG3的标识信息(即标识信息为“IMG3”),查询该图像IMG3是否有OCR文字识别的识别结果。本示例中,该手机查询到图像IMG3有对应的识别结果,如图9中的9b所示,手机可以经过10ms,从图库主界面901切换至界面904。在该界面904上显示用于指示查看识别结果的控件905。如9b所示,该控件905上可以显示用于提示用户点击查看识别结果的信息,如控件905上显示文字“点击显示识别结果”。可以理解的是,控件905不限于本示例中所列举的样式,在其他实施例中,控件905可以通过颜色提示用户点击显示识别结果。可选地,手机还可以通过检测到快捷查看操作后,显示图像IMG3的识别结果,快捷查看操作可以根据实际应用进行设置,例如,可以三指左滑/右滑屏幕,连续三次击打屏幕等,本示例中不作具体限制。
在一个示例中,用户点击该控件905,手机响应于用户点击控件的操作,手机可以经过10ms后,从界面904切换至界面906。9c为示例性示出的图像IMG3的识别结果的示意图。该界面906中包括蒙板907,展示在蒙板907上的图像908和识别结果909。标号909用于指示复制文字的控件。需要说明的是,9a切换至9b,以及9b切换9c所经历的时延为示例性举例,在其他实施例中,9a切换至9b,以及9b切换9c所经历的时延还可以是其他值,如20ms、5ms等,具体时延与手机的系统性能相关,本实施例中不做具体限定。从9c可知,本示例中展示图像IMG3的时延与展示该图像IMG3的识别结果的时延一致,可见本申请中展示图像IMG3的识别结果的速度快。
本示例中,手机检测到图像的内容标签属于第二概率标签。当手机检测到未处于灭屏且充电状态时,不对该图像进行OCR文字识别,节省手机的功耗。当手机检测到处于灭屏且充电状态时,对该图像进行OCR文字识别并保存该图像的OCR文字识别的识别结果。手机检测到用户查看该图像的操作时,手机可以在图像的属性信息之前,查询该图像是否存在识别结果,若存在识别结果,则该手机可以直接展示该图像以及提示用户可以查看该图像的识别结果,而无需检测到用户指示进行OCR文字识别的指令后,才对图像进行OCR文字识别,由于不是实时对图像进行OCR文字识别,加快了手机展示识别结果的速度,减少了展示图像的识别结果的时延,提高用户使用图像的OCR文字识别的使用体验。由于手机处于灭屏且充电状态时,用户未使用手机,故在此状态下进行OCR文字识别,避免手机在未充电状态时对电量的消耗,可以提高手机的续航能力。
图10为示例性示出的另一种图像的文字识别的应用场景示意图。
如图10中的10a所示,图库主界面1001示出了各图像的缩略图。手机响应于点击缩略图1002的操作,查询该缩略图1002对应的图像(如该图像的标识信息为IMG4,后文中“图像IMG4”用于指示标识信息为IMG4的图像)。手机获取图像IMG4的属性信息(即读取DCIM_20210928_2010_拍摄_Vehicle_1)。手机检测到该图像IMG4的内容标签不为空。手机从该属性信息中获取该图像IMG4的内容标签(即“Vehicle_1”),根据该内容标签“Vehicle_1”,手机确定该图像的内容属于交通工具一类。该手机根据预先存储的标签类别的信息(即图5所示的标签类别的信息),确定该交通工具一类的标签属于第二概率标签。当手机检测到手机未处于灭屏且充电的状态,则手机可以对该图像IMG4进行文本检测。当手机检测到该图像IMG4中存在文本,则存储该图像IMG4的文本检测结果。示例性地,手机对图像IMG4进行文本检测的时延为230ms。手机经过230ms后,可以将界面切换至如10b所示的界面1003。如10b所示,界面1003上显示缩略图1002对应的图像IMG4。手机确定该图像IMG4的文本检测结果指示存在文本,则在该界面1003上展示控件1004,该控件1004用于指示图像中存在文本,且用于触发文本识别的操作。例如,手机响应于用户点击该控件1004的操作,则手机对该图像IMG4进行文本识别,获得对该图像IMG4进行文本识别的识别结果,手机经过400ms的文本识别后,在显示屏中展示该图像IMG4的识别结果,如10c所示,标号1007为图像IMG4,标号1008为图像IMG4的识别结果,控件1009用于为用户提供复制文字的功能。本示例中对图像IMG4进行OCR文字识别的总时延为630ms,其中,手机对图像IMG4进行文本检测的时延为230ms,对图像进行文本识别的时延为400ms。需要说明的是,本示例中对图像IMG4进行文字检测以及文字识别的时延仅为举例,其中,本示例中以文本识别的时延为400ms为例,在其他实施例中,图像中文字的字数不同,对应文本识别的时延也不同,例如,对100个文字进行识别的时延为500ms。
本示例中,若图像的内容标签属于第二概率标签,且手机检测到未处于灭屏且充电的状态时,可以预先对图像进行文本检测。手机仅在检测到用户指示对图像进行文本识别的操作时,对图像进行文本识别,减少了手机的功耗。另外,手机响应于用户的文本识别操作后,手机由于仅需对图像进行文本识别的步骤,而不是对图像进行文本检测以及文本识别两个步骤,提高了展示识别结果的速度,提高用户的使用体验。
图11为示例性示出的另一种图像的文字识别的应用场景示意图。
图11中的11a示出了该手机中图库主界面1101,图库主界面1101中展示了各图像的缩略图。如11a所示,手机响应于用户的点击缩略图1102的操作,读取该缩略图1102对应的图像(如该图像的标识信息为IMG5,后文中“图像IMG5”用于指示标识信息为IMG5的图像)的属性信息,即手机读取“DCIM_20210928_2010_拍摄_Vehicle_1”。手机检测到该图像IMG5的内容标签不为空。手机从该属性信息中获取内容标签,根据该该内容标签的内容“Vehicle_1”,手机确定该图像的内容属于交通工具一类。该手机根据预先存储的标签类别的信息确定交通工具一类的标签属于第二概率标签。需要说明的是,手机的电池标识1103指示该手机处于电量低的状态。
手机检测到未处于灭屏且充电的状态,则手机可以对该图像IMG5进行文本检测的操作。当手机检测到该图像IMG5中存在文本,则存储该图像IMG5的文本检测结果,不对该图像进行后续的文本识别操作。如图11中的11b所示,在经过230ms后,手机可以将图库主界面1101切换至界面1104。该界面1104上展示了图像IMG5。界面1104中还展出了控件1105,该控件1105可以用于指示图像IMG5中存在文本,以及用于触发对图像进行文本识别的操作。可选地,本示例中用户未点击该控件805。
在一个示例中,用户发现手机电量低(如1103所示),用户对手机进行了灭屏操作(也可以手机检测到电量低,自行关闭了手机,即手机进行了灭屏操作),用户为该手机进行充电操作。如图11中的11c所示,显示屏1106处于熄灭状态,充电线1107为该手机进行充电。当手机检测到手机处于灭屏且充电状态,则对该图像IMG5进行文本识别,获取对图像IMG5进行OCR文字识别的识别结果,并存储图像IMG5的识别结果。
示例性地,手机经过1小时充电后,处于满电状态。与图9中示出的场景类似,参照图9,手机响应于用户点击缩略图的操作,查询缩略图对应的图像为图像IMG5。手机可以在读取该图像IMG5的属性信息之前,根据图像IMG5的标识信息(即标识信息为“IMG5”),查询该图像IMG5是否有文本识别的识别结果。本示例中,该手机查询到图像IMG5有对应的识别结果,如图9中的9b所示,手机经过10ms,从图库主界面901切换至界面904。在该界面904上显示用于指示查看识别结果的控件905。
本示例中,手机检测到图像的内容标签属于第二概率标签。当手机检测到未处于灭屏且充电状态时,可以预先对图像进行文本检测。手机仅在检测到用户指示文本识别的操作时,对图像进行文本识别,减少了手机的功耗。在手机处于灭屏且充电状态下对图像进行文本识别,避免手机在未充电状态时对电量的消耗,可以提高手机的续航能力,由于手机在灭屏且充电状态下,仅进行文本识别的操作,减少对电量的消耗,加快手机充电的速度。
图12为示例性示出的另一种图像的文字识别的应用场景示意图。
图12中的12a示出了该手机中图库主界面1301,图库主界面1301中展示了各图像的缩略图。如12a所示,手机响应于用户的点击缩略图1303的操作,读取该缩略图1303对应的图像(如该图像的标识信息为IMG6,后文中“图像IMG6”用于指示标识信息为IMG6的图像)的属性信息,即手机读取“DCIM_20210928_2010_拍摄_Vehicle_1”。手机检测到该图像IMG6的内容标签不为空。手机从该属性信息中获取内容标签,根据该该内容标签的内容“Vehicle_1”,手机确定该图像的内容属于交通工具一类。该手机根据预先存储的标签类别的信息确定交通工具一类的标签属于第二概率标签。需要说明的是,手机的电池标识1302指示该手机处于电量低的状态。
手机检测到未处于灭屏且充电的状态,则手机可以对该图像IMG6进行文本检测的操作。当手机检测到该图像IMG6中存在文本,则存储该文本检测的文本检测结果,且不再对该图像进行后续的文本识别操作。可选地,本示例中的手机可以在图像的属性信息中增加第三标签,该第三标签用于指示该图像IMG6中包含文本,例如,该图像IMG6的属性信息可以为“DCIM_20210928_2010_拍摄_Vehicle_1_discovered text”,其中,“discovered text”为第三标签的内容。
与图11a类似,手机经过230ms的文本检测后,切换至如12b所示的界面1304。如图12b所示,界面1304上显示与图像IMG6。由于手机检测到图像中存在文本,在该界面1304上还展示有控件1306,该界面1304上的控件1306用于指示图像中存在文本,且用于触发文本识别的操作。添加第三标签后的属性信息如12b中标号1305所示。
在一个示例中,用户发现手机电量低(如1302所示),用户对手机进行了灭屏操作,并为该手机进行充电操作。如图12中的12c所示,显示屏1307处于熄灭状态,充电线1308为该手机进行充电。当手机检测到手机处于灭屏且充电状态,可以查询具有第三标签的图像,并对具有第三标签的图像进行文本识别。本示例中,手机查询到IMG6的属性信息中具有第三标签,则手机对图像IMG6进行文本识别,获得该图像的文本识别结果,并存储图像IMG6的识别结果。
示例性地,手机经过1小时充电后,处于满电状态,用户对该手机进行亮屏操作。与图9中示出的场景类似,手机响应于用户点击缩略图的操作,查询缩略图对应的图像为图像IMG6。手机可以在读取该图像IMG6的属性信息之前,根据图像IMG6的标识信息(即标识信息为“IMG6”),查询该图像IMG6是否有文本识别的识别结果。本示例中,该手机查询到图像IMG6有对应的识别结果,参考图9中的9b所示,手机经过10ms,手机切换至界面904。在该界面904上显示用于指示查看识别结果的控件905。手机响应于控件905,手机切换至界面906,在该界面906中显示识别结果909。
本示例中,手机检测到图像的内容标签属于第二概率标签。当手机检测到未处于灭屏且充电状态时,可以预先对图像进行文本检测。手机仅在检测到用户指示文本识别的操作时,对图像进行文本识别,减少了手机的功耗。在手机处于灭屏且充电状态下对图像进行文本识别,避免手机在未充电状态时对电量的消耗,可以提高手机的续航能力,由于手机在灭屏且充电状态下,仅进行文本识别的操作,减少对电量的消耗,加快手机充电的速度。
本示例中,手机确定图像的内容标签为第二概率标签,且手机处于灭屏且充电的状态,手机对图像进行文本检测。当手机检测到该图像具有文本,可以对该图像添加第三标签。手机检测到处于灭屏且充电状态,该手机查询具有第三标签信息的图像,对具有第三标签信息的图像进行文本识别。而无需对所有内容标签为第二概率标签的图像进行文本检测和文本识别两个步骤,可以减少手机的功率消耗。另外,手机处于灭屏且充电的状态时,手机通过第三标签,手机可以快速确定仅需进行文本识别操作的图像,对标记的图像进行文本识别,由于无需进行文本检测,减少了不必要的功耗,也加快了展示识别结果的速度。
图13为示例性示出的另一种图像的文字识别的应用场景示意图。
图13中的14a示出了用户点击图库中缩略图的示意图。如14a所示,图库主界面1401示出各图像的缩略图。手机响应于用户的点击缩略图1402的操作,读取查询到的图像(如该图像的标识信息为IMG7,后文中“图像IMG7”用于指示标识信息为IMG7的图像)的属性信息(即读取DCIM_20210928_2010_拍摄_人像)。手机检测到该属性信息中的内容标签不为空。手机从该属性信息中获取内容标签为人像。手机根据该内容标签以及预先存储的标签类别的信息,确定“人像”标签属于第三概率标签。由于手机确定该图像IMG7的内容标签为第三概率标签,则手机结束对该图像的文本识别的流程。手机可以经过10ms的时延后,在显示屏中展示如14b所示的界面1403。该界面1403中展示有图像IMG7,如14b所示,该图像中不涉及文本,属于人物图像。可选地,在该界面1403中还可以显示用于指示用户进行OCR识别的控件。如13b所示,在界面1403中显示有“点击触发OCR文字识别”的控件1404。手机响应于用户点击该控件1404的操作,对该图像进行文本检测。该手机检测到该图像中不存在文本,不进行后续的文本识别的操作。手机可以在界面1403中提示该图像中未检测到文本。
本示例中,由于第三概率标签指示图像不涉及文本,当手机确定图像的内容标签属于第三概率标签,结束对该图像的文本识别的流程。由于不对内容标签属于第三概率标签的图像进行OCR文字识别,大大减小了手机的功耗。另外,本示例中,针对图库中的图像进行识别,当手机确定图像的内容标签为第一概率标签时,直接对该图像进行OCR文字识别。当手机确定图像的内容标签为第三概率标签时,结束对该图像的OCR文字识别。当手机确定图像的内容标签为第二概率标签时,且手机检测到处于灭屏且充电的状态时,对图像进行OCR文字识别,而手机未处于灭屏且充电的状态时,不对图像进行OCR文字识别。本申请中,根据图像的内容标签的类别,决定是否立即对图像进行OCR文字识别,或对图像结束OCR文字识别,从而大大减小了手机在查看图像时消耗的不必要的功耗。
图14为示例性示出的另一种图像的文字识别的应用场景示意图。
图14中的14a所示,显示屏1501处于熄灭状态,充电线1502为该手机充电。手机检测到处于充电且灭屏的状态,则手机可以依次遍历图库中的每张图像,对每张图像进行如图2所示的图像的文字识别的方法的流程。为了便于理解,图14中的14b示出了手机处于充电且灭屏状态下图库的示意图。示例性地,手机没有存储任何一张图像的识别结果。手机可以按照最近时间依次遍历图像。例如,手机读取图库中存储的图像1504,读取该图像1504的属性信息(即读取“DCIM_20210928_2010_拍摄_Text1”)。手机检测该属性信息中内容标签不为空,则获取内容标签的内容“Text1”,手机确定图像1504的内容为文档一类。该手机根据预先存储的标签类别的信息,确定文档一类属于第一概率标签。手机对该图像1504进行文本检测以及文本识别的操作,并存储该图像1504的识别结果。手机结束对图像1504的文字识别后,读取图库下一张图像(如图像1505)的属性信息(即读取“DCIM_20210928_2010_拍摄_Vehicle_1”)。手机检测该属性信息中内容标签不为空,则获取内容标签的内容“Vehicle_1”,手机确定图像1505的内容属于交通工具一类。该手机根据预先存储的标签类别的信息,确定该交通工具一类的标签属于第二概率标签,手机检测到处于灭屏且充电的状态,则对该图像1505进行进行文本检测和文本识别的操作,并存储该图像1505的识别结果。手机结束对图像1505的文字识别后,读取图库下一张图像(如图像1506)的属性信息(即读取“DCIM_20210928_2010_拍摄_人像”)。手机检测该属性信息中内容标签不为空,则获取内容标签的内容为“人像”。该手机根据预先存储的标签类别的信息,确定该内容标签属于第三概率标签,手机结束对该图像1506的文字识别的流程。手机继续对后续的图像进行处理,本示例中将不再一一列举。
手机充满电量后,可以参照图9中的场景示意图,手机响应于用户点击缩略图的操作,查询缩略图对应的图像为图像IMG6。手机可以在读取该图像IMG6的属性信息之前,根据图像IMG6的标识信息(即标识信息为“IMG6”),查询该图像IMG6是否有文本识别的识别结果。本示例中,该手机查询到图像IMG6有对应的识别结果,参考图9中的9b所示,手机经过10ms,手机切换至界面904。在该界面904上显示用于指示查看识别结果的控件905。手机响应于控件905,手机切换至界面906,在该界面906中显示识别结果909。
需要说明的是,手机检测到未处于灭屏且充电的状态,则结束主动对图像进行文字识别的流程。若手机接收到用户点击图像的操作,则触发手机进行本申请实施例中的图像的文字识别的流程。
本示例中,手机处于灭屏且充电状态时,将触发手机主动访问图库,并对图库中的每张图像进行本申请实施例中图像的文字识别的操作。手机若确定图像的内容标签属于第三概率标签,则手机不对该图像进行任何OCR文字识别的操作。手机若确定图像的内容标签为第二概率标签且检测到手机依然处于灭屏且充电状态,手机对该图像进行OCR识别的操作。手机若确定图像的内容标签属于第一概率标签,则直接对该图像进行OCR识别。并保存图像的文字识别结果。在手机结束充电或处于亮屏状态后,手机可以快速响应于用户查看识别结果的操作,快速在显示屏中展示出图像的文字识别结果,减少展示识别结果的时延,提高用户的使用文字识别的体验。且本申请中,手机处于灭屏且充电的状态,手机主动进行图像的文字识别,减少手机处于未充电状态时对图像进行OCR文字识别,进而减小手机的功耗,提高手机的续航能量。
图15为示例性示出的另一种图像的文字识别的应用场景示意图。
在一个示例中,手机处于灭屏且充电状态时,将触发手机主动访问图库,依次对图库中的图像进行本申请实施例中图像的文字识别的操作。手机若保存了图像的文字识别结果,可以在图库中查找该图像的缩略图,并在图库上进行标记,以提示用户该缩略图对应的图像有文字识别结果。本示例中,如图15中的15a所示,界面1601展示了图库中的各缩略图,手机存储有缩略图1603对应的图像的文字识别结果,手机在该缩略图1603下显示标记1604,以指示用户该存储有该缩略图1603对应的图像的文字识别结果。图像1607的内容标签为“人像”,属于第二概率标签,手机则不进行标记。
如15b所示,手机响应于用户点击缩略图1605,经过10ms时延,手机将界面1601切换为界面1608。该界面1608上显示有该缩略图1605对应的图像以及控件1609,控件1609用于触发显示当前界面中图像的OCR文字识别结果,控件1406可以通过文字提示用户触发显示OCR文字识别结果,例如,如15b所示在控件1609上显示文字“点击显示识别结果”,或者,可以通过控件1609的颜色提示用户触发显示当前界面中图像的OCR文字识别结果。
手机响应于用户点击控件1609的操作,手机经过10ms,将界面1609切换为界面1610,该界面1610上显示有蒙板1611,在蒙板1611上展示有包含文字部分的图像1612。该图图像的文字识别结果1613展示于该蒙板1611上。需要说明的是,本示例中展示图像识别结果的方式仅为举例,在其他实施例中,可以不展示图像1612,直接展示识别结果1613。手机也可以不显示蒙板1611,本示例中不再一一列举。15c中,标号1614用于指示进行文字复制操作。
本示例中,在图库界面显示有标记,该标记用于指示用户图像具有文字识别结果,便于用户快速查看文字识别结果,减少查看文字识别结果时延,提高用户的体验。
图16a为示例性示出的一种对图像进行文字识别的场景示意图。本示例中的场景中,用户点击查看图像1702,手机获取该图像1702的属性信息,从图像1702的属性信息中获取图像1702的内容标签,读取该图像1702的内容标签的值。手机根据标签类别,确定图像1702的内容标签属于第二概率标签,则手机检测是否处于充电且灭屏的状态。当手机检测到未处于充电且灭屏的状态,则结束对图像1702进行文字识别的操作。手机可以在经过10ms的时长后,显示如图16a所示的显示界面1701,显示界面1701上显示有该图像1702,同时在该图像1702上显示有控件1703。控件1703用于触发对图像1702进行OCR文字识别的操作。例如,若用户点击该图像1702,则触发手机对该图像1702进行OCR文字识别,即进行文本检测和文本识别(也称文字识别)的操作。手机可以切换至新的界面显示该OCR文字识别结果。手机也可以在该图像1702上对识别到的文字以高亮颜色进行标注。
图16b为示例性示出的一种对图像进行文字识别的场景示意图。本示例中的场景中,用户点击查看图像1705,手机获取该图像1705的属性信息,从图像1705的属性信息中获取图像1705的内容标签,读取该图像1705的内容标签的值。手机确定图像1705的内容标签属于第二概率标签,则手机检测是否处于充电且灭屏的状态。当手机检测到未处于充电且灭屏的状态,则对图像1705进行文本检测的操作,获取文本检测结果。当手机检测到该图像1705存在文本检测结果,可以在图像1705上显示控件1706。例如,手机可以在经过230ms的时长后,显示为如图16b所示的显示界面1704,显示界面1704上显示有该图像1705,同时在该图像1705上显示有控件1706。控件1706用于触发对图像1705进行文本识别的操作。控件1706可以设置为灰色,本示例中以横线填充代表灰色。在其他示例中,控件1706的颜色还可以设置为其他颜色,如白色等。当手机检测到用户点击该控件1706的操作,触发手机对该图像1706进行文本识别的操作,手机可以切换至新的界面显示该OCR文字识别结果。手机也可以在该图像1702上对识别到的文字以高亮颜色进行标注。
图16c为示例性示出的一种对图像进行文字识别的场景示意图。本示例中的场景中,用户点击查看图像1708,手机获取该图像1708的属性信息,从图像1708的属性信息中获取图像1708的内容标签,读取该图像1708的内容标签的值。手机确定图像1608的内容标签属于第一概率标签,则对图像1708进行OCR文字识别的操作,获取OCR文字识别结果。当手机检测到该图像1708存在OCR文字识别结果,可以在图像1708上显示控件1711。例如,手机可以在经过630ms的时长后,切换为如图16c所示的显示界面1707,显示界面1707上显示有该图像1708,同时在该图像1708上显示有控件1711。控件1711填充颜色与控件1705的填充颜色不同,例如,可以是蓝牙填充该控件1711。
在一个示例中,手机在该图像1602上对识别到的文字以高亮颜色进行标注,如图16c中的1709、1710等。其中,本示例中,高亮以虚线框表征。该控件1711还可以是图标,以用于指示该图像1708存在OCR文字识别结果。
在另一个示例中,手机响应于用户点击控件1711的操作,在该图像1708上对识别到的文字以高亮颜色进行标注。其中,本示例中,高亮以虚线框表征。
本示例中,不再一一列举对图像进行了如本申请中图像的文字识别的操作后的可能示意图。
图17是本申请实施例的电子设备100的软件结构框图以分层架构的Android系统为例。
电子设备100的分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为五层,从上至下分别为应用程序层,应用程序框架层,系统层,硬件抽象层以及内核层。
本申请实施例中图库展示图像、触发OCR引擎对图像进行OCR文字识别的操作。
OCR引擎可以对图像进行OCR文字识别的操作,OCR文字识别包括文本检测和文本识别两个步骤。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息。本示例中通知管理器可以向手机发送灭屏且充电的消息。电池管理器可以检测电池的状态以及检测手机是否处于灭屏状态。同时,电池管理器在检测到电子设备处于充电且灭屏的状态时,则可以向图库发送灭屏且充电的消息。
图18为示例性示出的一种手机内部模块之间的交互示意图。
步骤1801:用户执行打开图像A的操作。
本示例中,手机显示图库主界面,图库主界面中显示有各图像的缩略图。用户执行打开图像A的操作。打开图像的操作可以是点击该图像的缩略图。
步骤1802:手机的图库接收到用户打开图像A的操作。
手机的图库接收到打开图像A的操作,可以触发图库执行步骤1803。
步骤1803:图库向多媒体数据库发起查询图像A是否存在检测结果的请求。
多媒体数据库可以是SQLite数据库。可选地,图像A的检测结果用于指示图像A的内容标签所属的概率类别。例如,概率类别包括:第一概率标签、第二概率标签以及第三概率标签。
步骤1804:当多媒体数据库查询到图像A存在检测结果,则执行步骤1805。
在一个示例中,可以为图像添加用于指示图像是否存在检测结果的检测标签,例如,本示例中以“Judge_flag”作为该检测标签的标识,当多媒体数据库查询到图像A中的Judge_flag的值为真值(如“Judge_flag=true或者Judge_flag=1”),则确定该图像A存在检测结果。当多媒体数据库查询到图像A中的Judge_flag的值为假值(如“Judge_flag=false或者Judge_flag=0”),则确定该图像A不存在检测结果。
在一个示例中,当多媒体数据库查询到该图像A存在检测结果,则进一步查询该图像A是否存在OCR文字识别结果。当多媒体数据库查询到图像A存在OCR文字识别结果,则将图像A以及该图像A的识别结果返回图库。当多媒体数据库未查询到该图像A的OCR文字识别结果,则将该图像A以及图像A的检测结果返回该图库。例如,当多媒体数据库查询到图像A1的内容标签属于第三概率标签且未查询到图像A1的识别结果,该多媒体数据库可以将该图像A1以及该图像A1的检测结果(即图像A1的内容标签为第三概率标签)返回图库。
需要说明的是,当多媒体数据库查询到图像A1的检测结果且未查询到图像A1的OCR文字识别结果,则将该图像A1以及该图像A的检测结果返回图库。使得图库无需再次根据图像的内容标签判断该图像所属的概率类型,进一步减少了手机的功耗。
在另一个示例中,当多媒体数据库未查询到该图像A存在检测结果,则向图库返回图像A以及图像A的属性信息。
本示例中,以查询到图像A的检测结果以及图像A的OCR文字识别结果为例。该多媒体数据库将执行步骤1805。
步骤1805:多媒体数据库向图库返回该图像A以及该图像A的OCR文字识别结果。
步骤1806:图库显示图像A以及显示控件A。
控件A用于指示触发对图像A进行OCR文字识别的操作,该控件A可以如图16c所示的控件1711。
步骤1807:用户点击控件A。
需要说明的是,控件A的触发还可以是其他方式,如双击、滑动、多指触摸等。
步骤1808:图库显示图像A以及显示OCR文字识别结果。
图库响应于用户点击控件A的操作,显示该图像的OCR文字识别结果。在一个示例中,图库可以同时显示该图像A以及该图像A的OCR文字识别结果,如图16c所示。
在另一个示例中,图库仅显示图像A的OCR文字识别结果。
本示例中,图库在展示图像之前,向多媒体数据库查询是否存在检测结果。当检测到存在图像的检测结果时,可以直接获取该图像的检测结果,无需再次对图像进行本申请中图像的文字识别的操作,进一步缩小了手机的功耗。
图19为示例性示出的一种手机内部模块之间的交互示意图。
步骤1901:用户执行打开图像B的操作。
本示例中,手机显示图库主界面,图库主界面中显示有各图像的缩略图。用户执行打开图像B的操作。打开图像的操作可以是点击该图像的缩略图。
步骤1902:手机的图库接收到用户打开图像B的操作。
手机的图库接收到打开图像B的操作,可以触发图库执行步骤1903。
步骤1903:图库向多媒体数据库发起查询图像B是否存在检测结果的请求。
步骤1904:多媒体数据库若未查询到图像B存在检测结果,则执行步骤1905。
本示例中多媒体数据库查询图像B是否存在检测结果的方式与步骤1804类似,可以参照步骤1804中的相关描述来理解,此处不再进行赘述。
在一个示例中,当多媒体数据库未查询到该图像B存在检测结果,则向图库返回图像B以及图像B的属性信息。
需要说明的是,本示例中以多媒体数据未查询到图像B的检测结果为例。该多媒体数据库将执行步骤1905。
步骤1905:多媒体数据库向图库返回该图像B以及该图像B的属性信息。
该图像B的属性信息可以包括该图像B的内容标签,该内容标签用于指示图像B中的内容的类别。
步骤1906:图库从属性信息中获取内容标签。
一个示例中,手机可以根据内容标签的标识读取内容标签的值。例如,图库获取的属性信息为“DCIM_20210928_2010_拍摄_Text1”。当图库检测到该图像B的内容标签不为空。图库从该属性信息中获取内容标签的值,根据该该内容标签的值“Text1”。
步骤1907:图库检测到内容标签属于第一概率标签。则执行步骤1908。
本示例中,内容标签的值为“Text1”,图库可以确定该图像B的内容属于文本一类。该图库根据预先存储的标签类别的信息(如图5)确定文本一类的标签属于第一概率标签。
步骤1908:图库触发OCR引擎执行OCR文字识别。
OCR引擎包括执行文本检测和文本识别(也称文字识别)两个步骤。
步骤1909:OCR引擎执行OCR文字识别。
本示例中,OCR引擎对图像B进行OCR文字识别的操作,获得图像B的OCR文字识别结果。
步骤1910:OCR引擎向多媒体数据库传输图像B的OCR文字识别结果。
步骤1911:OCR引擎向图库返回图像B的OCR文字识别结果。
步骤1912:多媒体数据库存储图像B的OCR文字识别结果。
示例性地,该多媒体数据库接收到OCR引擎传输的图像B的OCR文字识别结果,存储该图像B的识别结果,同时该多媒体数据库还可以将检测标签置为真值,如Judge_flag=true。
步骤1913:图库显示图像B以及显示控件B。
图库接收到OCR引擎返回的OCR文字识别结果后,可以显示图像B以及控件B,控件B用于指示触发显示图像B的OCR文字识别结果。控件B可以如图16c所示的控件1711。
步骤1914:用户点击控件B。
步骤1915:图库显示图像B以及显示OCR文字识别结果。
图库响应于用户点击控件B的操作,显示该图像的OCR文字识别结果。
在一个示例中,图库可以同时显示该图像B以及该图像B的OCR文字识别结果。
在另一个示例中,图库可以仅显示图像B的OCR文字识别结果。本示例中以图库同时显示该图像B以及该图像B的OCR文字识别结果为例。
图20为示例性示出的一种手机内部模块之间的交互示意图。
步骤2001:用户执行打开图像C的操作。
步骤2002:手机的图库接收到用户打开图像C的操作。
步骤2003:图库向多媒体数据库发起查询图像C是否存在检测结果的请求。
步骤2004:多媒体数据库若未查询到图像C存在检测结果,则执行步骤2005。
在一个示例中,当多媒体数据库未查询到该图像C存在检测结果,则向图库返回图像C以及图像C的属性信息。本示例中,以多媒体数据库未查询到图像C的检测结果为例。该多媒体数据库将执行步骤2005。
步骤2005:多媒体数据库向图库返回该图像C以及该图像C的属性信息。
该图像C的属性信息可以包括该图像C的内容标签,该内容标签用于指示图像C中的内容的类别。
步骤2006:图库从图像C的属性信息中获取内容标签。
一个示例中,图库可以根据内容标签的标识读取内容标签的值。例如,图库获取的属性信息为“DCIM_20210928_2010_拍摄_Vehicle_1”。当图库检测到该图像C的内容标签不为空。图库从该属性信息中获取内容标签的值,根据该该内容标签的值“Vehicle_1”。
步骤2007:图库检测到内容标签属于第二概率标签。则执行步骤2008。
本示例中,内容标签的值为“Vehicle_1”,图库可以确定该图像C的内容属于交通工具一类。该图库根据预先存储的标签类别的信息(如图5所示)确定交通工具一类的标签属于第二概率标签。
步骤2008:确定手机未处于灭屏且充电的状态。
一个示例中,由手机中的电池管理模块检测手机是否处于灭屏且充电的状态,当检测到手机处于灭屏且充电的状态,则电池管理模块调用通知管理器的通知接口;该通知管理器向图库发送手机处于灭屏且充电的状态的信息。图库接收到该通知管理器发送的信息后,确定手机处于灭屏且充电的状态。
当图库在预设时长内未接收到通知管理器发送的手机处于灭屏且充电状态的信息,则图库确定手机未处于灭屏且充电的状态。可选地,预设时长可以根据需求进行设置,例如,预设时长可以设置为1ms、0.5ms等。本示例中,以图库未接收到通知管理器发送的手机处于灭屏且充电状态的信息为例。
当图库确定手机未处于灭屏且充电的状态,则执行步骤2009。
步骤2009:图库触发OCR引擎对图像C进行文本检测的操作。
OCR引擎包括执行文本检测和文本识别(也称文字识别)两个步骤。本示例中,图库向OCR引擎发送图库发送文本检测的指示(即图库指示对图像C进行文本检测)。
步骤2010:OCR引擎对图像C进行文本检测的操作,获得文本检测结果。
步骤2011:OCR引擎向多媒体数据库传输文本检测结果。
步骤2012:OCR引擎向图库传输文本检测结果。
步骤2013:多媒体数据库存储图像C的文本检测结果。
示例性地,多媒体数据存储图像C的文本检测结果,同时该多媒体数据库还可以将检测标签置为真值,如Judge_flag=true。
步骤2014:图库显示图像C以及显示控件C。
图库接收到OCR引擎返回的图像C的文本检测结果后,可以显示图像C以及控件C,控件C用于指示触发OCR引擎对图像C进行文本识别的操作。控件C可以如图16b所示的控件1706。
步骤2015:用户点击控件C。
图库显示该控件C(如图16中的控件1706),可选地,该控件C的颜色为灰色,以用于指示用户该图像C中存在文本。用户可以通过点击控件C的方式触发该控件。
需要说明的是,控件C的触发还可以是其他方式,如双击、滑动、多指触摸等。
步骤2016:图库响应于接收的点击控件C的操作,读取图像C的文本检测结果。
图库接收到用户点击控件C的操作,响应于该点击控件C的操作,图库向多媒体数据库发送读取文本检测结果的请求。该请求用于指示多媒体数据库向OCR引擎返回该图像C的文本检测结果,以及指示多媒体数据库触发OCR引擎对图像C进行文本识别的操作。
步骤2017:多媒体数据库向OCR引擎返回该图像C的文本检测结果,并触发该OCR引擎对图像C进行文本识别的操作。
步骤2018:OCR引擎根据文本检测结果对图像C进行文本识别的操作。
OCR引擎根据文本检测结果,可以获取文本所在区域,进而对图像C中的文本进行识别操作,获得图像C的OCR文字识别结果。
步骤2019:OCR引擎向图库返回OCR文字识别结果。
步骤2020:图库显示图像C以及显示OCR文字识别结果。
在一个示例中,图库可以同时显示该图像C以及该图像C的OCR文字识别结果,如图16c所示。
在另一个示例中,图库可以仅显示图像C的OCR文字识别结果。本示例中以图库同时显示该图像C以及该图像C的OCR文字识别结果为例。
步骤2021:OCR引擎向多媒体数据库传输OCR文字识别结果。
步骤2022:多媒体数据库存储图像C的OCR文字识别结果。
图21为示例性示出的一种手机内部模块之间的交互示意图。
步骤2101:用户执行打开图像D的操作。
该步骤与步骤1801类似,此处不再进行赘述。
步骤2102:手机的图库接收到用户打开图像D的操作。
手机的图库接收到打开图像D的操作,可以触发图库执行步骤2103。
步骤2103:图库向多媒体数据库发起查询图像D是否存在检测结果的请求。
步骤2104:多媒体数据库若未查询到图像D存在检测结果,则执行步骤2105。
本示例中多媒体数据库查询图像D是否存在检测结果的方式与步骤1804类似,可以参照步骤1804中的相关描述来理解,此处不再进行赘述。
在一个示例中,当多媒体数据库未查询到该图像D存在检测结果,则向图库返回图像D以及图像D的属性信息。
本示例中,以多媒体数据库未查询到图像D的检测结果为例。该多媒体数据库将执行步骤2105。
步骤2105:多媒体数据库向图库返回该图像D以及该图像D的属性信息。
该步骤与步骤1905类似,此处不再进行赘述。
步骤2106:图库从图像D的属性信息中获取内容标签。
一个示例中,图库可以根据内容标签的标识读取内容标签的值。例如,图库获取的属性信息为“DCIM_20210928_2010_拍摄_人像”。当图库检测到该图像D的内容标签不为空。图库从该属性信息中获取内容标签的值,根据该该内容标签的值“人像”。
步骤2107:图库检测到内容标签属于第三概率标签。则执行步骤2108。
本示例中,内容标签的值为“人像”,图库可以确定该图像D的内容属于人像。该图库根据预先存储的标签类别的信息(如图5所示)确定人像标签属于第三概率标签。
在一个示例中,图库在确定该图像D的内容标签属于第三概率标签后,可以向多媒体数据库发送该图像D的检测结果,由多媒体数据存储该图像D的检测结果,同时该多媒体数据库还可以将该图像D的检测标签置为真值,如Judge_flag=true。
步骤2108:图库显示图像D以及显示控件D
图库接收到OCR引擎返回的图像D的文本检测结果后,可以显示图像D以及控件D,控件D用于指示触发OCR引擎对图像D进行OCR文字识别的操作。控件D可以如图16a所示的控件1703。
步骤2109:用户点击控件D。
图库显示该控件D(如图16a中的控件1703),可选地,该控件D的颜色为透明色,以用于指示触发OCR引擎对图像D进行OCR文字识别的操作。用户可以通过点击控件D的方式触发该控件。
需要说明的是,控件D的触发还可以是其他方式,如双击、滑动、多指触摸等。
步骤2110:图库响应于接收的点击控件D的操作,触发OCR引擎对图像D进行OCR文字识别的操作。
图库接收到用户点击控件D的操作,响应于该点击控件D的操作,图库触发OCR引擎对图像D进行OCR文字识别的操作。
步骤2111:OCR引擎对图像D进行OCR文字识别的操作。
OCR引擎对图像D进行OCR文字识别的操作,获得图像D的OCR文字识别结果。OCR引擎先对图像D进行文本检测的操作,当OCR引擎未检测到文本,则OCR对图像D不再进行文本识别的操作。
步骤2112:OCR引擎向图库返回OCR文字识别结果。
该图像D的OCR文字识别结果指示该图像D中不存在文字。OCR引擎可以向图库返回该图像D的OCR文字识别结果。
步骤2113:OCR引擎向多媒体数据库传输该OCR文字识别结果。
步骤2114:多媒体数据库存储图像D的OCR文字识别结果。
多媒体数据可以存储该图像D的OCR文字识别结果。
步骤2115:图库显示图像D以及显示OCR文字识别结果。
图库控制显示屏显示图像D以及显示图像D的OCR文字识别结果。可以理解的是,由于图像D的识别结果指示图像D中不存在文本,可以在显示屏中显示“未发现文字”的提示信息。可选地,还可以以其他形式的图标进行提示图像D中不存在文字,“例如,可以将如图16a所示的控件1703上标注感叹号,或者将该控件1703的颜色切换为白色或者红色”。
在另一个示例中,由于图像D的OCR文字识别结果指示不存在文字,图库可以仅显示图像D。
图22为示例性示出的一种手机处于充电且灭屏的状态下内部模块之间的交互示意图。
步骤2200:手机的电池管理检测到手机处于灭屏且充电的状态,调用通知管理器中的通知接口。
步骤2201:通知管理器向图库发送指示手机处于灭屏且充电的状态的信息。
通知管理器的通知接口接收到电池管理发送的信息后,向图库发送用于指示手机处于灭屏且充电的状态的信息。
步骤2202:图库向多媒体数据库查询图像E是否存在检测结果。
该场景中,图库在确定手机处于灭屏且充电的状态,可以依次对图库中的图像进行本申请示例中的图像的文字识别操作。图库可以按照最近时间依次遍历图库中的图像,例如,图库开始对图像E进行处理。该图库向多媒体数据库查询图像E是否存在检测结果。可选地,图像E的检测结果用于指示图像E的内容标签所属的概率类别。例如,概率类别包括:第一概率标签、第二概率标签以及第三概率标签。
步骤2203:多媒体数据库若未查询到图像E存在检测结果,则执行步骤2204。
本示例中多媒体数据库查询图像E是否存在检测结果的方式与步骤1804类似,可以参照步骤1804中的相关描述来理解,此处不再进行赘述。
在一个示例中,当多媒体数据库未查询到该图像E存在检测结果,则向图库返回图像E以及图像E的属性信息。
需要说明的是,本示例中以多媒体数据未查询到图像E的检测结果为例。
步骤2204:多媒体数据库向图库返回该图像E以及该图像E的属性信息。
该步骤与步骤1905类似,此处不再进行赘述。
步骤2205:图库从图像E的属性信息中获取内容标签。
一个示例中,图库可以根据内容标签的标识读取内容标签的值。例如,图库获取的属性信息为“DCIM_20210928_2010_拍摄_Vehicle_1”。当图库检测到该图像C的内容标签不为空。图库从该属性信息中获取内容标签的值,根据该该内容标签的值“Vehicle_1”。
步骤2206:图库检测到内容标签属于第二概率标签。则执行步骤2207。
本示例中,内容标签的值为“Vehicle_1”,图库可以确定该图像E的内容属于交通工具一类。该图库根据预先存储的标签类别的信息(如图5所示)确定交通工具一类的标签属于第二概率标签。
步骤2207:图库确定手机处于灭屏且充电的状态。
图库在预设时长内未收到手机结束灭屏且充电的状态,则图库确定手机依然处于灭屏且充电的状态。可选地,预设时长可以根据需求进行设置,例如,预设时长为1ms等。
步骤2208:图库触发OCR引擎对图像E进行OCR文字识别。
OCR引擎包括执行文本检测和文本识别(也称文字识别)两个步骤。
步骤2209:OCR引擎对图像E进行OCR文字识别的操作。
OCR引擎对图像E进行OCR文字识别的操作,获得图像E的OCR文字识别结果。
步骤2210:OCR引擎向多媒体数据库传输OCR文字识别结果。
示例性地,OCR引擎向多媒体数据库传输该图像E的OCR文字识别结果。
步骤2211:OCR引擎向图库传输OCR文字识别结果。
示例性地,OCR引擎向图库传输该图像E的OCR文字识别结果。
步骤2212:多媒体数据库存储该OCR文字识别结果。
该多媒体数据库接收到OCR引擎传输的图像E的OCR文字识别结果,存储该图像E的识别结果,同时该多媒体数据库还可以将检测标签置为真值,如Judge_flag=true。
步骤2213:图库向多媒体数据库发起查询图像F是否存在检测结果的请求。
在一个示例中,多媒体数据存储了该图像E的OCR文字识别结果后。可以触发图库对下一张图像F进行处理。例如,可以向图库发送存储了图像E的OCR文字识别结果的消息。
在另一个示例中,图库可以并行对多个图像进行处理。图库还可以在检测到达到预设处理时长后,自动触发对下一张图像F的处理。
图库对图像F进行处理,即可以向多媒体数据库发起查询图像F是否存在检测结果的请求。
步骤2214:多媒体数据库若未查询到图像F存在检测结果,则执行步骤2215。
步骤2215:多媒体数据库向图库返回该图像F以及该图像F的属性信息。
步骤2216:图库从图像F的属性信息中获取内容标签。
步骤2217:图库检测到内容标签处于第三概率标签。
步骤2218:图库向多媒体数据库返回图像F的内容标签的类别。
步骤2219:多媒体数据库存储图像F的检测结果。
示例性地,图像F的内容标签属于第三概率标签,图库不触发OCR引擎进行OCR文字识别,多媒体数据存储该图像F的检测结果(即指示图像F的内容标签属于第三概率标签),同时该多媒体数据库将检测标签置为真值,如Judge_flag=true。
可以理解的是,各实施例中相同或相似之处可以相互参考进行理解,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。
Claims (16)
1.一种图像的文字识别方法,其特征在于,应用于电子设备,所述方法包括:
获取第一图像的属性信息,所述第一图像的属性信息包括:所述第一图像的内容标签,所述第一图像的内容标签用于指示第一图像的内容所属的类别;
根据所述第一图像的内容标签确定所述第一图像的内容标签所属的标签类别,所述标签类别包括:第一类标签和第二类标签;
当确定所述第一图像的内容标签属于第一类标签,则对所述第一图像进行OCR文字识别,存储所述第一图像的文字识别结果;响应于接收到的第一用户操作,展示所述第一图像以及提示第一提示信息,所述第一用户操作用于指示所述电子设备展示所述第一图像,所述第一提示信息用于指示用户查看所述第一图像的文字识别结果;
当确定所述第一图像的内容标签属于第二类标签,则检测所述电子设备是否处于灭屏且充电的状态;当检测到所述电子设备处于充电且灭屏的状态时,则对所述第一图像进行的OCR文字识别,存储所述第一图像的文字识别结果;响应于接收到的第一用户操作,展示所述第一图像以及提示所述第一提示信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当检测到所述第一图像的内容标签属于第三类标签,则取消对所述第一图像进行所述OCR文字识别的操作;
响应于接收到的所述第一用户操作,展示所述第一图像。
3.根据权利要求2所述的方法,其特征在于,在检测到所述第一图像的内容标签属于第三类标签之后,所述方法还包括:
响应于接收到的第二用户操作,对所述第一图像进行OCR文字识别,获得所述第一图像的文字识别结果,其中,所述第二用户操作用于指示所述电子设备对所述第一图像进行OCR文字识别的操作;
展示所述第一图像的文字识别结果。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当确定所述第一图像的内容标签属于第二类标签,且检测到所述电子设备未处于灭屏且充电的状态,则取消对所述第一图像进行所述OCR文字识别的操作;
若接收到的第二用户操作,对所述第一图像进行OCR文字识别,获得所述第一图像的文字识别结果,其中,所述第二用户操作用于指示所述电子设备对所述第一图像进行OCR文字识别的操作;
展示所述第一图像的文字识别结果。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二图像的属性信息,所述第二图像的属性信息包括:所述第二图像的内容标签,所述第二图像的内容标签用于指示第二图像的内容所属的类别;
根据所述第二图像的内容标签确定所述第二图像的内容标签所属的标签类别;
当确定所述第二图像的内容标签属于第二概率标签,则检测所述电子设备是否处于灭屏且充电的状态;当检测到所述电子设备未处于灭屏且充电的状态,则对所述第二图像进行OCR文字识别中的文本检测的操作,获得所述第二图像的文本检测结果,并保存所述第二图像的文本检测结果。
6.根据权利要求5所述的方法,其特征在于,在所述保存所述第二图像的文本检测结果之后,所述方法还包括:
响应于接收到的第三用户操作,展示所述第二图像以及在所述第二图像的文本检测结果指示所述第二图像中存在文本的情况下提示第二提示信息,所述第三用户操作用于指示所述电子设备展示所述第二图像,所述第二提示信息用于指示所述第二图像存在文本。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
响应于接收到的第四用户操作,所述第四用户操作用于指示对所述第二图像进行OCR文字识别中的文本识别的操作:
获取所述文本检测结果;
当确定所述文本检测结果指示所述第二图像中存在文本,则对所述第二图像进行OCR文字识别中的文本识别的操作,获得所述第二图像的文字识别结果;
展示所述第二图像的识别结果。
8.根据权利要求5所述的方法,其特征在于,在所述保存所述第二图像的文本检测结果之后,所述方法还包括:
当检测到所述电子设备处于灭屏且充电的状态,则获取所述文本检测结果;
当所述文本检测结果指示所述第二图像中存在文本,则对所述第二图像进行所述OCR文字识别中的文本识别的操作,获得所述第二图像的文字识别结果;
响应于接收到的第三用户操作,展示所述第二图像以及提示第三提示信息,所述第三用户操作用于指示所述电子设备展示所述第二图像,所述第三提示信息用于指示用户查看所述第二图像的文字识别结果。
9.根据权利要求5所述的方法,其特征在于,在所述保存所述第二图像的文本检测结果之后,所述方法还包括:
当确定所述文本检测结果指示所述第二图像中存在文本,则为所述第二图像添加第三标签,所述第三标签用于指示所述第二图像中存在文本;
所述方法还包括:
当检测到所述电子设备处于灭屏且充电的状态,获取包含所述第三标签的图像,所述包含所述第三标签的图像包括所述第二图像;
对获取的包含所述第三标签的各图像进行所述OCR文字识别中的文本识别,获得包含所述第三标签的各图像的识别结果,并保存包含所述第三标签的各图像的文字识别结果。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述第一类标签包括:文档一类;
所述文档一类包括以下任一种或多种的组合:纸质文档、身份证、护照、银行卡、演示文稿、名片、房产证、户口本、发票、火车票、飞机票、电影票、荣誉证书、表格、结婚证、驾驶证、行驶证或设计图。
11.根据权利要求1至9中任一项所述的方法,其特征在于,第二类标签包括包括以下任一种或多种的组合:交通工具一类标签或电器一类标签;
所述交通工具一类标签用于指示图像的内容属于表面覆盖有文字或覆盖的文字大于预设字数的交通工具;
所述电器一类标签用于指示图像的内容属于表面覆盖有文字的电器或覆盖的文字大于所述预设字数的电器。
12.根据权利要求3或4所述的方法,其特征在于,第三类标签包括以下任一种或多种的组合:人像标签、风景标签、动物标签、家居标签、艺术标签、节目标签、运动标签、动作标签、活动标签、配饰标签、服饰标签、玩具标签、工具标签、交通工具二类标签、电器二类标签或文档二类标签;
其中,所述交通工具二类标签用于指示图像的内容属于表面无覆盖文字或文字少于预设字数的交通工具;
电器二类标签用于指示图像的内容属于表面无覆盖文字或文字少于预设字数的电器;
所述文档二类标签用于指示图像的内容属于二维码或条形码。
13.根据权利要求1至9中任一项所述的方法,其特征在于,在所述获取第一图像的属性之前,所述方法还包括:
检测到的预设触发条件,所述预设触发条件包括:用户查看图库的操作,或者,所述电子设备处于灭屏且充电的状态。
14.根据权利要求1所述的方法,其特征在于,在存储所述第一图像的文字识别结果之后,所述方法还包括:
在图库界面中所述第一图像的缩略图上添加识别标记,所述识别标记用于指示所述第一图像存在文字识别结果。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
以及一个或多个计算机程序,其中所述一个或多个计算机程序存储在所述存储器上,当所述计算机程序被所述一个或多个处理器执行时,使得所述电子执行如权利要求1-14中任意一项所述的图像的文字识别方法。
16.一种计算机可读存储介质,包括计算机程序,其特征在于,当所述计算机程序在电子设备上运行时,使得所述电子设备执行如权利要求1-14中任意一项所述的图像的文字识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111389990.9A CN115035360B (zh) | 2021-11-22 | 2021-11-22 | 图像的文字识别方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111389990.9A CN115035360B (zh) | 2021-11-22 | 2021-11-22 | 图像的文字识别方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115035360A true CN115035360A (zh) | 2022-09-09 |
CN115035360B CN115035360B (zh) | 2023-04-07 |
Family
ID=83118127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111389990.9A Active CN115035360B (zh) | 2021-11-22 | 2021-11-22 | 图像的文字识别方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115035360B (zh) |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140270385A1 (en) * | 2013-03-15 | 2014-09-18 | Mitek Systems, Inc | Methods for mobile image capture of vehicle identification numbers in a non-document |
US20180047209A1 (en) * | 2015-03-20 | 2018-02-15 | Ricoh Company Limited | Image management device, image management method, image management program, and presentation system |
CN108959462A (zh) * | 2018-06-19 | 2018-12-07 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
CN109784330A (zh) * | 2019-01-03 | 2019-05-21 | 北京百度网讯科技有限公司 | 招牌内容识别方法、装置及设备 |
US20190172171A1 (en) * | 2017-12-05 | 2019-06-06 | Lendingclub Corporation | Automatically attaching optical character recognition data to images |
WO2020019220A1 (zh) * | 2018-07-25 | 2020-01-30 | 华为技术有限公司 | 在预览界面中显示业务信息的方法及电子设备 |
CN111444908A (zh) * | 2020-03-25 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、终端和存储介质 |
WO2020155763A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
US20200250491A1 (en) * | 2017-11-01 | 2020-08-06 | Tencent Technology (Shenzhen) Company Limited | Image classification method, computer device, and computer-readable storage medium |
CN111738354A (zh) * | 2020-07-20 | 2020-10-02 | 深圳市天和荣科技有限公司 | 一种自动识别训练方法、系统、存储介质及计算机设备 |
CN112115950A (zh) * | 2020-09-28 | 2020-12-22 | 郭杰 | 酒标识别方法、酒品信息管理方法、装置、设备及存储介质 |
US20210081729A1 (en) * | 2019-09-16 | 2021-03-18 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for image text recognition, apparatus, device and storage medium |
CN112686220A (zh) * | 2021-03-10 | 2021-04-20 | 浙江口碑网络技术有限公司 | 商品识别方法及装置、计算设备、计算机存储介质 |
CN112882678A (zh) * | 2021-03-15 | 2021-06-01 | 百度在线网络技术(北京)有限公司 | 图文处理方法和展示方法、装置、设备和存储介质 |
US20210232814A1 (en) * | 2020-01-27 | 2021-07-29 | Salesforce.Com, Inc. | Object detection and image classification based optical character recognition |
WO2021185098A1 (zh) * | 2020-03-18 | 2021-09-23 | 华为技术有限公司 | 基于字符识别的字符选择方法、装置和终端设备 |
WO2021206338A1 (ko) * | 2020-04-09 | 2021-10-14 | 엘케이시스(주) | 컨테이너 문자 인식 방법 및 장치 |
WO2021212658A1 (zh) * | 2020-04-24 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | Ocr图像样本生成、印刷体验证方法、装置、设备及介质 |
CN113569859A (zh) * | 2021-07-27 | 2021-10-29 | 北京奇艺世纪科技有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
-
2021
- 2021-11-22 CN CN202111389990.9A patent/CN115035360B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140270385A1 (en) * | 2013-03-15 | 2014-09-18 | Mitek Systems, Inc | Methods for mobile image capture of vehicle identification numbers in a non-document |
US20180047209A1 (en) * | 2015-03-20 | 2018-02-15 | Ricoh Company Limited | Image management device, image management method, image management program, and presentation system |
US20200250491A1 (en) * | 2017-11-01 | 2020-08-06 | Tencent Technology (Shenzhen) Company Limited | Image classification method, computer device, and computer-readable storage medium |
US20190172171A1 (en) * | 2017-12-05 | 2019-06-06 | Lendingclub Corporation | Automatically attaching optical character recognition data to images |
CN108959462A (zh) * | 2018-06-19 | 2018-12-07 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
WO2020019220A1 (zh) * | 2018-07-25 | 2020-01-30 | 华为技术有限公司 | 在预览界面中显示业务信息的方法及电子设备 |
CN109784330A (zh) * | 2019-01-03 | 2019-05-21 | 北京百度网讯科技有限公司 | 招牌内容识别方法、装置及设备 |
WO2020155763A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
US20210081729A1 (en) * | 2019-09-16 | 2021-03-18 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for image text recognition, apparatus, device and storage medium |
US20210232814A1 (en) * | 2020-01-27 | 2021-07-29 | Salesforce.Com, Inc. | Object detection and image classification based optical character recognition |
WO2021185098A1 (zh) * | 2020-03-18 | 2021-09-23 | 华为技术有限公司 | 基于字符识别的字符选择方法、装置和终端设备 |
CN111444908A (zh) * | 2020-03-25 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、终端和存储介质 |
WO2021206338A1 (ko) * | 2020-04-09 | 2021-10-14 | 엘케이시스(주) | 컨테이너 문자 인식 방법 및 장치 |
WO2021212658A1 (zh) * | 2020-04-24 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | Ocr图像样本生成、印刷体验证方法、装置、设备及介质 |
CN111738354A (zh) * | 2020-07-20 | 2020-10-02 | 深圳市天和荣科技有限公司 | 一种自动识别训练方法、系统、存储介质及计算机设备 |
CN112115950A (zh) * | 2020-09-28 | 2020-12-22 | 郭杰 | 酒标识别方法、酒品信息管理方法、装置、设备及存储介质 |
CN112686220A (zh) * | 2021-03-10 | 2021-04-20 | 浙江口碑网络技术有限公司 | 商品识别方法及装置、计算设备、计算机存储介质 |
CN112882678A (zh) * | 2021-03-15 | 2021-06-01 | 百度在线网络技术(北京)有限公司 | 图文处理方法和展示方法、装置、设备和存储介质 |
CN113569859A (zh) * | 2021-07-27 | 2021-10-29 | 北京奇艺世纪科技有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115035360B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108121816B (zh) | 图片分类方法、装置、存储介质及电子设备 | |
KR102314274B1 (ko) | 컨텐츠 처리 방법 및 그 전자 장치 | |
US20120062595A1 (en) | Method and apparatus for providing augmented reality | |
WO2021208633A1 (zh) | 物品名称确定方法、装置、计算机设备及存储介质 | |
CN105630915A (zh) | 一种移动终端中图片分类存储的方法及装置 | |
KR20210098509A (ko) | 정보 처리 | |
US20170193992A1 (en) | Voice control method and apparatus | |
US20210150214A1 (en) | Method for Displaying Service Information on Preview Interface and Electronic Device | |
WO2022100221A1 (zh) | 检索处理方法、装置及存储介质 | |
CN110022397A (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN105975554A (zh) | 基于移动终端的大数据搜索方法及装置 | |
CN113497835A (zh) | 多屏交互方法、电子设备及计算机可读存储介质 | |
CN115033318B (zh) | 图像的文字识别方法、电子设备及存储介质 | |
CN115035360B (zh) | 图像的文字识别方法、电子设备及存储介质 | |
CN115016710B (zh) | 应用程序推荐方法 | |
CN110837571A (zh) | 照片分类方法、终端设备及计算机可读存储介质 | |
CN115035520B (zh) | 图像的文字识别方法、电子设备及存储介质 | |
CN116126197B (zh) | 应用程序推荐方法 | |
CN115019291B (zh) | 图像的文字识别方法、电子设备及存储介质 | |
CN115170785B (zh) | 图像的文字识别方法、电子设备及存储介质 | |
CN113612886B (zh) | 一种陌生号码的处理方法及计算机可读存储介质 | |
CN105975193B (zh) | 应用于移动终端的快速搜索方法及装置 | |
KR20150097250A (ko) | 태그 정보를 이용한 스케치 검색 시스템, 사용자 장치, 서비스 제공 장치, 그 서비스 방법 및 컴퓨터 프로그램이 기록된 기록매체 | |
CN109084750B (zh) | 一种导航方法及电子设备 | |
CN111859240A (zh) | 一种图片导出的方法、相关装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |