CN116935391A - 一种基于摄像头的文本识别方法、装置、设备及存储介质 - Google Patents
一种基于摄像头的文本识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116935391A CN116935391A CN202210366298.2A CN202210366298A CN116935391A CN 116935391 A CN116935391 A CN 116935391A CN 202210366298 A CN202210366298 A CN 202210366298A CN 116935391 A CN116935391 A CN 116935391A
- Authority
- CN
- China
- Prior art keywords
- image
- ambiguity
- focusing mode
- preset
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 230000000007 visual effect Effects 0.000 claims abstract description 59
- 230000006870 function Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012423 maintenance Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 6
- 241001156002 Anthonomus pomorum Species 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 11
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N silicon dioxide Inorganic materials O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04812—Interaction techniques based on cursor appearance or behaviour, e.g. being affected by the presence of displayed objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/20—Combination of acquisition, preprocessing or recognition functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10141—Special mode during image acquisition
- G06T2207/10148—Varying focus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Studio Devices (AREA)
Abstract
本申请提供一种基于摄像头的文本识别方法、装置、设备及存储介质。该方法应用于终端设备,包括:在当前对焦模式下,采集位于预设的摄像头取景范围内的待识别文本的第一图像,并确定第一图像的第一模糊度;若根据第一模糊度,确定当前对焦模式满足预设的对焦模式切换条件,则在可视化界面上显示提示信息,提示信息用于提示用户在可视化界面上对第一图像发出触发指令;响应于用户的触发指令,将当前对焦模式切换为目标对焦模式,采集位于预设的摄像头取景范围内的待识别文本的第二图像,并对第二图像进行文本识别。本申请的方法,实现了对焦模式的自动切换,保证图像清晰度,提高文本识别精度。
Description
技术领域
本申请涉及终端技术领域,尤其涉及一种基于摄像头的文本识别方法、装置、设备及存储介质。
背景技术
随着终端技术的发展,终端设备已经成为人们生活中的重要工具。终端设备可以与摄像头连接,进而通过摄像头采集图像;或者,在终端设备上设置有摄像头,终端设备可以通过摄像头采集图像,从而对图像上的文字进行自动识别。
现有技术中,终端设备通过摄像头自动对焦,采集待识别的图像,例如,终端设备通过前置摄像头,采集位于终端设备的屏幕前方或桌面上的物品的图像,并对图像中的文字进行识别。
然而现有技术中,在终端设备通过摄像头采集物品图像进行文本识别时,由于摄像头位置固定,无法灵活调节摄像头的位置进行对焦,导致物品图像的清晰度较低,图像画面模糊,影响文本识别的精度。
发明内容
本申请提供一种基于摄像头的文本识别方法、装置、设备及存储介质,用以解决摄像头对焦错误的问题,提高文本识别精度。
一方面,本申请提供一种摄像头的文本识别方法,该方法应用于终端设备,该方法包括:
在当前对焦模式下,采集位于预设的摄像头取景范围内的待识别文本的第一图像,并确定所述第一图像的第一模糊度;
若根据所述第一模糊度,确定所述当前对焦模式满足预设的对焦模式切换条件,则在可视化界面上显示提示信息,所述提示信息用于提示用户在所述可视化界面上对所述第一图像发出触发指令;
响应于用户的触发指令,将所述当前对焦模式切换为目标对焦模式,采集位于所述预设的摄像头取景范围内的所述待识别文本的第二图像,并对所述第二图像进行文本识别。
另一方面,本申请提供一种基于摄像头的文本识别装置,该装置配置于终端设备上,该装置包括:
第一模糊度确定模块,用于在当前对焦模式下,采集预设的摄像头取景范围内待识别文本的第一图像,并确定所述第一图像的第一模糊度;
提示信息显示模块,用于若根据所述第一模糊度,确定所述当前对焦模式满足预设的对焦模式切换条件,则在可视化界面上显示提示信息,所述提示信息用于提示用户在所述可视化界面上对所述第一图像发出触发指令;
文本识别模块,用于响应于用户的触发指令,将所述当前对焦模式切换为目标对焦模式,采集位于所述预设的摄像头取景范围内的所述待识别文本的第二图像,并对所述第二图像进行文本识别。
另一方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如本申请任意实施例所述的基于摄像头的文本识别方法。
另一方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如本申请任意实施例所述的基于摄像头的文本识别方法。
另一方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请任意实施例所述的基于摄像头的文本识别方法。
本申请的实施例通过采集当前对焦模式下的待识别文本的第一图像,得到第一图像的第一模糊度。根据第一模糊度和预设的对焦模式切换条件,可以在可视化界面上显示提示信息,提示用户在可视化界面上对第一图像做出触发指令。终端设备响应到触发指令后,自动将当前对焦模式切换为预设的目标对焦模式。在目标对焦模式下重新进行采集,得到第二图像,并对第二图像进行文本识别。本申请通过第一模糊度和对焦模式切换条件,可以确定第一图像是否模糊,从而改变对焦模式,以改善图像的模糊情况。在图像模糊的情况下,通过切换对焦模式,屏蔽当前对焦模式,避免在目标对焦模式下,当前对焦模式产生影响。解决了现有技术中,用户在手动对焦时,摄像头自动对焦到用户的手上的问题,减少用户重复手动对焦的过程,有效提高对焦精度,增加图像的清晰度,进而提高文本识别精度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请提供的终端设备显示图像的示意图;
图2为本申请实施例提供的一种基于摄像头的文本识别方法的流程图;
图3为本申请提供的终端设备显示图像中提示信息的示意图;
图4为本申请实施例提供的一种基于摄像头的文本识别方法的流程图;
图5为本申请实施例提供的一种基于摄像头的文本识别方法的流程图;
图6为本申请实施例提供的一种基于摄像头的文本识别方法的流程图;
图7为本申请实施例提供的一种基于摄像头的文本识别装置的结构示意图;
图8为本申请实施例提供的一种终端设备的结构示意图;
图9为本申请实施例提供的另一种终端设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请所涉及的终端设备设置有USB接口、存储器、处理器以及按键,处理器分别与USB接口、存储器和按键连接。USB接口的属性为USB device,用于与显示设备相连。终端设备通过USB接口与显示设备(例如笔记本电脑)连接。终端设备可以与USB线材结合成一根定制的特殊USB线材,也可以是一个带终端设备的USB dongle加标准USB线材的结合的方式存在。终端设备可直接通过显示设备的USB接口获得供电。存储器的用途之一为用于存放进行图像处理需要用到的特定程序或特定程序的下载器。处理器的用途之一为用于加载存储器存储的特定程序或特定程序的下载器后进行控制。按键用于触发处理器产生相关的控制指令,例如按键被点击操作后,处理器将接收到按键发送的操作数据,并根据该操作数据对应生成响应的指令。
随着终端技术的发展,终端设备已经成为人们生活中的重要工具。终端设备可以与摄像头连接,进而通过摄像头采集图像;或者,在终端设备上设置有摄像头,终端设备可以通过摄像头采集图像。
一个示例中,终端设备可以通过摄像头采集图像,终端设备可以是学习机或电脑等产品。终端设备放置在桌面上,桌面上终端前方的位置放置物品,物品可以是文件或书本等待识别文本,终端设备通过前置摄像头采集待识别文本的图像。即,终端设备可以通过摄像头,采集位于终端设备的屏幕的前面的物品的图像。本实施例中,不限定屏幕前面物品的放置方向,可以与桌面水平放置,也可以与桌面竖直放置,只要在摄像头的取景范围内即可。
图1为本申请提供的终端设备显示图像的示意图,如图1所示,终端设备可以通过摄像头,采集位于终端设备的屏幕的前面的待识别文本的图像;然后,终端设备显示出图像,再对待识别文本进行文字识别。如图1所示,学习机等终端设备,固定放置课桌等场景下,无法自由移动或晃动来进行快速自动对焦,容易导致对焦异常,采集的图像画面模糊,无法准确识别文本。
本申请提供一种基于摄像头的文本识别方法、装置、设备及存储介质,以解决上述问题。下面进行介绍。
需要注意的是,由于篇幅所限,本申请说明书没有穷举所有可选的实施方式,本领域技术人员在阅读本申请说明书后,应该能够想到,只要技术特征不互相矛盾,那么技术特征的任意组合均可以构成可选的实施方式。下面对各实施例进行详细说明。
图2为本申请实施例提供的一种基于摄像头的文本识别方法的流程图,如图2所示,本实施例提供的方法可以应用于终端设备,终端设备上安装有摄像头。该方法包括以下步骤:
S201、在当前对焦模式下,采集位于预设的摄像头取景范围内的待识别文本的第一图像,并确定第一图像的第一模糊度。
其中,在终端设备前方放置待识别文本,待识别文本可以是上面存在字符的文件或书本等。终端设备上的摄像头根据预设的摄像头取景范围对待识别文本进行图像采集,得到的图像为待识别文本的第一图像。例如,摄像头为前置摄像头,安装在终端设备屏幕顶部中间的位置,预设的摄像头取景范围可以是一个半圆,例如,以终端设备屏幕底端为直径所在边,终端设备前方30厘米作为半径距离的半圆范围。
摄像头的对焦模式可以包括多种,例如,可以包括自动对焦模式和手动对焦模式等。摄像头在采集第一图像时的对焦模式为当前对焦模式。例如,设置自动对焦模式为默认的对焦模式,将待识别文本放在终端设备前方,摄像头启动后,采集到第一图像时的当前对焦模式就是自动对焦模式。
在得到第一图像后,摄像头的实际对焦模式可以与当前对焦模式无关,即,当前实际的对焦模式可以是当前对焦模式,也可以不是当前对焦模式。例如,摄像头以手动对焦模式作为当前对焦模式采集到第一图像,在采集之后,手动对焦模式自动转换为默认的自动对焦模式,即,摄像头当前实际的对焦模式变为自动对焦模式,摄像头此时实际的对焦模式与当前对焦模式不同。在没有改变对焦模式的情况下,摄像头的对焦模式也可以一直不变。例如,摄像头的对焦模式一直维持为自动对焦模式,即,当前对焦模式和采集第一图像后实际的对焦模式相同。
本实施例中,确定第一图像的第一模糊度,包括:根据预设的模糊度确定算法,得到第一图像的第一模糊度。
具体的,可以预先设置模糊度确定算法对图像进行计算,确定图像的模糊度。第一图像的模糊度为第一模糊度。模糊度也可以表示为图像的清晰度。可以在模糊度确定算法中设置模糊度高低与图像清晰程度关系,例如,模糊度越低,图像越清晰,文本的识别精度也就越高。模糊度确定算法可以包括Brenner梯度函数、灰度差分函数或熵函数中的至少一项,灰度差分函数可以是SMD(Sum of Modulus of gray Difference,灰度差分绝对值之和)函数。本实施例中,对模糊度确定算法的应用不做具体限制。
模糊度确定算法可以输出模糊度值来表示图像的模糊程度,例如,对于一个待识别文本的第一图像,可以得到第一模糊度的模糊度值为6.0;对于另一个待识别文本的第一图像,得到第一模糊度的模糊度值为5.2。
这样设置的有益效果在于,可以自动快速得到第一图像的第一模糊度,从而确定第一图像的模糊程度或清晰程度,不需要人为进行判断,便于后续针对模糊的第一图像进行重新对焦,提高对焦精度和文本识别的效率。
S202、若根据第一模糊度,确定当前对焦模式满足预设的对焦模式切换条件,则在可视化界面上显示提示信息,提示信息用于提示用户在可视化界面上对第一图像发出触发指令。
其中,预先设置对焦模式切换条件,对焦模式切换条件可以用于确定是否需要切换摄像头的当前对焦模式。例如,对焦模式切换条件可以是,若第一模糊度在预设的模糊度数值范围之内,则确定当前对焦模式满足预设的对焦模式切换条件。
示例的,当前对焦模式为自动对焦模式,第一图像的第一模糊度为6.0,对焦模式切换条件中,确定图像为模糊的模糊度数值是大于或等于0.6,则确定需要将自动对焦模式切换为其他的对焦模式。
根据第一模糊度,可以确定当前对焦模式是否满足预设的对焦模式切换条件,若满足,则确定需要进行对焦模式的切换,采用新的对焦模式重新进行图像采集。可以在终端设备的可视化界面上显示提示信息。提示信息可以用于提示用户在可视化界面上对第一图像发出触发指令,触发指令可以用于改变当前对焦模式。例如,当前对焦模式为自动对焦模式,提示信息可以是在终端设备的屏幕上显示一个弹窗,弹窗中可以显示文字,提示用户点击屏幕中第一图像上期望被对焦的位置,来启用手动对焦模式,实现精确对焦。
本实施例中,提示信息包括语音和/或动画提醒,触发指令包括触屏操作。
具体的,提示信息可以是语音提醒和/或动画提醒,例如,终端设备可以发出语音“请点击屏幕中期望对焦的文本位置”,或者屏幕中的第一图像上可以是出现一个抖动的小手,提醒用户用手触摸第一图像上的任一位置,发出触发指令,即,触发指令可以是触屏操作,用户触屏的位置即为需要对焦的文本位置。本实施例中,触发指令还可以是通过鼠标点击的指令等。
图3为本申请提供的终端设备显示图像中提示信息的示意图。图3中的手为动画提醒,提醒用户用手指向屏幕,进行触屏操作。
这样设置的有益效果在于,可以及时提醒用户需要进行对焦模式切换,使用户指定需要对焦的位置,便于进行精确对焦,提高文本识别的精度,提升用户的使用体验。
S203、响应于用户的触发指令,将当前对焦模式切换为目标对焦模式,采集位于预设的摄像头取景范围内的待识别文本的第二图像,并对第二图像进行文本识别。
其中,用户通过可视化界面上发出触发指令,例如,用户用手指点击屏幕上第一图像上的任一位置。终端设备响应到用户的触发指令,将当前对焦模式切换为目标对焦模式,终端设备在目标对焦模式下重新进行对焦,再次获取摄像头取景范围内的待识别文本的图像,作为第二图像。
预先设置目标对焦模式,例如,目标对焦模式为手动对焦模式,在响应到触发指令后,将当前对焦模式切换为手动对焦模式。由此可知,本实施例中,当前对焦模式不是手动对焦模式,即,当前对焦模式不是目标对焦模式。若当前对焦模式为目标对焦模式,则在当前模式下获取的第一图像与目标模式下获取的第二图像存在一致的可能,因此,可以不进行模式切换。可以在S102的对焦模式切换条件中进行当前对焦模式和目标对焦模式的判断,若当前对焦模式不是目标对焦模式,则确定当前对焦模式满足对焦模式切换条件。
将当前对焦模式切换为目标对焦模式,摄像头只以目标对焦模式进行图像采集,屏蔽当前对焦模式。即,使摄像头获取第二图像时的对焦模式只有一种,就是目标对焦模式,避免当前对焦模式造成影响。例如,当前对焦模式为自动对焦模式,目标对焦模式为手动对焦模式,摄像头对用户手指触屏的坐标所对应的文本位置进行对焦。由于摄像头位于待识别文本的上方,手指的移动容易触发摄像头的自动对焦,而在屏蔽自动对焦模式的情况下,可以避免对摄像头中的用户手指进行自动对焦,减少手动对焦失效的问题,提高手动对焦的效率和精度。
在得到第二图像后,可以根据预设的文本识别算法,对第二图像中的文本进行识别,得到文本识别结果。文本识别算法可以是OCR(Optical Character Recognition,光学字符识别)算法,本实施例中,对文本识别算法不做具体限定。
本实施例中,在得到第二图像后可以直接进行文本识别,不需要再计算第二图像的模糊度,即第二模糊度。因为如果进行对焦调整后,图像仍然模糊,则可以认为是由于待识别文本本身不清晰,或者是由于光线、摄像头异常等原因造成的,所以不需要再引导用户进行对焦调整。若无法识别出文本,则可以在可视化界面上发出错误提示,提醒用户检查待识别文本、摄像头或环境等因素。
本申请通过采集当前对焦模式下的待识别文本的第一图像,得到第一图像的第一模糊度。根据第一模糊度和预设的对焦模式切换条件,可以在可视化界面上显示提示信息,提示用户在可视化界面上对第一图像做出触发指令。终端设备响应到触发指令后,自动将当前对焦模式切换为预设的目标对焦模式。在目标对焦模式下重新进行采集,得到第二图像,并对第二图像进行文本识别。本申请通过第一模糊度和对焦模式切换条件,可以确定第一图像是否模糊,从而改变对焦模式,以改善图像的模糊情况。在图像模糊的情况下,通过切换对焦模式,屏蔽当前对焦模式,避免在目标对焦模式下,当前对焦模式产生影响。解决了现有技术中,用户在手动对焦时,摄像头自动对焦到用户的手上的问题,减少用户重复手动对焦的过程,有效提高对焦精度,增加图像的清晰度,进而提高文本识别精度。
图4为本申请实施例提供的一种基于摄像头的文本识别方法的流程图,该实施例是在上述实施例基础上的可选实施例,该方法应用于移动终端。
本实施例中,根据第一模糊度,确定当前对焦模式满足预设的对焦模式切换条件,可细化为:若确定第一模糊度满足预设的模糊度阈值比对条件,则将当前对焦模式与预设的目标对焦模式进行对比;若当前对焦模式不是预设的目标对焦模式,则确定当前对焦模式满足预设的对焦模式切换条件。
如图4所示,该方法包括以下步骤:
S401、在当前对焦模式下,采集位于预设的摄像头取景范围内的待识别文本的第一图像,并确定第一图像的第一模糊度。
S402、若确定第一模糊度满足预设的模糊度阈值比对条件,则将当前对焦模式与预设的目标对焦模式进行对比。
其中,对焦模式切换条件中可以包括多个匹配条件,例如,可以通过第一模糊度确定第一图像是否模糊,还可以确定当前对焦模式是不是已经是目标对焦模式。
可以预先设置模糊度阈值比对条件,在得到第一模糊度后,确定第一模糊度是否满足预设的模糊度阈值比对条件。例如,可以判断第一模糊度是否高于一个预设值或低于一个预设值;又例如,可以判断第一模糊度是否在一个预设的数值范围内。
若确定第一模糊度满足预设的模糊度阈值比对条件,则可以继续判断当前对焦模式是否为目标对焦模式,即,可以将当前对焦模式与预设的目标对焦模式进行对比,实现对对焦模式切换条件的二次判断。
本实施例中,确定第一模糊度满足预设的模糊度阈值比对条件,包括:若第一模糊度超过预设的模糊度阈值,则确定第一模糊度满足预设的模糊度阈值比对条件。
具体的,可以预设一个模糊度阈值,模糊度阈值比对条件可以是,在第一模糊度超过模糊度阈值时,则认为第一图像是模糊的,第一模糊度满足模糊度阈值比对条件。
在得到第一模糊度后,将第一模糊度与模糊度阈值进行比较,确定第一模糊度是否超过预设的模糊度阈值,若是,则确定第一模糊度满足预设的模糊度阈值比对条件;若否,则确定第一模糊度不满足模糊度阈值比对条件。
这样设置的有益效果在于,通过进行阈值比较,可以快速确定第一模糊度是否满足模糊度阈值比对条件,判断过程简单快捷,模糊度阈值可以灵活调节,提高模糊度的判断精度和灵活性。
本实施例中,在确定第一图像的第一模糊度之后,还包括:若第一模糊度不满足预设的模糊度阈值比对条件,则根据预设的文本识别算法,对第一图像进行文本识别。
具体的,若第一模糊度不满足模糊度阈值比对条件,例如,第一模糊度没有超过预设的模糊度阈值,则确定第一图像清晰,不需要进行对焦调节,可以直接进行文本识别。根据预设的文本识别算法,对第一图像进行文本识别,得到文本识别结果。
这样设置的有益效果在于,在第一图像较为清晰时,不再进行后续的条件判断,也不进行对焦模式的切换,直接进行识别,有效提高文本识别的效率。
本实施例中,在若确定第一模糊度是否满足预设的模糊度阈值比对条件,则将当前对焦模式是否为与预设的目标对焦模式进行对比之前,还包括:获取预先采集的样本图像集;根据预设的模糊度确定算法,确定样本图像集中任一样本图像的模糊度数值;根据模糊度数值和预设的模糊度阈值取值规则,确定模糊度阈值。
具体的,在进行第一模糊度和模糊度阈值的比对之前,需要预先确定模糊度阈值。本实施例中,模糊度阈值的确定可以在S401之前,也可以在S402之前,本实施例对此不做具体限制。
预先收集多张样本图像,作为样本图像集,样本图像集中可以包括清晰图像,也可以包括模糊图像。获取样本图像集,根据预设的模糊度确定算法,得到样本图像集中各张样本图像的模糊度数值。
预先设置模糊度阈值取值规则,根据模糊度数值和模糊度阈值取值规则,确定模糊度阈值。例如,模糊度阈值取值规则可以是获取样本图像集中模糊图像的模糊度数值的最大值,作为模糊度阈值。也可以由工作人员查看各张样本图像的清晰程度和模糊度数值,从中找出较为模糊的样本图像所对应的模糊度数值,作为目标模糊度数值。目标模糊度数值以上的模糊度数值所对应的样本图像均为模糊图像,且模糊程度逐渐增加,则可以将该目标模糊度数值设置为模糊度阈值。
这样设置的有益效果在于,根据实际需求预先设置模糊度阈值,提高模糊度阈值确定的灵活性,便于判断第一图像是否模糊,从而进行后续操作,有利于提高文本识别的精度。
S403、若当前对焦模式不是预设的目标对焦模式,则确定当前对焦模式满足预设的对焦模式切换条件。
其中,判断当前对焦模式是否为预设的目标对焦模式,若当前对焦模式不是目标对焦模式,则确定当前对焦模式满足预设的对焦模式切换条件,需要进行对焦模式的调整。例如,当前对焦模式为默认的自动对焦模式,目标对焦模式为手动对焦模式,则当前对焦模式不是目标对焦模式。
本实施例中,在将当前对焦模式是否为与预设的目标对焦模式进行对比之后,还包括:若确定当前对焦模式是目标对焦模式,则根据预设的文本识别算法,对第一图像进行文本识别。
具体的,若当前对焦模式是目标对焦模式,则确定第一图像已经是在目标对焦模式下采集到的,不需要再次在目标对焦模式下进行采集。因此,可以直接对第一图像进行文本识别。根据预设的文本识别算法,对第一图像进行文本识别,得到识别结果。
这样设置的有益效果在于,若第一图像是在目标对焦模式下获得,则第一图像的模糊原因可能是文件本身就不清晰,或者是由于光线、摄像头异常等,不需要再引导用户进行对焦调整,因此,可以直接进行识别,节约对焦程序,提高文本识别的效率。
本实施例中,在确定当前对焦模式是目标对焦模式之后,还包括:确定摄像头在目标对焦模式下,对待识别文本的当前图像采集次数;若当前图像采集次数超过预设的次数阈值,则根据预设的文本识别算法,对第一图像进行文本识别;若当前图像采集次数未超过预设的次数阈值,则确定当前对焦模式满足预设的对焦模式切换条件。
具体的,可以预先设置一个次数阈值,次数阈值可以表示待识别文本在目标对焦模式下被采集的最大次数。在确定当前对焦模式是目标对焦模式之后,可以确定摄像头在目标对焦模式下,对待识别文本的当前图像采集次数,即,待识别文本已经在目标对焦模式下被采集的次数。本实施例中,当前图像采集次数可以是预设时间段内被连续采集的次数。
将当前图像采集次数与次数阈值进行比较,判断当前图像采集次数是否超过次数阈值。若当前图像采集次数超过预设的次数阈值,则确定待识别文本已经不能再在目标对焦模式下进行采集,直接根据预设的文本识别算法,对第一图像进行文本识别。若当前图像采集次数未超过预设的次数阈值,则确定当前对焦模式满足预设的对焦模式切换条件,可以继续执行S404,并在目标对焦模式下采集第二图像。
这样设置的有益效果在于,预设一个次数阈值,避免在目标对焦模式下进行多次无用的图像采集,减少用户重复进行手动对焦的过程,提高对焦效率,进而提高文本识别的效率。
S404、在可视化界面上显示提示信息,提示信息用于提示用户在可视化界面上对第一图像发出触发指令。
S405、响应于用户的触发指令,将当前对焦模式切换为目标对焦模式,采集位于预设的摄像头取景范围内的待识别文本的第二图像,并对第二图像进行文本识别。
本申请实施例通过采集当前对焦模式下的待识别文本的第一图像,得到第一图像的第一模糊度。根据第一模糊度和预设的对焦模式切换条件,判断第一模糊度是否满足模糊度阈值比对条件,以及确定当前对焦模式是否为目标对焦模式。通过二次判断,可以提高对焦模式切换条件的判断精度。若满足对焦模式切换条件,则可以在可视化界面上显示提示信息,提示用户在可视化界面上对第一图像做出触发指令。终端设备响应到触发指令后,自动将当前对焦模式切换为预设的目标对焦模式。在目标对焦模式下重新进行采集,得到第二图像,并对第二图像进行文本识别。本申请通过第一模糊度和对焦模式切换条件,可以确定第一图像是否模糊,从而改变对焦模式,以改善图像的模糊情况。在图像模糊的情况下,通过切换对焦模式,屏蔽当前对焦模式,避免在目标对焦模式下,当前对焦模式产生影响。解决了现有技术中,用户在手动对焦时,摄像头自动对焦到用户的手上的问题,减少用户重复手动对焦的过程,有效提高对焦精度,增加图像的清晰度,进而提高文本识别精度。
图5为本申请实施例提供的一种基于摄像头的文本识别方法的流程图,该实施例是在上述实施例基础上的可选实施例,该方法应用于移动终端。
本实施例中,当前对焦模式为自动对焦模式,目标对焦模式为手动对焦模式;相应地,响应于用户的触发指令,将当前对焦模式切换为目标对焦模式,采集位于预设的摄像头取景范围内的待识别文本的第二图像,可细化为:响应于用户在可视化界面上对第一图像中任一坐标点进行的触屏操作,确定目标对焦位置;将自动对焦模式切换为手动对焦模式,根据目标对焦位置,对摄像头取景范围内的待识别文本进行图像采集,得到第二图像。
如图5所示,该方法包括以下步骤:
S510、在当前对焦模式下,采集位于预设的摄像头取景范围内的待识别文本的第一图像,并确定第一图像的第一模糊度;当前对焦模式为自动对焦模式。
S520、若根据第一模糊度,确定当前对焦模式满足预设的对焦模式切换条件,则在可视化界面上显示提示信息,提示信息用于提示用户在可视化界面上对第一图像发出触发指令。
S530、响应于用户在可视化界面上对第一图像中任一坐标点进行的触屏操作,确定目标对焦位置。
其中,用户在可视化界面上看到和/或听到提示信息,根据提示信息做出触发指令。例如,用户可以用手指点击屏幕上第一图像中的任意坐标位置,所点击的位置为需要对焦的位置。本实施例中,用户做出的触发指令可以是触屏操作,即用户触碰第一图像上的任一坐标点。终端设备响应到用户的触屏操作,确定用户所触碰的坐标点,将坐标点位置确定为目标对焦位置。
本实施例中,响应于用户在可视化界面上对第一图像中任一坐标点进行的触屏操作,确定目标对焦位置,包括:根据用户在可视化界面上对第一图像中任一坐标点进行的触屏操作,确定用户指定的目标坐标位置;根据第一图像中的目标坐标位置,确定待识别文本中的目标对焦位置。
具体的,用户在可视化界面上对第一图像中的任一坐标点进行触屏操作,例如,可视化界面显示一个移动的手指,提示用户用手指点击需要对焦的位置。用户通过触屏点击需要对焦的位置。终端设备响应到用户的触屏操作,确定用户所点击的位置,作为指定的目标坐标位置。第一图像为待识别文本的图像,第一图像上的各个坐标与待识别文本上各个文本的实际位置一一对应。根据第一图像上的目标坐标位置,可以确定待识别文本上需要被对焦的位置,作为目标对焦位置。即,目标坐标位置是可视化界面上第一图像中的位置,目标对焦位置是待识别文本上的实际位置。例如,用户点击第一图像中第一排第一个字所在的坐标位置,则确定目标对焦位置是待识别文本上第一排第一个字的位置。
这样设置的有益效果在于,用户可以直接在可视化界面上进行触屏,根据用户在可视化界面上的操作直接对待识别文本上需要对焦的位置进行确定。方便用户做出对焦操作,通过目标坐标位置和目标对焦位置的关联,提高目标对焦位置的确定精度,进而提高对焦效率和对焦精度,便于后续的文本识别过程。
S540、将自动对焦模式切换为手动对焦模式,根据目标对焦位置,对摄像头取景范围内的待识别文本进行图像采集,得到第二图像。
其中,终端设备在确定目标对焦位置之后,确定需要切换对焦模式,将对焦模式由原来的自动对焦模式切换为设定的手动对焦模式。自动对焦模式是自动对待识别文本进行对焦,手动对焦模式是根据用户的指定,对目标对焦位置进行对焦。
在对焦模式切换为手动对焦模式后,以手动对焦模式对待识别文本进行图像采集,采集得到的图像为第二图像。
目标对焦位置即为手动对焦模式下需要对焦的位置,摄像头对目标对焦位置进行对焦。终端设备在摄像头对焦后,对摄像头取景范围内的待识别文本进行图像采集,得到第二图像。即,第二图像是对目标对焦位置进行对焦后的图像。
本实施例中,将自动对焦模式切换为手动对焦模式,根据目标对焦位置,对摄像头取景范围内的待识别文本进行图像采集,得到第二图像,包括:关闭自动对焦模式,并在手动对焦模式下,对焦摄像头取景范围内的待识别文本的目标对焦位置,对待识别文本进行图像采集,得到第二图像。
具体的,将自动对焦模式切换为手动对焦模式,此时摄像头关闭自动对焦模式,打开手动对焦模式。即,在手动对焦模式的情况下,屏蔽自动对焦模式,摄像头只以手动对焦模式进行对焦。
终端设备上的摄像头只以手动对焦模式对取景范围内的待识别文本的目标对焦位置进行对焦。用户的手指在屏幕上移动,摄像头获取到用户的移动手指,不会对手指进行自动对焦。对目标对焦位置进行对焦后即可进行图像采集,得到第二图像,第二图像为待识别文本的图像,不存在用户的手指。
这样设置的有益效果在于,通过屏蔽自动对焦模式,可以避免用户点击屏幕时,手臂正好位于摄像头取景范围内,而误触摄像头的自动对焦功能所导致焦点错误的定位在手上的问题。有效防止画面模糊,提高对焦精度,进而提高文本识别精度,提升用户的体验感。
本实施例中,在将自动对焦模式切换为手动对焦模式之后,还包括:若手动对焦模式的维持时间超过预设的时间阈值,则将手动对焦模式切换为自动对焦模式。
具体的,在将自动对焦模式切换为手动对焦模式时,记录手动对焦模式的开始时间,并实时确定手动对焦模式的维持时间。预先设置一个时间阈值,时间阈值可以是允许手动对焦模式的最大维持时间。
将确定的维持时间与时间阈值进行实时比较,判断维持时间是否超过时间阈值。若手动对焦模式的维持时间没有超过预设的时间阈值,则继续保持手动对焦模式,响应用户的对焦操作。若手动对焦模式的维持时间超过预设的时间阈值,则不再以手动对焦模式进行对焦,将手动对焦模式切换回默认的自动对焦模式,对待识别文本进行自动对焦。例如,预设的时间阈值为一秒,在确定用户点击屏幕第一图像后的一秒内,进行手动对焦。在一秒之后,用户已经点击完屏幕,手臂离开摄像头的取景范围,可以自动切换回自动对焦模式。时间阈值可以根据实际需求进行调整,例如,可以将时间阈值设置为更长的时间,给用户提供更多做出触发操作的时间,便于用户进行对焦。
这样设置的有益效果在于,可以自动进行对焦模式的切换,在手动对焦模式维持一定时间后,自动变为自动对焦模式,便于继续对后续的待识别文本进行自动对焦,减少用户操作,有效提高对焦效率。
本实施例中,在采集位于预设的摄像头取景范围内的待识别文本的第二图像之后,还包括:确定第二图像的第二模糊度;若第二模糊度满足预设的模糊度阈值比对条件,则确定摄像头在目标对焦模式下,对待识别文本的当前图像采集次数;若当前图像采集次数超过预设的次数阈值,则在可视化界面上显示提示信息,以引导用户在可视化界面上对第二图像发出触发指令。
具体的,在得到第二图像之后,可以直接对第二图像进行文本识别。也可以再次确定第二图像的模糊度,作为第二模糊度。可以根据预设的模糊度确定算法,例如,Brenner梯度函数、灰度差分函数或熵函数等,得到第二图像的第二模糊度。
将第二模糊度与预设的模糊度阈值进行比较,判断第二模糊度是否满足预设的模糊度阈值比对条件。例如,判断第一模糊度是否超过预设的模糊度阈值,若是,则确定第一模糊度满足预设的模糊度阈值比对条件。若第二模糊度不满足预设的模糊度阈值比对条件,则确定第二图像清晰,可以直接进行文本识别;若第二模糊度满足预设的模糊度阈值比对条件,则进一步确定摄像头在目标对焦模式下,对待识别文本的当前图像采集次数。
判断当前图像采集次数是否超过预设的次数阈值,若是,则不再进行手动对焦模式的切换,直接对第二图像进行文本识别;若否,则可以在可视化界面上显示提示信息,引导用户在可视化界面上对第二图像再次发出触发指令。响应于用户的触发指令,将摄像头此时实际的对焦模式切换为手动对焦模式,采集位于预设的摄像头取景范围内的待识别文本的第三图像,并重复进行第三图像的第三模糊度的确定,直至采集的图像满足预设的模糊度阈值比对条件,或者当前图像采集次数超过预设的次数阈值,则进行文本识别。
这样设置的有益效果在于,在得到第二模糊度后,可以继续判断是否能对第二图像进行文本识别,若不能,则可以继续进行手动对焦,保证图像的清晰度,提高文本识别的精度。若待识别文本在手动对焦模式下的采集次数过多,图像仍然模糊,则确定图像模糊的原因是文件本身就不清晰或者是由于光线或摄像头异常等,不再进行对焦模式的切换,有效提高对焦效率和识别效率。
S550、对第二图像进行文本识别。
本申请实施例通过采集当前对焦模式下的待识别文本的第一图像,得到第一图像的第一模糊度。根据第一模糊度和预设的对焦模式切换条件,可以在可视化界面上显示提示信息,提示用户在可视化界面上对第一图像做出触发指令。终端设备响应到触发指令后,确定需要对焦的目标对焦位置,自动将当前对焦模式切换为预设的目标对焦模式,屏蔽自动对焦模式。根据目标对焦位置,在手动对焦模式下重新进行采集,得到第二图像,并对第二图像进行文本识别。本申请通过第一模糊度和对焦模式切换条件,可以确定第一图像是否模糊,从而改变对焦模式,以改善图像的模糊情况。在图像模糊的情况下,通过切换对焦模式,屏蔽当前对焦模式,避免在目标对焦模式下,当前对焦模式产生影响。解决了现有技术中,用户在手动对焦时,摄像头自动对焦到用户的手上的问题,减少用户重复手动对焦的过程,有效提高对焦精度,增加图像的清晰度,进而提高文本识别精度。
图6为本申请实施例提供的一种基于摄像头的文本识别方法的流程图,该实施例是在上述实施例基础上的可选实施例,该方法应用于移动终端。如图6所示,该方法包括以下步骤:
S601、进入拍摄界面。
S602、在自动对焦模式下,采集位于预设的摄像头取景范围内的待识别文本的第一图像,并确定第一图像的文本模糊度。
S603、根据模糊度阈值比对条件,对文本模糊度进行判断,若文本模糊度满足预设的模糊度阈值比对条件,则执行S604;若文本模糊度不满足预设的模糊度阈值比对条件,则执行S605。
S604、判断是否在手动对焦模式下进行过待识别文本的图像采集,若是,则执行S605;若否,则执行S606。
S605、进行文本识别。
S606、在可视化界面上显示提示信息,提示信息用于提示用户在可视化界面上对第一图像发出触发指令。
S607、响应于用户的触发指令,将自动对焦模式切换为手动对焦模式,采集位于预设的摄像头取景范围内的待识别文本的第二图像。
S608、确定第二图像的文本模糊度,执行S603。
本申请实施例通过采集当前对焦模式下的待识别文本的第一图像,得到第一图像的第一模糊度。根据第一模糊度和预设的对焦模式切换条件,可以在可视化界面上显示提示信息,提示用户在可视化界面上对第一图像做出触发指令。终端设备响应到触发指令后,自动将当前对焦模式切换为预设的目标对焦模式。在目标对焦模式下重新进行采集,得到第二图像,并对第二图像进行文本识别。本申请通过第一模糊度和对焦模式切换条件,可以确定第一图像是否模糊,从而改变对焦模式,以改善图像的模糊情况。在图像模糊的情况下,通过切换对焦模式,屏蔽当前对焦模式,避免在目标对焦模式下,当前对焦模式产生影响。解决了现有技术中,用户在手动对焦时,摄像头自动对焦到用户的手上的问题,减少用户重复手动对焦的过程,有效提高对焦精度,增加图像的清晰度,进而提高文本识别精度。
图7为本申请实施例提供的一种基于摄像头的文本识别装置的结构示意图,该装置应用于终端设备,终端设备上安装有摄像头;该装置可以通过软件、硬件或者两者的结合实现。如图7所示,该装置包括:第一模糊度确定模块701、提示信息显示模块702和文本识别模块703。
第一模糊度确定模块701,用于在当前对焦模式下,采集预设的摄像头取景范围内待识别文本的第一图像,并确定所述第一图像的第一模糊度;
提示信息显示模块702,用于若根据所述第一模糊度,确定所述当前对焦模式满足预设的对焦模式切换条件,则在可视化界面上显示提示信息,所述提示信息用于提示用户在所述可视化界面上对所述第一图像发出触发指令;
文本识别模块703,用于响应于用户的触发指令,将所述当前对焦模式切换为目标对焦模式,采集位于所述预设的摄像头取景范围内的所述待识别文本的第二图像,并对所述第二图像进行文本识别。
可选的,提示信息显示模块702,包括:
模糊度阈值比对单元,用于若确定所述第一模糊度满足预设的模糊度阈值比对条件,则将所述当前对焦模式与预设的目标对焦模式进行对比;
目标对焦模式比对单元,用于若所述当前对焦模式不是预设的目标对焦模式,则确定所述当前对焦模式满足预设的对焦模式切换条件。
可选的,模糊度阈值比对单元,具体用于:
若所述第一模糊度超过预设的模糊度阈值,则确定所述第一模糊度满足预设的模糊度阈值比对条件。
可选的,该装置还包括:
第一图像识别模块,用于在确定所述第一图像的第一模糊度之后,若所述第一模糊度不满足预设的模糊度阈值比对条件,则根据预设的文本识别算法,对所述第一图像进行文本识别。
可选的,该装置还包括:
样本图像集获取模块,用于在若确定所述第一模糊度是否满足预设的模糊度阈值比对条件,则将所述当前对焦模式是否为与预设的目标对焦模式进行对比之前,获取预先采集的样本图像集;
模糊度数值确定模块,用于根据预设的模糊度确定算法,确定所述样本图像集中任一样本图像的模糊度数值;
模糊度阈值确定模块,用于根据所述模糊度数值和预设的模糊度阈值取值规则,确定所述模糊度阈值。
可选的,该装置还包括:
第一图像文本识别模块,用于在将所述当前对焦模式是否为与预设的目标对焦模式进行对比之后,若确定所述当前对焦模式是所述目标对焦模式,则根据预设的文本识别算法,对所述第一图像进行文本识别。
可选的,该装置还包括:
当前图像采集次数确定模块,用于在确定所述当前对焦模式是所述目标对焦模式之后,确定摄像头在所述目标对焦模式下,对所述待识别文本的当前图像采集次数;
次数比对模块,用于若所述当前图像采集次数超过预设的次数阈值,则根据预设的文本识别算法,对所述第一图像进行文本识别;
对焦模式切换条件满足模块,用于若所述当前图像采集次数未超过预设的次数阈值,则确定所述当前对焦模式满足预设的对焦模式切换条件。
可选的,提示信息包括语音和/或动画提醒,所述触发指令包括触屏操作。
可选的,当前对焦模式为自动对焦模式,所述目标对焦模式为手动对焦模式;
相应地,文本识别模块703,包括:
目标对焦位置确定单元,用于响应于用户在可视化界面上对第一图像中任一坐标点进行的触屏操作,确定目标对焦位置;
第二图像得到单元,用于将所述自动对焦模式切换为手动对焦模式,根据所述目标对焦位置,对摄像头取景范围内的待识别文本进行图像采集,得到第二图像。
可选的,目标对焦位置确定单元,具体用于:
根据用户在可视化界面上对第一图像中任一坐标点进行的触屏操作,确定用户指定的目标坐标位置;
根据所述第一图像中的目标坐标位置,确定所述待识别文本中的目标对焦位置。
可选的,第二图像得到单元,具体用于:
关闭自动对焦模式,并在所述手动对焦模式下,对焦摄像头取景范围内的待识别文本的目标对焦位置,对所述待识别文本进行图像采集,得到所述第二图像。
可选的,该装置还包括:
手动对焦模式切换模块,用于在将所述自动对焦模式切换为手动对焦模式之后,若所述手动对焦模式的维持时间超过预设的时间阈值,则将所述手动对焦模式切换为所述自动对焦模式。
可选的,该装置还包括:
第二模糊度确定模块,用于在采集位于所述预设的摄像头取景范围内的所述待识别文本的第二图像之后,确定所述第二图像的第二模糊度;
采集次数确定模块,用于若所述第二模糊度满足预设的模糊度阈值比对条件,则确定摄像头在所述目标对焦模式下,对所述待识别文本的当前图像采集次数;
第二图像触发模块,用于若所述当前图像采集次数未超过预设的次数阈值,则在可视化界面上显示提示信息,以引导用户在所述可视化界面上对所述第二图像发出触发指令。
可选的,第一模糊度确定模块701,具体用于:
根据预设的模糊度确定算法,得到所述第一图像的第一模糊度。
可选的,模糊度确定算法包括Brenner梯度函数、灰度差分函数或熵函数中的至少一项。
本申请实施例通过采集当前对焦模式下的待识别文本的第一图像,得到第一图像的第一模糊度。根据第一模糊度和预设的对焦模式切换条件,可以在可视化界面上显示提示信息,提示用户在可视化界面上对第一图像做出触发指令。终端设备响应到触发指令后,自动将当前对焦模式切换为预设的目标对焦模式。在目标对焦模式下重新进行采集,得到第二图像,并对第二图像进行文本识别。本申请通过第一模糊度和对焦模式切换条件,可以确定第一图像是否模糊,从而改变对焦模式,以改善图像的模糊情况。在图像模糊的情况下,通过切换对焦模式,屏蔽当前对焦模式,避免在目标对焦模式下,当前对焦模式产生影响。解决了现有技术中,用户在手动对焦时,摄像头自动对焦到用户的手上的问题,减少用户重复手动对焦的过程,有效提高对焦精度,增加图像的清晰度,进而提高文本识别精度。
图8为本申请实施例提供的一种终端设备的结构示意图,如图8所示,终端设备可包括:处理器81和存储器82;其中,存储器82存储有计算机程序,计算机程序适于由处理器81加载并执行上述的方法步骤。终端设备还可以包括发送器83和接收器84。
其中,一个示例中,终端设备不具备ISP功能。另一个示例中,终端设备的处理器具备ISP功能,或者,终端设备还包括ISP芯片。
本申请实施例还提供了一种计算机存储介质,计算机存储介质可以存储有多条指令,指令适于由处理器加载并执行如上述实施例的方法步骤,具体执行过程可以参见上述实施例的具体说明,在此不进行赘述。
其中,存储介质所在设备可以是摄像头,或者是终端设备。
图9为本申请实施例提供了另一种终端设备的结构示意图。如图9所示,终端设备1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个终端设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行终端设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及终端设备的操作应用程序。
在图9所示的终端设备1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的终端设备的操作应用程序,并具体执行上述实施例提供的方法。
本申请实施例还提供一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,终端设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得终端设备执行上述任一实施例提供的方案。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (19)
1.一种基于摄像头的文本识别方法,其特征在于,所述方法应用于终端设备,所述方法包括:
在当前对焦模式下,采集位于预设的摄像头取景范围内的待识别文本的第一图像,并确定所述第一图像的第一模糊度;
若根据所述第一模糊度,确定所述当前对焦模式满足预设的对焦模式切换条件,则在可视化界面上显示提示信息,所述提示信息用于提示用户在所述可视化界面上对所述第一图像发出触发指令;
响应于用户的触发指令,将所述当前对焦模式切换为目标对焦模式,采集位于所述预设的摄像头取景范围内的所述待识别文本的第二图像,并对所述第二图像进行文本识别。
2.根据权利要求1所述的方法,其特征在于,根据所述第一模糊度,确定所述当前对焦模式满足预设的对焦模式切换条件,包括:
若确定所述第一模糊度满足预设的模糊度阈值比对条件,则将所述当前对焦模式与预设的目标对焦模式进行对比;
若所述当前对焦模式不是预设的目标对焦模式,则确定所述当前对焦模式满足预设的对焦模式切换条件。
3.根据权利要求2所述的方法,其特征在于,确定所述第一模糊度满足预设的模糊度阈值比对条件,包括:
若所述第一模糊度超过预设的模糊度阈值,则确定所述第一模糊度满足预设的模糊度阈值比对条件。
4.根据权利要求2所述的方法,其特征在于,在确定所述第一图像的第一模糊度之后,还包括:
若所述第一模糊度不满足预设的模糊度阈值比对条件,则根据预设的文本识别算法,对所述第一图像进行文本识别。
5.根据权利要求2所述的方法,其特征在于,在若确定所述第一模糊度是否满足预设的模糊度阈值比对条件,则将所述当前对焦模式是否为与预设的目标对焦模式进行对比之前,还包括:
获取预先采集的样本图像集;
根据预设的模糊度确定算法,确定所述样本图像集中任一样本图像的模糊度数值;
根据所述模糊度数值和预设的模糊度阈值取值规则,确定所述模糊度阈值。
6.根据权利要求2所述的方法,其特征在于,在将所述当前对焦模式是否为与预设的目标对焦模式进行对比之后,还包括:
若确定所述当前对焦模式是所述目标对焦模式,则根据预设的文本识别算法,对所述第一图像进行文本识别。
7.根据权利要求6所述的方法,其特征在于,在确定所述当前对焦模式是所述目标对焦模式之后,还包括:
确定摄像头在所述目标对焦模式下,对所述待识别文本的当前图像采集次数;
若所述当前图像采集次数超过预设的次数阈值,则根据预设的文本识别算法,对所述第一图像进行文本识别;
若所述当前图像采集次数未超过预设的次数阈值,则确定所述当前对焦模式满足预设的对焦模式切换条件。
8.根据权利要求1所述的方法,其特征在于,所述提示信息包括语音和/或动画提醒,所述触发指令包括触屏操作。
9.根据权利要求1所述的方法,其特征在于,所述当前对焦模式为自动对焦模式,所述目标对焦模式为手动对焦模式;
相应地,响应于用户的触发指令,将所述当前对焦模式切换为目标对焦模式,采集位于所述预设的摄像头取景范围内的所述待识别文本的第二图像,包括:
响应于用户在可视化界面上对第一图像中任一坐标点进行的触屏操作,确定目标对焦位置;
将所述自动对焦模式切换为手动对焦模式,根据所述目标对焦位置,对摄像头取景范围内的待识别文本进行图像采集,得到第二图像。
10.根据权利要求9所述的方法,其特征在于,响应于用户在可视化界面上对第一图像中任一坐标点进行的触屏操作,确定目标对焦位置,包括:
根据用户在可视化界面上对第一图像中任一坐标点进行的触屏操作,确定用户指定的目标坐标位置;
根据所述第一图像中的目标坐标位置,确定所述待识别文本中的目标对焦位置。
11.根据权利要求9所述的方法,其特征在于,将所述自动对焦模式切换为手动对焦模式,根据所述目标对焦位置,对摄像头取景范围内的待识别文本进行图像采集,得到第二图像,包括:
关闭自动对焦模式,并在所述手动对焦模式下,对焦摄像头取景范围内的待识别文本的目标对焦位置,对所述待识别文本进行图像采集,得到所述第二图像。
12.根据权利要求9所述的方法,其特征在于,在将所述自动对焦模式切换为手动对焦模式之后,还包括:
若所述手动对焦模式的维持时间超过预设的时间阈值,则将所述手动对焦模式切换为所述自动对焦模式。
13.根据权利要求1所述的方法,其特征在于,在采集位于所述预设的摄像头取景范围内的所述待识别文本的第二图像之后,还包括:
确定所述第二图像的第二模糊度;
若所述第二模糊度满足预设的模糊度阈值比对条件,则确定摄像头在所述目标对焦模式下,对所述待识别文本的当前图像采集次数;
若所述当前图像采集次数未超过预设的次数阈值,则在可视化界面上显示提示信息,以引导用户在所述可视化界面上对所述第二图像发出触发指令。
14.根据权利要求1所述的方法,其特征在于,确定所述第一图像的第一模糊度,包括:
根据预设的模糊度确定算法,得到所述第一图像的第一模糊度。
15.根据权利要求14所述的方法,其特征在于,所述模糊度确定算法包括Brenner梯度函数、灰度差分函数或熵函数中的至少一项。
16.一种基于摄像头的文本识别装置,其特征在于,所述装置配置于终端设备上,所述装置包括:
第一模糊度确定模块,用于在当前对焦模式下,采集预设的摄像头取景范围内待识别文本的第一图像,并确定所述第一图像的第一模糊度;
提示信息显示模块,用于若根据所述第一模糊度,确定所述当前对焦模式满足预设的对焦模式切换条件,则在可视化界面上显示提示信息,所述提示信息用于提示用户在所述可视化界面上对所述第一图像发出触发指令;
文本识别模块,用于响应于用户的触发指令,将所述当前对焦模式切换为目标对焦模式,采集位于所述预设的摄像头取景范围内的所述待识别文本的第二图像,并对所述第二图像进行文本识别。
17.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-15中任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至15任一项所述的方法。
19.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-15中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210366298.2A CN116935391A (zh) | 2022-04-08 | 2022-04-08 | 一种基于摄像头的文本识别方法、装置、设备及存储介质 |
PCT/CN2023/083265 WO2023193607A1 (zh) | 2022-04-08 | 2023-03-23 | 一种基于摄像头的文本识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210366298.2A CN116935391A (zh) | 2022-04-08 | 2022-04-08 | 一种基于摄像头的文本识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116935391A true CN116935391A (zh) | 2023-10-24 |
Family
ID=88243982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210366298.2A Pending CN116935391A (zh) | 2022-04-08 | 2022-04-08 | 一种基于摄像头的文本识别方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116935391A (zh) |
WO (1) | WO2023193607A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104601879A (zh) * | 2014-11-29 | 2015-05-06 | 深圳市金立通信设备有限公司 | 一种对焦方法 |
CN105704378A (zh) * | 2016-02-29 | 2016-06-22 | 广东欧珀移动通信有限公司 | 控制方法、控制装置及电子装置 |
CN113132620B (zh) * | 2019-12-31 | 2022-10-11 | 华为技术有限公司 | 一种图像拍摄方法及相关装置 |
CN112822391A (zh) * | 2020-07-28 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 对焦模式的控制方法、装置、设备及计算机可读存储介质 |
CN111970437B (zh) * | 2020-08-03 | 2022-08-09 | 广东小天才科技有限公司 | 文本拍摄方法、可穿戴设备和存储介质 |
CN112312016B (zh) * | 2020-10-28 | 2022-06-10 | 维沃移动通信有限公司 | 拍摄处理方法、装置、电子设备和可读存储介质 |
-
2022
- 2022-04-08 CN CN202210366298.2A patent/CN116935391A/zh active Pending
-
2023
- 2023-03-23 WO PCT/CN2023/083265 patent/WO2023193607A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023193607A1 (zh) | 2023-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6887499B2 (ja) | セキュリティ質問生成および身元確認のための方法および装置 | |
RU2649294C2 (ru) | Способ и устройство для построения шаблона и способ и устройство для идентификации информации | |
RU2669063C2 (ru) | Способ и устройство получения изображений | |
EP3070659A1 (en) | Method, device and terminal for displaying application messages | |
CN109446961B (zh) | 姿势检测方法、装置、设备及存储介质 | |
CN106201170B (zh) | 一种应用图标的角标处理方法及终端 | |
EP3200125A1 (en) | Fingerprint template input method and device | |
EP3242203A1 (en) | Method for operating a display device and display device | |
EP3163503A1 (en) | Method and apparatus for area indentification | |
CN111095401B (zh) | 数字图像捕获会话和元数据关联 | |
US20170242832A1 (en) | Character editing method and device for screen display device | |
EP3015997A1 (en) | Method and device for facilitating selection of blocks of information | |
CN109976599A (zh) | 一种应用程序的未读消息处理方法、装置和设备 | |
CN105824422A (zh) | 一种信息处理方法及电子设备 | |
CN107943550A (zh) | 界面展示方法及装置 | |
CN111046927B (zh) | 标注数据的处理方法、装置、电子设备及存储介质 | |
US10824306B2 (en) | Presenting captured data | |
US9269146B2 (en) | Target object angle determination using multiple cameras | |
CN107977127B (zh) | 更新页面的方法、装置及终端 | |
CN114049878A (zh) | 一种基于语音识别的自动对焦方法、系统及移动终端 | |
CN112219386A (zh) | 语音响应系统的图形用户界面 | |
CN111079421B (zh) | 一种文本信息分词处理的方法、装置、终端及存储介质 | |
EP2793458A1 (en) | Apparatus and method for auto-focusing in device having camera | |
CN116935391A (zh) | 一种基于摄像头的文本识别方法、装置、设备及存储介质 | |
CN114659450B (zh) | 机器人跟随方法、装置、机器人及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |