CN113691732B - 相机自动对焦方法、装置、电子设备及存储介质 - Google Patents
相机自动对焦方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113691732B CN113691732B CN202111043925.0A CN202111043925A CN113691732B CN 113691732 B CN113691732 B CN 113691732B CN 202111043925 A CN202111043925 A CN 202111043925A CN 113691732 B CN113691732 B CN 113691732B
- Authority
- CN
- China
- Prior art keywords
- focusing
- state
- semantic
- camera
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Studio Devices (AREA)
Abstract
本申请提供的相机自动对焦方法,在相机每次对焦过程中,可以以第一对焦状态预览文档图像,进而通过自然语言处理得到该第一对焦状态对应的语义通顺程度,以该语义通顺程度控制相机进入目标对焦状态。基于本申请,能够以自然语言处理调整优化相机的对焦状态,保证相机对焦结束时的对焦状态可以拍摄到文本识别效果最佳的文档图像。
Description
技术领域
本申请涉及图像处理领域,更具体地说,涉及一种相机自动对焦方法、装置、电子设备及存储介质。
背景技术
现阶段,对于纸质的文档,人们会通过文本识别引擎来记录其中的文本。这需要提前使用相机对文档进行拍摄,将拍摄得到的图像传给文本识别引擎。
而对文档拍摄时,通常使用纯光学的方式对相机对焦,但这种方式属于局部对焦,无法保证文档的文本识别效果最好。
发明内容
有鉴于此,为解决上述问题,本申请提供一种相机自动对焦方法、装置、电子设备及存储介质,技术方案如下:
本申请一方面提供一种相机自动对焦方法,所述方法包括:
获得相机在第一对焦状态下所预览的文档图像;
对所述文档图像进行自然语言处理,得到所述第一对焦状态对应的语义通顺程度;
根据所述第一对焦状态对应的语义通顺程度,控制所述相机进入目标对焦状态。
优选的,所述对所述文档图像进行自然语言处理,得到所述第一对焦状态对应的语义通顺程度,包括:
通过文本识别确定所述文档图像在不同文本行内的文本信息;
对不同文本行内的文本信息分别进行语义纠错;
根据不同文本行的语义纠错结果确定所述第一对焦状态对应的语义通顺程度。
优选的,所述根据不同文本行的语义纠错结果确定所述第一对焦状态对应的语义通顺程度,包括:
从所述语义纠错结果中确定被纠错的文本数量;
利用所述文本数量和所述不同文本行的行数量,确定所述第一对焦状态对应的语义通顺程度。
优选的,所述根据不同文本行的语义纠错结果确定所述第一对焦状态对应的语义通顺程度,还包括:
输出不同文本行的文本信息,并确定使用者对所述文档图像所指定的目标区域;
根据不同文本行在所述目标区域内的语义纠错结果,确定所述第一对焦状态对应的语义通顺程度。
优选的,所述根据所述第一对焦状态对应的语义通顺程度,控制所述相机进入目标对焦状态,包括:
获得所述相机在第二对焦状态下的语义通顺程度,所述第二对焦状态的预览时间早于所述第一对焦状态的预览时间;
根据所述第一对焦状态和所述第二对焦状态各自对应的语义通顺程度,确定语义通顺程度随对焦次数的变化趋势;
根据所述变化趋势确定所述第一对焦状态对应的对焦调整参数,所述对焦调整参数至少包括对焦调整方向;
以所述第一对焦状态对应的对焦调整方向对所述第一对焦状态进行调整得到所述目标对焦状态,并控制所述相机进入所述目标对焦状态。
优选的,所述对焦调整参数还包括对焦调整量,所述以所述第一对焦状态对应的对焦调整方向对所述第一对焦状态进行调整得到所述目标对焦状态,包括:
从所述第二对焦状态中确定预览时间距离所述第一对焦状态的预览时间最近的目标第二对焦状态;
在所述目标第二对焦状态对应的对焦调整方向和所述第一对焦状态对应的对焦调整方向相同的情况下,以第一对焦调整量对所述第一对焦状态进行调整得到所述目标对焦状态;或者
在所述目标第二对焦状态对应的对焦调整方向和所述第一对焦状态对应的对焦调整方向不同、且所述第二对焦状态的状态数量为多个的情况下,以第二对焦调整量对所述第一对焦状态进行调整得到所述目标对焦状态,所述第二对焦调整量小于所述第一对焦调整量;或者
在所述目标第二对焦状态对应的对焦调整方向和所述第一对焦状态对应的对焦调整方向不同、且所述第二对焦状态的状态数量为一个的情况下,以第三对焦调整量对所述第一对焦状态进行调整得到所述目标对焦状态,所述第三对焦调整量大于所述第一对焦调整量。
优选的,所述根据所述第一对焦状态的语义通顺程度,控制所述相机进入目标对焦状态,还包括:
对于经所述第二对焦调整量调整所获得的所述目标对焦状态,从所述目标对焦状态和所述目标第二对焦状态中确定语义通顺程度最高的对焦状态作为所述相机的实际对焦状态。
本申请另一方面提供一种相机自动对焦装置,所述装置包括:
图像获得模块,用于获得相机在第一对焦状态下所预览的文档图像;
语言处理模块,用于对所述文档图像进行自然语言处理,得到所述第一对焦状态对应的语义通顺程度;
对焦模块,用于根据所述第一对焦状态对应的语义通顺程度,控制所述相机进入目标对焦状态。
本申请再一方面提供一种电子设备,所述电子设备包括:
存储器,用于存储应用程序及所述应用程序运行所产生的数据;
处理器,用于执行所述应用程序,以实现功能:获得相机在第一对焦状态下所预览的文档图像;对所述文档图像进行自然语言处理,得到所述第一对焦状态对应的语义通顺程度;根据所述第一对焦状态对应的语义通顺程度,控制所述相机进入目标对焦状态。
本申请又一方面提供一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行:获得相机在第一对焦状态下所预览的文档图像;对所述文档图像进行自然语言处理,得到所述第一对焦状态对应的语义通顺程度;根据所述第一对焦状态对应的语义通顺程度,控制所述相机进入目标对焦状态。
经由上述的技术方案可知,本申请提供的相机自动对焦方法,在相机每次对焦过程中,可以以第一对焦状态预览文档图像,进而通过自然语言处理得到该第一对焦状态对应的语义通顺程度,以该语义通顺程度控制相机进入目标对焦状态。基于本申请,能够以自然语言处理调整优化相机的对焦状态,保证相机对焦结束时的对焦状态可以拍摄到文本识别效果最佳的文档图像。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的电子设备的硬件结构框图;
图2为本申请实施例一提供的相机自动对焦方法的方法流程图;
图3为本申请实施例二提供的相机自动对焦方法的方法流程图;
图4为本申请实施例提供的场景示意图;
图5为本申请实施例三提供的相机自动对焦方法的方法流程图;
图6为本申请实施例四提供的相机自动对焦方法的方法流程图;
图7为本申请实施例提供的语义通顺程度变化趋势示意图;
图8为本申请实施例提供的另一语义通顺程度变化趋势示意图;
图9(a)和图9(b)分别为本申请实施例提供的再一语义通顺程度变化趋势示意图;
图10本申请实施例提供的相机自动对焦装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请提供一种相机对焦方法,该方法可以应用于电子设备,参见图1所示的电子设备的硬件结构框图,该电子设备的硬件结构可以包括:处理器11、通信接口12,存储器13和通信总线14;
在本申请实施例中,处理器11、通信接口12、存储器13、通信总线14的数量为至少一个,且处理器11、通信接口12、存储器13通过通信总线14完成相互间的通信。
处理器11可以是一个中央处理器CPU、GPU(Graphics Processing Unit,图形处理器),或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路等。
存储器13可以包括高速RAM存储器,也可以还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器。
其中,存储器13存储应用程序及应用程序运行所产生的数据,处理器11则执行应用程序,以实现功能:
获得相机在第一对焦状态下所预览的文档图像;对文档图像进行自然语言处理,得到第一对焦状态对应的语义通顺程度;根据第一对焦状态的语义通顺程度,控制相机进入目标对焦状态。
需要说明的是,处理器执行应用程序所实现功能的细化和扩展,可以参见下文描述。
本申请实施例一提供一种相机自动对焦方法,参见图2所示的方法流程图,该方法包括如下步骤:
步骤S101,获得相机在第一对焦状态下所预览的文档图像。
相机的使用者对文档具有文本识别需求时,其可以触发该相机对文档进行拍摄,而相机在对文档拍摄前会自动进行对焦。本申请实施例可以应用于相机的每次对焦过程,即由一对焦状态进入另一对焦状态,对焦结束时的对焦状态可以保证相机对文档具有最佳的文本识别效果。
具体的,在对焦的初始时刻,相机可以以默认的焦距作为其对焦状态,即每次文档拍摄时相机都会执行一次焦距的“回归”,以该默认的焦距作为首次对焦过程中第一对焦状态。此外,为减少相机的对焦时间,在对焦的初始时刻,相机则可以将上次文档拍摄所用的焦距作为其对焦状态,将该对焦状态作为首次对焦过程中的第一对焦状态。当然,对于非首次对焦过程,其对应的第一对焦状态则为上次对焦结束时所进入的目标对焦状态,这就可以保证相机对焦的连续性。
举例来说,相机在获得使用者的拍摄指令后,进入自动对焦模式。首次对焦时,相机以默认的焦距1/上次文档拍摄所用的焦距2作为第一对焦状态,以该焦距1/焦距2预览文档得到相应的文档图像,进而经后续步骤S102对该文档图像进行自然语言处理得到相应的语义通顺程度,根据该语义通顺程度确定焦距3作为首次对焦时的目标对焦状态。假设确定焦距3的文本识别效果最佳,则相机结束对焦,并以该焦距3对文档进行拍摄,而未确定焦距3的文本识别效果最佳,则相机继续对焦,并进入下一次对焦。
同理,第二次对焦时,相机以该焦距3作为第一对焦状态预览文档得到相应的文档图像,进而经后续步骤S102对该文档图像进行自然语言处理得到相应的语义通顺程度,根据该语义通顺程度确定焦距4作为第二对焦时的目标对焦状态。假设确定焦距4的文本识别效果最佳,则相机结束对焦,并以该焦距4对文档进行拍摄,而未确定焦距4的文本识别效果最佳,则相机继续对焦,并进入下一次对焦。……
需要说明的是,相机以某一对焦状态的焦距预览文档时,其是通过前后移动镜头来进入该焦距的,定义镜头的前向移动为正向、后向移动则为反向,还可以定义镜头的后向移动为正向、前向移动则为反向,因此由第一对焦状态切换为目标对焦状态包括正向和反向两种对焦调整方向。对此,每次对焦过程中,其目标对焦状态的焦距可能小于其第一对焦状态的焦距、还可能大于其第一对焦状态的焦距。假设上述首次对焦时的对焦调整方向为正向,即焦距3大于焦距1/焦距2;若第二次对焦时的对焦调整方向仍为正向,则焦距4大于焦距3,反之,若二次对焦时的对焦调整方向为反向,则焦距4小于焦距3、但焦距4与焦距1/焦距2的大小关系不限定。
步骤S102,对文档图像进行自然语言处理,得到第一对焦状态对应的语义通顺程度。
本申请实施例中,对于本次对焦过程中第一对焦状态下文档预览所获得的文档图像,使用人工智能中的自然语言处理(NLP,Natural Language Processing)对文档图像进行检测,得到该文档图像的语义通顺程度,以此作为第一对焦状态对应的语义通顺程度。该语义通顺程度能够表示本次对焦过程中文档图像全局的文本识别效果,其与文本识别效果成正比,即语义通顺程度越大、文本识别效果越好。
并且,由于相机对焦过程对于速度需求较高,因此常需要辅助硬件进行硬件加速。当前的主流方案是将图像相关的算法使用专用处理器ISP(图像信号处理器,Image SignalProcessor)进行图像处理。并且,目前自然语言处理的主流技术是基于深度学习的方案,也需要专有的处理器进行加速,本申请实施例可以ISP中提供NPU(嵌入式神经网络处理器)的硬件实现,提供如卷积神经网络、循环神经网络结构的主要功能,自然语言处理可基于NPU的相关接口进行实现。
步骤S103,根据第一对焦状态对应的语义通顺程度,控制相机进入目标对焦状态。
本申请实施例中,相机进入自动对焦模式经过多次对焦,每次对焦均有相应的第一对焦状态。对于本次对焦过程中第一对焦状态对应的语义通顺程度,通过与上次对焦过程中第一对焦状态对应的语义通顺程度进行对比来确定本次对焦时的对焦调整方向,以该对焦调整方向对本次对焦过程中的第一对焦状态进行调整,从而确定本次对焦过程中目标对焦状态。直到确定本次对焦过程中第一对焦状态对应的语义通顺程度为全局最大,则相机结束对焦,以该第一对焦状态对文档进行拍摄。
举例来说,假设本次对焦为第二次对焦、且本次对焦过程中以焦距3作为第一对焦状态,在获得焦距3对应的语义通顺程度后,调取第一次对焦过程中焦距1/焦距2对应的语义通顺程度。如果焦距3对应的语义通顺程度大于焦距1/焦距2对应的语义通顺程度,则将第一次对焦时的对焦调整方向作为本次对焦时的对焦调整方向,假设第一次对焦时的对焦调整方向为正向,则正向调整焦距3得到焦距4,焦距4为第二次对焦时的目标对焦状态,焦距4大于焦距3。
反之,如果焦距3对应的语义通顺程度小于焦距1/焦距2对应的语义通顺程度,则将第一次对焦时的对焦调整方向的反向作为本次对焦时的对焦调整方向,假设第一次对焦时的对焦调整方向为正向,则反向调整焦距3得到焦距4,焦距4为第二次对焦时的目标对焦状态,焦距4小于焦距3。
本申请实施例中,相机每次对焦过程中,可以以其第一对焦状态预览文档图像,进而通过自然语言处理得到该第一对焦状态对应的语义通顺程度,以该语义通顺程度控制相机进入目标对焦状态。基于本申请,能够以自然语言处理调整优化相机的对焦状态,保证相机对焦结束时的对焦状态可以拍摄到文本识别效果最佳的文档图像。
本申请实施例二提供一种相机自动对焦方法,参见图3所示的方法流程图,该方法包括如下步骤:
步骤S201,获得相机在第一对焦状态下所预览的文档图像。
步骤S202,通过文本识别确定文档图像在不同文本行内的文本信息。
本申请实施例中,对于本次对焦过程中第一对焦状态下文档预览所获得的文档图像,通过ISP可以对该文档图像进行图像预处理,包括偏色矫正、白平衡、去噪、Gamma矫正和YUV空间转换,进一步,在NPU中搭建文本检测模型、文本识别模型和文本纠错模型,其中,文本检测模型使用由卷积神经网络组成的主干网络(resnet50)+语义分割(像素点分类)的模型结构,文本识别模型使用由循环神经网络组成的主干网络(resnet18+LSTM)+解码网络(CTC)的模型结构,文本纠错模型则使用两层LSTM的网络结构。
此外,文本检测模型使用文本行的语义分割进行图像标注来训练,输入为整幅文档图像、输出为每个像素是否为文本区域的分类结果;文本识别模型使用文本内容编码进行图像标注来训练,输入为每行文本(即文本行)的图像,输出为文本信息;文本纠错模型使用每个文字是否正确对文本信息进行图像标注来训练,输入为每个文本行的文本信息、输出为文本信息中每个文字正确或错误的标识。而“文本纠错”即对每个文本行进行语义纠错,纠错的结果是发现错误的文字和不通顺的句子,使用个数标记。
由此,本申请实施例中可以通过文本检测模型和文本识别模型依次对文档图像进行处理,由文本检测模型识别文档图像中的多个文本行、由文本识别模型识别出每个文本行内的文本信息。
步骤S203,对不同文本行内的文本信息分别进行语义纠错。
本申请实施例中,对于本次对焦过程中第一对焦状态对应的文档图像,通过文本纠错模型可以识别出该文档图像每个文本行中语义错误的文字的个数。
步骤S204,根据不同文本行的语义纠错结果确定第一对焦状态对应的语义通顺程度。
本申请实施例中,经由步骤S203可以获得文档图像每个文本行中语义错误的文字的个数,因此可以通过各文本行中语义错误的文字的数量来确定文档图像的语义通顺程度。
对于本次对焦过程中第一对焦状态对应的文档图像,经过文本检测模型、文本识别模型和文本纠错模型可以确定该文档图像中包含N个文本行,第i个文本行中文字的数量为Ci、其中语义错误的文字的数量为Wi,则文档图像的语义通顺程度为:
当然,对于一个文档,可以根据其中文本信息的重要程度对不同文本行设置权重,进一步考虑各文本行的权重、以及各文本行中语义错误的文字的数量来确定文档图像的语义通顺程度。由此,文档图像的语义通顺程度为:
其中,αi为0~1范围内的数值,且文本行中文本信息的重要程度与其权重成正比。
在此基础上,本申请实施例还可以进一步与使用者交互,从而以使用者的关注区域为重点来计算语义通顺程度,以此满足使用者不同的不同需求,保证其关注区域的文本识别效果。具体的:
输出不同文本行的文本信息,并确定使用者对文档图像所指定的目标区域;根据不同文本行在目标区域内的语义纠错结果,确定第一对焦状态对应的语义通顺程度。
参见图4所示的场景示意图,左侧为文本检测模型所输出的文档图像中的多个文本行,右侧为文本识别模型所输出的每个文本行的文本信息。可以将图3中每个文本行的文本信息输出至显示器进行显示,使用者基于此可以指定其关注区域,即目标区域,该目标区域由至少一个文本行组成。进一步,以该目标区域对应的至少一个文本行的语义纠错结果来确定文档图像的语义通顺程度。需要说明的是,目标区域的语义通顺程度的计算方式可以参见上述文档图像的语义通顺程度的计算,在此不再赘述。
还需要说明的是,相机进入自动对焦模式后会经过多次对焦,相机与使用者的交互可以在某次对焦过程中,即无需相机每次对焦都与使用者交互。比如,可以在相机首次对焦时即与使用者交互,以保证语义通顺程度计算的精准性。
步骤S205,根据第一对焦状态对应的语义通顺程度,控制相机进入目标对焦状态。
本申请实施例中,相机每次对焦过程中,通过文本识别和语义纠错可以获得预览所获得的文档图像的语义通顺程度,以此作为其第一对焦状态对应的语义通顺程度。通过将NLP的语义通顺程度作为对焦依据,能够使得文档拍摄后整体文本的识别率更高,保证文本识别效果最佳。
本申请实施例三提供一种相机自动对焦方法,参见图5所示的方法流程图,该方法包括如下步骤:
步骤S301,获得相机在第一对焦状态下所预览的文档图像。
步骤S302,通过文本识别确定文档图像在不同文本行内的文本信息。
步骤S303,对不同文本行内的文本信息分别进行语义纠错。
步骤S304,从语义纠错结果中确定被纠错的文本数量。
步骤S305,利用文本数量和不同文本行的行数量,确定第一对焦状态对应的语义通顺程度。
本申请实施例中,在保证文本识别效果最佳的前提下,为尽可能提高文本识别引擎的文本识别区域,可以利用被纠错的文本数量和文档图像中文本行的数量(即行数量)来确定文档图像的语义通顺程度:
其中,T为单个文本行的面积,A为文档图像的面积。
步骤S306,根据第一对焦状态对应的语义通顺程度,控制相机进入目标对焦状态。
本申请实施例中,使用全部文本行的面积与文档图像的面积作为语义通顺程度的计算系数,以此获得的语义通顺程度作为对焦依据,就可以在保证文本识别率的前提下,能够尽可能的检测出更多文本,进一步提升文本识别效果。
本申请实施例四提供一种相机自动对焦方法,参见图6所示的方法流程图,该方法包括如下步骤:
步骤S401,获得相机在第一对焦状态下所预览的文档图像。
步骤S402,对文档图像进行自然语言处理,得到第一对焦状态对应的语义通顺程度。
步骤S403,获得相机在第二对焦状态下的语义通顺程度,第二对焦状态的预览时间早于第一对焦状态的预览时间。
本申请实施例中,相机进入自动对焦模式经过多次对焦,每次对焦均有相应的第一对焦状态。在本次对焦之前的多次历史对焦过程中均具有相应的第一对焦状态,其为预览时间早于本次对焦过程中第一对焦状态的预览时间。将多次历史对焦过程中各第一对焦状态记为第二对焦状态,与本次对焦过程中的第一对焦状态进行对比。
步骤S404,根据第一对焦状态和第二对焦状态各自对应的语义通顺程度,确定语义通顺程度随对焦次数的变化趋势。
本申请实施例中,假设本次对焦为第n次对焦,相机第1次对焦~第n-1次对焦过程中各第一对焦状态即第二对焦状态。假设,n-1个第二对焦状态对应的语义通顺程度分别为θ1~θn-1、本次对焦过程中第一对焦状态对应的语义通顺程度为θn。
因此,按照不同对焦次数对应的语义通顺程度,绘制以对焦次数为横轴、语义通顺程度为纵轴的坐标系,在该坐标系中分别标记每次对焦的坐标点。参见图7所示的语义通顺程度变化趋势示意图,相机n次对焦对应的语义通顺程度依次递增,即θ1<θ2<…<θn-1<θn。
步骤S405,根据变化趋势确定第一对焦状态对应的对焦调整参数,对焦调整参数至少包括对焦调整方向。
本申请实施例中,继续参见图7,假设本次对焦为第n次对焦,n次对焦的语义通顺程度呈递增趋势,因此本次对焦对应的对焦调整方向与第n-1次对焦的对焦调整方向相同,即继续保持镜头的移动方向,假设第n-1次对焦的对焦调整方向为正向,则本次对焦的对焦调整方向也为正向。
参见图8所示的语义通顺程度变化趋势示意图,假设本次对焦为第n次对焦,相机n-1次对焦对应的语义通顺程度依次递增、而第n次对焦对应的语义通顺程度小于第n-1次对焦对应的语义通顺程度,即θ1<θ2<…<θn-1且θn-1>θn。此时,可以确定n次对焦的语义通顺程度呈递增—递减趋势,因此本次对焦对应的对焦调整方向与第n-1次对焦的对焦调整方向相反,假设第n-1次对焦的对焦调整方向为正向,则本次对焦的对焦调整方向为反向,反向移动镜头得到本次对焦对应的目标对焦状态,以该目标对焦状态作为第n+1次对焦过程中的第一对焦状态进入第n+1次对焦,此时本次对焦为第n+1次对焦。
进一步,通过自然语言处理获得本次对焦的语义通顺程度,与第n-1次对焦的语义通顺程度进行对比:如果本次对焦的语义通顺程度大于等于第n-1次对焦的语义通顺程度,则相机结束对焦,以本次对焦的第一对焦状态对文档进行拍摄;如果本次对焦的语义通顺程度较小,则继续反向移动镜头得到本次对焦对应的目标对焦状态,以该目标对焦状态作为第n+2次对焦过程中的第一对焦状态进入第n+2次对焦,此时本次对焦为第n+2次对焦,继续通过自然语言处理获得本次对焦的语义通顺程度、与第n-1次对焦的语义通顺程度进行对比,直到大于等于第n-1次对焦的语义通顺程度时相机结束对焦。
参见图9所示的语义通顺程度变化趋势示意图,假设本次对焦为第2次对焦,本次对焦的语义通顺程度小于第1次对焦对应的语义通顺程度,即θ1>θ2。此时,可以确定两次对焦的语义通顺程度呈递减趋势,因此本次对焦对应的对焦调整方向与第1次对焦的对焦调整方向相反,假设第1次对焦对应的对焦调整方向为正向,则本次对焦的对焦调整方向为反向,反向移动镜头得到本次对焦对应的目标对焦状态,以该目标对焦状态作为第3次对焦过程中的第一对焦状态进入第3次对焦,此时本次对焦为第3次对焦。
进一步,通过自然语言处理获得本次对焦的语义通顺程度,与第2次对焦的语义通顺程度相比必定满足θ3>θ2,此时继续反向移动镜头得到本次对焦对应的目标对焦状态,以该目标对焦状态作为第4次对焦过程中的第一对焦状态进入第4次对焦,此时本次对焦为第4次对焦。
通过自然语言处理获得本次对焦的语义通顺程度,与第3次对焦的语义通顺程度进行对比:参见图9(a),如果θ4>θ3,此时可以继续反向移动镜头得到本次对焦对应的目标对焦状态,以该目标对焦状态作为第5次对焦过程中的第一对焦状态进入第5次对焦,此时本次对焦为第5次对焦。后续可以忽略第1次对焦,将第2次对焦的时刻作为对焦的初始时刻,即以第2次对焦作为递增趋势开始的第1次对焦、以第3次对焦作为递增趋势开始的第2次对焦……,基于上述图7和图8对应的对焦方案进行对焦,在此不再赘述。
参见图9(b),如果θ4<θ3,此时可以进一步对比第3次对焦的语义通顺程度和第1次对焦的语义通顺程度,从中选择语义通顺程度最大的一个对焦状态作为本次对焦的目标对焦状态,相机结束对焦,以本次对焦的目标对焦状态对文档进行拍摄。
步骤S406,以第一对焦状态对应的对焦调整方向对第一对焦状态进行调整得到目标对焦状态,并控制相机进入目标对焦状态。
本申请实施例中,相机每次对焦过程中,根据以往对焦的语义通顺程度来确定不同对焦状态下语义通顺程度的变化趋势,从而根据该变化趋势确定对焦调整方向,这就可以快速定位到语义通顺程度最大的对焦状态,从而结束对焦并以该对焦状态的焦距拍摄文档。
本申请实施例五提供一种相机自动对焦方法,在图6所示的相机对焦方法的基础上,对焦调整参数还包括对焦调整量,相应的,步骤S406中“以第一对焦状态对应的对焦调整方向对第一对焦状态进行调整得到目标对焦状态”可以采用如下步骤:
从第二对焦状态中确定预览时间距离第一对焦状态的预览时间最近的目标第二对焦状态;
在目标第二对焦状态对应的对焦调整方向和第一对焦状态对应的对焦调整方向相同的情况下,以第一对焦调整量对第一对焦状态进行调整得到目标对焦状态;或者
在目标第二对焦状态对应的对焦调整方向和第一对焦状态对应的对焦调整方向不同、且第二对焦状态的状态数量为多个的情况下,以第二对焦调整量对第一对焦状态进行调整得到目标对焦状态,第二对焦调整量小于第一对焦调整量;或者
在目标第二对焦状态对应的对焦调整方向和第一对焦状态对应的对焦调整方向不同、且第二对焦状态的状态数量为一个的情况下,以第三对焦调整量对第一对焦状态进行调整得到目标对焦状态,第三对焦调整量大于第一对焦调整量。
本申请实施例中,对于本次对焦过程中的第一对焦状态,预览时间距离其最近的目标第二对焦状态即上一次对焦过程中的第一对焦状态。
1)在本次对焦过程中,如果第一对焦状态对应的对焦调整方向与目标第二对焦状态对应的对焦调整方向相同,说明此时语义通顺程度递增,继续参见图7所示的语义通顺程度变化趋势示意图,在本次对焦的对焦调整方向下、按照第一对焦调整量对本次对焦的第一对焦状态进行调整,该第一对焦调整量为正值。
2)在本次对焦过程中,如果第一对焦状态对应的对焦调整方向与目标第二对焦状态对应的对焦调整方向不同,说明此时语义通顺程度递减,进一步如果第二对焦状态的数量为多个,继续参见图8所示的语义通顺程度变化趋势示意图,在本次对焦的对焦调整方向下、按照第二对焦调整量对本次对焦的第一对焦状态进行调整,该第二对焦调整量为正值、且该第二对焦调整量小于第一对焦调整量。
继续假设本次对焦为第n次对焦,θ1<θ2<…<θn-1且θn-1>θn,由于第n-1次对焦到第n次对焦其对焦调整量为第一对焦调整量,此时以相反的对焦调整方向调整第二对焦调整量,由此可以确定本次对焦的目标对焦状态处于第n-1次对焦的第一对焦状态与本次对焦的第一对焦状态之间,也就是第n+1次对焦的焦距处于第n次对焦的焦距与第n-1次对焦的焦距之间。由此,进入第n+1次对焦后,此时本次对焦为第n+1次对焦,通过自然语言处理获得本次对焦的语义通顺程度后,与第n次对焦的语义通顺程度相比必定满足θn+1>θn,进一步,通过对比本次对焦的语义通顺程度与第n-1次对焦的语义通顺程度,从中选择一个语义通顺程度最高的对焦状态作为相机拍摄时的实际对焦状态。具体的:
如果θn+1>θn-1,则相机结束对焦,以本次对焦的第一对焦状态对文档进行拍摄;如果θn+1<θn-1,将第n-1次对焦的第一对焦状态作为本次对焦的目标对焦状态,相机结束对焦,以本次对焦的目标对焦状态对文档进行拍摄。
3)在本次对焦过程中,如果第一对焦状态对应的对焦调整方向与目标第二对焦状态对应的对焦调整方向不同,说明此时语义通顺程度递减,进一步如果第二对焦状态的数量为一个,说明本次对焦为第2次对焦,继续参见图9(a)或者图9(b),在本次对焦的对焦调整方向下、按照第三对焦调整量对本次对焦的第一对焦状态进行调整,该第三对焦调整量为正值、且该第三对焦调整量大于第一对焦调整量。
也就是说,本次对焦的目标对焦状态大于第1次对焦的第一对焦状态,即第3次对焦的焦距大于第1次对焦的焦距。由此,进入第3次对焦后,此时本次对焦为第3次对焦,通过自然语言处理获得本次对焦的语义通顺程度后,与第2次对焦的语义通顺程度相比必定满足θ3>θ2,进一步,对本次对焦的语义通顺程度与第1次对焦的语义通顺程度进行对比,具体的:
如果θ3>θ1,在本次对焦的对焦调整方向下、按照第一对焦调整量对本次对焦的第一对焦状态进行调整;如果θ3<θ1,则将第1次对焦的第一对焦状态作为本次对焦的目标对焦状态,相机结束对焦,以本次对焦的目标对焦状态对文档进行拍摄;
本申请实施例中,相机每次对焦过程中,按照上次对焦的对焦调整方向和以往对焦的次数来确定本次对焦的对焦调整量,在快速对焦的基础上还可以进一步精准调整对焦状态,提升对焦效率,保证文本识别效果最佳。
与上述相机自动对焦方法对应的,本申请还公开了一种相机自动对焦装置,如图10所示,该相机自动对焦装置包括:
图像获得模块10,用于获得相机在第一对焦状态下所预览的文档图像;
语言处理模块20,用于对文档图像进行自然语言处理,得到第一对焦状态对应的语义通顺程度;
对焦模块30,用于根据第一对焦状态对应的语义通顺程度,控制相机进入目标对焦状态。
在本申请公开的相机自动对焦装置的另一个实施例中,语言处理模块20对文档图像进行自然语言处理,得到第一对焦状态对应的语义通顺程度的过程,包括:
通过文本识别确定文档图像在不同文本行内的文本信息;对不同文本行内的文本信息分别进行语义纠错;根据不同文本行的语义纠错结果确定第一对焦状态对应的语义通顺程度。
在本申请公开的相机自动对焦装置的再一个实施例中,语言处理模块20根据不同文本行的语义纠错结果确定第一对焦状态对应的语义通顺程度的过程,包括:
从语义纠错结果中确定被纠错的文本数量;利用文本数量和不同文本行的行数量,确定第一对焦状态对应的语义通顺程度。
在本申请公开的相机自动对焦装置的又一个实施例中,语言处理模块20根据不同文本行的语义纠错结果确定第一对焦状态对应的语义通顺程度的过程,还包括:
输出不同文本行的文本信息,并确定使用者对文档图像所指定的目标区域;根据不同文本行在目标区域内的语义纠错结果,确定第一对焦状态对应的语义通顺程度。
在本申请公开的相机自动对焦装置的又一个实施例中,对焦模块30根据第一对焦状态对应的语义通顺程度,控制相机进入目标对焦状态的过程,包括:
获得相机在第二对焦状态下的语义通顺程度,第二对焦状态的预览时间早于第一对焦状态的预览时间;根据第一对焦状态和第二对焦状态各自对应的语义通顺程度,确定语义通顺程度随对焦次数的变化趋势;根据变化趋势确定第一对焦状态对应的对焦调整参数,对焦调整参数至少包括对焦调整方向;以第一对焦状态对应的对焦调整方向对第一对焦状态进行调整得到目标对焦状态,并控制相机进入目标对焦状态。
在本申请公开的相机自动对焦装置的又一个实施例中,对焦调整参数还包括对焦调整量,对焦模块30以第一对焦状态对应的对焦调整方向对第一对焦状态进行调整得到目标对焦状态的过程,包括:
从第二对焦状态中确定预览时间距离第一对焦状态的预览时间最近的目标第二对焦状态;
在目标第二对焦状态对应的对焦调整方向和第一对焦状态对应的对焦调整方向相同的情况下,以第一对焦调整量对第一对焦状态进行调整得到目标对焦状态;或者
在目标第二对焦状态对应的对焦调整方向和第一对焦状态对应的对焦调整方向不同、且第二对焦状态的状态数量为多个的情况下,以第二对焦调整量对第一对焦状态进行调整得到目标对焦状态,第二对焦调整量小于第一对焦调整量;或者
在目标第二对焦状态对应的对焦调整方向和第一对焦状态对应的对焦调整方向不同、且第二对焦状态的状态数量为一个的情况下,以第三对焦调整量对第一对焦状态进行调整得到目标对焦状态,第三对焦调整量大于第一对焦调整量。
在本申请公开的相机自动对焦装置的又一个实施例中,对焦模块30根据第一对焦状态的语义通顺程度,控制相机进入目标对焦状态的过程,还包括:
对于经第二对焦调整量调整所获得的目标对焦状态,从目标对焦状态和目标第二对焦状态中确定语义通顺程度最高的对焦状态作为相机的实际对焦状态。
本申请实施例中各模块的细化功能可以参见上述相机自动对焦方法实施例对应公开部分,在此不再赘述。
与上述相机自动对焦方法对应的,本申请还公开了一种存储介质,存储介质中存储有计算机可执行指令,计算机可执行指令用于执行相机自动对焦方法。
以上对本申请所提供的一种相机自动对焦方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种相机自动对焦方法,所述方法包括:
获得相机在第一对焦状态下所预览的文档图像;
对所述文档图像进行自然语言处理,得到所述第一对焦状态对应的语义通顺程度;
根据所述第一对焦状态对应的语义通顺程度,控制所述相机进入目标对焦状态。
2.根据权利要求1所述的方法,所述对所述文档图像进行自然语言处理,得到所述第一对焦状态对应的语义通顺程度,包括:
通过文本识别确定所述文档图像在不同文本行内的文本信息;
对不同文本行内的文本信息分别进行语义纠错;
根据不同文本行的语义纠错结果确定所述第一对焦状态对应的语义通顺程度。
3.根据权利要求2所述的方法,所述根据不同文本行的语义纠错结果确定所述第一对焦状态对应的语义通顺程度,包括:
从所述语义纠错结果中确定被纠错的文本数量;
利用所述文本数量和所述不同文本行的行数量,确定所述第一对焦状态对应的语义通顺程度。
4.根据权利要求2所述的方法,所述根据不同文本行的语义纠错结果确定所述第一对焦状态对应的语义通顺程度,还包括:
输出不同文本行的文本信息,并确定使用者对所述文档图像所指定的目标区域;
根据不同文本行在所述目标区域内的语义纠错结果,确定所述第一对焦状态对应的语义通顺程度。
5.根据权利要求1所述的方法,所述根据所述第一对焦状态对应的语义通顺程度,控制所述相机进入目标对焦状态,包括:
获得所述相机在第二对焦状态下的语义通顺程度,所述第二对焦状态的预览时间早于所述第一对焦状态的预览时间;
根据所述第一对焦状态和所述第二对焦状态各自对应的语义通顺程度,确定语义通顺程度随对焦次数的变化趋势;
根据所述变化趋势确定所述第一对焦状态对应的对焦调整参数,所述对焦调整参数至少包括对焦调整方向;
以所述第一对焦状态对应的对焦调整方向对所述第一对焦状态进行调整得到所述目标对焦状态,并控制所述相机进入所述目标对焦状态。
6.根据权利要求5所述的方法,所述对焦调整参数还包括对焦调整量,所述以所述第一对焦状态对应的对焦调整方向对所述第一对焦状态进行调整得到所述目标对焦状态,包括:
从所述第二对焦状态中确定预览时间距离所述第一对焦状态的预览时间最近的目标第二对焦状态;
在所述目标第二对焦状态对应的对焦调整方向和所述第一对焦状态对应的对焦调整方向相同的情况下,以第一对焦调整量对所述第一对焦状态进行调整得到所述目标对焦状态;或者
在所述目标第二对焦状态对应的对焦调整方向和所述第一对焦状态对应的对焦调整方向不同、且所述第二对焦状态的状态数量为多个的情况下,以第二对焦调整量对所述第一对焦状态进行调整得到所述目标对焦状态,所述第二对焦调整量小于所述第一对焦调整量;或者
在所述目标第二对焦状态对应的对焦调整方向和所述第一对焦状态对应的对焦调整方向不同、且所述第二对焦状态的状态数量为一个的情况下,以第三对焦调整量对所述第一对焦状态进行调整得到所述目标对焦状态,所述第三对焦调整量大于所述第一对焦调整量。
7.根据权利要求6所述的方法,所述根据所述第一对焦状态的语义通顺程度,控制所述相机进入目标对焦状态,还包括:
对于经所述第二对焦调整量调整所获得的所述目标对焦状态,从所述目标对焦状态和所述目标第二对焦状态中确定语义通顺程度最高的对焦状态作为所述相机的实际对焦状态。
8.一种相机自动对焦装置,所述装置包括:
图像获得模块,用于获得相机在第一对焦状态下所预览的文档图像;
语言处理模块,用于对所述文档图像进行自然语言处理,得到所述第一对焦状态对应的语义通顺程度;
对焦模块,用于根据所述第一对焦状态对应的语义通顺程度,控制所述相机进入目标对焦状态。
9.一种电子设备,所述电子设备包括:
存储器,用于存储应用程序及所述应用程序运行所产生的数据;
处理器,用于执行所述应用程序,以实现功能:获得相机在第一对焦状态下所预览的文档图像;对所述文档图像进行自然语言处理,得到所述第一对焦状态对应的语义通顺程度;根据所述第一对焦状态对应的语义通顺程度,控制所述相机进入目标对焦状态。
10.一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行:获得相机在第一对焦状态下所预览的文档图像;对所述文档图像进行自然语言处理,得到所述第一对焦状态对应的语义通顺程度;根据所述第一对焦状态对应的语义通顺程度,控制所述相机进入目标对焦状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111043925.0A CN113691732B (zh) | 2021-09-07 | 2021-09-07 | 相机自动对焦方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111043925.0A CN113691732B (zh) | 2021-09-07 | 2021-09-07 | 相机自动对焦方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113691732A CN113691732A (zh) | 2021-11-23 |
CN113691732B true CN113691732B (zh) | 2022-11-22 |
Family
ID=78585545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111043925.0A Active CN113691732B (zh) | 2021-09-07 | 2021-09-07 | 相机自动对焦方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113691732B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629984A (zh) * | 2011-02-02 | 2012-08-08 | 佳能株式会社 | 摄像设备及其控制方法 |
CN103327245A (zh) * | 2013-06-07 | 2013-09-25 | 电子科技大学 | 一种红外成像系统的自动对焦方法 |
CN111144402A (zh) * | 2019-11-27 | 2020-05-12 | 深圳壹账通智能科技有限公司 | Ocr识别准确率的计算方法、装置、设备以及存储介质 |
CN112329433A (zh) * | 2020-11-10 | 2021-02-05 | 平安科技(深圳)有限公司 | 文本通顺度检测方法、装置、设备及计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3728241B2 (ja) * | 2001-12-20 | 2005-12-21 | キヤノン株式会社 | 焦点調節装置、撮像装置、合焦方法、プログラム、及び記憶媒体 |
CN107977648B (zh) * | 2017-12-20 | 2020-05-12 | 武汉大学 | 一种基于人脸识别的身份证清晰度的判别方法和系统 |
-
2021
- 2021-09-07 CN CN202111043925.0A patent/CN113691732B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629984A (zh) * | 2011-02-02 | 2012-08-08 | 佳能株式会社 | 摄像设备及其控制方法 |
CN103327245A (zh) * | 2013-06-07 | 2013-09-25 | 电子科技大学 | 一种红外成像系统的自动对焦方法 |
CN111144402A (zh) * | 2019-11-27 | 2020-05-12 | 深圳壹账通智能科技有限公司 | Ocr识别准确率的计算方法、装置、设备以及存储介质 |
CN112329433A (zh) * | 2020-11-10 | 2021-02-05 | 平安科技(深圳)有限公司 | 文本通顺度检测方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113691732A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10872420B2 (en) | Electronic device and method for automatic human segmentation in image | |
KR102385463B1 (ko) | 얼굴 특징 추출 모델 학습 방법, 얼굴 특징 추출 방법, 장치, 디바이스 및 저장 매체 | |
US11410038B2 (en) | Frame selection based on a trained neural network | |
US11100341B2 (en) | Lane line tracking method and device | |
JP2011134114A (ja) | パターン認識方法およびパターン認識装置 | |
EP3234865B1 (en) | Techniques for providing user image capture feedback for improved machine language translation | |
EP2813972A1 (en) | Program for reading characters, and character reader as well as method for reading characters | |
CN111783767B (zh) | 文字识别方法、装置、电子设备及存储介质 | |
CN108765532B (zh) | 儿童绘本模型建立方法、阅读机器人及存储设备 | |
JP2010165046A (ja) | 情報処理装置及び情報処理方法 | |
US8125560B1 (en) | System for topology based automatic focus | |
CN114390201A (zh) | 对焦方法及其装置 | |
CN110795918B (zh) | 确定阅读位置的方法、装置及设备 | |
CN113691732B (zh) | 相机自动对焦方法、装置、电子设备及存储介质 | |
CN108259767B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN117544832A (zh) | 用于生成视频的方法、装置、设备和介质 | |
JP2014085814A (ja) | 情報処理装置及びその制御方法、プログラム | |
CN113255645B (zh) | 一种文本行图片的解码方法、装置和设备 | |
CN115797948A (zh) | 一种文字识别方法、装置及设备 | |
CN112348024B (zh) | 一种基于深度学习优化网络的图文识别方法及系统 | |
GB2611379A (en) | Focus detection method, apparatus, and electronic device | |
JP2023113444A (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN110147538B (zh) | 图片集描述生成方法、装置和计算机设备 | |
WO2020166786A1 (en) | Method and apparatus for converting input content | |
CN113361568A (zh) | 目标识别方法、装置和电子系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |