CN117336605A

CN117336605A - 辅助对焦方法、装置、计算机设备及其存储介质

Info

Publication number: CN117336605A
Application number: CN202311233160.6A
Authority: CN
Inventors: 周恒�; 孙立
Original assignee: Shenzhen Weixun Technology Co ltd
Current assignee: Shenzhen Weixun Technology Co ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2024-01-02

Abstract

本发明涉及一种辅助对焦方法、装置、计算机设备及其存储介质，通过获取实时输入的视频图像数据；实时的将视频图像数据输入至预设的表征模型中，所述表征模型依照时间序列逐帧识别视频图像数据的最高表征值；识别最新输入的第一图像帧的第一表征值，并判断第一表征值与最高表征值是否相等；若是，则判定第一表征值对应的第一图像帧的图像为当前最清晰图像集成了实时输入、模型处理、评估和判断功能，有效利用了长短期记忆模型和相似度算法，提升了对焦的精度、效率和图像质量，同时减少了手动操作，缩短了处理时间，提高了系统的工作效率。

Description

辅助对焦方法、装置、计算机设备及其存储介质

技术领域

本发明涉及图像处理的技术领域，特别涉及一种辅助对焦方法、装置、计算机设备及其存储介质。

背景技术

在图像评估或采集系统中，手动调整镜头焦距以获得最佳图像效果是一项指标。然而，由于图像编码和传输存在延迟，这使得在PC端获取图像后需要反复调节镜头的焦距，特别是在准焦附近，这非常耗时。在实际的评估或采集过程中，每次测试或采集新的场景都需要重新进行焦距调整，由此导致的低效对焦显著降低了图像评估或采集系统的工作效率。如若未能准确对焦，采集的图像质量将会受损，可能需要反复进行甚至产品复工。此外，延迟问题使操作人员无法获取实时图像，导致在准焦附近需要反复调整镜头。另一挑战是，在最高清晰度附近，人眼往往难以识别图像的清晰度，导致无法准确的判断所获取到的图像是否为最准确的。

发明内容

本发明的主要目的为提供一种辅助对焦方法、装置、计算机设备及其存储介质，集成了实时输入、模型处理、评估和判断功能，有效利用了长短期记忆模型和相似度算法，提升了对焦的精度、效率和图像质量，同时减少了手动操作，缩短了处理时间，提高了系统的工作效率。

为实现上述目的，本发明提供了一种辅助对焦方法，包括以下步骤：

获取实时输入的视频图像数据；

实时的将视频图像数据输入至预设的表征模型中，所述表征模型依照时间序列逐帧识别视频图像数据的最高表征值；

识别最新输入的第一图像帧的第一表征值，并判断第一表征值与最高表征值是否相等；

若是，则判定第一表征值对应的第一图像帧的图像为当前最清晰图像。

进一步地，识别最新输入的第一图像帧的第一表征值，并判断第一表征值与最高表征值是否相等的步骤之后，包括：

若第一表征值小于最高表征值，则生成对焦信号；

通过所述对焦信号指示表征模型进行处理，由表征模型生成线性提升数据，并将所述线性提升数据发送至图像采集单元，所述图像采集单元为采集视频图像数据的单元，由线性提升数据对图像采集单元进行表征值线性提高的辅助对焦调整过程。

进一步地，识别最新输入的第一图像帧的第一表征值，并判断第一表征值与最高表征值是否相等的步骤之后，还包括：

若第一表征值大于最高表征值，则将最高表征值替换成第一表征值，并指示所述第一表征值为当前最高表征值。

进一步地，获取实时输入的视频图像数据的步骤，包括：

基于预设的监听规则，监听实时采集所述视频图像数据的图像采集单元是否符合监听规则，所述监听规则包括但不限于是镜头晃动；

若是，则生成瞬时采集信号，以通过所述瞬时采集信号指示图像采集单元进行图像采集过程。

进一步地，获取实时输入的视频图像数据的步骤之后，包括：

对视频图像数据进行sharpen的图像增强处理。

进一步地，所述表征模型依照时间序列逐帧识别视频图像数据的最高表征值的步骤，包括：

按照所述视频图像数据输入至表征模型的前后时间序列，生成帧识别因子；

采用帧识别因子对视频图像数据的每一帧图像进行标识；

对标识有帧识别因子的图像与预设表征母版进行相似度计算，生成若干表征值；

标定若干表征值中相似度最高的值为最高表征值。

进一步地，表征模型的预训练方法包括：

采用长短期记忆模型LSTM作为底层模型，并将若干母版数据输入至底层模型；

将相似度算法加载至所述底层模型中，利用相似度算法对若干母版数据进行第一次相似度运算，得到若干母版数据对应的相似度数值，和平均化后的第一相似度均值；

将低于第一相似度均值的母版数据通过遗忘门进行输出，并进行第二次相似度运算，得到第二次的相似度数值和第二相似度均值，持续做遗忘门的输出过程直至相似度均值归一化，以得到一表征相似识别值以及对应的表征母版。

本发明还提出一种辅助对焦装置，包括：

获取单元，用于获取实时输入的视频图像数据；

模型单元，用于实时的将视频图像数据输入至预设的表征模型中，所述表征模型依照时间序列逐帧识别视频图像数据的最高表征值；

识别单元，用于识别最新输入的第一图像帧的第一表征值，并判断第一表征值与最高表征值是否相等；

判定单元，用于若是，则判定第一表征值对应的第一图像帧的图像为当前最清晰图像。

本发明还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述辅助对焦方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的辅助对焦方法的步骤。

本发明提供的辅助对焦方法、装置、计算机设备及其存储介质，具有以下有益效果：

1、通过获取实时输入的视频图像数据并输入预设的表征模型中，可以实时跟踪视频图像数据的最高表征值，这有助于快速并准确地锁定最清晰的图像帧，从而提高对焦的精度和效率。

2、根据判断，如果最新输入的图像帧的表征值小于最高表征值，系统将生成对焦信号并启动辅助对焦过程，使图像采集单元能根据线性提升数据自动调整对焦，有效减少手动操作，节省时间。

3、若最新输入的图像帧的表征值大于最高表征值，则可实时更新最高表征值，有效保证手动对焦效果的实时性，优化图像质量。

4、基于预设的监听规则，实时监测图像采集单元的工作状态，例如镜头晃动等，根据其结果生成瞬时采集信号，灵活应对各种情况，进一步提高图像采集过程的动态响应。

5、采用图像增强处理如sharpen操作，可以进一步提升视频图像的清晰度和质量。

6、通过时间序列逐帧识别并标注的方法，本发明能够有效处理视频图像数据，并以此生成最高表征值，提高构建图像的精确度。

7、表征模型的预训练方法结合长短期记忆模型（LSTM）和相似度算法，这有利于提高表征的准确度和传输的稳定性，保障对焦的有效性。

8、辅助对焦设备将获取、模型处理、识别和判断功能整合在一起，相较传统手动对焦方式，大大缩短处理时间，提升工作效率，同时确保图像质量。

附图说明

图1是本发明一实施例中辅助对焦方法步骤示意图；

图2是本发明一实施例中辅助对焦装置结构框图；

图3是本发明一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1为本发明提出的一种辅助对焦方法的流程示意图，包括以下步骤：

S1，获取实时输入的视频图像数据；

S2，实时的将视频图像数据输入至预设的表征模型中，所述表征模型依照时间序列逐帧识别视频图像数据的最高表征值；

S3，识别最新输入的第一图像帧的第一表征值，并判断第一表征值与最高表征值是否相等；

S4，若是，则判定第一表征值对应的第一图像帧的图像为当前最清晰图像。

具体的，获取实时输入的视频图像数据。这意味着系统实时收集和接收所有输入的视频图像数据。这些数据可以来自一台或多台摄像头，或者其他视觉采集设备。使用预设的表征模型处理实时输入的视频图像数据。表征模型根据输入的时间序列，逐帧识别视频图像数据的表征值，尤其是最高表征值。这可以被理解为在每一帧图像中查找并定位最清晰、细节最丰富的区域，这也是对焦的目标。系统接着识别最新输入的第一图像帧的第一表征值。这里的第一表征值可以看作是该帧图像中的最清晰区域。随后，系统判断这个第一表征值是否等于当前记录的最高表征值。这个比较过程决定了系统是否需要进行对焦调整。如果新输入的图像帧的第一表征值等于当前的最高表征值，那么我们可以判断这一帧图像是目前为止最清晰的图像。在这种情况下，系统将定位到这一帧，并可能进行相应的处理或预处理，如图像增强或保存图像等。

在一个实施例中，识别最新输入的第一图像帧的第一表征值，并判断第一表征值与最高表征值是否相等的步骤之后，包括：

若第一表征值小于最高表征值，则生成对焦信号；

在具体实施的过程中，当第一表征值小于最高表征值时，表明最新的图像帧的清晰度没有达到当前记录的最高清晰度。此时，系统会生成一个对焦信号。这个信号是对系统内部的一个指示，提醒系统需要进行对焦调整。对焦信号生成后，系统会指示已经预设的表征模型进行进一步处理。表征模型应答这个信号后，会生成一些被称为“线性提升数据”的信息。这些数据可能描述了对焦的量及方向等细节。然后，这些线性提升数据会被送至图像采集单元，也就是产生视频图像数据的设备，如摄像头。图像采集单元会依据这些线性提升数据进行对焦调整。这可能涉及到物理镜头的移动或数字处理的改变。由此，“线性提升数据”的作用体现在：它们直接指导了图像采集单元如何进行辅助对焦的调整，目的是使得图像帧上的特征表征值能沿着线性关系提高，以便接近或者达到最高表征值，即最佳对焦状态，从而获得最清晰的图像。

在一个情况时，识别最新输入的第一图像帧的第一表征值，并判断第一表征值与最高表征值是否相等的步骤之后，还包括：

在一个实施例中，获取实时输入的视频图像数据的步骤，包括：

首先，对视频图像数据的实时采集的过程是在预设的监听规则基础上进行的。这些监听规则在此上下文中，是一种指导系统如何检测和控制图像采集单元行为的规定。这些规则的例子可能包括：是否设备在稳定的环境中运作，或者是否有异常状况，比如镜头晃动。如果基于预设的监听规则，系统判断当前的图像采集单元状态符合监听条件（例如检测到镜头晃动），那么系统会生成一个瞬时采集信号。这是一个内部信号，它的作用是马上通知图像采集单元需要进行图像采集过程。诸如此类的实时检测和响应可以帮助系统在不同的实时环境状况下，灵活并准确地对视频图像数据进行采集，从而进一步提高图像的质量和对焦的精确性。

在一个实施例中，获取实时输入的视频图像数据的步骤之后，包括：

对视频图像数据进行sharpen的图像增强处理。

具体的过程为，"Sharpen"是一种图像增强处理方法，其目标是提高图像的清晰度，使图像中的细节部分更加突出。它通常用于提升低对比度、模糊的图像的视觉效果。至于如何实现，一般会通过高频增强或者边缘检测等方法来进行。

具体来说，sharpen处理步骤包括：

1. 目标识别：首先，系统会识别出需要锐化处理的图像区域，通常是那些细节部分和边缘部分，因为这些部分的清晰与否直接影响到图像整体的清晰感。

2. 边缘强化：sharpen处理基于一个原理，即增强图像中的边缘对比度。这通常通过高通滤波器实现，它可以帮助识别并增强边缘部分的对比度，使得图像的边缘部分和细节部分更加突出。

3. 生成增强图像：然后，处理后的部分会与原始图像进行融合，生成处理后的图像。这个过程通常是通过插值或者叠加等方法完成的。

4. 编码和输出：最后，会将处理后的图像进行编码并输出，以便进行后续的使用或者存储。

在一个实施例中，所述表征模型依照时间序列逐帧识别视频图像数据的最高表征值的步骤，包括：

采用帧识别因子对视频图像数据的每一帧图像进行标识；

标定若干表征值中相似度最高的值为最高表征值。

具体的，生成帧识别因子：系统首先按照视频图像数据流入的时间顺序，针对每一帧图像生成一个特定的识别因子，这个识别因子基于每一帧图像的特征信息，包括但不限于色彩、亮度、纹理等。标识每一帧图像：有了这些帧识别因子后，系统会将它们用于标识每一帧图像。这样，在图像数据流中的每一帧都将拥有一个独特的帧识别因子，从而方便接下来的处理和跟踪。生成表征值：系统将标定有帧识别因子的每一帧图像与预设的表征母版进行比较。表征母版是预先设计的一个模板，包含了理想的图像特性。通过计算每一帧图像与表征母版的相似度，系统可以生成一系列表征值。每个表征值代表了对应帧图像与表征母版的相似程度。标定最高表征值：最后，系统会在所有生成的表征值中找到最高的那个，这个最高的表征值被标为最高表征值。这个值代表了现有帧图像与表征母版的最高相似度，用于后续与新输入图像的相似度进行比较，作为对焦的依据。这种处理方式考虑了图像的连续性和动态变化，通过计算表征值和对每一帧图像进行标识，可以有效地确定需要对焦的区域，保证图像清晰度的优化，提升了辅助对焦设备的效率和准确度。

在一个实施例中，表征模型的预训练方法包括：

具体的，选择LSTM作为底层模型：这是因为LSTM非常适合处理具有时间序列特性的数据，如连续视频帧中的图像数据。它可以有效地对过去和现在的图像信息进行总结和记忆。将若干母版数据输入至LSTM模型：系统首先加载母版数据，这些数据包含了不同的图像特性，可以看作一种理想的图像特性集合。利用相似度算法进行计算：系统将预设的相似度算法加载到LSTM模型中，该算法用于计算每一帧图像与母版数据的相似度。计算后的结果是一系列的相似度数值，以及所有数值的平均值，我们称之为第一相似度均值。通过遗忘门输出低于均值的母版数据：在LSTM模型中，遗忘门是用来决定信息是否会被遗忘或者保留的关键部分。此时，系统将那些对应相似度小于第一相似度均值的母版数据输出，接着进行第二次相似度计算。这一步骤的目地是过滤掉质量较低的母版数据，提升整体的计算效率和准确度。循环此过程，直到相似度均值归一化：系统会持续进行上述过程，即不断输出低于均值的母版数据并计算新的相似度均值，直到所有相似度均值近似归一化。这样做的目的是找到最佳的表征母版，使之能够更好地匹配即将输入的图像数据。通过整个过程，我们得到了一个最优化的表征相似识别值以及其对应的表征母版，为后续的图像识别和对焦提供了到位的参考。

参考附图2为本发明提出的一种辅助对焦装置的结构框图，包括：

获取单元1，用于获取实时输入的视频图像数据；

模型单元2，用于实时的将视频图像数据输入至预设的表征模型中，所述表征模型依照时间序列逐帧识别视频图像数据的最高表征值；

识别单元3，用于识别最新输入的第一图像帧的第一表征值，并判断第一表征值与最高表征值是否相等；

判定单元4，用于若是，则判定第一表征值对应的第一图像帧的图像为当前最清晰图像。

在本实施例中，上述装置实施例中的各个单元的具体实现，请参照上述方法实施例中所述，在此不再进行赘述。

参照图3，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、显示屏、输入装置、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储本实施例中对应的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定。

本发明一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，通过获取实时输入的视频图像数据；实时的将视频图像数据输入至预设的表征模型中，所述表征模型依照时间序列逐帧识别视频图像数据的最高表征值；识别最新输入的第一图像帧的第一表征值，并判断第一表征值与最高表征值是否相等；若是，则判定第一表征值对应的第一图像帧的图像为当前最清晰图像集成了实时输入、模型处理、评估和判断功能，有效利用了长短期记忆模型和相似度算法，提升了对焦的精度、效率和图像质量，同时减少了手动操作，缩短了处理时间，提高了系统的工作效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种辅助对焦方法，其特征在于，包括以下步骤：

获取实时输入的视频图像数据；

2.根据权利要求1所述的辅助对焦方法，其特征在于，识别最新输入的第一图像帧的第一表征值，并判断第一表征值与最高表征值是否相等的步骤之后，包括：

若第一表征值小于最高表征值，则生成对焦信号；

3.根据权利要求1所述的辅助对焦方法，其特征在于，识别最新输入的第一图像帧的第一表征值，并判断第一表征值与最高表征值是否相等的步骤之后，还包括：

4.根据权利要求1所述的辅助对焦方法，其特征在于，获取实时输入的视频图像数据的步骤，包括：

5.根据权利要求1所述的辅助对焦方法，其特征在于，获取实时输入的视频图像数据的步骤之后，包括：

对视频图像数据进行sharpen的图像增强处理。

6.根据权利要求1所述的辅助对焦方法，其特征在于，所述表征模型依照时间序列逐帧识别视频图像数据的最高表征值的步骤，包括：

采用帧识别因子对视频图像数据的每一帧图像进行标识；

标定若干表征值中相似度最高的值为最高表征值。

7.根据权利要求1所述的辅助对焦方法，其特征在于，表征模型的预训练方法包括：

8.一种辅助对焦装置，其特征在于，包括：

获取单元，用于获取实时输入的视频图像数据；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述辅助对焦方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的辅助对焦方法的步骤。