CN112602319B - 一种对焦装置、方法及相关设备 - Google Patents

一种对焦装置、方法及相关设备 Download PDF

Info

Publication number
CN112602319B
CN112602319B CN201880096896.4A CN201880096896A CN112602319B CN 112602319 B CN112602319 B CN 112602319B CN 201880096896 A CN201880096896 A CN 201880096896A CN 112602319 B CN112602319 B CN 112602319B
Authority
CN
China
Prior art keywords
roi
image
target
effective
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880096896.4A
Other languages
English (en)
Other versions
CN112602319A (zh
Inventor
马彦鹏
宋永福
杨琪
王军
陈聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN112602319A publication Critical patent/CN112602319A/zh
Application granted granted Critical
Publication of CN112602319B publication Critical patent/CN112602319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules

Abstract

本发明实施例公开了一种对焦装置、方法及相关设备,其中的对焦装置,包括处理器、以及耦合于CPU的NPU和ISP;ISP用于生成第一图像;NPU用于获取第一图像中的第一感兴趣区域ROI集合,第一ROI集合包括一个或者多个第一ROI,每个第一ROI中包括一个拍摄对象;CPU用于:获取第一图像中第二ROI集合,第二ROI集合包括一个或多个第二ROI,每个第二ROI为运动区域;基于第一ROI集合和第二ROI集合确定第一图像中的目标ROI;根据目标ROI的特征信息识别目标ROI在第二图像中的位置信息和大小信息并进行对焦,第一图像在时域上位于第二图像之前。采用本申请,可以提升对焦的精准度。

Description

一种对焦装置、方法及相关设备
技术领域
本申请涉及图像处理技术领域,尤其涉及一种对焦装置、方法及相关设备。
背景技术
智能手机相机拍照技术正朝着单反方向发展,目前很多智能手机相机在拍照能力方面已经超越了传统的卡片相机。高质量的拍照依赖高精度的对焦技术,在静态场景的拍摄中,现有的对焦技术一般都是将对焦点放在画面中心位置,这种对焦方法可以满足大部分消费者的需求,但是当拍摄目标不在视场中心时,这时候的中心对焦往往会导致拍摄目标模糊。在拍摄动态场景时,尤其当目标快速运动时,这种固定的中心对焦无法满足需求,因此急需发展高精度的运动追焦技术。
发明内容
本发明实施例提供一种对焦装置、方法及相关设备,以提升对焦精准度。
第一方面,本发明实施例提供了一种对焦装置,包括处理器、以及耦合于所述处理器的神经网络处理器和图像信号处理器;所述图像信号处理器,用于生成第一图像;所述神经网络处理器,用于获取所述第一图像中的第一感兴趣区域ROI集合,所述第一ROI集合包括一个或者多个第一ROI,每个第一ROI中包括一个拍摄对象;所述处理器,用于:获取所述第一图像中第二ROI集合,所述第二ROI集合包括一个或多个第二ROI,每个第二ROI为运动区域;基于所述第一ROI集合和所述第二ROI集合确定所述第一图像中的目标ROI;确定所述目标ROI的特征信息;根据所述目标ROI的特征信息,识别所述目标ROI在所述图像信号处理器生成的第二图像中的位置信息和大小信息,所述第一图像在时域上位于所述第二图像之前;以及根据所述位置信息和大小信息进行对焦。
本发明实施例,通过对焦装置中的ISP生成的图像帧,利用NPU进行AI物体检测得到一个或者多个候选的拍摄对象,以及利用处理器进行运动物体检测得到一个或者多个候选的运动区域,并综合检测到的拍摄对象以及运动区域确定最终要对焦的目标ROI,并基于该目标ROI的特征信息进行后续的跟踪对焦。即利用AI目标检测和运动目标检测,自动综合识别出视场FOV中的目标ROI,然后采用目标ROI跟踪算法精确计算目标ROI的实时运动轨迹和大小,最后通过自动对焦AF算法依据目标ROI的实时运动轨迹,做运动追焦。全程不需要用户手动干预选择且跟踪对焦精准,极大的提升了拍摄的体验和效果。
在一种可能的实现方式中,所述处理器具体用于:从所述第一ROI集合中的一个或者多个第一ROI中确定有效第一ROI,所述有效第一ROI在所述第一图像的第一预设区域内;从所述第二ROI集合中的一个或者多个第二ROI中确定有效第二ROI,所述有效第二ROI在所述第一图像的第二预设区域内;在所述有效第一ROI与所述有效第二ROI的交并比IoU大于或者等于预设阈值的情况下,将所述有效第一ROI确定为目标ROI。
本发明实施例,通过对第一ROI集合和第二ROI集合进行筛选,以提升目标ROI的识别精准度。且当有效第一ROI和有效第二ROI之间的重叠区域较大时,则表明此时拍摄对象和运动区域的检测均较大可能包含有该有效第一区域,因此可以将有效第一区域作为目标ROI。
在一种可能的实现方式中,所述处理器,还具体用于:在所述有效第一ROI与所述有效第二ROI的交并比小于预设阈值的情况下,将所述有效第二ROI与所述有效第一ROI中距离所述第一图像中心点更近的ROI确定为目标ROI。
本发明实施例,当有效第一ROI和有效第二ROI之间的重叠区域较小时,则可能表明此时的检测有误、或者目标ROI发生漂移,因此可以选择其中距离中心点更近的ROI作为目标ROI。
在一种可能的实现方式中,所述有效第一ROI在所述第一图像的第一预设区域内的一个或者多个第一ROI中具有最高评估分值;和/或所述有效第二ROI在所述第一图像的第二预设区域内的一个或者多个第二ROI中具有最高评估分值;其中,每个ROI的评估分值满足如下至少一项:与该ROI的面积成正比,与该ROI距所述第一图像的中心点的距离成反比,与该ROI所属的物体类别的优先级成正比。
本发明实施例,当处理器通过预设区域进行筛选后,仍然可能存在多个ROI时,此时,可以通过ROI的面积、离第一图像的中心点的距离以及拍摄对象所属的类别的优先级高低进行判断,从中选出跟踪对焦可能性更高的ROI。
在一种可能的实现方式中,所述处理器还用于:基于所述目标ROI在历史图像中的位置和大小所对应的特征信息更新所述目标ROI的特征信息。
在一种可能的实现方式中,所述目标ROI的特征信息是根据所述目标ROI对应的第一图像的特征信息和至少一个第三图像的特征信息确定的,所述至少一个第三图像在时域上位于第一图像和第二图像之间。
本发明实施例,处理器不仅要确定目标ROI的初始值,还需要基于目标ROI的运动跟踪情况实时的更新特征信息,以更加精准的跟踪对焦。
在一种可能的实现方式中,所述处理器还用于:在第一预设时间段后,重新计算所述目标ROI;或者当所述目标ROI的跟踪置信度小于置信度阈值的情况下,重新计算所述目标ROI,其中,所述跟踪置信度用于指示所述目标ROI的跟踪精确度,所述跟踪置信度与跟踪精确度成正比。
本发明实施例,处理器不仅要基于目标ROI的跟踪情况实时的更新特征信息,以更加精准的跟踪对焦,而且更新的特征信息还需要具有时效性,当较长一段时间之后,或者当前跟踪的目标ROI置信度低的时候,就需要考虑初始化相关参数,进行新一轮的目标ROI的确认及跟踪。
在一种可能的实现方式中,所述特征信息包括方向梯度hog信息、颜色lab信息、卷积神经网络CNN信息中的一项或者多项。
本发明实施例,提供多种特征信息提取方式,以满足不同图像或者不同场景下的特征信息提取要求。
第二方面,本发明实施例提供了一种对焦方法,可包括:
确定第一感兴趣区域ROI集合和第二ROI集合,所述第一ROI集合为从图像信号处理器生成的第一图像中获取的ROI集合,所述第一ROI集合包括一个或者多个第一ROI,每个第一ROI中包括一个拍摄对象;所述第二ROI集合为从所述第一图像中获取的ROI集合,所述第二ROI集合包括一个或多个第二ROI,每个第二ROI为运动区域;基于所述第一ROI集合和所述第二ROI集合确定所述第一图像中的目标ROI;确定所述目标ROI的特征信息;根据所述目标ROI的特征信息,识别所述目标ROI在所述图像信号处理器生成的第二图像中的位置信息和大小信息,所述第一图像在时域上位于所述第二图像之前;根据所述位置信息和大小信息进行对焦。
在一种可能的实现方式中,所述基于所述第一ROI集合和所述第二ROI集合确定所述第一图像中的目标ROI,包括:从所述第一ROI集合中的一个或者多个第一ROI中确定有效第一ROI,所述有效第一ROI在所述第一图像的第一预设区域内;从所述第二ROI集合中的一个或者多个第二ROI中确定有效第二ROI,所述有效第二ROI在所述第一图像的第二预设区域内;在所述有效第一ROI与所述有效第二ROI的交并比IoU大于或者等于预设阈值的情况下,将所述有效第一ROI确定为目标ROI。
在一种可能的实现方式中,所述方法还包括:在所述有效第一ROI与所述有效第二ROI的交并比IoU小于预设阈值的情况下,将所述有效第二ROI与所述有效第一ROI中距离所述第一图像中心点更近的ROI确定为目标ROI。
在一种可能的实现方式中,所述有效第一ROI在所述第一图像的第一预设区域内的一个或者多个第一ROI中具有最高评估分值;和/或所述有效第二ROI在所述第一图像的第二预设区域内的一个或者多个第二ROI中具有最高评估分值;其中,每个ROI的评估分值满足如下至少一项:与该ROI的面积成正比,与该ROI距所述第一图像的中心点的距离成反比,与该ROI所属的物体类别的优先级成正比。
在一种可能的实现方式中,所述方法还包括:基于所述目标ROI在历史图像中的位置和大小所对应的特征信息更新所述目标ROI的特征信息。
在一种可能的实现方式中,所述目标ROI的特征信息是根据所述目标ROI对应的第一图像的特征信息和至少一个第三图像的特征信息确定的,所述至少一个第三图像在时域上位于第一图像和第二图像之间。
在一种可能的实现方式中,所述方法还包括:在第一预设时间段后,重新计算所述目标ROI;或者当所述目标ROI的跟踪置信度小于置信度阈值的情况下,重新计算所述目标ROI,其中,所述跟踪置信度用于指示所述目标ROI的跟踪精确度,所述跟踪置信度与跟踪精确度成正比。
在一种可能的实现方式中,所述特征信息包括方向梯度hog信息、颜色lab信息、卷积神经网络CNN信息中的一项或者多项。
第三方面,本发明实施例提供了一种对焦装置,可包括:
第一处理单元,用于确定第一感兴趣区域ROI集合和第二ROI集合,所述第一ROI集合为从图像信号处理器生成的第一图像中获取的ROI集合,所述第一ROI集合包括一个或者多个第一ROI,每个第一ROI中包括一个拍摄对象;所述第二ROI集合为从所述第一图像中获取的ROI集合,所述第二ROI集合包括一个或多个第二ROI,每个第二ROI为运动区域;第二处理单元,用于基于所述第一ROI集合和所述第二ROI集合确定所述第一图像中的目标ROI;第三处理单元,用于确定所述目标ROI的特征信息;识别单元,用于根据所述目标ROI的特征信息,识别所述目标ROI在所述图像信号处理器生成的第二图像中的位置信息和大小信息,所述第一图像在时域上位于所述第二图像之前;对焦单元,用于根据所述位置信息和大小信息进行对焦。
在一种可能的实现方式中,所述第二处理单元,具体用于:从所述第一ROI集合中的一个或者多个第一ROI中确定有效第一ROI,所述有效第一ROI在所述第一图像的第一预设区域内;从所述第二ROI集合中的一个或者多个第二ROI中确定有效第二ROI,所述有效第二ROI在所述第一图像的第二预设区域内;在所述有效第一ROI与所述有效第二ROI的交并比IoU大于或者等于预设阈值的情况下,将所述有效第一ROI确定为目标ROI。
在一种可能的实现方式中,所述第二处理单元还用于:
在所述有效第一ROI与所述有效第二ROI的交并比IoU小于预设阈值的情况下,将所述有效第二ROI与所述有效第一ROI中距离所述第一图像中心点更近的ROI确定为目标ROI。
在一种可能的实现方式中,所述有效第一ROI在所述第一图像的第一预设区域内的一个或者多个第一ROI中具有最高评估分值;和/或所述有效第二ROI在所述第一图像的第二预设区域内的一个或者多个第二ROI中具有最高评估分值;其中,每个ROI的评估分值满足如下至少一项:与该ROI的面积成正比,与该ROI距所述第一图像的中心点的距离成反比,与该ROI所属的物体类别的优先级成正比。
在一种可能的实现方式中,所述第三处理单元还用于:基于所述目标ROI在历史图像中的位置和大小所对应的特征信息更新所述目标ROI的特征信息。
在一种可能的实现方式中,所述目标ROI的特征信息是根据所述目标ROI对应的第一图像的特征信息和至少一个第三图像的特征信息确定的,所述至少一个第三图像在时域上位于第一图像和第二图像之间。
在一种可能的实现方式中,所述装置还包括:
第一初始化单元,用于在第一预设时间段后,重新计算所述目标ROI;或者
第二初始化单元,用于当所述目标ROI的跟踪置信度小于置信度阈值的情况下,重新计算所述目标ROI,其中,所述跟踪置信度用于指示所述目标ROI的跟踪精确度,所述跟踪置信度与跟踪精确度成正比。
在一种可能的实现方式中,所述特征信息包括方向梯度hog信息、颜色lab信息、卷积神经网络CNN信息中的一项或者多项。
第四方面,本发明实施例提供了一种电子设备,其特征在于,包括图像传感器、和上述第一方面中提供的任意一种所述的对焦装置;其中
所述图像传感器,用于采集图像数据;
所述图像信号处理器,用于基于所述图像数据生成所述第一图像。
在一种可能的实现方式中,所述电子设备还包括:存储器,用于存储程序指令;所述程序指令被所述处理器执行。
第五方面,本申请提供一种对焦装置,该对焦装置具有实现上述任意一种对焦方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
第六方面,本申请提供一种终端,该终端包括处理器,处理器被配置为支持该终端执行第二方面提供的一种对焦方法中相应的功能。该终端还可以包括存储器,存储器用于与处理器耦合,其保存终端必要的程序指令和数据。该终端还可以包括通信接口,用于该终端与其它设备或通信网络通信。
第七方面,本申请提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述第二方面中任意一项所述的对焦方法流程。
第八方面,本发明实施例提供了一种计算机程序,该计算机程序包括指令,当该计算机程序被计算机执行时,使得计算机可以执行上述第二方面中任意一项所述的对焦方法流程。
第九方面,本申请提供了一种芯片系统,该芯片系统包括处理器,用于实现上述第二方面中任意一项所述的对焦方法流程所涉及的功能。在一种可能的设计中,所述芯片系统还包括存储器,所述存储器,用于保存对焦方法必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包含芯片和其它分立器件。
附图说明
图1是本发明实施例提供的一种对焦装置的结构示意图;
图2为本发明实施例提供的一种第一图像示意图;
图3是本发明实施例提供的另一种对焦装置的结构示意图;
图4是本发明实施例提供的一种对焦装置的功能原理示意图;
图5是本发明实施例所提供的一种SSD网络实现过程示意图;
图6是本发明实施例所提供的目标ROI的筛选示意图;
图7是本发明实施例所提供的一种目标ROI确定流程示意图;
图8是本发明实施例所提供的目标ROI跟踪流程示意图;
图9是本发明实施例所提供的一种目标ROI跟踪示意图;
图10是本发明实施例提供的一种目标ROI的特征信息更新示意图;
图11是本发明实施例提供的一种神经网络处理器硬件结构图;
图12是本发明实施例提供的一种对焦方法的流程示意图;
图13是本发明实施例提供的又一种对焦装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例进行描述。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本说明书中使用的术语“部件”、“模块”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如,部件可以是但不限于,在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。通过图示,在计算设备上运行的应用和计算设备都可以是部件。一个或多个部件可驻留在进程和/或执行线程中,部件可位于一个计算机上和/或分布在2个或更多个计算机之间。此外,这些部件可从在上面存储有各种数据结构的各种计算机可读介质执行。部件可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一部件交互的二个部件的数据,例如通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。
首先,对本申请中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)感兴趣区域(region of interested,ROI),机器视觉、图像处理中,从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域,称为感兴趣区域。
(2)人工智能(Artificial Intelligence,AI),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
(3)卷积神经网络(Convolutional Neural Network,CNN)是一种多层的神经网络,每层有多个二维平面组成,而每个平面由多个独立神经元组成,每个平面的多个神经元共享权重,通过权重共享可以降低神经网络中的参数数目。目前,在卷积神经网络中,处理器进行卷积操作通常是将输入信号特征与权重的卷积,转换为信号矩阵与权重矩阵之间的矩阵乘运算。在具体矩阵乘运算时,对信号矩阵和权重矩阵进行分块处理,得到多个分形(Fractional)信号矩阵和分形权重矩阵,然后对多个分形信号矩阵和分形权重矩阵进行矩阵乘和累加运算。
(3)图像信号处理(Image Signal Processing,ISP),主要用来对前端图像传感器输出信号处理的单元,以匹配不同厂商的图象传感器。相机用图像处理器ISP(ImageSignal Processor)。被管道化的图像处理专用引擎可以高速处理图像信号。也搭载了为了实现Auto Exposure/Auto Focus/Auto White Balance评测的专用电路。
(4)交并比(Intersection-over-Union,IoU),目标检测中使用的一个概念,是产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率,即它们的交集与并集的比值。最理想情况是完全重叠,即比值为1。
为了便于理解本发明实施例,以下示例性列举本发明实施例所解决的技术问题以及对应的实际应用场景,常见的拍摄场景以及对应的对焦方法包括如下。
场景一,静态场景的技术方案:
1)中心对焦方法,事先设定固定的中心位置作为对焦区域。
2)用户手动touch画面中的目标位置作为对焦区域。
上述静态场景下的对焦方案缺点:
1)中心对焦区域有限。当主体目标偏离中心时,无法将焦点聚焦在目标上;
2)用户手动选择目标对焦,AF算法需要重新配置对焦点,拉长了对焦时间和用户拍照时间,当目标开始运动时,焦点无法实时跟随目标运动。
场景二,动态场景的拍摄的技术方案:
1)基于特征点检测的目标的追焦方法,这种方法是实时检测画面中的特征点,然后将焦点设置到特征点上。
2)基于运动检测的目标追焦方法,通过前后两帧图像的内容变化,快速识别拍摄场景中的运动物体,并实时输出运动区域给AF算法,然后将对焦点实时调整到运动区域实现运动目标追焦;另外,现有技术实现了人工智能伺服自动对焦功能,在对运动的被摄物体进行高速持续对焦的模式下,半按快门捕捉取景器内的被摄物体,检测其运动轨迹。单反中内置的自动对焦感应器能够识别被摄物体是静止的还是运动的,并辨别其移动方向,从而在进行体育运动、儿童或动物等题材的拍摄时,实现精确的对焦。
上述动态场景下的对焦方案缺点:
1)使用特征点检测的目标追焦方法,容易将背景纹理丰富的地方检测出来,这样并不能把焦点真正的聚焦在目标上。
2)基于运动目标检测方法的自动追焦方法:当运动目标周围背景变化时容易检测出运动区域,因此容易误触发、误对焦;运动目标轨迹不平滑,跳变严重,导致对焦不连续;当拍摄相机运动或者不稳定时,画面中容易检出运动物体,而这时候拍摄目标反而是静止的,因此容易导致误对焦。
因此,针对上述两个场景,本发明实施例主要解决的问题和应用场景主要包括以下:
1、当拍摄静态场景时,拍摄目标物体不在中心时的对焦区域选择问题,采用AI物体检测算法,检测画面中的主体物体,然后将该主体物体区域输入给目标跟踪算法,实时监控目标的状态,当目标静止时,AF算法直接将对焦点设置到主体目标物体上做稳定对焦,当目标开始运动时,跟踪算法会实时跟随目标运动,AF算法会实时做跟踪对焦。
2、当拍摄动态场景时,AI物体检测算法结合运动目标检测算法综合输出当前画面中的主体物体,然后目标跟踪算法实时监控输出运动目标的位置区域和大小,解决运动目标误识别、运动目标不平滑、目标跟踪不稳定,对焦不连续等问题。
可以理解的是,上述应用场景的只是本发明实施例中的几种示例性的实施方式,本发明实施例中的应用场景包括但不仅限于以上应用场景。
基于上述,下面结合本发明实施例提供的对焦装置以及相关设备进行描述。请参见图1,图1是本发明实施例提供的一种对焦装置的结构示意图,该对焦装置10中可包括处理器101、以及耦合于该处理器101的神经网络处理器102和图像信号处理器103;其中,
图像信号处理器(Image Signal Processing,ISP)103,用于生成第一图像,可以匹配不同厂商的图像传感器,以用来对前端图像传感器输出的图像数据进行处理,根据图像数据生成对应的图像信号。
神经网络处理器(Neutral Processing Unit,NPU)102,用于获取所述第一图像中的第一感兴趣区域ROI集合,所述第一ROI集合包括一个或者多个第一ROI,每个第一ROI中包括一个拍摄对象。例如,拍摄对象可以是任何物体,比如人物、动物、建筑、植物等,当神经网络处理器102识别出第一图像中有一朵花、一个人和一条狗时,那么第一ROI集合则包括三个第一ROI,分别为植物、人物和动物。如图2所示,图2是本发明实施例提供的一种第一图像示意图,图2中,NPU识别出人脸(区域1)、狗脸(区域3)、花(区域4)、以及桌子(区域5)均为第一ROI。
处理器(Central Processing Unit,CPU)101,用于获取所述第一图像中第二ROI集合,并基于所述第一ROI集合和所述第二ROI集合确定所述第一图像中的目标ROI;确定所述目标ROI的特征信息;根据所述目标ROI的特征信息,识别所述目标ROI在所述图像信号处理器103生成的第二图像中的位置信息和大小信息,以及根据所述位置信息和大小信息进行对焦。其中,所述第二ROI集合包括一个或多个第二ROI,每个第二ROI为运动区域。例如,通过第一图像之前的某一帧或某几帧图像以及第一图像,检测到一条小狗在运动,那么将该小狗在第一图像中所在的区域确定为第二ROI,可以理解的是,当检测到视场中有多个物体在运动时,也可以确定出多个第二ROI。所述第一图像在时域上位于所述第二图像之前,即通过在先采集生成的图像中综合AI识别和运动检测所确定的目标ROI的特征信息,作为后续跟踪该目标ROI依据,以进行实时的跟踪对焦。可以理解的是,当前检测到第一图像中没有物体运动,那么第二ROI集合也可能是空集,此时相当于是静态拍摄场景。如图2所示,CPU通过运动检测出人在动,因此识别出人物所在的区域2为运动区域即第二ROI。
可以理解的是,处理器101还用于例如运行通用操作系统软件,并在通用操作系统软件的作用下控制神经网络处理器102和图像信号处理器103进行对焦。例如,将图像信号处理器103生成的第一图像发送给神经网络处理器102进行第一ROI集合的获取,以及接收神经网络处理器102所获取的第一ROI集合等。进一步地,处理器101还用于完成对焦过程相关的计算处理和控制等。
可选的,上述神经网络处理器也可以作为处理器101中的一部分集成在处理器101中;也可以为耦合于上述处理器101,且能实现获取所述第一ROI集合的其它功能芯片;同理,处理器101所执行的功能也可以分布在多个不同的功能芯片上执行,本发明实施例对此不作具体限定。
请参见图3和图4,图3是本发明实施例提供的另一种对焦装置的结构示意图,图4是本发明实施例提供的一种对焦装置的功能原理示意图。该对焦装置10中可包括处理器101、耦合于该处理器101的神经网络处理器102和图像信号处理器103,以及耦合于所述图像信号处理器103的镜头104、图像传感器105和对焦用的音圈马达(Voice Coil Motor,VCM)106;其中,
镜头104,用于通过光学成像原理,将现实世界的光学信息聚焦于图像传感器上。例如,镜头104可以为终端(如智能手机)的后置摄像头,前置摄像头,旋转摄像头等。
图像传感器105,用于基于所述镜头103采集的光学信息,输出的图像数据,以提供给图像信号处理器103生成对应的图像信号。
对焦马达106,可以包括机械结构,用于基于处理器101确定的目标ROI的位置信息和大小信息进行静态或者动态对焦。例如,若处理器101识别出目标ROI处于静止状态,则处理器101控制对焦马达106进行静态对焦;若处理器101识别出目标ROI处于运动状态,则处理器101控制该对焦马达106进行动态对焦。
可以理解的是,关于处理器101、神经网络处理器102以及图像信号处理器103的功能,请参见上述图1中的相关描述,在此不再赘述。
可选的,上述图1或图3中的对焦装置,可以位于终端(如智能手机、平板、智能可穿戴设备等)、智能拍照设备(智能相机、智能摄像机、智能追踪设备)、智能监控设备、航拍无人机中等,本申请对此不再一一列举。
本发明实施例,通过上述图1或图3的对焦装置中的ISP生成的图像帧,利用NPU进行AI物体检测得到一个或者多个候选的拍摄对象,以及利用处理器进行运动物体检测得到一个或者多个候选的运动区域,并综合检测到的拍摄对象以及运动区域确定最终要对焦的目标ROI,并基于该目标ROI的特征信息进行后续的跟踪对焦。即利用AI目标检测和运动目标检测,自动综合识别出视场FOV中的目标ROI,然后采用目标ROI跟踪算法精确计算目标ROI的实时运动轨迹和大小,最后通过自动对焦AF算法依据目标ROI的实时运动轨迹,做运动追焦。全程不需要用户手动干预选择且跟踪对焦精准,极大的提升了拍摄的体验和效果。
在一种可能的实现方式中,上述对焦装置10(包括图1和图2中的对焦装置,后续不再赘述)中,神经网络处理器102获取第一图像中的第一ROI集合,具体实施方式可以如下:
神经网络处理器102采用AI物体检测算法获取画面(第一图像)中的目标物体即目标ROI,使用通用的结构(如resnet18,resnet26等结构的前若干层)作为基础网络,然后在这个基础上增加其它的层作为检测结构。其中分类基模型以提取图像的低层特征,保证低层特征能够能有较大的区分性,通过增加浅层特征的分类器,可以辅助提升分类性能。检测部分使得在不同层次的feature maps上输出一系列离散化的bounding boxes以及每一个box中包含物体实例的可能性(score)。最后进行非极大值抑制(Non-maximumsuppression,NMS)算法得到最终的物体预测结果。进一步地,检测模型算法可以采用单镜头检测(single shot detection,SSD)框架,请参见图5,图5为本发明实施例所提供的一种SSD网络实现过程示意图,该网络实现过程可以包括如下主要步骤:
1、主体采用one-stage检测结构,避免了类似faster-rcnn大量的候选目标位置进入two stage,从而很大程度上提升了检测速度。
2、采用多尺度特征映射,利用多尺度特征的方法,每层特征具有不同的感受野,从而可以适配检测不同大小尺度的目标,达到较好的性能。
3、采用不同大小及比例的default boxes,default box决定着最后预测框的初始位置,通过不同大小及比例,可以适配不同尺度及形状的主体物体,给出最优的初始值,使预测更加准确。
由于AI物体检测算法运行在NPU上,考虑到功耗性能的限制,可以每10帧输出一次检测结果,可检测识别的物体类别包括:花朵、人、猫、狗、鸟、自行车、公共汽车、摩托车、卡车、小汽车、火车、船、马、风筝、气球、花瓶、碗、盘子、杯子、经典款手提包。而其中的拍摄物体所属的物体类别的优先级可以分四个等级,人为第一优先级,花为第二优先级,猫狗为第三优先级,其余为第四优先级。
在一种可能的实现方式中,上述对焦装置10中处理器101获取所述第一图像中的第二ROI集合的具体实施方式可以如下:
处理器101可采用运动目标检测算法获取第二ROI集合。例如,运动目标检测算法每两帧做一次,即每两帧输出当前图像中的运动区域,可选的,还可以进一步输出运动速度等级,运动方向等。如图2所示,区域2为运动检测算法输出的运动区域即第二ROI,区域1为最终确定的目标ROI。
在一种可能的实现方式中,上述对焦装置10中处理器10基于所述第一ROI集合和所述第二ROI集合确定所述第一图像中的目标ROI的具体实施方式可以为:处理器101从所述第一ROI集合中的一个或者多个第一ROI中确定有效第一ROI,从所述第二ROI集合中的一个或者多个第二ROI中确定有效第二ROI;并在所述有效第一ROI与所述有效第二ROI的交并比IoU大于或者等于预设阈值的情况下,将所述有效第一ROI确定为目标ROI;其中,所述有效第一ROI在所述第一图像的第一预设区域内;所述有效第二ROI在所述第一图像的第二预设区域内。进一步可选的,处理器101还在所述有效第一ROI与所述有效第二ROI的交并比小于预设阈值的情况下,将所述有效第二ROI与所述有效第一ROI中距离所述第一图像中心点更近的ROI确定为目标ROI。即当有效第一ROI和有效第二ROI之间的重叠区域较大时,则表明此时拍摄对象和运动区域的检测均较大可能包含有该有效第一区域,因此可以将有效第一区域作为目标ROI;当有效第一ROI和有效第二ROI之间的重叠区域较小时,则可能表明此时的检测有误、或者目标ROI发生漂移,因此可以选择其中距离中心点更近的ROI作为目标ROI。可选的,也可以根据其它计算规则进行目标ROI的选择,如结合有效第一ROI和有效第二ROI综合得到一个新的ROI,本申请不再一一列举。
请参见图6,图6为本发明实施例所提供的目标ROI的筛选示意图,例如,图6中的手机屏幕上显示的第一图像(摄像头的视场区域)的宽为width,高为height;针对拍摄对象识别,第一ROI在第一预设区域范围内代表有效,例如,针对第一预设区域范围,无效区域的长度或宽度w1=min(width,height)×0.2,此时,ROI2有效,R0I0和ROI1无效。针对运动区域识别,第二ROI在第二预设区域范围内有效,例如,针对第二预设区域范围,无效区域的长度或宽度w2=min(width,height)×0.1;此时,ROI1和ROI2有效,R0I0无效。
进一步可选的,所述有效第一ROI在所述第一图像的第一预设区域内的一个或者多个第一ROI中具有最高评估分值;和/或所述有效第二ROI在所述第一图像的第二预设区域内的一个或者多个第二ROI中具有最高评估分值;其中,每个ROI的评估分值满足如下至少一项:与该ROI的面积成正比,与该ROI距所述第一图像的中心点的距离成反比,与该ROI所属的物体类别的优先级成正比。即当通过对应的预设区域筛选后,仍然可能存在多个ROI时,此时,可以通过ROI的面积、离第一图像的中心点的距离以及拍摄对象所属的类别的优先级高低进行判断,从中选出跟踪对焦可能性更高的ROI。例如离中心点越近,面积越大,且类别属于人的ROI被作为跟踪目标ROI的可能性更大。又例如也可以根据当前的拍摄模式,设置不同物体类别的优先级,如人像模式下,人物的优先级最高,风景模式下,植物或建筑的优先级最高等。
请参见图7,图7是本发明实施例所提供的一种目标ROI确定流程示意图。图7中,通过NPU进行AI物体检测,获得了第一ROI集合,以及通过CPU进行运动目标检测获得了第二ROI集合。由于此时检测到的第一ROI和第二ROI可能均有多个,且识别精度、准确度较低,存在部分ROI不需要对焦(例如,拍摄背景画面中的花朵、拍摄背景中无意间乱入的运动对象等)。因此,需要经过CPU进行筛选。首先,处理器101分别检测第一ROI集合中的第一ROI,以及第二集合中的第二ROI是否有效。对于AI物体检测分支和/或运动区域检测分支,当只有一个ROI时,直接输出该ROI;存在多目标时,则可以根据如下公式对不同目标进行综合打分:1、分别获取每个ROI中的拍摄对象所属的物体类别的优先级Priority;2、每个第一ROI的大小area;3.每个第一ROI离画面中心的距离dist;综合打分Score=0.4×priority+0.4×area+0.2/dist,选择得分最高的ROI作为该分支的有效ROI,最后根据有效第一ROI和有效第二ROI之间的交并比,确定出目标ROI。
可选的,本发明实施例中的对焦装置10除了提供上述目标ROI的确定方式以外,也可以结合其它预设策略,在不同的场景下提供不同的目标ROI确定方式。例如,预设策略可以包括:1)用户指定优先;2)AI物体检测优先;3)运动检测优先;4)物体检测与运动检测联合选择等。
在一种可能的实现方式中,上述对焦装置10中处理器101所确定的目标ROI的特征信息包括方向梯度hog信息、颜色lab信息、卷积神经网络CNN信息中的一项或者多项。例如,只包括处理器101所提取的颜色特征Hog信息、只包括处理器101所提取的方向梯度hog信息、或者只神经网络处理器102所提取的CNN信息,也或者是上述三种信息中的任意两种,或者是三种的组合。需要强调的是,上述方向梯度hog信息和颜色lab信息可以通过处理器101提取,而CNN信息则可以通过神经网络处理器102进行提取,再通过神经网络处理器102发送给处理器101。
在一种可能的实现方式中,所述处理器101还基于所述目标ROI在历史图像中的位置和大小所对应的特征信息更新所述目标ROI的特征信息。在另一种可能的实现方式中,所述目标ROI的特征信息是根据所述目标ROI对应的第一图像的特征信息和至少一个第三图像的特征信息确定的,所述至少一个第三图像在时域上位于第一图像和第二图像之间。也即是上述对焦装置10中的处理器10在根据所述目标ROI的特征信息,识别所述目标ROI在所述图像信号处理器生成的第二图像中的位置信息和大小信息的过程中,将目标ROI在第一图像中的特征信息作为初始的特征信息,后续还基于所述目标ROI在跟踪过程中每一帧图像中的位置和大小所对应的特征信息更新所述初始的特征信息,以保证跟踪目标ROI的精准性。进一步地,处理器101在第一预设时间段后,重新计算所述目标ROI;或者当所述目标ROI的跟踪置信度小于置信度阈值的情况下,重新计算所述目标ROI,其中,所述跟踪置信度用于指示所述目标ROI的跟踪精确度,所述跟踪置信度与跟踪精确度成正比。本发明实施例中,处理器101不仅要基于目标ROI的跟踪情况实时的更新特征信息,以更加精准的跟踪对焦,而且更新的特征信息具有时效性,当较长一段时间之后,或者当前跟踪的目标ROI置信度低的时候,就需要考虑初始化相关参数,进行新一轮的目标ROI的确认及跟踪。
请参见图8,图8为本发明实施例所提供的目标ROI跟踪流程示意图。在目标ROI的特征提取完成后,处理器101根据预设规则选择某一种特征或者多种特征的组合以确定特征信息,经过规则判断后确定是否初始化跟踪器,如果不需要初始化跟踪器则直接进入跟踪计算,输出目标ROI的位置信息和大小信息,并输出目标的位置可能的响应图,最后基于目标ROI新的位置和大小更新特征信息等,主要可以包括如下几个步骤:
1、特征选择:这部分可以根据不同需求选择不同的特征组合,例如单独采用hog特征,或者hog+lab+cnn组合使用;
2、是否初始化?:
1)开始,启动跟踪系统,初始化跟踪器;
2)基于跟踪后处理得到的置信度,当mConfidence<0.2;并且主体目标选择模块输出新的ROI时,需要重新初始化跟踪器;
3、跟踪后处理:
1)通过跟踪计算模块后,跟踪计算算法采用相关滤波算法,例如KCF(KernelCorrelation Filte)、ECO(Efficient Convolution Operators)等,针对每一帧图像输出的响应图为w×h的浮点二维数组F[w][h]可以记为Fw,h,已归一化到0到1.0范围内;其中,响应图反映目标ROI在画面中的位置可能分布图,最大点即为目标ROI所在的位置,通过响应图可以反映目标ROI跟踪的置信度水平。
2)置信度分析:
(a)依据响应图计算最大值Fmax作为当前帧的跟踪置信度;
Confidence=max(F[w][h]);
(b)平均相关峰能量指标为average peak-to correlation energy(APCE),其中
Figure GPA0000301029140000141
其中,Fmax则为max(F[w][h]),即为(F[w][h])的最大取值;Fmin则为min(F[w][h]),即为(F[w][h])的最小取值;∑w,h(Fw,h-Fmin)2表示遍历Fw,h的每一个值和最小值相减再做平方运算,最终求和。该指标可用于表征:当计算出的该指标的值与历史平均值相比急剧下降时,就代表当前帧的目标ORI的位置和大小不可信,例如目标ROI被遮挡或者丢失等。
(c)计算每一次跟踪过程中的平均置信度AverageConfidence和平均AverageApce;假设当帧帧为第N帧,则当前帧的AverageConfidence和AverageApce为:
Figure GPA0000301029140000142
Figure GPA0000301029140000151
3)目标ROI特征信息更新策略:
请参见图9,图9为本发明实施例所提供的一种目标ROI跟踪示意图,其中,如图9的a部分所示,目标ROI初始位置在1,在画面中从1到6的运动过程中,目标跟踪算法模块实时输出目标在每一帧中的位置和大小。这时候跟踪置信度较高,需要实时更新目标ROI的特征信息。
如图9的b部分所示,目标ROI在2和4的位置发生遮挡丢失时,算法输出置信度较低,不满足特征信息更新条件,这时候不能更新目标ROI的特征信息,否则特征信息会学习到背景或其它干扰物的特征信息,因此需要等到目标ROI重新出现时才能继续更新特征信息。
本发明实施例中,处理器101根据第一图像所确定的目标ROI作为初始ROI输入,通过特征提取,特征选择,跟踪计算后,实时计算目标ROI在后续每一帧图像(包括第一图像)中的位置和大小。其中,判断特征信息是否更新的依据如下:
计算当前帧的跟踪置信度为:mConfidence;
计算历史平均置信度:mHistoryAverageConfidence;
计算当前帧的相关峰能量:mApce;
计算历史平均相关峰能量:mHistoryAverageApce;
①如果满足以下条件公式,则为满足特征信息更新条件,更新特征信息:
mConfidence>0.7×mHistoryAverageConfidenc且mApce>0.45×mHistoryAverageApce,
②如果不满足上述条件公式,且mConfidence>0.2,则为满足目标ROI特征信息不更新条件,即当前图像帧的特征信息不会参与到目标ROI特征信息的更新,以优化跟踪系统,避免目标ROI跟踪漂移;
③如果mConfidence<0.2;并且处理器101输出新的ROI时(例如当处理器101每10帧输出一次新的目标ROI),则此时可以触发处理器101重新确定目标ROI(包括NPU重新获取第一ROI集合以及CPU重新获取第二ROI集合),也即是重新完成跟踪的初始化更新。
4)实时目标信息输出:
通过跟踪算法模块后实时输出目标ROI的位置信息和大小信息,如下图的主体目标,对位置做约束处理:绿框为目标静止时的有效范围,这时候输出给AF算法做稳定对焦;红色虚线框为目标运动时的有效范围,这时候实时输出给AF算法做运动追焦
请参见图10,图10为本发明实施例提供的一种目标ROI的特征信息更新示意图。假设第一预设时间段内图像信号处理器103生成n帧图像,图10中以n=10为例,其中第1帧则可以对应本申请中的第一图像,第二图像则可以为后续第2、3、4......10帧图像中的任意一帧。具体地,
图10中,第1帧(第一图像)经过处理器101确定第一ROI集合和第二ROI集合,再确定目标ROI之后,提取该目标ROI的特征信息,即为图10中的特征信息A,也是作为目标ROI的初始识别特征信息;当图像信号处理器生成第2帧图像时,此时,先获取该第2帧图像的特征信息B;其中,获取特征信息B的方式可以是,基于目标ROI在第一帧图像中的位置和大小提取该位置和大小在第2帧图像中所对应的区域的特征信息,即为特征信息B,后续图像帧提取对应帧的目标ROI的特征信息的原理相同,不再赘述。然后处理器101将特征信息B与特征信息A进行关联比对,从而确定第1帧图像中所确定的目标ROI在第2帧图像中的位置和大小;与此同时根据特征信息A和特征信息B确定第2帧是否满足特征信息更新条件,如果满足特征信息更新条件,则利用公式特征信息A′=(k1×A+k2×B)更新所述特征信息;假设当判断出不满足上述特征信息更新条件,但也不满足初始化重启条件时,则继续使用最近一次更新的特征信息作为比对模型,或者当判断出满足初始化重启条件时,但未到达指定时间点(即处理器101输出新的目标ROI的时间点)时,也继续使用最近一次更新的特征信息作为比对模型;但是如果判断出满足初始化重启条件,并达到指定时间点时,则可以利用处理器101重新输出的目标ROI,重新进行新一轮的目标ROI的跟踪计算。可选的,上述特征信息更新公式中的k1=0.988,k2=0.012。本申请对特征信息更新的条件,以及更新公式不作具体限定。
例如,图10中,第4帧图像中确定目标ROI的特征信息D,经过将第3帧更新得到的特征信息A″与特征信息D进行关联计算之后,判断出当前第4帧图像不满足特征信息更新条件(例如,此时目标ROI在第4帧被遮挡或漂移较大)。因此,第4帧的特征信息D则不参与到后续的特征信息的更新,所以还需要沿用第3帧所更新的特征信息,也即是在第5帧确定了特征信息E之后,仍然是与第3帧更新的特征信息进行关联计算。进一步地,假设特征信息E与第3帧更新的特征信息A″进行关联计算之后,判断出满足初始化重启条件时,则需要进一步判断处理器101是否输出新的目标ROI(也可以认为判断是否达到第一预设时间段),直到处理器101输出新的目标ROI,再进行初始化。例如图10中,需要等到第11帧再重新进行目标ROI的确定,也相当于初始化了特征信息。以下为图10中每一帧图像的特征信息更新的流程:
第1帧图像:特征信息A
第2帧图像:特征信息B→更新→特征信息A′=(k1×A+k2×B)
第3帧图像:特征信息C→更新→特征信息A″=(k1×A′+k2×C)
第4帧图像:特征信息D→未更新→特征信息A″=(k1×A′+k2×C)
第5帧图像:特征信息E→未更新(满足初始化重启条件)→特征信息A″=(k1×A′+k2×C)
第6帧图像:……
第7帧图像:……
第8帧图像:……
第9帧图像:……
第10帧图像:……
第11帧图像:重新计算特征信息A
……
可以理解的是,针对图像信号处理器103生成的任意一帧图像均可以基于上述发明实施例进行跟踪对焦,并且进行特征信息的更新,在此不再穷举。
在一种可能的实现方式中,处理器101进入目标ROI跟踪对焦流程时,依据实时的目标ROI信息,判断当前目标ROI的运动状态,当目标处于静止状态时,进入稳定的目标ROI对焦,当目标ROI处于运动状态时,进入目标ROI跟踪对焦。例如,对于AF算法而言,使用目标检测算法+运动检测算法+Tracking算法可以解决跟踪目标运动时没有ROI信息以及目标静止后ROI丢失这两大问题。在利用Tracking算法,实时处理每帧图像输出ROI信息的情况下,AF算法可以直接根据ROI窗进行运动追焦,而当运动目标静止时,可以进行稳定对焦,可以解决目标不在中心时的焦点选择问题。
基于图1和图3中对对焦装置10的结构描述,图11是本发明实施例提供的一种神经网络处理器硬件结构图,其中,
神经网络处理器NPU 102作为协处理器挂载到CPU(如Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路1203,通过控制器1204控制运算电路1203提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路1203内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路1203是二维脉动阵列。运算电路1203还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路1203是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器1202中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器1201中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器1208accumulator中。
统一存储器1206用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器12012 Direct Memory Access Controller,DMAC被搬运到权重存储器1202中。输入数据也通过DMAC被搬运到统一存储器1206中。
BIU为Bus Interface Unit即,总线接口单元1210,用于AXI总线与DMAC和取指存储器1209 Instruction Fetch Buffer的交互。
总线接口单元1210(Bus Interface Unit,简称BIU),用于取指存储器1209从外部存储器获取指令,还用于存储单元访问控制器12012从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1206或将权重数据搬运到权重存储器1202中或将输入数据数据搬运到输入存储器1201中。
向量计算单元1207多个运算处理单元,在需要的情况下,对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/FC层网络计算,如Pooling(池化),Batch Normalization(批归一化),LocalResponse Normalization(局部响应归一化)等。
在一些实现种,向量计算单元能1207将经处理的输出的向量存储到统一缓存器1206。例如,向量计算单元1207可以将非线性函数应用到运算电路1203的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元1207生成归一化的值、合并值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路1203的激活输入,例如用于在神经网络中的后续层中的使用。
控制器1204连接的取指存储器(instruction fetch buffer)1209,用于存储控制器1204使用的指令;
统一存储器1206,输入存储器1201,权重存储器1202以及取指存储器1209均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
可以理解的是,图1和图3所述的关于NPU获取第一ROI集合,以及目标ROI的CNN特征提取等相关功能,均由上述NPU中相关的功能单元进行实现,在次不再赘述。
请参见图12,图12是本发明实施例提供的一种对焦方法的流程示意图,该对焦方法,适用于上述图1和图3中的任意一种对焦装置以及包含所述对焦装置的设备。该方法可以包括以下步骤S201-步骤S205。
步骤S201:确定第一感兴趣区域ROI集合和第二ROI集合,所述第一ROI集合为从图像信号处理器生成的第一图像中获取的ROI集合,所述第一ROI集合包括一个或者多个第一ROI,每个第一ROI中包括一个拍摄对象;所述第二ROI集合为从所述第一图像中获取的ROI集合,所述第二ROI集合包括一个或多个第二ROI,每个第二ROI为运动区域;
步骤S202:基于所述第一ROI集合和所述第二ROI集合确定所述第一图像中的目标ROI;
在一种可能的实现方式中,所述基于所述第一ROI集合和所述第二ROI集合确定所述第一图像中的目标ROI,包括:
从所述第一ROI集合中的一个或者多个第一ROI中确定有效第一ROI,所述有效第一ROI在所述第一图像的预设区域内;
从所述第二ROI集合中的一个或者多个第二ROI中确定有效第二ROI,所述有效第二ROI在所述第一图像的预设区域内;
在所述有效第一ROI与所述有效第二ROI的交并比IoU大于或者等于预设阈值的情况下,将所述有效第一ROI确定为目标ROI。
在一种可能的实现方式中,所述方法还包括:
在所述有效第一ROI与所述有效第二ROI的交并比IoU小于预设阈值的情况下,将所述有效第二ROI与所述有效第一ROI中距离所述第一图像中心点更近的ROI确定为目标ROI。
在一种可能的实现方式中,所述有效第一ROI在所述第一图像的预设区域内的一个或者多个第一ROI中具有最高评估分值;和/或所述有效第二ROI在所述第一图像的预设区域内的一个或者多个第二ROI中具有最高评估分值;其中,每个ROI的评估分值满足如下至少一项:与该ROI的面积成正比,与该ROI距所述第一图像的中心点的距离成反比,与该ROI所属的物体类别的优先级成正比。
步骤S203:确定所述目标ROI的特征信息;
在一种可能的实现方式中,所述特征信息包括方向梯度hog信息、颜色lab信息、卷积神经网络CNN信息中的一项或者多项。
在一种可能的实现方式中,还基于所述目标ROI在历史图像中的位置和大小所对应的特征信息更新所述目标ROI的特征信息。
在一种可能的实现方式中,所述目标ROI的特征信息是根据所述目标ROI对应的第一图像的特征信息和至少一个第三图像的特征信息确定的,所述至少一个第三图像在时域上位于第一图像和第二图像之间。
步骤S204:根据所述目标ROI的特征信息,识别所述目标ROI在所述图像信号处理器生成的第二图像中的位置信息和大小信息,所述第一图像在时域上位于所述第二图像之前;
步骤S205:根据所述位置信息和大小信息进行对焦。
在一种可能的实现方式中,在第一预设时间段后,重新计算所述目标ROI;或者
在一种可能的实现方式中,当所述目标ROI的跟踪置信度小于置信度阈值的情况下,重新计算所述目标ROI,其中,所述跟踪置信度用于指示所述目标ROI的跟踪精确度,所述跟踪置信度与跟踪精确度成正比。
需要说明的是,本发明实施例中所描述的校准方法中的具体流程,可参见上述图1-图11中所述的发明实施例中的相关描述,此处不再赘述。
请参见图13,图13是本发明实施例提供的又一种对焦装置的结构示意图,该对焦装置30可包括第一处理单元301、第二处理单元302、第三处理单元303、识别单元304和对焦单元305,其中,
第一处理单元301,用于确定第一感兴趣区域ROI集合和第二ROI集合,所述第一ROI集合为从图像信号处理器生成的第一图像中获取的ROI集合,所述第一ROI集合包括一个或者多个第一ROI,每个第一ROI中包括一个拍摄对象;所述第二ROI集合为从所述第一图像中获取的ROI集合,所述第二ROI集合包括一个或多个第二ROI,每个第二ROI为运动区域;
第二处理单元302,用于基于所述第一ROI集合和所述第二ROI集合确定所述第一图像中的目标ROI;
第三处理单元303,用于确定所述目标ROI的特征信息;
识别单元304,用于根据所述目标ROI的特征信息,识别所述目标ROI在所述图像信号处理器生成的第二图像中的位置信息和大小信息,所述第一图像在时域上位于所述第二图像之前;
对焦单元305,用于根据所述位置信息和大小信息进行对焦。
在一种可能的实现方式中,第二处理单元302,具体用于:
从所述第一ROI集合中的一个或者多个第一ROI中确定有效第一ROI,所述有效第一ROI在所述第一图像的预设区域内;
从所述第二ROI集合中的一个或者多个第二ROI中确定有效第二ROI,所述有效第二ROI在所述第一图像的预设区域内;
在所述有效第一ROI与所述有效第二ROI的交并比IoU大于或者等于预设阈值的情况下,将所述有效第一ROI确定为目标ROI。
在一种可能的实现方式中,第二处理单元302还用于:
在所述有效第一ROI与所述有效第二ROI的交并比IoU小于预设阈值的情况下,将所述有效第二ROI与所述有效第一ROI中距离所述第一图像中心点更近的ROI确定为目标ROI。
在一种可能的实现方式中,所述有效第一ROI在所述第一图像的预设区域内的一个或者多个第一ROI中具有最高评估分值;和/或所述有效第二ROI在所述第一图像的预设区域内的一个或者多个第二ROI中具有最高评估分值;其中,每个ROI的评估分值满足如下至少一项:与该ROI的面积成正比,与该ROI距所述第一图像的中心点的距离成反比,与该ROI所属的物体类别的优先级成正比。
在一种可能的实现方式中,所述第三处理单元303还用于:基于所述目标ROI在历史图像中的位置和大小所对应的特征信息更新所述目标ROI的特征信息。
在一种可能的实现方式中,所述目标ROI的特征信息是根据所述目标ROI对应的第一图像的特征信息和至少一个第三图像的特征信息确定的,所述至少一个第三图像在时域上位于第一图像和第二图像之间。
在一种可能的实现方式中,所述装置还包括:
第一初始化单元306,用于在第一预设时间段后,重新计算所述目标ROI;或者
第二初始化单元307,用于当所述目标ROI的跟踪置信度小于置信度阈值的情况下,重新计算所述目标ROI,其中,所述跟踪置信度用于指示所述目标ROI的跟踪精确度,所述跟踪置信度与跟踪精确度成正比。
在一种可能的实现方式中,所述特征信息包括方向梯度hog信息、颜色lab信息、卷积神经网络CNN信息中的一项或者多项。
需要说明的是,本发明实施例中所描述的对焦装置30中相关单元的功能可参见上述图1-图11中所述的相关装置实施例,以及图12中所述的方法实施例中的相关描述,此处不再赘述。
图13中每个单元可以以软件、硬件、或其结合实现。以硬件实现的单元可以包括路及电炉、算法电路或模拟电路等。以软件实现的单元可以包括程序指令,被视为是一种软件产品,被存储于存储器中,并可以被处理器运行以实现相关功能,具体参见之前的介绍。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的任意一种的部分或全部步骤。
本发明实施例还提供一种计算机程序,该计算机程序包括指令,当该计算机程序被计算机执行时,使得计算机可以执行任意一种车载设备升级方法的部分或全部步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可能可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本申请各个实施例上述方法的全部或部分步骤。其中,而前述的存储介质可包括:U盘、移动硬盘、磁碟、光盘、只读存储器(Read-Only Memory,缩写:ROM)或者随机存取存储器(Random Access Memory,缩写:RAM)等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种对焦装置,其特征在于,包括处理器、以及耦合于所述处理器的神经网络处理器和图像信号处理器;
所述图像信号处理器,用于生成第一图像;
所述神经网络处理器,用于获取所述第一图像中的第一感兴趣区域ROI集合,所述第一ROI集合包括一个或者多个第一ROI,每个第一ROI中包括一个拍摄对象;
所述处理器,用于:
获取所述第一图像中第二ROI集合,所述第二ROI集合包括一个或多个第二ROI,每个第二ROI为运动区域;
基于所述第一ROI集合和所述第二ROI集合确定所述第一图像中的目标ROI;
确定所述目标ROI的特征信息;
根据所述目标ROI的特征信息,识别所述目标ROI在所述图像信号处理器生成的第二图像中的位置信息和大小信息,所述第一图像在时域上位于所述第二图像之前;以及
根据所述位置信息和大小信息进行对焦;
所述处理器具体用于:
从所述第一ROI集合中的一个或者多个第一ROI中确定有效第一ROI,所述有效第一ROI在所述第一图像的第一预设区域内;
从所述第二ROI集合中的一个或者多个第二ROI中确定有效第二ROI,所述有效第二ROI在所述第一图像的第二预设区域内;
在所述有效第一ROI与所述有效第二ROI的交并比IoU大于或者等于预设阈值的情况下,将所述有效第一ROI确定为目标ROI。
2.根据权利要求1所述的装置,其特征在于,所述处理器,还具体用于:
在所述有效第一ROI与所述有效第二ROI的交并比小于预设阈值的情况下,将所述有效第二ROI与所述有效第一ROI中距离所述第一图像中心点更近的ROI确定为目标ROI。
3.根据权利要求1或2所述的装置,其特征在于,所述有效第一ROI在所述第一图像的预设区域内的一个或者多个第一ROI中具有最高评估分值;和/或所述有效第二ROI在所述第一图像的预设区域内的一个或者多个第二ROI中具有最高评估分值;其中,每个ROI的评估分值满足如下至少一项:与该ROI的面积成正比,与该ROI距所述第一图像的中心点的距离成反比,与该ROI所属的物体类别的优先级成正比。
4.根据权利要求1或2所述的装置,其特征在于,所述处理器还用于:基于所述目标ROI在历史图像中的位置和大小所对应的特征信息更新所述目标ROI的特征信息。
5.根据权利要求1或2所述的装置,其特征在于,所述处理器还用于:
在第一预设时间段后,重新计算所述目标ROI;或者
当所述目标ROI的跟踪置信度小于置信度阈值的情况下,重新计算所述目标ROI,其中,所述跟踪置信度用于指示所述目标ROI的跟踪精确度,所述跟踪置信度与跟踪精确度成正比。
6.根据权利要求1或2所述的装置,其特征在于,所述特征信息包括方向梯度hog信息、颜色lab信息、卷积神经网络CNN信息中的一项或者多项。
7.一种对焦方法,其特征在于,包括:
确定第一感兴趣区域ROI集合和第二ROI集合,所述第一ROI集合为从图像信号处理器生成的第一图像中获取的ROI集合,所述第一ROI集合包括一个或者多个第一ROI,每个第一ROI中包括一个拍摄对象;所述第二ROI集合为从所述第一图像中获取的ROI集合,所述第二ROI集合包括一个或多个第二ROI,每个第二ROI为运动区域;
基于所述第一ROI集合和所述第二ROI集合确定所述第一图像中的目标ROI;
确定所述目标ROI的特征信息;
根据所述目标ROI的特征信息,识别所述目标ROI在所述图像信号处理器生成的第二图像中的位置信息和大小信息,所述第一图像在时域上位于所述第二图像之前;
根据所述位置信息和大小信息进行对焦;
所述基于所述第一ROI集合和所述第二ROI集合确定所述第一图像中的目标ROI,包括:
从所述第一ROI集合中的一个或者多个第一ROI中确定有效第一ROI,所述有效第一ROI在所述第一图像的第一预设区域内;
从所述第二ROI集合中的一个或者多个第二ROI中确定有效第二ROI,所述有效第二ROI在所述第一图像的第二预设区域内;
在所述有效第一ROI与所述有效第二ROI的交并比IoU大于或者等于预设阈值的情况下,将所述有效第一ROI确定为目标ROI。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在所述有效第一ROI与所述有效第二ROI的交并比IoU小于预设阈值的情况下,将所述有效第二ROI与所述有效第一ROI中距离所述第一图像中心点更近的ROI确定为目标ROI。
9.根据权利要求7或8所述的方法,其特征在于,所述有效第一ROI在所述第一图像的预设区域内的一个或者多个第一ROI中具有最高评估分值;和/或所述有效第二ROI在所述第一图像的预设区域内的一个或者多个第二ROI中具有最高评估分值;其中,每个ROI的评估分值满足如下至少一项:与该ROI的面积成正比,与该ROI距所述第一图像的中心点的距离成反比,与该ROI所属的物体类别的优先级成正比。
10.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:基于所述目标ROI在历史图像中的位置和大小所对应的特征信息更新所述目标ROI的特征信息。
11.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:
在第一预设时间段后,重新计算所述目标ROI;或者
当所述目标ROI的跟踪置信度小于置信度阈值的情况下,重新计算所述目标ROI,其中,所述跟踪置信度用于指示所述目标ROI的跟踪精确度,所述跟踪置信度与跟踪精确度成正比。
12.根据权利要求7或8所述的方法,其特征在于,所述特征信息包括方向梯度hog信息、颜色lab信息、卷积神经网络CNN信息中的一项或者多项。
13.一种电子设备,其特征在于,包括图像传感器、和如权利要求1-6任意一项所述的对焦装置;其中
所述图像传感器,用于采集图像数据;
所述图像信号处理器,用于基于所述图像数据生成所述第一图像。
14.根据权利要求13所述的电子设备,其特征在于,还包括:存储器,用于存储程序指令;所述程序指令被所述处理器执行。
15.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述权利要求7-12任意一项所述的方法。
CN201880096896.4A 2018-08-30 2018-08-30 一种对焦装置、方法及相关设备 Active CN112602319B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/103370 WO2020042126A1 (zh) 2018-08-30 2018-08-30 一种对焦装置、方法及相关设备

Publications (2)

Publication Number Publication Date
CN112602319A CN112602319A (zh) 2021-04-02
CN112602319B true CN112602319B (zh) 2022-09-23

Family

ID=69644764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880096896.4A Active CN112602319B (zh) 2018-08-30 2018-08-30 一种对焦装置、方法及相关设备

Country Status (2)

Country Link
CN (1) CN112602319B (zh)
WO (1) WO2020042126A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626916B (zh) * 2020-06-01 2024-03-22 上海商汤智能科技有限公司 信息处理方法、装置及设备
CN112132162B (zh) * 2020-09-08 2024-04-02 Oppo广东移动通信有限公司 图像处理方法、图像处理器、电子设备及可读存储介质
CN117036149A (zh) * 2020-12-01 2023-11-10 华为技术有限公司 一种图像处理方法及芯片
CN116055866B (zh) * 2022-05-30 2023-09-12 荣耀终端有限公司 一种拍摄方法及相关电子设备
CN114827481B (zh) * 2022-06-29 2022-10-25 深圳思谋信息科技有限公司 对焦方法、装置、变焦设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312974A (zh) * 2012-03-14 2013-09-18 卡西欧计算机株式会社 图像处理装置以及图像处理方法
CN106254780A (zh) * 2016-08-31 2016-12-21 宇龙计算机通信科技(深圳)有限公司 一种双摄像头拍照控制方法、拍照控制装置及终端
CN107302658A (zh) * 2017-06-16 2017-10-27 广东欧珀移动通信有限公司 实现人脸清晰的对焦方法、装置和计算机设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007077283A1 (en) * 2005-12-30 2007-07-12 Nokia Corporation Method and device for controlling auto focusing of a video camera by tracking a region-of-interest
KR101023339B1 (ko) * 2009-07-16 2011-03-18 삼성전기주식회사 이동 피사체의 자동 추적 시스템 및 그 방법
JP5493789B2 (ja) * 2009-12-07 2014-05-14 株式会社リコー 撮像装置および撮像方法
US9538065B2 (en) * 2014-04-03 2017-01-03 Qualcomm Incorporated System and method for multi-focus imaging
CN106324945A (zh) * 2015-06-30 2017-01-11 中兴通讯股份有限公司 非接触式自动对焦方法和装置
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN106060407A (zh) * 2016-07-29 2016-10-26 努比亚技术有限公司 一种对焦方法及终端
CN108024065B (zh) * 2017-12-28 2020-07-10 珠海大横琴科技发展有限公司 一种终端拍摄的方法、终端及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312974A (zh) * 2012-03-14 2013-09-18 卡西欧计算机株式会社 图像处理装置以及图像处理方法
CN106254780A (zh) * 2016-08-31 2016-12-21 宇龙计算机通信科技(深圳)有限公司 一种双摄像头拍照控制方法、拍照控制装置及终端
CN107302658A (zh) * 2017-06-16 2017-10-27 广东欧珀移动通信有限公司 实现人脸清晰的对焦方法、装置和计算机设备

Also Published As

Publication number Publication date
WO2020042126A1 (zh) 2020-03-05
CN112602319A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN112602319B (zh) 一种对焦装置、方法及相关设备
CN109559320B (zh) 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
WO2020259179A1 (zh) 对焦方法、电子设备和计算机可读存储介质
CN114424253A (zh) 模型训练方法、装置、存储介质及电子设备
CN111566612A (zh) 基于姿势和视线的视觉数据采集系统
CN110493527B (zh) 主体对焦方法、装置、电子设备和存储介质
EP3627821B1 (en) Focusing method and apparatus for realizing clear human face, and computer device
KR20180042254A (ko) 오브젝트 추적을 위한 시스템들 및 방법들
CN111797657A (zh) 车辆周边障碍检测方法、装置、存储介质及电子设备
CN113762252A (zh) 无人机智能跟随目标确定方法、无人机和遥控器
KR20230084486A (ko) 이미지 효과를 위한 세그먼트화
CN111147751B (zh) 拍照模式的生成方法、装置和计算机可读存储介质
CN110222718A (zh) 图像处理的方法及装置
CN111598065A (zh) 深度图像获取方法及活体识别方法、设备、电路和介质
CN112464930A (zh) 目标检测网络构建方法、目标检测方法、装置和存储介质
CN111291646A (zh) 一种人流量统计方法、装置、设备及存储介质
CN109981967B (zh) 用于智能机器人的拍摄方法、装置、终端设备及介质
CN112101456B (zh) 注意力特征图获取方法及装置、目标检测的方法及装置
CN108665459A (zh) 一种图像模糊检测方法、计算设备及可读存储介质
CN106922181A (zh) 方向感知自动聚焦
CN112655021A (zh) 图像处理方法、装置、电子设备和存储介质
CN113056907A (zh) 拍摄方法、拍摄装置及存储介质
CN116012609A (zh) 一种环视鱼眼多目标跟踪方法、装置、电子设备及介质
CN117252912A (zh) 深度图像获取方法、电子设备及存储介质
CN115223135A (zh) 车位跟踪方法、装置、车辆及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant