CN117714859A - 离焦量获取方法、装置、电子设备及可读存储介质 - Google Patents
离焦量获取方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN117714859A CN117714859A CN202310961905.4A CN202310961905A CN117714859A CN 117714859 A CN117714859 A CN 117714859A CN 202310961905 A CN202310961905 A CN 202310961905A CN 117714859 A CN117714859 A CN 117714859A
- Authority
- CN
- China
- Prior art keywords
- module
- defocus amount
- confidence
- errors
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 13
- 230000000007 visual effect Effects 0.000 claims description 10
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 239000010410 layer Substances 0.000 description 61
- 230000006870 function Effects 0.000 description 30
- 238000004891 communication Methods 0.000 description 21
- 238000007726 management method Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 9
- 230000004913 activation Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010295 mobile communication Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000009021 linear effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000003416 augmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000009022 nonlinear effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 244000141359 Malus pumila Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Landscapes
- Studio Devices (AREA)
Abstract
本申请提供了一种离焦量获取方法、装置、电子设备及可读存储介质,涉及终端领域。该方法包括:通过对焦模型,获取每组对焦参考图像对应的预测离焦量和置信度,其中,对焦模型中包括第一模块和第二模块,第一模块用于输出预测离焦量,第二模块用于输出预测离焦量的置信度,第二模块是根据第一模块输出的预测离焦量与真实离焦量之间的误差以及预测离焦量的置信度训练得到的。根据每个预测离焦量对应的置信度,确定多个预测离焦量中的目标离焦量。第二模块在进行训练时,考虑了预测离焦量与真实离焦量之间的误差,由于误差越小,置信度越准确,所以第二模块根据对焦参考图像输出的置信度更加准确,确定的目标离焦量更准确。
Description
技术领域
本申请涉及终端领域,尤其涉及一种离焦量获取方法、装置、电子设备及可读存储介质。
背景技术
相位检测自动对焦(Phase Detection Auto Focus,PDAF),是目前移动端拍照领域的主流对焦方式。相比于传统的反差对焦方式,相位对焦方式对焦速度更快。相位对焦的原理是将感光元件上对称设置的两个采集单元分别遮盖左半边和右半边,模拟人眼的视线角度差,并根据视线角度差计算对焦是否准确。在计算对焦是否准确时,需要计算离焦量(Defocus),即将对焦马达驱动镜头移动至焦点时的距离。计算得到的离焦量的准确度会直接影响PDAF的对焦效果。
但是,通过目前常用的离焦量计算方式计算得到的离焦量准确度欠佳,进而导致PDAF的对焦效果不理想。
发明内容
本申请提供一种离焦量获取方法、装置、电子设备及可读存储介质,通过在控制电子设备进入长待机模式之前,确定电子设备的目标参数是否符合第一预设条件,若符合则确定控制电子设备进入长待机模式。可以改善进入长待机模式的时间不准确,导致降低功耗的效果不明显或影响用户的使用体验的问题。
为达到上述目的,本申请采用如下技术方案:
第一方面,提供了一种离焦量获取方法,应用于电子设备,该方法包括:
获取多组对焦参考图像,每组对焦参考图像包括至少两张同一场景不同视角的图像;通过预先训练的对焦模型,根据多组对焦参考图像,获取每组对焦参考图像对应的预测离焦量和预测离焦量的置信度,其中,对焦模型中包括第一模块和第二模块,第一模块用于输出预测离焦量,第二模块用于输出预测离焦量的置信度,第二模块是根据第一模块输出的预测离焦量与真实离焦量之间的误差、以及预测离焦量的置信度训练得到的;根据每个多个预测离焦量对应的置信度,从多个预测离焦量确定多个离焦量中的确定目标离焦量。
在本申请的实施例中,离焦量获取方法可以应用于包含拍照功能且支持PDAF的电子设备,包括手机、平板电脑、掌上游戏机、可穿戴设备、增强现实/虚拟现实设备、笔记本电脑、超级移动个人计算机、上网本、个人数字助理等。
在第一方面中,预测离焦量的置信度是通过第二模块预测得到的,第二模块在进行训练时,考虑了预测离焦量与真实离焦量之间的误差。由于误差越小,置信度越准确,因此,训练得到的第二模块根据对焦参考图像输出的置信度更加准确,确定的目标离焦量更准确,根据目标离焦量进行对焦时的对焦效果也更好。
一些可能的实施方式中,根据第一模块输出的预测离焦量与真实离焦量之间的误差以及预测离焦量的置信度训练得到第二模块,包括:
获取多组对焦参考图像样本,提取每组对焦参考图像样本的图像特征,每组对焦参考图像样本包括至少两张同一场景不同视角的图像以及真实离焦量;将每组对焦参考图像样本的图像特征,分别输入第一模块和第二模块,得到每组对焦参考图像样本对应的预测离焦量以及预测离焦量的置信度;获取每组对焦参考图像样本对应的预测离焦量与真实离焦量之间的误差;根据误差,将符合第一预设条件的置信度标记为真,将不符合第一预设条件的置信度标记为假;根据置信度的标记对第二模块进行训练,得到训练后的第二模块。
其中,训练第二模块时,先通过第一模块输出预测离焦量,通过第二模块输出预测离焦量的置信度,然后计算预测离焦量与真实离焦量的误差。根据误差,对每个预测离焦量的置信度进行标记,根据置信度的标记对第二模块进行训练,得到训练后的第二模块。由于第一模块和第二模块使用相同的图像特征,训练时既考虑了误差又考虑的图像特征,使得训练得到的第二模块输出的置信度能够更加准确的表示对应的预测离焦量是否正确,使确定的目标离焦量更准确,根据目标离焦量进行对焦时的对焦效果也更好。
一些可能的实施方式中,根据误差,将符合第一预设条件的置信度标记为真,将不符合第一预设条件的置信度标记为假,包括:将误差进行排序;确定排序后的误差中符合第一阈值的误差对应的置信度符合第一预设条件;确定排序后的误差中不符合第一阈值的误差对应的置信度不符合第一预设条件。
一些可能的实施方式中,将误差按照从小到大的顺序进行排序,第一阈值为p%;
确定排序后的误差中符合第一阈值的误差对应的置信度符合第一预设条件,包括:确定排序后的误差中前p%个误差对应的置信度符合第一预设条件。确定排序后的误差中不符合第一阈值的误差对应的置信度不符合第一预设条件,包括:确定排序后的误差中后(100-p)%个误差对应的置信度不符合第一预设条件。
一些可能的实施方式中,将误差按照从小到大的顺序进行排序,第一阈值为预设的误差数量n,n为大于或等于1的整数;
确定排序后的误差中符合第一阈值的误差对应的置信度符合第一预设条件,包括:确定排序后的误差中前n个误差对应的置信度符合第一预设条件。确定排序后的误差中不符合第一阈值的误差对应的置信度不符合第一预设条件,包括:确定排序后的误差中第n个之后的误差对应的置信度不符合第一预设条件。
一些可能的实施方式中,对焦模型中还包括特征提取模块,第一模块和第二模块分别与特征提取模块连接。
一些可能的实施方式中,通过预先训练的对焦模型,根据多组对焦参考图像,获取每组对焦参考图像对应的离焦量和置信度,包括:通过特征提取模块,根据对焦参考图像获取对焦参考图像的图像特征。通过第一模块,根据图像特征获取对焦参考图像的预测离焦量。通过第二模块,根据图像特征获取对焦参考图像预测离焦量的置信度。
第二方面,提供了一种离焦量获取装置,应用于电子设备,包括:
获取模块,用于获取多组对焦参考图像,每组对焦参考图像包括至少两张同一场景不同视角的图像。获取模块,还用于通过预先训练的对焦模型,根据多组对焦参考图像,获取每组对焦参考图像对应的预测离焦量和预测离焦量的置信度,其中,对焦模型中包括第一模块和第二模块,第一模块用于输出预测离焦量,第二模块用于输出预测离焦量的置信度,第二模块是根据第一模块输出的预测离焦量与真实离焦量之间的误差以及预测离焦量的置信度训练得到的。确定模块,用于根据多个预测离焦量对应的置信度,从多个预测离焦量确定目标离焦量。
一些可能的实施方式中,该装置还包括训练模块,用于获取多组对焦参考图像样本,提取每组对焦参考图像样本的图像特征,每组对焦参考图像样本包括至少两张同一场景不同视角的图像以及真实离焦量;将每组对焦参考图像样本的图像特征,分别输入第一模块和第二模块,得到每组对焦参考图像样本对应的预测离焦量以及预测离焦量的置信度;获取每组对焦参考图像样本对应的预测离焦量与真实离焦量之间的误差;根据误差,将符合第一预设条件的置信度标记为真,将不符合第一预设条件的置信度标记为假;根据置信度的标记对第二模块进行训练,得到训练后的第二模块。
一些可能的实施方式中,还包括标记模块,用于将误差进行排序;确定排序后的误差中符合第一阈值的误差对应的置信度符合第一预设条件;确定排序后的误差中不符合第一阈值的误差对应的置信度不符合第一预设条件。
一些可能的实施方式中,将误差按照从小到大的顺序进行排序,第一阈值为p%;
标记模块,具体用于确定排序后的误差中前p%个误差对应的置信度符合第一预设条件;标记模块,具体用于确定排序后的误差中后p%个误差对应的置信度不符合第一预设条件。
一些可能的实施方式中,将误差按照从小到大的顺序进行排序,第一阈值为预设的误差数量n,n为大于或等于1的整数;
标记模块,具体用于确定排序后的误差中前n个误差对应的置信度符合第一预设条件;
标记模块,具体用于确定排序后的误差中第n个之后的误差对应的置信度不符合第一预设条件。
一些可能的实施方式中,对焦模型中还包括特征提取模块,第一模块和第二模块分别与特征提取模块连接。
一些可能的实施方式中,获取模块,具体用于通过预先训练的对焦模型,根据多组对焦参考图像,获取每组对焦参考图像对应的离焦量和置信度,包括:通过特征提取模块,根据对焦参考图像获取对焦参考图像的图像特征。通过第一模块,根据图像特征获取对焦参考图像的预测离焦量。通过第二模块,根据图像特征获取对焦参考图像预测离焦量的置信度。
第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时行第一方面或第一方面中任一种方法中进行处理的步骤。
第四方面,提供了一种芯片,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行第一方面或第一方面中任一种方法中进行处理的步骤。
第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,使所述处理器执行第一方面或第一方面中任一种方法中进行处理的步骤。
第六方面,提供了一种计算机程序产品,计算机程序产品包括:计算机程序代码,当计算机程序代码被电子设备运行时,使得该电子设备执行第一方面或第一方面中任一种方法中进行处理的步骤。
其中,第二方面至第六方面的有益效果可以参照第一方面,在此不做赘述。
附图说明
图1是本申请实施例提供的一种离焦量获取方法的应用场景示意图;
图2是本申请实施例提供的一种电子设备的硬件结构框图;
图3是本申请实施例提供的电子设备的系统结构框图;
图4是本申请实施例提供的电子设备的软件结构框图;
图5是本申请实施例提供的离焦量获取方法的流程示意图;
图6是本申请实施例提供的离焦量获取方法中第二模块的训练流程示意图;
图7是本申请实施例提供的一种离焦量获取装置的结构框图;
图8是本申请实施例提供的一种芯片的结构示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
相位检测自动对焦(Phase Detection Auto Focus,PDAF),是目前移动端拍照领域的主流对焦方式。相比于传统的反差对焦方式,相位对焦方式对焦速度更快。相位对焦的原理是将感光元件上对称设置的两个采集单元分别遮盖左半边和右半边,模拟人眼的视线角度差,并根据视线角度差计算对焦是否准确。
在计算对焦是否准确时,需要计算离焦量(Defocus),即将对焦马达驱动镜头移动至焦点时的距离。计算得到的离焦量的准确度会直接影响PDAF的对焦效果。
有一种方案中,在计算离焦量时,是通过一个分类网络输出离焦量的概率分布,然后根据概率分布输出离焦量和置信度。但是,这种方式没有考虑图像特征、离焦量误差等因素,计算得到的离焦量准确度欠佳,进而导致PDAF的对焦效果不理想。
有鉴于此,本申请提供了一种离焦量获取方法,应用于电子设备,该方法包括:
获取多组对焦参考图像,每组对焦参考图像包括至少两张同一场景不同视角的图像;通过预先训练的对焦模型,根据多组对焦参考图像,获取每组对焦参考图像对应的预测离焦量和预测离焦量的置信度,其中,对焦模型中包括第一模块和第二模块,第一模块用于输出预测离焦量,第二模块用于输出预测离焦量的置信度,第二模块是根据第一模块输出的预测离焦量与真实离焦量之间的误差、以及预测离焦量的置信度训练得到的;根据每个多个预测离焦量对应的置信度,从多个预测离焦量确定多个离焦量中的确定目标离焦量。
本申请中,预测离焦量的置信度是通过第二模块预测得到的,第二模块在进行训练时,考虑了预测离焦量与真实离焦量之间的误差。由于误差越小,置信度越准确,因此,训练得到的第二模块根据对焦参考图像输出的置信度更加准确,确定的目标离焦量更准确,根据目标离焦量进行对焦时的对焦效果也更好。
图1是本申请实施例提供的一种离焦量获取方法的应用场景示意图。
参考图1,首先对本申请实施例的应用场景进行简要说明。
图1中示出了电子设备100,当电子设备100响应操作进入相机应用开始拍照或录像时,相机应用会调用摄像头获取拍摄对象21的预览图像,并根据预览图像进行PDAF。
在进行PDAF时,可以将感光元件上对称设置的两个采集单元,分别遮盖左半边和右半边采集预览图像,得到的同一拍摄对象21不同视角的第一视角图像22和第二视角图像23。
然后,通过对焦模型根据第一视角图像22和第二视角图像23进行PDAF,获取离焦量,离焦量是在对焦准确时,摄像头中马达驱动镜头移动的距离。
最后,相机应用控制摄像头中的马达驱动镜头移动至离焦量指示的距离后,完成对焦。
图2是本申请实施例提供的一种电子设备的硬件结构框图。
在本申请中,电子设备包含拍照功能且支持PDAF,作为示例,电子设备可以包括手机、平板电脑、掌上游戏机、可穿戴设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等。对于电子设备的具体类型,本申请实施例不作任何限制。
参考图2,电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
作为举例,当电子设备100为手机或平板电脑时,可以包括图示中的全部部件,也可以仅包括图示中的部分部件。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备100的各种功能应用以及数据处理。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,电子设备100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当电子设备100是翻盖机时,电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备100附近有物体。当检测到不充分的反射光时,电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测电子设备100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,电子设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,电子设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
在本申请实施例中,温度传感器180J可以包括多个,用于检测电子设备100不同位置的温度,如可以设置在处理器附近,获取处理器的温度,设置在电池附近,获取电池的温度或者设置在电子设备100的外壳内侧,用于获取电子设备100外壳的温度。
触摸传感器180K,也称“触控器件”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备100中,不能和电子设备100分离。
对于以上示例中的场景,电子设备100的操作系统可以包括但不限于塞班(Symbian)、安卓(Andriod)、窗口(Windows)、苹果(MacOS、iOS)、黑莓(Blackberry)、鸿蒙(HarmonyOS)、林纳斯(Linux)或尤内克斯(Unix)等操作系统。
图3是本申请实施例提供的电子设备的系统结构框图。
作为示例,当本申请提供的离焦量获取方法在电子设备100上运行时,电子设备100的操作系统可以是Andriod,其系统结构可以参照图3。
其中,分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。
应用程序层可以包括一系列应用程序包。
如图3所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图3所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示字符的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示字符的视图以及显示图片的视图。
电话管理器用于提供电子设备的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
图4是本申请实施例提供的电子设备的软件结构框图。
参考图4,电子设备的软件结构包括对焦模型,对焦模型中包括特征提取模块、第一模块和第二模块。参考图1,电子设备的软件结构还包括拍照应用,拍照应用调用摄像头,通过摄像头中的感光组件和镜头,获取多组对焦参考图像,每组对焦参考图像中包括至少一张第一视角图像和一张第二视角图像。
对焦模型中的特征提取模块用于根据第一视角图像和第二视角图像获取图像特征,图像特征可以包括图像的模糊程度、亮度、信噪比等。特征提取模块可以是神经网络中的卷积层,例如多个卷积层和池化层的组合。
第一模块和第二模块分别与特征提取模块连接,共用特征提取模块提取得到的图像特征。特征提取模块的两个头部(head),第一模块和第二模块的结构类似,可以是一组全连接层。例如,第一模块或第二模块可以是三个全连接层的组合。
图5是本申请实施例提供的离焦量获取方法的流程示意图。
参考图5,离焦量获取方法包括:
S501、获取对焦参考图像的图像特征,执行S502和S504。
一些可能的实施方式中,特征提取模块的目标是从输入的图像中提取出具有代表性的特征。作为示例,特征提取模块可以包含4层全卷积层,每一层均设置有不同尺寸和通道数。
例如,第一层全卷积层的尺寸可以为192*192,并且具有2个通道。在第一层全卷积层中,对焦参考图像在经过卷积操作后,可以生成具有两个特征通道的输出。第二层全卷积层的尺寸可以为64*64,并且具有16个通道。通过卷积操作,第二层全卷积层将进一步提取对焦参考图像中更加抽象和复杂的特征。第三层全卷积层的尺寸可以16*16,通道数为64。在这一层中,更加精细的特征将被抽取出来,以捕捉对焦参考图像中更加细微的模式和结构。特征提取模块的最后一层全卷积层的尺寸可以是1*1,通道数为256。这一层的主要任务是将之前提取的特征进行整合和压缩,以准备好将其输入到后续的模块中进行进一步的处理和分析。
一些可能的实施方式中,特征提取模块中每一层卷积层之间都可以通过整流线性单元(Rectified Linear Unit,ReLU)激活函数进行传递。通过ReLU激活函数进行传递,每一层卷积层都能够保留输入的对焦参考图像中的特征信息,并将其传递到下一层,有助于特征提取模块更好地学习和捕捉输入的对焦参考图像中的不同特征,后续的处理提供更有用和丰富的输入。
需要说明的是,特征提取模块在获取到对焦参考图像的图像特征后,可以同时将图像特征分别发送给第一模块和第二模块(即执行S502和S504)。
在本实施例中,第一模块和第二模块共用一个特征提取模块,接收同一个特征提取模块提供的图像特征,减少了模型的训练量,降低了计算规模,减少了资源占用,提高了训练效率。
S502、发送对焦参考图像的图像特征给第一模块。
一些可能的实现方式中,特征提取模块可以通过张量(Tensor)的形式,将对焦参考图像的图像特征发送给第一模块。
其中,Tensor是一种多维数组结构,它可以表示各种数据类型,如图像、声音、文本等。在深度学习中,Tensor是神经网络中进行数据传递和计算的基本数据结构。
作为示例,图像特征中可以包括多个特征,每个特征可以通过一个向量表示。若所有特征对应的向量长度相等,则可以将图像特征组织为一个二维的Tensor。Tensor中每行为一个特征对应的向量。
假设特征数量为A,向量长度为B,则可以生成一个形状为(A,B)的Tensor。在确定了Tensor形状后,还可以根据实际应用场景,确定Tensor的数据类型是浮点数还是整数。然后,将对焦参考图像的图像特征填充至Tensor中。最后,将填充后的Tensor作为输入,输入至第一模块,将对焦参考图像的图像特征发送给第一模块。
通过以Tensor的形式发送对焦参考图像的图像特征给第一模块,可以更高效地组织和处理特征数据,使得第一模块能够更轻松地处理对焦参考图像的图像特征以完成预测任务。
S503、第一模块根据对焦参考图像的图像特征,获取离焦量。
一些可能的实施方式中,第一模块可以包括三个全连接层,每层分别有256、64、1个节点。每层通过ReLU激活函数传递到下一层。第一模块也可以称为离焦量预测模块,当第一模块接收到来自特征提取模块的对焦参考图像的图像特征后,可以依次通过3个全连接层对图像特征进行处理,获取离焦量。
作为示例,第一个全连接层具有256个节点。在第一个全连接层中,每个节点可以与与图像特征的不同组合相关联,将图像特征进行进一步的组合和映射,以获取更高级且更抽象的特征。该层通过ReLU激活函数将提取的特征其输出传递到下一层。其中,ReLU激活函数可以使得负值变为零,保留正值,有效地引入了非线性性质。
第二个全连接层具有64个节点。类似于第一个全连接层,第二个全连接层接收第一个全连接层输出的特征,并将每个节点与第一个全连接层输出的特征相关联,基于第一个全连接层输出的特征,获取更加抽象和复杂的特征。同样地,ReLU激活函数被应用于该层的输出,以引入非线性性质。
第三个全连接层具有1个节点,其输出即为预测得到的离焦量。此节点对输入特征进行进一步的组合和计算,如采用线性或非线性的函数进行映射和转换,以得到预测的离焦量。
S504、以Tensor的形式发送对焦参考图像的图像特征给第二模块。
一些可能的实施方式中,S504的实现方式与S502相同,具体可参照S502中的内容,在此不做赘述。
S505、第二模块根据对焦参考图像的图像特征,获取预测离焦量的置信度。
一些可能的实施方式中,置信度表示第一模块基于对焦参考图像的图像特征获取得到的预测离焦量为真实离焦量(即对焦准确时的离焦量)的概率。置信度可以为[0,1]之间的数值。置信度越接近1,表示第一模块基于对焦参考图像的图像特征获取得到的预测离焦量为真实离焦量的概率越大;置信度越接近0,表示第一模块基于对焦参考图像的图像特征获取得到的离焦量为真实离焦量的概率越小。
一些可能的实施方式中,第二模块包括三个全连接层,每层分别有256、64、1个节点。每层通过ReLU激活函数传递到下一层。将对焦参考图像的图像特征输入第二模块后,第二模块根据对焦参考图像的图像特征进行计算,生成对焦参考图像对应的置信度。
作为示例,第二模块中前两个全连接层对特征的处理方式可以与第一模块中前两个卷积层类似,在此不做赘述。
第二模块中第三个全连接层设置了一个节点,该节点的输出即为置信度。这个节点根据前两次层的输入特征进行进一步组合和计算,即可获取倒根据对焦参考图像的图像特征计算的离焦量的置信度。
在本实施例中,需要对第二模块预先进行训练,以提高其预测的精度。图6是本申请实施例提供的离焦量获取方法中第二模块的训练流程示意图。
一些可能的实施方式中,参考图6,训练第二模块时,可以按照以下步骤:
S601、获取多组对焦参考图像样本,提取每组对焦参考图像样本的图像特征。
一些可能的实施方式中,多组对焦参考图像样本可以是预先设置好的。每组对焦参考图像样本包括至少两张同一场景不同视角的图像以及真实离焦量。
在本实施例中,提取每组对焦参考图像样本的图像特征的方法与S501中获取对焦参考图像的图像特征的方法相同,在此不做赘述。
S602、将每组对焦参考图像样本的图像特征分别输入第一模块和第二模块,得到每组对焦参考图像样本对应的预测离焦量以及预测离焦量的置信度。
一些可能的实施方式中,第一模块可以预先训练好,并在训练第二模块时冻结第一模块,即第二模块的训练结果不会导致第一模块的参数发生变化。
一些可能的实施方式中,将对焦参考图像样本的图像特征输入预先训练好的第一模块后,第一模块会根据图像特征输出预测离焦量(defocus’),而将对焦参考图像样本的图像特征输入第二模块后,第二模块会根据图像特征输出第一模块输出的预测离焦量的置信度(confidence)。
S603、获取每组对焦参考图像样本对应的预测离焦量与真实离焦量之间的误差。
一些可能的实施方式中,真实离焦量(defocus)和预测离焦量(defocus’)之间的误差d,可以通过公式一计算:
d=|defocus-defocus’|(公式一)
计算每组对焦参考图像样本对应的预测离焦量与真实离焦量之间的误差,可以得到多个误差d。
另一些可能的实施方式中,误差d还可以通过其他方式计算,例如,还可以通过公式二计算:
S604、根据误差,将符合第一预设条件的置信度标记为真,将不符合第一预设条件的置信度标记为假。
一些可能的实施方式中,可以先将误差进行排序,然后根据第一预设条件对置信度进行标记。
作为示例,第一预设条件可以包括确定排序后的误差中符合第一阈值的所述误差对应的所述置信度符合第一预设条件,确定排序后的误差中不符合第一阈值的所述误差对应的所述置信度不符合第一预设条件。
其中,第一阈值可以是百分比(p%)、误差的数量(n,n为大于或等于1的整数)等。
一些可能的实施方式中,当第一阈值可以是百分比(p%)时,可以确定排序后的误差中前p%个误差对应的置信度符合第一预设条件,确定排序后的误差中后(100-p)%个所述误差对应的置信度不符合第一预设条件。
作为示例,假设一共有64组对焦参考图像样本,获取到64个误差,可以先将误差按照从小到大的顺序排序。
当第一阈值为百分比时,第一阈值可以为10%,则前10%包括6.4个误差,可以向上取整,即前7个误差对应的置信度符合第一预设条件。后90%包括57.6个误差,可以向下取整,即后57个误差对应置信度不符合第一预设条件。
当第一阈值为误差的数量时,第一阈值可以为10,即前10个误差对应的置信度符合第一预设条件。后54个误差对应置信度不符合第一预设条件。
一些可能的实施方式中,将符合第一预设条件的置信度标记为真,将不符合第一预设条件的置信度标记为假时,可以对每个置信度设置置信度标签(confidencelabel)。当一个置信度符合第一预设条件时,可以将该置信度的置信度标签标记为1,表示该置信度标记为真。类似的,当一个置信度不符合第一预设条件时,可以将该置信度的置信度标签标记为0,表示该置信度标记为假。
S605、根据置信度的标记对第二模块进行训练,得到训练后的第二模块。
一些可能的实施方式中,可以根据每组对焦参考图像样本对应置信度的置信度标签,反向传播,训练第二模块。
一些可能的实施方式中,在训练时,还可以将多组对焦参考图像样本分为不同批次,分别进行训练。
由于一组对焦参考图像样本的误差越小,其对应的置信度标签为真的概率越大。同一组对焦参考图像样本在不同的训练批次中,其置信度标签可能不同。基于不同批次进行训练,可以使训练得到的第二模块输出的置信度更加准确。
在本实施例中,训练第二模块时,是根据误差排序确定置信度的标签后,根据置信度的标签进行训练的。这样第二模块在训练时,误差越小,得到的置信度越高,误差越大,得到的置信度越低。而且误差是从第一模块输出的离焦量获取的,第一模块和第二模块共用特征提取模块输出的特征。这样训练得到的第二模块考虑了图像的特征以及误差,输出的置信度更加准确,更符合需求。根据置信度确定的离焦量也更准确,更接近真实离焦量,PDAF的效果也更好。
S506、相机应用根据每个预测离焦量对应的置信度,确定多个预测离焦量中的目标离焦量。
一些可能的实施方式中,相机应用可以根据预测离焦量对应的置信度,选择置信度最高的一个预测离焦量作为目标离焦量。
然后,相机应用可以根据目标离焦量驱动摄像头中的马达,将镜头置于目标离焦量指示的位置,完成PDAF。
应理解,上述举例说明是为了帮助本领域技术人员理解本申请实施例,而非要将本申请实施例限于所例示的具体数值或具体场景。
本领域技术人员根据所给出的上述举例说明,显然可以进行各种等价的修改或变化,这样的修改或变化也落入本申请实施例的范围内。
对应于上文实施例提供的离焦量获取方法,图7是本申请实施例提供的一种离焦量获取装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图7,一种离焦量获取装置,应用于电子设备,包括:
获取模块71,用于获取多组对焦参考图像,每组对焦参考图像包括至少两张同一场景不同视角的图像。
获取模块71,还用于通过预先训练的对焦模型,根据多组对焦参考图像,获取每组对焦参考图像对应的预测离焦量和预测离焦量的置信度,其中,对焦模型中包括第一模块和第二模块,第一模块用于输出预测离焦量,第二模块用于输出预测离焦量的置信度,第二模块是根据第一模块输出的预测离焦量与真实离焦量之间的误差以及预测离焦量的置信度训练得到的。
确定模块72,用于根据多个预测离焦量对应的置信度,从多个预测离焦量确定目标离焦量。
一些可能的实施方式中,该装置还包括训练模块73,用于获取多组对焦参考图像样本,提取每组对焦参考图像样本的图像特征,每组对焦参考图像样本包括至少两张同一场景不同视角的图像以及真实离焦量;将每组对焦参考图像样本的图像特征,分别输入第一模块和第二模块,得到每组对焦参考图像样本对应的预测离焦量以及预测离焦量的置信度;获取每组对焦参考图像样本对应的预测离焦量与真实离焦量之间的误差;根据误差,将符合第一预设条件的置信度标记为真,将不符合第一预设条件的置信度标记为假;根据置信度的标记对第二模块进行训练,得到训练后的第二模块。
一些可能的实施方式中,还包括标记模块74,用于将误差进行排序;确定排序后的误差中符合第一阈值的误差对应的置信度符合第一预设条件;确定排序后的误差中不符合第一阈值的误差对应的置信度不符合第一预设条件。
一些可能的实施方式中,将误差按照从小到大的顺序进行排序,第一阈值为p%;
标记模块74,具体用于确定排序后的误差中前p%个误差对应的置信度符合第一预设条件.
标记模块74,具体用于确定排序后的误差中后p%个误差对应的置信度不符合第一预设条件。
一些可能的实施方式中,将误差按照从小到大的顺序进行排序,第一阈值为预设的误差数量n,n为大于或等于1的整数;
标记模块74,具体用于确定排序后的误差中前n个误差对应的置信度符合第一预设条件。
标记模块74,具体用于确定排序后的误差中第n个之后的误差对应的置信度不符合第一预设条件。
一些可能的实施方式中,对焦模型中还包括特征提取模块,第一模块和第二模块分别与特征提取模块连接。
一些可能的实施方式中,获取模块71,具体用于通过特征提取模块,根据对焦参考图像获取对焦参考图像的图像特征。通过第一模块,根据图像特征获取对焦参考图像的预测离焦量。通过第二模块,根据图像特征获取对焦参考图像预测离焦量的置信度。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。例如,“模块”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
因此,在本申请的实施例中描述的各示例的模块,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
应理解,本申请实施例中的硬件系统以及芯片可以执行前述本申请实施例的各种进入长待机模式的方法,即以下各种产品的具体工作过程,可以参考前述方法实施例中的对应过程。
本申请实施例还提供另一种电子设备,包括处理器和存储器。
存储器,用于存储可在处理器上运行的计算机程序。
处理器,用于执行如上述所述的进入长待机模式的方法中进行处理的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令;当所述计算机可读存储介质在电子设备上运行时,使得该电子设备执行如前述所示的方法。
所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。
所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本申请实施例还提供了一种包含计算机指令的计算机程序产品,当其在电子设备上运行时,使得电子设备可以执行前述所示的技术方案。
图8是本申请实施例提供的一种芯片的结构示意图。图8所示的芯片可以为通用处理器,也可以为专用处理器。该芯片包括处理器801。其中,处理器801用于支持电子设备执行前述所示的技术方案。
可选的,该芯片还包括收发器802,收发器802用于接受处理器801的控制,用于支持通信装置执行前述所示的技术方案。
可选的,图8所示的芯片还可以包括:存储介质803。
需要说明的是,图8所示的芯片可以使用下述电路或者器件来实现:一个或多个现场可编程门阵列(field programmable gate array,FPGA)、可编程逻辑器件(programmable logic device,PLD)、控制器、状态机、门逻辑、分立硬件部件、任何其他适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。
上述本申请实施例提供的电子设备、计算机存储介质、计算机程序产品、芯片均用于执行上文所提供的方法,因此,其所能达到的有益效果可参考上文所提供的方法对应的有益效果,在此不再赘述。
应理解,上述只是为了帮助本领域技术人员更好地理解本申请实施例,而非要限制本申请实施例的范围。本领域技术人员根据所给出的上述示例,显然可以进行各种等价的修改或变化。
例如,上述方法的各个实施例中某些步骤可以是不必须的,或者可以新加入某些步骤等。或者上述任意两种或者任意多种实施例的组合。这样的修改、变化或者组合后的方案也落入本申请实施例的范围内。
还应理解,上文对本申请实施例的描述着重于强调各个实施例之间的不同之处,未提到的相同或相似之处可以互相参考,为了简洁,这里不再赘述。
还应理解,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
还应理解,本申请实施例中,“预先设定”、“预先定义”可以通过在设备(例如,包括电子设备)中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现,本申请对于其具体的实现方式不做限定。
还应理解,本申请实施例中的方式、情况、类别以及实施例的划分仅是为了描述的方便,不应构成特别的限定,各种方式、类别、情况以及实施例中的特征在不矛盾的情况下可以相结合。
还应理解,在本申请的各个实施例中,如果没有特殊说明以及逻辑冲突,不同的实施例之间的术语和/或描述具有一致性、且可以相互引用,不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。
最后应说明的是:以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种离焦量获取方法,其特征在于,应用于电子设备,所述方法包括:
获取多组对焦参考图像,每组所述对焦参考图像包括至少两张同一场景不同视角的图像;
通过预先训练的对焦模型,根据多组所述对焦参考图像,获取每组所述对焦参考图像对应的预测离焦量和所述预测离焦量的置信度,其中,所述对焦模型中包括第一模块和第二模块,所述第一模块用于输出所述预测离焦量,所述第二模块用于输出所述预测离焦量的置信度,所述第二模块是根据所述第一模块输出的预测离焦量与真实离焦量之间的误差以及预测离焦量的置信度训练得到的;
根据多个所述预测离焦量对应的置信度,从所述多个所述预测离焦量确定目标离焦量。
2.根据权利要求1所述的方法,其特征在于,根据所述第一模块输出的预测离焦量与真实离焦量之间的误差以及预测离焦量的置信度训练得到所述第二模块,包括:
获取多组对焦参考图像样本,提取每组所述对焦参考图像样本的图像特征,每组所述对焦参考图像样本包括至少两张同一场景不同视角的图像以及真实离焦量;
将每组所述对焦参考图像样本的图像特征,分别输入所述第一模块和所述第二模块,得到每组所述对焦参考图像样本对应的预测离焦量以及所述预测离焦量的置信度;
获取每组所述对焦参考图像样本对应的预测离焦量与所述真实离焦量之间的误差;
根据所述误差,将符合第一预设条件的置信度标记为真,将不符合第一预设条件的置信度标记为假;
根据所述置信度的标记对所述第二模块进行训练,得到训练后的第二模块。
3.根据权利要求2所述的方法,其特征在于,所述根据所述误差,将符合第一预设条件的置信度标记为真,将不符合第一预设条件的置信度标记为假,包括:
将所述误差进行排序;
确定排序后的误差中符合第一阈值的所述误差对应的所述置信度符合第一预设条件;
确定排序后的误差中不符合第一阈值的所述误差对应的所述置信度不符合第一预设条件。
4.根据权利要求3所述的方法,其特征在于,将所述误差按照从小到大的顺序进行排序,所述第一阈值为p%;
所述确定排序后的误差中符合第一阈值的所述误差对应的所述置信度符合第一预设条件,包括:
确定排序后的误差中前p%个所述误差对应的所述置信度符合第一预设条件;
所述确定排序后的误差中不符合第一阈值的所述误差对应的所述置信度不符合第一预设条件,包括:
确定排序后的误差中后(100-p)%个所述误差对应的所述置信度不符合第一预设条件。
5.根据权利要求3所述的方法,其特征在于,将所述误差按照从小到大的顺序进行排序,所述第一阈值为预设的误差数量n,n为大于或等于1的整数;
所述确定排序后的误差中符合第一阈值的所述误差对应的所述置信度符合第一预设条件,包括:
确定排序后的误差中前n个所述误差对应的所述置信度符合第一预设条件;
所述确定排序后的误差中不符合第一阈值的所述误差对应的所述置信度不符合第一预设条件,包括:
确定排序后的误差中第n个之后的所述误差对应的所述置信度不符合第一预设条件。
6.根据权利要求1所述的方法,其特征在于,所述对焦模型中还包括特征提取模块,所述第一模块和所述第二模块分别与所述特征提取模块连接。
7.根据权利要求6所述的方法,其特征在于,所述通过预先训练的对焦模型,根据多组所述对焦参考图像,获取每组所述对焦参考图像对应的离焦量和置信度,包括:
通过所述特征提取模块,根据所述对焦参考图像获取所述对焦参考图像的图像特征;
通过所述第一模块,根据所述图像特征获取所述对焦参考图像的所述预测离焦量;
通过所述第二模块,根据所述图像特征获取所述对焦参考图像预测离焦量的置信度。
8.一种离焦量获取装置,其特征在于,应用于电子设备,包括:
获取模块,用于获取多组对焦参考图像,每组所述对焦参考图像包括至少两张同一场景不同视角的图像;
所述获取模块,还用于通过预先训练的对焦模型,根据多组所述对焦参考图像,获取每组所述对焦参考图像对应的预测离焦量和所述预测离焦量的置信度,其中,所述对焦模型中包括第一模块和第二模块,所述第一模块用于输出所述预测离焦量,所述第二模块用于输出所述预测离焦量的置信度,所述第二模块是根据所述第一模块输出的预测离焦量与真实离焦量之间的误差以及预测离焦量的置信度训练得到的;
确定模块,用于根据多个所述预测离焦量对应的置信度,从所述多个所述预测离焦量确定目标离焦量。
9.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,当所述程序指令被处理器执行时,所述处理器执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310961905.4A CN117714859A (zh) | 2023-08-01 | 2023-08-01 | 离焦量获取方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310961905.4A CN117714859A (zh) | 2023-08-01 | 2023-08-01 | 离焦量获取方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117714859A true CN117714859A (zh) | 2024-03-15 |
Family
ID=90148623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310961905.4A Pending CN117714859A (zh) | 2023-08-01 | 2023-08-01 | 离焦量获取方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117714859A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180131862A1 (en) * | 2016-11-04 | 2018-05-10 | Qualcomm Incorporated | Optimized phase detection autofocus (pdaf) processing |
US20220130062A1 (en) * | 2020-10-24 | 2022-04-28 | Tata Consultancy Services Limited | Method and system for unsupervised prediction of image depth and confidence map |
CN115086516A (zh) * | 2022-05-24 | 2022-09-20 | 北京理工大学 | 一种基于深度学习模型的摄像系统自动对焦方法 |
CN115314635A (zh) * | 2022-08-03 | 2022-11-08 | Oppo广东移动通信有限公司 | 用于离焦量确定的模型训练方法及装置 |
US20220377209A1 (en) * | 2021-05-18 | 2022-11-24 | Snap Inc. | Varied depth determination using stereo vision and phase detection auto focus (pdaf) |
WO2023020375A1 (zh) * | 2021-08-18 | 2023-02-23 | 影石创新科技股份有限公司 | 自动对焦方法、装置、拍摄终端及计算机可读存储介质 |
US20230114785A1 (en) * | 2021-10-12 | 2023-04-13 | Samsung Electronics Co., Ltd. | Device and method for predicted autofocus on an object |
CN116017150A (zh) * | 2022-11-30 | 2023-04-25 | 豪威科技(武汉)有限公司 | 一种基于深度学习的pdaf置信度计算方法 |
-
2023
- 2023-08-01 CN CN202310961905.4A patent/CN117714859A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180131862A1 (en) * | 2016-11-04 | 2018-05-10 | Qualcomm Incorporated | Optimized phase detection autofocus (pdaf) processing |
US20220130062A1 (en) * | 2020-10-24 | 2022-04-28 | Tata Consultancy Services Limited | Method and system for unsupervised prediction of image depth and confidence map |
US20220377209A1 (en) * | 2021-05-18 | 2022-11-24 | Snap Inc. | Varied depth determination using stereo vision and phase detection auto focus (pdaf) |
WO2023020375A1 (zh) * | 2021-08-18 | 2023-02-23 | 影石创新科技股份有限公司 | 自动对焦方法、装置、拍摄终端及计算机可读存储介质 |
US20230114785A1 (en) * | 2021-10-12 | 2023-04-13 | Samsung Electronics Co., Ltd. | Device and method for predicted autofocus on an object |
CN115086516A (zh) * | 2022-05-24 | 2022-09-20 | 北京理工大学 | 一种基于深度学习模型的摄像系统自动对焦方法 |
CN115314635A (zh) * | 2022-08-03 | 2022-11-08 | Oppo广东移动通信有限公司 | 用于离焦量确定的模型训练方法及装置 |
CN116017150A (zh) * | 2022-11-30 | 2023-04-25 | 豪威科技(武汉)有限公司 | 一种基于深度学习的pdaf置信度计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116048358B (zh) | 悬浮球的控制方法和相关装置 | |
CN114697543B (zh) | 一种图像重建方法、相关装置及系统 | |
CN111768765B (zh) | 语言模型生成方法和电子设备 | |
CN115437601B (zh) | 图像排序方法、电子设备、程序产品及介质 | |
CN114812381B (zh) | 电子设备的定位方法及电子设备 | |
CN113380240B (zh) | 语音交互方法和电子设备 | |
CN115032640A (zh) | 手势识别方法和终端设备 | |
CN114173286A (zh) | 确定测试路径的方法、装置、电子设备及可读存储介质 | |
CN117714859A (zh) | 离焦量获取方法、装置、电子设备及可读存储介质 | |
CN116311311B (zh) | 电子表格生成方法、装置、电子设备及可读存储介质 | |
CN117133311B (zh) | 音频场景识别方法及电子设备 | |
CN116522400B (zh) | 图像处理方法和终端设备 | |
CN116709018B (zh) | 一种变焦条分割方法及电子设备 | |
CN116708656B (zh) | 打卡方法及打卡系统 | |
CN112416984B (zh) | 一种数据处理方法及其装置 | |
CN116709023B (zh) | 视频处理方法和装置 | |
CN114942741B (zh) | 数据传输方法及电子设备 | |
CN114817521B (zh) | 搜索方法和电子设备 | |
CN114205318B (zh) | 头像显示方法及电子设备 | |
CN117711014A (zh) | 隔空手势识别方法、装置、电子设备及可读存储介质 | |
CN117131380A (zh) | 匹配度计算方法及电子设备 | |
CN117714861A (zh) | 图像处理方法及电子设备 | |
CN117714860A (zh) | 图像处理方法及电子设备 | |
CN117635466A (zh) | 图像增强方法、装置、电子设备及可读存储介质 | |
CN117705094A (zh) | 导航定位方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |