CN117714861B

CN117714861B - 图像处理方法及电子设备

Info

Publication number: CN117714861B
Application number: CN202310963042.4A
Authority: CN
Inventors: 雷松炬; 王淦诚
Original assignee: Shanghai Glory Smart Technology Development Co ltd
Current assignee: Shanghai Glory Smart Technology Development Co ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2024-09-13
Anticipated expiration: 2043-08-01
Also published as: CN117714861A

Abstract

本申请应用于人工智能领域，提供了一种图像处理方法及电子设备，该方法包括：获取待处理数据，待处理数据包括第一图像、第二图像和初始位置信息，第一图像和第二图像是在镜头位于初始位置信息表示的初始位置的情况下传感器中第一元件集合和第二元件集合分别得到的图像，第一元件集合包括多个第一感光元件，每个第一感光元件用于接收经镜头传输至所在像素第一侧的光线，第二元件集合包括多个第二感光元件，每个第二感光元件用于接收经镜头传输至所在像素第二侧的光线，第一侧与第二侧表示的方向相反；利用处理模型对待处理数据进行处理，以得到对焦信息，对焦信息表示镜头的目标位置。该方法能够提高得到的对焦信息的准确度。

Description

图像处理方法及电子设备

技术领域

本申请涉及人工智能领域，并且更具体地，涉及一种图像处理方法及电子设备。

背景技术

随着电子技术和图像处理技术的快速发展，智能手机、平板电脑等智能终端的拍照功能越来越强大，部分智能终端的拍照能力甚至能够媲美普通的数码相机。在使用智能终端拍照的过程中，为了能够拍得到更好清晰度的照片，需要对当前场景的图像进行对焦，也就是根据当前的场景来调节镜头的位置以获取到最高清晰度的照片。

相位对焦方法通过对包括多个相位感光元件对的传感器采集的数据进行处理，确定对焦位置。在该传感器中，每个相位感光元件对中第一感光元件与第二感光元件分别用于接收所在像素的不同侧区域的光线。通过检测传感器中第一感光元件采集的第一图像与传感器中第二感光元件采集的第二图像之间的距离，可以确定对焦信息。按照对焦信息推动将镜头移动之后，利用传感器进行图像采集，可以实现图像较高的清晰度。

然而，在一些特定的场景下，例如光线较暗的场景、弱纹理场景(比如雪山、天空、白墙等场景)等，根据第一图像与第二图像之间距离的相方式位对焦方法往往无法预测对焦位置，难以得到清晰的图像。而通过神经网络模型对第一图像与第二图像进行处理，确定的对焦信息的准确度较低。

发明内容

本申请提供了一种图像处理方法及电子设备，能够提高相位对焦结果的准确度。

第一方面，提供一种图像方法，所述方法包括：获取待处理数据，所述待处理数据包括第一图像、第二图像和初始位置信息，所述第一图像和所述第二图像是在镜头位于所述初始位置信息表示的初始位置的情况下传感器中第一元件集合和第二元件集合分别得到的图像，所述第一元件集合包括多个第一感光元件，每个第一感光元件用于接收经所述镜头传输至所述第一感光元件所在像素的第一侧的光线，所述第二元件集合包括多个第二感光元件，每个第二感光元件用于接收经所述镜头传输至所述第二感光元件所在像素的第二侧的光线，所述第一侧与所述第二侧表示的方向相反；利用处理模型对所述待处理数据进行处理，以得到对焦信息，所述对焦信息表示所述镜头的目标位置，所述处理模型是训练得到的神经网络模型。

本申请实施例提供的图像处理方法，在确定对焦信息的过程中，考虑采集第一图像和第二图像时镜头的初始位置对对焦信息的影响，使得确定的对焦信息更加准确。

在一种可能的实现方式中，不同的物距对应于不同的镜头位置，所述初始位置信息为所述初始位置对应的初始物距，所述对焦信息为所述目标位置对应的目标物距。

以物距表示镜头的位置，提高处理模型对不同焦距的镜头的适应性。

在一种可能的实现方式中，所述处理模型是利用训练数据对初始处理模型进行训练得到的，所述训练数据包括多个训练样本和每个训练样本对应的标注对焦信息，每个训练样本包括第一训练图像、第二训练图像和初始训练位置信息，所述第一训练图像和所述第二训练图像是在训练镜头位于所述初始训练位置信息表示的初始训练位置的情况下训练传感器中第一训练元件集合和第二训练元件集合分别得到的图像，所述第一训练元件集合包括多个第一训练感光元件，每个第一训练感光元件用于接收经所述训练镜头传输至所述第一训练感光元件所在像素的所述第一侧的光线，所述第二训练元件集合包括多个第二训练感光元件，每个第二训练感光元件用于接收经所述训练镜头传输至所述第二训练感光元件所在像素的所述第二侧的光线，每个训练样本中对应的标注对焦信息表示的目标训练位置是所述训练镜头的多个位置中使得所述训练传感器对所述训练样本中的所述第一训练图像记录的场景采集的图像中位于对焦区域的区域图像对比度最高的位置，所述对焦区域位于所述第一训练图像所在的区域。

第二方面，提供一种神经网络模型训练方法，所述方法包括：获取训练数据，所述训练数据包括样本数据和标注对焦信息，所述样本数据包括第一训练图像、第二训练图像和初始训练位置信息，所述第一训练图像和所述第二训练图像是在训练镜头位于所述初始训练位置信息表示的初始训练位置的情况下训练传感器中第一训练元件集合和第二训练元件集合分别进行采集得到的图像，所述第一训练元件集合包括多个第一训练感光元件，每个第一训练感光元件用于接收经所述训练镜头传输至所述第一训练感光元件所在像素的第一侧的光线，所述第二训练元件集合包括多个第二训练感光元件，每个第二训练感光元件用于接收经所述训练镜头传输至所述第二训练感光元件所在像素的第二侧的光线，所述第一侧与所述第二侧表示的方向相反，所述标注对焦信息表示的目标训练位置是所述训练镜头的多个位置中使得所述训练传感器对所述第一训练图像记录的场景采集的图像中位于对焦区域的区域图像对比度最高的位置，所述对焦区域位于所述第一训练图像所在的区域；利用初始处理模型对所述样本数据分别进行处理，以得到多个训练对焦信息；根据所述训练对焦信息和所述标注对焦信息之间的差异，调整所述初始处理模型的参数，以最小化所述差异，参数调整后的初始处理模型为训练得到的处理模型。

在一种可能的实现方式中，不同的物距对应于不同的训练镜头位置，所述初始训练位置信息为所述初始训练位置对应的初始训练物距，所述标注对焦信息为所述目标训练位置对应的目标训练物距。

在一种可能的实现方式中，所述对焦区域是所述第一训练图像的中心区域。

每个第一训练图像中对焦区域位于第一训练图像中的中心，则训练得到的处理模型在对待处理图像进行处理的过程中，可以降低第一图像中靠近边框位置记录的其他对象对对焦信息产生影响，提高对焦信息的准确度。

在一种可能的实现方式中，所述训练数据的数量为多个，所述多个训练数据中的第一训练图像的尺寸不同。

第一训练图像与第二训练图像具有相同或近似相同的尺寸不同。因此，多个训练数据中的第二训练图像的尺寸不同。

多个训练数据中，第一训练图像的尺寸不同，从而训练得到的处理模型具有对不同尺寸的第一图像的处理能力，提高处理模型适用的广泛性。

在一种可能的实现方式中，所述样本数据还包括训练图像位置信息，所述训练图像位置信息表示所述第一训练图像在所述训练传感器采集的图像中的位置。

第三方面，提供一种神经网络模型训练方法，所述方法包括：获取训练数据，所述训练数据包括样本数据和标注对焦信息，所述样本数据包括第一训练图像、第二训练图像，所述第一训练图像和所述第二训练图像是在训练镜头位于初始训练位置的情况下训练传感器中第一训练元件集合和第二训练元件集合分别进行采集得到的图像，所述第一训练元件集合包括多个第一训练感光元件，每个第一训练感光元件用于接收经所述训练镜头传输至所述第一训练感光元件所在像素的第一侧的光线，所述第二训练元件集合包括多个第二训练感光元件，每个第二训练感光元件用于接收经所述训练镜头传输至所述第二训练感光元件所在像素的第二侧的光线，所述第一侧与所述第二侧表示的方向相反，所述标注对焦信息表示的目标训练位置是所述训练镜头的多个位置中使得所述训练传感器对所述第一训练图像记录的场景采集的图像中位于对焦区域的区域图像对比度最高的位置，所述对焦区域位于所述第一训练图像所在的区域；利用初始处理模型对所述样本数据分别进行处理，以得到多个训练对焦信息；根据所述训练对焦信息和所述标注对焦信息之间的差异，调整所述初始处理模型的参数，以最小化所述差异，参数调整后的初始处理模型为训练得到的处理模型。

第四方面，提供了一种图像处理装置，包括用于执行第一方面、第二方面或第三方面的方法的各个单元。该装置可以是电子设备，也可以是电子设备内的芯片。

第五方面，提供了一种电子设备，包括存储器和处理器，存储器用于存储计算机程序，所述处理器用于从所述存储器中调用并运行所述计算机程序，使得所述电子设备执行第一方面、第二方面或第三方面的方法。

第六方面提供了一种芯片，包括处理器，当所述处理器执行指令时，所述处理器执行第一方面、第二方面或第三方面的方法。

第七方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码，所述计算机程序代码用于实现第一方面、第二方面或第三方面的方法。

第八方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，所述计算机程序代码用于实现第一方面、第二方面或第三方面的方法。

附图说明

图1是一种适用于本申请的电子设备的硬件系统的示意图；

图2是一种适用于本申请的电子设备的软件系统的示意图；

图3是一种图像采集场景的示意图；

图4是对焦位置的示意图；

图5是本申请实施例提供的图像处理方法的示意性流程图；

图6是相位感光元件对的示意性结构图；

图7是本申请实施例提供的一种图形用户界面的示意图；

图8是镜头位置与物距的对应关系的示意图；

图9是本申请实施例提供的一种处理模型的示意性结构图；

图10是本申请实施例提供的图像处理系统的示意性结构图；

图11是本申请实施例提供的一种神经网络模型训练方法的示意性流程图；

图12是本申请实施例提供的一种数据处理方法的示意性流程图；

图13是本申请提供的一种图像处理装置的示意性结构图；

图14是本申请提供的一种用于图像处理的电子设备的示意性结构图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

图1示出了一种适用于本申请的电子设备的硬件系统。

本申请实施例提供的方法可以应用于手机、平板电脑、可穿戴设备、笔记本电脑、上网本、个人数字助理(personal digital assistant，PDA)等各种能够联网通信的电子设备，本申请实施例对电子设备的具体类型不作任何限制。

图1示出了电子设备100的结构示意图。电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriberidentification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-OLED，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图2是本申请实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)的系统库，以及内核层。应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(media libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层可以包括显示驱动、摄像头驱动、音频驱动和传感器驱动等驱动模块。

通过照相机对焦机构变动物距和相距的位置，使被拍物成像清晰的过程就是对焦。对焦也叫对光、聚焦。

摄像头193包括镜头和传感器。传感器中可以设置多个相位感光元件对，每个相位感光元件对中第一感光元件与第二感光元件分别用于接收所在像素的不同侧区域的光线。从而，利用相位检测自动对焦(phase detection auto focus，PDAF)技术对该传感器采集的图像进行处理，确定对焦位置。

PDAF技术也可以称为相位对焦技术，通过检测传感器中第一元件集合采集的第一图像与传感器中第二元件集合采集的第二图像之间的距离，可以确定对焦位置。第一元件集合中的第一感光元件与第二元件集合中的第二感光元件分别用于检测感光元件所在像素中不同侧的光线。将镜头推动到对焦位置，再次利用传感器进行图像采集，可以得到具有较高清晰度的图像。

然而，在一些光线条件或特定图像内容的场景下，PDAF技术往往无法预测对焦位置，从而相位对焦方法利用难以得到清晰的图像。示例性地，在图3中的(a)所示人像逆光的场景，如图3中的(b)所示回字纹或其他重复纹理的场景、如图3中的(c)所示的白墙等弱纹理或低对比度场景，如图3中的(d)所示的高反差场景，如图3中的(e)所示的显示器显示内容等包括较多摩尔纹的场景，利用PDAF技术无法准确预测对焦位置。

以图3中的(c)所示的白墙为例，将白墙区域划分为多个检测区域，对于每个检测区域利用PDAF技术确定的对焦位置如图4所示。图4中，横轴不同取值表示不同的区域，纵轴表示利用PDAF技术确定的对焦位置。从图4可以看出，利用PDAF技术确定的对焦位置存在较大波动，对焦位置不准确，从而使得镜头运动至对焦位置之后传感器采集的图像的清晰度仍然较低。

为了提高PDAF技术适用场景的广泛性，并提高确定的对焦位置的准确度，从而使得在镜头运动至对焦位置时传感器稳定地采集到清晰的图像，可以利用训练得到的神经网络模型对传感器中相位感光元件对采集的第一图像和第二图像进行处理。从而，在图3所示的多种场景下实现对焦位置的预测，具有较为广泛的适用范围。但是，神经网络模型处理得到的对焦位置的准确度较低。

为了解决上述问题，本申请实施例提供了一种图像处理方法。

下面结合图5至图8对本申请实施例提供的图像处理方法进行详细描述。

图5是本申请实施例提供的图像处理方法的示意性流程图。

图5所示的图像处理方法包括步骤S510至步骤S520，下面分别对这些步骤进行详细的描述。

步骤S510，获取待处理数据，所述待处理数据包括第一图像、第二图像和初始位置信息，所述第一图像和所述第二图像是在镜头位于所述初始位置信息表示的初始位置的情况下传感器中第一元件集合和第二元件集合分别得到的图像，所述第一元件集合包括多个第一感光元件，每个第一感光元件用于接收经所述镜头传输至所述第一感光元件所在像素的第一侧的光线，所述第二元件集合包括多个第二感光元件，每个第二感光元件用于接收经所述镜头传输至所述第二感光元件所在像素的第二侧的光线，所述第一侧与所述第二侧表示的方向相反。

第一图像和第二图像可以分别称为左图和右图。

摄像头可以包括镜头和传感器。传感器包括多个感光元件。该多个感光元件可以设置为感光元件阵列。为了实现相位对焦，在传感器中，可以设置有相位感光元件对。每个相位感光元件对包括第一感光元件和第二感光元件。

在一些实施例中，相位感光元件对可以是通过遮挡形成的双像素(dual pixel)。对感光元件的一侧进行遮挡，可以形成第一感光元件和第二感光元件，其中，第一感光元件的第二侧被遮挡，第二感光元件的第一侧被遮挡。第一侧与第二侧表示的方向相反。例如，如图6中的(a)所示第一侧和第二侧可以分别是上侧和下侧，如图6中的(b)所示第一侧和第二侧可以分别是左侧和右侧、如图6中的(c)所示第一侧和第二侧可以分别是左上侧和右下侧。

传感器中，每个相位感光元件对中的第一感光元件和第二感光元件可以具有相同的相对位置关系。

一个相位感光元件对中的第一感光元件和第二感光元件可以相邻设置。例如，第一感光元件与第二感光元件位于相同的行，并且第一感光元件位于与第二感光元件相邻的列；或者，第一感光元件与第二感光元件位于相同的列，并且第一感光元件位于与第二感光元件相邻的行；再或者，一个相位感光元件对中的第一感光元件和第二感光元件可以分别位于相邻的行且分别位于相邻的列。相位感光元件对还可以有其他的排列方式，本申请实施例并不限定。

通过遮挡形成相位感光元件对中的第一感光元件和第二感光元件可以设置在不同的像素中。

应当理解，组成一个相位感光元件对的第一感光元件和第二感光元件的距离越近，根据第一图像和第二图像确定的对焦信息越准确。

在另一些实施例中，相位感光元件对可以设置在同一个像素中。

在每个像素中可以设置有两个相位感光元件。每个感光元件可以用于接收所在的像素中该感光元件所在一侧的光线。一个像素中的该两个相位感光元件分别为第一感光元件和第二感光元件。

示例性地，如图6中的(d)所示，每个像素可以2×2排列的4个感光单元。每个像素中左侧的两个感光单元可以作为第一感光元件，每个像素中右侧的两个感光单元可以作为第二感光元件。或者，每个像素中上侧的两个感光单元可以作为第一感光元件，每个像素中下侧的两个感光单元可以作为第二感光元件。又或者，每个像素中位于对角线两个顶点的两个感光单元，即不相邻的两个感光单元，可以分别作为第一感光元件和第二感光元件。利用图6中的(d)所示的相位感光元件对设置方式的传感器进行的相位检测，可以称为四相位检测(quad phase detection，QPD)。

镜头所在的初始位置可以是镜头移动范围内的任意位置。

传感器中，相位感光元件对可以按照阵列的方式设置。也就是说，相位感光元件对的设置可以形成相位感光元件对阵列。在镜头位于初始位置的情况下，各个第一感光元件采集的数据可以形成第一图像，各个第二感光元件采集的数据可以形成第一图像。

第一图像和第二图像可以是位于传感器中全部相位感光元件对采集的图像，也可以是传感器中部分相位感光元件对采集的图像。示例性地，第一图像和第二图像可以是传感器中位于对焦框区域的图像。对焦框区域的可以具有预设尺寸，也就是说，对焦框区域的大小和形状可以是预设的。或者，对焦框区域的尺寸可以根据用户操作确定。对焦框区域的位置可以是预设的，也可以是设置有该传感器和该镜头的电子设备根据传感器采集的图像确定的，还可以是该电子设备根据用户操作确定的。应当理解，第一图像与第二图像的尺寸相同。

图7中的(a)示出了电子设备的一种图形用户界面(graphical user interface，GUI)，该GUI为电子设备的桌面710。当电子设备检测到用户点击桌面710上的相机应用(application，APP)的图标711的操作后，可以启动相机应用，显示如图7中的(b)所示的另一GUI，该GUI可以称为拍摄界面720。该拍摄界面720上可以包括取景框721。在预览状态下，该取景框721内可以实时显示预览图像。

取景框中，不同的位置对应于传感器中不同的位置。当电子设备检测到用户在取景框721中进行点击情况下，可以将用户的点击位置对应的传感器中的位置作为对焦框区域中心的位置。

在对焦框区域的尺寸为预设尺寸的情况下，根据对焦框区域中心的位置，可以确定传感器中的对焦框区域。在对焦框区域的尺寸可以根据用户操作确定的情况下，拍摄界面720上还可以显示多个对焦框尺寸的尺寸图标。在电子设备检测到用户点击拍摄界面720上的某个尺寸图标的操作后的情况下，可以将该尺寸图标对应的尺寸作为对焦框区域的尺寸。从而，电子设备可以根据对焦框区域中心的位置，以及对焦框区域的尺寸，确定传感器中的对焦框区域。

在第一图像和第二图形是对焦框区域的图像的情况下，待处理数据还可以包括位置信息，位置信息用于表示对焦框区域的位置。示例性地，位置信息可以表示为对焦框区域的中心点的位置，位置信息可以是该中心点的坐标。

示例性地，待处理数据还可以包括图像位置信息，图像位置信息表示第一图像在传感器采集的图像中的位置。第一图像在传感器采集的图像中的位置，也可以理解为第二图像在传感器采集的图像中的位置或对焦框区域的位置。图像位置信息，可以包括第一图像的中心点的位置坐标，也可以包括第一图像的尺寸等其他信息。

步骤S520，利用处理模型对所述待处理数据进行处理，以得到对焦信息，所述对焦信息表示所述镜头的目标位置，所述处理模型是训练得到的神经网络模型。

应当理解，本申请实施例中的神经网络模型可以是深度神经网络。

深度神经网络(deep neural network，DNN)，也称为多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。DNN中，层与层之间可以是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

移动矢量包括移动方向和移动距离。镜头可以沿靠近传感器的方向或远离传感器的方向移动。镜头的位置可以理解为镜头与传感器之间的相对位置。

如图8所示，镜头不同的位置可以对应于不同的物距。镜头的位置与物距的对应关系是根据镜头的焦距确定的。执行图5所示方法的电子设备可以存储镜头的位置与物距的对应关系。物距表示对象与镜头之间的距离。镜头与传感器之间的距离远远小于对象与镜头之间的距离，因此，物距也可以理解为对象与传感器之间的距离。与物距对应的镜头位置可以是对象位于该物距情况下使得传感器采集到最清晰的对象图像的镜头位置，即使得传感器采集的对象的图像对比度最高的镜头位置。

镜头的近端与远端，可以理解为镜头移动范围的两个顶点，其中，近端可以是对应于最小物距的镜头位置，远端可以是对应于最大物距的镜头位置。最小物距可以理解为镜头与传感器之间的最大边界(macro margin)，最大物距可以理解为物距的无穷边际(infinity margin)。

示例性地，最大物距例如可以是5米(meter，m)，最小物距例如可以是12厘米(centimeter，cm)。

电子设备上电时，镜头可以位于默认位置(defult position)。默认位置位于近端和远端之间。

根据距离与镜头位置的对应关系，可以确定初始位置信息表示的初始位置对应的初始物距。目标位置可以通过目标物距表示，目标物距为处理模型对第一图像和第二图像处理得到的预测物距，即对第一图像、第二图像记录的对象与传感器之间的距离的预测值。目标位置为目标物距对应的镜头位置。也就是说，根据距离与镜头位置的对应关系，可以确定目标物距信息表示的目标物距所对应的目标位置。

根据初始位置与目标镜头位置，可以确定镜头的移动矢量。从而控制镜头移动。示例性地，根据镜头的移动矢量，可以生成控制信息。通过数模转换器(digital to analogconvertor，DAC)对控制信息进行数字信号到模拟信号的转换，转换得到的信号可以控制相机马达，从而控制镜头移动。相机马达可以理解为摄像头中控制镜头位置的驱动装置。

在不同的摄像头中，镜头的焦距可能是不同的。这使得对于不同的镜头，传感器对某个场景能够采集到清晰图像时镜头的位置可能是不同的。对焦信息为目标位置对应的目标物距，则根据该镜头适用的物距与镜头位置的对应关系，可以确定该镜头的目标位置，从而处理模型均能够适在摄像头中设置不同焦距的镜头的情况下适用，并且适用于摄像头采用不同大小的光圈、镜头移动范围不同的多种情况，处理模型具有更加广泛的适用性。

应当理解，初始位置信息可以输入处理模型的输入层。

示例性地，差异数据可以包括特征差异和/或差异图像。

差异图像中的每个像素可以表示第一图像和第二图像在该像素的像素值之间的差异。

在S620，可以将差异图像输入所述处理模型的输入层。

特征差异表示第一图像的第一特征与第二图像的第二特征之间的差异。

在进行S620之前，可以对第一图像和第二图像分别进行特征提取，以得到第一图像的第一特征和第二图像的第二特征。对第一特征可以第二特征之间进行差异的计算，可以得到特征差异。

在一些实施例中，利用特征提取模型，分别对第一图像和第二图像分别进行特征提取，可以得到第一特征和第二特征。

特征提取模型可以包括多个特征提取层。

第一特征可以仅包括特征提取模型对第一图像处理过程中最后一个特征提取层输出的特征，第二特征可以仅包括特征提取模型对第二图像处理过程中最后一个特征提取层输出的特征。

特征差异可以是特征提取层分别对第一图像和第二图像进行特征提取的情况下，特征提取层最后一个特征提取层输出的特征的差异。

或者，第一特征可以包括特征提取模型对第一图像处理过程中每个特征提取层输出的第一子特征，第二特征可以包括特征提取模型对第二图像处理过程中每个特征提取层输出的第二子特征。

每个特征提取层可以包括一个或多个卷积层。

卷积层是指对输入信号进行卷积处理的神经元层。每个卷积层可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。

权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取准确的特征，从而根据这些特征能够得到正确的预测。

一些特征提取层还可以包括池化层。由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层。引入池化层的方式，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的目的是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。通过池化层处理后输出的特征尺寸可以小于输入池化层的特征尺寸，池化层输出的特征尺寸中每个位表示输入池化层的特征的对应子区域的平均值或最大值。

在第一特征包括每个特征提取层输出的第一子特征，第二特征包括每个特征提取层输出的第二子特征的情况下，特征差异可以包括多个特征提取层对应的多个层差异特征，每个特征提取层对应的层差异特征为该特征提取层输出的第一子特征和第二子特征之间的差异。不同的特征提取层对应于不同的层差异特征。

也就是说，特征差异可以包括每个特征提取层输出的第一子特征和第二子特征之间的层差异特征。

在另一些实施例中，利用第一特征提取模型对第一图像进行特征提取，可以得到第一特征；利用第二特征提取模型对第二图像进行特征提取，可以得到所述第二特征。

第一特征提取模型和第二特征提取模型可以是参数相等的神经网络模型。示例性地，第一特征提取模型与第二特征提取模型可以是孪生神经网络。

利用第一特征提取模型和第二特征提取模型分别对第一图像和第二图像进行特征提取，使得对第一图像的特征提取和对第二图像的特征提取可以并行进行，缩短特征提取所需的时间，提高图像处理的效率。

第一特征提取模型可以包括多个第一特征提取层，第二特征提取模型可以包括多个第二特征提取层。第一特征提取模型中第一特征提取层的数量与第二特征提取模型中第二特征提取层的数量相等。并且，该多个第一特征提取层与该多个第二特征提取层具有对应关系，每个第一特征提取层与该第一特征提取层对应的第二特征提取层具有相同的参数。

第一特征可以仅包括第一特征提取模型对第一图像处理过程中最后一个第一特征提取层输出的特征，第二特征可以仅包括第二特征提取模型对第二图像处理过程中最后一个第二特征提取层输出的特征。

特征差异可以是最后一个第一特征提取模型特征提取层输出的特征与最后一个第二特征提取模型特征提取层输出的特征之间的差异。

或者，第一特征可以包括每个第一特征提取层输出的第一子特征，第二特征可以包括每个第二特征提取层输出的第二子特征。

特征差异可以包括多个第一特征提取层对应的多个层差异特征，每个第一特征提取层对应的层差异特征为该第一特征提取层输出的第一子特征和该第一特征提取层对应的第二特征提取层输出的第二子特征之间的差异。

应当理解，第一特征提取模型与第二特征提取模型是孪生网络，所以第i个第一特征提取层与第i个第二特征提取层具有相同的参数。

处理模型可以包括多个处理层，其中，每个处理层可以包括一个或多个卷积层。多个层差异特征可以输入处理模型的某个处理层，或者该多个层差异特征可以分别输入处理模型中不同的处理层。示例性地，第一特征提取层对应的层差异特征可以输入第一特征提取层对应的处理层，不同的第一特征提取层对应于不同的处理层。深度越深的第一特征提取层对应的处理层可以具有更深的深度。也就是说，多个第一特征提取层与多个处理层的对应关系中，第一特征提取层的深度与处理层的深度正相关。

应当理解，处理模型中层差异特征输入的第一个处理层之前，可以设置有一个或多个隐藏层。

本申请实施例提供的图像处理方法，在利用处理模型对第一图像和第二图像进行处理，以得到对焦信息的过程中，考虑根据镜头的初始位置的影响，处理模型的输入增加了表示镜头的初始位置的初始位置信息，处理模型的输入更丰富更全面，从而提高处理模型输出结果的准确度，从而镜头根据对焦信息移动后，传感器对第一图像记录的场景再次进行采集，得到的图像更加清晰。

下面结合图9和图10，对图5所示的图像处理方法中使用的神经网络模型进行说明。

图9是本申请实施例提供的一种处理模型的示意性结构图。

处理模型900可以包括输入层910、多个隐藏层921至924和输出层930。利用处理模型900，对待处理数据进行处理，可以得到对焦位置。

输入层910只负责输入数据。也就是说，待处理数据可以在输入层910输入处理模型900。

神经网络模型中位于输入层和输出层之间的所有层都可以称为隐藏层。初始的隐藏层(例如隐藏层911)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络模型深度的加深，越往后的隐藏层(例如隐藏层914)提取到的特征越来越复杂，比如高级别的语义之类的特征。应当理解，语义越高的特征越适用于待解决的问题。隐藏层921至924的深度逐渐增加。

输出层930负责输出处理模型900的预测结果，即输出对焦信息。

图10是本申请实施例提供的图像处理系统的示意性结构图。

图像处理系统1000包括第一特征提取模型1010、第二特征提取模型1020和处理模型1030。第一特征提取模型1010、第二特征提取模型1020和处理模型1030可以均为卷积神经网络模型(convolutional neuron network，CNN)。

第一特征提取模型1010用于对第一图像进行特征提取。第二特征提取模型1010用于对第二图像进行特征提取。

第一图像和第二图像是在镜头位于初始位置的情况下传感器中第一元件集合和第二元件集合分别对目标对象进行采集得到的。第一元件集合包括多个第一感光元件，第二元件集合包括与多个第一感光元件对应的多个第二感光元件。传感器包括多个相位感光元件对。每个相位感光元件对包括一个第一感光元件以及与该第一感光元件对应的第二感光元件。

第一感光元件用于接收经过镜头传输至所在的像素的第一侧的光线，第二感光元件用于接收经过镜头传输至所在的像素的第二侧的光线。第一侧与第二侧表示的方向相反。从而，第一图像和第二图像可以用于相位对焦。

应当理解，第一感光元件与第二元件可以位于相同或不同的像素。

第一特征提取模型1010包括多个第一特征提取层1011至1013。第二特征提取模型1020包括多个第二特征提取层1021至1023。

第一特征提取模型1010与第二特征提取模型1020是孪生神经网络，具有相同的参数。并且第一特征提取层1011与第二特征提取层1021、第一特征提取层1012与第二特征提取层1022、第一特征提取层1013与第二特征提取层1023均具有相同的参数。

第一特征提取模型1010对第一图像进行处理的过程中，第一特征提取层1011用于对第一图像进行特征提取，得到第一特征提取层1011的第一输出。第一特征提取层1012用于对第一特征提取层1011的第一输出进行特征提取，得到第一特征提取层1012的第一输出。第一特征提取层1013用于对第一特征提取层1012的第一输出进行特征提取，得到第一特征提取层1013的第一输出。

第二特征提取模型1020对第一图像进行处理的过程中，第二特征提取层1021用于对第一图像进行特征提取，得到第二特征提取层1021的第二输出。第二特征提取层1022用于对第二特征提取层1021的第二输出进行特征提取，得到第二特征提取层1022的第二输出。第二特征提取层1023用于对第二特征提取层1022的第二输出进行特征提取，得到第二特征提取层1023的第二输出。

将第一特征提取层1011的第一输出与第二特征提取层1021的第二输出中各个位分别相减，得到第一特征提取层1011对应的层差异特征。将第一特征提取层1012的第一输出与第二特征提取层1022的第二输出中各个位分别相减，得到第一特征提取层1012对应的层差异特征。将第一特征提取层1013的第一输出与第二特征提取层1023的第二输出中各个位分别相减，得到第一特征提取层1013对应的层差异特征。

处理模型1030用于对第一图像、第二图像、差异图像、初始位置信息以及多个层差异特征进行处理，得到对焦信息。对焦信息表示镜头的移动矢量。

处理模型1030包括输入层1031、处理层1032至1034。处理层还可以包括输入层1031、处理层1032之间的多个隐藏层。

差异数据包括多个层差异特征和差异图像。

第一图像、第二图像、差异图像和初始位置信息输入处理模型1030的输入层1031。

多个第一特征提取层对应的层差异特征分别输入第一特征提取层对应的处理层。

处理层1032的输入包括处理层1032之前的层对第一图像、第二图像、差异图像、初始位置信息的处理结果，以及第一特征提取层1011对应的层差异特征。处理层1033的输入包括处理层1032的处理结果以及第一特征提取层1012对应的层差异特征。处理层1034的输入包括处理层1033的处理结果以及第一特征提取层1013对应的层差异特征。

第一图像和第二图像可以是位于传感器中全部相位感光元件对采集的图像，也可以是传感器中部分相位感光元件对采集的图像。

通过处理模型可以对第一图像、第二图像、初始位置信息，以及第二图像与第二图像之间的差异数据进行处理，以得到对焦信息。处理模型在确定对焦信息的过程中，考虑差异数据和对初始位置信息对焦信息的影响，使得确定的对焦信息更加准确，从而镜头根据对焦信息移动后使得传感器对目标对象采集的图像更加清晰。

图11是本申请实施例提供的一种神经网络模型训练方法的示意性流程图。图11所示的神经网络模型训练方法包括步骤S1110至步骤S1130，下面分别对这些步骤进行详细的描述。

步骤S1110，获取训练数据，所述训练数据包括样本数据和标注对焦信息，所述样本数据包括第一训练图像、第二训练图像和初始训练位置信息，所述第一训练图像和所述第二训练图像是在训练镜头位于所述初始训练位置信息表示的初始训练位置的情况下训练传感器中第一训练元件集合和第二训练元件集合分别进行采集得到的图像，所述第一训练元件集合包括多个第一训练感光元件，每个第一训练感光元件用于接收经所述训练镜头传输至所述第一训练感光元件所在像素的第一侧的光线，所述第二训练元件集合包括多个第二训练感光元件，每个第二训练感光元件用于接收经所述训练镜头传输至所述第二训练感光元件所在像素的第二侧的光线，所述第一侧与所述第二侧表示的方向相反，所述标注对焦信息表示的目标训练位置是所述训练镜头的多个位置中使得所述训练传感器对所述第一训练图像记录的场景采集的图像中位于对焦区域的区域图像对比度最高的位置，所述对焦区域位于所述第一训练图像所在的区域。

步骤S1120，利用初始处理模型对所述样本数据分别进行处理，以得到多个训练对焦信息。

步骤S1130，根据所述训练对焦信息和所述标注对焦信息之间的差异，调整所述初始处理模型的参数，以最小化所述差异，参数调整后的初始处理模型为训练得到的处理模型。

得到的处理模型可以用于实现图5所示的图像处理方法。图11所示的方法中采集第一训练图像和第二训练图像的训练传感器可以与图5所示的图像处理方法中使用的传感器可以相同或不同。

训练传感器可以包括多个训练相位感光元件对，每个训练相位感光元件对包括第一训练感光元件和第二训练感光元件。

图5的训练传感器中训练相位感光元件对与图11的传感器中相位感光元件对可以具有相同的结构。也就是说，在第一训练感光元件的第一侧与第一感光元件的第一侧表示的方向是相同的。

例如，在第一感光元件与第二感光元件的相对位置关系，与第一训练感光元件与第二训练感光元件的相对位置关系相同的情况下，通过图5所示的方法训练得到的处理模型可以应用在图11所示的方法中。

为了提高图11所示的方法的准确度，图5的训练传感器中训练相位感光元件对的密度与图11的传感器中相位感光元件对的密度之间的密度差异可以小于或等于预设密度差异。也就是说，训练得到的处理模型具有一定的泛化能力。

示例性地，图5所示方法中的传感器与图11所述方法中的训练传感器可以是具有相同结构的传感器，例如可以具有相同的型号。

标注对焦信息可以理解为样本数据对应的标签。

为了获取训练样本和标注对焦信息，控制训练镜头在移动范围内移动。

将训练镜头移动范围内的某个位置作为初始训练位置，将训练镜头位于该初始训练位置情况下第一训练元件集合对训练对象采集的图像作为第一训练图像，第二训练元件集合对训练对象采集的图像作为第二训练图像。

控制训练镜头在移动范围内移动，在训练镜头处于不同位置的情况下，利用训练传感器可以对训练对象进行图像采集，以得到多张候选图像。示例性地，训练镜头移动每次达到预设步长的情况下，训练传感器可以对训练对象进行一次采集，得到训练镜头所处位置对应的候选图像。在训练镜头从移动范围的一端移动至另一端的过程中训练传感器对训练对象采集的多个候选图像可以称为一个全扫描(fullsweep)。

采集多个候选图像的过程中，训练传感器的位置应当保持不变。在进行候选图像采集之前，设置有训练传感器和训练镜头的电子设备可以通过三脚架等固定设备进行位置的固定。

之后，计算每张候选图像的对比度。

一般情况下，在训练镜头在移动范围内移动的过程中，训练传感器对场景采集的图像的由离焦状态逐渐聚焦，之后再次离焦，即训练传感器采集的候选图像的逐渐变得清晰之后又逐渐变得模糊。通过图像的对比度，可以表现图像的清晰程度。在图像较为清晰的情况下，图像的对比度较高。反之，图像越模糊，图像的对比度越低。

示例性地，候选图像可以表示为I，候选图像I的对比度C(I)可以表示为C(I)＝∑(L*I)²/I²，其中，*表示卷积，/表示逐点相除，L为预设矩阵，可以表示为

该多个候选图像中，对比度最高的候选图像对应的训练镜头所处位置可以作为目标训练位置。或者，对于多个候选图像的对比度以及该多个候选图像对应的训练镜头所在位置，可以进行曲线拟合。从而，将拟合的曲线中对比度最大的点对应的训练镜头所在位置作为目标训练位置。

标志对焦信息可以是根据目标训练位置和初始训练位置确定的。标志对焦信息根据表示训练镜头由初始位置移动至目标训练位置的训练移动矢量。

应当理解，第一训练图像和第二训练图像可以是训练传感器中全部的相位感光元件对采集得到的，或者，也可以是位于对焦框区域中的相位感光元件对采集得到的。对焦框区域的位置可以是人工指定的，也可以是电子设备根据训练传感器采集的图像的内容确定的。应当理解，第一训练图像与第二训练图像具有相等或近似相等的尺寸，并且，第一训练图像与第二训练图像在训练传感器采集的图像中所在的位置相同或近似相同。

在第一训练图像与第二训练图像是位于对焦框区域中的相位感光元件对采集得到的情况下，样本数据还可以包括对焦框区域的训练位置信息。

训练数据的数量可以是一个或多个。在训练数据的数量为多个的情况下，每个训练数据包括样本数据和样本数据对应的标注对焦信息。在S920，可以利用初始处理模型分别对多个样本数据进行处理，以得到每个样本数据对应的训练对焦信息。之后，在S930，可以根据多个样本数据中每个样本数据对应的训练对焦信息和该样本数据中的标注对焦信息之间的差异，调整所述初始处理模型的参数，以最小化该多个差异，从而得到处理模型。

在该多个训练数据中，每个训练数据中的第一训练图像可以具有相同或不同的尺寸。在多个样本数据中第一训练图像的尺寸不同的情况下，利用多个训练数据训练得到的神经网络模型具有对不同尺寸的图像进行处理的能力，提高使用该神经网络模型的图像处理方法的适用广泛性。

标注对焦信息可以是目标训练位置的坐标或归一化坐标，或者，标注对焦信息也可以是目标训练位置对应的目标训练物距。

训练镜头不同的训练镜头位置可以对应于不同的物距。训练镜头位置与物距的对应关系可以根据镜头的焦距确定。

物距表示对象与训练传感器之间的距离。与物距对应的训练镜头位置是使得训练传感器对位于该物距的对象进行采集得到对比度最高的图像的训练镜头位置。应当理解，对比度最高也可以理解为，对于该物距的对象采集，训练传感器采集的多张图像中，使得对比度和训练镜头位置的拟合曲线中对比度最大的点对应的训练镜头位置。

训练样本中初始训练位置信息可以是初始训练物距。根据训练镜头位置与物距的对应关系，初始训练物距为训练镜头的初始训练位置对应的物距。在训练样本中初始训练位置信息为初始训练物距的情况下，标志对焦信息可以是目标训练位置对应的目标训练物距。

应当理解，初始训练物距和目标训练物距可以是物距的值，也可以是物距归一化结果。物距归一化结果可以称为归一化物距，可以理解为将训练镜头移动范围内的多个位置中对应的最大物距的归一化结果为1，对应的最小物距的归一化结果为0，其他位置对应的物距的归一化结果取值在0至1之间。

物距归一化结果与物距具有对应关系，不同的物距归一化结果对应于不同的物距，并且，物距归一化结果与对应的物距正相关。

在传感器使用的镜头不同的情况下，物距与镜头位置的对应关系可能并不相同。在处理模型的训练过程中，以物距表示训练镜头的位置，训练得到的处理模型的输出为物距信息，从而在摄像头中设置不同焦距的镜头的情况下，根据该镜头适用的物距与镜头位置的对应关系，可以确定该镜头的目标位置，即训练得到的处理模型能够适用于设置不同焦距的镜头，处理模型具有更加广泛的适用性。

训练数据可以包括多个训练样本和每个训练样本对应的标注对焦信息。在不同的训练样本中，第一训练图像的尺寸可以相同或不同。

在每个第一训练图像中，对焦区域可以是第一训练图像的全部区域或部分区域，例如，对焦区域可以是第一训练图像的中心区域。第一训练图像的中心区域位于第一训练图像的中心。中心区域的尺寸与第一训练图像的尺寸之间的比例可以是预设比例。或者，中心区域的尺寸可以是预设尺寸。

在第一训练图像的边缘区域，可能记录有与中心区域记录的对象不同的其他对象。在训练过程中，每个第一训练图像中对焦区域位于第一训练图像中的中心，则训练得到的处理模型在对待处理数据进行处理的过程中，可以降低第一图像中靠近边框位置记录的其他对象对对焦信息产生影响，镜头按照处理得到的对焦信息移动使得传感器采集的图像中第一图像中心区域的图像对比度最高，即第一图像中心区域的图像最清晰，提高对焦信息的准确度。

第一图像的尺寸可以理解为对焦框区域的尺寸。从而，处理模型可以适用于不同对焦框区域大小的场景。

示例性地，样本数据可以包括训练差异数据，训练差异数据表示第一图像与第二图像之间的差异。

在一些实施例中，训练差异数据可以包括训练差异图像。训练差异图像中的每个像素的像素值表示第一训练图像和第二训练图像中该像素的像素值之间的差异。

在步骤S1120，可以将训练图差异数据输入初始处理模型的输入层。

在另一些实施例中，训练差异数据可以包括训练特征差异。

在步骤S1120，还可以利用第一初始特征提取模型对第一训练图像进行特征提取，以得到第一训练特征，并利用第二初始特征提取模型对第二训练图像进行特征提取，以得到第二训练特征。训练特征差异可以表示第一训练特征和第二训练特征之间的差异。

在步骤S1130，根据训练对焦信息和标注对焦信息之间的差异，可以调整初始调整模型的参数、第一初始特征提取模型的参数和第二初始特征提取模型的参数，以得到第一特征提取模型和第二特征提模型。参数调整后的初始处理模型为处理模型，参数调整后的第一初始特征提取模型为第一特征提取模型，参数调整后的第二初始特征提取模型为第二特征提取模型。

第一初始特征提取模型与第二初始特征提取模型的参数可以相同或不同。在第一初始特征提取模型与第二初始特征提取模型的参数不同的情况下，在训练过程中，第一初始特征提取模型与第二初始特征提取模型的参数可以趋于相同。

第一初始特征提取模型的参数与第二初始特征提取模型的参数可以相同，且调整后的第一初始特征提取模型的参数与调整后的第二初始特征提取模型的参数相同。也就是说，在训练过程中，第一初始特征提取模型与第二初始特征提取模型始终可以是相同的模型。第一特征提取模型与第二特征提取模型可以理解为孪生神经网络。

训练对焦信息和标注对焦信息之间的差异可以表示为损失值。

在训练神经网络模型的过程中，因为神经网络模型的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为神经网络模型中的各层预先配置参数)，比如，如果模型的预测值高了，就调整权重向量让它预测低一些，不断地调整，直到神经网络模型能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值即损失值(loss)越高表示差异越大，那么神经网络模型的训练就变成了尽可能缩小这个loss的过程。

采用误差反向传播(back propagation，BP)算法可以在训练过程中修正初始的神经网络模型中参数的大小，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如，权重矩阵。

第一初始特征提取模型与第二初始特征提取模型的参数可以相等或不相等。

第一初始特征提取模型与第二初始特征提取模型可以是同一个神经网络模型。第一特征提取模型与第二特征提取模型也可以是同一个神经网络模型。

在第一初始特征提取模型和第二初始提取模型是同一个神经网络模型的情况下，可以利用该神经网络模型依次作为第一初始特征提取模型和第二初始提取模型，分别对第一训练图像和第二训练图像进行特征提取。

或者，第一特征提取模型与第二特征提取模型可以是孪生神经网络。应当理解，在第一初始特征提取模型与第二初始特征提取模型是孪生神经网络，或第一初始特征提取模型与第二初始特征提取模型可以是同一个神经网络模型的情况下，第一特征提取模型与第二特征提取模型均可以是孪生神经网络。

训练特征差异可以包括多个训练层特征差异。

第一训练特征可以是第一初始特征提取模型最后一个层的输出，第二训练特征可以是第二初始特征提取模型最后一个层的输出。

或者，第一训练特征可以包括第一初始特征提取模型中多个第一初始特征提取层中每个第一初始特征提取层输出的第一训练子特征。第二训练特征可以包括第二初始特征提取模型中多个第二初始特征提取层中每个第二初始特征提取层输出的第二训练子特征。训练特征差异包括多个第一初始特征提取层对应的多个训练层差异特征，每个第一初始特征提取层对应的训练层差异特征为该第一初始特征提取层输出的第一训练子特征和该第一初始特征提取层对应的第二初始特征提取层输出的第二训练子特征之间的差异，每个第一初始特征提取层与所述第一初始特征提取层对应的第二初始特征提取层的参数相同。

参数调整后的第一初始特征提取层为第一特征提取层，参数调整后的第二初始特征提取层为第二特征提取层。

初始处理模型可以包括一个或多个初始处理层。每个初始处理层可以包括一个或多个卷积层。

在S1120，可以将训练差异特征输入初始处理模型。

将训练差异特征输入初始处理模型的方式，可以是将训练差异特征输入初始处理模型的某个层，例如，该某个层可以是输入层，也可以是隐藏层。

或者，将训练差异特征输入初始处理模型的方式，也可以是将每个第一初始特征提取层对应的训练层差异特征输入初始处理模型中该第一初始特征提取层对应的初始处理层，不同的第一初始特征提取层对应于不同的初始处理层。

通过S1110至S1130训练得到的神经网络模型，在训练过程中考虑了第一训练图像和第二训练图像的差异，将训练得到的神经网络模型应用在图6所示的图像处理过程中，可以考虑到第一图像和第二图像的差异，使得确定的对焦信息更加准确。

在一些实施例中，样本数据可以不包括初始训练位置信息，并且样本数据的第一训练图像中，对焦区域是所述第一训练图像的中心区域。

这种情况下，标注对焦信息可以表示训练镜头从初始训练位置运动至目标训练位置的标注移动矢量。

从而，训练得到的处理模型可以用于对待处理数据进行处理，以得到对焦信息，对焦信息表示镜头的移动矢量。待处理数据可以包括第一图像和第二图像。

应理解，图5所示的处理模型和图10所示的图像处理系统1000均可以是通过端到端的训练得到的。系统800也可以理解为一个神经网络模型。在利用神经网络模型进行数据处理的场景下，可以进行如图12所示数据处理方法。

图12是本申请实施例提供的一种数据处理方法的示意性流程图。图12所示的图像处理方法包括步骤S1201至步骤S1205，下面分别对这些步骤进行详细的描述。

步骤S1201，采集样本数据。

样本数据可以包括第一训练图像、第二训练图像以及初始训练位置。

步骤S1202，标定样本数据对应的标签。

样本数据对应的标签即样本数据对应的标注对焦信息。

步骤S1203，构建初始神经网络模型。

训练得到的神经网络模型的模型结构与初始神经网络模型的模型结构相同。因此，初始神经网络模型的结果可以参见图9或图10的说明。

步骤S1204，利用样本数据和对应的标签，调整初始模型的参数，以得到训练后的模型。

利用初始模型对样本数据进行处理，可以得到训练对焦信息。根据训练对焦信息和标注对焦信息之间的差异，调整初始模型的参数，以最小化该差异。参数调整后的初始神经网络模型可以是图9所示的处理模型900，也可以是图10所示的图像处理系统1000。

步骤S1205，利用训练后的模型进行推理。

利用训练后的模型进行推理，可以理解为神经网络模型的应用过程，即确定对焦信息的过程，可以参见图5的说明。

在图12所示的数据处理方法中，步骤S1201可以是第一电子设备执行的，步骤S1202可以是利用第一电子设备实现的，步骤S1203可以是通过人工实现的，步骤S1204可以是第二电子设备执行的，步骤S1205可以是第三电子设备执行的。第一电子设备、第二电子设备、第三电子设备可以是相同或不同的电子设备。示例性地，第一电子设备与第三电子设备可以是不同的终端，第二电子设备可以是服务器。

应理解，上述举例说明是为了帮助本领域技术人员理解本申请实施例，而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明，显然可以进行各种等价的修改或变化，这样的修改或变化也落入本申请实施例的范围内。

上文结合图1至图12详细描述了本申请实施例的图像处理方法，下面将结合图13和图14，详细描述本申请的装置实施例。应理解，本申请实施例中的图像处理装置可以执行前述本申请实施例的各种图像处理方法，即以下各种产品的具体工作过程，可以参考前述方法实施例中的对应过程。

图13是本申请实施例提供的图像处理装置的示意图。

应理解，图像处理装置1300可以执行图5所示的图像处理方法。

图像处理装置1300包括：获取单元1310和处理单元1320。

在一些实施例中，获取单元1310用于，获取待处理数据，所述待处理数据包括第一图像、第二图像和初始位置信息，所述第一图像和所述第二图像是在镜头位于所述初始位置信息表示的初始位置的情况下传感器中第一元件集合和第二元件集合分别得到的图像，所述第一元件集合包括多个第一感光元件，每个第一感光元件用于接收经所述镜头传输至所述第一感光元件所在像素的第一侧的光线，所述第二元件集合包括多个第二感光元件，每个第二感光元件用于接收经所述镜头传输至所述第二感光元件所在像素的第二侧的光线，所述第一侧与所述第二侧表示的方向相反。

处理单元1320用于，利用处理模型对所述待处理数据进行处理，以得到对焦信息，所述对焦信息表示所述镜头的目标位置，所述处理模型是训练得到的神经网络模型。

可选地，所述初始位置信息为所述初始位置对应的初始物距，所述对焦信息为所述目标位置对应的目标物距。

可选地，所述对焦区域是所述第一训练图像的中心区域。

可选地，所述待处理数据包括差异数据，所述差异数据表示所述第一图像和所述第二图像之间的差异。

可选地，获取单元1310具体用于，利用第一特征提取模型对所述第一图像进行特征提取，以得到所述第一特征；利用第二特征提取模型对所述第二图像进行特征提取，以得到所述第二特征，所述第一特征提取模型和所述第二特征提取模型的参数相同。

可选地，所述第一特征包括所述第一特征提取模型中多个第一特征提取层中每个第一特征提取层输出的第一子特征，所述第二特征包括所述第二特征提取模型中所述多个第二特征提取层中每个第二特征提取层输出的第二子特征，所述特征差异包括多个第一特征提取层对应的多个层差异特征，每个第一特征提取层对应的层差异特征为所述第一特征提取层输出的第一子特征和所述第一特征提取层对应的第二特征提取层输出的第二子特征之间的差异，每个第一特征提取层与所述第一特征提取层对应的第二特征提取层的参数相同。

可选地，处理单元1320具体用于，将每个第一特征提取层对应的层差异特征输入所述处理模型中所述第一特征提取层对应的处理层，不同第一特征提取层对应于不同的处理层，每个第一特征提取层对应的处理层的深度与所述第一特征提取层的深度正相关。

可选地，所述差异数据包括差异图像，所述差异图像中的每个像素的像素值表示所述第一图像和所述第二图像的在所述像素的像素值之间的差异。

可选地，所述处理模型是利用训练数据对初始处理模型进行训练得到的，所述训练数据包括多个训练样本和每个训练样本对应的标注对焦信息，每个训练样本包括第一训练图像、第二训练图像和初始训练位置信息，所述第一训练图像和所述第二训练图像是在训练镜头位于所述初始训练位置信息表示的初始训练位置的情况下训练传感器中第一训练元件集合和第二训练元件集合分别得到的图像，所述第一训练元件集合包括多个第一训练感光元件，每个第一训练感光元件用于接收经所述训练镜头传输至所述第一训练感光元件所在像素的所述第一侧的光线，所述第二训练元件集合包括多个第二训练感光元件，每个第二训练感光元件用于接收经所述训练镜头传输至所述第二训练感光元件所在像素的所述第二侧的光线，每个训练样本中对应的标注对焦信息表示的目标训练位置是所述训练镜头的多个位置中使得所述训练传感器对所述训练样本中的所述第一训练图像记录的场景采集的图像中位于对焦区域的区域图像对比度最高的位置，所述对焦区域位于所述第一训练图像所在的区域。

在另一些实施例中，图像处理装置1300也可以称为神经网络模型训练装置，用于执行图11所示的神经网络模型训练方法。

获取单元1310用于，获取训练数据，所述训练数据包括样本数据和标注对焦信息，所述样本数据包括第一训练图像、第二训练图像和初始训练位置信息，所述第一训练图像和所述第二训练图像是在训练镜头位于所述初始训练位置信息表示的初始训练位置的情况下训练传感器中第一训练元件集合和第二训练元件集合分别进行采集得到的图像，所述第一训练元件集合包括多个第一训练感光元件，每个第一训练感光元件用于接收经所述训练镜头传输至所述第一训练感光元件所在像素的第一侧的光线，所述第二训练元件集合包括多个第二训练感光元件，每个第二训练感光元件用于接收经所述训练镜头传输至所述第二训练感光元件所在像素的第二侧的光线，所述第一侧与所述第二侧表示的方向相反，所述标注对焦信息表示的目标训练位置是所述训练镜头的多个位置中使得所述训练传感器对所述第一训练图像记录的场景采集的图像中位于对焦区域的区域图像对比度最高的位置，所述对焦区域位于所述第一训练图像所在的区域。

处理单元1320用于，利用初始处理模型对所述样本数据分别进行处理，以得到多个训练对焦信息。

处理单元1320还用于，根据所述训练对焦信息和所述标注对焦信息之间的差异，调整所述初始处理模型的参数，以最小化所述差异，参数调整后的初始处理模型为训练得到的处理模型。

可选地，不同的物距对应于不同的训练镜头位置，所述初始训练位置信息为所述初始训练位置对应的初始训练物距，所述标注对焦信息为所述目标训练位置对应的目标训练物距。

可选地，所述对焦区域是所述第一训练图像的中心区域。

可选地，所述训练数据的数量为多个，所述多个训练数据中的第一训练图像的尺寸不同。

可选地，所述样本数据还包括训练图像位置信息，所述训练图像位置信息表示所述第一训练图像在所述训练传感器采集的图像中的位置。

可选地，所述样本差异数据包括训练差异数据，所述训练差异数据表示所述第一训练图像和所述第二训练图像之间的差异。

可选地，获取单元1310具体用于，利用第一初始特征提取模型对第一训练图像进行特征提取，以得到第一训练特征；利用第二初始特征提取模型对第二训练图像进行特征提取，以得到第二训练特征，所述训练差异数据包括所述第一训练特征和所述第二训练特征之间的训练特征差异。

处理单元1320具体用于，根据所述训练对焦信息和所述标注对焦信息之间的差异，调整所述初始处理模型的参数、第一初始特征提取模型的参数和第二初始特征提取模型的参数。

可选地，所述第一初始特征提取模型与所述第二初始特征提取模型的参数相同，且调整后的第一初始特征提取模型的参数与调整后的第二初始特征提取模型的参数相同。

可选地，所述第一训练特征包括所述第一初始特征提取模型的多个第一初始特征提取层中每个第一初始特征提取层输出的第一训练子特征，所述第二训练特征包括所述第二初始特征提取模型的所述多个第二初始特征提取层中每个第二初始特征提取层输出的第二训练子特征，所述训练特征差异包括多个第一初始特征提取层对应的多个训练层差异特征，每个第一初始特征提取层对应的训练层差异特征为所述第一初始特征提取层输出的第一训练子特征和所述第一初始特征提取层对应的第二初始特征提取层输出的第二训练子特征之间的差异，每个第一初始特征提取层和所述第一初始特征提取层对应的第二初始特征提取层的参数相同。

可选地，不同的第一初始特征提取层对应于所述处理模型的不同的处理层。

处理单元1320具体用于，将每个第一初始特征提取层对应的训练层差异特征输入所述初始处理模型中所述特征提取层对应的处理层，不同的第一初始特征提取层对应于不同的初始处理层。

可选地，所述训练差异数据包括训练差异图像，所述训练差异图像中的每个像素的像素值表示所述第一训练图像和所述第二训练图像中所述像素的像素值之间的差异。

需要说明的是，上述图像处理装置1300以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现，对此不作具体限定。

例如，“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。

因此，在本申请的实施例中描述的各示例的单元，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

图14示出了本申请提供的一种电子设备的结构示意图。图14中的虚线表示该单元或该模块为可选的。电子设备1400可用于实现上述方法实施例中描述的图像处理方法。

电子设备1400包括一个或多个处理器1401，该一个或多个处理器1401可支持电子设备1400实现方法实施例中的图像处理方法。处理器1401可以是通用处理器或者专用处理器。例如，处理器1401可以是中央处理器(central processing unit，CPU)、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integratedcircuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件，如分立门、晶体管逻辑器件或分立硬件组件。

处理器1401可以用于对电子设备1400进行控制，执行软件程序，处理软件程序的数据。电子设备1400还可以包括通信单元1405，用以实现信号的输入(接收)和输出(发送)。

例如，电子设备1400可以是芯片，通信单元1405可以是该芯片的输入和/或输出电路，或者，通信单元1405可以是该芯片的通信接口，该芯片可以作为终端设备或其它电子设备的组成部分。

又例如，电子设备1400可以是终端设备，通信单元1405可以是该终端设备的收发器，或者，通信单元1405可以是该终端设备的收发电路。

电子设备1400中可以包括一个或多个存储器1402，其上存有程序1404，程序1404可被处理器1401运行，生成指令1403，使得处理器1401根据指令1403执行上述方法实施例中描述的图像处理方法。

可选地，存储器1402中还可以存储有数据。可选地，处理器1401还可以读取存储器1402中存储的数据，该数据可以与程序1404存储在相同的存储地址，该数据也可以与程序1404存储在不同的存储地址。

处理器1401和存储器1402可以单独设置，也可以集成在一起；例如，集成在终端设备的系统级芯片(system on chip，SOC)上。

示例性地，存储器1402可以用于存储本申请实施例中提供的图像处理方法或神经网络训练方法的相关程序1404，处理器1401可以用于调用存储器1402中存储的图像处理方法或神经网络训练方法的相关程序1404，执行本申请实施例的图像处理方法或神经网络训练方法。

例如，处理器1401可以用于获取待处理数据，所述待处理数据包括第一图像、第二图像和初始位置信息，所述第一图像和所述第二图像是在镜头位于所述初始位置信息表示的初始位置的情况下传感器中第一元件集合和第二元件集合分别得到的图像，所述第一元件集合包括多个第一感光元件，每个第一感光元件用于接收经所述镜头传输至所述第一感光元件所在像素的第一侧的光线，所述第二元件集合包括多个第二感光元件，每个第二感光元件用于接收经所述镜头传输至所述第二感光元件所在像素的第二侧的光线，所述第一侧与所述第二侧表示的方向相反；利用处理模型对所述待处理数据进行处理，以得到对焦信息，所述对焦信息表示所述镜头的目标位置，所述处理模型是训练得到的神经网络模型。

又例如，处理器1401可以用于获取训练数据，所述训练数据包括样本数据和标注对焦信息，所述样本数据包括第一训练图像、第二训练图像和初始训练位置信息，所述第一训练图像和所述第二训练图像是在训练镜头位于所述初始训练位置信息表示的初始训练位置的情况下训练传感器中第一训练元件集合和第二训练元件集合分别进行采集得到的图像，所述第一训练元件集合包括多个第一训练感光元件，每个第一训练感光元件用于接收经所述训练镜头传输至所述第一训练感光元件所在像素的第一侧的光线，所述第二训练元件集合包括多个第二训练感光元件，每个第二训练感光元件用于接收经所述训练镜头传输至所述第二训练感光元件所在像素的第二侧的光线，所述第一侧与所述第二侧表示的方向相反，所述标注对焦信息表示的目标训练位置是所述训练镜头的多个位置中使得所述训练传感器对所述第一训练图像记录的场景采集的图像中位于对焦区域的区域图像对比度最高的位置，所述对焦区域位于所述第一训练图像所在的区域；利用初始处理模型对所述样本数据分别进行处理，以得到多个训练对焦信息；根据所述训练对焦信息和所述标注对焦信息之间的差异，调整所述初始处理模型的参数，以最小化所述差异，参数调整后的初始处理模型为训练得到的处理模型。

本申请还提供了一种计算机程序产品，该计算机程序产品被处理器1401执行时实现本申请中任一方法实施例所述的图像处理方法或神经网络训练方法。

该计算机程序产品可以存储在存储器1402中，例如是程序1404，程序1404经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器1401执行的可执行目标文件。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现本申请中任一方法实施例所述的图像处理方法或神经网络训练方法。该计算机程序可以是高级语言程序，也可以是可执行目标程序。

该计算机可读存储介质例如是存储器1402。存储器1402可以是易失性存储器或非易失性存储器，或者，存储器1402可以同时包括易失性存储器和非易失性存储器。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlinkDRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性，以及特定的顺序或先后次序。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待处理数据，所述待处理数据包括第一图像、第二图像和初始位置信息，所述第一图像和所述第二图像是在镜头位于所述初始位置信息表示的初始位置的情况下传感器中第一元件集合和第二元件集合分别得到的图像，所述第一元件集合包括多个第一感光元件，每个第一感光元件用于接收经所述镜头传输至所述第一感光元件所在像素的第一侧的光线，所述第二元件集合包括多个第二感光元件，每个第二感光元件用于接收经所述镜头传输至所述第二感光元件所在像素的第二侧的光线，所述第一侧与所述第二侧表示的方向相反；

利用处理模型对所述待处理数据进行处理，以得到对焦信息，所述对焦信息表示所述镜头的目标位置，所述处理模型是利用训练数据对初始处理模型进行训练得到的神经网络模型，所述训练数据包括多个训练样本和每个训练样本对应的标注对焦信息，每个训练样本包括第一训练图像、第二训练图像和初始训练位置信息，所述第一训练图像和所述第二训练图像是在训练镜头位于所述初始训练位置信息表示的初始训练位置的情况下训练传感器中第一训练元件集合和第二训练元件集合分别得到的图像，所述第一训练元件集合包括多个第一训练感光元件，每个第一训练感光元件用于接收经所述训练镜头传输至所述第一训练感光元件所在像素的所述第一侧的光线，所述第二训练元件集合包括多个第二训练感光元件，每个第二训练感光元件用于接收经所述训练镜头传输至所述第二训练感光元件所在像素的所述第二侧的光线，每个训练样本中对应的标注对焦信息表示的目标训练位置是所述训练镜头的多个位置中使得所述训练传感器对所述训练样本中的所述第一训练图像记录的场景采集的图像中位于对焦区域的区域图像对比度最高的位置，所述对焦区域位于所述第一训练图像所在的区域。

2.根据权利要求1所述的方法，其特征在于，不同的物距对应于不同的镜头位置，所述初始位置信息为所述初始位置对应的初始物距，所述对焦信息为所述目标位置对应的目标物距。

3.一种神经网络模型训练方法，其特征在于，所述方法包括：

获取训练数据，所述训练数据包括样本数据和标注对焦信息，所述样本数据包括第一训练图像、第二训练图像和初始训练位置信息，所述第一训练图像和所述第二训练图像是在训练镜头位于所述初始训练位置信息表示的初始训练位置的情况下训练传感器中第一训练元件集合和第二训练元件集合分别进行采集得到的图像，所述第一训练元件集合包括多个第一训练感光元件，每个第一训练感光元件用于接收经所述训练镜头传输至所述第一训练感光元件所在像素的第一侧的光线，所述第二训练元件集合包括多个第二训练感光元件，每个第二训练感光元件用于接收经所述训练镜头传输至所述第二训练感光元件所在像素的第二侧的光线，所述第一侧与所述第二侧表示的方向相反，所述标注对焦信息表示的目标训练位置是所述训练镜头的多个位置中使得所述训练传感器对所述第一训练图像记录的场景采集的图像中位于对焦区域的区域图像对比度最高的位置，所述对焦区域位于所述第一训练图像所在的区域；

利用初始处理模型对所述样本数据分别进行处理，以得到多个训练对焦信息；

根据所述训练对焦信息和所述标注对焦信息之间的差异，调整所述初始处理模型的参数，以最小化所述差异，参数调整后的初始处理模型为训练得到的处理模型。

4.根据权利要求3所述的方法，其特征在于，不同的物距对应于不同的训练镜头位置，所述初始训练位置信息为所述初始训练位置对应的初始训练物距，所述标注对焦信息为所述目标训练位置对应的目标训练物距。

5.根据权利要求3或4所述的方法，其特征在于，所述对焦区域是所述第一训练图像的中心区域。

6.根据权利要求3或4所述的方法，其特征在于，所述训练数据的数量为多个，所述多个训练数据中的第一训练图像的尺寸不同。

7.一种电子设备，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中调用并运行所述计算机程序，使得所述电子设备执行权利要求1至6中任一项所述的方法。

8.一种芯片，其特征在于，包括处理器，当所述处理器执行指令时，所述处理器执行如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储了计算机程序，当所述计算机程序被处理器执行时，使得处理器执行如权利要求1至6中任一项所述的方法。