CN109525786B

CN109525786B - 视频处理方法、装置、终端设备及存储介质

Info

Publication number: CN109525786B
Application number: CN201811605138.9A
Authority: CN
Inventors: 詹肇楷
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2021-04-30
Anticipated expiration: 2038-12-26
Also published as: CN109525786A

Abstract

本发明实施例涉及计算机视觉技术领域，提供一种视频处理方法、装置、终端设备及存储介质，通过两个摄像头分别采集第一视频流和第二视频流，并生成待处理视频流；确定待对焦物体；跟踪待对焦物体以确定待对焦物体在待处理视频流中各帧的位置信息；利用立体匹配算法获得深度图序列；根据深度图序列及待对焦物体在待处理视频流中的位置信息，对待处理视频流进行重对焦处理，生成重对焦视频流。与现有技术相比，本方法可以以简单的操作，直接获取到类似单反拍摄效果的重对焦视频流，具有简化用户操作、节约处理时间，提高系统效能的效果。

Description

视频处理方法、装置、终端设备及存储介质

技术领域

本发明实施例涉及计算机视觉技术领域，具体而言，涉及一种视频处理方法、装置、终端设备及存储介质。

背景技术

随着图像处理技术的发展，终端设备的拍照功能越来越强大，用户的拍摄需求也越来越高。采用并列设置多个摄像头的方式，可以利用采集的左视图和右视图合成深度图后来进行重对焦处理，模拟高端单反相机的成像效果，或获得特殊图像效果，从而提升了拍摄功能，增强了用户体验。目前，利用多摄像头进行重对焦时，多是针对静态图像的方式进行，依据用户对静态图像的操作指令，完成重对焦处理。然而，对于视频流而言，如果沿用现有的针对静态图像的重对焦处理处理方法，会导致用户需对大量视频帧进行重复操作，整个操作过程繁琐，需要花费用户大量时间，不具备实用性。

发明内容

本发明实施例的目的在于提供一种视频处理方法、装置、终端设备及存储介质，用以改善上述问题。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种视频处理方法，应用于设置有摄像头模组的终端设备，摄像头模组包括具有至少部分重叠取景范围的第一摄像头和第二摄像头，该视频处理方法包括：获取由第一摄像头采集的第一视频流及第二摄像头采集的第二视频流，其中，第一视频流包含多个第一视频帧，第二视频流包含多个第二视频帧，每一第一视频帧同一个第二视频帧对应；基于第一视频流和第二视频流，生成待处理视频流；确定待处理视频流中的待对焦物体；对待对焦物体进行跟踪，以获得在待处理视频流的每一待处理视频帧中待对焦物体的位置信息；将每一第一视频帧同对应的第二视频帧进行立体匹配，根据立体匹配的结果获得深度图序列，其中待处理视频流中的每一待处理视频帧在深度图序列中具有对应的深度图帧；根据每一待处理视频帧中待对焦物体的位置信息和每一待处理视频帧所对应的深度图帧，确定每一待处理视频帧中的重对焦区域，并进行重对焦处理，得到重对焦视频流。

第二方面，本发明实施例还提供了一种视频处理装置，应用于设置有摄像头模组的终端设备，摄像头模组包括具有至少部分重叠取景范围的第一摄像头和第二摄像头，该视频处理装置包括：视频流获取模块，用于获取由第一摄像头采集的第一视频流及第二摄像头采集的第二视频流，其中，第一视频流包含多个第一视频帧，第二视频流包含多个第二视频帧，每一第一视频帧同一个第二视频帧对应；待处理视频流生成模块，用于基于第一视频流和所述第二视频流，生成待处理视频流；待对焦物体确定模块，用于确定所述待处理视频流中的待对焦物体；物体跟踪模块，用于对待对焦物体进行跟踪，以获得在待处理视频流的每一待处理视频帧中待对焦物体的位置信息；深度图生成模块，用于将每一第一视频帧同对应的所述第二视频帧进行立体匹配，根据所述立体匹配的结果获得深度图序列，其中待处理视频流中的每一待处理视频帧在深度图序列中具有对应的深度图帧；重对焦模块，用于根据每一待处理视频帧中待对焦物体的位置信息，和每一待处理视频帧所对应的深度图帧，确定每一待处理视频帧中的重对焦区域，并进行重对焦处理，得到重对焦视频流。

第三方面，本发明实施例还提供了一种终端设备，所述终端设备设置有摄像头模组，所述摄像头模组包括具有至少部分重叠取景范围的第一摄像头和第二摄像头，所述终端设备还包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的视频处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的视频处理方法。

相对现有技术，本发明实施例提供的一种视频处理方法、装置、终端设备及存储介质，该视频处理方法包括：获取由第一摄像头采集的第一视频流及第二摄像头采集的第二视频流，其中，第一视频流包含多个第一视频帧，第二视频流包含多个第二视频帧，每一第一视频帧同一个第二视频帧对应；基于第一视频流和第二视频流，确定一个待处理视频流；在待处理视频流中，确定待对焦物体；对待对焦物体进行跟踪，以获得所述待处理视频流的每一待处理视频帧中所述待对焦物体的位置信息；将每一所述第一视频帧同对应的所述第二视频帧进行立体匹配，根据所述立体匹配的结果获得深度图序列，其中所述待处理视频流中的每一待处理视频帧在所述深度图序列中具有对应的深度图帧；根据每一待处理视频帧中待对焦物体的位置信息，和每一待处理视频帧所对应的深度图帧，确定每一待处理视频帧中的重对焦区域，并进行重对焦处理，得到重对焦视频流。与现有技术相比，本发明实施例提供的视频处理方法，可以以简单的操作，直接获取到类似单反拍摄效果的重对焦视频流，具有简化用户操作、节约处理时间，提高系统效能的效果。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的终端设备的方框示意图。

图2示出了本发明实施例提供的视频处理方法流程图。

图3为图2示出的步骤S105的子步骤流程图。

图4示出了本发明实施例提供的视频处理装置的方框示意图。

不同附图中相同的标记表示相同或相似的特征。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，图1示出了本发明实施例提供的终端设备100的方框示意图。终端设备100具有图像显示功能，其可以是智能手机、平板电脑、便携计算机、穿戴式终端设备等等。终端设备100包括存储器101、存储控制器102、处理器103、内部接口104、摄像头模组105和显示模块106。

所述存储器101、存储控制器102、处理器103、内部接口104、摄像头模组105和显示模块106各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。其中，存储器101用于存储程序，例如视频处理装置200，视频处理装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述终端设备100的操作系统(operatingsystem，OS)中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块，例如所述视频处理装置200包括的软件功能模块或计算机程序。所述处理器103在接收到执行指令后，执行所述程序以实现本发明下述第一实施例揭示的视频处理方法。

其中，存储器101可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器103可以是一种集成电路芯片，具有信号处理能力。上述的处理器103可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)、语音处理器以及视频处理器等；还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。

所述内部接口104用于将各种输入/输出装置耦合至处理器103以及存储器101。在一些实施例中，内部接口104、处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

摄像头模组105具有复数个摄像头，其中包括第一摄像头和第二摄像头，第一摄像头可用于采集第一视频流，第二摄像头可用于采集第二视频流。第一摄像头同第二摄像头之间具有至少部分重叠的取景范围。具体的，摄像头模组105可以为一个双摄像头模组，也可以为三摄像头模组、四摄像头模组或摄像头模组阵列。

可选的，显示模块106用于对图像进行显示，显示的内容可以是第一视频流中的图像、第二视频流中的图像、或者第一视频流和第二视频流合成之后的图像。显示模块106可以是触摸显示屏、无交互功能的显示屏等。

请参照图2，图2示出了本发明一个实施例提供的视频处理方法流程图。视频处理方法包括以下步骤：

步骤S101，获取由第一摄像头采集的第一视频流及第二摄像头采集的第二视频流，其中，第一视频流包含多个第一视频帧，第二视频流包含多个第二视频帧，每一第一视频帧同一个第二视频帧对应。

在本发明一个实施例中，第一视频流和第二视频流具有至少部分重叠的取景范围，第一视频流是摄像头模组105中第一摄像头采集的的视频流，第二视频流是摄像头模组105中第二摄像头所采集的视频流。例如，当摄像头模组105为并列设置的双摄模组时，第一视频流可以由位于左侧的第一摄像头拍摄，第二视频流可以由位于右侧的第二摄像头拍摄。又例如，如果摄像头模组105为集中设置的三摄像头模组时，三摄像头模组可能以一定的几何形式排列，如呈L型排列、等边三角形排列或直线排列等等。此时，第一摄像头和第二摄像头可以为三摄像头模组中的其中两个具有至少部分重叠取景范围的摄像头，来获取第一视频流和第二视频流。以此类推，第一摄像头和第二摄像头也可以为位于四摄像头模组或摄像头模组阵列中的两个摄像头，此处不再赘述。

第一视频流可以包含多个第一视频帧，第二视频流可以包含多个第二视频帧，每个第一视频帧具有对应的第二视频帧。在此处及下文中，两视频帧“对应”指的是两视频帧在相同时刻进行拍摄，使得两视频帧所反映的图像内容至少部分相同，能够匹配。

步骤S102，基于第一视频流和第二视频流，生成待处理视频流。

在本发明一个实施例中，在获取第一视频流和第二视频流后，基于第一视频流和第二视频流，生成待处理视频流。具体的，待处理视频流可以是第一视频流和第二视频流中的任意一个。例如，在一个实施例中，可以直接将第一视频流作为生成的待处理视频流。在另一实施例中，待处理视频流为将第一视频流和第二视频流中的合成后形成的视频流，即将每个第一视频帧同对应的第二视频帧合成，得到多个待处理视频帧，多个待处理视频帧一起合成待处理视频流。可以理解的是，在合成之后，每个第一视频帧具有对应的待处理视频帧。

将每个第一视频帧同对应的第二视频帧合成生成待处理视频流，可以通过将每一第一视频帧同对应的第二视频帧进行立体匹配，并提取每一第一视频帧中的部分图像特征和对应的第二视频帧中的部分图像特征，来合成每一待处理视频帧，从而生成待处理视频流。具体的，可以基于摄像头模组105中第一摄像头和第二摄像头的类型，来决定待处理视频帧的合成方式和特征提取方式。例如，在一个实施例中，第一摄像头为彩色(RGB)摄像头，则第一视频帧为彩色视频帧，第二摄像头为黑白(MONO)摄像头，则第二视频帧为黑白视频帧。在合成待处理视频帧时，将提取每个第一视频帧的颜色信息，以及提取对应第二视频帧中的亮度和图像细节信息，并对每个第一视频帧同对应的第二视频帧进行立体匹配，基于立体匹配结果，合成为对应的待处理视频帧，以生成待处理视频流。

又例如，在另一实施例中，第一摄像头具有第一等效焦距(例如，18mm)，第二摄像头具有大于第一焦距的第二焦距(例如，60mm)。该摄像头配置使得每一第一视频帧具有较大的视场范围，而对应的第二视频帧具有较小的视场范围，可使得待处理视频流获得模拟光学变焦效果。在合成待处理视频帧时，终端设备100根据当前取景设置，确定光学变焦倍数后，提取每个第一视频帧中的对应部分画面、和对应第二视频帧中的对应部分画面，并对每个第一视频帧同对应的第二视频帧进行立体匹配，基于立体匹配结果，合成为对应的待处理视频帧，以生成待处理视频流。

本领域普通技术人员能够理解，上述对待处理视频帧的合成方式和特征提取的描述是示例性而非限制性的。在其它实施例中，可以基于摄像头模组105的具体配置，采用任何其它合适的合成和特征提取方式，来获得待处理视频流。

步骤S103，确定待处理视频流中的待对焦物体。

在本发明一个实施例中，确定处理视频流中的待对焦物体可以采用接收用户指令或者自动识别的方式进行。具体的，在本发明一个实施例中，终端设备100具有图像显示功能，可以对重叠取景范围内的图像进行实时显示。在下面的说明书部分，将以对待处理视频图像进行显示为例，对本发明某些实施例进行描述。但本领域技术人员能够理解，在其他实施例中，显示的内容也可以是第一视频流中的图像，或者第二视频流中的图像。

终端设备100在本步骤中，可以基于待处理视频流中的待处理目标视频帧来确定待对焦物体，待处理目标视频帧可以是待处理视频流中的任意一帧图像，待对焦物体可以是位于第一摄像头和第二摄像头的重叠取景范围内的物体，具体的确定方式下文将进行详述。

在一个实施例中，终端设备100可以具有触摸显示屏，触摸显示屏对该待处理目标待处理视频帧进行显示之后，如果用户需要对该待处理目标待处理视频帧中的任一物体进行重对焦，则终端设备100可以接收到用户的重对焦操作请求。用户可以在触摸屏显示该待处理目标待处理视频帧时手指/点触笔选择待重对焦物体发送重对焦操作请求，终端设备100基于用户的重对焦操作请求，确定待对焦物体。

在另一实施例中，终端设备100可以具有无交互功能的显示屏，无交互功能的显示屏对该待处理目标待处理视频帧进行显示之后，如果用户需要对该待处理目标待处理视频帧中的任一物体进行重对焦，则终端设备100可以接收到用户的重对焦操作请求。用户可以在无交互功能的显示屏显示该待处理目标待处理视频帧时通过与终端设备100连接的输入输出设备(例如，鼠标等)框选待对焦物体发送重对焦操作请求，终端设备100基于用户的重对焦操作请求，确定待对焦物体。

在又一实施例中，终端设备100可以对待处理目标视频帧中的内容进行图像分析，根据图像分析结果确定待对焦物体。例如，终端设备100可以在待处理目标视频帧中定义一个预设的区域，识别该区域内所包含物体，将识别结果设置为待对焦物体。

又例如，终端设备100在待处理目标视频帧的重叠取景范围内，进一步对待处理目标视频帧进行图像识别，识别出待处理目标视频帧中所包含的物体位置和类型，并根据识别结果决定待对焦物体。终端设备100可以采用任何可适用的基于模式识别或者基于机器学习算法(例如基于神经网络的深度学习算法)的图像识别技术，来识别出物体的位置和类型，本申请对此不做限制。在决定待对焦物体时，终端设备100可以基于预设的规则进行，例如，当识别结果同时包含人脸和家具时，终端设备100将人脸设置为待对焦物体；又例如，当识别结果同时包含位于待处理目标视频帧画面中心的人脸和画面边缘的人脸时，终端设备100将位于画面中心的人脸设置为待对焦物体。待对焦物体可以为一个或多个，本申请此处不做限制。

步骤S104，对待对焦物体进行跟踪，以获得待处理视频流的每一待处理视频帧中待对焦物体的位置信息。

在本发明一个实施例中，对待对焦物体的跟踪可以通过图像目标跟踪技术实现。具体的，待处理视频流的每一待处理视频帧中待对焦物体的位置信息，可以是待对焦物体在每一待处理视频帧中的对应像素点坐标集合，或者是待对焦物体在每一待处理视频帧中的对应区域特征坐标，例如，当待对焦物体是一个多边形时，位置信息可以是该多边形在每一待处理视频帧中的顶点坐标和各顶点的连接顺序。

对待对焦物体的跟踪可以采用目标跟踪算法完成，例如可以利用基于特征点的目标跟踪方法对待对焦物体进行跟踪，具体过程可以包括：首先，检测待处理目标视频帧中待对焦物体的特征点，该特征点可以是待对焦物体上的边缘点；然后，将待处理目标视频帧和与该待处理目标视频帧连续的下一帧图像进行灰度比较，根据待处理目标视频帧中，位于待对焦物体的特征点处的灰度变化特征(例如在每个特征点)，估计待处理目标视频帧中的特征点在下一帧图像中的位置信息，以此类推，获得待处理视频流的每一待处理视频帧中待对焦物体的位置信息。另外，也可以利用卡尔曼滤波法或者光流法(例如，Lucas-Kanade光流法)实现待处理视频流中待对焦物体的跟踪，或者其它任何合适的目标跟踪方法来实现，在此不再赘述。

此外，还可通过对待对焦物体进行特征提取获取到待对焦物体的特征信息，根据待对焦物体的特征信息，跟踪待对焦物体。待对焦物体的特征信息可以是，待对焦物体或包含待对焦物体的待处理目标视频帧上具有的可以用于在待处理目标视频帧中确定待对焦物体位置的特征。

例如，在某些实施例中，由于待对焦物体在待处理视频流中可能会与其它物体发生画面重叠，此时，可以通过获取待对焦物体的类型信息作为待对焦物体的特征信息。具体的，终端设备100可以在确定待对焦物体后，进一步对待对焦物体类型进行识别，获取待对焦物体的类型信息。如果确定待对焦物体时已经进行过图像识别并识别出待对焦物体类型时，则可以直接将已获得的待对焦物体类型识别结果作为待对焦物体的特征信息，而无需在确定待对焦物体之后再对待对焦物体的类型进行识别。之后，对每一待处理视频帧进行物体类型识别，在每一待处理视频帧中，找寻同待对焦物体识别结果相同的物体类型，并记录相应的位置，就能得到每一待处理视频帧中待对焦物体较为准确的位置信息。如前文所述，待对焦物体类型识别可采用任何可适用的图像识别方法，此处不再赘述。

在跟踪过程中，为提高跟踪的准确性，可以复合采用多种目标跟踪方法来实现对带对焦物体的跟踪，即可以同时采用图像跟踪和图像识别方法，来实现对待对焦物体在待处理图像帧中的准确跟踪，具体的，对待对焦物体在每一待处理图像帧中的跟踪包括：

在每一所述待处理视频帧中对待对焦物体进行目标跟踪，得到待对焦物体在每一待处理视频帧中的第一位置结果，采用目标跟踪获得位置信息的方式可以参见上文；

在每一待处理视频帧中对待对焦物体进行目标识别，得到待对焦物体在每一待处理视频帧中的第二位置结果，根据目标识别获得位置信息的方式可参见上文；

根据第一位置结果和第二位置结果，获得每一待处理视频帧中待对焦物体的位置信息。

例如，如果当前待处理视频帧中，计算出的第一位置结果同前一待处理视频帧中的待对焦物体位置结果差异大于预设值，而第二位置结果同前一待处理视频帧中的待对焦物体位置结果差异小于预设值，则可采用第二位置结果作为当前待处理视频帧中的待对焦物体位置，反之亦然。又例如，可以对第一位置结果和第二位置结果进行加权计算，来获得当前待处理视频中的待对焦位置的结果。

在其它实施例中，也可以视情况选择一种目标跟踪方法完成跟踪，此处不做限制。

可选的，为降低每一第一视频帧和对应的第二视频帧的立体匹配难度，在某些实施例中，图像处理方法还可以包括步骤S105。

步骤S105，根据第一摄像头具有的第一参数和第二摄像头具有的第二参数，对第一视频流和第二视频流进行极线校正，以在第一视频流中的每一视频帧与第二视频流中对应的的视频帧之间建立极线几何约束。

在本发明一个实施例中，第一参数是指第一摄像头的内参数矩阵、外参数矩阵和畸变参数矩阵，第二参数是指第二摄像头的内参数矩阵、外参数矩阵和畸变参数矩阵，内参数是与镜头自身特性相关的参数，例如焦距、畸变系数等，外参数是镜头在世界坐标系中的参数，例如位置、旋转方向等。畸变参数是指摄像头在径向和切向上的畸变系数。

在一个实施例中，对第一视频流和第二视频流进行极线校正，以在第一视频流中的每一视频帧与第二视频流中对应的的视频帧之间建立极线几何约束的方式可以包括：利用第一参数和第二参数对第一视频流和第二视频流进行校正可以去除第一摄像头和第二摄像头的畸变，使世界坐标系、第一摄像头坐标系、第二摄像头坐标系、第一视频流图像坐标系、第二视频流图像坐标系中的同一点相互对应。

具体来说，首先，分别利用第一摄像头和第二摄像头的内参数矩阵，将第一视频流图像坐标系和第二视频流图像坐标系对应转换到第一摄像头坐标系和第二摄像头坐标系；然后，分别对第一镜头坐标系和第二镜头坐标系进行第一镜头、第二镜头的去畸变操作；接下来，分别利用第一镜头和第二镜头的内参数矩阵，将第一镜头坐标系和第二镜头坐标系重新转换至第一视频流图像坐标系和第二视频流图像坐标系；最后，根据原本的第一视频流和第二视频流中的像素值，对新的第一视频流图像坐标系和第二视频流图像坐标系中的像素点进行插值。

本领域技术人员能够理解，上述实施例中关于畸变矫正实现极线约束的描述是示例性而非限制性的。在其它实施例中，也可以采用其他任何合适的方法来实现对极线约束的校正。在另一些实施例中，当第一摄像头和第二摄像头处于匹配良好的情况时，也可以跳过步骤S105。

利用第一参数和第二参数对第一视频流和第二视频流进行校正之后，可以使第一视频流中的每一第一视频帧和与第二视频流中对应的每一第二视频帧均符合极线几何约束，也就是说，与第一视频帧的任意一个像素点p1对应的第二视频帧中的像素点p2一定在相对于像素点p1的极线上，可以降低在进行立体匹配过程中的计算量，同时有效避免后续第一视频帧和第二视频帧立体匹配处理过程中产生误匹配点。

步骤S106，将每个第一视频帧同对应的第二视频帧进行立体匹配，获得深度图序列，使得待处理视频流中的每一待处理视频帧在深度图序列中具有对应的深度图帧。

在一个实施例中，立体匹配处理可包括匹配代价计算、代价聚合、视差计算及视差优化，具体来说，任意一个第一视频帧和与该第一视频帧对应的第二视频帧进行立体匹配处理的过程可以包括：

首先，匹配代价计算：匹配代价可以包括亮度匹配代价和梯度匹配代价，以第一视频帧为参考图、第二视频帧为目标图，对参考图、目标图分别提取RGB三个通道的亮度信息并运用截断绝对亮度差值方法获得每个参考像素点的亮度匹配代价，同时对参考图，目标图分别提取RGB三个通道的水平、竖直方向梯度信息并运用截断绝对梯度差值方法获得每个参考像素点的梯度匹配代价；

其次，代价聚合：对每个参考像素点的亮度匹配代价和梯度匹配代价设置相应的亮度聚合权重和梯度聚合权重，然后分别进行权重匹配代价聚合获得每个参考像素点的总亮度匹配代价和总梯度匹配代价；

接下来，视差计算：对视差空间求取最小值得到第一初始视差图，并以第二视频帧为参考图、第一视频帧为目标图，重复上述步骤，得到第二初始视差图；

最后，视差优化：对第一初始视差图和第二初始视差图进行一致性校验，剔除视差异常值点，得到较为精确的视差图，再根据视差与深度的关系，就可以得到第一视频帧和第二视频帧共同对应的深度图帧，该深度图帧也即对应于由该第一视频帧和第二视频帧所生成的待处理视频帧。所有深度图帧的按时间先后顺序排列的集合即为深度图序列。

请参照图3，步骤S106还可以包括以下子步骤：

子步骤S1061，对每一第一视频帧和对应的第二视频帧，分别进行局部窗口匹配，得到第一视差图帧和第二视差图帧。

在一个实施例中，第一视差图帧为将第一视频帧作为参考图像，与第二视频帧进行局部窗口匹配得到的，第二视差图帧为将第二视频帧作为参考图像，与第一视频帧进行局部窗口匹配得到的。

子步骤S1062，将第一视差图帧和第二视差图帧进行融合，得到初始视差图帧。

在一个实施例中，将第一视差图帧和第二视差图帧进行融合的过程可以包括：首先，根据记录于摄像头模组105中的外参数矩阵中的平移向量t，利用公式

计算比例系数α，其中，t_L、t_R分别为第一摄像头、第二摄像头的外参数矩阵中的平移向量；然后，将第一视差图帧和第二视差图帧融合为初始视差图帧，并填充误匹配点的视差信息，融合公式为：

其中，I(x,y)为初始视差图帧，I_L(x,y)为第一视差图帧，I_R(x,y)为第二视差图帧，δ表示一个误差阈值。

子步骤S1063，对初始视差图帧进行处理优化，得到稠密视差图帧。

在本发明一个实施例中，经过上述过程得到的初始视差图帧中仍然存在很多空白值，此时可以假设参考图像中每个颜色分割区域内视差值是相等的，即，取颜色一致性区域内的所有像素的中间视差值作为整个分割区域的视差，这样就能得到稠密视差图帧。

子步骤S1064，根据视差与深度之间的关系，将稠密视差图帧转换为深度图帧。

在本发明一个实施例中，根据深度值与视差的关系

计算出每个像素的深度值，其中，Z表示深度值，B表示第一镜头与第二镜头之间的间距，f为摄像头模组105的焦距，D为视差，从而将稠密视差图转换为深度图。

特别的，如果在步骤S102生成待处理视频帧时，需要对每一第一视频帧和对应的第二视频帧进行立体匹配，步骤S106和步骤S102的立体匹配结果可以复用，立体匹配的结果同时用于生成待处理视频帧和生成深度图序列，这样可降低系统开销。

步骤S107，根据每一待处理视频帧中待对焦物体的位置信息，和每一待处理视频帧在深度图序列中对应的深度图帧，确定每一待处理视频帧中的重对焦区域，并进行重对焦处理，得到重对焦视频流。

在本发明一些实施例中，生成重对焦视频流的方法可以包括：

(1)根据每一待处理视频帧中待对焦物体的位置信息和每一待处理视频帧在深度图序列中对应的深度图帧，得到每一待处理视频帧中待对焦物体的深度信息。具体的，可以根据每一待处理视频帧中的待对焦物体的位置信息，在对应的深度图帧中，查找该待对焦物体所在位置的对应深度，从而得到该待处理视频帧中待对焦物体的深度信息。

(2)根据每一待处理视频帧中待对焦物体的深度信息，和每一待处理视频帧在深度图序列中对应的深度图帧，确定每一待处理视频帧中的重对焦区域。每一待处理视频帧中的重对焦区域可以是每一待处理视频帧中除待对焦物体之外的区域，也可以是同待对焦物体图像深度的差距大于一个预设值的图像区域，例如，可以以待对焦物体的深度为基准，设定一个预设景深范围，然后在对应的深度图帧中进行查找，将该景深范围之外的区域设定为重对焦区域。

(3)根据每一待处理视频帧中的重对焦区域，逐一对每一待处理视频帧进行重对焦处理，得到重对焦视频流。具体的，重对焦处理可以采用虚化处理的方式进行，例如采用高斯模糊对重对焦区域进行模糊处理。可选的，为了在待对焦物体和其它重对焦区域之间具有自然过渡，可在预设景深范围前后边界附近的预设深度范围内，分别设立一深度过渡区。在重对焦处理时，对深度过渡区的图像，依据深度位置，进行渐变的平滑的重对焦处理。

进一步可选的，本申请提供的视频处理方法还可包括，当检测到待对焦物体不再出现在待处理视频流中时，可选择终止生成重对焦处理视频流，或者重新执行步骤S103来确定新的待对焦物体。

本领域技术人员应当理解的是，以上述的实施例中，步骤S101-107的设置仅是为了叙述理解上的方便，而并非对步骤先后顺序上的限制。在实现上述中实施例的过程中，不存在相互依赖关系的步骤可以具有任何先后顺序或并行执行。

请参照图4，图4出了本发明一个实施例提供的视频处理装置200的方框示意图。视频处理装置200包括视频流获取模块201、待处理视频流生成模块202、待对焦物体确定模块203、物体跟踪模块204、视频流校正模块205、深度图生成模块206及重对焦模块207。

视频流获取模块201，用于获取由第一摄像头采集的第一视频流及第二摄像头采集的第二视频流，其中，第一视频流包含多个第一视频帧，第二视频流包含多个第二视频帧，每一第一视频帧同一个第二视频帧对应。

待处理视频流生成模块202，用于基于第一视频流和第二视频流，生成待处理视频流。

在本发明一个实施例中，待处理视频流生成模块202，可具体用于将每一第一视频帧同对应的第二视频帧进行立体匹配，并提取每一第一视频帧中的部分图像特征和对应的第二视频帧中的部分图像特征，来合成每一待处理视频帧，从而得到待处理视频流。

待对焦物体确定模块203，用于确定待处理视频流中的待对焦物体。

在本发明一个实施例中，待对焦物体确定模块203，可具体用于接收用户对显示于终端设备上的待处理目标视频帧的对焦操作请求；依据对焦操作请求，获取待处理目标视频帧中的待对焦物体，其中，待处理目标视频帧为待处理视频流中的任意一帧待处理视频帧。

在本发明另一个实施例中，待对焦物体确定模块203，可具体用于对待处理目标视频帧中的内容进行图像分析，根据图像分析结果确定待对焦物体，其中，待处理目标视频帧为待处理视频流中的任意一帧待处理视频帧。

物体跟踪模块204，用于对待对焦物体进行跟踪，以获得待处理视频流的每一待处理视频帧中待对焦物体的位置信息。

在本发明一个实施例中，物体跟踪模块204，可具体用于在每一待处理视频帧中对待对焦物体进行目标跟踪，得到待对焦物体在每一待处理视频帧中的第一位置结果；在每一待处理视频帧中对待对焦物体进行目标识别，得到待对焦物体在每一待处理视频帧中的第二位置结果；根据第一位置结果和第二位置结果，获得每一待处理视频帧中待对焦物体的位置信息。

可选的，视频处理装置200还可包括视频流校正模块205。

视频流校正模块205，用于根据第一摄像头具有的第一参数和第二摄像头具有的第二参数，对第一视频流和第二视频流进行极线校正，以在每一第一视频帧与对应的第二视频帧之间建立极线几何约束。

深度图生成模块206，用于将每一所述第一视频帧同对应的所述第二视频帧进行立体匹配，根据所述立体匹配的结果获得深度图序列，其中所述待处理视频流中的每一待处理视频帧在所述深度图序列中具有对应的深度图帧。

在本发明一个实施例中，深度图生成模块206，可具体用于对每一第一视频帧和对应的第二视频帧，分别进行局部窗口匹配，得到第一视差图帧和第二视差图帧；将第一视差图帧和第二视差图帧进行融合，得到初始视差图帧；对初始视差图帧进行处理优化，得到稠密视差图帧；根据视差与深度之间的关系，将稠密视差图帧转换为深度图帧。

由于在生成待处理视频流的过程中，无论采用合成还是选择的方式，每一第一视频帧和对应的第二视频帧都还对应会生成一个待处理视频帧，因此每一所得到的深度图帧，都具有一个对应的待处理视频帧。

重对焦模块207，用于根据每一待处理视频帧中待对焦物体的位置信息，和每一待处理视频帧所对应的深度图帧，确定每一待处理视频帧中的重对焦区域，并进行重对焦处理，得到重对焦视频流。

在本发明实施例中，重对焦模块207，具体用于根据每一待处理视频帧中待对焦物体的位置信息和每一待处理视频帧在深度图序列中对应的深度图帧，得到每一待处理视频帧中待对焦物体的深度信息；根据每一待处理视频帧中待对焦物体的深度信息，和每一待处理视频帧在深度图序列中对应的深度图帧，确定每一待处理视频帧中的重对焦区域；以及根据每一待处理视频帧中的重对焦区域，逐一对每一待处理视频帧进行重对焦处理，得到重对焦视频流。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的视频处理装置200的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

综上所述，本发明实施例提供的一种视频处理方法、装置、终端设备及存储介质，所述方法包括：获取由第一摄像头采集的第一视频流及第二摄像头采集的第二视频流，其中，第一视频流包含多个第一视频帧，第二视频流包含多个第二视频帧，每一第一视频帧同一个第二视频帧对应；基于第一视频流和第二视频流，生成待处理视频流；确定待处理视频流中的待对焦物体；对待对焦物体进行跟踪，以获得待处理视频流的每一待处理视频帧中待对焦物体的位置信息；将每一视频帧同对应的第二视频帧进行立体匹配，根据立体匹配的结果获得深度图序列，其中待处理视频流中的每一待处理视频帧在深度图序列中具有对应的深度图帧；根据每一待处理视频帧中待对焦物体的位置信息，和每一待处理视频帧所对应的深度图帧，确定每一待处理视频帧中的重对焦区域，并进行重对焦处理，得到重对焦视频流。与现有技术相比，本发明实施例提供的视频处理方法，可以以简单的操作，直接获取到类似单反拍摄效果的重对焦视频流，具有简化用户操作、节约处理时间，提高系统效能的效果。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种视频处理方法，其特征在于，应用于设置有摄像头模组的终端设备，所述摄像头模组包括具有至少部分重叠取景范围的第一摄像头和第二摄像头，所述方法包括：

获取由所述第一摄像头采集的第一视频流及所述第二摄像头采集的第二视频流，其中，所述第一视频流包含多个第一视频帧，所述第二视频流包含多个第二视频帧，每一第一视频帧同一个第二视频帧对应；

基于所述第一视频流和所述第二视频流，生成待处理视频流；

确定所述待处理视频流中的待对焦物体；

对所述待对焦物体进行跟踪，以获得在所述待处理视频流的每一待处理视频帧中所述待对焦物体的位置信息；

将每一所述第一视频帧同对应的所述第二视频帧进行立体匹配，根据所述立体匹配的结果获得深度图序列，其中所述待处理视频流中的每一待处理视频帧在所述深度图序列中具有对应的深度图帧；

根据所述每一待处理视频帧中所述待对焦物体的位置信息和所述每一待处理视频帧所对应的深度图帧，确定所述每一待处理视频帧中的重对焦区域，并进行重对焦处理，得到重对焦视频流。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述第一摄像头具有的第一参数和所述第二摄像头具有的第二参数，对所述第一视频流和第二视频流进行极线校正，以在每一所述第一视频帧与对应的所述第二视频帧之间建立极线几何约束。

3.如权利要求1所述的方法，其特征在于，所述生成待处理视频流的步骤，包括：

将每一第一视频帧同对应的第二视频帧进行立体匹配，并提取每一第一视频帧中的部分图像特征和对应的第二视频帧中的部分图像特征，来合成每一待处理视频帧，从而得到所述待处理视频流。

4.如权利要求1所述的方法，其特征在于，所述终端设备具有图像显示功能，所述确定所述待处理视频流中的待对焦物体的步骤，包括：

接收用户对显示于所述终端设备上的待处理目标视频帧的对焦操作请求；

依据所述对焦操作请求，获取所述待处理目标视频帧中的待对焦物体，其中，所述待处理目标视频帧为所述待处理视频流中的任意一帧待处理视频帧。

5.如权利要求1所述的方法，其特征在于，所述确定所述待处理视频流中的待对焦物体的步骤，包括：

对待处理目标视频帧中的内容进行图像分析，根据图像分析结果确定所述待对焦物体，其中，所述待处理目标视频帧为所述待处理视频流中的任意一帧待处理视频帧。

6.如权利要求1所述的方法，其特征在于，所述对所述待对焦物体进行跟踪，以获得在所述待处理视频流的每一待处理视频帧中所述待对焦物体的位置信息的步骤，包括：

在每一所述待处理视频帧中对所述待对焦物体进行目标跟踪，得到所述待对焦物体在每一待处理视频帧中的第一位置结果；

在每一所述待处理视频帧中对所述待对焦物体进行目标识别，得到所述待对焦物体在每一待处理视频帧中的第二位置结果；

根据所述第一位置结果和所述第二位置结果，获得每一待处理视频帧中所述待对焦物体的位置信息。

7.如权利要求1所述的方法，其特征在于，所述根据所述每一待处理视频帧中所述待对焦物体的位置信息，和所述每一待处理视频帧在所述深度图序列中对应的深度图帧，确定所述每一待处理视频帧中的重对焦区域，并进行重对焦处理，得到重对焦视频流的步骤，包括：

根据所述每一待处理视频帧中待对焦物体的位置信息和所述每一待处理视频帧在所述深度图序列中对应的深度图帧，得到所述每一待处理视频帧中待对焦物体的深度信息；

根据所述每一待处理视频帧中待对焦物体的深度信息，确定所述每一待处理视频帧中的重对焦区域；

根据所述每一待处理视频帧中的重对焦区域，逐一对所述每一待处理视频帧进行重对焦处理，得到重对焦视频流。

8.一种视频处理装置，其特征在于，应用于设置有摄像头模组的终端设备，所述摄像头模组包括具有至少部分重叠取景范围的第一摄像头和第二摄像头，所述装置包括：

视频流获取模块，用于获取由所述第一摄像头采集的第一视频流及所述第二摄像头采集的第二视频流，其中，所述第一视频流包含多个第一视频帧，所述第二视频流包含多个第二视频帧，每一第一视频帧同一个第二视频帧对应；

待处理视频流生成模块，用于基于所述第一视频流和所述第二视频流，生成待处理视频流；

待对焦物体确定模块，用于确定所述待处理视频流中的待对焦物体；

物体跟踪模块，用于对所述待对焦物体进行跟踪，以获得在所述待处理视频流的每一待处理视频帧中所述待对焦物体的位置信息；

深度图生成模块，用于将每一所述第一视频帧同对应的所述第二视频帧进行立体匹配，根据所述立体匹配的结果获得深度图序列，其中所述待处理视频流中的每一待处理视频帧在所述深度图序列中具有对应的深度图帧；

重对焦模块，用于根据所述每一待处理视频帧中所述待对焦物体的位置信息，和所述每一待处理视频帧所对应的深度图帧，确定所述每一待处理视频帧中的重对焦区域，并进行重对焦处理，得到重对焦视频流。

9.一种终端设备，其特征在于，所述终端设备设置有摄像头模组，所述摄像头模组包括具有至少部分重叠取景范围的第一摄像头和第二摄像头，所述终端设备还包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。