CN111784615A

CN111784615A - 多媒体信息处理的方法和装置

Info

Publication number: CN111784615A
Application number: CN202010738347.1A
Authority: CN
Inventors: 肖宇; 李艳丽; 雷娟; 张文波; 高波; 熊君君
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2020-10-16
Also published as: EP3716635A1; US11081137B2; EP3403413B1; EP3403413A4; EP3403413A1; US20170278546A1; US20200227089A1; WO2017164716A1; CN107230187A; CN107230187B

Abstract

本发明提供一种由电子设备执行的视频信息处理的方法，包括：由第一多媒体采集设备获得与第一焦点区域对应的第一视频信息；由第二多媒体采集设备获得与第二焦点区域对应的第二视频信息；以及在电子设备的显示器上显示第一视频信息和第二视频信息。

Description

多媒体信息处理的方法和装置

本申请是申请日为2016年03月25日、申请号为201610179848.4、发明名称为“多媒体信息处理的方法和装置”的发明专利申请的分案申请。

技术领域

本发明涉及多媒体信息处理领域，具体而言，本发明涉及一种多媒体信息处理的方法和一种多媒体信息处理的装置。

背景技术

随着生活水平的提升，带有拍摄装置的终端设备变得越来越普及。获取高质量的图像和视频也成为提升终端设备竞争力的一个重要因素。已有的拍摄增强大都集中在提升图像质量方面，对视频质量的提升涉及较少。相比于图像增强，视频增强由于受时空一致性、处理时间有限的影响，因此实现起来相对困难。

在现有带有拍摄功能的终端设备中，如手机，采集的视频和图像质量往往达不到用户的需求。虽然有一些中高端终端设备采集的图像质量已经得到了很大的提升，但是视频质量还有很大的提升空间，尤其是在低光照环境下采集的视频。视频处理要比图像处理困难很多，主要有两方面原因：1)图像和视频帧的处理时间不同，例如在频率30fps视频中，处理每个视频帧的时间需控制在1/30秒内，而处理图像的时间可以更长，因此图像增强方法可根据场景灵活自动调整曝光、白平衡等参数，甚至采集多幅图像合成一幅图像，这使得拍摄出的图像比视频的亮度和色彩更准确；2)视频需要保持时空一致性，而图像没有时空限制，为了保证时空一致性，视频相邻帧间的视频采集参数，包括白平衡、曝光和对焦，需有平滑过渡，因此如果场景有突出变换，例如从室内到室外的光照变换，终端对视频采集参数调整有滞后性，而图像采集参数都是针对当前场景的亮度和颜色而定，这也导致拍摄出的图像比视频的亮度和色彩更准确。

现有技术中，对图像或视频的增强技术主要集中于采用相应的算法来对图像或视频进行增强，即基于视频或图像自身信息进行增强，增强效果均不太理想，存在增强后的图像及视频失真、清晰度不足等问题。

发明内容

针对现有技术中对多媒体信息进行增强处理的局限性问题，本发明提出一种多媒体信息处理的方法，包括：

获取两个多媒体采集设备分别采集的第一类多媒体信息和第二类多媒体信息；

根据第一类多媒体信息对第二类多媒体信息进行相应处理。

其中，多媒体信息包括图像信息、视频信息、音频信息中的至少一种。

优选地，第一类多媒体信息为图像信息，第二类多媒体信息为视频信息；或第一类多媒体信息为视频信息，第二类多媒体信息为图像信息。

优选地，根据第一类多媒体信息对第二类多媒体信息进行相应处理，具体包括：

确定采集的第二类多媒体信息对应的需要增强的指标；

根据采集的第一类多媒体信息，对采集的第二类多媒体信息对应的确定出的指标进行增强处理。

其中，指标包括下述至少一项：

分辨率、颜色、亮度、噪声和模糊。

优选地，通过以下至少一项来确定采集的第二类多媒体信息对应的需要增强的指标：

根据检测到的增强开启触发操作来确定与其相匹配的需要增强的指标；

根据预先设置来确定与其相匹配的需要增强的指标；

依据自适应参数匹配方式来自适应确定需要增强的指标。

优选地，自适应参数匹配方式通过设备相关状态、增强开启历史记录数据、采集环境、采集参数及多媒体采集设备实时采集的多媒体信息的相关内容中的一项或多项信息来确定；

设备相关状态包含以下至少一项：设备电量状态、设备存储状态、采集多媒体信息时的设备运动状态；

多媒体采集设备实时采集的多媒体信息的相关内容包括以下至少一项：场景亮度、语义内容、显著物的清晰度。

可选地，该方法还包括：

若确定出的需要增强的指标为至少两个，则确定需要增强的指标的增强顺序；

根据采集的第一类多媒体信息，对采集的第二类多媒体信息对应的确定出的指标进行增强处理，具体包括：

根据采集的第一类多媒体信息，按照确定出的增强顺序，对采集的第二类多媒体信息对应的需要增强的指标依次进行增强处理。

优选地，通过以下至少一项来确定需要增强的指标的增强顺序：

增强顺序设置触发操作；预先设置；自适应增强顺序设置方式。

优选地，自适应增强顺序设置方式通过设备相关状态、增强设置历史记录信息、采集环境、采集参数、多媒体采集设备实时采集的多媒体信息的相关内容及各个指标之间的影响关系中的一项或多项信息来确定；

其中，多媒体采集设备实时采集的多媒体信息的相关内容包括场景亮度、语义内容中的至少一项。

可选地，该方法还包括：设置两个多媒体采集设备中的主采集设备及辅采集设备；

根据图像信息对视频信息进行相应处理时，通过主采集设备采集获取视频信息，通过辅采集设备采集获取图像信息；

根据视频信息对图像信息进行相应处理时，通过主采集设备采集图像信息，通过辅采集设备采集视频信息。

优选地，通过以下至少一种方式来设置两个多媒体采集设备中主采集设备及辅采集设备：

根据检测到的设置触发操作来设置主、辅采集设备；

根据预先设置来设置主、辅采集设备；

依据自适应设备设置方式来自适应设置主、辅采集设备。

优选地，自适应设备设置方式通过设备相关状态、设备设置历史记录数据及多媒体采集设备实时采集的多媒体信息的相关内容中的一项或多项信息来确定；

设备相关状态包含设备电量状态和/或存储状态；

多媒体采集设备实时采集的多媒体信息的相关内容包括以下至少一项：画面比例分布、目标物体在画面中的位置信息、画面质量信息。

可选地，该方法还包括：

设置多媒体信息的采集参数及增强策略参数；

其中，获取两个多媒体采集设备分别采集的第一类多媒体信息和第二类多媒体信息，具体包括：

获取两个多媒体采集设备基于采集参数分别采集的第一类多媒体信息和第二类多媒体信息；

其中，根据第一类多媒体信息对第二类多媒体信息进行相应处理，具体包括：

依据增强策略参数，根据第一类多媒体信息对第二类多媒体信息进行相应增强处理；

其中，采集参数具体包括白平衡、曝光时间、感光度、高动态范围、分辨率、焦点区域、视频帧采集频率中的至少一项。

优选地，通过以下任一方式来设置多媒体信息的采集参数及增强策略参数：

根据检测到的参数设置操作来设置采集参数及增强策略参数；

根据预先参数设置来设置采集参数及增强策略参数；

依据自适应参数设置方式来自适应设置采集参数及增强策略参数。

优选地，自适应参数设置方式通过设备相关状态、参数历史记录数据、采集环境及多媒体采集设备实时采集的多媒体信息的相关内容中的至少一项来确定；

多媒体采集设备实时采集的多媒体信息的相关内容包括以下至少一项：场景亮度、语义内容、显著物的清晰度、分辨率、曝光时间。

优选地，第一类多媒体信息为图像信息，第二类多媒体信息为视频信息时，获取两个多媒体采集设备分别采集的第一类多媒体信息和第二类多媒体信息，具体包括：

获取一个多媒体采集设备采集的视频信息，以及另一个多媒体采集设备依据关键帧采集频率同时采集的与视频信息相对应的关键帧图像信息；

其中，根据采集的第一类多媒体信息，对采集的第二类多媒体信息进行相应处理，具体包括：

根据采集的关键帧图像信息对采集的视频信息对应的需要增强的指标进行增强处理。

可选地，该方法还包括：

设置关键帧采集频率；

其中，设置关键帧采集频率的方式包括以下至少一项：

根据预设频率设置来设置关键帧采集频率；

依据自适应频率设置方式来自适应设置关键帧采集频率。

优选地，自适应频率设置方式通过设备相关状态、采集频率历史记录数据、采集环境、采集参数及多媒体采集设备实时采集的多媒体信息的相关内容中的一项或多项信息来确定；

其中，设备相关状态包含以下至少一项：设备电量状态、设备存储状态、采集多媒体信息时的设备运动状态；

多媒体采集设备实时采集的多媒体信息的相关内容包括场景亮度、语义内容中的至少一项。

优选地，根据采集的关键帧图像信息对采集的视频信息对应的需要增强的指标进行增强处理，具体包括：

根据采集到的关键帧图像信息将采集到的视频信息划分为若干个视频片段；利用视频片段两侧的关键帧图像信息对相应的视频片段对应的需要增强的指标进行增强处理。

优选地，当需要增强的指标包括分辨率、颜色、亮度中的至少一项时，增强处理的方式包括基于多视图重建的增强方式，和/或基于机器学习构建增强模型的增强方式。

优选地，基于多视图重建的增强方式，具体包括：

建立采集到的视频信息的视频像素和关键帧图像信息的图像像素的匹配关系，通过图像像素替换相匹配的视频像素。

优选地，基于机器学习构建增强模型的方式，具体包括：

在采集到的视频信息的关键帧图像所在位置处提取视频像素；

以机器学习方式建立视频像素与关键帧图像信息的图像像素的映射增强模型；

在采集到的视频信息的非关键帧图像所在位置，通过映射增强模型来转换视频像素。

优选地，当需要增强的指标包括噪声时，增强处理的方式包括基于字典重构的方式，和/或基于深度学习的方式。

优选地，当需要增强的指标包括模糊时，增强处理的方式包括基于模糊核估计的方式，和/或基于深度学习的方式。

可选地，还包括：

在采集到的视频信息中检测到待处理的模糊帧时，确定对待处理的模糊帧对应的模糊指标进行增强处理；

其中，通过以下至少一种信息来检测待处理的模糊帧：

采集视频帧时的设备运动状态；采集视频帧时的对焦信息；通过分类器对采集的视频信息进行分类的分类结果。

优选地，第一类多媒体信息为图像信息，第二类多媒体信息为视频信息时，根据第一类多媒体信息对第二类多媒体信息进行相应处理，具体包括：

根据采集的图像信息对采集的视频信息进行存储处理，其中，存储内容包括以下至少一种情形：

根据采集的图像信息对采集的视频信息进行增强处理后的视频信息；

采集到的视频信息和图像信息；

采集到的视频信息和对视频信息进行增强处理时的增强模型；

根据采集的图像信息对采集的视频信息进行增强处理后的视频信息以及采集到的图像信息。

可选地，还包括：

响应于接收到的播放触发操作，基于与存储内容相匹配的播放方式对视频信息进行播放；其中，播放方式包括以下至少一项：

当存储增强处理后的视频信息时，直接播放增强处理后的视频信息；

当存储采集到的视频信息和图像信息时，根据采集的图像信息对采集的视频信息进行增强处理后播放；

当存储采集到的视频信息和增强模型时，通过增强模型对采集的视频信息进行增强处理后播放；

当存储增强处理后的视频信息和采集到的图像信息时，将增强处理后的视频信息和采集到的图像信息关联播放。

优选地，第一类多媒体信息为视频信息，第二类多媒体信息为图像信息时，获取两个多媒体采集设备分别采集的第一类多媒体信息和第二类多媒体信息，具体包括：

获取一个多媒体采集设备采集的图像信息，以及另一多媒体采集设备依据设置的视频帧采集频率采集的与图像信息相对应的视频片段；

根据采集的视频片段对采集的图像信息对应的需要增强的指标进行增强处理。

优选地，当检测到采集图像信息的多媒体采集设备进入预览状态时，或当检测到采集图像信息多媒体采集设备开始采集图像信息时，另一多媒体采集设备依据设置的视频帧采集频率采集的与图像信息相对应的视频片段；

当检测到采集的视频片段中的视频帧数达到对应的上限值时，另一多媒体采集设备停止采集视频信息。

优选地，根据采集的视频片段对采集的图像信息对应的需要增强的指标进行增强处理，具体包括：

在采集的视频片段中确定视频关键帧；

基于模糊核估计的方式，根据视频关键帧对采集到的图像信息进行增强处理。

优选地，通过自适应关键帧确定方式来确定视频关键帧；

其中，自适应关键帧确定方式通过画面模糊程度、内容相似度、视频帧质量中的一项或多项信息来确定。

可选地，还包括：

对采集到的图像信息进行清晰度分析；

若图像信息属于模糊图像，则根据采集到的视频片段对采集到的图像信息对应的需要增强的指标进行增强处理；其中，需要增强的指标包括于模糊。

优选地，第一类多媒体信息为视频信息，第二类多媒体信息为图像信息时，根据第一类多媒体信息对第二类多媒体信息进行相应处理，具体包括：

根据采集的视频信息对采集的图像信息进行存储处理，其中，存储内容包括以下至少一种情形：

根据采集的视频信息对采集的图像信息进行增强处理后的图像信息；

采集到的视频信息和图像信息；

采集到的图像信息以及采集到的视频信息中用于对图像信息进行增强处理的视频关键帧；

采集到的图像信息和对图像信息进行增强处理时的增强模型；

根据采集的视频信息对采集的图像信息进行增强处理后的图像信息以及采集到的视频信息。

可选地，还包括：

响应于接收到的显示触发操作，基于与存储内容相匹配的显示方式对图像信息进行显示；其中，显示方式包括以下至少一项：

当存储增强处理后的图像信息时，直接显示增强处理后的图像信息；

当存储采集到的视频信息和图像信息时，根据采集的视频信息对采集的图像信息进行增强处理后显示；

当存储采集到的图像信息和进行增强处理的视频关键帧时，根据视频关键帧确定增强模型，并通过增强模式对采集的图像信息进行增强处理后显示；

当存储采集到的图像信息和增强模型时，通过增强模型对采集的图像信息进行增强处理后显示；

当存储增强处理后的图像信息和采集到的视频信息时，将增强处理后的图像信息和采集到的视频信息关联显示。

优选地，第一类多媒体信息与第二类多媒体信息为对焦于不同焦点区域的视频信息；其中，焦点区域包括全局区域和/或局部区域。

根据采集到的对焦于一个焦点区域的视频信息，对采集到的对焦于另一个焦点区域的视频信息进行联合播放处理。

其中，通过以下至少一种方式来确定焦点区域：

当检测到用户选定一个局部区域时，则确定已选定的局部区域为焦点区域，另一焦点区域为全局区域；

当检测到用户选定两个局部区域时，则确定已选定的两个局部区域为焦点区域。

优选地，通过用户选定的焦点对象，检测用户选定的局部区域。

优选地，全局区域和/或局部区域可通过分屏的布局方式进行联合播放。

优选地，根据第一类多媒体信息对所述第二类多媒体信息进行相应处理，具体包括：

根据采集到的对焦于一个焦点区域的视频信息，对采集到的对焦于另一个焦点区域的视频信息进行存储处理，其中，存储内容包括以下至少一种情形：

采集到的对焦于不同焦点区域的两个视频信息；

根据采集到的对焦于一个焦点区域的视频信息，对采集到的对焦于另一个焦点区域的视频信息进行合成处理后的合成视频信息；

确定出的对焦于不同焦点区域的两个视频信息中的感兴趣视频内容；

采集到的对焦于全局区域的视频信息以及该全局区域的视频信息中局部区域的位置信息。

优选地，该方法还包括：响应于接收到的播放触发操作，基于与存储内容相匹配的播放方式对视频信息进行播放；其中，播放方式包括以下至少一项：

当存储采集到的对焦于不同焦点区域的两个视频信息时，将两个视频信息分别单独播放或联合播放；

当存储合成视频信息时，播放合成视频；

当存储确定出的对焦于不同焦点区域的两个视频信息中的感兴趣视频内容时，播放感兴趣视频内容；

当存储全局区域的视频信息以及该全局区域的视频信息中局部区域的位置信息时，通过位置信息确定局部区域的视频信息，并将全局区域的视频信息和局部区域的视频信息分别单独播放或联合播放。

优选地，第二类多媒体信息为视频信息，第一类多媒体信息为与视频信息相对应的音频信息。

从采集到的视频信息中确定目标对象；

针对目标对象对应的视频信息和/或音频信息进行凸显处理。

其中，通过以下至少一种方式从采集到的视频信息中确定目标对象：

根据检测到的目标对象指定操作来确定目标对象；

依据采集到的视频信息中多个对象的数量及所处位置信息来确定目标对象。

优选地，针对目标对象对应的音频信息进行凸显处理，具体包括：

对采集到的视频信息进行检测以确定所述视频信息中的对象数量、各个对象的位置及方位信息；

依据各个对象的位置及方位信息，确定各个对象分别对应的音频信息；

确定目标对象对应的音频信息，并进行凸显处理。

根据采集到的音频信息，对采集到的视频信息进行存储处理，其中，存储内容包括以下至少一种情形：

采集到的视频信息及音频信息；

目标对象对应的视频信息及音频信息。

优选地，该方法还包括：响应于接收到的播放触发操作，基于与存储内容相匹配的播放方式对视频信息及音频信息进行播放；其中，播放方式包括以下至少一项：

当存储采集到的视频信息及音频信息时，将采集到的视频信息及音频信息相关联地播放；

当存储采集到的视频信息及音频信息时，将采集到的视频信息中的目标对象与相对应的音频信息相关联地播放；

当存储采集到的视频信息及音频信息时，将采集到的视频信息中的各个对象与相对应的音频信息相关联地播放；

当存储目标对象对应的视频信息及音频信息时，将目标对象对应的视频信息及音频信息相关联地播放。

本发明还提出一种多媒体增强处理的装置，包括：

多媒体信息获取模块，用于获取两个多媒体采集设备分别采集的第一类多媒体信息和第二类多媒体信息；

处理模块，用于根据第一类多媒体信息对第二类多媒体信息进行相应处理。

本发明的实施例中，获取两个多媒体采集设备分别采集的第一类多媒体信息和第二类多媒体信息；根据第一类多媒体信息对第二类多媒体信息进行相应处理，即通过第一类多媒体信息与第二类多媒体信息之间的关联关系，实现基于第一类多媒体信息对第二类多媒体信息进行相应处理。而现有技术中，一般仅通过增强算法及自身信息对每类多媒体信息(如图片和视频)进行单独处理，并未考虑到同时获取的两类多媒体信息之间的关联关系，并利用关联关系执行多媒体信息增强，因此会出现图像或视频画面失真、清晰度较低等问题。本发明中通过同时获取到两类多媒体信息，根据一类多媒体信息对另一个多媒体信息进行增强，由于在增强过程中充分考虑到两类多媒体信息各自的特点及关联关系，可以克服仅通过增强算法及自身信息对每类多媒体信息分别进行增强处理的局限性，大大提高了增强处理后的多媒体信息的质量，保证了多媒体信息的真实度及清晰度。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本发明一个实施例的多媒体信息处理的方法的流程图示意图；

图2为现有技术中一种对视频亮度和颜色增强方法的转换曲线亮度调整的示意图；

图3为现有技术中利用模糊图像的模糊核估计方式对视频帧去噪的示意图；

图4示出了本发明中具体实施例的视频联合增强模式的执行步骤示意图；

图5示出了本发明中具体实施例的手持智能终端中采集视频的示意图；

图6示出了本发明中具体实施例的手持智能终端中视频联合增强模式的示意图；

图7示出了本发明中具体实施例的监控终端中视频联合增强模式的示意图；

图8示出了本发明中具体实施例的图像去模糊增强模式的第一示意图；

图9示出了本发明中具体实施例的图像去模糊增强模式的第二示意图；

图10示出了本发明中具体实施例的多焦点区域联合播放模式的左右分屏视频布局方式的示意图；

图11示出了本发明中具体实施例的多焦点区域联合播放模式的上下分屏视频布局方式的示意图；

图12示出了本发明中具体实施例的多焦点区域联合播放模式的大小屏视频布局方式的示意图；

图13示出了本发明中具体实施例的多焦点区域联合播放模式的全局区域视频布局方式的示意图；

图14示出了本发明中具体实施例的多焦点区域联合播放模式的大小屏视频布局方式中大小屏切换的示意图；

图15示出了本发明中具体实施例的多焦点区域联合播放模式的大小屏视频布局方式中大小屏录制和播放的示意图；

图16示出了本发明中具体实施例的目标对象凸显播放模式中音视频凸显的示意图；

图17示出了本发明一个实施例的多媒体信息处理的装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体，例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如，模块可以是，但并不仅限于：处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说，计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/ 或线程内，一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。

图1示出了本发明一个实施例的多媒体信息处理的方法的流程图示意图。

步骤S110：获取两个多媒体采集设备分别采集的第一类多媒体信息和第二类多媒体信息；步骤S120：根据第一类多媒体信息对第二类多媒体信息进行相应处理。

需要说明的是，两个多媒体采集设备可以置于同一终端设备上，上述终端设备可以为手机、Pad、监控装置等终端。两个多媒体采集设备同时进行多媒体信息的采集，其中一个采集设备采集第一类多媒体信息，另一个采集设备采集第二类多媒体信息。

由上可见，第一类多媒体信息和第二类多媒体信息之间是相互关联的；而现有技术中，一般仅通过增强算法及自身信息对多媒体信息(如图片和视频)进行单独处理，并未考虑到同时获取的两类多媒体信息之间的关联关系，并利用关联关系执行多媒体信息增强，因此会出现图像或视频画面失真、清晰度较低等问题。本发明中，通过同时获取到两类多媒体信息，并根据第一类类多媒体信息对第二类多媒体信息进行增强，由于在增强过程中充分考虑到两类多媒体信息各自的特点及关联关系，可以克服仅通过增强算法及自身信息对每类多媒体信息分别进行增强处理的局限性，大大提高了增强处理后的多媒体信息的质量，保证了多媒体信息的真实度及清晰度。

具体地，多媒体信息包括图像信息、视频信息、音频信息中的至少一种。

为了提升摄像头配置，双目摄像头成为各大厂商着重研发与推广的一大亮点。相比于单目摄像头，双目摄像头有一些天然的优势：具备双套采集参数，两个摄像头可以设置不同的拍摄模式，可以获取三维深度信息用来提升分割、识别、跟踪和定位的精度。现有的具备双目摄像头的终端设备大都是利用深度信息对图像拍摄提供更多操作模式，如合并左右摄像头拍摄的图像得到一张高分辨率的图像；利用深度信息对目标区域进行分割；全景深拍照后对焦等。本发明的发明人发现，现有技术并没有充分利用两个摄像头双套的参数采集来对图像及视频质量进行增强，如何充分利用双目摄像头的优势来改善现有视频和图像质量也是需要解决的问题。

需要说明的是，本发明中多媒体采集设备可以为终端设备上的双目摄像头，也可以采用其他的实现方式，在此不做限定。此外，两个摄像头可以并排摆放，模拟人眼功能，此外两个摄像头也可以采用其他方式设置，这里不做具体限制。

其中，当第一类多媒体信息为图像信息时，第二类多媒体信息可以为视频信息。具体的，终端设备的一个摄像头采集视频信息，另一个摄像头同时采集对应的图像信息，利用采集的图像对视频进行增强处理，此时终端设备的增强处理模式可以称为图像增强视频模式。

或当第一类多媒体信息为视频信息时，第二类多媒体信息可以为图像信息。具体的，终端设备的一个摄像头采集图像信息，另一个摄像头同时采集对应的视频信息，利用采集的视频对图像进行增强处理，此时终端设备的增强处理模式可以称为视频增强图像模式。

由于摄像头采集的图像或视频对应很多指标，例如，亮度、分辨率等，在利用图像增强视频或利用视频增强图像时，可以对视频或图像的一个或多个指标进行增强处理，对此，本发明实施例提出，根据第一类多媒体信息对第二类多媒体信息进行相应处理，具体包括：

确定采集的第二类多媒体信息对应的需要增强的指标；根据采集的第一类多媒体信息，对采集的第二类多媒体信息对应的确定出的指标进行增强处理。

其中，上述指标包括下述至少一项：分辨率、颜色、亮度、噪声和模糊。

需要说明的是，下述实施例的详述中，将根据第一类多媒体信息对第二类多媒体信息进行相应处理的方式，具体为图像信息对视频信息进行处理的图像增强视频模式，视频信息对图像信息进行处理的视频增强图像模式，视频信息对视频信息进行处理的多焦点区域联合播放模式，音频信息对视频信息进行处理的目标对象凸显播放模式。其中，实施例一至实施例八为图像增强视频模式的具体实施例；实施例九为视频增强图像模式的具体实施例；实施例十为多焦点区域联合播放模式的具体实施例；实施例十一为目标对象凸显播放模式的具体实施例。

本发明的实施例一至实施例八中，针对采集到视频及图像，利用图像对视频进行增强处理，对应的确定出的指标包括如下五种：分辨率，亮度，颜色，噪声和模糊：拍摄高分辨率图像，对视频分辨率进行增强，得到高分辨率的视频；拍摄高质量的图像，对视频亮度进行调整，提高低光照环境下拍摄的视频亮度；拍摄高质量的图像，对视频颜色进行调整，提高非理想拍照环境下拍摄的视频颜色对比度以及RGB颜色分布；拍摄低噪声的图像，对视频进行去噪，得到低噪声高质量的视频；拍摄清晰的图像，利用图像对视频帧进行去模糊，得到清晰度提升的视频。本发明的实施例九中，利用视频对图像进行增强处理，对应的确定出的指标包括模糊：拍摄长曝光的高亮度图像时，如果图像出现模糊，则利用短曝光的视频帧来对模糊图像进行增强，得到高亮度，清晰度好的图像。

在图像增强视频流程中，首先设置主/辅摄像头、需要增强的指标、采集参数、增强策略参数，启动两个摄像头进行拍摄，主摄像头拍摄视频，辅摄像头拍摄图像，同时通过增强策略参数，根据拍摄的图像对拍摄的视频中需要进行增强的指标进行增强处理，终端设备可以根据需要将采集的数据存储，后续对存储的数据进行播放或显示。

在视频增强图像流程中，首先设置主/辅摄像头、需要增强的指标、采集参数、增强策略参数，启动两个摄像头进行拍摄，主摄像头拍摄图像，辅摄像头拍摄视频，同时通过增强策略参数，根据拍摄的视频对拍摄的图像中需要进行增强的指标进行增强处理。

需要说明的是，下述实施例的详述中，根据采集的第一类多媒体信息，对采集的第二类多媒体信息对应的确定出的指标进行增强处理的步骤中，可针对确定出的不同的指标进行增强处理，增强处理的指标不同，对应的增强模式也不同，其中，可以对上述指标中的一个指标进行增强处理，增强模式包括但不限于：分辨率增强模式、颜色增强模式、亮度增强模式、去噪增强模式和去模糊增强模式。也可以对上述指标中的至少两个指标进行增强处理，此时可以称为联合增强模式。

实施例一：增强处理模式为图像增强视频模式中的分辨率增强模式

从视频分辨率增强方面来说，现有终端设备中视频最大分辨率一般比图像最大分辨率小；例如，一类移动终端中的图像最大分辨率为5312*2988，而视频最大分辨率为3840*2160。由于受限于终端设备的CPU和内存，为了让用户实时看到自己拍摄的内容，只能相比图像分辨率降低视频分辨率，否则不能实时对视频进行处理。一种提升视频分辨率的方法是通过插值将每个视频帧分别增强分辨率，此类方法得到的视频帧细节会变模糊。另外一种提升视频分辨率的方法是使用高分辨率图像对低分辨视频进行增强，主要思想是用大量高分辨率图像和对应的低分辨率视频训练出映射模型，以该映射模型来增强视频分辨率，即提取图像和视频的像素块建立训练数据库，基于训练数据库学习得到映射模型，从而以该映射模型将高频细节信息迁移到低分辨率视频从而获取高分辨视频。此类方法需要预先采集训练数据，训练数据量小则泛化能量弱，导致增强效果差，训练数据大则存储空间大。在视频分辨率增强方面，仅依靠视频中每帧的信息进行放大，只是在图像尺寸上有所改变，并不能给用户提供更丰富的细节信息，也无法达到提高分辨率的目的。另外，高分辨率视频占用内存空间变大，如何在提升视频分辨率的同时不带来太多内存消耗也是现有技术未曾考虑的问题。

在本发明的实施例中，多媒体信息包括图像信息和视频信息。多媒体采集设备可以为双目摄像头。

首先开启图像增强视频的分辨率增强模式，随后，启动双目摄像头的两个摄像头分别采集图像信息和视频信息，其次自适应设置摄像头的采集参数和关键帧，同时根据摄像头的采集参数和关键帧对视频信息进行分辨率增强，最后对增强结果进行压缩、传输和播放。

步骤1，开启图像增强视频的分辨率增强模式。

通过以下至少一项来确定采集的第二类多媒体信息对应的需要增强的指标：

根据预先设置来确定与其相匹配的需要增强的指标；

依据自适应参数匹配方式来自适应确定需要增强的指标。

其中，自适应参数匹配方式通过设备相关状态、增强开启历史记录数据、采集环境、采集参数及多媒体采集设备实时采集的多媒体信息的相关内容中的一项或多项信息来确定；

其中，设备相关状态包含以下至少一项：设备电量状态、设备存储状态、采集多媒体信息时的设备运动状态；多媒体采集设备实时采集的多媒体信息的相关内容包括以下至少一项：场景亮度、语义内容、显著物的清晰度。优选地，若确定出的需要增强的指标为至少两个，则确定需要增强的指标的增强顺序；根据采集的第一类多媒体信息，按照确定出的增强顺序，对采集的第二类多媒体信息对应的需要增强的指标依次进行增强处理。

具体地，通过以下至少一项来确定需要增强的指标的增强顺序：

其中，自适应增强顺序设置方式通过设备相关状态、增强设置历史记录信息、采集环境、采集参数、多媒体采集设备实时采集的多媒体信息的相关内容及各个指标之间的影响关系中的一项或多项信息来确定；

本发明实施例一中，具体地，用户可以通过如语音、按键、手势、生物特征、外部控制器等增强开启触发操作来开启图像增强视频的分辨率增强模式，终端设备也可以通过预先设置(如系统默认设置)，或者根据自适应参数匹配方式来开启该模式自适应模式匹配方式，如根据设备相关状态、增强模式开启历史记录数据、采集环境、采集参数及摄像头实时采集的多媒体信息的相关内容自适应开启图像增强视频的分辨率增强模式，也可以由增强开启用户触发操作设置和系统默认设置的任意组合来开启；例如，用户通过按键方式启动了图像增强视频模式，终端设备再根据增强模式开启历史记录数据自适应开启图像增强视频模式中的分辨率增强模式。

关于语音开启，终端设备预先设定某种语音作为启动指令，例如“启动增强视频分辨率”，终端设备接收到用户发出的声控指令“启动增强视频分辨率”，则对该声控指令进行语音识别，确定此时开启图像增强视频模式中的分辨率增强模式。

关于按键开启，终端设备预先设定某种按键作为开启指令，按键可以为硬件按键，例如用户通过长按音量键表示增强视频分辨率，终端设备接收到用户的长按音量键事件后，确认此时需要开启图像增强视频模式中的分辨率增强模式。按键也可以为虚拟按键，例如屏幕上的虚拟控件按钮，终端设备在交互界面上显示该模式的按键，接收到用户点击虚拟按键的事件后，确认此时需要开启该模式。通过按键开启时，还可以结合用户触发时的压力、速度、时间、频率等多种特征信息的不同表示对应的不同含义，例如用力快速点击虚拟控件表示开启该模式等。

关于手势开启，终端设备预先设定某种手势作为启动指令，手势包括屏幕手势，例如双击屏幕/或长按屏幕等，通过屏幕手势开启时可以结合用户手势的压力、速度、时间、频率的不同表示对应的不同含义；如轻按，例如，压力小于第一预定值，重按，例如，压力大于或等于第一预定值，又如长按，例如，按压持续时间超过第二预定值，快速双击等任意一个表示开启。手势还包括隔空手势，如摇晃/翻转/倾斜终端，摇晃/翻转/倾斜时的不同方向，角度，速度，力度可以表示不同的含义，如上下摇晃、左右摇晃、空着画圆等任意一个表示开启该模式。上述手势可以是单一的手势，也可以是任意手势的任意组合，如长按屏幕并摇晃终端设备。

关于生物特征开启，生物特征包括但不限于手写特征和指纹特征，例如，终端设备在检测到的指纹与预先注册的用户指纹一致，则确认此时需要开启图像增强视频模式中的分辨率增强模式。

关于系统默认设置开启，终端设备在没有用户交互情况下默认设置图像增强视频模式中的分辨率增强模式为开启或者关闭状态。

关于根据终端设备的设备相关状态自适应开启，设备相关状态包含电量、存储(如内存)、运动状态等，可以设置第一和第二预定电量，其中第一预定电量，例如20％，小于第二预定电量，例如80％，当终端设备的电量小于第一预定电量时，则关闭视频分辨率增强模式，当电量大于第二预定电量时，则开启视频分辨率增强模式，或者只设置一个开启电量，终端电量大于该开启电量时默认开启视频分辨率增强模式，否则关闭视频分辨率增强模式。

关于根据增强开启历史记录数据的自适应开启，统计最近若干次，例如 10次，采集过程中视频分辨率增强模式的开启次数，如果开启次数超过一定阈值，例如5次，则终端设备自动开启分辨率增强模式，否则关闭分辨率增强模式。或者根据上一次拍摄时的设置来确定本次拍摄是否开启。

关于采集环境，由传感器采集得到，例如通过亮度传感器采集得到环境亮度等信息；可以根据环境亮度来自适应开启，例如当环境平均亮度低于设定阈值时，则开启该模式，否则关闭该模式。

关于采集参数，采集参数具体包括白平衡、曝光时间、感光度、高动态范围、分辨率、焦点区域、视频帧采集频率中的至少一项。可以根据采集参数来自适应开启，例如，当视频的曝光时间过长(高于设定阈值)时，则开启该模式，否则关闭该模式。

关于根据实时采集的相关内容的自适应开启，具体的，实时采集的相关内容包含场景亮度、语义内容、显著物的清晰度等。可以根据场景亮度来自适应开启，例如当场景平均亮度低于设定阈值时，则开启该模式，否则关闭该模式。可以根据场景语义内容来自适应开启，例如检测到场景中有目标对象，如车辆、人物等出现时，则开启该模式，否则关闭该模式。可以检测到场景的显著区，如车牌区域等的信噪比，如果该显著区信噪比低于某个给定阈值，则终端设备自动开启分辨率增强模式。

步骤2：使用双目摄像头的一个摄像头拍摄图像，另一个摄像头拍摄视频。

该步骤包括设置主、辅摄像头，设置摄像头参数和增强策略参数，以及设置关键帧的选取。

设置两个多媒体采集设备中的主采集设备及辅采集设备；

通过以下至少一种方式来设置两个多媒体采集设备中主采集设备及辅采集设备：

根据检测到的设置触发操作来设置主、辅采集设备；

根据预先设置来设置主、辅采集设备；

依据自适应设备设置方式来自适应设置主、辅采集设备。

其中，自适应设备设置方式通过设备相关状态、设备设置历史记录数据及多媒体采集设备实时采集的多媒体信息的相关内容中的一项或多项信息来确定；

其中，设备相关状态包含设备电量状态和/或存储状态；多媒体采集设备实时采集的多媒体信息的相关内容包括以下至少一项：画面比例分布、目标物体在画面中的位置信息、画面质量信息。

步骤2.1，设置主、辅摄像头。

令主摄像头采集视频信息，辅摄像头采集图像信息，终端设备可以采用以下三种方式中的一种来设置主摄像头和辅摄像头：一是终端设备预先设置 (如默认设置)；二是终端设备接收用户通过按键、手势、外部控制器等至少一种方式发送的设置触发操作进行设置；三是终端设备根据设备相关状态、设备设置历史记录数据、实时采集的相关内容等自适应调整来设定哪个摄像头为主摄像头，哪个摄像头为辅摄像头。

关于系统默认设置，终端设备默认其中一个摄像头为主，另外一个为辅摄像头，例如正对场景拍摄的某一侧摄像头为主摄像头，另一侧摄像头为辅摄像头。

关于按键设置，终端设备预先设定通过按键控制主、辅摄像头。按键可以为硬件按键，例如音量“+”健启动某一侧摄像头为主摄像头，音量“-” 健启动另一侧摄像头为主摄像头。按键也可以为虚拟按键，例如屏幕上的虚拟控件，菜单等。

关于手势设置，终端设备预先设定某个手势来切换主、辅摄像头，例如顺时针划圆表示设定某一侧为主摄像头，逆时针划圆表示设定另一侧为辅摄像头。

关于外部控制器，外部控制器包括但不限于：手写笔、遥控器、智能眼镜、智能头戴式设备等设备，这些设备跟可以通过以下技术之一来访问终端设备：wifi、NFC、蓝牙和数据网络，设备上配有按键或触摸屏等控制区域来控制主、辅摄像头启动，例如遥控器上的向上键表示某一侧摄像头为主，向下键表示另一侧摄像头为主。

关于根据设备设置历史记录数据的自适应设置，统计最近若干次，例如 9次，采集中主、辅摄像头的设置方式，例如如果某一侧摄像头被设为主摄像头的次数较多，则终端设备启动时自动设置该侧的摄像头为主摄像头。或者根据上一次拍摄时的设置来确定本次拍摄时的主辅摄像头。

关于终端设备根据实时采集的相关内容自适应设置摄像头，终端设备根据两个摄像头采集到的内容选择主摄像头，例如，对拍摄内容进行打分，得分高的作为主摄像头。打分参数包括但不限于：画面比例分布、目标物体在画面中的位置信息、画面质量信息等。终端设备可以在拍摄过程中根据拍摄画面实时地自适应调整主摄像头，并将不同的主摄像头拍摄的视频片段按照拍摄时间进行拼接得到一个完整不间断的视频序列。

如果在视频拍摄过程中开启的图像增强视频的分辨率增强模式，则可以将当前拍摄视频信息的摄像头设置为主摄像头，另一个摄像头为辅摄像头拍摄图像信息；也可以根据上述实时采集内容自适应设置摄像头。

步骤2.2，设置摄像头的采集参数和增强策略参数。

具体地，设置多媒体信息的采集参数及增强策略参数；

获取两个多媒体采集设备基于采集参数分别采集的第一类多媒体信息和第二类多媒体信息；依据增强策略参数，根据第一类多媒体信息对第二类多媒体信息进行相应增强处理；

其中，通过以下任一方式来设置多媒体信息的采集参数及增强策略参数：

根据预先参数设置来设置采集参数及增强策略参数；

其中，自适应参数设置方式通过设备相关状态、参数历史记录数据、采集环境及多媒体采集设备实时采集的多媒体信息的相关内容中的至少一项来确定；

其中，设备相关状态包含以下至少一项：设备电量状态、设备存储状态、采集多媒体信息时的设备运动状态；多媒体采集设备实时采集的多媒体信息的相关内容包括以下至少一项：场景亮度、语义内容、显著物的清晰度、分辨率、曝光时间。

具体地，设置双目摄像设备的采集参数及在增强处理过程中的内部增强策略参数。摄像头的采集参数是采集过程中需要设定的摄像头参数，增强策略参数是所选取的视频增强方法中的内部参数等。其设置方式包括而不限于以下四种：第一种是预先参数设置(如系统默认的固定值设置)，即定义参数为固定值，例如在基于机器学习的亮度增强方法，设定像素块尺寸为固定值，如5个像素；第二种是终端设备接收用户通过语音、按键或外部控制器等至少一种方式发送的参数设置操作来设置参数；第三种是终端设备通过设备相关状态、参数历史记录数据、采集环境或实时采集的相关内容等自适应设置采集参数和增强策略参数；第四种是自适应设置结合用户调整设置进行参数设置，例如终端设备默认固定一套参数值，用户通过按键方式来调整某些参数值。

关于用户交互下的语音设置，例如终端设备预先设定语音开启指令“采集高动态范围的图像”，如果终端设备接受到该指令，则对声控指令进行语音识别，确定开启采集高动态范围图像。或者，终端设备预先设定语音开启指令“图像白平衡为日光灯”，则设置图像白平衡为日光灯。或者，终端设备预先设定语音开启指令“提高图像曝光值”，则提高图像的曝光值。

关于用户交互下的按键设置，按键可以为硬件按键，例如“+”键表示增加曝光值，“-”键表示减少曝光值，“HOME”表示采集高动态范围图像。按键也可以为虚拟按键，例如屏幕上的滑动条，按钮，菜单等，交互界面上布局虚拟按键，终端设备检测到用户点击了该虚拟按键的事件后，确认改变设置参数。还可以结合用户按的压力、速度、时间、频率等多种特征信息表示不同的含义，如轻按代表减少曝光值，重按代表增强曝光值。

关于用户交互下的外部控制器设置，外部控制器包括而不限于手写笔、遥控器、智能手表、智能眼镜、智能头戴式设备、智能衣服、或远程设备等，这些控制器以下列技术至少之一来访问终端设备：Wifi、红外、蓝牙、网络，控制器上配有按键或触摸屏等控制区域来控制终端设备，例如手写笔做出空中手势，设定向上为增加曝光值，向下为减少曝光值，终端设备识别出这些操作则启动调节参数，遥控器上设置调节白平衡、曝光、视频采集频率等按键，控制器检测到用户点击了按键，发送到终端设备来调节参数。

关于根据场景亮度、语义内容的自适应设置，可以根据场景的类型来调节白平衡，例如终端设备识别出场景是白天，则调整白平衡为日光，场景是夜晚偏黄则调节白平衡为钨丝灯。可以根据场景中的兴趣目标来调节对焦，例如定位显著区域或人体区域并将对焦该区域。可以根据场景光线调整曝光量，例如检测到场景亮度均值低于给定阈值，则终端设备提高曝光量，否则减低曝光量。可以根据场景中亮度方差自适应调节高动态范围的采图数，例如亮度方差高于第一给定阈值则提高采图数，亮度方差低于第二给定阈值则减低采图数。可以根据采集图像的尺寸来设置亮度增强中的图像像素块的尺寸，例如定义像素块为图像尺寸乘以某一个比例系数。

关于根据设备相关状态的自适应设置，设备相关状态包括电量、存储(如内存)等，可以根据电量控制曝光值减低计算量，当电量小于第一预定电量，例如50％时，则减低曝光值，当电量小于第二预定电量，如5％时，则不进行高动态范围设定，其中，第一预定电量大于第二预定电量。还可以根据电量控制去模糊中的参数减少计算量，小于第一预定电量，例如50％，则减少模糊核的尺寸，小于第二预定电量，例如5％，则固定模糊核尺度为最小值，可以由电量控制基于机器学习颜色增强中的参数来减少计算量，小于第一预定电量，例如50％，则减少单词库侧重中的单词数，小于第二预定电量，例如 5％，则固定单词数为最小值，可以由电量确定亮度增强中的参数来减少计算量，小于第一预定电量，例如50％，则减少基于机器学习方法中待采样的像素数，小于第二预定电量，例如20％，则替换机器学习方法中的模型映射法为高斯混合模型法。可以根据内存调整视频帧采集频率，如果剩余内存大于第一预定空间，例如1G，则自动调整为指定的高采集频率，例如3640*1920；反之，如果剩余内存小于第二预定空间，例如300M，则调整为指定的低采集频率，例如1920*1080。

关于根据参数历史记录数据的自适应设置，例如根据用户设置的曝光值数历史记录数据调整曝光量，设置方式包括而不限于下面这种：计算参数历史记录数据中的曝光值和图像亮度均值，用最小二乘法回归出一个映射关系表，根据该映射表调整曝光值。例如根据用户喜好的设置调整高动态范围设置，设置方式包括而不限于下面这种，统计最近N次，例如10次，亮度增强中设置高动态范围的次数，如果次数>N/2则优先设置高动态范围。或者将本次拍摄时的参数值设置为上一次拍摄时的参数值。

步骤2.3，自适应设置关键帧采集频率。

当第一类多媒体信息为图像信息，第二类多媒体信息为视频信息时，获取一个多媒体采集设备采集的视频信息，以及另一个多媒体采集设备依据关键帧采集频率同时采集的与视频信息相对应的关键帧图像信息；根据采集的关键帧图像信息对采集的视频信息对应的需要增强的指标进行增强处理。

优选地，还包括：设置关键帧采集频率；其中，设置关键帧采集频率的方式包括以下至少一项：

根据预设频率设置来设置关键帧采集频率；

依据自适应频率设置方式来自适应设置关键帧采集频率。

其中，自适应频率设置方式通过设备相关状态、采集频率历史记录数据、采集环境、采集参数及多媒体采集设备实时采集的多媒体信息的相关内容中的一项或多项信息来确定；

其中，设备相关状态包含以下至少一项：设备电量状态、设备存储状态、采集多媒体信息时的设备运动状态；多媒体采集设备实时采集的多媒体信息的相关内容包括场景亮度、语义内容中的至少一项。

关于预设频率设置，可以按照系统固定频率选取关键帧，例如将采集频率固定为给定频率，例如1次/秒，如果视频采集频率为30帧/秒，即为每30 帧采集一个图像。

关于根据实时采集的相关内容自适应设定，可根据环境亮度变换自适应选取关键帧采集频率，实时检测环境的亮度均值，如果相邻帧的亮度均值之差大于第一阈值，例如50，则启动关键帧选取。可以根据语义内容自适应选取关键帧，提取环境的整体特征描述因子，包括而不限于以下几种：颜色直方图、梯度直方图、纹理直方图和神经网络训练出的特征，计算相邻帧的特征描述因子之差，如果描述因子之差大于第二阈值，则启动关键帧选取。可以结合环境亮度或内容和给定频率选取关键帧，同样是定频率采集场景环境，但采集频率根据场景变动进行自适应调整。如果场景环境亮度或内容频繁进行更替，则将关键帧采集频率增大，相反，如果场景环境亮度或内容基本保持不变，则将关键帧采集频率减低。

关于根据设备相关状态选取关键帧采集频率，设备相关状态包括电量、存储(如内存)、设备运动状态等。可以根据电量设定关键帧采集频率，例如当电量小于第一预定电量时，例如50％，则减低关键帧采集频率，当电量大于第二预定电量，如80％时，则提高关键帧采集频率，其中，第一预定电量小于第二预定电量。可以根据内存设置关键帧频率，例如当内存小于第一预定值时，例如500M，则降低关键帧采集频率，当内存大于第二预定值时，例如700M，则提高关键帧采集频率。也可以根据终端设备运动状态调整采集频率，根据终端设备内部传感器判断终端设备的运动状态，如果运动幅度大于某一阈值，则提高关键帧采集频率，以保证得到足够的高质量关键帧图像。

步骤3，对视频信息进行分辨率增强。

具体地，当需要增强的指标包括分辨率、颜色、亮度中的至少一项时，增强处理的方式包括基于多视图重建的增强方式，和/或基于机器学习构建增强模型的增强方式。

其中，基于多视图重建的增强方式，具体包括：建立采集到的视频信息的视频像素和关键帧图像信息的图像像素的匹配关系，通过图像像素替换相匹配的视频像素。

其中，基于机器学习构建增强模型的方式，具体包括：在采集到的视频信息的关键帧图像所在位置处提取视频像素；以机器学习方式建立视频像素与关键帧图像信息的图像像素的映射增强模型；在采集到的视频信息的非关键帧图像所在位置，通过映射增强模型来转换视频像素。

步骤4，增强后的视频的存储。

第一类多媒体信息为图像信息，第二类多媒体信息为视频信息时，根据第一类多媒体信息对第二类多媒体信息进行相应处理，具体包括：根据采集的图像信息对采集的视频信息进行存储处理，其中，存储内容包括以下至少一种情形：

采集到的视频信息和图像信息；

在本实施例中终端设备生成四类数据：采集的原始视频信息、关键帧图像信息、分辨率增强的映射增强模型和增强后的视频信息。

第一种是在步骤3之后，直接存储增强后的视频信息，不保存关键帧图像信息，即在存储前完成增强处理，在存储时，视频框中显示原始视频帧中的画面，上面显示缓冲图标，表示正在进行增强处理，缓冲完成后，存储结束。

第二种是先保存原始视频信息以及学习到的增强模型，不保存关键帧图像信息。在用户打开视频时进行步骤3的增强处理。由于每个视频片段有一个增强模型，将所有的增强模型单独存储，建立一个增强模型和视频帧号的映射表。

第三种是先存储原始视频信息以及拍摄的关键帧图像信息，这种方式不需要在存储前对原始视频信息进行处理，完成拍摄，可即刻完成存储。终端设备自动根据处理器的忙闲来安排处理时间，学习增强模型对原始视频信息进行步骤3的增强处理，增强处理完成后删除关键帧图像信息。该存储方式也是本发明提出的一种高清视频压缩存储的方法。为了节省视频的存储空间，可以存储低分辨率视频信息和高分辨率图像信息来取代直接存储高分率视频信息。低分辨率视频信息和高清图像信息可以分别由本发明中两个摄像头同时采集视频信息和图像信息得到，也可以直接将高分辨率视频信息进行关键帧提取得到高分率图像信息，然后将原始高分辨率视频信息压缩得到低分辨率视频信息。基于低分辨率视频信息和关联的高分率图像信息，可以利用分辨率增强方法得到高清分辨率视频信息。

第四种是经过步骤3增强处理之后，存储增强后的视频信息，同时保存关键帧图像信息，增强后视频信息的获取方式可以是前三种存储方式的任意一种得到，关键帧图像信息可以跟视频信息同时保存在视频序列中，也可以保存在照片列表中，建立视频信息和图像信息的关联关系。保存关键帧图像信息可以给用户提供一些高清的图像信息供用户进行其他操作。

存储方式通过以下至少一项来设置：

根据检测到的设置操作来确定存储方式；

根据预先设置(如系统默认设置)来确定存储方式；

依据自适应存储设置方式来自适应确定存储方式。

具体地，自适应存储设置方式通过设备相关状态、存储设置历史记录数据中的至少一项来确定。

设置操作通过用户的语音、按键、按键、手势、对外部控制器的操控来实现。设备相关状态包括存储空间、电量等设备信息。

即针对如何设置第一存储方式，本发明给出三种设置方法，终端设备可以根据以下三种中的一种来对第一存储方式进行选择。第一种是终端设备默认设置；第二种是终端设备接受用户通过语音、按键或外部控制器等方式以及这些方式的组合来设备或更改存储方式；第三种是终端设备通过存储空间、电量或历史数据自适应设置存储方式。

关于系统默认设置，终端设备设置四种存储方式中的一种作为默认值，在终端设备没有接收到更改存储方式的指令前都使用该默认存储方式对视频和图像进行存储。

关于用户交互下的语音设置，例如终端设备预先设定语音指令“储存增强后的视频”，如果接收到该指令，则对声控指令进行语音识别，确定设置存储方式为存储增强后的视频信息。

关于用户交互下的按键设置，按键可以为硬件按键，例如音量上下键来对四种存储方式进行选择，home键来确定当前选择的存储方式为最终的存储方式。按键也可以为虚拟按键，例如屏幕上的按钮、菜单，交互界面上的虚拟键盘等，终端设备检测到用户点击该虚拟按键的事件后，确认选择的存储方式。

关于用户交互下的手势设置，终端设备预先设定某种手势来选择增强方式。手势包括屏幕手势，例如从左向右或者从右向左滑动屏幕来更换存储方式。手势还包括隔空手势，包括摇晃/倾斜终端，摇晃/倾斜时的不同方向表示不同的含义，如上下摇晃更换存储方式，左右倾斜来更换存储方式，上述手势可以是单一的手势，也可以是任意手势的任意组合，例如右手横向滑动选择增强方式，同时上下摇晃表示确定当前选择的存储方式为最终的存储方式。

关于用户通过外部控制器设置，外部控制器包括而不限于手写笔、遥控器、智能手表、智能眼镜、智能头盔、智能衣服、或远程设备等，这些控制器通过Wifi和/或红外和/或蓝牙和/或网络跟交互界面交通，例如，遥控器上某些按键代表设置不同的存储方式，检测到用户点击了按键，发送到交互控制系统，设置存储方式。

关于根据存储空间的自适应设置，根据存储空间，可以选择不同的存储方式，如果剩余存储空间小于某一阈值，例如低于终端设备存储空间的50％，则设置为第三种压缩存储方式；反之，如果剩余存储空间高于某一阈值，例如高于终端设备存储空间的50％，则存储方式不受存储空间影响。

关于根据电量的自适应设置，可以根据电量控制存储方式，当电量小于某一阈值，例如低于50％时，则选择耗电量小的存储方式，即第三种存储方式，即直接存储原始视频信息和关键帧图像信息者第二种存储方式，即原始视频和学习模型，不对视频进行增强处理；当电量小于第二预定电量，例如低于15％时，则选择耗电量最小的第三种存储方式，即原始视频信息和关键帧图像信息；如果电量高于某一阈值，例如高于50％，则存储方式不受电量影响。

关于根据存储设置历史记录数据的自适应设置，例如根据用户以往设置的存储方式，来对用户喜好进行分析，设置为用户偏好的存储方式。

步骤5，视频的播放。

例如，终端设备根据检测到的播放触发操作，对存储的视频进行播放。

方案一：该播放方式对应的存储方式为存储增强后的视频信息。终端设备检测到用户打开视频的操作，直接打开增强后的视频信息。检测到用户点击播放的操作，例如，检测到用户点击播放按钮的操作，即可马上进行视频播放，这样，用户直接可以查看增强后的效果。

方案二：该播放方式对应的存储方式为存储原始视频信息和增强模型。终端设备检测到用户的打开操作，打开原始视频信息和增强模型的组合。检测到用户点击播放的操作，例如，检测到用户点击播放按钮的操作，终端设备开始基于增强模型对原始视频信息进行增强处理。在允许的缓冲时间内完成操作，然后播放增强后的视频信息。

方案三：该播放方式对应的存储方式为存储原始视频信息和关键帧图像信息。终端设备检测到用户的打开操作，打开原始视频信息和拍摄的关键帧图像信息组合。检测到用户点击播放的操作，例如，检测到用户点击播放按钮的操作，如果终端设备已经完成了增强处理，则可以直接播放视频查看增强后的视频信息。如果终端设备在后台只是做了部分工作，没有完成增强步骤，则接收到用户点击播放操作后需要时间缓冲来进行视频增强，完成增强后开始播放增强后的视频信息，用户可以看到增强后的视频信息。

方案四：该播放方式对应的存储方式为存储增强后的视频信息和关键帧图像信息。终端设备检测到用户的打开操作，打开增强后的视频信息和关键帧图像信息的组合，增强的视频信息的播放方式不仅包括了前三种的播放方式，而且基于关键帧图像信息可以得到更多的播放方式。在建立视频信息和图像序列的关联关系后，可以通过图像序列链接到视频信息，也可以通过视频信息链接到图像序列，通过长按关键帧图像序列或者视频播放按钮完成这种图像和视频间的跳转，也可以通过语音，手势等设置来完成跳转。

方案五：终端设备检测到用户的打开操作，打开增强后的视频和关键帧的组合。在存储时记录每个关键帧在视频中出现的位置，用户可以通过点击关键帧序列中的某张图像链接到相应的视频位置，从该位置开始播放视频。可以但不限于长按视频，出现关键帧序列，点击序列中的某张图像开始播放视频。查看视频时，呈现给用户的是一个图像组合，用户可以点开图像序列进行查看，然后点击图像进行视频播放。

方案六：终端设备检测到用户的打开操作，例如检测到用户点击播放的操作，显示缓冲标志，进行分辨率转换，该转换可以包括但不限于以下几种方法：一是将整个视频片段转换成高分辨率视频信息后从头播放；二是缓冲一部分就开始播放，边播放边进行视频转换，受限于手机的处理能力，播放中可能会出现中断来完成缓冲；三是可以点击关键帧图像信息中的某一张，只从该张图像信息对应的视频位置为起点之后的视频片段进行转换，缓冲方式可以是前两种的任意一种，从图像信息对应的视频位置进行播放；四是用户可以选择播放低分辨率视频信息进行查看，如果对视频很感兴趣，可以通过按钮或者其他操作进行高分辨率视频播放，选择高分辨率播放后，可以按照前三种播放方法进行播放。也可以将压缩视频进行分享，减少手机能源消耗，在对方进行播放时可以进行多种播放选择。

实施例二：增强处理模式为图像增强视频模式中的颜色增强模式

从视频亮度和颜色增强方面来说，目前，终端设备在低光照情形下拍摄的视频普遍亮度暗、质量差。现有技术大都是通过一些先验模型对视频进行处理，比如，设置非线性映射表，如图2所示，对每帧图像根据亮度信息计算得到该帧图像的直方图均衡映射表，根据预设映射表以及计算得到的映射表加权得到一个转换曲线，根据这一曲线对视频帧中的像素点亮度进行调整来对视频帧进行增强。另一种方式为对视频进行伽马校正进行预处理得到视频的传输参数，使用改进的图像退化还原模型根据原始视频和预处理得到的传输参数处理得到最终的增强结果。上述方法都是基于视频自带信息来进行增强的，增强强度要通过人为设置参数来进行调整。在视频亮度及颜色调整方面，利用一些预设的映射曲线对视频中每帧图像进行调整可以达到亮度颜色的变化，但是其变化的基础也受限于预设的参数，而且变化趋势是否适用于各种场景也有待斟酌。在不同的光照条件下，调节的参数需要自适应的进行调整，预设的映射曲线有可能会出现不真实的变化结果，比如夜间拍摄的视频被调整的过亮或者一些图像区域颜色失真。

该实施例的基本流程为：首先开启图像增强视频模式中的颜色增强模式，启动两个摄像头分别采集图像信息和视频信息；其次，设置主、辅摄像头，设置摄像头的采集参数和增强策略参数，以及设置关键帧图像信息的选取，同时根据增强策略参数和关键帧图像信息对视频进行颜色增强，最后对采集结果进行压缩、传输和播放。

步骤1：开启图像增强视频模式中的颜色增强模式。

在本实施例中，步骤1采用与实施例一中类似的开启方式，区别在于开启功能的指令描述内容，例如，语音开启中的指令为“启动增强视频颜色”，按键开启的指令为长按Home键，虚拟按键中增强视频颜色的按钮，手持开启指令为摇晃终端等，在此不再赘述。

步骤2：使用双目摄像头的一个摄像头拍摄图像信息，另一个摄像头拍摄视频信息。

该步骤主要包括采集参数及增强策略参数的设置，主、辅摄像头的设置，采集图像和视频的参数设置，以及关键帧图像信息的选取。

步骤2.1，设置主、辅摄像头。

在本实施例中，设置主、辅摄像头的方式可以采用实施例一步骤2.1中类似的设置主、辅摄像头方式，在此不再赘述。

步骤2.2，设置摄像头的采集参数和增强策略参数。

在本实施例中，设置摄像头的采集参数和增强策略参数的方式可以采用实施例一步骤2.2中类似的设置采集参数和增强策略参数的方式，在此不再赘述。

步骤2.3，自适应设置关键帧采集频率。

在本实施例中，关键帧的选取方式可以采用实施例一步骤2.3中类似的关键帧选取方式，在此不再赘述。

步骤3，对视频信息进行颜色增强处理。

以关键帧为界限将视频划分为一个个片段，用片段两侧的关键帧图像对该视频片段进行增强。颜色增强方式包括而不限于以下两种：一种基于多视图重建的方法，一种基于机器学习的方法。

关于基于多视图重建的颜色增强，以多视图重建方法建立视频像素和图像像素的匹配关系，用图像像素来替换生成视频像素。

关于基于机器学习的颜色增强，在关键帧处以机器学习方式建立视频像素和图像像素的映射模型，在非关键帧处以该映射模型来转换视频像素。

步骤4，视频的存储。

在本实施例中终端设备生成四类数据：采集的原始视频信息、关键帧图像信息、颜色增强模型和增强后的视频信息。针对不同的数据类型，存储方式包括而不限于以下四种。

本实施例中的四种存储方式和实施例一中步骤4介绍的四种存储方式相同，在此不再赘述。

设置存储方式的方法采用与实施例一中步骤4类似的设置方法，不同的是该增强模式不改变视频分辨率，在四种存储方式中，第一种存储增强后的视频信息占用空间最小，当存储空间小于某一阈值，例如小于终端设备存储空间的50％，则设置第一种存储方式。其他设置方法相同，在此不再赘述。

步骤5，视频的播放。

在对双目摄像头采集的数据进行压缩、存储和传输后，在播放阶段中解压并播放高质量视频信息。针对不同的存储方式，其播放方式包括而不限于实施例一中步骤5介绍的前五种中的一种，五种播放模式与实施例一步骤5 中前五种描述相同，在此不再赘述。

实施例三：增强处理模式为图像增强视频模式中的亮度增强模式

该实施例的基本流程为：首先开启图像增强视频模式中的亮度增强模式，启动两个摄像头分别采集图像信息和视频信息，其次设置摄像头的采集参数和增强策略参数，以及设置关键帧图像信息的选取，同时根据增强策略参数和关键帧图像信息对视频进行亮度增强，最后对采集结果进行压缩、传输和播放。

步骤1：开启图像增强视频模式中的亮度增强模式。

在本实施例中，步骤1的开启方式采用实施例一中类似的开启方式，区别在于开启功能的指令描述内容，例如，语音开启中的指令为“启动增强视频亮度”，按键开启的指令为长按End键，虚拟按键中增强视频亮度的按钮，手持开启指令为抖动终端等，在此不再赘述。

步骤2：使用双目摄像头的一个摄像头拍摄图像信息，另一个摄像头拍摄视频信息；

步骤2.1，设置主、辅摄像头。

在本实施例中，设置主、辅摄像头的方式可以采用实施例一步骤2.1中类似的设置主、辅摄像头的方式，在此不再赘述。

步骤2.2，设置摄像头参数和增强策略参数。

步骤2.3，选取关键帧。

步骤3，对视频进行亮度增强。

亮度增强在Lab颜色模型的L通道，或者HSV颜色模型的V通道中执行，首先将图像或视频进行颜色空间转换，然后提取L或者V通道分量进行独立增强。以关键帧为界限将视频划分为一个个视频片段，用视频片段两侧的关键帧图像对该视频片段进行增强。增强方式包括而不限于以下两种：一种基于多视图重建的方法，一种基于机器学习的方法。

关于基于多视图重建的亮度增强，以多视图重建方法建立视频像素和图像像素的匹配关系，用图像像素亮度来替换生成视频像素亮度。

关于基于机器学习的亮度增强，在关键帧处以机器学习方式建立视频像素亮度和图像像素亮度的映射模型，在非关键帧处以该映射模型来转换视频亮度。

步骤4，视频的存储。

在本实施例中终端设备生成四类数据：采集的原始视频信息、关键帧图像信息、亮度增强模型和增强后的视频信息。针对不同的数据类型，存储方式包括而不限于以下四种。

本实施例中的四种存储方式和实施例二中步骤4介绍的四种存储方式相同，在此不再赘述。

步骤5，视频的播放。

在本实施例中，视频的解压播放的方式可以采用实施例二步骤5中相同的视频播放的方式，在此不再赘述。

实施例四、增强处理模式为图像增强视频模式中的去噪增强模式

从视频去噪和去模糊方面来说，由于视频每帧曝光时间很短，视频噪声较图像噪声更多。现有技术大都采用图像去噪的方法对视频帧进行降噪处理，最终实现视频去噪的目的。假定噪声类型为高斯噪声，通过一些滤波方法对噪声进行去除，也有使用字典学习的方法对噪声进行去除。导致视频模糊可能有以下几个因素：1)手持手机拍摄视频时，由于手的抖动会导致画面模糊； 2)降噪处理使得一些区域变得模糊；3)聚焦不准造成的散焦模糊等。现有技术大都是对模糊图像的模糊核进行估计，利用得到的模糊核对模糊图像进行反卷积得到清晰图像；如图3所示。

同样的拍摄环境下，相比于图像信息，视频帧视频画面噪声比较明显，本实施例通过具有相似内容的高质量关键帧图像信息来对低质量视频片段进行去噪来提高视频质量。具体实施步骤如下：

步骤1：开启图像增强视频模式中的去噪增强模式。

在本实施例中，步骤1采用与实施例一中类似的开启方式，区别在于一些指令描述和阈值设置的不同，具体区别描述如下。

在用户开启视频去噪模式中使用不同的指令描述，例如，语音开启中的指令为“启动视频去噪”，按键开启的指令为长按Home键，虚拟按键中视频去噪的按钮，手持开启指令为摇晃终端等，在此不再赘述。

在终端设备根据设备相关状态和模式开启历史记录数据自适应开启模式中使用不同的阈值设置，例如，电量阈值，次数阈值等。其他描述方式相同，在此不再赘述。

在终端设备自适应模式匹配方式自适应开启视频去噪增强模式中给出三种方法，一种方法是终端设备利用已有方法对拍摄到的环境进行检测，如果拍摄环境被检测为低光照环境，例如夜景拍摄，则开启去噪增强模式；第二种方法是终端设备对相机拍摄参数进行检测，如果感光度高于某一阈值，则开启去噪增强模式；第三种可以是前两种方法的组合，两个条件同时满足则开启去噪增强模式，即拍摄环境中光照强度低于某一阈值，且感光度高于某一阈值则开启去噪增强模式。

在终端设备根据实时采集内容自适应开启视频去噪模式中计算拍摄帧的信噪比，信噪比低于某一阈值则开启视频去噪模式。

步骤2.1，设置主、辅摄像头。

在本实施例中，设置主、辅摄像头的方式可以采用实施例1步骤2.1中类似的设置主、辅摄像头的方式，在此不再赘述。

步骤2.2，设置摄像头的采集参数和增强策略参数。

在本实施例中，设置摄像头的采集参数和增强策略参数可以采用实施例一步骤2.2中类似的设置摄像头的采集参数和增强策略参数方式，在此不再赘述。

除了前述的参数设置方式，本实施例针对去噪模式提出了新的参数设置方法。在本实施例中是利用双目摄像头中一个采集图像信息，一个采集视频信息，对视频信息进行去噪。在此主要是对图像采集的分辨率，曝光时间，感光度进行设置，出于节能以及算法设计两方面的考虑，辅摄像头采集图像信息的分辨率应与视频信息的分辨率设置保持一致，如果图像信息的最低分辨率比当前视频信息的分辨率高，则采用图像信息的最低分辨率进行采集。如果在电量允许的前提下，曝光时间可以根据终端设备运动状态进行调整。如果终端设备内部传感器检测到终端设备处于平稳的拍摄状态，则提高曝光时间，例如取曝光时间范围中的最大值，提高图像信息和视频信息亮度，降低噪声干扰；如果传感器检测到终端设备存在抖动或者其他运动趋势，则适当减少曝光时间，避免图像信息出现模糊，影响视频信息去噪效果。

步骤2.3，选取关键帧图像信息。

在本实施例中，关键帧选取方式可以采用实施例一步骤2.3中类似的关键帧选取方式，在此不再赘述。

针对去噪模式，本实施给出新的关键帧图像信息选取方式。如果光照强度越低，则关键帧采集频率提高，反之光照强度越高，则降低关键帧采集频率；利用终端设备自身传感器检测终端设备运动状态，如果运动幅度大于某一阈值，则提高采集频率，以保证得到足够的高质量关键帧图像。如果关键帧采集时终端设备出现运动，则在运动结束时采集另一张关键帧图像信息作为前一帧关键帧图像信息的备选，当前一帧关键帧图像信息出现模糊时，则可以利用备选关键帧图像信息对视频片段进行去噪，以保证去噪效果。

步骤3：使用关键帧序列去除视频的噪声。

当需要增强的指标包括噪声时，增强处理的方式包括基于字典重构的方式，和/或基于深度学习的方式。

在原始视频信息中检测到待处理的模糊帧时，确定对待处理的模糊帧进行去模糊增强处理；

其中，通过以下至少一种信息来检测待处理的模糊帧：

多媒体采集设备的运动状态；在原始视频信息中对焦失败的帧；通过分类器对原始视频信息进行分类的分类结果。

具体地，每一个高质量关键帧对应一个视频子序列，假设视频关键帧1，其对应的视频子序列中包含60帧，利用相邻的1帧或者多帧关键帧图像对视频进行去噪，例如用关键帧1对这60帧图像进行去噪，去噪的方式包括但不限于以下方式之一：一种是基于字典重构的方法，如NLM(non local means) 算法；一种是基于深度学习的方法，如卷积神经网络CNN(convolutional network)。

与传统去噪方法相比，本实施例使用一个参考图像，即关键帧图像，对噪声视频进行去噪，针对这一个特性，对现有方法进行了改进。下面对上述两种方法进行详细介绍。

1)基于字典重构的方法，即改进的NLM

如果输入的关键帧图像与视频帧图像的分辨率不一致，首先将关键帧图像与视频的尺度进行统一，将视频进行放缩或者关键帧图像进行放缩，或者同时对视频和关键帧图像进行放缩，使得关键帧图像和视频具有相同的尺寸。利用立体匹配的方法计算关键帧图像与视频片段中每帧的视差，对视频帧中的像素和关键帧图像的像素进行对齐，即图像间一致性像素的位置关系。如果输入的关键帧图像和视频帧图像的分辨率一致，则直接利用立体匹配的方法计算视差进行图像对齐。在得到关键帧图像和视频帧图像像素间的位置关系后，在图像间查找相似块。对于每个视频帧，以该帧图像中一个像素点为中心取一个大小为a*a的像素块p，其中a可以预先设定，也可以根据图像大小或者其他因素进行自适应调整。基于得到的视频帧与关键帧图像一致性像素间的位置关系，找到视频帧中该像素在关键帧图像中的位置，以该位置为中心，取b*b大小的邻域，其中b可以预先设定，也可以根据图像大小等其他因素进行自适应调整。以该邻域块中的每个像素为中心取一个大小为a*a 像素块q，一共可以得到b*b个像素块，计算像素块p与b*b个像素块间的距离，距离计算公式可以采用但不限于欧式距离平方和，即块间相同位置的像素值差的平方和为，如a取值8，像素块距离即为低质量像素块中64个像素与关键帧像素块中64个像素值差的平方和。如果距离小于某一阈值则认为两个像素块相似。找到的所有小于该阈值的相似块，标记为集合Ω。然后需要计算相似块的权重，根据这些相似块的距离计算每块的权重w，距离越大权重越小，反之则越大。权重可采用但不限于高斯函数来计算。最后，利用这些相似的像素块对高噪声的像素块进行重建，即对相似块进行加权平均，在此也可以对原始像素块分配一定权重，在重构中占有一定比例来保证重构后的像素块与原始像素块的一致性。对视频帧中的每个像素都按此方法进行基于块重构的方法进行重新估计来达到对每张视频帧的去噪，对视频片段中的每帧去噪来对整个视频片段进行去噪。

由于关键帧图像与视频帧存在视差，有些视频帧的像素在关键帧中找不到对应的像素，对于这些像素也就没有办法在高质量的图像中查找相似的像素块进行重构。对于这些像素点，可以采用最初的NLM方法在自身所在的视频帧中查找相似像素块重构进行去噪处理。同时为了节省处理时间，可以考虑视频帧间的关系，如果视频片段中帧间内容变化不大，则可以同时对多个视频帧中像素进行重构，即不同帧中相同的像素点可以利用统一的相似像素块进行重构，达到对多个像素点同时去噪的效果。

2)基于深度学习的方法

如果输入的关键帧图像与视频帧图像的分辨率不一致，与第一种方法中采取一样的步骤对关键帧图像与视频的尺度进行统一。利用立体匹配的方法计算关键帧图像与视频片段中每帧的视差，对视频帧中的像素和关键帧图像的像素进行对齐。根据对齐结果，对关键帧图像和视频帧进行裁剪，得到一对具有相同尺寸，相同内容的图像对，一张从关键帧图像中裁剪得到的无噪声图像，另一张从视频帧图像中裁剪得到的噪声图像，两张图像同一位置中的像素点内容一致，但是一个是来自高质量的关键帧图像，称为无噪声的像素点，一个是来自低质量的视频帧图像，称为噪声像素点。基于多对图像，取对应的像素块，可以得到很多对像素块。基于这些像素块，利用现有的基于深度学习的方法，训练得到一个具有去噪功能的卷积网，对视频帧中的像素块进行去噪。该模型可以线下采集大量样本训练得到一个初始模型预装在终端设备中，然后再利用得到的图像对，对该模型进行修正，来对视频帧进行去噪；也可以在线训练一个模型对视频帧进行去噪。

步骤4：视频的存储。

在本实施例中终端设备生成四类数据：采集的原始视频信息、关键帧图像信息、去噪增强模型和增强后的视频信息。针对不同的数据类型，存储方式包括而不限于以下四种。

设置存储方式的方法采用与实施例二中步骤4相同的设置方法，在此不再赘述。

步骤5，视频的播放。

在对双目摄像头采集的数据进行压缩、存储和传输后，在播放阶段中解压和浏览高质量视频。针对不同的存储方式，其播放方式包括而不限于实施例二中步骤5介绍的五种中的一种，五种播放模式与实施二步骤5中描述相同，在此不再赘述。

实施例五、增强处理模式为图像增强视频模式中的去模糊增强模式

在拍摄视频时，多种因素会导致画面模糊，主要有：1)手持终端设备拍摄中手的抖动，2)运动物体导致的画面模糊，3)对焦失败导致的目标区域模糊。本实施例通过双目摄像头中的一个摄像头采集图像，另一个摄像头采集视频，利用图像对视频进行去模糊，得到一个高质量的视频。具体步骤如下：

步骤1：终端设备确定需要使用双目摄像头实现图像辅助视频去模糊，开启像增强视频模式中的去模糊增强模式。

在本实施例中，步骤1采用与实施例一中类似的开启方式，区别在于一些指令描述和阈值设置的不同，具体区别描述如下：

在用户开启去模糊增强模式中使用不同的指令描述，例如，语音开启中的指令为“启动视频去模糊”，按键开启的指令为长按Home键，虚拟按键中视频去模糊的按钮，手持开启指令为摇晃终端等，在此不再赘述。

在终端设备根据采集环境(即拍摄环境)和参数自适应开启视频去模糊增强模式中给出三种方法，一种方法是终端设备利用已有方法对拍照终端运动趋势进行检测，如果拍摄终端处于运动状态，如手持终端手的抖动引起的拍摄终端的抖动，则开启视频去模糊增强模式；第二种方法是终端设备对拍摄参数进行检测，如果视频采集曝光时间高于某一阈值，例如，高于300ms,则开启视频去模糊增强模式；第三种可以是前两种方法的组合，两个条件同时满足则开启视频去模糊增强模式，即拍摄终端处于运动状态，且曝光时间高于某一阈值则开启视频去模糊增强模式。

在终端设备根据实时采集的相关内容自适应开启视频去模糊增强模式中计算拍摄帧的模糊度指标，低于某一阈值则开启视频去模糊增强模式。

步骤2.1，设置主、辅摄像头。

步骤2.2，设置摄像头的采集参数和增强策略参数。

除了前述参数设置方式，本实施列针对去模糊模式提出了新的设置方法。在本实施例中是利用双目摄像头中的一个摄像头采集图像，一个摄像头采集视频，对视频进行去模糊。在此主要是对图像采集的分辨率，曝光时间，感光度进行设置，出于节能以及算法设计两方面的考虑，辅摄像头采集图像的分辨率应与视频的分辨率设置保持一致，如果图像的最低分辨率比当前视频的分辨率高，则采用图像的最低分辨率进行采集。如果拍照环境亮度正常，或者高于某一阈值，则缩短视频和图像曝光时间，适当提高感光度，降低出现画面模糊的概率；如果终端设备传感器检测到终端设备存在抖动或者其他运动趋势，则适当减少曝光时间，避免图像出现模糊，影响视频去模糊效果。

步骤2.3，选取关键帧图像信息。

在本实施例中，关键帧图像信息选取方式可以采用实施例一步骤2.3中类似的关键帧图像信息选取方式，在此不再赘述。

针对去模糊模式，本实施给出新的关键帧选取方式。如果曝光时间变长，视频出现模糊的概率变高，则关键帧采集频率提高，反之曝光时间变短，则降低关键帧采集频率；利用终端设备自身传感器检测终端设备运动状态，如果关键帧采集时终端设备出现运动，则在运动结束时采集另一张关键帧作为前一帧关键帧的备选，当前一帧关键帧出现模糊时，则可以利用备选关键帧对视频片段进行去模糊，保证了去模糊的效果。

步骤3：使用关键帧序列去除视频的模糊。

当需要增强的指标包括模糊时，增强处理的方式包括基于模糊核估计的方式，和/或基于深度学习的方式。

其中，通过以下至少一种信息来检测待处理的模糊帧：

具体地，首先需要判断哪些视频帧画面出现模糊，可以采用但不限于以下三种方案中的一种：

一，根据终端设备内置传感器监测终端设备自身的运动状态，如果运动幅度大于某一阈值则判定在此时间段拍摄的视频帧为待处理的模糊帧；二，检测对焦失败的帧，如果用户指定了焦点区域，拍摄中间焦点发生移动，即焦点没有对准目标区域，则认为该目标区域为待处理的模糊区域；三，通过机器学习的方法，利用大量的模糊图像与清晰图像训练得到一个分类器，用得到的分类器对视频帧进行分类，被归类到模糊图像的视频帧就是待处理的模糊帧。

如果检测到模糊帧，则对这些模糊帧进行去模糊处理。首先找到与这些视频帧内容相似的且清晰的关键帧图像，去模糊的方式包括但不限于以下两种。一种是基于模糊核估计的方法，一种是基于深度学习的方法。

与传统去模糊方法相比，本实施例使用一个参考图像，即关键帧图像信息，对模糊的视频信息进行去模糊，针对这一个特性，对现有方法进行了改进。下面对上述两种方法进行详细介绍。

1)基于模糊核估计

如果输入的关键帧图像与视频帧图像的分辨率不一致，与去噪方法中采取一样的步骤对关键帧图像与视频的尺度进行统一。利用立体匹配的方法计算关键帧图像与视频片段中每帧的视差，对视频帧中的像素和关键帧图像的像素进行对齐。根据对齐结果，对关键帧图像和模糊的视频帧进行裁剪，得到一对具有相同尺寸，相同内容的图像对，一张从关键帧图像中裁剪得到的干净图像，另一张从视频帧图像中裁剪得到的模糊图像。可以裁剪一张大尺寸的图像对，可以裁剪多对小尺度的图像对。利用最小二乘优化方法或者其他优化方法来对每队图像来估计模糊核，如果多对图像则可以估计得到多个模糊核。如果得到一个模糊核，利用该模糊核对该帧图像进行去模糊；如果得到多个模糊核，可以多个模糊核加权平均得到一个平均的模糊核，利用该模糊核对该帧图像进行去模糊。

考虑到视频帧的连续性，如果连续的几帧图像都需要去模糊处理，本实施例给出两种处理方式。一种是分别对每张图像进行上述去模糊操作；一种是挑选几帧不连续的图像来估计模糊核，即每两帧图像之间隔了几帧模糊图像，如果挑选出的最近得两帧估计得到的模糊核相似则可以认为这两帧之间的图像也是有相似的模糊核导致的，则可以使用同样的模糊核进行去模糊。如果两帧的模糊核相似性不高，则需挑选之间的帧中的一帧或者几帧重新计算模糊核进行去模糊。为了尽量减少计算时间，尽可能减少计算核的次数，可以采用二分的方法，但不限于该方法，选取关键帧来计算模糊核，如果二分区间两头的模糊核相似，则可以同时将区间中的视频帧用统一的模糊核进行去模糊，如果二分区间两头的模糊核不相似，则继续将区间进行二分，依此进行下去，直到对所有视频帧完成去模糊处理。

2)基于深度学习的方法

预处理方法跟第一种方法中采取一样的步骤，将关键帧图像与视频的尺度进行统一。利用立体匹配的方法对视频帧中的像素和关键帧图像的像素进行对齐。根据对齐结果，对关键帧图像和视频帧进行裁剪，得到一对具有相同尺寸，相同内容的图像对，一张从关键帧图像中裁剪得到的干净图像，另一张从视频帧图像中裁剪得到的噪声图像。基于多对图像，或者将多对图像中提取对应的像素块，可以得到很多对像素块。基于这些像素块对或者图像对，利用现有的基于深度学习的方法，训练得到一个具有去模糊功能的卷积网，对视频帧进行去模糊。该模型可以线下采集大量样本训练得到一个初始模型预装在终端设备中，然后再利用得到的图像对，对该模型进行修正，来对视频帧进行去模糊；也可以在线训练一个模型对视频帧进行去模糊。

步骤4：视频的存储。

在本实施例中终端设备生成四类数据：采集的原始视频信息、关键帧图像信息、去模糊增强模型和增强后的视频信息。针对不同的数据类型，存储方式包括而不限于以下四种。

步骤5，视频的播放。

实施例六：多模式联合的图像增强视频模式(联合增强模式)

本方法还包括：确定在分辨率增强模式、颜色增强模式、亮度增强模式、去噪增强模式及去模糊增强模式中的至少两种增强模式的联合增强模式，并确定与至少两种增强模式相应的模式增强顺序。

通过以下至少一项来确定联合增强模式及相应的模式增强顺序的方式包括以下至少一项：

系统默认设置；自适应模式设置方式；模式设置触发操作。

其中，自适应模式设置方式通过设备相关状态、模式设置历史记录信息、多媒体采集设备实时采集的相关内容及各个增强模式之间的影响关系中的一项或多项信息来确定；

其中，多媒体采集设备实时采集的相关内容包括场景亮度、语义内容中的至少一项。

模式设置触发操作通过与用户交互下的语音、按键、手势、通过外部控制器等来实现。

如前所述，图像增强视频模式包括分辨率、颜色、亮度、去噪和去模糊增强。本实施例用图像对视频的这五个模式进行联合增强，基本流程为：首先开启多模式联合的视频增强，其次设置主、辅摄像头分别采集图像信息和视频信息，并设置摄像头的采集参数、增强策略参数、选取关键帧图像信息和选取待增强的模式，同时根据增强策略参数、关键帧图像信息和增强模式对视频进行增强，最后将采集结果压缩、传输和播放。

步骤1：开启多模式联合的视频增强

在本实施例中，开启方式采用实施例一步骤1中类似的开启方式，区别在于开启功能的指令描述内容，例如，语音开启中的指令为“启动视频多模式联合增强”，按键开启的指令为按F1键，虚拟按键为多模式联合增强的按钮，手持开启指令为屏幕画圆等，在此不再赘述。

步骤2：使用双目摄像头中的一个摄像头拍摄图像，另一个摄像头拍摄视频。

该步骤包括设置主、辅摄像头，设置摄像头的采集参数和增强策略参数，选取关键帧图像信息，以及选取待增强的模式和模式增强顺序。

步骤2.1，设置主、辅摄像头。

在本实施例中，设置主、辅摄像头的方式可以采用实施例一步骤2.1中类似的主、辅摄像头设置方式，在此不再赘述。

步骤2.2，设置摄像头的采集参数和增强策略参数。

在本实施例中，摄像头的采集参数和增强策略参数的设置方式可以采用实施例一步骤2.2中类似的采集参数和增强策略参数的设置方式，在此不再赘述。

步骤2.3，选取关键帧图像信息。

在本实施例中，关键帧图像信息的选取方式可以采用实施例一步骤2.3 中类似的关键帧选取方式，在此不再赘述。

步骤2.4，选取联合增强的模式和模式增强顺序。

关于默认系统设置，终端设备默认设置增强某些模式和这些模式的增强顺序，例如启动时仅为开启颜色增强和亮度增强，并且先进行颜色增强，再进行亮度增强。

关于用户交互下的语音设置，例如，用户预先设定语音指令“多模式联合增强，开启视频颜色增强”，终端设备接受到该指令，则对声控指令进行语音识别，确定开启颜色增强功能，用户再发出语音指令“多模式联合增强，关闭视频颜色增强”，终端设备接受到该指令，则确定关闭视频颜色增强，其中，模式增强顺序跟语音指令的发出顺序一致。

关于用户交互下的按键设置，按键可以为硬件按键，例如F1表示开启/ 关闭颜色增强，F2表示开启/关闭亮度增强，F3表示开启/关闭分辨率增强， F4表示开启/关闭去模糊，F5表示开启/关闭去噪。按键也可以为虚拟按键，例如屏幕上的按钮、菜单，交互界面上的虚拟键盘等，系统检测到用户点击该虚拟按键的事件后，确认开启/关闭某一增强模式。用户按下还可以结合按的压力、速度、时间、频率等多种特征信息表示不同的含义，例如轻按代表关闭某一增强模式，重按代表开启某一增强模式。其中，模式增强顺序跟用户按键的点击顺序一致。

关于用户交互下的手势设置，系统预先设定某一手持来开启/关闭某一增强模式。手势包括屏幕手势，例如从左向右滑动屏幕表示开启/关闭颜色增强，从右向左滑动屏幕代表开启/关闭亮度增强。手势还包括隔空手势，包括摇晃 /翻转/倾斜终端，摇晃/翻转/倾斜时的不同方向，角度，速度，力度可以表示不同的含义，如上下摇晃、左右摇晃、空着画圆等，上述手势可以是单一的手势，例如左手横向滑动表示开启/关闭颜色增强，也可以是任意手势的任意组合，例如右手横向滑动并空着画圆表示开启/关闭分辨率增强。其中，视频模式增强顺序跟用户手势的控制顺序一致。

关于通过外部控制器的设置，外部控制器包括但不限于手写笔、遥控器、智能手表、智能眼镜、智能头戴式设备、智能衣服、或远程设备等，这些控制器通过Wifi和/或红外和/或蓝牙和/或网络跟终端设备通信，例如，遥控器上某些按键代表启动不同增强模式，终端设备检测到用户点击了按键，开启/ 关闭其增强模式。其中，视频模式增强顺序跟外部控制器的指令发出顺序一致。

关于根据实时采集内容的自适应模式联合增强，实时采集的内容包括场景亮度、运动物体、语义内容等。可以根据场景亮度来开启/关闭某些增强模式，例如检测到场景光线偏暗，则启动亮度、颜色、分辨率增强和去噪，当光线变亮，则关闭亮度、颜色、分辨率增强和去噪。可以根据运动物体来开启/关闭某些增强模式，例如检测到场景运动物体有/无模糊，则自动启动/关闭去模糊模式，检测到场景运动物体尺度小于一定阈值，例如运动物体长度小于图像长度的1/10，则自动启动分辨率增强模式。可以根据语义内容来开启/关闭某些增强模式，例如检测视频场景从室内切换到室外，则开启颜色增强以适应白平衡变化，例如检测到视频场景中有/无车辆、人体和文字，则开启/关闭分辨率增强模式。

关于根据实时采集的相关内容的自适应模式增强顺序设置，如果终端设备自适应选择了多个模式进行增强，需要对增强模式进行优先级排序，排序的原则是在该拍摄环境下，哪个模式更需要增强，即增强后对视频质量的提升影响最大。例如在夜间光照不够的情形下拍摄视频，不考虑运动因素，则亮度增强模式的优先级最高，去噪模式的优先级次之，接下来是颜色增强，然后是去模糊，最后是分辨率增强；又例如在运动的拍摄环境下，光照强度正常，则去模糊优先级最高，其他增强模式可以根据其他条件进行排序；又如在更复杂的拍照环境下，既存在光照不足问题，还存在终端设备的运动，用户可以对增强模式进行排序，也可以根据用户的历史数据对用户关注的模式进行排序，用户关注最多的模式排序越靠前。

关于根据设备相关状态的自适应设置，设备状态包括电量、内存等。可以根据五个增强模式的电量消耗进行模式设定和增强排序，假设排序结果为分辨率>去模糊>去噪>颜色增强>亮度增强，如果电量小于第一阈值，例如 50％，则不进行分辨率增强，如果电量小于第二阈值，例如40％，则不进行去模糊，如果电量小于第三阈值，例如30％，则不进行去噪，如果电量小于第四阈值，例如20％，则不进行颜色增强，如果电量小于第五阈值，例如10％，则不进行亮度增强。可以根据内存的自适应设置，例如根据五个增强模式的缓储空间进行模式设定和增强排序，假设排序结果为分辨率>去模糊>去噪> 颜色增强>亮度增强，如果内存小于第一阈值，例如500M，则不进行分辨率增强，如果内存小于第二阈值，例如400M，则不进行去模糊，如果内存小于第三阈值，例如300M，则不进行去噪，如果内存小于第四阈值，例如200M，则不进行颜色增强，如果内存小于第五阈值，例如100M，则不进行亮度增强。

关于根据模式设置历史记录信息的自适应设置，记录所有增强模式被用户选择的次数，按照该次数进行优先级排序，例如，排序结果为分辨率>去模糊>去噪>颜色增强>亮度增强，当下次启动时，优先进行分辨率增强，再进行去噪、去模糊、颜色增强和亮度增强。或者根据上一次拍摄时的增强模式来确定本次拍摄需要增强的模式。

此外，五个增强模式之间存在影响关系，如表1所示。在表1中，“X” 代表模式之间不相干，“O”代表模式A的增强会影响模式B的效果。考虑到模式之间的相关性，如果增强某一个模式，相关模式可以选择性的不进行增强或者进行增强，例如如果增强分辨率，则视频帧相比较清晰，可以不去模糊，如果夜景下亮度增强后，则噪声也会相应变得明显，则需要去噪。

表1.增强模式之间的影响关系

步骤3，对视频信息进行多模式联合增强。

在步骤2.4确定增强的模式后，该步骤对增强模式进行一一增强，在此考虑模式增强的顺序，即对步骤2.4中选择出的模式确定增强顺序。然后以增强顺序根据之前实施例一至五中的增强方法对选择的增强模式一一进行处理即可。

步骤4，视频的存储。

在本实施例中，如果增强模式包括分辨率增强，则视频存储方式可以采用实施例一中步骤4中相同的视频存储方式，在此不再赘述。存储方式的设置方法也与实施例一中步骤5中的设置方法相同，在此不再赘述。视频的存储方式可以采用实施例二中步骤4中相同的视频存储方式，在此不再赘述。存储方式的设置方法也与实施例二中步骤5中的设置方法相同，在此不再赘述。

步骤5，视频的播放。

在本实施例中，播放方式和存储方式对应，如果增强模式包括分辨率增强，则视频的播放方式采用实施例一步骤5中相同的视频播放方式，在此不再赘述。如果增强模式不包括分辨率增强，则视频播放方式采用实施例二步骤5中相同的视频播放的方式，在此不再赘述。

下面以一个具体实施例详细介绍视频联合增强模式，该模式包括开启步骤，模式增强步骤，参数设置步骤，存储步骤，播放步骤。图4中14个子步骤涵盖了这五个步骤。

步骤1)：开始终端设备的照相机，进入拍照界面，通过语音控制，用户说“开启视频增强”，终端设备接收到“开启视频增强”，终端设备进入视频增强模式。

步骤2)：视频增强模式开启后，拍照界面上面出现红色字体的“视频增强模式”，下面出现“视频增强”按钮，用户单击该按钮，进入增强模式选择界面。

步骤3)：进入模式选择界面，“视频增强”字样变成黄色字体，出现六个选项，分别对应“亮度”，“颜色”，“去噪”，“去模糊”，“分辨率”，“自动”。前五个选项分别对应不同的增强模式，用户可以通过勾选一个或者任意多个来进行模式增强，也可以选择最后一个“自动”让终端设备根据拍照环境等其他因素自适应的选择需要增强的模式。勾选完成后，再次单击“增强模式” 按钮，进入摄像头设置界面。

步骤4)：拍照界面显示两个摄像头的采集画面，用户可以通过切换摄像头查看拍照场景，用户可自由设定哪个摄像头为主摄像头拍摄原始视频，另外一个摄像头为辅摄像头拍摄关键帧照片。

步骤5)：选定摄像头后，点击设置按钮，可以摄像头进行采集参数设置，切换摄像头，可以完成对两个摄像头采集参数的设置。采集参数包括但不限于曝光时间，感光度。完成采集参数设置后，单击“录像”按钮，进入下一个步骤。

步骤6)：进入录像界面，开始录像，主摄像头拍摄视频，辅摄像头开始拍摄关键帧照片。在录像界面，完成拍摄后，用户按下“停止”按钮结束拍摄，通过不同的交互方式可以进行不同的存储播放模式。单击“停止”按钮跳转到图中步骤7，直接存储增强后的视频；长按“停止”按钮，跳转到步骤10，存储原始视频信息和关键帧图像信息。

步骤7)：视频进行增强处理，界面右下角图像框中显示原始视频信息，并显示缓冲标志，提示用户视频增强的进度，增强完成，缓冲图标消失，图像框中显示增强后的视频信息。完成存储后进入正常拍摄界面。

步骤8)：拍摄的视频增强完成，且存储在终端设备中，在进行下次拍摄前，右下角图像框显示最近时间内拍摄的视频，可以点击该图像框对增强后的视频信息进行查看。

步骤9)：进入视频播放界面，点击播放按钮即进行视频播放。

步骤10)：直接存储原始视频信息和关键帧图像信息，右下角图像框中显示原始视频信息。后台会根据处理器使用情况来对视频增强进行选择性处理，如果处理器有空闲则对视频进行增强处理。单击右下角图像框查看视频。终端设备接到单击指令后，首先判断视频增强是否完成，如果后台完成了增强步骤，则跳转到步骤11)，如果后台未完成增强步骤，则跳转到步骤12)。

步骤11)：视频增强已经完成，显示增强后的视频播放界面，单击播放按钮即可播放视频。

步骤12)：视频增强未完成，终端设备继续对视频进行增强，背景图像可以显示原始视频信息，同时出现缓冲标志提示增强进度。增强完成后，缓冲图标自动消失，跳转到步骤13)。

步骤13)：显示增强后的视频播放界面，单击播放按钮进入步骤14)。

步骤14)：播放视频。

实施例七：手持终端中的多模式联合的图像增强视频模式

下面以一个具体实施例详述手持智能终端中视频联合增强模式的执行流程。

步骤1)：用户拿起手持智能终端，发出语音指令“开启视频增强”，手持智能终端启动两个摄像头，默认某一侧摄像头A采集图像，另一侧摄像头 B采集视频，如图5所示。

步骤2)：如图6(a)所示，通过预览当前拍摄场景，手持智能终端检测到场景为白天，设置白平衡为日光，检测到场景亮度偏高，自适应设置图像曝光度偏低，手持智能终端默认设置视频采集频率为30fps，尺寸为640*480，图像尺寸为1920*1080，关键帧采集频率设为1次/分钟。

步骤3)：根据用户在视频增强主屏幕下的操作，手持智能终端响应于以下事件，包括：打开设置功能，然后在触摸屏上选取白平衡设置，如图6(b) 所示，用滑动条滚动调整了白平衡，并调整曝光量，更改视频采集频率为 25fps，关键帧采集频率为2次/分钟。

步骤4)：根据用户点击交互面板上的Capture图标的操作，如图6(c)所示，智能终端启动视频采集，并且默认开始时的模式组合为亮度增强和颜色增强。

步骤5)：当场景中有一个快速移动的小孩，视频帧出现了模糊，智能终端自适应地启动了去模糊模式，并将关键帧采集频率提升为4次/分钟。

步骤6)：随着小孩移动出画面和视频帧模糊消失，智能终端自适应地关闭了去模糊模式，并将关键帧采集频率恢复为2次/分钟。

步骤7)：此时，由于室外日光越来越亮手持智能终端检测到亮度增强，从而自适应地减低了曝光量。

步骤8)：当用户进入室内光线也随之变暗，手持智能终端检测亮度减弱，从而自适应地提高了曝光量。

步骤9)：用户发出语音指令“启动高动态范围图像”，手持智能终端将普通亮度采集切换为高动态范围采集。

步骤10)：虽然光线再次变弱，视频中出现大量噪声，手持智能终端检测到噪声增强自适应地启动了去噪模式。

步骤11)：这时，电量低于30％，手持智能终端自适应地关闭高动态范围拍摄，当电量低于10％，手持智能终端又关闭了颜色增强模式，当电量低于5％，系统将关闭所有增强模式。

步骤12)：用户发出语音指令“关闭视频增强”，手持智能终端识别出声控指令关闭了视频增强，并压缩存储增强后的视频；

步骤13)：此后，用户每次打开该增强视频，手持智能终端都识别并进行该视频的播放观看。

实施例八：监控终端中的多模式联合的图像增强视频模式

在室外环境下，目前的监控设备往往具有采集分辨率低、采集亮度差，对光线敏感，阴雨天噪声大等缺点。本实施例给出一种将单目监控摄像头替换为双目监控摄像头的方案，并在后台进行视频质量增强处理，提高分辨率、颜色、亮度和去噪去模糊。

在高速公路上搭建了一个双摄像头监控的智能终端设备，如图7(a)所示，对过往车辆进行拍摄监控，其中一路摄像头采集视频，视频尺寸固定为 480*320，另一路摄像头采集图像，图像尺寸固定为1920*1080，通过网络将两路数据传输到监控后端。监控后端有一台处理器、一个显示屏和一套控制面板，如图6(b)所示，其中后台处理器对两路数据进行实时处理，显示屏幕上展示当前监控视频、已采集关键帧和虚拟控制面板，硬件控制面板包括鼠标和键盘等装置，对参数、增强模式组合、关键帧选取进行设置。下面以一个实施例介绍监控情况下视频质量增强方法。

首先，操作员通过按键F1启动“视频增强”，根据场景情况执行以下步骤：

步骤1)，默认关键帧采集模式为系统自适应调整，如果操作员不进行设置，则跳转到步骤2)，否则，操作员通过虚拟控制面板设置关键帧采集模式是N帧/秒；

步骤2)，默认模式组合为分辨率增强和去模糊增强，如果操作员不进行设置，则跳转到步骤3)，否则，操作员通过虚拟控制面板选取和组合五个增强模式。

步骤3)，显示屏幕上实时显示原始采集视频、增强视频以及一组最近采集的关键帧。显示效果有三个：如图7(c)所示的原始视频，如图7(d)所示的颜色增强和去噪增强，如图7(e)所示的亮度增强。操作员通过菜单可以选取任意一种展示方式。

步骤4)，当监控终端发现场景有一个超速车辆，可以自适应提高关键帧采集率获取更多高清晰图像，可以调节图像曝光量增减场景亮度，可以设置对焦区域为车辆车牌，可以选取白平衡来调整色差。

步骤5)，当拍摄场景为夜色、阴雨天，监控终端根据时间和亮度自适应启动去噪和亮度增强模式。

步骤6)，每隔6个小时，监控终端将前6个小时采集的视频、关键帧、模式增强组合方式、和设置参数压缩存储到数据库中。

步骤7)，为了调用观看之前存储的数据，用户通过数据库查询到某段数据，智能终端在显示屏幕上展示增强前后的视频和关键帧。

实施例九、增强处理模式为视频增强图像模式中的去模糊增强模式

当第一类多媒体信息为视频信息，第二类多媒体信息为图像信息时，获取一个多媒体采集设备采集的图像信息，以及另一多媒体采集设备依据设置的视频帧采集频率采集的与图像信息相对应的视频片段；

优选地，还包括：当检测到采集图像信息的多媒体采集设备进入预览状态时，或当检测到采集图像信息多媒体采集设备开始采集图像信息时，另一多媒体采集设备依据设置的视频帧采集频率采集的与图像信息相对应的视频片段；

其中，根据采集的视频片段对采集的图像信息对应的需要增强的指标进行增强处理，具体包括：

在采集的视频片段中确定视频关键帧；

优选地，通过自适应关键帧确定方式来确定视频关键帧；

优选地，还包括：对采集到的图像信息进行清晰度分析；若图像信息属于模糊图像，则根据采集到的视频片段对采集到的图像信息对应的需要增强的指标进行增强处理；其中，需要增强的指标包括于模糊。

当第一类多媒体信息为视频信息，第二类多媒体信息为图像信息时，根据采集的视频信息对采集的图像信息进行存储处理，其中，存储内容包括以下至少一种情形：

采集到的视频信息和图像信息；

可选地，响应于接收到的显示触发操作，基于与存储内容相匹配的显示方式对图像信息进行显示；其中，显示方式包括以下至少一项：

本实施例是通过双目摄像头中的一个摄像头采集图像，另一个摄像头采集视频，得到高质量图像。为了拍一张高亮度清晰的图像，用户往往会采用长曝光拍照，在没有三脚架固定的情况下，手持智能终端容易产生抖动，拍摄画面会出现模糊。在拍照的同时启动另一个摄像头拍摄一小段视频，视频每帧曝光时间短，边缘和纹理信息保持较好，而且相比于图像，视频是动态的，可以利用视频的这一特性来对静态图像进行增强。通过视频帧和照片可以估计出运动模糊核，进而对图像进行去模糊，得到一张高亮度清晰的图像。主要步骤如下。

步骤1：开启视频增强图像模式中的去模糊增强模式。

在用户开启图像去模糊增强模式中使用不同的指令描述，例如，语音开启中的指令为“启动图像去模糊”，按键开启的指令为长按Home键，虚拟按键中图像去模糊的按钮，手持开启指令为摇晃终端等，在此不再赘述。

在终端设备根据拍摄环境和采集参数自适应开启图像去模糊模式中给出三种方法，一种方法是智能终端利用现有方法对终端设备运动趋势进行检测，如果拍摄终端设备处于运动状态，如手持终端设备的手的抖动引起的手持终端设备产生抖动，则开启图像去模糊增强模式；第二种方法是终端设备对拍摄参数进行检测，如果图像采集的曝光时间高于某一阈值，例如高于300ms，则开启图像去模糊增强模式；第三种可以是前两种方法的组合，两个条件同时满足则开启图像去模糊增强模式，即拍摄终端处于运动状态，且曝光时间高于某一阈值则开启图像去模糊增强模式。

在终端设备根据实时采集的相关内容自适应开启图像去模糊模式中计算拍摄图像的模糊度指标，低于某一阈值则开启图像去模糊模式，用于后续图像的拍摄。

该步骤主要包括采集参数及增强策略参数的设置，主、辅摄像头的设置，采集图像和视频的参数设置，以及视频关键帧的选取。

步骤2.1，设置主、辅摄像头。

在本实施例中，设置主、辅摄像头的方式可以采用实施例一步骤2.1中类似的设置主、辅摄像头的方式，在此不再赘述。在本实施中主摄像头负责拍摄图像，辅摄像头负责拍摄视频。

步骤2.2，设置摄像头的采集参数和增强策略参数

本实施例中参数是双目摄像头采集图像和视频片段需要设置的参数，除了实施列一中提到的摄像头的采集参数，增加了视频帧采集频率，即每秒采集的视频帧数，以及图像去模糊算法中的参数等。

设置摄像头的采集参数和增强策略参数可以采用实施例一类似的设置方式，不同的是增加了对视频帧采集频率的设置以及针对图像去模糊进行的自适应参数调整，下面分别对新增加的设置方法进行介绍。

关于终端设备的系统默认设置，将视频帧采集频率设置为某一默认值，在接收到修改视频帧采集频率指令之前视频帧采集频率设置为默认值，其他方式相同，在此不再赘述。

关于用户交互设置，对于视频帧采集频率，用户可以通过语音，滑动条，按键，文本输入等方式来设置视频片段帧数。采集参数受到终端设备自身取值范围的限制，用户手动设置也需要在一定范围内选择，否则接收到终端设备发出的警告，具体内容在此不再赘述。

关于根据环境的自适应设置，例如，终端设备检测到拍摄终端处于运动状态，则增加辅摄像头采集的视频帧采集频率。

关于根据电量的自适应设置，例如由电量控制视频帧采集频率，电量小于某一阈值，例如，小于50％，则减少每秒采集的视频帧的帧数，小于5％则固定帧数为最小值。关于根据存储空间的自适应设置。根据存储空间，可以调整视频帧采集频率，如果剩余存储空间大于某一阈值，例如，大于终端设备总存储空间的50％或者大于500M，则自动调整为高的视频帧采集频率，例如一秒30帧，反之，则调整为低的视频帧采集频率，例如一秒25帧。根据存储空间，可以调整视频帧采集频率的多少，如果剩余存储空间大于某一阈值，例如，大于终端设备总存储空间的30％或者大于300M，则增加辅摄像头采集的视频帧采集频率，反之则减少辅摄像采集的视频帧采集频率。

关于根据历史数据的自适应设置，例如根据用户喜好设置视频帧采集频率，可以采用但不限于下面这种方法：统计最近N次图像去模糊中设置视频的视频帧采集频率，终端设备推荐设置视频帧采集频率为之前设置过的采集频率的均值。

关于根据采集到的相关内容来自适应的设置采集参数，在本实施例中是利用双目摄像头中一个采集图像，一个采集视频，对图像进行去模糊。在此主要是对视频和图像采集的分辨率，曝光时间，感光度进行设置，出于节能以及算法设计两方面的考虑，辅助摄像头采集视频的分辨率应与图像的分辨率设置保持一致，如果视频的最高分辨率比当前图像的分辨率低，则采用视频的最高分辨率进行采集。如果拍照环境亮度正常，或者高于某一阈值，则缩短图像和视频曝光时间，适当提高感光度，降低出现画面模糊的概率；如果传感器检测到终端设备存在抖动或者其他运动趋势，则适当减少曝光时间，避免图像和视频出现模糊，影响图像最终的效果。

步骤2.3，视频片段的采集

该步骤介绍辅助摄像头何时开始进行视频拍摄，可以采用但不限于以下两种方式中的一种：一种是在图像拍摄前，即浏览界面时进行拍摄；一种是照片开始拍摄时同时启动视频拍摄。

在浏览界面进行拍摄时，为了节省视频存储空间以及保证视频画面与照片内容的强相关性，浏览界面拍摄的视频只保留部分帧，该部分视频的帧数可以用户通过语音，滑动条，文本输入等方式进行设置，也可以根据总的视频帧数来自适应的调节该部分视频的帧数，例如，设置为总帧数的10％。总的视频帧数多，则该部分可以保存的视频帧数就多，反之则变少。设置一个缓冲序列来存储这部分视频帧，将该序列存储的最大帧数设置为终端设备设置的视频片段的帧数，当该序列存满时，来了新的视频帧，则去除序列中的最早拍摄的视频帧，如果视频序列中的视频帧是按照拍摄时间存储的，则去除第一帧，留出空间存储新的视频帧，按照此方法依此进行视频序列的更新，只保留最新的视频片段。拍照开始时继续拍摄视频，可以根据以下两种判断条件停止视频拍摄，一是拍摄的帧数与之前帧数之和达到视频总帧数上限时停止视频拍摄；二是在拍照完成时，视频帧数未到达帧数上限也停止拍摄，存储得到的总的视频帧数即可。

在拍照启动时，同时启动视频拍摄，视频帧数达到终端设备设置的视频帧数时停止视频拍摄，如在拍照完成时，视频帧数未达到终端设备设置的视频帧数也停止拍摄，存储得到的视频片段即可。

步骤3：使用视频去除图像的模糊；

得到图像和视频片段后，终端设备对图像画面清晰度进行分析，可以通过照片拍摄期间，终端传感器获得的参数，或者视频片段是否存在运动目标，或者文献中的已有的分类器对图像进行分类。如果画面属于清晰图像，则不进行去模糊处理，否则继续下面的去模糊处理。

为了节省处理时间，可以选择视频片段中的几帧对图像进行去模糊，即确定视频关键帧。视频关键帧帧数可以根据画面模糊程度进行自适应调整，也可以设置为一个固定值或者一个固定的比例，例如，设置为总的帧数的五分之一等。视频关键帧的选择可以通过内容相似度，选择最相似的几帧；也可以通过视频帧质量，选择质量排在前的几帧；也可以使用组合的指标来选择视频帧，例如对视频质量进行排序，然后根据模糊程度设置关键帧帧数。

得到视频关键帧之后，首先将视频关键帧与图像的尺度进行统一，将视频关键帧进行放缩或者图像进行放缩，或者同时对视频关键帧和图像进行放缩，使得图像和视频帧具有相同的尺寸。利用立体匹配的方法计算关键帧与图像的视差，对视频帧和图像进行对齐，找到视频帧与图像的对应区域，将每帧视频，即非模糊图像，与模糊图像的对应区域建立一个模糊图像到清晰图像的对应关系，基于每对对应区域，可以利用文献中已有的模糊核估计方法求解多个模糊核。将求解得到的所有模糊核进行加权平均得到一个最终的模糊核，在此每个核的权重可以平均分配；也可以根据内容相似度进行分配，相似度高的权重高，相似度小的，权重小；也可以根据视频帧的质量进行权重分配，质量越高权重越高。最后，利用上述模糊核对拍摄图像进行去模糊。也可以采用深度学习方法利用这些图像对学习一个去模糊模型，对图像进行去模糊。

除了利用图像与视频帧的内容关系计算模糊核之外，也可以利用现在算法基于连续的视频帧来估计运动目标或者终端设备自身的运动轨迹，来对模糊核进行修正，提高模糊核的精度，达到更好的去模糊效果。

步骤4：图像的存储；

在本实施例中终端设备生成四类数据：原始图像信息、视频片段，去模糊模型和去模糊后的高质量图像。其存储方式包括而不限于以下五种中的一种。

第一种是直接将增强后的图像存储，不保存视频片段，即在存储前完成增强处理，在存储时，照片框中显示原始图像，上面显示缓冲图标，表示正在进行增强处理，缓冲完成后，完成存储；

第二种是存储原始图像以及学习到的去模糊模型；

第三种是存储原始图像以及选择的视频关键帧，即用于学习去模糊模型的视频帧，这种方式降低了存储前图像的处理时间，只需找出视频关键帧，计算去模糊模型可以在存储完成后，终端设备自动根据终端处理器的忙闲来自己安排处理时间，计算完去模糊模型或者直接将图像去模糊后，即可以删除存储的视频关键帧；

第四种是直接存储原始图像以及保存的视频片段，所以增强步骤都是终端设备在存储之后执行；

第五种是在存储增强图像的同时也将视频关键帧保存，增强图像的得到方式可以是前四种存储方式的任意一种得到，保存的关键帧序列播放可以看到一张动态图的效果。

针对如何设置存储方式，本发明给出三种设置方式，终端设备可以根据以下三种中的一种来对存储方式进行选择。第一种是终端设备默认设置；第二种是终端设备接收用户通过语音、按键或外部控制器等方式以及这些方式的组合来更改存储方式；第三种是终端设备通过存储空间、电量或历史数据自适应设置存储方式。

关于系统默认设置，终端设备设置五种存储方式中的一种作为默认值，在终端设备没有接受到更改存储方式的指令前都使用该默认存储方式对视频和图像进行存储。

关于用户交互下的语音设置，例如用户预先设定语音指令“储存增强后的图像”，如果接受到该指令，则对声控指令进行语音识别，确定设置存储方式为第一种存储方式，即存储增强后的图像。其他用户交互方法与实施一中步骤4中采用相同的设置方法，在此不再赘述。

关于根据存储空间的自适应设置，根据存储空间，可以选择不同的存储方式，如果剩余存储空间小于某一阈值，例如低于终端设备存储空间的10％，则设置为第一种存储方式；如果剩余存储空间小于某一阈值，例如低于终端设备存储空间的40％，则可以设置为前三种和第五种中的一种；如果剩余存储空间高于某一阈值，例如高于终端设备存储空间的50％，则存储方式不受存储空间影响。

关于根据电量的自适应设置，可以根据电量控制存储方式，当电量小于第一预定电量时，例如低于50％时，则选择耗电量小的存储方式，即第二或者第三种存储方式，即直接存储原始图像和视频关键帧或者学习模型，不对图像进行增强处理；当电量小于第二预定电量时，第二预定电量小于第一预定电量，例如低于15％时，则选择耗电量最小的第四种存储方式，即原始图像和视频片段；如果电量高于某一阈值，例如高于50％，则存储方式不受电量影响。

关于根据存储方式历史记录数据的自适应设置，例如根据用户以往设置的存储方式，来对用户喜好进行分析，设置为用户偏好的存储方式。

步骤5，图像的显示

终端设备根据检测到的来自用户的显示操作操作，对存储的图像进行显示。

在显示存储的图像时，对应不同的存储方式，有不同的显示方式，本发明给出五种显示模式。终端设备可以选择但不限于以下五种显示方式中一种。

第一种：针对第一种存储方式，终端设备检测到用户的打开操作，直接显示去模糊后的图像。检测到用户点击查看的操作，例如，检测到用户点击查看按钮的操作，即可马上进行图像显示，这样，用户直接可以查看去模糊后的效果。

第二种：针对第二种存储方式，终端设备检测到用户的打开操作，打开原始图像和去模糊模型的组合。检测到用户点击查看的操作，例如，检测到用户点击查看按钮的操作，终端设备开始基于去模糊模型对图像进行去模糊处理。在允许的缓冲时间内完成操作，然后显示增强后的图像。

第三种：针对第三种和第四种存储方式，终端设备检测到用户的打开操作，例如，检测到用户点击查看按钮的操作，如果终端设备已经完成了去模糊处理，则可以直接显示图像查看增强后的效果。如果终端设备在后台只是做了部分工作，没有完成去模糊步骤，则接收到用户点击查看操作后需要时间缓冲来进行图像去模糊处理，完成处理后开始显示图像，用户可以看到去模糊后的图像。

第四种：针对第五种存储方式，终端设备检测到用户的打开操作，打开去模糊后的图像和视频关键帧的组合。去模糊后的图像的显示方法和第一种显示方法相同，不同的是多了动态图的显示。关键帧序列播放可以呈现一张动态图的效果，可以通过长按照片查看与该图像关联的动态图，但不限于长按这种控制方式，语音，手势等设置都可以来显示动态图。

下面以一个具体实施列详述图像去模糊增强模式。

1)开启交互步骤如图8所示：

步骤1)：开启终端设备的照相机，进入拍照界面，通过长按屏幕开启视频增强图像模式。

步骤2)：视频增强图像模式开启后，拍照界面显示两个摄像头的采集画面，用户可以通过切换摄像头查看拍照场景来自由设定哪个摄像头为主摄像头拍摄照片，另外一个摄像头为辅摄像头拍摄视频。

步骤3)：选定摄像头后，可以分别对两个摄像头进行采集参数设置，为了拍摄高亮度图像，可以提高曝光时间，降低感光度，提高画面质量。完成参数设置后进入下一个步骤。

步骤4)：结束交互参数设置，进入拍照界面，画面显示的是主摄像头视域内的画面。

2)模式增强，存储和播放步骤如下：

步骤1)：在拍照界面，用户看到有兴趣的画面时，按下拍照按钮进行拍照，通过不同的操作方式可以进行不同的存储播放模式。单击跳转到图9中步骤2)，直接存储增强后的照片；长按跳转到步骤5)，存储原始图像和视频片段；

步骤2)：对图像进行增强处理，左上角图像框中显示原始图像，并显示缓冲标志，提示用户图像增强的进度，增强完成，缓冲图标消失，图像框中显示增强后的图像。

步骤3)：拍摄的照片增强完成，且存储在终端设备中，在拍摄下一张之前，左上角图像框显示最近时间内拍摄的照片，可以点击该图像框对增强后的图像进行查看。

步骤4)：点击图像框后，显示增强后的图像。

步骤5)：直接存储原始图像和视频片段，左上角图像框中显示原始图像。后台会根据处理器使用情况来对图像增强进行选择性处理，如果处理器有处理能力则对图像进行增强处理。单击左上角图像框查看图像。终端设备接到单击指令后，首先判断图像增强是否完成，如果后台完成了增强步骤，则跳转到步骤6)，如果后台未完成增强步骤，则跳转到步骤7)。

步骤6)：图像增强已经完成，显示增强后的图像。

步骤7)：图像增强未完成，终端设备继续对图像进行增强，背景图像可以显示原始图像，同时出现缓冲标志提示增强进度。增强完成后，缓冲图标自动消失，跳转到步骤8)。

步骤8)：显示增强后的图像。

实施例十、多焦点区域联合播放模式

本实施例的目的是帮助用户拍摄具有多个焦点的视频。多个焦点的视频可以是全局区域与用户感兴趣的某个局部区域，也可以是两个感兴趣的局部区域。例如，在拍摄家人或者朋友进行舞蹈演出时，希望既可以对全局景象进行拍摄，又希望对自己的家人或者朋友进行特写拍摄，或者希望同时对多个朋友进行特写拍摄，目前的视频拍摄方式不仅需要用户频繁地进行手动放大及缩小的操作过程，这样极易造成拍摄的视频出现模糊或者抖动，而且在同一时间也仅能看到全局或者看到某个放大的局部区域，无法同时拍摄全局图像和清晰的某个局部图像，或者无法同时拍摄多个感兴趣的局部。本发明中，利用两个摄像头分别设置不同的对焦区域，其中一个摄像头对焦全局，另一个摄像头对焦局部感兴趣区域或者一个摄像头对焦某个局部感兴趣区域，另一个摄像头对焦另一个局部感兴趣区域，然后两个摄像头同时进行拍摄，得到一个兼具全局和局部感兴趣区域的多焦点视频，或者两个清晰的局部区域视频。

需要说明的是，下述实施例的详述中，将根据第一类多媒体信息对第二类多媒体信息进行相应处理的方式，具体为采集到的对焦于一个焦点区域的视频信息对采集到的对焦于另一个焦点区域的视频信息进行联合播放处理的多焦点区域联合播放模式。

在本实施例中，第一类多媒体信息与第二类多媒体信息为对焦于不同焦点区域的视频信息；其中，焦点区域包括全局区域和/或局部区域。

具体地，根据采集到的对焦于一个焦点区域的视频信息，对采集到的对焦于另一个焦点区域的视频信息进行联合播放处理。

其中，通过以下至少一种方式来确定焦点区域：

其中，全局区域和/或局部区域可通过分屏的布局方式进行联合播放。

(1)开启多焦点区域联合播放模式

包括两种方式，一种是用户主动开启多焦点视频，另一种是终端设备根据拍摄的视频内容，提示用户是否需要开启多焦点视频拍摄。与前文所述类似，用户可以通过语音，按键，手势，生物特征，外部控制器等以及这些交互方式的任意组合方式启动多焦点视频拍摄模式。

关于使用语音开启，例如用户可以预先设定语音开启指令：“开启多焦点视频拍摄”，如果终端设备接收到用户发出的声控指令“开启多焦点视频拍摄”，则对该声控指令进行内容识别，从而确定此时需要开启多焦点视频拍摄。

关于按键开启，按键可以为硬件按键，例如音量键或Home键，用户通过长按音量键或Home键开启多焦点拍摄模式，终端接收到用户的上述长按操作事件后，确认此时需要切换至多焦点视频拍摄模式。按键也可以为虚拟按键，例如屏幕上的虚拟控件按钮，菜单等，终端可以在视频拍摄的预览界面显示多焦点拍摄虚拟按键，接收到用户点击该虚拟按键的事件后，确认此时需要切换至多焦点视频拍摄界面。通过按键开启时，还可以结合用户按的压力、速度、时间、频率等多种特征信息表示不同的含义，如轻按表示更换对焦点目标人物，重按表示修改对焦人物放大倍数，又如长按表示开启多个对焦点目标人物拍摄模式等等。

关于通过手势开启，手势包括屏幕手势，例如双击屏幕/长按屏幕等，通过屏幕手势开启时可以结合用户手势的压力、速度、时间、频率的不同表示不同含义，如轻按表示更换对焦点目标人物，重按表示修改对焦人物放大倍数，又如长按表示开启多个对焦点目标人物拍摄模式等等。手势还包括隔空手势，如摇晃终端/翻转终端/倾斜终端，摇晃/翻转/倾斜时的不同方向，角度，速度，力度可以表示不同的含义，如上下摇晃表示更换对焦点目标人物，左右摇晃表示更改拍摄时参数，又如向左倾斜表示切换展示方式，向右倾斜表示切换存储方式。上述手势可以是单一的手势，也可以是任意手势的任意组合。如长按屏幕并摇晃终端表示开启多焦点视频拍摄并可以实时更换对焦点目标人物进行拍摄。

关于通过生物特征开启，包括但不限于手写特征、指纹特征、声纹特征。例如，终端在视频拍摄预览界面时，若指纹检测器或者声纹检测器检测到的指纹或者声纹与预先注册的用户一致，则此时需要切换至提示开启多焦点视频拍摄模式。

关于通过外部控制器开启，外部控制器可以是与终端设备相关联的手写笔，话筒等设备，例如，终端设备检测到手写笔被取出又被快速插回终端，或者手写笔的预设按键被按下，或者用户使用手写笔做出预设的空中手势，则确认此时需要切换至多焦点视频拍摄模式；外部控制器可以是智能手表，智能眼镜等，其他设备可以为手机或其他配件或附件或独立的设备，上述可穿戴设备可以通过wifi和/或NFC和/或蓝牙和/或数据网络访问终端设备，上述可穿戴设备或其他设备通过按键，手势，生物特征中的至少一种交互方式确认用户想要切换至多焦点视频拍摄模式，并通知上述终端设备。

(2)确定多焦点区域

当终端设备开启多焦点视频拍摄模式后，在拍摄预览界面，用户可以手动指定多个区域，如果用户仅指定了一个区域，则此时的多焦点区域为拍摄预览界面捕获到的整个图像和指定的这个区域。

如果用户指定了两个以上区域，此时的多焦点区域视频在拍摄时，会交替对准某个指定的区域，从而得到用户指定的多个感兴趣区域组成的视频。

除了上述用户手动指定的方式外，终端设备可以根据当前拍摄场景中的对象(如人物)自动确定多焦点区域。例如，检测场景中人物数量，将人物数量最多的区域作为一个感兴趣区域，整个场景作为全局区域。

也可以由用户选定焦点对象。将用户选定的焦点对象所在区域确认为焦点区域。当用户开启多焦点视频拍摄模式时，关于对焦点人物的选择可以有多种方式。例如，当进入多焦点视频拍摄的预览模式时，自动进行全局区域内的人脸检测，用户通过单击或者拖动检测到的人脸区域的方式确定拍摄的对焦点区域。在进入拍摄模式时，运用人脸跟踪及识别技术，可以实时跟踪到用户感兴趣的对焦人物，使用双目摄像头的其中之一拍摄全局区域视频，另一个摄像头拍摄跟踪到的用户感兴趣的对焦人物视频。当用户希望更换感兴趣的目标人物时，可以通过双击屏幕，此时即可启动全局区域视频中的人脸检测，用户可以选择检测到的人脸中的某个人物，或者手动指定感兴趣的区域。同时也可以动态地对感兴趣区域的包围框进行修正。例如将人脸区域扩大为脸部及肩部区域，或者人物的上半身区域，或者人物的整个身体区域。

(3)用户交互方式

根据用户拍摄多焦点视频时，手持终端设备的横屏或者竖屏状态提供不同的交互方式。通过重力传感器检测到终端设备如果处于横屏状态拍摄视频时，使用如图10所示的左右屏显示的视频布局方式。左侧为“全局区域视频”，右侧为“局部对焦感兴趣目标人物视频”，或者左侧为“局部对焦感兴趣目标人物视频”，右侧为“全局区域视频”均可。同时根据对焦点人物的数量不同，左侧或者右侧的“局部对焦感兴趣目标人物视频”区域可以显示多个目标人物。如果检测到当前终端设备处于竖屏状态拍摄视频时，使用如图11所示的上下屏显示的视频布局方式。上方为“全局区域视频”，下方为“局部对焦感兴趣目标人物视频”，或者上方为“局部对焦感兴趣目标人物视频”，下方为 “全局区域视频”均可。同时根据对焦点人物的数量不同，上方或者下方的 “局部对焦感兴趣目标人物视频”区域可以显示多个目标人物。当用户更希望关注全局区域，并且希望将自己感兴趣的目标人物存储下来用于后续播放时，可以选择如图12所示的大小屏播放模式。全局视频几乎占据整个屏幕，局部对焦的感兴趣目标人物视频处于屏幕中的一小块位置，可以是右下角、左下角、右上角或左上角。或者可以由用户指定摆放的位置。

(4)多焦点视频存储

1)采集到的对焦于不同焦点区域的两个视频信息；

2)根据采集到的对焦于一个焦点区域的视频信息，对采集到的对焦于另一个焦点区域的视频信息进行合成处理后的合成视频信息；

3)确定出的对焦于不同焦点区域的两个视频信息中的感兴趣视频内容；

4)采集到的对焦于全局区域的视频信息以及该全局区域的视频信息中局部区域的位置信息。

基于多焦点拍摄方式，本实施列给出以下四种存储方式：

方式一：将两个摄像头拍摄的多焦点视频分别存储下来，得到两个视频文件。如果两个摄像头一个是全局对焦，一个是局部对焦，则存储得到的两个视频中一个对应全局对焦视频，一个对应局部对焦视频；如果两个摄像头都是局部对焦，则两个视频分别对应两个摄像头得到的局部对焦视频。

方式二：该存储方式提供了一种可见即可得的视频合成存储方法，存储内容与终端设备显示屏幕呈现的画面相同，视频中的每帧画面都同时将两个摄像头的拍摄画面同时呈现，例如，图10-12中给出的三种屏幕呈现方式，对于图12所示的大小屏方式，存储得到的视频中每帧都是一个大小屏的画面，该画面内容与对应时刻屏幕中呈现的内容，画面中大屏和小屏分别对应两个摄像头拍摄的内容。

方式三：该存储方式提供了一种用户兴趣驱动的视频合并存储方法，该方式针对屏幕划分为主屏幕和副屏幕的呈现方式，如图3所示的大小屏，大屏为主屏幕，主屏幕中显示的内容表示用户当前感兴趣的视域，存储的最终视频为主屏幕中显示的内容，视频中的每帧都是直接呈现用户该时刻感兴趣的区域。

方式四：该存储方法是针对拍摄的全局对焦和局部对焦的拍摄方式，存储时可以存储全局拍摄的视频，再加上实时跟踪得到的局部区域在全局中的包围框上的四个点位置信息确定的局部感兴趣区域物体。如图13所示，在全局区域视频中，将全局区域视频保存，并将全局区域中实时跟踪到的矩形框，例如图13中的黄色区域的四个角点，位置保存下来。并以此矩形框大小作为标准，保存另一个摄像头拍摄到的局部对焦区域的内容。

针对如何设置存储方式，本发明给出三种设置方法，终端设备可以根据以下三种中的一种来对存储方式进行选择。第一种是终端设备的系统默认设置；第二种是终端设备接受用户通过语音、按键或外部控制器等触发操作的方式以及这些方式的组合来更改存储方式；第三种是终端设备通过设备相关信息，如存储空间，或历史记录数据自适应设置存储方式。

关于系统默认设置，终端设备设置四种存储方式中的一种作为默认值，在终端设备没有接收到更改存储方式的指令前都使用该默认存储方式对视频进行存储。

关于用户交互的设置方式，采用实施例一中步骤4类似的设置方法，区别在于指令描述内容，例如，语音设置中的指令为“视频分别存储”，如果终端设备接收到该指令，则对声控指令进行语音识别，确定设置存储方式为第一种存储方式。其他用户交互的设置方式相同，在此不再赘述。

关于根据存储空间的自适应设置，根据存储空间，可以选择不同的存储方式，如果剩余存储空间小于某一阈值，例如低于终端设备存储空间的50％，则设置为后三种存储方式中的一种；反之，如果剩余存储空间高于某一阈值，例如高于终端设备存储空间的50％，则存储方式不受存储空间影响。

关于根据历史记录数据的自适应设置，例如根据用户以往设置的存储方式，来对用户喜好进行分析，设置为用户偏好的存储方式。

(5)多焦点视频播放方式

优选地，响应于接收到的播放触发操作，基于与存储内容相匹配的播放方式对视频信息进行播放；其中，播放方式包括以下至少一项：

1)当存储采集到的对焦于不同焦点区域的两个视频信息时，将两个视频信息分别单独播放或联合播放；

2)当存储合成视频信息时，播放合成视频；

3)当存储确定出的对焦于不同焦点区域的两个视频信息中的感兴趣视频内容时，播放感兴趣视频内容；

4)当存储全局区域的视频信息以及该全局区域的视频信息中局部区域的位置信息时，通过位置信息确定局部区域的视频信息，并将全局区域的视频信息和局部区域的视频信息分别单独播放或联合播放。

与上述的存储方式相对应，本发明给出四种播放方式，终端设备可以选择但不限于以下四种中的一种：

第一种：终端设备检测到用户的打开操作，针对分别存储的两个独立的视频。检测到用户点击播放的操作，例如，检测到用户点击播放按钮的操作，则可以针对两个摄像头拍摄得到的视频分别进行播放。这两个保存的视频以一定的时间关联存储在终端设备的存储器上。当用户选择播放拍摄的视频时，可以对这两个独立的视频分别全屏展示播放，也可以由终端设备自适应地将两个视频画面关联起来同时播放，可以参照“交互方式”中介绍的“上下屏”、 “左右屏”和“大小屏”三种方式对两个视频画面进行播放。

第二种：终端设备检测到用户的打开操作，针对存储的合成视频。检测到用户点击播放的操作，例如，检测到用户点击播放按钮的操作，则对合成的视频进行播放。用户可以看到两个摄像头拍摄的多焦点视频。

第三种：终端设备检测到用户的打开操作，针对存储的合并视频。检测到用户点击播放的操作，例如，检测到用户点击播放按钮的操作，则对由双摄像头视频片段合并的视频进行播放。用户可以看到视频录制时主屏幕中呈现的感兴趣画面的多焦点视频。

第四种：终端设备检测到用户的打开操作，针对存储的全局区域视频和感兴趣区域矩形坐标的组合。检测到用户点击播放的操作，例如，检测到用户点击播放按钮的操作，用户可以单独播放全局区域视频和四个坐标点对应的大小的局部区域视频；或者可以将两个视频关联播放。关联播放的方式可以分为两种：一种是参照“上下屏”、“左右屏”、“大小屏”三种形式将两个视频画面同时播放，在“大小屏”这种形式播放时，大屏显示的是全局区域视频或者局部对焦区域，小屏显示的是局部对焦感兴趣区域或者全局区域视频，用户可以通过单击大图或者小图的方式来切换这两个块屏幕的显示内容。并且，小屏在大屏上处于的位置也可以是由用户指定摆放的，如图14所示。当用户没有指定小屏摆放的位置时，终端设备可以自动将小屏放置在屏幕四个角的任意一个位置。当用户希望改变小屏的位置时，终端设备通过检测用户的手势或者操作来决定如何摆放。

下面以一个实施例详细介绍多焦点区域联合播放模式的具体实现方案。

步骤1.开启交互步骤：

1).开启终端设备的照相机，进入视频拍摄预览界面，通过双击屏幕开启多焦点视频模式。

2).多焦点视频模式开启后，如图15所示，预览界面显示两个摄像头采集到的画面，其中占据全屏的是全局区域画面，在全局区域画面当中，显示出场景中所有的人脸区域。用户单击感兴趣的人脸区域，并交互地拉动检测框，可以框住整个感兴趣区域。此时屏幕中，一部分为全局区域画面，另一部分为局部感兴趣区域画面。这两部分画面的布局如前所述，可以是左右屏，上下屏或者大小屏，这里以大小屏为例展示。

3).选定好用户感兴趣的局部区域后，两个摄像头分别对焦全局区域和指定的局部区域后，即可开始进行多焦点视频的拍摄。

步骤2.多焦点视频拍摄，存储和播放步骤如下：

步骤2.1多焦点视频拍摄

1).在多焦点视频拍摄界面，用户看到全局区域画面和局部感兴趣区域画面时，用户按下拍摄按钮进行视频拍摄，通过不同的操作方式可以进行不同的存储播放模式。单击界面中的拍摄按钮跳转到2)，将直接记录当前终端设备屏幕拍摄到的画面；长按全局区域中感兴趣的包围框将跳转到5)，存储全局区域视频和实时跟踪得到的包围框上的四个点位置，并存储四个点位置确定存储另一个摄像头对焦拍摄的局部感兴趣区域的大小的视频。如果同时触摸全局区域视频和局部区域视频，跳转到7)，将全局区域视频和局部感兴趣区域分别存储。

2).直接记录当前终端设备屏幕上拍摄到的画面，全局区域画面占据整个终端设备的屏幕，局部区域画面位于一个小窗口上。该小窗口的位置可以由用户实时移动改变。

步骤2.2多焦点视频存储

3).当前屏幕上显示的即为全局区域和局部区域组成的多焦点视频，存储在终端设备中。在拍摄下一段多焦点视频之前，左上角图像框显示最近时间内拍摄的多焦点视频，可以点击该图像框对最近一次拍摄的多焦点视频进行查看。

步骤2.3多焦点视频播放

4).点击左上角图像框后，在终端设备上显示最近一次拍摄的多焦点视频，此时的播放方式与拍摄时看到的内容相同。

5).存储全局区域视频和实时跟踪得到的包围框上的四个点位置，并存储由四个点位置确定存储另一个摄像头对焦拍摄的局部感兴趣区域的大小的视频。用户可以单独播放全局区域视频和四个坐标点对应的大小的局部区域视频；或者可以将两个视频关联播放。采取“大小屏”的关联方式将两个视频画面同时播放，大屏显示的是全局区域视频或者局部对焦区域，小屏显示的是局部对焦感兴趣区域或者全局区域视频，用户可以通过单击大图或者小图的方式来切换这两块屏幕的显示内容。并且，小屏在大屏上处于的位置也可以是由用户指定摆放的。当用户没有指定小屏摆放的位置时，终端设备可以自动将小屏放置在屏幕四个角的任意一个位置。视频存储完成后，在屏幕的左上角图框中显示最近一次拍摄的多焦点视频，如果进行播放，则跳转到 6)。

6).长按屏幕上左上角图框中的内容，则播放最近一次拍摄的多焦点视频。

7).分别存储了全局区域视频和局部感兴趣区域视频，终端设备在播放时可分别播放两部分视频。也可以由终端设备自适应地将两个视频画面关联起来同时播放，可以参照“交互方式”中介绍的“上下屏”、“左右屏”和“大小屏”三种方式对两个视频画面进行播放。

实施例十一、增强处理模式为目标对象凸显播放模式

目标对象包括感兴趣人物及物体。在下述实施例中以感兴趣人物为例进行实施例的阐述。

在日常生活和工作的视频拍摄中，经常由于拍摄的人物较多而导致感兴趣的人物不突出，不仅图像上不易定位感兴趣说话人的位置，人物的声音也经常混淆。目前的视频拍摄方式中并未突出感兴趣人物，而双目镜头和多麦克风的使用，可以定位场景中人物的深度及声音的方位，为拍摄时突出感兴趣人物提供了必要的条件。本发明中，通过双目摄像头及两个或多个麦克风的配合，将拍摄视频时图像中人物与每个人物的说话声音相关联，进而实现仅播放视频中感兴趣的某个人物的动作和声音的目的，得到凸显感兴趣目标人物的效果。从而实现在拍摄得到的多人场景视频中，凸显某一个人物的动作及声音。

需要说明的是，下述实施例的详述中，将根据第一类多媒体信息对第二类多媒体信息进行相应处理的方式，具体为根据采集到的音频信息，对采集到的视频信息进行音视频凸显处理的目标对象凸显播放模式。

当第二类多媒体信息为视频信息，第一类多媒体信息为与视频信息相对应的音频信息时，根据采集到的音频信息，对采集到的视频信息进行音视频凸显处理。

具体地，从采集到的视频信息中确定目标对象；针对目标对象对应的视频信息和/或音频信息进行凸显处理。

根据检测到的目标对象指定操作来确定目标对象；

确定目标对象对应的音频信息，并进行凸显处理。

优选地，在采集到的视频信息中确定目标对象所在的视频片段，且依据对应关系在采集到的音频信息中确定与该目标对象对应的音频片段。本发明提出，在拍摄得到的多人场景视频中，凸显某一个或者某几个感兴趣人物的动作及声音。通过双目摄像头及两个或多个麦克风的配合，将视频图像中出现的人物与他们各自的说话声音相关联，进而实现仅播放或凸显播放视频中感兴趣的某个人物或者某几个人物的动作和声音的目的，得到凸显感兴趣人物的效果。具体方案如下：

首先，终端针对拍摄得到视频，检测视频图像帧中的人脸区域，针对检测到的人脸数量，可以获得当前场景中总的目标人物数量；其次，根据检测到的某个人脸区域可以得到该人物与拍摄相机之间的方位信息；然后，结合双目相机通过立体匹配的方法得到该人物距离相机的深度信息，即可以得到场景中每个人物相对于相机坐标系的位置及方位信息；进一步，利用手机上的两个或多个麦克风，得到场景中每个说话人物相对于麦克风坐标系的位置及方位信息；最后，通过预先标定好相机坐标系和麦克风坐标系之间的变换关系，可得到图像上每个人物和音频的对应关系。

得到图像上每个人物和音频的对应关系后，当用户点击播放图像中的某个或者某几个感兴趣人物时，视频图像中的其他区域将会被虚化或者将感兴趣区域进行放大，从而凸显感兴趣人物区域。

该实施例的具体实现及展示方式由开启兴趣人物凸显视频拍摄模式、确定感兴趣人物方式、对感兴趣人物图像和语音存储的方式、对感兴趣人物的图像和语音进行播放的方式四个部分组成。

(1)开启兴趣人物凸显视频拍摄模式

该模式包括两种方式，一种是用户主动开启兴趣人物凸显视频拍摄模式，另一种是终端设备根据拍摄的视频内容，自动提示用户是否需要开启兴趣人物凸显视频拍摄模式。

1)用户主动开启的方法主要通过语音，手势交互等。例如当用户说“录兴趣人物”时，终端设备即开启兴趣人物凸显视频拍摄模式，此时启动人脸检测功能，在视频拍摄预览界面显示出目前拍摄场景内的所有人物，用户可以单击选择某个感兴趣人物进行录制，并且可以改变录制的感兴趣人物；或者将当前视频中检测到的所有人物都实时记录下来，以备后续播放时选择特定的感兴趣人物进行播放；或者在仅录制某一个、某几个或者全部人物都录制的模式之间进行切换。

2)终端设备自动检测视频内容，主要是基于视频理解技术，例如通过分析视频中的内容，判断当前视频主要拍摄的场景是进行多人会议、演讲等场合时，终端设备自动提示用户是否需要开启兴趣人物凸显视频拍摄模式。在开启兴趣人物凸显视频拍摄模式后，即可通过用户的手势或者语音交互确定是录制单个感兴趣人物，或者是录制整个场景中的所有人物，或者在两种方式之间切换。

(2)确定兴趣人物方式

用户拍摄兴趣人物凸显视频，指定感兴趣人物的方式分为用户主动的通过语音、手势或外部设备的交互方式，或者终端设备自动地确定感兴趣人物。

1)用户主动确定感兴趣人物的方式包括语音、手势和外部设备交互等。

语音交互：用户通过语音交互开启录制，录制时，也可以通过语音确定录制的是单个人物，还是多个人物，并且可以在这两种方式之间切换。例如，当用户说“录单个人物”时，终端设备仅对用户指定的某个感兴趣人物的图像和声音进行录制；当用户说“全录”时，终端设备将对场景中检测到的所有人物图像和声音进行录制。

手势交互：用户可以通过单击检测到的某个人物，指定感兴趣的目标人物进行录制；可以通过双击另一个人物，更换感兴趣的目标人物；可以通过单击屏幕，指定录制整个场景中的所有感兴趣人物；可以通过连续单击多个目标人物，指定录制多个感兴趣的人物。

外部设备交互：上述通过手势交互的操作，均可通过外部设备交互来实现。例如通过与终端设备关联的手写笔，耳机等设备，实现指定某个感兴趣目标人物，或指定多个目标人物，或指定整个场景中的所有人物为目标人物。

2)终端设备自动地根据当前拍摄的场景确定感兴趣人物。终端设备在开启感兴趣人物拍摄模式时，在图像预览界面检测图像中出现的人物，根据出现的人物数量和人物所处的位置，确定用户感兴趣的人物。例如，将场景中出现的每个人物都作为感兴趣人物，将场景中所有人物及人物对应的声音都存储下来；或者将位置处于画面中靠近中心的人物作为感兴趣人物，并以显著地标示提示拍摄者目前中心人物为感兴趣人物，如果用户希望改变当前终端设备确定的感兴趣人物，可以通过双击自身感兴趣的人物来进行改变。其中，兴趣人物的图像和语音通过终端设备的双目摄像头及多个麦克风进行对应。

(3)对感兴趣人物图像和视频存储方式

优选地，根据采集到的音频信息，对采集到的视频信息进行存储处理，其中，存储内容包括以下至少一种情形：

1)采集到的视频信息及音频信息；

2)目标对象对应的视频信息及音频信息。

存储方式主要有两种：

第一种：将摄像头及麦克风实时采集得到的内容都存储下来，并且记录了不同时间用户指定的感兴趣人物，以备在播放时适应多种方式。

第二种：仅将拍摄时录制的感兴趣人物的图像和声音存储下来。即：仅录制拍摄时用户指定的某个人物、多个人物或全部场景中人物的图像和声音。

以上两种方式，主要针对录制场景在当前终端设备摄像头采集区域内，如果在当前终端设备的另一侧，即摄像头拍摄区域背面发出的声音，以另一个文件进行存储。此时可以由用户在播放时选择是否需要去掉来自摄像头拍摄区域背面发出的声音。通过终端设备上的麦克风，可以检测到声音的朝向是来自于摄像头拍摄区域的正面，还是来自于摄像头拍摄区域的背面。如果当前的声音来自于摄像头拍摄区域的背面，则该声音可能并不想被拍摄者记录下来，例如，该声音可能是“开始录了”，或者是当前接听电话时的谈话内容。所以可以将这部分语音内容单独存储。

针对如何设置存储方式，本发明给出三种设置方法，终端设备可以根据以下三种中的一种来对存储方式进行选择。第一种是终端设备默认设置；第二种是终端设备接受用户通过语音、按键或外部控制器等方式以及这些方式的组合来更改存储方式；第三种是终端设备通过存储空间或历史数据自适应设置存储方式。

关于默认设置，终端设备设置两种存储方式中的一种作为默认值，在终端设备没有接收到更改存储方式的指令前都使用该默认存储方式对视频进行存储。

关于用户交互的设置方式，采用实施例一中步骤4类似的设置方法，区别在于指令描述内容，例如，语音设置中的指令为“感兴趣视频存储”，如果终端设备接收到该指令，则对声控指令进行语音识别，确定设置存储方式为第一种存储方式。其他用户交互的设置方式相同，在此不再赘述。

关于根据存储空间的自适应设置，根据存储空间，可以选择不同的存储方式，如果剩余存储空间小于某一阈值，例如低于终端设备存储空间的50％，则设置为第二种存储方式；反之，如果剩余存储空间高于某一阈值，例如高于终端设备存储空间的50％，则存储方式不受存储空间影响。

关于根据历史数据的自适应设置，例如根据用户以往设置的存储方式，来对用户喜好进行分析，设置为用户偏好的存储方式。

(4)对感兴趣人物图像和语音播放方式

优选地，响应于接收到的播放触发操作，基于与存储内容相匹配的播放方式对视频信息及音频信息进行播放；其中，播放方式包括以下至少一项：

1)当存储采集到的视频信息及音频信息时，将采集到的视频信息及音频信息相关联地播放；

2)当存储采集到的视频信息及音频信息时，将采集到的视频信息中的目标对象与相对应的音频信息相关联地播放；

3)当存储采集到的视频信息及音频信息时，将采集到的视频信息中的各个对象与相对应的音频信息相关联地播放；

4)当存储目标对象对应的视频信息及音频信息时，将目标对象对应的视频信息及音频信息相关联地播放。

与上述的存储方式相对应，有对应的两种播放方式，终端设备可以选择但不限于以下两种中的一种：

第一种：终端设备检测到用户的打开操作，针对第一种存储的完整的视频。检测到用户点击播放的操作，例如，检测到用户点击播放按钮的操作，对视频进行播放。第一种存储方法将场景中所有人物的图像和声音都有记录，且各时间段用户指定的感兴趣人物也都记录了下来。则在播放时，可以：1) 按照用户录制时指定的视频内容播放：例如前30秒对人物1感兴趣，则仅播放目标人物1的图像和声音，其他人物和背景图像均被模糊和/或静止；或者将目标人物的图像区域放大，其他区域模糊和/或静止。接下来60秒对人物2 感兴趣，则仅播放目标人物2的图像和声音。这里的感兴趣人物的选择是在录制时确定的，并且终端设备记录了用户在哪些时间段对哪个或者哪些人物感兴趣；2)不做处理的播放所录制到的所有图像和声音内容；3)由于记录了场景中所有人物的图像和声音，在播放时，用户可以改变播放的感兴趣人物的顺序，例如前30秒对人物2感兴趣，则仅播放目标人物2的声音和图像，其他人物和背景图像均被模糊和/或静止。接下来60秒对人物1感兴趣，则仅播放目标人物1的图像和声音。

第二种：终端设备检测到用户的打开操作，针对第二种存储的感兴趣人物的视频。检测到用户点击播放的操作，例如，检测到用户点击播放按钮的操作，对视频按照录制时选择的感兴趣人物顺序进行播放，即与拍摄时指定的感兴趣区域相同的方式进行播放。

上述两种播放方式主要针对摄像头拍摄的正面区域的图像和声音内容，针对“存储方式”中提到的来自于摄像头拍摄的背面区域的声音内容，可以由用户通过某些特定的语音或者手势指令告诉终端设备是否需要播放。例如，可以通过单击屏幕中的背景区域打开播放来自于摄像头拍摄背面区域的声音内容，播放的时间即按照文件中记录的时间序列与其他播放视频关联起来。也可以通过双击屏幕中的背景区域关闭播放来自于摄像头拍摄背面区域的声音内容。

下面以一个实施例详细介绍兴趣人物凸显视频实施例的具体方案。

步骤1.开启交互步骤：

1).开启终端设备的照相机，进入视频拍摄预览界面，通过长按屏幕开启兴趣人物凸显视频拍摄模式。

2).兴趣人物凸显视频模式开启后，预览界面显示左摄像头采集到的画面，该画面占据整个屏幕。此时启动人脸检测功能，在视频拍摄预览界面显示出目前拍摄场景内的所有人物，将当前视频中检测到的所有人物都实时记录下来，已备后续播放时选择特定的感兴趣人物进行播放。

3).当检测出场景中的人物后，将启动一侧摄像头，配合另一侧摄像头计算得到场景中检测到的人物的深度及方向信息，即可开始进行兴趣人物凸显视频的拍摄。

步骤2.兴趣人物凸显视频拍摄，存储和播放方式如下：

步骤2.1兴趣人物凸显视频拍摄

1).在兴趣人物凸显视频拍摄界面，用户看到画面中检测到的人脸区域为绿色时，表明此时场景中人物所处的角度及位置信息已被估计，用户按下拍摄按钮进行视频拍摄，通过不同的操作方式可以进行不同的存储播放模式。单击界面中的拍摄按钮跳转到2)，将直接记录当前终端设备拍摄到的画面；长按画面中某个目标人物将跳转到5)，存储兴趣人物凸显视频和相对应的各个时间点对应的感兴趣人物。同时，实时检测在当前终端设备摄像头拍摄区域背面发出的声音，如果检测到背面发出声音，跳转到7)，将摄像头采集区域内视频和摄像头背面采集到的音频分别存储。

2).直接记录当前屏幕上拍摄到的画面，一侧摄像头拍摄的画面占据整个终端设备的屏幕。实时显示当前场景中的人物区域。如果在拍摄过程当中没有指定某个感兴趣的人物，则可以在播放阶段进行感兴趣人物的选择，跳转到5)，播放指定的感兴趣人物的画面和音频。

步骤2.2兴趣人物凸显视频存储

3).当前屏幕上显示的即为兴趣人物凸显视频，存储在终端设备中。在拍摄下一段兴趣人物凸显视频之前，左上角图像框显示最近时间内拍摄的兴趣人物凸显视频，可以点击该图像框对最近一次拍摄的兴趣人物凸显视频进行查看。

步骤2.3兴趣人物凸显视频播放

4).点击左上角图像框后，在终端设备上显示最近一次拍摄的兴趣人物凸显视频，此时的播放方式与拍摄时看到的内容相同。如果点击当前播放视频中某个人物时，则跳转到步骤5进行播放。

5).如果在拍摄阶段没有指定某个或某几个感兴趣的人物，则在播放时可以由用户单击感兴趣的人物区域，此时仅播放该人物对应的图像和音频，其他区域均静止和/或模糊。如果在拍摄阶段指定了某一段时间感兴趣的人物，则将用户指定的时长及感兴趣人物次序记录下来，播放时按照拍摄时指定的感兴趣人物次序及时长进行播放。

6).长按屏幕上左上角图像框内的内容，则播放最近一次拍摄的兴趣人物凸显视频。

7).分别存储了兴趣人物凸显视频和来自于摄像头背面区域的音频，终端设备在播放时可分别播放两部分内容。如图16(a)-(c)所示，如果对来自于摄像头背面区域的音频不感兴趣，可以直接将该音频内容删除；如果用户希望保留来自于摄像头背面区域的音频，可以在播放时按照时间序列，将对应的音频和视频关联起来共同播放。

本发明还提供了一种多媒体增强处理的装置，如图17所示，该装置包括：多媒体信息获取模块1701、处理模块1702。

多媒体信息获取模块1701获取两个多媒体采集设备分别采集的第一类多媒体信息和第二类多媒体信息；处理模块1702根据第一类多媒体信息对第二类多媒体信息进行相应处理。

本发明的方案中，提供的多媒体信息处理的装置中各模块的具体功能实现，可以参照图1提供的多媒体信息处理的方法的具体步骤，在此不再详述。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-OnlyMemory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM (ErasableProgrammable Read-Only Memory，可擦写可编程只读存储器)、 EEPROM(ElectricallyErasable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种由电子设备执行的视频信息处理的方法，包括：

由第一多媒体采集设备获得与第一焦点区域对应的第一视频信息；

由第二多媒体采集设备获得与第二焦点区域对应的第二视频信息；以及

在电子设备的显示器上显示第一视频信息和第二视频信息。

2.根据权利要求1所述的方法，其中，第二焦点区域位于第一焦点区域内，以及

其中，第二焦点区域小于第一焦点区域。

3.根据权利要求2所述的方法，其中，所述第一焦点区域为全局区域；第二焦点区域为局部区域。

4.根据权利要求1所述的方法，其中，在电子设备的显示器上显示第一视频信息和第二视频信息，包括：

在电子设备的显示器上以分屏布局显示第一视频信息和第二视频信息。

5.根据权利要求1所述的方法，还包括：

获取与第一焦点区域内的第三焦点区域相对应的第三视频信息；以及

在电子设备的显示器上显示第一视频信息和第二视频信息中的至少一个以及第三视频信息。

6.根据权利要求5所述的方法，其中，在电子设备的显示器上显示第一视频信息和第二视频信息中的至少一个以及第三视频信息，包括：

在电子设备的显示器上以分屏布局显示第一视频信息和第二视频信息中的至少一个以及第三视频信息。

7.根据权利要求1所述的方法，还包括：在获得第一视频信息和第二视频信息之前，接收进入多视频模式的第一指令。

8.根据权利要求1所述的方法，还包括：接收第二指令以设置第二焦点区域。

9.根据权利要求1所述的方法，还包括：通过合成第一视频信息和第二视频信息来存储第四视频信息。

10.根据权利要求9所述的方法，还包括：

接收第四指令以播放第四视频信息；以及

播放第四视频信息以作为对接收到的第四指令的响应。

11.根据权利要求10所述的方法，还包括显示用于接收播放第四视频信息的指令的用户界面。

12.根据权利要求9所述的方法，还包括接收第三指令以存储第四视频信息。

13.根据权利要求9所述的方法，其中，当电子设备的方向是水平方向时，第四视频信息以包括左屏幕和右屏幕的分屏布局被存储。

14.根据权利要求9所述的方法，其中，当电子设备的方向是垂直方向时，第四视频信息以包括上方屏幕和下方屏幕的分屏布局被存储。

15.根据权利要求4所述的方法，还包括通过传感器检测电子设备的方向。

16.根据权利要求15所述的方法，其中，当检测到的电子设备的方向是水平方向时，分屏布局包括左屏幕和右屏幕，以及

其中，当检测到的电子设备的方向为垂直方向时，分屏布局包括上方屏幕和下方屏幕。

17.根据权利要求1所述的方法，其中，基于第一焦点区域的中心来确定第二焦点区域。

18.一种电子设备，包括：

至少两个多媒体采集设备，包括第一多媒体采集设备和第二多媒体采集设备；

显示器；

多媒体信息获取模块，被配置为：

通过第一多媒体采集设备获得与第一焦点区域对应的第一视频信息；

通过第二多媒体采集设备获得与第二焦点区域对应的第二视频信息；以及

处理模块，被配置为控制在显示器上显示第一视频信息和第二视频信息。

19.根据权利要求18所述的电子设备，其中，第二焦点区域位于第一焦点区域内，以及

其中，第二焦点区域小于第一焦点区域。

20.根据权利要求19所述的电子设备，其中，所述第一焦点区域为全局区域；第二焦点区域为局部区域。

21.根据权利要求18所述的电子设备，其中，所述处理模块还被配置为控制在显示器上以分屏布局显示第一视频信息和第二视频信息。

22.根据权利要求18所述的电子设备，其中，所述多媒体信息获取模块还被配置为获取与第一焦点区域内的第三焦点区域相对应的第三视频信息，以及

其中，所述处理模块还被配置为控制在显示器上显示第一视频信息和第二视频信息中的至少一个以及第三视频信息。

23.根据权利要求22所述的电子设备，其中，所述处理模块还被配置为控制在显示器上以分屏布局显示第一视频信息和第二视频信息中的至少一个以及第三视频信息。

24.根据权利要求18所述的电子设备，其中，所述处理模块还被配置为在获得第一视频信息和第二视频信息之前，接收进入多视频模式的第一指令。

25.根据权利要求18所述的电子设备，其中，所述处理模块还被配置为接收第二指令以设置第二焦点区域。

26.根据权利要求18所述的电子设备，其中，所述处理模块还被配置为通过合成第一视频信息和第二视频信息来存储第四视频信息。

27.根据权利要求26所述的电子设备，其中，所述处理模块还被配置为：

接收第四指令以播放第四视频信息；以及

控制在显示器上播放第四视频信息以作为对接收到的第四指令的响应。

28.根据权利要求27所述的电子设备，其中，所述处理模块还被配置为控制在显示器上显示用于接收播放第四视频信息的指令的用户界面。

29.根据权利要求26所述的电子设备，其中，所述处理模块还被配置为接收第三指令以存储第四视频信息。

30.根据权利要求26所述的电子设备，其中，当电子设备的方向是水平方向时，所述处理模块还被配置为以包括左屏幕和右屏幕的分屏布局来存储第四视频信息。

31.根据权利要求26所述的电子设备，其中，当电子设备的方向是垂直方向时，所述处理模块还被配置为以包括上方屏幕和下方屏幕的分屏布局来存储第四视频信息。

32.根据权利要求21所述的电子设备，还包括被配置为检测电子设备的方向的传感器。

33.根据权利要求32所述的电子设备，其中，当检测到的电子设备的方向是水平方向时，分屏布局包括左屏幕和右屏幕，以及

34.根据权利要求18所述的电子设备，其中，所述多媒体信息获取模块还被配置为基于第一焦点区域的中心来确定第二焦点区域。