CN108632551A

CN108632551A - 基于深度学习的视频录摄方法、装置及终端

Info

Publication number: CN108632551A
Application number: CN201710168941.XA
Authority: CN
Inventors: 邹超洋; 贺永刚; 万美君
Original assignee: Nanchang Black Shark Technology Co Ltd
Current assignee: Nanchang Black Shark Technology Co Ltd
Priority date: 2017-03-16
Filing date: 2017-03-16
Publication date: 2018-10-09

Abstract

本发明涉及一种基于深度学习的视频录摄方法，包括采集多个目标场景的多张训练样本图像；对每张训练样本图像进行预处理；利用预处理后的训练样本图像训练稀疏自编码网络；通过所述多张训练样本图像和所述稀疏自编码网络训练训练分类器，以得到分类模型；利用所述分类模型对视频录摄过程中的图像进行实时分类，以确定所述视频录摄的场景，从而调用与所述视频录摄的场景对应的音频参数。本发明还提供一种基于深度学习的视频录摄装置及终端。本发明的基于深度学习的视频录摄方法、装置及终端能利用训练后的稀疏自编码网络后训练训练分类器，从而对视频录摄的场景进行识别后调用与所述视频录摄的场景对应的音频参数，以提升视频摄录效果。

Description

基于深度学习的视频录摄方法、装置及终端

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于深度学习的视频录摄方法、装置及终端。

背景技术

随着智能终端的快速发展，人们对智能终端的要求也越来越高，而摄像性能和效果又是其中重要的一环。

现有的视频录摄方法在大声压环境，例如演唱会或大型晚会场景下，由于场面复杂，声音嘈杂，因此，如果麦克风输入的音频参数设置不合理就很容易导致麦克风输入溢出，从而容易导致音频信号截止，视频摄录效果很差。

发明内容

本发明的目的在于，克服现有的显示所存在的缺陷，而提供一种基于深度学习的视频录摄方法、装置及终端，其可以根据不同场景来调整音频参数，视频摄录效果好。

一种基于深度学习的视频录摄方法，包括采集多个目标场景的多张训练样本图像；对每张训练样本图像进行预处理；利用预处理后的训练样本图像训练稀疏自编码网络；通过所述多张训练样本图像和所述稀疏自编码网络训练训练分类器，以得到分类模型；利用所述分类模型对视频录摄过程中的图像进行实时分类，以确定所述视频录摄的场景，从而调用与所述视频录摄的场景对应的音频参数。

本发明还提供一种基于深度学习的视频录摄装置，所述装置包括图像采集模块、训练预处理模块、网络训练模块、分类模型获取模块、音频调整模块。图像采集模块用于采集多个目标场景的多张训练样本图像；训练预处理模块用于对每张训练样本图像进行预处理；网络训练模块用于利用预处理后的训练样本图像训练稀疏自编码网络；分类模型获取模块通过所述多张训练样本图像和所述稀疏自编码网络训练训练分类器，以得到分类模型；音频调整模块用于利用所述分类模型对视频录摄过程中的图像进行实时分类，以确定所述视频录摄的场景，从而调用与所述视频录摄的场景对应的音频参数。

本发明还提供一种使用上述基于深度学习的视频录摄装置的终端。

本发明的基于深度学习的视频录摄方法、装置及终端能利用训练后的稀疏自编码网络后训练训练分类器，从而对视频录摄的场景进行识别后调用与所述视频录摄的场景对应的音频参数，以提升视频摄录效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为一种终端的结构示意图。

图2为本发明一实施例提供的基于深度学习的视频录摄方法的流程示意图。

图3为本发明一实施例提供的基于深度学习的视频录摄装置的结构示意图。

图4为本发明一实施例提供的终端的结构示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的基于深度学习的视频录摄方法、装置及终端其具体实施方式、方法、步骤、结构、特征及其功效，详细说明如下。

有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例的详细说明中将可清楚呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。

图1示出了一种终端的结构框图。本发明的基于深度学习的视频录摄方法可以但不限于应用于如图1所示的终端。如图1所示，终端10包括存储器102、存储控制器104，一个或多个(图中仅示出一个)处理器106、外设接口108、射频模块110、定位模块112、摄像模块114、音频模块116、屏幕118以及按键模块120。这些组件通过一条或多条通讯总线/信号线122相互通讯。

可以理解，图1所示的结构仅为示意，终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

存储器102可用于存储软件程序以及模块，如本发明实施例中的基于深度学习的视频录摄方法及装置对应的程序指令/模块，处理器106通过运行存储在存储控制器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的基于深度学习的视频录摄方法及系统。

存储器102可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器102可进一步包括相对于处理器106远程设置的存储器，这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器106以及其他可能的组件对存储器102的访问可在存储控制器104的控制下进行。

外设接口108将各种输入/输入装置耦合至CPU以及存储器102。处理器106运行存储器102内的各种软件、指令以执行终端10的各种功能以及进行数据处理。

在一些实施例中，外设接口108，处理器106以及存储控制器104可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

射频模块110用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。射频模块110可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。射频模块110可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术，包括但并不限于全球移动通信系统(Global System for Mobile Communication,GSM)、增强型移动通信技术(Enhanced Data GSM Environment,EDGE),宽带码分多址技术(wideband code divisionmultiple access,W-CDMA)，码分多址技术(Code division access,CDMA)、时分多址技术(time division multiple access,TDMA)，蓝牙，无线保真技术(Wireless,Fidelity，WiFi)(如美国电气和电子工程师协会标准IEEE 802.11a，IEEE802.11b,IEEE802.11g和/或IEEE 802.11n)、网络电话(Voice over internet protocal,VoIP)、全球微波互联接入(Worldwide Interoperability for Microwave Access，Wi-Max)、其他用于邮件、即时通讯及短消息的协议，以及任何其他合适的通讯协议，甚至可包括那些当前仍未被开发出来的协议。

定位模块112用于获取终端10的当前位置。定位模块112的实例包括但不限于全球卫星定位系统(GPS)、基于无线局域网或者移动通信网的定位技术。

摄像模块114用于拍摄照片或者视频。拍摄的照片或者视频可以存储至存储器102内，并可通过射频模块110发送。

音频模块116向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。音频电路从外设接口108处接收声音数据，将声音数据转换为电信息，将电信息传输至扬声器。扬声器将电信息转换为人耳能听到的声波。音频电路还从麦克风处接收电信息，将电信号转换为声音数据，并将声音数据传输至外设接口108中以进行进一步的处理。音频数据可以从存储器102处或者通过射频模块110获取。此外，音频数据也可以存储至存储器102中或者通过射频模块110进行发送。在一些实例中，音频模块116还可包括一个耳机播孔，用于向耳机或者其他设备提供音频接口。

屏幕118在终端10与用户之间提供一个输出界面。具体地，屏幕118向用户显示视频输出，这些视频输出的内容可包括文字、图形、视频、及其任意组合。一些输出结果是对应于一些用户界面对象。可以理解的，屏幕118还可以包括触控屏幕。触控屏幕在终端10与用户之间同时提供一个输出及输入界面。除了向用户显示视频输出，触控屏幕还接收用户的输入，例如用户的点击、滑动等手势操作，以便用户界面对象对这些用户的输入做出响应。检测用户输入的技术可以是基于电阻式、电容式或者其他任意可能的触控检测技术。触控屏幕显示单元的具体实例包括但并不限于液晶显示器或发光聚合物显示器。

按键模块120同样提供用户向终端10进行输入的接口，用户可以通过按下不同的按键以使终端10执行不同的功能。

图2为本发明一实施例提供的基于深度学习的视频录摄方法的流程示意图。如图2所示，基于深度学习的视频录摄方法包括如下步骤：

步骤S21：采集多个目标场景的多张训练样本图像；

其中，目标场景为视频录摄的所有可能的场景中的一个。具体地，目标场景例如可以但不限于为大声压场景，例如演唱会或大型晚会等等，也可以为公园等环境安静的场景等等。

步骤S22：对每张训练样本图像进行预处理；

其中，预处理可以但不限于包括随机选取每张训练样本图像中的多个图像块例如k*k个图像块，并对训练样本图像的多个图像块进行白化处理PCA(Principal ComponentAnalysis)白化处理或ZCA(Zero-phase Component Analysis)白化处理等等。

具体地，对训练样本图像的多个图像块进行白化处理包括：

对多个像素块进行归一化处理，具体步骤如下：

利用公式(1)(2)计算每一个k*k的图像块(m＝k*k)的均值，并将每一个像素减去均值，其中，i＝1,2,……,n，表示有n个输入图像块：x⁽¹⁾,x⁽²⁾,…，x⁽ⁿ⁾，u⁽ⁱ⁾表示第i个输入图像块的均值；

x_j ⁽ⁱ⁾＝x_j ⁽ⁱ⁾-u⁽ⁱ⁾ (2)

对归一化后的图像块计算协方差矩阵sigma，如公式(3)；

对sigma矩阵进行奇异值(SVD)分解，得到sigma矩阵的奇异向量；

[U,S,V]＝svd(sigma) (4)

计算PCA白化处理得到的数据，若x'表示去相关处理后的图像块，U和U^T分别表示上个步骤中的sigma矩阵分解得到的奇异向量矩阵及其转置，S是sigma矩阵分解得到的奇异值对角矩阵，ε是规则化参数，则

步骤S23：利用预处理后的训练样本图像训练稀疏自编码网络；

具体地，步骤S23可以但不限于包括：

将所述训练样本图像中白化处理后的图像块作为稀疏自编码网络的输入矩阵和目标矩阵；

其中，在本实施例中例如稀疏自编码网络N共3层，第一层为输入层、第二层为隐藏层、第三层为输出层。

采用正态分布随机初始化所述稀疏自编码网络的权值和偏置单元；

其中，在本实施例中可以但不限于将正态分布函数均值初始化为0，方差初始化为0.01。

采用BP反向传播算法更新所述稀疏自编码网络的权值和偏置单元。

具体地，采用BP反向传播算法更新所述稀疏自编码网络的权值和偏置单元包括如下第一步到第十步：

第一步、若用η表示稀疏自编码网络的惩罚因子，则：

其中，ρ表示随机选取的稀疏性参数，ρ经验取值范围0.01～0.05，ρ_j表示稀疏性自编码网络隐层第j个神经元的平均活跃度，j∈[1,s]，β表示随机选取的惩罚因子权重取值，经验取值范围0.1～0.5，s表示稀疏自编码网络隐藏层的神经元的数目，隐藏层的神经元数目s例如可以但不限于为40个；

第二步、若aⁿ表示稀疏自编码网络输出层的输出矩阵，则：

其中，k∈[1,N]，N表示稀疏自编码网络的层数，b表示稀疏自编码网络第k层的偏置，w表示第k层稀疏自编码网络的权值，exp(.)表示自然数为底的指数操作，X表示稀疏自编码网络的输入矩阵；

第三步、若a^l表示稀疏自编码网络隐藏层的输出矩阵，则

其中，l表示稀疏自编码网络隐藏层，W表示稀疏自编码网络隐藏层的权值矩阵，B表示稀疏自编码网络隐藏层的偏置矩阵；

第四步、若J_cost表示稀疏自编码网络的代价函数，则

其中，m表示白化后的图像块数目，y_t表示稀疏自编码网络第t个目标矩阵，t∈[1,m]，w^p表示稀疏自编码网络的第p个权值，p∈[1,k]，k表示权值的数目，λ表示随机选取的权重衰减参数，λ的经验取值范围为0.01～0.05；

第五步、若δ^N表示稀疏自编码网络输出层神经元的残差，则：

δ^N＝-(y-a^N)*a^N*(1-a^N) (10)

第六步、若δ^l表示稀疏自编码网络隐藏层神经元的残差，则：

其中，l表示稀疏自编码网络隐藏层，y表示稀疏自编码网络的目标矩阵，w^l表示稀疏自编码网络隐藏层的权值，ρ_j表示稀疏自编码网络隐层第j个神经元的平均活跃度，j∈[1,s]，(.)^T表示转置操作；

第七步、计算稀疏自编码网络每层神经元的权值和偏置的偏导数：

第八步、根据如下式子更新稀疏自编码网络每层偏置的偏导数：

第九步、分别利用公式(14)、(15)更新稀疏自编码网络的权值和偏置：

其中，α表示随机选取的自编码网络的学习率，α的经验取值范围0.001～0.01；

第十步、判断稀疏自编码网络的代价函数值J_cost是否小于经验阈值例如0.1，若是，表示网络训练完成；否则循环执行上述第一步到第九步；

步骤S24：通过多张训练样本图像和稀疏自编码网络训练训练分类器，以得到分类模型；

在本发明一实施方式中，训练分类器可以但不限于为逻辑回归(LogisticRegression)分类器。

在本发明一实施方式中，基于深度学习的视频录摄方法还可以但不限于包括：利用测试样本图像对训练分类器进行分类效果测试，以调整音频参数。

具体地，首先，采集测试样本图像，然后随机选取每张测试样本图像中的多个图像块，并对每张测试样本图像中的多个图像块进行白化处理后，利用测试样本图像中白处理后的图像块对训练分类器进行分类效果测试，最后根据分类效果测试的结果调整音频参数。

步骤S25：利用分类模型对视频录摄过程中的图像进行实时分类，以确定视频录摄的场景，从而调用与视频录摄的场景对应的音频参数。

图3为本发明一实施例提供的基于深度学习的视频录摄装置的结构示意图。如图3所示，基于深度学习的视频录摄装置20包括图像采集模块201、训练预处理模块202、网络训练模块203、分类模型获取模块204、音频调整模块205。图像采集模块201用于采集多个目标场景的多张训练样本图像；训练预处理模块202用于对每张训练样本图像进行预处理；网络训练模块203用于利用预处理后的训练样本图像训练稀疏自编码网络；分类模型获取模块204通过多张训练样本图像和稀疏自编码网络训练训练分类器，以得到分类模型；音频调整模块205用于利用分类模型对视频录摄过程中的图像进行实时分类，以确定视频录摄的场景，从而调用与视频录摄的场景对应的音频参数。

在本发明一实施方式中，训练预处理模块202包括训练选取单元、训练白化处理单元。训练选取单元用于随机选取每张训练样本图像中的多个图像块；训练白化处理单元对训练样本图像的多个图像块进行白化处理。

在本发明一实施方式中，分类模型获取模块204包括输入单元、初始化单元、更新单元。输入单元用于将训练样本图像中白化处理后的图像块作为稀疏自编码网络的输入矩阵和目标矩阵；初始化单元用于采用正态分布随机初始化稀疏自编码网络的权值和偏置单元；更新单元用于采用BP反向传播算法更新稀疏自编码网络的权值和偏置单元。

在本发明一实施方式中，装置还包括分类效果测试模块(图中未示出)。分类效果测试模块用于采集测试样本图像，并随机选取每张测试样本图像中的多个图像块后，对每张测试样本图像中的多个图像块进行白化处理，以利用测试样本图像中白处理后的图像块对训练分类器进行分类效果测试，并根据分类效果测试的结果调整音频参数。

图4为本发明一实施例提供的终端的结构示意图。如图4所示，终端30包括基于深度学习的视频录摄装置，基于深度学习的视频录摄装置的结构请参考图3，在此不再赘述。此外，终端的结构还可以参考图1，在此不再赘述。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims

1.一种基于深度学习的视频录摄方法，其特征在于，包括：

采集多个目标场景的多张训练样本图像；

对每张训练样本图像进行预处理；

利用预处理后的训练样本图像训练稀疏自编码网络；

通过所述多张训练样本图像和所述稀疏自编码网络训练训练分类器，以得到分类模型；

利用所述分类模型对视频录摄过程中的图像进行实时分类，以确定所述视频录摄的场景，从而调用与所述视频录摄的场景对应的音频参数。

2.如权利要求1所述的基于深度学习的视频录摄方法，其特征在于，对每张训练样本图像进行预处理的步骤包括：

随机选取每张训练样本图像中的多个图像块；

对所述训练样本图像的多个图像块进行白化处理。

3.如权利要求1或2所述的基于深度学习的视频录摄方法，其特征在于，通过所述多张训练样本图像和所述稀疏自编码网络训练训练分类器，以得到分类模型的步骤包括：

4.如权利要求2所述的基于深度学习的视频录摄方法，其特征在于，所述基于深度学习的视频录摄方法还包括：

采集测试样本图像；

随机选取每张测试样本图像中的多个图像块；

对每张测试样本图像中的多个图像块进行白化处理；

利用测试样本图像中白处理后的图像块对所述训练分类器进行分类效果测试；

根据分类效果测试的结果调整音频参数。

5.一种基于深度学习的视频录摄装置，其特征在于，所述装置包括：

图像采集模块，用于采集多个目标场景的多张训练样本图像；

训练预处理模块，用于对每张训练样本图像进行预处理；

网络训练模块，用于利用预处理后的训练样本图像训练稀疏自编码网络；

分类模型获取模块，通过所述多张训练样本图像和所述稀疏自编码网络训练训练分类器，以得到分类模型；

音频调整模块，用于利用所述分类模型对视频录摄过程中的图像进行实时分类，以确定所述视频录摄的场景，从而调用与所述视频录摄的场景对应的音频参数。

6.如权利要求5所述的基于深度学习的视频录摄装置，其特征在于，所述训练预处理模块包括：

训练选取单元，用于随机选取每张训练样本图像中的多个图像块；

训练白化处理单元，对所述训练样本图像的多个图像块进行白化处理。

7.如权利要求6所述的基于深度学习的视频录摄装置，其特征在于，所述分类模型获取模块包括：

输入单元，用于将所述训练样本图像中白化处理后的图像块作为稀疏自编码网络的输入矩阵和目标矩阵；

初始化单元，用于采用正态分布随机初始化所述稀疏自编码网络的权值和偏置单元；

更新单元，用于采用BP反向传播算法更新所述稀疏自编码网络的权值和偏置单元。

8.如权利要求6所述的基于深度学习的视频录摄装置，其特征在于，装置还包括：

分类效果测试模块，用于采集测试样本图像，并随机选取每张测试样本图像中的多个图像块后，对每张测试样本图像中的多个图像块进行白化处理，以利用测试样本图像中白处理后的图像块对所述训练分类器进行分类效果测试，并根据分类效果测试的结果调整音频参数。

9.一种终端，其特征在于，所述终端包括如权利要求5至8任意一项所述的基于深度学习的视频录摄装置。