CN108122234A

CN108122234A - 卷积神经网络训练及视频处理方法、装置和电子设备

Info

Publication number: CN108122234A
Application number: CN201611073607.8A
Authority: CN
Inventors: 罗方浩; 石建萍
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-11-29
Filing date: 2016-11-29
Publication date: 2018-06-05
Anticipated expiration: 2036-11-29
Also published as: CN108122234B

Abstract

本发明实施例提供了一种卷积神经网络训练及视频处理方法、装置和电子设备，其中，卷积神经网络训练方法包括：基于卷积神经网络对包含有目标对象标注信息的原始样本图像以及与所述原始样本图像对应的加扰样本图像进行检测，得到针对所述原始样本图像中目标对象的第一预测信息以及针对所述加扰样本图像中目标对象的第二预测信息；确定所述第一预测信息和所述标注信息之间的第一差异、以及所述第一预测信息和所述第二预测信息之间的第二差异；根据所述第一差异和所述第二差异调整所述卷积神经网络的网络参数。本发明实施例有效降低了检测过程中视频帧图像的帧间抖动。

Description

卷积神经网络训练及视频处理方法、装置和电子设备

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种卷积神经网络训练方法、装置和电子设备，以及，一种视频处理方法、装置和电子设备。

背景技术

卷积神经网络是用于计算机视觉和模式识别的一个重要的研究领域，它通过计算机仿照生物大脑思维启发进行类似人类对特定对象的信息处理。通过卷积神经网络，能够有效地对图像(包括静态图像和视频图像)中的对象进行检测和识别。随着互联网技术的发展，信息量的急剧增加，卷积神经网络被越来越广泛地应用于图像检测和识别领域，以从大量的信息中寻找出实际所需的信息。

当在某些电子设备，如移动终端中使用卷积神经网络进行图像检测和识别时，因移动终端自身硬件性能的局限或者卷积神经网络模型设置的原因，使得卷积神经网络模型的规模较小，图像检测和识别精度受限。尤其是在视频图像中，因卷积神经网络模型规模受限，检测和识别精度不高，视频播放时帧间抖动的情况会尤其严重。

发明内容

本发明实施例提供了一种卷积神经网络训练方案，以及，一种视频处理方案。

根据本发明实施例的一个方面，提供了一种卷积神经网络训练方法，包括：基于卷积神经网络对包含有目标对象标注信息的原始样本图像以及与所述原始样本图像对应的加扰样本图像进行检测，得到针对所述原始样本图像中目标对象的第一预测信息以及针对所述加扰样本图像中目标对象的第二预测信息；确定所述第一预测信息和所述标注信息之间的第一差异、以及所述第一预测信息和所述第二预测信息之间的第二差异；根据所述第一差异和所述第二差异调整所述卷积神经网络的网络参数。

可选地，结合本发明实施例提供的任一种卷积神经网络训练方法，确定所述第一预测信息和所述标注信息之间的第一差异包括：使用第一损失函数确定第一预测信息和原始样本图像中目标对象的标注信息之间的第一差异，其中，所述第一损失函数用于度量对原始样本图像中的目标对象预测结果的准确度。

可选地，结合本发明实施例提供的任一种卷积神经网络训练方法，确定所述第一预测信息和所述第二预测信息之间的第二差异包括：使用第二损失函数确定第一预测信息和第二预测信息之间的第二差异；其中，所述第二损失函数用于度量对原始样本图像中的目标对象预测结果和对加扰样本图像中的目标对象预测结果的差异。

可选地，结合本发明实施例提供的任一种卷积神经网络训练方法，使用第二损失函数确定第一预测信息和第二预测信息之间的第二差异包括：通过距离计算函数获得所述第一预测信息和所述第二预测信息之间的距离，所述距离为所述第二差异。

可选地，结合本发明实施例提供的任一种卷积神经网络训练方法，根据所述第一差异和所述第二差异调整所述卷积神经网络的网络参数包括：分别对所述第一差异和所述第二差异进行不同的加权处理；根据加权处理后的第一差异和第二差异调整所述卷积神经网络的网络参数。

可选地，结合本发明实施例提供的任一种卷积神经网络训练方法，在所述卷积神经网络包括多个卷积层，每一个卷积层之后设置有一个参数化纠正线性单元PReLU层。

可选地，结合本发明实施例提供的任一种卷积神经网络训练方法，所述训练方法还包括：对所述原始样本图像进行加扰处理，得到所述加扰样本图像。

根据本发明实施例的另一个方面，还提供了一种视频处理方法，包括：获取待检测的视频帧图像；采用如前所述的方法训练而得的卷积神经网络检测所述视频帧图像中的目标对象。

可选地，结合本发明实施例提供的任一种视频处理方法，所述方法还包括：在所述视频帧图像中标示检测出的目标对象。

可选地，结合本发明实施例提供的任一种视频处理方法，所述方法还包括：根据检测出的目标对象，对所述视频帧图像进行前景区域和背景区域分割。

可选地，结合本发明实施例提供的任一种视频处理方法，在对所述视频帧图像进行前景和背景分割之后，所述方法还包括：对所述前景区域进行虚化处理，或者，对所述背景区域进行虚化处理。

可选地，结合本发明实施例提供的任一种视频处理方法，所述目标对象所在的区域为前景区域；或者，所述目标对象所在的区域为背景区域。

可选地，结合本发明实施例提供的任一种视频处理方法，在对所述视频帧图像进行前景和背景分割之后，所述方法还包括：在所述背景区域，使用计算机绘图方式绘制待展示的业务对象，或者，在所述前景区域，使用计算机绘图方式绘制待展示的业务对象。

可选地，结合本发明实施例提供的任一种视频处理方法，在对所述视频帧图像进行前景和背景分割之后，所述方法还包括：根据所述目标对象的类型，确定待展示的业务对象；在所述前景区域，使用计算机绘图方式绘制确定的所述业务对象，或者，在所述背景区域，使用计算机绘图方式绘制确定的所述业务对象。

可选地，结合本发明实施例提供的任一种视频处理方法，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

可选地，结合本发明实施例提供的任一种视频处理方法，所述目标对象包括以下至少之一：人的整个身体、人脸、人手、动物、可移动的物体。

可选地，结合本发明实施例提供的任一种视频处理方法，所述视频帧图像为直播中的视频帧图像。

根据本发明实施例的再一个方面，还提供了一种卷积神经网络训练装置，包括：检测模块，用于基于卷积神经网络对包含有目标对象标注信息的原始样本图像以及与所述原始样本图像对应的加扰样本图像进行检测，得到针对所述原始样本图像中目标对象的第一预测信息以及针对所述加扰样本图像中目标对象的第二预测信息；确定模块，用于确定所述第一预测信息和所述标注信息之间的第一差异、以及所述第一预测信息和所述第二预测信息之间的第二差异；训练模块，用于根据所述第一差异和所述第二差异调整所述卷积神经网络的网络参数。

可选地，结合本发明实施例提供的任一种卷积神经网络训练装置，所述确定模块在确定所述第一预测信息和所述标注信息之间的第一差异时，使用第一损失函数确定第一预测信息和原始样本图像中目标对象的标注信息之间的第一差异，其中，所述第一损失函数用于度量对原始样本图像中的目标对象预测结果的准确度。

可选地，结合本发明实施例提供的任一种卷积神经网络训练装置，所述确定模块在确定所述第一预测信息和所述第二预测信息之间的第二差异时，使用第二损失函数确定第一预测信息和第二预测信息之间的第二差异；其中，所述第二损失函数用于度量对原始样本图像中的目标对象预测结果和对加扰样本图像中的目标对象预测结果的差异。

可选地，结合本发明实施例提供的任一种卷积神经网络训练装置，所述确定模块用于通过距离计算函数获得所述第一预测信息和所述第二预测信息之间的距离，所述距离为所述第二差异。

可选地，结合本发明实施例提供的任一种卷积神经网络训练装置，所述训练模块用于对所述第一差异和所述第二差异进行不同的加权处理；根据加权处理后的第一差异和第二差异调整所述卷积神经网络的网络参数。

可选地，结合本发明实施例提供的任一种卷积神经网络训练装置，所述卷积神经网络包括多个卷积层，每一个卷积层之后设置有一个参数化纠正线性单元PReLU层。

可选地，结合本发明实施例提供的任一种卷积神经网络训练装置，所述装置还包括：加扰模块，用于对所述原始样本图像进行加扰处理，得到所述加扰样本图像。

根据本发明实施例的又一个方面，还提供了一种视频处理装置，包括：获取模块，用于获取待检测的视频帧图像；检测模块，用于采用如前所述的装置训练而得的卷积神经网络检测所述视频帧图像中的目标对象。

可选地，结合本发明实施例提供的任一种视频处理装置，所述装置还包括：标示模块，用于在所述视频帧图像中标示检测出的目标对象。

可选地，结合本发明实施例提供的任一种视频处理装置，所述装置还包括：分割模块，用于根据检测出的目标对象，对所述视频帧图像进行前景区域和背景区域分割。

可选地，结合本发明实施例提供的任一种视频处理装置，所述装置还包括：虚化模块，用于在所述分割模块对所述视频帧图像进行前景和背景分割之后，对所述前景区域进行虚化处理，或者对所述背景区域进行虚化处理。

可选地，结合本发明实施例提供的任一种视频处理装置，所述目标对象所在的区域为前景区域；或者，所述目标对象所在的区域为背景区域。

可选地，结合本发明实施例提供的任一种视频处理装置，所述装置还包括：业务模块，用于在所述分割模块对所述视频帧图像进行前景和背景分割之后，在所述背景区域或所述前景区域，使用计算机绘图方式绘制待展示的业务对象。

可选地，结合本发明实施例提供的任一种视频处理装置，所述业务模块，还用于在所述分割模块对所述视频帧图像进行前景和背景分割之后，根据所述目标对象的类型，确定待展示的业务对象；在所述前景区域，使用计算机绘图方式绘制确定的所述业务对象，或者，在所述背景区域，使用计算机绘图方式绘制确定的所述业务对象。

可选地，结合本发明实施例提供的任一种视频处理装置，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

可选地，结合本发明实施例提供的任一种视频处理装置，所述目标对象包括以下至少之一：人的整个身体、人脸、人手、动物、可移动的物体。

可选地，结合本发明实施例提供的任一种视频处理装置，所述视频帧图像为直播中的视频帧图像。

根据本发明实施例的又一个方面，还提供了一种电子设备，包括：第一处理器、第一存储器、第一通信接口和第一通信总线，所述第一处理器、所述第一存储器和所述第一通信接口通过所述第一通信总线完成相互间的通信；所述第一存储器用于存放至少一可执行指令，所述可执行指令使所述第一处理器执行如前所述的卷积神经网络训练方法对应的操作。

根据本发明实施例的又一个方面，还提供了一种电子设备，包括：第二处理器、第二存储器、第二通信接口和第二通信总线，所述第二处理器、所述第二存储器和所述第二通信接口通过所述第二通信总线完成相互间的通信；所述第二存储器用于存放至少一可执行指令，所述可执行指令使所述第二处理器执行如前所述的视频处理方法对应的操作。

根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于基于卷积神经网络对包含有目标对象标注信息的原始样本图像以及与所述原始样本图像对应的加扰样本图像进行检测，得到针对所述原始样本图像中目标对象的第一预测信息以及针对所述加扰样本图像中目标对象的第二预测信息的可执行指令；用于确定所述第一预测信息和所述标注信息之间的第一差异、以及所述第一预测信息和所述第二预测信息之间的第二差异的可执行指令；用于根据所述第一差异和所述第二差异调整所述卷积神经网络的网络参数的可执行指令。

根据本发明实施例的又一方面，还提供了另一种计算机可读存储介质，所述计算机可读存储介质存储有：用于获取待检测的视频帧图像的可执行指令；用于采用如前所述的方法训练而得的卷积神经网络检测所述视频帧图像中的目标对象的可执行指令。

根据本发明实施例提供的技术方案，使用原始样本图像和加扰后的样本图像训练卷积神经网络模型，其中，通过对原始样本图像加扰形成加扰后的样本图像，可以模拟视频播放中相邻或时序间隔较近的两帧视频帧图像；在分别获得针对原始样本图像进行检测后的第一预测信息和针对加扰后的样本图像进行检测后的第二预测信息的基础上，确定第一预测信息与原始样本图像中的标注信息之间的第一差异，以及第一预测信息和第二预测信息之间的第二差异；进而，根据第一差异和第二差异对卷积神经网络模型进行训练。其中，根据第一差异对卷积神经网络模型进行训练可以使得卷积神经网络模型具有目标对象检测的功能；第二差异可以反映第一预测信息和第二预测信息之间的差异，将其作为更新卷积神经网络模型的参数的依据，一定程度上相当于以模拟的帧间目标对象的差异为网络训练的依据，该第二差异能够约束只有细微差异的两帧图像的卷积神经网络模型预测信息，迫使卷积神经网络模型最终应用在视频帧处理时，两帧图像之间的预测信息差异变小。在卷积神经网络训练过程汇总，使用所述第一差异和所述第二差异调整卷积神经网络的网络参数，可以大大提高训练后的卷积神经网络对目标对象检测的精准度，有效降低检测过程中视频帧图像的帧间抖动，提升用户视频观看体验。

附图说明

图1是根据本发明实施例一的一种卷积神经网络训练方法的步骤流程图；

图2是根据本发明实施例二的一种卷积神经网络训练方法的步骤流程图；

图3是根据本发明实施例三的一种卷积神经网络训练方法的步骤流程图；

图4是根据本发明实施例四的一种视频处理方法的步骤流程图；

图5是根据本发明实施例五的一种卷积神经网络训练装置的结构框图；

图6是根据本发明实施例六的一种视频处理装置的结构框图；

图7是根据本发明实施例七的一种电子设备的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

实施例一

参照图1，示出了根据本发明实施例一的一种卷积神经网络训练方法的步骤流程图。

本实施例的卷积神经网络训练方法包括以下步骤：

步骤S100：基于卷积神经网络对包含有目标对象标注信息的原始样本图像以及与原始样本图像对应的加扰样本图像进行检测，得到针对原始样本图像中目标对象的第一预测信息以及针对加扰样本图像中目标对象的第二预测信息。

本实施例中，对原始样本图像进行加扰，生成加扰样本图像，通过对原始样本图像加扰形成加扰后的样本图像，可以模拟视频播放中相邻或时序间隔较近的两帧视频帧图像。

本实施例使用原始样本图像和加扰样本图像对卷积神经网络进行训练，其中，通过对原始样本图像的训练，可以得到原始样本图像中目标对象(包括但不限于人体整体、人脸、人手、动物、可移动的物体如交通工具等)的第一预测信息；通过对加扰后的样本图像的训练，可以得到加扰样本图像中目标对象的第二预测信息。

步骤S200：确定第一预测信息和标注信息之间的第一差异、以及第一预测信息和第二预测信息之间的第二差异。

通过确定第一预测信息和原始样本图像中目标对象的标注信息的差异，可以对当前的训练结果进行评估，以作为后续卷积神经网络训练的依据；而通过确定第一预测信息和第二预测信息之间的差异，可以对相邻或时序间隔较近的两帧中的同一目标对象的预测进行评估，约束只有细微差异的两帧图像的卷积神经网络模型预测信息，迫使卷积神经网络模型最终应用在视频帧处理时，两帧图像之间的预测信息差异变小。

步骤S300：根据第一差异和第二差异调整卷积神经网络的网络参数。

卷积神经网络的训练是一个迭代的过程，本发明实施例仅对其中的一次训练过程进行了说明，但本领域技术人员应当明了，对卷积神经网络的每次训练都可采用该训练方式，直至完成卷积神经网络的训练。

实施例二

参照图2，示出了根据本发明实施例二的一种卷积神经网络训练方法的步骤流程图。

本实施例的图像检测网络训练方法包括以下步骤：

步骤S102：获取待训练的原始样本图像。

其中，原始样本图像中包含有目标对象的标注信息，也即，预先对待训练的原始样本图像进行目标对象的标注，以进行卷积神经网络的目标对象检测训练。

步骤S104：对原始样本图像进行加扰处理，获取加扰后的样本图像。

本实施例中，对每一个待训练的原始样本图像，加入一个微小的扰动，生成出新的图像，原始样本图像和新生成的图像都将输入训练网络，进行卷积神经网络训练。

其中，对原始样本图像进行加扰可以由本领域技术人员采用任意适当的方式进行，包括但不限于各种图像的预处理操作，如对比度调整、旋转拉伸等等。在一种可行方式中，还可以使用扰动函数对原始样本图像进行加扰处理，扰动函数包括但不限于高斯噪声函数和位移变换函数。在一种优选方案中，采取高斯噪声加最大为0.5个像素的位移变换的扰动函数。但不限于此，其他的扰动函数也同样适用。

步骤S106：将原始样本图像和加扰后的样本图像输入卷积神经网络进行检测训练，获得针对原始样本图像的第一预测信息和针对加扰样本图像的第二预测信息。

原始样本图像和加扰样本图像一起输入卷积神经网络进行检测训练，分别获得对应的预测信息。其中，卷积神经网络中的卷积层部分可以采用常规的卷积层部分，包括但不限于卷积层、非线性响应单元ReLU层、特征提取层、计算层等，对原始样本图像和加扰样本图像的处理可以参照相关的卷积网络神经的处理进行，在此不再赘述。经卷积神经网络的检测训练后，获得相应的预测信息，对于原始样本图像，该预测信息为对原始样本图像中目标对象的检测结果；对于加扰样本图像，该预测信息为对加扰样本图像中的目标对象的检测结果(某次的预测信息可以理解为卷积神经网络在某次训练过程中的输出结果)。

步骤S108：确定第一预测信息和原始样本图像中目标对象的标注信息之间的第一差异、以及第一预测信息和第二预测信息之间的第二差异。

本实施例中，使用第一损失函数确定第一预测信息和原始样本图像中目标对象的标注信息之间的第一差异；使用第二损失函数确定第一预测信息和第二预测信息之间的第二差异。

其中，第一损失函数用于度量对原始样本图像中的目标对象检测结果的准确度，第二损失函数用于度量对原始样本图像中的目标对象检测结果和对加扰样本图像中的目标对象检测结果的差异。第一损失函数可以为常规的卷积神经网络模型中的分类函数，如Logistic函数或者Softmax函数等，通过第一损失函数获得的损失值为第一损失值。第二损失函数可以为适当的度量两个检测结果差异的函数。一种可行方案中，可以使用适当的距离计算函数作为第二损失函数，在此情况下，先获得第一预测信息和第二预测信息；使用距离计算函数计算第一预测信息和所二卷积结果之间的距离；将所述距离确定为第二损失值，该损失值即为第二差异。其中，距离计算函数可以为任意适当的函数，如欧式距离计算函数、马式距离计算函数，或者也可以为Softmax函数等等。

需要说明的是，获得第一差异和获得第二差异的执行可以不分先后顺序，也可以并行执行。

步骤S110：根据第一差异和第二差异调整卷积神经网络模型的网络参数。

将第一差异和第二差异均作为更新卷积神经网络的依据，以使参数更新更为有效，训练出的卷积神经网络能够更为精准地进行目标对象检测。

作为调整卷积神经网络参数的依据，在一种可选方案中，可以分别对第一差异和第二差异进行不同的加权处理；根据加权处理后的第一差异和第二差异调整卷积神经网络的网络参数。若希望训练出的卷积神经网络的防抖动效果较好，则可以为第二差异设置较高的权重，反之，若希望训练出的卷积神经网络的检测效果较好，则可以为第一差异设置较高的权重。其中，权重的具体数值可以根据损失函数计算出的距离度量之间的关系设置，例如，若第一损失函数采用Softmax函数，第二损失函数采用欧式距离计算函数，则可将第一差异的权重设置为1，将第二差异的权重设置为0.001～0.005，优选地，可设置为0.001；再例如，若第一差异和第二差异均采用Softmax函数，则可将第一差异的权重设置为1，将第二差异的权重设置为1～2。通过对第一差异和第二差异进行加权处理，可以灵活地进行卷积神经网络的功能训练。

当然，在实际应用中，也可以不对第一差异和第二差异进行加权调整。

对卷积神经网络的训练是一个迭代过程，需要有一个训练终止条件，该条件可以如迭代训练次数，也可以如收敛条件。因此，可以判断对卷积神经网络的训练是否满足预定的训练终止条件；若不满足，则根据第一差异和第二差异调整卷积神经网络的网络参数，使用调整后的网络参数继续训练卷积神经网络，直至满足预定的训练终止条件；若满足，则完成对卷积神经网络的训练。

在传统的对图像进行检测和识别的过程中，每一帧图像都是单独处理的，且每一帧图像都会出现一定概率的误判点，对每一帧图像进行处理产生的误判结果独立地以一定概率出现，由此导致图像的帧间抖动比较剧烈，影响用户观感。而通过本发明实施例提供的技术方案，使用原始样本图像和加扰后的样本图像训练卷积神经网络，其中，通过对原始样本图像加扰形成加扰后的样本图像，可以模拟视频播放中相邻或时序间隔较近的两帧视频帧图像；在分别获得针对原始样本图像进行检测后的第一预测信息和针对加扰后的样本图像进行检测后的第二预测信息的基础上，确定第一预测信息与原始样本图像中的标注信息之间的第一差异，以及第一预测信息和第二预测信息之间的第二差异；进而，根据第一差异和第二差异对卷积神经网络模型进行训练。其中，根据第一差异对卷积神经网络模型进行训练可以使得卷积神经网络模型具有目标对象检测的功能；第二差异可以反映第一预测信息和第二预测信息之间的差异，将其作为更新卷积神经网络模型的参数的依据，一定程度上相当于以模拟的帧间目标对象的差异为网络训练的依据，该第二差异能够约束只有细微差异的两帧图像的卷积神经网络模型预测信息，迫使卷积神经网络模型最终应用在视频帧处理时，两帧图像之间的预测信息差异变小。在卷积神经网络训练过程汇总，使用所述第一差异和所述第二差异调整卷积神经网络的网络参数，可以大大提高训练后的卷积神经网络对目标对象检测的精准度，有效降低检测过程中视频帧图像的帧间抖动，提升用户视频观看体验。

本实施例的图像检测网络训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：移动终端、PC机等。

实施例三

参照图3，示出了根据本发明实施例三的一种卷积神经网络训练方法的步骤流程图。

本实施例结合卷积神经网络模型的结构，以一个具体的卷积神经网络模型实例的形式，对本发明实施例的卷积神经网络训练方法进行说明。

本实施例的卷积神经网络训练方法包括以下步骤：

步骤S202：将待训练的原始样本图像输入卷积神经网络。

步骤S204：对输入的原始样本图像进行加扰，获得加扰后的样本图像。

步骤S206：将原始样本图像和加扰后的样本图像一起输入至卷积层部分。

步骤S208：对原始样本图像和加扰后的样本图像进行常规卷积层部分的处理，输出针对原始样本图像的第一预测信息和针对加扰后的样本图像的第二预测信息。

步骤S210：通过第一损失函数，计算原始样本图像的预测信息与预定的正确标注结果之间的第一损失值；并且，通过第二损失函数，计算加扰后的样本图像的预测信息与原始样本图像的预测信息之间的第二损失值。

步骤S212：通过反向传播算法将第一损失值和第二损失值反向传播，更新卷积神经网络的网络参数。

其中，更新的卷积神经网络的网络参数包括但不限于：层间输出线性变化的权重、卷积核的值，等等

此外，如实施例二中所述，在反向传播更新卷积神经网络的网络参数之前，还可以根据实际的训练需要为第一损失值(即第一差异)和第二损失值(即第二差异)设置适当的权重，对第一损失值和第二损失值进行加权处理，然后，再根据加权处理后的第一损失值和第二损失值更新卷积神经网络的网络参数。

以下，以一个具体实例对卷积神经网络的结构进行简要说明。

//第一部分

1.数据输入层

2.<＝1扰动层

3.<＝结对1层输入的原始样本图像和2层得到的扰动后的样本图像

//第二部分

4.<＝3卷积层1_1(3x3x4/2)

5.<＝4非线性响应PReLU层

6.<＝5卷积层1_2(3x3x6/2)

7.<＝6非线性响应PReLU层

8.<＝7卷积层1_3(3x3x6)

9.<＝8非线性响应PReLU层

10.<＝9卷积层2_1(3x3x12/2)

11.<＝10非线性响应PReLU层

12.<＝11卷积层2_2(3x3x12)

13.<＝12非线性响应PReLU层

14.<＝13卷积层3_1(3x3x16/2)

15.<＝14非线性响应PReLU层

16.<＝15卷积层3_2(3x3x16)

17.<＝16非线性响应PReLU层

18.<＝17卷积层3_3(3x3x16)

19.<＝18非线性响应PReLU层

20.<＝19卷积层3_4(3x3x16)

21.<＝20非线性响应PReLU层

22.<＝21卷积层4_1(3x3x16)

23.<＝22非线性响应PReLU层

24.<＝23卷积层4_2(3x3x16)

25.<＝24非线性响应PReLU层

26.<＝25卷积层4_3(3x3x16)

27.<＝26非线性响应PReLU层

28.<＝27卷积层5_1(3x3x16)

29.<＝28非线性响应PReLU层

30.<＝29卷积层5_2(3x3x16)

31.<＝30非线性响应PReLU层

32.<＝31卷积层5_3(3x3x16)

33.<＝32非线性响应PReLU层

34.<＝33卷积层5_4(3x3x16)

35.<＝34非线性响应PReLU层

36.<＝35卷积层fc6(3x3x24)

37.<＝36非线性响应PReLU层

38.<＝37卷积层fc7(1x1x32)

39.<＝38非线性响应PReLU层

40.<＝39卷积层fc7a(1x1x32)

41.<＝40非线性响应PReLU层

42.<＝41卷积层fc7b(1x1x32)

43.<＝42非线性响应PReLU层

44.<＝43卷积层fc8(1x1x2)

//第三部分

//a分支：

45.<＝44原始样本图像的第一预测信息

46.<＝45softmaxloss(第一损失函数)

//b分支：

47.<＝44加扰后的样本图像的第二预测信息

48.<＝45层的第一预测信息和47层的第二预测信息之间的欧式距离损失函数(第二损失函数)

需要说明的是：

第一，上述a分支和b分支共享44层的卷积结果，节省了计算资源。

第二，本实施例中，上述a分支主要实现目标对象检测，b分支主要实现防抖动处理。

第三，上述卷积网络结构的说明中，2.<＝1表明当前层为第二层，输入为第一层；卷积层后面括号为卷积层参数(3x3x16)表明卷积核大小为3x3,通道数为16。其它依此类推，不再赘述。

在上述卷积网络结构中，每个卷积层之后都有一个非线性响应单元，该非线性响应单元采用PReLU(ParametricRectified Linear Units，参数化纠正线性单元)，可以有效提高卷积神经网络模型的目标对象检测精度。

将卷积层的卷积核设为3x3，能更好的综合局部信息；设定卷积层的间隔stride，可以让上层特征在不增加计算量的前提下获得更大的视野。

但本领域技术人员应当明了的是，上述卷积核的大小、通道数、以及卷积层的层数数量均为示例性说明，在实际应用中，本领域技术人员可以根据实际需要进行适应性调整，本发明实施例对此不作限制。此外，本实施例中的卷积网络中的所有层的组合及参数都是可选的，可以任意组合。

通过本实施例，卷积神经网络不单能够学习到如何正确学习分割目标图像；而且能够保证针对相邻或时序间隔较近的两帧，输出的分割结果不会有太大的偏移。由此，得以训练出具有防止最终分割结果帧间抖动效果的卷积神经网络。

实施例四

参照图4，示出了根据本发明实施例四的一种视频处理方法的步骤流程图。

本实施例中，采用实施例一、二或三中示出的经过训练的卷积神经网络对视频进行目标对象检测，实现视频帧图像中目标对象的防抖动处理。

本实施例的视频处理方法包括以下步骤：

步骤S302：获取待检测的视频帧图像。

在一种可选方案中，视频帧图像为直播视频中的图像。

在直播视频中，往往有较高的目标对象防抖动需要。以通过增强现实AR技术为主播增添装饰素材为例，若相邻或时序间隔较近的视频图像间，主播图像抖动较严重，则该素材无法准确增添，影响视频效果和用户观感。需要通过防抖动手段在保证主播的准确检测、识别的同时，避免帧间抖动。

步骤S304：采用具有防抖动功能的卷积神经网络检测所述视频帧图像中的目标对象。

本实施例中，采用如实施例一、二或三中所示的方法训练而得的卷积神经网络。通过该网络可以快速准确地定位出视频帧图像中的目标对象，而且能够有效避免目标对象抖动。

其中，目标对象包括但不限于以下至少之一：人的整个身体、人脸、人手、动物、可移动的物体。

步骤S306：基于检测出的目标对象，对视频帧图像进行处理。

对视频帧图像的处理包括但不限于以下方式：

方式1：在视频帧图像中标示检测出的目标对象。

例如，使用矩形框，或者使用连续或非连续轮廓线等对检测出的目标对象进行标示。

方式2：根据检测出的目标对象，对视频帧图像进行前景区域和背景区域分割。

例如，在某些场景下，需要对视频帧图像中的人物重点显示，则可以以该人物为目标对象，该目标对象为该视频帧图像的前景区域，采用适当的着重显示方式，对其进行重点显示。

此外，基于方式2的前背景分割结果，还可以进行以下处理：

方式3：基于对视频帧图像的前景和背景分割，对前景区域进行虚化处理或者对背景区域进行虚化处理。

其中，目标对象所在的区域为前景区域，当然，也可以将目标对象所在的区域设定为背景区域，虚化处理可以由本领域技术人员根据实际需求，采用任意适当的方式实现，本发明实施例对此不作限制。

方式4：基于对视频帧图像的前景和背景分割，在获取到前景区域和背景区域后，可以在背景区域或前景区域，使用计算机绘图方式绘制待展示的业务对象；或者，根据目标对象的类型，确定待展示的业务对象；在前景区域或背景区域，使用计算机绘图方式绘制确定的所述业务对象。

其中，业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

例如，当在背景区域展示业务对象时，可以从所有业务对象中选择确定适合的业务对象，如文字和/或图片；当在目标对象所在的前景区域展示业务对象时，可以从所有业务对象中选择确定适合目标对象的业务对象，如头饰、发饰等等。

对业务对象的采用计算机绘图方式绘制可以通过适当的计算机图形图像绘制或渲染等方式实现，包括但不限于：基于OpenGL图形绘制引擎进行绘制等。OpenGL定义了一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口，其与硬件无关，可以方便地进行2D或3D图形图像的绘制。通过OpenGL，不仅可以实现2D效果如2D贴纸的绘制，还可以实现3D特效的绘制及粒子特效的绘制等等。但不限于OpenGL，其它方式，如Unity或OpenCL等也同样适用。

本实施例的视频处理方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：移动终端、PC机、服务器等。

在实际应用中，需要对视频帧图像中的目标对象进行防抖处理，例如，需要检测出视频帧图像中的目标对象，然后根据检测结果进行前背景分割，以目标对象所在的区域为前景区域为例，若需要对目标对象进行贴纸操作，如在额头上进行装饰贴纸，传统方式在这种情况下会因对图像进行前述处理而出现目标对象的抖动，无法将装饰贴纸贴在适当的位置，而通过本发明实施例提供的方案，有效减小了因对图像的处理而造成的抖动，能够对目标对象进行较为准确地处理。

可见，通过本实施例的视频处理方法，可以准确有效地对视频帧图像中的目标对象进行检测和定位，并有效降低视频帧图像抖动，提升用户视频观看体验。

实施例五

参照图5，示出了根据本发明实施例五的一种卷积神经网络训练装置的结构框图。

本实施例的卷积神经网络训练装置包括：检测模块402，用于基于卷积神经网络对包含有目标对象标注信息的原始样本图像以及与原始样本图像对应的加扰样本图像进行检测，得到针对原始样本图像中目标对象的第一预测信息以及针对所述加扰图像中目标对象的第二预测信息；确定模块404，用于确定第一预测信息和标注信息之间的第一差异、以及第一预测信息和第二预测信息之间的第二差异；训练模块406，用于根据第一差异和第二差异调整卷积神经网络的网络参数。

可选地，确定模块404在确定第一预测信息和标注信息之间的第一差异时，使用第一损失函数确定第一预测信息和原始样本图像中目标对象的标注信息之间的第一差异，其中，第一损失函数用于度量对原始样本图像中的目标对象预测结果的准确度。

可选地，确定模块404在确定第一预测信息和所述第二预测信息之间的第二差异时，使用第二损失函数确定第一预测信息和第二预测信息之间的第二差异；其中，第二损失函数用于度量对原始样本图像中的目标对象预测结果和对加扰样本图像中的目标对象预测结果的差异。

可选地，确定模块404用于通过距离计算函数获得第一预测信息和所述第二预测信息之间的距离，所述距离为第二差异。

可选地，训练模块406用于对第一差异和第二差异进行不同的加权处理；根据加权处理后的第一差异和第二差异调整卷积神经网络的网络参数。

可选地，在卷积神经网络包括多个卷积层，每一个卷积层之后设置有一个PReLU层。

可选地，本实施例的卷积神经网络训练装置还包括：加扰模块408，用于对原始样本图像进行加扰处理，得到加扰样本图像。

本实施例的卷积神经网络训练装置用于实现前述方法实施例中相应的卷积神经网络训练方法，且具有相应方法实施例的有益效果，在此不再赘述。

实施例六

参照图6，示出了根据本发明实施例六的一种视频处理装置的结构框图。

本实施例的视频处理装置包括：获取模块502，用于获取待检测的视频帧图像；检测模块504，用于采用如实施例五中所述的卷积神经网络训练装置训练而得的卷积神经网络模型检测视频帧图像中的目标对象。

可选地，本实施例的视频处理装置还包括：标示模块506，用于在视频帧图像中标示检测出的目标对象。

可选地，本实施例的视频处理装置还包括：分割模块508，用于根据检测出的目标对象，对视频帧图像进行前景区域和背景区域分割。

可选地，本实施例的视频处理装置还包括：虚化模块510，用于在分割模块508对视频帧图像进行前景和背景分割之后，对前景区域进行虚化处理或者对背景区域进行虚化处理。

可选地，目标对象所在的区域为前景区域；或者，目标对象所在的区域为背景区域。

可选地，本实施例的视频处理装置还包括：业务模块512，用于在分割模块508对视频帧图像进行前景和背景分割之后，在背景区域，使用计算机绘图方式绘制待展示的业务对象，或者，在前景区域，使用计算机绘图方式绘制待展示的业务对象。

可选地，业务模块512还用于在分割模块508对视频帧图像进行前景和背景分割之后，根据目标对象的类型，确定待展示的业务对象；在前景区域，使用计算机绘图方式绘制确定的业务对象，或者，在背景区域，使用计算机绘图方式绘制确定的业务对象。

可选地，业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

可选地，目标对象包括以下至少之一：人的整个身体、人脸、人手、动物、可移动的物体。

可选地，视频帧图像为直播中的视频帧图像。

本实施例的视频处理装置用于实现前述方法实施例中相应的视频处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例七

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图7，其示出了适于用来实现本发明实施例的电子设备600的结构示意图。

如图7所示，电子设备600包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)601，和/或一个或多个图像处理器(GPU)613等，处理器可以根据存储在只读存储器(ROM)602中的可执行指令或者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执行各种适当的动作和处理。通信部612可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器602和/或随机访问存储器630中通信以执行可执行指令，通过总线604与通信部612相连、并经通信部612与其他目标设备通信，从而完成本发明实施例提供的任一项方法对应的操作，例如，基于卷积神经网络对包含有目标对象标注信息的原始样本图像以及与原始样本图像对应的加扰样本图像进行检测，得到针对原始样本图像中目标对象的第一预测信息以及针对加扰样本图像中目标对象的第二预测信息；确定第一预测信息和标注信息之间的第一差异、以及第一预测信息和第二预测信息之间的第二差异；根据第一差异和第二差异调卷积神经网络的网络参数。或者，例如，获取待检测的视频帧图像；采用本发明实施例中提供的卷积神经网络训练方法训练而得的卷积神经网络模型检测视频帧图像中的目标对象。

此外，在RAM 603中，还可存储有装置操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。在有RAM603的情况下，ROM602为可选模块。RAM603存储可执行指令，或在运行时向ROM602中写入可执行指令，可执行指令使处理器601执行上述卷积神经网络训练方法对应的操作。输入/输出(I/O)接口605也连接至总线604。通信部612可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

需要说明的，如图7所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，基于卷积神经网络对包含有目标对象标注信息的原始样本图像以及与原始样本图像对应的加扰样本图像进行检测，得到针对原始样本图像中目标对象的第一预测信息以及针对加扰样本图像中目标对象的第二预测信息；确定第一预测信息和标注信息之间的第一差异、以及第一预测信息和第二预测信息之间的第二差异；根据第一差异和第二差异调整所述卷积神经网络的网络参数；又例如，获取待检测的视频帧图像；采用本发明实施例中提供的卷积神经网络训练方法训练而得的卷积神经网络模型检测视频帧图像中的目标对象。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明实施例提供的方法中限定的上述功能。

通过本实施例的电子设备，使用原始样本图像和加扰后的样本图像训练卷积神经网络模型，其中，通过对原始样本图像加扰形成加扰后的样本图像，可以模拟视频播放中相邻或时序间隔较近的两帧视频帧图像；在分别获得针对原始样本图像进行检测后的第一预测信息和针对加扰后的样本图像进行检测后的第二预测信息的基础上，确定第一预测信息与原始样本图像中的标注信息之间的第一差异，以及第一预测信息和第二预测信息之间的第二差异；进而，根据第一差异和第二差异对卷积神经网络模型进行训练。其中，根据第一差异对卷积神经网络模型进行训练可以使得卷积神经网络模型具有目标对象检测的功能；第二差异可以反映第一预测信息和第二预测信息之间的差异，将其作为更新卷积神经网络模型的参数的依据，一定程度上相当于以模拟的帧间目标对象的差异为网络训练的依据，该第二差异能够约束只有细微差异的两帧图像的卷积神经网络模型预测信息，迫使卷积神经网络模型最终应用在视频帧处理时，两帧图像之间的预测信息差异变小。在卷积神经网络训练过程汇总，使用所述第一差异和所述第二差异调整卷积神经网络的网络参数，可以大大提高训练后的卷积神经网络对目标对象检测的精准度，有效降低检测过程中视频帧图像的帧间抖动，提升用户视频观看体验。

并且，可以准确有效地对视频帧图像中的目标对象进行检测和定位，并有效降低视频帧图像的帧间抖动，提升用户视频观看体验。

可能以许多方式来实现本发明实施例提供的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例提供的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明实施例提供的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施例实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明实施例提供的方法的机器可读指令。因而，本发明实施例提供还覆盖存储用于执行根据本发明实施例提供的方法的程序的记录介质。

本发明实施例提供的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种卷积神经网络训练方法，包括：

基于卷积神经网络对包含有目标对象标注信息的原始样本图像以及与所述原始样本图像对应的加扰样本图像进行检测，得到针对所述原始样本图像中目标对象的第一预测信息以及针对所述加扰样本图像中目标对象的第二预测信息；

确定所述第一预测信息和所述标注信息之间的第一差异、以及所述第一预测信息和所述第二预测信息之间的第二差异；

根据所述第一差异和所述第二差异调整所述卷积神经网络的网络参数。

2.根据权利要求1所述的方法，其中，确定所述第一预测信息和所述标注信息之间的第一差异包括：

使用第一损失函数确定第一预测信息和原始样本图像中目标对象的标注信息之间的第一差异，其中，所述第一损失函数用于度量对原始样本图像中的目标对象预测结果的准确度。

3.根据权利要求1或2所述的方法，其中，还包括：

对所述原始样本图像进行加扰处理，得到所述加扰样本图像。

4.一种视频处理方法，包括：

获取待检测的视频帧图像；

采用如权利要求1-3任一所述的方法训练而得的卷积神经网络检测所述视频帧图像中的目标对象。

5.根据权利要求4所述的方法，其中，所述方法还包括：

根据检测出的目标对象，对所述视频帧图像进行前景区域和背景区域分割。

6.根据权利要求5所述的方法，其中，在对所述视频帧图像进行前景和背景分割之后，所述方法还包括：

对所述前景区域进行虚化处理；或者，

对所述背景区域进行虚化处理。

7.一种卷积神经网络训练装置，包括：

检测模块，用于基于卷积神经网络对包含有目标对象标注信息的原始样本图像以及与所述原始样本图像对应的加扰样本图像进行检测，得到针对所述原始样本图像中目标对象的第一预测信息以及针对所述加扰样本图像中目标对象的第二预测信息；

确定模块，用于确定所述第一预测信息和所述标注信息之间的第一差异、以及所述第一预测信息和所述第二预测信息之间的第二差异；

训练模块，用于根据所述第一差异和所述第二差异调整所述卷积神经网络的网络参数。

8.根据权利要求7所述的装置，其中，所述装置还包括：

加扰模块，用于对所述原始样本图像进行加扰处理，得到所述加扰样本图像。

9.一种视频处理装置，包括：

获取模块，用于获取待检测的视频帧图像；

检测模块，用于采用如权利要求7或8所述的装置训练而得的卷积神经网络检测所述视频帧图像中的目标对象。

10.一种电子设备，包括：第一处理器、第一存储器、第一通信接口和第一通信总线，所述第一处理器、所述第一存储器和所述第一通信接口通过所述第一通信总线完成相互间的通信；

所述第一存储器用于存放至少一可执行指令，所述可执行指令使所述第一处理器执行如权利要求1-3任一项所述的卷积神经网络训练方法对应的操作。