CN105893927A

CN105893927A - 动画视频识别与编码方法及装置

Info

Publication number: CN105893927A
Application number: CN201510958701.0A
Authority: CN
Inventors: 刘阳; 蔡砚刚; 魏伟; 白茂生
Original assignee: LeTV Cloud Computing Co Ltd
Current assignee: Tianjin Zhirong Innovation Technology Development Co.,Ltd.
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2016-08-24
Anticipated expiration: 2035-12-18
Also published as: US20170180752A1; WO2017101347A1; CN105893927B

Abstract

本发明实施例提供一种动画视频识别与编码方法及装置。将待识别视频进行降维处理，获取所述待识别视频的输入特征参数；根据所述输入特征参数调用预先训练的特征模型，判断所述待识别视频是否为动画视频；当判定所述待识别视频为动画视频，则调整所述待识别视频的编码参数以及码率。在获得清晰视频的前提下，节省带宽、提高编码效率。

Description

动画视频识别与编码方法及装置

技术领域

本发明实施例涉及视频技术领域，尤其涉及一种动画视频识别与编码方法及装置。

背景技术

随着多媒体技术的快速发展，大量的动画类视频被制作并在互联网上传播。

对于视频网站而言，需要将视频进行重新编码以便用户能够流畅、清晰地观看。相对于传统视频内容而言(电视剧、电影等)，动画类视频内容简单，表现为颜色分布集中，线条轮廓稀疏等特点。基于上述特点，在获得相同清晰度的情况下，动画类视频需要的编码参数与传统内容的视频需要的编码参数可以不同。例如对于动画类视频，可以降低编码的码率，但却可以获得与传统内容的视频在高码率情况下一致的清晰度。

因此，一种动画视频识别与编码方法及装置亟待提出。

发明内容

本发明实施例提供一种动画视频识别与编码方法及装置，用以解决现有技术中用户需要手动按键切换视频输出模式的缺陷，实现视频输出模式的自动切换。

本发明实施例提供一种动画视频识别与编码方法，包括：

将待识别视频进行降维处理，获取所述待识别视频的输入特征参数；

根据所述输入特征参数调用预先训练的特征模型，判断所述待识别视频是否为动画视频；

当判定所述待识别视频为动画视频，则调整所述待识别视频的编码参数以及码率。

本发明实施例提供一种动画视频识别与编码装置，包括：

参数获取模块，用于将待识别视频进行降维处理，获取所述待识别视频的输入特征参数；

判断模块，用于根据所述输入特征参数调用预先训练的特征模型，判断所述待识别视频是否为动画视频；

编码模块，当判定所述待识别视频为动画视频，用于调整所述待识别视频的编码参数以及码率。

本发明实施例提供的动画视频识别与编码方法及装置，通过预先训练的特征模型自动识别出视频库内的动画类视频，并在保证和其他内容视频一致的清晰度的情况下，调整编码参数，从而在获得清晰视频的前提下，节省带宽、提高编码效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一的技术流程图；

图2为本发明实施例二的技术流程图；

图3为本发明实施例三的装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1是本发明实施例一的技术流程图，参考图1，本发明实施例一种动画视频识别与编码方法，主要包括如下的三个步骤：

步骤110：将待识别视频进行降维处理，获取所述待识别视频的输入特征参数；

本发明实施例中，对所述待识别视频进行降维处理，其目的在于，提取视频帧的所述输入特征参数，将视频帧较大的维数转化为用所述特征参数表示的较小的维度，从而与预先训练的特征模型进行匹配，从而对所述待识别视频进行分类。具体降维的过程具体由以下步骤111～步骤113实现：

步骤111：获取所述待处理视频的每一视频帧，并将非RGB颜色空间的视频帧转化至RGB颜色空间。

大量待处理视频的格式不同，其对应的色彩空间也可能是多样的，需要将其转化为同一色彩空间，按照同样的标准和参数对所述待处理视频进行分类，简化了分类计算的复杂度，同时提升了分类的准确性。以下部分将例举非RGB颜色空间转换至RGB颜色空间的转换公式，当然，应当理解，以下部分仅供举例从而对本发明实施例做进一步阐述，但对本发明实施例并不构成限制。任何能实现本发明实施例非RGB颜色空间转换至RGB颜色空间的算法均在本发明实施例的保护范围之内。

如下公式所示，自然界中任何一种色光都可由R、G、B三基色按不同的比例相加混合而成：

F＝r*R+g*G+b*B

调整三色系数r、g、b中的任一系数都会改变F的坐标值，也即改变了F的色值。当三基色分量都为0(最弱)时混合为黑色光；当三基色分量都为k(最强)时混合为白色光。

RGB颜色空间采用物理三基色表示，因而物理意义很清楚。然而这一体制并不适应人的视觉特点。因而，产生了其他不同的颜色空间表示法，例如CMY颜色空间、CMYK颜色空间、HSI颜色空间、HSV颜色空间等。

彩色印刷或彩色打印的纸张是不能发射光线的，因而印刷机或彩色打印机就只能使用一些能够吸收特定的光波而反射其他光波的油墨或颜料。油墨或颜料的3基色是青(Cyan)、品红(Magenta)和黄(Yellow)，简称为CMY。CMY空间正好与RGB空间互补，也即用白色减去RGB空间中的某一颜色值就等于同样颜色在CMY空间中的值，即当CMY颜色空间转化至RGB颜色空间时，可采取如下的转换公式：

\{\begin{matrix} R = 1 - C \\ G = 1 - M \\ B = 1 - Y \end{matrix}

其中，C、M、Y的取值范围是[0,1]。

当CMYK(青C、品红M、黄Y及黑K)颜色空间转化至RGB颜色空间时，可采取如下的转换公式：

R＝1-min{1，C×(1-B)+B}

G＝1-min{1，M×(1-B)+B}

B＝1-min{1，Y×(1-B)+B}

HSI(Hue，Saturation and Intensity)颜色空间是从人的视觉系统出发，用色调(Hue)、色饱和度(Saturation或Chroma)和亮度(Intensity 或Brightness)来描述颜色。HSI颜色空间可以用一个圆锥空间模型来描述。当HSI颜色空间转化至RGB颜色空间时，可采取如下的转换公式：

(1)0＜H＜120时，

B＝I(1-S)

R = I {1 + \frac{S \times \cos H}{c o s (60 - H)}}

G＝3I-(R+B)

(2)0＜H＜240时，H＝H-120

R＝I(1-S)

R = I {1 + \frac{S \times \cos H}{c o s (60 - H)}}

B＝3I-(R+G)

(23)240＜H＜360时，H＝H-240

G＝I(1-S)

B = I {1 + \frac{S \times \cos H}{c o s (60 - H)}}

R＝3I-(B+G)

步骤112：将一帧图像转化至RGB颜色空间后，统计RGB颜色空间对应的R、G、B灰度直方图，分别计算所述R、G、B灰度直方图对应的标准偏差；

本步骤中，记所述R、G、B灰度直方图为hist_R[256]、hist_G[256]及hist_B[256]。计算hist_R[256]、hist_G[256]及hist_B[256]的标准偏差分别记为sd_R、sd_G、sd_B。

步骤113：分别在R、G、B颜色通道对所述视频帧进行边缘检测处理，得到所述视频帧内分别属于R、G、B颜色通道的轮廓数量。

对R、G、B各通道图像进行边缘检测处理，之后统计各图像内的轮廓个数，分别记为c_R、c_G、c_B。

由此，便得到了所述待处理视频的所述输入特征参数，即R、G、B颜色通道分别对应的标准偏差sd_R、sd_G、sd_B以及轮廓数量c_R、c_G、c_B。

步骤120：根据所述输入特征参数调用预先训练的特征模型，判断所述待识别视频是否为动画视频；

本发明实施例中，预先训练的特征模型如下所示：

f (x) = sgn {Σ_{i = 1}^{l} α_{i}^{*} y_{i} K (x, x_{i}) + b^{*}}

其中，其中，x为所述待识别视频的输入特征参数，x_i为所述视频样本的输入特征参数，f(x)为所述待识别视频的分类，sgn()为符号函数特性；K为核函数；和b^*为所述特征模型的相关参数。

符号函数的返回值只有两个，1或-1，可以用阶跃信号u(x)更加形象地表示符号函数：

sgn (x) = 2 u (x) - 1 = \{\begin{matrix} 1, x > 0 \\ 0, x = 0 \\ - 1, x < 0 \end{matrix}

因此，将步骤110中获取的所述输入特征参数输入特征模型，便可通过计算得到1或-1，即待处理视频的两种可能：动画视频和非动画视频。特征模型的训练过程将在下述实施例二中详细阐述。

步骤130：当判定所述待识别视频为动画视频，则调整所述待识别视频的编码参数以及码率。

由于动画类视频内容简单，颜色分布集中，线条轮廓稀疏，因此编码时，可以修改相应的编码参数，例如码率、量化参数等，从而降低编码的码率，提高编码速度。

本实施例通过将待处理的视频进行降维处理，并调用预先训练的特征模型识别待处理的视频是否为动画视频，从而根据识别结果调整编码参数，实现了视频清晰度不变的情况下，具有较高的编码效率，同时节省了编码带宽。

实施例二

图2是本发明实施例二的技术流程图，以下部分将结合图2，具体阐述本发明实施例一种动画视频识别与编码方法中，特征模型的训练过程。

本发明实施例中，预先采用一定数量的动画视频样本和非动画视频样本进行特征模型的训练，数量越多，则训练出的模型分类越准确。首先将视频样本进行分类，得到正样本(动画视频)和负样本(非动画视频)。视频样本的时长随机、内容随机。

步骤210：获取视频样本的每一视频帧，并将非RGB颜色空间的视频帧转化至RGB颜色空间；

分析正负样本特征发现，正样本与负样本的明显区别是，正样本帧内颜色分布集中，线条轮廓稀疏。因此，本发明以上述特征作为训练输入特征。对于样本的每一帧，当其采用YUV420格式时，输入空间的维数为n＝width*height*2，其中width和height分别表示视频帧的宽度和高度，这样的数据量处理起来比较困难，因此本发明实施例首先对于视频样本进行降维处理。具体地，对维数为n的每一视频帧，提取其一定数量的必要特征，并以所述必要特征作为维度，以实现降维目的，从而简化模型训练的过程，减少计算量的同时进一步优化了特征模型。

具体降维处理的执行原理及技术效果同步骤110所述，不再赘述。

步骤220：对视频样本进行所述降维处理从而获取所述视频样本的输入特征参数；

同实施例一中所述，所述待处理视频的所述输入特征参数，即R、G、B颜色通道分别对应的标准偏差sd_R、sd_G、sd_B以及轮廓数量c_R、c_G、c_B。降维处理后的所述视频帧将由n个维度降至6个维度。

步骤230：根据所述视频样本的输入特征参数，采用支持向量机模型(SupportVector Machine，SVM)训练所述特征模型。

具体地，本发明实施例使用的SVM类型是非线性软间隔分类机C-SVC，如公式1所示：

\begin{matrix} \min_{w, b} \frac{1}{2} | | w | |^{2} + C Σ_{i = 1}^{l} ϵ_{i} \\ s u b j e c t t o : \\ y_{i} ((w \times x_{i} + b)) &GreaterEqual; 1 - ϵ_{i}, i = 1, ..., l \\ ϵ_{i} &GreaterEqual; 0, i = 1, ..., l \\ C > 0 \end{matrix}

公式1

公式1中，C表示惩罚参数，ε_i表示第i个样本视频对应的松弛变量，x_i表示第i个样本视频对应的所述输入特征参数，即R、G、B颜色通道分别对应的标准偏差sd_R、sd_G、sd_B以及轮廓数量c_R、c_G、c_B，y_i表示第i个样本视频的类型(即样本视频是动画视频还是非动画视频，例如可以设置1表示动画视频，-1表示非动画视频等)；l表示样本视频的总个数，符号“||||”表示范数，w和b是相关参数；“subject to”表示“约束于”的，其使用形式如公式1，即目标函数subject to约束条件。

参数w的计算如公式2所示，

w = Σ_{i = 1}^{l} y_{i} α_{i} x_{i}

公式2

公式2中，x_i表示第i个样本视频对应的所述输入特征参数，y_i表示第i个样本视频的类型。

公式1的对偶问题如公式3所示，

\begin{matrix} \underset{α}{m i n} \frac{1}{2} Σ_{i = 1}^{l} Σ_{j = 1}^{l} y_{i} y_{j} α_{i} α_{j} K (x_{i}, x_{j}) - Σ_{j = 1}^{l} α_{j} \\ s . t . : \\ Σ_{i = 1}^{l} y_{i} α_{i} = 0 \\ 0 \leq α_{i} \leq C, i = 1, ..., l \end{matrix}

公式3

公式3中，s.t.＝subject to，表示位于s.t前的目标函数约束于位于s.t后的约束条件；x_i表示第i个样本视频对应的所述输入特征参数，y_i表示第i个样本视频的类型；x_j表示第j个样本视频对应的所述输入特征参数，y_j表示第j个样本视频的类型；a是公式1和公式2求得的最优解；C表示惩罚参数，本实施例中，所述惩罚参数C的初始值设置为0.1；l表示样本视频的总个数；K(x_i,x_j)表示核函数，本发明实施例中的核函数选用RBF核函数(RadialBasis Function，径向基核函数)，核函数如公式4所示：

K (x_{i}, x_{j}) = \exp {\frac{| | x_{i} - x_{j} | |^{2}}{2 σ^{2}}}

公式4

公式4中，x_i表示第i个样本视频对应的样本特征参数，x_j表示第j个样本视频对应的样本特征参数，σ为核函数的可调参数。本实施例中，将RBF核函数的参数σ的初始值设置为1e-5。

根据上述公式1-公式4可以计算得出公式3的最优解，如公式5所示：

α^*＝(α₁ ^*,...,α_l ^*)^T 公式5

根据α^*可以计算得到b^*，如公式6所示：

b^{*} = y_{j} - Σ_{i = 1}^{l} y_{i} {α_{i}}^{*} K (x_{i}, x_{j})

公式6

公式6中，通过从α^*中选取一个正分量0＜α_j ^*＜C得到j的数值。

其次，根据上述相关参数α^*和b^*即可得到如公式7所示的用于视频识别的特征模型：

f (x) = sgn (Σ_{i = 1}^{l} {α_{i}}^{*} y_{i} K (x, x_{i}) + b^{*})

公式7

此外，需要说明的是，本发明实施例中，为了提高训练模型的泛化能力，针对所述特征模型，选用交叉验证(Cross validation)算法寻找参数σ与C的最优值。具体地，采用K折交叉验证(k-folder cross-validation)。

K折交叉验证，初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据，其他K-1个样本用来训练。交叉验证重复K次，每个子样本验证一次，平均K次的结果或者使用其它结合方式，最终得到一个单一估测。这个方法的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次。

本发明实施例中，可以选取折数k为5，惩罚参数C的范围设置为[0.01，200]，核函数的参数σ的范围设置为[1e-6，4]。验证过程中σ与C的步长均选择2。

本实施例中，通过对动画视频样本和非动画视频样本进行分析，得到动画视频和非动画视频的区别之处，与此同时，对视频进行降维并通过对两种类型的视频样本进行特征参数的提取，并利用这些特征参数进行模型的训练，得到了能够识别待分类视频的特征模型，从而能够根据视频的类型进行编码参数的调整，在获得清晰的视频前提下，带来节省带宽、提高编码速度等有益效果。

实施例三

图3是本发明实施例三的装置结构示意图，结合图3，本发明实施例一种动画视频识别与编码装置，主要包括如下的模块：参数获取模块310、判断模块320、编码模块330、模型训练模块340。

所述参数获取模块310，用于将待识别视频进行降维处理，获取所述待识别视频的输入特征参数；

所述判断模块320，用于根据所述输入特征参数调用预先训练的特征模型，判断所述待识别视频是否为动画视频；

所述编码模块330，当判定所述待识别视频为动画视频，用于调整所述待识别视频的编码参数以及码率。

所述参数获取模块310进一步用于：获取所述待处理视频的每一视频帧，并将非RGB颜色空间的视频帧转化至RGB颜色空间；统计RGB颜色空间对应的R、G、B灰度直方图，分别计算所述R、G、B灰度直方图对应的标准偏差；分别在R、G、B颜色通道对所述视频帧进行边缘检测处理，得到所述视频帧内分别属于R、G、B颜色通道的轮廓数量。

所述模型训练模块340用于：调用所述参数获取模块对视频样本进行所述降维处理从而获取所述视频样本的输入特征参数；其中所述输入特征参数包括所述R、G、B灰度直方图对应的标准偏差、所述分别属于R、G、B颜色通道的轮廓数量；根据所述视频样本的输入特征参数，采用支持向量机模型训练所述特征模型。

具体地，所述模型训练模块340训练如下所述特征模型：

f (x) = sgn {Σ_{i = 1}^{l} α_{i}^{*} y_{i} K (x, x_{i}) + b^{*}}

其中，x为所述待识别视频的输入特征参数，x_i为所述视频样本的输入特征参数，f(x)为所述待识别视频的分类，根据符号函数sgn()特性，f(x)的输出值为1或-1，分别表示动画视频与非动画视频；K为核函数，根据预设的可调参数，结合所述视频样本的输入特征参数进行计算；和b^*为所述特征模型的相关参数，和b^*根据预设的惩罚参数，结合所述视频样本的输入特征参数进行计算。

所述模型训练模块340进一步还用于：采用支持向量机模型训练所述特征模型时，选用交叉验证算法寻找所述可调参数以及所述惩罚参数，从而提高所述特征模型的泛化能力。

图3对应装置执行图1～图2所示实施例，实现原理和技术效果参考图1～图3所示实施例，不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种动画视频识别与编码方法，其特征在于，包括如下的步骤：

2.根据权利要求1所述的方法，其特征在于，将待识别视频进行降维处理，进一步包括：

获取所述待处理视频的每一视频帧，并将非RGB颜色空间的视频帧转化至RGB颜色空间；

统计RGB颜色空间对应的R、G、B灰度直方图，分别计算所述R、G、B灰度直方图对应的标准偏差；

分别在R、G、B颜色通道对所述视频帧进行边缘检测处理，得到所述视频帧内分别属于R、G、B颜色通道的轮廓数量。

3.根据权利要求1或2所述的方法，其特征在于，所述方法进一步包括采用如下步骤预先训练所述特征模型：

对视频样本进行所述降维处理从而获取所述视频样本的输入特征参数；其中所述输入特征参数包括所述R、G、B灰度直方图对应的标准偏差、所述分别属于R、G、B颜色通道的轮廓数量；

根据所述视频样本的输入特征参数，采用支持向量机模型训练所述特征模型。

4.根据权利要求3所述的方法，其特征在于，采用支持向量机模型训练所述特征模型，进一步包括：

所述特征模型以如下公式展示：

f (x) = sgn {Σ_{i = 1}^{l} a_{i}^{*} y_{i} K (x, x_{i}) + b^{*}}

其中，x为所述待识别视频的输入特征参数，x_i为所述视频样本的输入特征参数，f(x)为所述待识别视频的分类，根据符号函数sgn( )特性，f(x)的输出值为1或-1，分别表示动画视频与非动画视频；K为核函数，根据预设的可调参数，结合所述视频样本的输入特征参数进行计算；和b^*为所述特征模型的相关参数，和b^*根据预设的惩罚参数，结合所述视频样本的输入特征参数进行计算。

5.根据要求4所述的方法，其特征在于，所述方法还包括：

采用支持向量机模型训练所述特征模型时，选用交叉验证算法寻找所述可调参数以及所述惩罚参数，从而提高所述特征模型的泛化能力。

6.一种动画视频识别与编码装置，其特征在于，包括如下的模块：

7.根据权利要求6所述的装置，其特征在于，所述参数获取模块进一步用于：

8.根据权利要求6或7所述的装置，其特征在于，所述装置进一步包括模型训练模块，所述模型训练模块用于：

调用所述参数获取模块对视频样本进行所述降维处理从而获取所述视频样本的输入特征参数；其中所述输入特征参数包括所述R、G、B灰度直方图对应的标准偏差、所述分别属于R、G、B颜色通道的轮廓数量；

9.根据权利要求8所述的装置，其特征在于，所述模型训练模块进一步用于：

训练如下所述特征模型：

f (x) = sgn {Σ_{i = 1}^{l} a_{i}^{*} y_{i} K (x, x_{i}) + b^{*}}

10.根据要求9所述的装置，其特征在于，所述模型训练模块进一步还用于：