CN105893927A - 动画视频识别与编码方法及装置 - Google Patents

动画视频识别与编码方法及装置 Download PDF

Info

Publication number
CN105893927A
CN105893927A CN201510958701.0A CN201510958701A CN105893927A CN 105893927 A CN105893927 A CN 105893927A CN 201510958701 A CN201510958701 A CN 201510958701A CN 105893927 A CN105893927 A CN 105893927A
Authority
CN
China
Prior art keywords
video
parameter
identified
model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510958701.0A
Other languages
English (en)
Other versions
CN105893927B (zh
Inventor
刘阳
蔡砚刚
魏伟
白茂生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Zhirong Innovation Technology Development Co.,Ltd.
Original Assignee
LeTV Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Cloud Computing Co Ltd filed Critical LeTV Cloud Computing Co Ltd
Priority to CN201510958701.0A priority Critical patent/CN105893927B/zh
Priority to PCT/CN2016/088689 priority patent/WO2017101347A1/zh
Publication of CN105893927A publication Critical patent/CN105893927A/zh
Priority to US15/246,955 priority patent/US20170180752A1/en
Application granted granted Critical
Publication of CN105893927B publication Critical patent/CN105893927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/56Motion estimation with initialisation of the vector search, e.g. estimating a good candidate to initiate a search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例提供一种动画视频识别与编码方法及装置。将待识别视频进行降维处理,获取所述待识别视频的输入特征参数;根据所述输入特征参数调用预先训练的特征模型,判断所述待识别视频是否为动画视频;当判定所述待识别视频为动画视频,则调整所述待识别视频的编码参数以及码率。在获得清晰视频的前提下,节省带宽、提高编码效率。

Description

动画视频识别与编码方法及装置
技术领域
本发明实施例涉及视频技术领域,尤其涉及一种动画视频识别与编码方法及装置。
背景技术
随着多媒体技术的快速发展,大量的动画类视频被制作并在互联网上传播。
对于视频网站而言,需要将视频进行重新编码以便用户能够流畅、清晰地观看。相对于传统视频内容而言(电视剧、电影等),动画类视频内容简单,表现为颜色分布集中,线条轮廓稀疏等特点。基于上述特点,在获得相同清晰度的情况下,动画类视频需要的编码参数与传统内容的视频需要的编码参数可以不同。例如对于动画类视频,可以降低编码的码率,但却可以获得与传统内容的视频在高码率情况下一致的清晰度。
因此,一种动画视频识别与编码方法及装置亟待提出。
发明内容
本发明实施例提供一种动画视频识别与编码方法及装置,用以解决现有技术中用户需要手动按键切换视频输出模式的缺陷,实现视频输出模式的自动切换。
本发明实施例提供一种动画视频识别与编码方法,包括:
将待识别视频进行降维处理,获取所述待识别视频的输入特征参数;
根据所述输入特征参数调用预先训练的特征模型,判断所述待识别视频是否为动画视频;
当判定所述待识别视频为动画视频,则调整所述待识别视频的编码参数以及码率。
本发明实施例提供一种动画视频识别与编码装置,包括:
参数获取模块,用于将待识别视频进行降维处理,获取所述待识别视频的输入特征参数;
判断模块,用于根据所述输入特征参数调用预先训练的特征模型,判断所述待识别视频是否为动画视频;
编码模块,当判定所述待识别视频为动画视频,用于调整所述待识别视频的编码参数以及码率。
本发明实施例提供的动画视频识别与编码方法及装置,通过预先训练的特征模型自动识别出视频库内的动画类视频,并在保证和其他内容视频一致的清晰度的情况下,调整编码参数,从而在获得清晰视频的前提下,节省带宽、提高编码效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一的技术流程图;
图2为本发明实施例二的技术流程图;
图3为本发明实施例三的装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1是本发明实施例一的技术流程图,参考图1,本发明实施例一种动画视频识别与编码方法,主要包括如下的三个步骤:
步骤110:将待识别视频进行降维处理,获取所述待识别视频的输入特征参数;
本发明实施例中,对所述待识别视频进行降维处理,其目的在于,提取视频帧的所述输入特征参数,将视频帧较大的维数转化为用所述特征参数表示的较小的维度,从而与预先训练的特征模型进行匹配,从而对所述待识别视频进行分类。具体降维的过程具体由以下步骤111~步骤113实现:
步骤111:获取所述待处理视频的每一视频帧,并将非RGB颜色空间的视频帧转化至RGB颜色空间。
大量待处理视频的格式不同,其对应的色彩空间也可能是多样的,需要将其转化为同一色彩空间,按照同样的标准和参数对所述待处理视频进行分类,简化了分类计算的复杂度,同时提升了分类的准确性。以下部分将例举非RGB颜色空间转换至RGB颜色空间的转换公式,当然,应当理解,以下部分仅供举例从而对本发明实施例做进一步阐述,但对本发明实施例并不构成限制。任何能实现本发明实施例非RGB颜色空间转换至RGB颜色空间的算法均在本发明实施例的保护范围之内。
如下公式所示,自然界中任何一种色光都可由R、G、B三基色按不同的比例相加混合而成:
F=r*R+g*G+b*B
调整三色系数r、g、b中的任一系数都会改变F的坐标值,也即改变了F的色值。当三基色分量都为0(最弱)时混合为黑色光;当三基色分量都为k(最强)时混合为白色光。
RGB颜色空间采用物理三基色表示,因而物理意义很清楚。然而这一体制并不适应人的视觉特点。因而,产生了其他不同的颜色空间表示法,例如CMY颜色空间、CMYK颜色空间、HSI颜色空间、HSV颜色空间等。
彩色印刷或彩色打印的纸张是不能发射光线的,因而印刷机或彩色打印机就只能使用一些能够吸收特定的光波而反射其他光波的油墨或颜料。油墨或颜料的3基色是青(Cyan)、品红(Magenta)和黄(Yellow),简称为CMY。CMY空间正好与RGB空间互补,也即用白色减去RGB空间中的某一颜色值就等于同样颜色在CMY空间中的值,即当CMY颜色空间转化至RGB颜色空间时,可采取如下的转换公式:
R = 1 - C G = 1 - M B = 1 - Y
其中,C、M、Y的取值范围是[0,1]。
当CMYK(青C、品红M、黄Y及黑K)颜色空间转化至RGB颜色空间时,可采取如下的转换公式:
R=1-min{1,C×(1-B)+B}
G=1-min{1,M×(1-B)+B}
B=1-min{1,Y×(1-B)+B}
HSI(Hue,Saturation and Intensity)颜色空间是从人的视觉系统出发,用色调(Hue)、色饱和度(Saturation或Chroma)和亮度(Intensity 或Brightness)来描述颜色。HSI颜色空间可以用一个圆锥空间模型来描述。当HSI颜色空间转化至RGB颜色空间时,可采取如下的转换公式:
(1)0<H<120时,
B=I(1-S)
R = I { 1 + S × cos H c o s ( 60 - H ) }
G=3I-(R+B)
(2)0<H<240时,H=H-120
R=I(1-S)
R = I { 1 + S × cos H c o s ( 60 - H ) }
B=3I-(R+G)
(23)240<H<360时,H=H-240
G=I(1-S)
B = I { 1 + S × cos H c o s ( 60 - H ) }
R=3I-(B+G)
步骤112:将一帧图像转化至RGB颜色空间后,统计RGB颜色空间对应的R、G、B灰度直方图,分别计算所述R、G、B灰度直方图对应的标准偏差;
本步骤中,记所述R、G、B灰度直方图为hist_R[256]、hist_G[256]及hist_B[256]。计算hist_R[256]、hist_G[256]及hist_B[256]的标准偏差分别记为sd_R、sd_G、sd_B。
步骤113:分别在R、G、B颜色通道对所述视频帧进行边缘检测处理,得到所述视频帧内分别属于R、G、B颜色通道的轮廓数量。
对R、G、B各通道图像进行边缘检测处理,之后统计各图像内的轮廓个数,分别记为c_R、c_G、c_B。
由此,便得到了所述待处理视频的所述输入特征参数,即R、G、B颜色通道分别对应的标准偏差sd_R、sd_G、sd_B以及轮廓数量c_R、c_G、c_B。
步骤120:根据所述输入特征参数调用预先训练的特征模型,判断所述待识别视频是否为动画视频;
本发明实施例中,预先训练的特征模型如下所示:
f ( x ) = sgn { Σ i = 1 l α i * y i K ( x , x i ) + b * }
其中,其中,x为所述待识别视频的输入特征参数,xi为所述视频样本的输入特征参数,f(x)为所述待识别视频的分类,sgn()为符号函数特性;K为核函数;和b*为所述特征模型的相关参数。
符号函数的返回值只有两个,1或-1,可以用阶跃信号u(x)更加形象地表示符号函数:
sgn ( x ) = 2 u ( x ) - 1 = 1 , x > 0 0 , x = 0 - 1 , x < 0
因此,将步骤110中获取的所述输入特征参数输入特征模型,便可通过计算得到1或-1,即待处理视频的两种可能:动画视频和非动画视频。特征模型的训练过程将在下述实施例二中详细阐述。
步骤130:当判定所述待识别视频为动画视频,则调整所述待识别视频的编码参数以及码率。
由于动画类视频内容简单,颜色分布集中,线条轮廓稀疏,因此编码时,可以修改相应的编码参数,例如码率、量化参数等,从而降低编码的码率,提高编码速度。
本实施例通过将待处理的视频进行降维处理,并调用预先训练的特征模型识别待处理的视频是否为动画视频,从而根据识别结果调整编码参数,实现了视频清晰度不变的情况下,具有较高的编码效率,同时节省了编码带宽。
实施例二
图2是本发明实施例二的技术流程图,以下部分将结合图2,具体阐述本发明实施例一种动画视频识别与编码方法中,特征模型的训练过程。
本发明实施例中,预先采用一定数量的动画视频样本和非动画视频样本进行特征模型的训练,数量越多,则训练出的模型分类越准确。首先将视频样本进行分类,得到正样本(动画视频)和负样本(非动画视频)。视频样本的时长随机、内容随机。
步骤210:获取视频样本的每一视频帧,并将非RGB颜色空间的视频帧转化至RGB颜色空间;
分析正负样本特征发现,正样本与负样本的明显区别是,正样本帧内颜色分布集中,线条轮廓稀疏。因此,本发明以上述特征作为训练输入特征。对于样本的每一帧,当其采用YUV420格式时,输入空间的维数为n=width*height*2,其中width和height分别表示视频帧的宽度和高度,这样的数据量处理起来比较困难,因此本发明实施例首先对于视频样本进行降维处理。具体地,对维数为n的每一视频帧,提取其一定数量的必要特征,并以所述必要特征作为维度,以实现降维目的,从而简化模型训练的过程,减少计算量的同时进一步优化了特征模型。
具体降维处理的执行原理及技术效果同步骤110所述,不再赘述。
步骤220:对视频样本进行所述降维处理从而获取所述视频样本的输入特征参数;
同实施例一中所述,所述待处理视频的所述输入特征参数,即R、G、B颜色通道分别对应的标准偏差sd_R、sd_G、sd_B以及轮廓数量c_R、c_G、c_B。降维处理后的所述视频帧将由n个维度降至6个维度。
步骤230:根据所述视频样本的输入特征参数,采用支持向量机模型(SupportVector Machine,SVM)训练所述特征模型。
具体地,本发明实施例使用的SVM类型是非线性软间隔分类机C-SVC,如公式1所示:
min w , b 1 2 | | w | | 2 + C &Sigma; i = 1 l &epsiv; i s u b j e c t t o : y i ( ( w &times; x i + b ) ) &GreaterEqual; 1 - &epsiv; i , i = 1 , ... , l &epsiv; i &GreaterEqual; 0 , i = 1 , ... , l C > 0 公式1
公式1中,C表示惩罚参数,εi表示第i个样本视频对应的松弛变量,xi表示第i个样本视频对应的所述输入特征参数,即R、G、B颜色通道分别对应的标准偏差sd_R、sd_G、sd_B以及轮廓数量c_R、c_G、c_B,yi表示第i个样本视频的类型(即样本视频是动画视频还是非动画视频,例如可以设置1表示动画视频,-1表示非动画视频等);l表示样本视频的总个数,符号“||||”表示范数,w和b是相关参数;“subject to”表示“约束于”的,其使用形式如公式1,即目标函数subject to约束条件。
参数w的计算如公式2所示,
w = &Sigma; i = 1 l y i &alpha; i x i 公式2
公式2中,xi表示第i个样本视频对应的所述输入特征参数,yi表示第i个样本视频的类型。
公式1的对偶问题如公式3所示,
m i n &alpha; 1 2 &Sigma; i = 1 l &Sigma; j = 1 l y i y j &alpha; i &alpha; j K ( x i , x j ) - &Sigma; j = 1 l &alpha; j s . t . : &Sigma; i = 1 l y i &alpha; i = 0 0 &le; &alpha; i &le; C , i = 1 , ... , l 公式3
公式3中,s.t.=subject to,表示位于s.t前的目标函数约束于位于s.t后的约束条件;xi表示第i个样本视频对应的所述输入特征参数,yi表示第i个样本视频的类型;xj表示第j个样本视频对应的所述输入特征参数,yj表示第j个样本视频的类型;a是公式1和公式2求得的最优解;C表示惩罚参数,本实施例中,所述惩罚参数C的初始值设置为0.1;l表示样本视频的总个数;K(xi,xj)表示核函数,本发明实施例中的核函数选用RBF核函数(RadialBasis Function,径向基核函数),核函数如公式4所示:
K ( x i , x j ) = exp { | | x i - x j | | 2 2 &sigma; 2 }
公式4
公式4中,xi表示第i个样本视频对应的样本特征参数,xj表示第j个样本视频对应的样本特征参数,σ为核函数的可调参数。本实施例中,将RBF核函数的参数σ的初始值设置为1e-5。
根据上述公式1-公式4可以计算得出公式3的最优解,如公式5所示:
α*=(α1 *,...,αl *)T 公式5
根据α*可以计算得到b*,如公式6所示:
b * = y j - &Sigma; i = 1 l y i &alpha; i * K ( x i , x j ) 公式6
公式6中,通过从α*中选取一个正分量0<αj *<C得到j的数值。
其次,根据上述相关参数α*和b*即可得到如公式7所示的用于视频识别的特征模型:
f ( x ) = sgn ( &Sigma; i = 1 l &alpha; i * y i K ( x , x i ) + b * ) 公式7
此外,需要说明的是,本发明实施例中,为了提高训练模型的泛化能力,针对所述特征模型,选用交叉验证(Cross validation)算法寻找参数σ与C的最优值。具体地,采用K折交叉验证(k-folder cross-validation)。
K折交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次。
本发明实施例中,可以选取折数k为5,惩罚参数C的范围设置为[0.01,200],核函数的参数σ的范围设置为[1e-6,4]。验证过程中σ与C的步长均选择2。
本实施例中,通过对动画视频样本和非动画视频样本进行分析,得到动画视频和非动画视频的区别之处,与此同时,对视频进行降维并通过对两种类型的视频样本进行特征参数的提取,并利用这些特征参数进行模型的训练,得到了能够识别待分类视频的特征模型,从而能够根据视频的类型进行编码参数的调整,在获得清晰的视频前提下,带来节省带宽、提高编码速度等有益效果。
实施例三
图3是本发明实施例三的装置结构示意图,结合图3,本发明实施例一种动画视频识别与编码装置,主要包括如下的模块:参数获取模块310、判断模块320、编码模块330、模型训练模块340。
所述参数获取模块310,用于将待识别视频进行降维处理,获取所述待识别视频的输入特征参数;
所述判断模块320,用于根据所述输入特征参数调用预先训练的特征模型,判断所述待识别视频是否为动画视频;
所述编码模块330,当判定所述待识别视频为动画视频,用于调整所述待识别视频的编码参数以及码率。
所述参数获取模块310进一步用于:获取所述待处理视频的每一视频帧,并将非RGB颜色空间的视频帧转化至RGB颜色空间;统计RGB颜色空间对应的R、G、B灰度直方图,分别计算所述R、G、B灰度直方图对应的标准偏差;分别在R、G、B颜色通道对所述视频帧进行边缘检测处理,得到所述视频帧内分别属于R、G、B颜色通道的轮廓数量。
所述模型训练模块340用于:调用所述参数获取模块对视频样本进行所述降维处理从而获取所述视频样本的输入特征参数;其中所述输入特征参数包括所述R、G、B灰度直方图对应的标准偏差、所述分别属于R、G、B颜色通道的轮廓数量;根据所述视频样本的输入特征参数,采用支持向量机模型训练所述特征模型。
具体地,所述模型训练模块340训练如下所述特征模型:
f ( x ) = sgn { &Sigma; i = 1 l &alpha; i * y i K ( x , x i ) + b * }
其中,x为所述待识别视频的输入特征参数,xi为所述视频样本的输入特征参数,f(x)为所述待识别视频的分类,根据符号函数sgn()特性,f(x)的输出值为1或-1,分别表示动画视频与非动画视频;K为核函数,根据预设的可调参数,结合所述视频样本的输入特征参数进行计算;和b*为所述特征模型的相关参数,和b*根据预设的惩罚参数,结合所述视频样本的输入特征参数进行计算。
所述模型训练模块340进一步还用于:采用支持向量机模型训练所述特征模型时,选用交叉验证算法寻找所述可调参数以及所述惩罚参数,从而提高所述特征模型的泛化能力。
图3对应装置执行图1~图2所示实施例,实现原理和技术效果参考图1~图3所示实施例,不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种动画视频识别与编码方法,其特征在于,包括如下的步骤:
将待识别视频进行降维处理,获取所述待识别视频的输入特征参数;
根据所述输入特征参数调用预先训练的特征模型,判断所述待识别视频是否为动画视频;
当判定所述待识别视频为动画视频,则调整所述待识别视频的编码参数以及码率。
2.根据权利要求1所述的方法,其特征在于,将待识别视频进行降维处理,进一步包括:
获取所述待处理视频的每一视频帧,并将非RGB颜色空间的视频帧转化至RGB颜色空间;
统计RGB颜色空间对应的R、G、B灰度直方图,分别计算所述R、G、B灰度直方图对应的标准偏差;
分别在R、G、B颜色通道对所述视频帧进行边缘检测处理,得到所述视频帧内分别属于R、G、B颜色通道的轮廓数量。
3.根据权利要求1或2所述的方法,其特征在于,所述方法进一步包括采用如下步骤预先训练所述特征模型:
对视频样本进行所述降维处理从而获取所述视频样本的输入特征参数;其中所述输入特征参数包括所述R、G、B灰度直方图对应的标准偏差、所述分别属于R、G、B颜色通道的轮廓数量;
根据所述视频样本的输入特征参数,采用支持向量机模型训练所述特征模型。
4.根据权利要求3所述的方法,其特征在于,采用支持向量机模型训练所述特征模型,进一步包括:
所述特征模型以如下公式展示:
f ( x ) = sgn { &Sigma; i = 1 l a i * y i K ( x , x i ) + b * }
其中,x为所述待识别视频的输入特征参数,xi为所述视频样本的输入特征参数,f(x)为所述待识别视频的分类,根据符号函数sgn( )特性,f(x)的输出值为1或-1,分别表示动画视频与非动画视频;K为核函数,根据预设的可调参数,结合所述视频样本的输入特征参数进行计算;和b*为所述特征模型的相关参数,和b*根据预设的惩罚参数,结合所述视频样本的输入特征参数进行计算。
5.根据要求4所述的方法,其特征在于,所述方法还包括:
采用支持向量机模型训练所述特征模型时,选用交叉验证算法寻找所述可调参数以及所述惩罚参数,从而提高所述特征模型的泛化能力。
6.一种动画视频识别与编码装置,其特征在于,包括如下的模块:
参数获取模块,用于将待识别视频进行降维处理,获取所述待识别视频的输入特征参数;
判断模块,用于根据所述输入特征参数调用预先训练的特征模型,判断所述待识别视频是否为动画视频;
编码模块,当判定所述待识别视频为动画视频,用于调整所述待识别视频的编码参数以及码率。
7.根据权利要求6所述的装置,其特征在于,所述参数获取模块进一步用于:
获取所述待处理视频的每一视频帧,并将非RGB颜色空间的视频帧转化至RGB颜色空间;
统计RGB颜色空间对应的R、G、B灰度直方图,分别计算所述R、G、B灰度直方图对应的标准偏差;
分别在R、G、B颜色通道对所述视频帧进行边缘检测处理,得到所述视频帧内分别属于R、G、B颜色通道的轮廓数量。
8.根据权利要求6或7所述的装置,其特征在于,所述装置进一步包括模型训练模块,所述模型训练模块用于:
调用所述参数获取模块对视频样本进行所述降维处理从而获取所述视频样本的输入特征参数;其中所述输入特征参数包括所述R、G、B灰度直方图对应的标准偏差、所述分别属于R、G、B颜色通道的轮廓数量;
根据所述视频样本的输入特征参数,采用支持向量机模型训练所述特征模型。
9.根据权利要求8所述的装置,其特征在于,所述模型训练模块进一步用于:
训练如下所述特征模型:
f ( x ) = sgn { &Sigma; i = 1 l a i * y i K ( x , x i ) + b * }
其中,x为所述待识别视频的输入特征参数,xi为所述视频样本的输入特征参数,f(x)为所述待识别视频的分类,根据符号函数sgn( )特性,f(x)的输出值为1或-1,分别表示动画视频与非动画视频;K为核函数,根据预设的可调参数,结合所述视频样本的输入特征参数进行计算;和b*为所述特征模型的相关参数,和b*根据预设的惩罚参数,结合所述视频样本的输入特征参数进行计算。
10.根据要求9所述的装置,其特征在于,所述模型训练模块进一步还用于:
采用支持向量机模型训练所述特征模型时,选用交叉验证算法寻找所述可调参数以及所述惩罚参数,从而提高所述特征模型的泛化能力。
CN201510958701.0A 2015-12-18 2015-12-18 动画视频识别与编码方法及装置 Active CN105893927B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510958701.0A CN105893927B (zh) 2015-12-18 2015-12-18 动画视频识别与编码方法及装置
PCT/CN2016/088689 WO2017101347A1 (zh) 2015-12-18 2016-07-05 动画视频识别与编码方法及装置
US15/246,955 US20170180752A1 (en) 2015-12-18 2016-08-25 Method and electronic apparatus for identifying and coding animated video

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510958701.0A CN105893927B (zh) 2015-12-18 2015-12-18 动画视频识别与编码方法及装置

Publications (2)

Publication Number Publication Date
CN105893927A true CN105893927A (zh) 2016-08-24
CN105893927B CN105893927B (zh) 2020-06-23

Family

ID=57002190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510958701.0A Active CN105893927B (zh) 2015-12-18 2015-12-18 动画视频识别与编码方法及装置

Country Status (3)

Country Link
US (1) US20170180752A1 (zh)
CN (1) CN105893927B (zh)
WO (1) WO2017101347A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108833990A (zh) * 2018-06-29 2018-11-16 北京优酷科技有限公司 视频字幕显示方法及装置
WO2020107973A1 (zh) * 2018-11-27 2020-06-04 Oppo广东移动通信有限公司 视频增强控制方法、装置、电子设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993817B (zh) * 2017-12-28 2022-09-20 腾讯科技(深圳)有限公司 一种动画的实现方法和终端
CN110572710B (zh) * 2019-09-25 2021-09-28 北京达佳互联信息技术有限公司 视频生成方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006261892A (ja) * 2005-03-16 2006-09-28 Sharp Corp テレビ受像装置、及びその番組再生方法
CN101276417A (zh) * 2008-04-17 2008-10-01 上海交通大学 基于内容的互联网动画媒体垃圾信息过滤方法
CN101662675A (zh) * 2009-09-10 2010-03-03 深圳市万兴软件有限公司 一种将ppt转换为视频的方法和系统
CN101894125A (zh) * 2010-05-13 2010-11-24 复旦大学 一种基于内容的视频分类方法
CN101977311A (zh) * 2010-11-03 2011-02-16 上海交通大学 基于多特征分析的cg动画视频检测方法
CN104657468A (zh) * 2015-02-12 2015-05-27 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法
US20150286853A1 (en) * 2014-04-08 2015-10-08 Disney Enterprises, Inc. Eye gaze driven spatio-temporal action localization

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0817121A3 (en) * 1996-06-06 1999-12-22 Matsushita Electric Industrial Co., Ltd. Image coding method and system
US20090262136A1 (en) * 2008-04-22 2009-10-22 Tischer Steven N Methods, Systems, and Products for Transforming and Rendering Media Data
US8264493B2 (en) * 2008-05-12 2012-09-11 Playcast Media Systems, Ltd. Method and system for optimized streaming game server
CN101640792B (zh) * 2008-08-01 2011-09-28 中国移动通信集团公司 卡通视频的压缩编解码方法、设备及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006261892A (ja) * 2005-03-16 2006-09-28 Sharp Corp テレビ受像装置、及びその番組再生方法
CN101276417A (zh) * 2008-04-17 2008-10-01 上海交通大学 基于内容的互联网动画媒体垃圾信息过滤方法
CN101662675A (zh) * 2009-09-10 2010-03-03 深圳市万兴软件有限公司 一种将ppt转换为视频的方法和系统
CN101894125A (zh) * 2010-05-13 2010-11-24 复旦大学 一种基于内容的视频分类方法
CN101977311A (zh) * 2010-11-03 2011-02-16 上海交通大学 基于多特征分析的cg动画视频检测方法
US20150286853A1 (en) * 2014-04-08 2015-10-08 Disney Enterprises, Inc. Eye gaze driven spatio-temporal action localization
CN104657468A (zh) * 2015-02-12 2015-05-27 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FEN CHEN等: "Detecting Cartoons: Automatic Video Genre Classification", 《2010 INTERNATIONAL CONFERENCE ON MANAGEMENT AND SERVICE SCIENCE》 *
覃丹: "基于多特征组合和SVM的视频内容自动分类算法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108833990A (zh) * 2018-06-29 2018-11-16 北京优酷科技有限公司 视频字幕显示方法及装置
WO2020107973A1 (zh) * 2018-11-27 2020-06-04 Oppo广东移动通信有限公司 视频增强控制方法、装置、电子设备及存储介质
US11490157B2 (en) 2018-11-27 2022-11-01 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method for controlling video enhancement, device, electronic device and storage medium

Also Published As

Publication number Publication date
US20170180752A1 (en) 2017-06-22
WO2017101347A1 (zh) 2017-06-22
CN105893927B (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN108416377B (zh) 柱状图中的信息提取方法及装置
CN110378985B (zh) 一种基于gan的动漫绘画辅助创作方法
US8508546B2 (en) Image mask generation
CN110223359B (zh) 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用
Ribeiro et al. Recoloring algorithms for colorblind people: A survey
Jefferson et al. Accommodating color blind computer users
Huang et al. Image recolorization for the colorblind
JP4573706B2 (ja) ディジタル画像セグメンテーション方法
CN108615252A (zh) 基于参考图像的线稿上色模型的训练方法以及装置
CN104134204B (zh) 一种基于稀疏表示的图像清晰度评价方法和装置
CN105893927A (zh) 动画视频识别与编码方法及装置
Žeger et al. Grayscale image colorization methods: Overview and evaluation
CN108830912A (zh) 一种深度特征对抗式学习的交互式灰度图像着色方法
CN106503693A (zh) 视频封面的提供方法及装置
CN109920012A (zh) 基于卷积神经网络的图像着色系统及方法
CN109919871A (zh) 基于图像和模糊核混合约束的模糊核估计方法
CN110503103A (zh) 一种基于全卷积神经网络的文本行中的字符切分方法
CN102184404B (zh) 掌纹图像中手掌区域的获取方法及装置
CN104268590A (zh) 基于互补性组合特征与多相回归的盲图像质量评价方法
CN109829868A (zh) 一种轻量级深度学习模型图像去雾方法、电子设备及介质
CN105243641A (zh) 一种基于双树复小波变换的低光照图像增强方法
CN104834890A (zh) 一种对书法作品中文字神采信息的提取方法
CN114972847A (zh) 图像处理方法及装置
CN111563563A (zh) 一种手写体识别的联合数据的增强方法
CN109102457A (zh) 一种基于卷积神经网络的智能化变色系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210624

Address after: 300467 917-2, Chuangzhi building, 482 Zhongxin eco city, Binhai New Area, Tianjin

Patentee after: Tianjin Zhirong Innovation Technology Development Co.,Ltd.

Address before: 100089 room 6184, 6th floor, building 19, 68 Xueyuan South Road, Haidian District, Beijing

Patentee before: Le Holdings (Beijing) Co.,Ltd.

TR01 Transfer of patent right