CN104298961B - 基于口型识别的视频编排方法 - Google Patents
基于口型识别的视频编排方法 Download PDFInfo
- Publication number
- CN104298961B CN104298961B CN201410310093.8A CN201410310093A CN104298961B CN 104298961 B CN104298961 B CN 104298961B CN 201410310093 A CN201410310093 A CN 201410310093A CN 104298961 B CN104298961 B CN 104298961B
- Authority
- CN
- China
- Prior art keywords
- image
- video
- lip
- msub
- color
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000005516 engineering process Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 11
- 239000000463 material Substances 0.000 claims abstract description 5
- 238000001514 detection method Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 18
- 230000007704 transition Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000009499 grossing Methods 0.000 claims 1
- 230000011218 segmentation Effects 0.000 abstract description 16
- 230000033001 locomotion Effects 0.000 abstract description 9
- 239000013598 vector Substances 0.000 abstract description 7
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000035945 sensitivity Effects 0.000 abstract description 3
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 238000004040 coloring Methods 0.000 abstract 1
- 210000004373 mandible Anatomy 0.000 abstract 1
- 238000003786 synthesis reaction Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 239000003086 colorant Substances 0.000 description 5
- 238000003709 image segmentation Methods 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000010339 dilation Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 235000002566 Capsicum Nutrition 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 241000270295 Serpentes Species 0.000 description 1
- 241000607768 Shigella Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/162—Detection; Localisation; Normalisation using pixel segmentation or colour matching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于口型识别的视频编排方法。本发明根据彩色图像中色调(H)、饱和度(S)、亮度(V)分量在唇色和肤色区域分布的差异,选择3个颜色特征向量,利用Fisher分类器分类并阈值分割后的二值图像进行滤波和区域连通处理;将嘴唇特征与素材库中动画图片嘴唇特征相匹配;最后通过图像插值合成两帧之间过渡图像,以实现视频的自动编排。本发明合理选择HSV颜色空间中的颜色信息构建Fisher分类器,从而获得更多的信息量对唇色和肤色区域进行分割,增强了在复杂环境下嘴部匹配特征提取的可靠性和自适应性。并且,采用图像插值技术,生成两幅匹配视频帧画面之间的过渡图像,增强了视频编排的灵敏度与可观赏性,使视频内容更流畅与完整。
Description
技术领域
本发明涉及图像处理以及计算机视觉领域。具体来说,通过对面部嘴唇进行分割,提取匹配特征,从而对输出图像进行重新编排,达到输出图像嘴部运动与实际检测人物嘴部运动相一致的效果。
背景技术
随着图像处理技术以及视频编排技术的发展,研究者将图像分割技术应用到视频画面编排中,为观众提供了更真实生动的观赏体验。
在动画视频中,动画人物需要与真实人类高度协调一致,无论是面部表情,肢体动作抑或是发声方式。其中,动画人物发声时的口型动作,也需要与真实人类相一致,而不是简单的张开闭合。传统的制作方法,以普通话为例,根据其声母、韵母的发声方式,分别总结出与26个字母相对应的嘴唇动作特征,再按照各自特征进行嘴唇模型的绘制。这种方式确保了动画人物发声时嘴部动作与发声的高度一致,十分逼真。但是,这种方式重复作业量大,即使是相同场景相同人物相同发音,只要时间不同,都需要重新绘制。再加上观众对嘴部动作的区分度主要表现在嘴唇的张开闭合尺度上,对其向两侧拉伸情况,内部舌头运动等要求不高,因此本发明引入嘴唇分割技术来实现视频编排,在保证逼真度的基础上,提高视频画面的反复利用,大大提升了工作效率,降低了资源浪费。
图像分割就是把图像分成若干个特定的、具有独特性质的区域,并提出感兴趣目标的过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分为以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。图像分割后提取出的目标可以用于目标跟踪、图像搜索、图像语义识别等多个领域。
目前,嘴唇分割技术主要分为2类:一类是基于灰度图像的方法;而另一类是基于彩色图像的方法。前者比较常用的是基于Snake模型的嘴部边缘提取算法,但其计算复杂度高,容易受到嘴部周围胡须组织的干扰,且在光照变化的情况下,常造成嘴部边缘缺失和梯度较弱的缺陷。后者由于彩色图像能够提供更丰富、全面的信息,已越来越受到人们的重视。如Alan等提出利用CIELAB颜色空间和模糊聚类的方法对嘴唇区域进行分割;张志文等利用直方图分析R、G、B色度分量在肤色和唇色中的分布特性,提供了一种唇部检测算法。但是,它们仅使用色度差异颜色特征向量,其适应能力和鲁棒性均较差。此外,视频编排领域对实时性要求较高,输出画面稍有延时即会造成不好的观赏体验。
基于上述情况,亟需一种算法简单,实时性强、准确性高的嘴唇分割技术用于视频编排中。
发明内容
本发明目的在于解决以上问题,提供了一种基于口型识别的视频编排方法,提高嘴唇检测的自适应性和鲁棒性,满足视频编排对实时性的要求。方法根据彩色图像中色调(H)、饱和度(S)、亮度(V)分量在唇色和肤色区域分布的差异,选择3个颜色特征向量,利用Fisher分类器进行阈值分类;将分类得到的二值化图像进行滤波和区域连通处理,通过设置flag值确定嘴唇边界,从而提取嘴唇匹配特征;然后将嘴唇匹配特征值与素材库中动物视频图像嘴唇特征相匹配;最后通过图像插值技术实现视频图像自动编排。
本申请提供的基于口型识别的视频编排方法,包括步骤:(1)采集原始图像;(2)获取视频信息的当前帧;(3)人脸检测;(4)根据先验知识框选出嘴唇感兴趣区域(ROI);(5)在ROI基础上进行嘴唇区域检测;(6)确定嘴唇边界并确定检测图像与视频编排图像的匹配特征;(7)采用图像插值技术,插值出两幅图像中间的过渡图像并输出,以此实现视频自动编排;其中嘴唇区域检测进一步包括创建基于HSV空间模型的图像,运用基于HSV颜色空间模型来训练Fisher分类器,基于训练好的Fisher分类器对ROI逐像素进行阈值分类。
所述的视频编排方法,其中原始图像采集是利用direct show下的CCameraDS类进行的,采集步骤还包括获取摄像头数目,并为系统分配相应内存。
所述的视频编排方法,在采集原始图像的步骤之后,还包括获取所有摄像头名称,并通过窗口显示,以及通过设置错误返回,检测摄像头是否正常工作的步骤。
所述的视频编排方法,在上述检测摄像头的步骤后还包括打开第一个摄像头,弹出属性选择窗口,进行视频编码以及视频压缩率设置的步骤。
所述的视频编排方法,在获取视频信息的当前帧的步骤之后,还包括创建CvVideoWriter对象,为其分配内存空间,以及保存视频编码的步骤;保存的文件大小为摄像头视频大小,帧频率为32帧/秒。
所述的视频编排方法,在人脸检测中调入detect_and_draw()函数,具体步骤为:首先创建单通道、8位数灰度图像,图像的宽度、高度与待检测图像一致;再创建缩放比例为原图的1/1.3倍的小图small_img,在创建小图的过程中,引入cvRound()函数,实现对一个double型数值的四舍五入,并输出整数型数值;将待检测图像转换为灰度图,调用cvResize()函数,利用双线性插值法,经过缩放变换,将待检测图像所生成灰度图匹配成小图small_img;对小图small_img进行均衡化处理,增强图像亮度以及对比度;创建cvHaarDetectObjects序列检测人脸。
所述的视频编排方法,调用OnSkincolorDetection()函数在ROI基础上进行嘴唇区域检测,嘴唇区域检测还包括创建肤色图cvCreate()。
所述的视频编排方法,在利用Fisher分类器进行阈值分类后,还包括对图像进行二值化的步骤,然后对二值化图像进行平滑滤波以及膨胀处理,获取二值化图像最大连通域的步骤,以更好地去除椒盐噪声的干扰。
所述的视频编排方法,其中确定嘴唇边界并确定图像匹配特征的步骤,具体包括:遍历二值化图像,检测上嘴唇上边缘以及下嘴唇下边缘像素点,提取高度差作为图像匹配特征,并与素材库中视频画面进行匹配,作为图像插值前后帧。
所述的视频编排方法,其中确定嘴唇边界的步骤具体为:首先定义标记变量flag,并赋初值为0,用以标识边缘像素点;由左上角至右下角按列逐个遍历每个像素点;若像素值由255变为0则flag置为1,由此确定上边缘点以及左边缘点;若像素值由0变为255则flag置为0,由此确定下边缘点以及右边缘点。
本发明对比现有技术,具有如下有益效果:本发明基于唇色和肤色分布差异,考虑周围关系干扰,合理选择HSV颜色空间中的颜色信息构建Fisher分类器,从而获得更多的信息量,以对唇色和肤色区域进行分割,增强了在复杂环境下嘴唇特征匹配的自适应性和鲁棒性;以及采用图像插值技术,生成两幅匹配视频图像之间的过渡图像,增强了视频编排的灵敏度与可观赏性,使视频内容播放更流畅与完整。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细地说明,其中:
图1示例性的示出了本发明的整体流程;
图2-a示例性的示出了人脸检测并确定ROI感兴趣区域算法流程图;
图2-b示例性的示出了嘴部感兴趣区域;
图3示例性的示出了利用Fisher分类器进行唇色与肤色分类,并二值化检测图像算法流程图;
图4-a示例性的示出了嘴唇边界确定算法流程图;
图4-b示例性的示出了获取最大连通域前后的二值化图像效果比对图;
图5-a示例性的示出了根据匹配特征进行视频图像输出算法流程图;
图5-b示例性的示出了树懒运动视频提取画面;
图6-a示例性的示出了通过图像插值技术合成过渡图像并合成最终效果算法流程图;
图6-b示例性的示出了单特征线对的图像变形;
图6-c示例性的示出了生成过渡图像效果对比图;
图7示例性的示出了本发明在视频编排中的输出效果展示。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
本发明提供了一种基于HSV颜色空间Fisher分类器的嘴唇分割算法并利用其进行视频编排的方法,图1所示为整体流程图。
本实施例中,在系统启动以后,首先在步骤S101中采用direct show的CCameraDS类进行原始图像采集,获取摄像头数目,并为系统分配相应内存空间。若存在摄像头,则进入步骤S102打开第一个摄像头,弹出属性选择窗口,进行视频编码以及视频压缩率设置;否则,若摄像头数目为0,则错误返回,程序终止。
在步骤S103中,首先获取摄像头获得视频信息的当前帧,创建cvVideoWriter对象并分配内存空间,保存文件名为”camera.avi”,文件大小为摄像头视频大小,帧率为32帧/秒。然后判断视频帧是否写入成功,若成功则返回1,并将当前帧作为待检测变量进入步骤S104。
在步骤S104中调用detect_and_draw()函数进行人脸检测,并框选感兴趣区域。其中通过训练和加载级联"haarcascade_frontalface_alt2x.ml"分类器进行人脸检测,再根据先验知识,在人脸检测基础上,在检测图像面部区域框选出嘴唇分割感兴趣区域ROI,并通过cvSetImageROI()设置选框属性。
随后,在步骤S105中,以ROI为待检测图像,调用OnSkincolorDetection()函数进行嘴唇分割,并生成二值化图像。这里运用基于HSV颜色空间模型来训练Fisher分类器,能更好的区分肤色和唇色区域。
当二值化图像确定后,进入步骤S106,确定嘴唇边界,并通过上嘴唇上边缘与下嘴唇下边缘高度差,确定检测图像与视频编排图像的匹配特征。在步骤S107中,对手动标记好的视频编排图像进行查找选择并输出。
最后在步骤S108中,将在步骤S107中获得的匹配图像作为前后插值图像帧,利用图像插值算法生成中间过渡图像并输出,完成视频图像的自动编排。
图2-a示例性的示出了人脸检测并确定ROI感兴趣区域算法流程图。其中,步骤S201读取当前视频帧,步骤S201a将待检测图像转化为灰度图,步骤S201b调用cvResize()函数,利用双线性插值法,经过缩放变换,将待检测图像所生成灰度图按原比例匹配为1/1.3倍的小图small_img。随后在步骤S202中,对小图进行均衡化处理,增强图像亮度以及对比度。步骤S203中首先载入”haarcascade_fromalface_alt2x.ml″分类器,再创建cvHaarDetectObjects序列进行人脸检测:
CvSeq*objects=cvHaarDetectObjects(small_img,cascade,storage,1.1,2,0,cvSize(30,30))。
其中,cascade为分类器级联的内部标识形式;storage用来存储检测到的一序列候选目标矩形的内存区域;“1.1”用来设置在前后两次相继扫描中搜索窗口的比例系数,具体表示将搜索窗口依次扩大10%;“2”构成检测目标的相邻矩形的最小个数(缺省-1),如果组成检测目标的小矩形的个数和小于“min_neighbors-1”则都会被排除,若min_neighbors为0,则函数不做任何操作就返回所有的被检测候选矩形框,这种设定值一般用在用户自定义对检测结果的组合程序上;“0”代表操作方式,当前唯一可以定义的操作方式是CV_HAAR_DO_CANNY_PRUNING,函数利用Canny边缘检测器来排除一些边缘很少或者很多的图像区域,因为这样的区域一般不含被检测目标,人脸检测中通过设定阈值使用了这种方法,并提高了检测速度;cvSize()函数用来设置检测窗口的最小尺寸,缺省的情况下被设为分类器训练时采用的样本尺寸。
步骤S204中,假定脸部图像的坐标原点A在左上角,根据嘴部区域在人脸几何分布上的先验知识,在人脸检测的基础上,将式(1)确定的检测区域EFGH作为嘴部的感兴趣区域,并将EFHG区域用绿色框框选出来,如图2-b所示。
其中,WF,HF,WM,HM分别表示脸部区域的宽度和高度、嘴部感兴趣区域的宽度和高度。
最后,在步骤S205中,将灰度图重新恢复为基于RGB颜色空间的彩色图像。
图3为嘴唇分割部分算法流程图,示例性的示出了利用Fisher分类器进行唇色与肤色分类,并二值化检测图像算法流程图。
首先,在步骤S301中,将已确定的ROI基于RGB颜色空间的彩色图像转化为基于HSV颜色空间的彩色图象。本文以HSV模型为基础,HSV模型是一种面向用户的复合主观感觉的颜色模型,相较于其他颜色模型更接近人眼对视觉感知。色度H表示从红色到绿色变化的颜色特征,饱和度S表示颜色的纯度。在HSV模型中,色度和亮度信号实现了分离,即物体的色度特征H不受周围光线变化的影响,故HSV模型广泛应用于基于肤色色度的检测。经过公式(2),(3),(4),将RGB颜色空间模型经非线性变换,得到HSV颜色空间模型。
其中,
随后,在步骤S302中,运用基于HSV颜色空间的Fisher分类器,对ROI图像进行阈值分割。从分类角度看,肤色检测可以看作2个类别分离问题,即肤色像素和非肤色像素的分类。本文采用Fisher分类器对肤色进行分离,其基本思想是将n类m维数据集尽可能地投影到一个方向,使得类与类之间尽可能分开,从而得到类别分离效果。简单来说,Fisher分类器是一种降维处理法。具体实现步骤为:
1)在步骤S302a中,利用肤色和唇色样本计算最佳投影向量:
其中,Sw为总类内散度矩阵,Sw=S1+S2,k=1,2。w1代表唇色类,w2代表肤色类,m1和m2分别为肤色和唇色样本均值向量。
2)在步骤S302b中,根据最佳投影向量,计算在一维Y空间上的分割阈值:
其中,Y=w*TX,k=1,2,N1和N2分别为唇色和肤色的像素个数。
3)在步骤S302c中,根据分割阈值,利用式(7)对嘴部感兴趣区域图像进行二值化处理:
其中,B(i,j)表示嘴唇感兴趣区域第i行第j列处的像素灰度值。
图4-a为嘴唇边界确定算法流程图。首先在步骤S401中,采用open cv自带的cvSmooth()函数对二值图像进行中值滤波处理。具体运算过程如下:
1)在步骤S401a中,构建3×3滑动模板,作为唇部感兴趣区域检测的滤波器;
2)在步骤S401b中,用上述滑动模板遍历整个唇部感兴趣区域,将模板内像素按照像素值大小进行排序生成单调二维数据序列,输出结果如式(8)所示。
N(i,j)=Med{M(i-k,j-g),(k,g∈W)} (8)
其中,N(I,j),M(I,j)分别为原始图像和处理后图像,W为3×3滑动模板。
上述方法把二值图像中某一点的像素值用该点领域各点的像素中值代替,从而使周围像素值接近真实值,以此消除孤立噪声点。随后在步骤S402中再对滤波后的二值化图像进行膨胀处理,其中用于膨胀的结构元素设为3×3长方形结构元素,膨胀次数设为1。
最后在步骤S403中,利用唇色像素在感兴趣区域分布的先验知识,先自上而下确定嘴唇区域上(左)边界、再自下而上确定嘴唇区域下(右)边界,具体算法步骤如下:
1)在步骤S403a中,首先定义标记变量flag,并赋初值为0,用以标识边缘像素点;
2)在步骤S403b中,由左上角至右下角按列逐个遍历每个像素点。若像素值由255变为0则flag置为1,由此确定上边缘点以及左边缘点;若像素值由0变为255则flag置为0,由此确定下边缘点以及右边缘点。
通过滤波器对二值图像进行滤波,有效减少了检测图像边缘离散噪点的干扰。在无离散噪点的前提下,通过设置flag值进行边圆点判别,简单快捷,大大提升了算法速度。获取最大连通域后的二值化图像如图4-b所示。
图5-a为根据匹配特征进行视频图像输出算法流程图。示例选取动物树懒的视频画面做重新编排。树懒面部结构形似猴,与人类较为接近,且嘴部活动明显,较易进行视频画面匹配。
本文素材截取自1秒的树懒嘴部运动视频,为减少系统运算,提高算法速度,达到实时编排效果,这里并没有逐帧提取视频画面。并且,由于人眼的视觉残留效应,在进行视频画面观赏时,人眼几乎感受不到画面延迟,所以本文首先提取了24帧视频画面中的7帧嘴部运动幅度明显的不连续视频画面作为匹配图像。由图5-b可知,树懒嘴部变化过程为由闭嘴至完全张开,已涵盖所有可能性。
本发明采用待检测图像上嘴唇上边缘Htop与下嘴唇下边缘Hbottom高度差△作为匹配特征,见式(9):
Δ=Htop-Hbottom (9);
步骤S501根据上述关系,计算匹配阈值ddy,见式(10):
步骤S502中,利用switch()语句将手动标记的视频图像进行匹配并输出。其中,casea4至case10依次对应图5-b中视频图像2至7,其余情况做视频画面1嘴唇闭合状态处理。
图6-a示例性的示出通过图像插值技术合成过渡图像,并合成最终效果算法流程图。首先,在步骤S601中,读取视频前后两帧作为生成过渡图像的起始图像以及终止图像。然后在步骤S602中,建立两幅图像之间点的对应关系。如果图像中只有一条特征线段,如图6-b所示,即起始图像中的特征线段为P’Q’,其对应的终止图像中的特征线段为PQ,它们组成了特征线对。
随后在步骤S602中,遍历终止图像中每一点X,其在起始图像中的采样点X’可由如下映射函数求得(11),(12),(13),将X’点的颜色值复制到X处即可形成一幅变形后的图像。
其中,Perpendicular(Q-P)表示垂直于线段PQ且模与PQ线段长度相同的向量,u表示终止图像中任意一点X在PQ上的投影到P点的距离与PQ的比值,v则表示X点到PQ的垂直距离。
最后,在步骤S603中,对两个图像序列进行交叉融合,完成两个图像同一个位置上像素灰度值的插值,从而生成中间过渡图像序列。例如,如果中间过渡图像序列为5,则可对两个图像序列进行如下操作:对于图像序列I0的序列,分别提取颜色值的100%,颜色值的75%,颜色值的50%,颜色值的25%,颜色值的0%;对于图像I1的序列,分别取颜色值的0%,颜色值25%,颜色值50%,颜色值的75%,颜色值的100%。然后,对两个图像序列分别按照上述颜色取值比例进行叠加,即可获得合成后的中间过渡图像序列I0,I0.25,I0.5,I0.75,I1。
图6-c为序列2和序列3经过图像代数运算处理后生成过渡序列对比图,从左往右依次为序列2、过渡图、序列3。
综上所述,本发明选择HSV颜色空间中的颜色信息构建Fisher分类器,利用Fisher分类器进行阈值分类,增强了在复杂环境下嘴唇特征匹配的自适应性和鲁棒性;采用图像插值技术增强了视频编排的灵敏度与可观赏性,使视频内容播放更流畅与完整。
尽管已参照较佳实施方式对本发明做出了描述,但是,本发明并不仅限于此,它还包括所有在其权利要求所限定的范围内做出的改动和变更。
Claims (10)
1.基于口型识别的视频编排方法,其特征在于,包括以下步骤:
(1)采集原始图像;
(2)获取视频信息的当前帧;
(3)人脸检测;
(4)根据先验知识框选出嘴唇感兴趣区域(ROI);
(5)在ROI基础上进行嘴唇区域检测;
(6)确定嘴唇边界并确定检测图像与视频编排图像的匹配特征;
(7)采用图像插值技术,插值出两幅图像中间的过渡图像并输出,以此实现视频自动编排;其中嘴唇区域检测进一步包括创建基于HSV空间模型的图像,运用基于HSV颜色空间模型来训练Fisher分类器,基于训练好的Fisher分类器对ROI逐像素进行阈值分类;
其中,所述步骤(2)包括:
步骤S201读取当前视频帧,
步骤S201a将待检测图像转化为灰度图,步骤S201b调用cvResize()函数,利用双线性插值法,经过缩放变换,将待检测图像所生成灰度图按原比例匹配为1/1.3倍的小图small_img,随后在步骤S202中,对小图进行均衡化处理,增强图像亮度以及对比度;
步骤S203中首先载入”haarcascade_frontalface_alt2x.ml"分类器,再创建cvHaarDetectObjects序列进行人脸检测:
CvSeq*objects=cvHaarDetectObjects(small_img,cascade,storage,1.1,2,0,cvSize(30,30));
其中,cascade为分类器级联的内部标识形式;storage用来存储检测到的一序列候选目标矩形的内存区域;“1.1”用来设置在前后两次相继扫描中搜索窗口的比例系数,具体表示将搜索窗口依次扩大10%;“2”构成检测目标的相邻矩形的最小个数,如果组成检测目标的小矩形的个数和小于“min_neighbors-1”则都会被排除,若min_neighbors为0,则函数不做任何操作就返回所有的被检测候选矩形框,这种设定值一般用在用户自定义对检测结果的组合程序上;“0”代表操作方式,当前唯一可以定义的操作方式是CV_HAAR_DO_CANNY_PRUNING,函数利用Canny边缘检测器来排除一些边缘很少或者很多的图像区域,因为这样的区域一般不含被检测目标,人脸检测中通过设定阈值使用了这种方法,并提高了检测速度;cvSize()函数用来设置检测窗口的最小尺寸,缺省的情况下被设为分类器训练时采用的样本尺寸;
步骤S204中,假定脸部图像的坐标原点A在左上角,根据嘴部区域在人脸几何分布上的先验知识,在人脸检测的基础上,将式(1)确定的检测区域EFGH作为嘴部的感兴趣区域,并将EFHG区域用绿色框框选出来,
<mrow>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mn>0.2</mn>
<msub>
<mi>W</mi>
<mi>F</mi>
</msub>
<mo>&le;</mo>
<msub>
<mi>W</mi>
<mi>M</mi>
</msub>
<mo>&le;</mo>
<mn>0.8</mn>
<msub>
<mi>W</mi>
<mi>F</mi>
</msub>
<mo>,</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0.667</mn>
<msub>
<mi>H</mi>
<mi>F</mi>
</msub>
<mo>&le;</mo>
<msub>
<mi>H</mi>
<mi>M</mi>
</msub>
<mo>&le;</mo>
<mn>0.9</mn>
<msub>
<mi>H</mi>
<mi>F</mi>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,WF,HF,WM,HM分别表示脸部区域的宽度和高度、嘴部感兴趣区域的宽度和高度;
最后,在步骤S205中,将灰度图重新恢复为基于RGB颜色空间的彩色图像。
2.根据权利要求1所述的视频编排方法,其特征在于,图像采集步骤还包括获取摄像头数目,并为系统分配相应内存。
3.根据权利要求1所述的视频编排方法,其特征在于,在采集原始图像的步骤之后,还包括获取所有摄像头名称,并通过窗口显示,通过设置错误返回,检测摄像头是否正常工作的步骤。
4.根据权利要求3所述的视频编排方法,其特征在于,在检测摄像头的步骤之后,还包括打开第一个摄像头,弹出属性选择窗口,进行视频编码以及视频压缩率设置的步骤。
5.根据权利要求1所述的视频编排方法,其特征在于,在获取视频信息的当前帧的步骤之后,还包括创建CvVideoWriter对象,为其分配内存空间,以及保存视频编码的步骤;保存的文件大小为摄像头视频大小,帧频率为32帧/秒。
6.根据权利要求1所述的视频编排方法,其特征在于,人脸检测中调入detect_and_draw()函数,人脸检测的具体步骤为:首先创建单通道、8位数灰度图像,图像的宽度、高度与待检测图像一致;再创建缩放比例为原图的1/1.3倍的小图small_img;将待检测图像转换为灰度图,调用cvResize()函数,利用双线性插值法,经过缩放变换,将待检测图像所生成灰度图匹配成小图small_img;对小图small_img进行均衡化处理,增强图像亮度以及对比度;创建cvHaarDetectObjects序列检测人脸。
7.根据权利要求1所述的视频编排方法,其特征在于,嘴唇区域检测还包括创建肤色图cvCreate()。
8.根据权利要求1所述的视频编排方法,其特征在于,在利用Fisher分类器进行阈值分类后,对图像进行二值化,再对二值化图像进行平滑滤波以及膨胀处理,获取二值化图像最大连通域。
9.根据权利要求1所述的视频编排方法,其特征在于,确定嘴唇边界并确定图像匹配特征具体包括步骤:遍历二值化图像,检测上嘴唇上边缘以及下嘴唇下边缘像素点,提取高度差作为图像匹配特征,并与素材库中视频画面进行匹配,作为图像插值前后帧。
10.根据权利要求1所述的视频编排方法,其特征在于,确定嘴唇边界的步骤具体为:首先定义标记变量flag,并赋初值为0,用以标识边缘像素点;由左上角至右下角按列逐个遍历每个像素点;若像素值由255变为0则flag置为1,由此确定上边缘点以及左边缘点;若像素值由0变为255则flag置为0,由此确定下边缘点以及右边缘点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410310093.8A CN104298961B (zh) | 2014-06-30 | 2014-06-30 | 基于口型识别的视频编排方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410310093.8A CN104298961B (zh) | 2014-06-30 | 2014-06-30 | 基于口型识别的视频编排方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104298961A CN104298961A (zh) | 2015-01-21 |
CN104298961B true CN104298961B (zh) | 2018-02-16 |
Family
ID=52318682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410310093.8A Expired - Fee Related CN104298961B (zh) | 2014-06-30 | 2014-06-30 | 基于口型识别的视频编排方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104298961B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6720882B2 (ja) * | 2017-01-19 | 2020-07-08 | カシオ計算機株式会社 | 画像処理装置、画像処理方法及びプログラム |
CN107800966B (zh) * | 2017-10-31 | 2019-10-18 | Oppo广东移动通信有限公司 | 图像处理的方法、装置、计算机可读存储介质和电子设备 |
CN112911366B (zh) * | 2019-12-03 | 2023-10-27 | 海信视像科技股份有限公司 | 饱和度调整方法、装置及显示设备 |
CN113949824B (zh) * | 2021-10-28 | 2022-08-23 | 深圳市三一众合科技有限公司 | 卡通头像的嘴巴控制方法及相关产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
CN102682273A (zh) * | 2011-03-18 | 2012-09-19 | 夏普株式会社 | 嘴唇运动检测设备和方法 |
CN103745462A (zh) * | 2013-12-27 | 2014-04-23 | 浙江大学 | 一种人体口型视频重构系统与重构方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101482976B (zh) * | 2009-01-19 | 2010-10-27 | 腾讯科技(深圳)有限公司 | 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置 |
-
2014
- 2014-06-30 CN CN201410310093.8A patent/CN104298961B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
CN102682273A (zh) * | 2011-03-18 | 2012-09-19 | 夏普株式会社 | 嘴唇运动检测设备和方法 |
CN103745462A (zh) * | 2013-12-27 | 2014-04-23 | 浙江大学 | 一种人体口型视频重构系统与重构方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104298961A (zh) | 2015-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325988B (zh) | 一种面部表情合成方法、装置及电子设备 | |
US9524028B2 (en) | Visual language for human computer interfaces | |
Bray et al. | Posecut: Simultaneous segmentation and 3d pose estimation of humans using dynamic graph-cuts | |
US8698796B2 (en) | Image processing apparatus, image processing method, and program | |
Crabb et al. | Real-time foreground segmentation via range and color imaging | |
WO2017190646A1 (zh) | 一种人脸图像处理方法和装置、存储介质 | |
RU2587425C2 (ru) | Способ получения карты глубины изображения повышенного качества | |
TW201931179A (zh) | 用於虛擬面部化妝之移除與模擬、快速面部偵測及標記追蹤、降低輸入視訊之延遲及振動的系統與方法,以及用於建議化妝之方法 | |
CN111881913A (zh) | 图像识别方法及装置、存储介质和处理器 | |
WO2016011834A1 (zh) | 一种图像处理方法及系统 | |
Li et al. | Saliency model-based face segmentation and tracking in head-and-shoulder video sequences | |
Butler et al. | Real-time adaptive foreground/background segmentation | |
US20110299774A1 (en) | Method and system for detecting and tracking hands in an image | |
Cavallaro et al. | Shadow-aware object-based video processing | |
JP2000036052A (ja) | 複数人物が存在する場合の人間の顔のロバスト追跡方法 | |
JP2018045693A (ja) | 動画像背景除去方法及び動画像背景除去システム | |
CN110827193A (zh) | 基于多通道特征的全景视频显著性检测方法 | |
CN104298961B (zh) | 基于口型识别的视频编排方法 | |
Hammal et al. | Parametric models for facial features segmentation | |
KR101344851B1 (ko) | 영상처리장치 및 영상처리방법 | |
CN112839167A (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
US20160140748A1 (en) | Automated animation for presentation of images | |
CN114155569A (zh) | 一种化妆进度检测方法、装置、设备及存储介质 | |
Arsic et al. | Improved lip detection algorithm based on region segmentation and edge detection | |
Hong et al. | Advances in Multimedia Information Processing–PCM 2018: 19th Pacific-Rim Conference on Multimedia, Hefei, China, September 21-22, 2018, Proceedings, Part III |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180216 Termination date: 20200630 |