CN1702691A - 基于语音的彩色人脸合成方法、系统及其着色方法、装置 - Google Patents
基于语音的彩色人脸合成方法、系统及其着色方法、装置 Download PDFInfo
- Publication number
- CN1702691A CN1702691A CN200510082755.1A CN200510082755A CN1702691A CN 1702691 A CN1702691 A CN 1702691A CN 200510082755 A CN200510082755 A CN 200510082755A CN 1702691 A CN1702691 A CN 1702691A
- Authority
- CN
- China
- Prior art keywords
- face
- image
- people
- chroma data
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 20
- 238000004040 coloring Methods 0.000 title claims description 10
- 238000013507 mapping Methods 0.000 claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 26
- 230000015572 biosynthetic process Effects 0.000 claims description 22
- 238000003786 synthesis reaction Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 20
- 239000004744 fabric Substances 0.000 claims description 15
- 230000001815 facial effect Effects 0.000 claims description 15
- 238000009499 grossing Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 210000000744 eyelid Anatomy 0.000 claims description 9
- 238000013316 zoning Methods 0.000 claims description 4
- 238000007519 figuring Methods 0.000 abstract 1
- 238000010422 painting Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000010189 synthetic method Methods 0.000 description 2
- 230000000386 athletic effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开一种基于输入语音的彩色人脸合成方法和系统,该系统包括训练模块、合成模块和输出模块,该方法包括步骤:采集训练数据并处理,建立多个人脸模板和反应语音特征和脸形对应关系的映射模型;选取一幅彩色基准图像,保存由其特征点划分出的每个区域上多个选定位置的像素点的色度数据;合成时,从输入语音抽取语音特征输入到映射模型,合成出人脸序列;对合成的人脸,将保存的所述像素点的色度数据作为该人脸对应位置上像素点的色度数据,计算出该图像上其它像素点的色度数据,然后显示着色后的彩色图像。上述对图像的着色方法和装置也可运用于其他的图像合成技术中。本发明可以实现实时的彩色人脸合成,合成的人脸更为自然、流畅和真实。
Description
技术领域
本发明涉及基于图像仿真技术,尤其涉及一种基于输入语音的彩色人脸合成方法和系统,以及对图像着色的方法和装置。
背景技术
脸形合成是指由计算机合成出各种人脸形状、表情、嘴形等。脸形合成包括多个方面,如人脸表情合成,即由输入语音等数据合成出人脸的笑、怒等表情;由语音合成嘴形,根据输入语音数据合成嘴形和下巴的形状;由文本合成嘴形,直接由输入文本合成出嘴形和下巴;等等。本发明只考虑在输入语音与嘴形形状、下巴形状之间建立对应关系,不考虑表情的变化。
人在说话时,语音信息与图像信息尽管完全不一样,但并不是完全独立的。人们在看关于外语译制片时,能明显感觉到配音与演员嘴形的运动不协调。这就说明了语音与图像的相关性。由于不协调主要体现在嘴形的运动上,因此语音与图像的关联主要体现在语音与嘴形运动的同步上。
基于语音的真实人脸合成方法的应用主要在两方面,一是动画设计中的图像处理技术,二则是远程语音图像传输。
动画设计中的图像处理:动画序列中各个人说话时脸部器官的动作无法通过视频获取,此时可为不同人或动物建立不同的模型,采用合成算法由配音合成比较逼真的动画序列,也可用于虚拟主持人、虚拟导播等。
远程语音图像传输:人脸合成算法的主要应用是各类基于远程语音图像传输的系统,如远程教育系统、视频会议、虚拟网络直播、手机通话、可视电话等。考虑到手机和固定电话的带宽有限,无法将说话人的视频比较流畅地传输到另一端,而将人脸检测和人脸合成算法合成起来,就可将说话人的真实数据直接传到听话人一端,并合成说话人的脸形序列,这样就可以以很小的代价实现人脸视频数据的持续合成和传输。
文献一:C.Bregler,M.Covell,and M.Slaney.“Video Rewrite:Drivingvisual speech with audio”,ACM SIGGRAPH’97,1997.公开了一种人脸合成方法,采用直接从原始视频中找到某个音素对应的脸形,然后将这段脸形贴到背景视频中的算法;它可以得到真实的人脸视频数据,合成效果比较好,特别是它的输出的视频图像非常真实;缺陷是运算量太大,需要的训练数据太多,单音素-人脸模型的数量就有几千个,无法实时实现。
文献二:M.Brand,“Voice Puppetry”,ACM SIGGRAPH’99,1999.“Video Rewrite”公开的人脸合成方法,是通过抽取面部特征点,建立面部特征点状态,并将输入的语音特征向量和隐含马尔可夫算法结合起来,获取面部特征点序列,得到人脸视频序列。这个算法也无法实时实现,且合成结果比较单调。
文献三:Ying Huang,Xiaoqing Ding,Baining Guo,and Heung-YeungShum.“Real-time face synthesis driven by voice”,CAD/Graphics’2001,Aug.2001.中公开的人脸合成方法只能得到卡通人脸序列,没有提供一种适合的着色方法,因此无法得到彩色人脸序列。另外,该方法是用语音特征与脸形序列直接对应,训练时在人脸上标记的特征点除了分布在嘴形外,还分布在下巴等部位,因此其训练数据中包含了下巴的运动信息,但由于人在说话时头部会晃动,从实验结果看,导致采集到的下巴的训练数据非常不准确,使得合成的人脸序列中下巴的动作不连续和自然,影响了整体的合成效果。
发明内容
本发明要解决的问题是提出一种基于输入语音的彩色人脸合成方法。本发明还要提供一种可以实现该方法的系统。
为了解决上述技术问题,本发明提供了一种基于输入语音的彩色人脸合成方法,包括以下步骤:
(a)采集训练数据,进行图像和语音数据处理,建立包含各种嘴形的由特征点集组成的多个人脸模板,以及反应语音特征和脸形对应关系的映射模型;
(b)选取一幅彩色基准人脸,按其对应人脸模板上的特征点将该人脸划分为多个区域构成的网格,并保存每个区域上多个选定位置的像素点在该基准人脸中的色度数据;
(c)合成时,从输入语音中抽取语音特征,将其输入到所述映射模型中,合成出人脸序列;
(d)对人脸序列中的人脸,将保存的所述像素点的色度数据作为该人脸按特征点划分出的对应区域对应位置上像素点的色度数据,然后根据这些点进一步计算出该人脸上其它像素点的色度数据;
(e)根据该人脸各个像素点的色度数据,显示着色后的彩色人脸。
进一步地,上述彩色人脸合成方法还可具有以下特点:所述步骤(a)需建立一个基于序列匹配和HMM(隐马尔可夫模型)算法的从语音特征序列到嘴形序列的映射模型,以及一个从嘴形序列到脸形序列的映射模型。
进一步地,上述彩色人脸合成方法还可具有以下特点:所述步骤(c)合成时,先根据语音特征序列合成出嘴形序列,再通过相似性算法将嘴形序列中的每一嘴形对应到一个人脸模板,得到对应的人脸模板序列,经平滑处理后得到的所述人脸序列。
进一步地,上述彩色人脸合成方法还可具有以下特点:所述步骤(b)和(d)中,是按人脸的特征点将人脸划分为多个三角形,每一三角形上的选定位置是指以下位置中的一种或任意组合:该三角形的顶点、各边的中点、该三角形的中心点、该三角形中心点与各顶点连线的中心点、各边中点与两个端点的中心点。
本发明提供的基于输入语音的彩色人脸合成系统包括训练模块、合成模块和输出模块,其特点是,所述输出模块进一步包括:
人脸模板存储单元,用于保存包含各种嘴形的由特征点集组成的多个人脸模板;
色度信息存储单元,用于保存彩色基准人脸的每个区域上多个选定位置的像素点的色度数据,这些区域是按该基准人脸对应人脸模板上的特征点划分得到的;
着色单元,用于将保存的所述像素点的色度数据作为合成人脸按特征点划分出的对应区域对应位置上像素点的色度数据,然后根据这些点进一步计算出该人脸上其它像素点的色度数据;
显示单元用于根据该人脸各个像素点的色度数据,显示着色后的彩色人脸。
进一步地,上述彩色人脸合成系统还可具有以下特点:
所述训练模块用于采集训练数据,进行人脸和语音数据处理,建立语音特征序列和嘴形序列的映射模型;
所述合成模块用于从输入语音中抽取语音特征,将其输入到所述映射模型中合成出嘴形序列;
所述输出模块还包括:嘴形-人脸模板匹配单元,用于将合成的嘴形通过相似性算法对应到人脸模板序列;以及平滑处理单元,用于对人脸模板序列中的人脸模板进行平滑处理,得到所述人脸序列。
本发明要解决的又一技术问题是提出一种应用于图像合成系统的图像着色方法,可以实时地完成图像的着色,图像的色彩流畅、真实,且对系统的运算能力要求不要。本发明还要提供一种可以实现该方法的装置。
为了解决上述技术问题,本发明提供了一种图像着色方法,应用于包括由特征点集组成的多个图像模板的图像合成系统,包括以下步骤:
(a)选取一幅彩色基准图像,按其对应图像模板上的特征点将该图像划分为多个区域构成的网格,并保存每个区域上多个选定位置的像素点在该基准图像中的色度数据;
(b)对图像模板处理得到合成图像后,将保存的所述像素点的色度数据作为该图像按特征点划分出的对应区域对应位置上像素点的色度数据,然后根据这些点进一步计算出该图像上其它像素点的色度数据;
(c)根据该图像各个像素点的色度数据,显示着色后的彩色图像。
进一步地,上述图像着色方法还可具有以下特点:所述图像为人脸图像。
进一步地,上述图像着色方法还可具有以下特点:所述步骤(a)和(b)中,是按图像的特征点将图像划分为多个三角形,每一三角形上的选定位置是指以下位置中的一种或任意组合:该三角形的顶点、各边的中点、该三角形的中心点、该三角形中心点与各顶点连线的中心点、各边中点与两个端点的中心点。
进一步地,上述图像着色方法还可具有以下特点:所述人脸模板的特征点只分布在人脸中眼皮以下的部位,且在步骤(c)中显示时,将一幅包括人脸眼皮以上部分的背景图像与所述着色后的彩色人脸叠加,得到完整的彩色人脸图像。
进一步地,上述图像着色方法还可具有以下特点:所述步骤(a)是在每个区域上保存了8~24个位置的像素点的色度数据,这些像素点在该区域上均匀分布。
进一步地,上述图像着色方法还可具有以下特点:所述步骤(b)是按所述色度数据已知的像素点划分成若干计算区域逐一计算,对于每一计算区域的内部像素点,先计算包含该点的线段端点的色度数据,再运用线性插值算法得到该点色度数据。
本发明提供的图像合成系统中的图像着色装置包括色度信息存储单元、着色单元和显示单元,其中:
所述色度信息存储单元用于保存彩色基准图像的每个区域上多个选定位置的像素点的色度数据,这些区域是按该基准图像对应图像模板上的特征点划分得到的;
所述着色单元用于将保存的所述像素点的色度数据作为合成图像按特征点划分出的对应区域对应位置上像素点的色度数据,然后根据这些点进一步计算出该图像上其它像素点的色度数据;
所述显示单元用于根据该图像各个像素点的色度数据,显示着色后的彩色图像。
进一步地,上述图像着色装置还可具有以下特点:所述显示单元还包括叠加子单元,用于将一幅背景图像与着色后的彩色图像叠加,输出完整的彩色图像。
由上可知,本发明首先选取一幅彩色基准人脸图像,保存该图像上特征点构成的三角形网格内特定点的色度数据,并运用到合成人脸的对应点上,然后再计算出合成人脸其它点的色度数据,从而实现实时的彩色人脸合成,且不受语种和说话人的影响。
另一方面,本发明在训练时只标记嘴形形状,合成时根据语音特征向量序列对应到嘴形序列,再由嘴形序列对应到人脸序列,从而避免了因下巴等训练数据不准确带来的整体合成人脸的失真,并使合成的人脸序列更为自然、流畅和真实,且算法可以实时实现,即由话筒实时输入语音,计算机即可输出真实的彩色人脸序列或卡通人脸序列。
附图说明
图1是本发明实施例基于语音的实时合成系统的示意图。
图2是本发明实施例部分标准人脸图像及对应的手工标定点的图。
图3是本发明实施例部分整理后的人脸模板示例图。
图4是本发明实施例由人脸模板建立的人脸面部三角形网格图。
图5A和图5B是本发明实施例三角形网格着色时选取的16个点及6个小三角形。
图6是本发明实施例三角形内部像素点着色的示意图。
图7是本发明实施例着色后的彩色人脸示例。
图8是本发明实施例彩色人脸合成结果。
图9是本发明实施例卡通人脸合成结果。
图10是本发明实施例输出模块的结构框图。
图11是本发明实施例根据合成的嘴形序列输出彩色人脸图像的方法的流程图。
具体实施方式
图1示出了第一实施例整个系统的框图,该系统包括三个主要模块:训练模块、合成模块和输出模块。
训练模块用于采集训练数据,进行图像和语音数据处理,建立嘴形序列和语音特征向量序列的映射模型。大致过程为:录制试验者的语音数据和对应的正面人脸序列;通过对人脸的手动或自动标定、整理,建立嘴形模型,同时,从输入语音帧中抽取出梅尔倒频谱特征向量(Mel-frequency.Cepstrum,MFCC特征向量),并减去一个平均语音特征向量;对嘴形模型和语音特征向量进行训练;从训练集中抽取若干段有代表性的嘴形序列和语音特征向量序列,建立基于序列匹配的实时映射模型。另外,为了覆盖所有的输入语音,本实施例还聚类出多个嘴形状态,并训练各个嘴形的HMM模型。
本实施例在训练过程中,对图像和语音数据的处理可采用文献三中公开的方法,另外采用了该文献中基于序列匹配和HMM算法的映射模型,差别仅在于本实施例只对人脸中的嘴形数据进行处理,不对下巴等脸形轮廓部位进行标定和处理,避免了因人脸移动带来的数据失真。但本发明不局限于此,任何建立嘴形和语音映射模型的训练方法都可以采用。
合成模块用于从输入语音中抽取语音特征向量,将其输入到映射模型中,合成嘴形序列。大致过程为:接收输入语音;计算出输入语音的MFCC特征向量并处理;将处理后特征向量与映射模型中的语音特征向量序列进行匹配,输出一个嘴形,匹配相似度较低时用HMM算法计算出对应的嘴形;再将当前嘴形与其前面的几个嘴形进行加权平滑,输出结果。
上述合成方法可采用文献三中基于序列匹配和HMM算法的映射模型所对应的合成算法,只是匹配和输出的是嘴形而非脸形。但本发明不局限于此,任何可基于输入语音合成输出嘴形的方法都可以采用。
合成模块合成的结果只是脸形中的嘴形序列,并不包含人脸其他部位的运动信息,更不会包含彩色信息。而输出模块的目的就是将这样的嘴形序列扩展为更真实的卡通或彩色人脸序列。如图10所示,输出模块进一步包括人脸模板存储单元、色度信息存储单元、嘴形-人脸模板匹配单元、平滑处理单元、着色单元和显示单元。其中:
人脸模板存储单元用于保存包含各种嘴形的由特征点集组成的多个人脸模板。因为人说话时,眼皮以上的部位基本不动,因此本实施例的人脸模板只包含在眼皮以下部分标记的特征点,可以体现嘴形、下巴、鼻子等部位的运动信息,这样可以简化运算,提高合成效率;
色度信息存储单元用于保存彩色基准人脸的每个三角形上多个选定位置的像素点的色度数据,这些三角形是按该基准人脸对应人脸模板上的特征点划分得到的。
嘴形-人脸模板匹配单元用于将合成的嘴形通过相似性算法对应到一个人脸模板,得到与嘴形序列对应的人脸模板序列。
平滑处理单元用于对人脸模板序列中的各个人脸模板进行平滑处理,输出平滑后的人脸序列;
着色单元用于将保存的所述像素点的色度数据作为平滑后人脸按其特征点划分出的对应区域对应位置上像素点的色度数据,然后根据这些点进一步计算出该人脸上其它像素点的色度数据;
显示单元用于根据人脸各像素点的色度数据,显示着色后的彩色人脸,显示时再由一叠加子单元将一幅包含眼皮以上部分的背景图像与着色后的人脸叠加,得到完整的彩色人脸图像。
本实施例是通过以下步骤来完成,如图11所示:
步骤110,建立包含各种嘴形的由特征点集组成的一组人脸模板,只包含在眼皮以下部分标记的特征点;
步骤120,选取一幅彩色的基准人脸图像,按其对应人脸模板上的特征点将该人脸划分为多个三角形构成的网格,并保存每个三角形上多个选定位置的像素点在该基准人脸中的色度数据;
步骤130,合成出嘴形序列后,通过相似性算法将嘴形序列中的每一嘴形对应到一个人脸模板,得到对应的人脸模板序列;
步骤140,对序列中的人脸模板进行平滑处理,即将当前输出模板与前几个模板进行平滑,然后输出平滑后的人脸序列;
步骤150,对人脸序列中的每一人脸,将保存的所述像素点的色度数据作为该人脸按特征点划分出的对应三角形对应位置上像素点的色度数据,然后根据这些点进一步计算出该人脸上其它像素点的色度数据;
步骤160,根据计算出的该人脸各个像素点的色度数据,显示着色后的彩色人脸,显示时将一幅包括人脸眼皮以上部分的背景图像与该彩色人脸叠加起来,得到完整的彩色人脸图像,如图9所示。
如果步骤110中人脸模板的特征点分布于整个人脸,可不使用背景图像。
步骤110解决的是如何为嘴形开闭时脸部其他部位的运动规律建模的问题,本实施例具体是通过以下步骤来解决的:
步骤A,选取了几十幅对应不同嘴形的标准人脸图像,如图2所示,这些图像都是左右对称的;
步骤B,在每幅图像上手动标记一百多个特征点,分布在眼睛下方、嘴形、下巴、鼻子附近,尤其是嘴形附近的特征点分布最密;
步骤C,由所有标准图像获取多个特征点集(各个特征点集中的点与点一一对应,但位置随其所在部位的运动会发生变化),在对这些点集进行聚类处理和插值处理,得到100个新的点集,组成100个人脸模板,图3给出了部分人脸模块。
(a)采集训练数据,进行图像和语音数据处理,建立包含各种嘴形的由特征点集组成的多个人脸模板,以及反应语音特征和脸形对应关系的映射模型;
由于选取的标准人脸图像已经包含了各种嘴形,而人脸面部各点的位置由手动标定,因此精度比较高。人脸模板由这些标定数据聚类插值获取,这样这些模块不仅包含了人脸绝大部分的嘴形,且各个嘴形对应的面部各点的位置也可获取。这样,获取的人脸序列就包含了人脸面部所有特征点的运动信息。
如何快速准确为合成的人脸着色呢?人在说话时面部各个点在不断运动,但如果外界光照条件没有变化,人的姿态也保持不变时,各个点的颜色基本保持不变,如嘴形的颜色仍为红色,而鼻孔的颜色为黑,鼻尖颜色偏白。本实施例正是用这个特性实时合成出彩色的人脸序列。
在步骤120中,先建立了一个基于基准人脸图像的彩色人脸模型,本实施例是通过以下步骤完成的:
步骤H,选取一幅彩色基准人脸图像(如,闭嘴形的),将其对应的人脸模板铺在图像上,由人脸模板上的特征点将人脸划分为多个三角形构成的网格,如图4所示;
步骤I,在构成三角形网格的每个三角形中选取16个位置上的像素点,采集所有这些点在基准图像中的色度数据;
这些点的位置如图5A所示,其中P1,P2,P3是三个顶点,P4,P5,P6分别是三条边P1P2,P2P3,以及P3P1的中点,P7是三条中线P1P4,P2P6,以及P3P5的交点,P8,P9,P10,P11,P12,P13分别是P2P5,P5P1,P1P6,P6P3,P3P4,以及P4P2的中点,P14,P15,P16分别是P2P7,P1P7,以P3P7的中点。
可以看出,以P1,P2,P3,P4,P5,P6及P7为顶点,可以将三角形P1P2P3分为6个小三角形P1P7P6,P1P7P5,P2P7P5,P2P7P4,P3P7P4,以及P3P7P6,如图5B所示。每个小三角形均有3个顶点和2个中心的色度数据已知。
以上二步是需要在实时着色前完成的配置步骤。在另一实施例中,也可以选取数目大于3的其它点数,选取点数时应同时考虑计算量和效果两个因素,如8~24个点。除数目外,点的位置也可以调整,但应尽量均布。在另一实施例中,也可以通过手动方式来建立网格,即连接特征点构成网格时可以根据需要改变区域的形状,或者在特征点密集的位置,适当减少网格的数量,以减少运算量。
输出的人脸序列中,每张人脸的特征点是与基准人脸图像一一对应的,因此由这些特征点也可以组成与基准人脸图像中对应的三角形网格,尽管各特征点的位置会发生变化,但两张人脸上的三角形都可以用序号对应起来。在假定光照不变的情况下,我们认为输出人脸中每个三角形的相应位置上16个像素点的色度数据与基准图像中对应三角形上对应位置的像素点的色度数据相同。
在步骤150中为一张合成的人脸着色在本实施例是通过以下步骤完成:
步骤O,对合成人脸上由其特征点划分成的每个三角形,找到其在基准人脸图像上对应的三角形,确定合成人脸该三角形上选定位置的16个像素点的色度数据;
步骤P,对每一三角形包含的6个小三角形,逐一计算每个小三角形内部所有像素点的色度数据;
下面一个小三角形A1A2A3为例,该小三角形的顶点用A1,A2,A3表示,如图6所示,其中A1,A2,A3,A4,A5颜色已知,现在要计算该小三角形中任一个像素点B的色度数据,通过以下两步完成:
1)连接A1B,求出A1B与边A2A3的交点C2的坐标,以及A1B与两个中点的连线A4A5的交点C1坐标,根据A4和A5的色度数据计算C1的色度数据,根据A1和A2的色度数据计算C2的色度数据;
2)根据各点坐标,判断B是处于A1C1之间还是C1C2之间,如果处于A1C1之间,则根据A1,C1的色度数据计算B的色度数据;如果处于C1C2之间,则根据C1,C2的颜色计算B的色度数据。
根据两点P1,P2的色度数据计算两点之间一点P3的色度数据采用线性插值算法,但不局限于此:
Pixel(P3)=[Pixel(P1)*len(P2P3)]+Poxel(P2)*len(P3P1)]/len(P1P2)
其中Pixel()表示某个点的色度数据,len()表示直线的长度。本发明也可以用其它算法由已知点推算其他点的色度数据。
步骤Q,用步骤P的同样方法计算出合成人脸上每个小三角形内每一像素点的色度数据,即可根据计算出的色度数据完成对该合成人脸的着色,显示出彩色的人脸。
需要说明的是,上述计算方法并不是唯一的,每个小三角形其实还可以进一步划分,以三角形A1A2A3为例,将A3与A4相连,A4与A5相连,就得到了3个更小的三角形。每个小三角形的3个顶点色度数据已知,计算时可以按这些更小的三角形为单位进行,先将其内部的像素点和距其最近的顶点相连,可以求出该连线与对边的交点的坐标,用插值法计算出该交点的色度数据,然后再次使用插值法计算出该内部像素点的色度数据。
上述第一实施例着色的过程主要是搜索各个三角形网格的内部像素点,为各点设置新的颜色。这个过程计算量并不大,因此算法的效率很高,在P42.8Ghz机器上可实时实现,由输入语音实时合成嘴形。
在另一实施例中,训练时直接建立语音与脸形的映射模型,合成时根据输入语音匹配到对应的人脸序列,对人脸序列进行平滑处理,然后采用第一实施例的着色方法完成着色(建立的彩色基准人脸模型),输出实时的彩色人脸图像。
相应地,和第一实施例相比,在输出模块中没有嘴形-人脸模板匹配单元和平滑处理单元,并在输出处理时略去嘴形序列对应到人脸模板序列的步骤和对人脸模板序列进行平滑处理的步骤。
事实上,本发明的着色方法可运用于任何方式合成得到的人脸序列。进一步地,本发明的着色方法也可运用于人脸以外的其它图像,如动物脸部等,并且,不局限于应用到基于语音输入的图像合成系统。
在又一实施例中,需要输出的是卡通人脸,即合成算法输出的图像序列不需要包含彩色信息,此时把第一实施例的着色部分删去,但在训练和合成时仍采用其方法,并用同样方法建立包含各种嘴形的一组人脸模板,合成时根据语音特征向量序列对应到嘴形序列,再由嘴形序列对应到人脸序列,从而避免了因下巴等训练数据不准确带来的整体合成人脸的失真。合成得到的卡通人脸如图8所示。
Claims (16)
1、一种图像着色方法,应用于包括由特征点集组成的多个图像模板的图像合成系统,包括以下步骤:
(a)选取一幅彩色基准图像,按其对应图像模板上的特征点将该图像划分为多个区域构成的网格,并保存每个区域上多个选定位置的像素点在该基准图像中的色度数据;
(b)对图像模板处理得到合成图像后,将保存的所述像素点的色度数据作为该图像按特征点划分出的对应区域对应位置上像素点的色度数据,然后根据这些点进一步计算出该图像上其它像素点的色度数据;
(c)根据该图像各个像素点的色度数据,显示着色后的彩色图像。
2、如权利要求1所述的图像着色方法,其特征在于,所述图像为人脸图像。
3、如权利要求1或2所述的图像着色方法,其特征在于,所述步骤(a)和(b)中,是按图像的特征点将图像划分为多个三角形,每一三角形上的选定位置是指以下位置中的一种或任意组合:该三角形的顶点、各边的中点、该三角形的中心点、该三角形中心点与各顶点连线的中心点、各边中点与两个端点的中心点。
4、如权利要求2所述的图像着色方法,其特征在于,所述人脸模板的特征点只分布在人脸中眼皮以下的部位,且在步骤(c)中显示时,将一幅包括人脸眼皮以上部分的背景图像与所述着色后的彩色人脸叠加,得到完整的彩色人脸图像。
5、如权利要求1或2所述的图像着色方法,其特征在于,所述步骤(a)是在每个区域上保存了8~24个位置的像素点的色度数据,这些像素点在该区域上均匀分布。
6、如权利要求1或2所述的人脸着色方法,其特征在于,所述步骤(b)是按所述色度数据已知的像素点划分成若干计算区域逐一计算,对于每一计算区域的内部像素点,先计算包含该点的线段端点的色度数据,再运用线性插值算法得到该点色度数据。
7、一种图像合成系统中的图像着色装置,其特征在于,包括色度信息存储单元、着色单元和显示单元,其中:
所述色度信息存储单元用于保存彩色基准图像的每个区域上多个选定位置的像素点的色度数据,这些区域是按该基准图像对应图像模板上的特征点划分得到的;
所述着色单元用于将保存的所述像素点的色度数据作为合成图像按特征点划分出的对应区域对应位置上像素点的色度数据,然后根据这些点进一步计算出该图像上其它像素点的色度数据;
所述显示单元用于根据该图像各个像素点的色度数据,显示着色后的彩色图像。
8、如权利要求7所述的图像着色装置,其特征在于,所述显示单元还包括叠加子单元,用于将一幅背景图像与着色后的彩色图像叠加,输出完整的彩色图像。
9、一种基于输入语音的彩色人脸合成方法,包括以下步骤:
(a)采集训练数据,进行图像和语音数据处理,建立包含各种嘴形的由特征点集组成的多个人脸模板,以及反应语音特征和脸形对应关系的映射模型;
(b)选取一幅彩色基准人脸,按其对应人脸模板上的特征点将该人脸划分为多个区域构成的网格,并保存每个区域上多个选定位置的像素点在该基准人脸中的色度数据;
(c)合成时,从输入语音中抽取语音特征,将其输入到所述映射模型中,合成出人脸序列;
(d)对人脸序列中的人脸,将保存的所述像素点的色度数据作为该人脸按特征点划分出的对应区域对应位置上像素点的色度数据,然后根据这些点进一步计算出该人脸上其它像素点的色度数据;
(e)根据该人脸各个像素点的色度数据,显示着色后的彩色人脸。
10、如权利要求9所述的彩色人脸合成方法,其特征在于,所述步骤(a)需建立一个从语音特征序列到嘴形序列的映射模型和一个从嘴形序列到脸形序列的映射模型。
11、如权利要求10所述的彩色人脸合成方法,其特征在于,所述映射模型为基于序列匹配和隐马尔可夫模型算法的映射模型。
12、如权利要求10所述的彩色人脸合成方法,其特征在于,所述步骤(c)合成时,先根据语音特征序列合成出嘴形序列,再通过相似性算法将嘴形序列中的每一嘴形对应到一个人脸模板,得到对应的人脸模板序列,经平滑处理后得到的所述人脸序列。
13、如权利要求9所述的彩色人脸合成方法,其特征在于,所述步骤(b)和(d)中,是按人脸的特征点将人脸划分为多个三角形,每一三角形上的选定位置是指以下位置中的一种或任意组合:该三角形的顶点、各边的中点、该三角形的中心点、该三角形中心点与各顶点连线的中心点、各边中点与两个端点的中心点。
14、一种基于输入语音的彩色人脸合成系统,包括训练模块、合成模块和输出模块,其特征在于,所述输出模块进一步包括:
人脸模板存储单元,用于保存包含各种嘴形的由特征点集组成的多个人脸模板;
色度信息存储单元,用于保存彩色基准人脸的每个区域上多个选定位置的像素点的色度数据,这些区域是按该基准人脸对应人脸模板上的特征点划分得到的;
着色单元,用于将保存的所述像素点的色度数据作为合成人脸按特征点划分出的对应区域对应位置上像素点的色度数据,然后根据这些点进一步计算出该人脸上其它像素点的色度数据;
显示单元用于根据该人脸各个像素点的色度数据,显示着色后的彩色人脸。
15、如权利要求14所述的彩色人脸合成系统,其特征在于:
所述训练模块用于采集训练数据,进行图像和语音数据处理,建立语音特征序列和嘴形序列的映射模型;
所述合成模块用于从输入语音中抽取语音特征,将其输入到所述映射模型中合成出嘴形序列;
所述输出模块还包括:嘴形-人脸模板匹配单元,用于将合成的嘴形通过相似性算法对应到人脸模板序列;以及平滑处理单元,用于对人脸模板序列中的人脸模板进行平滑处理,得到所述人脸序列。
16、如权利要求15所述的彩色人脸合成系统,其特征在于,所述训练模块中的映射模型为基于序列匹配和隐马尔可夫模型算法的映射模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005100827551A CN100343874C (zh) | 2005-07-11 | 2005-07-11 | 基于语音的彩色人脸合成方法、系统及其着色方法、装置 |
US11/456,318 US20070009180A1 (en) | 2005-07-11 | 2006-07-10 | Real-time face synthesis systems |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005100827551A CN100343874C (zh) | 2005-07-11 | 2005-07-11 | 基于语音的彩色人脸合成方法、系统及其着色方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1702691A true CN1702691A (zh) | 2005-11-30 |
CN100343874C CN100343874C (zh) | 2007-10-17 |
Family
ID=35632418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005100827551A Expired - Fee Related CN100343874C (zh) | 2005-07-11 | 2005-07-11 | 基于语音的彩色人脸合成方法、系统及其着色方法、装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20070009180A1 (zh) |
CN (1) | CN100343874C (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102142154A (zh) * | 2011-05-10 | 2011-08-03 | 中国科学院半导体研究所 | 生成脸部虚拟图像的方法与装置 |
CN102486868A (zh) * | 2010-12-06 | 2012-06-06 | 华南理工大学 | 一种基于平均脸的美丽人脸合成方法 |
WO2014023080A1 (en) * | 2012-08-05 | 2014-02-13 | Hiti Digital, Inc. | Image capture device and method for image processing by voice recognition |
CN105632497A (zh) * | 2016-01-06 | 2016-06-01 | 昆山龙腾光电有限公司 | 一种语音输出方法、语音输出系统 |
CN106934764A (zh) * | 2016-11-03 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种图像数据处理方法、装置 |
CN108847234A (zh) * | 2018-06-28 | 2018-11-20 | 广州华多网络科技有限公司 | 唇语合成方法、装置、电子设备及存储介质 |
CN108896972A (zh) * | 2018-06-22 | 2018-11-27 | 西安飞机工业(集团)有限责任公司 | 一种基于图像识别的雷达图像仿真方法 |
CN109829847A (zh) * | 2018-12-27 | 2019-05-31 | 深圳云天励飞技术有限公司 | 图像合成方法及相关产品 |
CN109858355A (zh) * | 2018-12-27 | 2019-06-07 | 深圳云天励飞技术有限公司 | 图像处理方法及相关产品 |
CN112347924A (zh) * | 2020-11-06 | 2021-02-09 | 杭州当虹科技股份有限公司 | 一种基于人脸跟踪的虚拟导播改进方法 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5451135B2 (ja) * | 2009-03-26 | 2014-03-26 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
JP5746550B2 (ja) * | 2011-04-25 | 2015-07-08 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
US9922665B2 (en) * | 2015-08-06 | 2018-03-20 | Disney Enterprises, Inc. | Generating a visually consistent alternative audio for redubbing visual speech |
US10839825B2 (en) * | 2017-03-03 | 2020-11-17 | The Governing Council Of The University Of Toronto | System and method for animated lip synchronization |
CN110472459B (zh) * | 2018-05-11 | 2022-12-27 | 华为技术有限公司 | 提取特征点的方法和装置 |
CN108648251B (zh) * | 2018-05-15 | 2022-05-24 | 奥比中光科技集团股份有限公司 | 3d表情制作方法及系统 |
KR102509666B1 (ko) * | 2019-01-18 | 2023-03-15 | 스냅 아이엔씨 | 텍스트 및 오디오 기반 실시간 얼굴 재연 |
US11417041B2 (en) * | 2020-02-12 | 2022-08-16 | Adobe Inc. | Style-aware audio-driven talking head animation from a single image |
KR102331517B1 (ko) * | 2020-07-13 | 2021-12-01 | 주식회사 딥브레인에이아이 | 발화 동영상 생성 방법 및 장치 |
CN116152447B (zh) * | 2023-04-21 | 2023-09-26 | 科大讯飞股份有限公司 | 一种人脸建模方法、装置、电子设备及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5426460A (en) * | 1993-12-17 | 1995-06-20 | At&T Corp. | Virtual multimedia service for mass market connectivity |
US6047078A (en) * | 1997-10-03 | 2000-04-04 | Digital Equipment Corporation | Method for extracting a three-dimensional model using appearance-based constrained structure from motion |
US6112177A (en) * | 1997-11-07 | 2000-08-29 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
US6539354B1 (en) * | 2000-03-24 | 2003-03-25 | Fluent Speech Technologies, Inc. | Methods and devices for producing and using synthetic visual speech based on natural coarticulation |
WO2002025595A1 (en) * | 2000-09-21 | 2002-03-28 | The Regents Of The University Of California | Visual display methods for use in computer-animated speech production models |
US7076429B2 (en) * | 2001-04-27 | 2006-07-11 | International Business Machines Corporation | Method and apparatus for presenting images representative of an utterance with corresponding decoded speech |
CN1152336C (zh) * | 2002-05-17 | 2004-06-02 | 清华大学 | 汉语音位-视位参数的计算机转换方法和系统 |
CN1320497C (zh) * | 2002-07-03 | 2007-06-06 | 中国科学院计算技术研究所 | 基于统计与规则结合的语音驱动人脸动画方法 |
US6919892B1 (en) * | 2002-08-14 | 2005-07-19 | Avaworks, Incorporated | Photo realistic talking head creation system and method |
US6925438B2 (en) * | 2002-10-08 | 2005-08-02 | Motorola, Inc. | Method and apparatus for providing an animated display with translated speech |
US7168953B1 (en) * | 2003-01-27 | 2007-01-30 | Massachusetts Institute Of Technology | Trainable videorealistic speech animation |
US7239321B2 (en) * | 2003-08-26 | 2007-07-03 | Speech Graphics, Inc. | Static and dynamic 3-D human face reconstruction |
-
2005
- 2005-07-11 CN CNB2005100827551A patent/CN100343874C/zh not_active Expired - Fee Related
-
2006
- 2006-07-10 US US11/456,318 patent/US20070009180A1/en not_active Abandoned
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102486868A (zh) * | 2010-12-06 | 2012-06-06 | 华南理工大学 | 一种基于平均脸的美丽人脸合成方法 |
CN102142154A (zh) * | 2011-05-10 | 2011-08-03 | 中国科学院半导体研究所 | 生成脸部虚拟图像的方法与装置 |
WO2014023080A1 (en) * | 2012-08-05 | 2014-02-13 | Hiti Digital, Inc. | Image capture device and method for image processing by voice recognition |
CN105632497A (zh) * | 2016-01-06 | 2016-06-01 | 昆山龙腾光电有限公司 | 一种语音输出方法、语音输出系统 |
CN106934764B (zh) * | 2016-11-03 | 2020-09-11 | 阿里巴巴集团控股有限公司 | 一种图像数据处理方法、装置 |
CN106934764A (zh) * | 2016-11-03 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种图像数据处理方法、装置 |
CN108896972A (zh) * | 2018-06-22 | 2018-11-27 | 西安飞机工业(集团)有限责任公司 | 一种基于图像识别的雷达图像仿真方法 |
CN108847234A (zh) * | 2018-06-28 | 2018-11-20 | 广州华多网络科技有限公司 | 唇语合成方法、装置、电子设备及存储介质 |
CN109829847A (zh) * | 2018-12-27 | 2019-05-31 | 深圳云天励飞技术有限公司 | 图像合成方法及相关产品 |
CN109858355A (zh) * | 2018-12-27 | 2019-06-07 | 深圳云天励飞技术有限公司 | 图像处理方法及相关产品 |
CN109858355B (zh) * | 2018-12-27 | 2023-03-24 | 深圳云天励飞技术有限公司 | 图像处理方法及相关产品 |
CN109829847B (zh) * | 2018-12-27 | 2023-09-01 | 深圳云天励飞技术有限公司 | 图像合成方法及相关产品 |
CN112347924A (zh) * | 2020-11-06 | 2021-02-09 | 杭州当虹科技股份有限公司 | 一种基于人脸跟踪的虚拟导播改进方法 |
Also Published As
Publication number | Publication date |
---|---|
US20070009180A1 (en) | 2007-01-11 |
CN100343874C (zh) | 2007-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100343874C (zh) | 基于语音的彩色人脸合成方法、系统及其着色方法、装置 | |
CN109376582B (zh) | 一种基于生成对抗网络的交互式人脸卡通方法 | |
CN101324961B (zh) | 计算机虚拟世界中人脸部三维贴图方法 | |
Morishima et al. | A media conversion from speech to facial image for intelligent man-machine interface | |
CN107248195A (zh) | 一种增强现实的主播方法、装置和系统 | |
CN108389257A (zh) | 从扫描对象生成三维模型 | |
CN110738732B (zh) | 一种三维人脸模型的生成方法和设备 | |
CN1537300A (zh) | 通信系统 | |
CN1503567A (zh) | 图像处理方法及其装置 | |
WO2021012491A1 (zh) | 多媒体信息展示方法、装置、计算机设备及存储介质 | |
WO2023077742A1 (zh) | 视频处理方法及装置、神经网络的训练方法及装置 | |
CN102497513A (zh) | 一种面向数字电视的视频虚拟人手语系统 | |
CN115209180A (zh) | 视频生成方法以及装置 | |
EP4116923A1 (en) | Auxiliary makeup method, terminal device, storage medium and program product | |
CN1320497C (zh) | 基于统计与规则结合的语音驱动人脸动画方法 | |
CN116528019B (zh) | 基于语音驱动和人脸自驱动的虚拟人视频合成方法 | |
US11928767B2 (en) | Method for audio-driven character lip sync, model for audio-driven character lip sync and training method therefor | |
CN114998488A (zh) | 一种适用于手语信息传播的虚拟人模型制作方法 | |
CN113763498A (zh) | 一种面向工业制造的肖像简笔画区域自适应颜色匹配方法及系统 | |
CN1316723A (zh) | 在3维视频图像系统中提供卡通轮廓的方法和装置 | |
CN115690280A (zh) | 一种三维形象发音口型模拟方法 | |
CN109859284A (zh) | 一种基于圆点的绘画实现方法及系统 | |
CN1188948A (zh) | 用于对脸部运动编码的方法和装置 | |
JP2005078158A (ja) | 画像処理装置、画像処理方法、プログラム、記録媒体 | |
CN110598013B (zh) | 一种数字音乐绘画互动融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20071017 Termination date: 20120711 |