CN112992120A - 语音转换虚拟脸部图像的方法 - Google Patents
语音转换虚拟脸部图像的方法 Download PDFInfo
- Publication number
- CN112992120A CN112992120A CN201911210729.0A CN201911210729A CN112992120A CN 112992120 A CN112992120 A CN 112992120A CN 201911210729 A CN201911210729 A CN 201911210729A CN 112992120 A CN112992120 A CN 112992120A
- Authority
- CN
- China
- Prior art keywords
- voice
- expression
- phoneme
- target
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000001815 facial effect Effects 0.000 claims abstract description 51
- 238000006243 chemical reaction Methods 0.000 claims abstract description 37
- 238000010801 machine learning Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims abstract 3
- 230000014509 gene expression Effects 0.000 claims description 80
- 230000008921 facial expression Effects 0.000 claims description 17
- 210000000056 organ Anatomy 0.000 claims description 13
- 210000004709 eyebrow Anatomy 0.000 claims description 8
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
一种语音转换虚拟脸部图像的方法,由计算机系统执行,包含以下步骤:(A)将每一谈话的每一谈话片段及其对应的音素进行机器学习演算,以建立出音素转换模型;(B)根据所述语音特征数据,将所撷取到的当前声音滤除用户的语音外的声音,以获得滤除后声音数据;(C)判定所述滤除后声音数据是否包括语音片段;(D)当判定结果为肯定时,利用该音素转换模型,将所述滤除后声音数据所包括的语音片段转换成目标音素;(E)根据所述目标音素,从所存储多帧嘴型图像中,获得对应于所述目标音素的目标嘴型图像,其中每一嘴型图像对应于所述音素的其中一者;及(F)根据所述目标嘴型图像获得至少一相关于所述数字角色的虚拟脸部图像。
Description
技术领域
本发明涉及一种转换方法,特别是涉及一种语音转换虚拟脸部图像的方法。
背景技术
动画、游戏和电影等行业常会创建虚拟角色,而在创造虚拟角色的其中一个重要的技术为使虚拟角色讲话时能够具有自然流畅并与声音同步的嘴型动作,为达到声音与嘴型动作的同步,设计师需要根据音频的内容在时间轴上调整嘴型配置,非常消耗时间和人力,再者,事先制作出动画,无法依现场气氛做出变化,因此现有多家厂商致力发展实时语音驱动的虚拟角色说话的技术。
然而,现有实时语音驱动的虚拟角色说话的技术多是将声音先转至文字,再由文字转换成虚拟角色的嘴型图像,先转换成文字的转换处理的时间过长,无法得到实时的效果。
发明内容
本发明的目的在于提供一种能实时将语音转换虚拟脸部图像的方法。
本发明的语音转换虚拟脸部图像的方法,适用于将用户的语音转换成虚拟脸部图像,由计算机系统执行,所述计算机系统存储多帧相关于数字角色于发出多种不同音素时及一静音音素所对应的多种不同嘴型的嘴型图像、多笔谈话,及多个分别对应所述谈话的音素串行,及相关所述用户的语音特征数据,每一嘴型图像对应于所述音素及静音音素的其中一者,每一谈话所对应的音素串行包含多个排列组合出该谈话的音素,每一谈话包含多个谈话片段,每一谈话片段对应所对应的音素串行中的所述音素的其中一者,所述计算机系统包含用于连续地撷取当前声音的声音撷取单元,所述语音转换虚拟脸部图像的方法包含步骤(A)、步骤(B)、步骤(C)、步骤(D)、步骤(E),及步骤(F)。
所述步骤(A)中,所述计算机系统将每一谈话的每一谈话片段及其对应的音素进行机器学习演算,以建立出用于将语音片段转换成音素的音素转换模型。
所述步骤(B)中,根据所述语音特征数据,将所述声音撷取单元所撷取到的当前声音滤除所述用户的语音外的声音,以获得滤除后声音数据。
所述步骤(C)中,所述计算机系统判定所述滤除后声音数据是否包括语音片段。
所述步骤(D)中,当判定出所述滤除后声音数据包括语音片段时,所述计算机系统利用所述音素转换模型,将所述滤除后声音数据所包括的语音片段转换成目标音素。
所述步骤(E)中,所述计算机系统根据所述目标音素,从所述嘴型图像获得对应于所述目标音素的目标嘴型图像。
所述步骤(F)中,所述计算机系统根据所述目标嘴型图像获得至少一相关于所述数字角色的虚拟脸部图像。
较佳地,本发明的语音转换虚拟脸部图像的方法,所述计算机系统还存储多帧相关于所述数字角色的多种不同脸部表情的表情图像,每一种脸部表情对应于指示出所述脸部表情的表情参数,每一表情图像对应于所述脸部表情的其中一者所对应的表情参数,所述声音撷取单元所撷取到的当前的语音片段包含至少一语音子片段,在步骤(C)后及步骤(F)前还包含以下步骤:
(G)当判定出所述滤除后声音数据包括语音片段时,对于所述滤除后声音数据包括的语音片段的每一语音子片段,利用用于将语音子片段转换成表情参数的表情转换模型,将所述语音子片段转换成目标表情参数;及
(H)对于每一目标表情参数,根据所述目标表情参数,从所述表情图像获得对应所述目标表情参数的目标表情图像;
其中,在步骤(F)中,还根据步骤(H)所获得的目标表情图像获得该至少一虚拟脸部图像。
较佳地,本发明的语音转换虚拟脸部图像的方法,在步骤(H)前还包含以下步骤:
(I)当判定出所述滤除后声音数据不包括语音片段时,将静音表情参数作为所述目标表情参数。
较佳地,本发明的语音转换虚拟脸部图像的方法,所述计算机系统还存储多笔影音数据,每一影音数据包括多帧相关于训练者演说的脸部图像及多个分别对应所述脸部图像的音频片段,在步骤(G)前还包含以下步骤:
(J)对于所述影音数据的每一脸部图像,获得所述脸部图像中对应于所述训练者脸部的其中一器官的器官部分;
(K)对于所述影音数据的每一脸部图像,根据所述脸部图像中的器官部分获得器官特征;
(L)对于所述影音数据的每一脸部图像,根据所述脸部图像对应的器官特征将所述脸部图像进行表情辨识,以获得所述脸部图像所对应的所述训练者的表情辨识结果;及
(M)将每一脸部图像所对应的表情辨识结果及音讯片段进行机器学习演算,以建立所述表情转换模型。
较佳地,本发明的语音转换虚拟脸部图像的方法,在步骤(J)中,所述器官部分为对应所述训练者脸部的眉毛。
较佳地,本发明的语音转换虚拟脸部图像的方法,在步骤(L)中,所述表情辨识结果是高兴、生气、难过,及无表情的其中一者。
较佳地,本发明的语音转换虚拟脸部图像的方法,在步骤(B)前还包含以下步骤:
(N)判定所述声音撷取单元所撷取到的当前声音是否包括语音片段;在判定出所述声音撷取单元所撷取到的当前声音包括语音片段后,进行步骤(B)。
较佳地,本发明的语音转换虚拟脸部图像的方法,在步骤(E)前还包含以下步骤:
(O)在判定出所述声音撷取单元所撷取到的当前声音不包括语音片段后,将所述静音音素作为所述目标音素。
较佳地,本发明的语音转换虚拟脸部图像的方法,在步骤(C)后还包含以下步骤:
(P)在判定出所述滤除后声音数据不包括语音片段后,将所述静音音素作为所述目标音素。
本发明的有益效果在于:借由所述计算机系统撷取所述当前语音片段之后,利用所述音素转换模型,以快速获得对应于所述目标音素的所述目标嘴型图像,并根据所述目标嘴型图像实时获得该至少一虚拟脸部图像,以达到快速转换的效果。
附图说明
本发明的其他的特征及功效,将于参照图式的实施方式中清楚地呈现,其中:
图1是一方块图,说明用于实施本发明语音转换虚拟脸部图像的方法的一计算机系统;
图2是一示意图,说明本发明语音转换虚拟脸部图像的方法的该实施例的每一音素对应的嘴型图像;
图3是一流程图,说明本发明语音转换虚拟脸部图像的方法的一实施例的一音素转换模型建立程序;
图4是一流程图,说明该实施例的一表情转换模型建立程序;及
图5是一流程图,说明该实施例的一语音转换虚拟脸部图像程序。
具体实施方式
在本发明被详细描述前,应当注意在以下的说明内容中,类似的组件是以相同的编号来表示。
参阅图1,本发明语音转换虚拟脸部图像的方法的一实施例,适用于将一用户的语音转换成虚拟脸部图像,该方法是由一计算机系统1执行,该计算机系统1包含一存储单元11、一声音撷取单元12及一电连接该存储单元11及该声音撷取单元12的处理单元13。
该存储单元11存储有多帧相关于一数字角色于发出多种不同音素(Phoneme)时及一静音音素所对应的多种不同嘴型的嘴型图像、多笔谈话、多笔影音数据、一相关该用户的语音特征数据,及多帧相关于该数字角色的多种不同脸部表情的表情图像。值得注意的是,在本实施例中,所述音素例如为OO、IY、EE、AA、WW、LL、ER、UU、FV、MM、CH,以及DD等,每一嘴型图像对应于所述音素的其中一者(如图2所示),该语音特征数据例如包括相关于该使用者的音频、说话频率等特征,所述嘴型图像例如为三维图像,但不以此为限。每一谈话包含多个谈话片段,每一影音数据包括多帧相关于一训练者演说的脸部图像及多个分别对应所述脸部图像的音频片段,每一种脸部表情对应于一指示出该脸部表情的表情参数,每一表情图像对应于所述脸部表情的其中一者所对应的表情参数。
该声音撷取单元12用于连续地撷取当前声音。在本实施例中,该声音撷取单元12例如为麦克风,但不以此为限。
参阅图2、3、4,本发明语音转换虚拟脸部图像的方法的该实施例包含一音素转换模型建立程序2、一表情转换模型建立程序3,及一语音转换虚拟脸部图像程序4。
参阅图1、3,该音素转换模型建立程序2包含步骤21~23,以下详述图3所示的该音素转换模型建立程序2的各个步骤。
在步骤21中,该处理单元13从一有声字典提取所述音素的特征。
在步骤22中,对于每一谈话,该处理单元13根据所述音素的特征及该谈话,产生一包含多个排列组合出该谈话的音素的音素串行,该谈话的每一谈话片段对应该音素串行中的所述音素的其中一者。
在步骤23中,该处理单元13将每一谈话的每一谈话片段及其对应的音素进行机器学习演算,例如卷积神经网络(Convolutional neural network,CNN),以建立出一用于将语音片段转换成音素的音素转换模型。
参阅图1、4,该表情转换模型建立程序3包含步骤31~34,以下详述图4所示的该表情转换模型建立程序3的各个步骤。
在步骤31中,对于该存储单元11存储的所述影音数据的每一脸部图像,该处理单元13获得该脸部图像中对应于该训练者脸部的眉毛部分。
在步骤32中,对于该存储单元11存储的所述影音数据的每一脸部图像,该处理单元13根据该脸部图像中的眉毛部分获得一眉毛特征。值得注意的是,在本实施例中,步骤31、32中该处理单元13是获得眉毛部分及眉毛特征,在其他实施方式也可获得其他脸部器官的部分及特征,不以此为限。
在步骤33中,对于该存储单元11存储的所述影音数据的每一脸部图像,该处理单元13根据该脸部图像对应的眉毛特征将该脸部图像进行表情辨识,以获得该脸部图像所对应的该训练者的表情辨识结果。值得注意的是,在本实施例中,所述表情辨识结果是高兴、生气、难过,及无表情的其中一者,在其他实施方式中所述表情辨识结果更可包括其他表情,不以此为限。
在步骤34中,该处理单元13将每一脸部图像所对应的表情辨识结果及音讯片段进行机器学习演算,以建立一用于将语音子片段转换成表情参数的表情转换模型。值得注意的是,在本实施例中,每一脸部图像所对应的音频片段的时间长度与每一语音子片段的时间长度相等,即播放一帧图像的时间。
参阅图1、5,该语音转换虚拟脸部图像程序4包含步骤41~49,以下详述图5所示的该语音转换虚拟脸部图像程序4的各个步骤。
在步骤41中,该处理单元13判定该声音撷取单元12所撷取到的当前声音是否包括语音片段。当该处理单元13判定出该声音撷取单元12所撷取到的当前声音不包括语音片段时,流程进行步骤42;而当该处理单元13判定出该声音撷取单元12所撷取到的当前声音包括语音片段时,则流程进行步骤43。
在步骤42中,该处理单元13将该静音音素作为一目标音素,且将静音表情参数作为目标表情参数。
在步骤43中,该处理单元13根据该语音特征数据,将该声音撷取单元12所撷取到的当前声音滤除该用户的语音外的声音,以获得一滤除后声音数据。
在步骤44中,该处理单元13判定该滤除后声音数据是否包括语音片段。当该处理单元13判定出该滤除后声音数据不包括语音片段时,流程进行步骤42;而当该处理单元13判定出该滤除后声音数据包括语音片段时,则流程进行步骤45及步骤47。
在步骤45中,该处理单元13利用该音素转换模型,将该滤除后声音数据所包括的语音片段转换成一目标音素。
在步骤42或45后的步骤46中,该处理单元13根据该目标音素,从所述嘴型图像获得对应于该目标音素的一目标嘴型图像。
在步骤47中,对于该滤除后声音数据包括的语音片段的每一语音子片段,该处理单元13利用该表情转换模型,将该语音子片段转换成一目标表情参数。
在步骤42或步骤47后的步骤48中,对于每一目标表情参数,该处理单元13根据该目标表情参数,从所述表情图像获得对应该目标表情参数的一目标表情图像。
要特别注意的是,在本实施例中,该表情转换模型包括二次指数平滑法(Doubleexponential smoothing method),即不同时间的语音子片段拥有不同的权重,越接近当前时间的语音子片段权重越大,在步骤47中,对于当前语音片段的该至少一语音子片段的每一者,该处理单元13根据该语音子片段前的所有语音片段以及该语音子片段,进行预测以转换出该目标表情参数,利用二次指数平滑法可使得步骤48中所获得该目标表情图像与前一时段获得的目标表情图像较为连贯,由于本发明的特征并不在于本领域技术人员所已知的二次指数平滑法,因此为了简洁,故在此省略了二次指数平滑法的细节。
要再特别注意的是,在本实施例中,步骤45、46与步骤47、48同时进行,在其他实施方式中,步骤45、46可在步骤47、48前或后执行,不以此为限。
在步骤46及步骤48后的步骤49中,该处理单元13根据该目标嘴型图像及该至少一目标表情图像,获得至少一相关于该数字角色的虚拟脸部图像。
要再特别注意的是,当该当前语音片段仅包含一语音子片段时,在步骤47中,该处理单元13将该语音子片段转换成一目标表情参数,并在步骤48中,该处理单元13从所述表情图像获得对应该目标表情参数的一目标表情图像,最后在步骤49中,该处理单元13根据该目标嘴型图像及该目标表情图像,获得一虚拟脸部图像;而当该当前语音片段包含多个语音子片段时,在步骤47中,该处理单元13将所述语音子片段转换成多个目标表情参数,并在步骤48中,该处理单元13分别从所述表情图像获得对应所述目标表情参数的多个目标表情图像,最后在步骤49中,该处理单元13根据该目标嘴型图像及所述目标表情图像,获得多帧虚拟脸部图像,表示所述虚拟脸部图像具有相同的嘴型。
综上所述,本发明语音转换虚拟脸部图像的方法,借由该处理单元13将所述谈话及音素串行进行机器学习演算,以建立该音素转换模型,且将所述脸部图像所对应的表情辨识结果及所述音讯片段进行机器学习演算,以建立该表情转换模型,使得该声音撷取单元12撷取该当前语音片段后,该处理单元13利用该音素转换模型及该表情转换模型,快速获得对应于该目标音素的该目标嘴型图像及该至少一目标表情图像,并根据该目标嘴型图像及该至少一目标表情图像实时获得该至少一虚拟脸部图像,以达到快速转换的效果,此外,该音素转换模型不受限于语言,能支持各国语言的嘴型转换,故确实能达成本发明的目的。
以上所述者,仅为本发明的实施例而已,当不能以此限定本发明实施的范围,即凡依本发明权利要求书及说明书内容所作的简单的等效变化与修饰,皆仍属本发明的范围。
Claims (9)
1.一种语音转换虚拟脸部图像的方法,适用于将用户的语音转换成虚拟脸部图像,由计算机系统执行,所述计算机系统存储多帧相关于数字角色于发出多种不同音素时及静音音素所对应的多种不同嘴型的嘴型图像、多笔谈话、多个分别对应所述谈话的音素串行,及相关所述用户的语音特征数据,每一嘴型图像对应于所述音素及静音音素的其中一者,每一谈话所对应的音素串行包含多个排列组合出该谈话的音素,每一谈话包含多个谈话片段,每一谈话片段对应所对应的音素串行中的所述音素的其中一者,所述计算机系统包含用于连续地撷取当前声音的声音撷取单元,其特征在于:所述语音转换虚拟脸部图像的方法包含以下步骤:
(A)将每一谈话的每一谈话片段及其对应的音素进行机器学习演算,以建立出用于将语音片段转换成音素的音素转换模型;
(B)根据所述语音特征数据,将所述声音撷取单元所撷取到的当前声音滤除所述用户的语音外的声音,以获得滤除后声音数据;
(C)判定所述滤除后声音数据是否包括语音片段;
(D)当判定出所述滤除后声音数据包括语音片段时,利用所述音素转换模型,将所述滤除后声音数据所包括的语音片段转换成目标音素;
(E)根据所述目标音素,从所述嘴型图像获得对应于所述目标音素的目标嘴型图像;及
(F)根据所述目标嘴型图像获得至少一相关于所述数字角色的虚拟脸部图像。
2.根据权利要求1所述的语音转换虚拟脸部图像的方法,其特征在于:所述计算机系统还存储多帧相关于所述数字角色的多种不同脸部表情的表情图像,每一种脸部表情对应于指示出所述脸部表情的表情参数,每一表情图像对应于所述脸部表情的其中一者所对应的表情参数,所述声音撷取单元所撷取到的当前的语音片段包含至少一语音子片段,在步骤(C)后及步骤(F)前还包含以下步骤:
(G)当判定出所述滤除后声音数据包括语音片段时,对于所述滤除后声音数据包括的语音片段的每一语音子片段,利用用于将语音子片段转换成表情参数的表情转换模型,将所述语音子片段转换成目标表情参数;及
(H)对于每一目标表情参数,根据所述目标表情参数,从所述表情图像获得对应所述目标表情参数的目标表情图像;
其中,在步骤(F)中,还根据步骤(H)所获得的目标表情图像获得该至少一虚拟脸部图像。
3.根据权利要求2所述的语音转换虚拟脸部图像的方法,其特征在于:在步骤(H)前还包含以下步骤:
(I)当判定出所述滤除后声音数据不包括语音片段时,将静音表情参数作为所述目标表情参数。
4.根据权利要求2所述的语音转换虚拟脸部图像的方法,其特征在于:所述计算机系统还存储多笔影音数据,每一影音数据包括多帧相关于训练者演说的脸部图像及多个分别对应所述脸部图像的音频片段,在步骤(G)前还包含以下步骤:
(J)对于所述影音数据的每一脸部图像,获得所述脸部图像中对应于所述训练者脸部的其中一器官的器官部分;
(K)对于所述影音数据的每一脸部图像,根据所述脸部图像中的器官部分获得器官特征;
(L)对于所述影音数据的每一脸部图像,根据所述脸部图像对应的器官特征将所述脸部图像进行表情辨识,以获得所述脸部图像所对应的所述训练者的表情辨识结果;及
(M)将每一脸部图像所对应的表情辨识结果及音讯片段进行机器学习演算,以建立所述表情转换模型。
5.根据权利要求4所述的语音转换虚拟脸部图像的方法,其特征在于:在步骤(J)中,所述器官部分为对应所述训练者脸部的眉毛。
6.根据权利要求4所述的语音转换虚拟脸部图像的方法,其特征在于:在步骤(L)中,所述表情辨识结果是高兴、生气、难过,及无表情的其中一者。
7.根据权利要求1所述的语音转换虚拟脸部图像的方法,其特征在于:在步骤(B)前还包含以下步骤:
(N)判定所述声音撷取单元所撷取到的当前声音是否包括语音片段;
在判定出所述声音撷取单元所撷取到的当前声音包括语音片段后,进行步骤(B)。
8.根据权利要求7所述的语音转换虚拟脸部图像的方法,其特征在于:在步骤(E)前还包含以下步骤:
(O)在判定出所述声音撷取单元所撷取到的当前声音不包括语音片段后,将所述静音音素作为所述目标音素。
9.根据权利要求1所述的语音转换虚拟脸部图像的方法,其特征在于:在步骤(C)后还包含以下步骤:
(P)在判定出所述滤除后声音数据不包括语音片段后,将所述静音音素作为所述目标音素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911210729.0A CN112992120A (zh) | 2019-12-02 | 2019-12-02 | 语音转换虚拟脸部图像的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911210729.0A CN112992120A (zh) | 2019-12-02 | 2019-12-02 | 语音转换虚拟脸部图像的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112992120A true CN112992120A (zh) | 2021-06-18 |
Family
ID=76330963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911210729.0A Pending CN112992120A (zh) | 2019-12-02 | 2019-12-02 | 语音转换虚拟脸部图像的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112992120A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114945110A (zh) * | 2022-05-31 | 2022-08-26 | 深圳市优必选科技股份有限公司 | 说话头视频合成方法、装置、终端设备及可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731833A (zh) * | 2005-08-23 | 2006-02-08 | 孙丹 | 语音驱动头部图像合成影音文件的方法 |
JP2007058846A (ja) * | 2005-07-27 | 2007-03-08 | Advanced Telecommunication Research Institute International | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム |
CN108447474A (zh) * | 2018-03-12 | 2018-08-24 | 北京灵伴未来科技有限公司 | 一种虚拟人物语音与口型同步的建模与控制方法 |
CN108538308A (zh) * | 2018-01-09 | 2018-09-14 | 网易(杭州)网络有限公司 | 基于语音的口型和/或表情模拟方法及装置 |
CN109377539A (zh) * | 2018-11-06 | 2019-02-22 | 北京百度网讯科技有限公司 | 用于生成动画的方法和装置 |
CN109712627A (zh) * | 2019-03-07 | 2019-05-03 | 深圳欧博思智能科技有限公司 | 一种使用语音触发虚拟人物表情及口型动画的语音系统 |
CN110136698A (zh) * | 2019-04-11 | 2019-08-16 | 北京百度网讯科技有限公司 | 用于确定嘴型的方法、装置、设备和存储介质 |
CN110286756A (zh) * | 2019-06-13 | 2019-09-27 | 深圳追一科技有限公司 | 视频处理方法、装置、系统、终端设备及存储介质 |
-
2019
- 2019-12-02 CN CN201911210729.0A patent/CN112992120A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007058846A (ja) * | 2005-07-27 | 2007-03-08 | Advanced Telecommunication Research Institute International | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム |
CN1731833A (zh) * | 2005-08-23 | 2006-02-08 | 孙丹 | 语音驱动头部图像合成影音文件的方法 |
CN108538308A (zh) * | 2018-01-09 | 2018-09-14 | 网易(杭州)网络有限公司 | 基于语音的口型和/或表情模拟方法及装置 |
CN108447474A (zh) * | 2018-03-12 | 2018-08-24 | 北京灵伴未来科技有限公司 | 一种虚拟人物语音与口型同步的建模与控制方法 |
CN109377539A (zh) * | 2018-11-06 | 2019-02-22 | 北京百度网讯科技有限公司 | 用于生成动画的方法和装置 |
CN109712627A (zh) * | 2019-03-07 | 2019-05-03 | 深圳欧博思智能科技有限公司 | 一种使用语音触发虚拟人物表情及口型动画的语音系统 |
CN110136698A (zh) * | 2019-04-11 | 2019-08-16 | 北京百度网讯科技有限公司 | 用于确定嘴型的方法、装置、设备和存储介质 |
CN110286756A (zh) * | 2019-06-13 | 2019-09-27 | 深圳追一科技有限公司 | 视频处理方法、装置、系统、终端设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114945110A (zh) * | 2022-05-31 | 2022-08-26 | 深圳市优必选科技股份有限公司 | 说话头视频合成方法、装置、终端设备及可读存储介质 |
CN114945110B (zh) * | 2022-05-31 | 2023-10-24 | 深圳市优必选科技股份有限公司 | 说话头视频合成方法、装置、终端设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022048405A1 (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN110610534B (zh) | 基于Actor-Critic算法的口型动画自动生成方法 | |
Vougioukas et al. | Video-driven speech reconstruction using generative adversarial networks | |
CN111048064B (zh) | 基于单说话人语音合成数据集的声音克隆方法及装置 | |
CN112184859B (zh) | 端到端的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN112735371B (zh) | 一种基于文本信息生成说话人视频的方法及装置 | |
CN110874137A (zh) | 一种交互方法以及装置 | |
Llorach et al. | Web-based live speech-driven lip-sync | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
JP7421869B2 (ja) | 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法 | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
CN113948105A (zh) | 基于语音的图像生成方法、装置、设备及介质 | |
CN115511994A (zh) | 一种快速将真人克隆为二维虚拟数字人的方法 | |
CN117523051B (zh) | 基于音频生成动态图像的方法、装置、设备及存储介质 | |
CN117275485B (zh) | 一种音视频的生成方法、装置、设备及存储介质 | |
CN113112575B (zh) | 一种口型生成方法、装置、计算机设备及存储介质 | |
CN114882861A (zh) | 语音生成方法、装置、设备、介质及产品 | |
JP2015038725A (ja) | 発話アニメーション生成装置、方法、及びプログラム | |
CN113314145A (zh) | 样本生成、模型训练、口型驱动方法、装置、设备及介质 | |
CN112992120A (zh) | 语音转换虚拟脸部图像的方法 | |
CN116095357B (zh) | 虚拟主播的直播方法、装置及系统 | |
CN113948062B (zh) | 数据转换方法及计算机存储介质 | |
CN116597858A (zh) | 语音口型匹配方法、装置、存储介质及电子设备 | |
KR100849027B1 (ko) | 음성 신호에 대한 립싱크 동기화 방법 및 장치 | |
CN113205797B (zh) | 虚拟主播生成方法、装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |