CN108538282A - 一种由唇部视频直接生成语音的方法 - Google Patents

一种由唇部视频直接生成语音的方法 Download PDF

Info

Publication number
CN108538282A
CN108538282A CN201810214692.8A CN201810214692A CN108538282A CN 108538282 A CN108538282 A CN 108538282A CN 201810214692 A CN201810214692 A CN 201810214692A CN 108538282 A CN108538282 A CN 108538282A
Authority
CN
China
Prior art keywords
lip
video
labial
vector
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810214692.8A
Other languages
English (en)
Other versions
CN108538282B (zh
Inventor
贾振堂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Electric Power University
Original Assignee
Shanghai University of Electric Power
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University of Electric Power filed Critical Shanghai University of Electric Power
Priority to CN201810214692.8A priority Critical patent/CN108538282B/zh
Publication of CN108538282A publication Critical patent/CN108538282A/zh
Application granted granted Critical
Publication of CN108538282B publication Critical patent/CN108538282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Abstract

本发明涉及一种由唇部视频直接生成语音的方法,包括以下步骤:1)获取唇部视频:采用摄像装置采集包含嘴唇的视频,得到嘴唇部分的视频;2)获取唇部部特征向量:对嘴唇部分的视频中每一帧图像,围绕嘴唇的内唇边缘和外唇边缘提取多个用以描述嘴唇形状的特征点,得到当前帧图像的唇部特征向量,以此获取一系列的唇部特征向量;3)唇音转换:将得到的唇部特征向量输入到唇音转换器中,每间隔一定的时间,唇音转换器将最新缓存的k个唇部特征向量进行一次语音帧参数向量的转换;4)语音合成:根据语音帧参数向量进行语音合成,还原音频采样并输出语音。与现有技术相比,本发明具有无需中间文字、转换效率高、便于训练等优点。

Description

一种由唇部视频直接生成语音的方法
技术领域
本发明涉及计算机视觉、数字图像处理、微电子技术和残疾人辅助技术领域,尤其是涉及一种由唇部视频直接生成语音的方法。
背景技术
本发明与唇语识别领域相关。“唇语识别”是依据嘴唇视频生成对应的文字表达,以下是目前能查到的最相关的技术方案信息:
(1)CN107122646A,发明名称:一种实现唇语解锁的方法。其原理是将实时采集的嘴唇特征与预先存储的嘴唇特征比对,用以确定身份,但并不能输出语音。
(2)CN107437019A,发明名称:唇语识别的身份验证方法和装置。其原理与(1)类似,差异在于采用了3D图像用以确定身份。
(3)CN106504751A,发明名称:自适应唇语交互方法以及交互装置。其原理依然是将嘴唇识别成文字,然后基于文字进行指令交互。
(4)LipNet,是牛津大学联合DeepMind发布的深度学习唇语识别算法,其目的也是将嘴唇识别成文字,与之前技术相比,识别率更高一些。
(5)CN107610703A,发明名称:一种基于唇语采集和语音拾取的多语言翻译器。它利用了现有的语音识别模块来识别成文字,然后再利用现有的语音合成模块将文字转换成语音。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种由唇部视频直接生成语音的方法。
本发明的目的可以通过以下技术方案来实现:
一种由唇部视频直接生成语音的方法,包括以下步骤:
1)获取唇部视频:采用摄像装置采集包含嘴唇的视频,并提取嘴唇区域,得到嘴唇部分的视频;
2)获取唇部部特征向量:对嘴唇部分的视频中每一帧图像,围绕嘴唇的内唇边缘和外唇边缘提取多个用以描述嘴唇形状的特征点,获取特征点的x,y坐标并做归一化处理后得到当前帧图像的唇部特征向量,以此获取一系列的唇部特征向量;
3)唇音转换:将得到的唇部特征向量输入到唇音转换器中,唇音转换器将唇部特征向量进行短时缓存,每间隔一定的时间Δt,唇音转换器将最新缓存的k个唇部特征向量进行一次语音帧参数向量的转换,并输出该语音帧参数向量;
4)语音合成:根据从唇音转换器输出的语音帧参数向量进行语音合成,将语音帧参数向量合成为语音帧,还原音频采样并输出语音。
所述的步骤2)中,围绕嘴唇的内唇边缘和外唇边缘提取20个用以描述嘴唇形状的特征点,并对这些特征点坐标值依据人脸参数进行姿态矫正和归一化处理。
所述的步骤3)中,所述的唇音转换器的参数包括Δt和k,所述的一定的时间Δt为一个语音帧的时间。
所述的一定的时间Δt取值为22.5ms,k设置为0.5秒钟的图像数,对于每秒50帧的视频帧率,k优选取值为25。
所述的步骤3)中,采用LPC10e算法进行语音帧参数向量的转换。
所述的语音帧参数向量包括2个清浊音标志、1个基因周期、1个增益和10个反射系数。
合成的一帧语音帧A包含180个音频采样。
与现有技术相比,本发明具有以下优点:
本发明利用一个唇音转换器,将唇部特征向量序列直接转换为语音帧编码参数向量序列,进而采用语音合成技术得到语音帧序列,并由语音帧特征数据合成语音,而不需要经过“文字”这一中间环节,提高了转换效率,并且唇音转换器易于训练。
附图说明
图1为本发明的方法原理图。
图2为唇音转换器的构成。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
本发明设计了一种由唇部视频生成语音的方法。该生成过程的步骤依次为:视频采集、提取唇部视频、计算唇部特征、预测语音帧编码参数、语音合成、语音播放。按照时间先后顺序,具体技术过程描述如下:
(1)通过视频采集设备采集包含唇部的视频(不需要采集音频),并从采集的视频中提取嘴唇部分(包含嘴唇在内的一个矩形区域)的视频V。V是由一系列图像I1,I2,...,In按时间顺序组成的。
(2)对唇部视频V中的每一帧唇部图像I计算一个唇部特征向量FI,可得到一系列唇部特征向量FI1,FI2,...,FIn,他们蕴含了唇部图像的运动变化信息。
(3)FI1,FI2,...,FIn依次被送入唇音转换器P,唇音转换器P会按照一定的时间间隔(即一个语音帧所占的时间)将最新缓存的k个唇部特征向量转换输出为一个语音帧的编码参数向量,依次可得到语音帧编码参数序列FA1,FA2,...,FAm。这里n和m分别代表视频帧和语音帧的当前帧号,他们不一定相等,因为他们的帧率可能不同。
(4)根据转换出来的语音帧编码参数向量序列,采用语音合成的方法重建每一个语音帧A。每一个编码参数向量FA被重建为一个语音帧A。每一个语音帧都是可以直接播放的音频数据。
(5)通过播放设备播放出语音帧序列A1,A2,...,Am,即可听到声音。或者将他们予以存储。
上述步骤中使用的“唇音转换器P”是一个独立的功能单元,它能将唇部特征向量序列FI1,FI2,...,FIn转换成语音帧的编码参数向量序列FA1,FA2,...,FAm
实施例:
如图1所示,本发明首先通过视频采集设备采集包含唇部的视频,并提取嘴唇部分图像得到唇部的视频V,V是由一系列图像I1,I2,...,In按顺序组成的。然后对每一副图像I都提取唇部特征FI,得到唇部特征序列FI1,FI2,...,FIn。该唇部特征序列被依次送入唇音转换器P,从唇音转换器P的输出端可得到语音编码参数序列FA1,FA2,...,FAm。采用语音合成技术,将语音帧编码参数序列合成为语音帧序列A1,A2,...,Am
本实施例中转换方法具体过程描述如下。
(1)第一步,获取唇部视频:利用摄像装置采集包含嘴唇的视频(不需要采集音频),并提取出嘴唇区域,得到嘴唇部分的视频V。可以采用现有的嘴唇图像检测技术来检测和切割出唇部视频;
(2)第二步,计算唇部部特征向量:对于嘴唇部分视频V中的每一帧图像,围绕嘴唇的内唇边缘和外唇边缘,共提取20个特征点,以描述当前嘴唇的形状。每个点有x和y两个坐标值,20个点共有40个坐标数据。依据人脸坐标对40个坐标值进行姿态矫正和归一化处理后,作为一个唇部特征向量FI。从连续的视频图像中可以得到一系列的唇部特征向量FI1,FI2,...,FIn。鉴于图像帧率通常不高,可对唇部特征向量进行插值,以提高帧率。
(3)第三步,唇音转换:将计算得到的每一个唇部特征向量立刻输入到转换器中,这些唇部特征向量会在转换器中进行一个短时间的缓存。每间隔一定的时间间隔Δt(一个语音帧的时间),转换器会利用最新缓存的k个唇部特征向量进行一次语音帧参数向量FA的计算,并将该FA其输出。k和Δt是唇音转换器的参数。按照一般的做法,音频采样率设置为8000Hz,Δt设置为22.5ms,也就是一个语音帧含180个采样。k可设置为0.5秒钟的图像数,视频特征插值后的帧率为每秒50帧,于是k可设置为0.5x50=25。
(4)第四步,语音合成:根据从唇音转换器得到的语音帧参数向量FA,利用语音合成技术,将FA合成为语音帧A,即还原出音频采样。这里采用LPC10e算法,FA是14个数值的LPC参数向量(2个清浊音标志、1个基因周期、1个增益、10个反射系数),合成的一帧音频A包含180个音频采样。
(5)按照上述配置,视频特征经过插值后,帧率为50帧每秒,转换后的音频帧为44.4帧每秒。以上步骤连续处理,可以得到连续的转换结果。可以根据需要将其播放和存储。
如图2所示,唇音转换器P由输入缓存、预测器和配置参数组成。
唇音转换器接收一系列唇部特征向量,并将其存储在输入缓存中。每隔一定的时间间隔Δt,将缓存的k个最新的唇部特征向量送入预测器,并由测器得到一个预测结果,并将该结果从输出口输出。该预测结果是一个语音帧的编码参数。配置参数主要存储了预测器的配置参数。k是一个参数,其值近似等于一个待识别的字、词和短语所占的最大视频帧数,如果进行单字的识别,正常语速下k=25左右,如果以词语或短语为单位,则k值大致按照字数倍增。
转换器的核心是一个预测器,该预测器是一个机器学习模型,能够利用训练样本对它进行训练。预测器可采用人工神经网络来实现,作为一个实例,该神经网络由3个LSTM层+2个全连接层依次连接组成。每两层之间以及LSTM的内部反馈层之间都添加Dropout层。预测器的训练方法为:
①样本生成:取任意时刻t的连续k个唇部特征向量组成一个短时序列FISt=(FIt-k+1,...,FIt-2,FIt-1,FIt)作为预测器的输入样本,其中FIt为时间上最接近t的一个唇部特征向量。提取对应时刻的L个连续语音采样值作为一个语音帧At=(St-L+1,...,St-2,St-1,St),其中St是时间上最接近t的一个语音采样,并采用语音分析算法LPC10e对该语音帧计算其编码参数,作为t时刻的语音帧编码参数向量FAt。其中L=180,是一个固定的参数。不同时刻t,可得到大量训练样本对{FISt,FAt}。
②利用大量样本对{FISt,FAt},按照深度人工神经网络的一般训练方法对预测器进行训练(即采用误差反向传播的方法逐步调整网络权值),并采用均方误差MSE来计算预测误差。
训练完成后,预测器每间隔一定的时间间隔Δt,从缓存中获取k个最新唇部特征向量FIt-k+1,...,FIt-2,FIt-1,FIt作为输入,并预测输出一个语音帧的编码参数向量FAt。例如,对于k=25的情况:
t=t0+Δt时,由FI1,FI2,...,FI25预测得到FA1(t0为起始时间)
t=t0+2Δt时,由FI2,FI3,...,FI26预测得到FA2
t=t0+3Δt时,由FI3,FI4,...,FI27预测得到FA3
......
这样不断处理下去,由唇部特征向量序列FI1,FI2,...,FIn(n≥k)转换得到语音帧的编码参数向量序列FA1,FA2,...,FAm

Claims (7)

1.一种由唇部视频直接生成语音的方法,其特征在于,包括以下步骤:
1)获取唇部视频:采用摄像装置采集包含嘴唇的视频,并提取嘴唇区域,得到嘴唇部分的视频;
2)获取唇部部特征向量:对嘴唇部分的视频中每一帧图像,围绕嘴唇的内唇边缘和外唇边缘提取多个用以描述嘴唇形状的特征点,获取特征点的x,y坐标并做归一化处理后得到当前帧图像的唇部特征向量,以此获取一系列的唇部特征向量;
3)唇音转换:将得到的唇部特征向量输入到唇音转换器中,唇音转换器将唇部特征向量进行短时缓存,每间隔一定的时间Δt,唇音转换器将最新缓存的k个唇部特征向量进行一次语音帧参数向量的转换,并输出该语音帧参数向量;
4)语音合成:根据从唇音转换器输出的语音帧参数向量进行语音合成,将语音帧参数向量合成为语音帧,还原音频采样并输出语音。
2.根据权利要求1所述的一种由唇部视频直接生成语音的方法,其特征在于,所述的步骤2)中,围绕嘴唇的内唇边缘和外唇边缘提取20个用以描述嘴唇形状的特征点,并对这些特征点坐标值依据人脸参数进行姿态矫正和归一化处理。
3.根据权利要求1所述的一种由唇部视频直接生成语音的方法,其特征在于,所述的步骤3)中,所述的唇音转换器的参数包括Δt和k,所述的一定的时间Δt为一个语音帧的时间。
4.根据权利要求3所述的一种由唇部视频直接生成语音的方法,其特征在于,所述的一定的时间Δt取值为22.5ms,k设置为0.5秒钟的图像数,对于每秒50帧的视频帧率,k取值为25。
5.根据权利要求1所述的一种由唇部视频直接生成语音的方法,其特征在于,所述的步骤3)中,采用LPC10e算法进行语音帧参数向量的转换。
6.根据权利要求5所述的一种由唇部视频直接生成语音的方法,其特征在于,所述的语音帧参数向量包括2个清浊音标志、1个基因周期、1个增益和10个反射系数。
7.根据权利要求4所述的一种由唇部视频直接生成语音的方法,其特征在于,合成的一帧语音帧A包含180个音频采样。
CN201810214692.8A 2018-03-15 2018-03-15 一种由唇部视频直接生成语音的方法 Active CN108538282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810214692.8A CN108538282B (zh) 2018-03-15 2018-03-15 一种由唇部视频直接生成语音的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810214692.8A CN108538282B (zh) 2018-03-15 2018-03-15 一种由唇部视频直接生成语音的方法

Publications (2)

Publication Number Publication Date
CN108538282A true CN108538282A (zh) 2018-09-14
CN108538282B CN108538282B (zh) 2021-10-08

Family

ID=63483616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810214692.8A Active CN108538282B (zh) 2018-03-15 2018-03-15 一种由唇部视频直接生成语音的方法

Country Status (1)

Country Link
CN (1) CN108538282B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916054A (zh) * 2020-07-08 2020-11-10 标贝(北京)科技有限公司 基于唇形的语音生成方法、装置和系统及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN2106451U (zh) * 1991-06-17 1992-06-03 上海电力学院 音频信号间隙检测装置
US6332123B1 (en) * 1989-03-08 2001-12-18 Kokusai Denshin Denwa Kabushiki Kaisha Mouth shape synthesizing
US20040120554A1 (en) * 2002-12-21 2004-06-24 Lin Stephen Ssu-Te System and method for real time lip synchronization
CN1556496A (zh) * 2003-12-31 2004-12-22 天津大学 唇形识别发声器
CN101482976A (zh) * 2009-01-19 2009-07-15 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
CN101510256A (zh) * 2009-03-20 2009-08-19 深圳华为通信技术有限公司 一种口型语言的转换方法及装置
JP2009251199A (ja) * 2008-04-04 2009-10-29 Oki Electric Ind Co Ltd 音声合成装置、方法及びプログラム
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN105654952A (zh) * 2014-11-28 2016-06-08 三星电子株式会社 用于输出语音的电子设备、服务器和方法
US20170039440A1 (en) * 2015-08-07 2017-02-09 International Business Machines Corporation Visual liveness detection

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6332123B1 (en) * 1989-03-08 2001-12-18 Kokusai Denshin Denwa Kabushiki Kaisha Mouth shape synthesizing
CN2106451U (zh) * 1991-06-17 1992-06-03 上海电力学院 音频信号间隙检测装置
US20040120554A1 (en) * 2002-12-21 2004-06-24 Lin Stephen Ssu-Te System and method for real time lip synchronization
US20060204060A1 (en) * 2002-12-21 2006-09-14 Microsoft Corporation System and method for real time lip synchronization
CN1556496A (zh) * 2003-12-31 2004-12-22 天津大学 唇形识别发声器
JP2009251199A (ja) * 2008-04-04 2009-10-29 Oki Electric Ind Co Ltd 音声合成装置、方法及びプログラム
CN101482976A (zh) * 2009-01-19 2009-07-15 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
CN101510256A (zh) * 2009-03-20 2009-08-19 深圳华为通信技术有限公司 一种口型语言的转换方法及装置
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法
CN105654952A (zh) * 2014-11-28 2016-06-08 三星电子株式会社 用于输出语音的电子设备、服务器和方法
US20170039440A1 (en) * 2015-08-07 2017-02-09 International Business Machines Corporation Visual liveness detection
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ASSAEL Y M: "LipNet: end-to-end sentence-level", 《HTTPS://ARXIV.ORG/ABS/1611.01599》 *
J.MA,ET AL.: "Accurate visible speech synthesis based on concatenating variable length motion capture data", 《IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS》 *
陈峰等: "LPC-10e到MELP语音编码转换", 《计算机工程与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916054A (zh) * 2020-07-08 2020-11-10 标贝(北京)科技有限公司 基于唇形的语音生成方法、装置和系统及存储介质
CN111916054B (zh) * 2020-07-08 2024-04-26 标贝(青岛)科技有限公司 基于唇形的语音生成方法、装置和系统及存储介质

Also Published As

Publication number Publication date
CN108538282B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN111243626B (zh) 一种说话视频生成方法及系统
CN113192161B (zh) 一种虚拟人形象视频生成方法、系统、装置及存储介质
Ephrat et al. Vid2speech: speech reconstruction from silent video
CN113194348B (zh) 一种虚拟人讲课视频生成方法、系统、装置及存储介质
EP0225729B1 (en) Image encoding and synthesis
CN103650002B (zh) 基于文本的视频生成
WO2018049979A1 (zh) 一种动画合成的方法及装置
CN110853670B (zh) 音乐驱动的舞蹈生成方法
CN112562722A (zh) 基于语义的音频驱动数字人生成方法及系统
CN112465935A (zh) 虚拟形象合成方法、装置、电子设备和存储介质
CN116250036A (zh) 用于合成语音的照片级真实感视频的系统和方法
KR20220097121A (ko) 랜덤 널링 인공신경망을 이용한 입모양 합성 장치 및 방법
CN112308949A (zh) 模型训练、人脸图像生成方法和装置以及存储介质
ITTO20000303A1 (it) Procedimento per l'animazione di un modello sintetizzato di volto umano pilotata da un segnale audio.
CN111459450A (zh) 交互对象的驱动方法、装置、设备以及存储介质
CN114419702B (zh) 数字人生成模型、模型的训练方法以及数字人生成方法
CN108648745B (zh) 一种由唇部图像序列到语音编码参数的转换方法
CN108538283A (zh) 一种由唇部图像特征到语音编码参数的转换方法
CN113838174B (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
CN113378806A (zh) 一种融合情感编码的音频驱动人脸动画生成方法及系统
CN115187704A (zh) 虚拟主播生成方法、装置、设备及存储介质
CN113782042B (zh) 语音合成方法、声码器的训练方法、装置、设备及介质
CN108538282A (zh) 一种由唇部视频直接生成语音的方法
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质
Sui et al. A 3D audio-visual corpus for speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 200090 No. 2103, Pingliang Road, Shanghai, Yangpu District

Patentee after: Shanghai Electric Power University

Country or region after: China

Address before: 200090 No. 2103, Pingliang Road, Shanghai, Yangpu District

Patentee before: SHANGHAI University OF ELECTRIC POWER

Country or region before: China