CN108648745B - 一种由唇部图像序列到语音编码参数的转换方法 - Google Patents

一种由唇部图像序列到语音编码参数的转换方法 Download PDF

Info

Publication number
CN108648745B
CN108648745B CN201810215186.0A CN201810215186A CN108648745B CN 108648745 B CN108648745 B CN 108648745B CN 201810215186 A CN201810215186 A CN 201810215186A CN 108648745 B CN108648745 B CN 108648745B
Authority
CN
China
Prior art keywords
lip
predictor
time
speech
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810215186.0A
Other languages
English (en)
Other versions
CN108648745A (zh
Inventor
贾振堂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai University of Electric Power
Original Assignee
Shanghai University of Electric Power
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University of Electric Power filed Critical Shanghai University of Electric Power
Priority to CN201810215186.0A priority Critical patent/CN108648745B/zh
Publication of CN108648745A publication Critical patent/CN108648745A/zh
Application granted granted Critical
Publication of CN108648745B publication Critical patent/CN108648745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Abstract

本发明涉及一种由唇部图像序列到语音编码参数的转换方法,包括以下步骤:1)构建语音编码参数转换器,包括输入缓存和参数配置后的预测器;2)按照时间先后顺序依次接收唇部图像,并将其存储在转换器的输入缓存中;3)每隔一定的时间,将当前时刻缓存的k个最新的唇部图像作为一个短时图像序列送入预测器,并获取一个预测结果,该预测结果为一个语音帧的编码参数向量;4)语音编码参数转换器输出预测结果。与现有技术相比,本发明具有直接转换、无需文字转换、便于构造训练等优点。

Description

一种由唇部图像序列到语音编码参数的转换方法
技术领域
本发明涉及计算机视觉、数字图像处理和微电子技术领域,尤其是涉及一种由唇部图像序列到语音编码参数的转换方法
背景技术
唇语识别是依据嘴唇视频生成对应的文字表达,以下是现有的相关的技术方案:
(1)CN107122646A,发明名称:一种实现唇语解锁的方法。其原理是将实时采集的嘴唇特征与预先存储的嘴唇特征比对,以确定身份,但是只能获取嘴唇特征。
(2)CN107437019A,发明名称:唇语识别的身份验证方法和装置。其原理与(1)类似,差异在于采用了3D图像。
(3)CN106504751A,发明名称:自适应唇语交互方法以及交互装置。其原理依然是将嘴唇识别成文字,然后基于文字进行指令交互,转换步骤繁复。
(4)LipNet,是牛津大学联合DeepMind发布的深度学习唇语识别算法,其目的也是将嘴唇识别成文字。与之前技术相比,识别率更高一些,但转换的过程也很复杂。
(5)CN107610703A,发明名称:一种基于唇语采集和语音拾取的多语言翻译器。它利用了现有的语音识别模块来识别成文字,然后再利用现有的语音合成模块将文字转换成语音。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种由唇部图像序列到语音编码参数的转换方法
本发明的目的可以通过以下技术方案来实现:
一种由唇部图像序列到语音编码参数的转换方法,包括以下步骤:
1)构建语音编码参数转换器,包括输入缓存和参数配置后的预测器;
2)按照时间先后顺序依次接收唇部图像,并将其存储在转换器的输入缓存中;
3)每隔一定的时间,将当前时刻缓存的k个最新的唇部图像作为一个短时图像序列送入预测器,并获取一个预测结果,该预测结果为一个语音帧的编码参数向量;
4)语音编码参数转换器输出预测结果。
所述的预测器为训练后的深度人工神经网络,所述的深度人工神经网络由3个卷积LSTM网络层和2个全连接层依次连接组成,中间插入必要的池化层和丢弃层。
所述的预测器的训练方法具体包括以下步骤:
21)同步采集视频和语音:通过视频和音频采集设备,同步采集视频和对应的语音数据,从视频中提取唇部图像I1,I2,...,In,唇部图像包括整个嘴部以及以嘴为中心的一个矩形区域,并依据人脸参数进行姿态矫正和尺度规范化,所述的语音数据为语音样值序列S1,S2,...,SM,并使唇部图像和语音数据保持时间对应关系;
22)获取任意时刻t的唇部图像短时序列ISt:对给定的任意时刻t,提取k个连续的唇部图像作为t时刻的唇部图像短时序列ISt=(It-k+1,...,It-2,It-1,It),其中,It为时间上最接近t的一个唇部图像,k为指定参数;
23)获取任意时刻t的语音帧编码参数向量FAt,对任意时刻t,提取L个连续语音采样值作为一个语音帧At=(St-L+1,...,St-2,St-1,St),其中St是时间上最接近t的一个语音采样,采用基于声码器的语音编码算法获取该语音帧的编码参数,即为t时刻的语音帧编码参数向量FAt,其中,L为固定参数;
24)采用样本训练预测器:任取一时刻t,根据步骤22)和23)得到的训练样本对{FISt,FAt}作为预测器的输入和期望输出,并在有效范围内随机选取多个t值,以获取多个训练样本对,对预测器进行训练。
所述的步骤22)中,采用对唇部图像进行时间插值使其帧率加倍,或采用高速图像采集设备进行采集的方式提高唇部图像的帧率。
所述的步骤22)中,根据应用情景中需要识别的词汇长度选取k值,k值等于一个待识别的字、词或者短语所占的最大视频帧数。
所述的步骤23)中,L的取值为180。
所述的步骤23)中,所述的语音编码算法为LPC10e算法,所述的编码参数向量为LPC参数,包括1个前半帧清浊音标志、1个后半帧清浊音标志、1个基音周期、1个增益和10个反射系数。
与现有技术相比,本发明具有以下特点:
一、直接转换:本发明采用机器学习技术构造了一个特殊的转换器,它实现从唇部图像到语音帧编码参数向量的转换。其中的预测器,可用深度学习人工神经网络来实现,但并不限于人工神经网络。
二、无需文字转换:该转换器采用唇部图像序列作为输入,语音帧编码参数向量作为输出。其输出的语音帧编码参数向量,可以由语音合成技术直接合成为语音采样帧,而不需要经过“文字”这一中间环节。
三、便于构造训练:本发明还提供了所设计预测器的训练方法,以及训练样本的构造方法。
附图说明
图1为转换器的组成和接口结构图。
图2为预测器的训练流程图。
图3为预测器的人工神经网络结构。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
本发明设计了一种由唇部图像序列到语音编码参数转换的转换器。它能够将接收唇部图像序列,并将它们转换成语音帧编码参数向量序列、并予以输出。
如图1所示,该转换器主要包括输入缓存、预测器、和配置参数。其核心是一个预测器,该预测器是一个机器学习模型,能够利用训练样本对它进行训练。训练完成后的预测器,能够将唇部图像的一个短时序列预测输出为一个对应的语音编码参数向量。
转换器的工作过程描述如下,包括四个步骤:
(1)转换器启动后,读取配置参数,从而构建预测器。
(2)转换器接收一系列时间上连续的唇部图像I1,I2,...,In,并将其存储在输入缓存中。这些唇部图像按照时间先后顺序依次输入。
(3)每隔一定的时间Δt,转换器就将当前时刻t缓存的k个最新的唇部图像作为一个短时图像序列ISt=(It-k+1,...,It-2,It-1,It)送入预测器,并得到一个预测结果FAt。该预测结果是一个语音帧的编码参数向量。其中Δt等于一个语音帧所占的时长,k是一个固定的参数。
(4)得到一个预测结果FAt后,随即将其从输出接口输出。
以上步骤持续循环运行,从而将唇部图像序列I1,I2,...,In转换成语音帧的编码参数向量序列FA1,FA2,...,FAm。由于语音帧的频率和视频帧的频率并不一定相等,因此这里输入的图像I的个数n和输出的语音帧参数向量FA个数m也不一定相等。
本专利描述的转换器中,涉及一个预测器,该预测器用一种具有数据预测能力的机器学习模型来实现,例如用一个人工神经网络来实现,但不限于人工神经网络。在应用之前,需要对其进行训练(即让预测器进行学习),训练其原理如图2所示,图中,从唇部视频的图像中任意选取的一个唇部图像短序列ISt=(It-k+1,...,It-2,It-1,It),作为训练用的输入样本;在语音中选取一个与ISt对应的语音帧At=(St-L+1,...,St-2,St-1,St),其中St是在时间上与It最接近的一个音频采样,然后采用基于声码器的语音编码算法对语音帧At进行分析,得到其编码参数向量FAt,作训练用的期望输出,即标签,由此获取大量的训练样本和标签对{ISt,FAt},用来训练预测器,这里t为随机的任意有效时刻。
(1)同步采集视频和语音。通过视频和音频采集设备,同步采集视频和对应的语音数据。视频中需要包含嘴唇部分。从视频中提取嘴唇部分,即包含整个嘴部、以觜为中心的一个矩形区域,并依据人脸参数进行姿态矫正和尺度规范化,最终的唇部视频是由一系列唇部图像I1,I2,...,In组成,语音数据则表现为语音样值序列S1,S2,...,SM(这里M为大写,表示采样数,语音帧数表示为小写m),图像和语音保持时间对应关系。
(2)任意时刻t的唇部图像短时序列ISt。对给定的任意时刻t,提取k个连续的唇唇部图像作为t时刻的唇部图像短时序列ISt=(It-k+1,...,It-2,It-1,It),其中It为时间上最接近t的一个唇部图像,k是一个固定的参数。为了提高唇部图像的帧率,可对唇部图像进行时间插值使其帧率加倍,或者直接采用高速的图像采集设备。
(3)任意时刻t的语音帧编码参数向量FAt,对任意时刻t,提取L个连续语音采样值作为一个语音帧At=(St-L+1,...,St-2,St-1,St),其中St是时间上最接近t的一个语音采样。采用基于声码器的语音编码算法,对该语音帧计算其编码参数,得到t时刻的语音帧编码参数向量FAt,其中L是一个固定的参数。
(4)用样本训练预测器。任取一时刻t,根据(2)和(3)得到一个训练样本对{ISt,FAt},其中ISt为预测器的输入,FAt为预测器的期望输出,即标签。在有效范围内随机选取大量t值,可得到大量的样本。用这些样本,依据预测器的类型,采用相应的方法对预测器进行训练。
(5)将训练完成后的预测器,作为一个组件用于构建唇音转换器,如图1所示,该转换器主要包括输入缓存、预测器、和配置参数,以及输入和输出接口。转换器接收一个个唇部图像,并将其存储在输入缓存中。每隔一定的时间间隔Δt,将缓存的k个最新的唇部图像送入预测器,并由测器得到一个预测结果,并将该结果从输出口输出。该预测结果是一个语音帧的编码参数。配置参数主要存储了预测器的配置参数。
实施例1:
下面是一种具体的实施方法,但本发明所述的方法和原理并不限于其中所给出的具体数字。
(1)预测器,可采用人工神经网络来实现。亦可采用其他机器学习技术对预测器进行构建。下面的过程中,预测器采用深度人工神经网络,即预测器等同于一个深度人工神经网络;
如图3所示,该人工神经网络主要由3个卷积LSTM网络层(ConvLSTM2D)和2个全连接层(Dense)依次连接组成。每个ConvLSTM2D都跟一个池化层(MaxPooling2D),两个Dense层前面都有一个丢弃层(Dropout),为结构清晰,这些在图3中没有画出。
其中,三层卷积LSTM都各有80个神经元,前两层采用“return_sequences”模式。两个Dense层分别有100个神经元和14个神经元。网络采用均方方误差MSE来计算损失,并以精度为评价标准。
第一个ConvLSTM2D层接收唇部图像序列的输入,输入的格式是一个5维数组(BATCHES,STEPS,HEIGHT,WIDTH,CH)。最后一个全连接层是神经网络的输出层,输出LPC参数,其格式是一个2维数组(BATCHES,LPC_DIM)。上述格式中,BATCHES指定每次送入神经网络的样本数目(习惯地称为批数),训练时BATCHES通常为大于1的数值,应用时BATCHES=1;一个输入样本的形状由STEPS,HEIGHT,WIDTH,CH指定,STEPS指定一个唇部图像短时序列的长度(习惯地称为步数),也就是ISt=(It-k+1,...,It-2,It-1,It)中的k值,即STEPS=k;HEIGHT为唇部图片的高度,WIDTH为图片的宽度,CH为图片的通道数(灰度图像CH=1,彩色图像CH=3)。输出格式中,LPC_DIM是一个语音编码参数向量的维度,对于LPC10e来说,LPC_DIM=14。
神经元的数目和层数,可依据应用场景的不同做适当调整,对于词汇量大的应用情景中,神经元数目和层数相可以设置得较多些。
(2)选取唇部图像短时序列。任意选取k个连续的唇部图像,组成一个短时序列ISt=(It-k+1,...,It-2,It-1,It)作为预测器的一个输入样本,其中k是一个参数,依据应用情景选取合适的k值,k值大约等于一个待识别的字、词、或者短语所占用的最大视频帧数。鉴于图像帧率通常不高,可对唇部视频进行插值,以提高帧率。
(3)k的值的确定。k值需要根据应用情景来确定,对于简单的应用场景,可能只需要进行单个汉字的识别,由于一个汉字的发音大约0.5秒,如果视频为50帧/秒,则k为0.5秒所包含的视频帧数,即k=50x0.5=25。对于用字较多的情景,则需要以词汇甚至短句作为一个整体来识别,这时k的数值相应倍增。例如“大小”和“卡车”两个词中,由于“大”和“卡”的口型近似,难以单字区分,则需要整词“大小”和“卡车”进行识别,k至少需要等于2x25=50左右。
(4)语音帧编码参数向量的计算。选择一个与(2)中ISt对应时刻的语音帧At=(St-L+1,...,St-2,St-1,St),其中St是时间上最接近It的一个语音采样。利用语音分析算法,对该语音帧At进行分析,得到该帧的编码参数向量FAt
这里,语音可采用8000Hz的采样率,L设为180,即每180个样值作为一个音频帧,占22.5ms的时间。语音编码可采用LPC10e算法。用此算法对一个语音帧At进行分析得到该帧的编码参数向量FAt,即14个数值的LPC参数,包括1个前半帧清浊音标志、1个后半帧清浊音标志、1个基因周期、1个增益、和10个反射系数。
(5)预测器的训练:通过上述(2)、(3)中描述的方法,获取ISt和对应的FAt,从而组成一个样本对{ISt,FAt}。由于t可取任意有效时间内的值,因此可得到大量的训练样本,用于对预测器的训练。训练时,采用均方误差MSE来计算预测误差,并采用误差反向传播的方法逐步调整网络权值。最终提供一个训练完成的、可用的预测器。
(6)预测器训练完成后,作为一个模块用于转换器中。预测器结构描述数据和训练好的权值数据,都存储在“配置参数”中,当转换器启动时将配置参数读取出来,并依据这些参数重建预测器。
(7)本文所述的方法可采用软件手段实现,亦可部分或全部地采用硬件手段实现。
本发明设计了一种由唇部图像序列到语音编码参数的转换器,它的输入为唇部图像序列,输出为语音帧编码参数向量序列。它可用于构建“唇”-“音”转换装置,为发音困难的人士提供便利,也有助于在嘈杂环境中进行交谈,还可以用于对视频监控中的人脸唇部视频进行语音分析。

Claims (4)

1.一种由唇部图像序列到语音编码参数的转换方法,其特征在于,包括以下步骤:
1)构建语音编码参数转换器,包括输入缓存和参数配置后的预测器;
2)按照时间先后顺序依次接收唇部图像,并将其存储在转换器的输入缓存中;
3)每隔一定的时间,将当前时刻缓存的k个最新的唇部图像作为一个短时图像序列送入预测器,并获取一个预测结果,该预测结果为一个语音帧的编码参数向量,所述的预测器为训练后的深度人工神经网络,所述的深度人工神经网络由3个卷积LSTM网络层和2个全连接层依次连接组成,中间插入必要的池化层和丢弃层,所述的预测器的训练方法具体包括以下步骤:
21)同步采集视频和语音:通过视频和音频采集设备,同步采集视频和对应的语音数据,从视频中提取唇部图像I1,I2,...,In,唇部图像包括整个嘴部以及以嘴为中心的一个矩形区域,并依据人脸参数进行姿态矫正和尺度规范化,所述的语音数据为语音样值序列S1,S2,...,SM,并使唇部图像和语音数据保持时间对应关系;
22)获取任意时刻t的唇部图像短时序列IS t:对给定的任意时刻t,提取k个连续的唇部图像作为t时刻的唇部图像短时序列IS t=(It-k+1,...,It-2,It-1,It),其中,It为时间上最接近t的一个唇部图像,k为指定参数;
23)获取任意时刻t的语音帧编码参数向量FAt,对任意时刻t,提取L个连续语音采样值作为一个语音帧At=(St-L+1,...,St-2,St-1,St),其中St是时间上最接近t的一个语音采样,采用基于声码器的语音编码算法获取该语音帧的编码参数,即为t时刻的语音帧编码参数向量FAt,其中,L为固定参数,所述的语音编码算法为LPC10e算法,所述的编码参数向量为LPC参数,包括1个前半帧清浊音标志、1个后半帧清浊音标志、1个基音周期、1个增益和10个反射系数;
24)采用样本训练预测器:任取一时刻t,根据步骤22)和23)得到的训练样本对{FISt,FAt}作为预测器的输入和期望输出,并在有效范围内随机选取多个t值,以获取多个训练样本对,对预测器进行训练;
4)语音编码参数转换器输出预测结果。
2.根据权利要求1所述的一种由唇部图像序列到语音编码参数的转换方法,其特征在于,步骤22)中,采用对唇部图像进行时间插值使其帧率加倍,或采用高速图像采集设备进行采集的方式提高唇部图像的帧率。
3.根据权利要求1所述的一种由唇部图像序列到语音编码参数的转换方法,其特征在于,步骤22)中,根据应用情景中需要识别的词汇长度选取k值,k值等于一个待识别的字、词或者短语所占的最大视频帧数。
4.根据权利要求1所述的一种由唇部图像序列到语音编码参数的转换方法,其特征在于,步骤23)中,L的取值为180。
CN201810215186.0A 2018-03-15 2018-03-15 一种由唇部图像序列到语音编码参数的转换方法 Active CN108648745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810215186.0A CN108648745B (zh) 2018-03-15 2018-03-15 一种由唇部图像序列到语音编码参数的转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810215186.0A CN108648745B (zh) 2018-03-15 2018-03-15 一种由唇部图像序列到语音编码参数的转换方法

Publications (2)

Publication Number Publication Date
CN108648745A CN108648745A (zh) 2018-10-12
CN108648745B true CN108648745B (zh) 2020-09-01

Family

ID=63744172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810215186.0A Active CN108648745B (zh) 2018-03-15 2018-03-15 一种由唇部图像序列到语音编码参数的转换方法

Country Status (1)

Country Link
CN (1) CN108648745B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110189394B (zh) * 2019-05-14 2020-12-29 北京字节跳动网络技术有限公司 口型生成方法、装置及电子设备
CN110765868A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 唇读模型的生成方法、装置、设备及存储介质
CN112951215A (zh) * 2021-04-27 2021-06-11 平安科技(深圳)有限公司 语音的智能客服回答方法、装置以及计算机设备
CN113852851B (zh) * 2021-08-12 2023-04-18 国网浙江省电力有限公司营销服务中心 一种基于并行流模型的快速唇动-语音对齐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060204060A1 (en) * 2002-12-21 2006-09-14 Microsoft Corporation System and method for real time lip synchronization
CN104217218A (zh) * 2014-09-11 2014-12-17 广州市香港科大霍英东研究院 一种唇语识别方法及系统
CN105321519A (zh) * 2014-07-28 2016-02-10 刘璟锋 话语辨识系统与单元
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN107799125A (zh) * 2017-11-09 2018-03-13 维沃移动通信有限公司 一种语音识别方法、移动终端及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060204060A1 (en) * 2002-12-21 2006-09-14 Microsoft Corporation System and method for real time lip synchronization
CN105321519A (zh) * 2014-07-28 2016-02-10 刘璟锋 话语辨识系统与单元
CN104217218A (zh) * 2014-09-11 2014-12-17 广州市香港科大霍英东研究院 一种唇语识别方法及系统
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN107799125A (zh) * 2017-11-09 2018-03-13 维沃移动通信有限公司 一种语音识别方法、移动终端及计算机可读存储介质

Also Published As

Publication number Publication date
CN108648745A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN108648745B (zh) 一种由唇部图像序列到语音编码参数的转换方法
CN113192161B (zh) 一种虚拟人形象视频生成方法、系统、装置及存储介质
CN110866968A (zh) 基于神经网络生成虚拟人物视频的方法及相关设备
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN108538283B (zh) 一种由唇部图像特征到语音编码参数的转换方法
CN113194348B (zh) 一种虚拟人讲课视频生成方法、系统、装置及存储介质
CN110610534B (zh) 基于Actor-Critic算法的口型动画自动生成方法
CN110942502B (zh) 语音唇形拟合方法、系统及存储介质
CN113378806B (zh) 一种融合情感编码的音频驱动人脸动画生成方法及系统
JP2001126077A (ja) 顔画像伝送方法およびシステムならびに当該システムで用いられる顔画像送信装置および顔画像再生装置
CN112308949A (zh) 模型训练、人脸图像生成方法和装置以及存储介质
CN113592985B (zh) 混合变形值的输出方法及装置、存储介质、电子装置
CN112001992A (zh) 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统
CN110767210A (zh) 一种生成个性化语音的方法及装置
WO2023035969A1 (zh) 语音与图像同步性的衡量方法、模型的训练方法及装置
CN111259785A (zh) 基于时间偏移残差网络的唇语识别方法
CN116597857A (zh) 一种语音驱动图像的方法、系统、装置及存储介质
CN114581812B (zh) 视觉语言识别方法、装置、电子设备及存储介质
CN115132201A (zh) 唇语识别方法、计算机设备及存储介质
CN113782042B (zh) 语音合成方法、声码器的训练方法、装置、设备及介质
KR102319753B1 (ko) 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치
CN113450824B (zh) 一种基于多尺度视频特征融合的语音唇读方法及系统
CN115052197A (zh) 虚拟人像视频的生成方法及装置
CN110958417B (zh) 一种基于语音线索的视频通话类视频去除压缩噪声的方法
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant