CN111261187B - 一种将语音转换成唇形的方法、系统、装置和存储介质 - Google Patents
一种将语音转换成唇形的方法、系统、装置和存储介质 Download PDFInfo
- Publication number
- CN111261187B CN111261187B CN202010079859.1A CN202010079859A CN111261187B CN 111261187 B CN111261187 B CN 111261187B CN 202010079859 A CN202010079859 A CN 202010079859A CN 111261187 B CN111261187 B CN 111261187B
- Authority
- CN
- China
- Prior art keywords
- lip
- shaped key
- long
- term memory
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 58
- 230000008569 process Effects 0.000 claims abstract description 53
- 230000015654 memory Effects 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000006403 short-term memory Effects 0.000 claims abstract description 16
- 230000007787 long-term memory Effects 0.000 claims abstract description 15
- 238000000513 principal component analysis Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 abstract description 11
- 230000000007 visual effect Effects 0.000 abstract description 9
- 238000007781 pre-processing Methods 0.000 abstract description 7
- 230000015572 biosynthetic process Effects 0.000 abstract description 3
- 238000004590 computer program Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009967 tasteless effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种将语音转换成唇形的方法、系统、装置和存储介质。通过使用长短期记忆网络对语音进行处理,能够达到较快的处理速度,以较少的耗时完成输出唇形关键点的过程,整个过程所造成的延迟较小。对长短期记忆网络的训练过程,能够使长短期记忆网络以人类的语言规律去对接收到的语音解析分析,更加准确地输出合适的唇形图像。设置对长短期记忆网络输出的唇形关键点所进行的反向处理过程,通过按照对训练集进行预处理过程的相反逻辑来对唇形关键点进行处理,可以消除预处理过程对长短期记忆网络形成的影响,使最终获得的唇形关键点具有合适的分布,便于后续应用生成对抗网络等进行视觉化处理。本发明广泛应用于语音数据技术领域。
Description
技术领域
本发明涉及语音数据技术领域,尤其是一种将语音转换成唇形的方法、系统、装置和存储介质。
背景技术
在虚拟主播等领域,广泛地存在将语音转换成唇形的需求。结合文字转换成语音的技术,然后将语音转换成唇形,再将唇形显示在计算机生成的人物头像上,可以使得枯燥无味的新闻稿转换成为逼真的嘴唇动作,提供良好的视觉体验。但是,现有技术普遍存在着计算量庞大、消耗时间多等缺点,在将语音转换成唇形这一过程本身就存在很大的延迟,如果现有技术所要处理的语音是来自文本转换得到的,所输出的唇形还需要应用到后续的变形或贴图等步骤,那么语音转换成唇形这一过程的延迟将会与其他过程的延迟叠加,造成容易察觉且不可忍受的时延,严重影响视觉体验。
发明内容
针对上述至少一个技术问题,本发明的目的在于提供一种将语音转换成唇形的方法、系统、装置和存储介质。
一方面,本发明实施例包括一种将语音转换成唇形的方法,包括:
使用长短期记忆网络接收语音并进行处理;
获取所述长短期记忆网络输出的唇形关键点;
所述长短期记忆网络接受过的训练过程,包括:
构建训练集;所述训练集由语音样本和唇形关键点样本组成;
通过各所述唇形关键点样本的p-范数,分别对各所述唇形关键点样本进行标准化;
通过主成分分析,对各所述唇形关键点样本进行降维;
使用线性插值,对各所述唇形关键点样本进行上采样;
对各所述唇形关键点样本进行归一化。
进一步地,所述将语音转换成唇形的方法还包括以下至少一个步骤:
通过使用与所述训练过程中相同的p-范数,对所述唇形关键点进行反标准化;
通过与所述训练过程中相同的主成分分析,对所述唇形关键点进行升维;
通过与所述训练过程中相同的线性插值,对所述唇形关键点进行下采样;
通过使用与所述训练过程中相同的归一化参数,对各所述唇形关键点进行反归一化。
进一步地,所述将语音转换成唇形的方法还包括对所述唇形关键点进行可视化的步骤。
进一步地,所述对所述唇形关键点进行可视化的步骤,包括:
使用生成对抗网络接收所述唇形关键点;
获取所述生成对抗网络输出的唇形图像。
进一步地,所述构建训练集这一步骤,包括:
拍摄讲话人进行讲话的视频;
从所述视频中获取截图和音频;
对所述截图进行唇形识别,从而获得所述唇形关键点样本;
从所述音频提取MFCC特征,从而获得所述语音样本。
进一步地,所述从所述音频提取MFCC特征这一步骤,包括:
对所述音频进行分帧处理;
在分帧所得的各帧之间进行加窗处理;
使用梅尔滤波器组对每一帧对应的功率谱进行滤波;
对所述梅尔滤波器组中各所述梅尔滤波器的滤波结果进行DCT变换,从而获得所述MFCC特征。
进一步地,所述讲话人进行讲话的视频中,说话人进行说话的时长与不说话的时长相同。
另一方面,本发明实施例还包括一种将语音转换成唇形的系统,包括测试模块和训练模块;
所述测试模块用于:
使用长短期记忆网络接收语音并进行处理;
获取所述长短期记忆网络输出的唇形关键点;
所述训练模块用于通过以下过程对所述长短期记忆网络进行训练:
构建训练集;所述训练集由语音样本和唇形关键点样本组成;
通过各所述唇形关键点样本的p-范数,分别对各所述唇形关键点样本进行标准化;
通过主成分分析,对各所述唇形关键点样本进行降维;
使用线性插值,对各所述唇形关键点样本进行上采样;
对各所述唇形关键点样本进行归一化。
另一方面,本发明实施例还包括一种将语音转换成唇形的装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行所述的将语音转换成唇形的方法。
另一方面,本发明实施例还包括一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行实施例所述的将语音转换成唇形的方法。
本发明的有益效果是:通过使用长短期记忆网络对语音进行处理,能够达到较快的处理速度,以较少的耗时完成输出唇形关键点的过程,整个过程所造成的延迟较小;进一步地,对长短期记忆网络的训练过程,能够使长短期记忆网络以人类的语言规律去对接收到的语音解析分析,更加准确地输出合适的唇形图像;进一步地,设置对长短期记忆网络输出的唇形关键点所进行的反向处理过程,通过按照对训练集进行预处理过程的相反逻辑来对唇形关键点进行处理,可以消除预处理过程对长短期记忆网络形成的影响,使最终获得的唇形关键点具有合适的分布,便于后续应用生成对抗网络等进行视觉化处理;配合生成对抗网络使用,将唇形关键点转换成唇形图像,当持续输入变化的语音时,最终能够输出动态的唇形图像,能够提供流畅的视觉效果。
附图说明
图1为实施例中对长短期记忆网络训练过程的流程示意图。
具体实施方式
本实施例中,主要使用经过训练的长短期记忆网络(Long Short-Term Memory,LSTM)来执行将语音转换成唇形的过程。
用于对长短期记忆网络的训练过程,参照图1,包括以下步骤:
P1.构建训练集;本步骤由以下步骤P101-P104组成;通过执行步骤P101-P104,可以获取到语音样本和唇形关键点样本,从而组成训练集。
P101.拍摄讲话人进行讲话的视频;本步骤主要是使用带录音功能的摄像机等设备进行拍摄来执行的;本实施例中,通过对讲话人讲话内容的控制、对讲话人讲话节奏的指示,以及对拍摄所得视频的后期剪辑,来控制最终所获得的视频中,说话人进行说话的时长与不说话的时长之间的比例,本实施例中,尽量使得这两个时长相等,这样,后续所获得的唇形关键点样本和语音样本中,正样本和负样本的数量就大致相同,能够取得更好的训练效果。
P102.从所述视频中获取截图和音频;使用视频处理软件,可以将拍摄所得的视频分解成为多个截图以及一段或多段音频;
P103.对所述截图进行唇形识别,对每一截图定位出嘴唇所在的区域,然后识别出嘴唇的唇线,再确定唇线上的关键点,组成这一嘴唇对应的唇形关键点样本;
P104.从所述音频提取MFCC特征,提取出的MFCC特征组成了所需获得的语音样本。所述MFCC特征就是梅尔频率倒谱系数,其提取过程为:先对所述音频进行分帧处理,也就是将音频分解成为多个长20ms-40ms的帧,由于每个帧的时长较短,因此每个帧本身相当于一个稳定信号;帧与帧之间使用汉明窗来进行加窗处理,以使得帧与帧之间更平滑;使用梅尔(Mel)滤波器组对每一帧对应的功率谱进行滤波,滤波结果反映出每个频率所对应的能量;对滤波结果进行取对数处理,使得滤波结果在数值上更能符合人的听觉规律;对所述梅尔滤波器组中各所述梅尔滤波器的滤波结果进行DCT变换,从而消除各滤波结果中所包含的相关性因素;保留DCT变换结果的第1-20个系数,从而获得所述MFCC特征。
通过步骤P101-P104获得的训练集,能够贴合人的听觉规律,通过该训练集所训练的长短期记忆网络,能够更准确地识别语音中的听觉规律,从而转换成相应的唇形。
P2.通过各所述唇形关键点样本的p-范数,分别对各所述唇形关键点样本进行标准化。本实施例中,优选地使用各所述唇形关键点样本的二范数来进行标准化。对于一个唇形关键点样本,其二范数为其中为xi这一唇形关键点样本中各元素(某一关键点),N为元素的个数。所述标准化,是指执行计算,标准化的结果是各唇形关键点样本的二范数都等于1。
P3.通过主成分分析(Principal Component Analysis,PCA),对各所述唇形关键点样本进行降维。本实施例中,通过对PCA的参数进行设置,将40维的各所述唇形关键点样本将至5维。通过PCA处理,可以降低所要处理的数据量,减少对计算机资源和计算时间的耗用。
P4.使用线性插值,对各所述唇形关键点样本进行上采样。本实施例中,上采样率为4,也就是对于两个唇形关键点样本,通过线性插值的方式在它们之间增加4个唇形关键点样本。通过上采样,可以扩大训练集的数据量,增强训练效果。
P5.对各所述唇形关键点样本进行归一化,从而将各所述唇形关键点样本的数值范围映射到0和1之间,在后续处理步骤中能够取得更佳的训练效果。
在执行步骤P1-P5获得训练集之后,可以执行步骤S1-S2,来完成将语音转换成唇形的过程:
S1.使用长短期记忆网络接收语音并进行处理;本实施例中,所述语音可以通过使用麦克风现场采集或者播放音频文件的方式获得所述语音;
S2.获取所述长短期记忆网络输出的唇形关键点。
本实施例中,还对通过步骤S2获得的唇形关键点执行以下至少一项处理:
S3A.通过使用与所述训练过程中相同的p-范数,对所述唇形关键点进行反标准化;
S3B.通过与所述训练过程中相同的主成分分析,对所述唇形关键点进行升维;
S3C.通过与所述训练过程中相同的线性插值,对所述唇形关键点进行下采样;
S3D.通过使用与所述训练过程中相同的归一化参数,对各所述唇形关键点进行反归一化。
所述步骤S3B是与步骤P3对应的反向处理过程,在本实施例中,其具体为,对5维的所述唇形关键点进行反PCA,获得40维的唇形关键点,从而完成所述升维。
所述步骤S3C是与步骤P4对应的反向处理过程,在本实施例中,所使用的下采样率为4,也就是每4个唇形关键点中保留1个唇形关键点,从而完成所述下采样。
所述步骤S3D是与步骤P5对应的反向处理过程,在本实施例中,其具体为,使用步骤P5中所使用的归一化参数,乘以各所述唇形关键点中各元素,从而完成所述反归一化。
通过执行步骤S3A-S3D中的至少一个步骤,可以对经过标准化、降维、上采样和归一化等预处理的训练集在训练过程中对长短期记忆网络产生的影响进行消除,使得最终获得的唇形关键点的分布,与唇形关键点样本采集过程中的原始分布相同。
本实施例中,步骤S2所输出的结果是与语音对应的唇形关键点。在连续接收到语音时,长短期记忆网络连续输出变化的唇形关键点,如果对这些唇形关键点执行可视化的步骤,则可以显示出与语音相应的动态唇形图像。
本实施例中,使用生成对抗网络(Generative Adversarial Networks,GAN)来对所述唇形关键点进行可视化,具体包括以下步骤:
S4.使用生成对抗网络接收所述唇形关键点;
S5.获取所述生成对抗网络输出的唇形图像。
采样生成对抗网络进行可视化,具有响应速度快、实时性强的优势,能够使得最终显示出的唇形图像与步骤S1中所接收的语音同步,提高语音转换唇形过程的视觉体验。
综上,本实施例中所执行的将语音转换成唇形的方法,由于使用了长短期记忆网络对语音进行处理,能够达到较快的处理速度,以较少的耗时完成输出唇形关键点的过程,整个过程所造成的延迟较小;进一步地,对长短期记忆网络的训练过程,能够使长短期记忆网络以人类的语言规律去对接收到的语音解析分析,更加准确地输出合适的唇形图像;进一步地,设置对长短期记忆网络输出的唇形关键点所进行的反向处理过程,通过按照对训练集进行预处理过程的相反逻辑来对唇形关键点进行处理,可以消除预处理过程对长短期记忆网络形成的影响,使最终获得的唇形关键点具有合适的分布,便于后续应用生成对抗网络等进行视觉化处理;配合生成对抗网络使用,将唇形关键点转换成唇形图像,当持续输入变化的语音时,最终能够输出动态的唇形图像,能够提供流畅的视觉效果。
本实施例中,一种将语音转换成唇形的系统,包括测试模块和训练模块;
所述测试模块用于:
使用长短期记忆网络接收语音并进行处理;
获取所述长短期记忆网络输出的唇形关键点;
所述训练模块用于通过以下过程对所述长短期记忆网络进行训练:
构建训练集;所述训练集由语音样本和唇形关键点样本组成;
通过各所述唇形关键点样本的p-范数,分别对各所述唇形关键点样本进行标准化;
通过主成分分析,对各所述唇形关键点样本进行降维;
使用线性插值,对各所述唇形关键点样本进行上采样;
对各所述唇形关键点样本进行归一化。
其中测试模块和训练模块分别是指具有相同功能的硬件模块、软件模块或者硬件模块与软件模块的组合。不同的模块之间可能共用相同的硬件或软件单元。
所述一种将语音转换成唇形的系统可以是服务器或者个人计算机等设备,通过将所述一种将语音转换成唇形的方法编写成计算机程序并写入服务器或者个人计算机中,可以得到所述一种将语音转换成唇形的系统,通过运行该系统,可以实现与所述一种将语音转换成唇形的方法相同的技术效果。
本实施例中,所述一种将语音转换成唇形的装置包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行所述一种将语音转换成唇形的方法。
所述存储器还可以单独生产出来,并用于存储与所述一种将语音转换成唇形的方法相应的计算机程序。当这个存储器与处理器连接时,其存储的计算机程序将被处理器读取出来并执行,从而实施所述一种将语音转换成唇形的方法,达到实施例中所述的技术效果。
需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本实施例描述的过程的操作,除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本实施例所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。
Claims (7)
1.一种将语音转换成唇形的方法,其特征在于,包括以下步骤:
使用长短期记忆网络接收语音并进行处理;
获取所述长短期记忆网络输出的唇形关键点;
所述长短期记忆网络接受过的训练过程,包括:
构建训练集;所述训练集由语音样本和唇形关键点样本组成;
通过各所述唇形关键点样本的p-范数,分别对各所述唇形关键点样本进行标准化;
通过主成分分析,对各所述唇形关键点样本进行降维;
使用线性插值,对各所述唇形关键点样本进行上采样;
对各所述唇形关键点样本进行归一化;
对所述唇形关键点进行可视化;
所述对所述唇形关键点进行可视化,包括:
使用生成对抗网络接收所述唇形关键点;
获取所述生成对抗网络输出的唇形图像;
所述将语音转换成唇形的方法还包括以下至少一个步骤:
通过使用与所述训练过程中相同的p-范数,对所述唇形关键点进行反标准化;
通过与所述训练过程中相同的主成分分析,对所述唇形关键点进行升维;
通过与所述训练过程中相同的线性插值,对所述唇形关键点进行下采样;
通过使用与所述训练过程中相同的归一化参数,对各所述唇形关键点进行反归一化。
2.根据权利要求1所述的方法,其特征在于,所述构建训练集这一步骤,包括:
拍摄讲话人进行讲话的视频;
从所述视频中获取截图和音频;
对所述截图进行唇形识别,从而获得所述唇形关键点样本;
从所述音频提取MFCC特征,从而获得所述语音样本。
3.根据权利要求2所述的方法,其特征在于,所述从所述音频提取MFCC特征这一步骤,包括:
对所述音频进行分帧处理;
在分帧所得的各帧之间进行加窗处理;
使用梅尔滤波器组对每一帧对应的功率谱进行滤波;
对所述梅尔滤波器组中各所述梅尔滤波器的滤波结果进行DCT变换,从而获得所述MFCC特征。
4.根据权利要求2所述的方法,其特征在于,所述讲话人进行讲话的视频中,讲话人进行说话的时长与不说话的时长相同。
5.一种将语音转换成唇形的系统,其特征在于,包括测试模块和训练模块;
所述测试模块用于:
使用长短期记忆网络接收语音并进行处理;
获取所述长短期记忆网络输出的唇形关键点;
所述训练模块用于通过以下过程对所述长短期记忆网络进行训练:
构建训练集;所述训练集由语音样本和唇形关键点样本组成;
通过各所述唇形关键点样本的p-范数,分别对各所述唇形关键点样本进行标准化;
通过主成分分析,对各所述唇形关键点样本进行降维;
使用线性插值,对各所述唇形关键点样本进行上采样;
对各所述唇形关键点样本进行归一化;
对所述唇形关键点进行可视化;
所述对所述唇形关键点进行可视化,包括:
使用生成对抗网络接收所述唇形关键点;
获取所述生成对抗网络输出的唇形图像;
所述测试模块还用于执行以下至少一个步骤:
通过使用与所述训练过程中相同的p-范数,对所述唇形关键点进行反标准化;
通过与所述训练过程中相同的主成分分析,对所述唇形关键点进行升维;
通过与所述训练过程中相同的线性插值,对所述唇形关键点进行下采样;
通过使用与所述训练过程中相同的归一化参数,对各所述唇形关键点进行反归一化。
6.一种将语音转换成唇形的装置,其特征在于,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行权利要求1-4任一项所述方法。
7.一种存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010079859.1A CN111261187B (zh) | 2020-02-04 | 2020-02-04 | 一种将语音转换成唇形的方法、系统、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010079859.1A CN111261187B (zh) | 2020-02-04 | 2020-02-04 | 一种将语音转换成唇形的方法、系统、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111261187A CN111261187A (zh) | 2020-06-09 |
CN111261187B true CN111261187B (zh) | 2023-02-14 |
Family
ID=70947112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010079859.1A Active CN111261187B (zh) | 2020-02-04 | 2020-02-04 | 一种将语音转换成唇形的方法、系统、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111261187B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12125131B2 (en) | 2021-12-07 | 2024-10-22 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method of generating 3D video, method of training model, electronic device, and storage medium |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112562720B (zh) * | 2020-11-30 | 2024-07-12 | 清华珠三角研究院 | 一种唇形同步的视频生成方法、装置、设备及存储介质 |
CN113886643A (zh) * | 2021-09-30 | 2022-01-04 | 深圳追一科技有限公司 | 数字人视频生成方法、装置、电子设备和存储介质 |
CN114202605B (zh) * | 2021-12-07 | 2022-11-08 | 北京百度网讯科技有限公司 | 3d视频生成方法、模型训练方法、装置、设备和介质 |
CN116188637B (zh) * | 2023-04-23 | 2023-08-15 | 世优(北京)科技有限公司 | 数据同步方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6366885B1 (en) * | 1999-08-27 | 2002-04-02 | International Business Machines Corporation | Speech driven lip synthesis using viseme based hidden markov models |
CN101369309A (zh) * | 2008-09-26 | 2009-02-18 | 北京科技大学 | 基于主动表观模型和外耳长轴的人耳图像归一化方法 |
CN104850860A (zh) * | 2015-05-25 | 2015-08-19 | 广西师范大学 | 细胞图像识别方法及细胞图像识别装置 |
CN108447474A (zh) * | 2018-03-12 | 2018-08-24 | 北京灵伴未来科技有限公司 | 一种虚拟人物语音与口型同步的建模与控制方法 |
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
CN110347867A (zh) * | 2019-07-16 | 2019-10-18 | 北京百度网讯科技有限公司 | 用于生成嘴唇动作视频的方法和装置 |
JP2019204147A (ja) * | 2018-05-21 | 2019-11-28 | 株式会社デンソーアイティーラボラトリ | 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置 |
-
2020
- 2020-02-04 CN CN202010079859.1A patent/CN111261187B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6366885B1 (en) * | 1999-08-27 | 2002-04-02 | International Business Machines Corporation | Speech driven lip synthesis using viseme based hidden markov models |
CN101369309A (zh) * | 2008-09-26 | 2009-02-18 | 北京科技大学 | 基于主动表观模型和外耳长轴的人耳图像归一化方法 |
CN104850860A (zh) * | 2015-05-25 | 2015-08-19 | 广西师范大学 | 细胞图像识别方法及细胞图像识别装置 |
CN108447474A (zh) * | 2018-03-12 | 2018-08-24 | 北京灵伴未来科技有限公司 | 一种虚拟人物语音与口型同步的建模与控制方法 |
JP2019204147A (ja) * | 2018-05-21 | 2019-11-28 | 株式会社デンソーアイティーラボラトリ | 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置 |
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
CN110347867A (zh) * | 2019-07-16 | 2019-10-18 | 北京百度网讯科技有限公司 | 用于生成嘴唇动作视频的方法和装置 |
Non-Patent Citations (1)
Title |
---|
三维人脸唇形动画的语音驱动研究;乔德明;《中国优秀硕士学位论文全文数据库》;20110331;第17页、40-53页 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12125131B2 (en) | 2021-12-07 | 2024-10-22 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method of generating 3D video, method of training model, electronic device, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN111261187A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111261187B (zh) | 一种将语音转换成唇形的方法、系统、装置和存储介质 | |
CN111325817B (zh) | 一种虚拟人物场景视频的生成方法、终端设备及介质 | |
CN111370020B (zh) | 一种将语音转换成唇形的方法、系统、装置和存储介质 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
DE112017003563B4 (de) | Verfahren und system einer automatischen spracherkennung unter verwendung von a-posteriori-vertrauenspunktzahlen | |
DE102019001775B4 (de) | Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache | |
CN113516990B (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
DE112014003337T5 (de) | Sprachsignaltrennung und Synthese basierend auf auditorischer Szenenanalyse und Sprachmodellierung | |
CN110719436B (zh) | 一种会议文档信息获取方法、装置及其相关设备 | |
CN113823323B (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN110619334A (zh) | 基于深度学习的人像分割方法、架构及相关装置 | |
CN110765868A (zh) | 唇读模型的生成方法、装置、设备及存储介质 | |
CN114072786A (zh) | 说话解析装置、说话解析方法以及程序 | |
CN113035176B (zh) | 语音数据处理方法、装置、计算机设备及存储介质 | |
CN114627889A (zh) | 多声源声音信号处理方法及装置、存储介质和电子设备 | |
CN113851113A (zh) | 模型训练方法及装置、语音唤醒方法及装置 | |
WO2022013045A1 (de) | Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente | |
CN117528135A (zh) | 语音驱动的脸部视频生成方法、装置、电子设备及介质 | |
CN117056728A (zh) | 一种时间序列生成方法、装置、设备和存储介质 | |
CN117496990A (zh) | 语音去噪方法、装置、计算机设备及存储介质 | |
CN113889073B (zh) | 语音处理方法、装置、电子设备和存储介质 | |
CN111326142A (zh) | 基于语音转文本的文本信息提取方法、系统和电子设备 | |
CN112786051B (zh) | 一种语音数据的识别方法及装置 | |
CN114783454A (zh) | 一种模型训练、音频降噪方法、装置、设备及存储介质 | |
CN117292437B (zh) | 一种唇语识别方法、装置、芯片及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |