CN113852851B - 一种基于并行流模型的快速唇动-语音对齐方法 - Google Patents
一种基于并行流模型的快速唇动-语音对齐方法 Download PDFInfo
- Publication number
- CN113852851B CN113852851B CN202110926508.4A CN202110926508A CN113852851B CN 113852851 B CN113852851 B CN 113852851B CN 202110926508 A CN202110926508 A CN 202110926508A CN 113852851 B CN113852851 B CN 113852851B
- Authority
- CN
- China
- Prior art keywords
- layer
- feature vector
- vector
- video
- mel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims description 76
- 230000000007 visual effect Effects 0.000 claims description 50
- 238000012549 training Methods 0.000 claims description 34
- 238000001228 spectrum Methods 0.000 claims description 23
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 17
- 230000006835 compression Effects 0.000 claims description 12
- 238000007906 compression Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 230000006837 decompression Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 2
- 230000001133 acceleration Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 108700012830 rat Lip2 Proteins 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101150021155 LIP2 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于并行流模型的快速唇动‑语音对齐方法。本发明使用基于流的解码器在无约束限制下快速生成高质量的语音,提出了一种简单的视频和音频对齐方法来实现语音的并行生成,保证视频帧和音频帧的时间同步;提出了一个状态模块,通过它生成粗糙但可理解的语音;基于这些粗糙的语音,进一步提出了一种基于流的解码器来生成更高质量的语音。相比于一般的现有方法,本发明突破了只能生成语音在有限的词汇和固定的句子结构的约束条件的限制,可以生成比当前最先进的口型到语音模型更自然的语音,并实现比当前最先进模型高达20倍左右的加速。
Description
技术领域
本发明涉及语音合成领域,尤其是一种基于并行流模型的快速唇动-语音对齐方法。
背景技术
借助视觉线索生成可理解语音是语音合成领域的一个重要主题,但仅从唇部动作推断语音是一项众所周知的艰巨任务,由于视位(语音的视觉单位)和音位(语音的语音单位)之间的一对多映射,同音词广泛存在并成为唇读和唇语语音准确信息提取的关键障碍。
随着深度学习的发展,在视频理解、视听学习和基于视频的声音生成方面取得了很大进展,而特定视位组合中的视位更有可能对应于独特的音素,模型可以利用更大的上下文来更准确地推断特定音素,并进一步减少歧义。
发明内容
本发明所要解决的技术问题是克服上述现有技术仅从唇部动作推断语音无法实现唇动-语音对齐,本发明提供一种基于并行流模型的快速唇动-语音对齐方法,以突破现有技术只能生成语音在有限的词汇和固定的句子结构的约束条件的限制,可生成比当前最先进的口型到语音模型更自然的语音。
为此,本发明采用的技术方案如下:一种基于并行流模型的快速唇动-语音对齐方法,其包括如下步骤:
1)提取视频的语义特征,通过视觉编码器,提取包含明确语义信息的视觉特征向量;
2)将视觉特征向量的长度校准至对应音频内容的长度,引入步骤1)得到的包含明确语义信息的视觉特征向量,设计校准模块,得到与音频特征向量长度统一的校准视觉特征向量;
3)根据步骤2)得到的与音频特征向量长度统一的校准视觉特征向量,通过状态模块得到最终编码向量,其中状态模块包含一个堆叠的前馈转换器、一个标准化层和一个多头注意力层;
4)根据步骤3)得到的最终编码向量,通过流解码器解码生成语音音频,其中流解码器包含一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层;
5)在模型训练阶段,通过视觉编码器与状态模块、流解码器分部式训练的方法,完成模型训练。
为了实现语音的并行生成,充分利用视频和音频的时间同步,本发明提出了一种简单的视频和音频对齐方法。通过实验,发现受流模型容量的限制,直接使用视觉编码器的输出作为基于流的解码器的条件,往往会导致语音清晰度下降。因此本发明进一步提出了一个状态模块生成粗糙但可理解的语音,并使用粗糙语音作为解码器的条件生成相应的高质量语音。本发明可以处理大量词汇和复杂句子,速度比当前最先进的模型快20倍左右。
进一步地,所述步骤1)的具体内容为:
1.1)输入面部视频序列V={v1,v2,...vi…,vM},其中vi代表面部视频序列的第ith视频帧,批标准化后通过激活函数为relu函数的3D卷积神经网络,下采样视频帧得到一个D维向量fi,视频特征向量序列为F={f1,f2,...fi…,fM},其中其中为视频语义向量空间;
更进一步地,所述步骤2)的具体内容为:
再进一步地,所述步骤2.1)中的校准视觉特征向量,具体内容为:
2.1.1)输入长度M的视频帧和长度为N的梅尔声谱,M<N,如果N可被M整除,校准结果为{N/M,N/M,...},如果N不可被M整除,取M与N的最大公约数K,将视频帧和音频帧分割为K组,每组的校准结果为:
其中,ali代表每组中梅尔声谱的帧数对应的第ith视频帧。
更进一步地,所述的步骤3)中通过状态模块得到最终编码向量,具体内容为:
3.1)根据步骤2.1)所得的校准视觉特征向量F′加入位置向量后传入一个堆叠的前馈转换器得到中间向量F′1,其中堆叠的前馈转换器依次由一个多头注意力层、一个标准化层、一个卷积层和一个标准化层连接组成;
3.2)根据步骤3.1)所得的中间向量F′1,传入一个全连接层将前馈转换器的输出线性映射至与梅尔声谱相同的通道数量的最终编码F′2;
再进一步地,所述步骤4)中的流解码器,具体内容为:
4.1)根据步骤3.2)所得的最终编码F′2传入流解码器解码生成语音音频,流解码器由一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层组成;
为方便对所述步骤4.1)进行简要说明,提出如下两种定义:(1)每个模块的输入和输出均由x和y表示,尺寸为t×c,其中t为时间维度、c为通道维度;(2)sum()代表对矩阵元素所有元素进行加和。
更进一步地,所述步骤4.1)的具体内容为:
4.1.1)将步骤3.2)所得的最终编码F′2作为输入传入压缩层,将80路的梅尔声谱帧分为按时间维度等分的两部分和将它们组成160路的特征图Wj;
4.1.2)将步骤4.1.1)压缩层的输出作为标准执行层的输入传入逆卷积层,标准执行层对每路的规模s和偏差参数b进行仿射转化,在模型训练中,标准执行层进行的运算为y=s·x+b,在预测过程中,对应的逆变换为x=(y-b)/s,其中标准执行层的雅克比对数行列式由sum(log(|s|))×t计算而得,其中规模s和偏差参数b在第一批数据的初始化时应实现零均值和单位方差,在初始化后s与b可看作常规可训练参数;
4.1.3)将4.1.2)标准执行层的输出作为逆卷积层的输入,将输入的分为40组,并将训练过程的变换定义为:yi=Wxi,,其中W是一个的矩阵,xi,yi为第ith组的输入与输出x,y,逆变换为xi=W-1yi,逆变换的雅克比对数行列式为40×log(|det(W)|)×t;
4.1.4)将4.1.3)逆卷积层的输出作为仿射层的输入,训练过程的正向变换为:
xa,xb=split(x),
(log sc,t)=func(xb,cond),
ya=sc·xa+t,
yb=xb,
y=concat(ya,yb),
split和concat为向量运算,split运算将输入分为两部分,concat运算将输入进行结合,cond是步骤3)提到的状态模块的输出,在预测的过程中,逆变换运算为:
ya,yb=split(y),
xb=yb,
(log sc,t)=func(xb,cond),
x=concat(xa,xb),
其中,func为建立残差链接和跳跃链接的门控tanh的非线性卷积函数,对应的雅克比对数行列式为sum(log(|sc|));
4.1.5)将4.1.4)仿射层的输出一次传回4.1.3)所述的逆卷积层、4.1.2)所述的逆卷积层,并将逆卷积层结果进行解压运算,将160路的特征图解压为按时间维度等分的两张80路的梅尔声谱,得到最后的梅尔声谱形状。
更进一步地,所述步骤5)中的分部式训练方法,具体内容为:
5.2)根据步骤5.1)所得训练完成后的视觉编码器、状态模块生成粗粒度梅尔声谱传入步骤4)中提到的流解码器,通过损失函数
训练流解码器,其中,si为步骤4.1.2)所述的逆卷积层中第ith路的规模参数,ck为第步骤4.1.3)所述矩阵W的第cth行的第kth个参数,z表示训练过程的输出,Act表示标准执行模块,Couple表示仿射模块,Conv表示逆卷积层,t、c、sum的定义与步骤4.1)描述一致;损失函数的第一部分为球面高斯函数的对数似然,剩余部分为标准执行模块、仿射层与逆卷积层的雅克比对数行列式。
本发明具有的有益效果为:本发明为一种基于并行流模型的快速唇动-语音对齐方法,突破了只能生成语音在有限的词汇和固定的句子结构的约束条件的限制,可以生成比当前最先进的口型到语音模型更自然的语音,并实现比当前最先进模型高达20倍左右的加速。
附图说明
图1是本发明一种基于并行流模型的快速唇动-语音对齐方法的整体架构示意图;
图2是本发明视觉编码器的架构示意图;
图3是本发明状态模块的架构示意图;
图4是本发明流解码器的架构示意图。
具体实施方式
下面结合说明书附图和具体实施方式对本发明做进一步阐述和说明。
实施例
如图1所示,本发明为一种基于并行流模型的快速唇动-语音对齐方法,包括如下步骤:
步骤一、提取视频的语义特征,通过视觉编码器,提取包含明确语义信息的视觉特征向量。
输入面部视频序列V={v1,v2,...vi…,vM},其中vi代表面部视频序列第ith视频帧,批标准化后通过激活函数为relu函数的3D卷积神经网络,下采样视频帧得到一个D维向量fi,视频特征向量序列为F={f1,f2,...fi...,fM},其中
步骤二、将视觉特征向量的长度校准至对应音频内容的长度,引入步骤一得到的包含明确语义信息的视觉特征向量,设计校准模块,得到与音频特征长度统一的校准后视觉特征。
所述校准视觉特征向量的具体内容为:
输入长度M的视频帧和长度为N的梅尔声谱(M<N),如果N可被M整除,校准结果为{N/M,N/M,...},如果N不可被M整除,取M与N的最大公约数K,将视频帧和音频帧分割为K组,每组的校准结果为:
其中ali代表每组中梅尔声谱的帧数对应的第ith视频帧(例如,输入了240个梅尔声谱帧与90个声谱帧,则校准的结果为{3,3,2,3,3,2,3,3,2,...})。
步骤三、根据步骤二得到的与音频特征长度统一的校准视觉特征向量,通过状态模块得到最终编码向量,其中状态模块包含一个堆叠的前馈转换器、一个标准化层和一个多头注意力层。
首先,将步骤二所得的校准视觉特征向量F′加入位置向量后传入一个堆叠的前馈转换器得到中间向量F′1,其中堆叠的前馈转换器依次由一个多头注意力层、一个标准化层、一个卷积层和一个标准化层连接组成;
接着,将所得的中间向量F′1,传入一个全连接层将前馈转换器的输出线性映射至与梅尔声谱相同的通道数量的最终编码F′2;
步骤四、根据步骤三得到的最终编码向量,通过流解码器解码生成语音音频,其中流解码器包含一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层。
根据步骤三所得的最终编码F′2传入流解码器解码生成语音音频,流解码器由一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层组成,为对该部分进行简要介绍,提出如下两种定义:(1)每个模块的输入和输出均由x和y表示,尺寸为t×c),其中t为时间维度、c为通道维度;(2)sum()代表对矩阵元素所有元素进行加和。
首先,将步骤三所得的最终编码F′2作为输入传入压缩层,将80路的梅尔声谱帧分为按时间维度等分的两部分和将它们组成的160路的特征图;
接着,将压缩层的输出作为标准执行层的输入,标准执行层对每路的规模s和偏差参数b进行仿射转化,在模型训练中,标准执行层进行的运算为y=s·x+b,在预测过程中,对应的逆变换为x=(y-b)/s,其中标准执行层的雅克比对数行列式由sum(log(|s|))×t计算而得,其中规模s和偏差参数b在第一批数据的初始化时应实现零均值和单位方差,在初始化后s与b可看作常规可训练参数;
然后,将标准执行层的输出作为逆卷积层的输入,将输入的分为40组,并将训练过程的变换定义为:yi=Wxi,,其中W是一个的矩阵,xi,yi为第ith组的输入与输出x,y,逆变换为xi=W-1yi,逆变换的雅克比对数行列式为40×log(|det(W)|)×t;
再将逆卷积层的输出作为仿射层的输入,训练过程的正向变换为:
xa,xb=split(x),
(log sc,t)=func(xb,cond),
ya=sc·xa+t,
yb=xb,
y=concat(ya,yb),
split和concat为向量运算,split运算将输入分为两部分,concat运算将输入进行结合,cond是步骤三提到的状态模块的输出,在预测的过程中,逆变换运算为:
ya,yb=split(y),
xb=yb,
(log sc,t)=func(xb,cond),
x=concat(xa,xb),
其中,func为建立了残差链接和跳跃链接的门控tanh的非线性卷积函数,对应的雅克比对数行列式为sum(log(|sc|))。
最后,将仿射层的输出一次传回步骤四所述的逆卷积层,并将逆卷积层结果进行解压运算,将160路的特征图解压为按时间维度等分的两张80路的梅尔声谱,得到最后的梅尔声谱形状。
步骤五、在模型训练阶段,通过视觉编码器与状态模块、流解码器分部式训练的方法,完成模型训练。
然后,根据所得训练完成后的视觉编码器、状态模块生成粗粒度梅尔声谱传入步骤四中提到的流解码器,通过损失函数
训练流解码器,其中z表示训练过程的输出,Act表示标准执行模块,Couple表示仿射模块,Conv表示逆卷积层,t、c、sum的定义与步骤四描述一致,损失函数的第一部分为球面高斯函数的对数似然,剩余部分为标准执行模块、仿射层与逆卷积层的雅克比对数行列式。
应用例
本发明提出了一种基于并行流模型的快速唇动-语音对齐方法,并根据该方法提出了一种基于非自回归架构的GlowLTS模型。与自回归架构模型相比,GlowLTS可以生成更高质量的语音。
本发明采用了无约束数据集:Lip2Wav-Chemistry-Lecture、Lip2Wav-ChessAnalysis和Lip2Wav-Hardware-Security。
视频预处理步骤如下:1、利用预训练人脸检测模型提取视频帧的面部区域作为原始视频2、通过双线性插值将面部图像重塑为特定大小。
音频预处理为对原始音频16KHZ频率进行采样,并将窗口大小、跳跃大小和梅尔维度分别设置为800、200和80。
拟建模型配置如下:1、视觉编码器与Lip2Wav相同;2、状态模块使用4个具有2个注意头和0.1超参的前馈转换器。3、基于流的解码器使用12个流块,每个流块包括1个actnorm层、1个可逆的1x1conv层和4个仿射耦合层。4、训练和推理过程使用初始学习率2×10-4和权重下降率1×10-6的Adam优化器优化GlowLTS模型。
本发明采用客观评价法和主观评价法评估GlowLTS模型性能。
客观评价法采用捕捉音频可解释性的STOI(短期客观可解释性)和ESTOI(扩展短期客观可解释性)进行评估,并对GAN-based、Ephrat、Lip2Wav(目前最先进的模型)和本发明GlowLTS模型作数据统计,统计结果见表1。其中STOI用于衡量语音信号的可解释性。一个0-1之间的近似值被看作是可解释性值。ESTOI是STOI的扩展,消除了STOI线性相关系数的缺点,对多种语言和口音具有鲁棒性。
在所有数据集中,与最先进的自回归模型相比,本发明提出的GlowLTS模型了获得类似或更好的STOI和ESTOI分数,并且以很大的优势优于其他两种有竞争力的非自回归模型。这说明本发明的GlowLTS模型可以生成更高质量的语音。
表1:客观评价
虽然客观评价法可以部分反映生成语音的可解释性,但语音质量是由人类感觉决定的。因此,主观的人为评价是最重要的和决定性的标准。主观评价法使用MOS(平均意见得分)进行评估。15位参与者需要根据表2的标准对Lip2Wav和GlowLTS模型生成的语音进行打分,结果见表3。
本发明提出的模型生成的语音优于或非常接近当前最先进模型的可解释性,这与客观评价结果一致。在自然度方面,GlowLTS模型处于领先地位,表明本发明提出的模型可以合成更多自然语音。
表2:MOS评分标准
分数 | 语音质量 | 失真情况 |
5 | 很好 | 几乎感觉不到 |
4 | 好 | 感觉的到但不影响 |
3 | 一般 | 感觉的到有轻微影响 |
2 | 差 | 有影响但可以接受 |
1 | 很差 | 无法接受 |
表3:MOS主观评价
结果表明:通过采用Lip2Wav-Chemistry-Lectur等3个数据集,本发明提出的GlowLTS模型的客观评估结果和主观评价结果皆优于其它模型,证明了GlowLTS模型生成语音的优越性。
Claims (8)
1.一种基于并行流模型的快速唇动-语音对齐方法,其特征在于,包括如下步骤:
1)提取视频的语义特征,通过视觉编码器,提取包含明确语义信息的视觉特征向量;
2)将视觉特征向量的长度校准至对应音频内容的长度,引入步骤1)得到的包含明确语义信息的视觉特征向量,设计校准模块,得到与音频特征向量长度统一的校准视觉特征向量;
3)根据步骤2)得到的与音频特征向量长度统一的校准视觉特征向量,通过状态模块得到最终编码向量,其中状态模块包含一个堆叠的前馈转换器、一个标准化层和一个多头注意力层;
4)根据步骤3)得到的最终编码向量,通过流解码器解码生成语音音频,其中流解码器包含一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层;
5)在模型训练阶段,通过视觉编码器与状态模块、流解码器分部式训练的方法,完成模型训练。
6.根据权利要求5所述的基于并行流模型的快速唇动-语音对齐方法,其特征在于,所述步骤4)中的流解码器,具体内容为:
4.1)根据步骤3.2)所得的最终编码F′2传入流解码器解码生成语音音频,流解码器由一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层组成;
为方便对所述步骤4.1)进行简要说明,提出如下两种定义:(1)每个模块的输入和输出均由x和y表示,尺寸为t×c,其中t为时间维度、c为通道维度;(2)sum()代表对矩阵元素所有元素进行加和。
7.根据权利要求6所述的基于并行流模型的快速唇动-语音对齐方法,其特征在于,所述步骤4.1)的具体内容为:
4.1.1)将步骤3.2)所得的最终编码F′2作为输入传入压缩层,将80路的梅尔声谱帧分为按时间维度等分的两部分和将它们组成160路的特征图Wj;
4.1.2)将步骤4.1.1)压缩层的输出作为标准执行层的输入传入逆卷积层,标准执行层对每路的规模s和偏差参数b进行仿射转化,在模型训练中,标准执行层进行的运算为y=s·x+b,在预测过程中,对应的逆变换为x=(y-b)/s,其中标准执行层的雅克比对数行列式由sum(log(|s|))×t计算而得,其中规模s和偏差参数b在第一批数据的初始化时应实现零均值和单位方差,在初始化后s与b可看作常规可训练参数;
4.1.3)将4.1.2)标准执行层的输出作为逆卷积层的输入,将输入的分为40组,并将训练过程的变换定义为:yi=Wxi,,其中W是一个的矩阵,xi,yi为第ith组的输入与输出x,y,逆变换为xi=W-1yi,逆变换的雅克比对数行列式为40×log(|det(W)|)×t;
4.1.4)将4.1.3)逆卷积层的输出作为仿射层的输入,训练过程的正向变换为:
xa,xb=split(x),
(log sc,t)=func(xb,cond),
ya=sc·xa+t,
yb=xb,
y=concat(ya,yb),
split和concat为向量运算,split运算将输入分为两部分,concat运算将输入进行结合,cond是步骤3)提到的状态模块的输出,在预测的过程中,逆变换运算为:
ya,yb=split(y),
xb=yb,
(log sc,t)=func(xb,cond),
x=concat(xa,xb),
其中,func为建立残差链接和跳跃链接的门控tanh的非线性卷积函数,对应的雅克比对数行列式为sum(log(|sc|));
4.1.5)将4.1.4)仿射层的输出一次传回4.1.3)所述的逆卷积层、4.1.2)所述的逆卷积层,并将逆卷积层结果进行解压运算,将160路的特征图解压为按时间维度等分的两张80路的梅尔声谱,得到最后的梅尔声谱形状。
8.根据权利要求7所述的基于并行流模型的快速唇动-语音对齐方法,其特征在于,所述步骤5)中的分部式训练方法,具体内容为:
5.2)根据步骤5.1)所得训练完成后的视觉编码器、状态模块生成粗粒度梅尔声谱传入步骤4)中提到的流解码器,通过损失函数
训练流解码器,其中,si为步骤4.1.2)所述的逆卷积层中第ith路的规模参数,ck为第步骤4.1.3)所述矩阵W的第cth行的第kth个参数,z表示训练过程的输出,Act表示标准执行模块,Couple表示仿射模块,Conv表示逆卷积层,t、c、sum的定义与步骤4.1)描述一致;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110926508.4A CN113852851B (zh) | 2021-08-12 | 2021-08-12 | 一种基于并行流模型的快速唇动-语音对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110926508.4A CN113852851B (zh) | 2021-08-12 | 2021-08-12 | 一种基于并行流模型的快速唇动-语音对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113852851A CN113852851A (zh) | 2021-12-28 |
CN113852851B true CN113852851B (zh) | 2023-04-18 |
Family
ID=78975338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110926508.4A Active CN113852851B (zh) | 2021-08-12 | 2021-08-12 | 一种基于并行流模型的快速唇动-语音对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113852851B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7343289B2 (en) * | 2003-06-25 | 2008-03-11 | Microsoft Corp. | System and method for audio/video speaker detection |
CN108648745B (zh) * | 2018-03-15 | 2020-09-01 | 上海电力学院 | 一种由唇部图像序列到语音编码参数的转换方法 |
US11010645B2 (en) * | 2018-08-27 | 2021-05-18 | TalkMeUp | Interactive artificial intelligence analytical system |
CN110111783A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于深度神经网络的多模态语音识别方法 |
CN111091824B (zh) * | 2019-11-30 | 2022-10-04 | 华为技术有限公司 | 一种语音匹配方法及相关设备 |
-
2021
- 2021-08-12 CN CN202110926508.4A patent/CN113852851B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113852851A (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136693B (zh) | 用于使用少量样本进行神经话音克隆的系统和方法 | |
US11017761B2 (en) | Parallel neural text-to-speech | |
Wang et al. | Tacotron: Towards end-to-end speech synthesis | |
Saon et al. | The IBM 2015 English conversational telephone speech recognition system | |
Zhang et al. | Joint training framework for text-to-speech and voice conversion using multi-source tacotron and wavenet | |
Georgescu et al. | Kaldi-based DNN architectures for speech recognition in Romanian | |
Huang et al. | Voice conversion based on cross-domain features using variational auto encoders | |
Kameoka et al. | Many-to-many voice transformer network | |
CN112151030B (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
Liu et al. | Delightfultts 2: End-to-end speech synthesis with adversarial vector-quantized auto-encoders | |
Niwa et al. | Statistical voice conversion based on WaveNet | |
Kameoka et al. | Nonparallel voice conversion with augmented classifier star generative adversarial networks | |
CN112669809A (zh) | 并行神经文本到语音转换 | |
Wu et al. | Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations | |
CN115410550A (zh) | 一种细粒度韵律可控的情感语音合成方法、系统及存储介质 | |
Hu et al. | Exploring self-supervised pre-trained asr models for dysarthric and elderly speech recognition | |
Lu et al. | A compact framework for voice conversion using wavenet conditioned on phonetic posteriorgrams | |
Ishihara et al. | Attention-Based Speaker Embeddings for One-Shot Voice Conversion. | |
Sadekova et al. | A Unified System for Voice Cloning and Voice Conversion through Diffusion Probabilistic Modeling. | |
Wu et al. | Deep Speech Synthesis from MRI-Based Articulatory Representations | |
Ramos | Voice conversion with deep learning | |
Zhao et al. | Research on voice cloning with a few samples | |
CN113852851B (zh) | 一种基于并行流模型的快速唇动-语音对齐方法 | |
CN113436607B (zh) | 一种快速语音克隆方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |