CN113852851B - 一种基于并行流模型的快速唇动-语音对齐方法 - Google Patents

一种基于并行流模型的快速唇动-语音对齐方法 Download PDF

Info

Publication number
CN113852851B
CN113852851B CN202110926508.4A CN202110926508A CN113852851B CN 113852851 B CN113852851 B CN 113852851B CN 202110926508 A CN202110926508 A CN 202110926508A CN 113852851 B CN113852851 B CN 113852851B
Authority
CN
China
Prior art keywords
layer
feature vector
vector
video
mel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110926508.4A
Other languages
English (en)
Other versions
CN113852851A (zh
Inventor
胡若云
沈然
张宏达
丁麒
郑斌
马亮
沈皓
谷泓杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd filed Critical Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority to CN202110926508.4A priority Critical patent/CN113852851B/zh
Publication of CN113852851A publication Critical patent/CN113852851A/zh
Application granted granted Critical
Publication of CN113852851B publication Critical patent/CN113852851B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于并行流模型的快速唇动‑语音对齐方法。本发明使用基于流的解码器在无约束限制下快速生成高质量的语音,提出了一种简单的视频和音频对齐方法来实现语音的并行生成,保证视频帧和音频帧的时间同步;提出了一个状态模块,通过它生成粗糙但可理解的语音;基于这些粗糙的语音,进一步提出了一种基于流的解码器来生成更高质量的语音。相比于一般的现有方法,本发明突破了只能生成语音在有限的词汇和固定的句子结构的约束条件的限制,可以生成比当前最先进的口型到语音模型更自然的语音,并实现比当前最先进模型高达20倍左右的加速。

Description

一种基于并行流模型的快速唇动-语音对齐方法
技术领域
本发明涉及语音合成领域,尤其是一种基于并行流模型的快速唇动-语音对齐方法。
背景技术
借助视觉线索生成可理解语音是语音合成领域的一个重要主题,但仅从唇部动作推断语音是一项众所周知的艰巨任务,由于视位(语音的视觉单位)和音位(语音的语音单位)之间的一对多映射,同音词广泛存在并成为唇读和唇语语音准确信息提取的关键障碍。
随着深度学习的发展,在视频理解、视听学习和基于视频的声音生成方面取得了很大进展,而特定视位组合中的视位更有可能对应于独特的音素,模型可以利用更大的上下文来更准确地推断特定音素,并进一步减少歧义。
发明内容
本发明所要解决的技术问题是克服上述现有技术仅从唇部动作推断语音无法实现唇动-语音对齐,本发明提供一种基于并行流模型的快速唇动-语音对齐方法,以突破现有技术只能生成语音在有限的词汇和固定的句子结构的约束条件的限制,可生成比当前最先进的口型到语音模型更自然的语音。
为此,本发明采用的技术方案如下:一种基于并行流模型的快速唇动-语音对齐方法,其包括如下步骤:
1)提取视频的语义特征,通过视觉编码器,提取包含明确语义信息的视觉特征向量;
2)将视觉特征向量的长度校准至对应音频内容的长度,引入步骤1)得到的包含明确语义信息的视觉特征向量,设计校准模块,得到与音频特征向量长度统一的校准视觉特征向量;
3)根据步骤2)得到的与音频特征向量长度统一的校准视觉特征向量,通过状态模块得到最终编码向量,其中状态模块包含一个堆叠的前馈转换器、一个标准化层和一个多头注意力层;
4)根据步骤3)得到的最终编码向量,通过流解码器解码生成语音音频,其中流解码器包含一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层;
5)在模型训练阶段,通过视觉编码器与状态模块、流解码器分部式训练的方法,完成模型训练。
为了实现语音的并行生成,充分利用视频和音频的时间同步,本发明提出了一种简单的视频和音频对齐方法。通过实验,发现受流模型容量的限制,直接使用视觉编码器的输出作为基于流的解码器的条件,往往会导致语音清晰度下降。因此本发明进一步提出了一个状态模块生成粗糙但可理解的语音,并使用粗糙语音作为解码器的条件生成相应的高质量语音。本发明可以处理大量词汇和复杂句子,速度比当前最先进的模型快20倍左右。
进一步地,所述步骤1)的具体内容为:
1.1)输入面部视频序列V={v1,v2,...vi…,vM},其中vi代表面部视频序列的第ith视频帧,批标准化后通过激活函数为relu函数的3D卷积神经网络,下采样视频帧得到一个D维向量fi,视频特征向量序列为F={f1,f2,...fi…,fM},其中
Figure BDA0003209462730000021
其中
Figure BDA0003209462730000022
为视频语义向量空间;
1.2)将步骤1.1)得到的视频特征向量序列一个双向LSTM网络,处理上下文信息,得到包含明确语义信息的视觉特征向量
Figure BDA0003209462730000023
更进一步地,所述步骤2)的具体内容为:
2.1)将步骤1.2)得到的包含明确语义信息的视觉特征向量
Figure BDA0003209462730000024
长度为M的视频特征向量通过校准模块,得到与音频特征向量长度统一的长度为N的校准视觉特征向量F′。
再进一步地,所述步骤2.1)中的校准视觉特征向量,具体内容为:
2.1.1)输入长度M的视频帧和长度为N的梅尔声谱,M<N,如果N可被M整除,校准结果为{N/M,N/M,...},如果N不可被M整除,取M与N的最大公约数K,将视频帧和音频帧分割为K组,每组的校准结果为:
Figure BDA0003209462730000025
Figure BDA0003209462730000026
其中,ali代表每组中梅尔声谱的帧数对应的第ith视频帧。
更进一步地,所述的步骤3)中通过状态模块得到最终编码向量,具体内容为:
3.1)根据步骤2.1)所得的校准视觉特征向量F′加入位置向量后传入一个堆叠的前馈转换器得到中间向量F′1,其中堆叠的前馈转换器依次由一个多头注意力层、一个标准化层、一个卷积层和一个标准化层连接组成;
3.2)根据步骤3.1)所得的中间向量F′1,传入一个全连接层将前馈转换器的输出线性映射至与梅尔声谱相同的通道数量的最终编码F′2
3.3)使用均方差损失函数
Figure BDA0003209462730000031
训练状态模块,均方差函数的表达式为
Figure BDA0003209462730000032
Figure BDA0003209462730000033
其中cond为条件模块的输出,mel为梅尔声谱的真实值。
再进一步地,所述步骤4)中的流解码器,具体内容为:
4.1)根据步骤3.2)所得的最终编码F′2传入流解码器解码生成语音音频,流解码器由一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层组成;
为方便对所述步骤4.1)进行简要说明,提出如下两种定义:(1)每个模块的输入和输出均由x和y表示,尺寸为t×c,其中t为时间维度、c为通道维度;(2)sum()代表对矩阵元素所有元素进行加和。
更进一步地,所述步骤4.1)的具体内容为:
4.1.1)将步骤3.2)所得的最终编码F′2作为输入传入压缩层,将80路的梅尔声谱帧分为按时间维度等分的两部分和将它们组成160路的特征图Wj
4.1.2)将步骤4.1.1)压缩层的输出作为标准执行层的输入传入逆卷积层,标准执行层对每路的规模s和偏差参数b进行仿射转化,在模型训练中,标准执行层进行的运算为y=s·x+b,在预测过程中,对应的逆变换为x=(y-b)/s,其中标准执行层的雅克比对数行列式由sum(log(|s|))×t计算而得,其中规模s和偏差参数b在第一批数据的初始化时应实现零均值和单位方差,在初始化后s与b可看作常规可训练参数;
4.1.3)将4.1.2)标准执行层的输出作为逆卷积层的输入,将输入的分为40组,并将训练过程的变换定义为:yi=Wxi,,其中W是一个
Figure BDA0003209462730000034
的矩阵,xi,yi为第ith组的输入与输出x,y,逆变换为xi=W-1yi,逆变换的雅克比对数行列式为40×log(|det(W)|)×t;
4.1.4)将4.1.3)逆卷积层的输出作为仿射层的输入,训练过程的正向变换为:
xa,xb=split(x),
(log sc,t)=func(xb,cond),
ya=sc·xa+t,
yb=xb
y=concat(ya,yb),
split和concat为向量运算,split运算将输入分为两部分,concat运算将输入进行结合,cond是步骤3)提到的状态模块的输出,在预测的过程中,逆变换运算为:
ya,yb=split(y),
xb=yb
(log sc,t)=func(xb,cond),
Figure BDA0003209462730000041
x=concat(xa,xb),
其中,func为建立残差链接和跳跃链接的门控tanh的非线性卷积函数,对应的雅克比对数行列式为sum(log(|sc|));
4.1.5)将4.1.4)仿射层的输出一次传回4.1.3)所述的逆卷积层、4.1.2)所述的逆卷积层,并将逆卷积层结果进行解压运算,将160路的特征图解压为按时间维度等分的两张80路的梅尔声谱,得到最后的梅尔声谱形状。
更进一步地,所述步骤5)中的分部式训练方法,具体内容为:
5.1)根据损失函数
Figure BDA0003209462730000042
仅对步骤1)和3)中提到的视觉编码器和状态模块进行训练;
5.2)根据步骤5.1)所得训练完成后的视觉编码器、状态模块生成粗粒度梅尔声谱传入步骤4)中提到的流解码器,通过损失函数
Figure BDA0003209462730000043
Figure BDA0003209462730000044
Figure BDA0003209462730000045
训练流解码器,其中,si为步骤4.1.2)所述的逆卷积层中第ith路的规模参数,ck为第步骤4.1.3)所述矩阵W的第cth行的第kth个参数,z表示训练过程的输出,Act表示标准执行模块,Couple表示仿射模块,Conv表示逆卷积层,t、c、sum的定义与步骤4.1)描述一致;损失函数
Figure BDA0003209462730000046
的第一部分为球面高斯函数的对数似然,剩余部分为标准执行模块、仿射层与逆卷积层的雅克比对数行列式。
本发明具有的有益效果为:本发明为一种基于并行流模型的快速唇动-语音对齐方法,突破了只能生成语音在有限的词汇和固定的句子结构的约束条件的限制,可以生成比当前最先进的口型到语音模型更自然的语音,并实现比当前最先进模型高达20倍左右的加速。
附图说明
图1是本发明一种基于并行流模型的快速唇动-语音对齐方法的整体架构示意图;
图2是本发明视觉编码器的架构示意图;
图3是本发明状态模块的架构示意图;
图4是本发明流解码器的架构示意图。
具体实施方式
下面结合说明书附图和具体实施方式对本发明做进一步阐述和说明。
实施例
如图1所示,本发明为一种基于并行流模型的快速唇动-语音对齐方法,包括如下步骤:
步骤一、提取视频的语义特征,通过视觉编码器,提取包含明确语义信息的视觉特征向量。
输入面部视频序列V={v1,v2,...vi…,vM},其中vi代表面部视频序列第ith视频帧,批标准化后通过激活函数为relu函数的3D卷积神经网络,下采样视频帧得到一个D维向量fi,视频特征向量序列为F={f1,f2,...fi...,fM},其中
Figure BDA0003209462730000051
将得到的视频特征向量序列一个双向LSTM网络,处理上下文信息,得到包含明确语义信息的视觉特征向量
Figure BDA0003209462730000052
步骤二、将视觉特征向量的长度校准至对应音频内容的长度,引入步骤一得到的包含明确语义信息的视觉特征向量,设计校准模块,得到与音频特征长度统一的校准后视觉特征。
首先,将步骤一得到的包含明确语义信息的视觉特征向量
Figure BDA0003209462730000053
长度为M的视频特征向量通过校准模块,得到与音频特征向量长度统一的长度为N的校准视觉特征向量F′。
所述校准视觉特征向量的具体内容为:
输入长度M的视频帧和长度为N的梅尔声谱(M<N),如果N可被M整除,校准结果为{N/M,N/M,...},如果N不可被M整除,取M与N的最大公约数K,将视频帧和音频帧分割为K组,每组的校准结果为:
Figure BDA0003209462730000054
Figure BDA0003209462730000055
其中ali代表每组中梅尔声谱的帧数对应的第ith视频帧(例如,输入了240个梅尔声谱帧与90个声谱帧,则校准的结果为{3,3,2,3,3,2,3,3,2,...})。
步骤三、根据步骤二得到的与音频特征长度统一的校准视觉特征向量,通过状态模块得到最终编码向量,其中状态模块包含一个堆叠的前馈转换器、一个标准化层和一个多头注意力层。
首先,将步骤二所得的校准视觉特征向量F′加入位置向量后传入一个堆叠的前馈转换器得到中间向量F′1,其中堆叠的前馈转换器依次由一个多头注意力层、一个标准化层、一个卷积层和一个标准化层连接组成;
接着,将所得的中间向量F′1,传入一个全连接层将前馈转换器的输出线性映射至与梅尔声谱相同的通道数量的最终编码F′2
最后,使用均方差损失函数
Figure BDA0003209462730000061
训练状态模块,均方差函数的表达式为
Figure BDA0003209462730000062
Figure BDA0003209462730000063
其中cond为条件模块的输出,mel为梅尔声谱的真实值。
步骤四、根据步骤三得到的最终编码向量,通过流解码器解码生成语音音频,其中流解码器包含一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层。
根据步骤三所得的最终编码F′2传入流解码器解码生成语音音频,流解码器由一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层组成,为对该部分进行简要介绍,提出如下两种定义:(1)每个模块的输入和输出均由x和y表示,尺寸为t×c),其中t为时间维度、c为通道维度;(2)sum()代表对矩阵元素所有元素进行加和。
首先,将步骤三所得的最终编码F′2作为输入传入压缩层,将80路的梅尔声谱帧分为按时间维度等分的两部分和将它们组成的160路的特征图;
接着,将压缩层的输出作为标准执行层的输入,标准执行层对每路的规模s和偏差参数b进行仿射转化,在模型训练中,标准执行层进行的运算为y=s·x+b,在预测过程中,对应的逆变换为x=(y-b)/s,其中标准执行层的雅克比对数行列式由sum(log(|s|))×t计算而得,其中规模s和偏差参数b在第一批数据的初始化时应实现零均值和单位方差,在初始化后s与b可看作常规可训练参数;
然后,将标准执行层的输出作为逆卷积层的输入,将输入的分为40组,并将训练过程的变换定义为:yi=Wxi,,其中W是一个
Figure BDA0003209462730000064
的矩阵,xi,yi为第ith组的输入与输出x,y,逆变换为xi=W-1yi,逆变换的雅克比对数行列式为40×log(|det(W)|)×t;
再将逆卷积层的输出作为仿射层的输入,训练过程的正向变换为:
xa,xb=split(x),
(log sc,t)=func(xb,cond),
ya=sc·xa+t,
yb=xb
y=concat(ya,yb),
split和concat为向量运算,split运算将输入分为两部分,concat运算将输入进行结合,cond是步骤三提到的状态模块的输出,在预测的过程中,逆变换运算为:
ya,yb=split(y),
xb=yb
(log sc,t)=func(xb,cond),
Figure BDA0003209462730000071
x=concat(xa,xb),
其中,func为建立了残差链接和跳跃链接的门控tanh的非线性卷积函数,对应的雅克比对数行列式为sum(log(|sc|))。
最后,将仿射层的输出一次传回步骤四所述的逆卷积层,并将逆卷积层结果进行解压运算,将160路的特征图解压为按时间维度等分的两张80路的梅尔声谱,得到最后的梅尔声谱形状。
步骤五、在模型训练阶段,通过视觉编码器与状态模块、流解码器分部式训练的方法,完成模型训练。
首先,根据损失函数
Figure BDA0003209462730000072
仅对步骤一和三中提到的视觉编码器、状态模块进行训练;
然后,根据所得训练完成后的视觉编码器、状态模块生成粗粒度梅尔声谱传入步骤四中提到的流解码器,通过损失函数
Figure BDA0003209462730000073
Figure BDA0003209462730000074
Figure BDA0003209462730000075
训练流解码器,其中z表示训练过程的输出,Act表示标准执行模块,Couple表示仿射模块,Conv表示逆卷积层,t、c、sum的定义与步骤四描述一致,损失函数
Figure BDA0003209462730000076
的第一部分为球面高斯函数的对数似然,剩余部分为标准执行模块、仿射层与逆卷积层的雅克比对数行列式。
应用例
本发明提出了一种基于并行流模型的快速唇动-语音对齐方法,并根据该方法提出了一种基于非自回归架构的GlowLTS模型。与自回归架构模型相比,GlowLTS可以生成更高质量的语音。
本发明采用了无约束数据集:Lip2Wav-Chemistry-Lecture、Lip2Wav-ChessAnalysis和Lip2Wav-Hardware-Security。
视频预处理步骤如下:1、利用预训练人脸检测模型提取视频帧的面部区域作为原始视频2、通过双线性插值将面部图像重塑为特定大小。
音频预处理为对原始音频16KHZ频率进行采样,并将窗口大小、跳跃大小和梅尔维度分别设置为800、200和80。
拟建模型配置如下:1、视觉编码器与Lip2Wav相同;2、状态模块使用4个具有2个注意头和0.1超参的前馈转换器。3、基于流的解码器使用12个流块,每个流块包括1个actnorm层、1个可逆的1x1conv层和4个仿射耦合层。4、训练和推理过程使用初始学习率2×10-4和权重下降率1×10-6的Adam优化器优化GlowLTS模型。
本发明采用客观评价法和主观评价法评估GlowLTS模型性能。
客观评价法采用捕捉音频可解释性的STOI(短期客观可解释性)和ESTOI(扩展短期客观可解释性)进行评估,并对GAN-based、Ephrat、Lip2Wav(目前最先进的模型)和本发明GlowLTS模型作数据统计,统计结果见表1。其中STOI用于衡量语音信号的可解释性。一个0-1之间的近似值被看作是可解释性值。ESTOI是STOI的扩展,消除了STOI线性相关系数的缺点,对多种语言和口音具有鲁棒性。
在所有数据集中,与最先进的自回归模型相比,本发明提出的GlowLTS模型了获得类似或更好的STOI和ESTOI分数,并且以很大的优势优于其他两种有竞争力的非自回归模型。这说明本发明的GlowLTS模型可以生成更高质量的语音。
表1:客观评价
Figure BDA0003209462730000081
虽然客观评价法可以部分反映生成语音的可解释性,但语音质量是由人类感觉决定的。因此,主观的人为评价是最重要的和决定性的标准。主观评价法使用MOS(平均意见得分)进行评估。15位参与者需要根据表2的标准对Lip2Wav和GlowLTS模型生成的语音进行打分,结果见表3。
本发明提出的模型生成的语音优于或非常接近当前最先进模型的可解释性,这与客观评价结果一致。在自然度方面,GlowLTS模型处于领先地位,表明本发明提出的模型可以合成更多自然语音。
表2:MOS评分标准
分数 语音质量 失真情况
5 很好 几乎感觉不到
4 感觉的到但不影响
3 一般 感觉的到有轻微影响
2 有影响但可以接受
1 很差 无法接受
表3:MOS主观评价
Figure BDA0003209462730000091
结果表明:通过采用Lip2Wav-Chemistry-Lectur等3个数据集,本发明提出的GlowLTS模型的客观评估结果和主观评价结果皆优于其它模型,证明了GlowLTS模型生成语音的优越性。

Claims (8)

1.一种基于并行流模型的快速唇动-语音对齐方法,其特征在于,包括如下步骤:
1)提取视频的语义特征,通过视觉编码器,提取包含明确语义信息的视觉特征向量;
2)将视觉特征向量的长度校准至对应音频内容的长度,引入步骤1)得到的包含明确语义信息的视觉特征向量,设计校准模块,得到与音频特征向量长度统一的校准视觉特征向量;
3)根据步骤2)得到的与音频特征向量长度统一的校准视觉特征向量,通过状态模块得到最终编码向量,其中状态模块包含一个堆叠的前馈转换器、一个标准化层和一个多头注意力层;
4)根据步骤3)得到的最终编码向量,通过流解码器解码生成语音音频,其中流解码器包含一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层;
5)在模型训练阶段,通过视觉编码器与状态模块、流解码器分部式训练的方法,完成模型训练。
2.根据权利要求1所述的基于并行流模型的快速唇动-语音对齐方法,其特征在于,所述步骤1)的具体内容为:
1.1)输入面部视频序列V={v1,v2,...vi...,vM},其中vi代表面部视频序列的第ith视频帧,批标准化后通过激活函数为relu函数的3D卷积神经网络,下采样视频帧得到一个D维向量fi,视频特征向量序列为F={f1,f2,...fi...,fM},其中
Figure FDA0003209462720000011
其中
Figure FDA0003209462720000012
为视频语义向量空间;
1.2)将步骤1.1)得到的视频特征向量序列一个双向LSTM网络,处理上下文信息,得到包含明确语义信息的视觉特征向量
Figure FDA0003209462720000013
3.根据权利要求2所述的基于并行流模型的快速唇动-语音对齐方法,其特征在于,所述步骤2)的具体内容为:
2.1)将步骤1.2)得到的包含明确语义信息的视觉特征向量
Figure FDA0003209462720000014
长度为M的视频特征向量通过校准模块,得到与音频特征向量长度统一的长度为N的校准视觉特征向量F′。
4.根据权利要求3所述的基于并行流模型的快速唇动-语音对齐方法,其特征在于,所述步骤2.1)中的校准视觉特征向量,具体内容为:
2.1.1)输入长度M的视频帧和长度为N的梅尔声谱,M<N,如果N可被M整除,校准结果为{N/M,N/M,...},如果N不可被M整除,取M与N的最大公约数K,将视频帧和音频帧分割为K组,每组的校准结果为:
Figure FDA0003209462720000021
Figure FDA0003209462720000022
其中,ali代表每组中梅尔声谱的帧数对应的第ith视频帧。
5.根据权利要求3所述的基于并行流模型的快速唇动-语音对齐方法,其特征在于,所述的步骤3)中通过状态模块得到最终编码向量,具体内容为:
3.1)根据步骤2.1)所得的校准视觉特征向量F′加入位置向量后传入一个堆叠的前馈转换器得到中间向量F′1,其中堆叠的前馈转换器依次由一个多头注意力层、一个标准化层、一个卷积层和一个标准化层连接组成;
3.2)根据步骤3.1)所得的中间向量F′1,传入一个全连接层将前馈转换器的输出线性映射至与梅尔声谱相同的通道数量的最终编码F′2
3.3)使用均方差损失函数
Figure FDA0003209462720000023
训练状态模块,均方差函数的表达式为
Figure FDA0003209462720000024
Figure FDA0003209462720000025
其中cond为条件模块的输出,mel为梅尔声谱的真实值。
6.根据权利要求5所述的基于并行流模型的快速唇动-语音对齐方法,其特征在于,所述步骤4)中的流解码器,具体内容为:
4.1)根据步骤3.2)所得的最终编码F′2传入流解码器解码生成语音音频,流解码器由一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层组成;
为方便对所述步骤4.1)进行简要说明,提出如下两种定义:(1)每个模块的输入和输出均由x和y表示,尺寸为t×c,其中t为时间维度、c为通道维度;(2)sum()代表对矩阵元素所有元素进行加和。
7.根据权利要求6所述的基于并行流模型的快速唇动-语音对齐方法,其特征在于,所述步骤4.1)的具体内容为:
4.1.1)将步骤3.2)所得的最终编码F′2作为输入传入压缩层,将80路的梅尔声谱帧分为按时间维度等分的两部分和将它们组成160路的特征图Wj
4.1.2)将步骤4.1.1)压缩层的输出作为标准执行层的输入传入逆卷积层,标准执行层对每路的规模s和偏差参数b进行仿射转化,在模型训练中,标准执行层进行的运算为y=s·x+b,在预测过程中,对应的逆变换为x=(y-b)/s,其中标准执行层的雅克比对数行列式由sum(log(|s|))×t计算而得,其中规模s和偏差参数b在第一批数据的初始化时应实现零均值和单位方差,在初始化后s与b可看作常规可训练参数;
4.1.3)将4.1.2)标准执行层的输出作为逆卷积层的输入,将输入的分为40组,并将训练过程的变换定义为:yi=Wxi,,其中W是一个
Figure FDA0003209462720000031
的矩阵,xi,yi为第ith组的输入与输出x,y,逆变换为xi=W-1yi,逆变换的雅克比对数行列式为40×log(|det(W)|)×t;
4.1.4)将4.1.3)逆卷积层的输出作为仿射层的输入,训练过程的正向变换为:
xa,xb=split(x),
(log sc,t)=func(xb,cond),
ya=sc·xa+t,
yb=xb
y=concat(ya,yb),
split和concat为向量运算,split运算将输入分为两部分,concat运算将输入进行结合,cond是步骤3)提到的状态模块的输出,在预测的过程中,逆变换运算为:
ya,yb=split(y),
xb=yb
(log sc,t)=func(xb,cond),
Figure FDA0003209462720000032
x=concat(xa,xb),
其中,func为建立残差链接和跳跃链接的门控tanh的非线性卷积函数,对应的雅克比对数行列式为sum(log(|sc|));
4.1.5)将4.1.4)仿射层的输出一次传回4.1.3)所述的逆卷积层、4.1.2)所述的逆卷积层,并将逆卷积层结果进行解压运算,将160路的特征图解压为按时间维度等分的两张80路的梅尔声谱,得到最后的梅尔声谱形状。
8.根据权利要求7所述的基于并行流模型的快速唇动-语音对齐方法,其特征在于,所述步骤5)中的分部式训练方法,具体内容为:
5.1)根据损失函数
Figure FDA0003209462720000033
仅对步骤1)和3)中提到的视觉编码器和状态模块进行训练;
5.2)根据步骤5.1)所得训练完成后的视觉编码器、状态模块生成粗粒度梅尔声谱传入步骤4)中提到的流解码器,通过损失函数
Figure FDA0003209462720000034
Figure FDA0003209462720000041
训练流解码器,其中,si为步骤4.1.2)所述的逆卷积层中第ith路的规模参数,ck为第步骤4.1.3)所述矩阵W的第cth行的第kth个参数,z表示训练过程的输出,Act表示标准执行模块,Couple表示仿射模块,Conv表示逆卷积层,t、c、sum的定义与步骤4.1)描述一致;
损失函数
Figure FDA0003209462720000042
的第一部分为球面高斯函数的对数似然,剩余部分为标准执行模块、仿射层与逆卷积层的雅克比对数行列式。
CN202110926508.4A 2021-08-12 2021-08-12 一种基于并行流模型的快速唇动-语音对齐方法 Active CN113852851B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110926508.4A CN113852851B (zh) 2021-08-12 2021-08-12 一种基于并行流模型的快速唇动-语音对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110926508.4A CN113852851B (zh) 2021-08-12 2021-08-12 一种基于并行流模型的快速唇动-语音对齐方法

Publications (2)

Publication Number Publication Date
CN113852851A CN113852851A (zh) 2021-12-28
CN113852851B true CN113852851B (zh) 2023-04-18

Family

ID=78975338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110926508.4A Active CN113852851B (zh) 2021-08-12 2021-08-12 一种基于并行流模型的快速唇动-语音对齐方法

Country Status (1)

Country Link
CN (1) CN113852851B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
CN108648745B (zh) * 2018-03-15 2020-09-01 上海电力学院 一种由唇部图像序列到语音编码参数的转换方法
US11010645B2 (en) * 2018-08-27 2021-05-18 TalkMeUp Interactive artificial intelligence analytical system
CN110111783A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于深度神经网络的多模态语音识别方法
CN111091824B (zh) * 2019-11-30 2022-10-04 华为技术有限公司 一种语音匹配方法及相关设备

Also Published As

Publication number Publication date
CN113852851A (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
CN110136693B (zh) 用于使用少量样本进行神经话音克隆的系统和方法
US11017761B2 (en) Parallel neural text-to-speech
Wang et al. Tacotron: Towards end-to-end speech synthesis
Saon et al. The IBM 2015 English conversational telephone speech recognition system
Zhang et al. Joint training framework for text-to-speech and voice conversion using multi-source tacotron and wavenet
Georgescu et al. Kaldi-based DNN architectures for speech recognition in Romanian
Huang et al. Voice conversion based on cross-domain features using variational auto encoders
Kameoka et al. Many-to-many voice transformer network
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
Liu et al. Delightfultts 2: End-to-end speech synthesis with adversarial vector-quantized auto-encoders
Niwa et al. Statistical voice conversion based on WaveNet
Kameoka et al. Nonparallel voice conversion with augmented classifier star generative adversarial networks
CN112669809A (zh) 并行神经文本到语音转换
Wu et al. Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations
CN115410550A (zh) 一种细粒度韵律可控的情感语音合成方法、系统及存储介质
Hu et al. Exploring self-supervised pre-trained asr models for dysarthric and elderly speech recognition
Lu et al. A compact framework for voice conversion using wavenet conditioned on phonetic posteriorgrams
Ishihara et al. Attention-Based Speaker Embeddings for One-Shot Voice Conversion.
Sadekova et al. A Unified System for Voice Cloning and Voice Conversion through Diffusion Probabilistic Modeling.
Wu et al. Deep Speech Synthesis from MRI-Based Articulatory Representations
Ramos Voice conversion with deep learning
Zhao et al. Research on voice cloning with a few samples
CN113852851B (zh) 一种基于并行流模型的快速唇动-语音对齐方法
CN113436607B (zh) 一种快速语音克隆方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant