CN114464159A - 一种基于半流模型的声码器语音合成方法 - Google Patents
一种基于半流模型的声码器语音合成方法 Download PDFInfo
- Publication number
- CN114464159A CN114464159A CN202210054963.4A CN202210054963A CN114464159A CN 114464159 A CN114464159 A CN 114464159A CN 202210054963 A CN202210054963 A CN 202210054963A CN 114464159 A CN114464159 A CN 114464159A
- Authority
- CN
- China
- Prior art keywords
- flow
- model
- layer
- stream
- vocoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 33
- 238000001228 spectrum Methods 0.000 claims description 28
- 238000012360 testing method Methods 0.000 claims description 24
- 238000007781 pre-processing Methods 0.000 claims description 20
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 17
- 238000003786 synthesis reaction Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 8
- 230000000052 comparative effect Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 108091006146 Channels Proteins 0.000 description 2
- 235000011034 Rubus glaucus Nutrition 0.000 description 2
- 235000009122 Rubus idaeus Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 240000007651 Rubus glaucus Species 0.000 description 1
- 244000235659 Rubus idaeus Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 229920002803 thermoplastic polyurethane Polymers 0.000 description 1
- 238000006257 total synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种基于半流模型的声码器语音合成方法,包括:获取待合成的原始音频数据,并载入预先构建并训练好的基于半流模型的声码器中,获取合成的语音波形;所述基于半流模型的声码器包括基于半流的基本模型,该基于半流的基本模型包括多个依次拼接的Flow层,每个Flow层均包括依次连接的半流模型层和卷积网络层,所述半流模型层由自回归流算法和规范化流算法结合构成。与现有技术相比,本发明能够在一定程度上提高合成语音的质量,同时加快合成语音的速度和训练时的收敛速度,并减少一定的计算资源。
Description
技术领域
本发明涉及语音合成技术领域,尤其是涉及一种基于半流模型的声码器语音合成方法。
背景技术
随着人类与机器的语音交互日益频繁,如何高效率的合成高质量语音越来越得到人们的重视。语音质量或延迟的微小变化对用户体验有着极大影响。然而,高质量的实时语音合成仍然是一项具有挑战性的任务。语音合成需要生成具有高度长期依赖性的高维音频样本。人类对音频样本中的这种依赖型是十分敏感的。除了质量挑战之外,实时语音合成还面临着生成速度和计算资源受限等诸多问题。当音频采样率小于16kHz时,感知语音质量会发生显著下降,更高的采样率会产生更高质量的语音。然而大多数情况下用户要求合成速率比16kHz快得多的音频。例如,在远程服务器上合成语音时,严格的交互性要求意味着必须以远远超过实时要求的采样率快速合成语音。
目前,最先进的语音合成模型都是基于神经网络的。文本到语音合成通常分为两个步骤:第一步将文本转换为时间对齐的特征,如梅尔谱图、F0特征或其他语言特征。第二步则是将这些时间对齐的特征转换为音频样本。在第二步中所使用的神经网络模型通常被称为声码器,在计算上具有挑战性,对合成语音的质量也有很大影响。目前大多数基于神经网络的声码器都是自回归的,这意味着它们将未来的音频样本置于以前的样本之上,以建立长期相关性模型。这些方法的实现和训练都相对简单。然而,它们本质上是串行的,因此不能充分利用GPU或TPU等并行处理器。这种自回归模型通常难以在不牺牲合成音频质量的情况下以超过16kHz的速度进行语音合成。
因此相关的替代技术被研发了出来。目前,有三种基于神经网络的模型可以以非自回归的方法合成语音:并行WaveNet、Clarinet以及用于谱图反演的MCNN。这些技术可以在GPU上以超过500kHz的速度合成音频。然而,这些模型相比自回归模型更难以训练和实现。同时这三种方法都需要复合损耗功能来改善音频质量或解决模式崩溃问题。此外,并行WaveNet和Clarinet需要两个网络:一个学生网络和一个教师网络。它们的学生网络使用逆自回归流。虽然逆自回归流网络可以在推理时并行运行,但其本身的自回归特性使得模型的计算效率低下。为了克服这一缺点,这些网络使用教师网络来训练学生网络,使其合成的语音具有很高的真实性。但是这些方法很难复制和部署,因为在训练时它们很难达到收敛。
在之后的研究中人们逐渐采用基于流的模型来构建声码器,基于流的模型在RealNVP和Glow中提出来,可以用于图像生成、语音合成等生成式任务。WaveGlow最早将基于流的模型应用在语音合成任务当中,它易于实现和训练,仅使用单个网络和似然损失函数进行训练。此外该模型可以在不损失音频质量的情况下在NVIDIA V100 GPU上以超过500kHz的频率合成语音。但是该模型参数量较大,因此需要大量的计算资源,同时在训练时收敛缓慢,需要大量的时间才能达到收敛。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于半流模型的声码器语音合成方法,其解决了传统流模型计算能力不足,传统基于流的声码器收敛速度慢、模型参数较多、合成速度较慢以及生成质量欠佳的缺点,满足实际语音合成应用对神经声码器的要求。
本发明的目的可以通过以下技术方案来实现:
一种基于半流模型的声码器语音合成方法,包括:获取待合成的原始音频数据,并载入预先构建并训练好的基于半流模型的声码器中,获取合成的语音波形;
所述基于半流模型的声码器包括基于半流的基本模型,该基于半流的基本模型包括多个依次拼接的Flow层,每个Flow层均包括依次连接的半流模型层和卷积网络层,所述半流模型层由自回归流算法和规范化流算法结合构成。
进一步地,所述半流模型层中高维输入向量x和高维输入向量y之间的映射关系为:
x=(x1,x2),y0=0
(s1,t1)=g(m(x1,y0))
y1=s1⊙x1+t1
(s2,t2)=g(m(x2,y1))
y2=s2⊙x2+t2
y=(y1,y2)
式中,x1和x2代表了x的前后两半部分,y0为常向量0,g和m为函数或者神经网络,m和g可以是任意变换,s1,s2,u1,u2为仿射因子,⊙代表哈达玛积,y1和y2代表了y的前后两半部分。
进一步地,四个所述Flow层构成一个Scale层,所述基于半流的基本模型包括多个Scale层,Scale层选取一半维度的向量直接作为输出、另一半输入到下一个Scale层。
进一步地,所述Flow层的数量为12个,所述卷积网络层为1×1卷积网络。
进一步地,所述基于半流模型的声码器的训练过程包括:
在基于半流的基本模型前设置预处理模块,该预处理模块用于将输入的音频数据转换为梅尔频谱;
获取训练集和测试集,将所述训练集载入基于半流的基本模型中,通过所述预处理模块转换为梅尔频谱,然后经过所述基于半流的基本模型合成语音波形,从而进行模型训练;
将训练后的基于半流的基本模型逆置,将测试集中的数据转换为梅尔频谱,然后载入逆置后的基于半流的基本模型中还原为语音波形,从而评估合成的语音的质量,用于判断所述基于半流的基本模型是否训练完成。
进一步地,所述预处理模块包括傅里叶变换子模块,该傅里叶变换子模块采用短时傅里叶变换将音频数据转换为梅尔频谱。
进一步地,所述预处理模块还包括预加重子模块,该预加重子模块用于对音频的高频部分能量进行加重,所述预加重子模块的输出端接入所述傅里叶变换子模块;
所述预加重子模块的处理表达式为:
y(n)=x(n)-αy(n-1)
式中,x(n)为原始音频的第n个采样点,y(n)为预加重后的音频的第n个采样点,α为预加重系数,α的取值在0.9到1.0之间。
进一步地,进行模型训练过程中的损失函数为:
式中,y为模型训练时的输入数据,x(y)为模型训练时从y到x的函数,σ2为高斯分布的假设方差,#coupling为模型所包含的半流层数,sj1为第j层半流中的第一个仿射因子,sj2为第j层半流中的第二个仿射因子,#conv为模型所包含的1×1卷积网络数,Wk为第k层1×1卷积网络的权重矩阵。
进一步地,合成语音质量的评估指标包括PESQ、MOS、STOI和MCD中的一个或多个。
进一步地,所述训练集和测试集中的数据均从语音合成数据集中获取,该语音合成数据集包括LibriSpeech、AiShell-3、CSMSC和LJSpeech中的一个或多个。
与现有技术相比,本发明具有以下优点:
(1)本发明提出了结合规范化流和自回归流优点的半流模型,在半流中后半部分输出与前半部分输出和输入都关联了起来,同时前半部分输出也通过前半部分输入进行仿射变换而得到,从而提高了模型的计算性能;使用基于半流的深度神经网络模型对说话人的声音特征进行建模,从而将相应的梅尔频谱还原为近似于人类真实声音的语音波形。本方法能够在一定程度上提高合成语音的质量,同时加快合成语音的速度和训练时的收敛速度,并减少一定的计算资源。
(2)本发明基于半流的基本模型中,由四个Flow层构成一个Scale层,包括多个Scale层,Scale层选取一半维度的向量直接作为输出、另一半输入到下一个Scale层;多尺度架构可以及早的提取相关特征,并提升模型的计算效率。
附图说明
图1为本发明实施例中提供的一种基于半流模型的声码器语音合成方法的算法流程图;
图2为本发明实施例中提供的一种基于半流模型的声码器语音合成方法的模型架构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
实施例1
本实施例提供一种基于半流模型的声码器语音合成方法,包括:获取待合成的原始音频数据,并载入预先构建并训练好的基于半流模型的声码器中,获取合成的语音波形;
基于半流模型的声码器包括基于半流的基本模型,该基于半流的基本模型包括多个依次拼接的Flow层,每个Flow层均包括依次连接的半流模型层和卷积网络层,半流模型层由自回归流算法和规范化流算法结合构成。
基于半流模型的声码器的训练过程包括:
在基于半流的基本模型前设置预处理模块,该预处理模块用于将输入的音频数据转换为梅尔频谱;
获取训练集和测试集,将训练集载入基于半流的基本模型中,通过预处理模块转换为梅尔频谱,然后经过基于半流的基本模型合成语音波形,从而进行模型训练;
将训练后的基于半流的基本模型逆置,将测试集中的数据转换为梅尔频谱,然后载入逆置后的基于半流的基本模型中还原为语音波形,从而评估合成的语音的质量,用于判断基于半流的基本模型是否训练完成。
下面对本实施例中的模型构建、训练和测试过程进行具体描述。
(1)将自回归流算法FAR和规范化流算法FNorm结合起来,得到半流模型FSemi,使之兼具自回归流的高计算性能和规范化流的简便性:
(1-1)在自回归流算法FAR中,高维输入向量x通过自回归变换得到高维输出向量y,二者之间的映射关系如下所示:
x=(x1,x2,x3...xi...
(si,ui)=g(x1:-1)
yi=sixi+ui
y=(y1,y2,y3...yi...
其中xi和yi分别代表了x和y的第i个元素,g可以为任意函数或者神经网络,用于计算si和ui这两个仿射因子。不难看出在自回归流中第i个输出元素与前i-1个输入元素有关。类似的如果使第i个输出元素与前i-1个输出元素有关,便可得到逆自回归流算法FIAR,此时仿射因子的计算方式改变为(si,ui)=g(y1:i-1);
(1-2)在规范化流算法FNorm中,高维输入向量x和高维输入向量y之间的映射关系如下所示:
x=(x1,x2)
y1=x1
(s,u)=g(x1)
y2=s⊙x2+u
y=(y1,y2)
其中x1和x2代表了x的前后两半部分,y1和y2代表了y的前后两半部分,g可以为任意函数或者神经网络,用于计算s和u这两个仿射因子,⊙代表哈达玛积。输入的前半部分直接作为输出,后半部分输入则通过仿射变换得到另一部分输出。这种结构也称作仿射耦合层;
(1-3)通过结合(逆)自回归流和规范化流算法得到半流算法FSemi,在Fsemi中高维输入向量x和高维输入向量y之间的映射关系如下所示:
x=(x1,x2),y0=0
(s1,t1)=g(m(x1,y0))
y1=s1⊙x1+t1
(s2,t2)=g(m(x2,y1))
y2=s2⊙x2+t2
y=(y1,y2)
其中x1和x2代表了x的前后两半部分,y0为常向量0,m和g可以是任意变换,s1,s2,u1,u2为仿射因子,⊙代表哈达玛积,y1和y2代表了y的前后两半部分。在半流中后半部分输出与前半部分输出和输入都关联了起来,同时前半部分输出也通过前半部分输入进行仿射变换而得到,从而提高了模型的计算性能。
(2)半流算法可以作为神经网络中单独的一个网络层,通过将其与1×1卷积网络层结合起来,可以得到基于半流的声码器的基本模型:
(2-1)在基于半流的声码器中,为了提升计算效率,m被定义为简单的加法变换,g被定义为类似于WaveNet的神经网络,其隐藏层数为8,通道大小为128,卷积核大小为3,其计算公式如下:
z=tanh(Wf,k*x)⊙σ(Wg,k*x)
其中x和z分别代表该网络层的输入和输出,*代表卷积操作,⊙代表哈达玛积,σ代表sigmoid函数,k是层数索引,f和g代表滤波器和门,W是可学习的卷积滤波器。半流中的仿射因子通过此式而得到;
(2-2)基于半流的声码器的基本模型由12个Flow层组成,在每个Flow层中包含一个半流算法层和一个1×1卷积网络层,且卷积网络层在半流算法层之后。卷积网络层用于打乱中间过程向量的通道顺序;
(2-3)四个Flow层为一组构成一个Scale层,同一个Scale层中的Flow层具有相同的结构,不同Scale层以多尺度架构结合起来。多尺度架构可以及早的提取相关特征,并提升模型的计算效率;
表1
(2-4)总共包含三个Scale层,在第一个Scale层中输入以及中间过程的向量的维度为12,之后每经过一个Scale层选取一半维度的向量直接作为输出,另一半输入到下一个Scale层。即第一个Scale层中的向量维度为12,第二个Scale层中的向量维度为6,第三个Scale层中的向量维度为4,如表1所示。
(3)在基于半流的声码器的基本模型前添加预处理模块,可以得到基于半流的声码器。预处理模块共包含预加重和傅里叶变换两部分:
(3-1)在训练音频输入基于半流的声码器后,首先会通过预加重模块。在该模块中,音频的高频部分能量会得到加重,采用差分方程进行处理:
y(n)=x(n)-αy(n-1)
其中x(n)代表原始音频的第n个采样点,y(n)代表预加重后的音频的第n个采样点,α为预加重系数,可取值在0.9到1.0之间,优选值为0.95。预加重模块可以提升模型合成音频的质量;
(3-2)在预加重后,音频首先会通过窗口大小为1024、帧移为256、滤波器数目为1024的傅里叶变换转换成声谱图。然后这些通过声谱图与80个梅尔滤波器点乘得到梅尔频谱。梅尔频谱是在梅尔标度下的谱图,梅尔标度与赫兹的转换公式为:
(4)预处理模块和基于半流的声码器的基本模型共同构成基于半流的声码器,在训练模型时预处理模块得到使用,在生成音频时不使用预处理模块,直接使用训练好的基于半流的声码器的基本模型来生成音频:
(4-1)在训练基于半流的声码器时首先需要对已有的数据集进行处理。选取CSMSC中文标准女声语音库数据作为训练的基本数据库,由其组成45组小样本数据集。每组数据集均包含一个训练集和一个测试集,每组训练集包含50个从CSMSC中随机抽取的音频数据,总时长约5分钟左右,每组测试集包含5000个从CSMSC中随机抽取的音频数据。不同小样本的训练集所包含的音频互不重复,每个训练集内的音频只出现该训练集之中;
(4-2)在训练基于半流的声码器时需要使用45组小样本数据集训练45组模型,对于每组训练,在训练时batch大小设置为6,迭代次数为3000。初始学习率设置为4e-4,之后采用自适应调整学习率策略,每1000次迭代后学习率减少为原来的四分之一;
(4-3)在训练时基于半流的声码器会将训练数据集中的音频转换为梅尔频谱,初始输入的音频采样率为22050Hz,在输入模型后,每个音频会被截为固定长度的向量,段长可取不超过音频长度的任意值,优选值为16384。接下来音频会被输入到预处理模块,得到预处理后的输入向量,然后该向量会被输入到神经网络模型之中;
(4-4)在训练时预处理后的输入向量x′和输出向量y的似然函数关系为:
其中pθ代表了概率密度,J代表雅可比行列式fi代表模型中的第i层网络。通过求极大似然或者最小化负似然对数来训练神经网络。
在训练时假设y服从零均值球面高斯分布,即
对于半流层,其雅可比行列式s1和s2的绝对值有关,其如下所示:
对于1×1卷积网络层,其计算公式为:
其中W代表权重矩阵,因此1×1卷积网络层的雅可比行列式仅与W有关,如下所示:
综上,基于半流的声码器的似然函数为:
式中,y为模型训练时的输入数据,x(y)为模型训练时从y到x的函数,σ2为高斯分布的假设方差,#coupling为模型所包含的半流层数,sj1为第j层半流中的第一个仿射因子,sj2为第j层半流中的第二个仿射因子,#conv为模型所包含的1×1卷积网络数,Wk为第k层1×1卷积网络的权重矩阵。
此函数可作为训练时的损失函数;
(4-5)在测试基于半流的声码器时测试音频的梅尔频谱被还原为语音波形,并测量合成音频的MOS值以评估质量。
(4-5-1)采用(3-2)中所述的方法将测试集中的音频转换为梅尔频谱;
(4-5-2)由于基于半流的声码器中的每一层网络都是可逆的,因此对于45组数据集中的每组数据集,在测试时每个训练好的模型都会被逆置,并将由测试集转换得到的梅尔频谱输入,从而将其还原为语音波形;
使用短时傅里叶变换将45组小样本数据集的测试集转换为80维度的梅尔频谱,采样率为22050Hz,滤波器长度为1024,窗口大小为1024。然后使用训练好的模型将生成的梅尔频谱还原为波形以进行测试,并使用评估指标对结果进行打分。可选的评估指标有PESQ、MOS、STOI、MCD,优选MOS,即平均主观意见分。MOS可由人工或者神经网络评价得到,神经网络包含MOSNet、MTL-MOSNet等(4-5-3)MOS值为平均主观意见分,通常用于评估语音质量,由人工进行打分。MOSNet是一种可以自动测量MOS值的深度神经网络,可以解决传统MOS评估方法耗费人力以及时间资源的问题。使用预训练好的MOSNet评估所合成的语音MOS值。
以下通过具体实验对本发明进一步说明:
实验条件与评分标准:本实验采用中文标准女声音库Chinese StandardMandarin Speech Copus,表2列举了这个数据库的主要信息。测量指标主要有音频质量、合成速度以及收敛速度。音频质量采用Mean Opinion Score(MOS)即平均主观意见分来测量,取值范围在0-5,分数越高质量越好。合成速度采用samples/s来测量,即每秒所能合成的样本数。收敛速度采用达到收敛所需的迭代数来测量,当相邻样本间的变化率小于一定阈值时则代表模型已经收敛。
表2数据库主要信息
实验1:评估合成音频的质量。在本实验中首先使用45组数据集训练了45个基于半流的模型,然后分别为每组数据集的测试集合成了相应的音频。接下来使用MOSNet对每个音频评估其MOS值,然后使用95%的置信区间来展示音频质量。作为对比试验,自回归流模型和规范化流模型作为了对比模型,此外基准音频也在结果中进行了展示。实验结果如表3所示。可以看见基于半流的模型具有最高的MOS值。
表3音频质量评估
Model | MOS |
Ground Truth | 3.754±0.007 |
F<sub>Norm</sub> | 3.324±0.001 |
F<sub>AR</sub> | 2.785±0.001 |
F<sub>Semi</sub> | 3.416±0.001 |
实验2:音频合成速度评估。采用实验1中训练的45个模型中的第一个模型进行测试,合成第一个数据集中的5000个测试样本,并记下所需的总时间。然后使用“音频总时长×采样率/合成总时长”来计算每秒所合成的样本数。本实验分别在具有一块2080Ti的工作站上和树莓派4b上进行。作为对比试验,自回归流模型和规范化流模型作为了对比模型。实验结果如表4所示。可以看见在两个设备上基于半流的模型均具有最快的合成速度值。
表4音频合成速度评估
Model | Workstation | Raspberry pi 4B |
F<sub>Norm</sub> | 405k | 4.4k |
F<sub>AR</sub> | 139k | failed |
F<sub>Semi</sub> | 522k | 5.1k |
实验3:评估模型的收敛速度。采用实验1中训练的45个模型中的第一个模型进行测试,记录训练过程中loss的变化曲线,并计算相邻点的loss变化率。当变化率小于阈值时则认为该模型已经收敛。作为对比试验,自回归流模型和规范化流模型作为了对比模型。实验结果如表5所示。可以看见基于半流的模型均具有最快的收敛速度。
表5音频合成速度评估
Model | Step |
F<sub>Norm</sub> | 7778 |
F<sub>AR</sub> | 3826 |
F<sub>Semi</sub> | 3700 |
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于半流模型的声码器语音合成方法,其特征在于,包括:获取待合成的原始音频数据,并载入预先构建并训练好的基于半流模型的声码器中,获取合成的语音波形;
所述基于半流模型的声码器包括基于半流的基本模型,该基于半流的基本模型包括多个依次拼接的Flow层,每个Flow层均包括依次连接的半流模型层和卷积网络层,所述半流模型层由自回归流算法和规范化流算法结合构成。
2.根据权利要求1所述的一种基于半流模型的声码器语音合成方法,其特征在于,所述半流模型层中高维输入向量x和高维输入向量y之间的映射关系为:
x=(x1,x2),y0=0
(s1,t1)=g(m(x1,y0))
y1=s1⊙x1+t1
(s2,t2)=g(m(x2,y1))
y2=s2⊙x2+t2
y=(y1,y2)
式中,x1和x2代表了x的前后两半部分,y0为常向量0,g和m为函数或者神经网络,m和g可以是任意变换,s1,s2,u1,u2为仿射因子,⊙代表哈达玛积,y1和y2代表了y的前后两半部分。
3.根据权利要求1所述的一种基于半流模型的声码器语音合成方法,其特征在于,四个所述Flow层构成一个Scale层,所述基于半流的基本模型包括多个Scale层,Scale层选取一半维度的向量直接作为输出、另一半输入到下一个Scale层。
4.根据权利要求3所述的一种基于半流模型的声码器语音合成方法,其特征在于,所述Flow层的数量为12个,所述卷积网络层为1×1卷积网络。
5.根据权利要求1所述的一种基于半流模型的声码器语音合成方法,其特征在于,所述基于半流模型的声码器的训练过程包括:
在基于半流的基本模型前设置预处理模块,该预处理模块用于将输入的音频数据转换为梅尔频谱;
获取训练集和测试集,将所述训练集载入基于半流的基本模型中,通过所述预处理模块转换为梅尔频谱,然后经过所述基于半流的基本模型合成语音波形,从而进行模型训练;
将训练后的基于半流的基本模型逆置,将测试集中的数据转换为梅尔频谱,然后载入逆置后的基于半流的基本模型中还原为语音波形,从而评估合成的语音的质量,用于判断所述基于半流的基本模型是否训练完成。
6.根据权利要求5所述的一种基于半流模型的声码器语音合成方法,其特征在于,所述预处理模块包括傅里叶变换子模块,该傅里叶变换子模块采用短时傅里叶变换将音频数据转换为梅尔频谱。
7.根据权利要求6所述的一种基于半流模型的声码器语音合成方法,其特征在于,所述预处理模块还包括预加重子模块,该预加重子模块用于对音频的高频部分能量进行加重,所述预加重子模块的输出端接入所述傅里叶变换子模块;
所述预加重子模块的处理表达式为:
y(n)=x(n)-αy(n-1)
式中,x(n)为原始音频的第n个采样点,y(n)为预加重后的音频的第n个采样点,α为预加重系数,α的取值在0.9到1.0之间。
9.根据权利要求5所述的一种基于半流模型的声码器语音合成方法,其特征在于,合成语音质量的评估指标包括PESQ、MOS、STOI和MCD中的一个或多个。
10.根据权利要求5所述的一种基于半流模型的声码器语音合成方法,其特征在于,所述训练集和测试集中的数据均从语音合成数据集中获取,该语音合成数据集包括LibriSpeech、AiShell-3、CSMSC和LJSpeech中的一个或多个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210054963.4A CN114464159A (zh) | 2022-01-18 | 2022-01-18 | 一种基于半流模型的声码器语音合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210054963.4A CN114464159A (zh) | 2022-01-18 | 2022-01-18 | 一种基于半流模型的声码器语音合成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114464159A true CN114464159A (zh) | 2022-05-10 |
Family
ID=81409502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210054963.4A Pending CN114464159A (zh) | 2022-01-18 | 2022-01-18 | 一种基于半流模型的声码器语音合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114464159A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115205650A (zh) * | 2022-09-15 | 2022-10-18 | 成都考拉悠然科技有限公司 | 基于多尺度标准化流的无监督异常定位与检测方法及装置 |
-
2022
- 2022-01-18 CN CN202210054963.4A patent/CN114464159A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115205650A (zh) * | 2022-09-15 | 2022-10-18 | 成都考拉悠然科技有限公司 | 基于多尺度标准化流的无监督异常定位与检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
Kaneko et al. | Generative adversarial network-based postfilter for statistical parametric speech synthesis | |
Wu et al. | Conditional restricted boltzmann machine for voice conversion | |
CN111798874A (zh) | 一种语音情绪识别方法及系统 | |
Paul et al. | Enhancing speech intelligibility in text-to-speech synthesis using speaking style conversion | |
CN110047501B (zh) | 基于beta-VAE的多对多语音转换方法 | |
CN114141238A (zh) | 一种融合Transformer和U-net网络的语音增强方法 | |
CN114242044B (zh) | 语音质量评估方法、语音质量评估模型训练方法及装置 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN110827857A (zh) | 基于谱特征和elm的语音情感识别方法 | |
CN103456302A (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
Song et al. | Improved Parallel WaveGAN vocoder with perceptually weighted spectrogram loss | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
Jindal et al. | SpeechMix-Augmenting Deep Sound Recognition Using Hidden Space Interpolations. | |
CN113539293A (zh) | 基于卷积神经网络和联合优化的单通道语音分离方法 | |
Cheng et al. | DNN-based speech enhancement with self-attention on feature dimension | |
Sadeghi et al. | Optimal MFCC features extraction by differential evolution algorithm for speaker recognition | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
CN111326170A (zh) | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 | |
Wu et al. | The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge. | |
CN114464159A (zh) | 一种基于半流模型的声码器语音合成方法 | |
Fan et al. | The impact of student learning aids on deep learning and mobile platform on learning behavior | |
Nasrun et al. | Human emotion detection with speech recognition using Mel-frequency cepstral coefficient and support vector machine | |
Monteiro et al. | On the performance of time-pooling strategies for end-to-end spoken language identification | |
Ai et al. | Denoising-and-dereverberation hierarchical neural vocoder for statistical parametric speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |