CN116665705A - 基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法 - Google Patents
基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法 Download PDFInfo
- Publication number
- CN116665705A CN116665705A CN202310627760.4A CN202310627760A CN116665705A CN 116665705 A CN116665705 A CN 116665705A CN 202310627760 A CN202310627760 A CN 202310627760A CN 116665705 A CN116665705 A CN 116665705A
- Authority
- CN
- China
- Prior art keywords
- tone
- speaker
- language
- converter
- timbre
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000006243 chemical reaction Methods 0.000 claims abstract description 19
- 238000013508 migration Methods 0.000 claims abstract description 14
- 230000005012 migration Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 55
- DEXJVEPWTWVUNM-UHFFFAOYSA-N n-(4-aminophenyl)-2,2,2-trifluoroacetamide Chemical compound NC1=CC=C(NC(=O)C(F)(F)F)C=C1 DEXJVEPWTWVUNM-UHFFFAOYSA-N 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 7
- 230000000873 masking effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000003042 antagnostic effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007796 conventional method Methods 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000005654 stationary process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法,属于语音信号处理技术领域。本发明借助中英文等富资源语种,将柬埔寨说话人音色,转为中英文说话人音色。柬埔寨多说话人语料库稀缺,常规方法实现柬埔寨语说话人迁移性能不佳。使用中英富资源扩充数据面临着语言特征、说话人音色特征难解耦的问题,本发明使用中英富资源语料库扩增说话人音色数据,构建跨语言特征解耦器,实现柬埔寨说话人音色有效转换为中英说话人音色而不改变柬埔寨语的语音内容,实验结果显示,本发明方法合成音频达到了3.81的MOS评分。实现了说话人音色的有效解耦及可控迁移。
Description
技术领域
本发明涉及基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法,属于语音信号处理技术领域。
背景技术
说话人音色迁移任务,旨在不改变语言内容的情况下将源说话者的语音转为目标说话者的语音。这个任务可以从多个方向实现,例如语音合成(Text To Speech,TTS)和语音转换(Voice Conversion,VC),两者本质都是从语音中解耦说话人音色,使得音色和语音内容任意组合(Hsu et al.,2018)。合成不同音色的柬埔寨语音,对语音合成及识别等任务的数据增强具有重要的支撑作用,还有着较为广阔的实际应用,如智能语音个性化定制、电影和游戏的配音、在线教育和智能家居等。
在基于中、英等大语种的说话人音色迁移及语音转换方面,已经取得了不错的研究成果,性能也在不断提高。语音转换任务可以表述为从源语音到目标语音的映射函数的回归问题,早期在说话人迁移及语音转换使用基于统计学方法,包括频率弯折和高斯混合模型,随着深度学习(Deep Learning,DL)技术的快速发展,由于其强大的特征学习和非线性映射能力近年来转换性能得到了显著提高。然而柬埔寨多说话人语料库稀缺,常规方法实现柬埔寨语说话人音色迁移性能不佳。本发明使用语音转换的方法实现说话人音色迁移任务,预借助中英文等富资源语种扩充数据,将柬埔寨说话人音色,转为中英文说话人音色。
发明内容
本发明提供了基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法,以用于解决说话人音色特征难以解耦及音节丢失的问题、常规方法实现柬埔寨语说话人音色迁移性能不佳的问题。
本发明的技术方案是:基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法,所述基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法的具体步骤如下:
Step1、收集一位柬埔寨语说话人语音数据和多位中英文说话人语音数据;具体的收集整理了柬埔寨、中文和英文三个语种的音频数据,其中柬埔寨语语音,首先通过爬虫从柬埔寨新闻网站上爬取柬埔寨文本,并让母语为柬埔寨语的专家对文本进行数据标注,获取柬埔寨语语音;中文和英文数据使用开源数据集ESD;
本发明总共使用320条柬埔寨语女声数据,训练集和验证测试集的数量分别为300条和20条,总时长约1小时,由一位柬埔寨女性录制。其他语音使用公共数据集BZNSYP(中文女声)和ESD数数据集中的010(中文男声)、014(英文男声)、015(英文女声)和016(英文女声)五位说话人的语音数据。语音数据转为为.wav格式,全部采样为22050Hz。
Step2、对语音数据进行预处理,将语音数据转换为梅尔谱图,提取梅尔谱图,梅尔谱图作为输入经过音色转换器进行训练;
Step3、训练模型,模型有三个模块构成:音色转换器、音色判别器和语种分类器;音色判别器和语种分类器分别对语音中音色特征和语种特征进行相关建模,解耦语音中音色特征和语言说话人音色迁移中语种信息,与音色转换器同时进行训练;梅尔谱图作为模型的输入和输出,最终训练出音色转换器,能够将一个人音色的梅尔谱图转换为另一个人音色的梅尔谱图;
本发明最终要使用的模型仅有音色转换器,可音色转换器的训练,需要与音色判别器、语种分类器同时进行,因为仅使用音色转换器进行训练无法达到跨语言说话人音色解耦的目的,需要借GAN网络对抗训练的思想,结合音色判别器和语种分类器进行联合训练。
Step4、在步骤Step3的基础上,训练过程中,在音色转换器中融入时频域正则化模块,弥补不同语种在音色转换器中丢失的信息;
Step5、将经过音色转换器输出的梅尔谱图,用mel-gan声码器将谱图转换为音频。
作为本发明的进一步方案,所述Step2中,对语音信号进行频谱分析是语音转换处理中的一种重要方法,语音信号整体上是一个非平稳过程,故对语音数据进行预处理包括进行采样和量化处理,将连续的语音信号离散化,再通过短时傅里叶变换进行时频分解,通过梅尔滤波将音频转变为梅尔谱图,然后对梅尔谱图进行归一化处理,最后保存为.np文件,以供训练和测试使用。其中,梅尔谱图已经包含语音中的各种特征,包括语音的内容、语音的音色、语音的音调、语音的能量等;
作为本发明的进一步方案,所述Step2中,音色转换器具体用于将源说话人音色转换为目标说话人音色,梅尔谱图作为输入经过音色转换器进行训练包括:
(1)音色转换器训练时将输入的梅尔谱图首先使用掩码屏蔽一部分内容;因为进行转换的只有语音信号中的音色信息,而使用掩码可以让模型能够更好的学习到这种音色函数映射关系,推理时则不使用掩码,其输入输出都是梅尔谱图;
(2)先从源音频中提取音色特征,再将音频特征转换为目标音色特征,梅尔谱图作为输入经过音色转换器进行训练。
作为本发明的进一步方案,所述Step2中,音色转换器包括下采样模块和上采样模块;
所述下采样模块用于将高维梅尔谱图特征映射为低维进行特征的提取;上采样模块将低维特征映射为高维进行特征的转换。
作为本发明的进一步方案,所述Step3中的音色判别器,用于与音色转换器配合进行对抗训练,用于提取音频中音色特征,把语音特征从高维映射为低维进行特征提取,配合音色转换器,利用对抗训练的思想解耦说话人音色特征,在训练阶段利用下列方式进行训练:
式中X表示源说话人,Y表示目标说话人,x表示输入的源梅尔谱图,y表示目标说话人梅尔谱图且x∈X,y∈Y,表示训练X转Y的音色转换器和音色判别器的对抗损失,GX→Y表示由X音色转换为Y音色的音色转换器,DY表示目标说话人Y的音色判别器,/>和/>分别表示说话人Y和X的梅尔谱图服从某一个可学习的分布;最小化/>来训练音色判别器识别Y说话人音色的能力,最小化/>来训练音色转换器将X音色转为Y音色的能力。
作为本发明的进一步方案,所述Step3中的语种分类器,即跨语言特征解耦器,用对抗说话人语种分类器实现跨语言语音转换音色解耦,它与音色判别器和音色转换器共同训练,它包括五个卷积层,两个全连接层,一个softmax层以及梯度反转层;该语种分类器将音色转换器生成的目标说话人的梅尔谱图作为输入,通过卷积后将梅尔谱图从高位映射为低维,为了稳定训练,对梯度进行了裁剪,以最小化CE损失来对说话人的语言进行解耦,语种分类损失如下:
llan=CE(Clan(GX→Y),ylan) (2)
其中Clan表示对抗说话人语种分类器,GX→Y表示音色转换器,ylan表示说话人的语种,由于使用三个语种,因此ylan∈{0,1,2}。
作为本发明的进一步方案,所述Step4中,时频域正则化模块TFAN是音色转换器上采样中的子模块,这个模块是对IN的拓展,以调整输入梅尔谱图下采样后数据的权重和偏差,同时弥补在下采样后丢失的某些语音信息;对于已经经过下采样后的数据f,TFAN以类似于IN的方式对其进行正则化,然后使用权重系数γ(x)和偏差β(x)对数据进行调制,这两个系数都是使用CNN从输入的源梅尔谱图计算得出的;TFAN计算方式如下为:
其中,x表示输入的源梅尔谱图,f表示的是经过下采样后的数据,f′表示经过时频正则化模块输出的数据,μ(f)和σ(f)表示f的均值和方差;γ(x)和β(x)是由x经过卷积计算得到的权重系数和偏差。
本发明的有益效果是:
1、本发明使用GAN网络,构建跨语言特征解耦器,通过对抗学习最大化语言特征分类器误差项,达到柬埔寨语与中英多说话人数据集下说话人音色有效解耦及可控分离的目的;
2、由于柬埔寨语音节音调变化更丰富,导致转换出的语音质量低,甚至还会出现某些音节丢失的情况,极大影响了合成语音的流畅性与自然性,因此还在音色转换器中融入时频域正则化模块(time-frequency adaptive normalization,TFAN)防止转换语音中的信息丢失,实现柬埔寨说话人音色有效转换为中英说话人音色而不改变柬埔寨语的语音内容;
3、本发明借助中英文等富资源语种,将柬埔寨说话人音色,转为中英文说话人音色,使用中英富资源语料库扩增说话人音色数据,构建跨语言特征解耦器,实现柬埔寨说话人音色有效转换为中英说话人音色而不改变柬埔寨语的语音内容,实验结果显示,本发明方法合成音频达到了3.81的MOS评分;实现了说话人音色的有效解耦及可控迁移;
4、可以有效的提升跨语言说话人迁移性能,在音色转换器中加入TFAN可以有效弥补在下采样中丢失的语音说话人声纹信息和音节信息,利用跨语言特征解耦器,能够让模型从不同语种中学习到语言的差异,从而从语音中更好的解耦出内容、音色与语种特征,表明该方法的有效性,增强语音质量自然度和可理解性。
附图说明
图1为本发明中的流程图。
具体实施方式
实施例1:如图1所示,基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法,所述方法的具体步骤如下:
Step1、收集一位柬埔寨语说话人语音数据和多位中英文说话人语音数据;
本发明收集整理了柬埔寨、中文和英文三个语种的音频数据,其中柬埔寨语语音,首先通过爬虫从柬埔寨新闻网站上爬取柬埔寨文本,并让母语为柬埔寨语的专家对文本进行数据标注,获取柬埔寨语语音;中文和英文数据使用开源数据集ESD;
Step2、对收集到的数据进行数据集与测试集划分,比例为9:1,对语音数据全部采样为22050Hz,对语音数据进行采样和量化处理,将连续的语音信号离散化,再通过短时傅里叶变换进行时频分解,通过梅尔滤波将音频转变为梅尔谱图,然后对梅尔谱图进行归一化处理,最后保存为.np文件,以供训练和测试使用,梅尔谱图作为输入经过音色转换器进行训练;
音色转换器具体用于将源说话人音色转换为目标说话人音色,梅尔谱图作为输入经过音色转换器进行训练包括:
(1)音色转换器训练时将输入的梅尔谱图首先使用掩码屏蔽一部分内容;其中将需要训练的数据随机进行掩码,得到用于训练的数据测试数据则不进行掩码;
(2)先从源音频中提取音色特征,再将音频特征转换为目标音色特征,梅尔谱图作为输入经过音色转换器进行训练。
音色转换器包括下采样模块和上采样模块;音色转换器由下采样和上采样两个模块组成,这些模块都是由一系列卷积和池化模块构成,
所述下采样模块用于将高维梅尔谱图特征映射为低维进行特征的提取,这一步可以理解为音色特征的提取;上采样模块将低维特征映射为高维进行特征的转换。
Step3、训练模型,将可用于训练的梅尔谱图输入模型中进行训练,模型有三个模块构成:音色转换器、音色判别器和语种分类器;音色判别器和语种分类器分别对语音中音色特征和语种特征进行相关建模,解耦语音中音色特征和语言说话人音色迁移中语种信息,与音色转换器同时进行训练;梅尔谱图作为模型的输入和输出,最终训练出音色转换器,能够将一个人音色的梅尔谱图转换为另一个人音色的梅尔谱图;
训练音色转换器,需要与音色判别器配合进行对抗训练达到理想的效果。由于跨语言的音色转换任务中,不同语种之间发音存在差异,若仅使用音色转换器和音色判别器进行训练会出现音色特征难以解耦及音节丢失的问题,该方法在训练时增加语种分类器(跨语言特征解耦器)进一步解耦跨语言中的音色特征,并在原有模型中融入TFAN防止转换梅尔谱图的信息丢失。
所述Step3中的音色判别器,用于与音色转换器配合进行对抗训练,用于提取音频中音色特征,其结构是也是由一系列卷积和池化模块构成,与音色转换器不同的是,该模块仅把语音特征从高维映射为低维进行特征提取,配合音色转换器,利用对抗训练的思想解耦说话人音色特征,在训练阶段利用下列方式进行训练:
式中X表示源说话人,Y表示目标说话人,x表示输入的源梅尔谱图,y表示目标说话人梅尔谱图且x∈X,y∈Y,表示训练X转Y的音色转换器和音色判别器的对抗损失,GX→Y表示由X音色转换为Y音色的音色转换器,DY表示目标说话人Y的音色判别器,/>和/>分别表示说话人Y和X的梅尔谱图服从某一个可学习的分布;最小化/>来训练音色判别器识别Y说话人音色的能力,最小化/>来训练音色转换器将X音色转为Y音色的能力。
作为本发明的进一步方案,所述Step3中的语种分类器,即跨语言特征解耦器,用对抗说话人语种分类器实现跨语言语音转换音色解耦,它与音色判别器和音色转换器共同训练,它包括五个卷积层,两个全连接层,一个softmax层以及梯度反转层;该语种分类器将音色转换器生成的目标说话人的梅尔谱图作为输入,通过卷积后将梅尔谱图从高位映射为低维,为了稳定训练,对梯度进行了裁剪,以最小化CE损失来对说话人的语言进行解耦,语种分类损失如下:
llan=CE(Clan(GX→Y),ylan) (2)
其中Clan表示对抗说话人语种分类器,GX→Y表示音色转换器,ylan表示说话人的语种,由于使用三个语种,因此ylan∈{0,1,2}。为了避免其和音色判别器做同样的工作,所提到的语种分类器首先使用300条柬埔寨语单说话人数据和ESD数据集中10位说话人总共3000条中文语音和10位说话人总共3000条英文语音单独对语种分类器做预训练,训练整个模型时,将其学习率降低,进行微调。
Step4、在步骤Step3的基础上,训练过程中,在音色转换器上采样模块中融入时频域正则化模块,弥补不同语种在音色转换器中丢失的信息;结合步骤Step3,经过音色转换器输出的目标说话人梅尔谱图中分别输入到音色判别器与语种分类器中,用于对语音数据中的音色、内容和语种信息进行解耦,由此构造损失函数,共同训练,对网络权重进行调节;
所述Step4中,时频域正则化模块TFAN是音色转换器上采样中的子模块,这个模块是对IN(Instance normalization)的拓展,以调整输入梅尔谱图下采样后数据的权重和偏差,同时弥补在下采样后丢失的某些语音信息;对于已经经过下采样后的数据f,TFAN以类似于IN的方式对其进行正则化,然后使用权重系数γ(x)和偏差β(x)对数据进行调制,这两个系数都是使用CNN从输入的源梅尔谱图计算得出的;TFAN计算方式如下为:
其中,x表示输入的源梅尔谱图,f表示的是经过下采样后的数据,f′表示经过时频正则化模块输出的数据,μ(f)和σ(f)表示f的均值和方差;γ(x)和β(x)是由x经过卷积计算得到的权重系数和偏差。
Step5、音色转换器、音色判别器和语种分类器模块同时训练完成后,使用已经训练好的音色转换器,对测试数据进行验证,进行模型验证和使用时,仅需使用音色转换器,将测试数据进行同样的特征提取转为梅尔谱图后,输入到已经训练好的音色转换器中,此时会转为另一位说话人的梅尔谱图,将经过音色转换器输出的梅尔谱图通过mel-gan声码器将谱图转换回音频。mel-gan声码器是一个卷积神经网络模型,输入是梅尔谱图,输出是语音,该模型使用大量梅尔谱图-语音数据对训练后,已经开源成为一个可直接使用的工具。
为了说明本发明的效果,表1为使用本发明方法,对不同语种之间进行6组跨语言转换实验。
表2为只加入TFAN,只加入解耦器,和TFAN解耦器同时加入,对跨语言说话人迁移方法的影响。
表1使用不同说话人数据音色转换实验结果
表2:依次加入各个不同模块的对模型的最终实验结果柬(女)-中(女)
由表1和表2中的评测结果表明通过融入基于跨语言非平行语料库的语言特征解耦器(语种分类器)和TFAN的语音转换模型,在柬(女)-中(女)实验中,自然度与相似度评分分别达到了3.81和3.68,客观评分MCD和RMSE达到5.85和29.88。本发明所提出的方法,可以有效的提升跨语言说话人迁移性能,在音色转换器中加入TFAN可以有效弥补在下采样中丢失的语音说话人声纹信息和音节信息,利用跨语言特征解耦器,能够让模型从不同语种中学习到语言的差异,从而从语音中更好的解耦出内容、音色与语种特征,表明该方法的有效性,增强语音质量自然度和可理解性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法,其特征在于:所述基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法的具体步骤如下:
Step1、收集一位柬埔寨语说话人语音数据和多位中英文说话人语音数据;
Step2、对语音数据进行预处理,将语音数据转换为梅尔谱图,提取梅尔谱图,梅尔谱图作为输入经过音色转换器进行训练;
Step3、训练模型,模型有三个模块构成:音色转换器、音色判别器和语种分类器;音色判别器和语种分类器分别对语音中音色特征和语种特征进行相关建模,解耦语音中音色特征和语言说话人音色迁移中语种信息,与音色转换器同时进行训练;梅尔谱图作为模型的输入和输出,最终训练出音色转换器,能够将一个人音色的梅尔谱图转换为另一个人音色的梅尔谱图;
Step4、在步骤Step3的基础上,训练过程中,在音色转换器中融入时频域正则化模块,弥补不同语种在音色转换器中丢失的信息;
Step5、将经过音色转换器输出的梅尔谱图,用mel-gan声码器将谱图转换为音频。
2.根据权利要求1所述的基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法,其特征在于:所述Step2中,对语音数据进行预处理包括进行采样和量化处理,将连续的语音信号离散化,再通过短时傅里叶变换进行时频分解,通过梅尔滤波将音频转变为梅尔谱图,然后对梅尔谱图进行归一化处理,最后保存为.np文件。
3.根据权利要求1所述的基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法,其特征在于:所述Step2中,音色转换器具体用于将源说话人音色转换为目标说话人音色,梅尔谱图作为输入经过音色转换器进行训练包括:
(1)音色转换器训练时将输入的梅尔谱图首先使用掩码屏蔽一部分内容;
(2)先从源音频中提取音色特征,再将音频特征转换为目标音色特征,梅尔谱图作为输入经过音色转换器进行训练。
4.根据权利要求1所述的基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法,其特征在于:所述Step2中,音色转换器包括下采样模块和上采样模块;
所述下采样模块用于将高维梅尔谱图特征映射为低维进行特征的提取;上采样模块将低维特征映射为高维进行特征的转换。
5.根据权利要求1所述的基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法,其特征在于:所述Step3中的音色判别器,用于与音色转换器配合进行对抗训练,用于提取音频中音色特征,把语音特征从高维映射为低维进行特征提取,配合音色转换器,利用对抗训练的思想解耦说话人音色特征,在训练阶段利用下列方式进行训练:
式中X表示源说话人,Y表示目标说话人,x表示输入的源梅尔谱图,y表示目标说话人梅尔谱图且x∈X,y∈Y,表示训练X转Y的音色转换器和音色判别器的对抗损失,GX→Y表示由X音色转换为Y音色的音色转换器,DY表示目标说话人Y的音色判别器,/>和/>分别表示说话人Y和X的梅尔谱图服从某一个可学习的分布;最小化/>来训练音色判别器识别Y说话人音色的能力,最小化/>来训练音色转换器将X音色转为Y音色的能力。
6.根据权利要求1所述的基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法,其特征在于:所述Step3中的语种分类器,即跨语言特征解耦器,用对抗说话人语种分类器实现跨语言语音转换音色解耦,它与音色判别器和音色转换器共同训练,它包括五个卷积层,两个全连接层,一个softmax层以及梯度反转层;该语种分类器将音色转换器生成的目标说话人的梅尔谱图作为输入,通过卷积后将梅尔谱图从高位映射为低维,为了稳定训练,对梯度进行了裁剪,以最小化CE损失来对说话人的语言进行解耦,语种分类损失如下:
llan=CE(Clan(GX→Y),ylan) (2)
其中Clan表示对抗说话人语种分类器,GX→Y表示音色转换器,ylan表示说话人的语种,由于使用三个语种,因此ylan∈{0,1,2}。
7.根据权利要求1所述的基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法,其特征在于:所述Step4中,时频域正则化模块TFAN是音色转换器上采样中的子模块,这个模块是对IN的拓展,以调整输入梅尔谱图下采样后数据的权重和偏差,同时弥补在下采样后丢失的某些语音信息;对于已经经过下采样后的数据f,TFAN以类似于IN的方式对其进行正则化,然后使用权重系数γ(x)和偏差β(x)对数据进行调制,这两个系数都是使用CNN从输入的源梅尔谱图计算得出的;TFAN计算方式如下为:
其中,x表示输入的源梅尔谱图,f表示的是经过下采样后的数据,f′表示经过时频正则化模块输出的数据,μ(f)和σ(f)表示f的均值和方差;γ(x)和β(x)是由x经过卷积计算得到的权重系数和偏差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310627760.4A CN116665705A (zh) | 2023-05-31 | 2023-05-31 | 基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310627760.4A CN116665705A (zh) | 2023-05-31 | 2023-05-31 | 基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116665705A true CN116665705A (zh) | 2023-08-29 |
Family
ID=87711208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310627760.4A Pending CN116665705A (zh) | 2023-05-31 | 2023-05-31 | 基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665705A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117995209A (zh) * | 2024-03-28 | 2024-05-07 | 荣耀终端有限公司 | 一种语音转换方法及相关设备 |
-
2023
- 2023-05-31 CN CN202310627760.4A patent/CN116665705A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117995209A (zh) * | 2024-03-28 | 2024-05-07 | 荣耀终端有限公司 | 一种语音转换方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nwe et al. | Speech based emotion classification | |
CN101136199B (zh) | 语音数据处理方法和设备 | |
CN109119072A (zh) | 基于dnn-hmm的民航陆空通话声学模型构建方法 | |
CN102655003B (zh) | 基于声道调制信号mfcc的汉语语音情感点识别方法 | |
Rashmi | Review of algorithms and applications in speech recognition system | |
Hassine et al. | Tunisian dialect recognition based on hybrid techniques. | |
CN116665705A (zh) | 基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法 | |
Dawodi et al. | Dari speech classification using deep convolutional neural network | |
CN110136746B (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
Gao et al. | ToneNet: A CNN Model of Tone Classification of Mandarin Chinese. | |
Londhe et al. | Chhattisgarhi speech corpus for research and development in automatic speech recognition | |
Soliman et al. | Isolated word speech recognition using convolutional neural network | |
CN110390929A (zh) | 基于cdnn-hmm的中英文民航陆空通话声学模型构建方法 | |
Alrehaili et al. | Arabic speech dialect classification using deep learning | |
Farooq et al. | Mispronunciation detection in articulation points of Arabic letters using machine learning | |
CN116682463A (zh) | 一种多模态情感识别方法及系统 | |
Tan et al. | Denoised senone i-vectors for robust speaker verification | |
Sekkate et al. | A feature level fusion scheme for robust speaker identification | |
CN115359778A (zh) | 基于说话人情感语音合成模型的对抗与元学习方法 | |
Qadir et al. | Isolated spoken word recognition using one-dimensional convolutional neural network | |
Asakawa et al. | Automatic recognition of connected vowels only using speaker-invariant representation of speech dynamics. | |
CN111681674A (zh) | 一种基于朴素贝叶斯模型的乐器种类识别方法和系统 | |
Satla et al. | Dialect Identification in Telugu Language Speech Utterance Using Modified Features with Deep Neural Network. | |
Lleida et al. | Speaker and language recognition and characterization: introduction to the CSL special issue | |
Kamarudin et al. | Analysis on Mel frequency cepstral coefficients and linear predictive cepstral coefficients as feature extraction on automatic accents identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |