CN113611309A - 一种音色转换方法、装置、电子设备及可读存储介质 - Google Patents
一种音色转换方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113611309A CN113611309A CN202110790316.5A CN202110790316A CN113611309A CN 113611309 A CN113611309 A CN 113611309A CN 202110790316 A CN202110790316 A CN 202110790316A CN 113611309 A CN113611309 A CN 113611309A
- Authority
- CN
- China
- Prior art keywords
- parameter
- parameters
- voice
- tone conversion
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 156
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000001228 spectrum Methods 0.000 claims abstract description 99
- 238000012545 processing Methods 0.000 claims abstract description 65
- 230000007246 mechanism Effects 0.000 claims abstract description 64
- 230000008569 process Effects 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 49
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000005315 distribution function Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 8
- 238000012549 training Methods 0.000 description 19
- 238000000605 extraction Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 229920001451 polypropylene glycol Polymers 0.000 description 9
- 230000000737 periodic effect Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种音色转换方法、装置、电子设备及可读存储介质,涉及音频处理技术领域。其中,所述方法包括:提取待转换语音的输入谱参数;基于所述输入谱参数,确定第一语音文本参数;基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数;基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数;基于所述输出谱参数,得到音色转换后的目标语音。通过在变分自编码处理获得语音声音参数的过程中,加入注意力机制处理,可以提升VAE模型克服音频波动的鲁棒性,从而进一步提升音色转换模型对误识别的纠错和容错,保证音色转换的转换效果,提高音色转换的可靠性。
Description
技术领域
本申请属于音频处理技术领域,具体涉及一种音色转换方法、装置、电子设备及可读存储介质。
背景技术
近年来,作为音频处理技术领域的一个分支的音色转换发展迅速。
音色转换(Voice Conversion)指的是将一个人语音的声线音色进行转换,而对其语音内容保持不变。
目前,传统的音色转换方案是基于语音识别因素后验概率的符合系统方案,也即是通过引入语音识别,实现“任意对一”的灵活转换和高自然度的发音效果。因此,转换效果依赖于语音识别的准确率,语音识别作为音色转换方案中转换模型的特征提取器,在训练阶段和使用阶段都是音色转换模型的上游输入,决定着输入数据流的质量,任何的识别错误到会传递到最终结果。
最常见的识别错误可以包括:汉语中平舌和翘舌之前的混淆(例如“sh”和“s”)或者声调错误,或者出现完全错误的字。在使用阶段,对输入的待转换语音,语音识别阶段的任何识别错误,在音色转换后一定也是错误的;在训练阶段,语音识别阶段的错误识别直接影响最终的训练结果,导致音色转换方案损害了音色转换的转换效果,降低了音色转换的可靠性。
现有通过在音色转换阶段引入变分自编码器(Variational Autoencoder,VAE),以让音色转换模型对上游的语音识别错误具有一定的容错/纠错能力的方式,虽然能够在一定程度上提升音色转换模型对上游的语音识别错误的容错/纠错能力,但由于真实语音变化万千,例如即便同一个人说长度相同的同一个字,感冒与否、不同录音环境等差异的情况下,发音的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)都有明显的差异,这种数据波动会减损VAE模型训练的收敛度,导致VAE模型的鲁棒性不佳。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种音色转换方法、装置、电子设备及可读存储介质。
依据本发明的第一方面,提供了一种音色转换方法,该方法包括:
提取待转换语音的输入谱参数;
基于所述输入谱参数,确定第一语音文本参数;
基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数;
基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数;
基于所述输出谱参数,得到音色转换后的目标语音。
可选地,所述的方法中,所述基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数,包括:
基于所述音色转换模型,对所述输入谱参数进行所述变分自编码处理,确定语音声音参数的第一概率分布参数;
对所述第一概率分布参数进行所述注意力机制处理,得到第二概率分布参数;
根据所述第二概率分布参数,确定所述语音声音参数。
可选地,所述的方法中,所述基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数,包括:
基于所述音色转换模型,对所述第一语音文本参数进行预设伦次的长度减半的卷积操作,得到中间文本参数;
根据所述中间文本参数及所述语音声音参数,确定目标语音参数;
对所述目标语音参数进行所述预设伦次的长度加倍的反卷积操作,确定所述输出谱参数。
可选地,所述的方法中,所述对所述输入谱参数进行变分自编码处理,确定语音声音参数的第一概率分布参数,包括:
基于所述音色转换模型,对所述输入谱参数进行所述预设轮次的长度减半的所述卷积操作,确定目标输入谱参数;
基于所述目标输入谱参数,确定所述语音声音参数的所述第一概率分布参数。
可选地,所述的方法中,所述第一概率分布参数包括第一均值及方差;
所述基于所述音色转换模型,对所述第一概率分布参数进行注意力机制处理,得到第二概率分布参数,包括:
利用所述注意力机制,对所述第一均值进行处理,得到第二均值;
由所述第二均值与所述方差,确定所述第二概率分布参数。
可选地,所述的方法中,所述音色转换模型包括预先设置的L个维度与所述第一均值相同的向量序列;
所述利用所述注意力机制,对所述第一均值进行处理,得到第二均值,包括:
根据所述第一均值及所述向量序列进行注意力机制计算,确定所述第二均值。
可选地,所述的方法中,所述所述根据所述第一均值及所述向量序列进行注意力机制计算,确定所述第二均值,包括:
将所述中间文本参数与所述向量序列组合,获得组合向量序列;
通过所述第一均值对所述组合向量序列进行注意力机制计算,确定所述第二均值。
可选地,所述的方法中,设所述向量序列为Encoder={e1,e2,…,eL},对于任意时刻的第一均值ml,设对应的第二均值为μl,所述根据所述第一均值及所述向量序列进行注意力机制计算,确定所述第二均值,包括:
μl=Attention(ml)=Value(Encoder)·Weight(Encoder,ml)=v1·w1+v2·w2+…+vL·wL;
其中,Value是对向量的线性运算,Value(Encoder)={v1,v2,…,vL};
其中,{b1,b2,…,bL}是预先设置的偏置向量
可选地,所述的方法中,所述根据所述第二概率分布参数,确定所述语音声音参数,包括:
采用正态分布函数随机生成所述语音声音参数的随机变量;
由所述第二概率分布参数及所述随机变量,确定所述语音声音参数。
依据本发明的第二方面,提供了一种音色转换装置,该装置包括:
获取模块,用于提取待转换语音的输入谱参数;
第一确定模块,用于基于所述输入谱参数,确定第一语音文本参数;
第二确定模块,用于基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数;
第三确定模块,用于基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数;
转换模块,用于基于所述输出谱参数,得到音色转换后的目标语音。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的音色转换方法。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的音色转换方法。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的音色转换方法。
本发明实施例中,提取待转换语音的输入谱参数;基于所述输入谱参数,确定第一语音文本参数;基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数;基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数;基于所述输出谱参数,得到音色转换后的目标语音。通过在变分自编码处理获得语音声音参数的过程中,加入注意力机制处理,可以提升VAE模型克服音频波动的鲁棒性,从而进一步提升音色转换模型对误识别的纠错和容错,保证音色转换的转换效果,提高音色转换的可靠性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种音色转换方法的步骤流程图;
图2是本发明实施例提供的音色转换系统的结构示意图;
图3是本发明实施例提供的一种音色转换模型的内部结构图;
图4是本发明实施例提供的另一种音色转换模型的内部结构图;
图5是本发明实施例提供的一种音色转换模型训练的结果示意图;
图6是本发明实施例提供的音色转换装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种音色转换方法的步骤流程图,如图1所示,该方法可以包括步骤S100~S500:
步骤100、提取待转换语音的输入谱参数。
上述步骤S100中,电子设备中的音色转换系统中的特征预提取子模块可以对接收到的目标语音信息进行特征提取,从目标语音信息中提取出输入谱参数(MFCC)。
输入谱参数指的是梅尔倒谱系数(Mel-frequency Cepstral Coefficients,MFCC),MFCC的物理含义就是--在语音识别领域,将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量。
梅尔倒谱(Mel-cepstrum,MCEPs),用于描述发音细节,包含了说话人的个人特性。由于每个人的声带、口腔特征的不同,不同人发出的声音波形具有不同特征,梅尔倒谱MCEPs描述不同人发出的声音波形的差异特征的参数。
音色转换(Voice Conversion)是指将一个人语音的声线音色转换为另一个人的声线音色,语音内容不变。音色转换的应用较广,市场从普通娱乐、发音矫正、直到身份攻防,都可广泛应用。
可选地,图2示出了本申请实施例提供的一种音色转换系统的结构示意图,如图2所示,音色转换系统100包括:语音识别模型10,音色转换模型20和声码器单元30,其中,语音识别模型10包括特征提取子模型11、语音识别子模型12和声码器参数提取子模型(图中未画出),音色转换模型20包括音色转换子模型21和变分自编码子模型22,变分自编码子模型22包括注意力机制单元221。
一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,该最低震动产生的音是基音(fundamental tone)。基频F0是指基音的频率,决定声音的音高。
现实世界中大部分的声音,都可以根据声音的周期特性将其分为周期性声音和非周期性声音。由于周期性声音的声音波型都具有一定的重复性,可以将声音分为纯音和复合音;纯音是含单一频率,同时声压随时间按正弦函数规律变化的声波。在自然界和日常生活中很少遇到纯音,纯音可由音叉产生,也可用电子振荡电路或音响合成器产生。而非周期性声音由许多频率、强度和相位不同的声音无规律性地组合在一起形成。非周期性成分AP是指:用于表示非周期性声音在不同周期间的声音频率、强度和相位的差异特征。
具体地,语音识别模型(ASR)10负责从目标语音信息中提取一种与发音人无关的、只体现发音内容的声学特征,称为第一语音文本参数(Phonetic Posterior Grams,PPGs)。音色转换模型20将第一语音文本参数转换到特定人的谱参数,也即是转换为输出谱参数。语音识别模型10还可以获取目标语音信息中得到基频(F0)和非周期成分信息(AP)。则声码器单元30可以在接收到输出谱参数连同基频和非周期成分信息后完成目标信息的转换和发声。
需要说明的是,变分自编码子模型22可以是变分自编码器(VariationalAutoEncoder,VAE),VAE从概率论的角度,本质上是对一个有观测样本集的变量X与另一个不可观测的连续随机因变量Z建立联系,VAE可以包括编码器和解码器两部分,编码器负责从输入的训练集中学习因变量Z的概率分布模型,例如以均值方差为参数的高斯模型。解码器负责在输入为Z概率分布模型中随机采样的任何值都能近似重构出编码器的输出。也即是,无论VAE内部有任何的扰动,最终都能保证重构出输出。在本申请中,音色转换子模型21也即是VAE的解码器,实现从因变量Z采样值到重构输出的功能。
需要说明的是,注意力机制单元221,将VAE的均值参数用一组基向量的线性组合表示:一方面有限多个基向量的组合减小了取值的自由度(取值空间阶梯化),另一方面在神经网络训练阶段基向量能够自动学习最核心的信息,从而提高VAE的鲁棒性。
其中,注意力机制Attention的简要说明数学描述如下:
对于一个长度为L的向量序列Encoder={e1,e2,…,eL}和一个目标向量query,
Attention(Encoder,query)=Value(Encoder)·Weight(Encoder,query)
=v1·w1+v2·w2+…+vL·wL
其中,Value是对向量的线性运算,Value(Encoder)={v1,v2,…,vL};Weight(Encoder,query)是用神经网络模块计算出的每个v向量的权重,且w1+w2+…+wL=1。
从物理含义上,注意力机制求得query对序列Encoder中各时刻的关注度比重。
步骤S200、基于所述输入谱参数,确定第一语音文本参数。
参见图2,语音识别模型(ASR)10负责从目标语音信息中提取一种与发音人无关的、只体现发音内容的声学特征,称为第一语音文本参数(Phonetic Posterior Grams,PPGs)。
具体地,语音识别模型10中的特征预提取子模型11在对接收到的待转换语音进行特征提取处理,获得输入谱参数后,语音识别子模型12可以对该输入谱参数进行语音识别,得到PPGs。
步骤S300、基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数。
参见图2,音色转换模型20中的变分自编码子模型22可以对输入谱参数进行变分自编码处理,注意力机制子单元221可以对变分自编码子模型22处理后的输入谱参数进行注意力机制处理,确定语音声音参数。
其中,语音声音参数指的是可以直接表征语音声音信息的参数。
其中,变分自编码子模型可以基于所述音色转换模型,对上述输入谱参数进行变分自编码处理,确定语音声音参数的第一概率分布参数;然后由注意力机制单元对上述第一概率分布参数进行注意力机制处理,获得处理后的第二概率分布参数;然后由变分自编码子模型基于正态分布函数生成所述语音声音参数概率分布的随机变量;最后基于所述处理后的第二概率分布参数和所述随机变量,确定所述语音声音参数。
可选地,在一种实施方式中,第一概率分布参数包括第一均值及方差;上述步骤S302包括:所述基于所述音色转换模型,对所述第一概率分布参数进行注意力机制处理,得到第二概率分布参数,包括:利用所述注意力机制,对所述第一均值进行处理,得到第二均值;由所述第二均值与所述方差,确定所述第二概率分布参数。
其中,由注意力机制单元对上述第一均值进行注意力机制处理,获得处理后的第二均值;然后由变分自编码子模型基于正态分布函数生成所述语音声音参数概率分布的随机变量;最后基于所述修正后的第二均值、所述方差和所述随机变量,确定所述语音声音参数。
步骤S400、基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数。
上述步骤S400中,基于音色转换模型,对上述语音声音参数与第一语音文本参数进行音色转换处理,得到输出谱参数。
步骤S500、基于所述输出谱参数,得到音色转换后的目标语音。
声码器参数提取子模型可以提取待转换语音中的基频(F0)和非周期成分信息(AP),可对得到的基频进行简单的线性变换得到目标基频,将该目标基频、AP和输出谱参数送入声码器单元,得到最终进行音色转换后的目标语音。
综上所述,本发明实施例提供的音色转换方法,提取待转换语音的输入谱参数;基于所述输入谱参数,确定第一语音文本参数;基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数;基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数;基于所述输出谱参数,得到音色转换后的目标语音。通过在变分自编码处理获得语音声音参数的过程中,加入注意力机制处理,可以提升VAE模型克服音频波动的鲁棒性,从而进一步提升音色转换模型对误识别的纠错和容错,保证音色转换的转换效果,提高音色转换的可靠性。
图3示出了本申请实施例提供的一种音色转换模型的内部结构图,如图3所示,音色转换模型20包括音色转换子模型21和变分自编码子模型22,变分自编码子模型包括注意力机制单元221。
具体地,参见图3,设VAE编码器的输入为尺寸为[T,_DM]的MFCC矩阵,其中_T表示时间长度(与PPGs等长),_DM表示每帧的MFCC维度(与PPGs的维度_D一般不同),示例的,该MFCC维度可以是13,PPGs的维度_D可以是300,本申请实施例对此均不作具体限定,可以根据实际应用场景做标定。计算流程如下:
子步骤A1:对输入的结尾沿时间轴补0,得到尺寸为[T,_DM]的矩阵INM,使得补足后的长度T刚好是2的整数次方,例如可以是4、8、16、32、64、128等。
子步骤A2:INM经过卷积层AM1(卷积核尺寸为3,输出特征维度为F)以及配套的激励函数组,得到尺寸为[T,F]的矩阵O_AM1,也即是图3中的A代表的是降维阶段的卷积。
子步骤A3:O_AM1经过平均值Pooling层BM1(单元尺寸为2,跳跃单位2),得到尺寸为[T/2,F]的矩阵O_BM1,也即是图3中的B,表示的是合并的平均值。
子步骤A4:O_BM1经过卷积层AM2(卷积核尺寸为3,输出特征维度为2F)以及配套的激励函数组,得到尺寸为[T/2,2F]的矩阵O_AM2。
子步骤A5:O_AM2经过平均值Pooling层BM2(单元尺寸为2,跳跃单位2),得到尺寸为[T/4,2F]的矩阵O_BM2。
子步骤A6:将O_BM2在最后一维拆成等长的两个矩阵,作为尺寸均为[T/4,F]的均值m和方差ρ,m再经过一个注意力机制单元(Attention)得到μ。
子步骤A7:使用正态分布函数(如python里面的random.normal)随机生成尺寸为[T/4,F]的随机变量ε。
子步骤A8:计算语音声音参数z=μ+ρ⊙ε。
子步骤A9:将z加到基础音色转换子模型21中间的O_B2。
使得在音色转换子模型中,O_B2之前和之后的结构保持不变,最终正常输出MCEPs。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
可选地,在一种实施方式中,上述步骤S400具体包括:基于音色转换模型,对所述第一语音文本参数进行预设伦次的长度减半的卷积操作,得到中间文本参数;基于音色转换模型,根据所述中间文本参数及所述语音声音参数,确定目标语音参数;对所述目标语音参数进行所述预设伦次的长度加倍的反卷积操作,确定所述输出谱参数。
上述音色转换模型为UFNANS结构的基本音色转换模型。示例的,参见图3,当预设轮次为2时,PPGs先经过2轮长度减半的卷积操作AB,得到尺寸为[T/4,F]的O_B2,将z加到上半部分的中间结果O_B2上得到目标语音参数,再经2轮长度加倍的反卷积操作CD恢复到原来输入的尺寸,得到输出谱参数MCEPs,其中,C表示反卷积操作,D表示升维阶段的卷积操作,E表示最后卷积操作。
可选地,在一种实施方式中,上述对所述输入谱参数进行变分自编码处理,确定语音声音参数的第一概率分布参数的步骤,包括:基于所述音色转换模型,对所述输入谱参数进行所述预设轮次的长度减半的所述卷积操作,确定目标输入谱参数;基于所述目标输入谱参数,确定所述语音声音参数的所述第一概率分布参数。
其中,可以采用与UFANS前半部分结构相同的神经网络,对输入谱参数处理,得到语音声音参数的概率分布参数,具体包括均值和方差。具体地,基于所述音色转换模型对所述输入谱参数进行预设轮次的长度减半的所述卷积操作,确定目标输入谱参数;基于所述目标输入谱参数确定语音声音参数法律分布的所述均值和所述方差,预设轮次可以是2轮次,也可以是4轮次,所述预设轮次应是2的整数倍,对于其具体轮次数,本申请实施例在此不做限定,可以根据实际应用做具体标定调整。其中,前述随机变量的尺寸应与上述目标输入谱参数的尺寸相同。
本申请实施例中,音色转换模型包括预先设置的L个维度与所述第一均值相同的向量序列,上述利用所述注意力机制,对所述第一均值进行处理,得到第二均值,包括:根据所述第一均值及所述向量序列进行注意力机制计算,确定所述第二均值。
具体地,本申请实施例中注意力机制单元的计算流程如下:
预先设置L个维度为F的向量序列Encoder={e1,e2,…,eL}(看做LxF的矩阵),则Attention输入尺寸为[T/4,F]的m得到尺寸为[T/4,F]的新均值μ,对于长度T/4中的每时刻l,输入维度为F的ml得到μl的过程为:
μl=Attention(ml)=Value(Encoder)·Weight(Encoder,ml)=v1·w1+v2·w2+…+vL·wL;
其中,Value是对向量的线性运算,Value(Encoder)={v1,v2,…,vL};
其中,在训练阶段,Encoder随机初始化;训练过程中,作为整个神经网络的一部分,像神经网络其他部分的参数一样以梯度回传方式一步步优化。
可选地,在一种具体实施方式中,上述根据所述第二概率分布参数,确定所述语音声音参数,包括:将所述中间文本参数与所述向量序列组合,获得组合向量序列;通过所述第一均值对所述组合向量序列进行注意力机制计算,确定所述第二均值。
其中,参照图3可知,图3中上下两支的关系应该是相得益彰的。对于下面的VAE提取一支,如果能补充一些语言信息,知道当前时刻发音是哪种音色,将助于模型更快速地收敛。仍然遵循完全数据驱动的原则,将上一支的中间结果O_B2引出来,如图4所示,对于长度T/4中的每时刻l,将O_B2l与现有基向量拼在一起得到尺寸为(L+1)xF的MergedEncoder={O_B2l,e1,e2,…,eL},由ml对其计算Attention。这样在每时刻l,基向量组都额外补充了一个包含当前时刻音色信息的向量,额外补充进来语言信息。虽然O_B2l有可能因为语音识别的错误不准确,但如果O_B2l和其他基向量组的整体走向背道而驰,注意力机制会对O_B2l赋以较低的权重,使得O_B2l寡不敌众,因而不会反转大局;且考虑到大部分情况下语音识别还是准确的,因而将中间文本参数O_B2l补充至基向量组中,可以帮助VAE分支更快更稳定地收敛,更鲁棒。
可选地,本申请实施例所提供的音色转换方法,还包括如下步骤:
步骤201:基于样本语音训练所述音色转换模型。
上述步骤201的具体实现过程可以包括以下步骤:
步骤B1:对所述样本语音进行特征提取处理,得到样本输入谱参数、样本基频和样本非周期成分信息。
步骤B2:基于所述样本基频和所述样本非周期成分信息,确定样本输出目标谱参数。
步骤B3:基于所述样本输入谱参数确定样本语音文本参数。
步骤B4:对每一条所述样本语音信息,建立一组由所述输入谱参数和所述语音文本参数组成的样本输入信息,以及由所述样本输出谱参数构成的训练数据组。
步骤B5:基于所述训练数据组,按照神经网络训练方法训练得到所述音色转换模型。
示例的,图5示出了本申请实施例提供的一种音色转换模型训练的结果示意图,如图5所示:声码器参数提取子模型13可以提取样本语音中得到基频(F0)和非周期成分信息(AP);基于所述样本基频和所述样本非周期成分信息,确定样本输出目标谱参数(MCEPs);特征提取子模块011可以对接收到的样本语音进行特征提取,从样本语音中提取出输入谱参数(MFCC);语音识别子模型12负责提取一种与发音人无关的、只体现发音内容的声学特征,称为第一语音文本参数(Phonetic Posterior Grams,PPGs),最终该句样本语音,得到最终格式的训练数据组([MFCC,PPGs];MCEPs),样本集中的每条语音样本都得到一组([MFCC,PPGs];MCEPs),基于所述训练数据组,按照神经网络训练方法训练得到所述音色转换模型。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
图6是本发明实施例提供的一种音色转换装置的结构框图,如图6所示,该装置可以包括:
获取模块61,用于提取待转换语音的输入谱参数;
第一确定模块62,用于基于所述输入谱参数,确定第一语音文本参数;
第二确定模块63,用于基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数;
第三确定模块64,用于基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数;
转换模块65,用于基于所述输出谱参数,得到音色转换后的目标语音。
本发明实施例所提供的音色转换装置,在对语音进行音色转换时,由获取模块61提取待转换语音的输入谱参数;由第一确定模块62基于所述输入谱参数,确定第一语音文本参数;由第二确定模块63基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数;由第三确定模块64基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数;由转换模块65基于所述输出谱参数,得到音色转换后的目标语音。通过在变分自编码处理获得语音声音参数的过程中,加入注意力机制处理,可以提升VAE模型克服音频波动的鲁棒性,从而进一步提升音色转换模型对误识别的纠错和容错,保证音色转换的转换效果,提高音色转换的可靠性。
可选地,所述的装置中,所述第二确定模块63包括:
第一确定子模块,用于基于所述音色转换模型,对所述输入谱参数进行所述变分自编码处理,确定语音声音参数的第一概率分布参数;
注意力机制子模块,用于对所述第一概率分布参数进行所述注意力机制处理,得到第二概率分布参数;
第二确定子模块,用于根据所述第二概率分布参数,确定所述语音声音参数。
可选地,所述的装置中,所述第三确定模块64包括:
第一卷积单元,用于基于所述音色转换模型,对所述第一语音文本参数进行预设伦次的长度减半的卷积操作,得到中间文本参数;
第一确定单元,用于根据所述中间文本参数及所述语音声音参数,确定目标语音参数;
反卷积单元,用于对所述目标语音参数进行所述预设伦次的长度加倍的反卷积操作,确定所述输出谱参数。
可选地,所述的装置中,所述第一确定子模块包括:
第二确定单元,用于基于所述音色转换模型,对所述输入谱参数进行所述预设轮次的长度减半的所述卷积操作,确定目标输入谱参数;
第三确定单元,用于基于所述目标输入谱参数,确定所述语音声音参数的所述第一概率分布参数。
可选地,所述的装置中,所述第一概率分布参数包括第一均值及方差;所述注意力机制子模块,包括:
注意力机制单元,用于利用所述注意力机制,对所述第一均值进行处理,得到第二均值;
第四确定单元,用于由所述第二均值与所述方差,确定所述第二概率分布参数。
可选地,所述的装置中,所述音色转换模型包括预先设置的L个维度与所述第一均值相同的向量序列;
所述注意力机制单元,具体用于根据所述第一均值及所述向量序列进行注意力机制计算,确定所述第二均值。
可选地,所述的装置中,所述注意力机制单元包括:
组合子单元,用于将所述中间文本参数与所述向量序列组合,获得组合向量序列;
注意力机制子单元,用于通过所述第一均值对所述组合向量序列进行注意力机制计算,确定所述第二均值。
可选地,设所述向量序列为Encoder={e1,e2,…,eL},对于任意时刻的第一均值ml,设对应的第二均值为μl,所述注意力机制单元,具体用于计算:
μl=Attention(ml)=Value(Encoder)·Weight(Encoder,ml)=v1·w1+v2·w2+…+vL·wL;
其中,Value是对向量的线性运算,Value(Encoder)={v1,v2,…,vL};
其中,{b1,b2,…,bL}是预先设置的偏置向量。
可选地,所述的装置中,所述第二确定子模块包括:
生成单元,用于采用正态分布函数随机生成所述语音声音参数的随机变量;
第五确定单元,用于由所述第二概率分布参数及所述随机变量,确定所述语音声音参数。
本申请实施例还提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的音色转换方法。
本申请实施例还提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的音色转换方法。
所述音色转换装置、电子设备及可读存储介质与上述音色转换方法相对于现有技术所具有的优势相同,在此不再赘述。
综上所述,本发明实施例提供的音色转换方法、装置、电子设备及可读存储介质,对语音进行音色转换时,提取待转换语音的输入谱参数;基于所述输入谱参数,确定第一语音文本参数;基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数;基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数;基于所述输出谱参数,得到音色转换后的目标语音。通过在变分自编码处理获得语音声音参数的过程中,加入注意力机制处理,可以提升VAE模型克服音频波动的鲁棒性,从而进一步提升音色转换模型对误识别的纠错和容错,保证音色转换的转换效果,提高音色转换的可靠性。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种音色转换方法,其特征在于,所述方法包括:
提取待转换语音的输入谱参数;
基于所述输入谱参数,确定第一语音文本参数;
基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数;
基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数;
基于所述输出谱参数,得到音色转换后的目标语音。
2.根据权利要求1所述的方法,其特征在于,所述基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数,包括:
基于所述音色转换模型,对所述输入谱参数进行所述变分自编码处理,确定语音声音参数的第一概率分布参数;
对所述第一概率分布参数进行所述注意力机制处理,得到第二概率分布参数;
根据所述第二概率分布参数,确定所述语音声音参数。
3.根据权利要求2所述的方法,其特征在于,所述基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数,包括:
基于所述音色转换模型,对所述第一语音文本参数进行预设伦次的长度减半的卷积操作,得到中间文本参数;
根据所述中间文本参数及所述语音声音参数,确定目标语音参数;
对所述目标语音参数进行所述预设伦次的长度加倍的反卷积操作,确定所述输出谱参数。
4.根据权利要求3所述的方法,其特征在于,所述对所述输入谱参数进行变分自编码处理,确定语音声音参数的第一概率分布参数,包括:
基于所述音色转换模型,对所述输入谱参数进行所述预设轮次的长度减半的所述卷积操作,确定目标输入谱参数;
基于所述目标输入谱参数,确定所述语音声音参数的所述第一概率分布参数。
5.根据权利要求2所述的方法,其特征在于,所述第一概率分布参数包括第一均值及方差;
所述基于所述音色转换模型,对所述第一概率分布参数进行注意力机制处理,得到第二概率分布参数,包括:
利用所述注意力机制,对所述第一均值进行处理,得到第二均值;
由所述第二均值与所述方差,确定所述第二概率分布参数。
6.根据权利要求5所述的方法,其特征在于,所述音色转换模型包括预先设置的L个维度与所述第一均值相同的向量序列;
所述利用所述注意力机制,对所述第一均值进行处理,得到第二均值,包括:
根据所述第一均值及所述向量序列进行注意力机制计算,确定所述第二均值。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一均值及所述向量序列进行注意力机制计算,确定所述第二均值,包括:
将所述中间文本参数与所述向量序列组合,获得组合向量序列;
通过所述第一均值对所述组合向量序列进行注意力机制计算,确定所述第二均值。
9.根据权利要求4所述的方法,其特征在于,所述根据所述第二概率分布参数,确定所述语音声音参数,包括:
采用正态分布函数随机生成所述语音声音参数的随机变量;
由所述第二概率分布参数及所述随机变量,确定所述语音声音参数。
10.一种音色转换装置,其特征在于,所述装置,包括:
获取模块,用于提取待转换语音的输入谱参数;
第一确定模块,用于基于所述输入谱参数,确定第一语音文本参数;
第二确定模块,用于基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数;
第三确定模块,用于基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数;
转换模块,用于基于所述输出谱参数,得到音色转换后的目标语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110790316.5A CN113611309B (zh) | 2021-07-13 | 一种音色转换方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110790316.5A CN113611309B (zh) | 2021-07-13 | 一种音色转换方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113611309A true CN113611309A (zh) | 2021-11-05 |
CN113611309B CN113611309B (zh) | 2024-05-10 |
Family
ID=
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108461079A (zh) * | 2018-02-02 | 2018-08-28 | 福州大学 | 一种面向音色转换的歌声合成方法 |
US20190172462A1 (en) * | 2010-06-07 | 2019-06-06 | Affectiva, Inc. | Audio analysis learning with video data |
US20200066253A1 (en) * | 2017-10-19 | 2020-02-27 | Baidu Usa Llc | Parallel neural text-to-speech |
GB202000883D0 (en) * | 2020-01-21 | 2020-03-04 | Samsung Electronics Co Ltd | An expressive text-to-speech system |
CN111916067A (zh) * | 2020-07-27 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
US20200380952A1 (en) * | 2019-05-31 | 2020-12-03 | Google Llc | Multilingual speech synthesis and cross-language voice cloning |
CN112652318A (zh) * | 2020-12-21 | 2021-04-13 | 北京捷通华声科技股份有限公司 | 音色转换方法、装置及电子设备 |
CN112767958A (zh) * | 2021-02-26 | 2021-05-07 | 华南理工大学 | 一种基于零次学习的跨语种音色转换系统及方法 |
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190172462A1 (en) * | 2010-06-07 | 2019-06-06 | Affectiva, Inc. | Audio analysis learning with video data |
US20200066253A1 (en) * | 2017-10-19 | 2020-02-27 | Baidu Usa Llc | Parallel neural text-to-speech |
CN108461079A (zh) * | 2018-02-02 | 2018-08-28 | 福州大学 | 一种面向音色转换的歌声合成方法 |
US20200380952A1 (en) * | 2019-05-31 | 2020-12-03 | Google Llc | Multilingual speech synthesis and cross-language voice cloning |
GB202000883D0 (en) * | 2020-01-21 | 2020-03-04 | Samsung Electronics Co Ltd | An expressive text-to-speech system |
CN111916067A (zh) * | 2020-07-27 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
CN112652318A (zh) * | 2020-12-21 | 2021-04-13 | 北京捷通华声科技股份有限公司 | 音色转换方法、装置及电子设备 |
CN112767958A (zh) * | 2021-02-26 | 2021-05-07 | 华南理工大学 | 一种基于零次学习的跨语种音色转换系统及方法 |
Non-Patent Citations (1)
Title |
---|
YUSUKE YASUDA ET AL.: "End-to-End Text-to-Speech Using Latent Duration Based on VQ-VAE", ICASSP 2021 - 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10535336B1 (en) | Voice conversion using deep neural network with intermediate voice training | |
WO2020118521A1 (en) | Multi-speaker neural text-to-speech synthesis | |
EP0970466B1 (en) | Voice conversion | |
US20230186919A1 (en) | Generating and using text-to-speech data for speech recognition models | |
CN110033755A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
McLoughlin | Line spectral pairs | |
US20220262352A1 (en) | Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation | |
Kameoka et al. | Many-to-many voice transformer network | |
CN112652318B (zh) | 音色转换方法、装置及电子设备 | |
CN110767210A (zh) | 一种生成个性化语音的方法及装置 | |
CN111465982A (zh) | 信号处理设备和方法、训练设备和方法以及程序 | |
WO2020136948A1 (ja) | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム | |
CN111326170A (zh) | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 | |
Huang et al. | On prosody modeling for ASR+ TTS based voice conversion | |
Veldhuis et al. | On the computation of the Kullback-Leibler measure for spectral distances | |
JP2017167526A (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
CN113628608A (zh) | 语音生成方法、装置、电子设备及可读存储介质 | |
Choi et al. | Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech | |
CN113611309B (zh) | 一种音色转换方法、装置、电子设备及可读存储介质 | |
CN116229932A (zh) | 一种基于跨域一致性损失的语音克隆方法及系统 | |
CN113611309A (zh) | 一种音色转换方法、装置、电子设备及可读存储介质 | |
JP2709926B2 (ja) | 声質変換方法 | |
JP2009237336A (ja) | 音声認識装置及び音声認識プログラム | |
WO2022046781A1 (en) | Reference-fee foreign accent conversion system and method | |
JP2021189402A (ja) | 音声処理プログラム、音声処理装置及び音声処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |