CN117373429A - 语音克隆方法、装置、存储介质及计算机设备 - Google Patents
语音克隆方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN117373429A CN117373429A CN202311555889.5A CN202311555889A CN117373429A CN 117373429 A CN117373429 A CN 117373429A CN 202311555889 A CN202311555889 A CN 202311555889A CN 117373429 A CN117373429 A CN 117373429A
- Authority
- CN
- China
- Prior art keywords
- voice
- phoneme
- information
- target
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010367 cloning Methods 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 55
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims description 32
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008451 emotion Effects 0.000 abstract description 12
- 230000000694 effects Effects 0.000 abstract description 6
- 230000033764 rhythmic process Effects 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000008878 coupling Effects 0.000 description 7
- 238000010168 coupling process Methods 0.000 description 7
- 238000005859 coupling reaction Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本申请提供的语音克隆方法、装置、存储介质及计算机设备,当获取到目标用户输入的文本信息及待克隆的目标音色对应的音频信息后,可以通过语音克隆模型确定文本信息的音素序列、音素序列中每一音素的语义信息,以及音频信息的音频风格后进行语音合成,并在合成时,将文本信息与待克隆的目标语音进行对齐,这样克隆得到的目标语音既可以通过文本信息与目标语音对齐的方式来解决少批量数据进行语音克隆时的漏字问题,又可以通过音素序列中每一音素的语义信息来提高合成时的韵律和发音准确度,还可以通过目标音色的音频风格来提高合成时的情感自然度,进而达到较高的语音克隆效果。
Description
技术领域
本申请涉及语音克隆技术领域,尤其涉及一种语音克隆方法、装置、存储介质及计算机设备。
背景技术
语音克隆是指对一个人的语音进行录制和处理,从而生成一个能够模拟出该人的语音的计算机程序。语音克隆技术可以根据用户的语音特征生成对应的语音模型,然后通过语音合成技术将文本转换成用户的语音,实现更加真实的语音交互。
目前,传统的语音克隆需要大量的数据集来训练模型,少批量数据会导致模型效果不佳。例如,当使用少批量的数据进行语音克隆时,存在发音准确度低,合成音频漏字、情感自然度差等问题。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中使用少批量的数据进行语音克隆时,存在发音准确度低,合成音频漏字、情感自然度差等问题的技术缺陷。
本申请提供了一种语音克隆方法,所述方法包括:
获取目标用户输入的文本信息及待克隆的目标音色对应的音频信息;
通过语音克隆模型确定所述文本信息的音素序列、所述音素序列中每一音素的语义信息,以及所述音频信息的音频风格后进行语音合成,并在合成时,将所述文本信息与待克隆的目标语音进行对齐,得到目标语音。
可选地,所述语音克隆模型包括音素生成模块;
所述通过语音克隆模型确定所述文本信息的音素序列,包括:
通过所述音素生成模块将所述文本信息转换为拼音后,将所述拼音转换为音素序列。
可选地,所述语音克隆模型包括语义生成模块;
所述通过语音克隆模型确定所述音素序列中每一音素的语义信息,包括:
利用所述语义生成模块将所述文本信息进行分词后,确定每一分词对应的语义信息;
利用所述语义生成模块根据所述音素序列中每一音素与相应分词之间的对应关系,确定每一音素的语义信息。
可选地,所述语音克隆模型包括音频风格生成模块;
所述通过语音克隆模型确定所述音频信息的音频风格,包括:
利用所述音频风格生成模块将所述音频信息进行短时傅里叶变换后得到梅尔频谱;
通过所述音频风格生成模块将所述梅尔频谱输入参考编码器中,得到所述音频信息的音频风格。
可选地,所述语音克隆模型包括随机时长预测器和目标时长帧预测模型;
所述在合成时,将所述文本信息与待克隆的目标语音进行对齐,包括:
在合成时,通过所述随机时长预测器预测所述音素序列的音素时长的对数,并将所述音素时长的对数输入至所述目标时长帧预测模型中;
通过所述目标时长帧预测模型预测音素时长帧信息,并利用所述音素时长帧信息将所述文本信息与待克隆的目标语音进行对齐。
可选地,所述目标时长帧预测模型的训练过程,包括:
获取训练文本的训练音素时长对数以及真实音素时长帧信息;
将所述训练音素时长对数输入至初始时长帧预测模型中,得到所述初始时长帧预测模型输出的预测音素时长帧信息;
求取所述预测音素时长帧信息与所述真实音素时长帧信息之间的误差值,并将所述误差值带入到对齐损失函数中,得到对齐损失;
利用所述对齐损失对所述初始时长帧预测模型进行迭代训练,直到达到预设训练条件后,得到目标时长帧预测模型。
可选地,所述语音克隆模型的确定过程,包括:
将预先训练好的多人混合模型作为预训练的语音克隆模型,并利用所述目标音色对所述预训练的语音克隆模型进行微调后,得到合成所述目标音色的语音克隆模型;
或者,获取预先训练好的多人混合模型,并根据所述目标音色指定所述多人混合模型的克隆音色后,得到语音克隆模型。
本申请还提供了一种语音克隆装置,包括:
信息获取模块,用于获取目标用户输入的文本信息及待克隆的目标音色对应的音频信息;
语音克隆模块,用于通过语音克隆模型确定所述文本信息的音素序列、所述音素序列中每一音素的语义信息,以及所述音频信息的音频风格后进行语音合成,并在合成时,将所述文本信息与待克隆的目标语音进行对齐,得到目标语音。
本申请还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述语音克隆方法的步骤。
本申请还提供了一种计算机设备,包括:一个或多个处理器,以及存储器;
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行如上述实施例中任一项所述语音克隆方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请提供的语音克隆方法、装置、存储介质及计算机设备,当获取到目标用户输入的文本信息及待克隆的目标音色对应的音频信息后,本申请可以通过语音克隆模型确定文本信息的音素序列、音素序列中每一音素的语义信息,以及音频信息的音频风格后进行语音合成,并在合成时,将文本信息与待克隆的目标语音进行对齐,这样克隆得到的目标语音既可以通过文本信息与目标语音对齐的方式来解决少批量数据进行语音克隆时的漏字问题,又可以通过音素序列中每一音素的语义信息来提高合成时的韵律和发音准确度,还可以通过目标音色的音频风格来提高合成时的情感自然度,进而达到较高的语音克隆效果,且本申请的语音克隆方法具有较好的稳定性和可扩展性,可以为语音合成和人机交互等领域提供有效的支持。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种语音克隆方法的流程示意图;
图2为本申请实施例提供的基础模型的模型架构图;
图3为本申请实施例提供的在基础模型上添加语义生成模块和音频风格生成模块后的结构示意图;
图4为本申请实施例提供的在基础模型上添加目标时长帧预测模型进行训练时的结构示意图;
图5为本申请实施例提供的一种语音克隆装置的结构示意图;
图6为本申请实施例提供的一种计算机设备的内部结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,传统的语音克隆需要大量的数据集来训练模型,少批量数据会导致模型效果不佳。例如,当使用少批量的数据进行语音克隆时,存在发音准确度低,合成音频漏字、情感自然度差等问题。基于此,本申请提出了如下技术方案,具体参见下文:
在一个实施例中,如图1所示,图1为本申请实施例提供的一种语音克隆方法的流程示意图;本申请提供了一种语音克隆方法,所述方法可以包括:
S110:获取目标用户输入的文本信息及待克隆的目标音色对应的音频信息。
本步骤中,在进行语音克隆时,可以先获取目标用户输入的文本信息以及待克隆的目标音色对应的音频信息,这样便可以依据目标音色的音频信息来将目标用户输入的文本信息合成为目标语音。
可以理解的是,随着科技的不断发展,用户在使用相关客户端进行信息交互时,不仅可以直接使用语音进行交流,或使用文本进行交流,还可以将语音转换为文本进行交流,或者将文本转换为语音进行交流。本申请中,当目标用户使用客户端将文本转换为语音进行交流时,可以输入即将交互的文本信息以及待克隆的目标音色的音频信息,这样便可以通过客户端中预先安装的语音克隆算法来将该文本信息克隆为与目标音色对应的目标语音,目标用户便可以将该目标语音发送给聊天对象。
进一步地,当多人聊天时,可以将聊天过程中的所有用户均作为目标用户,并获取每一目标用户输入的文本信息及待克隆的目标音色对应的音频信息后,按照相关语音克隆算法分别为每一目标用户进行语音克隆服务。
另外,本申请中目标用户选择的待克隆的目标音色,可以是目标用户预先输入的本人的音色数据,也可以是目标用户预先选择的其他人的音色数据,该音色数据包括但不限于目标音色的音频信息,即语音层面的信息,以便通过目标音色的音频信息来确定待克隆的目标语音对应的音频风格。
S120:通过语音克隆模型确定文本信息的音素序列、音素序列中每一音素的语义信息,以及音频信息的音频风格后进行语音合成,并在合成时,将文本信息与待克隆的目标语音进行对齐,得到目标语音。
本步骤中,通过S110获取到目标用户输入的文本信息及待克隆的目标音色对应的音频信息后,可以通过语音克隆模型先确定文本信息的音素序列、音素序列中每一音素的语义信息,以及音频信息的音频风格,然后再进行语音合成,并在合成时,将文本信息与待克隆的目标语音进行对齐,这样便可以得到与目标音色对应的目标语音。
具体地,本申请可以调用预先配置的语音克隆模型来将目标用户输入的文本信息克隆为目标语音。该语音克隆模型不仅可以被配置为对输入的文本信息进行音素转换后获得音素序列、对音素序列中每一音素进行语义识别后获得每一音素的语义信息,以及对待克隆的目标音色的音频信息进行情感识别后确定音频风格,还可以被配置为依据文本信息的音素序列、音素序列中每一音素的语义信息、音频信息的音频风格,以及文本信息与待克隆的目标语音之间的对齐情况进行语音合成。这样通过本申请的语音克隆模型对输入的文本信息进行克隆后,便可以生成与目标音色对应的、发音准确、情感自然度较高、且不漏字的目标语音。
进一步地,本申请在配置语音克隆模型时,可以选择传统的语音合成模型作为基础模型,并在此基础上对该语音合成模型进行改进,以使改进后的语音合成模型既可以对输入的文本信息进行音素转换,又可以对音素进行语义识别,还可以对待克隆的目标音色的音频信息进行情感识别,更可以在语音合成的同时,保证文本信息与待克隆的目标语音之间的对齐关系。
需要说明的是,本申请在选择传统的语音合成模型作为基础模型时,可以选用Fastspeech,Tacotron,VITS等语音合成模型中的任意一种,在此不做限制。示意性地,如图2所示,图2为本申请实施例提供的基础模型的模型架构图;当本申请选用VITS模型作为基础模型时,该基础模型包括音素生成模块、文本编码器、随机时长预测器、标准化流和解码器。其中,音素生成模块可以将中文转拼音后,再由拼音转换成音素;文本编码器由Transformer Blocks组成,而Transformer Blocks则是由多头注意力MA和前馈网络FFN组成,在Transformer Blocks的具体实现上,为了适应语音合成任务,利用相对注意力(Relative attetion)鼓励自注意力关注临近的位置(指定window_size为4);并且,文本编码器的前馈网络由两层卷积组成,且为等长卷积,如conv1->relu->dropout->conv2;另外,文本编码器一般会返回4个值,x用于计算音素时长,m和logs经注意力权重加权求和之后,以残差形式求得先验隐变量z_p。
随机时长预测器(Stochastic Duration Predictor,SDP)输入的是文本编码器的结果,输出的是音素时长的对数。文本编码张量(即文本编辑器输出的四个结果中的x)首先通过前处理一维卷积,之后进入带洞深度可分离卷积(Dialted and Depth-SeparableConvolution,DDSConv),然后通过后处理一维卷积之后,最后进入神经样条流(Neuralspline flows)输出音素时长的对数。
标准化流(Flow)是4个仿射耦合层组成的模块,每个耦合层包含4个WaveNet残差结构,用于增强先验编码器的表达能力,通过限制耦合层为保持大小的变换(volume-preserving transformations),使得耦合层不会产生缩放参数,具体实现上,耦合层由残差耦合层和翻转层组成,残差耦合层实际是WaveNet的残差结构,具体来说,WaveNet的残差模块通过不断提高一维扩张卷积(带洞卷积)的膨胀系数,不断增大感受野,卷积后的结果一部分元素加到下一层的输入,另一部分元素加到最终的输出。
解码器(Decoder)主要是由多组转置卷积组成,每组转置卷积后跟多感受野融合(Multi-Receptive Field Fusion,MRF)模块,所谓的多感受野融合模块主要是等大一维卷积组成的残差模块。
本申请可以在上述基础模型的基础上,对其进行改进,以便最终得到的目标语音发音准确、情感自然度较高、且不漏字。
上述实施例中,当获取到目标用户输入的文本信息及待克隆的目标音色对应的音频信息后,本申请可以通过语音克隆模型确定文本信息的音素序列、音素序列中每一音素的语义信息,以及音频信息的音频风格后进行语音合成,并在合成时,将文本信息与待克隆的目标语音进行对齐,这样克隆得到的目标语音既可以通过文本信息与目标语音对齐的方式来解决少批量数据进行语音克隆时的漏字问题,又可以通过音素序列中每一音素的语义信息来提高合成时的韵律和发音准确度,还可以通过目标音色的音频风格来提高合成时的情感自然度,进而达到较高的语音克隆效果,且本申请的语音克隆方法具有较好的稳定性和可扩展性,可以为语音合成和人机交互等领域提供有效的支持。
在一个实施例中,所述语音克隆模型可以包括音素生成模块。
S120中通过语音克隆模型确定所述文本信息的音素序列,可以包括:
S121:通过所述音素生成模块将所述文本信息转换为拼音后,将所述拼音转换为音素序列。
本实施例中,在配置语音克隆模型时,可以选择传统的语音合成模型作为基础模型,并在此基础上对该语音合成模型进行改进,以使改进后的语音合成模型既可以保留基础模型的相关功能,又可以新增改进后的功能。
在一种具体的实施方式中,本申请可以选用VITS模型作为基础模型时,该基础模型包括音素生成模块、文本编码器、随机时长预测器、标准化流和解码器。其中,音素生成模块可以将中文转拼音后,再由拼音转换成音素。因此,本申请在通过语音克隆模型来确定文本信息的音素序列时,可以直接通过基础模型中的音素生成模块来将文本信息转换为拼音,再将该拼音转换为对应的音素序列,以便后续对该音素序列进行相关处理操作。
例如,当本申请的文本信息为“明天放假,我们一起去打乒乓球吧!”,将文本信息[明天放假,我们一起去打乒乓球吧!]转换为拼音后得到[ming tian fang jia,wo men yiqi qu da ping pang qiu ba!],接着将拼音转换为音素后即可得到音素序列[ming t ianf ang j ia,w o m en y i q i q u d a p ing p ang q iu b a!]。
在一个实施例中,如图3所示,图3为本申请实施例提供的在基础模型上添加语义生成模块和音频风格生成模块后的结构示意图;所述语音克隆模型可以包括语义生成模块。
S120中通过语音克隆模型确定所述音素序列中每一音素的语义信息,可以包括:
S122:利用所述语义生成模块将所述文本信息进行分词后,确定每一分词对应的语义信息。
S123:利用所述语义生成模块根据所述音素序列中每一音素与相应分词之间的对应关系,确定每一音素的语义信息。
本实施例中,为了提高语音克隆的韵律,本申请可以在语音合成模型的基础上新增语义生成模块,该语音生成模块可以将文本信息进行分词,并确定每一分词的语义信息后,将音素序列中的每一音素与相应分词进行对应,进而确定每一音素的语义信息,这样语音克隆模型在进行语音合成时,便会依据每一音素的语义信息进行合成,进而提高语音克隆的韵律。
举例来说,本申请可以通过加入bert字向量的方式提高克隆音色的韵律。bert字向量用长度为1024的一维向量表示,主要用来代表文本语义层面的信息,通过该信息模型可以学习到训练音频在不同文本以及不同标点符号时表达的差异。
具体地,本申请首先可以经过一个预训练的bert模型,获得文本信息中每个字以及标点符号对应的向量信息,然后将每个字对应的拼音切分成的音素共用同一个bert向量信息表示,比如:‘明’对应的拼音为ming,对应的bert向量为一维、长度为1024的字向量,可以用[1024]表示,ming对应的音素为[m ing],那么音素[ming]对应的bert向量信息可以为[[1024],[1024]],即本申请中音素[ming]对应的语义信息。以此类推,便可以得到音素序列中每一音素对应的语义信息。
在一个实施例中,所述语音克隆模型可以包括音频风格生成模块。
S120中通过语音克隆模型确定所述音频信息的音频风格,可以包括:
S124:利用所述音频风格生成模块将所述音频信息进行短时傅里叶变换后得到梅尔频谱。
S125:通过所述音频风格生成模块将所述梅尔频谱输入参考编码器中,得到所述音频信息的音频风格。
本实施例中,为了提高语音克隆的情感自然度,本申请可以在语音合成模型的基础上新增音频风格生成模块,该音频风格生成模块可以将目标音色的音频信息进行短时傅里叶变换后得到梅尔频谱,然后将梅尔频谱输入参考编码器中,得到音频信息的音频风格。
具体地,本申请可以使用Reference encoder模块作为音频风格生成模块,该模块可以提取音频的特征信息,即语音层面的信息,通过该信息模型可以学习到训练音频在不同参考mel情况下的情感表达差异。Reference encoder模型的处理流程为:输入log-melspectrogram——>6*(2DConv+Batch Norm+ReLU)——>reshape 3dimensions(保留时间维度,将channel和freq reshape成一维,即[batch_size,channel,freq,time]——>[batch_size,channel*freq,time])——>single layer unidirectional GRU(128unit)——>输出:style(the last GRU state)。
举例来说,当本申请获取到目标音色的音频信息,如音频文件Wav后,可以将音频文件Wav经短时傅里叶变换后得到mel滤波器组,然后将mel滤波器组转换为mel谱,即梅尔频谱后,将梅尔频谱输入参考编码器(Reference encoder模块)中,以此来生成相应的音频风格。
在一个实施例中,所述语音克隆模型可以包括随机时长预测器和目标时长帧预测模型。
S120中在合成时,将所述文本信息与待克隆的目标语音进行对齐,可以包括:
S126:在合成时,通过所述随机时长预测器预测所述音素序列的音素时长的对数,并将所述音素时长的对数输入至所述目标时长帧预测模型中。
S127:通过所述目标时长帧预测模型预测音素时长帧信息,并利用所述音素时长帧信息将所述文本信息与待克隆的目标语音进行对齐。
本实施例中,为了更好的帮忙模型预测文本信息与目标语音之间的对应关系。本申请可以选用VITS模型作为基础模型,并在VITS模型的基础上添加目标时长帧预测模型,该目标时长帧预测模型的输入为VITS模型中随机时长预测器的输出,这样便可以在合成时,通过随机时长预测器预测音素序列的音素时长的对数后,将音素时长的对数输入至目标时长帧预测模型中,以便目标时长帧预测模型预测音素时长帧信息,并利用音素时长帧信息将文本信息与待克隆的目标语音进行对齐,从而解决小批量数据合成时存在的漏字问题。
在一个实施例中,如图4所示,图4为本申请实施例提供的在基础模型上添加目标时长帧预测模型进行训练时的结构示意图;所述目标时长帧预测模型的训练过程,可以包括:
S210:获取训练文本的训练音素时长对数以及真实音素时长帧信息。
S211:将所述训练音素时长对数输入至初始时长帧预测模型中,得到所述初始时长帧预测模型输出的预测音素时长帧信息。
S212:求取所述预测音素时长帧信息与所述真实音素时长帧信息之间的误差值,并将所述误差值带入到对齐损失函数中,得到对齐损失。
S213:利用所述对齐损失对所述初始时长帧预测模型进行迭代训练,直到达到预设训练条件后,得到目标时长帧预测模型。
本实施例中,如图4所示,本申请在训练目标时长帧预测模块时,可以使用对齐损失来更新初始模型的参数,并在不断地迭代训练后得到目标时长帧预测模型。
在一种具体的实施方式中,本申请在训练目标时长帧预测模块时,可以获取训练文本的训练音素时长对数以及真实音素时长帧信息,然后将训练音素时长对数输入至初始时长帧预测模型中,得到初始时长帧预测模型输出的预测音素时长帧信息后,求取预测音素时长帧信息与真实音素时长帧信息之间的误差值,并将该误差值带入到对齐损失函数中,得到对齐损失,最后利用对齐损失对初始时长帧预测模型进行迭代训练,直到达到预设训练条件后,便可得到目标时长帧预测模型。
举例来说,由上文可以知道随机时长预测器(Stochastic Duration Predictor,SDP)输出的是音素时长的对数,经过目标时长帧预测模型预测之后,可以得到模型预测的音素时长帧信息。因此,在对目标时长帧预测模型进行训练时,可以通过语音识别或者人工标注等方式获取训练音频的真实音素时长帧信息,比如:今天天气很好,对应的音素为:[jin t ian t ian q i h en h ao],对应的真实音素时长帧信息为[2 5 1 6 2 4 2 5 3 42 8],假定通过模型预测的音素时长帧信息为:[1 4 2 7 3 5 4 5 2 6 1 6],通过求取模型的预测音素时长帧信息与真实音素时长帧信息的误差,将该误差加入到模型的对齐损失函数中,即可根据对齐损失来对模型进行更新,这样便可以将非监督时长预测算法转换为带监督的时长预测算法,从而更好的帮忙模型预测文本与音频的对应关系。
在一个实施例中,所述语音克隆模型的确定过程,可以包括:
S310:将预先训练好的多人混合模型作为预训练的语音克隆模型,并利用所述目标音色对所述预训练的语音克隆模型进行微调后,得到合成所述目标音色的语音克隆模型。
S320:或者,获取预先训练好的多人混合模型,并根据所述目标音色指定所述多人混合模型的克隆音色后,得到语音克隆模型。
本实施例中,由于本申请的语音克隆模型是在语音合成模型的基础上进行改进后得到的,例如,本申请在语音合成模型中加入了语义生成模块、音频风格生成模块以及目标时长帧预测模型,该部分信息使得改进后的模型的训练难度较大。
因此,本申请在语音克隆模型的实际训练过程中,可以通过引入较多的其他音色数据的方式对模型进行训练。具体来说,本申请在对确定语音克隆模型时,可以将预先训练好的多人混合模型作为预训练的语音克隆模型,并利用待克隆的目标音色对预训练的语音克隆模型进行微调后,得到合成目标音色的语音克隆模型;也可以先获取预先训练好的多人混合模型,然后根据待克隆的目标音色指定多人混合模型的克隆音色后,得到语音克隆模型,或者通过其他方式来确定语音克隆模型,具体可视实际情况进行设置,在此不做限制。
上述语音克隆模型的确定方案,均可以达到音色克隆的目的,并且音色相似度,发音准确率,情感自然度都有不错的表现。
下面对本申请实施例提供的语音克隆装置进行描述,下文描述的语音克隆装置与上文描述的语音克隆方法可相互对应参照。
在一个实施例中,如图5所示,图5为本申请实施例提供的一种语音克隆装置的结构示意图;本申请还提供了一种语音克隆装置,可以包括信息获取模块210和语音克隆模块220,具体包括如下:
信息获取模块210,用于获取目标用户输入的文本信息及待克隆的目标音色对应的音频信息。
语音克隆模块220,用于通过语音克隆模型确定所述文本信息的音素序列、所述音素序列中每一音素的语义信息,以及所述音频信息的音频风格后进行语音合成,并在合成时,将所述文本信息与待克隆的目标语音进行对齐,得到目标语音。
上述实施例中,当获取到目标用户输入的文本信息及待克隆的目标音色对应的音频信息后,本申请可以通过语音克隆模型确定文本信息的音素序列、音素序列中每一音素的语义信息,以及音频信息的音频风格后进行语音合成,并在合成时,将文本信息与待克隆的目标语音进行对齐,这样克隆得到的目标语音既可以通过文本信息与目标语音对齐的方式来解决少批量数据进行语音克隆时的漏字问题,又可以通过音素序列中每一音素的语义信息来提高合成时的韵律和发音准确度,还可以通过目标音色的音频风格来提高合成时的情感自然度,进而达到较高的语音克隆效果,且本申请的语音克隆方法具有较好的稳定性和可扩展性,可以为语音合成和人机交互等领域提供有效的支持。
在一个实施例中,本申请还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述语音克隆方法的步骤。
在一个实施例中,本申请还提供了一种计算机设备,包括:一个或多个处理器,以及存储器。
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行如上述实施例中任一项所述语音克隆方法的步骤。
示意性地,如图6所示,图6为本申请实施例提供的一种计算机设备的内部结构示意图,该计算机设备300可以被提供为一服务器。参照图6,计算机设备300包括处理组件302,其进一步包括一个或多个处理器,以及由存储器301所代表的存储器资源,用于存储可由处理组件302的执行的指令,例如应用程序。存储器301中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件302被配置为执行指令,以执行上述任意实施例的语音克隆方法。
计算机设备300还可以包括一个电源组件303被配置为执行计算机设备300的电源管理,一个有线或无线网络接口304被配置为将计算机设备300连接到网络,和一个输入输出(I/O)接口305。计算机设备300可以操作基于存储在存储器301的操作系统,例如WindowsServer TM、Mac OS XTM、Unix TM、Linux TM、Free BSDTM或类似。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音克隆方法,其特征在于,所述方法包括:
获取目标用户输入的文本信息及待克隆的目标音色对应的音频信息;
通过语音克隆模型确定所述文本信息的音素序列、所述音素序列中每一音素的语义信息,以及所述音频信息的音频风格后进行语音合成,并在合成时,将所述文本信息与待克隆的目标语音进行对齐,得到目标语音。
2.根据权利要求1所述的语音克隆方法,其特征在于,所述语音克隆模型包括音素生成模块;
所述通过语音克隆模型确定所述文本信息的音素序列,包括:
通过所述音素生成模块将所述文本信息转换为拼音后,将所述拼音转换为音素序列。
3.根据权利要求1所述的语音克隆方法,其特征在于,所述语音克隆模型包括语义生成模块;
所述通过语音克隆模型确定所述音素序列中每一音素的语义信息,包括:
利用所述语义生成模块将所述文本信息进行分词后,确定每一分词对应的语义信息;
利用所述语义生成模块根据所述音素序列中每一音素与相应分词之间的对应关系,确定每一音素的语义信息。
4.根据权利要求1所述的语音克隆方法,其特征在于,所述语音克隆模型包括音频风格生成模块;
所述通过语音克隆模型确定所述音频信息的音频风格,包括:
利用所述音频风格生成模块将所述音频信息进行短时傅里叶变换后得到梅尔频谱;
通过所述音频风格生成模块将所述梅尔频谱输入参考编码器中,得到所述音频信息的音频风格。
5.根据权利要求1所述的语音克隆方法,其特征在于,所述语音克隆模型包括随机时长预测器和目标时长帧预测模型;
所述在合成时,将所述文本信息与待克隆的目标语音进行对齐,包括:
在合成时,通过所述随机时长预测器预测所述音素序列的音素时长的对数,并将所述音素时长的对数输入至所述目标时长帧预测模型中;
通过所述目标时长帧预测模型预测音素时长帧信息,并利用所述音素时长帧信息将所述文本信息与待克隆的目标语音进行对齐。
6.根据权利要求5所述的语音克隆方法,其特征在于,所述目标时长帧预测模型的训练过程,包括:
获取训练文本的训练音素时长对数以及真实音素时长帧信息;
将所述训练音素时长对数输入至初始时长帧预测模型中,得到所述初始时长帧预测模型输出的预测音素时长帧信息;
求取所述预测音素时长帧信息与所述真实音素时长帧信息之间的误差值,并将所述误差值带入到对齐损失函数中,得到对齐损失;
利用所述对齐损失对所述初始时长帧预测模型进行迭代训练,直到达到预设训练条件后,得到目标时长帧预测模型。
7.根据权利要求1-6中任一项所述的语音克隆方法,其特征在于,所述语音克隆模型的确定过程,包括:
将预先训练好的多人混合模型作为预训练的语音克隆模型,并利用所述目标音色对所述预训练的语音克隆模型进行微调后,得到合成所述目标音色的语音克隆模型;
或者,获取预先训练好的多人混合模型,并根据所述目标音色指定所述多人混合模型的克隆音色后,得到语音克隆模型。
8.一种语音克隆装置,其特征在于,包括:
信息获取模块,用于获取目标用户输入的文本信息及待克隆的目标音色对应的音频信息;
语音克隆模块,用于通过语音克隆模型确定所述文本信息的音素序列、所述音素序列中每一音素的语义信息,以及所述音频信息的音频风格后进行语音合成,并在合成时,将所述文本信息与待克隆的目标语音进行对齐,得到目标语音。
9.一种存储介质,其特征在于:所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项所述语音克隆方法的步骤。
10.一种计算机设备,其特征在于,包括:一个或多个处理器,以及存储器;
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行如权利要求1至7中任一项所述语音克隆方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311555889.5A CN117373429A (zh) | 2023-11-20 | 2023-11-20 | 语音克隆方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311555889.5A CN117373429A (zh) | 2023-11-20 | 2023-11-20 | 语音克隆方法、装置、存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117373429A true CN117373429A (zh) | 2024-01-09 |
Family
ID=89400448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311555889.5A Pending CN117373429A (zh) | 2023-11-20 | 2023-11-20 | 语音克隆方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117373429A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727290A (zh) * | 2024-02-18 | 2024-03-19 | 厦门她趣信息技术有限公司 | 一种语音合成方法、装置、设备及可读存储介质 |
CN118053416A (zh) * | 2024-03-12 | 2024-05-17 | 中邮消费金融有限公司 | 声音定制方法、装置、设备及存储介质 |
-
2023
- 2023-11-20 CN CN202311555889.5A patent/CN117373429A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727290A (zh) * | 2024-02-18 | 2024-03-19 | 厦门她趣信息技术有限公司 | 一种语音合成方法、装置、设备及可读存储介质 |
CN118053416A (zh) * | 2024-03-12 | 2024-05-17 | 中邮消费金融有限公司 | 声音定制方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kameoka et al. | ConvS2S-VC: Fully convolutional sequence-to-sequence voice conversion | |
CN112687259B (zh) | 一种语音合成方法、装置以及可读存储介质 | |
CN112037754B (zh) | 一种语音合成训练数据的生成方法及相关设备 | |
JP2021196598A (ja) | モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN117373429A (zh) | 语音克隆方法、装置、存储介质及计算机设备 | |
CN109767778B (zh) | 一种融合Bi-LSTM和WaveNet的语音转换方法 | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN106971709A (zh) | 统计参数模型建立方法和装置、语音合成方法和装置 | |
Luo et al. | Emotional voice conversion using dual supervised adversarial networks with continuous wavelet transform f0 features | |
Yin et al. | Modeling F0 trajectories in hierarchically structured deep neural networks | |
CN111508470A (zh) | 一种语音合成模型的训练方法及装置 | |
CN112102811B (zh) | 一种合成语音的优化方法、装置及电子设备 | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
CN112837669A (zh) | 语音合成方法、装置及服务器 | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
CN113823265A (zh) | 一种语音识别方法、装置和计算机设备 | |
Gopalakrishnan et al. | Fine tuning and comparing tacotron 2, deep voice 3, and fastspeech 2 tts models in a low resource environment | |
CN112242134A (zh) | 语音合成方法及装置 | |
CN116312476A (zh) | 语音合成方法和装置、存储介质、电子设备 | |
WO2023197206A1 (en) | Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models | |
CN115810341A (zh) | 音频合成方法、装置、设备以及介质 | |
CN118298836B (zh) | 音色转换方法、装置、电子设备、存储介质和程序产品 | |
CN118298837B (zh) | 音色转换方法、装置、电子设备、存储介质和程序产品 | |
CN115457931B (zh) | 一种语音的合成方法、装置、设备及存储介质 | |
CN117373430A (zh) | 音色克隆方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |