CN116580693A - 音色转换模型的训练方法、音色转换方法、装置及设备 - Google Patents
音色转换模型的训练方法、音色转换方法、装置及设备 Download PDFInfo
- Publication number
- CN116580693A CN116580693A CN202310713433.0A CN202310713433A CN116580693A CN 116580693 A CN116580693 A CN 116580693A CN 202310713433 A CN202310713433 A CN 202310713433A CN 116580693 A CN116580693 A CN 116580693A
- Authority
- CN
- China
- Prior art keywords
- audio
- conversion model
- information
- tone
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 181
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000012549 training Methods 0.000 title claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 23
- 230000008859 change Effects 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 13
- 239000012634 fragment Substances 0.000 claims description 12
- 238000002372 labelling Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本申请公开了一种音色转换模型的训练方法、音色转换方法、装置及设备,涉及音频处理技术领域。该方法包括:获取样本音频的音频内容信息、音频特征信息和声纹特征;将上述音频内容信息、音频特征信息和声纹特征,输入至音色转换模型,由音色转换模型输出预测的声学特征;根据预测的声学特征和样本音频的声学特征之间的差异,对音色转换模型的参数进行调整,得到训练后的音色转换模型。通过使用上述多种音频特征,对音色转换模型进行训练,使得采用该模型转换得到的音频与目标音色相似度更高,且发音质量更好。而且,上述针对音色转换模型的训练过程,是一个自监督的训练过程,无需依赖人工标注等其他处理流程,对于训练音色转换模型非常方便。
Description
技术领域
本申请涉及音频处理技术领域,特别涉及一种音色转换模型的训练方法、音色转换方法、装置及设备。
背景技术
语音转换技术是一种将某一个发音人所说的音频内容,转换到另一个发音人的音色上的语音算法技术。本申请主要涉及说话语音的音色转换。
语音转换的技术类型可以分为两类:一是只保留发音人A的音频内容信息,转换后的音频由发音人B的发音节奏(每个字的发音时间)和发音特点(音调高低、音量高低、声音起伏等)来表达该内容信息;二是完全保留发音人A在音频中的内容信息、发音节奏和发音特点等,转换后只是用发音人B的音色声纹来表达该音频,通俗的说即将发音人B的音色“套”在该音频上。本申请主要针对上述第二种语音转换技术。
然而,目前针对上述第二种语音转换技术,其转换效果还需进一步提升。
发明内容
本申请实施例提供了一种音色转换模型的训练方法、音色转换方法、装置及设备。本申请实施例提供的技术方案如下:
根据本申请实施例的一个方面,提供了一种音色转换模型的训练方法,所述方法包括:
获取样本音频的音频内容信息、音频特征信息和声纹特征,所述音频内容信息用于表征所述样本音频的音频内容,所述音频特征信息用于表征所述样本音频的发音特点;
将所述音频内容信息、所述音频特征信息和所述声纹特征,输入至音色转换模型,由所述音色转换模型输出预测的声学特征;
根据所述预测的声学特征和所述样本音频的声学特征之间的差异,对所述音色转换模型的参数进行调整,得到训练后的音色转换模型。
根据本申请实施例的一个方面,提供了一种音色转换方法,所述方法包括:
获取第一音频的音频内容信息和音频特征信息,所述音频内容信息用于表征所述第一音频的音频内容,所述音频特征信息用于表征所述第一音频的发音特点;
将所述音频内容信息、所述音频特征信息以及目标音色的声纹特征,输入至音色转换模型,由所述音色转换模型输出声学特征;
根据所述声学特征生成第二音频,所述第二音频是保留所述第一音频的音频内容和发音特点,并将所述第一音频的音色转换为所述目标音色之后的音频。
根据本申请实施例的一个方面,提供了一种音色转换模型的训练装置,所述装置包括:
获取模块,用于获取样本音频的音频内容信息、音频特征信息和声纹特征,所述音频内容信息用于表征所述样本音频的音频内容,所述音频特征信息用于表征所述样本音频的发音特点;
处理模块,用于将所述音频内容信息、所述音频特征信息和所述声纹特征,输入至音色转换模型,由所述音色转换模型输出预测的声学特征;
调整模块,用于根据所述预测的声学特征和所述样本音频的声学特征之间的差异,对所述音色转换模型的参数进行调整,得到训练后的音色转换模型。
根据本申请实施例的一个方面,提供了一种音色转换装置,所述装置包括:
获取模块,用于获取第一音频的音频内容信息和音频特征信息,所述音频内容信息用于表征所述第一音频的音频内容,所述音频特征信息用于表征所述第一音频的发音特点;
处理模块,用于将所述音频内容信息、所述音频特征信息以及目标音色的声纹特征,输入至音色转换模型,由所述音色转换模型输出声学特征;
生成模块,用于根据所述声学特征生成第二音频,所述第二音频是保留所述第一音频的音频内容和发音特点,并将所述第一音频的音色转换为所述目标音色之后的音频。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述音色转换模型的训练方法,或者实现上述音色转换方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述音色转换模型的训练方法,或者实现上述音色转换方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序以实现上述音色转换模型的训练方法,或者实现上述音色转换方法。
本申请实施例提供的技术方案至少包括如下有益效果:
通过获取样本音频的音频内容信息、音频特征信息和声纹特征,将样本音频的上述信息输入至音色转换模型,由该音色转换模型输出预测的声学特征,然后根据预测的声学特征和样本音频的声学特征之间的差异,对音色转换模型的参数进行调整,得到训练后的音色转换模型;通过使用上述多种音频特征,对音色转换模型进行训练,使得采用该模型转换得到的音频与目标音色相似度更高,且发音质量更好。而且,上述针对音色转换模型的训练过程,是一个自监督的训练过程,无需依赖人工标注等其他处理流程,对于训练音色转换模型非常方便。
附图说明
图1是本申请一个实施例提供的方案实施环境的示意图;
图2是本申请一个实施例提供的语音转换系统的示意图;
图3是本申请一个实施例提供的音色转换模型的训练方法的流程图;
图4是本申请一个实施例提供的音色转换模型的训练过程的示意图;
图5是本申请一个实施例提供的音色转换方法的流程图;
图6是本申请一个实施例提供的音色转换模型的训练装置的框图;
图7是本申请一个实施例提供的音色转换装置的框图;
图8是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图,该方案实施环境可以包括:模型训练设备10和模型使用设备20。
模型训练设备10可以是诸如个人计算机、电脑、平板电脑、服务器、智能机器人等电子设备,或者是其他一些具有较强计算能力的电子设备。模型训练设备10用于对音色转换模型15进行训练。在一些实施例中,模型训练设备10可以采用机器学习的方式对音色转换模型15进行训练,以使其具备较好的性能。在模型训练过程中,获取样本音频的音频内容信息、音频特征信息和声纹特征,将样本音频的上述信息输入至音色转换模型15,由音色转换模型15输出预测的声学特征,然后根据该预测的声学特征和样本音频的声学特征之间的差异,对音色转换模型15的参数进行调整,得到训练后的音色转换模型15。对于上述音色转换模型15的具体训练过程,将在下文实施例中作详细介绍,在此不过多赘述。
上述训练完成的音色转换模型15可部署在模型使用设备20中使用,以用于对音频进行音色转换。模型使用设备20可以是诸如手机、电脑、智能电视、多媒体播放设备、车载终端设备等终端设备,也可以是服务器,本申请对此不作限定。示例性地,训练完成的音色转换模型15可以根据第一音频的音频内容信息和音频特征信息,以及目标音色的声纹特征,输出声学特征,然后再根据声学特征生成第二音频,该第二音频是保留第一音频的音频内容和发音特点,并将第一音频的音色转换为目标音色之后的音频。
在一些实施例中,本申请提供了一个语音转换系统,该语音转换系统旨在通过指定目标音色,对任意音频转换为该目标音色发声的音频,且同时保留原始音频的发音节奏、音调起伏、发音细节等音频特点。
示例性地,如图2所示,语音转换系统30包括音频内容获取模型12、音色转换模型15和声码器模型18。
音频内容获取模型12用于获取音频的音频内容信息,该音频内容信息用于表征音频的音频内容。示例性地,音频内容信息包括音频的PPG(Phonetic PosteriorGrams,语音后验概率)特征。PPG特征是一个时间对类别的矩阵,是语音识别过程中的一个中间特征,其表示对于一段语音的每个特定时间帧,每个语音类别(如每个音素)的后验概率。其中,音素是指是根据语音的自然属性划分出来的最小语音单位,是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。依据音节里的发音动作来分析,一个动作构成一个音素。在一些实施例中,音素分为元音与辅音两大类。例如,汉语音节啊(ā)只有一个音素,爱(ài)有两个音素,代(dài)有三个音素。
音色转换模型15用于根据音频内容信息、音频特征信息和声纹特征,生成声学特征。在一些实施例中,音频特征信息包括:第一特征信息和第二特征信息。第一特征信息用于表征音频的基频的变化情况,第二特征信息用于表征音频的轻辅音的变化情况。声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。研究表明,声纹不仅具有特定性,而且有相对稳定性的特点。实验证明,无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终不变。因此,声纹特征反映了用户的音色,不同的音色具有不同的声纹特征。
声码器模型18用于根据声学特征,生成相应的音频。声码器模型18的输入是声学特征,本申请使用梅尔频谱作为声学特征来学习;输出是音频的波形文件。即是说,声码器模型18的作用是将模型学习的声学特征还原回音频的波形文件。
语音转换系统30中的音频内容获取模型12和声码器模型18可以是已经提前预训练好的通用模型,音色转换模型15需要进行针对性的训练。在本申请实施例中,主要讲述音色转换模型15的训练过程。在一些实施例中,音频内容获取模型12使用wenet模型结构,利用10000+小时的音频数据预训练得到。声码器模型18使用univnet结构,利用包含3000+音色接近2000小时的音频数据预训练得到。音色转换模型15可以分如下两个步骤进行训练:
(1)利用3000+音色接近2000小时的音频数据预训练一个基础的音色转换模型;
(2)根据需要哪些目标音色,用该目标音色的音频来微调训练第一步得到的基础的音色转换模型,得到最终训练完成的音色转换模型。这一步可以只使用一个目标音色数据,也可以使用多个目标音色数据同时训练。如果目标音色数据已经包含在第一步训练使用的数据中,则不需要这一步的微调过程,直接使用基础的音色转换模型即可转换音频。
当然,上文针对各个模型的结构以及训练模型所用的数据量,均是示例性和解释性的,这可以结合实际情况进行灵活设计和调整,本申请对此不作限定。
本申请实施例提供的方法,各步骤的执行主体可以是计算机设备,该计算机设备是指具备数据计算、处理和存储能力的电子设备。该计算机设备可以是诸如PC(PersonalComputer,个人计算机)、平板电脑、智能手机、可穿戴设备、智能机器人等终端设备;也可以是服务器。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。计算机设备可以是图1中的模型训练设备10,用于执行本申请实施例提供的音色转换模型的训练方法;也可以是模型使用设备20,用于执行本申请实施例提供的音色转换方法。
请参考图3,其示出了本申请一个实施例提供的音色转换模型的训练方法的流程图。该方法各步骤的执行主体可以是计算机设备,如上文介绍的模型训练设备。该方法可以包括如下步骤310~330中的至少一个步骤。
步骤310,获取样本音频的音频内容信息、音频特征信息和声纹特征。
样本音频的音频内容信息用于表征该样本音频的音频内容。在一些实施例中,样本音频的音频内容信息包括该样本音频的PPG特征。在一些实施例中,提取PPG特征时,本申请使用训练好的wenet网络模型作为音频内容获取模型,进行PPG特征的提取。为了让转换过程中,音频的内容信息保留得更完整,我们提取了wenet网络(共12层encoder(编码器))中第8层encoder的输出作为表征音频内容信息的PPG特征。
在一些实施例中,通过如下方式获取样本音频的音频内容信息:获取样本音频的声学特征,对样本音频的声学特征进行数据增强处理,得到增强后的声学特征,将该增强后的声学特征输入至音频内容获取模型,由音频内容获取模型输出样本音频的音频内容信息。
声学特征指表示语音声学特性的物理量,也是声音诸要素声学表现的统称。如表示音色的能量集中区、共振峰频率、共振峰强度和带宽,以及表示语音韵律特性的时长、基频、平均语声功率等。在一些实施例中,样本音频的声学特征包括该样本音频的梅尔频谱。
在一些实施例中,为了减少除了音频内容信息之外的其他音色信息的特征泄露,本申请使用了特征数据增强的方法,对音频内容获取模型的输入信息(即样本音频的声学特征)进行数据增强处理。在一些实施例中,数据增强处理包括以下至少之一:基频变化、共振峰变化、能量变化。例如,对样本音频的声学特征进行随机的基频变化、共振峰变化和能量变化中的至少之一,得到增强后的声学特征。然后,再将该增强后的声学特征输入至音频内容获取模型,由音频内容获取模型输出样本音频的音频内容信息。
对于一个能适应来自不同人、不同场景下的输入待转换音频,语音转换框架就需要增强自身的鲁棒性去完整的提取其发音内容和发音细节。因此,本申请在训练音色转换模型的过程中,对于每一段输入音频都会随机性地对基频、共振峰和频谱频带能量做一定范围的动态变化,去模拟实际过程中可能遇到的输入音频的类型,以增强音色转换模型的转换能力。通过这样的数据增强处理,音频的输入信息在每次迭代都发生随机性的变化,但是这些变化都不会影响PPG特征的提取,因此音色转换模型可以更加专注地从PPG特征学习得到输入音频的内容信息,从而保证了转换中音频内容保留的完整性。另外,本申请所用的数据增强方法不局限于提到的上述3种方法,只要不影响音频内容信息的提取的方法,均可以用于此处增强特征数据的鲁棒性。
样本音频的音频特征信息用于表征该样本音频的发音特点。其中,发音特点包括但不限于音调高低、音量高低、声音起伏等。
在一些实施例中,样本音频的音频特征信息包括:该样本音频的第一特征信息和第二特征信息。样本音频的第一特征信息用于表征该样本音频的基频的变化情况。样本音频的第二特征信息用于表征该样本音频的轻辅音的变化情况。
在一些实施例中,通过如下方式获取样本音频的音频特征信息:将样本音频划分为多个音频片段,获取多个音频片段各自的基频,对于每一个音频片段,根据该音频片段的基频,以及多个音频片段各自的基频的平均值,确定音频片段的基频变化量,根据多个音频片段各自的基频变化量,得到第一特征信息。另外,对于每一个音频片段,根据该音频片段的基频,确定音频片段的轻辅音特征值,轻辅音特征值用于表征音频片段属于轻音片段或辅音片段,根据多个音频片段各自的轻辅音特征值,得到第二特征信息。
示例性地,任意一个音频片段的基频变化量deltaf0采用如下公式计算得到:
其中,f0表示该音频片段的基频,f0_mean表示样本音频划分得到的多个音频片段各自的基频的平均值。样本音频的第一特征信息,即包括该样本音频划分得到的多个音频片段各自的基频变化量,例如,按照该多个音频片段的时间先后的顺序,对该多个音频片段各自的基频变化量进行排序,得到的一个包含该多个音频片段各自的基频变化量的序列,即为样本音频的第一特征信息。
示例性地,任意一个音频片段的轻辅音特征值value采用如下式子表示:
其中,f0表示该音频片段的基频,value=0表示该音频片段属于轻音片段,value=1表示该音频片段属于辅音片段。当然,在一些其他实施例中,也可以采用value=0表示该音频片段属于辅音片段,value=1表示该音频片段属于轻音片段,或者采用其他数值来表示轻音片段和辅音片段,本申请对此不作限定。样本音频的第二特征信息,即包括该样本音频划分得到的多个音频片段各自的轻辅音特征值,例如,按照该多个音频片段的时间先后的顺序,对该多个音频片段各自的轻辅音特征值进行排序,得到的一个包含该多个音频片段各自的轻辅音特征值的序列,即为样本音频的第二特征信息。
音频的基频信息可以很好地代表音频发音信息的音调起伏和轻音辅音等发音特点,但是如果直接使用基频的话,很容易带来音色泄露,导致转换后音频的音色相似度与目标音色的相似度不高的问题。因此,本申请采用instance normalization(实例归一化)的方式,对每一个音频片段的基频计算其变化趋势deltaf0,让它既表征了音频特征信息,又减少音色的泄露。同时,为了补充deltaf0对于音频发音特点的表征,v/uv信息(即上述第二特征信息)可以增强转换后轻音和辅音的发音质量,减少转换后音频发音含糊不清、音调不和谐等问题。
样本音频的声纹特征用于表征该样本音频的声纹。声纹特征反映了用户的音色,不同的音色具有不同的声纹特征。音频的声纹特征通过声纹提取模型进行提取得到。声纹的提取方式有比较多种,方式也很成熟,本申请在这里不做赘述。
步骤320,将上述音频内容信息、音频特征信息和声纹特征,输入至音色转换模型,由音色转换模型输出预测的声学特征。
在模型训练阶段,将样本音频的音频内容信息、该样本音频的音频特征信息,以及该样本音频的声纹特征,输入至音色转换模型,由音色转换模型输出预测的声学特征。
在一些实施例中,音色转换模型可以是基于神经网络构建的机器学习模型。在本申请实施例中,对音色转换模型的神经网络结构不作限定。示例性地,其可以使用CNN(Convolutional Neural Network,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)、Transformer等结构。示例性地,本申请使用了一个Flow结构作为音色转换模型的网络结构,能够更好地拟合音频声学特征。且Flow结构相比Transformer结构,在进行字数较多的长段音频合成时,在不损失特征拟合能力的情况下,计算量的增加幅度更小。当合成的文本长度为T时,Flow结构的计算复杂度为O(T),而Transformer结构的计算复杂度为O(T*T)。
步骤330,根据预测的声学特征和样本音频的声学特征之间的差异,对音色转换模型的参数进行调整,得到训练后的音色转换模型。
在一些实施例中,根据预测的声学特征和样本音频的声学特征之间的差异,计算损失函数值,根据损失函数值对音色转换模型的参数进行调整,得到训练后的音色转换模型。其中,样本音频的声学特征可以直接从样本音频中提取得到,例如以梅尔频谱作为声学特征为例,将样本音频的梅尔频谱,作为该样本音频的声学特征。
在一些实施例中,可以采用反向传播的方式,以最小化损失函数值为目标,对音色转换模型的参数进行调整,得到训练后的音色转换模型。
如图4所示,其示出了音色转换模型15的训练过程的示意图。首先,获取样本音频的声学特征(如梅尔频谱),对样本音频的声学特征进行数据增强处理(如基频变化、共振峰变化、能量变化等),得到增强后的声学特征,将该增强后的声学特征输入至预训练好的音频内容获取模型12,由音频内容获取模型12输出样本音频的音频内容信息(如PPG特征)。然后,将样本音频的音频内容信息、该样本音频的音频特征信息(包括第一特征信息和第二特征信息)以及该样本音频的声纹特征,输入至音色转换模型15,由该音色转换模型15输出预测的声学特征。之后,根据预测的声学特征和样本音频的声学特征之间的差异,计算损失函数值,根据损失函数值对音色转换模型15的参数进行调整,得到训练后的音色转换模型。
综上所述,本申请实施例提供的技术方案,通过获取样本音频的音频内容信息、音频特征信息和声纹特征,将样本音频的上述信息输入至音色转换模型,由该音色转换模型输出预测的声学特征,然后根据预测的声学特征和样本音频的声学特征之间的差异,对音色转换模型的参数进行调整,得到训练后的音色转换模型;通过使用上述多种音频特征,对音色转换模型进行训练,使得采用该模型转换得到的音频与目标音色相似度更高,且发音质量更好。而且,上述针对音色转换模型的训练过程,是一个自监督的训练过程,无需依赖人工标注等其他处理流程,对于训练音色转换模型非常方便。
下面,通过实施例对使用上述音色转换模型进行音色转换的流程进行介绍说明,有关该音色转换模型使用过程中涉及的内容和训练过程中涉及的内容是相互对应的,两者互通,如在一侧为作详细说明的地方,可以参考另一侧的描述说明。
请参考图5,其示出了本申请一个实施例提供的音色转换方法的流程图。该方法各步骤的执行主体可以是计算机设备,如上文介绍的模型使用设备。该方法可以包括如下步骤510~530中的至少一个步骤。
步骤510,获取第一音频的音频内容信息和音频特征信息。
第一音频的音频内容信息用于表征该第一音频的音频内容。在一些实施例中,获取第一音频的声学特征,将第一音频的声学特征输入至音频内容获取模型,由音频内容获取模型输出第一音频的音频内容信息。
第一音频的音频特征信息用于表征该第一音频的发音特点。在一些实施例中,第一音频的音频特征信息包括:该第一音频的第一特征信息和第二特征信息。其中,第一音频的第一特征信息用于表征该第一音频的基频的变化情况,第一音频的第二特征信息用于表征该第一音频的轻辅音的变化情况。
在一些实施例中,将第一音频划分为多个音频片段,获取该多个音频片段各自的基频,对于每一个音频片段,根据该音频片段的基频,以及上述多个音频片段各自的基频的平均值,确定该音频片段的基频变化量,根据多个音频片段各自的基频变化量,得到第一特征信息。另外,对于每一个音频片段,根据该音频片段的基频,确定该音频片段的轻辅音特征值,轻辅音特征值用于表征音频片段属于轻音片段或辅音片段,根据多个音频片段各自的轻辅音特征值,得到第二特征信息。
有关音频内容信息和音频特征信息的相关介绍说明,可参见上文实施例,此处不再赘述。
步骤520,将第一音频的音频内容信息、该第一音频的音频特征信息,以及目标音色的声纹特征,输入至音色转换模型,由音色转换模型输出声学特征。
目标音色是指期望转换至的音色。目标音色的声纹特征可以从具有该目标音色的音频内容中提取得到。
步骤530,根据声学特征生成第二音频,第二音频是保留第一音频的音频内容和发音特点,并将第一音频的音色转换为目标音色之后的音频。
在一些实施例中,将音色转换模型输出的声学特征,输入至声码器模型,由声码器模型输出第二音频。
综上所述,本申请实施例提供的技术方案,通过获取第一音频的音频内容信息和音频特征信息,将第一音频的上述信息和目标音色的声纹特征输入至音色转换模型,由该音色转换模型输出声学特征,然后根据上述声学特征生成音色转换后的第二音频;通过使用上述多种音频特征,使得采用该模型转换得到的音频与目标音色相似度更高,且发音质量更好。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图6,其示出了本申请一个实施例提供的音色转换模型的训练装置的框图。该装置具有实现上述音色转换模型的训练方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置600可以包括:获取模块610、处理模块620和调整模块630。
获取模块610,用于获取样本音频的音频内容信息、音频特征信息和声纹特征,所述音频内容信息用于表征所述样本音频的音频内容,所述音频特征信息用于表征所述样本音频的发音特点。
处理模块620,用于将所述音频内容信息、所述音频特征信息和所述声纹特征,输入至音色转换模型,由所述音色转换模型输出预测的声学特征。
调整模块630,用于根据所述预测的声学特征和所述样本音频的声学特征之间的差异,对所述音色转换模型的参数进行调整,得到训练后的音色转换模型。
在一些实施例中,所述获取模块610,用于获取所述样本音频的声学特征;对所述样本音频的声学特征进行数据增强处理,得到增强后的声学特征;将所述增强后的声学特征输入至音频内容获取模型,由所述音频内容获取模型输出所述样本音频的音频内容信息。
在一些实施例中,所述数据增强处理包括以下至少之一:基频变化、共振峰变化、能量变化。
在一些实施例中,所述音频特征信息包括:第一特征信息,用于表征所述样本音频的基频的变化情况;第二特征信息,用于表征所述样本音频的轻辅音的变化情况。
在一些实施例中,所述获取模块610,用于将所述样本音频划分为多个音频片段;获取所述多个音频片段各自的基频;对于每一个音频片段,根据所述音频片段的基频,以及所述多个音频片段各自的基频的平均值,确定所述音频片段的基频变化量;根据所述多个音频片段各自的基频变化量,得到所述第一特征信息;对于每一个音频片段,根据所述音频片段的基频,确定所述音频片段的轻辅音特征值,所述轻辅音特征值用于表征所述音频片段属于轻音片段或辅音片段;根据所述多个音频片段各自的轻辅音特征值,得到所述第二特征信息。
在一些实施例中,所述调整模块630,用于根据所述预测的声学特征和所述样本音频的声学特征之间的差异,计算损失函数值;根据所述损失函数值对所述音色转换模型的参数进行调整,得到训练后的音色转换模型。
综上所述,本申请实施例提供的技术方案,通过获取样本音频的音频内容信息、音频特征信息和声纹特征,将样本音频的上述信息输入至音色转换模型,由该音色转换模型输出预测的声学特征,然后根据预测的声学特征和样本音频的声学特征之间的差异,对音色转换模型的参数进行调整,得到训练后的音色转换模型;通过使用上述多种音频特征,对音色转换模型进行训练,使得采用该模型转换得到的音频与目标音色相似度更高,且发音质量更好。而且,上述针对音色转换模型的训练过程,是一个自监督的训练过程,无需依赖人工标注等其他处理流程,对于训练音色转换模型非常方便。
请参考图7,其示出了本申请一个实施例提供的音色转换装置的框图。该装置具有实现上述音色转换方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置700可以包括:获取模块710、处理模块720和生成模块730。
获取模块710,用于获取第一音频的音频内容信息和音频特征信息,所述音频内容信息用于表征所述第一音频的音频内容,所述音频特征信息用于表征所述第一音频的发音特点。
处理模块720,用于将所述音频内容信息、所述音频特征信息以及目标音色的声纹特征,输入至音色转换模型,由所述音色转换模型输出声学特征。
生成模块730,用于根据所述声学特征生成第二音频,所述第二音频是保留所述第一音频的音频内容和发音特点,并将所述第一音频的音色转换为所述目标音色之后的音频。
在一些实施例中,所述音频特征信息包括:第一特征信息,用于表征所述第一音频的基频的变化情况;第二特征信息,用于表征所述第一音频的轻辅音的变化情况。
在一些实施例中,所述获取模块710,用于将所述第一音频划分为多个音频片段;获取所述多个音频片段各自的基频;对于每一个音频片段,根据所述音频片段的基频,以及所述多个音频片段各自的基频的平均值,确定所述音频片段的基频变化量;根据所述多个音频片段各自的基频变化量,得到所述第一特征信息;对于每一个音频片段,根据所述音频片段的基频,确定所述音频片段的轻辅音特征值,所述轻辅音特征值用于表征所述音频片段属于轻音片段或辅音片段;根据所述多个音频片段各自的轻辅音特征值,得到所述第二特征信息。
在一些实施例中,所述获取模块710,用于获取所述第一音频的声学特征;将所述第一音频的声学特征输入至音频内容获取模型,由所述音频内容获取模型输出所述第一音频的音频内容信息。
综上所述,本申请实施例提供的技术方案,通过获取第一音频的音频内容信息和音频特征信息,将第一音频的上述信息和目标音色的声纹特征输入至音色转换模型,由该音色转换模型输出声学特征,然后根据上述声学特征生成音色转换后的第二音频;通过使用上述多种音频特征,使得采用该模型转换得到的音频与目标音色相似度更高,且发音质量更好。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图8,其示例性示出了本申请一个实施例提供的计算机设备的结构框图。
通常,计算机设备800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、14核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是有形的和非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质存储有计算机程序,该计算机程序由处理器801加载并执行以实现上述音色转换模型的训练方法或上述音色转换方法。
本领域技术人员可以理解,图8中示出的结构并不构成对计算机设备800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在一些实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述音色转换模型的训练方法或音色转换方法。
可选地,该计算机可读存储介质可以包括:ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在一些实施例中,还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现上述音色转换模型的训练方法或音色转换方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种音色转换模型的训练方法,其特征在于,所述方法包括:
获取样本音频的音频内容信息、音频特征信息和声纹特征,所述音频内容信息用于表征所述样本音频的音频内容,所述音频特征信息用于表征所述样本音频的发音特点;
将所述音频内容信息、所述音频特征信息和所述声纹特征,输入至音色转换模型,由所述音色转换模型输出预测的声学特征;
根据所述预测的声学特征和所述样本音频的声学特征之间的差异,对所述音色转换模型的参数进行调整,得到训练后的音色转换模型。
2.根据权利要求1所述的方法,其特征在于,所述获取样本音频的音频内容信息,包括:
获取所述样本音频的声学特征;
对所述样本音频的声学特征进行数据增强处理,得到增强后的声学特征;
将所述增强后的声学特征输入至音频内容获取模型,由所述音频内容获取模型输出所述样本音频的音频内容信息。
3.根据权利要求2所述的方法,其特征在于,所述数据增强处理包括以下至少之一:基频变化、共振峰变化、能量变化。
4.根据权利要求1所述的方法,其特征在于,所述音频特征信息包括:
第一特征信息,用于表征所述样本音频的基频的变化情况;
第二特征信息,用于表征所述样本音频的轻辅音的变化情况。
5.根据权利要求4所述的方法,其特征在于,所述获取样本音频的音频特征信息,包括:
将所述样本音频划分为多个音频片段;
获取所述多个音频片段各自的基频;
对于每一个音频片段,根据所述音频片段的基频,以及所述多个音频片段各自的基频的平均值,确定所述音频片段的基频变化量;
根据所述多个音频片段各自的基频变化量,得到所述第一特征信息;
对于每一个音频片段,根据所述音频片段的基频,确定所述音频片段的轻辅音特征值,所述轻辅音特征值用于表征所述音频片段属于轻音片段或辅音片段;
根据所述多个音频片段各自的轻辅音特征值,得到所述第二特征信息。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述预测的声学特征和所述样本音频的声学特征之间的差异,对所述音色转换模型的参数进行调整,得到训练后的音色转换模型,包括:
根据所述预测的声学特征和所述样本音频的声学特征之间的差异,计算损失函数值;
根据所述损失函数值对所述音色转换模型的参数进行调整,得到训练后的音色转换模型。
7.一种音色转换方法,其特征在于,所述方法包括:
获取第一音频的音频内容信息和音频特征信息,所述音频内容信息用于表征所述第一音频的音频内容,所述音频特征信息用于表征所述第一音频的发音特点;
将所述音频内容信息、所述音频特征信息以及目标音色的声纹特征,输入至音色转换模型,由所述音色转换模型输出声学特征;
根据所述声学特征生成第二音频,所述第二音频是保留所述第一音频的音频内容和发音特点,并将所述第一音频的音色转换为所述目标音色之后的音频。
8.根据权利要求7所述的方法,其特征在于,所述音频特征信息包括:
第一特征信息,用于表征所述第一音频的基频的变化情况;
第二特征信息,用于表征所述第一音频的轻辅音的变化情况。
9.根据权利要求8所述的方法,其特征在于,所述获取第一音频的音频特征信息,包括:
将所述第一音频划分为多个音频片段;
获取所述多个音频片段各自的基频;
对于每一个音频片段,根据所述音频片段的基频,以及所述多个音频片段各自的基频的平均值,确定所述音频片段的基频变化量;
根据所述多个音频片段各自的基频变化量,得到所述第一特征信息;
对于每一个音频片段,根据所述音频片段的基频,确定所述音频片段的轻辅音特征值,所述轻辅音特征值用于表征所述音频片段属于轻音片段或辅音片段;
根据所述多个音频片段各自的轻辅音特征值,得到所述第二特征信息。
10.根据权利要求7至9任一项所述的方法,其特征在于,所述获取第一音频的音频内容信息,包括:
获取所述第一音频的声学特征;
将所述第一音频的声学特征输入至音频内容获取模型,由所述音频内容获取模型输出所述第一音频的音频内容信息。
11.一种音色转换模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取样本音频的音频内容信息、音频特征信息和声纹特征,所述音频内容信息用于表征所述样本音频的音频内容,所述音频特征信息用于表征所述样本音频的发音特点;
处理模块,用于将所述音频内容信息、所述音频特征信息和所述声纹特征,输入至音色转换模型,由所述音色转换模型输出预测的声学特征;
调整模块,用于根据所述预测的声学特征和所述样本音频的声学特征之间的差异,对所述音色转换模型的参数进行调整,得到训练后的音色转换模型。
12.一种音色转换装置,其特征在于,所述装置包括:
获取模块,用于获取第一音频的音频内容信息和音频特征信息,所述音频内容信息用于表征所述第一音频的音频内容,所述音频特征信息用于表征所述第一音频的发音特点;
处理模块,用于将所述音频内容信息、所述音频特征信息以及目标音色的声纹特征,输入至音色转换模型,由所述音色转换模型输出声学特征;
生成模块,用于根据所述声学特征生成第二音频,所述第二音频是保留所述第一音频的音频内容和发音特点,并将所述第一音频的音色转换为所述目标音色之后的音频。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至6任一项所述的音色转换模型的训练方法,或者实现如权利要求7至10任一项所述的音色转换方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至6任一项所述的音色转换模型的训练方法,或者实现如权利要求7至10任一项所述的音色转换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310713433.0A CN116580693A (zh) | 2023-06-15 | 2023-06-15 | 音色转换模型的训练方法、音色转换方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310713433.0A CN116580693A (zh) | 2023-06-15 | 2023-06-15 | 音色转换模型的训练方法、音色转换方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116580693A true CN116580693A (zh) | 2023-08-11 |
Family
ID=87541528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310713433.0A Pending CN116580693A (zh) | 2023-06-15 | 2023-06-15 | 音色转换模型的训练方法、音色转换方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580693A (zh) |
-
2023
- 2023-06-15 CN CN202310713433.0A patent/CN116580693A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Expressive TTS training with frame and style reconstruction loss | |
US20220208170A1 (en) | Generating Expressive Speech Audio From Text Data | |
US11514888B2 (en) | Two-level speech prosody transfer | |
US11881210B2 (en) | Speech synthesis prosody using a BERT model | |
CN111276120A (zh) | 语音合成方法、装置和计算机可读存储介质 | |
CN113539231B (zh) | 音频处理方法、声码器、装置、设备及存储介质 | |
CN110663080A (zh) | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 | |
KR102137523B1 (ko) | 텍스트-음성 변환 방법 및 시스템 | |
Nakamura et al. | Fast and high-quality singing voice synthesis system based on convolutional neural networks | |
Singh et al. | Spectral modification based data augmentation for improving end-to-end ASR for children's speech | |
Gong et al. | Improving naturalness and controllability of sequence-to-sequence speech synthesis by learning local prosody representations | |
Lesnichaia et al. | Classification of Accented English Using CNN Model Trained on Amplitude Mel-Spectrograms. | |
Krug et al. | Articulatory synthesis for data augmentation in phoneme recognition | |
CN116580693A (zh) | 音色转换模型的训练方法、音色转换方法、装置及设备 | |
Gao | Audio deepfake detection based on differences in human and machine generated speech | |
CN113436607A (zh) | 一种快速语音克隆方法 | |
Bous | A neural voice transformation framework for modification of pitch and intensity | |
CN114299910B (zh) | 语音合成模型的训练方法、使用方法、装置、设备及介质 | |
Yeh et al. | A consistency analysis on an acoustic module for Mandarin text-to-speech | |
KR102532253B1 (ko) | 스펙트로그램에 대응하는 어텐션 얼라인먼트의 디코더 스코어를 연산하는 방법 및 음성 합성 시스템 | |
Lu et al. | Unlocking the Potential: an evaluation of Text-to-Speech Models for the Bahnar Language | |
Galajit et al. | ThaiSpoof: A Database for Spoof Detection in Thai Language | |
Zhang et al. | Learning Emotion Information for Expressive Speech Synthesis Using Multi-resolution Modulation-filtered Cochleagram | |
Le Beux et al. | Calliphony: a real-time intonation controller for expressive speech synthesis. | |
Kadiri et al. | Investigation of self-supervised pre-trained models for classification of voice quality from speech and neck surface accelerometer signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |