CN114724539A - 一种生成个性化音色的歌唱合成方法、装置及存储介质 - Google Patents
一种生成个性化音色的歌唱合成方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114724539A CN114724539A CN202210434225.2A CN202210434225A CN114724539A CN 114724539 A CN114724539 A CN 114724539A CN 202210434225 A CN202210434225 A CN 202210434225A CN 114724539 A CN114724539 A CN 114724539A
- Authority
- CN
- China
- Prior art keywords
- acoustic feature
- phoneme
- sequence
- data
- feature data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 4
- 238000010606 normalization Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 230000015572 biosynthetic process Effects 0.000 abstract description 5
- 238000003786 synthesis reaction Methods 0.000 abstract description 5
- 230000033764 rhythmic process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
本发明涉及语音信号处理及人工智能技术领域,具体而言,涉及一种生成个性化音色的歌唱合成方法、装置及存储介质,该方法的步骤包括:获取历史声学特征数据,建立声学特征训练模型,通过历史声学特征数据对声学特征训练模型进行训练,得到完成训练的声学特征训练模型;输入设定声学特征数据,经预处理后,得到音素数据序列,根据音素的持续时间对音素进行扩充,形成音素扩充序列,对音素扩充序列进行处理,使其与设定声学特征数据的长度一致,之后整合并输入至完成训练的声学特征训练模型内进行计算,得到声谱图,通过声码器对声谱图进行合成,完成个性化音色的生成,其中,音素数据序列包括各个音素的持续时间与音高。
Description
技术领域
本发明涉及语音信号处理及人工智能技术领域,具体而言,涉及一种生成个性化音色的歌唱合成方法、装置及存储介质。
背景技术
近年来随着人工智能的不断发展,其技术应用在各个领域上。人工智能在娱乐、教育上的应用场景越来越多,歌唱合成就是人工智能应用在歌唱领域,不仅可以降低音乐创作和音乐教育等的成本,而且还能提高效率,从而促进歌唱产业的发展。在现有技术中,歌唱合成技术是通过大批量的数据,合成一个或多个较为清晰的歌唱音色,然而这样会存在一系列问题,一方面,想完成音色定制需要用大批量数据重新训练出一个新模型,但新模型不能获取声学特征的细粒度信息,导致模型泛化能力较弱,增加了定制方的成本;另一方面,新模型训练时间较长,没有很好的手段在参数和声音质量之间找到平衡,从而造成了服务方的内存存储和服务成本的增加。针对上述问题,我们设计了一种生成个性化音色的歌唱合成方法、装置及存储介质。
发明内容
本发明的目的在于提供一种生成个性化音色的歌唱合成方法、装置及存储介质,其用于解决上述技术问题。
本发明的实施例通过以下技术方案实现:
一种生成个性化音色的歌唱合成方法,包括如下内容:
获取历史声学特征数据,建立声学特征训练模型,通过历史声学特征数据对声学特征训练模型进行训练,得到完成训练的声学特征训练模型;
输入设定声学特征数据,经预处理后,得到音素数据序列,根据音素的持续时间对音素进行扩充,形成音素扩充序列,对音素扩充序列进行处理,使其与设定声学特征数据的长度一致,之后整合并输入至完成训练的声学特征训练模型内进行计算,得到声谱图,通过声码器对声谱图进行合成,完成个性化音色的生成,其中,音素数据序列包括各个音素的持续时间与音高。
可选的,所述历史声学特征数据包括歌唱音频、重音、韵律、持续时间以及环境噪声。
可选的,所述声学特征训练模型具体为Transformer结构模型,且所述Transformer结构模型中的各个Transformer块中均包括一个自注意网络和一个前馈网络。
可选的,所述声学特征训练模型预设有speaker embedding模块,所述speakerembedding模块用于获取声学特征内的细粒度数据。
可选的,所述声学特征训练模型还引入有条件归一化单元,其计算公式如下所示:
通过条件归一化单元对自注意网络与前馈网络进行归一化应用,完成对Transformer结构模型的微调。
可选的,所述设定声学特征数据的预处理过程具体为:将设定声学特征数据嵌入到相同维度的稠密向量中得到向量序列,再将所述向量序列与位置编码进行运算叠加,经多个一维卷积网络后,得到音素数据序列。
一种生成个性化音色的歌唱合成装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任意一项所述的一种生成个性化音色的歌唱合成方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述的一种生成个性化音色的歌唱合成方法的步骤。
本发明实施例的技术方案至少具有如下优点和有益效果:
本发明设计合理、结构简单,通过加入speaker embedding模块和在decoder的部分中引入条件归一化层来微调部分参数,达到生成个性化音色的目的。
附图说明
图1为本发明提供的一种生成个性化音色的歌唱合成方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
在本发明中,声学特征分为两个维度:一是歌唱音频;二是音素水平的声学条件分别的进行建模,包括重音、韵律和时间环境噪声等,因为运用小批量数据定制个性化音色歌唱,对于一些特征会造成过拟合和模型泛化能力不够。所以要先用大批量歌唱数据训练出声学模型,以便于解码器可以根据这些声学信息对不同声学条件下的歌声进行预测音色。
另外,在本发明中,实际还包括乐谱编码器:将乐谱的音素、持续时间和音高作为输入,将位置编码与音乐数据嵌入一起经过多个Transformer层得到了编码器的输出结果。
方差适配器:将结果输入由多层CNN、Linear等组成的持续时间处理器中,得到每个音素的隐藏序列提供包括持续时间、音高和能量在内的方差信息,根据其信息扩展编码器向量序列。
梅尔频谱图解码器:将扩展过后的向量序列输入解码器中,将位置编码与输入的向量序列一起再经过多个Transformer层和Linear层得到输入声码器的梅尔频谱图,最后使用声码器合成歌唱。
如图1所示,本发明提供了其中一种实施例,具体内容如下所示:
乐谱通常包括音素、持续时间、音高等元素是歌唱必需输入元素。将歌曲转换为音素序列,歌唱中的每个字被分解成多个音素,音高按照乐理知识的标准转换音高值。持续时间是每个音素的帧数。
把这三个输入因素分别嵌入到相同维度的稠密向量,与位置编码运算叠加在一起,经过多个一维卷积网络得到编码。
由于输入定制歌唱者音色缺乏足够的数据,音色、韵律和录音环境来预测目标音色,在模型适应过程中泛化能力较差,所以通过对speaker embedding来捕获适配声音中的丰富声学特征,从不同粒度的声学特征中训练模型中部分参数,在训练阶段提升模型的泛化能力,使用大批量的数据先训练一个歌唱者的声学模型,歌唱者维度训练音素上的重音、韵律和时间环境噪声等条件的模型,以确保能对少批量数据的歌唱音色的推断。声学模型分别对歌唱音频和音素水平的声学条件的进行建模。作为梅尔谱图解码器的输入,以便于解码器可以根据这些声学信息对不同声学条件下的歌唱音色进行预测。
上述所述的不同粒度表示为:歌声水平,说话人每句歌声中所呈现的细粒度的声学条件,音素水平,一句歌声中每个音素中较细粒度的声学条件,需要通过speakembedding模块去建立。
获取音素的隐藏序列,音素的隐藏序列内隐藏了每个音素的持续时间、音高。根据每个音素的持续时间对音素序列进行扩充(比如:如果一个音素持续三秒,我们将复制三次这个音素,以达到扩充音素序列的目的),音高元素也形成了一个与扩充音素序列相对应的序列。之后,整合输出的是和音素特征序列对齐的序列特征(其长度一致),所以需要预先将声学特征与音素序列进行对齐,然后将音素对应的声学特征进行取均值,方便转换成对应的声谱图。
该模型基本建立在Transformer的结构上,在每个Transformer块中都有一个自注意网络和一个前馈网络。而在编码器中对自注意网络和前馈网络应用归一化后,可学习的scaleγ和biasβ能够有效影响隐藏激活和最终预测结果。小的条件网络根据相应的说话者特征确定层归一化中的尺度和偏置向量,对这个条件网络进行微调。条件网络由两个简单的线性层与组成,Es为speaker embedding模块,这样我们只微调两个矩阵与在解码器和歌唱者嵌入的每个条件层归一化,根据如下计算公式:
计算每个尺度,得到scaleγ和biasβ,通过一个小的条件网络来决定归一化的scale和bias向量,并输入对应说话人的声学特征。只用到两个简单的线性层,输入是speaker embedding,输出预测γ和β。通过改变decoder中归一化操作的参数,可以间接调整模型,从而实现以小批量数据来定制个性化歌唱的目的,可学习的scaleγ和biasβ能够有效影响隐藏激活和最终预测结果。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种生成个性化音色的歌唱合成方法,其特征在于,包括如下内容:
获取历史声学特征数据,建立声学特征训练模型,通过历史声学特征数据对声学特征训练模型进行训练,得到完成训练的声学特征训练模型;
输入设定声学特征数据,经预处理后,得到音素数据序列,根据音素的持续时间对音素进行扩充,形成音素扩充序列,对音素扩充序列进行处理,使其与设定声学特征数据的长度一致,之后整合并输入至完成训练的声学特征训练模型内进行计算,得到声谱图,通过声码器对声谱图进行合成,完成个性化音色的生成,其中,音素数据序列包括各个音素的持续时间与音高。
2.根据权利要求1所述的方法,其特征在于,所述历史声学特征数据包括歌唱音频、重音、韵律、持续时间以及环境噪声。
3.根据权利要求1所述的方法,其特征在于,所述声学特征训练模型具体为Transformer结构模型,且所述Transformer结构模型中的各个Transformer块中均包括一个自注意网络和一个前馈网络。
4.根据权利要求3所述的方法,其特征在于,所述声学特征训练模型预设有speakerembedding模块,所述speaker embedding模块用于获取声学特征内的细粒度数据。
6.根据权利要求1所述的方法,其特征在于,所述设定声学特征数据的预处理过程具体为:将设定声学特征数据嵌入到相同维度的稠密向量中得到向量序列,再将所述向量序列与位置编码进行运算叠加,经多个一维卷积网络后,得到音素数据序列。
7.一种生成个性化音色的歌唱合成装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-6任意一项所述的一种生成个性化音色的歌唱合成方法的步骤。
8.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任意一项所述的一种生成个性化音色的歌唱合成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210434225.2A CN114724539A (zh) | 2022-04-24 | 2022-04-24 | 一种生成个性化音色的歌唱合成方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210434225.2A CN114724539A (zh) | 2022-04-24 | 2022-04-24 | 一种生成个性化音色的歌唱合成方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114724539A true CN114724539A (zh) | 2022-07-08 |
Family
ID=82246589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210434225.2A Pending CN114724539A (zh) | 2022-04-24 | 2022-04-24 | 一种生成个性化音色的歌唱合成方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114724539A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116189655A (zh) * | 2023-04-27 | 2023-05-30 | 北京红棉小冰科技有限公司 | 一种声谱图生成方法及装置 |
-
2022
- 2022-04-24 CN CN202210434225.2A patent/CN114724539A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116189655A (zh) * | 2023-04-27 | 2023-05-30 | 北京红棉小冰科技有限公司 | 一种声谱图生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11295721B2 (en) | Generating expressive speech audio from text data | |
Dhariwal et al. | Jukebox: A generative model for music | |
Valle et al. | Flowtron: an autoregressive flow-based generative network for text-to-speech synthesis | |
CN105788589B (zh) | 一种音频数据的处理方法及装置 | |
CN109817197B (zh) | 歌声生成方法、装置、计算机设备和存储介质 | |
CN114203147A (zh) | 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法 | |
Nakamura et al. | Singing voice synthesis based on convolutional neural networks | |
Hono et al. | Sinsy: A deep neural network-based singing voice synthesis system | |
US11475874B2 (en) | Generating diverse and natural text-to-speech samples | |
CN112735454A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
Nakamura et al. | Fast and high-quality singing voice synthesis system based on convolutional neural networks | |
KR102137523B1 (ko) | 텍스트-음성 변환 방법 및 시스템 | |
CN112908294A (zh) | 一种语音合成方法以及语音合成系统 | |
Zhang et al. | Susing: Su-net for singing voice synthesis | |
Zhuang et al. | Litesing: Towards fast, lightweight and expressive singing voice synthesis | |
CN114724539A (zh) | 一种生成个性化音色的歌唱合成方法、装置及存储介质 | |
Tamaru et al. | Generative moment matching network-based random modulation post-filter for DNN-based singing voice synthesis and neural double-tracking | |
CN112002302A (zh) | 一种语音合成方法和装置 | |
CN116312476A (zh) | 语音合成方法和装置、存储介质、电子设备 | |
Yamamoto et al. | Nnsvs: A neural network-based singing voice synthesis toolkit | |
CN115206281A (zh) | 一种语音合成模型训练方法、装置、电子设备及介质 | |
CN112164387A (zh) | 音频合成方法、装置及电子设备和计算机可读存储介质 | |
Alastalo | Finnish end-to-end speech synthesis with Tacotron 2 and WaveNet | |
US11915689B1 (en) | Generating audio using auto-regressive generative neural networks | |
CN117636842B (zh) | 基于韵律情感迁移的语音合成系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |