CN114724539A - 一种生成个性化音色的歌唱合成方法、装置及存储介质 - Google Patents

一种生成个性化音色的歌唱合成方法、装置及存储介质 Download PDF

Info

Publication number
CN114724539A
CN114724539A CN202210434225.2A CN202210434225A CN114724539A CN 114724539 A CN114724539 A CN 114724539A CN 202210434225 A CN202210434225 A CN 202210434225A CN 114724539 A CN114724539 A CN 114724539A
Authority
CN
China
Prior art keywords
acoustic feature
phoneme
sequence
data
feature data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210434225.2A
Other languages
English (en)
Inventor
尹学渊
肖钦引
刘鑫忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Long Mobile Technology Co ltd
Chengdu Potential Artificial Intelligence Technology Co ltd
Original Assignee
Chengdu Long Mobile Technology Co ltd
Chengdu Potential Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Long Mobile Technology Co ltd, Chengdu Potential Artificial Intelligence Technology Co ltd filed Critical Chengdu Long Mobile Technology Co ltd
Priority to CN202210434225.2A priority Critical patent/CN114724539A/zh
Publication of CN114724539A publication Critical patent/CN114724539A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本发明涉及语音信号处理及人工智能技术领域,具体而言,涉及一种生成个性化音色的歌唱合成方法、装置及存储介质,该方法的步骤包括:获取历史声学特征数据,建立声学特征训练模型,通过历史声学特征数据对声学特征训练模型进行训练,得到完成训练的声学特征训练模型;输入设定声学特征数据,经预处理后,得到音素数据序列,根据音素的持续时间对音素进行扩充,形成音素扩充序列,对音素扩充序列进行处理,使其与设定声学特征数据的长度一致,之后整合并输入至完成训练的声学特征训练模型内进行计算,得到声谱图,通过声码器对声谱图进行合成,完成个性化音色的生成,其中,音素数据序列包括各个音素的持续时间与音高。

Description

一种生成个性化音色的歌唱合成方法、装置及存储介质
技术领域
本发明涉及语音信号处理及人工智能技术领域,具体而言,涉及一种生成个性化音色的歌唱合成方法、装置及存储介质。
背景技术
近年来随着人工智能的不断发展,其技术应用在各个领域上。人工智能在娱乐、教育上的应用场景越来越多,歌唱合成就是人工智能应用在歌唱领域,不仅可以降低音乐创作和音乐教育等的成本,而且还能提高效率,从而促进歌唱产业的发展。在现有技术中,歌唱合成技术是通过大批量的数据,合成一个或多个较为清晰的歌唱音色,然而这样会存在一系列问题,一方面,想完成音色定制需要用大批量数据重新训练出一个新模型,但新模型不能获取声学特征的细粒度信息,导致模型泛化能力较弱,增加了定制方的成本;另一方面,新模型训练时间较长,没有很好的手段在参数和声音质量之间找到平衡,从而造成了服务方的内存存储和服务成本的增加。针对上述问题,我们设计了一种生成个性化音色的歌唱合成方法、装置及存储介质。
发明内容
本发明的目的在于提供一种生成个性化音色的歌唱合成方法、装置及存储介质,其用于解决上述技术问题。
本发明的实施例通过以下技术方案实现:
一种生成个性化音色的歌唱合成方法,包括如下内容:
获取历史声学特征数据,建立声学特征训练模型,通过历史声学特征数据对声学特征训练模型进行训练,得到完成训练的声学特征训练模型;
输入设定声学特征数据,经预处理后,得到音素数据序列,根据音素的持续时间对音素进行扩充,形成音素扩充序列,对音素扩充序列进行处理,使其与设定声学特征数据的长度一致,之后整合并输入至完成训练的声学特征训练模型内进行计算,得到声谱图,通过声码器对声谱图进行合成,完成个性化音色的生成,其中,音素数据序列包括各个音素的持续时间与音高。
可选的,所述历史声学特征数据包括歌唱音频、重音、韵律、持续时间以及环境噪声。
可选的,所述声学特征训练模型具体为Transformer结构模型,且所述Transformer结构模型中的各个Transformer块中均包括一个自注意网络和一个前馈网络。
可选的,所述声学特征训练模型预设有speaker embedding模块,所述speakerembedding模块用于获取声学特征内的细粒度数据。
可选的,所述声学特征训练模型还引入有条件归一化单元,其计算公式如下所示:
Figure BDA0003612331790000021
Figure BDA0003612331790000022
其中,
Figure BDA0003612331790000031
Figure BDA0003612331790000032
均为矩阵,Es为speaker embedding模块;
通过条件归一化单元对自注意网络与前馈网络进行归一化应用,完成对Transformer结构模型的微调。
可选的,所述设定声学特征数据的预处理过程具体为:将设定声学特征数据嵌入到相同维度的稠密向量中得到向量序列,再将所述向量序列与位置编码进行运算叠加,经多个一维卷积网络后,得到音素数据序列。
一种生成个性化音色的歌唱合成装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任意一项所述的一种生成个性化音色的歌唱合成方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述的一种生成个性化音色的歌唱合成方法的步骤。
本发明实施例的技术方案至少具有如下优点和有益效果:
本发明设计合理、结构简单,通过加入speaker embedding模块和在decoder的部分中引入条件归一化层来微调部分参数,达到生成个性化音色的目的。
附图说明
图1为本发明提供的一种生成个性化音色的歌唱合成方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
在本发明中,声学特征分为两个维度:一是歌唱音频;二是音素水平的声学条件分别的进行建模,包括重音、韵律和时间环境噪声等,因为运用小批量数据定制个性化音色歌唱,对于一些特征会造成过拟合和模型泛化能力不够。所以要先用大批量歌唱数据训练出声学模型,以便于解码器可以根据这些声学信息对不同声学条件下的歌声进行预测音色。
另外,在本发明中,实际还包括乐谱编码器:将乐谱的音素、持续时间和音高作为输入,将位置编码与音乐数据嵌入一起经过多个Transformer层得到了编码器的输出结果。
方差适配器:将结果输入由多层CNN、Linear等组成的持续时间处理器中,得到每个音素的隐藏序列提供包括持续时间、音高和能量在内的方差信息,根据其信息扩展编码器向量序列。
梅尔频谱图解码器:将扩展过后的向量序列输入解码器中,将位置编码与输入的向量序列一起再经过多个Transformer层和Linear层得到输入声码器的梅尔频谱图,最后使用声码器合成歌唱。
如图1所示,本发明提供了其中一种实施例,具体内容如下所示:
乐谱通常包括音素、持续时间、音高等元素是歌唱必需输入元素。将歌曲转换为音素序列,歌唱中的每个字被分解成多个音素,音高按照乐理知识的标准转换音高值。持续时间是每个音素的帧数。
把这三个输入因素分别嵌入到相同维度的稠密向量,与位置编码运算叠加在一起,经过多个一维卷积网络得到编码。
由于输入定制歌唱者音色缺乏足够的数据,音色、韵律和录音环境来预测目标音色,在模型适应过程中泛化能力较差,所以通过对speaker embedding来捕获适配声音中的丰富声学特征,从不同粒度的声学特征中训练模型中部分参数,在训练阶段提升模型的泛化能力,使用大批量的数据先训练一个歌唱者的声学模型,歌唱者维度训练音素上的重音、韵律和时间环境噪声等条件的模型,以确保能对少批量数据的歌唱音色的推断。声学模型分别对歌唱音频和音素水平的声学条件的进行建模。作为梅尔谱图解码器的输入,以便于解码器可以根据这些声学信息对不同声学条件下的歌唱音色进行预测。
上述所述的不同粒度表示为:歌声水平,说话人每句歌声中所呈现的细粒度的声学条件,音素水平,一句歌声中每个音素中较细粒度的声学条件,需要通过speakembedding模块去建立。
获取音素的隐藏序列,音素的隐藏序列内隐藏了每个音素的持续时间、音高。根据每个音素的持续时间对音素序列进行扩充(比如:如果一个音素持续三秒,我们将复制三次这个音素,以达到扩充音素序列的目的),音高元素也形成了一个与扩充音素序列相对应的序列。之后,整合输出的是和音素特征序列对齐的序列特征(其长度一致),所以需要预先将声学特征与音素序列进行对齐,然后将音素对应的声学特征进行取均值,方便转换成对应的声谱图。
该模型基本建立在Transformer的结构上,在每个Transformer块中都有一个自注意网络和一个前馈网络。而在编码器中对自注意网络和前馈网络应用归一化后,可学习的scaleγ和biasβ能够有效影响隐藏激活和最终预测结果。小的条件网络根据相应的说话者特征确定层归一化中的尺度和偏置向量,对这个条件网络进行微调。条件网络由两个简单的线性层
Figure BDA0003612331790000061
Figure BDA0003612331790000062
组成,Es为speaker embedding模块,这样我们只微调两个矩阵
Figure BDA0003612331790000063
Figure BDA0003612331790000064
在解码器和歌唱者嵌入的每个条件层归一化,根据如下计算公式:
Figure BDA0003612331790000065
Figure BDA0003612331790000066
计算每个尺度,得到scaleγ和biasβ,通过一个小的条件网络来决定归一化的scale和bias向量,并输入对应说话人的声学特征。只用到两个简单的线性层,输入是speaker embedding,输出预测γ和β。通过改变decoder中归一化操作的参数,可以间接调整模型,从而实现以小批量数据来定制个性化歌唱的目的,可学习的scaleγ和biasβ能够有效影响隐藏激活和最终预测结果。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种生成个性化音色的歌唱合成方法,其特征在于,包括如下内容:
获取历史声学特征数据,建立声学特征训练模型,通过历史声学特征数据对声学特征训练模型进行训练,得到完成训练的声学特征训练模型;
输入设定声学特征数据,经预处理后,得到音素数据序列,根据音素的持续时间对音素进行扩充,形成音素扩充序列,对音素扩充序列进行处理,使其与设定声学特征数据的长度一致,之后整合并输入至完成训练的声学特征训练模型内进行计算,得到声谱图,通过声码器对声谱图进行合成,完成个性化音色的生成,其中,音素数据序列包括各个音素的持续时间与音高。
2.根据权利要求1所述的方法,其特征在于,所述历史声学特征数据包括歌唱音频、重音、韵律、持续时间以及环境噪声。
3.根据权利要求1所述的方法,其特征在于,所述声学特征训练模型具体为Transformer结构模型,且所述Transformer结构模型中的各个Transformer块中均包括一个自注意网络和一个前馈网络。
4.根据权利要求3所述的方法,其特征在于,所述声学特征训练模型预设有speakerembedding模块,所述speaker embedding模块用于获取声学特征内的细粒度数据。
5.根据权利要求4所述的方法,其特征在于,所述声学特征训练模型还引入有条件归一化单元,其计算公式如下所示:
Figure FDA0003612331780000021
Figure FDA0003612331780000022
其中,
Figure FDA0003612331780000023
Figure FDA0003612331780000024
均为矩阵,Es为speaker embedding模块;
通过条件归一化单元对自注意网络与前馈网络进行归一化应用,完成对Transformer结构模型的微调。
6.根据权利要求1所述的方法,其特征在于,所述设定声学特征数据的预处理过程具体为:将设定声学特征数据嵌入到相同维度的稠密向量中得到向量序列,再将所述向量序列与位置编码进行运算叠加,经多个一维卷积网络后,得到音素数据序列。
7.一种生成个性化音色的歌唱合成装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-6任意一项所述的一种生成个性化音色的歌唱合成方法的步骤。
8.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任意一项所述的一种生成个性化音色的歌唱合成方法的步骤。
CN202210434225.2A 2022-04-24 2022-04-24 一种生成个性化音色的歌唱合成方法、装置及存储介质 Pending CN114724539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210434225.2A CN114724539A (zh) 2022-04-24 2022-04-24 一种生成个性化音色的歌唱合成方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210434225.2A CN114724539A (zh) 2022-04-24 2022-04-24 一种生成个性化音色的歌唱合成方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114724539A true CN114724539A (zh) 2022-07-08

Family

ID=82246589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210434225.2A Pending CN114724539A (zh) 2022-04-24 2022-04-24 一种生成个性化音色的歌唱合成方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114724539A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189655A (zh) * 2023-04-27 2023-05-30 北京红棉小冰科技有限公司 一种声谱图生成方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189655A (zh) * 2023-04-27 2023-05-30 北京红棉小冰科技有限公司 一种声谱图生成方法及装置

Similar Documents

Publication Publication Date Title
US11295721B2 (en) Generating expressive speech audio from text data
Dhariwal et al. Jukebox: A generative model for music
Valle et al. Flowtron: an autoregressive flow-based generative network for text-to-speech synthesis
CN105788589B (zh) 一种音频数据的处理方法及装置
CN109817197B (zh) 歌声生成方法、装置、计算机设备和存储介质
CN114203147A (zh) 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法
Nakamura et al. Singing voice synthesis based on convolutional neural networks
Hono et al. Sinsy: A deep neural network-based singing voice synthesis system
US11475874B2 (en) Generating diverse and natural text-to-speech samples
CN112735454A (zh) 音频处理方法、装置、电子设备和可读存储介质
Nakamura et al. Fast and high-quality singing voice synthesis system based on convolutional neural networks
KR102137523B1 (ko) 텍스트-음성 변환 방법 및 시스템
CN112908294A (zh) 一种语音合成方法以及语音合成系统
Zhang et al. Susing: Su-net for singing voice synthesis
Zhuang et al. Litesing: Towards fast, lightweight and expressive singing voice synthesis
CN114724539A (zh) 一种生成个性化音色的歌唱合成方法、装置及存储介质
Tamaru et al. Generative moment matching network-based random modulation post-filter for DNN-based singing voice synthesis and neural double-tracking
CN112002302A (zh) 一种语音合成方法和装置
CN116312476A (zh) 语音合成方法和装置、存储介质、电子设备
Yamamoto et al. Nnsvs: A neural network-based singing voice synthesis toolkit
CN115206281A (zh) 一种语音合成模型训练方法、装置、电子设备及介质
CN112164387A (zh) 音频合成方法、装置及电子设备和计算机可读存储介质
Alastalo Finnish end-to-end speech synthesis with Tacotron 2 and WaveNet
US11915689B1 (en) Generating audio using auto-regressive generative neural networks
CN117636842B (zh) 基于韵律情感迁移的语音合成系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination