CN117437902A - 一种歌唱合成模型的训练方法、装置及设备 - Google Patents
一种歌唱合成模型的训练方法、装置及设备 Download PDFInfo
- Publication number
- CN117437902A CN117437902A CN202311485002.XA CN202311485002A CN117437902A CN 117437902 A CN117437902 A CN 117437902A CN 202311485002 A CN202311485002 A CN 202311485002A CN 117437902 A CN117437902 A CN 117437902A
- Authority
- CN
- China
- Prior art keywords
- value
- singing
- training
- frame
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 101
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 101
- 238000012549 training Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000001228 spectrum Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 28
- 230000009466 transformation Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
本发明提供一种歌唱合成模型的训练方法、装置及设备,方法包括:将标准乐谱样本对应的梅尔频谱特征输入至参考编码器进行特征提取,得到歌唱风格特征作为参考特征;根据所述参考特征,对框架网络模型和所述参考编码器进行训练,得到歌唱合成模型;其中,所述歌唱合成模型包括训练好的所述参考编码器和所述框架网络模型,涉及通信技术领域。本发明的方案,能够利用语音合成录制数据和歌曲风格特征,实现歌唱合成模型的训练,无需依赖于高质量的标注歌唱数据。
Description
技术领域
本发明涉及计算机技术领域,特别是指一种歌唱合成模型的训练方法、装置及设备。
背景技术
在人工智能语音领域中,歌唱合成是非常重要的一个组成部分。
在最近的人工智能语音合成技术中,端到端语音合成技术已经较为成熟,如VITS、Neural Speech等,主要利用0条样本或少量样本实现声音模型的制作,如仅仅使用一首歌就可以训练一个高质量的歌唱合成模型,但是,由于歌曲的录制要比文本语音录制要求高很多,标注歌唱数据也需要大量的乐理知识,因此现有的歌唱合成方案对训练数据的质量要求非常高。
发明内容
本发明的目的是提供一种歌唱合成模型的训练方法、装置及设备,解决了现有的歌唱合成方案对训练数据的质量要求非常高的问题。
为达到上述目的,本发明的实施例提供一种歌唱合成模型的训练方法,包括:
将标准乐谱样本对应的梅尔频谱特征输入至参考编码器进行特征提取,得到歌唱风格特征作为参考特征;
根据所述参考特征和语音合成录制数据,对框架网络模型进行训练,得到训练好的框架网络模型作为歌唱合成模型。
可选地,歌唱合成模型的训练方法还包括:
根据所述参考特征,计算发音人的梯度反转损失值和歌唱风格损失值;
根据所述发音人的梯度反转损失值和所述歌唱风格损失值,调整所述参考编码器的参数。
可选地,述框架网络模型包括:时长预测网络、文本编码器、音高预测网络、帧预测网络、后验编码器和解码器。
可选地,所述根据所述参考特征和语音合成录制数据,对框架网络模型进行训练,得到训练好的框架网络模型作为歌唱合成模型,包括:
将从语音合成录制数据中提取的文本音素、音高节点和音长节点输入至所述文本编码器进行嵌入操作,得到文本嵌入值;
根据所述文本嵌入值和所述参考特征,得到时长损失值和音高损失值;
根据所述文本嵌入值和音高嵌入值,得到数据流所需的均值和方差的先验值;所述音高嵌入值是对真实音高进行编码后得到的;
将所述乐谱样本的线性频谱特征与所述参考特征相加后输入至后验编码器,输出隐变量;
对所述隐变量进行流变换,得到所述数据流所需的均值和方差的后验值;
根据所述先验值和所述后验值,计算全局损失值;
根据时长损失值、音高损失值和全局损失值,对所述框架网络模型进行迭代训练,得到训练好的框架网络模型。
可选地,所述根据所述文本嵌入值和所述参考特征,得到时长损失值和音高损失值,包括:
将所述文本嵌入值与所述参考特征相加后输入至所述时长预测网络,得到预测时长,并计算所述预测时长与真实时长之间的时长损失值;
根据所述文本嵌入值,得到帧嵌入值;
将所述帧嵌入值与所述参考特征相加后输入至所述音高预测网络,得到预测音高,并计算所述预测音高与真实音高之间的音高损失值。
可选地,所述根据所述文本嵌入值和音高嵌入值,得到数据流所需的均值和方差的先验值,包括:
根据所述文本嵌入值,得到帧嵌入值;
将所述音高嵌入值与所述帧嵌入值相加后输入至帧预测网络进行上下文编码,得到新的帧嵌入值;
根据所述新的帧嵌入值,得到数据流所需的均值和方差的先验值。
可选地,所述根据所述文本嵌入值,得到帧嵌入值,包括:
利用真实时长,对所述文本嵌入值进行上采样操作,得到所述帧嵌入值。
可选地,所述方法还包括:
将所述隐变量和所述参考特征相加后输入至所述解码器,将所述隐变量合成为音频波形点。
为达到上述目的,本发明的实施例提供一种歌唱合成模型的训练装置,包括:
第一处理模块,用于将标准乐谱样本对应的梅尔频谱特征输入至参考编码器,输出与发音人无关的歌唱特征作为参考特征;
第二处理模块,用于根据所述参考特征,对框架网络模型和所述参考编码器进行训练,得到歌唱合成模型;其中,所述歌唱合成模型包括训练好的所述参考编码器和所述框架网络模型。
为达到上述目的,本发明的实施例提供一种歌唱合成模型的训练设备,包括处理器和收发机,其中,所述处理器用于将标准乐谱样本对应的梅尔频谱特征输入至参考编码器,输出与发音人无关的歌唱特征作为参考特征;所述处理器还用于根据所述参考特征,对框架网络模型和所述参考编码器进行训练,得到歌唱合成模型;其中,所述歌唱合成模型包括训练好的所述参考编码器和所述框架网络模型。
为达到上述目的,本发明的实施例提供一种歌唱合成模型的训练设备,包括:收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令;所述处理器执行所述程序或指令时实现如上所述的歌唱合成模型的训练方法。
为达到上述目的,本发明的实施例提供一种可读存储介质,其上存储有程序或指令,所述程序或指令被处理器执行时实现如上所述的歌唱合成模型的训练方法。
本发明的上述技术方案的有益效果如下:
本发明实施例的方法,将标准乐谱样本对应的梅尔频谱特征输入至参考编码器进行特征提取,得到歌唱风格特征作为参考特征;根据所述参考特征和语音合成录制数据,对框架网络模型进行训练,得到训练好的框架网络模型作为歌唱合成模型。如此,通过引入参考特征,对歌唱风格特征进行约束,实现对歌唱风格特征和音频特征之间的分离,通过控制参考特征,实现将框架网络模型转换训练为歌唱合成模型。由于训练数据无需利用大量乐理知识标注歌唱数据,解决了现有的歌唱合成方案对训练数据的质量要求非常高的问题。而且参考特征是与发音人无关的歌唱风格特征,在参考特征的约束下,框架网络模型会自动学习到与发音人有关的声学特征。这样,通过固定发音人身份(speaker id),切换歌唱风格(style id),歌唱合成模型即可实现针对同一个发音人合成不同歌唱风格的音频。
附图说明
图1为本发明实施例的歌唱合成模型的训练方法的流程图;
图2为本发明实施例的歌唱合成网络模型的架构示意图;
图3为本发明实施例的歌唱合成模型的训练装置的结构图;
图4为本发明实施例的歌唱合成模型的训练设备的结构图;
图5为本发明另一实施例的歌唱合成模型的训练设备的结构图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
另外,本文中术语“系统”和“网络”在本文中常可互换使用。
在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
如图1所示,本发明实施例的一种歌唱合成模型的训练方法,包括以下步骤:
步骤101:将标准乐谱样本对应的梅尔频谱特征输入至参考编码器进行特征提取,得到歌唱风格特征作为参考特征。
其中,歌唱风格特征包括但不限于:歌唱(如民族音乐、流行音乐等)、语音播报和Rap。
具体实现时,参见图2,将标准乐谱样本对应的梅尔频谱特征(Mel频谱)输入至参考编码器(Reference Encoder),输出参考特征(reference embedding);具体地,参考编码器的模型架构采用3层conv1d结构加2层全连接层(FC),全连接层使用Relu激活函数,利用全连接层进行维度变换,使参考编码器的输出channel(通道)为256,即得到的参考特征(reference embedding)的维度为256。
需要指出的是,参考编码器的主要作用为提取音频中仅仅与歌唱风格相关的特征,同时与发音人本身无关的特征。
其中,参考编码器的训练过程包括:
根据参考编码器输出的参考特征,计算发音人的梯度反转损失值和歌唱风格损失值;根据所述发音人的梯度反转损失值(speaker grl loss)和所述歌唱风格损失值(styleloss),调整所述参考编码器的参数;通过上述步骤的迭代训练,得到训练好的参考编码器。
其中,梯度反转GRL用于实现对发音人特征和歌唱风格特征之间的解耦。
步骤102:根据所述参考特征和语音合成录制数据,对框架网络模型进行训练,得到训练好的框架网络模型作为歌唱合成模型。
具体实现时,采用多发音人的语音合成训练数据,将参考编码器提取的歌唱风格特征迁移至语音合成训练数据中,通过引入参考特征,对歌唱风格特征进行约束,实现对歌唱风格特征和音频特征之间的分离,通过控制参考特征,实现将框架网络模型转换训练为歌唱合成模型。
具体实现时,可基于现有Multi Speaker的端到端VITS模型架构,引入参考编码器(Reference Encoder)、音高预测网络(Pitch Predictor),同时引入Length Regular操作,修改Duration Predictor结构,得到如图2所示的神经网络模型。其中,框架网络模型包括:时长预测网络(Duration Predictor)、文本编码器(Text Encoder)、音高预测网络(PitchPredictor)、帧预测网络(Frame Projection)、后验编码器(Posterior Encoder)和解码器(Decoder);如图2中,参考编码器输出的参考特征(Reference embedding)和发音人特征(speaker embedding),分别与时长预测网络(Duration Predictor)、音高预测网络(PitchPredictor)、帧预测网络(Frame Projection)、后验编码器(Posterior Encoder)和解码器(Decoder)的输入相加。其中,发音人特征具体指发音人ID,即speaker id。
上述实施例中,参考特征是与发音人无关的歌唱风格特征,在参考特征的约束下,框架网络模型会自动学习到与发音人有关的声学特征。这样,通过固定发音人特征(speaker id),切换歌唱风格(style id),歌唱合成模型即可实现针对同一个发音人合成不同歌唱风格的音频。而且,在进行歌唱合成模型训练时,只需输入参考特征和歌唱特征,无需输入经过大量乐理知识预先标注歌唱数据,大幅降低了成本。
在一些实施例中,上述步骤102中,根据所述参考特征和语音合成录制数据,对框架网络模型进行训练,得到训练好的框架网络模型作为歌唱合成模型,包括:
步骤1021:将从语音合成录制数据中提取的文本音素、音高节点和音长节点输入至所述文本编码器进行嵌入操作,得到文本嵌入值;
需要指出的是,在从语音合成录制数据中提取的文本音素、音高节点和音长节点时,由于语音合成(Text-To-Speech,TTS)和Rap数据与歌唱合成数据不一致,如歌曲数据标注有Pitch node(音高节点)、Slur(连读)、Duration(时长)信息,TTS只有Phoneme(音素)和停顿,因此采用自动语音识别技术(Automatic Speech Recognition,ASR)中的alignment(对齐)方案提取Duration(时长),使用Phoneme中的Pitch均值提取Pitch Node,由于TTS和Rap数据每一个Phoneme的时长较短,因此Slur(连读)的值均为0。
其中,本发明Text Encoder结果采用Transformer(前馈)结构中的Encoder部分,Text Encoder输出为文本嵌入值(Text embedding),其中包含音乐信息。
步骤1022:根据所述文本嵌入值和所述参考特征,得到时长损失值和音高损失值;
具体地,步骤1022中,根据所述文本嵌入值和所述参考特征,得到时长损失值和音高损失值,包括:
将所述文本嵌入值与所述参考特征相加后输入至所述时长预测网络,得到预测时长,并计算所述预测时长与真实时长之间的时长损失值;
根据所述文本嵌入值,得到帧嵌入值;
将所述帧嵌入值与所述参考特征相加后输入至所述音高预测网络,得到预测音高,并计算所述预测音高与真实音高之间的音高损失值。
参见图2,文本嵌入值(Text embedding)和FC输出的参考特征同时输入至时长预测模块(Duration Predictor),得到预测时长;由于推理阶段无法获取到真实时长,duration predictor的作用为根据文本编码(即文本嵌入值)进行时长预测。其中,预测时长与真实时长之间的时长损失值用于调整时长预测模块(Duration Predictor)的参数。
步骤1023:根据所述文本嵌入值和音高嵌入值,得到数据流所需的均值和方差的先验值;所述音高嵌入值是对真实音高进行编码后得到的;
具体地,步骤1023中,根据所述文本嵌入值和音高嵌入值,得到数据流所需的均值和方差的先验值,包括:
根据所述文本嵌入值,得到帧嵌入值;
将所述音高嵌入值与所述帧嵌入值相加后输入至帧预测网络进行上下文编码,得到新的帧嵌入值;
根据所述新的帧嵌入值,得到数据流所需的均值和方差的先验值。
作为一种实现方式,所述根据所述文本嵌入值,得到帧嵌入值,包括:利用真实时长,对所述文本嵌入值进行上采样操作,得到所述帧嵌入值。
具体实现时,文本编码器输出的文本嵌入值,输入至长度规则(Length Regular)模块,使用真实时长(GT Duration)对文本嵌入值进行上采样处理,将因素(phoneme)级别的特征上采样到帧级别,得到帧嵌入值(frame embedding)。将真实音高进行编码,得到音高嵌入值,将音高嵌入值与所述帧嵌入值相加后输入至帧预测网络进行上下文编码,得到新的帧嵌入值。
该步骤中,帧预测网络的作用是:将帧级别特征和音高嵌入值(pitch embedding)进行上下文编码,使得新的Frame embedding能够充分考虑文本上下文关系和歌唱特征上下文关系,同时输出Flow所需要的均值和方差特征。
步骤1024:将所述乐谱样本的线性频谱特征与所述参考特征相加后输入至后验编码器,输出隐变量z;
该步骤中,后验编码器用于基于频谱的线性特征,提取真实的音频特征,以辅助解码器(Decoder)和先验编码器(包括从文本编码器到隐变量之间全部网络结构)的训练。其中,在训练过程中,采用后验编码器提取的真实值,在推理过程中采用先验编码器输出的预测值。
步骤1025:对所述隐变量进行流变换,得到所述数据流所需的均值和方差的后验值;
该步骤中,隐变量z的流变换(flow变换)是可逆的,通过岁隐变量Z进行流变换,能够得到均值和方差的后验值。
步骤1026:根据所述先验值和所述后验值,计算全局损失值;
步骤1027:根据时长损失值、音高损失值和全局损失值,对所述框架网络模型进行迭代训练,得到训练好的框架网络模型。
该步骤中,根据时长损失值、音高损失值和全局损失值,确定全局损失值,基于全局损失中调整框架网络模型中各网络模块的参数。
在一些实施例中,上述方法还包括:
将所述隐变量和所述参考特征相加后输入至所述解码器,将所述隐变量合成为音频波形点。
该实施例中,本采用与VITS一样的hifigan架构模型,将隐变量z特征(一种特殊的声学特征)合成成为音频波形点。
另外,利用生成损失函数计算声码器合成的波形与真实波形之间的损失值,利用对抗损失函数,提升歌唱合成模型的泛化能力。该部分非本申请重点,在此未展开说明。
上述方案中,在训练好歌唱合成模型之后,歌唱合成模型的输入为音高节点、音长节点和文本。推理阶段没有真实的pitch和duration指导,由pitch predictor和durationpredictor进行预测。本发明为降低计算成本,采用选取歌唱歌曲,经过训练好的参考编码器提取Reference embedding,在推理中直接使用固定的Reference embedding。在最终测试中,TTS迁移的歌唱合成的mos得分为3.91,而使用大量歌唱合成数据训练的visinger模型的mos打分为3.92,而采用传统方案的实现的歌唱合成迁移的Mos打分仅仅为3.1。可见,本申请的歌唱迁移效果,要远远好于传统方案。
参见图3,本发明实施例提供一种歌唱合成模型的训练装置300,包括:
第一处理模块301,用于将标准乐谱样本对应的梅尔频谱特征输入至参考编码器,输出与发音人无关的歌唱特征作为参考特征;
第二处理模块302,用于根据所述参考特征和语音合成录制数据,对框架网络模型进行训练,得到训练好的框架网络模型作为歌唱合成模型。
可选地,装置300还包括:
第三处理模块,用于根据所述参考特征,计算发音人的梯度反转损失值和歌唱风格损失值;
第四处理模块,用于根据所述发音人的梯度反转损失值和所述歌唱风格损失值,调整所述参考编码器的参数。
可选地,所述框架网络模型包括:时长预测网络、文本编码器、音高预测网络、帧预测网络、后验编码器和解码器。
可选地,第二处理模块302,包括:
第一处理子模块,用于将从语音合成录制数据中提取的文本音素、音高节点和音长节点输入至所述文本编码器进行嵌入操作,得到文本嵌入值;
第二处理子模块,用于根据所述文本嵌入值和所述参考特征,得到时长损失值和音高损失值;
第三处理子模块,用于根据所述文本嵌入值和音高嵌入值,得到数据流所需的均值和方差的先验值;所述音高嵌入值是对真实音高进行编码后得到的;
第四处理子模块,用于将所述乐谱样本的线性频谱特征与所述参考特征相加后输入至后验编码器,输出隐变量;
第五处理子模块,用于对所述隐变量进行流变换,得到所述数据流所需的均值和方差的后验值;
第六处理子模块,用于根据所述先验值和所述后验值,计算全局损失值;
第七处理子模块,用于根据时长损失值、音高损失值和全局损失值,对所述框架网络模型进行迭代训练,得到训练好的框架网络模型。
可选地,第二处理子模块,包括:
第一处理单元,用于将所述文本嵌入值与所述参考特征相加后输入至所述时长预测网络,得到预测时长,并计算所述预测时长与真实时长之间的时长损失值;
第二处理单元,用于根据所述文本嵌入值,得到帧嵌入值;
第三处理单元,用于将所述帧嵌入值与所述参考特征相加后输入至所述音高预测网络,得到预测音高,并计算所述预测音高与真实音高之间的音高损失值。
可选地,第三处理子模块,包括:
第四处理单元,用于根据所述文本嵌入值,得到帧嵌入值;
第五处理单元,用于将所述音高嵌入值与所述帧嵌入值相加后输入至帧预测网络进行上下文编码,得到新的帧嵌入值;
第六处理单元,用于根据所述新的帧嵌入值,得到流所需的均值和方差的先验值。
可选地,第二处理单元具体用于:
利用真实时长,对所述文本嵌入值进行上采样操作,得到所述帧嵌入值。
可选地,装置300还包括:
第五处理模块,用于将所述隐变量和所述参考特征相加后输入至所述解码器,将所述隐变量合成为音频波形点。
该歌唱合成模型的训练装置300是与上述歌唱合成模型的训练方法对应的装置,上述方法实施例中的所有实现手段均适用于该歌唱合成模型的训练装置的实施例中,也能达到相同的技术效果。
如图4所示,本发明实施例的一种移动终端400,包括处理器810和收发机420,其中,
所述处理器410用于将标准乐谱样本对应的梅尔频谱特征输入至参考编码器进行特征提取,得到歌唱风格特征作为参考特征;根据所述参考特征和语音合成录制数据,对框架网络模型进行训练,得到训练好的框架网络模型作为歌唱合成模型。
可选地,所述处理器410还用于:
根据所述参考特征,计算发音人的梯度反转损失值和歌唱风格损失值;
根据所述发音人的梯度反转损失值和所述歌唱风格损失值,调整所述参考编码器的参数。
可选地,所述框架网络模型包括:时长预测网络、文本编码器、音高预测网络、帧预测网络、后验编码器和解码器。
可选地,所述处理器410还用于:
将从语音合成录制数据中提取的文本音素、音高节点和音长节点输入至所述文本编码器进行嵌入操作,得到文本嵌入值;
根据所述文本嵌入值和所述参考特征,得到时长损失值和音高损失值;
根据所述文本嵌入值和音高嵌入值,得到数据流所需的均值和方差的先验值;所述音高嵌入值是对真实音高进行编码后得到的;
将所述乐谱样本的线性频谱特征与所述参考特征相加后输入至后验编码器,输出隐变量;
对所述隐变量进行流变换,得到所述数据流所需的均值和方差的后验值;
根据所述先验值和所述后验值,计算全局损失值;
根据时长损失值、音高损失值和全局损失值,对所述框架网络模型进行迭代训练,得到训练好的框架网络模型。
可选地,所述处理器410还用于:
将所述文本嵌入值与所述参考特征相加后输入至所述时长预测网络,得到预测时长,并计算所述预测时长与真实时长之间的时长损失值;
根据所述文本嵌入值,得到帧嵌入值;
将所述帧嵌入值与所述参考特征相加后输入至所述音高预测网络,得到预测音高,并计算所述预测音高与真实音高之间的音高损失值。
可选地,所述处理器410还用于:
根据所述文本嵌入值,得到帧嵌入值;
将所述音高嵌入值与所述帧嵌入值相加后输入至帧预测网络进行上下文编码,得到新的帧嵌入值;
根据所述新的帧嵌入值,得到数据流所需的均值和方差的先验值。
可选地,所述处理器410还用于:
利用真实时长,对所述文本嵌入值进行上采样操作,得到所述帧嵌入值。
可选地,所述处理器410还用于:
将所述隐变量和所述参考特征相加后输入至所述解码器,将所述隐变量合成为音频波形点。
该实施例的歌唱合成模型的训练设备,将标准乐谱样本对应的梅尔频谱特征输入至参考编码器进行特征提取,得到歌唱风格特征作为参考特征;根据所述参考特征和语音合成录制数据,对框架网络模型进行训练,得到训练好的框架网络模型作为歌唱合成模型。如此,通过引入参考特征,对歌唱风格特征进行约束,实现对歌唱风格特征和音频特征之间的分离,通过控制参考特征,实现将框架网络模型转换训练为歌唱合成模型。由于训练数据无需利用大量乐理知识标注歌唱数据,解决了现有的歌唱合成方案对训练数据的质量要求非常高的问题。
本发明另一实施例的一种歌唱合成模型的训练设备,如图5所示,包括收发器510、处理器500、存储器520及存储在所述存储器520上并可在所述处理器500上运行的程序或指令;所述处理器500执行所述程序或指令时实现上述应用于歌唱合成模型的训练方法。
所述收发器510,用于在处理器500的控制下接收和发送数据。
其中,在图5中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器500代表的一个或多个处理器和存储器520代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发器510可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备,用户接口530还可以是能够外接内接需要设备的接口,连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。
处理器500负责管理总线架构和通常的处理,存储器520可以存储处理器700在执行操作时所使用的数据。
本发明实施例的一种可读存储介质,其上存储有程序或指令,所述程序或指令被处理器执行时实现如上所述的歌唱合成模型的训练方法中的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
进一步需要说明的是,此说明书中所描述的终端包括但不限于智能手机、平板电脑等,且所描述的许多功能部件都被称为模块,以便更加特别地强调其实现方式的独立性。
本发明实施例中,模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同位里上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。
实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。
在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
上述范例性实施例是参考该些附图来描述的,许多不同的形式和实施例是可行而不偏离本发明精神及教示,因此,本发明不应被建构成为在此所提出范例性实施例的限制。更确切地说,这些范例性实施例被提供以使得本发明会是完善又完整,且会将本发明范围传达给那些熟知此项技术的人士。在该些图式中,组件尺寸及相对尺寸也许基于清晰起见而被夸大。在此所使用的术语只是基于描述特定范例性实施例目的,并无意成为限制用。如在此所使用地,除非该内文清楚地另有所指,否则该单数形式“一”、“一个”和“该”是意欲将该些多个形式也纳入。会进一步了解到该些术语“包含”及/或“包括”在使用于本说明书时,表示所述特征、整数、步骤、操作、构件及/或组件的存在,但不排除一或更多其它特征、整数、步骤、操作、构件、组件及/或其族群的存在或增加。除非另有所示,陈述时,一值范围包含该范围的上下限及其间的任何子范围。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种歌唱合成模型的训练方法,其特征在于,包括:
将标准乐谱样本对应的梅尔频谱特征输入至参考编码器进行特征提取,得到歌唱风格特征作为参考特征;
根据所述参考特征和语音合成录制数据,对框架网络模型进行训练,得到训练好的框架网络模型作为歌唱合成模型。
2.根据权利要求1所述的歌唱合成模型的训练方法,其特征在于,所述方法还包括:
根据所述参考特征,计算发音人的梯度反转损失值和歌唱风格损失值;
根据所述发音人的梯度反转损失值和所述歌唱风格损失值,调整所述参考编码器的参数。
3.根据权利要求1所述的歌唱合成模型的训练方法,其特征在于,所述框架网络模型包括:时长预测网络、文本编码器、音高预测网络、帧预测网络、后验编码器和解码器。
4.根据权利要求3所述的歌唱合成模型的训练方法,其特征在于,所述根据所述参考特征和语音合成录制数据,对框架网络模型进行训练,得到训练好的框架网络模型作为歌唱合成模型,包括:
将从语音合成录制数据中提取的文本音素、音高节点和音长节点输入至所述文本编码器进行嵌入操作,得到文本嵌入值;
根据所述文本嵌入值和所述参考特征,得到时长损失值和音高损失值;
根据所述文本嵌入值和音高嵌入值,得到数据流所需的均值和方差的先验值;所述音高嵌入值是对真实音高进行编码后得到的;
将所述乐谱样本的线性频谱特征与所述参考特征相加后输入至后验编码器,输出隐变量;
对所述隐变量进行流变换,得到所述数据流所需的均值和方差的后验值;
根据所述先验值和所述后验值,计算全局损失值;
根据时长损失值、音高损失值和全局损失值,对所述框架网络模型进行迭代训练,得到训练好的框架网络模型。
5.根据权利要求4所述的歌唱合成模型的训练方法,其特征在于,所述根据所述文本嵌入值和所述参考特征,得到时长损失值和音高损失值,包括:
将所述文本嵌入值与所述参考特征相加后输入至所述时长预测网络,得到预测时长,并计算所述预测时长与真实时长之间的时长损失值;
根据所述文本嵌入值,得到帧嵌入值;
将所述帧嵌入值与所述参考特征相加后输入至所述音高预测网络,得到预测音高,并计算所述预测音高与真实音高之间的音高损失值。
6.根据权利要求4所述的歌唱合成模型的训练方法,其特征在于,所述根据所述文本嵌入值和音高嵌入值,得到数据流所需的均值和方差的先验值,包括:
根据所述文本嵌入值,得到帧嵌入值;
将所述音高嵌入值与所述帧嵌入值相加后输入至帧预测网络进行上下文编码,得到新的帧嵌入值;
根据所述新的帧嵌入值,得到数据流所需的均值和方差的先验值。
7.根据权利要求5或6所述的歌唱合成模型的训练方法,其特征在于,所述根据所述文本嵌入值,得到帧嵌入值,包括:
利用真实时长,对所述文本嵌入值进行上采样操作,得到所述帧嵌入值。
8.根据权利要求4所述的歌唱合成模型的训练方法,其特征在于,所述方法还包括:
将所述隐变量和所述参考特征相加后输入至所述解码器,将所述隐变量合成为音频波形点。
9.一种歌唱合成模型的训练装置,其特征在于,包括:
第一处理模块,用于将标准乐谱样本对应的梅尔频谱特征输入至参考编码器,输出与发音人无关的歌唱特征作为参考特征;
第二处理模块,用于根据所述参考特征,对框架网络模型和所述参考编码器进行训练,得到歌唱合成模型;其中,所述歌唱合成模型包括训练好的所述参考编码器和所述框架网络模型。
10.一种歌唱合成模型的训练设备,其特征在于,包括:收发机和处理器;
所述处理器用于将标准乐谱样本对应的梅尔频谱特征输入至参考编码器,输出与发音人无关的歌唱特征作为参考特征;
所述处理器还用于根据所述参考特征,对框架网络模型和所述参考编码器进行训练,得到歌唱合成模型;其中,所述歌唱合成模型包括训练好的所述参考编码器和所述框架网络模型。
11.一种歌唱合成模型的训练设备,包括:收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令;其特征在于,所述处理器执行所述程序或指令时实现如权利要求1-8任一项所述的歌唱合成模型的训练方法。
12.一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现如权利要求1-8任一项所述的歌唱合成模型的训练方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311485002.XA CN117437902A (zh) | 2023-11-09 | 2023-11-09 | 一种歌唱合成模型的训练方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311485002.XA CN117437902A (zh) | 2023-11-09 | 2023-11-09 | 一种歌唱合成模型的训练方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117437902A true CN117437902A (zh) | 2024-01-23 |
Family
ID=89558160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311485002.XA Pending CN117437902A (zh) | 2023-11-09 | 2023-11-09 | 一种歌唱合成模型的训练方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437902A (zh) |
-
2023
- 2023-11-09 CN CN202311485002.XA patent/CN117437902A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN112037754B (zh) | 一种语音合成训练数据的生成方法及相关设备 | |
CN112908294B (zh) | 一种语音合成方法以及语音合成系统 | |
CN113761841B (zh) | 将文本数据转换为声学特征的方法 | |
CN112634866B (zh) | 语音合成模型训练和语音合成方法、装置、设备及介质 | |
CN111627420B (zh) | 极低资源下的特定发音人情感语音合成方法及装置 | |
CN113327580A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
CN114464182B (zh) | 一种音频场景分类辅助的语音识别快速自适应方法 | |
CN113205793B (zh) | 音频生成方法、装置、存储介质及电子设备 | |
CN113781995A (zh) | 语音合成方法、装置、电子设备及可读存储介质 | |
CN114360493A (zh) | 语音合成方法、装置、介质、计算机设备和程序产品 | |
CN114842825A (zh) | 情感迁移语音合成方法及系统 | |
CN113539232A (zh) | 一种基于慕课语音数据集的语音合成方法 | |
CN114495904B (zh) | 语音识别方法以及装置 | |
CN116312471A (zh) | 语音迁移、语音交互方法、装置、电子设备及存储介质 | |
CN113314096A (zh) | 语音合成方法、装置、设备和存储介质 | |
CN117437902A (zh) | 一种歌唱合成模型的训练方法、装置及设备 | |
CN113299270B (zh) | 语音合成系统的生成方法、装置、设备及存储介质 | |
KR102518471B1 (ko) | 생성 속도를 조절할 수 있는 음성 합성 시스템 | |
CN114743539A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN115019781A (zh) | 一种对话业务执行方法、装置、存储介质及电子设备 | |
CN115700871A (zh) | 模型训练和语音合成方法、装置、设备及介质 | |
CN114242035A (zh) | 语音合成方法、装置、介质以及电子设备 | |
CN113889130A (zh) | 一种语音转换方法、装置、设备及介质 | |
CN114333847A (zh) | 语音克隆方法、装置、训练方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |