CN113160849A - 歌声合成方法、装置及电子设备和计算机可读存储介质 - Google Patents
歌声合成方法、装置及电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN113160849A CN113160849A CN202110234190.3A CN202110234190A CN113160849A CN 113160849 A CN113160849 A CN 113160849A CN 202110234190 A CN202110234190 A CN 202110234190A CN 113160849 A CN113160849 A CN 113160849A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- original audio
- fundamental frequency
- singing voice
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 14
- 230000005236 sound signal Effects 0.000 claims abstract description 170
- 238000001228 spectrum Methods 0.000 claims abstract description 87
- 239000013598 vector Substances 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000006243 chemical reaction Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 60
- 230000002194 synthesizing effect Effects 0.000 claims description 30
- 238000001914 filtration Methods 0.000 claims description 25
- 230000000737 periodic effect Effects 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 abstract description 17
- 238000003786 synthesis reaction Methods 0.000 abstract description 17
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请公开了一种歌声合成方法、装置及一种电子设备和计算机可读存储介质,该方法包括:获取原始音频信号,并提取原始音频信号的基频信息和音素序列;基于基频信息生成原始音频信号对应的线性频谱向量;对线性频谱向量进行非线性转换,以得到原始音频信号对应的基频骨架;其中,基频骨架的编码维度与音素序列的编码维度相同;将音素序列和基频骨架输入训练完成的声学参数预测模型中,以生成目标梅尔频谱;基于目标梅尔频谱利用声码器生成合成音频信号。本申请提供的歌声合成方法,在增强合成歌声音准的同时提高了歌声合成效率。
Description
技术领域
本申请涉及歌声合成技术领域,更具体地说,涉及歌声合成方法、装置及电子设备和计算机可读存储介质。
背景技术
随着信息技术的发展,歌声合成的应用场景也越来越广泛。例如,由于原始音频信号的音准较差,因此需要对原始音频信号进行音准增强的歌声合成。在相关技术中,可以采用one-hot encoding(独热编码)技术,使用频率的独热编码形式来表示音高。在独热编码技术中,使用N维向量来对N个状态进行编码,每个状态都有它独立的编码形式,并且在任意时候,其中只有一位有效。根据人类发音的频率范围一般为1000Hz以内,可以使用一个维度为1000的向量,当频率值为100,该向量的第100维为1,其他位置为0。在上述方案中,虽然可以使用频率的独热编码形式从物理上不同频率之间的关系,但是编码维度高,歌声合成效率较低。
因此,如何在增强合成歌声音准的同时提高歌声合成效率是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种歌声合成方法、装置及一种电子设备和一种计算机可读存储介质,在增强合成歌声音准的同时提高了歌声合成效率。
为实现上述目的,本申请第一方面提供了一种歌声合成方法,包括:
获取原始音频信号,并提取所述原始音频信号的基频信息和音素序列;
基于所述基频信息生成所述原始音频信号对应的线性频谱向量;
对所述线性频谱向量进行非线性转换,以得到所述原始音频信号对应的基频骨架;其中,所述基频骨架的编码维度与所述音素序列的编码维度相同;
将所述音素序列和所述基频骨架输入训练完成的声学参数预测模型中,以生成目标梅尔频谱;
基于所述目标梅尔频谱利用声码器生成合成音频信号。
为实现上述目的,本申请第二方面提供了一种歌声合成装置,包括:
提取模块,用于获取原始音频信号,并提取所述原始音频信号的基频信息和音素序列;
第一生成模块,用于基于所述基频信息生成所述原始音频信号对应的线性频谱向量;
转换模块,用于对所述线性频谱向量进行非线性转换,以得到所述原始音频信号对应的基频骨架;其中,所述基频骨架的编码维度与所述音素序列的编码维度相同;
输入模块,用于将所述音素序列和所述基频骨架输入训练完成的声学参数预测模型中,以生成目标梅尔频谱;
第二生成模块,用于基于所述目标梅尔频谱利用声码器生成合成音频信号。
为实现上述目的,本申请第三方面提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述歌声合成方法的步骤。
为实现上述目的,本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述歌声合成方法的步骤。
通过以上方案可知,本申请提供的一种歌声合成方法,包括:获取原始音频信号,并提取所述原始音频信号的基频信息和音素序列;基于所述基频信息生成所述原始音频信号对应的线性频谱向量;对所述线性频谱向量进行非线性转换,以得到所述原始音频信号对应的基频骨架;其中,所述基频骨架的编码维度与所述音素序列的编码维度相同;将所述音素序列和所述基频骨架输入训练完成的声学参数预测模型中,以生成目标梅尔频谱;基于所述目标梅尔频谱利用声码器生成合成音频信号。
本申请提供的歌声合成方法,在对原始音频信号进行音准增强时,首先提取原始音频信号的基频信息,其次基于该基频信息生成原始音频信号对应的线性频谱向量,为了使得频谱向量更符合人的听感,再将线性频谱向量经过非线性转换得到基频骨架。最后将基频骨架和原始音频信号的音素序列作为控制条件输入声学参数预测模型中,得到音准更加准确的目标梅尔频谱,用于合成高质量的合成音频信号。由此可见,本申请利用基频骨架表示音频信号的音高信息,同时兼顾了基频信息和听感,实现了原始音频信号的音准增强,提升了合成音频信号的发音质量。另外,基频骨架的编码维度与音素序列的编码维度相同,相对于独热编码形式编码维度低,歌声合成效率较高。本申请还公开了一种歌声合成装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为本申请实施例提供的一种歌声合成系统的架构图;
图2为本申请实施例提供的一种歌声合成方法的流程图;
图3为本申请实施例提供的正弦波信号的波形示意图;
图4为本申请实施例提供的三角滤波器组的频率与响应的映射关系示意图;
图5为本申请实施例提供的另一种歌声合成方法的流程图;
图6为本申请实施例提供的一种歌声合成装置的结构图;
图7为本申请实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解本申请提供的歌声合成方法,下面对其使用的系统进行介绍。参见图1,其示出了本申请实施例提供的一种歌声合成系统的架构图,如图1所示,包括服务器10和与服务器10建立通信连接的若干数量的客户端20。
在本申请中,服务器10用于执行歌声合成方法的步骤,包括获取原始音频信号,并提取所述原始音频信号的基频信息和音素序列;基于所述基频信息生成所述原始音频信号对应的线性频谱向量;对所述线性频谱向量进行非线性转换,以得到所述原始音频信号对应的基频骨架;其中,所述基频骨架的编码维度与所述音素序列的编码维度相同;将所述音素序列和所述基频骨架输入训练完成的声学参数预测模型中,以生成目标梅尔频谱;基于所述目标梅尔频谱利用声码器生成合成音频信号。
进一步的,服务器10中还可以设置有音素序列数据库、歌声数据库、基频信息数据库以及梅尔频谱数据库。其中,音素序列数据库用于保存各种歌声的音素序列,例如歌声合成过程中生成的原始音频信号的音素序列,用于声学参数预测模型训练的训练音素序列等。歌声数据库中具体可以用于保存各种歌声,例如合成音频信号、用于声学参数预侧模型训练的训练音频信号等。基频信息数据库中具体它用于保存歌声合成过程中提取出的基频信息、用于声学参数预侧模型训练的训练基频信息。梅尔频谱数据库用于保存用于声学参数预侧模型训练的训练音频信号的梅尔频谱。
可以理解的是,经过本申请的歌声合成方案生成的合成音频信号、及其对应的目标梅尔频谱可以用于声学参数预测模型的训练。这样一来,当服务器10接收到客户端20针对声学参数预测模型的训练请求之后,可以借助历史生成的合成音频信号、及其对应的目标梅尔频谱对声学参数预测模型进行训练。
客户端20可以包括PC(中文全称:个人计算机,英文全称:Personal Computer)等固定终端和手机等移动终端,客户端20上可以设置扬声器,用于输出合成音频信号。
本申请实施例公开了一种歌声合成方法,在增强合成歌声音准的同时提高了歌声合成效率。
参见图2,本申请实施例提供的一种歌声合成方法的流程图,如图2所示,包括:
S101:获取原始音频信号,并提取所述原始音频信号的基频信息和音素序列;
本实施例的执行主体为上述服务器10,目的在于对原始音频信号进行音准增强。在本步骤中,提取原始音频信号的基频信息和音素序列。基频信息为原始音频信号中的最低震荡频率,音素序列为原始音频信号中各个文本对应的音素组成的序列。
优选的,所述提取所述原始音频信号的基频信息,包括:利用低通滤波器组对所述原始音频信号进行滤波,以得到多个滤波信号;其中,所述低通滤波器组包括多个截止频率的低通滤波器;根据所述滤波信号的周期特征确定对应的截止频率的置信度,并基于所述置信度确定所述原始音频信号的基频值。在具体实施中,针对原始音频信号,采用低通滤波器组中多个截止频率的低通滤波器对其进行滤波,以得到原始音频信号分别经过多个低通滤波器的滤波信号。例如,低通滤波器组包括三个低通滤波器,截止频率分别为1、2和3,截止频率3大于截止频率2,截止频率2大于截止频率1。原始音频信号分别经过多个低通滤波器后得到截止频率1对应的滤波信号A、截止频率2对应的滤波信号B,截止频率3对应的滤波信号C。根据每个滤波信号的周期特征可以确定对应的截止频率的置信度,进而基于置信度确定原始音频信号的基频值。可以理解的是,当采用了合适的截止频率的低通滤波器对原始音频信号进行滤波后,所得到的滤波信号应该为一个标准的正弦波信号,也即滤波信号的周期特征越接近正弦波信号的周期特征,该滤波信号对应的截止频率的置信度越大。请参见图3,图3为本申请实施例提供的正弦波信号的波形示意图。如图3所示,正弦波信号的横坐标为时间,纵坐标为振幅,正弦波信号的信号周期T可以为(t4-t0)或者(t6-t2)或者(t5-t1)或者(t7-t3)。在正弦波信号中,T=Tl=T2=T3=T4,其中,Tl=(t4-t0),T2=(t6-t2),T3=(t5-t1),T4=(t7-t3)。需要说明的是,可以将滤波信号中Tl、T2、T3和T4之间的标准差或者方差的倒数作为对应的截止频率的置信度,标准差或方差越大,置信度越低
可以理解的是,原始音频信号的真实基频是未知的,因此,需要使用多个不同截止频率的低通滤波器进行尝试,以确定原始音频信号对应的真实基频。作为一种可行的实施方式,所述利用低通滤波器组对所述原始音频信号进行滤波,以得到多个滤波信号,包括:利用低通滤波器组中的所有低通滤波器分别对所述原始音频信号进行滤波,以得到所述原始音频信号分别经过每个所述低通滤波器后的多个滤波信号;相应的,所述根据所述滤波信号的周期特征确定对应的截止频率的置信度,并基于所述置信度确定所述原始音频信号的基频值,包括:根据每个所述滤波信号的周期特征确定每个所述截止频率的置信度;将所有所述置信度中最大置信度对应的截止频率确定为所述原始音频信号的基频值。在这种实施方式中,原始音频信号需要经过低通滤波器中的所有低通滤波器,并分别确定得到的所有取置信度最大的截止频率作为原始音频信号的基频值。
作为另一种可行的实施方式,所述利用低通滤波器组对所述原始音频信号进行滤波,以得到多个滤波信号,包括:按照截止频率由低至高的顺序依次分别利用低通滤波器组中的低通滤波器对所述原始音频信号进行滤波,以得到所述原始音频信号经过所述低通滤波器后的滤波信号;相应的,所述根据所述滤波信号的周期特征确定对应的截止频率的置信度,并基于所述置信度确定所述原始音频信号的基频值,包括:根据所述滤波信号的周期特征确定对应的截止频率的置信度;若所述置信度大于预设值,则将所述置信度对应的截止频率确定为所述原始音频信号的基频值。在这种实施方式中,按照截止频率由低至高的顺序依次分别利用对应的低通滤波器进行尝试,依据得到的滤波信号的周期特征计算对应的截止频率的置信度,若置信度大于预设值,则将该截止频率确定为原始音频信号的基频值。
进一步的,提取原始音频信号的音素序列。在具体实施中,首先获取原始音频信号对应的歌词文本信息,其内容及类型可以根据实际需要确定,例如,可以为中文类型的文本信息、英文类型的文本信息等。在本实施例中,由于歌词文本信息反映的是歌曲的文本信息,文本信息的类型多为汉字、英文等,而汉字、英文等并不能表征歌曲的发音情况,所以需要将歌词文本信息转化为能够反映发音情况的音素序列,音素序列也即与歌词文本信息中的各个文本对应的音素序列。
应当指出,在将歌词文本信息转换为音素序列的过程中,以汉字为例,如果歌词文本信息的类型为汉字,因为汉字不能反映发音信息,所以可以将歌词文本信息先转换为拼音形式的文本信息,但是转换为拼音形式的文本信息之后,因为拼音并不能直接对应发音情况,比如拼音中的yu和wu,y和w都是不发音的,所以需要进一步将拼音形式的文本信息转换成音素形式的音素序列。在此过程中,音素序列中音素的类型可以为国际音素等,在此不进行具体限定。
S102:基于所述基频信息生成所述原始音频信号对应的线性频谱向量;
在本步骤中,根据原始音频信号的采样率以及频谱分辨率,初始化一个相应长度的线性频谱向量,初始值全为0。根据泛音是基频的倍频关系,在线性频谱向量的指定位置用数值1来填充。即本步骤可以包括:对所述原始音频信号进行采样点为N的傅里叶变换得到中间音频信号;将所述中间音频信号中满足预设条件的位置n填充为1,其他位置填充为0,生成所述原始音频信号对应的线性频谱向量;其中,所述预设条件为:
在具体实施中,对于采样率为F的原始音频信号,使用采样点为N的傅里叶变换可以得到维度为N/2+1的线性频谱。根据奈圭斯特-香农采用定理,采样率为F的离散信号的最高频率为F/2。线性频谱包含了频率为0的直流分量,因此其频谱分辨率为(F/2)/(N/2)=F/N。N一般选择2的指数幂,例如1024或者2048,N越大得到的频谱分辨率更高。在满足上述预设条件的位置n填充1,其他位置填充0,生成原始音频信号对应的线性频谱向量。例如,F=10240Hz,N=1024,f=100Hz,则线性频谱的维度为513,位置10、20、30、…、510填充1,其他位置填充0。
S103:对所述线性频谱向量进行非线性转换,以得到所述原始音频信号对应的基频骨架;
需要说明的是,由于人耳听到的声音高低于实际频率不是呈线性关系,因此在本步骤中需要对线性频谱向量进行非线性转换,以得到原始音频信号对应的基频骨架,该基频骨架用于拟合人类听觉的非线性感受,取代独热编码来描述音高信息。
作为一种可行的实施方式,本步骤可以包括:将所述线性频谱向量输入三角滤波器组中,以得到所述原始音频信号对应的基频骨架;其中,所述三角滤波器组包括不等宽的多个三角滤波器。在具体实施中,可以定义一个有M个三角滤波器的三角滤波器组,请参见图4,图4为本申请实施例提供的三角滤波器组的频率与响应的映射关系示意图。如图4所示,该三角滤波器组中的每个滤波器都是三角形的,中心频率为f(m),中心频率处的响应为1,边缘频率处响应为0,中心频率向边缘频率的方向,响应线性减小,各f(m)之间的间隔随着m值的增大而增宽。基频骨架准确地描述了音准的变化,并且通过多次谐波的方式提升了精度。例如,对于采样率为16000HZ的原始音频信号,可以选用包括80个三角滤波器的三角滤波器组,对于采样率为24000HZ的原始音频信号,可以选用包括120个三角滤波器的三角滤波器组。
S104:将所述音素序列和所述基频骨架输入训练完成的声学参数预测模型中,以生成目标梅尔频谱;其中,所述基频骨架的编码维度与所述音素序列的编码维度相同;
S105:基于所述目标梅尔频谱利用声码器生成合成音频信号。
声学参数预测模型可以为编码器-解码器结构,由卷积神经网络组成,可用于语音合成、语音识别、图像描述生成以及自然语言处理中的机器翻译等。声学参数预测模型的输入信息可以包括音素序列、音高信息序列或者时长信息等,输出信息为声学特征,例如梅尔频谱、傅里叶变换幅值谱和频谱包络等。在本实施例中,采用音素序列和基频骨架相加的方式作为声学参数预测模型的输入,音素序列的编码维度和基频骨架的编码维度相同,以带有音准信息的目标梅尔频谱作为输出,目标梅尔频谱经过声码器可以生成合成音频信号。
本申请实施例提供的歌声合成方法,在对原始音频信号进行音准增强时,首先提取原始音频信号的基频信息,其次基于该基频信息生成原始音频信号对应的线性频谱向量,为了使得频谱向量更符合人的听感,再将线性频谱向量经过非线性转换得到基频骨架。最后将基频骨架和原始音频信号的音素序列作为控制条件输入声学参数预测模型中,得到音准更加准确的目标梅尔频谱,用于合成高质量的合成音频信号。由此可见,本申请实施例利用基频骨架表示音频信号的音高信息,同时兼顾了基频信息和听感,实现了原始音频信号的音准增强,提升了合成音频信号的发音质量。另外,基频骨架的编码维度与音素序列的编码维度相同,相对于独热编码形式编码维度低,歌声合成效率较高。
下面介绍声学参数预测模型的训练方法,具体的:
参见图5,本申请实施例提供的另一种歌声合成方法的流程图,如图5所示,包括:
S201:获取训练音频信号,并提取所述训练音频信号的训练基频信息、训练音素序列和梅尔频谱;
S202:基于所述训练基频信息生成训练原始音频信号对应的训练线性频谱向量,并对所述训练线性频谱向量进行非线性转换,以得到所述训练音频信号对应的训练基频骨架;
S203:利用所述训练音素序列、所述训练基频骨架和所述梅尔频谱对声学参数预测模型进行训练,得到所述训练完成的声学参数预测模型。
在训练声学参数预测模型的过程中,将训练音频信号的训练音素序列和训练基频骨架输入声学参数预测模型,进行有监督的学习,声学参数预测模型的输出为预测梅尔频谱,利用损失函数计算预测梅尔频谱与训练音频信号的真实梅尔频谱之间的损失值,该损失值用于训练声学参数预测模型。训练音素序列和训练基频骨架的提取过程与上述实施例介绍的过程类似,在此不再赘述。
由此可见,本实施例通过基频骨架拟合人类听觉的非线性感受,取代独热编码来描述音高信息,将基频骨架和音素序列相加作为声学参数预测模型的训练输入信息,提高了声学参数预测模型预测梅尔频谱的准确度,进而提升了歌声合成的音准以及发音质量。
下面对本申请实施例提供的一种歌声合成装置进行介绍,下文描述的一种歌声合成装置与上文描述的一种歌声合成方法可以相互参照。
参见图6,本申请实施例提供的一种歌声合成装置的结构图,如图5所示,包括:
提取模块601,用于获取原始音频信号,并提取所述原始音频信号的基频信息和音素序列;
第一生成模块602,用于基于所述基频信息生成所述原始音频信号对应的线性频谱向量;
转换模块603,用于对所述线性频谱向量进行非线性转换,以得到所述原始音频信号对应的基频骨架;其中,所述基频骨架的编码维度与所述音素序列的编码维度相同;
输入模块604,用于将所述音素序列和所述基频骨架输入训练完成的声学参数预测模型中,以生成目标梅尔频谱;
第二生成模块605,用于基于所述目标梅尔频谱利用声码器生成合成音频信号。
本申请实施例提供的歌声合成装置,在对原始音频信号进行音准增强时,首先提取原始音频信号的基频信息,其次基于该基频信息生成原始音频信号对应的线性频谱向量,为了使得频谱向量更符合人的听感,再将线性频谱向量经过非线性转换得到基频骨架。最后将基频骨架和原始音频信号的音素序列作为控制条件输入声学参数预测模型中,得到音准更加准确的目标梅尔频谱,用于合成高质量的合成音频信号。由此可见,本申请实施例利用基频骨架表示音频信号的音高信息,同时兼顾了基频信息和听感,实现了原始音频信号的音准增强,提升了合成音频信号的发音质量。另外,基频骨架的编码维度与音素序列的编码维度相同,相对于独热编码形式编码维度低,歌声合成效率较高。
在上述实施例的基础上,作为一种优选实施方式,所述提取模块601包括:
获取单元,用于获取原始音频信号;
滤波单元,用于利用低通滤波器组对所述原始音频信号进行滤波,以得到多个滤波信号;其中,所述低通滤波器组包括多个截止频率的低通滤波器;
确定单元,用于根据所述滤波信号的周期特征确定对应的截止频率的置信度,并基于所述置信度确定所述原始音频信号的基频值;
提取单元,用于提取所述原始音频信号的音素序列。
在上述实施例的基础上,作为一种优选实施方式,所述滤波单元具体为利用低通滤波器组中的所有低通滤波器分别对所述原始音频信号进行滤波,以得到所述原始音频信号分别经过每个所述低通滤波器后的多个滤波信号的单元;
相应的,所述确定单元具体为根据每个所述滤波信号的周期特征确定每个所述截止频率的置信度,将所有所述置信度中最大置信度对应的截止频率确定为所述原始音频信号的基频值的单元。
在上述实施例的基础上,作为一种优选实施方式,所述滤波单元具体为按照截止频率由低至高的顺序依次分别利用低通滤波器组中的低通滤波器对所述原始音频信号进行滤波,以得到所述原始音频信号经过所述低通滤波器后的滤波信号;
相应的,所述确定单元具体为根据所述滤波信号的周期特征确定对应的截止频率的置信度;若所述置信度大于预设值,则将所述置信度对应的截止频率确定为所述原始音频信号的基频值的单元。
在上述实施例的基础上,作为一种优选实施方式,所述第一生成模块602包括:
变换单元,用于对所述原始音频信号进行采样点为N的傅里叶变换得到中间音频信号;
生成单元,用于将所述中间音频信号中满足预设条件的位置n填充为1,其他位置填充为0,生成所述原始音频信号对应的线性频谱向量;其中,所述预设条件为:
在上述实施例的基础上,作为一种优选实施方式,所述转换模块603具体为将所述线性频谱向量输入三角滤波器组中,以得到所述原始音频信号对应的基频骨架;其中,所述三角滤波器组包括不等宽的多个三角滤波器的模块。
在上述实施例的基础上,作为一种优选实施方式,还包括:
获取模块,用于获取训练音频信号,并提取所述训练音频信号的训练基频信息、训练音素序列和梅尔频谱;
第三生成模块,用于基于所述训练基频信息生成训练原始音频信号对应的训练线性频谱向量,并对所述训练线性频谱向量进行非线性转换,以得到所述训练音频信号对应的训练基频骨架;
训练模块,用于利用所述训练音素序列、所述训练基频骨架和所述梅尔频谱对声学参数预测模型进行训练,得到所述训练完成的声学参数预测模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请还提供了一种电子设备,参见图7,本申请实施例提供的一种电子设备70的结构图,如图7所示,可以包括处理器71和存储器72。
其中,处理器71可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器71可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器71也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器71可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器71还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器72可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器72还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器72至少用于存储以下计算机程序721,其中,该计算机程序被处理器71加载并执行之后,能够实现前述任一实施例公开的由电子设备侧执行的歌声合成方法中的相关步骤。另外,存储器72所存储的资源还可以包括操作系统722和数据723等,存储方式可以是短暂存储或者永久存储。其中,操作系统722可以包括Windows、Unix、Linux等。
在一些实施例中,电子设备70还可包括有显示屏73、输入输出接口74、通信接口75、传感器76、电源77以及通信总线78。
当然,图7所示的电子设备的结构并不构成对本申请实施例中电子设备的限定,在实际应用中电子设备可以包括比图7所示的更多或更少的部件,或者组合某些部件。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任一实施例电子设备所执行的歌声合成方法的步骤。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种歌声合成方法,其特征在于,包括:
获取原始音频信号,并提取所述原始音频信号的基频信息和音素序列;
基于所述基频信息生成所述原始音频信号对应的线性频谱向量;
对所述线性频谱向量进行非线性转换,以得到所述原始音频信号对应的基频骨架;其中,所述基频骨架的编码维度与所述音素序列的编码维度相同;
将所述音素序列和所述基频骨架输入训练完成的声学参数预测模型中,以生成目标梅尔频谱;
基于所述目标梅尔频谱利用声码器生成合成音频信号。
2.根据权利要求1所述歌声合成方法,其特征在于,所述提取所述原始音频信号的基频信息,包括:
利用低通滤波器组对所述原始音频信号进行滤波,以得到多个滤波信号;其中,所述低通滤波器组包括多个截止频率的低通滤波器;
根据所述滤波信号的周期特征确定对应的截止频率的置信度,并基于所述置信度确定所述原始音频信号的基频值。
3.根据权利要求2所述歌声合成方法,其特征在于,所述利用低通滤波器组对所述原始音频信号进行滤波,以得到多个滤波信号,包括:
利用低通滤波器组中的所有低通滤波器分别对所述原始音频信号进行滤波,以得到所述原始音频信号分别经过每个所述低通滤波器后的多个滤波信号;
相应的,所述根据所述滤波信号的周期特征确定对应的截止频率的置信度,并基于所述置信度确定所述原始音频信号的基频值,包括:
根据每个所述滤波信号的周期特征确定每个所述截止频率的置信度;
将所有所述置信度中最大置信度对应的截止频率确定为所述原始音频信号的基频值。
4.根据权利要求2所述歌声合成方法,其特征在于,所述利用低通滤波器组对所述原始音频信号进行滤波,以得到多个滤波信号,包括:
按照截止频率由低至高的顺序依次分别利用低通滤波器组中的低通滤波器对所述原始音频信号进行滤波,以得到所述原始音频信号经过所述低通滤波器后的滤波信号;
相应的,所述根据所述滤波信号的周期特征确定对应的截止频率的置信度,并基于所述置信度确定所述原始音频信号的基频值,包括:
根据所述滤波信号的周期特征确定对应的截止频率的置信度;
若所述置信度大于预设值,则将所述置信度对应的截止频率确定为所述原始音频信号的基频值。
6.根据权利要求1所述歌声合成方法,其特征在于,对所述线性频谱向量进行非线性转换,以得到所述原始音频信号对应的基频骨架,包括:
将所述线性频谱向量输入三角滤波器组中,以得到所述原始音频信号对应的基频骨架;其中,所述三角滤波器组包括不等宽的多个三角滤波器。
7.根据权利要求1所述歌声合成方法,其特征在于,还包括:
获取训练音频信号,并提取所述训练音频信号的训练基频信息、训练音素序列和梅尔频谱;
基于所述训练基频信息生成训练原始音频信号对应的训练线性频谱向量,并对所述训练线性频谱向量进行非线性转换,以得到所述训练音频信号对应的训练基频骨架;
利用所述训练音素序列、所述训练基频骨架和所述梅尔频谱对声学参数预测模型进行训练,得到所述训练完成的声学参数预测模型。
8.一种歌声合成装置,其特征在于,包括:
提取模块,用于获取原始音频信号,并提取所述原始音频信号的基频信息和音素序列;
第一生成模块,用于基于所述基频信息生成所述原始音频信号对应的线性频谱向量;
转换模块,用于对所述线性频谱向量进行非线性转换,以得到所述原始音频信号对应的基频骨架;其中,所述基频骨架的编码维度与所述音素序列的编码维度相同;
输入模块,用于将所述音素序列和所述基频骨架输入训练完成的声学参数预测模型中,以生成目标梅尔频谱;
第二生成模块,用于基于所述目标梅尔频谱利用声码器生成合成音频信号。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述歌声合成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述歌声合成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110234190.3A CN113160849B (zh) | 2021-03-03 | 2021-03-03 | 歌声合成方法、装置及电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110234190.3A CN113160849B (zh) | 2021-03-03 | 2021-03-03 | 歌声合成方法、装置及电子设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113160849A true CN113160849A (zh) | 2021-07-23 |
CN113160849B CN113160849B (zh) | 2024-05-14 |
Family
ID=76883912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110234190.3A Active CN113160849B (zh) | 2021-03-03 | 2021-03-03 | 歌声合成方法、装置及电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113160849B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007240564A (ja) * | 2006-03-04 | 2007-09-20 | Yamaha Corp | 歌唱合成装置および歌唱合成プログラム |
CN101540183A (zh) * | 2008-03-18 | 2009-09-23 | 鸿富锦精密工业(深圳)有限公司 | 播放装置及其音频输出方法 |
US20090314155A1 (en) * | 2008-06-20 | 2009-12-24 | Microsoft Corporation | Synthesized singing voice waveform generator |
CN102480337A (zh) * | 2010-11-30 | 2012-05-30 | 国际商业机器公司 | 无线电软件系统以及用于其的解码装置和方法 |
CN105845126A (zh) * | 2016-05-23 | 2016-08-10 | 渤海大学 | 一种英语有声影像资料自动加注英语字幕的方法 |
US20180349495A1 (en) * | 2016-05-04 | 2018-12-06 | Tencent Technology (Shenzhen) Company Limited | Audio data processing method and apparatus, and computer storage medium |
CN109949783A (zh) * | 2019-01-18 | 2019-06-28 | 苏州思必驰信息科技有限公司 | 歌曲合成方法及系统 |
CN110148394A (zh) * | 2019-04-26 | 2019-08-20 | 平安科技(深圳)有限公司 | 歌声合成方法、装置、计算机设备及存储介质 |
CN110570876A (zh) * | 2019-07-30 | 2019-12-13 | 平安科技(深圳)有限公司 | 歌声合成方法、装置、计算机设备和存储介质 |
US20200082805A1 (en) * | 2017-05-16 | 2020-03-12 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for speech synthesis |
CN111681637A (zh) * | 2020-04-28 | 2020-09-18 | 平安科技(深圳)有限公司 | 歌曲合成方法、装置、设备及存储介质 |
CN111916093A (zh) * | 2020-07-31 | 2020-11-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法及装置 |
CN112037757A (zh) * | 2020-09-04 | 2020-12-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌声合成方法、设备及计算机可读存储介质 |
-
2021
- 2021-03-03 CN CN202110234190.3A patent/CN113160849B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007240564A (ja) * | 2006-03-04 | 2007-09-20 | Yamaha Corp | 歌唱合成装置および歌唱合成プログラム |
CN101540183A (zh) * | 2008-03-18 | 2009-09-23 | 鸿富锦精密工业(深圳)有限公司 | 播放装置及其音频输出方法 |
US20090314155A1 (en) * | 2008-06-20 | 2009-12-24 | Microsoft Corporation | Synthesized singing voice waveform generator |
CN102480337A (zh) * | 2010-11-30 | 2012-05-30 | 国际商业机器公司 | 无线电软件系统以及用于其的解码装置和方法 |
US20180349495A1 (en) * | 2016-05-04 | 2018-12-06 | Tencent Technology (Shenzhen) Company Limited | Audio data processing method and apparatus, and computer storage medium |
CN105845126A (zh) * | 2016-05-23 | 2016-08-10 | 渤海大学 | 一种英语有声影像资料自动加注英语字幕的方法 |
US20200082805A1 (en) * | 2017-05-16 | 2020-03-12 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for speech synthesis |
CN109949783A (zh) * | 2019-01-18 | 2019-06-28 | 苏州思必驰信息科技有限公司 | 歌曲合成方法及系统 |
CN110148394A (zh) * | 2019-04-26 | 2019-08-20 | 平安科技(深圳)有限公司 | 歌声合成方法、装置、计算机设备及存储介质 |
CN110570876A (zh) * | 2019-07-30 | 2019-12-13 | 平安科技(深圳)有限公司 | 歌声合成方法、装置、计算机设备和存储介质 |
CN111681637A (zh) * | 2020-04-28 | 2020-09-18 | 平安科技(深圳)有限公司 | 歌曲合成方法、装置、设备及存储介质 |
CN111916093A (zh) * | 2020-07-31 | 2020-11-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法及装置 |
CN112037757A (zh) * | 2020-09-04 | 2020-12-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌声合成方法、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113160849B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335587B (zh) | 语音合成方法、系统、终端设备和可读存储介质 | |
CN108492818B (zh) | 文本到语音的转换方法、装置和计算机设备 | |
Eskimez et al. | Adversarial training for speech super-resolution | |
JP2022133408A (ja) | 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム | |
CN113327580A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
CN112289343B (zh) | 音频修复方法、装置及电子设备和计算机可读存储介质 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN112786001B (zh) | 语音合成模型训练方法、语音合成方法和装置 | |
CN115294995A (zh) | 语音转换方法、语音转换装置、电子设备、存储介质 | |
JP2019168608A (ja) | 学習装置、音響生成装置、方法及びプログラム | |
CN113555003B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN113421584B (zh) | 音频降噪方法、装置、计算机设备及存储介质 | |
CN112037757A (zh) | 一种歌声合成方法、设备及计算机可读存储介质 | |
JP7412483B2 (ja) | 音声処理方法、装置、電子機器及び記憶媒体 | |
CN113160849B (zh) | 歌声合成方法、装置及电子设备和计算机可读存储介质 | |
CN111862931B (zh) | 一种语音生成方法及装置 | |
CN116168678A (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
JP2022153600A (ja) | 音声合成方法、装置、電子機器及び記憶媒体 | |
JP7103390B2 (ja) | 音響信号生成方法、音響信号生成装置およびプログラム | |
CN113066472B (zh) | 合成语音处理方法及相关装置 | |
CN112164387A (zh) | 音频合成方法、装置及电子设备和计算机可读存储介质 | |
JP6213217B2 (ja) | 音声合成装置及び音声合成用コンピュータプログラム | |
CN113421548B (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
US20240274120A1 (en) | Speech synthesis method and apparatus, electronic device, and readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |