CN111402858B - 一种歌声合成方法、装置、计算机设备及存储介质 - Google Patents
一种歌声合成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111402858B CN111402858B CN202010122318.2A CN202010122318A CN111402858B CN 111402858 B CN111402858 B CN 111402858B CN 202010122318 A CN202010122318 A CN 202010122318A CN 111402858 B CN111402858 B CN 111402858B
- Authority
- CN
- China
- Prior art keywords
- fundamental frequency
- target
- contour
- phonemes
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000001228 spectrum Methods 0.000 claims abstract description 114
- 230000015572 biosynthetic process Effects 0.000 claims description 31
- 238000003786 synthesis reaction Methods 0.000 claims description 31
- 230000008859 change Effects 0.000 claims description 29
- 238000002360 preparation method Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 17
- 238000013016 damping Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 230000000737 periodic effect Effects 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 230000010355 oscillation Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 4
- 238000001308 synthesis method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明公开了一种歌声合成方法、装置、计算机设备及存储介质,其中,方法部分包括:获取语音数据;对语音数据进行解析,得到频谱包络、非周期指数、基频轮廓和音素;对乐谱中的音乐小节信息和基频轮廓进行合成处理;对基频轮廓进行基频控制处理;对第一基频轮廓和第二基频轮廓进行合成处理;对频谱包络和非周期指数进行频谱控制处理;对音素进行变速处理;将目标频谱包络、目标非周期指数、目标音素和目标基频轮廓进行合成处理,得到目标语音数据;对目标语音数据进行频谱控制处理,得到目标歌声数据。使得后续合成的目标歌声数据更符合用户发出的声音,以使歌声合成效果更好。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种歌声合成方法、装置、计算机设备及存储介质。
背景技术
随着信息技术的不断创新和完善,许多人机交互方面的音乐多媒体应用也逐渐走入我们的日常生活,目前,传统的歌声合成技术是基于共振模型和共振峰的合成法,传统的歌声合成技术主要在两个方向,一种是text-to-singing、lyrics-to-singing方向,也就是将纸面上的文字(歌词)转变为自然歌声的模拟,但上述方式不是直接将声音转变为歌声,应用场景比较局限,另外一种讲平常的说话声音转变为歌声,但这种方式研究眼于唱歌独特的声学特征及其感知效果,因此歌声合成效果较差。
发明内容
本发明提供一种歌声合成方法、装置、计算机设备及存储介质,以解决歌声合成的效果较差的问题。
一种歌声合成方法,包括:
获取语音数据;
对语音数据进行解析,得到语音数据对应的频谱包络、非周期指数、基频轮廓和音素;
从预设的乐谱数据库中获取乐谱;
对乐谱中的音乐小节信息和基频轮廓进行合成处理,得到合成处理后的第一基频轮廓;
对基频轮廓进行基频控制处理,得到基频控制处理后的第二基频轮廓;
对第一基频轮廓和第二基频轮廓进行合成处理,得到目标基频轮廓;
对频谱包络和非周期指数进行频谱控制处理,得到目标频谱包络和目标非周期指数;
对音素进行变速处理,得到变速处理后的目标音素;
将目标频谱包络、目标非周期指数、目标音素和目标基频轮廓进行合成处理,得到合成后的目标语音数据;
对合成后的目标语音数据进行频谱控制处理,得到目标歌声数据。
一种歌声合成装置,包括:
第一获取模块,获取语音数据;
解析模块,对语音数据进行解析,得到语音数据对应的频谱包络、非周期指数、基频轮廓和音素;
第二获取模块,从预设的乐谱数据库中获取乐谱;
第一合成模块,对乐谱中的音乐小节信息和基频轮廓进行合成处理,得到合成处理后的第一基频轮廓;
基频控制处理模块,对基频轮廓进行基频控制处理,得到基频控制处理后的第二基频轮廓;
第二合成模块,对第一基频轮廓和第二基频轮廓进行合成处理,得到目标基频轮廓;
第一频谱控制处理模块,对频谱包络和非周期指数进行频谱控制处理,得到目标频谱包络和目标非周期指数;
变速处理模块,对音素进行变速处理,得到变速处理后的目标音素;
第二合成模块,将目标频谱包络、目标非周期指数、目标音素和目标基频轮廓进行合成处理,得到合成后的目标语音数据;
第二频谱控制处理模块,对合成后的目标语音数据进行频谱控制处理,得到目标歌声数据。
一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述歌声合成方法的步骤。
一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述歌声合成方法的步骤。
上述歌声合成方法、装置、计算机设备及存储介质,所实现的其中一个方案中,获取语音数据;先对对语音数据进行解析,得到语音数据对应的频谱包络、非周期指数、基频轮廓和音素;再从预设的乐谱数据库中获取乐谱;然后对乐谱中的音乐小节信息和基频轮廓进行合成处理,得到合成处理后的第一基频轮廓;接着对基频轮廓进行基频控制处理,得到基频控制处理后的第二基频轮廓;接着对第一基频轮廓和第二基频轮廓进行合成处理,得到目标基频轮廓;接着对频谱包络和非周期指数进行频谱控制处理,得到目标频谱包络和目标非周期指数;接着对音素进行变速处理,得到变速处理后的目标音素;将目标频谱包络、目标非周期指数、目标音素和目标基频轮廓进行合成处理,得到合成后的目标语音数据;最后对合成后的目标语音数据进行频谱控制处理,得到目标歌声数据。
直接对语音数据对应的频谱包络、非周期指数、基频轮廓和音素进行处理,使得合成的目标歌声数据更符合用户发出的声音,以使歌声合成效果更好。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中歌声合成方法的一应用环境示意图;
图2是本发明一实施例中歌声合成方法的一流程图;
图3是本发明一实施例中歌声合成方法的另一流程图;
图4是本发明一实施例中歌声合成方法的另一流程图;
图5是本发明一实施例中歌声合成方法的另一流程图;
图6是本发明一实施例中歌声合成方法的另一流程图;
图7是本发明一实施例中歌声合成方法的另一流程图;
图8是本发明一实施例中歌声合成装置的一原理框图;
图9是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的歌声合成方法,可应用在如图1的应用环境中,其中,服务端通过网络与客户端进行通信。当客户端接收到合携带有语音数据的歌声合成请求时,客户端可以向发送提示,服务端根据提示获取语音数据;对语音数据进行解析,得到语音数据对应的频谱包、非周期指数、基频轮廓和音素;从预设的乐谱数据库中获取乐谱;对乐谱中的音乐小节信息和基频轮廓进行合成处理,得到合成处理后的第一基频轮廓;对基频轮廓进行基频控制处理,得到基频控制处理后的第二基频轮廓;对第一基频轮廓和第二基频轮廓进行合成处理,得到目标基频轮廓;对频谱包络和非周期指数进行频谱控制处理,得到目标频谱包络和目标非周期指数;对音素进行变速处理,得到变速处理后的目标音素;将目标频谱包络、目标非周期指数、目标音素和目标基频轮廓进行合成处理,得到合成后的目标语音数据;对合成后的目标语音数据进行频谱控制处理,得到目标歌声数据,最后可反馈给客户端,以让客户端可以输出所述目标歌声数据对应的合成歌声。其中,该客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种歌声合成方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10:获取语音数据。
其中,语音数据是指用户需要进行歌声合成的语音数据。用户可以通过个人计算机、笔记本电脑、智能手机直接录取说话的语音再上传至服务端,也可以将个人计算机、笔记本电脑、智能手机中的预存的说话的声音上传至服务端,以使服务端获取语音数据。
S20:对语音数据进行解析,得到语音数据对应的频谱包络、非周期指数、基频轮廓和音素。
频谱包络(spectual envelope)是将不同频率的振幅最高点连结起来形成的曲线,就叫频谱包络线。频谱是许多不同频率的集合,形成一个很宽的频率范围,不同的频率其振幅可能不同。基频轮廓(F0)就是基频随时间变化的曲线。音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。如:如汉语音节ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素。
在本实施例中,可以利用声码器对语音数据进行解析,得到语音数据对应的频谱包络、非周期指数、基频轮廓和音素,也即得从语音数据中得到贴合实际用户发出的声音的相关特征,提高后续合成的目标歌声数据更符合用户发出的声音,以使歌声合成效果更好。
S30:从预设的乐谱数据库中获取乐谱。
预设的乐谱数据库是用户通过个人计算机、笔记本电脑、智能手机中预先存储的乐谱数据库或者用户通过个人计算机、笔记本电脑、智能手机进行本地上传的乐谱数据库。
乐谱是用户从预设的乐谱数据库中选择需要进行歌声合成的乐谱。
S40:对乐谱中的音乐小节信息和基频轮廓进行合成处理,得到合成处理后的第一基频轮廓。
音乐小节,是节拍的单位,音乐小节信息是带有乐谱特征的信息,从乐谱中获取对应的音乐小节信息。进一步地,对基频轮廓,和乐谱中的音乐小节信息进行合成处理,得到与音乐小节信息相关联的第一基频轮廓。
S50:对基频轮廓进行基频控制处理,得到基频控制处理后的第二基频轮廓。
除了对乐谱中的音乐小节信息和基频轮廓进行合成处理,得到合成处理后的第一基频轮廓之外,本方案还对基频轮廓进行基频控制处理,基频控制处理的过程:将基频轮廓分别输入到过冲二阶阻尼模型、二阶震荡模型中得到过冲波动、制备波动和颤音波动,再通过上述过冲波动(Overshoot)、制备波动(Preparation)、颤音波动(Vibrato)对基频轮廓的原波动进行修正得到,从而得到上述第二基频轮廓。
在一实施例中,如图4所示,在步骤S50中,也即对所述基频轮廓进行基频控制处理,得到基频控制处理后的第二基频轮廓,具体包括如下步骤:
S51:将基频轮廓输入到过冲二阶阻尼模型中,得到过冲波动。
S52:将基频轮廓输入到制备二阶阻尼模型中,得到制备波动。
S53:将基频轮廓输入到颤音二阶震荡模型中,得到颤音波动。
其中,过冲波动(Overshoot)、制备波动(Preparation)、颤音波动(Vibrato)的二阶系统的转换函数,由下式表示:
其中,Ω是自然频率,δ是阻尼系数,K是系统的比例增益,S是表示复数。H(s)是二阶系统闭环传递函数,该二阶系统闭环传递函数H(s)对应一个二阶系统的脉冲响应h(t),二阶系统的单位脉冲响应h(t)依据阻尼系数(δ)的不同,可以生成过冲波动(Overshoot)、制备波动(Preparation)、颤音波动(Vibrato)。H(s)的二阶系统脉冲响应可以由下式h(t)得到:
其中,t是时间;
过冲波动(Overshoot)和制备波动(Preparation)可以由(2a)来表示,颤音波动(Vibrato)可以由(2d)来表示,其中由于自然频率(Ω),阻尼系数(δ)以及系统的比例增益(K)的取值不同,所以三种波动不同。
示例性的,可以将自然频率(Ω)、阻尼系数(δ)、系统的比例增益(K)的参数调整为如下表所示:
波动 | Ω[rad/ms] | δ | K |
过冲波动 | 0.0348 | 0.5422 | 0.0348 |
制备波动 | 0.0292 | 0.6681 | 0.0292 |
颤音波动 | 0.0345 | 0 | 0.0018 |
S54:将过冲波动、制备波动、颤音波动合成到基频轮廓中,得到初始基频轮廓。
二阶阻尼模型、二阶震荡模型通过与基频轮廓卷积,能够将过冲波动(Overshoot)、制备波动(Preparation)、颤音波动(Vibrato)三种波动添加到基频轮廓中,得到初始基频轮廓。
S55:通过高通滤波器对初始基频轮廓进行处理,得到细微波动。
细微波动(Fine fluctuation)产生于白噪声中。白噪声(white noise)是指功率谱密度在整个频域内均匀分布的噪声。首先,解析初始基频轮廓,得到白噪声和振幅,通过高通滤波器对白噪声进行高通滤波处理,并对振幅进行归一化处理,最后得到细微波动。示例性的,高通滤波器的截止频率的参数设置可为10Hz。
在一实施例中,如图3所示,在步骤S55中,也即通过高通滤波器对初始基频轮廓进行处理,得到细微波动,具体包括如下步骤:
S551:解析初始基频轮廓,得到白噪声和振幅。
所有频率具有相同能量密度的随机噪声称为白噪声。振幅是指振动的物理量可能达到的最大值。
S552:通过高通滤波器对白噪声进行高通滤波处理,得到高通滤波处理后的白噪声。
S553:对振幅进行归一化处理,得到归一化处理后的振幅。
S554:基于高通滤波处理后的白噪声和归一化处理后的振幅,得到细微波动。
在图4对应的实施例中,通过高通滤波器对白噪声进行高通滤波处理,得到高通滤波处理后的白噪声,并对振幅进行归一化处理,得到归一化处理后的振幅,有助于提高目标基频轮廓处理的精准度,使得后续合成的目标歌声数据更符合用户发出的声音,以使歌声合成效果更好。
S56:将细微波动合成到初始基频轮廓中,得到目标基频轮廓。
在图3对应的实施例中,采用二阶阻尼模型和二阶震荡模型对基频轮廓进行处理,得到过冲波动、制备波动、颤音波动,再通过高通滤波器对初始基频轮廓进行处理,得到细微波动,最后将过冲波动、制备波动、颤音波动、细微波动合成到初始基频轮廓中,得到目标基频轮廓,以使获取到的目标基频轮廓更加贴合实际用户发出的声音,使得后续合成的目标歌声数据更符合用户发出的声音,以使歌声合成效果更好。
S60:对第一基频轮廓和第二基频轮廓进行合成处理,得到目标基频轮廓。
在得到上述第一基频轮廓和第二基频轮廓之后,对上述对第一基频轮廓和第二基频轮廓进行合成处理,得到目标基频轮廓。示例性的,在本方案中,可以直接将第一基频轮廓和第二基频轮廓进行叠加,得到上述目标基频轮廓。
S70:对频谱包络和非周期指数进行频谱控制处理,得到目标频谱包络和目标非周期指数。
本实施例中,在得到语音数据中的频谱包络和非周期指数之后,可以利用频谱控制模型对频谱包络和非周期指数进行频谱控制处理,得到频谱控制处理后的目标频谱包络和目标非周期指数,频谱控制处理过程:利用频谱控制模型强调元音部分的频谱包络的峰值和降低非周期指数。
在一实施例中,如图5所示,在步骤S70中,也即对所述频谱包络和所述非周期指数进行频谱控制处理,得到目标频谱包络和目标非周期指数,具体包括如下步骤:
S71:采用如下公式,对频谱包络进行计算,得到目标频谱包络:
Ssg(f)=Wsf(f)*Ssp(f);
其中,Ssg(f)为频谱控制处理后的频谱包络,Ssp(f)为频谱包络,Wsf(f)为强调Ssp(f)共振峰的权重函数,f为频率,其中,
ksf为调整强调度的增益,Fb为强调度的带宽,Fs为Ssg(f)的峰值频率。
可选地,Fb的参数设置为2000Hz,ksf的参数设置为12dB。
S72:采用如下公式,对非周期指数进行处理计算,得到目标非周期指数:
Qsg(f)=Psf(f)*Qsp(f);
其中,Qsg(f)为频谱控制处理后的非周期指数,Qsp(f)为非周期指数,Psf(f)为强调Qsp(f)共振峰的权重函数,其中,
ksf为调整强调度的增益,Fb为强调度的带宽,Qb为Qsp(f)的峰值频率。
进一步地,目标非周期指数降低至3kHz。
在图5对应的实施例中,采用Ssg(f)=Wsf(f)*Ssp(f)公式对频谱包络进行计算,得到频谱控制处理后的频谱包络,以及采用Qsg(f)=Psf(f)*Qsp(f)公式对非周期指数进行处理计算,得到频谱控制处理后的目标非周期指数,通过公式合理对频谱包络和非周期指数进行调整,可以直接将语音数据赋予曲调,使得后续合成的目标歌声数据更符合用户发出的声音,以使歌声合成效果更好。
S80:对音素进行变速处理,得到变速处理后的目标音素。
其中,根据乐谱将音素的音节的进行变速处理,使得音节持续时间加长或者缩短,得到变速处理后的目标音素;使得变速处理后的目标音素变得符合乐谱的节奏和节拍。
在一实施例中,如图6所示,在步骤S80中,也即对音素进行变速处理,得到变速处理后的目标音素,具体包括如下步骤:
S81:根据预设辅音调节参数对音素的辅音持续时间进行调整,得到处理后的辅音持续时间。
本实施例中,利用持续时间控制模型音素的辅音持续时间进行调整。在持续时间控制模型中,将音节分为了辅音持续时间区域、边界持续时间区域、元音持续时间区域,其中,边界持续时间区域为辅音与元音的边界时间区域。根据乐谱中的预设辅音调节参数对音素的辅音持续时间进行调整,得到处理后的辅音持续时间。
进一步地,根据乐谱中的预设辅音调节参数对音素的辅音持续时间进行调整过程为:采用如下公式Tcsig=kTcspk对音素的辅音持续时间进行调整,其中,Tcsig为乐谱中音素的辅音持续时间,Tcspk为语音数据对应的音素的辅音持续时间,k为预设辅音调节参数;其中,不同类别的辅音,其预设辅音调节参数不同,例如,摩擦音的预设辅音调节参数为1.58,爆破音的预设辅音调节参数为1.13,半元音的预设辅音调节参数为2.07,鼻音的预设辅音调节参数为1.77,/y/的预设辅音调节参数为1.13。
S82:对音素的边界持续时间进行处理,得到处理后的边界持续时间;
对音素的边界持续时间进行处理的过程:采用如下公式Tbsig=Tbspk对音素的边界持续时间进行处理,其中,Tcsig为乐谱中音素的边界持续时间,Tcspk为语音数据对应的音素的边界持续时间。
S83:对处理后的辅音持续时间、处理后的边界持续时间和音素的总持续时间进行处理,得到处理后的元音持续时间。
对处理后的辅音持续时间、处理后的边界持续时间和音素的总持续时间进行处理的过程:采用如下公式Tvsig=Note duration-(Tcsig+Tbsig)对处理后的辅音持续时间、处理后的边界持续时间和音素的总持续时间进行处理,其中Tvsig为乐谱中音素的元音持续时间,Note duration为音素的总持续时间。
S84:根据处理后的辅音持续时间、处理后的边界持续时间和处理后的元音持续时间对音素进行调整,得到变速处理后的目标音素。
在一实施例中,如图7所示,在步骤S84中,也即根据处理后的辅音持续时间、处理后的边界持续时间和处理后的元音持续时间对音素进行调整,得到变速处理后的目标音素,具体包括如下步骤:
S841:根据处理后的辅音持续时间、处理后的边界持续时间和处理后的元音持续时间对所述音素进行调整,并将所述音素中清音对应的声母设为预设数值,得到所述目标音素。
根据语音数据对应的音素确定出清音(相对于浊音)的声母,并将该清音的声母对应的基频设定为0。可以理解,中文中存在一些清音的声母,这些声母在发声时声带不震动,所以音高理应为0,也即清音的声母对应的基频置应为0,如果为这些轻音的声母添加音高,反而会导致噪音。所以在控制音高时,针对这些清音的声母,将基频设定为0。
在图7对应的实施例中,根据语音数据对应的音素确定出清音(相对于浊音)的声母,并将该清音的声母对应的基频设定为0,能够提高后续变速处理后的目标音素的质量。
在图6对应的实施例中,根据预设辅音调节参数对音素的辅音持续时间进行调整,以及对音素的边界持续时间和元音持续时间分别进行精准的调整,得到处理后的辅音持续时间、边界持续时间和元音持续时间,使得后续合成的目标歌声数据更符合用户发出的声音,以使歌声合成效果更好。
S90:将目标频谱包络、目标非周期指数、目标音素和目标基频轮廓进行合成处理,得到合成后的目标语音数据。
在得到上述目标频谱包络、目标非周期指数、目标音素和目标基频轮廓之后,可以根据目标频谱包络、目标非周期指数、目标音素和目标基频轮廓对语音数据原来的频谱包络、非周期指数、音素和基频轮廓进行调整,得到目标语音数据。具体地,可以利用声码器进行合成处理,得到上述目标语音数据。
S100:对目标语音数据进行频谱控制处理,得到目标歌声数据。
对合成后的目标语音数据进行频谱控制处理,频谱控制处理的过程:利用频谱控制模型将AM(amplitude modulation调幅)添加到合成后的目标语音数据的幅度包络上,其中AM的添加方式如下:
Esg(t)=(1+kamsin(2πfamt))Esp(t);
其中,Esg(t)为合成后的目标语音数据的幅度包络,Esp(t)为乐谱的幅度包络,fam为AM的频率,kam为AM的幅度,t为时间。示例性的,可以将fam的参数设置为5.5Hz,kam的参数设置为0.2。
在图2对应的实施例中,直接对语音数据对应的频谱包络、非周期指数、基频轮廓和音素进行处理,使得后续合成的目标歌声数据更符合用户发出的声音,以使歌声合成效果更好。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明的实施过程构成任何限定。
在一实施例中,提供一种歌声合成装置,该歌声合成装置与上述实施例中歌声合成方法一一对应。如图8所示,该歌声合成装置包括第一获取模块10、解析模块20、第二获取模块30、第一合成模块40、基频控制处理模块50、第二合成模块60、第一频谱控制处理模块70、变速处理模块80、第二合成模块90、第二频谱控制处理模块100,各功能模块详细说明如下:
第一获取模块10,获取语音数据;
解析模块20,对语音数据进行解析,得到语音数据对应的频谱包络、非周期指数、基频轮廓和音素;
第二获取模块30,从预设的乐谱数据库中获取乐谱;
第一合成模块40,对乐谱中的音乐小节信息和基频轮廓进行合成处理,得到合成处理后的第一基频轮廓;
基频控制处理模块50,对基频轮廓进行基频控制处理,得到基频控制处理后的第二基频轮廓;
第二合成模块60,对第一基频轮廓和第二基频轮廓进行合成处理,得到目标基频轮廓;
第一频谱控制处理模块70,对频谱包络和非周期指数进行频谱控制处理,得到目标频谱包络和目标非周期指数;
变速处理模块80,对音素进行变速处理,得到变速处理后的目标音素;
第二合成模块90,将目标频谱包络、目标非周期指数、目标音素和目标基频轮廓进行合成处理,得到合成后的目标语音数据;
第二频谱控制处理模块100,对目标语音数据进行频谱控制处理,得到目标歌声数据。
基频控制处理模块50,具体用于:
将基频轮廓输入到过冲二阶阻尼模型中,得到过冲波动;
将基频轮廓输入到制备二阶阻尼模型中,得到制备波动;
将基频轮廓输入到颤音二阶震荡模型中,得到颤音波动;
将过冲波动、制备波动、颤音波动合成到基频轮廓中,得到初始基频轮廓;
通过高通滤波器对初始基频轮廓进行处理,得到细微波动;
将细微波动合成到初始基频轮廓中,得到第二基频轮廓。
变速处理模块80,具体用于:
根据预设辅音调节参数对音素的辅音持续时间进行调整,得到处理后的辅音持续时间;
对音素的边界持续时间进行处理,得到处理后的边界持续时间;
对处理后的辅音持续时间、处理后的边界持续时间和音素的总持续时间进行处理,得到处理后的元音持续时间;
根据处理后的辅音持续时间、处理后的边界持续时间和处理后的元音持续时间对音素进行调整,得到目标音素。
关于歌声合成装置的具体限定可以参见上文中对于歌声合成方法的限定,在此不再赘述。上述歌声合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据、频谱包络、非周期指数、音素、乐谱、目标歌声数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种歌声合成方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取语音数据;
对语音数据进行解析,得到语音数据对应的频谱包络、非周期指数、基频轮廓和音素;
从预设的乐谱数据库中获取乐谱;
对乐谱中的音乐小节信息和基频轮廓进行合成处理,得到合成处理后的第一基频轮廓;
对基频轮廓进行基频控制处理,得到基频控制处理后的第二基频轮廓;
对第一基频轮廓和第二基频轮廓进行合成处理,得到目标基频轮廓;
对频谱包络和非周期指数进行频谱控制处理,得到目标频谱包络和目标非周期指数;
对音素进行变速处理,得到变速处理后的目标音素;
将目标频谱包络、目标非周期指数、目标音素和目标基频轮廓进行合成处理,得到合成后的目标语音数据;
对目标语音数据进行频谱控制处理,得到目标歌声数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取语音数据;
对语音数据进行解析,得到语音数据对应的频谱包络、非周期指数、基频轮廓和音素;
从预设的乐谱数据库中获取乐谱;
对乐谱中的音乐小节信息和基频轮廓进行合成处理,得到合成处理后的第一基频轮廓;
对基频轮廓进行基频控制处理,得到基频控制处理后的第二基频轮廓;
对第一基频轮廓和第二基频轮廓进行合成处理,得到目标基频轮廓;
对频谱包络和非周期指数进行频谱控制处理,得到目标频谱包络和目标非周期指数;
对音素进行变速处理,得到变速处理后的目标音素;
将目标频谱包络、目标非周期指数、目标音素和目标基频轮廓进行合成处理,得到合成后的目标语音数据;
对目标语音数据进行频谱控制处理,得到目标歌声数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (7)
1.一种歌声合成方法,其特征在于,包括:
获取语音数据;
对语音数据进行解析,得到所述语音数据对应的频谱包络、非周期指数、基频轮廓和音素;
从预设的乐谱数据库中获取乐谱;
对所述乐谱中的音乐小节信息和所述基频轮廓进行合成处理,得到合成处理后的第一基频轮廓;
对所述基频轮廓进行基频控制处理,得到基频控制处理后的第二基频轮廓;
对所述第一基频轮廓和所述第二基频轮廓进行合成处理,得到目标基频轮廓;
对所述频谱包络和所述非周期指数进行频谱控制处理,得到目标频谱包络和目标非周期指数;
对所述音素进行变速处理,得到变速处理后的目标音素;
将所述目标频谱包络、目标非周期指数、目标音素和目标基频轮廓进行合成处理,得到合成后的目标语音数据;
对所述目标语音数据进行频谱控制处理,得到目标歌声数据;
所述对基频轮廓进行基频控制处理,得到基频控制处理后的第二基频轮廓,包括以下步骤:
将所述基频轮廓输入到过冲二阶阻尼模型中,得到过冲波动;
将所述基频轮廓输入到制备二阶阻尼模型中,得到制备波动;
将所述基频轮廓输入到颤音二阶震荡模型中,得到颤音波动;
将过冲波动、制备波动、颤音波动合成到所述基频轮廓中,得到初始基频轮廓;
通过高通滤波器对所述初始基频轮廓进行处理,得到细微波动;
将细微波动合成到所述初始基频轮廓中,得到所述第二基频轮廓;
所述对所述频谱包络和所述非周期指数进行频谱控制处理,得到频谱控制处理后的目标频谱包络和目标非周期指数,包括以下步骤:
采用如下公式,对所述频谱包络进行计算,得到所述目标频谱包络:
;
其中,为所述目标频谱包络,/>为所述频谱包络,/>为强调共振峰的权重函数,/>为频率,其中,
;
为调整强调度的增益,/>为强调度的带宽,/>为/>的峰值频率;
采用如下公式,对所述非周期指数进行处理计算,得到所述目标非周期指数:
;
其中,为所述目标非周期指数,/>为所述非周期指数,/>为强调共振峰的权重函数,其中,
;
为调整强调度的增益,/>为强调度的带宽,/>为/>的峰值频率。
2.如权利要求1的歌声合成方法,其特征在于,所述通过高通滤波器对所述初始基频轮廓进行处理,得到细微波动,包括以下步骤:
解析所述初始基频轮廓,得到白噪声和振幅;
通过高通滤波器对所述白噪声进行高通滤波处理,得到高通滤波处理后的白噪声;
对所述振幅进行归一化处理,得到归一化处理后的振幅;
基于所述高通滤波处理后的白噪声和所述归一化处理后的振幅,得到所述细微波动。
3.如权利要求1的歌声合成方法,其特征在于,所述对所述音素进行变速处理,得到变速处理后的目标音素,包括以下步骤:
根据预设辅音调节参数对音素的辅音持续时间进行调整,得到处理后的辅音持续时间;
对音素的边界持续时间进行处理,得到处理后的边界持续时间;
对处理后的辅音持续时间、处理后的边界持续时间和音素的总持续时间进行处理,得到处理后的元音持续时间;
根据处理后的辅音持续时间、处理后的边界持续时间和处理后的元音持续时间对音素进行调整,得到所述目标音素。
4.如权利要求3的歌声合成方法,其特征在于,所述根据处理后的辅音持续时间、处理后的边界持续时间和处理后的元音持续时间对音素进行调整,得到所述目标音素,包括以下步骤:
根据处理后的辅音持续时间、处理后的边界持续时间和处理后的元音持续时间对所述音素进行调整,并将所述音素中清音对应的声母设为预设数值,得到所述目标音素。
5.一种歌声合成装置,其特征在于,包括:
第一获取模块,获取语音数据;
解析模块,对语音数据进行解析,得到语音数据对应的频谱包络、非周期指数、基频轮廓和音素;
第二获取模块,从预设的乐谱数据库中获取乐谱;
第一合成模块,对所述基频轮廓和乐谱中的音乐小节信息进行合成处理,得到合成处理后的第一基频轮廓;
基频控制处理模块,对所述基频轮廓进行基频控制处理,得到基频控制处理后的第二基频轮廓;
第二合成模块,对所述第一基频轮廓和所述第二基频轮廓进行合成处理,得到目标基频轮廓;
第一频谱控制处理模块,对所述频谱包络和所述非周期指数进行频谱控制处理,得到目标频谱包络和目标非周期指数;
变速处理模块,对所述音素进行变速处理,得到变速处理后的目标音素;
第二合成模块,将所述目标频谱包络、目标非周期指数、目标音素和目标基频轮廓进行合成处理,得到合成后的目标语音数据;
第二频谱控制处理模块,对所述目标语音数据进行频谱控制处理,得到目标歌声数据;
所述基频控制处理模块,具体用于:
将所述基频轮廓输入到过冲二阶阻尼模型中,得到过冲波动;
将所述基频轮廓输入到制备二阶阻尼模型中,得到制备波动;
将所述基频轮廓输入到颤音二阶震荡模型中,得到颤音波动;
将所述过冲波动、制备波动、颤音波动合成到所述基频轮廓中,得到初始基频轮廓;
通过高通滤波器对所述初始基频轮廓进行处理,得到细微波动;
将细微波动合成到初始基频轮廓中,得到第二基频轮廓;
所述对所述频谱包络和所述非周期指数进行频谱控制处理,得到频谱控制处理后的目标频谱包络和目标非周期指数,包括以下步骤:
采用如下公式,对所述频谱包络进行计算,得到所述目标频谱包络:
;
其中,为所述目标频谱包络,/>为所述频谱包络,/>为强调共振峰的权重函数,/>为频率,其中,
;
为调整强调度的增益,/>为强调度的带宽,/>为/>的峰值频率;
采用如下公式,对所述非周期指数进行处理计算,得到所述目标非周期指数:
;
其中,为所述目标非周期指数,/>为所述非周期指数,/>为强调共振峰的权重函数,其中,
;
为调整强调度的增益,/>为强调度的带宽,/>为/>的峰值频率。
6.一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现如权利要求1至4任一项歌声合成方法的步骤。
7.一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其特征在于,计算机程序被处理器执行时实现如权利要求1至4任一项歌声合成方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010122318.2A CN111402858B (zh) | 2020-02-27 | 2020-02-27 | 一种歌声合成方法、装置、计算机设备及存储介质 |
PCT/CN2020/135725 WO2021169491A1 (zh) | 2020-02-27 | 2020-12-11 | 一种歌声合成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010122318.2A CN111402858B (zh) | 2020-02-27 | 2020-02-27 | 一种歌声合成方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111402858A CN111402858A (zh) | 2020-07-10 |
CN111402858B true CN111402858B (zh) | 2024-05-03 |
Family
ID=71428473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010122318.2A Active CN111402858B (zh) | 2020-02-27 | 2020-02-27 | 一种歌声合成方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111402858B (zh) |
WO (1) | WO2021169491A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402858B (zh) * | 2020-02-27 | 2024-05-03 | 平安科技(深圳)有限公司 | 一种歌声合成方法、装置、计算机设备及存储介质 |
CN111916093B (zh) * | 2020-07-31 | 2024-09-06 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法及装置 |
CN112037757B (zh) * | 2020-09-04 | 2024-03-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌声合成方法、设备及计算机可读存储介质 |
CN112164387A (zh) * | 2020-09-22 | 2021-01-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频合成方法、装置及电子设备和计算机可读存储介质 |
CN112397043B (zh) * | 2020-11-03 | 2021-11-16 | 北京中科深智科技有限公司 | 一种语音转化成歌曲的方法和系统 |
CN112750420B (zh) * | 2020-12-23 | 2023-01-31 | 出门问问创新科技有限公司 | 一种歌声合成方法、装置及设备 |
CN113421584B (zh) * | 2021-07-05 | 2023-06-23 | 平安科技(深圳)有限公司 | 音频降噪方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
CN101000766A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于语调模型的汉语语调基频轮廓生成方法 |
CN102810310A (zh) * | 2011-06-01 | 2012-12-05 | 雅马哈株式会社 | 语音合成设备 |
CN107517593A (zh) * | 2015-02-26 | 2017-12-26 | 弗劳恩霍夫应用研究促进协会 | 用于使用目标时域包络来处理音频信号以获得经处理的音频信号的装置和方法 |
CN110148394A (zh) * | 2019-04-26 | 2019-08-20 | 平安科技(深圳)有限公司 | 歌声合成方法、装置、计算机设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2930714B1 (en) * | 2012-12-04 | 2018-09-05 | National Institute of Advanced Industrial Science and Technology | Singing voice synthesizing system and singing voice synthesizing method |
CN104766602B (zh) * | 2014-01-06 | 2019-01-18 | 科大讯飞股份有限公司 | 歌唱合成系统中基频合成参数生成方法及系统 |
JP7059524B2 (ja) * | 2017-06-14 | 2022-04-26 | ヤマハ株式会社 | 歌唱合成方法、歌唱合成システム、及びプログラム |
CN108461079A (zh) * | 2018-02-02 | 2018-08-28 | 福州大学 | 一种面向音色转换的歌声合成方法 |
CN109817197B (zh) * | 2019-03-04 | 2021-05-11 | 天翼爱音乐文化科技有限公司 | 歌声生成方法、装置、计算机设备和存储介质 |
CN111402858B (zh) * | 2020-02-27 | 2024-05-03 | 平安科技(深圳)有限公司 | 一种歌声合成方法、装置、计算机设备及存储介质 |
-
2020
- 2020-02-27 CN CN202010122318.2A patent/CN111402858B/zh active Active
- 2020-12-11 WO PCT/CN2020/135725 patent/WO2021169491A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
CN101000766A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于语调模型的汉语语调基频轮廓生成方法 |
CN102810310A (zh) * | 2011-06-01 | 2012-12-05 | 雅马哈株式会社 | 语音合成设备 |
CN107517593A (zh) * | 2015-02-26 | 2017-12-26 | 弗劳恩霍夫应用研究促进协会 | 用于使用目标时域包络来处理音频信号以获得经处理的音频信号的装置和方法 |
CN110148394A (zh) * | 2019-04-26 | 2019-08-20 | 平安科技(深圳)有限公司 | 歌声合成方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111402858A (zh) | 2020-07-10 |
WO2021169491A1 (zh) | 2021-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111402858B (zh) | 一种歌声合成方法、装置、计算机设备及存储介质 | |
WO2021218138A1 (zh) | 歌曲合成方法、装置、设备及存储介质 | |
WO2020215666A1 (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
US10176797B2 (en) | Voice synthesis method, voice synthesis device, medium for storing voice synthesis program | |
US8594993B2 (en) | Frame mapping approach for cross-lingual voice transformation | |
Fernandez et al. | Classical and novel discriminant features for affect recognition from speech. | |
CN111433847B (zh) | 语音转换的方法及训练方法、智能装置和存储介质 | |
CN109817197B (zh) | 歌声生成方法、装置、计算机设备和存储介质 | |
US11094312B2 (en) | Voice synthesis method, voice synthesis apparatus, and recording medium | |
Qian et al. | Improved prosody generation by maximizing joint probability of state and longer units | |
CN111429877B (zh) | 歌曲处理方法及装置 | |
WO2006106182A1 (en) | Improving memory usage in text-to-speech system | |
US20190019496A1 (en) | System and Method for Unit Selection Text-to-Speech Using a Modified Viterbi Approach | |
US11842719B2 (en) | Sound processing method, sound processing apparatus, and recording medium | |
CN112820268A (zh) | 个性化语音转换训练方法、装置、计算机设备及存储介质 | |
Gao et al. | Speaker-independent spectral mapping for speech-to-singing conversion | |
Pamisetty et al. | Prosody-tts: An end-to-end speech synthesis system with prosody control | |
JP2002268658A (ja) | 音声分析及び合成装置、方法、プログラム | |
CN110517662A (zh) | 一种智能语音播报的方法及系统 | |
US10446133B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
Saitou et al. | Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice. | |
US20220084492A1 (en) | Generative model establishment method, generative model establishment system, recording medium, and training data preparation method | |
JP5949634B2 (ja) | 音声合成システム、及び音声合成方法 | |
US20120323569A1 (en) | Speech processing apparatus, a speech processing method, and a filter produced by the method | |
CN113409762B (zh) | 情感语音合成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |