CN111429877A - 歌曲处理方法及装置 - Google Patents
歌曲处理方法及装置 Download PDFInfo
- Publication number
- CN111429877A CN111429877A CN202010140669.6A CN202010140669A CN111429877A CN 111429877 A CN111429877 A CN 111429877A CN 202010140669 A CN202010140669 A CN 202010140669A CN 111429877 A CN111429877 A CN 111429877A
- Authority
- CN
- China
- Prior art keywords
- song
- theoretical
- phoneme
- text
- duration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 40
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 10
- 230000033764 rhythmic process Effects 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 8
- 101150081494 TMPO gene Proteins 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明是关于歌曲处理方法及装置。该方法包括:获取歌曲的简谱信息;确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征;根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长;根据所述目标音素时长对所述歌曲的文本进行语音合成。通过本发明的技术方案,在歌曲合成时,利用理论音频特征以及音素时长模型对音素时长以及合成音高进行控制,进而提高歌唱合成的准确性和自然度。
Description
技术领域
本发明涉及歌曲处理技术领域,尤其涉及歌曲处理方法及装置。
背景技术
目前,很多场景下都需要对歌曲的文本进行语音合成,而现有技术在对歌曲的文本进行语音合成时,语音合成可控性较差,很可能出现合成节奏和音高不能控制等问题,从而导致歌唱合成自然度较低的问题。
发明内容
本发明实施例提供了歌曲处理方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种歌曲处理方法,包括:
获取歌曲的简谱信息;
确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征;
根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长;
根据所述目标音素时长对所述歌曲的文本进行语音合成。
在一个实施例中,所述理论音频特征包括理论音节时长和理论基频值;
所述根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长,包括:
将所述当前音素特征输入至所述音素时长模型,得到当前音素时长;
根据所述理论音节时长,对所述当前音素时长进行调整,获得所述目标音素时长。
在一个实施例中,所述根据所述目标音素时长对所述歌曲的文本进行语音合成,包括:
根据所述目标音素时长对所述歌曲的文本的音素进行帧扩展,获得帧扩展后的文本的目标音素特征;
将所述理论基频值和所述目标音素特征输入至端到端语音合成模型以预测出所述歌曲的声学参数;
根据所述歌曲的声学参数,重构所述歌曲的文本对应的目标语音。
在一个实施例中,帧扩展后的文本的音素数目与所述目标语音的帧数的数目相同;
所述声学参数包括基频以及频谱参数。
在一个实施例中,所述确定所述简谱信息的理论音频特征,包括:
通过第一预设公式,确定所述简谱信息的所述理论音节时长di(单位为秒),其中,第一预设公式如下:
tmpo为所述简谱信息中的节奏,即每分钟含有的节拍数,dnotei为当前音节i的节拍;
通过第二预设公式,确定所述简谱信息的所述理论基频值f0,其中,第二预设公式如下:
440表示中央C上A音符发出的频率(单位为HZ),p为简谱信息中标注的音高与中央C上A音符的距离,单位为半音。
根据本发明实施例的第二方面,提供一种歌曲处理装置,包括:
获取模块,用于获取歌曲的简谱信息;
第一确定模块,用于确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征;
第二确定模块,用于根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长;
合成模块,用于根据所述目标音素时长对所述歌曲的文本进行语音合成。
在一个实施例中,所述理论音频特征包括理论音节时长和理论基频值;
所述第二确定模块包括:
输入子模块,用于将所述当前音素特征输入至所述音素时长模型,得到当前音素时长;
调整子模块,用于根据所述理论音节时长,对所述当前音素时长进行调整,获得所述目标音素时长。
在一个实施例中,所述合成模块包括:
扩展子模块,用于根据所述目标音素时长对所述歌曲的文本的音素进行帧扩展,获得帧扩展后的文本的目标音素特征;
预测子模块,用于将所述理论基频值和所述目标音素特征输入至端到端语音合成模型以预测出所述歌曲的声学参数;
重构子模块,用于根据所述歌曲的声学参数,重构所述歌曲的文本对应的目标语音。
在一个实施例中,帧扩展后的文本的音素数目与所述目标语音的帧数的数目相同;
所述声学参数包括基频以及频谱参数。
在一个实施例中,所述第一确定模块包括:
第一确定子模块,用于通过第一预设公式,确定所述简谱信息的所述理论音节时长di(单位为秒),其中,第一预设公式如下:
tmpo为所述简谱信息中的节奏,即每分钟含有的节拍数,dnotei为当前音节i的节拍;
第二确定子模块,用于通过第二预设公式,确定所述简谱信息的所述理论基频值f0,其中,第二预设公式如下:
440表示中央C上A音符发出的频率(单位为HZ),p为简谱信息中标注的音高与中央C上A音符的距离,单位为半音。
本发明的实施例提供的技术方案可以包括以下有益效果:
在根据歌曲的简谱信息确定理论音频特征以及歌曲的文本的当前音素特征之后,可根据当前音素特征、理论音频特征以及音素时长模型,自动确定歌曲的目标音素时长,从而利用目标音素时长对歌曲的文本进行语音合成,以实现在歌曲合成时,利用理论音频特征以及音素时长模型对音素时长以及合成音高进行控制,进而提高歌唱合成的准确性和自然度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种歌曲处理方法的流程图。
图2是根据一示例性实施例示出的一种歌曲处理装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
为了解决上述技术问题,本发明实施例提供了一种歌曲处理方法,该方法可用于歌曲处理程序、系统或装置中,且该方法对应的执行主体可以是终端或服务器,如图1所示,该方法包括步骤S101至步骤S104:
在步骤S101中,获取歌曲的简谱信息;
在步骤S102中,确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征;
在步骤S103中,根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长;
音素时长模型用于预测文本的音素的时长。
在步骤S104中,根据所述目标音素时长对所述歌曲的文本进行语音合成。
在根据歌曲的简谱信息确定理论音频特征以及歌曲的文本的当前音素特征之后,可根据当前音素特征、理论音频特征以及音素时长模型,自动确定歌曲的目标音素时长,从而利用目标音素时长对歌曲的文本进行语音合成,以实现在歌曲合成时,利用理论音频特征以及音素时长模型对音素时长以及合成音高进行控制,进而提高歌唱合成的准确性和自然度。
在一个实施例中,所述理论音频特征包括理论音节时长和理论基频值;
所述根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长,包括:
将所述当前音素特征输入至所述音素时长模型,得到当前音素时长;
当前音素特征即该歌曲的简谱信息的当前音素表征。
根据所述理论音节时长,对所述当前音素时长进行调整,获得所述目标音素时长。
通过将当前音素特征输入至音素时长模型,可获得当前音素时长,然后利用简谱信息中的理论音节时长对当前音素时长进行拉升或压缩,以获得目标音素时长,从而融入简谱中的节奏和音高等信息对歌曲的文本的音素进行调整,以控制歌唱合成时的音高,提高歌唱合成自然度。
在一个实施例中,所述根据所述目标音素时长对所述歌曲的文本进行语音合成,包括:
根据所述目标音素时长对所述歌曲的文本的音素进行帧扩展,获得帧扩展后的文本的目标音素特征;目标音素时长为目标音素特征所占用的时长。
将所述理论基频值和所述目标音素特征输入至基于DNN(Deep Neural Networks,深度神经网络)的端到端语音合成模型以预测出所述歌曲的声学参数;
端到端语音合成模型训练过程如下:
需要录制一定量的歌唱音库,得到<文本、语音>对;
训练时,以文本对应的音素表征作为输入,输入至端到端模型中,而语音对应的声学参数(基频、谱参数)作为输出,具体如下:为了控制合成语音的节奏,对文本和语音进行force alignment(强制对齐),根据force alignment结果,对文本的音素进行帧扩展(即为文本的音素补充音素,以增加音素数目),保证输入和输出的帧数一致。当然,为了控制合成语音的音高,输入中不但包括音素表征信息、还包括基频信息,输出为语音对应的声学参数信息,训练端到端模型。
根据所述歌曲的声学参数,重构所述歌曲的文本对应的目标语音。
为了控制合成语音的节奏,可根据目标音素时长对歌曲的文本的音素进行帧扩展,以获得帧扩展后的文本的目标音素特征,进而将所述理论基频值和所述目标音素特征输入至端到端语音合成模型以预测出所述歌曲的声学参数,即预测出歌曲的谱参数,该谱参数用于表征音色、发音内容等参数,然后根据歌曲的声学参数,重构所述歌曲的文本对应的目标语音,从而在歌曲合成时,利用声学参数调整语音合成中的音高、音色以确保音色前后的一致性、音高的合适性,提高歌唱合成自然度。
其次,现有技术中的端到端语音合成模型一般不可对韵律进行精确控制,而本发明通过结合简谱信息可对音素时长进行调整,进而对端到端语音合成模型合成的歌曲的韵律进行精确控制。
另外,音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。
在重构目标语音时,可将歌曲的声学参数输入至声码器,然后利用声码器重构目标语音。声码器可以是griffin-Lim、WaveNet或LPCNet等。
在一个实施例中,帧扩展后的文本的音素数目与所述目标语音的帧数的数目相同;
所述声学参数包括基频以及频谱参数。
在进行帧扩展后,可确保帧扩展后的文本的音素数目与目标语音的帧数的数目相同,从而使得文本和目标语音是对齐的。音素数目即文本的音素的数目。
在一个实施例中,所述确定所述简谱信息的理论音频特征,包括:
通过第一预设公式,确定所述简谱信息的所述理论音节时长di(单位为秒),其中,第一预设公式如下:
tmpo为所述简谱信息中的节奏,即每分钟含有的节拍数,dnotei为当前音节i的节拍;
通过第二预设公式,确定所述简谱信息的所述理论基频值f0,其中,第二预设公式如下:
440表示中央C上A音符发出的频率(单位为HZ),p为简谱信息中标注的音高与中央C上A音符的距离,单位为半音。
通过利用上述第一预设公式确定出理论音节时长di以及上述第二预设公式确定出理论基频值f0,可对歌曲合成时的音高、节拍、节奏进行控制,以提高所合成的目标语音的准确性和自然度。
最后,需要明确的是:本领域技术人员可根据实际需求,将上述多个实施例进行自由组合。
对应本发明实施例提供的上述歌曲处理方法,本发明实施例还提供一种歌曲处理装置,如图2所示,该装置包括:
获取模块201,用于获取歌曲的简谱信息;
第一确定模块202,用于确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征;
第二确定模块203,用于根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长;
合成模块204,用于根据所述目标音素时长对所述歌曲的文本进行语音合成。
在一个实施例中,所述理论音频特征包括理论音节时长和理论基频值;
所述第二确定模块包括:
输入子模块,用于将所述当前音素特征输入至所述音素时长模型,得到当前音素时长;
调整子模块,用于根据所述理论音节时长,对所述当前音素时长进行调整,获得所述目标音素时长。
在一个实施例中,所述合成模块包括:
扩展子模块,用于根据所述目标音素时长对所述歌曲的文本的音素进行帧扩展,获得帧扩展后的文本的目标音素特征;
预测子模块,用于将所述理论基频值和所述目标音素特征输入至端到端语音合成模型以预测出所述歌曲的声学参数;
重构子模块,用于根据所述歌曲的声学参数,重构所述歌曲的文本对应的目标语音。
在一个实施例中,帧扩展后的文本的音素数目与所述目标语音的帧数的数目相同;
所述声学参数包括基频以及频谱参数。
在一个实施例中,所述第一确定模块包括:
第一确定子模块,用于通过第一预设公式,确定所述简谱信息的所述理论音节时长di(单位为秒),其中,第一预设公式如下:
tmpo为所述简谱信息中的节奏,即每分钟含有的节拍数,dnotei为当前音节i的节拍;
第二确定子模块,用于通过第二预设公式,确定所述简谱信息的所述理论基频值f0,其中,第二预设公式如下:
440表示中央C上A音符发出的频率(单位为HZ),p为简谱信息中标注的音高与中央C上A音符的距离,单位为半音。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种歌曲处理方法,其特征在于,包括:
获取歌曲的简谱信息;
确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征;
根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长;
根据所述目标音素时长对所述歌曲的文本进行语音合成。
2.根据权利要求1所述的方法,其特征在于,
所述理论音频特征包括理论音节时长和理论基频值;
所述根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长,包括:
将所述当前音素特征输入至所述音素时长模型,得到当前音素时长;
根据所述理论音节时长,对所述当前音素时长进行调整,获得所述目标音素时长。
3.根据权利要求2所述的方法,其特征在于,
所述根据所述目标音素时长对所述歌曲的文本进行语音合成,包括:
根据所述目标音素时长对所述歌曲的文本的音素进行帧扩展,获得帧扩展后的文本的目标音素特征;
将所述理论基频值和所述目标音素特征输入至端到端语音合成模型以预测出所述歌曲的声学参数;
根据所述歌曲的声学参数,重构所述歌曲的文本对应的目标语音。
4.根据权利要求3所述的方法,其特征在于,
帧扩展后的文本的音素数目与所述目标语音的帧数的数目相同;
所述声学参数包括基频以及频谱参数。
6.一种歌曲处理装置,其特征在于,包括:
获取模块,用于获取歌曲的简谱信息;
第一确定模块,用于确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征;
第二确定模块,用于根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长;
合成模块,用于根据所述目标音素时长对所述歌曲的文本进行语音合成。
7.根据权利要求6所述的装置,其特征在于,
所述理论音频特征包括理论音节时长和理论基频值;
所述第二确定模块包括:
输入子模块,用于将所述当前音素特征输入至所述音素时长模型,得到当前音素时长;
调整子模块,用于根据所述理论音节时长,对所述当前音素时长进行调整,获得所述目标音素时长。
8.根据权利要求7所述的装置,其特征在于,
所述合成模块包括:
扩展子模块,用于根据所述目标音素时长对所述歌曲的文本的音素进行帧扩展,获得帧扩展后的文本的目标音素特征;
预测子模块,用于将所述理论基频值和所述目标音素特征输入至端到端语音合成模型以预测出所述歌曲的声学参数;
重构子模块,用于根据所述歌曲的声学参数,重构所述歌曲的文本对应的目标语音。
9.根据权利要求8所述的装置,其特征在于,
帧扩展后的文本的音素数目与所述目标语音的帧数的数目相同;
所述声学参数包括基频以及频谱参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010140669.6A CN111429877B (zh) | 2020-03-03 | 2020-03-03 | 歌曲处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010140669.6A CN111429877B (zh) | 2020-03-03 | 2020-03-03 | 歌曲处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429877A true CN111429877A (zh) | 2020-07-17 |
CN111429877B CN111429877B (zh) | 2023-04-07 |
Family
ID=71547637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010140669.6A Active CN111429877B (zh) | 2020-03-03 | 2020-03-03 | 歌曲处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429877B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112164387A (zh) * | 2020-09-22 | 2021-01-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频合成方法、装置及电子设备和计算机可读存储介质 |
CN112259072A (zh) * | 2020-09-25 | 2021-01-22 | 北京百度网讯科技有限公司 | 语音转换方法、装置和电子设备 |
CN112542155A (zh) * | 2020-11-27 | 2021-03-23 | 北京百度网讯科技有限公司 | 歌曲合成方法及模型训练方法、装置、设备与存储介质 |
CN112786020A (zh) * | 2021-01-21 | 2021-05-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌词时间戳生成方法及存储介质 |
CN113903326A (zh) * | 2021-09-27 | 2022-01-07 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999066496A1 (en) * | 1998-06-17 | 1999-12-23 | Yahoo! Inc. | Intelligent text-to-speech synthesis |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
CN102810309A (zh) * | 2011-05-30 | 2012-12-05 | 雅马哈株式会社 | 语音合成设备 |
CN103456295A (zh) * | 2013-08-05 | 2013-12-18 | 安徽科大讯飞信息科技股份有限公司 | 歌唱合成中基频参数生成方法及系统 |
CN103915093A (zh) * | 2012-12-31 | 2014-07-09 | 安徽科大讯飞信息科技股份有限公司 | 一种实现语音歌唱化的方法和装置 |
CN109313891A (zh) * | 2017-05-16 | 2019-02-05 | 北京嘀嘀无限科技发展有限公司 | 用于语音合成的系统和方法 |
CN109801608A (zh) * | 2018-12-18 | 2019-05-24 | 武汉西山艺创文化有限公司 | 一种基于神经网络的歌曲生成方法和系统 |
CN110264993A (zh) * | 2019-06-27 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
-
2020
- 2020-03-03 CN CN202010140669.6A patent/CN111429877B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999066496A1 (en) * | 1998-06-17 | 1999-12-23 | Yahoo! Inc. | Intelligent text-to-speech synthesis |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
CN102810309A (zh) * | 2011-05-30 | 2012-12-05 | 雅马哈株式会社 | 语音合成设备 |
CN103915093A (zh) * | 2012-12-31 | 2014-07-09 | 安徽科大讯飞信息科技股份有限公司 | 一种实现语音歌唱化的方法和装置 |
CN103456295A (zh) * | 2013-08-05 | 2013-12-18 | 安徽科大讯飞信息科技股份有限公司 | 歌唱合成中基频参数生成方法及系统 |
CN109313891A (zh) * | 2017-05-16 | 2019-02-05 | 北京嘀嘀无限科技发展有限公司 | 用于语音合成的系统和方法 |
CN109801608A (zh) * | 2018-12-18 | 2019-05-24 | 武汉西山艺创文化有限公司 | 一种基于神经网络的歌曲生成方法和系统 |
CN110264993A (zh) * | 2019-06-27 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112164387A (zh) * | 2020-09-22 | 2021-01-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频合成方法、装置及电子设备和计算机可读存储介质 |
CN112259072A (zh) * | 2020-09-25 | 2021-01-22 | 北京百度网讯科技有限公司 | 语音转换方法、装置和电子设备 |
CN112542155A (zh) * | 2020-11-27 | 2021-03-23 | 北京百度网讯科技有限公司 | 歌曲合成方法及模型训练方法、装置、设备与存储介质 |
CN112542155B (zh) * | 2020-11-27 | 2021-09-21 | 北京百度网讯科技有限公司 | 歌曲合成方法及模型训练方法、装置、设备与存储介质 |
CN112786020A (zh) * | 2021-01-21 | 2021-05-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌词时间戳生成方法及存储介质 |
CN112786020B (zh) * | 2021-01-21 | 2024-02-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌词时间戳生成方法及存储介质 |
CN113903326A (zh) * | 2021-09-27 | 2022-01-07 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111429877B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111429877B (zh) | 歌曲处理方法及装置 | |
Chandna et al. | Wgansing: A multi-voice singing voice synthesizer based on the wasserstein-gan | |
US11468870B2 (en) | Electronic musical instrument, electronic musical instrument control method, and storage medium | |
Raitio et al. | HMM-based speech synthesis utilizing glottal inverse filtering | |
Saitou et al. | Speech-to-singing synthesis: Converting speaking voices to singing voices by controlling acoustic features unique to singing voices | |
Wouters et al. | Control of spectral dynamics in concatenative speech synthesis | |
Macon et al. | A singing voice synthesis system based on sinusoidal modeling | |
Bonada et al. | Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016 | |
CN108053814B (zh) | 一种模拟用户歌声的语音合成系统及方法 | |
US11417312B2 (en) | Keyboard instrument and method performed by computer of keyboard instrument | |
CN116504218A (zh) | 声音合成方法、声音合成系统 | |
Tamaru et al. | Generative moment matching network-based random modulation post-filter for DNN-based singing voice synthesis and neural double-tracking | |
JP2904279B2 (ja) | 音声合成方法および装置 | |
Van Ngo et al. | Mimicking lombard effect: An analysis and reconstruction | |
CN111192566B (zh) | 英文语音合成方法及装置 | |
Saitou et al. | Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice. | |
US20220084492A1 (en) | Generative model establishment method, generative model establishment system, recording medium, and training data preparation method | |
JP3727885B2 (ja) | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 | |
JP2956069B2 (ja) | 音声合成装置のデータ処理方式 | |
JP2004061753A (ja) | 歌唱音声を合成する方法および装置 | |
CN113255313B (zh) | 音乐生成方法、装置、电子设备和存储介质 | |
Van Ngo et al. | Evaluation of the Lombard effect model on synthesizing Lombard speech in varying noise level environments with limited data | |
JP2001100777A (ja) | 音声合成方法及び装置 | |
Saitou et al. | Speech-to-Singing Synthesis System: Vocal conversion from speaking voices to singing voices by controlling acoustic features unique to singing voices | |
Karumuru et al. | In-Domain Data Augmentation to Enhance Severity Level Classification of Dysarthria from Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |