CN108877766A

CN108877766A - 歌曲合成方法、装置、设备及存储介质

Info

Publication number: CN108877766A
Application number: CN201810720055.8A
Authority: CN
Inventors: 王莹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2018-11-23

Abstract

本发明实施例公开了一种歌曲合成方法、装置、设备及存储介质。该方法包括：获取背景音乐对应的音频信号，以及用户选择或输入的歌词文本；基于所述歌词文本生成语音信号；基于所述歌词文本对所述语音信号进行降噪处理和切分，得到至少一个语音片段；调整所述至少一个语音片段的声学特征参数，以使调整后的语音片段构成的语音信号与所述背景音乐相匹配；将调整后的语音片段构成的语音信号与所述背景音乐对应的音频信号进行合成。本发明实施例提供的歌曲合成方法，将歌词文本对应的语音信号进行降噪处理并切分成至少一个语音片段，然后调整个语音片段的声学特征参数，使得调整后的语音信号与背景音乐相匹配，可以提高合成歌曲的质量。

Description

歌曲合成方法、装置、设备及存储介质

技术领域

本发明实施例涉及声音处理技术领域，尤其涉及一种歌曲合成方法、装置、设备及存储介质。

背景技术

音乐是人们重要的娱乐方式之一，伴随着移动互联网的发展呈现多样化的形式，除了可以通过手机等智能设备听音乐之外，用户还可以参与到更深入的唱歌等音乐体验中，例如，将用户的唱出或念出的语音与背景音乐进行合成，得到用户自己的歌唱作品。

现有技术中，将语音和背景音乐合成歌曲的实现方案为：在用户录制一段歌词后，得到用户输入的语音，根据音高对语音进行切分，将切分得到的各语音片断与所选音乐进行匹配，得到合成后的音频，也就是用户演唱歌曲的音频。

上述方案存在的缺陷在于：根据音高对用户输入的语音进行切分，会存在中文的声母(轻声的发音)和音量小的字会被切掉的情况，导致用户声音和歌词的还原度不佳，歌词清晰度不高。同时，如果用户输入的语音包含环境噪声时，会被最终合成出来，降低了歌曲的效果。

发明内容

本发明实施例提供一种歌曲合成方法、装置、设备及存储介质，可以提高合成歌曲的质量。

第一方面，本发明实施例提供了一种歌曲合成方法，该方法包括：

获取背景音乐对应的音频信号，以及用户选择或输入的歌词文本；基于所述歌词文本生成语音信号；

基于所述歌词文本对所述语音信号进行降噪处理和切分，得到至少一个语音片段；

调整所述至少一个语音片段的声学特征参数，以使调整后的语音片段构成的语音信号与所述背景音乐相匹配；

将调整后的语音片段构成的语音信号与所述背景音乐对应的音频信号进行合成。

第二方面，本发明实施例还提供了一种歌曲合成装置，该装置包括：

语音信号生成模块，用于获取背景音乐对应的音频信号，以及用户选择或输入的歌词文本；基于所述歌词文本生成语音信号；

语音片段获取模块，用于基于所述歌词文本对所述语音信号进行降噪处理和切分，得到至少一个语音片段；

声学特征参数调整模块，用于调整所述至少一个语音片段的声学特征参数，以使调整后的语音片段构成的语音信号与所述背景音乐相匹配；

语音信号和背景音乐合成模块，用于将调整后的语音片段构成的语音信号与所述背景音乐对应的音频信号进行合成。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例所述的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所述的方法。

本发明实施例，首先获取背景音乐对应的音频信号，以及用户选择或输入的歌词文本，并基于歌词文本生成语音信号，然后基于歌词文本对语音信号进行降噪处理和切分，得到至少一个语音片段，再调整至少一个语音片段的声学特征参数，以使调整后的语音片段构成的语音信号与背景音乐相匹配，最后将调整后的语音片段构成的语音信号与背景音乐对应的音频信号进行合成。本发明实施例提供的歌曲合成方法，将歌词文本对应的语音信号进行降噪处理并切分成至少一个语音片段，然后调整各语音片段的声学特征参数，使得调整后的语音信号与背景音乐相匹配，可以提高合成歌曲的质量。

附图说明

图1是本发明实施例一中的一种歌曲合成方法的流程图；

图2是本发明实施例一中的另一种歌曲合成方法的流程图；

图3是本发明实施例二中的一种歌曲合成装置的结构示意图；

图4是本发明实施例三中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种歌曲合成方法的流程图，本实施例可适用于合成歌曲的情况，该方法可以由歌曲合成装置来执行，该装置可由硬件和/或软件组成，并一般可集成在电脑、服务器以及所有包含歌曲合成功能的终端中。如图1所示，该方法具体包括如下步骤。

步骤110，获取背景音乐对应的音频信号，以及用户选择或输入的歌词文本；基于歌词文本生成语音信号。

其中，背景音乐可以是无人声的音乐，可以包括纯音乐或者歌曲中滤掉演唱者声音后的音乐。音频信号可以是背景音乐对应声波的频率、幅度变化的信息载体。本实施例中，获取背景音乐对应的音频信号的方式可以是，将背景音乐输入设定的音频处理软件，音频处理软件对背景音乐进行分析，获得背景音乐对应的音频信号。歌词文本中的字数可以少于、等于或多于背景音乐本来对应的歌词的字数。

可选的，获取用户选择或输入的歌词文本可通过下述方式实施：获取用户在背景音乐对应的歌词文本列表中所选择的歌词文本；或者，获取用户输入的文本数据，作为背景音乐对应的歌词文本。

具体的，用户在歌词文本列表中选择歌词文本时，可以选择背景音乐对应的整段歌词作为歌词文本，或者选择其中的部分片段作为歌词文本。用户输入的文本数据可以是背景音乐对应的原歌词的整段文本、部分文本、用户自己重新创作的歌词文本或者原歌词的部分文本加上用户重新创作的文本等。

本实施例中，基于歌词文本生成语音信号的方式可以是，利用声音采集装置对用户朗读歌词文本的语音进行录音，获得录制的语音信号；或者，使用语音合成(Text ToSpeech，TTS)技术，基于文本数据生成语音信号。

其中，TTS技术可以将文件或网页中的文本转化为自然语音输出，从而生成文本对应的语音信号。

步骤120，基于歌词文本对语音信号进行降噪处理和切分，得到至少一个语音片段。

其中，降噪处理可以是滤除语音信号中的噪声。对语音信号进行降噪处理的方式可以是采用采样降噪法或者噪声门法等方法进行降噪。对语音信号进行切分的方式可以是，识别语音信号中包含的与歌词文本对应的每一个字，基于歌词文本，将语音信号按照字进行切分，使得每个语音片段包含一个字。示例性的，假设一段3秒的语音信号中包含5个字“今天吃什么”，则将该段语音切分为5个语音片段，每个语音片段中包含1个字。

可选的，基于歌词文本对语音信号进行降噪处理和切分，得到至少一段语音片段，可通过下述方式实施：

将歌词文本与语音信号进行对齐处理，根据对齐结果对语音信号进行降噪处理；其中，在对语音信号中与歌词文本中的文字对齐的部分进行降噪处理时使用的降噪阈值，低于对语音信号中的其他部分进行降噪处理时使用的降噪阈值；根据对齐结果对语音信号进行切分，得到至少一段语音片段。

其中，将歌词文本与语音信号进行对齐处理的过程可以是，获取歌词文本中的每个字在语音信号中的时间信息，根据获得的时间信息将歌词文本的每个字与语音信号进行对齐处理。示例性的，一段歌词文本是“我爱你中国”，其对应的是时长为3秒的语音信号，其中，“我”与语音信号的0-0.5秒部分对齐，“爱”与语音信号的0.6-1秒部分对齐，“你”与语音信号的1.1-1.7秒部分对齐，“中”与语音信号的1.8-2.4秒部分对齐，“国”与语音信号的2.5-3秒部分对齐。

本实施例中，在基于对齐结果对语音信号进行降噪处理时，对语音信号中与歌词文本中的文字对齐的部分进行降噪处理时使用的降噪阈值，低于对语音信号中的其他部分进行降噪处理时使用的降噪阈值。示例性的，在上述“我爱你中国”的例子中，在对0-0.5秒部分、0.6-1秒部分、1.1-1.7秒部分、1.8-2.4秒部分及2.5-3秒部分的语音信号进行降噪处理时，采用的降噪阈值要低于对0.5-0.6秒部分、1-1.1秒部分、1.7-1.8秒部分以及2.4-2.5秒部分的语音信号进行降噪时的降噪阈值。这样做的好处是，防止在对语音信号中与歌词文本中的文字对齐的部分进行降噪处理时，由于使用的降噪阈值太大而削弱或消除了文字部分的信号，从而影响了歌曲的合成效果。

可选的，根据对齐结果对语音信号进行切分，得到至少一段语音片段的方式可以是，将语音信号中与歌词文本中的文字对齐的部分切分出来，获得多个语音片段。示例性的，在上述“我爱你中国”的例子中，将0-0.5秒部分、0.6-1秒部分、1.1-1.7秒部分、1.8-2.4秒部分及2.5-3秒部分的语音信号切分出来，获得5个语音片段。

步骤130，调整至少一个语音片段的声学特征参数，以使调整后的语音片段构成的语音信号与背景音乐相匹配。

其中，声学特征参数可以包括音高和/或音长。音高可以由频率和响度来表征；音长可以指声音持续时间的长短。

可选的，调整所述至少一个语音片段的声学特征参数，以使调整后的语音片段构成的语音信号与所述背景音乐相匹配，可通过下述方式实施：从预先建立的声学特征模板中获取背景音乐对应的歌曲的标准声学特征；其中，歌曲由设定人员基于背景音乐所演唱；根据标准声学特征调整至少一个语音片段的声学特征参数，以使调整后的语音片段构成的语音信号与背景音乐相匹配。其中，在声学特征模板中，可以获得歌曲中每个字对应的语音片段的标准声学特征。设定人员可以是专业歌手，例如：歌曲可以是从专业歌手发布的专辑中获得的。

具体的，获取设定人员基于背景音乐演唱的歌曲后，从声学特征模板中获取歌曲中每个字对应的语音片段的标准声学特征，然后根据标准声学特征调整语音信号中对应的语音片段的声学特征参数，使得调整后的语音片段构成的语音信号与背景音乐相匹配。示例性的，在上述“我爱你中国”的例子中，在专业人员基于背景音乐所演唱的歌曲中，“我”的标准声学特征为A、“爱”的标准声学特征为B、“你”的标准声学特征为C，“中”的标准声学特征为D，“国”的标准声学特征为E，则按照这五个字的标准声学特征，分别调整语音信号中五个字分别对应的语音片段。

可选的，根据标准声学特征调整至少一个语音片段的声学特征参数，以使调整后的语音片段构成的语音信号与背景音乐相匹配，可通过下述方式实施：对于每个语音片段，基于当前语音片段的时间信息在歌曲对应的标准声学特征中查找与当前语音片段对应的语音部分的标准声学特征，将当前语音片段的声学特征进行调整，以使调整后的当前语音片段的声学特征与语音部分的标准声学特征一致。

其中，时间信息可以是语音片段在语音信号中所处的时间段。

本实施例中，语音信号是基于歌词文本生成的，每个语音片段在歌曲中具有对应的语音部分，基于每个语音片段的时间信息，可以在歌曲对应的标准声学特征中查找与每个语音片段对应的语音部分的标准声学特征，然后根据各自的标准声学特征分别对每个语音片段声学特征进行调整，使得每个语音片段的声学特征在调整后与歌曲对应的语音部分的标准声学特征一致。

步骤140，将调整后的语音片段构成的语音信号与背景音乐对应的音频信号进行合成。

对每个语音片段的声学特征调整并将调整后的各云片段按照时间顺序进行拼接而重新构成语音信号后，将重新构成语音信号与背景音乐对应的音频信号进行合成，形成合成后的歌曲。

本实施例中，当歌词文本的字数等于背景音乐本来对应的歌词的字数时，直接将调整后的语音片段构成的语音信号与背景音乐对应的音频信号进行合成。

可选的，当歌词文本的字数少于背景音乐本来对应的歌词的字数时，从模板中找到歌词文本中每个字的语音片段分别对应的标准声学特征，并按照标准声学特征对歌词文本中的每个字的语音片段的声学特征参数进行调整。背景音乐中剩余没有歌词与之对应的部分可以不做处理，或者对歌词文本的字数进行补充，补充到字数和背景音乐本来对应的歌词的字数相同，且补充的字的语音片段的声学特征按照背景音乐原本对应歌曲中的标准声学特征进行调整。最后，将调整后的语音片段构成的语音信号与背景音乐对应的音频信号进行合成。其中，补充的字可以是用户创作的歌词，或者只是为了凑字数补充的无意义的歌词，或者重复原歌词文本中的歌词。示例性的，三只小熊这首歌的歌词的字数是50字，输入或选择的歌词文本是30个字，从模板中只能找到30个字的语音片段分别对应的标准声学特征，背景音乐还剩余一部分没有歌词与之对应，对这种情况可以不做处理，即输出的合成后的歌曲有一部分只有音乐没有歌词。或者将歌词进行补充，从30个字扩充到50字。补充的歌词可以是例如“啦啦啦”这种固定的歌词，还可以是将30个字的歌词从头进行循环，或者是用户创作的歌词。这样做的好处是，可以使用户实现对歌曲的重新作词。

可选的，当歌词文本的字数大于背景音乐本来对应的歌词的字数时，可以将多出的字直接舍弃。或者，在背景音乐中任意截取一段对应歌曲包含字数与多出的字数相同的背景音乐片段，并按照该段背景音乐中的歌曲的语音部分的标准声学特征，调整多出的字的语音片段的声学特征参数。或者，从其他歌曲的背景音乐中截取一段对应歌曲包含字数与多出的字数相同的背景音乐片段，并按照该段背景音乐中的歌曲的语音部分的标准声学特征，调整多出的字的语音片段的声学特征参数。最后，将调整后的语音片段构成的语音信号与背景音乐对应的音频信号进行合成。示例性的，三只小熊这首歌的歌词的字数是50字，输入或选择的歌词文本为60字，可以将多出的10个字直接舍弃，或者将这10个字与背景音乐重新合成一遍，合成后输出的歌曲是有50个字歌词的歌曲和有10个字歌词的与前面重复的歌曲；或者，从别的歌曲的背景音乐中截取一段，作为剩余的10个字的背景音乐。这样做的好处是，可以使用户实现对歌曲的填词及重新编曲，增加趣味性。

优选的，本实施例中，系统可以根据用户选择的背景音乐提示用户输入的歌词文本中字的个数，用户根据提示来选择或输入歌词文本。

需要说明的是，声学特征模板中保存的标准声学特征对应的歌曲的音乐类型可以有多种，比如，流行、摇滚、Rap、民谣等，在从声学特征模板中获取背景音乐对应的歌曲的标准声学特征时，可以获取与用户选择的音乐类型对应的歌曲的标准声学特征。

本实施例的技术方案，首先获取背景音乐对应的音频信号，以及用户选择或输入的歌词文本，并基于歌词文本生成语音信号，然后基于歌词文本对语音信号进行降噪处理和切分，得到至少一个语音片段，再然后调整至少一个语音片段的声学特征参数，以使调整后的语音片段构成的语音信号与背景音乐相匹配，最后将调整后的语音片段构成的语音信号与背景音乐对应的音频信号进行合成。本发明实施例提供的歌曲合成方法，将歌词文本对应的语音信号进行降噪处理并切分成至少一个语音片段，然后调整个语音片段的声学特征参数，使得调整后的语音信号与背景音乐相匹配，可以提高合成歌曲的质量。

图2为本发明实施例一提供的另一种歌曲合成方法的流程图，作为对上述实施例的进一步解释，如图2所示，该方法包括如下步骤。

步骤210，获取背景音乐对应的音频信号。

步骤220，获取用户在背景音乐对应的歌词文本列表中所选择的歌词文本；或者，获取用户输入的文本数据，作为背景音乐对应的歌词文本。

步骤230，使用TTS技术，基于文本数据生成语音信号。

步骤240，将歌词文本与语音信号进行对齐处理，根据对齐结果对语音信号进行降噪处理，根据对齐结果对语音信号进行切分，得到至少一段语音片段。

步骤250，从预先建立的声学特征模板中获取背景音乐对应的设定人员演唱的歌曲的标准声学特征。

步骤260，对于每个语音片段，基于当前语音片段的时间信息在歌曲对应的标准声学特征中查找与当前语音片段对应的语音部分的标准声学特征，将当前语音片段的声学特征进行调整，以使调整后的当前语音片段的声学特征与语音部分的标准声学特征一致。

步骤270，将调整后的语音片段构成的语音信号与背景音乐对应的音频信号进行合成。

本实施例的执行主体可以是服务器，还可以是用户终端(比如手机)等，当执行方是服务器时，需要将合成后得到的歌曲下发给用户终端，用户终端将该歌曲进行保存或输出。当执行方是用户终端时，直接将合成后得到的歌曲进行保存或输出。

实施例二

图3为本发明实施例二提供的一种歌曲合成装置的结构示意图。如图3所示，该装置包括：语音信号生成模块310，语音片段获取模块320，声学特征参数调整模块330和语音信号和背景音乐合成模块340。

语音信号生成模块310，用于获取背景音乐对应的音频信号，以及用户选择或输入的歌词文本；基于歌词文本生成语音信号；

语音片段获取模块320，用于基于歌词文本对语音信号进行降噪处理和切分，得到至少一个语音片段；

声学特征参数调整模块330，用于调整至少一个语音片段的声学特征参数，以使调整后的语音片段构成的语音信号与背景音乐相匹配；

语音信号和背景音乐合成模块340，用于将调整后的语音片段构成的语音信号与背景音乐对应的音频信号进行合成。

可选的，语音信号生成模块310，还用于：

获取用户在背景音乐对应的歌词文本列表中所选择的歌词文本；或者，

获取用户输入的文本数据，作为背景音乐对应的歌词文本。

可选的，语音信号生成模块310还用于：

使用语音合成TTS技术，基于文本数据生成语音信号。

可选的，语音片段获取模块320还用于：

将歌词文本与语音信号进行对齐处理，根据对齐结果对语音信号进行降噪处理；其中，在对语音信号中与歌词文本中的文字对齐的部分进行降噪处理时使用的降噪阈值，低于对语音信号中的其他部分进行降噪处理时使用的降噪阈值；

根据对齐结果对语音信号进行切分，得到至少一段语音片段。

可选的，声学特征参数调整模块330，还用于：

从预先建立的声学特征模板中获取背景音乐对应的歌曲的标准声学特征；其中，歌曲由设定人员基于背景音乐所演唱；

根据标准声学特征调整至少一个语音片段的声学特征参数，以使调整后的语音片段构成的语音信号与背景音乐相匹配。

可选的，声学特征参数调整模块330，还用于：

对于每个语音片段，基于当前语音片段的时间信息在歌曲对应的标准声学特征中查找与当前语音片段对应的语音部分的标准声学特征，将当前语音片段的声学特征进行调整，以使调整后的当前语音片段的声学特征与语音部分的标准声学特征一致。

可选的，声学特征参数包括：音高和/或音长。

上述装置可执行本发明前述所有实施例所提供的方法，具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明前述所有实施例所提供的方法。

实施例三

图4为本发明实施例三提供的一种计算机设备的结构示意图，如图4所示，本实施例提供的一种计算机设备，包括：处理器41和存储器42。该计算机设备中的处理器可以是一个或多个，图4中以一个处理器41为例，所述计算机设备中的处理器41和存储器42可以通过总线或其他方式连接，图4中以通过总线连接为例。

本实施例中计算机设备的处理器41中集成了上述实施例提供的歌曲合成装置。此外，该计算机设备中的存储器42作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例中歌曲合成方法对应的程序指令/模块。处理器41通过运行存储在存储器42中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述方法实施例中歌曲合成方法。

存储器42可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器42可进一步包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器41通过运行存储在存储器42中的程序，从而执行各种功能应用以及数据处理，实现本发明实施例提供的歌曲合成方法。

实施例四

本发明实施例四还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的歌曲合成方法。

当然，本发明实施例所提供的一种计算机可读存储介质，其上存储的计算机程序不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的歌曲合成方法中的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种歌曲合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获取用户选择或输入的歌词文本，包括：

获取用户在所述背景音乐对应的歌词文本列表中所选择的歌词文本；或者，

获取用户输入的文本数据，作为所述背景音乐对应的歌词文本。

3.根据权利要求1所述的方法，其特征在于，基于所述歌词文本生成语音信号，包括：

使用语音合成TTS技术，基于所述文本数据生成语音信号。

4.根据权利要求1所述的方法，其特征在于，基于所述歌词文本对所述语音信号进行降噪处理和切分，得到至少一段语音片段，包括：

将所述歌词文本与所述语音信号进行对齐处理，根据对齐结果对所述语音信号进行降噪处理；其中，在对所述语音信号中与所述歌词文本中的文字对齐的部分进行降噪处理时使用的降噪阈值，低于对所述语音信号中的其他部分进行降噪处理时使用的降噪阈值；

根据对齐结果对所述语音信号进行切分，得到至少一段语音片段。

5.根据权利要求1所述的方法，其特征在于，调整所述至少一个语音片段的声学特征参数，以使调整后的语音片段构成的语音信号与所述背景音乐相匹配，包括：

从预先建立的声学特征模板中获取所述背景音乐对应的歌曲的标准声学特征；其中，所述歌曲由设定人员基于所述背景音乐所演唱；

根据所述标准声学特征调整所述至少一个语音片段的声学特征参数，以使调整后的语音片段构成的语音信号与所述背景音乐相匹配。

6.根据权利要求5所述的方法，其特征在于，根据所述标准声学特征调整所述至少一个语音片段的声学特征参数，以使调整后的语音片段构成的语音信号与所述背景音乐相匹配，包括：

对于每个语音片段，基于当前语音片段的时间信息在所述歌曲对应的标准声学特征中查找与当前语音片段对应的语音部分的标准声学特征，将当前语音片段的声学特征进行调整，以使调整后的当前语音片段的声学特征与所述语音部分的标准声学特征一致。

7.根据权利要求1-6任一所述的方法，其特征在于，所述声学特征参数包括：音高和/或音长。

8.一种歌曲合成装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。