CN112750421B

CN112750421B - 一种歌声合成方法、装置及可读存储介质

Info

Publication number: CN112750421B
Application number: CN202011542845.5A
Authority: CN
Inventors: 杨喜鹏; 郁霖; 陈云琳; 江明奇; 张旭; 殷昊
Original assignee: Go Out And Ask Suzhou Information Technology Co ltd
Current assignee: Go Out And Ask Suzhou Information Technology Co ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-12-30
Anticipated expiration: 2040-12-23
Also published as: CN112750421A

Abstract

本发明公开了一种歌声合成方法、装置及可读存储介质，该方法包括：获取用户朗诵的音频、音频对应的的歌词文本；根据预设语音识别模型和歌词文本对音频中的第一音素进行时长标注，得到第一音素的第一时长；确定音频的第一谱特征；当歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，根据预设的目标歌曲的第二音素的第二时长、第一音素的第一时长对第一谱特征进行缩放处理，得到第二谱特征；对第二谱特征、预设的目标歌曲的第一基频进行合成，得到合成歌声。本发明无需收集大量的录音数据就可以实现歌声合成，可以降低歌声合成的成本，且合成歌声更加自然，具有目标歌曲原歌手歌唱时的韵律感且能保留用户原有的音色。

Description

一种歌声合成方法、装置及可读存储介质

技术领域

本申请涉及歌声合成技术领域，尤其涉及一种歌声合成方法、装置及可读存储介质。

背景技术

近年来，歌声合成技术一直备受社会各界的关注。随着歌声合成技术的发展，歌声合成技术逐渐应用到人们的日常生活中。例如，有些用户唱歌五音不全，希望可以念出歌词，然后生成自己的歌声，则可以利用歌声合成技术来实现。

目前，相关技术一般先对用户说话的语音进行识别，对应找出歌声合成数据库中固有的歌声，然后提取该歌声的音色，再采用预先建立的转换模型，将该歌声的音色变成用户的音色，得到合成的用户歌声。

然而上述技术的核心是预先录制某种语言中每个发音在不同音高的歌声，得到歌声合成数据库，因此，采用歌声合成数据库中固有的歌声来合成用户歌声，依赖非常庞大的录音数据，这就需要耗费大量的时间和人力来收集数据，这样就导致歌声合成的成本比较高。

申请内容

本申请实施例通过提供一种歌声合成方法、装置及可读存储介质，用以解决现有技术中歌声合成时依赖非常庞大的录音数据，需要耗费大量的时间和人力来收集录音数据，从而使得歌声合成的成本比较高的问题。

为了解决上述问题，第一方面，本发明实施例提供了一种歌声合成方法，包括：获取用户朗诵的音频、音频对应的的歌词文本；根据预设语音识别模型和歌词文本对音频中的第一音素进行时长标注，得到第一音素的第一时长；确定音频的第一谱特征；当歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，根据预设的目标歌曲的第二音素的第二时长、第一音素的第一时长对第一谱特征进行缩放处理，得到第二谱特征；对第二谱特征、预设的目标歌曲的第一基频进行合成，得到合成歌声。

可选地，根据预设语音识别模型和歌词文本对音频中的第一音素进行时长标注，得到第一音素的第一时长，包括：根据歌词文本中第一歌词中的字符的声母和韵母确定音频中的第一音素；将第一音素和音频输入到预设的语音识别模型中；根据第一音素通过语音识别模型对音频进行标注，得到第一音素的第一时长。

可选地，歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，包括：当第一歌词中每句歌词的字符与预设目标歌曲的第二歌词中每句歌词的字符相同，或第一歌词中的每句歌词的字符数与预设目标歌曲的第二歌词中每句歌词的字符数相同，歌词文本中的第一歌词和预设目标歌曲的第二歌词对应。

可选地，根据预设的目标歌曲的第二音素的第二时长、第一音素的第一时长对第一谱特征进行缩放处理，得到第二谱特征，包括：根据第一音素的第一时长对第一谱特征进行标注，得到第三谱特征；根据目标歌曲的第二音素的第二时长、第一音素的第一时长计算缩放比值；根据缩放比值对第三谱特征进行缩放处理，得到第二谱特征。

可选地，当歌词文本中的第一歌词和预设目标歌曲的第二歌词不对应，将第一音素进行拼接和/或切割，得到与第二音素对应的第三音素；根据第一音素的第一时长确定第三音素的第三时长；根据预设的目标歌曲的第二音素的第二时长、第三音素的第三时长对第一谱特征进行缩放处理，得到第三谱特征；对第三谱特征、预设的目标歌曲的基频进行合成，得到合成歌声。

可选地，在对第二谱特征、预设的目标歌曲的第一基频进行合成，得到合成歌声之前，歌声合成方法还包括：确定音频的第二基频；确定第二基频中的零值；确定预设的目标歌曲的第一基频中的零值；将第一基频中的零值插值为非零值；根据第二基频中的零值调整第一基频中的非零值。

可选地，在对第二谱特征、预设的目标歌曲的第一基频进行合成，得到合成歌声之后，歌声合成方法还包括：对合成歌声进行变声处理；对变声处理后的合成歌声进行滤波处理。

第二方面，本发明实施例提供了一种歌声合成装置，包括：获取单元，用于获取用户朗诵的音频、音频对应的的歌词文本；标注单元，用于根据预设语音识别模型和歌词文本对音频中的第一音素进行时长标注，得到第一音素的第一时长；确定单元，用于确定音频的第一谱特征；处理单元，用于当歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，根据预设的目标歌曲的第二音素的第二时长、第一音素的第一时长对第一谱特征进行缩放处理，得到第二谱特征；合成单元，用于对第二谱特征、预设的目标歌曲的第一基频进行合成，得到合成歌声。

第三方面，本发明实施例提供了一种歌声合成设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行如第一方面或第一方面任意实施方式中的歌声合成方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行如第一方面或第一方面任意实施方式中的歌声合成的方法。

本发明实施例提供的一种歌声合成方法、装置及可读存储介质，通过获取用户朗诵的音频、音频对应的的歌词文本；根据预设语音识别模型和歌词文本对音频中的第一音素进行时长标注，得到第一音素的第一时长；确定音频的第一谱特征；当歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，根据预设的目标歌曲的第二音素的第二时长、第一音素的第一时长对第一谱特征进行缩放处理，得到第二谱特征；对第二谱特征、预设的目标歌曲的第一基频进行合成，得到合成歌声，从而可以从用户朗诵的音频中获得第一谱特征，并基于目标歌曲中的第二音素的第二时长、第一音素的第一时长对第一谱特征进行缩放，从而可以使得到的第二谱特征具有目标歌曲原歌手歌唱时的韵律感且保留用户原有的音色，从而可以使合成歌声具有目标歌曲原歌手歌唱时的韵律感且保留用户原有的音色，并且歌声合成时采用目标歌曲的第一基频，合成歌声将更加自然，同时无需收集大量的录音数据就可以实现歌声合成，可以降低歌声合成的成本；并且，可以支持用户朗诵的音频的第一歌词文本与目标歌曲的第二歌词不一致，满足用户对歌词改动的需求。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本发明实施例中一种歌声合成方法的流程示意图；

图2为本发明实施例中一种歌声合成装置的结构示意图；

图3为本发明实施例中一种歌声合成设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种歌声合成方法，如图1所示，包括：

S101.获取用户朗诵的音频、音频对应的的歌词文本；具体地，本发明的执行主体可以为歌声合成设备，还可以是终端或者服务器，在此不做具体地限定，本发明实施例中以歌声合成设备为执行主体为例进行说明。歌声合成设备可以通过有线连接方式或者无线连接方式接收用户的歌唱请求，然后歌声合成设备会提示用户朗诵歌词文本中的第一歌词，并根据用户朗诵的第一歌词生成用户朗诵的音频。歌词文本可以是用户指定的歌词文本，也可以是歌声合成设备在接收到歌唱请求时，从预置的歌词库中随机选取的歌词文本，还可以是歌声合成设备根据用户的行为和使用习惯从预置的歌曲库中选取的歌词文本，还可以是用户输入的自定义的歌词文本。本发明还支持按照歌词文本中的第一个歌词的位置索引作为输入，在歌声合成设备上输入歌词文本的起始字符和终止字符的索引，然后根据该起始字符和终止字符的索引获取歌词文本。

S102.根据预设语音识别模型和歌词文本对音频中的第一音素进行时长标注，得到第一音素的第一时长；具体地，可以根据歌词文本中的字符的声母和韵母确定第一音素，然后采用语音识别模型将音频按照第一音素进行标注，得到第一音素的第一时长。

S103.确定音频的第一谱特征；具体地，可以采用world声码器对音频中的第一谱特征进行提取，得到音频的第一谱特征。第一谱特征可以包括梅尔谱特征和非周期成分特征。

S104.当歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，根据预设的目标歌曲的第二音素的第二时长、第一音素的第一时长对第一谱特征进行缩放处理，得到第二谱特征；具体地，目标歌曲可以是用户指定的歌曲。歌声合成设备中预置目标歌曲，目标歌曲的歌词文本，目标歌曲的第二音素的第二时长。歌词文本中包括第二歌词。第二音素是根据第二歌词的字符的声母和韵母确定的。字符的声母对应一个第二音素，字符的韵母可以对应至少一个第二音素。

在计算目标歌曲的第二音素的第二时长时，如果目标歌曲是混合背景音乐的歌曲，则可以使用spleeter开源工具分离背景音乐，得到干音和背景音乐。然后使用语音识别模型中的时长对齐方法(alignment)，标记出第二歌词的字符、第二音素在干音中对应的时长和位置，预标注出时长文件。时长文件包括：歌曲id、干音相对于背景音乐的位置，第二歌词中的字符的第四时长(音节时长)和第二音素的第二时长。然后将时长文件转成TextGrid格式的文件，使用praat语音分析工具微调预标注的第二音素的第二时长，生成准确的第二音素的第二时长。

歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，可以包括：当第一歌词中每句歌词的字符与预设目标歌曲的第二歌词中每句歌词的字符相同，或第一歌词中的每句歌词的字符数与预设目标歌曲的第二歌词中每句歌词的字符数相同，歌词文本中的第一歌词和预设目标歌曲的第二歌词对应。从而用户可以对第二歌词进行改动，得到与第二歌词对应的第一歌词。

当歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，因为第二音素的第二时长与第一音素的第一时长存在不同，因此，可以根据第二音素的第二时长将第一音素的第一时长延长或缩短。对应地，可根据第二音素的第二时长与第一音素的第一时长的比值对第一谱特征进行缩放处理，得到第二谱特征。由于第一谱特征是按照帧提取的，因此，根据第二音素的第二时长与第一音素的第一时长对第一谱特征进行缩放处理，可以使得第一谱特征按照第一音素对应进行缩放，从而第二谱特征具有目标歌曲的韵律，且可以符合人在唱歌时的习惯，因为人在唱歌曲中的长音时，字符中每个音素的拉伸时长是不一样的。使第一谱特征按照音素对应进行缩放，这样能够使得合成歌曲更加准确。

S105.对第二谱特征、预设的目标歌曲的第一基频进行合成，得到合成歌声。具体地，目标歌曲的第一基频可以采用包括但不限于Yin、Melodia、Wrold等提取歌曲基频的工具提取目标歌曲的第一基频。然后利用world声码器合成声音，调整声音的第一基频的值，得到更加准确的第一基频。

本发明实施例提供的一种歌声合成方法，通过获取用户朗诵的音频、音频对应的的歌词文本；根据预设语音识别模型和歌词文本对音频中的第一音素进行时长标注，得到第一音素的第一时长；确定音频的第一谱特征；当歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，根据预设的目标歌曲的第二音素的第二时长、第一音素的第一时长对第一谱特征进行缩放处理，得到第二谱特征；对第二谱特征、预设的目标歌曲的第一基频进行合成，得到合成歌声，从而可以从用户朗诵的音频中获得第一谱特征，并基于目标歌曲中的第二音素的第二时长、第一音素的第一时长对第一谱特征进行缩放，从而可以使得到的第二谱特征具有目标歌曲原歌手歌唱时的韵律感且保留用户原有的音色，从而可以使合成歌声具有目标歌曲原歌手歌唱时的韵律感且保留用户原有的音色，并且歌声合成时采用目标歌曲的第一基频，合成歌声将更加自然，同时无需收集大量的录音数据就可以实现歌声合成，可以降低歌声合成的成本；并且，可以支持用户朗诵的音频的第一歌词文本与目标歌曲的第二歌词不一致，满足用户对歌词改动的需求。

在可选的实施例中，步骤S102，根据预设语音识别模型和歌词文本对音频中的第一音素进行时长标注，得到第一音素的第一时长，具体可以包括：根据歌词文本中第一歌词中的字符的声母和韵母确定音频中的第一音素；将第一音素音频输入到预设的语音识别模型中；根据第一音素通过语音识别模型对音频进行标注，得到第一音素的第一时长。

具体地，可以利用pypinyin工具或语音合成工具将歌词文本中的字符转成声母和韵母，字符的声母对应一个第一音素，字符的韵母可以对应至少一个第一音素，韵母对应第一音素的个数根据韵母的组成确定。例如，对于组合韵母，韵母组成为iang，则韵母对应两个第一音素，分别为i和ang。对于非组合韵母，韵母组成为ei，则韵母对应一个第一音素。然后可以将字符转成声母、韵母的歌词文本和音频输入到语音识别模型，语音识别模型可以对音频进行语音解析，并按照歌词中的字符对应的第一音素依序对音频进行时长标注，从而得到第一音素的时间戳和持续时长，根据第一音素的时间戳和持续时长可以确定第一音素的第一时长。

通过采用语音识别模型对音频进行时长标注，得到第一音素的第一时长，快速、准确。

在可选的实施例中，步骤S104中，根据预设的目标歌曲的第二音素的第二时长、第一音素的第一时长对第一谱特征进行缩放处理，得到第二谱特征，具体包括：根据第一音素的第一时长对第一谱特征进行标注，得到第三谱特征；根据目标歌曲的第二音素的第二时长、第一音素的第一时长计算缩放比值；根据缩放比值对第三谱特征进行缩放处理，得到第二谱特征。

具体地，可按照音素对第一谱特征进行缩放处理。由于第一谱特征是按照帧为单位进行提取的，因此，在将第一谱特征按照音素进行缩放时，需要将第一谱特征按照第一音素的第一时长进行标注，从而可以将第一谱特征按照音素进行划分，从而可以得到第一音素的第三谱特征。根据第二音素的第二时长与第一音素的第一时长的比值可以确定缩放比值。根据缩放比值对第一音素的第三谱特征进行缩放处理，就可以得到第二谱特征。进一步地，当所述字符对应的韵母包括一个第一音素，根据缩放比值对第一音素的第三谱特征进行缩放处理，就可以得到第二谱特征。当所述字符对应的韵母包括多个第一音素，根据缩放比值对韵母的对应的最后一个第一音素的第三谱特征进行缩放处理，并根据缩放比值对声母对应的第一音素的第三谱特征进行缩放处理，得到第二谱特征。而韵母的其他第一音素的第三谱特征不进行缩放处理。

在缩放处理时，可以采用线性插值方法，按照缩放比例，将第三谱特征进行线性插值。

通过根据第一音素的第一时长对第一谱特征进行标注，得到第三谱特征；根据第二音素的第二时长、第一音素的第一时长计算缩放比值；根据缩放比值对第三谱特征进行缩放处理，得到第二谱特征，可以使得第一谱特征按照音素对应进行缩放，从而第二谱特征具有目标歌曲的韵律，且可以符合人在唱歌时的习惯，因为人在唱歌曲中的长音时，字符中每个音素的拉伸时长是不一样的。使第一谱特征按照音素对应进行缩放，这样能够使得合成歌曲更加准确。

在可选的实施例中，当歌词文本中的第一歌词和预设目标歌曲的第二歌词不对应，将第一音素进行拼接和/或切割，得到与第二音素对应的第三音素；根据第一音素的第一时长确定第三音素的第三时长；根据预设的目标歌曲的第二音素的第二时长、第三音素的第三时长对第一谱特征进行缩放处理，得到第三谱特征；对第三谱特征、预设的目标歌曲的基频进行合成，得到合成歌声。

具体地，当歌词文本中第一歌词中字符数与预设目标歌曲中的字符数不相同，歌词文本中第一歌词和预设目标歌曲的第二歌词不对应。当第一歌词的字符数小于第二歌词的字符数时，可按照长音节切割的方法，将第一音素进行切割，从而得到与第二音素对应的第三音素。当第一歌词的字符数大于第二歌词的字符数时，可按照短音节拼接的方法，将第一音素进行拼接，从而得到与第二音素对应的第三音素。第三音素与第二音素对应是指第三音素的个数与第二音素的个数相等。根据第一音素的时长及第三音素之间的时长比例阈值可以确定第三音素的第三时长。根据第三音素的第三时长对第一谱特征进行标注，然后根据第二音素的第二时长与第三音素的第三时长的比值对标注后的第一谱特征进行缩放处理，就可以得到第三谱特征。

本发明实施例通过在歌词文本中的第一歌词和预设目标歌曲的第二歌词不对应时，将第一音素进行拼接和/或切割，得到与第二音素对应的第三音素；并根据第一音素的第一时长确定第三音素的第三时长；根据预设的目标歌曲的第二音素的第二时长、第三音素的第三时长对第一谱特征进行缩放处理，得到第三谱特征；对第三谱特征、预设的目标歌曲的基频进行合成，得到合成歌声；从而用户可以采用任意的第一歌词来合成歌声，且使得合成歌声具有目标歌曲的韵律和第一基频。

在可选的实施例中，在对第二谱特征、预设的目标歌曲的第一基频进行合成，得到合成歌声之前，还可以对第一基频进行调整，因此，歌声合成方法还包括：确定音频的第二基频；确定第二基频中的零值；确定预设的目标歌曲的第一基频中的零值；将第一基频中的零值插值为非零值；根据第二基频中的零值调整第一基频中的非零值。

具体地，可通过基频提取工具提取音频的第二基频。确定第二基频中的零值，可以确定第一歌词中每句歌词的句首和句末。将第一基频中的零值插值为非零值，主要是保证第二歌词中每句歌词的句首和句末的第一基频不会渐进到零。由于有些第一音素是没有基频信息的，如b、sh，对于没有基频信息的第一音素，其对应的第二基频为零，相应地，在合成歌声时，应该将第一基频中对应位置处的基频值致为零，因此，可以根据第二基频中的零值调整第一基频中的非零值。

通过对第一基频进行调整，可以减少由于第一基频提取不准导致的噪声问题。

在可选的实施例中，在对第二谱特征、预设的目标歌曲的第一基频进行合成，得到合成歌声之后，歌声合成方法还包括：对合成歌声进行变声处理；对变声处理后的合成歌声进行滤波处理。

具体地，可以采用sound touch开源工具对合成歌声做变声处理，采用低通滤波消除合成歌声的嘶嘶声。还可以对合成歌声添加背景音乐。在对采样率的歌声合成中，可对背景音乐进行上采样或下采样(支持但不限于16k、22.05k、24k、44.1k、48k等)。还可以对合成歌曲进行加混响操作。对合成歌声进行变声处理，对变声处理后的合成歌声进行滤波处理，可以提高合成歌声的歌唱效果。

本发明实施例还提供了一种歌声合成装置，如图2所示，包括：获取单元201，用于获取用户朗诵的音频、音频对应的的歌词文本；具体的实施方式详见上述实施例中步骤S101的描述，在此不再赘述。标注单元202，用于根据预设语音识别模型和歌词文本对音频中的第一音素进行时长标注，得到第一音素的第一时长；具体的实施方式详见上述实施例中步骤S102的描述，在此不再赘述。确定单元203，用于确定音频的第一谱特征；具体的实施方式详见上述实施例中步骤S103的描述，在此不再赘述。处理单元204，用于当歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，根据预设的目标歌曲的第二音素的第二时长、第一音素的第一时长对第一谱特征进行缩放处理，得到第二谱特征；具体的实施方式详见上述实施例中步骤S104的描述，在此不再赘述。合成单元205，用于对第二谱特征、预设的目标歌曲的第一基频进行合成，得到合成歌声。具体的实施方式详见上述实施例中步骤S105的描述，在此不再赘述。

本发明实施例提供的一种歌声合成装置，通过获取用户朗诵的音频、音频对应的的歌词文本；根据预设语音识别模型和歌词文本对音频中的第一音素进行时长标注，得到第一音素的第一时长；确定音频的第一谱特征；当歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，根据预设的目标歌曲的第二音素的第二时长、第一音素的第一时长对第一谱特征进行缩放处理，得到第二谱特征；对第二谱特征、预设的目标歌曲的第一基频进行合成，得到合成歌声，从而可以从用户朗诵的音频中获得第一谱特征，并基于目标歌曲中的第二音素的第二时长、第一音素的第一时长对第一谱特征进行缩放，从而可以使得到的第二谱特征具有目标歌曲原歌手歌唱时的韵律感且保留用户原有的音色，从而可以使合成歌声具有目标歌曲原歌手歌唱时的韵律感且保留用户原有的音色，并且歌声合成时采用目标歌曲的第一基频，合成歌声将更加自然，同时无需收集大量的录音数据就可以实现歌声合成，可以降低歌声合成的成本；并且，可以支持用户朗诵的音频的第一歌词文本与目标歌曲的第二歌词不一致，满足用户对歌词改动的需求。

基于与前述实施例中一种歌声合成同样的发明构思，本发明还提供一种歌声合成设备，其上存储有计算机程序，该程序被处理器执行时实现前文所述一种歌声合成的任一方法的步骤。

其中，在图3中，总线架构(用总线300来代表)，总线300可以包括任意数量的互联的总线和桥，总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件，即收发机，提供用于在传输介质上与各种其他装置通信的单元。

处理器302负责管理总线300和通常的处理，而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

基于与前述实施例中一种歌声合成方法同样的发明构思，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取用户朗诵的音频、音频对应的的歌词文本；根据预设语音识别模型和歌词文本对音频中的第一音素进行时长标注，得到第一音素的第一时长；确定音频的第一谱特征；当歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，根据预设的目标歌曲的第二音素的第二时长、第一音素的第一时长对第一谱特征进行缩放处理，得到第二谱特征；对第二谱特征、预设的目标歌曲的第一基频进行合成，得到合成歌声。

在具体实施过程中，该程序被处理器执行时，还可以实现实施例一中的任一方法步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理设备的处理器以产生一个机器，使得通过计算机或其他可编程信息处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程信息处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种歌声合成方法，其特征在于，包括：

获取用户朗诵的音频、所述音频对应的歌词文本；

根据预设语音识别模型和所述歌词文本对所述音频中的第一音素进行时长标注，得到第一音素的第一时长；

确定所述音频的第一谱特征；

当所述歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，根据预设的所述目标歌曲的第二音素的第二时长、所述第一音素的第一时长对所述第一谱特征进行缩放处理，得到第二谱特征；

对所述第二谱特征、预设的所述目标歌曲的第一基频进行合成，得到合成歌声；

其中，所述根据预设的所述目标歌曲的第二音素的第二时长、所述第一音素的第一时长对所述第一谱特征进行缩放处理，得到第二谱特征，包括：

根据所述第一音素的第一时长对所述第一谱特征进行标注，得到第三谱特征；

根据所述目标歌曲的第二音素的第二时长、所述第一音素的第一时长计算缩放比值；

根据所述缩放比值对所述第三谱特征进行缩放处理，得到所述第二谱特征。

2.根据权利要求1所述的歌声合成方法，其特征在于，所述根据预设语音识别模型和所述歌词文本对所述音频中的第一音素进行时长标注，得到第一音素的第一时长，包括：

根据所述歌词文本中第一歌词中的字符的声母和韵母确定所述音频中的第一音素；

将所述第一音素和所述音频输入到预设的语音识别模型中；

根据所述第一音素通过所述语音识别模型对所述音频进行标注，得到所述第一音素的第一时长。

3.根据权利要求1所述的歌声合成方法，其特征在于，所述歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，包括：

当第一歌词中每句歌词的字符与预设目标歌曲的第二歌词中每句歌词的字符相同，或第一歌词中的每句歌词的字符数与预设目标歌曲的第二歌词中每句歌词的字符数相同，所述歌词文本中的第一歌词和预设目标歌曲的第二歌词对应。

4.根据权利要求1所述的歌声合成方法，其特征在于，

当所述歌词文本中的第一歌词和预设目标歌曲的第二歌词不对应，将所述第一音素进行拼接和/或切割，得到与所述第二音素对应的第三音素；

根据所述第一音素的第一时长确定所述第三音素的第三时长；

根据预设的所述目标歌曲的第二音素的第二时长、所述第三音素的第三时长对所述第一谱特征进行缩放处理，得到第三谱特征；

对所述第三谱特征、预设的所述目标歌曲的基频进行合成，得到合成歌声。

5.根据权利要求1所述的歌声合成方法，其特征在于，在所述对所述第二谱特征、预设的所述目标歌曲的第一基频进行合成，得到合成歌声之前，还包括：

确定所述音频的第二基频；

确定所述第二基频中的零值；

确定预设的所述目标歌曲的第一基频中的零值；

将所述第一基频中的零值插值为非零值；

根据所述第二基频中的零值调整所述第一基频中的非零值。

6.根据权利要求1所述的歌声合成方法，其特征在于，在所述对所述第二谱特征、预设的所述目标歌曲的第一基频进行合成，得到合成歌声之后，还包括：

对所述合成歌声进行变声处理；

对变声处理后的所述合成歌声进行滤波处理。

7.一种歌声合成装置，其特征在于，包括：

获取单元，用于获取用户朗诵的音频、所述音频对应的歌词文本；

标注单元，用于根据预设语音识别模型和所述歌词文本对所述音频中的第一音素进行时长标注，得到第一音素的第一时长；

确定单元，用于确定所述音频的第一谱特征；

处理单元，用于当所述歌词文本中的第一歌词和预设目标歌曲的第二歌词对应，根据预设的所述目标歌曲的第二音素的第二时长、所述第一音素的第一时长对所述第一谱特征进行缩放处理，得到第二谱特征；

合成单元，用于对所述第二谱特征、预设的所述目标歌曲的第一基频进行合成，得到合成歌声；

8.一种计算机，其特征在于，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-6任意一项所述的歌声合成方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行如权利要求1-6任意一项所述的歌声合成的方法。