CN108877753B

CN108877753B - 音乐合成方法及系统、终端以及计算机可读存储介质

Info

Publication number: CN108877753B
Application number: CN201810622079.XA
Authority: CN
Inventors: 杨杰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2020-01-21
Anticipated expiration: 2038-06-15
Also published as: US20190385578A1; JP6793708B2; US10971125B2; CN108877753A; JP2019219638A

Abstract

本发明提出一种音乐合成方法及系统、终端以及计算机可读存储介质。该音乐合成方法包括：接收用户选择的曲目；获取文本内容；接收用户按照所述文本内容所录制的语音数据；根据所述文本内容中各个单字的声学特性，将所述语音数据切分成各个语音片段；以及根据所述曲目和所述语音数据，形成音乐文件。通过本发明的音乐合成方法，可以将用户的语音与曲目相结合，模拟最佳的音乐效果，进而可以让用户参与到音乐演唱和表演中来，提高了音乐的娱乐性。

Description

音乐合成方法及系统、终端以及计算机可读存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种音乐合成方法及系统、终端以及计算机可读存储介质。

背景技术

音乐是人们重要的娱乐方式之一，随着移动互联网的发展，音乐呈现出多样化的形式。其中，除了可以通过手机等智能设备收听音乐之外，用户还可以通过各形式的应用软件参与到音乐演唱和录制等活动中来。

但是，音乐演唱具有一定的专业性，一般需要用户的音色好，并且懂音调和节奏。这样，会使一些缺乏音乐知识，乐感较差的用户，很难参与其中。

因此，如何将用户的声音与曲目相结合，模拟出最佳的音乐效果，是大家十分关注的问题。

发明内容

本发明实施例提供一种音乐合成方法及系统、终端以及计算机可读存储介质，以解决现有技术中的以上的一个或多个技术问题，或至少提供一种有益的选择。

第一方面，本发明实施例提供了一种音乐合成方法，所述方法包括：

从曲库中选择曲目；

获取文本内容；

接收用户按照所述文本内容所录制的语音数据；以及

根据所述曲目和所述语音数据，形成音乐文件。

结合第一方面，本发明在第一方面的第一种实施方式中，所述获取文本内容，包括：

接收用户从曲库中选择与所述曲目所对应的歌词文本。

结合第一方面，本发明在第一方面的第二种实施方式中，所述获取文本内容，包括：

接收用户输入的自创文本。

结合第一方面及上述第一方面的任一种实施方式，本发明在第一方面的第三种实施方式中，在根据所述曲目和所述语音数据，形成音乐文件之前，所述方法还包括：

对所述语音数据进行降噪处理。

结合第一方面和第一方面的第三种实施方式，本发明在第一方面的第四种实施方式中，所述根据所述文本内容和所述语音数据，形成音乐文件，包括：

根据所述文本内容中各个单字的声学特性，将所述语音数据切分成各个语音片段；以及

将各个所述语音片段匹配到所述曲目之中，并根据所述曲目的曲调和节奏，调整所述语音片段，以形成音乐文件。

结合第一方面和第一方面的第四种实施方式，本发明在第一方面的第五种实施方式中，所述根据所述文本内容中各个文字的声学特性，将所述语音数据切分成各个语音片段，包括：

查找文本内容中各个单字所对应的声学模型；以及

根据所述文本内容的文字顺序，通过各个单字所对应的预存的所述声学模型，将所述语音数据切分成与各个所述声学模型一一对齐的所述语音片段。

结合第一方面和第一方面的第四种实施方式，本发明在第一方面的第六种实施方式中，所述将各个所述语音片段匹配到所述曲目之中，并根据所述曲目的曲调和节奏，调整所述语音片段，以形成音乐文件，包括：

对所述曲目进行标注，并形成多个音乐片段；

将各个所述语音片段匹配到位置对应的所述音乐片段中；以及

根据音乐片段的曲调和节奏，调整所述语音片段，以形成音乐文件。

结合第一方面和第一方面的第六种实施方式，本发明在第一方面的第七种实施方式中，所述对所述曲目进行标注，并形成多个音乐片段，包括：

根据所述曲目的原唱，标注出所述曲目中的各个单字的曲调、音高、位置和音长，以形成多个音乐片段。

第二方面，本发明实施例提供了一种音乐合成系统，所述系统包括：

曲目选择单元，配置用于接收用户选择的曲目；

文本获取单元，配置用于获取文本内容；

语音录制单元，配置用于接收用户按照所述文本内容所录制的语音数据；以及

音乐形成单元，配置用于根据所述曲目和所述语音数据，形成音乐文件。

结合第二方面，本发明在第二方面的第一种实施方式中，还配置用于接收用户从曲库中选择的与所述曲目所对应的歌词文本。

结合第二方面，本发明在第二方面的第二种实施方式中，所述文本获取单元，还配置用于接收用户输入的自创文本。

结合第二方面及上述第二方面的任一种实施方式，本发明在第二方面的第三种实施方式中，所述系统还包括：

语音降噪单元，配置用于对所述语音数据进行降噪处理。

结合第二方面和第二方面的第三种实施方式，本发明在第二方面的第四种实施方式中，所述音乐形成单元包括：

语音切分单元，配置用于根据所述文本内容中各个单字的声学特性，将所述语音数据切分成各个语音片段；以及

音乐合成单元，配置用于将各个所述语音片段匹配到所述曲目之中，并根据所述曲目的曲调和节奏，调整所述语音片段，以形成音乐文件。

结合第二方面和第二方面的第四种实施方式，本发明在第二方面的第五种实施方式中，所述语音切分单元包括：

对应模型单元，配置用于查找文本内容中各个单字所对应的预存的声学模型；以及

切分片段单元，配置用于根据所述文本内容的文字顺序，通过各个单字所对应的所述声学模型，将所述语音数据切分成与各个所述声学模型一一对齐的所述语音片段。

结合第二方面和第二方面的第四种实施方式，本发明在第二方面的第六种实施方式中，所述音乐合成单元包括：

形成片段单元，配置用于对所述曲目进行标注，并形成多个音乐片段；

匹配位置单元，配置用于将各个所述语音片段匹配到位置对应的所述音乐片段中；以及

调整片段单元，配置用于根据音乐片段的曲调和节奏，调整所述语音片段，以形成音乐文件。

结合第二方面和第二方面的第六种实施方式，本发明在第二方面的第七种实施方式中，所述形成片段单元，还配置用于根据所述曲目的原唱，标注出所述曲目中的各个单字的曲调、音高、位置和音长，以形成多个音乐片段。

第三方面，本发明实施例提供了一种音乐合成终端，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任一所述音乐合成方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一种所述音乐合成方法。

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

上述技术方案中的一个技术方案具有如下优点或有益效果：通过本发明的音乐合成方法，可以将用户的语音与曲目相结合，模拟最佳的音乐效果，进而可以让用户参与到音乐演唱和表演中来，提高了音乐的娱乐性。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出了根据本发明一个实施例的音乐合成方法100的流程图；

图2示出了根据本发明另一个实施例的音乐合成方法200的流程图；

图3示出了根据本发明另一个实施例的音乐合成方法300的流程图；

图4示出了根据本发明另一个实施例的音乐合成方法400的流程图；

图5示出了根据本发明另一个实施例的音乐合成方法500的流程图；

图6示出了根据本发明一个实施例的音乐合成系统600的结构框图；

图7示出了根据本发明另一个实施例的音乐合成系统700的结构框图；

图8示出了根据本发明另一个实施例的音乐合成系统800的结构框图；

图9示出了根据本发明另一个实施例的音乐合成系统900的结构框图；

图10示出了根据本发明另一个实施例的音乐合成系统1000的结构框图；以及

图11示出了根据本发明的音乐合成终端的示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

下面结合图1至图11所示，对本发明的音乐合成方法、系统和终端进行描述。

参见图1所示，本发明的音乐合成方法100，包括步骤S101至步骤S104。

首先，通过曲目选择步骤S101，可以接收用户所选择的曲目。用户可以在预设的曲库中，搜索并选择自己喜欢的曲目。其中，曲目的音乐类型可以包括但不限于：流行、摇滚、说唱、民谣等。

接着，通过文本获取步骤S102，可以获取文本内容。优选地，用户可以从曲库中选择与选定曲目所对应的歌词文本，在步骤S102中，可以获取该歌词文本作为文本内容。或者，用户可以输入自创文本，在步骤S102中，可以获取该自创文本作为文本内容。

然后，通过语音录制步骤S103，接收用户按照文本内容所录制的语音数据。用户可以根据所选择的歌词文本或者自己所输入的自创文本，朗读出文本的内容，并录制成语音数据。在步骤S103中，可以接收用户所录制的语音数据。

再通过音乐形成步骤S104，根据所选择的曲目，以及在步骤S103中所接收到的语音数据，形成音乐文件。

根据本发明的音乐合成方法100，可以将用户录制的语音和选定的曲目相结合，形成音乐文件，使音乐表演变的简单，提高了用户表演的积极性。

参见图2所示，本发明一个实施例的音乐合成方法200，在方法100的基础上，音乐形成步骤S104可以包括语音切分步骤S114和音乐合成步骤S115。

语音切分步骤S114，根据文本内容中各个文字的声学特性，可以将语音数据切分成各个语音片段。其中，声学特性至少包括以下之一：音调、响度、音高和音长。

在一种实施例中，具体地，可以从海量的音频文件和数据中，收集各个单字所对应的音调、响度、音高和音长等特性。根据获取到的内容文本，可以预测出音频数据中的内容。然后，根据预测内容的各个单字的音调、响度、音高和音长等特性，依次对齐到语音数据中，从而，将语音数据切分成各个语音片段。

最后，通过音乐合成步骤S115，可以将各个语音片段匹配到曲目之中，并根据曲目的曲调和节奏，调整语音片段，以形成音乐文件。

在一种实施例中，可以将切分好的语音片段，对应地匹配到所选定的曲目之中，并且，可以根据曲目的曲调和节奏，对每个语音片段的位置、曲调、音高和音长等进行调整。从而，可以使得每个语音片段的位置、曲调、音高和音长等与曲目的曲调和节奏相匹配，形成音乐文件。

根据本发明的音乐合成方法200，可以将用户录制的语音匹配到选定的曲目中，并且，通过曲目的曲调和节奏，调整用户的语音，以使用户的语音能够与曲目相结合。通过方法200不仅可以模拟出最佳的音乐效果，还可以让用户参与到音乐演唱和表演中来，提高了音乐的娱乐性。

参见图3所示，本发明一个实施例的音乐合成方法300，在方法100或方法200的基础上，在进行音乐形成步骤S104之前，还包括语音降噪步骤S104’。

在语音降噪步骤S104’中，可以对语音数据进行降噪处理。

在一种实施例中，降噪处理可以对音频数据进行抑制噪音和去混响处理，进一步提高了在噪声环境下对语音数据的降噪性能。当然，也可以采用非线性处理，例如信号放大等，来提高降噪性能。

通过本发明的方法300，可以对语音数据进行降噪处理，减少了语音数据中的噪音干扰，保证了语音数据的质量。

参见图4所示，本发明一个实施例的音乐合成方法400，在方法300或方法200或方法100的基础上，语音切分步骤S114进一步包括对应模型步骤S1141和切分片段步骤S1142。

在对应模型步骤S1141中，可以查找文本内容中各个单字所对应的声学模型。其中，声学模型可以预存在应用所述音乐合成方法的程序中。并且，声学模型可以通过统计海量音频中各个单字的发音方式，并通过神经网络算法对对不同的发音方式进行深度学习和分析而得出。发音方式至少可以包括单字在音频中的音调、响度、音高和音长等。

在一种实施例中，以“今”为例，海量数据中包括音频“今天你打算做什么”，“我想今天去游泳”等，但是，“今”在这几段音频中的位置不同，并且来自不同的音频中的“今”的发音方式，即，音调、响度、音高和音长都不相同。可以将这些音频中关于“今”的数据统计汇总，并通过进行深度学习和分析，最后计算得出“今”的声学模型。

进一步地，以获取到的文本内容“今天下雪了”为例，可以在预存的声学模型中，分别找到“今”、“天”、“下”、“雪”、“了”每个单字所对应的声学模型。

接着，进入切分片段步骤S1142，根据文本内容的文字顺序，即，“今”、“天”、“下”、“雪”、“了”这五个单字的顺序，通过各个单字所对应的所述声学模型，将用户录制的语音数据，按顺序切分成与各个声学模型一一对齐的语音片段。

通过本发明的方法400，能够精确地将用户录制的音频数据切成一个一个语音片段，每个片段包含一个单字，并且可以保持原始语音数据中的内容部分不造成损失。

参见图5所示，本发明一个实施例的音乐合成方法500，在方法400或方法300或方法200或方法100的基础上，音乐合成步骤S115进一步包括形成片段步骤S1151、匹配位置步骤S1152和调整片段步骤S1153。

在形成片段步骤S1151中，可以对所述曲目进行标注，并形成多个音乐片段。

在一种实施例中，可以根据所曲目的原唱，标注出曲目中的各个单字的曲调、音高、位置和音长，以形成多个音乐片段。以选定的曲目《好日子》中的“今天是个好日子”为例，可以根据原唱，标注出曲目中的“今”、“天”、“是”、“个”、“好”、“日”、“子”所对应的曲调、音高、位置和音长等，从而，形成“今”、“天”、“是”、“个”、“好”、“日”、“子”各自所对应的音乐片段。还可以将多个音乐片段整理，制成音乐模板。这样，在用户选择曲目时，可以直接调用该曲目的音乐模板，对用户的语音数据进行调整。

接着，在匹配位置步骤S1152中，可以将由切分片段步骤S1142所切分出的多个语音片段，依次匹配到位置对应的音乐片段之中。

然后，通过调整片段步骤S1153，根据音乐片段的曲调和节奏，调整语音片段的曲调、音高、音长、起始位置等。从而，将语音片段调整成与音乐片段的音调和节奏相匹配，以形成音乐文件。

通过本发明的方法500，能够根据曲目的音调和节奏，模拟用户演唱音乐的效果，可以让用户参与到音乐演唱和表演中来，提高了音乐的娱乐性。

参见图6所示，一种音乐合成系统600，包括：曲目选择单元601、文本获取单元602、语音录制单元603和音乐形成单元604。

曲目选择单元601，配置用于接收用户所选择的曲目。

文本获取单元602，配置用于获取文本内容。优选地，用户可以从曲库中选择与选定曲目所对应的歌词文本，文本获取单元602可以获取该歌词文本作为文本内容。或者，用户可以输入自创文本，文本获取单元602可以获取该自创文本作为文本内容。

语音录制单元603，配置用于接收用户按照文本内容所录制的语音数据。用户可以根据所选择的歌词文本或者自己所输入的自创文本，朗读出文本的内容，并录制成语音数据。语音录制单元603可以接收用户录制的语音数据。

再通过音乐形成单元604，配置用于根据曲目和所接收到的语音数据，形成音乐文件。

具体地，图6所示的音乐合成系统600与图1所示的音乐合成方法100相对应。图6所示的系统的具体实现方式参照图1所示的方法的实施例中的描述。

参见图7所示，一种音乐合成系统700，在系统600的基础上，音乐形成单元604还包括语音切分单元614和音乐合成单元615。

语音切分单元614可以根据文本内容中各个文字的声学特性，可以将语音数据切分成各个语音片段。其中，声学特性至少包括以下之一：音调、响度、音高和音长。

在一种实施例中，具体地，可以从海量的音频文件和数据中，收集各个单字所对应的音调、响度和音长等特性。根据获取到的内容文本，可以预测出音频数据中的内容。然后，根据预测内容的各个单字的音调、响度和音长等特性，依次对齐到语音数据中，从而，将语音数据切分成各个语音片段。

最后，通过音乐合成单元615，可以将各个语音片段匹配到曲目之中，并根据曲目的音调和节奏，调整语音片段，以形成音乐文件。

在一种实施例中，可以将切分好的语音片段，对应地匹配到所选定的曲目之中，并且，可以根据曲目的曲调和节奏，对每个语音片段的曲调、音高、位置和音长等进行调整。从而，可以使得每个语音片段的曲调、音高、位置等与曲目的曲调和节奏相匹配，形成音乐文件。

根据本发明的音乐合成系统700，可以将用户录制的语音匹配到选定的曲目中，并且，通过曲目的曲调和节奏，调整用户的语音，以使用户的语音能够与曲目相结合。系统700不仅可以模拟出最佳的音乐效果，还可以让用户参与到音乐演唱和表演中来，提高了音乐的娱乐性。

具体地，图7所示的音乐合成系统700与图2所示的音乐合成方法200相对应。图7所示的系统的具体实现方式参照图2所示的方法的实施例中的描述。

参见图8所示，一种音乐合成系统800，在系统700或系统600的基础上还包括：语音降噪单元604’。

语音降噪单元604’，配置用于对语音数据进行降噪处理。

具体地，图8所示的音乐合成系统800与图3所示的音乐合成方法300相对应。图8所示的系统的具体实现方式参照图3所示的方法的实施例中的描述。

参见图9所示，一种音乐合成系统900，在系统800或系统700或系统600的基础上，语音切分单元614进一步包括对应模型单元6141和切分片段单元6142。

对应模型单元6141，配置用于查找文本内容中各个单字所对应的声学模型。

切分片段单元6142，配置用于根据所述文本内容的文字顺序，通过各个单字所对应的所述声学模型，将所述语音数据切分成与各个所述声学模型一一对齐的所述语音片段。

其中，所述声学模型预存在应用所述音乐合成方法的程序中，所述声学模型是通过统计海量音频中各个单字的发音方式，并通过对不同的发音方式进行深度学习和分析而得出的。发音方式至少包括以下之一：音调、响度、音高和音长。

具体地，图9所示的音乐合成系统900与图4所示的音乐合成方法400相对应。图9所示的系统的具体实现方式参照图4所示的方法的实施例中的描述。

参见图10所示，一种音乐合成系统1000，在系统900或系统800或系统700或系统600的基础上，音乐合成单元615进一步包括形成片段单元6151、匹配位置单元6152和调整片段单元6153。

形成片段单元6151，配置用于对曲目进行标注，形成多个音乐片段。进一步地，形成模板单元6151可以根据所述曲目的原唱，标注出曲目中的各个单字的曲调、音高、位置和音长，以形成多个音乐片段。

匹配位置单元6152，配置用于将各个语音片段匹配到位置对应的音乐片段中。

调整片段单元6153，配置用于根据音乐片段的曲调和节奏，调整语音片段，以形成音乐文件。

具体地，图10所示的音乐合成系统1000与图5所示的音乐合成方法500相对应。图10所示的系统的具体实现方式参照图5所示的方法的实施例中的描述。

参见图11所示，一种音乐合成终端包括存储器910和处理器920。存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行计算机程序时实现上述实施例中的音乐合成方法。存储器910和处理器920的数量可以为一个或多个。

该服务器还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

在一种实施例中，本发明还提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一种所述音乐合成方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音乐合成方法，其特征在于，所述方法包括：

接收用户选择的曲目；

获取文本内容；

接收用户按照所述文本内容所录制的语音数据；以及

根据所述曲目和所述语音数据，形成音乐文件；

所述根据所述文本内容和所述语音数据，形成音乐文件，包括：

将各个所述语音片段匹配到所述曲目之中，并根据所述曲目的曲调和节奏，调整所述语音片段，以形成音乐文件；

所述根据所述文本内容中各个文字的声学特性，将所述语音数据切分成各个语音片段，包括：

查找文本内容中各个单字所对应的预存的声学模型；以及

根据所述文本内容的文字顺序，通过各个单字所对应的所述声学模型，将所述语音数据切分成与各个所述声学模型一一对齐的所述语音片段。

2.根据权利要求1所述的方法，其特征在于，所述获取文本内容，包括：

接收用户从曲库中选择的与所述曲目所对应的歌词文本。

3.根据权利要求1所述的方法，其特征在于，所述获取文本内容，包括：

接收用户输入的自创文本。

4.根据权利要求1-3任一项权利要求所述的方法，其特征在于，在所述根据所述曲目和所述语音数据，形成音乐文件之前，所述方法还包括：

对所述语音数据进行降噪处理。

5.根据权利要求1所述的方法，其特征在于，所述将各个所述语音片段匹配到所述曲目之中，并根据所述曲目的曲调和节奏，调整所述语音片段，以形成音乐文件，包括：

对所述曲目进行标注，并形成多个音乐片段；

6.根据权利要求5所述的方法，其特征在于，所述对所述曲目进行标注，并形成多个音乐片段，包括：

7.一种音乐合成系统，其特征在于，所述系统包括：

曲目选择单元，配置用于接收用户选择的曲目；

文本获取单元，配置用于获取文本内容；

音乐形成单元，配置用于根据所述曲目和所述语音数据，形成音乐文件；

所述音乐形成单元包括：

音乐合成单元，配置用于将各个所述语音片段匹配到所述曲目之中，并根据所述曲目的曲调和节奏，调整所述语音片段，以形成音乐文件；

所述语音切分单元包括：

8.根据权利要求7所述的系统，其特征在于，所述文本获取单元，还配置用于接收用户从曲库中选择的与所述曲目所对应的歌词文本。

9.根据权利要求7所述的系统，其特征在于，所述文本获取单元，还配置用于接收用户输入的自创文本。

10.根据权利要求7-9任一项权利要求所述的系统，其特征在于，所述系统还包括：

语音降噪单元，配置用于对所述语音数据进行降噪处理。

11.根据权利要求7所述的系统，其特征在于，所述音乐合成单元包括：

12.根据权利要求11所述的系统，其特征在于，所述形成片段单元，还配置用于根据所述曲目的原唱，标注出所述曲目中的各个单字的曲调、音高、位置和音长，以形成多个音乐片段。

13.一种音乐合成终端，其特征在于，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的方法。