CN107799119A

CN107799119A - 音频制作方法、装置及系统

Info

Publication number: CN107799119A
Application number: CN201610809697.6A
Authority: CN
Inventors: 王婕
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2016-09-07
Filing date: 2016-09-07
Publication date: 2018-03-13

Abstract

本发明提供了一种音频制作方法、装置及系统，其中，该方法包括：将录制的语音信息转换为文字信息；从曲库中查找与所述文字信息匹配的目标音乐；将所述语音信息和所述目标音乐合成音频文件。通过本发明，解决了相关技术中无法根据用户语音生成歌曲的问题，实现了根据用户语音生成歌曲，从而提高了用户体验度。

Description

音频制作方法、装置及系统

技术领域

本发明涉及通信领域，具体而言，涉及一种音频制作方法、装置及系统。

背景技术

现有技术方案例如合成初音未来歌曲的技术是通过输入音调、歌词然后语音合成发出声音，然后调整震音、音速等的“感情参数”，通过文本转成合成音，然后配以乐曲旋律，生成歌曲。

现有技术中通过用户确立的一个曲风和旋律，通过解析旋律确定词的字数，然后根据用户上传或者自动匹配生成歌曲，但是在生成的歌曲风格中，没有用户个人的声音色彩。

针对相关技术中无法根据用户语音生成歌曲的问题，目前还没有有效地解决方案。

发明内容

本发明实施例提供了一种音频制作方法、装置及系统，以至少解决相关技术中无法根据用户语音生成歌曲的问题。

根据本发明的一个实施例，提供了一种根据本发明的另一个实施例，提供了一种音频制作方法，包括：将录制的语音信息转换为文字信息；从曲库中查找与所述文字信息匹配的目标音乐；将所述语音信息和所述目标音乐合成音频文件。

可选地，从所述曲库中查找与所述文字信息匹配的音乐包括：根据预设规则从所述文字信息中提取关键词；从所述曲库中查找与所述关键词匹配的目标音乐。

可选地，根据所述预设规则从所述文字信息中提取所述关键词包括：根据所述预设规则将所述文字信息分割成一个或者多个词组；发送用于提示所述一个或者多个词组的第一提示信息；接收响应于所述第一提示信息的第一响应信息，其中，所述第一响应信息用于携带从所述一个或者多个词组中选择的一个词组；获取所述第一响应信息中携带的选择的一个词组作为所述关键词。

可选地，从所述曲库中查找与所述关键词匹配的所述目标音乐包括：从所述曲库中查找与所述关键词相关的音乐；将查找到的音乐按照相关度由高到低地顺序生成音乐列表；发送用于提示所述音乐列表的第二提示信息；接收响应于所述第二提示信息的第二响应信息，其中，所述第二响应信息用于携带从所述音乐列表中选择的音乐；获取所述第二响应信息中携带的选择的音乐作为所述目标音乐。

可选地，将所述语音信息和所述目标音乐合成所述音频文件包括：根据所述目标音乐生成歌曲文件；根据所述歌曲文件从所述语音信息中提取目标声音因素生成歌词文件，其中，所述目标声音因素是携带有录制所述语音信息的用户的声音特征的声音信息；将所述歌曲文件和所述歌词文件融合得到所述音频文件。

可选地，根据所述目标音乐生成所述歌曲文件包括：获取用户选择的音频参数，其中，所述音频参数包括以下至少之一：旋律、节拍、曲风、曲调；根据所述音频参数从所述目标音乐中截取音乐段落；根据所述音频参数对所述音乐段落进行拼接组合，生成所述歌曲文件。

可选地，根据所述歌曲文件从所述语音信息中提取所述目标声音因素生成所述歌词文件包括：对所述语音信息进行音素级的分割，得到声音因素集合；根据所述歌曲文件的特征从所述声音因素集合中提取所述目标声音因素；对所述目标声音因素进行预设操作，生成所述歌词文件，其中，所述预设操作包括以下至少之一：切割、重组、延长、拼接。

根据本发明的另一个实施例，提供了一种音频制作装置，包括：转换模块，用于将录制的语音信息转换为文字信息；查找模块，用于从曲库中查找与所述文字信息匹配的目标音乐；合成模块，用于将所述语音信息和所述目标音乐合成音频文件。

根据本发明的另一个实施例，提供了一种音频制作装置，包括：语音识别模块，用于将录制的语音信息转换为文字信息；歌词分割模块，用于从曲库中查找与所述文字信息匹配的目标音乐，并根据所述目标音乐对所述语音信息进行预设操作，生成歌词文件，其中，所述预设操作包括以下至少之一：切割、重组、延长、拼接；作曲模块，用于根据所述目标音乐生成歌曲文件；音频生成模块，用于将所述歌词文件和所述歌曲文件合成音频文件。

可选地，所述装置还包括：录音模块，用于录制所述语音信息。

根据本发明的另一个实施例，提供了一种音频制作系统，包括：上述的音频制作装置和云端曲库服务器，其中，所述云端曲库服务器用于存储音乐；所述音频制作装置从所述云端曲库服务器查找与文字信息匹配的目标音乐。

通过本发明，将录制的语音信息转换为文字信息；从曲库中查找与所述文字信息匹配的目标音乐；将所述语音信息和所述目标音乐合成音频文件。根据语音信息转换成的文字信息匹配目标音乐，将语音信息和目标音乐合成音频文件，由于录制的语音信息记录了用户发出的声音，其中采集到了用户的语音、语调、情绪等信息，将该语音信息与音乐合成在一起，使得生成的歌曲中含有用户自己的语音，因此，可以解决相关技术中无法根据用户语音生成歌曲的问题，实现了根据用户语音生成歌曲，从而提高了用户体验度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种音频制作方法的移动终端的硬件结构框图；

图2是根据本发明实施例的音频制作的流程图；

图3是根据本发明实施例的一种音频制作装置的结构框图；

图4是根据本发明实施例的另一种音频制作装置的结构框图一；

图5是根据本发明实施例的另一种音频制作装置的结构框图二；

图6是根据本发明可选实施例的音频制作装置的结构框图；

图7是根据本发明可选实施例的音频制作方法的流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种音频制作方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的音频制作方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端或网络架构的音频制作方法，图2是根据本发明实施例的音频制作的流程图，如图2所示，该流程包括如下步骤：

步骤S202，将录制的语音信息转换为文字信息；

步骤S204，从曲库中查找与文字信息匹配的目标音乐；

步骤S206，将语音信息和目标音乐合成音频文件。

通过上述步骤，将录制的语音信息转换为文字信息；从曲库中查找与所述文字信息匹配的目标音乐；将所述语音信息和所述目标音乐合成音频文件。根据语音信息转换成的文字信息匹配目标音乐，将语音信息和目标音乐合成音频文件，由于录制的语音信息记录了用户发出的声音，其中采集到了用户的语音、语调、情绪等信息，将该语音信息与音乐合成在一起，使得生成的歌曲中含有用户自己的语音，因此，可以解决相关技术中无法根据用户语音生成歌曲的问题，实现了根据用户语音生成歌曲，从而提高了用户体验度。

可选地，上述步骤的执行主体可以为终端，例如：手机、智能手机、平板电脑、笔记本电脑、智能穿戴设备等，但不限于此。

可选地，在上述步骤S204中，可以通过提取文字信息中的关键词查找与提取的关键词匹配的目标音乐。例如：根据预设规则从文字信息中提取关键词，从曲库中查找与关键词匹配的目标音乐。

通过上述步骤，根据文字信息中的关键词匹配目标音乐，可以提高目标音乐与语音信息的相关度，使制作的音频文件更符合语音信息的意境，从而使用户体验度更高。

可选地，从文字信息中提取关键词的方式可以但不限于将文字信息分割成几个词组，并将分割后的词组显示给用户，供用户选择，将用户选择的词组作为关键词。例如：根据预设规则将文字信息分割成一个或者多个词组，发送用于提示一个或者多个词组的第一提示信息，接收响应于第一提示信息的第一响应信息，其中，第一响应信息用于携带从一个或者多个词组中选择的一个词组，获取第一响应信息中携带的选择的一个词组作为关键词。

通过上述步骤，为用户提供关键词的选项，并根据用户的选择确定关键词，使匹配的目标音乐更符合用户的喜好，从而提高了用户体验度。

可选地，可以但不限于根据与关键词的相关度匹配目标音乐，并按照预设方式(例如相关度由高到低)排列查找到的音乐，将生成的音乐列表显示给用户，并由用户选择目标音乐。例如：从曲库中查找与关键词相关的音乐，将查找到的音乐按照相关度由高到低地顺序生成音乐列表，发送用于提示音乐列表的第二提示信息，接收响应于第二提示信息的第二响应信息，其中，第二响应信息用于携带从音乐列表中选择的音乐，获取第二响应信息中携带的选择的音乐作为目标音乐。

可选地，从音乐列表中选择的音乐的数量可以是一个，也可以是多个，如果选择了多个音乐，可以但不限于从多个音乐中截取音乐片段合成一个目标音乐，还可以但不限于将选择的每个音乐分别作为目标音乐来合成音频文件。

通过上述步骤，为用户提供备选音乐的选项，并根据用户的选择确定目标音乐，使匹配的目标音乐更符合用户的喜好，从而提高了用户体验度。

可选地，在上述步骤S206中，可以但不限于分别生成歌曲文件和歌词文件，并把二者合成音频文件。例如：根据目标音乐生成歌曲文件，根据歌曲文件从语音信息中提取目标声音因素生成歌词文件，其中，目标声音因素是携带有录制语音信息的用户的声音特征的声音信息，将歌曲文件和歌词文件融合得到音频文件。

通过上述步骤，根据生成的歌曲文件从录制的语音信息中提取目标声音因素，由于目标声音因素中携带了用户声音特征的信息，因此将生成的歌曲文件和通过提取目标声音因素生成的歌词文件进行融合得到的音频文件中具有用户的声音特质，因此，可以解决相关技术中无法根据用户语音生成歌曲的问题，实现了根据用户语音生成歌曲，从而提高了用户体验度。

可选地，生成歌曲文件的方式可以但不限于是根据获取的音频参数从目标音乐中获取音乐段落，再对音乐段落进行处理得到歌曲文件。例如：获取用户选择的音频参数，其中，音频参数包括以下至少之一：旋律、节拍、曲风、曲调，根据音频参数从目标音乐中截取音乐段落，根据音频参数对音乐段落进行拼接组合，生成歌曲文件。

可选地，可以但不限于对语音信息进行音素级的分割，得到声音因素集合，根据歌曲文件的特征从声音因素集合中提取目标声音因素，对目标声音因素进行切割、拼接、重组、延长等操作来生成歌词文件。例如：根据歌曲文件对语音信息进行预设操作，生成歌词文件，其中，预设操作包括以下至少之一：切割、重组、延长、拼接。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

在本实施例中还提供了一种音频制作装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的一种音频制作装置的结构框图，如图3所示，该装置包括：

转换模块32，用于将录制的语音信息转换为文字信息；

查找模块34，耦合至转换模块32，用于从曲库中查找与文字信息匹配的目标音乐；

合成模块36，耦合至查找模块34，用于将语音信息和目标音乐合成音频文件。

通过上述装置，转换模块将录制的语音信息转换为文字信息；查找模块从曲库中查找与文字信息匹配的目标音乐；合成模块将语音信息和目标音乐合成音频文件。根据语音信息转换成的文字信息匹配目标音乐，将语音信息和目标音乐合成音频文件，使得生成的歌曲中含有用户自己的语音，因此，可以解决相关技术中无法根据用户语音生成歌曲的问题，实现了根据用户语音生成歌曲，从而提高了用户体验度。

可选地，上述装置可以但不限于应用于终端，例如：手机、智能手机、平板电脑、笔记本电脑、智能穿戴设备等，但不限于此。

可选地，查找模块34用于：根据预设规则从文字信息中提取关键词；从曲库中查找与关键词匹配的目标音乐。

可选地，查找模块34用于：根据预设规则将文字信息分割成一个或者多个词组；发送用于提示一个或者多个词组的第一提示信息；接收响应于第一提示信息的第一响应信息，其中，第一响应信息用于携带从一个或者多个词组中选择的一个词组；获取第一响应信息中携带的选择的一个词组作为关键词。

可选地，查找模块34用于：从曲库中查找与关键词相关的音乐；将查找到的音乐按照相关度由高到低地顺序生成音乐列表；发送用于提示音乐列表的第二提示信息；接收响应于第二提示信息的第二响应信息，其中，第二响应信息用于携带从音乐列表中选择的音乐；获取第二响应信息中携带的选择的音乐作为目标音乐。

可选地，合成模块36用于：根据目标音乐生成歌曲文件；根据歌曲文件从语音信息中提取目标声音因素生成歌词文件，其中，目标声音因素是携带有录制语音信息的用户的声音特征的声音信息；将歌曲文件和歌词文件融合得到音频文件。

可选地，合成模块36用于：获取用户选择的音频参数，其中，音频参数包括以下至少之一：旋律、节拍、曲风、曲调；根据音频参数从目标音乐中截取音乐段落；根据音频参数对音乐段落进行拼接组合，生成歌曲文件。

可选地，合成模块36用于：对语音信息进行音素级的分割，得到声音因素集合；根据歌曲文件的特征从声音因素集合中提取目标声音因素；对目标声音因素进行预设操作，生成歌词文件，其中，预设操作包括以下至少之一：切割、重组、延长、拼接。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

在本实施例中还提供了另一种音频制作装置，图4是根据本发明实施例的另一种音频制作装置的结构框图一，如图4所示，该装置包括：

语音识别模块42，用于将录制的语音信息转换为文字信息；

歌词分割模块44，耦合至语音识别模块42，用于从曲库中查找与文字信息匹配的目标音乐，并根据目标音乐对语音信息进行预设操作，生成歌词文件，其中，预设操作包括以下至少之一：切割、重组、延长、拼接；

作曲模块46，耦合至歌词分割模块44，用于根据目标音乐生成歌曲文件；

音频生成模块48，耦合至作曲模块46，用于将歌词文件和歌曲文件合成音频文件。

图5是根据本发明实施例的另一种音频制作装置的结构框图二，如图5所示，可选地，该装置还包括：

录音模块52，耦合至语音识别模块42，用于录制语音信息。

可选地，歌词分割模块44用于：根据预设规则从文字信息中提取关键词；从曲库中查找与关键词匹配的目标音乐。

可选地，歌词分割模块44用于：根据预设规则将文字信息分割成一个或者多个词组；发送用于提示一个或者多个词组的第一提示信息；接收响应于第一提示信息的第一响应信息，其中，第一响应信息用于携带从一个或者多个词组中选择的一个词组；获取第一响应信息中携带的选择的一个词组作为关键词。

可选地，歌词分割模块44用于：从曲库中查找与关键词相关的音乐；将查找到的音乐按照相关度由高到低地顺序生成音乐列表；发送用于提示音乐列表的第二提示信息；接收响应于第二提示信息的第二响应信息，其中，第二响应信息用于携带从音乐列表中选择的音乐；获取第二响应信息中携带的选择的音乐作为目标音乐。

可选地，音频生成模块48用于：根据目标音乐生成歌曲文件；根据歌曲文件从语音信息中提取目标声音因素生成歌词文件，其中，目标声音因素是携带有录制语音信息的用户的声音特征的声音信息；将歌曲文件和歌词文件融合得到音频文件。

可选地，音频生成模块48用于：获取用户选择的音频参数，其中，音频参数包括以下至少之一：旋律、节拍、曲风、曲调；根据音频参数从目标音乐中截取音乐段落；根据音频参数对音乐段落进行拼接组合，生成歌曲文件。

可选地，音频生成模块48用于：对语音信息进行音素级的分割，得到声音因素集合；根据歌曲文件的特征从声音因素集合中提取目标声音因素；对目标声音因素进行预设操作，生成歌词文件，其中，预设操作包括以下至少之一：切割、重组、延长、拼接。

实施例4

在本实施例中还提供了一种音频制作系统，该系统包括：上述音频制作装置和云端曲库服务器，其中，云端曲库服务器用于存储音乐；音频制作装置还用于从云端曲库服务器查找与文字信息匹配的目标音乐。

可选地，音频制作装置用于：根据预设规则从文字信息中提取关键词；从云端曲库服务器中查找与关键词匹配的目标音乐。

可选地，音频制作装置用于：根据预设规则将文字信息分割成一个或者多个词组；发送用于提示一个或者多个词组的第一提示信息；接收响应于第一提示信息的第一响应信息，其中，第一响应信息用于携带从一个或者多个词组中选择的一个词组；获取第一响应信息中携带的选择的一个词组作为关键词。

可选地，音频制作装置用于：从音频制作装置用于中查找与关键词相关的音乐；将查找到的音乐按照相关度由高到低地顺序生成音乐列表；发送用于提示音乐列表的第二提示信息；接收响应于第二提示信息的第二响应信息，其中，第二响应信息用于携带从音乐列表中选择的一个音乐；获取第二响应信息中携带的选择的一个音乐作为目标音乐。

可选地，音频制作装置用于：根据目标音乐生成歌曲文件；根据语音信息和歌曲文件生成歌词文件；将歌曲文件和歌词文件融合得到音频文件。

可选地，音频制作装置用于：获取用户选择的音频参数，其中，音频参数包括以下至少之一：旋律、节拍、曲风、曲调；根据音频参数从目标音乐中截取音乐段落；根据音频参数对音乐段落进行拼接组合，生成歌曲文件。

可选地，音频制作装置用于：根据歌曲文件对语音信息进行预设操作，生成歌词文件，其中，预设操作包括以下至少之一：切割、重组、延长、拼接。

下面结合本发明可选实施例进行详细说明。

本发明可选实施例提供了一种通过语音识别制作歌曲并由手机终端播出的方法，可以用在语音助手逗趣聊天中或者以独立小应用的形式存在，增加终端设备的人工智能感。

本方法首先通过语音识别将用户输入的“语音内容”(即上述语音信息)通过语音转文字或者语音识别等技术生成对应文本信息，此输出文本作为歌词检索关键词，进行切割或者分割，交给用户进行主题确认，选取出主题语的关键词，例如“Sorry Sorry对不起”，可以切割成三个词，也可以“Sorry Sorry”和“对不起”两个词，用户如果选择歌曲主题是“Sorry Sorry”，那么进入云端词库搜索，进行最大匹配词检测时，输出的曲库匹配就按照Sorry Sorry来进行，可能最大匹配的就是SuperJunior的歌曲《Sorry Sorry》，搜索到的歌曲列表按照匹配相关度由高到低排列。同时提取歌曲列表中的曲风信息，例如：抒情，摇滚，爵士，民歌，或者，语调特征，例如：欢快，悲伤，幽默等特征值分类信息供用户筛选，同时还可以在输出特征值参数中增加语速，伴奏节拍等。用户选择了期望的特征值后，再次将用户原始输入的语音信息进行音素切割，切割的方式可以按照用户的主题选择，提取出用户的主题(即上述关键词)，也可以按照用户选定的歌曲韵律节拍进行语音音素切割，切割完成后，使用音乐复调生成方式重新拼接重组用户输入的语音信息，加入到背景配乐生成的选定歌曲的曲调，并输出生成的歌曲的音频文件，满足用户的个性化创作欲望。

本发明可选实施例还提供了一种音频制作装置，图6是根据本发明可选实施例的音频制作装置的结构框图，如图6所示，该装置包括：录音子系统，音频处理子系统，歌词分割子系统，语音识别子系统，云端曲库服务器。

利用上述音频制作装置生成歌曲包括如下步骤：

第一步，用户通过录音子系统录制用户的声音。

第二步，语音识别子系统解析输出歌词文本信息。

第三步，歌词分割子系统进行文本信息分割组合，供用户选择主题(即上述关键词)。

第四步，经过切割标注的文本内容通过云端曲库进行相关度匹配，输出待选择的歌曲列表。

第五步，用户选定歌曲，并根据主题以及曲风，语速，伴奏节拍等歌曲特征值，进行用户语音信息的音素切割和组合，然后进行音频能量均衡和消噪处理，输出用户个性定制歌曲。

图7是根据本发明可选实施例的音频制作方法的流程图，如图7所示，该流程包括如下步骤：

步骤S701，录音子系统通过终端mic及codec音频进行语音信息输入采集并存储用户语音信息。

步骤S702，语音识别子系统通过语音识别算法将输入语音信息转成文本信息供解析。

步骤S703，歌词切割子系统通过语音识别算法将语音信息转为文本信息并通过语言分词模型算法将文本信息以分词词组的形式提交给用户选择，由用户确认主题(即上述关键词)。

步骤S704，根据用户选择的主题在云端曲库服务器中根据歌词搜索与主题相关的歌曲，并通过相关度高低、歌曲年代流行度等因素综合排序，根据用户选择获取到用户选择的歌曲旋律和节拍信息，切割分段做为背景配乐素材存储。

步骤S705，自动作曲子系统将已提取素材中的主歌和副歌信息，融合用户的曲风选择，节拍模式，调用自动作曲子系统的的复调音乐或者其他音乐生成手法重新拼接组合，自动生成歌曲旋律。将用户原始语音信息按照歌词切割子系统的主题提取方式进行切割，重组，延长，拼接等操作。最终将用户语音信息还原回作曲系统输出的旋律中，生成歌曲。

步骤S706，音频处理子系统，将生成的歌曲进行音量均衡和歌曲背景拼接自然化处理，输出小段带有语音特征的歌曲。

其中，上述步骤S701中的用户语音信息素材是后续步骤S705用户语音切割的素材基础，在切割的过程中最好进行音色背景去噪处理，表现出用户更为干净的原始音色。

步骤S703用户选定主题切割素材文本需和步骤S705的音素切割至少建立一组对应关系，在步骤S705的语音音素切割和重组中必须包含于主题的语音切割方式，且独立对应存储并用复调等自动音律方式突出主题关键字旋律。例如，“Sorry Sorry对不起”，如果用户的主题词选择是“Sorry Sorry”那么一定会存在“Sorry Sorry”语音切割单元。

步骤S703，步骤S704和步骤S705相关用户选择单元都可以设置有默认预置选项，在用户不做选择时，按照自动生成机制或者默认设置机制生成歌曲。

步骤S705语音切割方式可以到音素级，汉语可以声韵母为边界，英语可以到元音辅音音标级边界。按每个音素单元进行音素拖长，叠加，复用，重组等生成，进行音素重新组合输出语音片段。在音素复调生成的同时，可以将最终生成输出的语音排列组合转为文字进行语义基础解析，保证语义不偏离主题，则会更有助于还原用户语音的语境表达。

在本可选实施例中，还提供了一种基于用户使用语音助手的场景下的音频制作方法，该方法包括：用户对语音助手说“今天我好烦”。语音助手在解析到用户倾诉意向之后，可以将用户这句“今天我好烦”，转成一段以“今天我好烦”语音为基础的，配乐节奏按照周华健的歌曲《最近比较烦》的曲风配乐输出的歌曲片段，做为聊天回复播放给用户，以转移用户此时的聊天情绪。

此类歌曲创作也可以移植在用户社交网络输入相关入口中，例如，朋友圈，微博，IM每日签名等，将文字性的社交心情分享转变为含有用户声音元素的语音歌曲。

还可以进行朋友圈主题素材歌曲创作点赞大赛，以一个“G20峰会来杭州”为主题，在杭州G20峰会召开的期间，对杭州的用户推送一个以“G20峰会来杭州”为主题的用户自创意语音歌曲PK赛。

此外，本可选实施例中歌词分割子系统中可以增加语义理解子系统，也可以不进行歌词的切割和用户主题的选择，直接将用户语音进行完整的语义理解解析，然后根据语义理解的结果在曲库中进行最大似然匹配，将输出接近歌曲进行排列，根据用户选择确定曲子基础韵律。

歌词分割和音素重组后形成的分词或者句子仍可以放到语义理解子系统中进行语义校对，语义校对结果即定为歌曲的主题部分。通过上述方案可以减少用户的手动选择和交互环节，便于形成完全自动化的实施方案。

综上所述，通过本发明实施例、可选实施例提供的音频制作方法、装置及系统可以将用户语音的原声音素直接运用于歌曲生成创作的环节，增强了用户在自动谱曲环节中的个人特征的参与感。声音是个体形象的外在标签之一，含有用户声音特征的曲调也更容易在社交氛围中产生互动话题。同时，声音特征本身是用户情感因素的表征手段之一，经过曲调编辑整理后的用户声音可以增加用户本身性格特征之外的情感因素。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

实施例5

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，将录制的语音信息转换为文字信息；

S2，从曲库中查找与文字信息匹配的目标音乐；

S3，将语音信息和目标音乐合成音频文件。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频制作方法，其特征在于，包括：

将录制的语音信息转换为文字信息；

从曲库中查找与所述文字信息匹配的目标音乐；

将所述语音信息和所述目标音乐合成音频文件。

2.根据权利要求1所述的方法，其特征在于，从所述曲库中查找与所述文字信息匹配的音乐包括：

根据预设规则从所述文字信息中提取关键词；

从所述曲库中查找与所述关键词匹配的目标音乐。

3.根据权利要求2所述的方法，其特征在于，根据所述预设规则从所述文字信息中提取所述关键词包括：

根据所述预设规则将所述文字信息分割成一个或者多个词组；

发送用于提示所述一个或者多个词组的第一提示信息；

接收响应于所述第一提示信息的第一响应信息，其中，所述第一响应信息用于携带从所述一个或者多个词组中选择的一个词组；

获取所述第一响应信息中携带的选择的一个词组作为所述关键词。

4.根据权利要求2所述的方法，其特征在于，从所述曲库中查找与所述关键词匹配的所述目标音乐包括：

从所述曲库中查找与所述关键词相关的音乐；

将查找到的音乐按照相关度由高到低地顺序生成音乐列表；

发送用于提示所述音乐列表的第二提示信息；

接收响应于所述第二提示信息的第二响应信息，其中，所述第二响应信息用于携带从所述音乐列表中选择的音乐；

获取所述第二响应信息中携带的选择的音乐作为所述目标音乐。

5.根据权利要求1所述的方法，其特征在于，将所述语音信息和所述目标音乐合成所述音频文件包括：

根据所述目标音乐生成歌曲文件；

根据所述歌曲文件从所述语音信息中提取目标声音因素生成歌词文件，其中，所述目标声音因素是携带有录制所述语音信息的用户的声音特征的声音信息；

将所述歌曲文件和所述歌词文件融合得到所述音频文件。

6.根据权利要求5所述的方法，其特征在于，根据所述目标音乐生成所述歌曲文件包括：

获取用户选择的音频参数，其中，所述音频参数包括以下至少之一：旋律、节拍、曲风、曲调；

根据所述音频参数从所述目标音乐中截取音乐段落；

根据所述音频参数对所述音乐段落进行拼接组合，生成所述歌曲文件。

7.根据权利要求6所述的方法，其特征在于，根据所述歌曲文件从所述语音信息中提取所述目标声音因素生成所述歌词文件包括：

对所述语音信息进行音素级的分割，得到声音因素集合；

根据所述歌曲文件的特征从所述声音因素集合中提取所述目标声音因素；

对所述目标声音因素进行预设操作，生成所述歌词文件，其中，所述预设操作包括以下至少之一：切割、重组、延长、拼接。

8.一种音频制作装置，其特征在于，包括：

转换模块，用于将录制的语音信息转换为文字信息；

查找模块，用于从曲库中查找与所述文字信息匹配的目标音乐；

合成模块，用于将所述语音信息和所述目标音乐合成音频文件。

9.一种音频制作装置，其特征在于，包括：

语音识别模块，用于将录制的语音信息转换为文字信息；

歌词分割模块，用于从曲库中查找与所述文字信息匹配的目标音乐，并根据所述目标音乐对所述语音信息进行预设操作，生成歌词文件，其中，所述预设操作包括以下至少之一：切割、重组、延长、拼接；

作曲模块，用于根据所述目标音乐生成歌曲文件；

音频生成模块，用于将所述歌词文件和所述歌曲文件合成音频文件。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

录音模块，用于录制所述语音信息。

11.一种音频制作系统，其特征在于，包括：如权利要求9或10所述的音频制作装置和云端曲库服务器，其中，

所述云端曲库服务器用于存储音乐；

所述音频制作装置从所述云端曲库服务器查找与文字信息匹配的目标音乐。