CN110415677B

CN110415677B - 音频生成方法和装置及存储介质

Info

Publication number: CN110415677B
Application number: CN201810387683.9A
Authority: CN
Inventors: 潘伟洲
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2023-07-14
Anticipated expiration: 2038-04-26
Also published as: CN110415677A

Abstract

本发明公开了一种音频生成方法和装置及存储介质。其中，该方法包括：将参考音频中的当前段音符输入到音频生成模型中；在将当前段音符输入到音频生成模型中的过程中，获取到输入设备输入的当前操作信息，其中，当前操作信息用于调整音频生成模型中的音频生成参数，音频生成参数用于生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数，将当前操作信息和当前段音符输入到音频生成模型中；通过音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数。本发明解决了由于采用简单拼凑现有素材以生成音频的方式而导致的所生成的音频文件的内容较单一的技术问题。

Description

音频生成方法和装置及存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种音频生成方法和装置及存储介质。

背景技术

目前，通过以下方式自动生成音频：用户输入触发信息；根据用户输入的触发信息从素材库中筛选备用音频段，对备用音频段进行拼凑，生成音频文件。然而，由于上述生成音频的方式，仅是对现有素材的简单拼凑，从而导致所生成的音频文件内容较单一。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频生成方法和装置及存储介质，以至少解决由于采用简单拼凑现有素材以生成音频的方式而导致的所生成的音频文件的内容较单一的技术问题。

根据本发明实施例的一个方面，提供了一种音频生成方法，包括：将参考音频中的当前段音符输入到音频生成模型中；在将所述当前段音符输入到所述音频生成模型中的过程中，获取到输入设备输入的当前操作信息，其中，所述当前操作信息用于调整所述音频生成模型中的音频生成参数，所述音频生成参数用于生成目标音频中与所述当前段音符对应的目标段音符以及所述目标段音符的播放参数；将所述当前操作信息和所述当前段音符输入到所述音频生成模型中；通过所述音频生成模型生成所述目标音频中与所述当前段音符对应的目标段音符以及所述目标段音符的播放参数。

根据本发明实施例的另一方面，还提供了一种音频生成装置，包括：第一输入单元，用于将参考音频中的当前段音符输入到音频生成模型中；获取单元，用于在将所述当前段音符输入到所述音频生成模型中的过程中，获取到输入设备输入的当前操作信息，其中，所述当前操作信息用于调整所述音频生成模型中的音频生成参数，所述音频生成参数用于生成目标音频中与所述当前段音符对应的目标段音符以及所述目标段音符的播放参数；第二输入单元，用于将所述当前操作信息和所述当前段音符输入到所述音频生成模型中；生成单元，用于通过所述音频生成模型生成所述目标音频中与所述当前段音符对应的目标段音符以及所述目标段音符的播放参数。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述方法。

在本发明实施例中，采用音频生成模型对参考音频文件进行学习的方式，通过将参考音频中的当前段音符输入到音频生成模型中，在将当前段音符输入到音频生成模型中的过程中，获取到输入设备输入的当前操作信息，其中，当前操作信息用于调整音频生成模型中的音频生成参数，音频生成参数用于生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数，将当前操作信息和当前段音符输入到音频生成模型中，以生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放速度，由于采用音频生成模型对参考音频文件进行学习，并通过输入设备输入的当前操作信息调整音频生成模型中的音频生成参数，达到了生成新的音频文件的目的，从而实现了提高音频文件内容丰富度的技术效果，进而解决了由于采用简单拼凑现有素材以生成音频的方式而导致的所生成的音频文件的内容较单一的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种音频生成方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的音频生成方法的流程示意图；

图3是根据本发明实施例的一种可选的RNN网络结构的结构示意图；

图4是根据本发明实施例的一种可选的数据采集的示意图；

图5是根据本发明实施例的一种可选的音频生成方法的流程示意图；

图6是根据本发明实施例的一种可选的音频生成装置的结构示意图；

图7是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种虚拟场景中的音频生成方法。可选地，上述虚拟场景中的音频生成方法可以但不限于应用于如图1所示的应用环境中。如图1所示，用户终端102可以通过从本地获取的方式或者通过网络104向服务器106中请求的方式选择参考音频，该参考音频中包含当前段字符。

对于本地获取的方式，参考音频可以是本地下载或者缓存的音频。可以通过但不限于以下方式生成音频：

1)用户终端102将参考音频中的当前段音符输入到音频生成模型中；在将当前段音符输入到音频生成模型中的过程中，获取到输入设备输入的当前操作信息，其中，当前操作信息用于调整音频生成模型中的音频生成参数，音频生成参数用于生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数；将当前操作信息和当前段音符输入到音频生成模型中；通过音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数。

可选地，生成目标段音符以及目标段音符的播放参数之后，用户终端102还可以将生成的目标段音符按照目标段音符的播放参数进行播放。

2)用户终端102将参考音频的当前段音符，或者将参考音频的当前段音符以及获取的输入设备输入的当前操作信息一起传输给服务器106，由服务器106将接收到的当前段音符，或者当前段音符以及当前操作信息一起输入到音频生成模型中，其中，当前操作信息用于调整音频生成模型中的音频生成参数，音频生成参数用于生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数；服务器106通过该音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数。

可选地，生成目标段音符以及目标段音符的播放参数之后，服务器106可以将生成目标段音符以及目标段音符的播放参数发送给用户终端102，用户终端102将目标段音符按照目标段音符的播放参数进行播放。

对于从服务器106获取的方式，参考音频可以是服务器106本地存储的音频，或者从数据库108中获取的音频。可以通过但不限于以下方式生成音频：

1)服务器106将参考音频的当前段音符，或者参考音频的当前段音符以及由用户终端102接收的输入设备输入的当前操作信息，输入到音频生成模型中，其中，当前操作信息用于调整音频生成模型中的音频生成参数，音频生成参数用于生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数；服务器106通过该音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数。

可选地，在本实施例中，上述用户终端102可以包括但不限于以下至少之一：手机、平板电脑、PC机等。上述网络可以包括但不限于无线网络，其中，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述天气服务器可以包括但不限于以下至少之一：PC机及其他用于提供服务的设备。上述只是一种示例，本实施例对此不做任何限定。

可选地，在本实施例中，作为一种可选的实施方式，如图2所示，上述音频生成方法可以包括：

S202，将参考音频中的当前段音符输入到音频生成模型中；

S204，在将当前段音符输入到音频生成模型中的过程中，获取到输入设备输入的当前操作信息，其中，当前操作信息用于调整音频生成模型中的音频生成参数，音频生成参数用于生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数；

S206，将当前操作信息和当前段音符输入到音频生成模型中；

S208，通过音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数。

可选地，上述方法可以但不限于使用电脑操作生成音乐的过程。例如应用于影视作品中背景音乐的生成过程中，或者游戏音乐的生成过程中。以上只是一种示例，本实施例对此不作任何限定。

需要说明的是，在相关技术中，自动生成音频通过对现有素材的简单拼接来实现。而采用该方法，生成的音频文件的内容较为单一。而在本申请中，通过音频生成模型对参考音频文件进行学习，在获取输入设备输入的当前操作信息的情况下，通过输入设备输入的当前操作信息调整音频生成模型中的音频生成参数，从而生成新的音频文件，以提高提高音频文件内容丰富度，进而解决了相关技术中由于简单拼凑现有素材造成的生成音频的方式存在生成的音频文件内容单一的问题。

可选地，在本实施例中，将参考音频中的当前段音符输入到音频生成模型中。

可选地，参考音频可以是由用户指定的音频midi(musical instrument digitalinterface，乐器的数字换接口)，指定参考音频的方式可以包括但不限于以下之一：

1)从终端的本地选取音频midi，例如，从音频生成界面中选取本地音频文件；

2)指定与参考音频对应的关联信息，该关联信息与终端缓存区、服务器或者数据中的存储的音频文件对应，例如，从音频生成界面中选取与参考音频对应的链接，该链接与终端缓存区、服务器或者数据中的存储的音频文件对应。

可选地，该参考音频可以包含多段音符，输入该音频生成模型的可以是参考音频的全部音符，也可以是参考音频的一段或多段音符。参考音频的输入可以是连续的，也可以是不连续的，将参考音频中连续的或者不连续的几段音符输入到音频生成模型中，而未输入的一段或几段音符直接添加到目标音频中，作为目标音频的对应段音符。

例如，参考音频可以包含4段音符，可以将4段音符连续输入到音频生成模型中。相应地，在目标音频中包含4段音符均为由音频生成模型生成的目标段音符。也可以选择第1段和第3段输入到音频生成模型中。相应地，在目标音频中包含4段音符中，第1段和第3段为由模型生成的目标段音符，而第2段和第4段音符为参考音频中的第2段和第4段音符。

可选地，该音频生成模型的输入可以为参考音频，输出为目标音频；该音频生成模型的输入还可以为参考音频中的一段或几段音符，输出为目标音频中对应的一段或几段音符。

可选地，音频生成模型可以包括多个部分，不同部分可以用于生成与当前段音频对应的目标音频中的不同参数，例如，目标段音符，目标段音符的播放参数。

可选地，音频生成模型可以包括两部分：

(1)第一部分用于将输入序列编码(当前段音符)为一个固定长度的输出序列，该输出序列对应于预设音符组中的各预设音符为目标段音符中的音符的概率值；

(2)第二部分用于根据第一部分的输出序列以及一个或多个音频生成参数，确定用于生成目标段音符以及目标段音符的播放参数。一个或多个音频生成参数包括但不限于：根据当前操作信息进行调整的参数，采用系统默认值的参数，采用当前段音频中的播放参数值的参数。

例如，根据输出序列和与第一输入参数的第一值，确定目标段音符中出现的一个或多个音符：确定输出序列中大于或等于第一值的一个或多个元素值所对应的一个或多个音符，目标段音符中包含一个或多个音符；目标段音符的播放参数包括：与一个或多个其他输入参数对应的播放参数。

具体结合以下示例进行说明。在本示例中，第一部分为：使用基于二轴贝叶斯时间递归神经网络(Recurrent Neural Networks，简称为RNN)的音乐生成方法进行训练的数据模型。

递归神经网络将输入序列

编码为一个固定长度的隐藏状态/>

(预设音符组中的各预设音符在目标段音符中出现的概率)，这里有：

1)

是输入序列，比如编码为数字的一系列音符，整个序列就是完整的乐曲(参考音频的当前段音符)。

2)

是随时间更新的隐藏状态。当新的音符输入到模型中，之前的状态

就转换为和当前输入x_t相关的/>

，距离当前时间越长，越早输入的序列，在更新后的状态中所占权重越小，从而表现出时间相关性。

以图3的所示RNN拓扑结构为例进行说明。在该拓扑结构中，前两个隐层在时间轴上存在连接和数据传递，后两个隐层在音符轴上存在连接。通过训练这样的网络，可以生成随时间演变的旋律。用户只需从已有曲库中选择任意一首midi音乐，系统对这首midi音乐进行解析，把每一个时间步长的音符作为输入层，并预测接下来的时间步长中每个音符被播放的概率。

以上仅是一种示例，本实施例中对音频生成模型不做任何限定，所有可以根据参考音频的当前音符，生成与当前段音符对应的目标段音符以及目标段音符的播放参数(从而生成目标段音频)，均可用于本实施例的音频生成方法中。

可选地，在本实施例中，在将参考音频输入到当前段音符输入到音频生成模型中的过程，生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数的方法可以包括但不限于以下之一：

1)在获取输入设备输入的当前操作信息的情况下，将当前操作信息和当前段音符输入到音频生成模型中，其中，当前操作信息用于调整音频生成模型中的音频生成参数，音频生成参数用于生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数。通过音频生成模型生成目标音频中与当前段音符对应的目标段音符及目标段音符的播放参数。

可选地，输入设备可以是与终端连接的、可用于进行输入的设备。上述输入设备可以包括但不限于：鼠标，键盘、手柄等，输入设备与终端的连接方式可以包括但不限于：有线连接，无线连接。上述无线连接可以包括但不限于：蓝牙、WIFI、infrared(IrDA)、ZigBee等。

可选地，可以通过音频生成设备的捕获器获取输入设备的当前操作信息。捕获器可以是在音频生成设备开机期间一直开启，也可以是条件触发的开启，开启的条件可以包括但不限于：开始生成音频(例如，点击与音频生成所对应的客户端界面上的“开始”按钮)，用于开启捕获器的按钮被点击。输入设备的当前操作信息用于指示输入设备的当前操作的操作信息，可以包括但不限于：当前操作的频率、当前操作的力度。对于键盘，当前操作信息可以是：当前操作的操作频率、当前操作对应的操作频率、键值、键的组合等，对于鼠标，当前操作信息可以包括：鼠标操作的频率、摆动幅度、摆动方向等。

可选地，同一输入设备输入的当前操作信息可以是一种或多种，不同输入设备输入的当前操作信息可以用于控制不同的音频生成参数。音频生成参数可以包括但不限于：

1)音符参数：用于指定目标段音符中包含的音符；

2)阈值参数(音符概率阈值θ)，用于指定被播放的音符需满足的概率最低值，也就是，用于指定包含在目标段音符中的音符需满足的概率最低值。当θ值越低，则该目标段音符中包含的音符越多，音符丰富度越高，和弦越复杂；当θ越高，则目标段音符中包含的音符越少，音符丰富度越低，和弦越简单。

对于每个音符出现的概率，可以根据当前段音符中出现的音符，以及参考音符中在当前段音符之前的一段或多段音符进行确定；

3)速度参数，用于调整音符的播放速度，对于目标段音符中的各音符以及不同段音符中的各音符，其播放速度可以相同，也可以不同。midi格式中的每个音符均允许设定速度值以控制其播放速度。

4)音调参数，用于调整音符的播放音调，对于目标段音符中的各音符以及不同段音符中的各音符，其播放音调可以相同，也可以不同。

5)音量参数，用于调整音符的播放音量，对于目标段音符中的各音符以及不同段音符中的各音符，其播放音量可以相同，也可以不同。

此外，对于其他可以用于生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数的音频生成参数，均可通过当前操作信息进行调节。

可选地，在将当前段音符输入到音频生成模型中的过程中，获取到的输入设备的当前操作信息值可以是多个，即，通过多个输入设备同时调整音频生成参数。不同的输入设备可以用于调整音频生成模型中不同的音频生成参数。

可选地，将当前操作信息和当前段音符输入到音频生成模型中的方式可以是两者同步输入：将当前操作信息伴随着当前段音符一起输入到音频生成模型中；也可以是异步输入：先输入当前段音符，再输入当前操作信息。具体的输入方式，本实施例对此不做任何限定。

可选地，在本实施例中，通过音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数包括：将音频生成参数的取值调整到与当前操作信息对应的第一目标值，其中，第一目标值包括第一值和第二值；通过音频生成模型获取目标段音符中与第一值对应的音符，以及与第二值对应的播放参数，其中，播放参数用于播放与第一值对应的音符，目标段音符包括与第一值对应的音符，目标段音符的播放参数包括与第二值对应的播放参数。

可选地，在音频生成模型中，音频生成参数具有默认的音频生成参数的取值，例如，该默认值可以是系统指定的值，也可以是与参考音频的当前段音符及当前段音频的播放参数所对应的值。

可选地，在获取输入设备输入的当前操作信息的情况下，将音频生成参数的取值调整到与当前操作信息对应的第一目标值，第一目标值包括第一值和第二值。第一值用于确定目标段音符中包含的一个或多个音符。目标段音符包括与第一值对应的音符。该第一值可以包括但不限于：

1)用于指定目标段音符中包含的字符个数的整数值n，通过该整数值从预设音符组中选择n个字符，选择的依据为：预设音符组中各音符为目标段音符中的音符的概率最大的n个字符(按照概率值进行排序，取前n个概率值对应的音符)。

可选地，预设音符组可以是全音符、二分音符、四分音符、八分音符、十六分音符，也可是七音符，或者是上述音符中的多个。对于设音符组中的各预设音符，其在设音符组中的各预设音符是不同的。

例如，第一值为3，预设音符组中包含7个音符，各音符为目标段音符中的音符的概率为[0.1,0.8,0.3,0.2,0.75,0.6,0.5]，则目标段音符包括的音符为：第二个音符、第五个音符和第七个音符。

2)用于指定目标段音符中包含的字符满足的出现概率最小值，通过该概率最小值，从预设音符组中选择出现概率大于或等于该概率最小值的音符，作为目标段音符中的音符。

可选地，在本实施例中，通过音频生成模型获取目标段音符中与第一值对应的音符包括：通过音频生成模型获取预设音符组中的音符为目标段音符中的音符的目标概率值；从预设音符组中获取目标概率值大于或等于第一值的一个或多个目标音符，其中，与第一值对应的音符包括一个或多个目标音符。

例如，第一值为0.7，预设音符组中包含7个音符，各音符为目标段音符中的音符的概率为[0.1,0.8,0.3,0.2,0.75,0.6,0.9]，则目标段音符包括的音符为：第二个音符、第五个音符和第七个音符。

可选地，在本实施例中，通过音频生成模型获取与第二值对应的播放参数包括：通过音频生成模型，获取与第二值对应的音符播放速度。

上述第二值用于设定目标段音符的播放参数中的一个播放参数。播放参数可以包括但不限于：字符的播放速度，字符的播放音调，字符的播放响度等。例如，第二值与目标段音符的播放速度对应。通过音频生成模型，可以获取与第二值对应的音符播放速度。

可选地，在本实施例中，将音频生成参数的取值调整到与当前操作信息对应的第一目标值包括：将音符概率阈值的取值调整到与第一操作信息对应的第一值，并将音符播放速度的取值调整到与第二操作信息对应的第二值，其中，音频生成参数包括音符概率阈值和音符播放速度，当前操作信息包括第一操作信息和第二操作信息，第一操作信息由第一输入设备输入，第二操作信息由第二输入设备输入，输入设备包括第一输入设备和第二输入设备。

可选地，通过两个输入设备分别对音频生成参数中的音符概率阈值和音符播放速度进行控制：第一输入设备输入的第一操作信息用于调整音符概率阈值，第二输入设备输入的第二操作信息用于调整音符播放速度。第一输入设备与第二输入设备可以是相同种类的设备，也可以是不同种类的设备。

可选地，对于不同类型的操作信息，调整音频生成参数的方式可以是不同的。例如，第一操作信息所指示的第一输入设备的操作频率越高(越低)，第一值越小(越大)，或者，第一操作信息所指示的第一输入设备的操作频率越低(越高)，第一值越小(越大)。第二控制信息对第二值的调整方式与此类似。

例如，第一输入设备为鼠标，通过鼠标操作的频率，调整音符概率阈值：鼠标操作的频率越高，音符概率阈值越小；第二输入设备为键盘，通过键盘操作的频率，调整音符播放速度：鼠标操作的频率越高，音符播放速度值越大。

2)在未获取到输入设备输入的当前操作信息的情况下(可以是执行获取操作但是未获取到，也可以是不执行获取操作)，将参考音频中的当前段音频输入到音频生成模型中，其中，当前段音频包括当前段音符以及当前段音符的播放参数。

可选地，输入到音频生成模型的数据为当前段音频，当前段音频中包含当前段音符以及当前段音符的播放参数。在输入当前段音频之后，可以获取当前段音频中的以下参数：当前段音符以及当前段音符的播放参数，播放参数可以包括但不限于：当前段音符的播放速度、音调、响度等。

可选地，通过音频生成模型获取与当前段音符对应的目标段音符，以及目标段音符的播放参数。

当前段音符对应的目标段音符的音符可以包括但不限于以下之一：

1)与目标阈值对应的音符，该目标阈值为音频生成模型中预设的参数值。

2)与当前段音符包含的音符个数对应的音符。

可选地，目标段音符的播放参数包括但不限于：当前段音符的播放参数。可以但不限于通过以下方式获取目标段音符的播放参数：

1)将目标段音符的播放参数中与当前段音符的播放参数对应的参数的值设置为：当前段音符的播放参数的参数值；对于目标段音符的播放参数中当前段音符的播放参数中没有的播放参数，可以根据模型中默认的值设置目标段音符的播放参数的参数值。

2)根据模型中默认的值设置目标段音符的播放参数的参数值。

可选地，在本实施例中，通过音频生成模型获取与目标阈值对应的音符包括：通过音频生成模型获取预设音符组中的音符为目标段音符中的音符的目标概率值；从预设音符组中获取目标概率值大于或等于目标阈值的一个或多个目标音符，其中，目标段音符中与目标阈值对应的音符包括一个或多个目标音符。

可选地，预设音符组可以是全音符、二分音符、四分音符、八分音符、十六分音符，也可是七音符，或者是上述音符中的多个。对于预设音符组中的各预设音符，其在设音符组中的各预设音符是不同的。

例如，目标阈值为0.7，预设音符组中包含7个音符，各音符为目标段音符中的音符的概率为[0.1,0.8,0.3,0.2,0.75,0.6,0.9]，则目标段音符包括的音符为：第二个音符、第五个音符和第七个音符。

可选地，在本实施例中，在通过音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数之后，终端可以按照目标段音符的播放参数播放目标段音符。

可选地，目标段音符可以是在终端的本地生成的，也可以是从服务器侧接收的。对于目标段音符的播放，可以通过目标段音符生成之后立即播放的方式进行播放，也可以通过目标音频中的所有段音符均生成以后再进行播放的方式进行方式，或者两者组合的方式进行播放(生成多段音符后进行播放，在生成多段后进行播放)。以上仅是一种示例，本实施例中对此不进行限定。

可选地，在根据参考音频生成目标音频之后，可以以参考音频，或者，生成的目标音频，或者，参考音频和生成的目标音频的组合，作为参考音频，重新输入到音频生成模型中，从而得到新的目标音频，进而实现连续不断生成音频的目的。

通过本实施例，采用音频生成模型对参考音频文件进行学习，并通过输入设备输入的当前操作信息调整音频生成模型中的音频生成参数，从而实现根据参考音频生成新的目标音频的目的，以提高音频文件内容丰富度。

作为一种可选的方案，通过音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数包括：

S1，将音频生成参数的取值调整到与当前操作信息对应的第一目标值，其中，第一目标值包括第一值和第二值；

S2，通过音频生成模型获取与第一值对应的音符，以及与第二值对应的播放参数，其中，播放参数用于播放与第一值对应的音符，目标段音符包括与第一值对应的音符，目标段音符的播放参数包括与第二值对应的播放参数。

可选地，将音频生成参数的取值调整到与当前操作信息对应的第一目标值包括：

S11，将音符概率阈值的取值调整到与第一操作信息对应的第一值，并将音符播放速度的取值调整到与第二操作信息对应的第二值，其中，音频生成参数包括音符概率阈值和音符播放速度，当前操作信息包括第一操作信息和第二操作信息，第一操作信息由第一输入设备输入，第二操作信息由第二输入设备输入，输入设备包括第一输入设备和第二输入设备。

可选地，第一操作信息所指示的第一输入设备的操作频率越高，第一值越小；第二操作信息所指示的第二输入设备的操作频率越高，第二值越大。

可选地，通过音频生成模型获取目标段音符中与第一值对应的音符包括：

S21，通过音频生成模型获取预设音符组中的音符为目标段音符中的音符的目标概率值；

S22，从预设音符组中获取目标概率值大于或等于第一值的一个或多个目标音符，其中，与第一值对应的音符包括一个或多个目标音符。

可选地，通过音频生成模型获取与第二值对应的播放参数包括：

S23，通过音频生成模型，获取与第二值对应的音符播放速度。

通过本实施例，通过输入设备的当前操作信息，分别调整用于选取目标段音符的音频生成参数，以及目标段音符的播放参数，可以根据用户的操作改变目标段音符的丰富度和播放参数，提高了用户对音频生成控制的灵活度。进一步地，通过调整音符概率阈值，调整目标段音符的丰富，提高了用户对音频丰富度控制的灵活性。进一步地，通过第二值控制音符的播放速度，提高了用户对音频节拍控制的灵活性。进一步地，通过两个输入设备同时输入分别控制音符概率阈值和音符播放速度，音频生成参数的调整更加准确，提高了用户对音频生成控制的准确性。

作为一种可选的方案，将参考音频中的当前段音符输入到音频生成模型中包括：

S1，将参考音频中的当前段音频输入到音频生成模型中，其中，当前段音频包括当前段音符以及当前段音符的播放参数；

在将当前段音符输入到音频生成模型中的过程中，通过音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数包括：

S2，在未获取到输入设备输入的当前操作信息的情况下，通过音频生成模型获取与目标阈值对应的音符，以及目标段音符的播放参数，其中，目标段音符包括与目标阈值对应的音符，目标段音符的播放参数包括当前段音符的播放参数。

可选地，通过音频生成模型获取与目标阈值对应的音符包括：

S1，通过音频生成模型获取预设音符组中的音符为目标段音符中的音符的目标概率值；

S2，从预设音符组中获取目标概率值大于或等于目标阈值的一个或多个目标音符，其中，目标段音符中与目标阈值对应的音符包括一个或多个目标音符。

通过本实施例，通过当前段音频中的当前段音符和当前段音符的播放参数，以及音频生成模型中的目标阈值，获取与目标阈值对应的音符，以及目标段音符的播放参数，从而可以根据参考音频生成新的目标段音频(包括：目标段音符以及目标段音符的播放参数)，而不是对参考音频的直接重复或调整，从而提高了音频生成的多样性，提高用户体验。

作为一种可选的实施方案，上述方法还包括：

S1，在通过音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数之后，按照目标段音符的播放参数播放目标段音符。

通过本实施例，通过将目标段音符按照目标段音符的播放参数进行播放，从而向用户提供生成的目标段音频，从而提高了播放音频的丰富度。

作为一种可选的方案，音频生成参数包括音符概率阈值和音符播放速度，当前操作信息包括第一操作信息和第二操作信息，第一操作信息由第一输入设备输入，第二操作信息由第二输入设备输入，输入设备包括第一输入设备和第二输入设备；其中，第一输入设备为键盘，第二输入设备为鼠标；或者，第一输入设备为鼠标，第二输入设备为键盘。

通过本实施例，通过鼠标和键盘为音频生成模型提供操作信息的输入，从而能够支持PC外设，提高对现有设备的兼容性。

具体结合以下示例对本实施例中的音频生成方法进行说明。在本示例中，终端(应用音频生成方法的装置)为PC机。参考音频为从曲库中选择的歌曲midi(选定音乐)，该歌曲可以是任意一首用户喜爱的歌曲，目标音频为根据参考音频生成的音乐(同风格的音乐)。通过音频生成模型对用户选择的歌曲进行学习，可以生成相似风格的旋律。

音频生成模型中包括：通过RNN音乐生成方法训练的音乐生成模型(参数化生成模型)，该音乐生成模型的输入为：选择歌曲中的各音符，输出为预设音符组(包括七个音符)中各音符出现的概率。

音乐合成阶段，设定两个参数值用于控制音乐合成：

1)速度值(velocity，控制音符播放速度)，midi格式中的每个音符均允许设定速度值以控制其播放速度；

2)音符概率阈值θ，用于指定被播放的音符需满足的概率最低值。当θ值越低，则该时间步长里的音符(目标段音符)丰富度越高，和弦越复杂；当θ越高，则该时间步长里的的音符丰富度越低，和弦越简单。

在PC机上设置有两个外设：键盘和鼠标，以及一个用于获取鼠标、键盘操作的捕获器(如图4所示)。对键盘、鼠标所执行的操作可以被该操作捕获器捕获。在PC机上使用捕获器捕获用户对鼠标和键盘的操作情况，已采集频度信息。采集到的键盘、鼠标的控制频度，可以作为该音乐合成阶段的输入，控制速度值和θ取值，从而达到调整节拍和丰富度的目的。

更具体地，键盘和鼠标的操作频度分别对应控制音乐生成的节拍和丰富度。用户操作键盘的频度越高，速度值越大，音乐节拍越轻快，则生成越激昂有力的音乐；用户的操作频度越低，速度值越小，音乐节拍越柔和，则生成越轻柔的音乐。用户操作鼠标的频度越高，θ值越小，音乐越丰富，则生成和弦越多的音乐；用户的操作鼠标的频度越低，θ值越大，音乐越简单，则生成和弦越少的音乐。

下面对本示例中的音频生成方法进行说明。如图5所示，该音频生成方法包括以下步骤：

S1，接收选定的音乐(参考音频)；

S2，通过终端中的实时音乐生成系统(与音频生成模型对应)实时生成与选定的音乐同风格的音乐，得到音乐的参数化生成模型；

S3，在生成同风格音乐的过程中，通过操作捕获器实时捕获对键盘和鼠标的操作，得到键盘操作频度和鼠标操作频度；

S4，根据键盘操作频度和鼠标操作频度，调整参数化生成模型中的速度值和音符概率阈值，从而生成midi音乐；

S5，将生成的音乐进行输出。

本示例中的音频生成方法，可以根据用户的喜好谱写同类风格且不重复的音乐，且能够配合用户的当前操作控制音乐的节拍和丰富度，有利于缓解压力，提高工作效率。生成的音乐不是简单的素材拼接或对已有旋律的直接调整，而是根据选定的任意一首歌曲不断生成风格类似的音乐。

通过本示例，可以达到以下技术效果：

1)允许用户指定喜爱的歌曲midi，之后对该歌曲的旋律进行学习，并不断生成风格相似的新的旋律midi，而不是对已有音乐素材的重复或调整，提高了歌曲内容丰富度；

2)输入数据来自用户键盘和鼠标的操作，从而支持PC外设；

3)通过机器学习算法训练得到参数化的歌曲生成模型，可实时根据用户的操作改变歌曲的节拍和丰富度，提高了歌曲的自然度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述音频生成方法的音频生成装置，如图6所示，该装置包括：

(1)第一输入单元62，用于将参考音频中的当前段音符输入到音频生成模型中；

(2)获取单元64，用于在将当前段音符输入到音频生成模型中的过程中，获取到输入设备输入的当前操作信息，其中，当前操作信息用于调整音频生成模型中的音频生成参数，音频生成参数用于生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数；

(2)第二输入单元66，用于将当前操作信息和当前段音符输入到音频生成模型中；

(3)生成单元68，用于通过音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数。

可选地，上述音频生成装置可以但不限于使用电脑操作生成音乐的过程。例如应用于影视作品中背景音乐的生成过程中，或者游戏音乐的生成过程中。以上只是一种示例，本实施例对此不作任何限定。

可选地，参考音频可以是由用户指定的音频midi，指定参考音频的方式可以包括但不限于以下之一：

可选地，音频生成模型可以包括两部分：

1)在获取输入设备输入的当前操作信息的情况下，将当前操作信息和当前段音符输入到音频生成模型中，其中，当前操作信息用于调整音频生成模型中的音频生成参数，音频生成参数用于生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数。通过音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数。

可选地，输入设备可以是与终端连接的、可用于进行输入的设备。上述输入设备可以包括但不限于：鼠标，键盘、手柄等，输入设备与终端的连接方式可以包括但不限于：有线连接，无线连接。上述无线连接可以包括但不限于：蓝牙、WIFI、IrDA、ZigBee等。

1)音符参数：用于指定目标段音符中包含的音符；

上述第二值用于设定目标段音符的播放参数中的一个播放参数。播放参数可以包括但不限于：字符的播放速度，字符的播放音调，字符的播放响度等。

2)与当前段音符包含的音符个数对应的音符。

作为一种可选的方案，生成单元68包括：

(1)调整模块，用于将音频生成参数的取值调整到与当前操作信息对应的第一目标值，其中，第一目标值包括第一值和第二值；

(2)第一获取模块，用于通过音频生成模型获取与第一值对应的音符，以及与第二值对应的播放参数，其中，播放参数用于播放与第一值对应的音符，目标段音符包括与第一值对应的音符，目标段音符的播放参数包括与第二值对应的播放参数。

可选地，第一获取模块包括：

(1)第一获取子模块，用于通过音频生成模型获取预设音符组中的音符为目标段音符中的音符的目标概率值；

(2)第二获取子模块，用于从预设音符组中获取目标概率值大于或等于第一值的一个或多个目标音符，其中，与第一值对应的音符包括一个或多个目标音符。

可选地，获取模块包括：

第三获取子模块，用于通过音频生成模型，获取与第二值对应的音符播放速度。

可选地，调整模块包括：

调整子模块，用于将音符概率阈值的取值调整到与第一操作信息对应的第一值，并将音符播放速度的取值调整到与第二操作信息对应的第二值，其中，音频生成参数包括音符概率阈值和音符播放速度，当前操作信息包括第一操作信息和第二操作信息，第一操作信息由第一输入设备输入，第二操作信息由第二输入设备输入，输入设备包括第一输入设备和第二输入设备。

作为一种可选的方案，可选地，第一输入单元62包括：

输入模块，用于将参考音频中的当前段音频输入到音频生成模型中，其中，当前段音频包括当前段音符以及当前段音符的播放参数；

生成单元68包括：

第二获取模块，用于在将当前段音符输入到音频生成模型中的过程中，在未获取到输入设备输入的当前操作信息的情况下，通过音频生成模型获取与目标阈值对应的音符，以及目标段音符的播放参数，其中，目标段音符包括与目标阈值对应的音符，目标段音符的播放参数包括当前段音符的播放参数。

可选地，第二获取模块包括：

第四获取子模块，用于通过音频生成模型获取预设音符组中的音符为目标段音符中的音符的目标概率值；

第五获取子模块，用于从预设音符组中获取目标概率值大于或等于目标阈值的一个或多个目标音符，其中，目标段音符中与目标阈值对应的音符包括一个或多个目标音符。

作为一种可选的实施方案，上述装置还包括：

播放单元，用于在通过音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数之后，按照目标段音符的播放参数播放目标段音符。

作为一种可选的实施方案，获取单元64通过以下方式获取到输入设备输入的当前操作信息：

通过音频生成装置的捕获器获取到输入设备输入的当前操作信息。

通过本实施例，通过捕获器获取输入设备输入的当前操作信息，可以获取输入设备的输入情况，从而为生成音频提供信息。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，将参考音频中的当前段音符输入到音频生成模型中；

S2，在将当前段音符输入到音频生成模型中的过程中，获取到输入设备输入的当前操作信息，其中，当前操作信息用于调整音频生成模型中的音频生成参数，音频生成参数用于生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数；

S3，将当前操作信息和当前段音符输入到音频生成模型中；

S4，通过音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数。

S2，从预设音符组中获取目标概率值大于或等于第一值的一个或多个目标音符，其中，与第一值对应的音符包括一个或多个目标音符。

S1，通过音频生成模型，获取与第二值对应的音符播放速度。

S1，将音符概率阈值的取值调整到与第一操作信息对应的第一值，并将音符播放速度的取值调整到与第二操作信息对应的第二值，其中，音频生成参数包括音符概率阈值和音符播放速度，当前操作信息包括第一操作信息和第二操作信息，第一操作信息由第一输入设备输入，第二操作信息由第二输入设备输入，输入设备包括第一输入设备和第二输入设备。

第一操作信息所指示的第一输入设备的操作频率越高，第一值越小；第二操作信息所指示的第二输入设备的操作频率越高，第二值越大。

在通过音频生成模型生成目标音频中与当前段音符对应的目标段音符以及目标段音符的播放参数之后，按照目标段音符的播放参数播放目标段音符。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

根据本发明实施例的又一个方面，还提供了一种用于实施上述音频生成方法的电子装置，如图7所示，该电子装置包括：处理器702、存储器704、显示器706、用户接口708、传输装置710及播放装置712等。该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，将参考音频中的当前段音符输入到训练好的音频生成模型中；

S3，将当前操作信息和当前段音符输入到音频生成模型中；

可选地，本领域普通技术人员可以理解，图7所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图7中所示更多或者更少的组件(如网络接口等)，或者具有与图7所示不同的配置。

其中，存储器704可用于存储软件程序以及模块，如本发明实施例中的音频生成方法和装置对应的程序指令/模块，还可用于存储参考音频和目标音频。处理器702通过运行存储在存储器704内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述音频生成方法。存储器704可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器704可进一步包括相对于处理器702远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置710用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置710包括一个网络适配器(NetworkInterface Controller，简称为NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置710为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

上述显示器706可用于显示操作界面，以供用户在操作界面中从本地或者网络中选择参考音频，并用于获取输入的操作指令，例如，用于控制开始播放或停止播放参考音频或目标音频的播放或停止指令、用于控制开始或者停止音频生成的开始或停止指令等。

播放装置712可用于播放参考音音频或/或目标音频，播放装置可以包括一个或多个麦克风或者麦克风阵列，以满足不同的场景需求。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频生成方法，其特征在于，包括：

将参考音频中的当前段音符输入到音频生成模型中；

在将所述当前段音符输入到所述音频生成模型中的过程中，获取到输入设备输入的当前操作信息，其中，所述当前操作信息用于调整所述音频生成模型中的音频生成参数，所述音频生成参数用于生成目标音频中与所述当前段音符对应的目标段音符以及所述目标段音符的播放参数；

将所述当前操作信息和所述当前段音符输入到所述音频生成模型中；

通过所述音频生成模型生成所述目标音频中与所述当前段音符对应的目标段音符以及所述目标段音符的播放参数。

2.根据权利要求1所述的方法，其特征在于，通过所述音频生成模型生成所述目标音频中与所述当前段音符对应的目标段音符以及所述目标段音符的播放参数包括：

将所述音频生成参数的取值调整到与所述当前操作信息对应的第一目标值，其中，所述第一目标值包括第一值和第二值；

通过所述音频生成模型获取与所述第一值对应的音符，以及与所述第二值对应的播放参数，其中，所述播放参数用于播放所述与所述第一值对应的音符，所述目标段音符包括与所述第一值对应的音符，所述目标段音符的播放参数包括与所述第二值对应的播放参数。

3.根据权利要求2所述的方法，其特征在于，通过所述音频生成模型获取所述目标段音符中与所述第一值对应的音符包括：

通过所述音频生成模型获取预设音符组中的音符为所述目标段音符中的音符的目标概率值；

从所述预设音符组中获取所述目标概率值大于或等于所述第一值的一个或多个目标音符，其中，所述与所述第一值对应的音符包括所述一个或多个目标音符。

4.根据权利要求2所述的方法，其特征在于，通过所述音频生成模型获取与所述第二值对应的播放参数包括：

通过所述音频生成模型，获取与所述第二值对应的音符播放速度。

5.根据权利要求2所述的方法，其特征在于，将所述音频生成参数的取值调整到与所述当前操作信息对应的第一目标值包括：

将音符概率阈值的取值调整到与第一操作信息对应的所述第一值，并将音符播放速度的取值调整到与第二操作信息对应的所述第二值，其中，所述音频生成参数包括所述音符概率阈值和所述音符播放速度，所述当前操作信息包括所述第一操作信息和所述第二操作信息，所述第一操作信息由第一输入设备输入，所述第二操作信息由第二输入设备输入，所述输入设备包括所述第一输入设备和所述第二输入设备。

6.根据权利要求5所述的方法，其特征在于，所述第一操作信息所指示的所述第一输入设备的操作频率越高，所述第一值越小；所述第二操作信息所指示的所述第二输入设备的操作频率越高，所述第二值越大。

7.根据权利要求1所述的方法，其特征在于，

将所述参考音频中的所述当前段音符输入到所述音频生成模型中包括：将所述参考音频中的当前段音频输入到所述音频生成模型中，其中，所述当前段音频包括所述当前段音符以及所述当前段音符的播放参数；

在将所述当前段音符输入到所述音频生成模型中的过程中，通过所述音频生成模型生成所述目标音频中与所述当前段音符对应的目标段音符以及所述目标段音符的播放参数包括：在未获取到输入设备输入的当前操作信息的情况下，通过所述音频生成模型获取与目标阈值对应的音符，以及所述目标段音符的播放参数，其中，所述目标段音符包括与所述目标阈值对应的音符，所述目标段音符的播放参数包括所述当前段音符的播放参数。

8.根据权利要求7所述的方法，其特征在于，通过所述音频生成模型获取与目标阈值对应的音符包括：

从所述预设音符组中获取所述目标概率值大于或等于所述目标阈值的一个或多个目标音符，其中，所述目标段音符中与所述目标阈值对应的音符包括所述一个或多个目标音符。

9.根据权利要求1至8中任一项所述的方法，其特征在于，在通过所述音频生成模型生成所述目标音频中与所述当前段音符对应的目标段音符以及所述目标段音符的播放参数之后，所述方法还包括：

按照所述目标段音符的播放参数播放所述目标段音符。

10.根据权利要求1至8中任一项所述的方法，其特征在于，

所述音频生成参数包括音符概率阈值和音符播放速度，所述当前操作信息包括第一操作信息和第二操作信息，所述第一操作信息由第一输入设备输入，所述第二操作信息由第二输入设备输入，所述输入设备包括所述第一输入设备和所述第二输入设备；

其中，所述第一输入设备为键盘，所述第二输入设备为鼠标；或者，所述第一输入设备为鼠标，所述第二输入设备为键盘。

11.一种音频生成装置，其特征在于，包括：

第一输入单元，用于将参考音频中的当前段音符输入到音频生成模型中；

获取单元，用于在将所述当前段音符输入到所述音频生成模型中的过程中，获取到输入设备输入的当前操作信息，其中，所述当前操作信息用于调整所述音频生成模型中的音频生成参数，所述音频生成参数用于生成目标音频中与所述当前段音符对应的目标段音符以及所述目标段音符的播放参数；

第二输入单元，用于将所述当前操作信息和所述当前段音符输入到所述音频生成模型中；

生成单元，用于通过所述音频生成模型生成所述目标音频中与所述当前段音符对应的目标段音符以及所述目标段音符的播放参数。

12.根据权利要求11所述的装置，其特征在于，所述生成单元包括：

调整模块，用于将所述音频生成参数的取值调整到与所述当前操作信息对应的第一目标值，其中，所述第一目标值包括第一值和第二值；

第一获取模块，用于通过所述音频生成模型获取与所述第一值对应的音符，以及与所述第二值对应的播放参数，其中，所述播放参数用于播放所述与所述第一值对应的音符，所述目标段音符包括与所述第一值对应的音符，所述目标段音符的播放参数包括与所述第二值对应的播放参数。

13.根据权利要求12所述的装置，其特征在于，

所述第一获取模块包括：第一获取子模块，用于通过所述音频生成模型获取预设音符组中的音符为所述目标段音符中的音符的目标概率值；第二获取子模块，用于从所述预设音符组中获取所述目标概率值大于或等于所述第一值的一个或多个目标音符，其中，所述与所述第一值对应的音符包括所述一个或多个目标音符；或者，

所述第一获取模块包括：第三获取子模块，用于通过所述音频生成模型，获取与所述第二值对应的音符播放速度。

14.根据权利要求11至13中任一项所述的装置，其特征在于，所述获取单元通过以下方式获取到所述输入设备输入的所述当前操作信息：

通过所述音频生成装置的捕获器获取到所述输入设备输入的所述当前操作信息。

15.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至10任一项中所述的方法。