CN109326270A

CN109326270A - 音频文件的生成方法、终端设备及介质

Info

Publication number: CN109326270A
Application number: CN201811085971.5A
Authority: CN
Inventors: 刘奡智; 王义文; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2019-02-12
Anticipated expiration: 2038-09-18
Also published as: CN109326270B

Abstract

本发明适用于人工智能技术领域，提供了一种音频文件的生成方法、终端设备及介质，该方法包括：获取多个音频训练样本；根据音频训练样本，构建并训练神经网络模型；检测用户输入的用于构建目标音频波形的多个音名，并确定其中每一个音名对应的编码值；通过神经网络模型对确定出的各个编码值进行处理，得到包含依序排列的多个键值对的第一键值对序列；生成基于第一键值对序列的音频文件。本发明通过神经网络模型来实现音频文件的自动生成，使得用户无需再耗费较长的时间周期来进行思考及创作，因而提高了音乐作品的创作效率；由于输出的音频文件能够在一定程度上具备乐理性，故满足了用户实际的音乐创作需求，达到了较好的音乐创作效果。

Description

音频文件的生成方法、终端设备及介质

技术领域

本发明属于人工智能技术领域，尤其涉及一种音频文件的生成方法、终端设备及计算机可读存储介质。

背景技术

随着物质生活水平的不断提高，音乐在人们的日常生活中占据了越来越重要的地位，因此，越来越多人均开始投身于音乐创作之中。

然而，现有技术中，各类音乐作品主要都是依赖于人工来进行创作的，音乐作品的创作需要依赖于创作灵感以及依赖于创作人的乐理水平。因此，在大部分情况下，创作一部音乐作品往往会耗费较长的周期，从而出现了创作效率较为低下的问题。

发明内容

有鉴于此，本发明实施例提供了一种音频文件的生成方法、终端设备及计算机可读存储介质，以解决现有技术中音乐作品的创作效率较为低下的问题。

本发明实施例的第一方面提供了一种音频文件的生成方法，包括：

获取多个音频训练样本；

根据所述音频训练样本，构建并训练神经网络模型；

检测用户输入的用于构建目标音频波形的多个音名，并确定其中每一个所述音名对应的编码值；

通过所述神经网络模型对确定出的各个所述编码值进行处理，得到包含依序排列的多个键值对的第一键值对序列；每一个所述键值对包含键名及键值，所述键名表示音名所对应的编码值，所述键值表示音符时长；

生成基于所述第一键值对序列的音频文件。

本发明实施例的第二方面提供了一种终端设备，包括存储器以及处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

获取多个音频训练样本；

根据所述音频训练样本，构建并训练神经网络模型；

生成基于所述第一键值对序列的音频文件。

本发明实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

获取多个音频训练样本；

根据所述音频训练样本，构建并训练神经网络模型；

生成基于所述第一键值对序列的音频文件。

本发明实施例中，通过神经网络模型来实现音频文件的自动生成，使得用户无需再耗费较长的时间周期来进行思考及创作，因而提高了音乐作品的创作效率；由于神经网络模型的训练样本为预先完成创作的音频训练样本，且输出的键值对序列与用户输入的多个音名相关，故保证了神经网络模型所输出的键值对序列能够在执行编码转换后，具备一定的乐曲旋律特征；通过利用键值对序列来生成对应的音频文件，使得该音频文件所包含的音频数据能够在一定程度上具备乐理性，从而也满足了用户实际的音乐创作需求，达到了较好的音乐创作效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的音频文件的生成方法的实现流程图；

图2是本发明实施例提供的音频文件的生成方法S101的具体实现流程图；

图3是本发明实施例提供的音频文件的生成方法S105的具体实现流程；

图4是本发明实施例提供的音频文件的生成方法S1052的具体实现流程；

图5是本发明实施例提供的音频文件的生成装置的结构框图；

图6是本发明实施例提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

图1示出了本发明实施例提供的音频文件的生成方法的实现流程，该方法流程包括步骤S101至S105。各步骤的具体实现原理如下：

S101：获取多个音频训练样本。

本发明实施例中，音频训练样本为目前已创作完成的音频文件中的一段数字化旋律，即音频文件中连续出现且符合音乐理论的多个音符所对应的格式化数据。上述音频文件例如可以是乐器数字接口(Musical Instrument Digital Interface，MIDI)文件。其中，MIDI文件可根据音乐创作人在MIDI键盘或打谱器等工具中所发出的操控指令来获取。

示例性地，在MIDI键盘中，若检测到音乐创作人在各个乐键上所依次发出的触控指令，则根据各个乐键的触控顺序，记录每一个乐键所对应的音符，并将并依序出现的各个音符所对应的格式化数据保存至MIDI文件中。通过预设的数字键盘对接接口，可接收到上述MIDI键盘传输过来的MIDI文件。

本发明实施例中，音符所对应的格式化数据具体为以键值对格式来表示的数据。键值对包括键名以及键值。键名表示音符所对应的编码值，键值表示音符时长。

作为本发明的一个实施示例，由于乐音音符通常只有88个，故通过将各个音符所对应的编码值存储于预设的对照关系表中，可在检测到任一音符时，从该对照关系表中查找出对应的编码值。例如，对于一个音高为D3的十六分音符来说，其对应的键值对为(4，1)。

除了上述基于接收到的midi文件来获取各个音频训练样本之外，作为本发明的一个实施例，图2示出了本发明实施例提供的音频文件的生成方法S101的具体实现流程，详述如下：

S1011：获取已有音频信号中的多个采样音符。

本发明实施例中，通过各类音频拾取器来捕获任意一段音频信号，并通过预设的采样频率，识别出音频信号中所包含的多个音符。为了便于区分，将该过程中所识别得到的音符称为采样音符。

S1012：根据所述采样音符的乐器数字接口MIDI音高，确定每一个所述采样音符所对应的所述编码值，并以预设时长为单位，记录其中每一个所述采样音符的音符时长。

根据每一个采样音符的音名，在预设的音名以及MIDI音高的对应关系表中，确定与该音名的MIDI音高。例如，若存在一采样音符为“C4”，则其对应的MIDI音高为60。

本发明实施例中，以预先选定的一个音符为参照对象。根据采样音符的MIDI音高与该参照对象的MIDI音高的差值，确定采样音符与初始编码值的差值；并根据初始编码值与该差值之和，计算采样音符所对应的编码值。

示例性地，若预先选定“C3”这一音符为参照对象，其MIDI音高为48，则表示从MIDI音高48开始执行音符的编码操作。本发明实施例中的初始编码值为2。因此，若采样音符为“C#3”，则其MIDI音高49与参照对象的MIDI音高48的差值为1，故确定该采样音符所对应的编码值为初始编码值2与差值1的和，即采样音符“C#3”所对应的编码值为3。若采样音符为“C3”，则其MIDI音高与参照对象的MIDI音高的差值为0，则确定该采样音符所对应的编码值为初始编码值2。

特别地，休止符所对应的编码值为0。

本发明实施例中，以预设时长为单位，确定每一个采样音符的节拍延续时长相对于该预设时长的倍数值，并将该倍数值输出为采样音符所对应的音符时长。

例如，以十六分音符的节拍延续时长为单位，若采样音符“C3”为八分音符，则其节拍延续时长为两个单位时长，故其对应的音符时长为2。

S1013：基于各个所述采样音符及其对应的所述编码值以及所述音符时长，训练长短期记忆网络LSTM模型。

通过上述步骤S1011以及S1012识别出各个采样音符的编码值以及音符时长后，生成采样音符所对应的键值对。将各个采样音符所对应的键值对以及该采样音符的来源音频信号作为训练样本，构建并训练长短期记忆网络(Long Short-Term Memory，LSTM)模型，以使训练完成后的LSTM模型能够用于提取音频信号所匹配的键值对信息。

其中，上述LSTM模型的网络为单层网络，其包含有100个神经元。通过对输入的预设数量的多路已有音频信号以及键值对进行迭代，使用Adam梯度下降算法来进行模型训练，并裁剪掉欧几里德距离之和L2范数(L2norm)大于5的梯度，以避免LSTM模型出现梯度爆炸。

S1014：将实时采集的多路音频信号输入所述LSTM模型，获取所述LSTM模型输出的多个音频训练样本。

作为本发明的一个实施示例，上述获取当前时刻所实时采集得到的多路音频信号，包括：获取多个已完成创作的音乐文件；对每一个音乐文件分别进行播放，并采集其中的多段音频信号。

作为本发明的另一个实施示例，当音乐创作人在实时弹奏乐曲时，通过音频拾取器对其进行音频信号的采集。

将当前采集到的音频信号输入上述训练完成后的LSTM模型，以使该LSTM模型对每一音频信号进行处理后，输出与该音频信号对应的键值对，并将该键值对作为后续用于训练其他神经网络模型的音频训练样本。

本发明实施例中，通过获取对已有音频信号中的多个采样音符，并生成与其匹配的键值对，以上述音频信号以及键值对来训练LSTM模型，保证了在检测到实时采集得到的音频信号时，均能够通过该训练完成后的LSTM模型来自动输出满足预设格式的键值对数据，达到了音频训练样本的自动生成效果以及提高了音频训练样本的获取效率。

S102：根据所述音频训练样本，构建并训练神经网络模型。

本发明实施例中，基于上述获取得到的多个音频训练样本，构建并训练神经网络模型，以使得训练完成后的该神经网络模型能够用于检测输入的各个音名并输出自动创作完成后的键值对序列。

具体地，上述训练过程包括：

预先构建多层神经网络模型。上述多层神经网络模型可以是基于三层网络结构的Deep-Q-learning强化学习模型。其中，Deep-Q-learning强化学习模型包括级联的循环神经网络(Note Recurrent Neural Network，Note RNN)以及强化学习网络；强化学习网络包括目标Q值网络(Target Q Network)、Q网络(Q Network)以及激励循环神经网络(RewardRecurrent Neural Network，RewardRNN)。

本发明实施例中，获取Note RNN所包含的各项预设参数，并基于该预设参数，对Target Q Network以及Q Network进行初始化处理。其中，Reward RNN为Note RNN的直接复制，即，二者具有相同的网络结构及参数。

在完成对级联的各层网络的初始化处理操作后，调整Deep-Q-learning强化学习模型的各项模型参数，直至检测到Deep-Q-learning强化学习模型中出现最优Q值时停止调整，并根据以下公式，确定出在检测到最优Q值时所对应的模型π值：

其中，s_t为神经网络模型所输出的与时刻t对应的编码值，a_t为神经网络模型所输出的与时刻t+1对应的编码值，r为反馈值，π^*为最优的键值对序列。

本发明实施例中，获取预先建立的损失函数。损失函数例如可以是：

其中，上述π为神经网络模型输出的编码值；θ-以及θ均为Target Q Network的预设参数，γ是折扣系数，c为预设的常数值，其用于表示乐理因素对于系统反馈值的影响权重。

通过采用随机梯度下降的方法，计算出在上述损失函数的输出值最小时所对应的Q值，并将该Q值确定为Deep-Q-learning强化学习模型的最优Q值

优选地，上述折扣系数γ为0.5，预设的常数值c为0.5。

本发明实施例通过基于上述损失函数来调整神经网络模型的各项模型参数，保证了训完完成后的神经网络模型能够输出既符合乐理且又具有更高随机性的键值对数据，因此，降低了音乐创作作品的重复性，达到了更好的音乐创作效果。

S103：检测用户输入的用于构建目标音频波形的多个音名，并确定其中每一个所述音名对应的编码值。

本发明实施例中，请求用户输入用于构建目标音频波形的多个音名，以将其确定为待生成的音频文件中的各个主音，或者，基于上述多个音名确定待生成的音频文件的调性。例如，若检测到用户输入的音名为C、E以及G，则可确定待生成的音频文件的调性为C调。

根据上述预设的音名与编码值的对照关系表，确定用户输入的每一个音名所对应的编码值。

S104：通过所述神经网络模型对确定出的各个所述编码值进行处理，得到包含依序排列的多个键值对的第一键值对序列；每一个所述键值对包含键名及键值，所述键名表示音名所对应的编码值，所述键值表示音符时长。

S105：生成基于所述第一键值对序列的音频文件。

本发明实施例中，利用步骤S102中所训练得到的神经网络模型对确定出的各个编码值进行处理后，以输出得到第一键值对序列。其中，第一键值对序列包括依序排列的多个键值对。

由于每一键值对中包含有用于表示编码值的键名以及包含用于表示音符时长的键值，因此，通过创建基于第一键值对序列的音频文件，保证了在播放该音频文件时，能够根据每一键值对所对应的音名，依次播放与该音名匹配的音频信号，并令该音频信号的播放时长为键值对所对应的音符时长。

作为本发明的一个实施例，图3示出了本发明实施例提供的音频文件的生成方法S105的具体实现流程，详述如下：

S1051：对所述第一键值对序列中的各个所述键值对进行转换，输出与所述键值对匹配的各个所述音名。

对于第一键值对序列中的每一个键值对，解析出键值对所包含的键名及键值，并根据键名及音名的对照关系表，输出与上述解析出的键名相对应的音名。

S1052：判断各个所述音名是否满足预设的音频构建条件。

本发明实施例中，加载预设的音频构建条件。音频构建条件用于表示满足音乐理论的一段旋律中，其所包含的各个音名所需满足的条件。

上述音频构建条件包括但不限于：1)解析出的各个音名所关联的旋律调性与步骤S103中所确定出的目标音频波形所关联的调性相同；2)第一键值对序列中第一个键值所对应的音名与最后一个键值所对应的音名相同；3)在输出的各个音名中，分别检测出音高最高以及音高最低的两个音名；上述两个音名的音距小于八度；4)第一键值对序列所依序关联的各个音名与用户依序输入的各个音名相同。

示例性地，若上述S103中，用户所输入的音名依次为C1、E1以及G1，则与音名C1、E1以及G1所关联的旋律调性为C调；若通过上述S1051所依次输出的音名分别为C2、E2以及G3，则与音名C2、E2以及G3所关联的旋律调性为C调，因此，步骤S103中所确定出的目标音频波形所关联的调性与步骤S1051所解析出的各个音名所关联的旋律调性相同，故满足上述音频构建条件1)。

在上述示例中，由于第一键值对序列中第一个键值所对应的音名为C2，最后一个键值所对应的音名为G3，由于音名C2与音名G3并不相同，因而可得知，基于该第一键值对序列所生成的音频文件中，起始音符与结束音符并不相同，不满足常规的音乐理论，故不满足上述音频构建条件2)。

进一步地，第一键值对序列所依序关联的各个音名为C2、E2以及G3，其与用户依序输入的音名C1、E1以及G1不同，故表示自动生成的音频文件中，并不包含用户指定的乐句旋律，因此，不满足上述音频构建条件4)。

作为本发明的一个实施例，图4示出了本发明实施例提供的音频文件的生成方法S1052的具体实现流程，详述如下：

S10521：在所述第一键值对序列的首部添加至少一个与休止信号匹配的键值对，得到第二键值对序列。

本发明实施例中，对神经网络模型所述的第一键值对序列进行延拍处理，即，在第一键值对序列的首部添加至少一个与休止信号匹配的键值对，以使得原本基于第一键值对序列所生成的单音旋律均后移指定数量的多个节拍时长。具体地，若添加的与休止信号匹配的键值对为N(N为大于零的整数)个，则将原本基于第一键值对序列所生成的单音旋律均后移N个节拍时长。

为了便于区分，在对第一键值对序列进行键值对添加操作后所得到的键值对序列为第二键值对序列。

S10522：通过预设公式，计算所述第一键值对序列的自相关系数。

本发明实施例中，通过预设公式，计算神经网络模型所输出的第一键值对序列的自相关系数。自相关系数用于表示旋律的音节重复程度。

上述预设公式包括：

其中，r(Sequence1,Sequence2)表示第一键值对序列的自相关系数，Sequence1以及Sequence2分别表示第一键值对序列以及第二键值对序列；Cov()为协方差函数，Var()为方差函数。

S10523：根据所述自相关系数与预设阈值的大小关系，确定所述第一键值对序列所对应的各个所述音名是否满足预设的音频构建条件。

判断计算出的自相关系数与是否大于预设阈值。若判断结果为是，则确定第一键值对序列所对应的各个音名不满足预设的音频构建条件；若判断结果为否，则确定第一键值对序列所对应的各个音名满足预设的音频构建条件。

优选地，上述预设阈值为0.15。

本发明实施例中，通过对第一键值对序列进行延拍处理来生成第二键值对序列，并基于对第一键值对序列以及第二键值对序列的运算处理来获取第一键值对序列的自相关系数，仅在自相关系数小于或等于预设阈值时，才确定音频构建条件成立，避免了神经网络模型所输出的第一键值对序列具有较高的自相关程度，由此也保证了后续基于自相关程度较低的第一键值对序列来生成音频文件时不会出现音节重复程度过高的问题，减少了自动化生成的音频文件中的重复音，达到了更好的音乐创作效果。

优选地，音频构建条件可以包括上述各个实施例中所提到的一条或多条，在此不作限定。当音频构建条件为上述各个实施例中所提到的多条时，需要确定S1051中所解析出的各个音名是否均满足其中的每一条音频构建条件。

若S1051中所解析出的各个音名均满足当前所加载的音频构建条件，则执行步骤S1053；否则执行步骤S1054。

S1053：若各个所述音名均满足预设的音频构建条件，则生成基于各个所述键值对的音频文件。

S1054：若各个所述音名不满足预设的音频构建条件，则返回执行所述通过所述神经网络模型对确定出的各个所述编码值进行处理，得到包含依序排列的多个键值对的第一键值对序列的操作。

若S1051中所解析出的各个音名不满足当前所加载的任一音频构建条件，则表示基于第一键值对序列所生成的音频文件可能不具备较高的音乐性，因此，返回执行步骤S104，以使得神经网络模型能够重新对用户输入的各个音名所对应的编码值进行运算，以再次输出另一个键值对序列。

本发明实施例中，通过神经网络模型来实现音频文件的自动生成，使得用户无需再耗费较长的时间周期来进行思考及创作，因而提高了音乐作品的创作效率；由于神经网络模型输出的键值对序列会基于预设的音频构建条件来进行过滤筛选处理，故保证了整个创作系统最终所自动生成的音频文件能够在一定程度上满足音乐性以及满足用户实际的创作需求。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于本发明实施例所提供的音频文件的生成方法，图5示出了本发明实施例提供的音频文件的生成装置的结构框图。为了便于说明，仅示出了与本实施例相关的部分。

参照图5，该装置包括：

获取单元51，用于获取多个音频训练样本。

训练单元52，用于根据所述音频训练样本，构建并训练神经网络模型。

检测单元53，用于检测用户输入的用于构建目标音频波形的多个音名，并确定其中每一个所述音名对应的编码值。

处理单元54，用于通过所述神经网络模型对确定出的各个所述编码值进行处理，得到包含依序排列的多个键值对的第一键值对序列；每一个所述键值对包含键名及键值，所述键名表示音名所对应的编码值，所述键值表示音符时长。

生成单元55，用于生成基于所述第一键值对序列的音频文件。

可选地，所述生成单元55包括：

转换子单元，用于对所述第一键值对序列中的各个所述键值对进行转换，输出与所述键值对匹配的各个所述音名。

判断子单元，用于判断各个所述音名是否满足预设的音频构建条件。

生成子单元，用于若各个所述音名均满足预设的音频构建条件，则生成基于各个所述键值对的音频文件。

返回子单元，用于若各个所述音名不满足预设的音频构建条件，则返回执行所述通过所述神经网络模型对确定出的各个所述编码值进行处理，得到包含依序排列的多个键值对的第一键值对序列的操作。

可选地，所述判断子单元具体用于：

在所述第一键值对序列的首部添加至少一个与休止信号匹配的键值对，得到第二键值对序列；

通过预设公式，计算所述第一键值对序列的自相关系数，所述预设公式包括：

根据所述自相关系数与预设阈值的大小关系，确定所述第一键值对序列所对应的各个所述音名是否满足预设的音频构建条件；

其中，所述r(Sequence1,Sequence2)表示所述自相关系数，所述Sequence1以及Sequence2分别表示所述第一键值对序列以及所述第二键值对序列；所述Cov()为协方差函数，Var()为方差函数。

可选地，所述训练单元52包括：

构建子单元，用于构建多层神经网络模型，所述神经网络模型包括级联的循环神经网络以及强化学习网络；所述强化学习网络包括目标Q值网络、Q网络以及激励循环神经网络。

第一获取子单元，用于获取所述循环神经网络所包含的各项预设参数，并基于所述预设参数，对所述目标Q值网络以及所述Q网络进行初始化处理。

调整子单元，用于调整所述神经网络模型中的各项模型参数，直至检测到所述神经网络模型出现最优Q值。

可选地，所述获取单元51包括：

第二获取子单元，用于获取已有音频信号中的多个采样音符。

确定子单元，用于根据所述采样音符的乐器数字接口MIDI音高，确定每一个所述采样音符所对应的所述编码值，并以预设时长为单位，记录其中每一个所述采样音符的音符时长。

训练子单元，用于基于各个所述采样音符及其对应的所述编码值以及所述音符时长，训练长短期记忆网络LSTM模型。

第三获取子单元，用于将实时采集的多路音频信号输入所述LSTM模型，获取所述LSTM模型输出的多个音频训练样本。

图6是本发明一实施例提供的终端设备的示意图。如图6所示，该实施例的终端设备6包括：处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62，例如音频文件的生成程序。所述处理器60执行所述计算机程序62时实现上述各个音频文件的生成方法实施例中的步骤，例如图1所示的步骤101至105。或者，所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能，例如图5所示单元51至55的功能。

示例性的，所述计算机程序62可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器61中，并由所述处理器60执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。

所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是终端设备6的示例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述终端设备6的内部存储单元，例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备，例如所述终端设备6上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频文件的生成方法，其特征在于，包括：

获取多个音频训练样本；

根据所述音频训练样本，构建并训练神经网络模型；

生成基于所述第一键值对序列的音频文件。

2.如权利要求1所述的音频文件的生成方法，其特征在于，所述生成基于所述第一键值对序列的音频文件，包括：

对所述第一键值对序列中的各个所述键值对进行转换，输出与所述键值对匹配的各个所述音名；

判断各个所述音名是否满足预设的音频构建条件；

若各个所述音名均满足预设的音频构建条件，则生成基于各个所述键值对的音频文件；

若各个所述音名不满足预设的音频构建条件，则返回执行所述通过所述神经网络模型对确定出的各个所述编码值进行处理，得到包含依序排列的多个键值对的第一键值对序列的操作。

3.如权利要求2所述的音频文件的生成方法，其特征在于，所述判断各个所述音名是否满足预设的音频构建条件，包括：

4.如权利要求1所述的音频文件的生成方法，其特征在于，所述根据所述音频训练样本，构建并训练神经网络模型，包括：

构建多层神经网络模型，所述神经网络模型包括级联的循环神经网络以及强化学习网络；所述强化学习网络包括目标Q值网络、Q网络以及激励循环神经网络；

获取所述循环神经网络所包含的各项预设参数，并基于所述预设参数，对所述目标Q值网络以及所述Q网络进行初始化处理；

调整所述神经网络模型中的各项模型参数，直至检测到所述神经网络模型出现最优Q值。

5.如权利要求1所述的音频文件的生成方法，其特征在于，所述获取多个音频训练样本，包括：

获取已有音频信号中的多个采样音符；

根据所述采样音符的乐器数字接口MIDI音高，确定每一个所述采样音符所对应的所述编码值，并以预设时长为单位，记录其中每一个所述采样音符的音符时长；

基于各个所述采样音符及其对应的所述编码值以及所述音符时长，训练长短期记忆网络LSTM模型；

将实时采集的多路音频信号输入所述LSTM模型，获取所述LSTM模型输出的多个音频训练样本。

6.一种终端设备，包括存储器以及处理器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如下步骤：

获取多个音频训练样本；

根据所述音频训练样本，构建并训练神经网络模型；

生成基于所述第一键值对序列的音频文件。

7.如权利要求6所述的终端设备，其特征在于，所述生成基于所述第一键值对序列的音频文件的步骤，具体包括：

判断各个所述音名是否满足预设的音频构建条件；

8.如权利要求7所述的终端设备，其特征在于，所述判断各个所述音名是否满足预设的音频构建条件的步骤，具体包括：

9.如权利要求6所述的终端设备，其特征在于，所述获取多个音频训练样本，包括：

获取已有音频信号中的多个采样音符；

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。