CN110120212B

CN110120212B - 基于用户示范音频风格的钢琴辅助作曲系统及方法

Info

Publication number: CN110120212B
Application number: CN201910274110.XA
Authority: CN
Inventors: 曹燕; 别碧耀; 韦岗
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2023-05-23
Anticipated expiration: 2039-04-08
Also published as: CN110120212A

Abstract

本发明提供基于用户示范音频风格的钢琴辅助作曲系统及方法。该系统包括音频处理模块、音符序列映射模块、神经网络模块和智能设备。音频处理模块用来提取音频文件的音符特征；音符序列映射模块将音频文件的音符特征与神经网络输入输出值进行相互映射转换；神经网络模块训练网络模型得到预测模型，帮助用户辅助作曲或者全自动作曲；智能设备是为用户提供上传示范音频、输入音符序列、试听预测生成音符效果功能的人机交互设备。本发明的钢琴辅助作曲系统，满足用户的个性化需求，生成用户喜欢风格的钢琴曲；同时，可以给专业人士带来创作灵感，帮助没有音乐基础的用户参与到音乐制作中，提高了音乐的娱乐性。

Description

基于用户示范音频风格的钢琴辅助作曲系统及方法

技术领域

本发明涉及音乐辅助作曲领域，具体涉及到基于用户示范音频风格的钢琴辅助作曲系统及方法。

背景技术

目前人工作曲需要掌握基础乐理、曲式、和声等专业知识，才能创作出标记有速度、和弦等基本内容的乐谱。作曲家在作曲的时候往往不是凭空拍脑袋想的，大部分作曲家喜欢用吉他或者钢琴边弹边创作，创作的成品通常是乐谱，上面会标记有速度、和弦等基本内容，以及对编曲风格的一些基本想法。这些对于普通用户来说，作曲专业性和门槛太高。

随着移动互联网的发展，大量互联网社交应用出现在人们生活中，用户的分享积极性被提高，这主要是因为图片自动美化和视频自动加特效的广泛应用。对于追求多元社交方式的年轻人来说，用神经网络辅助作一首与自己的示范音频风格相同的钢琴曲，为他们社交分享提供了一种新的选择。

同时，文娱市场提出了“泛娱乐”的概念，神经网络辅助作曲可以让更多的普通用户参与到音乐制作中，提高了音乐的娱乐性。

发明内容

本发明的目的在于提供一种基于用户示范音频风格的钢琴辅助作曲系统及方法，克服目前作曲需要具备专业知识背景、使用门槛高、学习成本大等问题。使用的场景为：首先，用户通过智能设备上传一组示范音频，系统会提取示范音频的音符特征值，神经网络训练模型，得到预测模型，该预测模型可以让预测生成的音符风格与示范音频的风格相同。然后，用户在作曲时，输入一组音符，预测模型会预测下一组音符，辅助用户作曲。另外，普通用户也可以不用输入音符，预测模型会自动生成一段与用户示范音频风格相同的音符序列。

本发明的目的至少通过如下技术方案之一实现。

基于用户示范音频风格的钢琴辅助作曲系统，该系统包括音频处理模块、音符序列映射模块、神经网络模块和智能设备；音频处理模块用来处理用户上传的示范音频，提取音频文件的音符特征，并将特征值数据传递给音符序列映射模块；音符序列映射模块将音频文件的音符特征值与神经网络输入输出值进行相互映射转换，方便上下游各个模块进行数据处理；神经网络模块用示范音频音符特征值数据集去训练模型，得到与示范音频风格相同的预测模型，通过预测模型帮助用户辅助作曲或者全自动作曲；智能设备是为用户提供上传示范音频、输入音符序列、试听预测生成音符效果的人机交互设备。

所述的音频处理模块，运用基于十二平均律设计的88个滤波器组阵列来提取音频的基频特征；首先对音频进行分帧和加窗，对每一个短时分析窗的音频，通过傅里叶变换得到对应的频谱，将上面的频谱通过基于十二平均律设计的88个滤波器组阵列，每通过一组滤波器，就得到一个滤波信号，该滤波信号的能量作为输出值，则一共有88个输出值，找出最大的输出值，如果小于设定的阈值，该帧则为静音段，不包含基频特征；如果大于设定的阈值，找出最大的输出值对应的滤波器组，该滤波器组的第一个滤波器的中心频率就是该帧估计的基频。

上述基于十二平均律设计的88个滤波器组阵列基于音乐的音律特性。十二平均律，世界上通用的把一组音分成十二个半音音程的律制，各相邻两律之间的振动数之比完全相等。十二平均律是指将八度的音程按频率等比例地分成十二等份，每一等份称为一个半音即小二度。一个大二度则是两等份。十二平均律在交响乐队和键盘乐器中得到广泛使用，现在的钢琴即是根据十二平均律来定音的。

上述88个滤波器组阵列设计的原理参照钢琴88个键的频率，这是因为钢琴就是按照十二平均律设计的。琴键的基频是按几何级数排列的，其中几何级数的公比q＝2 ¹/₁₂，后一个琴键的基频是前一个琴键基频的q倍。每一个琴键有一个基频值对应，比如中央C的基频为261.6Hz，但是每个琴键发出的音频信号除了含有基频以外，还有倍频等谐波成分。故本系统所用的滤波器组阵列是一个88×m的阵列，一共有88组滤波器，每组由m个三角滤波器或者其它形状的滤波器组成，且m可以不同；每组的第一个滤波器的中心频率f_i为钢琴每个琴键所对应的基频，也就是从27.5Hz到4186.0Hz，按照十二平均律取值；第i组的m个滤波器的中心频率分别为f_i，2f_i，3f_i，4f_i,…,mf_i，每个滤波器带宽都为2f_i；m按照人耳可听的频率范围最大值f_max＝20KHz来取值，m＝f_max/f_i；音频通过每组滤波器，就得到一个滤波信号，该滤波信号的能量作为输出值，则一共有88个输出值，找出最大的输出值，如果小于设定的阈值，该帧则为静音段，不包含基频特征；如果大于设定的阈值，找出最大的输出值对应滤波器组，该滤波器组的第一个滤波器的中心频率f_i就是该帧估计的基频；用户上传的示范音频按帧划分，则处理后每帧得到一个估计的基频，再根据基频和音符的对应关系，从示范音频中提取出音符序列。

所述的音符序列映射模块用于音符序列和神经网络输入输出数据之间进行映射转化。音频处理模块提取的特征值可以和音符进行一一对应，但是这些音符序列并不能直接作为神经网络的输入值。同时，神经网络的输出值并不能直接作为音符序列去辅助作曲。音符序列映射模块就是在建立一种音符序列和神经网络输入输出值之间的映射关系，在训练模型时，音符序列被转换成特定的数字标识序列，然后将处理的数字序列输入到神经网络模块进行训练。在辅助作曲时，预测模型输出的数字序列，通过音符序列映射模块查找映射表，转换成音符序列。

所述神经网络模块用来训练模型，得到预测模型；通过预测模型生成音符序列。音乐是一种具有上下文关联的序列关系，循环神经网络在处理序列数据方面有着不可替代的优势，目前已经广泛地应用在了自然语言处理领域。循环神经网络是具有短期记忆能力，其神经元不但可以接受其它神经元的信息，也可接受自身的信息，形成具有环路的网络结构，这种结构使得循环神经网络在理论上可以处理任意长度的序列数据。但是，在训练过程中会发生了梯度消失或梯度爆炸等问题。梯度消失会导致我们的神经网络中前面层的网络权重无法得到更新，就会停止学习。梯度爆炸会使得学习不稳定，参数变化太大导致无法获取最有效参数。长短期记忆网络是循环神经网络的一个变体，可以有效地解决循环神经网络的这两个问题。

上述神经网络模块，具体的网络构建如下：用长短期记忆网络层来构造和训练一个神经网络，该网络接收一个长度固定的音符序列并输出一个音符预测值；训练数据集来自于用户上传的示范音频，示范音频经过音频处理模块，得到表示音频特征的音符数据集，通过音符序列映射后，得到音符数字标识序列数据集，这组数据集用来作为神经网络的训练数据集。

上述神经网络模块训练模型，得到预测模型的过程为：示范音频文件通过音频处理模块和音符序列映射模块后，得到了神经网络训练数据集。从数据集中的第一个音符开始选择连续的n个音符作为输入序列，通过神经网络去预测第n+1个音符，与数据集中的第n+1个音符值进行对比，计算误差；接着，从数据集中第二个音符开始选择连续的n个音符作为输入序列，通过神经网络去预测第n+2个音符，与数据集中的第n+2个音符值进行对比，计算误差；然后，将数据集所有音符按以上方式迭代完，并且进行多轮这样的操作；最后，得到损失最小的神经网络权重系数文件。整个过程完成后，得到的预测模型就具备预测生成与用户示范音频风格相同的音符序列的能力。

上述神经网络模块通过预测模型预测生成音符序列过程：这里要分两种情况，第一种是辅助作曲，适用于有一定音乐基础的人士，示范音频已经训练好了预测模型，只要他们自由输入一组音符，预测模型就会预测下一组音符，给他们作曲工作带来便捷性和创造性。第二种是自动作曲，适用于没有音乐基础的人士，在示范音频已经训练好了预测模型基础上，他们只需指定生成音符序列的长度，预测模型会自动完成作曲，帮助普通用户参与到音乐制作中，提高了音乐的娱乐性。

上述辅助用户作曲的过程为：用户通过智能设备输入的示范音频已经训练好了预测模型，用户再通过智能设备输入一组长度为k的音符序列，音符序列映射模块处理后，得到了一个可以输入到预测模型的数字标识序列，长度为K的输入序列由预测模型去生成第k+1个音符，然后将第2个音符到第k+1个音符(长度为k)序列输入到预测模型去生成第k+2个音符，循环执行t次上面的步骤，最后得到一组长度为k+t的序列；接下来，用户再通过智能设备输入一组长度为k音符序列，预测模型重复上面的步骤，得到另一组长度为k+t的序列；用户可以不断重复上述过程，得到让自己效果满意的音符序列。其中，这里的k，t都不是固定的，用户通过智能设备进行设置。

上述自动作曲的过程为：用户通过智能设备输入的示范音频已经训练好了预测模型，预测模型从示范音频训练数据集中随机选择连续的k个音符作为输入序列，音符序列映射模块处理后，得到了一个可以输入到预测模型的数字标识序列，长度为K的输入序列由预测模型去生成第k+1个音符，然后将第2个音符到第k+1个音符(长度为k)序列输入到预测模型去生成第k+2个音符，循环执行t次上面的步骤，最后得到一组长度为k+t的序列，这里的k，t都不是固定的，用户通过智能设备进行设置。自动作曲前，用户桶过智能设备输入的示范音频已经训练好了预测模型。自动作曲过程中，用户不需要再输入任何音符序列。

所述智能设备是智能手机或平板电脑，为用户提供上传示范音频、输入音符序列、试听预测生成音符效果功能。在神经网络训练过程中，用户使用智能设备上传示范音频。在辅助作曲过程中，用户使用智能设备输入一组音符序列，预测模型帮助用户去预测生成的音符。最终生成的音符序列效果，用户通过智能设备试听。

基于上述的基于用户示范音频风格的钢琴辅助作曲系统的作曲方法，包括如下步骤：

(1)用户打开智能设备，上传一组示范音频；音频处理模块对音频进行分帧和加窗，对每一个短时分析窗的音频，通过傅里叶变换得到对应的频谱，将上面的频谱通过基于十二平均律设计的88个滤波器组阵列，估计音频的基频，同时去掉静音段，再根据基频和音符的对应关系，从示范音频中提取出音符序列；

(2)音符序列映射模块建立一种音符序列和神经网络输入输出值之间的映射关系，音符序列被转换成特定的数字标识，然后将处理的数字标识序列作为训练数据集输入到神经网络进行训练；

(3)神经网络模块从这个训练数据集中，依次选择n个音符序列输入，预测生成第n+1个音符，与数据集中的第n+1个音符值进行对比，计算误差；经过多轮学习，得到损失最小的神经网络权重系数文件，也就是最优的预测模型；

(4)用户通过智能设备选择作曲模式，如果模式是辅助作曲模式，用户通过智能设备输入一组长度为k音符序列，预测模型去预测接下来的t个音符；如果用户选择模式是自动作曲，用户不需要输入任何音符序列，预测模型从示范音频训练数据集中随机选择连续的k个音符作为输入序列，预测接下来的t个音符；用户通过智能设备设定上述步骤中的k，t的具体值；

(5)用户通过智能设备对生成的音符序列进行裁剪、编辑；智能设备将用户编辑完成后的音符序列合成为钢琴曲，供用户进行试听，对效果进行评价。

与现有技术相比，本发明具有以下优点：

(1)本发明用户示范音频的特征提取采用基于十二平均律设计的88个滤波器组阵列，考虑了谐波，估计基频准确。

(2)本发明88个滤波器组阵列输出的最大值与设定的阈值进行比较，考虑了音乐的静音段，为神经网络提供了准确的数据训练数据集。

(3)本发明运用人工智能来辅助和自动作曲，神经网络模型经过训练后，就具备预测生成与用户示范音频风格相同的音符序列的能力。满足用户的个性化需求，每个用户都可以生成自己喜欢风格的预测模型。

(4)本发明提供的辅助作曲功能，帮助具有一定音乐基础的用户实现半自动化的创作方式，这种交互式的方式可以给他们带来创作灵感。

(5)本发明提供的自动作曲功能，帮助没有音乐基础的用户参与到音乐制作中，降低使用门槛，提高了音乐的娱乐性。

附图说明

图1是实施例中基于用户示范音频风格的钢琴辅助作曲系统结构示意图；

图2是实施例中滤波器组阵列提取音符特征原理图；

图3是实施例中第i组滤波器的幅频响应图；

图4是实施例中神经网络训练模型得到预测模型原理图；

图5是实施例中预测模型预测生成音符原理图；

图6是实施例中基于用户示范音频风格的钢琴辅助作曲系统的工作流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明，但本发明的实施不限于此，需指出的是，以下若有未特别详细说明之过程或符号，均是本领域技术人员可参照现有技术理解或实现的。

如图1所示，是基于用户示范音频风格的钢琴辅助作曲系统结构示意图。该系统包括音频处理模块、音符序列映射模块、神经网络模块和智能设备；音频处理模块用来处理用户上传的示范音频，提取音频文件的音符特征，并将特征值数据传递给音符序列映射模块；音符序列映射模块将音频文件的音符特征值与神经网络输入输出值进行相互映射转换，方便上下游各个模块进行数据处理；神经网络模块用示范音频音符特征值数据集去训练模型，得到与示范音频风格相同的预测模型，通过预测模型帮助用户辅助作曲或者全自动作曲；智能设备是为用户提供上传示范音频、输入音符序列、试听预测生成音符效果的人机交互设备。

如图2所示，是滤波器组阵列提取音符特征原理图。首先对音频进行分帧和加窗，对每一个短时分析窗的音频，通过傅立叶变换得到对应的频谱，将上面的频谱通过基于十二平均律设计的88个滤波器组阵列，每通过一组滤波器，就得到一个滤波信号，该滤波信号的能量作为输出值，则一共有88个输出值，找出最大的输出值，如果小于设定的阈值，该帧则为静音段，不包含基频特征；如果大于设定的阈值，找出最大的输出值对应的滤波器组，该滤波器组的第一个滤波器的中心频率就是该帧估计的基频。用户上传的示范音频按帧划分，则处理后每帧得到一个估计的基频，再根据基频和音符的对应关系，从示范音频中提取出音符序列。

如图3所示，是第i组滤波器的幅频响应图。图示第i组滤波器由m个三角滤波器组成，m个三角滤波器的中心频率分别为f_i，2f_i，3f_i，4f_i,…,mf_i，每个三角滤波器带宽都为2f_i；第一个三角滤波器的中心频率f_i值的范围从27.5Hz到4186.0Hz，按照十二平均律取值；m按照人耳可听的频率范围最大值f_max＝20KHz来取值，m＝f_max/f_i；比如f_i＝4186.0Hz,m由公式计算值为5，则这组滤波器中5个三角滤波器的中心频率分别为4186.0Hz，8372.0Hz，12558.0Hz，16744.0Hz，20930.0Hz。

如图4所示，是神经网络训练模型得到预测模型原理图。从示范音频训练数据集中的第一个音符开始选择连续的n个音符作为输入序列，通过神经网络去预测第n+1个音符，与数据集中的第n+1个音符值进行对比，计算误差；接着，从数据集中第二个音符开始选择连续的n个音符作为输入序列，通过神经网络去预测第n+2个音符，与数据集中的第n+2个音符值进行对比，计算误差；然后，将数据集所有音符按以上方式迭代完，并且进行多轮这样的操作；最后，得到损失最小的神经网络权重系数文件。整个过程完成后，得到的预测模型就具备预测生成与用户示范音频风格相同的音符序列的能力。

如图5所示，是预测模型预测生成音符原理图。用户通过智能设备输入k个音符或者预测模型从示范音频训练数据集中随机选择连续的k个音符作为输入序列。长度为K的输入序列由预测模型去生成第k+1个音符，然后将第2个音符到第k+1个音符(长度为k)序列输入到预测模型去生成第k+2个音符，循环执行t次上面的步骤，最后得到一组长度为k+t的序列；用户可以不断重复上述过程，得到让自己效果满意的音符序列。其中，这里的k，t都不是固定的，用户通过智能设备进行设置。

如图6所示，是基于用户示范音频风格的钢琴辅助作曲系统的作曲工作流程图。

Claims

1.基于用户示范音频风格的钢琴辅助作曲系统，其特征在于包括音频处理模块、音符序列映射模块、神经网络模块和智能设备；音频处理模块用来处理用户上传的示范音频，提取音频文件的音符特征值，并将音符特征值传递给音符序列映射模块；音符序列映射模块将音频文件的音符特征值与神经网络输入输出值进行相互映射转换；神经网络模块用示范音频音符特征值数据集去训练模型，得到与示范音频风格相同的预测模型，通过预测模型帮助用户辅助作曲或者全自动作曲；智能设备与音频处理模块、音符序列映射模块连接，用于用户上传示范音频、输入音符序列、试听预测生成音符效果；音频处理模块，运用基于十二平均律设计的88个滤波器组阵列来提取音频的基频特征；首先对音频进行分帧和加窗，对每一个短时分析窗的音频，通过傅里叶变换得到对应的频谱，将上面的频谱通过基于十二平均律设计的88个滤波器组阵列，每通过一组滤波器，就得到一个滤波信号，该滤波信号的能量作为输出值，则一共有88个输出值，找出最大的输出值，如果小于设定的阈值，该帧则为静音段，不包含基频特征；如果大于设定的阈值，找出最大的输出值对应的滤波器组，该滤波器组的第一个滤波器的中心频率就是该帧估计的基频。

2.根据权利要求1所述基于用户示范音频风格的钢琴辅助作曲系统，其特征在于所述滤波器组阵列是一个88×m的阵列，一共有88组滤波器，每组由m个三角滤波器或者其它形状的滤波器组成，且m值不固定；每组的第一个滤波器的中心频率f_i为钢琴每个琴键所对应的基频，也就是从27.5Hz到4186.0Hz，按照十二平均律取值，其中i表示对应第i组滤波器；第i组的m个滤波器的中心频率分别为f_i，2f_i，3f_i，4f_i,...,m_fi，每个滤波器带宽都为2f_i；m按照人耳可听的频率范围最大值f_max＝20KHz来取值，m＝f_max/f_i；用户上传的示范音频按帧划分，则处理后每帧得到一个估计的基频，再根据基频和音符的对应关系，从示范音频中提取出音符序列。

3.根据权利要求1所述基于用户示范音频风格的钢琴辅助作曲系统，其特征在于音符序列映射模块用于音符序列和神经网络输入输出数据之间进行映射转化；在训练模型时，音符序列被转换成特定的数字标识序列，然后将数字标识序列输入到神经网络模块进行训练；在辅助作曲时，预测模型输出的数字标识序列，通过音符序列映射模块查找映射表，转换成音符序列。

4.根据权利要求1所述基于用户示范音频风格的钢琴辅助作曲系统，其特征在于神经网络模块用来训练得到预测模型；通过预测模型生成音符序列；具体的网络构建如下：用长短期记忆网络层来构造和训练一个神经网络，该神经网络接收一个长度固定的音符序列并输出一个音符预测值；训练数据集来自于用户上传的示范音频，示范音频经过音频处理模块，得到表示音频特征的音符数据集，通过音符序列映射后，得到音符数字标识序列数据集，这组数据集用来作为神经网络的训练数据集。

5.根据权利要求4所述基于用户示范音频风格的钢琴辅助作曲系统，其特征在于神经网络模块训练模型，得到预测模型的过程为：示范音频文件通过音频处理模块和音符序列映射模块后，得到了神经网络训练数据集；从数据集中的第一个音符开始选择连续的n个音符作为输入序列，通过神经网络去预测第n+1个音符，与数据集中的第n+1个音符值进行对比，计算误差；接着，从数据集中第二个音符开始选择连续的n个音符作为输入序列，通过神经网络去预测第n+2个音符，与数据集中的第n+2个音符值进行对比，计算误差；然后，将数据集所有音符按以上方式迭代完，并且进行多轮这样的操作；最后，得到损失最小的神经网络权重系数文件；整个过程完成后，得到的预测模型就具备预测生成与用户示范音频风格相同的音符序列的能力。

6.根据权利要求4所述基于用户示范音频风格的钢琴辅助作曲系统，其特征在于预测模型生成音符序列的过程为：用户通过智能设备输入k个音符或者预测模型从示范音频训练数据集中随机选择连续的k个音符作为输入序列；长度为k的输入序列由预测模型去生成第k+1个音符，然后将第2个音符到第k+1个音符即长度为k的序列输入到预测模型去生成第k+2个音符，循环执行t次上面的步骤，最后得到一组长度为k+t的序列；用户不断重复上述过程，得到让自己效果满意的音符序列；其中，这里的k，t都为用户通过智能设备进行设置的。

7.根据权利要求1所述基于用户示范音频风格的钢琴辅助作曲系统，其特征在于智能设备是智能手机或平板电脑，为用户提供上传示范音频、输入音符序列、试听预测生成音符效果功能；在神经网络训练过程中，用户使用智能设备上传示范音频；在辅助作曲过程中，用户使用智能设备输入一组音符序列，预测模型帮助用户去预测生成的音符，最终生成的音符序列效果，用户通过智能设备试听。

8.利用权利要求1～7任一项所述基于用户示范音频风格的钢琴辅助作曲系统的作曲方法，其特征在于包括如下步骤：

(2)音符序列映射模块建立一种音符序列和神经网络输入输出值之间的映射关系，音符序列被转换成特定的数字标识序列，然后将数字标识序列作为训练数据集输入到神经网络进行训练；