CN109637509A

CN109637509A - 一种音乐自动生成方法、装置及计算机可读存储介质

Info

Publication number: CN109637509A
Application number: CN201811341758.6A
Authority: CN
Inventors: 刘奡智; 王义文; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2019-04-16
Anticipated expiration: 2038-11-12
Also published as: WO2020098086A1; CN109637509B

Abstract

本发明涉及智能决策技术领域，公开了一种音乐自动生成方法，该方法包括：采集音乐旋律的音频信号，将所述音频信号转化为数字化音频存储；对所述数字化音频的弹奏时间进行计时，判断弹奏时间与预设弹奏时间阈值的关系；当判断所述数字化音频的弹奏时间大于所述预设弹奏时间阈值时，启动时间序列预测模型，根据对预设弹奏时间阈值以前的数字化音频训练得到预设弹奏时间阈值以后的音乐伴奏；当判断所述数字化音频的完整弹奏时间小于所述预设弹奏时间阈值时，将所述数字化音频存储为非时间序列预测模型的训练数据。本发明还提出一种音乐自动生成装置以及计算机可读存储介质。本发明预判断音乐的弹奏时间，分不同的预测模型预测音乐旋律，提高了模型的鲁棒性和自适应性。

Description

一种音乐自动生成方法、装置及计算机可读存储介质

技术领域

本发明涉及智能决策技术领域，尤其涉及一种音乐自动生成方法、装置及计算机可读存储介质。

背景技术

声音是由物体振动产生的声波，通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象。音乐属于一种特殊的声音模式，当演奏乐器时，乐器的振动会引起介质(空气分子)有节奏的振动，使周围的空气产生疏密变化，形成疏密相间的纵波，这就产生了所谓的音乐(这种现象会一直延续到振动消失为止)。

科学的音乐旋律预测迄今为止己有很多的方法，从预测性质上分为定量和定性两种。定性分析一般来说就是运用归纳、演绎、分析、综合及抽象与概括等方法进行分析；而定量分析通常包含两个方面的内容：因果关系研究、统计分析。但不管是利用哪种方法进行预测，都属于传统的简单模型预测，其音乐旋律的精准度不高。为了提高预测精准度，通常需要将多种传统预测方法进行比较取最好的方法或将多种预测方法结合起来进行预测，常用的统计分析模型主要有；指数平滑法，趋势外推法，移动平均法等。但当音乐旋律数据以时间序列的形式存在时，这些数据有时是线性关系，有时却是非线性关系，此时即使多种传统的预测方法结合起来，其精度也有待提高。

发明内容

本发明提供一种音乐自动生成方法、装置及计算机可读存储介质，其主要目的在于提高自动生成的音乐的精准度。

为实现上述目的，本发明还提供一种音乐自动生成方法，该方法包括：

采集音乐旋律的音频信号，将所述音频信号转化为数字化音频存储；

对所述数字化音频的弹奏时间进行计时，判断弹奏时间与预设弹奏时间阈值的关系；

判断所述数字化音频的弹奏时间大于所述预设弹奏时间阈值时，启动时间序列预测模型，根据对预设弹奏时间阈值以前的数字化音频训练得到预设弹奏时间阈值以后的音乐伴奏；

判断所述数字化音频的完整弹奏时间小于所述预设弹奏时间阈值时，将所述数字化音频存储为非时间序列预测模型的训练数据。

可选地，所述步骤采集音乐旋律的音频信号，将所述音频信号转化为数字化音频存储，包括如下步骤：

利用音频放大器采集所述音频信号的采样频率和采样数位；

对所述音频信号进行数据清洗。

可选地，步骤对所述音频信号进行数据清洗，包括如下步骤：

将所述音频信号通过低通滤波器，对高于半采样频率的音频信号进行限带处理，以改善混叠干扰。

在采集所述音频信号的同时，采集抖动发生器发出的噪声，并将所述噪声加入到所述音频信号中，以改善量化误差干扰。

可选的，步骤判断所述数字化音频的弹奏时间大于所述预设弹奏时间阈值时，启动时间序列预测模型，根据对预设弹奏时间阈值以前的数字化音频训练得到预设弹奏时间阈值以后的音乐伴奏，还包括如下步骤：

将所述数字化音频存储作为非时间序列预测模型的训练数据。

此外，为实现上述目的，本发明还提供一种音乐自动生成装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如下步骤：

利用音频放大器采集所述音频信号的采样频率和采样数位；

对所述音频信号进行数据清洗。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有音乐自动生成程序，所述程序可被一个或者多个处理器执行，以实现如上所述的方法的步骤。

本发明提出的音乐自动生成方法、装置及计算机可读存储介质，通过预判断音乐旋律的弹奏时间，分不同的预测模型进行预测音乐旋律，提高了整个模型的鲁棒性和自适应性。

附图说明

图1为本发明一实施例提供的音乐自动生成方法的流程示意图；

图2为本发明一实施例提供的回声状态网络模型结构示意图；

图3为本发明一实施例提供的DCGAN网络模型训练流程示意图；

图4为本发明一实施例提供的音乐自动生成装置的内部结构示意图；

图5为本发明一实施例提供的音乐自动生成装置中程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种音乐自动生成方法。参照图1所示，为本发明一实施例提供的音乐自动生成方法的流程示意图。本方法可以采用具有声卡(Digital to Analog Converter，DAC)，中文称数模转换器的各类交互式装备，如手机、平板、电脑等，作为演奏的装置，实现本实施例的方法。上述各类交互式设备可以由软件和/或硬件实现。

在本实施例中，一种音乐自动生成方法包括：

步骤S10，采集音乐旋律的音频信号，将所述音频信号转化为数字化音频存储。

进一步的，步骤S10还包括：

S101：利用音频放大器采集所述音频信号的采样频率和采样数位；

因为音乐属于声音，是通过波形传播，采集音频信号的任务是将连续的声音波形离散化，即采集音乐模拟信号。根据奈奎斯特在1924年指出的采样定理：一个带宽受限的连续信号可以用一个离散的采样点序列替代，这种替代不会丢失任何信息。且傅里叶理论也指出：所有复杂的周期波形都由一系列按谐波排列的正弦波组成，复杂波形可以有多个正弦波的累加求和而合成出来。所以根据系统对音频信号进行离散采样，在各个确切的时间点上定义音频信号，可以采集到所要收集的音频信号。

演奏者通过交互式设备进行弹奏时，采集音频信号，在整个采集过程中，主要采集音频信号的采样频率(Sample Rate，频率是对音乐波形每秒钟所采样的次数)和采样数位，也可叫做采样精度(Quantizing，也称量化级，采样数位是每个采样点的振幅动态响应数据范围)两个方面，因为这二者决定了数字化音频的质量，即决定了后期深度学习预测音乐模型的鲁棒性。在本实施例中，利用音频放大器对音频信号的采样频率和采样精度进行采集，且结合交互式设备处理器性能和存储能力(存储量＝(采样频率*采样数位)/8(字节数))，在不影响本方案深度模型训练的前提下，音频放大器采用22.05kHz的采样频率和8位的采样位数。因为根据奈奎斯特采样定理：采样频率必须至少为信号最高频率的两倍，采样频率越高，声音失真越小、音频数据量也越大。所以综合实际来说，人耳听觉的频率上限在2OkHz左右，为了保证声音不失真，采样频率应在4OkHz左右，但是没有音乐会达到20kHz的频率，因为高频会影响听众的听觉感受，达不到音乐引起共鸣的效果，所以音频放大器中使用的采样频率为22.05kHz。采样数位经常采用的有8位、12位和16位，例如8位量化级表示每个采样点可以表示256(2⁸)个不同量化值，而16位量化级则可表示65536个不同量化值，采样量化位数越高音质越好，数据量也越大。但结合交互式设备处理器性能，音频放大器的处理环节采用8位的采样位数。

S102：对所述音频信号进行数据清洗。

即使用最复杂的技术，一个交互式设备的音频系统所能重现出的声音，也仅仅是真实声音的近似声音。而数据清洗是通过各种技术，缩小音频系统所存储的音乐和真实音乐的差距。上述通过音频放大器采集到音频信号，会产生很多干扰，因此需要对采集的音频数据进行清洗；在音频数据的采集阶段加入清洗步骤，减小了音频数据的噪声干扰。

进一步的，步骤S102还包括：

混叠干扰现象，即一个高于半采样频率的输入信号将产生一个频率较低的混叠信号，其中，半采样评率为采样频率的一半。例如，音频放大器的采样频率是22.05kHz，当音频信号的频率高于半采样频率11.025kHz时，就会产生一个干扰的混叠信号。针对混叠干扰信号采取如下数据清洗方法：在音频放大器采集完音频信号后，加入一个低通滤波器。将采集的音频信号通过一个低通滤波器(抗混叠滤波器)进行限带处理，这就在半采样频率处提供了足够的衰减，从而确保被采样信号中不包含超过半采样频率的频谱内容。

进一步的，步骤S102还包括：

在采样时刻，幅度值被舍入到最近的量化分度值上，这一操作将导致量化误差，在对音频信号的幅度进行量化时，真实模拟值与所选的量化分度值会产生误差，也就是量化误差。这种量化误差导致数字化存储音频信号时，不能对一个连续的模拟函数进行完美编码。根据量化误差干扰采取的数据清洗方法：在音频放大器采集音频信号时，同时采集抖动发生器发生的少量噪声。因为抖动本身是一个与音频信号不相关的幅度很小的噪声，它在音频信号采样之前被加入到交互式设备的音频信号中。在加入抖动信号以后，音频信号就会对各个量化级进行平移。对于之前时间上相邻的各个波形来说，因为现在每个周期都是不同的，所以就不会产生周期性的量化模式，因为量化误差是与信号周期息息相关，所以最终量化误差的各种影响，也被随机到足以使其得到去除的程度。

通过加入低通滤波器和抖动发生器解决数据清洗问题后，最后由数字转换器将音频信号转换为数字化音频存储到交互式设备中，音频数据的采集环节结束。

步骤S20，对所述数字化音频的弹奏时间进行计时，判断弹奏时间与预设弹奏时间阈值的关系；

步骤S30，当判断所述数字化音频的弹奏时间大于所述预设弹奏时间阈值时，启动时间序列预测模型，根据对预设弹奏时间阈值以前的数字化音频训练得到预设弹奏时间阈值以后的音乐伴奏。

进一步的，步骤S3还包括：

将所述数字化音频存储作为非时间序列预测模型的训练数据。这样做可以更好为非时间序列模型提供足够的训练数据，以供后续非时间序列模型训练和预测。

步骤S40，当判断所述数字化音频的完整弹奏时间小于所述预设弹奏时间阈值时，将所述数字化音频存储为非时间序列预测模型的训练数据。

交互式设备将用户弹奏的音乐旋律成功存储为数字化音频后，下一步就是根据所存储的数字化音频进行预测，例如将预设弹奏时间阈值设为30秒，当演奏者不间断的弹奏时间超过预设弹奏时间阈值30秒时，启动时间序列模型预测30秒后的音乐伴奏，当演奏者完整弹奏时间不足预设弹奏时间阈值30秒时，将音频信号存储为数字化音频，以供非时间序列预测模型训练和预测。

本实施例音乐预测模型采用的是时间序列预测模型和非时间序列预测模型，具体模型预测方法分别如下：

在步骤S30中，时间序列预测模型俗称在线预测，当演奏者达到30秒的演奏时间时，模型会通过该30秒的演奏数据，递归的修改输出连接权值w，然后有规律的预测输出，从而达到辅助演奏者演奏的目的。

整个时间序列预测模型分为模型训练和模型预测。具体如下：

训练时间序列训练模型阶段：时间序列预测是先在一段时间内获得一个系统相关变量的真实值，然后用回声状态网络算法对这个系统的某个或某些变量未来的取值进行预测。本模型预测的变量是音乐的采样频率和采样数位。回声状态网络是一种简化的递归神经网络模型，可以有效避免递归神经网络学习算法收敛速度慢的缺点，具有计算复杂性高的特性，特别适合应用于交互式设备中，这是本实施例中采用其进行时间序列预测的主要原因。回声状态网络是由三个部分构成，如图2所示，图2为本发明一实施例提供的回声状态网络模型结构示意图。

结合音乐旋律在某t时刻来说，

中间部分的大圆圈001表示储备池x_t，w_t是t时刻储备池权值的估计值。

左边部分002表示真实数据的输入神经元，即音乐的采样频率和位数，统称为测量值

右边部分003表示模型预测的输出神经元y_t。

储备池是由大量的神经元组成(数量通常为几百个)，储备池内部的神经元采用稀疏连接(稀疏连接是指神经元之间只是部分连接，如上图所示)，神经元之间的连接权值是随机生成的，并且连接权值生成后就保持固定不变，也就是储备池的连接权值不需要训练。外部数据通过输入神经元进入到储备池后预测，最终由输出神经元输出y_t。

对于回声状态网络的时间序列预测模型的训练，本实施例使用卡尔曼滤波法。卡尔曼滤波作为一种数值估计的优化方法，应用在任何含有不确定信息的动态系统中，对系统的下一步的走向都能做出有根据的预测，所以使用卡尔曼滤波训练回声状态网络可以高效的提升时间序列预测模型的准确率。结合卡尔曼滤波法的方程公式，在t+1时刻时有：

w_t+1＝w_t+α_t

其中α_t、β_t分别为卡尔曼滤波在t时刻的过程噪声和测量噪声，其协方差矩阵分别为q_t、r_t。而对于t时刻的时间序列模型，由以下步骤可得：

p_t＝p_t-1+q_t-1

其中p_t是协方差矩阵，k_t是卡尔曼滤波器的增益。同理可得t-1、t-2等时刻的状态量。由以上所述，可以更新储备池内的权重，达到训练时间序列预测模型的目的。

模型预测阶段：对弹奏时间计时，判断弹奏时间是否超过预设弹奏时间阈值；

进一步的，本实施例中用户在使用交互式设备开始弹奏时，设备同时启动两个步骤，一、对弹奏时间计时；二、将数字化音频存储。数字化音频存储的目的是为了存储足够训练数据供非时间序列预测模型训练使用。

设定的预设弹奏时间阈值为30秒。一旦弹奏时间超过阈值30秒后，基于已训练好的回声状态网络的时间序列预测模型开始工作，输出音乐伴奏，辅助演奏者弹奏；

当弹奏的完整时间不足30秒时，时间序列预测模型不工作，但弹奏数据会通过交互式设备转为数字化音频存储到内存中，作为训练数据供非时间序列预测模型训练。设定弹奏时间阈值的原因是为了保证具有足够的音频存储量，以提高预测准确率。

在步骤S40中，与时间序列预测模型对应的是非时间序列预测模型。当弹奏者弹奏出音乐旋律时，音频信号会被转化成数字化音频被存储到交互式设备中，基于每次存储的数字化音频，交互式设备都会对其进行训练和预测。这种基于离线训练和预测的方法称为非时间预测模型。本实施例采用深度卷积生成对抗网络法(Deep ConvolutionalGenerative Adversarial Nerworks，DCGAN)对非时间序列进行预测。主要步骤包括：

S401：提取存储的数字化音频；

S402：训练深度卷积生成对抗网络；

S403：根据用户需求播放预测的音乐伴奏。

其中步骤S401主要是将之前在交互式设备存储的数字化音频提取出来。步骤S402根据所提取的数据进行生成式对抗网络的训练。使用该网络的原因是因为弹奏者的精力有限，继而在交互式设备中所存储的数字化音频的数据量并不多，针对这种样本数据量不够多的问题，使用深度卷积生成对抗网络自动生成数据的同时也训练音乐旋律，达到两重的效果。在本实施例中，DCGAN网络模型包含一个生成网络G和一个判别网络D，DCGAN的目标函数是基于生成网络G与判别网络D的最小值和最大值的问题。如图3所示，图3为DCGAN网络模型训练流程示意图3，当生成对抗网络训练一个生成器时，首先利用生成网络G，从随机的数字化音频噪声Z(音频噪声是提前在DCGAN中存储的数字化随机音频数据，其并不是有规律的音乐旋律数据)中生成逼真的数字化音频样本，同时判别网络D训练一个鉴别器来鉴别真实数字化音频X(真实数字化音频是指在步骤一所存储的具有旋律的数字化音频)和生成的数字化音频样本之间的差距。整个过程让生成器和鉴别器同时训练，直到生成网络G与判别网络D的损失函数值都达到预设的某阈值时，证明此时模型训练成功，具有预测音乐旋律的能力。此时模型的生成网络生成的数字化音频数据与真实的样本具有很高的相似度，即使判别网络也无法区分生成网络生成的数字化音频数据和真实数据的差异，

其中，生成网络G的损失函数为：

(1-y)lg(1-D(G(Z)))

判别网络D的损失函数为：

-((1-y)lg(1-D(G(Z)))+ylgD(x))

其中，x表示输入参数，即步骤(1)提取的数字化音频，y指DCGAN的生成网络G与判别网络D所预测的数字化音频值。特别要强调是，DCGAN的生成网络和判别网络都是卷积神经网络。基于以上所述，训练成功的非时间序列预测模型可自动生成音乐伴奏，供演奏者使用学习。

本发明还提供一种音乐自动生成装置。参照图4所示，为本发明一实施例提供的音乐自动生成装置的内部结构示意图。

在本实施例中，音乐自动生成装置1可以是PC(Personal Computer，个人电脑)，也可以是智能手机、平板电脑、便携计算机等终端设备。该音乐自动生成装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是音乐自动生成装置1的内部存储单元，例如该音乐自动生成装置1的硬盘。存储器11在另一些实施例中也可以是音乐自动生成装置1的外部存储设备，例如音乐自动生成装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括音乐自动生成装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于音乐自动生成装置1的应用软件及各类数据，例如音乐自动生成程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行音乐自动生成程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该音乐自动生成装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在音乐自动生成装置1中处理的信息以及用于显示可视化的用户界面。

图4仅示出了具有组件11-14以及音乐自动生成程序01的音乐自动生成装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对音乐自动生成装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图4所示的音乐自动生成装置1实施例中，存储器11中存储有音乐自动生成程序01；处理器12执行存储器11中存储的音乐自动生成程序01时实现如下步骤：

步骤S10，采集音乐旋律的音频信号，将所述音频信号转化为数字化音频存储；

进一步的，步骤S10还包括：

S102：对所述音频信号进行数据清洗。

进一步的，步骤S102还包括：

步骤S30，当判断所述数字化音频的弹奏时间大于所述预设弹奏时间阈值时，启动时间序列预测模型，根据对预设弹奏时间阈值以前的数字化音频训练得到预设弹奏时间阈值以后的音乐伴奏；

进一步的，步骤S30还包括：

交互式设备将用户弹奏的音乐旋律成功存储为数字化音频后，下一步就是根据所存储的数字化音频进行预测，将预设弹奏时间阈值设为30秒，当演奏者不间断的弹奏时间超过预设弹奏时间阈值30秒时，启动时间序列模型预测30秒后的音乐伴奏，当演奏者完整弹奏时间不足预设弹奏时间阈值30秒时，将音频信号存储为数字化音频，以供非时间序列预测模型训练和预测。

结合音乐旋律在某t时刻来说，

右边部分003表示模型预测的输出神经元y_t。

w_t+1＝w_t+α_t

p_t＝p_t-1+q_t-1

在步骤S40中，与时间序列预测模型对应的是非时间序列预测模型。当弹奏者弹奏出音乐旋律时，音频信号会被转化成数字化音频被存储到交互式设备中，基于每次存储的数字化音频，交互式设备都会对其进行训练和预测。这种基于离线训练和预测的方法称为非时间预测模型。本实施例采用深度卷积生成对抗网络法(Deep ConvolutionalGenerative Adversarial Nerworks,DCGAN)对非时间序列进行预测。主要步骤包括：

S401：提取存储的数字化音频；

S402：训练深度卷积生成对抗网络；

S403：根据用户需求播放预测的音乐伴奏。

其中步骤S401主要是将之前在交互式设备存储的数字化音频提取出来。步骤S402根据所提取的数据进行生成式对抗网络的训练。使用该网络的原因是因为弹奏者的精力有限，继而在交互式设备中所存储的数字化音频的数据量并不多，针对这种样本数据量不够多的问题，使用深度卷积生成对抗网络自动生成数据的同时也训练音乐旋律，达到两重的效果。在本实施例中，DCGAN网络模型包含一个生成网络G和一个判别网络D，DCGAN的目标函数是基于生成网络G与判别网络D的最小值和最大值的问题。如图3所示，图3为DCGAN网络模型训练流程示意图3，当生成对抗网络训练一个生成器时，首先利用生成网络G，从随机的数字化音频噪声Z(音频噪声是提前在DCGAN中存储的数字化随机音频数据，其并不是有规律的音乐旋律数据)中生成逼真的数字化音频样本，同时判别网络D训练一个鉴别器来鉴别真实数字化音频X(真实数字化音频是指在步骤一所存储的具有旋律的数字化音频)和生成的数字化音频样本之间的差距。整个过程让生成器和鉴别器同时训练，直到生成网络G与判别网络D的损失函数值都达到预设的某阈值时，证明此时模型训练成功，具有预测音乐旋律的能力。此时模型的生成网络生成的数字化音频数据与真实的样本具有很高的相似度，即使判别网络也无法区分生成网络生成的数字化音频数据和真实数据的差异，其中，生成网络G的损失函数为：

(1-y)lg(1-D(G(Z)))

判别网络D的损失函数为：

-((1-y)lg(1-D(G(Z)))+ylgD(x))

可选地，在其他实施例中，音乐自动生成程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述音乐自动生成程序在音乐自动生成装置中的执行过程。

例如，参照图5所示，为本发明音乐自动生成装置一实施例中的音乐自动生成程序的程序模块示意图，该实施例中，音乐自动生成程序可以被分割为音频信号采集模块10、弹奏时间计时模块20，时间序列预测模型30，及非时间序列预测模型40，示例性地：

音频信号采集模块10，用于采集音乐旋律的音频信号，将所述音频信号转化为数字化音频存储；

弹奏时间计时模块20，用于对所述数字化音频的弹奏时间进行计时，判断弹奏时间与预设弹奏时间阈值的关系；

时间序列预测模型30，用于判断所述数字化音频的弹奏时间大于所述预设弹奏时间阈值时，启动时间序列预测模型，根据对预设弹奏时间阈值以前的数字化音频训练得到预设弹奏时间阈值以后的音乐伴奏；

非时间序列预测模型40，用于判断所述数字化音频的完整弹奏时间小于所述预设弹奏时间阈值时，将所述数字化音频存储为非时间序列预测模型的训练数据。

上述音频信号采集模块10、弹奏时间计时模块20、时间序列预测模型30及非时间序列预测模型40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有音乐自动生成程序，所述音乐自动生成程序可被一个或多个处理器执行，以实现如下操作：

本发明计算机可读存储介质具体实施方式与上述音乐自动生成装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音乐自动生成方法，其特征在于，所述方法包括：

当判断所述数字化音频的弹奏时间大于所述预设弹奏时间阈值时，启动时间序列预测模型，根据对预设弹奏时间阈值以前的数字化音频训练得到预设弹奏时间阈值以后的音乐伴奏；

当判断所述数字化音频的完整弹奏时间小于所述预设弹奏时间阈值时，将所述数字化音频存储为非时间序列预测模型的训练数据。

2.根据权利要求1所述的音乐自动生成方法，其特征在于，所述采集音乐旋律的音频信号，将所述音频信号转化为数字化音频存储的步骤，包括如下步骤：

利用音频放大器采集所述音频信号的采样频率和采样数位；

对所述音频信号进行数据清洗。

3.根据权利要求2所述的音乐自动生成方法，其特征在于，所述对所述音频信号进行数据清洗的步骤，包括如下步骤：

4.根据权利要求2所述的音乐自动生成方法，其特征在于，所述对所述音频信号进行数据清洗的步骤，包括如下步骤：

5.根据权利要求1-4任意一项所述的音乐自动生成方法，其特征在于，所述当判断所述数字化音频的弹奏时间大于所述预设弹奏时间阈值时，启动时间序列预测模型，根据对预设弹奏时间阈值以前的数字化音频训练得到预设弹奏时间阈值以后的音乐伴奏的步骤，还包括如下步骤：

将所述数字化音频存储为非时间序列预测模型的训练数据。

6.一种音乐自动生成装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的音乐自动生成程序，所述音乐自动生成程序被所述处理器执行时实现如下步骤：

7.根据权利要求6所述的音乐自动生成装置，其特征在于，所述采集音乐旋律的音频信号，将所述音频信号转化为数字化音频存储的步骤，包括如下步骤：

利用音频放大器采集所述音频信号的采样频率和采样数位；

对所述音频信号进行数据清洗。

8.根据权利要求7所述的音乐自动生成装置，其特征在于，所述对所述音频信号进行数据清洗的步骤，包括如下步骤：

9.根据权利要求7所述的音乐自动生成装置，其特征在于，所述对所述音频信号进行数据清洗的，还包括如下步骤：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有音乐自动生成程序，所述程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的方法的步骤。