CN111863026B

CN111863026B - 键盘乐器弹奏音乐的处理方法、装置、电子装置

Info

Publication number: CN111863026B
Application number: CN202010732687.3A
Authority: CN
Inventors: 徐成振; 智鹏鹏; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2024-05-03
Anticipated expiration: 2040-07-27
Also published as: CN111863026A

Abstract

本申请提供的键盘乐器弹奏音乐的处理技术方案，根据键盘乐器的按键数量以及每个按键对应产生的音高值，建立识别音高值及其出现概率的模型；对键盘乐器产生的音频文件进行预处理，以提取其中至少一音频帧的音频特征；将音频帧的音频特征输入到上述模型中，识别出上述音频帧对应的音高值及其出现概率；根据音频帧对应的音高值及其出现概率，确定对应音频帧的内容识别结果。上述方案通过根据键盘乐器的按键数量以及每个按键对应产生的音高值而建立的识别音高值及其出现概率的模型，来识别出上述音频帧对应的音高值及其出现概率，降低了键盘乐器弹奏音乐的识别处理难度，提高了识别的准确度。

Description

键盘乐器弹奏音乐的处理方法、装置、电子装置

技术领域

本申请涉及语音处理技术领域，尤其是涉及一种键盘乐器弹奏音乐的处理方法、装置、电子装置及存储介质。

背景技术

近年来，语音识别技术取得显著进步，语音识别技术已进入工业、家电、医疗、家庭服务、消费电子产品等多个领域。

键盘乐器是有排列如钢琴键盘的琴键的乐器总称。这些乐器上每个琴键都有固定的音高，因此都可以用于演奏任何符合其音域范围内的乐曲。以键盘乐器为钢琴，即键盘乐器产生的音乐为钢琴音乐为例，当用户听到感兴趣的钢琴音乐时，可以将钢琴音乐录制下来，通过对录制的钢琴音乐进行识别处理，使得用户能够知道钢琴音乐的弹奏内容进而去学习创作，降低了学习钢琴音乐的门槛，让普通大众都能接触到钢琴音乐。但是，对录制的钢琴音乐进行识别处理的难度大，易出错。

发明内容

有鉴于此，本发明实施例提供一种键盘乐器弹奏音乐的处理方法、装置、电子装置及存储介质，用以克服上述缺陷。

第一方面，本申请实施例提供一种键盘乐器弹奏音乐的处理方法，所述方法包括：

根据所述键盘乐器的按键数量以及每个按键对应产生的音高值，建立识别音高值及其出现概率的模型；

对所述键盘乐器产生的音频文件进行预处理，以提取其中至少一音频帧的音频特征；

将所述音频帧的所述音频特征输入到所述模型中，识别出所述音频帧对应的音高值及其出现概率；

根据所述音频帧对应的音高值及其出现概率，确定对应所述音频帧的内容识别结果。

可选地，在本申请的一实施例中，所述音频特征为梅尔频率倒谱特征。

可选地，在本申请的一实施例中，所述根据所述音频帧对应的音高值及其出现概率，确定对应所述音频帧的内容识别结果，包括：

将所述音频帧对应的音高值的出现概率，与出现概率阈值进行比对；

将出现概率大于所述出现概率阈值的音高值，确定为对应所述音频帧的内容识别结果。

可选地，在本申请的一实施例中，所述根据所述音频帧对应的音高值及其出现概率，确定对应所述音频帧的内容识别结果之后，还包括：

根据所述音频文件的所有所述音频帧的内容识别结果，生成识别结果矩阵。

可选地，在本申请的一实施例中，所述根据所有所述音频帧的内容识别结果，生成识别结果矩阵之后，还包括：

获取输入的音乐选取时间片段；

根据所述音乐选取时间片段与所述音频帧的帧移，确定所述音乐选取时间片段在所述识别结果矩阵中对应的音高值，并将其作为所述音乐选取时间片段对应的音频帧的识别结果。

可选地，在本申请的一实施例中，所述根据所述音乐选取时间片段与所述音频帧的帧移，确定所述音乐选取时间片段在所述识别结果矩阵中对应的音高值，并将其作为所述音乐选取时间片段对应的音频帧的识别结果之后，还包括：

将所述音乐选取时间片段对应的音频帧的识别结果映射成音阶和音调的关系文本；

根据所述音阶和音调的关系文本，合成新的音频文件。

可选地，在本申请的一实施例中，所述根据所述音阶和音调的关系文本，合成新的音频文件，包括：

将所述音阶和音调的关系文本转换成字符序列；

对所述字符序列中的每个字符进行转换处理得到每个字符对应的字符向量；

根据所述每个字符对应的字符向量，生成字符矩阵；

根据所述字符矩阵，合成新的音频文件。

可选地，在本申请的一实施例中，所述根据所述字符矩阵，合成新的音频文件，包括：

对所述字符矩阵中每个字符向量进行编码处理得到每个字符的位置特征；

根据所述每个字符的位置特征，合成新的音频文件。

可选地，在本申请的一实施例中，所述根据所述每个字符的位置特征，合成新的音频文件，包括：

根据所述字符序列中每个字符的位置特征，计算每个字符对应的注意力上下文向量；

根据所述字符序列中所有字符及其对应的注意力上下文向量，合成新的音频文件。

可选地，在本申请的一实施例中，所述根据所述字符序列中所有字符及其对应的注意力上下文向量，合成新的音频文件包括：

根据所述字符序列中所有字符及其对应的注意力上下文向量，生成对应的的频谱；

根据所述频谱，合成新的音频文件。

第二方面，本申请实施例提供一种键盘乐器弹奏音乐的处理装置，所述处理装置包括：

模型建立单元，用于根据所述键盘乐器的按键数量以及每个按键对应产生的音高值，建立识别音高值及其出现概率的模型；

预处理单元，用于对所述键盘乐器产生的音频文件进行预处理，以提取其中至少一音频帧的音频特征；

音高识别单元，用于将所述音频帧的所述音频特征输入到所述模型中，识别出所述音频帧对应的音高值及其出现概率；

内容识别单元，用于根据所述音频帧对应的音高值及其出现概率，确定对应所述音频帧的内容识别结果。

第三方面，本申请实施例提供一种电子装置，其包括存储器以及处理器，所述存储器上存储有计算机可执行指令，所述处理器用于执行所述计算机可执行指令以实现本申请任一实施例所述处理方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有被执行时实现本申请任一实施例所述处理方法的计算机可执行指令。

本申请提供的键盘乐器弹奏音乐的处理技术方案，根据键盘乐器的按键数量以及每个按键对应产生的音高值，建立识别音高值及其出现概率的模型；对键盘乐器产生的音频文件进行预处理，以提取其中至少一音频帧的音频特征；将音频帧的音频特征输入到上述模型中，识别出上述音频帧对应的音高值及其出现概率；根据音频帧对应的音高值及其出现概率，确定对应音频帧的内容识别结果。上述方案通过根据键盘乐器的按键数量以及每个按键对应产生的音高值而建立的识别音高值及其出现概率的模型，来识别出上述音频帧对应的音高值及其出现概率，从而降低了键盘乐器弹奏音乐的识别处理难度，且提高了识别的准确度。

附图说明

图1为本申请实施例一提供的一种键盘乐器弹奏音乐的处理方法流程示意图；

图2为本申请实施例二提供的一种键盘乐器弹奏音乐的处理方法流程示意图；

图3为本申请实施例三提供的一种键盘乐器弹奏音乐的处理方法流程示意图；

图4为本申请实施例四提供的一种键盘乐器弹奏音乐的处理装置结构示意图；

后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比值绘制的。

具体实施方式

下面结合本发明实施例附图进一步说明本申请实施例具体实现。

应当理解，键盘乐器可以是钢琴、管风琴、手风琴或者电子琴等，本申请为便于陈述，下文中主要以键盘乐器为钢琴，即处理的音乐为钢琴音乐为例进行介绍。

图1为本申请实施例一提供的一种键盘乐器弹奏音乐的处理方法流程示意图；如图1所示，所述方法包括：

S1、根据键盘乐器的按键数量以及每个按键对应产生的音高值，建立识别音高值及其出现概率的模型。

本实施例中，可以通过有标签的样本数据来学习(确定)模型中所有权重参数的理想值，从而建立识别音高值及其出现概率的模型。即可以首先对用于训练模型的样本数据进行打标签，例如将钢琴音乐中每一音频帧打上对应的音高值标签，然后将打标签的钢琴音乐输入待训练模型，该模型可以是一个神经网络模型，其根据输入的钢琴音乐进行学习，最后输出预测的音高值及其出现概率，然后将预测的音高值及其出现概率与标签进行比较，根据比较结果调整更新模型内部权重参数，重复上述过程直到模型中的损失函数值降到最低并且趋于稳定，则建立了识别音高值及其出现概率的模型，其中，上述模型的输出单元数量可以设置为键盘乐器的按键数量。

S2、对键盘乐器产生的音频文件进行预处理，以提取其中至少一音频帧的音频特征。

本实施例中，所述键盘乐器弹奏音乐的格式不做特别限定，比如可以为MP3格式、WAV格式等其他格式。

在本申请实施例中，对键盘乐器弹奏音乐进行预处理的方式可以是先将键盘乐器弹奏音乐转换为单声道键盘乐器弹奏音乐并进行分帧，具体的，例如，可以将钢琴音乐中每一音频帧的两个声道的音频数据取平均值，得到单声道钢琴音乐。然后可以按照预设的帧长与预设的帧移，例如帧长20ms，帧移10ms，对钢琴音乐进行分帧得到若干个音频帧，再从每个音频帧中提取该音频帧的音频特征。在本实施例中，将钢琴音乐转换为单声道钢琴音乐，由于单声道钢琴音乐具有较强的清晰度、层次感、和方位感，使得后续提取的音频特征更加准确。

本实施例中，可选地，可以通过梅尔频率倒谱特征(Mel Frequency CepstrumCoefficient，简称MFCC)提取算法从每个音频帧中提取该音频帧的梅尔频率倒谱特征，该梅尔频率倒谱特征(又称之为MFCC特征)做为音频特征。上述提取是建立从人类的听觉感知的频率——Pitch到声音实际频率直接的映射，人耳对于低频声音的分辨率要高于高频的声音，因此通过把频率转换成MFCC特征，能够更好的匹配人类的听觉感知效果。

本实施例中，该梅尔频率倒谱特征可以包括40维数据，该40维数据具体包括：13维MFCC特征+13维一阶差分MFCC特征+13维二阶差分MFCC特征+帧能量，使得梅尔频率倒谱特征能反映音频帧的音频特征的静态属性和动态属性，进一步提高了钢琴音乐的识别性能。需要说明的是，帧能量可以根据具体情况自由调整，可以进行提取也可以不提取。

S3、将音频帧的音频特征输入到上述模型中，识别出所述音频帧对应的音高值及其出现概率。

本实施例中，可以将所述音频帧的音频特征输入到步骤S1建立的神经网络模型中，由该神经网络模型对每个音频帧中的音高进行识别，得到不同钢琴按键被弹奏时产生的音高值及其在每个所述音频帧中的出现概率。

本实施例中，该神经网络模型比如可以是长短时记忆网络模型(Long Short TermMemory Network，LSTM)。

本实施例中，长短时记忆网络模型的结构具体包括输入层、隐藏层、输出层，输入层包括40个神经单元，隐藏层的数量为3个，每个隐藏层包括512个神经单元，输出层包括88个神经单元。其中输入层用于获取输入的音频特征，其神经元单元的数量等于音频特征的维度数目；隐藏层进行音高值及其出现概率提取，输出层用于对接隐藏层并输出不同钢琴按键被弹奏时产生的音高值在每个所述音频帧中的出现概率，为此，输出层的神经元数量等于钢琴按键的数量88。

本实施例中，在上述长短时记忆网络模型的输入层中加入丢弃因子(业界称之为dropout)暂时丢弃输入层中的一些神经单元以防止在获取输入音频特征的时候出现过拟合，保证了钢琴音乐的识别性能，可选地，dropout可以设置为0.2。

本实施例中，隐藏层中激活函数可以设置为双曲正切tanh函数或者sigmoid函数，从而使得提取到的音高值及其出现概率较为准确。

本实施例中，可以根据不同钢琴按键被弹奏时产生的音高值及其在每个所述音频帧中的出现概率，生成对应所述音频帧的音高值向量。

比如，对于某一音频帧，识别出的音高值分别为C1、C2、C3……，其对应的出现概率分别为P1、P2、P3……，则对应该音频帧的音高值向量[(C1，P1)、(C2，P2)、(C3，P3)……]。

比如，设定音频帧的帧移为10ms，每一个音频帧对应得到一个音高值向量，该音高值向量可以是88维的向量，对应钢琴的88个钢琴按键，则0-10ms对应第一个音频帧，10ms-20ms对应第二个音频帧，20ms-30ms对应第三个音频帧，30ms-40ms对应第4个音频帧，以此类推，分别在0-10ms对应第一个音频帧的音高值向量，在10ms-20ms对应第二个音频帧的音高值向量，在20ms-30ms对应第三个音频帧的音高值向量，在30ms-40ms对应第四个音频帧的音高值向量，即以帧移为单位定义音高向量的精度，从而进一步提高了识别的准确度。

S4、根据音频帧对应的音高值及其出现概率，确定对应所述音频帧的内容识别结果。

具体地，可以将所述音频帧对应的音高值的出现概率，与出现概率阈值进行比对；然后将出现概率大于所述出现概率阈值的音高值，确定为对应所述音频帧的内容识别结果。

本实施例中，为了降低识别的难度，保证识别的准确度，设定了音高值在所述音频帧中的出现概率阈值，该出现概率阈值可以根据应用场景的需求进行人为调整或者自适应调整，优选的，出现概率阈值可以是0.45。

本实施例中，当提取到的某个音高值的出现概率大于出现概率阈值，则认为该音高值在该音频帧中实际存在。

本实施例中，由于在钢琴音乐中同一时刻可能存在至少两个按键被按压，因此可以产生至少两个不同的音高值，这两个音高值的出现概率实际上都大于上述出现概率阈值，因此，在设置出现概率阈值的大小后，可以保证同一时刻至少两个按键被按压时产生两个不同的音高值都能够被确定出，从而保证识别的准确度。

本实施例中，对于生成对应所述音频帧的音高值向量的情形来说，可以将每个所述音频帧对应的的音高值向量中音高值的出现概率与所述出现概率阈值进行比对，以确定每个所述音频帧中出现概率大于出现概率阈值的音高值。

本实施例中，比如对于上述某音频帧的音高值向量[(C1，P1)、(C2，P2)、(C3，P3)……]，音高值分别为C1、C2、C3的出现概率P1、P2、P3均大于设定的出现概率阈值P0，则将(C1，P1)、(C2，P2)、(C3，P3)作为该音频帧的识别结果。

可选地，在本实施例中，所述步骤S4根据音频帧对应的音高值及其出现概率，确定对应所述音频帧的内容识别结果之后还可以包括如下步骤S5：

S5：根据上述音频文件的所有音频帧的内容识别结果，生成识别结果矩阵。

本实施例中，通过步骤S5从而高效的对整个钢琴音乐的内容识别结果进行管理，便于对整个钢琴音乐的内容识别结果进行后期处理，比如合成新的音频文件。

参见上述示例，可以将(C1，P1)、(C2，P2)、(C3，P3)组成对应音频帧的音高值向量[(C1，P1)、(C2，P2)、(C3，P3)]，所有音频帧对应的音高值向量组成识别结果矩阵。

图2为本申请实施例二提供的一种键盘乐器弹奏音乐的处理方法流程示意图；如图2所示，在上述图1所示步骤S1-S5的基础上，增加了如下步骤：

S6、获取输入的音乐选取时间片段；

本实施例中，当要对整个钢琴音乐的某段音乐感兴趣或者要对某个片段进行学习，则用户可以输入对应的音乐选取时间片段。该输入可以通过语音方式输入或者进度条定位的方式输入，比如该音乐选取时间片段可以为第3s到第10s。

S7、根据音乐选取时间片段与所述音频帧的帧移，确定音乐选取时间片段在识别结果矩阵中对应的音高值。

本实施例中，如前所述，音高值可以用音高值向量表示，由于识别结果矩阵的精度等于帧移，而一个音频帧对应一个音高值向量，因此，可以通过计算所述音乐选取时间片段覆盖的帧移数量，从而确定出所述音乐选取时间片段在所述钢琴音乐的识别结果矩阵中对应的音高值向量。

比如，第3s覆盖到300个帧移，则表示第3000ms对应第300个帧移，进一步确定出对应第300个音高值向量，再比如对于第4s到第10s，以此类推，分别对应第400-1000个音高值向量。

S8、将音乐选取时间片段在识别结果矩阵中对应的音高值，确定为音乐选取时间片段对应的音频帧的识别结果。

如上所述，对于音乐选取时间片段为第3s到第10s的情形，确定出对应第300个音高值向量-1000个音高值向量，则可以从所述钢琴音乐的识别结果矩阵取出第300个音高值向量-1000个音高值向量，作为第3s到第10s这一时间段钢琴音乐的识别结果。

本实施例中，通过获取输入的音乐选取时间片段；根据所述音乐选取时间片段与所述音频帧的帧移，确定所述音乐选取时间片段在所述钢琴音乐的识别结果矩阵中对应的音高值向量，并将其作为音乐选取时间片段对应的音频帧的识别结果，保证了识别结果的准确性。

图3为本申请实施例三提供的一种键盘乐器弹奏音乐的处理方法流程示意图；如图3所示，在上述步骤S1-S8的基础上，所述方法还包括：

S9、将所述音乐选取时间片段对应的音频帧的识别结果映射成音阶和音调的关系文本。

本实施例中，所述音乐选取时间片段对应的音频帧的识别结果是一种数字表示，对用户来说不太直观，因此，可以通过步骤S9将其转换为音乐上常用的乐谱表示形式，比如“A小调”、“B大调”等文本。

具体地，本实施例中，可以通过tacorton2模型、tacorton模型，以及，传统的线性预测编码(linearpredictivecoding，简称lpc)语音合成技术中的文本转换机制将所述音乐选取时间片段对应的所述音频帧的识别结果映射成音阶和音调的关系文本。

S10、根据所述音阶和音调的关系文本，合成新的音频文件。

本实施例中，从整个钢琴音乐中截取出所述音乐选取时间片段对应的音频成为一个独立的音频文件，便于用户进行收听、学习。

本实施例中，步骤S10中根据所述音阶和音调的关系文本，合成新的音频文件，具体可以包括：

S101、将所述音阶和音调的关系文本转换成字符序列。

具体地，本实施例中，可以通过tacorton2模型、tacorton模型，以及，传统的线性预测编码(linear predictive coding，简称lpc)语音合成技术中文本到字符转换机制将所述音阶和音调的关系文本转换成字符序列。

比如对于某一音频帧对应的关系文本为“A小调”、“B大调”，则其字符序列为：A、小、调、B、大、调。

S102、对所述字符序列中的每个字符进行转换处理得到每个字符对应的字符向量。

具体地，本实施例中，可以通过tacorton2模型、tacorton模型，以及，传统的线性预测编码(linearpredictivecoding，简称lpc)语音合成技术中字符向量转换机制将每个字符进行转换处理对应的字符向量，比如通过对每个字符进行非线性变化得到512维的字符变量，该512维的字符变量反映了对应字符在关系文本中体现的特征。

S103、根据所述每个字符对应的字符向量，生成字符矩阵。

本实施例中，通过步骤S103的处理，将字符序列中的所有字符对应的字符向量组成字符矩阵，便于后期合成的音频文件中可以按照匹配乐谱方式的正常播放。

S104、根据所述字符矩阵，合成新的音频文件。

可选地，在本实施例中，步骤S104中根据所述字符矩阵，合成新的音频文件包括：

S114、对所述字符矩阵中每个字符向量进行编码处理得到每个字符的位置特征。

本实施例中，具体可以通过编码器中的卷积神经网络对所述字符矩阵中每个所述字符向量进行卷积处理以实现所述编码。

示例性地，采用3层1维卷积神经网络，每层包括512个3乘1的卷积核，激活函数使用修正线性单元(Rectified linear unit,ReLU)，由于字符向量的维度为512维，因此，输出层包括512个神经单元，输出层的输出为位置特征(或者有称之为编码器的隐状态)，输出层再接双向LSTM对所述位置特征以生成反映字符序列中字符之间的前后位置相关性的位置特征。

有关编码器中的卷积神经网络对所述字符矩阵中每个所述字符向量进行卷积处理以实现所述编码的详细处理过程，可利用现有技术或者改进现有技术实现。

S124、根据所述每个字符的位置特征，合成新的音频文件。

可选地，本实施例中，所述步骤S124根据所述每个字符的位置特征，合成新的音频文件可以包括：

S1241、根据所述字符序列中每个字符的位置特征，计算每个字符对应的注意力上下文向量。

本实施例中，具体可以基于上述卷积神经网络中的注意力机制(AttentionMechanism)根据所述字符序列中每个字符对应的所述位置特征计算出字符的注意力权重，根据注意力权重计算每个字符的注意力上下文向量。比如将所述字符序列和所述位置特征，投影到卷积神经网络中的128维隐藏层上，从而得到字符的注意力权重，从而减少后续步骤S1242中的计算量。

本实施例中，注意力权重反映了字符的重要程度，从而减少不同音频帧对应字符序列中字符的重复或遗漏，或者同一音频帧中相同字符的重复。

S1242、根据所述字符序列中所有字符及其对应的注意力上下文向量，合成新的音频文件。

可选地，在本申请的一实施例中，所述根据所述字符序列中所有字符及其对应的注意力上下文向量，合成新的音频文件包括：根据所述字符序列中所有字符及其对应的注意力上下文向量，生成对应的频谱；根据所述频谱，合成新的音频文件。

本实施例中，具体可以通过解码器根据所述字符序列中所有字符及其对应的注意力上下文向量，合成新的音频文件。

具体地，本实施例中，在解码器上配置全连接神经网络模型，在该全连接神经网络模型中，配置均为512个神经单元的2个隐藏层，且其中的激活函数为relu，隐藏层的输出(从字符序列中重新提取到的字符)和注意力上下文向量拼接后传给两层由512个单元组成的单向长短时记忆网络模型LSTM进行处理以生成对应的频谱，从而合成新的音频文件。

本实施例中，在利用解码器合成新的音频文件方案中，可以通过基于解编码-解码框架的位置敏感的注意力模型(即上述注意力机制)计算字符对应的注意力上下文向量，为此，参与编码处理的字符称之为编码字符，解码完成的字符称为解码字符。该上下文向量可以用于表示所述字符与其前后字符的关系，该注意力模型首先得到注意量上下文估计函数eij，再对注意力估计函数进行非线性处理得到字符的上下文注意力向量，对该上下文估计值进行变化该上下文函上下文向量，该注意力模型使用如下公式得到注意量上下文估计函数eij：

f_i,j＝F*ca_i-1；

其中，v_a、W、V、U和b为学习到的注意力参数，其中，根据应用场景的需求通过实验设定。s_i为解码器在其定义的第i个时间区间对字符序列进行解码处理重新得到对应编码字符的解码字符，h_j是编码器在其定义的第j个时间区间对编码字符进行编码得到的位置特征；f_i,j是在第1至第i-2个时间区间对编码字符所在的字符向量进行编码得到的编码字符的位置特征，a_k是编码器在第i-1个时间区间根据所述编码字符的位置特征计算出的注意力权重。

可选地，可以利用声码器对上述生成的频谱进行计算，生成用于播放的音频波形并进行播报，声码器可以是Griffin_lim或者waveglow。

本实施例中，基于上述解码器的具体结构生成频谱的过程可利用现有技术实现，也可以利用改进的现有技术实现。

可选地，在单向LSTM长短时记忆网络模型后还配置5层卷积神经网络(每层256个单元，卷积核3乘1，0.2的dropout)用以改善梅尔谱生成的过程，修改单向长短时记忆网络模型LSTM生成的频谱，保证合成的效果更好。

本实施例中，需要说明的是，上述步骤S9-S10可以单独组成音频合成的方案。

图4为本申请实施例四提供的一种键盘乐器弹奏音乐的处理装置结构示意图；如图4所示，所述处理装置包括：

模型建立单元410，用于根据所述键盘乐器的按键数量以及每个按键对应产生的音高值，建立识别音高值及其出现概率的模型；

预处理单元411，用于对所述键盘乐器产生的音频文件进行预处理，以提取其中至少一音频帧的音频特征；

音高识别单元412，用于将所述音频帧的所述音频特征输入到所述模型中，识别出所述音频帧对应的音高值及其出现概率；

内容识别单元413，用于根据所述音频帧对应的音高值及其出现概率，确定对应所述音频帧的内容识别结果。

本申请实施例提供一种电子装置，其包括存储器以及处理器，所述存储器上存储有计算机可执行指令，所述处理器用于执行所述计算机可执行指令以实现本申请任一实施例所述处理方法。

本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有被执行时实现本申请任一实施例所述处理方法的计算机可执行指令。

本申请实施例的电子装置以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

至此，已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序，以实现期望的结果。在某些实施方式中，多任务处理和并行处理可以是有利的。

上述实施例阐明的方法，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种键盘乐器弹奏音乐的处理方法，其特征在于，所述方法包括：

根据所述音频帧对应的音高值及其出现概率，确定对应所述音频帧的内容识别结果；

根据所述音频文件的所有所述音频帧的内容识别结果，生成识别结果矩阵；

根据输入的音乐选取时间片段与所述音频帧的帧移，确定所述音乐选取时间片段在所述识别结果矩阵中对应的音高值，并将其作为所述音乐选取时间片段对应的音频帧的识别结果；

将所述音乐选取时间片段对应的音频帧的识别结果映射成音阶和音调的关系文本，并将所述关系文本转换成字符序列；

对所述字符序列中的每个字符进行转换处理得到每个字符对应的字符向量，根据所述每个字符对应的字符向量，生成字符矩阵，根据所述字符矩阵，合成新的音频文件。

2.根据权利要求1所述的方法，其特征在于，所述音频特征为梅尔频率倒谱特征。

3.根据权利要求1所述的方法，其特征在于，所述根据所述音频帧对应的音高值及其出现概率，确定对应所述音频帧的内容识别结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述字符矩阵，合成新的音频文件，包括：

根据所述每个字符的位置特征，合成新的音频文件。

5.根据权利要求4所述的方法，其特征在于，所述根据所述每个字符的位置特征，合成新的音频文件，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述字符序列中所有字符及其对应的注意力上下文向量，合成新的音频文件包括：

根据所述频谱，合成新的音频文件。

7.一种键盘乐器弹奏音乐的处理装置，其特征在于，所述装置包括：

内容识别单元，用于根据所述音频帧对应的音高值及其出现概率，确定对应所述音频帧的内容识别结果；

8.一种电子装置，其特征在于，包括存储器以及处理器，所述存储器上存储有计算机可执行指令，所述处理器用于执行所述计算机可执行指令以实现权利要求1-6任一所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有被执行时实现权利要求1-6任一所述的方法的计算机可执行指令。