CN108986841A

CN108986841A - 音频信息处理方法、装置及存储介质

Info

Publication number: CN108986841A
Application number: CN201810897714.5A
Authority: CN
Inventors: 徐力
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2018-12-11
Anticipated expiration: 2038-08-08
Also published as: CN108986841B

Abstract

本发明实施例提供一种音频信息处理方法、装置及存储介质。该音频信息处理方法包括：获取音频数据；对该音频数据进行分析处理，确定该音频数据对应的音频参数；根据音频参数以及预设的标准音的音频参数，获得音频数据对应的乐谱。本发明实施例可以快速、准确地确定音乐对应的乐谱。

Description

音频信息处理方法、装置及存储介质

技术领域

本发明实施例涉及信息处理技术，尤其涉及一种音频信息处理方法、装置及存储介质。

背景技术

随着人们生活水平的日益提高，越来越多的开始关注精神层面的追求。例如，对音乐、乐器的热爱。

但对于多数用户来说，当听到一段音乐时，其并不具备能够确定该段音乐所对应乐谱的技能。而通过学习去掌握乐谱需要较长的时间，并且单纯凭借听来得出一段音乐确定其对应的乐谱的方式，准确度较低。

发明内容

本发明实施例提供一种音频信息处理方法、装置及存储介质，以使用户快速、准确地确定音乐对应的乐谱。

第一方面，本发明实施例提供一种音频信息处理方法，包括：

获取音频数据；

对所述音频数据进行分析处理，确定所述音频数据对应的音频参数；

根据所述音频参数以及预设的标准音的音频参数，获得所述音频数据对应的乐谱。

在一种可能的实施方式中，所述对所述音频数据进行分析处理，确定所述音频数据对应的音频参数，包括：

对所述音频数据进行乐器识别处理，将所述音频数据分离为N种乐器的音频数据，所述N为大于1的整数；

对所述N种乐器中每种乐器的音频数据进行分析处理，确定每种乐器的音频数据对应的音频参数。

在一种可能的实施方式中，所述预设的标准音的音频参数包括：M种乐器的预设的标准音的音频参数，所述M种乐器包括所述N种乐器，所述M为大于1的整数；

所述根据所述音频参数以及预设的标准音的音频参数，获得所述音频数据对应的乐谱，包括：

针对每种乐器，根据该乐器的音频参数，以及该乐器的预设的标准音的音频参数，确定所述音频数据中该乐器对应的乐谱；

根据所述音频数据中所述N种乐器对应的乐谱，获得所述音频数据对应的乐谱。

通过音频识别技术对所述音频数据进行分析处理，确定所述音频数据对应的音频参数。

在一种可能的实施方式中，所述音频参数，包括下述参数中的一个或多个：

音色、频率、节奏。

在一种可能的实施方式中，所述根据所述音频参数，获得所述音频数据对应的乐谱之后，还包括：

通过增强现实AR方式在虚拟场景中显示所述乐谱。

第二方面，本发明实施例提供一种音频信息处理装置，包括：

获取模块，用于获取音频数据；

确定模块，用于对所述音频数据进行分析处理，确定所述音频数据对应的音频参数；

处理模块，用于根据所述音频参数以及预设的标准音的音频参数，获得所述音频数据对应的乐谱。

在一种可能的实施方式中，所述确定模块包括：

识别子模块，用于对所述音频数据进行乐器识别处理，将所述音频数据分离为N种乐器的音频数据，所述N为大于7的整数；

分析子模块，用于对所述N种乐器中每种乐器的音频数据进行分析处理，确定每种乐器的音频数据对应的音频参数。

所述处理模块具体用于：

在一种可能的实施方式中，所述确定模块具体用于：

音色、频率、节奏。

在一种可能的实施方式中，还包括：

显示模块，用于在所述处理模块根据所述音频参数，获得所述音频数据对应的乐谱之后，通过增强现实AR方式在虚拟场景中显示所述乐谱。

第三方面，本发明实施例提供一种音频信息处理装置，包括：处理器和存储器；所述存储器存储计算机执行指令；所述处理器执行所述计算机执行指令，使得所述处理器执行如第一方面任一项所述的音频信息处理方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面任一项所述的音频信息处理方法。

本发明实施例提供的音频信息处理方法、装置及存储介质，首先获取音频数据，并对该音频数据进行分析处理，确定该音频数据对应的音频参数，之后，根据上述音频参数以及预设的标准音的音频参数，获得该音频数据对应的乐谱。通过本发明实施例提供的音频信息处理方法，可以快速、准确地确定音乐中所使用的乐谱。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的音频信息处理方法的流程图；

图2为本发明另一实施例提供的音频信息处理方法的流程图；

图3为本发明又一实施例提供的音频信息处理方法的流程图；

图4为本发明一实施例提供的音频信息处理装置的结构示意图；

图5为本发明另一实施例提供的音频信息处理装置的结构示意图；

图6为本发明又一实施例提供的音频信息处理装置的结构示意图；

图7为本发明又一实施例提供的音频信息处理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到深度学习技术、音频识别技术的日益成熟，以及相关技术在得出一段音乐对应的乐谱的耗时较长、难度大且准确度较低的问题，本发明实施例提供一种音频信息处理方法、装置及存储介质，结合深度学习技术及音频识别技术，确定音频数据对应的乐谱，从而可以快速、准确地确定音乐对应的乐谱。

图1为本发明一实施例提供的音频信息处理方法的流程图。本发明实施例提供一种音频信息处理方法，该音频信息处理方法的执行主体可以为音频信息处理装置，该音频信息处理装置可以通过软件/硬件的方式实现。

实际应用中，该音频信息处理装置可以为独立的电子设备，或者，该音频信息处理装置还可以集成于电子设备中。其中，电子设备例如是台式电脑、笔记本、个人数字助理(Personal Digital Assistant，简称：PDA)、智能手机、穿戴设备、平板电脑和增强现实(Augmented Reality，简称：AR)设备等设备。穿戴设备包括但不限于智能手环、智能项链等。该实施例以电子设备为执行主体进行说明。

如图1所示，该音频信息处理方法包括：

S101、获取音频数据。

在实际应用中，当用户需要了解某段音乐对应的乐谱时，对该段音乐进行播放。对应地，在音乐播放过程中，电子设备获取到该段音乐的音频数据。或者，当用户听到一个或多个乐器发出的声音时，用户想要了解发出该声音的乐器为哪个/哪些，以及该声音对应的乐谱的具体内容，此时，电子设备也可获取到该声音的音频数据，等等。

S102、对音频数据进行分析处理，确定音频数据对应的音频参数。

由于不同音乐对应的音谱是不同的，且相同乐谱对应不同乐器的音频参数也是不同的，因此，要确定音频数据对应的乐谱，需要首先确定该音频数据对应的音频参数，进而根据音频参数确定乐谱。

具体实现时，电子设备可以通过音频识别技术或其他相关技术对音频数据进行分析处理，确定该音频数据对应的音频参数。可选地，该音频参数可以包括下述参数中的一个或多个：音色、频率和节奏等。

S103、根据上述音频参数以及预设的标准音的音频参数，获得音频数据对应的乐谱。

具体地，可以对不同乐器的音色、频率、节奏等标准音的音频参数进行标定并存储在电子设备中，即电子设备存储有各种乐器的标识及预设的标准音的音频参数的对应关系。这样，在电子设备确定音频数据对应的音频参数之后，就可以遍历预先存储的乐器的预设的标准音的音频参数，找到该音频参数相同或类似的预设的标准音的音频参数，进而确定与该音频参数相同或类似的预设的标准音的音频参数对应的乐谱。

其中，根据音频参数与预设的标准音的音频参数，获得音频数据对应的乐谱，可以理解为，基于多种乐器的预设的标准音的音频参数进行训练，确定一模型，在后续识别过程中，将音频参数作为该模型的输入参数，而模型的输出即各音频参数对应的乐谱。其中，基于预设的标准音的音频参数进行训练得到模型的过程即为采用深度学习技术进行学习的过程。

示例性地，上述模型可以具体为卷积神经网络模型、深度神经网络模型、隐马尔科夫模型等模型中的任一种或其结合。在实际应用中，该模型可以基于音频参数，自动识别该音频参数对应的乐器、音符、和弦、节奏等，并生成完整的乐谱。

另外，上述学习的过程可以为监督学习、无监督学习、半监督学习中的任一种，具体学习过程根据实际需求确定，本发明实施例不予限制。

需说明的是，该步骤获得的乐谱的类型是任意的，例如，可以是简谱、点字谱、五线谱等中的任一种或多种。

本发明实施例中，电子设备获取音频数据，并对该音频数据进行分析处理，确定该音频数据对应的音频参数，之后，根据上述音频参数以及预设的标准音的音频参数，获得音频数据对应的乐谱。相比相关技术通过人为方式确定音乐所对应乐谱的实现方式，本发明实施例可以快速、准确地确定音乐对应的乐谱。

图2为本发明另一实施例提供的音频信息处理方法的流程图。如图2所示，在图1所示流程的基础上，S102、对音频数据进行分析处理，确定音频数据对应的音频参数，可以包括：

S201、对音频数据进行乐器识别处理，将音频数据分离为N种乐器的音频数据。

其中，N为大于1的整数。一段音乐可以仅使用了一种乐器，可以使用了多种乐器。该实施例是针对一段音乐使用多种乐器的情况进行说明。由于不用乐器对应的音频参数存在区别，因此，该实施例首先对音频数据进行乐器识别处理，在该音频数据中分离出对应不同乐器的音频数据。之后，执行S202，针对不同乐器的音频数据分别进行分析处理，确定各乐器的音频数据对应的音频参数。

例如，一段音乐中使用了钢琴、小提琴和长笛。可以通过S201确定该段音乐使用了上述几种乐器，并将这段音乐对应的音频数据分离为钢琴、小提琴和长笛这三种乐器的音频数据。进一步地，电子设备还可以确定各乐器在这段音乐中的使用顺序、使用时刻及音节等。例如，在这段音乐的某些时刻使用了钢琴和长笛，在剩余时刻使用了小提琴，等等。

S202、对N种乐器中每种乐器的音频数据进行分析处理，确定每种乐器的音频数据对应的音频参数。

实际应用时，电子设备可以通过音频识别技术或其他相关技术对各乐器的音频数据进行分析处理，确定各乐器的音频数据对应的音频参数。

可选地，上述预设的标准音的音频参数可以包括：M种乐器的预设的标准音的音频参数。其中，M种乐器包括上述N种乐器，M为大于1的整数。此时，S103、根据上述音频参数以及预设的标准音的音频参数，获得音频数据对应的乐谱，可以包括：

S203、针对每种乐器，根据该乐器的音频参数，以及该乐器的预设的标准音的音频参数，确定音频数据中该乐器对应的乐谱。

该步骤与S103类似，此处不再赘述。

S204、根据音频数据中N种乐器对应的乐谱，获得音频数据对应的乐谱。

考虑到一段乐谱可能由一种乐器演奏，也可能由多种乐器演奏，因此，还需要对不同乐器对应的乐谱中相同的部分进行去重处理，以得到一个完整且不重复的乐谱。

上述实施例具体说明了如何获取使用多种乐器演奏的音乐对应的乐谱的实现方式。

图3为本发明又一实施例提供的音频信息处理方法的流程图。如图3所示，在图1所示流程的基础上，S103、根据上述音频参数以及预设的标准音的音频参数，获得音频数据对应的乐谱，之后，本实施例的音频信息处理方法还可以包括以下步骤：

S301、通过AR方式在虚拟场景中显示乐谱。

具体地，电子设备可以通过音频和/或视频的形式推送音频数据对应的乐谱给用户。该步骤的目的是将乐谱通知给用户，具体可以通过音频和/或视频的形式进行推送。

例如，通过视频的形式进行推送可以包括：电子设备可以将包含乐谱的图片或乐谱本身通过显示组件呈现给用户；通过音频的形式进行推送可以包括：电子设备可以将乐谱通过音频组件播报给用户，等等。其中，音频组件例如为电子设备的扬声器。

一些实施例中，电子设备可以通过AR方式在虚拟场景中显示乐谱。具体地，电子设备可以通过AR的方式在虚拟场景中叠加显示乐谱。例如，电子设备在用户操作手机录像过程中获取到音频数据，在分析出该音频数据对应的乐谱时，可以直接在AR画面中显示乐谱。可选地，电子设备可以识别音频数据的音节，并在AR画面中的乐器中进行弹奏等。

基于上述实施例，将乐谱通知给用户，可以使得用户获知音乐对应的乐谱，进一步提升用户体验。

下述为本发明装置实施例，可以用于执行本发明上述方法实施例，其实现原理和技术效果类似。

图4为本发明一实施例提供的音频信息处理装置的结构示意图。本发明实施例提供一种音频信息处理装置，该音频信息处理装置可以通过软件和/或硬件的方式实现。

实际应用中，该音频信息处理装置可以为独立的电子设备，或者，该音频信息处理装置还可以集成于电子设备中。其中，电子设备例如是台式电脑、笔记本、PDA、智能手机、穿戴设备、平板电脑和AR设备等设备。具体地，穿戴设备包括但不限于智能手环、智能项链等。该实施例以电子设备为执行主体进行说明。

如图4所示，音频信息处理装置40包括：获取模块41、确定模块42和处理模块43。其中，

该获取模块41，用于获取音频数据。

该确定模块42，用于对音频数据进行分析处理，确定该音频数据对应的音频参数。

该处理模块43，用于根据音频参数以及预设的标准音的音频参数，获得音频数据对应的乐谱。

该实施例通过获取音频数据，并对该音频数据进行分析处理，确定该音频数据对应的音频参数，之后，根据上述音频参数以及预设的标准音的音频参数，获得该音频数据对应的乐谱。相比相关技术通过人为方式确定音乐所对应乐谱的实现方式，本实施例可以快速、准确地确定音乐对应的乐谱。

在上述实施例中，确定模块42可具体用于：通过音频识别技术对音频数据进行分析处理，确定音频数据对应的音频参数。

可选地，音频参数可以包括下述参数中的一个或多个：音色、频率、节奏，等等。

图5为本发明另一实施例提供的音频信息处理装置的结构示意图。参考图5，在图4所示结构的基础上，音频信息处理装置50中的确定模块42可以包括：识别子模块421和分析子模块422。

该识别子模块421，用于对音频数据进行乐器识别处理，将音频数据分离为N种乐器的音频数据。其中，所述N为大于7的整数；

该分析子模块422，用于对N种乐器中每种乐器的音频数据进行分析处理，确定每种乐器的音频数据对应的音频参数。

一些实施例中，预设的标准音的音频参数可以包括：M种乐器的预设的标准音的音频参数。具体地，M种乐器包括上述N种乐器，M为大于1的整数。此时，处理模块43可具体用于：

针对每种乐器，根据该乐器的音频参数，以及该乐器的预设的标准音的音频参数，确定音频数据中该乐器对应的乐谱；

根据音频数据中N种乐器对应的乐谱，获得音频数据对应的乐谱。

图6为本发明又一实施例提供的音频信息处理装置的结构示意图。参考图6，在图4所示结构的基础上，音频信息处理装置60还可以包括显示模块61。

该显示模块61，用于在处理模块43根据音频参数，获得音频数据对应的乐谱之后，通过AR方式在虚拟场景中显示乐谱。

该实施例将乐谱通知给用户，可以使得用户获知音乐对应的乐谱，进一步提升用户体验。

图7为本发明又一实施例提供的音频信息处理装置的结构示意图。如图7所示，该音频信息处理装置70包括：

至少一个处理器71和存储器72；

所述存储器72存储计算机执行指令；

所述至少一个处理器71执行所述存储器72存储的计算机执行指令，使得所述至少一个处理器71执行如下操作：

获取音频数据；

一些实施例中，音频信息处理装置70对所述音频数据进行分析处理，确定所述音频数据对应的音频参数，可以包括：

一些实施例中，所述预设的标准音的音频参数可以包括：M种乐器的预设的标准音的音频参数，所述M种乐器包括所述N种乐器，所述M为大于1的整数。对应地，音频信息处理装置70根据所述音频参数以及预设的标准音的音频参数，获得所述音频数据对应的乐谱，可以包括：

可选地，音频信息处理装置70对所述音频数据进行分析处理，确定所述音频数据对应的音频参数，可以包括：

其中，所述音频参数可以包括下述参数中的一个或多个：音色、频率、节奏等。

可选地，当计算机执行指令被处理器71执行时还使得音频信息处理装置70：在根据所述音频参数，获得所述音频数据对应的乐谱之后，通过AR方式在虚拟场景中显示所述乐谱。

因此，音频信息处理装置70还可以包括：显示组件，或者，显示组件和音频组件等。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上所述的音频信息处理方法。

在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，简称：DSP)、专用集成电路(Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种音频信息处理方法，其特征在于，包括：

获取音频数据；

2.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行分析处理，确定所述音频数据对应的音频参数，包括：

3.根据权利要求2所述的方法，其特征在于，所述预设的标准音的音频参数包括：M种乐器的预设的标准音的音频参数，所述M种乐器包括所述N种乐器，所述M为大于1的整数；

4.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行分析处理，确定所述音频数据对应的音频参数，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述音频参数，包括下述参数中的一个或多个：

音色、频率、节奏。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述音频参数，获得所述音频数据对应的乐谱之后，还包括：

通过增强现实AR方式在虚拟场景中显示所述乐谱。

7.一种音频信息处理装置，其特征在于，包括：

获取模块，用于获取音频数据；

8.根据权利要求7所述的装置，其特征在于，所述确定模块包括：

9.根据权利要求8所述的装置，其特征在于，所述预设的标准音的音频参数包括：M种乐器的预设的标准音的音频参数，所述M种乐器包括所述N种乐器，所述M为大于1的整数；

所述处理模块具体用于：

10.根据权利要求7所述的装置，其特征在于，所述确定模块具体用于：

11.根据权利要求7至10中任一项所述的装置，其特征在于，所述音频参数，包括下述参数中的一个或多个：

音色、频率、节奏。

12.根据权利要求7至10中任一项所述的装置，其特征在于，还包括：

13.一种音频信息处理装置，其特征在于，包括：处理器和存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述计算机执行指令，使得所述处理器执行如权利要求1至7任一项所述的音频信息处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的音频信息处理方法。