CN102419998A

CN102419998A - 一种音频处理方法及系统

Info

Publication number: CN102419998A
Application number: CN2011102929254A
Authority: CN
Inventors: 梁捷; 俞永福; 谢鸿飞; 陈泽伟
Original assignee: Ucweb Inc; Guangzhou Dongjing Computer Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2011-09-30
Filing date: 2011-09-30
Publication date: 2012-04-18
Anticipated expiration: 2031-09-30
Also published as: WO2013044872A1; CN102419998B

Abstract

本发明公开一种音频处理方法及系统。该音频处理方法，包括：第一设备获取第二设备的音频，所述第一设备和第二设备为同类型设备或异类型设备；所述第一设备将所述获取的第二设备的音频在本设备内，按照音频匹配需求进行音频匹配，或者按照记谱需求进行记谱；获得所述根据需求进行音频处理的结果。相应的，本发明还提供一种音频处理系统。本发明提供的技术方案，能实现不同设备的音频同步处理，大大提高用户的体验，也使得基于移动设备的娱乐获得更好的应用。

Description

一种音频处理方法及系统

技术领域

本发明涉及移动通信领域，更为具体地，涉及一种音频处理方法及系统。

背景技术

随着音频处理技术的不断发展，目前已经可以在终端设备上（例如MP3，手机等）实现歌词匹配和下载，使得人们在听到优美旋律的同时能够看到该音频文件的歌词，该功能已经成为了音频播放软件及播放器的必备功能之一，并且一般可以通过文件名或者关键词等进行匹配。

现有技术中，对于播放音频的终端设备，可以安装歌词适配软件或是播放软件可以自带歌词下载功能，但是大部分歌词适配软件或是播放软件，基本是根据歌曲的名称进行匹配。例如一种处理方法中，终端设备开始播放歌曲，然后连接到网络，在网络服务器搜索是否有与所述歌曲的名称匹配的歌词，若在网络服务器搜索到与所述名称匹配的歌词，则终端设备下载所述歌词，然后将所述歌词与播放的歌曲同步显示。

但是，现有技术存在以下问题：目前现有技术只能实现在一个设备上实现歌词匹配，不能实现不同设备的歌词匹配。

发明内容

本发明要解决的技术问题是提供一种音频处理方法及系统，能实现不同设备的音频同步处理。

本发明提供一种音频处理方法，包括：

第一设备获取第二设备的音频，所述第一设备和第二设备为同类型设备或异类型设备；

所述第一设备将所述获取的第二设备的音频在本设备内，按照音频匹配需求进行音频匹配，或者按照记谱需求进行记谱；

获得所述根据需求进行音频处理的结果。

可选的，所述第一设备获取第二设备的音频包括：通过录音或读取频率的方式接收第二设备的音频。

可选的，所述第一设备将所述获取的第二设备的音频在本设备内，按照音频匹配需求进行音频匹配包括：

若检测出本设备内存在本地音频库，在本地音频库对所述获取的音频进行音频匹配，若匹配成功，得到匹配所对应的音频文件；

其中，所述音频文件至少包括歌词，还包括以下中的一种或多种：歌曲、歌曲的MTV、歌曲的相关资料。

可选的，若检测出本设备内不存在本地音频，或者，若在本地音频库对所述获取的音频进行音频匹配失败，则将所述获取的音频上传到服务器进行音频匹配；

接收所述服务器在网络音频库进行匹配得到的音频文件。

可选的，所述服务器在网络音频库进行匹配包括：

服务器将所述第一设备上传的音频作为待测音频流，从网络音频库中的音频样例中搜索对应匹配的音频片段，包括：

1）获取待测音频流和音频样例的能量包络单元图；

2）在待测音频流片段的能量包络单元图上，依次选择每个能量包络单元的起始点作为匹配操作的起始点；

3）将每个音频样例以及待测音频流片段分别用所述能量包络单元图上的切分点和概率对组成的数对形式表示；

4）将待测音频流片段的数对依次与每个音频样例的数对进行比较，得到匹配点以及对应的匹配概率；

5）采用相似性度量函数对步骤4）所得到的匹配点以及对应的音频样例进行计算，得到两者的相似值；

6）将步骤5）所得到的相似值与预订设定的阈值进行比较，若所述的相似值大于该阈值，则确定与步骤4）所得到的匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。

可选的，所述第一设备将所述获取的第二设备的音频在本设备内，按照记谱需求进行记谱包括：

记录音频的频率，根据音频的频率确定对应的音调；

根据记录的频率之间的间隔时间，确定对应的节奏；

通过音调和节奏的确定，获得对应的旋律。

本发明提供一种音频处理系统，该系统至少包括第一设备和第二设备，所述第一设备和第二设备为同类型设备或异类型设备；

所述第二设备，用于播放音频；

所述第一设备，用于获取第二设备的音频，将所述获取的第二设备的音频在本设备内，按照音频匹配需求进行音频匹配，或者按照记谱需求进行记谱，获得所述根据需求进行音频处理的结果。

可选的，所述第一设备中设有本地音频库，所述第一设备检测出本设备内存在本地音频库后，在本地音频库对所述获取的音频进行音频匹配，若匹配成功，得到匹配所对应的音频文件；

可选的，所述系统还包括服务器，

所述服务器设有网络音频库，所述服务器用于接收所述第一设备上传的音频，所述音频为所述第一设备检测出本设备内不存在本地音频，或者在本地音频库对所述获取的音频进行音频匹配失败后上传的音频；

所述服务器在网络音频库中对接收的音频进行匹配，将匹配得到的音频文件发送给所述第一设备。

上述技术方案可以看出：本发明技术方案可以获取其他设备（同类型或异类型）的音频，然后根据设定需求对获取的音频进行音频处理，获得音频处理的结果，该处理结果例如可以是得到匹配的歌词和歌曲等，从而解决了不同设备的音频同步问题。通过本发明方案，那么当用户拿着移动设备，听到电视播放歌曲时，可以直接获取该歌曲，并进行音频匹配后，就可以直接在移动设备显示对应歌词，从而大大提高用户的体验，也使得基于移动设备的娱乐获得更好的应用。

附图说明

根据下述参照附图进行的详细描述，本发明的上述和其他目的、特征和优点将变得更加显而易见。

图1是本发明的音频处理方法流程图；

图2是本发明的音频处理方法中的客户端侧处理流程图；

图3是本发明的音频处理方法中的服务器侧处理流程图；

图4是本发明的音频处理系统结构示意图；

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

下面描述本公开的各个方面。应该明白的是，本文的教导可以以多种多样形式具体体现，并且在本文中公开的任何具体结构、功能或两者仅仅是代表性的。基于本文的教导，本领域技术人员应该明白的是，本文所公开的一个方面可以独立于任何其它方面实现，并且这些方面中的两个或多个方面可以按照各种方式组合。例如，可以使用本文所阐述的任何数目的方面，实现装置或实践方法。另外，可以使用其它结构、功能、或除了本文所阐述的一个或多个方面之外或不是本文所阐述的一个或多个方面的结构和功能，实现这种装置或实践这种方法。此外，本文所描述的任何方面可以包括权利要求的至少一个元素。

本发明提供一种音频处理方法，能实现不同设备的音频同步处理，并且还可以提高同步准确性。

本发明的系统采用C/S （Client/Server）结构，因此在介绍本发明方案前，先对C/S技术进行简单介绍：

C/S结构，即目前熟知的客户机和服务器结构，通过它可以充分利用两端硬件环境的优势，将任务合理分配到Client端和Server端来实现，从而降低了系统的通讯开销。目前大多数应用软件系统都是Client/Server形式的两层结构。传统的C／S体系结构采用的是开放模式，这只是系统开发一级的开放性，在特定的应用中无论是Client端还是Server端，是需要特定的软件支持。

下面将参照附图描述本发明的各个实施例。

图1是本发明的音频处理方法流程图。

如图1所示，包括步骤：

步骤101、第一设备获取第二设备的音频，所述第一设备和第二设备为同类型设备或异类型设备；

该步骤可以通过录音或读取频率的方式接收第二设备的音频。

步骤102、所述第一设备将所述获取的第二设备的音频在本设备内，按照音频匹配需求进行音频匹配，或者按照记谱需求进行记谱；

步骤103、获得所述根据需求进行音频处理的结果。

其中，上述按照音频匹配需求进行音频匹配包括：

若检测出本设备内不存在本地音频，或者，若在本地音频库对所述获取的音频进行音频匹配失败，则将所述获取的音频上传到服务器进行音频匹配。

上述可以看出：本发明技术方案可以获取其他设备（同类型或异类型）的音频，然后根据设定需求对获取的音频进行音频处理，获得音频处理的结果（例如匹配的歌词等），从而解决了不同设备的音频同步问题。

图2是本发明的音频处理方法中的客户端侧处理流程图。

假设客户端存在两个设备A和B，设备A可以是手机或是其他移动设备，设备B为与设备A同类型的设备，或者不同类型的设备，例如电视机或音响等。

如图2所示，包括步骤：

步骤201、接收其他设备的音频作为音频样本；

该步骤其中一个设备A可以通过软件获取其他设备即另一设备B播放出来的音频，并将获取的音频作为音频样本。假设获取的是设备B播放的一首歌曲。

获取音频的方法，例如可以主要是通过手机或移动设备的录音功能实现，也可以通过直接读取音频频率的方式实现，本发明并不加以限制。

需要说明的是，本发明采用的客户端的设备具备音频接收功能。

步骤202、判断是否存在本地音频库，如是，进入步骤203，如否，进入步骤205；

这里说的本地音频库，存储的内容可以包括歌曲音频和音频对应的歌词，还可以进一步包括和歌曲有关的MTV及相关背景资料等。

步骤203、在本地音频库进行匹配，并判断是否匹配成功，若是，进入步骤204，若否，进入步骤205；

设备A获取到来自其他设备的音频作为音频样本后，检测到自身存在本地音频库，则该步骤在本地音频库进行匹配。

在匹配前，设备A首先对获取的音频样本进行快速音频解码，然后针对音频解码后的音频样本在本地音频库中进行匹配。

关于音频解码，目前国际上有两个负责视音频编码的标准化组织，一个是VCEG（Video code Expert Group），是国际电信联合会下的视频编码专家组，一个是MPEG（Motion Picture Expert Group），是国际标准化组织下的运动图像专家组。本发明并不限定具体采用哪一种标准进行音频解码，只需要满足对音频样本实现解码即可。

如果搜索到与获取的音频样本对应的音频（例如歌曲），则判断出匹配成功，进入步骤204，若搜索不到对应的音频，则判断为匹配不成功，进入步骤205；

步骤204、根据匹配成功进行相应处理；

该步骤中，设备A根据在本地音频库搜索到的与获取的音频样本匹配的歌曲，进一步找出该歌曲对应的歌词，通过屏幕向用户显示。这样，用户可以听着设备B在播放歌曲，而自己的设备A同时显示该歌曲对应的歌词，提高了用户体验；或者，

设备A也可以将在本地音频库搜索到的与获取的音频样本匹配的歌曲进行播放，并在设备屏幕中同步显示该歌曲关联对应的歌词；或者，

设备A可以播放本地音频库中与该歌曲有关的MTV；或者，

设备A可以向用户展示本地音频库中与该歌曲的相关背景资料。

上述处理方式可以单独使用，也可以组合使用。通过上述处理使得用户可以享受到更好的用户体验。

另外，由于本发明是根据获取的音频进行匹配，相对于现有技术根据文件名例如歌曲名称匹配对应歌词，显得更加准确，从而提高同步准确性。

步骤205、将音频样本上传给服务器进行匹配；

该步骤中，将获取的音频样本上传给服务器进行匹配。该步骤不限定具体传输方式及所采用的传输协议。

设备A在上传音频样本时，可以注明所需要的资料，例如只需要歌词，或者同时需要歌曲和歌词等。

步骤206、将服务器匹配的音频文件下载到本地音频库；

该步骤中，一旦在服务器匹配到对应的音频，则设备A立即从服务器下载对应的音频文件，并存储到本地音频库。

该音频文件可以是包括歌曲音频和音频对应的歌词，还可以进一步包括和歌曲有关的MTV及相关背景资料等。

因为服务器是根据接收的音频进行匹配，因此相对于现有技术根据文件名称匹配对应歌词显得更加准确，提高同步准确性。

步骤207、根据从服务器下载的音频文件进行相应处理。

设备A根据下载和存储的音频文件，在本地建立起歌词与音频样本的关联。这样，设备A下次搜索或打开同样的音频，就能直接在本地音频库中匹配成功，对应显示歌词，从而减少响应时间，提高用户体验。

在下载或存储音频文件后，设备A向用户显示匹配歌曲所对应的歌词，可以播放匹配的歌曲或MTV等，具体处理方式与步骤204基本相同，此处不再赘述。

通过上述方案可以看出，本发明通过获取其他设备的音频，然后在本地或服务器进行音频匹配，匹配成功后可以显示该音频对应的歌词，或者其他进行其他应用，例如播放该音频，显示与该音频对应的资料信息等，从而丰富了音频应用，提高了用户体验。

图3是本发明的音频处理方法中的服务器侧处理流程图。

如图3所示，包括步骤：

步骤301、服务器接收客户端上传的音频样本；

该步骤中，服务器接收客户端上传的音频样本，该步骤不限定客户端上传时所采用的具体传输方式及所采用的传输协议。

步骤302、服务器通过网络音频库进行匹配处理；

本发明的服务器设有网络音频库，存储内容可以是包括歌曲音频和音频对应的歌词，还可以进一步包括和歌曲有关的MTV及相关背景资料等。

通过将音频库设置在服务器，可以节省客户端的软件本身的大小。本发明为了将音频库进行区分，服务器的音频库称为网络音频库。如果客户端不设置音频库，则本发明方案中，客户端可以直接将获取的音频样本上传给服务器。

本发明中，服务器采用以下步骤进行频率匹配但不局限于此：

服务器将获取的音频样本作为待测音频流，从网络音频库中的音频样例中搜索对应匹配的音频片段，包括：

1）获取待测音频流和音频样例的能量包络单元图；

该步骤中，可以采用现有的各种技术获取到能量包络单元图，例如根据时间间隔分成多帧，进行音频短时能量特征提取，根据每帧的短时平均能量形成短时能量包络。

6）将步骤5）所得到的相似值与一个预订设定的阈值进行比较，若所述的相似值大于该阈值，则认为与步骤4）所得到的匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。

服务器根据接收的音频的频率进行匹配，因此匹配歌曲和歌词更加准确，从而提高同步准确性。

步骤303、将匹配的音频文件返回给客户端。

该步骤中，服务器端通过快速匹配，从网络音频库中匹配到对应的音频后，将音频文件传输给客户端。该音频文件可以是包括歌曲音频和音频对应的歌词，还可以进一步包括和歌曲有关的MTV及相关背景资料等。这样，客户端接收到音频文件后，可以根据需要进行具体处理，处理过程可以如上述客户端处理流程所述。

以下结合具体应用情况介绍进行介绍。

应用例一：不同设备歌词匹配

假设存在设备A和设备B。设备B（例如电视或音响等）正在播放一首歌曲，比如王力宏的歌曲“唯一”。设备A（和设备B不一样的移动设备，例如智能手机或者平板电脑等）安装有音频处理软件。设备A打开软件，读取设备B播放的音频。设备A读取音频后，在本身的本地音频库中未搜索到对应的音频，则将音频上传给软件的远端服务器C进行匹配。远端服务器C搜索到王力宏的歌曲“唯一”和对应的歌词，向设备A返回对应的音频文件（包括歌曲“唯一”的音频和歌词及其他资料等）。设备A下载音频文件后，在屏幕上显示对应的歌词，如果用户需要，还可以提供相关的和歌曲相关的资料。

因此，利用本发明方案，当用户拿着移动设备，听到电视播放歌曲时，可以直接打开移动设备的音频处理软件，获取该歌曲，并进行本地或网络匹配后，就可以直接在移动设备显示对应歌词，从而大大提高用户的体验。

应用二：不同设备自动记谱

假设存在设备A和设备B。设备B（例如电视或音响等）正在播放一首歌曲，比如王力宏的歌曲“唯一”。设备A（和设备B不一样的移动设备，例如智能手机或者平板电脑等）安装了音频处理软件。设备A打开软件，读取设备B播放的音频。设备A通过录音等方法读取音频后，记住了音频信号的频率。进一步的，设备A根据记录的音频信号的频率确定对应的音调，即判断这个音符是什么音，比如是do，还是do加。还有，根据信号的间隔时间，确定对应的节奏。通过音调和节奏的确定从而直接记录下歌曲对应的旋律，也就实现自动记谱的功能。这样的音频处理，方便了更多非专业人士的扒带需求，因此也从另外一个角度提高了用户体验。

上述内容详细介绍了本发明的音频处理方法，本发明相应还提供一种音频处理系统，以下进行详细介绍：

图4是本发明的音频处理系统结构示意图。

如图4所示，音频处理系统至少包括第一设备401和第二设备402，所述第一设备401和第二设备402为同类型设备或异类型设备。

所述第二设备402，用于播放音频；

所述第一设备401，用于获取第二设备402的音频，将所述获取的第二设备402的音频在本设备内根据设定需求进行音频处理，获得所述根据设定需求进行音频处理的结果。

其中，所述第一设备401获取第二设备402的音频包括：通过录音或读取频率的方式接收第二设备402的音频。

其中，根据设定需求进行音频处理包括：

所述第一设备401将所述获取的第二设备402的音频在本设备内，按照音频匹配需求进行音频匹配，或者按照记谱需求进行记谱。

所述第一设备401中设有本地音频库，所述第一设备401检测出本设备内存在本地音频库后，在本地音频库对所述获取的音频进行音频匹配，若匹配成功，得到匹配所对应的音频文件；

其中，按照记谱需求进行记谱包括：

记录音频的频率，根据音频的频率确定对应的音调；

根据记录的频率之间的间隔时间，确定对应的节奏；

通过音调和节奏的确定，获得对应的旋律。

如图4所示，所述系统还包括服务器403。

所述服务器403设有网络音频库，所述服务器403用于接收所述第一设备401上传的音频，所述音频为所述第一设备401检测出本设备内不存在本地音频，或者在本地音频库对所述获取的音频进行音频匹配失败后上传的音频；

所述服务器403在网络音频库中对接收的音频进行匹配，将匹配得到的音频文件发送给所述第一设备401。

综上所述：本发明技术方案可以获取其他设备（同类型或异类型）的音频，然后根据设定需求对获取的音频进行音频处理，获得音频处理的结果，该处理结果例如可以是得到匹配的歌词和歌曲等，从而解决了不同设备的音频同步问题。通过本发明方案，那么当用户拿着移动设备，听到电视播放歌曲时，可以直接获取该歌曲，并进行音频匹配后，就可以直接在移动设备显示对应歌词，从而大大提高用户的体验，也使得基于移动设备的娱乐获得更好的应用。

需要说明的是，上述装置和系统内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

此外，应该明白的是，本文所述的计算机可读存储设备（例如，存储器）可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦写可编程ROM（EEPROM）或快闪存储器。易失性存储器可以包括随机存取存储器（RAM），该RAM可以充当外部高速缓存存储器。作为例子而非限制性的，RAM可以以多种形式获得，比如同步RAM（DRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据速率SDRAM（DDR SDRAM）、增强SDRAM（ESDRAM）、同步链路DRAM（SLDRAM）以及直接Rambus RAM（DRRAM）。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

虽然如上参照图描述了根据本发明的各个实施例进行了描述，但是本领域技术人员应当理解，对上述本发明所提出的各个实施例，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种音频处理方法，其特征在于，包括：

获得所述根据需求进行音频处理的结果。

2.根据权利要求1所述的音频处理方法，其特征在于：

所述第一设备获取第二设备的音频包括：通过录音或读取频率的方式接收第二设备的音频。

3.根据权利要求1或2所述的音频处理方法，其特征在于：

所述第一设备将所述获取的第二设备的音频在本设备内，按照音频匹配需求进行音频匹配包括：

4.根据权利要求3所述的音频处理方法，其特征在于：

若检测出本设备内不存在本地音频，或者，若在本地音频库对所述获取的音频进行音频匹配失败，则将所述获取的音频上传到服务器进行音频匹配；

接收所述服务器在网络音频库进行匹配得到的音频文件。

5.根据权利要求4所述的音频处理方法，其特征在于：

所述服务器在网络音频库进行匹配包括：

1）获取待测音频流和音频样例的能量包络单元图；

6.根据权利要求1或2所述的音频处理方法，其特征在于：

所述第一设备将所述获取的第二设备的音频在本设备内，按照记谱需求进行记谱包括：

记录音频的频率，根据音频的频率确定对应的音调；

根据记录的频率之间的间隔时间，确定对应的节奏；

通过音调和节奏的确定，获得对应的旋律。

7.一种音频处理系统，其特征在于：

至少包括第一设备和第二设备，所述第一设备和第二设备为同类型设备或异类型设备；

所述第二设备，用于播放音频；

8.根据权利要求7所述的音频处理系统，其特征在于：

所述第一设备中设有本地音频库，所述第一设备检测出本设备内存在本地音频库后，在本地音频库对所述获取的音频进行音频匹配，若匹配成功，得到匹配所对应的音频文件；

9.根据权利要求7或8所述的音频处理系统，其特征在于：

所述系统还包括服务器，