CN104637496A

CN104637496A - 计算机系统及音频比对方法

Info

Publication number: CN104637496A
Application number: CN201310589528.2A
Authority: CN
Inventors: 王崇喆; 黄耀民; 廖珮妤
Original assignee: Institute for Information Industry
Current assignee: Institute for Information Industry
Priority date: 2013-11-11
Filing date: 2013-11-20
Publication date: 2015-05-20
Anticipated expiration: 2033-11-20
Also published as: US9165067B2; US20150131804A1; TWI527025B; CN104637496B; TW201519221A

Abstract

本发明揭露一种计算机系统及音频比对方法。音频比对方法包含：估算音频样本的音频片段的辨识难易度；根据辨识难易度，决定地标特征撷取的次数，并对音频片段进行相对应次数的地标特征撷取，以产生多个地标特征；将地标特征编码为散列键；整合散列键，并将整合后的散列键与散列表中的散列键进行查表比对；分析查表比对的结果；以及决定音频比对结果。

Description

计算机系统及音频比对方法

技术领域

本发明是有关于一种计算机系统及音频比对方法，且特别是有关于一种循序进行音频比对的计算机系统及音频比对方法。

背景技术

音频比对是一种快速的音频检索方式，使用者可在噪音环境下录制一段正在播放的音频片段，并在音频比对系统中找到最符合此音频片段的歌曲、电影、电视节目或广播节目。

然而，已知的音频比对系统在音频比对的正确率、音频比对所需的等待时间以及执行音频比对的服务器的运算量上仍有许多改进的空间。

因此，如何设计一个新的音频比对装置及方法，以解决上述的问题，乃为此一业界亟待解决的问题。

发明内容

因此，本发明的一方面是在提供一种计算机系统，用以进行音频比对。计算机系统包含客户终端以及服务器。

客户终端包含分类器、第一地标特征撷取模块、第一编码模块以及整合模块。分类器用以估算第一音频样本的一第一音频片段的辨识难易度。第一地标特征撷取模块用以根据辨识难易度，决定地标特征撷取的次数，并对第一音频片段进行相对应次数的地标特征撷取，以产生多个第一地标特征。第一编码模块用以将第一地标特征编码为多个第一散列键。整合模块用以整合第一散列键，并产生整合后的多个散列键传送至服务器。

服务器包含第二地标特征撷取模块、第二编码模块、散列表、查表模块、分析模块以及判断模块。

第二地标特征撷取模块用以对第二音频样本进行地标特征撷取，以产生多个第二地标特征。第二编码模块用以将第二地标特征编码为多个第二散列键。散列表用以储存第二散列键与其所对应的多个散列值。查表模块，用以将客户终端所传送的散列键与散列表中的第二散列键进行查表比对。分析模块用以分析查表比对的结果。判断模块，用以决定音频比对结果，并将音频比对结果传送至客户终端。

依据本发明一实施例，判断模块还用以测量一信心度，当信心度达到门槛值时，则决定音频比对结果，并将音频比对结果传送至客户终端。当信心度未达门槛值时，则判断模块发送请求至客户终端，客户终端配合服务器依据请求对第一音频样本中的一第二音频片段进行音频处理。

依据本发明另一实施例，上述第二音频片段是接续于第一音频片段。

依据本发明又一实施例，上述信心度为第一音频片段中每秒比对到的散列键数目。

依据本发明更具有的一实施例，上述第一地标特征与第二地标特征包含一起始频率、一频率差以及一时间差。

依据本发明另具有的一实施例，上述第二散列键的散列值包含一地标特征开始时间以及一节目数据。

依据本发明又具有的一实施例，上述分类器于估算该辨识难易度时，利用第一音频片段的一绝对音量的平均值、一相对音量的标准差、一三次微分绝对值加总的标准差中的一者或上述三者的组合估算辨识难易度。

依据本发明再具有的一实施例，于上述客户终端中，当两个第一散列键相同时，上述整合模块还用以删除该两个第一散列键其中之一。

依据本发明另又一实施例，上述第一音频样本为一歌曲、一电影、一电视节目或一广播节目的音频。

依据本发明另再一实施例，上述客户终端为一智能手机、一平板电脑、一笔记型电脑、一智能手表、一智能眼镜、一智能电视，或一数字电视机上盒。

本发明的再一方面是在提供一种音频比对方法，包含下列步骤：

估算第一音频样本的一第一音频片段的辨识难易度；根据辨识难易度，决定地标特征撷取的次数，并对第一音频片段进行相对应次数的地标特征撷取，以产生多个地标特征；将地标特征编码为多个第一散列键；整合第一散列键，并将整合后的多个散列键与散列表中的多个第二散列键进行查表比对；分析查表比对的结果；以及决定音频比对结果。

依据本发明一实施例，音频比对方法还包含下列步骤：测量信心度；当信心度达到门槛值时，则决定音频比对结果；以及当信心度未达门槛值时，则对第一音频样本的一第二音频片段重新进行上述音频比对方法。

依据本发明另一实施例，上述音频比对方法中，第二音频片段是接续于该第一音频片段。

依据本发明又一实施例，上述音频比对方法中，信心度为第一音频片段中每秒比对到的散列键数目。

依据本发明更具有的一实施例，上述音频比对方法中，各地标特征还包含一起始频率、一频率差以及一时间差。

依据本发明再具有的一实施例，上述音频比对方法中，各第二散列键的散列值还包含一地标特征开始时间以及一节目数据。

依据本发明又具有的一实施例，上述音频比对方法中，估算辨识难易度时，还利用第一音频片段的绝对音量的平均值、相对音量的标准差、三次微分绝对值加总的标准差中的一者或其组合或上述三者的组合。

依据本发明另具有的一实施例，上述音频比对方法中，整合第一散列键的步骤还包含：当两个第一散列键相同时，删除该两个第一散列键其中之一。

本发明的又一方面是在提供一种计算机可读取记录媒体，储存一计算机程序，用以执行一种音频比对方法，音频比对方法包含下列步骤：

应用本发明的优点在于可依音频片段的音频特征将取样音框平移，并多次计算地标特征以减少音频片段的取样音框与音频样本的取样音框不对齐的影响，如此可有效提高音频比对的正确率。另外，使用者可以循序上传音频片段的信息至服务器进行辨识，并在信心度达到门槛值后即回传比对结果，如此可有效减少音频比对所需的等待时间，并减少服务器的运算量，而轻易地达到上述的目的。

附图说明

图1为本发明一实施例中，一种计算机系统的方块示意图。

图2为本发明一实施例中，对音频片段进行地标特征撷取的示意图。

图3为本发明一实施例中，对音频片段进行地标特征撷取的示意图。

图4为本发明一实施例中，一种音频比对方法的流程示意图。

图5为本发明另一实施例中，一种音频比对方法的流程示意图。

具体实施方式

下文是举实施例配合所附附图作详细说明，但所提供的实施例并非用以限制本发明所涵盖的范围，而结构运作的描述非用以限制其执行的顺序，任何由元件重新组合的结构，所产生具有均等功效的装置，皆为本发明所涵盖的范围。此外，附图仅以说明为目的，并未依照原尺寸作图。为使便于理解，下述说明中相同元件将以相同的符号标示来说明。

在全篇说明书与权利要求书所使用的用词（terms），除有特别注明外，通常具有每个用词使用在此领域中、在此揭露的内容中与特殊内容中的平常意义。某些用以描述本揭露的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本揭露的描述上额外的引导。

另外，关于本文中所使用的“耦接”或“连接”，均可指二或多个元件相互直接作实体或电性接触，或是相互间接作实体或电性接触，亦可指二或多个元件相互操作或动作。

请参照图1。图1为本发明第一实施例中一种计算机系统100的方块示意图。

计算机系统100用以比对音频样本102与多个音频样本106，并判断音频样本102是否与音频样本106其中之一匹配。于一实施例中，音频样本102为使用者利用智能手机、平板电脑或随身听所录制的歌曲、电影、电视节目或广播节目的音频片段。于另一实施例中，音频样本102为智能电视或数字电视机上盒所录制的电影或电视节目的音频片段。

计算机系统100包含客户终端110以及服务器120。于一实施例中，客户终端110可为手持式电子装置，例如：智能手机、平板电脑、随身听、智能手表或智能眼镜。于另一实施例中，客户终端110可为智能电视、数字电视机上盒或笔记型电脑。

需说明的是，音频样本102可由客户终端110所产生。举例来说，音频样本102为使用者利用一智能手机所录制，长为一分钟的音乐片段。

客户终端110包含分类器112、地标特征(Landmark)撷取模块114、编码模块116以及整合模块118。

分类器112用以估算音频样本102的音频片段104的辨识难易度，并对其分类。举例来说，音频样本102为长为三十秒的电视节目片段的音频，分类器112用以估算该电视节目片段中长为十秒钟的音频片段104的辨识难易度。于一实施例中，于估算辨识难易度时，分类器112利用音频片段104的下列三个统计参数其中一者或其组合：绝对音量的平均值、相对音量的标准差以及三次微分绝对值加总的标准差。分类器112并根据所估算出的辨识难易度，将音频片段104大致分类为易辨识或难辨识的音频片段。需说明的是，可用以估算辨识难易度的统计参数并不限于三个，亦不限于以上所列出的统计参数。下列表一所示的统计参数均可用以估算辨识难易度，但可用于估算辨识难易度的统计参数亦不限于表一所列举出的参数。

表一

于另一实施例中，于估算音频片段104的辨识难易度时，分类器112是利用下列四个参数：绝对音量的标准差、地标特征的起始频率的平均值、地标特征的频率差的标准差以及地标特征的时间差的最大值。在本文中，地标特征可由音频片段104的时间频谱图上，两个相邻的高峰的起始频率、频率差以及时间差所组成。

地标特征撷取模块114用以根据辨识难易度，决定地标特征撷取的次数，并对音频片段104进行相对应次数的地标特征撷取，以产生多个第一地标特征并将其传送至编码模块116。下述就对音频片段104进行地标特征撷取的方式作具体说明。

图2为本发明一实施例中，对音频片段进行地标特征撷取的示意图。如图2所示，如一音频片段104a经分类器112分类为易辨识的音频片段，则地标特征撷取模块114对音频片段104a进行如图2所示的四次地标特征撷取，其中第一次地标特征撷取是对音频片段104a中部分重叠的音框222、224以及226进行地标特征撷取，其中地标特征可由被取样音框的时间频谱图上，两个相邻的高峰的起始频率、频率差以及时间差所组成。第二次地标特征撷取是对音频片段104a中部分重叠的音框222a、224a以及226a进行地标特征撷取，其中音框222a、224a以及226a为音框222、224以及226于时间上的平移。第三次地标特征撷取是对音频片段104a中部分重叠的音框222b、224b以及226b进行地标特征撷取，其中音框222b、224b以及226b为音框222a、224a以及226a于时间上的平移。第四次地标特征撷取如图2所示，与上述雷同，在此不再赘述。

图3为本发明一实施例中，对音频片段进行地标特征撷取的示意图。如图3所示，如一音频片段104b经分类器112分类为难辨识的音频片段，则地标特征撷取模块114对音频片段104b进行如图3所示的八次地标特征撷取，其中第一次地标特征撷取是对音频片段104b中部分重叠的音框232、234以及236进行地标特征撷取，其中地标特征可由被取样音框的时间频谱图上，两个相邻的高峰的起始频率、频率差以及时间差所组成。第二次地标特征撷取是对音频片段104b中部分重叠的音框232a、234a以及236a进行地标特征撷取，其中音框232a、234a以及236a为音框232、234以及236于时间上的平移。第三次地标特征撷取是对音频片段104b中部分重叠的音框232b、234b以及236b进行地标特征撷取，其中音框232b、234b以及236b为音框232a、234a以及236a于时间上的平移。第四～八次地标特征撷取如图3所示，与上述雷同，在此不再赘述。

需说明的是，对音频片段进行地标特征撷取的次数并不限定于四次或八次。于另一实施例中，如一音频片段104经分类器112分类为易辨识的音频片段，则地标特征撷取模块114对音频片段104进行五次地标特征撷取，如一音频片段104经分类器112分类为难辨识的音频片段，则地标特征撷取模块114对音频片段104进行十次地标特征撷取。

编码模块116用以将所撷取到的地标特征编码为散列键，并将其传送至整合模块118。于一实施例中，地标特征是由被取样音框的时间频谱图上，两个相邻的高峰的起始频率、频率差以及时间差所组成，编码模块116用以将地标特征编码为长度为24位的散列键，其中散列键的9个位用以描述起始频率，8个位用以描述频率差，7个位用以描述时间差。需说明的是，散列键的长度并不限定于24位。于另一实施例中，散列键的长度为26位。

整合模块118用以整合散列键，并将整合后的散列键传送至服务器120进行比对。

于一实施例中，当两个编码模块116所产生的散列键相同时，整合模块118用以删除该两个散列键其中之一，并将剩余的未重复的散列键传送至服务器120进行比对。

服务器120包含一地标特征撷取模块122、一编码模块124、一散列表126、一查表模块128、一分析模块130以及一判断模块132。

地标特征撷取模块122用以对音频样本106进行地标特征撷取，以产生多个地标特征并传送至编码模块124。编码模块124用以将地标特征编码为散列键。散列表126用以储存上述散列键与其所对应的多个散列值。

于一实施例中，地标特征撷取模块122用以对音频样本106进行地标特征撷取，其中地标特征可由被取样音框的时间频谱图上，两个相邻的高峰的起始频率、频率差以及时间差所组成，编码模块124用以将地标特征编码为长度为24位的散列键，其中散列键的9个位用以描述起始频率，8个位用以描述频率差，7个位用以描述时间差。

散列键所对应的散列值可包含地标特征及其所属的音频样本的数据。于一实施例中，音频样本106包含数个电视节目的音频片段，其散列表126中各散列键所对应的散列值包含地标特征的开始时间以及电视节目的数据，举例来说，该电视节目的数据可为一节目编号。

查表模块128用以将客户终端110所传送的散列键与散列表126中的散列键进行查表比对。于一实施例中，查表模块128将客户终端110所传送的散列键与散列表126中所有的散列键进行比对，并将比对成功(两散列键相同)的散列键传送至分析模块130。

分析模块130用以分析查表比对的结果。判断模块132用以决定音频比对结果，并将音频比对结果传送至客户终端110。

于一实施例中，音频样本106包含数个电视节目的音频片段。分析模块130将查表模块128所比对成功的散列键及其所对应的包含地标特征的开始时间以及电视节目的编号的散列值传送至判断模块132。判断模块132统计所述散列值中的电视节目的编号，并将音频比对结果判定为编号出现最多次的电视节目，判断模块132并将此音频比对结果传送至客户终端110。

于另一实施例中，分析模块130将查表模块128所比对成功的散列键及其所对应的包含地标特征的开始时间以及电视节目的编号的散列值传送至判断模块132。判断模块132统计所述散列值中的电视节目的编号，并测量信心度，其中信心度为音频片段104中平均每秒比对到的散列键数目。

于一实施例中，当信心度大于或等于一门槛值时，判断模块132将音频比对结果判定为编号出现最多次的电视节目，判断模块132并将此音频比对结果传送至客户终端110。当信心度小于一门槛值时，判断模块132发送一请求至客户终端110。当客户终端110接收到请求时，将音频样本102中接续于音频片段104之后一音频片段(未绘示)输入分类器112，并重新进行音频比对。需说明的是，上述的门槛值可以为3、4或本领域具通常知识者依实际需求可选用的其它数值。

由以上可知，采用本发明所示的实施例，可依音频片段104的音频特征将取样音框平移，并多次计算地标特征以减少音频片段104的取样音框与音频样本106的取样音框不对齐的影响，如此可有效提高音频比对的正确率。此外，采用本发明所示的实施例，使用者还可以循序上传音频片段的信息至服务器120进行辨识，并在信心度达到门槛值后即回传比对结果，如此可有效减少音频比对所需的等待时间，并减少服务器120的运算量。

请参照图4。图4为依据本发明一实施例绘示一种音频比对方法的流程示意图。音频比对方法可实作为一计算机程序产品（如应用程序），并储存于一计算机可读取记录媒体中，而使计算机读取此记录媒体后执行音频比对方法。计算机可读取记录媒体可为只读记忆体、快闪记忆体、软盘、硬盘、光盘、随身盘、磁带、可由网络存取的数据库或熟悉此技艺者可轻易思及具有相同功能的计算机可读取记录媒体。此音频比对方法可应用于如图1所绘示的计算机系统100中，但不以其为限。为方便及清楚说明起见，下列音频比对方法的叙述是配合图1所示的计算机系统100作说明。

于步骤202，分类器112估算音频样本102的一音频片段104的辨识难易度。接着在步骤204中，地标特征撷取模块114根据辨识难易度，决定地标特征撷取的次数，并对音频片段进行相对应次数的地标特征撷取，以产生多个地标特征。于步骤206中，编码模块116将地标特征编码为散列键。然后于步骤208中，整合模块118整合散列键，并将整合后的散列键传送至服务器120中的查表模块128，与散列表126中的散列键进行查表比对。于步骤210中，分析模块130分析查表比对的结果。接着于步骤212中，判断模块132决定音频比对的结果。

请参照图5。图5为依据本发明另一实施例绘示一种音频比对方法的流程示意图。

相较于图4所示的音频比对方法，于本实施例中，音频比对方法还包含步骤214以及步骤216。于步骤214中，判断模块132测量信心度。然后于步骤216中，当信心度达到门槛值时，则于步骤212中决定音频比对结果。当信心度未达门槛值时，则对音频样本102中接续于音频片段104后的一音频片段重新进行步骤202及其之后的步骤。

由以上实施例可知，采用本揭示文件所示的音频比对方法，可依音频片段的音频特征将取样音框平移，并多次计算地标特征以减少音频片段的取样音框与音频样本的取样音框不对齐的影响，如此可有效提高音频比对的正确率。再者，使用者可以循序上传音频片段的信息至服务器进行辨识，并在信心度达到门槛值后即回传比对结果，如此可有效减少音频比对所需的等待时间，并减少服务器的运算量。

应了解到，在上述实施方式中所提及的步骤，除特别叙明其顺序者外，均可依实际需要调整其前后顺序，甚至可同时或部分同时执行。

虽然本发明已以实施方式揭露如上，然其并非用以限定本发明，任何熟悉此技艺者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰，因此本发明的保护范围当视所附的权利要求书所界定的范围为准。

Claims

1.一种计算机系统，其特征在于，用以进行音频比对，该计算机系统包含一客户终端以及一服务器，其中该客户终端包含一分类器、一第一地标特征撷取模块、一第一编码模块以及一整合模块：

该分类器，用以估算一第一音频样本的一第一音频片段的一辨识难易度；

该第一地标特征撷取模块，用以根据该辨识难易度，决定一地标特征撷取的次数，并对该第一音频片段进行相对应次数的地标特征撷取，以产生多个第一地标特征；

该第一编码模块，用以将所述第一地标特征编码为多个第一散列键；以及

该整合模块，用以整合所述第一散列键，并产生整合后的多个散列键传送至该服务器；

该服务器还包含一第二地标特征撷取模块、一第二编码模块、一散列表、一查表模块、一分析模块以及一判断模块：

该第二地标特征撷取模块，用以对多个第二音频样本分别进行地标特征撷取，以产生多个第二地标特征；

该第二编码模块，用以将所述第二地标特征编码为多个第二散列键；

该散列表，用以储存所述第二散列键与所述第二散列键所对应的多个散列值；

该查表模块，用以将该客户终端所传送的所述散列键与该散列表中的所述第二散列键进行一查表比对；

该分析模块，用以分析该查表比对的结果；以及

该判断模块，用以决定一音频比对结果，并将该音频比对结果传送至该客户终端。

2.根据权利要求1所述的计算机系统，其特征在于，该判断模块还用以测量一信心度；

其中当该信心度达到一门槛值时，则该判断模块决定该音频比对结果，并将该音频比对结果传送至该客户终端；以及

当该信心度未达一门槛值时，则该判断模块发送一请求至该客户终端，该客户终端配合该服务器依据该请求对该第一音频样本中的一第二音频片段进行音频处理。

3.根据权利要求2所述的计算机系统，其特征在于，该第二音频片段是接续于该第一音频片段。

4.根据权利要求2所述的计算机系统，其特征在于，该信心度为该第一音频片段中每秒比对到的散列键数目。

5.根据权利要求1所述的计算机系统，其特征在于，所述第一地标特征与所述第二地标特征中每一者包含一起始频率、一频率差以及一时间差。

6.根据权利要求1所述的计算机系统，其特征在于，各所述第二散列键的散列值包含一地标特征开始时间以及一节目数据。

7.根据权利要求1所述的计算机系统，其特征在于，该分类器是利用该第一音频片段的一绝对音量的平均值、一相对音量的标准差、一三次微分绝对值加总的标准差中的一者或上述三者的组合估算该辨识难易度。

8.根据权利要求1所述的计算机系统，其特征在于，当两个第一散列键相同时，该整合模块还用以删除该两个第一散列键其中之一。

9.根据权利要求1所述的计算机系统，其特征在于，该第一音频样本为一歌曲、一电影、一电视节目或一广播节目的音频。

10.根据权利要求1所述的计算机系统，其特征在于，该客户终端为一智能手机、一平板电脑、一笔记型电脑、一智能手表、一智能眼镜、一智能电视，或一数字电视机上盒。

11.一种音频比对方法，其特征在于，包含：

估算一第一音频样本的一第一音频片段的一辨识难易度；

根据该辨识难易度，决定一地标特征撷取的次数，并对该第一音频片段进行相对应次数的地标特征撷取，以产生多个地标特征；

将所述多个地标特征编码为多个第一散列键；

整合所述多个第一散列键，并将整合后的多个散列键与一散列表中的多个第二散列键进行一查表比对；

分析该查表比对的结果；以及

决定一音频比对结果。

12.根据权利要求11所述的音频比对方法，其特征在于，还包含：

测量一信心度；

当该信心度达到一门槛值时，则决定该音频比对结果；以及

当该信心度未达一门槛值时，则对该第一音频样本的一第二音频片段重新进行如权利要求11所述的该音频比对方法。

13.根据权利要求12所述的音频比对方法，其特征在于，该第二音频片段是接续于该第一音频片段。

14.根据权利要求12所述的音频比对方法，其特征在于，该信心度为该第一音频片段中每秒比对到的散列键数目。

15.根据权利要求11所述的音频比对方法，其特征在于，各所述地标特征还包含一起始频率、一频率差以及一时间差。

16.根据权利要求11所述的音频比对方法，其特征在于，各所述第二散列键的散列值还包含一地标特征开始时间以及一节目数据。

17.根据权利要求11所述的音频比对方法，其特征在于，估算该辨识难易度时还利用该第一音频片段的一绝对音量的平均值、一相对音量的标准差、一三次微分绝对值加总的标准差中的一者或上述三者的组合。

18.根据权利要求11所述的音频比对方法，其特征在于，整合所述第一散列键的步骤还包含：

当两个第一散列键相同时，删除该两个第一散列键其中之一。