CN107533850B

CN107533850B - 音频内容识别方法和装置

Info

Publication number: CN107533850B
Application number: CN201680024655.XA
Authority: CN
Inventors: 李相文; 黄仁雨; 高秉燮; 金起范; 金荣泰; A.拜贾尔
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-04-27
Filing date: 2016-04-27
Publication date: 2022-05-24
Anticipated expiration: 2036-04-27
Also published as: US20180060428A1; CN107533850A; EP3255633A1; EP3255633A4; EP3255633B1; US10997236B2; KR102614021B1; KR20170140188A; WO2016175564A1

Abstract

根据本发明实施例的解决技术问题的音频内容识别方法，包括步骤：接收音频信号；获取所接收音频信号的音频指纹(AFP)；生成所获取音频指纹的哈希码；发送所生成哈希码和数据库中所存储哈希码之间的匹配查询；以及接收作为对发送的响应的所述音频信号的内容的识别结果，其中，生成哈希码的步骤包括：在所获取的音频指纹中确定音频指纹的帧间隔delta_F以生成哈希码。

Description

音频内容识别方法和装置

技术领域

本公开涉及一种识别所接收的音频数据的方法和装置，更具体说，涉及通过从所接收的音频数据中提取音频指纹并将所提取的指纹信息与数据库中存储的内容的指纹信息相比较来识别所接收的音频数据的内容的方法和装置。

背景技术

可以在终端中再现各种类型的多媒体内容。当有关该多媒体内容的信息已知时，可向用户提供与正被再现的内容相关的信息，或者可向用户提供与正被再现的内容相关的附加服务。

然而，在不存在有关该内容的信息的情况下，不能提供这样的扩展服务。

在终端中正被再现的每一多媒体内容可具有唯一特性。虽然正在使用这样的特性开发用于识别当前正被再现的内容的技术，但是需要对高噪声环境或诸如存在信号延迟时的异步环境的影响具有鲁棒特性的内容识别技术。

发明内容

技术问题

如上所述，确定内容的标识(ID)和帧号的技术基于每一多媒体内容的唯一特性，然而，在高噪声环境或者异步环境中，传统技术往往具有非常低的识别率。

本公开提供内容识别方法和装置，其解决如上所述的现有技术的问题，即使在异步和噪声环境中仍具有高识别率和稳定性能。

技术方案

为达到以上目标，本公开的典型配置如下。

根据本公开实施例，一种音频内容识别方法包括：接收音频信号；基于所接收音频信号的频谱形状获得音频指纹(AFP)；生成所获取音频指纹的哈希码；发送所生成哈希码和数据库中存储的哈希码之间的匹配查询；并接收响应该发送的所述音频信号的内容识别结果，其中生成所述哈希码包括：在所获取的音频指纹中确定音频指纹的帧间隔delta_F以生成哈希码。

可基于所接收音频信号的频域谱形状来确定所述音频指纹。

可基于所获取音频指纹的相邻帧之间的谱尺寸差来生成所述帧间隔delta_F。

生成所述哈希码可包括：应用基于所获取音频指纹的频域能量而确定的权重。

发送所述匹配查询可包括：基于在与彼此相邻的帧对应的哈希码之间的比特变化的数目在所生成的哈希码当中确定发送匹配查询的哈希码和发送匹配查询的哈希码的发送优先级。

所述内容识别结果可基于发送所述匹配查询的哈希码的内容标识(ID)和帧域的帧集中测量(FCM)来确定。

所述音频信号可包括信道音频和对象音频中的至少一种。

所述音频内容识别方法还可包括：分析所接收音频信号的音频场景特性，并基于所述音频场景特性设置获取音频指纹的部分；其中获取音频指纹包括：获取感兴趣部分的音频指纹。

所述音频内容识别方法还可包括：接收音频内容识别指令以及匹配查询发送指令，其中获取音频指纹包括：获取从接收到所述音频内容识别指令的时刻到接收到所述匹配查询发送指令的时刻之间的部分的音频指纹。

生成哈希码可包括：如果在所获取音频指纹当中存在具有相同值的音频指纹，则删除除一个以外的其它具有相同数值的音频指纹。

根据本公开另一实施例，音频内容识别方法包括：接收音频信号；获取所接收音频信号的音频指纹(AFP)；生成所获取音频指纹的哈希码；将所生成的哈希码与数据库中存储的哈希码匹配；基于匹配结果识别所述音频信号的内容，其中，所述生成哈希码包括：在所获取音频指纹中确定音频指纹的帧间隔ΔF以生成所述哈希码。

根据本公开另一实施例，音频内容识别装置包括：多媒体接收器，被配置成接收音频信号；

音频指纹获取器，被配置成获取所接收音频信号的音频指纹(AFP)；哈希码生成器，被配置成生成所获取音频指纹的哈希码，发送所生成哈希码和数据库中存储的哈希码之间的匹配查询，并接收响应于所述发送的所述音频信号的内容识别结果，其中所述哈希码生成器在所获取音频指纹中确定音频指纹的帧间隔delta_F以生成哈希码。

音频指纹获取器，被配置成获取所接收音频信号的音频指纹(AFP)；哈希码生成器，被配置成生成所获取音频指纹的哈希码；匹配器，被配置成将所生成哈希码与数据库中存储的哈希码进行匹配，并基于匹配的结果识别所述音频信号的内容，其中，所述哈希码生成器在所获取音频指纹中确定音频指纹的帧间隔delta_F以生成哈希码。

根据本公开另一实施例，提供一种计算机可读记录介质，其上记录用于实现所述方法的计算机程序。

而且，还提供用于实现本公开的其它方法、其它系统以及记录用于运行所述方法的计算机程序的计算机可读记录介质。

有益技术效果

根据本公开，可提供了即使在噪声环境和异步环境中仍具有良好性能的音频内容识别方法和装置，其可应用于非周期信号、非连续信号或具有较短长度的信号，从而可被扩展到各种服务场景。

附图说明

图1是根据本公开实施例的内容识别系统的方框图。

图2是说明根据本公开实施例的在视频-音频混合内容识别系统中使用视频指纹和音频指纹的方法的示意图。

图3是根据本公开实施例的音频内容识别装置的方框图。

图4是根据本公开实施例的音频内容识别方法的流程图。

图5是根据本公开实施例的音频内容识别系统的详细操作流程图。

图6显示异步环境中基于线谱频率(LSF)的音频指纹和基于能量的音频指纹的错误率。

图7是根据本公开实施例的哈希码生成器的方框图。

图8是图解根据本公开实施例的相对于帧间隔变化delta_F的delta_LSF的图。

图9是根据本公开另一实施例的内容识别系统的方框图。

图10是示出相对于在相邻哈希码之间的比特变化的数目的、频率点的数目的图。

图11是根据本公开实施例的匹配器的方框图。

图12是示出在数据库域中显示其中发送匹配查询的指纹信息分布的实施例的图。

图13A示出帧长度为2048以及样本率为16kHz时对于每一冗余率的平均检测率。

图13B示出帧长度为2048以及样本率为16kHz时对于每一冗余率的检测率标准偏差.

图14是图解根据本公开实施例的依据内容识别方法的操作场景的操作流的图。

图15是图解根据本公开另一实施例的依据内容识别方法的运行场景的操作流的图。

图16图解用于描述根据本公开另一实施例的内容识别方法的音频指纹序列。

图17是说明将通过现有技术提取的音频指纹与数据库音频指纹进行匹配的方法的图。

图18是显示当接收非连续数据时通过现有技术提取的音频指纹和数据库音频指纹的图。

图19是显示当接收具有短信号长度的数据时的根据本公开实施例的从谱形状提取的音频指纹和数据库音频指纹的图。

图20是显示当接收非连续数据时的根据本公开实施例的从谱形状提取的音频指纹和数据库音频指纹的图。

图21是根据本公开另一实施例的音频内容识别装置的方框图。

图22是图解根据本公开另一实施例的音频内容识别装置的操作的流程图。

具体实施方式

为实现以上目标，本公开的典型配置如下。

根据本公开实施例，一种音频内容识别方法，包括：接收音频信号；基于所接收音频信号的谱形状获取音频指纹(AFP)；生成所获取音频指纹的哈希码；发送所生成哈希码与数据库中存储的哈希码之间的匹配查询；并接收响应于该发送的所述音频信号的内容识别结果，其中所述生成哈希码包括：在所获取音频指纹中确定音频指纹的帧间隔delta_F以生成所述哈希码。

以下给出的对本公开的详细描述参考通过举例方式图解其中可实践本公开的特定实施例的附图。以充分的细节描述这些实施例以使得本领域普通技术人员能够实践本发明。应该理解，本公开的各种实施例可能彼此不同，但并不需要互相排斥。

例如，在本说明书中描述的特定形状、结构和特性可从一个实施例更改和变化到另一实施例，而不会背离本公开的精神和范围。而且，应该理解：每个实施例内的各个组件的位置或排列可被改变，而不会背离本公开的精神和范围。相应地，以下详细描述不是出于限制的意义，并且本公开的范围应该被解释为包含所附权利要求书及其等效的范围。

贯穿这几个方面，附图中相似的参考编号指示相似或类似组件。为清晰图解本公开，与本公开描述不相关的部分被省略，并且贯穿说明书，相似部分通过相似的参考编号来表示。

之后，将参考附图详细描述本公开各种实施例，以便本领域技术人员可易于执行本公开。然而，本公开可体现为许多不同形式，并且不应被解释为限于在此阐述的实施例。

贯穿说明书，应该理解，当一个部分被指示“连接到”另一部分时，它可以“直接连接到”其它部分，或者经由另一元件而“电连接到”其它部分。而且，还应该理解，这里所使用的术语“包括”和/或“包含着”指明所陈述的特点或组件的存在，而不并排除一个或多个其它特点或组件的存在或增加。

之后，将参考附图详细描述本公开实施例。

多媒体内容可通过用户终端，包括TV、无线接收机、数字多媒体广播(DMB)或者智能电话机而被提供给用户。此时，用户可能有关于有关所提供的多媒体内容的附加信息的问题，例如，节目名称、与表演者或节目相关的社会话题等等。而且，内容提供者可能需要快速了解用户的内容使用类型或偏好或者监控提供给用户的内容的使用状态以便基于内容使用类型或偏好来提供附加服务。

如果多媒体内容包括有关该相关内容的信息，则该信息可用于提供附加信息或者附加服务。然而，如果在多媒体内容中没有包含该信息，则可以使用基于由用户终端所接收或执行的多媒体信号的特征来识别内容的技术。

图1是根据本公开实施例的内容识别系统的方框图。更具体说，图1示出了视频-音频混合内容识别(VAHCR)系统的实施例。

VAHCR系统从用户终端中所接收的视频信号和音频信号提取特征点，将所提取的特征点与数据库中所存储的各内容的特征点信息相比较，识别并认出该内容。

在这方面，所提取的特征点应该能够描述提供每一内容所具有的唯一信息，即使所接收的多媒体信号质量退化，也应该可能进行稳定的内容识别。引起所接收多媒体信号质量退化的因素包括异步系统、高噪声率、格式转换误差、量化误差等。

用于多媒体识别的每一信号的特征点称为多媒体指纹。视频信号的特征点称为视频指纹(VPF)。音频信号的特征点称为音频指纹(APF)。多媒体指纹通常被转换成由二进制码组成的哈希码。哈希码也称为哈希密钥或者哈希值。

然而，依据实施例，由于可以按原样使用视频指纹或音频指纹，所以将多媒体指纹转换为哈希码的配置并不是必需的。应该注意，图1所公开的实施例中省略了视频指纹和音频指纹被转换为哈希码的配置，并且指纹和哈希码以相似的含义使用。

在图1中公开的VAHCR系统主要包括用户终端100、匹配服务器200、音频指纹数据库300和视频指纹数据库400。

用户终端100包括用于复制多媒体内容的多媒体内容应用器110、用于从音频内容120提取音频指纹数据的音频指纹提取器130、用于从视频内容140提取视频指纹的视频指纹提取器150、用于向匹配服务器200发送所提取的音频指纹和视频指纹以及接收从匹配服务器200发送的匹配结果的网络接口160、和用于与用户交互的用户接口170。

匹配服务器200包括：音频指纹匹配器210，用于将音频指纹数据库300中所存储的全部音频内容的音频指纹和用户终端所发送的音频指纹比较；视频指纹匹配器220，用于将视频指纹数据库400中所存储的全部视频内容的视频指纹和用户终端所发送的视频指纹比较，交互匹配器230，用于基于音频指纹匹配器210的匹配结果和视频指纹匹配器220的匹配结果执行交互匹配；网络接口240，用于接收用户终端100所发送的音频指纹、视频指纹等以及向用户终端100发送多媒体内容指纹匹配结果或者内容识别结果。

音频指纹数据库300和视频指纹数据库400存储可提供给用户终端100的全部多媒体内容的每一个的音频指纹和视频指纹。全部多媒体内容的每一个的音频指纹和视频指纹通常可由内容提供商(CP)提供，但是它们可由单独实体创建或者使用。

图1中，虽然音频指纹数据库300和视频指纹数据库400被示出为匹配服务器200之外，但是根据本实施例，音频指纹数据库300和视频指纹数据库400可在匹配服务器200内部实现。图1中，虽然用户终端100和匹配服务器200被配置成独立的装置，但是用户终端和匹配服务器也被配置成单个装置。

当从匹配服务器200接收到多媒体指纹匹配结果或内容识别结果时，用户终端100可通过用户接口170向用户提供多媒体指纹匹配结果或内容识别结果。或者，用户终端100可根据由内容提供商或者附加服务提供商所确定的规则为用户提供与当前正被再现的多媒体内容相关的附加服务等。

除了在当前用户终端中正被再现的内容的搜索/识别或者作为最流行服务的通过内容识别进行广播监控以外，可通过第二屏幕终端，例如智能手机或者平板电脑等提供与当前用户终端(TV)中正被再现的内容相关的信息。或者，可提供诸如与内容相关的广告的个性化广告。

另外，可以识别离线内容，可以识别在其它设备中再现的流传输内容，可以提供相关APP服务，对数据复制管理和版权相关事宜的扩展也是可能的。

如果对系统性能和数据存储容量没有限制，则视频指纹和音频指纹都可用于提高内容识别率。然而，因为这在实践中是不可能的，所以音频指纹和视频指纹之一可实际被采用作为主策略，而其余指纹可用作辅助手段。

图2中假定在主要使用利用视频指纹的视频内容识别(VCR)方法的同时，在其中视频内容识别的内容识别率退化的部分辅助使用音频内容识别(ACR)方法。

在图2的视频指纹提取过程中，存在7个时域样本。对应于从接收到第一样本到接收到第三样本的时间的部分A，由于其视频指纹在时间上具有充分的变化，所以对应于其中视频内容识别有效性高的部分。然而，由于随后的三个样本由相同或非常相似的样本组成，所以用于其视频识别的信息是不充分的。因此，对应于这三个样本的部分B对应于其中视频内容识别有效性低的部分。

即使该视频指纹分辨率低，音频指纹也可能具有充分的用于内容识别的信息。因此，如果补充执行音频内容识别，则可以保持多媒体内容识别率。

反之，当主要使用音频内容识别方法时，可在其中音频内容识别有效性低的部分(诸如当相同背景声音被重复或者音频音量低时)执行视频内容识别。

或者，即使主要使用视频内容识别方法，音频内容识别方法也可被周期性地采用以用于当其中视频指纹分辨率较低的部分(像图2的部分B)产生时能够更快速切换到音频内容识别方法。在这种情况下，通过将音频指纹匹配方法划分为两块有可能获得更有效率的应用。基于之前的音频指纹匹配结果，可在其中视频内容识别方法具有充分分辨率的部分中(像A部分中)应用具有低计算复杂度和快速响应速度的匹配方法，可在其中视频内容识别方法不适用的部分(像B部分)中应用更精确的匹配方法，从而可获得高可靠性的内容识别结果。

如上所述，视频指纹或音频指纹必须包括来自每一内容的一部分的代表视频指纹或音频指纹的唯一信息，即使所接收的信号发生退化，也应该提供稳定的内容识别率。

在音频内容识别方法中，可能随着应用环境(诸如信道干扰和信号异步所引起的噪声)而产生音频信号的质量退化，且音频内容识别性能可能下降。

为了最小化质量退化影响，用于生成音频指纹数据库的信号间隔可被密集设置。然而，当广播信道数量增加并且高容量内容服务被提供时，如果用于产生音频指纹数据库的信号间隔被密集设置，则存在音频指纹数据库容量变得过大并且匹配计算的量呈指数增长的问题。

根据作为典型的音频内容识别方法的Philips Robust Has(PRH)方法，使用相对于时间和频率轴的能量带差的符号产生音频指纹。在这种情况下，为了补偿由用户终端请求匹配的指纹信息和数据库中存储的原始指纹信息之间的时间不匹配所引起的误差，虽然帧间的重叠比率应该保持较高，但是高冗余率增加了音频指纹的数据库尺寸，并且增加了计算量。

另一音频内容识别方法是一种使用时域和频域中的局部峰值的星座图的方法。虽然局部峰值是对于环境噪声具有鲁棒性的音频特性，但是它具有很难把局部峰值应用到要求快速响应速度的在线多媒体内容识别的缺点。

在实时内容识别技术中，用户终端要求匹配的指纹信息和数据库中存储的原始指纹信息之间的时间不匹配是影响内容识别率的最重要因素。因此，在音频内容识别技术中，产生对时间不匹配具有鲁棒性的音频指纹是重要的技术问题。

图3是根据本公开实施例的音频内容识别装置的方框图。

根据本公开实施例的音频内容识别装置包括收发器310、指纹提取器320、哈希码生成器330、存储器340和控制器350。

收发器310可包括接口，用于与外部通信、接收从外部发送的多媒体内容等、发送多媒体指纹匹配查询并接收多媒体指纹匹配结果或内容识别结果。

从通过指纹提取器320和收发器310接收的多媒体内容尤其是音频内容提取基于谱形状特性的音频指纹。

哈希生成器330基于从指纹提取器320所提取的音频指纹生成哈希码。哈希码是用于检索所存储数据的搜索关键字，并且用于得到以数组存储的数据库的索引。

当依据实施例音频指纹直接用于匹配时，可省略哈希生成器330。

存储器340存储音频内容识别装置识别音频内容所需的各种类型的信息以及音频内容识别装置处理系统数据所需的各种类型的信息。

控制器350控制音频内容识别装置的操作，控制收发器310、指纹提取器320、哈希码生成器330和存储器340以用于音频内容识别装置向匹配服务器传送音频指纹或音频指纹哈希码。

图4是根据本公开实施例的音频内容识别方法的流程图。

音频内容识别装置通过收发器310接收多媒体内容(410)。多媒体内容可包括视频内容和音频内容。音频内容可包括信道音频和对象音频中的至少之一。虽然为了方便起见在本说明书中描述了音频内容，但是本公开不限于音频内容，可同样地应用于视频内容。

音频内容识别装置的指纹提取器320基于所接收的多媒体内容420获得音频指纹。虽然在本公开实施例中，使用用于生成音频指纹的各种音频信号特征点，但是频域的谱形状也可用作特征点。

谱形状的参数包括线性预测系数(LPC)、Mel频率倒谱系数(Mel-frequencyceptrum coefficient，MFCC)和线性谱频率等。在本公开中，LSF算法用于声音信号的时变建模，但是，全面地说，本公开不限于此。

考虑频域中的音频信号，音频信号具有即使频带中的功率(能量)变化总体形状并不会受到较大影响的特点。因此，在诸如噪声或异步(asynchronism)这样的环境变化中，谱形状参数可能是一个稳定的特征点。

音频内容识别装置的哈希码生成器330使用所获得的音频指纹生成哈希码(430)。通过将音频指纹信息转换为比特串形状而获得哈希码。将稍后详细描述根据本公开实施例的生成哈希码的方法。

如果生成了哈希码，则音频内容识别装置将所生成的哈希码和匹配查询发送给匹配服务器440，并从匹配服务器450接收匹配结果或者内容识别结果。

图5所示根据本公开实施例的音频内容识别系统包括指纹提取器510、匹配器520和数据库530。

当在指纹提取器510中接收到音频数据时，指纹提取器510预处理所接收的音频数据(511)。一般音频信号的预处理过程与将所接收的音频数据转换为单脉冲编码调制(PCM)信号并考虑音频频带而执行带通滤波的过程对应。

在时域中，预处理后的音频信号被转换为时域帧。每个帧建立窗口函数以减小帧起始和结束点的中断。为了防止在每一帧中生成的音频指纹值的突然变化，每一帧边界与相邻帧重叠。与相邻帧的重叠率是影响音频指纹数据库的尺寸和搜索计算的量的因素。

音频信号特征被提取以用于从完全重叠的音频信号中生成音频指纹(513)。虽然在本公开实施例中，使用各种音频信号特征点以生成音频指纹，但是频域的谱形状也可用作特征点。

谱形状的参数包括线性预测系数(LPC)、Mel频率倒谱系数(MFCC)和线性谱频率等。在本公开中，LSF算法用于对声音信号的时变建模，但是，全面地说，本公开不限于此。

考虑频域中的音频信号，音频信号具有即使频带中的功率(能量)变化，总体形状并不受到较大影响的特点。因此，对于诸如噪声或异步之类的环境变化，谱形状的参数可能是稳定的特征点。

基于谱形状提取音频指纹，通过使用所提取的音频指纹生成哈希码(514)。通过将音频指纹信息转换为比特串形状而获得哈希码。将稍后详细描述根据本公开实施例的生成哈希码的方法。

当所生成的哈希码和对于该哈希码的匹配查询被发送到匹配器520时，匹配器520从数据库530接收哈希表(532)。该哈希表是由原始数据的哈希码组成的表。包括内容ID和每一内容ID的帧信息的查找表(LUT)用于执行查找表和其请求被接收到的内容的映射。

接着，基于查找表和内容的映射结果，确定(522)和验证(523)在所接收内容和存储在数据库中的原始内容之间的相似性。将在稍后详细描述根据本公开实施例的匹配和确定方法。

当完成哈希码匹配时，基于该匹配结果的相关音频内容的元数据连同所识别音频内容的ID和帧号一起，可从数据库530发送到匹配器520(531)。而且，与所识别音频内容的ID和帧号一起，相关音频内容的元数据可通过用户接口被输出(未显示)或者被存储(未显示)到存储器中。

图6显示异步环境中基于LSF的音频指纹和基于能量的音频指纹的错误率。

图6中，水平轴表示异步样本对时域跳动尺寸(hopping size，跳数)的比值，异步样本率沿右向增长，垂直轴表示比特错误率(BER)。

610代表当使用LSF作为音频指纹特征点时的哈希码比特错误率。620代表当使用频率子带能量作为音频指纹特征点时的哈希码比特错误率。

参照图6，当使用频率子带能量作为音频指纹特征点时，哈希码比特错误率在异步样本率增加时急剧增加。另一方面，当根据本公开实施例使用LSF作为音频指纹特征点时，即使在异步样本率增加时，错误率也被保持，并展现出稳定的性能。

图7是根据本公开实施例的哈希码生成器700的方框图。

图7所示的哈希码生成器700包括权重施加器710、帧间隔确定器720和哈希比特生成器730。

在图7所示的实施例中，哈希码生成器700的输入是谱形状特征的系数。在本公开中，为了方便，使用线性谱频率(LSF)。然而，本公开不限于该方法。输出是音频指纹的哈希码B_FP，其是尺寸为N_c个比特的比特串。

如上所述，谱形状的特征点对于信号噪声或异步样本具有鲁棒性，但是并不随着时间帧显著变化。因此，当使用相邻帧之间的特征差生成哈希码时，增加了错误发生的概率。在这种情况下，如果增加放大作为用于生成哈希码的参考的特征差的过程，则可降低这种错误发生的概率。

根据本公开实施例，根据哈希码生成方法对环境恶化具有鲁棒性，可通过对谱形状特征系数应用权重来放大特征系数的差。为此，权重应用710对输入信号c_ssf应用权重以放大相邻帧的特征差。

为了不受环境恶化影响而稳定地将音频指纹转换为哈希码，作为用于生成二进制码的参考的参考值和输入信号之间的偏离必须较大。在这点上，通过先前帧确定参考值。

例如，当使用LSF时，离散余弦变换(DCT)系数或者LSF索引在相邻帧具有非常相似的值，结果，参考值和输入信号具有较小的偏差。因此，当在其中噪声率较高或异步样本率较高的环境中使用相邻帧之间的DCT系数或LSF索引值的差来生成哈希码时，错误率增加。

为了解决这样的问题，在本公开实施例中，为放大相邻帧的特征点的差，通过使用高阶矩而不是按原样使用DCT系数或者LSF索引值的0阶矩来产生哈希码。

例如，通过应用LSF索引值以及对应于LSF索引值的功率谱密度(PSD)作为权重，可新定义具有增强偏离的特征点系数。

通过将对应于相应系数的频率功率密度的权重W_ij应用于第i帧和第j频率点(frequency bin)的c_ssf(i)，获得c_ssf(i)×W_ij，并作为新的音频指纹FP_new(i)使用。

或者，通过将LSF索引值与各个mel尺度滤波器相乘而获得的数值当中的一组最大值可被用作新音频指纹。

根据本公开另一实施例的对环境恶化具有鲁棒性的哈希码生成方法，特征差可通过基于预定帧间隔的帧而不是相邻帧生成哈希码而被放大。为此，帧间隔确定器720确定用于基于DCT系数差变化生成哈希码的帧间隔delta_F。

如上所述，由于相邻帧之间基于谱形状的DCT系数的特征具有相似的模式，所以当用于生成哈希码的帧间隔delta_F增大时，参考帧的DCT系数差增加，并且因而可生成对于噪声具有鲁棒性的哈希码。然而，如果帧间隔delta_F增大时，则由于可生成的哈希码数减少，所以存在可用于内容识别的信息量减少的问题。

由于delta_F尺寸的增加或者哈希码数目的减少都影响匹配计算量、内容识别率、数据库尺寸或者哈希表中哈希码的分布等，所以必须考虑权衡关系以确定对系统环境适合的delta_F。

当确定了帧间隔delta_F时，哈希比特生成器730基于所确定的delta_F生成哈希码B_FP。

图8是图解根据本公开实施例的相对于帧间隔delta_F的变化的delta_LSF的图。

例如，对于持续时间1.024秒的音频流，可在冗余率96.9％(31/32)时获得具有2048个样本长度的225帧以及16kHz的样本频率。也就是说，对于流，可获得225组LSF，对获得的LSF执行DCT执行以用于去相关。

当哈希码的尺寸为Nc个比特且Nc＝17时，如果每帧的LSF数目是17，n_ID内容的第n_Fr帧的LSF是LSF_i(n_ID，n_Fr)，则delta_LSF可如以下[公式1]定义。

[公式1]

ΔLSF_i＝|LSF_i(n_ID，n_Fr)-LSF_i(n_ID，n_Fr+Δ_F)|，(i＝1,…,N_c)

图8示出delta_LSF，其是对应于根据以上环境中的帧间隔delta_F的两个参考帧之间的LSF偏差的delta_LSF_i的平均值。

从图8中可以看出，delta_LSF也倾向于随delta_F增大而增大。当delta_F增大时，delta_LSF也增大，并且因而比特错误率在哈希码匹配中降低。然而，由于匹配哈希码的数目随delta_F增大而减少，所以最优delta_F可被确定为在delta_LSF增大被减缓的点。图8中，delta_F可被设置为20。

根据本公开另一实施例，不仅具有相同度的DCT系数而且不同阶的DCT系数的差值可被用作确定delta_F的附加信息。

图9是根据本公开另一实施例的内容识别系统的方框图。

如上所述，随着内容数据库的尺寸的增大，内容识别的计算量和数据库中哈希数据库的尺寸增大。除了上述本公开实施例以外，可通过使用从所生成哈希码中选择的哈希码执行匹配而降低计算量。

用于获得指纹特征点的指纹提取器910为通过处理以秒为单位的样本而生成的成百上千个哈希码发送匹配查询。这时，匹配器920基于从指纹提取器910发送的哈希码以及从数据库发送的哈希表识别内容。

哈希表是当把内容数据库转换为哈希码时的每个哈希码的一组音频数据信息，并且通常为查找表的形式。

在这种情况下，在相对于计算量的匹配率(错误率)方面，使用所有接收的哈希码执行匹配可能是低效率的。例如，当存在相同哈希码时，由于相同哈希码对应于冗余数据，所以使用相同哈希码执行匹配是无意义地使用系统资源。

因此，在这点上，可增加选择用于匹配查询的哈希码的哈希码选择器930，因此，可更有效地使用系统资源。

图10是示出相对于相邻哈希码之间的比特变化的数目的、频率点数的图。

当使用对应于本公开实施例的基于谱形状的音频指纹时，基于该音频指纹特征点生成的哈希码具有对时间变化不敏感的特点。

图10是示出当每一帧被转换为由17比特组成的哈希码时预定哈希码与相邻帧的哈希码相比较时的比特变化的数目的柱状图。如图10所示，可以看出，17比特中平均只有两个比特变化的情况是最高的，全部数据变化的大约50％是1到4比特。这时，全部数据变化中0比特对应于7％，超过8个比特变化的情况仅对应于0.7％。

当比特完全不变化时，由于每一帧具有相同的哈希码，所以可通过将相同哈希码中除一个哈希码以外其余哈希码删除的方法来避免冗余算术运算。

而且，由于超过8个比特变化的情况只对应于0.7％，即使删除具有低可靠性的部分，识别率也不会受到大的影响。所以，可通过这样的过程进一步减少计算量。

根据本公开另一实施例，可通过改变用于匹配的哈希码传输次序而减少计算量。在匹配器中，由于匹配以匹配查询被接收到的次序执行，所以具有高匹配概率的哈希码首先被传送，从而减少由于匹配失败而引起的重传率，因此有可能更高效地进行内容识别。

例如，匹配查询传输次序可优先发送其中哈希码的比特变化经常发生的部分，在图10所示的实施例中，匹配查询可以2比特变化样本—3比特变换样本—1比特变化样本—4比特变化样本的顺序发送。

查询传输次序可基于由指纹提取器生成的哈希码确定，或者查询传输次序可基于数据库中的哈希码确定。当查询传输次序基于数据库中的哈希码确定时，匹配器必须向哈希码生成器或哈希码选择器发送所确定的查询次序。哈希码生成器或哈希码选择器依据所发送的查询传输次序向匹配器发送所生成的哈希码。

图11是根据本公开实施例的匹配器1220的方框图。

匹配器1220使用从指纹提取器1210发送的匹配查询中包含的哈希数据B_FP以及从数据库1230发送的哈希表1221以获取哈希数据的内容ID和帧索引，并在ID-帧平面(之后描述)上分配和图解所获取的内容ID和帧索引。

除了对应于参考值的哈希码，从数据库1230发送的哈希表1221还包括有关哪个指纹从哪个内容的哪个时间帧被提取的信息。因此，可通过将发送查询的哈希数据和使用哈希表的数据库进行映射而获取对应于发送查询的哈希数据的内容ID以及帧号。

内容匹配最简单的方法是直接将发送查询的哈希码与以(比特)串为单位的数据库的哈希参考值进行比较，但是这种方法效率比较低。

由于基于谱形状特征的音频指纹和哈希码对于时间变化具有鲁棒性，所以可使用这样的特性执行高效匹配。如果图解了其中向数据库域(ID-帧域)发送匹配查询的哈希码的分布，则由于这样的特性，分布被集中在数据库域的预定位置上(稍后描述)

如以下在[公式2]中所示定义查找表映射功能L和查询分布图H，用于说明对应于发送匹配查询的指纹信息的数据库域分布。

[公式2]

(n_ID，n_Fr)_j＝L{fp_query(j)}→H{(n_ID，n_Fr)_j}＝1

这时，查找表映射功能L是用于使用查找表将发送匹配查询的指纹fp_query(j)}映射到预定值(n_ID，n_Fr)_j的功能，用于查询的查询分布图H在映射后被设置为1。

当哈希码的候选内容ID和帧索引被确定时(1122)，可计算每一候选内容ID的帧集中测量(FCM)(1123)。

这时，n_ID的FCMFCM(n_ID)被定义，如[公式3]所示。

在这种情况下，N_Fr表示所有帧的总数，Q表示sigma函数(∑)。

也就是说，FCM被定义为对应于N_Fr匹配查询的分布值的和。随着被集中在每一候选ID的帧的集中度越来越高，与相应内容一致的可能性就越来越高，因此，相似性可基于概率来确定。

同时，如果在数据库域中显示发送匹配查询的指纹信息的分布，那么可确认分布被集中在具有最高相似性的ID和帧号上(将稍后描述)。

如果计算了候选ID的FCM，则比较所计算的FCM与预定阈值α(1124)。如果所有候选ID的FCM都不超过阈值α，则匹配器1120向指纹提取单元1110发送匹配失败结果和查询重传请求。

如果在候选ID当中存在其FCM超过阈值α的ID，则并且其中匹配被集中的区域的哈希值与数据库中的哈希值以选择最优ID(1125)，并且相应内容ID和相关元数据被输出作为匹配结果。例如，可计算发送匹配查询的哈希码与数据库中的哈希码之间的汉明距离，具有最小结果值的内容ID可被确定为最优ID。

图12是示出其中发送匹配查询的指纹信息分布被显示在数据库域上的实施例。

如上所述，如果在数据库域上显示发送匹配查询的指纹信息，则分布被集中在具有最高相似度的ID和帧号上。在图12所示的实施例中，存在区域1220，其中匹配被集中在(n_ID,n_FR)＝(1,1)附近，作为将发送匹配查询的指纹信息分布显示在数据库域上的结果。

也就是说，在这种情况下，匹配结果是(n_ID,n_FR)＝(1,1)，匹配器获得发送匹配查询的音频指纹对应于第一内容的第一帧的结果。

图13A和13B是图解根据本公开实施例的内容识别方法的性能的图。

虽然存在确定内容识别方法的性能的多种方法，但是在图13所示的实施例中，性能被确定为与内容识别(即由于匹配失败而引起的重传率)相关。

图13A示出帧长度为2048以及样本率为16kHz时对于每一冗余率的平均检测率。而且，图13B示出帧长度为2048以及样本率为16kHz时对于每一冗余率的检测率标准偏差。

由于检测率指示内容识别成功率，所以可以确定：检测率越高，内容识别性能越高，而检测率的标准偏差越小，内容识别性能越稳定。

参照图13A，与根据现有技术的内容识别结果相比，根据本公开的内容识别结果显示出高检测率。参照图13B，与根据现有技术的内容识别结果相比，根据本公开的内容识别结果显示出低的标准偏差。因此，可以看出，根据本公开的内容识别方法显示出比现有技术更高的性能，且运行更稳定。

图14是图解根据本公开实施例的、依据内容识别方法运行场景的操作流的图。

根据本公开实施例，对存在各种声音源的音频内容执行音乐或语音部分的音频场景分析(ASA)，可仅对预定声音源或者用户所期望的声音源执行内容识别。

在图14所示的实施例中，仅对音乐部分执行内容识别。使用语音/音乐检测(SMD)对其中音乐部分mu和声音部分sp存在的声音源执行声音源分析1430以确定音乐部分和语音部分。

例如，如果当正通过流传输再现预定声音源时检测到音乐部分1432、1434和1436，则指纹提取或音频内容识别请求被发送给音频指纹引擎1420。当接收到指纹提取或音频内容识别请求时，音频指纹引擎1420从所接收的音频数据提取音频指纹并等待相应音乐部分结束的同时生成哈希码。

如果音乐部分结束，则音频指纹引擎1420向匹配服务器1410发送匹配查询以响应指纹提取或内容识别请求。匹配服务器1410基于指纹信息(诸如从数据库(未显示)发送的哈希表)执行匹配和内容识别。

根据本公开实施例，当存在服务器的请求时，服务器可运行以执行内容识别。例如，当服务器1510需要有关在客户端上正执行的内容的信息时，服务器1510向客户端的音频指纹引擎1520发送指纹提取或音频内容识别请求指令。

当从服务器1510接收到指纹提取请求指令时，音频指纹引擎1520从预定时间或者直到指纹提取或接收到音频内容识别结束指令为止的音频数据中提取音频指纹，并生成哈希码。

当预定时间过去或者接收到结束指令时，音频指纹引擎1520向服务器1510发送匹配查询。匹配服务器1510基于指纹信息(诸如从数据库(未显示)发送的哈希表)执行匹配和内容识别。

根据以上实施例，当视频内容识别和音频内容识别在视频-音频混合类多媒体内容识别装置中串行运行时，对于视频-音频混合类多媒体内容识别装置能有效控制每一运行是有好处的。

图16图解根据本公开另一实施例的描述内容识别方法的音频指纹序列。

图16所示的音频指纹序列1610在多个位置具有相同指纹值1611、1612和1613。因此，具有相同数值的指纹是在不具有有效信息的同时浪费系统资源的因素。因此，可通过删除除在具有相同数值的指纹当中的一个之外的指纹(1622、1623)而重新生成(1620)指纹序列。

如上所述，当基于重新生成的指纹序列的匹配查询被发送给服务器时，这对于在查询数量减少的同时将匹配性能保持在相同级别是有好处的。

图17至20是用于说明对具有短信号长度的数据或非连续数据识别内容的方法的图。

在具有短信号长度的数据或非连续数据中，由于很难找到信号同步，所以产生了难于测量精确的时间延迟的异步环境。

图17是说明将由现有技术提取的音频指纹与数据库的音频指纹进行匹配的方法的图。

在现有技术中，在异步环境中，由于内容识别性能显著降低，所以音频指纹使用大约4秒的时间较长的音频数据以获取充分信息。当使用充分长时间的数据时，在一部分中存在多个大峰值，这样的峰值是好的音频指纹特征点，同时，包括用于获取信号同步的信息。

图18是显示当接收非连续数据时由现有技术提取的音频指纹和数据库的音频指纹的图。

现有技术方法存在的问题是从非连续信号提取的音频指纹不包括用于同步的充分信息，并且可能与数据库音频指纹不匹配。

图19是示出当接收具有短信号尺寸的数据时、根据本公开实施例的、从谱形状提取的音频指纹和数据库音频指纹的图。

图20是示出当接收非连续数据时、根据本公开实施例的从谱形状提取的音频指纹和数据库音频指纹的图。

在图19或图20所示的异步环境中，由于根据现有技术发生恶化现象，因此不可能识别内容或内容识别率显著降低。然而，根据本公开的指纹提取方法和哈希码生成方法，即使短信号，也有可能生成连续指纹，并且对异步具有鲁棒性，这使得有可能对非周期信号或具有短时间的输入信号执行内容识别。

而且，通过合并两个方法，可在短时间发送多个非连续查询，并且因而，有可能进一步改善内容识别性能并扩展到各种场景。

与图3所示的音频内容识别装置相比，图21所示的音频内容识别装置还包括匹配器2160和数据库2170，并且因此只对这些进行描述。

在数据库2170中，存储着所有音频内容的指纹信息、哈希表和附加信息。当从匹配器2160接收到指纹信息或哈希表传输请求时，数据库2170向匹配器2160发送该信息。

匹配器2160基于从哈希码生成器2130发送的哈希码和从数据库2170发送的哈希表执行匹配，并获取内容ID、帧号、附加信息等等作为匹配结果。

图22所示的实施例中，直接由音频内容识别装置执行匹配操作。因此，与图4相比，去除了发送匹配查询和接收内容识别结果，增加了匹配哈希码(2240)和获取内容识别结果(2250)。

如上所述本公开实施例可以被实现为由各种计算机组件运行并存储在非暂时性计算机可读记录介质内的可编程指令。非暂时性计算机可读记录介质可包括程序指令、数据文件、数据结构或其任意结合。非暂时性计算机可读记录介质中存储的程序指令可为本公开专门设计和配置或者对软件领域内一般技术人员来说是公知和可用的。非暂时性计算机可读记录介质的示例包括专门配置用于存储和执行程序指令的硬件装置，例如，诸如硬盘、软盘和磁带之类的磁介质、诸如CD-ROM、DVD等之类的光记录介质、诸如光磁盘、ROM、RAM、闪存等之类的磁光介质等。程序指令的示例包括由例如编译器生成的机器代码以及使用翻译器由计算机运行的高级语言代码。以上示范硬件装置可被配置为以一个或多个软件模块运行以便执行示范实施例中的操作，反之亦然。

虽然参照本公开示范实施例对本公开进行了特定展示和描述，但是应该理解，本发明不限于所公开的实施例，而是相反，本领域一般技术人员应该意识到，在不背离由所附权利要求书中公开的本发明的范围和精神的前提下，可以进行各种更改、增加和替换。

因此，本公开的精神不应被解释为限于上述实施例，所有等于本公开权利要求或者由本公开权利要求等效更改的范围都属于本公开的技术精神。

Claims

1.一种音频内容识别方法，包括：

接收音频信号；

获得所接收音频信号的音频指纹(AFP)；

生成所获取音频指纹的哈希码；

发送在所生成哈希码和数据库中存储的哈希码之间的匹配查询；并且

接收响应于所述发送的所述音频信号的内容识别结果，

其中，生成所述哈希码包括：在所获取的音频指纹中确定音频指纹的帧间隔delta_F以生成哈希码，

其中，所述音频指纹是基于所接收音频信号的频域谱形状而获得的，

其中，所述帧间隔delta_F是基于所获取音频指纹的多个帧当中的参考帧的离散余弦变换DCT系数差变化而确定的。

2.如权利要求1所述的音频内容识别方法，其中，生成所述哈希码包括：应用基于所获取音频指纹的频域能量而确定的权重。

3.如权利要求1所述的音频内容识别方法，其中，发送所述匹配查询包括：基于在与彼此相邻的帧对应的哈希码之间的比特变化的数目在所生成的哈希码中确定用于发送所述匹配查询的哈希码、和用于发送所述匹配查询的哈希码的发送优先级。

4.如权利要求1所述的音频内容识别方法，其中，所述内容识别结果基于发送所述匹配查询的哈希码的内容标识(ID)和帧域的帧集中测量(FCM)来确定。

5.如权利要求1所述的音频内容识别方法，其中，所述音频信号包括信道音频和对象音频中的至少一种。

6.如权利要求1所述的音频内容识别方法，还包括：

分析所接收音频信号的音频场景特性；并且

基于所述音频场景特性来设置获取音频指纹的部分，

其中，获取音频指纹包括：获取感兴趣部分的音频指纹。

7.如权利要求1所述的音频内容识别方法，还包括：接收音频内容识别指令和匹配查询发送指令，

其中，获取音频指纹包括：获取从接收到所述音频内容识别指令的时刻到接收到所述匹配查询发送指令的时刻之间的部分的音频指纹。

8.如权利要求1所述的音频内容识别方法，其中，生成哈希码包括：如果在所获取音频指纹当中存在具有相同值的音频指纹，则删除除一个以外的具有相同值的其它音频指纹。

9.一种音频内容识别方法，包括：

接收音频信号；

获取所接收音频信号的音频指纹(AFP)；

生成所获取音频指纹的哈希码；

将所生成的哈希码与数据库中存储的哈希码匹配；并且

基于所述匹配的结果识别所述音频信号的内容，

其中，生成哈希码包括：在所获取音频指纹中确定音频指纹的帧间隔delta_F以生成所述哈希码，

10.一种音频内容识别装置，包括：

多媒体接收器，被配置成接收音频信号；

音频指纹获取器，被配置成获取所接收音频信号的音频指纹(AFP)；

哈希码生成器，被配置成生成所获取音频指纹的哈希码，发送在所生成哈希码和数据库中存储的哈希码之间的匹配查询，并接收响应于所述发送的所述音频信号的内容识别结果，

其中，所述哈希码生成器在所获取音频指纹中确定音频指纹的帧间隔delta_F以生成哈希码，

11.一种音频内容识别装置，包括：

多媒体接收器，被配置成接收音频信号；

哈希码生成器，被配置成生成所获取音频指纹的哈希码；和

匹配器，被配置成将所生成哈希码与数据库中存储的哈希码进行匹配，并基于匹配的结果识别所述音频信号的内容，

12.一种计算机可读记录介质，其上记录有用于执行权利要求1所述的方法的计算机程序。