CN113614828A

CN113614828A - 经由归一化对音频信号进行指纹识别的方法和装置

Info

Publication number: CN113614828A
Application number: CN201980072112.9A
Authority: CN
Inventors: R·库弗; Z·拉菲
Original assignee: Gracenote Inc
Current assignee: Gracenote Inc
Priority date: 2018-09-07
Filing date: 2019-09-06
Publication date: 2021-11-05
Also published as: WO2020051451A1; AU2022275486A1; AU2019335404A1; EP3847642A4; CA3111800A1; US20200082835A1; FR3085785A1; FR3085785B1; KR20210082439A; JP7346552B2; JP2021536596A; AU2019335404B2; EP3847642B1; EP3847642A1

Abstract

公开了经由均值归一化来对音频进行指纹识别的方法、装置、系统和制品。一种用于音频指纹识别的示例装置包括：频率范围分离器，其将音频信号变换到频域，变换后的音频信号包括多个时间‑频率仓，所述多个时间‑频率仓包括第一时间‑频率仓；音频特性确定器，其确定多个时间‑频率仓中的第一组时间‑频率仓的第一特性，第一组时间‑频率仓包围第一时间‑频率仓；以及信号归一化器，其归一化音频信号，从而生成归一化能量值，音频信号的归一化包括按第一特性归一化第一时间‑频率仓。示例装置还包括点选择器，其选择归一化能量值之一；以及指纹生成器，其使用归一化能量值中的所选择的一个归一化能量值来生成音频信号的指纹。

Description

经由归一化对音频信号进行指纹识别的方法和装置

相关申请

本专利要求于2018年9月7日提交的法国专利申请序列号1858041的优先权和利益。法国专利申请序列号1858041的全部内容通过引用并入本文。

技术领域

本公开总体上涉及音频信号，并且更具体地，涉及经由归一化对音频信号进行指纹识别的方法和装置。

背景技术

音频信息(例如，声音、语音、音乐等)可以表示为数字数据(例如，电子的、光学的，等等)。(例如，经由麦克风)捕获的音频可以被数字化、以电子方式存储、处理和/或分类。对音频信息进行分类的一种方法是通过生成音频指纹。音频指纹是通过对音频信号的一部分进行采样而创建的音频信息的数字摘要。音频指纹在历史上一直被用来识别音频和/或验证音频的真实性。

附图说明

图1是可以实现本公开的教导的示例系统。

图2是图1的音频处理器的示例实现方式。

图3A和图3B描绘了由图2的示例频率范围分离器生成的示例未经处理的频谱图。

图3C描绘了由图2的信号归一化器根据图3A和图3B的未经处理的频谱图生成的经归一化的频谱图的示例。

图4是被分成固定音频信号频率分量的、图3A和图3B的示例未经处理的频谱图。

图5是由图2的信号归一化器根据图4的固定音频信号频率分量生成的经归一化的频谱图的示例。

图6是由图2的点选择器根据图5的经归一化的频谱图生成的经归一化且经加权的频谱图的示例。

图7和图8是表示可以被执行以实现图2的音频处理器的机器可读指令的流程图。

图9是被构造成执行图7和图8的指令以实现图2的音频处理器的示例处理平台的框图。

附图不是按比例绘制的。通常，贯穿附图和所附书面描述，将使用相同的附图标记来指代相同或相似的部分。

具体实施方式

基于指纹或签名的媒体监测技术通常利用监测时间间隔期间被监测的媒体的一个或更多个固有特性，以生成针对该媒体的基本上唯一的代理(proxy)。这样的代理称为签名或指纹，并且可以采取表示媒体信号(例如，形成正被监测的媒体呈现的音频信号和/或视频信号)的任何方面的任何形式(例如，一系列数字值、波形等)。签名可以是在时间间隔内连续收集的一系列签名。术语“指纹”和“签名”在本文中可互换地使用，并且在本文中被定义成意指用于识别媒体的、根据该媒体的一个或更多个固有特性生成的代理。

基于签名的媒体监测通常涉及：确定(例如，生成和/或收集)表示由被监测的媒体设备输出的媒体信号(例如，音频信号和/或视频信号)的签名，并且将被监测的签名与已知的(例如，参考)媒体源所对应的一个或更多个参考签名进行比较。可以评估各种比较标准(诸如互相关值、Hamming距离等)，以确定被监测的签名是否匹配特定参考签名。

当发现被监测的签名与参考签名之一之间的匹配时，可以将被监测的媒体识别为对应于由与被监测的签名匹配的参考签名表示的特定参考媒体。由于诸如媒体标识符、呈现时间、广播频道等的属性是针对参考签名收集的，于是可以将这些属性与被监测的媒体(所述被监测的媒体的被监测的签名与参考签名匹配)相关联。基于代码和/或签名来识别媒体的示例系统是早就已知的，并且在Thomas的美国专利5,481,294中首次公开，该美国专利的全部内容通过引用并入本文。

历史上，音频指纹识别技术使用音频信号的最响亮的部分(例如，能量最大的部分等)来在一时间段中创建指纹。然而，在一些情况下，该方法具有多个严重局限性。在一些示例中，音频信号的最响亮的部分可能与噪声(例如，不想要的音频)相关联，而不是来自感兴趣的音频。例如，如果用户试图在嘈杂的餐厅中对歌曲进行指纹识别，则捕获的音频信号的最响亮的部分可能是餐厅顾客之间的对话，而不是要识别的歌曲或媒体。在该示例中，音频信号的许多采样部分将具有背景噪声而不具有音乐，这降低了所生成的指纹的有用性。

先前的指纹识别技术的另一潜在限制是，特别是在音乐中，低音频率范围中的音频往往最响。在一些示例中，处于主导地位的低音频率能量导致音频信号的采样部分主要在低音频率范围内。因此，使用现有方法生成的指纹通常不包括来自可以用于签名匹配的音频频谱的所有部分的样本，尤其是较高的频率范围(例如，高音范围等)中的样本。

本文公开的示例方法和装置通过使用均值归一化(mean normalization)从音频信号生成指纹来克服上述问题。一种示例方法包括按周围音频区域的音频特性来对音频信号的一个或更多个时间-频率仓(time-frequency bin)进行归一化。如本文所使用的，“时间-频率仓”是音频信号的在特定时间(例如，进入音频信号的三秒)与特定频率仓(例如，FFT仓)相对应的一部分。在一些示例中，归一化是按音频信号的音频类别加权的。在一些示例中，通过选择来自经归一化的时间-频率仓的点来生成指纹。

本文公开的另一示例方法包括将音频信号分成两个或更多个音频信号频率分量。如本文所使用的，“音频信号频率分量”是音频信号的与频率范围和时间段相对应的部分。在一些示例中，音频信号频率分量可以由多个时间-频率仓组成。在一些示例中，针对音频信号频率分量中的一些音频信号频率分量确定音频特性。在该示例中，音频信号频率分量中的各个音频信号频率分量按关联的音频特性(例如，音频均值等)被归一化。在一些示例中，通过选择来自经归一化的音频信号频率分量的点来生成指纹。

图1是可以实现本公开的教导的示例系统100。示例系统100包括示例音频源102、示例麦克风104，该示例麦克风104从音频源102捕获声音并将所捕获的声音转换成示例音频信号106。示例音频处理器108接收音频信号106并生成示例指纹110。

示例音频源102发出可听声音。示例音频源可以是扬声器(例如，电声换能器等)、现场表演、对话和/或任何其它合适的音频源。示例音频源102可以包括期望的音频(例如，要进行指纹识别的音频等)并且还可以包括不期望的音频(例如，背景噪声等)。在所示示例中，音频源102是扬声器。在其它示例中，音频源102可以是任何其它合适的音频源(例如，人等)。

示例麦克风104是将由音频源102发出的声音转换成音频信号106的换能器。在一些示例中，麦克风104可以是计算机、移动设备(智能手机、平板电脑等)、导航设备或可穿戴设备(例如，智能手表等)的组件。在一些示例中，麦克风可以包括音频到数字转换，以将音频信号106数字化。在其它示例中，音频处理器108可以将音频信号106数字化。

示例音频信号106是由音频源102发出的声音的数字化表示。在一些示例中，音频信号106可以在被音频处理器108处理之前保存在计算机上。在一些示例中，音频信号106可以通过网络传递至示例音频处理器108。另外地或另选地，可以使用任何其它合适的方法来生成音频(例如，数字合成等)。

示例音频处理器108将示例音频信号106转换成示例指纹110。在一些示例中，音频处理器108将音频信号106分成频率仓和/或时间段，然后确定所创建的音频信号频率分量中的一者或更多者的均值能量。在一些示例中，音频处理器108可以使用各个时间-频率仓周围的音频区域的关联的均值能量来对音频信号频率分量进行归一化。在其它示例中，可以确定任何其它合适的音频特性并将其用于对各个时间-频率仓进行归一化。在一些示例中，可以通过在经归一化的音频信号频率分量当中选择最高能量来生成指纹110。另外地或另选地，可以使用任何合适的手段来生成指纹110。下面结合图2描述音频处理器108的示例实现方式。

示例指纹110是音频信号106的简明数字摘要，可以使用该简明数字摘要来识别和/或验证音频信号106。例如，可以通过对音频信号106的多个部分进行采样并对这些部分进行处理来生成指纹110。在一些示例中，指纹110可以包括音频信号106的最高能量部分的样本。在一些示例中，可以在数据库中对指纹110进行索引，该数据库可以用于与其它指纹进行比较。在一些示例中，可以使用指纹110来识别音频信号106(例如，确定正在播放什么歌曲等)。在一些示例中，可以使用指纹110来验证音频的真实性。

图2是图1的音频处理器108的示例实现方式。示例音频处理器108包括示例频率范围分离器202、示例音频特性确定器204、示例信号归一化器206、示例点选择器208和示例指纹生成器210。

示例频率范围分离器202将音频信号(例如，图1的经数字化的音频信号106)分成时间-频率仓和/或音频信号频率分量。例如，频率范围分离器202可以对音频信号106执行快速傅立叶变换(FFT)，以将音频信号106变换到频域。另外地，示例频率范围分离器202可以将变换后的音频信号106分成两个或更多个频率仓(例如，使用Hamming函数、Hann函数等)。在该示例中，各个音频信号频率分量与两个或更多个频率仓中的频率仓相关联。另外地或另选地，频率范围分离器202可以将音频信号106聚合成一个或更多个时间段(例如，音频的持续时间、六秒的时段、1秒的时段等)。在其它示例中，频率范围分离器202可以使用任何合适的技术来变换音频信号106(例如，离散傅立叶变换、滑动时间窗口傅立叶变换、小波变换、离散Hadamard变换、离散Walsh Hadamard、离散余弦变换等)。在一些示例中，频率范围分离器202可以由一个或更多个带通滤波器(BPF)实现。在一些示例中，示例频率范围分离器202的输出可以由频谱图表示。下面结合图3A至图3B以及图4讨论频率范围分离器202的示例输出。

示例音频特性确定器204确定音频信号106的一部分(例如，音频信号频率分量、时间-频率仓周围的音频区域等)的音频特性。例如，音频特性确定器204可以确定音频信号频率分量中的一个或更多个音频信号频率分量的均值能量(例如，平均功率等)。另外地或另选地，音频特性确定器204可以确定音频信号的一部分的其它特性(例如，众数能量、中值能量、众数功率、中值能量、均值能量、均值幅度等)。

示例信号归一化器206按周围音频区域的关联的音频特性对一个或更多个时间-频率仓进行归一化。例如，信号归一化器206可以按周围音频区域的均值能量对时间-频率仓进行归一化。在其它示例中，信号归一化器206按关联的音频特性对音频信号频率分量中的一些音频信号频率分量进行归一化。例如，信号归一化器206可以使用与音频信号频率分量相关联的均值能量来对该音频信号频率分量的各个时间-频率仓进行归一化。在一些示例中，信号归一化器206的输出(例如，经归一化的时间-频率仓、经归一化的音频信号频率分量等)可以表示为频谱图。下面结合图3C和图5讨论信号归一化器206的示例输出。

示例点选择器208从经归一化的音频信号选择要被用于生成指纹110的一个或更多个点。例如，示例点选择器208可以选择经归一化的音频信号的多个能量最大值。在其它示例中，点选择器208可以选择经归一化的音频的任何其它合适的点。

另外地或另选地，点选择器208可以基于音频信号106的类别来对点的选择进行加权。例如，如果音频信号的类别是音乐，则点选择器208可以将点的选择侧重到音乐的公共频率范围(例如，低音、高音等)中。在一些示例中，点选择器208可以确定音频信号的类别(例如，音乐、语音、音效、广告等)。示例指纹生成器210使用由示例点选择器208选择的点来生成指纹(例如，指纹110)。示例指纹生成器210可以使用任何合适的方法根据所选择的点生成指纹。

虽然图2例示了实现图1的音频处理器108的示例方式，但是图2所例示的要素、处理和/或设备中的一个或更多个要素、处理和/或设备可以组合、划分、重新布置、省略、消除和/或按任何其它方式来实现。此外，示例频率范围分离器202、示例音频特性确定器204、示例信号归一化器206、示例点选择器208和示例指纹生成器210和/或更一般地图1和图2的示例音频处理器108可以通过硬件、软件、固件和/或硬件、软件和/或固件的任何组合来实现。因此，例如，示例频率范围分离器202、示例音频特性确定器204、示例信号归一化器206、示例点选择器208和示例指纹生成器210和/或更一般地示例音频处理器108中的任一者可以由一个或更多个模拟或数字电路、逻辑电路、可编程处理器、可编程控制器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(PLD)和/或现场可编程逻辑器件(FPLD)来实现。当将本专利的装置或系统权利要求中的任一项理解成覆盖纯软件和/或固件实现方式时，示例频率范围分离器202、示例音频特性确定器204、示例信号归一化器206、示例点选择器208和示例指纹生成器210中的至少一者由此被明确地定义成包括具有软件和/或固件的非暂时性计算机可读存储设备或存储盘(诸如存储器、数字通用盘(DVD)、光盘(CD)、蓝光盘等)。更进一步地，图1和图2的示例音频处理器106可以包括除了图2所例示的要素、处理和/或设备以外的或者代替图2所例示的要素、处理和/或设备的一个或更多个要素、处理和/或设备，和/或可以包括任何或全部所例示的要素、处理和设备中的不止一个。如本文所使用的，短语“进行通信”(包括其变型)涵盖直接通信和/或通过一个或更多个中间组件的间接通信，并且不需要直接的物理(例如，有线)通信和/或持续通信，而是另外地包括按照定期间隔、计划间隔、非周期性间隔和/或一次性事件的选择性通信。

图3A至图3B描绘了由图2的示例频率范围分离器生成的示例未经处理的频谱图300。在图3A的所示示例中，示例未经处理的频谱图300包括由示例第一音频区域306A包围的示例第一时间-频率仓304A。在图3B的所示示例中，示例未经处理的频谱图包括由示例音频区域306B包围的示例第二时间-频率仓304B。图3A和图3B的示例未经处理的频谱图300以及经归一化的频谱图302各自包括表示频率仓的示例纵轴308和表示时间仓的示例横轴310。图3A和图3B例示了示例音频区域306A和306B，音频特性确定器204从该示例音频区域306A和306B获得归一化音频特性并且信号归一化器206使用该归一化音频特性来分别对第一时间-频率仓304A和第二时间-频率仓304B进行归一化。在所示示例中，对未经处理的频谱图300的各个时间-频率仓进行归一化，以生成经归一化的频谱图302。在其它示例中，可以对未经处理的频谱图300的任何合适数量的时间-频率仓进行归一化，以生成图3C的经归一化的频谱图302。

示例纵轴308具有通过快速傅立叶变换(FFT)生成的频率仓单位，并且具有1024个FFT仓的长度。在其它示例中，可以通过度量频率的任何其它合适技术(例如，赫兹、另一变换算法等)来度量示例纵轴308。在一些示例中，纵轴308涵盖音频信号106的整个频率范围。在其它示例中，纵轴308可以涵盖音频信号106的一部分。

在所示示例中，示例横轴310表示未经处理的频谱图300的总长度为11.5秒的时间段。在所示示例中，横轴310具有六十四毫秒(ms)间隔作为单位。在其它示例中，可以以任何其它合适的单位(例如，1秒等)来度量横轴310。例如，横轴310涵盖音频的完整持续时间。在其它示例中，横轴310可以涵盖音频信号106的持续时间的一部分。在所示示例中，频谱图300、302的各个时间-频率仓的大小为64ms×1FFT仓。

在图3A的所示示例中，第一时间-频率仓304A与未经处理的频谱图300的频率仓和时间仓的交点以及音频信号106的与该交点相关联的一部分相关联。示例第一音频区域306A包括距示例第一时间-频率仓304A预定义距离内的时间-频率仓。例如，音频特性确定器204可以基于设定数量的FFT仓(例如，5个仓、11个仓等)来确定第一音频区域306A的垂直长度(例如，第一音频区域306A沿着纵轴308的长度，等等)。类似地，音频特性确定器204可以确定第一音频区域306A的水平长度(例如，第一音频区域306A沿着横轴310的长度，等等)。在所示示例中，第一音频区域306A是方形的。另选地，第一音频区域306A可以是任何合适的大小和形状，并且可以包含未经处理的频谱图300内的时间-频率仓的任何合适的组合(例如，任何合适的时间-频率仓组等)。示例音频特性确定器204然后可以确定被包含在第一音频区域306A内的时间-频率仓的音频特性(例如，均值能量等)。使用所确定的音频特性，图2的示例信号归一化器206可以对第一时间-频率仓304A的关联值进行归一化(例如，可以按第一音频区域306A内的各个时间-频率仓的均值能量对第一时间-频率仓304A的能量进行归一化)。

在图3B的所示示例中，第二时间-频率仓304B与未经处理的频谱图300的频率仓和时间仓的交点以及音频信号106的与该交点相关联的一部分相关联。示例第二音频区域306B包括距示例第二时间-频率仓304B预定义距离内的时间-频率仓。类似地，音频特性确定器204可以确定第二音频区域306B的水平长度(例如，第二音频区域306B沿着横轴310的长度，等等)。在所示示例中，第二音频区域306B是方形的。另选地，第二音频区域306B可以是任何合适的大小和形状，并且可以包含未经处理的频谱图300内的时间-频率仓的任何合适的组合(例如，任何合适的时间-频率仓组等)。在一些示例中，第二音频区域306B可以与第一音频区域306A重叠(例如，包含一些相同的时间-频率仓、在横轴310上移位、在纵轴308上移位等)。在一些示例中，第二音频区域306B可以具有与第一音频区域306A相同的大小和形状。在其它示例中，第二音频区域306B可以具有与第一音频区域306A不同的大小和形状。然后，示例音频特性确定器204可以确定第二音频区域306B所包含的时间-频率仓的音频特性(例如，均值能量等)。使用所确定的音频特性，图2的示例信号归一化器206可以对第二时间-频率仓304B的关联值进行归一化(例如，可以按位于第二音频区域306B内的仓的均值能量对第二时间-频率仓304B的能量进行归一化)。

图3C描绘了由图2的信号归一化器通过对图3A至图3B的未经处理的频谱图300的多个时间-频率仓进行归一化而生成的经归一化的频谱图302的示例。例如，可以以与对时间-频率仓304A和304B进行归一化的方式相同的方式对未经处理的频谱图300的时间-频率仓中的一些或所有时间-频率仓进行归一化。结合图7描述了生成经归一化的频谱图的示例处理700。现在已按所述区域周围的局部区域内的局部均值能量对图3C的所得频率仓进行了归一化。结果，较黑的区域是在其各自的局部区域中具有最大能量的区域。这使得指纹能够包含甚至比通常较响的低音频率区域能量低的区域中的相关音频特征。

图4例示了被分成多个固定音频信号频率分量的图3的示例未经处理的频谱图300。通过利用快速傅立叶变换(FFT)处理音频信号106来生成示例未经处理的频谱图300。在其它示例中，可以使用任何其它合适的方法来生成未经处理的频谱图300。在该示例中，未经处理的频谱图300被分成多个示例音频信号频率分量402。示例未经处理的频谱图400包括图3的示例纵轴308以及图3的示例横轴310。在所示示例中，示例音频信号频率分量402各自具有示例频率范围408和示例时间段410。示例音频信号频率分量402包括示例第一音频信号频率分量412A和示例第二音频信号频率分量412B。在所示示例中，未经处理的频谱图300的较黑部分表示音频信号106的具有较高能量的部分。

示例音频信号频率分量402各自与连续频率范围(例如，频率仓等)和连续时间段的唯一组合相关联。在所示示例中，音频信号频率分量402中的各个音频信号频率分量具有相等大小的频率仓(例如，频率范围408)。在其它示例中，一些或全部音频信号频率分量402可以具有不同大小的频率仓。在所示示例中，音频信号频率分量402中的各个音频信号频率分量具有相等持续时间的时间段(例如，时间段410)。在其它示例中，一些或所有音频信号频率分量402可以具有不同持续时间的时间段。在所示示例中，音频信号频率分量402构成了整个音频信号106。在其它示例中，音频信号频率分量402可以包括音频信号106的一部分。

在所示示例中，第一音频信号频率分量412A位于音频信号106的高音范围内并且没有可见的能量点。示例第一音频信号频率分量412A与768FFT仓和896FFT仓之间的频率仓以及10024ms和11520ms之间的时间段相关联。在一些示例中，在第一音频信号频率分量412A内存在音频信号106的多个部分。在该示例中，由于音频信号106的低音频谱内的音频(例如，第二音频信号频率分量412B中的音频等)具有相对较高的能量，因此音频信号106的位于音频信号频率分量412A内的部分不可见。第二音频信号频率分量412B位于音频信号106的低音范围内并且具有可见能量点。示例第二音频信号频率分量412B与128FFT仓和256FFT仓之间的频率仓以及10024ms和11520ms之间的时间段相关联。在一些示例中，因为音频信号106的位于低音频谱内的部分(例如，第二音频信号频率分量412B等)具有相对较高的能量，因此根据未经处理的频谱图300生成的指纹将包括来自低音频谱的不成比例的数量的样本。

图5是由图2的信号归一化器根据图4的固定音频信号频率分量生成的经归一化的频谱图500的示例。示例经归一化的频谱图500包括图3的示例纵轴308以及图3的示例横轴310。示例经归一化的频谱图500被分成多个示例音频信号频率分量502。在所示示例中，音频信号频率分量502各自具有示例频率范围408和示例时间段410。示例音频信号频率分量502包括示例第一音频信号频率分量504A和示例第二音频信号频率分量504B。在一些示例中，第一音频信号频率分量504A和第二音频信号频率分量504B对应于与图3的第一音频信号频率分量412A和第二音频信号频率分量412B相同的频率仓和时间段。在所示示例中，经归一化的频谱图500的较黑部分表示音频频谱的具有较高能量的区域。

通过按关联的音频特性对图4的各个音频信号频率分量402进行归一化来对未经处理的频谱图300进行归一化来生成示例经归一化的频谱图500。例如，音频特性确定器204可以确定第一音频信号频率分量412A的音频特性(例如，均值能量等)。在该示例中，信号归一化器206然后可以按所确定的音频特性对第一音频信号频率分量412A进行归一化，以创建示例音频信号频率分量402A。类似地，可以通过按与图4的第二音频信号频率分量412B相关联的音频特性对该第二音频信号频率分量412B进行归一化来生成示例第二音频信号频率分量402B。在其它示例中，可以通过对音频信号分量402的一部分进行归一化来生成经归一化的频谱图500。在其它示例中，可以使用任何其它合适的方法来生成示例经归一化的频谱图500。

在图5的所示示例中，第一音频信号频率分量504A(例如，由信号归一化器206处理后的图4的第一音频信号频率分量412A等)在经归一化的频谱图500上具有可见能量点。例如，因为已按第一音频信号频率分量412A的能量对第一音频信号频率分量504A进行了归一化，所以音频信号106的先前隐藏的部分(例如，当与第一音频信号频率分量412A相比时)在经归一化的频谱图500上可见。第二音频信号频率分量504B(例如，由信号归一化器206处理后的图4的第二音频信号频率分量412B等)对应于音频信号106的低音范围。例如，因为已按第二音频信号频率分量412B的能量对第二音频信号频率分量504B进行了归一化，所以可见能量点的数量已减少(例如，当与第二音频信号频率分量412B相比时)。在一些示例中，与根据图4的未经处理的频谱图300生成的指纹相比，根据经归一化的频谱图500生成的指纹(例如，图1的指纹110)将包括更均匀地分布在音频频谱中的样本。

图6是由图2的点选择器208根据图5的经归一化的频谱图500生成的经归一化且经加权的频谱图600的示例。示例频谱图600包括图3的示例纵轴308以及图3的示例横轴310。示例经归一化且经加权的频谱图600被分成多个示例音频信号频率分量502。在所示示例中，示例音频信号频率分量502各自具有示例频率范围408和示例时间段410。示例音频信号频率分量502包括示例第一音频信号频率分量604A和示例第二音频信号频率分量604B。在一些示例中，第一音频信号频率分量604A和第二音频信号频率分量604B分别对应于与图3的第一音频信号频率分量412A和第二音频信号频率分量412B相同的频率仓和时间段。在所示示例中，经归一化且经加权的频谱图600的较黑部分表示音频频谱的具有较高能量的区域。

通过基于音频信号106的类别利用从零到一的值范围对经归一化的频谱图600进行加权来生成示例经归一化且经加权的频谱图600。例如，如果音频信号106是音乐，则图2的点选择器208将沿着各列对与音乐相关联的音频频谱的区域进行加权。在其它示例中，加权可以应用于多个列，并且可以采用从零到一的不同范围。

图7和图8示出了表示用于实现图2的音频处理器108的示例硬件逻辑、机器可读指令、硬件实现状态机和/或其任何组合的流程图。机器可读指令可以是供计算机处理器(诸如下面结合图9讨论的示例处理器平台900中示出的处理器912)执行的可执行程序或可执行程序的一部分。可以在存储在非暂时性计算机可读存储介质(诸如CD-ROM、软盘、硬盘驱动器、DVD、蓝光盘或者与处理器912相关联的存储器)上的软件中具体实施所述程序，但是全部程序和/或其部分可以另选地由除了处理器912以外的设备来执行，和/或在固件或专用硬件中具体实施。此外，尽管参照图7和图8所例示的流程图对示例程序进行了描述，但是可以另选地使用实现示例音频处理器108的许多其它方法。例如，可以改变框的执行顺序，和/或可以改变、消除或组合所述框中的一些框。另外地或者另选地，任何或所有框都可以由被构造成执行对应的操作而不执行软件或固件的一个或更多个硬件电路(例如，分立的和/或集成的模拟和/或数字电路、FPGA、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)来实现。

如上所述，可以使用存储在非暂时性计算机和/或机器可读介质(诸如硬盘驱动器、闪速存储器、只读存储器、光盘、数字通用盘、缓存、随机存取存储器和/或任何其它存储设备或存储盘，其中信息存储长达任何持续时间(例如，用于延长的时间段、永久地、用于简单的实例、用于临时缓冲和/或用于缓存信息))上的可执行指令(例如，计算机和/或机器可读指令)来实现图7和图8的示例处理。如本文所使用的，术语非暂时性计算机可读介质被明确定义成包括任何类型的计算机可读存储设备和/或存储盘，并且排除传播信号以及排除传输介质。

“包括”和“包含”(及其所有形式和时态)在本文中用作开放式用语。因此，每当权利要求采用任何形式的“包括”或“包含”(例如，包含(comprises)、包括(includes)、包含(comprising)、包括(including)、具有等)作为前序部分或在任何种类的权利要求记载内时，将理解，在不落在对应权利要求或记载的范围之外的情况下，可以存在附加要素、用语等。如本文所使用的，当短语“至少”用作权利要求的例如前序部分中的过渡用语时，其以与用语“包含”和“包括”是开放式相同的方式是开放式的。当例如以诸如A、B和/或C的形式使用时，用语“和/或”是指A、B、C的任何组合或子集，诸如(1)单独的A，(2)单独的B，(3)单独的C，(4)A与B，(5)A与C，(6)B与C以及(7)A和B和C。如本文所使用的，在描述结构、组件、项、对象和/或事物的上下文中，短语“A和B中的至少一个”旨在表示包括以下任一项的实现方式：(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B。类似地，如本文所使用的，在描述结构、组件、项、对象和/或事物的上下文中，短语“A或B中的至少一个”旨在表示包括以下任一项的实现方式：(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B。如本文所使用的，在描述处理、指令、动作、活动和/或步骤的执行的上下文中，短语“A和B中的至少一个”旨在表示包括以下任一项的实现方式：(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B。类似地，如本文所使用的，在描述处理、指令、动作、活动和/或步骤的执行的上下文中，短语“A或B中的至少一个”旨在表示包括以下任一项的实现方式：(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B。

图7的处理在框702开始。在框702，音频处理器108接收经数字化的音频信号106。例如，音频处理器108可以接收由麦风104捕获的(例如，由图1的音频源102等发出的)音频。在该示例中，麦克风可以包括模数转换器，以将音频转换成经数字化的音频信号106。在其它示例中，音频处理器108可以接收存储在数据库(例如，图9的易失性存储器914、图9的非易失性存储器916、图9的大容量存储设备928等)中的音频。在其它示例中，可以通过网络(例如，因特网等)将经数字化的音频信号106发送至音频处理器108。另外地或另选地，音频处理器108可以通过任何其它合适的手段来接收音频信号106。

在框704，频率范围分离器202对音频信号106进行加窗并将音频信号106变换到频域。例如，频率范围分离器202可以执行快速傅立叶变换，以将音频信号106变换到频域，并且可以执行加窗函数(例如，Hamming函数、Hann函数等)。另外地或另选地，频率范围分离器202可以将音频信号106聚合成两个或更多个时间仓。在这些示例中，时间-频率仓与频率仓和时间仓的交点相对应并且包含音频信号106的一部分。

在框706，音频特性确定器204选择时间-频率仓以进行归一化。例如，音频特性确定器204可以选择图3A的第一时间-频率仓304A。在一些示例中，音频特性确定器204可以选择与先前选择的第一时间-频率仓相邻的时间-频率仓。

在框708，音频特性确定器204确定周围音频区域的音频特性。例如，如果音频特性确定器204选择了第一时间-频率仓304A，则音频特性确定器204可以确定第一音频区域306A的音频特性。在一些示例中，音频特性确定器204可以确定音频区域的均值能量。在其它示例中，音频特性确定器204可以确定任何其它合适的音频特性(例如，均值幅度等)。

在框710，音频特性确定器204确定如果要选择另一时间-频率仓，则处理700返回至框706。如果不选择另一时间-频率仓，则处理700前进至框712。在一些示例中，重复框706至框710，直到已选择了未经处理的频谱图300的每一个时间-频率仓。在其它示例中，可以以任何合适次数的迭代来重复框706至框710。

在框712，信号归一化器206基于关联的音频特性对各个时间-频率仓进行归一化。例如，信号归一化器206可以利用在框708确定的关联的音频特性来对在框706选择的时间-频率仓中的各个时间-频率仓进行归一化。例如，信号归一化器可以按第一音频区域306A和第二音频区域306B的音频特性(例如，均值能量)分别对第一时间-频率仓304A和第二时间-频率仓304B进行归一化。在一些示例中，信号归一化器206基于时间-频率仓的归一化来生成经归一化的频谱图(例如，图3C的经归一化的频谱图302)。

在框714，点选择器208确定如果要基于音频类别对指纹生成进行加权，则处理700前进至框716。如果不基于音频类别对指纹生成进行加权，则处理700前进至框720。在框716，点选择器208确定音频信号106的音频类别。例如，点选择器208可以向用户呈现提示以指示音频的类别(例如，音乐、语音、音效、广告等)。在其它示例中，音频处理器108可以使用音频类别确定算法来确定音频类别。在一些示例中，音频类别可以是特定人的声音、一般人类语音、音乐、音效和/或广告。

在框718，点选择器208基于所确定的音频类别对时间频率仓进行加权。例如，如果音频类别是音乐，则点选择器208可以与音乐通常所关联的高音和低音范围相关联地对音频信号频率分量进行加权。在一些示例中，如果音频类别是特定人的声音，则点选择器208可以与该人的声音相关联地对音频信号频率分量进行加权。在一些示例中，信号归一化器206的输出可以表示为频谱图。

在框720，指纹生成器210通过选择经归一化的音频信号的能量极值来生成音频信号106的指纹(例如，图1的指纹110)。例如，指纹生成器210可以使用与一个或更多个能量极值(例如，一个极值、二十个极值等)相关联的频率时间仓和能量。在一些示例中，指纹生成器210可以选择经归一化的音频信号106的能量最大值。在其它示例中，指纹生成器210可以选择经归一化的音频信号频率分量的任何其它合适的特征。在一些示例中，指纹生成器210可以利用任何合适的手段(例如，算法等)来生成表示音频信号106的指纹110。一旦生成了指纹110，则处理700结束。

图8的处理800在框802开始。在框802，音频处理器108接收经数字化的音频信号。例如，音频处理器108可以接收(例如，由图1的音频源102等发出并由麦克风104捕获的)音频。在该示例中，麦克风可以包括模数转换器，以将音频信号转换成经数字化的音频信号106。在其它示例中，音频处理器108可以接收存储在数据库(例如，图9的易失性存储器914、图9的非易失性存储器916、图9的大容量存储设备928等)中的音频。在其它示例中，可以通过网络(例如，因特网等)将经数字化的音频信号106发送至音频处理器108。另外地或另选地，音频处理器108可以通过任何合适手段来接收音频信号106。

在框804，频率范围分离器202将音频信号分成两个或更多个音频信号频率分量(例如，图3的音频信号频率分量402等)。例如，频率范围分离器202可以执行快速傅立叶变换，以将音频信号106变换到频域，并且可以执行加窗函数(例如，Hamming函数、Hann函数等)，以创建频率仓。在这些示例中，各个音频信号频率分量与频率仓中的一个或更多个频率仓相关联。另外地或另选地，频率范围分离器202还可以将音频信号106分成两个或更多个时间段。在这些示例中，各个音频信号频率分量与两个或更多个时间段中的一时间段和两个或更多个频率仓中的一频率仓的唯一组合相对应。例如，频率范围分离器202可以将音频信号106分成第一频率仓、第二频率仓、第一时间段和第二时间段。在该示例中，第一音频信号频率分量与音频信号106在第一频率仓和第一时间段内的部分相对应，第二音频信号频率分量与音频信号106在第一频率仓和第二时间段内的部分相对应，第三音频信号频率分量与音频信号106在第二频率仓和第一时间段内的部分相对应，第四音频信号频率部分与音频信号106在第二频率仓和第二时间段内的分量相对应。在一些示例中，频率范围分离器202的输出可以表示为频谱图(例如，图3的未经处理的频谱图300)。

在框806，音频特性确定器204确定各个音频信号频率分量的音频特性。例如，音频特性确定器204可以确定各个音频信号频率分量的均值能量。在其它示例中，音频特性确定器204可以确定任何其它合适的音频特性(例如，均值幅度等)。

在框808，信号归一化器206基于与各个音频信号频率分量相关联的所确定的音频特性来对该音频信号频率分量进行归一化。例如，信号归一化器206可以按与各个音频信号频率分量相关联的均值能量来对该音频信号频率分量进行归一化。在其它示例中，信号归一化器206可以使用任何其它合适的音频特性来对音频信号频率分量进行归一化。在一些示例中，信号归一化器206的输出可以表示为频谱图(例如，图5的经归一化的频谱图500)。

在框810，音频特性确定器204确定如果要基于音频类别对指纹生成进行加权，则处理800前进至框812。如果不基于音频类别对指纹生成进行加权，则处理800进行至框816。在框812，音频处理器108确定音频信号106的音频类别。例如，音频处理器108可以向用户呈现提示以指示音频的类别(例如，音乐、语音等)。在其它示例中，音频处理器108可以使用音频类别确定算法来确定音频类别。在一些示例中，音频类别可以是特定人的声音、一般人类语音、音乐、音效和/或广告。

在框814，信号归一化器206基于所确定的音频类别对音频信号频率分量进行加权。例如，如果音频类别是音乐，则信号归一化器206可以针对与音乐的平均频谱包络相关联的从高音到低音的各个频率位置、利用从零到一的不同缩放值沿着各个列对音频信号频率分量进行加权。在一些示例中，如果音频类别是人类声音，则信号归一化器206可以与人类声音的频谱包络相关联地对音频信号频率分量进行加权。在一些示例中，信号归一化器206的输出可以表示为频谱图(例如，图6的频谱图600)。

在框816，指纹生成器210通过选择经归一化的音频信号频率分量的能量极值来生成音频信号106的指纹(例如，图1的指纹110)。例如，指纹生成器210可以使用与一个或更多个能量极值(例如，二十个极值等)相关联的频率时间仓和能量。在一些示例中，指纹生成器210可以选择经归一化的音频信号的能量最大值。在其它示例中，指纹生成器210可以选择经归一化的音频信号频率分量的任何其它合适的特征。在一些示例中，指纹生成器210可以利用另一合适手段(例如，算法等)来生成表示音频信号106的指纹110。一旦生成了指纹110，则处理800结束。

图9是被构造为执行图7和/或图8的指令以实现图2的音频处理器108的示例处理器平台900的框图。例如，处理器平台900可以是服务器、个人计算机、工作站、自学习机器(例如，神经网络)、移动设备(例如，手机、智能电话、诸如ipd^TM的平板计算机)、个人数字助理(PDA)、因特网设备、DVD播放器、CD播放器、数字视频录像机、蓝光播放器、游戏机、个人视频录像机、机顶盒、头戴设备或其它可穿戴设备或者任何其它类型的计算设备。

所示示例的处理器平台900包括处理器912。所示示例的处理器912是硬件。例如，处理器912可以由来自任何期望系列或制造商的一个或更多个集成电路、逻辑电路、微处理器、GPU、DSP或控制器来实现。硬件处理器可以是基于半导体的(例如，基于硅的)器件。在该示例中，处理器912实现示例频率范围分离器202、示例音频特性确定器204、示例信号归一化器206、示例点选择器208和示例指纹生成器210。

所示示例的处理器912包括本地存储器913(例如，缓存)。所示示例的处理器912经由总线918与包括易失性存储器914和非易失性存储器916的主存储器进行通信。易失性存储器914可以由同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、

动态随机存取存储器

和/或任何其它类型的随机存取存储器设备来实现。非易失性存储器916可以由闪存存储器和/或任何其它期望类型的存储器设备来实现。对主存储器914、916的访问由存储器控制器来控制。

所示示例的处理器平台900还包括接口电路920。接口电路920可以通过任何类型的接口标准(诸如，以太网接口、通用串行总线(USB)、

接口、近场通信(NFC)接口和/或PCI express接口)来实现。

在所示示例中，一个或更多个输入设备922连接至接口电路920。输入设备922允许用户将数据和/或命令输入到处理器912中。例如，输入设备922可以通过音频传感器、麦克风、摄像头(静态或视频)和/或语音识别系统来实现。

一个或更多个输出设备924也连接至所示示例的接口电路920。输出设备924可以例如由显示设备(例如，发光二极管(LED)、有机发光二极管(OLED)、液晶显示器(LCD)、阴极射线管显示器(CRT)、平面转换(IPS)显示器、触摸屏等)、触觉输出设备、打印机和/或扬声器来实现。因此，所示示例的接口电路920通常包括图形驱动器卡、图形驱动器芯片和/或图形驱动器处理器。

所示示例的接口电路920还包括通信设备(诸如，发送器、接收器、收发器、调制解调器、住宅网关、无线接入点和/或网络接口)，以促进经由网络926与外部机器(例如，任何种类的计算设备)交换数据。例如，所述通信可以经由以太网连接、数字订户线(DSL)连接、电话线连接、同轴电缆系统、卫星系统、直线对传式无线系统、蜂窝电话系统等。

所示示例的处理器平台900还包括用于存储软件和/或数据的一个或更多个大容量存储设备928。这样的大容量存储设备928的示例包括软盘驱动器、硬盘驱动器、光盘驱动器、蓝光盘驱动器、独立磁盘冗余阵列(RAID)系统和数字通用盘(DVD)驱动器。

用于实现图6的方法的机器可执行指令932可以存储在大容量存储设备928、易失性存储器914、非易失性存储器916中和/或可移除非暂时性计算机可读存储介质(诸如，CD或DVD)上。

根据前述内容，将理解，已公开了允许创建音频信号的指纹的示例方法和装置，其减少了在指纹中捕获的噪声量。另外，通过从音频信号的能量较小的区域采样音频，与以前使用的音频指纹识别方法相比，可以创建更鲁棒的音频指纹。

尽管本文公开了某些示例方法、装置以及制品，但是本专利的覆盖范围不限于此。与此相反，本专利覆盖完全落入本专利的权利要求的范围内的所有方法、装置以及制品。

Claims

1.一种用于音频指纹识别的装置，所述装置包括：

频率范围分离器，所述频率范围分离器将音频信号变换到频域，变换后的音频信号包括多个时间-频率仓，所述多个时间-频率仓包括第一时间-频率仓；

音频特性确定器，所述音频特性确定器确定所述多个时间-频率仓中的第一组时间-频率仓的第一特性，所述第一组时间-频率仓包围所述第一时间-频率仓；

信号归一化器，所述信号归一化器对所述音频信号进行归一化，从而生成归一化能量值，所述音频信号的归一化包括按所述第一特性对所述第一时间-频率仓进行归一化；

点选择器，所述点选择器选择所述归一化能量值中的一个归一化能量值；以及

指纹生成器，所述指纹生成器使用所述归一化能量值中的所选择的一个归一化能量值来生成所述音频信号的指纹。

2.根据权利要求1所述的装置，其中，所述频率范围分离器还执行所述音频信号的快速傅立叶变换。

3.根据权利要求1所述的装置，其中，所述点选择器还：

确定所述音频信号的类别；以及

按所述音频信号的所述类别对所述归一化能量值中的所述一个归一化能量值的选择进行加权。

4.根据权利要求3所述的装置，其中，所述音频信号的所述类别包括音乐、人类语音、音效或广告中的至少一项。

5.根据权利要求1所述的装置，其中，所述音频特性确定器还确定所述多个时间-频率仓中的第二组时间-频率仓的第二特性，所述第二组时间-频率仓包围所述多个时间-频率仓中的第二时间-频率仓，并且所述信号归一化器还按所述第一特性对所述第一时间-频率仓进行归一化。

6.根据权利要求1所述的装置，其中，所述点选择器基于所归一化的音频信号的能量极值来选择所述归一化能量值中的所述一个归一化能量值。

7.根据权利要求1所述的装置，其中，所述多个时间-频率仓中的各个时间-频率仓是以下项的唯一组合：(1)所述音频信号的时间段和(2)所述变换后的音频信号的频率仓。

8.一种用于音频指纹识别的方法，所述方法包括以下步骤：

将音频信号变换到频域，变换后的音频信号包括多个时间-频率仓，所述多个时间-频率仓包括第一时间-频率仓；

确定所述多个时间-频率仓中的第一组时间-频率仓的第一特性，所述第一组时间-频率仓包围所述第一时间-频率仓；

对所述音频信号进行归一化，从而生成归一化能量值，所述音频信号的归一化包括按所述第一特性对所述第一时间-频率仓进行归一化；

选择所述归一化能量值中的一个归一化能量值；以及

使用所述归一化能量值中的所选择的一个归一化能量值来生成所述音频信号的指纹。

9.根据权利要求8所述的方法，其中，将音频信号变换到频域的步骤包括执行所述音频信号的快速傅立叶变换。

10.根据权利要求8所述的方法，其中，选择所述归一化能量值中的一个归一化能量值的步骤包括：

确定所述音频信号的类别；以及

11.根据权利要求10所述的方法，其中，所述音频信号的所述类别包括音乐、人类语音、音效或广告中的至少一项。

12.根据权利要求8所述的方法，所述方法还包括：

确定所述多个时间-频率仓中的第二组时间-频率仓的第二特性，所述第二组时间-频率仓包围所述多个时间-频率仓中的第二时间-频率仓；以及

按所述第一特性对所述第一时间-频率仓进行归一化。

13.根据权利要求8所述的方法，其中，选择所述归一化能量值中的一个归一化能量值的步骤是基于所归一化的音频信号的能量极值进行的。

14.根据权利要求8所述的方法，其中，所述多个时间-频率仓中的各个时间-频率仓是以下项的唯一组合：(1)所述音频信号的时间段和(2)所述变换后的音频信号的频率仓。

15.一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质包括指令，所述指令在被执行时使处理器至少：

选择所述归一化能量值中的一个归一化能量值；以及

16.根据权利要求15所述的非暂时性计算机可读存储介质，其中，将音频信号变换到频域包括执行所述音频信号的快速傅立叶变换。

17.根据权利要求15所述的非暂时性计算机可读存储介质，其中，所述指令在被执行时使所述处理器：

确定所述音频信号的类别；以及

18.根据权利要求17所述的非暂时性计算机可读存储介质，其中，所述音频信号的所述类别包括音乐、人类语音、音效或广告中的至少一项。

19.根据权利要求15所述的非暂时性计算机可读存储介质，其中，所述指令在被执行时使所述处理器：

按所述第一特性对所述第一时间-频率仓进行归一化。

20.根据权利要求15所述的非暂时性计算机可读存储介质，其中，所述多个时间-频率仓中的各个时间-频率仓是以下项的唯一组合：(1)所述音频信号的时间段和(2)所述变换后的音频信号的频率仓。