CN103548076B

CN103548076B - 利用音频信号来识别内容的装置和方法

Info

Publication number: CN103548076B
Application number: CN201280002116.8A
Authority: CN
Inventors: 曺焄荣; 李载炯; C·S·迪里
Original assignee: Enswers Co Ltd
Current assignee: Enswers Co Ltd
Priority date: 2012-05-23
Filing date: 2012-06-08
Publication date: 2015-11-25
Anticipated expiration: 2032-06-08
Also published as: SG187583A1; JP2014520287A; EP2685450A1; WO2013176329A1; EP2685450A4; EP2685450B1; JP5813221B2; CN103548076A; KR101315970B1; HK1175358A2

Abstract

本发明涉及一种利用音频信号来识别内容的装置和方法。该内容识别装置包括：疑问指纹提取部件，用于针对输入的音频信号，形成具有预设帧长度的帧，并针对各个帧生成基于帧的特征向量，从而提取出针对输入的音频信号的疑问指纹；参考指纹数据库，用于存储待与所述疑问指纹相比较的参考指纹，以及与所述参考指纹相对应的内容信息片段；指纹匹配部件，用于确定与所述疑问指纹相匹配的参考指纹。在此情况中，疑问指纹提取部件形成部分区段中帧平移尺寸变化的帧，帧平移尺寸为相邻帧的起始点之间的间隔。根据本发明，可以提供一种内容识别装置和方法，其可以维持匹配的准确性和可靠性，同时还能迅速提供结果。

Description

利用音频信号来识别内容的装置和方法

技术领域

本发明一般地涉及一种利用音频信号来识别内容的装置和方法，更具体地，涉及一种能够基于输入的音频信号的指纹来提供匹配的内容信息的装置和方法。

背景技术

随着网络和互联网技术的发展，以及例如智能电话的移动通信终端的传播，已通过网络提供利用音频和视频的各种服务。进一步地，对于这些服务以及用于确定音频或视频的可识别性的方法，利用指纹的方法已被广泛使用，并且已提出了通过网络利用指纹来识别音频或视频的各种片段的技术。

利用指纹来识别音频或视频的技术实现为，利用一种生成帧（将给定的音频或视频信号分成多个帧）的特征向量，并且利用所述特征向量来进行匹配的方法。这样的现有技术的指纹生成和匹配方法的问题在于，计算复杂度高，因此需要时间来生成和匹配指纹，对网络资源增加了负荷。为了解决该问题，可以减少待生成的指纹的数量，或者简化匹配过程，但是这会导致匹配准确性降低的问题。

韩国专利NO.10-0456408(公开日：2004年11月10日)涉及一种“音频基因生成方法以及音频数据检索方法（audiogenegenerationmethodandaudiodatasearchmethod）”，并公开了一种音频基因生成方法，该方法包括：时间分配步骤，将音频信号分配到定期时间间隔内；频率转换步骤，计算定期时间间隔的频率信号的幅度，或者计算包括在多个时间间隔内的频率信号的幅度；差计算步骤，将频域分为多个预定区段（section），并且计算相邻频率区段中出现的信号的幅度之间的差；梯度计算步骤，获得所计算的相邻时间间隔内的值之间的差；量化步骤，当梯度等于或大于0时将值量化为1，当梯度小于0时将值量化为0；音频基因生成步骤，存储量化后的值并且生成音频基因。

然而，该技术受限于计算复杂度高，指纹提取过程复杂，因此增加了负荷，而需要特别长的时间来计算出结果。

因此，需要研究一种指纹提取和匹配方法，其能够在短时间内提供准确的结果并且不增加负荷。

发明内容

技术问题

因此，针对上述问题提出本发明，本发明的目的在于提供一种利用音频信号来识别内容的装置和方法，其可以迅速地提供匹配结果，同时保持匹配的准确性和可靠性。

本发明的另一个目的是提供一种可变地匹配一个区段（区段具有大量的信息，同时将输入的音频信号分为多个帧）中的帧平移尺寸（帧平移尺寸是帧的起始点之间的间隔）的装置和方法，因此保持了准确性并迅速地提供匹配结果。

技术方案

为了实现上述目的，本发明提供了一种利用音频信号来识别内容的装置和方法，所述装置包括：疑问指纹提取部件，用于针对输入的音频信号，形成具有预设帧长度的帧，并针对各个帧生成基于帧的特征向量，从而提取出针对输入的音频信号的疑问指纹；参考指纹数据库，用于存储待与所述疑问指纹相比较的参考指纹，以及与所述参考指纹相对应的内容信息片段；指纹匹配部件，用于确定与所述疑问指纹相匹配的参考指纹；其中疑问指纹提取部件形成部分区段中帧平移尺寸变化的帧，帧平移尺寸为相邻帧的起始点之间的间隔。

在此情况中，帧平移尺寸可以比帧长度短，从而相邻的帧彼此重叠。

进一步，疑问指纹提取部件可以通过使得所述部分区段中的帧平移尺寸短于预设的帧平移尺寸而形成帧。

进一步，疑问指纹提取部件可以基于预定的时间区段来确定所述部分区段。

而且，疑问指纹提取部件可以检测检测信噪比（S/N）的值大于阈值的时间区段，并基于所检测到的时间区段确定所述部分区段。

而且，疑问指纹提取部件可以针对与所确定的所述部分区段相对应的各个帧生成基于帧的特征向量。

而且，疑问指纹提取部件可以基于与所述部分区段的起始位置和结束位置相对应的帧的基于帧的特征向量，针对待包括在所确定的所述部分区段中的各个帧生成基于帧的特征向量。

而且，与所述部分区段的起始位置相对应的帧为将该帧的起始位置作为最后位置的帧，且与所述部分区段的结束位置相对应的帧为将该帧的结束位置作为第一位置的帧。

而且，生成与所述部分区段的起始位置和结束位置相对应的帧的基于帧的特征向量，基于所生成的基于帧的特征向量，利用线性插值生成针对待包括在所述部分区段中的各个帧的基于帧的特征向量。

而且，与所述部分区段的起始位置和结束位置相对应的各个帧的基于帧的特征向量生成为二进制数字形式，通过比较生成的二进制数字形式的基于帧的特征向量的各个比特位，以及通过将可能的二进制数字布置为不同的比特，来生成待包括在所述部分区段中的各个帧的基于帧的特征向量。

而且，所述指纹匹配部件可以包括：第一匹配部件，用于通过确定包括基于帧的特征向量的参考指纹是否匹配构成了所述疑问指纹的基于帧的特征向量中的任何一个，以及通过将所确定的参考指纹的标识符包括在匹配候选组中，来执行初级匹配；以及第二匹配部件，用于对与包括在所述匹配候选组中的标识符相对应的参考指纹执行次级匹配。

而且，第一匹配部件可以通过如下方式来确定包括基于帧的特征向量的参考指纹是否是匹配的参考指纹，所述参考指纹的基于帧的特征向量至构成所述疑问指纹的基于帧的特征向量中的任一个的汉明距离等于或小于阈值。

而且，所述第一匹配部件可以配置为，如果构成了所述疑问指纹的基于帧的特征向量顺序地与每个参考指纹的基于帧的特征向量比较后，检测到了匹配帧，则省略剩余帧的比较，并执行后续参考指纹的比较。

而且，所述第二匹配部件从构成疑问指纹的基于帧的特征向量来重新构造基于帧的特征指纹，排除掉除了与预设的帧平移尺寸相对应的帧之外的帧，并且将重新构造的基于帧的特征向量与所述参考指纹相比较。

而且，所述装置可以包括识别结果提供部件，用于提供与指纹匹配部件所确定的参考指纹相对应的内容信息。

而且，利用了音频信号的内容识别装置可以包括在客户终端中。

而且，参考指纹数据库可以从参考指纹服务器接收参考指纹和内容信息，并存储参考指纹和内容信息。

而且，所述装置可以进一步包括界面提供部件，用于提供使得用户能够输入音频信号的用户界面。

而且，与指纹匹配部件所确定的参考指纹相对应的内容信息被传输至参考指纹服务器。

而且，所述疑问指纹提取部件通过针对每个预设区段中包括的帧生成基于帧的特征向量来提取出基于区段的疑问指纹，并且指纹匹配部件确定与每个疑问指纹相匹配的参考指纹；以及疑问指纹提取部件继续提取各个预设区段中的基于区段的疑问数据，直到由疑问匹配部件确定了匹配的参考指纹。

根据本发明的另一方面，提供了一种利用音频信号来视频内容的方法，包括：1）针对输入的音频信号形成具有预设帧长度的帧，并针对各个帧生成基于帧的特征向量，从而提取出疑问指纹；以及2）确定与所述疑问指纹相匹配的参考指纹，其中1）配置为形成在部分区段中帧平移尺寸变化的帧，帧平移尺寸为相邻帧的起始点之间的间隔。

在此情况中，步骤2）可以包括：2-1）通过确定与构成了所述疑问指纹的基于帧的特征向量中的任一个相匹配的参考指纹，以及通过将所确定的参考指纹的标识符包括在匹配候选组中，来执行初级匹配；以及2-2）对与包括在所述匹配候选组中的标识符相对应的参考指纹执行次级匹配。

有益效果

根据本发明，可以提供一种利用音频信号来识别内容的设备和方法，其可以保持匹配的准确性和可靠性，同时迅速地提供匹配结果。

而且，根据本发明，帧平移尺寸为帧的起始点之间的间隔，在输入的音频信号被分配到多个帧中时，所述帧可变地配置到具有更大信息量的区段中，从而保持了准确性并迅速地提供匹配结果。

而且，根据本发明，使用了两阶段匹配方法，在可变区段中生成的帧用于初级匹配，在初级匹配中，具有针对各个帧的匹配帧的参考指纹被包括到多个匹配候选组中，在次级匹配中，对包括在匹配候选组中的参考指纹进行精确比较，从而提供了一种具有迅速性和准确性的内容识别装置和方法。

附图说明

图1为显示了根据本发明的使用了音频信号的内容识别装置100的实施例的结构的示意图；

图2为显示了一方法的示意图，在该方法中，疑问指纹提取部件10形成帧并针对各个帧生成特征向量；

图3为显示了帧平移尺寸在预定的区段中变化的情况的示意图；

图4为显示了利用相邻帧指纹生成帧指纹的过程的示意图；

图5为显示了利用相邻帧指纹生成帧指纹的另一方法的示意图；

图6为显示了指纹匹配部件30的结构的示意图；

图7为显示了第一匹配部件31的操作的示意图；

图8为显示了内容识别装置100的连接状态和布局的示意图；以及

图9为显示了根据本发明的由内容识别装置100执行的内容识别方法的流程图。

具体实施方式

下面将参照附图详细描述本发明的实施例。

图1为显示了根据本发明的使用了音频信号的内容识别装置100的实施例的结构的示意图。

参照图1，根据本发明的利用音频信号来识别内容的装置100（此后称为“内容识别装置”）包括疑问指纹提取部件10、参考指纹数据库20、指纹匹配部件30以及识别结果提供部件40。

疑问指纹提取部件10针对输入的音频信号形成具有预定帧长度的多个帧，并且针对各个帧生成基于帧的特征向量，因此其功能是提取待比较的疑问指纹。在此情况中，形成了多个帧，且部分片段中的帧移动尺寸（即，相邻帧的起始点之间的间隔）是变化的。

同时，词语“指纹”指的是特征数据，表明了数据（例如音频数据、图像数据或视频数据）的特征，还可以称为指纹数据、脱氧核糖核酸（DNA）数据或基因数据。对于用于提取指纹和利用指纹来比较数据的技术，现有技术已经提出了各种机制。当利用这样的指纹时，可以容易地确定数据的可识别性，所以指纹现今被广泛应用于数据版权管理（DRM）领域。

例如，对于音频信号的情况，可以利用表明音频信号的特征的各种类型的特征数据（例如频率、幅度等）来生成指纹，对于图像或视频信号的情况，可以利用与图像或音频信号有关的各种类型的特征数据（例如，帧的运动向量信息、色彩信息等）来生成指纹。本发明不意图提供生成这样的指纹的方法，任何种类的现有技术的指纹生成/提取方法都可以使用，而无需进行改变，因此在此省略其详细描述。

根据本申请的申请人提交的其他专利申请，即韩国专利申请：10-2007-0044251（名称为“音频指纹数据生成方法和装置以及利用该方法和装置的音频数据比较方法和装置”（Audiofingerprintdatagenerationmethodandapparatusandaudiodatacomparisonmethodandapparatususingthesame）），10-2007-0054601(名称为“用于确定视频数据的可识别性以及检测相同区段的方法和装置（Methodandapparatusfordeterminingidenticalnessofvideodataanddetectingidenticalsection)”),10-2007-0060978(名称为“用于聚集具有可识别性的视频数据片段的方法和系统（Methodandsystemforclusteringpiecesofvideodatahavingidenticalness）”),10-2007-0071633(名称为“利用视频数据簇来提供视频数据搜索服务的方法和装置（Methodandapparatusforprovidingvideodatasearchserviceusingvideodataclusters）”),10-2007-0091587(名称为“用于利用视频数据簇来设置和提供广告数据的方法和装置（Methodandapparatusforsettingandprovidingadvertisementdatausingvideodataclusters）”)，以及10-2008-0051688(名称为“视频处理方法和装置（Videoprocessingmethodandapparatus）”),在其中公开了生成音频、图像或视频数据的指纹的方法，以及利用这些指纹来比较数据片段的方法，明显的是，本发明的申请人提出的上述指纹生成和提取方法可以应用于本发明。简单来说，无论使用了何种类型的指纹提取机制，本发明可以使用现有技术的指纹生成/提取方法，而无需改变。

图2为显示了疑问指纹提取部件10形成帧并针对各个帧生成特征向量的方法的示意图。

参照图2，可以看出针对输入的音频信号，形成了具有预定帧长度的帧，且这些帧的起始点彼此间隔了预定的帧平移尺寸。音频信号的水平轴可以是时间轴。假定针对每个帧T_n的基于帧的特征向量为F(T_n)，针对给定的音频信号的最终的指纹可以认为是基于帧的一组特征向量(F(T₁),F(T₂),F(T₃),…,F(T_n-1),F(T_n))，如图2的下部所示。这里，最终生成的基于帧的特征向量为具有二进制数字形式的二进制向量。在此情况中，本发明的特征在于帧平移尺寸在音频信号的预定区段中是变化的。

图3为显示了帧平移尺寸在预定的区段中为变化的情况的示意图。参照图3，可以看出帧平移尺寸是变化的，即，在音频信号的预定区段A-B中，当前帧平移尺寸缩短了。

即，从音频信号的第一位置开始，以预定的帧尺寸形成帧，帧的起始点移动预定的帧平移尺寸。在音频信号的特定区段中，预定的帧平移尺寸是变化的，即缩短了，然后形成的帧的起始点移动了变化的帧平移尺寸，从所形成的帧提取出基于帧的特征向量。

在图3中，帧平移尺寸显示为变的比预定平移尺寸更短，但是平移尺寸也可以比预定平移尺寸更长。以此方式，在预定区段中改变帧平移尺寸意味着生成了更少或更多的帧，这是考虑到如下事实：音频信号的该特定区段包含了比很多情况中的其他区段更多或更少信息量。

例如，当特定区段比剩余区段包括更多信息量时，在该特定区段将需要更精确的分析。对此操作，当生成的帧的数量增加时，可以生成包含更多信息量的指纹。同时，当特定区段包含更少信息量时，在该特定区段可以进行更粗糙的分析。对此操作，可以减少生成的帧的数量。

增加帧的数量，即，缩短帧平移尺寸，会使得基于帧的特征向量的数量增加，因此，如在后面将描述的，数量增加的特征向量对于在指纹匹配部件（特别是第一匹配部件）中以高速来匹配N个候选组时是非常有用的。该事实将在下面参照匹配部件30进行描述。

同时，优选地，帧平移尺寸形成为，如图2和3所示，相邻的帧基于音频信号的时间轴而彼此覆盖，这意味着帧平移尺寸短于帧长度。当然，本发明也可以应用于帧平移尺寸等于或大于帧长度的情况。

同时，其中帧平移尺寸是变化的(例如缩短)的音频信号的区段可以由如下标准确定。

首先，设定特定的时间区段，帧平移尺寸在该时间区段中可以被缩短。例如，预定的帧平移尺寸可以假定为20ms，帧平移尺寸在从音频信号的起始点开始的两秒的时间区段内和在距离音频信号的结束点两秒的时间区段内可以变化为5ms。另一种方法为，音频信号的中间区段（例如2至4秒的时间区段）可以设定为帧平移尺寸被缩短的区段。以此方式，除了指定时间区段的方法，指定包括音频信号的整个时间的中间值的先前区段和后续区段的方法可以使用。

进一步地，还可以使用从用户接收帧平移尺寸被缩短的区段和设置该区段的方法。

以此方式，如果时间区段设定，则形成帧，帧的起始点在相应的时间区段之前移动了预设的帧平移尺寸。当时间到达了预设的时间区段时，从该区段的时间点处帧平移尺寸被缩短，形成的帧的起始点移动了缩短的时间平移尺寸。如果设定的时间区段终止了，重复如下过程：形成帧，帧的起始点移动了原始设定的帧平移尺寸的过程，以及针对各个帧生成特征向量的过程。

同时，还可以利用信噪比（S/N比）来确定帧平移尺寸有变化的区段。S/N比高的区段可以认为包含了更大的信息量，因此可以先计算音频信号的各个预定时间区段中的S/N比，确定S/N比高于一阈值的时间区段，缩短该时间区段中的帧平移尺寸。如何计算S/N比在现有技术中是总所周知的，因此省略了其具体描述。

通过该过程，疑问指纹提取部件10在生成帧的同时针对各个帧生成了基于帧的特征向量，因此生成了针对输入的音频信号的疑问指纹。在此情况中，针对各个帧生成特征向量的详细过程可以利用现有技术实现，而不需要任何改变。

例如，可以利用如下方法。即，对输入的音频信号执行快速傅里叶变换（FFT），因此计算出了频域频谱。功率频谱或幅度频谱计算自从频域频谱，然后通过由N个滤波器组成的滤波器组。这里，一个滤波器的作用是只提取特定频率范围内的一个分量。当利用典型的信号处理方法，基于各个滤波器提取的信号分量计算出能量值时，可以获得第N阶滤波器组能量，这些值可用作针对各个帧的特征向量。

同时，如上所述，疑问指纹提取部件10可以利用开发周围帧指纹（surroundingframefingerprints）的方法，而不是针对各个帧、针对待包括在帧平移尺寸要被缩短的区段中的帧直接生成指纹。

参照图3，当属于区段A-B的帧（即，属于帧平移尺寸要被缩短的区段的帧）的数量假定为例如10时，利用在相邻帧指纹之间进行线性插值可以生成10个基于帧的特征向量。

图4为显示了利用相邻帧指纹生成帧指纹的过程的示意图。

参照图4，音频信号的区段A-B为帧平移尺寸被缩短的区段，在区段A-B中形成了L个帧，且必须为各个帧生成基于帧的特征向量。在此情况中，计算针对L个帧的基于帧的特征向量，使得：针对将区段A-B的起始位置作为最后位置的先前帧，以及将区段A-B的结束位置作为第一位置（T_n,T_n+L）的后续帧分别计算基于帧的特征向量，然后基于这些基于帧的特征向量应用线性插值，因此针对L个帧分别生成了基于帧的特征向量。例如，当T_n的值为1时，T_n+L的值为10时，在该区段中包括了8个帧，利用线性插值可以确定各个帧的特征向量为2、3、4、5、6、7、8和9个。

当使用此方法时，帧的数量增加了，因此其优点是，可以在具有更大信息量的信号区段中进行更精确的分析，而不会大大增加计算复杂度。

图5为显示了利用相邻的帧指纹生成帧指纹的另一种方法。

图5的方法与图4类似，但是其特征是，利用比特位的比较来针对待包含在平移尺寸被缩短的区段中的帧生成特征向量。利用上述方法可以最终生成二进制数字形式的基于帧的特征向量，其中当相邻帧的基于帧的特征向量的各个比特位彼此相比较时，会发现不相同的比特位，因此对发现的比特位应用可能的二进制数（比特反转（bitflipping）），因此针对待包括在区段A-B中的帧可以生成特征向量。例如，当不同比特位的数量为R时，可以生成2^R个基于帧的特征向量，从而使得2^R个帧可以插入到区段A-B中。在此情况中，区段A-B的帧平移尺寸确定为R。

返回参照图1，下面将描述内容识别装置100的其他部件。

参考指纹数据库20用于存储待与疑问指纹相比较的参考指纹以及与参考指纹相对应的内容信息片段。即，用作与疑问指纹进行比较的参照物的指纹，以及与该指纹有关的内容信息片段被存储。然后，如上所述，如果疑问指纹提取部件10提取了疑问指纹，指纹匹配部件30（将在后面描述）将疑问指纹与存储在参考指纹数据库20中存储的参考指纹相比较，并确定与疑问指纹相匹配的参考指纹。

参考指纹数据库20还可以配置为通过网络从外部的独立的参考指纹服务器接收参考指纹和内容信息。

同时，指纹匹配部件30用于确定与疑问指纹相匹配的参考指纹。如上所述，疑问指纹提取部件10提取出疑问指纹，指纹匹配部件30将该疑问指纹与参考指纹数据库20中存储的参考指纹相比较，然后确定与该疑问指纹相匹配的参考指纹。

图6为显示了指纹匹配部件30的结构的示意图。参照图6，指纹匹配部件30包括第一匹配部件31和第二匹配部件32。

第一匹配部件31首先配置多个匹配候选组，这是通过选择与疑问指纹相匹配的参考指纹（例如使用N-best方法），第二匹配部件32对包括在匹配候选组中的参考指纹进行精确分析，从而提供更准确的匹配结果。

第一匹配部件31可以使用确定针对各个帧是否当前有一个匹配指纹，从而选择多个匹配候选组。

图7为显示了第一匹配部件31的操作的示意图。

参照图7，第一匹配部件31从参考指纹数据库20选择待与疑问指纹相比较的参考指纹，将疑问指纹的第i个帧的基于帧的特征向量与所选择的参考指纹的第j个帧的特征向量相比较，然后确定是否例如它们之间的汉明距离等于或小于预设的阈值（S100，S110和S120）。

这里，疑问指纹的第i个帧和被选择的参考指纹的第j个指纹可以顺序地从指纹的第一帧中选择。即，以i和j的值从疑问指纹和所选择的参考指纹的第一帧顺序地增加时，来确定汉明距离。

例如，选择疑问指纹的第一帧（i=1）和选择参考指纹的第一帧（j=1），从而确定各个帧的基于帧的特征向量之间的汉明距离是否等于或小于所述阈值（S120）。

如果汉明距离等于或小于所述阈值，将该参考指纹加入到匹配候选组（S130），跳过相应的参考指纹的剩余帧的比较，选择后续的参考指纹，对该后续的参考指纹重复图7的过程。

如果汉明距离不等于或小于所述阈值，将j加1，重复如下过程：确定参考指纹的后续帧（j=2）的基于帧的特征向量与疑问指纹的第一帧（i=1）之间的汉明距离的是否小于或等于所述阈值。在该过程中，当发现汉明距离等于或小于所述阈值的情况时，对应的参考指纹被加入到匹配候选组中，如上所述，跳过剩余帧的比较，选择后续的参考指纹。

如果即使针对相应参考帧的最后一个帧也没有发现汉明距离等于或小于所述阈值的情况，将i加1以选择疑问指纹的后续帧，重设j-1，从而重复上述的过程。

尽管有上述过程，在发现给定疑问指纹与参考指纹相匹配（即，汉明距离等于或小于所述阈值）的帧有一个时，立即将对应的参考指纹增加到匹配的候选组，省略对应的参考指纹的剩余帧的比较，从而以高速确定N个匹配候选组。

因为这样的方法是比较针对各个帧的特征向量，准确性增加了，但是如上所述，在帧平移尺寸被缩短的区段中由疑问指纹提取部件10生成了更大量的帧，因此以最可能的值来保持准确性。

同时，向匹配候选组中增加匹配的参考指纹意味着对应的参考指纹的标识符（ID）被包括在匹配候选组中。

进一步，在上述方法中，顺序地从第一帧开始比较帧的方法已通过示例方式描述，但是无需一定使用该方法，也可以使用随机选择帧的方法或者首先选择中间帧然后移动到先前帧和后续帧的方法。重要的是对帧比较的基础，如果发现了任何一个匹配帧，省略针对对应的参考指纹的剩余帧的比较，从而能够进行高速匹配，同时保持准确性。

如果通过上述过程确定了N个候选组，第二匹配部件32执行在对应的匹配候选组中包括的参考指纹和疑问指纹之间的次级匹配。

如上所述，第二匹配部件32执行如下功能：将与包括在第一匹配部件31确定的匹配候选组中的参考指纹的标识符相对应的参考指纹，和疑问指纹相比较，然后生成最终匹配结果。

第二匹配部件32用于执行次级匹配所使用的匹配方法为获取比第一匹配部件31执行的初级匹配的结果更准确的结果的方法。为此，第二匹配部件32执行次级匹配，除了针对如上所述的疑问指纹提取部件10已经生成的改变（缩短）帧平移尺寸的帧的特征向量，。

即，仅利用具有预设帧平移尺寸的帧的特征向量来重新构造疑问指纹，精确比较疑问指纹与包括在匹配候选组中的参考指纹，从而计算出最终匹配结果。

同时，可以利用所有现有已知的方法来实现由第二匹配部件32执行的匹配方法，该方法本身不是本发明的直接目的，因此在此省略其详细描述。

再参照图1，将在下面描述识别结果提供部件40。

图8为显示了内容识别装置100的连接和布置状态的示意图。

参考图8，内容识别装置100可以设置在客户终端300中，客户终端300可以通过网络（例如互联网或移动通信网络）连接到参考指纹服务器200。

客户终端300可以是计算机或移动通信终端（例如智能手机）。

如图8所示，参考指纹服务器200可以包括指纹生成部件210和基于内容组的指纹数据库220。

指纹生成部件210执行针对所有的设定为要生成指纹的音频信号生成指纹的功能。这里生成的指纹连同与每个指纹相对应的内容信息存储在基于内容组的指纹数据库220中。

基于内容组的指纹数据库220对指纹生成单元210生成的指纹、内容信息的片段进行了分组，并存储针对各个组的指纹和内容数据。可以利用各种标准来执行各个分组的存储，例如可以根据特定的内容进行分组。例如，与歌曲标题为“AAA”相对应的所有指纹和内容信息的片段可以被分组到一起。

另一种方法为，针对各个内容片段，通过参考指纹服务器200的管理器/管理者设定分组，从而实现分组。

如上所述，参考指纹服务器200构造了一个分组的指纹数据库，并将分组的指纹数据库传输到客户终端300，客户终端300的内容识别装置100的参考指纹数据库20接收并存储分组的指纹数据库。

以此方式进行构造后，一旦客户终端300完成了识别（即，匹配完成），客户终端300可以被配置为通过识别结果提供部件40同时将识别结果传输给用户和参考指纹服务器200。在此情况中，参考指纹服务器200可以确定特定用户是否真的听到了针对被分组的内容和被识别的内容的音频信号，听到了针对各个分组的内容片段的音频信号。因此，当该结构应用于广告方法时，特定的用户可以识别特定的内容，通过服务器可以聚集特定内容的识别结果，从而获得如下优点：有利地利用该结构产生广告效果或事件。

同时，返回到图1，内容识别装置100可以进一步包括界面提供部件（未示出）。该界面提供部件执行提供用户界面的功能，使得用户能够输入音频信号，其同时提供识别结果给用户。

例如，通过用户界面提供音频信号识别开始按钮，从而当用户点击对应按钮时，利用声音输入装置（例如麦克风）可以获得针对预定时间段的音频信号。进一步，如果用户界面已经完成了识别（匹配），内容信息可以以例如“识别的音频信号为歌手‘aaa’的歌曲‘bbb’”的形式提供给用户。

同时，如上参照图1至图8所描述的，疑问指纹提取部件10从输入的音频信号针对各个帧生成基于帧的特征向量，所述各个帧配置有预定帧长度和帧平移尺寸，然后提取疑问指纹。

在此情况中，当提取了疑问指纹时，可以设定预定的时间区段，在每个时间区段中提取一个疑问指纹，进行匹配，并且在执行提取和匹配时，如果在对应的时间区段中匹配失败，延长该时间。

例如，当时间区段的单位是N秒时，音频信号可以分到多个区段N₁,N₂,N₃，…,NK中。这里，N为比上述的帧长度大的多的值。关于时间区段，在区段N₁中，执行上述的疑问指纹提取和匹配。如果在区段N₁中匹配失败，在后续的区段N₂中执行疑问指纹提取和匹配。如果重复该过程使得匹配成功，则终止该过程，然而，如果匹配连续失败，则继续移动到后续帧，对应区段中的帧执行如上所述的疑问指纹提取和匹配。

这里，时间区段的尺寸优选地设定为相同尺寸，但是很明显它们可以具有不同的尺寸。

进一步，当例如在区段N₂中执行疑问指纹提取和匹配时，在区段N₁中提取的疑问指纹也可以被利用。

图9为显示了由根据本发明图1至图8描述的内容识别装置100执行的内容识别方法的流程图。

参照图9，疑问指纹提取部件10利用如上所述的方法提取疑问指纹（S1000）。当提取出疑问指纹时，指纹匹配部件20的第一匹配部件21首先执行第一匹配（S1100）。第一匹配部件21执行的第一匹配的结果被用于确定N个匹配候选组，如上所述。

接下来，指纹匹配部件20的第二匹配部件22对包括在匹配候选组中的参考指纹执行第二匹配，并生成最终的匹配结果，作为识别结果（S1300）。

如上所述，尽管描述了本发明的优选实施例，本发明明显不受限于这些实施例。

例如，在上述实施例中，描述了疑问指纹提取自音频信号，并进行匹配，但是本发明明显还可以应用于视频信号，而无需改变。原因在于视频信号和音频信号的区别仅在于生成特征向量的方法，且上述对帧进行配置的方法可以应用于视频信号，而无需改变。

进一步，在图7中，已通过例子描述了在比较帧的基础上来比较汉明距离的方法，但明显的是除了汉明距离还可以使用其他现有技术方法。

而且，在图8中，内容识别装置100被描述为集成和包括到用户终端300中，但是内容识别装置100的各个部件可以分布和布置到网络上。例如，只有疑问指纹提取部件10和界面提供部件（未示出）可以包括到客户终端300中，其他部件可以作为独立的服务器分布和布置到网络上。

例如，参考指纹数据库和指纹匹配部件可以分别布置到分离的服务器上，这两个部件还可以集成和布置到一个服务器上。而且，这两个部件可以布置到参考指纹服务器200中。重要的是内容识别装置100可以物理地配置为单个装置，其仍可以分布和布置在网络上。

Claims

1.一种利用音频信号来识别内容的装置，包括：

疑问指纹提取部件，用于针对输入的音频信号，形成具有预设帧长度的帧，并针对各个帧生成基于帧的特征向量，从而提取出针对输入的音频信号的疑问指纹；

参考指纹数据库，用于存储待与所述疑问指纹相比较的参考指纹，以及与所述参考指纹相对应的内容信息片段；

指纹匹配部件，用于确定与所述疑问指纹相匹配的参考指纹；

其中疑问指纹提取部件形成部分区段中帧平移尺寸变化的帧，帧平移尺寸为相邻帧的起始点之间的间隔。

2.根据权利要求1所述的装置，其中所述帧平移尺寸短于所述帧长度，从而相邻的帧彼此覆盖。

3.根据权利要求1所述的装置，其中所述疑问指纹提取部件通过使得所述部分区段中的帧平移尺寸短于预设的帧平移尺寸而形成帧。

4.根据权利要求3所述的装置，其中所述疑问指纹提取部件基于预定的时间区段来确定所述部分区段。

5.根据权利要求3所述的装置，其中所述疑问指纹提取部件检测信噪比的值大于阈值的时间区段，并基于所检测到的时间区段确定所述部分区段。

6.根据权利要求4或5所述的装置，其中所述疑问指纹提取部件针对与所确定的所述部分区段相对应的各个帧生成基于帧的特征向量。

7.根据权利要求4或5所述的装置，其中所述疑问指纹提取部件基于与所述部分区段的起始位置和结束位置相对应的帧的基于帧的特征向量，针对待包括在所确定的所述部分区段中的各个帧生成基于帧的特征向量，与所述部分区段的起始位置相对应的帧为将该部分区段的起始位置作为最后位置的帧，且与所述部分区段的结束位置相对应的帧为将该部分区段的结束位置作为第一位置的帧。

8.根据权利要求7所述的装置，生成与所述部分区段的起始位置和结束位置相对应的帧的基于帧的特征向量，基于所生成的基于帧的特征向量，利用线性插值生成针对待包括在所述部分区段中的各个帧的基于帧的特征向量。

9.根据权利要求7所述的装置，其中与所述部分区段的起始位置和结束位置相对应的各个帧的基于帧的特征向量生成为二进制数字形式，通过比较生成的二进制数字形式的基于帧的特征向量的各个比特位，以及通过将可能的二进制数字布置为不同的比特，来生成待包括在所述部分区段中的各个帧的基于帧的特征向量。

10.根据权利要求1所述的装置，其中所述指纹匹配部件包括：

第一匹配部件，用于通过确定包括基于帧的特征向量的参考指纹是否匹配构成了所述疑问指纹的基于帧的特征向量中的任何一个，以及通过将所确定的参考指纹的标识符包括在匹配候选组中，来执行初级匹配；以及

第二匹配部件，用于对与包括在所述匹配候选组中的标识符相对应的参考指纹执行次级匹配。

11.根据权利要求10所述的装置，其中所述第一匹配部件通过如下方式来确定包括基于帧的特征向量的参考指纹是否是匹配的参考指纹，所述参考指纹的基于帧的特征向量至构成所述疑问指纹的基于帧的特征向量中的任一个的汉明距离等于或小于阈值。

12.根据权利要求10所述的装置，所述第一匹配部件配置为，如果构成了所述疑问指纹的基于帧的特征向量顺序地与每个参考指纹的基于帧的特征向量比较后，检测到了匹配帧，则省略剩余帧的比较，并执行后续参考指纹的比较。

13.根据权利要求10所述的装置，其中所述第二匹配部件从构成疑问指纹的基于帧的特征向量来重新构造基于帧的特征指纹，排除掉除了与预设的帧平移尺寸相对应的帧之外的帧，并且将重新构造的基于帧的特征向量与所述参考指纹相比较。

14.根据权利要求1所述的装置，进一步包括识别结果提供部件，用于提供与指纹匹配部件所确定的参考指纹相对应的内容信息。

15.根据权利要求1所述的装置，其中利用了音频信号的所述内容识别装置包括在客户终端中。

16.根据权利要求15所述的装置，其中所述参考指纹数据库从参考指纹服务器接收参考指纹和内容信息，并存储参考指纹和内容信息。

17.根据权利要求1所述的装置，进一步包括界面提供部件，用于提供使得用户能够输入音频信号的用户界面。

18.根据权利要求16所述的装置，其中与指纹匹配部件所确定的参考指纹相对应的内容信息被传输至参考指纹服务器。

19.根据权利要求1所述的装置，其中：

所述疑问指纹提取部件通过针对每个预设区段中包括的帧生成基于帧的特征向量来提取出基于区段的疑问指纹，并且指纹匹配部件确定与每个疑问指纹相匹配的参考指纹；以及

疑问指纹提取部件继续提取各个预设区段中的基于区段的疑问数据，直到由疑问匹配部件确定了匹配的参考指纹。

20.一种利用音频信号来识别内容的方法，包括：

1)针对输入的音频信号形成具有预设帧长度的帧，并针对各个帧生成基于帧的特征向量，从而提取出疑问指纹；以及

2)确定与所述疑问指纹相匹配的参考指纹，

其中1)配置为形成在部分区段中帧平移尺寸变化的帧，帧平移尺寸为相邻帧的起始点之间的间隔。

21.根据权利要求20所述的方法，其中2)包括：

2-1)通过确定与构成了所述疑问指纹的基于帧的特征向量中的任一个相匹配的参考指纹，以及通过将所确定的参考指纹的标识符包括在匹配候选组中，来执行初级匹配；以及

2-2)对与包括在所述匹配候选组中的标识符相对应的参考指纹执行次级匹配。