CN107534800A

CN107534800A - 用于连续介质片段识别的系统和方法

Info

Publication number: CN107534800A
Application number: CN201580074972.8A
Authority: CN
Inventors: W·里奥·霍尔提
Original assignee: Structural Data Co Ltd
Current assignee: Structural Data Co Ltd
Priority date: 2014-12-01
Filing date: 2015-11-30
Publication date: 2018-01-02
Anticipated expiration: 2035-11-30
Also published as: AU2019271939B2; MX2017007165A; US11863804B2; US20240259613A1; US11272226B2; CA2968972C; CL2017001401A1; MX2019015461A; CA2968972A1; US20200228847A1; WO2016089749A1; US20160154880A1; EP3228084A1; CN107534800B; AU2015355209B2; CN111757189A; BR112017011522A2; CN111757189B; US20220224952A1; AU2019271939A1

Abstract

本发明提供了使用所述节目的音频分量来识别未知媒体节目的手段。本发明从由消费者电子设备如智能电视机和电视机顶盒接收的媒体中提取音频信息，然后将所述信息传送到远程服务器装置，该远程服务器装置继而通过针对已知音频片段信息的数据库测试来识别所述未知身份的音频信息。该系统实时地识别未知媒体节目，以便可以提供时间敏感的服务，诸如提供上下文相关的信息或电视广告替代的交互式电视应用。其他用途包括跟踪许多其他服务中的媒体消费。

Description

用于连续介质片段识别的系统和方法

优先权声明

本申请要求于2004年12月1日提交的名称为“使用轨迹跟踪进行音频匹配(AUDIOMATCHING USING PATH PURSUIT)”且发明人为W.Leo Hoarty的美国临时专利申请No.62/086,113的权益。上述申请案是目前共同待审的，或者是有权享有即时或当前共同待审的申请案的申请日权益的申请案。

技术领域

本发明一般涉及一种媒体识别客户端服务器系统，其在有效呈现和识别多媒体信息方面具有明显的改善。更具体地说，本发明涉及一种在计算上有效且准确的媒体识别系统，其在与服务器装置通信以进行连续识别之前，仅需要在客户端设备处理过程中对媒体进行最少的处理。

背景技术

自动内容识别的应用正在经历相当快的增长，并且因来自许多新商业机遇的需求推动预计将继续增长，该等新商业机遇包括：提供上下文相关内容的交互式电视应用；目标广告；以及跟踪媒体消费。为了应对这种增长，需要一种与创建媒体数据库并在所述数据库内识别容忍媒体内容变更(诸如在客户端设备内本端生成的图形改变了原始传输图片，或当用户使用其HDTV的缩放或拉伸模式观看标清广播时)的特定媒体片段的问题相关的全面解决方案。这些改变可能由于用户动作而发生，用户动作为诸如使用电子节目指南(EPG)，请求出现在机顶盒生成的弹出窗口中的附加节目信息或者选择远程的非标准视频模式。

自动内容识别系统通常摄取大量的数据，并且往往按照连续的24小时的计划运行。由所述系统消耗和管理的数据量使得数据能够按照大数据系统的当前流行的习惯用语分类。因此，所述系统必须在数据处理和存储资源以及数据通信要求方面尽可能有效地运行。增大操作效率同时仍然达到必要准确度的基本手段是利用生成要识别的数据的压缩表示的方法。所述压缩表示通常被称为指纹，其通常与从音频或视频内容识别数据相关联。尽管使用了各种不同复杂度的算法，但大多数算法仍依赖于具有若干重要特性的常用设置基本原理，诸如：指纹应该比原始数据小得多；表示媒体序列或媒体片段的一组指纹应该是唯一的，使得可以在大型指纹数据库中识别所述组指纹；原始媒体内容不应该能够根据一组指纹重建，即使是以降级的形式重建；并且即使所述副本有意地或通过复制或以其他方式再现所述媒体的方式而减小或失真时，该系统也应能够识别原始媒体的副本。常见的媒体失真的实例包括：缩放或剪切图像数据，诸如从高清视频格式改变为标清格式，反之亦然，将图像或音频数据重新编码为较低质量水平或改变视频的帧速率。其它实例可以包括将数字媒体解码成模拟形式，然后将所述媒体进行数字地重新编码。

典型的媒体指纹方法的一个有用的实例可以通过检查被称为‘Shazam’的流行的移动电话应用程序(app)来说明。Shazam应用程序和许多类似的应用程序通常用于识别用户未知的歌曲，特别是在公共场所(如酒吧或餐厅)中听到的歌曲。这些应用程序从移动设备(如智能电话或平板电脑)的麦克风进行音频采样，然后生成待识别的未知音频的所谓“指纹”。所述“指纹”通常通过检测频率事件来构造，所述频率事件为诸如特定声音事件的中心频率高于周围声音的平均值。这种类型的声学事件在Shazam专利U.S.6,990,453中被称为“界标”。然后，系统继续分析另一个此类事件的音频。当发现第一个“界标”和第二个“界标”以及将它们分隔开的时间间隔作为被称为“指纹”的数据单元而被发送到远程处理装置时，远程处理装置将在一段时间(通常为二十到三十秒)内积聚附加的“指纹”。然后使用一系列“指纹”来搜索已知音乐作品的参考数据库，其中该数据库由所述指纹识别装置构建。然后将匹配结果发送回移动设备，并且当匹配结果为肯定时，识别在用户位置播放的未知音乐。

被称为Viggle的另一项服务通过下载到用户移动设备的软件应用程序来识别电视音频，该软件应用程序将来自用户收听位置的音频样本中继到中央服务器装置，以通过音频匹配系统识别所述音频，该服务为服务用户提供了在所述用户观看所述节目时在识别电视节目后积累忠诚度积分的手段。服务用户可以稍后兑换与其他消费者忠诚度节目类似的商品或服务的所述忠诚度积分。

识别未知的电视片段通常需要在识别视频和识别音频之间非常不同的方法。这是因为视频以离散帧呈现，而音频作为连续信号播放。然而，尽管呈现格式不同，所述视频系统将视频片段压缩为代表性指纹，然后搜索已知视频指纹的数据库以便识别与音频的识别过程类似的所述未知片段。所述视频指纹可以通过许多手段生成，但通常指纹生成的主要功能需要识别各种视频属性，诸如查找图像边界，诸如视频帧或视频中可以隔离和标记然后与相邻视频帧中的类似事件一起分组以形成视频指纹的视频中的其他模式中的光暗边缘。

原则上，识别视频片段的系统应该使用与用于从媒体匹配服务的客户端装置处理未知视频的方法相同的方法来构建，以将已知视频片段登记到参考数据库中。然而，使用智能电视的实例作为所述客户端装置意味着，随着使用智能电视的处理装置对出现在电视机中的视频进行采样，出现了若干问题。一个此类问题因以下事实而出现：大多数电视设备连接到某种形式的机顶设备。在美国，62％的家庭订阅有线电视服务，27％的家庭订阅卫星电视，并且越来越多的电视由互联网连接的机顶盒馈送。美国少于10％的电视接收机从空中来源(off-air source)接收电视信号。在通过机顶盒向电视机提供电视信号的情况下，与通过天线从空中传输观看电视相反，机顶盒将往往用本端生成的图形显示重叠所接收的视频图片，诸如当用户按下遥控器上的“信息”按钮时的节目信息。类似地，当用户请求节目指南时，电视图片通常将缩小到四分之一或更小，并且位于由节目指南网格包围的显示内容的角落中。同样，机顶盒生成的警报和其他消息可能会出现在叠层视频节目的窗口中。在用户正在观看标清广播但希望以4:3纵横比图片填充高清电视的16:9屏幕时，当用户选择放大图像的视频缩放模式或拉伸模式时，可能会发生其他形式的破坏性视频失真。在每种这些情况中，视频识别过程将无法匹配从所述机顶构造中采样的未知视频。

因此，当出现如上所述通过附接的机顶设备改变视频节目信息的若干常见情况时，仅依靠视频识别的现有自动内容识别系统将被打断。即使当视频没有被机顶设备改变时，随着识别视频也会出现进一步的问题。例如，当视频图像衰减为黑色时或者甚至当视频图像正描绘非常暗的场景时，视频识别系统的现有技术可能失去识别未知视频片段的能力。

有趣的是，电视节目的音频信号几乎不会被改变，而是如由附接到所述电视的机顶设备接收的一样传送到电视系统。在图形叠层的所有上述实例中，对于衰减为黑色或暗视频场景而言，节目音频将继续通常不变地播放，并且因此可用于通过用于音频信号的合适的自动内容识别系统进行可靠的节目片段识别。因此，清楚地需要一种自动内容识别系统，其出于识别未知的电视节目片段的目的，独立地利用音频识别，或者除了识别视频之外还利用音频识别。然而，上述音乐识别系统(例如Shazam)采用的技术通常不适合于识别连续内容，诸如电视节目。这些移动电话音乐识别应用程序通常设计用于处理来自露天的麦克风的音频，这也会引入显著的室内噪音干扰，如在嘈杂的餐厅或酒吧中所存在的噪音干扰。此外，这些上述音频识别应用的操作模式通常基于推定的特别用途，并且并非设计用于连续自动内容识别。因此，由于来自高干扰来源的许多识别音频的技术挑战，所以特别音乐ID节目的技术架构不适合连续识别音频。所述系统不仅将不断地运行，而且还具有非常大数量的同步设备，例如国家或者甚至地区的电视机顶盒或智能电视群体。

存在用于识别如其在电视接收机上所显示的电视节目的许多用途。实例包括交互式电视应用程序，在这种情况下通常在识别媒体的相同电视显示器上或者在诸如智能电话或平板电脑的设备的辅助显示器上以弹出窗口的形式向观众提供当前显示的电视节目的补充信息。这种上下文相关信息通常需要与当前正在观看的主要节目同步。检测电视节目的另一种应用是广告替代，也称为定向广告。还存在用于媒体普查的另一种用途，诸如一个或多个电视节目的收视率测量。所有这些用途和未提及的其他用途都受益于及时检测未知节目片段。因此，单独的或与视频识别配合的连续音频识别可以提供或增强自动内容识别系统的可靠性和一致性。

发明内容

本发明用于识别视频和/或音频片段，以便使交互式电视应用程序能够在客户端机顶盒或智能电视机中提供各种交互式电视服务。此外，本发明提供了一种用于识别关于收视率测量目的的节目观看统计的可靠手段。

本发明提供了音频和视频片段识别装置，其中在登记时，如图1所示，视频帧和音频的秒数被变换成通用格式的连续系数流101，该通用格式的连续系数流101可被标记并存储在参考数据库102中，以在从本发明使能的客户端设备呈现给本发明的系统时提供用于识别未知音频或视频片段的候选数据。本发明可以以多种模式进行操作，例如仅使用视频，或仅使用音频，或使用视频和音频的组合，并且系统将在三至十秒内提供准确的结果。用于识别过程的音频和视频片段信息是以与图1的识别过程104的登记过程101相同的方式103准备的。成功匹配的结果是唯一识别码或音频/视频片段110的元数据。

在本发明的一个实施例中，视频片段可以用作识别未知媒体片段的主要手段。如果诸如机顶盒的消费者设备显示重叠主视频图片的本端生成的图形，则通过本发明进行的视频识别可能被打断。如果发生所述中断，则本发明的系统可以无缝切换到音频片段信息，从而继续识别从所述消费者设备发送到中心匹配服务器装置的未知媒体内容。

通过本发明的一个实施例进一步增强了在音频和视频片段识别之间动态切换的能力，其中音频片段信息由本发明的线性预测编码(LPC)装置从数字音频样本流转换为具有与视频片段变换处理相似的特征的系数流或符号流。所述特征包括一组广泛的符号(称为系数)，其展现广泛的可变性而非与频率直接相关，与其他时频变换(诸如众所周知的流行的傅立叶级数)不同。此外，所述系数过程将可靠地重复相同或大致相似的音频片段的值，因此，在保持可重复性的同时表现出非常理想的明显高熵特性。本发明的LPC方法的另一个重要特征是所述系数值在最短20毫秒(ms)至长达100毫秒的时间间隔中基本上保持固定。所述固定时间帧允许用与Neumeier US 8,595,781的视频像素采样过程类似的处理手段来处理系数，Neumeier US 8,595,781全文以引用的方式并入本文，其提供了允许使用采用高维代数可疑选择结合数据的连续数据匹配方案结合时间折扣评分手段(诸如Neumeier所教导的Path Pursuit)的进一步优点。这与现有技术形成鲜明对比，在现有技术中使用特征向量和其他手段来找到界标并将界标组合以形成指纹，如由流行的Shazam音乐识别服务和许多其他音频识别系统所例示的。

音频数据在大多数方面与视频数据具有很大的区别，但是音频信号通过本发明以使其与视频信息的采样像素值相似的方式变换成系数组合或系数帧，所述系数组合或系数帧在本领域中也被称为“提示”。视频和音频提示之间的此数据相似性方面允许本发明的有利的中心匹配手段可互换地用于将未知音频对照参考音频匹配或将未知视频对照参考视频数据匹配，或者同时处理两者(如果应用需要的话)。

本发明提供了一种连续地识别来自多个客户端设备(诸如智能电视、有线或卫星机顶盒或互联网媒体终端)的媒体信息的手段。本发明提供了一种用于将由所述设备接收的媒体样本变换成压缩媒体信息的连续帧，以便由中央服务器装置识别的手段。所述中央服务器装置将在三到十秒内识别未知媒体片段，并将先前未知片段的身份提供至提供所述片段的相应客户端设备，以用于交互式电视应用，例如在重叠窗口中显示上下文相关内容，或用于广告替代目的。此外，媒体片段的识别可以通过网络提供给服务器的其他过程或外部系统，以进行媒体普查，例如收视率测量应用。

本发明是基于将音频变换成与现有技术(Neumeier专利)的连续视频帧过程相似的连续过程中的时间冻结系数帧，并且是通过理解在Neumeier中视频信息是通过从视频帧内的多个视频帧位置中找到平均像素值来处理而完成的。所述视频帧信息通常以每秒至少多个帧的速率连续地登记在匹配系统中，但不一定是普通电视信号的完全视频帧速率。类似地，Neumeier专利的识别阶段允许将所述视频帧信息收集并以低于未知视频片段的全帧速率的视频帧速率传送到本发明的中心匹配装置，只要帧速率不大于登记帧速率即可。音频信息被处理为通常为20至100毫秒的典型短持续音频片段的重叠帧。已知某些音频通道特性，例如信号的功率谱密度，在20至100毫秒之间的短时间间隔内是有效的，并且可以转换成在所述帧时间内不会明显变化的系数。因此，可以使用将连续的音频数据变换成基本上是时间冻结的系数帧的装置，这提供了将已知音频信息存储在数据库中然后通过算法手段搜索以识别未知音频片段的有效手段。

另外，在本发明的开发过程中已经确定，所述系数具有类似于专利US 8,595,781的所述视频系数(提示)的熵特征，从而提供了通过用于形成可搜索的参考数据库的局部敏感散列索引装置存储所述系数的能力。与视频一样，在识别阶段期间，可以通过用于查找多维空间中的候选者的线性代数(矩阵数学)手段来搜索数据库。所述候选者也称为可疑者，可以用放置在具有类似于漏桶的特征的接收器(bin)中的令牌来表示，从而提供用于从收获的可疑者中查找匹配结果的有效评分手段，该手段在领域中被称为时间折扣分组。另一种对候选者匹配进行评分的有效手段是利用所述未知提示与一个或多个候选者(已知)提示的相关性。所述相关手段，不与本文所使用的自相关混淆，是本领域中的技术人员所熟知的，用于查找参考数据项与一组测试数据项中的一个数据项的最接近的匹配。因此，利用数学相关程序的所述评分手段代替时间折扣分组产生了通过识别系统实现的最佳匹配。

应当理解，识别过程期间的系数帧生成速率可以小于在登记过程期间使用的系数帧生成速率，因为仍然为匹配系统提供了足够的信息来准确地在三秒至十秒的时间间隔内确定未知音频片段的身份。例如，本发明允许登记率以等于每秒100帧的倍数的20毫秒间隔(例如具有50％重叠)来操作。客户端设备可以将帧发送到匹配服务器装置，以便以每秒可能50、25或10帧或任何100的合理的倍数进行识别，以便通过本发明的识别机制进行有效地匹配。

一旦音频从基于时间的表示变换成基于频率的表示，则可以应用附加的变换以便产生对系数帧(提示)组的某些进一步的精化。在此步骤中，可以找到多种适用的算法。目的是降低数据维度，同时增加登记对照识别样本对齐的不变性。因此，存在大量系数生成能力，其中可以选择所述系数中的任何一个用于数据登记和识别，假设在任何给定时间对于登记和识别都应用仅一个特定选择。

本发明提供了一种从任何媒体来源(诸如有线、卫星或互联网传送节目)识别音频或视频信息的手段。一旦识别，本发明可以通过数据网络将来自集中式识别装置的信号发送到本发明的客户端应用程序，使应用程序在电视显示器上显示与提供未知媒体信息的客户端设备相关联的上下文定向内容或其他内容。同样地，所述上下文协调的内容可以由所述识别装置供应给第二屏幕设备，诸如智能电话或平板电脑。类似地，在识别未知媒体片段时，本发明可以维持用于特定电视节目的收视率测量的观看普查，以供第三方如电视广告机构或电视网络使用。

在一个或多个方面中，相关系统包括但不限于用于实现本文提及的方法方面的电路和/或编程；根据系统设计者的设计选择，该电路和/或编程可以是实际上被配置为实现本文提及的方法方面的硬件、软件和/或固件的任何组合。

除了上面所述之外，在本公开的教导诸如文本(例如，权利要求书、附图和/或详细描述)和/或附图中阐述和描述了各种其他方法、系统和/或程序产品实施例。

上述是概述并且因此必要地包含对细节的简化、概括和省略；因此，本领域的技术人员将理解，该概述仅仅是说明性的，并非旨在以任何方式加以限制。本文描述的设备和/或过程和/或其他主题的其他方面、实施例、特征和优点将在本文阐述的教导中将变得显而易见。

附图说明

图1是自动内容识别系统的基本功能的高层框图。由音频和/或视频片段102和元数据(节目信息)103组成的已知音频/视频信息101被处理并变换成存储在参考数据库105中的系数帧104。未知的音频和/或视频信息106通过与104类似的过程被处理成系数帧107，并被供应给自动内容识别(ACR)系统108，该ACR系统108将数据与所述参考数据库105进行比较。当识别出所述未知音频/视频片段时，输出音频和/或视频元数据(节目信息或片段ID)109。

图2是本发明的服务器202和客户端装置203的框图。将一个或多个内容源201a供应给媒体摄取装置201，该媒体摄取装置201产生音频和/或视频提示数据201c，并且以每个媒体片段的节目标识和时间码201b信息的形式提供相关联的元数据。所述媒体信息被输入到由自动内容识别(ACR)处理器205查询的参考匹配数据库204，以处理和识别由一个或多个客户端设备203供应的未知音频203b和/或视频203a的片段。所述客户端设备由ACR客户端208组成，该ACR客户端208将电视帧缓冲器209和/或电视音频缓冲器211的内容转换成要发送到服务器202的相应提示组。在成功匹配音频或视频片段之后，ACR处理器205向匹配处理装置207发送消息，该匹配处理装置207由此检查交互式电视(ITV)内容数据库中将通过网络传输到客户端设备应用程序210以供客户端设备203进行本端处理的指令和可能的数据的存在。所述处理可以包括在具有与通过本发明的方法检测到的节目片段相关联的信息的电视显示器的窗口中显示补充信息。此外，匹配处理207可以向诸如收视率测量系统207b的测量数据库提供结果。

图3是有利系统的框图，其示出了一种用于本发明的装置，该装置通过例如光传输装置303从内容传送网络302接收媒体信息(诸如，无线电或电视节目广播)，使得匹配服务器系统306将在客户端设备(诸如智能电视)之前接收所述节目，使得可以用足够的时间将内容处理并存储在参考媒体数据库307中，使得系统在来自客户端设备309至312的未知媒体到达之前准备就绪。无线电或电视节目的网络分发往往通过光纤网络提供给服务供应商(诸如卫星和有线电视供应商)，光纤网络通常表现出为一秒的分数的网络延迟，而客户端设备可以经由卫星或通过使所述内容经过在电缆系统的头端中的附加处理来接收内容，使得延迟为约二至五秒或可能更长。基干和家用传递之间的此分配时间差异足以允许本发明的服务器装置提供对未知音频或视频片段的实时处理，因为来自相同来源、由所述客户端设备接收的已知数据将已经被处理和存储以供所述匹配服务器装置在对其匹配服务进行任何查询之前很好地加以使用。因此，可以与所识别的片段的播放开始非常接近地执行交互式电视服务，诸如上下文相关的信息显示或广告替换。

图4是来自接收器的原始音频输入401的处理流程图，其示出了以下步骤：预处理402；预加强(如果适用的话)403；音频片段的成帧、整形和重叠404；自相关405，其用于制备关于线性预测编码处理406的信号；然后将LPC系数转换到线谱对或导抗谱频率407；然后通过归一化和量化对系数进行后处理408；以及将量化的系数形成为‘提示’组409以发送到音频匹配系统410，该音频匹配系统410当由所述匹配系统成功识别音频片段时提供音频元数据(识别)411。

图5是用于增强高频音频分量的信息内容的音频预加强滤波器的频率响应曲线图；

图6是将图5的预加强滤波器应用于所述信号之前的典型电视音频频谱的曲线(a)。从低频平均峰值(约500Hz)到高频平均峰值的音频信号的幅值差的测量值601表现为约45dB的范围。曲线(b)示出了在经由图5的滤波器处理曲线(a)之后，高频音频分量的增加的信号强度，其中高频信息增加到在所述频率之间的30dB的有益较窄范围602。

图7示出了本发明采用的音频片段重叠701至704。在一个实施例中，本发明使用具有10毫秒重叠的20毫秒音频片段。在某些实施例中，片段长度可有利地利用至多100毫秒的片段长度，并且可以有益地实现该片段长度的10％到90％的重叠。

图8是示出了应用于音频帧的各种整形函数的频谱效应的信号成帧曲线图。曲线801示出了具有突然开始和停止的简单矩形帧，其导致傅里叶变换802，表现出作为突然中断的结果而添加到所关注信号的显著边带噪声。曲线803示出了广泛用于语音通信系统中的汉明窗(Hamming Window)。所得到的傅立叶变换804表现出谐波信息被抑制>50dB的优化信号。曲线805示出了相对简单的三角窗函数，其具有傅立叶曲线806，该傅立叶曲线806的品质接近汉明窗曲线804，但是需要应用于音频帧的少得多的计算，并且因此对于使用具有有限计算手段的消费电子设备(诸如智能电视或机顶盒)的应用而言是最有利的。

图9是由本发明采用并应用于典型电视音频的自相关函数的系数输出的曲线图。

图10是线性预测(LP)频谱的曲线图1002，并且还示出了适于归一化用于最佳量化的系数的加权滤波器的曲线图1001。

图11是图10的自相关输出的LPC处理的系数输出的曲线图，其示出了语音信号的20毫秒音频样本的典型值。

图12是图11的LPC系数输出转换为导抗谱频率(ISF)系数的结果。本领域中熟知的是，存在使用线谱对(LSP)变换的合适的替代方案，该变换产生类似的系数，其中ISF和LSP系数两者都可以更适合于LPC过程的未处理系数的量化。

图13是ISF过程的系数输出到复平面(Z平面)单位圆的ISF系数映射的极坐标图。ISF系数以对称共轭对存在，并且只有单位圆的前半部分有助于输出值。形成ISF过程的输入的LPC的极点(x)显示在圆圈内。

图14是随时间推移绘制的15个ISF系数的图表，显示未修改的变换输出对于Z轴曲线的单位圆上的位置1203的相对灵敏度。

图15是音频源1501的摄取过程，其中音频源1501被解码到接收器/解码器音频缓冲器1502中，然后被分割成固定长度的音频帧1503。在本实施例中，音频帧被通过自相关变换1504，然后通过线性预测编码1505进一步处理为系数1505，并且在本实施例中使用ISF变换进一步处理1506为系数。节目信息元数据1509被添加到节目时间码1508至经处理的系数1507，以形成音频数据提示记录1510。

图16是由音频散列函数1602散列并存储在参考数据库1604中的参考音频提示1601的示意图，该参考数据库1604通过解析所述散列函数1602中具有寻址存储扇区的最高有效位和寻址“桶”(位置)1606的其余位的输出而编索引。

图17是来自未知音频源的音频提示形成1706的示意图，该未知音频源由电视监测器1701接收并在所述电视音频缓冲器1703中解码，然后由本发明的客户端软件处理，以形成预定长度的音频帧1702并转换成系数1705。所述客户端提示形成包括添加当前处理时间1707，该当前处理时间在本领域中被称为“实际时间(wall time)”。

图18为未知音频提示1801的示意图，该未知音频提示1801利用散列函数1804生成散列索引，然后用于寻址参考数据库桶1805。候选音频提示1802从所述数据库检索并供应给匹配过程1803，匹配过程1803在将未知媒体片段与来自参考数据库1806的已知片段成功匹配后输出结果1807。

图19是时间折扣分组过程1901的代表性示意图，该时间折扣分组过程1901向桶1902供应令牌，直到桶包含足够的令牌以跨过阈值1904，该阈值1904指示在本发明中媒体片段匹配结果的高概率。所述桶是“漏的”并且将随时间推移消耗令牌，使得在预定时域内需要一致的匹配结果，来使令牌比泄漏速率更快地填充相应的桶，以便所述桶中的令牌成功地跨过所述阈值。

图20是从音频输入到系数或散列字符串输出的变换的可能组合的矩阵图。在经由所述矩阵的所有路径中，除了输出2013之外，系数通过线性处理2014或通过矢量量化2015而量化，然后在2016处从系统输出。在所有这些过程中，音频被转换成高熵系数组，所述高熵系数组表示在音频帧的持续时间内具有接近固定的功率频谱的音频帧，因此产生了可以适当地经散列编索引并应用于Path Pursuit的搜索和评分手段以供连续识别音频片段的系数。

图21的此流程图包括可以执行内容音频匹配的步骤。

图22的此流程图定义了匹配表示未知音频片段的一系列系数帧的步骤。候选者收获(测定)和时间折扣分组与Neumeier专利教导的相同。

图22a的此流程图定义了匹配表示未知音频片段的一系列系数帧的步骤。将候选者收获(测定)提供给未知提示组与一个或多个可疑者(候选者)提示的相关过程。进一步评估最接近的匹配，然后如果高于阈值则输出作为结果。

图23示出了表示与连续音频匹配相关的实例操作的操作流程。

图24至图28示出了图23的操作流程的替代实施例。

具体实施方式

在一个实施例中，如图2所示，系统利用在有线电视、卫星或互联网连接的机顶盒的处理器装置内或在智能电视的处理器装置内操作的本发明的客户端应用程序203来识别来自电视节目的音频203b和视频203a信息。在一个示例性实施例中，所述客户端应用过程通常在所述信息播放到所述电视设备的所述扬声器和/或显示器之前对音频211和/或视频209的信息进行操作。所述音频和/或视频信息通过本发明进行处理，以利用ACR客户端208产生相应音频和/或视频信号的帧表示的高度压缩连续流。所述帧表示经由网络(通常为互联网)发送203a和/或203b到本发明的服务器装置202以供识别。所述帧表示对于视频帧是选择平均像素值的形式并且对于音频信息是经变换的功率谱系数形式。

为了识别音频和/或视频信息的未知媒体片段，所述信息必须首先由图1中的本发明的识别服务器装置104和105进行登记。所述登记过程通常与由客户端设备107实施以将所述系数表示发送到所述服务器108的过程相同或类似。所述登记数据由服务器102接收，在105处由服务器处理并随后存储，以供识别过程108稍后利用。

再次参考图2，当在ACR处理器205处成功识别未知媒体片段后，本发明的系统可以利用匹配处理207搜索服务器的过程，以在ITV内容数据库206中查找可以由媒体片段的存在通知或触发的客户端服务。所述客户端事件可以包括将触发信号202a发送到本发明的客户应用程序210，该客户端应用程序210显示上下文相关信息(诸如关于节目情节或节目中的演员的信息)或可从智能电视或机顶盒获得的各种交互式电视服务中的任一者。类似地，所述触发器可以导致将当前显示的电视广告替代成与观众更相关的不同的广告。所述广告替代过程对于本领域的技术人员来说也被称为定向广告。所述触发器的另一种用途是通过207b更新收视率数据库，以维持用于收视率测量目的的观看普查。相比上述其他交互式电视用途而言，所述普查的时间敏感性通常较小。

音频和视频匹配数据流是通过单独和不同的过程创建的，然而每个过程导致具有类似特征的数据结构，然后可以将所述数据结构应用于仍然由本发明的等效服务器装置服务的单独数据库，以将数据登记到参考数据库以及使数据由本发明的媒体匹配装置用于识别来自客户端设备的未知媒体片段。视频和音频系数虽然在维度和熵特征上有些相似，但仍保持在单独的数据库中，并且对于本领域技术人员而言显而易见的是，音频数据不能用于搜索视频数据库，反之亦然。然而，处理装置和数据库结构是相似的并且对于两种类型的媒体而言是大部分相同的，因此为采用视频和音频匹配的系统提供了有利的规模经济性。

视频系数是从由如专利US 8,595,781的发明教导的视频信息产生的。本发明的可搜索音频表示必须由与视频信息类型极为不同的媒体形成。然而，该过程的最终结果是具有与由所提及专利创建的视频帧信息相似特征的系数帧的连续流。

为了从音频信息创建可搜索的音频系数帧，本发明的一个基本方面是，典型音频信号(诸如电视音频)的功率谱密度在20至长达100毫秒(ms)的时间段内基本上保持固定，其在对于基于美国的标准为约33毫秒并且对于非美国的电视为40毫秒的单个电视帧的范围内。因此，音频信号可以被分割成多个帧，然后被转换成功率频谱表示，并且被用如Neumeier所教导的、类似于视频帧的过程存储在可搜索的多维参考数据库中，从所述可搜索的多维参考数据库中采样像素子集并存储在匹配数据库中。提供必要的音频数据变换的本发明的一个实施例采用线性预测编码(LPC)作为主要步骤来将音频信号转换成所述音频系数表示，然后将所述音频系数表示发送到本发明的服务器。使用LPC或等效变换允许将音频信号灵活且有效地转换成高度压缩的形式，该高度压缩的形式可以进一步被操纵以增强整个自动内容识别系统的搜索和选择效率。

相比之下，用于音频匹配的现有技术可以使用例如改进的离散余弦变换(MDCT)、梅尔频率倒谱系数(MFCC)处理或离散傅立叶变换等以将例如音频信号从时间表示转换为频率表示。一旦信号被转换，现有技术可以发现高于特定幅值的频率事件(有时称为界标)，然后测量事件或界标之间的时间间隔以形成用于存储参考媒体片段的所谓指纹。然后客户端设备使用相同的过程来产生要提交的指纹以识别未知的媒体片段。

为了匹配音频信息，本发明不使用现有技术的指纹装置，而是从固定音频帧创建连续的系数流，以用于构建参考数据库，然后用于匹配未知媒体片段，用客户端设备将类似的过程应用于未知音频片段，并且将所述系数提供给利用所述参考数据库的匹配服务器装置。应当理解，本发明的系数处理可以通过如图20所示的各种不同但相关的数学变换来实现，这些数学变换与现有技术中使用的那些类似。然而，在形成通过识别地标或其他独特构造构建的指纹的过程中通过现有技术进行的许多附加步骤不是以任何方式由本发明利用的。因此，本发明能够操作现有技术无法操作的连续媒体流。此外，本发明可大量地扩展以高精度地支持数百万个客户端设备，并且在客户端设备中具有低处理开销的进一步优点。

返回到本发明的图2，其示出了客户端到服务器的基本功能和通信路径，客户端设备203含有能够执行计算机程序的处理器装置，并且客户端设备向所述处理器装置提供对所述客户端的视频209和音频211缓冲区的访问。ACR客户端208应用程序周期性地对来自所述视频和音频缓冲区的数据进行采样，并且处理视频203a和音频203b提示，其中提示由图17的1706的元件组成。在此实施例中，提示的元件由16个系数和由本地时间(也称为实际时间)组成的时间码组成。所述提示通过网络发送到本发明的服务器装置202。自动内容识别(ACR)处理器205接收所述提示并执行匹配过程，在所述匹配过程中通过搜索参考媒体匹配数据库204来识别所接收的提示。所述处理器205可以通过各种手段提供有用的匹配结果，例如通过使用Neumeier的Path Pursuit或通过未知提示组与一组可疑者提示的相关。相关过程图示于图22a中。将来自205的肯定识别传送到匹配处理装置207，匹配处理装置207可以执行各种功能，例如向客户端装置提供上下文相关的内容，如由Zeev Neumeier的专利US8,769,584 B2所教导的，该专利的全部内容以引用的方式并入本文。匹配处理207还可以提供统计信息以匹配用于收视率测量目的的结果服务207b或其他收视率测量服务。

图3示出了本发明如何具有提供对例如电视节目的连续识别的能力。通过具有对电视接收器上显示的当前节目的及时了解的系统，可以实现许多交互式电视应用程序。此类应用包括定向广告以及上下文触发信息显示。虽然不一定是时间敏感的，但本发明的系统也能实现准确的收视率测量。图1示出了由登记系统处理以便填充参考数据库的媒体信息，针对所述参考数据库测试未知媒体信息以用于识别。显而易见的问题是如何足够快速地将数据(如电视节目)传输到中央数据库中，从而可以毫无延迟地匹配从客户端设备进入系统的相同电视节目。答案为以下事实：中央登记系统从电视分发基干接收媒体内容，该媒体内容通常在相同节目到达客户端设备的电视接收器前四至十秒钟内到达本发明的中央装置。因此，在需要所述数据的任何查询之前，系统有足够的时间来处理传入的参考媒体。

在本发明的一个优选实施例中，图4描绘了将客户端电视接收器音频401转换成适合于传输到音频匹配系统410的数据的步骤。所述变换过程开始于音频预处理功能402，其中从电视接收设备的音频缓冲器接收的数字音频通过将所述立体声信息进行求和而从立体声转换为单声道，并且可以通过下采样步骤进一步处理，其中在一个实施例中，所述数字音频可以以更高的采样率(例如48kHz)提供，但是将以例如16kHz由本发明处理。其他预处理步骤可以包括体积归一化和频带滤波。处理403应用预加强处理，其中音频信号穿过具有图5所示的滤波器特性的高通滤波器。原始音频图6a被描绘在代表性电视音频片段的代表性频谱图中，并且后均衡音频被描绘在图6b中，其中根据图5的滤波器参数增强音频。403的预加强处理增强了某些系数的动态范围，从而改进了系数的量化处理408。然后将数据划分成20ms并与前一帧50％重叠的帧，如图7所示。然后用如图8所示的三角形窗函数805对帧音频进行整形，以得到806所示的频谱分布。该过程的下一步骤是对成帧音频405进行自相关，然后应用LPC过程406将音频系数通过407的ISF函数进一步变换，然后将其在步骤408中通过类似于图10的1001的加权函数进行归一化，步骤408包括量化步骤。然后将数据成帧为提示组409，并将其发送到音频匹配系统410，以用于登记参考音频信息或用于未知媒体片段的识别过程。

在本发明的优选实施例中，使用线性预测编码(LPC)进行系数产生的主要步骤，但替代实施例包括：梅尔频率倒谱系数(MFCC)、改进的离散余弦变换(MDCT)和/或小波等。图20表示用于将音频变换成本发明可用的系数的各种替代方案的框图矩阵。所述矩阵将适用于音频变换的可能算法组合的四个家族2002、2003、2004、2005映射成系数帧输出以供本发明进行有用开发。过程链2002包括来自应用于音频信号2001的自相关2002a的共用基础的四种变型。自相关可以直接提供2017四个系数输出之一。2002家族的第二个过程将线性预测编码(LPC)2006应用于2002a的输出，以在2009处输出LPC系数。或者，所述LPC 2006值可以通过LSP 2007或ISF 2008进一步变换，以进一步变换系数。在所有四种情况下，利用2014或2015处的两个可能量化步骤之一进一步处理系数输出。第二个处理家族是梅尔频率倒谱(MFC)系数过程，该过程开始于获取音频的Log值2003，然后在2014或2015处的最终量化步骤之前，利用MFC过程2010进一步处理。小波2004变换可以用于合适的系数生成步骤2011，并且最终改进的离散余弦变换2005过程可以通过直接系数生成2012或通过产生散列字符串输出的位推导(2013)产生候选提示组(系数帧)。在除了输出2013外的所有输出中，系数都通过线性过程2014或通过矢量量化2015量化，然后在2016处从系统输出。在所有这些过程中，音频被转换成高熵系数组，所述高熵系数组表示在音频帧的持续时间内具有接近固定的功率频谱的音频帧，因此产生了可以适当地经散列编索引并应用于Path Pursuit的搜索和评分手段的系数，从而提供了准确且连续识别音频片段的可能性。

图13是LPC处理的系数作为由X 1302表示的Z平面处理的极点的曲线图。将LPC系数变换为ISF系数导致关于单位圆1301的零点。图14是随时间推移的ISF系数的曲线图，示出了它们的高熵，因此适用于路径追踪样的匹配过程。应当注意，在本发明的另一实施例中，本发明的音频转换过程可以仅利用LPC输出系数而不采用转换为LSP或等效ISF系数的步骤来起作用，因为此LSP/ISF步骤在现有技术中主要开发用于提高声码器应用中的音频质量。已经发现，音频质量的某些改进可能不能显著提高音频匹配系统的准确性。

图15示出了通过添加节目时间码1508以及也被称为元数据1509的某些节目识别信息来从系数数据1507形成音频提示数据组。在图16中，一旦形成，音频提示1601就被供应至媒体搜索数据库，在媒体搜索数据库中音频提示1601由音频散列函数1602处理，从而创建散列键1603以存储在搜索数据库1604中，在搜索数据库1604中散列键1603导致类似的音频数据提示被在附近分组以最小化搜索距离，从而提高整体系统效率。

图17中示出了本发明的客户端，其中在客户端设备1701中生成类似于登记功能的过程。来自所述客户端设备的音频被处理成具有本地时间1707(也被称为“实际时间”)添加的音频提示1705，所述本地时间1707被添加到所述提示中以提供各提示之间的相对时间差。图18示出了通过如同用于在参考媒体的登记过程期间寻址所述数据库的相同散列函数来寻址参考媒体数据库的未知数据提示。从数据库中重新获得一个或多个候选者1802以供应给如上所述的匹配过程1803。使用线性代数函数评估候选者，以通过在高维空间中评估欧几里德距离来选择候选数据，例如利用等球中的可能点位置(PPLEB)，PPLEB是也被称为可疑者选择的过程。在可能的候选者(可疑者)选择过程中通过时间折扣分组(TDB)在一段已知时段内进行另一步骤。图19示出了候选者(可疑者)，其中每个候选者由在收集所述可疑者的过程之后分配的桶1902表示。所述桶是漏的，这意味着令牌具有预设的时间值和时限，这相当于随时间推移漏出的漏桶。当未知数据提示到达并且从参考数据库收集到更多的可疑者时，识别未知提示的桶中的令牌数将在三到十秒的时间段之后高于阈值1904，从而识别未知数据。参考发明US 8,595,781的附件可以了解此整个过程。一种对候选匹配进行评分的替代手段可以通过应用所述未知提示1801与一个或多个候选提示1802的相关来实现。所述相关手段不与本文所使用的自相关混淆，是本领域中的技术人员所熟知的，用于查找参考数据项与一组测试数据项中的一个数据项的最接近的匹配。因此，利用数学相关程序的所述评分手段代替时间折扣分组产生了通过识别系统实现的最佳匹配。该过程还在图22a中示出，其中从开始2202a到在范围内2206a的各个步骤类似于导致图22的上述时间折扣分组的过程。在步骤2207a中，应用相关过程来代替创建令牌箱。步骤2209a从相关过程2207a中选择最接近的拟合。获胜值进一步由2211a进行评估，并且如果为正，则输出候选令牌标识作为结果2212a。

上述过程是本发明的许多实施例之一。以下描述是用于从音频信号产生系数的本发明的手段，并且其对于大多数实施例而言是通用的。

本发明揭示，线性预测编码(LPC)系数及其变体可以用于代替特征向量或指纹，以用于通常在分析未知音频信号的几秒钟内可靠地检测音频片段。基于LPC的理论被很好地理解并且在信号通信系统中实践作为用于转码基于分组的数字通信系统的音频信号的基本过程。该等通用过程的子集用于本发明。提供了所选过程的基本原理以及对产生有益于自动内容识别(ACR)的系数的许多步骤的详细描述。

再次参考图4，其示出了从电视音频401源处理音频的过程的简化框图；应当理解的是，音频信号处理步骤402至409到将经处理的音频施加到音频匹配系统410与向图3的参考数据库307添加已知音频片段提示的登记过程相同，因为其用于处理来自例如客户端智能电视的音频，并且经由网络如互联网将所述音频片段提示提交到所述音频匹配系统410，以确定所述提示值的未知片段的身份。

在将所述音频表示施加到音频匹配系统410的许多步骤的更多细节中，将某些必要的预处理402步骤应用于音频，该等预处理402步骤可以包括立体声到单声道转换，音频的下采样或上采样，之后进行预加强(白化)403，然后是成帧、整形和重叠404，在404中音频被分割成20至100毫秒的帧，然后将图8的三角形窗函数805施加于各帧的信号，例如图7的701，以缓解帧边界内信号的突然开始和停止。最终步骤404是在该实施例中将帧重叠50％。重叠在当前实例中通常实现为50％,如图7的701至704所示，该重叠是通过以下方式实现的：在前一个帧的音频的中途点处开始下一个音频帧，使得该下一个帧的前一半是与前一个帧的后一半相同的音频，依此类推。该过程适应在已知音频片段构成的参考数据库与由图3的匹配系统服务器装置306接收的未知音频片段之间的对齐差。经预处理的数字音频在制备中通过自相关过程405，以转换为线性预测编码(LPC)过程406。当音频穿过区块406时，通过Z平面变换1/A(z)评估该音频。将未知音频片段与参考音频片段数据库匹配的此过程的有用性的关键在于以下事实：LPC将时域音频转换成频域中的功率谱表示，就像傅里叶变换，但是为拉普拉斯模式。因此，所得到的变换音频信息相对于其功率谱密度是准固定的，在至少几十毫秒内保持相对不变。传递函数1/A(z)是全带宽音频传递函数的全极表示。A(z)是z域中多项式的一组系数，其中z表示e^∧(-iωt)。在一个优选实施例中，对于宽带音频编码而言，采用第16阶LPC(LPC 16)多项式。可以使用直至至少LPC 48的高阶多项式。当应用于LPC处理之前的音频时，通过应用音频重加强403，较高阶的多项式是进一步有利的。然而，系数之间的相对高熵分布的进一步改进是应用LP加权函数，例如施加至图10的代表性LP频谱1002的1001。在编码器的一个实施例中，持续时间为20毫秒的音频片段被分析并转换为16个系数的组，该16个系数的组则表示例如具有8kHz带宽的音频信号的通道信息。在编码器的另一实施例中，100毫秒的音频片段和16kHz的频带宽度被转换成48个系数的组。图5示出了在通过LPC变换处理之前向音频提供预加强的实例性预加强滤波器。图6(A)示出了预加强之前的音频的频谱特性，并且图6(B)示出了预加强步骤之后的音频频谱。图5的特定滤波器提供从1kHz到音频频带顶部(在本实施例中其为16kHz)的+15dB的频率升高。

由本发明的LPC过程产生的连续系数帧可以代替现有技术中使用的指纹，来用于其中Path Pursuit的处理提供匹配机制的音频匹配装置。当LPC过程用于音频声码器(诸如用于音频通信)时，所述LPC的激发编码子过程提供每20毫秒帧两个值，该两个值是波形的码本表示和信号的幅值。迭代算法用于将所述激发转换为码本，并且计算量较大(较为昂贵)。码本值的相对较小的变化导致感知语音质量的大幅改善，因此该过程对于音频通信系统是有价值的。然而，对于音频匹配系统而言，码本值的小差异不会导致音频匹配应用所需的系数之间的大欧几里德距离。由于码本的较大处理要求和亚最佳距离特性，因此所述激发参数不会使本发明受益，因此不被使用。

在一个实施例中，LPC系数不直接从1/A(z)模型的输出使用。用于典型音频通信的音频编解码器已经导致了计算上有效的处理手段。在一个广泛使用的实施例中，使用被称为Levinson-Durbin的向前和向后预测的迭代算法来计算LPC系数。该方法的吸引人的属性是反射系数容易作为副产物导出。这些系数用于产生用于合成的网格滤波器和预测滤波器。此滤波器拓扑结构还提供了稳健的性能，对系数精度的灵敏度低，这也是用于音频匹配系统的有用属性。

因此，本发明不需要用于LPC的语音通信应用的所有步骤，因此可以通过所述步骤的子集产生有用的系数。在一个实施例中，减少步骤的实例如下：

以16kHz采样率(SR)捕获320个20毫秒的音频样本

或者，以32kHz SR捕获320个10毫秒的音频样本

或者，以48kHz SR捕获2400个50毫秒的音频样本

不需要高通滤波器，滤波器通常设置为50Hz，因为此过程在传输之前已经在电视音频上完成

执行4kHz HPF的预加强，从而在16kHz下提升+25dB

执行音频帧的50％重叠

音频的自相关输出了16、32或48个系数

Levenson-Durbin计算16或32或48个LPC系数

来自例如在智能电视中存在的典型源的音频输入是立体声，并且以48kHz的采样率传输。对于小于接收速率的48kHz处理采样率而言，通过低通滤波执行音频降频转换，以消除高于奈奎斯特频率的频率分量，奈奎斯特频率是所关注频率的两倍，随后进行抽取过程以将所述音频降频转换至所需的采样率。例如，从48kHz转换为16kHz需要低通滤波器来消除高于8kHz的频率分量。然后将滤波器输出抽取三倍，以转换为16kHz的较低采样率。同样显而易见的是，对于自动内容识别而言，立体声输入对于良好的音频检测不是必要的。因此，通过组合左声道和右声道将立体声输入转换为单声道，或者替代地，左声道或右声道可以用作唯一的代表性单声道。

为了改善功率谱分布，然后将白化滤波器添加到本发明的数据路径中。所述滤波器在最高频率下将高于4kHz的频率提升高达20dB。音频中的每20毫秒(16kHz处的320个样品)被封装为一个帧。

将简单的三角窗函数应用于每个音频帧中以准备用于LPC处理的音频帧。需要帧整形以减少由于每帧中的信号突然开始和停止而在边缘处的杂散信号生成。通常，采用汉明样函数来最大化音频保真度。然而，由于编码的保真度对于媒体识别过程而言不是重要的，所以本发明所需要的仅是简单的三角函数。

Levenson-Durbin使用音频样本的自相关来计算LPC系数，以供输入LPC函数。对于来自17个自相关滞后的每帧总共17个值0-16而言，除了前导“T”之外，Levenson-Durbin还用于计算16个系数。所述编码的细节是本领域技术人员所熟知的。由于如上所述DC分量不存在于音频中，所以自相关函数等效于信号的协方差。协方差矩阵的求逆导致信号通道的全极表示。可以使用任何矩阵求逆方法，诸如高斯消除或柯列斯基分解。矩阵按照定义是实值并且关于对角线对称，也称为Toeplitz矩阵。Levenson-Durbin递归地使用迭代的向前/向后估计来计算根。这种方法几乎普遍用于LPC分析。所述方法不仅数值上稳定且计算效率高，而且其还将反射系数作为副产品提供，几乎没有额外计算。使用反射系数的声道的网格滤波器表示尤其适用于定点实现，在整个通用声码器中使用并且可以被本发明有利地使用。在本发明的一个实施例中，在图9中示出了从20毫秒的音频片段获取的自相关系数。图11中示出了根据自相关值计算的LPC系数。

在另一个实施例中，可以发现，通过按照LPC过程，以及将所述LPC系数转换为线谱对(LSP)或等效导抗谱频率(ISF)的形式的进一步处理是有益的，如图12所示。IFS是通过根据LPC系数首先产生与LPC滤波器相同阶数的对称和反对称函数f1'和f2'而从LPC系数导出的：

f₁'(z)＝A(z)+z^-16A(Z¹)并且f₂'(z)-A(z)—z^-16A(Z¹)

这两个方程的根在单位圆圈上，并且是ISF。像LPC系数一样，f1和f2的根是共轭对称的，并且只需要对单位圆圈的上半部分上的那些根进行评估。利用这种对称性，创建了两个新的函数f1和f2。F1仅由f1'的前8个系数组成。F2由使用差分方程进行滤波以去除1和-1处的根的f2’的前7个系数组成。f1(z)＝0和f2(z)＝0的根是ISF。这些函数的根可以使用经典方法获得，诸如Lonson-Raphson或者LaGuerre多项式。然而，由于这些多项式的特殊特性，可以使用利用Chebyshev多项式的计算有效方法。

使用上述方法时，该实例的LPC系数的f1和f2示出于图14中。f1和f2的过零是ISF。x轴对应于θ，单位圆圈上的角度为0＝0度，100＝180度。F1和f2仅使用实分量进行评估。例如，在x＝10时，角度为18度，并且f1和f2的输入为cos(18*100/(2*π))＝0.95106。过零点是ISF位置，其中ISF＝cos(θ)。第一个和最后一个过零点是f1的根，并且根在f1和f2之间交替。写入一个有效的过零点检测算法，其利用这些特性来最小化所需的处理。图13示出了通过Levinson-Durbin算法产生的作为X的LPC系数，以及作为O的所得ISF。

图14中存在所述ISF系数随时间推移变化的曲线图，图14中示出了系数的期望熵特性，其大体上独立于所述系数自其间接推导的底层音频信号。应该理解，LPC系数将以相似的形状出现在曲线图中。

有趣的是，应当注意，反射系数和ISF是通过一系列线性变换从自相关系数导出的。尽管Levinson-Durbin算法中存在除法，并且除法不是线性过程，但所述除法仅用于缩放，因此可以被解释为线性的乘法。作为证据，如果根据双精度浮点实现省略，则结果将相同。观察是重要的，因为它表明自相关、LPC系数、反射系数和ISF的统计特性应该非常相似。在本发明的另一个实施例中，本发明的系统可以仅根据自相关数据而不是LPC并且不是ISF过程来执行对音频内容创建系数的自动内容识别，从而进一步提高整个ACR系统的效率。

从上述详细描述应当理解，本发明提供了一种将音频信息转换成可用于自动内容识别系统的数据登记和识别的音频系数的半固定帧的手段。所述过程提供了连续地匹配来自大量音频源(诸如智能电视)的音频信息的能力。通过适当的中央服务器扩展，所述群体可能包括数千万台设备。此外，所述音频ACR系统可以与诸如由Neumeier和Liberty在U.S.8,595,781中教导的视频匹配系统有效地组合，在所述专利中音频和视频匹配过程都可以共享共用的中央处理架构，诸如Neumeier的路径追踪装置。本发明与现有技术的不同之处在于不采用指纹识别装置来识别音频，并且因具有较少的假阳性结果而更准确，并且同时具有更大的可扩展性，使得其可以用于媒体的连续识别并且与此同时要求最小化每个客户端设备处的处理开销。

图23示出了表示与连续音频匹配相关的实例操作的系统和/或操作流程2300。在图23和包括操作流程的各个实例的附图中，可以关于图1至图22的上述实例和/或关于其他实例和情境来讨论和说明。然而，应当理解，电路、装置和/或操作流程可以在许多其他环境和情境中和/或在图1至图22的修改版本中执行。此外，尽管各种操作流程以所示的顺序呈现，但是应当理解，由操作流程执行的各种程序可以以与所示出的那些顺序不同的顺序执行，或者可以同时执行。本文所用的“操作流程”可以包括用于执行流程的电路。处理设备，诸如微处理器，可以通过执行一个或多个指令或其他代码样的附属物，而变成“配置成用于特定操作的电路”。由处理设备执行的操作流程将使得处理设备变成“被配置为通过执行一个或多个指令或其他附属物来执行各个操作的电路”。

在开始操作之后，操作流程2300移动到操作2310。操作2310描绘了维持参考匹配数据库，该参考匹配数据库包括与至少一个摄取内容的至少一个音频帧对应的至少一个系数以及与该至少一个摄取内容相对应的至少一个内容标识。例如，如图1至图22所示和/或描述的，内容被供应给媒体摄取操作，该媒体摄取操作产生音频和/或视频提示数据并提供相关联的元数据(例如，所接收的内容的标识，诸如标题、插曲或其他标识符)。音频和/或视频提示数据与实际的相应标识一起实时(即当接收到内容时)存储在数据库中。使用特定的算法、函数和/或函数组将音频和/或视频数据变换成值。当客户端设备处理音频和/或视频数据时，客户端设备也使用该特定算法、函数和/或函数组。由于节目内容中的同一点在摄取操作和客户端设备处被处理，所以由于摄取操作和客户端设备两者使用相同的算法、函数和/或函数组，所得到的音频和/或系数将相同或几乎相同。并非存储节目内容的整体或仅存储节目内容的音频部分，而是将音频内容的帧转换成小得多的系数并与标识符一起存储。系数应不能产生音频，但是应包含与由客户端设备发送的相应系数匹配的足够数据，以便从参考匹配数据库中检索相关联的内容标识。

然后，操作2320示出了从至少一个客户端设备接收至少一个传输，该至少一个客户端设备包括与可由该至少一个客户端设备呈现的至少一个音频帧相对应的至少一个客户端系数。例如，如图1至22所示和/或描述的，由于音频和/或视频能够由客户端设备呈现(即，通过客户端设备的扬声器或其他音频输出端进行播放)，因此音频和/或视频数据在客户端设备中使用与摄取操作所使用的相同的算法、函数和/或函数组(不一定以与本文别处描述的速率相同的速率)进行变换。所得系数通常通过互联网传输到匹配服务器系统，该匹配服务器系统可以访问参考匹配数据库。

然后，操作2330描绘了至少部分地基于使用至少一个客户端系数作为搜索项搜索参考匹配数据库来识别与该至少一个客户端设备相关联的至少一个内容。例如，如图1至图22所示和/或描述的，匹配服务器系统可以使用从客户端系统接收到的系数来从参考匹配数据库中检索可疑者。多个连续接收的系数用于检索多个可疑者，这些可疑者被放置在与可能的节目匹配相关的箱中。通过连续数据库检索来使用时间折扣分组，以确定和/或识别正由客户端设备呈现的最可能的节目。然后，操作流程进行到结束操作。

图24示出了图23的实例性操作流程2300的替代实施例。图24示出了其中操作流程2310可以包括至少一个附加操作的一个实例性实施例。附加操作可以包括操作2410、2420、2430、2440、2450和/或2460。

操作2410示出了获得至少一个内容的至少一个广播的至少一个实时馈送。例如，如图1至图22中所示和/或描述的，匹配服务器系统可以通过网络的全国广播设施的卫星下行链路来检索节目。匹配服务器系统可以一次接收多个通道的内容。通过直接从网络全国广播设施下载，匹配服务器系统由于由本地联播台、有线运营商、网络头端等进行附加下行链路和重传操作而引入的客户端延迟，而在客户端设备之前接收内容。

然后，操作2420示出了编码至少一个实时馈送的至少一个音频样本。例如，如图1至图22所示和/或描述的，一个或多个声道的音频数据被转换成系数流以供存储在参考媒体数据库中。连续的音频波形被采样成可以以例如一秒50次发生的多个帧或20ms帧。选择采样率以维持样本内音频信息的有效固定的功率谱密度。在一些实施例中，执行相邻音频帧的重叠以弥补由匹配服务器系统和客户端设备进行的音频匹配的开始时间之间的任何失配。然后使用函数来转换帧数据，所述函数能重复产生与在客户端设备处转换音频数据时将存在的系数值相同的系数值。

然后，操作2430示出了存储与至少一个内容标识相关联的至少一个经编码音频样本。例如，如图1至图22所示和/或描述的，系数可以与通过摄取布置(例如，卫星馈送)获得的节目名称的标识一起被存储。数据以便于用路径追踪装置检索数据的方式存储，以引入漏桶以及对连续数据检索操作的结果的时间折扣分组。

操作2420可以包括至少一个附加操作。附加操作可以包括操作2440。操作2440示出了将至少一个音频样本变换为至少一个系数，该变换至少部分地基于能够重复地提供与和特定频率不相关的摄取音频内容相关联的系数的至少一个归一化。例如，如图1至图22所示和/或描述的，变换过程可以包括被设计为沿着值的范围“扩展”系数值，以便最大化整个范围的用途，使数据表现为高熵的算法和/或函数。在没有这种扩展的情况下，系数将倾向于沿着系数的可能值范围在单个点附近聚集。例如，考虑包括其语音特征包括对应于特定频率的音调的说话者的对话。在没有设计成使得数据表现为高熵的上述变换的情况下，与说话者相对应的系数将倾向于在对应于该频率的一个值附近聚集。通过应用本文公开的功能，系数代替地围绕其可能值范围进行扩展，从而使得它们表现为高熵并且消除了所得系数与特定音频频率的任何关系。然而，功能是可重复的，因为在相同音频内容上操作的两个不同系统(例如，匹配服务器系统和客户端设备)将输出相同或几乎相同的系数值(应注意，它们不需要完全相同，因为确定多个可疑者之间的匹配可能性的后续时间折扣分组允许对应于内容的相同部分的系数的轻微变化)。

操作2450示出了维持参考匹配数据库，包括使用位置敏感的散列索引至少存储与至少一个音频帧相对应的至少一个系数。在一些实施例中，如图1至图22所示和/或描述的，为了快速检索数据，一些最高有效位可以指示应该在其上存储系数和节目标识的特定数据库服务器。

操作2460示出了维持至少两个参考匹配数据库，包括至少一个音频参考匹配数据库和至少一个视频参考匹配数据库，该系统能够响应于接收到对应于由至少一个客户端设备呈现的至少一个音频帧的至少一个客户端系数或对应于由至少一个客户端设备呈现的至少一个视频帧的至少一个客户端系数，而利用该至少一个音频参考匹配数据库或该至少一个视频参考匹配数据库来独立地识别与该至少一个客户端设备相关联的该至少一个内容。在一些实施例中，如图1至图22所示和/或描述的，除了音频摄取之外，系统还可以接收视频摄取，从而便于使用音频系数流和/或视频系数流中的一者或两者来识别节目，这可以用于通过确认使用音频系数和使用视频系数进行的识别，或者提供如果信号被中断则根据需要在音频和视频匹配之间进行切换的能力来提供更稳健的匹配。

图25示出了图23的实例性操作流程2300的替代实施例。图25示出了其中操作流程2320可以包括至少一个附加操作的一个实例性实施例。附加操作可以包括操作2510、2520、2530和/或2540。

操作2510示出了从至少一个客户端设备接收至少一个传输，该至少一个客户端设备包括至少一个电视机、至少一个智能电视机、至少一个媒体播放器、至少一个机顶盒、至少一个游戏控制台、至少一个A/V接收器、至少一个连接互联网的设备、至少一个计算设备或至少一个流媒体设备中的一者或多者。例如，如图1至图22所示和/或描述的，桌面小程序可以在客户端设备上操作，以将可在客户端设备上呈现的音频流转换成系数流以供发送到匹配服务器系统。许多客户端设备呈现内容并具有同时执行数据处理任务的能力。在某些情况下，客户端动作可能在智能电视上发生；在不同的实施例中，客户端动作发生在机顶盒(例如，电缆或卫星接收器)上，该机顶盒接收内容并将其提供给电视以进行回放。

操作2520示出了从至少一个客户端设备接收至少一个传输流，所述至少一个传输流包括与可由至少一个客户端设备呈现的至少一个音频帧或至少一个视频帧中的一个或多个相关联的客户端系数的至少一个序列，以识别可由该至少一个客户端设备呈现的至少一个内容，该至少一个序列包括至少一些音频客户端系数。例如，如图1至图22所示和/或描述的，本发明的客户端设备将与音频内容的样本对应的系数发送到匹配服务器系统，系数的生成和发送以特定间隔(其可以是周期性的或非周期性的并且可以在流中途改变)发生。客户端设备可以另外地发送使用来自由客户端设备接收的内容的像素数据产生的系数，但是本文公开的本发明至少有时会发送音频系数，而不管视频系数是否被发送。

操作2530示出了从至少一个客户端设备接收至少一个传输，该至少一个客户端设备包括与可由该至少一个客户端设备呈现的至少一个音频帧对应的至少一个客户端系数，该至少一个客户端系数对应于可由该至少一个客户端设备呈现的至少一个音频帧，该至少一个客户端设备是至少部分地通过与在维持所述参考匹配数据库的过程中所使用的至少一个变换相同的至少一个变换来确定的。例如，如图1至图22所示和/或描述的，客户端设备使用与匹配服务器系统所利用的相同的变换函数(尽管不一定与本文别处所公开的速率相同)来获得对应于即将在客户端设备的扬声器或音频输出端上播放的音频内容的系数。两个系统使用相同变换意味着在节目内容的同一点处，由客户端设备和匹配服务器系统产生的所得系数值将基本上相同(经受重叠功能，该重叠功能在成帧开始于两个系统上的不同时间偏移处的情况下对齐音频帧)。

操作2540示出了从至少一个客户端设备接收至少一个传输，该至少一个客户端设备包括与可由该至少一个客户端设备呈现的至少一个音频帧对应的至少一个客户端系数，该至少一个客户端系数对应于可由该至少一个客户端设备呈现的至少一个音频帧，该至少一个客户端设备是至少部分地通过将至少一个音频流采样成一个或多个帧并重叠该一个或多个帧，然后对该重叠的一个或多个帧进行归一化来确定的。例如，如图1至图22所示和/或描述的，在成帧在客户端设备上开始于与在匹配服务器系统上的不同时间偏移处的情况下，帧重叠对齐所述音频帧，这可能发生在当例如节目正在广播的中途客户端设备被调谐到新的通道时。

图26示出了图23的实例性操作流程2300的替代实施例。图26示出了其中操作流程2330可以包括至少一个附加操作的实例性实施例。附加操作可以包括操作2610、2620、2630、2640、2650和/或2660。

操作2610示出了利用从至少一个客户端设备接收的一个或多个视频系数，来从与视频系数相关联的参考匹配数据库中获得一个或多个可疑者。例如，如图1至图22所示和/或描述的，路径追踪算法获得对应于由匹配服务器系统接收的连续视频系数的多个可疑者。视频匹配可以起作用，前提条件是客户端设备正在生成不改变的内容显示；屏幕上菜单或电视缩放模式的激活或者由本端广播设备添加的屏幕上图形(如水印)可能导致视频匹配失败。

然后，操作2620示出了从至少一个客户端设备检测一个或多个媒体内容的改变。例如，如图1至图22所示和/或描述的，匹配服务器系统可以检测到特定箱的概率，以识别正确节目低于特定阈值，从而将特定箱声明为可能的内容识别箱。当接收到的视频系数(所述视频系数在屏幕上的频道指南较为活跃时发送)不足以匹配数据库中的系数时，可能会发生这种情况。或者，客户端设备的桌面小程序可以检测屏幕上的频道指南的激活，并开始音频系数的传输或者发信号向匹配服务器系统通知该激活。

然后，操作2630示出了切换内容识别，以利用从至少一个客户端设备接收的一个或多个音频系数来从与音频系数相关联的参考匹配数据库中获得另外的可疑者。例如，如图1至图22所示和/或描述的，在对视频匹配的干涉(例如与屏幕上的频道指南相关的检测和/或发信号通知)发生时，匹配服务器系统可以切换成使用音频系数的匹配，这是因为音频信号通常不被屏幕上的频道指南、或者添加的水印，或其他对屏幕上视频的干涉(即媒体内容改变)所中断。

操作2620可以包括至少一个附加操作。附加操作可以包括操作2640和/或操作2650。

操作2640示出了接收与至少一个客户端设备相关联的对屏幕上图形、衰减至黑色或视频缩放模式中的至少一者的至少一个指示。例如，如图1至图22所示和/或描述的，如上所述，匹配服务器系统可以检测将妨碍使用视频系数的匹配的特定媒体内容改变，例如屏幕上的图形、衰减至黑色或视频缩放模式。当内容匹配不能匹配具有足够的确信性、可能性和/或概率的节目时，可以进行这种检测。或者，客户端设备可以向匹配服务器系统发信号通知正在发生媒体内容变更，诸如缩放模式。此类信号可能导致匹配服务器系统开始使用音频系数。

然后，操作2650示出了发送信号通知至少部分地基于该至少一个指示来切换到音频内容识别。在一些实施例中，如图1至图22所示和/或描述的，在视频匹配不起作用的情况下，系统可以切换成使用音频系数进行识别。在一些情况下，与视频匹配相关联地重新创建漏桶，并且时间折扣分组在切换成音频匹配后重新开始。在其他情况下，内容匹配操作将来自视频匹配的可疑者保留在现有箱中，并开始将来自音频匹配的可疑者添加到该箱中，使得在紧接于切换成音频之后的时间间隔中，箱可以具有视频可疑者和音频可疑者两者，其中视频可疑者可以首先从桶中漏出，但视频和音频可疑者都将被用于声明身份。

操作2660示出了至少部分地基于使用对应于可由至少一个客户端设备呈现的至少一个音频帧的至少一个客户端系数对从参考匹配数据库检索到的一个或多个可疑者进行时间折扣分组，来确定与该至少一个客户端设备相关联的至少一个内容的至少一个标识。在一些实施例中，如图1至图22所示和/或描述的，在从客户端设备接收到音频系数后，将其用作参考媒体数据库的搜索查询。检索对应于音频系数的一个或多个可疑者，每个可疑者链接到特定的节目标识符。可疑者被放置在分配给特定节目的箱中。使用每个连续接收的音频系数和接收最有可能对应于正在观看的节目的大部分可疑者的箱来重复该过程。随着时间的推移，最旧的可疑者被移除(即“漏桶”)，并且当客户端上的频道改变时，可疑者开始响应于由频道变化产生的不同音频系数而进入不同的箱。

图27示出了图23的实例性操作流程2300的一个替代实施例。图26示出了一个示例性实施例，其中操作流程2310可以包括至少一个附加操作2710并且其中操作流程2330可以包括至少一个附加操作2720。

操作2710示出了存储与至少一个摄取内容的至少一个音频部分相关联的一个或多个经变换的功率谱系数，该至少一个音频部分与至少一个内容标识相关联。例如，如图1至图22所示和/或描述的，媒体摄取操作的音频系数作为在采样期间摄取的音频内容的帧开始，所述帧具有足够小的帧大小，以使得在整个采样期间对应于摄取的音频信号的功率谱密度保持有效恒定。使用本文所公开的操作将帧转换成数据，该数据随后存储在参考媒体数据库中并与所摄取的节目的标识相关联。

然后，操作2720示出了对从参考匹配数据库获得的一个或多个可疑者进行时间折扣分组，所述获得至少部分地基于与可由至少一个客户端设备呈现的至少一个音频内容相关联的一个或多个接收的经变换功率谱系数。例如，如图1至图22所示和/或描述的，发送操作的音频系数的客户端设备还作为音频内容的帧开始，这些帧对应于在客户端设备上正在播放的节目的某一音频部分，在采样期间获得的帧具有足够小的帧大小，以使得对应于在客户端设备上播放的节目的音频信号的功率谱密度在整个采样期间保持有效恒定。将摄取的已知内容的系数与播放未知内容的客户端设备的系数进行匹配将导致识别由该客户端设备正在播放的内容。

图28示出了图23的实例性操作流程2300的替代实施例。图26示出了其中操作流程2300可以包括至少一个附加操作的一个示例性实施例。附加操作可以包括操作2810、2820、2830、2840和/或2850。

操作2810示出了至少部分地基于连续维持参考匹配数据库来连续识别与至少一个客户端设备相关联的至少一个内容，连续接收来自该至少一个客户端设备的传输，以及使用与后续传输相关联的客户端系数作为搜索项来连续搜索参考匹配数据库。例如，如图1至图22所示和/或描述的，来自客户端设备的接收系数被用作针对参考媒体数据库的搜索查询，查询结果被用于时间折扣分组操作。从客户端设备接收后续系数，并将其用作后续数据库进行搜索，其结果用于时间折扣分组操作。如果从客户端设备接收到足够的音频系数，则进行节目识别。如果在客户端设备上的频道改变，则系数流继续，并且可以随后进行不同的节目识别。因此，音频匹配是连续的音频匹配，即使当频道改变时也继续。然后，操作流程进行到结束操作。

操作2820示出了维持第二参考匹配数据库，该第二参考匹配数据库包括与至少一个摄取内容的至少一个视频帧对应的至少一个系数以及与该至少一个摄取内容相对应的至少一个内容标识。例如，如图1至图22所示和/或描述的，除了在摄取操作期间产生音频系数流以供存储在参考匹配数据库中之外，还可以产生视频系数流以供存储在与视频对应的参考匹配数据库中。为了获得最佳性能，可将数据库放置在不同的服务器或服务器场上。

然后，操作2830示出了改变与至少一个客户端设备相关的内容识别方法，改变内容识别方法包括以下至少一者：从基于视频系数进行内容识别切换成基于音频系数进行内容识别或从基于音频系数进行内容识别切换成基于视频系数进行内容识别。例如，如图1至图22所示和/或描述的，内容识别操作可以根据需要在使用音频系数进行匹配和使用视频系数进行匹配之间切换；例如，如果发生音频或视频之一的中断，则匹配可以切换成另一种方法。然后，操作流程进行到结束操作。

操作2840示出了控制至少一个客户端设备，包括至少发信号通知至少一个客户端设备从传输对应于视频帧的客户端系数切换成传输对应于音频帧的客户端系数。例如，如图1至图22所示和/或描述的，如果内容识别操作不能基于来自客户端设备的视频系数流可靠地选择节目标识，则匹配服务器系统可以通过互联网向客户端设备发送命令，以开始发送音频系数代替或补充视频系数，使得可以使用音频系数尝试内容识别。相反也是可能的(即，匹配服务器系统可以指示客户端开始发送视频系数代替或补充音频系数)。然后，操作流程进行到结束操作。

操作2850示出了控制至少一个客户端设备，包括至少发信号通知至少一个客户端设备以特定速率传输对应于音频帧的客户端系数。例如，如图1至图22所示和/或描述的，音频系数不必以与在摄取期间产生其的速率相同的速率来由客户端装置发送。一旦进行初始识别，匹配服务器系统可以指示客户端设备较不频繁地发送系数。或者，在精确和/或较快识别的重要性更大的情况下，匹配服务器系统可以指示客户端设备更频繁地发送系数。然后，操作流程进行到结束操作。

本发明的某些方面包括为算法形式的本文所述处理步骤和指令。应当注意，本发明的处理步骤和指令可以体现在软件、固件或硬件中，并且当以软件体现时，可以下载以驻留在由实时网络操作系统使用的不同平台上并从所述平台操作。

本发明还涉及一种用于执行本文操作的装置。该装置可以为所需目的而特别构造，或者其可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。此类计算机程序可以存储在计算机可读存储介质中，诸如但不限于任何类型的盘，包括软盘、光盘、CD-ROM、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡、专用集成电路(ASIC)，或适用于存储电子指令的任何类型的介质，并且每个介质都耦合到计算机系统总线。

此外，在本说明书中提到的计算机或计算装置可以包括单个处理器或者可以采用多处理器设计来提高计算能力。

在本文中呈现的算法和显示并不固有地与任何特定计算机或其他装置相关。各种通用系统也可以根据本文的教导与程序一起使用，或者可以证明构造更专用的装置来执行所需的方法步骤是方便的。各种这些系统所需的结构将根据上面的描述出现。此外，本发明并非参考任何特定的编程语言或操作系统描述的。应当理解，可以使用各种编程语言和操作系统来实现如本文所述的本发明的教导。

本说明书中描述的系统和方法、流程图和结构框图可以在包括程序代码的计算机处理系统中实现，该程序代码包括可由计算机处理系统执行的程序指令。也可以使用其他实现方式。此外，本文描述的流程图和结构框图描述了支持步骤的特定方法和/或相应动作以及支持所公开的结构装置的对应功能，也可用于实现对应的软件结构和算法以及它们的等同物。

本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序产品，即，编码在有形程序载体上的计算机程序指令的一个或多个模块，以供由数据处理设备执行或用于控制数据处理设备的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储设备，或它们中的一个或多个的组合。

计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以以任何形式的编程语言编写，包括编译或解释语言，或者声明或过程语言，并且其可以以任何形式部署，包括作为独立程序或作为模块、部件、子常式或适用于在计算环境中使用的其他单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中，存储在针对所讨论的程序的单个文件中，或存储在多个协调文件(例如，存储一个或多个模块、子程序或代码的部分的文件)中。计算机程序可以部署在一个计算机或多个计算机上执行，该多个计算机位于一个站点处或者跨多个站点分布并通过适当的通信网络互连。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器执行，以通过对输入数据进行操作并产生输出来执行功能。处理和逻辑流程也可以由专用逻辑电路(例如FPGA(现场可编程门阵列)或ASIC(专用集成电路))执行，并且装置也可以被实现为所述专用逻辑电路。

计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，或可操作地耦合以从该一个或多个大容量存储设备接收数据或传输数据到该一个或多个大容量存储设备，或两者，所述大容量存储设备为例如磁盘、磁光盘或光盘。但是，计算机不需要这样的设备。适用于执行计算机程序的处理器仅例如包括但不限于通用和专用微处理器，以及任何类型的数字计算机的任何一种或多种处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。

为了提供与本文描述的系统的用户或管理者的交互，本说明书中描述的主题的实施例可以在具有显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器)的计算机上实现以用于向用户显示信息，并且可以在具有键盘和指向设备(例如鼠标或轨迹球)的计算机上实现，用户可以通过所述键盘和指向设备向计算机提供输入。其他类型的设备也可用于提供与用户的交互。例如，提供给用户的反馈可以是任何形式的传感反馈，例如视觉反馈、听觉反馈或触觉反馈；并且来自用户的输入可以以任何形式接收，包括声音、语音或触觉输入。

本说明书中描述的主题的实施例可以在计算系统中实现，该计算系统包括一个或多个后端部件，包括一个或多个数据服务器，或者该计算系统包括一个或多个中间件部件，例如应用服务器，或者该计算系统包括前端部件，例如具有图形用户界面或Web浏览器的客户端计算机，用户或管理员可以通过该图形用户界面或Web浏览器与本说明书中所描述的主题的某些实施方式进行交互，或者该计算系统包括一个或多个此类后端部件、中间件部件或前端部件的任何组合。系统的部件可以通过数字数据通信的任何形式或介质(诸如通信网络)互连。计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器之间的关系是由于在各自计算机上运行并且彼此之间具有客户端服务器关系的计算机程序而产生的。

前面的详细描述已经通过使用框图、流程图和/或实例阐述了设备和/或过程的各种实施例。在这些框图、流程图和/或实例包含一个或多个功能和/或操作的情况下，本领域的技术人员将会理解，这些框图、流程图或实例中的每个功能和/或操作可以通过各种硬件、软件、固件或实际上其任何组合单独地和/或共同地实现。在一个实施例中，本文描述的主题的若干部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成格式来实现。无论如何，本领域技术人员将认识到，本文公开的实施例的一些方面，可以在标准集成电路中全部或部分地等同实现作为在一个或多个计算机上运行的一个或多个计算机程序(例如，作为在一个或多个计算机系统上运行的一个或多个程序)，作为在一个或多个处理器上运行的一个或多个程序(例如，作为在一个或多个微处理器上运行的一个或多个程序)，作为固件，或作为实际上其任何组合，并且根据本公开设计电路和/或编写软件和/或固件的代码将完全属于本领域技术人员的技能范围内。此外，本领域的技术人员将理解，本文描述的主题的机制能够作为各种形式的程序产品分发，并且本文描述的主题的说明性实施例同样适用，而不管用于实际执行分发的信号存储介质的具体类型如何。信号存储介质的实例包括但不限于以下：可记录型介质，诸如软盘、硬盘驱动器、CD ROM、数字磁带和计算机存储器；以及传输型介质，诸如使用基于TDM或IP的通信链路的数字和模拟通信链路(例如，分组链路)。

本领域的技术人员将认识到，现有技术已经进展到在系统各方面的硬件和软件实施方式之间几乎没有留下任何区别；硬件或软件的使用通常(但不总是这样，因为在某些情况下，硬件和软件之间的选择可能会变得很重要)是代表成本与对照效率折衷的设计选择。本领域的技术人员将理解，存在可以实现本文描述的过程和/或系统和/或其他技术的各种媒介物(例如，硬件、软件和/或固件)，并且优选的媒介物将随着部署过程和/或系统和/或其他技术的情境而变化。例如，如果实施者确定速度和准确性是最重要的，则实施者可以主要选择硬件和/或固件载体；或者，如果灵活性是最重要的，实施者可以主要选择软件具体实施方式；或者，又替代地，实施者可以选择硬件、软件和/或固件的某些组合。因此，存在通过其可以实现本文描述的过程和/或设备和/或其他技术的几种可能媒介物，其中没有任何一种媒介物能固有地优于另一种，因为任何待使用的媒介物均依赖于将部署媒介物的情境和实施者的特定关注(例如，速度、灵活性或可预测性)的选择，该情境和特定关注中的任一者都可能会变化。本领域的技术人员将认识到，实施方式的光学方面将通常采用光学取向的硬件、软件和/或固件。

前面的详细描述已经通过使用框图、流程图和/或实例阐述了设备和/或过程的各种实施例。在这些框图、流程图和/或实例包含一个或多个功能和/或操作的情况下，本领域的技术人员将会理解，这些框图、流程图或实例中的每个功能和/或操作可以通过各种硬件、软件、固件或它们的实际上任何组合单独地和/或共同地实现。在一个实施例中，本文描述的主题的若干部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成格式来实现。然而，本领域技术人员将认识到，本文公开的实施例的一些方面，可以在标准集成电路中全部或部分地等同实现作为在一个或多个计算机上运行的一个或多个计算机程序(例如，作为在一个或多个计算机系统上运行的一个或多个程序)，作为在一个或多个处理器上运行的一个或多个程序(例如，作为在一个或多个微处理器上运行的一个或多个程序)，作为固件，或作为它们的实际上的任何组合，并且根据本公开设计电路和/或编写软件和/或固件的代码将完全属于本领域技术人员的技能范围内。此外，本领域的技术人员将理解，本文描述的主题的机制能够作为各种形式的程序产品分发，并且本文描述的主题的说明性实施例同样适用，而不管用于实际执行分发的信号存储介质的具体类型如何。信号存储介质的实例包括但不限于以下：可记录型介质，诸如软盘、硬盘驱动器、CD ROM、数字磁带和计算机存储器；以及传输型介质，诸如使用基于TDM或IP的通信链路的数字和模拟通信链路(例如，分组链路)。

本文描述的方面描绘了包含在不同的其他部件内或与不同的其他部件相关的不同部件。应当理解，这样描述的架构仅仅是示例性的，并且实际上可以实施实现相同功能的许多其他架构。在概念意义上，用于实现相同功能的部件的任何布置均被有效地“关联”，从而实现期望的功能。因此，在本文中组合以实现特定功能的任何两个部件可被视为彼此“相关联”，从而实现期望的功能，而不管架构或中间部件如何。同样地，如此关联的任何两个部件也可以被看作是彼此“可操作地连接”或“可操作地耦合”以实现期望的功能，并且能够如此相关联的任何两个部件也可以被看作是彼此“可以可操作耦合”以实现所需的功能。可以可操作耦合的具体实例包括但不限于物理上可配对和/或物理上相互作用的部件和/或可无线相互作用和/或无线相互作用的部件和/或逻辑上相互作用和/或可逻辑上相互作用的部件。

虽然已经示出和描述了本文所描述的本主题的具体方面，但是对于本领域的技术人员将显而易见的是，基于本文的教导，可以在不脱离本文所述的主题的情况下进行改变和修改，并且其更宽泛的方面以及因此所附权利要求书涵盖在其范围内的所有此类改变和修改，作为在本文所述的本主题的真实精神和范围内。此外，应当理解，本发明由所附权利要求书限定。本领域技术人员将理解，一般来说，本文使用的术语，特别是在所附权利要求书(例如，所附权利要求书的主体)中使用的术语通常旨在作为“开放”术语(例如，术语“包括”应当被解释为“包括但不限于”，术语“具有”应被解释为“至少具有”，术语“包括”应被解释为“包括但不限于”等)。本领域的技术人员将进一步理解，如果意图引用的权利要求中叙述具体数目，这种意图将在该权利要求中明确地叙述，并且在没有这种叙述的情况下，不存在这样的意图。例如，作为对理解的帮助，以下所附权利要求书可以包含介绍性短语“至少一个”和“一个或多个”以引入权利要求叙述。然而，使用这些短语不应被解释为在权利要求叙述中引入不定冠词“一”或“一个”将包含这种引入的权利要求叙述的任何特定权利要求限制为发明仅包含一个此类叙述，即使当相同的权力要求包括介绍性短语“一个或多个”或“至少一个”和不定冠词如“一”或“一个”时也是如此(例如，“一”和/或“一个”通常应被解释为意味着“至少一个”或“一个或多个”)；对于使用定冠词引入权利要求叙述也是如此。此外，即使明确叙述了引入的权利要求叙述的特定数目，本领域的技术人员也将认识到，这种叙述通常应被解释为表示至少所列举的数字(例如，没有其他修饰符的“两个叙述”的简单描述通常意味着至少两个叙述，或两个或更多个叙述)。此外，在使用类似于“A、B和C等中的至少一个”的惯例的那些情况下，一般来说，此类结构意欲为本领域技术人员将理解的惯例含义(例如，“具有A、B和C中的至少一个的系统”将包括但不限于具有单独A，单独B，单独C，A和B一起，A和C一起，B和C一起，和/或A、B和C一起等的系统)。在使用类似于“A、B或C等中的至少一个”的惯例的那些情况下，一般来说，此类结构意欲为本领域技术人员将理解的惯例含义(例如，“具有A、B或C中的至少一个的系统”将包括但不限于具有单独A，单独B，单独C，A和B一起，A和C一起，B和C一起，和/或A、B和C一起等的系统)。

虽然本说明书包含许多具体的实施细节，但是这些说明不应被解释为对任何发明的范围或所要求保护的范围的限制，而是作为可能特定于具体发明的具体实施例的特征的描述。在本说明书中在多个单独实施例的情境中描述的某些特征也可以在单个实施例中组合实现。

相反，在单个实施例的情境中描述的各种特征也可以分开地或以任何合适的子组合在多个实施例中实现。此外，虽然以上可以将特征描述为以某些组合的方式起作用，并且甚至最初要求保护如此，但是要求保护的组合中的一个或多个特征在某些情况下可以从组合中被去除，并且所要求保护的组合可以针对子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘操作，但是这不应被理解为要求以所示的特定顺序或按顺序执行这些操作，或者不应被理解为要求执行所有所示的操作来获得期望的结果。在某些情况下，多任务和并行处理可能是有利的。而且，上述实施例中的各种系统部件的分离不应被理解为在所有实施例中要求这样的分离，并且应当理解，所描述的程序部件和系统通常可以一起集成在单个软件产品中或被封装成多个软件产品。

Claims

1.一种系统，其包括：

配置成用于维持参考匹配数据库的电路，所述参考匹配数据库包括与至少一个摄取内容的至少一个音频帧对应的至少一个系数以及与所述至少一个摄取内容相对应的至少一个内容标识；

配置成用于从至少一个客户端设备接收至少一个传输的电路，所述至少一个客户端设备包括与可由所述至少一个客户端设备呈现的至少一个音频帧相对应的至少一个客户端系数；以及

配置成用于至少部分地基于使用所述至少一个客户端系数作为搜索项搜索所述参考匹配数据库来识别与所述至少一个客户端设备相关联的至少一个内容的电路。

2.根据权利要求1所述的系统，其中所述配置成用于维持包括与至少一个摄取内容的至少一个音频帧对应的至少一个系数以及与所述至少一个摄取内容相对应的至少一个内容标识的参考匹配数据库的电路包括：

配置成用于获得至少一个内容的至少一个广播的至少一个实时馈送的电路；

配置成用于编码所述至少一个实时馈送的至少一个音频样本的电路；以及

配置成用于存储与所述至少一个内容标识相关联的至少一个经编码音频样本的电路。

3.根据权利要求2所述的系统，其中所述配置成用于编码所述至少一个实时馈送的至少一个音频样本的电路包括：

配置成用于将所述至少一个音频样本变换为所述至少一个系数的电路，所述变换至少部分地基于能够重复地提供与和特定频率不相关的摄取音频内容相关联的系数的至少一个归一化。

4.根据权利要求1所述的系统，其中所述配置成用于维持包括与至少一个摄取内容的至少一个音频帧对应的至少一个系数和与所述至少一个摄取内容相对应的至少一个内容标识的参考匹配数据库的电路包括：

配置成用于维持参考匹配数据库的电路，所述维持包括使用位置敏感的散列索引至少存储与至少一个音频帧相对应的所述至少一个系数。

5.根据权利要求1所述的系统，其中所述配置成用于维持包括与至少一个摄取内容的至少一个音频帧对应的至少一个系数和与所述至少一个摄取内容相对应的至少一个内容标识的参考匹配数据库的电路包括：

配置成用于维持至少两个参考匹配数据库的电路，所述至少两个参考匹配数据库包括至少一个音频参考匹配数据库和至少一个视频参考匹配数据库，所述系统能够响应于接收到对应于由所述至少一个客户端设备呈现的至少一个音频帧的至少一个客户端系数或对应于由所述至少一个客户端设备呈现的至少一个视频帧的至少一个客户端系数，而利用所述至少一个音频参考匹配数据库或所述至少一个视频参考匹配数据库来独立地识别与所述至少一个客户端设备相关联的所述至少一个内容。

6.根据权利要求1所述的系统，其中配置成用于从包括与可由所述至少一个客户端设备呈现的至少一个音频帧相对应的至少一个客户端系数的至少一个客户端设备接收至少一个传输的电路包括：

配置成用于从至少一个客户端设备接收至少一个传输的电路，所述至少一个客户端设备包括至少一个电视机、至少一个智能电视机、至少一个媒体播放器、至少一个机顶盒、至少一个游戏控制台、至少一个A/V接收器、至少一个连接互联网的设备、至少一个计算设备或至少一个流媒体设备中的一者或多者。

7.根据权利要求1所述的系统，其中配置成用于从包括与可由所述至少一个客户端设备呈现的至少一个音频帧相对应的至少一个客户端系数的至少一个客户端设备接收至少一个传输的电路包括：

配置成用于从至少一个客户端设备接收至少一个传输流的电路，所述至少一个传输流包括与可由所述至少一个客户端设备呈现的至少一个音频帧或至少一个视频帧中的一个或多个相关联的客户端系数的至少一个序列，以识别可由所述至少一个客户端设备呈现的至少一个内容，所述至少一个序列包括至少一些音频客户端系数。

8.根据权利要求1所述的系统，其中配置成用于从包括与可由所述至少一个客户端设备呈现的至少一个音频帧相对应的至少一个客户端系数的至少一个客户端设备接收至少一个传输的电路包括：

配置成用于从至少一个客户端设备接收至少一个传输的电路，所述至少一个客户端设备包括与可由所述至少一个客户端设备呈现的至少一个音频帧对应的至少一个客户端系数，所述至少一个客户端系数对应于可由所述至少一个客户端设备呈现的至少一个音频帧，所述至少一个客户端设备是至少部分地通过与在维持所述参考匹配数据库的过程中所使用的至少一个变换相同的至少一个变换来确定的。

9.根据权利要求1所述的系统，其中配置成用于从包括与可由所述至少一个客户端设备呈现的至少一个音频帧相对应的至少一个客户端系数的至少一个客户端设备接收至少一个传输的电路包括：

配置成用于从至少一个客户端设备接收至少一个传输的电路，所述至少一个客户端设备包括与可由所述至少一个客户端设备呈现的至少一个音频帧对应的至少一个客户端系数，所述至少一个客户端系数对应于可由所述至少一个客户端设备呈现的至少一个音频帧，所述至少一个客户端设备是至少部分地通过将至少一个音频流采样成一个或多个帧并重叠所述一个或多个帧，然后对所述重叠的一个或多个帧进行归一化来确定的。

10.根据权利要求1所述的系统，其中所述配置成用于至少部分地基于使用所述至少一个客户端系数作为搜索项搜索所述参考匹配数据库来识别与所述至少一个客户端设备相关联的至少一个内容的电路包括：

配置成用于利用从所述至少一个客户端设备接收的一个或多个视频系数，来从与视频系数相关联的参考匹配数据库中获得一个或多个可疑者的电路；

配置成用于从所述至少一个客户端设备检测一个或多个媒体内容改变的电路；以及

配置成用于切换内容识别，以利用从所述至少一个客户端设备接收的一个或多个音频系数来从与音频系数相关联的参考匹配数据库中获得另外的可疑者的电路。

11.根据权利要求10所述的系统，其中所述配置成用于从所述至少一个客户端设备检测一个或多个媒体内容改变的电路包括：

配置成用于接收与所述至少一个客户端设备相关联的屏幕上图形、衰减至黑色或视频缩放模式中的至少一个的至少一个指示的电路；以及

配置成用于至少部分地基于所述至少一个指示来发信号通知切换成音频内容识别的电路。

12.根据权利要求1所述的系统，其中所述配置成用于至少部分地基于使用所述至少一个客户端系数作为搜索项搜索所述参考匹配数据库来识别与所述至少一个客户端设备相关联的至少一个内容的电路包括：

配置成用于至少部分地基于使用对应于可由所述至少一个客户端设备呈现的至少一个音频帧的所述至少一个客户端系数对从所述参考匹配数据库检索到的一个或多个可疑者进行时间折扣分组，来确定与所述至少一个客户端设备相关联的所述至少一个内容的至少一个标识的电路。

13.根据权利要求1所述的系统，其中所述配置成用于至少部分地基于使用所述至少一个客户端系数作为搜索项搜索所述参考匹配数据库来识别与所述至少一个客户端设备相关联的至少一个内容的电路包括：

配置成用于至少部分地基于所述一个或多个可疑者将所述至少一个客户端设备与至少一个内容标识相关联的电路；以及

配置成用于至少部分地基于从所述至少一个客户端设备接收的一个或多个音频系数来确认所述至少一个客户端设备与至少一个内容标识的关联的电路。

14.根据权利要求1所述的系统，其中所述配置成用于维持包括与至少一个摄取内容的至少一个音频帧对应的至少一个系数和与所述至少一个摄取内容相对应的至少一个内容标识的参考匹配数据库的电路包括：

配置成用于存储与所述至少一个摄取内容的至少一个音频部分相关联的一个或多个经变换的功率谱系数的电路，所述至少一个音频部分与所述至少一个内容标识相关联；并且

其中配置成用于至少部分地基于使用所述至少一个客户端系数作为搜索项搜索所述参考匹配数据库来识别与所述至少一个客户端设备相关联的至少一个内容的电路包括：

配置成用于对从所述参考匹配数据库获得的一个或多个可疑者进行时间折扣分组的电路，所述获得至少部分地基于与可由所述至少一个客户端设备呈现的至少一个音频内容相关联的一个或多个接收的经变换功率谱系数。

15.根据权利要求1所述的系统，其还包括：

配置成用于至少部分地基于连续维持所述参考匹配数据库来连续识别与所述至少一个客户端设备相关联的所述至少一个内容，连续接收来自所述至少一个客户端设备的传输，以及使用与后续传输相关联的客户端系数作为搜索项来连续搜索所述参考匹配数据库的电路。

16.根据权利要求1所述的系统，其还包括：

配置成用于维持第二参考匹配数据库的电路，所述第二参考匹配数据库包括与至少一个摄取内容的至少一个视频帧对应的至少一个系数和与所述至少一个摄取内容相对应的至少一个内容标识。

配置成用于改变与所述至少一个客户端设备相关的内容识别方法的电路，所述改变内容识别方法包括至少以下一者：从基于视频系数进行内容识别切换成基于音频系数进行内容识别或从基于音频系数进行内容识别切换成基于视频系数进行内容识别。

17.根据权利要求1所述的系统，其还包括：

配置成用于控制所述至少一个客户端设备的电路，包括至少发信号通知所述至少一个客户端设备从传输对应于视频帧的客户端系数切换成传输对应于音频帧的客户端系数。

18.根据权利要求1所述的系统，其还包括：

配置成用于控制所述至少一个客户端设备的电路，包括至少发信号通知所述至少一个客户端设备以特定速率传输对应于音频帧的客户端系数。

19.一种系统，其包括：

用于维持参考匹配数据库的装置，所述参考匹配数据库包括与至少一个摄取内容的至少一个音频帧对应的至少一个系数以及与所述至少一个摄取内容相对应的至少一个内容标识；

用于从至少一个客户端设备接收至少一个传输的装置，所述至少一个客户端设备包括与可由所述至少一个客户端设备呈现的至少一个音频帧相对应的至少一个客户端系数；以及

用于至少部分地基于使用所述至少一个客户端系数作为搜索项搜索所述参考匹配数据库来识别与所述至少一个客户端设备相关联的至少一个内容的装置，其中所述用于维持的装置、所述用于接收的装置或所述用于识别的装置中的至少一个用于至少部分地以硬件实现。

20.一种方法，其包括：

维持包括与至少一个摄取内容的至少一个音频帧对应的至少一个系数以及与所述至少一个摄取内容相对应的至少一个内容标识的参考匹配数据库；

从至少一个客户端设备接收至少一个传输的电路，所述至少一个客户端设备包括与可由所述至少一个客户端设备呈现的至少一个音频帧相对应的至少一个客户端系数；以及

至少部分地基于使用所述至少一个客户端系数作为搜索项搜索所述参考匹配数据库来识别与所述至少一个客户端设备相关联的至少一个内容，其中所述维持、接收或识别中的至少一个至少部分地以硬件方式实现。