CN114830675A

CN114830675A - 用于使媒体内容的观看者效果信号与媒体内容的媒体信号同步的方法和系统

Info

Publication number: CN114830675A
Application number: CN202080087444.7A
Authority: CN
Inventors: 安德烈·博丁; 让-弗朗乔斯·梅纳德; 让-弗朗乔斯·查伦; 亚历山大·卢瓦索
Original assignee: D Box Technologies Inc
Current assignee: D Box Technologies Inc
Priority date: 2019-10-17
Filing date: 2020-10-19
Publication date: 2022-07-29
Also published as: EP4046387A4; EP4046387A1; CA3157553A1; WO2021072558A1; US20230274623A1

Abstract

描述了一种用于将媒体内容的观看者效果信号与媒体内容的媒体信号同步的方法。方法通常具有：使用麦克风从周围环境中捕获媒体信号的音频部分；从所捕获的媒体信号的音频部分获得指纹；根据与至少参考媒体内容的参考时间位置相关联的参考指纹，识别对应于所获得的指纹的媒体内容的时间位置；获得与所识别的媒体内容的时间位置相关联的观看者效果信号；以及输出使用所识别的媒体内容的时间位置的与媒体信号同步的观看者效果信号，用于向观看者产生与媒体内容的媒体信号同步的效果。

Description

用于使媒体内容的观看者效果信号与媒体内容的媒体信号同步的方法和系统

技术领域

本公开涉及媒体识别和同步的领域。更具体地，本说明书涉及用于将诸如触觉信号的观看者效果信号与视频和音频流媒体同步的方法和装置。

背景技术

在控制公共、商业或家庭环境中使用的运动反馈系统时，挑战在于用于游戏、长篇电影、游乐园游乐设施、虚拟现实等的触觉信号与回放期间的音频或视频信号同步，使得触觉信号及时传递至运动反馈系统，以使平台运动与再现的视听信号相匹配。所需的精度可能为数毫秒。

在某些应用中，触觉信号不与音频或视频信号同步传输；播放装置必须单独检索触觉信号，并将其与音频或视频信号同步回放。在某些情况下，媒体的音频信号可能只能作为环境声音的一部分，作为扬声器的输出。例如，环境声音可以来自单声道音频设置、立体声设置或多声道环绕声音频，例如，5.1环绕声或7.1环绕声。作为声音捕获位置的函数、作为正在使用的音频通道数量的函数、和/或作为正在播放媒体的哪一个语言轨道的函数，由于诸如混响、寄生噪声、未知声级、失真、回声、声音可变性等因素，这可能导致识别媒体的问题。

因此，需要一种改进的同步方法和装置，该方法和装置解决了上述挑战。

发明内容

根据本发明的第一方面，提供了一种用于将媒体内容的观看者效果信号与媒体内容的媒体信号同步的系统，所述系统包括：至少一个麦克风，所述麦克风从周围环境中捕获所述媒体信号的音频部分；控制器，所述控制器通信地耦合到所述至少一个麦克风，所述控制器具有处理器和其上存储有指令的非暂时性存储器，当由所述处理器执行时，所述指令执行以下步骤：从所捕获的媒体信号的音频部分获得指纹；根据与参考媒体内容的参考时间位置相关联的参考指纹，识别对应于所获得的指纹的媒体内容的时间位置；获得与所识别的媒体内容的时间位置相关联的所述观看者效果信号；以及输出使用所识别的媒体内容的时间位置的与所述媒体信号同步的所述观看者效果信号，能够用于向观看者产生与所述媒体信号同步的效果。

进一步根据本发明的第一方面，例如，可以使至少一个麦克风与观看者座位构成一体。

更进一步，根据本发明的第一方面，所述至少一个麦克风可以例如包括捕获媒体信号的不同音频部分的多个麦克风。

更进一步，根据本发明的第一方面，所述多个麦克风可以例如分布在所述周围环境中。

更进一步，根据本发明的第一方面，可以例如针对所述媒体信号的每一个捕获的音频部分执行所述获得、识别和获得步骤。

更进一步，根据本发明的第一方面，所述参考指纹可以例如存储在远程数据库上，并且在所述识别期间能够由所述控制器访问。

更进一步，根据本发明的第一方面，所述获得观看者效果信号可以例如包括从所述远程数据库中检索所述观看者效果信号。

更进一步，根据本发明的第一方面，所述控制器可以例如具有增益控制模块，所述增益控制模块在所述识别之前将给定的增益应用于所捕获的音频部分。

更进一步，根据本发明的第一方面，当峰值幅度高于饱和阈值时，所述增益控制模块可以例如减小所给定的增益，当峰值幅度低于可检测声音阈值时，增加所给定的增益，并且当峰值幅度高于可检测声音阈值并且低于饱和阈值时，保持所给定的增益。

更进一步，根据本发明的第一方面，该系统还可以例如包括通信地耦合到所述控制器的观看者效果产生装置，所述观看者效果产生装置基于与所述媒体信号同步的所输出的观看者效果信号向观看者产生效果。

更进一步，根据本发明的第一方面，所述观看者效果产生装置可以例如是运动反馈装置，所述观看者效果信号可以例如对应于触觉信号。

根据本发明的第二方面，提供了一种用于将媒体内容的观看者效果信号与所述媒体内容的媒体信号同步的方法，所述观看者效果信号用于向观看者产生效果，所述方法包括：使用至少一个麦克风从周围环境中捕获所述媒体信号的音频部分；从所捕获的媒体信号的音频部分获得指纹；根据与至少参考媒体内容的参考时间位置相关联的参考指纹，识别对应于所获得的指纹的媒体内容的时间位置；获得与所识别的媒体内容的时间位置相关联的所述观看者效果信号；以及使用用于产生与所述媒体内容的所述媒体信号同步的效果的所识别的媒体内容的时间位置，输出与所述媒体信号同步的所述观看者效果信号。

进一步根据本公开的第二方面，所述系统可以例如还包括基于与所述媒体信号同步的所输出的观看者效果信号，产生与所述媒体内容的所述媒体信号同步的效果。

更进一步，根据本发明的第二方面，所述观看者效果信号可以例如是触觉信号，所述产生可以例如包括根据所述触觉信号激活运动反馈装置的一个或多个致动器。

更进一步，根据本发明的第二方面，该方法可以例如还包括接收所述媒体内容的身份，所述参考指纹与所述媒体内容的所述身份相关联。

更进一步，根据本发明的第二方面，所述捕获可以例如包括捕获所述媒体信号的多个音频部分，针对所述媒体信号的每一个捕获的音频部分执行所述获得、识别和获得步骤。

更进一步，根据本发明的第二方面，所述参考指纹可以例如存储在远程数据库上，所述识别可以例如包括从所述远程数据库访问所述参考指纹。

更进一步，根据本发明的第二方面，所述获得观看者效果信号可以例如包括从所述远程数据库中检索所述观看者效果信号。

更进一步，根据本发明的第二方面，所述获得指纹可以例如包括在所述识别之前将给定的增益应用于所捕获的音频部分，所给定的增益可以例如取决于峰值幅度。

更进一步，根据本发明的第二方面，当峰值幅度高于饱和阈值时，所给定的增益可以例如减小，当峰值幅度低于可检测声音阈值时，增加所给定的增益，并且当峰值幅度高于可检测声音阈值并且低于饱和阈值时，保持所给定的增益。

根据本发明的第三方面，提供了一种用于确定媒体内容的观看者效果信号是否与所述媒体内容的媒体信号同步的系统，所述系统包括：观看者效果产生装置，所述观看者效果产生装置基于所述观看者效果信号向观看者产生效果；至少一个麦克风，所述麦克风从周围环境中捕获所述媒体信号的音频部分；以及控制器，所述控制器通信地耦合到所述观看者效果产生装置和所述至少一个麦克风，所述控制器具有处理器和其上存储有指令的非暂时性存储器，当由所述处理器执行时，所述指令执行以下步骤：从所捕获的媒体信号的音频部分获得指纹；基于所述观看者效果信号的当前时间位置，在所述媒体内容的参考时间位置检索所述媒体信号的参考指纹；将所获得的指纹和所述参考指纹相互比较；基于所述比较，确定所述观看者效果信号是否与所述媒体信号同步；以及根据所述确定，输出与所述媒体信号同步的所述观看者效果信号，用于使用所述观看者效果产生装置产生与所述媒体内容同步的效果。

进一步根据本发明的第三方面，该系统可以例如还包括在确定所述观看者效果信号与所述媒体信号不同步时，停止输出所述观看者效果信号。

更进一步，根据本发明的第三方面，该系统可以例如还包括在所述停止之前，保持输出给定的异步延迟。

更进一步，根据本发明的第三方面，所述给定的异步延迟可以例如是零和在大约1秒和1分钟之间的范围中的至少一个。

更进一步，根据本发明的第三方面，该系统可以例如还包括接收与所述媒体内容相关联的可接受的异步延迟数据，所述可接受的异步延迟数据包括与所述媒体内容的参考时间位置中的相应参考时间位置相关联的多个可接受的异步延迟值，并且基于所述接收的可接受的异步延迟数据和所述媒体内容的参考时间位置来确定所述给定的异步延迟。

更进一步，根据本发明的第三方面，该系统可以例如还包括接收与所述媒体内容相关联的同步置信度数据，所述同步置信度数据包括与所述媒体内容的参考时间位置中的相应参考时间位置相关联的多个同步置信度值，并且基于所述同步置信度数据和所述媒体内容的所述参考时间位置来确定所述给定的异步延迟。

更进一步，根据本发明的第三方面，可以例如使所述至少一个麦克风与观看者座位构成一体。

更进一步，根据本发明的第三方面，所述控制器可以例如具有增益控制模块，所述增益控制模块在所述检索之前将给定的增益应用于所捕获的音频部分。

更进一步，根据本发明的第三方面，该系统可以例如还包括通信地耦合到所述控制器的观看者效果产生装置，所述观看者效果产生装置基于与所述媒体信号同步的所输出的观看者效果信号向观看者产生效果。

更进一步，根据本发明的第三方面，所述观看者效果产生装置可以例如是运动反馈装置，所述观看者效果信号对应于触觉信号。

根据本发明的第四方面，提供了一种用于确定媒体内容的观看者效果信号是否与所述媒体内容的媒体信号同步的方法，所述方法包括：基于所述观看者效果信号向观看者产生效果；从周围环境中捕获所述媒体信号的音频部分；从所捕获的媒体信号的音频部分获得指纹；基于所述观看者效果信号的当前时间位置，在所述媒体内容的参考时间位置检索所述媒体信号的参考指纹；将所获得的指纹和所述参考指纹相互比较；基于所述比较，确定所述观看者效果信号是否与所述媒体信号同步；以及根据所述确定，输出与所述媒体信号同步的所述观看者效果信号，用于使用所述观看者效果产生装置产生与所述媒体内容同步的效果。

进一步根据本发明的第四方面，该方法可以例如还包括在确定所述观看者效果信号与所述媒体信号不同步时，停止输出所述观看者效果信号。

更进一步，根据本发明的第四方面，该方法可以例如还包括在所述停止之前，保持输出给定的异步延迟。

更进一步，根据本发明的第四方面，所述给定的异步延迟可以例如是零和在大约1秒和1分钟之间的范围中的至少一个。

更进一步，根据本发明的第四方面，该方法可以例如还包括接收与所述媒体内容相关联的可接受的异步延迟数据，所述可接受的异步延迟数据包括与所述媒体内容的参考时间位置中的相应参考时间位置相关联的多个可接受的异步延迟值，并且基于所述接收的可接受的异步延迟数据和所述媒体内容的参考时间位置来确定所述给定的异步延迟。

更进一步，根据本发明的第四方面，该方法可以例如还包括接收与所述媒体内容相关联的同步置信度数据，所述同步置信度数据包括与所述媒体内容的参考时间位置中的相应参考时间位置相关联的多个同步置信度值，并且基于所述同步置信度数据和所述媒体内容的所述参考时间位置来确定所述给定的异步延迟。

更进一步，根据本发明的第四方面，捕获可以例如包括捕获所述媒体信号的多个音频部分，针对所述媒体信号的每一个捕获的音频部分执行所述获得、检索和比较步骤。

更进一步，根据本发明的第四方面，所述获得指纹可以例如还包括在所述识别之前将给定的增益应用于所捕获的音频部分，所给定的增益取决于峰值幅度。

更进一步，根据本发明的第四方面，当峰值幅度高于饱和阈值时，所给定的增益可以例如减小，当峰值幅度低于可检测声音阈值时，增加所给定的增益，并且当峰值幅度高于可检测声音阈值并且低于饱和阈值时，保持所给定的增益。

更进一步，根据本发明的第四方面，所述观看者效果信号可以例如是触觉信号，所述产生包括根据所述触觉信号激活运动反馈装置的一个或多个致动器。

运动反馈系统旨在包括运动平台、运动致动器、运动模拟器、振动触觉换能器和惯性振动器。

运动平台旨在包括任何平台或座椅设备，由致动器引发其运动，并且其上安装有人员。运动平台应用包括但不限于游戏、长篇电影、游乐园游乐设施、虚拟现实、带或不带视频的音乐等。运动平台的示例包括用于一个或多个人的座位或椅子，其上安装有一个或多个与地面或结构接合的致动器。另一个示例是用于容纳座位、椅子或其他容纳使用者的装置的平台，其上安装有一个或多个与地面接合的致动器。另一个示例是在装置(例如，椅子、座位等)中产生振动的摇动器装置。

基于要再现给观看者的内容，运动代码、运动代码信号或运动代码流包含运动效果，或类似的观看者效果信号包含其他观看者效果，例如，字幕、替代语言、失聪者或听力障碍人士的音频轨道。在大多数情况下，触觉信号是由动作设计师准备的。在其他情况下，自动生成触觉信号或其一部分。

媒体信号应理解为包括音频信号、视频信号、触觉信号、增强现实信号、虚拟现实信号、三维全息图信号等。例如，媒体信号可以引起装置的振动，可以捕获这些振动，用于同步。

音频信号或音频流应理解为包含在演示过程中要再现的声音信息，例如，游戏的音频轨道、长篇电影、游乐园游乐设施、虚拟现实环境、独立音乐、音乐视频等。例如，音频信号是编码脉冲编码调制(PCM)样本的形式。

视频信号或视频流应理解为包含要向用户再现的视觉信息，例如，游戏的主画面、长篇电影、游乐园游乐设施、虚拟现实环境等。视频信号的一个示例或者视频信号是MPEG-4部分10视频基本流。

媒体内容旨在包括游戏、长篇电影、游乐园游乐设施、虚拟现实环境、广告、音乐等。

长篇电影是要在电影院或家庭影院放映的电影。通常持续30分钟以上，并且具有独立的视频和音频轨道，触觉信号、运动代码流或运动代码轨道可以与这些视频和音频轨道相关联。

附图说明

通过结合附图进行的以下详细说明，本公开的更多特征和优点将变得显而易见，其中：

图1为根据本公开的实施例的环绕声设置的示意图，该环绕声设置具有用于使媒体内容的观看者效果信号与媒体内容的媒体信号同步的系统；

图1A是根据一个实施例的与图1的设备的观看者座位构成一体的麦克风示例的斜视图；

图1B是根据一个实施例的图1的设备的独立麦克风示例的斜视图；

图2是根据一个实施例的用于将触觉信号与音频信号同步的方法的流程图；

图3是示出用于确定对应于媒体内容的触觉信号是否与媒体内容的媒体信号同步的方法的实施例的流程图；

图4是根据一个实施例的用于将触觉信号与音频信号同步的系统的示意图；

图5A是示出根据一个实施例的使用麦克风捕获的给定的媒体内容的音频部分的示例的曲线图；

图5B是示出根据一个实施例的应用于图5A的音频部分的音频增益的曲线图；

图5C是示出根据一个实施例的给定的媒体内容的参考音频轨道的示例的曲线图；

图5D是示出根据一个实施例的与给定的媒体内容相关联的观看者效果信号的示例的曲线图；

图5E是示出根据一个实施例的给定的媒体内容的同步置信度延迟轨道和可接受的异步延迟轨道的形式的示例性元数据轨道内容的曲线图；

图6A是示出根据一个实施例的给定的媒体内容的英语版音频轨道的示例的曲线图；

图6B是示出根据一个实施例的给定的媒体内容的法语版音频轨道的示例的曲线图；

图6C是示出根据一个实施例的图6A的英语版音频轨道的示例包络的曲线图；

图6D是示出根据一个实施例的图6B的法语版音频轨道的示例包络的曲线图；以及

图6E是示出根据一个实施例的图6C和图6D的包络的比率的曲线图。

应当注意，在所有附图中，相同的特征由相同的附图标记标识。

具体实施方式

现参考附图，尤其是图1，显示了示例性视听设备，通过该设备，一个或多个用户可观看和收听具有并行同步视频和音频输出的媒体。在一些实施例中，视听设备还可以用于播放音乐或其他类型的声音，而没有任何视频输出。在图1中，该设备可以是家用的或小型的，以单个座位S为特征，无论是用于单个占有人还是多个占有人。图1的设备作为示例示出，本文描述的方法20和装置50可用于更大规模的设备，包括剧院、演出场所、礼堂等，仅举几个示例。这可以包括一个以上的座椅S。因此，本文参考一个或多个座椅，但是除非另有说明，否则本文描述的同步概念可以应用于单个或多个座椅的设备以及其他项目，例如，摇动器，和/或具有任何其他合适的触觉装置类型的设备，例如，触觉背心、触觉鞋、触觉手套、触觉腕带或手表以及触觉头盔。

在该设备中，座椅S面向屏幕电视，例如，电视机、平板电脑或类似便携式装置、投影显示器、VR头盔等，即视频输出。座位S可以被扬声器LS(也称为扬声器，包括例如低音炮)包围。发送到扬声器LS的音频信号可以来自任何适当的设备，例如，家庭影院接收器、放大器、电视、媒体流、播放器(DVD、

)等。扬声器LS也可以集成到屏幕TV中(例如，电视扬声器)。因此，与屏幕TV上显示的视频同步，座椅S的占有人被暴露于来自扬声器LS的环绕声。

座椅S配备或装饰有运动反馈系统10(图4)，其具有致动器1至N，在本示例中显示为10A、10B、10C、10D。运动反馈系统将振动动力运动传递给座椅S，作为在A/V设备上观看的媒体的函数。座位S可以有更少或更多的致动器，单个致动器是一种选择，并且具有被动接头(例如，球形接头)，以将座位S连接到结构或地面。致动器10A-10N可以是线性致动器(例如，机电致动器)，例如，在美国专利第9,664,267、9,863,513、10,012,295号中描述的那些致动器，这些专利通过引用结合于此。作为其他可能性，致动器也可以是气动或液压缸、振动器。

运动反馈系统10由装置50控制。装置50向致动器10A-10N发送信号，以使致动器10A-10N产生振动动力输出、振动和/或任何其他运动输出。振动动力输出/运动输出可以不是从声道得到的振动，而是例如可以是编码的触觉信号(运动代码)，该信号可以给由致动器10A-10N支撑的平台的运动带来纹理。致动器10A-10N的并发效应导致座椅S的振动动力运动和/或振动。如上所述，可以产生其他类型的观看者效果信号，这可能需要存在其他类型的观看者效果产生装置，例如，产生光的色调型灯、吹风设备、隐藏式字幕装置等。

为了使座椅S的振动动力运动与屏幕电视和/或扬声器LS的AV输出(例如，音频轨道、图像)同步，麦克风12或类似的声音捕获装置连接至装置50。麦克风12可以是捕获环境声音的任何适当类型的声音捕获装置，包括来自扬声器LS和/或屏幕TV的音频输出。在一些实施例中，可以使麦克风12与观看者座位S构成一体，如图1A所示。额外地或可替换地，麦克风12可以是独立装置50的一部分，如图1B所示。独立装置50可以位于观看者座位旁边或者视听设备环境内的任何地方。在这些实施例中，麦克风12可以具有面向视听设备的麦克风开口12’。在一些实施例中，例如，当独立装置50没有面向视听设备时，由麦克风捕获的音频部分可能是理想的，也可能不是理想的。因此，例如，可以基于观看者座位S和/或独立装置50在其相应周围环境中的定位来处理捕获的音频部分。作为麦克风的替代，装置50可以接收音频轨道，作为线路输入信号。作为另一个实施例，装置50具有光学捕获装置，该光学捕获装置捕获图像并且可以基于屏幕TV上显示的图像的颜色内容产生签名。

参考图2，一种用于使观看者效果信号(例如，对应于媒体内容的触觉信号，例如，来自长篇电影或游乐园游乐设施)与图1所示的设备中显示的媒体内容的媒体信号同步的方法20。为了简单起见，本文可以参考触觉信号，尽管这可以包括其他类型观看者效果信号。因此，即使在此可以参考触觉信号，这些概念也可以应用于其他类型的观看者效果信号，除非另有说明。触觉信号用于控制运动反馈系统10。观看者效果信号可以是连续的，并且还可以是字幕或其他视觉信号、额外的音频轨道(例如，替代语言的音频轨道)、用于视觉障碍者的音频轨道(通过该音频轨道添加额外的叙述，以提供上下文(例如，“汽车即将到达”))、用于失聪者或听觉障碍者的音频轨道，例如，字幕、手语或描述声音的书面叙述(例如，“爆炸声”)、使用其他装置，例如，色调型灯、蒸汽发生器，以模拟诸如闪电、雾等元素，或者具有包括演员和/或导演评论的音频评论的音频轨道。根据一个实施例，媒体信号是来自扬声器LS的音频信号和/或视频信号。为简单起见，本文描述的方法将参考触觉信号。然而，所有方法也适用于其他类型的观看者效果信号，例如，上面列出的那些，而不仅仅是触觉信号。

作为起点，对于已为其创建观看者效果或运动轨迹或信号的每一个媒体内容，已在媒体内容的音频轨道的持续时间内预先创建了信号轨道，也称为元数据轨道。元数据轨道为每一个时间间隔提供音频功率或任何其他特征的定量指示，以评估强度，如果音频处于其最佳音量，则应该接收到该强度，用于随后的及时同步。可以使用其他类型的信息来允许以足够的时间间隔估计预期的强度值，以允许及时的同步。元数据轨道还可以包括其他类型的信号或信息。例如，元数据轨道可以将信号描述为具有在影片中本地或特定时间位置重复的模式，根据时间位置使同步变得更难。媒体内容的观看者效果轨道/运动轨迹、元数据轨道与表示媒体内容的音频轨道和/或视觉轨道的指纹一起关联和存储。

在步骤22中，从周围环境中捕获媒体信号的音频部分。例如，除了环境声音之外，还从麦克风12接收媒体信号。因此，根据设备，所捕获的音频可以包括多个不同的音频部分。可以使用分布在视听设备的周围环境中的多个麦克风中的相应一个来捕获每一个音频部分，尽管考虑使用单个麦克风12，而不管多通道设备中的多个装置所产生的环境声音。在一些实施例中，每一个捕获的音频部分可以对应于由对应的任何一个麦克风听到的音频通道的组合。换言之，麦克风可以从房间中的不同物理位置捕获音频，从而允许媒体内容的音频通道的后续分离。例如，可以使用八个麦克风来捕获来自六个不同扬声器的音频部分，并基于八个捕获的音频部分来解析六个声道。放置麦克风的房间的配置会影响麦克风捕获的音频部分。例如，在一个实施例中，房间可以具有多个扬声器和一个或多个麦克风。在该实施例中，由麦克风捕获的包括直接声音和反射声音的音频部分可以被数学处理，以共同检索从任何给定的一个扬声器传入的音频通道。以这种方式，可以将声音签名与房间中的不同位置相关联，因此在一些实施例中，这可以有助于噪声去除。

在步骤24中，获得与所接收的媒体信号的音频部分相对应的指纹(也称为签名)。根据一个实施例，获得对应于媒体信号的接收部分的指纹的步骤(步骤24)包括计算媒体信号的接收部分的指纹，以便提取随时间表征音频信号的特征序列。

在一个实施例中，为解决与环境声音相关的问题，调节来自捕获声音或来自包括麦克风的硬件的音频增益，以使输入声级最佳。

在步骤24中，在触觉信号尚未与媒体内容同步的情况下，如果捕获的信号饱和，则来自捕获音频的音频增益系统地降低。仍然在没有同步的情况下，如果音频电平不足，则音频增益逐渐增加，直到达到被认为足够的阈值。音频增益的降低和随后的逐渐增加可以被称为自动增益控制(AGC)。可以由增益控制模块在方法20的任何进一步步骤之前将音频增益应用于捕获的音频部分来执行AGC。在一些实施例中，当峰值幅度高于饱和阈值时，增益控制模块可以降低音频增益。当峰值幅度低于可检测声音阈值时，增益控制模块可以增加音频增益。否则，例如，当捕获的音频部分的峰值幅度高于可检测声音阈值并低于饱和阈值时，增益控制模块可以保持给定的音频增益。在一些实施例中，给定的音频增益旨在可以同时应用于所有麦克风。在一些其他实施例中，音频增益模块可以将独立的音频增益应用于不同的麦克风，从而补偿可能需要更多或更少音频增益的麦克风，这取决于它们在房间中相应的位置。

在计算指纹的步骤中，可将媒体信号部分的指纹生成为唯一对应于媒体信号的波形的代码。在生成这种唯一代码(即编码标识符)时，如本文所述，通过参考其指纹，由此生成指纹的媒体信号的相应波形此后是可识别的。

因此，在步骤24中获得的指纹可以是特征序列，例如，采样的时域音频源表示或其子集、频域表示或其子集、前述信号的任何变换或这些信号、其子集或其变换子集的任何组合的形式。例如，表示音频的瞬时功率的时域信号的均方根(RMS)值的包络可以用来构成指纹。

在步骤26中，根据与可在数据库或基于云的数据库中访问的至少一个参考媒体内容的参考时间位置相关联的参考指纹，识别对应于所获得的指纹的媒体内容的时间位置。

更具体而言，在步骤26的一个实施例中，查询多个回放时间位置处的媒体信号的指纹的编码标识符的数据库(也称为存储介质)。媒体信号部分的指纹与和媒体内容内的参考时间位置相关联的参考指纹相匹配。根据一个实施例，在远程网络服务器(未示出)上识别媒体内容的时间位置(步骤26)。

根据一个实施例，方法20可包括在识别媒体内容的时间位置之前，接收媒体信号所对应的至少参考媒体内容中的一个参考媒体内容的身份的步骤(步骤26)。例如，可以接收由图1的设备的用户输入的身份。在这种情况下，使用与所识别的参考媒体内容的参考时间位置相关联的参考指纹来执行识别媒体内容的时间位置的步骤26。在一些实施例中，参考媒体内容的身份可能不存在。在这些实施例中，所捕获的指纹可以与属于多个不同参考媒体内容身份的参考指纹进行比较。

方法20可还包括接收与输出的触觉信号相关的至少一个参考指纹，当获得的指纹与至少一个参考指纹中的任何一个都不匹配时，停止触觉信号的输出。还可能包括改进和更新元数据。

在步骤24的另一个实施例中，获得指纹包括直接从触觉信号中检索识别时间位置的媒体信号部分的指纹的编码标识符。

在步骤28中，获得与媒体内容的识别时间位置相关联的观看者效果信号，例如，触觉信号。根据一个实施例，从远程网络服务器(未示出)获得与媒体内容的识别时间位置相关联的触觉信号。

根据步骤28的实施例，识别当前回放时间位置包括连续执行获得指纹、识别时间位置和获得触觉信号的步骤，以保持输出与媒体信号同步的触觉信号，从而确保触觉信号的连续同步。

根据步骤28的另一个实施例，识别当前回放时间位置包括执行获得指纹、识别时间位置和以给定频率获得触觉信号，以使输出触觉信号与媒体信号重新同步。在使用一个以上麦克风来捕获媒体内容的音频部分的情况下，也可以对每一个捕获的音频部分执行这些步骤。

识别的时间位置是指至少一个媒体内容内的媒体信号的位置，该媒体内容被识别为对应于当前正在扬声器(用于音频)、屏幕或显示器(用于视频)和运动反馈系统(用于运动)中的任一个上播放的媒体内容(对应于获得的指纹)。

步骤30涉及使用识别的媒体内容的时间位置，输出与媒体信号同步的触觉信号。触觉信号最终被发送到运动反馈系统10(图4)，运动反馈系统具有用于根据触觉信号移动座椅S的致动器10A-10N。观看者效果信号被发送到适当的设备进行回放。这可以包括便携式装置(例如，智能电话、平板电脑、专用音频装置、座位监视器)，其显示额外的书写数据(例如，针对听力受损者)或输出额外的音频数据(例如，针对视觉受损者)。这适用于本文描述的任何观看者效果信号。

根据一个实施例，方法20还包括在识别媒体内容的时间位置之前接收对应于媒体内容的触觉信号(步骤26)，其中，直接从接收的触觉信号中检索参考指纹。

根据一个实施例，同步触觉信号存储在存储装置中，例如，以缓冲方式存储，以最终发送至运动反馈系统10。

在一个示例中，在播放媒体信号时实时执行方法20，并且例如使用麦克风12捕获音频。

进一步，根据另一个实施例，方法20还可包括接收与输出的触觉信号相关的至少一个参考指纹，当获得的指纹与至少一个参考指纹中的任何一个都不匹配时，停止触觉信号的输出，尽管进行了步骤24的处理。

图3示出了用于确定对应于媒体内容的触觉信号是否与媒体内容的媒体信号同步的方法100的实施例。方法100可以在使用图2的方法20的初始同步之后发生。

在步骤102中，例如使用麦克风12捕获媒体信号的音频部分。在步骤104中，基于媒体信号的捕获的音频部分，获得当前回放时间位置的媒体信号的指纹(即，获得的指纹)。

媒体信号的指纹可包括额外信息，例如，元数据轨道。元数据轨道可用于进一步处理音频捕获，以用于后续的指纹生成。

音频捕获的特征序列和参考音频轨道的相应特征序列可随时间进行比较，以产生距离估计，指示特征随时间的不同程度。特征距离随时间变化的信息的这种比较可以用于以减小特征距离的方式修改捕获的音频。

在一个实施例中，捕获音频的修改可为可调标量增益。在这种情况下，可以执行自动增益控制模块，例如，通过同时考虑从参考音频轨道的音量推断的音频捕获的预期音量的知识。作为另一种形式，对捕获的音频的修改可以包括实现传递函数，该传递函数取消了通过由麦克风12或播放装置响应捕获而应用于原始音频信号的修改。作为示例，自适应滤波器可以模拟麦克风12捕获音频的房间的声学响应的逆声学响应。在一些实施例中，可以通过在房间内播放参考音频轨道并通过使用麦克风12捕获结果音频信号来确定房间的声学响应。通过将捕获的音频信号和参考音频轨道相互比较，可以确定房间的声学响应。一旦确定，房间的声学响应可以用于相应地修改任何随后捕获的音频信号，这可以简化相应指纹的识别。否则，在一些其他实施例中，也可以根据房间的声学响应来修改参考指纹。例如，基于对播放音频轨道的了解和对房间的音频响应的了解，可以识别所捕获的音频部分的噪声，并且通过比较所捕获的音频部分和所捕获的音频部分的预期版本，可能随后减去该噪声。注意，房间的声学响应可能取决于视听设备所呈现的声音类型。例如，房间的声学响应可以考虑是根据立体声还是环绕声产生声音。在视听设备的中央声道、左声道和右声道使用不同音频轨道的实施例中，麦克风可以被定位成有利地优化从中央声道传入的捕获声音的量。在一些其他实施例中，麦克风可以被定位成优化从左声道和右声道传入的捕获声音的量，从而最小化可能难以同步的语言相关指纹(通常由中央声道携带)的影响，尤其是当一个以上语言轨道可用时。

作为另一种可能性，可在参考音频轨道处理路径中的特征提取功能之前实施音频处理。该模块将实现房间的声学模型，因此两侧(参考音频和捕获音频)的特征提取将产生相对不受房间声学影响的特征距离。在一些实施例中，房间的声学模型可以考虑受约束的位置，例如，包含引起声波反射的多个物理元素的房间，例如，墙壁、家具或人。在一些其他实施例中，声学模型可以代表开放区域。

应用于音频捕获通道的处理还可提供与预期音频电平相关的声学音频电平的估计。更准确地说，源自特征距离估计的信息允许评估所捕获的音频中的硬件音频增益(例如，麦克风12)是否是最佳的。例如，如果当前硬件增益使得未充分利用硬件链的可用动态范围，则相对于最佳水平的当前音频电平的知识允许调整硬件增益，因此音频将使用音频硬件的动态范围的最佳部分。

在利用麦克风12捕获音频的特定情况下，对音频信号中包含的信息具有先验知识的音频处理能够至少部分地将音频捕获中来自媒体回放的部分与不来自媒体回放的部分分离。后一部分可能来自房间中存在的其他噪声源，并且最常见的可能来自麦克风捕获范围中的不同位置。

在一个或多个麦克风12的情况下，预期音频(媒体回放)和其他源之间的区分可通过房间中的不同反射模式进行，因为媒体回放的声源通常位于与麦克风12捕获范围内的声学噪声源不同的位置。

在一个以上麦克风12捕获音频的情况下，音频处理将具有调谐麦克风输入增益和相位的能力，以提高媒体音频源方向的灵敏度，降低噪声源方向的灵敏度，实际上实现了波束形成。例如，在一些实施例中，麦克风可以位于房间内的不同位置，以便找到麦克风的最佳位置。当定位在最佳位置时，麦克风可以拾取更少量的噪声，这可以减少必须实时执行以执行方法20的处理量，例如，音频增益修改。

在步骤106中，基于观看者效果信号中的当前位置，检索媒体内容的时间位置处的媒体信号部分的参考指纹。

在步骤108中，将步骤106的参考指纹与步骤104获得的指纹进行比较。在步骤110中，基于该比较，如果两个指纹彼此相似，则确定触觉信号与媒体信号同步。否则，确定两个指纹彼此不同，触觉信号和媒体信号不同步。例如，如果触觉信号内的位置突然改变，例如，在快进或跳章操作期间，这可能发生。结果，系统可以自动选择应用方法20来恢复同步。

在步骤104的另一个实施例中，获得指纹包括直接从触觉信号中检索识别时间位置的媒体信号部分的指纹的编码标识符。

在步骤112中，根据确定触觉信号是否与媒体信号同步的结果，输出使用媒体内容的识别时间位置与媒体信号同步的触觉信号，用于控制运动反馈系统(步骤110)。

现在，参考图4，示出了用于使长篇电影的触觉信号和媒体信号同步的装置50的实施例。装置50被配置用于实现方法20和100的至少一些步骤。装置50具有输入单元52；处理单元54；存储器56；一个或多个数据库(此处是数据库58和60)；与具有致动器1至N、10A至10N的运动反馈系统10通信的输出单元62。

输入单元52用于接收媒体信号的一部分。输入单元52因此可以从麦克风12或所使用的其他捕获装置(包括线路输入、光学装置、惯性传感器等)接收捕获的音频。

数据库58和60分别用于存储与特定已知媒体内容(例如，已知长篇电影)相关的触觉信号、参考媒体信号指纹和/或元数据轨道。数据库58和60可以在装置50内、基于云、在专用服务器上等，并且可以以任何适当的方式访问。这种参考指纹是已经为已知媒体内容导出的标识符，并且已知其与已知媒体内容唯一相关。额外信息可以与参考指纹相关，包括媒体内容的元数据轨道。

处理单元54与输入单元52、数据库58和60以及存储器56通信。因此，存储器56可由处理单元54访问，并且可以是可通信地耦合到处理单元54的非暂时性计算机可读存储器，并且包括可由处理单元54执行以执行方法20和100的一些步骤的计算机可读程序指令。在一个实施例中，存储器56用于存储用于实现处理单元54的指令，以对媒体信号执行一系列步骤，包括从数据库58和60访问和检索数据，并且执行允许触觉信号与媒体信号同步的处理步骤，如方法20和100中那样，包括音频处理。处理单元54还与输出单元62通信，使得触觉信号一旦被检索和同步，就被发送出去，以存储在数据库(未示出)上，或者在媒体信号回放期间被直接发送到运动反馈系统10。尽管在所示的实施例中处理单元54被示为是本地的，但是在一些其他实施例中处理单元可以是远程的。例如，处理单元可以以可经由一个或多个网络(例如，互联网)访问的一个或多个虚拟机的形式提供。注意，这种远程处理可以有利地降低对任何本地处理单元的计算能力要求，和/或还便于随着时间的推移可能需要的软件、固件和/或硬件更新。

一旦在处理单元54处接收到媒体信号部分，经由其从输入单元52传输，处理单元54获得对应于媒体信号的接收部分的指纹。

然后，处理单元54继续从与至少一个参考媒体内容的时间位置相关联的参考指纹中识别与获得的指纹相对应的媒体内容的时间位置。例如，为了执行这种比较，处理单元54访问参考指纹的数据库60；经由可选地将数据检索到可选的内部存储器(未示出)来解析，直到在参考媒体信号指纹和媒体信号的指纹之间检测到匹配。当没有检测到匹配时，错误信号被发送到用户界面(未示出)。

如上文步骤24和104所述，处理装置54还可出于校准目的处理捕获的音频。处理装置54连续获得与媒体内容的识别时间位置相关联的触觉信号。当达到同步时，处理装置54知道媒体内容的身份和对应于即时回放的时间戳。当保持同步时，处理装置54将接收到的声级与根据元数据轨道应该达到的声级进行比较，以通过查看该时间戳处的功率轨道来获得最佳时间。如果判断接收的声级超出了最佳预定声级的给定阈值，则处理装置54的音频增益被修改为接近最佳值。

这种优化声级的方法有助于预测媒体内容音频中的静音，以提高鲁棒性，并更快地检测与运动轨迹同步的音频轨道的丢失。更具体而言，同步必须容忍音频虽然存在但不能确认同步的周期。这是静音的情况，其中，处理单元54可能没有足够的音频分辨率来确认同步。如果元数据轨道通知处理单元54静音期间的等待周期，则处理单元54可以快速检测媒体内容之间的不匹配(如果预期具有响亮的音频的话)，并因此检测到失去同步。当失去同步时，或者在媒体内容结束时，恢复上述AGC算法。此外，在一些实施例中，例如，当由于静音周期而暂时失去同步时，可以不尝试优化音频增益。

基于所识别的媒体内容的时间位置，处理装置54能够将触觉信号与媒体信号同步并输出。例如，为了做到这一点，处理单元54从数据库58中检索并发送触觉信号，该触觉信号开始于所识别的时间位置，该时间位置对应于在输入单元52处接收的媒体信号的参考时间。因此，在输出单元62处发送的触觉信号与媒体信号的播放时间位置同步。

根据另一个实施例，提供了一种非暂时性计算机可读存储器(未示出)，其上记录有由计算机执行的语句和指令，以执行用于使对应于媒体内容的触觉信号与媒体内容的媒体信号同步的方法。触觉信号用于控制运动反馈系统。该方法包括图2所示的方法20。

最后，根据另一个实施例，提供了一种非暂时性计算机可读存储器(未示出)，其上记录有由计算机执行的语句和指令，以执行用于确定对应于媒体内容的触觉信号是否与媒体内容的媒体信号同步的方法。触觉信号用于控制运动反馈系统。该方法包括图3所示的方法100。

方法100中所述的以及由装置50实施的音频处理和校准可使用通过识别媒体内容获得的音频轨道知识，进行更稳健的指纹生成，以实现更有效的同步。因此，当音频停止或媒体内容改变时，这可以导致更快地检测到失去同步。

可实施不同的方法来实现失去同步的满意检测。例如，图5A示出了使用麦克风捕获的音频部分500的示例。在该特定实施例中，捕获的音频部分500在进行中用增益控制模块修改。如图所示，当确定捕获的音频部分500的峰值幅度不令人满意时，增益控制模块可以将音频增益应用于捕获的音频部分500。例如，在区域502，确定捕获的音频部分500的峰值幅度高于饱和阈值Sth，这可以指示麦克风饱和。因此，增益控制模块逐渐降低整个区域502的音频增益。在该实施例中，音频增益降低得有点太多，因为捕获的音频部分500的峰值幅度低于可检测声音阈值Smin。作为响应，增益控制模块逐渐增加整个区域504的音频增益，直到捕获的音频部分500的峰值幅度达到令人满意的水平。对于捕获的音频部分500的剩余部分，当检测到的峰值幅度在可检测声音阈值Smin和饱和阈值Sth之间振荡时，由增益控制模块应用的音频增益保持恒定。在该实施例中，增益控制模块可以基于检测到的瞬时峰值幅度对捕获的音频部分应用音频增益。然而，在一些其他实施例中，增益控制模块可以基于捕获的音频部分500的包络的峰值幅度对捕获的音频部分应用音频增益。图5B示出了对应于由增益控制模块应用于捕获的音频部分500的增益的演变的增益演变曲线506。在一些实施例中，例如，增益演变曲线506可以与要作为元数据轨道的一部分保存以供以后使用的给定的媒体内容相关联。注意，尽管在该实施例中增益控制模块考虑捕获的音频信号的峰值幅度，但是在一些其他实施例中，增益控制模块也可以考虑其他类型的幅度，例如，平均幅度、RMS幅度等。

返回参考图5A，一旦确定捕获的音频部分500的峰值幅度令人满意，则可获得捕获的音频部分500的指纹508。所获得的指纹508可以因实施例而异。如上参考方法20所述，将获得的指纹508与多个参考指纹进行比较，以找到匹配的参考指纹。参考指纹可以存储在可以经由网络(例如，互联网)访问的远程存储器上。在该特定实施例中，匹配参考指纹510在图5C中示出。如图所示，匹配参考指纹510是相应媒体内容的音频轨道512的一部分。如图所示，识别参考指纹510的参考时间位置tr。参考时间位置可以对应于相应指纹的开始时间位置、中间时间位置和/或结束时间位置。这种匹配允许提取观看者效果信号514，观看者效果信号514与相应的媒体内容相关联，如图5D所示，该媒体内容可用于向观看者产生观看者效果，例如，运动轨迹。更具体地，与所识别的时间位置tr相关联的观看者效果信号514被输出到观看者效果产生装置，该观看者效果产生装置将基于所输出的观看者效果信号向观看者产生效果，从而输出与所捕获的音频部分500同步的观看者效果信号。

一旦实现同步，可反复执行方法100，以确保观看者效果信号与捕获的音频部分随时间保持同步。如果方法100确认同步，则与捕获的音频部分500同步的观看者效果信号继续输出到观看者效果产生装置。如果方法100发现失去同步，则可以停止观看者效果信号，从而停止经由观看者效果产生装置向观看者产生的任何效果。在这种情况下，方法20立即开始，目的是快速返回到同步状态。在一些实施例中，从捕获的音频部分获得的指纹可以与属于相同媒体内容但在先前或后续场景中的参考指纹相匹配。在一些其他实施例中，所获得的指纹可以与不同的媒体内容相匹配。

注意，方法100可包括不同组的步骤，以确保失去同步与捕获的音频部分的质量无关。实际上，在一些实施例中，如果例如i)麦克风已经拾取了大量的环境声音，ii)视听设备的音量已经改变，从而在增益控制模块的调节中产生滞后，iii)所获得的指纹属于音频轨道的无特征部分，以及iv)任何其他次优情况，则最近捕获的音频部分的指纹可能无法与相应媒体内容的参考指纹匹配。在这些实施例中，优选地，延迟从方法100到方法20的切换，而是继续输出与音频轨道同步的观看者效果信号至少给定的时间量，以确保向观看者产生的效果的一定连续性。

这样，在一些实施例中，当确定观看者效果不再与媒体信号同步时，可停止输出观看者效果信号。在一些实施例中，可以立即停止输出观看者效果信号。然而，在一些其他实施例中，输出的观看者效果信号可以仅在给定的异步延迟之后停止。因此，即使不同步，观看者效果信号的输出也可以至少保持给定的持续时间。在一些实施例中，异步延迟是预定值。例如，可以是零或者在大约1秒和大约1分钟之间的范围内。如下面进一步描述的，在一些其他实施例中，异步延迟可以随着媒体内容的音频轨道而变化。在一些实施例中，可以接收与媒体内容相关联的可接受的异步延迟数据。可接受的异步延迟数据可以包括与媒体内容的相应参考时间位置相关联的可接受的异步延迟值。因此，在这些实施例中，可以基于接收可接受的异步延迟数据和媒体内容的当前参考时间位置来确定给定的异步延迟。可替换地或额外地，可以接收与媒体内容相关联的同步置信度数据。同步置信度数据可以包括与媒体内容的相应参考时间位置相关联的同步置信度值。在这些实施例中，可以基于同步置信度数据和媒体内容的当前参考时间位置来确定给定的异步延迟。可接受的异步延迟数据和同步置信度数据可以是与媒体内容相关联的元数据轨道的一部分。

在一些实施例中，可通过预期静音来避免失去同步，例如，如在音频轨道512的区域516和518所示。实际上，如果媒体内容的音频轨道512是已知的，则可以考虑任何静音或音频电平下降。例如，可在音频增益确定中考虑这些静音或音频电平下降，在此情况下，可在整个区域516和518中维持音频增益，以避免不必要的音频增益增加。更具体地，在这些静音期间，即使检测到的峰值幅度低于可检测声音阈值Sth，音频增益也不会增加。因此，可以假设观看者效果信号514和音频轨道512之间的同步令人满意，直到任何预期的静音结束。

在一些实施例中，可通过使用与给定的媒体内容相关联的元数据轨道来避免失去同步。例如，图5E示出了元数据轨道的示例性内容，具有作为示例的与图5C的媒体内容相关联的同步置信度曲线或轨道520。在该实施例中，同步置信度曲线520将音频轨道512中预期更容易识别的部分(即音频轨道512的特征部分)与音频轨道512中预期不太容易识别或不具有特征的部分区分开来。例如，音频轨道512的特征部分(可以包括但不限于汽车追逐522、音乐524等)可以更容易地与相应的参考指纹匹配。相比之下，音频轨道512的无特征部分可能不太容易与相应的参考指纹匹配，该无特征部分可能包括静音516和518、与其语言轨道无关的对话526、雨528和其他类型的白噪声。例如，元数据轨道的同步置信度曲线520在预期对应的音频轨道与特征部分相关联的情况下可以趋向一致，而同步置信度曲线520在预期对应的音频轨道与无特征部分相关联的情况下可以趋向零，反之亦然。在一些实施例中，同步置信度曲线520是有用的，因为基于在音频轨道的特征部分内获得的指纹而检测到的同步丢失可能导致瞬间停止观看者效果信号。实际上，如果根据同步置信度曲线520，给定的指纹在相当大的置信度内与相应的参考指纹匹配，并且方法100未能这样做，则可以指示所捕获的音频部分不再对应于预期的媒体内容，在这种情况下，应该停止产生观看者效果。然而，如果在指纹应该在该识别的时间位置显示对话而不管其语言轨道时，用方法100检测到缺少同步，则观看者效果信号可以保持给定的时间段，直到例如在音频轨道的更具特征的部分期间检测到实际上失去同步。在一些实施例中，当确定所捕获的音频部分质量差时，可以忙于修改同步置信度曲线520。例如，如果增益控制模块正在修改音频增益，以获得令人满意的声级，则在此期间检测到的任何同步丢失可能具有较低的置信度。

在一些实施例中，元数据轨道还可包括异步容限曲线或轨道530。例如，如果在音频轨道的特征部分内检测到失去同步，则方法100所容忍的异步容限延迟可以比在音频轨道的无特征部分期间检测到失去同步时更短。这样，在捕获的音频信号较差或处于长时间静音期间的情况下，异步容限延迟可能特别有用。注意，在该实施例中，同步置信度曲线520和异步容限曲线530以相应曲线的形式示出。然而，在一些其他实施例中，可以以任何其他合适的形状或形式提供这些曲线携带的信息，例如，以表格等形式。这种元数据轨道可能是有用的，因为可以随着时间的推移提供观看者效果信号的更平滑的呈现。

在一些实施例中，可由训练有素的用户通过收听音频轨道并使用适当的软件实时注释其每一个部分来确定音频轨道的特征和无特征部分。然而，在一些其他实施例中，可以使用经过训练的机器学习模块来确定音频轨道的特征和无特征部分，该模块可以对音频轨道的每一个部分进行分类。例如，可以使用先前注释的音频轨道来训练这种机器学习模块。在一些替代实施例中，根据音频轨道中的信噪比，测量识别可识别指纹的概率，这可以用作确定相应同步置信度轨道的基础。

在上述示例中，由于音频轨道的语言可能不同于默认语言，可将包括语音在内的会话(例如，会话526)视为音频轨道中不太容易识别的部分。例如，图6A和图6C示出了英语版音频轨道的瞬时峰值幅度变化和包络变化，而图6B和图6D示出了同一法语版音频轨道的瞬时峰值幅度变化和包络变化。如在图6E中最佳示出的，该图示出了英语版和法语版音频轨道的包络变化的比率，可以注意到在相应的时间位置，英语版和法语版音频轨道之间的指纹或特征差异相对不明显。因此，相应音频轨道的包络变化可以优选地用于音频增益控制目的。在一些实施例中，音频轨道的瞬时峰值幅度变化是同步确定的优选轨道。例如，如果在谈话期间执行方法100，或者在英语版和法语版音频轨道之间观察到差异的情况下，获得同步丢失的置信度可能较低，这可能导致输出与音频轨道同步的观看者效果信号，以保持给定的时间量。例如，可以保持输出，直到在音频轨道的不期望在语言之间有显著变化的部分期间获得同步丢失。

在一些实施例中，在会话期间执行方法100，但是可以忽略在这些会话期间获得的任何同步丢失，从而继续输出与音频轨道同步的观看者效果信号。在一些实施例中，执行方法20可以识别给定的媒体内容和对应的音频轨道。注意，当执行方法100时，更具体而言，在所获得的指纹和相应音频轨道的参考指纹之间的比较步骤期间，该方法可以包括确认所捕获的音频部分属于默认语言轨道的步骤。在一些实施例中，所获得的指纹和参考指纹之间的一些差异可以指示音频轨道不是默认语言。在这样的实施例中，如果这些差异可以被最小化或者如果可以找到与属于不同语言轨道的参考指纹的匹配，则该方法可以包括找到与音频轨道相关联的正确语言轨道并用默认语言轨道替换正确语言轨道的步骤。例如，在一些实施例中，可以在所获得的指纹和与同一媒体内容相关联的不同语言轨道的参考指纹之间执行关联。在这些实施例中，可以基于相关结果和/或基于同步置信度数据来识别正确的语言轨道。

虽然上文已描述了实施例，并在附图中进行了说明，但对本领域技术人员而言，显然，可以在不脱离本公开范围的情况下对其进行修改。例如，尽管麦克风用于捕获媒体内容的音频部分，但是其目的在于，可以移除并由捕获媒体内容的图像部分的相机来替换麦克风。在这些实施例中，视觉指纹可以与参考视觉指纹相匹配，参考视觉指纹包括但不限于流媒体或任何其他类型的媒体中的水印、时间戳或电影IDS。这种修改被认为是包含在本公开范围内的可能变体。

Claims

1.一种用于将媒体内容的观看者效果信号与媒体内容的媒体信号同步的系统，所述系统包括：

至少一个麦克风，从周围环境中捕获所述媒体信号的音频部分；

控制器，通信地耦合到所述至少一个麦克风，所述控制器具有处理器和存储有指令的非暂时性存储器，当由所述处理器执行时，所述指令执行以下步骤：

从所捕获的媒体信号的音频部分获得指纹；

根据与参考媒体内容的参考时间位置相关联的参考指纹，识别对应于所获得的指纹的媒体内容的时间位置；

获得与所识别的媒体内容的时间位置相关联的所述观看者效果信号；以及

输出使用所识别的媒体内容的时间位置的与所述媒体信号同步的所述观看者效果信号，能够用于向观看者产生与所述媒体信号同步的效果。

2.根据权利要求1所述的系统，其中，使所述至少一个麦克风与观看者座位构成一体。

3.根据权利要求1或2所述的系统，其中，所述至少一个麦克风包括捕获所述媒体信号的不同音频部分的多个麦克风。

4.根据权利要求3所述的系统，其中，所述多个麦克风分布在所述周围环境内。

5.根据权利要求3所述的系统，其中，针对所捕获的媒体信号的音频部分中的每一个执行获得、识别和获得步骤。

6.根据权利要求1至5中任一项所述的系统，其中，所述参考指纹存储在远程数据库上，并且在识别期间能够由所述控制器访问。

7.根据权利要求1至6中任一项所述的系统，其中，获得所述观看者效果信号包括从远程数据库中检索所述观看者效果信号。

8.根据权利要求1至7中任一项所述的系统，其中，所述控制器具有增益控制模块，所述增益控制模块在识别之前将给定的增益应用于所捕获的音频部分。

9.根据权利要求8所述的系统，其中，当峰值幅度高于饱和阈值时，所述增益控制模块减小所给定的增益，当所述峰值幅度低于可检测声音阈值时，增加所给定的增益，并且当所述峰值幅度高于所述可检测声音阈值并且低于所述饱和阈值时，保持所给定的增益。

10.根据权利要求1至9中任一项所述的系统，还包括通信地耦合到所述控制器的观看者效果产生装置，所述观看者效果产生装置基于与所述媒体信号同步的所输出的观看者效果信号向观看者产生效果。

11.根据权利要求10所述的系统，其中，所述观看者效果产生装置是运动反馈装置，所述观看者效果信号对应于触觉信号。

12.一种用于将媒体内容的观看者效果信号与所述媒体内容的媒体信号同步的方法，所述观看者效果信号用于向观看者产生效果，所述方法包括：

使用至少一个麦克风从周围环境中捕获所述媒体信号的音频部分；

从所捕获的媒体信号的音频部分获得指纹；

根据与至少参考媒体内容的参考时间位置相关联的参考指纹，识别对应于所获得的指纹的媒体内容的时间位置；

输出使用所识别的媒体内容的时间位置的与所述媒体信号同步的所述观看者效果信号，用于产生与所述媒体内容的媒体信号同步的效果。

13.根据权利要求12所述的方法，还包括基于与所述媒体信号同步的所输出的观看者效果信号，产生与所述媒体内容的媒体信号同步的效果。

14.根据权利要求13所述的方法，其中，所述观看者效果信号是触觉信号，产生包括根据所述触觉信号激活运动反馈装置的一个或多个致动器。

15.根据权利要求12至14中任一项所述的方法，还包括接收所述媒体内容的身份，所述参考指纹与所述媒体内容的身份相关联。

16.根据权利要求12至15中任一项所述的方法，其中，捕获包括捕获所述媒体信号的多个音频部分，针对所捕获的媒体信号的音频部分中的每一个执行获得、识别和获得的步骤。

17.根据权利要求12至16中任一项所述的方法，其中，所述参考指纹存储在远程数据库上，识别包括从所述远程数据库访问所述参考指纹。

18.根据权利要求12至17中任一项所述的方法，其中，获得所述观看者效果信号包括从远程数据库中检索所述观看者效果信号。

19.根据权利要求12至18中任一项所述的方法，其中，获得所述指纹包括在识别之前将给定的增益应用于所捕获的音频部分，所给定的增益取决于峰值幅度。

20.根据权利要求19所述的方法，其中，当所述峰值幅度高于饱和阈值时，所给定的增益减小，当所述峰值幅度低于可检测声音阈值时，增加所给定的增益，并且当所述峰值幅度高于所述可检测声音阈值并且低于所述饱和阈值时，保持所给定的增益。

21.一种用于确定媒体内容的观看者效果信号是否与所述媒体内容的媒体信号同步的系统，所述系统包括：

观看者效果产生装置，基于所述观看者效果信号向观看者产生效果；

至少一个麦克风，从周围环境中捕获所述媒体信号的音频部分；以及

控制器，通信地耦合到所述观看者效果产生装置和所述至少一个麦克风，所述控制器具有处理器和存储有指令的非暂时性存储器，当由所述处理器执行时，所述指令执行以下步骤：

获得所捕获的媒体信号的音频部分的指纹；

基于所述观看者效果信号的当前时间位置，在所述媒体内容的参考时间位置处检索所述媒体信号的参考指纹；

将所获得的指纹与所述参考指纹相互比较；

基于比较，确定所述观看者效果信号是否与所述媒体信号同步；以及

根据确定，输出与所述媒体信号同步的所述观看者效果信号，用于使用所述观看者效果产生装置产生与所述媒体内容同步的效果。

22.根据权利要求21所述的系统，还包括在确定所述观看者效果信号与所述媒体信号不同步时，停止输出所述观看者效果信号。

23.根据权利要求22所述的系统，还包括在停止之前，保持给定的异步延迟的输出。

24.根据权利要求23所述的方法，其中，所给定的异步延迟是零和在大约1秒和1分钟之间的范围中的至少一个。

25.根据权利要求23所述的系统，还包括接收与所述媒体内容相关联的能够接受的异步延迟数据，所述能够接受的异步延迟数据包括与所述媒体内容的参考时间位置中的相应参考时间位置相关联的多个能够接受的异步延迟值，并且基于接收能够接受的异步延迟数据和所述媒体内容的参考时间位置来确定所给定的异步延迟。

26.根据权利要求23所述的系统，还包括接收与所述媒体内容相关联的同步置信度数据，所述同步置信度数据包括与所述媒体内容的参考时间位置中的相应参考时间位置相关联的多个同步置信度值，并且基于所述同步置信度数据和所述媒体内容的参考时间位置来确定所给定的异步延迟。

27.根据权利要求21至26中任一项所述的系统，其中，使所述至少一个麦克风与观看者座位构成一体。

28.根据权利要求21至27中任一项所述的系统，其中，所述控制器具有增益控制模块，所述增益控制模块在检索之前将给定的增益应用于所捕获的音频部分。

29.根据权利要求21至28中任一项所述的系统，还包括通信地耦合到所述控制器的观看者效果产生装置，所述观看者效果产生装置基于与所述媒体信号同步的所输出的观看者效果信号向观看者产生效果。

30.根据权利要求29所述的系统，其中，所述观看者效果产生装置是运动反馈装置，所述观看者效果信号对应于触觉信号。

31.一种用于确定媒体内容的观看者效果信号是否与所述媒体内容的媒体信号同步的方法，所述方法包括：

基于所述观看者效果信号向观看者产生效果；

从周围环境中捕获所述媒体信号的音频部分；

获得所捕获的媒体信号的音频部分的指纹；

将所获得的指纹与所述参考指纹相互比较；

32.根据权利要求31所述的方法，还包括在确定所述观看者效果信号与所述媒体信号不同步时，停止输出所述观看者效果信号。

33.根据权利要求32所述的方法，还包括在停止之前，保持给定的异步延迟的输出。

34.根据权利要求33所述的方法，其中，所给定的异步延迟是零和在大约1秒和1分钟之间的范围中的至少一个。

35.根据权利要求33所述的方法，还包括接收与所述媒体内容相关联的能够接受的异步延迟数据，所述能够接受的异步延迟数据包括与所述媒体内容的参考时间位置中的相应参考时间位置相关联的多个能够接受的异步延迟值，并且基于接收能够接受的异步延迟数据和所述媒体内容的参考时间位置来确定所给定的异步延迟。

36.根据权利要求33所述的方法，还包括接收与所述媒体内容相关联的同步置信度数据，所述同步置信度数据包括与所述媒体内容的参考时间位置中的相应参考时间位置相关联的多个同步置信度值，并且基于所述同步置信度数据和所述媒体内容的参考时间位置来确定所给定的异步延迟。

37.根据权利要求31至36中任一项所述的方法，其中，捕获包括捕获所述媒体信号的多个音频部分，针对所捕获的媒体信号的音频部分中的每一个执行获得、检索和比较的步骤。

38.根据权利要求31至37中任一项所述的方法，其中，获得所述指纹包括在识别之前将给定的增益应用于所捕获的音频部分，所给定的增益取决于峰值幅度。

39.根据权利要求38所述的方法，其中，当所述峰值幅度高于饱和阈值时，所给定的增益减小，当所述峰值幅度低于可检测声音阈值时，增加所给定的增益，并且当所述峰值幅度高于所述可检测声音阈值并且低于所述饱和阈值时，保持所给定的增益。

40.根据权利要求31至39中任一项所述的方法，其中，所述观看者效果信号是触觉信号，产生包括根据所述触觉信号激活运动反馈装置的一个或多个致动器。