CN113330750B

CN113330750B - 用于媒体内容替换的方法、计算机可读介质和计算系统

Info

Publication number: CN113330750B
Application number: CN201980089238.7A
Authority: CN
Inventors: 马库斯·K·克莱莫; 沙尚克·麦钱特; 罗伯特·库弗; 托德·J·霍奇斯; 约书亚·欧内斯特·莫里斯
Original assignee: Liuke Co ltd
Current assignee: Liuke Co ltd
Priority date: 2018-11-16
Filing date: 2019-11-15
Publication date: 2022-11-11
Anticipated expiration: 2039-11-15
Also published as: TWI739211B; US11042353B2; WO2020102632A1; EP3881556B1; TW202034705A; US20220276831A1; JP2022507767A; US11347470B2; TW202123719A; JP7048825B2; US20200159489A1; US20200162048A1; EP3881556A4; CN113330750A; US20200162049A1; WO2020101951A3; TW202027513A; EP4250563A2; EP4250563A3; US20210271448A1

Abstract

在一个方面，一种示例方法包括(i)在播放设备呈现来自第一源的第一媒体内容时，由播放设备确定第一媒体内容的第一部分的第一响度级，其中第一部分具有第一长度；(ii)由播放设备从呈现来自第一源的第一媒体内容切换到呈现来自第二源的第二媒体内容；(iii)基于该切换，在播放设备呈现第二媒体内容时，由播放设备确定第一媒体内容的第二部分的第二响度级，其中第二部分具有比第一长度短的第二长度；以及(iv)在播放设备呈现第二媒体内容时，由播放设备基于第二响度级中的一个或更多个来调节播放设备的音量。

Description

用于媒体内容替换的方法、计算机可读介质和计算系统

相关申请的交叉引用

本公开内容要求于2018年11月16日提交的美国临时专利申请第62/768,596号、于2019年6月14日提交的美国临时专利申请第62/861,474号以及于2019年10月2日提交的美国临时专利申请第62/906,676号的优先权，其全部内容通过引用并入本文。

用法和术语

在本公开内容中，除非另有说明和/或除非特定上下文另有明确规定，术语“一”或“一个”是指至少一个，并且术语“该”是指至少一个。

在本公开内容中，术语“连接机制”是指促进两个或更多个部件、设备、系统或其他实体之间的通信的机制。连接机制能够是诸如线缆或系统总线之类的相对简单的机制，或者诸如基于分组的通信网络(例如，因特网)之类的相对复杂的机制。在一些情况下，连接机制能够包括无形的媒介(例如，在连接是无线的情况下)。

在本公开内容中，术语“计算系统”是指包括至少一个计算设备的系统。在一些情况下，计算系统能够包括一个或更多个其他计算系统。

背景技术

在未来的几年里，以定向广告替换媒体内容中的广告将成为一种越来越重要的广告方法。作为示例，在动态广告插入(DAI)系统中，内容提供商能够将通用广告插入到广告插播中，该广告插播中断媒体内容的序列，例如直播或预录内容。每个广告插播都能够包括以预定顺序排列的一组广告。此外，能够指定或动态地选择广告中的特定一个以用诸如定向广告之类的替换媒体内容来代替。

通过这种设置，在显示特定广告之前，播放设备能够获得替换媒体内容，并且然后提供替换媒体内容以替代特定广告来进行显示。例如，响应于确定播放设备正在播放或即将播放紧接在要被替换的特定广告之前的内容，播放设备能够从数据库检索定向广告，并且然后提供该定向广告以用于在适当的时间代替特定广告来进行显示。

发明内容

在一个方面，公开了一种示例方法。该方法包括(i)在播放设备呈现来自第一源的第一媒体内容时，由播放设备确定第一媒体内容的第一部分的第一响度级，其中第一部分具有第一长度；(ii)由播放设备从呈现来自第一源的第一媒体内容切换到呈现来自第二源的第二媒体内容；(iii)基于该切换，在播放设备呈现第二媒体内容时，由播放设备确定第一媒体内容的第二部分的第二响度级，其中第二部分具有比第一长度短的第二长度；以及(iv)在播放设备呈现第二媒体内容时，由播放设备基于第二响度级中的一个或更多个来调节播放设备的音量。

在另一方面，公开了一种示例非暂时性计算机可读介质。计算机可读介质上存储有程序指令，该程序指令在由处理器执行时使得执行一组动作，所述一组动作包括(i)在播放设备呈现来自第一源的第一媒体内容时，确定第一媒体内容的第一部分的第一响度级，其中第一部分具有第一长度；(ii)从呈现来自第一源的第一媒体内容切换到呈现来自第二源的第二媒体内容；(iii)基于该切换，在播放设备呈现第二媒体内容时，确定第一媒体内容的第二部分的第二响度级，其中第二部分具有比第一长度短的第二长度；以及(iv)在播放设备呈现第二媒体内容时，基于第二响度级中的一个或更多个来调节播放设备的音量。

在另一方面，公开了一种示例计算系统。该计算系统被配置成执行一组动作，所述一组动作包括(i)在播放设备呈现来自第一源的第一媒体内容时，确定第一媒体内容的第一部分的第一响度级，其中第一部分具有第一长度；(ii)从呈现来自第一源的第一媒体内容切换到呈现来自第二源的第二媒体内容；(iii)基于该切换，在播放设备呈现第二媒体内容时，确定第一媒体内容的第二部分的第二响度级，其中第二部分具有比第一长度短的第二长度；以及(iv)在播放设备呈现第二媒体内容时，基于第二响度级中的一个或更多个来调节播放设备的音量。

附图说明

图1是示例计算设备的简化框图。

图2是示例动态广告插入(DAI)系统的简化框图。

图3是示出根据示例实施例的参考指纹生成器、查询指纹生成器和视频识别系统的部件的简化框图。

图4是示出根据示例实施例的播放设备和替换内容服务器的部件的简化框图。

图5是示例方法的流程图。

具体实施方式

I.概述

在播放设备上的媒体内容替换事件期间，呈现第二媒体内容(即替换媒体内容)来替换第一媒体内容的一部分。例如，在媒体内容替换事件期间，从第一源接收的第一媒体内容的片段被从第二源接收的第二媒体内容替换。为了实现替换，播放设备能够从呈现从第一源接收的第一媒体内容切换到呈现从第二源接收的第二媒体内容。在一些情况下，用户可能察觉不到这种源的切换。

此外，在一些情况下，在播放设备呈现来自第二源的第二媒体内容以代替来自第一源的第一媒体内容的媒体内容替换事件期间，播放设备可能无法访问第一源的任何音量播放信息。例如，第一源的音量播放信息可以通过向播放设备提供音频信号的设备来设置，并且播放设备可能无法访问音量播放信息。因此，在媒体内容替换事件期间，如果用户尝试使用能够控制向播放设备提供音频信号的设备的遥控器来调节播放设备的音量，则播放设备可能无法访问预期的调节。例如，如果用户尝试增大或减小音量，则播放设备可能无法访问关于所请求的改变的信息，并且播放设备仍然可以继续以相同的音量级呈现第二媒体内容。对于尝试调节音量的用户来说，可能看起来好像遥控器出现故障或播放设备对所尝试的音量调节没有响应。这可能会导致观看者的不良或令人沮丧的用户体验。

本文公开了解决这个问题和潜在的其他问题的方法和系统。根据本公开内容，在媒体内容替换事件期间，向播放设备提供第一媒体内容的设备能够向播放设备提供与正被第二媒体内容替换的第一媒体内容相对应的音频信号。即使播放设备正在呈现第二媒体内容以代替第一媒体内容，该设备也能够向播放设备提供与第一媒体内容相对应的音频信号。在播放设备呈现第二媒体内容时，播放设备能够通过测量第一媒体内容的响度级来监测与第一媒体内容相对应的音频信号。如果第一媒体内容的音量级被用户改变，则播放设备正在监测的音频信号将指示该音量变化，并且播放设备能够检测到该变化。有利地，播放设备然后能够通过对第二媒体内容执行相应的音量调节来响应检测到的用户触发的音量调节。

此外，为了帮助播放设备快速检测和响应第一媒体内容的音量级的这种变化，播放设备能够在媒体内容替换事件期间确定第一媒体内容的固定长度部分的响度级。当媒体内容替换事件没有发生时，这些部分的长度能够比播放设备分析的部分的长度短。作为示例，当媒体内容替换事件开始时，播放设备能够从分析第一媒体内容的三十秒部分切换到分析第一媒体内容的一秒部分，或第一媒体内容的小于一秒的部分(例如，半秒部分)。

虽然本公开内容的部分涉及了涉及广告的媒体内容替换事件，但是这些示例并不意味着是限制性的。本文公开的系统和方法还适用于用来自一个源的内容片段替换作为来自另一个源的内容流的一部分的任何内容片段。其他类型的可替换内容能够包括天气片段、新闻片段、体育片段、广播广告等。包括可替换内容的内容流也能够从各种来源提供，诸如服务器或因特网上的URL。因此，下面提供的示例并不意味着是限制性的。

II.示例架构

A.计算设备

图1是示例计算设备100的简化框图。计算设备100能够执行各种动作和/或功能，诸如本公开内容中描述的那些。计算设备100能够包括各种部件，诸如处理器102、数据存储单元104、通信接口106和/或用户接口108。这些部件能够经由连接机制110彼此连接(或者连接到另一设备、系统或其他实体)。

处理器102能够包括通用处理器(例如，微处理器)和/或专用处理器(例如，数字信号处理器(DSP))。

数据存储单元104能够包括诸如磁性存储器、光学存储器、或闪存之类的一个或更多个易失性、非易失性、可移除和/或不可移除的存储部件，和/或能够整体或部分地与处理器102集成的部件。此外，数据存储单元104能够采用非暂时性计算机可读存储介质的形式，其上存储有程序指令(例如，编译的或非编译的程序逻辑和/或机器代码)，当该程序指令被处理器102执行时，使得计算设备100执行一个或更多个动作和/或功能，诸如本公开内容中描述的那些。这样，计算设备100能够被配置为执行一个或更多个动作和/或功能，诸如本公开内容中描述的那些。这些程序指令能够限定和/或成为离散软件应用的一部分。在一些情况下，计算设备100能够响应于接收诸如来自通信接口106和/或用户接口108之类的输入来执行程序指令。数据存储单元104还能够存储其他类型的数据，诸如本公开内容中描述的那些类型。

通信接口106能够允许计算设备100根据一个或更多个协议来连接到另一实体和/或与其通信。在一个示例中，通信接口106能够是有线接口，例如以太网接口或高清串行数字接口(HD-SDI)。在另一示例中，通信接口106能够是无线接口，例如蜂窝或WI-FI接口。在本公开内容中，连接能够是直接连接或间接连接，后者是通过和/或穿过一个或更多个实体的连接，诸如路由器、交换机或其他网络设备。同样，在本公开内容中，传输能够是直接传输或间接传输。

如果适用，用户接口108能够促进计算设备100与计算设备100的用户之间的交互。这样，用户接口108能够包括诸如键盘、小键盘、鼠标、触敏面板、麦克风和/或相机之类的输入部件和/或诸如显示设备(例如，能够与触敏面板结合使用的显示设备)、扬声器和/或触觉反馈系统之类的输出部件。更一般地，用户接口108能够包括促进计算设备100与计算设备100的用户之间的交互的硬件和/或软件部件。

计算设备100能够采用各种形式，例如工作站终端、台式计算机、膝上型计算机、平板计算机、移动电话或电视。

B.动态广告插入(DAI)系统

图2是示例DAI系统200的简化框图。DAI系统200能够执行与媒体内容(例如，音频内容和/或视频内容)的传送和/或呈现相关的各种动作和/或功能，并且能够实现为计算系统。

DAI系统200能够包括各种部件，例如观看站210、内容源220、媒体设备230、播放设备240、视频识别系统250、以及替换内容服务器260，其中的每个都能够被实现为计算系统。

观看站210能够从内容源220接收视频和其他多媒体内容，该内容源例如广播公司、网络服务器或有线电视(TV)台。例如，内容源220可以是通过TV频道将媒体流式传输或传输到观看站210的广播公司，例如TV台或TV网络之类，和/或是通过网络270将媒体流式传输或传输到观看站210的网络服务，例如网站。观看站210包括参考指纹生成器212，其生成从内容源220接收到的视频内容的参考指纹。观看站210能够将所生成的参考指纹发送到视频识别系统250。

观看站210还包括响度级简档生成器214。可替选地，响度级简档生成器214能够是与观看站210分开的另一计算系统的一部分。响度级简档生成器214能够为媒体内容的片段生成响度级简档。作为示例，响度级简档生成器214能够为在媒体内容替换事件期间被替换广告代替的可替换广告生成响度级简档。

响度级简档能够表征在媒体内容的片段中响度如何随时间变化。例如，响度级简档能够包括媒体内容的片段的不同部分的相应的响度级(例如，均方根(RMS)响度级或相对于满量程的K加权(LKFS)响度的响度级)。作为一个示例，三十秒广告的响度级简档能够包括对应于广告的部分的响度级序列。这些部分可以彼此重叠或不同。例如，每个响度级能够是基于固定长度部分(例如，半秒、一秒等)期间的广告的音频信号的特性来计算的移动平均值。

在一些实施方式中，能够基于音频信号的初始一秒部分的RMS来计算广告的初始响度级。然后能够基于音频信号的后续一秒部分来计算后续响度级。可替选地，在其他实施方式中，能够基于音频信号的初始三秒部分的RMS来计算初始响度级。然后能够基于音频信号的后续三秒部分来计算后续响度级，其中后续三秒部分的一部分与初始三秒部分的一部分重叠。例如，后续三秒部分能够包括初始部分的最后两秒，以及在初始部分之后的附加部分。

响度级简档生成器214能够使用响度计来计算响度级简档的响度级。响度计能够包括被配置为在观看站210上执行的软件模块。软件模块能够执行各种滤波算法来确定响度级，所述滤波算法例如国际电信联盟推荐的算法。软件模块能够测量音频信号的多个通道的单独的响度级，然后将单独的响度级进行平均和求和以获得响度级。

响度级简档生成器214能够生成响度级简档的索引。例如，响度级简档生成器214能够存储与生成响度级简档的媒体内容的片段的对应标识符相关联的所生成的响度级简档。观看站210能够将所生成的响度级简档发送至视频识别系统250、播放设备240、替换内容服务器260和/或另一计算系统。

媒体设备230能够例如经由广播频道和/或通过网络270来从内容源220接收视频和其他多媒体内容。媒体设备230能够在将接收到的内容发送到播放设备240之前修改内容。媒体设备230能够包括调谐器，其被配置为接收视频内容的输入流并且通过处理该输入流来生成视频内容的输出流。媒体设备230能够是配备有调谐器、解码器和其他硬件和/或软件的设备，使得媒体设备230能够通过多频道视频节目发行商所采用的视频内容分发网络来访问视频内容，该视频内容分发网络例如地面广播、线缆和/或卫星广播网络。附加地或替代地，媒体设备230能够是配备有网络适配器、解码器和其他硬件和/或软件的设备，使得媒体设备230能够通过用于访问因特网视频流服务的设备所采用的广域网(例如，因特网)来访问视频内容。媒体设备230能够输出可由播放设备240的扬声器和显示器使用的信号(例如，数字信号或模拟信号)以向用户呈现视频内容。

播放设备240是能够接收并呈现视频和/或其他多媒体内容的流的任何设备(例如，TV、膝上型计算机或其他个人计算机(PC)、平板计算机或其他移动设备、或游戏设备)。播放设备240能够包括被配置成显示处理后的视频内容流的显示器或其他用户接口。显示器可以是平板屏幕、等离子屏幕、发光二极管(LED)屏幕、阴极射线管(CRT)、液晶显示器(LCD)或投影仪。播放设备还能够包括一个或更多个扬声器。另外，播放设备240能够包括被配置成通过空中广播频道接收音频和视频的天线。

网络270可以是能够在设备之间进行通信的任何网络，例如有线网络和/或无线网络(例如，移动网络)。网络270能够包括构成专用网络(例如，有线TV网络或卫星TV网络)或公共网络(例如，空中广播频道或因特网)的一个或更多个部分。

视频识别系统250能够通过网络270与观看站210和播放设备240进行通信。视频识别系统250可以接收由播放设备240的查询指纹生成器242根据视频内容生成的查询指纹，并且查询由观看站210的参考指纹生成器212生成的已知指纹的索引以便识别视频内容。查询指纹可以是视频内容内的帧或帧块的指纹。视频识别系统250能够通过将查询指纹与一个或更多个参考指纹进行匹配来识别视频内容。在一些示例中，视频识别系统250能够是播放设备240或媒体设备230的部件或模块。

在识别视频内容后，视频识别系统250能够将与视频内容相关联的替换媒体内容(例如，替代节目或替代广告)的标识符返回给播放设备240。替换媒体内容能够存储在替换内容服务器260中。使用该标识符，播放设备240能够从替换内容服务器260访问替换媒体内容，然后提供替换媒体内容以供显示。可替选地，替换内容服务器260或另一计算系统能够提前(例如，在媒体设备230被安排执行替换操作之前的几秒、几分钟或几小时)将替换媒体内容发送到播放设备240或媒体设备230，以用于存储在播放设备240或媒体设备230的本地缓存中。在这种实施方式中，播放设备240能够从本地缓存访问替换媒体内容，然后提供替换媒体内容以供显示。采用这种本地缓存技术能够帮助确保播放设备240及时接收替换媒体内容以执行替换操作。例如，这能够在播放设备240具有不可靠或不可预测的因特网连接的情况下尤其有用。

另外，在识别视频内容后，视频识别系统250能够将与视频内容相关联的响度级简档的标识符返回给播放设备240。例如，该标识符能够是视频内容的标识符。响度级简档能够存储在观看站210、替换内容服务器260或另一计算系统中。使用该标识符，播放设备240能够从例如观看站210或替换内容服务器260访问响度级简档。可替选地，观看站210或另一计算系统能够提前将响度级简档发送到播放设备240或媒体设备230，以用于存储在播放设备240或媒体设备230的本地缓存中。在这种实施方式中，播放设备240能够从本地缓存访问响度级简档。

任何模块、系统和/或生成器都可以位于图2所示的任何设备上。例如，视频识别系统250能够包括查询指纹生成器242。通过这种布置，视频识别系统250能够从播放设备240接收视频内容的帧并且使用视频内容的帧生成查询指纹。作为另一示例，媒体设备230和播放设备240能够一起集成在单个设备内。其他变型也是可行的。

尽管DAI系统200和本公开内容的其他部分的描述涉及使用指纹识别视频内容，但这些示例并不意味着限制。本文公开的系统和方法还能够使用水印来识别视频内容。例如，观看站210能够在视频内容内嵌入水印(例如，音频水印或视频水印)。利用这种方法，播放设备240能够检测视频内容内的水印，并将水印发送到视频识别系统250。或者播放设备240能够将视频内容的帧发送到视频识别系统，并且视频识别系统250能够检测视频内容的帧内的水印。在获得水印之后，视频识别系统250然后能够使用水印识别视频内容，并将与视频内容相关联的替换媒体内容的标识符返回给播放设备240。类似地，本文公开的系统和方法能够使用嵌入在视频流中的信息来识别视频内容。例如，观看站210能够在视频流的边信息或辅助信息中嵌入标识符。该标识符可以发信号通知媒体内容替换事件，并且播放设备240可以检测该嵌入信息。作为另一示例，媒体内容替换事件能够由某些隐藏式字幕信息触发。观看站210能够修改视频内容的隐藏式字幕信息以包括文本串或串序列，这触发了对媒体内容替换事件的开始的倒计时。播放设备240然后能够被配置成查找文本串或串序列，使得播放设备240能够确定媒体内容替换事件何时发生。

图3是示出参考指纹生成器212、查询指纹生成器242和视频识别系统250的部件的简化框图。如图3所示，查询指纹生成器242包括块选择模块243和值计算模块244，它们被配置成(例如，经由总线、共享存储器或交换机)彼此通信。此外，视频识别系统250包括索引模块252、指纹匹配模块254、以及识别模块256，它们全部被配置成彼此通信。另外地，参考指纹生成器212包括块选择模块216和值计算模块218，它们被配置成彼此通信。

能够使用硬件(例如，机器的处理器、现场可编程门阵列(FPGA)或专用集成电路(ASIC))或者硬件和软件的组合来实现图3中所示的模块中的一个或更多个。此外，图3中所示的模块中的任意两个或更多个模块能够组合成单个模块，并且本文针对单个模块所描述的功能能够被细分到多个模块中。

根据以上讨论，查询指纹生成器242和参考指纹生成器212能够被配置成生成视频内容的一帧或更多帧的指纹。例如，查询指纹生成器242和参考指纹生成器212能够计算视频内容内的一帧或更多帧的块的值。块能够位于帧内的不同位置。查询指纹生成器242和参考指纹生成器212能够被配置成组合来自多个帧的指纹以生成视频内容的帧块的指纹。

作为示例，查询指纹生成器242的块选择模块243能够被配置成选择视频内容的多个块，例如与视频内容内的一个帧或多个帧的一个或更多个区域相关联的块。类似地，参考指纹生成器212的块选择模块216能够被配置成选择视频内容的多个块，例如与视频内容内的一个帧或多个帧的一个或更多个区域相关联的块。

能够通过将帧划分为网格例如2x2网格、4x3网格或4x4网格并基于网格选择块来限定块。例如，可以选择二十个块，其中四个大块对应一帧的象限，四个小块对应每个象限的子象限(即总共十六个小块)。在一些情况下，块可以重叠。此外，块的累积跨度能够小于整个帧。

查询指纹生成器242的值计算模块244能够被配置成使用例如积分图像技术来计算所选择的多个块中的每个块的值。积分图像技术可以使用求和的面积表或生成一组像素的值的总和的其他数据结构来计算值。类似地，参考指纹生成器212的值计算模块218能够被配置成使用例如积分图像技术来计算所选择的多个块中的每个块的值。

在一些示例中，值计算模块244和值计算模块218能够通过将一组像素的值与块相加、对一组像素的值进行平均、或者确定该组像素的媒体值来计算块的值。附加地或替代地，值计算模块244和值计算模块218能够通过计算一组像素的值之间的差或计算一组像素的值的线性组合来计算块的值。

视频识别系统250的索引模块252能够被配置成查询视频内容的已知参考指纹的数据库，例如存储在观看站210或视频识别系统250内的已知指纹的数据库，以便识别与查询指纹潜在匹配的参考指纹。索引模块252能够被配置成查询已知参考指纹的量化块值的索引。

视频识别系统250的指纹匹配模块254能够被配置成将查询指纹与一个或更多个已知参考指纹进行比较，并确定查询指纹与至少一个已知参考指纹匹配。例如，指纹匹配模块254能够通过确定查询指纹与已知参考指纹中的至少一个之间的相似度满足预定阈值，来确定查询指纹与至少一个已知参考指纹匹配。预定阈值能够与谷本距离测量(Tanimotodistance measurement)、曼哈顿距离测量(Manhattan distance measurement)或其他距离测量相关联。附加地或替代地，指纹匹配模块254能够使用其他匹配技术，例如欧几里得匹配技术、余弦匹配技术、KL散度匹配技术和/或Itakura匹配技术。

识别模块256进而能够被配置成基于查询指纹与至少一个参考指纹匹配的确定来识别视频内容。例如，识别模块256能够识别视频内容的名称或标题、当前由播放设备240呈现的视频内容内的位置、和/或提供视频内容的频道或广播公司。

图4是示出播放设备240和替换内容服务器260的部件的简化框图。如图4所示，除了查询指纹生成器242以外，播放设备240还包括音频分析模块245和播放修改模块246，它们能够被配置成彼此通信。此外，替换内容服务器260包括视频提供模块262。

播放设备240能够遇到触发以执行媒体内容替换事件。媒体内容替换事件能够涉及从呈现来自第一源的第一媒体内容到呈现来自第二源的第二媒体内容的切换。第一源能够是第一内容管道，第二源能够是不同于第一内容管道的第二内容管道。例如，第一源能够是空中天线或媒体设备230，第二源能够是因特网或播放设备240的本地缓存。作为特定示例，第一媒体内容能够是通过空中天线或媒体设备230接收的第一多媒体片段，并且第二媒体内容能够是从替换内容服务器260通过网络270接收并存储在播放设备240的本地缓存中的第二多媒体片段。可替选地，第一源能够是空中天线，并且第二源能够是媒体设备230。作为另一示例，第一源能够是网络270(例如，第一媒体内容能够是多媒体流)，并且第二源能够是播放设备240或媒体设备230的本地缓存。

遇到触发能够涉及确定播放设备240正在呈现紧接在要被代替的第二片段之前出现的第一片段。播放设备240可以使用上面讨论的任何指纹或水印技术来确定第一片段正在被呈现。可替选地，遇到触发能够涉及播放设备240从另一设备接收替换命令。

播放设备240能够指示音频分析模块245来确定第一媒体内容的第一部分的第一响度级。音频分析模块245能够在遇到触发之前确定第一响度级。第一响度级能够是音频分析模块245在播放设备240呈现第一媒体内容时连续地或间歇地确定的移动平均值。在一个示例中，在固定间隔的基础上，音频分析模块245能够计算第一媒体内容的最近呈现的部分(例如，前一分钟、前三十秒等)的响度级(例如，均方根(RMS))。能够使用响度计来计算第一响度级。随着时间的推移，音频分析模块245能够将第一媒体内容的多个部分的响度级一起平均(例如，五个一分钟部分的平均)。第一媒体内容的多个部分可以彼此重叠或彼此分开。此外，当获得所需数量的响度级时，音频分析模块245能够开始用新的(最近的)响度级代替最旧的(最陈旧的)响度级，以便达到第一响度级的移动平均值。其他示例也是可行的。

响度计能够包括被配置成在播放设备240和/或与播放设备240通信链接的服务器设备上执行的软件模块。软件模块能够执行各种滤波算法来确定第一响度级，所述滤波算法例如国际电信联盟推荐的算法。软件模块能够测量音频信号的多个通道的单独的响度，然后对单独的响度测量结果进行平均并求和以确定响度级。

在一些示例中，第一媒体内容的响度级简档(即随时间变化的响度)能够由服务器作为流或以批量的形式提供给播放设备240。响度级简档能够表征第一媒体内容中响度如何随时间变化。这能够例如在服务器端已经被预先计算并且与确定的固定音量值(例如，平均响度或某些目标音量测度)相关联。音频分析模块245在将这个响度级简档与从第一媒体内容测量到的响度值对齐之后，然后能够确定从参考(如在服务器上远程分析的)到如通过设备观察到的第一媒体内容的在级方面的差异作为第一响度级。

在一些示例中，播放设备240能够检测频道改变事件。在检测到频道改变事件后，播放设备240能够指示音频分析模块245重置第一响度级的移动平均值。作为一个示例，播放设备240可以使用第一媒体内容的音频和/或视频指纹来检测频道改变事件。作为另一示例，播放设备240可以从提供第一媒体内容的设备接收信号(例如，高清晰度多媒体接口信号)，其中，该信号指示已经发生频道改变。因此，播放设备240可以基于信号的接收来确定发生了频道改变事件。作为另一示例，播放设备240可以通过使用模板匹配来识别由提供第一媒体内容的设备(例如，图2的媒体设备230)结合频道改变所呈现的频道条的显示来检测频道改变事件。

替换内容服务器260的视频提供模块262能够向播放设备240提供第二媒体内容。例如，视频识别系统250能够识别播放设备240正在提供以用于显示的视频内容，并且基于识别到的视频内容，视频提供模块262能够向播放设备240提供对应于视频内容的替换媒体内容。播放设备240能够通过网络通信接口接收第二媒体内容。例如，第二媒体内容能够是替换媒体内容，其通过因特网流传输到播放设备240，然后存储在播放设备240的本地缓存中。

在遇到触发时，播放设备240还能够获得播放设备240将替换的第一媒体内容的部分的响度级简档。例如，基于视频识别系统250已经识别了播放设备240正在提供以用于显示的视频内容，视频识别系统250能够获得播放设备240将替换的第一媒体内容的部分的响度级简档，并且向播放设备240提供该响度级简档。可替选地，视频识别系统250能够向播放设备240提供标识符，使得播放设备240能够使用该标识符从本地高速缓存或另一计算系统中检索响度级简档。

响应于遇到触发，播放设备240能够从呈现第一媒体内容切换到呈现第二媒体内容。例如，当播放设备240遇到触发以将第二媒体内容插入到媒体内容序列中时，播放设备240能够从本地缓存中检索替换媒体内容，并提供该替换媒体内容以使用被配置成显示媒体文件的媒体播放器来进行显示。提供替换媒体内容以使用媒体播放器进行显示能够涉及在媒体播放器层中呈现替换媒体内容，该媒体播放器层位于提供其他媒体内容以供显示的另一层之上，该其他媒体内容例如从媒体设备或天线接收的媒体内容。

在一些情况下，提供第二媒体内容以供显示能够涉及从提供从媒体设备230或天线接收的媒体内容切换到提供存储在播放设备240的数据库中的替换媒体内容。播放设备240能够包括片上系统，该片上系统包括帧缓冲器。为了提供替换媒体内容以供显示，播放设备240的媒体播放器能够将替换媒体内容插入到帧缓冲器中。在将替换媒体内容插入到帧缓冲器中之前，片上系统可能已经将从媒体设备230接收的媒体内容插入到帧缓冲器中。

第二媒体内容能够包括替换广告。例如，第二媒体内容能够包括将替代通用广告的定向广告。作为一个示例，定向广告能够是本地广告，而通用广告能够是全国广告。作为另一示例，定向广告能够是基于播放设备240的用户的人口统计所选择的广告。

在一些情况下，播放设备240能够在呈现第二媒体内容之前调节第二媒体内容的响度级。例如，播放设备240的音频分析模块245能够确定第二媒体内容的响度级，然后播放设备240能够基于第二媒体内容的响度级与第一媒体内容的响度级之间的差异来调节第二媒体内容的响度级。在一些示例中，播放设备240可以依次替换两个广告。例如，在呈现第二媒体内容之后，播放设备可以呈现第三媒体内容(例如，另一替换广告)。在这种情况下，播放设备240能够被配置成以与播放设备240调节第二媒体内容的响度级相同的方式调节第三媒体内容的响度级。

播放设备240的音频分析模块245能够以各种方式确定第二媒体内容的响度级。作为一个示例，音频分析模块245能够基于与第二媒体内容一起从替换内容服务器260接收的辅助信息来确定第二媒体内容的响度级。例如，响度级能够在第二媒体内容的报头信息中指定。作为另一示例，音频分析模块245能够通过处理与第二媒体内容相关联的音频信号来确定响度级。作为另一示例，音频分析模块245能够使用广告旨在符合的默认响度级作为响度级。

在一些情况下，能够在绝对标度上指定第一媒体内容的响度级和第二媒体内容的响度级。在其他情况下，能够以分贝为单位指定第一媒体内容的响度级和第二媒体内容的响度级。响度级能够包括感知音量加权，例如相对于满量程的K加权(LKFS)。

播放修改模块246能够基于第一媒体内容的响度级与第二媒体内容的响度级之间的差异来调节第二媒体内容的响度级，以便生成修改的媒体内容。例如，在确定了第一媒体内容的响度级小于第二媒体内容的响度级后，播放修改模块246能够降低第二媒体内容的响度。降低响度级能够涉及将第二媒体内容的响度从所确定的响度级降低到新的响度级。新的响度级能够大约等于第一媒体内容的响度级。或者新的响度级能够是介于第二媒体内容的响度级与第一媒体内容的响度级之间的级。

而在确定了第一媒体内容的响度级大于第二媒体内容的响度级后，播放修改模块246能够增加第二媒体内容的响度。例如，播放修改模块246能够将第二媒体内容的响度从确定的响度级增加到新的响度级。新的响度级能够大约等于第一媒体内容的响度级。或者新的响度级能够是介于第二媒体内容的响度级与第一媒体内容的响度级之间的级。

调节第二媒体内容的响度级能够涉及在解码音频信号之后调节第二媒体内容的音频信号。例如，播放修改模块246能够衰减音频信号以降低响度，或者相反，播放修改模块246能够放大音频信号以增加响度。当放大音频信号的响度时，播放修改模块246能够使用压缩器来减少音频信号中最低点与最高点之间的差异并且/或者使用限制器来防止任何峰值大于阈值。为了本公开内容的目的，调节媒体内容的响度级与调节媒体内容的音频音量级是同义的。因此，对音量的调节不一定必须涉及频谱的心理声学加权。

在一些示例中，播放修改模块246能够确定第一媒体内容的响度级与第二媒体内容的响度级之间的差异满足阈值条件，并且基于满足阈值条件的差异，播放修改模块246能够调节第二媒体内容的响度。相反，如果差异不满足阈值条件，则播放修改模块246能够避免调节第二媒体内容的响度并且在媒体内容替换事件期间按原样呈现第二媒体内容。例如，阈值条件可以是差异大于阈值量。

不管播放设备240在呈现第二媒体内容之前是否修改第二媒体内容的响度，在媒体内容替换事件期间，播放设备240能够跟踪正在被第二媒体内容替换的第一媒体内容的部分的响度。通过跟踪第一媒体内容的响度级，播放设备240能够检测用户触发的音量调节，并且对播放设备正在呈现的第二媒体内容执行音量校正。以这种方式，如果用户使用能够控制向播放设备240提供音频信号的设备的遥控器来调节音量级，则播放设备240能够在媒体内容替换事件期间对播放设备240的音量进行相应的调节。

为了帮助播放设备240快速检测和响应第一媒体内容的音量级的变化，音频分析模块245能够确定在媒体内容替换事件期间第一媒体内容的固定长度部分的响度级。这些部分的长度能够短于音频分析模块245在媒体内容替换事件未发生时(例如，在媒体内容替换事件之前)分析的部分的长度。作为示例，当媒体内容替换甚至开始时，音频分析模块245能够从分析第一媒体内容的三十秒部分切换到分析第一媒体内容的一秒部分或长度小于一秒的部分。

作为特定的示例，在媒体内容替换事件之前，音频分析模块245能够确定第一媒体内容的三十秒部分的响度级。可选地，如果需要，播放设备240能够使用这些响度级来对第二媒体内容执行适当的总体音量调节。随后，在媒体内容替换事件期间，音频分析模块245能够确定第一媒体内容的第一、第二、第三和第四连续一秒部分的第一、第二、第三和第四响度级。例如，音频分析模块245能够使用响度计来计算这些响度级。然后，音频分析模块245能够使用在媒体内容替换事件期间确定的响度级中的一个或更多个来确定是否发生了用户触发的音量调节。

音频分析模块245能够以各种方式检测用户触发的音量调节。作为一个示例，音频分析模块245能够确定第一媒体内容的给定部分的响度级与后续部分的响度级相差大于阈值量。后续部分能够紧跟在给定部分之后。例如，给定部分能够从第一媒体内容的时间T2跨越到时间T3，并且后续部分能够从第一媒体内容的时间T3跨越到时间T4，其中给定部分和后续部分的长度相同。在这种情况下，音频分析模块245还能够确定播放设备240的目标音量，使得播放设备240能够将播放设备240的音量朝着目标音量调节。

作为另一示例，音频分析模块245能够使用神经网络来检测用户触发的音量调节。例如，能够使用已知包括用户触发的音量调节的音频样本来训练神经网络。神经网络能够包括被配置成接收两个或更多个响度级的输入层、多个隐藏的节点层、以及输出层。音频分析模块245能够提供多个连续响度级作为神经网络的输入，并且神经网络能够在输出层输出数据，利用该数据将输入响度级分类为用户触发的音量调节的特性或媒体内容固有的波动的特性。

因此，音频分析模块245能够分析神经网络的输出以确定连续响度级是否指示用户触发的音量调节。在确定神经网络的输出指示用户触发的音量调节后，音频分析模块245随后能够确定适当的音量调节。例如，音频分析模块245能够识别连续响度级的趋势(例如，响度随时间增加或响度随时间减少)，并且输出这种趋势以用于调节播放设备240的音量。

可替选地，音频分析模块245能够通过将第一媒体内容的响度级与由第一媒体内容的响度级简档指示的相应参考响度级进行比较来检测用户触发的音量调节。在媒体内容替换事件期间，音频分析模块245能够被配置成使用时间间隔来确定第一媒体内容的响度级，该时间间隔的长度与响度级简档生成器214用于生成第一媒体内容的响度级简档的时间间隔相同。作为示例，响度级简档生成器214使用的时间间隔能够是一秒。通过该实施方式，音频分析模块245能够被配置成在播放设备240从第一源接收第一媒体内容时确定第一媒体内容的一秒部分的响度级。例如，在固定间隔的基础上，音频分析模块245能够计算第一媒体内容的最近接收的部分(例如，前一秒)的响度级(例如，均方根(RMS))。

为了便于比较由音频分析模块245确定的响度级与由响度级简档指示的响度级，音频分析模块245能够将响度级简档与播放设备240正从第一源接收的音频信号对齐。音频分析模块245能够以各种方式执行这种对齐。在一个示例中，音频分析模块245能够使用指纹法将响度级简档与音频信号对齐。为了使用指纹法对齐响度级简档，音频分析模块245能够接收对应于响度级简档的参考指纹并将参考指纹与从第一媒体内容导出的查询指纹进行比较。从第一媒体内容导出的每个查询指纹能够具有相关联的时间戳。在确定参考指纹与查询指纹之一匹配时，音频分析模块245能够使用与查询指纹相关联的时间戳来将响度级简档与播放设备240正在接收的音频信号对齐。例如，音频分析模块245能够被设置为将参考指纹与查询指纹的匹配解释为意味着响度级简档的初始响度级对应于与查询指纹相关联的时间戳。或者，音频分析模块245能够被设置为将参考指纹与查询指纹的匹配解释为意味着响度级简档的初始响度级对应于从与查询指纹相关联的时间戳偏移一个偏移量的时间(例如，在时间戳之后一秒，在时间戳之后两秒等)。

用于对齐响度级简档的参考指纹能够是音频指纹或视频指纹。播放设备240能够从向播放设备240提供响度级简档的计算系统(例如观看站210)获得参考指纹。

以类似的方式，音频分析模块245能够使用水印将响度级简档与播放设备240正在接收的音频信号对齐。为了使用水印来对齐响度级简档，音频分析模块245能够接收对应于响度级简档的水印。然后，音频分析模块245能够检测在第一媒体内容内的特定时间存在水印。此外，音频分析模块245能够被设置为将在特定时间检测到水印解释为意味着响度级简档的初始响度水平对应于特定时间。可替选地，音频分析模块245能够被设置为将在特定时间检测到水印解释为意味着响度级简档的初始响度水平对应于从特定时间偏移一个偏移量的时间(例如，在特定时间之后一秒，在特定时间之后两秒等)。

在将响度级简档与播放设备240正从第一源接收的音频信号对齐之后，音频分析模块245能够从对应于由音频分析模块245确定的音频信号的响度级的响度级简档中选择参考响度级。例如，音频分析模块245可能已经确定了响度级简档的初始响度级与音频信号的时间T1对齐。此外，基于已经使用第一媒体内容的在时间T1之后五秒出现的一部分确定了第一媒体内容的响度级，音频分析模块245能够选择响度简档的参考响度级，该参考响度级对应于初始响度级对应的时间之后五秒的时间。

在从响度级简档中选择参考响度级之后，音频分析模块245然后能够将参考响度级与确定的响度级进行比较。在一些情况下，能够在绝对标度上指定确定的响度级和参考响度级。在其他情况下，能够以分贝为单位指定确定的响度级和第二响度级。第一响度级和第二响度级能够包括感知音量加权，例如相对于满量程的K加权(LKFS)。

基于这两个响度级之间的差异的结果，音频分析模块245能够确定播放设备240的目标音量。例如，音频分析模块245能够确定播放设备240音频信号的响度级大于由响度级简档指示的相应参考响度级第一量，并且音频分析模块245能够将等于播放设备240的当前音量和第一量的总和(或当前音量和与第一量成比例的值的总和)的音量确定为目标音量。反过来，音频分析模块245能够确定由响度级简档指示的参考响度级大于播放设备240音频信号的响度级第二量，并且音频分析模块245能够将等于播放设备240的当前音量与第二量之间的差异(或当前音量和与第二量成正比的值之间的差异)的音量确定为目标音量。

当播放设备240呈现第二媒体内容来代替第一媒体内容时，播放修改模块246能够将播放设备240的音量朝向目标音量调节。例如，音频分析模块245能够向播放修改模块246提供目标音量，并且播放修改模块246能够使用平滑滤波器将播放设备的音量朝向目标音量逐渐调节。使用平滑滤波器使得能够在小于一秒的时间内(例如，在一百毫秒内)将播放设备的音量从当前音量调节到目标音量。以这种方式，播放修改模块246能够调节播放设备240的音量以考虑用户触发的音量调节，例如通过从遥控器向媒体设备230传输指令而触发的音量调节。以类似的方式，在媒体内容替换事件期间，播放设备240能够在确定的响度级与参考响度级之间进行后续比较，并对播放设备的音量进行后续调节。

在一些示例中，音频分析模块245能够检测到第一媒体内容的音频信号在比正常时间更长的时间(例如，长于口述内容中的短停顿的长度)快速且意外地变得非常低/静音。基于检测到这样的暂停，播放修改模块246能够使第二媒体内容的音频信号静音。以这种方式，如果用户在媒体内容替换期间使第一媒体内容(例如，使用媒体设备230的遥控器)静音，则播放设备240还能够使代替第一媒体内容呈现的第二媒体内容静音。

III.示例操作

图5是示例方法500的流程图。方法500能够由诸如播放设备240之类的播放设备来执行，或更一般地，由计算系统来执行。在框502处，方法500包括在播放设备呈现来自第一源的第一媒体内容时由播放设备确定第一媒体内容的第一部分的第一响度级。第一部分具有第一长度。在框504处，方法500包括由播放设备从呈现来自第一源的第一媒体内容切换到呈现来自第二源的第二媒体内容。在框506处，方法500包括基于该切换，在播放设备呈现第二媒体内容时由播放设备确定第一媒体内容的第二部分的第二响度级。第二部分具有比第一长度短的第二长度。并且在框508处，方法500包括在播放设备呈现第二媒体内容时，由播放设备基于第二响度级的一个或更多个来调节播放设备的音量。

IV.示例变型

尽管本公开内容中描述的一些动作和/或功能已经被描述为由特定实体执行，但是动作和/或功能能够由任何实体执行，例如本公开内容中描述的那些实体。此外，尽管动作和/或功能已经以特定顺序叙述，但是动作和/或功能不需要按照叙述的顺序执行。然而，在某些情况下，能够需要按照叙述的顺序执行动作和/或功能。此外，动作和/或功能中的每个能够响应于其他动作和/或功能中的一个或更多个而被执行。同样，并非所有动作和/或功能都需要被执行以实现本公开内容所提供的优势中的一个或更多个，因此不需要所有的动作和/或功能。

尽管已经结合本公开内容的一个或更多个示例讨论了某些变型，但是这些变型也能够应用于本公开内容的所有其他示例。

尽管已经描述了本公开内容的选择示例，但是这些示例的改变和排列对于本领域普通技术人员来说将是明显的。在不脱离本发明的更广泛方面的情况下，如在以下权利要求中所阐述的，其他变化、替换和/或改变也是可能的。

Claims

1.一种用于媒体内容替换的方法，包括：

在播放设备呈现来自第一源的第一媒体内容时，由所述播放设备确定所述第一媒体内容的第一部分的第一响度级，其中，所述第一部分具有第一长度；

由所述播放设备从呈现来自所述第一源的第一媒体内容切换到呈现来自第二源的第二媒体内容；

在所述播放设备呈现来自所述第二源的第二媒体内容时，由所述播放设备接收对应于所述第一媒体内容的音频信号；

基于所述切换，在所述播放设备呈现所述第二媒体内容时，由所述播放设备使用对应于所述第一媒体内容的音频信号来确定所述第一媒体内容的多个第二部分的多个第二响度级，其中，所述多个第二部分具有比所述第一长度短的第二长度；以及

在所述播放设备呈现所述第二媒体内容时，由所述播放设备基于所述多个第二响度级中的一个或更多个来调节所述播放设备的音量；

其中，所述第一部分是所述第一媒体内容在所述切换之前的部分，所述多个第二部分是所述第一媒体内容在所述切换之后的部分。

2.根据权利要求1所述的方法，其中，所述多个第二部分包括给定部分和在所述给定部分之后的后续部分，并且所述多个第二响度级包括所述给定部分的响度级和所述后续部分的响度级，其中，所述方法还包括确定所述给定部分的响度级与所述后续部分的响度级之间的差异大于阈值量，并且其中，调节所述播放设备的音量包括当所述给定部分的响度级与所述后续部分的响度级之间的所述差异大于所述阈值量时基于所述给定部分的响度级与所述后续部分的响度级之间的所述差异来调节音量。

3.根据权利要求2所述的方法，还包括基于所述差异来确定目标音量，其中，调节所述音量包括将音量朝着目标音量调节。

4.根据权利要求1所述的方法，其中，基于所述多个第二响度级中的一个或更多个来调节音量包括：

将所述多个第二响度级的给定响度级与由所述第一媒体内容的响度级简档指示的参考响度级进行比较；

基于所述给定响度级与所述参考响度级之间的差异来确定所述播放设备的目标音量级；以及

将音量朝着所述目标音量级调节。

5.根据权利要求4所述的方法，其中，所述响度级简档表征在第一媒体内容中随时间变化的响度，并且包括所述第一媒体内容的不同部分的相应响度级，并且其中，所述方法还包括使所述响度级简档与所述播放设备正在接收的第一媒体内容在时间上对齐。

6.根据权利要求1所述的方法，其中，基于所述多个第二响度级中的一个或更多个来调节音量包括：

将所述多个第二响度级作为输入提供给神经网络，其中，使用包括音量调节的音频样本来训练所述神经网络；

基于所述神经网络的输出来检测对所述第一媒体内容的音量调节；以及

基于所述音量调节来调节音量。

7.根据权利要求1所述的方法，其中，所述第一响度级是所述播放设备在呈现所述第一媒体内容时连续地或间歇地确定的移动平均值，其中所述移动平均值是所述第一媒体内容的多个部分的平均值。

8.根据权利要求7所述的方法，还包括：

检测频道改变事件；以及

在检测到所述频道改变事件后重置所述移动平均值。

9.根据权利要求1所述的方法，还包括：

确定所述第二媒体内容的响度级；以及

基于所述第一响度级与所述第二媒体内容的响度级之间的差异，在呈现所述第二媒体内容之前调节所述第二媒体内容的响度级。

10.根据权利要求1所述的方法，其中，所述播放设备包括电视，并且其中，呈现所述第二媒体内容包括使用媒体播放器呈现替换广告。

11.根据权利要求1所述的方法，其中，所述第二媒体内容存储在所述播放设备的本地缓存中，并且其中，所述方法还包括在呈现所述第二媒体内容之前从所述本地缓存检索所述第二媒体内容。

12.一种非暂时性计算机可读介质，其上存储有程序指令，所述程序指令在由处理器执行时使得执行一组动作，所述一组动作包括：

在播放设备呈现来自第一源的第一媒体内容时，确定所述第一媒体内容的第一部分的第一响度级，其中，所述第一部分具有第一长度；

从呈现来自所述第一源的第一媒体内容切换到呈现来自第二源的第二媒体内容；

在所述播放设备呈现来自所述第二源的第二媒体内容时，接收对应于所述第一媒体内容的音频信号；

基于所述切换，在所述播放设备呈现所述第二媒体内容时，使用对应于所述第一媒体内容的音频信号来确定所述第一媒体内容的多个第二部分的多个第二响度级，其中，所述多个第二部分具有比所述第一长度短的第二长度；以及

在所述播放设备呈现所述第二媒体内容时，基于所述多个第二响度级中的一个或更多个来调节所述播放设备的音量；

13.根据权利要求12所述的非暂时性计算机可读介质，其中，所述多个第二部分包括给定部分和在所述给定部分之后的后续部分，并且所述多个第二响度级包括所述给定部分的响度级和所述后续部分的响度级，其中，所述一组动作还包括确定所述给定部分的响度级与所述后续部分的响度级之间的差异大于阈值量，并且其中，调节所述播放设备的音量包括当所述给定部分的响度级与所述后续部分的响度级之间的所述差异大于所述阈值量时基于所述给定部分的响度级与所述后续部分的响度级之间的所述差异来调节音量。

14.根据权利要求12所述的非暂时性计算机可读介质，其中，基于所述多个第二响度级中的一个或更多个来调节音量包括：

将音量朝着所述目标音量级调节。

15.根据权利要求12所述的非暂时性计算机可读介质，其中，所述播放设备包括电视，并且其中，呈现所述第二媒体内容包括使用媒体播放器呈现替换广告。

16.根据权利要求12所述的非暂时性计算机可读介质，其中，所述第二媒体内容存储在所述播放设备的本地缓存中，并且其中，所述一组动作还包括在呈现所述第二媒体内容之前从所述本地缓存检索所述第二媒体内容。

17.一种计算系统，包括处理器和数据存储单元，其中所述数据存储单元存储程序指令，所述程序指令在由所述处理器执行时执行一组动作，所述一组动作包括：

18.根据权利要求17所述的计算系统，其中，所述多个第二部分包括给定部分和在所述给定部分之后的后续部分，并且所述多个第二响度级包括所述给定部分的响度级和所述后续部分的响度级，其中，所述一组动作还包括确定所述给定部分的响度级与所述后续部分的响度级之间的差异大于阈值量，并且其中，调节所述播放设备的音量包括当所述给定部分的响度级与所述后续部分的响度级之间的所述差异大于所述阈值量时基于所述给定部分的响度级与所述后续部分的响度级之间的所述差异来调节音量。

19.根据权利要求17所述的计算系统，其中，基于所述多个第二响度级中的一个或更多个来调节音量包括：

将音量朝着所述目标音量级调节。

20.根据权利要求17所述的计算系统，其中，所述第二媒体内容存储在所述播放设备的本地缓存中，并且其中，所述一组动作还包括在呈现所述第二媒体内容之前从所述本地缓存检索所述第二媒体内容。