CN106970773A - 媒体项呈现期间的自动音频水平调整 - Google Patents

媒体项呈现期间的自动音频水平调整 Download PDF

Info

Publication number
CN106970773A
CN106970773A CN201610941365.3A CN201610941365A CN106970773A CN 106970773 A CN106970773 A CN 106970773A CN 201610941365 A CN201610941365 A CN 201610941365A CN 106970773 A CN106970773 A CN 106970773A
Authority
CN
China
Prior art keywords
audio level
media item
audio
media
level value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610941365.3A
Other languages
English (en)
Other versions
CN106970773B (zh
Inventor
克里斯蒂安·魏滕伯纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN106970773A publication Critical patent/CN106970773A/zh
Application granted granted Critical
Publication of CN106970773B publication Critical patent/CN106970773B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

提供了一种媒体服务器,所述媒体服务器促进由在计算设备上运行的媒体播放器应用在媒体项的播放期间进行自动音频水平调整。媒体服务器经由网络将媒体项提供给客户端。客户端上的媒体播放器应用将媒体项呈现给所述客户端的用户。所述媒体播放器应用也可以收集播放数据并且将所述数据发送给所述媒体服务器。播放数据可以包括针对依次呈现的两个媒体项的音频水平。所述媒体服务器基于从一个或者多个媒体播放器应用接收的播放数据来确定音频水平调整指令,并且提供使自动音频水平调整促进以更适当的声音强度来呈现媒体项的所述指令。

Description

媒体项呈现期间的自动音频水平调整
技术领域
本公开通常涉及媒体内容在计算设备上的呈现,并且更具体地涉及呈现期间的自动音频水平调整。
背景技术
视频流网站和其它媒体服务器允许用户访问数百万媒体内容项(媒体项)。高用户参与度是媒体服务器的内容创建者、广告商和其它附属机构的重要目标。由此,期望用户一次观看多个视频。当用户观看多个视频时,确保良好的用户体验至关重要,并且部分取决于媒体项之间的良好过渡。
然而,当一个接一个地观看媒体项时,用户所感知的音频的音量通常可以在媒体项之间急剧变化。从一个媒体项移到下一个媒体项的体验可以是刺耳的,尤其是当后续媒体项的音频分量明显比前一个更大声或者更安静时。将媒体项上传至媒体服务器的许多创建者在上传之前不会使声音强度标准化或者根据任何已知的行业标准来处理音频。进一步地,音频的创建者无法总能确定向用户播放媒体项的顺序,并且因此,虽然他们自己的上传在音量方面可能是一致的,但是它们并不一定会与其他用户的上传匹配。因此,当用户一个接一个地播放多个媒体项时,该用户必须不断地调整音频水平以将音量保持在合理的水平上。这导致了差强人意的用户体验并且可以导致用户放弃观看会话。
附图说明
图1图示出了用于媒体播放器应用中的自动音频水平调整(ALA)的计算环境。
图2是用于依次呈现两个媒体项并且收集可以存储在音频水平索引中并且用于确定ALA指令的播放数据的示例过程的步骤的流程图。
图3图示出了示例音频水平索引条目,该示例音频水平索引条目列出了媒体项ID以及针对依次被查看的媒体项的主音频水平和次音频水平。
图4是用于确定在与依次呈现的第一媒体项和第二媒体项相关联的ALA指令中包括的ALA值的示例过程的步骤的流程图。
图5是用于将在呈现第一媒体项之后呈现第二媒体项时引起自动ALA调整的ALA指令发送至媒体播放器应用的示例过程的步骤的流程图。
图6是图示出了在一个实施例中用作本文所描述的实体中的一个或者多个的部分或者全部的计算机的物理组件的高级框图。
附图和以下描述仅仅以图示的方式涉及了示例实施例。应该注意,通过以下讨论,本文所描述的结构和方法的替选实施例容易被认为是在不脱离所要求保护的原理的情况下可以采用的可行替选。
具体实施方式
I.配置概述
媒体服务器促进了通过在计算设备上运行的媒体播放器应用在媒体项的播放期间进行自动音频水平调整。媒体服务器经由网络将诸如视频的媒体项提供给客户端计算设备,诸如,台式计算机或者移动电话。客户端上的媒体播放器应用将媒体项呈现给用户。媒体播放器应用也可以收集播放数据,诸如,播放器应用的音频水平(或者幅度)的调整,并且将数据发送回至媒体服务器。这样的调整也可以用于改变从客户端的音频输出设备(诸如,耳机或者扬声器)输出的音频的声音强度。
用户所控制的可调整音频水平并不是正在收听音频分量的用户所体验到的实际声音强度,然而,其确实与该值有关并且控制该值。当通过音频输出设备将音频输出数据转换为声音时,其具有与媒体项的音频分量的音量相对应的声音强度,例如,以分贝计。当以音频水平呈现音频输出数据时,声音强度(例如,声压水平、声强、声音功率等)的客观度量可以基于音频输出设备、媒体项的音频分量的固有特性、和其它因素而改变。由于实际声音强度将在媒体项(例如,专业记录的媒体项与经由家用摄像机所记录的媒体项)之间改变,所以音频水平并不完全由用户所体验到的声音强度决定。因为声音强度可以基于媒体项的音频分量的特性改变,所以,如果通过相同的音频输出设备以相同的音频水平依次播放两个媒体项,则媒体项的声音强度和用户通过扩展所感知到的音量可能会不同。
在客户端内的音频模块响应于接收音频控制命令来调整音频水平。音频控制命令包括提高音频水平、降低音频水平、或者将音频水平设置为特定值的命令,并且所述音频控制命令可以自动(例如,通过软件代码)发起或者经由用户输入发起。为了增强媒体播放器应用的用户体验,当在第一媒体项之后呈现第二媒体项时,可以自动调整音频水平以减轻两个媒体项之间的差异声音强度,该差异声音强度会针对没有对音频水平进行这样的修改的用户产生音量差异。自动调整可以是基于ALA值,可以通过用户信息、媒体项元数据、或者与针对由第一媒体项和第二媒体项组成的媒体项对的用户所发起的ALA有关的数据来确定该ALA值。
为了收集与针对媒体项对的用户所发起的ALA有关的数据,媒体服务器可以将第一媒体项和第二媒体项提供用于由媒体播放器应用顺序地呈现的给一个或者多个不同的用户。在第一媒体项的呈现期间,用户可以将音频水平改变为与用于第一媒体项的呈现的适当的声音强度相对应。当第一媒体项的呈现结束时,可以将音频水平设置为主音频水平。当第二媒体项的呈现开始时,主音频水平可以不与用于第二媒体项的呈现的适当的声音强度相对应。因此,用户可以发送音频命令以将音频水平改变为次音频水平以与适当的声音强度相对应。媒体播放器应用可以注册和存储音频命令,并且可以将数据条目发送至媒体服务器,该数据条目包括第一媒体项和第二媒体项的媒体项标识符以及主音频水平和次音频水平。数据条目可以进一步包括音频输出设备信息和音频控制命令信息。媒体服务器可以将数据条目元素存储在音频水平索引中。
为了促进自动ALA,媒体服务器可以基于音频水平索引条目来生成ALA指令(例如,计算机软件代码)。当在第一媒体项之后播放第二媒体项时,ALA指令可以使得音频水平自动改变。音频水平的自动改变通过将音频水平自动设置为与针对第二媒体项的更适当的声音强度相对应来增强用户体验。对音频水平的后续改变可以由媒体播放器应用注册和存储,并且可以被发送至媒体服务器以确定经更新的ALA值。
II.计算环境
图1图示出了用于媒体播放器应用中的自动音频水平调整的计算环境。该环境包括通过网络150连接至媒体服务器120的客户端110。图1图示出了一个客户端110和一个媒体服务器120,但是它们可以是这些条目中的每个条目的多个实例。例如,可以存在与多个媒体服务器120通信的成千上万的客户端110。
网络150可以包括使用有线通信系统和无线通信系统两者的局域网和/或广域网、互联网、或者一个或者多个内联网的任何组合。
媒体服务器120包括将媒体项提供给客户端110的一个或者多个计算机服务器。在一些实施例中,媒体服务器120可以是视频流网站(例如,媒体项可以具有不同的类型(例如,视频媒体项或者音频媒体项等)、格式(4:3纵横比、16:9纵横比等),并且可以使用不同的技术(H.264、MPEG等)而被编码/压缩。视频媒体项包括图片分量和音频分量。视频媒体项可以是视频数据文件和/或其一部分。音频媒体项包括音频分量,但是不包括图片分量。音频媒体项可以是音频数据文件和/或其一部分。
客户端110是执行计算机程序模块的计算设备(例如,web浏览器、电子阅读器、媒体播放器或者其它客户端应用),该计算设备允许用户消费音频数据和/或视频数据。例如,客户端110可以是个人计算机、平板计算机、智能电话、膝上型计算机、包括至少一种音频播放功能的专用电子阅读器、或者其它类型的支持网络的设备,诸如,网络电视或者机顶盒。
客户端110的用户具有媒体播放器120上的账户。账户模块126提供允许用户管理他或她媒体服务器120上的账户的功能。账户模块124进一步接收与用户的活动相对应的用户信息,该用户的活动与媒体服务器120相关。用户信息可以包括提供给与用户相关联的客户端110的媒体项的标识符、用户偏好、和与用户相关联的播放数据,包括媒体项的播放顺序。用户信息和其它账户信息可以被存储在媒体服务器120的账户数据存储130中。根据实施例,账户数据存储130可以包括一种或者多种类型的非暂时性计算机可读持久性存储介质。
客户端110可以包括媒体播放器应用114。媒体播放器应用114可以是由用于将媒体项呈现给操作客户端110的用户的客户端110的处理器所执行的软件应用。例如,可以通过经由客户端110的显示器呈现图片分量,并且通过下述音频模块116呈现音频分量,并且经由客户端110的音频输出设备118呈现为听得见的音频信号,来将视频媒体项呈现给用户。
媒体播放器应用114可以结合客户端110的操作系统执行。在一个实施例中,媒体播放器应用114是设计为专门结合媒体服务器120工作的专用软件应用。在另一实施例中,经由用于访问多种类型的内容的更通用的应用(诸如,web浏览器)来提供媒体播放器应用114。浏览器可以提供对媒体服务器120的访问,例如,经由web接口。在一些实施例中,当正通过网络150从例如媒体服务器120流式传输媒体项时,媒体播放器应用114呈现该媒体项。
媒体播放器应用114可以,例如,在客户端110的显示设备上呈现用户界面。用户界面可以包括控制元素,利用该控制元素,客户端110的用户可以经由用户输入设备(例如,鼠标、键盘、触摸屏、触控板、按钮等)发送控制命令。控制命令也可以由客户端110或者客户端110的操作系统经由在客户端110上的物理按钮或者通信耦合至客户端110的设备来接收。控制命令可以经由所执行的软件代码(例如,API调用)来被接收。媒体服务器120可以进一步将控制命令以播放指令(包括音频水平调整(ALA)指令)的形式发送至客户端110,如下面在第IV部分中参照图4所讨论的。
媒体播放器应用114和/或客户端110可以被配置为接收控制命令。控制命令可以包括用于控制正由媒体播放器应用114所呈现的媒体项的播放的命令,所述命令包括:停止媒体项的播放、开始媒体项的播放和从媒体服务器120请求媒体项。控制命令可以进一步包括音频控制命令,诸如,提高音频水平、降低音频水平、将音频水平设置为特定值、或者将音频分量静音。
音频模块116可以从媒体播放器应用114接收表示媒体项的音频分量的输入音频数据,改变音频分量的幅度,并且将表示经调整的音频分量的音频输出数据发送至音频输出设备118。音频输出数据可以由音频输出设备118转换为声音。
不管音频数据最初如何被记录或者编码的,音频模块116可以具有相关联的音频水平,该相关联的音频水平与将音频输出信号的幅度设置为音频数据的幅度的关系(例如,比率、百分数、线性或者非线性函数等)相对应。在一种实施方式中,音频水平值不与针对用户所感知到的实际声音强度的任何具体数值(例如,以分贝计)相对应。音频模块116响应于接收音频控制命令而自动地(例如,通过软件代码)或者经由用户输入来调整音频水平。当通过音频输出设备118将音频输出数据转换为声音时,其具有与媒体项的音频分量的音量相对应的声音强度。存在针对声音强度的各种客观度量,包括:例如,声压(以帕斯卡计)、声压水平(以分贝计)、声音强度(以每平方米瓦特计)、和声音功率(以瓦特计)。音频水平可以具有相关联的音频水平值(例如,在从0至10、1至100等的范围内)。
当以音频水平呈现音频输出数据时,声音强度的客观度量(例如,声压水平、声音强度、声音功率等)可以基于音频输出设备118、媒体项的音频分量的固有特性、和其它因素而改变。因为声音强度可以基于媒体项的音频分量的特性而改变,所以,如果通过相同的音频输出设备118以相同的音频水平值依次播放两个媒体项,则媒体项的声音强度和用户通过扩展所感知到的音量可能会不同。
为了增强媒体播放器应用114的用户体验,当在第一媒体项之后呈现第二媒体项时,可以根据ALA指令自动调整音频水平以减轻用户因为两个媒体项的底层音频数据之间的差异而感知到的音量差异。可以通过用户信息、媒体项元数据、或者与针对媒体项对的用户所发起的ALA有关的数据来确定ALA指令。下面在第III部分中参照图2更详细地讨论收集与用户所发起的ALA有关的数据。
音频模块116可以是媒体播放器应用114、操作系统、客户端110、独立的软件应用的组件、或者其一些组合。音频输出设备包括通信耦合至客户端110的用于产生声音的设备。音频输出设备118可以是客户端110的组件(例如,扬声器)。其它示例音频输出设备包括耳机、外部扬声器、留声机等。音频输出设备118可以经由有线连接或者无线连接被通信耦合至客户端110。
音频模块116可以被配置为确定音频输出设备118(例如,内部扬声器、外部扬声器、耳机等)的类型。音频输出数据的格式可以取决于音频输出设备118而有所不同。在一个实施例中,输出音频数据是使用电压来表示声音的音频信号。可以通过诸如扬声器或者耳机的音频输出设备118将音频信号转换为声音。在另一实施例中,输出音频数据是数字格式的音频信号。当通过音频输出设备118将音频输出数据转换为声音时,声音具有相关联的声音强度。声音强度可以与声波的幅度相对应,并且与人们体验声音的水平密切相关。相对低的声音强度可以被感知为安静,而相对高的声音强度可以被感知为大声。
媒体服务器120保持与媒体项相关的信息。与媒体项相关的信息可以包括媒体项标识符(ID)、媒体项地址、与媒体项相关联的元数据、或者其一些组合。媒体项ID唯一地识别媒体项。媒体项地址是计算机网络地址,媒体项被物理地存储在该计算机网络地址中并且可以从该计算机网络地址下载或者流式传输。元数据描述了媒体项的不同方面。例如,元数据可以包括作者、发行日期、评论、流派信息、发行商、评级、和媒体项标识符。
例如,与媒体项相关的信息可以进一步包括播放数据,该播放数据包括在媒体项的播放期间所接收的控制命令,诸如,从用户所接收的调整音频模块116的音频水平的命令。播放数据可以进一步包括在音频水平待调整时媒体项的播放期间的各个时间相对应的音频水平值的集合。播放数据可以由媒体播放器应用114收集,并且可以被发送至媒体服务器120,如下面在第III部分中参照图2所描述的。
与媒体项相关的信息可以进一步包括利用媒体项自动调整音频模块116的音频水平的音频水平调整(ALA)指令,该媒体项由媒体服务器120发送至客户端110用于播放。例如,ALA指令可以包括软件代码,当在具体的其它媒体项之后呈现所述媒体项时,该软件代码使得音频模块116的音频水平被调整。音频水平调整可以自动发生在媒体项的播放开始处或者在播放期间的另一个时候。例如,在播放期间,用户所发起的音频控制命令可以通过将ALA值缩放为与用户指定的值相对应来重写或者更改ALA值。自动ALA提高了在媒体项之间的音频播放的一致性,这可以增加平均观看时间、收视、广告收益、订阅收益、和媒体服务器平台上的参与度。
ALA指令可以由媒体服务器120的音频水平调整模块122生成。ALA指令可以是基于对播放数据的分析,包括所确定的音频水平差值,如下面在第IV部分中参照图4更详细地描述的。可以响应于来自客户端的请求或者按照预定的时间间隔生成ALA指令。
可以将媒体项、播放数据、ALA指令、和与媒体项相关的其它信息存储在媒体服务器120的媒体数据存储128中。根据实施例,媒体数据存储128可以包括一种或者多种类型的非暂时性计算机可读持久性存储介质。
III.播放数据收集和索引
对于特定的媒体项对,ALA指令可以是基于由先前依次呈现该媒体项对的用户所做出的音频水平调整。图2是用于依次呈现两个媒体项并且收集可以被存储在音频水平索引中和用于确定ALA指令的播放数据的示例过程的步骤的流程图。客户端110的媒体播放器应用114开始205包括第一音频分量的第一媒体项的呈现。在呈现期间,客户端110的用户可以决定改变音频水平并且提供将音频水平调整为用于第一媒体项的呈现的更适当的声音强度的控制命令。当第一媒体项的呈现结束时,在项的结束处或者根据用户或者外部命令,音频模块116记录210在呈现开始时最初设置的或者基于来自用户的输入而被调整的主音频水平。
媒体播放器应用114然后开始215响应于用户输入或者由服务器120自动确定和发起的第二媒体项的呈现。当第二媒体项的呈现开始时,音频模块116可以仍然设置为主音频水平。主音频水平可以不与用于将第二媒体项呈现给用户的适当的声音强度相对应。例如,第二媒体项的音频分量的固有特性在第二媒体项的呈现期间可以导致比在第一媒体项的呈现期间的声音强度更大或者小的声音强度。例如,如果第一媒体项包含相对大声的重金属歌曲并且第二媒体项包括相对安静的古典音乐片段,则用户可能无法很好地听到第二媒体项的音频分量。这种差异可以使用户发送音频命令以将针对第二媒体项的音频水平改变为与更适当的声音强度相对应。音频模块116接收220音频控制命令,并且将音频水平改变为次音频水平。音频模块116可以注册音频控制命令并且将其存储在客户端110或者媒体服务器120上的存储位置处。
媒体播放器应用114将数据条目发送225至媒体服务器120,该数据条目包括第一媒体项的媒体项ID、第二媒体项的媒体项ID、主音频水平和第二音频水平。数据条目可以进一步包括在第一媒体项和第二媒体项的呈现期间所接收的音频控制命令的列表,包括:在相关联的媒体项的呈现期间发生的它们的时间戳以及它们对音频水平的改变。数据条目也可以包括与音频输出设备118有关的信息(诸如,音频输出设备标识符(ID))和与音频输出设备是否具有有线或者无线连接有关的信息。
媒体服务器120从媒体播放器应用114接收数据条目。媒体服务器120可以将数据条目元素存储在媒体数据存储128和/或账户数据存储130中以用于生成ALA指令。例如,ALA模块122可以将数据条目元素存储在音频水平索引中,该音频水平索引取决于接收到数据条目的用户并且可以包含来自多个用户的数据条目。如果用户具有媒体服务器120上的账户,则可以将数据条目元素存储在与账户数据存储130中的用户相关联的账户索引中。
图3图示出了,例如,通过针对图2描述的过程而被收集到的示例音频水平索引条目。这些示例音频水平索引条目列出了媒体项ID以及针对依次查看的媒体项的主音频水平和次音频水平。例如,如图3所示,音频水平索引300的键310可以是一对媒体项ID,例如,该一对媒体项ID是通过将第一媒体项ID条目312和第二媒体项ID条目314结合在一起来创建的。音频水平索引的值320可以包括主音频水平条目322和次音频水平条目324。值320可以进一步包括针对表示音频水平之间的差异的每个条目的差值326。该差值可以是正数(例如,表示提高音频水平的用户命令)、负数(例如,表示降低音频水平的用户命令)、或者零,并且可以由音频水平调整模块122来计算。可以从多个用户接收音频水平索引条目。音频水平索引条目可以进一步包括音频输出设备信息和音频控制命令列表。
IV.音频水平调整确定
ALA指令可以基于ALA值来引起自动ALA,可以通过多个数据源确定该ALA值,该多个数据源包括(A)用户信息、(B)媒体项元数据、(C)针对媒体项对的用户所发起的ALA的音频水平索引条目、或者这些数据源的一些组合。如果存在多个数据源,则对使用哪个源来确定ALA值的确定可以是分层的(例如,来自源A的数据是优选的,在不存在来自源A的数据时使用来自源B的数据,并且在不存在来自源A或者源B的数据时使用来自源C的数据)、附加的(例如,使用来自源A、源B和源C的数据)、或者它们的一些组合。图4的示例过程是附加数据使用的示例。
图4是用于确定在与依次呈现的第一媒体项和第二媒体项相关联的ALA指令中所包括ALA值的示例过程的步骤的流程图。ALA模块122设置405默认ALA值。该默认ALA值可以是基于媒体项的类型、流派信息、或者其它元数据。例如,如果媒体项是发表演讲的人的视频,则默认ALA值可以与音频水平的提高相对应。同样,如果媒体项是音乐会的视频,则默认ALA值可以与音频水平的降低相对应。可以存在存储在媒体数据存储128中的规则,如果其它指令不可用,则该规则使ALA模块122设置默认ALA值。如果与请求媒体播放器应用114相关联的用户具有媒体服务器120上的账户,则ALA模块122可以根据存储在账户数据存储130中的用户信息来调整默认ALA值。例如,如果用户比其它用户更经常地发送调低某种类型的媒体项的音频命令,则可以因此改变ALA值。
ALA模块122基于与特定的第一和第二媒体项对相对应的音频水平索引条目来确定410音频水平差(ALD)值。ALD值是在针对该特定媒体项对的音频水平索引条目中的每个条目的主音频水平与次音频水平之间的总差的数值表示。例如,可以通过对与第一和第二媒体项相对应的条目中的每个条目的差值求平均值、中值或者众数来确定ALD值。例如,回到图3,如果第一媒体项ID是‘Cat.mov’并且第二媒体项ID是‘Pig.mov’,则可以通过对具有作为第一媒体项ID的‘Cat.mov’和作为第二媒体项ID的‘Pig.mov’的四个差值326求平均值来确定ALD。平均值可以是(33+23+0–4)÷4=+13。因此,针对媒体项序列的ALD可以是+13。根据实施方式,除了上述方式之外,可以按照多种不同的方式来计算ALD。例如,可以使用中值、众数、更复杂的函数,可以丢弃异常数据以降低结果的可变性等。
在一种实施方式中,ALA模块122使用针对媒体项对的音频水平索引条目的子集来确定ALD值。例如,ALA模块122在某个时间段期间仅仅可以使用音频水平从主音频水平变为次音频水平的条目。例如,该时间段可以是第二媒体项呈现的前30秒钟。该实施方式基于如下假设:如果针对第二媒体项的声音强度并不是适当的,则用户更可能在更接近第二媒体项的呈现开始时调整音频水平。相反,在呈现后期的调整不太可能是由于不适当的声音强度。因此,在禁止时间段内对条目进行分析允许ALA模块122确定更可能导致针对第二媒体项的更适当的声音强度的ALA值。
除了基于从媒体项元数据和用户信息所得到的默认值之外,ALA值可以基于所确定的ALD值。ALA值可以等于ALD值。在另一实施例中,ALA模块122确定所确定的ALD值是否超过用于调整ALA值的阈值。如果ALD值超过阈值,则ALA模块122调整415ALA值以处理(account for)音频水平差。ALA值调整可以与ALD成比例。如果ALD值不超过阈值,则不对ALA值进行调整。在调整将是用户看不见的分钟的情况下或者在与用户所发起的ALA有关的数据未示出用户所发起的调整的清楚模式的情况下,要求ALD值超过阈值可以保存计算资源。
ALA模块122将新的ALA索引条目添加420至存储在媒体数据存储128中的ALA索引。除了默认的ALA索引条目和用户指定的ALA值之外,基于ALD值的ALA索引条目还包括诸如第一和第二媒体项对的媒体项ID的数据、以及所确定的ALA值。
与特定的媒体项对相对应的ALA索引条目可以具有多个可能的ALA值。特定媒体项对可以具有待与不同的音频输出设备118一起使用的或者与不同用户相对应的不同ALA值。例如,ALA模块122可以为与不同音频输出设备118相对应的音频水平索引条目确定单独的ALD值,并且将不同的ALA值存储在与媒体项对相对应的ALA索引条目中。这可以通过处理在不同的用户和不同类型的音频输出设备118之间的声音强度变化来产生更好的用户体验。
可以按照与图4中所图示的顺序不同的顺序来执行在确定ALA值的过程中的各种步骤。响应于来自媒体播放器应用114的针对媒体项对中的一个媒体项的请求或者在服务器120或者另一逻辑过程的要求下,可以按照预定时间间隔来执行过程中的步骤。
V.音频水平调整应用
图5是用于将在呈现第一媒体项之后呈现第二媒体项时引起自动ALA调整的ALA指令发送至媒体播放器应用的示例过程的步骤的流程图。媒体服务器120接收505提供第二媒体项用于在第一媒体项之后呈现的请求。ALA模块122从ALA索引检索510与第一媒体项ID和第二媒体项ID相关联的ALA值。
ALA模块122生成515待发送至请求媒体播放器应用114的ALA指令。ALA指令包括针对所请求的第一/第二媒体项对的ALA值,并且可以进一步包括基于ALA值使音频模块116自动调整音频水平的指令(例如,计算机软件代码)。
媒体服务器120将ALA指令发送520至提出请求的客户端110。可以将ALA指令连同要在客户端110上呈现的第二媒体项的内容一起发送至提出请求的客户端110,或者可以单独发送。当提出请求的客户端110的媒体播放器应用114开始在第一媒体项之后呈现第二媒体项时,音频模块116根据ALA值自动调整音频水平。在任何时候,如果音频模块116接收到来自用户的改变音频水平的音频控制命令,则音频模块116可以根据用于生成经更新的、将来的ALA指令的图2的过程来注册和存储音频控制命令。
VI.附加考虑
图6是图示出了在一个实施例中用作本文所描述的实体中的一个或者多个的部分或者全部的计算机600的物理组件的高级框图。例如,可以将所示计算机600的实例用作客户端110或者媒体服务器120。图示出了耦合至芯片集604的至少一个处理器602。存储器606、存储设备608、键盘610、图形适配器612、指示设备614和网络适配器616同样耦合至芯片集604。显示器618被耦合至图形适配器612。在一个实施例中,芯片集604的功能由存储器控制器集线器620和I/O控制器集线器622提供。在另一实施例中,存储器606直接被耦合至处理器602,而不是芯片集604。在一个实施例中,一个或者多个音频输出设备被耦合至芯片集604。
存储设备608是任何非暂时性计算机可读存储介质,诸如,硬盘驱动器、只读光盘存储器(CD-ROM)、DVD、或者固态存储器设备。存储器606保存由处理器602使用的指令和数据。指示设备614可以是鼠标、轨迹球、或者其它类型的指示设备,并且与键盘610结合使用以将数据输入至计算机600中。图形适配器612在显示器618上显示图像和其它信息。网络适配器616将计算机系统600耦合至局域网或者广域网。
如在本领域中已知的,计算机600可以具有与图6中所示的组件不同的组件和/或其它组件。另外,计算机600可以不具有某些所图示的组件。在一个实施例中,计算机600可以缺少键盘610、指示设备614、图形适配器612和/或显示器618。此外,存储设备608可以接近和/或远离计算机600(诸如,嵌入在存储区域网络(SAN)内)。
如在本领域中已知的,计算机600适合于执行用于提供本文所描述的功能的计算机程序模块。如本文所使用的,术语“模块”指的是用于提供指定功能的计算机程序逻辑。由此,模块可以被实现在硬件、固件、和/或软件中。在一个实施例中,程序模块被存储在存储设备608上,加载到存储器606中,并且由处理器602执行。
本说明书的一些部分从对信息的操作的算法和符号表示方面来描述实施例。在数据处理领域中的技术人员通常可以使用这些算法描述和表示来有效地向本领域中的其它技术人员传达他们工作的实质。当从功能性上或者逻辑上描述这些操作时,将这些操作理解为由计算机程序或者等效电路、微代码等所实现。
要理解,所命名的组件表示一个实施例,并且其它实施例可以包括其它组件。另外,其它实施例可以缺少本文所描述的组件并且/或者以不同的方式将所描述的功能分配到组件之间。另外,属于一个以上的组件的功能可以被合并到单个组件中。
最后,本说明书中使用的语言主要是出于可读性和指导性之目的而被选择的,并且尚未被选择用来描绘或者限制本发明的主题。因此,旨在本发明的范围不应该受该详细描述的限制,而是应该受针对在基于此要求保护的任何权利要求的限制。因此,所述实施例的公开旨在是说明性的而非限制在以下权利要求书中陈述的受保护的范围。

Claims (20)

1.一种方法,包括:
从计算设备的媒体播放器接收与在第一媒体项之后呈现第二媒体项相关联的数据,所述数据包括:
第一音频水平值,所述第一音频水平值表示所述媒体播放器在所述第一媒体项的播放期间的用户所选择的幅度设置;以及
第二音频水平值,所述第二音频水平值表示所述媒体播放器在所述第二媒体项的播放期间的用户所选择的幅度设置;
将新的音频水平索引条目添加至音频水平索引,所述新的音频水平索引条目包括:
第一媒体标识符,所述第一媒体标识符识别所述第一媒体项;
第二媒体标识符,所述第二媒体标识符识别所述第二媒体项;以及
来自由以下组成的组中的至少一个:
包括所述第一音频水平值和所述第二音频水平值的对,以及
所述第一音频水平值与所述第二音频水平值之间的差;
从包括所述第一媒体标识符和所述第二媒体标识符的一个或者多个音频水平索引条目确定音频水平差ALD值,所述ALD值表示在所述一个或者多个音频水平索引条目的所述第一音频水平值与所述第二音频水平值之间的总差。
2.根据权利要求1所述的方法,进一步包括:
将所述ALD值与阈值进行比较;以及
响应于所述ALD值超过所述阈值,将新的音频水平调整ALA索引条目添加至ALA索引,所述新的ALA索引条目包括所述第一媒体标识符、所述第二媒体标识符和所述ALD值。
3.根据权利要求1所述的方法,其中,所述总差通过以下来确定:
确定表示所述一个或者多个音频水平索引条目的所述第一音频水平值与所述第二音频水平值之间的差的值;以及
确定所确定的值的平均值、中值和众数中的一个。
4.根据权利要求1所述的方法,进一步包括:
提供所述第一媒体项以供使用第二媒体播放器呈现;
从所述第二媒体播放器接收对在所述第一媒体项的呈现期间或者在所述第一媒体项的呈现之后提供所述第二媒体项的请求;
提供所述第二媒体项;以及
提供基于所述ALD值来改变与所述第二媒体播放器相关联的音频水平的指令。
5.根据权利要求1所述的方法,其中:
所述数据进一步包括改变时间,所述改变时间指示将与所述计算设备相关联的音频水平设置为所述第二音频水平值的时间;并且
所述新的音频水平索引条目包括所述改变时间。
6.根据权利要求6所述的方法,其中,使用具有在所定义的范围内的改变时间的音频水平索引条目来确定所述ALD值。
7.根据权利要求7所述的方法,其中,所定义的范围是在所述第二媒体项的呈现开始之后的30秒钟。
8.根据权利要求1所述的方法,其中:
所述数据进一步包括音频输出设备标识符(ID),所述音频输出设备标识符(ID)识别在所述第一媒体项或者所述第二媒体项的呈现期间连接至所述计算设备的音频输出设备;并且
所述新的音频水平索引条目包括所述音频输出设备ID。
9.根据权利要求8所述的方法,其中,针对包括一个或者多个指定的音频输出设备标识符的音频水平索引条目确定特定于输出设备的ALD值。
10.根据权利要求1所述的方法,其中,接收与在第一媒体项之后呈现第二媒体项相关联的所述数据进一步包括:
接收呈现所述第二媒体项的请求;以及
识别所述第一媒体项是紧接在所述第二媒体项的呈现之前被呈现或者是当前正在被呈现。
11.根据权利要求1所述的方法,其中,所述第二音频水平值是由所述媒体播放器的用户在所述第二媒体项的播放期间选择的。
12.一种存储用于促进内容项访问的指令的计算机可读存储介质,所述指令在由处理器执行时被配置为使得所述处理器:
从计算设备的媒体播放器接收与在第一媒体项之后呈现第二媒体项相关联的数据,所述数据包括:
第一音频水平值,所述第一音频水平值表示所述媒体播放器在所述第一媒体项的播放期间的用户所选择的幅度设置;以及
第二音频水平值,所述第二音频水平值表示所述媒体播放器在所述第二媒体项的播放期间的用户所选择的幅度设置;
将新的音频水平索引条目添加至音频水平索引,所述新的音频水平索引条目包括:
第一媒体标识符,所述第一媒体标识符识别所述第一媒体项;
第二媒体标识符,所述第二媒体标识符识别所述第二媒体项;以及
来自由以下组成的组中的至少一个:
包括所述第一音频水平值和所述第二音频水平值的对,以及
所述第一音频水平值与所述第二音频水平值之间的差;
从包括所述第一媒体标识符和所述第二媒体标识符的一个或者多个音频水平索引条目确定音频水平差ALD值,所述ALD值表示在所述一个或者多个音频水平索引条目的所述第一音频水平值与所述第二音频水平值之间的总差。
13.根据权利要求12所述的计算机可读存储介质,所述指令进一步被配置为使得所述处理器:
将所述ALD值与阈值进行比较;以及
响应于所述ALD值超过所述阈值,将新的音频水平调整ALA索引条目添加至ALA索引,所述新的ALA索引条目包括所述第一媒体标识符、所述第二媒体标识符和所述ALD值。
14.根据权利要求12所述的计算机可读存储介质,其中,所述总差通过以下来确定:
确定表示所述一个或者多个音频水平索引条目的所述第一音频水平值与所述第二音频水平值之间的差的值;以及
确定所确定的值的平均值、中值和众数中的一个。
15.根据权利要求12所述的计算机可读存储介质,所述指令进一步被配置为使得所述处理器:
提供所述第一媒体项以供使用第二媒体播放器呈现;
从所述第二媒体播放器接收对在所述第一媒体项的呈现期间或者在所述第一媒体项的呈现之后提供所述第二媒体项的请求;
提供所述第二媒体项;以及
提供基于所述ALD值来改变与所述第二媒体播放器相关联的音频水平的指令。
16.根据权利要求12所述的计算机可读存储介质,其中:
所述数据进一步包括改变时间,所述改变时间指示将与所述计算设备相关联的音频水平设置为所述第二音频水平值的时间;并且
所述新的音频水平索引条目包括所述改变时间。
17.一种计算机系统,包括:
计算机处理器;
索引模块,所述索引模块被配置为在所述计算机处理器上执行并且被配置为:
从计算设备的媒体播放器接收与在第一媒体项之后呈现第二媒体项相关联的数据,所述数据包括:
第一音频水平值,所述第一音频水平值表示所述媒体播放器在所述第一媒体项的播放期间的用户所选择的幅度设置;以及
第二音频水平值,所述第二音频水平值表示所述媒体播放器在所述第二媒体项的播放期间的用户所选择的幅度设置;
将新的音频水平索引条目添加至音频水平索引,所述新的音频水平索引条目包括:
第一媒体标识符,所述第一媒体标识符识别所述第一媒体项;
第二媒体标识符,所述第二媒体标识符识别所述第二媒体项;以及
来自由以下组成的组中的至少一个:
包括所述第一音频水平值和所述第二音频水平值的对,以及
所述第一音频水平值与所述第二音频水平值之间的差;
从包括所述第一媒体标识符和所述第二媒体标识符的一个或者多个音频水平索引条目确定音频水平差ALD值,所述ALD值表示在所述一个或者多个音频水平索引条目的所述第一音频水平值与所述第二音频水平值之间的总差。
18.根据权利要求17所述的计算机系统,其中:
所述数据进一步包括音频输出设备标识符(ID),所述音频输出设备标识符(ID)识别在所述第一媒体项或者所述第二媒体项的呈现期间连接至所述计算设备的音频输出设备;并且
所述新的音频水平索引条目包括所述音频输出设备ID。
19.根据权利要求17所述的计算机系统,其中,所述索引模块进一步被配置为:
接收呈现所述第二媒体项的请求;以及
识别所述第一媒体项是紧接在所述第二媒体项的呈现之前被呈现或者是当前正在被呈现。
20.根据权利要求17所述的计算机系统,其中,所述第二音频水平值是由所述媒体播放器的用户在所述第二媒体项的播放期间选择的。
CN201610941365.3A 2015-11-10 2016-10-25 媒体项呈现期间的自动音频水平调整 Active CN106970773B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/937,752 US9858036B2 (en) 2015-11-10 2015-11-10 Automatic audio level adjustment during media item presentation
US14/937,752 2015-11-10

Publications (2)

Publication Number Publication Date
CN106970773A true CN106970773A (zh) 2017-07-21
CN106970773B CN106970773B (zh) 2020-06-16

Family

ID=57396262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610941365.3A Active CN106970773B (zh) 2015-11-10 2016-10-25 媒体项呈现期间的自动音频水平调整

Country Status (3)

Country Link
US (2) US9858036B2 (zh)
EP (1) EP3168740B1 (zh)
CN (1) CN106970773B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111399795A (zh) * 2019-01-03 2020-07-10 哈曼国际工业有限公司 多步声音偏好确定

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10992719B2 (en) * 2017-11-14 2021-04-27 Rovi Guides, Inc. Systems and methods for establishing a voice link between users accessing media
US11347470B2 (en) * 2018-11-16 2022-05-31 Roku, Inc. Detection of media playback loudness level and corresponding adjustment to audio during media replacement event

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7158624B1 (en) * 2002-06-17 2007-01-02 Cisco Technology, Inc. Methods and apparatus for selectively including an audio signal component within an audio output signal
US20070256014A1 (en) * 2006-03-31 2007-11-01 General Instrument Corporation Multimedia Processing Apparatus an Method for Adjusting the Audio Level of Multimedia Content
CN102033776A (zh) * 2009-09-29 2011-04-27 联想(北京)有限公司 一种音频播放方法及一种计算设备
CN102498664A (zh) * 2009-07-23 2012-06-13 斯灵媒体有限公司 用于媒体流中的数字音频样本的自适应增益控制
CN102567468A (zh) * 2011-12-06 2012-07-11 上海聚力传媒技术有限公司 一种用于对媒体文件的播放音量进行调节的方法与设备
CN103124165A (zh) * 2011-11-14 2013-05-29 谷歌公司 自动增益控制
CN103823654A (zh) * 2014-02-24 2014-05-28 联想(北京)有限公司 一种信息处理方法以及一种电子设备
CN103931199A (zh) * 2011-11-14 2014-07-16 苹果公司 多媒体片段的生成
CN103959286A (zh) * 2011-08-26 2014-07-30 谷歌公司 用于识别媒体项的可用性的系统和方法
CN104932681A (zh) * 2014-03-21 2015-09-23 意美森公司 触觉效果的自动调整

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003517786A (ja) * 1999-12-16 2003-05-27 ケント・リッジ・デジタル・ラブス ビデオ制作システムおよび方法
US8838183B2 (en) * 2002-10-15 2014-09-16 Varia Holdings Llc Mobile digital communication/computing device having a context sensitive audio system
US20080130958A1 (en) * 2006-11-30 2008-06-05 Motorola, Inc. Method and system for vision-based parameter adjustment
JP4374058B2 (ja) * 2008-03-31 2009-12-02 株式会社東芝 映像音声出力装置及び映像音声出力方法
US20090304205A1 (en) * 2008-06-10 2009-12-10 Sony Corporation Of Japan Techniques for personalizing audio levels
WO2013115748A1 (en) * 2012-01-30 2013-08-08 Echostar Ukraine, L.L.C. Apparatus, systems and methods for adjusting output audio volume based on user location
US20150243163A1 (en) * 2012-12-14 2015-08-27 Biscotti Inc. Audio Based Remote Control Functionality
US9251850B2 (en) * 2012-12-19 2016-02-02 Bitcentral Inc. Nonlinear proxy-based editing system and method having improved audio level controls
US8874448B1 (en) * 2014-04-01 2014-10-28 Google Inc. Attention-based dynamic audio level adjustment
US9632664B2 (en) * 2015-03-08 2017-04-25 Apple Inc. Devices, methods, and graphical user interfaces for manipulating user interface objects with visual and/or haptic feedback

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7158624B1 (en) * 2002-06-17 2007-01-02 Cisco Technology, Inc. Methods and apparatus for selectively including an audio signal component within an audio output signal
US20070256014A1 (en) * 2006-03-31 2007-11-01 General Instrument Corporation Multimedia Processing Apparatus an Method for Adjusting the Audio Level of Multimedia Content
CN102498664A (zh) * 2009-07-23 2012-06-13 斯灵媒体有限公司 用于媒体流中的数字音频样本的自适应增益控制
CN102033776A (zh) * 2009-09-29 2011-04-27 联想(北京)有限公司 一种音频播放方法及一种计算设备
CN103959286A (zh) * 2011-08-26 2014-07-30 谷歌公司 用于识别媒体项的可用性的系统和方法
CN103124165A (zh) * 2011-11-14 2013-05-29 谷歌公司 自动增益控制
CN103931199A (zh) * 2011-11-14 2014-07-16 苹果公司 多媒体片段的生成
CN102567468A (zh) * 2011-12-06 2012-07-11 上海聚力传媒技术有限公司 一种用于对媒体文件的播放音量进行调节的方法与设备
CN103823654A (zh) * 2014-02-24 2014-05-28 联想(北京)有限公司 一种信息处理方法以及一种电子设备
CN104932681A (zh) * 2014-03-21 2015-09-23 意美森公司 触觉效果的自动调整

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111399795A (zh) * 2019-01-03 2020-07-10 哈曼国际工业有限公司 多步声音偏好确定

Also Published As

Publication number Publication date
EP3168740B1 (en) 2019-01-09
CN106970773B (zh) 2020-06-16
EP3168740A1 (en) 2017-05-17
US10656901B2 (en) 2020-05-19
US9858036B2 (en) 2018-01-02
US20180107448A1 (en) 2018-04-19
US20170131966A1 (en) 2017-05-11

Similar Documents

Publication Publication Date Title
US20190018644A1 (en) Soundsharing capabilities application
JP7071508B2 (ja) 音量調整のための方法、コンピュータ可読記憶媒体及び装置
US9686586B2 (en) Interstitial audio control
US11611800B2 (en) Methods and apparatus for audio equalization
US20140328500A1 (en) Method and an apparatus for automatic volume leveling of audio signals
US20120308196A1 (en) System and method for uploading and downloading a video file and synchronizing videos with an audio file
US20220210514A1 (en) System and process for collaborative digital content generation, publication, distribution, and discovery
CN106970773A (zh) 媒体项呈现期间的自动音频水平调整
WO2022033452A1 (zh) 一种音量推荐方法、装置、设备及存储介质
Wolters et al. Loudness normalization in the age of portable media players
CN110928518A (zh) 音频数据处理方法、装置、电子设备和存储介质
CN113196393B (zh) 使用起始相位调制进行加水印的设备和方法
US10346472B2 (en) Method and a portable electronic device for automatically rating a music track
US20220302892A1 (en) Method and system for normalizing platform-adaptive audio
US20220321076A1 (en) Method and system for processing audio signal
EP3889958A1 (en) Dynamic audio playback equalization using semantic features
Alemanno et al. A framework for adaptive real-time loudness control
CN115268828A (zh) 音频播放方法、电子设备及可读存储介质
US20190391782A1 (en) Method and system of processing an audio recording for facilitating production of competitively loud mastered audio recording
Cassidy Auditory signal processing to improve impaired listening experiences via efficient, loudness-based algorithms

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant