CN114495953A - 用于回避控制的元数据 - Google Patents
用于回避控制的元数据 Download PDFInfo
- Publication number
- CN114495953A CN114495953A CN202210126941.4A CN202210126941A CN114495953A CN 114495953 A CN114495953 A CN 114495953A CN 202210126941 A CN202210126941 A CN 202210126941A CN 114495953 A CN114495953 A CN 114495953A
- Authority
- CN
- China
- Prior art keywords
- channel group
- channel
- ducking
- values
- program content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 39
- 230000000694 effects Effects 0.000 claims description 32
- 230000005236 sound signal Effects 0.000 claims description 23
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000005562 fading Methods 0.000 claims description 3
- 230000001151 other effect Effects 0.000 claims description 2
- 230000014155 detection of activity Effects 0.000 claims 1
- 230000004044 response Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 14
- 230000001413 cellular effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000001771 impaired effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 241000272525 Anas platyrhynchos Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000004377 microelectronic Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3089—Control of digital or coded signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4396—Processing of audio elementary streams by muting the audio signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
- H04R27/02—Amplifying systems for the deaf
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/003—Digital PA systems using, e.g. LAN or internet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/009—Signal processing in [PA] systems to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Abstract
本公开涉及用于回避控制的元数据。本文描述了音频编码设备和音频解码设备。该音频编码设备可检查用于表示一条声音节目内容的一组音频通道/通道组,并产生一组回避值以与通道/通道组中的一个通道/通道组相关联。在回放该条声音节目内容期间,可将回避值应用于所有其他通道/通道组。应用这些回避值可使得(1)回避的通道/通道组的动态范围减小,和/或(2)通道/通道组在声场中移动。这样回避可改善未回避的通道/通道组中的音频的可懂度。例如,通过在回放期间使用其他通道/通道组的选择性回避,收听者可更清晰地听到叙述通道/通道组。
Description
本申请是申请号为201580006201.5、申请日为2015年2月26日、发明名称为“用于回避控制的元数据”的发明专利申请的分案申请。
相关问题
本专利申请要求于2014年3月25日提交的美国临时专利申请61/970,284的较早申请日期的权益。
技术领域
本发明描述了将回避(ducking)值添加到用于表示一条声音节目内容的音频资产中的系统和方法。该回避值可以是与特定通道/通道组相关联的并且可用于对除相关联的通道/通道组之外的该条声音节目内容中的每个其他通道/通道组进行回避。还描述了其他实施方案。
背景技术
音频通道可由收听者在“开”和“关”之间选择性地来回切换。例如,电影或电视节目可包括可由用户选择的叙述通道。该叙述通道可提供对在对应视频内发生的可视动作和活动的音频说明。因此,这种叙述通道对于视力受损的用户可能是有益的。
尽管叙述可允许视力受损的用户更好地理解视频中发生的视觉动作和活动,但在其他音频通道上直接播放该叙述通道可能会影响这些通道的总体可懂度。例如,在同时播放这些通道中的两个通道时,主对话通道可能会与叙述通道相互干扰。
在此部分中描述的方法是可执行的方法,但不一定是先前已设想或执行的方法。因此,除非另外指明,否则不应认为在此部分中描述的方法中的任一个方法仅仅凭借其被包括在此部分中而有资格作为现有技术。
发明内容
本文描述了音频编码设备和音频解码设备。该音频编码设备可检查与一条声音节目内容对应的一组音频通道并且产生一组回避值以与通道或通道组中的一个通道或通道组相关联。例如,音频通道可包括帮助视力受损的用户理解在电影或电视广播中发生的动作的叙述通道。例如,该叙述通道可包括对视频或其他动作中可能对于视力受损用户并不明显的演员的移动的音频描述。回避值可与表示该条编码的声音节目内容的音频资产中的该叙述通道相关联。
可向一个或多个音频解码设备传输该音频资产以用于通过一组扬声器进行回放。在一个实施方案中,回避值可在回放期间减小除该条声音节目内容中的叙述信道以外的所有其他信道的动态范围。因此,可通过减小被回放的其他通道的范围来强调叙述通道。在一个实施方案中,回避值可随时间改变,使得在叙述通道中检测到活动的时间段期间而不在不活动时间段期间进行回避(例如,语音/话音活动)。
在一些实施方案中,可将回避独立应用于音频通道/通道组。例如,可比音乐/效果通道更严重地对对话通道进行回避。这种可变性允许改善叙述通道的可懂度,而无需对可能不会同样严重地影响叙述通道可懂度的其他通道进行回避。
在一些实施方案中,回避值还可能使得不和回避值相关联的一个或多个通道被呈现于声场内的不同位置处。例如,回避值可能使得在回放期间由环绕扬声器呈现通道。与回避和减小通道动态范围同时,呈现位置的这种修改可改善另一个通道(例如,叙述通道)的可懂度。
如上所述,可将回避值包括在一条编码的声音节目内容中并与特定通道/通道组相关联。在回放该条编码的声音节目内容期间,可将回避值应用于不和回避值相关联的所有其他通道/通道组。这样回避可改善未回避的通道/通道组中的音频的可懂度。例如,如上所述,通过在回放期间使用其他通道/通道组的选择性回避,收听者可更清晰地听到叙述通道/通道组。
以上概述不包括本发明的所有方面的详尽列表。可预期的是,本发明包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在随该专利申请提交的权利要求中特别指出的各种方面的所有合适的组合来实施的所有系统和方法。此类组合具有未在上述发明内容中具体阐述的特定优点。
附图说明
本发明的实施方案以举例的方式进行说明,而不仅限于各个附图的图示,在附图中类似的附图标号指示类似的元件。应当指出,本公开中提到本发明的“一”或“一个”实施方案未必是同一实施方案,并且它们表示至少一个实施方案。
图1示出了根据一个实施方案的包括音频编码设备和一组音频解码设备的音频系统。
图2示出了根据一个实施方案的音频编码设备的部件示意图。
图3示出了根据一个实施方案的音频解码设备的部件示意图。
图4示出了根据一个实施方案的方法,该方法用于(1)对声音节目内容的多通道条目进行编码,以包括与第一通道/通道组相关联的回避值,以及(2)回放声音节目内容的编码的多通道条目,使得第二通道/通道组被回避,以有利于与回避值相关联的第一通道/通道组。
具体实施方式
参考所附附图来描述若干个实施方案。虽然阐述了许多细节,但应当理解,本发明的一些实施方案可在没有这些细节的情况下被实施。在其他情况下,未详细示出熟知的电路、结构和技术,以免模糊对该描述的理解。
图1示出了根据一个实施方案的音频系统100。音频系统100可包括音频编码设备101和一组音频解码设备1031-103N。音频编码设备101和音频解码设备1031-103N可通过分布式网络105以通信方式耦接。具体地,音频编码设备101可对一条或多条声音节目内容进行编码并通过分布式网络105向一个或多个音频解码设备1031-103N传输编码的数据。
在一个实施方案中,音频编码设备101可对声音节目内容的多通道条目进行编码。如下文中更详细所述的,由音频编码设备101产生的编码数据可包括用于包括该条声音节目内容的独立通道或通道组的元数据。具体地,用于特定通道/通道组的元数据可指示应当在指定持续时间/时间期间内对所有其他通道/通道组进行“回避”(即,强度/音量减小)。这种回避可允许未回避的通道/通道组(即,与回避值相关联的通道/通道组)被用户/收听者更清晰地听到/理解。
现在将以举例方式来描述音频系统100的每个元件。在其他实施方案中,音频系统100可包括比图1所示和本文描述的更多元件。
图2示出了根据一个实施方案的音频编码设备101的部件示意图。音频编码设备101可以是能够对声音节目内容的多通道条目进行编码的任何计算设备。例如,音频编码设备101可以是膝上型计算机、台式计算机、计算机服务器、平板计算机、游戏系统和/或移动设备(例如,蜂窝电话或移动媒体播放器)。现在将描述图2中所示的音频编码设备101的每个元件。
音频编码设备101可包括主系统处理器201和存储器单元203。处理器201和存储器单元203在这里被一般性地用于指代进行实现音频编码设备101的各个功能和操作所需要的操作的可编程数据处理部件和数据存储装置的任何合适的组合。处理器201可以是专用处理器,诸如专用集成电路(ASIC)、通用微处理器、现场可编程门阵列(FPGA)、数字信号控制器或一组硬件逻辑结构(例如,滤波器、算术逻辑单元和专用状态机),而存储器单元203可指微电子非易失性随机存取存储器。
操作系统可与特定于音频编码设备101的各种功能的应用程序一起被存储在存储器单元203中,这些应用程序要被处理器201运行或执行以执行音频编码设备101的各种功能。例如,存储器单元203可包括与音频编码设备101的其他硬件元件和软件元件结合的对声音节目内容的多通道条目进行编码的编码器205。如上文所述和下文将要更详细所述的,由编码器205产生的编码数据可包括用于该条声音节目内容的独立通道和通道组的元数据。该元数据可指示要由一个或多个音频解码设备1031-103N应用于不和该元数据相关联的其他通道/通道组的回避值。具体地,如下文更详细所述的,可由一个或多个音频解码设备1031-103N使用回避值来对其他通道/通道组进行回避,以改善用户对非回避通道/通道组的可懂度。
在一个实施方案中,音频编码设备101可包括用于通过一个或多个连接与其他部件进行通信的通信接口207。例如,通信接口207可能够使用蓝牙、IEEE 802.11x标准组、IEEE 802.3、移动通信的蜂窝全球系统(GSM)标准、蜂窝码分多址(CDMA)标准和/或长期演进(LTE)标准进行通信。在一个实施方案中,通信接口207便于通过分布式网络105进行视频、音频和/或其他数据条目的发送/接收。例如,音频编码设备101可经由通信接口207来接收要编码的一条或多条声音节目内容。如下文更详细所述的,可对这些条声音节目内容进行编码/处理,并且还经由通信接口207来向一个或多个音频解码设备1031-103N发送以用于回放。
现在参考图3,将对音频解码设备1031进行描述。尽管结合音频解码设备1031进行描述,但音频解码设备1032-103N中的每个音频解码设备可包括相似或相同的元件。音频解码设备1031可以是能够接收、解码和回放一条编码的声音节目内容的任何计算设备。例如,音频解码设备1031可以是膝上型计算机、台式计算机、平板计算机、机顶盒、多媒体播放器、游戏系统和/或移动设备(例如,蜂窝电话或移动媒体播放器)。如下文更详细所述的,音频解码设备1031可从音频编码设备101接收用于表示一条编码的声音节目内容的音频资产。音频解码设备1031可读取/提取用于特定通道/通道组的该条编码的声音节目内容中的元数据。元数据可包括将应用于其他通道/通道组的回避值。因此,如上所述,可使用回避值来使不和回避值相关联的这些通道/通道组进行回避,以改善非回避通道/通道组的可懂度。
音频解码设备1031可包括主系统处理器301和存储器单元303。类似于处理器201和存储器单元203,处理器301和存储器器单元303在这里被一般性地用于指代进行实现音频解码设备1031的各个功能和操作所需要的操作的可编程数据处理部件和数据存储装置的任何合适的组合。处理器301可以是专用处理器,诸如ASIC、通用微处理器、FPGA、数字信号控制器或一组硬件逻辑结构(例如,滤波器、算术逻辑单元和专用状态机),而存储器单元303可指微电子非易失性随机存取存储器。
操作系统可与特定于音频解码设备1031的各种功能的应用程序一起被存储在存储器单元303中,这些应用程序要被处理器301运行或执行以执行音频解码设备1031的各种功能。例如,存储器单元303可包括解码器305。解码器305与音频解码设备1031的一个或多个其他部件一起可从编码的该条表示声音节目内容的音频资产提取/导出回避值。例如,可通过分析主通道组来导出回避值并与音频资产一起插入。解码器305可提取回避值或向混合信号内的回避值的编码版本应用算法以产生回避值。解码器305然后可将这些回避值应用于该条编码的声音节目内容的一个或多个通道/通道组。具体地,回避值可在该条编码的声音节目内容中与第一通道/通道组相关联,并且解码器305可向不同于第一通道/通道组的第二通道/通道组应用回避值。因此,由解码器305进行的回避是相对于音频资产内不和回避值相关联的其他通道/通道组,而非与回避值相关联的通道/通道组。
在一个实施方案中,音频解码设备1031可包括用于基于该条编码的声音节目内容来输出声音的一个或多个扬声器309。扬声器309可以是全音域驱动器、中音域驱动器、重低音扬声器、低音扬声器、和高音扬声器的任意组合。每个扬声器309可使用经由迫使导线线圈(例如音圈)轴向地移动通过柱形磁隙的柔性悬架连接到刚性盆架、或框架的轻质振动膜、或锥体。当电音频信号施加到音圈时,由音圈中的电流形成磁场,从而使其成为可变电磁体。线圈和扬声器309的磁系统相互交互,从而生成使得线圈(并因此使得所附接的锥体)来回移动的机械力,由此在来自源的所施加的音频电信号的控制下再现声音。
在一个实施方案中,音频解码设备1031可包括用于通过一个或多个连接与其他部件进行通信的通信接口307。例如,通信接口307可能够使用蓝牙、IEEE 802.11x标准组、IEEE 802.3、移动通信的蜂窝全球系统(GSM)标准、蜂窝码分多址(CDMA)标准和/或长期演进(LTE)标准进行通信。在一个实施方案中,通信接口307便于进行视频、音频和/或其他数据条目的发送/接收。例如,音频解码设备1031可经由通信接口307从音频编码设备101接收用于表示该条编码的声音节目内容的音频资产。如下文将更详细所述的,可对所接收的这一音频资产进行解码并由音频解码设备1031回放。
如上所述,其他音频解码设备1032-103N可与音频解码设备1031相同。具体地,音频解码设备1032-103N可各自包括处理器301、存储器单元303、解码器305、通信接口307和一个或多个扬声器309。
如上所述,音频编码设备101和音频解码设备1031-103N可通过分布式网络105进行通信。分布式网络105可由联网设备的任意组合构成,包括交换机、路由器、控制器、接入点等。分布式网络可使用一种或多种标准/协议工作,包括蓝牙、IEEE 802.11x标准组、IEEE802.3、蜂窝移动通信全球系统(GSM)标准、蜂窝码分多址(CDMA)标准和/或长期演进(LTE)标准。
现在转向图4,将描述一种方法400,该方法用于(1)对声音节目内容的多通道条目进行编码,以包括与第一通道/通道组相关联的回避值,以及(2)回放声音节目内容的编码的多通道条目,使得对第二通道/通道组进行回避,以有利于与回避值相关联的第一通道/通道组。尽管结合通道/通道组描述了方法400的操作,在其他实施方案中,可相对于由该条声音节目内容表示的声音对象或主干以类似方式进行回避。
可由音频编码设备101、一个或多个音频解码设备1031-103N和/或另一个设备的一个或多个部件来执行方法400的每个操作。例如,如将在以下描述中使用的那样,可使用音频编码设备101的编码器205和音频解码设备1031的解码器305中的一者或多者来执行方法400的操作。然而,在其他实施方案中,可使用不同的元件和设备来执行方法400。尽管编码器205和解码器305被描述为分别驻留在存储器单元203和303中,但在其他实施方案中,可由包括滤波器、算术逻辑单元和专用状态机一个或多个硬件结构来实现编码器205和解码器305。
尽管按照特定次序示出和描述了方法400的操作,但在其他实施方案中,可按照不同的次序来执行方法400的操作。例如,可同时或在与交叠时间期间内执行一个或多个操作。现在将以举例的方式在下文中描述方法400的每个操作。
在一个实施方案中,该方法400可在操作401处开始接收用于表示用于一条声音节目内容的一个或多个通道的一组音频信号。例如,音频编码设备101可接收与一条声音节目内容对应的N个音频通道(例如,音乐作品或电影的声道/音轨),其中N大于等于二。例如,可在操作401处接收用于表示一条声音节目内容的四个音频通道。在一些实施方案中,所接收的通道中的一个通道可对应于叙述通道,该叙述通道辅助视觉受损用户理解电影或电视广播中发生的动作。在这些实施方案中,其他通道可对应于任一空间通道(例如,左、右和中心音频通道)和/或表示对象/主干(例如,对话、音乐和效果音频对象/主干)。可在操作401处经由通信接口207从外部系统或设备(例如,外部计算机或流传输音频服务)接收音频信号/通道。在其他实施方案中,可在操作401处在音频编码设备101上本地存储(例如,在存储器单元203中存储)并检索音频信号/通道。
在一些实施方案中,在操作401处接收的音频信号/通道可用于同时并与视频同步地进行再现。例如,如上所述,在操作401处接收的音频信号/通道可以是用于电影或电视节目的音轨。在本实施方案中,连同对应的视频内容或与视频内容分开,可在操作401处发送和接收音频信号/通道。
在操作403处,可对在操作401处接收的通道进行处理/编码,以产生用于表示该条声音节目内容的音频资产。在一个实施方案中,可在这些组内对通道进行分组和处理。每个通道组可包括关联在一起的一个或多个个体通道。可将通道组一起分析,以确定动态范围控制/压缩(DRC)增益值,在该条编码的声音节目内容解码/回放期间,其要被应用于每个相应组的通道。DRC通过缩窄或压缩音频信号的动态范围来减小响亮声音的音量或放大安静的声音。DRC增益值可作为元数据被添加到用于表示该条编码的声音节目内容的音频资产。
在一个实施方案中,可针对该条声音节目内容中的单个通道/通道组来确定回避值。回避值表示将把其他通道/通道组回避的量(例如,降低音量)。例如,在操作401处接收的一条声音节目内容可包括四个对象:(1)叙述对象;(2)对话对象;(3)音乐对象;和(4)效果对象。在一些实施方案中,可在处理之前将这四个对象分配到通道组(例如,可将叙述对象分配到第一通道组,将对话对象分配到第二通道组,并将音乐和效果对象同时分配到第三通道组)。在本示例中,可产生一组回避值并与第一通道组相关联。与第一通道组相关联的该组回避值指示音频解码设备1031-103N中的一个或多个音频解码设备中的解码器305要向一个或多个其他通道组应用的衰减量。
在一些实施方案中,个体回避序列可与通道/通道组的初始布局和通道/通道组的每个可能的下混频相关联。例如,标识符可与通道/通道组的初始布局和通道/通道组的每个可能的下混频相关联。在本示例中,回避值的独立序列可与每个标识符相关联。因此,可基于他们的布局/下混频的布置来将回避值的适当序列应用于通道/通道组。
在一个实施方案中,可通过缩窄/压缩这些通道组的动态范围来将回避值应用于通道组。例如,回避值可指示可以音频解码设备1031-103N中的一个或多个回放期间将其他通道组回避10dB,并可类似于DRC增益值而被应用。该回避可能在指定的时间段内波动。例如,在第一时间段期间在第一通道组中检测到活动(例如,语音或话音活动)时,操作403可将与第一通道组相关联的回避值设置为该第一时间段期间的第一水平。相反,在第二时间段期间在第一通道组中未能检测到活动时,操作403可将与第一通道组相关联的回避值设置为该第二时间段期间的第二水平。在本示例中,第一水平可大于第二水平,使得第二通道组和第三通道组在第一通道组中的活动时间段期间比在不活动时间段期间受到更严重的回避。因此,可在活动时间段期间强调第一通道组,而允许第二通道组和第三通道组在第一通道组相对不活动的时间段期间被听到并且不变。
如上所述,可类似于DRC增益值那样应用回避值。在这些实施方案中,回避值可小于或等于零dB,使得应用回避值使得通道组(即,在第一通道组中的无活动时间段期间)无衰减或通道组有衰减。在一些实施方案中,应用回避值可超驰音频资产中所指示的其他效果,包括通道/通道组的“剪辑”或“隐退”。
在一些实施方案中,回避值可指示向每个通道组应用不同水平的回避。使用上述三个示例通道组,操作403可确定可能需要将与对话相关联的第二通道组在回放期间进行比与音乐和效果相关联的第三通道组更严重的回避。对话的这种更严重的回避允许第一通道组中的叙述与第三通道组中的音乐和效果一起存在于前景音频中,而可在正下方(即,在背景中)播放第二通道组中的对话。由于对话与音乐和效果相比可能会更严重地干扰叙述的可懂度,允许对第二通道组和第三通道组进行独立回避使得回避量最小化,同时仍然提升该叙述对用户的可懂度。
如上所述,回避值可用于降低通道/通道组的回放水平。在一些实施方案中,可扩展回避值以不仅改变回放水平而且另外地或独立地改变通道/通道组的声音场中的呈现位置。例如,使用上述三个示例通道组,在操作403处被添加到音频资产的回避值可指示要将对第二通道组的呈现在音频解码设备1031-103N回放期间从前方扬声器309移动到环绕扬声器309。可在某一时间段期间限制通道/通道组的这种移动。例如,可仅在第一通道组(例如,叙述通道组)中检测到活动时,使得通道/通道组移动。通过移动声音场中通道/通道组的呈现位置,可相对于其他通道/通道组来强调感兴趣的特定通道/通道组。
在一个实施方案中,在操作403产生并插入音频资产内的回避值可与单个通道/通道组相关联。因此,每个音频资产包括在回放期间未回避的单个通道/通道组,同时使用回避值对音频资产中的所有其他通道/通道组进行回避。在一些实施方案中,在操作403处产生的回避值可与多个通道/通道组相关联,但对于某时间的回放而言,该多个通道/通道组中仅有一个通道/通道组可为活动的。例如,音频资产可包括与不同语言对应的多个不同的叙述通道/通道组。在这些实施方案中,一次仅可选择一种语言进行回放(即,不同叙述通道/通道组间仅有一个活动的通道/通道组)。因此,回避值被应用于所有其他活动的不和回避值相关联的通道/通道组(即,不将回避值应用于活动和不活动的叙述通道/通道组)。
在一些实施方案中,音频资产可包括各自与不同通道/通道组相关联的多组回避值。例如,使用以上示例,音频资产可包括与不同语言对应的多个不同的叙述通道/通道组,其中一次仅有一个通道/通道组被授权为活动的。在本实施方案中,叙述通道/通道组中的每个通道/通道组可与将在回放期间被应用于所有其他活动通道/通道组的不同组回避值相关联。
在产生包括回避值的该条编码的声音节目内容之后,操作405可将表示该条声音节目内容的音频资产传输到音频解码设备1031-103N中的一个或多个音频解码设备。在一个实施方案中,可使用音频编码设备101的通信接口207和音频解码设备1031-103N中的一个或多个音频解码设备的通信接口307通过分布式网络105来执行音频资产的传输。在其他实施方案中,可通过其他技术(例如,经由便携式存储器设备)在操作405处传输音频资产。
在操作407处,音频解码设备1031-103N中的一个或多个音频解码设备可对音频资产进行解码,以显示出两个或更多通道/通道组、在通道/通道组中的一个通道/通道组内相关联的回避值和/或在操作403处被添加的其他音频信息。如上所述,回避值可用于(1)对特定通道/通道组进行回避和/或(2)在声场内移动特定通道。
在操作409处,该方法400可确定音频资产中是否存在回避值以及是否已选择与回避值相关联的通道/通道组以供回放(例如,由用户选择进行回放)。在操作413处,在回避值未被包括在音频资产中或未选择与回避值相关联的通道以供回放时,可针对被选择要无回避地进行回放的通道/通道组产生驱动信号。在操作413处产生的这些驱动信号可用于在操作415处通过扬声器309进行回放。
相反,在操作411处,在回避值被包括在音频资产中并且已选择相关联的通道/通道组以供回放时,可将解码的回避值应用于不相关联的通道/通道组以产生一组驱动信号,从而在操作415处通过扬声器309进行回放。具体地,回避值可减小不与回避值相关联的通道/通道组的动态范围。在以上所述的三个示例通道组中,可将回避值应用于第二通道组和/或第三通道组,使得来自第一通道组的音频保持不回避,因此对于用户而言更具有可懂度。在一些实施方案中,可在操作411处进行应用之前,向回避值应用缩放系数。
如上文结合操作403所述的,回避值也可使得不与回避值相关联的一个或多个通道/通道组移动到声场内。例如,在以上示例中,在操作411处,回避值可使得第二通道组移动到环绕扬声器309中。与降低第二通道组和/或第三通道组的动态范围同时,这种移动可改善第一通道组的可懂度。
如上所述,可将回避值包括在表示一条声音节目内容的音频资产中并与特定通道/通道组相关联。在回放该条编码的声音节目内容期间,可将回避值应用于所有其他通道/通道组。这样回避可改善未回避的通道/通道组中的音频的可懂度。例如,通过在回放期间使用其他通道/通道组的选择性回避,用户可更清晰地听到叙述通道/通道组。
如上文阐述,本发明的实施方案可为制品,其中在机器可读介质(诸如微电子存储器)上存储有指令,该指令对一个或多个数据处理部件(本文中一般被称为“处理器”)进行编程,以执行上述操作。在其他实施方案中,可通过包含硬连线逻辑部件(例如,专用数字滤波器块和状态机)的特定硬件部件来执行这些操作中的一些操作。可替代地,可通过所编程的数据处理部件和固定硬连线电路部件的任何组合来执行那些操作。
虽然已描述并且在附图中示出了某些实施方案,但应当理解,此类实施方案仅用于说明广义的发明而非对其进行限制,并且本发明并不限于所示和所述的特定构造和布置,因为对于本领域的普通技术人员而言可想到各种其它修改。因此,要将描述视为示例性的而非限制性的。
Claims (40)
1.一种用于对一条声音节目内容进行编码的方法,包括:
确定所述一条声音节目内容中的第一通道组,以在回放所述一条声音节目内容期间进行强调,其中所述一条声音节目内容具有多个通道组,所述多个通道组包括所述第一通道组、对象或主干、以及第二通道组、对象或主干;
在所述一条声音节目内容的第一时间段期间在所述第一通道组、对象或主干中检测到语音时,生成在所述一条声音节目内容的第一时间段期间要应用于所述第二通道组、对象或主干的时变回避值序列;
将回避值与所述第一通道组、对象或主干相关联;以及
将声音节目内容和元数据编码到音频资产中,其中所编码的声音节目内容包括所述第一通道组、对象或主干、第二通道组、对象或主干,并且元数据包括与第一通道组相关联的回避值。
2.根据权利要求1所述的方法,其中所述回避值基于所述第一通道组、对象或主干内的活动随时间变化,使得在所述第一通道组内的高活动时间段期间,与在所述第一通道组、对象或主干内的低活动期间相比,所述回避值在回放期间提供所述第二通道组、对象或主干的更多回避。
3.根据权利要求1所述的方法,其中产生所述回避值以还应用于所述一条声音节目内容中的第三通道组、对象或主干,其中针对所述第二通道组、对象或主干和所述第三通道组、对象或主干产生独立的回避值组,使得所述第二通道组、对象或主干与所述第三通道组、对象或主干被不同地去强调。
4.根据权利要求1所述的方法,其中所述回避值使得所述第二通道组、对象或主干的动态范围在回放期间减小。
5.根据权利要求1所述的方法,其中所述回避值使得所述第二通道组、对象或主干在回放期间在声场中移动。
6.根据权利要求5所述的方法,其中所述回避值是小于或等于零分贝的增益值,所述增益值在被应用于所述第二通道组、对象或主干时使与所述第二通道组、对象或主干相关联的声音衰减。
7.根据权利要求1所述的方法,其中多个通道、对象或主干分组中的每一个与独立标识符和对应的回避值组相关联,使得适当的回避值组与对应的通道组、对象或主干组相关联。
8.一种用于对一条声音节目内容进行编码的方法,包括:
确定所述一条声音节目内容中的第一通道组,以在回放所述一条声音节目内容期间进行强调,其中所述一条声音节目内容具有包括所述第一通道组以及第二通道组、对象或主干的多个通道组;
将所述一条声音节目内容的所述多个通道组一起分析,以确定在所述一条声音节目内容回放期间要被应用于所述多个通道组中的每一相应组的动态范围压缩(DRC)增益值;
在所述第一通道组中检测到活动时,生成要应用于所述第二通道组、对象或主干的时变回避值序列;
将回避值与所述第一通道组相关联;以及
将声音节目内容和元数据编码到音频资产中,其中所编码的声音节目内容包括所述多个通道组,所述多个通道组包括所述第一通道组和所述第二通道组、对象或主干,并且元数据包括与第一通道组相关联的回避值、以及要被应用于所述多个通道组中的每一相应组的DRC增益值。
9.根据权利要求8所述的方法,其中所述回避值基于所述第一通道组内的活动随时间变化,使得在所述第一通道组内的高活动时间段期间,与在所述第一通道组内的低活动期间相比,所述回避值在回放期间提供所述第二通道组的更多回避。
10.根据权利要求8所述的方法,其中产生所述回避值以还应用于所述一条声音节目内容中的第三通道组、对象或主干,其中针对所述第二通道组和所述第三通道组产生独立的回避值组,其将所述第二通道组和所述第三通道组不同地去强调。
11.根据权利要求8所述的方法,其中所述回避值使得所述第二通道组在回放期间在声场中移动。
12.一种音频系统,包括:
处理器;以及
存储器,所述存储器中存储有指令,所述指令对所述处理器编程以编码一条声音节目内容,其中所述处理器被编程以
将所述一条声音节目内容的多个通道组一起分析,以确定在所述一条声音节目内容回放期间要被应用于所述多个通道组中的每一相应组的动态范围压缩(DRC)增益值,所述一条声音节目内容的所述多个通道组包括所述第一通道组、对象或主干、以及第二通道组、对象或主干;
在所述第一通道组中检测到活动时,生成要应用于所述第二通道组的时变回避值序列;
将回避值与所述第一通道组相关联;以及
将声音节目内容和元数据编码到音频资产中,其中所编码的声音节目内容包括所述多个通道组,所述多个通道组包括所述第一通道组和所述第二通道组、对象或主干,并且元数据包括与第一通道组相关联的回避值、以及要被应用于所述多个通道组中的每一相应组的DRC增益值。
13.根据权利要求12所述的音频系统,其中所述回避值基于所述第一通道组内的活动随时间变化,使得在所述第一通道组内的高活动时间段期间,与在所述第一通道组内的低活动期间相比,所述回避值在回放期间提供所述第二通道组、对象或主干的更多回避。
14.根据权利要求12所述的音频系统,其中所述存储器存储有另外的指令,所述另外的指令将处理器编程为产生要应用于所述一条声音节目内容中的第三通道组、对象或主干的独立的回避值组,其将所述第三通道组、对象或主干与所述第二通道组、对象或主干不同地去强调。
15.根据权利要求12所述的音频系统,其中所述回避值使得所述第二通道组、对象或主干在回放期间在声场中移动。
16.一种音频系统,包括:
处理器;以及
存储器,所述存储器中存储有指令,所述指令对所述处理器编程以解码一条声音节目内容,其中所述处理器被编程以
接收音频资产,所述音频资产包含所述一条声音节目内容,具有i)多个通道组,所述多个通道组包括所述第一通道组、对象或主干、以及第二通道组、对象或主干,以及ii)元数据,所述元数据具有与第一通道组、对象或主干相关联的时变回避值序列,所述回避值已基于第一通道组、对象或主干内检测到的语音活动被生成,
提取所述回避值以及所述第一通道组、对象或主干、和第二通道组、对象或主干,以及
应用所述回避值以在所述一条声音节目内容的回放期间去强调所述通道组、对象或主干。
17.根据权利要求16所述的音频系统,其中,所述存储器存储有另外的指令,所述另外的指令将所述处理器编码为基于所述第一通道组、对象或主干是否被选择回放来确定是否应用所述回避值,其中,当所述第一通道组、对象或主干未被选择回放时,不应用所述回避值。
18.根据权利要求16所述的音频系统,其中所述存储器中存储有另外的指令,所述另外的指令将处理器编程为从元数据提取独立的回避值组并且将所述独立的回避值组应用于所述一条声音节目内容中的第三通道组、对象或主干,其将所述第三通道组、对象或主干和所述第二通道组、对象或主干不同地去强调。
19.根据权利要求16所述的音频系统,其中所述回避值使得所述第二通道组、对象或主干的动态范围在回放期间减小。
20.根据权利要求16所述的音频系统,其中所述回避值使得所述第二通道组、对象或主干在回放期间在声场中移动。
21.一种音频编码方法,包括:
对音频信号进行编码,所述音频信号具有第一通道组和多个剩余通道组;以及
提供回避增益序列,所述回避增益序列与i)包括叙述通道的第一通道组或ii)基本通道布局或下混标识符相关联,其中所述下混标识符控制包括所述第一通道组用于回放,其中所述回避增益序列和所述下混标识符是与编码音频信号相关联的元数据的一部分,并且其中所述回避增益序列超驰与编码音频信号相关联的隐退效果。
22.根据权利要求21所述的方法,进一步包括提供回避调整参数作为所述元数据的一部分。
23.根据权利要求21所述的方法,其中,所述元数据具有每个下混标识符或基本通道布局不多于一个回避增益序列。
24.一种音频解码方法,包括:
接收编码音频信号;
接收与编码音频信号相关联的元数据,其中所述元数据包括与i)包括叙述通道的第一通道组或ii)基本通道布局或下混标识符相关联的回避序列;
解码所述编码音频信号以产生解码音频信号,所述解码音频信号具有第一通道组和多个剩余通道组;以及
当包括第一通道组用于回放时,
如果所述元数据指示所述回避序列与第一通道组相关联,则将所述回避序列应用于所述解码音频信号的所述多个剩余通道组,而不应用于所述第一通道组;以及
如果所述元数据指示所述回避序列与所述下混标识符相关联,则将所述回避序列应用于除所述叙述通道之外的所有通道。
25.根据权利要求24所述的方法,其中所接收的元数据包括回避调整参数,所述方法进一步包括:
在将回避序列应用于所述剩余通道组之前,根据所述回避调整参数至少调整所述回避序列的一部分。
26.根据权利要求24所述的方法,其中,所述元数据具有所述元数据中包含的每个下混标识符或基本通道布局不多于一个回避序列。
27.一种用于对一条声音节目内容进行编码的方法,包括:
确定在所述一条声音节目内容回放期间,所述一条声音节目内容中的包含叙述通道的第一通道组、对象或主干将作为前景而所述一条声音节目内容中的第二通道组、对象或主干将作为背景,其中所述一条声音节目内容具有多个通道组、对象或主干,所述多个通道组包括所述第一通道组、对象或主干、以及第二通道组、对象或主干;
在所述一条声音节目内容的第一时间段期间检测所述第一通道组、对象或主干中的活动,并且作为响应,生成在所述一条声音节目内容的第一时间段期间要应用于所述第二通道组、对象或主干的时变回避值序列,所述回避值超驰与所述一条声音节目内容相关联的其它效果;
将回避值与所述第一通道组、对象或主干相关联;以及
将声音节目内容和元数据编码到音频资产中,其中所编码的声音节目内容包括所述第一通道组、对象或主干和第二通道组、对象或主干,并且元数据包括与第一通道组相关联的时变回避值序列,其中所述回避值使得第二通道组、对象或主干在回放期间在声场中改变呈现位置。
28.根据权利要求27所述的方法,其中所述回避值基于所述第一通道组、对象或主干内的活动随时间变化,使得在所述第一通道组内的高活动时间段期间,与在所述第一通道组、对象或主干内的低活动期间相比,所述回避值在回放期间提供所述第二通道组、对象或主干的更多回避。
29.根据权利要求27所述的方法,其中产生所述回避值以还应用于所述一条声音节目内容中的第三通道组、对象或主干,其中针对所述第二通道组、对象或主干和所述第三通道组、对象或主干产生独立的回避值组,使得所述第二通道组、对象或主干和所述第三通道组、对象或主干被不同地去强调。
30.根据权利要求27所述的方法,其中在回放期间,所述回避值在被应用于所述第二通道组、对象或主干时没有造成所述第二通道组、对象或主干的动态范围压缩。
31.根据权利要求27所述的方法,其中所述回避值是小于或等于零分贝的增益值,所述增益值在被应用于所述第二通道组、对象或主干时使与所述第二通道组、对象或主干相关联的声音衰减。
32.根据权利要求27所述的方法,其中多个通道、对象或主干分组中的每一个与独立标识符和对应的回避值组相关联,使得适当的回避值组与对应的通道组、对象或主干组相关联。
33.一种音频系统,包括:
处理器;以及
存储器,所述存储器中存储有指令,所述指令对所述处理器编程以解码一条声音节目内容,其中所述处理器被编程以
接收音频资产,所述音频资产包含所述一条声音节目内容,具有i)一个或多个通道组、对象或主干,其包括所述第一通道组、对象或主干、以及第二通道组、对象或主干,其中通道组是一个或多个通道,
接收与所述一条声音节目内容相关联的元数据,其中所述元数据具有与第一通道组、对象或主干相关联的时变回避值的回避增益序列,其中所述时变回避值已基于第一通道组、对象或主干内检测到的活动被生成,
提取所述回避值;
提取所述第一通道组、对象或主干、和第二通道组、对象或主干,
从元数据提取下混标识符,
扫描元数据中的多个可用增益序列以将所述多个可用增益序列识别为时变回避值的回避增益序列;以及
在所述一条声音节目内容回放期间将时变回避值应用于第二通道组、对象或主干,由此使得第二通道组、对象或主干较不突出。
34.根据权利要求33所述的音频系统,其中,所述元数据具有所述元数据中规定的每个下混标识符不多于一个回避增益序列。
35.根据权利要求33所述的音频系统,其中,所述元数据包括多个可用增益序列,包括隐退增益序列和回避增益序列,并且其中当在元数据中设定有回避控制比特时,隐退增益序列不被应用于所述一条声音节目内容。
36.一种装置,包括处理器,所述处理器被配置为执行:
对音频信号进行编码,所述音频信号具有第一通道组和多个剩余通道组;以及
提供回避增益序列,所述回避增益序列与i)包括叙述通道的第一通道组或ii)基本通道布局或下混标识符相关联,其中所述下混标识符控制包括所述第一通道组用于回放,其中所述回避增益序列和所述下混标识符是与编码音频信号相关联的元数据的一部分,并且其中所述回避增益序列超驰与编码音频信号相关联的隐退效果。
37.根据权利要求36所述的装置,其中,回避调整参数被包括作为所述元数据的一部分。
38.根据权利要求36所述的装置,其中,所述元数据具有每个下混标识符或基本通道布局不多于一个回避增益序列。
39.根据权利要求36所述的装置,其中,所述回避增益序列在被应用时没有导致动态范围压缩。
40.根据权利要求36所述的装置,其中,所述元数据包括隐退增益序列。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461970284P | 2014-03-25 | 2014-03-25 | |
US61/970,284 | 2014-03-25 | ||
US14/613,203 US9654076B2 (en) | 2014-03-25 | 2015-02-03 | Metadata for ducking control |
US14/613,203 | 2015-02-03 | ||
PCT/US2015/017830 WO2015148046A1 (en) | 2014-03-25 | 2015-02-26 | Metadata for ducking control |
CN201580006201.5A CN105940448A (zh) | 2014-03-25 | 2015-02-26 | 用于回避控制的元数据 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580006201.5A Division CN105940448A (zh) | 2014-03-25 | 2015-02-26 | 用于回避控制的元数据 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114495953A true CN114495953A (zh) | 2022-05-13 |
Family
ID=54191763
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580006201.5A Pending CN105940448A (zh) | 2014-03-25 | 2015-02-26 | 用于回避控制的元数据 |
CN202210126941.4A Pending CN114495953A (zh) | 2014-03-25 | 2015-02-26 | 用于回避控制的元数据 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580006201.5A Pending CN105940448A (zh) | 2014-03-25 | 2015-02-26 | 用于回避控制的元数据 |
Country Status (7)
Country | Link |
---|---|
US (3) | US9654076B2 (zh) |
EP (1) | EP3074973B1 (zh) |
JP (3) | JP6400739B2 (zh) |
KR (1) | KR101843010B1 (zh) |
CN (2) | CN105940448A (zh) |
AU (3) | AU2015236755B2 (zh) |
WO (1) | WO2015148046A1 (zh) |
Families Citing this family (85)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2581810C (en) | 2004-10-26 | 2013-12-17 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
TWI529703B (zh) | 2010-02-11 | 2016-04-11 | 杜比實驗室特許公司 | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
US10844689B1 (en) | 2019-12-19 | 2020-11-24 | Saudi Arabian Oil Company | Downhole ultrasonic actuator system for mitigating lost circulation |
CN104303229B (zh) | 2012-05-18 | 2017-09-12 | 杜比实验室特许公司 | 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统 |
KR102071860B1 (ko) | 2013-01-21 | 2020-01-31 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화 |
TR201802631T4 (tr) | 2013-01-21 | 2018-03-21 | Dolby Laboratories Licensing Corp | Program Ses Şiddeti ve Sınır Meta Verilere Sahip Sesli Enkoder ve Dekoder |
CN116665683A (zh) | 2013-02-21 | 2023-08-29 | 杜比国际公司 | 用于参数化多声道编码的方法 |
CN104080024B (zh) | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
CN110083714B (zh) | 2013-04-05 | 2024-02-13 | 杜比实验室特许公司 | 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配 |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
CN105531759B (zh) | 2013-09-12 | 2019-11-26 | 杜比实验室特许公司 | 用于下混合音频内容的响度调整 |
US10095468B2 (en) | 2013-09-12 | 2018-10-09 | Dolby Laboratories Licensing Corporation | Dynamic range control for a wide variety of playback environments |
US9654076B2 (en) | 2014-03-25 | 2017-05-16 | Apple Inc. | Metadata for ducking control |
CN110808723B (zh) | 2014-05-26 | 2024-09-17 | 杜比实验室特许公司 | 音频信号响度控制 |
US9615170B2 (en) * | 2014-06-09 | 2017-04-04 | Harman International Industries, Inc. | Approach for partially preserving music in the presence of intelligible speech |
CN112185401B (zh) | 2014-10-10 | 2024-07-02 | 杜比实验室特许公司 | 基于发送无关的表示的节目响度 |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10097919B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Music service selection |
US10142754B2 (en) | 2016-02-22 | 2018-11-27 | Sonos, Inc. | Sensor on moving component of transducer |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9693164B1 (en) | 2016-08-05 | 2017-06-27 | Sonos, Inc. | Determining direction of networked microphone device relative to audio playback device |
US9794720B1 (en) | 2016-09-22 | 2017-10-17 | Sonos, Inc. | Acoustic position measurement |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US11024309B2 (en) * | 2016-10-17 | 2021-06-01 | Harman International Industries, Incorporated | Portable audio device with voice capabilities |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10580457B2 (en) * | 2017-06-13 | 2020-03-03 | 3Play Media, Inc. | Efficient audio description systems and methods |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US11895369B2 (en) | 2017-08-28 | 2024-02-06 | Dolby Laboratories Licensing Corporation | Media-aware navigation metadata |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
JP7404737B2 (ja) * | 2019-09-24 | 2023-12-26 | カシオ計算機株式会社 | 自動演奏装置、電子楽器、方法およびプログラム |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7350156B2 (en) | 2001-09-21 | 2008-03-25 | Yamaha Corporation | Audio signal editing apparatus and control method therefor |
US7617109B2 (en) | 2004-07-01 | 2009-11-10 | Dolby Laboratories Licensing Corporation | Method for correcting metadata affecting the playback loudness and dynamic range of audio information |
US7974422B1 (en) * | 2005-08-25 | 2011-07-05 | Tp Lab, Inc. | System and method of adjusting the sound of multiple audio objects directed toward an audio output device |
EP2153441A1 (en) | 2007-05-22 | 2010-02-17 | Koninklijke Philips Electronics N.V. | A device for and a method of processing audio data |
US8326444B1 (en) | 2007-08-17 | 2012-12-04 | Adobe Systems Incorporated | Method and apparatus for performing audio ducking |
KR101058042B1 (ko) * | 2007-09-06 | 2011-08-19 | 삼성전자주식회사 | 멀티스트림 재생장치 및 재생방법 |
ES2963744T3 (es) | 2008-10-29 | 2024-04-01 | Dolby Int Ab | Protección de recorte de señal usando metadatos de ganancia de audio preexistentes |
US8428758B2 (en) | 2009-02-16 | 2013-04-23 | Apple Inc. | Dynamic audio ducking |
EP2230783A3 (en) * | 2009-03-20 | 2013-04-17 | Yamaha Corporation | Mixing control apparatus |
EP2486567A1 (en) | 2009-10-09 | 2012-08-15 | Dolby Laboratories Licensing Corporation | Automatic generation of metadata for audio dominance effects |
US9324337B2 (en) * | 2009-11-17 | 2016-04-26 | Dolby Laboratories Licensing Corporation | Method and system for dialog enhancement |
TWI459828B (zh) * | 2010-03-08 | 2014-11-01 | Dolby Lab Licensing Corp | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 |
TWI525987B (zh) * | 2010-03-10 | 2016-03-11 | 杜比實驗室特許公司 | 在單一播放模式中組合響度量測的系統 |
EP2619904B1 (en) * | 2010-09-22 | 2014-07-30 | Dolby Laboratories Licensing Corporation | Audio stream mixing with dialog level normalization |
JP4686684B1 (ja) * | 2010-09-22 | 2011-05-25 | 株式会社アクセル | 音声処理装置 |
CN103443854B (zh) * | 2011-04-08 | 2016-06-08 | 杜比实验室特许公司 | 用于混合来自两个编码位流的音频节目的元数据的自动配置 |
EP2934878B1 (en) | 2012-12-18 | 2016-09-21 | E. I. du Pont de Nemours and Company | Laminates of fluoroelastomer and heat-resistant acrylate elastomer |
TWI530941B (zh) * | 2013-04-03 | 2016-04-21 | 杜比實驗室特許公司 | 用於基於物件音頻之互動成像的方法與系統 |
US9300268B2 (en) * | 2013-10-18 | 2016-03-29 | Apple Inc. | Content aware audio ducking |
US9654076B2 (en) | 2014-03-25 | 2017-05-16 | Apple Inc. | Metadata for ducking control |
-
2015
- 2015-02-03 US US14/613,203 patent/US9654076B2/en active Active
- 2015-02-26 JP JP2016570945A patent/JP6400739B2/ja active Active
- 2015-02-26 EP EP15710649.3A patent/EP3074973B1/en active Active
- 2015-02-26 KR KR1020167023186A patent/KR101843010B1/ko active IP Right Grant
- 2015-02-26 CN CN201580006201.5A patent/CN105940448A/zh active Pending
- 2015-02-26 CN CN202210126941.4A patent/CN114495953A/zh active Pending
- 2015-02-26 WO PCT/US2015/017830 patent/WO2015148046A1/en active Application Filing
- 2015-02-26 AU AU2015236755A patent/AU2015236755B2/en active Active
-
2017
- 2017-05-15 US US15/595,792 patent/US10224894B2/en active Active
- 2017-11-29 AU AU2017268582A patent/AU2017268582B2/en active Active
-
2018
- 2018-07-05 JP JP2018128114A patent/JP6606232B2/ja active Active
-
2019
- 2019-02-07 US US16/269,866 patent/US10992276B2/en active Active
- 2019-03-13 AU AU2019201701A patent/AU2019201701C1/en active Active
- 2019-10-17 JP JP2019189850A patent/JP6883636B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
KR101843010B1 (ko) | 2018-03-29 |
AU2015236755B2 (en) | 2017-08-31 |
AU2015236755A1 (en) | 2016-07-07 |
WO2015148046A1 (en) | 2015-10-01 |
AU2017268582A1 (en) | 2017-12-21 |
US20180006621A1 (en) | 2018-01-04 |
JP2018173656A (ja) | 2018-11-08 |
US9654076B2 (en) | 2017-05-16 |
JP6883636B2 (ja) | 2021-06-09 |
US20150280676A1 (en) | 2015-10-01 |
US10992276B2 (en) | 2021-04-27 |
AU2019201701C1 (en) | 2021-02-25 |
AU2019201701B2 (en) | 2020-09-03 |
KR20160113661A (ko) | 2016-09-30 |
CN105940448A (zh) | 2016-09-14 |
JP6606232B2 (ja) | 2019-11-13 |
JP2017509932A (ja) | 2017-04-06 |
AU2017268582B2 (en) | 2019-03-07 |
EP3074973B1 (en) | 2019-07-31 |
US20190181822A1 (en) | 2019-06-13 |
EP3074973A1 (en) | 2016-10-05 |
AU2019201701A1 (en) | 2019-04-04 |
JP6400739B2 (ja) | 2018-10-03 |
JP2020038375A (ja) | 2020-03-12 |
US10224894B2 (en) | 2019-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10992276B2 (en) | Metadata for ducking control | |
US11736890B2 (en) | Method, apparatus or systems for processing audio objects | |
US10699726B2 (en) | Encoded audio metadata-based equalization | |
KR102686742B1 (ko) | 객체 기반 오디오 신호 균형화 | |
KR101849612B1 (ko) | 새로운 미디어 장치 상에 내장된 라우드니스 메타데이터를 갖거나 또는 갖지 않고 미디어의 정규화된 오디오 재생을 위한 방법 및 장치 | |
KR101805110B1 (ko) | 사운드 스테이지 강화를 위한 장치 및 방법 | |
JP6186435B2 (ja) | ゲームオーディオコンテンツを示すオブジェクトベースオーディオの符号化及びレンダリング | |
US20170126343A1 (en) | Audio stem delivery and control | |
KR101790641B1 (ko) | 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스 | |
US20210006928A1 (en) | Stereo audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |