CN115668372A - 用于在回放音频数据期间提高对话可理解性的方法和设备 - Google Patents

用于在回放音频数据期间提高对话可理解性的方法和设备 Download PDF

Info

Publication number
CN115668372A
CN115668372A CN202180035484.1A CN202180035484A CN115668372A CN 115668372 A CN115668372 A CN 115668372A CN 202180035484 A CN202180035484 A CN 202180035484A CN 115668372 A CN115668372 A CN 115668372A
Authority
CN
China
Prior art keywords
audio data
volume
playback
music
dialog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180035484.1A
Other languages
English (en)
Inventor
C·辛德勒
M·施密特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN115668372A publication Critical patent/CN115668372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4318Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

本文描述了一种用于在回放设备上回放音频数据期间提高对话可理解性的方法,其中,所述音频数据包括对话音频数据、以及音乐和效果音频数据中的至少一个,所述方法包括以下步骤:基于回放音量值确定音量混合比;基于所述音量混合比将所述对话音频数据与所述音乐和效果音频数据中的至少一个进行混合;以及输出混合后的音频数据以进行回放。进一步描述了一种相应的回放设备和一种相应的计算机程序产品。

Description

用于在回放音频数据期间提高对话可理解性的方法和设备
相关申请的交叉引用
本申请要求以下优先申请的优先权:于2020年5月15日提交的美国临时申请63/025,479(参考号:D18144USP1)和于2020年5月15日提交的欧洲申请20174974.4(参考号:D18144EP),这些申请通过援引并入本文。
技术领域
本公开总体上涉及一种用于在回放设备上回放音频数据期间提高对话可理解性的方法,并且更具体地涉及基于音量混合比对包括对话音频数据、以及音乐和效果音频数据中的至少一个的音频数据进行混合,所述音量混合比是基于回放音量值确定的。本公开进一步涉及一种实施了媒体回放系统以在回放音频数据期间提高对话可理解性的回放设备和一种相应的计算机程序产品。
尽管本文将特别参考所述公开内容来描述一些实施例,但是应当理解,本公开不限于这种使用领域,并且可应用于更广泛的背景。
背景技术
在整个公开内容中对背景技术的任何讨论绝不应视为承认这种技术是本领域众所周知的或形成本领域公知常识的一部分。
如电影、连续剧、体育广播、娱乐节目、新闻等媒体内容通常由视频数据和相关联的音频数据组成。取决于媒体内容的类型,这些音频数据可以包括对话音频数据以及音乐和/或效果音频数据。这些音频数据通常以声音预混的形式分发。然而,目前在消费者端无法更改这种声音预混,这可能会导致声音再现不佳。例如,在电影的情况下,如果考虑到电影环境而不是私人环境来生成声音预混,则考虑到音乐和效果轨道过于响亮,可能会感知到对话轨道相当不平衡。
鉴于上述情况,因此存在对允许相对于音乐和效果音频轨道对对话音频轨道的回放音量进行灵活和单独调整的方法和设备的现有需求。特别地,期望能够独立于音乐和效果音频轨道来自动调整对话音频轨道的增益。
发明内容
根据本公开的第一方面,提供了一种用于在回放设备上回放音频数据期间提高对话可理解性的方法,其中,所述音频数据可以包括对话音频数据、以及音乐和效果音频数据中的至少一个。所述方法可以包括以下步骤:(a)通过将回放音量值映射到声压级,基于所述回放音量值确定作为所述声压级的函数的音量混合比,其中,所述音量混合比是指所述对话音频数据的音量与所述音乐和效果音频数据中的至少一个的音量的比率。所述方法可以进一步包括以下步骤:(b)基于所述音量混合比将所述对话音频数据与所述音乐和效果音频数据中的至少一个进行混合。并且,所述方法可以包括以下步骤:(c)输出混合后的音频数据以进行回放。
如以上所配置的,所描述的方法允许基于播放媒体内容的设备的当前回放音量来自动调整媒体内容中对话轨道的回放音量。在该上下文中,对话音频数据与音乐和效果音频数据的音量混合比可以随着(绝对)回放音量的增加而降低。
在一些实施例中,在步骤(b)中,基于所述音量混合比将所述对话音频数据与所述音乐和效果音频数据中的至少一个进行混合可以包括:至少对所述对话音频数据应用增益。
在一些实施例中,在步骤(a)中,可以将所述回放音量值映射到声压级,并且可以将所述音量混合比确定为所述声压级的函数。音量混合比与声压级(sound pressurelevel,SPL)之间的关系可以是线性的,其中,音量混合比可以随着声压级的增加而线性减小。
在一些实施例中,在步骤(a)中,所述回放音量值可以基于所述回放设备的音量值设置。这种配置允许根据绝对回放音量灵活且单独地调整对话可理解性。
在一些实施例中,所述音量值设置可以是用户定义值。这种配置允许相对于用户优选的当前绝对回放音量来调整对话可理解性。
在一些实施例中,在步骤(a)中,所述音量混合比可以基于环境声压级来进一步确定。这种配置允许进一步考虑回放设备所处的个别环境条件,例如,嘈杂的背景或房间中的障碍物或房间的整体设计(环境意识/房间补偿)造成的影响。
在一些实施例中,所述环境声压级可以基于一个或多个麦克风的测量结果来确定。
在一些实施例中,在步骤(a)之前,所述方法可以进一步包括:
(i)接收包括压缩音频数据的比特流;以及
(ii)由核心解码器对所述压缩音频数据进行核心解码并提供所述对话音频数据、以及所述音乐和效果音频数据中的至少一个。
在一些实施例中,在步骤(i)中,所接收的比特流可以进一步包括关于音频内容类型的信息,并且在步骤(a)中,所述音量混合比可以基于所述音频内容类型来进一步确定。这种配置使得能够通过考虑混音可能因不同的内容类型而有所不同,进一步调整对话可理解性。例如,在电影的情况下,对话轨道可能不如体育广播或新闻节目那么显著。有利地,音频内容类型可以经由在由回放设备接收的比特流中包括的元数据来用信号通知。
在一些实施例中,所述音频内容类型可以包括电影的音频内容、新闻节目的音频内容、体育广播的音频内容和插曲音频内容中的一种或多种。
在一些实施例中,所述方法可以进一步包括分析所述压缩音频数据以提供所述对话音频数据、以及所述音乐和效果音频数据中的至少一个。在这种配置中,分析不仅可以包括对话、音乐和效果音频数据之间的区分,还可以包括如上所述的内容类型的确定。
根据本公开的第二方面,提供了一种实施了媒体回放系统的回放设备,所述回放设备用于在回放音频数据期间提高对话可理解性,所述音频数据包括对话音频数据、以及音乐和效果音频数据中的至少一个。所述媒体回放系统可以包括(a)音频处理器,所述音频处理器用于通过将回放音量值映射到声压级,基于所述回放音量值确定作为所述声压级的函数的音量混合比,其中,所述音量混合比是指所述对话音频数据的音量与所述音乐和效果音频数据中的至少一个的音量的比率。所述媒体回放系统可以进一步包括(b)混音器,所述混音器用于基于所述音量混合比将所述对话音频数据与所述音乐和效果音频数据中的至少一个进行混合。并且,所述媒体回放系统可以包括(c)控制器,所述控制器用于输出混合后的音频数据以进行回放。
在一些实施例中,混音器可以进一步被配置为至少对所述对话音频数据应用增益。
在一些实施例中,所述音频处理器可以被配置为将所述回放音量值映射到声压级,以确定作为所述声压级的函数的所述音量混合比。
在一些实施例中,所述回放设备可以进一步包括用于接收用户的音量值设置的用户接口,并且所述回放音量值可以基于所述音量值设置。
在一些实施例中,所述回放设备可以进一步包括用于确定环境声压级的一个或多个麦克风,并且所述音频处理器可以被配置为进一步基于所述环境声压级来确定所述音量混合比。
在一些实施例中,所述回放设备可以进一步包括(i)接收器,所述接收器用于接收包括压缩音频数据的比特流。并且,所述回放设备可以进一步包括(ii)核心解码器,所述核心解码器用于对所述压缩音频数据进行核心解码并提供所述对话音频数据、以及所述音乐和效果音频数据中的至少一个。
在一些实施例中,所述核心解码器可以进一步被配置为分析所述压缩音频数据以提供所述对话音频数据、以及所述音乐和效果音频数据中的至少一个。
根据本公开的第三方面,提供了一种计算机程序产品,所述计算机程序产品具有指令,所述指令被适配成使具有处理能力的设备执行用于在回放设备上回放音频数据期间提高对话可理解性的方法。
附图说明
现在将参考附图仅通过举例来描述本公开的示例实施例,在附图中:
图1图示了用于在回放设备上回放音频数据期间提高对话可理解性的方法的示例,其中,所述音频数据可以包括对话音频数据、以及音乐和效果音频数据中的至少一个。
图2图示了实施了媒体回放系统以在回放音频数据期间提高对话可理解性的回放设备的示例,所述音频数据包括对话音频数据、以及音乐和效果(music and effects,M&E)音频数据中的至少一个。
图3图示了实施了媒体回放系统以在回放音频数据期间提高对话可理解性的回放设备的另外的示例,所述音频数据包括对话音频数据、以及音乐和效果(M&E)音频数据中的至少一个。
图4图示了对话音频数据与音乐和效果音频数据之和的比率与声压级的相关性的示例。
图5图示了具有处理能力的设备的示例。
具体实施方式
在回放音频数据期间的对话可理解性
在回放设备上回放音频数据期间,观察到的常见问题是声音预混通常不足以实现良好的声音再现。例如,如果在电视上回放电影,但是为电影环境创建了混音,则对话可理解性可能会因为感知到的音乐和效果过于响亮而不足。类似地,例如,如果用户的听力受损,特别地对话可理解性可能会受到影响。回放环境的设计也可能会增加回放期间对话感知的不足。
如本文所述的方法和设备使得能够基于对话音频数据与音乐和效果音频数据的音量混合比在音频数据的回放期间提高对话音频数据的可理解性,所述音频数据进一步包括音乐和效果音频数据中的至少一个。具体地,可以基于所述音量混合比来自动调整对话音频数据的增益。
用于在回放音频数据期间提高对话可理解性的方法
参考图1的示例,图示了用于在回放设备上回放音频数据期间提高对话可理解性的方法,其中,所述音频数据可以包括对话音频数据、以及音乐和效果音频数据中的至少一个。在步骤S101中,基于回放音量值确定音量混合比。
在实施例中,可以将回放音量值映射到声压级,并且可以将音量混合比确定为所述声压级的函数。音量混合比可以指对话音频数据的音量与音乐和效果音频数据中的至少一个的音量(之和)的比率。
如图4的示例中所示,对话音频数据与音乐和效果音频数据(M&E)201的音量混合比可以遵循线性关系203,并且可以随着声压级202的增加而线性减小。该关系可以用作用于确定作为声压级的函数的音量混合比的校准曲线。为此目的,可以将音量混合比和声压级的相应值存储在一个或多个查找表中。如图2或图3的示例中所示,媒体回放系统的音频处理器然后可以访问一个或多个查找表,以取决于当前声压级来确定相应的音量混合比。
进一步地,在实施例中,在步骤S101中,回放音量值可以基于回放设备的音量值设置。音量混合比可以基于所述音量值设置所指示的音量值来直接确定。可替代地或另外地,可以将由所述音量值设置指示的音量值映射到如上所述的声压级。虽然音量值设置可以是预定设置,但是在实施例中,音量值设置可以是用户定义值。因此,回放设备的用户可以选择适合他或她的需要的当前回放音量值,并且可以基于该用户定义的音量值直接和/或通过将该值映射到声压级来确定音量混合比。
可替代地或另外地,在步骤S101中,音量混合比可以基于环境声压级来进一步确定。环境声压级通常可以指回放设备的环境中的任何环境声音。环境声音可以包括但不限于任何背景噪声和/或回放环境中影响对回放的音频数据进行感知的任何条件。虽然环境声压级可以以任何可能的方式确定,但在实施例中,环境声压级可以基于一个或多个麦克风的测量结果来确定。一个或多个麦克风可以在回放设备中实施或者可以是连接到回放设备的外部麦克风。
在步骤S101之前,在实施例中,所述方法可以进一步包括:(i)接收包括压缩音频数据的比特流;以及(ii)由核心解码器对所述压缩音频数据进行核心解码并提供所述对话音频数据、以及所述音乐和效果音频数据中的至少一个。这可以说明所述方法可以适用于未压缩或压缩音频数据两者的事实。在实施例中,可以分析压缩音频数据以提供对话音频数据、以及音乐和效果音频数据中的至少一个。这也可以允许在解码器侧执行对话检测。为了提供对话音频数据、以及音乐和效果音频数据中的至少一个,可以在对压缩音频数据进行核心解码之前或之后进一步提取对话音频数据。可替代地或另外地,如果压缩音频数据例如是比如AC-4的格式,则可以不由解码器提取对话音频数据,而是可以在接收到的比特流中包括元数据并且可以从接收到的比特流中提取该元数据。然后可以使用元数据基于所确定的音量混合比来提高对话可理解性。换言之,可以使用元数据来提升传输的“完整”音频数据中的某些频带。
在进一步的实施例中,在上述步骤(i)中,所接收的比特流可以进一步包括关于音频内容类型的信息,其中,在步骤S101中,所述音量混合比可以基于所述音频内容类型来进一步确定。音频内容类型也可以经由相应的元数据在比特流中用信号通知。例如,由于与电影相比,新闻节目或体育广播中的对话可能更显著或更明显,例如,考虑到音频内容类型可以因此允许考虑不同的声音混合来提高对话可理解性。在实施例中,音频内容类型可以包括电影的音频内容、新闻节目的音频内容、体育广播的音频内容和插曲音频内容中的一种或多种。
再次参考图1的示例,在步骤S102中,基于音量混合比将对话音频数据与音乐和效果音频数据中的至少一个进行混合。在实施例中,在步骤S102中,基于所述音量混合比将对话音频数据与音乐和效果音频数据中的至少一个进行混合可以包括:将增益至少应用于对话音频数据。为了在回放期间相对于音乐和效果音频数据中的至少一个的音量进一步平衡对话音频数据的音量,也可以将相应的增益应用于音乐和效果音频数据中的至少一个。
在步骤S103中,然后输出混合后的音频数据以进行回放。音频数据的回放可以以任何可以想到的方式被促进并且不受限制。然而,输出混合后的音频数据以进行回放还可以包括渲染混合后的音频数据。如图1中连接步骤S103和步骤S101的箭头所示,可以重复所述方法的步骤顺序,以便无论何时回放音量可能改变时连续调整对话可理解性。
实施了媒体回放系统的回放设备
参考图2和图3的示例,图示了实施了媒体回放系统101以在回放音频数据期间提高对话可理解性的回放设备100,所述音频数据包括对话音频数据、以及音乐和效果音频数据中的至少一个。媒体回放系统101包括音频处理器103,所述音频处理器用于基于回放音量值来确定音量混合比。
在实施例中,音频处理器103可以被配置为将回放音量值映射到音量值到SPL映射单元105中的声压级(SPL),以确定作为所述声压级的函数的音量混合比。
如图2的示例所示,在实施例中,回放设备100可以进一步包括用于接收用户的音量值设置的用户接口106。可以将用户设置的音量值输入到音量值到SPL映射单元105中,以确定作为所述声压级的函数的音量混合比。可替代地或另外地,可以绕过音量值到SPL映射单元105,并且可以基于用户设置的音量值来直接确定音量混合比。
在实施例中,回放设备100可以进一步包括用于确定环境声压级的一个或多个麦克风(未示出)。在这种情况下,音频处理器103可以被配置为基于所述环境声压级来进一步确定音量混合比。
再次参考图2的示例,媒体回放系统101进一步包括混音器102,所述混音器用于基于如上所述确定的音量混合比,将对话音频数据与音乐和效果音频数据中的至少一个进行混合。
在实施例中,混音器102可以进一步被配置为将增益至少应用于对话音频数据。
媒体回放系统101进一步还包括用于输出混合后的音频数据以进行回放108的控制器。例如,在3.0声道混合的情况下,中央声道可以仅包括对话。在这种情况下,只有中央声道音量可以由于混音器102的最终声音混合输出而改变。
在实施例中,回放设备100可以进一步包括接收器,所述接收器用于接收包括压缩音频数据107的比特流。媒体回放系统101然后可以包括核心解码器104,所述核心解码器用于对压缩音频数据进行核心解码并提供对话音频数据、以及音乐和效果音频数据中的至少一个。参考图2的示例,在实施例中,核心解码器104可以进一步被配置为分析所述压缩音频数据以提供对话音频数据、以及音乐和效果音频数据中的至少一个。这也可以允许在解码器侧执行对话检测。为了提供对话音频数据、以及音乐和效果音频数据中的至少一个,核心解码器104可以进一步被配置为在对压缩音频数据进行核心解码之前或之后提取对话音频数据。现在参考图3的示例,可替代地或另外地,如果压缩音频数据例如是比如AC-4的格式,则可以不由核心解码器104提取对话音频数据,而是可以在接收到的比特流中包括元数据,并且核心解码器104可以被配置为除了对压缩音频数据进行核心解码之外,还从接收到的比特流中提取该元数据。混音器102然后可以被配置为使用元数据基于所确定的音量混合比来提高对话可理解性。换言之,混音器102可以被配置为使用元数据来提升传输的“完整”音频数据中的某些频带。应当注意,虽然在图3中核心解码器104和混音器102被描述为媒体回放系统的单独实体,但是混音器102和核心解码器104也可以是解码器的一部分,使得本文描述的方法可以由在相应回放设备中实施的解码器来执行。
虽然本文描述的方法可以由实施了如上所述的媒体回放系统的回放设备来执行,但是应当注意,可替代地或另外地,所述方法还可以被实施为具有指令的计算机程序产品,所述指令被适配成使具有处理能力301、302的设备300执行所述方法。图5示例性地图示了这种设备。
解释
除非另外特别声明,从以下讨论中显而易见的是,应当理解,在整个公开的讨论中,利用如“处理”、“计算”、“确定”、“分析”等术语来指代计算机或计算系统或类似的电子设备的将表示为物理(如电子)量的数据操纵和/或变换为类似地表示为物理量的其他数据的动作和/或过程。
以类似的方式,术语“处理器”可以指代处理电子数据以将该电子数据变换为其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。
如上所述,本文描述的方法可以被实施为具有指令的计算机程序产品,这些指令被适配成使具有处理能力的设备执行所述方法。包括能够执行指定要采取的动作的一组指令(顺序的或其他形式)的任何处理器。因此,一个示例可以是可以包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU、图形处理单元、张量处理单元和可编程DSP单元中的一个或多个。处理系统可以进一步包括存储器子系统,所述存储器子系统包括主RAM和/或静态RAM和/或ROM。可以包括总线子系统以用于部件之间的通信。处理系统可以进一步是分布式处理系统,其中,处理器通过网络耦接在一起。如果处理系统需要显示器,则可以包括这样的显示器,例如液晶显示器(LCD)、任何种类的发光二极管显示器(LED),例如包括OLED(有机发光二极管)显示器、或阴极射线管(CRT)显示器。如果需要手动输入数据,则处理系统还可以包括输入设备,如字母数字输入单元(如键盘)、定点控制设备(如鼠标)等中的一个或多个。处理系统还可以涵盖如磁盘驱动单元等存储系统。处理系统可以包括声音输出设备,例如一个或多个扬声器或耳机端口、以及网络接口设备。
例如,计算机程序产品可以是软件。软件可以以各种方式实施。软件可以经由网络接口设备在网络上被发送或接收,或者可以经由载体介质分发。载体介质可以包括但不限于非易失性介质、易失性介质和传输介质。例如,非易失性介质可以包括光盘、磁盘以及磁光盘。易失性介质可以包括动态存储器,如主存储器。传输介质可以包括同轴电缆、铜线和光纤,包括包含总线子系统的导线。传输介质还可以采用声波或光波的形式,如在无线电波和红外数据通信期间生成的声波或光波。例如,术语“载体介质”因此应该被认为包括但不限于固态存储器、体现在光学介质和磁性介质中的计算机产品;承载可由至少一个处理器或一个或多个处理器检测到并表示一组指令的传播信号的介质,所述一组指令在被执行时实施方法;以及网络中的传输介质,所述传输介质承载可由一个或多个处理器中的至少一个处理器检测到并表示所述一组指令的传播信号。
应当注意,当要执行的方法包括几个要素(例如,几个步骤)时,除非特别声明,否则不暗示这些要素的任何顺序。
将理解的是,在一个示例实施例中,所讨论的方法的步骤由执行存储在存储装置中的指令(计算机可读代码)的处理(例如,计算机)系统中的适当处理器(或多个处理器)执行。还将理解的是,本公开不限于任何特定的实施方式或编程技术,并且本公开可以使用用于实施本文描述的功能的任何适当的技术来实施。本公开不限于任何特定的编程语言或操作系统。
在整个本公开中对“一个实施例”、“一些实施例”或“实施例”的提及意味着结合该实施例所描述的特定特征包括在本公开的至少一个实施例中。因此,在整个本公开中各处出现的短语“在一个实施例中”、“在一些实施例中”或“在实施例中”不一定都指代同一个实施例。此外,在一个或多个实施例中,这些特定特征可以以任何合适的方式结合,如根据本公开将对本领域普通技术人员显而易见的。
在下文的权利要求和本文的描述中,术语包括(comprising)、包括(comprisedof)或其包括(which comprises)中的任何一个是开放术语,其意指至少包括随后的要素/特征,但不排除其他要素/特征。因此,当在权利要求中使用术语“包括”时,所述术语不应当被解释为限于在其之后列出的装置或要素或步骤。如本文所使用的,术语包含(including)或其包含(which includes)或包含(that includes)中的任何一个也是开放术语,其意指至少包括所述术语之后的要素/特征,但不排除其他要素/特征。因此,包含(including)与包括(comprising)同义并且意指包括(comprising)。
应当理解,在以上对本公开的示例实施例的描述中,有时在单个示例实施例、图或其描述中将本公开的各种特征组合在一起,以便简化本公开,并且帮助理解各创造性方面中的一个或多个。然而,本公开的这一方法不应当被解释为反映权利要求书需要比每个权利要求中明确叙述的特征更多的特征的意图。相反,如以下权利要求所反映的,各创造性方面在于少于单个前面公开的示例实施例的所有特征。因此,在说明书之后的权利要求书特此明确地并入本说明书中,其中,每个权利要求独立地作为本公开的单独的示例实施例。
此外,虽然本文描述的一些示例实施例包括其他示例实施例中所包括的一些特征而不包括其他示例实施例中所包括的其他特征,但是如本领域技术人员将理解的,不同示例实施例的特征的组合旨在处于本公开的范围内并形成不同的示例实施例。例如,在所附权利要求中,要求保护的示例实施例中的任何示例实施例都可以以任何组合来使用。
在本文提供的描述中,阐述了许多具体细节。然而,应当理解,可以在没有这些具体细节的情况下实践本公开的示例实施例。在其他实例中,未详细示出众所周知的方法、设备结构和技术,以避免模糊对本说明书的理解。
因此,尽管已经描述了被认为是本公开的最佳模式的模式,但是本领域技术人员将认识到,可以在不背离本公开的主旨的情况下对其做出其他和进一步的修改,并且旨在要求保护落入本公开的范围内的所有这些改变和修改。例如,可以向在本公开的范围内描述的方法添加或删除步骤。
可以从以下列举的示例实施例(enumerated example embodiment,EEE)中理解本发明的各个方面:
EEE1.一种用于在回放设备上回放音频数据期间提高对话可理解性的方法,其中,所述音频数据包括对话音频数据、以及音乐和效果音频数据中的至少一个,所述方法包括以下步骤:
(a)基于回放音量值确定音量混合比;
(b)基于所述音量混合比将所述对话音频数据与所述音乐和效果音频数据中的至少一个进行混合;以及
(c)输出混合后的音频数据以进行回放。
EEE2.根据EEE 1所述的方法,其中,在步骤(b)中,基于所述音量混合比将所述对话音频数据与所述音乐和效果音频数据中的至少一个进行混合包括:至少对所述对话音频数据应用增益。
EEE3.根据EEE 1或2所述的方法,其中,在步骤(a)中,将所述回放音量值映射到声压级,并且将所述音量混合比确定为所述声压级的函数。
EEE4.根据EEE 1至3中任一项所述的方法,其中,在步骤(a)中,所述回放音量值基于所述回放设备的音量值设置;以及可选地
其中,所述音量值设置是用户定义值。
EEE5.根据EEE 1至4中任一项所述的方法,其中,在步骤(a)中,所述音量混合比进一步基于环境声压级来确定;以及可选地
其中,所述环境声压级基于一个或多个麦克风的测量结果来确定。
EEE6.根据EEE 1至5中任一项所述的方法,其中,在步骤(a)之前,所述方法进一步包括:
(i)接收包括压缩音频数据的比特流;以及
(ii)由核心解码器对所述压缩音频数据进行核心解码并提供所述对话音频数据、以及所述音乐和效果音频数据中的至少一个。
EEE7.根据EEE 6所述的方法,其中在步骤(i)中,所接收的比特流进一步包括关于音频内容类型的信息,并且其中在步骤(a)中,所述音量混合比基于所述音频内容类型来进一步确定;以及可选地
其中,所述音频内容类型包括电影的音频内容、新闻节目的音频内容、体育广播的音频内容和插曲音频内容中的一种或多种。
EEE8.根据EEE 6或7所述的方法,其中,所述方法进一步包括分析所述压缩音频数据以提供所述对话音频数据、以及所述音乐和效果音频数据中的至少一个。
EEE9.一种实施了媒体回放系统以在回放音频数据期间提高对话可理解性的回放设备,所述音频数据包括对话音频数据、以及音乐和效果音频数据中的至少一个,所述媒体回放系统包括:
(a)音频处理器,所述音频处理器用于基于回放音量值确定音量混合比;
(b)混音器,所述混音器用于基于所述音量混合比将所述对话音频数据与所述音乐和效果音频数据中的至少一个进行混合;以及
(c)控制器,所述控制器用于输出混合后的音频数据以进行回放。
EEE10.根据EEE 9所述的回放设备,其中,所述混音器进一步被配置为至少对所述对话音频数据应用增益;和/或
其中,所述音频处理器被配置为将所述回放音量值映射到声压级,以确定作为所述声压级的函数的所述音量混合比。
EEE11.根据EEE 9或10所述的回放设备,其中,所述回放设备进一步包括用于接收用户的音量值设置的用户接口,并且其中,所述回放音量值基于所述音量值设置。
EEE12.根据EEE 9至11中任一项所述的回放设备,其中,所述回放设备进一步包括用于确定环境声压级的一个或多个麦克风,并且其中,所述音频处理器被配置为进一步基于所述环境声压级来确定所述音量混合比。
EEE13.根据EEE 9至12中任一项所述的回放设备,其中,所述回放设备进一步包括:
(i)接收器,所述接收器用于接收包括压缩音频数据的比特流;以及
(ii)核心解码器,所述核心解码器用于对所述压缩音频数据进行核心解码并提供所述对话音频数据、以及所述音乐和效果音频数据中的至少一个。
EEE14.根据EEE 13所述的回放设备,其中,所述核心解码器进一步被配置为分析所述压缩音频数据以提供所述对话音频数据、以及所述音乐和效果音频数据中的至少一个。
EEE15.一种计算机程序产品,所述计算机程序产品具有指令,所述指令被适配成使具有处理能力的设备执行根据EEE 1至8中任一项所述的方法。

Claims (18)

1.一种用于在回放设备上回放音频数据期间提高对话可理解性的方法,其中,所述音频数据包括对话音频数据、以及音乐和效果音频数据中的至少一个,所述方法包括以下步骤:
通过将回放音量值映射到声压级,基于所述回放音量值确定作为所述声压级的函数的音量混合比,其中,所述音量混合比是指所述对话音频数据的音量与所述音乐和效果音频数据中的至少一个的音量的比率;
基于所述音量混合比将所述对话音频数据与所述音乐和效果音频数据中的至少一个进行混合;以及
输出混合后的音频数据以进行回放。
2.根据权利要求1所述的方法,其中,基于所述音量混合比将所述对话音频数据与所述音乐和效果音频数据中的至少一个进行混合包括:至少对所述对话音频数据应用增益。
3.根据权利要求1或2所述的方法,其中,所述回放音量值基于所述回放设备的音量值设置。
4.根据权利要求3所述的方法,其中,所述音量值设置是用户定义值。
5.根据权利要求1至4中任一项所述的方法,其中,所述音量混合比基于环境声压级来进一步确定。
6.根据权利要求5所述的方法,其中,所述环境声压级基于一个或多个麦克风的测量结果来确定。
7.根据权利要求1至6中任一项所述的方法,其中,在确定所述音量混合比之前,所述方法进一步包括:
接收包括压缩音频数据的比特流;以及
由核心解码器对所述压缩音频数据进行核心解码并提供所述对话音频数据、以及所述音乐和效果音频数据中的至少一个。
8.根据权利要求7所述的方法,其中,所接收的比特流进一步包括关于音频内容类型的信息,并且其中,所述音量混合比基于所述音频内容类型来进一步确定。
9.根据权利要求8所述的方法,其中,所述音频内容类型包括电影的音频内容、新闻节目的音频内容、体育广播的音频内容和插曲音频内容中的一种或多种。
10.根据权利要求7至9中任一项所述的方法,其中,所述方法进一步包括分析所述压缩音频数据以提供所述对话音频数据、以及所述音乐和效果音频数据中的至少一个。
11.一种实施了媒体回放系统以在回放音频数据期间提高对话可理解性的回放设备,所述音频数据包括对话音频数据、以及音乐和效果音频数据中的至少一个,所述媒体回放系统包括:
音频处理器,所述音频处理器用于通过将回放音量值映射到声压级,基于所述回放音量值确定作为所述声压级的函数的音量混合比,其中,所述音量混合比是指所述对话音频数据的音量与所述音乐和效果音频数据中的至少一个的音量的比率;
混音器,所述混音器用于基于所述音量混合比将所述对话音频数据与所述音乐和效果音频数据中的至少一个进行混合;以及
控制器,所述控制器用于输出混合后的音频数据以进行回放。
12.根据权利要求11所述的回放设备,其中,所述混音器进一步被配置为至少对所述对话音频数据应用增益。
13.根据权利要求11或12所述的回放设备,其中,所述音频处理器被配置为将所述回放音量值映射到声压级,以确定作为所述声压级的函数的所述音量混合比。
14.根据权利要求11至13中任一项所述的回放设备,其中,所述回放设备进一步包括用于接收用户的音量值设置的用户接口,并且其中,所述回放音量值基于所述音量值设置。
15.根据权利要求11至14中任一项所述的回放设备,其中,所述回放设备进一步包括用于确定环境声压级的一个或多个麦克风,并且其中,所述音频处理器被配置为进一步基于所述环境声压级来确定所述音量混合比。
16.根据权利要求11至15中任一项所述的回放设备,其中,所述回放设备进一步包括:
接收器,所述接收器用于接收包括压缩音频数据的比特流;以及
核心解码器,所述核心解码器用于对所述压缩音频数据进行核心解码并提供所述对话音频数据、以及所述音乐和效果音频数据中的至少一个。
17.根据权利要求16所述的回放设备,其中,所述核心解码器进一步被配置为分析所述压缩音频数据以提供所述对话音频数据、以及所述音乐和效果音频数据中的至少一个。
18.一种计算机程序产品,所述计算机程序产品具有指令,所述指令被适配成使具有处理能力的设备执行根据权利要求1至10中任一项所述的方法。
CN202180035484.1A 2020-05-15 2021-05-12 用于在回放音频数据期间提高对话可理解性的方法和设备 Pending CN115668372A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063025479P 2020-05-15 2020-05-15
EP20174974 2020-05-15
EP20174974.4 2020-05-15
US63/025,479 2020-05-15
PCT/EP2021/062619 WO2021228935A1 (en) 2020-05-15 2021-05-12 Method and device for improving dialogue intelligibility during playback of audio data

Publications (1)

Publication Number Publication Date
CN115668372A true CN115668372A (zh) 2023-01-31

Family

ID=75825813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180035484.1A Pending CN115668372A (zh) 2020-05-15 2021-05-12 用于在回放音频数据期间提高对话可理解性的方法和设备

Country Status (5)

Country Link
US (1) US20230238016A1 (zh)
EP (1) EP3935636B1 (zh)
JP (1) JP7314427B2 (zh)
CN (1) CN115668372A (zh)
WO (1) WO2021228935A1 (zh)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE472193T1 (de) * 1998-04-14 2010-07-15 Hearing Enhancement Co Llc Vom benutzer einstellbare lautstärkensteuerung zur höranpassung
US7415120B1 (en) * 1998-04-14 2008-08-19 Akiba Electronics Institute Llc User adjustable volume control that accommodates hearing
JP2001238299A (ja) 2000-02-22 2001-08-31 Victor Co Of Japan Ltd 放送受信装置
JP2001245237A (ja) 2000-02-28 2001-09-07 Victor Co Of Japan Ltd 放送受信装置
US7266501B2 (en) * 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7551745B2 (en) * 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
ATE510421T1 (de) * 2006-09-14 2011-06-15 Lg Electronics Inc Dialogverbesserungstechniken
US20110268299A1 (en) 2009-01-05 2011-11-03 Panasonic Corporation Sound field control apparatus and sound field control method
US9578436B2 (en) * 2014-02-20 2017-02-21 Bose Corporation Content-aware audio modes
US20160315722A1 (en) * 2015-04-22 2016-10-27 Apple Inc. Audio stem delivery and control
JP2017212732A (ja) 2016-05-24 2017-11-30 日本放送協会 チャンネル数変換装置およびプログラム
JP7194559B2 (ja) 2018-10-23 2022-12-22 株式会社コーエーテクモゲームス プログラム、情報処理方法、及び情報処理装置

Also Published As

Publication number Publication date
JP7314427B2 (ja) 2023-07-25
EP3935636A1 (en) 2022-01-12
WO2021228935A1 (en) 2021-11-18
JP2023518119A (ja) 2023-04-27
US20230238016A1 (en) 2023-07-27
EP3935636B1 (en) 2022-12-07

Similar Documents

Publication Publication Date Title
US11563411B2 (en) Metadata for loudness and dynamic range control
CN103119846B (zh) 利用对白水平归一化对音频流进行混合
KR101061415B1 (ko) 다이알로그 증폭 기술을 위한 컨트롤러 및 사용자 인터페이스
US8242942B2 (en) System and method to modify a metadata parameter
US20170098452A1 (en) Method and system for audio processing of dialog, music, effect and height objects
JP6701465B1 (ja) 伝送に関知しない呈示ベースのプログラム・ラウドネス
EP2840712A1 (en) Loudness level control for audio reception and decoding equipment
Kuech et al. Dynamic range and loudness control in MPEG-H 3D Audio
US20230238016A1 (en) Method and device for improving dialogue intelligibility during playback of audio data
US10306391B1 (en) Stereophonic to monophonic down-mixing
Moerman Loudness in TV Sound
CA3230363A1 (en) Method and apparatus for metadata-based dynamic processing of audio data
CN115379256A (zh) 一种音频调整方法、装置、电子设备和存储介质
WO2023196004A1 (en) Method and apparatus for processing of audio data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination