CN113614684A - 经由音频分类进行动态音量调节的方法和装置 - Google Patents

经由音频分类进行动态音量调节的方法和装置 Download PDF

Info

Publication number
CN113614684A
CN113614684A CN201980072115.2A CN201980072115A CN113614684A CN 113614684 A CN113614684 A CN 113614684A CN 201980072115 A CN201980072115 A CN 201980072115A CN 113614684 A CN113614684 A CN 113614684A
Authority
CN
China
Prior art keywords
audio signal
volume
audio
input
volume level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980072115.2A
Other languages
English (en)
Other versions
CN113614684B (zh
Inventor
M·克里默
R·库弗
S·D·舍夫
C·A·萨默斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gracenote Inc
Original Assignee
Gracenote Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gracenote Inc filed Critical Gracenote Inc
Publication of CN113614684A publication Critical patent/CN113614684A/zh
Application granted granted Critical
Publication of CN113614684B publication Critical patent/CN113614684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03FAMPLIFIERS
    • H03F3/00Amplifiers with only discharge tubes or only semiconductor devices as amplifying elements
    • H03F3/181Low-frequency amplifiers, e.g. audio preamplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Power Engineering (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

公开了经由音频分类进行动态音量调节的方法、装置、系统和制品。示例方法包括:利用经神经网络训练的模型对与第一音量水平相关联的音频信号的参数进行分析,以确定与音频信号相关联的分类组;确定音频信号的输入音量,所述选择基于与音频信号相关联的分类组;向音频信号施加增益值,所述增益值基于分类组和输入音量,所述增益值将第一音量水平修改成第二音量水平;以及向音频信号施加压缩值,所述压缩值将第二音量水平修改成满足目标音量阈值的第三音量水平。

Description

经由音频分类进行动态音量调节的方法和装置
相关申请
本专利要求2018年9月7日提交的美国临时申请62/728,677和2018年10月12日提交的美国临时申请62/745,148的优先权和利益。美国临时申请62/702,734和美国临时申请62/745,148通过引用整体并入本文。
技术领域
本公开总体上涉及音量调节,并且更具体地,涉及经由音频分类进行动态音量调节的方法和装置。
背景技术
近年来,使用越来越多的渠道传送了大量具有时变特性的媒体。可以使用更传统的渠道(例如,无线电)或者使用最新开发的渠道(诸如使用因特网连接的流传输设备)来接收。随着这些渠道的开发,也已经开发了能够对来自多个源的音频进行处理和输出的系统。例如,一些汽车媒体系统能够从光盘(CD)、蓝牙连接设备、通用串行总线(USB)连接设备、Wi-Fi连接设备、辅助输入端和其它源传送媒体。
附图说明
图1是根据本公开的教导构造的用于经由音频分类进行动态音量调节的示例系统的示意图。
图2是示出图1的媒体单元的附加细节的框图。
图3是示出音频分类引擎的框图,该音频分类引擎能够提供经训练的模型以供图1和图2的媒体单元使用。
图4和图5是表示示例机器可读指令的流程图,该示例机器可读指令可以用于实现图1和图2的媒体单元106,以经由音频分类执行动态音量调节。
图6是可以执行图4和图5的指令以实现图1和图2的示例媒体单元106的示例处理器平台的示意图。
附图未按比例绘制。在任何可能的情况下,将在整个附图和所附书面描述中使用相同的附图标记来指代相同或相似的部分。
具体实施方式
在常规音频媒体实现中,与不同媒体相关联的音频信号可以具有不同音量。例如,一张CD上的媒体可以以与另一张CD的媒体显著不同的音量被记录和/或制作母带(mastered)。类似地,从流传输设备读取的媒体可以具有与从不同设备读取的媒体或经由不同应用从同一设备读取的媒体显著不同的音量水平。随着用户越来越多地收听来自各种不同源的媒体,源之间以及同一源的媒体之间的音量水平差异会变得非常明显,并且可能引起收听者的不适。
在一些用于音量调整的常规方法中,利用动态范围压缩器来压缩音频信号的总动态范围,以满足音量阈值。在一些常规实现中,这样的动态范围压缩持续地监测并调节音频信号的音量,以便满足音频信号的音量阈值。这样的持续调节对收听者对音频信号的感知具有可感知的影响,因为曲目(track)的原始动态会被显著更改。在一些示例中,动态范围压缩显著降低了感知的音频信号质量(例如,通过将失真(artifacts)引入音频中)。
在本文公开的示例方法、装置、系统和制品中,使用音频分类来确定音频信号的类别,并且随后执行音量调节,以最小化使音频信号位于目标音量范围内所需的动态范围压缩量。本文公开的示例方法、装置、系统和制品利用音频信号的分类和实时输入音频测量的组合来确定可以施加至音频信号的目标增益值。例如,在确定与音频信号相关联的分类组之后,可以(例如,从将音量增益调节值与分类组相关的查找表中)读取分类增益值。可以另外确定音频信号的输入音量。然后,基于输入音量和推荐的分类增益值,可以确定目标增益值。目标增益值是这样的音量调节:其被施加至输入音频信号,以使音量更接近目标音量范围(例如,在-21dbFS的+/-1dbFS内),使得在将经增益调节的信号提供给压缩器时,减少了使经增益调节的信号位于目标音量范围内所需的压缩量。
在本文公开的示例方法、装置、系统和制品中,基于输入音频信号的分类并基于音频信号的输入音量来计算目标增益值,以减少使音频信号的音量处于目标音量范围内所需的压缩量。在一些示例中,当首次检测到输入音频信号时,初步压缩音频信号的动态范围,以使音频信号的音量处于目标音量范围内,直到对输入音频信号进行分类并且确定输入音频信号的音量为止。在一些示例中,通过在首次检测到音频信号时仅利用压缩来调节音频信号,收听者可以短暂地察觉到压缩,因为音频电平的降低不是由手动音量调节引起的。然而,一旦确定了音频信号的初始音量和音频信号的分类,目标增益值就被计算出,以减少使音频信号的音量处于目标音量范围内所需的压缩量。在一些示例中,分类和初始音量确定可以足够快地发生(例如,在五秒之内、在一秒之内等),以致于收听者无法察觉到压缩的初始使用。
本文公开的一些示例方法、装置、系统和制品确定音频信号源的改变并对其做出响应。在一些示例中,除了使用压缩之外,或者代替使用压缩,执行初始音量调节。例如,响应于音频信号输入变化(例如,从无音频信号到呈现音频信号的变化,从一个音频信号输入源到另一音频信号输入源的变化等),可以确定初始音量水平(例如,基于特定于音频信号源的先前音量调节设置),并且可以执行初始音量水平调节。在一些示例中,使用“淡入(fade-in)”技术来执行初始音量水平调节,该技术在输入信号改变之后逐渐增大音频音量水平。在一些示例中,初始音量水平调节可以基于与音频输入信号的类型(例如,FM无线电、AM无线电、CD、辅助音频源等)相关联的存储设置。
本文公开的示例方法、装置、系统和制品将音频信号分类成多个分类组中的一个或更多个分类组。在确定分类组时,可以使用分类组的特性(例如,可用动态余量、典型动态范围等)来以最小的损失(例如,利用最小动态范围压缩)调节音频信号的音量。在一些示例中,可以在训练数据中使用模式识别来识别分类组。例如,可以基于诸如信号中表示的乐器、音频信号制作年份、音乐流派等的因素来对音频信号进行分组。一旦对训练数据进行了分组,就可以将诸如动态范围值分布、音量值分布或任何其它音频特性的特性与分类组关联地存储(例如,按查找表)。在一些示例中,当对音频信号进行分类时,可以确定概率分布(例如,与输出音频信号所属的一个特定分类组相反)。例如,分类处理可以输出:音频信号属于表示从1976年到1995年的无鼓音乐的组的可能性为50%,音频信号属于表示从1996年至今的无鼓音乐的组的可能性为30%,音频信号属于表示从1976年至1995年的具有合成鼓的音乐的组的可能性为18%,或者属于另一组的可能性为2%。在一些这样的示例中,选择与分类组相关联的增益值以执行音量调节可能涉及平均化技术(例如,确定与各个组相关联的增益值,以及根据音频信号属于相应组的概率对各个值进行加权)。
在本文公开的一些示例方法、装置、系统和制品中,利用代表性的各种音频信号(例如,表示多种流派、多个时间段等)的大量音量配置文件(volume profile)来训练音频信号分类器执行音频信号的分类。例如,音量配置文件包括歌曲中按时间的音量值。在一些示例中,除了音量配置文件之外或代替音量配置文件,可以利用音频信号的其它配置文件和/或表示来训练音频信号分类器。在一些示例中,对音量配置文件执行聚类,以训练音频信号分类器。在一些示例中,音频信号分类器被训练为基于音量、动态范围和/或音量配置文件的任何其它属性来确定音量配置文件的群集。音频信号分类器可以将音量配置文件聚类为动态范围组,然后音频信号分类器可以将传入的音频(例如,输入音频信号)指派到分类组中的一个或更多个分类组。
在本文公开的示例方法、装置、系统和制品中,在确定音频信号的分类组之后,可以通过将增益值施加至音频信号来调节音频信号的音量水平。增益值可以特定于分类组。例如,如果分类组与具有相对小的、经归一化的动态范围的音频信号相关联(例如,如在某些流行音乐中),则可以进行较大的音量调节,以使音频信号的音量水平接近目标音量范围(例如,由于可以确定整个曲目的近似音量偏差)。相反,如果分类组与具有相对宽的动态范围的音频信号相关联,则可以进行较小的音量调节,以将音频信号保持在可听水平内。
在基于与音频信号相关联的分类组施加增益值后,可以利用压缩来使音频信号的音量处于目标音量范围内。由于动态范围压缩可能导致总体音频质量降低(例如,音频信号的某些损失),因此本文公开的示例方法、装置、系统和制品通过首先施加特定于所呈现的音频的类型(例如,特定于分类组)的增益值来改善音量调节技术,因此减少了将音频信号的音量水平调整成位于目标音量范围内所需的动态范围压缩量。
在本文公开的一些示例方法、装置、系统和制品中,一旦按动态音量调节设置对音频信号进行了分类,就可以根据音频信号分类组推断出该音频信号的特性,并利用该特性来确定目标增益值,以在压缩最小或没有压缩的情况下使音频信号的音量接近目标音量阈值。
在本文公开的一些示例方法、装置、系统和制品中,当确定目标增益值时考虑输入音量测量值。例如,如果确定输入音量为-15dbFS,并且目标音量范围为-21dbFS上下的+/-1dbFS(例如,-20dbFS至-22dbFS),则目标增益值应是比输入音量确定为-10dbFS的情况下小的负增益值,即使分类组是恒定的也是如此。在某些这种示例中,当确定目标增益值时,输入音量测量值比分类增益值拥有更高的权重,因为最终与基于类的预测相比,特定音频信号的实际输入音量水平更能指示音量可被调节的量(例如,实时测量可以比与音频信号的类相关联的预测更准确)。在一些示例中,确定分类增益值与输入音量之间的平均值,以计算目标增益值。例如,如果确定输入音量为-15dbFS,并且(例如,基于分类组的音频信号的平均动态范围确定的)分类增益值指示可以将音量调节-6dbFS,但是目标音量范围是-21dbFS的+/-1dbFS,那么仅依靠分类增益值将提供很小的误差空间(例如,如果动态范围大于预期,则音量将很可能经常落在-020dbFS至22dbFS目标音量范围之外)。相反,如果目标增益值被计算为输入音量与分类增益值之间的中间值(例如,平均值),则目标增益值将使音频信号的音量更接近目标增益值,同时仍留有误差空间。
在本文公开的一些示例方法、装置、系统和制品中,按规则间隔(例如,每三秒、每十秒等)测量输入音量水平,并且按规则间隔执行分类。响应于输入音量的改变(例如,该间隔内的平均输入音量的改变、该间隔内的输入音量偏差的改变),和/或响应于分类组的改变,可以确定新的目标增益值。在一些示例中,当在目标增益值之间转变时,可以利用平滑滤波器来在两个增益值之间平滑地转变,以避免各个间隔的明显的音量波动。在一些示例中,与目标增益值的相对较小的改变相比,目标增益值的较大的改变以更慢的速率斜升(ramped)。
本文公开的示例方法、装置、系统和制品将音频信号的音量水平调节成位于目标音量范围内。在一些示例中,收听者然后可以手动调节音量水平(例如,通过旋转音量旋钮、通过提供改变音量水平的语音指令等),然后这通过向经音量调节的音频信号施加增益值而发生。因此,收听者仍可以选择他们收听音频信号的音量,但是他们能够从一致的标准音量水平(例如,从目标音量范围)开始这样操作,这与针对不同源之间的变化、曲目之间的变化等进行调节相反。因此,本文公开的技术使得输入音频能够被调节成锁定在一致的音量范围内。在本文公开的一些示例方法、装置、系统和制品中,可以一经手动音量调节就停止动态音量调节。例如,如果用户手动调节了音量水平(例如,通过旋转音量旋钮、通过提供改变音量水平的语音指令等),则可以停止自动调节音频电平(例如,通过对音频进行分类,基于分类选择增益值,监测音频电平等),以使用户能够完全控制音频电平。
在本文公开的一些示例方法、装置、系统和制品中,可以识别音频信号,以进一步改善音量调节。例如,在本文公开的一些示例技术中,利用音频水印来识别媒体,以便读取与音频信号有关的元数据。音频水印是一种用于识别媒体(诸如电视广播、收音机广播、广告(电视和/或收音机)、下载的媒体、流传输媒体、预包装的媒体等)的技术。现有的音频水印技术通过将诸如媒体标识信息和/或可以映射到媒体标识信息的标识符的一个或更多个音频代码(例如,一个或更多个指纹)嵌入到音频分量和/或视频分量中来标识媒体。在一些示例中,音频分量或视频分量被选择成具有足以隐藏水印的信号特性。如本文所使用的,术语“指纹”、“代码”、“签名”或“水印”可互换使用,并且被定义成表示可以插入或嵌入在媒体(例如,节目或广告)的音频或视频中的任何标识信息(例如,标识符),以用于标识媒体的目的或用于诸如调谐的另一目的(例如,分组标识报头)。如本文所使用的,“媒体”是指音频和/或视觉(静止或移动)的内容和/或广告。为了识别采用指纹的媒体,指纹被提取并用于访问被映射到媒体标识信息的参考指纹表。
在本文公开的示例中,音量调节可以由车辆的音频系统的组件或与车辆的音频系统进行通信的组件执行。在一些示例中,包括动态音量调节器或具有动态音量调节功能的其它组件的媒体单元可以被包括在车头单元中。在这样的示例中,车头单元可以从辅助输入端、CD输入端、无线电信号接收器输入端、来自智能设备的外部流、蓝牙输入端、网络连接(例如,与因特网的连接)或经由任何其它源接收音频信号。例如,可以对家庭娱乐系统中的媒体系统执行动态音量调节,其中,多个源(例如,DVD播放器、机顶盒等)可以传送被动态调节以试图使音量水平在源之间以及在媒体之间标准化的音频信号。在其它示例中,可以按照任何设置或针对任何媒体设备执行动态音量调节。
在经由音频分类进行动态音量调节的示例过程中,访问音频信号,该音频信号与经归一化的高音量流行音乐相对应。在检测到与音频信号相关联的音频信号输入变化之后,动态范围压缩器将音频压缩到目标音量范围(例如,-21dbFS)。与该压缩并行地,音频信号分类器确定与音频信号相对应的分类组。例如,分类组可以与来自1996年至今的时间段的具有合成鼓和贝斯的音乐相对应。该分类组可以与特定音量调节水平(例如,-15dbFS)相关联。在一些示例中,除了基于当前音频音量水平确定的音量水平调节之外或代替基于当前音频音量水平确定的音量水平调节,还可以考虑与分类组相关联的该音量调节水平。在与该音量调节水平相关联的音量调节后,只需执行少量音频压缩即可达到目标音量范围。例如,如果音量调节步骤使音量调低至第一值(例如,-17.50dbFS),并且目标音量范围在比第一值大的第二值(例如,-21dbFS)附近,则可以执行少量音频压缩以使音频信号达到第一值(例如,达到-21dbFS左右,并达到目标音量范围内)。因此,在动态范围压缩仅被执行为将信号降低较少量(例如,3.5dbFS)的情况下,音频质量明显好于降低需要从原始音频输入压缩到目标音量范围(例如,将音频信号压缩-21dbFS)的信号。
图1是根据本公开的教导构造的用于动态音量调节的示例系统100的示意图。示例系统100包括向媒体单元106发送音频信号的媒体设备102、104。媒体单元106对音频信号进行处理并将信号发送至音频放大器108,该音频放大器108随后输出要经由输出设备110呈现的经放大的音频信号。
图1的所示示例的示例媒体设备102是便携式媒体播放器(例如,MP3播放器)。示例媒体设备102存储或接收与媒体相对应的音频信号,并且能够向其它设备发送音频信号。在图1的所示示例中,媒体设备102经由辅助电缆向媒体单元106发送音频信号。在一些示例中,媒体设备102可以经由任何其它接口向媒体单元106发送音频信号。
图1的所示示例的示例媒体设备104是移动设备(例如,蜂窝电话)。示例媒体设备104存储或接收与媒体相对应的音频信号,并且能够向其它设备发送音频信号。在图1的所示示例中,媒体设备104向媒体单元106无线地发送音频信号。在一些示例中,媒体设备104可以使用Wi-Fi、蓝牙和/或任何其它技术来向媒体单元106发送音频信号。在一些示例中,媒体设备104可以与车辆的组件或其它设备进行交互,以供收听者选择在车辆中呈现的媒体。媒体设备102、104可以是能够存储和/或访问音频信号的任何设备。在一些示例中,媒体设备102、104可以被集成到车辆(例如,CD播放器、收音机等)。
图1的所示示例的示例媒体单元106能够接收音频信号并对所述音频信号进行处理。在图1的所示示例中,示例媒体单元106从媒体设备102、104接收媒体信号并对所述媒体信号进行处理以执行动态音量调节。示例媒体单元106能够基于被嵌入在媒体中的标识符(例如,指纹、水印、签名等)来识别音频信号。示例媒体单元106另外能够访问与音频信号所关联的媒体相对应的元数据。在一些示例中,元数据被存储在媒体单元106的存储设备中。在一些示例中,元数据是从另一位置(例如,经由网络从服务器)访问的。此外,示例媒体单元106能够通过基于元数据确定并施加平均增益值来执行动态音量调节,以将音频信号的平均音量调节成满足音量阈值。示例媒体单元106另外能够对输出设备110正在输出的音频进行监测,以实时确定音频片段的平均音量水平。在未将音频信号识别为与媒体相对应的情况下,和/或在包括音量信息的元数据不可用于音频信号的情况下,示例媒体单元106能够进行动态范围压缩,以提供对音频信号的压缩,从而实现期望音量水平。在一些示例中,示例媒体单元106作为车辆中的另一设备的一部分(例如,汽车无线电头部单元)而被包括。在一些示例中,示例媒体单元106被实现为软件,并且作为通过直接连接(例如,有线连接)或通过网络(例如,在云上可用)可用的另一设备的一部分而被包括。在一些示例中,示例媒体单元106可以与音频放大器108和输出设备110合并,并且可以在音频信号的处理后自身输出音频信号。
图1的所示示例的示例音频放大器108是这样的设备:其能够接收已由媒体单元106处理的音频信号并且对该信号执行适当放大以由输出设备110输出。在一些示例中,音频放大器108可以合并到输出设备110中。在一些示例中,音频放大器108基于来自媒体单元106的放大输出值来放大音频信号。在一些示例中,音频放大器108基于来自收听者的输入(例如,车辆中的乘客或驾驶员调节音量选择器)来放大音频信号。
图1的所示示例的示例输出设备110是扬声器。在一些示例中,输出设备110可以是多个扬声器、耳机或能够向收听者呈现音频信号的任何其它设备。在一些示例中,输出设备110也能够输出视觉元素(例如,具有扬声器的电视)。
虽然参照车辆中的动态音量调节实现方式描述了图1的所示示例系统100,但是示例系统100中包括的设备中的一些或全部设备可以在任何环境中并且以任何组合来实现。例如,系统100可以位于房屋的娱乐室中,其中,媒体设备102、104可以是游戏机、虚拟现实设备、机顶盒或能够访问和/或发送媒体的任何其它设备。另外,在一些示例中,媒体也可以包括视觉元素(例如,电视节目、电影等)。
图2是提供图1所示的媒体单元106的示例实现方式的附加细节的框图200。示例媒体单元106能够接收音频信号并对该音频信号进行处理以将音频信号的音量动态地调节成位于目标音量范围内。在动态音量调节后,示例媒体单元106向音频放大器108发送经音量调节的音频信号228以在由输出设备110输出之前进行放大。
示例媒体单元106包括示例输入音频信号202、示例输入信号检测器204。该信号检测器包括示例压缩器增益比较器206、示例音频音量/功率比较器208、示例音频样本比较器210,所有这些项用于确定音频源变化是否已改变212。示例媒体单元106还包括示例输入音量检测器214、示例音频信号分类器216、示例分类数据库218、示例音量调节器220、示例音频信号识别器222、示例动态范围压缩器224和示例实时音频监测器226。系统的所得输出是示例经音量调节的音频信号228。
示例输入音频信号202是将被处理并输出以供呈现的音频信号。可以从无线电信号(例如,FM信号、AM信号、卫星无线电信号等)、从光盘、从(例如,连接至媒体设备的)辅助电缆、从蓝牙信号、从Wi-Fi信号或从任何其它介质访问输入音频信号202。输入音频信号202由输入信号检测器204、音频信号分类器216和/或由实时音频监测器226访问。输入音频信号202通过音量调节器220和/或动态范围压缩器224变换。
示例输入信号检测器204检测输入音频信号202。在一些示例中,输入信号检测器204检测输入音频信号202是否与新的输入音频信号或新的输入音频信号源(例如,切换到FM信号的AM信号、切换到CD的辅助设备信号等)相关联。在一些示例中,输入信号检测器204在媒体单元106处于关闭状态之后在输入音频信号202开始时检测到输入音频信号202(例如,媒体单元106被通电并且输入音频信号202开始)。在一些示例中,当输入音频信号202是新的时(例如,它表示指示变化输入的新类型的输入音频信号、它表示在媒体单元先前未呈现音频信号之后开始的信号,等等),输入信号检测器204与音频信号分类器216进行通信以发起分类处理。在一些示例中,输入信号检测器204确定音频源是否已改变。例如,输入信号检测器204可以经由示例压缩器增益比较器206、示例音量/功率比较器208和示例音频样本比较器210来确定音频输入源是否已改变,它们被示例源改变确定器用来确定音频源信号是否已改变212。
示例压缩器增益比较器206将动态范围压缩器224的当前增益与动态范围压缩器224的先前增益进行比较。例如,压缩器增益比较器206可以将动态范围压缩器224的与输入音频信号202的当前样本块相关联的增益与动态范围压缩器224的与先前样本块(例如,前三秒的样本、前五秒的样本、前10秒的样本等)相关联的平均(例如,均值、中值等)增益进行比较。在一些示例中,压缩器增益比较器206可以输出动态范围压缩器224的当前增益与动态范围压缩器224的先前增益的平均值之比。在其它示例中,压缩器增益比较器206可以输出与动态范围压缩器224的当前增益与动态范围压缩器224的先前动态增益的平均值的比较相关联的任何其它合适的值(例如,差等)。
示例音量/功率比较器208将输入音频信号202的当前功率与输入音频信号202的先前功率进行比较。例如,功率比较器208可以将输入音频信号202的当前功率与输入音频信号202的与先前样本块(例如,前三秒的样本、前五秒的样本、前10秒的样本等)相关联的平均(例如,均值、中值等)功率进行比较。在一些示例中,功率比较器208可以将输入音频信号202的当前样本的均方根(RMS)功率与输入音频信号202的先前样本所关联的RMS功率进行比较。在一些示例中,功率比较器208可以查询媒体单元106的峰值输出,以确定音频样本的RMS功率。在一些示例中,在已施加了K-加权之后,功率比较器208可以输出当前RMS功率与先前RMS功率的平均值之比。在其它示例中,功率比较器208可以输出与输入音频信号202的当前RMS功率与输入音频信号202的先前RMS功率的平均值的比较相关联的任何其它合适的值(例如,差等)。
示例音频样本比较器210将输入音频信号202的样本的当前值与输入音频信号202的先前值进行比较。在一些示例中,音频样本比较器210基于来自输入音频信号202的当前块的样本的最大幅度来确定音频样本的值。在一些示例中,音频样本比较器210将音频样本的值确定为经归一化的值(例如,介于1与-1之间等)。在其它示例中,音频样本比较器210可以基于任何合适的比例来确定音频样本的值。在一些示例中,音频样本比较器210确定所确定的音频样本值的绝对值。例如,音频样本比较器210可以将输入音频信号202的当前最大音频样本值与输入音频信号202的与先前样本块(例如,前三秒的样本、前五秒的样本、前10秒的样本等)相关联的平均(例如,均值、中值等)音频样本值进行比较。在一些示例中,音频样本比较器210可以输出当前最大音频样本值与先前音频样本块的平均值之比。在其它示例中,音频样本比较器210可以输出与输入音频信号202的当前音频样本与输入音频信号202的先前音频样本块的平均值的比较相关联的任何其它合适的值(例如,差等)。
示例源改变确定器212基于示例压缩器增益比较器206、示例功率比较器208和/或示例音频样本比较器210的输出来确定输入音频信号202的音频源是否已改变。例如,源改变确定器212可以使用回归分析(例如,线性回归、二项式回归、最小二乘、逻辑回归等)来确定是否已发生源改变。在这样的示例中,源改变确定器212还可以使标记的输入数据作为回归分析的基础。例如,作为根据与功率比较、压缩器增益比较和/或音频样本比较相对应的值的分类的结果,标记的输入数据可以通过做出源改变或无源改变的二进制判定来包含音频源是否已改变的指示。在其它示例中,源改变确定器212可以使用任何其它合适的预测模型(例如,机器学习、神经网络等)来确定是否已发生音频源改变。在一些示例中,源改变确定器212可以输出指示在时间帧(例如,前三秒等)内是否已发生源改变的二进制值。例如,源改变确定器212可以输出“0”以指示没有发生源改变,并且可以输出“1”以指示已发生源改变。在其它示例中,源改变确定器212可以输出任何其它合适的指示以指示已发生音频源改变。
示例输入音量检测器214确定与输入音频信号202相关联的音量水平。在一些示例中,当输入信号检测器204指示输入音频信号202是新的输入音频信号时,输入音量检测器214确定与输入音频信号202相关联的初始输入音量水平值。在一些示例中,输入音量检测器214向动态范围压缩器224提供音量水平,以在首次接收到输入音频信号时启用输入音频信号202的动态范围压缩。例如,输入音量检测器214可以将输入音频信号202的初始音量水平提供给动态范围压缩器224,然后动态范围压缩器224可以调节动态范围,使得输入音频信号202的音量水平落在目标音量范围内。所示示例的输入音量检测器214按规则间隔(例如,针对三秒间隔、针对五秒间隔等)确定音量水平。在一些示例中,输入音量检测器214确定该间隔的平均(例如,均值、中值等)音量水平。在一些示例中,输入音量检测器214确定该间隔的音量水平的偏差。
示例音频信号分类器216确定输入音频信号的分类。在一些示例中,音频信号分类器216对输入音频信号202的特性进行分析,以确定输入音频信号202所属的分类组。在一些示例中,音频信号分类器216利用神经网络来辅助动态范围的预测,并向音量调节器220通知要施加到输入音频信号202的音量削减量。例如,可以利用神经网络来训练和输出可以由音频信号分类器216利用和/或并入音频信号分类器216中的分类模型。图3例示了示出能够提供经训练的模型以供媒体单元106(例如,供音频信号分类器216等)使用的示例音频分类引擎的框图。在一些示例中,与训练数据相关联的音频特性被神经网络用来识别与分类组相关联地存储的分类组。例如,可以针对分类组确定音频特性(诸如平均动态范围、动态范围偏差、平均音量、平均音量偏差等)并将其存储(例如,按查找表)在分类数据库218中和/或存储在另一可访问位置处。
在一些示例中,音频信号分类器216和/或图3的音频分类引擎300访问代表性的各种音频信号(例如,表示各种乐器、各种流派等)的音量配置文件和/或其它表示,并(例如,使用聚类)训练音频信号分类器216的模型,以基于代表性的各种音频信号的音量配置文件和/或其它表示来识别类。例如,可以基于音量和/或动态范围对音量配置文件和/或其它表示进行聚类。音频信号分类器216然后可以通过对输入音频信号202进行分析以确定输入音频信号202的音量、动态范围和/或可以与类所关联的一个或更多个属性进行比较的另一属性来对输入音频信号202进行分类。
所示示例的音频信号分类器216从与各种类型的音频信号相关联的多个分类组(例如,九个分类组、十个分类组等)中确定一个或更多个分类组。例如,分类组可以与由输入音频信号202表示的音乐的流派、由输入音频信号202表示的音乐的时间段、在输入音频信号202中识别到的不同乐器等相关联。在一些示例中,分类组可以与语音内容、流行音乐、摇滚音乐、嘻哈音乐等相关联。一些示例分类组包括语音、1975年之前的无鼓音乐、从1976年至1995年的无鼓音乐、从1996年至今的无鼓音乐、从1976年至1995年的具有合成鼓的音乐、从1996年至今的具有合成鼓的音乐、1975年之前的具有真实鼓的音乐、从1976年至1995年的具有真实鼓的音乐和/或从1996年至今的具有真实鼓的音乐。分类组因此可以与音乐/声音作品的不同时代相对应,其中声音记录和/或再现能力的技术差异与所制作的音乐/声音的音量和/或动态范围的差异相对应。分类组可以另外地或另选地基于音频内容的音量和/或动态范围的观察到的(例如,启发式获得的)特性。
音频信号分类器216可以利用输入音频信号202的任何特性来对输入音频信号202进行分类。例如,音频信号分类器216可以使用输入音频信号202的频谱特性、输入音频信号202的恒定Q变换(CQT)特性或任何其它参数。在一些示例中,音频信号的时间样本、频谱图、摘要、变换和/或描述被用作音频信号分类器216的输入。这样的特性可以被输入到神经网络模型中,以确定输入音频信号的分类组。在一些示例中,可以从分类数据库218访问神经网络模型。
所示示例的音频信号分类器216可以输出单个类(例如,语音、1996年之后的具有鼓的音乐等)或输出与多个类相关联的概率分布。在一些示例中,音频信号分类器216确定具有与音频信号相对应的最高概率的类,并且输出音频信号属于该类的指示。在其它示例中,音频信号分类器216输出与音频信号属于类中的相应类相关联的概率(例如,音频信号属于“语音”类的可能性为百分之六十)。在一些示例中,与何时输出概率分布相比,可以利用阈值百分比来确定何时输出单个类。例如,如果音频信号分类器216识别出音频信号属于语音类的可能性为百分之九十,则这可以超过阈值百分比并且允许音频信号分类器216将音频信号识别为属于语音类。在一些示例中,如果不满足阈值百分比,则可以输出概率分布,或者音频信号分类器216可以指示其不能识别与音频信号相关联的类。
响应于确定输入音频信号202的分类组,音频信号分类器216可以选择与该分类组相关联的分类增益值,该分类增益值可以被传送至音量调节器220和/或动态范围压缩器224。在一些示例中,音频信号分类器216从与分类组相关联的一个或更多个查找表访问分类增益值。在一些示例中,将分类增益值确定为来自与一个或更多个分类组相关联的一个或更多个表的值的组合。例如,如果音频信号分类器216输出指示音频信号属于各个分类组的概率的概率分布,则可以检索与各个组相关联的表,并且可以基于各个分类组的相对概率对增益值或其它调节值(例如,EQ值)进行组合和加权。
在一些示例中,音频信号分类器216将分类组提供给音量调节器220和/或动态范围压缩器224,然后音量调节器220和/或动态范围压缩器224访问和/或确定与该分类组相关联的调节参数。在一些示例中,音频信号分类器216输出(1)分类增益值和/或(2)与音频的音量水平应被重新分析的时间相对应的时间段。
示例分类数据库218是与音频信号分类相关联的数据的存储位置。在一些示例中,分类数据库218存储将用于对音频信号进行分类的模型(例如,神经网络模型)。在一些示例中,从音频分类引擎访问和/或读取模型,如在图3中进一步详细例示和描述的。在一些示例中,分类数据库218可以存储音频信号、音频指纹和/或由媒体单元106利用的任何其它数据。分类数据库218存储查找表或其它存储实现方式,包括存储与分类组相关联的音频参数。示例分类数据库218可以由易失性存储器(例如,同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、RAMBUS动态随机存取存储器(RDRAM)等)和/或非易失性存储器(例如,闪存存储器)来实现。分类数据库218可以另外地或另选地由一个或更多个双倍数据速率(DDR)存储器(诸如,DDR、DDR2、DDR3、移动DDR(mDDR)等)来实现。分类数据库218可以另外地或另选地由一个或更多个大容量存储设备(诸如,硬盘驱动器、光盘驱动器、数字通用盘驱动器等)来实现。虽然在所示示例中,分类数据库218被例示为单个数据库,但是分类数据库218可以通过任何数量和/或任何类型的数据库来实现。此外,被存储在分类数据库218中的数据可以采用任何数据格式(诸如像二进制数据、逗号分隔数据、制表符分隔数据、结构化查询语言(SQL)结构等)。
图2的所示示例的示例音量调节器220调节音频信号的音量水平。在一些示例中,示例音量调节器220确定单个平均增益值,该平均增益值将音频信号的音量从已知音量值(例如,由输入音量检测器214确定的)变换成期望音量值(例如,目标音量范围周围的值)。所示示例的音量调节器220与输入音量检测器214和/或音频信号分类器216进行通信,以确定目标增益值。音量调节器220基于与由音频信号分类器216识别的一个或更多个分类组相对应的分类增益值以及由输入音量检测器214检测的输入音量水平来计算目标增益(例如,通过计算分类增益值与输入音量之间的平均值)。在一些示例中,音量调节器220将一个或更多个权重施加至从音频信号分类器216访问的分类增益值以及从输入音量检测器214访问的输入音量。
在一些示例中,当检测到源改变(例如,源从FM台改变成辅助输入)时,音量调节器220重置施加至音频信号的增益值。在一些这样的示例中,音量调节器220将增益值设置为零,并且动态范围压缩器224执行压缩,以将音频信号的音量调节成位于目标音量范围内,直到输入音量检测器214和音频信号分类器216将关于最新检测到的音频信号的信息提供给音量调节器220以确定目标增益值为止。
所示示例的音量调节器220在不同音量调节之间平滑地过渡(例如,使用平滑滤波器、平均滤波器等)。在一些示例中,如果音量调节器220确定需要目标增益值的较大改变,则音量调节器220缓慢地过渡到新的目标增益值。相反,音量调节器220可以更快地在目标增益值的较小、较不易察觉的改变之间过渡。所示示例的音量调节器220使用单极平滑滤波器在目标增益值之间过渡。
在一些示例中,音量调节器220确定来自输入音量检测器214的更新的输入音量值和/或来自音频信号分类器216的更新的分类输出是否满足相对于先前输入音量值和/或先前分类输出的差异阈值。在一些这样的示例中,如果更新的输入音量值和/或更新的分类输出满足相对于用于计算目标增益值的先前值的差异阈值,则音量调节器220仅确定新的目标增益值。
所示示例的示例音量调节器220将目标增益值施加至音频信号,以变换音频信号。在一些示例中,当输入信号检测器204检测到输入音频信号202使用淡入音量调节时,音量调节器220执行初始音量调节(例如,在检测到新的信号时最小化音量,然后逐渐增大音量)。在一些示例中,音量调节器220可以基于针对正被访问的输入信号的类型的先前音量值来设置初始音量值。例如,如果输入音频信号202是FM音频信号,则音量调节器220可以确定用于FM音频信号的先前音量水平,并将当前初始音量设置成该值。音量调节器220可以独立地调节输入音频信号202的初始音量,或者可以在首次检测到输入音频信号202时与动态范围压缩器224协同工作来调节该输入音频信号202。
图2的所示示例的示例音频信号识别器222识别与输入音频信号202相对应的媒体。在一些示例中,媒体单元106可以不包括音频信号识别器222,并且可以仅基于由音频信号分类器216进行的分类来修改输入音频信号202。在一些示例中,音频信号识别器222执行被嵌入在音频信号中的媒体标识符(例如,指纹)与已知或参考音频签名的比较,以确定音频信号的媒体。在一些示例中,示例音频信号识别器222能够找到匹配的参考媒体标识符。在这样的示例中,音频信号识别器222可以将识别信息传递至音量调节器220和/或传递至动态范围压缩器224,以特定于输入音频信号202中包括的媒体地调节输入音频信号202。在一些示例中,音频信号识别器222可以与(例如,在中央设施处的)外部数据库进行交互,以找到匹配参考签名。在一些示例中,音频信号识别器222可以与内部数据库(例如,分类数据库218等)进行交互,以找到匹配参考签名。
图2的所示示例的示例动态范围压缩器224能够压缩输入音频信号202。在一些示例中,动态范围压缩器224执行音频压缩,使得输入音频信号202具有满足(例如,与期望音量水平相关联的)目标音量阈值的平均音量水平。在一些示例中,动态范围压缩器224持续地活动,并且在由音量调节器220进行的任何音量调节之后对输入音频信号202执行压缩,以使输入音频信号202处于目标音量阈值内(例如,-21dbFS的+/-.5dbFS内)。在一些示例中,动态范围压缩器224充当确保将输入音频信号202调节成落入目标音量阈值内的最后步骤。在一些示例中,对输入音频信号202执行的动态范围压缩的量与经音量调节的音频信号228的输出质量成反比(例如,更大的动态音量压缩导致经音量调节的音频信号228具有更低的质量,诸如具有更多的损失)。
图2的所示示例的示例实时音频监测器226收集实时音量测量数据。例如,实时音频监测器226可以将当前音频音量水平确定为一时间段(例如,750ms)内的平均值。在一些示例中,实时音频监测器226在监测持续时间(例如,十秒、一分钟等)内持续监测输入音频信号202。在这样的示例中,实时音频监测器226可以在监测持续时间期间分析音量水平,以确定是否需要通过音量调节器220或通过动态范围压缩器224进行后续调节。在一些示例中,实时音频监测器226在输入音频信号202的持续时间内持续监测输入音频信号202。在一些示例中,实时音频监测器226确定一时间段(例如,750ms)内的平均音量水平是否落在目标音量范围内(例如,-21dbFS的+/-.5dbFS内)。响应于音量水平未落在目标音量范围内,音频信号分类器216可以尝试重新分析输入音频信号202的特性,以对输入音频信号202进行重新分类。在一些示例中,音量调节器220和/或动态范围压缩器224还响应于实时音频监测器226确定一时间段内的平均音量水平未落在目标音量范围内而调节输入音频信号202。
所示示例的实时音频监测器226包括和/或访问定时器,以确定自音频信号分类器216输出先前分类以来的持续时间是否满足更新时间阈值。在一些示例中,更新时间阈值由操作者配置。例如,实时音频监测器226可以配置有三秒的更新时间阈值,这意味着音频信号分类器216将按三秒间隔对音频信号进行重新分类(例如,每三秒对过去的三秒执行分类处理)。另外地或另选地,所示示例的输入音量检测器214确定音频信号在自上次分类和/或自上次输入音量计算以来的持续时间(例如,三秒,先前示例)内的输入音量(例如,平均输入音量)。在一些这样的示例中,在重新分类音频信号和/或确定新的输入音量之后,音量调节器220可以基于新的分类和/或新的输入音量来确定新的目标增益值。
虽然图4例示了实现图2的媒体单元106的示例方式,但是图2所例示的要素、处理和/或设备中的一个或更多个要素、处理和/或设备可以组合、划分、重新布置、省略、消除和/或按任何其它方式来实现。此外,示例输入信号检测器204、由示例源改变确定器212使用的示例压缩器增益比较器206、示例音量/功率比较器208和示例音频样本比较器210、示例输入音量检测器214、示例音频信号分类器216、示例分类数据库218、示例音量调节器220、示例音频信号识别器222、示例动态范围压缩器224、示例实时音频监测器226和/或更一般地图2的示例媒体单元106可以通过硬件、软件、固件和/或硬件、软件和/或固件的任何组合来实现。因此,例如,示例输入信号检测器204、由示例源改变确定器212使用的示例压缩器增益比较器206、示例音量/功率比较器208和示例音频样本比较器210、示例输入音量检测器214、示例音频信号分类器216、示例分类数据库218、示例音量调节器220、示例音频信号识别器222、示例动态范围压缩器224、示例实时音频监测器226和/或更一般地图2的示例媒体单元106中的任一者可以由一个或更多个模拟或数字电路、逻辑电路、可编程处理器、可编程控制器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(PLD)和/或现场可编程逻辑器件(FPLD)来实现。当将本专利的装置或系统权利要求中的任一项理解成覆盖纯软件和/或固件实现方式时,示例输入信号检测器204、由示例源改变确定器212使用的示例压缩器增益比较器206、示例音量/功率比较器208和示例音频样本比较器210、示例输入音量检测器214、示例音频信号分类器216、示例分类数据库218、示例音量调节器220、示例音频信号识别器222、示例动态范围压缩器224、示例实时音频监测器226和/或更一般地图2的示例媒体单元106中的至少一者由此被明确地定义成包括具有软件和/或固件的非暂时性计算机可读存储设备或存储盘(诸如存储器、数字通用盘(DVD)、光盘(CD)、蓝光盘等)。更进一步地,图1的示例媒体单元106可以包括除了图2所例示的要素、处理和/或设备以外的或者代替图2所例示的要素、处理和/或设备的一个或更多个要素、处理和/或设备,和/或可以包括任何或全部所例示的要素、处理和设备中的不止一个。如本文所使用的,短语“进行通信”(包括其变型)涵盖直接通信和/或通过一个或更多个中间组件的间接通信,并且不需要直接的物理(例如,有线)通信和/或持续通信,而是另外地包括按照定期间隔、计划间隔、非周期性间隔和/或一次性事件的选择性通信。
图3是示出音频分类引擎300的框图,该音频分类引擎300能够提供经训练的模型以供图1和图2的媒体单元106使用。例如,机器学习技术(无论是深度学习网络还是其它经验式/观察性学习系统)可以用于优化结果、在图像中定位对象、理解语音并将语音转变成文本以及改善搜索引擎结果的相关性。尽管许多机器学习系统植入有要通过学习和更新机器学习网络来修改的初始特征和/或网络权重,但深度学习网络将自身训练为识别“良好”特征来进行分析。使用多层架构,采用深度学习技术的机器可以比使用常规机器学习技术的机器更好地处理原始数据。使用不同评估或抽象层有助于检查高度相关值或独特主题的组的数据。
例如,机器学习技术(无论神经网络、深度学习网络和/或其它经验式/观察性学习系统)可以用于生成最优结果、在图像中定位对象、理解语音并将语音转变成文本以及改善搜索引擎结果的相关性。深度学习是机器学习的子集,其使用算法集来利用具有多个处理层(包括线性和非线性变换)的深度图对数据的高水平抽象进行建模。尽管许多机器学习系统植入有要通过学习和更新机器学习网络来修改的初始特征和/或网络权重,但深度学习网络将自身训练为识别“良好”特征来进行分析。使用多层架构,采用深度学习技术的机器可以比使用常规机器学习技术的机器更好地处理原始数据。使用不同评估或抽象层有助于检查高度相关值或独特主题的组的数据。
例如,利用卷积神经网络(CNN)的深度学习使用卷积滤波器对数据进行分段,以定位和识别数据中的学到的可观察特征。CNN架构的各个滤波器或层对输入数据进行变换,以增加数据的选择性和不变性。这种数据抽象允许机器专注于试图进行分类的数据中的特征,并且忽略不相关的背景信息。
深度学习基于这样的理解进行操作:许多数据集包括高级特征(所述高级特征包括低级特征)。例如,在检查图像时,并不是寻找对象,而是寻找形成图案(所述图案形成部分,所述部分形成被找寻的对象)的边缘才是更有效的。可以在许多不同形式的数据中找到这些特征层级。
学到的可观察特征包括机器在监督学习期间学习到的对象和可量化的规律。被提供有大量分类良好的数据的机器可以更好地区分和提取与成功分类新数据有关的特征。
利用迁移学习的深度学习机器可以将数据特征正确地连接至由人类专家确认的某些分类。相反,当人类专家告知分类不正确时,同一机器可以更新分类参数。设置和/或其它配置信息例如可以由设置和/或其它配置信息的已学习的使用来指导,并且随着系统的使用越来越多(例如,反复地和/或由多个用户使用),针对给定情境,可以减少设置和/或其它配置信息的多种变化和/或其它可能性。
例如,可以在专家分类数据集上训练示例深度学习神经网络。该数据集建立神经网络的第一参数,并且这将是监督学习阶段。在监督学习阶段期间,可以测试神经网络是否达到了期望行为。
一旦实现了期望神经网络行为(例如,机器已被训练为根据指定阈值进行操作等),则可以部署该机器以供使用(例如,利用“真实”数据对机器进行测试等)。在操作期间,可以(例如,由专家用户、专家系统、参考数据库等)确认或拒绝神经网络分类,以继续改善神经网络行为。然后,示例神经网络处于迁移学习状态,因为确定神经网络行为的分类参数是基于持续交互更新的。在某些示例中,诸如神经网络302的神经网络可以向诸如音频分类评分引擎304等的另一处理提供直接反馈。在某些示例中,神经网络302输出被缓冲(例如,经由云等)并在提供给另一处理之前被验证的数据。
在图3的示例中,神经网络302从与分类训练数据相关联的先前结果数据接收输入,并输出预测与音频信号相关联的分类组的算法。网络302可以植入有一些初始相关性,然后可以从持续的经验中学习。在一些示例中,神经网络302持续地从至少一个分类训练数据接收反馈。在图3的示例中,在音频分类引擎300的整个使用寿命中,经由反馈持续地训练神经网络302,并且可以根据需要基于神经网络302和/或附加分类训练数据来更新示例音频分类评分引擎304。网络302可以基于角色、位置、情境等来学习和进化。
在一些示例中,可以由示例音频分类评分引擎验证器306确定由神经网络302生成的模型的准确度水平。在这样的示例中,音频分类评分引擎304和音频分类评分引擎验证器306中的至少一者接收分类训练数据集。还在这样的示例中,音频分类评分引擎304接收与分类验证数据相关联的输入,并预测与分类验证数据相关联的一个或更多个音频分类。预测结果被分发至音频分类评分引擎验证器306。音频分类评分引擎验证器306另外接收与分类验证数据相关联的已知音频分类,并将已知音频分类与从音频分类评分引擎304接收的预测分类进行比较。在一些示例中,该比较将产生由神经网络302生成的模型的准确度水平(例如,如果95个比较产生匹配并且5个产生错误,则该模型是95%准确的等)。一旦神经网络302达到期望准确度水平(例如,网络302被训练并且准备用于部署),音频分类评分引擎验证器306就可以将模型输出至图2的音频信号分类器216,以用于对分类训练数据和/或分类验证数据以外的音频进行分类。
图4和图5示出了表示用于实现图3的媒体单元106的示例硬件逻辑、机器可读指令、硬件实现状态机和/或其任何组合的流程图。机器可读指令可以是供计算机处理器(诸如下面结合图6讨论的示例处理器平台600中示出的处理器612)执行的可执行程序或可执行程序的一部分。可以在存储在非暂时性计算机可读存储介质(诸如CD-ROM、软盘、硬盘驱动器、DVD、蓝光盘或者与处理器612相关联的存储器)上的软件中具体实施所述程序,但是全部程序和/或其部分可以另选地由除了处理器612以外的设备来执行,和/或在固件或专用硬件中具体实施。此外,尽管参照图4和图5所例示的流程图对示例程序进行了描述,但是可以另选地使用实现示例媒体单元106的许多其它方法。例如,可以改变框的执行顺序,和/或可以改变、消除或组合所述框中的一些框。另外地或者另选地,任何或所有框都可以由被构造成执行对应的操作而不执行软件或固件的一个或更多个硬件电路(例如,分立的和/或集成的模拟和/或数字电路、FPGA、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)来实现。
如上所述,可以使用存储在非暂时性计算机和/或机器可读介质(诸如硬盘驱动器、闪存、只读存储器、光盘、数字通用盘、缓存、随机存取存储器和/或任何其它存储设备或存储盘,其中信息存储长达任何持续时间(例如,用于延长的时间段、永久地、用于简单的实例、用于临时缓冲和/或用于缓存信息))上的可执行指令(例如,计算机和/或机器可读指令)来实现图4和图5的示例处理。如本文所使用的,术语非暂时性计算机可读介质被明确定义成包括任何类型的计算机可读存储设备和/或存储盘,并且排除传播信号以及排除传输介质。
“包括”和“包含”(及其所有形式和时态)在本文中用作开放式用语。因此,每当权利要求采用任何形式的“包括”或“包含”(例如,包含(comprises)、包括(includes)、包含(comprising)、包括(including)、具有等)作为前序部分或在任何种类的权利要求记载内时,将理解,在不落在对应权利要求或记载的范围之外的情况下,可以存在附加要素、用语等。如本文所使用的,当短语“至少”用作权利要求的例如前序部分中的过渡用语时,其以与用语“包含”和“包括”是开放式相同的方式是开放式的。当例如以诸如A、B和/或C的形式使用时,用语“和/或”是指A、B、C的任何组合或子集,诸如(1)单独的A,(2)单独的B,(3)单独的C,(4)A与B,(5)A与C,(6)B与C以及(7)A和B和C。如本文所使用的,在描述结构、组件、项、对象和/或事物的上下文中,短语“A和B中的至少一个”旨在表示包括以下任一项的实现方式:(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B。类似地,如本文所使用的,在描述结构、组件、项、对象和/或事物的上下文中,短语“A或B中的至少一个”旨在表示包括以下任一项的实现方式:(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B。如本文所使用的,在描述处理、指令、动作、活动和/或步骤的执行的上下文中,短语“A和B中的至少一个”旨在表示包括以下任一项的实现方式:(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B。类似地,如本文所使用的,在描述处理、指令、动作、活动和/或步骤的执行的上下文中,短语“A或B中的至少一个”旨在表示包括以下任一项的实现方式:(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B。
图4和图5例示了示例机器可读指令,该示例机器可读指令用于实现图1和图2的媒体单元106并且可以被执行以经由音频分类执行动态音量调节。参照前面的附图和相关联的描述,示例机器可读指令400开始于框402。在框402,示例媒体单元106检测音频信号输入变化。在一些示例中,输入信号检测器204检测音频信号输入变化。例如,音频信号可能已开始(例如,媒体单元106先前未访问任何音频信号,而新的音频信号已开始),或者音频信号可能已改变(例如,FM无线电信号已改变成AM无线电信号)。下面结合图5更详细地讨论框402的执行。
在框404,示例媒体单元106压缩输入音频信号202以满足目标音量范围。在一些示例中,动态范围压缩器224压缩输入音频信号202以满足目标音量范围。
在框406,示例媒体单元106确定输入音频信号202的分类组。在一些示例中,音频信号分类器216确定输入音频信号的分类组。在一些示例中,音频信号分类器216利用经训练的机器学习模型、基于输入音频信号的一个或更多个特性(例如,CQT值)的比较来确定分类组。音频信号分类器216可以另外地或另选地确定与一个或更多个分类组相关联的概率分布。
在框408,示例媒体单元106确定输入音频信号202的输入音量。在一些示例中,输入音量检测器214确定输入音频信号202的输入音量。在一些示例中,输入音量检测器214确定输入音频信号202在一时间段(例如,三秒、五秒等)内的平均输入音量。在一些示例中,输入音量检测器214确定输入音频信号202在一时间段内的音量偏差。在一些示例中,输入音量检测器214确定一个或更多个瞬时音量值。
在框410,示例媒体单元106利用与输入音频信号202的分类组相关联的查找表来确定分类增益值。在一些示例中,音频信号分类器216利用与由音频信号分类器216确定为与输入音频信号202相关联的一个或更多个分类组相关联的查找表来确定分类增益值。在一些示例中,分类增益值是表示分类组的单个值(例如,基于在分类组的训练数据中观察到的平均动态范围、基于在分类组的训练数据中观察到的平均音量等)。在一些示例中,基于由音频信号分类器216输出的概率分布来确定分类增益值(例如,基于输入音频信号202属于分类组中的一个或更多个分类组的概率来计算一个或更多个增益值)。
在框412,示例媒体单元106对输入音量和分类增益值进行加权以确定目标增益值。在一些示例中,音量调节器220将第一权重施加至输入音量,并且将第二权重施加至分类增益值,并且随后基于经加权的输入音量和经加权的分类增益值来确定目标增益值。在一些示例中,音量调节器220将比分类增益值大的权重施加至输入,因为输入音量指示音频信号的实际状况,而不是对分类增益值的预测。在一些示例中,音量调节器220将目标增益值确定为输入音量测量值与目标音量范围之间的值。在一些示例中,音量调节器220计算输入音量与由于施加分类增益值而产生的音量水平之间的平均值,并且目标分类增益值被确定为使输入音频信号202的音量达到该平均音量水平所需的增益。
在框414,示例媒体单元106使用平滑滤波器将目标增益值施加至音频信号。在一些示例中,音量调节器220使用平滑滤波器将目标增益值施加至输入音频信号202。音量调节器220可以利用不同类型的滤波器(例如,中值滤波器、卡尔曼滤波器等)来平滑第一增益值与更新的增益值之间的过渡(例如,当更新分类和/或输入音量时),或者无增益值与增益值之间的过渡(例如,当检测到新的音频信号时)。
在框416,示例媒体单元106调节压缩值以满足目标音量范围。在一些示例中,动态范围压缩器224调节压缩值以满足目标音量范围。例如,如果音量调节器220增大了施加至输入音频信号202的增益值,则动态范围压缩器224可以减小压缩值,因为需要较少的动态范围压缩便可使输入音频信号202位于目标音量范围内。相反,如果音量调节器220减小了施加至输入音频信号202的增益值,则动态范围压缩器224可以增大压缩值,因为需要更多的动态范围压缩才能使输入音频信号202位于目标音量范围内。
在框418,示例媒体单元106确定自从上次分类以来的时间是否满足或超过更新时间阈值。在一些示例中,实时音频监测器226确定自从执行上次分类以来的时间是否满足或超过更新时间阈值。在一些示例中,实时音频监测器226确定自从进行上次输入音量计算以来的时间和/或自从通过音量调节器220执行上次音量调节以来的时间是否满足或超过更新时间阈值。响应于自从上次分类以来的时间满足或超过更新时间阈值,处理转移至框424。相反,响应于自从上次分类以来的时间未满足或未超过更新时间阈值,处理转移至框420。
在框420,示例媒体单元106确定是否已发生音频输入源改变。在一些示例中,输入信号检测器204确定是否已发生音频输入源改变(例如,输入源已从FM无线电改变成辅助输入、输入源已从CD改变成AM无线电等)。响应于发生音频输入源改变,处理转移至框422。相反,响应于未发生音频输入源改变,处理转移至框418。下面结合图5更详细地讨论框420的执行。
在框422,示例媒体单元106重置增益值。在一些示例中,音量调节器220重置增益值。例如,音量调节器220可以将增益值设置成零,因为(针对来自不同输入源的先前音频信号确定的)先前目标增益值可能不再对新的音频信号有效。因此,直到确定了新的目标增益值(例如,在分类和输入音量确定之后)为止,增益值被重置成一,并且动态范围压缩器224压缩输入音频信号202以满足目标音量范围。
在框424,示例媒体单元106确定自从上次分类以来的持续时间内的输入音量。在一些示例中,输入音量检测器214确定自从上次分类以来的持续时间内的输入音量。例如,如果实时音频监测器226配置有三秒更新间隔,则一旦更新间隔的整个持续时间期满(例如,在框418),输入音量检测器214就确定该更新间隔的输入音量。在一些示例中,针对更新间隔确定平均输入音量。
在框426,示例媒体单元106基于自从上次分类以来的持续时间内的音频信号来确定更新的分类组。在一些示例中,音频信号分类器216基于自从上次分类以来的持续时间内的音频信号来确定更新的分类组。例如,如果实时音频监测器226配置有三秒更新间隔,则一旦自从上次分类以来已经过去了三秒,音频信号分类器216就对音频信号的一个或更多个特性进行分析,以确定更新的分类组。在一些示例中,更新的分类组与先前确定的分类组相同。
在框428,示例媒体单元106确定是否启用动态音量。例如,媒体单元106的操作者可以(例如,经由开关、经由媒体单元106上的设置等)启用或禁用动态音量。响应于启用动态音量,处理转移至框410。相反,响应于未启用动态音量,处理终止。
图5是例示图4的框402和/或框420的执行的示例处理500的流程图。示例处理500在框502开始。在框502,压缩器增益比较器206将当前压缩器增益与最近的以往压缩器增益进行比较。例如,压缩器增益比较器206可以将动态范围压缩器224的与输入音频信号202的当前样本相关联的增益与动态范围压缩器224的与先前样本块(例如,前三秒的样本、前五秒的样本、前10秒的样本等)相关联的平均(例如,均值、中值等)增益进行比较。在一些示例中,压缩器增益比较器206可以输出动态范围压缩器224的与输入音频信号202的当前样本块相关联的当前增益与动态范围压缩器224的与先前样本块(例如,前三秒的样本、前五秒的样本、前10秒的样本等)相关联的平均(例如,均值、中值等)增益之比。
在框504,功率比较器208将输入音频信号202的当前音量/功率与音频信号的最近的以往音量/功率进行比较。例如,功率比较器208可以将输入音频信号202的当前RMS功率与输入音频信号202的与先前样本块(例如,前三秒的样本、前五秒的样本、前10秒的样本等)相关联的平均(例如,均值、中值等)功率进行比较。在一些示例中,功率比较器208可以查询峰值计输出以确定RMS功率。在一些示例中,功率比较器208可以输出当前RMS功率与先前RMS功率的平均值之比。
在框506,音频样本比较器210将当前音频样本块的最大值与最近音频样本值进行比较。例如,音频样本比较器210可以将输入音频信号202的当前音频样本值与输入音频信号202的与先前样本块(例如,前三秒的样本、前五秒的样本、前10秒的样本等)相关联的平均(例如,均值、中值等)音频样本值进行比较。在一些示例中,音频样本比较器210可以输出当前音频样本值与先前样本块的平均值之比。
在框508,源改变确定器212对音频样本比较、压缩器增益比较和功率比较进行分析,以确定是否已发生源改变。例如,源改变确定器212可以使用回归分析(例如,线性回归、二项式回归、最小二乘、逻辑回归等)来确定是否已发生源改变。在其它示例中,源改变确定器212可以使用任何其它合适的手段(例如,神经网络等)来确定是否已发生源改变。
在框510,源改变确定器212确定RMS比较、压缩器增益比较和/或音频样本压缩是否指示已发生源改变。如果源改变确定器212经由逻辑回归或其它分类方法确定RMS比较、压缩器增益比较和/或音频样本压缩指示已发生源改变,则处理500前进至框512。如果源改变确定器212确定RMS比较、压缩器增益比较和/或音频样本压缩指示未发生源改变,则处理500前进至框514。
在框512,源改变确定器212指示已发生源改变。例如,源改变确定器212可以使输入信号检测器204向媒体单元106指示已发生源改变。
在框514,源改变确定器212指示未发生源改变。例如,源改变确定器212可以使输入信号检测器204向媒体单元106指示未发生源改变。然后,处理500结束。
图6是被构造成执行图4的指令以实现图1和图2的媒体单元106的示例处理器平台600的框图。例如,处理器平台600可以是服务器、个人计算机、工作站、自学习机器(例如,神经网络)、移动设备(例如,手机、智能电话、诸如ipdTM的平板)、个人数字助理(PDA)、因特网设备、DVD播放器、CD播放器、数字视频录像机、蓝光播放器、游戏机、个人视频录像机、机顶盒、头戴设备或其它可穿戴设备或者任何其它类型的计算设备。
所示示例的处理器平台600包括处理器612。所示示例的处理器612是硬件。例如,处理器612可以由来自任何期望系列或制造商的一个或更多个集成电路、逻辑电路、微处理器、GPU、DSP或控制器来实现。硬件处理器可以是基于半导体的(例如,基于硅的)器件。在该示例中,处理器实现示例输入信号检测器204、由示例源改变确定器212使用的示例压缩器增益比较器206、示例音量/功率比较器208和示例音频样本比较器210、示例输入音量检测器214、示例音频信号分类器216、示例分类数据库218、示例音量调节器220、示例音频信号识别器222、示例动态范围压缩器224、示例实时音频监测器226和/或更一般地图2的示例媒体单元106。
所示示例的处理器612包括本地存储器613(例如,缓存)。所示示例的处理器612经由总线618与包括易失性存储器614和非易失性存储器616的主存储器进行通信。易失性存储器614可以由同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、
Figure BDA0003046764300000251
动态随机存取存储器
Figure BDA0003046764300000252
和/或任何其它类型的随机存取存储器设备来实现。非易失性存储器616可以由闪存存储器和/或任何其它期望类型的存储器设备来实现。对主存储器614、616的访问由存储器控制器来控制。
所示示例的处理器平台600还包括接口电路620。接口电路620可以通过任何类型的接口标准(诸如,以太网接口、通用串行总线(USB)、
Figure BDA0003046764300000261
接口、近场通信(NFC)接口和/或PCI express接口)来实现。
在所示示例中,一个或更多个输入设备622连接至接口电路620。输入设备622允许用户将数据和/或命令输入到处理器1012中。例如,输入设备可以通过音频传感器、麦克风、摄像头(静态或视频)、键盘、按钮、鼠标、触摸屏、轨迹板、轨迹球、isopoint和/或语音识别系统来实现。
一个或更多个输出设备624也连接至所示示例的接口电路620。输出设备1024可以例如由显示设备(例如,发光二极管(LED)、有机发光二极管(OLED)、液晶显示器(LCD)、阴极射线管显示器(CRT)、平面转换(IPS)显示器、触摸屏等)、触觉输出设备、打印机和/或扬声器来实现。因此,所示示例的接口电路620通常包括图形驱动器卡、图形驱动器芯片和/或图形驱动器处理器。
所示示例的接口电路620还包括通信设备(诸如发送器、接收器、收发器、调制解调器、住宅网关、无线接入点和/或网络接口),以促进经由网络626与外部机器(例如,任何种类的计算设备)交换数据。例如,所述通信可以经由以太网连接、数字订户线(DSL)连接、电话线连接、同轴电缆系统、卫星系统、直线对传式无线系统、蜂窝电话系统等。
所示示例的处理器平台600还包括用于存储软件和/或数据的一个或更多个大容量存储设备628。这样的大容量存储设备628的示例包括软盘驱动器、硬盘驱动器、光盘驱动器、蓝光盘驱动器、独立磁盘冗余阵列(RAID)系统和数字通用盘(DVD)驱动器。
图4的机器可执行指令632可以存储在大容量存储设备628、易失性存储器614、非易失性存储器616中和/或可移除非暂时性计算机可读存储介质(诸如CD或DVD)上。
根据前述内容,将理解,已公开了示例方法、装置和制品,所述示例方法、装置和制品按照使得具有不同特性的媒体可以以近似相同的音量播放同时使实现该音量所需的压缩量最小化的方式调节媒体的音量。尽管音量均衡的常规实现方式仅依赖于压缩并因此导致音频信号的可感知改变,但是本文公开的示例能够智能地对音频信号进行分类并基于与音频信号相关联的分类来确定平均增益值,从而例如可以在具有相对小的动态范围(其可以利用增益值大幅更改)的音频信号与具有较大的动态范围(其可能需要更多压缩)的音频信号之间进行辨别。本文公开的示例技术利用输入音量测量以及与音频信号的分类相关联的参数的组合来实时智能地调节输入音频信号的音量。本文公开的示例描述了在初始分析之后需要校正音量调节(例如,由于音频信号的分类改变、观察到的输入音量的改变等)的情况下持续调节音量水平的技术。本文公开的示例技术还包括在音频信号输入变化之后初始地调节音频信号的音量水平的技术。这样的技术相对于常规实现方式是有利的,因为它们对于用户而言是不可察觉的,并且使得来自不同或相似源的不同媒体能够以大致相同的音量播放,以实现无缝媒体呈现体验。
在一些示例中,示例音频动态范围压缩器可以始终处于活动状态,以使信号降低至特定范围(例如,-21dbFS),就像在当前的动态音量(Dynamic Volume)中一样。在其它示例中,音频动态范围压缩器可以在一部分时间内处于活动状态。
在一些示例中,示例实时音量检测器可以应用于输入端,在一个或更多个间隔(例如,750ms间隔)内测量当前平均电平,就像当前的动态音量(Dynamic Volume)一样。在这样的示例中,当前平均电平现在可以用作初始和正在进行的猜测,以指导可以降低多少音量。
在一些示例中,基于神经网络的分类器还可以辅助动态范围的预测,并且将通知可以施加的音量降低。这最初可以基于具有潜在改善的当前类别分类器(例如,9个分类器、15个分类器等)。在一些示例中,增加当前类别分类器的数量可以促成使用不同实时特征和神经网络方法的更准确的动态范围预测器。在各个示例中,可以增加与音量可被降低的量相关联的准确度。
在一些示例中,目标是将音量降低至更接近压缩器可以达到的特定水平(例如,-12dbFS)。一旦确定了降低量,就可以使用单极点平滑滤波器将输入端的当前满音量减小至所确定的量。压缩器将继续将音量保持在平均的特定水平(例如,-21dbFS),但是当该量降低至目标时,压缩器必须将输入压低的量可能会变小。
在本文公开的方法、装置和系统的操作的所描述的示例中,可以经由输入端来分发经完全归一化且响亮的流行音乐。压缩器可以将0.0dbFS素材向下移动至-21dbFS。大致并行地,输入音量检测器确定输入端平均以-1dbFS运行,并且分类器确定从1996年至今的具有合成鼓和贝斯的音乐被呈现。该类别产生-15dbFS的削减量,而音量检测器产生-20dbFS的削减量。对这两个值取平均值并且信号可以降低-17.50dbFS,并且可以再降低3.5分贝以达到基线-21dbFS。由于压缩器降低了比其阈值大3.5分贝的信号(例如,基于上述降低),因此与降低比其阈值高21分贝的信号(这是只利用压缩器时会发生的情况)相比,音频质量得到了改善。
本文公开了经由音频分类进行动态音量调节的示例方法、装置、系统和制品。另外的示例及其组合包括以下内容:示例1包括一种装置,所述装置包括:音频信号分类器,所述音频信号分类器利用神经网络对与第一音量水平相关联的音频信号的参数进行分析,以确定与所述音频信号相关联的分类组;输入音量检测器,所述输入音量检测器确定所述音频信号的输入音量;音量调节器,所述音量调节器向所述音频信号施加增益值,所述增益值基于所述分类组和所述输入音量,所述增益值将所述第一音量水平修改成第二音量水平;以及动态范围压缩器,所述动态范围压缩器向所述音频信号施加压缩值,所述压缩值将所述第二音量水平修改成满足目标音量阈值的第三音量水平。
示例2包括示例1的装置,所述装置还包括源改变确定器,所述源改变确定器确定所述音频信号的源是否已改变。
示例3包括示例2的装置,其中,所述源改变确定器基于以下至少一项来确定所述音频信号的所述源是否已改变:(1)所述音频信号所关联的当前压缩器增益与所述音频信号所关联的先前压缩器增益的比较,(2)所述音频信号所关联的RMS功率与所述音频信号所关联的先前RMS功率的比较,或者(3)所述音频信号所关联的当前音频样本值与所述音频信号所关联的先前音频样本值的比较。
示例4包括示例2的装置,其中,所述音量调节器还响应于确定所述音频信号的所述源已改变,重置所述音频信号的所述增益值。
示例5包括示例1的装置,其中,所述分类组与以下至少一项相关联:(1)由所述音频信号表示的音乐的流派,(2)由所述音频信号表示的所述音乐的时间段,或者(3)由所述音频信号表示的所述音乐中存在的乐器。
示例6包括示例1的装置,其中,所述输入音量检测器还确定第一时间段内的第四音量水平未落在所述目标音量阈值内,所述第一时间段在第二时间段之后发生,所述第三音量水平与所述第二时间段相关联,并且所述动态范围压缩器还调节所述压缩值以适应第五音量水平,经调节的压缩值将所述第四音量水平修改成满足所述目标音量阈值的第五音量水平。
示例7包括示例1的装置,其中,所述目标音量阈值处于5满刻度相对分贝(decibels relative to full scale,dBFS)至21dBFS内。
示例8包括非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质包括指令,所述指令在被执行时使处理器至少:利用神经网络对与第一音量水平相关联的音频信号的参数进行分析,以确定与所述音频信号相关联的分类组;确定所述音频信号的输入音量;向所述音频信号施加增益值,所述增益值基于所述分类组和所述输入音量,所述增益值将所述第一音量水平修改成第二音量水平;以及向所述音频信号施加压缩值,所述压缩值将所述第二音量水平修改成满足目标音量阈值的第三音量水平。
示例9包括示例8的非暂时性计算机可读存储介质,其中,所述指令在被执行时使所述处理器确定所述音频信号的源是否已改变。
示例10包括示例9的非暂时性计算机可读存储介质,其中,确定所述音频信号的源是否已改变是基于以下至少一项进行的:(1)所述音频信号所关联的当前压缩器增益与所述音频信号所关联的先前压缩器增益的比较,(2)所述音频信号所关联的RMS功率与所述音频信号所关联的先前RMS功率的比较,或者(3)所述音频信号所关联的当前音频样本值与所述音频信号所关联的先前音频样本值的比较。
示例11包括示例9的非暂时性计算机可读存储介质,其中,所述指令在被执行时使所述处理器响应于确定所述音频信号的所述源已改变,重置所述音频信号的所述增益值。
示例12包括示例11的非暂时性计算机可读存储介质,其中,所述分类组与以下至少一项相关联:(1)由所述音频信号表示的音乐的流派,(2)由所述音频信号表示的所述音乐的时间段,或者(3)由所述音频信号表示的所述音乐中存在的乐器。
示例13包括示例8的非暂时性计算机可读存储介质,其中,所述指令在被执行时使所述处理器确定第一时间段内的第四音量水平未落在所述目标音量阈值内,所述第一时间段在第二时间段之后发生,所述第三音量水平与所述第二时间段相关联,并且调节所述压缩值以适应第五音量水平,经调节的压缩值将所述第四音量水平修改成满足所述目标音量阈值的第五音量水平。
示例14包括示例1的方法,其中,所述目标音量阈值处于5满刻度相对分贝(dBFS)至21dBFS内。
示例15包括一种方法,所述方法包括:利用神经网络对与第一音量水平相关联的音频信号的参数进行分析,以确定与所述音频信号相关联的分类组;确定所述音频信号的输入音量;向所述音频信号施加增益值,所述增益值基于所述分类组和所述输入音量,所述增益值将所述第一音量水平修改成第二音量水平;以及向所述音频信号施加压缩值,所述压缩值将所述第二音量水平修改成满足目标音量阈值的第三音量水平。
示例16包括示例15的方法,所述方法还包括:确定所述音频信号的源是否已改变。
示例17包括示例16的方法,其中,确定所述音频信号的源是否已改变是基于以下至少一项进行的:(1)所述音频信号所关联的当前压缩器增益与所述音频信号所关联的先前压缩器增益的比较,(2)所述音频信号所关联的RMS功率与所述音频信号所关联的先前RMS功率的比较,或者(3)所述音频信号所关联的当前音频样本值与所述音频信号所关联的先前音频样本值的比较。
示例18包括示例16的方法,所述方法还包括:响应于确定所述音频信号的所述源已改变,重置所述音频信号的所述增益值。
示例19包括示例15的方法,其中,所述分类组与以下至少一项相关联:(1)由所述音频信号表示的音乐的流派,(2)由所述音频信号表示的所述音乐的时间段,或者(3)由所述音频信号表示的所述音乐中存在的乐器。
示例20包括示例15的方法,所述方法还包括:确定第一时间段内的第四音量水平未落在所述目标音量阈值内,所述第一时间段在第二时间段之后发生,所述第三音量水平与所述第二时间段相关联,以及调节所述压缩值,以将所述第四音量水平修改成满足所述目标音量阈值的第五音量水平。
尽管本文公开了某些示例方法、装置以及制品,但是本专利的覆盖范围不限于此。与此相反,本专利覆盖完全落入本专利的权利要求的范围内的所有方法、装置以及制品。

Claims (20)

1.一种装置,所述装置包括:
音频信号分类器,所述音频信号分类器利用神经网络对与第一音量水平相关联的音频信号的参数进行分析,以确定与所述音频信号相关联的分类组;
输入音量检测器,所述输入音量检测器确定所述音频信号的输入音量;
音量调节器,所述音量调节器向所述音频信号施加增益值,所述增益值基于所述分类组和所述输入音量,所述增益值将所述第一音量水平修改成第二音量水平;以及
动态范围压缩器,所述动态范围压缩器向所述音频信号施加压缩值,所述压缩值将所述第二音量水平修改成满足目标音量阈值的第三音量水平。
2.根据权利要求1所述的装置,所述装置还包括源改变确定器,所述源改变确定器确定所述音频信号的源是否已改变。
3.根据权利要求2所述的装置,其中,所述源改变确定器基于以下至少一项来确定所述音频信号的所述源是否已改变:(1)所述音频信号所关联的当前压缩器增益与所述音频信号所关联的先前压缩器增益的比较,(2)所述音频信号所关联的RMS功率与所述音频信号所关联的先前RMS功率的比较,或者(3)所述音频信号所关联的当前音频样本值与所述音频信号所关联的先前音频样本值的比较。
4.根据权利要求2所述的装置,其中,所述音量调节器还响应于确定所述音频信号的所述源已改变而重置所述音频信号的所述增益值。
5.根据权利要求1所述的装置,其中,所述分类组与以下至少一项相关联:(1)由所述音频信号表示的音乐的流派,(2)由所述音频信号表示的所述音乐的时间段,或者(3)由所述音频信号表示的所述音乐中存在的乐器。
6.根据权利要求1所述的装置,其中,
所述输入音量检测器还确定第一时间段内的第四音量水平未落在所述目标音量阈值内,所述第一时间段在第二时间段之后发生,所述第三音量水平与所述第二时间段相关联;并且
所述动态范围压缩器还调节所述压缩值以适应第五音量水平,经调节的压缩值将所述第四音量水平修改成满足所述目标音量阈值的第五音量水平。
7.根据权利要求1所述的装置,其中,所述目标音量阈值处于5满刻度相对分贝(dBFS)至21dBFS内。
8.一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质包括指令,所述指令在被执行时使处理器至少:
利用神经网络对与第一音量水平相关联的音频信号的参数进行分析,以确定与所述音频信号相关联的分类组;
确定所述音频信号的输入音量;
向所述音频信号施加增益值,所述增益值基于所述分类组和所述输入音量,所述增益值将所述第一音量水平修改成第二音量水平;以及
向所述音频信号施加压缩值,所述压缩值将所述第二音量水平修改成满足目标音量阈值的第三音量水平。
9.根据权利要求8所述的非暂时性计算机可读存储介质,其中,所述指令在被执行时使所述处理器确定所述音频信号的源是否已改变。
10.根据权利要求9所述的非暂时性计算机可读存储介质,其中,确定所述音频信号的源是否已改变是基于以下至少一项进行的:(1)所述音频信号所关联的当前压缩器增益与所述音频信号所关联的先前压缩器增益的比较,(2)所述音频信号所关联的RMS功率与所述音频信号所关联的先前RMS功率的比较,或者(3)所述音频信号所关联的当前音频样本值与所述音频信号所关联的先前音频样本值的比较。
11.根据权利要求9所述的非暂时性计算机可读存储介质,其中,所述指令在被执行时使所述处理器:响应于确定所述音频信号的所述源已改变,重置所述音频信号的所述增益值。
12.根据权利要求11所述的非暂时性计算机可读存储介质,其中,所述分类组与以下至少一项相关联:(1)由所述音频信号表示的音乐的流派,(2)由所述音频信号表示的所述音乐的时间段,或者(3)由所述音频信号表示的所述音乐中存在的乐器。
13.根据权利要求8所述的非暂时性计算机可读存储介质,其中,所述指令在被执行时使所述处理器:
确定第一时间段内的第四音量水平未落在所述目标音量阈值内,所述第一时间段在第二时间段之后发生,所述第三音量水平与所述第二时间段相关联;以及
调节所述压缩值以适应第五音量水平,经调节的压缩值将所述第四音量水平修改成满足所述目标音量阈值的第五音量水平。
14.根据权利要求1所述的方法,其中,所述目标音量阈值处于5满刻度相对分贝(dBFS)至21dBFS内。
15.一种方法,所述方法包括以下步骤:
利用神经网络对与第一音量水平相关联的音频信号的参数进行分析,以确定与所述音频信号相关联的分类组;
确定所述音频信号的输入音量;
向所述音频信号施加增益值,所述增益值基于所述分类组和所述输入音量,所述增益值将所述第一音量水平修改成第二音量水平;以及
向所述音频信号施加压缩值,所述压缩值将所述第二音量水平修改成满足目标音量阈值的第三音量水平。
16.根据权利要求15所述的方法,所述方法还包括以下步骤:确定所述音频信号的源是否已改变。
17.根据权利要求16所述的方法,其中,确定所述音频信号的源是否已改变的步骤是基于以下至少一项进行的:(1)所述音频信号所关联的当前压缩器增益与所述音频信号所关联的先前压缩器增益的比较,(2)所述音频信号所关联的RMS功率与所述音频信号所关联的先前RMS功率的比较,或者(3)所述音频信号所关联的当前音频样本值与所述音频信号所关联的先前音频样本值的比较。
18.根据权利要求16所述的方法,所述方法还包括以下步骤:响应于确定所述音频信号的所述源已改变,重置所述音频信号的所述增益值。
19.根据权利要求15所述的方法,其中,所述分类组与以下至少一项相关联:(1)由所述音频信号表示的音乐的流派,(2)由所述音频信号表示的所述音乐的时间段,或者(3)由所述音频信号表示的所述音乐中存在的乐器。
20.根据权利要求15所述的方法,所述方法还包括以下步骤:
确定第一时间段内的第四音量水平未落在所述目标音量阈值内,所述第一时间段在第二时间段之后发生,所述第三音量水平与所述第二时间段相关联;以及
调节所述压缩值,以将所述第四音量水平修改成满足所述目标音量阈值的第五音量水平。
CN201980072115.2A 2018-09-07 2019-09-06 经由音频分类进行动态音量调节的方法和装置 Active CN113614684B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862728677P 2018-09-07 2018-09-07
US62/728,677 2018-09-07
US201862745148P 2018-10-12 2018-10-12
US62/745,148 2018-10-12
PCT/US2019/050080 WO2020051544A1 (en) 2018-09-07 2019-09-06 Methods and apparatus for dynamic volume adjustment via audio classification

Publications (2)

Publication Number Publication Date
CN113614684A true CN113614684A (zh) 2021-11-05
CN113614684B CN113614684B (zh) 2024-09-10

Family

ID=69719145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980072115.2A Active CN113614684B (zh) 2018-09-07 2019-09-06 经由音频分类进行动态音量调节的方法和装置

Country Status (6)

Country Link
US (1) US11086591B2 (zh)
EP (1) EP3847542A4 (zh)
JP (2) JP7397066B2 (zh)
KR (2) KR102584779B1 (zh)
CN (1) CN113614684B (zh)
WO (1) WO2020051544A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114512111A (zh) * 2021-12-29 2022-05-17 深圳市优必选科技股份有限公司 模型训练方法、装置、终端设备及计算机可读存储介质
CN117041858A (zh) * 2023-08-14 2023-11-10 央广云听文化传媒有限公司 空间音频播放优化方法和装置
WO2024130865A1 (zh) * 2022-12-21 2024-06-27 瑞声科技(南京)有限公司 一种音频信号增强方法、装置、设备及可读存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11048472B2 (en) * 2019-01-27 2021-06-29 Listen AS Dynamically adjustable sound parameters
US11126398B2 (en) 2019-03-13 2021-09-21 Listen AS Smart speaker
US11517815B2 (en) 2019-08-19 2022-12-06 Cirrus Logic, Inc. System and method for use in haptic signal generation
US11557307B2 (en) 2019-10-20 2023-01-17 Listen AS User voice control system
US11295496B2 (en) * 2019-11-08 2022-04-05 Adobe Inc. Intelligent exporting of images using an image editing application
FR3106008B1 (fr) * 2020-01-03 2022-01-14 Faurecia Services Groupe Procédé de commande d’équipements d’un habitacle d’un véhicule et dispositifs associés
FR3111005B1 (fr) * 2020-06-02 2022-12-09 Renault Procede de controle du volume sonore
KR20220034516A (ko) * 2020-09-11 2022-03-18 삼성전자주식회사 전자 장치 및 그 제어 방법
US11809996B2 (en) * 2020-09-21 2023-11-07 University Of Central Florida Research Foundation, Inc. Adjusting parameters in an adaptive system
CN112017698B (zh) * 2020-10-30 2021-01-29 北京淇瑀信息科技有限公司 语音机器人采用的人工录音的优化方法、装置及电子设备
CN112397084B (zh) * 2020-11-04 2022-12-06 佛吉亚歌乐电子(丰城)有限公司 自适应调整多媒体音量方法、车载终端及计算机存储介质
CN114822587B (zh) * 2021-01-19 2023-07-14 四川大学 一种基于常数q变换的音频特征压缩方法
CN113823318B (zh) * 2021-06-25 2024-09-06 腾讯科技(深圳)有限公司 一种基于人工智能的倍率确定方法、音量调节方法及装置
CN115641870A (zh) * 2021-07-19 2023-01-24 北京荣耀终端有限公司 一种音频信号的处理方法及相关电子设备
CN113687811A (zh) * 2021-09-07 2021-11-23 青岛海信传媒网络技术有限公司 一种音频信号输出控制方法及显示设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005106843A1 (en) * 2004-04-30 2005-11-10 Axeon Limited Reproduction control of an audio signal based on musical genre classification
CN101432965A (zh) * 2006-04-27 2009-05-13 杜比实验室特许公司 使用基于特性响度的听觉事件检测的音频增益控制
US20090190779A1 (en) * 2008-01-29 2009-07-30 Samsung Electronics Co., Ltd. Method and apparatus to automatically control audio volume
CN102113312A (zh) * 2008-07-29 2011-06-29 Lg电子株式会社 用于处理音频信号的方法和设备
CN102739178A (zh) * 2011-04-15 2012-10-17 快捷半导体(苏州)有限公司 混频信号动态范围压缩装置及相关方法
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN104080024A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 音量校平器控制器和控制方法
WO2016149085A2 (en) * 2015-03-13 2016-09-22 Psyx Research, Inc. System and method for dynamic recovery of audio data and compressed audio enhancement
CN106031138A (zh) * 2014-02-20 2016-10-12 哈曼国际工业有限公司 环境感测智能设备
KR101689332B1 (ko) * 2015-09-11 2016-12-23 충남대학교산학협력단 정보 기반 소리 음량 조절 장치 및 그 방법
US9565508B1 (en) * 2012-09-07 2017-02-07 MUSIC Group IP Ltd. Loudness level and range processing
CN106454629A (zh) * 2015-08-12 2017-02-22 三星电子株式会社 音频信号处理方法和支持其的电子装置
JP2018072724A (ja) * 2016-11-02 2018-05-10 ヤマハ株式会社 音響処理方法および音響処理装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052444A (ja) * 1999-08-04 2001-02-23 Fujitsu Ten Ltd 音響再生装置
JP3812837B2 (ja) * 2003-02-26 2006-08-23 ソニー株式会社 音量調節装置、音量調節方法及びテレビジョン装置
US7272235B2 (en) * 2003-06-26 2007-09-18 Microsoft Corporation Method and apparatus for audio normalization
KR100746010B1 (ko) * 2005-11-17 2007-08-06 삼성전자주식회사 수신된 음성 신호의 크기를 제어하는 장치 및 방법
EP2352225A1 (en) * 2008-10-17 2011-08-03 Sharp Kabushiki Kaisha Audio signal adjustment device and audio signal adjustment method
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
TWI525987B (zh) * 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
JP5702666B2 (ja) * 2011-05-16 2015-04-15 富士通テン株式会社 音響装置および音量補正方法
US10003873B2 (en) * 2011-09-06 2018-06-19 Kohler Co. Speaker and shower
US9312829B2 (en) * 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
JP6336830B2 (ja) * 2014-06-23 2018-06-06 ローム株式会社 レベル調節回路、デジタルサウンドプロセッサ、オーディオアンプ集積回路、電子機器、オーディオ信号の自動レベル調節方法
US9423997B2 (en) * 2014-11-25 2016-08-23 Htc Corporation Electronic device and method for analyzing and playing sound signal
CN104954555B (zh) * 2015-05-18 2018-10-16 百度在线网络技术(北京)有限公司 一种音量调节方法及系统
CN107526568A (zh) * 2017-08-18 2017-12-29 广东欧珀移动通信有限公司 音量调节方法、装置、终端设备及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005106843A1 (en) * 2004-04-30 2005-11-10 Axeon Limited Reproduction control of an audio signal based on musical genre classification
CN101432965A (zh) * 2006-04-27 2009-05-13 杜比实验室特许公司 使用基于特性响度的听觉事件检测的音频增益控制
US20090220109A1 (en) * 2006-04-27 2009-09-03 Dolby Laboratories Licensing Corporation Audio Gain Control Using Specific-Loudness-Based Auditory Event Detection
US20090190779A1 (en) * 2008-01-29 2009-07-30 Samsung Electronics Co., Ltd. Method and apparatus to automatically control audio volume
CN102113312A (zh) * 2008-07-29 2011-06-29 Lg电子株式会社 用于处理音频信号的方法和设备
CN102739178A (zh) * 2011-04-15 2012-10-17 快捷半导体(苏州)有限公司 混频信号动态范围压缩装置及相关方法
US9565508B1 (en) * 2012-09-07 2017-02-07 MUSIC Group IP Ltd. Loudness level and range processing
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN104080024A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 音量校平器控制器和控制方法
US20180068670A1 (en) * 2013-03-26 2018-03-08 Dolby Laboratories Licensing Corporation Apparatuses and Methods for Audio Classifying and Processing
CN106031138A (zh) * 2014-02-20 2016-10-12 哈曼国际工业有限公司 环境感测智能设备
WO2016149085A2 (en) * 2015-03-13 2016-09-22 Psyx Research, Inc. System and method for dynamic recovery of audio data and compressed audio enhancement
CN106454629A (zh) * 2015-08-12 2017-02-22 三星电子株式会社 音频信号处理方法和支持其的电子装置
KR101689332B1 (ko) * 2015-09-11 2016-12-23 충남대학교산학협력단 정보 기반 소리 음량 조절 장치 및 그 방법
JP2018072724A (ja) * 2016-11-02 2018-05-10 ヤマハ株式会社 音響処理方法および音響処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114512111A (zh) * 2021-12-29 2022-05-17 深圳市优必选科技股份有限公司 模型训练方法、装置、终端设备及计算机可读存储介质
WO2024130865A1 (zh) * 2022-12-21 2024-06-27 瑞声科技(南京)有限公司 一种音频信号增强方法、装置、设备及可读存储介质
CN117041858A (zh) * 2023-08-14 2023-11-10 央广云听文化传媒有限公司 空间音频播放优化方法和装置
CN117041858B (zh) * 2023-08-14 2024-04-09 央广云听文化传媒有限公司 空间音频播放优化方法和装置

Also Published As

Publication number Publication date
JP2021536705A (ja) 2021-12-27
EP3847542A4 (en) 2022-06-01
WO2020051544A1 (en) 2020-03-12
KR102584779B1 (ko) 2023-10-05
US20200081683A1 (en) 2020-03-12
KR20210082440A (ko) 2021-07-05
KR20230144650A (ko) 2023-10-16
JP7397066B2 (ja) 2023-12-12
EP3847542A1 (en) 2021-07-14
JP2024037766A (ja) 2024-03-19
US11086591B2 (en) 2021-08-10
CN113614684B (zh) 2024-09-10

Similar Documents

Publication Publication Date Title
CN113614684B (zh) 经由音频分类进行动态音量调节的方法和装置
US11824507B2 (en) Methods and apparatus for volume adjustment
US12061840B2 (en) Methods and apparatus for dynamic volume adjustment via audio classification
US12081833B2 (en) Methods and apparatus for audio equalization
US20240354053A1 (en) Methods and Apparatus for Dynamic Volume Adjustment Via Audio Classification
KR102722619B1 (ko) 볼륨 조절을 위한 방법 및 장치
KR20240156434A (ko) 볼륨 조절을 위한 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40063032

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant