CN111183476A - 基于子窗口序列内的rms功率的音频文件包络 - Google Patents

基于子窗口序列内的rms功率的音频文件包络 Download PDF

Info

Publication number
CN111183476A
CN111183476A CN201880064935.2A CN201880064935A CN111183476A CN 111183476 A CN111183476 A CN 111183476A CN 201880064935 A CN201880064935 A CN 201880064935A CN 111183476 A CN111183476 A CN 111183476A
Authority
CN
China
Prior art keywords
sub
window
windows
envelope
loudness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880064935.2A
Other languages
English (en)
Other versions
CN111183476B (zh
Inventor
伊曼纽尔·德吕蒂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Europe BV United Kingdom Branch
Original Assignee
Sony Europe Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Europe Ltd filed Critical Sony Europe Ltd
Publication of CN111183476A publication Critical patent/CN111183476A/zh
Application granted granted Critical
Publication of CN111183476B publication Critical patent/CN111183476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/04Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation
    • G10H1/053Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only
    • G10H1/057Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only by envelope-forming circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0356Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/315Dynamic effects for musical purposes, i.e. musical sound effects controlled by the amplitude of the time domain audio envelope, e.g. loudness-dependent tone colour or musically desired dynamic range compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/161Logarithmic functions, scaling or conversion, e.g. to reflect human auditory perception of loudness or frequency
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/261Window, i.e. apodization function or tapering function amounting to the selection and appropriate weighting of a group of samples in a digital signal within some chosen time interval, outside of which it is zero valued
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

一种方法包括基于音频文件的双窗口化分析来确定音频文件的包络。

Description

基于子窗口序列内的RMS功率的音频文件包络
技术领域
本公开总体上涉及音频处理领域,例如,音乐和广播制作、分发和传输。
背景技术
数字音频工作站(DAW)是一种电子装置或软件应用程序,用于录制、编辑和生成音频文件,例如,音乐作品、语音或声音效果。DAW通常提供一个用户接口,允许用户录制、编辑多个录制和轨道,并将其混合成一个最终制作的作品。
音乐制作包括录制、混合和掌握的处理。基于计算机的DAW通常允许音频的多轨道录制,并提供播放、录制和编辑音轨的控制。
现代的基于计算机的DAW支持软件插件,每个插件都有自己的功能,可以扩展DAW的声音处理能力。例如,存在用于均衡、限制和压缩的软件插件。也存在提供音频效果的软件插件,例如,混响和回声。并且存在为DAW提供声源的软件插件,例如,虚拟仪器和采样器。
数字音频处理可能涉及响度评估,尤其是短期响度评估(=包络评估)。欧洲广播联盟(EBU)(参见参考文献[EBU 2011])研究了广播节目的制作、分发和传输中对音频信号电平的需求。
普遍需要在录制、混合和监控处理中为用户提供更好的计算机实施方式的辅助。
发明内容
根据第一方面,本公开提供了一种方法,包括基于音频文件的双窗口化分析来确定音频文件的包络。
根据另一方面,本公开提供了一种电子装置,包括被配置为基于音频文件的双窗口化分析来确定音频文件的包络的电路。
根据另一方面,本公开提供了一种包括指令的计算机程序,当在处理器上执行时,该指令使得处理器基于音频文件的双窗口化分析来确定音频文件的包络。
在从属权利要求、以下描述和附图中阐述了进一步的方面。
附图说明
通过参考附图的示例来解释实施方式,其中:
图1描述了滑动窗口如何包含信号和背景噪声两者;
图2a示出了在信号和背景噪声之间转换的示例性源音频文件的幅度;
图2b示出了用单窗口化处理方法确定的图2a的源音频文件的包络,其导致转换期间的响度被低估;
图3示意性地描述了包括双窗口化的短期响度评估处理;
图4示意性地描述了包括双窗口化(没有心理声学加权)的短期电平评估处理;
图5示意性地描述了双窗口化处理的第一种可能的实施方式,包括丢弃低响度子窗口,随后是剩余音频的级联和剩余音频的RMS功率的评估;
图6示出了根据图5的关于满量程正弦波在背景噪声之后的序列的实施方式;
图7示意性地描述了双窗口化处理的第二种可能实施方式,其包括丢弃低响度子窗口,随后评估剩余子窗口的平均RMS功率;
图8示意性地描述了双窗口化处理的第三种可能实施方式,其包括使用响度值本身作为系数来评估子窗口化的响度的加权平均值;
图9示出了图8关于满量程正弦波跟随背景噪声的序列的实施方式;
图10以包络跟随器的形式示意性地描述了音频文件的包络评估的示例应用;
图11a-图11c示出了双窗口化处理如何在转换期间降低处理过的音频中的较高响度;
图12示意性地描述了以两个相等电平的轨道相加的形式的音频文件的包络评估的示例应用;
图13示意性地描述了双窗口化处理的实施方式,该处理包括丢弃低响度子窗口,随后是剩余音频的级联和剩余音频的RMS功率的评估,以及锚定时间的评估;
图14示出了根据图13的关于满量程正弦波在背景噪声之后的序列的实施方式;
图15示意性地描述了双窗口化处理的实施方式,包括丢弃低响度子窗口,随后是剩余子窗口的平均RMS功率的评估以及锚定时间的评估;
图16示意性地描述了双窗口化处理的进一步实施方式,包括使用响度值本身作为系数来评估子窗口化的响度的加权平均值以及评估锚定时间;
图17示出了图16关于满量程正弦波在背景噪声之后的序列的实施方式;
图18示出了与分别使用图5、图7和图8的实施方式测量的响度的位置和值相比,利用如关于图13、图15和图16的实施方式所描述的、位于锚点处的双窗口化而测量的响度的位置和值;
图19以包络跟随器的形式示意性地描述了音频文件的包络评估的另一示例应用;以及
图20示意性地描述了用于实施处理的电子装置的实施方式。
具体实施方式
以下实施方式涉及电平和/或响度评估框架,尤其涉及从音频文件中找到窗口(瞬时或短期)电平和/或响度值。
实施方式公开了一种方法,其包括基于音频文件的双窗口化分析来确定音频文件的包络。
该双窗口化分析可以包括对源音频文件进行窗口化,以获得包含音频的窗口序列,并且对窗口序列的每个窗口进行窗口化,以获得每个窗口的相应子窗口序列。
将窗口序列的每个窗口进行窗口化成子窗口,可以产生响度曲线,响度曲线的每个值是从相应的窗口获得的。
将窗口序列的每个窗口进行窗口化成子窗口,可以产生电平曲线,从相应的窗口获得电平曲线的每个值。
上述方法可以例如集成到文件的窗口化的响度评估中。
上述方法可以例如集成到包络跟随器中。
上述方法可以例如应用于自动音频混合框架中。
这些方法可以是计算机实施的方法。例如,这些方法可以实施为软件应用、数字音频工作站(DAW)软件应用等。这些方法也可以实施为软件插件,例如,用于数字音频工作站软件。
这些方法可以例如在电子装置中实施方式,该电子装置包括被配置为执行以上和以下更详细描述的方法的电路。电子装置例如可以是计算机、台式计算机、工作站、数字音频工作站(DAW)等。电子装置也可以是膝上型电脑、平板电脑、智能手机等。电子装置的电路可以包括一个或多个处理器、一个或多个微处理器、专用电路、逻辑电路、存储器(RAM、ROM等)、存储器、输出装置(显示器,例如,液晶、(有机)发光二极管等)、扬声器、接口(例如,触摸屏、无线接口,例如,蓝牙、红外线、音频接口等)等。
响度的窗口化测量
欧洲广播联盟(EBU)为音频内容的窗口化的响度提供规范[EBU 2011]。窗口化的响度或包络的测量包括心理声学加权音频的窗口化,随后评估每个窗口中音频的均方根(RMS)功率。
也可以对未加权的音频执行评估窗口音频的RMS功率的处理,在这种情况下,评估是对窗口功率的评估而不是窗口化的响度的评估。
在窗口内的低电平和高电平音频之间存在转换的情况下,对每个窗口中音频的RMS功率进行窗口化和评估都会导致响度和功率估计的误差。
图1示出了应用于正弦波的窗口化处理。当正弦波开始或结束时,几个窗口(例如,图1中的窗口2和窗口3)包含信号和背景噪声两者。这些窗口的测量电平低于仅包含信号的窗口的测量电平(见图2b)。
图2a示出了具有信号和背景噪声之间的转换的示例性源音频文件的幅度。其显示了背景噪声与满量程正弦波交替出现的示例轨道(“源”)。
图2b示出了用单窗口化处理方法确定的图2a的源音频文件的包络。该图显示了在该示例轨道上执行电平窗口化测量的结果。转换期间的电平被低估。假设操作(例如,包络跟随器)旨在将示例轨道设置为恒定的目标响度,则上述较低的响度值将导致局部较高的增益,并因此在转换期间以较高信号电平的形式产生伪像(参见图11b和下面的相应描述)。
使用较短的窗口将导致上述伪像的衰减。然而,[EBU 2011]规定了窗口长度。用固定的窗口长度来执行诸如“瞬时响度”和“短期响度”等特定测量。
双窗口化处理
如下文更详细描述的使用双窗口化来确定输入音频包络的处理使用以下方法来衰减伪像,同时不改变窗口长度。
图3示意性地描述了涉及双窗口化的响度评估处理。在602中,输入音频61被心理声学加权,以获得加权音频62。在603中,使用双窗口化处理加权音频62,以提供包络(窗口化的响度)63。
图4示意性地描述了在没有心理声学加权的情况下涉及双窗口化的窗口电平评估处理。在603中,使用双窗口化处理输入音频61,以提供包络(窗口化的电平)64。
在图3和图4中,在包络的评估(窗口化的响度和窗口化的电平)中,双窗口化处理可以代替[EBU 2011]中所描述的窗口处理。
图5、图7和图9示意性地描述了用于评估输入音频的包络(窗口化的电平)的双窗口化处理的三种实施方式。
使用标准窗口长度来测量信号响度。每个窗口的内容本身都被窗口化处理为子窗口。在第一和第二种可能的实施方式中,从包络的评估丢弃低级子窗口。在第三种可能的实施方式中,使用加权平均值来将低级子窗口对响度评估的影响最小化。
图5示意性地描述了双窗口化处理的第一种可能的实施方式,包括丢弃低响度子窗口,随后是剩余音频的级联和剩余音频的RMS功率的评估。
在500中,对输入音频50进行窗口化,从而导致包含音频的一系列窗口51。
假设
Figure BDA0002438642320000081
是输入音频。
假设第n个窗口写成
Figure BDA0002438642320000082
假设Nwindow是每个窗口的长度。假设hwindow是跳数,其中,hwindow<Nwindow
典型值为Nwindow=0.1×fs样本,hwindow=0.05×fs样本。
第n个窗口
Figure BDA0002438642320000083
包含音频样本
Figure BDA0002438642320000084
Figure BDA0002438642320000085
在501中,将每个加权窗口(51)本身进行窗口化,从而形成包含子窗口的窗口序列,该子窗口包含音频。
假设ω(n,ι)是第n个窗口的ιth子窗口。
假设Nsub是每个子窗口的长度。假设hsub是跳数,hsub<Nsub
典型值是Nsub=Nwindow/16,hsub是0.5×vNsub
ιth子窗口ω(n,ι)包含值
Figure BDA0002438642320000091
Figure BDA0002438642320000092
在502中,评估每个子窗口的内容的RMS功率。
在503中,丢弃RMS功率低于手动设置的阈值53的子窗口,从而导致在52中包含子窗口子集的窗口序列54。阈值53可以是信号中背景噪声的响度(见图7中的75)。
在504中,来自每个窗口的子窗口级联到音频窗口56,其仅包含来自RMS功率大于阈值53的子窗口的音频。
假设χ[n,ι]是子窗口ω(n,ι)的RMS功率。
窗口
Figure BDA0002438642320000093
被定义为RMS功率χ[n,ι]大于阈值T的子窗口ω(n,ι)的级联。
在505中,评估每个窗口56中音频的RMS功率,产生包络59。
包络
Figure BDA0002438642320000094
的每个元素
Figure BDA0002438642320000095
被定义为每个
Figure BDA0002438642320000096
的RMS功率。
图6示出了针对满量程正弦波在背景噪声之后的序列的上述实施方式。每个窗口被分成子窗口。丢弃包含低级音频的子窗口(在图6中,划掉丢弃的子窗口)。RMS功率的评估包括剩余的子窗口。
图7示意性地描述了双窗口化处理的第二种可能实施方式,包括丢弃低响度子窗口,随后评估剩余子窗口的平均RMS功率。
在500中,对输入音频50进行窗口化,从而导致包含音频的一系列窗口51。
假设
Figure BDA0002438642320000101
是输入音频。
假设第n个窗口写成
Figure BDA0002438642320000102
假设Nwindow是每个窗口的长度。假设hwindow是跳数,其中,hwindow<Nwindow
典型值为Nwindow=0.1×fs样本,hwindow=0.05×fs样本。
第n个窗口
Figure BDA0002438642320000103
包含音频样本
Figure BDA0002438642320000104
Figure BDA0002438642320000105
在501中,将每个加权窗口(51)本身进行窗口化,导致包含子窗口的窗口序列,子窗口包含音频。
假设ω(n,ι)是第n个窗口的ιth子窗。
假设Nsub是每个子窗口的长度。假设hsub是跳数,hsub<Nsub
典型值是Nsub=Nwindow/16,hsub是0.5×vNsub
ιth子窗口ω(n,ι)包含值
Figure BDA0002438642320000111
Figure BDA0002438642320000112
在502中,评估每个子窗口的内容的RMS功率。
在503中,丢弃RMS功率低于手动设置的阈值53的子窗口,导致在52中包含子窗口子集的窗口序列54。阈值53可以是信号中背景噪声的响度。
在506中,RMS功率值以线性标度表示,并且对于每个窗口,评估剩余子窗口的RMS功率值的平均值。
假设χ[n,ι]是子窗口ω(n,ι)的RMS功率,用线性标度表示。
包络
Figure BDA0002438642320000121
被评估为
Figure BDA0002438642320000122
在507中,包络用对数域表示。
在509中,
Figure BDA0002438642320000123
用对数域表示,
Figure BDA0002438642320000124
被设置为
Figure BDA0002438642320000125
图8示意性地描述了双窗口化处理的第三种可能实施方式,其包括使用响度值本身作为系数来评估子窗口化的响度的加权平均值。
根据图8的实施方式类似于图5的实施方式,其中,在503中,丢弃RMS功率低于阈值的子窗口。这相当于给每个子窗口附加一个系数,如果RMS功率低于阈值,则该系数为零,如果RMS功率高于阈值,则该系数为1。然而,根据图8的实施方式,在双窗口化处理中,附加系数不是零或1,而是以线性标度表示的子窗口的RMS功率。
在500中,对输入音频50进行窗口化,从而导致包含音频的一系列窗口51。
假设
Figure BDA0002438642320000126
是输入音频。
假设第n个窗口写成
Figure BDA0002438642320000127
假设Nwindow是每个窗口的长度。假设hwindow是跳数,其中,hwindow<Nwindow
典型值为Nwindow=0.1×fs样本,hwindow=0.05×fs样本。
第n个窗口
Figure BDA0002438642320000131
包含音频样本
Figure BDA0002438642320000132
Figure BDA0002438642320000133
在501中,每个加权窗口(51)本身进行窗口化,从而导致包含子窗口的窗口序列,该子窗口包含音频。
假设ω(n,ι)是第n个窗口的ιth子窗口。
假设Nsub是每个子窗口的长度。假设hsub是跳数,其中,hsub<Nsub
典型值是Nsub=Nwindow/16,hsub是0.5×vNsub
ιth子窗口ω(n,ι)包含值
Figure BDA0002438642320000134
Figure BDA0002438642320000135
在502中,评估每个子窗口的内容的RMS功率。
在508中,将包络的每个值被评估为窗口
Figure BDA0002438642320000141
中子窗口的RMS值的加权平均值,RMS值本身就是系数。
假设χ[n,ι]是子窗口ω(n,ι)的RMS功率,用线性标度表示。
对于每个n,
Figure BDA0002438642320000142
被设置为
Figure BDA0002438642320000143
在509中,
Figure BDA0002438642320000144
用对数域表示,
Figure BDA0002438642320000145
被设置为
Figure BDA0002438642320000146
图9示出了满量程正弦波在背景噪声之后的序列的上述实施方式。每个窗口都被分成子窗口。子窗口的RMS功率值的加权平均值的系数是RMS功率值本身。
示例性的标准窗口长度范围在44kHz中从2^14到2^17样本,分为16个子窗口。
包络跟随器
包络跟随器是一种算法,使音频文件的包络(源包络)与目标包络(可能是目标音频文件的包络)一致,从而生成新的音频文件。
图10示意性地表示包络跟随器。
在700中,从源音频文件70中提取包络(短期电平),产生源72的包络。
在701中,从源音频文件71中提取包络(短期电平),产生源73的包络。
两个包络都用对数标度表示。
在702中,从目标包络73中减去源包络72,从而产生将施加于源70的增益74,使得其包络与目标包络73一致。
实际上,由于会导致背景噪声与信号一样大,因此当源仅包含背景噪声时,不应应用增益。在707中,将背景噪声电平75与源包络进行比较。在704中,如果源包络72大于背景噪声电平75,则应用增益。
评估包络的正确性对包络跟随器的性能有影响。
图11a-到11c示出了利用包络跟随器在示例轨道上执行电平的窗口化测量的结果。图11a示出了背景噪声与满量程正弦波交替的示例轨道(“源”)。图11b和图11c示出了在该示例轨道上执行电平的窗口化测量的结果。图11b对应于用单窗口化处理源时的结果电平。图11c对应于用双窗口化处理源时的结果电平。假设包络跟随器旨在将示例轨道设置为恒定的目标电平,在包络评估期间用双窗口化处理替换窗口处理将在背景噪声和满量程正弦波之间的转换期间导致更小的伪像(图11b和图11c)。
混合多轨道
图12示意性地描述了使用上述图10中描述的包络构造处理来混合设置在相同电平的两个音频文件的处理。
根据图12的示例,项目包含两个音轨,轨道A 81和轨道B 82。在801中,将上述图10中描述的包络构造处理应用于轨道A和轨道B。在该处理中,轨道A被用作源音频文件70,轨道B被用作目标音频文件71。如关于图11的处理所述,增益74由轨道A和轨道B确定。所获得的增益G应用于轨道A 81,该轨道如参考图10所描述的那样充当源音频文件70,以获得轨道A’83,作为结果音频文件79。然后,在802中,以常规方式确定轨道A’和轨道B的总和,以获得输出轨道O。
如果项目包含多个轨道,则上述处理可以迭代地应用于项目的一些或所有音轨,以便以自动方式平衡轨道的电平。如果例如项目包含三个轨道,轨道A、轨道B和轨道C,则在第一步骤中,轨道A的响度可以适应于轨道B的响度,以获得轨道A的修改版本,表示为轨道A’,并且轨道A’和轨道B可以以常规方式相加,以获得轨道O,如上面关于图12所述。然后,在第二步骤中,使用上述相同的处理,轨道O的响度可以适应轨道C的响度,以获得轨道O’,轨道O’和轨道C可以以常规方式相加,以获得轨道M,作为混合处理(主声道输出)的结果。可以以模拟方式处理具有三个以上轨道的项目。
锚定时间
下面更详细描述的图13、图15和图16示意性地描述了用于评估输入音频的包络(窗口电平)的双窗口化处理的实施方式的三个额外实施方式。这些额外实施方式分别基于图5、图7和图8的实施方式。在这些额外实施方式中,为每个窗口评估锚定时间。锚定时间指定各个窗口的时间。在第一和第二可能的实施方式中(图13和图15),锚定时间被评估为剩余子窗口的平均位置。在第三实施方式中(图16),锚定时间被评估为子窗口的加权平均位置,权重是子窗口的响度,以线性标度表示。
在所有三种实施方式中,输出信号响度是一条曲线,其横坐标是一系列锚定时间值,其纵坐标是一系列测量的响度。
图13示意性地描述了双窗口化处理的实施方式,该处理包括丢弃低响度子窗口,接下来是剩余音频的级联,和剩余音频的RMS功率的评估,以及锚定时间的评估。
该实施方式的步骤500、501、502和503与图5的实施方式相同,因此省略描述。这些步骤500、501、502和503导致包含52中子窗口子集的窗口序列54,其中,已经丢弃RMS功率低于手动设置阈值53的子窗口。
在504中,来自每个窗口的子窗口级联到音频窗口56,音频窗口56仅包含来自RMS功率大于阈值53的子窗口的音频。
在505中,评估每个窗口56中音频的RMS功率(响度),标注为
Figure BDA0002438642320000171
包络
Figure BDA0002438642320000172
的每个元素
Figure BDA0002438642320000173
被定义为每个
Figure BDA0002438642320000174
的RMS功率。
在506中,为每个第n个窗口54评估锚定时间57。锚定时间57是相应窗口内剩余子窗口的平均位置。标注为
Figure BDA0002438642320000175
如下评估该锚定时间57。首先,每个子窗口ω(n,ι)的锚定时间τ(n,ι)被定义为每个ω(n,ι)中样本的中间位置。锚定时间
Figure BDA0002438642320000179
被定义为在
Figure BDA0002438642320000176
中剩余的子窗口的锚定时间的平均值。如果丢弃所有子窗口,则锚定时间
Figure BDA0002438642320000177
被定义为窗口
Figure BDA0002438642320000178
的中间位置。
在510和512中,输出包络被定义为响度序列,即在相应时间
Figure BDA0002438642320000181
发置的值
Figure BDA0002438642320000182
响度值
Figure BDA0002438642320000183
(58)构成输出包络59的横坐标,锚定时间
Figure BDA0002438642320000184
(57)构成输出包络(59)的纵坐标。
图14示出了根据图13的在一个序列上的实施方式,其中,满量程正弦波在背景噪声之后。图14中显示了窗口1、窗口2、窗口3和窗口4的四个示例锚定时间。锚定时间57是如上面关于图13所述的子窗口位置的平均值。在窗口1的情况下,丢弃所有子窗口。因此,锚定时间被定义为窗口的中间位置。
图15示意性地描述了双窗口化处理的实施方式,包括丢弃低响度子窗口,随后评估剩余子窗口的平均RMS功率和评估锚定时间。
该实施方式的步骤500、501、502和503与图7的实施方式相同,因此省略描述。这些步骤500、501、502和503导致包含52中子窗口子集的窗口序列54,其中,已经丢弃RMS功率低于手动设置阈值53的子窗口。
在506中,RMS功率值以线性标度表示,并且对于每个窗口,评估剩余子窗口的RMS功率值的平均值。
假设χ[n,ι]是子窗口ω(n,ι)的RMS功率,用线性标度表示。
对于每个n,表示为
Figure BDA0002438642320000185
的包络的纵坐标被评估为
Figure BDA0002438642320000186
ι是在503之后剩余的子窗口的索引。
在507中,响度序列
Figure BDA0002438642320000191
(58)用对数域表示,其中,
Figure BDA0002438642320000192
被设置为
Figure BDA0002438642320000193
在511中,以与图13的实施方式中类似的方式,为每个第n个窗口(51)评估锚定时间(57)。锚定时间再次表示为
Figure BDA0002438642320000194
如下评估这些锚定时间
Figure BDA0002438642320000195
(57):首先,每个子窗口ω(n,ι)的锚定时间τ(n,ι)被定义为每个ω(n,ι)中样本的中间位置。锚定时间
Figure BDA0002438642320000196
被定义为在
Figure BDA0002438642320000197
中剩余的子窗口的锚定时间的平均值。如果丢弃所有子窗口,则锚定时间
Figure BDA0002438642320000198
被定义为窗口
Figure BDA0002438642320000199
的中间位置。
在510和512中,输出包络被定义为在时间
Figure BDA00024386423200001910
设置的值
Figure BDA00024386423200001911
(58)是输出包络59的横坐标,
Figure BDA00024386423200001912
(57)是输出包络59的纵坐标。
图16示意性地描述了双窗口化处理的另一种可能的实施方式,包括使用响度值本身作为系数来评估子窗口化的响度的加权平均值并且评估锚定时间。该实施方式的步骤500、501和502与图8的实施方式相同。在502,评估每个子窗口的内容的RMS功率。
在508中,包络的每个值被评估为窗口
Figure BDA0002438642320000201
中子窗口的RMS值的加权平均值,RMS值本身就是系数。
假设χ[n,ι]是子窗口ω(n,ι)的RMS功率,用线性标度表示。
对于每个n,
Figure BDA0002438642320000202
被设置为
Figure BDA0002438642320000203
在509中,
Figure BDA0002438642320000204
(58)用对数域表示,
Figure BDA0002438642320000205
被设置为
Figure BDA0002438642320000206
在511中,每个第n个窗口(51)额锚定时间(57)被评估为子窗口的加权位置。如在图13和图15的实施方式中,锚定时间被表示为
Figure BDA0002438642320000207
如下评估锚定时间
Figure BDA0002438642320000208
(57):首先,每个子窗口ω(n,ι)的锚定时间τ(n,ι)被定义为每个ω(n,ι)中样本的中间位置。锚定时间
Figure BDA0002438642320000209
被定义为子窗口的锚定时间的加权平均值,其中,权重是每个子窗口的RMS。形式上,
Figure BDA00024386423200002010
其中,
Figure BDA00024386423200002013
是逐项或Hadamard乘积。如果所有子窗口的RMS为零,即,如果对于给定的n,∑ιχ[n,ι]=0,则锚定时间
Figure BDA00024386423200002011
被定义为窗口
Figure BDA00024386423200002012
的中间位置。
在510和512中,输出包络被定义为在时间
Figure BDA0002438642320000211
设置的值
Figure BDA0002438642320000212
响度值
Figure BDA0002438642320000213
(58)构成输出包络59的横坐标,锚定时间
Figure BDA0002438642320000214
(57)构成输出包络59的纵坐标。
图17示出了图16在序列上的实施方式,其中,满量程正弦波在背景噪声之后。每个锚定时间57是子窗口位置的平均值。在窗口1的情况下,由于所有子窗口的RMS为零,所以锚定时间被定义为窗口的中间位置。
图18示出了与分别使用图5、图7和图8的实施方式(黑色)测量的响度的位置和值相比,利用双窗口化测量的响度的位置和值,如关于图13、图15和图16的实施方式所描述的那样,位于锚点处。细线表示如图13、15和16中描述的使用双窗口化和锚点的响度测量,而粗线表示分别如图5、7和8中描述的使用窗口的响度测量。测量值上方的矩形表示测量的波形(信号和噪声)。从图18可以看出,在使用锚定时间的实施方式的情况下,响度测量更精确。
符合共同时间线的包络跟随器
图19以包络跟随器的形式示意性地描述了音频文件的包络评估的另一示例应用。该实施方式基本上对应于图10的实施方式,因此对于包络跟随器的一般解释,参考图10的描述。图19的实施方式与图10的实施方式的不同之处在于添加了处理710,其中,源包络72和目标包络73符合共同的时间线。实施方式操作710的可能处理包括插值。
实施方式
下面,参考图20描述电子装置130的实施方式。电子装置(此处是计算机930)可以被实施为使得可以基本上用作本文描述的任何类型的音频处理设备或音频处理实体。计算机具有组件931至940,其可以形成电路,例如,音频处理装置的任何一个电路。
使用软件、固件、程序、插件等来执行本文描述的处理的实施方式可以安装在计算机930上,计算机930然后被配置为适合于该实施方式。
计算机930具有CPU 931(中央处理单元),该CPU 931可以执行本文描述的各种类型的处理和方法,例如,根据存储在只读存储器(ROM)932中、存储在存储器937中并加载到随机存取存储器(RAM)933中、存储在介质940中的程序来执行,该介质940可以插入到相应的驱动器939等中。
CPU 931、ROM 932和RAM 933与总线941相连,总线941又与输入/输出接口934相连。CPU、存储器和存储装置的数量仅仅是示例性的,本领域技术人员将会理解,可以相应地调整和配置计算机930,以满足当其用作基站和用户设备时出现的特定要求。
在输入/输出接口934处,连接了几个组件:输入935、输出936、存储器937、通信接口938和驱动器939,介质940(光盘、数字视频光盘、压缩闪存等)可以插入其中。
输入935可以是指针装置(鼠标、图形表等)、键盘、麦克风、相机、触摸屏等。
输出936可以具有显示器(液晶显示器、阴极射线管显示器、发光二极管显示器等)、扬声器等。
存储器937可以具有硬盘、固态驱动器等。
通信接口938可以适用于例如经由局域网(LAN)、无线局域网(WLAN)、移动电信系统(GSM、UMTS、LTE等)、蓝牙、红外线等进行通信。
应当注意,以上描述仅涉及计算机930的示例配置。替代配置可以用额外的或其他传感器、存储装置、接口等来实施方式。例如,通信接口938可以支持除了提到的WLAN、GSM、UMTS和LTE之外的其他无线接入技术。
在一些实施方式中,当在计算机和/或处理器和/或电路上执行时,本文描述的方法还被实施为使计算机和/或处理器和/或电路执行该方法的计算机程序。在一些实施方式中,还提供了在其中存储计算机程序产品的非暂时性计算机可读记录介质,当该计算机程序产品由处理器/电路(例如,上述处理器/电路)执行时,促使执行本文描述的方法。
应当认识到,实施方式描述了具有方法步骤的示例性顺序的方法。然而,仅出于说明的目的给出方法步骤的特定顺序,不应被解释为具有约束力。
还应当注意,将图20的控制或电路划分为单元931至940仅仅是为了说明的目的,并且本公开不限于特定单元中的任何特定功能划分。例如,至少部分电路可以由相应的编程处理器、现场可编程门阵列(FPGA)、专用电路等实施方式。
如果没有另外规定,本说明书中描述的和所附权利要求中要求的所有单元和实体可以被实施为集成电路逻辑,例如,在芯片上实施方式,并且如果没有另外规定,由这些单元和实体提供的功能可以由软件实施方式。
就至少部分地使用软件控制的数据处理设备来实施方式上述公开的实施方式而言,应当理解,提供这种软件控制的计算机程序和提供这种计算机程序的传输、存储或其他介质被设想为本公开的各方面。
注意,本技术也可以如下所述进行配置:
(1)一种方法,包括基于音频文件的双窗口化分析(603)来确定音频文件(50)的包络(59、63、64)。
(2)根据(1)所述的方法,其中,所述双窗口化分析(603)包括对所述源音频文件进行窗口化(500),以获得包含音频的窗口序列(51),并且对所述窗口序列(51)的每个窗口进行窗口化(501),以获得每个窗口(51)的相应子窗口序列(52)。
(3)根据(2)所述的方法,其中,从窗口(51)的序列确定包络(59、63、64)包括丢弃响度低于阈值(53)的子窗口(52),并通过剩余音频评估每个窗口(51)的响度。
(4)根据(2)所述的方法,其中,从窗口(51)的序列确定包络(56)包括为每个窗口确定每个窗口(51)中子窗口(52)的响度的加权平均值,其中,系数是子窗口(52)的响度值。
(5)根据(1)至(4)中任一项所述的方法,还包括根据源音频文件(31)确定响度曲线(59)。
(6)根据(1)至(5)中任一项所述的方法,其中,所述方法应用于包络评估框架中。
(7)根据(1)至(6)中任一项所述的方法,其中,所述方法应用于包络跟随器框架中。
(8)根据(1)至(7)中任一项所述的方法,其中,所述方法应用于自动音频混合框架中。
(9)根据(1)至(7)中任一项所述的方法,还包括确定每个窗口的锚定时间(57),并且将输出包络(91)确定为在相应锚定时间(57)设置的响度值(58)的序列。
(10)根据(9)所述的方法,其中,锚定时间(57)被评估为子窗口的平均位置。
(11)根据(9)所述的方法,其中,锚定时间(57)被评估为子窗口的加权平均位置,所述权重是以线性标度表示的子窗口的响度。
(12)一种电子装置,包括被配置为基于音频文件的双窗口化分析(603)来确定音频文件(50)的包络(59、63、64)的电路。
(13)一种包括指令的计算机程序,所述指令在处理器上执行时使得处理器基于音频文件的双窗口化分析来确定音频文件的包络。
(14)一种存储指令的计算机可读介质,所述指令在处理器上执行时使得处理器基于音频文件的双窗口化分析来确定音频文件的包络。
(15)一种电子装置,包括被配置为执行根据(1)至(11)中任一项所述的方法的电路。
(16)一种包括指令的计算机程序,所述指令在处理器上执行时使得处理器执行根据(1)至(11)中任一项所述的方法。
(17)一种存储指令的计算机可读介质,所述指令在处理器上执行时使得处理器执行根据(1)至(11)中任一项所述的方法。
参考文献
[EBU 2011]EBU-TECH 3341 Loudness metering:‘EBU mode’metering tosupplement loudness normalisation in accordance with EBU R 128.”,EBU/UER,August 2011。

Claims (13)

1.一种方法,包括基于音频文件的双窗口化分析来确定音频文件的包络。
2.根据权利要求1所述的方法,其中,所述双窗口化分析包括对源音频文件进行窗口化,以获得包含音频的窗口序列,并且对所述窗口序列的每个窗口进行窗口化,以获得所述每个窗口的相应子窗口序列。
3.根据权利要求2所述的方法,其中,从所述窗口序列确定所述包络包括:丢弃响度低于阈值的子窗口,并通过剩余音频来评估所述每个窗口的响度。
4.根据权利要求2所述的方法,其中,从所述窗口序列确定所述包络包括:为所述每个窗口确定在所述每个窗口中的所述子窗口的响度的加权平均值,其中,系数是所述子窗口的响度值。
5.根据权利要求1所述的方法,还包括根据源音频文件确定响度曲线。
6.根据权利要求1所述的方法,其中,所述方法被应用于包络评估框架中。
7.根据权利要求1所述的方法,其中,所述方法被应用于包络跟随器框架中。
8.根据权利要求1所述的方法,其中,所述方法被应用于自动音频混合框架中。
9.根据权利要求1所述的方法,还包括:确定每个窗口的锚定时间,并且将输出包络确定为在相应锚定时间设置的响度值序列。
10.根据权利要求9所述的方法,其中,锚定时间被评估为子窗口的平均位置。
11.根据权利要求9所述的方法,其中,锚定时间被评估为子窗口的加权平均位置,其中,权重是以线性标度表示的子窗口的响度。
12.一种电子装置,包括电路,所述电路被配置为基于音频文件的双窗口化分析来确定音频文件的包络。
13.一种包括指令的计算机程序,当在处理器上执行时,所述指令使得所述处理器基于音频文件的双窗口化分析来确定音频文件的包络。
CN201880064935.2A 2017-10-06 2018-10-05 基于子窗口序列内的rms功率的音频文件包络 Active CN111183476B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17195346.6 2017-10-06
EP17195346 2017-10-06
PCT/EP2018/077228 WO2019068915A1 (en) 2017-10-06 2018-10-05 AUDIO FILE ENVELOPE BASED ON RMS POWER IN SUB-WINDOW SEQUENCES

Publications (2)

Publication Number Publication Date
CN111183476A true CN111183476A (zh) 2020-05-19
CN111183476B CN111183476B (zh) 2024-03-22

Family

ID=60185999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880064935.2A Active CN111183476B (zh) 2017-10-06 2018-10-05 基于子窗口序列内的rms功率的音频文件包络

Country Status (4)

Country Link
US (1) US11450339B2 (zh)
EP (1) EP3692521B1 (zh)
CN (1) CN111183476B (zh)
WO (1) WO2019068915A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220157330A1 (en) * 2019-03-29 2022-05-19 Sony Group Corporation Signal processing

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2636163A1 (fr) * 1988-09-02 1990-03-09 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
EP0564385A1 (fr) * 1992-04-01 1993-10-06 France Telecom Procédé de correction de glissements non contrôlés de séquences de données portées par des liaisons numériques et dispositif pour la mise en oeuvre de ce procédé
CN1451155A (zh) * 1999-09-22 2003-10-22 科恩格森特系统股份有限公司 多模式语音编码器
EP1465192A1 (en) * 2003-04-04 2004-10-06 Thomson Licensing S.A. Method for detection of acoustic events in audio signals
US20060100868A1 (en) * 2003-02-21 2006-05-11 Hetherington Phillip A Minimization of transient noises in a voice signal
CN1918461A (zh) * 2003-12-29 2007-02-21 诺基亚公司 在存在背景噪声时用于语音增强的方法和设备
CA2701439A1 (en) * 2009-04-29 2010-10-29 Qnx Software Systems (Wavemakers), Inc. Measuring double talk performance
WO2012063103A1 (en) * 2010-11-12 2012-05-18 Nokia Corporation An Audio Processing Apparatus
CN102610232A (zh) * 2012-01-10 2012-07-25 天津大学 一种自适应音频感知响度调整方法
US20130041658A1 (en) * 2011-08-08 2013-02-14 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US20130272542A1 (en) * 2012-04-12 2013-10-17 Srs Labs, Inc. System for adjusting loudness of audio signals in real time
WO2014011959A2 (en) * 2012-07-12 2014-01-16 Dts, Inc. Loudness control with noise detection and loudness drop detection
WO2015035492A1 (en) * 2013-09-13 2015-03-19 Mixgenius Inc. System and method for performing automatic multi-track audio mixing
US20160078875A1 (en) * 2013-02-20 2016-03-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
US9431982B1 (en) * 2015-03-30 2016-08-30 Amazon Technologies, Inc. Loudness learning and balancing system

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US7302396B1 (en) * 1999-04-27 2007-11-27 Realnetworks, Inc. System and method for cross-fading between audio streams
WO2007127023A1 (en) * 2006-04-27 2007-11-08 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
JP4836290B2 (ja) * 2007-03-20 2011-12-14 富士通株式会社 音声認識システム、音声認識プログラムおよび音声認識方法
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
EP2362376A3 (en) * 2010-02-26 2011-11-02 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using envelope shaping

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2636163A1 (fr) * 1988-09-02 1990-03-09 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
EP0564385A1 (fr) * 1992-04-01 1993-10-06 France Telecom Procédé de correction de glissements non contrôlés de séquences de données portées par des liaisons numériques et dispositif pour la mise en oeuvre de ce procédé
CN1451155A (zh) * 1999-09-22 2003-10-22 科恩格森特系统股份有限公司 多模式语音编码器
US20060100868A1 (en) * 2003-02-21 2006-05-11 Hetherington Phillip A Minimization of transient noises in a voice signal
EP1465192A1 (en) * 2003-04-04 2004-10-06 Thomson Licensing S.A. Method for detection of acoustic events in audio signals
CN1918461A (zh) * 2003-12-29 2007-02-21 诺基亚公司 在存在背景噪声时用于语音增强的方法和设备
CA2701439A1 (en) * 2009-04-29 2010-10-29 Qnx Software Systems (Wavemakers), Inc. Measuring double talk performance
WO2012063103A1 (en) * 2010-11-12 2012-05-18 Nokia Corporation An Audio Processing Apparatus
US20130041658A1 (en) * 2011-08-08 2013-02-14 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
CN102610232A (zh) * 2012-01-10 2012-07-25 天津大学 一种自适应音频感知响度调整方法
US20130272542A1 (en) * 2012-04-12 2013-10-17 Srs Labs, Inc. System for adjusting loudness of audio signals in real time
WO2014011959A2 (en) * 2012-07-12 2014-01-16 Dts, Inc. Loudness control with noise detection and loudness drop detection
US20160078875A1 (en) * 2013-02-20 2016-03-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
WO2015035492A1 (en) * 2013-09-13 2015-03-19 Mixgenius Inc. System and method for performing automatic multi-track audio mixing
US9431982B1 (en) * 2015-03-30 2016-08-30 Amazon Technologies, Inc. Loudness learning and balancing system

Also Published As

Publication number Publication date
US11450339B2 (en) 2022-09-20
EP3692521A1 (en) 2020-08-12
EP3692521B1 (en) 2022-06-01
WO2019068915A1 (en) 2019-04-11
CN111183476B (zh) 2024-03-22
US20200265862A1 (en) 2020-08-20

Similar Documents

Publication Publication Date Title
CN109831733B (zh) 音频播放性能的测试方法、装置、设备和存储介质
JP7064521B2 (ja) スピーカーの検査方法、装置、電子機器及び記憶媒体
US20200058320A1 (en) Voice activity detection method, relevant apparatus and device
Deruty et al. About dynamic processing in mainstream music
US8271113B2 (en) Audio testing system and method
US8965774B2 (en) Automatic detection of audio compression parameters
US9954507B2 (en) Using averaged audio measurements to automatically set audio compressor threshold levels
CN101202087B (zh) 音频录音测试装置及方法
US20070121966A1 (en) Volume normalization device
US20110060432A1 (en) Method for testing audio function of computer
US20070129951A1 (en) System and method for testing a motherboard audio module
US8639369B1 (en) Audio testing of media player
CN111183476B (zh) 基于子窗口序列内的rms功率的音频文件包络
US8686881B1 (en) Efficient estimation of data compression ratios
EP3688756B1 (en) Method and electronic device
US20140060288A1 (en) Testing device and storage medium with testing function, and testing method
US20220130411A1 (en) Defect-detecting device and defect-detecting method for an audio device
TW202043785A (zh) 測試音訊的產生方法及分析方法
WO2019063547A1 (en) METHOD AND ELECTRONIC DEVICE FOR ATTENUATION / AMPLIFICATION OF FORMER
US20210337332A1 (en) Mobile Aware Intermodal Assistant
CN115996350A (zh) 电子设备音频测试方法及测试机
CN114678038A (zh) 音频噪声检测方法、计算机设备和计算机程序产品
CN114157254A (zh) 音频处理方法和音频处理装置
US11269951B2 (en) Indexing variable bit stream audio formats
CN117255299A (zh) 一种音频设备的音频流格式测试方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant