CN112640301A - 具有基于场景切换分析器引导的失真可听度模型的动态阈值的减少失真的多带压缩器 - Google Patents
具有基于场景切换分析器引导的失真可听度模型的动态阈值的减少失真的多带压缩器 Download PDFInfo
- Publication number
- CN112640301A CN112640301A CN201980057612.5A CN201980057612A CN112640301A CN 112640301 A CN112640301 A CN 112640301A CN 201980057612 A CN201980057612 A CN 201980057612A CN 112640301 A CN112640301 A CN 112640301A
- Authority
- CN
- China
- Prior art keywords
- scene cut
- signal
- frequency band
- input audio
- occurred
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009467 reduction Effects 0.000 title description 3
- 230000005236 sound signal Effects 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000009499 grossing Methods 0.000 claims abstract description 38
- 230000004044 response Effects 0.000 claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims description 39
- 230000008859 change Effects 0.000 claims description 14
- 230000006835 compression Effects 0.000 claims description 8
- 238000007906 compression Methods 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims 1
- 238000004590 computer program Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 206010021403 Illusion Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000005404 monopole Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/02—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
- H03G9/025—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/02—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
- H03G9/12—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices
- H03G9/18—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices for tone control and volume expansion or compression
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请案涉及响应于输入音频信号而动态地调整压缩器的阈值的方法、系统及计算机程序产品。场景切换分析器接收具有多个频带分量的输入音频信号。所述场景切换分析器确定所述输入音频信号中是否已发生场景切换。处理所述输入音频信号的所述频带分量。响应于确定尚未发生场景切换,失真可听度系统将缓慢平滑应用到所述频带分量的压缩器阈值。响应于确定已发生场景切换,所述失真可听度系统将快速平滑应用到所述频带分量的所述压缩器阈值或不将平滑应用到所述频带分量的所述压缩器阈值。
Description
相关申请案的交叉引用
本申请案要求2018年9月28日提交的第PCT/CN2018/108287号国际专利申请案、2019年1月29日提交的第62/798,149号美国临时专利申请案及2019年2月4日提交的第19155298.3号欧洲专利申请案的优先权益,所有这些专利申请案均以引用的方式全部并入本文中。
技术领域
本申请公开大体上涉及音频呈现,且特定来说,涉及呈现期间的失真减少。
背景技术
许多音频重放系统含有放大器及扬声器,其具有有限的输出能力。手机及平板计算机是两个极端的例子,它们的设计受到装置的尺寸及功率要求的严格限制。在此类系统中,随着重放电平的增加,音频失真是很常见的,且这种失真的特性通常是频率相关的。因此,通常的做法是在重放之前将多带压缩应用到音频信号以减少失真并尝试在重放装置上最大化重放电平。为信号的每一频带指定失真阈值,且压缩器将独立增益应用到每一频带以确保每一频带中的信号电平不超过对应的失真阈值。这种压缩器的一个问题是,为了减少失真而应用的增益可能与内容相关。为了消除窄带信号的感知失真而设置的阈值通常大于宽带信号所需的阈值,这是因为宽带信号本身可显著地掩盖其诱发的一些失真,而窄带信号在掩盖其诱发的失真方面可能不太有效。为了解决这个问题,申请人提出了多带压缩器,所述压缩器被增强了失真可听度模型,所述模型给出了可听度测量,然后利用所述可听度测量来动态地修改压缩器的阈值,以在最小感知失真的情况下达到最大重放电平,如图1所说明。
发明内容
本申请案介绍一种场景切换分析器,以确定输入音频信号中是否已发生场景切换,从而引导失真可听度模型。此场景切换分析器保证了压缩阈值的快速改变只发生在场景切换的同一时刻,从而提供更自然的体验。通常,当一段内容包括窄带信号,而下一段包括宽带信号,或一段内容包括宽带信号,而下一段包括窄带信号时,会发生场景切换。例如,如果歌唱声在钢琴独奏之后进入,那么将其视为场景切换,因此压缩器阈值可能会随着失真可听度测量的改变而迅速改变。当一段内容包括窄带信号,而播放列表中的下一段内容包括宽带信号,或一段内容包括宽带信号,而播放列表中的下一段内容包括窄带信号时,也会发生场景切换。例如,低质量窄带用户生成内容(UGC)之后是专业宽带内容。
因此,当在输入音频信号中没有场景切换时,应用动态压缩器阈值的缓慢平滑,使得它们缓慢地改变。这可通过使用用于平滑的单极平滑器的大攻击时间常数及/或释放时间常数来获得。当检测到场景切换时,通过使用平滑器的较小攻击时间常数及/或释放时间常数,应用快速平滑以允许压缩器阈值的快速改变。
在一些实施方案中,一种场景切换分析器接收具有多个频带分量的输入音频信号。所述场景切换分析器确定所述输入音频信号中是否已发生场景切换。处理所述输入音频信号的所述频带分量。响应于确定尚未发生场景切换,失真可听度模型将缓慢平滑应用到所述频带分量的压缩器阈值。响应于确定已发生场景切换,所述失真可听度模型将快速平滑应用到所述频带分量的所述压缩器阈值或不将平滑应用到所述频带分量的所述压缩器阈值。
在一些实施方案中,所述场景切换包含宽带信号与窄带信号之间的切换,或窄带信号与宽带信号之间的切换。所述宽带信号对应于歌唱声或专业电影内容,而所述窄带信号对应于器乐声,例如钢琴声或低质量窄带UGC内容。
在一些实施方案中,确定所述输入音频信号中是否已发生场景切换是基于输入音频信号的所有频带分量。例如,确定所述输入音频信号中是否已发生场景切换是基于通过使每一频带分量信号平滑而进行的信号功率谱的质心的时变估计或信号功率谱的截止带的估计。具体地说,所述场景切换分析器通过执行包含以下各者的操作来计算所述信号功率谱质心的所述时变估计:通过使每一频带分量信号平滑来估计信号功率谱,及使用所述估计的信号功率谱确定所述信号功率谱的所述质心。确定所述输入音频信号中是否已发生所述场景切换可包含以下操作:使所述质心平滑;确定所述质心与所述平滑质心之间的差;及基于所述差是否满足阈值来确定是否已发生所述场景切换。另外,所述场景切换分析器至少通过执行包含以下各者的操作来计算所述信号功率谱的所述截止带的所述估计:通过使每一频带分量信号平滑来估计信号功率谱,及使用所述估计的信号功率谱确定所述信号功率谱的所述截止带。确定所述输入音频信号中是否已发生所述场景切换可包含以下操作:使所述截止带平滑;确定所述截止带与所述平滑截止带之间的差;及基于所述差是否满足阈值来确定是否已发生所述场景切换。
在一些实施方案中,所述场景切换分析器向所述失真可听度模型提供一或多个控制信号,以在确定是否已发生所述场景切换之后将所述平滑引导到所述输入音频信号的所述频带分量的压缩器阈值。另外,在一些实施方案中,一或多个控制信号引导包含攻击时间常数及/或释放时间常数的时间常数的改变。在一些实施方案中,一或多个控制信号的函数被映射到范围[0,1],所述函数可为阶跃函数或S型函数。
在一些实施方案中,一种用于确定输入音频信号中是否已发生场景切换的场景切换分析器包含一或多个计算装置,所述计算装置可操作以致使执行一些或所有上述操作。
在一些实施方案中,一种计算机可读媒体存储指令,所述指令可由一或多个处理器执行以致使执行一些或所有上述操作。
附图说明
所包含的图用于说明目的,且仅用于提供所公开的发明方法、系统及计算机可读媒体的可能的及操作的实例。这些图不以任何方式限制本领域技术人员在不脱离所公开的实施方案的精神及范围的情况下可在形式及细节上作出的任何改变。
图1展示先前压缩器的示意图,所述压缩器并入有失真可听度模型(DAM)以用于响应于输入音频信号而动态地调整压缩器的阈值。
图2展示根据一些实施方案的压缩器100的示意图,压缩器100并入有场景切换分析器(SSA)以引导失真可听度模型(DAM)响应于输入音频信号而动态地调整压缩器的阈值。
图3展示根据一些实施方案执行的由本文公开的压缩器100进行的音频信号处理的方法200的流程图。
图4展示根据一些实施方案执行的基于确定输入音频信号中是否已发生场景切换来响应于输入音频信号而动态地调整压缩器的阈值的方法300的实例。
图5展示根据一些实施方案执行的基于确定输入音频信号中是否已发生场景切换来响应于输入音频信号而动态地调整压缩器的阈值的方法400的另一实例。
图6A及6B展示根据一些实施方案的一或多个控制信号的函数的两个实例,即分别为阶跃函数或S型函数。
具体实施方式
如上文所提及,现在使用被增强了失真可听度模型的多带压缩器来给出可听度测量,然后利用所述可听度测量来动态地修改压缩器的阈值以在最小感知失真的情况下获得最大重放电平。根据多个频带分量确定多个动态(时变)阈值,其中每一时变阈值对应于相应的频带分量。然后,压缩器对每一频带分量执行压缩操作,其中压缩具有对应的时变阈值以针对每一频带分量产生增益。然而,这种失真可听度模型增强的压缩器的问题是,当应用于尺寸受到严格限制的移动装置时,窄带信号的感知失真难以消除,因此为窄带信号设置的阈值通常远低于宽带信号所需的阈值。那意味着失真可听度测量的微小改变将导致大的阈值改变,从而导致相当大的输出音量改变。当这种快速而显著的改变发生在意想不到的时刻时,会对聆听体验产生负面影响。
为了解决此问题,本申请案公开了并入有场景切换分析器的技术,所述场景切换分析器经配置以引导失真可听度模型来使动态(时变)阈值平滑,所述动态(时变)阈值可由多带压缩器应用。如下公开实施所述技术以用于响应于输入音频信号而动态地调整压缩器的阈值的方法、系统及计算机可读媒体的一些实例。
图2描绘根据一些实施方案的多带压缩器100,多带压缩器100并入有场景切换分析器(SSA)以引导失真可听度模型(DAM)响应于输入音频信号而动态地调整压缩器的阈值。在图2中,滤波器组104形式的滤波模块接收输入信号x[n]。滤波器组104经配置以对输入信号x[n]进行滤波以将输入信号x[n]分离为数个频带分量x1[n]到xB[n]。在一些实施方案中,滤波器组104经配置为实施为B个带通滤波器的多带滤波器,其中每一带通滤波器对应于相应的频带分量。例如,每一频带b的输出可经计算为输入信号x[n]与带通滤波器响应hb[n]的卷积,如等式(1)中所表示:
xb[n]=hb[n]*x[n],b=1…B (1)
在图2中,场景切换分析器108接收从滤波器组104输出的频带分量x1[n]到xB[n];且基于其分析,场景切换分析器108产生一或多个控制信号Ck[n]。在一些实施方案中,Ck[n]潜在地经计算为跨频带b=1…B的所有频带信号xb[n]的函数,如等式(2)中所表示:
Ck[n]=SSA({xi[n]|i=1...B}) (2)
接下来,将一或多个控制信号Ck[n]馈入到失真可听度模型112中以引导其基于所有频带分量x1[n]到xB[n]及跨频带b=1…B的固定阈值Lb来计算每一时变阈值Db[n],如等式(3)中所表示:
Db[n]=DAM({xi[n],Li,Ck[n]|i=1...B}) (3)
其中,在一些实施方案中,场景切换分析器108可仅产生一个控制信号来引导计算所有频带分量x1[n]到xB[n]的所有时变阈值Db[n];在一些其它实施方案中,场景切换分析器108可产生多个控制信号,而不是仅仅一个控制信号,以引导计算所有频带分量x1[n]到xB[n]的所有时变阈值Db[n],例如,控制信号的数量对应于频带分量的数量。接下来,将每一频带分量与限制阈值Db[n]一起传递到压缩函数116中,以产生时变增益gb[n],如等式(4)中所表示:
gb[n]=CF(xb[n],Db[n]) (4)
最后,通过将所有频带分量x1[n]到xB[n]的延迟版本求和并与它们对应的增益g1[n]到gB[n]相乘来计算经处理的输出信号y[n]。在图2中,多个单元120经配置以将增益与延迟频带分量相乘以产生经处理的频带分量y1[n]到yB[n],其在求和单元124处求和以产生输出信号y[n]。例如,延迟d可经设计以考虑与增益的计算相关联的任何处理延迟。等式(5)展示经处理的信号y[n]的生成的表示:
图3展示根据一些实施方案执行的由本文公开的压缩器100进行的音频信号处理的方法200的流程图。图3是用图2的实例来描述。在图3的204处,如上文所阐释,接收频带分量x1[n]到xB[n]作为到SSA 108的输入。在208处,SSA 108基于所有频带分量x1[n]到xB[n]产生一或多个控制信号Ck[n]。在212处,DAM 112根据控制信号Ck[n]基于所有频带分量x1[n]到xB[n]及跨频带的固定阈值来计算时变阈值Db[n]。在216处,每一压缩函数116经配置以使用对应的时变阈值Db[n]对对应的频带分量x1[n]到xB[n]执行压缩操作,以产生增益g1[n]到gB[n]。在220处,例如,使用乘法器单元120,将每一增益gb[n]应用到每一对应频带分量xb[n]的延迟版本,以产生经处理的频带分量y1[n]到yB[n]。在224处,将经处理的频带分量y1[n]到yB[n]在求和单元124处求和以产生输出信号y[n]。
因此,SSA不单由DAM决定,还将采取频带分量x1[n]到xB[n],并基于其分析而给出一或多个控制信号Ck[n]来控制DAM,以将平滑引导到Db[n]。例如,Ck[n]引导时间常数的改变,它可在场景切换期间给出较小时间常数,以允许快速改变,并在没有场景切换时给出较大时间常数,以使波动平滑,这是因为先前压缩器施加的Db[n]的典型快速攻击/缓慢释放单极平滑器的攻击及释放时间常数是固定的。
图4展示根据一些实施方案执行的基于确定输入音频信号中是否已发生场景切换来响应于输入音频信号而动态地调整压缩器的阈值的方法300的实例。优选地,已发现,信号功率谱的质心可为场景切换情况的良好指标,尤其是当歌唱声在钢琴独奏之后进入时,或反之亦然。因此,在此示范性实施例中,场景切换分析器108通过计算信号功率谱质心的时变估计而操作。在304处,可通过用快速攻击/缓慢释放单极平滑器使每一频带信号(即每一频带分量信号xb[n])平滑来估计信号功率谱sb[n],如等式(6)中所表示:
其中αA是攻击时间常数,且αR是快速攻击/缓慢释放单极平滑器的释放时间常数。然后,用dB表示此信号功率谱sb[n],在等式(7)中:
Sb[n]=10log10(sb[n]) (7)
接下来,在308处,由估计的信号功率谱确定信号功率谱的质心C[n],如等式(8)中所表示:
其中fb是频带的中心频率,且优选地,选择固定偏移量130dB,使得通常大于-130dB的所有潜在可听信号将被计数到信号功率谱中。然后,在312处,也将用快速攻击/缓慢释放单极平滑器使信号功率谱的质心平滑,以获得平滑版本的质心Cs[n],如等式(9)中所表示:
接下来,在316处,确定质心C[n]与平滑质心Cs[n]之间的差,然后与阈值进行比较,优选地,选择500Hz的阈值,其有效地指示场景切换的发生,以产生一或多个控制信号Ck[n],其可被映射到范围[0,1],如等式(10)中所表示:
Ck[n]=f(C[n]-Cs[n]) (10)
在320处,Ck[n]引导例如攻击时间常数αA的时间常数的改变,如等式(11)中所表示:
αA=Ck[n]αAfast+(1-Ck[n])αAslow (11)
其中可将αAfast及αAslow设置为多个不同的值,例如,可将其设置为每一频带的稍微不同的值或相同的值;其中,优选地,将αAfast设置为αAslow的一半或更小,以在急剧的场景切换期间产生潜在更自然的聆听体验。
接下来,在324处,应用时间常数(例如,等式(11)中的攻击时间常数αA)来将平滑引导到Db[n],如分别在等式(12)及(13)中所表示:
其中db[n]是在DAM中生成的非平滑的每带限制阈值。在一些实施方案中,等式(12)说明对Db[n]的常规快速攻击/缓慢释放平滑;另外,如果需要最快速的改变,那么甚至可将αA及αAfast设置为零;在这种情况下,当在db[n]的攻击期间检测到场景切换时,引导DAM不应用平滑,如等式(13)中所表示。
除了或代替利用图4所表示的质心,还可利用输入信号频谱的其它特性来辅助场景切换的检测。图5展示根据一些实施方案执行的基于确定输入音频信号中是否已发生场景切换来响应于输入音频信号而动态地调整压缩器的阈值的方法400的另一实例。在此示范性实施例中,信号功率谱的截止带可为场景切换情况的替代指标,优选地,截止带可为引入以不同带宽为特征的乐器的良好指标。在404处,可通过用快速攻击/缓慢释放单极平滑器使每一频带信号平滑来估计信号功率谱,然后用dB表示,如等式(6)中类似地表示。接下来,在408处,由估计的信号功率谱确定信号功率谱的截止带bcutoff[n],如等式(14)中所表示:
然后,在412处,也将用快速攻击/缓慢释放单极平滑器使信号功率谱的截止带平滑以获得平滑版本的截止带bcutoff[n],如等式(9)中类似地表示。接下来,在416处,确定截止带与平滑截止带之间的差,然后与阈值进行比较以产生一或多个控制信号Ck[n],如等式(10)中类似地表示。在420处,Ck[n]引导时间常数的改变,如等式(11)中类似地表示。接下来,在424处,可应用时间常数来将平滑引导到Db[n],如等式(12)及(13)中类似地表示。
图6A及6B展示根据一些实施方案的一或多个控制信号Ck[n]的函数的两个实例,即分别是阶跃函数及S型函数。通常,控制信号Ck[n]的函数f(·)可被映射到范围[0,1]。在如图6A所说明的一个实施例中,映射函数f(·)将是非常简单的实例,即阶跃函数,如等式(15)中所表示:
其中xTh是阈值。另外,在如图6B所说明的另一优选实施例中,映射函数f(·)将是如等式(16)中所表示的S型函数:
其中xTh是阈值,且a是比例因子。图6B进一步展示S型函数的三个特定实施例,其中比例因子分别设置为1、2及10。使用S型函数可潜在地有助于跨具有不同字长的浮点及定点平台生成更一致的音频输出。
代替引导攻击时间常数,一种替代方法是,通过遵循上述从304/404到320/420的生成步骤,可产生一或多个控制信号Ck[n]来引导其它参数,例如释放时间常数αR等;其中,在从304/404到320/420的步骤中使用的一些参数可改变,例如通过改变312/412处的信号功率谱Sb[n]的所用时间常数来改变平滑方案,或改变316/416处的映射函数等。
本文描述的场景切换分析器的技术可由一或多个计算装置实施。例如,专用计算装置的控制器可硬接线以执行所公开的操作或致使执行所公开的操作,且可包含数字电子电路,例如一或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA),经持续编程以执行操作或致使执行操作。在一些实施方案中,定制硬接线逻辑、ASIC及/或FPGA与定制编程相结合以实现这些技术。
在一些其它实施方案中,通用计算装置可包含并入有中央处理单元(CPU)的控制器,所述中央处理单元经编程以使得根据固件、存储器、其它存储装置或其组合中的程序指令来执行所公开的操作中的一或多个。
本文中使用的术语“计算机可读存储媒体”是指存储指令及/或数据的任何媒体,这些指令及/或数据使计算机或机器类型以特定方式操作。本文所描述的模型、分析器及操作中的任何一者可经实施为或导致由使用合适的计算机语言的控制器的处理器执行的软件代码来实施。软件代码可作为一系列指令存储在计算机可读媒体上以供存储。合适的计算机可读存储媒体的实例包含随机存取存储器(RAM)、只读存储器(ROM)、磁性媒体、光学媒体、固态驱动器、快闪存储器及任何其它存储器芯片或盒带。计算机可读存储媒体可为这种存储装置的任意组合。任何此类计算机可读存储媒体可驻留在单个计算装置或整个计算机系统上或其内,且可为系统或网络内的其它计算机可读存储媒体之一。
虽然本申请案的主题已参照其实施方案被具体地展示并描述,但本领域技术人员将理解,在不脱离本发明的精神或范围的情况下,可对所公开的实施方式的形式及细节进行改变。在附图中说明其中一些实施方案的实例,并阐述特定细节以提供对其的透彻理解。应注意,可在没有这些特定细节的情况下实践实施方案。另外,为了提高清晰度,可能没有详细描述众所周知的特征。最后,尽管本文参考一些实施方案讨论了优点,但应理解,范围不应受到这些优点的限制。相反,应参考所附权利要求来确定范围。
可从以下列举的实例实施例(EEE)来理解本发明的各个方面:
EEE1.一种响应于输入音频信号而动态地调整压缩器的阈值的方法,所述方法包括:
由场景切换分析器接收具有多个频带分量的输入音频信号;
由场景切换分析器确定所述输入音频信号中是否已发生场景切换;
处理所述输入音频信号的所述频带分量,其包含:
响应于确定尚未发生场景切换,将缓慢平滑应用到所述频带分量的压缩器阈值;及
响应于确定已发生场景切换,将快速平滑应用到所述频带分量的所述压缩器阈值或不将平滑应用到所述频带分量的所述压缩器阈值。
EEE2.根据实例实施例1所述的方法,其中所述场景切换包含宽带信号与窄带信号之间的切换,或窄带信号与宽带信号之间的切换。
EEE3.根据实例实施例2所述的方法,其中所述宽带信号对应于歌唱声,且所述窄带信号对应于器乐声。
EEE4.根据实例实施例3所述的方法,其中所述器乐声是钢琴声。
EEE5.根据实例实施例2所述的方法,其中所述宽带信号对应于专业电影内容,且所述窄带信号对应于低质量窄带UGC内容。
EEE6.根据实例实施例1到5中任一实例实施例所述的方法,其中确定所述输入音频信号中是否已发生场景切换是基于输入音频信号的所有频带分量。
EEE7.根据实例实施例6所述的方法,其中确定所述输入音频信号中是否已发生场景切换是基于信号功率谱质心的时变估计。
EEE8.根据实例实施例7所述的方法,其中所述场景切换分析器至少通过执行包括以下各者的操作来计算所述信号功率谱质心的所述时变估计:
通过使每一频带分量信号平滑来估计信号功率谱;及
使用所述估计的信号功率谱确定所述信号功率谱的所述质心。
EEE9.根据实例实施例8所述的方法,其中确定所述输入音频信号中是否已发生所述场景切换包括:
使所述质心平滑;
确定所述质心与所述平滑质心之间的差;及
基于所述差是否满足阈值来确定是否已发生所述场景切换。
EEE10.根据实例实施例6到9中任一实例实施例所述的方法,其中确定所述输入音频信号中是否已发生场景切换是基于所述信号功率谱的截止带的估计。
EEE11.根据实例实施例10所述的方法,其中所述场景切换分析器至少通过执行包括以下各者的操作来计算所述信号功率谱的所述截止带的所述估计:
通过使每一频带分量信号平滑来估计信号功率谱;及
使用所述估计的信号功率谱确定所述信号功率谱的所述截止带。
EEE12.根据实例实施例11所述的方法,其中确定所述输入音频信号中是否已发生所述场景切换包括:
使所述截止带平滑;
确定所述截止带与所述平滑截止带之间的差;及
基于所述差是否满足阈值来确定是否已发生所述场景切换。
EEE13.根据上述实例实施例中任一实例实施例所述的方法,其中所述场景切换分析器向失真可听度模型提供一或多个控制信号,以在确定是否已发生所述场景切换之后将所述平滑引导到所述输入音频信号的所述频带分量的压缩器阈值。
EEE14.根据实例实施例13所述的方法,其中一或多个控制信号引导包含攻击时间常数及/或释放时间常数的时间常数的改变。
EEE15.根据实例实施例13或14所述的方法,其中一或多个控制信号的函数被映射到范围[0,1]。
EEE16.根据实例实施例15所述的方法,其中所述映射函数是阶跃函数或S型函数。
EEE17.一种场景切换分析器,其包括:
一或多个计算装置;及
计算机可读存储媒体,其存储指令,所述指令在由一或多个处理器执行时使所述一或多个处理器执行实例实施例1到16中任一实例实施例的操作。
EEE18.一种计算机可读存储媒体,其存储指令,所述指令在由一或多个计算装置执行时使所述一或多个计算装置执行实例实施例1到16中任一实例实施例的操作。
EEE19.一种计算机程序产品,其具有指令,所述指令在由计算装置或系统执行时使所述计算装置或系统执行根据实例实施例1到16中任一实例实施例所述的方法。
Claims (13)
1.一种响应于输入音频信号而动态地调整压缩器的阈值的方法,所述方法包括:
由场景切换分析器接收具有多个频带分量的输入音频信号;
由所述场景切换分析器确定所述输入音频信号中是否已发生场景切换,其中当所述输入音频信号从为宽带信号转变到为窄带信号或从为窄带信号转变到为宽带信号时,确定已发生场景切换;
由所述场景切换分析器向失真可听度模型提供一或多个控制信号,以通过引导平滑器的攻击时间常数及/或释放时间常数的改变而将平滑引导到所述频带分量的压缩器阈值;及
处理所述输入音频信号的所述频带分量,其包含:
响应于确定尚未发生场景切换,所述控制信号指示使用大时间常数,由此将缓慢平滑应用到所述频带分量的压缩器阈值;及
响应于确定已发生场景切换,所述一或多个控制信号指示使用小或零值时间常数,由此将快速平滑应用到所述频带分量的所述压缩器阈值或不将平滑应用到所述频带分量的所述压缩器阈值。
2.根据权利要求1所述的方法,其中所述宽带信号对应于歌唱声或专业电影内容,且所述窄带信号对应于器乐声或低质量窄带用户生成内容UGC。
3.根据权利要求1或2所述的方法,其中确定所述输入音频信号中是否已发生场景切换是基于输入音频信号的所有频带分量。
4.根据权利要求3所述的方法,其中确定所述输入音频信号中是否已发生场景切换是基于信号功率谱质心的时变估计。
5.根据权利要求4所述的方法,其中所述场景切换分析器至少通过执行包括以下各者的操作来计算所述信号功率谱质心的所述时变估计:
通过使每一频带分量信号平滑来估计信号功率谱;及
使用所述估计的信号功率谱确定所述信号功率谱的所述质心。
6.根据权利要求5所述的方法,其中确定所述输入音频信号中是否已发生所述场景切换包括:
使所述质心平滑;
确定所述质心与所述平滑质心之间的差;及
基于所述差是否满足阈值来确定是否已发生所述场景切换。
7.根据权利要求3到6中任一权利要求所述的方法,其中确定所述输入音频信号中是否已发生场景切换是基于所述信号功率谱的截止带的估计。
8.根据权利要求7所述的方法,其中所述场景切换分析器至少通过执行包括以下各者的操作来计算所述信号功率谱的所述截止带的所述估计:
通过使每一频带分量信号平滑来估计信号功率谱;及
使用所述估计的信号功率谱确定所述信号功率谱的所述截止带。
9.根据权利要求8所述的方法,其中确定所述输入音频信号中是否已发生所述场景切换包括:
使所述截止带平滑;
确定所述截止带与所述平滑截止带之间的差;及
基于所述差是否满足阈值来确定是否已发生所述场景切换。
10.根据上述权利要求中任一权利要求所述的方法,其中用于引导所述攻击时间常数及/或所述释放时间常数的所述改变的一或多个控制信号的函数被映射到范围[0,1],且其中所述攻击时间常数及/或所述释放时间常数是通过乘以所述函数而改变。
11.根据上述权利要求中任一权利要求所述的方法,其进一步包括:
由所述压缩器对每一频带分量执行具有所述对应阈值的压缩操作以产生多个增益,每一增益对应于相应频带分量。
12.一种场景切换分析器,其包括:
一或多个计算装置;及
计算机可读存储媒体,其存储指令,所述指令在由一或多个处理器执行时使所述一或多个处理器执行权利要求1到11中任一权利要求的操作。
13.一种计算机可读存储媒体,其存储指令,所述指令在由一或多个计算装置执行时使所述一或多个计算装置执行权利要求1到11中任一权利要求的操作。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNPCT/CN2018/108287 | 2018-09-28 | ||
CN2018108287 | 2018-09-28 | ||
US201962798149P | 2019-01-29 | 2019-01-29 | |
US62/798,149 | 2019-01-29 | ||
EP19155298.3 | 2019-02-04 | ||
EP19155298 | 2019-02-04 | ||
PCT/US2019/053142 WO2020069120A1 (en) | 2018-09-28 | 2019-09-26 | Distortion reducing multi-band compressor with dynamic thresholds based on scene switch analyzer guided distortion audibility model |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112640301A true CN112640301A (zh) | 2021-04-09 |
CN112640301B CN112640301B (zh) | 2022-03-29 |
Family
ID=68165875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980057612.5A Active CN112640301B (zh) | 2018-09-28 | 2019-09-26 | 动态地调整压缩器的阈值的方法和设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11282533B2 (zh) |
EP (1) | EP3662468B1 (zh) |
JP (1) | JP7019099B2 (zh) |
CN (1) | CN112640301B (zh) |
WO (1) | WO2020069120A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114267382A (zh) * | 2021-12-28 | 2022-04-01 | 深圳万兴软件有限公司 | 音乐音效处理的限制器控制方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102684628A (zh) * | 2006-04-27 | 2012-09-19 | 杜比实验室特许公司 | 修正音频动态处理器的参数的方法以及执行该方法的设备 |
CN104242853A (zh) * | 2010-03-18 | 2014-12-24 | 杜比实验室特许公司 | 用于具有音质保护的失真减少多频带压缩器的技术 |
CN105164918A (zh) * | 2013-04-29 | 2015-12-16 | 杜比实验室特许公司 | 具有动态阈值的频带压缩 |
CN105556837A (zh) * | 2013-09-12 | 2016-05-04 | 杜比实验室特许公司 | 用于各种回放环境的动态范围控制 |
CN107534820A (zh) * | 2015-03-04 | 2018-01-02 | 弗劳恩霍夫应用研究促进协会 | 用于驱动动态压缩器的装置和方法以及用于确定动态压缩器的放大值的方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4099035A (en) * | 1976-07-20 | 1978-07-04 | Paul Yanick | Hearing aid with recruitment compensation |
US20040083094A1 (en) | 2002-10-29 | 2004-04-29 | Texas Instruments Incorporated | Wavelet-based compression and decompression of audio sample sets |
JP2004191821A (ja) * | 2002-12-13 | 2004-07-08 | Matsushita Electric Ind Co Ltd | ゲイン制御装置及び方法 |
US8081772B2 (en) * | 2008-11-20 | 2011-12-20 | Gentex Corporation | Vehicular microphone assembly using fractional power phase normalization |
JP4844622B2 (ja) | 2008-12-05 | 2011-12-28 | ソニー株式会社 | 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器、音響装置 |
US9031834B2 (en) | 2009-09-04 | 2015-05-12 | Nuance Communications, Inc. | Speech enhancement techniques on the power spectrum |
US20120278087A1 (en) | 2009-10-07 | 2012-11-01 | Nec Corporation | Multiband compressor and method of adjusting the same |
US9307340B2 (en) | 2010-05-06 | 2016-04-05 | Dolby Laboratories Licensing Corporation | Audio system equalization for portable media playback devices |
US8634578B2 (en) | 2010-06-23 | 2014-01-21 | Stmicroelectronics, Inc. | Multiband dynamics compressor with spectral balance compensation |
EP2880761B1 (en) | 2012-08-06 | 2020-10-21 | Father Flanagan's Boys' Home Doing Business as Boy Town National Research Hospital | Multiband audio compression system and method |
BR122022020326B1 (pt) * | 2013-01-28 | 2023-03-14 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. | Método e aparelho para reprodução de áudio normalizado de mídia com e sem metadados de ruído integrado em novos dispositivos de mídia |
WO2015027327A1 (en) | 2013-08-28 | 2015-03-05 | Mixgenius Inc. | System and method for performing automatic audio production using semantic data |
IN2014MU00290A (zh) | 2014-01-27 | 2015-09-11 | Indian Inst Technology Bombay | |
TWI543638B (zh) | 2014-01-28 | 2016-07-21 | 宏達國際電子股份有限公司 | 聲音產生系統和其音頻放大的方法 |
EP3108669B1 (en) | 2014-02-18 | 2020-04-08 | Dolby International AB | Device and method for tuning a frequency-dependent attenuation stage |
EP3038106B1 (en) | 2014-12-24 | 2017-10-18 | Nxp B.V. | Audio signal enhancement |
GB2555059B (en) | 2015-05-22 | 2021-09-01 | Cirrus Logic Int Semiconductor Ltd | Adaptive receiver |
-
2019
- 2019-09-26 CN CN201980057612.5A patent/CN112640301B/zh active Active
- 2019-09-26 EP EP19783935.0A patent/EP3662468B1/en active Active
- 2019-09-26 JP JP2021516933A patent/JP7019099B2/ja active Active
- 2019-09-26 WO PCT/US2019/053142 patent/WO2020069120A1/en unknown
- 2019-09-26 US US17/281,006 patent/US11282533B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102684628A (zh) * | 2006-04-27 | 2012-09-19 | 杜比实验室特许公司 | 修正音频动态处理器的参数的方法以及执行该方法的设备 |
CN104242853A (zh) * | 2010-03-18 | 2014-12-24 | 杜比实验室特许公司 | 用于具有音质保护的失真减少多频带压缩器的技术 |
CN105245195A (zh) * | 2010-03-18 | 2016-01-13 | 杜比实验室特许公司 | 用于具有音质保护的失真减少多频带压缩器的技术 |
CN105164918A (zh) * | 2013-04-29 | 2015-12-16 | 杜比实验室特许公司 | 具有动态阈值的频带压缩 |
CN105556837A (zh) * | 2013-09-12 | 2016-05-04 | 杜比实验室特许公司 | 用于各种回放环境的动态范围控制 |
CN107534820A (zh) * | 2015-03-04 | 2018-01-02 | 弗劳恩霍夫应用研究促进协会 | 用于驱动动态压缩器的装置和方法以及用于确定动态压缩器的放大值的方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114267382A (zh) * | 2021-12-28 | 2022-04-01 | 深圳万兴软件有限公司 | 音乐音效处理的限制器控制方法、装置、设备及介质 |
CN114267382B (zh) * | 2021-12-28 | 2024-02-13 | 深圳万兴软件有限公司 | 音乐音效处理的限制器控制方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2021530933A (ja) | 2021-11-11 |
EP3662468A1 (en) | 2020-06-10 |
CN112640301B (zh) | 2022-03-29 |
WO2020069120A1 (en) | 2020-04-02 |
JP7019099B2 (ja) | 2022-02-14 |
US20210343308A1 (en) | 2021-11-04 |
US11282533B2 (en) | 2022-03-22 |
EP3662468B1 (en) | 2020-11-04 |
WO2020069120A9 (en) | 2021-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10070243B2 (en) | Loudness adjustment for downmixed audio content | |
CN102684628B (zh) | 修正音频动态处理器的参数的方法以及执行该方法的设备 | |
US8396574B2 (en) | Audio processing using auditory scene analysis and spectral skewness | |
JP5730881B2 (ja) | 録音の適応的ダイナミックレンジ強化 | |
US8891778B2 (en) | Speech enhancement | |
US20160336015A1 (en) | Dynamic range compression with low distortion for use in hearing aids and audio systems | |
JP2011172235A (ja) | サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置 | |
AU2011244268A1 (en) | Apparatus and method for modifying an input audio signal | |
CN112640301B (zh) | 动态地调整压缩器的阈值的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |