CN108604454A - 音频信号处理装置和输入音频信号处理方法 - Google Patents
音频信号处理装置和输入音频信号处理方法 Download PDFInfo
- Publication number
- CN108604454A CN108604454A CN201680081853.XA CN201680081853A CN108604454A CN 108604454 A CN108604454 A CN 108604454A CN 201680081853 A CN201680081853 A CN 201680081853A CN 108604454 A CN108604454 A CN 108604454A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- direct
- energy
- signal
- direct audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 367
- 238000003672 processing method Methods 0.000 title claims description 26
- 238000000034 method Methods 0.000 claims abstract description 78
- 238000009792 diffusion process Methods 0.000 claims abstract description 56
- 239000003607 modifier Substances 0.000 claims abstract description 26
- 239000004606 Fillers/Extenders Substances 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 15
- 239000004615 ingredient Substances 0.000 claims description 29
- 230000001052 transient effect Effects 0.000 claims description 23
- 230000007704 transition Effects 0.000 claims description 13
- 108090000623 proteins and genes Proteins 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 10
- 230000004048 modification Effects 0.000 claims description 10
- 238000012986 modification Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 9
- 239000004576 sand Substances 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000002156 mixing Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006835 compression Effects 0.000 description 12
- 238000007906 compression Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 12
- 238000013519 translation Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 9
- 239000000470 constituent Substances 0.000 description 8
- 230000007613 environmental effect Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000004134 energy conservation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000007306 turnover Effects 0.000 description 2
- 208000019300 CLIPPERS Diseases 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 208000021930 chronic lymphocytic inflammation with pontine perivascular enhancement responsive to steroids Diseases 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/005—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo five- or more-channel type, e.g. virtual surround
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/16—Automatic control
- H03G5/165—Equalizers; Volume or gain control in limited frequency bands
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/05—Generation or adaptation of centre channel in multi-channel audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Stereophonic System (AREA)
Abstract
本发明涉及音频信号处理装置(100)和一种用于将输入音频信号(101)处理为输出音频信号(103)的方法。所述音频信号处理装置(100)包括:分解器(105),用于将所述输入音频信号(101)分解为直接音频信号(102a)和漫射音频信号(102b);修改器(107),用于修改所述直接音频信号(102a),以获得修改后的直接音频信号(102a'),其中所述修改器(107)包括带宽扩展器(107a),用于扩展所述直接音频信号(102a)的频率范围中的上转折频率;合路器(109),用于将所述修改后的直接音频信号(102a')与所述漫射音频信号(102b)进行合并,以获得所述输出音频信号(103)。
Description
技术领域
一般而言,本发明涉及音频信号处理领域,更具体地说,本发明涉及音频信号处理装置和输入音频信号的处理方法,尤其涉及一种压缩的音频信号的处理方法。
背景技术
通常,使用诸如MP3之类的有损编码方案来压缩音频文件,尤其是音乐文件,会导致音频质量降低。音频不能恢复到其原来的质量,例如,由于压缩导致高频丢失,瞬变失真或弱化,并且引入其它伪像。
早期为解决这个问题,尝试提出通过,例如,在US7916876和EP1915026中所公开的带宽扩展技术来恢复原来的音频质量。近来尝试提出通过,例如,在US6865430和US6606388中所公开的均衡或低音最大化技术来解决这个问题。US9135920公开了立体声信号的中间/侧面分解,相对于修改整个信号而言,这是非常简单的改进。
常规的用于改善压缩音频文件尤其是音乐文件质量的方法仅依靠带宽扩展来再生成高频和/或一般音响效果,以便提高感知质量(例如,均衡)。因此,传统的带宽扩展系统的实现通常都包括一个单独的步骤来检测转折频率,并随后对由于压缩导致丢失的估计转折频率以上的音频文件部分进行估计。然而,一般来说,高频音频内容在感知上几乎没有相关性(12kHz以上的频率上,许多人根本觉察不到声音),而高频转折频率的检测实际上是一项艰巨的任务。此外,常规方法中未能解决对音乐质量感知的其他重要影响,即为频谱图中所谓的“洞”,其产生可听伪像(“音乐噪声”和“尖叫声音”),导致攻击损失。
因此,需要一种改进的音频信号处理装置和方法,允许增强压缩音频信号的质量。
发明内容
本发明旨在提供一种改进的信号处理装置和方法,特别是能够提高压缩音频信号的质量。
通过独立权利要求的主题实现上述及其它目的。进一步,实现方式显而易见有别于从属权利要求、描述及图。
根据第一方面,本发明涉及一种音频信号处理装置,用于将输入音频信号尤其是通过有损压缩技术压缩的音频信号处理成输出音频信号,以缓解由于压缩造成的可明显感知到的失真。所述音频信号处理装置包括:分解器,用于将所述输入音频信号分解为直接音频信号和漫射音频信号;修改器,用于修改所述直接音频信号,以获得修改后的直接音频信号,其中所述修改器包括带宽扩展器,用于扩展所述直接音频信号的频率范围中的上转折频率;合路器,用于将所述修改后的直接音频信号与所述漫射音频信号进行合并,以获得所述输出音频信号。
此处表述的“直接音频信号”是指由声源直接发射的输入音频信号成分,“漫射音频信号”是指由声源环境反射的输入音频信号成分。在此将同等表述“主音频信号”和“环境音频信号”作为“直接音频信号”和“漫射音频信号”。
因此,提供了一种改进的音频信号处理装置,通过将所述输入音频信号分解成直接成分和漫射成分,并通过直接成分处理,提高压缩输入音频信号的质量。这因为所述直接音频信号成分一般涉及声源的原始信号,而所述漫射音频信号成分涉及环境(混响)对所述直接音频信号的响应,因此,所述漫射音频信号成分已包括所述输入音频信号中自然存在的混响,从而可通过一种有利的方式应用以下模块。
根据本发明的第一方面,在所述音频信号处理装置的第一种可能实现方式中,所述分解器包括上混频器,用于将所述输入音频信号上混成多个上混音频信号,其中所述分解器用于基于所述多个上混音频信号生成所述直接音频信号和所述漫射音频信号。
上混频器允许高效地生成所述直接音频信号和所述漫射音频信号,从而对所述直接音频信号和所述漫射音频信号进行进一步不同的处理。
根据第一方面的第一种实现方式,在所述音频信号处理装置的第二种可能实现方式中,所述多个上混音频信号包括中心音频信号,其中所述分解器还包括下混频器,用于对所述多个上混音频信号中的中心音频信号进行下混,以获得所述直接音频信号。
因此,所述修改器的所有部件都可以在数量减少的信道上工作,从而降低了该装置的整体计算复杂度。
根据第一方面的第一或第二种实现方式,在所述音频信号处理装置的第三种可能实现方式中,所述分解器还包括均衡器,用于均衡所述多个上混音频信号。
所述多个上混信号上的均衡器能够针对每个信号进行单独设置。因此,所述均衡器可用于通过对所有单独信号进行良好的控制,高效地实现期望的效果。在实现方式中,所述均衡器可用于增强低频处的直接音频信号和中频处的漫射音频信号,从而增强了所述直接音频信号的低音和所述漫射音频信号的环境声效。可以针对不同的目标对所述均衡器进行其它可能的配置。
根据第一方面或第一方面的第一至第三种实现方式中的任一实现方式,在所述音频信号处理装置的第四种可能实现方式中,所述带宽扩展器包括多个带通滤波器,用于从所述直接音频信号中提取多个直接音频信号成分,其中每个直接音频信号成分与所述多个带通滤波器定义的多个频带中的对应频带相关联,所述带宽扩展器还包括能量估计器,用于针对所述多个频带中的每个频带,估计与所述对应频带相关联的所述直接音频信号成分的能量。
不同的频带分离和这些频带中的能量估计允许对转折频率进行隐式估计。因此,以下处理步骤可以在细粒度的光谱分辨率上进行。
根据第一方面的第四种实现方式,在所述音频信号处理装置的第五种可能实现方式中,所述带宽扩展器还包括谐波生成器,用于基于所述多个直接音频信号成分中的第一直接音频信号成分生成包括所述第一直接音频信号成分的谐波的调整直接音频信号成分,用于当第二直接音频信号成分的能量小于所述第二直接音频信号成分的目标能量时,调整所述多个直接音频信号成分中的第二直接音频信号成分。
在实际能量等于或接近所述目标能量的情况下,不会产生谐波,降低了本发明实施例的计算复杂度。
根据第一方面的第五种实现方式,在所述音频信号处理装置的第六种可能实现方式中,基于以下等式确定所述第二直接音频信号成分的目标能量:
Tx=β1Tx-1,
其中Tx表示所述第二直接音频信号成分的目标能量,Tx-1表示与直接低于所述第二直接音频信号成分的频带的一个频带相关联的直接音频信号成分的目标能量,β1表示第一调整因子且β1<1。
在实现方式中,通过以下等式定义所述第一调整因子β1:
其中Tx-2表示与直接低于所述频带的频带相关联的直接音频信号成分的目标能量,所述频带低于所述第二直接音频信号成分的频带。
因此,可以通过可用的测量能量估计值来递归地估计目标能量。
根据第一方面的第五或第六种实现方式,在所述音频信号处理装置的第七种可能实现方式中,所述带宽扩展器还包括定标器,用于通过基于所述第一直接音频信号成分的能量确定的缩放因子,对所述第二直接音频信号成分的调整直接音频信号成分进行缩放。
该实现方式允许通过位于其中一个频带中的转折频率,来避免需要通过单独的步骤对信号中的转折频率进行明确检测。
根据第一方面的第七种实现方式,在所述音频信号处理装置的第八种可能实现方式中,所述定标器用于基于以下等式确定对所述第二直接音频信号成分中的调整直接音频信号成分进行缩放的缩放因子Gh:
其中Th表示所述第二直接音频信号成分中的调整直接音频信号成分的目标能量,Eh表示所述第二直接音频信号成分中的调整直接音频信号成分的能量,其中,基于以下等式定义Th和Eh:
Th=Tx-l·Ex
Eh=β2·El
其中Ex表示所述第二直接音频信号成分的能量,El表示所述第一直接音频信号成分的能量,l表示泄漏因子,β2表示第二调整因子。
在实现方式中,所述泄漏参数l的取值范围为0.5到1.0,优选为0.8,所述第二调整因子β2的取值范围可为0.3到0.5,优选为0.4。
因此,根据所述第一直接音频信号成分的能量估计所述调整直接音频信号的能量,降低了该装置的计算复杂度。
根据本发明第一方面或第一方面的第一至第八种实现方式中的任一实现方式,在所述音频信号处理装置的第九种可能实现方式中,所述修改器还包括瞬态修改器,用于检测所述直接音频信号中的至少一个瞬变,修改所述直接音频信号中的瞬变。
因此,可以恢复由于压缩而削弱或损失的瞬变。
根据本发明的第一方面或第一方面的第一至第九种实现方式中的任一实现方式,在所述音频信号处理装置的第十种可能实现方式中,所述修改器还包括混响滤波器,用于通过所述直接音频信号的不同频带的不同混响时长对所述直接音频信号进行滤波,其中与所述直接音频信号中的至少一个高频带相关联的混响时长大于与所述直接音频信号中的至少一个低频带相关联的混响时长。
在实现方式中,对于低于4000Hz的频率,所述混响时长为T60=0.2秒,对于4000Hz和10000Hz之间的频率,所述混响时长为T60=0.4秒。这允许补偿观察到的效果,即环境信号成分在较高的频率处衰减得更强。如果在低频处没有产生额外的混响,则可以保持对低频成分的更清晰的感知。
根据第一方面的第十种实现方式,在所述音频信号处理装置的第十一种可能实现方式中,所述修改器还包括混响调节器,用于基于第三调整因子调整所述混响滤波器滤波的所述直接音频信号,其中所述第三调整因子取决于所述漫射音频信号的能量与所述分解器提供的所述直接音频信号的能量之比。
可以保证根据信号中已有的实际混响量控制混响。
根据第一方面的第十一种实现方式,在所述音频信号处理装置的第十二种可能实现方式中,所述混响调节器用于基于所述第三调整因子调节所述混响滤波器滤波的直接音频信号,使得所述修改后的直接音频信号的能量与所述输出音频信号的漫射音频信号的能量之比大于所述漫射音频信号的能量与所述分解器提供的所述直接音频信号的能量之比的预定义分数。
在实现方式中,所述漫射音频信号的能量与所述分解器提供的所述直接音频信号的能量之比的预定义分数约为0.8,即20%,确保信号的整体平衡不会变化太大。
综上所述,仅对所述直接音频信号做上述至少部分的修改是有利的。由于所述漫射信号主要包括固定的声音,所以与完整信号或所述漫射信号相比,所述瞬态修改器可以更好地检测来自所述直接信号的瞬变,并将其从所述直接信号中移除,提高了瞬变检测性能。所述混响模块通过混响滤波器滤波生成额外的人工混响。理想情况下,该滤波器应用于原始信号中,因此,其仅应用于所述直接信号,而非所述发散信号。类似地,因为针对直接信号可更好的生成谐波,所以带宽扩展仅理想地应用于所述直接信号而非所述漫射信号中。多声道EQ模块可对分离的直接和漫射信号进行不同的EQ设置,从而更加精细地调整该系统。
根据第二方面,本发明涉及一种用于将输入音频信号处理为输出音频信号的音频信号处理方法。所述音频信号处理方法包括以下步骤:将所述输入音频信号分解为直接音频信号和漫射音频信号,其中所述直接音频信号包括声源直接发射的输入音频信号成分,所述漫射音频信号包括由声源环境反射的输入音频信号成分;通过扩展所述直接音频信号的频率范围内的上转折频率,修改所述直接音频信号以获得修改后的直接音频信号;将所述修改后的直接音频信号与所述漫射音频信号进行合并,以获得所述输出音频信号。
根据本发明第二方面,在所述音频信号处理方法的第一种可能实现方式中,所述分解步骤包括:将所述输入音频信号上混合成多个上混音频信号,并基于所述多个上混音频信号生成所述直接音频信号和所述漫射音频信号。
根据第二方面的第一种实现方式,在所述音频信号处理方法的第二种可能实现方式中,所述多个上混音频信号包括中心音频信号,其中所述分解步骤还包括:将所述多个上混音频信号中的中心音频信号进行下混以获得所述直接音频信号。
根据第二方面的第一或第二种实现方式,在所述音频信号处理方法的第三种可能实现方式中,所述分解步骤还包括:均衡所述多个上混音频信号。
根据本发明的第二方面或第二方面的第一至第三种实现方式中的任一实现方式,在所述音频信号处理方法的第四种可能实现方式中,所述方法还包括以下步骤:通过多个带通滤波器从所述直接音频中提取多个直接音频信号成分,其中每个直接音频信号成分与所述多个带通滤波器定义的多个频带中的对应频带相关联,所述方法还包括以下步骤:针对所述多个频带中的每一个频带,对与所述相应的频带相关联的直接音频信号成分的能量进行估计。
根据第二方面的第四种实现方式,在所述音频信号处理方法的第五种可能实现方式中,所述方法还包括以下步骤:基于所述多个直接音频信号成分中的第一直接音频信号成分生成包括所述第一直接音频信号成分的谐波的调整直接音频信号成分,用于当第二直接音频信号成分的能量小于所述第二直接音频信号成分的目标能量时,调整所述多个直接音频信号成分的第二直接音频信号成分。
根据第二方面的第五种实现方式,在所述音频信号处理方法的第六种可能实现方式中,基于以下等式确定所述第二直接音频信号成分的目标能量:
Tx=β1Tx-1,
其中Tx表示所述第二直接音频信号成分的目标能量,Tx-1表示与直接低于所述第二直接音频信号成分的频带的一个频带相关联的直接音频信号成分的目标能量,β1表示第一调整因子且β1<1。
在实现方式中,通过以下等式定义所述第一调整因子β1:
其中Tx-2表示与直接低于所述频带的频带相关联的直接音频信号成分的目标能量,所述频带低于所述第二直接音频信号成分的频带。
根据第二方面的第五或第六种实现方式,在所述音频信号处理方法的第七种可能实现方式中,所述方法还包括以下步骤:通过基于所述第一直接音频信号成分的能量确定的缩放因子,对所述第二直接音频信号成分的调整直接音频信号成分进行缩放。
根据第二方面的第七种实现方式,在所述音频信号处理方法的第八种可能实现方式中,所述方法还包括以下步骤:确定缩放因子Gh,从而基于以下等式对所述第二直接音频信号成分的调整直接音频信号成分进行缩放:
其中Th表示所述第二直接音频信号成分中的调整直接音频信号成分的目标能量,Eh表示所述第二直接音频信号成分中的调整直接音频信号成分的能量,其中,基于以下等式定义Th和Eh:
Th=Tx-l·Ex和
Eh=β2·El,
其中Ex表示所述第二直接音频信号成分的能量,El表示所述第一直接音频信号成分的能量,l表示泄漏因子,β2表示第二调整因子。
根据本发明第二方面或第二方面的第一至第八种实现方式中的任一实现方式,在所述音频信号处理方法的第九种可能实现方式中,所述方法还包括以下步骤:检测所述直接音频信号中的至少一个瞬变,修改所述直接音频信号中的瞬变。
根据本发明的第二方面或第二方面的第一至第九种实现方式中的任一实现方式,在所述音频信号处理方法的第十种可能实现方式中,所述方法还包括以下步骤:针对所述直接音频信号的不同频带,通过具有不同混响时长的混响滤波器对所述直接音频信号进行过滤,其中与所述直接音频信号中的至少一个高频带相关联的混响时长大于与所述直接音频信号中的至少一个低频带相关联的混响时长。
根据第二方面的第十种实现方式,在所述音频信号处理方法的第十一种可能实现方式中,所述方法还包括以下步骤:基于第三调整因子调整所述混响滤波器滤波的直接音频信号,其中,所述第三调整因子取决于所述漫射音频信号的能量与所述直接音频信号能量之间的比值。
根据第二方面的第十一种实现方式,在所述音频信号处理方法的第十二种可能实现方式中,基于所述第三调整因子调整由所述混响滤波器滤波的直接音频信号,使得所述修改后的直接音频信号的能量与所述输出音频信号的所述漫射音频信号的能量之间的比值大于所述漫射音频信号能量与所述直接音频信号能量之间的比值的预定义分数。
根据第三方面,本发明涉及一种包括程序代码的计算机程序,所述程序代码用于在计算机上执行时执行根据本发明第二方面或第二方面中的任何一种实现方式的音频信号处理方法。
本发明可以以硬件和/或软件及其任意组合来实现。
附图说明
本发明的具体实现方式将结合以下附图进行描述,其中:
图1示出了实施例提供的一种音频信号处理装置的示意图;
图2示出了实施例提供的一种音频信号处理装置的示意图;
图3更详细地示出了实施例提供的一种音频信号处理装置的带宽扩展器的示意图;
图4示出了实施例提供的一种图3所示的带宽扩展器的一个方面的示意图;
图5更详细地示出了实施例提供的一种音频信号处理装置的组件示意图;
图6示出了实施例提供的一种音频信号处理方法的示意图;
图7示出了实施例提供的一种通过音频信号处理装置和音频信号处理方法处理的原始音乐,压缩音乐和复原音乐的频谱图。
在各附图中,相同的或至少功能等同的特征使用相同的标号。
具体实现形式
以下结合附图进行描述,所述附图是本公开的一部分,并通过图解说明的方式示出可以实施本发明的具体方面。可以理解的是,在不脱离本发明范围的情况下,可以利用其它方面,并做出结构或逻辑上的改变。因此,以下详细的描述并不当作限定,本发明的范围由所附权利要求书界定。
例如,可以理解的是与所描述方法有关的披露对于用于执行所述方法的对应设备或系统也同样适用,反之亦然。例如,如果描述了特定方法步骤,则对应设备可以包括用于执行所描述的方法步骤的单元,即使此类单元没有在图中明确描述或图示。此外,应理解,本文所描述的各种示例性方面的特征可以相互组合,除非另外明确说明。
图1示出了实施例提供的一种用于将输入音频信号101处理为输出音频信号103的音频信号处理装置100的示意图。下面将进一步进行详细描述,根据本发明实施例,所述输入音频信号101和/或所述输出音频信号103可以是具有不同声道数量的立体声音频信号或多声道信号。所述输入音频信号101可以是通过有损压缩技术进行压缩后的输入音频信号101。
所述音频信号处理装置100包括:分解器105,用于将所述输入音频信号101分解为直接音频信号102a和漫射音频信号102b;修改器107,用于修改所述直接音频信号102a以获得修改后的直接音频信号102a',其中所述修改器107包括带宽扩展器107a,用于将所述直接音频信号102a的频率范围扩展到更高频率,或者换言之,扩展或增高频率范围内的上转折频率;合路器109,用于将所述修改后的直接音频信号102a'与所述漫射音频信号102b进行合并,以获得最终输出音频信号103。
图2示出了实施例提供的一种音频信号处理装置100的示意图。在图2所示的实施例中,所述音频信号处理装置100用于处理作为立体声信号实现的输入音频信号101,即包括左声道L0和右声道R0,并且将所述输出音频信号提供为立体声信号,即包括左声道Lout和右声道Rout。
在图2所示的实施例中,所述音频信号处理装置100的分解器105包括上混频器105a、均衡器105b和下混频器105c。所述修改器107包括:针对左右声道的相应带宽扩展器107a、瞬态修改器107b和混响模块107c。所述瞬态修改器107b包括瞬态检测模块107b-1和瞬态修改模块107b-2。下面将更加详细地描述图2中所示的音频信号处理装置100的不同组件如何根据本发明的实施例进行工作。
第一阶段中,所述分解器105将输入音频信号L0和R0分解成其直接和漫射信号成分。所述分解器105的上混频器105a用于将所述输入音频信号L0和R0上混成多个上混音频信号。在图2所示的实施例中,所述分解器105的上混频器105a用于将所述输入音频信号L0和R0上混成包括中心信号C、左右声道直接信号L1和R1、左右声道漫射信号Ls和Rs的5声道信号:L1、C、R1、Ls和Rs。
在一实施例中,所述上混频器105a中可实现J.He、E.L.Tan和W.S.Gan于2014年发表于《IEEE/ACM音频、语音及语言处理汇刊》第22(2)卷第505页至517页中的《基于线性估计的立体声音频信号的主要环境提取》所描述的上混算法,以便分离所述直接信号成分与所述漫射信号成分。在一实施例中,可以按照如下直接成分和漫射成分写入所述输入信号x:
x0[m,l]=p0[m,l]+a0[m,l]
x1[m,l]=p1[m,l]+a1[m,l],
其中,下标0和1分别表示所述输入立体声信号的左右声道。参考图2,所述输入立体声信号x0的左声道与L0相对应,所述输入立体声信号x1的右声道与R0相对应。符号p和a分别表示所述输入音频信号x的直接(或主要)和漫射(或环境)成分。因为通常在短时傅立叶变换(short-time Fourier transform,简称STFT)域中完成处理,即针对每个时间和频率点独立地进行处理,所以由离散时间m和离散频率点l表示信号。假设使用所述直接信号的振幅平移,p1可以如下表示:
p1=k·p0,
其中k表示平移指数。在一实施例中,假设环境功率,即两个声道中的漫射信号相等,并且两个环境(即漫射信号)相对于彼此并且相对于直接信号是不相关的。
基于这些假设,零延迟的自相关和互相关可以表示为:
其中P表示信号功率。在一实施例中,可以测量信号的自相关和互相关,并且由此可以基于以下关系导出平移指数k:
平移至左边的直接信号即主信号的特征在于平移指数0≤k<1,而平移至右边的直接信号的平移指数为k>1。
基于估计的平移指数,可以在本发明的上下文中通过几种方法来估计信号的直接和漫射部分,例如,J.He、E.L.Tan和W.S.Gan于2014年发表于《IEEE/ACM音频、语音及语言处理汇刊》第22(2)卷第505页至517页中的《基于线性估计的立体声音频信号的主要环境提取》中描述的主成分分析,其中可以通过以下方式表示所述直接和漫射信号:
在本发明实施例中,可以通过逆STFT将估计的频域信号传送回时域。其它主要环境的提取方法同样适用,例如基于最小二乘法的方法。
因为大多数直接/漫射分离方法实际上并不会产生漫射(不相关)环境信号,所以产生的漫射信号,即环境信号可以进一步去相关。
除所述直接/漫射分离之外,可从所述直接信号中提取中央声道。在本发明实施例中,可通过一种方法将左声道和中央声道之间的所有左平移信号以及中央声道和右声道之间的所有右平移信号重新进行平移。在本发明一实施例中,可以使用非能量守恒平移原则,其中,基于以下等式将所述平移指数k转换成平移角度:
其中,在本发明一实施例中,通过以下等式,根据所述平移角度的正负对所述中央声道信号xc进行不同的计算,正如C.Faller(2006年)在《音频工程学会杂志》第54(11)卷第1051页至1034页发表的《立体声信号的多重扬声器重放》:
所述平移角度再次映射至范围以便在两个扬声器之间重新平移信号。所述信号xo表示原始的未平移的直接信号,其可以与新的中心平移增益gc一起用于提取中心信号xc。在本发明实施例中,基于非能量守恒平移原则计算信号x 0′和x 1′。针对频率相关的平移指数k,通常可在频域中完成所述中心信号的提取,这反映了对于每个时频点而言,只有一个平移源激活这一设想。。
根据本发明的实施例,根据一些听觉感应的分组机制将频率组合在一起,而非直接在所有频率点上工作,从而降低处理伪像的复杂性和数量。
从图2所示的实施例中可以看出,如上所述,所述上混频器105a的输出信号p0、p1、xc、a0和a1分别为左直接信号L1、右直接信号R1、中心直接信号C、左漫射信号Ls和右漫射信号Rs。
使用所述上混频器105a的优点在于:在随后的处理步骤中,可在直接和漫射部分以及中央声道进行不同的信号修改,对于增强压缩音乐尤其有用。例如,在本发明实施例中,在表现音乐的音频输入信号包括歌声的情况下,对所述中央声道进行均衡。此外,仅根据所述直接信号创建额外的混响是合理的,因为所述漫射信号已经包含一些混响。
在下一阶段中,提供所述上混频器105a的输出信号作为多声道均衡器105b的输入。在一实施例中,所述均衡器105b包括中心频率为62.5Hz、125Hz、250Hz、500Hz、1000Hz、2000Hz、4000H、8000Hz和16000Hz的滤波器组。针对这种频率划分,提出的一种均衡器配置是将所有直接信号的增益(以dB为单位)设置为[2 2 0 0 0 0 0 2 3],将所有漫射信号的增益设置为[-2 -2 0 2 3 3 2 0 0]。这种设置增强了直接信号的低音和漫射信号的中频,导致再现漫射(即,环境声音)的温和平滑,同时使低频保持清晰和明确。由于漫射声音成分通常表现出比直接声音成分更少的高频内容,并且直接声音成分受到的高频损失所致的影响更大,所以可以为直接和漫射均衡器105b中的高频率设置不同的增益,也可另外设置所述均衡器105b,例如,为所述中心信号C设置单独增益,其可用于对歌手的声音进行特殊的均衡。
从图2所示的实施例中可以看出,所述均衡器105b的输出信号为左直接信号L2、右直接信号R2、中心直接信号C2、左漫射信号Ls2和右漫射信号Rs2。
根据本发明实施例,所述漫射信号成分基本上不会改变,且保持不受其它系统组件影响,而所述直接信号成分则被所述修改器107进一步处理。
在图2所示的实施例中,对所述中心信号进行单独的处理,且所述下混频器105c用于将所述中心信号混合成直接的左信号和右信号。在一实施例中,可通过一简单方法将述下混频105c中的中心信号C2按照以下关系混合成所述直接左信号L3和直接右信号R3:
其中,L2、C2和R2表示所述下混频器105c的输入信号。
在下一阶段中,将所述下混频器105c的输出信号L3和R3作为输入信号提供给所述修改器107,特别是其两个带宽(bandwidth,简称BW)扩展器107a。如下面图3的上下文中提供的更详细的描述,所述BW扩展器107a的主要目的在于创建所述压缩输入音频信号的丢失的高频成分。
在图2所示的音频信号处理装置100的下一阶段中,将所述BW扩展器107a的输出信号L4和R4作为输入信号提供给所述瞬态修改器107b,其包括瞬态检测模块107b-1和瞬态修改模块107b-2。
所述瞬态修改器107b的主要目在于找到所述直接信号内的瞬态信号部分,并提供增强或衰减这些瞬态信号部分的可能性。在一实施例中,所述瞬态修改器107b包括所述瞬态检测模块107b-1和所述瞬态修改模块107b-2,用于根据以下算法检测和修改所述直接信号的瞬变。
瞬态信号可分为两个部分或阶段,即攻击阶段和维持阶段。这些部件或阶段可以单独检测和修改。为检测瞬态的攻击阶段和保持阶段,可基于信号s[t])的当前帧在时间步长t处的最大绝对幅度计算不同的信号包络:
xmax=20log10(maxi|s[t]|)和
satt,f[t]=αatt,f·sf,att[t-1]+(1-αatt,f)·xmax,
其中,在一实施例中,若xmax>satt,f,则选择αatt,f为αatt,f,a;否则,则选择αatt,f为αatt,f,r。
值satt,ft[)对应于用于攻击检测的快速包络。相应地,可以计算用于攻击检测的慢包络satt,s。可通过等式eatt=satt,f-satt,s估计所述攻击包络。为了进行释放整形,可以相应地计算快速包络和慢包络,其可用于估计释放包络erel。然后,可直接将所述攻击包络和所述释放包络分别用作攻击增益和释放增益。可限制这些增益小于最大增益限制,其可设置为6dB。另外,这些增益可以缩放以改变效果,如使其更大或更小,甚至应用与瞬态抑制相对应的负增益。在实践中,所述平滑常数α的值可以以时间常数t来表示,这使其更容易调整。在一实施例中,时间常数t与平滑常数α之间的关系如下:
其中,fs表示采样率。在下表中给出所述时间常数的有用值:
tatt,f,a | 0.008s |
tatt,f,r | 0.004s |
tatt,s,a | 0.015s |
tatt,s,r | 0.004s |
trel,f,a | 0.02s |
trel,f,r | 0.004s |
trel,s,a | 0.02s |
trel,s,r | 0.02s |
可假设在进行上混之后,所述直接信号包括瞬态信号,而所述漫射信号主要包括时间平滑的环境信号。
本发明的实施例通过将直接声音成分与漫射声音成分进行分离来简化对瞬变的检测。实际上,在直接声音成分中,瞬态声音成分更清晰,而在漫射声音成分中,混响效果可以抹去瞬态声音。另外,在检测到瞬态声音之后,可以选择性地仅对所述直接声音成分进行修改(通常是增强)。这是有益的,因为其允许仅提升所述直接声音成分,同时避免通常涉及混响的漫射声音成分的所有修改。由于混响是环境的一个属性,混响的任何变化都会产生不自然的聆听体验。因此,瞬态检测和修改更加高效,如果仅应用于直接信号,则会创造更自然的聆听体验。
从图2所示的实施例中可以看出,在下一阶段,将所述瞬态修改器107的输出信号L5和R5作为输入信号提供给所述混响模块107c,以便为所述直接信号加入一些人工混响。如下面图5的上下文的详细描述,该流程的目的旨在恢复有损压缩过程中去除的漫射,即环境信号成分。
图3示出了用于扩展直接信号的频率范围中的上转折频率,即重建压缩音频信号丢失的高频成分的带宽扩展器107a的一部分的可能实现方式的示意图。在图3所示的实施例中,所述带宽扩展器107a包括多个带通滤波器107a-1(为了清楚起见,在图3中仅示出一个)、能量估计器107a-2l和107a-2h、目标能量模块107a-3、谐波生成器107a-4、定标器107a-5和加法器107a-6。
图4示例性地示出了图3中的带宽扩展器107a对示例性直接信号的频率分布的影响。这个例子示出了从图3的直接信号x提取的六个频带信号B1至B6,其中三个低频带信号B1、B2和B3也称为XL1、XL2和XL3,三个高频带信号B4、B5和B6也分别称为XH1、XH2和XH3,以表示所述低频带信号XL1与所述高频带信号XH1之间的成对关联,所述低频带信号XL2与所述高频带信号XH2之间的成对关联,以及所述低频带信号XL3与所述高频带信号XH3之间的成对关联。所述六个频带信号B1至B6还称为直接音频信号成分B1至B6,所述三个低频带信号B1、B2和B3或XL1、XL2和XL3是或者组成第一直接音频信号成分,所述三个高频带信号B4、B5和B6或XH1、XH2和XH3是或者组成对应的第二直接音频信号成分,其都为或共同组成三对第一直接音频信号成分和第二直接音频信号成分。
从图4所示的例子可以看出,高频带中,频带B4、B5和B6中的测量能量E4、E5和E6低于目标能量T4、T5和T6。如下所述,所述带宽扩展器107a提供这个“缺失能量”(图4中的虚线区域)。
下文中,将结合图4来描述所述带宽扩展器107a的实施例,以提供更好的理解。
在一实施例中,所述多个带通滤波器107a-1用于从所述直接音频信号x如直接音频信号L3和R3(见图2)中的任意一个中提取多个直接音频信号成分,其中每个直接音频信号成分与所述多个带通滤波器107a-1定义的多个频带中的对应频带相关联。所述能量估计器107a-2l(l=低)和107a-2h(h=高)用于针对所述多个频带中的每个频带,估计与所述对应频带相关联的直接音频信号成分的能量,例如,B1至B6分别为XL1至XH3。所述谐波生成器107a-4用于基于所述多个直接音频信号成分中的第一直接音频信号成分,如XL1至XL3中的任意一个,生成包括所述第一直接音频信号成分的谐波的调整直接音频信号成分,以便当第二直接音频信号成分的能量小于所述第二直接音频信号成分的目标能量时,调整所述多个直接音频信号成分中的第二直接音频信号成分,如对应的XH1至XH3中的任意一个。
更具体地说,为了在图3所示的实施例中生成所述压缩音频信号的丢失的高频成分,在第一阶段,所述多个带通滤波器107a-1用于从所述输入信号x中提取特定频带,其中x代表如L3或R3中的任一个。在一实施例中,可将这些频带分组为一对低频带Xl和高频带Xh。这意味着对于每一个低频带Xl,i(对应于图4所示的XLi),存在相应的高频带Xh,i(其对应于图4所示XHi),其中l表示低频带,h表示高频带,i表示低频或高频带内的频带索引以及各自的对(如图4所示的示例,i=1……3)。
在下一阶段中,可以在每个频带x中计算实际信号能量Ex,其中x是能量估计器107a-2l和107a-2h在所有频带(例如,图4所示的示例中,x=1……6)上的频带索引。对于每个高频带Xh,i,所述目标能量模块107a-3可以计算目标能量Th,i。然后,若频带Eh,i的实际信号能量低于该频带Th,i的目标能量时,谐波生成器107a-4则创建谐波,例如图3中的谐波信号sh。根据基于低频带El,i的估计能量进行的谐波能量估计,所述定标器107a-5可相应地设置所述生成的谐波的增益。
所述修改器107中的带宽扩展器107a实现以上描述的根据本发明的实施例的带宽扩展过程,旨在创建一个实际的频谱包络,其表示趋向更高频带的衰减能量曲线。因为是进行隐式估计,所以有利的是,该过程避免了显式检测信号中的转折频率的需要。
在一实施例中,所述谐波生成器107-4用于生成比所述原始信号高一个倍频程的谐波。对于这样的实现方式,可按如下定义该频带:每个频带分别具有上和下转折频率fl和fu。可以使用参数r来定义分辨率,其对应于低频带的数量和高频带的数量。通过低频带和高频带之间的倍频程关系,根据fi+r,l=2·fi,l(例如,具有对应的下转折频率fi+r,l的频带Bi+r可以是高频带XH2,然后Bi可与所述低频带XL2相对应)和fi+r,u=2·fi,u,下转折频率和上转折频率相关,其中i是频带的索引(例如,图4中i=1……3)。将f0定义为第一频带的下转折频率,f1,l=f0,可以根据fx,l=f0·2(x-1)/r和fx,u=f0·2x/r,设置所有频带的转折频率,其中x是所有频带的频带索引(例如,图4中x=1……6)。
可以使用合适的具有相应下转折频率和上转折频率的带通滤波器,例如8阶巴特沃斯滤波器。所述第一频带的下转折频率的可能值为f0=4500Hz。可以设置最后一个低频带的上转折频率为9000Hz,所述高频带的倍频程范围为9000Hz至18000Hz。针对r=3的频带分辨率,这意味着存在三个低频带(例如,图4中所示的XL1至XL3)和三个高频带(例如,图4中所示的XH1至XH3),所以,可分别设置第二和第三低频带的下转折频率为5666Hz和7138Hz。针对每个频带x,可计算能量Ex,例如,通过均方根能量进行计算:
其中N是所观察的短时间帧中的样本数目,sx是频带x中的信号,例如,图4中的B2。
对于低频带,可以设置目标能量等于所计算的能量,Tl,i=El,i。针对高频带,根据Arora于2006年在AES所发表的《便携式播放器应用的音频的高质量盲带宽扩展》中描述的以下关系,可以设置所述目标能量以确保能量的衰减曲线:
更一般地,可根据以下关系设置目标能量,以确保衰减的能量曲线:
Tx=β1 Tx-1,
其中Tx表示所述第二直接音频信号成分的目标能量(例如,图4中的高频带B5的T5),Tx-1表示直接音频信号成分的目标能量(例如,图4中的高频带B4的T4),所述直接音频信号成分与直接低于所述第二直接音频信号成分的频带的一个频带相关联,β1表示第一调整因子且β1<1。因此,上述实施例中,通过比值Tx-1/Tx-2给出所述第一调整因子β1。
可通过以下方式创建谐波信号sh:
sh=2·|sx|,
其中sx是谐波生成器107a-4的输入,例如,图4中的XL1。
可通过许多不同的函数创建谐波,例如N.Oo、W.S.Gan、M.O.Hawksford(2011年)在《音频工程学会杂志》第59(11)卷第804页至824页所发表的《虚拟低音系统非线性处理的感知驱动的客观分级》中描述的半波或全波整流器、削波器或指数函数。谐波产生后,可以使用带通滤波器避免混淆,并消除直流成分。一对相对应的低频带和高频带的下转折频率和上转折频率根据fi+r,l=2·fi,l和fi+r,u=2·fi,u相互关联,其中例如具有对应的上转折频率fi+r,u的频带Bi+r可以为高频带XH2,Bi可为低频带XL2)。
如上所述,根据本发明实施例,当实际能量Ex低于所述目标能量时,仅在高频带(图4:B4……B6)中产生谐波,例如,当
Tx>l·Ex,
其中l表示泄漏参数。所产生的谐波的目标能量为:Th=Tx-l·Ex,以便保证高频带中的剩余能量和谐波产生的能量加起来等于Tx。所述定标器107a-5可根据以下关系确定所产生的谐波Gh的增益:
其中Eh是所产生的谐波的能量。为了通过这种方式确定增益Gh,可以(从另一个值)估算所产生的谐波的能量,或者从所产生的谐波直接测量。根据本发明的进一步实施例,可以基于所述低频带信号,例如,B1的相应低频带能量El估计所生成的谐波的能量。在一实施例中,可以基于以下关系估计所述谐波能量:
Eh≈0.4·El。
在一实施例中,可限制所述谐波增益Gh为最大增益Gh<Gmax,其中Gmax约为6dB。
因此,在一实施例中,所述定标器107a-5用于基于以下等式确定对所述第二直接音频信号(例如,图4中的XH2)成分的调整直接音频信号成分sh进行缩放的缩放因子Gh:
其中Th表示所述第二直接音频信号成分的调整直接音频信号成分的目标能量,Eh表示所述第二直接音频信号成分的调整直接音频信号成分sh的能量,其中基于以下等式定义Th和Eh:
Th=Tx-l·Ex和
Eh=β2·El,
其中Ex表示所述第二直接音频信号成分(如图4中的XH2)的能量,El表示所述第一直接音频信号成分Ex-r(如图4中的XL2)的能量,l表示泄漏因子,β2表示第二调整因子。
根据本发明实施例,所述泄漏参数l取值范围为0.5到1.0,优选为0.8,所述第二调整因子β2的取值范围为0.3到0.5,优选为0.4。
所述加法器107a-6从所述定标器107a-5的输出信号(潜在于不同频带中)和输入信号x的总和中获取所述BW扩展器107a的最终输出信号y(例如,图2中的L4和R4)。
如上所述,有利地,本发明的实施例不要求显式估计所述转折频率。相反,所述音频信号处理装置可以基于位于任何高频带中的转折频率进行工作。另外,如果需要,本发明的实施例确保信号仅被修改。在实际能量等于或接近目标能量的情况下,不会产生谐波,这降低了本发明实施例的计算复杂度。此外,所述带宽扩展器107a的最终结果是声音自然的输出信号,其具有比原始输入信号更高的带宽。
图5示出了实施例提供的一种混响模块107c和合路器109的示意图。如上简要描述,所述混响模块107c的目的是向直接信号添加一些人工混响,以便恢复可能已经通过有损压缩方案去除的环境信号成分。图5所示的混响模块107c包括混响滤波器107c-1、混响调节器107c-2、以及两个乘法单元107c-3和107c-4和两个加法器或求和单元107c-5和107c-6。所述合路器109又包括两个加法器或求和单元109a和109b。
在图5所示的实施例中,所述混响滤波器107c过滤所述直接信号L5和R5,以便计算人工混响信号Lrev和Rrev。可在时域或频域中通过适当的脉冲响应简单地对直接信号进行滤波(卷积),从而将所述人工混响信号添加至所述直接信号。
本发明实施例实现人工混响,其呈现了依赖于频率的混响时长,用于模拟在针对较低频率增加的混响时长的房间中可以观察到的自然混响效果。所述混响模块107c实现填充丢失的环境(漫射)信号成分的有益实现在于增加较高频率的混响时长。这允许补偿频率较高的环境信号成分衰减更强的观察效果。如果没有为低频创建额外的混响,则可以保留对低频成分更清晰的感知。在一实施例中,可为低于4000Hz的频率设置频率依赖的混响时长T60=0.2秒,为4000Hz和10000Hz之间的频率设置T60=0.4秒,和为10000Hz以上的频率设置T60=0.2秒。因此,在一实施例中,所述混响滤波器107c-1用于针对所述直接音频信号的不同频带通过不同的混响时长对所述直接音频信号进行滤波,其中与所述直接音频信号的至少一个高频带相关联的混响时长大于与所述直接音频信号的至少一个低频带相关联的混响时长。
在立体声信号情况下,在每个输入声道上通过两个不相关的混响滤波器生成立体声混响是有益的。
从图5所示的实施例可以看出,所述人工混响信号成分Lrev和Rrev可以分别通过乘法单元107c-4和107c-3中的增益因子GL和GR进行增益等级调整。
为了确定增益因子GL和GR,可以通过固定值来控制根据本发明实施例的混响强度。然而,为了实现在不改变信号包含的感知的混响量的情况下掩蔽可听伪像的期望效果,根据本发明实施例,可以根据输入信号来设置混响效果强度的最优值。所述混响调节器107c-2用于估计最优的增益因子,以基于直接信号和漫射信号实现期望的效果,如下文的进一步详细描述。因此,所述混响调节器107c-2用于基于第三调整因子即所述增益因子GL和GR,根据所述漫射音频信号和所述直接音频信号之间的能量比值来调整所述混响滤波器107c-1滤波的所述直接音频信号。
在本发明实施例中,所述混响调节器107c-2用于估计所述输入信号的直接漫射能量比,并控制增益,以便仅稍微改变所述输出信号的直接漫射能量比。根据本发明实施例,如果直接漫射能量比降低10–20%,则可以在不显著改变直接信号和漫射信号的感知平衡的情况下实现期望的效果。
直接漫射信号比可以根据所述左声道直接信号L5的能量Edir,L和右声道直接信号R5的能量Edir,R分别通过以下等式来确定:
和
并且,直接漫射信号比可以根据左声道信号LS2的能量Edif,L和右漫射信号声道RS2的能量Edif,R分别通过以下等式来确定:
和
根据本发明实施例,估计信号能量还可以采用一些时间平滑操作,例如使用一阶无限冲激响应(infinite impulse response,简称IIR)滤波器。从直接和漫射能量测量结果,可以如下估计直接漫射能量比RL和RR:
和
同样,可以分别通过输出漫射信号Edif,out,L和Edif,out,R的相应能量计算左输出信号声道和右输出信号声道(Lout和Rout)的直接漫射能量比RL,out和RR,out的:
和
然后,可以利用之前的结果确定以下关系:
和
取决于所选择的输入输出直接漫射能量比的设置(通常,可以使用在范围内的设置来实现期望的效果),所述最优增益因子GL和GR可以按如下确定。
假设所述混响滤波器107c-1产生的漫射信号与所述上混频器105a产生的原始漫射信号不相关,并且使用以下关系:
和
其中Edif,out,L和Edif,out,R可近似为:
Edif,out,L=Edif,L+GL·Erev,L和
Edif,out,R=Edif,R+GR·Erev,R。
根据得出:
和
为了减少计算复杂度,在本发明实施例中,可以通过结合所述混响滤波器107c-1的传递函数(同样在漫射信号假设下)根据Edir估计Erev,从而避免Erev的显式估计。
假设所述直接信号成分与声源的原始信号相关,所述漫射即环境信号成分与环境(混响)对所述直接声音成分的响应相关,将所述混响模块107c仅应用于所述直接信号是十分有益的,因为所述漫射信号已经包含自然存在于所述输入音频信号中的混响。由于漫射/环境成分通常在强直接成分出现之后丢失(通常是由于有损压缩利用的时间掩蔽效应),本发明的实施例允许向所述直接成分施加混响,其取代了缺失的环境成分。结果,环境成分中的所有空洞都得以填充(702),有效地减少了可听见的伪像。
从图5所示的实施例可以看出,在分别通过乘法单元107c-4和107c-3利用相应的增益因子GL和GR调整了人工混响信号Lrev和Rrev之后,该人工混响信号Lrev和Rrev被添加至加法器或求和单元107c-6和107c-5中的直接信号L5和R5。在最后阶段,分别通过加法器109a和109b,将修改后的直接信号L6和R6添加至漫射信号Ls2和Rs2,以获得最终输出信号Lout和Rout。
图6示出了用于将输入音频信号处理为输出音频信号如图1所示的输入音频信号101和输出音频信号103的音频信号处理方法600的示意图。所述音频信号处理方法600包括以下步骤:将所述输入音频信号101分解601成直接音频信号102a和漫射音频信号102b;通过扩展或增高所述直接音频信号102a的频率范围内的上转折频率,修改603所述直接音频信号102a以获得修改后的直接音频信号102a';将所述修改后的直接音频信号102a'与所述漫射音频信号102b进行合并605,以获得所述输出音频信号103。
图7示出了实施例提供的一种通过音频信号处理装置100和音频信号处理方法处理的一段原始未压缩音乐,压缩音乐和复原音乐的三个相应频谱图。所述压缩音乐的频谱图显示丢失了信号的高频部分,削弱了混响和瞬变。该复原音乐的频谱图中,恢复(701)了高频成分,以及混响(702)和瞬变(703)的部分。
尽管本发明的特定特征或方面可能已经仅结合几种实现方式或实施例中的一种进行公开,但此类特征或方面可以和其它实现方式或实施例中的一个或多个特征或方面相结合,只要对于任何给定或特定的应用是有需要或有利。而且,在一定程度上,术语“包括”、“有”、“具有”或这些词的其他变形在详细的说明书或权利要求书中使用,这类术语和所述术语“包含”是类似的,都是表示包括的含义。同样,术语“示例性地”,“例如”仅表示为示例,而不是最好或最优的。可以使用术语“耦合”和“连接”及其派生词。应当理解,这些术语可以用于指示两个元件彼此协作或交互,而不管它们是直接物理接触还是电接触,或者它们彼此不直接接触。
尽管本文中已说明和描述特定方面,但所属领域的技术人员应了解,多种替代和/或等效实现方式可在不脱离本发明的范围的情况下所示和描述的特定方面。该申请旨在覆盖本文论述的特定方面的任何修改或变更。
尽管以上权利要求书中的元件是利用对应的标签按照特定顺序列举的,除非对权利要求的阐述另有暗示用于实施部分或所有这些元件的特定顺序,否则这些元件不必限于以所述特定顺序来实施。
通过以上启示,对于本领域技术人员来说,许多替代、修改和变化是显而易见的。当然,本领域普通技术人员容易认识到除本文所述的应用之外,还存在本发明的众多其它应用。虽然已参考一个或多个特定实施例描述了本发明,但本领域普通技术人员将认识到在不偏离本发明的范围的前提下,仍可对本发明作出许多改变。因此,应理解,只要是在所附权利要求书及其等效物的范围内,可以用不同于本文具体描述的方式来实践本发明。
Claims (15)
1.一种用于将输入音频信号(101;L0,R0)处理为输出音频信号(103;Lout,Rout)的音频信号处理装置(100),其特征在于,所述音频信号处理装置(100)包括:
分解器(105),用于将所述输入音频信号(101;L0,R0)分解为直接音频信号(102a;L3,R3)和漫射音频信号(102b;Ls2,Rs2);
修改器(107),用于修改所述直接音频信号(102a;L3,R3),以获得修改后的直接音频信号(102a';L6,R6),其中所述修改器(107)包括带宽扩展器(107a),用于扩展所述直接音频信号(102a;L3,R3)的频率范围中的上转折频率;
合路器(109),用于将所述修改后的直接音频信号(102a';L6,R6)与所述漫射音频信号(102b;Ls2,Rs2)进行合并,以获得所述输出音频信号(103;Lout,Rout)。
2.根据权利要求1所述的音频信号处理装置(100),其特征在于,所述分解器(105)包括上混频器(105a),用于将所述输入音频信号(101;L0,R0)上混成多个上混音频信号(L1、C、R1、Ls和Rs),其中所述分解器(105)用于基于所述多个上混音频信号(L1、C、R1、Ls和Rs)生成所述直接音频信号(102a;L3,R3)和所述漫射音频信号(102b;Ls2,Rs2)。
3.根据权利要求2所述的音频信号处理装置(100),其特征在于,所述多个上混音频信号(L1、C、R1、Ls和Rs)包括中心音频信号(C),其中,所述分解器(105)还包括下混频器(105c),用于对所述多个上混音频信号(L1、C、R1、Ls和Rs)中的中心音频信号(C)进行下混,以获得所述直接音频信号(102a;L3,R3)。
4.根据权利要求2或3所述的音频信号处理装置(100),其特征在于,所述分解器(105)还包括均衡器(105b),用于均衡所述多个上混音频信号(L1、C、R1、Ls和Rs)。
5.根据上述权利要求任意一项所述的音频信号处理装置(100),其特征在于,所述带宽扩展器(107a)包括多个带通滤波器(107a-1),用于从所述直接音频信号(102a;L3,R3)中提取多个直接音频信号成分(Xl,Xh;B1–B6),其中每个直接音频信号成分与所述多个带通滤波器(107a-1)定义的多个频带中的对应频带相关联,所述带宽扩展器(107a)还包括能量估计器(107a-2l,107a-2h),用于针对所述多个频带中的每个频带,估计与所述对应频带相关联的所述直接音频信号成分的能量。
6.根据权利要求5所述的音频信号处理装置(100),其特征在于,所述带宽扩展器(107a)还包括谐波生成器(107a-4),用于当所述第二直接音频信号成分(XH)的能量(Ex;E4)小于所述第二直接音频信号成分(XH)的目标能量(Tx;T4)时,基于所述多个直接音频信号成分中的第一直接音频信号成分(Xl;XL1,B1)生成包括所述第一直接音频信号成分的谐波的调整直接音频信号成分(sh),从而调整所述多个直接音频信号成分中的第二直接音频信号成分(Xh;XH1,B4)。
7.根据权利要求6所述的音频信号处理装置(100),其特征在于,基于以下等式确定所述第二直接音频信号成分(Xh;XH1,B4)的目标能量(Tx;T4):
Tx=β1Tx-1,
其中Tx表示所述第二直接音频信号成分(Xh;XH1,B4)的目标能量,Tx-1表示与直接低于所述第二直接音频信号成分(Xh;XH1,B4)的频带的一个频带相关联的直接音频信号成分的目标能量,β1表示第一调整因子且β1<1。
8.根据权利要求6或7所述的音频信号处理装置(100),其特征在于,所述带宽扩展器(107a)还包括定标器(107a-5),用于通过基于所述第一直接音频信号成分(Xl;XL1,B1)的能量确定的缩放因子,对所述第二直接音频信号成分(Xh;XH1,B4)的调整直接音频信号成分(sh)进行缩放。
9.根据权利要求8所述的音频信号处理装置(100),其特征在于,所述定标器(107a-5)用于基于以下等式确定对所述第二直接音频信号成分(Xh;XH1,B4)的调整直接音频信号成分(sh)进行缩放的缩放因子Gh:
其中Th表示所述第二直接音频信号成分的调整直接音频信号成分(sh)的目标能量,Eh表示所述第二直接音频信号成分的调整直接音频信号成分(sh)的能量,其中,基于以下等式定义Th和Eh:
Th=Tx-l·Ex和
Eh=β2·El,
其中Ex表示所述第二直接音频信号成分的能量,El表示所述第一直接音频信号成分的能量,l表示泄漏因子,β2表示第二调整因子。
10.根据上述权利要求任意一项所述的音频信号处理装置(100),其特征在于,所述修改器(107)还包括瞬态修改器(107b),用于检测所述直接音频信号(102a;L3,R3)中的至少一个瞬变,修改所述直接音频信号(102a;L3,R3)中的瞬变。
11.根据上述权利要求任意一项所述的音频信号处理装置(100),其特征在于,所述修改器(107)还包括混响滤波器(107c-1),用于通过所述直接音频信号(102a;L3,R3)的不同频带的不同混响时长对所述直接音频信号(102a;L3,R3)进行过滤,其中与所述直接音频信号(102a;L3,R3)中的至少一个高频带相关联的混响时长大于与所述直接音频信号(102a;L3,R3)中的至少一个低频带相关联的混响时长。
12.根据权利要求11所述的音频信号处理装置(100),其特征在于,所述修改器(107)还包括混响调节器(107c-2),用于基于第三调整因子调整所述混响滤波器(107c-1)过滤的所述直接音频信号,其中所述第三调整因子取决于所述漫射音频信号(102b;Ls2,Rs2)的能量与所述分解器(105)提供的所述直接音频信号(102a;L3,R3)的能量之比。
13.根据权利要求12所述的音频信号处理装置(100),其特征在于,所述混响调节器(107c-2)用于基于所述第三调整因子调节所述混响滤波器(107c-1)过滤的直接音频信号,使得所述修改后的直接音频信号的能量与所述输出音频信号(103)的漫射音频信号的能量之比大于所述漫射音频信号(102b;Ls2,Rs2)的能量与所述分解器(105)提供的所述直接音频信号(102a;L3,R3)的能量之比的预定义分数。
14.一种用于将输入音频信号(101;L0,R0)处理为输出音频信号(103;Lout,Rout)的音频信号处理方法(600),其特征在于,所述音频信号处理方法(600)包括:
将所述输入音频信号(101;L0,R0)分解为(601)直接音频信号(102a;L3,R3)和漫射音频信号(102b;Ls2,Rs2);
通过扩展所述直接音频信号(102a;L3,R3)的频率范围中的上转折频率,修改(603)所述直接音频信号(102a;L3,R3),以获得修改后的直接音频信号(102a';L6,R6);
将所述修改后的直接音频信号(102a';L6,R6)与所述漫射音频信号(102b;Ls2,Rs2)进行合并(605),以获得所述输出音频信号(103;Lout,Rout)。
15.一种计算机程序,其特征在于,包括在计算机上执行时用于执行如权利要求14所述的方法(600)的程序代码。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2016/055622 WO2017157427A1 (en) | 2016-03-16 | 2016-03-16 | An audio signal processing apparatus and method for processing an input audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108604454A true CN108604454A (zh) | 2018-09-28 |
CN108604454B CN108604454B (zh) | 2020-12-15 |
Family
ID=55637338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680081853.XA Active CN108604454B (zh) | 2016-03-16 | 2016-03-16 | 音频信号处理装置和输入音频信号处理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10484808B2 (zh) |
EP (1) | EP3335218B1 (zh) |
CN (1) | CN108604454B (zh) |
WO (1) | WO2017157427A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109286080A (zh) * | 2018-10-23 | 2019-01-29 | 北京无线电测量研究所 | 一种极化装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210059758A (ko) * | 2018-09-18 | 2021-05-25 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 실제 실내에 가상 3d 오디오를 적용하는 장치 및 방법 |
JP7270836B2 (ja) * | 2019-08-08 | 2023-05-10 | ブームクラウド 360 インコーポレイテッド | 音響心理学的周波数範囲拡張のための非線形適応フィルタバンク |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1886782A (zh) * | 2003-11-26 | 2006-12-27 | 奥迪康有限公司 | 有效消除噪音的助听器 |
US20080069366A1 (en) * | 2006-09-20 | 2008-03-20 | Gilbert Arthur Joseph Soulodre | Method and apparatus for extracting and changing the reveberant content of an input signal |
CN102989174A (zh) * | 2006-05-04 | 2013-03-27 | 美国索尼电脑娱乐公司 | 获得用于控制游戏程序的运行的输入 |
US20130272526A1 (en) * | 2010-12-10 | 2013-10-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and Method for Decomposing an Input Signal Using a Downmixer |
CN103428609A (zh) * | 2012-05-22 | 2013-12-04 | 三星电子株式会社 | 用于去除噪声的设备和方法 |
US20140177857A1 (en) * | 2011-05-23 | 2014-06-26 | Phonak Ag | Method of processing a signal in a hearing instrument, and hearing instrument |
WO2015105775A1 (en) * | 2014-01-07 | 2015-07-16 | Harman International Industries, Incorporated | Signal quality-based enhancement and compensation of compressed audio signals |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6865430B1 (en) | 1999-09-10 | 2005-03-08 | David W. Runton | Method and apparatus for the distribution and enhancement of digital compressed audio |
US6606388B1 (en) | 2000-02-17 | 2003-08-12 | Arboretum Systems, Inc. | Method and system for enhancing audio signals |
US7039204B2 (en) * | 2002-06-24 | 2006-05-02 | Agere Systems Inc. | Equalization for audio mixing |
US7916876B1 (en) | 2003-06-30 | 2011-03-29 | Sitel Semiconductor B.V. | System and method for reconstructing high frequency components in upsampled audio signals using modulation and aliasing techniques |
CA2646961C (en) * | 2006-03-28 | 2013-09-03 | Sascha Disch | Enhanced method for signal shaping in multi-channel audio reconstruction |
JP4666229B2 (ja) | 2006-10-18 | 2011-04-06 | ソニー株式会社 | オーディオ再生装置 |
US8023660B2 (en) * | 2008-09-11 | 2011-09-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues |
KR101387195B1 (ko) * | 2009-10-05 | 2014-04-21 | 하만인터내셔날인더스트리스인코포레이티드 | 오디오 신호의 공간 추출 시스템 |
US9135920B2 (en) | 2012-11-26 | 2015-09-15 | Harman International Industries, Incorporated | System for perceived enhancement and restoration of compressed audio signals |
CN104240711B (zh) * | 2013-06-18 | 2019-10-11 | 杜比实验室特许公司 | 用于生成自适应音频内容的方法、系统和装置 |
EP2942982A1 (en) * | 2014-05-05 | 2015-11-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering |
-
2016
- 2016-03-16 CN CN201680081853.XA patent/CN108604454B/zh active Active
- 2016-03-16 EP EP16711998.1A patent/EP3335218B1/en active Active
- 2016-03-16 WO PCT/EP2016/055622 patent/WO2017157427A1/en active Application Filing
-
2018
- 2018-03-13 US US15/920,006 patent/US10484808B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1886782A (zh) * | 2003-11-26 | 2006-12-27 | 奥迪康有限公司 | 有效消除噪音的助听器 |
CN102989174A (zh) * | 2006-05-04 | 2013-03-27 | 美国索尼电脑娱乐公司 | 获得用于控制游戏程序的运行的输入 |
US20080069366A1 (en) * | 2006-09-20 | 2008-03-20 | Gilbert Arthur Joseph Soulodre | Method and apparatus for extracting and changing the reveberant content of an input signal |
US20130272526A1 (en) * | 2010-12-10 | 2013-10-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and Method for Decomposing an Input Signal Using a Downmixer |
US20140177857A1 (en) * | 2011-05-23 | 2014-06-26 | Phonak Ag | Method of processing a signal in a hearing instrument, and hearing instrument |
CN103428609A (zh) * | 2012-05-22 | 2013-12-04 | 三星电子株式会社 | 用于去除噪声的设备和方法 |
WO2015105775A1 (en) * | 2014-01-07 | 2015-07-16 | Harman International Industries, Incorporated | Signal quality-based enhancement and compensation of compressed audio signals |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109286080A (zh) * | 2018-10-23 | 2019-01-29 | 北京无线电测量研究所 | 一种极化装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3335218A1 (en) | 2018-06-20 |
CN108604454B (zh) | 2020-12-15 |
EP3335218B1 (en) | 2019-06-05 |
US10484808B2 (en) | 2019-11-19 |
WO2017157427A1 (en) | 2017-09-21 |
US20180213342A1 (en) | 2018-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1804238B1 (en) | Effect adding method and effect adding apparatus | |
EP2579252B1 (en) | Stability and speech audibility improvements in hearing devices | |
US10433056B2 (en) | Audio signal processing stage, audio signal processing apparatus, audio signal processing method, and computer-readable storage medium | |
KR101989062B1 (ko) | 오디오 신호를 향상시키기 위한 장치 및 방법 및 음향 향상 시스템 | |
US20070140511A1 (en) | Process of implementing low frequency of audio signal | |
US8213636B2 (en) | Method and a system for reconstituting low frequencies in audio signal | |
US10382857B1 (en) | Automatic level control for psychoacoustic bass enhancement | |
JP2001069597A (ja) | 音声処理方法及び装置 | |
CN106572419A (zh) | 一种立体声音效增强系统 | |
JP2012151767A (ja) | オーディオ信号処理装置およびオーディオアンプ | |
US10128809B2 (en) | Intelligent method and apparatus for spectral expansion of an input signal | |
CN108604454A (zh) | 音频信号处理装置和输入音频信号处理方法 | |
KR101903535B1 (ko) | 입력 오디오 신호를 조작하기 위한 장치 및 방법 | |
EP1374632A2 (en) | A method of modifying low frequency components of a digital audio signal | |
Sottek et al. | Perception of roughness of time-variant sounds | |
JP2004343590A (ja) | ステレオ音響信号処理方法、装置、プログラムおよび記憶媒体 | |
Mu | Perceptual quality improvement and assessment for virtual bass system | |
JP2008187547A (ja) | オーディオ装置 | |
JP6531418B2 (ja) | 信号処理装置 | |
JP2006064755A (ja) | 音声信号処理装置及びその方法 | |
Manish et al. | Improving Low Frequency Signal Reproduction in TV Audio | |
WO2013050605A1 (en) | Stability and speech audibility improvements in hearing devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |