CN115881146A - 用于动态语音增强的方法及系统 - Google Patents
用于动态语音增强的方法及系统 Download PDFInfo
- Publication number
- CN115881146A CN115881146A CN202110895493.XA CN202110895493A CN115881146A CN 115881146 A CN115881146 A CN 115881146A CN 202110895493 A CN202110895493 A CN 202110895493A CN 115881146 A CN115881146 A CN 115881146A
- Authority
- CN
- China
- Prior art keywords
- source input
- channel
- gain control
- control parameter
- audio source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000012545 processing Methods 0.000 claims abstract description 74
- 238000001514 detection method Methods 0.000 claims abstract description 54
- 230000001360 synchronised effect Effects 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000002238 attenuated effect Effects 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 5
- 230000003313 weakening effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/05—Generation or adaptation of centre channel in multi-channel audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
Abstract
本公开提供了一种用于语音增强的方法及系统。本公开的方法和系统可以对输入信号同时进行两个路径的信号处理。第一路径信号处理包括接收音频源输入并且基于第一增益控制参数对多音频源输入执行动态响度平衡。所述第二路径信号处理包括对音频源输入执行语音检测并且计算检测置信度;以及基于所述检测置信度,计算第二增益控制参数。第一路径信号处理和第二路径信号处理可以是同步的,也可以是异步的。本公开的方法还包括利用通过第二处理路径计算出的第二增益控制参数更新第一增益控制参数,并且基于更新后的第一增益控制参数,执行所述第一路径信号处理。
Description
技术领域
本公开总体涉及音频信号处理领域,尤其涉及用于音频源的动态语音增强的方法及系统。
背景技术
得益于高清有线电视和在线流媒体等新的媒体消费方式,并且随着大屏幕电视和显示器的出现,影院体验在消费市场中越来越受欢迎。这些媒体源通常伴随有多通道音频技术或通常称为环绕声技术。例如Dolby、THX和DTS等环绕声提供商自带多通道音频编码技术,可为源内容提供更好的空间音频分辨率。由于电影格式内容的主要目的是提供身临其境的环绕声体验,因此通常会牺牲语音清晰度而选择环绕声体验。虽然这在沉浸感和空间分辨率方面提供了很大的好处,但这经常导致语音质量不佳,有时甚至难以理解电影内容。为了提高电影内容源中的语音质量以提高清晰度和可听度,通常对电影内容应用语音增强的方法。
现有语音增强的一种常见方法是利用静态均衡。这种方法仅在200Hz至4kHz左右的音频通道上应用静态均衡,以增加语音频段的响度。这种实现只需要很少的系统资源,但这种方法中出现的失真是很明显的。因为这种实现方法在即使片段中没有语音或对话的情况下也一直在工作,因此会导致音调不平衡并放大了背景。一种更高级的方法是在每个时间帧内首先检测语音,然后根据检测结果自动处理音频信号。这种单路执行的方法要求语音的准确检测和系统处理的快速反应。但是,现有的一些方法无法快速准确地检测到语音,并且通常对信号进行染色而导致其听起来刺耳。
因此,需要一种改进的技术方案来克服现有方案中的上述缺陷。
发明内容
根据本公开的一方面提供一种动态语音增强的方法。该方法包括可以执行第一路径信号处理,所述第一路径信号处理包括接收音频源输入并且基于第一增益控制参数对音频源输入执行动态响度平衡。所述方法还包括可以执行第二路径信号处理,所述第二路径信号处理包括对音频源输入执行语音检测并且计算检测置信度,所述检测置信度指示所述音频源输入中出现语音的可能性,以及基于所述检测置信度,计算第二增益控制参数。所述方法进一步包括可以利用所述第二增益控制参数更新所述第一增益控制参数,并且基于更新后的第一增益控制参数,执行所述第一路径信号处理。
根据一个或多个实施例,所述音频源输入可以包括多通道源输入,所述对音频源输入执行语音检测并且计算检测置信度可以包括:从多通道源输入中提取中置通道信号;对中置通道信号执行归一化;以及对归一化后的中置通道信号执行快速自相关,所述快速自相关的结果代表检测置信度。
根据一个或多个实施例,所述基于检测置信度计算第二增益控制参数可以包括:基于检测置信度的对数函数,计算所述第二增益控制参数;对计算的所述第二增益控制参数进行平滑处理;以及对平滑后的所述第二增益控制参数进行限幅处理。
根据一个或多个实施例,所述音频源输入可以包括多通道源输入,所述对音频源输入执行动态响度平衡包括:从所述多通道源输入中提取中置通道信号;基于所述第一增益控制参数或更新后的第一增益控制参数,增强所述中置通道信号的响度,减弱其他通道信号的响度;以及将增强的中置通道信号和减弱的其他通道信号进行联结及混合处理,以生成输出信号。
根据一个或多个实施例,所述方法还可以包括在执行动态响度平衡之前,对所述音频源输入执行分频滤波处理。
根据一个或多个实施例,所述方法还可以包括:仅对音频源输入中的中频范围的信号执行动态响度平衡;以及将音频源输入中的低频范围和高频范围的信号以及经过动态响度平衡后的中频范围的信号进行联结并混合,以生成输出信号。
根据一个或多个实施例,所述音频源输入还包括双通道源输入,所述方法包括基于双通道源输入生成多通道源输入。
根据一个或多个实施例,所述基于双通道源输入生成多通道源输入可以包括:对所述双通道源输入的左通道信号和右通道信号执行互相关;以及按照组合比率生成所述多通道源输入。其中,所述组合比率取决于互相关的结果。
根据一个或多个实施例,所述第一路径信号处理和第二路径信号处理是同步或异步的。
根据本公开的另一方面提供一种用于语音增强的系统,其包括:存储器和处理器。该存储器配置为存储计算机可执行指令。该处理器配置为执行所述指令,以实现上述的方法。
附图说明
通过参考附图阅读对非限制性实施方案的以下描述,可更好地理解本公开,其中:
图1示意性示出了根据本公开的一个实施方案的一个或多个实施例的语音增强原理框图;
图2示例性示出了根据本公开的一个或多个实施例的语音检测的原理示意框图;
图3示例性示出了根据本公开的一个或多个实施例的基于语音检测估计增益的原理示意框图;
图4示例性示出了根据本公开的一个或多个实施例的动态响度平衡过程的示意图;
图5示出了根据本公开的另一个实施方案的一个或多个实施例的语音增强的示意图;
图6示出了根据图5的实施方案的一个或多个实施例的动态响度平衡过程的示意图;
图7示意性示出了根据本公开的一个或多个实施例的在源输入是双通道源输入的情况下,基于双通道源输入生成多通道源输入的过程;和
图8示意性示出了根据本公开的一个或多个实施例的用于动态语音增强的方法。
具体实施方式
应当理解,给出实施例的以下描述仅仅是为了说明的目的,而不是限制性的。在附图中示出的功能块、模块或单元中的示例的划分不应被解释为表示这些功能块、模块或单元必须实现为物理上分离的单元。示出或描述的功能块、模块或单元可以实现为单独的单元、电路、芯片、功能块、模块或电路元件。一个或多个功能块或单元也可以在公共电路、芯片、电路元件或单元中实现。
单数术语(例如但不限于“一”)的使用并不旨在限制项目的数量。关系术语的使用,例如但不限于“顶部”、“底部”、“左”、“右”、“上部”、“下部”、“向下”、“向上”、“侧”、“第一”,“第二”(“第三”等),“入口”,“出口”等用于书面说明是为了在具体参考附图时清楚,而非意图限制本公开或随附的权利要求书的范围,除非另外指出。术语“耦接”、“耦合”、“被耦合”、“耦合的”、“耦合器”和类似术语在本文中被广泛使用,并且可包括用于在其上固定、结合、粘结、紧固、附接、联合、插入、形成于其上或其中、连通,或否则与中间元件、一件或多件构件一起直接或间接地机械地、磁性地、电气地、化学地、可操作地关联,或者还可以包括但不限于是一个构件与另一个构件以统一方式一体地形成,的任何方法或装置。耦合可以在任何方向上发生,包括旋转地发生。术语“包括”和“诸如”是说明性的而非限制性的,除非另有说明,词语“可以”的意思是“可以,但不必须”。尽管在本公开中使用任何其他语言,但是在附图中示出的实施例是为了说明和解释的目的给出的示例,而不是本文的主题的唯一实施例。
为了克服现有技术方案的缺陷,改善语音输出的质量,从而给用户带来更好的体验,本公开提出了一种基于检测置信度主动检测音频源(例如,影院音频源)中的人类语音并动态增强语音响度的解决方案,该检测置信度指示音频源输入中出现语音的可能性。本公开的方法和系统可以对输入信号同时进行两个路径的信号处理。第一路径信号处理包括接收音频源输入并且基于第一增益控制参数对多音频源输入执行动态响度平衡。第二路径信号处理包括对音频源输入执行语音检测并且计算检测置信度;以及基于所述检测置信度,计算第二增益控制参数。第一路径信号处理和第二路径信号处理可以是同步的,也可以是异步的。本公开的方法还包括利用通过第二处理路径计算出的第二增益控制参数更新第一增益控制参数,并且基于更新后的第一增益控制参数,执行第一路径信号处理。本公开的方法和系统能够更好地增强语音的清晰度,提高用户对音频产品的使用体验感。
以下将参考附图对本公开的多个实施方案的多个实施例的动态语音增强的方法和系统进行详细的说明。图1示出了根据本公开的一个实施方案的一个或多个实施例的语音方法和系统原理示意框图。为了便于理解,本公开将按照方法和系统的主要处理过程参照若干模块来进行说明。本领域技术人员可以理解的是,参照模块说明旨在更加清楚地描述本方案,而非限制目的。
图1示出了根据本公开的一个实施方案的一个或多个实施例的示意图。如图1所示的一个或多个实施例中,本公开对音频源输入信号进行处理的方法和系统涉及以下几个部分:源输入模块102、动态响度平衡模块104、信号输出模块106、语音检测模块108、增益控制模块110。从图1中可以看出,本公开的方法和系统可以对输入信号同时进行两个路径的信号处理。第一路径信号处理主要用于对接收到的源输入信号执行动态响度平衡。第二路径信号处理用于对接收到的源输入信号执行语音检测并且估计增益。第一路径的信号处理与第二路径的信号处理可以同步执行,也可以异步执行。这取决于实际系统的处理能力和延迟要求。这种对源输入信号的双路径处理设计可以使得延迟最小化并且防止音频失真。例如,在第一路径信号处理和第二信号处理异步执行时,一方面,信号可以快速、低延迟的经过整个系统;另一方面,可以以相对较低的速率来估计增益,从而使得估计的增益具有更高的准确性和平滑度,这对防止音频失真有着极大的帮助。
参见图1,例如,第一路径信号处理可以包括:通过源输入模块102接收音频源输入信号,以及通过动态响度平衡模块104对接收的音频源输入信号基于当前增益控制参数进行动态平衡处理。第二路径处理例如可以包括:在语音检测模块108处,对从输入模块102接收的音频源输入信号进行检测并且计算检测置信度。第二路径处理例如还包括:基于计算出的检测置信度,增益控制模块110可以估计出新的增益控制参数。
由增益控制模块110估计的新的增益控制参数可以被用于更新动态响度平衡模块104当前使用的增益控制参数。由此,动态响度平衡模块104可以基于更新后的增益控制参数来执行第一路径信号处理。即,动态响度平衡模块104可以基于更新后的增益控制参数,对接收到的音频源输入信号执行动态响度平衡。经过动态响度平衡后的音频信号可以通过信号输出模块106输出。
音频源输入可以包括多通道源输入、双通道源输入以及单通道源输入。以下将结合附图分别描述不同的源输入的处理过程。图2示例性示出了根据本公开的一个或多个实施例的语音检测的原理示意框图,其中,音频输入源包括多通道源输入。图2所示的语音检测过程可以例如由图1中的语音检测模块108执行。如图2所示,首先执行中置通道提取,即从多通道源输入中提取中置通道信号。通常,大部分的语音信号都存在于中置通道中。然后,对提取出的中置通道信号执行归一化,以使得输入信号被按比例调节到相似的水平。归一化后的信号例如表示为以下等式(1):
xi_norm(n)=(xi(n)-μi)/σi (1)
其中,xi(n)表示第i时帧的第n个采样点的输入信号,xi_norm(n)表示第i时帧的第n个采样点的输出信号,即归一化后的信号。μi和σi是对应第i时帧的输入信号的均值和方差。
接着,对归一化后的信号执行快速自相关处理并且输出自相关结果。例如,快速自相关处理可以首先采用短时傅里叶变换(STFT)方法对归一化后的输入信号进行傅里叶变换,并且对经过傅里叶变换后的信号执行快速自相关。例如,快速自相关处理过程参见以下等式(2)-(4)。
Xi(z)=STFT(xi_norm(n)) (2)
Ci=norm(ci(n)) (4)
其中,Xi(z)是经过傅里叶变化后的信号,表示Xi(z)的共轭,iSTFT是短时傅里叶逆变换,ci(n)是第i时帧信号的自相关。接着,对ci(n)求范数得到Ci。例如,基于欧几里得(Euclidean)范数,得到最终的自相关结果的输出Ci。自相关结果的输出Ci代表检测置信度,该检测置信度可以指示所述中置通道信号中出现语音的可能性。
图3示例性示出了根据本公开的一个或多个实施例的基于语音检测来估计动态增益的方法和系统原理示意框图。图3所示的基于语音检测来估计动态增益的过程可以例如由图1中的增益控制模块110执行。例如,经由语音检测模块108参照图2所示的过程产生的检测置信度Ci作为输入增益控制模块110的输入。基于该输入,经过增益控制模块110中的处理后输出用于语音的增益(以下也可称为增益控制参数),以作为动态响度平衡模块104的输入。在一些示例中,增益的动态范围通过以下等式(5)来计算:
Gi=D0*ln(Ci+D1) (5)
其中,Gi表示动态控制模块的输出;D0和D1是动态增益波动范围的控制参数,该控制参数可以是大于零的实数;ln(·)是自然对数函数。在一些示例中,Gi可以作为增益控制模块110的输出,提供给动态响度平衡模块104。
在另一些示例中,还可以对Gi进一步处理,然后再作为增益控制模块104的输出。例如,对Gi执行平滑处理,以减少音频失真。此外,还可以利用软限幅器(soft limiter)来确保增益Gi_lim在合理的幅度范围内,例如可以采用以下等式(6)的正切函数作为软限幅器。
Gi_lim=tanh(αGi+β)+γ (6)
其中,α,β和γ是限幅器参数,这些参数取决于系统配置,α可以是大于零的实数,β和γ可以是非零实数。此时,Gi_lim可以作为增益控制模块110的输出。
图4示例性示出了根据本公开的一个或多个实施例的每个通道的动态响度平衡处理过程的示意图。图4的动态响度平衡处理可以由动态响度平衡模块104执行。例如,动态响度平衡模块104接收到多通道源输入之后,先执行通道提取,以提取出中置通道信号。然后基于增益控制参数,增强中置通道信号的响度,减弱其他通道信号的响度。然后,将增强的中置通道信号和减弱的其他通道信号进行联结及混合(concatenate and mix)处理,以生成输出信号。其中,增益控制参数可以是当前的增益控制参数,也可以是更新后的增益参数。例如,在第一路径信号处理和第二路径信号处理同步的情况下,对当前时帧(例如第i时帧)信号进行动态响度平衡所使用的增益控制参数是实时更新的计算出的增益控制参数,例如,实时更新的Gi或Gi_lim。而在第一路径信号处理和第二路径信号处理异步的情况下,由于包括语音检测和增益估计的第二路径信号处理的速度较慢,对当前时帧(例如第i时帧)信号进行动态响度平衡所使用的增益控制参数可以是用于对之前的时帧信号进行动态响度平衡所使用的增益控制参数,例如Gi-n或Gi-n_lim,n是大于0的整数,其取值可以根据系统的实际处理能力或工程师的实践经验而变化。此外,基于当前/更新的增益控制参数,中置通道中的信号和其他通道中的信号可以分别以不同的比率被分别增强和减弱。也就是说,可以基于当前/更新的增益控制参数,来分别进一步确定用于增强中置通道信号的响度的增强控制参数和用于减弱中置通道信号的响度的衰减控制参数。例如,可以通过比例计算、函数计算、或工程师根据系统要求或经验设定的其他计算方式来确定增强控制参数和衰减控制参数。由此,系统的总响度保持不变,但是每个通道的响度被动态平衡了。
图5示出了根据本公开的另一个实施方案的一个或多个实施例的方法和系统的示意图。在图5所示的一个或多个实施例中,本公开对音频源输入信号进行处理的方法和系统涉及以下几个部分:源输入模块502、动态响度平衡模块504、信号输出模块506、语音检测模块508、增益控制模块510。这些模块与图1中的对应模块102-110的工作原理基本相同。除此之外,图5所示的方法和系统还可以包括分频滤波处理模块512。可以理解的是,图5所示的处理过程与上述参考图1-4描述的处理过程的差别在于第一信号路径中增加了分频滤波处理。因此,从输入模块502接收到的源输入信号先经过分频滤波模块512的处理,再经过动态响度平衡模块504进行动态响度平衡处理。由于人类语音的频率范围基本在中频范围内,因此可以选择分频滤波器对输入信号进行处理,以将不同频率范围的信号区分开来。从而,增益控制仅应用于输入信号中的中频范围的信号,而输入信号中的其他频率范围的信号保持不变。通过增加的分频滤波处理,使得可以实现仅对源输入信号中的中频范围的信号进行动态响度平衡处理,以尽可能避免非语音频率范围中的失真。为了节省篇幅,以下仅针对图5与图1所示的实施方案的不同部分进行说明,其他相同部分请参照图1-4及其相关描述。
图6示出了根据图5的实施方案的一个或多个实施例的动态响度平衡过程的示意图。如图6所示,经过分频滤波处理之后的源输入信号可以包括中频、高频和低频范围的信号。接着,仅仅对中频范围的信号执行动态响度平衡。该动态响度平衡包括通道提取,以提取出中置通道信号。然后基于当前/更新的增益控制参数,增强中置通道信号的响度,减弱其他通道信号的响度。而多通道源输入信号中的低频范围和高频范围的信号将不进行动态响度平衡处理,而是直接与经过动态响度平衡后的中频范围的信号进行联结并混合处理,以生成输出信号。由此,可以更好的避免了由非语音信号带来的失真。
以上结合图1-图6介绍了在源输入是具有中置通道的多通道源输入的情况下执行的多个处理过程。本领域技术人员可以从本公开理解的是,如果源输入是单通道输入,则也可以执行上述图1-图6所示的处理过程,其中,中置通道提取的过程将被省略。即,对单通道源输入直接执行以上描述的两个路径的信号处理。
在源输入是双通道源输入的情况下,则需要在实现以上公开的方法和系统之前,提前增加一个中置提取过程,以使得基于双通道源输入生成多通道源输入。图7示意性示出了根据本公开的一个或多个实施例的在源输入是双通道源输入的情况下,基于双通道源输入生成多通道源输入的过程。
图7所示的上混音(upmixing)处理可以采用中置提取算法,从而实现基于双通道源输入,输出多通道源输入。一种中置提取算法例如可以包括计算左通道和右通道输入信号之间的互相关,并且将左通道输入信号和右通道输入信号组合成中置通道信号,其中组合比率取决于互相关,参见以下等式(7):
center(n)=θ*corr(left(n),right(n))*(left(n)+right(n)) (7)
其中,left(n)是左通道输入信号,right(n)是右通道输入信号,center(n)是中置通道信号,corr(·)代表互相关函数,θ是实践中的调音参数,θ大于0且小于等于1。
图8示意性示出了根据本公开的一个或多个实施例的用于动态语音增强的方法。如图8所示,该方法包括执行第一路径信号处理,该第一路径信号处理包括接收音频源输入并且基于第一增益控制参数对多音频源输入执行动态响度平衡S802。该方法还包括执行第二路径信号处理,所述第二路径信号处理包括:对音频源输入执行语音检测并且计算检测置信度S804;和基于该检测置信度,计算第二增益控制参数S806。该方法还可以包括利用第二增益控制参数更新第一增益控制参数S808,并且基于更新后的第一增益控制参数,执行第一路径信号处理S802。图8所示的方法可以由处理器执行。
本公开提供的方法和系统不仅可以应用于诸如Soundbar和立体声扬声器等消费产品,还可用于诸如剧院和音乐厅等影院应用中的产品。本公开提供的方法和系统能够更好地增强语音的清晰度,提高用户对音频产品和应用的使用体验感。本公开结合附图描述的上述方法和系统均可以由处理器来实现。
条款1.一种用于动态语音增强的方法,包括:执行第一路径信号处理,所述第一路径信号处理包括接收音频源输入并且基于第一增益控制参数对音频源输入执行动态响度平衡;执行第二路径信号处理,所述第二路径信号处理包括:对音频源输入执行语音检测并且计算检测置信度,所述检测置信度指示所述音频源输入中出现语音的可能性;和基于所述检测置信度,计算第二增益控制参数;以及利用所述第二增益控制参数更新所述第一增益控制参数,并且基于更新后的第一增益控制参数,执行所述第一路径信号处理。
条款2.根据条款1所述的方法,其中,所述音频源输入包括多通道源输入,所述对音频源输入执行语音检测并且计算检测置信度包括:从多通道源输入中提取中置通道信号;对中置通道信号执行归一化;和对归一化后的中置通道信号执行快速自相关,所述快速自相关的结果代表检测置信度。
条款3.根据前述条款中的任一项所述的方法,所述基于检测置信度计算第二增益控制参数包括:基于检测置信度的对数函数,计算所述第二增益控制参数;对计算的所述第二增益控制参数进行平滑处理;和对平滑后的所述第二增益控制参数进行限幅处理。
条款4.根据前述条款中的任一项所述的方法,其中,所述音频源输入包括多通道源输入,所述对音频源输入执行动态响度平衡包括:从所述多通道源输入中提取中置通道信号;基于所述第一增益控制参数或更新后的第一增益控制参数,增强所述中置通道信号的响度,减弱其他通道信号的响度;以及将增强的中置通道信号和减弱的其他通道信号进行联结及混合处理,以生成输出信号。
条款5.根据前述条款中任一项所述的方法,还包括在执行动态响度平衡之前,对所述音频源输入执行分频滤波处理。
条款6.根据前述条款中任一项所述的方法,还包括:仅对音频源输入中的中频范围的信号执行动态响度平衡;以及将音频源输入中的低频范围和高频范围的信号以及经过动态响度平衡后的中频范围的信号进行联结并混合,以生成输出信号。
条款7.根据前述条款中任一项所述的方法,其中所述音频源输入还包括双通道源输入,所述方法还包括基于双通道源输入生成多通道源输入。
条款8.根据前述条款中任一项所述的方法,其中,所述基于双通道源输入生成多通道源输入包括:对所述双通道源输入的左通道信号和右通道信号执行互相关;和按照组合比率生成所述多通道源输入;其中,所述组合比率取决于互相关的结果。
条款9.根据前述条款中任一项所述的方法,其中,所述第一路径信号处理和第二路径信号处理是同步或异步的。
条款10.一种动态语音增强的系统,其包括:存储器,配置为存储计算机可执行指令;以及处理器,配置为执行所述计算机可执行指令,以实现前述条款1-9中任一项所述的方法。
已经出于说明和描述的目的呈现了实施方案的描述。根据以上描述,可以对实施方案进行适当的修改和改变,或者可以从实践所述方法中获得这些修改和改变。例如,除非另有说明,否则所描述的方法中的一个或多个可由合适的装置和/或装置组合来执行。所述方法可以通过用一个或多个逻辑装置(例如,处理器)结合一个或多个另外的硬件元件(诸如存储装置、存储器、硬件网络接口/天线、开关、致动器、时钟电路等)执行存储的指令来执行。除了本申请中描述的顺序之外,所描述的方法和相关联的动作也可以以各种顺序并行和/或同时地执行。所描述的系统本质上是示例性的,并且可以包括另外的元件和/或省略元件。本公开的主题包括所公开的各种系统和配置以及其他特征、功能和/或性质的所有新颖且非显而易见的组合。
所述系统可以包括另外的或不同的逻辑,并且可以以许多不同的方式实现。处理器可以被实现为微处理器、微控制器、专用集成电路(ASIC)、数字信号处理器DSP、分立逻辑或这些和/或其他类型的电路或逻辑的组合。类似地,存储器可以是DRAM、SRAM、快闪存储器或其他类型的存储器。参数(例如,条件和阈值)和其他数据结构可以单独存储和管理,可以合并到单个存储器或数据库中,或者可以以许多不同的方式在逻辑上和物理上组织。程序和指令集可以是单个程序的部分,也可以是单独的程序,或者跨多个存储器和处理器分布。
如本申请中所使用的,以单数形式列举并且前面带有词语“一/一个”的元件或步骤应当被理解为并不排除多个所述元件或步骤,除非指出这种排除情况。此外,对本公开的“一个实施方案”或“一个示例”的参考并非意图解释为排除也并入所列举特征的另外实施方案的存在。上文已参考特定实施方案描述了本发明。然而,本领域的一般技术人员将理解,可在不脱离如所附权利要求书中陈述的本发明的较广精神和范围的情况下对其做出各种修改和改变。
Claims (10)
1.一种动态语音增强的方法,包括:
执行第一路径信号处理,所述第一路径信号处理包括接收音频源输入并且基于第一增益控制参数对音频源输入执行动态响度平衡;
执行第二路径信号处理,所述第二路径信号处理包括:
对音频源输入执行语音检测并且计算检测置信度,所述检测置信度指示所述音频源输入中出现语音的可能性;和
基于所述检测置信度,计算第二增益控制参数;以及
利用所述第二增益控制参数更新所述第一增益控制参数,并且基于更新后的第一增益控制参数,执行所述第一路径信号处理。
2.根据权利要求1所述的方法,其中,所述音频源输入包括多通道源输入,所述对音频源输入执行语音检测并且计算检测置信度包括:
从多通道源输入中提取中置通道信号;
对中置通道信号执行归一化;以及
对归一化后的中置通道信号执行快速自相关,所述快速自相关的结果代表检测置信度。
3.根据权利要求1所述的方法,其中,所述基于检测置信度计算第二增益控制参数包括:
基于检测置信度的对数函数,计算所述第二增益控制参数;
对计算的所述第二增益控制参数进行平滑处理;和
对平滑后的所述第二增益控制参数进行限幅处理。
4.根据权利要求1所述的方法,其中,所述音频源输入包括多通道源输入,所述对音频源输入执行动态响度平衡包括:
从所述多通道源输入中提取中置通道信号;
基于所述第一增益控制参数或更新后的第一增益控制参数,增强所述中置通道信号的响度,减弱其他通道信号的响度;以及
将增强的中置通道信号和减弱的其他通道信号进行联结及混合处理,以生成输出信号。
5.根据权利要求1-4中任一项所述的方法,还包括:在执行动态响度平衡之前,对所述音频源输入执行分频滤波处理。
6.根据权利要求5所述的方法,还包括:
仅对音频源输入中的中频范围的信号执行动态响度平衡;以及
将音频源输入中的低频范围和高频范围的信号以及经过动态响度平衡后的中频范围的信号进行联结并混合,以生成输出信号。
7.根据权利要求1所述的方法,其中,所述音频源输入还包括双通道源输入,所述方法还包括基于双通道源输入生成多通道源输入。
8.根据权利要求7所述的方法,其中,所述基于双通道源输入生成多通道源输入包括:
对所述双通道源输入的左通道信号和右通道信号执行互相关;以及
按照组合比率生成所述多通道源输入;
其中,所述组合比率取决于互相关的结果。
9.根据权利要求1所述的方法,其中,所述第一路径信号处理和第二路径信号处理是同步或异步的。
10.一种动态语音增强的系统,其包括:
存储器,配置为存储计算机可执行指令;以及
处理器,配置为执行所述计算机可执行指令,以实现权利要求1-9中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110895493.XA CN115881146A (zh) | 2021-08-05 | 2021-08-05 | 用于动态语音增强的方法及系统 |
JP2022110199A JP2023024295A (ja) | 2021-08-05 | 2022-07-08 | 動的音声強調のための方法及びシステム |
EP22184919.3A EP4131265A3 (en) | 2021-08-05 | 2022-07-14 | Method and system for dynamic voice enhancement |
KR1020220088509A KR20230021580A (ko) | 2021-08-05 | 2022-07-18 | 동적 음성 향상을 위한 방법 및 시스템 |
US17/879,561 US20230040743A1 (en) | 2021-08-05 | 2022-08-02 | Method and system for dynamic voice enhancement |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110895493.XA CN115881146A (zh) | 2021-08-05 | 2021-08-05 | 用于动态语音增强的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115881146A true CN115881146A (zh) | 2023-03-31 |
Family
ID=82608415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110895493.XA Pending CN115881146A (zh) | 2021-08-05 | 2021-08-05 | 用于动态语音增强的方法及系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230040743A1 (zh) |
EP (1) | EP4131265A3 (zh) |
JP (1) | JP2023024295A (zh) |
KR (1) | KR20230021580A (zh) |
CN (1) | CN115881146A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701921A (zh) * | 2023-08-08 | 2023-09-05 | 电子科技大学 | 多通道时序信号的时频特征提取电路及自适应抑噪电路 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI20045315A (fi) * | 2004-08-30 | 2006-03-01 | Nokia Corp | Ääniaktiivisuuden havaitseminen äänisignaalissa |
JP2010539792A (ja) * | 2007-09-12 | 2010-12-16 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチ増強 |
MY159890A (en) * | 2008-04-18 | 2017-02-15 | Dolby Laboratories Licensing Corp | Method and apparatus for maintaining speech audibiliy in multi-channel audio with minimal impact on surround experience |
TWI459828B (zh) * | 2010-03-08 | 2014-11-01 | Dolby Lab Licensing Corp | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 |
JP5528538B2 (ja) * | 2010-03-09 | 2014-06-25 | 三菱電機株式会社 | 雑音抑圧装置 |
WO2014043024A1 (en) * | 2012-09-17 | 2014-03-20 | Dolby Laboratories Licensing Corporation | Long term monitoring of transmission and voice activity patterns for regulating gain control |
US10546593B2 (en) * | 2017-12-04 | 2020-01-28 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
-
2021
- 2021-08-05 CN CN202110895493.XA patent/CN115881146A/zh active Pending
-
2022
- 2022-07-08 JP JP2022110199A patent/JP2023024295A/ja active Pending
- 2022-07-14 EP EP22184919.3A patent/EP4131265A3/en active Pending
- 2022-07-18 KR KR1020220088509A patent/KR20230021580A/ko unknown
- 2022-08-02 US US17/879,561 patent/US20230040743A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701921A (zh) * | 2023-08-08 | 2023-09-05 | 电子科技大学 | 多通道时序信号的时频特征提取电路及自适应抑噪电路 |
CN116701921B (zh) * | 2023-08-08 | 2023-10-20 | 电子科技大学 | 多通道时序信号自适应抑噪电路 |
Also Published As
Publication number | Publication date |
---|---|
US20230040743A1 (en) | 2023-02-09 |
JP2023024295A (ja) | 2023-02-16 |
KR20230021580A (ko) | 2023-02-14 |
EP4131265A2 (en) | 2023-02-08 |
EP4131265A3 (en) | 2023-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7471344B2 (ja) | 高次アンビソニックス信号表現を圧縮又は圧縮解除するための方法又は装置 | |
US20240205629A1 (en) | Processing object-based audio signals | |
US20200152210A1 (en) | Determining the inter-channel time difference of a multi-channel audio signal | |
US10311881B2 (en) | Determining the inter-channel time difference of a multi-channel audio signal | |
US9311923B2 (en) | Adaptive audio processing based on forensic detection of media processing history | |
CN101816191B (zh) | 用于提取环境信号的装置和方法 | |
US8082157B2 (en) | Apparatus for encoding and decoding audio signal and method thereof | |
US20130216047A1 (en) | Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program | |
US9313598B2 (en) | Method and apparatus for stereo to five channel upmix | |
KR20110114605A (ko) | 다운믹스 오디오 신호를 업믹싱하는 업믹서, 방법 및 컴퓨터 프로그램 | |
BRPI0913460B1 (pt) | Aparelho e método para prover um conjunto de indicadores espaciais na base de um sinal de microfone e aparelho para prover um sinal de áudio de dois canais e um conjunto de indicadores espaciais | |
EP4131265A2 (en) | Method and system for dynamic voice enhancement | |
US9601124B2 (en) | Acoustic matching and splicing of sound tracks | |
EP3353786B1 (en) | Processing high-definition audio data | |
US9928842B1 (en) | Ambience extraction from stereo signals based on least-squares approach | |
US20220383889A1 (en) | Adapting sibilance detection based on detecting specific sounds in an audio signal | |
CN113646836A (zh) | 声场相关渲染 | |
US20230104933A1 (en) | Spatial Audio Capture | |
Lee et al. | On-Line Monaural Ambience Extraction Algorithm for Multichannel Audio Upmixing System Based on Nonnegative Matrix Factorization | |
CN117501361A (zh) | 用于重合立体声捕获的声道间时差(itd)估计器的提高的稳定性 | |
CN114827886A (zh) | 音频生成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |