CN114223031A - 协方差平滑的系统及方法 - Google Patents

协方差平滑的系统及方法 Download PDF

Info

Publication number
CN114223031A
CN114223031A CN202080054428.8A CN202080054428A CN114223031A CN 114223031 A CN114223031 A CN 114223031A CN 202080054428 A CN202080054428 A CN 202080054428A CN 114223031 A CN114223031 A CN 114223031A
Authority
CN
China
Prior art keywords
smoothing
frame
value
forgetting factor
frequency band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080054428.8A
Other languages
English (en)
Inventor
D·S·麦格拉思
S·布朗
J·F·托里斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN114223031A publication Critical patent/CN114223031A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)
  • Picture Signal Circuits (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开用于通过经由基于频带的频格设置遗忘因子而使多通道信号的协方差矩阵平滑来改进信号处理的方法及系统。本发明还公开一种用于基于瞬态检测而复位所述平滑的方法及系统。本发明还公开一种用于在频带转变期间对所述平滑重取样的方法及系统。

Description

协方差平滑的系统及方法
相关申请案的交叉引用
本申请案主张2019年8月1日申请的第62/881,825号美国临时专利申请案及2020年7月28日申请的第63/057,533号美国临时专利申请案的权益,所述申请案以引用的方式并入本文中。
技术领域
本公开涉及信号处理的改进。特定来说,本公开涉及处理音频信号以改进协方差平滑以用于改进处理。
背景技术
音频信号处理的方面包含向收听者呈现多通道音频,使得收听者可确定音频的虚拟空间位置,以给予收听者身历其境式体验。早期这种实施方案是立体声,其中收听者可在空间上确定声音来自哪个“方向”。
本技术的最近发展使用多通道系统的通道间相依性来呈现更完全身历其境式声音体验。这可包含使用音频通道的协方差矩阵。
发明内容
本文公开各种信号处理系统及方法。一些此类系统及方法可涉及使连续帧上的频带的协方差值平滑。
在一些实例中,公开一种用于使频带中的信号帧的序列的协方差矩阵的估计平滑的系统及方法,所述方法包括:针对所述信号帧,比较所述频带中的频格的有效计数与所述频带的频格的所要计数;将所述频带的遗忘因子运算为所述有效计数与所述所要计数的比率;及如果所述频带中的频格的所述有效计数小于所述所要计数,那么使用相对于目前帧的先前帧的所述协方差矩阵值的值的先前产生估计及所述遗忘因子来产生所述目前帧的所述协方差矩阵值的值的当前估计;其中所述比较、所述运算及所述产生由包含一或多个计算机处理器的系统执行。所述平滑协方差矩阵可用于通过减少由所述矩阵的粗略转变引起的假影来进一步改进信号处理。
在一些此类实例中,所述系统及方法可涉及将频格的有效数目计算为所述频带的滤波器组响应值的和。
在一些此类实例中,所述产生使用一阶滤波器。
在一些此类实例中,所述一阶滤波器包含所述目前帧的所述值与所述先前帧的所述先前产生估计之间的差,所述差由所述遗忘因子加权。
在一些此类实例中,所述系统及方法还包含:比较所述遗忘因子与最大遗忘因子;及将所述遗忘因子设置为所述经计算遗忘因子及所述最大允许遗忘因子中的最小值;其中所述比较及所述设置在产生所述当前帧的所述协方差矩阵的所述值的所述目前估计之前执行。
在一些此类实例中,所述系统及方法还包含检测瞬态是否发生在监测帧内;及响应于检测到所述瞬态发生而通过将所述监测帧的所述协方差矩阵值的值的当前估计设置为所述监测帧的协方差矩阵值的原始值且无需将所述遗忘因子用于所述监测帧来复位所述平滑。可通过使用回避去相关器的方面来执行所述检测。
在一些此类实例中,所述系统及方法还包含:存储所述目前帧的所述协方差矩阵的所述当前估计;及在频带上对所述存储当前估计重取样,以从一个频带结构转换为另一频带结构。
所述系统及方法可为音频信号解码器的部分。
本文所描述的一些或所有方法可由一或多个装置根据存储在一或多个非暂时性媒体上的指令(例如软件)执行。此类非暂时性媒体可包含存储器装置(例如本文所描述的存储器装置),其包含(但不限于)随机存取存储器(RAM)装置、只读存储器(ROM)装置等。因此,本公开中所描述的主题的各种创新方面可实施在其上存储有软件的非暂时性媒体中。所述软件可(例如)由控制系统的一或多个组件(例如本文所公开的组件)执行。所述软件可(例如)包含用于执行本文所公开的方法中的一或多者的指令。
本公开的至少一些方面可经由设备或若干设备实施。例如,一或多个装置可经配置用于至少部分执行本文所公开的方法。在一些实施方案中,设备可包含接口系统及控制系统。所述接口系统可包含一或多个网络接口、所述控制系统与存储器系统之间的一或多个接口、所述控制系统与另一装置之间的一或多个接口及/或一或多个外部装置接口。所述控制系统可包含以下至少一者:通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑或离散硬件组件。因此,在一些实施方案中,所述控制系统可包含一或多个处理器及操作性耦合到一或多个处理器的一或多个非暂时性存储媒体。
附图及以下具体实施方式中阐述本说明书中所描述的主题的一或多个实施方案的细节。将从具体实施方式、图式及权利要求书明白其它特征、方面及优点。应注意,下图的相对尺寸可不按比例绘制。各种图式中的相同元件符号及名称一般指示相同元件,但不同元件符号未必标示不同图式之间的不同元件。
附图说明
图1说明分离成样本、帧、频格及频带的信号通道的实例。
图2说明用于使用平滑算法使信号协方差矩阵平滑的实例性方法的流程图。
图3说明用于使用具有最大遗忘因子的平滑算法使信号协方差矩阵平滑的实例性方法的流程图(部分)。
图4说明用于使用具有瞬态检测的平滑算法使信号协方差矩阵平滑的实例性方法的流程图(部分)。
图5说明其中平滑算法在编码器中的实例性编码器/解码器系统。
图6说明其中平滑算法在解码器中的实例性编码器/解码器系统。
图7说明其中平滑算法作为DTX的部分的实例性编码器/解码器系统。
具体实施方式
本公开描述用于使估计矩阵(例如协方差矩阵)随时间的值(其包含其中估计是从少量样本计算的情况)平滑使得所述值的非平滑变化可引起例如输出(例如音频)中的显著假影的问题的方法及系统。
本公开还描述(尤其)使用瞬态检测来防止过度平滑值,以借此防止从平滑添加不想要假影。
本文所使用的术语“平滑”是指减少信号的循序帧的值的变化。例如减少循序帧上的协方差值的变化。
本文所使用的术语“协方差”是指两个信号的联合可变性的测量。例如信号的能量的协方差。
本文所使用的“协方差矩阵”是指多个信号的协方差的矩阵。“带状协方差矩阵”是指其中将每频格协方差矩阵的若干相邻频格组合成频带使得协方差可由明显更少数目(等于频带的数目)表示的协方差矩阵。例如,具有960个频格的输入可变成12个频带,其中960个频格均等或非均等地分布在12个频带中。针对本文所提供的实例,“协方差矩阵”被视为带状协方差矩阵。
本文所使用的“估计矩阵”是指样本协方差矩阵。如本文所使用,“协方差矩阵”及“平滑矩阵”包含估计矩阵。
本文所使用的术语“复数高级耦合”(CACPL)是指立体声编码的方法,其中左信号及右信号组合成中间(L+R)/2及侧(L-R)/2信号,且接着从中间预测侧信号。
本文所使用的术语“平滑算法”是指根据本公开使协方差矩阵平滑,特定来说,基于频带的有效频格计数来平滑。本文所使用的术语“平滑矩阵”是指由平滑算法修改的协方差矩阵。
本文所使用的术语“有效频格计数”是指频带中的频格的数目的实际计数或频带中的有效频格的计数的估计。频带中的有效频格的计数的估计的实例包含对所述频带的滤波器组响应值求和。
本文所使用的术语“遗忘因子”是指修改函数的一部分的重要性的加权值。
本文所使用的术语“DTX”是指处置不连续传输事件的编码器模块。
本文描述使输入通道的协方差平滑的问题的解决方案。此改进(例如)语音及音频服务(例如向用户提供身历其境式体验(例如虚拟现实、扩增实境)的语音及音频服务)的信号处理的技术。
在图1所展示的数字信号处理中,输入信号(通道)在时域中分成若干帧101。连续帧的序列可一起分组为“帧序列”102。在频域中,信号可分成称为频格103的频率间隔。给定帧处的给定频格称为样本106。频格可在频带104/105中分组在一起。这允许给定窗型帧/帧序列的给定频带上的统计平均(“窗”是应用于帧或帧序列的加权函数)。此平均的一个用途是用于估计音频通道之间的协方差。
未必所有频带都含有相同数目个频格。例如,较低频带104可具有比较高频带105低的每频带频格数目。这意味着:就统计分析来说,与较高频带所需要的相比,较低频带需要每频格更大的窗(更多帧)来产生有意义的统计结果。给定帧处的给定频格可具有与其相关联的信号能量,且可在频带及/或窗上平均化若干频格值。
协方差矩阵实例
以复数高级耦合(CACPL)作为实例,参数α(复数预测系数)及β(实数去相关系数)可从(2×2)中间侧协方差矩阵∑MS的元素计算。此矩阵在一系列分析频带1≤b≤B上计算。
Figure BDA0003491884700000041
Figure BDA0003491884700000051
其中式RXY(b)=X(b)Y(b)*中的项是在频带b上计算的信号X及Y的协方差。上标*表示值的复共轭转置。上述实例是2×2协方差矩阵。在各种实施方案中,任何数目个输入通道是可行的(例如具有4×4协方差矩阵的4通道系统)。上述实例是针对中间(M)及侧(S)信号,但所属领域的技术人员可针对其它信号类型外推上述情况。
平滑函数及遗忘因子
一般来说,可使用经设计以满足平滑要求的低通滤波器计算平滑矩阵。就平滑算法来说,平滑要求使得先前估计用于人为增加用于产生协方差矩阵的当前估计的频率样本(频格)的数目。在一些实施例中,从帧序列上的输入协方差矩阵A计算平滑矩阵
Figure BDA0003491884700000053
使用一阶自回归低通滤波器,所述一阶自回归低通滤波器使用过去及目前帧的估计矩阵值的加权和:
Figure BDA0003491884700000052
其中λ为遗忘因子或更新率(即,对先前估计数据的看重程度)且n为帧数目。在一些实施例中,此仅对第一帧之后的帧有意义,因为A[0]没有值。在一些实施例中,A[0]被给予值0以导致A[1]的平滑。在一些实施例中,A[0]被给予A[1]的值以导致A[1]无平滑。等式2中的算法是可用于平滑算法的算法的实例,但也可使用其它等式。例如,尽管等式2展示一阶低通滤波器,但也可使用更高阶滤波器设计。算法(平滑函数)的重要因子是使用先前平滑结果及遗忘因子来加强所述结果的影响的回顾方面。
遗忘因子
遗忘因子的效应是:随着平滑应用于连续帧上,先前帧的效应变得对经平滑(经调整)的帧的平滑影响越来越小。
当等式1中的遗忘因子是1(λ=1)时,无平滑发生且其实际上充当全通滤波器。当0<λ<1时,等式充当低通滤波器。λ越低,对旧协方差数据越看重,而λ越高,对新协方差考虑越多。超过1的遗忘因子(例如1<λ<2)实施为高通滤波器。在一些实施例中,实施最大可允许遗忘因子λmax。一旦频格/频带值变大,那么此最大值将确定算法的行为。在一些实施例中,λmax<1将总是在每个频带中实施一些平滑,不管所计算的遗忘因子是什么;且λmax=1将仅将平滑函数应用于具有比所要Nmin少的频格的频带,以使较大频带不平滑。
在一些所述实施例中,将特定频带的遗忘因子λb计算为最大允许遗忘因子λmax及频带中的频格的有效数目Nb与经确定以基于窗大小给出良好统计估计的频格的最小数目Nmin的比率中的最小值。
Figure BDA0003491884700000061
在一些实施例中,Nb为频带的频格的实际计数。在一些实施例中,Nb可从特定频带的频率响应的和计算,例如,如果频带的响应是r=[0.5,1,1,0.5,0,…,0],那么频格的有效数目Nb=sum(r)=0.5+1+1+0.5=3。在一些实施例中,λmax=1使得λb保持在合理范围内,例如0≤λb≤1。这意味着平滑成比例地应用于小样本估计,且完全无平滑应用于大样本估计。在一些实施例中,λmax<1,其迫使较大频带在一定程度上平滑,不管其大小如何(例如λmax=0.9)。在一些实施例中,可基于产生最佳主观结果的现有数据来选择Nmin。在一些实施例中,可基于期望多少初始(给定窗的初始帧之后的第一后续帧)平滑来选择Nmin
在实例中,使用具有较窄(即,良好统计分析所需的较少频格、较多帧)低频带及较宽(即,良好统计分析所需的较多频格、较少帧)高频带的分析滤波器组,这将具有增加较低频带中的平滑量及减少较高频带中的量(或如果λmax=1,完全无平滑)的效应。
图2中展示此方法的实例性过程流程。输入信号FFT(快速傅立叶变换)201针对输入信号的给定频带提供窗上的对应协方差矩阵。取得202所述频带的频格的有效计数。这可(例如)由频带的滤波器组响应值计算。由(例如)需要多少频格来提供窗的良好统计分析的主观分析确定203所要频格计数。通过取得计算频格数目与所要频格计数的比率来运算204遗忘因子。针对给定帧(除第一帧之外),基于针对先前帧所运算的新协方差值、当前帧的原始值及遗忘因子运算205新协方差矩阵值。由这些新值形成的新(平滑)矩阵用于进一步信号处理206。
图3展示最大允许遗忘因子的流程的实例性修改。如同图2中,针对频带运算301遗忘因子。另外,确定302最大允许遗忘因子。比较303值,且响应于计算因子小于最大允许因子而将计算因子用于平滑305中。如果计算因子大于最大允许因子,那么在平滑305中使用304最大允许因子。实例展示在因子相等(不大于)时使用计算因子,但可设想其中在因子相等时使用最小值的等效流程。
平滑复位
在一些实施例中,可期望避免瞬态上的平滑(信号量值的突然改变),因为此会在输出中产生不想要信号失真/假影。在这些实施例中,平滑可在其中检测到信号的瞬态的点“复位”。
先前时间帧的估计矩阵可经存储以促进当前帧的平滑值的计算。如果在所述帧期间在输入信号中检测到瞬态,那么可设置平滑函数以自我重新初始化。
当检测到瞬态时,将过去矩阵估计复位为当前估计,使得瞬态之后的平滑滤波器的输出是估计本身(未施加改变)。换句话说,针对复位帧,
Figure BDA0003491884700000071
在复位帧之后,后续帧可再次应用平滑函数,直到下一复位。
图4展示用于瞬态检测的流程的实例性修改。确定401是否检测到给定帧的瞬态。如果检测到瞬态,那么新矩阵值保持403相同于输入值。如果未检测到瞬态,那么对所述帧使用402常用平滑算法。平滑及非平滑(瞬态)帧值的组合(矩阵)用于信号处理404。
在一些实施例中,在任何通道上检测到瞬态时复位平滑。例如,如果存在N个通道,那么可使用N个瞬态检测器(每通道一个),且如果N个瞬态检测器中的任何者检测到瞬态,那么复位平滑或结束信号或结束平滑(完成平滑)。
针对立体声输入的实例,可确定通道足够相异(或可能相异),使得仅考虑左通道中的瞬态可意味着右通道中的重要瞬态可能未被适当平滑(且反之亦然)。因此,使用两个瞬态检测器(左及右)且这些中的任一者可触发整个2×2矩阵的平滑复位。
在一些实施例中,仅在特定通道的瞬态上复位平滑。例如,如果存在N个通道,那么仅使用M(<N,可能为1)个检测器。
针对一阶球形环绕声技术(First Order Ambisonics(FOA))输入的实例,可确定第一(W)通道比其它三个(X、Y、Z)更重要,且给定FOA信号之间的空间关系,后三个通道中的瞬态无论如何将很可能在W通道中反映。因此,系统可仅在W通道上使用瞬态检测器来设置以在其在W上检测到瞬态时触发整个4×4协方差矩阵的复位。
在一些实施例中,复位仅复位已经历瞬态的协方差元素。这将意味着第n通道中的瞬态将仅复位协方差矩阵的第n行及第n列(整行及整列)中的值。这可通过对每一通道进行单独瞬态监测来执行且任何给定通道上检测到的瞬态将触发对应于所述通道的协方差的矩阵位置复位到另一通道(且反之亦然,且一般来说,到其本身)。
在一些实施例中,复位仅发生在检测到瞬态的大多数/阈值数目个通道上。例如,在4通道系统中,只有在通道中的至少两者在相同帧中报告瞬态时可设置阈值以触发复位。
瞬态检测实例
瞬态检测器的实例是使用回避去相关器的回避增益性质,其可用于确定瞬态是否已发生在单个输入通道中。参阅(例如)US 9,747,909,其内容以引用的方式并入本文中。回避增益的突然减小发生于瞬态处。回避增益的改变可与阈值比较以确定是否发生瞬态。阈值可由提供准确瞬态检测的主观评估确定。
实例性瞬态检测器按以下方式工作:
1.输入信号经高通滤波以增强瞬态。
2.接着,高通滤波器输出信号的绝对值经低通滤波以确定信号包络。
3.使用具有略微不同截止频率(ωfs)的两个不同低通滤波器产生两个包络:快ef[n]及慢es[n]。
4.针对特定帧内的信号包络的每一时域样本n,其中1≤n≤N,如果
1.1es[n]<gd[n-1]ef[n] 等式4
那么回避增益gd减小到
Figure BDA0003491884700000081
否则允许增益依下缓慢升回到1:
Figure BDA0003491884700000082
其中τd是确定回避增益多快返回到1的时间常数。
5.如果当前帧上的回避增益已有较大改变,那么可认为已发生瞬态:即,
dg[1]-dg[N]>阈值 等式7
在一些实施例中,从回避增益确定瞬态的发生的方法是对满足上述条件的每一帧内的时域样本的数目/分率进行计数。如果此值超过特定阈值,那么确定帧含有瞬态。
尽管回避增益可用于平滑算法的瞬态检测,但可利用本技术中已知的瞬态检测的任何方法。
重取样(频带转变)
在一些实施例中,当通道的频带改变时,可将经历平滑的频带转换为新频带用于平滑。如果输入信号频带从一帧到下一帧在数目及/或带宽(例如由于编码器处的滤波器组切换)方面改变,那么可将所存储的(先前)矩阵估计重取样到新频带结构以便继续平滑机制的不间断操作。可通过采用频域中的开窗函数组(即,先前频带方案(即,先前滤波器组)的理想滤波器组量值响应)作为矩阵来计算频带结构之间的转换矩阵。
作为实例:
1是含有若干行先前理想滤波器组响应FR1的(B1×F)数组,且
2是含有新滤波器组理想响应FR2的(B2×F)数组。F是频格的数目。
Figure BDA0003491884700000083
Figure BDA0003491884700000091
将来自组1的频带b1转换为来自组2的频带b2的转换矩阵
Figure BDA0003491884700000092
的元素是:
Figure BDA0003491884700000093
其产生可用于将先前带状估计转换为新频带方案的(B1×B2)矩阵。
具有复位的平滑的实例
给定1×1协方差矩阵Ab[n]的单个频带b的实例,其中频带由3个频格(Nb=3)组成,但(主观)确定良好统计分析需要至少8个频格(Nmin=8)。这给出λb=3/8的频带遗忘因子。
如果初始带状协方差矩阵是(以粗体展示的第一帧及瞬态):
Ab[n]=[0.1,0.05,0.01,0.05,0.1,0,0.9,0.1,0.05,0.01,0.05]
且瞬态检测器具有以下输出以指示第一帧及第七帧含有瞬态:
T[n]=[1,0,0,0,0,O,1,0,0,0,0]
平滑协方差输出将看起来像:
Figure BDA0003491884700000094
归因于第一帧中所指示的瞬态,
Figure BDA0003491884700000095
中的第一帧保持相同于A[n]中的第一帧,因为平滑直到第二帧才开始。如果第一帧中无瞬态,那么可通过在一个实施例中将先前帧视为具有零值或在另一实施例中将先前帧视为具有等于其本身的值(情况取决于如何配置算法)来使第一帧平滑。在一些实施例中,第一帧总是标记为具有所检测的瞬态,不管是否发生任何实际检测。归因于平滑复位,
Figure BDA0003491884700000096
的第七值相同于来自A[n]的第七值。
第二帧使用其本身的值(0.05)、先前帧的“平滑”值(0.1)及遗忘因子(3/8)来计算
Figure BDA0003491884700000097
的平滑值(约0.813)。在此实例(一阶滤波器)中,公式为:
Figure BDA0003491884700000098
这针对后续帧重复,直到其到达帧7,其在T[n]中指定为具有瞬态。为此,
Figure BDA0003491884700000099
接着,后续帧再次由平滑函数计算(宛如帧7是初始帧)。
在一些实施例中,协方差矩阵平滑系统可集成到编码器中。图5中提供实例性系统。实例性编码器501针对信号504产生502一或多个协方差矩阵,在将信号504发送到解码器505之前,平滑算法503修改信号504。
在一些实施例中,协方差矩阵平滑系统可集成到解码器中。图6中展示具有平滑算法的解码器的实例。编码器601将信号602(例如音频通道)发送到解码器603。解码器603在执行进一步处理605之前应用平滑算法604(也可在平滑之前存在处理)。
在一些实施例中,协方差平滑也可在不连续传输(DTX)帧的情况中用于编码器中以稳定空间舒适噪声的参数化。在此例子中,在DTX帧期间,将归因于瞬态而不复位协方差平滑,而是将在进入/退出编解码器的DTX模式之后复位协方差平滑。图7中展示具有平滑算法的编码器的实例,其中编码器701具有并入平滑算法703的DTX模块702。
已描述本公开的若干实施例。然而,应了解,可在不背离本公开的精神及范围的情况下进行各种修改。因此,其它实施例在以下权利要求书的范围内。
实施协方差平滑的技术的运算装置可具有以下实例性架构。其它架构是可行的,其包含具有更多或更少组件的架构。在一些实施方案中,实例性架构包含一或多个处理器(例如双核心
Figure BDA0003491884700000102
处理器)、一或多个输出装置(例如LCD)、一或多个网络接口、一或多个输入装置(例如鼠标、键盘、触敏显示器)及一或多个计算机可读媒体(例如RAM、ROM、SDRAM、硬盘、光盘、快闪存储器等)。这些组件可在一或多个通信通道(例如总线)上交换通信及数据,其可利用各种硬件及软件来促进数据及控制信号在组件之间传送。
术语“计算机可读媒体”指参与将指令提供到处理器用于执行的媒体,其包含(但不限于)非易失性媒体(例如光盘或磁盘)、易失性媒体(例如存储器)及传输媒体。传输媒体包含(但不限于)同轴电缆、铜线及光纤。
计算机可读媒体可进一步包含操作系统(例如
Figure BDA0003491884700000101
操作系统)、网络通信模块、音频接口管理器、音频处理管理器及实况内容分配器。操作系统可为多用户、多处理、多任务、多线程、实时等。操作系统执行基本任务,其包含(但不限于):辨识来自网络接口706及/或装置708的输入及将输出提供到网络接口706及/或装置708;追踪及管理计算机可读媒体(例如存储器或存储装置)上的文件及目录;控制外围装置;及管理一或多个通信通道上的业务。网络通信模块包含用于建立及维持网络连接的各种组件(例如用于实施通信协议(例如TCP/IP、HTTP等)的软件)。
架构可在并行处理或对等基础设施中或具有一或多个处理器的单个装置上实施。软件可包含多个软件组件或可为单个代码主体。
所描述的特征可有利地在可在包含至少一个可编程处理器(其经耦合以从数据存储系统接收数据及指令及将数据及指令传输到数据存储系统)、至少一个输入装置及至少一个输出装置的可编程系统上执行的一或多个计算机程序中实施。计算机程序是可直接或间接用于计算机中以执行特定活动或带来特定结果的一组指令。计算机程序可以任何形式的编程语言(例如Objective-C、Java)编写(其包含编译或解译语言),且其可以任何形式部署,包含作为独立程序或作为模块、组件、子例程、基于浏览器的网页应用程序或适合用于运算环境中的其它单元。
适合于执行指令的程序的处理器包含(举例来说)各种计算机的通用及专用微处理器两者及唯一处理器或多个处理器或核心中的一者。一般来说,处理器将从只读存储器或随机存取存储器或两者接收指令及数据。计算机的基本元件是用于执行指令的处理器及用于存储指令及数据的一或多个存储器。一般来说,计算机还将包含用于存储数据文件的一或多个大容量存储装置或经操作性耦合以与所述一或多个大容量存储装置通信;此类装置包含磁盘(例如内部硬盘及可抽换磁盘)、磁光盘及光盘。适合于有形地体现计算机程序指令及数据的存储装置包含所有形式的非易失性存储器,其包含(举例来说):半导体存储器装置,例如EPROM、EEPROM及快闪存储器装置;磁盘,例如内部硬盘及可抽换磁盘;磁光盘;及CD-ROM及DVD-ROM光盘。处理器及存储器可由ASIC(专用集成电路)补充或并入ASIC中。
为提供与用户的互动,特征可在具有显示装置(例如CRT(阴极射线管)或LCD(液晶显示器)监视器或用于向用户显示信息的视网膜显示装置)的计算机上实施。计算机可具有触控表面输入装置(例如触控屏幕)或键盘及用户可通过其将输入提供到计算机的指针装置(例如鼠标或轨迹球)。计算机可具有用于从用户接收语音命令的语音输入装置。
特征可在包含后端组件(例如数据服务器)或包含中间件组件(例如应用程序服务器或因特网服务器)或包含前端组件(例如具有图形用户接口或因特网浏览器的客户端计算机)或包含其任何组合的计算机系统中实施。系统的组件可由任何形式或媒体的数字数据通信(例如通信网络)连接。通信网络的实例包含(例如)LAN、WAN及形成因特网的计算机及网络。
运算系统可包含客户端及服务器。客户端及服务器一般彼此远离且通常通过通信网络互动。客户端及服务器的关系凭借在相应计算机上运行且彼此具有客户端-服务器关系的计算机程序产生。在一些实施例中,服务器将数据(例如HTML页面)传输到客户端装置(例如为了向用户显示数据及从用户接收用户输入以与客户端装置互动)。在客户端装置处产生的数据(例如用户互动的结果)可在服务器处从客户端装置接收。
一或多个计算机的系统可经配置以凭借使在操作中引起系统执行动作的软件、固件、硬件或其组合安装在系统上来执行特定动作。一或多个计算机程序可经配置以凭借包含在由数据处理设备执行时引起设备执行动作的指令来执行特定动作。
尽管本说明书含有许多具体实施细节,但这些不应被理解为限制任何发明或可主张内容的范围,而应被视为描述专用于特定发明的特定实施例的特征。本说明书的单独实施例的背景中所描述的特定特征也可组合在单个实施例中实施。相反地,单个实施例的背景中所描述的各种特征也可单独实施或以任何适合子组合在多个实施例中实施。再者,尽管特征可在上文中描述为作用于特定组合且甚至最初如此主张,但在一些情况中,来自主张组合的一或多个特征可从组合移除,且主张组合可针对子组合或子组合的变型。
类似地,尽管图中以特定顺序描绘操作,但这不应被理解为要求以所展示的特定顺序或依循序顺序执行此类操作或执行所有说明操作以实现期望结果。在特定情境中,多任务及并行处理可为有利的。再者,上述实施例中的各种系统组件的分离不应被理解为在所有实施例中需要此分离,且应了解,所描述的程序组件及系统一般可一起集成在单个软件产品中或封装到多个软件产品中。
因此,已描述主题的特定实施例。其它实施例在以下权利要求书的范围内。在一些情况中,权利要求书中所列的动作可以不同顺序执行且仍实现期望结果。另外,附图中所描绘的过程未必需要所展示的特定顺序或循序顺序来实现期望结果。在特定实施方案中,多任务及并行处理可为有利的。
已描述本发明的若干实施方案。然而,应了解,可在不背离本发明的精神及范围的情况下进行各种修改。

Claims (15)

1.一种用于使频带中的信号帧的序列的输入协方差矩阵平滑的方法,所述方法包括:
针对所述信号帧,比较所述频带中的频格的有效计数与所述频带的频格的所要计数;
将所述频带的遗忘因子运算为所述有效计数与所述所要计数的比率;及
响应于确定所述频带中的频格的所述有效计数小于所述所要计数,使用相对于目前帧的先前帧的平滑矩阵的先前产生值及所述遗忘因子来产生所述目前帧的所述平滑矩阵的值;
其中所述比较、所述运算及所述产生由包含一或多个计算机处理器的系统执行。
2.根据权利要求1所述的方法,其中将频格的所述有效数目计算为所述频带的滤波器组响应值的和。
3.根据权利要求1到2中任一权利要求所述的方法,其中所述产生使用一阶滤波器。
4.根据权利要求3所述的方法,其中所述一阶滤波器包含所述目前帧的所述输入协方差矩阵的所述值与所述先前帧的所述平滑矩阵的所述先前产生值之间的差,所述差由所述遗忘因子加权。
5.根据权利要求1到4中任一权利要求所述的方法,其进一步包括:
比较所述遗忘因子与最大允许遗忘因子;及
将所述遗忘因子设置为所述遗忘因子及所述最大允许遗忘因子中的最小值;
其中所述比较及所述设置在所述产生所述目前帧的所述平滑矩阵的所述值之前执行。
6.根据权利要求1到5中任一权利要求所述的方法,其进一步包括:
检测瞬态是否发生在监测帧内;及
响应于检测到所述瞬态发生而通过将所述监测帧的所述平滑矩阵值的值设置为所述监测帧的所述输入矩阵值的原始值且无需使用所述遗忘因子来复位所述平滑。
7.根据权利要求6所述的方法,其中通过使用回避去相关器的方面来执行所述检测。
8.根据权利要求1到7中任一权利要求所述的方法,其中对所有通道执行所述检测。
9.根据权利要求8所述的方法,其中所述检测检测到所述瞬态发生于在所述监测帧的任何通道上检测到任何瞬态时。
10.根据权利要求8所述的方法,其中所述检测检测到所述瞬态仅发生于瞬态发生在特定通道上时。
11.根据权利要求1到10中任一权利要求所述的方法,其进一步包括:
存储所述目前帧的所述平滑矩阵;及
在频带上对所述存储平滑矩阵重取样。
12.一种系统,其包括:
一或多个计算机处理器;及
非暂时性计算机可读媒体,其存储在由所述一或多个计算机处理器执行时引起所述一或多个计算机处理器执行根据权利要求1到11中任一权利要求所述的操作的指令。
13.一种非暂时性计算机可读媒体,其存储在由一或多个计算机处理器执行时引起所述一或多个计算机处理器执行根据权利要求1到11中任一权利要求所述的操作的指令。
14.一种编码器,其包括根据权利要求12所述的系统。
15.一种解码器,其包括根据权利要求12所述的系统。
CN202080054428.8A 2019-08-01 2020-07-31 协方差平滑的系统及方法 Pending CN114223031A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962881825P 2019-08-01 2019-08-01
US62/881,825 2019-08-01
US202063057533P 2020-07-28 2020-07-28
US63/057,533 2020-07-28
PCT/US2020/044670 WO2021022235A1 (en) 2019-08-01 2020-07-31 Systems and methods for covariance smoothing

Publications (1)

Publication Number Publication Date
CN114223031A true CN114223031A (zh) 2022-03-22

Family

ID=72179201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080054428.8A Pending CN114223031A (zh) 2019-08-01 2020-07-31 协方差平滑的系统及方法

Country Status (13)

Country Link
US (1) US11972767B2 (zh)
EP (1) EP4008001A1 (zh)
JP (1) JP2022542427A (zh)
KR (1) KR20220042165A (zh)
CN (1) CN114223031A (zh)
AU (1) AU2020319893A1 (zh)
BR (1) BR112022000806A2 (zh)
CA (1) CA3147429A1 (zh)
CL (1) CL2022000258A1 (zh)
IL (1) IL289752A (zh)
MX (1) MX2022001150A (zh)
TW (1) TW202123221A (zh)
WO (1) WO2021022235A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024097485A1 (en) 2022-10-31 2024-05-10 Dolby Laboratories Licensing Corporation Low bitrate scene-based audio coding

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100392365B1 (ko) 2001-08-08 2003-07-23 한국전자통신연구원 음향 반향 제거기를 위한 동시통화 검출기에서의 동시통화 구간의 끝점 검출 지연 제거 장치 및 그 방법
ATE421845T1 (de) * 2005-04-15 2009-02-15 Dolby Sweden Ab Zeitliche hüllkurvenformgebung von entkorrelierten signalen
JP5321914B2 (ja) 2007-09-20 2013-10-23 日本電気株式会社 システム同定装置及びシステム同定方法
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
EP2327072B1 (en) * 2008-08-14 2013-03-20 Dolby Laboratories Licensing Corporation Audio signal transformatting
US8260209B2 (en) * 2009-11-18 2012-09-04 Futurewei Technologies, Inc. System and method for coordinated spatial multiplexing using second order statistical information
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
US9213703B1 (en) * 2012-06-26 2015-12-15 Google Inc. Pitch shift and time stretch resistant audio matching
US8983844B1 (en) * 2012-07-31 2015-03-17 Amazon Technologies, Inc. Transmission of noise parameters for improving automatic speech recognition
EP3462452A1 (en) 2012-08-24 2019-04-03 Oticon A/s Noise estimation for use with noise reduction and echo cancellation in personal communication
WO2014126688A1 (en) * 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
CN116665683A (zh) * 2013-02-21 2023-08-29 杜比国际公司 用于参数化多声道编码的方法
US10049685B2 (en) 2013-03-12 2018-08-14 Aaware, Inc. Integrated sensor-array processor
WO2014171920A1 (en) 2013-04-15 2014-10-23 Nuance Communications, Inc. System and method for addressing acoustic signal reverberation
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2838086A1 (en) 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
US9747909B2 (en) 2013-07-29 2017-08-29 Dolby Laboratories Licensing Corporation System and method for reducing temporal artifacts for transient signals in a decorrelator circuit
CN104347067B (zh) * 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
US9379924B2 (en) 2013-12-20 2016-06-28 King Fahd University Of Petroleum And Minerals Cognitive radio spectrum sensing with improved edge detection of frequency bands
US9502021B1 (en) * 2014-10-09 2016-11-22 Google Inc. Methods and systems for robust beamforming
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
KR102051436B1 (ko) 2015-04-30 2019-12-03 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 신호 처리 장치들 및 방법들
GB2548325B (en) 2016-02-10 2021-12-01 Audiotelligence Ltd Acoustic source seperation systems
EP3440671B1 (en) 2016-04-08 2020-02-19 Dolby Laboratories Licensing Corporation Audio source parameterization
EP3440670B1 (en) * 2016-04-08 2022-01-12 Dolby Laboratories Licensing Corporation Audio source separation
US10170134B2 (en) 2017-02-21 2019-01-01 Intel IP Corporation Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment
US11354536B2 (en) 2017-07-19 2022-06-07 Audiotelligence Limited Acoustic source separation systems
US10542153B2 (en) * 2017-08-03 2020-01-21 Bose Corporation Multi-channel residual echo suppression
EP3460795A1 (en) 2017-09-21 2019-03-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal processor and method for providing a processed audio signal reducing noise and reverberation
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
US10957337B2 (en) * 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US10638252B1 (en) * 2019-05-20 2020-04-28 Facebook Technologies, Llc Dynamic adjustment of signal enhancement filters for a microphone array

Also Published As

Publication number Publication date
KR20220042165A (ko) 2022-04-04
WO2021022235A1 (en) 2021-02-04
AU2020319893A1 (en) 2022-02-10
JP2022542427A (ja) 2022-10-03
MX2022001150A (es) 2022-02-22
US20220277757A1 (en) 2022-09-01
TW202123221A (zh) 2021-06-16
BR112022000806A2 (pt) 2022-03-08
IL289752A (en) 2022-03-01
CL2022000258A1 (es) 2022-10-07
EP4008001A1 (en) 2022-06-08
US11972767B2 (en) 2024-04-30
CA3147429A1 (en) 2021-02-04

Similar Documents

Publication Publication Date Title
EP2673778B1 (en) Post-processing including median filtering of noise suppression gains
DE112009001003B4 (de) Geräuschunterdrückungssystem mit zwei Mikrophonen
US9173025B2 (en) Combined suppression of noise, echo, and out-of-location signals
US9729965B2 (en) Percentile filtering of noise reduction gains
EP2393463B1 (en) Multiple microphone based directional sound filter
JP6242489B2 (ja) 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法
DE112016000287T5 (de) Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung
US20120095580A1 (en) Method and device for clipping control
EP2681735A2 (en) Noise adaptive beamforming for microphone arrays
DK3074975T3 (en) PROCEDURE TO OPERATE A HEARING SYSTEM AND HEARING SYSTEM
CN111081267B (zh) 一种多通道远场语音增强方法
US8233629B2 (en) Interaural time delay restoration system and method
JP2012524304A (ja) マルチチャネル信号のチャネル遅延パラメータを調整する方法及び装置
EP3275208B1 (en) Sub-band mixing of multiple microphones
CN114223031A (zh) 协方差平滑的系统及方法
AU2013391207B2 (en) Signal encoding method and device
EP4189677B1 (en) Noise reduction using machine learning
WO2015049334A1 (de) Verfahren und vorrichtung zum downmixen eines multikanalsignals und zum upmixen eines downmixsignals
TW490656B (en) Method and system for on-line blind source separation
CN113160846B (zh) 噪声抑制方法和电子设备
KR101944758B1 (ko) 스테레오 신호의 스테레오 이미지를 수정하기 위한 오디오 신호 처리 장치 및 방법
KR101779731B1 (ko) 업믹서에서의 적응적 확산 신호 생성
CN114500288A (zh) 带宽调整方法及装置、存储介质
RU2815754C2 (ru) Системы и способы для сглаживания ковариации
GB2536727B (en) A speech processing device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40062442

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination