CN110301003B - 改进解码用实际三维声内容的子频带中的处理 - Google Patents

改进解码用实际三维声内容的子频带中的处理 Download PDF

Info

Publication number
CN110301003B
CN110301003B CN201780079018.7A CN201780079018A CN110301003B CN 110301003 B CN110301003 B CN 110301003B CN 201780079018 A CN201780079018 A CN 201780079018A CN 110301003 B CN110301003 B CN 110301003B
Authority
CN
China
Prior art keywords
dimensional
matrix
dimensional acoustic
decoding
frequency band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780079018.7A
Other languages
English (en)
Other versions
CN110301003A (zh
Inventor
马修·巴奎
亚历山大·格汗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Publication of CN110301003A publication Critical patent/CN110301003A/zh
Application granted granted Critical
Publication of CN110301003B publication Critical patent/CN110301003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种由计算机装置实施,用于处理包括定义一系列三维声频道的多阶的多个三维声分量的三维声内容的方法,其中每个三维声频道都表示三维声分量,方法包括:‑在多个频带中三维声分量的频率过滤,‑编译三维声解码矩阵(B),‑处理三维声解码矩阵(B),以通过矩阵尺寸缩减,提取每个与三维声阶和三维声阶用频带相关的多个三维声解码子矩阵(B1,B2)‑解码子矩阵于每个被选择频带中三维声分量的分别应用,以及所述相应应用结果的逐带重构,以传输多个解码的信号,每个解码的信号与声源相关。

Description

改进解码用实际三维声内容的子频带中的处理
技术领域
本发明涉及音频或声频信号处理领域,更具体地说,涉及环绕声格式(或下文中的“三维声”)中的实际多频道声音内容的处理。
背景技术
三维声技术包括在每个频带中使用寻求指向性特征的频道子集。作为应用示例,可以提及:
-声源分离:
o用于娱乐(卡拉OK:语音压缩);
o用于音乐(混合多频道内容中的分离源);
o用于电信(语音增强,噪声抑制);
o用于家庭自动化(语音控制);
o多频道音频编码。
-多频道扩散的解码:
o用于电影院;
o用于音乐;
o用于虚拟现实。
三维声包括保护球谐函数基的声场(图1中所示的基),以获得声场的空间性代表。函数
Figure BDA0002101050070000011
是阶m和指数nσ的球谐,取决于球面坐标(θ,φ),,由下列公式定义:
Figure BDA0002101050070000012
其中,
Figure BDA0002101050070000021
是涉及勒记德多项式的极性函数:
Figure BDA0002101050070000022
对于n≥1时,∈0=1和∈0=2
Figure BDA0002101050070000023
如图1所示,球谐振基的第一“矢量”(图1中的顶部)对应于阶m=0,下列行中的三个“矢量”对应于阶m=1(根据空间三个方向定向)等等。
在实践中,使用通常球状分布的传感器网络进行实际三维声编码,传感器的组合方式是为了合成频道最能符合球函数方向性的三维声内容(如图2所示)。参考图2,扩音器MIC包括根据空间到达各种方向接收声波的多个压电腔盒C1,C2.......。接收来自腔盒信号的处理单元UT,使用下文所述过滤器矩阵执行三维声编码,并传输三维声信号(图1所示类型的球函数基中形式化)。
发明内容
下文将描述三维声编码的基本原理。
三维声形式化,最初仅限于阶1球谐函数的代表,随后延伸到更高阶。具有较高分量数的三维声形式化,通常称为“高阶三维声”(或下文中的“HOA”)。
对于每个阶,m对应2m+1球谐函数,如图1所示。因此,阶M内容包含共计(M+1)2个频道(4个有阶1的频道,9个有阶2的频道,16个有阶3的频道,以此类推)。
下文中所述的术语“三维声分量”,表示每个三维声频道中的三维声信号,参考可能由每个球谐函数形成的矢量基中的“矢量分量”。因此,例如,可计算:
-一个三维声分量,对于阶m=0;
-三个三维声分量,对于阶m=1,
-五个三维声分量,对于阶m=2,
-七个三维声分量,对于阶m=3等等。
针对这些各种分量捕获的三维声信号,在N个频道上分布,该频道数量从提供给声场中捕获的最高阶中推导。例如,如果使用带有20个压电腔盒的三维声扩音器捕获声场,最大捕获的三维声阶为M=3,因此,不超过20个频道N=(M+1)2,考虑的三维声分量数量是7+5+3+1=16,频道数N=16,这是通过关系N=(M+1)2给定,其中,M=3。
包含在自由场中传播的N个入射声源si(θi,φi)的阶M的三维声捕获x(t),可采用下列矩阵形式,以数学方式写成:
Figure BDA0002101050070000031
其中A是称为“混合矩阵”的矩阵,其尺寸为(M+1)2x N,其中每个列Ai包含源i的混合系数。
实际上,矩阵A对应每个源i的编码系数,与每个源i的每个方向相关联。为了从这些内容中提取源,必须估计称为“分离矩阵”的矩阵B,即矩阵A的倒数。为了获得矩阵B,可以实施盲源分离的步骤,例如,通过使用独立分量分析(或下文中的“ICA”)算法或主分量分析算法。矩阵B=A-1允许通过下列操作提取源:
s(t)=Bx(t)
该步骤相当于形成波束(或下文中的“波束形成”),即,组合具有单独方向性的各种频道,以创建具有所需方向性的新分量。图3显示了针对阶2、3或4的HOA内容,从这些分量中提取阶中波束形成的示例。阶越高,波束形成的指令越多,可以提取的分量数越高。
在实践中,生成的三维声信号x(t)=As(t)通过扩音器捕获的中间步骤,如图2所示,其中源s(t)由扩音器的腔盒捕获,以形成信号p1,p2,p3…。随后将扩音器编码矩阵E格式化,获得x(t)=E.p(t),以获得三维声分量x1,x2,…,xN(在如图4所示的N三维声频道)。参考图4,估计矩阵A的逆解码矩阵B,如上所述,以确定源信号s1,s2,s3:
s(t)=Bx(t)
如需解码扩音器系统上的HOA内容,方法是相似的。获得了N频道x1,x2,...,xN中的三维声信号,但是,不是将s(t)视为源的分布之和,将s(t)视为一组扩音器发出的信号之和(这可以有效地为这些扩音器提供信号s1,s2,s3…)。因此,根据用于源分离提取的相同方法,使用声音恢复系统的扩音器位置和用于扩音器的信号位置,对解码矩阵B进行格式化处理。
实际上,所使用的传感器具有物理限制,会导致扩音器编码的降级,并因此降低三维声分量的指向性。例如,当传感器之间的间距大于一半波长时,高频率的编码会降级:这是由于空间混叠的现象。在低频时,扩音器腔盒往往变得全向,不可能获得所寻求的方向性。更确切地说,当需要合成高阶三维声分量时,低频处的降解更加明显。通常情况下,相关的方向性更复杂,因此,对传感器属性变化更敏感。图5示出了根据频率和三维声阶,使用配有32腔盒的球形扩音器的理论编码和实际编码之间的相关程度。图5示出了对于1kHz和10kHz间频率,通常达到最高相关度。但是,对于其他频率范围(除了三维声阶0和1),提取源并不总是导致相同源的理论编码和实际编码的相同结果。更准确地说,对于[1kHz-10kHz]区间外的频率,分量提取可能会降级。
图6示出了根据声音频率,在阶0,1,2和3的第一分量水平面中的实际指向性。在图6中,似乎没有适当地编码实际分量。实际上,如果示例视为10kHz频率下阶0的分量,观察到它不是圆形,与理论分量和在300Hz至1000Hz间频率下计算的相同分量相反。因此,不考虑在10kHz频率下该分量的指向性,这可能导致降级的空间分辨率。此外,阶1,2和3的分量也具有低于10kHz频率的偏向方向性。
更常见得是,当不符合理论指向性时,实施的波束形成不再能够适当地提取所寻求的分量。例如,这会导致源过程中出现干扰。这也可能导致多频道扩散所涉及的频带中空间分辨率的降级。更具体地,观察到编码期间高阶中低频能量损失。这导致由于高阶频道而导致的源提取可能会在相关频率中损失部分能量。
用于源分离或用于理想三维声内容或多频道捕获恢复的波束形成的使用,已特别用于分离或用于多频道解码。对于源分离,使用通过独立分量分析估计的混合矩阵的倒数,以提取源。对于多频道解码,可以求逆与扩音器有关的三维声系数的矩阵。另一方面,在现有技术中没有提到受录音系统的物理限制影响的实际三维声内容的处理。目前提出的唯一解决方案是限制提取源的总带宽,这无法令人满意。
本发明改善了这种情况。
为此,提出了一种方法,其由计算机装置实施,用于处理包括定义一系列三维声频道的多阶的多个三维声分量的三维声内容的方法,其中每个三维声频道都表示三维声分量,方法包括:
-在多个频带中三维声分量的频率过滤,
-编译三维声解码矩阵,
-处理三维声解码矩阵,以通过矩阵尺寸缩减,提取每个与三维声阶和三维声阶用频带相关的多个三维声解码子矩阵
-解码子矩阵到每个被选择频带中三维声分量的分别应用,以及所述相应应用结果的逐带重构,以传输多个解码的信号,每个解码的信号与声源相关。
术语“声源”是指:
-有效地识别,并位于三维空间的声源(在源提取技术中),在这种情况下,解码矩阵是一个源分离矩阵,
-数个扩音器中的一个扩音器,其位置在空间中很好地识别,并配置有述解码信号之一的信号。
频带可由数个频带或子频带定义。
针对每个频带和和每个三维声阶的三维声解码子矩阵的发展,使得有可能在每个频带中从最大数量三维声频道中受益,这实际上在每个子矩阵中有效,以恢复没有或几乎没有降级的解码信号。
根据一个实施例,在所述被选择的频带中,每个三维声解码子矩阵与根据与所述子矩阵相关联的阶的三维声分量的有效性标准被选择的频带相关联。
这样的实施例使得可以隔离形成每个阶的三维声分量,以便在其有效的频率范围内对其进行处理。术语“有效”表示符合理论三维声代表,例如,图5示例中频带4000Hz至6000Hz中阶m=4,或者频带2000Hz至9000Hz中的阶m=3。
因此,在一个实施例中,分量的有效性标准可以通过由至少一个三维声扩音器捕获所述三维声分量的条件来定义。
在一个实施例中,例如,方法可以进一步包括:
-从用于捕获所述三维声分量的至少一个三维声扩音器接收数据;
-根据所述三维声扩音器数据确定被选择用于构建所述子矩阵的频带。
了解用于三维声捕获的三维声扩音器的数据,使得可以改善被选择用于子矩阵发展频带的确定。实际上,在三维声分量严格符合相关频带中有效性标准的子矩阵上完成三维声处理。
但是,用于捕获的三维声扩音器的数据并不总是可以访问。因此,可选择地,可以规定使用在多个三维声扩音器上实施测量而提前确定的图表的频带的确定,以便建立与三维声阶相关的“平均”频率范围,其中每个三维声阶的三维声分量通常符合上述有效性标准。
因此,根据一个实施例,与三维声阶和被选择用于三维声阶的频带相关联的每个三维声解码子矩阵
对于三维声阶m=1,频带可以在100Hz到10kHz范围内选择,
对于三维声阶m=2,频带可以在500Hz到10kHz范围内选择,
对于三维声阶m=3,频带可以在2000Hz到9000Hz范围内选择,
对于三维声阶m=4,频带可以在3000Hz到7000Hz范围内选择。
在通过快速傅里叶变换(FFT)获得频带的一个实施例中,与三维声阶相关联的频带可以包括数个频带FFT。因此,数个频带可以与三维声阶相关联。
在使用FFT的实施例示例中,对于以48kHz采样且FFT大小为4096个点(212)的信号,10至910号的频带对应于100kHz至10kHz的频带,且与三维声阶m=1相关联。
因此,即使用于三维声分量捕获的三维声扩音器的数据不可访问,也可以根据每个三维声阶频带的平均值来定义有效性标准。
根据特定实施例,三维声解码矩阵的处理包括:
-对发展的三维声解码矩阵求逆,以获得混合矩阵,其中:
*行对应相应的三维声频道,以及
*列对应声源,
-为了通过矩阵尺寸缩减,提取每个与与三维声阶和被选择的频带相关联的多个混合子矩阵,处理混合矩阵
-对混合子矩阵求逆,以分别获得所述三维声解码子矩阵。
因此,可以理解,在图5示例中,4000Hz至6000Hz间阶m=4分量的频率过滤,使得可以通过保留第一个25三维声频道构造子矩阵,特别是混合子矩阵(上文中矩阵标记为A),N=(m+1)2=25行。但是,为此,最好在频带4-6kHz中充分表示三维声信号,如下文所述。此外,如果三维声信号也在低频中很好地表示,例如在100Hz至200Hz之间,则可以进一步构造阶m=1的子矩阵,N=4行。因此,最终有可能获得多个混合子矩阵,每个与三维声阶m相关联,每个包括多个与该阶m的多个有效三维声频道相互对应的多个行,且在子矩阵相关联的频带中。
在一个实施例中,针对源分离实施三维声内容的处理,且所述解码矩阵是从三维声分量发展的盲源分离矩阵。
例如,可以使用在被选择的频带上过滤的三维声分量来发展分离矩阵,优选根据上述标准的有效三维声频道的数量最大。
因此,在最高的三维声阶处保留代表精度的频道,但也为了在较低三维声阶处保留该频带中正确表示频道的最大值。
在该实施例中,可以通过减少每个子矩阵的列数,在对混合子矩阵求逆前简化混合子矩阵,其中子矩阵剩余列是以在解码子矩阵应用后保留最高能量的信号的方式选择的。
实际上,采用保留最高能量信号使得可以更好地表示,因此更好地恢复声音场。
作为补充或备选,可以根据选择独立标准选择最不相关或最独立的信号提取信号。
因此,在该实施例中,通过减少每个子矩阵的列数,在对混合子矩阵求逆之前简化混合子矩阵,其中子矩阵剩余列是以在解码子矩阵应用后保留最不相关信号的方式选择的。
此外,在混响环境中,信号来自每个源“自由场”等效传播和声环境壁上反射的直接场形成。因此,在可选或补充实施例中,通过减少每个子矩阵的列数,在对混合子矩阵求逆之前简化混合子矩阵,其中子矩阵剩余列是以在解码子矩阵应用后保留与直接声场相对应的信号的方式选择的。
当然,三维声内容的处理是针对多个扩音器的三维声恢复而进行,解码矩阵B)是所述扩音器相对空间位置的逆矩阵。
在下文参考图9所示的实施例中,对于分解为频率子频带的三维声内容,该方法包括特别是,解码子矩阵的应用,通过以下方式获得:
-对于内容的每个三维声阶,确定在其上所述阶符合三维声编码预定有效性标准的频带,
-基于所述频带,将滤波器组应用于三维声内容,以在子频带中产生对应于该子频带中有效三维声频道的各种尺寸的多个信号,
-在最大三维声阶和相关混合矩阵的频带中确定所述解码矩阵的最大尺寸,对解码矩阵求逆或伪逆,
-对于每个其他频带,确定缩减尺寸的混合矩阵、所述混合矩阵的子矩阵和解码子矩阵,对所述混合子矩阵的求逆或伪逆的确定,
-通过将合成滤波器组应用于来自所述信号与所述矩阵的乘积的分离信号对全频带分离信号进行重构。
本发明还涉及一种计算机程序,包括指令,当该程序由处理器执行时用于实施该方法。这种程序的常规算法的示例逻辑图,如下文图7所示,详见图8和图9。
本发明还涉及一种计算机装置,包括:
-用于接收三维声分量信号的输入界面,
-用于提供解码信号的输出界面,每个与声源相关联,
-和实施方法的计算机程序。
图10中示出了这种装置的一个例子,下文将详细说明。
因此,本发明提出了利用指向性遵循三维声形式化的所有频道的每个频带,使用采用实际三维声编码的光束形成。上文提出的实施例,使得可以确定对应于从理论矩阵A获得的子矩阵的一个或多个混合矩阵Ak,每个均在频带中公式化,然后求逆,以给出解码矩阵Bk。
因此,本发明提供了任何三维声内容的通用处理,特别是实际的,可能受到录音系统物理限制影响,且这没有任何旨在限制提取源总带宽的约束。
附图说明
当阅读本发明实施例的详细描述时,以及在检查附图时,应出现本发明的其他优点和特征。
-图1示出了阶0(第一行)到3(最后一行)球谐函数基,正值为浅灰色,负值为深灰色,
-图2示出了使用球形扩音器的三维声编码系统,
-图3示出了针对不同三维声阶,用于三个分量提取的光束形成
-图4示意性地示出了使用三维声分量的三维声解码系统,
-图5示出了理想的三维声编码和实际编码之间的相关性,
-图6示出了针对实际三维声编码测量的水平面中的指向性,(从左到右依次为阶0,1,2和3的分量),
-图7示出了根据本发明的方法的示例的主要步骤,
-图8示出了根据本发明的方法的特定实施例的步骤,
-图9是对应于图7中所示实施例的处理算法的框图,以及
-图10示意性地示出了用于本发明实施的可能装置。
具体实施方式
图7示出了本发明中三维声处理全局方法的常规图。例如三维声解码方法。术语“三维声解码”是指提供解码信号,例如,旨在为环绕声恢复提供相应扩音器,以及更常见地,提供信号,每个信号与声源相关,尤其是在源分离技术中。
在步骤S1中,存在包括连续阶m=0,1,...,M(其中例如M=4)且来自记录,或者来自由至少一个三维声扩音器MIC“捕获”的多个三维声分量CA的三维声内容x(t)。三维声扩音器是一种扩音器,包含尽可能均匀且一般呈球形分布的多个扩音器腔盒。这些腔盒扮演声音信号传感器的角色。将扩音器腔盒设置在三维声扩音器上,以便根据声音在空间中的指向性捕获声音信号。如图5所示,构成这样三维声扩音器的所有腔盒,都可以在直至M的三维声阶获得不同的三维声分量,但各阶三维声代表的精度并不是实际符合0和20kHz之间音频声谱的所有频率。但是,本发明在此提出了隔离声谱的包含频率,其中,对于给定阶,三维声分量正确(例如,对于图5所示阶m=4,在4000和6000Hz间频率范围内,或更广泛地,在阶m=3,在2000Hz和9000Hz之间范围内等)。
但是,对于具有尺寸和给定腔盒数量的特定扩音器,获得图5每个阶三维声代表的精度中的频率变化。因此,对于另一个扩音器,可以预期其他声谱变化。
因此,步骤S2旨在恢复表征三维声扩音器MIC的数据(以及可能的捕获三维声内容c(t)的条件和/或捕获期间的混响条件等)。
更常见地,表征三维声扩音器MIC的数据,可以是腔盒间间距。实际上,当腔盒间间距大于一半波长时,高频率的编码会降低。这是由于空间混叠的现象。相反,对于低频信号,太靠近的扩音器腔盒不能产生设计的方向性。
在步骤S3中,可以将分析滤波器组AFB应用于三维声内容x(t),以便在步骤S31中选择在频率范围中过滤的三维声分量信号,其中,给定阶m的三维声代表最准确(因此,符合三维声代表的“有效性标准”),且这根据上文定义的扩音器数据。
根据应用于三维声内容x(t)的处理类型,在源分离处理SAS或扩音器RES上的恢复处理之间,步骤S4旨在根据选择的处理类型获得解码矩阵B。扩音器的三维声恢复的情况下,解码矩阵B是矩阵A的求逆,矩阵包含适于用于恢复的扩音器特殊位置的系数。
在源分离情况下,最初在步骤S4中发展解码矩阵B,以便使用过滤和选择的三维声分量进行盲源分离处理。更具体地,发展解码矩阵B用于包含最大数量有效三维声频道(以及能够获得M的最高阶)的频带。
各种三维声阶有效性频带的确定,可以适于用于需解码三维声分量捕获的三维声扩音器。为此,有可能,例如,使用图5所示类型的各种阶m的三维声代表精度中的频率变化作为基。
更常见的是,对于不同三维声扩音器模型各种阶m,可以确定三维声代表精度中频率变化的“平均”值,在解码时,该数据不可用时,可以使用这些平均值。
在步骤S7中,对于每个子频带(在示例中示出的子频带f1和f2),可以确定来自解码矩阵B矩阵缩减的至少两个矩阵B1,B2。下文将参照图8描述该矩阵缩减的更精确实施例。然后,在步骤S8中,通过对应子频带f1,f2中过滤三维声信号,计算在前述步骤中获得的每个矩阵B1和B2的乘积。在每个子频带k(k=1,2)中,获得一组提取信号sk。
在步骤S9中,将提取信号s1(1对于k=1)和s2(2对于k=2)的矢量组合,以获得全频带重构信号(通过,例如,合成滤波器频带的应用)。
图8示出了根据本发明方法的特定实施例的步骤。更确切地说,图8示出了可以在图7步骤S4和S7之间实施的方法步骤。
在步骤S4中,如上所述,获得上文定义的解码矩阵B。在步骤S5中,可以实施解码矩阵B的求逆(或等效地,其伪逆的确定),以获得相应的混合矩阵A(步骤S51)。在源分离的情况下,混合矩阵A因此可以包括相对于需提取声源相应位置的系数。在扩音器恢复的情况下,混合矩阵A可以包含与扩音器位置相对的系数,其中在所述位置上,希望恢复解码信号。更确切地说,混合矩阵A的行对应于连续三维声频道(连续定义阶m=0到m=M,其中M是可用的最大三维声阶),且列对应于源或者扩音器。
在步骤S6中,可以缩减混合矩阵A的尺寸,以获得子矩阵A1,A2。这是一个矩阵缩减,其中行数对应于各阶的三维声频道数。通常情况下,如果确实需要在100到1000Hz的频带中编码三维声信号,其符合阶m=1(至少对于图5的三维声扩音器),从矩阵A提取与阶m=1和频带100-1000Hz相关联的具有N=4行的子矩阵A1。随后,如果在1000到10,000Hz频带中确实代表三维声信号,其中确实符合阶m=2,从矩阵A提取与阶m=2和频带1000-10,000Hz相关联的具有N=9行的矩阵A2。因此子矩阵数量取决于三维声内容x(t)的阶,其中,分量在步骤S31中保留为有效。然后每个子矩阵对应一个频带,且因此可以包含在该频带的有效频道数相对应的行。更确切地说,如图8所示,对于每个子频带,识别相应的有效频道数量。例如,对于被选择用于三维声内容x(t)的阶m=1的子频带f1,提取包含与具有阶1的四个三维声频道对应的四行的矩阵A1(N1=(m+1)2),列中为“源”数量(待提取的源数量或扩音器)。如图8所示,保留用于子矩阵A1构建的四行是全局初始矩阵A的系数:
-C11,C12,C13,
-C21,C22,C23,
-C31,C32,C33,和
-C41,C42,C43.
关于子矩阵A2,可以使用全局矩阵A的行,以及行之前的下列,
-C91,C92,C93.
对于混合矩阵A2,对应于三维声内容x(t)的阶2,因此对应于子频带f2,因此保留九行,对应于阶2的九个频道,和列中待提取的源数。
由此获得的每个混合子矩阵,具有尺寸N×N目标,N目标是盲源分离的源数量或者提供用于恢复的扩音器数量。
在对扩音器恢复的情况下,扩音器的数量优选等于或大于行数。例如,对于四行的混合矩阵A1,可以仅保留一组四列。在源分离的情况下,列数可以小于或等于行数。例如,对于四行的混合矩阵A1,可以抑制列,且保留源,例如,其中信号具有更大的能量的源和/或那些相关性最小的源(最小“混合”可能的源)和/或对应于源的直接场的信号,或其他。
在步骤S71中,对每个混合子矩阵A1,A2求逆,以分别获得上文所述的解码子矩阵B1,B2(步骤S7)。通过混合矩阵A,尽管矩阵缩减,使得尤其可以保持相互链接的的三维声分量的令人满意的能量水平。换句话说,步骤S5至S71使得可以“改善”三维声内容x(t)的解码。
图9是对应于图7和8中所示实施例的处理算法的框图。为了参考图7和8指定上述相同或相似步骤,已经包括步骤S1,S2等的相同参考。
“频道”一词用于指需提取信号的“源”和三维声扩音器源(有效提取的源或扩音器的供应信号)。在步骤S1中,存在阶M的三维声内容x(t),包括要处理的多个记录的三维声频道N。通常情况下,记录的三维声频道数等于N=(M+1)2。在步骤S2中,存在相对于内容x(t)的三维声捕获的数据(相对于所使用的三维声扩音器MIC的数据等)。
已知扩音器编码的有效性限制后,可以确定每个三维声阶的频带。在步骤S3中,将允许重构的滤波器组应用到N三维声频道,以指定K子频带,标记为xk。选择子频带,以对应扩音器编码的不同有效性范围。
在以实行示出的步骤S4A中特定实施例中,使用根据频率过滤三维声分量(顶部箭头到达矩形S4A)而形成的源分离矩阵B。更具体地,将盲源分离方法应用于包含最有效频道的子频带中,以获得尺寸Ntarget x N的分离矩阵B,Ntarget是在被选择频率子频带中的通过盲源分离获得的源数量。
根据滤波器组的每个频带,使用相对于三维声内容x(t)的每个阶的有效性标准来确定有效频道。更常见得是,为了最大化源分离的质量,选择具有有效最大三维声分量的频带。术语“有效”是指在三维声捕获期间能量标准或指向性没有偏差的分量,如上文参考图5所示。可以通过了解三维声内容x(t)捕获过程中使用的三维声扩音器的限制,或者使用根据从多个三维声扩音器获取的测量为基础建立的图标,确定音频域的频带中每个阶的有效性,这使得可以利用每个频带中每个三维声阶有效性的平均值。
例如,阶1的三维声频道在100Hz至约10kHz的频带中有效。阶2的三维声频道通常更有效的三维声频道中的频带,例如,在1kHz到9kHz等范围。
在数个扩音器(通常超过两个)上声场恢复的可选实施例中,在步骤S4B中(在图9中以虚行示出,以指定该可选实施例),根据其上有需恢复内容的扩音器的位置构建解码矩阵。更确切地说,该解码矩阵B对应于由扩音器相应空间位置分别界定的混合矩阵A的求逆。
回到常规处理(对于恢复或源的分离),在步骤S5中,通过B求逆构造“理论”混合矩阵A(对于两个上述可选项)。对于源分离,混合矩阵包含N行和Ntarget,第i列包含球谐系数,现对于源si的坐标(θi,φi)。下文是针对包括五个声源阶2的三维声内容的源分离情况下,混合矩阵A的一个示例:
Figure BDA0002101050070000151
对于扩音器上的扩散,A包括N行和最少N列,第i列包括球谐系数,相对于扩音器i的坐标(θi,φi)。
在步骤S6中,对于每个子频带k,构建混合子矩阵Ak,使得Ak是矩阵A的截断版本,仅保留对应于在该子频带中实际有效的频道的Nk行。
对于源分离,如果Nk小于子频带中寻求的源Ntarget的数量,则仅保留一组Ntarget,k,列(具有Ntarget,k小于或等于Nk),根据能量选择标准(例如,分离具有最大贡献的源)或根据上述定义的其它相关标准。矩阵Ak因此具有尺寸Nk×Ntarget,其中例如,Ntarget,k=min(Nk,Ntarget)。下文是三维声阶1截断矩阵Ak(4x4)的示例:
Figure BDA0002101050070000152
对于扩音器的恢复,针对恢复选择一组Nk扩音器,因此Ak具有尺寸Nk x Nk。
在步骤S7中,矩阵Ak求逆,以给出Bk。当子矩阵Ak不是方矩阵时,求逆有无限多种可能性。可以应用伪逆,或者通过应用附加约束来求逆(例如,给出最直接波束形成或者最小化次波瓣的解决方案的选择)。
通常情况下,术语“矩阵求逆”表示传统矩阵求逆以及如上所述的伪逆。
然后,在步骤S8中,将Bk应用于子频带xk,以获得信号sk,使得:
sk=Bk.xk
一旦在每个子频带中提取了源,可以在步骤S9中,通过使用相同方向的子频带信号的合成滤波器重建相应的全频带信号。
在下文中,通过实例描述了根据本发明特定实施例的方法的实施例示例。
存在在16kHz频率取样的阶2(9频道)的三维声内容,标记为包括需提取的3个源的x(t)。阶0和1处的三维声编码在200Hz和8000Hz之间有效。阶2的编码在900Hz和8000Hz之间有效。
实施滤波器组,由两个频带200Hz-900Hz(最高阶1)和900Hz-8000Hz(使用阶2)形成。
滤波器组应用于x(t),以形成x1(t)和x2(t)。x1(t)由4个频道(阶1的三维声)形成,x2(t)包含9个频道(阶2的三维声)。
通过在子频带900Hz-8000Hz,即x2(t)中进行的独立分量分析来估算尺寸3x9的分离矩阵B。
通过B求逆推导出尺寸9×3的理论混合矩阵A,每个列i包括源i的球谐系数。
在相同时间,使用A计算矩阵A1和A2,以提取每个子频带中的源:
-A1仅包含有三个源的阶1的系数,即:A1=A(第一个四行,第一个三列),
-A2包含与三个源的九个频道相关的系数,因此:A2=A。
求逆A1和A2,以形成分离矩阵B1和B2。
在索引1和2的每个子频带中提取三个源:
s1=B1.x1和s2=B2.x2
随后,通过将合成滤波器应用于子频带s1和s2中信号等方式,例如逐频带添加(如果分析滤波器频带在基带中),重新构建全频带源。
s=s1+s2
参考图10,本发明还涉及用于本发明实施的装置DIS。该设备DIS可以包括用于接收三维声信号x(t)的输入界面IN。设备DIS可以包括用于存储根据本发明的计算机程序指令的存储器MEM。计算机程序的指令是处理三维声信号x(t)的指令。这些指令由处理器PROC实施,以便通过输出界面OUT传送解码信号s(t)。
当然,本发明不限于上文通过举例描述的实施例;其可延伸到所有可选项。
通常情况下,三维声代表有效的频率范围在上文中通过示例给出,且根据用于捕获的三维声扩音器或扩音器的性质而不同,甚至是捕获条件本身而不同。

Claims (15)

1.一种处理三维声内容的方法,所述三维声内容包括定义一系列三维声频道的多阶的多个三维声分量,其中每个三维声频道都表示三维声分量,所述方法包括:
-在多个频带中的所述三维声分量的频率过滤,
-编译三维声解码矩阵,
-处理所述三维声解码矩阵,以通过矩阵尺寸缩减,提取每个与三维声阶和三维声阶选用的频带相关的多个三维声解码子矩阵,
-解码子矩阵到每个被选择的频带中的三维声分量的分别应用,以及各个应用结果的逐带重构,以便传输多个解码信号,每个解码信号与声源相关。
2.根据权利要求1所述的方法,其特征在于,在所述被选择的频带中,每个三维声解码子矩阵与根据与所述子矩阵相关联的阶的三维声分量的有效性标准被选择的频带相关联。
3.根据权利要求2所述的方法,其特征在于,所述分量的有效性标准通过由至少一个三维声扩音器捕获所述三维声分量的条件来定义。
4.根据权利要求3所述的方法,其包括:
-从用于捕获所述三维声分量的至少一个三维声扩音器接收数据;
-根据从所述三维声扩音器接收的数据,确定被选择用于构建所述子矩阵的频带。
5.根据权利要求1所述的方法,其特征在于,与三维声阶和被选择用于三维声阶的频带相关联的每个三维声解码子矩阵
-对于三维声阶m=1,频带在100Hz到10kHz范围内选择,
-对于三维声阶m=2,频带在500Hz到10kHz范围内选择,
-对于三维声阶m=3,频带在2000Hz到9000Hz范围内选择,
-对于三维声阶m=4,频带在3000Hz到7000Hz范围内选择。
6.根据权利要求1所述的方法,其特征在于,三维声解码矩阵的处理包括:对发展的三维声解码矩阵求逆,以获得混合矩阵,其中:
行对应各自的三维声频道,以及
列对应声源,
处理混合矩阵,以便通过矩阵尺寸缩减,提取每个与三维声阶和被选择的频带相关联的多个混合子矩阵,以及
对所述混合子矩阵求逆,以分别获得各个所述三维声解码子矩阵。
7.根据权利要求1所述的方法,其特征在于,针对源分离实施三维声内容的处理,且所述解码矩阵是从三维声分量发展的盲源分离矩阵。
8.根据权利要求7所述的方法,其特征在于,在所述被选择的频带中,每个三维声解码子矩阵与根据与所述子矩阵相关联的阶的三维声分量的有效性标准被选择的频带相关联,并且其中,使用在被选择的频带上过滤的三维声分量来发展分离矩阵,其中根据所述标准的有效三维声频道的数量最大。
9.根据权利要求6所述的方法,其特征在于,针对源分离实施三维声内容的处理,且所述解码矩阵是从三维声分量发展的盲源分离矩阵,所述方法进一步包括通过减少每个子矩阵的列数,在对混合子矩阵求逆前简化所述混合子矩阵,其中所述子矩阵的剩余列是以在解码子矩阵应用后保留具有最高能量的信号的方式选择的。
10.根据权利要求6所述的方法,其特征在于,针对源分离实施三维声内容的处理,且所述解码矩阵是从三维声分量发展的盲源分离矩阵,所述方法进一步包括通过减少每个子矩阵的列数,在对混合子矩阵求逆之前简化所述混合子矩阵,其中所述子矩阵的剩余列是以在解码子矩阵应用后保留最不相关信号的方式选择的。
11.根据权利要求6所述的方法,其特征在于,针对源分离实施三维声内容的处理,且所述解码矩阵是从三维声分量发展的盲源分离矩阵,所述方法进一步包括通过减少每个子矩阵的列数,在对混合子矩阵求逆之前简化所述混合子矩阵,其中所述子矩阵的剩余列是以在解码子矩阵应用后保留与直接声场相对应的信号的方式选择的。
12.根据权利要求1所述的方法,其特征在于,所述三维声内容的处理是针对多个扩音器的三维声恢复而进行,所述解码矩阵是所述扩音相对空间位置的逆矩阵。
13.根据权利要求1所述的方法,包括对于分解为频率子频带的三维声内容,解码子矩阵的应用,通过以下方式获得:
-对于所述内容的每个三维声阶,确定频带,在所述频带上所述阶符合三维声编码预定有效性的标准,
-基于所述频带,将滤波器组应用于所述三维声内容,以便在子频带中产生多个信号,所述多个信号对应于所述子频带中有效三维声频道的各种尺寸,
-在最大三维声阶和相关混合矩阵的频带中确定最大尺寸的所述解码矩阵,对所述解码矩阵求逆或伪逆,
-对于每个其他频带,确定缩减尺寸的混合矩阵、所述混合矩阵的子矩阵和解码子矩阵,对缩减尺寸的所述混合矩阵求逆或伪逆,
-通过将合成滤波器组应用于分离信号来对全频带分离信号进行重构,所述分离信号来自所述信号与所述矩阵的乘积。
14.一种非暂时性的计算机可读介质,其用于存储计算机程序指令,当所述指令被处理器执行时,用于实施根据权利要求1所述的方法。
15.一种处理三维声内容的装置,其包括:
-输入界面,其用于接收三维声分量信号,
-输出界面,其用于提供解码信号,每个输出界面与声源相关联,
-以及处理电路,其被配置用于实施权利要求1所述的方法。
CN201780079018.7A 2016-12-21 2017-12-15 改进解码用实际三维声内容的子频带中的处理 Active CN110301003B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1663079 2016-12-21
FR1663079A FR3060830A1 (fr) 2016-12-21 2016-12-21 Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne
PCT/FR2017/053622 WO2018115666A1 (fr) 2016-12-21 2017-12-15 Traitement en sous-bandes d'un contenu ambisonique réel pour un décodage perfectionné

Publications (2)

Publication Number Publication Date
CN110301003A CN110301003A (zh) 2019-10-01
CN110301003B true CN110301003B (zh) 2023-04-21

Family

ID=58162877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780079018.7A Active CN110301003B (zh) 2016-12-21 2017-12-15 改进解码用实际三维声内容的子频带中的处理

Country Status (6)

Country Link
US (1) US10687164B2 (zh)
EP (1) EP3559947B1 (zh)
CN (1) CN110301003B (zh)
ES (1) ES2834087T3 (zh)
FR (1) FR3060830A1 (zh)
WO (1) WO2018115666A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201818959D0 (en) * 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering
FR3096550B1 (fr) 2019-06-24 2021-06-04 Orange Dispositif de captation sonore à réseau de microphones perfectionné
FR3112016B1 (fr) * 2020-06-30 2023-04-14 Fond B Com Procédé de conversion d’un premier ensemble de signaux représentatifs d’un champ sonore en un second ensemble de signaux et dispositif électronique associé

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
WO2010076460A1 (fr) * 2008-12-15 2010-07-08 France Telecom Codage perfectionne de signaux audionumériques multicanaux
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2592846A1 (en) * 2011-11-11 2013-05-15 Thomson Licensing Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2866475A1 (en) * 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
CN104754471A (zh) * 2013-12-30 2015-07-01 华为技术有限公司 基于麦克风阵列的声场处理方法和电子设备
KR101862356B1 (ko) * 2014-01-03 2018-06-29 삼성전자주식회사 개선된 앰비소닉 디코딩을 수행하는 방법 및 장치
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
EP3007167A1 (en) * 2014-10-10 2016-04-13 Thomson Licensing Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
US9712936B2 (en) * 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization

Also Published As

Publication number Publication date
US10687164B2 (en) 2020-06-16
EP3559947B1 (fr) 2020-09-02
WO2018115666A1 (fr) 2018-06-28
US20190335291A1 (en) 2019-10-31
EP3559947A1 (fr) 2019-10-30
CN110301003A (zh) 2019-10-01
FR3060830A1 (fr) 2018-06-22
ES2834087T3 (es) 2021-06-16

Similar Documents

Publication Publication Date Title
Pulkki et al. Parametric time-frequency domain spatial audio
JP6660493B2 (ja) 2dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置
EP3320692B1 (en) Spatial audio processing apparatus
US8964994B2 (en) Encoding of multichannel digital audio signals
US8817991B2 (en) Advanced encoding of multi-channel digital audio signals
US9584947B2 (en) Optimized calibration of a multi-loudspeaker sound playback system
WO2014147442A1 (en) Spatial audio apparatus
CN110301003B (zh) 改进解码用实际三维声内容的子频带中的处理
JP2016532149A (ja) 室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ
US9978379B2 (en) Multi-channel encoding and/or decoding using non-negative tensor factorization
KR20200128169A (ko) 음장 기술을 생성하기 위한 장치, 방법, 또는 컴퓨터 프로그램
US10827295B2 (en) Method and apparatus for generating 3D audio content from two-channel stereo content
EP3378065B1 (en) Method and apparatus for converting a channel-based 3d audio signal to an hoa audio signal
EP3757992A1 (en) Spatial audio representation and rendering
McCormack Real-time microphone array processing for sound-field analysis and perceptually motivated reproduction
TWI841483B (zh) 用於將保真立體音響格式聲訊訊號描繪至二維度(2d)揚聲器設置之方法和裝置以及電腦可讀式儲存媒體

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant