CN109964272A - 声场表示的代码化 - Google Patents

声场表示的代码化 Download PDF

Info

Publication number
CN109964272A
CN109964272A CN201780070855.3A CN201780070855A CN109964272A CN 109964272 A CN109964272 A CN 109964272A CN 201780070855 A CN201780070855 A CN 201780070855A CN 109964272 A CN109964272 A CN 109964272A
Authority
CN
China
Prior art keywords
signal
sound
sound field
independent
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780070855.3A
Other languages
English (en)
Other versions
CN109964272B (zh
Inventor
威廉·巴斯蒂安·克雷杰
简·斯科格隆
林施杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN109964272A publication Critical patent/CN109964272A/zh
Application granted granted Critical
Publication of CN109964272B publication Critical patent/CN109964272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

一种方法,包括:接收声场的表示,所述表示表征空间中的一个点周围的声场;将所接收的表示分解成独立信号;以及将独立信号编码,其中,任何独立信号的量化噪声都具有与独立信号共同的空间分布。

Description

声场表示的代码化
相关申请的交叉参考
本申请要求于2017年1月27日提交的名为“CODING OF SOUNDFIELDREPRESENTATION”的美国专利申请No.15/417,550的优先权并且是其继续申请,通过参考将其全部内容合并到本文。
技术领域
本文献总体上涉及将声场表示代码化。
背景技术
沉浸式视听环境正迅速变得普及。这种环境可能需要准确描述声场(soundfield),该声场通常采用大量音频频道的形式。声场的存储和传输可能要求严格,其速率一般类似于视觉信号的要求。因此,声场的有效代码化程序是重要的。
发明内容
在第一方案中,一种方法包括:接收声场的表示,所述表示表征空间中的一个点周围的声场;将所接收的表示分解成独立信号;以及将所述独立信号编码,其中,任何所述独立信号的量化噪声具有与所述独立信号共同的空间分布。
实施方式可包括以下特征中的任何一个或全部。所述独立信号包括单频道和多个独立源频道。分解所接收的表示包括变换所接收的表示。所述变换涉及解混矩阵,所述方法还包括通过用归一化的解混矩阵替换所述解混矩阵来考量滤波模糊度。所述声场的表示与时不变的空间布置相对应。所述方法还包括:确定解混矩阵,以及使用所述解混矩阵根据全景声信号计算源信号。所述方法还包括:根据所述全景声信号的观察来估计混合矩阵,以及根据所估计的混合矩阵来计算所述解混矩阵。所述方法还包括:归一化所确定的解混矩阵,并使用所述归一化的解混矩阵来计算所述源信号。所述方法还包括:对所接收的声场的表示执行盲源分离。执行所述盲源分离包括使用方向分解图、估计RMS功率、执行尺度不变聚类、以及应用混合矩阵。所述方法还包括:执行方向分解,作为所述盲源分离的预处理器。执行所述方向分解包括:返回与为扬声器设置的位置相对应的时频补丁信号的迭代处理。所述方法还包括:使所述编码可缩放。使所述编码可缩放包括:仅以最低比特率编码零阶信号,并且随着比特率的增加,添加一个或多个提取的源信号并保留所述零阶信号。所述方法还包括:从混合处理中排除零阶信号。所述方法还包括:解码所述独立信号。
在第二方案中,一种在非暂时性存储介质中有形地实现的计算机程序产品,所述计算机程序产品包括在被执行时使得处理器执行操作的指令,所述操作包括:接收声场的表示,所述表示表征空间中的一个点周围的声场;将所接收的表示分解成独立信号;以及将所述独立信号编码,其中,任何所述独立信号的量化噪声具有与所述独立信号共同的空间分布。
实施方式可包括以下特征。所述独立信号包括单频道和多个独立源频道。
在第三方案中,一种系统包括:处理器;以及在非暂时性存储介质中有形地实现的计算机程序产品,所述计算机程序产品包括在被执行时使得处理器执行操作的指令,所述操作包括:接收声场的表示,所述表示表征空间中的一个点周围的声场;将所接收的表示分解成独立信号;以及将所述独立信号编码,其中,任何所述独立信号的量化噪声具有与所述独立信号共同的空间分布。
附图说明
图1示出系统的示例。
图2A-图2B示意性地示出空间分布的示例。
图3示出处理的示例。
图4示出信号的示例。
图5示出可用于实现本文所述技术的计算机装置和移动计算机装置的示例。
不同附图中相同的附图标记表示相同的元件。
具体实施方式
本文献描述将直接表征声场的声场表示——诸如全景声表示——代码化的示例。在一些实施方式中,可将全景声表示分解为1)单频道(例如,零阶全景声频道)和2)任意数量的独立源频道。然后,可以对这个新信号表示执行代码化。可以获得的优点的示例包括:1)量化噪声的空间分布与对应的独立信号相同,这可以将感知掩蔽最大化并导致最小的代码化速率要求;2)独立信号的独立编码有助于对全景声信号的全局最优编码;以及3)单频道连同各个源的逐步添加一起有助于在高速率和低速率下可缩放性、良好质量和方向性的折衷。在一些实施方式中,将来自(N+1)2个频道的信号转换为比如说M个独立源涉及乘以解混矩阵(demixing matrix)。此外,对于时不变的空间布置,矩阵可以是时不变的,这会导致仅需要很少的辅助信息。此外,速率可以随独立源的数量而变化。对于每个独立源而言,可以按照房间响应的形式有效地增加该源的方向性,对于所有频率区间而言,房间响应由解混矩阵的逆矩阵的行来描述。换言之,当添加所提取的源时,它可以从处于单频道变为如同在录音环境的背景下听到的。在一些实施方式中,速率可以基本上独立于全景声阶数N。
实施方式可以用于各种音频或视听环境,诸如沉浸式环境。一些实施方式可以涉及虚拟现实系统和/或视频内容平台。
有各种各样表示声音的方式。例如,全景声是声场的一种表示,它使用多个音频频道来表征空间中一个点周围的声场。从另一个角度来看,可将全景声视为围绕这一点的声场的泰勒式展开。全景声表示描述了一个点(一般是用户的位置)周围的声场。它直接表征声场,因此不同于描述驱动声场的一组源的方法。例如,一阶全景声表示用频道W、X、Y和Z来表征声音,其中W对应于来自全向麦克风的信号,而X、Y和Z对应于与三个空间轴相关联的信号,诸如可能会被8字形耳塞所拾取。一些用于全景声的现有编码方法似乎是启发式的,除了通过倾听之外,对于为什么特定方法是好的没有清晰的概念。
全景声表示独立于例如可以使用耳机或特定扬声器布置的呈现方法。表示也是可缩放的:具有较少方向信息的低阶全景声表示形成具有较多方向信息的高阶描述的子集。例如,可缩放性和表示直接描述用户周围的声场的事实使得全景声成为虚拟现实耳机应用的共同表示。
可以使用多麦克风组件生成全景声表示。可将一些麦克风系统配置用于直接生成全景声表示,并且在其他情况下,可将单独的单元用于生成全景声表示。全景声表示可以具有不同数量的频道,例如9个、25个或36个频道,或原则上任何二次幂的整数频道。可将全景声表示可视化为类似于球体,其中球体的大小取决于频率:在球体内部,声音的描述是准确的,而在球体外部,描述不太准确或不准确。使用更高阶的全景声表示,可以认为球体更大。本质上,可以使用更高阶的全景声实施方式,从而获得更好的声音分辨率,因为可以更准确地识别声音的位置,并且声音表征从球体的中心行进得更远。例如,全景声表示可以是来自用户未知的源的声音,因此可以使用全景声频道来区分和消除这些源。
本公开描述了:如果独立信号分量信号的量化噪声和所述独立信号分量具有不同的方向性,则量化噪声的感知变得更清晰。术语“方向性(directional)”暗示将标量独立信号分量映射到它的全景声矢量信号表示的完整映射。对于时不变的空间布置,映射是时不变的并且与广义传递函数相对应。如果量化噪声在感知上更清晰,则代码化速率将提高,以获得相同的感知声场质量。但是,全景声表示的每个频道都包含独立信号的混合,这会使得这个问题难以解决。另一方面,能够在该处理中使用现有的单频道音频代码化方案是有利的。
图1示出系统100的示例。系统100包括多个声音传感器102,包括但不限于麦克风。例如,可以使用一个或多个全向麦克风和/或具有其他空间特性的麦克风。声音传感器102检测空间103中的音频。例如,空间103可以由结构来表征(诸如在具有特定环境脉冲响应的录音室中),或者可将其表征为基本上没有周围结构(诸如在一个基本上开放的空间)。可将声音传感器的输出提供给模块104,例如全景声模块。可以使用任何处理组件来生成直接表征声音的声场表示,比如说,与根据一个或多个声源相反。全景声模块104生成通过声音传感器102来检测的声场的全景声表示,作为其输出。
可以从全景声模块104向分解模块106提供全景声表示。模块106被配置为用于将全景声表示分解为单频道和多源频道。例如,可以在声场表示的每个频率区间中执行矩阵乘法。可将分解模块106的输出提供给编码模块108。例如,可以使用现有的代码化方案。在编码之后,可将编码信号存储、转发和/或传输到另一个位置。例如,频道110表示可以管理编码音频信号的一种或多种方式,诸如通过传输到另一个系统用于回放。
当应该播放编码信号的音频时,可以执行解码处理。在一些实施方式中,系统100包括解码模块112。例如,解码模块可以按照与各个模块104、106和108中基本上相反的方式执行操作。例如,可以在解码模块中执行逆变换,其部分地或完全地恢复模块104生成的全景声表示。类似地,分解模块106和编码模块108的操作可以在解码模块112中具有它们相反的对应物。可以存储所得音频信号和/或根据情况进行播放。例如,系统100可包括两个以上音频回放源114(包括但不限于扬声器),可将经过处理的音频信号提供给音频回放源114用于回放。
在一些实施方式中,声场表示不与播放音频描述的特定方式相关联。可通过耳机播放声场描述,然后系统可以计算在耳机中应该呈现什么。在一些实施方式中,呈现可以取决于用户怎样转动他或她的头部。例如,可以使用传感器将头部方位通知系统,然后系统可以让人听到来自独立于头部方位的方向的声音。作为另一个示例,可通过一组扬声器来播放声场描述。也就是说,首先系统可以存储或传输听者周围的声场描述。然后在呈现系统中,可以进行计算各个扬声器应该产生什么来创建听者头部周围的声场,或者围绕头部的声场的印象。也就是说,声场可以是听者周围所得声音应该是什么的定义,以便呈现系统可以处理信息并生成适当的声音来完成所述结果。
图2A-图2B示意性地示出空间分布的示例。这些示例涉及物理空间200,诸如房间、户外区域或任何其他位置。圆圈202示意性地表示每种情况下的听者。也就是说,将向听者202播放声场表示。例如,声场描述可以与在空间200或其他地方进行的录音相对应。将人204A-C示意性地示出为处于空间200中。人符号表示听者可以听到的声音(例如,语音、歌曲或其他言辞)。听者202周围的人204A-C的位置指示每个人的声音在此处从单独的方向到达听者202。也就是说,听者应该听到来自不同方向的声音。在房间的背景下,空间分布(spatial profile)的概念是该说明性示例的概括。然后,空间分布包括直接路径和所有反射路径两者,声源的声音通过反射路径行进到达听者202。因此,从这里开始,可将术语“方向”视为具有广义含义并且是相当于表示直接路径和所有反射路径的一组方向。
但是,音频信号的代码化不一定是完善的处理。例如,可以生成噪声。在一些实施方式中,优选具有尽可能多的噪声,只要噪声对于听者是不可察觉的。即,产生的噪声越多,比特率越低。也就是说,在实际情况下系统可以寻求尽可能的不精确,以降低需要用来传输信号的比特数。
更具体而言,可将用于音频表示的编码/解码处理视为是一方面感知到的信号失真的严重性和信号无关噪声与另一方面的代码化比特率之间的权衡。例如,在很多音频代码化方法中,将信号相关失真和信号无关噪声集总在一起(lumped together)。然后可以使用平方误差(诸如通过感知加权)作为保真度度量。这种“集总”方法可能具有与声场表示的代码化相关的缺点。例如,人类听觉外围可以解释方向信息(例如失真)和信号无关噪声的不同不准确性。在本公开中,将量化所致的与信号无关的信号误差称为量化噪声。因此,当对声场表示进行代码化时,重要的是在被感知为单独维度的信号属性之间提供平衡,并促进该平衡的调整,以适合应用。
这里,在图2A的空间200中示意性地示出噪声206。也就是说,噪声206与来自人204A-C中的一个或多个的音频的编码相关联。但是,因为图2A中的示例不使用根据本公开的声场表示的分解,所以噪声206看起来不是来自与人204A-C的任何声音相同的方向。更确切而言,噪声206看起来来自空间200中的另一个方向。即,可以说人204A-C中的每一个都与对应的空间分布208A-C相关联。空间分布与怎样捕捉来自特定说话者的声音相关联:其中一些声音直接从说话者到达麦克风,并且(同时生成的)其他声音在被拾取之前首先在一个或多个表面上反弹。因此,每个说话者都可以拥有他或她自己独特的空间分布。也就是说,人204A的语音与空间分布208A相关联,人204B的语音与空间分布208B相关联,等等。
另一方面,噪声206与空间分布210相关联,空间分布210与空间分布208A-C的任何一个都不重合。这里,空间分布210甚至不与空间分布208A-C的任何一个重叠。这可以在感知上分散听者202的注意力,例如因为他们可能不期望任何声音(无论是语音还是噪声)来自与空间分布210相关联的方向。例如,听者202可以更快地拾取噪声206,因为它来自与原始源不同的方向。
另一方面,在图2B中,示例使用根据本公开的声场表示的分解。结果,在音频处理中(例如,由于代码化阶段)产生的任何噪声获得与发生噪声时正在处理的声音基本上相同的空间分布。也就是说,在分解处理中,音频源被个性化为具有各自方向的频道。然后可以将它们单独代码化。结果,当产生噪声时,噪声可以具有与噪声源完全相同的空间分布。这里,例如,人204A-C的语音产生各自的噪声信号212A-C。但是,噪声信号212A具有与人204A的语音相同的空间分布208A,噪声信号212B具有与人204B相同的空间分布208B,等等。结果,噪声212A-C中没有一个看起来来自除了引起它的语音的方向之外的方向。特别地,噪声212A-C中没有一个来自空间200中没有声源的方向。表征这种情况的一种方式是将人204A-C的语音描述为掩蔽来自声源的各个噪声212A-C。结果,当在刚好可察觉的量化噪声的阈值下操作时,系统可以降低比特率。也就是说,在单独编码之后,可将信号再次组装在一起,包括它们各自的噪声。也就是说,每个信号还可包括单频道信号以及与之相关联的单频道噪声信号。然后,这些信号可以在空间200上扩散,而噪声和语音(例如,说话者)具有相同的空间分布。
一般而言,在通过球谐函数描述声场方面,以下说明使用全景声来表征声场。如上所述,描述可以是空间中一个点周围的声场的表征。这里,假设在表征的区域中不存在源或对象。
以下描述从波动方程到全景声B格式的路径。声波必须满足波动方程:
波动方程的时间傅里叶变换是赫姆霍兹方程:
其中k=ω/c是波数,c是声速,ω是频率(单位弧度每秒)。
为了描述空间中的一个点周围的声学声场,使用具有半径r、仰角θ和方位角φ球面坐标是自然的。在这些坐标中,对于无源的自由空间区域而言,可将方程(2)的一般解写成球谐函数的展开,例如,
其中jn(·)是第一类球面贝塞尔函数,并且
是阶数为n、模数为m的球谐函数,其中Pnm(·)是连带勒让德函数。在一些实施方式中,可以省略用于输出波的解,因为认为空间没有对象和声源。
可以用系数指定声场,这是在所谓的全景声B格式中使用的。B格式可以提供作为时频变换,例如,变换基于紧密框架表示。例如,紧密框架可以暗示平方误差度量不随变换改变,除了缩放之外。然后,B格式系数可以是的形式,其中l是时间索引,q是与k线性相关的离散频率索引。令是表示的离散频率的集合。然后,时频表示可通过一系列逆离散傅立叶变换转换为时域信号
其中返回对应于系数的K个时域样本,H是对角窗口矩阵,Tl是用零填充输入以将其呈现为无限序列的算子,支持以原点为中心,然后使其前进l个样本,将α选择为使得是时频变换的块之间的时间提前样本数。
以下举例说明一些特定的声场。要研究的声场的一个示例是平面波。考虑在方位角和仰角坐标(θ,φ)处入射的平面波,驱动信号是S(l,q)。平面波可以用以下系数来描述
然后在球谐函数展开U(r,θ,φ,k)中获得球谐函数的乘法。
对于通过驱动信号S(l,q)的球形声波——其驱动信号S(l,q)源自方向(θ,φ)上距离ρ处的源,全景声B格式系数可以是
方程(7)包括对于半径的依赖性对于给定频率,近场效应放大低阶项。也就是说,可能需要相对较少的方向细节来表示附近源生成的声场分量。这种效应可以较早在低频时逐渐出现;它是球形贝塞尔函数的结果。这可以暗示附近源被视为具有较大的有效孔径。在足够低的频率下,对于附近源可以有效地丢失声音方向性,因为基本上所有信号功率都驻留于零阶系数B0(l,q)中。例如,消费者音频装置可以使用单个扬声器用于低频声音,因为它必须从附近产生。另一方面,在动物世界中,大象可通过低于人类听觉范围的频率下的通信来确定其他大象的方向。
以上表明在典型的录音中,低阶全景声系数是低通的,而高阶全景声系数是高通的。如果利用全景声的可缩放性,那么应该考虑这些效应。实际上,在合成场景中,格式(5)的时域信号通常在没有光谱偏差的情况下创建(即,在本质上是远场),并且自然记录的场景具有这些偏差(即,必然是近场),这种情况可能导致关于麦克风缺点的错误结论。
以下举例说明一种全景声方法。在实际应用中,可将展开(3)截断。然后,任务可以是寻求最佳系数来描述声场。一种可行的方法是确定使半径为r的球上的L2范数(最小二乘解)或L1范数最小化的系数。L2的答案可能并非微不足道;虽然球谐函数在球面上是正交的,但是在给定半径的球内,展开(3)可能不是正交的,因为不同阶的球面贝塞尔函数没有标准的正交性条件。通过对内积的数值评估,可以在特定半径的球上获得正交的函数集;这可以针对每个波数k来完成。另一方面,全景声方法可以采取不同的方法。
对于的第一类球面贝塞尔函数,考虑以下表达式:
这可以解释为泰勒级数展开,并且可以证明对于a而言,它收敛于区域[0,a)。类似地,可以假设所有导数都收敛。
在方程(8)中,r的最低幂是m。这些假设可以暗示如果允许U(r,θ,φ,k)中任意小的误差∈,那么总是可以找到一个半径,在该半径内可以忽略在方程(3)的展开中高于第一项j0(r)的项。如果考虑导数,可以将其概括为:如果在U(r,θ,φ,k)对r的q阶导数中允许任意小的误差∈,那么总是能够找到足够小的半径,在该半径内只需要考虑j0的第q项、j1的第q-1项、直到jq(r)的第1项的导数。
也就是说,高阶全景声寻求在所有方向上匹配原点处声场的径向导数,直到某个径向导数(即,阶数)。换言之,可将其解释为类似于泰勒级数。在其原始形式中,全景声寻求仅匹配一阶斜率并直接根据测量结果来实现,如下所述。在后面的形式中,还包括更高阶的项。
如上所述,全景声并不试图直接重建声场,而是表征在原点的方向性。表示在本质上是可缩放的:方程(3)中n的截断值(即,全景声的阶数)越高,方向性越精确。此外,在任何频率下,对于更高的阶数n,声场描述在更大的球上是准确的。球的半径与频率成反比。例如,球的大小的良好度量可以是j0(·)的第一个零点的位置。低阶全景声信号嵌入在更高阶的描述中。
以下描述全景声如何呈现单频道信号。在原点,零阶球谐波是单频道信号。但是,在零阶贝塞尔函数的零点处,该“单频道”信号分量为零。零点的位置随着频率的增加向内移动。球谐函数的幅度调制是物理效应;当在球的中心产生一个正确信号并坚持一个球形对称的场时,那么它将在一个特定的半径上消失。将产生如果将声场放在人的头部周围则这是否可以察觉的问题。因为人的头部的存在改变了声场,所以这个问题可能难以回答。但是,如果用自由空间中的麦克风代替人的头部,则将在物理上观察到零点。因此,可能难以为反映其感知相关性的B格式系数分配加权。
以下描述全景声的呈现,重点是双耳呈现。全景声描述一个点周围的声场。因此,呈现全景声与全景声表示分离。对于扬声器的任何布置,可以计算驱动信号,驱动信号使得原点附近的声场接近于全景声描述所指定的。但是,在更高的频率下,全景声描述正确的区域实际上通常很小,比人的头部小得多。在高精度区域之外发生的情况取决于所使用的呈现和做出的任何近似。例如,对于由多个扬声器组成的物理呈现系统,可以i)考虑扬声器与原点之间的距离,或者ii)假设扬声器离原点足够远,以使用平面波近似。实际上,如下所述,对于双耳呈现,考虑耳机相对于原点的位置的名义上正确的呈现方法对于高频不能很好地进行。
以下描述直接双耳呈现。在这种情况下,讨论贝塞尔函数在方程(3)中的效应可以是说明性的。一种方法可以是忽略头部的物理存在并简单地计算耳朵位置处的声场。如上所述,只有零阶(n=0)贝塞尔函数对空间原点的信号有贡献。该分量通常解释为“单频道”分量。但是,n=0分量并非处处有贡献。j0(·)的零点出现在rk=π,即因此,在0.1米半径处,零阶球谐函数在1700Hz处没有贡献。类似地,对于r=0.1米半径,j1(·)的第一个零点是大约2300Hz。因此,如果要准确地描述非球对称的声场,则其他全景声项必须在那些空间零点处提供信号。因此,全景声表示不能在统计上独立。
上面的数值示例表明,应该注意低阶全景声的双耳呈现。这可能是直接计算耳朵位置处的声场似乎不用于双耳呈现的原因。相反,声压是间接计算的,这意味着从未明确指出上述零点问题。但是,这并不意味着它不存在。
以下描述间接双耳呈现。直接双耳呈现中的空间零点是双耳呈现的直接结果,并且在使用扬声器呈现时通常不会发生。当用扬声器呈现时,信号由来自不同角度的(近似)平面波的组合组成。然后可以使用虚拟平面波来执行基于全景声的双耳呈现,虚拟平面波在坐标原点附近提供正确的声场(即使所述近似仅在小于人的头部的球体内正确)。该方法可以基于方程(6),因为模数匹配导致向量相等,向量相等允许在给定方位角和仰角的情况下将系数转换为一组平面波的幅度。根据虚拟扬声器的数量,可能需要伪逆来进行此计算,伪逆可以是Moore-Penrose伪逆。Moore-Penrose伪逆方法可以计算一组平面波的幅度,该组平面波对应于在原点附近产生期望声场的最低总能量。在一些情况下,可能不会激励伪逆的使用。然后可以使用适当的头部相关传递函数(HRTF)将这些平面波转换成所需的双耳信号。如果转动头部,则因此调整麦克风的方位角和仰角以及相关联的HRTF
考虑在无限球体表面上的足够大的扬声器组扬声器i具有仰角和方位角(θi,φi)并且在频率k处产生信号Si(k)。然后在原点附近使用方程(6)来呈现信号:
对于有限阶数N,可以获得
其中误差∈在仰角和方位角空间中与低于阶数N的球谐函数正交。
方程(10)可以是写出模数匹配方程的复杂方式,可以直接从方程(6)写出模数匹配方程:
下面,令B(l,q)为的叠加,并且令Yi为n和m上的Ynmi,φi)的叠加。这些列向量的维数是此外令然后可将方程(11)重写为
B(k)=YS(k) (12)
对于方程(12)中的,根据B(k)计算S(k)是不明确的,并且对于扬声器信号S(k)而言可以有很多不同的解。可以选择使用最少扬声器功率的解。换言之,可以优选在Y的零空间中为零的S(k),其可以写为(I-YH(YYH)-1Y)S(k)=0。在该表达式中代入Y S(k)=B(k),可以获得所需的解
S(k)=YH(YYH)-1B(k) (13)
这正是Moore-Penrose伪逆的定义。
一旦得到无限远虚拟扬声器的信号,就可以计算耳机中扬声器的信号。将信号Si(k)与对应耳朵的HRTF相乘。对于每个耳朵,然后可以对所有缩放的虚拟扬声器信号求和,并最终执行逆时频变换(5),以获得时域信号,并从耳机播放结果。
对于间接双耳呈现方法,全景声表示与听者听到的信号之间的关系是线性的,但不一定是直接的。因为HRTF随头部转动而改变,所以虚拟扬声器信号的掩蔽级别取决于头部转动。这可以建议使用minimax方法,以确保任何头部转动的透明代码化。
使用间接呈现时,上面讨论的空间零点问题似乎没有出现。部分原因可能是因为从这个角度是不可见的。更重要的是,即使平面波近似在原点附近是准确的,它也不同于球外的截断球谐函数表示(10),其中后一个表示是准确的。虽然平面波之间的干扰可能导致空间零点,但它们可能是点而不是球面。
以下描述涉及多扬声器呈现。物理上固定的扬声器上的呈现可以类似于上面针对无限远扬声器所述的原理。考虑与扬声器距离相关联的相位差可能是重要的。或者,可以用方程(7)中给出的更准确的球面波描述来代替平面波近似。这已经考虑了距离的相位校正。
以下描述涉及全景声的感知代码化。将描述全景声表示的代码化。编码全景声表示的一个困难可能是没有很好地理解适当的掩蔽。全景声描述了没有听者物理存在的声场。当考虑原始的全景声录音方法时,这很容易看出:它对贝塞尔函数和心形麦克风的记录执行了校正。如果由扬声器呈现,则听者的存在会修改声场,但这近似于原始声场场景中会发生的情况。耳朵的声场取决于听者的方位和听者的身体存在。在双耳聆听时,通过HRTF来校正存在听者的声场。HRTF的选择取决于听者的方位。
在传统的音频编码中,听者的方位也不一定是先验已知的。这对于单频道信号的代码化没有影响。对于传统的多频道系统,确实存在对掩蔽行为缺乏理解的问题。但是,因为传统系统不依赖于各个扬声器信号的干扰来产生方向性,所以考虑单独掩蔽扬声器信号是更自然的。
在以下描述中,首先提供关于双耳掩蔽的一些背景,然后讨论用于全景声代码化的多个期望属性和替代方法。最后,更详细地讨论一种方法。
以下描述涉及双耳倾听。呈现的音频信号通常可以被听者的双耳感知。可以区分多种情况。当双耳听到相同的信号时,就会出现二重听觉条件。如果仅在一只耳朵中听到信号,则发生单频道条件。单频道条件和二重听觉条件的掩蔽级别是相同的。更复杂的场景通常对应于二重听觉条件,其中掩蔽者和被掩蔽者具有不同的空间分布。二重听觉条件的属性是掩蔽级别差异(MLD)。MLD是二重听觉场景与对应的单频道场景之间的掩蔽级别的差异。这种差异可以低于1500Hz,其中它可以达到15分贝;高于1500Hz,MLD下降到大约4dB。MLD的值表明,通常,二重听觉情况下的掩蔽级别可以更低,并且信号准确度必须相应更高。对于一些应用,这暗示二重听觉场景需要高代码化速率。
考虑具体示例。场景A是一种方向性场景,其中在自由空间中的特定点生成源信号(不存在房间)。可以独立地为听者的两只耳朵代码化信号。另一方面,场景B同时向双耳呈现相同的单频道信号。只需要执行一种编码。看起来双频道场景A需要两倍于单频道场景B的代码化速率。但是,情况可能是必须以相比于场景B的单频道更高的精度对频道A场景的每个频道进行编码。因此,场景A所需的代码化速率可以是场景B所需速率的两倍以上。这是因为量化噪声不具有相同的空间分布。
单独的问题是对侧或中央掩蔽,当在一只耳朵中听到信号并且同时在另一只耳朵中听到干扰时会发生这种情况。干扰的掩蔽可能非常弱。在一些实施方式中,它弱到不需要在音频代码化设计中考虑它。在以下讨论中不予考虑。
以下描述是代码化全景声的方法的比较性讨论。为了构建全景声代码化方案,可以考虑上面讨论的空间掩蔽的属性。可以考虑两种对比范例:i)直接代码化范例:直接代码化B格式时间频率系数并尝试找到满意的机制来定义B格式系数的掩蔽级别,ii)变换代码化范例:将B格式的时频系数变换为时频域信号,其中掩蔽级别的计算相对简单。这种变换的一个示例是将全景声表示变换为从特定方向到达的一组信号(或者等效地,来自无限距离的球体上的扬声器),这称为方向分解。基本方向代码化算法概述如下。
直接编码范例的明显优点可以是关于方向性的可缩放性将延续到代码化流。但是,掩蔽级别的计算可能是困难的,而且范例可能导致二重听觉掩蔽条件(量化噪声的空间分布和信号不一致),其中掩蔽级别阈值低,因此速率高。此外,B格式系数在统计上可以是强相互依赖的,这意味着需要矢量量化来获得高效率(注意,用于系数去相关的方法使得该方法成为变换方法)。下面更详细地研究直接代码化B格式系数的方法,其描述掩蔽约束方向代码化算法。
在变换代码化范例中,似乎难以保持在全景声表示中固有的可伸缩性,这是一个缺点。但是,可以构建变换域,其中要代码化的信号在统计上是独立的。这至少有两个好处:
1)量化噪声和信号具有相同的空间分布,导致更高的掩蔽阈值和更低的速率。
2)独立信号的单独代码化不会导致代码化损失。
如下所示,还可以获得变换代码化范例的可缩放设置。这可以意味着变换方法是一种好方法。
以下讨论简要描述作为独立变换代码化示例的方向分解的方法。它没有利用变换代码化的潜在优势。在方向分解变换中,很多变换域信号是高度相关的,因为它们描述了相同源信号的不同壁反射。因此,量化噪声和后面的源信号的空间分布是不同的,这导致低掩蔽级别,并因此导致高速率。此外,频道之间的高度相关性意味着频道的独立代码化可能不是最佳。方向代码化也不是可缩放的。例如,如果仅剩下单个频道,则它将描述来自特定方向的特定信号。这意味着它不是声场的最佳表示,该声场将是单频道。
以下描述涉及使用独立源来代码化全景声。如上所述,可通过将全景声表示分解成独立信号来获得最佳代码化和高掩蔽阈值两者。然后,代码化方案首先变换全景声系数信号。然后对所得独立信号执行编码。它们在需要信号时间被解码。最后,添加一组解码信号,以提供声学场景的单个全景声表示。
假设时不变的空间布置,并且让B表示在特定时间和频率下对于某个全景声阶数N,阶数为n、模数为m的的系数的叠加(因此方程(3)在n=N处截断)。然后,获得全景声的独立源的一种方式是找到时不变的、频率相关的解混矩阵M(q)或时不变的、频率相关的混合矩阵A(q),使得
B(l,q)=M(q)S(l,q) (14)
S(l,q)=A(q)B(l,q) (15)
在方程(14)和(15)中,是N2维向量处理,维向量处理,其中是独立源信号的集合。
如果已知M(q)和B(·,q),则可以使用最小能量S(·,q):
A(q)=M(q)H(M(q)M(q)H)-1 (16)
因为这个逆将消除不在M(q)图像中的任何能量。
盲源分离(Blind Source Separation:BSS)方法是可用的,并且可以潜在地用于找到映射B(·,q)到S(·,q)。它们可能具有延续到当前全景声代码化方法的缺点。基于BSS的全景声代码化方法的主要缺点是BSS方法在找到混合矩阵或解混矩阵之前一般需要大量数据。例如,为了确定混合矩阵A(q),可以生成表示给定空间配置的各个声场系数B(l,q)和能量或源S(l,q)的数据,然后执行矩阵运算,以使用方程(15)确定混合矩阵A(q)。可以使用不同的BSS算法。大量的BSS算法属于基于独立分量分析(ICA)的算法的类别。这些方法通常在时频表示的每个频率区间上单独操作。在这个类别的典型方法中,作为第一步骤,对区间内的数据块执行主成分分析(PCA)。作为第二步骤,该方法找到将信号的高斯性最小化的变换,因为混合服从中心极限定理,通常通过梯度下降的方式。通常使用诸如skew函数的替代函数将高斯性最小化。分解矩阵M(q)可以以类似的方式确定,诸如使用方程(14)或者通过混合矩阵A(q)的逆矩阵来确定——如果已知的话。因此,可能需要显着的估计延迟。但是,一旦混合矩阵和分层矩阵已知,则实际处理(编码之前的解混和解码之后的混合)需要仅依赖于变换的块大小的延迟。一般而言,较大的块大小对于时不变场景执行得更好,但需要更长的处理延迟。
BSS算法可能具有其他缺点。一些BSS算法(包括上述ICA方法)遭受滤波模糊度,而频域方法一般遭受所谓的置换模糊度。存在用于解决置换模糊度的各种方法。对于滤波模糊度,如果在解码之后重新混合信号以获得全景声表示,则可能看起来没有后果。但是,它可能影响用于编码独立信号的代码化方案的掩蔽。
考虑滤波模糊度的一种方法是用其归一化等同物代替混合矩阵M(k):
运算(17)将每个源信号归一化,使其增益等于全景声表示的单频道中的增益。为了考虑解混矩阵的滤波模糊度,可以结合方程(17)使用方程(16)。
如果适当归一化,则时频信号S(l,q)的各个维度的代码化可以通过现有的单频道音频代码化器和传统的单频道掩蔽考虑因素独立地执行(因为源及其量化噪声共享其空间分布)。为此目的,时频信号S(l,q)的各个尺寸可通过方程(5)转换成时域信号。在该范例中可以忽略用另一个源来掩蔽一个源,这可通过以下事实来证明:在听者的特定方位下,各个源可以支配听者所感知的信号,并且该范例有效地表示minimax方法。
图3示出针对特定频率q的源分离处理300的示例。在310,可以根据B(·,q)的观测来估计混合矩阵或解混矩阵。例如,这可以是方程(14)中的解混矩阵或方程(15)中的混合矩阵。在320,如果必要的话,可以根据混合矩阵计算解混矩阵。在330,可将解混矩阵归一化。例如,可以如方程(17)所示地实现这一点。在340,可以使用解混矩阵根据全景声信号B(l,q)来计算源信号S(l,q)。
以下描述如何使基于独立源的代码化系统可扩展。可通过适当地使用单频道信号来获得可伸缩性。所得可伸缩性代替全景声B格式的可伸缩性,但基于不同的原则。在最低比特率下,可以仅编码单频道(零阶)信号。单频道本身的速率可以变化。随着速率的增加,可以添加额外的提取源,但保留单频道。虽然单频道应该用于估计源信号,因为它提供有用的信息,但是它不包含在混合处理中,因为它已经完成。也就是说,可以省略指定零阶全景声频道的方程(14)的第一行,作为替代,采用代码化的全景声频道。总之,随着速率的增加,代码化信号逐渐包含更多的分量。除了作为单频道的第一分量信号之外,分量信号各自描述独立的声源。
图4示出信号400的示例。这里,信号410对应于最低速率。例如,信号410可包括单频道信号。信号420可以对应于下一阶。例如,信号420可包括源信号1及其全景声混合矩阵。信号430可以对应于下一阶。例如,信号430可包括源信号2及其全景声混合矩阵。信号440可以对应于下一阶。例如,信号440可包括源信号3及其全景声混合矩阵。对于时不变的空间布置,全景声混合矩阵可以是时不变的,因此在这种情况下仅需要相对低的传输速率。
以下描述特定的BSS算法。在一些实施方式中,可将方向分解方法用作预处理器。例如,这可以是以下所述方法。算法涉及针对全景声的独立源提取,并包括:
使用方向分解映射B→S′
估计RMS功率
执行尺度不变聚类S′j(l,·),(例如,使用相似性传播)
混合矩阵行i是
BSS算法可以每频率区间k运行,并且可以假设方向信号一般仅包含单个源(因为它们代表到该源的路径)。然后可以聚类方向信号(其形成所有扬声器中的所有信号组成的矢量处理的行),群集包含与特定声源相关联的一组方向信号的索引。聚类必须不随信号的复数比例因子而改变,并且例如可以基于相似性传播。可以不考虑由多个源信号组成的单信号(单个)簇。
以下描述涉及在无穷远处具有点源的Greedy方向分解。考虑由一组系数表征的阶数为N的全景声表示。目标可以是利用放置在无限半径球体上的虚拟扬声器生成的一组信号的全景声表示的总和来近似这些系数。等效地,可将其视为如方程(6)指定的有限平面波集的扩展。也就是说,如果具有位置(θi,φi)的一组虚拟扬声器则每个环绕声系数可以表示为
其中是驱动信号矢量,是虚拟扬声器增益向量,而∈γ是标量误差,γ表示其维数。
可以针对特定时间和频率来叠加所有全景声系数并对球谐函数矢量Ynm进行相同运算,以获得:
其中,因为所以得到
下面考虑其中优化矩形时频补丁{(l,k):L0≤l<L1,K0≤q<K1}的情况。这里,形状仅用于说明目的;可以在不调整算法的情况下使用任何其他形状。假设在频带内,点源的位置在频率上共享。然后可将方程(20)概括为
其中其中定义了LK=(L1-L0)(K1-K0)。可以看出,信号的数量从(N+1)2到设定基数
Frobenius范数用||·||F表示,方向分解近似用
方程(22)可视为合成运算:它通过直接的矩阵乘法,根据方向分解表示中的信号S产生立体声表示。为了执行对应的分析,可以执行匹配追踪算法,以找到该频带的Sj(k)的集合和(θj,φj)的集合两者。该算法可以在某个残差误差处停止或在固定次数的迭代之后停止。该算法涉及方向分解匹配追踪并返回与位置集相对应的时频补丁信号S,其中是复数集。该算法可包括:
初始化扬声器位置集合
Setitermax
iter=0
r=B
whileiter<itermax do
r=r-Y(θj,φj)S
iter=iter+1
end while
原则上,对于较大的时频补丁,上述算法为所选择的点集返回更一致的值。一般而言,最佳点集合随频率变化,但是取决于物理布置和频率,可以预期在频带内发现的扬声器位置的一致性。对于时间不变的空间布置,最佳点集合不应随时间变化。因此,可以使得补丁的持续时间相对较长。
图5示出通用计算机装置500和通用移动计算机装置550的示例,它们可以与本文所述技术一起使用。计算装置500意在表示各种形式的数字计算机,例如膝上型计算机、台式机、平板计算机、工作站、个人数字助理、电视、服务器、刀片服务器、大型机、和其他适当的计算装置。计算装置550意在表示各种形式的移动装置,例如个人数字助理、蜂窝电话、智能电话、和其他类似的计算装置。本文所示的组件、它们的连接和关系以及它们的功能仅仅是示例性的,并非要限制本文献所述和/或要求保护的发明的实施方式。
计算装置500包括处理器502、存储器504、存储装置506、连接到存储器504和高速扩展端口510的高速接口508、以及连接到低速总线514和存储装置506的低速接口512。处理器502可以是基于半导体的处理器。存储器504可以是基于半导体的存储器。组件502、504、506、508、510和512中的每一个都使用各种总线互连,并且可以安装在公共主板上或者视情况以其他方式安装。处理器502可以处理用于在计算装置500内执行的指令,包括存储在存储器504中或存储装置506上的指令,以在诸如耦合到高速接口508的显示器516的外部输入/输出装置上显示GUI的图形信息。在其他实施方式中,可以连同多个存储器和多种类型的存储器一起,视情况使用多个处理器和/或多个总线。此外,可以连接多个计算装置500,每个装置提供必要操作的一部分(例如,作为服务器库,一组刀片服务器或多处理器系统)。
存储器504存储计算装置500内的信息。在一个实施方式中,存储器504是易失性存储器单元或多个单元。在另一个实施方式中,存储器504是非易失性存储器单元或多个单元。存储器504也可以是另一种形式的计算机可读介质,诸如磁盘或光盘。
存储装置506能够为计算装置500提供大容量存储。在一个实施方式中,存储装置506可以是或包含计算机可读介质,诸如软盘装置、硬盘装置、光盘装置、或磁带装置、闪存、或其他类似的固态存储装置、或装置阵列,包括存储区域网络中的装置或其他配置。可以在信息载体中有形地具体实施计算机程序产品。计算机程序产品还可以包含指令,所述指令在被执行时执行一个或多个方法,例如上面所述的那些方法。信息载体是计算机或机器可读介质,例如存储器504、存储装置506或处理器502上的存储器。
高速控制器508管理计算装置500的带宽密集型操作,而低速控制器512管理较低带宽密集型操作。这种功能分配仅是示例性的。在一个实施方式中,高速控制器508耦合到存储器504、显示器516(例如,通过图形处理器或加速器),并耦合到高速扩展端口510,高速扩展端口510可以容纳各种扩展卡(未示出)。在该实施方式中,低速控制器512耦合到存储装置506和低速扩展端口514。可包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器耦合到一个或多个输入/输出装置,诸如键盘、指示装置、扫描仪、或者诸如交换机或路由器的网络装置。
计算装置500可以按照多种不同的形式实现,如附图所示。例如,它可以实现为标准服务器520,或者在一组这样的服务器中实现多次。它还可以实现为机架服务器系统524的一部分。此外,它可以在个人计算机(例如膝上型计算机522)中实现。或者,可将来自计算装置500的组件与像装置550这样的移动装置(未示出)组合。这些装置中的每一个可以包含计算装置500、550中的一个或多个,并且整个系统可以由相互通信的多个计算装置500、550组成。
除了其他组件之外,计算装置550还包括处理器552、存储器564、输入/输出装置(例如显示器554)、通信接口566和收发器568。装置550还可以设置有存储装置,例如微驱动器或其他装置,以提供附加的存储。组件550、552、564、554、566和568中的每一个使用各种总线互连,并且若干组件可以安装在公共主板上或者视情况以其他方式安装。
处理器552可以执行计算装置550内的指令,包括存储在存储器564中的指令。处理器可以实现为芯片的芯片集,其包括单独的和多个模拟和数字处理器。例如,处理器可以提供用于装置550的其他组件的协调,诸如用户界面的控制、装置550运行的应用以及通过装置550的无线通信。
处理器552可通过控制接口558和耦合到显示器554的显示器接口556与用户通信。显示器554例如可以是TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器,或其他适当的显示技术。显示器接口556可包括用于驱动显示器554适当电路,以向用户呈现图形和其他信息。控制接口558可以从用户接收命令并将它们转换用于提交给处理器552。此外,可以提供与处理器552通信的外部接口562,从而实现装置550与其他装置的近区域通信。外部接口562例如可以在一些实施方式中提供有线通信,或者在其他实施方式中提供无线通信,并且还可以使用多个接口。
存储器564存储计算装置550内的信息。存储器564可以实现为计算机可读介质或介质、易失性存储器单元或非易失性存储器单元中的一个或多个。还可以提供扩展存储器574并通过扩展接口572连接到装置550,扩展接口572例如可包括SIMM(单列直插存储器模块)卡接口。这种扩展存储器574可以为装置550提供附加的存储空间,或者还可以存储装置550的应用程序或其他信息。具体而言,扩展存储器574可包括执行或补充上述处理的指令,并且还可包括安全信息。因此,例如,可以提供扩展存储器574作为装置550的安全模块,并且可以用允许安全使用装置550的指令编程。此外,可经由SIMM卡连同附加信息一起提供安全应用程序,例如以不可黑的方式将识别信息放在SIMM卡上。
存储器例如可包括闪存和/或NVRAM存储器,如下所述。在一个实施方式中,在信息载体中有形地具体实施计算机程序产品。计算机程序产品包含的指令在执行时执行一种或多种方法,例如上述方法。信息载体是计算机或机器可读介质,例如存储器564、扩展存储器574或处理器552上的存储器,例如可以通过收发器568或外部接口562接收。
装置550可通过通信接口566无线通信,通信接口566可以在必要时包括数字信号处理电路。通信接口566可以提供各种模式或协议下的通信,诸如GSM语音呼叫、SMS、EMS或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等。这种通信例如可通过射频收发器568发生。此外,可以发生短距离通信,诸如使用蓝牙、WiFi或其他这样的收发器(未示出)。此外,GPS(全球定位系统)接收器模块570可以向装置550提供附加的导航和位置相关的无线数据,可以视情况通过在装置550上运行的应用来使用。
装置550还可以使用音频编解码器560可听地通信,音频编解码器560可以从用户接收语音信息并将其转换为可用的数字信息。音频编解码器560同样可以例如在装置550的听筒中为用户生成可听声音,例如通过扬声器。这种声音可包括来自语音电话呼叫的声音,可包括录制的声音(例如,语音消息、音乐文件等),并且还可包括通过在装置550上操作的应用程序生成的声音。
计算装置550可以按照多种不同的形式实现,如附图所示。例如,它可以实现为蜂窝电话580。它还可以实现为智能电话582、个人数字助理或其他类似移动装置的一部分。
本文所述系统和技术的各种实施方式可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些不同的实施方式可包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式,可编程系统包括至少一个可编程处理器,可编程处理器可以是专用的或通用的,耦合为往来于存储系统、至少一个输入装置和至少一个输出装置接收数据和指令以及传输数据和指令。
这些计算机程序(也称为程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令,并且可以在高级程序和/或面向对象的编程语言和/或在汇编/机器语言中实现。如本文使用的,术语“机器可读介质”、“计算机可读介质”指的是用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指的是用于向可编程处理器提供机器指令和/或数据的任何信号。
为了提供与用户的交互,本文所述系统和技术可以在具有用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户由其向计算机提供输入的键盘和指示装置(例如,鼠标或轨迹球)的计算机上实现。也可以使用其他类型的装置来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈(例如,视觉反馈、听觉反馈或触觉反馈);并且可以按照任何形式接收来自用户的输入,包括声学、语音或触觉输入。
本文所述系统和技术可以在包括后端组件(例如,作为数据服务器)或包括中间件组件(例如,应用服务器)或包括前端组件(例如,具有图形用户界面或Web浏览器的客户端计算机,用户可由其与本文所述系统和技术的实施方式交互)或这些后端、中间件或前端的任何组合的计算系统中实现。系统的组件可通过数字数据通信的任何形式或介质(例如通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”)和互联网。
计算系统可包括客户端和服务器。客户端和服务器一般相互远离,并且通常通过通信网络进行交互。客户端和服务器的关系借助于在各个计算机上运行并且相互具有客户端-服务器关系的计算机程序而产生。
已经描述了很多实施例。但是应该理解,在不脱离本发明的精神和范围的情况下,可以进行各种修改。
此外,附图所示的逻辑流程不要求所示的特定顺序或依次顺序来实现期望的结果。此外,可以提供其他步骤,或者从所述流程中消除步骤,可以向所述系统添加其他组件,或者从所述系统移除其他组件。因此,其他实施例落入以下权利要求的范围。
在以下示例中总结了进一步的实施方式:
示例1:一种方法包括:接收声场的表示,所述表示表征空间中的一个点周围的声场;将所接收的表示分解成独立信号;以及将所述独立信号编码,其中,任何所述独立信号的量化噪声都具有与所述独立信号共同的空间分布。
示例2:示例1的方法,其中,所述独立信号包括单频道和多个独立源频道。
示例3:示例1或2的方法,其中,分解所接收的表示包括变换所接收的表示。
示例4:示例3的方法,其中,所述变换涉及解混矩阵,所述方法还包括通过用归一化的解混矩阵替换所述解混矩阵来考量滤波模糊度。
示例5:示例1至4之一的方法,其中,所述声场的表示与时不变的空间布置相对应。
示例6:示例1至5之一的方法,还包括:确定解混矩阵,以及使用所述解混矩阵根据全景声信号计算源信号。
示例7:示例6的方法,还包括:根据所述全景声信号的观察来估计混合矩阵,以及根据所估计的混合矩阵来计算所述解混矩阵。
示例8:示例7的方法,还包括:归一化所确定的解混矩阵,并使用所述归一化的解混矩阵来计算所述源信号。
示例9:示例1至8之一的方法,还包括:对所接收的声场的表示执行盲源分离。
示例10:示例9的方法,其中,执行所述盲源分离包括使用方向分解映射、估计RMS功率、执行尺度不变聚类、以及应用混合矩阵。
示例11:示例9或10的方法,还包括:执行方向分解,作为用于所述盲源分离的预处理器。
示例12:示例11的方法,其中,执行所述方向分解包括返回与用于扬声器的位置集合相对应的时频补丁信号的迭代处理。
示例13:示例1至12之一的方法,还包括:使所述编码可缩放。
示例14:示例13的方法,其中,使所述编码可缩放包括:仅以最低比特率编码零阶信号,并且随着比特率的增加,添加一个或多个提取的源信号并保留所述零阶信号。
示例15:示例14的方法,还包括:从混合处理中排除所述零阶信号。
示例16:示例1至15之一的方法,还包括:解码所述独立信号。
示例17:一种在非暂时性存储介质中有形地实现的计算机程序产品,所述计算机程序产品包括在被执行时使得处理器执行操作的指令,所述操作包括:接收声场的表示,所述表示表征空间中的一个点周围的声场;将所接收的表示分解成独立信号;以及将所述独立信号编码,其中,任何所述独立信号的量化噪声都具有与所述独立信号共同的空间分布。
示例18:示例17的计算机程序产品,其中,所述独立信号包括单频道和多个独立源频道。
示例19:一种系统,包括:处理器;以及在非暂时性存储介质中有形地实现的计算机程序产品,所述计算机程序产品包括在被执行时使得处理器执行操作的指令,所述操作包括:接收声场的表示,所述表示表征空间中的一个点周围的声场;将所接收的表示分解成独立信号;以及将所述独立信号编码,其中,任何所述独立信号的量化噪声都具有与所述独立信号共同的空间分布。
示例20:示例19的系统,其中,所述独立信号包括单频道和多个独立源频道。

Claims (20)

1.一种方法,包括:
接收声场的表示,所述表示表征空间中的一个点周围的声场;
将所接收的表示分解成独立信号;以及
将所述独立信号编码,其中,任何所述独立信号的量化噪声都具有与所述独立信号共同的空间分布。
2.根据权利要求1所述的方法,其中,所述独立信号包括单频道和多个独立源频道。
3.根据权利要求1所述的方法,其中,分解所接收的表示包括变换所接收的表示。
4.根据权利要求3所述的方法,其中,所述变换涉及解混矩阵,所述方法还包括通过用归一化的解混矩阵替换所述解混矩阵来考量滤波模糊度。
5.根据权利要求1所述的方法,其中,所述声场的表示与时不变的空间布置相对应。
6.根据权利要求1所述的方法,还包括:确定解混矩阵,以及使用所述解混矩阵根据全景声信号计算源信号。
7.根据权利要求6所述的方法,还包括:根据所述全景声信号的观察来估计混合矩阵,以及根据所估计的混合矩阵来计算所述解混矩阵。
8.根据权利要求7所述的方法,还包括:归一化所确定的解混矩阵,并使用所述归一化的解混矩阵来计算所述源信号。
9.根据权利要求1所述的方法,还包括:对所接收的声场的表示执行盲源分离。
10.根据权利要求9所述的方法,其中,执行所述盲源分离包括使用方向分解映射、估计RMS功率、执行尺度不变聚类、以及应用混合矩阵。
11.根据权利要求9所述的方法,还包括:执行方向分解,作为用于所述盲源分离的预处理器。
12.根据权利要求11所述的方法,其中,执行所述方向分解包括返回与用于扬声器的位置集合相对应的时频补丁信号的迭代过程。
13.根据权利要求1所述的方法,还包括:使所述编码可缩放。
14.根据权利要求13所述的方法,其中,使所述编码可缩放包括:仅以最低比特率编码零阶信号,并且随着比特率的增加,添加一个或多个提取的源信号并保留所述零阶信号。
15.根据权利要求14所述的方法,还包括:从混合过程中排除所述零阶信号。
16.根据权利要求1所述的方法,还包括:解码所述独立信号。
17.一种在非暂时性存储介质中有形地实现的计算机程序产品,所述计算机程序产品包括在被执行时使得处理器执行操作的指令,所述操作包括:
接收声场的表示,所述表示表征空间中的一个点周围的声场;
将所接收的表示分解成独立信号;以及
将所述独立信号编码,其中,任何所述独立信号的量化噪声都具有与所述独立信号共同的空间分布。
18.根据权利要求17所述的计算机程序产品,其中,所述独立信号包括单频道和多个独立源频道。
19.一种系统,包括:
处理器;以及
在非暂时性存储介质中有形地实现的计算机程序产品,所述计算机程序产品包括在被执行时使得处理器执行操作的指令,所述操作包括:
接收声场的表示,所述表示表征空间中的一个点周围的声场;
将所接收的表示分解成独立信号;以及
将所述独立信号编码,其中,任何所述独立信号的量化噪声都具有与所述独立信号共同的空间分布。
20.根据权利要求19所述的系统,其中,所述独立信号包括单频道和多个独立源频道。
CN201780070855.3A 2017-01-27 2017-11-02 声场表示的代码化 Active CN109964272B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/417,550 US10332530B2 (en) 2017-01-27 2017-01-27 Coding of a soundfield representation
US15/417,550 2017-01-27
PCT/US2017/059723 WO2018140109A1 (en) 2017-01-27 2017-11-02 Coding of a soundfield representation

Publications (2)

Publication Number Publication Date
CN109964272A true CN109964272A (zh) 2019-07-02
CN109964272B CN109964272B (zh) 2023-12-12

Family

ID=61257091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780070855.3A Active CN109964272B (zh) 2017-01-27 2017-11-02 声场表示的代码化

Country Status (4)

Country Link
US (2) US10332530B2 (zh)
EP (1) EP3523801B1 (zh)
CN (1) CN109964272B (zh)
WO (1) WO2018140109A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10264386B1 (en) * 2018-02-09 2019-04-16 Google Llc Directional emphasis in ambisonics
SG11202105719RA (en) 2018-12-07 2021-06-29 Fraunhofer Ges Forschung Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators
WO2020207596A1 (en) * 2019-04-12 2020-10-15 Huawei Technologies Co., Ltd. Device and method for obtaining a first order ambisonic signal
CN111241904B (zh) * 2019-11-04 2021-09-17 北京理工大学 一种基于盲源分离技术的欠定情况下运行模态识别方法
JP2024026010A (ja) * 2022-08-15 2024-02-28 パナソニックIpマネジメント株式会社 音場再現装置、音場再現方法及び音場再現システム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1656485A (zh) * 2002-04-22 2005-08-17 哈里公司 利用空间四阶累积量矩阵束的盲源分离
CN1936926A (zh) * 2006-09-28 2007-03-28 上海大学 一种基于稀疏变换的图像盲源分离方法
CN101384105A (zh) * 2008-10-27 2009-03-11 深圳华为通信技术有限公司 三维声音重现的方法、装置及系统
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
CN103563402A (zh) * 2011-05-16 2014-02-05 高通股份有限公司 基于盲源分离的空间滤波
US20140358557A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
CN104468436A (zh) * 2014-10-13 2015-03-25 中国人民解放军总参谋部第六十三研究所 一种通信信号小波域盲源分离抗干扰方法及装置
CN105144752A (zh) * 2013-04-29 2015-12-09 汤姆逊许可公司 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1512514A (en) 1974-07-12 1978-06-01 Nat Res Dev Microphone assemblies
FR2844894B1 (fr) * 2002-09-23 2004-12-17 Remy Henri Denis Bruno Procede et systeme de traitement d'une representation d'un champ acoustique
PL2285139T3 (pl) * 2009-06-25 2020-03-31 Dts Licensing Limited Urządzenie i sposób konwersji przestrzennego sygnału audio
WO2014013070A1 (en) * 2012-07-19 2014-01-23 Thomson Licensing Method and device for improving the rendering of multi-channel audio signals
EP2733964A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
KR102201726B1 (ko) * 2014-03-21 2021-01-12 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
US9847087B2 (en) * 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression
KR20240050436A (ko) * 2014-06-27 2024-04-18 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 장치
US9531998B1 (en) * 2015-07-02 2016-12-27 Krush Technologies, Llc Facial gesture recognition and video analysis tool
US9883314B2 (en) * 2014-07-03 2018-01-30 Dolby Laboratories Licensing Corporation Auxiliary augmentation of soundfields
US9961475B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
US9813811B1 (en) * 2016-06-01 2017-11-07 Cisco Technology, Inc. Soundfield decomposition, reverberation reduction, and audio mixing of sub-soundfields at a video conference endpoint
WO2017218399A1 (en) * 2016-06-15 2017-12-21 Mh Acoustics, Llc Spatial encoding directional microphone array

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1656485A (zh) * 2002-04-22 2005-08-17 哈里公司 利用空间四阶累积量矩阵束的盲源分离
CN1936926A (zh) * 2006-09-28 2007-03-28 上海大学 一种基于稀疏变换的图像盲源分离方法
CN101384105A (zh) * 2008-10-27 2009-03-11 深圳华为通信技术有限公司 三维声音重现的方法、装置及系统
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置
CN103563402A (zh) * 2011-05-16 2014-02-05 高通股份有限公司 基于盲源分离的空间滤波
CN105144752A (zh) * 2013-04-29 2015-12-09 汤姆逊许可公司 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
US20140358557A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
CN104468436A (zh) * 2014-10-13 2015-03-25 中国人民解放军总参谋部第六十三研究所 一种通信信号小波域盲源分离抗干扰方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
孙晓东等: "基于小波和Curvelet变换联合去噪的含噪盲源分离", 《黑龙江大学自然科学学报》 *
柴娟芳等: "基于伪信噪比最大化的盲源分离算法", 《系统工程与电子技术》 *
郭靖等: "含噪BSS模型的BJD-Hough算法", 《计算机应用研究》 *
马晓红等: "基于盲源分离理论的麦克风阵列信号有音/无音检测方法", 《电子与信息学报》 *

Also Published As

Publication number Publication date
US20190259397A1 (en) 2019-08-22
EP3523801B1 (en) 2024-04-10
US20180218740A1 (en) 2018-08-02
WO2018140109A1 (en) 2018-08-02
EP3523801A1 (en) 2019-08-14
EP3523801C0 (en) 2024-04-10
US10839815B2 (en) 2020-11-17
CN109964272B (zh) 2023-12-12
US10332530B2 (en) 2019-06-25

Similar Documents

Publication Publication Date Title
CN109906616B (zh) 用于确定一或多个音频源的一或多个音频表示的方法、系统和设备
CN109964272A (zh) 声场表示的代码化
CN110168638B (zh) 用于虚拟现实、增强现实及混合现实的音频位差
EP2954703B1 (en) Determining renderers for spherical harmonic coefficients
US11432071B2 (en) User interface for controlling audio zones
US11240623B2 (en) Rendering audio data from independently controlled audio zones
CN111801732A (zh) 用于定向声源的编码及解码的方法、设备及系统
US20230260525A1 (en) Transform ambisonic coefficients using an adaptive network for preserving spatial direction
KR102284811B1 (ko) 인코히어런트 멱등 앰비소닉스 렌더링
US20230110257A1 (en) 6DOF Rendering of Microphone-Array Captured Audio For Locations Outside The Microphone-Arrays
JP2023551016A (ja) オーディオ符号化及び復号方法並びに装置
CN114128312B (zh) 用于低频效果的音频渲染
CN114630240B (zh) 方向滤波器的生成方法、音频处理方法、装置及存储介质
Tsingos et al. XY-stereo Capture and Up-conversion for Virtual Reality
US20240187807A1 (en) Clustering audio objects
US20230421978A1 (en) Method and Apparatus for Obtaining a Higher-Order Ambisonics (HOA) Coefficient
US20230051841A1 (en) Xr rendering for 3d audio content and audio codec
US20220360891A1 (en) Audio zoom
WO2023070061A1 (en) Directional audio source separation using hybrid neural network
CN116421971A (zh) 空间音频信号的生成方法及装置、存储介质、电子设备
CN116965062A (zh) 对音频对象进行聚类

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant