CN102656627B - 多信道音频处理方法和装置 - Google Patents
多信道音频处理方法和装置 Download PDFInfo
- Publication number
- CN102656627B CN102656627B CN200980162993.XA CN200980162993A CN102656627B CN 102656627 B CN102656627 B CN 102656627B CN 200980162993 A CN200980162993 A CN 200980162993A CN 102656627 B CN102656627 B CN 102656627B
- Authority
- CN
- China
- Prior art keywords
- channel
- inter
- metric
- mrow
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000013507 mapping Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 5
- 238000004091 panning Methods 0.000 claims description 5
- 238000009877 rendering Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 26
- 230000005236 sound signal Effects 0.000 description 20
- 238000004590 computer program Methods 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000007795 chemical reaction product Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000010363 phase shift Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000003454 tympanic membrane Anatomy 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H40/00—Arrangements specially adapted for receiving broadcast information
- H04H40/18—Arrangements characterised by circuits or components specially adapted for receiving
- H04H40/27—Arrangements characterised by circuits or components specially adapted for receiving specially adapted for broadcast systems covered by groups H04H20/53 - H04H20/95
- H04H40/36—Arrangements characterised by circuits or components specially adapted for receiving specially adapted for broadcast systems covered by groups H04H20/53 - H04H20/95 specially adapted for stereophonic broadcast receiving
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
一种方法包括:接收至少第一输入音频信道和第二输入音频信道;并且使用信道间预测模型来形成至少一个信道间接收方向参数。
Description
技术领域
本发明的实施方式涉及多信道音频处理。具体而言,涉及音频信号分析、编码和/或解码多信道音频。
背景技术
多信道音频信号分析用于例如关于3D图像、音频编码中的方向和运动以及声音源数量的多信道音频环境分析中,其又可用于编码例如语音、音乐等等。
多信道音频编码可用于例如数字音频广播、数字电视广播、音乐下载服务、流音乐服务、因特网广播、电话会议、基于分组交换网的实时多媒体传输(如IP语音、多媒体广播组播服务(MBMS)和分组交换流(PSS))。
发明内容
根据本发明的各种但不一定是所有实施方式,提供了一种方法,包括:接收至少第一输入音频信道和第二输入音频信道;并且使用信道间预测模型来形成至少一个信道间接收方向参数。
根据本发明的各种但不一定是所有实施方式,提供了一种计算机程序产品,包括当被加载到处理器中时控制该处理器执行以下操作的该机器可读指令:接收至少第一输入音频信道和第二输入音频信道;并且使用信道间预测模型来形成至少一个信道间接收方向参数。
根据本发明的各种但不一定是所有实施方式,提供了一种包括处理器和用于记录机器可读指令的存储器的装置,其中当该机器可读指令被加载到处理器中时使得该装置:接收至少第一输入音频信 道和第二输入音频信道;并且使用信道间预测模型来形成至少一个信道间接收方向参数。
根据本发明的各种但不一定是所有实施方式,提供了一种装置,包括:用于接收至少第一输入音频信道和第二输入音频信道的单元;以及用于使用信道间预测模型来形成至少信道间接收方向参数的单元。
根据本发明的各种但不一定是所有实施方式,提供了一种方法,包括:接收缩混信号和至少一个信道间接收方向参数;并且使用该缩混信号和该至少一个信道间接收方向参数来呈现多信道音频输出。
附图说明
为了更好地理解本发明的各种示例性实施方式,现在将仅通过实例的方式来参考附图,其中:
图1示意性地示出了用于多信道音频编码的系统;
图2示意性地示出了编码器装置;
图3示意性地示出了在一些实现中可以如何确定对于不同的推定信道间预测模型H1和H2的成本函数;
图4示意性地示出了用于根据所选择的信道间预测模型H确定信道间参数的方法;
图5示意性地示出了用于根据所选择的信道间预测模型H确定信道间参数的方法;
图6示意性地示出了可以被用作为编码器装置和/或解码器装置的编解码器装置的组件;
图7示意性地示出了用于确定信道间接收方向参数的方法;
图8示意性地示出了用于将合成块的多信道输出混合到多个输出音频信道中的解码器;以及
图9示意性地示出了用于从编码器装置接收输入信号的解码器装置。
具体实施方式
在该实例中,所示的多信道音频编码器装置4是参数编码器,该参数编码器利用多信道音频信号分析根据预定义的参数模型来进行编码。
在该实例中,参数模型是一种使得能够进行有损压缩和数据速率降低以便降低容纳该多信道音频信号所需要的传输带宽或存储空间的直观模型。
编码器装置4在该实例中使用参数编码技术如双声道线索编码(binaural cue coding,BCC)参数化来执行多信道音频编码。参数音频编码模型通常将原始音频表示成缩混信号,其中该缩混信号包括从该原始信号的信道形成的数量减少的音频信道(例如作为单声道或作为双信道(立体声)加和信号)以及描述该原始信号的信道之间的差以便使得能够重构该原始信号(即描述由该原始信号所表示的空间图像)的参数的比特流。可以将包括多个信道的缩混信号看作为多个独立的缩混信号。
参数可以包括在多个变换域时-频时隙中的每一个中(即在输入帧的频率子带中)估计的至少一个信道间参数。传统而言,信道间参数是信道间等级差(ILD)参数和信道间时间差(ITD)参数。但是,在下文中信道间参数包括信道间接收方向(IDR)参数。在确定该信道间接收方向(IDR)参数的过程期间,仍然可以将信道间等级差(ILD)参数和/或信道间时间差(ITD)参数确定为中间参数。
为了保存输入信号的空间音频图像,重要的是准确地确定这些参数。
图1示意性地示出了用于多信道音频编码的系统2。多信道音频编码可以用于例如数字音频广播、数字电视广播、音乐下载服务、流音乐服务、因特网广播、对话应用、电话会议等等。
多信道音频信号35可以表示使用多个麦克风25n从现实环境中捕获的音频图像,其中该多个麦克风25n捕获来自声学空间中的一个 或多个声音源的声音33。由独立的麦克风提供的信号表示多信道音频信号35中的独立的信道33n。由编码器4处理该信号,以提供该声学空间的空间音频图像的浓缩表示。通常使用的麦克风结构的实例包括用于立体声(即两个信道)的多信道配置,5.1和7.2信道配置。特殊的情况是双耳音频捕获,其旨在通过使用两个信道331、332来捕获与到达(真实或虚拟)收听者的耳膜处的两个信道相对应的信号以建模人类听觉。但是,基本上可以使用任意类型的多麦克风结构来捕获多信道音频信号。典型而言,使用声学空间中的多个麦克风所捕获的多信道音频信号35产生具有相关信道的多信道音频。
输入到编码器4的多信道音频信号35也可以表示源自不同的(典型而言不相关的)源的可能通过组合信道33n所创建的虚拟音频图像。原始信道33n可以是单个信道或多个信道。可以由编码器4处理该多信道音频信号35的信道来展现希望的空间音频图像,例如通过这样一种方式将原始信号设置在该音频图像中的希望的“位置”中,其中在该方式中该原始信号直观看起来来自希望的方向并且可能还处于希望的等级。
图2示意性地示出了编码器装置4。
在该实例中,所示多信道音频编码器装置4是参数编码器,其中该参数编码器利用多信道音频信号分析根据所定义的参数模型来进行编码。
在该实例中,参数模型是允许有损压缩和带宽降低的直观模型。
编码器装置4在该实例中使用参数编码技术例如双声道线索编码(BCC)参数化来执行空间音频编码。参数音频编码模型如BCC通常将原始音频表示成缩混信号,其中该缩混信号包括从该原始信号的信道形成的数量减少的音频信道(例如作为单声道或作为双信道(立体声)加和信号)以及描述该原始信号的信道之间的差以便使得能够重构该原始信号(即描述由该原始信号所表示的空间图像)的参数的比特流。可以将包括多个信道的缩混信号看作为多个独立的缩混信号。
变换器50在离散时间帧上使用例如滤波器组分解,将输入音频信号(两个或更多个输入音频信道)从时域变换到频域。该滤波器组可能被严格抽样。严格抽样意味着数据(每秒钟的样本)的数量在变换域中保持相同。
可以将该滤波器组实现为例如重叠变换,其中当作为子带分解的一部分而执行块(即帧)的窗化时该重叠变换使得能够从一个帧到另一个帧进行平滑转变。可选择地,可以使用例如多相格式的FIR滤波器将该分解实现为连续滤波操作,以允许计算高效的操作。
将输入音频信号的信道独立地变换到频域,即变换到针对输入帧时隙的多个频率子带。因此,在时域中将输入音频信道划分成时隙并且在频域中将输入音频信道划分成子带。
在时域中该划分可能是均匀的,以形成均匀的时隙例如持续时间相等的时隙。在频域中该划分可能是均匀的,以形成均匀的子带例如频率范围相等的子带;或者在频域中该划分可能是不均匀的,以形成不均匀的子带结构例如频率范围不同的子带。在一些实施方式中,在低频处的子带比在高频处的子带窄。
从直观并且心理声学的观点看来,优选靠近ERB(等效矩形带宽)尺度的子带结构。但是可以应用任意类型的子带分割。
向音频场景分析器54提供来自变换器50的输出,音频场景分析器54产生场景参数55。在变换域中分析该音频场景,并且提取并处理对应的参数55以便传输或者存储以供稍后使用。
音频场景分析器54使用信道间预测模型来形成信道间场景参数55。
信道间参数可以包括例如在每个变换域时-频时隙(即输入帧的频率子带)中估计的信道间接收方向(IDR)参数。
另外,可以确定所选择的信道对之间的输入帧的频率子带的信道间相干性(ICC)。通常,针对输入信号的每个时-频时隙或者时-频时隙的子集确定IDR和ICC参数。时-频时隙的子集例如可以直观地表示最重要频率分量、输入帧的子集的频率时隙(的子集)或者 特别感兴趣的时-频时隙的任意子集。信道间参数的直观重要性可能随时-频时隙的不同而不同。此外,对于具有不同特性的输入信号,信道间参数的直观重要性可能不同。
可以在任意两个信道之间确定IDR参数。作为一个实例,可以在输入音频信道与参考信道之间,通常是每个输入音频信道和参考输入音频信道之间,确定IDR参数。作为另一个实例,可以将麦克风阵列的相邻麦克风形成一个对来将输入信道分组为信道对,并且针对每个信道对确定IDR参数。通常针对将每个信道与参考信道进行比较来单独地确定ICC。
在下文中,使用具有两个输入信道L、R和单信道缩混信号的实例示出了BCC方法的一些细节。但是可以将该表示概括为覆盖多于两个输入音频信道和/或使用多个缩混信号(或具有多个信道的缩混信号)的配置。
缩混器52创建缩混信号作为输入信号的信道的组合。用于描述音频场景的参数还可用于多信道输入信号在缩混处理之前或之后的附加处理,以例如消除信道之间的时间差以便提供跨输入信道的时间对准的音频。
通常在变换域中将缩混信号创建为输入信号的信道的线性组合。例如,在双信道情况中,可以简单地通过求左信道和右信道的信号的平均来创建缩混:
还存在用于创建缩混信号的其他手段。在一个实例中,可以在组合之前对左和右输入信道进行加权,以该方式可以保留该信号的能量。例如当其中一个信道上的信号能量显著低于另一个信道上的信号能量或者一个信道上的能量接近于零的时候,这可能是有用的。
可以使用可选择的逆变换器56在时域中产生缩混音频信号57。
可选择地,可以没有逆变换器56。因此在频域中对输出的缩混音频信号57进行连续编码。
多信道或双声道编码器的输出通常包括编码的缩混音频信号57 和场景参数55。可以用针对信号57和55的独立的编码块(未显示)来提供该编码。任意单声(或立体声)音频编码器适用于缩混音频信号57,而对于信道间参数55需要专门的BCC参数编码器。信道间参数可以包括例如信道间接收方向(IDR)参数。
图3示意性地示出了在一些实现中可以如何确定对于不同的推定信道间预测模型H1和H2的成本函数。
可以将音频信道j在主子带中在时间n处的样本表示为xj(n)。
可以将音频信道j在主子带中在时间n处的历史过去样本表示为xj(n-k),其中k>0。
可以将音频信道j在主子带中在时间n处的预测样本表示为yj(n)。
信道间预测模型根据另一个音频信道的历史来表示一个音频信道j的预测样本yj(n)。该信道间预测模型可以是自回归(AR)模型、移动平均(MA)模型或自回归移动平均(ARMA)模型等等。
作为一个基于AR模型的实例,阶数为L的第一信道间预测模型H1可以将预测样本y2表示为输入信号x1的样本的加权线性组合。
输入信号x1包括来自第一输入音频信道的样本,并且样本y2表示第二输入音频信道的预测样本。
模型阶数(L),即预测器系数的数量,大于或等于期望的信道间延迟。即,该模型应该至少具有与样本中的期望的信道间延迟一样多的预测器系数。特别是当期望的延迟处于子样本域中时,具有比延迟略微高的模型阶数可能是有利的。
第二信道间预测模型H2可以将预测样本y1表示为输入信号x2的样本的加权线性组合。
输入信号x2包括来自第二输入音频信道的样本,并且预测样本y1表示第一输入音频信道的预测样本。
虽然在该实例中对于预测样本y1和预测样本y2两者而言,信道间模型阶数L是相同的,但是不一定总是这种情况。预测样本y1的信道间模型阶数L可以与预测样本y2的信道间模型阶数不同。模型阶数L也可以基于例如输入信号特性而随着输入帧的不同而不同。此外,可选择地或另外地,该模型阶数L可能在输入帧的频率子带上不同。
可以将在方框82处确定的成本函数定义为预测样本y与实际样本x之间的差。
在该实例中信道间预测模型H1的成本函数是:
在该实例中信道间预测模型H2的成本函数是:
将推定信道间预测模型的成本函数最小化,以确定推定信道间预测模型。可以使用例如最小平方线性回归分析来实现该确定。
可以使用利用未来样本的预测模型。例如,在实时分析(和/或编码)中,这可以通过缓存一定数量的输入帧以使得能够基于希望预测阶数的未来样本进行预测来实现。此外,当分析/编码预存音频信号时,希望数量的未来信号已经可用于该预测过程。
也可以使用递归的信道间预测模型。在该方法中,可以一个样本接一个样本地获得预测误差。该方法使得有可能在任意时刻选择预测模型并且甚至在一个帧中多次更新预测增益。例如可以如下递归地确定使用来自信道1的数据来预测信道2的预测模型f1:
x1(n)=[x1,n x1,n-1 … x1,n-p]T
e2(n)=x2(n)-f1(n-1)Tx1(n)
g(n)=P(n-1)x1(n)(λ+x1(n)TP(n-1)x1(n))-1
P(n)=λ-1P(n-1)-g(n)x1(n)Tλ-1P(n-1)
f1(n)=f1(n-1)+e2(n)g(n) 等式6
其中,初始值为f1(0)=[0 0…0]T,P(0)=δ-1I是矩阵P(n)的初始状态, 并且p是AR模型阶数即向量f的长度,并且λ是值为例如0.5的遗忘因子。
通常,不管预测模型是什么,关于图3将主子带的预测增益gi定义为:
高预测增益指示主子带中的信道之间的强相关性。
可以使用预测增益来评价推定信道间预测模型的质量。第一选择标准可能要求该推断信道间预测模型Hi的预测增益gi大于绝对阈值T1。
低预测增益意味着信道间相关性低。预测增益值低于或接近1指示该预测器不提供有意义的参数化。例如,可以将绝对阈值设置在10log10(gi)=10dB。
如果该推定信道间预测模型Hi的预测增益gi不超过该阈值,则测试不成功。因此确定该推定信道间预测模型Hi不适用于确定信道间参数。
如果该推定信道间预测模型Hi的预测增益gi超过该阈值,则测试成功。因此确定该推定信道间预测模型Hi适用于确定至少一个信道间参数。
第二选择标准可能要求该推定信道间预测模型Hi的预测增益gi超过相对阈值T2。
相对阈值T2可以是当前最佳预测增益加上偏移量。偏移量值可以是大于或等于零的任意值。在一个实现中,将该偏移量设置在20dB和40dB之间,例如为30dB。
使用所选择的信道间预测模型来形成IDR参数。
最初,通过将用于主音频信道的主域时-频时隙的特性与用于参 考音频信道的同一时-频时隙的特性进行比较,确定在主域时-频时隙上的主音频信道的中间信道间参数。该特性可以是例如相位/延迟并且/或者其可以是幅度。
图4示意性地示出了用于在主子带中根据所选择的信道间预测模型Hi确定第一中间信道间参数的方法100。
在方框102处,确定信道间预测模型的相移/相位响应。
φ(ω)=∠(H(ejω)) 等式9
在方框104处,确定该模型针对主子带的对应的相位延迟
在方框106处,可以确定τφ(ω)在多个子带上的平均。该多个子带可以包括覆盖该频率范围的全部或子集的子带。
由于相位延迟分析是在子带域中完成的,所以对于帧中的信道间时间差(延迟)的合理的估计是τφ(ω)在覆盖该频率范围的全部或子集的多个子带上的平均。
图5示意性地示出了用于在主子带中根据所选择的信道间预测模型Hi确定第二中间信道间参数的方法110。
在方框112中,确定信道间预测模型的幅度。
根据该模型的幅度响应确定信道间等级差参数。
将该模型针对主子带的信道间等级差确定为:
g(ω)=|H(ejω)| 等式11
同样可以通过计算g(ω)在覆盖该频率范围的全部或子集的多个子带上的平均来估计该信道间等级差参数。
在方框114处,可以确定g(ω)在覆盖该频率范围的全部或子集的多个子带上的平均。可以使用该平均作为各个帧的信道间等级差 参数。
图7示意性地示出了用于确定一个或多个信道间接收方向参数的方法70。
在方框72处,接收输入音频信道。在下文的实例中,使用两个输入信道,但是在其他实现中,可以使用更大数量的输入信道。例如,可以将更大数量的信道减少为一系列共享同一参考信道的信道对。作为另一个实例,可以基于信道配置将更大数量的输入信道分组成信道对。对于信道间预测模型和对应的预测增益对,可以将与相邻麦克风相对应的信道链接在一起。例如,当在阵列配置中具有N个麦克风时,到达方向估计可以从相邻麦克风信道形成N-1个信道对。然后可以针对每个信道对确定到达方向(或IDR)参数,从而产生N-1个参数。
在方框73处,确定输入信道的预测增益。
可以关于图3将预测增益gi定义为:
第一预测增益是用于预测第一输入音频信道的信道间预测模型的第一度量g1的实例。第二预测增益是用于预测第二输入音频信道的信道间预测模型的第二度量g2的实例。
在方框74处,使用预测增益来确定一个或多个比较值。
合适的比较值的实例是预测增益差d,其中
d=log10(g1)-log10(g2) 等式14
因此方框73确定将第一度量(例如g1)与第二度量(例如g2)进行比较的比较值(例如d)。将第一度量(例如g1)用作慢速改变函数(例如算法)的自变量以获得修改后的第一度量(例如log10(g1))。将第二度量(例如g2)用作同一慢速改变函数(例如算法)的自变量以获得修改后的第二度量(例如log10(g2))。将比较值d确定为一个比较值,例如该修改后的第一度量与该修改后的第二度量之间的 差。
比较值(例如预测增益差)d可以与信道间接收方向参数成正比。因此,预测增益的差越大,则声音源与垂直于收听线(例如垂直于连接用于获取各个音频信道的麦克风的线,如线性麦克风阵列中的线性方向)的轴的中心相比的接收方向角越大。
可以将比较值(例如d)映射到信道间接收方向参数φ,其中φ是用于使用映射函数α()来描述接收方向的角度。作为一个实例,可以通过例如使用如下映射函数α,将预测增益差d线性映射到[-π/2…π/2]范围中的接收方向角:
d=αφ 等式15
该映射也可以是恒定的或者是时间和子带的函数,即α(t,m)。
在方框76处,校准该映射。该方框使用所确定的比较值(方框74)以及参考信道间接收方向参数(方框75)。
该校准后的映射函数将信道间接收方向参数映射到该比较值。可以根据该比较值(来自方框74)和相关联的信道间接收方向参数(来自方框75)来校准该映射函数。
在方框75处可以使用每个子带n中的绝对信道间时间差参数τ或者绝对信道间等级差参数ΔLn来确定该相关信道间接收方向参数。
可以由音频场景分析器54确定信道间时间差(ITD)参数τn和绝对信道间等级差(ILD)参数ΔLn。
可以在变换域时-频时隙中,即在输入帧的频率子带中,估计该参数。通常,针对输入信号的每个时-频时隙或者直观表示最重要频率分量的频率时隙的子集,来确定ILD和ITD参数。
可以在输入音频信道和参考信道之间,通常在每个输入音频信道和参考输入音频信道之间,确定ILD和ITD参数。
在下文中,使用具有两个输入信道L、R和单个缩混信号的实例示出了一种方法的一些细节。但是可以将该表示概括为覆盖多于两个输入音频信道和/或使用多个缩混信号的配置。
通常将每个子带的信道间等级差(ILD)ΔLn估计为:
可以将两个输入音频信道之间的信道间时间差(ITD)即延迟确定为如下:
τn=arg maxd{Φn(k,d)} 等式17
其中Φn(d,k)是归一化相关性
其中
d1=max{0,-d}
d2=max{0,d}
可选择地,可以在离散傅里叶变换(DFT)域中确定该参数。使用例如窗化短时傅里叶变换(STFT),可以将上述子带信号转换成变换系数的组群。 和 分别是给定分析帧的子带n的两个输入音频信道L、R的频谱系数。可以将变换域ILD确定为
其中*表示复共轭。
在本发明的实施方式中,可以使用除了DFT之外的任意产生复数值变换信号的变换。
但是,可能更容易将时间差(ITD)处理为信道间相位差(ICPD)
等式21。
可以仅针对有限数量的子带确定时间和等级差参数,并且不需要在每个帧中更新它们。
然后在方框75中,确定信道间接收方向参数。作为一个实例,可以使用绝对信道间时间差(ITD)参数τ,根据以下等式22确定参 考信道间接收方向参数φ:
τ=(|x|sin(φ))/c 等式22
其中|x|是麦克风之间的距离并且c是声音的速度。
作为另一个实例,可以如下等式24,使用(幅度)淘选法则(panning law)中的信道间信号等级差来确定参考信道间接收方向参数φ:
其中,sn是单声道缩混。接下来,将等式23中需要的信号等级确定为 和
往回参考方框76,可以根据所获得的比较值(来自方框74)和相关联的信道间接收方向参数(来自方框75)来校准该映射函数。
该映射函数可以是时间和子带的函数并且是使用可用的所获得的比较值和与那些比较值相关联的参考信道间接收方向参数确定的。如果该比较值和相关联的参考信道间接收方向参数在多个子带中可用,则映射函数在可用数据中适合做多项式。
可以间歇性地重新校准该映射函数。可以在规律的时间间隔或在映射准确性变得高于预先确定的阈值时基于输入信号特性或者甚至在每个帧和每个子带中重新校准该映射函数α(t,n)。
可以仅针对子带的子集发生该重新校准。
接下来方框77使用校准后的映射功能来确定信道间接收方向参数。
使用映射函数的逆函数将比较值(例如d)映射到信道间接收方向参数(例如 )。
例如可以使用等式
在编码器54中确定每个子带n中的接收方向。
根据本发明的一个实施方式,接收方向参数的估计 是双声道编码器54的输出55。
也可以提供信道间相干性线索,作为音频场景参数55以便完成空间图像参数化。但是,对于高于1500Hz的高频子带,当信道间时间或相位差典型而言变得模糊时,可以使用绝对预测增益作为信道间相干性线索。
在本发明的一些实施方式中,可以向呈现侧提供该映射函数α(t,n)作为参数55。但是在解码器中呈现空间声音时不一定需要该映射函数。
信道间预测增益通常平滑地发展。在多个帧的相对较长时间周期上平滑(并且平均)映射函数α-1(t,n)可以是有益的。即使当映射函数被平滑时,接收方向参数估计 也将保持对突然改变的快速反应能力,因为实际参数是基于基于帧和子带的预测增益的。
图6示意性地示出了可以被用作为编码器装置4和/或解码器装置80的编解码器装置的组件。该编解码器装置可以是最终产品或模块。如本文所使用的“模块”是指排除了特定部分/组件的单元或装置,其中将由最终制造商或者用户添加该特定部分/组件以形成最终产品装置。
编解码器的实现可以仅仅以硬件(电路、处理器等等)实现,以仅包括固件的软件来实现特定方面,或者可以是硬件和软件(包 括固件)的组合。
可以使用支持硬件功能的指令来实现编解码器,例如通过在通用或专用处理器中使用可以存储在可由该处理器执行的计算机可读存储介质上(盘片、存储器等等)的可执行计算机程序指令。
在所示实例中,编码器装置4包括:处理器40、存储器42以及输入/输出接口44例如网络适配器。
处理器40被配置为从存储器42进行读取以及向存储器42进行写入。处理器40还可以包括输出接口和输入接口,其中处理器40经由该输出接口输出数据和/或命令,并且处理器40经由该输入接口输入数据和/或命令。
存储器42存储计算机程序46,计算机程序46包括当被加载到处理器40中时控制编解码器装置的操作的计算机程序指令。计算机程序指令46提供使得该装置能够执行图3到9中所示的方法的逻辑和例程。通过读取存储器42,处理器40能够加载并且执行计算机程序46。
计算机程序可以经由任何合适的传递机制48到达编解码器装置。传递机制48可以是例如计算机可读存储介质、计算机程序产品、存储设备、诸如CD-ROM或DVD之类的记录介质、有形体现计算机程序46的制品。传递机制48可以是被配置为可靠地传递计算机程序46的信号。编解码器装置可以将计算机程序46作为计算机数据信号来传播或发射。
虽然将存储器42示出为单个组件,但是可以将其实现为一个或多个独立的组件,该一个或多个独立的组件中的一些或全部组件可以是集成的/可拆卸的并且/或者可以提供永久的/半永久的/动态的/高速缓冲的存储装置。。
应该将对于“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等等或“控制器”、“计算机”、“处理器”等等理解为不仅包括具有不同架构(如单/多处理器架构和顺序(冯诺依曼)/并行架构)的计算机而且还包括专用电路如现场可编程门阵列 (FPGA)、专用集成电路(ASIC)、信号处理设备和其他设备。应该将对于计算机程序、指令、代码等等的参考理解为包括用于可编程处理器或固件的软件,例如硬件设备的可编程内容,不管是用于处理器的指令或者用于功能固定的设备、门阵列或可编程逻辑器件等等的配置设置。
译码
图9示意性地示出了用于从编码器装置4接收输入信号57、55的解码器装置180。
解码器装置180包括合成模块182和参数处理模块184。信号合成例如BCC合成可以基于由参数处理模块184提供的参数,发生在合成模块182处。
用例如DTF变换将包括N个样本s0,…,SN-1的缩混信号57的帧转换成N个频谱样本S0,…,SN-1。
信道间参数(BCC线索)例如上述IDR是来自参数处理模块184的输出,并且将其应用在合成模块182中以创建多(M)个输出音频信道183中的空间音频信号,在该实例中是双声道音频。
可以由
τ=(|x|sin(φ))/c
来定义两个信道之间的时间差,其中,|x|是扬声器之间的距离,c是声音的速度。
可以由
来定义两个信道之间的等级差。
因此可以将接收的信道间接收方向参数 转换为幅度和时间/相位差淘选法则,以创建用于上混该单声道缩混的信道间等级和时间差线索。在经验质量的观点看来,当可以完全利用输出信道的相位差时,对于头戴式耳机收听而言这是特别有益的
可选择地,可以将接收的信道间接收方向参数 仅转换为用于上混该单声道缩混的信道间等级差线索而没有时间延迟呈现。这可 用于例如扬声器表示。
基于接收方向估计的提供是非常灵活的。输出信道配置不需要与获取侧的输出信道配置相同。即使使用双信道信号例如仅使用两个麦克风来执行该参数化,也可以使用任意数量的信道来呈现该音频。
应该注意到,使用取决于频率的接收方向(IDR)参数的合成重建来表示音频源的声音分量。环境声音仍然可能丢失,并且可以使用相干性参数来合成该环境声音。
一种用于基于相干性线索的环境声音分量的合成的方法包括信号的解相关,以创建后期混响信号。该实现可以包括使用随机相位滤波器来滤波输出音频信号并且将结果添加到输出中。当将不同的滤波器延迟应用于输出音频信道时,就创建了一组解相关的信号。
图8示意性地示出了一种解码器,其中在该解码器中通过混响器189将合成模块182的多信道输出合成到多(K)个输出音频信道191中,已知输出信道的数量可以与输入信道的数量不同(K≠M)。
这使得能够呈现不同的空间混响格式。例如混响器189可以响应于用户输入193识别用户的扬声器设置,以改变输出音频信道191的混响和属性和数量。在实施中,这意味着可以将例如最初针对5.1扬声器系统混响或记录的多信道电影声道上混为针对更现代的7.2扬声器系统。同样,可以通过多信道扬声器设置来回放用双声道麦克风记录的音乐或对话。
还有可能通过其他在计算上更昂贵的方法如交叉相关来获得信道间参数。在一些实施方式中,上述方法可用于第一频率范围并且交叉相关可用于第二个不同的频率范围。
图2到5和7到9中所示的方框可以表示方法中的步骤和/或计算机程序46中的代码段。对于方框的具体次序的说明不一定意味着对于该方框存在要求的或优选的次序,并且可以改变方框的次序和排列。此外,有可能省略一些步骤。
虽然在前文中已参考各种实例描述了本发明的实施方式,但是 应该明白在不脱离如所要求的本发明的范围的前提下,可以对于所给出的实例做出修改。上述技术还可以例如应用于MPEG环绕音编解码器。
可以在除了明确所述的组合之外的其他组合中使用前文中所述的特征。
虽然已参考特定特征描述了一些功能,但是那些功能也可以由其他特征来执行,而不管那些特征有没有描述。
虽然已参考特定实施方式描述了一些特征,但是那些特征也可以出现在其他实施方式中,而不管那些实施方式有没有描述。
同时,前文竭力引起人们注意本发明的被确信为特别重要的那些特征,应该理解申请人要求关于上文涉及的并且/以及附图中显示的任意可专利的特征或特征组合的保护,而不管是否特别强调。
Claims (20)
1.一种多信道音频处理方法,包括:
接收第一输入音频信道和第二输入音频信道;
确定第一度量为用于预测所述第一输入音频信道的信道间预测模型的预测增益,并且确定第二度量为用于预测所述第二输入音频信道的信道间预测模型的预测增益;
比较所述第一度量和所述第二度量以确定比较值;以及
基于所述比较值确定至少一个信道间接收方向参数。
2.根据权利要求1所述的方法,还包括:提供包括缩混信号和所述至少一个信道间接收方向参数的输出信号。
3.根据权利要求1所述的方法,还包括:
使用所述第一度量作为慢速改变函数的操作数以获得修改的第一度量;
使用所述第二度量作为同一慢速改变函数的操作数以获得修改的第二度量;以及
将所述修改的第一度量与所述修改的第二度量之间的差确定为所述比较值。
4.根据权利要求3所述的方法,其中所述比较值是所述第一度量的对数与所述第二度量的对数之间的差。
5.根据权利要求1所述的方法,还包括:
使用根据所获得的比较值和相关联的信道间接收方向参数所校准的映射函数,将所述信道间接收方向参数映射到所述比较值。
6.根据权利要求5所述的方法,其中使用绝对信道间时间差参数和/或绝对信道间等级差参数,确定所述相关联的信道间接收方向参数。
7.根据权利要求5所述的方法,还包括间隙性地重新校准所述映射函数。
8.根据权利要求5到7中的任意一项所述的方法,其中所述映射函数是时间与子带的函数,并且是使用可用的所获得的比较值与相关联的信道间接收方向参数来确定的。
9.根据权利要求1所述的方法,其中所述信道间预测模型针对不同的音频信道表示一个音频信道的预测样本。
10.根据权利要求9所述的方法,还包括:最小化所述预测样本的成本函数,以确定信道间预测模型,并且使用所述确定的信道间预测模型来确定至少一个信道间参数。
11.根据权利要求1到7、9或10中的任意一项所述的方法,还包括:
在时域中将至少所述第一输入音频信道和所述第二输入音频信道划分为时隙,以及在频域中将至少所述第一输入音频信道和所述第二输入音频信道划分为子带,以及
针对多个子带中的每个子带,使用信道间预测模型来形成信道间接收方向参数。
12.根据权利要求1所述的方法,还包括:使用至少一个选择标准来选择要使用的信道间预测模型,其中所述至少一个选择标准是基于所述信道间预测模型的性能测量。
13.根据权利要求12所述的方法,其中所述性能测量是预测增益。
14.根据权利要求1到7、9、10、12或13中的任意一项所述的方法,包括:从多个信道间预测模型中选择要使用的信道间预测模型。
15.一种多信道音频处理装置,包括:
用于接收第一输入音频信道和第二输入音频信道的单元;
用于确定第一度量为用于预测所述第一输入音频信道的信道间预测模型的预测增益,并且确定第二度量为用于预测所述第二输入音频信道的信道间预测模型的预测增益的单元;
用于比较所述第一度量和所述第二度量以确定比较值的单元;以及
用于确定至少一个信道间接收方向参数的单元。
16.根据权利要求15所述的装置,包括:
用于使用所述第一度量作为慢速改变函数的操作数以获得修改的第一度量的单元;
用于使用所述第二度量作为同一慢速改变函数的操作数以获得修改的第二度量的单元;以及
用于将所述修改的第一度量与所述修改的第二度量之间的差确定为所述比较值的单元。
17.根据权利要求15所述的装置,其中所述比较值是所述第一度量的对数与所述第二度量的对数之间的差。
18.一种多信道音频处理方法,包括:
接收至少一个信道间接收方向参数,其中所述至少一个信道间接收方向参数是基于比较值确定的,其中所述比较值是通过比较第一度量和第二度量确定的,其中所述第一度量被确定为用于预测第一音频输入信道的信道间预测模型的预测增益,所述第二度量被确定为用于预测第二输入音频信道的信道间预测模型的预测增益;以及
使用缩混信号和所述至少一个信道间接收方向参数来呈现多信道音频输出。
19.根据权利要求18所述的方法,还包括:
在呈现所述多信道音频输出之前,将所述至少一个信道间接收方向参数转换成信道间时间差。
20.根据权利要求18所述的方法,还包括:
使用淘选法则,将所述至少一个信道间接收方向参数转换成等级值。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2009/067243 WO2011072729A1 (en) | 2009-12-16 | 2009-12-16 | Multi-channel audio processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102656627A CN102656627A (zh) | 2012-09-05 |
CN102656627B true CN102656627B (zh) | 2014-04-30 |
Family
ID=42144823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980162993.XA Expired - Fee Related CN102656627B (zh) | 2009-12-16 | 2009-12-16 | 多信道音频处理方法和装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9584235B2 (zh) |
EP (1) | EP2513898B1 (zh) |
KR (1) | KR101450414B1 (zh) |
CN (1) | CN102656627B (zh) |
TW (1) | TWI490853B (zh) |
WO (1) | WO2011072729A1 (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2517201B1 (en) | 2009-12-23 | 2015-11-04 | Nokia Technologies Oy | Sparse audio processing |
ITTO20120067A1 (it) * | 2012-01-26 | 2013-07-27 | Inst Rundfunktechnik Gmbh | Method and apparatus for conversion of a multi-channel audio signal into a two-channel audio signal. |
CN104246873B (zh) * | 2012-02-17 | 2017-02-01 | 华为技术有限公司 | 用于编码多声道音频信号的参数编码器 |
JP6063555B2 (ja) | 2012-04-05 | 2017-01-18 | 華為技術有限公司Huawei Technologies Co.,Ltd. | マルチチャネルオーディオエンコーダ及びマルチチャネルオーディオ信号を符号化する方法 |
JP2015517121A (ja) | 2012-04-05 | 2015-06-18 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | インターチャネル差分推定方法及び空間オーディオ符号化装置 |
ES2617314T3 (es) * | 2013-04-05 | 2017-06-16 | Dolby Laboratories Licensing Corporation | Aparato de compresión y método para reducir un ruido de cuantización utilizando una expansión espectral avanzada |
US9454970B2 (en) * | 2013-07-03 | 2016-09-27 | Bose Corporation | Processing multichannel audio signals |
EP2830335A3 (en) | 2013-07-22 | 2015-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method, and computer program for mapping first and second input channels to at least one output channel |
TWI847206B (zh) | 2013-09-12 | 2024-07-01 | 瑞典商杜比國際公司 | 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統 |
CN104681029B (zh) * | 2013-11-29 | 2018-06-05 | 华为技术有限公司 | 立体声相位参数的编码方法及装置 |
US10817791B1 (en) * | 2013-12-31 | 2020-10-27 | Google Llc | Systems and methods for guided user actions on a computing device |
EP2980789A1 (en) * | 2014-07-30 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
US9782672B2 (en) | 2014-09-12 | 2017-10-10 | Voyetra Turtle Beach, Inc. | Gaming headset with enhanced off-screen awareness |
US9866596B2 (en) | 2015-05-04 | 2018-01-09 | Qualcomm Incorporated | Methods and systems for virtual conference system using personal communication devices |
US9906572B2 (en) * | 2015-08-06 | 2018-02-27 | Qualcomm Incorporated | Methods and systems for virtual conference system using personal communication devices |
US10015216B2 (en) | 2015-08-06 | 2018-07-03 | Qualcomm Incorporated | Methods and systems for virtual conference system using personal communication devices |
CN105719653B (zh) * | 2016-01-28 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 一种混音处理方法和装置 |
US9978381B2 (en) * | 2016-02-12 | 2018-05-22 | Qualcomm Incorporated | Encoding of multiple audio signals |
US11234072B2 (en) | 2016-02-18 | 2022-01-25 | Dolby Laboratories Licensing Corporation | Processing of microphone signals for spatial playback |
US11120814B2 (en) | 2016-02-19 | 2021-09-14 | Dolby Laboratories Licensing Corporation | Multi-microphone signal enhancement |
WO2017143105A1 (en) | 2016-02-19 | 2017-08-24 | Dolby Laboratories Licensing Corporation | Multi-microphone signal enhancement |
WO2018096036A1 (en) | 2016-11-23 | 2018-05-31 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for adaptive control of decorrelation filters |
US10304468B2 (en) * | 2017-03-20 | 2019-05-28 | Qualcomm Incorporated | Target sample generation |
GB2561844A (en) * | 2017-04-24 | 2018-10-31 | Nokia Technologies Oy | Spatial audio processing |
GB2562036A (en) * | 2017-04-24 | 2018-11-07 | Nokia Technologies Oy | Spatial audio processing |
WO2020046349A1 (en) | 2018-08-30 | 2020-03-05 | Hewlett-Packard Development Company, L.P. | Spatial characteristics of multi-channel source audio |
CN112863525B (zh) * | 2019-11-26 | 2023-03-21 | 北京声智科技有限公司 | 一种语音波达方向的估计方法、装置及电子设备 |
US12100403B2 (en) * | 2020-03-09 | 2024-09-24 | Nippon Telegraph And Telephone Corporation | Sound signal downmixing method, sound signal coding method, sound signal downmixing apparatus, sound signal coding apparatus, program and recording medium |
WO2023147864A1 (en) * | 2022-02-03 | 2023-08-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method to transform an audio stream |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1973319A (zh) * | 2004-06-21 | 2007-05-30 | 皇家飞利浦电子股份有限公司 | 编码和解码多通道音频信号的方法和设备 |
CN101350197A (zh) * | 2007-07-16 | 2009-01-21 | 华为技术有限公司 | 立体声音频编/解码方法及编/解码器 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6163608A (en) * | 1998-01-09 | 2000-12-19 | Ericsson Inc. | Methods and apparatus for providing comfort noise in communications systems |
SE519552C2 (sv) * | 1998-09-30 | 2003-03-11 | Ericsson Telefon Ab L M | Flerkanalig signalkodning och -avkodning |
US20020173864A1 (en) * | 2001-05-17 | 2002-11-21 | Crystal Voice Communications, Inc | Automatic volume control for voice over internet |
KR100441250B1 (ko) * | 2002-03-06 | 2004-07-21 | 삼성전자주식회사 | 이퀄라이저의 계수 계산 방법 및 그것을 계산하는 장치 |
US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
CN102117617B (zh) * | 2004-10-28 | 2013-01-30 | Dts(英属维尔京群岛)有限公司 | 音频空间环境引擎 |
US8219392B2 (en) * | 2005-12-05 | 2012-07-10 | Qualcomm Incorporated | Systems, methods, and apparatus for detection of tonal components employing a coding operation with monotone function |
US7750229B2 (en) * | 2005-12-16 | 2010-07-06 | Eric Lindemann | Sound synthesis by combining a slowly varying underlying spectrum, pitch and loudness with quicker varying spectral, pitch and loudness fluctuations |
EP4178110B1 (en) | 2006-01-27 | 2024-04-24 | Dolby International AB | Efficient filtering with a complex modulated filterbank |
JP4966981B2 (ja) * | 2006-02-03 | 2012-07-04 | 韓國電子通信研究院 | 空間キューを用いたマルチオブジェクト又はマルチチャネルオーディオ信号のレンダリング制御方法及びその装置 |
ES2452348T3 (es) | 2007-04-26 | 2014-04-01 | Dolby International Ab | Aparato y procedimiento para sintetizar una señal de salida |
US8180062B2 (en) * | 2007-05-30 | 2012-05-15 | Nokia Corporation | Spatial sound zooming |
US8295494B2 (en) * | 2007-08-13 | 2012-10-23 | Lg Electronics Inc. | Enhancing audio with remixing capability |
CN101884065B (zh) | 2007-10-03 | 2013-07-10 | 创新科技有限公司 | 用于双耳再现和格式转换的空间音频分析和合成的方法 |
GB0915766D0 (en) * | 2009-09-09 | 2009-10-07 | Apt Licensing Ltd | Apparatus and method for multidimensional adaptive audio coding |
KR101387195B1 (ko) * | 2009-10-05 | 2014-04-21 | 하만인터내셔날인더스트리스인코포레이티드 | 오디오 신호의 공간 추출 시스템 |
-
2009
- 2009-12-16 KR KR1020127018484A patent/KR101450414B1/ko active IP Right Grant
- 2009-12-16 EP EP09807576.5A patent/EP2513898B1/en not_active Not-in-force
- 2009-12-16 WO PCT/EP2009/067243 patent/WO2011072729A1/en active Application Filing
- 2009-12-16 CN CN200980162993.XA patent/CN102656627B/zh not_active Expired - Fee Related
- 2009-12-16 US US13/516,362 patent/US9584235B2/en not_active Expired - Fee Related
-
2010
- 2010-12-15 TW TW099143962A patent/TWI490853B/zh not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1973319A (zh) * | 2004-06-21 | 2007-05-30 | 皇家飞利浦电子股份有限公司 | 编码和解码多通道音频信号的方法和设备 |
CN101350197A (zh) * | 2007-07-16 | 2009-01-21 | 华为技术有限公司 | 立体声音频编/解码方法及编/解码器 |
Non-Patent Citations (8)
Title |
---|
Angle-Based Virtual Source Location Representation for Spatial Audio Coding;Beack S et al;《ETRI JOURNAL》;20060401;219-222 * |
Baumgarte et al.Binaural cue coding-part II:schemes and applications.《IEEE Transactions on Speech and Audio Processing》.2003,520-531. |
Beack S et al.Angle-Based Virtual Source Location Representation for Spatial Audio Coding.《ETRI JOURNAL》.2006,219-222. |
Binaural cue coding-part II:schemes and applications;Baumgarte et al;《IEEE Transactions on Speech and Audio Processing》;20031101;520-531 * |
Briand et al.Parametric coding of stereo audio based on principal component analysis.《DAFX-06》.2006, |
FUCH H.Improving Joint Stereo Audio Coding by Adaptive Inter-Channel Prediction.《IEEE Workshop on applications of Signal Processing to Audio and Acoustics》.1993,39-42. |
Improving Joint Stereo Audio Coding by Adaptive Inter-Channel Prediction;FUCH H;《IEEE Workshop on applications of Signal Processing to Audio and Acoustics》;19931017;39-42 * |
Parametric coding of stereo audio based on principal component analysis;Briand et al;《DAFX-06》;20060920 * |
Also Published As
Publication number | Publication date |
---|---|
CN102656627A (zh) | 2012-09-05 |
TWI490853B (zh) | 2015-07-01 |
EP2513898B1 (en) | 2014-08-13 |
US20130195276A1 (en) | 2013-08-01 |
KR20120098883A (ko) | 2012-09-05 |
EP2513898A1 (en) | 2012-10-24 |
TW201135718A (en) | 2011-10-16 |
US9584235B2 (en) | 2017-02-28 |
KR101450414B1 (ko) | 2014-10-14 |
WO2011072729A1 (en) | 2011-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102656627B (zh) | 多信道音频处理方法和装置 | |
JP7161564B2 (ja) | チャネル間時間差を推定する装置及び方法 | |
JP6879979B2 (ja) | オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ | |
US9129593B2 (en) | Multi channel audio processing | |
JP5277508B2 (ja) | マルチ・チャンネル音響信号をエンコードするための装置および方法 | |
CN108600935B (zh) | 音频信号处理方法和设备 | |
US9009057B2 (en) | Audio encoding and decoding to generate binaural virtual spatial signals | |
KR101657916B1 (ko) | 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법 | |
KR20180042397A (ko) | 프레젠테이션 변환 파라미터들을 사용하는 오디오 인코딩 및 디코딩 | |
US20220369061A1 (en) | Spatial Audio Representation and Rendering | |
US20240089692A1 (en) | Spatial Audio Representation and Rendering | |
JP2011529579A (ja) | 多重チャンネルオーディオデータの再構成 | |
EP3766262A1 (en) | Temporal spatial audio parameter smoothing | |
WO2010105695A1 (en) | Multi channel audio coding | |
CA3142638A1 (en) | Packet loss concealment for dirac based spatial audio coding | |
CN113646836A (zh) | 声场相关渲染 | |
RU2807473C2 (ru) | Маскировка потерь пакетов для пространственного кодирования аудиоданных на основе dirac |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160121 Address after: Espoo, Finland Patentee after: Technology Co., Ltd. of Nokia Address before: Espoo, Finland Patentee before: Nokia Oyj |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140430 Termination date: 20191216 |