CN104541524A

CN104541524A - 一种用于处理音频信号的方法和设备

Info

Publication number: CN104541524A
Application number: CN201380039768.3A
Authority: CN
Inventors: 吴贤午; 宋政旭; 宋明石; 全世云; 李泰圭
Original assignee: NEO LAB CONVERGENCE Inc
Current assignee: NEO LAB CONVERGENCE Inc; Intellectual Discovery Co Ltd
Priority date: 2012-07-31
Filing date: 2013-07-26
Publication date: 2015-04-22
Anticipated expiration: 2033-07-26
Also published as: EP2863657B1; US9564138B2; EP2863657A1; JP2015531078A; US9646620B1; WO2014021588A1; US20150194158A1; US20170125023A1; CN104541524B; EP2863657A4; JP6045696B2

Abstract

本发明通常涉及一种方法和设备，用于处理一对象音频信号，尤其是涉及一种方法和设备，用于编码和解码对象音频信号，或用于在一三维空间内表现对象的音频信号。本发明的目的是，创建一种方法，用于处理一音频信号，包括的步骤如下：根据一种指定的方法，通过分级多个对象信号，产生一第一对象信号和一第二对象信号；为第一对象信号组产生一第一缩混信号；为第二对象信号组产生一第二缩混信号；为第一对象信号组内的对象信号产生第一对象抽取信息片段，以响应第一缩混信号；以及为第二对象信号组内的对象信号中产生第二对象抽取信息片段，以响应第二缩混信号。

Description

一种用于处理音频信号的方法和设备

技术领域

本发明通常涉及一种对象音频信号处理方法和设备，尤其是涉及一种方法和设备，用于编码和解码对象音频信号，或用于在一三维（3D）空间内表现对象的音频信号。

背景技术

3D声音完整的体现了一系列的信号处理，传输，编码和重现技术，用于在一3D空间内真实的呈现声音。这是通过一已存的环绕音频技术提供的在一水平面上实现一声音场景（2D）的基础上，提供另一轴（维度）方向上的高度空间的声音信号来实现的。特别的，为了提供3D音频，使用了比传统技术更多的大量的扬声器，或者广泛的使用了表现技术，虽然只使用了少量的扬声器，但表现技术在虚拟位置上形成了声像，而实际上这些位置上并没有扬声器。

人们期待3D音频将会成为一种对应于超高清电视（UHDTV）的音频解决方案，此方案将会在未来使用，并适用于不同的场合，如电影院音效，个人的3D电视（3DTV）音效，平板，智能手机和云游戏，等。此方案也适用于演变成车辆中的高质量的信息娱乐场所的声音。

发明内容

公开的技术问题

三维（3D）音频技术需要经过比传统技术的通道更多的大量通道的信号传输，通道最多可达22.2个。为此，需要适合这样传输的压缩传输技术。传统的高质量编码，例如MPEG声音层3（MP3），先进的音频编码（AAC），数字影院系统（DTS），以及音频编码3（AC3）,都主要适用于少于5.1通道的信号传输。

进一步的，为了重现22.2通道信号，在收听的范围内有一基本结构，其中安装了24个扬声器，但是在短期内通过市场传播这样一基本结构是不容易的。因此，需要一种技术，能在一空间内布置小于22.2通道所需的扬声器，而能有效的重现22.2通道的信号，需要一种技术，能相反的在一具有大于现存的音源，而有10.1或22.2通道的扬声器的环境下，重现已存的立体声或5.1通道音源，需要一种技术，甚至能在一不具有确定的扬声器位置和确定的视听室环境的场所，根据原始的音源提供音响，还需要一种技术，甚至在一耳机收听环境下，重现3D音效。这种技术在本发明中被统称为“表现”，并且被特别的称为缩混，上混，灵活的表现，双声道的表现，等。

同时，作为另一种有效的传输音响的方法，一基于对象的信号传输方案是需要的。依据音源，进行基于对象的传输而非基于通道的传输是优选的。此外，可以基于对象的传输使交互的聆听一音源，比如允许一用户自由的调整重制的大小和对象的位置。因此，需要一种有效的传输方法，能够在一高传输率下压缩对象的信号。

进一步的，可能出现具有混合形式的基于通道的信号和基于对象的信号的音源，以及由此音源提供了一种新型的聆听体验。因而，也需要一种技术，用于有效的同时传输通道信号和对象信号，并有效的表现这些信号。

技术方案

本发明的目的是完成上述目标。因此提供了一种音频信号处理方法，包括根据一种指定的方法，通过分级多个对象信号，产生一第一对象信号和一第二对象信号，为第一对象信号组产生一第一缩混信号，为第二对象信号组产生一第二缩混信号，为第一对象信号组内的对象信号产生第一对象抽取信息片段，以响应第一缩混信号，以及为第二对象信号组内的对象信号中产生第二对象抽取信息片段，以响应一第二缩混信号。

本发明的另一目的是提供一音频信号处理方法，包括接收多个缩混信号，缩混信号包括第一缩混信号和第二缩混信号，为第一对象信号组接收对应于第一缩混信号的第一对象抽取信息，为第二对象信号组接收对应于第二缩混信号的第二对象抽取信息，使用第一缩混信号和第一对象抽取信息产生属于第一对象信号组的对象信号，以及使用第二缩混信号和第二对象抽取信息产生属于第二对象信号组的对象信号。

有益效果

本发明的音频信号可有效的进行表现，编码，传输和储存，并且在不同的重现环境下通过不同设备可重新展现高质量的音频信号。

本发明的优点并不仅限于上述效果，从本文和附图中本领域的技术人员可清晰的了解那些未描述的效果。

附图说明

图1是本发明的一示意图，根据一幅图像的尺寸，显示了在相同的视距内的视角；

图2是本发明的一布局图，作为一多通道环境的实例显示了22.2个通道的扬声器的分配；

图3是本发明的一概念图，显示了在一听众聆听3D音频的收听空间内，各自的声音对象的位置；

图4是本发明的一典型的布局图，显示了使用一种分组方法，形成的对象信号组，以用于图3中显示的对象。

图5是本发明的一布局图，显示了一对象音频信号编码器的实施例；

根据本发明的一实施例，图6是一解码设备的典型的布局图；

图7是本发明的一布局图，显示了使用一种编码方法编码产生的一比特流；

图8是本发明的一方框图，显示了一对象和通道信号解码系统的实施例；

图9是本发明的一方框图，显示了另一对象和通道信号解码系统的实施例；

图10说明了本发明的一解码系统的实施例；

图11是本发明的一示意图，显示了多个对象信号的掩蔽阀值；

图12是本发明的一示意图，显示了一编码器的实施例，用于对多个对象信号计算掩蔽阀值；

图13是一示意图，显示了根据ITU-R推荐的布置和随机位置的布置，以用于5.1通道的设置；

图14是一本发明的示意图，显示了一结构的实施例，其中一用于对象比特流的解码器和一使用解码器的灵活表现系统互相连接；

图15是一本发明的示意图，显示了另一结构的实施例，执行了用于一对象比特流的解码和表现；

图16是一示意图，显示了一结构，用于在一解码器和一表现器间决定一传输方案和传输对象；

图17是一概念图，显示了一概念，其中由于显示器而移走了一些扬声器，这些扬声器位于一22.2通道系统的前部位置，而音响使用自身的相邻通道而重现了；

图18是一本发明的示意图，显示了一处理方法的实施例，用于在缺少扬声器的位置上分配音源；

图19是一示意图，显示了环绕一电视周围，在各自的波段向扬声器产生的信号的映像的实施例；以及

根据本发明的一实施例，图20是一示意图，显示了产品间一音频信号处理设备执行的关系。

具体实施例

本发明的目的是提供一种音频信号处理方法，包括根据一种指定的方法，通过分级多个对象信号，产生一第一对象信号和一第二对象信号，为第一对象信号组产生一第一缩混信号，为第二对象信号组产生一第二缩混信号，为第一对象信号组内的对象信号产生第一对象抽取信息片段，以响应第一缩混信号，以及为第二对象信号组内的对象信号中产生第二对象抽取信息片段，以响应第二缩混信号。

在此情况下，在音频信号处理方法中，第一对象信号组和第二对象信号组可进一步包括互相混合的信号，以形成一单声音场景。

进一步的，在音频信号处理方法中，第一对象信号组和第二对象信号组可由同时重现的信号组成。

本发明中，第一对象信号组和第二对象信号组可编码为一单个对象信号比特流。

这里，产生的第一缩混信号进行如下配置配置，通过对各自对象的缩混增益信号片段，使用包括在第一对象信号组内的对象信号，而获得第一缩混信号，其中对各自对象的缩混增益信号片段包括在第一对象抽取信息内。

这里，音频信号处理方法可进一步包括编码第一对象抽取信息和第二对象抽取信息。

在本发明中，音频信号处理方法可进一步包括产生全局增益信息，用于包括在第一对象信号组和第二对象信号组内的所有对象信号，其中全局增益信息可编码为对象信号比特流。

本发明的另一目的是提供一种音频信号处理方法，包括接收多个缩混信号，缩混信号包括第一缩混信号和第二缩混信号，为第一对象信号组接收对应于第一缩混信号的第一对象抽取信息，为第二对象信号组接收对应于第二缩混信号的第二对象抽取信息，使用第一缩混信号和第一对象抽取信息产生属于第一对象信号组的对象信号，以及使用第二缩混信号和第二对象抽取信息产生属于第二对象信号组的对象信号。

这里，音频信号处理方法可进一步包括使用属于第一对象信号组的至少一对象信号，产生输出音频信号，以及使用属于第二对象信号组的至少一对象信号，产生输出音频信号。

这里，第一对象抽取信息和第二对象抽取信息可从一单个比特流中接收。

进一步的，音频信号处理方法可如此配置，以便于缩混增益信息从第一对象抽取信息中获取，其中缩混增益信息用于属于第一对象信号组的至少一对象信号，此至少一对象信号使用缩混增益信息产生。

进一步的，音频信号处理方法可进一步包括接收全局增益信息，其中全局增益信息是一增益值，即应用于第一对象信号组，也应用于第二对象信号组。

进一步的，至少一对象信号属于第一对象信号组，至少一对象信号属于第二对象信号组，它们可以在相同的时隙内重现。

既然本说明书中描述的实施例意在向那些本领域的技术人员清楚的表明本发明的精神，本发明并不仅限于那些实施例，并且应当理解本发明的范围包括一些改变和修改，而那些改变和修改并不背离本发明的精神。

本说明书中使用的术语和附图意在容易的描述本发明，并且附图中显示的形状极大的帮助了本发明的理解，因而本发明并不仅限于说明书中使用的术语和附图。

在本发明中，已知配置或功能的详细描述已经被认为是使本发明的要点获得不必要的隐藏，因此会在下面省略。

本发明的术语可以基于以下标准翻译，并且即使未在本文中描述的术语，也可以根据下述要点翻译。根据语境，代码可翻译成编码或解码，而信息是一术语，包含值，参数，系数，元素等，并可依据语境翻译，但是本发明并不仅限于上述含义。

根据本发明的实施例，在下文中将会描述一种方法和设备，用于处理对象音频信号。

图1是一示意图，根据图像（例如，超高清电视（UHDTV）和高清晰度电视（HDTV））的尺寸，显示了在相同的视距内的视角。随着显示器的产品技术的发展和消费者需求的增加，图像的尺寸呈一增长趋势。如图1所示，一幅UHDTV图像（7680*4320像素图像）的尺寸比一幅HDTV图像（1920*1080像素图像）的尺寸大约大16倍。当一HDTV安装于起居室的墙面上，而观看者以一预设的视距坐在沙发上时，视角可以为30°。然而，当一UHDTV以相同视距安装时，视角可达到100°。这样，当安装一高质量的和高分辨率的屏幕时，优选的提供高真实感的和高沉浸式的环绕声，以便与大尺寸的视频相一致。为提供这样一种环境，以便让观察者有身临其境的感觉，只提供一或两个环绕的通道扬声器时不够的。因而，需要一种多通道音频环境，具有大量的扬声器和通道。

如上所述，除了一家庭影院外，可能的环境还有，一个人3D TV，一智能电话TV，一22.2通道音频程序，一传播媒介，一3D视频，一远程呈现室，基于云的游戏等。

图2是一示意图，显示了一多通道环境实例，其中说明了22.2通道扬声器的配置。22.2通道可以是一多通道环境的实例，用于提高声场效果，并且本发明并不仅限于特定数据的通道或特定的扬声器分配。参考图2，可以为顶层1010提供总共9条通道。也就是，可看到总共设置了9个扬声器，3个设置于顶部前端，3个设置于顶部中间，3个设置于顶部后端。在中间层1020，5个扬声器可设置于前端，2个设置侧边位置，3个设置于后端。在前端的5个扬声器中间，中间3个扬声器可以包括在TV显示屏内。在底层1030，在前部位置可安装3个通道和2个低频效果（LFE）通道1040。

这样，在传输和重现一至多数十个通道的多通道信号时，可能需要一高计算负荷。进一步的，考虑到通信环境等，也可能需要高压缩率。此外，在标准的家庭中一多通道的（例如，22.2通道）扬声器环境并不常有，并且许多听众具有2通道或5.1通道设备。因而，在信号被各自的解码为一多通道信号后，以普通方式传输至所有用户的信号被发送出去的情况下，当多通道信号必须被转换回2通道和5.1通道信号时，无效的通信发生了。此外，22.2通道脉冲编码调制（PCM）信号必须被存储，因而可能进行了无效的内存管理。

图3是一概念图，显示了一听众110，在一收听空间130内聆听3D音频时，各自的声音对象120组成的一3D声音场景。图3中，为方便说明，各自的对象120显示为点声源，但也可是平面波声源或环境声源（在所有方向传输的反射声以认出声音场景的空间）。

图4说明了本发明使用的一种分组方法，形成的对象信号组410和420，以用于图3中显示的对象。本发明的特征为，基于编码或处理对象信号，形成了对象信号组，并且编码或处理在一分组的对象基础上进行。在此情况下，编码包括把每个对象独立的编码（离散编码）为一离散信号，以及在对象信号上进行参数化编码。特别的，本发明的特征为，基于产生的对象信号的参数化编码需要的缩混信号，以及基于产生的对应于缩混的对象的参数信息，在一分组的对象基础上产生缩混信号和参数信息。换言之，在使用空间音频对象编码（SAOC）的编码技术作为传统技术的例子时，所有组成一声音场景的对象由一单个缩混信号（其中一缩混信号可以为单声道（1个通道）或立体声（2个通道）信号，但为了表述的方便只表现为一单个缩混信号）和对应于缩混信号的对象参数信息表现。然而，使用此方法，当有20个或更多的对象，以及一最多为200或500的对象，由一单个缩混信号和一相应的参数，作为本发明考虑的一场景进行表现时，实际上实施上混和呈现以达到一期望的声音质量是不可能的。因此，本发明使用一种分组对象的方法，以便在一组基础上达到编码和产生缩混信号的目标。在一组基础上进行缩混的过程中，会对各自对象的缩混使用缩混增益，并且此增益作为各自组的比特流内的附加信息囊括其中。同时，可以使用一普通的适用于个体组的全局增益和只是有限的适用于每个组内的对象的对象组增益，以便于提高编码有效性或控制所有增益的有效性。这些增益被编码，并纳入比特流中被传输至一接收场合。

一种形成组的第一方法，是在一声音场景中，考虑各自对象的位置，而把靠近的对象形成一组的方法。图4中，对象组410和420是使用这种方法形成的组的例子。此方法最大的防止了听众110在对象移动至一第三位置或在表现涉及一大小的改变时，由于不完整的参数化编码或失真，听到对象间发生的串音失真。有一种很大的可能，即由于掩蔽，失真发生在相同位置的对象中，它将不会被听众所听到。出于相同原因，即使使用离散编码，分享附加信息的效果可以通过对象分组在一空间类似的位置中所预测到。

根据本发明的实施例，图5是一方框图，显示了一对象音频信号编码器500。如图所示，对象音频信号编码器500可包括一对象分组单元550，以及缩混器和参数编码器520和540。根据本发明的实施例，对象分组单元550通过分组多个对象产生了至少一对象信号组。在图5的实施例中，虽然产生了第一信号组510和第二信号组530，本发明的实施例中的对象信号组的号码并不仅限于此。在此情况下，各自的对象信号组可考虑如图4例子中描述的方法的空间相似性产生，或通过依据信号特征，比如声调，频率分布，以及声压分开对象而产生。每个缩混器和参数编码器520和540没每个产生的组执行缩混，并产生在此过程中需要存储缩混对象的参数。为各自组产生的缩混信号被一波形编码器560额外的编码，以编码基于通道的波形，例如ACC和MP3。这通常称为一核心编码解码器。进一步的，编码可以通过在各自的缩混信号中的连接或诸如此类的方式来进行。各自的编码器520，540和560形成了一单个比特流，并通过一多路器（MUX）570传输。因而，缩混器和参数编码器520和540，以及编码器560产生的比特流可认为是从编码组件对象形成的一单个声音场景中获得的信号。进一步的，在一产生的比特流中属于不同的对象组的对象信号，以相同的时间帧编码，并因而可具有在相同的时隙内重现的特征。同时，对象分组单元550产生的分组信息可以被编码和传输至一接收场合。

根据本发明的一实施例，图6是一方框图，显示了一对象音频信号解码器600。根据图5的实施例，对象音频信号解码器600可解码已编码的和传输的信号。一解码过程是编码的逆过程，其中一信号分离器（DEMUX）610从解码器接收比特流，并从中至少抽取一对象参数设置和一波形编码信号。如果图5的对象分组单元550产生的分组信息包括在比特流内，DEMUX 610可从比特流中抽取相应的分组信息。通过执行波形解码，波形解码器620产生了多个缩混信号，并且此多个产生的缩混信号与各自对应的对象参数设置一起，被输入上混器和参数解码器630和650。上混器和参数解码器630和650各自上混输入的缩混信号，并随后把上混的信号解码成一或多个对象信号组640和660。在此情况下，缩混信号和对象参数设置被用于恢复各自的对象信号组640和660。在图6的实施例中，既然出现多个缩混信号，多个参数的解码也是需要的。图6中，虽然一第一缩混信号和一第二缩混信号被各自解码为第一对象信号组640和第二对象信号组660，抽取的缩混信号的号码和对象信号组的号码对应本发明实施例中的号码并不仅限于此。同时，一对象去分组单元670可使用分组信息，把每个对象信号组去分组成独立的对象信号。

根据本发明的实施例，当一全局增益和一对象组增益包括在传输比特流中时，正常对象信号的量级可使用增益进行存储。同时，那些增益值可在表现或代码转换过程中被控制，并且所有信号的量级可通过全局增益的调整而调整，并且对于各自组的信号的量级可通过对象组增益的调整而调整。例如，当对象分组以一播放的扬声器为基础执行时，可以通过在调整增益的基础上，进行对象组增益的调整，而容易的进行表现，以执行灵活的表现，这将会在后续描述。

在图5和图6中，虽然为了便于描述，多个参数编码器或解码器被并行的处理，通过一单个系统在多个对象组上随后进行编码或解码也是可能的。

另一种形成对象组的方法是把具有低相关的对象分为一组。此方法鉴于以下特征进行，即由于参数化编码功能，从缩混信号中独立的分离具有高相关的对象是困难的。在此情况下，也可能进行一种编码方法，它通过调整参数，如缩混上的缩混增益，减少分组的独立对象间的相关性。优选的，在此情况下使用的参数是传输的，以便于用于恢复解码上的信号。

一进一步形成对象组的方法是把具有高相关的对象分为一组。此方法意图提高一应用程序中的压缩效率，而此应用程序的效率不高，虽然使用一些参数分离具有高相关的对象是困难的。既然一具有不同光谱的复杂信号需要与在一核心编码解码器内的信号处理成比例的更多比特，如果具有高相关的对象被分组，以利用一单个核心编码解码器，编码效率是很高的。

另一种形成对象组的方法是通过判断是否在对象间执行了掩蔽而进行编码。例如，当对象A与掩蔽对象B有关系时，如果两个信号包括在一缩混信号中，并且使用一核心编码解码器，对象B可在一编码过程中省略。在此情况下，当对象B在一解码场合使用参数获得时，失真增加了。因而，优选的，具有这种关系的对象A和对象B包括在分离的缩混信号中。相反的，在一对象A和对象B具有掩蔽关系的应用程序中，没有必要分离表现的两个对象，或在对至少一掩蔽的对象无需附加的处理时，优选的，对象A和对象B包括在分离的缩混信号中。因而，依据此应用程序，可选择不同的方法。例如，当一特定的对象在一编码过程中被掩蔽和删除，或在一优选的声音场景中衰弱时，可通过从一对象列表中排除此删除的或衰弱的对象并把它纳入一将会成为一掩蔽者的对象，或通过混合两个对象并通过一单个对象来表现它们，以完成一对象组。

另一种形成对象组的方法是分离对象，例如平面波源对象或环境源对象，而非点源对象，并分组此分离的对象。由于那些对象的特征不同于点源，音源需要另一种压缩编码方法或参数，因而优选的分离和处理音源。

根据本发明的一实施例，分组信息可包括一种方法，此方法由上述的对象组所形成。音频信号解码器可执行对象的去分组，它通过参考传输的分组信息把解码的对象信号组重建为原始对象。

根据本发明的编码方法，图7是一示意图，显示了通过编码产生的一比特流的实施例。参考图7，可见编码的通道或对象数据依靠一主要的比特流700传输，而比特流700排列成通道组720,730和740的顺序，或排列成对象组750,760和770的顺序。在每个通道组中，属于对应通道组的独立通道排列和分配成一预设的顺序。参考数字721,731和751各自指出了通道1，通道8和通道92的信号实例。进一步的，既然一数据头710包括通道组位置信息CHG_POS_INFO 711和对象组位置信息OBJ_POS_INFO 712，这些信息对应于比特流中各自组的位置信息的片段，只有期望的组的数据可被首要的解码，而无需持续的解码比特流。因而，解码器首要解码的数据首先以组为基础输入，但是由于其它的策略或原因，解码的顺序可进行随机的变化。进一步的，除了主比特流700之外，图7说明了一子比特流701，其包含了元数据703和704，用于每个通道或每个对象，以及主要的解码相关的信息。当主比特流在传输时，子比特流可间歇性的传输，或可通过一分离的传输通道传输。同时，在通道和对象信号之后，辅助（ANC）数据780可有选择的包括在内。

（分配比特至每个组的方法）

基于为各自组产生的缩混信号，以及为各自组进行的独立的参数化对象编码，每个组使用的比特数可与其它组有所不同。对于分配比特至各自组的标准，可考虑的方面有：每个组中包含的对象数，在组的对象间考虑掩蔽效果的有效的对象数，考虑个人的空间分辨率而产生的位置的权重，对象的声压的强度，对象间的相关性，在一声音场景中对象的重要程度，等。例如，当呈现三个空间对象组A，B，C时，并且它们分别具有三个对象信号，两个对象信号和一对象信号，分配给各自组的比特可定义为3a1(n-x)，2a2(n-y)和a3n，其中x和y表示分配的比特数的程度，它们可以由于在每个组中的对象间和每个对象间的掩蔽效果而减少，并且a1，a2和a3可以通过每个组的上述的不同因素而决定。

（在对象组中解码主对象和子对象的位置信息）

同时，根据一由生产者提出的或由另一用户推介的建议意向，优选的，对象信息具有一传输混合信息或类似信息的方法，以作为相应的通过元数据的对象的位置和大小信息。本发明中，为方便起见，这种方法被称为预设信息。当一对象为动态对象时，由于对象的位置时刻变化，通过预设信息传输的位置信息的数量变得很大。例如，如果假设有1000个对象，它们在每帧中的变化的位置信息都会被传输，因而获得了大量的数据。由此，优选的，有效传输相等的对象位置信息。因而，本发明提出了一种有效的编码位置信息的方法，它使用了“主对象”和“子对象”的定义。

一主对象表明了一对象，其位置信息由一3D空间内的绝对坐标值表示。一子对象表明了一对象，其位置由一3D空间内的主对象的相对值表示，因而也具有位置信息。因而，为了检测子对象的位置信息，首先应当识别对应的主对象。根据本发明的一实施例，当进行分组时，尤其基于空间位置分组时，可以通过设置一单个对象至一主对象，并且设置剩余的对象至同组内的子对象的方法，显示位置信息，进而可以进行分组。当编码分组未执行时，或当分组的使用不对子对象的位置信息的编码有利时，可形成一分离设置的位置信息。为了使子对象相对表示的位置信息比它使用绝对值的显示更有利，属于一组的对象或一设置，位于一空间内预设范围都是优选的。

根据本发明的实施例，另一位置信息编码方法是表示每个对象的位置信息，作为一固定扬声器的位置相关信息，以取代表示一主对象的相关位置。例如，每个对象的相对位置信息表现为相对22个通道扬声器的指定位置。这里，作为参考，扬声器使用的号码和位置值可决定当前内容的设置值。

根据本发明的另一实施例，在位置信息通过一绝对值或相对值表示后，量化被执行了，其中量化步骤的特征在于，它对于一绝对位置是个变量。例如，已知一听众在他或她的前部比他们的侧部或后部有更高的位置识别能力，因而优选的，设置一量化步骤，以便于前部区域的解析度高于侧部区域的解析度。类似的，既然一人在方向上具有比高度上更高的解析度，优选的，设置一量化步骤，以便于方位角的解析度高于垂直高度上的解析度。

在本发明的一进一步的实施例中，动态对象的位置是时变的，因此可能通过一之前位置的相对值，表示动态对象的位置信息，以取代表示一主对象或另一参考点的相对位置值。因而，对于一动态对象的位置信息，需要决定哪一之前点在临时方向和一邻近参考点在空间方向的标志信息已经被作为一参考使用，它可以与位置信息一起传输。

（完全解码架构）

图8是一方框图，显示了本发明的一对象和通道信号解码系统800的实施例。系统800可接收一对象信号801，一通道信号802，或是一对象信号和通道信号的组合。进一步的，对象信号或通道信号可以为波形编码的（801，802）或参数编码的（803，804）。解码系统800可主要的变为一3D架构（3DA）解码器860和一3DA表现器870，其中3DA表现器870可使用任何外部系统或方案实现。因而，优选的，3DA解码器860和3DA表现器870提供了一标准化的接口，可以容易的与外部系统配合。

根据本发明的另一实施例，图9是一方框图，显示了一对象和通道信号解码系统900。类似的，系统900可接收一对象信号901，一通道信号902，或是一对象信号和通道信号的组合。进一步的，对象信号或通道信号可以为单独的波形编码（901，892）或参数编码（903，904）。对比图8中的系统800，图9中的解码系统900有一不同之处，即分别提供的一离散对象解码器810和一离散通道解码器820，以及分别提供的一参数化通道解码器840和一参数化对象解码器830，被各自整合入一单个离散解码器910和一单个参数化解码器920。进一步的，图9中的解码系统900中，额外的提供了一3DA表现器940和一表现器接口930，用于便利的和标准化的接口。表现器接口930的功能为从系统的内部或外部的3DA表现器940中，接收用户环境信息，表现器版本，等，以产生适合接收信息的一种通道信号或对象信号，并转化产生的信号为3DA表现器940。进一步的，为了提供需要重现的额外信息至一用户，例如通道数和各自对象的名字，需要的元数据可以一种标准的格式配置，并可传输至3DA表现器940。表现器接口930可包括一序列控制单元1630，这将会在之后描述。

参数解码器920需要一缩混信号，以产生一对象信号或一通道信号，并且这样的一所需的缩混信号被解码，并通过离散解码器910输入。此对象和通道信号解码系统对应的编码器可以是任何不同类型的编码器，并且任何类型的编码器可认为是一兼容的编码器，只要他可以产生至少一如图8和图9中说明的比特流801,802,803,804,901,902,903和904类型。进一步的，图8和图9中的本发明的解码系统被设计用于保证同过往系统或比特流的兼容性。例如，当一离散通道比特流编码使用先进的音频编码（AAC）作为输入时，相应的比特流可以被一离散（通道）解码器解码，并被传输至3DA表现器。一MPEG环绕（MPS）比特流与一缩混信号一起传输。一在缩混后使用ACC编码的信号被一离散（通道）解码器解码并被传输至参数化通道解码器，并且此参数化通道解码器作为一MPEG环绕解码器运行。一使用空间音频对象编码（SAOC）编码的比特流会以相同的方式进行处理。图8中的系统800具有一种结构，其中SAOC比特流在传统情况下，通过SAOC代码转换器830进行代码转换，随后被转换代码的SAOC比特流通过MPEG环绕解码器840表现至一离散通道。为此，优选的，SAOC代码转换器830接收重现的通道环境信息，产生一适合此环境信息的优化的通道信号，并传输此优化的通道信号。因而，本发明的对象和通道信号解码系统可接收和解码一传统的SAOC比特流，并可为一用户或一重现环境进行一表现。当输入一SAOC比特流时，图9中的系统900使用一种方法进行解码，即把SAOC比特流转换为一通道或一适合于表现的离散对象，以替代一转换代码的操作，此操作用于把SAOC比特流转换为一MPS比特流。因而，系统900具有比转换代码结构更低的计算负载，并且甚至有更好的音质。在图9中，对象解码器的输出只被“通道”指定，但是也可传输至表现器接口930，以作为离散对象信号。进一步的，虽然只在图9中显示，在残留信号包括在一参数化的比特流时，包括图8中的情形，其特征为残留信号的解码由一离散的解码器执行。

（离散的，参数组合，以及通道残留）

根据本发明的另一实施例，图10是一示意图，显示了编码器和解码器的配置。

图10是一示意图，说明了在解码器的扬声器设置不同时，可扩展编码的结构。

一编码器包括一缩混单元210，一解码器包括一或多个第一至第三解码单元230至250，以及一多路分解单元220。

通过缩混对应于多通道的输入信号CH_N，缩混单元210产生了一缩混信号DMX。在此步骤中，产生了一或多个上混参数UP和上混残留信号UR。随后，缩混信号DMX和上混参数UP（和上混残留信号UR）被多路复用，因而产生了一或多个比特流，比特流被传送至解码器。

这里，上混参数UP是一需要上混一或多个通道至两个或更多通道的参数，可以包括一空间参数，一通道间相位差（IPD）等。

进一步的，上混残留信号UR是一残留信号，对应于输入信号CH_N间的偏差，其中输入信号是一原始信号和一恢复信号。这里，恢复信号可以是通过对缩混信号DMX使用上混参数UP而得的上混信号，也可以是通过编码一通道信号而得的信号，其中通道信号并未以离散编码方式通过缩混单元210缩混而得。

解码器的多路分解单元220可从一或多个比特流中抽取缩混信号DMX和上混参数UP，并可进一步抽取上混残留信号UR。这里，混残留信号可使用一种类似与离散编码一缩混信号的方法编码。因而，残留信号的解码特征在于，通过图8或图9中显示的系统，进行离散（通道）解码器解码。

根据扬声器的设置环境，解码器可有选择的包括一（或是一或多个）第一解码单元230至第三解码单元250。根据设备的类型（智能电话，立体声电视，5.1通道家庭影院，22.2通道家庭影院等），扬声器的设置环境可有所不同。尽管环境不同，除非比特流和解码器产生一多通道信号，比如一22.2通道信号，所有的22.2通道的信号被恢复，并随后必须依据扬声器的运行环境缩混。在此情况下，不仅需要高计算负荷的恢复和缩混，也会引起一延迟。

然而，根据本发明的另一实施例，根据每个设备的设置环境，解码器有选择的包括一（一或多个）第一至第三解码单元，因而解决了上述缺点。

第一解码单元230是一组件，只是用于解码一缩混信号DMX，并不随着通道数量而增加。也就是说，当一缩混信号是一单声道信号时，第一解码单元230输出一单声道信号，而当一缩混信号是一立体声信号时，输出一立体声信号。第一解码单元230可适合于一设备，一智能手机或电视，扬声器通道的数目为一或两个。

同时，第二解码单元240收到了缩混信号DMX和上混参数UP，并产生了一参数化的M通道（PM）。相对于第一解码单元230，第二解码单元240增加了输出的通道数。然而，当上混参数UP只包含对应上混范围为总共M个通道的参数时，第二解码单元240可输出M个通道信号，其中通道数目M不会达到原始通道N的数目。例如，当一原始信号的解码器输入信号为22.2通道信号时，M个通道可以为5.1通道，7.1通道，等。

第三解码单元250不仅只收到一缩混信号DMX和一上混参数UP，也收到一上混残留信号UR。和第二解码单元240产生M个参数化通道信号不同，第三解码单元250额外的对参数化通道信号使用了上混残留信号UR，因而输出了N个通道的恢复信号。

每个设备有选择的包括一或多个第一至第三解码单元，并有选择的从比特流中解析一上混参数UP和一上混残留UR，以便于立即产生适合于各种扬声器环境的信号，因而减少了复杂度和计算负荷。

（对象波形编码，其中考虑了掩蔽）

本发明的对象波形编码器（在下文中，一波形编码器表示了一通道音频信号或一对象音频信号被编码，以便于对每个通道或每个对象进行独立解码，并且波形编码/解码是一种与参数化编码/解码相反的概念，并且也被称为离散编码/解码）鉴于在一声音场景的对象位置中分配比特。这使用了一听觉心理学的双耳掩蔽级差（BMLD）现象和对象信号编码的特征。

为了描述BMLD现象，在一现存的音频编码方法中，中侧（MS）立体声编码将会被讨论。也就是，BMLD是一种听觉心理学掩蔽现象，这意味着在一空间的相同方向，出现掩蔽者引起掩蔽而被掩蔽者被掩蔽是可能的。当立体声音频信号的双通道音频信号间的相关性很高，并且信号的量级相互一致时，在两个扬声器的中间形成一声音的图像（声像）。当其中的相关性未出现时，从各自的扬声器中输出独立的声音，随后它们的声像分别在扬声器上形成。当各自的通道独立的为输入信号编码（双重单声道方式）时，其中输入信号具有最大相关性，音频信号的声像在中间形成，并且量化噪声的声像分别在各自的扬声器上形成。换言之，既然在各自通道内的量化噪声没有相关性，它们的声像分别在各自的扬声器上形成。因而，量化噪声意在成为被掩蔽者，由于空间不匹配而未被掩蔽，因而出现了一问题，即人们听到相应的噪音失真问题。为解决此问题，中侧的立体声编码意在产生一中间（和）信号，它由双通道信号与侧（差）信号相加而得，其中侧（差）信号由两个通道信号之差所得。中间（和）信号使用中间信号和侧信号进行听觉心理学建模，并使用此建成的听觉心理学模型进行量化。根据本方法，产生的量化噪声的声像同音频信号的声像形成于相同位置。

在传统的通道编码中，各自的通道被用于播放扬声器，并且对应扬声器的位置是固定的，并以定距相隔，因而无法在通道间采用掩蔽。然而，当各自的对象被独立编码时，是否进行掩蔽可依据声音场景中相应对象的位置而变化。因而，优选的判定当前一已编码的对象是否被其它对象所掩蔽，根据判定结果分配比特，随后编码各个对象。

图11分别说明了对象1和对象2的信号，可从信号中分别获取的掩蔽阀值1110和1120，以及一由对象1和对象2的信号求和而得的掩蔽阀值1130。当对象1和对象2相对于听众的位置被视为处于相同位置时，或处于一BMLD问题不会发生的范围内时，可以把一由对应信号掩蔽的区域作为1130给予听众，以便于包含在对象1内的信号S2会成为一被完全掩蔽和听不到的信号。因而，在一编码对象1的过程中，优选的对象1采用对象2的掩蔽阀值进行编码。既然掩蔽阀值具有附加的相互求和的属性，它甚至可使用一种方法，通过对象1和对象2各自的掩蔽阀值求和而得。或者，既然计算掩蔽阀值的过程本身具有一非常高的计算负荷，优选的，使用一由之前的对象1和对象2求和产生的信号，计算一单个的掩蔽阀值，并对对象1和对象2进行独立编码。

图12说明了本发明的一编码器1200的实施例，用于为多个对象信号计算掩蔽阀值，以实现图11中的配置。当输入两个对象时，那些信号的一SUM方框1210产生了一求和信号。一听觉心理学模型运转单元1230收到此求和信号，作为一输入信号，并独立的计算对应对象1和对象2的掩蔽阀值。这里，虽然未在图12中显示，除了求和信号外，对象1和对象2的信号可被额外的提供，作为听觉心理学模型运转单元1230的输入。对象信号1的波形编码1220使用产生的掩蔽阀值1进行编码运输，随后输出一编码对象信号1。对象信号2的波形编码1240使用产生的掩蔽阀值2进行编码运输，随后输出一编码对象信号2。

本发明的另一种计算掩蔽阀值的方法是，当基于一种听觉的两个对象的位置并不完全相等时，根据一两个对象在一空间内互相隔离的程度，掩蔽水平可被衰减的和反射的，以取代两个对象的掩蔽阀值的求和。也就是，当一对象1的掩蔽阀值为M1(f)，而一对象2的掩蔽阀值为M2(f)时，最终产生用于编码独立对象的联合掩蔽阀值M1’(f)和M2’(f)，并符合下列关系。

[方程式1]

其中A(f)是一由两个对象间的空间位置和距离产生的衰减系数，或由两个对象的属性产生，等，并且它的范围是0.0=< A(f)=<1.0。

人类方向的分辨率具有从一前侧方向向左侧或右侧方向逐渐减小的特性，并进一步具有向后侧方向逐渐减小的特性。因而，对象的绝对位置可作为决定A(f)的其它因素。

在本发明的另一实施例中，阀值的计算方法可通过让两个对象中的一使用它的掩蔽阀值，而另一对象获取与之配对的对象的掩蔽阀值来实现。这些对象分别被称为独立对象和从属对象。既然一只使用它自身的掩蔽阀值的对象在高音质上编码，而不管配对的对象如何，那么即使出现一对象与相应对象从空间上分离而进行表现的情况，此对象的优点是，高音质会一直保持。当对象1是一独立对象而对象2是一从属对象时，掩蔽阀值可以由以下方程式表达：

[方程式2]

优选的，关于一给出的对象是否为一独立对象或一从属对象的信息，被作为相应对象的附加信息传输到一解码器和一表现器。

在本发明的一进一步的实施例中，当在一空间内的两个对象在某种程度上互相类似时，可能把它们合并成一单个对象信号，并对此信号进行处理，而无需对掩蔽阀值求和并产生联合掩蔽阀值。

优选的，在本发明的另一实施例中，当特别的实行参数化编码时，依据两个信号及其空间位置之间的相关性，合并两个对象为一对象并进行处理。

（代码转换功能）

优选的，在本发明的另一实施例中，为了以一低比特率转换包含在耦合的对象的比特流代码，当对象数必须缩减以减少数据大小时（也就是，当多个对象被一对象缩混和表示时），通过一单个对象表示耦合的对象。

在基于对象间耦合的上述的代码的描述中，为了描述方便，只举例了两个对象的互相耦合，但是两个或多个对象的耦合也可以以相似的方式进行。

（灵活表现的需求）

在3D音频所需的技术中，灵活表现是其中重要的一种需解决的技术，以便于把3D音频提高至一最高水平。众所周知，由于客厅的结构和家具的布置，5.1通道扬声器的位置是非常不规则的。即使扬声器放置在如此不规则的位置，内容提供商也需提供一良好的声音场景。为此，基于标准的修正位置差异的表现技术，连同在重现环境内区别各自用户的扬声器环境的识别，也是需要的。也就是说，编码解码器的功能并不仅仅是解码传输的比特流，一系列用于优化和传输解码的比特流以符合用户的重现环境的技术，也是需要的。

图13说明了根据ITU-R推荐配置的扬声器1310（用灰色指出），以及用于5.1通道设置在随机位置配置的扬声器1320（用白色指出）。如此会出现一问题，在实际的客厅的环境内，扬声器的方位角和距离会改变，并且不同于ITU-R的推荐（虽然未在图中显示，扬声器的高度也会有所不同）。当原始的通道信号的重现不随扬声器的位置改变而改变时，提供一理想的3D声音场景是困难的。

（灵活表现）

当使用在两个扬声器之间，用于决定基于信号量级的音源的方向信息的振幅平移，或使用广泛利用的基于矢量的振幅平移（VBAP）以决定在一3D空间内使用的三个扬声器的音源方向时，应当可见，灵活重现可被相对便利的使用，以用于对于各自对象的对象信号的传输。这是传输对象信号以取代通道信号的一优点。

（对象解码和重现结构）

图14说明了本发明的两个实施例，结构1400和1401。其中一用于对象比特流的解码器和一使用解码器的灵活表现系统互相连接。如上所述，在对象中这样一良好的结构可以容易的作为音源定位，以符合一期望的声音场景。这里，一混合单元1420收到一由混合矩阵表现的位置信息，并首先改变此位置信息为通道信号。换言之，声音场景的位置信息由从对应于输出通道的扬声器的相对信息表示。在此情况下，当实际扬声器的数量和扬声器的位置不是相应的指定的数量和指定的位置时，需要使用给定的位置信息Speaker Config，以完成一通道信号的再表现过程。如之后所述，通道信号再表现为其它类型的通道信号比直接表现对象为最终通道要更困难。

图15说明了本发明另一实施例，结构1500。其中进行了一对象比特流的解码和表现。相比图14，灵活表现1510适合于一最终的扬声器环境，它与解码器一起，直接对比特流进行处理。换言之，替代两个阶段，包括基于一混合矩阵在常规通道内进行的混合，以及据此从常规通道内产生的至灵活扬声器的表现，一单个表现矩阵或一表现参数通过使用一混合矩阵和扬声器定位信息1520而产生，并且对象信号通过使用表现矩阵或表现参数被立即送至目标扬声器。

（联合通道的灵活表现）

同时，当通道信号作为输入传输时，并且扬声器对于通道的位置变为随机时，对对象信号使用一种方法，例如一种平移技术，是困难的，并且需要一种分离通道映射处理。更严重的问题是，既然在对象信号和通道信号间，一表现需要的过程和一种解决方法是不同的，由于空间的不匹配，很容易引起失真，这种不匹配是在对象信号和通道信号同时传输时发生的，并且一两种类型信号混合的声音场景是期待被创建的。为解决此问题，在本发明的另一实施例中，在通道信号上主要进行的混合和在通道信号上次要进行的混合无需在对象上分别进行灵活表现。优选的，表现或类似使用头部相关传输函数（HRTF）的信号以类似的方式进行处理。

（解码阶段的缩混：参数传输或自动产生）

当多通道内容通过比在缩混表现中的通道数更少的输出通道重现时，至今为止，通常这些重现使用了一M-N缩混矩阵（其中M是输入通道数，而N是输出通道数）。换言之，当5.1通道内容以一立体声的方式重现时，重现以此方法进行，通过使用一给定的公式执行缩混。然而，这种缩混方法有一计算负荷的问题，虽然一用户播放扬声器的环境只是5.1通道环境，所有对应的传输的22.2通道的比特流必须被解码。即使对于在一便携设备上播放的立体声信号的产生，如果所有22.2通道信号必须被解码，计算负担会非常高，并且大量的存储被浪费了（对于22.2通道的解码信号的存储）。

（代码转换，作为另一种缩混）

作为另一种方法，把显著的22.2通道的原始比特流，通过有效的代码转换，转换为一些适合于一目标设备或一目标播放空间的比特流，是值得考虑的。例如，对于存储于一云服务器的22.2通道内容，可实现如下一场景，从一客户端接收重现环境信息，转换符合重现环境信息的内容，并传送此转换的信息。

（解码顺序或缩混顺序；序列控制单元）

同时，在解码器和表现器分离时，会出现如下情况，其中50个对象信号与22.2通道音频信号一起，必须被解码和传输至表现器。在此情况下，被传输的音频信号是已解码的信号，并具有一高速率，因而会出现一问题，在解码器和表现器间需要一非常宽的带宽。因而，立即同时传送大量的数据是并非优选的，而提出一有效的传输计划是优选的。进一步的，根据此计划，解码器优选的决定一解码顺序，并传送数据。图16是一方框图，显示了一结构1600，用于在解码器和表现器间决定一传输计划，并以此进行传输。

一序列控制单元1630，依靠比特流的解码，获得了附加的信息，并从一表现器1620接收了元数据，也接收了重现环境信息，表现信息，等。接着，序列控制单元1630使用接收的信息，决定了控制信息，例如一解码顺序，一传输顺序，传输顺序中的解码信号被传输至表现器1620，以及一传输单元，并返回决定的控制信息至一解码器1610和表现器1620。例如，当表现器1620命令一特定的对象应当被完全的删除时，特定的对象不必传输至表现器1620，并进行解码。或者，作为另一实施例，当特定的对象决定只向一特定通道表现时，如果相应的对象已经预先缩混入特定的通道并传输，可减少一传输带宽，以取代单独的传输相应的对象。作为一进一步的实施例，当一声音场景被空间分组时，并且需要表现的信号被一起传输用于每组时，在表现器的内部缓冲区中不必要等待的信号数目可以被减到最小。同时，同一时刻可接受数据的大小可根据表现器1620而改变。这些信息可报告至序列控制单元1630，以便于解码器1610决定符合已报告信息的解码时间和流量。

同时，有序列控制单元1630解码的控制可传输至一编码阶段，以便于甚至控制一编码过程。换言之，编码器可能从编码中排出不必要的信号，或决定对象或通道的分组。

（音频超级高速公路）

同时，在比特流中，可包括一对应于双向通信音频的对象。不像其它类型的内容，双向通信对时间延迟是非常敏感的。因而，当收到对应于双向通信的对象信号或通道信号时，它们必须被主要的传输至表现器。对应于双向通信的对象信号或通道信号可由一单独的标志或类似物体表示。这种主要的传输对象具有表现时间的特征，不像其它对象/通道那样，它不依赖于其它在相同帧内的对象/通道信号。

（AV 匹配和幻影中心）

出现了一新问题，当一UHDTV，也就是一超高清晰电视被使用时，会出现一种所谓的“近场”情况。这意味着，考虑到一典型用户环境（客厅）的视距，一播放的扬声器同听众间的距离短于各自的扬声器之间的距离，因而各自的扬声器作为点音源使用，并且在一中置扬声器由于一宽屏的原因不出现时，高质量的3D音频服务可以只在与一视频同步的声音对象的空间解析度非常高的情况下提供。

在一传统的约30°的视角中，布置于左侧和右侧的立体声扬声器并非位于一近场位置，并且可提供一种适合于在一屏幕上的对象移动的声音场景（例如，一辆车从左往右移动）。然而，在一视角为100°的UHDTV环境中，需要额外的垂直解析度，用于配置屏幕更上层和更下层的部分，以及额外的左边和右边的水平解析度。例如，当屏幕上出现两个人物时，一现存的HDTV不会引起影响真实感的大问题，即使两个人物的声音听起来似乎他们在屏幕的中心交谈。然而，由于UHDTV的尺寸，屏幕和对应声音的不匹配会导致一种新型的失真。

作为对此的一种解决方案，可使用一种22.2通道扬声器配置的形式。图2说明了一种22.2通道配置的例子。参考图2，总共有11个扬声器配置在前部，所以前部的水平和垂直空间解析度被极大的提高了。5个扬声器配置在中间层，其中3个扬声器时过去已经放置的。进一步的，3个扬声器被添加至每个顶层和一底层，所以可以充分的处理声音的音高。当使用这种配置时，相对于一传统方案，前部的空间解析度增加了，因而匹配了视频信号，使之变得更加有利可图。然而，当前使用的显示设备，例如一液晶显示屏（LCD）和一有机发光二级管（OLED），都位于一有问题的位置，那里因该配置扬声器，却被显示器占据了。换言之，出现一问题，除非显示器本身提供声音或具有传送声音功能的设备，屏幕上每个对象位置的声音匹配必须使用位于显示器外部区域扬声器来提供。在图2中，至少有对应于前左中部（FLc），前中部（FC），以及前右中部（FRc）的扬声器被配置于与显示器重叠的位置。

图17是一概念图，显示了一概念，其中由于显示器而移走了一些扬声器，这些扬声器位于一22.2通道系统的前部位置，而声音通过使用自身的相邻通道而重现了。为了复制缺席的FLc，FC和FRc，还应当考虑一情况，其中额外的扬声器，比如由虚线指出的圆圈，可以配置在显示器的顶部和底部周围。参考图17，可用于产生FLc的相邻通道的数量可以为7。通过使用这7个扬声器，对应缺席扬声器的位置的声音可以基于虚拟音源的创建原则重现。

对于一种使用相邻扬声器产生虚拟音源的方法，技术或属性，可使用比如基于矢量的振幅平移（VBAP）或优先效应（HAAS效应）。或者根据频段，可使用不同的平移技术。此外，也可考虑使用头部相关传输函数（HRTF）对方位角进行改变，并对高度进行调整。例如，当对应于一前中部（FC）的扬声器被一对应于下前中部（BtFC）的扬声器所替代时，这种虚拟音源产生方法可通过使用添加一FC通道信号至BtFC上的方法产生，也可通过使用具有提升属性的HRTF产生。一可通过观察HRTF检测的属性为，在高频段（每个人有所不同）中特别的空位必须用于控制调整音高。然而，为了产生和使用各个人的不同空位，必须使用一种扩展或缩减高频段的方法来调整。如果使用这种方法，会出现由于过滤器的影响而引起的信号失真。

图18说明了本发明的一种方法，用于在缺席（幻影）扬声器的位置上配置音源。参考图18，对应于幻影扬声器的位置上的通道信号用于输入信号，并且此输入信号通过一子带滤波单元1810，以分离信号为三个波段。这种方法也可以采用非扬声器阵列。在此情况下，此方法变成为使信号分为两个波段，而不是三个波段，或使信号分为三个波段并以不同的方式处理两个高波段信号。一第一波段（SL，S1）是一低频波段，它相对的不对位置敏感，但优选的使用了一大扬声器进行重现，因而此波段可通过低音扬声器或低音炮进行重现。在此情况下，为使用优先效应，第一波段信号可通过一时间延迟滤波单元1820进行延迟。这里，一时间延迟意味着提供一额外的时间延迟，以便于比其它波段的信号更晚的重现对应的信号，即提供优先效应而无须补偿在其它波段的处理过程期间发生的滤波器的时间延迟。

一第二波段（SM，S2~S5）是一种信号，用于通过环绕幻影扬声器（电视显示器遮光板和扬声器，配置于显示器周围），进行重现，并且被至少分为两个扬声器进行重现。需要产生和使用一些用于平移算法1830的系数，例如VBAP。通过使用扬声器，第二波段的输出被重现了（相对幻影扬声器）。因而，只有当扬声器的数量和位置被精确的使用时，基于此信息的平移效果才会被提升。在此情况下，除了VBAP平移外，为了使用基于HRTF1的滤波器或提供时间平移效果，也可使用不同的滤波器或时间延迟滤波器。另一优势在于，当用这种方法划分波段及使用HRTF时，由于HRTF产生的信号失真可限制于一处理波段的范围内。

一第三波段（SH，S6~S_N），当有扬声器阵列时，使用此扬声器阵列产生重现的信号，并且一扬声器阵列控制单元1840可至少通过三个扬声器，应用信号处理技术以用于虚拟化音源。或者，可使用通过波场合成（WFS）技术产生系数。在此情况下，第三波段和第二波段可实际上互相相等。

图19说明了一实施例，其中各种波段产生的信号被传输到环绕一电视的扬声器。参考图19，对应于第二波段（SM，S2~S5）和第三波段（SH，S6~S_N）的扬声器的数量和位置必须放置在相对精确定义的位置。优选的，位置信息被送至图18中的处理系统。

根据本发明的一实施例，图20是一示意图，显示了音频信号处理设备产品间的运行关系。参考图20，一有线/无线通信单元310以一种有线/无线通信方式接收比特流。更具体的说，有线/无线通信单元310可包括一或多个有线通信单元310A，一红外单元310B，一蓝牙单元310C，以及一无线的局域网（LAN）通信单元310D。

一用户鉴权单元320接收了用户信息并鉴定一用户，并可包括一或多个指纹识别单元320A，一虹膜识别单元320B，一脸部识别单元320C，以及一语音识别单元320D，它们分别接收指纹信息，虹膜信息，脸部轮廓信息和语音信息，把这些信息转换为用户信息，并判定用户是否匹配之前注册的用户数据，因而执行用户鉴权。

输入单元330是一输入设备，用户允许输入不同类型的命令，并可包括，但不仅限于一或多个小型按键单元330A，一触摸板单元330B，和一远端控制单元330C。

信号编码单元340通过有线/无线通信单元310接收，在音频信号和/或视频信号上执行编码或解码功能，并以时域方式输出音频信号。信号编码单元340可包括一音频信号处理设备345。在此情况下，音频信号处理设备345对应于上面描述的实施例（根据一实施例为解码器600，根据另一实施例为编码器/解码器1400），并且如此一音频信号处理设备345和信号编码单元340包括使用一或多个处理器的设备。

控制单元350从输入设备接收输入信号，并控制信号编码单元340和输出单元360的所有处理。输出单元360是一组件，用于输出通过信号编码单元340产生的输出信号，并可包括一扬声器单元360A和一显示单元360B。当输出信号为音频信号时，它们通过扬声器单元输出，反之当输出信号为视频信号时，它们通过显示器单元输出。

本发明的音频信号处理方法可产生于一程序，用于在一计算机上运行，并存储于一计算机可读的存储媒介。本发明的具有一数据结构的多媒体数据也可存储于一计算机可读的存储媒介。计算机可读的记录媒介包括所有类型的依赖计算机系统的可读存储设备。计算机可读的存储媒介的实例包括只读存储器（ROM），随机存储器（RAM），光盘（CD-ROM），磁带，软盘，光数据存储设备等，并可包括载波形式的存储（例如，通过Internet的传输）。进一步的，编码方法产生的比特流可存储在计算机可读的媒体中或可通过有线/无线通信网络传输。

如上所述，虽然本发明描述了有限的实施例和附图，显而易见的是，本发明并不仅限于这些实施例和附图，并且本发明可被本领域的技术人员以不同的方式进行修改和改变，这些修改和改变并不背离本发明技术精神和附属权利要求的相等属性。

发明模式

如上所述，实行本发明的相关内容的最佳模式已经被详述过了。

工业实用性

本发明可应用于编码和解码音频信号的过程，或用于在音频信号上进行不同类型的处理。

Claims

1.一种音频信号处理方法，包括：

接收多个缩混信号，包括一第一缩混信号，和一第二缩混信号；

接收第一对象抽取信息，用于对应于第一缩混信号的第一对象信号组；

接收第二对象抽取信息，用于对应于第二缩混信号的第二对象信号组；

使用第一缩混信号和第一对象抽取信息，产生属于第一对象信号组的对象信号；以及

使用第二缩混信号和第二对象抽取信息，产生属于第二对象信号组的对象信号。

2.如权利要求1所述的音频信号处理方法，进一步包括，使用至少一属于第一对象信号组的对象信号，和至少一属于第二对象信号组的对象信号，产生输出音频信号。

3.如权利要求1所述的音频信号处理方法，其特征在于，从一单个比特流中接收所述第一对象抽取信号和所述第二对象抽取信号。

4.如权利要求1所述的音频信号处理方法，其特征在于，从所述第一对象抽取信息中获取用于至少一对象信号的缩混增益信息，所述对象信号属于所述第一对象信号组，并且所述至少一对象信号通过使用所述缩混增益信息而产生。

5.如权利要求1所述的音频信号处理方法，进一步包括，接收全局增益信息，其特征在于，所述全局增益信息是一增益值，即用于所述第一对象信号组，又用于所述第二对象信号组。

6.如权利要求1所述的音频信号处理方法，其特征在于，至少一属于所述第一对象信号组的对象信号，和至少一属于所述第二对象信号组的对象信号，在一相等的时隙内重现。