CN1765153A - 表示多信道信号的主和副信号的编码 - Google Patents
表示多信道信号的主和副信号的编码 Download PDFInfo
- Publication number
- CN1765153A CN1765153A CNA2004800078918A CN200480007891A CN1765153A CN 1765153 A CN1765153 A CN 1765153A CN A2004800078918 A CNA2004800078918 A CN A2004800078918A CN 200480007891 A CN200480007891 A CN 200480007891A CN 1765153 A CN1765153 A CN 1765153A
- Authority
- CN
- China
- Prior art keywords
- signal
- sub
- sub signal
- conversion parameter
- advocating peace
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 claims description 89
- 238000000034 method Methods 0.000 claims description 31
- 238000001228 spectrum Methods 0.000 claims description 28
- 238000001914 filtration Methods 0.000 claims description 20
- 230000005236 sound signal Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 230000002123 temporal effect Effects 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 230000000593 degrading effect Effects 0.000 abstract 1
- 230000009466 transformation Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 16
- 238000013461 design Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 230000033458 reproduction Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
通过该主信号和表示该副信号的一组转换参数表示该多信道信号。其能够减少所传输的该信号的比特率,而不会降低该多信号信号的质量。
Description
技术领域
本发明涉及一种主和副信号的编码,其是对多信道信号执行参数编码的第一级的结果。
背景技术
立体声音频信号包括左(L)和右(R)信号分量,其可以源于一个立体声信号源,例如来自分开的麦克风。音频信号编码的目标是减少立体声信号的比特率,例如以便能够通过通信网络、诸如通过互联网、通过调制解调器以及通过模拟电话线、移动通信信道或通过其它无线网络等有效地传输声音信号,以及以便在芯片卡上或者具有有限存储容量的另一存储媒体上存储立体声声音信号。
EP1107232公开了一种对参数进行编码以产生立体声音频信号表示的方法,其包括左信道信号和右信道信号。为了有效地利用传输带宽,这种表示只包含关于L和R信号其中之一的信息,以及根据其可以恢复另一信号的参数信号。由于该参数编码的这种设计,该表示有利地捕捉该立体声音频信号的定位提示,包括L和R的强度和相位特征。结果,从所传输的表示恢复的该立体声音频信号具有高质量的立体声。
即使参数立体声编码不能提高该比特率利用,但是对于给定的声音质量,其通过进一步减少所需要的比特率,其有利于提高这种利用。
发明内容
本发明提供一种上述问题的解决方案。
本发明的目的通过一种编码主和副信号的方法实现,其中至少所述主和副信号表示多信道音频信号,其中该主和副信号具有这样的属性:每一心理声学带的所述主和副信号的功率谱能量之间的关系是完整的,并且其中所述副信号不与该主信号心理声学相关。该主和副信号的编码方法包括步骤:
通过预定的转换将该副信号转换成为一组转换参数,所述参数适用于再现对应于该副信号并且具有该副信号的所述属性的第三信号;
至少通过所述主信号以及通过所述转换参数表示该多信道信号。
因而,当传输数据时可以降低该比特率,并且进一步当存储所编码的数据时需要更少的存储空间。
在实施例中,该预定的转换包括步骤:
从该主和副信号产生一组转换参数,其中所述转换参数定义该主和副信号的谱之间的关系。
这是一种从该副信号表示该主要信息的有效方法。
在特定的实施例中,产生该转换参数的步骤包括步骤:
对所述主信号以及对所述副信号都执行线性预测,得到两组预测系数,第一组包括对应于该主信号的系数,并且第二组包括对应于该副信号的系数;
确定该副信号的能量,
所述转换参数包括所述预测系数以及所确定的所述能量。
基于这些转换参数可以非常精确地再现该副信号。
在另一个实施例中,产生该转换参数的步骤包括步骤:
确定该主和副信号的幅度谱;
确定在所确定的该主和副信号的幅度谱之间的比率;
通过使用基于所确定的该比率的信息作为预测系统的输入,产生预测系数;
确定该副信号的能量,
所述转换参数包括所述预测系数以及所确定的能量。
然后只需要一组预测系数,当传输所编码的该信号时,其进一步降低所需要的比特率。
在实施例中,产生该转换参数的步骤包括步骤:
对该副信号执行线性预测,得到一组预测系数,包括对应于该副信号的系数;
确定该副信号的时间包络;
所述转换参数包括所述预测系数以及所确定的时间包络。
这是一种产生转换参数的非常简单、并且从而是资源有效的方法。
在具体的实施例中,根据至少该副信号的交迭段,并且通过确定对应于每一段的转换参数,将该副信号转换成为一组转换参数。通过在编码这些参数之前进行分段,只需要描述少量数据,但是基于该少量参数可以更加精确的重新产生该段。进一步,可以更容易地跟随信号变量,正如可以对流数据的段进行编码。
本发明进一步涉及一种用于解码的方法,其对应于如上所述的编码方法。相应地,其具有相同的优点。
本发明涉及一种解码主和副信号信息的方法,其中至少所述主和副信号表示多信道音频信号。该主和副信号具有这样的属性:每一心理声学带的所述主和副信号的功率谱能量之间的关系是完整的,并且其中所述副信号不与该主信号心理声学相关,该方法包括步骤:
接收主信号和一组转换参数,所述转换参数适用于再现对应于该副信号并且具有与该副信号相同属性的第三信号;
至少使用所述转换参数逆向地执行预定的转换,产生具有该副信号的所述属性的第三信号。
在实施例中,产生第三信号的步骤包括步骤:
产生白噪声序列;
通过在由对应于该副信号的预测系数所定义的线性预测滤波器中对该白噪声序列进行滤波产生第一信号,所述预测系数包括在所接收的该转换参数中;
对该第二信号进行衰减,直至该第二信号的能量对应于该副信号的确定能量,所述确定能量包括在所接收到的所述转换参数中。
在特定的实施例中,产生该第三信号的步骤包括步骤:
产生时间信号,其中该时间信号与该主信号之间的该谱能量关系对应于该主信号与该副信号之间的该谱能量关系,通过使用该转换参数作为滤波器参数对该主信号进行滤波,产生所述时间信号;
滤波该时间信号,确保该输出信号不与该主信号心理声学相关。
在特定的实施例中,产生该时间信号的步骤包括步骤:
通过在由对应于该主信号的该预测系数所定义的线性预测分析滤波器中对该主信号进行滤波而产生第一信号,所述预测系数包括在所接收的该转换参数中;
通过在由对应于包括在所接收的该转换参数中的该副信号的该预测系数所定义的线性预测合成滤波器中对所述第一信号进行滤波而产生第二信号;
对该第二信号进行衰减,直至该信号的能量对应于该副信号的确定能量,所述确定能量包括在所接收到的所述转换参数中。
在另一实施例中,产生该时间信号的步骤包括步骤:
通过在由该预测系数所定义的线性预测滤波器中对该主信号进行滤波而产生第一信号,其中所述预测系数包括在该转换参数中,通过如下产生所述预测系数:
确定该主和副信号的确定幅度谱之间的该比率;
对所确定的该比率执行逆向傅立叶变换;
使用逆向傅立叶变换的该结果作为预测系统的输入;
对该第二信号进行衰减,直至该信号的能量对应于该副信号的确定能量,所述确定能量包括在所接收到的所述转换参数中。
所述转换参数包括所述预测系数和所确定的能量。
在另一实施例中,当已经产生了对应于特定段的转换参数时,通过初始在该特定段之间插值转换参数,执行产生与该副信号具有相同属性的该第三信号的步骤。
可以通过不同的方式实施本发明,例如通过上述这些方法。下面将描述分别用于编码和解码多信道信号的设备、数据信号以及进一步的产品装置,其每一个产生一个或多个结合该第一个所述方法所描述的益处和优点,并且每一个具有的一个或多个优选实施例对应于结合该第一个所述方法所描述的优选实施例,并且公开在独立权利要求中。
应该注意到,上面描述了这些方法的特征,并且在下面其可以在软件中实施,和在数据处理系统中执行,或者通过其它处理装置通过执行计算机可执行的指令产生。该指令可以是从存储器媒体或通过计算机网络从另一计算机装载到存储器,诸如RAM中的程序代码装置。可替换地,可以通过硬件电路来代替软件或者与软件结合来实施所述特征。
本发明进一步涉及一种用于编码主和副信号的设备,其中至少所述主和副信号表示多信道音频信号,其中该主和副信号具有这样的属性:每一心理声学带的所述主和副信号的功率谱能量之间的关系是完整的,并且其中所述副信号不与该主信号心理声学相关,该设备包括:
第一处理装置,用于通过预定的转换将该副信号转换成为一组转换参数,所述参数适用于再现对应于该副信号并且具有与该副信号相同属性的第三信号;
第二处理装置,适用于至少通过所述主信号以及通过所述转换参数表示该多信道信号。
本发明进一步涉及一种用于解码主和副信号信息的设备,其中至少所述主和副信号表示多信道音频信号,该主和副信号具有这样的属性:每一心理声学带的所述主和副信号的功率谱能量之间的关系是完整的,并且其中所述副信号不与该主信号心理声学相关,该方法包括步骤:
接收装置,用于接收主信号和一组转换参数,所述转换参数适用于再现对应于该副信号并且具有与该副信号相同属性的第三信号
处理装置,用于通过使用所述转换参数逆向地执行预定的转换,产生具有与该副信号相同属性的第三信号。
上述设备可以是包括计算机的任何电子设备的部件,诸如固定和便携PC、固定和便携无线电通信设备以及其它手持或便携装置,诸如移动电话、寻呼机、音频播放器、多媒体播放器、发信机,即电子组织者、智能电话、个人数字助理(PDA)、手持计算机等。
词语“处理装置”包括通用或专用目的的可编程微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、现场可编程门阵列(FGPA)、专用电子电路等,或者其组合。上述第一和第二处理装置可以是分离的处理装置,或者它们可以包括在一个处理装置中。
词语“接收装置”包括适用于能够通过例如有线或无线数据链路进行数据通信的电路和/或装置。这种接收装置的范例包括:网络接口、网络卡、无线电接收器、例如通过IrDa端口用于其它适当电磁信号、诸如红外光的接收器、例如通过蓝牙(Bluetooth)基于无线电通信的收发器等。这种接收装置进一步的范例包括:线缆调制解调器、电话调制解调器、集中业务数字网(ISDN)适配器、数字用户线(DSL)适配器、卫星收发器、以太网适配器等。
词语“接收装置”进一步包括用于接收数据信号,例如接收存储在计算机可读媒体上的数据信号的其它输入电路/装置。这种接收装置的范例包括:软盘驱动、CD-ROM驱动、DVD驱动、或任何其它适当盘的驱动、存储器卡适配器、智能卡适配器等。
附图说明
下面将参照附图描述本发明的优选实施例,其中:
图1所示为根据本发明的实施例用于进行立体声信号通信的系统的示意图;
图2所示为用于执行包括第一和第二级的参数编码的设备的示意图;
图3所示为用于执行参数解码的设备的示意图;
图4所示为根据本发明的编码器的第二级的一般构思;
图5所示为根据本发明的解码器的第二级的一般构思;
图6所示为根据本发明第一实施例的编码立体声信号的该第二级的设备的示意图;
图7所示为根据本发明的第一实施例,用于解码立体声信号的设备的示意图;
图8所示为根据本发明第二实施例的编码立体声信号的该第二级的设备的示意图;
图9所示为根据本发明的第二实施例,用于解码立体声信号的设备的示意图;
图10所示为根据本发明第三实施例的编码立体声信号的该第二级的设备的示意图
图11所示为根据本发明的第三实施例,用于解码立体声信号的设备的示意图。
具体实施方式
图1所示为根据本发明的实施例用于进行立体声信号通信的系统的示意图。该系统包括:编码装置101,用于产生编码立体声信号;和解码装置105,用于将所接收到的编码立体声信号解码成立体声L′信号和R′信号成分。该编码装置101和解码装置105分别可以是任何电子设备或这种设备的部件。这里,词语“电子设备”包括计算机,诸如固定和便携PC、固定和便携无线电通信设备以及其它手持或便携装置,诸如移动电话、寻呼机、音频播放器、多媒体播放器、发信机,即电子组织者、智能电话、个人数字助理(PDA)、手持计算机等。要注意到,该编码装置101和该解码装置可以组合在一个电子设备中,其中在计算机可读媒体上存储有立体声信号,用于以后再现。
该编码装置101包括编码器102,用于根据本发明对立体声信号进行编码,其中该立体声信号包括L信号成分和R信号成分。该编码器接收该L和R信号成分,并产生编码信号T。该立体声信号L和R可以例如通过进一步的电子设备、诸如通过混音设备来自一组麦克风。可以进一步作为输出,从其它立体声播放器、通过作为无线电信号的无线电、和通过任何其它适当的装置接收该信号。下面将描述根据本发明的这种编码器的优选实施例。根据一个实施例,该编码器102与发射机103连接,用于通过通信信道109将该编码信号T传输给该解码装置105。该发射机103可以包括适合于能够例如通过有线或无线数据链路109进行数据通信的电路。这种发射机的范例包括:网络接口、网络卡、无线电发射机、例如通过IrDa端口用于其它适当电磁信号的发射机、诸如用于发射红外光的LED、例如通过蓝牙(Bluetooth)基于无线电通信的收发器等。适当发射机的进一步范例包括:线缆调制解调器、电话调制解调器、集中业务数字网(ISDN)适配器、数字用户线(DSL)适配器、卫星收发器、以太网适配器等。相应地,该通信信道109可以是任何适当的有线或无线数据链路,例如是基于包的通信网络,诸如互联网或其它TCP/IP网络、短范围通信链路,诸如红外链路,蓝牙连接或其它基于无线电的链路。通信信道的进一步范例包括计算机网络和无线电信网络,诸如蜂窝数字包数据网络(CDPD)、全球移动通信系统(GSM)网络、码分多址访问(CDMA)网络、时分多址访问(TDMA)网络、通用分组无线业务(GPRS)网络、第三代通信网络、诸如UMTS网络等。可替换地或另外地,该编码装置可以包括一个或多个其它接口104,用于将该编码立体声信号T传达给该解码装置105。
这种接口的范例包括盘驱动,用于将数据存储在计算机可读媒体110上,例如软盘驱动、读/写CD-ROM驱动、DVD驱动等。其它范例可以包括存储卡槽、磁卡读/写器、用于访问智能卡的接口等。相应地,该解码装置105包括对应的接收器108,用于接收由该发射机所传输的该信号,和/或另一接口106,用于接收通过该接口104和该计算机可读媒体110传递的编码立体声信号。该解码装置进一步包括解码器107,其接收所接收到的信号T并将其解码成为对应的立体声成分L′和R′。下面将描述根据本发明的这种解码器的优选实施例。所解码的信号L′和R′接着可以送入立体声播放器,以通过一组扬声器、耳机等再现。
图2所示为根据本发明的编码器的一般构思的示意图,其中该输入是L和R成分,输出是T。在该第一级201中,使用已知的参数立体声编码对该L和R成分进行编码,得到主信号m和副信号s以及侧信息Pr。在该第二级203中,以通过参数Ps表示的参数方式捕捉该副信号的相关信息,使得在该解码器侧,可以根据该主信号m和信息Ps产生心理声学相同的该副信号。当按照如图1中所述传递该主信号和参数Ps时,那么该信息被送入组合器205中。该组合器205执行成帧、比特率分配以及无损失编码,得到所要传递的组合信号T。
图3所示为根据本发明实施例的解码器的一般构思的示意图,其中接收到组合信号T,即其可以源于如图2中所述的该编码器。该解码器包括提取级301,用于提取所编码的信息m和Ps,即执行该组合器205的逆向操作。首先,在解码器303中解码所提取的该信息,其中该解码对应于通过图2的第二级203所执行的编码,得到解码信号m和s′。然后在解码器305中解码该m和s′信号,其中该解码对应于通过图2的第一级201所执行的编码,导致得到该解码的成分L′和R′。
在该解码器中所使用的主信号可以时原始m信号或例如通过量化已经被编码/解码的主信号。
通过该参数立体声编码的第一级产生该主和副信号,如上所述,它们的特征是这样的,该主信号的波形保持完整,但是该副信号的波形是任意的,并且只与两个条件相关。首先,每一心理声学带的该主和副信号的功率谱能量之间的关系保持完整。其次,该副信号必须与该主信号在心理声学上没有关联。根据本发明的编码该主和副信号的方法具有两部分。首先,估计能够重新安置所想要的谱幅度关系与时间轮廓的滤波器。其次,在具体实施例中,如下所述,得到能够其保证所想要的不相关的滤波器。
在图4中,所述为根据本发明的编码器的第二级的一般构思的实施例。方框401是参数提取程序。从该s信号和该m信号得到滤波器特征,并且输出该滤波器的参数pF。特别地,该方框401估计捕捉该主和副信号的谱之间的关系的滤波器的参数。该参数提取程序只需要建立产生所想要的谱能量关系的滤波器。
图5所述的实施例为用于使用该m信号和该参数pF作为输入对所编码的m和s信号进行解码的解码器部分的一般构思。根据本发明使用该参数pF通过滤波器501对该主信号m进行滤波。该滤波器产生第一信号s″,其中已经建立了该谱能量关系。在作为非时变的去相关滤波器(全通滤波器或其近似)的该滤波器502中,保证其输出s′与m是心理声学不相关的。
在下面,提供上述对该m和s信号进行编码以及对所得到的m和s′进行解码的具体实施例。
图6所示为根据本发明第一实施例的编码立体声信号的该第二级的设备的示意图。在该实施例中,该s和m信号初始都被分成交迭帧。通过执行这种分割,对更小的段进行编码,从而可以对流数据进行编码。进一步,当对更小的段进行该编码和解码时,可以更加精确地重新产生该信号。通过使用更小的段,就可以跟随关系中的改变。
该m和s信号的分割都在该分割单元601中执行。然后在603中对m信号的每一段执行线性预测,得到一组预测系数a。在605中对s信号的每一段执行线性预测,得到一组预测系数as。进一步在607中,估计该信号s的每一段的能量e。该预测系数a、as以及所估计的能量e在609中被多路复用成该组转换参数pF。该m信号以及该组转换参数pF现在表示该m和s信号,并且在解码器中可以用于重新产生对应于该s信号的信号。
图7所示为根据本发明的第一实施例,用于解码立体声信号的设备的示意图。该m信号以及该转换参数pF用作该解码器的输入。在701中,该转换参数pF被多路分解成该预测系数a和as以及估计能量e。然后在703中,在随后的帧之间插值该预测系数a,使得在每一段中,预测系数都是有效的。在705和707中,对该预测系数as以及估计能量e执行类似的插值。在709中,将该m信号在通过预测系数a所描述的线性预测分析滤波器中白化,得到白化的m信号nW。接下来在711中,通过由基于原始s信号的该预测系数as描述的线性预测合成滤波器对该滤波器709的输出mW进行滤波,该合成滤波器的输出为信号s。接下来在713中,应用衰减,并且其确保该输出s″的能量与根据该原始s信号估计的能量e匹配。最后在715中,在去相关滤波器或全通滤波器中对该信号s″滤波,除去所产生的输出s′与该m信号之间心理声学上的任何相关。
图8所示为根据本发明第二实施例的编码立体声信号的该第二级的设备的示意图。首先,在800中按照结合图6所描述地将该m和s信号分割。然后在801中,通过执行该m信号的快速傅立叶变换确定该信号m的幅度谱M。类似地在803中,通过执行该s信号的快速傅立叶变换确定该信号s的幅度谱S。在805中,确定比率R=S/M,并且在807中执行逆向傅立叶变换,得到该信号r。在809中,对该r信号执行线性预测,得到一组预测系数,并且在811中估计该信号s的每一段的能量e。在813中将该预测系数ar以及估计能量e多路复用成一组转换参数pF。该m信号和该组转换参数pF现在表示该m和s信号,并且可以在解码器中用于产生对应于该s信号的信号。作为替换形式,也可以从该比率信号R直接产生该预测系数ar。
图9所示为根据本发明的第二实施例,用于解码立体声信号的设备的示意图。该m信号以及该转换参数pF用作该解码器的输入。在901中,该转换参数被多路分解成该预测系数ar和该估计能量e。然后在903中,在随后的帧之间插值该预测系数ar,使得在每一段中,预测系数都是有效的。在905中,对该估计能量e执行类似的插值。在907中,在通过该预测系数ar所描述的线性预测分析滤波器中对该m信号进行滤波。接下来在909中,应用衰减,并且其确保该输出s″的能量与根据该原始s信号估计的能量e匹配。最后在911中,在去相关滤波器或全通滤波器中对该信号s″滤波,除去所产生的该输出s′与该m信号之间心理声学上的任何相关。在上面实施例的替换形式中,该滤波的顺序可以相反。进一步,如果R定义为S/M,那么在该解码器中必须使用该线性预测分析滤波器。可替换地,如果R定义为M/S,那么在该解码器中必须使用线性预测合成滤波器。
为了使得该合成滤波器更简单(即级数更低),可以方便地将该去相关滤波器封装在该预测系数中。通过该预测系数描述的该滤波器执行一种形式的心理声学去相关,其相应地不再需要该去相关滤波器来完成。然而,必须在解码器中完成这种封装,并且必须传输该整个滤波器(谱整形和去相关)。这样典型地会导致比特率增加。
图10所示为根据本发明第三实施例的编码立体声信号的该第二级的设备的示意图。首先,在1001中按照结合图6所描述地将该s信号分割。然后在1003中,对该s信号的每一段执行线性预测,得到一组预测系数as。在1005中,在通过该预测系数a s描述的线性预测分析滤波器中对该s信号进行滤波,并且在1007中确定每一段的时间包络g。例如可以通过每段使用多于一个的能量测度,或者通过使用时间噪声整形来确定该时间包络。在1009中将该预测系数as以及该时间包络g多路复用成一组转换参数pF。该m信号和该组转换参数pF现在表示该m和s信号,并且可以在解码器中用于产生对应于该s信号的信号。
图11所示为根据本发明的第三实施例,用于解码立体声信号的设备的示意图。该m信号以及该转换参数pF用作该解码器的输入。在1101中,该转换参数被多路分解成该预测系数as和该时间包络g。然后在1103中,在随后的帧之间插值该预测系数as,使得在每一段中,预测系数都是有效的。在1105中,对该时间包络g执行类似的插值。在1107中,白噪声发生器产生白序列。然后在1109中,在1109中应用该时间包络,并且最后在1111中,在通过该预测系数as所描述的线性分析滤波器中对该白序列进行滤波,得到输出s′。
对于音频和语音编码,使用具有一定记忆听觉滤波器的特性的线性预测滤波器,这是有利地。这种滤波器的范例有Kautz滤波器、Laguerre滤波器和Gamma音调滤波器,并且例如在WO2002089116中所述。
需要理解的是,本领域的熟练技术人员可以采用上述实施例,例如通过添加或删除特征或通过组合上述实施例的特征。进一步要注意到,本发明并不限于立体声信号,但是也可以应用于具有两个或多个输入信道的其它多信道输入信号。这种多信道信号的范例包括从数字通用盘(DVD)或超级音频压缩盘(Super Audio Compact Disk)等接收的信号。在该更加一般的情况下,根据本发明还可以产生主要成分信号y和一个或多个冗余信号r。所传输的冗余信号的数量取决于该信道的数目和所想要的该比特率,因为可以省去高级数的冗余,而不会显著地降低该信号质量。
通常,本发明的优点在于比特率的分配可以适用性的变化,从而可以完美地降低。例如,如果由于网络流量增加、噪声等,该通信信道瞬时只允许传输降低的比特率,那么所传输的该信号的比特率可以降低,而不会显著降低该信号的感知质量。例如,在如上所述的固定声源情况下,该比特率可以通过大约为2的因子减少,而不会显著地降低该信号质量,其对应于传输单个信道,而不是两个信道。
要注意到,上述设备可以实施为通用或专用目的的可编程微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、现场可编程门阵列(FGPA)、专用电子电路等或者其组合。
应该注意到,上述实施例所描述的不是对本发明的限制,并且本领域的熟练技术人员不脱离所附权利要求书的范围可以设计许多替换实施例。在权利要求书中,位于括号之间的任何附图标记不应该认为是对权利要求的限制。词语“包括”并不排除存在权利要求中所列元件之外的其它元件。本发明可以通过包括几个离散元件的硬件,并且通过适当编程的计算机实施。在枚列几个装置的装置权利要求中,可以通过一个并且相同的硬件实施几个这些装置。还有一点,在相互不同的独立权利要求中所引述的某些措施并不表示不能有利地将这些措施组合使用。
Claims (17)
1.一种编码主和副信号的方法,其中至少所述主和副信号表示多信道音频信号,其中该主和副信号具有这样的属性:每一心理声学带的所述主和副信号的功率谱能量之间的关系是完整的,并且其中所述副信号不与该主信号心理声学相关,该主和副信号的编码方法包括步骤:
通过预定的转换将该副信号转换成为一组转换参数,所述参数适用于再现对应于该副信号并且具有该副信号的所述属性的第三信号;
至少通过所述主信号以及通过所述转换参数表示该多信道信号。
2.根据权利要求1的方法,其中该预定的转换包括步骤
从该主和副信号产生一组转换参数,其中所述转换参数定义该主和副信号的谱之间的关系。
3.根据权利要求1-2的方法,其中产生该转换参数的步骤包括:
对所述主信号以及对所述副信号都执行线性预测,得到两组预测系数,第一组包括对应于该主信号的系数,并且第二组包括对应于该副信号的系数;
确定该副信号的能量,
所述转换参数包括所述预测系数以及所述确定的能量。
4.根据权利要求1-2的方法,其中产生该转换参数的步骤包括:
确定该主和副信号的幅度谱;
确定在所确定的该主和副信号的幅度谱之间的比率;
通过使用基于所确定的该比率的信息作为预测系统的输入,产生预测系数;
确定该副信号的能量,
所述转换参数包括所述预测系数以及所述确定的能量。
5.根据权利要求1-2的方法,其中产生该转换参数的步骤包括:
对该副信号执行线性预测,得到一组预测系数,包括对应于该副信号的系数;
确定该副信号的时间包络;
所述转换参数包括所述预测系数以及所述确定的时间包络。
6.根据权利要求1-5的方法,其中根据至少该副信号的交迭段,并且通过确定对应于每一段的转换参数,将该副信号转换成为一组转换参数。
7.一种对主和副信号信息进行解码的方法,其中至少所述主和副信号表示多信道音频信号,该主和副信号具有这样的属性:每一心理声学带的所述主和副信号的功率谱能量之间的关系是完整的,并且其中所述副信号不与该主信号心理声学相关,该方法包括步骤:
接收主信号和一组转换参数,所述转换参数适用于再现对应于该副信号并且具有与该副信号相同属性的第三信号;
通过使用所述转换参数逆向地执行预定的转换,产生具有该副信号的所述属性的第三信号。
8.根据权利要求7的方法,其中产生第三信号的步骤包括:
产生白噪声序列;
通过在由对应于该副信号的预测系数所定义的线性预测滤波器中对该白噪声序列进行滤波而产生第一信号,所述预测系数包括在所接收的该转换参数中;
对该第二信号进行衰减,直至该第二信号的能量对应于该副信号的确定能量,所述确定能量包括在所述接收到的转换参数中。
9.根据权利要求7的方法,其中产生该第三信号的步骤包括:
产生时间信号,其中该时间信号与该主信号之间的该谱能量关系对应于该主信号与该副信号之间的该谱能量关系,通过使用该转换参数作为滤波器参数对该主信号进行滤波,产生所述时间信号;
滤波该时间信号,确保该输出信号不与该主信号心理声学相关。
10.根据权利要求9的方法,其中产生该时间信号的步骤包括:
通过在由对应于该主信号的该预测系数所定义的线性预测分析滤波器中对该主信号进行滤波而产生第一信号,所述预测系数包括在所接收的该转换参数中;
通过在由对应于包括在所接收的该转换参数中的该副信号的该预测系数所定义的线性预测合成滤波器中对所述第一信号进行滤波,产生第二信号;
对该第二信号进行衰减,直至该信号的能量对应于该副信号的确定能量,所述确定能量包括在所述接收到的转换参数中。
11.根据权利要求9的方法,其中产生该时间信号的步骤包括:
通过在由该预测系数所定义的线性预测滤波器中对该主信号进行滤波而产生第一信号,其中所述预测系数包括在该转换参数中,通过如下产生所述预测系数:
确定该主和副信号的确定幅度谱之间的该比率;
对所确定的该比率执行逆向傅立叶变换;
使用逆向傅立叶变换的该结果作为预测系统的输入;
对该第二信号进行衰减,直至该信号的能量对应于该副信号的确定能量,所述确定能量包括在所述转换参数中,
所述转换参数包括所述预测系数和所述确定能量。
12.根据权利要求7-11的方法,其中当已经产生了对应于特定段的该转换参数时,通过在该特定段之间初始插值转换参数,执行产生与该副信号具有相同属性的该第三信号的步骤。
13.一种用于对主和副信号进行编码的设备,其中至少所述主和副信号表示多信道音频信号,其中该主和副信号具有这样的属性:每一心理声学带的所述主和副信号的功率谱能量之间的关系是完整的,并且其中所述副信号不与该主信号心理声学相关,该设备包括:
第一处理装置,用于通过预定的转换将该副信号转换成为一组转换参数,所述参数适用于再现对应于该副信号并且具有与该副信号相同属性的第三信号;
第二处理装置,适用于至少通过所述主信号以及所述转换参数表示该多信道信号。
14.一种用于对主和副信号信息进行解码的设备,其中至少所述主和副信号表示多信道音频信号,该主和副信号具有这样的属性:每一心理声学带的所述主和副信号的功率谱能量之间的关系是完整的,并且其中所述副信号不与该主信号心理声学相关,该方法包括步骤:
接收装置,用于接收主信号和一组转换参数,所述转换参数适用于再现对应于该副信号并且具有与该副信号相同属性的第三信号;
处理装置,用于通过使用所述转换参数逆向地执行预定的转换,产生具有与该副信号相同属性的第三信号。
15.一种包括多信道信号信息的数据信号,通过根据权利要求1-6的编码方法对该数据信号进行编码。
16.一种计算机可读媒体,包括表示通过根据权利要求1-6的编码方法进行编码的多信道信号信息的数据记录。
17.一种用于通信多信道信号的装置,该装置包括用于编码主和副信号的设备,其中至少所述主和副信号表示多信道音频信号,其中该主和副信号具有这样的属性:每一心理声学带的所述主和副信号的功率谱能量之间的关系是完整的,并且其中所述副信号不与该主信号心理声学相关,该设备包括:
第一处理装置,用于通过预定的转换将该副信号转换成为一组转换参数,所述参数适用于再现对应于该副信号并且具有与该副信号相同属性的第三信号;
第二处理装置,适用于至少通过所述主信号以及所述转换参数表示该多信道信号。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03100752 | 2003-03-24 | ||
EP03100752.9 | 2003-03-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1765153A true CN1765153A (zh) | 2006-04-26 |
Family
ID=33041036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2004800078918A Pending CN1765153A (zh) | 2003-03-24 | 2004-03-18 | 表示多信道信号的主和副信号的编码 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20060171542A1 (zh) |
EP (1) | EP1609335A2 (zh) |
JP (1) | JP2006521577A (zh) |
KR (1) | KR20050116828A (zh) |
CN (1) | CN1765153A (zh) |
WO (1) | WO2004086817A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163429B (zh) * | 2005-04-15 | 2013-04-10 | 杜比国际公司 | 用于处理去相干信号或组合信号的设备和方法 |
WO2018121386A1 (zh) * | 2016-12-30 | 2018-07-05 | 华为技术有限公司 | 立体声编码方法及立体声编码器 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7644003B2 (en) | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7292901B2 (en) | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US7583805B2 (en) | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7805313B2 (en) | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
SE0400997D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Efficient coding of multi-channel audio |
US8843378B2 (en) * | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
US8204261B2 (en) * | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
US7720230B2 (en) | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
MX2007005261A (es) * | 2004-11-04 | 2007-07-09 | Koninkl Philips Electronics Nv | Codificacion y descodificacion de un conjunto de senales. |
US7787631B2 (en) | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
US8340306B2 (en) | 2004-11-30 | 2012-12-25 | Agere Systems Llc | Parametric coding of spatial audio with object-based side information |
US7761304B2 (en) | 2004-11-30 | 2010-07-20 | Agere Systems Inc. | Synchronizing parametric coding of spatial audio with externally provided downmix |
US7903824B2 (en) | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
US20070055510A1 (en) | 2005-07-19 | 2007-03-08 | Johannes Hilpert | Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding |
CN101253557B (zh) * | 2005-08-31 | 2012-06-20 | 松下电器产业株式会社 | 立体声编码装置及立体声编码方法 |
FR2898725A1 (fr) | 2006-03-15 | 2007-09-21 | France Telecom | Dispositif et procede de codage gradue d'un signal audio multi-canal selon une analyse en composante principale |
ATE539434T1 (de) | 2006-10-16 | 2012-01-15 | Fraunhofer Ges Forschung | Vorrichtung und verfahren für mehrkanalparameterumwandlung |
CA2874454C (en) | 2006-10-16 | 2017-05-02 | Dolby International Ab | Enhanced coding and parameter representation of multichannel downmixed object coding |
US20120045065A1 (en) * | 2009-04-17 | 2012-02-23 | Pioneer Corporation | Surround signal generating device, surround signal generating method and surround signal generating program |
TWI433137B (zh) | 2009-09-10 | 2014-04-01 | Dolby Int Ab | 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法 |
TWI516138B (zh) * | 2010-08-24 | 2016-01-01 | 杜比國際公司 | 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品 |
KR20220009563A (ko) * | 2020-07-16 | 2022-01-25 | 한국전자통신연구원 | 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
DE19742655C2 (de) * | 1997-09-26 | 1999-08-05 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals |
US6539357B1 (en) * | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
FR2821475B1 (fr) * | 2001-02-23 | 2003-05-09 | France Telecom | Procede et dispositif de reconstruction spectrale de signaux a plusieurs voies, notamment de signaux stereophoniques |
US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US20030035553A1 (en) * | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
SE0202159D0 (sv) * | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
KR100981694B1 (ko) * | 2002-04-10 | 2010-09-13 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 스테레오 신호들의 코딩 |
KR100981699B1 (ko) * | 2002-07-12 | 2010-09-13 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
-
2004
- 2004-03-18 JP JP2006506737A patent/JP2006521577A/ja not_active Withdrawn
- 2004-03-18 CN CNA2004800078918A patent/CN1765153A/zh active Pending
- 2004-03-18 WO PCT/IB2004/050288 patent/WO2004086817A2/en not_active Application Discontinuation
- 2004-03-18 US US10/549,635 patent/US20060171542A1/en not_active Abandoned
- 2004-03-18 EP EP04721612A patent/EP1609335A2/en not_active Withdrawn
- 2004-03-18 KR KR1020057017914A patent/KR20050116828A/ko not_active Application Discontinuation
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163429B (zh) * | 2005-04-15 | 2013-04-10 | 杜比国际公司 | 用于处理去相干信号或组合信号的设备和方法 |
WO2018121386A1 (zh) * | 2016-12-30 | 2018-07-05 | 华为技术有限公司 | 立体声编码方法及立体声编码器 |
CN108269577A (zh) * | 2016-12-30 | 2018-07-10 | 华为技术有限公司 | 立体声编码方法及立体声编码器 |
CN108269577B (zh) * | 2016-12-30 | 2019-10-22 | 华为技术有限公司 | 立体声编码方法及立体声编码器 |
US10714102B2 (en) | 2016-12-30 | 2020-07-14 | Huawei Technologies Co., Ltd. | Stereo encoding method and stereo encoder |
US11043225B2 (en) | 2016-12-30 | 2021-06-22 | Huawei Technologies Co., Ltd. | Stereo encoding method and stereo encoder |
US11527253B2 (en) | 2016-12-30 | 2022-12-13 | Huawei Technologies Co., Ltd. | Stereo encoding method and stereo encoder |
US11790924B2 (en) | 2016-12-30 | 2023-10-17 | Huawei Technologies Co., Ltd. | Stereo encoding method and stereo encoder |
Also Published As
Publication number | Publication date |
---|---|
WO2004086817A3 (en) | 2005-02-10 |
EP1609335A2 (en) | 2005-12-28 |
US20060171542A1 (en) | 2006-08-03 |
KR20050116828A (ko) | 2005-12-13 |
JP2006521577A (ja) | 2006-09-21 |
WO2004086817A2 (en) | 2004-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1765153A (zh) | 表示多信道信号的主和副信号的编码 | |
CN1154087C (zh) | 提高低比特率音频编码系统音质的方法、编码器和译码器 | |
CN1311426C (zh) | 立体声信号的编码、解码方法和装置及其传输设备 | |
CN1669359A (zh) | 音频编码 | |
CN1244904C (zh) | 声频信号编码方法和设备 | |
CN1030129C (zh) | 高效数字数据编码和译码装置 | |
CN1217502C (zh) | 音频信号的编码装置、解码装置及编码方法和解码方法 | |
CN1071914C (zh) | 信号编码方法和信号解码方法 | |
CN1922654A (zh) | 音频分发系统、音频编码器、音频解码器及其操作方法 | |
CN1992533A (zh) | 信号编码设备和方法、信号译码设备和方法、程序及介质 | |
CN1647154A (zh) | 立体声信号编码 | |
CN1647157A (zh) | 信号合成 | |
CN1527306A (zh) | 使用带宽扩展技术编码和/或解码数字数据的方法和装置 | |
CN1942928A (zh) | 音频信号编码 | |
CN1926610A (zh) | 基于编码的多声道音频信号合成单声道音频信号 | |
JP2012238034A (ja) | マルチチャンネルオーディオ信号復号化方法 | |
CN1647156A (zh) | 参数多声道音频表示 | |
CN1525436A (zh) | 可伸缩地编解码音频数据的方法和装置 | |
CN1945695A (zh) | 对音频信号编码/解码的方法和设备 | |
CN1735928A (zh) | 用于可变速率音频编解码的方法 | |
CN1137546C (zh) | 对一组数字信息信号进行编码的装置和方法 | |
CN1486554A (zh) | 可变速率接收机中速率误差检测的改进方法和设备 | |
CN1885724A (zh) | 产生音频信号比特流方法和设备及音频编解码方法和设备 | |
CN1639769A (zh) | 利用谐波提取的音频编码方法和设备 | |
CN1524348A (zh) | 编码方法和装置以及解码方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20060426 |