CN102292768B - 用于处理音频信号的装置及其方法 - Google Patents

用于处理音频信号的装置及其方法 Download PDF

Info

Publication number
CN102292768B
CN102292768B CN2010800050570A CN201080005057A CN102292768B CN 102292768 B CN102292768 B CN 102292768B CN 2010800050570 A CN2010800050570 A CN 2010800050570A CN 201080005057 A CN201080005057 A CN 201080005057A CN 102292768 B CN102292768 B CN 102292768B
Authority
CN
China
Prior art keywords
information
signal
multichannel
mixed
bit stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010800050570A
Other languages
English (en)
Other versions
CN102292768A (zh
Inventor
金庆镐
孙亨浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Priority claimed from PCT/KR2010/000362 external-priority patent/WO2010085083A2/en
Publication of CN102292768A publication Critical patent/CN102292768A/zh
Application granted granted Critical
Publication of CN102292768B publication Critical patent/CN102292768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

公开了一种用于处理音频信号的装置及其方法,包括:接收包含至少一个正常对象信号的下混合信号,以及比特流,所述比特流包括当产生下混合信号时所确定的对象信息;从比特流的扩展部分中提取扩展类型标识符,所述扩展类型标识符表示下混合信号是否进一步包括多信道对象信号;当扩展类型标识符表示下混合信号进一步包括多信道对象信号的时候,从比特流中提取第一空间信息;和传送第一空间信息和第二空间信息中的至少一个;其中当多信道源信号被下混合为多信道对象信号的时候,确定第一空间信息,其中使用对象信息和混合信息产生第二信息。

Description

用于处理音频信号的装置及其方法
技术领域
本发明涉及用于处理音频信号的装置及其方法。虽然本发明适合于广泛的应用范围,其尤其地适合于编码或者解码音频信号。
背景技术
通常地,在用于将多个对象下混合(downmix)为单声或者立体声信号的过程中,参数是分别从对象信号中提取的。这些参数是解码器可使用的。并且,每个对象的移动(panning)和增益可由用户的选择来控制。
发明内容
技术问题
但是,为了控制每个对象信号,包含在下混合中的每个源(source)应被适当地放置或者移动。
另外,为了按照面向信道的解码方案提供下行链路兼容,对象参数应被转换为用于上混合的多信道参数。
技术方案
因此,本发明提出了一种用于处理音频信号的装置及其方法,其基本上消除了一个或多个由于相关技术的限制和缺点而引起的问题。
本发明的一个目的是提供一种用于处理音频信号的装置及其方法,通过其,单声信号、立体声信号和立体声信号可以通过控制对象的增益和移动而输出。
本发明的另一个目的是提供一种用于处理音频信号的装置及其方法,通过其,如果基于对象的常规对象和基于信道的对象(多信道对象或者多信道背景对象)包括在下混合信号中,则除了用于控制对象的对象信息之外,用于上混合基于信道的对象的空间信息可以从比特流中获得。
本发明的另一个目的是提供一种用于处理音频信号的装置及其方法,其可以在包括在下混合信号中的多个对象中识别哪个对象是多信道对象。
本发明的另一个目的是提供一种用于处理音频信号的装置及其方法,如果下混合到立体声中的多信道对象被包括在下混合信号中,则其可以识别哪个对象是多信道对象的左信道。
本发明的再一个目的是提供一种用于处理音频信号的装置及其方法,通过其,在以相当大的宽度调整正常对象(诸如人声(vocal)信号)的增益,或者多信道对象(诸如背景音乐)的增益的情况下,可以防止音质的失真。
有益效果
因此,本发明提供以下的效果和/或优点。
第一,本发明能够没有限制地控制对象的增益和移动。
第二,本发明能够基于用户进行的选择来控制对象的增益和移动。
第三,在下混合为单声或者立体声的多信道对象被包括在下混合信号中的情况下,本发明获得对应于多信道对象的空间信息,从而将单声或者立体声对象上混合为多信道信号。
第四,在人声或者背景音乐被完全抑制的情况下,本发明能够按照增益调整防止音质的失真。
附图说明
所附附图被包括以提供对本发明进一步的理解,并且被结合进并构成本说明书的一部分,其举例说明本发明的实施例,并且与说明书一起可以起解释本发明原理的作用。
在附图中:
图1是按照本发明一个实施例在音频信号处理装置中的编码器的方框图;
图2是用于在图1中示出的复用器130的一个例子的详细方框图;
图3是用于扩展配置的语法的一个例子的示意图;
图4是如果扩展类型标识符是x,用于空间配置的语法的例子的示意图;
图5是如果扩展类型标识符是x,用于空间帧数据的语法的一个例子的示意图;
图6是如果扩展类型标识符是x,用于空间帧数据的语法的另一个例子的示意图;
图7是用于空间配置信息的语法的一个例子的示意图;
图8是用于空间帧数据的语法的一个例子的示意图;
图9是用于在图1中示出的复用器130的另一个例子的详细方框图;
图10是如果扩展类型标识符是y,用于联结对象信息(coupledobject information)的语法例子的示意图;
图11是用于联结对象信息的语法的一个例子的示意图;
图12是用于联结对象信息的语法的其他例子的示意图;
图13是按照本发明一个实施例在音频信号处理装置中的解码器的方框图;
图14是按照本发明一个实施例在音频信号处理方法中用于解码操作的流程图;
图15是用于在图13中示出的解复用器210的一个例子的详细方框图;
图16是用于在图13中示出的解复用器210的另一个例子的详细方框图;
图17是用于在图13中示出的MBO代码转换器220的一个例子的详细方框图;
图18是用于在图13中示出的MBO代码转换器220的另一个例子的详细方框图;
图19是用于在图17和图18中分别示出的提取单元222的例子的详细方框图;
图20是在其中实现按照本发明一个实施例的音频信号处理装置的产品的简略方框图;和
图21是用于产品关系的示意图,该产品中的每个被提供有按照本发明一个实施例的音频信号处理装置。
具体实施方式
本发明的另外的特点和优点将在随后的描述中阐述,并且部分地将从该描述中清晰可见,或者可以通过实践本发明而获悉。通过在所撰写的说明书及其权利要求以及所附附图中特别指出的结构,可以实现和获得本发明的目的和其他的优点。
为了实现这些和其他的优点,以及按照本发明的目的,如在此处实施和广泛地描述的,提供了一种用于处理音频信号的方法,包括:接收包含至少一个正常对象信号的下混合信号,以及比特流,所述比特流包括当产生下混合信号时所确定的对象信息;从比特流的扩展部分中提取扩展类型标识符,所述扩展类型标识符表示下混合信号是否进一步包括多信道对象信号;当扩展类型标识符表示下混合信号进一步包括多信道对象信号的时候,从比特流中提取第一空间信息;和传送第一空间信息和第二空间信息中的至少一个;其中当多信道源信号被下混合为多信道对象信号的时候,确定第一空间信息,其中使用对象信息和混合信息产生第二信息。
按照本发明,按照表示多信道对象信号是否将被抑制的模式信息来传送第一空间信息和第二空间信息中的至少一个。
按照本发明,当该模式信息表示多信道对象信号将不被抑制的时候,传送第一空间信息,当该模式信息表示多信道对象信号将被抑制的时候,传送第二空间信息。
按照本发明,该方法进一步包括:当传送第一空间信息的时候,使用第一空间信息和多信道对象信号产生多信道信号。
按照本发明,该方法进一步包括:当产生第二空间信息的时候,使用第二空间信息和正常对象信号产生输出信号。
按照本发明,该方法进一步包括:当传送第二空间信息的时候,使用对象信息和混合信息产生下混合处理信息;和通过使用下混合处理信息处理正常对象信号来产生处理后的下混合信号。
按照本发明,第一空间信息包括空间配置信息和空间帧数据。
为了进一步实现这些和其他的优点,以及按照本发明的目的,提供了一种用于处理音频信号的装置,包括:接收单元,其接收包含至少一个正常对象信号的下混合信号,以及比特流,所述比特流包括当产生下混合信号时所确定的对象信息;扩展类型标识符提取部分,其从比特流的扩展部分中提取扩展类型标识符,所述扩展类型标识符表示下混合信号是否进一步包括多信道对象信号;第一空间信息提取部分,其当扩展类型标识符表示下混合信号进一步包括多信道对象信号的时候,从比特流中提取第一空间信息;和多信道对象代码转换器,其传送第一空间信息和第二空间信息中的至少一个;其中当多信道源信号被下混合为多信道对象信号的时候,确定第一空间信息,其中使用对象信息和混合信息产生第二信息。
按照本发明,按照表示多信道对象信号是否将被抑制的模式信息来传送第一空间信息和第二空间信息中的至少一个。
按照本发明,当模式信息表示多信道对象信号将不被抑制的时候,传送第一空间信息,当该模式信息表示多信道对象信号将被抑制的时候,传送第二空间信息。
按照本发明,该装置进一步包括:多信道解码器,当传送第一空间信息的时候,使用第一空间信息和多信道对象信号产生多信道信号。
按照本发明,该装置进一步包括:多信道解码器,当产生第二空间信息的时候,使用第二空间信息和正常对象信号产生输出信号。
按照本发明,其中多信道对象代码转换器包括:信息产生部分,当传送第二空间信息的时候,使用对象信息和混合信息产生下混合处理信息;和下混合处理部分,通过使用下混合处理信息处理正常对象信号来产生处理后的下混合信号。
按照本发明,其中第一空间信息包括空间配置信息和空间帧数据。
为了进一步实现这些和其他的优点,以及按照本发明的目的,提供了一种在其上存储有指令的计算机可读介质,当被处理器执行的时候,其导致处理器执行操作,所述操作包括:接收包含至少一个正常对象信号的下混合信号,以及比特流,所述比特流包括当产生下混合信号时所确定的对象信息;从比特流的扩展部分中提取扩展类型标识符,所述扩展类型标识符表示下混合信号是否进一步包括多信道对象信号;当扩展类型标识符表示下混合信号进一步包括多信道对象信号的时候,从比特流中提取第一空间信息;和传送第一空间信息和第二空间信息中的至少一个;其中当多信道源信号被下混合为多信道对象信号的时候,确定第一空间信息,其中使用对象信息和混合信息产生第二信息。
应该明白,上文的概述和下面的详细说明是示范性和说明性的,并且意欲对所要求保护的本发明提供进一步的说明。
现在将详细地进行介绍本发明的优选实施例,在所附附图中举例说明其例子。首先,在本说明书和权利要求书中使用的术语或者措词不认为局限于常规的或者字典含义,并且应该认为是基于发明人能够恰当定义该术语的概念以最好的方式描述发明人的发明的原则,匹配本发明的技术想法的含义和概念。在本公开中公开的实施例和在所附附图中示出的结构仅仅是一个优选实施例,并且不表示本发明的所有技术想法。因此,应该明白,本发明覆盖在提出本申请的时间归入所附权利要求书及其等效物的范围之内的本发明的修改和变化。
在本发明中以下的术语可以基于以下的准则解释,并且不能解释的其它术语可以按照以下的目的解释。首先,应该明白,在本发明中概念“编译(coding)”可以在许多情形下解释为编码或者解码。其次,在本公开中,“信息”是通常包括值、参数、系数、元素等等的术语,并且其含义可以被解释为偶尔地不同,本发明不限于此。
图1是在按照本发明一个实施例的音频信号处理装置中的编码器示意图的方框图。
参考图1,编码器100包括空间编码器110、对象编码器120和复用器130。
该空间编码器110通过基于信道的方案来下混合多信道源(multichannel source)(或者多信道声源),以产生下混合的多信道对象(或者多信道背景对象)(在下文中称为多信道对象(MBO)),其被下混合为单声或者立体声信号。在这种情况下,多信道源信号是以至少三个信道配置的声音。可以说,多信道源信号可以从使用5.1信道麦克风采集一个乐器声音,或者从使用5.1信道麦克风获得多个乐器声音和诸如乐队声音的人声声音而产生。当然,通过不同地处理经由单声或者立体声麦克风输入的信号,多信道源信号可以对应于上混合为5.1信道的信道。
前述的多信道源信号可以称为多信道对象(MBO)。并且,从将多信道源信号下混合为单声或者立体声信号而产生对象信号。因此,本发明意欲沿用多信道源信号的后者定义。
产生的多信道对象(MBO)被作为对象输入给对象编码器120。如果多信道对象(MBO)具有单声信道,其被作为一个对象输入。如果该多信道对象具有立体声信道,该多信道对象(MBO)被作为左多信道对象和右多信道对象,即,两个对象而输入。
在这个下混合过程中,空间信息被提取。该空间信息是用于将下混合(DMX)上混合为多信道的信息,并且可以包括信道电平信息、信道相关信息等等。这个空间信息将称为第一空间信息以区别于从后者的解码器产生的第二空间信息。第一空间信息被输入给复用器130。
该对象编码器120通过利用基于对象的方案下混合多信道对象(MBO)和正常对象而产生下混合信号DMX。其能够通过下混合对象而进一步产生残留(residual)以及下混合信号DMX,这不受本发明的限制。
对象信息是从这个下混合过程中产生的。对象信息(OI)是有关包括在下混合信号中的对象的信息,并且也是对从下混合信号DMX产生多个对象信号来说是必需的信息。该对象信息可以包括对象电平信息、对象相关信息等等,其不受本发明的限制。另外,该对象信息可以进一步包括下混合增益信息(DMG)和下混合信道电平差(DCLD)。该下混合增益信息(DMG)表示在下混合之前应用于每个对象的增益。并且,如果下混合信号是立体声,则下混合信道电平差(DCLD)表示将每个对象应用于左信道和右信道的比率。在这种情况下,产生的对象信息被输入给复用器130。
同时,对象编码器120进一步产生立体声对象信息,并且然后能够将其传送给复用器130。在这种情况下,立体声对象指的是允许至少一个或者两个声源被输入给立体声麦克风的对象信号。
虽然图1示出空间编码器110和对象编码器120相互分离,但能够配置对象编码器120包括空间编码器110的功能。因此,对象编码器120能够通过下混合多信道声源和正常对象而产生空间信息和对象信息。
复用器130使用由对象编码器120产生的对象信息来产生比特流。如果多信道对象(MBO)存在于下混合信号DMX中,则该复用器130通过复用使得由空间编码器110产生的第一空间信息以及对象信息被包括在比特流中。
为此,存在两种复用方案。按照第一个复用方案,对应于对象信息比特流的语法被定义为包括第一空间信息。按照第二个复用方案,对象信息比特流和空间信息比特流的传输机制被重新地提供。
稍后将参考图3至8详细地解释第一个方案。
同时,复用器130产生联结对象信息,然后使得产生的联结对象信息包括在比特流中。在这种情况下,该联结对象信息是表示立体声对象或者多信道对象是否存在于由对象编码器120下混合的至少两个对象信号中,或者正常对象是否仅存在于由对象编码器120下混合的至少两个对象信号中的信息。如果第一空间信息存在,则多信道对象存在。如在先前的描述中提及的,如果从对象编码器120接收到立体声对象信息,则立体声对象存在。如果包括多信道对象或者立体声对象,则联结对象信息能够进一步包括表示哪个对象是立体声对象(或者多信道对象)的左对象或者右对象的信息。稍后将参考图10至12详细地解释这些。
图2是用于在图1中示出的复用器130的一个例子的详细方框图。参考图2,复用器130包括对象信息插入部分132、扩展类型标识符插入部分134和第一空间信息插入部分136。
对象信息插入部分132按照语法在比特流中插入从对象编码器120接收的对象信息。扩展类型标识符插入部分134按照是否从空间编码器110接收到第一空间信息来确定扩展类型标识符,并然后在比特流中插入扩展类型标识符。
图3是用于扩展配置的语法(SAOCExtensionConfig())的一个例子的示意图。参考图3的行(A),可以看到包括有表示扩展区域类型的扩展类型标识符(bsSaocExtType)。在这种情况下,该扩展类型标识符是表示哪种信息类型被包括在扩展区域中的标识符。特别地,该扩展类型标识符表示空间信息是否存在于比特流中。同时,因为空间信息的存在可以指的是多信道对象(MBO)包括在下混合信号中,所以该扩展类型标识符可以表示多信道对象(MBO)是否也包括在下混合信号中。扩展类型标识符(bsSaocExtType)及其含义的一个例子在表1中示出。
[表1:扩展类型标识符的含义的一个例子]
Figure BPA00001406835000111
在表1中,“x”和“i”分别是任意的整数。
参考表1,如果扩展类型标识符是x(这里x是任意的整数,并且最好是等于或者小于15的整数),这指的是MBO空间信息存在。如果MBO空间信息存在,这指的是进一步包括扩展帧数据。
如果扩展类型标识符(bsSaocExtType)是x,参考图3的行(B),对应于x的扩展配置数据(SAOCExtensionConfigData(x))被寻呼(page)。这将参考图4解释如下。
图4是如果扩展类型标识符是x,用于空间配置的语法例子的示意图,图5是如果扩展类型标识符是x,用于空间帧数据的语法例子的示意图,并且图6是如果扩展类型标识符是x,用于空间帧数据的语法的另一个例子的示意图。
参考图4的表2A,扩展配置数据(SAOCExtensionConfigData(x))包括MBO识别信息(bsMBOI)和空间配置信息(SpatialSpecificConfig())。
MBO识别信息是表示哪个对象是MBO的信息。如果MBO识别信息被设置为0,则第一个对象对应于MBO。如果MBO识别信息被设置为4,则第五个对象对应于MBO。可能发生的是MBO是立体声(即,两个MBO)。MBO是否是立体声可以基于空间配置信息(SpatialSpecificConfig())而看出。因此,如果MBO是立体声,则可以断定由MBO识别信息指定的对象是MBO,并且下一个对象也是MBO。例如,如果按照空间配置信息,MBO识别信息被设置为0并且两个MBO存在,则第一个和第二个对象可以对应于MBO。
参考图4的表2B,可以看到,MBO识别信息(bsMBOI)不是作为固定比特,而是作为可变比特(nBitsMBO)而被包括。如在先前的描述中提及的,因为MBO识别信息是表示包括在下混合信号中的哪个对象是MBO的信息,所以超出下混合信号中所包括的对象的总数的比特是不需要的。即,如果对象的总数是10,则只需要表示0-9的比特数(例如,4比特)。如果对象的总数是N,则只需要取整(ceil)(log2N)个比特。因此,能够通过按照总的对象数目以可变比特传输,而不是以固定比特(5比特)传输来减小比特数。
参考图4的表2C,类似于以前的例子,包括有MBO识别信息和空间配置信息(SpatialSpecificConfig())。如果帧被包括在头部中,则空间帧数据(SpatialFrame())被包括。
图5和图6示出如果扩展类型标识符是x,用于空间帧数据(SpatialFrame())的语法的例子。参考图5的表3A,如果扩展类型标识符是x,可以看到,扩展帧数据(SAOCExtensionFrame(x))包括空间帧数据(SpatialFrame())。在图6中示出的语法可以代替在图5中示出的语法定义。
参考图6的表3B.1,如果扩展类型标识符是x,则扩展帧数据(SAOCExtensionFrame(x))包括MBO帧(MBOFrame())。如表3B.2所示的MBO帧(MBOFrame())包括空间帧数据(SpatialFrame())。
图7是用于空间配置信息的语法的一个例子的示意图,并且图8是用于空间帧数据的语法的一个例子的示意图。
参考图7,举例说明了包括在图4示出的表2A至2C中的空间配置信息(SpatialSpecificConfig())的详细配置。该空间配置信息包括用于将单声或者立体声信道上混合为多个信道所需要的配置信息。在空间配置信息中,包括表示优选采样频率的采样频率索引(bsSamplingFrequencylndex),表示帧长度(即,时隙的数目)的帧长度信息(bsFrameLength),表示预定的树结构(5-1-51树配置,5-2-5树配置,7-2-7树配置等等)中的一个的树配置信息(bsTreeConfig),等等。经由该树配置信息,能够识别MBO是单声还是立体声。
参考图8,举例说明了包括在图4、图5的表2C中和图5的表3B.2中的空间配置数据(SpatialFrame())的详细配置。空间帧数据包括空间参数,诸如将单声或者立体声信道上混合为多个信道所需要的信道电平差(CLD)。尤其是,帧信息(Frameinfo())、OTT信息(OttData())等等被包括在空间帧数据中。帧信息(Frameinfo())可以包括表示参数组的数目的信息,和表示参数组被应用于哪个时隙的信息。OTT信息可以包括参数,诸如用于OTT(一对二)箱(box)所需要的信道电平差(CLD)、信道相关信息(ICC)、等等。
简单地说,在图2中示出的复用器120按照第一空间信息是否存在来确定用于表示存在或者不存在MBO的扩展帧类型。如果该扩展帧类型表示第一空间信息存在,则第一空间信息包括在比特流中。用于使第一空间信息被包括在比特流中的语法可以被定义为如图3至8中的一个所示。
图9是用于在图1中示出的复用器130的另一个例子的详细方框图。在图2示出的例子(130A)中,如果扩展类型标识符是x(即,包括MBO),则第一空间信息被包括在比特流中。但是,在图9示出的另一个例子(130B)中,如果扩展类型标识符是y,则联结对象信息(ObjectCoupledlnformation())被包括在比特流中。在这种情况下,联结对象信息是表示立体声对象或者多信道对象是否存在于由对象编码器120下混合的至少两个对象信号中,或者表示正常对象是否仅存在于由对象编码器120下混合的至少两个对象信号中的信息。
参考图9,复用器103B包括对象信息插入部分132B、扩展类型标识符插入部分134B和联结对象信息插入部分136B。在这种情况下,对象信息插入部分132B执行具有在图2示出的相同名称的单元132A相同的功能,从以下的描述中省略其细节。
扩展类型标识符插入部分134B按照立体声对象或者多信道对象(MBO)是否存在于下混合DMX中来确定扩展类型标识符,然后使确定的扩展类型标识符插入在比特流中。随后,如果扩展类型标识符指的是立体声对象或者多信道对象存在(例如,如果其是y),则联结对象信息被包括在比特流中。在这种情况下,扩展类型标识符(bsSaocExtType)可以被包括在图3示出的以前的扩展配置中。扩展类型标识符(bsSaocExtType)及其含义的例子在以下的表中示出。
[表2:用于扩展类型标识符的含义的例子]
 扩展类型标识符(bsSaocExtType)   含义   扩展帧数据
 0   残留编码数据   存在
 1   预置信息   存在
 x   MBO空间信息   存在
 y   联结对象信息   不存在
在表2中,“y”是任意的整数。
表2表示如果扩展类型标识符是y,则联结对象信息被包括在比特流中。当然,前述的表1和表1可以结合在一起。
图10是如果扩展类型标识符是y,用于联结对象信息的语法的例子的示意图。图11是用于联结对象信息的语法的一个例子的示意图。并且,图12是用于联结对象信息的语法的其他例子的示意图。
参考图10,如果扩展类型标识符是y(即,如果bsSaocExtType是y),可以看到,联结对象信息(ObjectCoupledlnformation())被包括在扩展配置数据(SAOCExtensionConfigData(y))中。
参考图11,联结对象信息(ObjectCoupledlnformation())包括优选的联结对象识别信息(bsCoupledObject[i][j])、左信道信息(bsObjectlsLeft)、MBO信息(bsObjectlsMBO)等等。
联结对象识别信息(bsCoupledObject[i][j])是表示哪个对象是立体声或者多信道对象的一部分的信息。尤其是,如果联结对象识别信息(bsCoupledObject[i][j])被设置为1,这指的是第i个和第j个对象相互联结。如果联结对象识别信息(bsCoupledObject[i][j])被设置为0,这指的是第i个和第j个对象相互无关。当存在总共5个对象的时候,如果第三和第四个对象互相联结,则联结对象识别信息(bsCoupledObject[i][j])的一个相应例子在以下的表中示出。
[表3:联结对象识别信息(bsCoupledO bject[i][j])的例子]
  bsCoupledObject[i][j]   i=0   i=1   i=2   i=3   i=4
  i=0   1   0   0   0   0
  j=1   0   1   1   0   0
  j=2   0   1   1   0   0
  j=3   0   0   0   1   0
  j=4   0   0   0   0   1
在表3中,存在总共5个对象。并且,第3和第4对象互相联结。另外,只有在联结的对象存在[如果(bsCoupledObject[i][j])]的时候,包括左信道信息(bsObjectlsLeft)和MBO信息(bsObjectlsMBO)。如果左信道信息(bsObjectlsLeft)被设置为1,这指的是相应对象对应于立体声对象的左信道。如果左信道信息(bsObjectlsLeft)被设置为0,这指的是相应对象对应于立体声对象的右信道。如果MBO信息(bsObjectlsMBO)被设置为1,这指的是相应对象是从多信道对象(MBO)中产生的。如果MBO信息(bsObjectlsMBO)被设置为0,这指的是相应对象不是多信道对象。在参考图2描述的以前的例子中,可以按照是否包括第一空间信息来获得MBO的存在。但是,在当前的例子中,能够通过MBO信息知道多信道对象是否被包括在一个对象中。
参考图12,举例说明了联结对象信息的另一个例子。联结对象信息的这个例子包括对象类型信息(bsObjectType)、左信道信息(bsObjectlsLeft)、MBO信息(bsObjectlsMBO)、联结目标信息(bsObjectlsCoupled)等等。
在这种情况下,对象类型信息(bsObjectType)对于每个对象被设置为1,其表示相应对象是立体声对象。如果对象类型信息(bsObjectType)被设置为0,其表示相应对象是正常对象。
当存在总共5个对象的时候,如果第三和第四对象是立体声对象(或者多信道对象),并且第一、第二和第五对象是正常对象,对象类型信息可以表示如下。
[表4:对象类型信息(bsObjectType)的一个例子]
  i=0   i=1   i=2   i=3   i=4
  bsObjectType   0   0   1   1   0
当存在总共5个对象的时候,如果第一至第四对象是立体声对象(或者多信道对象),并且仅仅第五对象是正常对象,对象类型信息可以表示如下。
[表5:对象类型信息(bsObjectType)的另一个例子]
  i=0   i=1   i=2   i=3   i=4
  bsObjectType   1   1   1   1   0
只有在对象类型信息被设置为1[如果(bsObjectType==1)]的时候,包括左信道信息(bsObjectlsLeft)和MBO信息(bsObjectlsMBO)。同时,如果相应对象是立体声,则联结目标信息(bsObjectlsCoupled)是表示哪种对象是用于一对或一双的目标的信息。当联结目标信息,如图12的表7B.1所示,被表示为固定比特(5比特)的时候,在以前的表4的情况下,联结目标信息可以表示为表6。在表5的情况下,联结目标信息可以表示为表7。
[表6:联结目标信息(bsObjectlsCoupled)的一个例子]
  i=0   i=1   i=2   i=3   i=4
  bsObjectType   -   -   00011   00010   -
[表7:联结目标信息(bsObjectlsCoupled)的另一个例子]
  i=0   i=1   i=2   i=3   i=4
  bsObjectlsCoupled   00001   00000   00011   00010   -
首先,可以看到,联结目标信息没有对于正常对象传送。
按照在表6中示出的情形,因为第三对象(i=2)的联结目标信息是“i=3(00011)”,所以第四对象(i=3)被指定为目标。并且,第四对象被设置为“i=2(00010)”,并且将第三对象(i=2)指定为目标。因此,第三和第四对象构成一对。
按照在表7中示出的情形,可以看到第一和第二对象构成一对。并且,可以看到第三和第四对象分别构成不同的对。
同时,联结目标信息(bsObjectlsCoupled)可以表示为在图12的表2B.1中示出的固定比特。但是,为了进一步节省比特数,联结目标信息(bsObjectlsCoupled)可以表示为在表7B.2中示出的可变比特。这具有与将MBO识别信息(MBOI)表示为可变比特相同的原因和原理,其在先前的描述中参考图4描述。
[公式1]
nBitsMBO=取整(ceil)(log2(bsNumObjects))
在公式1中,bsNumObjects是对象的总数,并且取整(x)是不大于x的整数。
在表4和表5中示出的以前的情形下,总的对象数目是5。因此,可以使用可变比特(3比特=取整(log25))代替5个固定比特将它们表示为表8和表9。
[表8:联结目标信息(bsObjectlsCoupled)的一个例子]
  i=0   i=1   i=2   i=3   i=4
  bsObjectType   -   -   011   010   -
[表9:联结目标信息(bsObjectlsCoupled)的另一个例子]
  i=0   i=1   i=2   i=3   i=4
  bsObjectlsCoupled   001   000   011   010   -
图13是按照本发明一个实施例在音频信号处理装置中的解码器的方框图。并且,图14是按照本发明一个实施例在音频信号处理方法中用于解码操作的流程图。
参考图13,解码器200包括解复用器210和MBO代码转换器220,并且能够进一步包括多信道解码器230。解码器200的功能和操作参考图13和图14解释如下。
首先,解码器210的接收单元(在附图中未示出)接收下混合信号DMX和比特流,并且能够进一步接收残留信号[步骤S110]。在这种情况下,残留信号可以包括在比特流中,并且下混合信号DMX可以进一步包括在比特流中,本发明不受此限制。
解复用器210从比特流(尤其是,从比特流的扩展区域)中提取扩展类型标识符,然后基于提取的扩展类型标识符来确定多信道对象(MBO)是否包括在下混合信号DMX中。在确定MBO包括在下混合信号DMX的情况下[在步骤S120中,“是”],解复用器210从比特流中提取第一空间信息[S130]。
MBO代码转换器220使用残留、对象信息等等将下混合DMX分解为MBO和正常对象。MBO代码转换器220基于混合信息MXI来确定模式。在这种情况下,模式可以被划分为用于上混合(或者增强(boost))MBO的模式,或者用于控制正常对象的模式。因为用于上混合MBO的模式使得仅保留背景,所以其可以对应于卡拉OK模式。因为用于控制正常对象的模式通过消除或者抑制背景而使得诸如人声的对象保留,所以其可以对应于独唱模式。同时,混合信息MXI稍后将参考图17和图18详细地解释。
因此,在用于不抑制MBO的模式(或者用于上混合或者增强MBO的模式)(例如,卡拉OK模式)的情况下[在步骤S140中,“是”],接收的第一空间信息被传送给多信道解码器230[步骤S150]。如果这样的话,多信道解码器230通过利用基于信道的方案使用第一空间信息上混合单声或者立体声信道的多信道对象,来产生多信道信号[步骤S160]。
在用于抑制MBO的模式(即,表现(render)或者增强正常对象的情形)(例如,独唱模式)的情况下[在步骤S140中,“是”],不使用接收的第一空间信息,而是使用对象信息和混合信息MXI来产生处理信息[步骤S170]。该对象信息是当包括在下混合中的至少一个对象信号被下混合的时候所确定的信息。如在先前的描述中提及的,该对象信息包括对象电平信息等等。在这种情况下,该处理信息包括下混合处理信息和第二空间信息中的至少一个。在无需多信道解码器230从MBO代码转换器220产生输出信道的模式(解码模式)的情况下,该处理信息仅包括下混合处理信息。相反地,在正常对象被传送给多信道解码器230(代码转换模式)的情况下,该处理信息可以进一步包括第二空间信息。该解码模式和代码转换模式稍后将参考图17和图18详细地解释。
因此,如果MBO代码转换器220产生第二空间信息(解码模式),该多信道解码器230通过使用第二空间信息上混合正常对象来产生多信道信号[步骤S180]。
在以下的描述中,解复用器210的详细配置参考图15和图17来解释。并且,MBO代码转换器220的详细配置参考图17和图18来解释。
图15是用于在图13中示出的解复用器210的一个例子的详细方框图,并且图16是用于在图13中示出的解复用器210的另一个例子的详细方框图。尤其是,在图15中示出的解复用器210A是与在图2中示出的以前的复用器130A相对应的例子。并且,在图16中示出的解复用器210B是与在图9中示出的以前的复用器130B相对应的例子。简单地说,图15中示出的解复用器210A是用于按照扩展类型标识符提取第一空间信息的例子,而在图16中示出的解复用器210B是用于提取联结对象信息的例子。
参考图15,解复用器210A包括扩展类型标识符提取部分212A、第一空间信息提取部分214A和对象信息提取部分216A。首先,该扩展类型标识符提取部分212A从比特流中提取扩展类型标识符。在这种情况下,扩展类型标识符(bsSaocExtType)可以按照在图3中示出的语法获得,并且可以由在先前描述中解释的表1来解释。在扩展类型标识符表示MBO被包括在下混合信号中(即,空间信息被包括在比特流中)(例如,如果(bsSaocExtType)是x)的情况下,比特流被引入到第一空间信息提取部分214A中。第一空间信息提取部分214A然后能够从比特流获得第一空间信息。相反地,如果扩展类型标识符表示MBO没有包括在下混合中,比特流没有被引入到第一空间信息提取部分214A中,而是被直接传送给对象信息提取部分216A。
如在先前的描述中提及的,第一空间信息是在将多信道源信号下混合为单声或者立体声MBO的情况下所确定的信息。并且,第一空间信息是将MBO上混合为多信道所必需的空间信息。另外,第一空间信息可以包括在图4或者图7中定义的空间配置信息,以及在图5、图6或者图8中示出的空间帧数据。
并且,对象信息提取部分216A从比特流中提取对象信息,而不管扩展类型标识符。
参考图16,解复用器210B包括扩展类型标识符提取部分212B、联结对象信息提取部分214B和对象信息提取部分216B。
首先,扩展类型标识符提取部分212B从比特流中提取扩展类型标识符。该扩展类型标识符可以按照在图3中示出的语法而获得,并且可以由在先前描述中解释的表2来解释。在扩展类型标识符表示联结对象信息被包括在比特流中(例如,如果bsSaocExtType=y)的情况下,比特流被引入到联结对象信息提取部分214B中。否则,比特流被直接传送给对象信息提取部分216B。
在这种情况下,联结对象信息是表示立体声对象或者多信道对象是否存在于至少两个下混合的对象信号中,或者表示正常对象是否存在于至少两个下混合的对象信号中的信息。另外,如在先前参考图10和图11的描述中提及的,联结对象信息可以包括联结对象识别信息(bsCoupledObject[i][j])、左信道信息(bsObjectlsLeft)、MBO信息(bsObjectlsMBO)等等。尤其是,联结对象信息是表示立体声对象或者多信道对象是否存在于由对象编码器120下混合的至少两个对象信号中,或者表示正常对象是否仅存在于由对象编码器120下混合的至少两个对象信号中的信息。解码器能够使用联结对象信息知道哪个对象是立体声对象(或者多信道对象)。在以下的描述中,解释联结对象信息的属性和用途。
首先,即使立体声对象(或者下混合为立体声的多信道信号)包括两个对象信号,其具有至少一个或多个声源的左信道和右信道的属性。因此,在左信道和右信道之间存在高的相似性。即,对象的左信道和右信道表现地像一个对象。例如,对象间互相关(IOC)可能是很高的。因此,如果解码器意识到包括在下混合信号中的多个对象中的哪一个对应于立体声对象(或者多信道对象),则能够使用以上提及的立体声对象的相似性在表现对象时提高效率。例如,在控制特定对象的电平或者移动(位置)的情况下,能够单独地控制作为两个对象处理的立体声对象的左信道和右信道。尤其是,用户能够以最大电平将立体声对象的左信道表现为输出信道的左信道和右信道,并且也能够以最小电平将立体声对象的右信道表现为输出信道的左信道和右信道。因此,在通过忽略立体声对象的属性来表现对象的情况下,音质可能显著地恶化。但是,如果解码器意识到存在立体声对象,则能够通过共同地控制立体声的左信道和右信道两者来防止音质恶化。解码器能够使用IOC值来估计哪个对象是立体声对象的部分信道。但是,如果接收到明确地表示哪个对象是立体声对象的联结对象信息,则解码器能够在表现对象时利用所接收的联结对象信息。
同时,如果下混合信号包括立体声信道对象,则解码器能够知道对象是正常立体声对象,还是使用以上提及的MBO信息从将多信道对象(MBO)下混合为立体声信道而产生的对象。解码器也能够使用MBO信息意识到在下混合多信道对象(MBO)时所确定的空间信息(这可能对应于参考图15描述的第一空间信息)是否被包括在比特流中。另外,当在解码器中使用MBO的时候,或者最多只是在其总体增益方面修改。
因此,在图16中示出的解复用器210B接收联结对象信息。如果扩展类型标识符表示包括联结对象信息,则解复用器210B从比特流中提取联结对象信息。
并且,不管存在或者不存在扩展类型标识符或者联结对象信息,对象信息提取部分216B从比特流中提取对象信息。
图17是用于在图13中示出的MBO代码转换器220的一个例子的详细方框图。图18是用于在图13中示出的MBO代码转换器220的另一个例子的详细方框图。并且,图19是用于在图17和图18中分别示出的提取单元222的例子的详细方框图。
首先,在图17中示出的MBO代码转换器(和多信道解码器)具有图18的相同配置。但是,图17涉及在包括在下混合信号中的对象中抑制除了MBO之外的正常对象的模式(例如,卡拉OK模式),而图18涉及通过抑制MBO在下混合信号中仅表现正常对象的模式(例如,独唱模式)。
参考图17,MBO代码转换器220包括提取单元222、表现单元224和下混合处理单元226,并且可以连接到在图13中示出的多信道解码器230。
提取单元222使用残留(和对象信息)从下混合DMX中提取MBO或者正常对象。该提取单元222的例子在图19中示出。参考图19的(A),OTN(一对N)模块222-1是配置为从1-信道输入信号产生N-信道输出信号的模块。例如,OTN模块222-1能够使用两个残留信号(残留1、残留2)从单声下混合(DMXm)中提取单声MBO(MBOm)和两个正常对象(正常obj1和正常obj2)。在这种情况下,残留信号的数目可以等于正常对象信号的数目。参考图19的(B),TTN(二对N)模块222-2是配置为从2-信道输入信号产生N-信道输出信号的模块。例如,TTN模块222-2能够从立体声下混合(DMXL,DMXR)中提取两个MBO信道(MBOL和MBOR)和三个正常对象(正常obj1、正常obj2、正常obj3)。
但是,当编码器产生残留信号的时候,能够不通过将MBO设置给增强音频对象(EAO)作为卡拉OK模式的背景,而是通过将MBO和正常对象两者设置给EAO来产生残留。关于图19的
Figure BPA00001406835000241
或者(D),在使用以这样的方式产生的残留的情况下,单声或者立体声信道的EAO(EAOm、EAOL、EAOR)被提取,并且常规对象(常规objN)也可以被提取,常规对象是除包括在EAO中的之外的另一对象。
在以下的描述中,所解释的是在卡拉OK/独唱模式下MBO配置EAO的情形,如图19的(A)和(B)所示。
现在参考图17,由提取单元220提取的MBO和正常对象被引入到表现单元224中。并且,表现单元224能够基于表现信息(RI)来抑制MBO和正常对象中的至少一个。在这种情况下,表现信息(RI)可以包括模式信息,其是用于选择普通模式、卡拉OK模式和独唱模式中的一个的信息。普通模式是用于既不选择卡拉OK模式又不选择独唱模式的信息。卡拉OK模式是用于抑制除了MBO(或者包括MBO的EAO)之外的对象的模式。并且,独唱模式是用于抑制MBO的模式。同时,表现信息(RI)可以包括混合信息(MXI)本身,或者由信息产生单元228基于混合信息(MXI)而产生的信息,本发明不受限于此。混合信息将参考图18详细地解释。
如果表现单元224抑制除了MBO之外的正常对象,则卡拉OK模式MBO被输出给多信道解码器230。信息产生单元228不产生下混合处理信息(DPI)和第二空间信息。当然,下混合处理单元22可以不被激活。接收的第一空间信息然后被传送给多信道解码器230。
多信道解码器230能够使用第一空间信息将MBO上混合为多信道信号。尤其是,在卡拉OK模式的情况下,MBO代码转换器220将接收的空间信息和从下混合信号中提取的MBO传送给多信道解码器。
图18示出在独唱模式的情况下MBO代码转换器220的操作。同样地,提取单元222从下混合DMX中提取MBO和正常对象。表现部分224在独唱模式的情况下使用表现信息(RI)抑制MBO,并且将正常对象传送给下混合处理部分226。
同时,信息产生单元228使用对象信息和混合信息MXI来产生下混合处理信息DPI。在这种情况下,混合信息MXI是基于对象位置信息、对象增益信息、重放配置信息等等而产生的信息。对象位置信息和对象增益信息中的每个是用于控制包括在下混合中的对象的信息。在这种情况下,对象可以概念上地包括EAO以及前述的正常对象。
尤其是,对象位置信息是由用户输入的以控制每个对象的位置或者移动的信息。并且,对象增益信息是由用户输入的以控制每个对象的增益的信息。因此,对象增益信息可以包括有关EAO的增益控制信息以及有关正常对象的增益控制信息。
同时,对象位置信息和对象增益信息可以对应于从预置模式中选择出来的一个。在这种情况下,预置模式具有按照时间的对象特定增益和位置的预定值。并且,预置模式信息可以具有从另一设备接收的值,或者可以具有存储在设备中的值。同时,从至少一个或多个预置模式(例如,不使用预置模式、预置模式1、预置模式2等等)中选择一个可以由用户输入来确定。重放配置信息是包括扬声器数目、扬声器位置、环境信息(扬声器的虚拟位置)等等的信息。重放配置信息由用户输入、被预先存储或者可以被从另一设备接收。
同时,如在先前的描述中提及的,混合信息MXI可以进一步包括模式信息,其是用于选择普通模式、卡拉OK模式和独唱模式中的一个的信息。
在解码模式的情况下,信息产生单元228能够仅产生下混合处理信息DPI。但是,在代码转换模式(即,使用多信道码的模式)的情况下,信息产生单元228使用对象信息和混合信息MXI来产生第二空间信息。类似于第一空间信息,第二空间信息包括信道电平差、信道相关信息等等。第一空间信息不能反映控制对象的位置和电平的功能。但是,第二空间信息基于混合信息MXI而产生,并且使得用户能够控制每个对象的位置和电平。
如果输出信道是多信道并且输入信道是单声信道,信息产生单元228可以不产生下混合处理信息DPI。在这种情况下,输入信号绕过下混合处理单元226,并且然后传送给多信道解码器230。
同时,下混合处理单元226通过使用下混合处理信息DPI对正常对象执行处理来产生处理的下混合。在这种情况下,执行该处理以调整对象的增益和移动而不改变输入信道的数目和输出信道的数目。在解码模式(输出模式是单声信道、立体声信道或者3D立体声信道(双耳模式))的情况下,下混合处理单元226输出时域处理的下混合作为最终输出信号(在图中未示出)。即,下混合处理单元226不将处理的下混合传送给多信道解码器230。相反地,在代码转换模式(输出模式是多信道)的情况下,下混合处理单元226将处理的下混合传送给多信道解码器230。同时,接收的第一空间信息没有被传送给多信道解码器230。
如果是这样的话,多信道解码器230使用由信息产生单元228产生的第二空间信息将处理的下混合上混合为多信道信号。
<用于卡拉OK模式的应用场景>
在卡拉OK模式或者独唱模式下,对象被划分为正常对象和EAO。主人声信号(1ead vocal signal)是常规对象的好例子,并且卡拉OK乐曲可以变为EAO。但是,没有对EAO和常规对象设置严格的限制。借助TTN模块的残留概念,多至6个对象的对象可以被TTN模块分类为高质量。
在卡拉OK模式或者独唱模式下,用于EAO和常规对象中的每个的残留信号对于单独的质量是必需的。为此,总的比特率数目与对象的数目成比例地增大。为了减小对象的数目,对象需要被分组为EAO和常规对象。分组为EAO和正常对象的对象不能以比特效率为代价而被单独地控制。
但是,在某些应用场景下,所希望的是具有高质量卡拉OK的功能,并且同时,具有以适度的电平控制每个伴随的对象的功能。假设交互式音乐重新混音(interactive music remix)情形的典型实例,其中存在5个立体声对象(即,主人声、主吉他、基础吉他、鼓和键盘)。在这种情况下,主人声形成常规对象,并且其余4个立体声对象的混合配置EAO。用户能够欣赏制作人混合版本(producer mix version)(传输的下混合)、卡拉OK版本和独唱版本(无伴奏合唱版本(a cappellaversion))。但是,在这种情况下,对于用户优选的“重低音(megabass)”模式不能增强基础吉他或者鼓。
在普通模式下,不管小的信息尺寸(例如,3kbps的比特速率/对象),有可能使用表现参数在普通程度上控制下混合的每个对象。但是,没有实现分离的高质量。同时,有可能在卡拉OK或者独唱模式下几乎完全地分离正常对象。但是,可控制的对象的数目减少。因此,应用能够迫使普通模式或者卡拉OK/独唱模式被排他地选择。因此,为了满足应用进行的场景请求,能够提出普通模式和卡拉OK/独唱模式的优点的组合。
<在TTN模块中的能量模式>
首先,在卡拉OK/独唱模式中,通过预测模式和能量模式获得TTN矩阵。在预测模式中需要残留信号。相反地,在没有残留信号的情况下能量模式是可操作的。
除去卡拉OK/独唱模式或者EAO和常规信号的概念,能够认为在基于能量的独唱/残留模式和普通模式之间没有大的差别。在两个处理模式中,对象参数彼此相等,但是处理后的输出彼此不同。在普通模式中,表现的信号被最终输出。但是,在基于能量的卡拉OK/独唱模式中,单独的对象被输出,并且进一步需要表现后处理单元(renderingpost processing unit)。因此,假设这两种方法彼此不区别输出质量,在解码对象流中存在两种不同的描述。这在解释和实施方面导致混淆。
因此,本发明提出阐明在普通模式和基于能量的卡拉OK/独唱模式之间的两重性(duplicity),并且允许在其间可能的集成。
<有关残留信号的信息>
残留信号的配置由ResidualConfig()定义。并且,残留信号在ResidualData()上携带。但是,没有提供用于表示哪种对象具有应用于其本身的残留信号的信息。为了避免这种不清楚以及残留和对象之间不匹配的风险,请求对象比特流携带有关残留信号的附加信息。这个信息可以被插入在ResidualConfig()中。因此,提出提供有关残留信号的信息,尤其是,提供用于表示哪个对象信号将具有应用于其本身的残留信号的信息。
按照本发明的音频信号处理装置是供各种产品可用的。这些产品可以主要地分组为独立(stand alone)组和便携组。TV、监视器、机顶盒等等可以包括在独立组中。并且,PMP、移动电话、导航系统等等可以包括在便携组中。
图20是在其中实现按照本发明一个实施例的音频信号处理装置的产品的简略方框图。
参考图20,有线/无线通信单元310经由有线/无线通信系统接收比特流。尤其是,有线/无线通信单元310可以包括有线通信单元310A、红外单元310B、蓝牙单元310C和无线LAN单元310D中的至少一个。
用户验证单元320接收用户信息的输入,并然后执行用户验证。用户验证单元320可以包括指纹识别单元320A、虹膜识别单元320B、面部识别单元320C和语音识别单元320D中的至少一个。指纹识别单元320A、虹膜识别单元320B、面部识别单元320C和语音识别单元320D接收指纹信息、虹膜信息、面部轮廓信息和语音信息,并然后分别将它们转换为用户信息。确定用户信息中的每一个是否匹配预先注册的用户数据以执行用户验证。
输入单元330是使得用户输入各种命令的输入设备,并且可以包括小键盘单元330A、触摸板单元330B和远程控制器单元330C中的至少一个,本发明不受此限制。
信号编码单元340对音频信号和/或视频信号(其是经由有线/无线通信单元310接收的)执行编码或者解码,并然后在时域中输出音频信号。该信号编码单元340包括音频信号处理装置345。如在先前的描述中提及的,该音频信号处理装置345对应于本发明以上描述的实施例(即,编码器侧100和/或解码器侧200)。因此,该音频信号处理装置345和包括其的信号编码单元可以由至少一个或多个处理器实现。
控制单元350从输入设备接收输入信号,并且控制信号解码单元340和输出单元360的所有处理。尤其是,该输出单元360是配置为输出由信号解码单元340等等产生的输出信号的元件,并且可以包括扬声器单元360A和显示器单元360B。如果输出信号是音频信号,其被输出到扬声器。如果输出信号是视频信号,其被经由显示器输出。
图21是用于产品关系的示意图,该产品中的每一个被提供有按照本发明一个实施例的音频信号处理装置。特别地,图21示出在终端和服务器之间的关系,该终端和服务器对应于在图20中示出的产品。参考图21的(A),可以看到,第一终端300.1和第二终端300.2可以经由有线/无线通信单元双向地互相交换数据或者比特流。参考图21的(B),可以看到,服务器500和第一终端300.1可以互相执行有线/无线通信。
按照本发明的音频信号处理方法可以被实现为计算机可执行程序,并且可以被存储在计算机可读的记录介质中。并且,具有本发明的数据结构的多媒体数据可以被存储在计算机可读的记录介质中。计算机可读的记录介质包括各种记录设备,由计算机系统可读的数据被存储在该记录设备中。计算机可读的介质例如包括ROM、RAM、CD-ROM、磁带、软盘、光数据存储设备等等,并且还包括载波型实现(例如,经由因特网的传输)。并且,由以上提及的编码方法产生的比特流可以被存储在计算机可读的记录介质中,或者可以经由有线/无线通信网络传送。
工业实用性
因此,本发明适用于编码和解码音频信号。
虽然已经在此处参考其优选实施例描述和举例说明了本发明,但对于本领域技术人员来说显而易见的是,不脱离本发明的精神和范围,可以在其中进行各种修改和变化。因此,本发明意欲覆盖归入所附权利要求和其等效物的范围之内的本发明的修改和变化。

Claims (14)

1.一种用于处理音频信号的方法,包括:
接收包含至少一个正常对象信号的下混合信号,以及比特流,所述比特流包括当产生下混合信号时所确定的对象信息;
从所述比特流的扩展部分中提取扩展类型标识符,所述扩展类型标识符表示下混合信号是否进一步包括多信道对象信号;
当扩展类型标识符表示下混合信号进一步包括多信道对象信号时,从所述比特流中提取第一空间信息;和
传送第一空间信息和第二空间信息中的至少一个;
其中当多信道源信号被下混合为多信道对象信号时,确定所述第一空间信息,
其中使用对象信息和混合信息产生第二信息。
2.根据权利要求1的方法,其中按照表示多信道对象信号是否将被抑制的模式信息来传送第一空间信息和第二空间信息中的至少一个。
3.根据权利要求2的方法,其中当所述模式信息表示多信道对象信号将不被抑制的时候,传送所述第一空间信息,
当所述模式信息表示多信道对象信号将被抑制的时候,传送所述第二空间信息。
4.根据权利要求1的方法,进一步包括:
当传送所述第一空间信息的时候,使用所述第一空间信息和所述多信道对象信号产生多信道信号。
5.根据权利要求1的方法,进一步包括:
当产生所述第二空间信息的时候,使用所述第二空间信息和所述正常对象信号产生输出信号。
6.根据权利要求1的方法,进一步包括:
当传送所述第二空间信息的时候,使用所述对象信息和所述混合信息产生下混合处理信息;和
通过使用所述下混合处理信息处理所述正常对象信号来产生处理后的下混合信号。
7.根据权利要求1的方法,其中所述第一空间信息包括空间配置信息和空间帧数据。
8.一种用于处理音频信号的装置,包括:
接收单元,用于接收包含至少一个正常对象信号的下混合信号,以及比特流,所述比特流包括当产生下混合信号时所确定的对象信息;
扩展类型标识符提取部分,用于从比特流的扩展部分中提取扩展类型标识符,所述扩展类型标识符表示下混合信号是否进一步包括多信道对象信号;
第一空间信息提取部分,用于当所述扩展类型标识符表示下混合信号进一步包括多信道对象信号的时候,从所述比特流中提取第一空间信息;和
多信道对象代码转换器,用于传送第一空间信息和第二空间信息中的至少一个;
其中当多信道源信号被下混合为多信道对象信号的时候,确定所述第一空间信息,
其中使用对象信息和混合信息产生第二信息。
9.根据权利要求8的装置,其中按照表示多信道对象信号是否将被抑制的模式信息来传送所述第一空间信息和所述第二空间信息中的至少一个。
10.根据权利要求9的装置,其中,当所述模式信息表示多信道对象信号将不被抑制的时候,传送所述第一空间信息,
当所述模式信息表示多信道对象信号将被抑制的时候,传送所述第二空间信息。
11.根据权利要求8的装置,进一步包括:
多信道解码器,用于当传送所述第一空间信息的时候,使用所述第一空间信息和所述多信道对象信号产生多信道信号。
12.根据权利要求8的装置,进一步包括:
多信道解码器,用于当产生所述第二空间信息的时候,使用所述第二空间信息和所述正常对象信号产生输出信号。
13.根据权利要求8的装置,其中所述多信道对象代码转换器包括:
信息产生部分,用于当传送所述第二空间信息的时候,使用所述对象信息和所述混合信息产生下混合处理信息;和
下混合处理部分,用于通过使用所述下混合处理信息处理所述正常对象信号来产生处理后的下混合信号。
14.根据权利要求8的装置,其中所述第一空间信息包括空间配置信息和空间帧数据。
CN2010800050570A 2009-01-20 2010-01-20 用于处理音频信号的装置及其方法 Active CN102292768B (zh)

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
US14574909P 2009-01-20 2009-01-20
US14574409P 2009-01-20 2009-01-20
US61/145,744 2009-01-20
US61/145,749 2009-01-20
US14804809P 2009-01-28 2009-01-28
US61/148,048 2009-01-28
US14838709P 2009-01-29 2009-01-29
US61/148,387 2009-01-29
US14934509P 2009-02-03 2009-02-03
US61/149,345 2009-02-03
KR10-2010-0004817 2010-01-19
KR1020100004817A KR101187075B1 (ko) 2009-01-20 2010-01-19 오디오 신호 처리 방법 및 장치
PCT/KR2010/000362 WO2010085083A2 (en) 2009-01-20 2010-01-20 An apparatus for processing an audio signal and method thereof

Publications (2)

Publication Number Publication Date
CN102292768A CN102292768A (zh) 2011-12-21
CN102292768B true CN102292768B (zh) 2013-03-27

Family

ID=42644681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800050570A Active CN102292768B (zh) 2009-01-20 2010-01-20 用于处理音频信号的装置及其方法

Country Status (2)

Country Link
KR (1) KR101187075B1 (zh)
CN (1) CN102292768B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192188B (zh) * 2018-09-05 2024-04-23 厦门巨嗨科技有限公司 K歌系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005122639A1 (ja) * 2004-06-14 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音響信号符号化装置および音響信号復号装置
CN101185118A (zh) * 2005-05-26 2008-05-21 Lg电子株式会社 解码音频信号的方法和装置
WO2008069593A1 (en) * 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2008114982A1 (en) * 2007-03-16 2008-09-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005122639A1 (ja) * 2004-06-14 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音響信号符号化装置および音響信号復号装置
CN101185118A (zh) * 2005-05-26 2008-05-21 Lg电子株式会社 解码音频信号的方法和装置
WO2008069593A1 (en) * 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2008114982A1 (en) * 2007-03-16 2008-09-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal

Also Published As

Publication number Publication date
KR20100085861A (ko) 2010-07-29
CN102292768A (zh) 2011-12-21
KR101187075B1 (ko) 2012-09-27

Similar Documents

Publication Publication Date Title
EP2209328B1 (en) An apparatus for processing an audio signal and method thereof
EP2461321B1 (en) Coding device and decoding device
CN102768836B (zh) 用于编码和解码具有各种声道的多对象音频信号的设备和方法
CN101868821B (zh) 用于处理信号的方法和装置
CN101675472B (zh) 用于处理音频信号的方法和装置
US7912566B2 (en) System and method for transmitting/receiving object-based audio
CN101542595B (zh) 用于编码和解码基于对象的音频信号的方法和装置
CN101926094B (zh) 用于处理音频信号的方法和设备
US8538753B2 (en) Generating representations of group interactions
CN101911181A (zh) 用于处理音频信号的方法和装置
CN100579297C (zh) 音频信号处理
CN102239520A (zh) 用于处理音频信号的方法和装置
CN102292768B (zh) 用于处理音频信号的装置及其方法
WO2007027057A1 (en) A method for decoding an audio signal
CN116956209A (zh) 用于多模态数据的文本提取方法及装置、制冷设备、介质
CN101361114A (zh) 用于处理媒体信号的装置及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant