CN102007533B - 用于处理音频信号的方法和装置 - Google Patents
用于处理音频信号的方法和装置 Download PDFInfo
- Publication number
- CN102007533B CN102007533B CN200980113620.3A CN200980113620A CN102007533B CN 102007533 B CN102007533 B CN 102007533B CN 200980113620 A CN200980113620 A CN 200980113620A CN 102007533 B CN102007533 B CN 102007533B
- Authority
- CN
- China
- Prior art keywords
- information
- preset
- preset information
- prepattern
- receiving element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
公开了一种用于处理音频信号的装置及其方法。本发明包括接收包括至少一个对象的下混合信号、基于对象的属性的对象信息、预置信息以表现下混合信号和指示预置信息的属性的预置属性信息;如果预置信息基于预置属性信息包括在配置信息区的扩展区中,则通过将预置信息应用到下混合信号的所有数据区来表现下混合信号;以及如果预置信息基于预置属性信息包括在数据区的扩展区中,则通过将预置信息应用到下混合信号的一个相应的数据区来表现下混合信号。因此,按照声源的特征通过分别地选择按数据区单元应用预置信息,或者选择将相同的预置信息应用到下混合信号的所有数据区,能够有效地重建音频信号。
Description
技术领域
本发明涉及用于处理音频信号的装置及其方法。尤其是,其适合于处理经由数字媒体、广播信号等接收的音频信号。
背景技术
通常,在通过将包括至少一个对象的音频信号下混合为单声道或者立体声信号用于产生下混合信号的过程中,从对象提取参数。在解码下混合信号中使用这些参数。并且,可以通过用户所做的选择以及参数来控制对象的位置和增益。
发明内容
技术问题
将通过用户的选择控制包括在下混合信号中的对象。但是,在用户控制对象的情况下,对于用户来说直接控制所有对象信号是不方便的。并且,与专门控制对象的情形相比较,重现音频信号的最佳状态可能是更加困难的。
技术方案
因此,本发明涉及一种用于处理音频信号的装置及其方法,其基本上消除了一个或多个由于相关技术的限制和缺点引起的问题。
本发明的一个目的是提供一种用于处理音频信号的装置及其方法,通过该装置及其方法,可以使用预置信息和预置元数据控制对象的水平和位置。
本发明的另一个目的是提供一种用于处理音频信号的装置及其方法,通过该装置及其方法,可以按照声源的特征通过将预置信息和预置元数据应用到下混合信号的所有数据区,或者下混合信号的一个数据区来控制包括在下混合信号中的对象。
本发明的另一个目的是提供一种用于处理音频信号的装置及其方法,通过该装置及其方法,基于用户的选择来选择显示在显示单元上的多个预置元数据中的一个,并且通过该装置及其方法,可以使用对应于选定的元数据的预置信息来控制对象的水平和位置。
本发明的再一个目的是提供一种用于处理音频信号的装置及其方法,通过该装置及其方法,可以以在显示单元上显示通过将预置信息应用到其而调整的对象和选定的预置元数据的方式从用户接收选择信号。
有益效果
因此,本发明提供以下的效果或者优点。
首先,使用多个预置元数据无需用户对每个对象的设置选择多个预置信息中的一个,由此,可以很容易地调整对象的输出通道的水平。
其次,按照声源的特征,通过分别地选择由数据区单元应用预置信息,或者选择将相同的预置信息应用到下混合信号的所有数据区,能够有效地重建音频信号。
第三,通过以检查经由显示单元应用预置信息和选定的预置元数据而调整的对象的方式选择能够更加适当的预置信息,能够调整对象的输出通道的水平或者位置。
附图说明
伴随的附图被包括以提供对本发明进一步的理解,并且被结合进和构成本说明书的一部分,其图示本发明的实施例,并且与说明书一起用于解释本发明的原理。
在附图中:
图1是按照本发明的一个实施例应用到包括在下混合信号中的对象的预置模式的概念图;
图2A和图2B是按照本发明的一个实施例,用于通过基于预置属性信息应用预置信息来调整包括在下混合信号中的对象的概念图;
图3是按照本发明的一个实施例的音频信号处理装置的框图;
图4A和图4B是按照本发明的一个实施例,用于将预置信息应用到表现单元的方法的框图;
图5是按照本发明另一个实施例的动态的预置信息接收单元和静态的预置信息接收单元的示意性框图;
图6是按照本发明另一个实施例的音频信号处理装置的框图;
图7至11是按照本发明另一个实施例与在音频信号处理方法中的预置信息有关的各种语法;
图12是按照本发明的再一个实施例的音频信号处理装置的方框图;
图13是按照本发明再一个实施例,用于音频信号处理装置的显示单元的例子的框图;
图14是按照本发明的再一个实施例,用于显示应用预置信息的对象的至少一个图形元素的示图;
图15是按照本发明的再一个实施例,包括动态的预置模式接收单元和静态的预置模式接收单元的产品的示意图;
图16A和图16B分别地是按照本发明再一个实施例,用于包括动态的预置模式接收单元和静态的预置模式接收单元的产品关系的示意图;和
图17是按照本发明的再一个实施例,包括动态的预置模式接收单元和静态的预置模式接收单元的广播信号解码装置的示意性框图。
具体实施方式
本发明的附加特点和优点将在随后的描述中阐述,并且从该描述中在某种程度上将是清晰可见的,或者可以通过实践本发明获悉。通过尤其在著述的说明书及其权利要求以及所附的附图中指出的结构,可以实现和获得本发明的目的和其他的优点。
为了实现这些和其他的优点,以及按照本发明的目的,如在此处实施和广泛地描述的,按照本发明处理音频信号的方法,包括:接收包括至少一个对象的下混合信号、基于对象的属性的对象信息、预置信息以表现下混合信号和指示预置信息的属性的预置属性信息;如果基于预置属性信息预置信息包括在配置信息区的扩展区中,则通过将预置信息应用到下混合信号的所有数据区来表现下混合信号;以及如果基于预置属性信息预置信息包括在数据区的扩展区中,则通过将预置信息应用到下混合信号的一个相应的数据区来表现下混合信号。优选地,预置属性信息指示预置信息是否包括在数据区的扩展区中。
优选地,预置属性信息指示预置信息是动态的还是静态的。
优选地,动态指示预置信息存在于数据区的扩展区中,并且静态指示预置信息存在于配置信息区的扩展区中。更优选地,按照本发明的处理音频信号的方法进一步包括:产生下混合处理信息以控制下混合信号和多通道信息的声相或增益,以通过使用对象信息和预置信息上混合该下混合信号;以及通过使用下混合处理信息修改下混合信号。
为了进一步实现这些和其他的优点,以及按照本发明的目的,如在此处实施和广泛描述的,按照本发明处理音频信号的装置,包括:信号接收单元,接收包括至少一个对象的下混合信号和基于该对象的属性的对象信息;预置属性信息接收单元,接收指示预置信息的属性的预置属性信息以表现下混合信号;静态的预置模式接收单元,如果基于预置属性信息预置信息包括在配置信息区的扩展区中,则接收对应于下混合信号的所有数据区的预置模式;动态的预置模式接收单元,如果基于预置属性信息预置信息包括在数据区的扩展区中,则接收对应于下混合信号的单个数据区的预置模式;以及表现单元,通过将预置信息应用到下混合信号的所有数据区或者单个数据区来表现下混合信号,其中预置模式包括预置信息和对应于预置信息的预置元数据,并且预置元数据指示预置信息的特征。
应该明白,上文的概述和下面的详细说明是示范性和说明性的,并且按所要求的提供对本发明的进一步的解释。
现在将详细参考本发明的优选实施例,在伴随的附图中图示其例子。首先,在本发明中的术语可以按以下引用来解释。并且,在本说明书中没有公开的术语可以按匹配本发明的技术思想的以下含义和概念来解释。因此,在本公开的实施例和附图中实现的结构仅是本发明的一个最优选的实施例,并且不能表示本发明的所有技术思想。因此,应该理解,可能存在各种修改/变化和等同物来替换在提交本申请时的内容。
在本公开中,“信息”是通常包括值、参数、系数、要素等的术语,并且有时其含义可以解释为是不同的,本发明不受限于此。
图1是按照本发明的一个实施例应用到包括在下混合信号中对象的预置模式的概念图。在本公开中,预置以调整对象的一组信息称作预置模式。预置模式可以指示按照音频信号的特征或者收听环境用户可选的各种模式中的一个。并且,能够存在至少一个预置模式。另外,预置模式包括应用以调整对象的预置信息和用于表示预置信息的属性的预置元数据等。预置元数据可以以文本表示。预置元数据不仅指示预置信息的属性(例如,音乐厅模式、卡拉OK模式、新闻模式等),而且包括用于表示预置信息的相关信息,诸如,预置信息的作者、书写日期、具有预置信息应用到其的的对象名称等。同时,预置信息是实质上应用到对象的数据。预置信息对应于预置元数据,并且可以以各种形式之一的表示。特别地,可以以矩阵类型表示预置信息。
参考图1,预置模式1可以是用于提供声音舞台效果的音乐厅模式,声音舞台效果使收听者听到在音乐厅中的音乐信号。预置模式2可以是用于降低在音频信号中语音对象的水平的卡拉OK模式。并且,预置模式n可以是用于提高语音对象的水平的新闻模式。另外,预置模式包括预置元数据和预置信息。如果用户选择预置模式2,则将显示预置元数据2的卡拉OK模式,并且能够通过将与预置元数据2有关的预置信息2应用到对象来调整水平。
在这种情况下,预置信息可以包括单声道预置信息、立体声预置信息和多通道预置信息。按照对象的输出通道确定预置信息。单声道预置信息是如果对象的输出通道是单声道时应用的预置信息。立体声预置信息是如果对象的输出通道是立体声时应用的预置信息。并且,多通道预置信息是如果对象的输出通道是多通道时应用的预置信息。一旦按照配置信息确定对象的输出通道,则使用确定的输出通道确定预置信息的类型。然后能够通过将预置信息应用到对象来调整水平或者声相。
图2A和图2B是按照本发明的一个实施例,用于通过按照预置属性信息应用预置信息来调整包括在下混合信号中的对象的概念图。
首先,本发明的音频信号由编码器编码为下混合信号和对象信息。下混合信号和对象信息被作为一个比特流或者单独的比特流传送给解码器。
参考图2A和图2B,包括在比特流中的对象信息特别地包括配置信息区和多个数据区1至n。配置信息区是位于对象信息的比特流的报头部分的区域,并且包括共同地应用到对象信息的所有数据区的信息。例如,对象信息可以包括包含树形结构等的配置信息、数据区长度信息、对象数目信息等。相反地,数据区是由基于数据区长度信息划分整个音频信号的时间域而产生的单元。对象信息的数据区对应于下混合信号的数据区,并且包括用于上混合下混合信号的相应数据区的对象信息。对象信息包括对象水平信息和对象增益信息等。
在按照本发明一个实施例的音频信号处理方法中,预置属性信息(preset_attribute_information)是首先从比特流的对象信息中读取的。预置属性信息指示预置信息包括在比特流的哪个区中。优选地,预置属性信息指示是否预置信息是否包括在对象信息的配置信息区或者对象信息的数据区中。并且,在表1中示出其细节。
[表1]
参考图2A,如果预置属性信息被设置为0以指示预置信息包括在配置信息区中,则从配置信息区中提取的预置信息通过同样地应用到下混合信号的所有数据区表现。
参考图2B,如果预置属性信息被设置为1以指示预置信息包括在数据区中,则从数据区中提取的预置信息通过应用到下混合信号的一个相应的数据区表现。例如,将从数据区1提取的预置信息应用到下混合信号的数据区1。并且,将从数据区n提取的预置信息应用到下混合信号的数据区n。
此外,预置属性信息指示预置信息是动态的或者静态的。如果预置属性信息被设置为0以指示预置信息包括在配置信息区中,则预置信息可以是静态的。另一方面,如果预置属性信息被设置为1以指示预置信息包括在数据区中,则预置信息可以是动态的。在这种情况下,因为预置信息可以通过应用到一个相应的数据区来表现下混合信号的一个相应的数据区,所以数据区单元被动态地应用。优选地,在动态的情况下,预置信息存在于数据区的扩展区中,并且在静态的情况下,预置信息存在于配置信息区的扩展区中。
因此,按照本发明的一个实施例的音频信号处理方法能够基于预置属性信息按照声源的特征每个数据区使用适当的预置信息,或者对于所有数据区使用相同的预置信息来上混合下混合信号。
图3是按照本发明的一个实施例的音频信号处理装置300的方框图。
参考图3,音频信号处理装置300可以包括预置模式产生单元310、信息接收单元(在图中未示出)、动态的预置模式接收单元320、静态的预置模式信息330和表现单元340。
预置模式产生单元310产生用于调整表现包括在音频信号中的对象的预置模式,并且能够包括预置属性确定单元311、预置元数据产生单元312和预置信息产生单元313。
如在先前的描述中所提及的,预置属性确定单元311确定预置属性信息,预置属性信息指示预置信息是通过包括在配置信息区应用到下混合信号的所有数据区,还是通过包括在数据区中,应用到下混合信号的每个数据区。
随后,预置元数据产生单元312和预置信息产生单元313能够产生一个预置元数据和预置信息,或者多个预置元数据和总计为下混合信号的数据区数目的预置信息。
预置元数据产生单元312能够通过接收表示预置信息的文本输入产生预置元数据。相反地,如果将用于调整对象水平和/或对象位置的增益输入到预置信息产生单元313,则预置信息产生单元313能够产生将应用到对象的预置信息。
可以产生对于每个对象适用的预置信息。可以以各种类型实现预置信息。例如,预置信息可以实现为通道水平差(CLD)参数、矩阵等。
预置信息产生单元313能够进一步产生指示对象的输出通道的数目的输出通道信息。
由预置元数据产生单元312产生的预置元数据,和由预置信息产生单元313产生的预置信息、输出通道信息等可以以包括在一个比特流中的方式传送。优选地,它们可以以包括在比特流(其包括下混合信号)的辅助区中的方式传送。
同时,预置模式产生单元312能够进一步产生指示预置信息和输出通道信息包括在比特流中的预置存在信息。在这种情况下,预置存在信息可以以指示预置信息等包括在比特流的哪个区中的容器类型表示。做为选择,预置存在信息可以以简单地指示预置信息等是否包括在比特流中,而不是指示规定的区的标记类型表示。并且,可以进一步以各种类型实现预置存在信息。
预置模式产生单元312能够产生多个预置模式。每个预置模式包括预置信息、预置元数据和输出通道信息。在这种情况下,预置模式产生单元312能够进一步产生指示预置模式数目的预置数目信息。
因此,预置模式产生单元310能够以比特流的格式产生和输出预置属性信息、预置元数据和预置信息。
如图2A或者图2B所示,将比特流输入到信息接收单元(在图中未示出)。从输入到信息接收单元(在图中未示出)的比特流中获得预置属性信息。然后,确定预置信息包括在被传送的比特流的哪个区中。基于从预置属性确定单元311输出的预置属性信息,如果预置信息包括在数据区(在表1中示出的“preset_attribute_flag=1”)中,则动态的预置模式接收单元320被激活。
并且,动态的预置模式接收单元320可以包括接收对应于相应的数据区的预置元数据的动态的预置元数据接收单元321,和接收每个数据区预置信息的动态的预置信息接收单元322。动态的预置元数据接收单元321接收选定的元数据,然后输出接收到的元数据。动态的预置信息接收单元322接收预置信息。并且,稍后将参考图4A至5详细说明相关的细节。
如果基于预置属性信息,预置信息包括在配置信息区(在表1中示出的“preset_attribute_flag=0”)中,则静态的预置模式接收单元330被激活。
并且,静态的预置模式接收单元330可以包括接收对应于所有数据区的预置元数据的静态的预置元数据接收单元331,和接收预置信息的静态的预置信息接收单元332。
虽然静态的预置模式接收单元330的静态的预置元数据接收单元331和静态的预置信息接收单元332与动态的预置模式接收单元320的动态的预置元数据接收单元321和动态的预置信息接收单元322具有相同的结构和功能,但它们在对应于接收到的和输出的预置信息和元数据的下混合信号的范围内彼此不同。
表现单元340接收根据下混合音频信号中产生的下混合信号,所述音频信号包括多个对象和从动态的预置信息接收单元322输出的预置信息或者从静态的预置信息接收单元332输出的预置信息的输入。在这种情况下,预置信息用于通过应用到包括在下混合信号中的对象调整对象的水平或者位置。
在音频信号处理装置300包括显示单元(在图中未示出)的情况下,从动态的预置元数据接收单元321输出的选定的预置元数据,或者从静态的预置元数据接收单元331输出的选定的预置元数据可以显示在显示单元的屏幕上。
图4A和图4B是按照本发明的一个实施例,用于将预置信息应用到表现单元的方法的框图。
图4A示出在表现单元440中应用从动态的预置模式接收单元320输出的预置信息的方法。在图4A中示出的动态的预置模式接收单元320等同于在前面的图3中示出的动态的预置模式接收单元320,并且包括动态的预置元数据接收单元321和动态的预置信息接收单元322。
动态的预置模式接收单元320接收和输出每个数据区的预置元数据和预置信息。然后将预置信息输入到表现单元440。
表现单元440通过接收下混合信号以及预置信息来每个数据区执行表现。表现单元440包括数据区1的表现单元、数据区2的表现单元、数据区n的表现单元。在这种情况下,表现单元440的数据区44X的每个表现单元以接收对应于每个数据区的预置信息的输入,然后将输入应用到下混合信号的方式执行表现。
例如,将作为体育场模式的预置信息1应用到数据区1。将作为卡拉OK模式的预置信息3应用到数据区2。并且,将作为新闻模式的预置信息_2应用到数据区6。在这种情况下,在预置信息n中“n”指示数据区模式的索引。同时,应该理解,也可以每个数据区输出预置元数据。
图4B示出在表现单元440中应用从静态的预置模式接收单元330输出的预置信息的方法。在图4B中示出的静态的预置模式接收单元330等同于前面的图3中示出的静态的预置模式接收单元330。
静态的预置模式接收单元330接收和输出对应于下混合信号的所有数据区的预置元数据和预置信息。然后将预置信息输入到表现单元440。
在图4B中示出的表现单元440包括类似在前面的图4A中示出的表现单元的总计为数据区数目的数据区44X的多个表现单元。在从静态的预置模式接收单元330接收预置信息的情况下,表现单元440以数据区44X的所有表现单元同样地将接收到的预置信息应用到下混合信号的方式执行表现。
例如,如果从静态的预置信息接收单元332输出的预置信息是指示新闻模式的预置信息2,则新闻模式可应用于包括第1至第n个数据区的所有数据区。
图5是本发明的音频信号处理装置300的包括在动态的预置模式接收单元320中的动态的预置信息接收单元322和包括在静态的预置模式接收单元330中的静态的预置信息接收单元332的示意性框图。
参考图5,动态的/静态的预置信息接收单元322/332包括输出通道信息接收单元322a/332a和预置信息确定单元322b/332b。
输出通道信息接收单元322a/332a接收指示输出通道数目的输出通道信息,并且然后输出接收到的输出通道信息,根据所述输出通道信息,将重现包括在下混合信号中的对象。在这种情况下,输出通道信息可以包括单声道通道、立体声通道或者多通道(例如,5.1通道),本发明不受限于此。
预置信息确定单元322b/332b基于从输出通道信息接收单元322a/332a输入的输出通道信息接收相应的预置信息,然后输出接收到的预置信息。在这种情况下,预置信息可以包括单声道预置信息、立体声预置信息或者多通道预置信息中的一个。
在预置信息具有矩阵类型的情况下,可以基于对象的数目和输出通道的数目来确定预置信息的维度。并且,预置矩阵可以具有“(对象数目)*(输出通道数目)”的格式。例如,如果包括在下混合信号中对象的数目是“n”,并且来自输出通道信息接收单元322a/332a的输出通道是5.1通道,即,六个通道,则预置信息确定单元322b/332b能够输出实现为“n*6”类型的多通道预置信息。在这种情况下,矩阵的元素是指示第a个对象包括在第i个通道中的范围的增益值。
图6是按照本发明的另一个实施例的音频信号处理装置600的框图。
参考图6,音频信号处理装置600主要地包括下混合单元610、对象信息产生单元620、预置模式产生单元630、下混合信号处理单元640、信息处理单元650和多通道解码单元660。
将多个对象输入到下混合单元610以产生单声道下混合信号或者立体声下混合信号。并且,将多个对象输入到对象信息产生单元620以产生对象信息。对象信息可以包括指示对象水平的对象水平信息、对象增益信息,以及指示对象间相关性存在或不存在的对象相关性信息,所述对象增益信息包括在下混信号中包括的对象的增益值和在立体声下混信号的情况下在下混信号中包括的对象的范围。
随后,将下混合信号和对象信息输入到预置模式产生单元630以产生预置模式,所述预置模式包括指示预置信息包括在比特流的数据区还是配置信息区中的预置属性信息、用于调整对象水平的预置信息和用于表示预置信息的预置元数据。用于产生预置属性信息、预置信息和预置元数据的过程等同于前面参考图1至5解释的音频信号处理装置和方法的描述,并且为了清楚将省略其细节。
预置模式产生单元630能够进一步产生指示预置信息是否存在于比特流中的预置存在信息、指示预置信息的数目的预置数目信息和指示预置元数据长度的预置元数据长度信息。
由对象信息产生单元620产生的对象信息,和由预置模式产生单元630产生的预置属性信息、预置信息、预置元数据、预置存在信息、预置数目信息和预置元数据长度信息可以以包括在SAOC比特流中的方式传送,或者也可以在包括下混合信号的一个比特流中传送。在这种情况下,可以将其中包括下混合信号和预置相关信息的比特流输入到解码装置的信号接收单元(在图中未示出)。
信息处理单元650包括对象信息处理单元651、动态的预置模式接收单元652和静态的预置模式接收单元653,并且接收SAOC比特流。如在参考图2至5的先前的描述中所提及的,基于包括在SAOC比特流中的预置属性信息来确定将SAOC比特流输入到动态的预置模式接收单元652还是静态的预置模式接收单元653。
动态的预置模式接收单元652或者静态的预置模式接收单元653经由SAOC比特流接收预置属性信息、预置存在信息、预置数目信息、预置元数据、输出通道信息和预置信息(例如,预置矩阵),并且使用按照用于参考图1至5描述的音频信号处理方法和装置的各种实施例的方法。
动态的预置模式接收单元652或者静态的预置模式接收单元653输出预置元数据和预置信息。
对象信息处理单元651接收输出的预置元数据和预置信息,并且然后使用接收到的预置元数据和预置信息与包括在SAOC比特流中的对象信息一起,产生用于预处理下混合信号的下混合处理信息,和用于表现下混合信号的多通道信息。在这种情况下,从动态的预置模式接收单元652输出的预置信息和预置元数据对应于下混合信号的一个数据区,而从静态的预置模式接收单元653输出的预置信息和预置元数据对应于下混合信号的所有数据区。
随后,将下混合处理信息输入到下混合信号处理单元640以通过改变其中包括在下混合信号中包括的对象的通道来执行声相。预处理的下混合信号通过与从信息处理单元650输出的多通道信息一起输入到多通道解码单元660来被上混合,借此产生多通道音频信号。
因此,在本发明的音频信号处理装置中,当使用对象信息将包括多个对象的下混合信号解码为多通道信号时,通过进一步使用先前建立的预置信息和预置元数据,调整对象的水平是便利的。另外,以基于预置属性信息将应用到对象的预置信息分别地应用到每个数据区,或者等同地应用到所有数据区的方式能够按照声源的特征适当地增强舞台音响效果。
图7至11是按照本发明另一个实施例在音频信号处理方法中与预置信息有关的各种语法。
参考图7,与预置信息有关的信息可以存在于比特流的配置信息区(SAOCSpecificConfig())中。
首先,能够从比特流的配置信息区预置数目信息(bsNumPresets)。并且,还能够基于预置数目信息获得指示每个预置信息(第i个预置信息)应用了预置信息的对象的输出通道的输出通道信息(bsPresetLevel[i])。在表2中表示输出通道信息的含义。
[表2]
bsPresetLevel[i] | 含义 |
0 | 仅增益 |
1 | 立体声声相 |
2 | 多通道声相 |
3 | 保留的 |
随后,能够获得指示是否预置信息包括在配置信息区还是数据区中的预置属性信息(bsPresetDynamic[i])。在预置属性信息(bsPresetDynamic[i])被设置为0的情况下,如图7所示,指示静态的预置模式。并且,用于调整下混合信号的对象水平或者声相的预置信息(getPreset())对应于下混合信号的所有数据区。在这种情况下,预置元数据(PresetMetaData(numPresets))可以包括在配置信息区中以同样对应于预置信息。在表3中表示预置属性信息的含义。
[表3]
bsPresetDynamic[i] | 含义 |
0 | 非时变的(静态的) |
1 | 时变的(动态的) |
图8示出在图7中示出的预置属性信息(bsPresetDynamic[i])包括在数据区中的情况下用于数据区信息的语法。
参考图8,如果在图7示出的预置属性信息(bsPresetDynamic[i])被设置为1,其偏离“if(!bsPresetDynamic[i])”。因此,未从配置信息区中获得预置信息。此后,如图8所示,由于在数据区中满足(SAOCFrame()(if(bsPresetDynamic[i])的条件,能够获得预置信息(getPreset())。与前面在图7示出的预置信息同样地应用到所有数据区不同,由于从数据区中获得预置信息,后者的预置信息可以仅应用到相应的数据区。
同时,在图7和图8中,虽然预置信息包括在配置信息区(SAOCSpecificConfig())和数据区(SAOCFrame())中,其也可以包括在配置信息区扩展区(SAOCExtensionConfig())和数据区扩展区(SAOCEXtensionFrame())中。
在这种情况下,包括在配置信息区的扩展区和数据区的扩展区中的预置信息等同于前面参考图7和图8描述的预置信息。另外,配置信息区的扩展区和数据区的扩展区还可以进一步包括对应于预置信息的预置元数据、输出通道信息、预置存在信息等以及预置信息。
图9示出按照本发明另一个实施例的指示预置信息的语法。
参考图9,预置信息可以通过使用EcData产生。相反地,预置信息能够使用传送的方法来使用增益值本身代替使用EcData。并且,可以使用通道水平差(CLD)表或者另一个单独的表来量化该预置信息。
图10示出按照本发明另一个实施例的指示预置元数据的语法。
参考图10,预置元数据首先获得指示对应于预置信息的元数据的长度的预置元数据长度信息(bsNumCharMetaData[prst])。此后,能够基于预置元数据长度信息获得对应于每个预置信息的预置元数据(bsMetaData[prst])。
因此,通过基于指示元数据长度的预置长度信息表示以文本类型表示代表预置信息的预置元数据,按照本发明的音频信号处理方法和装置可以减少不必要的编码。
图11示出了按照本发明再一个实施例的包括预置信息的数据区的语法。
参考图11,基于对象的数目(numObjects),预置信息能够携带按对象映射到输出通道(numRenderingChannel[i])的信息。如图11所示,预置信息可以从比特流的数据区中获得。在预置信息包括在数据区扩展区中的情况下,其可以从数据区扩展区(SAOCExtensionFrame())中获得。在预置信息包括在比特流的配置信息中的情况下,其可以从配置信息区中获得。
图12是按照本发明的再一个实施例的音频信号处理装置1200的框图。
参考图12,音频信号处理装置1200主要地包括预置模式产生单元1210、信息接收单元(在图中未示出)、预置模式输入单元1220、预置模式选择单元1230、动态的预置模式接收单元1240、静态的预置模式接收单元1250、表现单元1260和显示单元1270。
在图12中示出的预置模式产生单元1210、信息接收单元(在图中未示出)、动态的预置模式接收单元1240、静态的预置模式接收单元1250和表现单元1260与在图3示出的预置模式产生单元310、动态的预置模式接收单元320、静态的预置模式接收单元330和表现单元340具有相同的结构和功能,并且在本公开中省略其细节。
参考图12,预置模式输入单元1220在显示单元(1270)上显示从预置元数据产生单元1212接收到的多个预置元数据,并且然后接收用于选择多个预置元数据的一个的选择信号的输入。预置模式选择单元1230通过选择信号选择预置元数据的一个和对应于该预置元数据的预置信息。
在这种情况下,如果从预置属性确定单元1211接收的预置属性信息(preset_attribute_information)指示预置信息包括在数据区中,则由选择单元1230选择的预置元数据和对应于预置元数据的预置信息被分别地输入到动态的模式接收单元1240的预置元数据接收单元1241和预置信息接收单元1242。在这种情况下,显示单元1270、预置模式输入单元1220和预置模式选择单元1230可以将以上操作重复像数据区的数目那么多的次数。
相反地,如果从预置属性确定单元1211接收的预置属性信息(preset_attribute_information)指示预置信息包括在配置信息区中,则由预置模式选择单元1220选定的预置元数据和对应于预置元数据的预置信息被分别地输入到静态的预置模式接收单元1250的预置元数据接收单元1251和预置信息接收单元1252。
此外,将选定的预置元数据输出到显示单元1270以被显示,而将选定的预置信息被输出到表现单元1260。
显示单元1270与显示多个预置元数据的单元相同,使得可以向预置模式输入单元11220输入选择信号。同时,显示单元1270可以与显示多个预置元数据的单元不同。在显示单元1270和预置模式输入单元1220使用相同单元的情况下,能够以不同地配置显示在屏幕上的描述(例如,“选择预置模式”、“预置模式X被选择”等)、视觉对象、字符的方式区别每个操作。
图13是按照本发明再一个实施例的音频信号处理装置1200的显示单元1270的例子的框图。
首先,显示单元12760可以包括选定的预置元数据和指示对象的水平或者位置的至少一个或多个图形元素,所述对象的级别或位置使用对应于预置元数据的预置信息来调整。
参考图13,经由预置模式选择单元1230从在图12示出的显示单元1270上显示的多个预置元数据(例如,体育场模式、室内模式、新闻模式、实况模式等)选择新闻模式的情况下,将对应于新闻模式的预置信息应用到包括在下混合信号中的每个对象。在这种情况下,语音水平将被提高,同时外部对象(吉他、小提琴、鼓、...、大提琴)的水平将被降低。
变换包括在显示单元1270中的图形元素以指示相应的对象的水平或者位置的激活或者改变。例如,如图13示出,指示语音的图形元素的开关被右移,同时指示对象的复位的开关被左移。
图形元素能够以多种方式指示使用预置信息调整的对象的水平或者位置。可以存在指示每个对象的至少一个图形元素。在这种情况下,第一图形元素指示在应用预置信息之前,对象的水平或者位置。并且,第二图形元素能够指示通过应用预置信息所调整的对象的水平或者位置。在这种情况下,便于比较在应用预置信息之前和之后对象的水平或者位置。因此,便于用户得知预置信息如何调整每个对象。
图14是按照本发明的再一个实施例用于显示应用了预置信息的对象的至少一个图形元素的示意图。
参考图14,第一图形元素具有条型,并且第二图形元素可以表示为在第一图形元素内的扩展条。在这种情况下,第一图形元素指示在应用预置信息之前对象的水平或者位置。并且,第二图形元素指示通过应用了预置信息所调整的对象的水平或者位置。
如图14所示,在上部中的图形元素指示在应用预置信息之前的对象的水平等同于在应用预置信息之后的对象的水平的情形。在中间部分中的图形元素指示通过应用预置信息所调整的对象的水平大于在应用预置信息之前的对象的水平。并且,在下部的图形元素指示对象的水平通过应用预置信息被降低。
因此,使用指示在应用预置信息之前和之后的对象的水平或者位置的至少一个或多个图形元素,便于用户得知预置信息如何调整每个对象。而且,便于用户认识到预置信息的特点,以在必要时有助于用户去选择适当的预置模式。
图15是按照本发明再一个实施例的包括动态的预置模式接收单元和静态的预置模式接收单元的产品的示意图,并且图16A和图16B分别地是按照本发明再一个实施例的用于包括动态的预置模式接收单元和静态的预置模式接收单元的产品关系的示意图。
参考图15,有线/无线通信单元1510通过有线/无线通信接收比特流。尤其是,有线/无线通信单元1510包括有线通信单元1511、红外通信单元1512、蓝牙单元1513和无线局域网通信单元1514中的至少一个。
用户验证单元1520接收用户信息的输入,然后执行用户验证。用户验证单元1520可以包括指纹识别单元1521、虹膜识别单元1522、面部识别单元1523和语音识别单元1524中的至少一个。在这种情况下,用户验证可以以接收指纹信息、虹膜信息、面部轮廓信息或者话音信息的输入,将输入的信息转换为用户信息,然后确定用户信息是否与所注册的用户数据匹配的方式执行。
输入单元1530是使得用户输入各种类型的命令的输入设备。并且,输入单元1530可以包括小键盘单元1531、触摸板单元1532和远程控制器单元1533中的至少一个,输入单元1530的例子不受限于此。同时,如果用于从元数据接收单元1541输出的用于多个预置信息的预置元数据(稍后将对其进行解释)经由显示单元1562可视,则用户能够经由输入单元1530选择预置元数据,并且将有关选定的预置元数据的信息输入到控制单元1550。
信号解码单元1540包括动态的预置模式接收单元1541和静态的预置模式接收单元1542。动态的预置模式接收单元1541基于预置属性信息接收对应于每个数据区的预置信息和预置元数据。并且,静态的预置模式接收单元1542基于预置属性信息接收对应于所有数据区的预置信息和预置元数据。另外,基于指示元数据长度的预置元数据长度信息接收预置元数据。并且,基于指示是否存在预置信息的预置存在信息、指示预置信息的数目的预置数目信息,和指示输出通道是单声道通道、立体声通道和多通道中的一个的输出通道信息获得预置信息。如果以矩阵表示预置信息,则接收输出通道信息,并且然后基于接收到的输出通道信息接收预置矩阵。
信号解码单元1540通过使用接收到的比特流、预置元数据和预置信息解码音频信号来产生输出信号,并且输出文字类型的预置元数据。
控制单元1550从输入设备接收输入信号,并且控制信号解码单元1540和输出单元1560的所有过程。如在先前的描述中所提及的,如果将有关选定的预置元数据的信息作为输入信号类型来从输入单元1530输入到控制单元1550,并且从有线/无线通信单元1510输入指示预置信息包括在比特流的哪个区中的预置属性信息(preset_attribute_information),动态的预置模式接收单元1541和静态的预置模式接收单元1542基于预置属性信息和输入信号接收对应于选定的预置元数据的预置信息,然后使用接收到的预置信息解码音频信号。
并且,输出单元1560是用于输出由信号解码单元1540产生的输出信号等的元件。输出单元1560可以包括扬声器1561和显示单元1562。如果输出信号是音频信号,则其经由扬声器1561输出。如果输出信号是视频信号,则其经由显示单元1562输出。而且,输出单元1560经由显示单元1562在屏幕上显现从控制单元1550输入的预置元数据。
图16示出在终端之间或者在终端和服务器之间的关系,其每个对应于在图15中示出的产品。
参考图16的(A),可以观察到,可以经由有线/无线通信单元在第一终端1610和第二终端1620之间执行数据或者比特流的双向通信。
经由有线/无线通信单元通信的数据或者比特流可以是图2A和图2B的比特流,和包括如上参考图1至图15所述的预置属性信息、预置信息和预置元数据的数据。
参考图16(B),可以观察到,可以在服务器1630和第一终端1640之间执行有线/无线通信。
图17是广播信号解码装置1700的示意性框图,其中实现了按照本发明一个实施例的包括动态的预置模式接收单元和静态的预置模式接收单元的预置接收单元。
参考图17,信号分离器1720从调谐器1710接收与TV广播相关的多个数据。接收到的数据通过信号分离器1720分离,并且然后由数据解码器1730解码。同时,由信号分离器1720分离的数据可以存储在诸如HDD的存储介质1750中。
将由信号分离器1720分离的数据输入到包括音频解码器1741和视频解码器1742的解码器1740以被解码为音频信号和视频信号。按照本发明的一个实施例音频解码器1741包括动态的预置模式接收单元1741A和静态的预置模式接收单元1741B。动态的预置模式接收单元1741A基于预置属性信息接收对应于每个数据区的预置信息和预置元数据。并且,静态的预置模式接收单元1741B基于预置属性信息接收对应于所有数据区的预置信息和预置元数据。
而且,基于指示元数据长度的预置元数据长度信息接收预置元数据。并且,基于指示是否存在预置信息的预置存在信息、指示预置信息数目的预置数目信息,和指示输出通道是单声道通道、立体声通道和多通道中的一个的输出通道信息获得预置信息。如果预置信息以矩阵表示,则接收输出通道信息,并且然后基于接收到的输出通道信息接收预置矩阵。
信号解码单元1741通过使用接收到的比特流、预置元数据和预置信息解码音频信号产生输出信号,并且输出文本类型的预置元数据。
显示单元1770显现或者显示从视频解码器1742输出的视频信号和从音频解码器1741输出的预置元数据。显示单元1770包括扬声器单元(在图中未示出)。并且,音频信号(其中使用预置信息调整从音频解码器1741输出的对象的水平)经由包括在显示单元1770中的扬声器单元输出。而且,由解码器1740解码的数据可以存储在诸如HDD的存储介质1750中。
同时,信号解码装置1700可以进一步包括能够控制通过从用户输入的信息而接收到的多个数据的应用管理器1760。
应用管理器1760包括用户接口管理器1761和服务管理器1762。用户接口管理器1761控制用于从用户接收信息输入的接口。例如,用户接口管理器1761能够控制显现在显示单元1770上的文本的字体类型、屏幕亮度、菜单配置等。同时,如果广播信号由解码器1740和显示单元1770解码和输出,则服务管理器1762能够使用由用户输入的信息来控制接收到的广播信号。例如,服务管理器1762能够提供广播通道设置、报警功能设置、成人验证功能等。从应用管理器1760输出的数据通过被传送到显示单元1770以及解码器1740是可用的。
虽然已经在此参考本发明的优选实施例描述和阐释了本发明,但对于那些本领域技术人员来说显而易见的是,在不脱离本发明的精神和范围的情况下,可以在其中进行各种修改和变化。因此,本发明意欲覆盖落入所附权利要求及其等同物范围之内的本发明的修改和变化。
工业实用性
本发明可应用到音频信号编码和解码。
Claims (11)
1.一种处理音频信号的方法,包括:
接收包括至少一个对象的下混合信号、基于所述对象的属性的对象信息、预置信息,以表现所述下混合信号和指示所述预置信息的属性的预置属性信息,所述预置信息能够被应用于调整所述对象的水平或者声相;
如果所述预置信息基于所述预置属性信息包括在配置信息区的扩展区中,则通过将所述预置信息应用到所述配置信息区中的信息所被应用到的所有数据区来表现所述下混合信号;以及
如果所述预置信息基于所述预置属性信息包括在数据区的扩展区中,则通过将所述预置信息应用到所述下混合信号的一个相应的数据区来表现所述下混合信号。
2.根据权利要求1所述的方法,其中,所述预置属性信息指示所述预置信息是否包括在所述数据区的扩展区中。
3.根据权利要求1所述的方法,其中,所述预置属性指示所述预置信息是动态的还是静态的。
4.根据权利要求3所述的方法,其中,动态指示所述预置信息存在于所述数据区的扩展区中,并且静态指示所述预置信息存在于所述配置信息区的扩展区中。
5.根据权利要求4所述的方法,进一步包括:
产生下混合处理信息,以控制所述下混合信号和多通道信息的声相或者增益,以通过使用所述对象信息和所述预置信息上混合所述下混合信号;以及
通过使用所述下混合处理信息修改所述下混合信号。
6.一种处理音频信号的装置,包括:
信号接收单元,接收包括至少一个对象的下混合信号和基于所述对象的属性的对象信息;
预置属性信息接收单元,接收指示预置信息的属性的预置属性信息以表现所述下混合信号,所述预置信息能够被应用于调整所述对象的水平或者声相;
静态的预置模式接收单元,如果所述预置信息基于所述预置属性信息包括在配置信息区的扩展区中,则接收对应于所述配置信息区中的信息所被应用到的所有数据区的预置模式;
动态的预置模式接收单元,如果所述预置信息基于所述预置属性信息包括在数据区的扩展区中,则接收对应于所述下混合信号的单个数据区的预置模式;以及
表现单元,通过将所述预置信息应用到所述下混合信号的所有数据区或者单个数据区来表现所述下混合信号,
其中,所述预置模式包括所述预置信息和对应于所述预置信息的预置元数据,并且所述预置元数据指示所述预置信息的特征。
7.根据权利要求6所述的装置,其中,所述静态的预置模式接收单元进一步包括:
接收所述预置信息的静态的预置信息接收单元,以及
接收所述预置元数据的静态的元数据接收单元。
8.根据权利要求6所述的装置,其中,所述动态的预置模式接收单元进一步包括:
接收所述预置信息的静态的预置信息接收单元,以及
接收所述预置元数据的静态的预置元数据接收单元。
9.根据权利要求6所述的装置,其中,所述表现单元包括:表现所述下混合信号的数据区的多个数据区的表现单元。
10.根据权利要求9所述的装置,如果所述预置信息是从所述静态的预置模式接收单元接收的,其中所述预置信息应用到所述数据区的多个表现单元。
11.根据权利要求9所述的装置,如果所述预置信息是从所述动态的预置模式接收单元接收的,其中所述预置信息应用到对应于所述预置信息的数据区的一个表现单元。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US4528708P | 2008-04-16 | 2008-04-16 | |
US61/045,287 | 2008-04-16 | ||
US4856108P | 2008-04-29 | 2008-04-29 | |
US61/048,561 | 2008-04-29 | ||
KR10-2009-0032213 | 2009-04-14 | ||
KR1020090032213A KR101062351B1 (ko) | 2008-04-16 | 2009-04-14 | 오디오 신호 처리 방법 및 이의 장치 |
PCT/KR2009/001980 WO2009128662A2 (en) | 2008-04-16 | 2009-04-16 | A method and an apparatus for processing an audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102007533A CN102007533A (zh) | 2011-04-06 |
CN102007533B true CN102007533B (zh) | 2012-12-12 |
Family
ID=41538088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980113620.3A Active CN102007533B (zh) | 2008-04-16 | 2009-04-16 | 用于处理音频信号的方法和装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5406276B2 (zh) |
CN (1) | CN102007533B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8798776B2 (en) * | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
US9774974B2 (en) | 2014-09-24 | 2017-09-26 | Electronics And Telecommunications Research Institute | Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion |
KR101993348B1 (ko) * | 2014-09-24 | 2019-06-26 | 한국전자통신연구원 | 동적 포맷 변환을 지원하는 오디오 메타데이터 제공 장치 및 오디오 데이터 재생 장치, 상기 장치가 수행하는 방법 그리고 상기 동적 포맷 변환들이 기록된 컴퓨터에서 판독 가능한 기록매체 |
GB2574238A (en) * | 2018-05-31 | 2019-12-04 | Nokia Technologies Oy | Spatial audio parameter merging |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8131134B2 (en) * | 2004-04-14 | 2012-03-06 | Microsoft Corporation | Digital media universal elementary stream |
EP1952113A4 (en) * | 2005-10-05 | 2009-05-27 | Lg Electronics Inc | METHOD AND DEVICE FOR SIGNAL PROCESSING AND CODING AND DECODING METHOD AND DEVICE THEREFOR |
KR100857112B1 (ko) * | 2005-10-05 | 2008-09-05 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치 |
WO2007091845A1 (en) * | 2006-02-07 | 2007-08-16 | Lg Electronics Inc. | Apparatus and method for encoding/decoding signal |
BRPI0708047A2 (pt) * | 2006-02-09 | 2011-05-17 | Lg Eletronics Inc | método para codificar e decodificar sinal de áudio com base em objeto e equipamento para o mesmo |
EP2501128B1 (en) * | 2006-05-19 | 2014-11-12 | Electronics and Telecommunications Research Institute | Object-based 3-dimensional audio service system using preset audio scenes |
WO2008039038A1 (en) * | 2006-09-29 | 2008-04-03 | Electronics And Telecommunications Research Institute | Apparatus and method for coding and decoding multi-object audio signal with various channel |
-
2009
- 2009-04-16 JP JP2011504928A patent/JP5406276B2/ja active Active
- 2009-04-16 CN CN200980113620.3A patent/CN102007533B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011523247A (ja) | 2011-08-04 |
JP5406276B2 (ja) | 2014-02-05 |
CN102007533A (zh) | 2011-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102007532B (zh) | 用于处理音频信号的方法和装置 | |
CN102100009B (zh) | 处理音频信号的方法和装置 | |
CN102099854B (zh) | 处理音频信号的方法和装置 | |
CN102016981B (zh) | 用于处理音频信号的方法和设备 | |
CN101926094B (zh) | 用于处理音频信号的方法和设备 | |
EP2137726B1 (en) | A method and an apparatus for processing an audio signal | |
CN102349108B (zh) | 解码音频信号的方法和装置 | |
CN105723453A (zh) | 用于对降混合矩阵进行解码及编码的方法、用于呈现音频内容的方法、用于降混合矩阵的编码器及解码器、音频编码器及音频解码器 | |
CN102007533B (zh) | 用于处理音频信号的方法和装置 | |
EP2111061B1 (en) | A method and an apparatus for processing an audio signal | |
EP2111062B1 (en) | A method and an apparatus for processing an audio signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |