CN110537220B - 信号处理设备和方法及程序 - Google Patents
信号处理设备和方法及程序 Download PDFInfo
- Publication number
- CN110537220B CN110537220B CN201880025687.0A CN201880025687A CN110537220B CN 110537220 B CN110537220 B CN 110537220B CN 201880025687 A CN201880025687 A CN 201880025687A CN 110537220 B CN110537220 B CN 110537220B
- Authority
- CN
- China
- Prior art keywords
- priority information
- information
- priority
- unit
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012545 processing Methods 0.000 title claims abstract description 66
- 230000005236 sound signal Effects 0.000 claims description 193
- 230000008569 process Effects 0.000 claims description 42
- 238000001514 detection method Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 9
- 238000003672 processing method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 18
- 238000009877 rendering Methods 0.000 description 19
- 238000005538 encapsulation Methods 0.000 description 13
- 238000009499 grossing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004806 packaging method and process Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 102000003712 Complement factor B Human genes 0.000 description 2
- 108090000056 Complement factor B Proteins 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本技术涉及一种能够使解码的计算量低成本地降低的信号处理设备、方法及程序。信号处理设备设置有用于基于表示音频对象的特征的多个元素生成音频对象的优先级信息的优先级信息生成单元。本技术可应用于编码设备和解码设备。
Description
技术领域
本技术涉及一种信号处理设备和方法及程序,以及更具体地,涉及能够低成本地降低解码的计算复杂度的信号处理设备和方法及程序。
背景技术
在相关技术中,例如,国际标准动态图像专家组(MPEG)-H部分3:3D音频标准等被称为可以处理对象音频的编码方案(例如,参见非专利文献1)。
在这样编码方案中,通过将指示每个音频对象的优先级的优先级信息传输至解码设备侧实现了解码时计算复杂度的降低。
例如,在存在许多音频对象的情况下,如果配置为使得仅基于优先级信息解码高优先级音频对象,可以再现具有足够好品质的内容,甚至具有低计算复杂度。
引用列表
非专利文献
非专利文献1:INTERNATIONAL STANDARD ISO/IEC 23008-3First edition 2015-10-15Information technology-High efficiency coding and media delivery inheterogeneous environments-Part 3:3D audio
发明内容
本发明待解决的问题
然而,每次向每个音频对象手动分配优先级信息的成本较高。例如,对于电影内容,许多音频对象经过长的时间周期进行处理,并且因此,认为人工成本极其高。
另外,还存在大量没有分配优先级信息的内容。例如,在如上所述MPEG-H部分3:3D音频标准中,编码数据中是否包括优先级信息可以通过报头的标记切换。换言之,允许存在没有分配优先级信息的编码数据。此外,还存在优先级信息不首先包括在编码数据中的音频对象编码方案。
在这种背景下,存在大量没有分配优先级信息的编码数据,因此,不能降低解码这种编码数据的计算复杂度。
鉴于上述情况,设计了本技术,使得能够低成本地降低解码的计算复杂度。
问题的解决方案
根据本技术的一方面的信号处理设备包括:优先级信息生成单元,被配置为基于表示音频对象的特征的多个元素生成音频对象的优先级信息。
元素可以是音频对象的元数据。
元素可以是音频对象在空间中的位置。
元素可以是在空间中从参考位置至音频对象的距离。
元素可以是指示音频对象在空间中的水平方向上的位置的水平方向角度。
优先级信息生成单元可基于元数据生成与音频对象的移动速度对应的优先级信息。
元素可以是与音频对象的音频信号相乘的增益信息。
优先级信息生成单元可基于处理对象的单位时间的增益信息与多个单位时间的增益信息的平均值之间的差值,生成处理对象的单位时间的优先级信息。
优先级信息生成单元可基于乘以增益信息的音频信号的声压生成优先级信息。
元素可以是传播信息。
优先级信息生成单元可基于传播信息生成与音频对象的区域的面积对应的优先级信息。
元素可以是指示音频对象的声音的属性的信息。
元素可以是音频对象的音频信号。
优先级信息生成单元可基于对音频信号上进行的语音活性检测处理的结果生成优先级信息。
优先级信息生成单元可在时间方向上平滑生成的优先级信息并将平滑的优先级信息视为最终的优先级信息。
根据本技术的一方面的信号处理方法或者程序包括:基于表示音频对象的特征的多个元素生成音频对象的优先级信息的步骤。
在本技术的一方面中,基于表示音频对象的特征的多个元素生成音频对象的优先级信息。
本发明的效果
根据本技术的一方面,可以低成本地降低解码的计算复杂度。
应注意,这里描述的有益效果不一定受到限制,并且可以获得本公开中描述的任何有益效果。
附图说明
图1是示出编码设备的示例性配置的示图。
图2是示出对象音频编码单元的示例性配置的示图。
图3是说明编码处理的流程图。
图4是示出解码设备的示例性配置的示图。
图5是示出解包/解码单元的示例性配置的示图。
图6是说明解码处理的流程图。
图7是说明选择性解码处理的流程图。
图8是示出计算机的示例性配置的示图。
具体实施方式
在下文中,将参考附图描述应用本技术的实施方式。
<第一实施方式>
<编码设备的示例性配置>
本技术被配置为能够通过基于表示音频对象的特征的元素(诸如音频对象的元数据、内容信息、或者音频对象的音频信号)生成关于音频对象的优先级信息来低成本地降低计算复杂性。
在下文中,将多信道音频信号和音频对象的音频信号描述为根据预定标准等编码。另外,在下文中,音频对象也被简单地称为对象。
例如,对于每一帧编码并传输每个信道和每个对象的音频信号。
换言之,编码的音频信号和解码音频信号所需的信息等存储在多个元素(比特流元素)中,并且包含这些元素的比特流从编码侧传输至解码侧。
具体地,在单个帧的比特流中,例如,多个元素按次序从头开始布置,并且指示与帧的信息相关的终端位置的标识符设置在最后。
另外,设置在起始处的元素视为辅助数据区域,称为数据流元素(DSE)。在DSE中表述与多个信道的每一个相关的信息,诸如与音频信号和识别信息的下混合相关的信息。
另外,编码的音频信号存储在DSE之后的每个元素中。具体地,存储单个信道的音频信号的元素被称为单个信道元素(SCE),而存储两个成对的信道的音频信号的元素被称为耦合信道元素(CPE)。每个对象的音频信号存储在SCE中。
在本技术中,生成每个对象的音频信号的优先级信息并将其存储在DSE中。
在此,优先级信息是指示对象的优先级的信息,并且更具体地,由优先级信息指示的优先级的更大的值(即,指示优先程度的更大的数值),表示对象是较高优先级并且是更重要的对象。
在应用本技术的编码设备中,基于对象的元数据等生成每个对象的优先级信息。利用该设置,即使在优先级信息没有分配至内容的情况下,也可以降低解码的计算复杂度。换言之,在没有手动分配优先级信息的情况下,也可以低成本地降低解码的计算复杂度。
接下来,将描述应用本技术的编码设备的具体实施方式。
图1是示出应用本技术的编码设备的示例性配置的示图。
图1中示出的编码设备11包括信道音频编码单元21、对象音频编码单元22、元数据输入单元23、及封装单元(packing unit,打包单元)24。
信道音频编码单元21提供有包含M个信道的多信道音频的每个信道的音频信号。例如,每个信道的音频信号由与这些信道的每一个对应的麦克风提供。在图1中,从“#0”至“#M-1”的字符表示每个信道的信道编号。
信道音频编码单元21编码提供的每个信道的音频信号,并将通过编码获得的编码数据提供至封装单元24。
对象音频编码单元22提供有N个对象的每一个的音频信号。例如,每个对象的音频信号由附接于这些对象的每一个的麦克风提供。在图1中,从“#0”至“#N-1”的字符表示每个对象的对象编号。
对象音频编码单元22编码提供的每个对象的音频信号。另外,对象音频编码单元22基于提供的音频信号和从元数据输入单元23提供的元数据、内容信息等生成优先级信息,并将通过编码获得的编码数据和优先级信息提供至封装单元24。
元数据输入单元23将每个对象的元数据和内容信息提供至对象音频编码单元22和封装单元24。
例如,对象的元数据包含指示对象在空间中的位置的对象位置信息、指示对象的声像的大小的范围的传播信息(spread information)、指示对象的音频信号的增益的增益信息等。另外,内容信息包含与内容中的每个对象的声音的属性相关的信息。
封装单元24封装从信道音频编码单元21提供的编码数据、从对象音频编码单元22提供的编码数据和优先级信息、及从元数据输入单元23提供的元数据和内容信息以生成并输出比特流。
以这种方法获得的比特流包含每个信道的编码数据、每个对象的编码数据、每个对象的优先级信息、及每一帧的每个对象的元数据和内容信息。
在此,存储在单个帧的比特流中的M个信道中的每一个信道的音频信号和N个对象中的每一个对象的音频信号是应当同时再现的同一帧的音频信号。
应注意,虽然本文中描述了相对于每一帧的每个音频信号生成优先级信息作为关于每个对象的音频信号的优先级信息的实例,还可以例如相对于被分成任何预定时间单元(诸如以多个帧为单元)的音频信号生成整条优先级信息。
<对象音频编码单元的示例性配置>
另外,例如,图1中的对象音频编码单元22更具体地配置为如图2所示。
图2中示出的对象音频编码单元22设置有编码单元51和优先级信息生成单元52。
编码单元51设置有改进的离散余弦变换(MDCT)单元61,并且编码单元51编码从外部源提供的每个对象的音频信号。
换言之,MDCT单元61对从外部源提供的每个对象的音频信号进行改进的离散余弦变换(MDCT)。编码单元51编码通过MDCT获得的每个对象的MDCT系数,并且将作为结果获得的每个对象的编码数据(即,编码的音频信号),提供至封装单元24。
另外,优先级信息生成单元52基于从外部源提供的每个对象的音频信号、从元数据输入单元23提供的元数据、或者从元数据输入单元23提供的内容信息中至少一个,生成每个对象的音频信号的优先级信息。生成的优先级信息被提供至封装单元24。
换言之,优先级信息生成单元52基于表达对象的特征的一个或多个元素(诸如音频信号、元数据、及内容信息)生成对象的优先级信息。例如,音频信号是表达与对象的声音相关的特征的元素,而元数据是表达诸如对象的位置、声像的传播程度、及增益的特征的元素,并且内容信息是表达与对象的声音的属性相关的特征的元素。
<关于优先级信息的生成>
在此,将描述在优先级信息生成单元52中生成的对象的优先级信息。
例如,仅基于对象的音频信号的声压生成优先级信息也是可想像的。
然而,因为增益信息存储在对象的元数据中,并且乘以增益信息的音频信号用作对象的最终音频信号,所以音频信号的声压通过乘以增益信息而改变。
因此,即使优先级信息仅基于音频信号的声压生成,获得合适的优先级信息也不是必然的情况。因此,在优先级信息生成单元52中,通过使用至少除音频信号的声压以外的信息生成优先级信息。利用该布置,可以获得合适的优先级信息。
具体地,根据以下(1)至(4)中指示的方法中的至少一个生成优先级信息。
(1)基于对象的元数据生成优先级信息
(2)基于除元数据之外的其他信息生成优先级信息
(3)通过组合通过多个方法获得的多条优先级信息生成一整条优先级信息
(4)通过在时间方向上平滑优先级信息生成最终的、一整条优先级信息
首先,将描述基于对象的元数据生成优先级信息。
如上所述,对象的元数据包含对象位置信息、传播信息、及增益信息。因此,使用该对象位置信息、传播信息、及增益信息以生成优先级信息是可想像的。
(1-1)关于基于对象位置信息生成优先级信息
首先,将描述基于对象位置信息生成优先级信息的实例。
对象位置信息是指示对象在三维空间中的位置的信息,并且例如被认为是包括从参考位置(原点)观察的指示对象的位置的水平方向角度a、垂直方向角度e、以及半径r的坐标信息。
水平方向角度a是指示从参考位置观察时对象在水平方向上的位置的水平方向上的角度(方位角),其为用户所在的位置。换言之,水平方向角度是在用作水平方向上的参考的方向与从参考位置观察的对象的方向之间获得的角度。
在本文中,当水平方向角度a是0度时,对象直接定位在用户前面,并且当水平方向角度a是90度或者-90度时,对象直接定位在用户旁边。另外,当水平方向角度a是180度或者-180度时,对象为直接定位在用户后面。
类似地,垂直方向角度e是指示从参考位置观察时对象在垂直方向上的位置的垂直方向上的角度(仰角),或者换言之,用作垂直方向上的参考的方向与从参考位置观察的对象的方向之间获得的角度。
另外,半径r是从参考位置至对象位置的距离。
例如,可以想象的是与用作原点(参考位置)的用户位置相距短距离的对象(即,在靠近原点的位置具有小半径r的对象),比远离原点的位置处的对象更重要。因此,可以配置为使得随着半径r变得更小将优先级信息指示的优先级设置为更高。
在该情况下,例如,优先级信息生成单元52通过评估以下基于对象的半径r的公式(1)而生成对象的优先级信息。应注意,在下文中,“优先级”表示优先级信息。
[公式1]
优先级=1/r (1)
在公式(1)中示出的实例中,随着半径r变得更小,优先级信息“优先级”的值变得更大,并且优先级变得更高。
另外,已知人耳听觉对于前向比后向更敏感。为此,对于用户后面的对象,即使优先级降低并且进行不同于原始的解码处理,认为对用户的听觉的影响也很小。
因此,可以配置为使得对于在用户后面的对象(即,对于在接近用户正后面的位置处的对象),将由优先级信息指示的优先级设置为较低。在该情况下,例如,优先级信息生成单元52通过评估以下基于对象的水平方向角度a的公式(2)而生成对象的优先级信息。然而,在水平方向角度a小于1度的情况下,对象的优先级信息“优先级”的值设为1。
[公式2]
优先级=1/abs(a) (2)
应注意,在公式(2)中,abs(a)表示水平方向角度a的绝对值。因此,在该实例中,至用户观察的正前面的方向上的位置的水平方向角度a更小并且对象的位置更接近,优先级信息“优先级”的值变得更大。
此外,可以想象的是对象位置信息随着时间推移极大改变的对象(即,快速移动的对象)更可能是内容中的重要对象。因此,可以配置为使得随着对象位置信息随时间推移的变化变得更大(即,随着对象的移动速度变得更快)时,将由优先级信息指示的优先级设置为更高。
在该情况下,例如,优先级信息生成单元52通过评估以下基于包括在对象的对象位置信息中的水平方向角度a、垂直方向角度e、及半径r的公式(3)而生成与对象的移动速度对应的优先级信息。
[公式3]
优先级=(a(i)-a(i-1))2+(e(i)-e(i-1))2+(r(i)-r(i-1))2 (3)
应注意,在公式(3)中,a(i)、e(i)、及r(i)分别表示待处理的当前帧中的对象的水平方向角度a、垂直方向角度e、及半径r。此外,a(i-1)、e(i-1)、及r(i-1)分别表示待处理的当前帧之前的暂时一个帧的帧中的对象的水平方向角度a、垂直方向角度e、及半径r。
因此,例如,(a(i)–a(i-1))表示对象的水平方向上的速度,及公式(3)的右侧对应于对象的整体速度。换言之,随着对象的速度变得更快,公式(3)指示的优先级信息“优先级”的值变得更大。
(1-2)关于基于增益信息生成优先级信息
接下来,将描述基于增益信息生成优先级信息的实例。
例如,在解码时乘以对象的音频信号的系数值作为增益信息包括在对象的元数据中。
随着增益信息的值变得更大(即,随着视为增益信息的系数值变得更大)时,对象的最终音频信号的声压在乘以系数值之后变得更大,并且因此对象的声音可以想象地变得更容易被人类感知。另外,可以想象给出大的增益信息以增加声压的对象是内容中的重要的对象。
因此,可以配置为使得随着增益信息的值变得更大时将对象的优先级信息指示的优先级设置为更高。
在这种情况下,例如,优先级信息生成单元52通过评估以下基于对象的增益信息(即,作为增益信息表示的增益的系数值g)的公式(4)而生成对象的优先级信息。
[公式4]
优先级=g (4)
在公式(4)示出的实例中,作为增益信息的系数值g本身被视为优先级信息“优先级”。
另外,假设时间平均值gave是单个对象的多个帧中的增益信息(系数值g)的时间平均值。例如,时间平均值ggve被视为待处理的帧前面的多个相邻帧等中的增益信息的时间平均值。
例如,在增益信息与时间平均值ggve之间具有大差值的帧中,或更具体地,在系数值g明显大于时间平均值ggve的帧中,可以想象到与系数值g与时间平均值ggve之间具有小差值的帧相比较,对象的重要性是高的。换言之,在系数值g突然增加的帧中,可以想象到对象的重要性是高的。
因此,可以配置为使得随着增益信息与时间平均值ggve之间的差值变得更大时,将对象的优先级信息指示的优先级设置为更高。
在这种情况下,例如,优先级信息生成单元52通过评估以下基于对象的增益信息(即,系数值g,及时间平均值ggve)的公式(5)生成对象的优先级信息。换言之,基于当前帧中的系数值g与时间平均值ggve之间的差值生成优先级信息。
[公式5]
优先级=g(i)-ggve (5)
在公式(5)中,g(i)表示当前帧中的系数值g。因此,在这个实例中,优先级信息“优先级”的值随着当前帧中的系数值g(i)变得大于时间平均值ggve而变得更大。换言之,在公式(5)示出的实例中,在增益信息突然增加的帧中,对象的重要性视为是高的,并且由优先级信息指示的优先级也变得更高。
应注意,时间平均值ggve还可以是基于对象的多个先前的帧中的增益信息(系数值g)的指数的平均值,或者是对象在整个内容上的增益信息的平均值。
(1-3)关于基于传播信息生成优先级信息
接下来,将描述基于传播信息生成优先级信息的实例。
传播信息是指示对象的声像的大小的范围的角信息(即,指示对象的声音的声像的传播程度的角信息)。换言之,传播信息可以说是指示对象的区域的大小的信息。在下文中,将指示通过传播信息指示的对象的声像的大小的范围的角度称作传播角。
具有大的传播角的对象是在屏幕上看起来大的对象。因此,可以想象到具有大传播角的对象与具有小传播角的对象相比,很可能是内容中的重要的对象。因此,可以配置为使得对于具有由传播信息指示的更大传播角的对象,将由优先级信息指示的优先级设置为更高。
在该情况下,例如,优先级信息生成单元52通过评估以下基于对象的传播信息的公式(6)而生成对象的优先级信息。
[公式6]
优先级=s2 (6)
应注意,在公式(6)中,s表示传播信息指示的传播角。在该实例中,为了使对象的区域的面积(即,声像的范围的宽度)在优先级信息“优先级”的值中反映出来,传播角的平方被视为优先级信息“优先级”。因此,通过评估公式(6),生成与对象的区域的面积(即,对象的声音的声像的区域的面积)对应的优先级信息。
另外,在相互不同方向(即,彼此垂直的水平方向和垂直方向)上的传播角有时作为传播信息给出。
例如,假设包括水平方向上的传播角s宽和垂直方向上的传播角s高作为传播信息。在该情况下,不同大小的对象(即,具有不同的传播程度的对象),在水平方向和垂直方向上可以通过传播信息表示。
在包括传播角s宽和传播角s高作为传播信息的情况下,优先级信息生成单元52通过评估以下基于对象的传播信息的公式(7)而生成对象的优先级信息。
[公式7]
优先级=s宽×s高 (7)
在公式(7)中,传播角s宽和传播角s高的乘积被视为优先级信息“优先级”。通过根据公式(7)生成优先级信息,与公式(6)的情况类似,可以配置为使得对于传播角更大的对象(即,随着对象的区域变得更大时),将优先级信息指示的优先级设置为更高。
此外,以上描述了基于对象的元数据(也就是对象位置信息、传播信息、及增益信息)生成优先级信息的实例。然而,也可以基于除元数据之外的其他信息生成优先级信息。
(2-1)关于基于内容信息生成优先级信息
首先,作为基于除元数据以外的信息生成优先级信息的实例,将描述使用内容信息生成优先级信息的实例。
例如,在若干对象音频编码方案中,包括内容信息作为与每个对象相关的信息。例如,通过内容信息指定对象的声音的属性。换言之,内容信息包含指示对象的声音的属性的信息。
具体地,例如,可以通过内容信息指定对象的声音是否是依赖语言的,对象的声音的语言的类型,对象的声音是否是语音,以及对象的声音是否是环境声音。
例如,在对象的声音是语音的情况下,可以认为该对象比其他环境声音等的对象更重要。这是因为在诸如电影或者新闻的内容中,通过语音输送的信息量大于通过其他声音输送的信息量,并且此外,人耳听觉对语音更敏感。
因此,可以配置为使得语音对象的优先级设置为高于具有其他属性的对象的优先级。
在该情况下,例如,优先级信息生成单元52通过评估以下基于对象的内容信息的公式(8)而生成对象的优先级信息。
[公式8]
If object_class==“语音”:
优先级=10
Else:
优先级=1 (8)
应注意,在公式(8)中,object_class表示内容信息指示的对象的声音的属性。在公式(8)中,在内容信息指示的对象的声音的属性是“语音”的情况下,优先级信息的值设为10,而在内容信息指示的对象的声音的属性不是“语音”的情况下(即,在环境声音等的情况下),例如,优先级信息的值设为1。
(2-2)关于基于音频信号生成优先级信息
此外,可以使用语音活性检测(voice activity detection,VAD)技术区分每个对象是否是语音。
因此,例如,可对对象的音频信号进行VAD处理,并且可基于检测结果(处理结果)生成对象的优先级信息。
同样地,在该情况下,与利用内容信息的情况类似,当作为VAD处理的结果获得指示对象的声音是语音的检测结果时,优先级信息指示的优先级被设置为高于当获得其他检测结果时的优先级。
具体地,例如,优先级信息生成单元52对对象的音频信号进行VAD处理,并且通过评估以下基于检测结果的公式(9)而生成对象的优先级信息。
[公式9]
If object_class_vad==“语音”:
优先级=10
Else:
优先级=1 (9)
应注意,在公式(9)中,object_class_vad表示作为VAD处理的结果获得的对象的声音的属性。在公式(9)中,当对象的声音的属性是语音时(即,当作为检测结果从VAD处理获得指示对象的声音是“语音”的检测结果)时,优先级信息的值被设为10。另外,在公式(9)中,当对象的声音的属性不是语音时(即,当作为检测结果从VAD处理未获得指示对象的声音是“语音”的检测结果)时,优先级信息的值设为1。
此外,当作为VAD处理的结果获得语音活性可能性的值时,还可以基于语音活性可能性的值生成优先级信息。在这种情况下,当对象的当前帧变得更可能为话音活性时,优先级设置为更高。
(2-3)关于基于音频信号和增益信息生成优先级信息
此外,如先前描述的,例如,仅基于对象的音频信号的声压生成优先级信息也是可想像的。然而,在解码侧,因为音频信号乘以对象的元数据中包括的增益信息,所以音频信号的声压通过乘以增益信息而变化。
为此,即使在乘以增益信息之前基于音频信号的声压生成优先级信息,在一些情况下,可能也无法获得合适的优先级信息。因此,可以基于通过使对象的音频信号乘以增益信息获得的信号的声压,生成优先级信息。换言之,可基于增益信息和音频信号生成优先级信息。
在该情况下,例如,优先级信息生成单元52使对象的音频信号乘以增益信息,并在乘以增益信息之后计算音频信号的声压。随后,优先级信息生成单元52基于获得的声压生成优先级信息。此时,例如,优先级信息生成为使得优先级随着声压变得更大而变得更高。
以上描述了基于表示对象的特征的元素(诸如对象的元数据、内容信息、或者音频信号)生成优先级信息的实例。然而,配置不限于如上所述的实例,并且计算的优先级信息(诸如通过评估公式(1)等获得的值)例如可以进一步乘以预定系数或者具有增加至其的预定常数,并且可将结果视为最终的优先级信息。
(3-1)关于基于对象位置信息和传播信息生成优先级信息
另外,根据多个彼此不同的方法计算的各条优先级信息可通过线性组合、非线性组合等组合(合成)并且视为最终的、整条优先级信息。换言之,还可以基于表示对象的特征的多个元素生成优先级信息。
通过组合多条优先级信息(即,通过将多条优先级信息结合在一起),可以获得更合适的优先级信息。
本文中,首先,将描述将基于对象位置信息计算的优先级信息和基于传播信息计算的优先级信息的线性组合视为最终的、整条优先级信息的实例。
例如,即使在对象在用户后面并且不太可能被用户感知的情况下,当对象的声像的大小很大时,可以想象对象是重要的对象。相反地,即使在对象在用户前面的情况下,当对象的声像的大小很小时,可以想象对象是不重要的对象。
因此,例如,通过取基于对象位置信息计算的优先级信息和基于传播信息计算的优先级信息的线性总和,可计算最终的优先级信息。
在该情况下,优先级信息生成单元52例如通过评估以下公式(10)取多条优先级信息的线性组合,并且生成对象的最终的、整条优先级信息。
[公式10]
优先级=A×优先级(位置)+B×优先级(传播) (10)
应注意,在公式(10)中,优先级(位置)表示基于对象位置信息计算的优先级信息,而优先级(传播)表示基于传播信息计算的优先级信息。
具体地,优先级(位置)表示例如根据公式(1)、公式(2)、公式(3)等计算的优先级信息。优先级(传播)表示例如根据公式(6)或者公式(7)计算的优先级信息。
另外,在公式(10)中,A和B表示线性总和的系数。换言之,A和B可以认为是表示用于生成优先级信息的权重因数。
例如,以下两种设置方法可想像为是设置这些权重因数A和B的方法。
也就是,作为第一设置方法,可以想象根据用于生成线性组合的优先级信息的公式的范围设置相等权重的方法(在下文中也称作设置方法1)。另外,作为第二设置方法,可以想象根据情况改变权重因数的方法(在下文中也称作设置方法2)。
在此,将具体地描述根据设置方法1设置权重因数A和权重因数B的实例。
例如,假设优先级(位置)是如上所述根据公式(2)计算的优先级信息,并且假设优先级(传播)是如上所述根据公式(6)计算的优先级信息。
在该情况下,优先级信息优先级(位置)的范围是从1/π至1,并且优先级信息优先级(传播)的范围是从0至π2。
为此,在公式(10)中,优先级信息优先级(传播)的值变为主要的,并且最终获得的优先级信息“优先级”的值将最低程度地取决于优先级信息优先级(位置)的值。
因此,如果考虑优先级信息优先级(位置)和优先级信息优先级(传播)的范围并且将权重因数A和权重因数B的比率设为例如π:1,则可以生成权重更均等的最终的优先级信息“优先级”。
在该情况下,权重因数A变为π/(π+1),而权重因数B变为1/(π+1)。
(3-2)关于基于内容信息及其他信息生成优先级信息
此外,将描述将根据多个彼此不同的方法计算的各条优先级信息的非线性组合视为最终的、整条优先级信息的实例。
本文中,例如,将描述将基于内容信息计算的优先级信息和基于除内容信息以外的信息计算的优先级信息的非线性组合视为最终的、整条优先级信息的实例。
例如,如果引用内容信息,则对象的声音可以指定为语音或不是语音。在对象的声音是语音的情况下,无论除优先级信息的生成中使用的内容信息以外的其他信息的信息类型是什么,期望最终获得的优先级信息具有大的值。这是因为语音对象通常比其他对象传送更大的信息量,并且被认为是更重要的对象。
因此,在将基于内容信息计算的优先级信息和基于除内容信息以外的信息计算的优先级信息组合以获得最终的优先级信息的情况下,例如,优先级信息生成单元52使用通过如上所述设置方法2确定的权重因数评估以下公式(11),并生成最终的、整条优先级信息。
[公式11]
优先级=优先级(object_class)A+优先级(其他)B (11)
应注意,在公式(11)中,优先级(object_class)表示基于内容信息计算的优先级信息,诸如根据以上描述的公式(8)计算的优先级信息。优先级(其他)表示基于除内容信息以外的信息(诸如对象位置信息、增益信息、传播信息、或者对象的音频信号)计算的优先级信息。
此外,在公式(11)中,A和B是非线性总和中求幂的值,但是A和B可以认为是表示用于生成优先级信息的权重因数。
例如,根据设置方法2,如果权重因数设置为使得A=2.0和B=1.0,在对象的声音是语音的情况下,优先级信息“优先级”的最终值变得足够大,并且优先级信息没有变得小于非语音对象。另一方面,通过公式(11)中的第二项优先级(其他)B的值确定两个语音对象的优先级信息之间的大小关系。
如上,通过取根据多个彼此不同的方法计算的多条优先级信息的线性组合或者非线性组合,可获得更合适的优先级信息。应注意,配置不限于此,并且还可以根据多条优先级信息的条件表达式生成最终的、整条优先级信息。
(4)在时间方向上平滑优先级信息
另外,上文描述了根据对象的元数据、内容信息等生成优先级信息、并且组合多条优先级信息以生成最终的、整条优先级信息的实例。然而,不期望多个对象的优先级信息中的大小关系在短时段内多次改变。
例如,在解码侧,如果基于优先级信息开启或者关闭每个对象的解码处理,则由于多个对象的优先级信息中的大小关系的变化而导致对象的声音以短时间间隔交替听得到和听不到。如果出现这种情况,将劣化收听体验。
随着对象数量增加并且还随着生成优先级信息的技术变得更复杂时,这种优先级信息中的大小关系的变化(切换)变得更可能发生。
因此,在优先级信息生成单元52中,如果执行例如以下公式(12)中表示的计算并且通过指数平均在时间方向上平滑优先级信息,则可以抑制对象的优先级信息中的大小关系在短时间间隔内的切换。
[公式12]
priority_smooth(i)=α×优先级(i)-(1-α)×priority_smooth(i-1) (12)
应注意,在公式(12)中,i表示指示当前帧的索引,而i-1表示指示当前帧之前的暂时的一帧的帧的索引。
另外,优先级(i)表示在当前帧中获得的不平滑的优先级信息。例如,优先级(i)是根据以上描述的公式(1)至公式(11)的任一个计算的优先级信息等。
另外,priority_smooth(i)表示当前帧中的平滑的优先级信息(即,最终的优先级信息),而priority_smooth(i-1)表示当前帧之前的帧中的平滑的优先级信息。此外,在公式(12)中,α表示指数平均的平滑系数,其中,平滑系数α采用从0至1的值。
通过从乘以平滑系数α的优先级信息优先级(i)中减去乘以(1-α)的优先级信息priority_smooth(i-1)获得的值视为最终的优先级信息priority_smooth(i),优先级信息得到平滑。
换言之,通过在时间方向上平滑当前帧中生成的优先级信息优先级(i),生成当前帧中最终的优先级信息priority_smooth(i)。
在这个实例中,因为平滑系数α的值变得更小,当前帧中的不平滑的优先级信息优先级(i)的值的权重变得更小,并且因此,进行更多平滑,并且抑制优先级信息中的大小关系的切换。
应注意,虽然将通过指数平均的平滑描述为平滑优先级信息的实例,但配置不限于此,并且优先级信息还可以通过一些其它类型的平滑技术(诸如简单移动平均、加权移动平均)或使用低通滤波器的平滑来平滑。
根据如上所述的本技术,因为对象的优先级信息是基于元数据等生成,所以可以减小手动向对象分配优先级信息的成本。另外,即使存在在任何时间(帧)未向对象适当地分配优先级信息的编码数据,也可以适当地分配优先级信息,并且因此,可以减小解码的计算复杂度。
<编码处理的描述>
接下来,将描述通过编码设备11进行的处理。
当编码设备11提供有为单个帧同时再现的多个信道的每一个信道的音频信号和多个对象的每一个对象的音频信号时,编码设备11进行编码处理并且输出包含编码的音频信号的比特流。
在下文中,将参考图3中的流程图来描述编码设备11的编码处理。应注意,在音频信号的每一帧上进行编码处理。
在步骤S11中,对象音频编码单元22的优先级信息生成单元52生成提供的每个对象的音频信号的优先级信息,并将生成的优先级信息提供至封装单元24。
例如,通过接收用户的输入操作、与外部源通信、或者从外部记录区读取,元数据输入单元23获取每个对象的元数据和内容信息,并将获取的元数据和内容信息提供至优先级信息生成单元52和封装单元24。
对于每个对象,优先级信息生成单元52基于提供的音频信号、从元数据输入单元23提供的元数据、或者从元数据输入单元23提供的内容信息中的至少一个,生成对象的优先级信息。
具体地,例如,优先级信息生成单元52根据公式(1)至公式(9)的任一个、根据基于对象的音频信号和增益信息生成优先级信息的方法,或者根据如上所述的公式(10)、公式(11)、或者公式(12)等生成每个对象的优先级信息。
在步骤S12,封装单元24将从优先级信息生成单元52提供的每个对象的音频信号的优先级信息存储在比特流的DSE中。
在步骤S13,封装单元24将从元数据输入单元23提供的每个对象的元数据和内容信息存储在比特流的DSE中。根据上述处理,所有对象的音频信号的优先级信息和所有对象的元数据以及内容信息都存储在比特流的DSE中。
在步骤S14,信道音频编码单元21编码提供的每个信道的音频信号。
更具体地,信道音频编码单元21在每个信道的音频信号上进行MDCT,编码通过MDCT获得的每个信道的MDCT系数,并且将作为结果获得的每个信道的编码数据提供至封装单元24。
在步骤S15,封装单元24将从信道音频编码单元21提供的每个信道的音频信号的编码数据存储在比特流的SCE或者CPE中。换言之,编码数据存储在比特流中的DSE之后设置的每个元素中。
在步骤S16,对象音频编码单元22的编码单元51编码提供的每个对象的音频信号。
更具体地,MDCT单元61在每个对象的音频信号上进行MDCT,并且编码单元51编码通过MDCT获得的每个对象的MDCT系数,并且将作为结果获得的每个对象的编码数据提供至封装单元24。
在步骤S17,封装单元24将从编码单元51提供的每个对象的音频信号的编码数据存储在比特流的SCE中。换言之,编码数据存储在比特流中的DSE之后设置的一些元素中。
根据上述处理,对于处理的帧,获得了存储所有信道的音频信号的编码数据、所有对象的音频信号的优先级信息及编码数据,及所有对象的元数据以及内容信息的比特流。
在步骤S18,封装单元24输出所获得的比特流,编码处理结束。
如上,编码设备11生成每个对象的音频信号的优先级信息,并且输出存储在比特流中的优先级信息。因此,在解码侧,可以容易地掌握哪些音频信号具有更高程度的优先级。
利用该布置,在解码侧,可以根据优先级信息对编码的音频信号进行选择性地解码。因此,在保持音频信号再现的声音的音质的劣化最小化的同时还可以降低解码的计算复杂度。
具体地,通过将每个对象的音频信号的优先级信息存储在比特流中,在解码侧,不仅可以降低解码的计算复杂度,而且还可以降低诸如渲染的后续处理的计算复杂度。
另外,在编码设备11中,通过基于对象的元数据和内容信息、对象的音频信号等生成对象的优先级信息,可以低成本地获得更合适的优先级信息。
<第二实施方式>
<解码设备的示例性配置>
应注意,虽然上文描述了优先级信息包含在从编码设备11输出的比特流中的实例,但是根据编码设备,在一些情况下,优先级信息可能不包含在比特流中。
因此,还可以在解码设备中生成优先级信息。在这种情况下,例如,接受从编码设备输出的比特流的输入并且解码比特流中包含的编码数据的解码设备配置为如图4所示。
图4中示出的解码设备101包括解封/解码单元111、渲染单元112、及混合单元113。
解封/解码单元111获取从编码设备输出的比特流,并且另外,解封并解码比特流。
解封/解码单元111将通过解封和解码获得的每个对象的音频信号和每个对象的元数据提供至渲染单元112。此时,解封/解码单元111基于对象的元数据和内容信息生成每个对象的优先级信息,并且根据所获得的优先级信息解码每个对象的编码数据。
另外,解封/解码单元111将通过解封和解码获得的每个信道的音频信号提供至混合单元113。
渲染单元112基于从解封/解码单元111提供的每个对象的音频信号和每个对象的元数据中包含的对象位置信息生成M个信道的音频信号,并且将生成的音频信号提供至混合单元113。此时,渲染单元112生成M个信道中的每一个信道的音频信号,使得每个对象的声像定位在每个对象的对象位置信息指示的位置处。
混合单元113针对每个信道进行从解封/解码单元111提供的每个信道的音频信号和从渲染单元112提供的每个信道的音频信号的加权加法,并且生成每个信道的最终的音频信号。混合单元113将以这种方法获得的每个信道的最终的音频信号提供至分别对应于每个信道的外部扬声器,并使得声音再现。
<解封/解码单元的示例性配置>
另外,例如,图4中示出的解码设备101的解封/解码单元111更具体地配置为如在图5中示出的。
图5中示出的解封/解码单元111包括信道音频信号获取单元141、信道音频信号解码单元142、逆改进离散余弦变换(IMDCT)单元143、对象音频信号获取单元144、对象音频信号解码单元145、优先级信息生成单元146、输出选择单元147、0值输出单元148、及IMDCT单元149。
信道音频信号获取单元141从提供的比特流中获取每个信道的编码数据,并将获取的编码数据提供至信道音频信号解码单元142。
信道音频信号解码单元142解码从信道音频信号获取单元141提供的每个信道的编码数据,并且将作为结果获得的MDCT系数提供至IMDCT单元143。
IMDCT单元143基于从信道音频信号解码单元142提供的MDCT系数进行IMDCT以生成音频信号,并将生成的音频信号提供至混合单元113。
在IMDCT单元143中,在MDCT系数上进行逆改进离散余弦变换(IMDCT),并且生成音频信号。
对象音频信号获取单元144从提供的比特流中获取每个对象的编码数据,并将获取的编码数据提供至对象音频信号解码单元145。另外,对象音频信号获取单元144从提供的比特流中获取每个对象的元数据以及内容信息,并将元数据以及内容信息提供至优先级信息生成单元146,同时还将元数据提供至渲染单元112。
对象音频信号解码单元145解码从对象音频信号获取单元144提供的每个对象的编码数据,并将作为结果获得的MDCT系数提供至输出选择单元147和优先级信息生成单元146。
优先级信息生成单元146基于从对象音频信号获取单元144提供的元数据、从对象音频信号获取单元144提供的内容信息、或者从对象音频信号解码单元145提供的MDCT系数中的至少一个,生成每个对象的优先级信息,并将生成的优先级信息提供至输出选择单元147。
基于从优先级信息生成单元146提供的每个对象的优先级信息,输出选择单元147选择性地切换从对象音频信号解码单元145提供的每个对象的MDCT系数的输出目的地。
换言之,在某个对象的优先级信息小于预定阈值Q的情况下,输出选择单元147将0作为该对象的MDCT系数提供至0值输出单元148。另外,在某个对象的优先级信息是预定阈值Q或更大的情况下,输出选择单元147将从对象音频信号解码单元145提供的该对象的MDCT系数提供至IMDCT单元149。
应注意,例如,根据解码设备101的计算能力等适当地确定阈值Q的值。通过适当地确定阈值Q,可以将解码音频信号的计算复杂度降低至致能解码设备101实时解码的范围内的计算复杂度。
0值输出单元148基于从输出选择单元147提供的MDCT系数生成音频信号,并将生成的音频信号提供至渲染单元112。在该情况下,因为MDCT系数是0,所以生成无声的音频信号。
IMDCT单元149基于从输出选择单元147提供的MDCT系数进行IMDCT以生成音频信号,并将生成的音频信号提供至渲染单元112。
<解码处理的描述>
接下来,将描述解码设备101的操作。
当从编码设备提供单个帧的比特流时,解码设备101进行解码处理以生成并输出音频信号至扩音器。在下文中,将参考图6中的流程图来描述解码设备101进行的解码处理。
在步骤S51,解封/解码单元111获取从编码设备传输的比特流。换言之,接收到比特流。
在步骤S52,解封/解码单元111进行选择性的解码处理。
应注意,虽然随后将描述选择性的解码处理的细节,但是在选择性的解码处理中,对每个信道的编码数据进行解码,另外,生成每个对象的优先级信息,并且基于优先级信息选择性地解码每个对象的编码数据。
另外,将每个信道的音频信号提供至混合单元113,并将每个对象的音频信号提供至渲染单元112。另外,将从比特流获取的每个对象的元数据提供至渲染单元112。
在步骤S53,渲染单元112基于对象的音频信号以及从解封/解码单元111提供的对象的元数据中包含的对象位置信息,渲染对象的音频信号。
例如,渲染单元112基于对象位置信息根据向量基振幅平移(VBAP)生成每个信道的音频信号,使得对象的声像定位在对象位置信息指示的位置处,并且将生成的音频信号提供至混合单元113。应注意,在元数据中包含传播信息的情况下,在渲染期间还基于传播信息进行传播处理,并且对象的声像被传播开。
在步骤S54,混合单元113针对每个信道进行从解封/解码单元111提供的每个信道的音频信号和从渲染单元112提供的每个信道的音频信号的加权加法,并将得到的音频信号提供至外部扬声器。利用该布置,因为每个扬声器提供有与扬声器对应的信道的音频信号,所以每个扬声器基于提供的音频信号再现声音。
当每个信道的音频信号提供至扬声器时,解码处理结束。
如上,解码设备101生成优先级信息并且根据优先级信息解码每个对象的编码数据。
<选择性的解码处理的描述>
接下来,将参考图7中的流程图描述与图6的步骤S52中的处理对应的选择性的解码处理。
在步骤S81,信道音频信号获取单元141将待处理的信道的信道数量设置为0,并存储设置的信道数量。
在步骤S82,信道音频信号获取单元141确定所存储的信道数量是否小于信道M的数量。
在步骤S82,在确定信道数量小于M的情况下,在步骤S83,信道音频信号解码单元142解码待处理的信道的音频信号的编码数据。
换言之,信道音频信号获取单元141从提供的比特流中获取待处理的信道的编码数据,并将获取的编码数据提供至信道音频信号解码单元142。随后,信道音频信号解码单元142解码从信道音频信号获取单元141提供的编码数据,并且将作为结果获得的MDCT系数提供至IMDCT单元143。
在步骤S84,IMDCT单元143基于从信道音频信号解码单元142提供的MDCT系数进行IMDCT以生成待处理的信道的音频信号,并将生成的音频信号提供至混合单元113。
在步骤S85,信道音频信号获取单元141使存储的信道数量增加1,并更新待处理的信道的信道数量。
在信道数量更新之后,处理返回至步骤S82,并且重复以上描述的处理。换言之,生成待处理的新信道的音频信号。
另外,在步骤S82,在确定待处理的信道的信道数量不小于M的情况下,已获得所有信道的音频信号,并且因此处理进行至步骤S86。
在步骤S86,对象音频信号获取单元144将待处理的对象的对象数量设置为0,并存储设置的对象数量。
在步骤S87,对象音频信号获取单元144确定所存储的对象数量是否小于对象N的数量。
在步骤S87,在确定对象数量小于N的情况下,在步骤S88,对象音频信号解码单元145解码待处理的对象的音频信号的编码数据。
换言之,对象音频信号获取单元144从提供的比特流中获取待处理的对象的编码数据,并将获取的编码数据提供至对象音频信号解码单元145。随后,对象音频信号解码单元145解码从对象音频信号获取单元144提供的编码数据,并将作为结果获得的MDCT系数提供至优先级信息生成单元146和输出选择单元147。
另外,对象音频信号获取单元144从提供的比特流中获取待处理对象的元数据以及内容信息,并将元数据以及内容信息提供至优先级信息生成单元146,同时还将元数据提供至渲染单元112。
在步骤S89,优先级信息生成单元146生成待处理对象的音频信号的优先级信息,并将生成的优先级信息提供至输出选择单元147。
换言之,优先级信息生成单元146基于从对象音频信号获取单元144提供的元数据、从对象音频信号获取单元144提供的内容信息、或者从对象音频信号解码单元145提供的MDCT系数中的至少一个,生成优先级信息。
在步骤S89,进行与图3中的步骤S11类似的处理并且生成优先级信息。具体地,例如,优先级信息生成单元146根据如上所述的公式(1)至公式(9)的任一个、根据基于对象的音频信号的声压和增益信息生成优先级信息的方法、或者根据如上所述的公式(10)、公式(11)、或者公式(12)等生成对象的优先级信息。例如,在使用音频信号的声压生成优先级信息的情况下,优先级信息生成单元146使用从对象音频信号解码单元145提供的MDCT系数的平方的和作为音频信号的声压。
在步骤S90,输出选择单元147确定从优先级信息生成单元146提供的待处理对象的优先级信息是否等于或大于由未图示的高层控制设备等指定的阈值Q。在此,例如,根据解码设备101的计算能力等确定阈值Q。
在步骤S90,在确定优先级信息是阈值Q或更大的情况下,输出选择单元147将从对象音频信号解码单元145提供的待处理对象的MDCT系数提供至IMDCT单元149,并且处理进行至步骤S91。在该情况下,待处理对象被解码,或更具体地,IMDCT被进行。
在步骤S91,IMDCT单元149基于从输出选择单元147提供的MDCT系数进行IMDCT以生成待处理对象的音频信号,并将生成的音频信号提供至渲染单元112。在生成音频信号之后,处理进行至步骤S92。
相反地,在步骤S90,在确定优先级信息小于阈值Q的情况下,输出选择单元147将0作为MDCT系数提供至0值输出单元148。
0值输出单元148根据从输出选择单元147提供的归零MDCT系数生成待处理对象的音频信号,并将生成的音频信号提供至渲染单元112。因此,在0值输出单元148中,实质上不进行诸如IMDCT的生成音频信号的处理。换言之,实质上不进行编码数据的解码,或更具体地,关于MDCT系数的IMDCT。
应注意,0值输出单元148生成的音频信号是无声信号。在生成音频信号之后,处理进行至步骤S92。
在步骤S90,如果确定优先级信息小于阈值Q,或者在步骤S91,如果在步骤S91生成音频信号,在步骤S92,对象音频信号获取单元144使存储的对象数量增加1,并更新待处理对象的对象数量。
在对象数量更新之后,处理返回至步骤S87,并且重复以上描述的处理。换言之,生成待处理的新对象的音频信号。
另外,在步骤S87,在确定待处理对象的对象数量不小于N的情况下,已获得所有信道和所需对象的音频信号,并且因此选择性的解码处理结束,以及然后,处理进行至图6中的步骤S53。
如上,解码设备101生成每个对象的优先级信息并且在将优先级信息与阈值进行比较并确定是否解码每个编码的音频信号的同时解码编码的音频信号。
利用该布置,可以仅选择性地解码具有高优先级的音频信号以适应再现环境,并且在保持音频信号再现的声音的音质的劣化最小化的同时还可以降低解码的计算复杂度。
此外,通过基于每个对象的音频信号的优先级信息解码编码的音频信号,不仅可以降低解码音频信号的计算复杂度,而且可以降低后续处理(诸如渲染单元112等中的处理)的计算复杂度。
另外,通过基于对象的元数据和内容信息、对象的MDCT系数等生成对象的优先级信息,即使在比特流不包含优先级信息的情况下,也可以低成本地获得合适的优先级信息。具体地,在解码设备101中生成优先级信息的情况下,因为将优先级信息存储在比特流中不是必需的,所以比特流的比特速率也可以降低。
<计算机的示例性配置>
顺便提及,上述一系列处理可以由硬件执行或者可以由软件执行。在通过软件执行一系列处理的情况下,形成软件的程序安装在计算机中。在此,计算机的实例包括结合在专用硬件中的计算机和通过安装各种类型的程序可以执行各种类型功能的通用个人计算机。
图8是示出了利用程序执行上述一系列处理的计算机的硬件的配置实例的框图。
在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504相互连接。
此外,输入/输出接口505连接到总线504。输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接到输入/输出接口505。
输入单元506包括键盘、鼠标、麦克风、图像传感器等。输出单元507包括显示器、扬声器等。记录单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动器510驱动可移动记录介质511,诸如磁盘、光盘、磁光盘或半导体存储器。
在如上所述配置的计算机中,例如,CPU 501经由输入/输出接口505和总线504将记录在例如记录单元508中的程序加载在RAM 503上,并执行该程序,从而执行上述一系列处理。
例如,可以在可移动记录介质511中记录并且提供由计算机(CPU 501)执行的程序,该可移动记录介质511是封装介质等。另外,可以经由有线传输介质或诸如局域网、互联网、以及数字卫星广播等无线传输介质提供程序。
在计算机中,通过在驱动器510上安装可移动记录介质511,可以将程序经由输入/输出接口505安装到记录单元508中。另外,程序还可以经由有线传输介质或无线传输介质被通信单元509接收,并且可以安装到记录单元508中。另外,可以将程序提前安装在ROM502或记录单元508中。
应注意,被计算机执行的程序可以是以本文描述的顺序的时间序列按时间顺序执行处理的程序或者可以是以并行或者需要的时序(诸如当调用处理时)执行处理的程序。
另外,本技术的实施方式并不局限于上述实施方式,并且在本技术的范围内可做出各种变更。
例如,本技术可以采用云计算的配置,在云计算中,多个设备经由网络共享单个功能并且协作执行处理。
此外,上述流程图中的每个步骤可以由单个设备执行或者由多个设备共享和执行。
另外,在单个步骤包括多个处理的情况下,包括在单个步骤中的多个处理可由单个设备执行或可由多个设备共享和执行。
另外,还可以如下配置本技术。
(1)
一种信号处理设备,包括:
优先级信息生成单元,被配置为基于表示音频对象的特征的多个元素生成音频对象的优先级信息。
(2)
根据(1)的信号处理设备,其中
元素是音频对象的元数据。
(3)
根据(1)或(2)的信号处理设备,其中
元素是音频对象在空间中的位置。
(4)
根据(3)的信号处理设备,其中
元素是从空间中的参考位置至音频对象的距离。
(5)
根据(3)的信号处理设备,其中
元素是指示音频对象在空间中水平方向上的位置的水平方向角度。
(6)
根据(2)至(5)的任一项的信号处理设备,其中
优先级信息生成单元基于元数据生成与音频对象的移动速度对应的优先级信息。
(7)
根据(1)至(6)中任一项的信号处理设备,其中
元素是乘以音频对象的音频信号的增益信息。
(8)
根据(7)的信号处理设备,其中
优先级信息生成单元基于处理对象的单位时间的增益信息与多个单位时间的增益信息的平均值之间的差值,生成处理对象的单位时间的优先级信息。
(9)
根据(7)的信号处理设备,其中
优先级信息生成单元基于乘以增益信息的音频信号的声压生成优先级信息。
(10)
根据(1)至(9)中任一项的信号处理设备,其中
元素是传播信息。
(11)
根据(10)的信号处理设备,其中
优先级信息生成单元基于传播信息生成与音频对象的区域的面积对应的优先级信息。
(12)
根据(1)至(11)中任一项的信号处理设备,其中
元素是指示音频对象的声音的属性的信息。
(13)
根据(1)至(12)中任一项的信号处理设备,其中
元素是音频对象的音频信号。
(14)
根据(13)的信号处理设备,其中
优先级信息生成单元基于在音频信号上进行的语音活性检测处理的结果生成优先级信息。
(15)
根据(1)至(14)中任一项的信号处理设备,其中
优先级信息生成单元在时间方向上平滑生成的优先级信息并将平滑的优先级信息视为最终的优先级信息。
(16)
一种信号处理方法,包括:
基于表示音频对象的特征的多个元素生成音频对象的优先级信息的步骤。
(17)
一种存储程序的存储设备,程序使计算机执行处理,处理包括:
基于表示音频对象的特征的多个元素生成音频对象的优先级信息的步骤。
参考符号列表
11编码设备
22对象音频编码单元
23元数据输入单元
51编码单元
52优先级信息生成单元
101解码设备
111解封/解码单元
144对象音频信号获取单元
145对象音频信号解码单元
146优先级信息生成单元
147输出选择单元。
Claims (16)
1.一种信号处理设备,包括:
优先级信息生成单元,被配置为基于表示音频对象的特征的多个元素生成关于所述音频对象的优先级信息,其中所述元素包括传播信息,并且其中所述优先级信息生成单元被配置为根据水平方向传播角和垂直方向传播角的乘积生成所述优先级信息。
2.根据权利要求1所述的信号处理设备,其中,
所述元素是所述音频对象的元数据。
3.根据权利要求1所述的信号处理设备,其中,
所述元素是所述音频对象在空间中的位置。
4.根据权利要求3所述的信号处理设备,其中,
所述元素是在所述空间中从参考位置至所述音频对象的距离。
5.根据权利要求3所述的信号处理设备,其中,
所述元素是指示所述音频对象在所述空间中的水平方向上的位置的水平方向角度。
6.根据权利要求2所述的信号处理设备,其中,
所述优先级信息生成单元基于所述元数据生成与所述音频对象的移动速度对应的所述优先级信息。
7.根据权利要求1所述的信号处理设备,其中,
所述元素是与所述音频对象的音频信号相乘的增益信息。
8.根据权利要求7所述的信号处理设备,其中,
所述优先级信息生成单元基于处理对象的单位时间的所述增益信息与多个单位时间的所述增益信息的平均值之间的差值生成所述处理对象的单位时间的所述优先级信息。
9.根据权利要求7所述的信号处理设备,其中,
所述优先级信息生成单元基于乘以所述增益信息的所述音频信号的声压,生成所述优先级信息。
10.根据权利要求1所述的信号处理设备,其中,
所述优先级信息生成单元基于所述传播信息生成与所述音频对象的区域的面积对应的所述优先级信息。
11.根据权利要求1所述的信号处理设备,其中,
所述元素是指示所述音频对象的声音的属性的信息。
12.根据权利要求1所述的信号处理设备,其中,
所述元素是所述音频对象的音频信号。
13.根据权利要求12所述的信号处理设备,其中,
所述优先级信息生成单元基于对所述音频信号进行的语音活性检测处理的结果生成所述优先级信息。
14.根据权利要求1所述的信号处理设备,其中,
所述优先级信息生成单元在时间方向上平滑所生成的优先级信息并将平滑后的所述优先级信息视为最终的优先级信息。
15.一种信号处理方法,包括:
基于表示音频对象的特征的多个元素生成关于所述音频对象的优先级信息的步骤,其中所述元素包括传播信息,并且其中所述优先级信息生成单元被配置为根据水平方向传播角和垂直方向传播角的乘积生成所述优先级信息。
16.一种存储程序的存储设备,所述程序使计算机执行处理,所述处理包括:
基于表示音频对象的特征的多个元素生成关于所述音频对象的优先级信息的步骤,其中所述元素包括传播信息,并且其中所述优先级信息生成单元被配置为根据水平方向传播角度和垂直方向传播角度的乘积生成所述优先级信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017-087208 | 2017-04-26 | ||
JP2017087208 | 2017-04-26 | ||
PCT/JP2018/015352 WO2018198789A1 (ja) | 2017-04-26 | 2018-04-12 | 信号処理装置および方法、並びにプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410360122.5A Division CN118248153A (zh) | 2017-04-26 | 2018-04-12 | 信号处理设备和方法及程序 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110537220A CN110537220A (zh) | 2019-12-03 |
CN110537220B true CN110537220B (zh) | 2024-04-16 |
Family
ID=63918157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880025687.0A Active CN110537220B (zh) | 2017-04-26 | 2018-04-12 | 信号处理设备和方法及程序 |
Country Status (8)
Country | Link |
---|---|
US (3) | US11574644B2 (zh) |
EP (2) | EP3618067B1 (zh) |
JP (3) | JP7160032B2 (zh) |
KR (2) | KR20240042125A (zh) |
CN (1) | CN110537220B (zh) |
BR (1) | BR112019021904A2 (zh) |
RU (1) | RU2019132898A (zh) |
WO (1) | WO2018198789A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7160032B2 (ja) | 2017-04-26 | 2022-10-25 | ソニーグループ株式会社 | 信号処理装置および方法、並びにプログラム |
GB2575510A (en) * | 2018-07-13 | 2020-01-15 | Nokia Technologies Oy | Spatial augmentation |
US11716586B2 (en) * | 2018-09-28 | 2023-08-01 | Sony Corporation | Information processing device, method, and program |
CN113016032A (zh) | 2018-11-20 | 2021-06-22 | 索尼集团公司 | 信息处理装置和方法以及程序 |
JP7236914B2 (ja) * | 2019-03-29 | 2023-03-10 | 日本放送協会 | 受信装置、配信サーバ及び受信プログラム |
CN114390401A (zh) * | 2021-12-14 | 2022-04-22 | 广州市迪声音响有限公司 | 用于音响的多通道数字音频信号实时音效处理方法及系统 |
WO2024034389A1 (ja) * | 2022-08-09 | 2024-02-15 | ソニーグループ株式会社 | 信号処理装置、信号処理方法、およびプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016126907A1 (en) * | 2015-02-06 | 2016-08-11 | Dolby Laboratories Licensing Corporation | Hybrid, priority-based rendering system and method for adaptive audio |
WO2016172111A1 (en) * | 2015-04-20 | 2016-10-27 | Dolby Laboratories Licensing Corporation | Processing audio data to compensate for partial hearing loss or an adverse hearing environment |
CN106133828A (zh) * | 2014-03-24 | 2016-11-16 | 索尼公司 | 编码装置和编码方法、解码装置和解码方法及程序 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7032236B1 (en) * | 1998-02-20 | 2006-04-18 | Thomson Licensing | Multimedia system for processing program guides and associated multimedia objects |
US7079658B2 (en) * | 2001-06-14 | 2006-07-18 | Ati Technologies, Inc. | System and method for localization of sounds in three-dimensional space |
CN102318373B (zh) * | 2009-03-26 | 2014-09-10 | 松下电器产业株式会社 | 解码装置、编解码装置及解码方法 |
JP5036797B2 (ja) * | 2009-12-11 | 2012-09-26 | 株式会社スクウェア・エニックス | 発音処理装置、発音処理方法、及び発音処理プログラム |
WO2012122397A1 (en) * | 2011-03-09 | 2012-09-13 | Srs Labs, Inc. | System for dynamically creating and rendering audio objects |
CN104885151B (zh) | 2012-12-21 | 2017-12-22 | 杜比实验室特许公司 | 用于基于感知准则呈现基于对象的音频内容的对象群集 |
US9344815B2 (en) * | 2013-02-11 | 2016-05-17 | Symphonic Audio Technologies Corp. | Method for augmenting hearing |
US9338420B2 (en) * | 2013-02-15 | 2016-05-10 | Qualcomm Incorporated | Video analysis assisted generation of multi-channel audio data |
WO2015056383A1 (ja) * | 2013-10-17 | 2015-04-23 | パナソニック株式会社 | オーディオエンコード装置及びオーディオデコード装置 |
US10492014B2 (en) | 2014-01-09 | 2019-11-26 | Dolby Laboratories Licensing Corporation | Spatial error metrics of audio content |
CN104882145B (zh) * | 2014-02-28 | 2019-10-29 | 杜比实验室特许公司 | 使用音频对象的时间变化的音频对象聚类 |
US9564136B2 (en) * | 2014-03-06 | 2017-02-07 | Dts, Inc. | Post-encoding bitrate reduction of multiple object audio |
JP6432180B2 (ja) * | 2014-06-26 | 2018-12-05 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
CN106162500B (zh) * | 2015-04-08 | 2020-06-16 | 杜比实验室特许公司 | 音频内容的呈现 |
CN112562697A (zh) | 2015-06-24 | 2021-03-26 | 索尼公司 | 音频处理装置和方法以及计算机可读存储介质 |
US11128978B2 (en) * | 2015-11-20 | 2021-09-21 | Dolby Laboratories Licensing Corporation | Rendering of immersive audio content |
WO2017132366A1 (en) * | 2016-01-26 | 2017-08-03 | Dolby Laboratories Licensing Corporation | Adaptive quantization |
WO2018096599A1 (en) * | 2016-11-22 | 2018-05-31 | Sony Mobile Communications Inc. | Environment-aware monitoring systems, methods, and computer program products for immersive environments |
BR112019021897A2 (pt) | 2017-04-25 | 2020-05-26 | Sony Corporation | Dispositivo e método de processamento de sinal, e, programa |
JP7160032B2 (ja) | 2017-04-26 | 2022-10-25 | ソニーグループ株式会社 | 信号処理装置および方法、並びにプログラム |
CN113016032A (zh) * | 2018-11-20 | 2021-06-22 | 索尼集团公司 | 信息处理装置和方法以及程序 |
-
2018
- 2018-04-12 JP JP2019514367A patent/JP7160032B2/ja active Active
- 2018-04-12 EP EP18790825.6A patent/EP3618067B1/en active Active
- 2018-04-12 CN CN201880025687.0A patent/CN110537220B/zh active Active
- 2018-04-12 BR BR112019021904-8A patent/BR112019021904A2/pt unknown
- 2018-04-12 EP EP24162190.3A patent/EP4358085A2/en active Pending
- 2018-04-12 US US16/606,276 patent/US11574644B2/en active Active
- 2018-04-12 KR KR1020247008685A patent/KR20240042125A/ko active Search and Examination
- 2018-04-12 RU RU2019132898A patent/RU2019132898A/ru unknown
- 2018-04-12 WO PCT/JP2018/015352 patent/WO2018198789A1/ja unknown
- 2018-04-12 KR KR1020197030401A patent/KR20190141669A/ko not_active IP Right Cessation
-
2022
- 2022-10-13 JP JP2022164511A patent/JP7459913B2/ja active Active
-
2023
- 2023-01-13 US US18/154,187 patent/US11900956B2/en active Active
-
2024
- 2024-01-18 US US18/416,154 patent/US20240153516A1/en active Pending
- 2024-03-19 JP JP2024043562A patent/JP2024075675A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106133828A (zh) * | 2014-03-24 | 2016-11-16 | 索尼公司 | 编码装置和编码方法、解码装置和解码方法及程序 |
WO2016126907A1 (en) * | 2015-02-06 | 2016-08-11 | Dolby Laboratories Licensing Corporation | Hybrid, priority-based rendering system and method for adaptive audio |
WO2016172111A1 (en) * | 2015-04-20 | 2016-10-27 | Dolby Laboratories Licensing Corporation | Processing audio data to compensate for partial hearing loss or an adverse hearing environment |
Also Published As
Publication number | Publication date |
---|---|
JP7160032B2 (ja) | 2022-10-25 |
JP7459913B2 (ja) | 2024-04-02 |
US11574644B2 (en) | 2023-02-07 |
EP3618067A4 (en) | 2020-05-06 |
WO2018198789A1 (ja) | 2018-11-01 |
US11900956B2 (en) | 2024-02-13 |
JP2022188258A (ja) | 2022-12-20 |
US20230154477A1 (en) | 2023-05-18 |
KR20240042125A (ko) | 2024-04-01 |
JP2024075675A (ja) | 2024-06-04 |
RU2019132898A (ru) | 2021-04-19 |
RU2019132898A3 (zh) | 2021-07-22 |
EP4358085A2 (en) | 2024-04-24 |
US20210118466A1 (en) | 2021-04-22 |
EP3618067B1 (en) | 2024-04-10 |
US20240153516A1 (en) | 2024-05-09 |
JPWO2018198789A1 (ja) | 2020-03-05 |
EP3618067A1 (en) | 2020-03-04 |
BR112019021904A2 (pt) | 2020-05-26 |
KR20190141669A (ko) | 2019-12-24 |
CN110537220A (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110537220B (zh) | 信号处理设备和方法及程序 | |
US20240055007A1 (en) | Encoding device and encoding method, decoding device and decoding method, and program | |
KR101790641B1 (ko) | 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스 | |
US11805383B2 (en) | Signal processing device, method, and program | |
US11743646B2 (en) | Signal processing apparatus and method, and program to reduce calculation amount based on mute information | |
US11096002B2 (en) | Energy-ratio signalling and synthesis | |
CN118248153A (zh) | 信号处理设备和方法及程序 | |
KR102677399B1 (ko) | 신호 처리 장치 및 방법, 그리고 프로그램 | |
CN115836535A (zh) | 信号处理装置、方法和程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |