CN111489758B - 解码装置、解码方法及存储介质 - Google Patents

解码装置、解码方法及存储介质 Download PDF

Info

Publication number
CN111489758B
CN111489758B CN202010176142.9A CN202010176142A CN111489758B CN 111489758 B CN111489758 B CN 111489758B CN 202010176142 A CN202010176142 A CN 202010176142A CN 111489758 B CN111489758 B CN 111489758B
Authority
CN
China
Prior art keywords
priority information
unit
audio signal
decoding
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010176142.9A
Other languages
English (en)
Other versions
CN111489758A (zh
Inventor
知念彻
西口正之
史润宇
畠中光行
山本优树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to CN202010176142.9A priority Critical patent/CN111489758B/zh
Publication of CN111489758A publication Critical patent/CN111489758A/zh
Application granted granted Critical
Publication of CN111489758B publication Critical patent/CN111489758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

提供了一种解码装置、解码方法及存储介质。解码装置包括至少一个电路,被配置成:获取包括多个对象的一个或多个编码音频信号以及多个对象中的每一个的优先级信息和空间位置信息;根据优先级信息对编码音频信号进行解码,其中,至少一个电路被配置成至少部分地通过以下方式根据优先级信息进行解码:对一个或多个编码音频信号中的由优先级信息表示的优先级程度等于或高于预定优先级程度的至少一个编码音频信号进行解码,并且避免对一个或多个编码音频信号中的由优先级信息表示的优先级程度低于预定优先级程度的至少一个其他编码音频信号进行解码;以及基于空间位置信息通过矢量基幅值相移VBAP对解码的音频信号进行渲染,以用于定位对象的声像。

Description

解码装置、解码方法及存储介质
本申请为于2016年9月14日提交、申请号为201580014248.6、发明名称为“编码装置和编码方法、解码装置和解码方法及程序”的中国专利申请的分案申请。所述母案申请的国际申请日为2015年3月16日,国际申请号为PCT/JP2015/001432,优先权日为2014年3月24日。
技术领域
本技术涉及编码装置和编码方法、解码装置和解码方法及程序,具体地,涉及可以减少用于对音频信号进行解码的计算量的编码装置和编码方法、解码装置和解码方法及程序。
<相关申请的交叉引用>
该申请要求于2014年3月24日提交的日本优先权专利申请JP 2014-060486以及于2014年7月2日提交的日本优先权专利申请JP 2014-136633的权益,上述两个文献中的每一个的全部内容在此通过引用被合并到本文中。
背景技术
例如,作为对音频信号进行编码的方法,已经提出了在作为国际标准的动态图像专家组(MPEG)-2高级音频编码(AAC)标准、MPEG-4 AAC标准以及MPEG-D统一语音和音频编码(USAC)下的多通道编码(例如,参考NPL 1和NPL 2)。
引用列表
非专利文献
NPL 1:国际标准ISO/IEC 14496-3第四版2009-09-01 Information technology-coding of audio-visual objects-part3:Audio NPL 2:国际标准ISO/IEC 23003-3第一版2012-04-01 Information technology-coding of audio-visual objects-part3:Unified speech and audio coding
发明内容
技术问题
附带地,有必要提供使用较多通道的编码技术,其与相关领域中的5.1通道环绕再现中的编码技术相比,在多个声音素材(对象)的再现或传输中更具在场感(sense ofpresence)。
例如,考虑对24个通道和多个对象的音频信号进行编码和解码的情况以及对两个通道的音频信号进行编码和解码的情况。在这种情况下,在计算能力差的移动设备中,可以对两个通道的音频信号实时地进行解码,然而,存在难以实时地对24个通道和多个对象的音频信号进行解码的情况。
在当前的音频编解码器如MPEG-D USAC等中,由于必须对所有通道和所有对象的音频信号进行解码,所以在解码时难以减少计算量。因此,存在以下问题:不可以取决于解码侧的装置实时地再现音频信号。
期望提供可以减少用于解码的计算量的编码装置和编码方法、解码装置和解码方法及程序。
问题的解决方案
根据本技术的第一实施方式的解码装置包括至少一个电路,所述电路被配置成:获取包括多个通道和/或多个对象的一个或多个编码音频信号以及所述多个通道和/或所述多个对象中的每一个的优先级信息,并且根据所述优先级信息对所述一个或多个编码音频信号进行解码。
所述至少一个电路可以被配置成至少部分地通过以下方式根据优先级信息进行解码:对所述一个或多个编码音频信号中的由优先级信息表示的优先级程度等于或高于预定优先级程度的至少一个编码音频信号进行解码,并且避免对所述一个或多个编码音频信号中的由优先级信息表示的优先级程度低于所述预定优先级程度的至少一个其他编码音频信号进行解码。
所述至少一个电路被配置成至少部分地基于所述多个通道和/或所述多个对象的优先级信息来改变所述预定优先级程度。
所述至少一个电路可以被配置成获取所述一个或多个编码音频信号的多组优先级信息,并且所述至少一个电路可以被配置成至少部分地通过选择所述多组优先级信息中的一组优先级信息并且至少部分地基于所述一组优先级信息进行解码来对所述一个或更多个编码音频信号进行解码。
所述至少一个电路可以被配置成根据解码装置的计算能力来选择所述多组优先级信息中的所述一组优先级信息。
所述至少一个电路还可以被配置成至少部分地基于所述编码音频信号来生成优先级信息。
所述至少一个电路可以被配置成至少部分地基于所述一个或多个编码音频信号的音频的声压或频谱形状来生成优先级信息。
对于所述多个通道中的至少一个第一通道和/或所述多个对象中的至少一个第一对象,所述多个通道和/或所述多个对象的优先级信息可以包括表示一段时间内所述至少一个第一通道和/或所述至少一个第一对象的不同优先级程度的优先级信息;并且所述至少一个电路可以被配置成至少部分地通过以下方式基于所述优先级信息进行解码:针对所述第一通道和/或所述第一对象,在所述一段时间期间的第一时间处,至少部分地基于所述第一时间处的第一通道和/或第一对象的优先级程度以及在所述一段时间期间并且在所述第一时间之前或之后的另一时间处的第一通道和/或第一对象的优先级程度来确定是否对所述第一时间处的第一通道和/或第一对象进行解码。
所述至少一个电路还可以被配置成:至少部分地通过将时间处的通道或对象的输出音频信号与第一时间之前或之后的第二时间处的通道或对象的输出音频信号相加来生成所述第一时间的音频信号,其中,所述时间的通道或对象的输出音频信号在执行对所述时间的通道或对象的解码的情况下是作为解码的结果由至少一个电路获得的信号,而在不执行对所述时间的通道或对象的解码的情况下是零数据,并且基于所述时间处的通道或对象的优先级信息以及所述时间之前或之后的其他时间处的通道或对象的优先级信息来执行所述时间处的通道或对象的输出音频信号的增益调整。
所述至少一个电路还可以被配置成:基于第一时间处的通道或对象的优先级信息以及第一时间之前或之后的第二时间处的通道或对象的优先级信息来调整通道或对象的高频功率值的增益;并且基于增益被调整的高频功率值和第一时间的音频信号来生成第一时间的音频信号的高频分量。
所述至少一个电路还可以被配置成:对于每个通道或每个对象,基于高频功率值和所述时间的音频信号来生成包括高频分量的第一时间的音频信号;并且执行包括高频分量的第一时间的音频信号的增益调整。
所述至少一个电路还可以被配置成:基于优先级信息将所述多个对象中的第一对象的音频信号分配给所述多个通道中的至少一些具有增益值的通道中的每个通道;并且生成所述多个通道中的每个通道的音频。
根据本技术的第一实施方式的解码方法或程序包括:获取一个或多个编码音频信号的多个通道和/或多个对象中的每一个的优先级信息,以及根据所述优先级信息对所述多个通道和/或所述多个对象进行解码。
根据本技术的第一实施方式,获取一个或多个编码音频信号的多个通道和/或多个对象中的每一个的优先级信息;并且根据所述优先级信息对所述多个通道和/或所述多个对象进行解码。
根据本技术的第二实施方式的编码装置包括:至少一个电路,被配置成生成音频信号的多个通道和/或多个对象中的每一个的优先级信息并且将所述优先级信息存储在比特流中。
所述至少一个电路可以被配置成至少部分地通过生成所述多个通道和/或所述多个对象中的每一个的多组优先级信息来生成优先级信息。
所述至少一个电路可以被配置成针对解码装置的多种计算能力中的每种计算能力生成所述多组优先级信息。
所述至少一个电路可以被配置成至少部分地基于音频信号的声压或频谱形状来生成优先级信息。
所述至少一个电路还可以被配置成对所述音频信号的多个通道和/或多个对象的音频信号进行编码以形成编码音频信号,并且所述至少一个电路还可以被配置成将优先级信息和编码音频信号存储在比特流中。
根据本技术的第二实施方式的编码方法和程序包括:生成音频信号的多个通道和/或多个对象中的每一个的优先级信息,以及将所述优先级信息存储在比特流中。
根据本技术的第二实施方式,生成音频信号的多个通道和/或多个对象中的每一个的优先级信息,并且将所述优先级信息存储在比特流中。
根据本技术的实施方式,一种解码装置,包括:至少一个电路,被配置成:获取包括多个对象的一个或多个编码音频信号以及所述多个对象中的每一个的优先级信息和空间位置信息;根据所述优先级信息对所述一个或多个编码音频信号进行解码,其中,所述至少一个电路被配置成至少部分地通过以下方式根据所述优先级信息进行解码:对所述一个或多个编码音频信号中的由所述优先级信息表示的优先级程度等于或高于预定优先级程度的至少一个编码音频信号进行解码,并且避免对所述一个或多个编码音频信号中的由所述优先级信息表示的优先级程度低于所述预定优先级程度的至少一个其他编码音频信号进行解码;以及基于所述空间位置信息通过矢量基幅值相移VBAP对解码的音频信号进行渲染,以用于定位所述对象的声像。
根据本技术的实施方式,一种解码方法包括:获取包括多个对象的一个或多个编码音频信号以及所述多个对象中的每一个的优先级信息和空间位置信息;根据所述优先级信息对所述一个或多个编码音频信号进行解码,其中,通过以下方式根据所述优先级信息进行解码:对所述一个或多个编码音频信号中的由所述优先级信息表示的优先级程度等于或高于预定优先级程度的至少一个编码音频信号进行解码,并且避免对所述一个或多个编码音频信号中的由所述优先级信息表示的优先级程度低于所述预定优先级程度的至少一个其他编码音频信号进行解码;以及基于所述空间位置信息通过矢量基幅值相移VBAP对解码的音频信号进行渲染,以用于定位所述对象的声像。
根据本技术的实施方式,一种编码有可执行指令的非暂态计算机可读存储介质,当所述可执行指令由至少一个处理器执行时,使所述至少一个处理器执行包括以下的方法:获取包括多个对象的一个或多个编码音频信号以及所述多个对象中的每一个的优先级信息和空间位置信息;根据所述优先级信息对所述一个或多个编码音频信号进行解码,其中,通过以下方式根据所述优先级信息进行解码:对所述一个或多个编码音频信号中的由所述优先级信息表示的优先级程度等于或高于预定优先级程度的至少一个编码音频信号进行解码,并且避免对所述一个或多个编码音频信号中的由所述优先级信息表示的优先级程度低于所述预定优先级程度的至少一个其他编码音频信号进行解码;以及基于所述空间位置信息通过矢量基幅值相移VBAP对解码的音频信号进行渲染,以用于定位所述对象的声像。
发明的有益效果
根据第一实施方式和第二实施方式,可以减少用于解码的计算量。
在此描述的效果不一定限制于此,并且在此描述的效果可以是本公开内容中描述的任意效果。
附图说明
[图1]图1是说明比特流的图。
[图2]图2是说明编码的图。
[图3]图3是说明优先级信息的图。
[图4]图4是说明优先级信息的值的含义的图。
[图5]图5是示出了编码装置的配置示例的图。
[图6]图6是示出了通道音频编码单元的图。
[图7]图7是示出了对象音频编码单元的图。
[图8]图8是说明编码处理的流程图。
[图9]图9是示出了解码装置的配置示例的图。
[图10]图10是解包/解码单元的配置示例。
[图11]图11是说明解码处理的流程图。
[图12]图12是说明选择性解码处理的流程图。
[图13]图13是解包/解码单元的另一配置示例。
[图14]图14是说明选择性解码处理的流程图。
[图15]图15是示出了对象的元数据的语法的示例的图。
[图16]图16是说明音频信号的生成的图。
[图17]图17是说明音频信号的生成的图。
[图18]图18是说明MDCT系数的输出目的地的选择的图。
[图19]图19是说明了高频带中的音频信号和功率值的增益调整的图。
[图20]图20是说明了高频带中的音频信号和功率值的增益调整的图。
[图21]图21是示出了解包/解码单元的另一配置示例的图。
[图22]图22是说明选择性解码处理的流程图。
[图23]图23是说明音频信号的增益调整的图。
[图24]图24是说明音频信号的增益调整的图。
[图25]图25是示出了解包/解码单元的另一配置示例的图。
[图26]图26是说明选择性解码处理的流程图。
[图27]图27是说明VBAP增益的图。
[图28]图28是说明VBAP增益的图。
[图29]图29是示出了解包/解码单元的另一配置示例的图。
[图30]图30是说明解码处理的流程图。
[图31]图31是说明选择性解码处理的流程图。
[图32]图32是示出了计算机的配置示例的图。
具体实施方式
在下文中,将参考附图来描述应用本技术的实施方式。
<第一实施方式>
<本技术的概述>
在对组成多通道的信号的每个通道的音频信号以及对象的音频信号进行编码时,在本技术中,可以通过传送每个通道的音频信号的优先级信息和每个对象的音频信号的优先级信息来减少解码时的计算量。
另外,在本技术中,在解码侧,在由每个通道或每个对象的优先级信息表示的优先级程度等于或高于预定优先级程度的情况下执行频率时间转换,而在每个通道或每个对象的优先级信息中表示的优先级程度低于预定优先级程度的情况下不执行频率时间转换并且使频率时间转换的结果为零,因此,可以减少对音频信号进行解码时的计算量。
在下文中,将描述根据AAC标准对组成多通道的信号的每个通道的音频信号以及对象的音频信号进行编码的情况。然而,在通过另外的方法进行编码的情况下,将执行相同的处理。
例如,在组成多通道的每个通道的音频信号和多个对象的音频信号被根据AAC标准编码并且被传送的情况下,针对每个帧对每个通道或每个对象的音频信号进行编码和传送。
具体地,如图1所示,将对音频信号进行解码所必需的编码音频信号或信息存储在多个元素(比特流元素)中,并且传送那些比特流元素构成的比特流。
在该示例中,在针对一个帧的比特流中,从头部按顺序布置数量为t的元素EL1至元素ELt,最后布置表示帧的结束位置的与帧的信息有关的标识符TERM。
例如,布置在头部的元素EL1是被称为数据流元素(DSE)的辅助数据区,并且在DSE中描述了关于多个通道中的每一个的信息如关于音频信号的下混合的信息或标识信息。
在元素El1之后的元素EL2至ELt中,编码音频信号被存储。
具体地,将存储单个通道的音频信号的元素称为SCE,将存储一对两个通道的音频信号的元素称为CPE。另外,将每个对象的音频信号称为SCE。另外,将每个对象的音频信号存储在SCE中。
在本技术中,组成多通道的信号的每个通道的音频信号的优先级信息以及对象的音频信号的优先级信息被生成并且被存储在DSE中。
例如,如图2所示,假定对连续帧F11至F13的音频信号进行编码。
在这种情况下,编码装置(编码器)针对这些帧中的每个帧分析每个通道的音频信号的优先级程度的等级,例如如图3所示,并且生成每个通道的优先级信息。类似地,编码装置还生成每个对象的音频信号的优先级信息。
例如,编码装置基于音频信号的声压或频谱形状以及通道之间或对象之间的频谱形状的相关性来分析音频信号的优先级程度的等级。
在图3中,作为示例示出了通道总数为M的情况下的每个通道的优先级信息。即,对于从通道号为0的通道到通道号为M–1的通道的每个通道,表示那些通道的信号的优先级程度的数值作为优先级信息被示出。
例如,通道号为0的通道的优先级信息为3,通道号为1的通道的优先级信息为0。假定预定通道号为m(m=0,1,...,m-1)的通道还被称为通道m。
图3所示的优先级信息的值是如图4所示的从0至7的任意值,随着优先级信息的值增大,再现音频信号时的优先级程度即重要程度变得较高。
因此,优先级信息的值为0的音频信号具有最低的优先级程度,而优先级信息的值为7的音频信号具有最高的优先级程度。
在同时再现多通道的音频信号和多个对象的音频信号的情况下,相比另一种声音不那么重要的声音被包括在从这些音频信号再现的声音中。换言之,即使不再现来自全部声音的特定声音,也仍然存在不会引起听众的不舒服感的程度的声音。
因此,如果必要时不执行对优先级程度低的音频信号的解码,则可以抑制音质的劣化并且减少用于解码的计算量。因此,在编码装置中,以可以适当地选择将不被解码的音频信号的这样的方式将再现时每个音频信号的重要程度即表示解码中的优先级的优先级信息分配给每个帧的每个音频信号。
如上所述,当每个音频信号的优先级信息被确定时,将优先级信息存储在图1所示的元素EL1的DSE中。具体地,在图3的示例中,由于配置多通道的音频信号的通道数为M,所以通道0至通道M–1这M个通道中的每个通道的优先级信息被存储在DSE中。
类似地,每个对象的优先级信息也被存储在元素EL1的DSE中。在此,例如,当假定存在对象号从0至N–1的N个对象时,N个对象中的每个对象的优先级信息被确定并且被存储在DSE中。
在下文中,预定对象号n(n=0,1,...,N-1)的对象也被称为对象n。
以这种方式,如果在再现侧中即在音频信号的解码侧中确定每个音频信号的优先级信息,则可以简单地指定在再现时哪个音频信号重要并且要利用优先级来解码即要在再现中被使用。
再参考图2,例如,假定预定通道中的帧F11和帧F13的音频信号的优先级信息为7,并且预定通道中的帧F12的音频信号的优先级信息为0。
另外,假定在对音频信号进行解码的一侧即在解码装置(解码器)中对优先级程度低于预定优先级程度的音频信号不执行解码。
在此,例如,如果将预定优先级程度称为阈值并且如果阈值为4,则在上述示例中,对优先级信息为7的预定通道中的帧F11和帧F13的音频信号执行解码。
另一方面,对优先级信息为0的预定通道中的帧F12的音频信号不执行解码。
因此,在该示例中,帧F12的音频信号变为无声信号,帧F11和帧F13的音频信号被合成,并且然后变为预定通道的最终音频信号。
更具体地,例如,在对每个音频信号进行编码时,对所述音频信号执行时间频率转换,并且对通过时间频率转换获得的信息进行编码,然后,将作为编码的结果而获得的编码数据存储在元素中。
对于时间频率转换,可以执行任何处理。然而,在下文中,将继续进行以下描述:改进离散余弦变换(MDCT)作为时间频率转换被执行。
另外,在解码装置中,对编码数据执行解码,并且对从解码的结果而获得的MDCT系数执行逆改进离散余弦逆变换(IMDCT),然后生成音频信号。即,在此,IMDCT作为时间频率转换的逆转换(频率时间转换)被执行。
更具体地,出于这个原因,对优先级信息等于或大于阈值的值为4的帧F11和帧F13执行IMDCT并且生成音频信号。
另外,对优先级信息小于阈值的值为4的帧F12不执行IMDCT,并且IMDCT的结果为0,然后生成音频信号。以这种方式,帧F12的音频信号变为无声信号,即零数据。
此外,作为另一种示例,在图3所示的示例中,当阈值为4时,在通道0至通道M–1中的每个通道的音频信号中,对优先级信息的值小于阈值4的通道0、通道1和通道M–2的音频信号不执行解码。
如上所述,根据优先级信息与阈值之间比较的结果,对由优先级信息表示的优先级程度低的音频信号不执行解码,因此,可以使音质的劣化最小化并且减少用于解码的计算量。
<编码装置的配置示例>
接下来,将描述应用本技术的编码装置和解码装置的具体实施方式。首先,将描述编码装置。
图5是示出了应用本技术的编码装置的配置示例的图。
图5中的编码装置11包括通道音频编码单元21、对象音频编码单元22、元数据输入单元23和打包单元24。
通道数量为M的多通道信号的每个通道的音频信号被提供至通道音频编码单元21。例如,通道中的每一个的音频信号由与那些通道对应的麦克风提供。在图5中,文字“#0”至“#M-1”表示相应通道的通道号。
通道音频编码单元21对所提供的每个通道的音频信号进行编码并且基于音频信号生成优先级信息,然后,将通过编码获得的编码数据和优先级信息提供至打包单元24。
N个通道中的每个通道的音频信号被提供至对象音频编码单元22。例如,对象的音频信号分别由与那些通道对应的麦克风来提供。在图5中,文字“#0”至“#N-1”表示相应对象的对象号。
对象音频编码单元22对所提供的每个通道的音频信号进行编码并且基于音频信号生成优先级信息,然后,将通过编码获得的编码数据和优先级信息提供至打包单元24。
元数据输入单元23将每个对象的元数据提供至打包单元24。例如,假定每个对象的元数据是表示对象在空间中的位置的空间位置信息。更具体地,例如,空间位置信息可以是表示对象在三维空间中的位置坐标的三维坐标信息。
打包单元24对从通道音频编码单元21提供的编码数据和优先级信息、从对象音频编码单元22提供的编码数据和优先级信息以及从元数据输入单元23提供的元数据执行打包,并且生成比特流以输出所生成的比特流。
在以这种方式获得的比特流中,包括每个帧的每个通道的编码数据、每个通道的优先级信息、每个对象的编码数据、每个对象的优先级信息以及每个对象的元数据。
在此,存储在一个帧的比特流中的M个通道中的每个通道的音频信号和N个对象中的每个对象的音频信号是要同时再现的同一帧的音频信号。
在此,作为每个通道或每个对象的音频信号的优先级信息,描述了关于一个帧的每个音频信号生成优先级信息的示例。然而,可以关于例如预定时间单元内的若干帧的音频信号生成一个优先级信息项。
<通道音频编码单元的配置示例>
另外,图5中的通道音频编码单元21的更具体的配置例如如图6所示的那样来配置。
图6所示的通道音频编码单元21包括编码单元51和优先级信息生成单元52。
编码单元51包括MDCT单元61,并且编码单元51对从外部提供的每个通道的音频信号进行编码。
即,MDCT单元61对从外部提供的每个通道的音频信号执行MDCT。编码单元51对通过MDCT获得的每个通道的MDCT系数进行编码,并且将通过编码获得的每个通道的编码数据作为结果即编码音频信号提供至打包单元24。
另外,优先级信息生成单元52分析从外部提供的每个通道的音频信号并且生成每个通道的音频信号的优先级信息,而且将优先级信息提供至打包单元24。
<对象音频编码单元的配置示例>
此外,图5中的对象音频编码单元22的更具体的配置例如如图7所示的那样来配置。
图7所示的对象音频编码单元22包括编码单元91和优先级信息生成单元92。
编码单元91包括MDCT单元101,并且编码单元91对从外部提供的每个对象的音频信号进行编码。
也就是说,MDCT单元101对从外部提供的每个对象的音频信号执行MDCT。编码单元91对通过MDCT获得的每个通道的MDCT系数进行编码,并且将通过编码获得的每个对象的编码数据作为结果即编码音频信号提供至打包单元24。
另外,优先级信息生成单元92分析从外部提供的每个对象的音频信号并且生成每个对象的音频信号的优先级信息,而且将优先级信息提供至打包单元24。
<对编码处理的描述>
接下来,将描述由编码装置11执行的处理。
当仅为一个帧提供同时再现的多个通道的音频信号和多个对象的音频信号时,编码装置11执行编码处理并且输出包括编码音频信号的比特流。
在下文中,将参考图8的流程图来描述由编码装置11进行的编码处理。针对音频信号的每个帧来执行编码处理。
在步骤S11中,通道音频编码单元21的优先级信息生成单元52生成所提供的每个通道的音频信号的优先级信息,并且将该优先级信息提供至打包单元24。例如,优先级信息生成单元52分析每个通道的音频信号,并且基于音频信号的声压或频谱形状以及通道之间的频谱形状的相关性来生成优先级信息。
在步骤S12中,打包单元24将从优先级信息生成单元52提供的每个通道的音频信号的优先级信息存储在比特流的DSE中。即,将优先级信息存储在比特流的头元素中。
在步骤S13中,对象音频编码单元22的优先级信息生成单元92生成所提供的每个对象的音频信号的优先级信息,并且将该优先级信息提供至打包单元24。例如,优先级信息生成单元92分析每个对象的音频信号,并且基于音频信号的声压或频谱形状以及通道之间的频谱形状的相关性来生成优先级信息。
当生成每个通道或每个对象的音频信号的优先级信息时,对于作为优先级信息的值的每个优先级程度,可以关于通道数量或对象数量预先确定被分配给优先级程度的音频信号的数量。
例如,在图3中的示例中,被分配给优先级信息“7”的音频信号的数量,即可以预先确定的通道数量为5,可以将被分配给优先级信息“6”的音频信号的数量可以预先确定为3。
在步骤S14中,打包单元24将从优先级信息生成单元92提供的每个对象的音频信号的优先级信息存储在比特流的DSE中。
在步骤S15中,打包单元24将每个对象的元数据存储在比特流的DSE中。
例如,元数据输入单元23通过从用户接收输入、与外部进行通信、或者执行从外部存储区域读取来获取每个对象的元数据,并且将元数据提供至打包单元24。打包单元24将以这种方式从元数据输入单元23提供的元数据存储在DSE中。
作为上述处理的结果,所有通道的音频信号的优先级信息、所有对象的音频信号的优先级信息和所有对象的元数据被存储在比特流的DSE中。
在步骤S16中,通道音频编码单元21的编码单元51对所提供的每个通道的音频信号进行编码。
具体地,MDCT单元61对每个通道的音频信号执行MDCT,编码单元51对通过MDCT获得的每个通道的MDCT系数进行编码,并且将作为编码的结果而获得的每个通道的编码数据提供至打包单元24。
在步骤S17中,打包单元24将从编码单元51提供的每个通道的音频信号的编码数据存储在比特流的SCE或CPE中。即,将编码数据存储在布置在比特流中的DSE之后的每个元素中。
在步骤S18中,对象音频编码单元22的编码单元91对所提供的每个对象的音频信号进行编码。
具体地,MDCT单元101对每个对象的音频信号执行MDCT,编码单元91对通过MDCT获得的每个通道的MDCT系数进行编码,并且将作为编码的结果而获得的每个对象的编码数据提供至打包单元24。
在步骤S19中,打包单元24将从编码单元91提供的每个对象的音频信号的编码数据存储在比特流的SCE中。即,将编码数据存储在晚于比特流中的DSE布置的一些元素中。
作为上述处理的结果,对于要被处理的帧,可以获得比特流,在所述比特流中存储所有通道的音频信号的优先级信息和编码数据、所有对象的音频信号的优先级信息和编码数据以及所有对象的元数据。
在步骤S20中,打包单元24输出所获得的比特流并且结束编码处理。
如上所述,编码装置11生成每个通道的音频信号的优先级信息和每个对象的音频信号的优先级信息,将优先级信息存储在比特流中,并且输出优先级信息。因此,在解码侧中,可以简单地确定哪个音频信号具有较高的优先级程度。
以这种方式,在解码侧中,可以根据优先级信息来选择性地执行对编码音频信号的解码。因此,可以使从音频信号再现的声音的音质的劣化最小化并且减少用于解码的计算量。
具体地,通过将每个对象的音频信号的优先级信息存储在比特流中,在解码侧中,不仅可以减少用于解码的计算量,而且可以减少此后用于渲染的处理等的计算量。
<解码装置的配置示例>
接下来,将描述解码装置,从上述编码装置11输出的比特流被输入至所述解码装置,并且所述解码装置对包括在比特流中的编码数据进行解码。
这样的解码装置例如如图9所示的那样被配置。
图9所示的解码装置151包括解包/解码单元161、渲染单元162和混合单元163。
解包/解码单元161获取从编码装置11输出的比特流并且执行对比特流的解包和解码。
解包/解码单元161将每个对象的元数据和通过解包和解码获得的每个对象的音频信号提供至渲染单元162。此时,解包/解码单元161根据包括在比特流中的优先级信息来执行对每个对象的编码数据的解码。
另外,解包/解码单元161将根据解包和解码获得的每个通道的音频信号提供至混合单元163。此时,解包/解码单元161根据包括在比特流中的优先级信息来执行对每个通道的编码数据的解码。
渲染单元162基于从解包/解码单元161提供的每个对象的音频信号和作为每个对象的元数据的空间位置信息来生成M个通道的音频信号,并且将所述音频信号提供至混合单元163。此时,渲染单元162以以下方式生成M个通道中的每个通道的音频信号:每个对象的声像将被正确地定位在由每个对象的空间位置信息表示的位置处。
混合单元163对每个通道执行从解包/解码单元161提供的每个通道的音频信号与从渲染单元162提供的每个通道的音频信号的加权相加,然后生成每个通道的最终音频信号。混合单元163将如上所述获得的每个通道的最终音频信号提供至与每个通道对应的外部扬声器以再现声音。
<解包/解码单元的配置示例>
另外,更具体地,图9所示的解码装置151的解包/解码单元161例如如图10所示的那样来配置。
图10中的解包/解码单元161包括优先级信息获取单元191、通道音频信号获取单元192、通道音频信号解码单元193、输出选择单元194、零值输出单元195、IMDCT单元196、对象音频信号获取单元197、对象音频信号解码单元198、输出选择单元199、零值输出单元200和IMDCT单元201。
优先级信息获取单元191从所提供的比特流获取每个通道的音频信号的优先级信息并且将所述优先级信息提供至输出选择单元194,而且从比特流获取每个对象的音频信号的优先级信息并且将所述优先级信息提供至输出选择单元199。
另外,优先级信息获取单元191从所提供的比特流获取每个对象的元数据并且将所述元数据提供至渲染单元162,而且将比特流提供至通道音频信号获取单元192和对象音频信号获取单元197。
通道音频信号获取单元192从由优先级信息获取单元191提供的比特流获取每个通道的编码数据,并且将所述编码数据提供至通道音频信号解码单元193。通道音频信号解码单元193对从通道音频信号获取单元192提供的每个通道的编码数据进行解码,并且将作为解码的结果而获得的MDCT系数提供至输出选择单元194。
输出选择单元194基于从优先级信息获取单元191提供的每个通道的优先级信息来选择性地切换从通道音频信号解码单元193提供的每个通道的MDCT系数的输出目的地。
也就是说,在预定通道的优先级信息小于预定阈值P的情况下,输出选择单元194将那个通道的MDCT系数提供至零值输出单元195作为值0。另外,在预定通道的优先级信息等于或大于预定阈值P的情况下,输出选择单元194将从通道音频信号解码单元193提供的那个通道的MDCT系数提供至IMDCT单元196。
零值输出单元195基于从输出选择单元194提供的MDCT系数生成音频信号,并且将所述音频信号提供至混合单元163。在这种情况下,由于MDCT系数为零,所以生成无声音频信号。
IMDCT单元196基于从输出选择单元194提供的MDCT系数来执行IMDCT并且生成音频信号,并且将所述音频信号提供至混合单元163。
对象音频信号获取单元197从由优先级信息获取单元191提供的比特流获取每个对象的编码数据,并且将所述编码数据提供至对象音频信号解码单元198。对象音频信号解码单元198对从对象音频信号获取单元197提供的每个对象的编码数据进行解码,并且将根据解码的结果获得的MDCT系数提供至输出选择单元199。
输出选择单元199基于从优先级信息获取单元191提供的每个对象的优先级信息来选择性地切换从对象音频信号解码单元198提供的每个通道的MDCT系数的输出目的地。
也就是说,在预定对象的优先级信息小于预定阈值Q的情况下,输出选择单元199将那个对象的MDCT系数提供至零值输出单元200作为值0。另外,在预定对象的优先级信息等于或大于预定阈值Q的情况下,输出选择单元199将从对象音频信号解码单元198提供的那个对象的MDCT系数提供至IMDCT单元201。
阈值Q的值可以与阈值P的值相同,或者可以是与阈值P不同的值。通过取决于解码装置151的计算能力等适当地确定阈值P和阈值Q,可以减少用于对音频信号进行解码的计算量直至在以下范围内的计算量:在该范围内解码装置151可以实时地执行解码。
零值输出单元200基于从输出选择单元199提供的MDCT系数生成音频信号,并且将所述音频信号提供至渲染单元162。在这种情况下,由于MDCT系数为零,所以生成无声音频信号。
IMDCT单元201基于从输出选择单元199提供的MDCT系数来执行IMDCT并且生成音频信号,并且将所述音频信号提供至渲染单元162。
<对解码处理的描述>
接下来,将描述解码装置151的操作。
当一个帧的比特流由编码装置11提供时,解码装置151执行解码处理并且生成音频信号,而且将所述音频信号输出至扬声器。此后,将参考图11中的流程图来描述由解码装置151执行的解码处理。
在步骤S51中,解包/解码单元161获取从编码装置11发送的比特流。
即,所述比特流被接收。
在步骤S52中,解包/解码单元161执行选择性解码处理。
稍后将详细描述选择性解码处理,然而,在所述选择性解码处理中,基于优先级信息对每个通道的编码数据和每个对象的编码数据选择性地进行解码。然后,将作为选择性解码的结果而获得的每个通道的音频信号提供至混合单元163,并且将作为选择性解码的结果而获得的每个对象的音频信号提供至渲染单元162。另外,将从比特流获得的每个对象的元数据提供至渲染单元162。
在步骤S53中,渲染单元162基于从解包/解码单元161提供的每个对象的音频信号以及作为每个对象的元数据的空间位置信息来执行对每个对象的音频信号的渲染。
例如,渲染单元162以下述方式基于空间位置信息通过矢量基幅值相移(VBAP)来生成每个通道的音频信号:每个对象的声像被正确地定位在由空间位置信息表示的位置处,并且将所述音频信号提供至混合单元163。
在步骤S54中,混合单元163对每个通道执行从解包/解码单元161提供的每个通道的音频信号与从渲染单元162提供的每个通道的音频信号的加权相加,并且将相加的音频信号提供至外部扬声器。以这种方式,将每个通道的音频信号提供至与每个通道对应的每个扬声器,因此,基于提供给每个扬声器的音频信号来再现声音。
当每个通道的音频信号被提供至扬声器时,解码处理结束。
如上所述,解码装置151从比特流获取优先级信息,并且根据所述优先级信息对每个通道和每个对象的编码数据进行解码。
<对选择性解码处理的描述>
随后,将参考图12的流程图来描述与图11中的步骤S52中的处理对应的选择性解码处理。
在步骤S81中,优先级信息获取单元191从所提供的比特流获取每个通道的音频信号的优先级信息以及每个对象的音频信号的优先级信息,并且将优先级信息项中的每一项分别提供至输出选择单元194和输出选择单元199。
另外,优先级信息获取单元191从比特流获取每个对象的元数据,并且将所述元数据提供至渲染单元162,而且将比特流提供至通道音频信号获取单元192和对象音频信号获取单元197。
在步骤S82中,通道音频信号获取单元192在要被处理的通道中将通道号设置为0并且保持该通道号。
在步骤S83中,通道音频信号获取单元192确定所保持的通道号是否小于通道数量M。
在步骤S83中,在通道号小于M的情况下,在步骤S84中,通道音频信号解码单元193对要被处理的通道的音频信号的编码数据进行解码。
也就是说,通道音频信号获取单元192从由优先级信息获取单元191提供的比特流获取要经受处理的通道的编码数据,并且将所述编码数据提供至通道音频信号解码单元193。
然后,通道音频信号解码单元193对从通道音频信号获取单元192提供的编码数据进行解码,并且将作为解码的结果而获得的MDCT系数提供至输出选择单元194。
在步骤S85中,输出选择单元194确定从优先级信息获取单元191提供的要经受处理的通道的优先级信息是否等于或大于由未示出的较高级别的控制装置指定的阈值P。在此,阈值P例如取决于解码装置151的计算能力来确定。
在于步骤S85中确定优先级信息等于或大于阈值P的情况下,输出选择单元194将从通道音频信号解码单元193提供的要经受处理的通道的MDCT系数提供至IMDCT单元196,并且该处理进行至步骤S86。在这种情况下,要经受处理的通道的音频信号的优先级程度等于或高于预定优先级程度。因此,执行对那个通道的解码,更具体地,执行IMDCT。
在步骤S86中,IMDCT单元196基于从输出选择单元194提供的MDCT系数来执行IMDCT,并且生成要经受处理的通道的音频信号,而且将所述音频信号提供至混合单元163。在生成音频信号之后,该处理进行至步骤S87。
另一方面,在步骤S85中确定优先级信息小于阈值P的情况下,输出选择单元194将MDCT系数提供至零值输出单元195作为零值。
零值输出单元195根据从输出选择单元194提供的值为零的MDCT系数来生成要经受处理的通道的音频信号,并且将所述音频信号提供至混合单元163。因此,在零值输出单元195中,基本上不执行用于生成音频信号的处理如IMDCT。
由零值输出单元195生成的音频信号是无声信号。在生成音频信号之后,该处理进行至步骤S87。
如果在步骤S85中确定优先级信息小于阈值P或者在步骤S86中生成音频信号,则在步骤S87中通道音频信号获取单元192将所保持的通道号加1以更新要经受处理的通道的通道号。
在更新了通道号之后,该处理返回至步骤S83,并且重复执行上述处理。即,生成要经受处理的新通道的音频信号。
另外,在步骤S83中确定要经受处理的通道的通道号不小于M的情况下,由于已经获得了所有通道的音频信号,所以该处理进行至步骤S88。
在步骤S88中,对象音频信号获取单元197将要经受处理的对象的对象号设置为0并且保持该对象号。
在步骤S89中,对象音频信号获取单元197确定所保持的对象号是否小于对象数量N。
在步骤S89中确定对象号小于N的情况下,在步骤S90中,对象音频信号解码单元198对要被处理的对象的音频信号的编码数据进行解码。
也就是说,对象音频信号获取单元197从由优先级信息获取单元191提供的比特流获取要经受处理的对象的编码数据,并且将所述编码数据提供至对象音频信号解码单元198。
然后,对象音频信号解码单元198对从对象音频信号获取单元197提供的编码数据进行解码,并且将作为解码的结果而获得的MDCT系数提供至输出选择单元199。
在步骤S91中,输出选择单元199确定由优先级信息获取单元191提供的要经受处理的对象的优先级信息是否等于或大于由未示出的较高级别的控制装置指定的阈值Q。在此,阈值Q例如取决于解码装置151的计算能力来确定。
在步骤S91中确定优先级信息等于或大于阈值Q的情况下,输出选择单元199将从对象音频信号解码单元198提供的要经受处理的对象的MDCT系数提供至IMDCT单元201,并且该处理进行至步骤S92。
在步骤S92中,IMDCT单元201基于从输出选择单元199提供的MDCT系数来执行IMDCT并且生成要经受处理的对象的音频信号,而且将所述音频信号提供至渲染单元162。在生成音频信号之后,该处理进行至步骤S93。
另一方面,在步骤S91中确定优先级信息小于阈值Q的情况下,输出选择单元199将MDCT系数提供至零值输出单元200作为零值。
零值输出单元200根据从输出选择单元199提供的值为零的MDCT系数来生成要经受处理的对象的音频信号,并且将所述音频信号提供至渲染单元162。因此,在零值输出单元200中,基本上不执行用于生成音频信号的处理如IMDCT。
由零值输出单元200生成的音频信号是无声信号。在生成音频信号之后,该处理进行至步骤S93。
如果在步骤S91中确定优先级信息小于阈值Q或者在步骤S92中生成了音频信号,则在步骤S93中对象音频信号获取单元197将所保持的对象号加1以更新要经受处理的对象的对象号。
在更新了通道号之后,该处理返回至步骤S89,并且重复执行上述处理。即,生成要经受处理的新对象的音频信号。
另外,在步骤S89中确定要经受处理的通道的通道号不小于M的情况下,由于已经获得了所有通道和所有对象的音频信号,所以选择性解码处理结束,然后该处理进行至图11中的步骤S53。
如上所述,解码装置151将每个通道和每个对象的优先级信息与阈值进行比较,并且通过确定是否对要被处理的帧的每个通道和每个对象的编码音频信号执行解码来对所述编码音频信号进行解码。
也就是说,在解码装置151中,取决于每个音频信号的优先级信息对仅预定数量的编码音频信号进行解码,而对剩余音频信号不进行解码。
以这种方式,为了与再现环境匹配,可以仅对优先级程度高的音频信号选择性地进行解码。因此,可以使根据音频信号再现的声音的音质的劣化最小化并且减少用于解码的计算量。
此外,基于每个对象的音频信号的优先级信息来执行对编码音频信号的解码。因此,不仅可以减少用于对音频信号进行解码的计算量,而且可以减少用于此后处理如渲染单元162中的处理的计算量。
<第一实施方式的修改示例1>
<优先级信息>
在上面的描述中,关于每个通道和每个对象的一个音频信号生成一个优先级信息项。然而,可以生成多个优先级信息项。
在这种情况下,例如,可以根据用于解码的计算量即解码侧处的计算能力,针对每个计算能力生成多个优先级信息项。
具体地,例如,基于用于对相当于两个实时通道的音频信号进行解码的计算量来生成具有相当于两个通道的计算能力的装置的优先级信息项。
在等同于两个通道的装置的优先级信息项中,例如,在所有音频信号之间生成优先级信息项,使得将低优先级程度即接近0的值作为优先级信息分配给其的音频信号的数量变大。
另外,例如,还基于用于对相当于24个实时通道的音频信号进行解码的计算量来生成具有相当于24个通道的计算能力的装置的优先级信息项。在相当于24个通道的装置的优先级信息项中,例如所有音频信号之间生成优先级信息项,使得将高优先级程度即接近7的值作为优先级信息分配给其的音频信号的数量变大。
在这种情况下,例如,在图8的步骤S11中,优先级信息生成单元52关于每个通道的音频信号生成相当于两个通道的装置的优先级信息项,并且将表示所述优先级信息项是针对相当于两个通道的装置的标识符添加至所述优先级信息项,然后将所述优先级信息项提供至打包单元24。
此外,在步骤S11中,优先级信息生成单元52关于每个通道的音频信号生成相当于24个通道的装置的优先级信息项,并且将表示所述优先级信息项是针对相当于24个通道的装置的标识符添加至所述优先级信息项,然后将所述优先级信息项提供至打包单元24。
类似地,在图8步骤S13中,优先级信息生成单元92还生成相当于两个通道的装置的优先级信息项以及相当于24个通道的装置的优先级信息项并且添加标识符,然后将所述优先级信息项提供至打包单元24。
以这种方式,例如,根据诸如便携式音频播放器、多功能移动电话、平板型计算机、电视接收器、个人计算机和高品质音频设备的再现装置的计算能力来获得多个优先级信息项。
例如,再现装置如便携式音频播放器的计算能力相对低。因此,在这样的再现装置中,如果基于相当于两个通道的装置的优先级信息项对编码音频信号进行解码,则可以实时地执行音频信号的再现。
如上所述,在关于一个音频信号生成多个优先级信息项的情况下,例如,在解码装置151中,优先级信息获取单元191由较高级别的控制装置进行指示以确定多个优先级信息项中的哪个优先级信息将用于执行解码。通过提供例如标识符来执行确定哪个优先级信息将被使用的指令。
对于每个解码装置151而言,可以预先做出标识符的哪个优先级信息将被使用的确定。
例如,在优先级信息获取单元191中,在预先确定要使用标识符的哪个优先级信息的情况下,或者在标识符由较高级别的控制装置来指定的情况下,在图12的步骤S81中,优先级信息获取单元191获取添加了所确定的标识符的优先级信息。然后,将所获取的优先级信息从优先级信息获取单元191提供至输出选择单元194或输出选择单元199。
换言之,在存储在比特流中的多个优先级信息项中,根据解码装置151的计算能力,具体地,解包/解码单元161的计算能力,来选择一个适当的优先级信息项。
在这种情况下,不同的标识符可以用于每个通道的优先级信息以及每个对象的优先级信息,并且可以从比特流读取所述优先级信息。
如上所述,通过选择性地获取包括在比特流中的多个优先级信息项中的特定优先级信息项,可以根据解码装置151的计算能力来选择适当的优先级信息,并且可以执行解码。以这种方式,可以在任一解码装置151中实时地再现音频信号。
<第二实施方式>
<解包/解码单元的配置示例>
在上面的描述中,描述了优先级信息被包括在从编码装置11输出的比特流中的示例。然而,取决于编码装置,优先级信息可以被包括或可以不被包括在比特流中。
因此,可以在解码装置151中生成优先级信息。例如,可以使用表示音频信号的声压的信息或者表示可以从包括在比特流中的音频信号的编码数据提取的频谱形状的信息来生成优先级信息。
在如上所述在解码装置151中生成优先级信息的情况下,解码装置151的解包/解码单元161例如如图13所示的那样被配置。在图13中,将相同的附图标记给予与图10中的情形对应的要素,并且将不重复对其的描述。
图13中的解包/解码单元161包括通道音频信号获取单元192、通道音频信号解码单元193、输出选择单元194、零值输出单元195、IMDCT单元196、对象音频信号获取单元197、对象音频信号解码单元198、输出选择单元199、零值输出单元200、IMDCT单元201、优先级信息生成单元231和优先级信息生成单元232。
图13所示的解包/解码单元161的配置与图10所示的解包/解码单元161的不同之处在于:新设置了优先级信息生成单元231和优先级信息生成单元232而没有设置优先级信息获取单元191,而其他配置与图10中的解包/解码单元161相同。
通道音频信号获取单元192从所提供的比特流获取每个通道的编码数据,并且将所述编码数据提供至通道音频信号解码单元193和优先级信息生成单元231。
优先级信息生成单元231基于从通道音频信号获取单元192提供的每个通道的编码数据来生成每个通道的优先级信息,并且将所述优先级信息提供至输出选择单元194。
对象音频信号获取单元197从所提供的比特流获取每个对象的编码数据,并且将所述编码数据提供至对象音频信号解码单元198和优先级信息生成单元232。另外,对象音频信号获取单元197从所提供的比特流获取每个对象的元数据,并且将所述元数据提供至渲染单元162。
优先级信息生成单元232基于由对象音频信号获取单元197提供的每个对象的编码数据生成每个对象的优先级信息,并且将所述优先级信息提供至输出选择单元199。
<关于选择性解码处理的描述>
在如图13所示配置解包/解码单元161的情况下,解码装置151如与图11所示的解码处理的步骤S52对应的处理一样执行图14所示的选择性解码处理。在下文中,将参考图14中的流程图描述通过解码装置151进行的选择性解码处理。
在步骤S131中,优先级信息生成单元231生成每个通道的优先级信息。
例如,通道音频信号获取单元192从提供的比特流获取每个通道的编码数据,并且将所述编码数据提供至通道音频信号解码单元193和优先级信息生成单元231。
优先级信息生成单元231基于从通道音频信号获取单元192提供的每个通道的编码数据来生成每个通道的优先级信息,并且将所述优先级信息提供至输出选择单元194。
例如,在比特流中,用于获得MDCT系数的比例因子、边信息和量化频谱被包括作为音频信号的编码数据。在此,比例因子是用于表示音频信号的声压的信息,而量化频谱是表示音频信号的频谱形状的信息。
优先级信息生成单元231基于被包括作为每个通道的编码数据的比例因子和量化频谱来生成每个通道的音频信号的优先级信息。如果像这样使用比例因子和量化频谱来生成优先级信息,则可以在执行对编码数据的解码之前立即获得优先级信息,因此,可以减少用于生成优先级信息的计算量。
此外,可以基于能够通过计算MDCT系数的均方根值获得的音频信号的声压或者基于能够从MDCT系数的峰值包络获得的音频信号的频谱形状来生成优先级信息。在这种情况下,优先级信息生成单元231适当地执行对编码数据的解码或者从通道音频信号解码单元193获取MDCT系数。
在获得每个通道的优先级信息之后,执行从步骤S132至步骤S137的处理任务,但是这些处理任务与图12中从步骤S82至步骤S87的处理任务相同。因此,将不再重复对其的描述。然而,在这种情况下,由于已经获取了每个通道的编码数据,所以在步骤S134中仅执行对编码数据的解码。
另外,在步骤S133中确定通道号不小于M的情况下,在步骤S138中,优先级信息生成单元232生成每个对象的音频信号的优先级信息。
例如,对象音频信号获取单元197从所提供的比特流获取每个对象的编码数据,并且将所述编码数据提供至对象音频信号解码单元198和优先级信息生成单元232。另外,对象音频信号获取单元197从所提供的比特流获取每个对象的元数据,并且将所述元数据提供至渲染单元162。
优先级信息生成单元232基于从对象音频信号获取单元197提供的每个对象的编码数据来生成每个对象的优先级信息,并且将所述优先级信息提供至输出选择单元199。例如,与每个通道的情况类似,基于比例因子和量化频谱生成优先级信息。
另外,可以基于根据MDCT系数获得的声压或频谱形状来生成优先级信息。在这种情况下,优先级信息生成单元232适当地执行对编码数据的解码或者从对象音频信号解码单元198获取MDCT系数。
在获得每个对象的优先级信息之后,执行从步骤S139至步骤S144的处理任务,并且选择性解码处理结束。然而,这些处理任务与图12中从步骤S88至步骤S93的处理任务相同。因此,将不再重复对其的描述。然而,在这种情况下,由于已经获取了每个对象的编码数据,所以在步骤S141中仅执行对编码数据的解码。
在选择性解码处理结束之后,该处理进行至图11中的步骤S53。
如上所述,解码装置151基于包括在比特流中的编码数据生成每个通道和每个对象的音频信号的优先级信息。通过像这样在解码装置151中生成优先级信息,可以用小计算量获得每个音频信号的适当的优先级信息,因此,可以减少用于解码的计算量或用于渲染的计算量。另外,还可以将根据音频信号再现的声音的音质的劣化最小化。
除优先级信息可以不从比特流来获得的情况以外,在图10所示的解包/解码单元161的优先级信息获取单元191试图从所提供的比特流获取每个通道和每个对象的音频信号的优先级信息的情况下,可以生成优先级信息。在这种情况下,优先级信息获取单元191执行与优先级信息生成单元231或优先级信息生成单元232的处理类似的处理,并且根据编码数据生成每个通道和每个对象的音频信号的优先级信息。
<第三实施方式>
<优先级信息的阈值>
此外,在上面的描述中,对于每个通道和每个对象而言,通过将优先级信息与阈值P或阈值Q进行比较来选择要被解码的音频信号,特别是要对其执行IMDCT的MDCT系数。然而,可以针对音频信号的每一帧动态地改变阈值P或阈值Q。
例如,在图10所示的解包/解码单元161的优先级信息获取单元191中,可以从比特流获取每个通道和每个对象的优先级信息而不执行解码。
因此,例如,优先级信息获取单元191可以在不读出所有通道的音频信号的优先级信息的情况下获得要经受处理的帧的优先级信息的分布。另外,解码装置151预先知道它自己的计算能力,例如,如可以同时即实时地处理多少个通道。
因此,优先级信息获取单元191可以基于要经受处理的帧中的优先级信息的分布和解码装置151的计算能力来确定关于要经受处理的帧的优先级信息的阈值P。
例如,确定阈值P,使得能够在由解码装置151实时地执行的处理的范围内对最大数量的音频信号进行解码。
另外,与阈值P的情况类似,优先级信息获取单元191可以动态地确定阈值Q。在这种情况下,优先级信息获取单元191基于所有对象的音频信号的优先级信息来获得优先级信息的分布,并且基于所获得的分布和解码装置151的计算能力来确定关于要经受处理的帧的优先级信息的阈值Q。
可以以相对小的计算量执行阈值P或阈值Q的确定。
以这种方式,通过动态地改变优先级信息的阈值,可以实时地执行解码,并且可以使根据音频信号再现的声音的音质的劣化最小化。具体地,在这种情况下,不必准备多个优先级信息项,或者不必提供优先级信息的标识符。因此,还可以减少比特流的代码量。
<对象的元数据>
此外,在上述第一实施方式至第三实施方式中,一个帧的对象的元数据和优先级信息等被存储在比特流的头元素中。
在这种情况下,在比特流的头元素中,例如,存储对象的元数据和优先级信息的部分的语法与图15所示的相同。
在图15的示例中,在对象的元数据中存储了仅一个帧的对象的空间位置信息和优先级信息。
在该示例中,“num_objects”表示对象的数量。另外,“object_priority[0]”表示第0个对象的优先级信息。在此,第0个对象表示通过对象号指定的对象。
“position_azimuth[0]”表示水平角,该水平角表示从作为听者的用户看到的即从预定参考位置看到的第0个对象的三维空间位置。另外,“position_elevation[0]”表示垂直角,该垂直角表示从作为听者的用户看到的第0个对象的三维空间位置。此外,“position_radius[0]”表示从听者到第0个对象的距离。
因此,三维空间中的对象的位置由这些“position_azimuth[0]”、“position_elevation[0]”和“position_radius[0]”来指定。以这种方式,这些信息项是对象的空间位置信息项。
另外,“gain_factor[0]”表示第0个对象的增益。
以这种方式,在图15所示的元数据中,关于对象的“object_priority[0]”、“position_azimuth[0]”、“position_elevation[0]”、“position_radius[0]”和“gain_factor[0]”按顺序被布置为对象的数据。然后,在元数据中,以阵列的方式例如按照对象的对象号的顺序来布置每个对象的数据项。
<第四实施方式>
<由音频信号的完全重构和不连续引起的噪声>
在上面的描述中,描述了以下示例,在该示例中,通过在从解码装置151中的比特流读出的每个通道或每个对象的每个帧(此后,明确称为时间帧)的优先级信息小于预定阈值的情况下省略对IMDCT等的解码来减少在解码时的处理量。具体地,在优先级信息小于阈值的情况下,从零值输出单元195或零值输出单元200输出无声音频信号即零数据作为音频信号。
然而,在这种情况下,当收听时发生音质劣化。具体地,发生由音频信号的完全重构引起的音质劣化以及由噪声如由信号的不连续导致的毛刺噪声引起的音质劣化。
<由完全重构引起的音质劣化>
例如,当在优先级信息小于阈值的情况下零数据被输出为音频信号时,在零数据的输出与并非零数据的普通音频信号的输出之间进行切换时发生音质劣化。
如上所述,在解包/解码单元161中,对从IMDCT单元196或IMDCT单元201中的比特流读出的每个时间帧的MDCT系数执行IMDCT。具体地,在解包/解码单元161中,根据关于当前时间帧的IMDCT的结果或零数据以及关于一个时间帧之前的时间帧的IMDCT的结果或零数据来生成当前时间帧的音频信号。
在此,将参考图16来描述音频信号的生成。在此,对象的音频信号的生成被描述为示例。然而,每个通道的音频信号的生成相同。另外,在下面的描述中,还将从零值输出单元200输出的音频信号和从IMDCT单元201输出的音频信号具体称为IMDCT信号。类似地,还将从零值输出单元195输出的音频信号和从IMDCT单元196输出的音频信号具体称为IMDCT信号。
在图16中,水平方向表示时间,“data[n-1]”至“data[n+2]”标记的矩形分别表示预定对象的时间帧(n-1)至时间帧(n+2)的比特流。另外,每个时间帧的比特流中的值表示那个时间帧的对象的优先级信息的值。在该示例中,帧的优先级信息的值是7。
此外,图16中的“MDCT_coef[q]”(q=n-1,n,...)标记的矩形分别表示时间帧(q)的MDCT系数。
现在,如果阈值Q等于4,则时间帧(n-1)的优先级信息的值“7”等于或大于阈值Q。因此,对时间帧(n-1)的MDCT系数执行IMDCT。类似地,时间帧(n)的优先级信息的值“7”也等于或大于阈值Q。因此,对时间帧(n)的MDCT系数执行IMDCT。
因此,获得时间帧(n-1)的IMDCT信号OPS11和时间帧(n)的IMDCT信号OPS12。
在这种情况下,解包/解码单元161将时间帧(n)的IMDCT信号OPS12的前半部分和作为时间帧(n)之前的一个时间帧的时间帧(n-1)的IMDCT信号OPS11的后半部分相加,并且获得时间帧(n)的音频信号,即,时期FL(n)的音频信号。换言之,将时期FL(n)中的IMDCT信号OPS11的一部分与时期FL(n)中的IMDCT信号OPS12的一部分交叠相加,并且再现在对要经受处理的对象进行编码之前的时间帧(n)的音频信号。
这样的处理是将IMDCT信号完全重构成MDCT之前的信号所必需的处理。
然而,在上述解包/解码单元161中,例如,如图17所示,当根据每个时间帧的优先级信息在IMDCT单元201的IMDCT信号与零值输出单元200的IMDCT信号之间进行切换时,并不将IMDCT信号完全重构成MDCT之前的信号。即,如果在交叠相加时使用零数据来代替原始信号,则并未完全重构该信号。因此,并未再现原始信号,并且当收听音频信号时音质劣化。
在图17的示例中,用相同的文字来标记与图16中的情形对应的部分,因此将不再重复对其的描述。
在图17中,时间帧(n-1)的优先级信息的值是“7”,但是时间帧(n)至时间帧(n+2)的优先级信息项是最低“0”。
因此,如果阈值Q是4,则对通过IMDCT单元201的MDCT系数执行关于帧(n-1)的IMDCT,然后,获得时间帧(n-1)的IMDCT信号OPS21。另一方面,对MDCT系数不执行关于时间帧(n)的IMDCT,从零值输出单元200输出的零数据变成时间帧(n)的IMDCT信号OPS22。
在这种情况下,将作为时间帧(n)的IMDCT信号OPS22的零数据的前半部分与作为时间帧(n)之前的一个帧的时间帧(n-1)的IMDCT信号OPS21的后半部分相加,并且结果变成时间帧(n)的最终音频信号。即,将时期FL(n)中的IMDCT信号OPS21的一部分与IMDCT信号OPS22的一部分交叠相加,并且结果变成要经受处理的对象的时间帧(n)的最终音频信号。
以这种方式,当将IMDCT信号的输出源从IMDCT单元201切换至零值输出单元200或者从零值输出单元200切换至IMDCT单元201时,并未完全重构来自IMDCT单元201的IMDCT信号,当收听时发生音质的劣化。
<由因为不连续导致的噪声的生成而引起的音质劣化>
另外,在将IMDCT信号的输出源从IMDCT单元201切换至零值输出单元200或者从零值输出单元200切换至IMDCT单元201的情况下,由于信号并未完全被重构,所以在一些情况下,信号在通过IMDCT获得IMDCT信号与变成零数据的IMDCT信号的连接部分中不连续。因此,在连接部分出现毛刺噪声,并且当收听音频信号时发生音质劣化。
此外,为了改善解包/解码单元161中的音质,存在以下情况:对通过将从IMDCT单元201输出的IMDCT信号和从零值输出单元200输出的IMDCT信号交叠相加而获得的音频信号执行谱带复制(SBR)处理等。
针对IMDCT单元201或零值输出单元200之后的处理,可以考虑各种处理任务,并且在下文中,将以SBR作为示例继续进行描述。
在SBR中,根据通过交叠相加获得的低频分量的音频信号以及存储在比特流中的高频功率值来生成编码之前的原始音频信号的高频分量。
具体地,将一个帧的音频信号划分成被称为时隙的若干分段,并且将每个时隙的音频信号频带划分成多个低频子带的信号(此后,称为低频子带信号)。
然后,基于每个子带的低频子带信号和高频侧中的每个子带的功率值来生成高频的每个子带的信号(在下文中,称为高频子带信号)。例如,通过由高频的目标子带的功率值调整预定子带的低频子带信号的功率或者通过移动其频率来生成目标高频子带信号。
此外,合成高频子带信号和低频子带信号,生成包括高频分量的音频信号,并且对针对每个时隙生成的包括高频分量的音频信号进行组合,并且结果变成包括高频分量的一个时间帧的音频信号。
在IMDCT单元201或零值输出单元200之后的阶段中执行这样的SBR的情况下,对于根据从IMDCT单元201输出的IMDCT信号形成的音频信号,通过SBR生成高频分量。附带地,由于从零值输出单元200输出的IMDCT信号是零数据,所以对于根据从零值输出单元200输出的IMDCT信号形成的音频信号,通过SBR获得的高频分量也是零数据。
然后,当将IMDCT信号的输出源从IMDCT单元201切换至零值输出单元200或者从零值输出单元200切换至IMDCT单元201时,信号在高频侧中的连接部分中也变得不连续。在这种情况下,出现毛刺噪声并且当收听时发生音质劣化。
因此,在本技术中,考虑前一时间帧和后一时间帧来选择MDCT系数的输出目的地,并且对音频信号执行渐强(fade-in)处理和渐弱(fade-out)处理,因此,抑制了上面描述的当收听时音质劣化并且改善了音质。
<考虑前一时间帧和后一时间帧来选择MDCT系数的输出目的地>
首先,将描述考虑前一时间帧和后一时间帧选择MDCT系数的输出目的地。在此,作为示例还将进行关于对象的音频信号的描述。然而,该描述与每个通道的音频信号的情况类似。另外,对每个对象和每个通道执行下面描述的处理任务。
例如,在上面描述的实施方式中,描述了输出选择单元199基于当前时间帧的优先级信息选择性地切换每个对象的MDCT系数的输出目的地。另一方面,在本实施方式中,输出选择单元199基于三个在时间上连续的时间帧——它们是当前时间帧、当前时间帧之前的一个时间帧的时间帧以及当前时间帧之后的一个时间帧——的优先级信息项来切换MDCT系数的输出目的地。换言之,基于三个连续时间帧的优先级信息项来选择是否执行对编码数据的解码。
具体地,在要经受处理的对象满足下面公式(1)中所示的条件公式的情况下,输出选择单元199将对象的时间帧(n)的MDCT系数提供至IMDCT单元201。
[公式1]
(object_priority[n-1]≥thre)||(object_priority[n]≥thre)||(object_priority[n+1]≥thre)
···(1)
在公式(1)中,object_priority[q](其中,q=n-1,n,n+1)表示每个时间帧(q)的优先级信息,thre表示阈值Q。
因此,在当前时间帧以及当前时间帧之前和之后的时间帧这三个连续时间帧中,在这三个连续时间帧中存在至少一个或多个时间帧的优先级信息等于或大于阈值Q的情况下,将IMDCT单元201选作MDCT系数提供目的地。在这种情况下,执行对编码数据的解码,具体地,对MDCT系数执行IMDCT。另一方面,如果三个时间帧的优先级信息项都小于阈值Q,则MDCT系数为零并且被输出至零值输出单元200。在这种情况下,基本上不执行对编码数据的解码,具体地,基本上对MDCT系数不执行IMDCT。
以这种方式,如图18所示,根据IMDCT信号完全重构音频信号,收听时音质的劣化被抑制。在图18中,用相同的文字等来标记与图16中的情形对应的部分,因此将不再重复对其的描述。
在图18中的上部图所示的示例中,每个时间帧的优先级信息的值与图17所示的示例中的优先级信息的值相同。例如,假定阈值Q为4,在图18中的上部图中,时间帧(n-1)的优先级信息等于或大于阈值Q,但是时间帧(n)至时间帧(n+2)的优先级信息项小于阈值Q。
出于这个原因,根据公式(1)中所示的条件公式,对时间帧(n-1)和时间帧(n)的MDCT系数执行IMDCT,然后,分别获得IMDCT信号OPS31和IMDCT信号OPS32。另一方面,在不满足条件公式的时间帧(n+1)中,对MDCT系数不执行IMDCT,然后,零数据是IMDCT信号OPS33。
因此,在图18中的上部图所示的示例中对在图17所示的示例中没有完全被重构的时间帧(n)的音频信号进行完全重构,从而抑制了收听时音质的劣化。然而,在该示例中,由于在下一时间帧(n+1)中没有对音频信号进行完全重构,所以在时间帧(n)和时间帧(n+1)中执行下面描述的渐弱处理,从而抑制收听时音质的劣化。
另外,在图18中的下部图所示的示例中,时间帧(n-1)至时间帧(n+1)中的优先级信息项小于阈值Q,而时间帧(n+2)的优先级信息等于或大于阈值Q。
出于这个原因,根据公式(1)所示的条件公式,对不满足条件公式的时间帧(n)中的MDCT系数不执行IMDCT,然后,零数据是IMDCT信号OPS41。另一方面,对时间帧(n+1)和时间帧(n+2)的MDCT系数执行IMDCT,然后,分别获得IMDCT信号OPS42和正切IMDCT信号OPS43。
在该示例中,可以在优先级信息的值从小于阈值Q的值被切换至等于或大于阈值Q的值的时间帧(n+2)中完全重构音频信号。因此,可以抑制收听时音质的劣化。然而,即使在这种情况下,由于时间帧(n+2)紧之前的时间帧(n+1)的音频信号没有完全被重构,所以在时间帧(n+1)和时间帧(n+2)中执行下面描述的渐强处理,从而抑制收听时音质的劣化。
在此,对仅一个时间帧执行优先级信息的预先读取,然后,根据三个连续时间帧的优先级信息项来选择MDCT系数的输出目的地。出于这个原因,在图18中的上部图所示的示例中,在时间帧(n)和时间帧(n+1)中执行渐弱处理,并且在图18中的下部图所示的示例中,在时间帧(n+1)和时间帧(n+2)中执行渐强处理。
然而,在可以执行对两个时间帧的优先级信息的预先读取的情况下,可以在图18中的上方图所示的示例中的时间帧(n+1)和时间帧(n+2)中执行渐弱处理,并且可以在图18中的下部图所示的示例中的时间帧(n)和时间帧(n+1)中执行渐强处理。
<渐强处理和渐弱处理>
接下来,将描述对音频信号的渐强处理和渐弱处理。在此,作为示例也将关于对象的音频信号进行描述。然而,该描述与每个通道的音频信号的情况类似。另外,对于每个对象和每个通道执行渐强处理和渐弱处理。
在本技术中,例如,如在图18所示的示例中,在通过IMDCT获得的IMDCT信号与作为零数据的IMDCT信号被交叠相加的时间帧中以及在上述时间帧之前或之后的时间帧中执行渐强处理或渐弱处理。
在渐强处理中,对音频信号执行增益调整,使得时间帧的音频信号的幅度(大小)随时间而增大。相反地,在渐弱处理中,对音频信号执行增益调整,使得时间帧的音频信号的幅度(大小)随时间而减小。
以这种方式,即使在通过IMDCT获得的IMDCT信号与作为零数据的IMDCT信号的连接部分不连续的情况下,也可以抑制收听时音质的劣化。在下文中,在这样的增益调整时,将音频信号所乘的增益值具体称为衰落信号增益。
此外,在本技术中,在关于通过IMDCT获得的IMDCT信号与作为零数据的IMDCT信号的连接部分的SBR中,也执行渐强处理或渐弱处理。
也就是说,在SBR中,每个高频子带的功率值用于每个时隙。然而,在本技术中,针对每个时隙,将每个高频子带的功率值乘以为渐强处理或者为渐弱处理确定的增益值,然后执行SBR。即,执行高频功率值的增益调整。
在下文中,将每个高频子带的功率值所乘的并且针对每个时隙确定的增益值具体称为衰落SBR增益。
具体地,为渐强处理确定衰落SBR增益的增益值以随时间而增大,即,以增大到与下一时隙的衰落SBR增益的增益值一样大。相反地,为渐弱处理确定衰落SBR增益的增益值以减小到与下一时隙的衰落SBR增益的增益值一样小。
以这种方式,同样通过在SBR时执行渐强处理或渐弱处理,即使当高频不连续时,仍然可以抑制收听时的音质劣化。
具体地,例如,将图19和图20所示的处理任务执行为增益调整如对音频信号和高频功率值的渐强处理或渐弱处理。在图19和图20中,用相同的文字或符号来标记与图18中的情形对应的部分,因此将不再重复对其的描述。
图19中的示例是图18中的上部图所示的示例的情况。在该示例中,将时间帧(n)和时间帧(n+1)的音频信号乘以由折线GN11表示的衰落信号增益。
折线GN11所示的衰落信号增益的值在时间帧(n)的部分处随时间从“1”线性变化至“0”,并且在时间帧(n+1)的部分处持续为“0”。因此,由于音频信号通过使用衰落信号增益来调整音频信号的增益而逐渐变化成零数据,所以可以抑制收听时音质的劣化。
另外,在该示例中,将时间帧(n)的每个时隙的高频功率值乘以箭头GN12表示的衰落SBR增益。
由箭头GN12表示的衰落SBR增益的值随时间从“1”变化至“0”,以减小到与下一时隙中的值一样小。因此,由于音频信号的高频分量通过使用衰落SBR信号增益来调整高频增益而逐渐变化成零数据,所以可以抑制收听时音质的劣化。
另一方面,图20所示的示例是图18中的下部图所示的示例的情况。在该示例中,将时间帧(n+1)和时间帧(n+2)的音频信号乘以折线GN21表示的衰落信号增益。
折线GN21所示的衰落信号增益的值在时间帧(n+1)的部分处持续为“0”,并且在时间帧(n+2)的部分处随时间从“0”线性变化至“1”。因此,由于音频信号通过使用衰落信号增益来调整音频信号的增益而从零数据逐渐变化成原始信号,所以可以抑制收听时音质的劣化。
另外,在该示例中,将时间帧(n+2)的每个时隙的高频功率值乘以箭头GN22表示的衰落SBR增益。
由箭头GN22表示的衰落SBR增益的值随时间从“0”变化至“1”,以增大到与下一时隙中的值一样大。因此,由于音频信号的高频分量通过使用衰落SBR信号增益来调整高频增益而从零数据逐渐变化成原始信号,所以可以抑制收听时音质的劣化。
<解包和解码单元的配置示例>
在如上所述执行MDCT系数的输出目的地的选择以及增益调整如渐强处理或渐弱处理的情况下,解包/解码单元161如图21所示那样被配置。在图21中,用相同的符号来标记与图10中的情形对应的部分,因此将不再重复对其的描述。
图21中的解包/解码单元161包括优先级信息获取单元191、通道音频信号获取单元192、通道音频信号解码单元193、输出选择单元194、零值输出单元195、IMDCT单元196、交叠相加单元271、增益调整单元272、SBR处理单元273、对象音频信号获取单元197、对象音频信号解码单元198、输出选择单元199、零值输出单元200、IMDCT单元201、交叠相加单元274、增益调整单元275和SBR处理单元276。
图21所示的解包/解码单元161的配置是以下配置,在该配置中,为图10所示的解包/解码单元161的配置另外设置了从交叠相加单元271至SBR处理单元276的部件。
交叠相加单元271将从零值输出单元195或IMDCT单元196提供的IMDCT信号(音频信号)交叠相加,并且生成每个时间帧的音频信号,然后,将所述音频信号提供至增益调整单元272。
增益调整单元272基于从优先级信息获取单元191提供的优先级信息来调整从交叠相加单元271提供的音频信号的增益,并且将结果提供至SBR处理单元273。
SBR处理单元273从优先级信息获取单元191获取每个时隙的每个高频子带的功率值,并且基于从优先级信息获取单元191提供的优先级信息来调整高频功率值的增益。另外,SBR处理单元273使用增益被调整的高频功率值对从增益调整单元272提供的音频信号执行SBR,然后,将作为SBR的结果而获得的音频信号提供至混合单元163。
交叠相加单元274将从零值输出单元200或IMDCT单元201提供的IMDCT信号(音频信号)交叠相加,并且生成每个时间帧的音频信号,然后,将所述音频信号提供至增益调整单元275。
增益调整单元275基于从优先级信息获取单元191提供的优先级信息来调整从交叠相加单元274提供的音频信号的增益,并且将所述音频信号提供至SBR处理单元276。
SBR处理单元276针对每个时隙从优先级信息获取单元191获取每个高频子带的功率值,并且基于从优先级信息获取单元191提供的优先级信息来调整高频功率值的增益。另外,SBR处理单元276使用增益被调整的高频功率值对从增益调整单元275提供的音频信号执行SBR,然后,将作为SBR的结果而获得的音频信号提供至渲染单元162。
<对选择性解码处理的描述>
随后,将描述解包/解码单元161具有图21所示的配置的情况下解码装置151的操作。在这种情况下,解码装置151执行参考图11描述的解码处理。然而,图22所示的处理被执行为步骤S52中的选择性解码处理。
在下文中,将参考图22的流程图来描述与图11的步骤S52中的处理对应的选择性解码处理。
在步骤S181中,优先级信息获取单元191从所提供的比特流获取每个通道的音频信号的高频功率值,并且将所述高频功率值提供至SBR处理单元273,而且从所提供的比特流获取每个对象的音频信号的高频功率值,并且将所述高频功率值提供至SBR处理单元276。
在获取高频功率值之后,执行步骤S182至步骤S187中的处理任务,并且生成要经受处理的通道的音频信号(IMDCT信号)。然而,那些处理任务与图12中的步骤S81至步骤S86中的那些处理任务类似,因此将不再重复对其的描述。
然而,在步骤S186中,在满足与上述公式(1)类似的条件的情况下,即,在要被处理的通道的当前时间帧的优先级信息与所述要经受处理的通道的当前时间帧紧之前和紧之后的时间帧的优先级信息项中至少一个或多个优先级信息项等于或大于阈值P的情况下,确定优先级信息等于或大于阈值P。另外,将零值输出单元195或IMDCT单元196中生成的IMDCT信号输出至交叠相加单元271。
在步骤S186中不确定优先级信息等于或大于阈值P或者在步骤S187中生成IMDCT信号的情况下,执行步骤S188中的处理。
在步骤S188中,交叠相加单元271执行从零值输出单元195或IMDCT单元196提供的IMDCT信号的交叠相加,并且将作为交叠相加的结果而获得的当前时间帧的音频信号提供至增益调整单元272。
具体地,例如,如参考图18所描述的,将当前时间帧的IMDCT信号的前半部分与当前时间帧紧之前的IMDCT信号的后半部分相加,并且变成当前时间帧的音频信号。
在步骤S189中,增益调整单元272基于从优先级信息获取单元191提供的要经受处理的通道的优先级信息来调整从交叠相加单元271提供的音频信号的增益,并且将增益调整的结果提供至SBR处理单元273。
具体地,在当前时间帧紧之前的时间帧的优先级信息等于或大于阈值P并且当前时间帧的优先级信息和当前时间帧紧之后的时间帧的优先级信息小于阈值P的情况下,增益调整单元272对图19中的折线GN11所示的衰落信号增益处的音频信号的增益进行调整。在这种情况下,图19中的时间帧(n)与当前时间帧对应,并且在当前时间帧紧之后的时间帧中,如折线GN11上所示,执行衰落信号增益为零处的增益调整。
另外,在当前时间帧的优先级信息等于或大于阈值P并且当前时间帧紧之前的两个时间帧的优先级信息项小于阈值P的情况下,增益调整单元272对图20中的折线GN21上所示的衰落信号增益处的音频信号的增益进行调整。在这种情况下,图20中的时间帧(n+2)与当前时间帧对应,并且在当前时间帧紧之前的时间帧中,如折线GN21上所示,执行衰落信号增益为零处的增益调整。
增益调整单元272仅在上述两个示例的情况下才执行增益调整,而在其他情况下不执行增益调整,并且按原样将音频信号提供至SBR处理单元273。
在步骤S190中,SBR处理单元273基于从优先级信息获取单元191提供的要经受处理的通道的优先级信息和高频功率值对从增益调整单元272提供的音频信号执行SBR。
具体地,在当前时间帧紧之前的时间帧的优先级信息等于或大于阈值P,当前时间帧的优先级信息和当前时间帧紧之后的时间帧的优先级信息小于阈值P的情况下,SBR处理单元273对由图19中的箭头GN12表示的衰落SBR增益处的高频功率值的增益进行调整。即,将高频功率值乘以衰落SBR增益。
然后,SBR处理单元273使用SBR的高频功率值执行SBR,并且将作为增益调整的结果而获得的音频信号提供至混合单元163。在这种情况下,图19中的时间帧(n)与当前时间帧对应。
另外,在当前时间帧的优先级信息等于或大于阈值P并且当前时间帧紧之前的两个时间帧的优先级信息项小于阈值P的情况下,SBR处理单元273调整由图20中的箭头GN22表示的衰落SBR增益处的高频功率值的增益。然后,SBR处理单元273使用增益被调整的高频功率值执行SBR,并且将作为SBR的结果而获得的音频信号提供至混合单元163。在这种情况下,图20中的时间帧(n+2)与当前时间帧对应。
SBR处理单元273仅在上述两个示例的情况下才执行高频功率值的增益调整,而在其他情况下不执行增益调整,并且按原样使用所获取的高频功率值来执行SBR,然后,将作为SBR的结果而获得的音频信号提供至混合单元163。
在执行SBR并且获得当前时间帧的音频信号之后,执行步骤S191至步骤S196中的处理任务。然而,那些处理任务与图12中的步骤S87至步骤S92中的那些处理任务类似,因此将不再重复对其的描述。
然而,在步骤S195中,在满足上述公式(1)的条件的情况下,确定优先级信息等于或大于阈值Q。另外,将零值输出单元200或IMDCT单元201中生成的IMDCT信号(音频信号)输出至交叠相加单元274。
以这种方式,当获得当前时间帧的IMDCT信号时,执行步骤S197至步骤S199中的处理任务,并且生成当前时间帧的音频信号。然而,那些处理任务与步骤S188至步骤S190中的那些处理任务类似,因此将不再重复对其的描述。
在步骤S200中,当对象音频信号获取单元197将对象号加1时,该处理返回至步骤S193。然后,当在步骤S193中确定对象号不小于N时,选择性解码处理结束,然后,该处理进行至图11中的步骤S53。
如上所述,解包/解码单元161根据当前时间帧以及该当前时间帧之前和之后的时间帧的优先级信息项来选择MDCT系数的输出目的地。以这种方式,在优先级信息等于或大于阈值的时间帧与优先级信息小于阈值的时间帧被切换的部分中完全重构音频信号,因此,可以抑制收听时音质的劣化。
另外,解包/解码单元161基于三个连续时间帧的优先级信息项来调整交叠相加的音频信号或高频功率值的增益。即,适当地执行渐强处理或渐弱处理。以这种方式,抑制了毛刺噪声的出现,因此,可以抑制收听时音质的劣化。
<第五实施方式>
<渐强处理和渐弱处理>
在第四实施方式中的描述中,对交叠相加的音频信号执行增益调整,此外,在SBR时对高频功率值执行增益调整。在这种情况下,执行最终音频信号的低频分量和高频分量中各自的增益调整,即,渐强处理和渐弱处理。
在此,可以在交叠相加紧之后并且在SBR时不执行增益调整,或者可以对通过SBR获得的音频信号执行增益调整,使得可以在较少处理的情况下实现渐强处理和渐弱处理。
在这种情况下,例如,如图23和图24所示执行增益调整。在图23和图24中,用相同的文字等来标记与图19和图20中的情形对应的部分,因此将不再重复对其的描述。
图23所示的示例中的优先级信息的变化与图19所示的情况的示例中的优先级信息的变化相同。在该示例中,如果阈值Q是4,则时间帧(n-1)的优先级信息等于或大于阈值Q,而时间帧(n)至时间帧(n+2)的优先级信息项小于阈值Q。
在这种情况下,对通过将时间帧(n)和时间帧(n+1)中的SBR乘以折线GN31上所示的衰落信号增益而获得的音频信号执行增益调整。
折线GN31所示的衰落信号增益与图19中的折线GN11上所示的衰落信号增益相同。然而,在图23中的示例的情况下,由于经受增益调整的音频信号包括低频分量和高频分量两者,所以可以通过一个衰落信号增益来执行低频分量和高频分量的增益调整。
通过使用衰落信号增益对音频信号的增益调整,音频信号在通过IMDCT获得的IMDCT信号与作为零数据的IMDCT信号被交叠相加的部分以及所述部分紧之前的部分处逐渐变成零数据。以这种方式,可以抑制收听时音质的劣化。
另一方面,图24所示的示例中优先级信息的变化与图20所示的情况中优先级信息的变化相同。在该示例中,如果阈值Q是4,则优先级信息项在时间帧(n)和时间帧(n+1)处小于阈值Q,而时间帧(n+2)的优先级信息等于或大于阈值Q。
在这样的情况下,对通过将时间帧(n+1)和时间帧(n+2)处的SBR乘以折线GN41上所示的衰落信号增益而获得的音频信号调整增益。
折线GN41上所示的衰落信号增益与图20中的折线GN21上所示的衰落信号增益相同。然而,在图24中的示例的情况下,由于经受增益调整的音频信号包括低频分量和高频分量两者,所以可以通过一个衰落信号增益来执行对低频分量和高频分量的增益调整。
通过使用衰落信号增益对音频信号的增益调整,音频信号通过IMDCT获得的IMDCT信号与作为零数据的IMDCT信号被交叠相加的部分以及所述部分紧之前的部分处从零数据逐渐变化成原始信号。以这种方式,可以抑制收听时音质的劣化。
<解包/解码单元的配置示例>
在通过上面参考图23和图24描述的渐强处理或渐弱处理执行增益调整的情况下,解包/解码单元161例如如图25所示那样被配置。在图25中,用相同的符号来标记与图21中的情形对应的部分,因此将不再重复对其的描述。
图25所示的解包/解码单元161包括优先级信息获取单元191、音频信号获取单元192、通道音频信号解码单元193、输出选择单元194、零值输出单元195、IMDCT单元196、交叠相加单元271、SBR处理单元273、增益调整单元272、对象音频信号获取单元197、对象音频信号解码单元198、输出选择单元199、零值输出单元200、IMDCT单元201、交叠相加单元274、SBR处理单元276和增益调整单元275。
图25所示的解包/解码单元161的配置与图21所示的解包/解码单元161的配置的不同点在于:增益调整单元272和增益调整单元275中的每一个被分别布置在SBR处理单元273和SBR处理单元276之后的级处。
在图25所示的解包/解码单元161中,SBR处理单元273基于从优先级信息获取单元191提供的高频功率值对从交叠相加单元271提供的音频信号执行SBR,并且将从其结果获得的音频信号提供至增益调整单元272。在这种情况下,在SBR处理单元273中,不执行高频功率值的增益调整。
增益调整单元272基于从优先级信息获取单元191提供的优先级信息来调整从SBR处理单元273提供的音频信号的增益,并且将音频信号提供至混合单元163。
SBR处理单元276基于从优先级信息获取单元191提供的高频功率值对从交叠相加单元274提供的音频信号执行SBR,并且将从其结果获得的音频信号提供至增益调整单元275。在这种情况下,在SBR处理单元276中,不执行高频功率值的增益调整。
增益调整单元275基于从优先级信息获取单元191提供的优先级信息来调整从SBR处理单元276提供的音频信号的增益,并且将音频信号提供至渲染单元162。
<选择性解码处理的描述>
随后,将描述在解包/解码单元161具有图25所示的配置的情况下解码装置151的操作。在这种情况下,解码装置151执行参考图11描述的解码处理。然而,图26所示的处理被执行为步骤S52中的选择性解码处理。
在下文中,将参考图26中的流程图来描述与图11中的步骤S52中的处理对应的选择性解码处理。此后,步骤S231至步骤S238中的处理任务与图22中的步骤S181至步骤S188中的处理任务相同,因此将不再重复对其的描述。然而,在步骤S232中,不将优先级信息提供至SBR处理单元273和SBR处理单元276。
在步骤S239中,SBR处理单元273基于从优先级信息获取单元191提供的高频功率值对从交叠相加单元271提供的音频信号执行SBR,并且将从其结果获得的音频信号提供至增益调整单元272。
在步骤S240中,增益调整单元272基于从优先级信息获取单元191提供的要经受处理的通道的优先级信息来调整从SBR处理单元273提供的音频信号的增益,并且将音频信号提供至混合单元163。
具体地,在当前时间帧紧之前的时间帧的优先级信息等于或大于阈值P并且当前时间帧的优先级信息和当前时间帧紧之后的时间帧的优先级信息小于阈值P的情况下,增益调整单元272对图23中的折线GN31所示的衰落信号增益处的音频信号的增益进行调整。在这种情况下,图23中的时间帧(n)与当前时间帧对应,并且在当前时间帧紧之后的时间帧中,如折线GN31所示,执行衰落信号增益为零处的增益调整。
另外,在当前时间帧的优先级信息等于或大于阈值P并且当前时间帧紧之前的两个时间帧的优先级信息项小于阈值P的情况下,增益调整单元272对图24中的折线GN41所示的衰落信号增益处的音频信号的增益进行调整。在这种情况下,图24中的时间帧(n+2)与当前时间帧对应,并且在当前时间帧紧之前的时间帧中,如折线GN41所示,执行衰落信号增益为零处的增益调整。
增益调整单元272仅在上述两个示例的情况下才执行增益调整,而在其他情况下不执行增益调整,并且按原样将音频信号提供至混合单元163。
在执行了音频信号的增益调整之后,执行步骤S241至步骤S247中的处理任务。然而,那些处理任务与图22中的步骤S191至步骤S197中的那些处理任务类似,因此将不再重复对其的描述。
以这种方式,当获得要经受处理的对象的当前时间帧的音频信号时,执行步骤S248和步骤S249中的处理任务,并且获得当前时间帧的最终音频信号。然而,那些处理任务与步骤S239和步骤S240中的那些处理任务类似,因此将不再重复对其的描述。
在步骤S250中,当对象音频信号获取单元197将对象号加1时,该处理返回至步骤S243。然后,当在步骤S243中确定对象号不小于N时,选择性解码处理结束,然后,该处理进行至图11中的步骤S53。
如上所述,解包/解码单元161基于三个连续时间帧的优先级信息项来调整通过SBR获得的音频信号的增益。以这种方式,简单地抑制了毛刺噪声的出现,因此,可以抑制收听时音质的劣化。
在本实施方式中,描述了使用三个时间帧的优先级信息项来选择MDCT系数的输出目的地以及通过衰落信号增益执行增益调整的示例。然而,可以执行仅通过衰落信号增益的增益调整。
在这种情况下,在输出选择单元194和输出选择单元199中,通过与第一实施方式中的情况的处理类似的处理来选择MDCT系数的输出目的地。然后,在增益调整单元272和增益调整单元275中,在当前时间帧的优先级信息小于阈值的情况下,通过线性地增大或减小当前时间帧的衰落信号增益来执行渐强处理或渐弱处理。在此,可以通过当前时间帧的优先级信息和当前时间帧紧之前和紧之后的时间帧的优先级信息项做出是执行渐强处理还是执行渐弱处理的确定。
<第六实施方式>
<渐强处理和渐弱处理>
附带地,在渲染单元162中,例如,执行VBAP并且生成用于根据每个对象的音频信号再现每个对象的声音的每个通道的音频信号。
具体地,在VBAP中,对于每个通道,即,对于再现声音的每个扬声器,关于每个对象,针对每个时间帧计算音频信号的增益值(此后,被称为VBAP增益)。然后,乘以同一通道(扬声器)的VBAP增益的、每个通道的音频信号的和是那个通道的音频信号。换言之,关于每个对象,给每个通道分配针对每个通道计算的VBAP增益。
因此,对于对象的音频信号,可以通过适当地调整VBAP增益而不是调整对象的音频信号或高频功率值的增益来抑制毛刺噪声的生成并且可以抑制收听时音质的劣化。
在这种情况下,例如,对每个时间帧的VBAP增益执行线性插值等,并且计算每个时间帧中的音频信号的每个样本的VBAP增益,然后,通过所获得的VBAP增益生成每个通道的音频信号。
例如,要经受处理的时间帧中的第一个样本的VBAP增益值是要经受处理的时间帧紧之前的时间帧中的最后一个样本的VBAP增益值。另外,要经受处理的时间帧中的最后一个样本的VBAP增益值是对要经受处理的时间帧通过普通VBAP所计算的VBAP增益值。
然后,在要经受处理的时间帧中,确定第一个样本与最后一个样本之间的每个样本的VBAP增益值,使得VBAP增益从第一个样本线性地变化至最后一个样本。
然而,在要经受处理的时间帧的优先级信息小于阈值的情况下,不执行VBAP的计算,并且确定每个样本的VBAP增益值,使得要经受处理的时间帧的最后一个样本的VBAP增益值变成零。
以这种方式,通过经由VBAP增益执行每个对象的音频信号的增益调整,可以在一个时刻执行低频分量和高频分量的增益调整,从而在较少处理量的情况下抑制毛刺噪声的出现,因此,可以抑制收听时音质的劣化。
在如上所述针对每个样本确定VBAP增益的情况下,每个时间帧的每个样本的VBAP增益例如如图27和图28所示。
在图27和图28中,用相同的文字等来标记与图19和图20中的情形对应的部分,因此将不再重复对其的描述。另外,在图27和图28中,“VBAP_gain[q][s]”(其中,q=n-1,n,n+1,n+2)表示要经受处理的对象的时间帧(q)的VBAP增益,所述要经受处理的对象的扬声器索引是s,所述扬声器索引指定与预定通道对应的扬声器。
图27所示的示例是优先级信息的变化与图19所示的情况下优先级信息的变化相同的示例。在该示例中,如果阈值Q是4,则时间帧(n-1)的优先级信息等于或大于阈值Q。然而,优先级信息在时间帧(n)至时间帧(n+2)中小于阈值Q。
在这种情况下,时间帧(n-1)至时间帧(n+1)的VBAP增益是例如折线GN51上表示的增益。
在该示例中,由于时间帧(n-1)的优先级信息等于或大于阈值Q,所以基于通过普通VBAP所计算的VBAP增益来确定每个样本的VBAP增益。
也就是说,时间帧(n-1)的第一个样本的VBAP增益值与时间帧(n-2)的最后一个样本的VBAP增益值相同。另外,对于要经受处理的对象而言,时间帧(n-1)的最后一个样本的VBAP增益值是与扬声器s对应的通道的VBAP增益值,所述与扬声器s对应的通道的VBAP增益值是关于时间帧(n-1)通过普通VBAP计算的。然后,确定时间帧(n-1)的每个样本的VBAP增益值,以从第一个样本线性地变化至最后一个样本。
另外,由于时间帧(n)的优先级信息小于阈值Q,所以时间帧(n)的最后一个样本的VBAP增益值为零。
也就是说,时间帧(n)的第一个样本的VBAP增益值与时间帧(n-1)的最后一个样本的VBAP增益值相同,并且时间帧(n)的最后一个样本的VBAP增益值为零。然后,确定时间帧(n)的每个样本的VBAP增益值,以从第一个样本线性地变化至最后一个样本。
此外,由于时间帧(n+1)的优先级信息小于阈值Q,所以时间帧(n+1)的最后一个样本的VBAP增益值为零,因此,时间帧(n+1)的所有样本的VBAP增益值为零。
以这种方式,通过使优先级信息小于阈值Q的时间帧的最后一个样本的VBAP增益值为零,可以执行相当于图23中的示例的渐弱处理。
另一方面,图28所示的示例中的优先级信息的变化与图24所示的情况的示例中的优先级信息的变化相同。在该示例中,如果阈值Q是4,则时间帧(n-1)至时间帧(n+1)中的优先级信息项小于阈值Q,而时间帧(n+2)的优先级信息项等于或大于阈值Q。
在这种情况下,时间帧(n-1)至时间帧(n+2)的VBAP增益是例如折线GN61上表示的增益。
在该示例中,由于时间帧(n)的优先级信息和时间帧(n+1)的优先级信息都小于阈值Q,所以时间帧(n+1)的所有样本的VBAP增益为零。
另外,由于时间帧(n+2)的优先级信息等于或大于阈值Q,所以对于要经受处理的对象,基于与扬声器s对应的通道的VBAP增益来确定每个样本的VBAP增益值,所述每个样本的VBAP增益值通过普通VBAP来计算。
也就是说,时间帧(n+2)的第一个样本的VBAP增益值为零,这是时间帧(n+1)的最后一个样本的VBAP增益值,并且时间帧(n+2)的最后一个样本的VBAP增益值是关于时间帧(n+2)通过普通VBAP所计算的VBAP增益值。然后,确定时间帧(n+2)的每个样本的VBAP增益值,以从第一个样本线性地变化至最后一个样本。
以这种方式,通过使优先级信息小于阈值Q的时间帧的最后一个样本的VBAP增益值为零,可以执行相当于图24中的示例的渐强处理。
<解包/解码单元的配置示例>
在通过上面参考图27和图28描述的渐强处理或渐弱处理来执行增益调整的情况下,解包/解码单元161例如如图29所示那样被配置。在图29中,用相同的符号来标记与图25中的情形对应的部分,因此将不再重复对其的描述。
图29所示的解包/解码单元161包括优先级信息获取单元191、通道音频信号获取单元192、通道音频信号解码单元193、输出选择单元194、零值输出单元195、IMDCT单元196、交叠相加单元271、SBR处理单元273、增益调整单元272、对象音频信号获取单元197、对象音频信号解码单元198、输出选择单元199、零值输出单元200、IMDCT单元201、交叠相加单元274和SBR处理单元276。
图29所示的解包/解码单元161的配置与图25所示的解包/解码单元161的配置的不同点在于没有设置增益调整单元275,而其他点与图25所示的配置相同。
在图29所示的解包/解码单元161中,SBR处理单元276基于从优先级信息获取单元191提供的高频功率值对从交叠相加单元274提供的音频信号执行SBR,并且将从其结果获得的音频信号提供至渲染单元162。
另外,优先级信息获取单元191从所提供的比特流获取每个对象的元数据和优先级信息,并且将所述元数据和优先级信息提供至渲染单元162。还将每个对象的优先级信息提供至输出选择单元199。
<对解码处理的描述>
随后,将描述解码装置151在解包/解码单元161具有图29所示的配置的情况下的操作。
解码装置151执行参考图30描述的解码处理。在下文中,将参考图30中的流程图来描述由解码装置151执行的解码处理。然而,在步骤S281中,执行与图11中的步骤S51中的处理相同的处理,因此将不再重复对其的描述。
在步骤S282中,解包/解码单元161执行选择性解码处理。
在此,将参考图31中的流程图来描述与图30中的步骤S282中的处理对应的选择性解码处理。
此后,步骤S311至步骤S328中的处理任务与图26中的步骤S231至步骤S248中的处理任务相同,因此将不再重复对其的描述。然而,在步骤S312中,优先级信息获取单元191同样将从比特流获取的优先级信息提供至渲染单元162。
在步骤S329中,当对象音频信号获取单元197将对象号加1时,该处理返回至步骤S323。然后,当在步骤S323中确定对象号不小于N时,选择性解码处理结束,然后,该处理进行至图30中的步骤S283。
因此,在图31所示的选择性解码处理中,与第五实施方式中的情况类似,通过衰落信号增益对每个通道的音频信号执行增益调整,并且对每个对象不执行增益调整,而且将通过SBR获得的音频信号按原样输出至渲染单元162。
返回至对图30中的解码处理的描述,在步骤S283中,渲染单元162基于从SBR处理单元276提供的每个对象的音频信号、作为从优先级信息获取单元191提供的每个对象的元数据的位置信息以及每个对象的当前时间帧的优先级信息来执行对每个对象的音频信号的渲染。
例如,如上所述参考图27和图28,对于每个通道,渲染单元162基于每个通道的当前时间帧的优先级信息以及当前时间帧紧之前的时间帧的最后一个样本的VBAP增益来计算当前时间帧的每个样本的VBAP增益。此时,渲染单元162基于位置信息通过VBAP适当地计算VBAP增益。
然后,渲染单元162基于针对每个对象和每个对象的音频信号计算的每个样本的每个通道的VBAP增益来生成每个通道的音频信号,并且将所述音频信号提供至混合单元163。
在此,在该描述中,计算每个样本的VBAP增益,使得时间帧中的每个样本的VBAP增益线性地变化。然而,VBAP增益可以非线性变化。另外,在该描述中,通过VBAP生成每个通道的音频信号。然而,即使在通过其他方法生成每个通道的音频信号的情况下,仍然可以通过与VBAP的情况类似的处理来调整每个对象的音频信号的增益。
在生成每个通道的音频信号之后,执行步骤S284中的处理,并且解码处理结束。然而,由于步骤S284中的处理与图11中的步骤S54中的处理相同,因此将不再重复对其的描述。
以这种方式,解码装置151基于每个对象的优先级信息来计算每个样本的VBAP增益,并且在生成每个通道的音频信号时,通过VBAP增益来执行对象的音频信号的增益调整。以这种方式,在较少的处理量的情况下抑制了毛刺噪声的出现,因此,可以抑制收听时音质的劣化。
在第四实施方式至第六实施方式中的描述中,使用当前时间帧紧之前和紧之后的时间帧的优先级信息来选择MDCT系数的输出目的地,或者通过衰落信号增益等来执行增益调整。然而,不限于此,可以使用当前时间帧的优先级信息以及当前时间帧之前预定数量的时间帧的时间帧的优先级信息或者当前时间帧之后预定数量的时间帧的时间帧的优先级信息。
附带地,上述一系列处理任务可以通过硬件来执行或者可以通过软件来执行。在通过软件执行所述一系列处理任务的情况下,将配置软件的程序安装在计算机中。在此,计算机包括构建于专用硬件或通用计算机内的计算机,例如,其能够通过安装的各种程序来执行各种功能。
图32是示出了通过程序执行上述一系列处理任务的计算机的硬件配置示例的框图。
在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504互相连接。
此外,输入输出接口505被连接至总线504。输入单元506、输出单元507、存储单元508、通信单元509和驱动器510被连接至输入输出接口505。
输入单元506包括键盘、鼠标、麦克风和成像元件。输出单元507包括显示器和扬声器。存储单元508包括硬盘或非易失性存储器。通信单元509包括网络接口等。驱动器510驱动可移除介质511如磁盘、光盘、光磁盘或半导体存储器。
在如上所述配置的计算机中,CPU 501经由输入输出接口505和总线504将存储在存储单元508中的程序加载至RAM 503以执行程序,然后,执行上述一系列处理任务。
可以通过被记录在作为封装介质等的可移除介质511中来提供由计算机(CPU501)执行的程序。另外,可以经由有线或无线传输介质如局域网、因特网或数字卫星广播来提供程序。
在计算机中,可以通过将可移除介质511安装在驱动器510上经由输入输出接口505将程序安装在存储单元508中。另外,可以经由有线或无线传输介质通过通信单元509来接收程序,并且可以将程序安装在存储单元508中。此外,可以预先将程序安装在ROM 502或存储单元508中。
由计算机执行的程序可以是按照本文中描述的顺序以时间序列执行处理任务的程序,或者可以是并行执行处理任务或在进行调用的必要时刻执行处理任务的程序。
另外,本技术的实施方式不限于上述实施方式,并且在不偏离本技术的精神的情况下,可以做出各种修改。
例如,本技术可以采用以下云计算的配置,在该配置中,以经由网络与多个装置共享和协作的方式对一个功能进行处理。
另外,上面的流程图中描述的每个步骤可以由一个装置来执行或者可以以由多个装置共享的方式来执行。
此外,在一个步骤中包括多个处理任务的情况下,包括在所述一个步骤中的处理任务可以由一个装置来执行,或者可以以由多个装置共享的方式来执行。
另外,本文中描述的效果仅是示例并且不限于此,因此可以存在其他效果。
此外,本技术可以具有如下所述的配置。
(1)一种解码装置,包括:
至少一个电路,被配置成:
获取包括多个通道和/或多个对象的一个或多个编码音频信号以及所述多个通道和/或所述多个对象中的每一个的优先级信息;以及根据所述优先级信息对所述一个或多个编码音频信号进行解码。(2)根据上述(1)所述的解码装置,其中,所述至少一个电路被配置成至少部分地通过以下方式根据所述优先级信息进行解码:对所述一个或多个编码音频信号中的由所述优先级信息表示的优先级程度等于或高于预定优先级程度的至少一个编码音频信号进行解码,并且避免对所述一个或多个编码音频信号中的由所述优先级信息表示的优先级程度低于所述预定优先级程度的至少一个其他编码音频信号进行解码。
(3)根据上述(2)所述的解码装置,其中,所述至少一个电路被配置成至少部分地基于所述多个通道和/或所述多个对象的优先级信息来改变所述预定优先级程度。
(4)根据上述(1)至(3)中任一项所述的解码装置,其中:
所述至少一个电路被配置成获取所述一个或多个编码音频信号的多组优先级信息,并且
其中,所述至少一个电路被配置成:至少部分地通过选择所述多组优先级信息中的一组优先级信息并且至少部分地基于所述一组优先级信息进行解码来对所述一个或多个编码音频信号进行解码。
(5)根据上述(4)所述的解码装置,其中,所述至少一个电路被配置成根据所述解码装置的计算能力来选择所述多组优先级信息中的所述一组优先级信息。
(6)根据上述(1)至(5)中任一项所述的解码装置,其中,所述至少一个电路还被配置成至少部分地基于所述编码音频信号来生成所述优先级信息。
(7)根据上述(6)所述的解码装置,其中,所述至少一个电路被配置成至少部分地基于所述一个或多个编码音频信号的音频的声压或频谱形状来生成所述优先级信息。
(8)根据上述(1)至(7)中任一项所述的解码装置,其中:
对于所述多个通道中的至少一个第一通道和/或所示多个对象中的至少一个第一对象,所述多个通道和/或所述多个对象的优先级信息包括表示一段时间内所述至少一个第一通道和/或所述至少一个第一对象的不同的优先级程度的优先级信息;并且
所述至少一个电路被配置成至少部分地通过以下方式基于所述优先级信息进行解码:针对所述第一通道和/或所述第一对象并且在所述一段时间期间的第一时间处,至少部分地基于所述第一时间处的第一通道和/或第一对象的优先级程度以及在所述一段时间期间并且在所述第一时间之前或之后的另一时间处的第一通道和/或第一对象的优先级程度确定是否对所述第一时间处的第一通道和/或第一对象进行解码。
(9)根据上述(1)至(8)中任一项所述的解码装置,其中,所述至少一个电路还被配置成:
至少部分地通过将某个时间处的通道或对象的输出音频信号与第一时间之前或之后的第二时间处的通道或对象的输出音频信号相加来生成所述第一时间的音频信号,其中,所述时间的通道或对象的输出音频信号在执行对所述时间的通道或对象的解码的情况下是作为解码的结果由所述至少一个电路获得的信号,而在不执行对所述时间的通道或对象的解码的情况下是零数据;并且
基于所述时间处的通道或对象的优先级信息以及所述时间之前或之后的其他时间处的通道或对象的优先级信息来执行所述时间处的通道或对象的输出音频信号的增益调整。
(10)根据上述(9)所述的解码装置,其中,所述至少一个电路还被配置成:
基于所述第一时间处的通道或对象的优先级信息以及所述第一时间之前或之后的第二时间处的通道或对象的优先级信息来调整所述通道或所述对象的高频功率值的增益,并且
基于增益被调整的高频功率值和所述时间的音频信号来生成所述第一时间的音频信号的高频分量。
(11)根据上述(9)或(10)所述的解码装置,其中,所述至少一个电路还被配置成:
对于每个通道或每个对象,基于高频功率值和所述时间的音频信号来生成包括高频分量的所述第一时间的音频信号;
执行包括所述高频分量的第一时间的音频信号的增益调整。
(12)根据上述(1)至(11)中任一项所述的解码装置,其中,所述至少一个电路还被配置成:基于所述优先级信息将所述多个对象中的第一对象的音频信号分配给所述多个通道中的至少一些具有增益值的通道中的每个通道并且生成所述多个通道中的每个通道的音频。
(13)一种解码方法,包括:
获取一个或多个编码音频信号的多个通道和/或多个对象中的每一个的优先级信息;以及
根据所述优先级信息对所述多个通道和/或所述多个对象进行解码。
(14)至少一种编码有可执行指令的非暂态计算机可读存储介质,当所述可执行指令由至少一个处理器执行时,使所述至少一个处理器执行包括以下的方法:
获取一个或多个编码音频信号的多个通道和/或多个对象中的每一个的优先级信息;以及
根据所述优先级信息对所述多个通道和/或所述多个对象进行解码。
(15)一种编码装置,包括:
至少一个电路,被配置成:
生成音频信号的多个通道和/或多个对象中的每一个的优先级信息;以及
将所述优先级信息存储在比特流中。
(16)根据上述(15)所述的编码装置,其中,所述至少一个电路被配置成至少部分地通过生成所述多个通道和/或所述多个对象中的每一个的多组优先级信息来生成所述优先级信息。
(17)根据上述(16)所述的编码装置,其中,所述至少一个电路被配置成针对解码装置的多种计算能力中的每种计算能力生成所述多组优先级信息。
(18)根据上述(15)至(17)中任一项所述的编码装置,其中,所述至少一个电路被配置成至少部分地基于所述音频信号的声压或频谱形状来生成所述优先级信息。
(19)根据上述(15)至(18)中任一项所述的编码装置,其中:
所述至少一个电路还被配置成对所述音频信号的多个通道和/或多个对象的音频信号进行编码以形成编码音频信号,并且所述至少一个电路还被配置成将所述优先级信息和所述编码音频信号存储在所述比特流中。
(20)一种编码方法,包括:
生成音频信号的多个通道和/或多个对象中的每一个的优先级信息;以及
将所述优先级信息存储在比特流中。
(21)至少一种编码有可执行指令的非暂态计算机可读存储介质,所述可执行指令由至少一个处理器执行时,使所述至少一个处理器执行包括以下的方法:
生成音频信号的多个通道和/或多个对象中的每一个的优先级信息;以及
将所述优先级信息存储在比特流中。
本领域技术人员应当理解,只要各种修改、组合、子组合和变更在所附权利要求或其等同物的范围内,就可以根据设计要求和其他因素进行所述各种修改、组合、子组合和变更。
附图标记列表
11 编码装置
21 通道音频编码单元
22 对象音频编码单元
23 元数据输入单元
24 打包单元
51 编码单元
52 优先级信息生成单元
61 MDCT单元
91 编码单元
92 优先级信息生成单元
101 MDCT单元
151 解码装置
161 解包/解码单元
162 渲染单元
163 混合单元
191 优先级信息获取单元
193 通道音频信号解码单元
194 输出选择单元
196 IMDCT单元
198 对象音频信号解码单元
199 输出选择单元
201 IMDCT单元
231 优先级信息生成单元
232 优先级信息生成单元
271 交叠相加单元
272 增益调整单元
273 SBR处理单元
274 交叠相加单元
275 增益调整单元
276 SBR处理单元

Claims (3)

1.一种解码装置,包括:
至少一个电路,被配置成:
获取包括多个对象的一个或多个编码音频信号以及所述多个对象中的每一个的优先级信息和空间位置信息;
根据所述优先级信息对所述一个或多个编码音频信号进行解码,其中,所述至少一个电路被配置成至少部分地通过以下方式根据所述优先级信息进行解码:对所述一个或多个编码音频信号中的由所述优先级信息表示的优先级程度等于或高于预定优先级程度的至少一个编码音频信号进行解码,并且避免对所述一个或多个编码音频信号中的由所述优先级信息表示的优先级程度低于所述预定优先级程度的至少一个其他编码音频信号进行解码;以及
基于所述空间位置信息通过矢量基幅值相移VBAP对解码的音频信号进行渲染,以用于定位所述对象的声像。
2.一种解码方法,包括:
获取包括多个对象的一个或多个编码音频信号以及所述多个对象中的每一个的优先级信息和空间位置信息;
根据所述优先级信息对所述一个或多个编码音频信号进行解码,其中,通过以下方式根据所述优先级信息进行解码:对所述一个或多个编码音频信号中的由所述优先级信息表示的优先级程度等于或高于预定优先级程度的至少一个编码音频信号进行解码,并且避免对所述一个或多个编码音频信号中的由所述优先级信息表示的优先级程度低于所述预定优先级程度的至少一个其他编码音频信号进行解码;以及
基于所述空间位置信息通过矢量基幅值相移VBAP对解码的音频信号进行渲染,以用于定位所述对象的声像。
3.一种编码有可执行指令的非暂态计算机可读存储介质,当所述可执行指令由至少一个处理器执行时,使所述至少一个处理器执行包括以下的方法:
获取包括多个对象的一个或多个编码音频信号以及所述多个对象中的每一个的优先级信息和空间位置信息;
根据所述优先级信息对所述一个或多个编码音频信号进行解码,其中,通过以下方式根据所述优先级信息进行解码:对所述一个或多个编码音频信号中的由所述优先级信息表示的优先级程度等于或高于预定优先级程度的至少一个编码音频信号进行解码,并且避免对所述一个或多个编码音频信号中的由所述优先级信息表示的优先级程度低于所述预定优先级程度的至少一个其他编码音频信号进行解码;以及
基于所述空间位置信息通过矢量基幅值相移VBAP对解码的音频信号进行渲染,以用于定位所述对象的声像。
CN202010176142.9A 2014-03-24 2015-03-16 解码装置、解码方法及存储介质 Active CN111489758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010176142.9A CN111489758B (zh) 2014-03-24 2015-03-16 解码装置、解码方法及存储介质

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2014-060486 2014-03-24
JP2014060486 2014-03-24
JP2014-136633 2014-07-02
JP2014136633A JP6439296B2 (ja) 2014-03-24 2014-07-02 復号装置および方法、並びにプログラム
CN201580014248.6A CN106133828B (zh) 2014-03-24 2015-03-16 编码装置和编码方法、解码装置和解码方法及存储介质
PCT/JP2015/001432 WO2015146057A1 (en) 2014-03-24 2015-03-16 Encoding device and encoding method, decoding device and decoding method, and program
CN202010176142.9A CN111489758B (zh) 2014-03-24 2015-03-16 解码装置、解码方法及存储介质

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580014248.6A Division CN106133828B (zh) 2014-03-24 2015-03-16 编码装置和编码方法、解码装置和解码方法及存储介质

Publications (2)

Publication Number Publication Date
CN111489758A CN111489758A (zh) 2020-08-04
CN111489758B true CN111489758B (zh) 2023-12-01

Family

ID=53039543

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010176142.9A Active CN111489758B (zh) 2014-03-24 2015-03-16 解码装置、解码方法及存储介质
CN201580014248.6A Active CN106133828B (zh) 2014-03-24 2015-03-16 编码装置和编码方法、解码装置和解码方法及存储介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201580014248.6A Active CN106133828B (zh) 2014-03-24 2015-03-16 编码装置和编码方法、解码装置和解码方法及存储介质

Country Status (8)

Country Link
US (4) US20180033440A1 (zh)
EP (3) EP3745397B1 (zh)
JP (1) JP6439296B2 (zh)
KR (3) KR102300062B1 (zh)
CN (2) CN111489758B (zh)
BR (1) BR112016021407B1 (zh)
RU (2) RU2019112504A (zh)
WO (1) WO2015146057A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015056383A1 (ja) * 2013-10-17 2015-04-23 パナソニック株式会社 オーディオエンコード装置及びオーディオデコード装置
US10992727B2 (en) 2015-04-08 2021-04-27 Sony Corporation Transmission apparatus, transmission method, reception apparatus, and reception method
JP6904250B2 (ja) * 2015-04-08 2021-07-14 ソニーグループ株式会社 送信装置、送信方法、受信装置および受信方法
US10424307B2 (en) * 2017-01-03 2019-09-24 Nokia Technologies Oy Adapting a distributed audio recording for end user free viewpoint monitoring
CN113242508B (zh) 2017-03-06 2022-12-06 杜比国际公司 基于音频数据流渲染音频输出的方法、解码器系统和介质
WO2018198789A1 (ja) 2017-04-26 2018-11-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
US10885921B2 (en) * 2017-07-07 2021-01-05 Qualcomm Incorporated Multi-stream audio coding
US11270711B2 (en) 2017-12-21 2022-03-08 Qualcomm Incorproated Higher order ambisonic audio data
US10657974B2 (en) * 2017-12-21 2020-05-19 Qualcomm Incorporated Priority information for higher order ambisonic audio data
GB2578715A (en) * 2018-07-20 2020-05-27 Nokia Technologies Oy Controlling audio focus for spatial audio processing
JP7447798B2 (ja) * 2018-10-16 2024-03-12 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
CN111081226B (zh) * 2018-10-18 2024-02-13 北京搜狗科技发展有限公司 语音识别解码优化方法及装置
JP7468359B2 (ja) * 2018-11-20 2024-04-16 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
JPWO2021200260A1 (zh) * 2020-04-01 2021-10-07
JPWO2022050087A1 (zh) * 2020-09-03 2022-03-10
WO2022066426A1 (en) * 2020-09-25 2022-03-31 Apple Inc. Seamless scalable decoding of channels, objects, and hoa audio content
CN112634914B (zh) * 2020-12-15 2024-03-29 中国科学技术大学 基于短时谱一致性的神经网络声码器训练方法
CN114974273B (zh) * 2021-08-10 2023-08-15 中移互联网有限公司 一种会议音频混音方法和装置
CN114550732B (zh) * 2022-04-15 2022-07-08 腾讯科技(深圳)有限公司 一种高频音频信号的编解码方法和相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1272259A (zh) * 1997-06-10 2000-11-01 拉斯·古斯塔夫·里杰利德 采用频带复现增强源编码
CN101529504A (zh) * 2006-10-16 2009-09-09 弗劳恩霍夫应用研究促进协会 多通道参数转换的装置和方法
CN102549655A (zh) * 2009-08-14 2012-07-04 Srs实验室有限公司 自适应成流音频对象的系统
WO2013181272A2 (en) * 2012-05-31 2013-12-05 Dts Llc Object-based audio system using vector base amplitude panning
CN103649706A (zh) * 2011-03-16 2014-03-19 Dts(英属维尔京群岛)有限公司 三维音频音轨的编码及再现

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330644B1 (en) * 1994-10-27 2001-12-11 Canon Kabushiki Kaisha Signal processor with a plurality of kinds of processors and a shared memory accessed through a versatile control means
JP3519722B2 (ja) * 1997-03-17 2004-04-19 松下電器産業株式会社 データ処理方法及びデータ処理装置
US6230130B1 (en) * 1998-05-18 2001-05-08 U.S. Philips Corporation Scalable mixing for speech streaming
JP2005292702A (ja) * 2004-04-05 2005-10-20 Kddi Corp オーディオフレームに対するフェードイン/フェードアウト処理装置及びプログラム
US8787594B1 (en) * 2005-01-28 2014-07-22 Texas Instruments Incorporated Multi-stream audio level controller
RU2383941C2 (ru) * 2005-06-30 2010-03-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для кодирования и декодирования аудиосигналов
US7974422B1 (en) * 2005-08-25 2011-07-05 Tp Lab, Inc. System and method of adjusting the sound of multiple audio objects directed toward an audio output device
JP4396683B2 (ja) * 2006-10-02 2010-01-13 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム
US8085786B2 (en) * 2007-03-16 2011-12-27 Qualcomm Incorporated H-ARQ throughput optimization by prioritized decoding
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
AU2010321013B2 (en) * 2009-11-20 2014-05-29 Dolby International Ab Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
US9531761B2 (en) * 2010-07-01 2016-12-27 Broadcom Corporation Method and system for prioritizing and scheduling services in an IP multimedia network
JP2012108451A (ja) * 2010-10-18 2012-06-07 Sony Corp 音声処理装置および方法、並びにプログラム
US9025458B2 (en) * 2012-10-23 2015-05-05 Verizon Patent And Licensing Inc. Reducing congestion of media delivery over a content delivery network
US9805725B2 (en) * 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
TR201808415T4 (tr) * 2013-01-15 2018-07-23 Koninklijke Philips Nv Binoral ses işleme.
WO2015056383A1 (ja) * 2013-10-17 2015-04-23 パナソニック株式会社 オーディオエンコード装置及びオーディオデコード装置
KR102160254B1 (ko) * 2014-01-10 2020-09-25 삼성전자주식회사 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1272259A (zh) * 1997-06-10 2000-11-01 拉斯·古斯塔夫·里杰利德 采用频带复现增强源编码
CN101529504A (zh) * 2006-10-16 2009-09-09 弗劳恩霍夫应用研究促进协会 多通道参数转换的装置和方法
CN102549655A (zh) * 2009-08-14 2012-07-04 Srs实验室有限公司 自适应成流音频对象的系统
CN103649706A (zh) * 2011-03-16 2014-03-19 Dts(英属维尔京群岛)有限公司 三维音频音轨的编码及再现
WO2013181272A2 (en) * 2012-05-31 2013-12-05 Dts Llc Object-based audio system using vector base amplitude panning

Also Published As

Publication number Publication date
US20210398546A1 (en) 2021-12-23
BR112016021407A2 (pt) 2022-07-19
CN106133828B (zh) 2020-04-10
EP3745397B1 (en) 2023-06-07
CN111489758A (zh) 2020-08-04
US20240055007A1 (en) 2024-02-15
JP6439296B2 (ja) 2018-12-19
JP2015194666A (ja) 2015-11-05
KR20230027329A (ko) 2023-02-27
EP3123470A1 (en) 2017-02-01
EP4243016A2 (en) 2023-09-13
BR112016021407B1 (pt) 2022-09-27
KR20160136278A (ko) 2016-11-29
RU2019112504A (ru) 2019-05-06
EP4243016A3 (en) 2023-11-08
RU2016137197A (ru) 2018-03-21
KR20210111897A (ko) 2021-09-13
US20200135216A1 (en) 2020-04-30
RU2016137197A3 (zh) 2018-10-22
US20180033440A1 (en) 2018-02-01
RU2689438C2 (ru) 2019-05-28
EP3745397A1 (en) 2020-12-02
KR102300062B1 (ko) 2021-09-09
CN106133828A (zh) 2016-11-16
WO2015146057A1 (en) 2015-10-01
EP3123470B1 (en) 2020-08-12

Similar Documents

Publication Publication Date Title
CN111489758B (zh) 解码装置、解码方法及存储介质
US8046214B2 (en) Low complexity decoder for complex transform coding of multi-channel sound
RU2422987C2 (ru) Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой
US9026452B2 (en) Bitstream syntax for multi-process audio decoding
US8817991B2 (en) Advanced encoding of multi-channel digital audio signals
TWI657434B (zh) 解碼壓縮高階保真立體音響表示之方法及裝置,及編碼壓縮高階保真立體音響表示之方法及裝置
US9230551B2 (en) Audio encoder or decoder apparatus
TW201606751A (zh) 將高階保真立體音響信號表示之次頻帶內主導方向信號之方向編碼/解碼之方法及裝置
CN114008704A (zh) 编码已缩放空间分量
JP2023072027A (ja) 復号装置および方法、並びにプログラム
CN114008705A (zh) 基于操作条件执行心理声学音频编解码
US20240321280A1 (en) Encoding device and method, decoding device and method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant