CN103765508B - 解码装置、解码方法、编码装置和编码方法 - Google Patents

解码装置、解码方法、编码装置和编码方法 Download PDF

Info

Publication number
CN103765508B
CN103765508B CN201380002768.6A CN201380002768A CN103765508B CN 103765508 B CN103765508 B CN 103765508B CN 201380002768 A CN201380002768 A CN 201380002768A CN 103765508 B CN103765508 B CN 103765508B
Authority
CN
China
Prior art keywords
contracting
information
voice data
mixed
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201380002768.6A
Other languages
English (en)
Other versions
CN103765508A (zh
Inventor
畠中光行
知念彻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN103765508A publication Critical patent/CN103765508A/zh
Application granted granted Critical
Publication of CN103765508B publication Critical patent/CN103765508B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本技术涉及可以实现更加真实的高质量声音的解码装置和解码方法、编码装置和编码方法、以及程序。编码装置存储表示位流中是否存在扩展信息的信息。在对编码位流解码期间,根据检索到的表示是否存在扩展信息的信息来检索扩展信息,并且基于所检索到的扩展信息来对音频数据执行处理。

Description

解码装置、解码方法、编码装置和编码方法
技术领域
本技术涉及解码装置、解码方法、编码装置、编码方法和程序,更具体地,涉及可以获得高质量的真实声音的解码装置、解码方法、编码装置、编码方法和程序。
背景技术
近年来,世界上的所有国家都引入了运动图像分发服务、数字电视广播和下一代归档。除了根据相关技术的立体声广播以外,开始引入与诸如5.1通道等的多个通道相对应的声音广播。
为了进一步改进图像质量,已经研究了像素数较大的下一代高清晰度电视。伴随着下一代高清晰度电视的研究,在声音处理领域内期望在水平方向和垂直方向上将通道扩展至多于5.1通道的多个通道,以便实现真实声音。
作为与音频数据的编码有关的技术,提出了将来自不同通道的多个窗口(window)分组成一些标题以提高编码效率的技术(例如,参见专利文献1)。
引用列表
专利文献
专利文献1:JP 2010-217900A
发明内容
本发明要解决的问题
然而,在上述技术中,难以获得高质量的真实声音。
例如,在基于作为国际标准的运动图像专家组-2高级音频编码(MPEG-2AAC)标准和MPEG-4AAC标准的多通道编码中,仅定义了水平方向上的扬声器布置和与从5.1通道向立体声通道的缩混有关的信息。因此,难以充分应对平面和垂直方向上的通道的扩展。
本技术是考虑到上述问题而作出的,并且可以获得高质量的真实声音。
用以解决问题的方案
根据本技术的第一方面的一种解码装置包括:解码单元,对编码位流中所包括的音频数据进行解码;读取单元,从所述编码位流读取表示在所述编码位流中是否存在扩展信息的信息,并且基于所读取的信息来读取所述扩展信息;以及处理单元,基于所述扩展信息来处理解码后的音频数据。
所述扩展信息可以是与缩混有关的信息,以及所述处理单元可以基于所述扩展信息来对解码后的多个通道的音频数据进行缩混。
所述处理单元可以基于与所述编码位流中所包括的所述扩展信息不同的信息,进一步对基于所述扩展信息进行了缩混的音频数据进行缩混。
所述扩展信息可以是用于获得对所述音频数据进行缩混所使用的系数的信息。
所述扩展信息可以是用于获得调整缩混后的音频数据的增益所使用的增益值的信息,以及所述处理单元可以基于所述增益值来调整缩混后的音频数据的增益。
所述扩展信息可以是表示是否使用特定通道的音频数据来进行缩混的信息。
根据本技术的第一方面的一种解码方法或程序包括以下步骤:对编码位流中所包括的音频数据进行解码;从所述编码位流读取表示在所述编码位流中是否存在扩展信息的信息,并且基于所读取的信息来读取所述扩展信息;以及基于所述扩展信息来处理解码后的音频数据。
在本技术的第一方面,对编码位流中所包括的音频数据进行解码。从编码位流读取表示在编码位流中是否存在扩展信息的信息,并且基于所读取的信息来读取扩展信息。基于该扩展信息来对解码后的音频数据进行处理。
根据本技术的第二方面的一种编码装置包括:编码单元,对音频数据、表示是否存在扩展信息的信息和所述扩展信息进行编码;以及打包(packing)单元,将编码后的所述音频数据、编码后的表示是否存在所述扩展信息的信息和编码后的所述扩展信息存储在预定区域中,并且生成编码位流。
所述扩展信息可以是与缩混有关的信息,以及可以基于所述扩展信息来对解码后的多个通道的音频数据进行缩混。
还可以基于与所述编码位流中所包括的所述扩展信息不同的信息,对基于所述扩展信息进行了缩混的音频数据进行缩混。
所述扩展信息可以是用于获得对所述音频数据进行缩混所使用的系数的信息。
所述扩展信息可以是用于获得调整缩混后的音频数据的增益所使用的增益值的信息,并且可以基于所述增益值来调整缩混后的音频数据的增益。
所述扩展信息可以是表示是否使用特定通道的音频数据来进行缩混的信息。
根据本技术的第二方面的一种编码方法或程序包括以下步骤:对音频数据、表示是否存在扩展信息的信息和所述扩展信息进行编码;以及将编码后的所述音频数据、编码后的表示是否存在所述扩展信息的信息和编码后的所述扩展信息存储在预定区域中并且生成编码位流。
在本技术的第二方面,对音频数据、表示是否存在扩展信息的信息和该扩展信息进行编码。将编码后的音频数据、编码后的表示是否存在扩展信息的信息和编码后的扩展信息存储在预定区域中并且生成编码位流。
本发明的效果
根据本技术的第一方面和第二方面,能够获得高质量的真实声音。
附图说明
图1是示出扬声器的布置的图。
图2是示出扬声器映射的示例的图。
图3是示出编码位流的图。
图4是示出height_extension_element的句法的图。
图5是示出扬声器的布置高度的图。
图6是示出MPEG4辅助数据的句法的图。
图7是示出bs_info()的句法的图。
图8是示出ancillary_data_status()的句法的图。
图9是示出downmixing_levels_MPEG4()的句法的图。
图10是示出audio_coding_mode()的句法的图。
图11是示出MPEG4_ext_ancillary_data()的句法的图。
图12是示出ext_ancillary_data_status()的句法的图。
图13是示出ext_downmixing_levels()的句法的图。
图14是示出应用了各系数的对象的图。
图15是示出ext_downmixing_global_gains()的句法的图。
图16是示出ext_downmixing_lfe_level()的句法的图。
图17是示出缩混的图。
图18是示出针对dmix_lfe_idx所确定的系数的图。
图19是示出针对dmix_a_idx和dmix_b_idx所确定的系数的图。
图20是示出drc_presentation_mode的句法的图。
图21是示出drc_presentation_mode的图。
图22是示出编码装置的结构的示例的图。
图23是示出编码处理的流程图。
图24是示出解码装置的结构的示例的图。
图25是示出解码处理的流程图。
图26是示出编码装置的结构的示例的图。
图27是示出编码处理的流程图。
图28是示出解码装置的示例的图。
图29是示出缩混处理单元的结构的示例的图。
图30是示出缩混单元的结构的示例的图。
图31是示出缩混单元的结构的示例的图。
图32是示出缩混单元的结构的示例的图。
图33是示出缩混单元的结构的示例的图。
图34是示出缩混单元的结构的示例的图。
图35是示出缩混单元的结构的示例的图。
图36是示出解码处理的流程图。
图37是示出重排处理的流程图。
图38是示出重排处理的流程图。
图39是示出缩混处理的流程图。
图40是示出计算机的结构的示例的图。
具体实施方式
以下将参考附图来描述应用了本技术的实施例。
<第一实施例>
[关于本技术的概要]
首先将描述本技术的概要。
本技术涉及音频数据的编码和解码。例如,在基于MPEG-2AAC或MPEG-4AAC标准的多通道编码中,难以获得关于水平面和垂直方向上的通道扩展的信息。
在多通道编码中,不存在通道扩展内容的缩混信息并且通道的适当混合比是未知的。因此,再现通道的数量少的便携型设备难以再现声音。
本技术可以使用以下特征(1)至(4)来获得高质量的真实声音。
(1)将与垂直方向上的扬声器布置有关的信息记录在现有的AAC标准定义的PCE(Program_config_element)内的注释区域中。
(2)在特征(1)的情况下,为了将一般注释与垂直方向上的扬声器布置信息区分开,在编码侧对同步字和CRC校验码这两个识别信息项进行编码,并且解码装置对这两个识别信息项进行比较。当这两个识别信息项彼此一致时,解码装置获取扬声器布置信息。
(3)将音频数据的缩混信息记录在辅助数据区域(DSE(data_stream_element))中。
(4)从6.1通道或7.1通道向2通道的缩混是包括从6.1通道或7.1通道向5.1通道的缩混以及从5.1通道向2通道的缩混的两级处理。
因而,使用与垂直方向上的扬声器布置有关的信息使得除了平面以外还可以再现垂直方向上的声音图像,并且再现比根据相关技术的平面多通道更加真实的声音。
另外,在传送与从6.1通道或7.1通道向5.1通道或2通道的缩混有关的信息时,使用一个编码数据项使得可以再现具有最适合各再现环境的通道数的声音。在与本技术不对应的根据相关技术的解码装置中,垂直方向上的信息作为一般注释被忽略并且对音频数据进行解码。因此,没有损坏兼容性。
[关于扬声器的布置]
接着将描述再现音频数据时扬声器的布置。
例如,如图1所示,假定用户从正面观察诸如电视机的显示装置的显示屏幕TVS。也就是说,假定用户位于图1中的显示屏幕TVS的前方。
在这种情况下,假定布置了13个扬声器Lvh、Rvh、Lrs、Ls、L、Lc、C、Rc、R、Rs、Rrs、Cs和LFE以环绕用户。
以下将扬声器Lvh、Rvh、Lrs、Ls、L、Lc、C、Rc、R、Rs、Rrs、Cs和LFE所再现的音频数据(声音)的通道分别称为Lvh、Rvh、Lrs、Ls、L、Lc、C、Rc、R、Rs、Rrs、Cs和LFE。
如图2所示,通道L是“左前方”,通道R是“右前方”,并且通道C是“前方中央”。
另外,通道Ls是“左环绕”,通道Rs是“右环绕”,通道Lrs是“左后方”,通道Rrs是“右后方”,并且通道Cs是“中央后方”。
通道Lvh是“左前高”,通道Rvh是“右前高”,并且通道LFE是“低频效果”。
返回图1,扬声器Lvh和扬声器Rvh布置在用户的前方上侧的左右。布置有扬声器Rvh和Lvh的层是“顶层”。
扬声器L、C和R布置在用户的左侧、中央和右侧。扬声器Lc和Rc分别布置在扬声器L与C之间以及扬声器R与C之间。另外,扬声器Ls和Rs分别布置在用户的左侧和右侧,并且扬声器Lrs、Rrs和Cs分别布置在用户的后方左侧、后方右侧和后方。
扬声器Lrs、Ls、L、Lc、C、Rc、R、Rs、Rrs和Cs布置在大致位于用户的耳朵的高度的平面中以环绕用户。将布置有这些扬声器的层称为“中间层”。
扬声器LFE布置在用户的前方下侧并且将布置有扬声器LFE的层称为“LFE层”。
[关于编码位流]
在对各通道的音频数据进行编码时,例如,获得图3所示的编码位流。也就是说,图3示出AAC帧的编码位流的句法。
图3所示的编码位流包括“报头/边信息(Header/sideinfo)”、“PCE”、“SCE”、“CPE”、“LFE”、“DSE”、“FIL(DRC)”和“FIL(END)”。在该示例中,编码位流包括三个“CPE”。
例如,“PCE”包括与音频数据的各通道有关的信息。在该示例中,“PCE”包括作为与音频数据的缩混有关的信息的“矩阵缩混(Matrix-mixdown)”和作为与扬声器的布置有关的信息的“高度信息(Height Information)”。另外,“PCE”包括作为可以存储自由注释的注释区域(注释字段)的“comment_field_data”,并且“comment_field_data”包括作为扩展区域的“height_extension_element”。注释区域可以存储诸如一般注释的任意数据。“height_extension_element”包括作为与扬声器布置的高度有关的信息的“高度信息”。
“SCE”包括单通道的音频数据,“CPE”包括通道对(即,两个通道)的音频数据,并且“LFE”包括例如通道LFE的音频数据。例如,“SCE”存储通道C或Cs的音频数据并且“CPE”包括通道L或R或者通道Lvh或Rvh的音频数据。
另外,“DSE”是辅助数据区域。“DSE”存储自由数据。在该示例中,作为与音频数据的缩混有关的信息,“DSE”包括“将5.1通道缩混为2通道”、“动态范围控制”、“DRC呈现模式”、“将6.1通道和7.1通道缩混为5.1通道”、“全局增益缩混”和“LFE缩混”,作为与音频数据的缩混有关的信息。
另外,“FIL(DRC)”包括与声音的动态范围控制有关的信息。例如,“FIL(DRC)”包括“节目参考等级”和“动态范围控制”。
[关于注释字段]
如上所述,“PCE”的“comment_field_data”包括“height_extension_element”。因此,利用与垂直方向上的扬声器布置有关的信息来实现多通道再现。也就是说,通过布置在诸如“顶层”或“中间层”的具有各高度的层中的扬声器来再现高质量的真实声音。
例如,如图4所示,“height_extension_element”包括区别于其它一般注释的同步字。也就是说,图4是示出“height_extension_element”的句法的图。
在图4中,“PCE_HEIGHT_EXTENSION_SYNC”表示同步字。
另外,“front_element_height_info[i]”、“side_element_height_info[i]”和“back_element_height_info[i]”表示位于观看者的前方、侧方和后方的扬声器的高度,即层。
此外,“byte_alignment()”表示字节对齐,并且“height_info_crc_check”表示用作识别信息的CRC校验码。另外,基于在“PCE_HEIGHT_EXTENSION_SYNC”和“byte_alignment()”之间读取的信息(即,同步字、与各扬声器的布置有关的信息(与各通道有关的信息)和字节对齐)来计算CRC校验码。然后,确定所计算出的CRC校验码与由“height_info_crc_check”表示的CRC校验码是否一致。当这些CRC校验码彼此一致时,确定正确地读取了与各扬声器的布置有关的信息。另外,“crc_cal()!=height_info_crc_check”表示这些CRC校验码之间的比较。
例如,如图5所示,设置作为与声源的位置(即,扬声器的布置(高度))有关的信息的“front_element_height_info[i]”、“side_element_height_info[i]”和“back_element_height_info[i]”。
也就是说,在与“front_element_height_info[i]”、“side_element_height_info[i]”和“back_element_height_info[i]”有关的信息为“0”、“1”和“2”时,扬声器的高度分别为“正常高度”、“顶部扬声器”和“底部扬声器”。也就是说,布置有扬声器的层为“中间层”、“顶层”和“LFE层”。
[关于DSE]
接着,将描述作为“DSE”(即,“data_stream_element()”的“data_stream_byte[]”)中所包括的辅助数据区域的“MPEG4辅助数据”。根据“MPEG4辅助数据”来执行从6.1通道或7.1通道向5.1通道或2通道的针对音频数据的缩混DRC控制。
图6是示出“MPEG4辅助数据”的句法的图。“MPEG4辅助数据”包括“bs_info()”、“ancillary_data_status()”、“downmixing_levels_MPEG4()”、“audio_coding_mode()”、“Compression_value”和“MPEG4_ext_ancillary_data()”。
这里,“Compression_value”与图3所示的“动态范围控制”相对应。另外,“bs_info()”、“ancillary_data_status()”、“downmixing_levels_MPEG4()”、“audio_coding_mode()”和“MPEG4_ext_ancillary_data()”的句法分别如图7至图11所示。
例如,如图7所示,“bs_info()”包括“mpeg_audio_type”、“dolby_surround_mode”、“drc_presentation_mode”和“pseudo_surround_enable”。
另外,“drc_presentation_mode”与图3所示的“DRC呈现模式”相对应。此外,“pseudo_surround_enable”包括表示从5.1通道向2通道的缩混的过程的信息,即表示要用于缩混的多种缩混方法之一的信息。
例如,该处理根据图8所示的“ancillary_data_status()”中所包括的“ancillary_data_extension_status”是0还是1而改变。当“ancillary_data_extension_status”是1时,进行对图6所示的“MPEG4辅助数据”中的“MPEG4_ext_ancillary_data()”的访问并且进行缩混DRC控制。另一方面,当“ancillary_data_extension_status”是0时,执行根据相关技术的处理。这样,能够确保与现有标准的兼容性。
另外,图8所示的“ancillary_data_status()”中所包括的“downmixing_levels_MPEG4_status”是用于指定将5.1通道缩混为2通道所使用的系数(混合比)的信息。也就是说,当“downmixing_levels_MPEG4_status”为1时,使用根据图9所示的“downmixing_levels_MPEG4()”中所存储的信息所确定的系数来进行缩混。
此外,图9所示的“downmixing_levels_MPEG4()”包括作为用于指定缩混系数的信息的“center_mix_level_value”和“surround_mix_level_value”。例如,利用以下将描述的图19所示的表来确定与“center_mix_level_value”和“surround_mix_level_value”相对应的系数的值。
另外,图9所示的“downmixing_levels_MPEG4()”与图3所示的“将5.1通道缩混为2通道”相对应。
此外,图11所示的“MPEG4_ext_ancillary_data()”包括“ext_ancillary_data_status()”、“ext_downmixing_levels()”、“ext_downmixing_global_gains()”和“ext_downmixing_lfe_level()”。
将扩展通道数以使得5.1通道的音频数据扩展为7.1通道或6.1通道的音频数据所需的信息存储在“MPEG4_ext_ancillary_data()”中。
具体地,“ext_ancillary_data_status()”包括表示是否从大于5.1通道的通道缩混为5.1通道的信息(标志)、表示在缩混期间是否执行增益控制的信息以及表示在缩混期间是否使用LFE通道的信息。
将用于指定在缩混期间所使用的系数(混合比)的信息存储在“ext_downmixing_levels()”中并且将与增益调整期间的增益有关的信息包括在“ext_downmixing_global_gains()”中。另外,将用于指定在缩混期间所使用的LEF通道的系数(混合比)的信息存储在“ext_downmixing_lfe_level()”中。
具体地,例如,“ext_ancillary_data_status()”的句法如图12所示。在“ext_ancillary_data_status()”中,“ext_downmixing_levels_status”表示是否将6.1通道或7.1通道缩混为5.1通道。也就是说,“ext_downmixing_levels_status”表示是否存在“ext_downmixing_levels()”。“ext_downmixing_levels_status”与图3所示的“将6.1通道或7.1通道缩混为5.1通道”相对应。
另外,“ext_downmixing_global_gains_status”表示是否执行全局增益控制并且与图3所示的“全局增益缩混”相对应。也就是说,“ext_downmixing_global_gains_status”表示是否存在“ext_downmixing_global_gains()”。另外,“ext_downmixing_lfe_level_status”表示在将5.1通道缩混为2通道时是否使用LFE通道,并且与图3所示的“LFE缩混”相对应。
图11所示的“MPEG4_ext_ancillary_data()”中的“ext_downmixing_levels()”的句法如图13所示,并且图13所示的“dmix_a_idx”和“dmix_b_idx”是表示缩混期间的混合比(系数)的信息。
图14示出由“ext_downmixing_levels()”确定的“dmix_a_idx”和“dmix_b_idx”与在对7.1通道的音频数据进行缩混时被应用了“dmix_a_idx”和“dmix_b_idx”的成分之间的对应关系。
图11所示的“MPEG4_ext_ancillary_data()”中的“ext_downmixing_global_gains()”和“ext_downmixing_lfe_level()”的句法如图15和图16所示。
例如,图15所示的“ext_downmixing_global_gains()”包括表示向5.1通道缩混期间的增益的符号的“dmx_gain_5_sign”、增益“dmx_gain_5_idx”、表示向2通道缩混期间的增益的符号的“dmx_gain_2_sign”、以及增益“dmx_gain_2_idx”。
另外,图16所示的“ext_downmixing_lfe_level()”包括“dmix_lfe_idx”,并且“dmix_lfe_idx”是表示缩混期间LFE通道的混合比(系数)的信息。[关于缩混]
另外,图7所示的“bs_info()”的句法中的“pseudo_surround_enable”表示缩混处理的过程,并且该处理的过程如图17所示。这里,图17示出当“pseudo_surround_enable”为0时和当“pseudo_surround_enable”为1时的两个过程。
接着将描述音频数据缩混处理。
首先,将描述从5.1通道向2通道的缩混。在这种情况下,当缩混之后的L通道和R通道分别为L’通道和R’通道时,执行以下处理。
也就是说,在“pseudo_surround_enable”为0时,通过以下表达式(1)来计算L’通道和R’通道的音频数据。
L’=L+C×b+Ls×a+LFE×c
R’=R+C×b+Rs×a+LFE×c...(1)
在“pseudo_surround_enable”为1时,通过以下表达式(2)来计算L’通道和R’通道的音频数据。
L’=L+C×b-a×(Ls+Rs)+LFE×c
R’=R+C×b+a×(Ls+Rs)+LFE×c...(2)
在表达式(1)和表达式(2)中,L、R、C、Ls、Rs和LFE是构成5.1通道的各通道,并且分别表示参照图1和图2已描述的通道L、R、C、Ls、Rs和LFE。
在表达式(1)和表达式(2)中,“c”是根据图16所示的“ext_downmixing_lfe_level()”中包括的“dmix_lfe_idx”的值所确定的常数。例如,与“dmix_lfe_idx”的各值相对应的常数c的值如图18所示。具体地,在图12所示的“ext_ancillary_data_status()”中的“ext_downmixing_lfe_level_status”为0时,在使用表达式(1)和表达式(2)的计算中不使用LFE通道。在“ext_downmixing_lfe_level_status”为1时,基于图18所示的表来确定将常数c乘以LFE通道所得的值。
在表达式(1)和表达式(2)中,“a”和“b”是根据图13所示的“ext_downmixing_levels()”中包括的“dmix_a_idx”和“dmix_b_idx”的值确定的常数。另外,在表达式(1)和表达式(2)中,“a”和“b”可以是根据图9所示的“downmixing_levels_MPEG4()”中的“center_mix_level_value”和“surround_mix_level_value”的值确定的常数。
例如,相对于“dmix_a_idx”和“dmix_b_idx”的值或者“center_mix_level_value”和“surround_mix_level_value”的值的常数a和b的值如图19所示。在该示例中,由于“dmix_a_idx”和“dmix_b_idx”以及“center_mix_level_value”和“surround_mix_level_value”参考同一表,因此缩混所用的常数(系数)a和b具有相同值。
然后,将描述从7.1通道或6.1通道向5.1通道的缩混。
在将包括布置在用户的后方的扬声器Lrs和Rrs的通道的通道C、L、R、Ls、Rs、Lrs、Rrs和LFE的音频数据转换成包括通道C’、L’、R’、Ls’、Rs’和LFE’的5.1通道的音频数据时,通过以下的表达式(3)来进行计算。这里,通道C’、L’、R’、Ls’、Rs’和LFE’分别表示缩混之后的通道C、L、R、Ls、Rs和LFE。另外,在表达式(3)中,C、L、R、Ls、Rs、Lrs、Rrs和LFE表示通道C、L、R、Ls、Rs、Lrs、Rrs和LFE的音频数据。
C’=C
L’=L
R’=R
Ls’=Ls×d1+Lrs×d2
Rs’=Rs×d1+Rrs×d2
LFE’=LFE...(3)
在表达式(3)中,d1和d2是常数。例如,常数d1和d2是针对图19所示的“dmix_a_idx”和“dmix_b_idx”的值所确定的。
当将包括布置在用户的前方的扬声器Lc和Rc的通道的通道C、L、R、Lc、Rc、Ls、Rs和LFE的音频数据转换成包括通道C’、L’、R’、Ls’、Rs’和LFE’的5.1通道的音频数据时,通过以下表达式(4)来进行计算。这里,通道C’、L’、R’、Ls’、Rs’和LFE’分别表示缩混之后的通道C、L、R、Ls、Rs和LFE。在表达式(4)中,C、L、R、Lc、Rc、Ls、Rs和LFE表示通道C、L、R、Lc、Rc、Ls、Rs和LFE的音频数据。
C’=C+e1×(Lc+Rc)
L’=L+Lc×e2
R’=R+Rc×e2
Ls’=Ls
Rs’=Rs
LFE’=LFE...(4)
在表达式(4)中,e1和e2是常数。例如,常数e1和e2是针对图19所示的“dmix_a_idx”和“dmix_b_idx”的值所确定的。
当将包括布置在用户的前方上侧的扬声器Rvh和Lvh的通道的通道C、L、R、Lvh、Rvh、Ls、Rs和LFE的音频数据转换成包括通道C’、L’、R’、Ls’、Rs’和LFE’的5.1通道的音频数据时,通过以下表达式(5)来进行计算。这里,通道C’、L’、R’、Ls’、Rs’和LFE’分别表示缩混之后的通道C、L、R、Ls、Rs和LFE。在表达式(5)中,C、L、R、Lvh、Rvh、Ls、Rs和LFE表示通道C、L、R、Lvh、Rvh、Ls、Rs和LFE的音频数据。
C’=C
L’=L×f1+Lvh×f2
R’=R×f1+Rvh×f2
Ls’=Ls
Rs’=Rs
LFE’=LFE...(5)
在表达式(5)中,f1和f2是常数。例如,常数f1和f2是针对图19所示的“dmix_a_idx”和“dmix_b_idx”的值所确定的。
在进行从6.1通道向5.1通道的缩混时,执行以下处理。也就是说,当将通道C、L、R、Ls、Rs、Cs和LFE的音频数据转换成包括通道C’、L’、R’、Ls’、Rs’和LFE’的5.1通道的音频数据时,通过以下表达式(6)来进行计算。这里,通道C’、L’、R’、Ls’、Rs’和LFE’分别表示缩混之后的通道C、L、R、Ls、Rs和LFE。在表达式(6)中,C、L、R、Ls、Rs、Cs和LFE表示通道C、L、R、Ls、Rs、Cs和LFE的音频数据。
C’=C
L’=L
R’=R
Ls’=Ls×g1+Cs×g2
Rs’=Rs×g1+Cs×g2
LFE’=LFE...(6)
在表达式(6)中,g1和g2是常数。例如,常数g1和g2是针对图19所示的“dmix_a_idx”和“dmix_b_idx”的值所确定的。
接着将描述对于缩混期间的音量校正的全局增益。
使用全局缩混增益来校正通过缩混而增大或减小的声音音量。这里,dmx_gain5表示用于从7.1通道或6.1通道向5.1通道缩混的校正值,以及dmx_gain2表示用于从5.1通道向2通道缩混的校正值。另外,dmx_gain2支持不对应于7.1通道的解码装置或位流。
其应用和操作与DRC重压缩相似。另外,编码装置可以在音频帧长的时段或音频帧过短的时段内适当地进行选择性评价以确定全局缩混增益。
在从7.1通道向2通道缩混期间,应用组合增益,即(dmx_gain5+dmx_gain2)。例如,使用6位无符号整数作为dmx_gain5和dmx_gain2,并且按0.25dB的间隔对dmx_gain5和dmx_gain2进行量化。
因此,在将dmx_gain5和dmx_gain2彼此组合时,组合增益在±15.75dB的范围内。将该增益值应用于解码后的当前帧的音频数据的样本。
具体地,在向5.1通道缩混期间,执行以下处理。也就是说,当对通过缩混所获得的通道C’、L’、R’、Ls’、Rs’和LFE’的音频数据进行增益校正以获得通道C”、L”、R”、Ls”、Rs”和LFE”的音频数据时,通过以下表达式(7)来进行计算。
L”=L’×dmx_gain5
R”=R’×dmx_gain5
C”=C’×dmx_gain5
Ls”=Ls’×dmx_gain5
Rs”=Rs’×dmx_gain5
LFE”=LFE’×dmx_gain5...(7)
这里,dmx_gain5是标量值,并且是通过以下表达式(8)、根据图15所示的“dmx_gain_5_sign”和“dmx_gain_5_idx”所计算出的增益值。
dmx_gain5=10(dmx_gain_5_idx/20)if dmx_gain_5_sign==1
dmx_gain5=10(-dmx_gain_5_idx/20)if dmx_gain_5_sign==0...(8)
同样,在向2通道缩混期间,执行以下处理。也就是说,当对通过缩混所获得的通道L’和R’的音频数据进行增益校正以获得通道L”和R”的音频数据时,通过以下表达式(9)来进行计算。
L”=L’×dmx_gain2
R”=R’×dmx_gain2...(9)
这里,dmx_gain2是标量值,并且是通过使用以下的表达式(10)、根据图15所示的“dmx_gain_2_sign”和“dmx_gain_2_idx”所计算出的增益值。
dmx_gain2=10(dmx_gain_2_idx/20)if dmx_gain_2_sign==1
dmx_gain2=10(-dmx_gain_2_idx/20)if dmx_gain_2_sign==0...(10)
在从7.1通道向2通道的缩混期间,在将7.1通道缩混为5.1通道并且将5.1通道缩混为2通道之后,可以对所获得的信号(数据)进行增益调整。在这种情况下,如以下表达式(11)所述,可以通过结合dmx_gain5和dmx_gain2来获得应用于音频数据的增益值dmx_gain_7to2。
dmx_gain_7to2=dmx_gain_2×dmx_gain_5...(11)
与从7.1通道向2通道的缩混类似,进行从6.1通道向2通道的缩混。
例如,在从7.1通道向2通道的缩混期间,当通过表达式(7)或表达式(9)按两个阶段进行增益校正时,可以输出5.1通道的音频数据和2通道的音频数据。
[关于DRC呈现模式]
另外,图7所示的“bs_info()”中所包括的“drc_presentation_mode”如图20所示。也就是说,图20是示出“drc_presentation_mode”的句法的图。
在“drc_presentation_mode”为“01”时,模式是“DRC呈现模式1”。在“drc_presentation_mode”为“10”时,模式是“DRC呈现模式2”。在“DRC呈现模式1”和“DRC呈现模式2”下,如图21所示进行增益控制。
[编码装置的示例结构]
接着将描述应用了本技术的具体实施例。
图22是示出根据应用了本技术的实施例的编码装置的结构的示例的图。编码装置11包括输入单元21、编码单元22和打包单元23。
输入单元21从外部获取音频数据和与音频数据有关的信息,并且将该音频数据和该信息提供至编码单元22。例如,获取到与扬声器的布置(布置高度)有关的信息作为与音频数据有关的信息。
编码单元22对从输入单元21提供的音频数据和与音频数据有关的信息进行编码,并且将编码后的音频数据和信息提供至打包单元23。打包单元23对从编码单元22提供的音频数据或与音频数据有关的信息进行打包以生成图3所示的编码位流,并且输出该编码位流。
[编码处理的描述]
接着将参照图23所示的流程图来描述编码装置11的编码处理。
在步骤S11中,输入单元21获取音频数据和与音频数据有关的信息并且将该音频数据和该信息提供至编码单元22。例如,获取7.1通道当中的各通道的音频数据以及存储在图4所示的“height_extension_element”中的与扬声器的布置有关的信息(以下称为扬声器布置信息)。
在步骤S12中,编码单元22对从输入单元21提供的各通道的音频数据进行编码。
在步骤S13中,编码单元22对从输入单元21提供的扬声器布置信息进行编码。在这种情况下,编码单元22生成图4所示的“height_extension_element”中包括的“PCE_HEIGHT_EXTENSION_SYNC”内所存储的同步字或者作为存储在“height_info_crc_check”中的识别信息的CRC校验码,并且将该同步字或CRC校验码以及编码后的扬声器布置信息提供至打包单元23。
另外,编码单元22生成用以生成编码位流所需的信息,并且将所生成的信息和编码后的音频数据或扬声器布置信息提供至打包单元23。
在步骤S14中,打包单元23对从编码单元22提供的音频数据或扬声器布置信息进行位打包以生成图3所示的编码位流。在这种情况下,打包单元23例如将扬声器布置信息或同步字以及CRC校验码存储在“PCE”中并且将音频数据存储在“SCE”或“CPE”中。
在输出了编码位流时,编码处理结束。
这样,编码装置11将作为与各层中的扬声器的布置有关的信息的扬声器布置信息插入编码位流中并且输出编码后的音频数据。如此,当使用与垂直方向上的扬声器布置有关的信息时,除了在平面内以外,还可以在垂直方向上再现声音图像。因此,可以再现更加真实的声音。
[解码装置的示例结构]
接着将描述接收从编码装置11输出的编码位流并且对该编码位流进行解码的解码装置。
图24是示出解码装置的结构的示例的图。解码装置51包括分离单元61、解码单元62和输出单元63。
分离单元61接收从编码装置11发送的编码位流,对该编码位流进行位解包,并且将解包后的编码位流提供至解码单元62。
解码单元62例如对从分离单元61提供的编码位流(即,各通道的音频数据或扬声器布置信息)进行解码,并且将解码后的音频数据提供至输出单元63。例如,解码单元62根据需要对音频数据进行缩混。
输出单元63基于解码单元62所指定的扬声器的布置(扬声器映射)来输出从解码单元62提供的音频数据。将从输出单元63输出的各通道的音频数据提供至各通道的扬声器然后进行再现。
[解码操作的描述]
接着将参照图25的流程图来描述解码装置51的解码处理。
在步骤S41中,解码单元62对音频数据进行解码。
即,分离单元61接收从编码装置11发送的编码位流并且对该编码位流进行位解包。然后,分离单元61将通过位解包所获得的音频数据和诸如扬声器布置信息的各种信息提供至解码单元62。解码单元62对从分离单元61提供的音频数据进行解码并且将解码后的音频数据提供至输出单元63。
在步骤S42中,解码单元62根据从分离单元61提供的信息检测同步字。具体地,根据图4所示的“height_extension_element”检测同步字。
在步骤S43中,解码单元62确定是否检测到同步字。当在步骤S43中确定为检测到同步字时,在步骤S44中,解码单元62对扬声器布置信息进行解码。
也就是说,解码单元62从图4所示的“height_extension_element”读取诸如“front_element_height_info[i]”、“side_element_height_info[i]”和“back_element_height_info[i]”的信息。这样,可以发现能够以高质量再现各音频数据项的扬声器的位置(通道)。
在步骤S45中,解码单元62生成识别信息。也就是说,解码单元62基于在“height_extension_element”内的“PCE_HEIGHT_EXTENSION_SYNC”和“byte_alignment()”之间读取的信息(即,同步字、扬声器布置信息和字节对齐)来计算CRC校验码,并且获得该识别信息。
在步骤S46中,解码单元62将在步骤S45中所生成的识别信息与图4所示的“height_extension_element”的“height_info_crc_check”中所包括的识别信息进行比较,并且确定这些识别信息项是否彼此一致。
当在步骤S46中确定为识别信息项彼此一致时,解码单元62将解码后的音频数据提供至输出单元63,并且基于所获得的扬声器布置信息来指示音频数据的输出。然后,该处理进入步骤S47。
在步骤S47中,输出单元63基于解码单元62所指示的扬声器布置(扬声器映射)来输出从解码单元62提供的音频数据。然后,该解码处理结束。
另一方面,当在步骤S43中确定为没有检测到同步字时或者当在步骤S46中确定为识别信息项彼此不一致时,在步骤S48中,输出单元63基于预定的扬声器布置来输出音频数据。
也就是说,当从“height_extension_element”正确地读取了扬声器布置信息时,执行步骤S48中的处理。在这种情况下,解码单元62将音频数据提供至输出单元63并且指示音频数据的输出,以使得通过各预定通道的扬声器再现各通道的音频数据。然后,输出单元63响应于来自解码单元62的指示来输出音频数据,并且该解码处理结束。
这样,解码装置51对音频数据或编码位流中所包括的扬声器布置信息进行解码并且基于该扬声器布置信息来输出音频数据。由于扬声器布置信息包括与垂直方向上的扬声器布置有关的信息,因此除了在平面内以外,还可以在垂直方向上再现声音图像。因此,可以再现更加真实的声音。
具体地,例如在对音频数据进行解码时,根据需要还执行对音频数据进行缩混的处理。
在这种情况下,例如,当图6所示的“MPEG4辅助数据”的“ancillary_data_status()”中的“ancillary_data_extension_status”为“1”时,解码单元62读取“MPEG4_ext_ancillary_data()”。然后,解码单元62读取图11所示的“MPEG4_ext_ancillary_data()”中所包括的各信息项并且执行音频数据缩混处理或增益校正处理。
例如,解码单元62使7.1通道或6.1通道的音频数据缩混为5.1通道的音频数据或者进一步使5.1通道的音频数据缩混为2通道的音频数据。
在这种情况下,解码单元62根据需要使用LFE通道的音频数据来进行缩混。参考图13所示的“ext_downmixing_levels()”或图16所示的“ext_downmixing_lfe_level()”来确定与各通道相乘的系数。另外,参考图15所示的“ext_downmixing_global_gains()”来执行缩混期间的增益校正。[编码装置的示例结构]
接着将描述上述编码装置和解码装置的详细结构以及这些装置的详细操作的示例。
图26是示出编码装置的详细结构的示例的图。
编码装置91包括输入单元21、编码单元22和打包单元23。在图26中,以相同的附图标记表示与图22所示的部件相对应的部件,并且将不重复对这些部件的描述。
编码单元22包括PCE编码单元101、DSE编码单元102和音频元素编码单元103。
PCE编码单元101基于从输入单元21提供的信息来对PCE进行编码。也就是说,PCE编码单元101在根据需要对各信息项进行编码的同时生成存储在PCE中的各信息项。PCE编码单元101包括同步字编码单元111、布置信息编码单元112和识别信息编码单元113。
同步字编码单元111对同步字进行编码并且使用编码后的同步字作为存储在PCE的注释区域中所包括的扩展区域中的信息。布置信息编码单元112对表示针对各音频数据项的扬声器的高度(层)的并且从输入单元21提供的扬声器布置信息进行编码,并且使用编码后的扬声器布置信息作为存储在注释区域的扩展区域中的信息。
识别信息编码单元113对识别信息进行编码。例如,识别信息编码单元113根据需要、基于同步字和扬声器布置信息来生成CRC校验码作为识别信息,并且使用该CRC校验码作为存储在注释区域的扩展区域中的信息。
DSE编码单元102基于从输入单元21提供的信息来对DSE进行编码。也就是说,DSE编码单元102根据需要在对各信息项进行编码的同时生成要存储在DSE中的各信息项。DSE编码单元102包括扩展信息编码单元114和缩混信息编码单元115。
扩展信息编码单元114对表示扩展信息是否包括在作为DSE的扩展区域的“MPEG4_ext_ancillary_data()”中的信息(标志)进行编码。缩混信息编码单元115对与音频数据的缩混有关的信息进行编码。音频元素编码单元103对从输入单元21提供的音频数据进行编码。
编码单元22将通过对每种类型的数据进行编码所获得的并且存储在各元素中的信息提供至打包单元23。
[编码处理的描述]
接着将参照图27所示的流程图来描述编码装置91的编码处理。该编码处理与参照图23所示的流程图已描述的处理相比更加详细。
在步骤S71中,输入单元21获取音频数据和对该音频数据进行编码所需的信息,并且将该音频数据和该信息提供至编码单元22。
例如,输入单元21获取各通道的脉冲编码调制(PCM)数据、表示各通道扬声器的布置的信息、用于指定缩混系数的信息和表示编码位流的位速率的信息作为音频数据。这里,用于指定缩混系数的信息是表示在从7.1通道或6.1通道向5.1通道的缩混以及从5.1通道向2通道的缩混期间与各通道的音频数据相乘的系数的信息。
另外,输入单元21获取要获得的编码位流的文件名。在编码侧适当地使用该文件名。
在步骤S72中,音频元素编码单元103对从输入单元21提供的音频数据进行编码,并且将编码后的音频数据存储在诸如SCE、CPE和LFE的各元素中。在这种情况下,按根据从输入单元21提供至编码单元22的位速率以及除音频数据以外的信息中的代码数量所确定的位速率来对音频数据进行编码。
例如,对C通道或Cs通道的音频数据进行编码并且存储在SCE中。对L通道或R通道的音频数据进行编码并且存储在CPE中。另外,对LFE通道的音频数据进行编码并且存储在LFE中。
在步骤S73中,同步字编码单元111基于从输入单元21提供的信息来对同步字进行编码,并且编码后的同步字存储在图4所示的“height_extension_element”的“PCE_HEIGHT_EXTENSION_SYNC”中。
在步骤S74中,布置信息编码单元112对从输入单元21提供的各音频数据的扬声器布置信息进行编码。
在打包单元23中的声源位置处(即,按与扬声器的布置相对应的顺序)来将编码后的扬声器布置信息存储在“height_extension_element”中。也就是说,将表示通过布置在用户的前方的扬声器所再现的各通道的扬声器高度(声源的高度)的扬声器布置信息作为“front_element_height_info[i]”存储在“height_extension_element”中。
另外,在“front_element_height_info[i]”之后,将表示通过布置在用户的侧方的扬声器所再现的各通道的扬声器高度的扬声器布置信息作为“side_element_height_info[i]”存储在“height_extension_element”中。然后,在“side_element_height_info[i]”之后,将表示通过布置在用户的后方的扬声器所再现的各通道的扬声器高度的扬声器布置信息作为“back_element_height_info[i]”存储在“height_extension_element”中。
在步骤S75中,识别信息编码单元113对识别信息进行编码。例如,识别信息编码单元113根据需要、基于同步字和扬声器布置信息来生成CRC校验码作为识别信息。CRC校验码是存储在“height_extension_element”的“height_info_crc_check”中的信息。同步字和CRC校验码是用于识别在编码位流中是否存在扬声器布置信息的信息。
另外,识别信息编码单元113生成指示执行字节对齐的信息作为存储在“height_extension_element”的“byte_alignment()”中的信息。识别信息编码单元113生成指示比较识别信息的信息作为存储在“height_extension_element”的“if(crc_cal()!=height_info_crc_check)”中的信息。
通过步骤S73至步骤S75的处理来生成要存储在PCE的注释区域中所包括的扩展区域(即,“height_extension_element”)中的信息。
在步骤S76中,PCE编码单元101例如基于从输入单元21提供的信息或所生成的存储在扩展区域中的信息来对PCE进行编码。
例如,PCE编码单元101生成表示前方扬声器、侧方扬声器和后方扬声器所再现的通道数的信息或表示各音频数据项属于C通道、L通道和R通道中的哪一个的信息,作为要存储在PCE中的信息。
在步骤S77中,扩展信息编码单元114基于从输入单元21提供的信息来对表示扩展信息是否包括在DSE的扩展区域中的信息进行编码,并且编码后的信息存储在图8所示的“ancillary_data_status()”的“ancillary_data_extension_status”中。例如,作为表示是否包括扩展信息的信息(即,表示是否存在扩展信息的信息),“0”或“1”存储在“ancillary_data_extension_status”中。
在步骤S78中,缩混信息编码单元115基于从输入单元21提供的信息来对与音频数据的缩混有关的信息进行编码。
例如,缩混信息编码单元115对用于指定从输入单元21提供的缩混系数的信息进行编码。具体地,缩混信息编码单元115对表示在从5.1通道向2通道的缩混期间与各通道的音频数据相乘的系数的信息进行编码,并且“center_mix_level_value”和“surround_mix_level_value”存储在图9所示的“downmixing_levels_MPEG4()”中。
另外,缩混信息编码单元115对表示在从5.1通道向2通道的缩混期间与LFE通道的音频数据相乘的系数的信息进行编码,并且“dmix_lfe_idx”存储在图16所示的“ext_downmixing_lfe_level()”中。同样,缩混信息编码单元115对从输入单元21提供的表示向2通道的缩混的过程的信息进行编码,并且“pseudo_surround_enable”存储在图7所示的“bs_info()”中。
缩混信息编码单元115对表示在从7.1通道或6.1通道向5.1通道的缩混期间与各通道的音频数据相乘的系数的信息进行编码,并且“dmix_a_idx”和“dmix_b_idx”存储在图13所示的“ext_downmixing_levels”中。
缩混信息编码单元115对表示在从5.1通道向2通道的缩混期间是否使用LFE通道的信息进行编码。将编码后的信息存储在作为扩展区域的图11所示的“ext_ancillary_data_status()”中包括的图12所示的“ext_downmixing_lfe_level_status”中。
缩混信息编码单元115对缩混期间的增益调整所需的信息进行编码。将编码后的信息存储在图11所示的“MPEG4_ext_ancillary_data()”内的“ext_downmixing_global_gains”中。
在步骤S79中,DSE编码单元102基于从输入单元21提供的信息或所生成的与缩混有关的信息来对DSE进行编码。
通过上述处理获得要存储在诸如PCE、SCE、CPE、LFE和DSE的各元素中的信息。编码单元22将要存储在各元素中的信息提供至打包单元23。另外,编码单元22根据需要生成诸如“报头/边信息”、“FIL(DRC)”和“FIL(END)”的各元素,并且将所生成的元素提供至打包单元23。
在步骤S80中,打包单元23对从编码单元22提供的音频数据或扬声器布置信息进行位打包以生成图3所示的编码位流,并且输出该编码位流。例如,打包单元23将从编码单元22提供的信息存储在PCE或DSE中以生成编码位流。当输出编码位流时,该编码处理结束。
这样,编码装置91例如将扬声器布置信息、与缩混有关的信息和表示扩展信息是否包括在扩展区域中的信息插入编码位流中,并且输出编码后的音频数据。因而,当将扬声器布置信息和与缩混有关的信息存储在编码位流中时,在编码位流的解码侧可以获得高质量的真实声音。
例如,当将与垂直方向上的扬声器布置有关的信息存储在编码位流中时,在解码侧,除了平面内以外,还可以再现垂直方向上的声音图像。因此,可以再现真实声音。
另外,编码位流包括用于识别扬声器布置信息的多个识别信息项(识别码),以便识别存储在注释区域的扩展区域中的信息是扬声器布置信息还是诸如其它注释的文本信息。在本实施例中,编码位流包括紧接布置在扬声器布置信息之前的同步字以及根据诸如扬声器布置信息的所存储信息的内容确定的CRC校验码,作为识别信息。
当这两个识别信息项包括在编码位流中时,可以可靠地指定编码位流中所包括的信息是否是扬声器布置信息。结果,可以使用所获得的扬声器布置信息来获得高质量的真实声音。
另外,在编码位流中,作为用于对音频数据进行缩混的信息,“pseudo_surround_enable”包括在DSE中。该信息使得可以指定多种方法中的任一种作为使通道从5.1通道缩混为2通道的方法。因此,可以改进解码侧的音频数据的灵活性。
具体地,在本实施例中,作为使通道从5.1通道缩混为2通道的方法,存在使用表达式(1)的方法和使用表达式(2)的方法。例如,将通过缩混所获得的2通道的音频数据发送至解码侧的再现装置,并且再现装置将2通道的音频数据转换成5.1通道的音频数据并且再现转换后的音频数据。
在这种情况下,在使用表达式(1)的方法和使用表达式(2)的方法中,根据利用这两种方法中的任一种方法所获得的音频数据不太可能获得当再现5.1通道的最终音频数据时预先假定的适当的音响效果。
然而,在编码装置91所获得的编码位流中,能够获得在解码侧所假定的音响效果的缩混方法可以通过“pseudo_surround_enable”来指定。因此,在解码侧可以获得高质量的真实声音。
另外,在编码位流中,表示是否包括扩展信息的信息(标志)存储在“ancillary_data_extension_status”中。因此,可以参考该信息来指定扩展信息是否包括在作为扩展区域的“MPEG4_ext_ancillary_data()”中。
例如,在该示例中,作为扩展信息,根据需要将“ext_ancillary_data_status()”、“ext_downmixing_levels()”、“ext_downmixing_global_gains”和“ext_downmixing_lfe_level()”存储在扩展区域中。
当可以获得扩展信息时,可以改进对音频数据的缩混时的灵活性并且在解码侧可以获得各种音频数据。结果,可以获得高质量的真实声音。
[解码装置的示例结构]
接着将描述解码装置的详细结构。
图28是示出解码装置的详细结构的示例的图。在图28中,以相同的附图标记来表示与图24所示的部件相对应的部件,并且将不重复对这些部件的说明。
解码装置141包括分离单元61、解码单元62、切换单元151、缩混处理单元152和输出单元63。
分离单元61接收从编码装置91输出的编码位流,对该编码位流进行解包,并且将该编码位流提供至解码单元62。另外,分离单元61获取缩混形式参数和音频数据的文件名。
在解码装置141中,缩混形式参数是表示包括在编码位流中的音频数据的缩混形式的信息。例如,作为缩混形式参数,包括表示从7.1通道或6.1通道向5.1通道的缩混的信息、表示从7.1通道或6.1通道向2通道的缩混的信息、表示从5.1通道向2通道的缩混的信息或者表示不进行缩混的信息。
将分离单元61获取的缩混形式参数提供至切换单元151和缩混处理单元152。另外,在解码装置141中适当地使用分离单元61获取的文件名。
解码单元62对从分离单元61提供的编码位流进行解码。解码单元62包括PCE解码单元161、DSE解码单元162和音频元素解码单元163。
PCE解码单元161对包括在编码位流中的PCE进行解码并且将通过解码所获得的信息提供至缩混处理单元152和输出单元63。PCE解码单元161包括同步字检测单元171和识别信息计算单元172。
同步字检测单元171从PCE的注释区域内的扩展区域检测同步字并且读取该同步字。识别信息计算单元172基于从PCE的注释区域内的扩展区域读取的信息来计算识别信息。
DSE解码单元162对编码位流中所包括的DSE进行解码并且将通过解码所获得的信息提供至缩混处理单元152。DSE解码单元162包括扩展检测单元173和缩混信息解码单元174。
扩展检测单元173检测扩展信息是否包括在DSE的“MPEG4_ancillary_data()”中。缩混信息解码单元174对包括在DSE中的与缩混有关的信息进行解码。
音频元素解码单元162对编码位流中所包括的音频数据进行解码并且将该音频数据提供至切换单元151。
切换单元151基于从分离单元61提供的缩混形式参数来将从解码单元62提供的音频数据的输出目的地改变为缩混处理单元152或输出单元63。
缩混处理单元152基于来自分离单元61的缩混形式参数和来自解码单元62的信息来对从切换单元151提供的音频数据进行缩混,并且将缩混后的音频数据提供至输出单元63。
输出单元63基于从解码单元62提供的信息来输出从切换单元151或缩混处理单元152提供的音频数据。输出单元63包括重排处理单元181。重排处理单元181基于从PCE解码单元161提供的信息来重排从切换单元151提供的音频数据,并且输出该音频数据。
[缩混处理单元的结构的示例]
图29示出图28中所示的缩混处理单元152的详细结构。也就是说,缩混处理单元152包括切换单元211、切换单元212、缩混单元213-1至213-4、切换单元214、增益调整单元215、切换单元216、缩混单元217-1、缩混单元217-2和增益调整单元218。
切换单元211将从切换单元151提供的音频数据提供至切换单元212或切换单元216。例如,音频数据的输出目的地在该音频数据是7.1通道或6.1通道的数据时是切换单元212,并且在该音频数据是5.1通道的数据时是切换单元216。
切换单元212将从切换单元211提供的音频数据提供至缩混单元213-1至213-4中的任一个。例如,在音频数据是6.1通道的数据时,切换单元212将该音频数据输出至缩混单元213-1。
在音频数据是通道L、Lc、C、Rc、R、Ls、Rs和LFE的数据时,切换单元212将该音频数据从切换单元212提供至缩混单元213-2。在音频数据是通道L、R、C、Ls、Rs、Lrs、Rrs和LFE的数据时,切换单元212将该音频数据从切换单元211提供至缩混单元213-3。
在音频数据是通道L、R、C、Ls、Rs、Lvh、Rvh和LFE的数据时,切换单元212将该音频数据从切换单元211提供至缩混单元213-4。
缩混单元213-1至213-4将从切换单元212提供的音频数据缩混为5.1通道的音频数据并且将该音频数据提供至切换单元214。在下文,当无需将缩混单元213-1至213-4彼此特别区分时,将这些缩混单元简称为缩混单元213。
切换单元214将从缩混单元213提供的音频数据提供至增益调整单元215或切换单元216。例如,当将包括在编码位流中的音频数据缩混为5.1通道的音频数据时,切换单元214将该音频数据提供至增益调整单元215。另一方面,当将包括在编码位流中的音频数据缩混为2通道的音频数据时,切换单元214将该音频数据提供至增益切换单元216。
增益调整单元215调整从切换单元214提供的音频数据的增益并且将该音频数据提供至输出单元63。
切换单元216将从切换单元211或切换单元214提供的音频数据提供至缩混单元217-1或缩混单元217-2。例如,切换单元216根据编码位流的DSE中所包括的“pseudo_surround_enable”的值来改变音频数据的输出目的地。
缩混单元217-1和缩混单元217-2将从切换单元216提供的音频数据缩混为2通道的数据并且将该数据提供至增益调整单元218。在下文,在无需将缩混单元217-1和缩混单元217-2特别彼此区分开时,将这些缩混单元简称为缩混单元217。
增益调整单元218调整从缩混单元217提供的音频数据的增益并且将该音频数据提供至输出单元63。
[缩混单元的结构的示例]
接着将描述图29所示的缩混单元213和缩混单元217的详细结构的示例。
图30是示出图29所示的缩混单元213-1的结构的示例的图。
缩混单元213-1包括输入端子241-1至241-7、乘法单元242至244、加法单元245、加法单元246和输出端子247-1至247-6。
将通道L、R、C、Ls、Rs、Cs和LFE的音频数据从切换单元212提供至输入端子241-1至241-7。
输入端子241-1至241-3将从切换单元212提供的音频数据经由输出端子247-1至247-3毫无改变地供给提供至切换单元214。也就是说,将提供至缩混单元213-1的通道L、R和C的音频数据缩混并且作为缩混之后的通道L、R和C的音频数据输出至下一级。
输入端子241-4至241-6将从切换单元212提供的音频数据提供至乘法单元242至244。乘法单元242将从输入端子241-4提供的音频数据乘以缩混系数并且将该音频数据提供至加法单元245。
乘法单元243将从输入端子241-5提供的音频数据乘以缩混系数并且将该音频数据提供至加法单元246。乘法单元244将从输入端子241-6提供的音频数据乘以缩混系数并且将该音频数据提供至加法单元245和加法单元246。
加法单元245将从乘法单元242提供的音频数据与从乘法单元244提供的音频数据相加,并且将相加后的音频数据提供至输出端子247-4。输出端子247-4将从加法单元245提供的音频数据作为缩混之后的Ls通道的音频数据提供至切换单元214。
加法单元246将从乘法单元243提供的音频数据与从乘法单元244提供的音频数据相加,并且将相加后的音频数据提供至输出端子247-5。输出端子247-5将从加法单元246提供的音频数据作为缩混之后的Rs通道的音频数据提供至切换单元214。
输入端子241-7将从切换单元212提供的音频数据经由输出端子247-6毫无改变地供给提供至切换单元214。也就是说,将提供至缩混单元213-1的LFE通道的音频数据作为缩混之后的LFE通道的音频数据毫无改变地输出至下一级。
在下文,在无需将输入端子241-1至241-7彼此特别区分开时,将这些输入端子简称为输入端子241。在无需将输出端子247-1至247-6彼此特别区分开时,将这些输出端子简称为输出端子247。
如此,在缩混单元213-1中,执行与使用上述表达式(6)的计算相对应的处理。
图31是示出图29所示的缩混单元213-2的结构的示例的图。
缩混单元213-2包括输入端子271-1至271-8、乘法单元272至275、加法单元276、加法单元277、加法单元278和输出端子279-1至279-6。
将通道L、Lc、C、Rc、R、Ls、Rs和LFE的音频数据分别从切换单元212提供至输入端子271-1至271-8。
输入端子271-1至271-5将从切换单元212提供的音频数据分别提供至加法单元276、乘法单元272和273、加法单元277、乘法单元274和275以及加法单元278。
乘法单元272和乘法单元273将从输入端子271-2提供的音频数据乘以缩混系数并且将该音频数据分别提供至加法单元276和加法单元277。乘法单元274和乘法单元275将从输入端子271-4提供的音频数据乘以缩混系数并且将该音频数据分别提供至加法单元277和加法单元278。
加法单元276将从输入端子271-1提供的音频数据与从乘法单元272提供的音频数据相加并且将相加后的音频数据提供至输出端子279-1。输出端子279-1将从加法单元276提供的音频数据作为缩混之后的L通道的音频数据提供至切换单元214。
加法单元277将从输入端子271-3提供的音频数据、从乘法单元273提供的音频数据和从乘法单元274提供的音频数据相加,并且将相加后的音频数据提供至输出端子279-2。输出端子279-2将从加法单元277提供的音频数据作为缩混之后的C通道的音频数据提供至切换单元214。
加法单元278将从输入端子271-5提供的音频数据与从乘法单元275提供的音频数据相加,并且将相加后的音频数据提供至输出端子279-3。输出端子279-3将从加法单元278提供的音频数据作为缩混之后的R通道的音频数据提供至切换单元214。
输入端子271-6至271-8将从切换单元212提供的音频数据经由输出端子279-4至279-6毫无改变地提供至切换单元214。也就是说,将从缩混单元213-2提供的通道Ls、Rs和LFE的音频数据作为缩混之后的通道Ls、Rs和LFE的音频数据毫无改变地提供至下一级。
在下文,在无需将输入端子271-1至271-8彼此特别区分开时,将这些输入端子简称为输入端子271。在无需将输出端子279-1至279-6彼此特别区分开时,将这些输出端子简称为输出端子279。
如此,在缩混单元213-2中,执行与使用上述表达式(4)的计算相对应的处理。
图32是示出图29所示的缩混单元213-3的结构的示例的图。
缩混单元213-3包括输入端子301-1至301-8、乘法单元302至305、加法单元306、加法单元307和输出端子308-1至308-6。
将通道L、R、C、Ls、Rs、Lrs、Rrs和LFE的音频数据分别从切换单元212提供至输入端子301-1至301-8。
输入端子301-1至301-3将从切换单元212提供的音频数据分别经由输出端子308-1至308-3毫无改变地提供至切换单元214。也就是说,将提供至缩混单元213-3的通道L、R和C的音频数据作为缩混之后的通道L、R和C的音频数据输出至下一级。
输入端子301-4至301-7将从切换单元212提供的音频数据分别提供至乘法单元302至305。乘法单元302至305将从输入端子301-4至301-7提供的音频数据乘以缩混系数,并且将音频数据分别提供至加法单元306、加法单元307、加法单元306和加法单元307。
加法单元306将从乘法单元302提供的音频数据与从乘法单元304提供的音频数据相加并且将相加后的音频数据提供至输出端子308-4。输出端子308-4将从加法单元306提供的音频数据作为缩混之后的Ls通道的音频数据提供至切换单元214。
加法单元307将从乘法单元303提供的音频数据与从乘法单元305提供的音频数据相加并且将相加后的音频数据提供至输出端子308-5。输出端子308-5将从加法单元307提供的音频数据作为缩混之后的Rs通道的音频数据提供至切换单元214。
输入端子301-8将从切换单元212提供的音频数据经由输出端子308-6毫无改变地提供至切换单元214。也就是说,将提供至缩混单元213-3的LFE通道的音频数据作为缩混之后的LFE通道的音频数据毫无改变地提供至下一级。
在下文中,在无需将输入端子301-1至301-8彼此特别区分开时,将这些输入端子简称为输入端子301。在无需将输出端子308-1至308-6彼此特别区分开时,将这些输出端子简称为输出端子308。
如此,在缩混单元213-3中,执行与使用上述表达式(3)的计算相对应的处理。
图33是示出图29所示的缩混单元213-4的结构的示例的图。
缩混单元213-4包括输入端子331-1至331-8、乘法单元332至335、加法单元336、加法单元337和输出端子338-1至338-6。
将通道L、R、C、Ls、Rs、Lvh、Rvh和LFE的音频数据分别从切换单元212提供至输入端子331-1至331-8。
输入端子331-1和输入端子331-2将从切换单元212提供的音频数据分别提供至乘法单元332和乘法单元333。输入端子331-6和输入端子331-7将从切换单元212提供的音频数据分别提供至乘法单元334和乘法单元335。
乘法单元332至335将从输入端子331-1、输入端子331-2、输入端子331-6和输入端子331-7提供的音频数据乘以缩混系数,并且将音频数据分别提供至加法单元336、加法单元337、加法单元336和加法单元337。
加法单元336将从乘法单元332提供的音频数据和从乘法单元334提供的音频数据相加并且将相加后的音频数据提供至输出端子338-1。输出端子338-1将从加法单元336提供的音频数据作为缩混之后的L通道的音频数据提供至切换单元214。
加法单元337将从乘法单元333提供的音频数据与从乘法单元335提供的音频数据相加并且将相加后的音频数据提供至输出端子338-2。输出端子338-2将从加法单元337提供的音频数据作为缩混之后的R通道的音频数据提供至切换单元214。
输入端子331-3至331-5和输入端子331-8分别将从切换单元212提供的音频数据经由输出端子338-3至338-5和输出端子338-6毫无改变地提供至切换单元214。也就是说,将提供至缩混单元213-4的通道C、Ls、Rs和LFE的音频数据作为缩混之后的通道C、Ls、Rs和LFE的音频数据毫无改变地输出至下一级。
在下文,在无需将输入端子331-1至331-8彼此特别区分开时,将这些输入端子简称为输入端子331。在无需将输出端子338-1至338-6彼此特别区分开时,将这些输出端子简称为输出端子338。
如此,在缩混单元213-4中,执行与使用上述表达式(5)的计算相对应的处理。
然后,将描述图29所示的缩混单元217的详细结构的示例。
图34是示出图29所示的缩混单元217-1的结构的示例的图。
缩混单元217-1包括输入端子361-1至361-6、乘法单元362至365、加法单元366至371、输出端子372-1和输出端子372-2。
将通道L、R、C、Ls、Rs和LFE的音频数据从切换单元216分别提供至输入端子361-1至361-6。
输入端子361-1至361-6将从切换单元216提供的音频数据分别提供至加法单元366、加法单元369和乘法单元362至365。
乘法单元362至365将从输入端子361-3至361-6提供的音频数据乘以缩混系数,并且将音频数据分别提供至加法单元366和369、加法单元367、加法单元370以及加法单元368和371。
加法单元366将从输入端子361-1提供的音频数据与从乘法单元362提供的音频数据相加,并且将相加后的音频数据提供至加法单元367。加法单元367将从加法单元366提供的音频数据与从乘法单元363提供的音频数据相加,并且将相加后的音频数据提供至加法单元368。
加法单元368将从加法单元367提供的音频数据与从乘法单元365提供的音频数据相加,并且将相加后的音频数据提供至输出端子372-1。输出端子372-1将从加法单元368提供的音频数据作为缩混之后的L通道的音频数据提供至增益调整单元218。
加法单元369将从输入端子361-2提供的音频数据与从乘法单元362提供的音频数据相加,并且将相加后的音频数据提供至加法单元370。加法单元370将从加法单元369提供的音频数据与从乘法单元364提供的音频数据相加,并且将相加后的音频数据提供至加法单元371。
加法单元371将从加法单元370提供的音频数据与从乘法单元365提供的音频数据相加,并且将相加后的音频数据提供至输出端子372-2。输出端子372-2将从加法单元371提供的音频数据作为缩混之后的R通道的音频数据提供至增益调整单元218。
在下文中,在无需将输入端子361-1至361-6彼此特别区分开时,将这些输入端子简称为输入端子361。在无需将输出端子372-1和372-2彼此特别区分开时,将这些输出端子简称为输出端子372。
如此,在缩混单元217-1中,执行与使用上述表达式(1)的计算相对应的处理。
图35是示出图29所示的缩混单元217-2的结构的示例的图。
缩混单元217-2包括输入端子401-1至401-6、乘法单元402至405、加法单元406、减法单元407、减法单元408、加法单元409至413、输出端子414-1和输出端子414-2。
将通道L、R、C、Ls、Rs和LFE的音频数据从切换单元216分别提供至输入端子401-1至401-6。
输入端子401-1至401-6将从切换单元216提供的音频数据分别提供至加法单元406、加法单元410和乘法单元402至405。
乘法单元402至405将从输入端子401-3至401-6提供的音频数据乘以缩混系数,并且将音频数据分别提供至加法单元406和410、减法单元407和加法单元411、减法单元408和加法单元412、以及加法单元409和413。
加法单元406将从输入端子401-1提供的音频数据与从乘法单元402提供的音频数据相加,并且将相加后的音频数据提供至减法单元407。减法单元407从自加法单元406提供的音频数据中减去从乘法单元403提供的音频数据,并且将相减后的音频数据提供至减法单元408。
减法单元408从自减法单元407提供的音频数据中减去从乘法单元404提供的音频数据,并且将相减后的音频数据提供至加法单元409。加法单元409将从减法单元408提供的音频数据与从乘法单元405提供的音频数据相加,并且将相加后的音频数据提供至输出端子414-1。输出端子414-1将从加法单元409提供的音频数据作为缩混之后的L通道的音频数据提供至增益调整单元218。
加法单元410将从输入端子401-2提供的音频数据与从乘法单元402提供的音频数据相加,并且将相加后的音频数据提供至加法单元411。加法单元411将从加法单元410提供的音频数据与从乘法单元403提供的音频数据相加,并且将相加后的音频数据提供至加法单元412。
加法单元412将从加法单元411提供的音频数据与从乘法单元404提供的音频数据相加,并且将相加后的音频数据提供至加法单元413。加法单元413将从加法单元412提供的音频数据与从乘法单元405提供的音频数据相加,并且将相加后的音频数据提供至输出端子414-2。输出端子414-2将从加法单元413提供的音频数据作为缩混之后的R通道的音频数据提供至增益调整单元218。
在下文中,在无需将输入端子401-1至401-6彼此特别区分开时,将这些输入端子简称为输入端子401。在无需将输出端子414-1和414-2彼此特别区分开时,将这些输出端子简称为输出端子414。
如此,在缩混单元217-2中,执行与使用上述表达式(2)的计算相对应的处理。
[解码操作的描述]
接着将参照图36所示的流程图来描述解码装置141的解码处理。
在步骤S111中,分离单元61获取缩混形式参数和从编码装置91输出的编码位流。例如,缩混形式参数是从包括解码装置的信息处理装置获取的。
分离单元61将所获取的缩混形式参数提供至切换单元151和缩混处理单元152。另外,分离单元61获取音频数据的输出文件名并且在需要的情况下适当地使用该输出文件名。
在步骤S112中,分离单元61对编码位流进行解包并且将通过解包所获得的各元素提供至解码单元62。
在步骤S113中,PCE解码单元161对从分离单元61提供的PCE进行解码。例如,PCE解码单元161从PCE的注释区域读取作为扩展区域的“height_extension_element”或者从PCE读取与扬声器的布置有关的信息。这里,作为与扬声器的布置有关的信息,例如,读取由布置在用户的前方、侧方和后方的扬声器所再现的通道的数量、或者表示各音频数据项属于C、L和R通道中的哪个通道的信息。
在步骤S114中,DSE解码单元162对从分离单元61提供的DSE进行解码。例如,DSE解码单元162从DSE读取“MPEG4辅助数据”或者从“MPEG4辅助数据”读取所需信息。
具体地,例如,DSE解码单元162的缩混信息解码单元174从图9所示的“downmixing_levels_MPEG4()”读取“center_mix_level_value”或“surround_mix_level_value”作为用于指定进行缩混所使用的系数的信息,并且将所读取的信息提供至缩混处理单元152。
在步骤S115中,音频元素解码单元163对存储在从分离单元61提供的SCE、CPE和LFE中的每一个中的音频数据进行解码。这样,获得各通道的PCM数据作为音频数据。
例如,可以根据诸如存储音频数据的SCE的元素、或者通过DSE的解码所获得的与扬声器的布置有关的信息来指定解码后的音频数据的通道,即水平面上的布置位置。然而,此时,由于没有读取作为与扬声器的布置高度有关的信息的扬声器布置信息,因此没有指定各通道的高度(层)。
音频元素解码单元163将通过解码所获得的音频数据提供至切换单元151。
在步骤S116中,切换单元151基于从分离单元61提供的缩混形式参数来确定是否对音频数据进行缩混。例如,当缩混形式参数表示不执行缩混时,切换单元151确定为不执行缩混。
在步骤S116中,当确定为不执行缩混时,切换单元151将从解码单元62提供的音频数据提供至重排处理单元181,并且该处理进入步骤S117。
在步骤S117中,解码装置141执行重排处理以基于扬声器的布置来重排各音频数据项,并且输出音频数据。当输出音频数据时,解码处理结束。另外,以下将详细描述重排处理。
另一方面,当在步骤S116中确定为执行缩混时,切换单元151将从解码单元62提供的音频数据提供至缩混处理单元152的切换单元211,并且该处理进入步骤S118。
在步骤S118中,解码装置141执行缩混处理以使各音频数据项缩混为与由缩混形式参数表示的通道数量相对应的音频数据,并且输出该音频数据。当输出该音频数据时,解码处理结束。另外,以下将详细描述缩混处理。
这样,解码装置141对编码位流进行解码并且输出音频数据。
[重排处理的说明]
接着,将参照图37和38所示的流程图来描述与图36的步骤S317中的处理相对应的重排处理。
在步骤S141中,同步字检测单元171设置用于从PCE的注释区域(扩展区域)读取同步字的参数cmt_byte,以使得cmt_byte等于PCE的注释区域内的字节数。也就是说,将注释区域内的字节数设置为参数cmt_byte的值。
在步骤S142中,同步字检测单元171从PCE的注释区域读取与预定同步字的数据量相对应的数据。例如,在图4所示的示例中,由于作为同步字的“PCE_HEIGHT_EXTENSION_SYNC”为8位(即,1字节),因此从PCE的注释区域的开头读取1字节的数据。
在步骤S143中,PCE解码单元161确定在步骤S142中所读取的数据与同步字是否相同。也就是说,确定所读取的数据是否是同步字。
当在步骤S143中确定为所读取的数据与同步字不相同时,在步骤S144中,同步字检测单元171将参数cmt_byte的值减少与所读取的数据的量相对应的值。在这种情况下,参数cmt_byte的值减少了1字节。
在步骤S145中,同步字检测单元171确定参数cmt_byte的值是否大于0。也就是说,确定参数cmt_byte的值是否大于0,即,是否读取了注释区域内的所有数据。
当在步骤S145中确定为参数cmt_byte的值大于0时,没有从注释区域读取所有数据,并且该处理返回至步骤S142。然后,重复上述处理。也就是说,在从注释区域读取的数据之后读取与同步字的数据量相对应的数据,并且将该数据与同步字进行比较。
另一方面,当在步骤S145中确定为参数cmt_byte的值不大于0时,该处理进入步骤S146。如此,当读取了注释区域内的所有数据时,该处理进入步骤S146,但从注释区域没有检测到同步字。
在步骤S146中,PCE解码单元16确定为不存在扬声器布置信息并且将表示不存在扬声器布置信息的信息提供至重排处理单元181。该处理进入步骤S164。如此,由于在“height_extension_element”中紧接在扬声器布置信息之前配置同步字,因此可以简单且可靠地指定包括在注释区域中的信息是否是扬声器布置信息。
当在步骤S143中确定为从注释区域读取的数据与同步字相同时,检测到同步字。因此,该处理进入步骤S147以读取紧接在同步字之后的扬声器布置信息。
在步骤S147中,PCE解码单元161将用于读取布置在用户的前方的扬声器所再现的音频数据的扬声器布置信息的参数num_fr_elem的值设置为属于前方的元素数。
这里,属于前方的元素数是布置在用户的前方的扬声器所再现的音频数据项的数量(通道数量)。将元素数存储在PCE中。因此,参数num_fr_elem的值是从“height_extension_element”读取的并且布置在用户的前方的扬声器所再现的音频数据的扬声器布置信息项的数量。
在步骤S148中,PCE解码单元161确定参数num_fr_elem的值是否大于0。
当在步骤S148中确定为参数num_fr_elem的值大于0时,由于没有读取所有扬声器布置信息,因此该处理进入步骤S149。
在步骤S149中,PCE解码单元161读取配置在注释区域中的同步字之后的与一个元素相对应的扬声器布置信息。在图4所示的示例中,由于一个扬声器布置信息项是2位,因此读取紧挨在从注释区域读取的数据之后配置的2位数据作为一个扬声器布置信息项。
例如,可以基于“height_extension_element”中的扬声器布置信息的配置位置或诸如SCE的存储音频数据的元素来指定与音频数据有关的各扬声器布置信息项。
在步骤S150中,由于读取一个扬声器布置信息项,因此PCE解码单元161使参数num_fr_elem的值减1。在更新参数num_fr_elem之后,该处理返回至步骤S148并且重复上述处理。也就是说,读取下一扬声器布置信息。
当在步骤S148中确定为参数num_fr_elem的值不大于0时,由于已读取与前方元素有关的所有扬声器布置信息,因此该处理进入步骤S151。
在步骤S151中,PCE解码单元161将用于读取由布置在用户的侧方的扬声器所再现的音频数据的扬声器布置信息的参数num_side_elem的值设置为属于侧方的元素的数量。
这里,属于侧方的元素的数量为布置在用户的侧方的扬声器所再现的音频数据项的数量。将元素的数量存储在PCE中。
在步骤S152中,PCE解码单元161确定参数num_side_elem的值是否大于0。
当在步骤S152中确定为参数num_side_elem的值大于0时,在步骤S153中,PCE解码单元161读取与一个元素相对应并且配置在从注释区域读取的数据之后的扬声器布置信息。在步骤S153中所读取的扬声器布置信息是位于用户的侧方的通道的扬声器布置信息,即“side_element_height_info[i]”。
在步骤S154中,PCE解码单元161使参数num_side_elem的值减1。在更新参数num_side_elem之后,该处理返回至步骤S152并且重复上述处理。
另一方面,当在步骤S152中确定为参数num_side_elem的值不大于0时,由于已读取侧方元素的所有扬声器布置信息,因此该处理进入步骤S155。
在步骤S155中,PCE解码单元161将用于读取布置在用户的后方的扬声器所再现的音频数据的扬声器布置信息的参数num_back_elem的值设置为属于后方的元素的数量。
这里,属于后方的元素的数量是布置在用户的后方的扬声器所再现的音频数据项的数量。将该元素数量存储在PCE中。
在步骤S156中,PCE解码单元161确定参数num_back_elem的值是否大于0。
当在步骤S156中确定为参数num_back_elem的值大于0时,在步骤S157中,PCE解码单元161读取与一个元素相对应并且配置在从注释区域读取的数据之后的扬声器布置信息。在步骤S157中所读取的扬声器布置信息是布置在用户的后方的通道的扬声器布置信息,即“back_element_height_info[i]”。
在步骤S158中,PCE解码单元161使参数num_back_elem的值减1。在更新参数num_back_elem之后,该处理返回至步骤S156并且重复上述处理。
当在步骤S156中确定为参数num_back_elem的值不大于0时,由于已读取与后方元素有关的所有扬声器布置信息,因此该处理进入步骤S159。
在步骤S159中,识别信息计算单元172执行字节对齐。
例如,在图4所示的“height_extension_element”中,在扬声器布置信息之后存储用于指示执行字节对齐的信息“byte_alignment()”。因此,当读取该信息时,识别信息计算单元172执行字节对齐。
具体地,识别信息计算单元172紧接在“height_extension_element”中的“PCE_HEIGHT_EXTENSION_SYNC”和“byte_alignment()”之间读取的信息之后添加预定数据,以使得所读取的信息的数据量是8位的整数倍。也就是说,执行字节对齐,以使得所读取的同步字、扬声器布置信息和所添加的数据的总数据量是8位的整数倍。
在该示例中,音频数据的通道数量(即,编码位流中所包括的扬声器布置信息项的数量)在预定范围内。因此,通过字节对齐所获得的数据(即,包括同步字、扬声器布置信息和所添加的数据的一个数据项(以下还称为对齐数据))必然是预定的数据量。
换句话说,对齐数据的量必定是预定的数据量,而与“height_extension_element”中所包括的扬声器布置信息项的数量(即音频数据的通道数量)无关。因此,如果在生成对齐数据时对齐数据的量不是预定的数据量,PCE解码单元161确定为所读取的扬声器布置数据不是正确的扬声器布置信息,即,所读取的扬声器布置信息无效。
在步骤S160中,识别信息计算单元172在“height_extension_element”中读取在步骤S159中所读取的“byte_alignment()”之后的识别信息,即存储在“height_info_crc_check”中的信息。这里,例如,读取CRC校验码作为识别信息。
在步骤S161中,识别信息计算单元172基于在步骤S159中所获得的对齐数据来计算识别信息。例如,计算CRC校验码作为识别信息。
在步骤S162中,PCE解码单元161确定在步骤S160中所读取的识别信息与在步骤S161中所计算出的识别信息是否一致。
当对齐数据的量不是预定的数据量时,PCE解码单元161不执行步骤S160和步骤S161,并且在步骤S162中确定为识别信息项彼此不一致。
当在步骤S162中确定为识别信息项彼此不一致时,在步骤S163中,PCE解码单元161使所读取的扬声器布置信息无效并且将表示所读取的扬声器布置信息无效的信息提供至重排处理单元181和缩混处理单元152。然后,该处理进入步骤S164。
当执行步骤S163的处理或步骤S146的处理时,在步骤S164中,重排处理单元181按预定的扬声器布置输出从切换单元151提供的音频数据。
在这种情况下,例如,重排处理单元161基于从PCE读取的并且从PCE解码单元161提供的与扬声器布置有关的信息来确定各音频数据项的扬声器布置。重排处理单元181为了确定扬声器的布置所使用的信息的参考目的地依赖于使用音频数据的服务或应用并且是基于音频数据的通道数量而预先确定的。
当执行步骤S164的处理时,重排处理结束。然后,图36的步骤S117的处理结束。因此,解码处理结束。
另一方面,当在步骤S162中确定为识别信息项彼此一致时,在步骤S165中,PCE解码单元161使所读取的扬声器布置信息有效并且将该扬声器布置信息提供至重排处理单元181和缩混处理单元152。在这种情况下,PCE解码单元161还将从PCE读取的与扬声器的布置有关的信息提供至重排处理单元181和缩混处理单元152。
在步骤S166中,重排处理单元181根据例如依据从PCE解码单元161提供的扬声器布置信息所确定的扬声器的布置来输出从切换单元151提供的音频数据。也就是说,按例如根据扬声器布置信息确定的顺序来重排各通道的音频数据,然后将该音频数据输出至下一级。当执行步骤S166的处理时,重排处理结束。然后,图36所示的步骤S117的处理结束。因此,解码处理结束。
这样,解码装置141从PCE的注释区域检查同步字或CRC校验码,读取扬声器布置信息并且根据与扬声器布置信息相对应的布置来输出解码后的音频数据。
如此,由于读取了扬声器布置信息并且确定了扬声器的布置(声源的位置),因此可以在垂直方向上再现声音图像并且获得高质量的真实声音。
另外,由于使用同步字和CRC校验码来读取扬声器布置信息,因此可以从例如有可能存储其它文本信息的注释区域可靠地读取扬声器布置信息。也就是说,可以可靠地将扬声器布置信息与其它信息区分开。
特别地,解码装置141使用同步字的一致、CRC校验码的一致和对齐数据量的一致这三个元素来将扬声器布置信息与其它信息区分开。因此,可以防止扬声器布置信息的错误检测。如此,由于防止了扬声器布置信息的错误检测,因此可以根据正确的扬声器布置来再现音频数据并且获得高质量的真实声音。
[缩混处理的描述]
接着,将参照图39所示的流程图来描述与图36的步骤S118中的处理相对应的缩混处理。在这种情况下,将各通道的音频数据从切换单元151提供至缩混处理单元152的切换单元211。
在步骤S191中,DSE解码单元162的扩展检测单元173从DSE的“MPEG4_ancillary_data()”内的“ancillary_data_status()”读取“ancillary_data_extension_status”。
在步骤S192中,扩展检测单元173确定所读取的“ancillary_data_extension_status”是否为1。
当在步骤S192中确定“ancillary_data_extension_status”不为1(即,“ancillary_data_extension_status”为0)时,在步骤S193中,缩混处理单元152使用预定方法来对音频数据进行缩混。
例如,缩混处理单元152使用根据从缩混信息解码单元174提供的“center_mix_level_value”或“surround_mix_level_value”确定的系数来对从切换单元151提供的音频数据进行缩混,并且将该音频数据提供至输出单元63。
当“ancillary_data_extension_status”为0时,可以通过任何方法执行缩混处理。
在步骤S194中,输出单元63将从缩混处理单元152提供的音频数据毫无改变地输出至下一级。然后,缩混处理结束。这样,图36的步骤S118的处理结束。因此,解码处理结束。
另一方面,当在步骤S192中确定“ancillary_data_extension_status”为1时,该处理进入步骤S195。
在步骤S195中,缩混信息解码单元174读取图11所示的“MPEG4_ext_ancillary_data()”的“ext_downmixing_levels()”内的信息并且将所读取的信息提供至缩混处理单元152。这样,例如,读取图13所示的“dmix_a_idx”和“dmix_b_idx”。
当包括在“MPEG4_ext_ancillary_data()”中的图12所示的“ext_downmixing_levels_status”为0时,不执行“dmix_a_idx”和“dmix_b_idx”的读取。
在步骤S196中,缩混信息解码单元174读取“MPEG4_ext_ancillary_data()”的“ext_downmixing_global_gains()”内的信息并且将所读取的信息输出至缩混处理单元152。这样。例如,读取图15所示的信息项,即“dmx_gain_5_sign”、“dmx_gain_5_idx”、“dmx_gain_2_sign”和“dmx_gain_2_idx”。
当包括在“MPEG4_ext_ancillary_data()”中的图12所示的“ext_downmixing_global_gains_status”为0时,不执行信息项的读取。
在步骤S197中,缩混信息解码单元174读取“MPEG4_ext_ancillary_data()”的“ext_downmixing_lfe_level()”内的信息并且将所读取的信息提供至缩混处理单元152。这样,例如,读取图16所示的“dmix_lfe_idx”。
具体地,缩混信息解码单元174读取图12所示的“ext_downmixing_lfe_level_status”并且基于“ext_downmixing_lfe_level_status”的值来读取“dmix_lfe_idx”。
也就是说,当包括在“MPEG4_ext_ancillary_data()”中的“ext_downmixing_lfe_level_status”为0时,不执行“dmix_lfe_idx”的读取。在这种情况下,在以下将描述的从5.1通道向2通道的音频数据的缩混中不使用LFE通道的音频数据。也就是说,与LFE通道的音频数据相乘的系数为0。
在步骤S198中,缩混信息解码单元174从图7所示的“MPEG4辅助数据”的“bs_info()”读取存储在“pseudo_surround_enable”中的信息,并且将所读取的信息提供至缩混处理单元152。
在步骤S199中,缩混处理单元152基于从分离单元61提供的缩混形式参数来确定音频数据是否是来自2通道的输出。
例如,当缩混形式参数表示从7.1通道或6.1通道向2通道的缩混或者从5.1通道向2通道的缩混时,确定音频数据是来自2通道的输出。
当在步骤S199中确定音频数据是来自2通道的输出时,该处理进入步骤S200。在这种情况下,切换单元214的输出目的地改变为切换单元216。
在步骤S200中,缩混处理单元152基于从分离单元61提供的缩混形式参数来确定音频数据的输入是否为5.1通道。例如,当缩混形式参数表示从5.1通道向2通道的缩混时,确定输入是5.1通道。
当在步骤S200中确定输入不是5.1通道时,该处理进入步骤S201,并且执行从7.1通道或6.1通道向2通道的缩混。
在这种情况下,切换单元211将从切换单元151提供的音频数据提供至切换单元212。切换单元212基于从PCE解码单元161提供的与扬声器布置有关的信息来将从切换单元211提供的音频数据提供至缩混单元213-1至213-4中的任一个。例如,在音频数据是6.1通道的数据时,将各通道的音频数据提供至缩混单元213-1。
在步骤S201中,缩混单元213基于从“ext_downmixing_levels()”读取的并且从缩混信息解码单元174提供的“dmix_a_idx”和“dmix_b_idx”来执行向5.1通道的缩混。
例如,当将音频数据提供至缩混单元213-1时,缩混单元213-1参考图19所示的表来将针对“dmix_a_idx”和“dmix_b_idx”的值所确定的常数分别设置为常数g1和g2。然后,缩混单元213-1使用常数g1和g2分别作为乘法单元242和243以及乘法单元244中所使用的系数,使用表达式(6)来生成5.1通道的音频数据,并且将该音频数据提供至切换单元214。
同样,当将音频数据提供至缩混单元213-2时,缩混单元213-2将针对“dmix_a_idx”和“dmix_b_idx”的值所确定的常数分别设置为常数e1和e2。然后,缩混单元213-2使用常数e1和e2分别作为乘法单元273和274以及乘法单元272和275中所使用的系数,使用表达式(4)来生成5.1通道的音频数据,并且将所获得的5.1通道的音频数据提供至切换单元214。
当将音频数据提供至缩混单元213-3时,缩混单元213-3将针对“dmix_a_idx”和“dmix_b_idx”的值所确定的常数分别设置为常数d1和d2。然后,缩混单元213-3使用常数d1和d2分别作为乘法单元302和303以及乘法单元304和305中所使用的系数,使用表达式(3)来生成音频数据,并且将所获得的音频数据提供至切换单元214。
当将音频数据提供至缩混单元213-4时,缩混单元213-4将针对“dmix_a_idx”和“dmix_b_idx”的值所确定的常数分别设置为常数f1和f2。然后,缩混单元213-4使用常数f1和f2作为乘法单元332和333以及乘法单元334和335中所使用的系数,使用表达式(5)来生成音频数据,并且将所获得的音频数据提供至切换单元214。
当将5.1通道的音频数据提供至切换单元214时,切换单元214将从缩混单元213提供的音频数据提供至切换单元216。切换单元216基于从缩混信息解码单元174提供的“pseudo_surround_enable”的值来将从切换单元214提供的音频数据提供至缩混单元217-1或缩混单元217-2。
例如,当“pseudo_surround_enable”的值为0时,将音频数据提供至缩混单元217-1。当“pseudo_surround_enable”的值为1时,将音频数据提供至缩混单元217-2。
在步骤S202中,缩混单元217基于从缩混信息解码单元174提供的与缩混有关的信息来执行将从切换单元216提供的音频数据缩混为2通道的处理。也就是说,基于“downmixing_levels_MPEG4()”内的信息和“ext_downmixing_lfe_level()”内的信息来进行向2通道的缩混。
例如,当将音频数据提供至缩混单元217-1时,缩混单元217-1参考图19所示的表来将针对“center_mix_level_value”和“surround_mix_level_value”的值所确定的常数分别设置常数a和b。另外,缩混单元217-1参考图18所示的表来将针对“dmix_lfe_idx”的值所确定的常数设置为常数c。
然后,缩混单元217-1使用常数a、b和c分别作为乘法单元363和364、乘法单元362以及乘法单元365中所使用的系数,使用表达式(1)生成音频数据,并且将所获得的2通道的音频数据提供至增益调整单元218。
当将音频数据提供至缩混单元217-2时,与缩混单元217-1类似,缩混单元217-2确定常数a、b和c。然后,缩混单元217-2使用常数a、b和c分别作为乘法单元403和404、乘法单元402以及乘法单元405中所使用的系数,使用表达式(2)生成音频数据,并且将所获得的音频数据提供至增益调整单元218。
在步骤S203中,增益调整单元218基于从“ext_downmixing_global_gains()”读取的并且从缩混信息解码单元174提供的信息来调整来自缩混单元217的音频数据的增益。
具体地,增益调整单元2187基于从“ext_downmixing_global_gains()”读取的“dmx_gain_5_sign”、“dmx_gain_5_idx”、“dmx_gain_2_sign”和“dmx_gain_2_idx”来计算表达式(11),并且计算增益值dmx_gain_7to2。然后,增益调整单元218将各通道的音频数据乘以增益值dmx_gain_7to2并且将音频数据提供至输出单元63。
在步骤S204中,输出单元63将从增益调整单元218提供的音频数据毫无改变地输出至下一级。然后,缩混处理结束。这样,图36的步骤S118的处理结束。因此,解码处理结束。
当从重排处理单元181输出音频数据时并且当从缩混处理单元152毫无改变地输出音频数据时,从输出单元63输出音频数据。在输出单元63之后的级中,可以预先确定要使用的音频数据的两个输出中的一个。
当在步骤S200中确定输入是5.1通道时,该处理进入步骤S205并且进行从5.1通道向2通道的缩混。
在这种情况下,切换单元211将从切换单元151提供的音频数据提供至切换单元216。切换单元216基于从缩混信息解码单元174提供的“pseudo_surround_enable”的值来将从切换单元211提供的音频数据提供至缩混单元217-1或缩混单元217-2。
在步骤S205中,缩混单元217基于从缩混信息解码单元174提供的与缩混有关的信息来执行将从切换单元216提供的音频数据缩混为2通道的处理。另外,在步骤S205中,执行与步骤S202的处理相同的处理。
在步骤S206中,增益调整单元218基于从“ext_downmixing_global_gains()”读取的并且从缩混信息解码单元174提供的信息来调整从缩混单元217提供的音频数据的增益。
具体地,增益调整单元218基于从“ext_downmixing_global_gains()”读取的“dmx_gain_2_sign”和“dmx_gain_2_idx”计算表达式(9),并且将通过该计算所获得的音频数据提供至输出单元63。
在步骤S207中,输出单元63将从增益调整单元218提供的音频数据毫无改变地输出至下一级。然后,缩混处理结束。这样,图36的步骤S118的处理结束。因此,解码处理结束。
当在步骤S199中确定音频数据不是来自2通道的输出(即,音频数据是来自5.1通道的输出)时,该处理进入步骤S208,并且进行从7.1通道或6.1通道向5.1通道的缩混。
在这种情况下,切换单元211将从切换单元151提供的音频数据提供至切换单元212。切换单元212基于从PCE解码单元161提供的与扬声器布置有关的信息来将从切换单元211提供的音频数据提供至缩混单元213-1至213-4中的任一个。另外,切换单元214的输出目的地是增益调整单元215。
在步骤S208中,缩混单元213基于从“ext_downmixing_levels()”读取的并且从缩混信息解码单元174提供的“dmix_a_idx”和“dmix_b_idx”来进行向5.1通道的缩混。在步骤S208中,执行与步骤S201的处理相同的处理。
当进行向5.1通道的缩混并且将音频数据从缩混单元213提供至切换单元214时,切换单元214将所提供的音频数据提供至增益调整单元215。
在步骤S209中,增益调整单元215基于从“ext_downmixing_global_gains()”读取的并且从缩混信息解码单元174提供的信息来调整从切换单元214提供的音频数据的增益。
具体地,增益调整单元215基于从“ext_downmixing_global_gains()”读取的“dmx_gain_5_sign”和“dmx_gain_5_idx”来计算表达式(7),并且将通过该计算所获得的音频数据提供至输出单元63。
在步骤S210中,输出单元63将从增益调整单元215提供的音频数据毫无改变地输出至下一级。然后,缩混处理结束。这样,图36的步骤S118的处理结束。因此,解码处理结束。
这样,解码装置141基于从编码位流读取的信息来对音频数据进行缩混。
例如,在编码位流中,由于“pseudo_surround_enable”包括在DSE中,因此可以使用多种方法当中最适合音频数据的方法来进行从5.1通道向2通道的缩混处理。因此,在解码侧可以获得高质量的真实声音。
另外,在编码位流中,将表示是否包括扩展信息的信息存储在“ancillary_data_extension_status”中。因此,可以参考该信息来指定扩展信息是否包括在扩展区域中。在可以获得扩展信息时,可以改进对音频数据的缩混的灵活性。因此,可以获得高质量的真实声音。
上述一系列处理可以通过硬件或软件来执行。当这一系列处理通过软件来执行时,将构成软件的程序安装在计算机中。这里,计算机的示例包括并入专用硬件中的计算机、以及安装有各种程序并且可以执行各种功能的通用个人计算机。
图40是示出执行程序以进行上述一系列处理的计算机的硬件结构的示例的框图。
在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503经由总线504彼此连接。
输入/输出接口505连接至总线504。输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接至输入/输出接口505。
输入单元506例如包括键盘、鼠标、麦克风和成像元件。输出单元507例如包括显示器和扬声器。记录单元508包括硬盘和非易失性存储器。通信单元509例如是网络接口。驱动器510驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移动介质511。
在具有上述结构的计算机中,例如,CPU 501将记录在记录单元508上的程序经由输入/输出接口505和总线504加载到RAM 503。然后,执行上述一系列处理。
可以将计算机(CPU 501)所执行的程序记录在作为封装介质的可移动介质511上,然后提供该程序。替选地,可以经由诸如局域网、因特网或数字卫星广播的有线或无线传输介质来提供这些程序。
在计算机中,可以将可移动介质511插入驱动器510中以经由输入/输出接口505将程序安装在记录单元508中。另外,通信单元509可以经由有线或无线传输介质接收程序然后安装在记录单元508中。替选地,可以将程序预先安装在ROM 502或记录单元508中。
计算机要执行的程序可以是用于根据本说明书所述的序列按时间顺序执行操作的程序,或者可以是用于并行地执行操作或在需要时(诸如在存在调用时)执行操作的程序。
本技术的实施例不限于上述实施例,而且可以在没有背离本发明的范围和精神的情况下对本实施例进行各种修改和改变。
例如,本技术可以具有一个功能通过网络由多个装置分担并且由多个装置协作地处理的云计算结构。
在上述实施例中,上述流程图中所述的各步骤由一个装置来执行。然而,各步骤可以由多个装置分担并执行。
在上述实施例中,当一个步骤包括多个处理时,该一个步骤中所包括的多个处理由一个装置来执行。然而,这多个处理可以由多个装置分担并执行。
另外,本技术可以具有以下结构。
[1]一种解码装置,包括:
解码单元,对编码位流中所包括的音频数据进行解码;
读取单元,从所述编码位流读取表示在所述编码位流中是否存在扩展信息的信息,并且基于所读取的信息来读取所述扩展信息;以及
处理单元,基于所述扩展信息来处理解码后的音频数据。
[2]根据项[1]所述的解码装置,其中,所述扩展信息是与缩混有关的信息,并且所述处理单元基于所述扩展信息来对解码后的多个通道的音频数据进行缩混。
[3]根据项[2]所述的解码装置,其中,所述处理单元基于与所述编码位流中所包括的所述扩展信息不同的信息,来进一步对基于所述扩展信息进行了缩混的音频数据进行缩混。
[4]根据项[2]或[3]所述的解码装置,其中,所述扩展信息是用于获得对所述音频数据进行缩混所使用的系数的信息。
[5]根据项[2]至[4]中任一项所述的解码装置,其中,所述扩展信息是用于获得调整缩混后的音频数据的增益所使用的增益值的信息,并且所述处理单元基于所述增益值来调整缩混后的音频数据的增益。
[6]根据项[2]至[5]中任一项所述的解码装置,其中,所述扩展信息是表示是否使用特定通道的音频数据来进行缩混的信息。
[7]一种解码方法,包括以下步骤:
对编码位流中所包括的音频数据进行解码;
从所述编码位流读取表示在所述编码位流中是否存在扩展信息的信息,并且基于所读取的信息来读取所述扩展信息;以及
基于所述扩展信息来处理解码后的音频数据。
[8]一种程序,使计算机执行包括以下步骤的处理:
对编码位流中所包括的音频数据进行解码;
从所述编码位流读取表示在所述编码位流中是否存在扩展信息的信息,并且基于所读取的信息来读取所述扩展信息;以及
基于所述扩展信息来处理解码后的音频数据。
[9]一种编码装置,包括:
编码单元,对音频数据、表示是否存在扩展信息的信息和所述扩展信息进行编码;以及
打包单元,将编码后的音频数据、编码后的表示是否存在所述扩展信息的信息和编码后的所述扩展信息存储在预定区域中,并且生成编码位流。
[10]根据项[9]所述的编码装置,其中,所述扩展信息是与缩混有关的信息,并且基于所述扩展信息来对解码后的多个通道的音频数据进行缩混。
[11]根据项[10]所述的编码装置,其中,基于与所述编码位流中所包括的所述扩展信息不同的信息,进一步对基于所述扩展信息进行了缩混的音频数据进行缩混。
[12]根据项[10]或[11]所述的编码装置,其中,所述扩展信息是用于获得对所述音频数据进行缩混所使用的系数的信息。
[13]根据项[10]至[12]中任一项所述的编码装置,其中,所述扩展信息是用于获得调整缩混后的音频数据的增益所使用的增益值的信息,并且基于所述增益值来调整缩混后的音频数据的增益。
[14]根据项[10]至[13]中任一项所述的编码装置,其中,所述扩展信息是表示是否使用特定通道的音频数据来进行缩混的信息。
[15]一种编码方法,包括以下步骤:
对音频数据、表示是否存在扩展信息的信息和所述扩展信息进行编码;以及
将编码后的音频数据、编码后的表示是否存在所述扩展信息的信息和编码后的扩展信息存储在预定区域中并且生成编码位流。
[16]一种程序,用于使计算机执行包括以下步骤的处理:
对音频数据、表示是否存在扩展信息的信息和所述扩展信息进行编码;以及
将编码后的音频数据、编码后的表示是否存在所述扩展信息的信息和编码后的扩展信息存储在预定区域中并且生成编码位流。
附图标记列表
11 编码装置
21 输入单元
22 编码单元
23 打包单元
51 解码装置
61 分离单元
62 解码单元
63 输出单元
91 编码装置
101 PCE编码单元
102 DSE编码单元
103 音频元素编码单元
111 同步字编码单元
112 布置信息编码单元
113 识别信息编码单元
114 扩展信息编码单元
115 缩混信息编码单元
141 解码装置
152 缩混处理单元
161 PCE解码单元
162 DSE解码单元
163 音频元素解码单元
171 同步字检测单元
172 识别信息计算单元
173 扩展检测单元
174 缩混信息解码单元
181 重排处理单元

Claims (10)

1.一种解码装置,包括:
解码单元,对编码位流中所包括的音频数据进行解码;
读取单元,从所述编码位流读取表示在所述编码位流中是否存在扩展信息的信息,并且基于所读取的信息来读取所述扩展信息;以及
处理单元,基于所述扩展信息来处理解码后的音频数据,
其中,所述扩展信息是与缩混有关的信息,
所述处理单元基于所述扩展信息来对解码后的多个通道的音频数据进行缩混,以及
其中,所述处理单元基于指示从所述多个通道缩混到一个数量的通道的缩混形式参数,进一步对基于所述扩展信息进行了缩混的音频数据进行缩混。
2.根据权利要求1所述的解码装置,
其中,所述扩展信息是用于获得对所述音频数据进行缩混所使用的系数的信息。
3.根据权利要求2所述的解码装置,
其中,所述扩展信息是用于获得调整缩混后的音频数据的增益所使用的增益值的信息,以及
所述处理单元基于所述增益值来调整缩混后的音频数据的增益。
4.根据权利要求3所述的解码装置,
其中,所述扩展信息是表示是否使用特定通道的音频数据来进行缩混的信息。
5.一种解码方法,包括以下步骤:
对编码位流中所包括的音频数据进行解码;
从所述编码位流读取表示在所述编码位流中是否存在扩展信息的信息,并且基于所读取的信息来读取所述扩展信息;
基于所述扩展信息来处理解码后的音频数据;
基于所述扩展信息来对解码后的多个通道的音频数据进行缩混;以及
基于指示从所述多个通道缩混到一个数量的通道的缩混形式参数,进一步对基于所述扩展信息进行了缩混的音频数据进行缩混,
其中,所述扩展信息是与缩混有关的信息。
6.一种编码装置,包括:
编码单元,对音频数据、表示是否存在扩展信息的信息、所述扩展信息以及指示从多个通道缩混到一个数量的通道的缩混形式参数进行编码;以及
打包单元,将编码后的所述音频数据、编码后的表示是否存在所述扩展信息的信息、编码后的所述扩展信息以及所述缩混形式参数存储在预定区域中,并且生成编码位流,
其中,所述扩展信息是与缩混有关的信息,
基于所述扩展信息来对解码后的所述多个通道的音频数据进行缩混,以及
其中,基于所述缩混形式参数,进一步对基于所述扩展信息进行了缩混的音频数据进行缩混。
7.根据权利要求6所述的编码装置,
其中,所述扩展信息是用于获得对所述音频数据进行缩混所使用的系数的信息。
8.根据权利要求7所述的编码装置,
其中,所述扩展信息是用于获得调整缩混后的音频数据的增益所使用的增益值的信息,并且
基于所述增益值来调整缩混后的音频数据的增益。
9.根据权利要求8所述的编码装置,
其中,所述扩展信息是表示是否使用特定通道的音频数据来进行缩混的信息。
10.一种编码方法,包括以下步骤:
对音频数据、表示是否存在扩展信息的信息、所述扩展信息以及指示从多个通道缩混到一个数量的通道的缩混形式参数进行编码;以及
将编码后的所述音频数据、编码后的表示是否存在所述扩展信息的信息、编码后的所述扩展信息以及所述缩混形式参数存储在预定区域中,并且生成编码位流,
其中,所述扩展信息是与缩混有关的信息,
基于所述扩展信息来对解码后的所述多个通道的音频数据进行缩混,以及
其中,基于所述缩混形式参数,进一步对基于所述扩展信息进行了缩混的音频数据进行缩混。
CN201380002768.6A 2012-07-02 2013-06-24 解码装置、解码方法、编码装置和编码方法 Expired - Fee Related CN103765508B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2012-148918 2012-07-02
JP2012148918 2012-07-02
JP2012-255465 2012-11-21
JP2012255465 2012-11-21
PCT/JP2013/067233 WO2014007097A1 (ja) 2012-07-02 2013-06-24 復号装置および方法、符号化装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
CN103765508A CN103765508A (zh) 2014-04-30
CN103765508B true CN103765508B (zh) 2017-11-24

Family

ID=49881855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380002768.6A Expired - Fee Related CN103765508B (zh) 2012-07-02 2013-06-24 解码装置、解码方法、编码装置和编码方法

Country Status (10)

Country Link
US (2) US10140995B2 (zh)
EP (1) EP2743921A4 (zh)
JP (3) JPWO2014007097A1 (zh)
KR (1) KR20150032650A (zh)
CN (1) CN103765508B (zh)
AU (1) AU2013284705B2 (zh)
BR (1) BR112014004128A2 (zh)
CA (1) CA2843226A1 (zh)
RU (1) RU2652468C2 (zh)
WO (1) WO2014007097A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
WO2014007097A1 (ja) 2012-07-02 2014-01-09 ソニー株式会社 復号装置および方法、符号化装置および方法、並びにプログラム
CA2843263A1 (en) 2012-07-02 2014-01-09 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
TWI517142B (zh) 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
KR20150032651A (ko) 2012-07-02 2015-03-27 소니 주식회사 복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
KR102513009B1 (ko) 2013-12-27 2023-03-22 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
BR112016023716B1 (pt) 2014-04-11 2023-04-18 Samsung Electronics Co., Ltd Método de renderização de um sinal de áudio
US11521623B2 (en) 2021-01-11 2022-12-06 Bank Of America Corporation System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102016981A (zh) * 2008-04-24 2011-04-13 Lg电子株式会社 用于处理音频信号的方法和设备

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5859641A (ja) 1981-10-05 1983-04-08 Nec Corp デイジタル伝送装置
JP3632891B2 (ja) * 1998-09-07 2005-03-23 日本ビクター株式会社 オーディオ信号の伝送方法、オーディオディスク、エンコード装置及びデコード装置
JP3011925B1 (ja) * 1998-09-18 2000-02-21 日立電子サービス株式会社 ネットワーク監視支援装置
JP3387461B2 (ja) * 1998-10-13 2003-03-17 日本ビクター株式会社 記録媒体、音声復号装置
US6463410B1 (en) 1998-10-13 2002-10-08 Victor Company Of Japan, Ltd. Audio signal processing apparatus
KR100638960B1 (ko) 1999-09-29 2006-10-25 1...리미티드 음향 지향 방법 및 장치
JP3694888B2 (ja) 1999-12-03 2005-09-14 ソニー株式会社 復号装置および方法、符号化装置および方法、情報処理装置および方法、並びに記録媒体
US6680753B2 (en) 2001-03-07 2004-01-20 Matsushita Electric Industrial Co., Ltd. Method and apparatus for skipping and repeating audio frames
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
KR100556844B1 (ko) 2003-04-19 2006-03-10 엘지전자 주식회사 동영상 전송 시스템의 에러 검출 방법
TWI233091B (en) * 2003-11-18 2005-05-21 Ali Corp Audio mixing output device and method for dynamic range control
CN101253550B (zh) 2005-05-26 2013-03-27 Lg电子株式会社 将音频信号编解码的方法
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
EP1908057B1 (en) 2005-06-30 2012-06-20 LG Electronics Inc. Method and apparatus for decoding an audio signal
KR20070003594A (ko) 2005-06-30 2007-01-05 엘지전자 주식회사 멀티채널 오디오 신호에서 클리핑된 신호의 복원방법
TWI485698B (zh) * 2005-09-14 2015-05-21 Lg Electronics Inc 音頻訊號之解碼方法及其裝置
CN101356572B (zh) 2005-09-14 2013-02-13 Lg电子株式会社 解码音频信号的方法和装置
US9009057B2 (en) 2006-02-21 2015-04-14 Koninklijke Philips N.V. Audio encoding and decoding to generate binaural virtual spatial signals
US20100040135A1 (en) 2006-09-29 2010-02-18 Lg Electronics Inc. Apparatus for processing mix signal and method thereof
CN101479785B (zh) 2006-09-29 2013-08-07 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
BRPI0710923A2 (pt) 2006-09-29 2011-05-31 Lg Electronics Inc métodos e aparelhagens para codificação e decodificação de sinais de áudio orientados a objeto
US8805678B2 (en) 2006-11-09 2014-08-12 Broadcom Corporation Method and system for asynchronous pipeline architecture for multiple independent dual/stereo channel PCM processing
JP2008301454A (ja) * 2007-06-04 2008-12-11 Toshiba Corp オーディオデータ中継装置
US8644970B2 (en) 2007-06-08 2014-02-04 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2158791A1 (en) 2007-06-26 2010-03-03 Koninklijke Philips Electronics N.V. A binaural object-oriented audio decoder
JP4530007B2 (ja) 2007-08-02 2010-08-25 ヤマハ株式会社 音場制御装置
EP2077551B1 (en) 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
EP2146343A1 (en) 2008-07-16 2010-01-20 Deutsche Thomson OHG Method and apparatus for synchronizing highly compressed enhancement layer data
KR101600352B1 (ko) 2008-10-30 2016-03-07 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 장치 및 방법
CN102100067B (zh) 2009-02-13 2013-04-24 Lg电子株式会社 用于发送和接收信号的装置以及用于发送和接收信号的方法
RU2452044C1 (ru) * 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
KR101387902B1 (ko) 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
JP5365363B2 (ja) 2009-06-23 2013-12-11 ソニー株式会社 音響信号処理システム、音響信号復号装置、これらにおける処理方法およびプログラム
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
JP2011066868A (ja) * 2009-08-18 2011-03-31 Victor Co Of Japan Ltd オーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
CN102196400A (zh) 2010-03-02 2011-09-21 高通股份有限公司 移动通信终端信息更新的方法和装置
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
KR20150032651A (ko) 2012-07-02 2015-03-27 소니 주식회사 복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램
TWI517142B (zh) 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
WO2014007097A1 (ja) 2012-07-02 2014-01-09 ソニー株式会社 復号装置および方法、符号化装置および方法、並びにプログラム
CA2843263A1 (en) 2012-07-02 2014-01-09 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102016981A (zh) * 2008-04-24 2011-04-13 Lg电子株式会社 用于处理音频信号的方法和设备

Also Published As

Publication number Publication date
US20140214433A1 (en) 2014-07-31
KR20150032650A (ko) 2015-03-27
BR112014004128A2 (pt) 2017-03-21
RU2014106530A (ru) 2015-08-27
JP6583485B2 (ja) 2019-10-02
US10304466B2 (en) 2019-05-28
EP2743921A1 (en) 2014-06-18
JP2018156103A (ja) 2018-10-04
US20160343380A1 (en) 2016-11-24
CA2843226A1 (en) 2014-01-09
US10140995B2 (en) 2018-11-27
WO2014007097A1 (ja) 2014-01-09
JP6868791B2 (ja) 2021-05-12
JP2020003814A (ja) 2020-01-09
EP2743921A4 (en) 2015-06-03
AU2013284705B2 (en) 2018-11-29
JPWO2014007097A1 (ja) 2016-06-02
CN103765508A (zh) 2014-04-30
AU2013284705A1 (en) 2014-02-13
RU2652468C2 (ru) 2018-04-26

Similar Documents

Publication Publication Date Title
CN103765508B (zh) 解码装置、解码方法、编码装置和编码方法
CN103782339B (zh) 解码装置和方法、编码装置和方法、以及程序
CN103748629B (zh) 解码装置和方法、编码装置和方法以及程序
CN103748628B (zh) 解码装置和方法以及编码装置和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171124

Termination date: 20200624

CF01 Termination of patent right due to non-payment of annual fee