CN103748629A - 解码装置和方法、编码装置和方法以及程序 - Google Patents

解码装置和方法、编码装置和方法以及程序 Download PDF

Info

Publication number
CN103748629A
CN103748629A CN201380002773.7A CN201380002773A CN103748629A CN 103748629 A CN103748629 A CN 103748629A CN 201380002773 A CN201380002773 A CN 201380002773A CN 103748629 A CN103748629 A CN 103748629A
Authority
CN
China
Prior art keywords
contracting
unit
voice data
mixed
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380002773.7A
Other languages
English (en)
Other versions
CN103748629B (zh
Inventor
畠中光行
知念彻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN103748629A publication Critical patent/CN103748629A/zh
Application granted granted Critical
Publication of CN103748629B publication Critical patent/CN103748629B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Television Receiver Circuits (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本技术涉及解码装置和方法、编码装置和方法以及程序。所述技术使得能够实现更逼真的、高质量的声音。编码装置将指示多种缩混方法中的任一种缩混方法的缩混信息存储在编码比特流中。在对编码比特流进行解码期间,将解码音频数据缩混成预定数量声道的音频数据,并且基于缩混信息对已经缩混成预定数量声道的音频数据进一步缩混。

Description

解码装置和方法、编码装置和方法以及程序
技术领域
本技术涉及解码装置、解码方法、编码装置、编码方法以及程序,更具体地,涉及能够获得高质量的、逼真的声音的解码装置、解码方法、编码装置、编码方法以及程序。
背景技术
近年来,世界各国提出了运动图像分发服务、数字电视广播以及下一代归档。除了根据相关技术的立体声广播之外,开始提出与多个声道如5.1声道对应的声音广播。
为了进一步提高图像质量,已经研究了具有更大量的像素的下一代高清晰度电视。关于对下一代高清晰度电视的研究,期望的是在声音处理域中的水平方向和垂直方向上将声道扩展成多于5.1声道的多声道,以便实现逼真的声音。
作为与编码音频数据相关的技术,提出了以下技术:将来自不同声道的多个窗口分组成一些片块(tile)以提高编码效率(例如,参见专利文献1)。
引用列表
专利文献
专利文献1:JP2010-217900A
发明内容
本发明要解决的技术问题
然而,在上述技术中,难以获得高质量的、逼真的声音。
例如,在基于作为国际标准的运动图像专家组2改进的音频编码(MPEG-2AAC)标准和MPEG-4AAC标准的多声道编码中,仅定义了在水平方向上扬声器的布置和关于从5.1声道缩混(downmix)成立体声声道的信息。因此,难以充分地应对在平面内和垂直方向上对声道的扩展。
鉴于上述问题,做出了本技术并且可以获得高质量的、逼真的声音。问题的解决方案
根据本技术的第一方面的解码装置包括解码单元,所述解码单元对包括在编码比特流中的多个声道的音频数据进行解码;读取单元,所述读取单元从所述编码比特流中读取指示多种缩混方法中的任一种缩混方法的缩混信息;以及缩混处理单元,所述缩混处理单元使用由所述缩混信息指示的所述缩混方法对解码音频数据进行缩混。
读取单元还从所述编码比特流中读取指示是否使用特定声道的音频数据用于缩混的信息,并且所述缩混处理单元基于所述信息和所述缩混信息对所述解码音频数据进行缩混。
缩混处理单元可以将所述解码音频数据缩混成预定数量声道的音频数据并且基于所述缩混信息对所述预定数量声道的音频数据进行进一步缩混。
缩混处理单元可以基于增益值对音频数据的增益进行调整,所述音频数据是通过缩混至预定数量的声道并且基于所述缩混信息进行缩混而获得的,所述增益值是根据在所述缩混至预定数量的声道期间用于增益调整的增益值和在所述基于所述缩混信息进行缩混期间用于增益调整的增益值而计算的。
根据本技术的第一方面的解码方法或程序包括对包括在编码比特流中的多个声道的音频数据进行解码的步骤;从所述编码比特流中读取指示多种缩混方法中的任一种缩混方法的缩混信息的步骤;以及使用由所述缩混信息指示的所述缩混方法对解码音频数据进行缩混的步骤。
在本技术的第一方面中,对包括在编码比特流中的多个声道的音频数据进行解码;从所述编码比特流中读取指示多种缩混方法中的任一种缩混方法的缩混信息;以及使用由所述缩混信息指示的所述缩混方法对解码音频数据进行缩混。
根据本技术的第二方面的编码装置包括编码单元,所述编码单元对多个声道的音频数据和指示多种缩混方法中的任一种缩混方法的缩混信息进行编码;以及包封单元,所述包封单元将编码音频数据和编码缩混信息存储在预定区域并且生成编码比特流。
编码比特流还可以包括指示是否使用特定声道的音频数据用于缩混的信息,并且基于所述信息和所述缩混信息对所述音频数据进行缩混。
缩混信息可以是用于对预定数量声道的音频数据进行缩混的信息,并且所述编码比特流还包括用于将解码音频数据缩混成所述预定数量声道的音频数据的信息。
根据本技术的第二方面的编码方法或程序包括对多个声道的音频数据和指示多种缩混方法中的任一种缩混方法的缩混信息进行编码的步骤;以及将编码音频数据和编码缩混信息存储在预定区域并且生成编码比特流的步骤。
在本技术的第二方面中,对多个声道的音频数据和指示多种缩混方法中的任一种缩混方法的缩混信息进行编码。将编码音频数据和编码缩混信息存储在预定区域并且生成编码比特流。
本发明的效果
根据本技术的第一方面和第二方面,可以获得高质量的、逼真的声音。
附图说明
图1是示出了扬声器的布置的图。
图2是示出了扬声器映射的示例的图。
图3是示出了编码比特流的图。
图4是示出了height_extension_element的句法的图。
图5是示出了扬声器的布置高度的图。
图6是示出了MPEG4辅助数据的句法的图。
图7是示出了bs_info()的句法的图。
图8是示出了ancillary_data_status()的句法的图。
图9是示出了downmixing_levels_MPEG4()的句法的图。
图10是示出了audio_coding_mode()的句法的图。
图11是示出了MPEG4_ext_ancillary_data()的句法的图。
图12是示出了ext_ancillary_data_status()的句法的图。
图13是示出了ext_downmixing_levels()的句法的图。
图14是示出了每个系数应用于的目标的图。
图15是示出了ext_downmixing_global_gains()的句法的图。
图16是示出了ext_downmixing_lfe_level()的句法的图。
图17是示出了缩混的图。
图18是示出了针对dmix_lfe_idx确定的系数的图。
图19是示出了针对dmix_a_idx和dmix_b_idx确定的系数的图。
图20是示出了drc_presentation_mode的句法的图。
图21是示出了drc_presentation_mode的图。
图22是示出了编码装置的结构的示例的图。
图23是示出了编码处理的流程图。
图24是示出了解码装置的结构的示例的图。
图25是示出了解码处理的流程图。
图26是示出了编码装置的结构的示例的图。
图27是示出了编码处理的流程图。
图28是示出了解码装置的示例的图。
图29是示出了缩混处理单元的结构的示例的图。
图30是示出了缩混单元的结构的示例的图。
图31是示出了缩混单元的结构的示例的图。
图32是示出了缩混单元的结构的示例的图。
图33是示出了缩混单元的结构的示例的图。
图34是示出了缩混单元的结构的示例的图。
图35是示出了缩混单元的结构的示例的图。
图36是示出了解码处理的流程图。
图37是示出了重排处理的流程图。
图38是示出了重排处理的流程图。
图39是示出了缩混处理的流程图。
图40是示出了计算机的结构的示例的图。
具体实施方式
在下文中,将参考附图描述应用了本技术的实施例。
<第一实施例>
[关于本技术的概述]
首先,将对本技术的概述进行描述。
本技术涉及对音频数据的编码和解码。例如,在基于MPEG-2AAC或MPEG-4AAC标准的多声道编码中,难以获得在水平平面内和垂直方向上的声道扩展的信息。
在多声道编码中,不存在声道扩展内容的缩混信息并且不知道声道的适当的混合比率。因此,对于少量再现声道的便携式设备来说难以再现声音。
本技术可以使用以下特征(1)至特征(4)来获得高质量的、逼真的声音。
(1)在由现有AAC标准定义的PCE(Program_config_element,节目配置元素)中的注释区域中记录关于垂直方向上扬声器的布置的信息。
(2)在特征(1)的情况下,为了将公共注释与垂直方向上的扬声器布置信息相区分,在编码装置侧对两个标识信息项即同步字和CRC校验码进行编码,并且解码装置比较这两个标识信息项。当这两个标识信息项彼此一致时,解码装置获取扬声器布置信息。
(3)在辅助数据区(DSE(data_stream_element,数据流元素))中记录了音频数据的缩混信息。
(4)从6.1声道或7.1声道缩混成2声道是包括从6.1声道或7.1声道缩混成5.1声道并且从5.1声道缩混成2声道的两级处理。
因此,使用关于垂直方向上扬声器的布置的信息使得能够再现除了在平面内之外还在垂直方向上的声像,并且使得能够再现比根据相关技术的平面多声道更逼真的声音。
另外,当传输关于从6.1声道或7.1声道缩混成5.1声道或2声道的信息时,使用一个编码数据项使得能够用最适合每个再现环境的声道数来再现声音。在根据与本技术不对应的相关技术的解码装置中,垂直方向上的信息作为公共注释被忽略并且音频数据被解码。因此,不损坏兼容性。
[关于扬声器的布置]
接着,将对当再现音频数据时扬声器的布置进行描述。
例如,如图1所示,假定用户从前侧观察如电视机的显示装置的显示屏TVS。也就是说,在图1中假定用户处于显示屏TVS的前面。
在这种情况下,假定13个扬声器Lvh、Rvh、Lrs、Ls、L、Lc、C、Rc、R、Rs、Rrs、Cs和LFE被布置成环绕用户。
在下文中,由扬声器Lvh、Rvh、Lrs、Ls、L、Lc、C、Rc、R、Rs、Rrs、Cs和LFE再现音频数据(声音)的声道分别被称为Lvh、Rvh、Lrs、Ls、L、Lc、C、Rc、R、Rs、Rrs、Cs和LFE。
如图2所示,声道L是“前左”,声道R是“前右”,声道C是“前中心”。
另外,声道Ls是“左环绕”,声道Rs是“右环绕”,声道Lrs是“左背面”,声道Rrs是“右背面”,声道Cs是“后中心”。
声道Lvh是“左高前”,声道Rvh是“右高前”,声道LFE是“低频率效应”。
参考图1,扬声器Lvh和扬声器Rvh被布置在用户的前上左侧和前上右侧。其中布置有扬声器Rvh和扬声器Lvh的层是“顶层”。
扬声器L、扬声器C和扬声器R被布置在用户的左边、中心和右边。扬声器Lc和扬声器Rc分别被布置在扬声器L与扬声器C之间以及扬声器R与扬声器C之间。另外,扬声器Ls和扬声器Rs分别被布置在用户的左侧和右侧,而扬声器Lrs、扬声器Rrs和扬声器Cs分别被布置在用户的左背面、右背面和背面上。
扬声器Lrs、Ls、L、Lc、C、Rc、R、Rs、Rrs和Cs被布置在基本上设置在用户的耳朵的高度处的平面内以环绕用户。其中布置有这些扬声器的层是“中层”。
扬声器LFE被布置在用户的前下侧并且其中布置有扬声器LFE的层是“LFE层”。
[关于编码比特流]
当编码每个声道的音频数据时,例如获得图3中所示的编码比特流。即,图3示出了AAC帧的编码比特流的句法。
图3中所示的编码比特流包括“Header/sideinfo”、“PCE”、“SCE”、“CPE”、“LFE”、“DSE”、“FIL(DRC)”和“FIL(END)”。在本示例中,编码比特流包括三个“CPE”。
例如,“PCE”包括关于音频数据的每个声道的信息。在本示例中,“PCE”包括作为关于音频数据的缩混的信息的“Matrix-mixdown(矩阵缩混)”和作为关于扬声器的布置的信息的“Height Information(高度信息)”。另外,“PCE”包括作为可以存储自由注释的注释区(注释域)的“comment_field_data(注释域数据)”,并且“comment_field_data”包括作为扩展的区域的“height_extension_element(高度扩展元素)”。注释区可以存储任意数据,如公共注释。“height_extension_element(高度扩展元素)”包括作为关于扬声器的布置的高度的信息的“HeightInformation(高度信息)”。
“SCE”包括单声道的音频数据,“CPE”包括声道对即两个声道的音频数据,而“LFE”包括例如声道LFE的音频数据。例如,“SCE”存储声道C或声道Cs的音频数据,而“CPE”包括声道L或声道R或者声道Lvh或声道Rvh的音频数据。
另外,“DSE”是辅助数据区域。“DSE”存储自由数据。在本示例中,“DSE”包括“Downmix5.1ch to2ch(5.1ch缩混成2ch)”、“DynamicRange Control(动态范围控制)”、“DRC Presentation Mode(DRC呈现模式)”、“Downmix6.1ch and7.1ch to5.1ch(6.1ch和7.1ch缩混成5.1ch)”、“global gain downmixing(整体增益缩混)”和“LFE downmixing(LFE缩混)”作为关于音频数据的缩混的信息。
另外,“FIL(DRC)”包括关于声音的动态范围控制的信息。例如,“FIL(DRC)”包括“Program Reference Level(程序参考水平)”和“Dynamic Range Control(动态范围控制)”。
[关于注释域]
如上所述,“PCE”中的“comment_field_data”包括“height_extension_element”。因此,通过关于垂直方向上扬声器的布置的信息实现了多声道再现。也就是说,通过布置在每个高度的层如“顶层”或“中层”中的扬声器再现了高质量的、逼真的声音。
例如,如图4所示,“height_extension_element”包括用于与其他公共注释相区分的同步字。也就是说,图4是示出了“height_extension_element”的句法的图。
在图4中,“PCE_HEIGHT_EXTENSION_SYNC”指示同步字。
另外,“front_element_height_info[i]”、“side_element_height_info[i]”和“back_element_height_info[i]”指示被布置在观察者的前面、侧面以及背面的扬声器的高度即各层。
此外,“byte_alignment()”指示字节对齐,“height_info_crc_check”指示被用作为标识信息的CRC校验码。另外,CRC校验码是基于在“PCE_HEIGHT_EXTENSION_SYNC”与“byte_alignment()”之间读取的信息即同步字、关于每个扬声器的布置的信息(关于每个声道的信息)以及字节对齐而计算的。然后,确定所计算的CRC校验码是否与由“height_info_crc_check”指示的CRC校验码一致。当各CRC校验码彼此是一致的时,确定正确地读取了关于每个扬声器的布置的信息。另外,“crc_cal()!=height_info_crc_check”指示各CRC校验码之间的比较。
例如,作为关于声源的位置的信息即扬声器的布置(高度)的“front_element_height_info[i]”、“side_element_height_info[i]”以及“back_element_height_info[i]”如图5所述的那样被设置。
也就是说,当关于“front_element_height_info[i]”、“side_element_height_info[i]”以及“back_element_height_info[i]”的信息是“0”、“1”及“2”时,扬声器的高度分别为“Normal height(正常高度)”、“Top speaker(顶部扬声器)”和“Bottom Speaker(底部扬声器)”。也就是说,其中布置有扬声器的层是“中层”、“顶层”和“LFE层”。
[关于DSE]
接着,将描述作为包括在“DSE”即“data_stream_element()”中的“data_stream_byte[]”中的辅助数据区的“MPEG4ancillary data(MPEG4辅助数据)”。可以通过“MPEG4辅助数据”进行针对音频数据从6.1声道或7.1声道到5.1声道或2声道的缩混DRC控制。
图6是示出了“MPEG4辅助数据”的句法的图。“MPEG4辅助数据”包括“bs_info()”、“ancillary_data_status()”、“downmixing_levels_MPEG4()”、“audio_coding_mode()”、“Compression_value”以及“MPEG4_ext_ancillary_data()”。
此处,“Compression_value”对应于图3中所示的“Dynamic RangeControl(动态范围控制)”。另外,“bs_info()”、“ancillary_data_status()”、“downmixing_levels_MPEG4()”、“audio_coding_mode()”、以及“MPEG4_ext_ancillary_data()”的句法分别如图7至图11所示。
例如,如图7所示,“bs_info()”包括“mpeg_audio_type”、“dolby_surround_mode”、“drc_presentation_mode”以及“pseudo_surround_enable”。
另外,“drc_presentation_mode”对应于图3中所示的“DRCPresentation Mode”。另外,“pseudo_surround_enable”包括指示从5.1声道缩混成2声道的过程的信息,即指示要用于缩混的多种缩混方法中的一种缩混方法的信息。
例如,处理取决于包括在图8中所示的“ancillary_data_status()”中的“ancillary_data_extension_status”为“0”还是为“1”而变化。当“ancillary_data_extension_status”为1时,进行对图6中所示的“MPEG4辅助数据”中的“MPEG4_ext_ancillary_data()”的访问并且进行缩混DRC控制。另一方面,当“ancillary_data_extension_status”为0时,进行根据相关技术的处理。以这种方式,可以确保与现有标准的兼容性。
另外,包括在图8中所示的“ancillary_data_status()”中的“downmixing_levels_MPEG4_status”是用于指定被用于将5.1声道缩混成2声道的系数(混合比率)的信息。也就是说,当“downmixing_levels_MPEG4_status”为1时,由存储在图9中所示的“downmixing_levels_MPEG4()”中的信息确定的系数被用于缩混。
此外,图9中所示的“downmixing_levels_MPEG4()”包括“center_mix_level_value”和“surround_mix_level_value”作为用于指定缩混系数的信息。例如,与“center_mix_level_value”和“surround_mix_level_value”对应的系数的值是由下文将描述的图19中所示的表确定的。
另外,图9中所示的“downmixing_levels_MPEG4()”对应于图3中所示的“5.1ch缩混成2ch”。
此外,图11中所示的“MPEG4_ext_ancillary_data()”包括“ext_ancillary_data_status()”、“ext_downmixing_levels()”、“ext_downmixing_global_gains()”和“ext_downmixing_lfe_level()”。
扩展声道的数量以使得5.1声道的音频数据被扩展成7.1声道或6.1声道的音频数据所需的信息被存储在“MPEG4_ext_ancillary_data()”中。
具体地,“ext_ancillary_data_status()”包括指示是否将大于5.1声道的声道缩混成5.1声道的信息(标志)、指示是否在缩混期间进行增益控制的信息以及指示是否在缩混期间使用LFE声道的信息。
用于指定在缩混期间所使用的系数(混合比率)的信息被存储在“ext_downmixing_levels()”中并且与增益调整期间的增益相关的信息被包括在“ext_downmixing_global_gains()”中。另外,用于指定在缩混期间所使用LFE声道的系数(混合比率)的信息被存储在“ext_downmixing_lfe_level()”中。
具体地,例如,“ext_ancillary_data_status()”的句法是如图12所示,在“ext_ancillary_data_status()”中,“ext_downmixing_levels_status”指示是否将6.1声道或7.1声道缩混成5.1声道。也就是说,“ext_downmixing_levels_status”指示“ext_downmixing_levels()”是否存在。“ext_downmixing_levels_status”对应于图3所示的“6.1ch和7.1ch缩混成5.1ch”。
另外,“ext_downmixing_global_gains_status”指示是否进行整体增益控制并且与图3所示的“整体增益缩混”对应。也就是说,“ext_downmixing_global_gains_status”指示“ext_downmixing_global_gains()”是否存在。另外。“ext_downmixing_lfe_level_status”指示在5.1声道被缩混成2声道时是否使用LFE声道并且与图3所示的“LFE缩混”对应。
图11中所示的“MPEG4_ext_ancillary_data()”中的“ext_downmixing_levels()”的句法是如图13所示并且图13中所示的“dmix_a_idx”和“dmix_b_idx”是指示缩混期间的混合比率(系数)的信息。
图14示出了由“ext_downmixing_levels()”确定的“dmix_a_idx”与“dmix_b_idx”之间的对应关系以及在7.1声道的音频数据被缩混时“dmix_a_idx”和“dmix_b_idx”应用于的部件。
图11所示的“MPEG4_ext_ancillary_data()”中的“ext_downmixing_global_gains()”和“ext_downmixing_lfe_level()”的句法是如图15和图16所示。
例如,图15所示的“ext_downmixing_global_gains()”包括指示在缩混成5.1声道期间增益的标记的“dmx_gain_5_sign”,指示在缩混成2声道期间增益的标记的增益“dmx_gain_5_idx”和“dmx_gain_2_sign”以及增益“dmx_gain_2_idx”。
另外,图16中所示的“ext_downmixing_lfe_level()”包括“dmix_lfe_idx”,并且“dmix_lfe_idx”是指示在缩混期间LFE声道的混合比率(系数)的信息。
[关于缩混]
另外,图7中所示的“bs_info()”的句法中的“pseudo_surround_enable”指示缩混处理的过程并且该处理的过程如图17所示。此处,图17示出了当“pseudo_surround_enable”为0时和当“pseudo_surround_enable”为1时的两个过程。
接着,将描述音频数据缩混处理。
首先,将描述从5.1声道缩混成2声道。在这种情况下,当L声道和R声道在缩混之后分别是L’道和R’声道时,进行以下处理。
也就是说,当“pseudo_surround_enable”为0时,L’道和R’声道的音频数据通过以下表达式(1)来计算。
L’=L+C×b+Ls×a+LFE×c
R’=R+C×b+Rs×a+LFE×c...(1)
当“pseudo_surround_enable”为1时,L’道和R’声道的音频数据通过以下表达式(2)来计算。
L’=L+C×b-a×(Ls+Rs)+LFE×c
R’=R+C×b+a×(Ls+Rs)+LFE×c...(2)
在表达式(1)和表达式(2)中,L、R、C、Ls、Rs和LFE是形成5.1声道的声道并且分别指示参考图1和图2描述过的声道L、R、C、Ls、Rs及LFE。
在表达式(1)和表达式(2)中,“c”是由包括在图16中所示的“ext_downmixing_lfe_level()”中的“dmix_lfe_idx”的值确定的常量。例如,与“dmix_lfe_idx”中的每个值对应的常量c的值如图18所示。具体地,当图12中所示的“ext_ancillary_data_status()”中的“ext_downmixing_lfe_level_status”为0时,LFE声道不用在使用表达式(1)和表达式(2)的计算中。当“ext_downmixing_lfe_level_status”为1时,基于图18中所示的表来确定由LFE声道乘以常量c的值。
在表达式(1)和表达式(2)中,“a”和“b”是由包括在图13中所示的“ext_downmixing_levels()”中的“dmix_a_idx”和“dmix_b_idx”的值确定的常量。另外,在表达式(1)和表达式(2)中,“a”和“b”可以是由图9中所示的“downmixing_levels_MPEG4()”中的“center_mix_level_value”和“surround_mix_level_value”的值确定的常量。
例如,对于“dmix_a_idx”和“dmix_b_idx”的值或者“center_mix_level_value”和“surround_mix_level_value”的值的常量a和b的值如图19所示。在本示例中,由于“dmix_a_idx”和“dmix_b_idx”以及“center_mix_level_value”和“surround_mix_level_value”参考同一表,所以用于缩混的常量(系数)a和b具有相同的值。
然后,将描述从7.1声道或6.1声道缩混成5.1声道。
当包括布置在用户的背面上的扬声器的声道Lrs和Rrs的声道C、L、R、Ls、Rs、Lrs、Rrs及LFE的音频数据被转化成包括声道C’、L’、R’、Ls’、Rs’及LFE’的5.1声道的音频数据时,由以下表达式(3)进行计算。此处,声道C’、L’、R’、Ls’、Rs’及LFE’分别指示在缩混之后的声道C、L、R、Ls、Rs及LFE。另外,在表达式(3)中,C、L、R、Ls、Rs、Lrs、Rrs及LFE指示声道C、L、R、Ls、Rs、Lrs、Rrs及LFE的音频数据。
C’=C
L’=L
R’=R
Ls’=Ls×d1+Lrs×d2
Rs’=Rs×d1+Rrs×d2
LFE’=LFE...(3)
在表达式(3)中,d1和d2是常量。例如,常量d1和d2是针对图19所示的“dmix_a_idx”和“dmix_b_idx”的值而确定的。
当包括布置在用户的前面的扬声器的声道Lc和Rc的声道C、L、R、Lc、Rc、Ls、Rs及LFE的音频数据被转化成包括声道C’、L’、R’、Ls’、Rs’及LFE’的5.1声道的音频数据时,由以下表达式(4)进行计算。此处,声道C’、L’、R’、Ls’、Rs’及LFE’分别指示在缩混之后的声道C、L、R、Ls、Rs及LFE。在表达式(4)中,C、L、R、Lc、Rc、Ls、Rs及LFE指示声道C、L、R、Lc、Rc、Ls、Rs及LFE的音频数据。
C’=C+e1×(Lc+Rc)
L’=L+Lc×e2
R’=R+Rc×e2
Ls’=Ls
Rs’=Rs
LFE’=LFE...(4)
在表达式(4)中,e1和e2是常量。例如,常量e1和e2是针对图19所示的“dmix_a_idx”和“dmix_b_idx”的值而确定的。
当包括布置在用户的前上侧的扬声器的声道Lvh和Rvh的声道C、L、R、Lvh、Rvh、Ls、Rs及LFE的音频数据被转化成包括声道C’、L’、R’、Ls’、Rs’及LFE’的5.1声道的音频数据时,由以下表达式(5)进行计算。此处,声道C’、L’、R’、Ls’、Rs’及LFE’分别指示在缩混之后的声道C、L、R、Ls、Rs及LFE。在表达式(5)中,C、L、R、Lvh、Rvh、Ls、Rs及LFE指示声道C、L、R、Lvh、Rvh、Ls、Rs及LFE的音频数据。
C’=C
L’=L×f1+Lvh×f2
R’=R×f1+Rvh×f2
Ls’=Ls Rs’=Rs
LFE’=LFE...(5)
在表达式(5)中,f1和f2是常量。例如,常量f1和f2是针对图19所示的“dmix_a_idx”和“dmix_b_idx”的值而确定的。
在进行从6.1声道缩混成5.1声道时,进行以下处理。也就是说,当声道C、L、R、Ls、Rs、Cs及LFE的音频数据被转化成包括声道C’、L’、R’、Ls’、Rs’及LFE’的5.1声道的音频数据时,由以下表达式(6)进行计算。此处,声道C’、L’、R’、Ls’、Rs’及LFE’分别指示在缩混之后的声道C、L、R、Ls、Rs及LFE。在表达式(6)中,C、L、R、Ls、Rs、Cs及LFE指示声道C、L、R、Ls、Rs、Cs及LFE的音频数据。
C’=C
L’=L
R’=R
Ls’=Ls×g1+Cs×g2
Rs’=Rs×g1+Cs×g2
LFE’=LFE...(6)
在表达式(6)中,g1和g2是常量。例如,常量g1和g2是针对图19所示的“dmix_a_idx”和“dmix_b_idx”的值而确定的。
接着,将描述在缩混期间用于音量校正的整体增益。
整体缩混增益用于校正通过缩混被增大或减小的声音音量。此处,dmx_gain5指示用于从7.1声道或6.1声道缩混成5.1声道的校正值而dmx_gain2指示用于从5.1声道缩混成2声道的校正值。另外,dmx_gain2支持与7.1声道不对应的解码装置或比特流。
整体缩混增益的应用和操作与DRC重度压缩类似。另外,编码装置可以针对音频帧太长的时段或者音频帧太短的时段适当地进行择优评估以确定整体缩混增益。
在从7.1声道缩混成2声道期间,应用组合的增益即(dmx_gain5+dmx_gain2)。例如,6位无符号整数用作为dmx_gain5和dmx_gain2,并且dmx_gain5和dmx_gain2以0.25dB的间隔被量化。
因此,当dmx_gain5和dmx_gain2相互组合时,组合的增益在±15.75dB的范围内。增益值应用于解码当前帧的音频数据的样本。
具体地,在缩混成5.1声道期间,进行以下处理。也就是说,当针对通过缩混所获得的声道C’、L’、R’、Ls’、Rs’及LFE’的音频数据进行增益校正以获得声道C”、L”、R”、Ls”、Rs”及LFE”的音频数据时,由以下表达式(7)进行计算。
L”=L’×dmx_gain5
R”=R’×dmx_gain5
C”=C’×dmx_gain5
Ls”=Ls’×dmx_gain5
Rs”=Rs’×dmx_gain5
LFE”=LFE’×dmx_gain5...(7)
此处,dmx_gain5是标量值并且是根据图15所示的“dmx_gain_5_sign”和“dmx_gain_5_idx”由以下表达式(8)计算的增益值。
dmx_gain5=10(dmx_gain_5_idx/20)如果dmx_gain_5_sign==1
dmx_gain5=10(-dmx_gain_5_idx/20)如果dmx_gain_5_sign==0...(8)
类似地,在缩混成2声道期间,进行以下处理。也就是说,当针对通过缩混所获得的声道L’和声道R’的音频数据进行增益校正以获得声道L’’和声道R’’的音频数据时,由以下表达式(9)进行计算。
L”=L’×dmx_gain2
R”=R’×dmx_gain2...(9)
此处,dmx_gain2是标量值并且是根据图15所示的“dmx_gain_2_sign”和“dmx_gain_2_idx”由以下表达式(10)计算的增益值。
dmx_gain2=10(dmx_gain_2_idx/20)如果dmx_gain_2_sign==1
dmx_gain2=10(-dmx_gain_2_idx/20)如果dmx_gain_2_sign==0...(10)
在从7.1声道缩混成2声道期间,在7.1声道被缩混成5.1声道并且5.1声道被缩混成2声道之后,可以针对所获得的信号(数据)进行增益调整。在此情况下,应用于音频数据的增益值dmx_gain_7to2可以通过组合dmx_gain5和dmx_gain2而获得,如以下表达式(11)所描述的那样。
dmx_gain_7to2=dmx_gain_2×dmx_gain_5...(11)
与从7.1声道缩混成2声道类似地进行从6.1声道缩混成2声道。
例如,在从7.1声道缩混成2声道期间,当由表达式(7)或表达式(9)以两级进行增益校正时,可以输出5.1声道的音频数据和2声道的音频数据。
[关于DRC呈现模式]
另外,包括在图7所示的“bs_info()”中的“drc_presentation_mode”如图20所示。也就是说,图20是示出了“drc_presentation_mode”的句法的图。
当“drc_presentation_mode”为“01”时,模式是“DRC呈现模式1”。当“drc_presentation_mode”为“10”时,模式是“DRC呈现模式2”。在“DRC呈现模式1”和“DRC呈现模式2”中,如图21所示的那样进行增益控制。
[编码装置的示例结构]
接着,将对应用了本技术的具体实施例进行描述。
图22是示出了根据应用了本技术的实施例的编码装置的结构的示例的图。编码装置11包括输入单元21、编码单元22以及包封单元23。
输入单元21从外部获取音频数据和关于音频数据的信息并且将音频数据和该信息提供给编码单元22。例如,关于扬声器的布置(布置高度)的信息被获取作为关于音频数据的信息。
编码单元22对从输入单元21提供的音频数据和关于音频数据的信息进行编码并且将编码音频数据和信息提供给包封单元23。包封单元23对从编码单元22提供的音频数据或关于音频数据的信息进行包封以生成图3中所示的编码比特流并且输出编码比特流。
[编码处理的描述]
接着,将参考图23所示的流程图对编码装置11的编码处理进行描述。
在步骤S11中,输入单元21获取音频数据和关于音频数据的信息并且将音频数据和该信息提供给编码单元22。例如,获取了7.1声道中每个声道的音频数据以及关于存储在图4中所示的“height_extension_element”中的扬声器的布置的信息(下文中,称为扬声器布置信息)。
在步骤S12中,编码单元22对从输入单元21提供的每个声道的音频数据进行编码。
在步骤S13中,编码单元22对从输入单元21提供的扬声器布置信息进行编码。在这种情况下,编码单元22生成存储在被包括在图4所示的“height_extension_element”中的“PCE_HEIGHT_EXTENSION_SYNC”中的同步字或作为存储在“height_info_crc_check”中的标识信息的CRC校验码,并且将同步字或CRC校验码以及编码扬声器布置信息提供给包封单元23。
另外,编码单元22生成了生成编码比特流所需的信息并且将所生成的信息和编码音频数据或扬声器布置信息提供给包封单元23。
在步骤S14中,包封单元23针对从编码单元22提供的音频数据或扬声器布置信息进行比特包封(bit packing)以生成图3中所示的编码比特流。在这种情况下,包封单元23将例如扬声器布置信息或同步字以及CRC校验码存储在“PCE”中并且将音频数据存储在“SCE”或“CPE”。
在输出编码比特流时,编码处理结束。
以这种方式,编码装置11将作为关于每层中扬声器的布置的信息的扬声器布置信息插入到编码比特流中并且输出编码音频数据。因此,当使用关于垂直方向上扬声器的布置的信息时,除了平面内的声像之外,还可以再现垂直方向上的声像。因此,可以再现更逼真的声音。
[解码装置的示例结构]
接着,将描述接收从编码装置11输出的编码比特流并且对编码比特流进行解码的解码装置。
图24是示出了解码装置的结构的示例的图。解码装置51包括分离单元61、解码单元62、以及输出单元63。
分离单元61接收从编码装置11传输的编码比特流,对编码比特流进行比特解包,并且将解包的编码比特流提供给解码单元62。
解码单元62对例如从分离单元61提供的编码比特流即每个声道的音频数据或扬声器布置信息进行解码并且将解码音频数据提供给输出单元63。例如,解码单元62根据需要对音频数据进行缩混。
输出单元63基于由解码单元62指定的扬声器的布置(扬声器映射)来输出从解码单元62提供的音频数据。从输出单元63输出的每个声道的音频数据被提供给每个声道的扬声器并且然后被再现。
[解码操作的描述]
接着,将参考图25所示的流程图对解码装置51的解码处理进行描述。
在步骤S41中,解码单元62对音频数据进行解码。
也就是说,分离单元61接收从编码装置11传输的编码比特流并且针对编码比特流进行比特解包。然后,分离单元61将通过比特解包所获得音频数据以及各种信息如扬声器布置信息提供给解码单元62。解码单元62对从分离单元61提供的音频数据进行解码并且将解码音频数据提供给输出单元63。
在步骤S42中,解码单元62根据从分离单元61提供的信息检测同步字。具体地,同步字是从图4中所示的“height_extension_element”检测的。
在步骤S43中,解码单元62确定是否检测到同步字。当在步骤S43中确定了检测到同步字时,在步骤S44中解码单元62对扬声器布置信息进行解码。
也就是说,解码单元62从图4中所示的“height_extension_element”读取信息如“front_element_height_info[i]”、“side_element_height_info[i]”和“back_element_height_info[i]”。以这种方式,可以找到其中每个音频数据项能够以高质量再现的扬声器的位置(声道)。
在步骤S45中,解码单元62生成标识信息。也就是说,解码单元62基于“height_extension_element”中的“PCE_HEIGHT_EXTENSION_SYNC”与“byte_alignment()”之间读取的信息即同步字、扬声器布置信息以及字节对齐来计算CRC校验码并且获得标识信息。
在步骤S46中,解码单元62将步骤S45中所生成的标识信息与包括在图4中所示的“height_extension_element”中的“height_info_crc_check”中的标识信息进行比较并且确定标识信息项是否彼此一致。
当步骤S46中确定标识信息项彼此一致时,解码单元62将解码音频数据提供给输出单元63并且基于所获得的扬声器布置信息来指令输出音频数据。然后,处理前进至步骤S47。
在步骤S47中,输出单元63基于由解码单元62指示的扬声器布置(扬声器映射)来输出从解码单元62提供的音频数据。然后,解码处理结束。
另一方面,当步骤S43中确定没有检测到同步字时或者当步骤S46中确定标识信息项彼此不一致时,在步骤S48中输出单元63基于预定的扬声器布置来输出音频数据。
也就是说,当从“height_extension_element”正确地读取扬声器布置信息时,进行步骤S48中的处理。在这种情况下,解码单元62将音频数据提供给输出单元63并且指令输出音频数据以使得每个声道的音频数据通过每个预定声道的扬声器而再现。然后,输出单元63响应于来自解码单元62的指令来输出音频数据并且解码处理结束。
以这种方式,解码装置51对包括在编码比特流中的扬声器布置信息或音频数据进行解码并且基于扬声器布置信息输出音频数据。由于扬声器布置信息包括关于垂直方向上的扬声器的布置的信息,所以除了平面内之外还可以再现垂直方向上的声像。因此,可以再现更逼真的声音。
具体地,当音频数据被解码时,例如,根据需要还进行对音频数据缩混的处理。
在这种情况下,例如,解码单元62在图6中所示的“MPEG4辅助数据”中的“ancillary_data_status()”中的“ancillary_data_extension_status”为“1”时读取“MPEG4_ext_ancillary_data()”。然后,解码单元62读取包括在图11中所示的“MPEG4_ext_ancillary_data()”中的每个信息项并且进行音频数据缩混处理或增益校正处理。
例如,解码单元62将7.1声道或6.1声道的音频数据缩混成5.1声道的音频数据或者进一步将5.1声道的音频数据缩混成2声道的音频数据。
在这种情况下,解码单元62根据需要使用LFE声道的音频数据用于进行缩混。每个声道乘以的系数是参考图13中所示的“ext_downmixing_levels()”或者图16中所示的“ext_downmixing_lfe_level()”而确定的。另外,参考图15中所示的“ext_downmixing_global_gains()”进行缩混期间的增益校正。
[编码装置的示例结构]
接着,将对上述的编码装置和解码装置的详细结构和这些装置的详细操作的示例进行描述。
图26是示出了编码装置的详细结构的示例的图。
编码装置91包括输入单元21、编码单元22、以及包封单元23。在图26中,与图22中所示的部件对应的部件用相同的附图标记表示并且将不再重复对其描述。
编码单元22包括PCE编码单元101、DSE编码单元102、以及音频元素编码单元103。
PCE编码单元101基于从输入单元21提供的信息对PCE进行编码。也就是说,PCE编码单元101根据需要生成PCE中所存储的每个信息项同时对每个信息项进行编码。PCE编码单元101包括同步字编码单元111、布置信息编码单元112、以及标识信息编码单元113。
同步字编码单元111对同步字进行编码并且使用编码同步字作为存储在包括在PCE的注释区的扩展区域中的信息。布置信息编码单元112对指示针对每个音频数据项的扬声器的高度(层)并且从输入单元21提供的扬声器布置信息进行编码,并且使用编码扬声器布置信息作为存储在注释区的扩展区域中的信息。
标识信息编码单元113对标识信息进行编码。例如,标识信息编码单元113根据需要基于同步字和扬声器布置信息来生成CRC校验码作为标识信息,并且使用CRC校验码作为存储在注释区的扩展区域中的信息。
DSE编码单元102基于从输入单元21提供的信息对DSE进行编码。也就是说,DSE编码单元102根据需要生成要在DSE中存储的每个信息项同时对每个信息项进行编码。DSE编码单元102包括扩展信息编码单元114和缩混信息编码单元115。
扩展信息编码单元114对指示扩展信息是否包括在作为DSE的扩展区域的“MPEG4_ext_ancillary_data()”中的信息(标志)进行编码。缩混信息编码单元115对关于对音频数据进行缩混的信息进行编码。音频元素编码单元103对从输入单元21提供的音频数据进行编码。
编码单元22将通过对每种类型的数据进行编码而获得的并且存储在每个元素中的信息提供给包封单元23。
[编码处理的描述]
接着,将参考图27所示的流程图对编码装置91的编码处理进行描述。该编码处理比参考图23所示的流程图描述过的处理更详细。
在步骤S71中,输入单元21获取音频数据以及编码音频数据所需的信息并且将音频数据和信息提供给编码单元22。
例如,输入单元21获取每个声道的脉冲编码调制(PCM)数据、指示每个声道扬声器的布置的信息、用于指定缩混系数的信息、以及指示编码比特流的比特率的信息作为音频数据。此处,用于指定缩混系数的信息是指示在从7.1声道或6.1声道缩混成5.1声道并且从5.1声道缩混成2声道期间与每个声道中的音频数据相乘的系数的信息。
另外,输入单元21获取要获得的编码比特流的文件名。在编码侧适当地使用文件名。
在步骤S72中,音频元素编码单元103对从输入单元21提供的音频数据进行编码并且将编码音频数据存储在每个元素如SCE、CPE及LFE中。在这种情况下,音频数据以由从输入单元21提供给编码单元22的比特率以及除了音频数据以外的信息中的代码量确定的比特率被编码。
例如,C声道的音频数据或Cs声道的音频数据被编码并且存储在SCE中。L声道的音频数据或R声道的音频数据被编码并且存储在CPE中。另外,LFE声道的音频数据被编码并且存储在LFE中。
在步骤S73中,同步字编码单元111基于从输入单元21提供的信息对同步字进行编码并且将编码同步字存储在图4中所示的“height_extension_element”中的“PCE_HEIGHT_EXTENSION_SYNC”中。
在步骤S74中,布置信息编码单元112对从输入单元21提供的每个音频数据的扬声器布置信息进行编码。
编码扬声器布置信息被存储在包封单元23中的声源位置处的“height_extension_element”中,也就是说,按与扬声器的布置对应的顺序被存储。也就是说,指示由布置在用户的前面的扬声器再现的每个声道的扬声器高度(声源的高度)的扬声器布置信息被存储作为“height_extension_element”中的“front_element_height_info[i]”。
另外,指示由布置在用户的侧面上的扬声器再现的每个声道的扬声器高度的扬声器布置信息被存储作为“height_extension_element”中的“front_element_height_info[i]”之后的“side_element_height_info[i]”。然后,指示由布置在用户的背面上的扬声器再现的每个声道的扬声器高度的扬声器布置信息被存储作为“height_extension_element”中的“side_element_height_info[i]”之后的“back_element_height_info[i]”。
在步骤S75中,标识信息编码单元113对标识信息进行编码。例如,标识信息编码单元113根据需要基于同步字和扬声器布置信息生成CRC校验码作为标识信息。CRC校验码是存储在“height_extension_element”的“height_info_crc_check”中的信息。同步字和CRC校验码是用于标识扬声器布置信息是否存在于编码比特流中的信息。
另外,标识信息编码单元113生成指令执行字节对齐的信息作为存储在“height_extension_element”的“byte_alignment()”中的信息。标识信息编码单元113生成指令比较标识信息的信息作为存储在“height_extension_element”的“if(crc_cal()!=height_info_crc_check)”中的信息。
要存储在包括在PCE的注释区域中的扩展区中的信息,即“height_extension_element”通过从步骤S73至步骤S75的处理而生成。
在步骤S76中,PCE编码单元101基于例如从输入单元21提供的信息或者存储在扩展区域中的所生成的信息对PCE进行编码。
例如,PCE编码单元101生成指示由前面的扬声器、侧面的扬声器以及背面的扬声器再现的声道的数量的信息或者指示每个音频数据项属于C声道、L声道和R声道中的哪个声道的信息作为要存储在PCE中的信息。
在步骤S77中,扩展信息编码单元114基于从输入单元21提供的信息对指示扩展信息是否包括在DSE的扩展区域中的信息进行编码并且将编码信息存储在图8中所示的“ancillary_data_status()”的“ancillary_data_extension_status”中。例如,随着指示扩展信息是否被包括的信息即指示是否存在扩展信息的信息被存储,将“0”或“1”存储在“ancillary_data_extension_status”中。
在步骤S78中,缩混信息编码单元115基于从输入单元21提供的信息对关于对音频数据进行缩混的信息进行编码。
例如,缩混信息编码单元115对用于指定从输入单元21提供的缩混系数的信息进行编码。具体地,缩混信息编码单元115对指示在从5.1声道缩混成2声道期间每个声道的音频数据乘以的系数的信息进行编码并且将“center_mix_level_value”和“surround_mix_level_value”存储在图9中所示的“downmixing_levels_MPEG4()”中。
另外,缩混信息编码单元115对指示在从5.1声道缩混成2声道期间LFE声道的音频数据乘以的系数的信息进行编码并且将“dmix_lfe_idx”存储在图16中所示的“ext_downmixing_lfe_level()”中。类似地,缩混信息编码单元115对从输入单元21提供的指示缩混成2声道的过程的信息进行编码并且将“pseudo_surround_enable”存储在图7中所示的“bs_info()”中。
缩混信息编码单元115对指示在从7.1声道或6.1缩混成5.1声道期间每个声道的音频数据乘以的系数的信息进行编码并且将“dmix_a_idx”和“dmix_b_idx”存储在图13中所示的“ext_downmixing_levels”中。
缩混信息编码单元115对指示在从5.1声道缩混成2声道期间是否使用LFE声道的信息进行编码。编码信息被存储在包括在作为扩展区域的图11中所示的“ext_ancillary_data_status()”中的图12所示的“ext_downmixing_lfe_level_status”中。
缩混信息编码单元115对在缩混期间用于增益调整所需的信息进行编码。编码信息被存储在图11中所示的“MPEG4_ext_ancillary_data()”中的“ext_downmixing_global_gains”中。
在步骤S79中,DSE编码单元102基于从输入单元21提供的信息或者关于缩混所生成的信息对DSE进行编码。
要存储在每个元素中的信息如PCE、SCE、CPE、LFE和DSE是通过上述处理而获得的。编码单元22将要存储在每个元素中的信息提供给包封单元23。另外,编码单元22根据需要生成元素如“首部/侧面信息(Header/Sideinfo)”,“FIL(DRC)”及“FIL(结束)(FIL(END))”,并且将所生成的元件提供给包封单元23。
在步骤S80中,包封单元23针对从编码单元22提供的音频数据或扬声器布置信息进行比特包封以生成图3中所示的编码比特流,并输出编码比特流。例如,包封单元23将从编码单元22提供的信息存储在PCE或DSE中以生成编码比特流。当输出编码比特流时,编码处理结束。
以这种方式,编码装置91将例如扬声器布置信息、关于缩混的信息以及指示扩展信息是否包括在扩展区域中的信息插入到编码比特流中并且输出编码音频数据。因此,当扬声器布置信息、关于缩混的信息被存储在编码比特流中时,可以在编码比特流的解码侧获得高质量的、逼真的声音。
例如,当关于垂直方向上扬声器的布置的信息被存储在编码比特流中时,在解码侧,除了平面内之外,还可以再现垂直方向上的声像。因此,可以再现逼真的声音。
另外,编码比特流包括用于标识扬声器布置信息的多个标识信息项(标识代码),以便标识存储在注释区域的扩展区域中的信息是否是扬声器布置信息或文本信息如其他注释。在本实施例中,编码比特流包括紧接在扬声器布置信息之前被布置的同步字和由所存储的信息如扬声器布置信息的内容确定的CRC校验码作为标识信息。
当两个标识信息项被包括在编码比特流中时,可以可靠地指定包括在编码比特流中的信息是否是扬声器布置信息。因此,可以使用所获得的扬声器布置信息来获得高质量的、逼真的声音。
另外,在编码比特流中,“pseudo_surround_enable”被包括在DSE中作为用于对音频数据进行缩混的信息。该信息使得可以指定多种方法中的任一种方法作为从5.1声道缩混成2声道的方法。因此,可以在解码侧提高音频数据的灵活性。
具体地,在本实施例中,作为从5.1声道缩混成2声道的声道缩混方法,存在使用表达式(1)的方法和使用表达式(2)的方法。例如,通过缩混获得的2声道的音频数据被传输给解码侧的再现装置,并且再现装置将2声道的音频数据转化成5.1声道的音频数据并且再现经转化的音频数据。
在这种情况下,在使用表达式(1)的方法和使用表达式(2)的方法中,根据通过两种方法中的任一种方法而获得的音频数据不太可能获得在再现5.1声道的最终音频数据时预先假定的适当的声学效果。
然而,在由编码装置91获得的编码比特流中,能够获得在解码侧所假定的声学效果的缩混方法可以由“pseudo_surround_enable”指定。因此,在解码侧可以获得高质量的、逼真的声音。
另外,在编码比特流中,指示是否包括扩展信息的信息(标志)被存储在“ancillary_data_extension_status”中。因此,参考该信息,可以指定扩展信息是否被包括在作为扩展区域的“MPEG4_ext_ancillary_data()”中。
例如,在本示例中,“ext_ancillary_data_status()”、“ext_downmixing_levels()”、“ext_downmixing_global_gains”以及“ext_downmixing_lfe_level()”根据需要被存储在扩展区域中作为扩展信息。
当能够获得扩展信息时,可以提高对音频数据的缩混的灵活性并且在解码侧可以获得各种音频数据。因此,可以获得高质量的、逼真的声音。
[解码装置的示例结构]
接着,将对解码装置的详细结构进行描述。
图28是示出了解码装置的详细结构的示例的图。在图28中,与图24中所示的部件对应的部件用相同的附图标记表示并且将不再重复对其描述。
解码装置141包括分离单元61、解码单元62、切换单元151、缩混处理单元152、以及输出单元63。
分离单元61接收从编码装置91输出的编码比特流,对编码比特流进行解包,并且将编码比特流提供给解码单元62。另外,分离单元61获取缩混形式参数以及音频数据的文件名。
缩混形式参数是指示解码装置141中包括在编码比特流中的音频数据的缩混形式的信息。例如,指示从7.1声道或6.1声道缩混成5.1声道的信息、指示从7.1声道或6.1声道缩混成2声道的信息、指示从5.1声道缩混成2声道的信息、或者指示不进行缩混的信息被包括作为缩混形式参数。
由分离单元61获取的缩混形式参数被提供给切换单元151和缩混处理单元152。另外,由分离单元61获取的文件名在解码装置141中被适当地使用。
解码单元62对从分离单元61提供的编码比特流进行解码。解码单元62包括PCE解码单元161、DSE解码单元162、以及音频元素解码单元163。
PCE解码单元161对包括在编码比特流中的PCE进行解码并且将通过解码获得的信息提供给缩混处理单元152和输出单元63。PCE解码单元161包括同步字检测单元171和标识信息计算单元172。
同步字检测单元171从PCE的注释区域中的扩展区域检测同步字并且读取同步字。标识信息计算单元172基于从PCE的注释区域中的扩展区域读取的信息来计算标识信息。
DSE解码单元162对包括在编码比特流中的DSE进行解码并且将通过解码获得的信息提供给缩混处理单元152。DSE解码单元162包括扩展检测单元173和缩混信息解码单元174。
扩展检测单元173检测扩展信息是否包括在DSE的“MPEG4_ancillary_data()”中。缩混信息解码单元174对关于包括在DSE中的缩混的信息进行解码。
音频元素解码单元163对包括在编码比特流中的音频数据进行解码并且将音频数据提供给切换单元151。
切换单元151基于从分离单元61提供的缩混形式参数将从解码单元62提供的音频数据的输出目的地改变成缩混处理单元152或输出单元63。
缩混处理单元152基于来自分离单元61的缩混形式参数和来自解码单元62的信息对从切换单元151提供的音频数据进行缩混并且将经缩混的音频数据提供给输出单元63。
输出单元63基于从解码单元62提供的信息来输出从切换单元151或缩混处理单元152提供的音频数据。输出单元63包括重排处理单元181。重排处理单元181基于从PCE解码单元161提供的信息来重排从切换单元151提供的音频数据并且输出音频数据。
[缩混处理单元的结构的示例]
图29示出了图28所示的缩混处理单元152的详细结构。也就是说,缩混处理单元152包括切换单元211、切换单元212、缩混单元213-1至213-4、切换单元214、增益调整单元215、切换单元216、缩混单元217-1、缩混单元217-2、以及增益调整单元218。
切换单元211将从切换单元151提供的音频数据提供给切换单元212或切换单元216。例如,当音频数据是7.1声道或6.1声道的数据时音频数据的输出目的地是切换单元212,而当音频数据是5.1声道的数据时音频数据的输出目的地是切换单元216。
切换单元212将从切换单元211提供的音频数据提供给缩混单元213-1至213-4中的任一缩混单元。例如,当音频数据是6.1声道的音频数据时,切换单元212将音频数据输出至缩混单元213-1。
当音频数据是声道L、Lc、C、Rc、R、Ls、Rs和LFE的数据时,切换单元212将来自切换单元211的音频数据提供给缩混单元213-2。当音频数据是声道L、R、C、Ls、Rs、Lrs、Rrs和LFE的数据时,切换单元212将来自切换单元211的音频数据提供给缩混单元213-3。
当音频数据是声道L、R、C、Ls、Rs、Lvh、Rvh和LFE的数据时,切换单元212将来自切换单元211的音频数据提供给缩混单元213-4。
缩混单元213-1至213-4将从切换单元212提供的音频数据缩混成5.1声道的音频数据并且将音频数据提供给切换单元214。下文中,当缩混单元213-1至213-4不需要具体地相互区分时,它们被简称为缩混单元213。
切换单元214将从缩混单元213提供的音频数据提供给增益调整单元215或切换单元216。例如,当包括在编码比特流中的音频数据被缩混成5.1声道的音频数据时,切换单元214将音频数据提供给增益调整单元215。另一方面,当包括在编码比特流中的音频数据被缩混成2声道的音频数据时,切换单元214将音频数据提供给切换单元216。
增益调整单元215对从切换单元214提供的音频数据的增益进行调整并且将音频数据提供给输出单元63。
切换单元216将从切换单元211或切换单元214提供的音频数据提供给缩混单元217-1或缩混单元217-2。例如,切换单元216取决于包括在编码比特流的DSE中的“pseudo_surround_enable”的值来改变音频数据的输出目的地。
缩混单元217-1和缩混单元217-2将从切换单元216提供的音频数据缩混成2声道的数据并且将数据提供给增益调整单元218。下文中,当缩混单元217-1和缩混单元217-2不需要具体地相互区分时,它们被简称为缩混单元217。
增益调整单元218对从缩混单元217提供的音频数据的增益进行调整并且将音频数据提供给输出单元63。
[缩混单元的结构的示例]
接着,将描述图29所示的缩混单元213和缩混单元217的详细结构的示例。
图30是示出了图29所示的缩混单元213-1的结构的示例的图。
缩混单元213-1包括输入端子241-1至241-7、乘法单元242至244、加法单元245、加法单元246、以及输出端子247-1至247-6。
声道L、R、C、Ls、Rs、Cs和LFE的音频数据从切换单元212被提供给输入端子241-1至241-7。
在不对音频数据进行任何改变的情况下,输入端子241-1至241-3通过输出端子247-1至247-3将从切换单元212提供的音频数据提供给切换单元214。也就是说,提供给缩混单元213-1的声道L、R和C的音频数据被缩混并且输出作为在缩混至下一级之后的声道L、R和C的音频数据。
输入端子241-4至241-6将从切换单元212提供的音频数据提供给乘法单元242至244。乘法单元242将从输入端子241-4提供的音频数据乘以缩混系数并且将音频数据提供给加法单元245。
乘法单元243将从输入端子241-5提供的音频数据乘以缩混系数并且将音频数据提供给加法单元246。乘法单元244将从输入端子241-6提供的音频数据乘以缩混系数并且将音频数据提供给加法单元245和加法单元246。
加法单元245将从乘法单元242提供的音频数据与从乘法单元244提供的音频数据相加并且将相加的音频数据提供给输出端子247-4。输出端子247-4将从加法单元245提供的音频数据作为在缩混之后的Ls声道的音频数据提供给切换单元214。
加法单元246将从乘法单元243提供的音频数据与从乘法单元244提供的音频数据相加并且将相加的音频数据提供给输出端子247-5。输出端子247-5将从加法单元246提供的音频数据作为在缩混之后的Rs声道的音频数据提供给切换单元214。
在不对音频数据进行任何改变的情况下,输入端子241-7通过输出端子247-6将从切换单元212提供的音频数据提供给切换单元214。也就是说,提供给缩混单元213-1的LFE声道的音频数据在没有任何改变的情况下被输出作为在缩混至下一级之后的LFE声道的音频数据。
下文中,当输入端子241-1至241-7不需要具体地相互区分时,它们被简称为输入端子241。当输出端子247-1至247-6不需要具体地相互区分时,它们被简称为输出端子247。
因此,在缩混单元213-1中,进行与使用上述表达式(6)的计算对应的处理。
图31是示出了图29中所示的缩混单元213-2的结构的示例的图。
缩混单元213-2包括输入端子271-1至271-8、乘法单元272至275、加法单元276、加法单元277、加法单元278、以及输出端子279-1至279-6。
声道L、Lc、C、Rc、R、Ls、Rs和LFE的音频数据从切换单元212被分别提供给输入端子271-1至271-8。
输入端子271-1至271-5将从切换单元212提供的音频数据分别提供给加法单元276、乘法单元272和273、加法单元277、乘法单元274和275、以及加法单元278。
乘法单元272和乘法单元273将从输入端子271-2提供的音频数据乘以缩混系数并且将音频数据分别提供给加法单元276和加法单元277。乘法单元274和乘法单元275将从输入端子271-4提供的音频数据乘以缩混系数并且将音频数据分别提供给加法单元277和加法单元278。
加法单元276将从输入端子271-1提供的音频数据与从乘法单元272提供的音频数据相加并且将相加的音频数据提供给输出端子279-1。输出端子279-1将从加法单元276提供的音频数据作为在缩混之后的L声道的音频数据提供给切换单元214。
加法单元277将从输入端子271-3提供的音频数据、从乘法单元273提供的音频数据、以及从乘法单元274提供的音频数据相加并且将相加的音频数据提供给输出端子279-2。输出端子279-2将从加法单元277提供的音频数据作为在缩混之后的C声道的音频数据提供给切换单元214。
加法单元278将从输入端子271-5提供的音频数据与从乘法单元275提供的音频数据相加并且将相加的音频数据提供给输出端子279-3。输出端子279-3将从加法单元278提供的音频数据作为在缩混之后的R声道的音频数据提供给切换单元214。
在不对音频数据进行任何改变的情况下,输入端子271-6至271-8通过输出端子279-4至279-6将从切换单元212提供的音频数据提供给切换单元214。也就是说,从缩混单元213-2提供的声道Ls、Rs和LFE的音频数据在没有任何改变的情况下被提供作为在缩混至下一级之后的声道Ls、Rs和LFE的音频数据。
下文中,当输入端子271-1至271-8不需要具体地相互区分时,它们被简称为输入端子271。当输出端子279-1至279-6不需要具体地相互区分时,它们被简称为输出端子279。
因此,在缩混单元213-2中,进行与使用上述表达式(4)的计算对应的处理。
图32是示出了图29中所示的缩混单元213-3的结构的示例的图。
缩混单元213-3包括输入端子301-1至301-8、乘法单元302至305、加法单元306、加法单元307、以及输出端子308-1至308-6。
声道L、R、C、Ls、Rs、Lrs、Rrs和LFE的音频数据从切换单元212被分别提供给输入端子301-1至301-8。
在不对音频数据进行任何改变的情况下,输入端子301-1至301-3分别通过输出端子308-1至308-3将从切换单元212提供的音频数据提供给切换单元214。也就是说,提供给缩混单元213-3的声道L、R和C的音频数据被输出作为在缩混至下一级之后的声道L、R和C的音频数据。
输入端子301-4至301-7将从切换单元212提供的音频数据分别提供给乘法单元302至305。乘法单元302至305将从输入端子301-4至301-7提供的音频数据乘以缩混系数并且将音频数据分别提供给加法单元306和加法单元307。
加法单元306将从乘法单元302提供的音频数据与从乘法单元304提供的音频数据相加并且将音频数据提供给输出端子308-4。输出端子308-4将从加法单元306提供的音频数据作为在缩混之后的Ls声道的音频数据提供给切换单元214。
加法单元307将从乘法单元303提供的音频数据与从乘法单元305提供的音频数据相加并且将音频数据提供给输出端子308-5。输出端子308-5将从加法单元307提供的音频数据作为在缩混之后的Rs声道的音频数据提供给切换单元214。
在不对音频数据进行任何改变的情况下,输入端子301-8通过输出端子308-6将从切换单元212提供的音频数据提供给切换单元214。也就是说,提供给缩混单元213-3的LFE声道的音频数据在没有任何改变的情况下被输出作为在缩混至下一级之后的LFE声道的音频数据。
下文中,当输入端子301-1至301-8不需要具体地相互区分时,它们被简称为输入端子301。当输出端子308-1至308-6不需要具体地相互区分时,它们被简称为输出端子308。
因此,在缩混单元213-3中,进行与使用上述表达式(3)的计算对应的处理。
图33是示出了图29中所示的缩混单元213-4的结构的示例的图。
缩混单元213-4包括输入端子331-1至331-8、乘法单元332至335、加法单元336、加法单元337以及输出端子338-1至338-6。
声道L、R、C、、Ls、Rs、Lvh、Rvh和LFE的音频数据从切换单元212被分别提供给输入端子331-1至331-8。
输入端子331-1和输入端子331-2将从切换单元212提供的音频数据分别提供给乘法单元332和乘法单元333。输入端子331-6和输入端子331-7将从切换单元212提供的音频数据分别提供给乘法单元334和乘法单元335。
乘法单元332至335将从输入端子331-1、输入端子331-2、输入端子331-6和输入端子331-7提供的音频数据乘以缩混系数并且将音频数据分别提供给加法单元336和加法单元337。
加法单元336将从乘法单元332提供的音频数据与从乘法单元334提供的音频数据相加并且将音频数据提供给输出端子338-1。输出端子338-1将从加法单元336提供的音频数据作为在缩混之后的L声道的音频数据提供给切换单元214。
加法单元337将从乘法单元333提供的音频数据与从乘法单元335提供的音频数据相加并且将音频数据提供给输出端子338-2。输出端子338-2将从加法单元337提供的音频数据作为在缩混之后的R声道的音频数据提供给切换单元214。
在不对音频数据进行任何改变的情况下,输入端子331-3至331-5和输入端子331-8分别通过输出端子338-3至338-5及输出端子338-6将从切换单元212提供的音频数据提供给切换单元214。也就是说,提供给缩混单元213-4的声道C、Ls、Rs和LFE的音频数据在没有任何改变的情况下被输出作为在缩混至下一级之后的声道C、Ls、Rs和LFE的音频数据。
下文中,当输入端子331-1至331-8不需要具体地相互区分时,它们被简称为输入端子331。当输出端子338-1至338-6不需要具体地相互区分时,它们被简称为输出端子338。
因此,在缩混单元213-4中,进行与使用上述表达式(5)的计算对应的处理。
然后,将描述图29所示的缩混单元217的详细结构的示例。
图34是示出了图29所示的缩混单元217-1的结构的示例的图。
缩混单元217-1包括输入端子361-1至361-6、乘法单元362至365、加法单元366至371、输出端子372-1、以及输出端子372-2。
声道L、R、C、Ls、Rs和LFE的音频数据从切换单元216被分别提供给输入端子361-1至361-6。
输入端子361-1至361-6将从切换单元216提供的音频数据分别提供给加法单元366、加法单元369、以及乘法单元362至365。
乘法单元362至365将从输入端子361-3至361-6提供的音频数据乘以缩混系数并且将音频数据分别提供给加法单元366和加法单元369、加法单元367、加法单元370、以及加法单元368和加法单元371。
加法单元366将从输入端子361-1提供的音频数据与从乘法单元362提供的音频数据相加并且将相加的音频数据提供给加法单元367。加法单元367将从加法单元366提供的音频数据与从乘法单元363提供的音频数据相加并且将相加的音频数据提供给加法单元368。
加法单元368将从加法单元367提供的音频数据与从乘法单元365提供的音频数据相加并且将相加的音频数据提供给输出端子372-1。输出端子372-1将从加法单元368提供的音频数据作为在缩混之后的L声道的音频数据提供给增益调整单元218。
加法单元369将从输入端子361-2提供的音频数据与从乘法单元362提供的音频数据相加并且将相加的音频数据提供给加法单元370。加法单元370将从加法单元369提供的音频数据与从乘法单元364提供的音频数据相加并且将相加的音频数据提供给加法单元371。
加法单元371将从加法单元370提供的音频数据与从乘法单元365提供的音频数据相加并且将相加的音频数据提供给输出端子372-2。输出端子372-2将从加法单元371提供的音频数据作为在缩混之后的R声道的音频数据提供给增益调整单元218。
下文中,当输入端子361-1至361-6不需要具体地相互区分时,它们被简称为输入端子361。当输出端子372-1和输出端子372-2不需要具体地相互区分时,它们被简称为输出端子372。
因此,在缩混单元217-1中,进行与使用上述表达式(1)的计算对应的处理。
图35是示出了图29所示的缩混单元217-2的结构的示例的图。
缩混单元217-2包括输入端子401-1至401-6、乘法单元402至405、加法单元406、减法单元407、减法单元408、加法单元409至413、输出端子414-1、以及输出端子414-2。
声道L、R、C、Ls、Rs和LFE的音频数据从切换单元216被分别提供给输入端子401-1至401-6。
输入端子401-1至401-6将从切换单元216提供的音频数据分别提供给加法单元406、加法单元410、以及乘法单元402至405。
乘法单元402至405将从输入端子401-3至401-6提供的音频数据乘以缩混系数并且将音频数据分别提供给加法单元406和加法单元410、减法单元407和加法单元411、减法单元408和加法单元412、以及加法单元409和加法单元413。
加法单元406将从输入端子401-1提供的音频数据与从乘法单元402提供的音频数据相加并且将相加的音频数据提供给减法单元407。减法单元407从由加法单元406提供的音频数据减去由乘法单元403提供的音频数据并且将相减的音频数据提供给减法单元408。
减法单元408从由减法单元407提供的音频数据减去由乘法单元404提供的音频数据并且将相减的音频数据提供给加法单元409。加法单元409将从减法单元408提供的音频数据与从乘法单元405提供的音频数据相加并且将相加的音频数据提供给输出端子414-1。输出端子414-1将从加法单元409提供的音频数据作为在缩混之后的L声道的音频数据提供给增益调整单元218。
加法单元410将从输入端子401-2提供的音频数据与从乘法单元402提供的音频数据相加并且将相加的音频数据提供给加法单元411。加法单元411将从加法单元410提供的音频数据与从乘法单元403提供的音频数据相加并且将相加的音频数据提供给加法单元412。
加法单元412将从加法单元411提供的音频数据与从乘法单元404提供的音频数据相加并且将相加的音频数据提供给加法单元413。加法单元413将从加法单元412提供的音频数据与从乘法单元405提供的音频数据相加并且将相加的音频数据提供给输出端子414-2。输出端子414-2将从加法单元413提供的音频数据作为在缩混之后的R声道的音频数据提供给增益调整单元218。
下文中,当输入端子401-1至401-6不需要具体地相互区分时,它们被简称为输入端子401。当输出端子414-1和输出端子414-2不需要具体地相互区分时,它们被简称为输出端子414。
因此,在缩混单元217-2中,进行与使用上述表达式(2)的计算对应的处理。
[解码操作的描述]
接着,将参考图36所示的流程图对解码装置141的解码处理进行描述。
在步骤S111中,分离单元61获取缩混形式参数和从编码装置91输出的编码比特流。例如,缩混形式参数是从包括解码装置的信息处理装置获取的。
分离单元61将所获取的缩混形式参数提供给切换单元151和缩混处理单元152。另外,分离单元61根据需要获取音频数据的输出文件名并且适当地使用该输出文件名。
在步骤S112中,分离单元61对编码比特流进行解包并且将通过解包所获得的每个元素提供给解码单元62。
在步骤S113中,PCE解码单元161对从分离单元61提供的PCE进行解码。例如,PCE解码单元161从PCE的注释区域读取作为扩展区域的“height_extension_element”或者从PCE读取关于扬声器的布置的信息。此处,例如,由布置在用户的前面、侧面和背面上的扬声器再现的声道的数量或者指示每个音频数据项属于C声道、L声道和R声道中的哪个声道的信息作为关于扬声器的布置的信息。
在步骤S114中,DSE解码单元162对从分离单元61提供的DSE进行解码。例如,DSE解码单元162从DSE读取“MPEG4辅助数据”或者从“MPEG4辅助数据”读取必要信息。
具体地,例如,DSE解码单元162中的缩混信息解码单元174从图9所示的“downmixing_levels_MPEG4()”读取“center_mix_level_value”或“surround_mix_level_value”作为用于指定缩混所使用的系数的信息并且将所读取的信息提供给缩混处理单元152。
在步骤S115中,音频元素解码单元163对存储在从分离单元61提供的SCE、CPE和LFE中的每个中的音频数据进行解码。以这种方式,获得了每个声道的PCM数据作为音频数据。
例如,解码音频数据的声道即水平平面上的布置位置可以由元素如存储音频数据的SCE或者通过对DSE解码而获得的关于扬声器的布置的信息来指定。然而,在当时,由于作为关于扬声器的布置高度的信息的扬声器布置信息没有被读取,所以不指定每个声道的高度(层)。
音频元素解码单元163将通过解码获得的音频数据提供给切换单元151。
在步骤S116中,切换单元151基于从分离单元61提供的缩混形式参数来确定是否对音频数据进行缩混。例如,当缩混形式参数指示不进行缩混时,切换单元151确定不进行缩混。
在步骤S116中,当确定不进行缩混时,切换单元151将从解码单元62提供的音频数据提供给重排处理单元181并且处理前进至步骤S117。
在步骤S117中,解码装置141基于扬声器的布置进行重排处理以重排每个音频数据项并且输出音频数据。当音频数据被输出时,解码处理结束。另外,下文将详细描述重排处理。
另一方面,当在步骤S116中确定进行缩混时,切换单元151将从解码单元62提供的音频数据提供给缩混处理单元152中的切换单元211并且处理前进至步骤S118。
在步骤S118中,解码装置141进行缩混处理以将每个音频数据项缩混成与由缩混形式参数指示的声道的数量对应的音频数据并且输出音频数据。当音频数据被输出时,解码处理结束。另外,下文将详细描述缩混处理。
以这种方式,解码装置141对编码比特流进行解码并且输出音频数据。
[重排处理的描述]
接着,将参考图37和图38所示的流程图来描述与图36中的步骤S117中的处理对应的重排处理。
在步骤S141中,同步字检测单元171将用于从PCE的注释区域(扩展区域)读取同步字的参数cmt_byte设定成cmt_byte等于PCE的注释区域中的字节数量。也就是说,注释区域中的字节数量被设定作为参数cmt_byte的值。
在步骤S142中,同步字检测单元171从PCE的注释区域读取与预定同步字的数据量对应的数据。例如,在图4所示的示例中,由于作为同步字的“PCE_HEIGHT_EXTENSION_SYNC”是8位即1字节的,所以从PCE的注释区域中的首部读取1字节数据。
在步骤S143中,PCE解码单元161确定步骤S142中所读取的数据与同步字是否一致。也就是说,确定所读取的数据是否是同步字。
当在步骤S143中确定所读取的数据与同步字不一致时,在步骤S144中同步字检测单元171将参数cmt_byte的值减少了与所读取的数据量对应的值。在这种情况下,参数cmt_byte的值减少了1字节。
在步骤S145中,同步字检测单元171确定参数cmt_byte的值是否大于0。也就是说,确定参数cmt_byte的值是否大于0,即是否读取注释区域中的所有数据。
当在步骤S145中确定参数cmt_byte的值大于0时,未从注释区域读取所有数据并且处理返回至步骤S142。然后,重复上述处理。也就是说,从注释区域读取的数据之后与同步字的数据量对应的数据被读取并且被与同步字做比较。
另一方面,当在步骤S145中确定参数cmt_byte的值不大于0时,处理前进至步骤S146。因此,当读取了注释区域中的所有数据,但从注释区域没有检测到同步字时,处理前进至步骤S146。
在步骤S146中,PCE解码单元161确定不存在扬声器布置信息并且将指示不存在扬声器布置信息的信息提供给重排处理单元181。处理前进至步骤S164。因此,由于同步字紧接在“height_extension_element”中的扬声器布置信息被布置,所以可以简单地并且可靠地指定注释区域中所包括的信息是否是扬声器布置信息。
当在步骤S143中确定从注释区域所读取的数据与同步字一致时,检测到同步字。因此,处理前进至步骤S147以便读取紧跟在同步字之后的扬声器布置信息。
在步骤S147中,PCE解码单元161将用于读取由布置在用户的前面的扬声器再现的音频数据的扬声器布置信息的参数num_fr_elem的值设定作为属于前面的元素的数量。
此处,属于前面的元素的数量是由布置在用户的前面的扬声器再现的音频数据项的数量(声道的数量)。将元素的数量存储在PCE中。因此,参数num_fr_elem的值是从“height_extension_element”读取并且由布置在用户的前面的扬声器再现的音频数据中的扬声器布置信息项的数量。
在步骤S148中,PCE解码单元161确定参数num_fr_elem的值是否大于0。
当在步骤S148中确定参数num_fr_elem的值大于0时,由于未读取所有的扬声器布置信息,所以处理前进至步骤S149。
在步骤S149中,PCE解码单元161读取注释区域中跟随同步字被布置的与一个元素对应的扬声器布置信息。在图4所示的示例中,由于一个扬声器布置信息项是2比特,所以读取紧跟在从注释区域读取的数据之后被布置的2比特数据作为一个扬声器布置信息项。
可以基于例如“height_extension_element”中的扬声器布置信息中的布置位置或者存储音频数据的元素如SCE来指定关于音频数据的每个扬声器布置信息项。
在步骤S150中,由于读取了一个扬声器布置信息项,所以PCE解码单元161使参数num_fr_elem的值以1递减。在更新参数num_fr_elem之后,处理返回至步骤S148并且重复上述处理。也就是说,读取下一个扬声器布置信息。
当在步骤S148中确定参数num_fr_elem的值不大于0时,由于已经读取了所有的关于前面元素的扬声器布置信息,所以处理前进至步骤S151。
在步骤S151中,PCE解码单元161将用于读取由布置在用户的侧面的扬声器再现的音频数据的扬声器布置信息的参数num_side_elem的值设定作为属于侧面的元素的数量。
此处,属于侧面的元素的数量是由布置在用户的侧面的扬声器再现的音频数据项的数量。将元素的数量存储在PCE中。
在步骤S152中,PCE解码单元161确定参数num_side_elem的值是否大于0。
当在步骤S152中确定参数num_side_elem的值大于0时,在步骤S153中PCE解码单元161读取与一个元素对应并且跟随从注释区域读取的数据被布置的扬声器布置信息。步骤S153中所读取的扬声器布置信息是在用户的侧面处的声道的扬声器布置信息,即“side_element_height_info[i]”。
在步骤S154中,PCE解码单元161使参数num_side_elem的值以1递减。在更新参数num_side_elem之后,处理返回至步骤S152并且重复上述处理。
另一方面,当在步骤S152中确定参数num_side_elem的值不大于0时,由于读取了所有的侧面元素的扬声器布置信息,所以处理前进至步骤S155。
在步骤S155中,PCE解码单元161将用于读取由布置在用户的背面的扬声器再现的音频数据的扬声器布置信息的参数num_back_elem的值设定作为属于背面的元素的数量。
此处,属于背面的元素的数量是由布置在用户的背面的扬声器再现的音频数据项的数量。将元素的数量存储在PCE中。
在步骤S156中,PCE解码单元161确定参数num_back_elem的值是否大于0。
当在步骤S156中确定参数num_back_elem的值大于0时,在步骤S157中PCE解码单元161读取与一个元素对应并且跟随从注释区域读取的数据被布置的扬声器布置信息。步骤S157中所读取的扬声器布置信息是布置在用户的背面上的声道的扬声器布置信息,即“back_element_height_info[i]”。
在步骤S158中,PCE解码单元161使参数num_back_elem的值以1递减。在更新参数num_back_elem之后,处理返回至步骤S156并且重复上述处理。
当在步骤S156中确定参数num_back_elem的值不大于0时,由于读取了所有的关于背面元素的扬声器布置信息,所以处理前进至步骤S159。
在步骤S159中,标识信息计算单元172进行字节对齐。
例如,跟随图4所示的“height_extension_element”中的扬声器布置信息来存储用于指令执行字节对齐的信息“byte_alignment()”。因此,当读取该信息时,标识信息计算单元172进行字节对齐。
具体地,标识信息计算单元172添加紧跟在“height_extension_Element”中的“PCE_HEIGHT_EXTENSION_SYNC”与“byte_alignment()”之间读取的信息之后的预定数据,以使得所读取的信息的数据量是8比特的整数倍。也就是说,进行字节读取以使得所读取的同步字、扬声器布置信息、以及所添加的数据的总数据量是8比特的整数倍。
在本示例中,音频数据的声道的数量即包括在编码比特流中的扬声器布置信息项的数量在预定范围内。因此,通过字节对齐获得的数据,即包括同步字、扬声器布置信息、以及所添加的数据的一个数据项(下文中,也称为对齐数据)当然是预定数据量。
换言之,对齐数据的量当然是预定数据量,不考虑包括在“height_extension_element”中的扬声器布置信息项的数目,即音频数据的声道的数目。因此,如果在生成对齐数据的时候对齐数据的量不是预定数据量,那么PCE解码单元161确定所读取的扬声器布置信息不是正确的扬声器布置信息,也就是说,所读取的扬声器布置信息是无效的。
在步骤S160中,标识信息计算单元172读取跟随步骤S159中所读取的“byte_alignment()”的标识信息,即存储在“height_extension_element”中的“height_info_crc_check”中的信息。此处,例如,读取CRC校验码作为标识信息。
在步骤S161中,标识信息计算单元172基于步骤S159中所获得的对齐数据来计算标识信息。例如,计算CRC校验码作为标识信息。
在步骤S162中,PCE解码单元161确定步骤S160中所读取的标识信息与步骤S161中所计算的标识信息是否一致。
当对齐数据的量不是预定数据量时,PCE解码单元161不进行步骤S160和步骤S161并且在步骤S162中确定标识信息项相互不一致。
当在步骤S162中确定标识信息项相互不一致时,在步骤S163中PCE解码单元161使所读取的扬声器布置信息无效并且将指示所读取的扬声器布置信息是无效的信息提供给重排处理单元181和缩混处理单元152。然后,处理前进至步骤S164。
当进行步骤S163中的处理或步骤S146中的处理时,在步骤S164中重排处理单元181以预定扬声器布置输出从切换单元151提供的音频数据。
在这种情况下,例如,重排处理单元181基于从PCE读取的并且从PCE解码单元161提供的关于扬声器布置的信息来确定每个音频数据项的扬声器布置。由重排处理单元181使用以确定扬声器的布置的信息参考目的地取决于使用音频数据的服务或应用并且基于音频数据的声道的数量而被预定。
当进行步骤S164中的处理时,重排处理结束。然后,图36的步骤S117中的处理结束。因此,解码处理结束。
另一方面,当在步骤S162中确定标识信息项相互一致时,在步骤S165中PCE解码单元161使所读取的扬声器布置信息有效并且将扬声器布置信息提供给重排处理单元181和缩混处理单元152。在这种情况下,PCE解码单元161还将关于从PCE读取的扬声器的布置的信息提供给重排处理单元181和缩混处理单元152。
在步骤S166中,重排处理单元181根据由例如从PCE解码单元161提供的扬声器布置信息确定的扬声器的布置来输出从切换单元151提供的音频数据。也就是说,每个声道的音频数据按由例如扬声器布置信息确定的顺序重排并且然后输出至下一级。当进行步骤S166中的处理时,重排处理结束。然后,图36所示的步骤S117中的处理结束。因此,解码处理结束。
以这种方式,解码装置141检查来自PCE的注释区域的同步字或CRC校验码,读取扬声器布置信息并且根据与扬声器布置信息对应的布置来输出解码音频数据。
因此,由于读取了扬声器布置信息并且确定了扬声器的布置(声源的位置),所以可以再现垂直方向上的声像并且获得高质量的、逼真的声音。
另外,由于使用同步字和CRC校验码读取了扬声器布置信息,所以可以从其中例如很可能存储其他文字信息的注释区域可靠地读取扬声器布置信息。也就是说,可以可靠地区分扬声器布置信息和其他信息。
具体地,解码装置141使用三个元素即同步字的一致、CRC校验码的一致、以及对齐数据的量的一致来区分扬声器布置信息和其他信息。因此,可以防止在检测扬声器布置信息中的错误。因此,由于防止了在检测扬声器布置信息中的错误,所以可以根据扬声器的正确布置再现音频数据并且获得高质量的、逼真的声音。
[缩混处理的描述]
接着,将参考图39所示的流程图来描述与图36中的步骤S118中的处理对应的缩混处理。在这种情况下,每个声道的音频数据从切换单元151被提供给缩混处理单元152中的切换单元211。
在步骤S191中,DSE解码单元162中的扩展检测单元173从DSE的“MPEG4_ancillary_data()”中的“ancillary_data_status()”读取“ancillary_data_extension_status”。
在步骤S192中,扩展检测单元173确定所读取的“ancillary_data_extension_status”是否为1。
当在步骤S192中确定“ancillary_data_extension_status”不为1,也就是说,“ancillary_data_extension_status”为0时,在步骤S193中,缩混处理单元152使用预定方法对音频数据进行缩混。
例如,缩混处理单元152使用由从缩混信息解码单元174提供的“center_mix_level_value”或“surround_mix_level_value”确定的系数对从切换单元151提供的音频数据进行缩混并且将音频数据提供给输出单元63。
当“ancillary_data_extension_status”为0时,可以由任何方法进行缩混处理。
在步骤S194中,在不对音频数据进行任何改变的情况下,输出单元63将从缩混处理单元152提供的音频数据输出至下一级。然后,缩混处理结束。以这种方式,图36中的步骤S118中的处理结束。因此,解码处理结束。
另一方面,当在步骤S192中确定“ancillary_data_extension_status”为1时,处理前进至步骤S195。
在步骤S195中,缩混信息解码单元174读取图11所示的“MPEG4_ext_ancillary_data()”的“ext_downmixing_levels()”中的信息并且将所读取的信息提供给缩混处理单元152。以这种方式,例如,读取了图13中所示的“dmix_a_idx”和“dmix_b_idx”。
当包括在“MPEG4_ext_ancillary_data()”中的图12中所示的“ext_downmixing_levels_status”为0时,不进行对dmix_a_idx”和“dmix_b_idx”的读取。
在步骤S196中,缩混信息解码单元174读取MPEG4_ext_ancillary_data()”的“ext_downmixing_global_gains()”中的信息并且将所读取的信息输出给缩混处理单元152。以这种方式,例如,读取了图15中所示的信息项,即“dmx_gain_5_sign”、“dmx_gain_5_idx”、“dmx_gain_2_sign”以及“dmx_gain_2_idx”。
当包括在“MPEG4_ext_ancillary_data()”中的图12中所示的“ext_downmixing_global_status”为0时,不进行对信息项的读取。
在步骤S197中,缩混信息解码单元174读取MPEG4_ext_ancillary_data()”的“ext_downmixing_lfe_level()”中的信息并且将所读取的信息输出给缩混处理单元152。以这种方式,例如,读取了图16中所示的“dmix_lfe_idx”。
具体地,缩混信息解码单元174读取图12中所示的“ext_downmixing_lfe_level_status”并且基于“ext_downmixing_lfe_level_status”的值读取“dmix_lfe_idx”。
也就是说,当包括在“MPEG4_ext_ancillary_data()”中的“ext_downmixing_lfe_level_status”为0时,不进行对“dmix_lfe_idx”的读取。在这种情况下,在下文将描述的音频数据从5.1声道缩混成2声道中不使用LFE声道的音频数据。也就是说,与LFE声道的音频数据乘以的系数是0。
在步骤S198中,缩混信息解码单元174从图7中所示的“MPEG4辅助数据”的“bs_info()”读取存储在“pseudo_surround_enable”中的信息并且将所读取的信息提供给缩混处理单元152。
在步骤S199中,缩混处理单元152基于从分离单元61提供的缩混形式参数来确定音频数据是否是来自2声道的输出。
例如,当缩混形式参数指示从7.1声道或6.1声道缩混成2声道或者从5.1声道缩混成2声道时,确定音频数据是来自2声道的输出。
当步骤S199中确定了音频数据是来自2声道的输出时,处理前进至步骤S200。在这种情况下,切换单元214的输出目的地被改变成切换单元216。
在步骤S200中,缩混处理单元152基于从分离单元61提供的缩混形式参数来确定音频数据的输入是否是5.1声道。例如,当缩混形式参数指示从5.1声道缩混到2声道时,确定为输入是5.1声道。
当步骤S200中确定了输入不是5.1声道时,处理前进至步骤S201并且进行从7.1声道或6.1声道缩混成2声道。
在这种情况下,切换单元211将从切换单元151提供的音频数据提供给切换单元212。切换单元212基于从PCE解码单元161提供的关于扬声器布置的信息将从切换单元211提供的音频数据提供给缩混单元213-1至213-4中的任一缩混单元。例如,当音频数据是6.1声道的数据时,将每个声道的音频数据提供给缩混单元213-1。
在步骤S201中,缩混单元213基于从“ext_downmixing_levels()”读取的并且从缩混信息解码单元174提供的“dmix_a_idx”和“dmix_b_idx”执行缩混到5.1声道。
例如,当音频数据被提供给缩混单元213-1时,缩混单元213-1参考图19中所示的表将针对“dmix_a_idx”和“dmix_b_idx”的值确定的常量分别设定为常量g1和常量g2。然后,缩混单元213-1分别使用常量g1和常量g2作为在乘法单元242和乘法单元243以及乘法单元244中使用的系数,使用表达式(6)生成5.1声道的音频数据,并且将音频数据提供给切换单元214。
类似地,当音频数据被提供给缩混单元213-2时,缩混单元213-2将针对“dmix_a_idx”和“dmix_b_idx”的值确定的常量分别设定为常量e1和常量e2。然后,缩混单元213-2分别使用常量e1和常量e2作为在乘法单元273和乘法单元274、以及乘法单元272和乘法单元275中使用的系数,使用表达式(4)生成5.1声道的音频数据,并且将所获得的5.1声道的音频数据提供给切换单元214。
当音频数据被提供给缩混单元213-3时,缩混单元213-3将针对“dmix_a_idx”和“dmix_b_idx”的值确定的常量分别设定为常量d1和常量d2。然后,缩混单元213-3分别使用常量d1和常量d2作为在乘法单元302和乘法单元303、以及乘法单元304和乘法单元305中使用的系数,使用表达式(3)生成音频数据,并且将所获得的音频数据提供给切换单元214。
当音频数据被提供给缩混单元213-4时,缩混单元213-4将针对“dmix_a_idx”和“dmix_b_idx”的值确定的常量分别设定为常量f1和常量f2。然后,缩混单元213-4分别使用常量f1和常量f2作为在乘法单元332和乘法单元333、以及乘法单元334和乘法单元335中使用的系数,使用表达式(5)生成音频数据,并且将所获得的音频数据提供给切换单元214。
当5.1声道的音频数据被提供给切换单元214时,切换单元214将从缩混单元213提供的音频数据提供给切换单元216。切换单元216基于从缩混信息解码单元174提供的“pseudo_surround_enable”的值将从切换单元214提供的音频数据提供给缩混单元217-1或缩混单元217-2。
例如,当“pseudo_surround_enable”的值为0时,音频数据被提供给缩混单元217-1。当“pseudo_surround_enable”的值为1时,音频数据被提供给缩混单元217-2。
在步骤S202中,缩混单元217进行基于从缩混信息解码单元174提供的关于缩混的信息将从切换单元216提供的音频数据缩混成2声道的处理。也就是说,缩混成2声道是基于“downmixing_levels_MPEG4()”中的信息和“ext_downmixing_lfe_level()”中的信息进行的。
例如,当音频数据被提供给缩混单元217-1时,缩混单元217-1参考图19中所示的表将针对“center_mix_level_value”和“surround_mix_level_value”的值确定的常量分别设定为常量a和常量b。另外,缩混单元217-1参考图18中所示的表将针对“dmix_lfe_idx”的值确定的常量设定为常量c。
然后,缩混单元217-1分别使用常量a、常量b和常量c作为在乘法单元363和乘法单元364、乘法单元362、以及乘法单元365中使用的系数,使用表达式(1)生成音频数据,并且将所获得的2声道的音频数据提供给增益调整单元218。
与缩混单元217-1类似,当音频数据被提供给缩混单元217-2时,缩混单元217-2确定常量a、常量b、以及常量c。然后,缩混单元217-2分别使用常量a、常量b和常量c作为在乘法单元403和乘法单元404、乘法单元402、以及乘法单元405中使用的系数,使用表达式(2)生成音频数据,并且将所获得的音频数据提供给增益调整单元218。
在步骤S203中,增益调整单元218基于从“ext_downmixing_global_gains()”读取并且从缩混信息解码单元174提供的信息对来自缩混单元217的音频数据的增益进行调整。
具体地,增益调整单元218基于从“ext_downmixing_global_gains()”读取的“dmx_gain_5_sign”、“dmx_gain_5_idx”、“dmx_gain_2_sign”及“dmx_gain_2_idx”计算表达式(11)并且计算增益值dmx_gain_7to2。然后,增益调整单元218将每个声道的音频数据乘以增益值dmx_gain_7to2并且将音频数据提供给输出单元63。
在步骤S204中,在不对音频数据进行任何改变的情况下,输出单元63将从增益调整单元218提供的音频数据输出至下一级。然后,缩混处理结束。以这种方式,图36中的步骤S118中的处理结束。因此,解码处理结束。
当音频数据从重排处理单元181输出时以及当音频数据从缩混处理单元152输出时,在没有任何改变的情况下音频数据从输出单元63输出。在输出单元63之后的级中,可以预定要使用的音频数据的两个输出中的一个输出。
当在步骤S200中确定输入是5.1声道时,处理前进至步骤S205并且进行从5.1声道缩混成2声道。
在这种情况下,切换单元211将从切换单元151提供的音频数据提供给切换单元216。切换单元216基于从缩混信息解码单元174提供的“pseudo_surround_enable”的值将从切换单元211提供的音频数据提供给缩混单元217-1或缩混单元217-2。
在步骤S205中,缩混单元217进行基于从缩混信息解码单元174提供的关于缩混的信息将从切换单元216提供的音频数据缩混成2声道的处理。另外,在步骤S205中,进行与步骤S202中的处理相同的处理。
在步骤S206中,增益调整单元218基于从“ext_downmixing_global_gains()”读取并且从缩混信息解码单元174提供的信息对从缩混单元217提供的音频数据的增益进行调整。
具体地,增益调整单元218基于从“ext_downmixing_global_gains()”读取的“dmx_gain_2_sign”及“dmx_gain_2_idx”计算表达式(9)并且将通过计算获得的音频数据提供给输出单元63。
在步骤S207中,在不对音频数据进行任何改变的情况下,输出单元63将从增益调整单元218提供的音频数据输出至下一级。然后,缩混处理结束。以这种方式,图36中的步骤S118中的处理结束。因此,解码处理结束。
当在步骤S199中确定音频数据不是来自2声道的输出,即音频数据是来自5.1声道的输出时,处理前进至步骤S208并且进行从7.1声道或6.1声道缩混成5.1声道。
在这种情况下,切换单元211将从切换单元151提供的音频数据提供给切换单元212。切换单元212基于从PCE解码单元161提供的关于扬声器布置的信息将从切换单元211提供的音频数据提供给缩混单元213-1至213-4中的任一缩混单元。另外,切换单元214的输出目的地是增益调整单元215。
在步骤S208中,缩混单元213基于从“ext_downmixing_levels()”读取的并且从缩混信息解码单元174提供的“dmix_a_idx”和“dmix_b_idx”进行缩混到5.1声道。在步骤S208中,进行与步骤S201中的处理相同的处理。
当进行缩混到5.1声道并且音频数据从缩混单元213被提供给切换单元214时,切换单元214将所提供的音频数据提供给增益调整单元215。
在步骤S209中,增益调整单元215基于从“ext_downmixing_global_gains()”读取的并且从缩混信息解码单元174提供的信息对从切换单元214提供的音频数据的增益进行调整。
具体地,增益调整单元215基于从“ext_downmixing_global_gains()”读取的“dmx_gain_5_sign”和“dmx_gain_5_idx”计算表达式(7)并且将通过计算获得的音频数据提供给输出单元63。
在步骤S210中,在不对音频数据进行任何改变的情况下,输出单元63将从增益调整单元215提供的音频数据输出至下一级。然后,缩混处理结束。以这种方式,图36中的步骤S118中的处理结束。因此,解码处理结束。
以这种方式,解码装置141基于从编码比特流中读取的信息对音频数据进行缩混。
例如,在编码比特流中,由于“pseudo_surround_enable”包括在DSE中,所以可以使用多种方法之中最适合于音频数据的方法进行从5.1声道到2声道的缩混处理。因此,在解码侧可以获得高质量的、逼真的声音。
另外,在编码比特流中,指示是否包括扩展信息的信息被存储在“ancillary_data_extension_status”中。因此,可以参考该信息来指定扩展信息是否包括在扩展区域中。当可以获得扩展信息时,可以提高对音频数据进行缩混的灵活性。因此,可以获得高质量的、逼真的声音。
可以通过硬件或者通过软件执行上述一系列的处理。在通过软件执行这一系列处理时,将形成该软件的程序安装在计算机上。此处,计算机的示例包括结合到专用硬件中的计算机和其中安装有各种程序并且能够执行各种功能的通用个人计算机。
图40是示出了执行程序以进行上述一系列处理的计算机的硬件结构的示例的框图。
在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504彼此连接。
输入/输出接口505连接到总线504。输入单元506、输出单元507、记录单元508、通信单元509、以及驱动器510都连接到输入/输出接口505。
输入单元506包括例如键盘、鼠标、麦克风、以及成像元件。输出单元507包括例如显示器和扬声器。记录单元508包括硬盘和非易失性存储器。通信单元509是例如网络接口。驱动器510驱动可移除介质511,如磁盘、光盘、磁光盘、或者半导体存储器。
在具有上述结构的计算机中,例如,CPU501通过输入/输出接口505和总线504将记录在记录单元508上的程序加载到RAM503。然后,执行上述一系列处理。
由计算机(CPU501)执行的程序可以被记录在可移除介质511上作为包封介质并且然后被提供。或者,程序可以通过有线传输介质或无线传输介质如局域网、互联网或者数字卫星广播被提供。
在计算机中,可以将可移除介质511插入驱动器510中以通过输入/输出接口505将程序安装在记录单元508中。另外,可以通过有线传输介质或无线传输介质由通信单元509接收程序并且然后将程序安装在记录单元508中。或者,可以预先将程序安装在ROM502或记录单元508中。
要由计算机执行的程序可以是用于根据在本说明书中所描述的顺序按时间序列执行操作的程序,或者可以是用于并行地执行操作或者在必要时(例如,当存在请求时)执行操作的程序。
本技术的实施例不限于上述实施例,而可以在不偏离本技术的范围和精神的情况下进行对实施例的各种修改和变化。
例如,本技术可以具有其中一个功能通过网络被多个装置共享并且由多个装置协作处理的云计算结构。
在上述实施例中,由一个装置执行上述流程图中所描述的每个步骤。然而,每个步骤可以由多个装置共享和执行。
在上述实施例中,当一个步骤包括多个处理时,包括在一个步骤中的多个处理由一个装置执行。然而,多个处理可以由多个装置共享和执行。
另外,本技术可以具有以下结构。
[1]一种解码装置,包括:
解码单元,所述解码单元对包括在编码比特流中的多个声道的音频数据进行解码;
读取单元,所述读取单元从所述编码比特流中读取指示多种缩混方法中的任一种缩混方法的缩混信息;以及
缩混处理单元,所述缩混处理单元使用由所述缩混信息指示的所述缩混方法对解码音频数据进行缩混。
[2]根据项[1]所述的解码装置,
其中,所述读取单元还从所述编码比特流中读取指示是否使用特定声道的音频数据用于缩混的信息,并且
所述缩混处理单元基于所述信息和所述缩混信息对所述解码音频数据进行缩混。
[3]根据项[1]或[2]所述的解码装置,其中,所述缩混处理单元将所述解码音频数据缩混成预定数量声道的音频数据并且基于所述缩混信息对所述预定数量声道的音频数据进行进一步缩混。
[4]根据项[1]至[3]中任一项所述的解码装置,其中,所述缩混处理单元基于增益值对音频数据的增益进行调整,所述音频数据是通过缩混至预定数量的声道并且基于所述缩混信息进行缩混而获得的,所述增益值是根据在所述缩混至预定数量的声道期间用于增益调整的增益值和在所述基于所述缩混信息进行缩混期间用于增益调整的增益值而计算的。
[5]一种解码方法,包括:
对包括在编码比特流中的多个声道的音频数据进行解码的步骤;
从所述编码比特流中读取指示多种缩混方法中的任一种缩混方法的缩混信息的步骤;以及
使用由所述缩混信息指示的所述缩混方法对解码音频数据进行缩混的步骤。
[6]一种使计算机执行下述处理的程序,所述处理包括:
对包括在编码比特流中的多个声道的音频数据进行解码的步骤;
从所述编码比特流中读取指示多种缩混方法中的任一种缩混方法的缩混信息的步骤;以及
使用由所述缩混信息指示的所述缩混方法对解码音频数据进行缩混的步骤。
[7]一种编码装置,包括:
编码单元,所述编码单元对多个声道的音频数据和指示多种缩混方法中的任一种缩混方法的缩混信息进行编码;以及
包封单元,所述包封单元将编码音频数据和编码缩混信息存储在预定区域并且生成编码比特流。
[8]根据项[7]所述的编码装置,
其中,所述编码比特流还包括指示是否使用特定声道的音频数据用于缩混的信息,并且
基于所述信息和所述缩混信息对所述音频数据进行缩混。
[9]根据项[7]或[8]所述的编码装置,
其中,所述缩混信息是用于对预定数量声道的音频数据进行缩混的信息,并且
所述编码比特流还包括用于将解码音频数据缩混成所述预定数量声道的音频数据的信息。
[10]一种编码方法,包括:
对多个声道的音频数据和指示多种缩混方法中的任一种缩混方法的缩混信息进行编码的步骤;以及
将编码音频数据和编码缩混信息存储在预定区域并且生成编码比特流的步骤。
[11]一种使计算机执行下述处理的程序,所述处理包括:
对多个声道的音频数据和指示多种缩混方法中的任一种缩混方法的缩混信息进行编码的步骤;以及
将编码音频数据和编码缩混信息存储在预定区域并且生成编码比特流的步骤。
附图标记列表
11 编码装置
21 输入单元
22 编码单元
23 包封单元
51 解码装置
61 分离单元
62 解码单元
63 输出单元
91 编码装置
101 PCE编码单元
102 DSE编码单元
103 音频元素编码单元
111 同步字编码单元
112 布置信息编码单元
113 标识信息编码单元
114 扩展信息编码单元
115 缩混信息编码单元
141 解码装置
152 缩混处理单元
161 PCE解码单元
162 DSE解码单元
163 音频元素解码单元
171 同步字检测单元
172 标识信息计算单元
173 扩展检测单元
174 缩混信息解码单元
181 重排处理单元

Claims (11)

1.一种解码装置,包括:
解码单元,所述解码单元对包括在编码比特流中的多个声道的音频数据进行解码;
读取单元,所述读取单元从所述编码比特流中读取指示多种缩混方法中的任一种缩混方法的缩混信息;以及
缩混处理单元,所述缩混处理单元使用由所述缩混信息指示的所述缩混方法对解码音频数据进行缩混。
2.根据权利要求1所述的解码装置,
其中,所述读取单元还从所述编码比特流中读取指示是否使用特定声道的音频数据用于缩混的信息,并且
所述缩混处理单元基于所述信息和所述缩混信息对所述解码音频数据进行缩混。
3.根据权利要求2所述的解码装置,其中,所述缩混处理单元将所述解码音频数据缩混成预定数量声道的音频数据并且基于所述缩混信息对所述预定数量声道的音频数据进行进一步缩混。
4.根据权利要求3所述的解码装置,其中,所述缩混处理单元基于增益值对音频数据的增益进行调整,所述音频数据是通过缩混至预定数量的声道并且基于所述缩混信息进行缩混而获得的,所述增益值是根据在所述缩混至预定数量的声道期间用于增益调整的增益值和在所述基于所述缩混信息进行缩混期间用于增益调整的增益值而计算的。
5.一种解码方法,包括:
对包括在编码比特流中的多个声道的音频数据进行解码的步骤;
从所述编码比特流中读取指示多种缩混方法中的任一种缩混方法的缩混信息的步骤;以及
使用由所述缩混信息指示的所述缩混方法对解码音频数据进行缩混的步骤。
6.一种使计算机执行下述处理的程序,所述处理包括:
对包括在编码比特流中的多个声道的音频数据进行解码的步骤;
从所述编码比特流中读取指示多种缩混方法中的任一种缩混方法的缩混信息的步骤;以及
使用由所述缩混信息指示的所述缩混方法对解码音频数据进行缩混的步骤。
7.一种编码装置,包括:
编码单元,所述编码单元对多个声道的音频数据和指示多种缩混方法中的任一种缩混方法的缩混信息进行编码;以及
包封单元,所述包封单元将编码音频数据和编码缩混信息存储在预定区域并且生成编码比特流。
8.根据权利要求7所述的编码装置,
其中,所述编码比特流还包括指示是否使用特定声道的音频数据用于缩混的信息,并且
基于所述信息和所述缩混信息对所述音频数据进行缩混。
9.根据权利要求8所述的编码装置,
其中,所述缩混信息是用于对预定数量声道的音频数据进行缩混的信息,并且
所述编码比特流还包括用于将解码音频数据缩混成所述预定数量声道的音频数据的信息。
10.一种编码方法,包括:
对多个声道的音频数据和指示多种缩混方法中的任一种缩混方法的缩混信息进行编码的步骤;以及
将编码音频数据和编码缩混信息存储在预定区域并且生成编码比特流的步骤。
11.一种使计算机执行下述处理的程序,所述处理包括:
对多个声道的音频数据和指示多种缩混方法中的任一种缩混方法的缩混信息进行编码的步骤;以及
将编码音频数据和编码缩混信息存储在预定区域并且生成编码比特流的步骤。
CN201380002773.7A 2012-07-02 2013-06-24 解码装置和方法、编码装置和方法以及程序 Expired - Fee Related CN103748629B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2012148918 2012-07-02
JP2012-148918 2012-07-02
JP2012-255464 2012-11-21
JP2012255464 2012-11-21
PCT/JP2013/067232 WO2014007096A1 (ja) 2012-07-02 2013-06-24 復号装置および方法、符号化装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
CN103748629A true CN103748629A (zh) 2014-04-23
CN103748629B CN103748629B (zh) 2017-04-05

Family

ID=49881854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380002773.7A Expired - Fee Related CN103748629B (zh) 2012-07-02 2013-06-24 解码装置和方法、编码装置和方法以及程序

Country Status (10)

Country Link
US (1) US9437198B2 (zh)
EP (1) EP2741286A4 (zh)
JP (2) JP6331095B2 (zh)
KR (1) KR20150032651A (zh)
CN (1) CN103748629B (zh)
AU (1) AU2013284704B2 (zh)
BR (1) BR112014004129A2 (zh)
CA (1) CA2843223A1 (zh)
RU (1) RU2648945C2 (zh)
WO (1) WO2014007096A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106576211A (zh) * 2014-09-01 2017-04-19 索尼半导体解决方案公司 音频处理装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP6037156B2 (ja) 2011-08-24 2016-11-30 ソニー株式会社 符号化装置および方法、並びにプログラム
CN103748628B (zh) 2012-07-02 2017-12-22 索尼公司 解码装置和方法以及编码装置和方法
TWI517142B (zh) 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
KR20150032650A (ko) 2012-07-02 2015-03-27 소니 주식회사 복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
WO2015059154A1 (en) * 2013-10-21 2015-04-30 Dolby International Ab Audio encoder and decoder
CN105849801B (zh) 2013-12-27 2020-02-14 索尼公司 解码设备和方法以及程序
KR102574478B1 (ko) 2014-04-11 2023-09-04 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN111951814A (zh) * 2014-09-04 2020-11-17 索尼公司 传输设备、传输方法、接收设备以及接收方法
KR102486338B1 (ko) 2014-10-31 2023-01-10 돌비 인터네셔널 에이비 멀티채널 오디오 신호의 파라메트릭 인코딩 및 디코딩
TWI587286B (zh) 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080114477A1 (en) * 2006-11-09 2008-05-15 David Wu Method and system for asynchronous pipeline architecture for multiple independent dual/stereo channel pcm processing
JP2008301454A (ja) * 2007-06-04 2008-12-11 Toshiba Corp オーディオデータ中継装置
CN101484935A (zh) * 2006-09-29 2009-07-15 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
JP2010217900A (ja) * 2002-09-04 2010-09-30 Microsoft Corp マルチチャネルオーディオのエンコーディングおよびデコーディング
JP2011066868A (ja) * 2009-08-18 2011-03-31 Victor Co Of Japan Ltd オーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置
CN102016981A (zh) * 2008-04-24 2011-04-13 Lg电子株式会社 用于处理音频信号的方法和设备
CN102460571A (zh) * 2009-06-10 2012-05-16 韩国电子通信研究院 多音频对象信号的编解码方法和装置及转码方法和转码器

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5859641A (ja) 1981-10-05 1983-04-08 Nec Corp デイジタル伝送装置
JP3632891B2 (ja) 1998-09-07 2005-03-23 日本ビクター株式会社 オーディオ信号の伝送方法、オーディオディスク、エンコード装置及びデコード装置
JP3011925B1 (ja) 1998-09-18 2000-02-21 日立電子サービス株式会社 ネットワーク監視支援装置
US6463410B1 (en) 1998-10-13 2002-10-08 Victor Company Of Japan, Ltd. Audio signal processing apparatus
JP3387461B2 (ja) 1998-10-13 2003-03-17 日本ビクター株式会社 記録媒体、音声復号装置
ATE376892T1 (de) 1999-09-29 2007-11-15 1 Ltd Verfahren und vorrichtung zur ausrichtung von schall mit einer gruppe von emissionswandlern
JP3694888B2 (ja) 1999-12-03 2005-09-14 ソニー株式会社 復号装置および方法、符号化装置および方法、情報処理装置および方法、並びに記録媒体
US6680753B2 (en) 2001-03-07 2004-01-20 Matsushita Electric Industrial Co., Ltd. Method and apparatus for skipping and repeating audio frames
TWI233091B (en) 2003-11-18 2005-05-21 Ali Corp Audio mixing output device and method for dynamic range control
JP5006315B2 (ja) 2005-06-30 2012-08-22 エルジー エレクトロニクス インコーポレイティド オーディオ信号のエンコーディング及びデコーディング方法及び装置
TWI462086B (zh) * 2005-09-14 2014-11-21 Lg Electronics Inc 音頻訊號之解碼方法及其裝置
CN101351839B (zh) 2005-09-14 2012-07-04 Lg电子株式会社 解码音频信号的方法和装置
JP4616155B2 (ja) * 2005-11-18 2011-01-19 シャープ株式会社 テレビジョン受信装置
JP2007142865A (ja) * 2005-11-18 2007-06-07 Sharp Corp テレビジョン受信装置
RU2406164C2 (ru) * 2006-02-07 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования/декодирования сигнала
JP4652302B2 (ja) * 2006-09-20 2011-03-16 シャープ株式会社 音声再生装置、映像音声再生装置、及びその音場モード切り替え方法
JP5174027B2 (ja) 2006-09-29 2013-04-03 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びミックス信号処理方法
WO2008150141A1 (en) 2007-06-08 2008-12-11 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP5752414B2 (ja) 2007-06-26 2015-07-22 コーニンクレッカ フィリップス エヌ ヴェ バイノーラル型オブジェクト指向オーディオデコーダ
JP4530007B2 (ja) 2007-08-02 2010-08-25 ヤマハ株式会社 音場制御装置
MX2010004138A (es) * 2007-10-17 2010-04-30 Ten Forschung Ev Fraunhofer Codificacion de audio usando conversion de estereo a multicanal.
KR101600352B1 (ko) 2008-10-30 2016-03-07 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 장치 및 방법
US8503551B2 (en) 2009-02-13 2013-08-06 Lg Electronics Inc. Apparatus for transmitting and receiving a signal and method of transmitting and receiving a signal
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101283783B1 (ko) 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
KR20150032650A (ko) 2012-07-02 2015-03-27 소니 주식회사 복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램
TWI517142B (zh) 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
CN103748628B (zh) 2012-07-02 2017-12-22 索尼公司 解码装置和方法以及编码装置和方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010217900A (ja) * 2002-09-04 2010-09-30 Microsoft Corp マルチチャネルオーディオのエンコーディングおよびデコーディング
CN101484935A (zh) * 2006-09-29 2009-07-15 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
US20080114477A1 (en) * 2006-11-09 2008-05-15 David Wu Method and system for asynchronous pipeline architecture for multiple independent dual/stereo channel pcm processing
JP2008301454A (ja) * 2007-06-04 2008-12-11 Toshiba Corp オーディオデータ中継装置
CN102016981A (zh) * 2008-04-24 2011-04-13 Lg电子株式会社 用于处理音频信号的方法和设备
CN102460571A (zh) * 2009-06-10 2012-05-16 韩国电子通信研究院 多音频对象信号的编解码方法和装置及转码方法和转码器
JP2011066868A (ja) * 2009-08-18 2011-03-31 Victor Co Of Japan Ltd オーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106576211A (zh) * 2014-09-01 2017-04-19 索尼半导体解决方案公司 音频处理装置
CN106576211B (zh) * 2014-09-01 2019-02-15 索尼半导体解决方案公司 音频处理装置

Also Published As

Publication number Publication date
CN103748629B (zh) 2017-04-05
EP2741286A1 (en) 2014-06-11
RU2014106529A (ru) 2015-08-27
JP6331095B2 (ja) 2018-05-30
JPWO2014007096A1 (ja) 2016-06-02
BR112014004129A2 (pt) 2017-06-13
RU2648945C2 (ru) 2018-03-28
CA2843223A1 (en) 2014-01-09
JP2018116313A (ja) 2018-07-26
AU2013284704A1 (en) 2014-02-13
US9437198B2 (en) 2016-09-06
AU2013284704B2 (en) 2019-01-31
US20140211948A1 (en) 2014-07-31
JP6508390B2 (ja) 2019-05-08
WO2014007096A1 (ja) 2014-01-09
KR20150032651A (ko) 2015-03-27
EP2741286A4 (en) 2015-04-08

Similar Documents

Publication Publication Date Title
JP6504419B2 (ja) テレビジョン受像機および信号処理方法、並びにプログラム
JP6508390B2 (ja) テレビジョン受像機および信号処理方法、並びにプログラム
JP6868791B2 (ja) テレビジョン受像機および信号処理方法、並びにプログラム
JP6504420B2 (ja) テレビジョン受像機および信号処理方法、並びにプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170405

Termination date: 20200624

CF01 Termination of patent right due to non-payment of annual fee