CN106663435A - 编码装置和方法、解码装置和方法、以及程序 - Google Patents
编码装置和方法、解码装置和方法、以及程序 Download PDFInfo
- Publication number
- CN106663435A CN106663435A CN201580046902.1A CN201580046902A CN106663435A CN 106663435 A CN106663435 A CN 106663435A CN 201580046902 A CN201580046902 A CN 201580046902A CN 106663435 A CN106663435 A CN 106663435A
- Authority
- CN
- China
- Prior art keywords
- dialogue
- source
- additional
- coded data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000005236 sound signal Effects 0.000 claims abstract description 89
- 230000004044 response Effects 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims description 44
- 241001269238 Data Species 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 24
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000000926 separation method Methods 0.000 abstract description 2
- 230000001360 synchronised effect Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 101100365087 Arabidopsis thaliana SCRA gene Proteins 0.000 description 2
- 101000737052 Homo sapiens Coiled-coil domain-containing protein 54 Proteins 0.000 description 2
- 101000824971 Homo sapiens Sperm surface protein Sp17 Proteins 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 2
- 102100022441 Sperm surface protein Sp17 Human genes 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 101001067830 Mus musculus Peptidyl-prolyl cis-trans isomerase A Proteins 0.000 description 1
- 101100438139 Vulpes vulpes CABYR gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本技术涉及一种使得能够减少用于解码的计算量的编码装置和方法、解码装置和方法、以及程序。分离单元将提供的比特流分离为包括对话源的通道源的编码数据、附加对话源的编码数据和对话信息的编码数据。对话信息解码单元对对话信息的编码数据进行解码。当通过解码获取的对话信息被呈现给观看者时,观看者从对话源和一些附加对话源中选择一个源。附加对话源解码单元仅对观看者选择的附加对话源的编码数据进行解码。附加对话选择单元响应于来自观看者的选择指令而输出观看者从附加对话源或对话源的音频信号中选择的音频信号。本技术适用于编码装置和解码装置。
Description
技术领域
本技术涉及一种编码装置和方法、解码装置和方法、以及程序,具体地,涉及一种能够减少用于解码音频信号的计算量的编码装置和方法、解码装置和方法、以及程序。
背景技术
作为用于对音频信号进行编码的方法,在国际标准(如运动图像专家组(MPEG)-2高级音频编码(AAC)标准、MPEG-4AAC标准或MPEG-D USAC标准)中,已知多通道编码(例如,参见非专利文献1和非专利文献2)。
引用列表
非专利文献
非专利文献1:国际标准ISO/IEC 14496-3第四版2009-09-01信息技术——视听对象的编码——第3部分:音频
非专利文献2:国际标准ISO/IEC 23003-3第一版2012-04-01信息技术——视听对象的编码——第3部分:联合语音和音频编码
发明内容
本发明要解决的问题
顺便提及,需要使用更多音频通道的编码技术,以执行比常规5.1通道环绕再现更生动的再现并且传输多个语音(对话)。
例如,假设对22个通道的音频信号以及用英语、法语、德语等的多个对话源的音频信号进行编码和传输以执行解码。
在这种情况下,通过编码获取的编码数据由22个通道源的编码数据的比特流和多个对话源的编码数据的比特流构成,并且比特流被组合以在编码数据的一个比特流中进行传输。
此外,在解码侧根据编码数据的比特流对22个通道源的编码数据和多个对话源的编码数据进行解码。从而,获取22个通道源的解码数据和多个对话源的解码数据。
然后,从解码侧的多个对话源的解码数据中仅选择期望的对话源的解码数据,并且用所选择的期望的对话源的解码数据来替换22个通道源中的对话通道源的解码数据。
另一方面,编码数据在一个比特流中进行传输,因此,尽管在解码侧最终只需要期望的对话源,但是需要对对话源的所有编码数据都进行解码,并且用于对最终不再现的对话源进行解码的处理导致浪费。
在诸如当前的AAC或USAC的音频编解码器中需要对所有通道和所有对话进行解码,因此难以减少用于解码的计算量。
本技术是根据上述情况而做出的,并且旨在减少用于解码的计算量。
问题的解决方案
本技术的第一方面的编码装置包括:通道源编码单元,其用于对包括对话源的多个通道源的音频信号进行编码以生成编码数据;附加对话源编码单元,其用于对与所述对话源不同的附加对话源的音频信号进行编码以生成编码数据;以及复用器,其用于对包括关于附加对话源的信息的对话信息、多个通道源的编码数据和附加对话源的编码数据进行复用。
附加对话源的编码数据和对话信息可以存储在通过复用获取的比特流的用户数据区中。
用户数据区可以假定为在MPEG AAC(运动图像专家组-高级音频编码)或MPEG-DUSAC(联合语音和音频编码)中定义的DSE(数据流元素)。
对话信息可以包括关于对话源的信息。
对话信息可以包括指示附加对话源的类型的信息和指示对话源的类型的信息。
对话信息可以包括指示多通道配置中的多个通道源的音频信号的通道中的对话源的通道的信息。
对话信息可以包括用于对附加对话源的音频信号进行增益校正的增益信息。
对话信息可以包括用于根据多个附加对话源对多个附加对话源的音频信号进行增益校正的校正增益信息。
本技术的第一方面的编码方法或程序包括以下步骤:对包括对话源的多个通道源的音频信号进行编码以生成编码数据;对与所述对话源不同的附加对话源的音频信号进行编码以生成编码数据;以及对包括关于附加对话源的信息的对话信息、多个通道源的编码数据和附加对话源的编码数据进行复用。
根据本技术的第一方面,对包括对话源的多个通道源的音频信号进行编码以生成编码数据,对与对话源不同的附加对话源的音频信号进行编码以生成编码数据,以及对包括关于附加对话源的信息的对话信息、多个通道源的编码数据和附加对话源的编码数据进行复用。
本技术的第二方面的解码装置包括:分离单元,其用于将编码比特流分离为包括对话源的多个通道源的编码数据、与对话源不同的一个或更多个附加对话源的编码数据以及包括关于附加对话源的信息的对话信息;以及附加对话源解码单元,其用于对从一个或更多个附加对话源的编码数据中选择的附加对话源的编码数据进行解码。
解码装置还可以设置有通道源解码单元,该通道源解码单元用于对多个通道源的编码数据进行解码。
解码装置还可以设置有对话选择单元,该对话选择单元用于用通过对所选择的附加对话源的编码数据进行解码而获取的音频信号来替换通过对对话源的编码数据进行解码而获取的音频信号并输出。
附加对话源解码单元可以对响应于对话信息的呈现而选择的附加对话源的编码数据进行解码。
本技术的第二方面的解码方法或程序包括以下步骤:将编码比特流分离为包括对话源的多个通道源的编码数据、与所述对话源不同的一个或更多个附加对话源的编码数据以及包括关于附加对话源的信息的对话信息;以及对从一个或更多个附加对话源的编码数据中选择的附加对话源的编码数据进行解码。
根据本技术的第二方面,将编码比特流分离为包括对话源的多个通道源的编码数据、与所述对话源不同的一个或更多个附加对话源的编码数据以及包括关于附加对话源的信息的对话信息,并且对从一个或更多个附加对话源的编码数据中选择的附加对话源的编码数据进行解码。
本发明的效果
根据本技术的第一方面和第二方面,可以减少用于解码的计算量。
顺便提及,本文中描述的效果不必受限制,并且可以获得本公开内容中描述的任何效果。
附图说明
图1是用于说明用于22个通道源的再现系统的图。
图2是示出了编码装置的示例性配置的图。
图3是示出了对话信息的示例性比特流语法的图。
图4是示出了附加对话源的编码数据的示例性比特流语法的图。
图5是用于说明编码处理的流程图。
图6是示出了解码装置的示例性配置的图。
图7是用于说明解码处理的流程图。
图8是示出了计算机的示例性配置的图。
具体实施方式
下面将参照附图来描述应用本技术的示例性实施方式。
<第一示例性实施方式>
<本技术的概述>
本技术涉及当多个通道源的编码数据的比特流和多个对话源的编码数据的比特流被组合以在编码数据的一个比特流中进行传输时传输添加有对话信息的比特流。
因此,可以仅对要被再现为对话通道的对话源进行解码,从而减少了用于解码的计算量。
此时,附加对话源的数量和关于附加对话源的信息被呈现给解码侧的观看者,并且从观看者接收关于是否用观看者选择的对话源替换对话通道源的指令,从而仅对要被再现为对话通道的对话源进行解码。
具体地,根据本技术,附加对话源的数量、关于附加对话源的信息和对话通道的位置以及附加对话源的增益在编码侧被编码为对话信息。然后,对话信息的编码数据被复用在附加对话源的编码数据和22个通道源的编码数据上,使得所得的比特流被输出。
此外,在解码侧分离对话信息的编码数据、附加对话源的编码数据和22个通道源的编码数据。此外,附加对话源的数量或关于附加对话源的信息被呈现给观看者,并且由观看者做出关于是否用该观看者选择的对话源替换对话通道源的指令。
当观看者做出这样的指令时,只对要被再现为对话通道的对话源进行解码,并且响应于观看者的指令在解码侧替换对话源,从而再现22个通道源。
<用于22个通道源的再现系统>
下面将描述应用本技术的更具体的示例性实施方式。另外,将在假设要再现的音频信号是多通道配置中的22个通道的信号的情况下进行描述,但是要再现的音频信号可以是任何通道的信号。
图1是示出了能够再现多通道配置中的22个通道的解码音频信号的、用于22个通道源的再现系统的图。在该示例中,对内容的视频和附于视频的22个通道的音频信号进行再现。
在图1中,用于在其上显示视频的屏幕SC11设置在观看者US11的前方,并且九个扬声器SP1至SP9布置在前方。
也就是说,扬声器SP1布置在相对于观看者US11的前方的中间层的中心,并且扬声器SP2和扬声器SP3分别布置在扬声器SP1的左侧和右侧。此外,扬声器SP4布置在图中的中间层上方的上层的中心,并且扬声器SP5和扬声器SP6分别布置在扬声器SP4的左侧和右侧。
类似地,扬声器SP7布置在图中的中间层下方的下层的中心,并且扬声器SP8和扬声器SP9分别布置在扬声器SP7的左侧和右侧。此外,扬声器SP10布置在图中的观看者US11的上方或者在天花板上。
此外,六个扬声器SP11至SP16布置在相对于观看者US11位于图中的左边的左侧。也就是说,扬声器SP11和扬声器SP12布置在左侧的中间层,扬声器SP13和扬声器SP14布置在左侧的上层,并且扬声器SP15和扬声器SP16布置在左侧的下层。
类似地,六个扬声器SP17至SP22布置在相对于观看者US11位于图中的右边的右侧。也就是说,扬声器SP17和扬声器SP18布置在右侧的中间层,扬声器SP19和扬声器SP20布置在右侧的上层,并且扬声器SP21和扬声器SP22布置在右侧的下层。
在具有22个扬声器SP1至SP22和解码装置(未示出)的用于22个通道源的再现系统中输入通道源的编码数据、附加对话源的编码数据和对话信息的编码数据。
这里将描述通道源的编码数据、附加对话源的编码数据和对话信息的编码数据。
通道源的编码数据是通过对与22个扬声器SP1至SP22相对应的多通道配置中的每个通道的音频信号进行编码而获取的数据。由每个通道的音频信号再现的语音在下面也将被称为通道源。
此外,作为对话语音的对话源包括在与各个通道相对应的通道源中。将在假设一个对话源被包括在通道源中的情况下进行描述,但是可以采用任意数量的对话源。此外,用于再现对话源的音频信号的通道在下面也将被称为对话通道。
附加对话源的编码数据是通过对作为添加对话语音的附加对话源的音频信号进行编码而获取的数据,添加对话语音是要替换对话源的候选。在用于22个通道源的再现系统中,用当再现通道源时要再现的附加对话源替换包括在通道源中的对话源。
对话信息的编码数据是通过对包括关于对话源或附加对话源的信息的对话信息进行编码而获取的数据。
当将包括通道源的编码数据、附加对话源的编码数据和对话信息的编码数据的比特流提供至用于22个通道源的再现系统时,根据需要对编码数据进行解码并且再现通道源。
例如,首先,通过解码获取的对话信息被呈现给观看者US11。观看者US11然后根据需要指示对对话源进行替换。也就是说,从对话源和一个或更多个附加对话源中选择要再现的对话源。
当在这里由观看者US11选择对话源时,例如,仅对包括该对话源的通道源的编码数据进行解码。然后,通过解码获取的各个通道源的音频信号或者各个通道的音频信号被提供至与通道相对应的扬声器,使得通道源被再现。
此时,扬声器SP1至SP22中的一个用作用于再现对话源的扬声器。在该示例中,对话源在观看者US11前方的中间层的中心处的扬声器SP1中再现。
顺便提及,可以在编码侧指定用于再现对话源的任何扬声器,但是将在假设扬声器SP1作为用于再现对话源的扬声器的情况下进行描述。
另一方面,当选择附加对话源作为要再现的对话源时,对通道源的编码数据进行解码,并且还对所选择的附加对话源的编码数据进行解码。然后,用通过解码获取的所选择的附加对话源的音频信号替换通过解码获取的通道源的音频信号中的对话源的音频信号,使得通道源被再现。
因此,在这种情况下,在扬声器SP1中再现所选择的附加对话源,并且在其中再现与剩余的扬声器SP2至SP22相对应的通道源。此外,在这种情况下,不对其他未选择的附加对话源的编码数据进行解码。
另外,本文将在假设通道源中要替换的源是对话源或对话语音的情况下进行描述,但是可以替换任何其它源(如对象源)。
<编码装置的示例性配置>
随后,将描述用于在上述用于22个通道源的再现系统中生成比特流输入的编码装置以及构成用于22个通道源的再现系统并涉及对从编码装置输出的比特流进行解码的解码装置。
首先将描述编码装置。图2是示出了应用本技术的编码装置的一个示例性实施方式的示例性配置的图。
图2的编码装置11具有通道源编码单元21、附加对话源编码单元22、对话信息编码单元23和复用器24。
通道源编码单元21对构成22个通道的每个通道源的所提供的音频信号进行编码,并且将所得到的编码数据提供至复用器24。附加对话源编码单元22对所提供的附加对话源的音频信号进行编码,并且将所得到的编码数据提供至复用器24。
对话信息编码单元23对所提供的对话信息进行编码,并且将所得到的编码数据提供至复用器24。复用器24对从通道源编码单元21、附加对话源编码单元22和对话信息编码单元23提供的编码数据进行复用以生成比特流并输出比特流。
在编码装置11中,按照例如AAC(MPEG AAC)标准或USAC(MPEG-D USAC)标准对通道源、附加对话源和对话信息进行编码。
<对话信息和附加对话源>
顺便提及,从复用器24输出的比特流是符合例如AAC标准或USAC标准的编码比特流。例如,在比特流中,对话信息的编码数据布置在通道源的编码数据之后,并且每个附加对话源的编码数据进一步布置在对话信息的编码数据之后。
此外,对话信息的编码数据存储在比特流的用户数据区中,该用户数据区能够由用户自由地限定,并且被称为在例如AAC标准或USAC标准中定义的比特流数据流元素(DSE)。类似地,在DSE将对话信息的编码数据存储在其中之后,还将每个附加对话源的编码数据存储在与附加对话源一样多的DSE中(根据需要,其在下面将被表示为DSE())。也就是说,一个附加对话源的编码数据存储在一个DSE中。
这里将描述对话信息的编码数据和附加对话源的编码数据的比特流语法的具体示例。
图3是示出了对话信息的编码数据的比特流语法的图。
在该示例中,作为指示编码对话信息的存在的同步码的dialogue_info_sync被布置在DSE的头部处作为对话信息的编码数据。
此外,作为关于包括在通道源中的对话源的信息(其将被称为主对话信息)的main_dialogue_info布置在同步码dialogue_info_sync之后。例如,主对话信息main_dialogue_info被假定为指示对话源的类型(如日语主声音(main voice)或叙述声音(narration voice))的信息。
dialogue_src_index是指示包括在通道源中的对话源的音频信号的通道或再现对话源的扬声器位置的对话位置信息。因此,对话源或附加对话源由扬声器SP1至SP22中的由对话位置信息dialogue_src_index指定的扬声器来再现。
dialogue_gain指示对话替换时附加对话源的增益值或者当附加对话源被再现时用于进行增益校正的增益信息。num_additional_dialogue是指示附加对话源的数量的附加对话数量信息。
此外,与由附加对话数量信息num_additional_dialogue指示的一样多的additional_dialogue_info[i]和additional_dialogue_gain[i]布置在附加对话数量信息num_additional_dialogue之后。
additional_dialogue_info[i]是关于第i个附加对话源的信息(其将被称为附加对话信息)。
像主对话信息一样,附加对话信息additional_dialogue_info[i]被假定为指示附加对话源的类型(如法语辅声音、用于内容说明的声音和慢速讲话叙述声音)的信息。
additional_dialogue_gain[i]指示第i个附加对话源的校正增益值。校正增益值additional_dialogue_gain[i]是用于校正附加对话源中的音量变化的增益信息。
如上所述,对话信息至少包括主对话信息、对话位置信息、附加对话源的增益值、附加对话数量信息、附加对话信息和附加对话源的校正增益值。
此外,例如,每个附加对话源的编码数据的比特流语法如图4所示。
在该示例中,指示附加对话源的编码音频信号的存在的同步码additional_dialogue_data_sync布置在DSE的头部处作为附加对话源的编码数据。
此外,布置在同步码additional_dialogue_data_sync之后的additional_dialogue_index指示用于标识存储在DSE中的附加对话源的音频信号(编码数据)的索引。此外,布置在索引之后的single_channel_element()指示按照AAC或USAC定义的单个通道的编码数据或附加对话源的编码音频信号。
<编码处理的描述>
下面将描述编码装置11的操作。
当提供有要编码的多通道配置的每个帧的音频信号时,编码装置11开始编码处理并且输出通过编码获取的比特流。下面将参照图5的流程图来描述编码装置11中的编码处理。
在步骤S11中,编码装置11确定是否存在一帧未编码数据。
在步骤S11中,当确定存在一帧编码数据时,在步骤S12中,通道源编码单元21对包括当前帧的对话通道的通道源的音频信号进行编码。也就是说,通道源编码单元21对构成22个通道的每个通道源的所提供的音频信号进行编码,并且将所得到的编码数据提供至复用器24。
在步骤S13中,对话信息编码单元23确定是否存在对话信息。例如,当从外部提供了当前帧的对话信息时,确定存在对话信息。
在步骤S13中,当确定不存在对话信息时,不执行步骤S14至步骤S26中的处理,并且处理进行至步骤S27。在这种情况下,不存在附加对话源,因此仅通道源的编码数据存储在比特流中。
相反,在步骤S13中,当确定存在对话信息时,处理进行至步骤S14。
在步骤S14中,对话信息编码单元23基于所提供的对话信息生成对话信息同步码dialogue_info_sync和主对话信息main_dialogue_info。
在步骤S15中,对话信息编码单元23基于对话信息生成对话位置信息dialogue_src_index。
在步骤S16中,对话信息编码单元23基于对话信息生成在对话替换期间的附加对话源的增益值dialogue_gain。
在步骤S17中,对话信息编码单元23基于对话信息生成指示附加对话源的数量的附加对话数量信息num_additional_dialogue。
在步骤S18中,对话信息编码单元23基于对话信息生成与附加对话数量信息num_additional_dialogue指示的数量一样多的附加对话源的附加对话信息additional_dialogue_info[i]和校正增益值additional_dialogue_gain[i]。也就是说,以i=0至num_additional_dialogue-1生成附加对话信息additional_dialogue_info[i]和校正增益值additional_dialogue_gain[i]。从而,获取每个附加对话源的编码的附加对话信息和校正增益值。另外,可以采用一个或更多个附加对话源。
在步骤S19中,对话信息编码单元23将在步骤S14至步骤S18中生成的数据存储在一个DSE()中。
也就是说,同步码dialogue_info_sync、主对话信息main_dialogue_info、对话位置信息dialogue_src_index、增益值dialogue_gain、附加对话数量信息num_additional_dialogue、附加对话信息additional_dialogue_info[i]和校正增益值additional_dialogue_gain[i]存储在DSE中。因此,根据例如图3所示的比特流语法来生成对话信息的编码数据。
对话信息编码单元23将这样获取的对话信息的编码数据提供至复用器24。
在步骤S20中,附加对话源编码单元22将指示当前附加对话源的索引i的值设置为i=0。这里,由索引i指定的附加对话源指示第i个当前附加对话源。这里,附加对话源的数量为num_additional_dialogue,因此可以处理索引i=0至num_additional_dialogue-1的附加对话源。
在步骤S21中,附加对话源编码单元22确定索引i的值是否是i<num_additional_dialogue。
也就是说,当i<num_additional_dialogue成立时,未对所有的附加对话源进行处理。在步骤S21中,当确定i<num_additional_dialogue成立时,处理进行至步骤S22。
在步骤S22中,附加对话源编码单元22生成附加对话源同步码additional_dialogue_data_sync。
在步骤S23中,附加对话源编码单元22生成索引i作为用于标识当前的附加对话源的索引additional_dialogue_index的值。也就是说,索引i的值被设置为索引additional_dialogue_index的值。
在步骤S24中,附加对话源编码单元22根据以AAC或USAC定义的single_channel_element()的比特流语法来生成第i个附加对话源的编码数据。也就是说,附加对话源编码单元22对从外部提供的第i个附加对话源的音频信号进行编码。
在步骤S25中,附加对话源编码单元22将在步骤S22至步骤S24的处理中生成的数据存储在一个DSE()中。
也就是说,同步码additional_dialogue_data_sync、索引additional_dialogue_index和附加对话源的编码音频信号存储在DSE中。因此,根据例如图4所示的比特流语法来生成附加对话源的编码数据。
在步骤S26中,附加对话源编码单元22使索引i的值递增1,然后处理返回至步骤S21,并且重复执行上述处理。
此外,在步骤S21中,当确定i<num_additional_dialogue不成立时,所有附加对话源都被编码,因此附加对话源编码单元22将通过编码获取的每个附加对话源的编码数据提供至复用器24,并且处理进行至步骤S27。
在步骤S21中,当确定i<num_additional_dialogue不成立时,或在步骤S13中,当确定不存在对话信息时,在步骤S27中,复用器24执行完成一个帧的处理。
也就是说,复用器24对从通道源编码单元21、附加对话源编码单元22和对话信息编码单元23提供的编码数据进行复用,以生成并输出一帧的比特流。
在步骤S27中,当输出了一帧的比特流时,处理返回至步骤S11,并且重复执行上述处理。然后,在步骤S11中,当确定不存在要编码的一帧数据时,编码处理结束。
如上所述,编码装置11不仅对通道源和附加对话源的音频信号进行编码,而且对包括关于通道源中的对话源和附加对话源的信息的对话信息进行编码,并且复用并输出编码数据。
以这种方式,对对话信息进行编码并且将其包括在比特流中进行传输的,因此,在解码侧可以仅对所需的附加对话源的编码数据进行解码,从而减少解码期间的计算量。
<解码装置的示例性配置>
下面将描述用于响应于从编码装置11输出的输入比特流而对包括在比特流中的编码数据进行解码的解码装置。例如,解码装置被配置为如图6所示。另外,与图1中的部分对应的部分在图6中用相同的附图标记来表示,因此根据需要将省略其描述。
图6所示的解码装置71具有分离单元81、通道源解码单元82、附加对话源解码单元83、对话信息解码单元84、呈现单元85、输入单元86、增益校正单元87、对话选择单元88、增益校正单元89和附加对话选择单元90。
分离单元81将输入比特流分离为通道源的编码数据、附加对话源的编码数据和对话信息的编码数据。分离单元81为通道源解码单元82提供通道源的编码数据,为附加对话源解码单元83提供附加对话源的编码数据,并且为对话信息解码单元84提供对话信息的编码数据。
通道源解码单元82对从分离单元81提供的每个通道源的编码数据进行解码,将所得到的对话通道的音频信号提供至附加对话选择单元90,并且将其他通道源的音频信号提供至与通道源对应的扬声器SP2至SP22。
附加对话源解码单元83仅对从分离单元81提供的附加对话源的编码数据中的、由从输入单元86提供的选择指令指示的附加对话源的编码数据进行解码,并将其提供至增益校正单元87。
对话信息解码单元84对从分离单元81提供的对话信息的编码数据进行解码,并且为呈现单元85提供所得到的对话信息。此外,对话信息解码单元84为增益校正单元89提供通过解码获取的对话信息的增益值dialogue_gain,并且为增益校正单元87提供对话信息的校正增益值additional_dialogue_gain[i]。
呈现单元84为观看者US11呈现从对话信息解码单元84提供的对话信息。输入单元86将指示响应于观看者US11的输入操作的信号或者由观看者US11选择的对话源或附加对话源的选择指令提供至附加对话源解码单元83、对话选择单元88和附加对话选择单元90。
增益校正单元87基于从对话信息解码单元84提供的校正增益值additional_dialogue_gain[i]对从附加对话源解码单元83提供的附加对话源的音频信号进行增益校正,并且将经增益校正的音频信号提供至对话选择单元88。更具体地,增益校正单元87具有与每个附加对话源对应的放大器,并且每个放大器使从附加对话源解码单元83提供的附加对话源的音频信号与对应于附加对话源的校正增益值相乘以输出。
对话选择单元88基于从输入单元86提供的选择指令来选择从增益校正单元87提供的附加对话源的音频信号中的一个音频信号,并将其提供至增益校正单元89。更特别地,对话选择单元88例如由开关构成,并且根据来自输入单元86的选择指令将开关的输出端子连接至增益校正单元87中的与附加对话源对应的放大器的输出端子中的一个输出端子。因而,仅由选择指令指示的附加对话源的音频信号从开关的输出端子输出至增益校正单元89。
增益校正单元89基于从对话信息解码单元84提供的增益值dialogue_gain对从对话选择单元88提供的附加对话源的音频信号进行增益校正,并将经增益校正的音频信号提供至附加对话选择单元90。附加对话选择单元90例如由开关构成,并且基于从输入单元86提供的选择指令来选择从通道源解码单元82提供的对话源的音频信号或者从增益校正单元89提供的附加对话源的音频信号,并将其提供至扬声器SP1。
另外,在本文中,基于以下假设进行描述:解码装置71具有分离单元81至附加对话选择单元90,但是可以仅分离单元81至对话信息解码单元84设置在解码装置71中,并且呈现单元85至附加对话选择单元90可以设置在解码装置71外部。
<解码处理的描述>
随后,将描述解码装置71的操作。
当提供有从编码装置11传输的比特流时,解码装置71开始解码处理并且再现通过解码获取的通道源。下面将参照图7的流程图来描述解码装置71中的解码处理。
在步骤S61中,分离单元81确定在所提供的比特流中是否存在一帧未处理的数据。
在步骤S61中,当确定存在一帧数据时,在步骤S62中,分离单元81确定对话信息是否包括在一帧的比特流中。
例如,当其中存储了同步码dialogue_info_sync的DSE()存在于构成比特流的DSE()中时,确定包括对话信息。
在步骤S62中,当确定不包括对话信息时,不存在对话信息,因此不执行步骤S63和步骤S64中的处理,并且处理进行至步骤S65。此时,分离单元81将通道源的编码数据从比特流中分离,并将其提供至通道源解码单元82。
相反,在步骤S62中,当确定包括对话信息时,处理进行至步骤S63。此时,分离单元81将通道源的编码数据从比特流中分离并将其提供至通道源解码单元82,并且将对话信息的编码数据从比特流中分离并将其提供至对话信息解码单元84。
在步骤S63中,对话信息解码单元84从由分离单元81提供的编码数据中获取主对话信息main_dialogue_info、对话位置信息dialogue_src_index、增益值dialogue_gain和附加对话数量信息num_additional_dialogue。此外,对话信息解码单元84将获取的增益值dialogue_gain提供至增益校正单元89。
在步骤S64中,对话信息解码单元84从由分离单元81提供的编码数据中获取与由附加对话数量信息num_additional_dialogue指示的数量一样多的附加对话信息additional_dialogue_info[i]和校正增益值additional_dialogue_gain[i]。也就是说,获取与索引i=0至num_additional_dialogue-1一样多的附加对话信息additional_dialogue_info[i]和校正增益值additional_dialogue_gain[i]。
对话信息解码单元84为增益校正单元87提供获取的校正增益值additional_dialogue_gain[i],并且处理进行至步骤S65。
通过上述步骤S63和步骤S64中的处理,例如根据图3所示的比特流语法来解码对话信息。
在步骤S62中,当确定不包括对话信息时,或者在步骤S64中,当获取了附加对话信息和校正增益值时,执行步骤S65中的处理。
在步骤S65中,通道源解码单元82对包括对话通道的通道源的每个通道进行解码。也就是说,通道源解码单元82对从分离单元81提供的通道源的编码数据进行解码,并输出所得到的每个通道源的音频信号。此时,对话源或对话通道的音频信号被提供至附加对话选择单元90,并且除了对话源以外的通道源或其他通道的音频信号被提供至与通道源对应的扬声器。
在步骤S66中,对话信息解码单元84确定是否存在对话信息。例如,当比特流中存在其中存储了同步码dialogue_info_sync的DSE()时,或者当在步骤S63和步骤S64中对对话信息进行解码时,确定存在对话信息。
在步骤S66中,当确定不存在对话信息时,不执行步骤S67至步骤S69中的处理,并且处理进行至步骤S70。
相反,在步骤S66中,当确定存在对话信息时,对话信息解码单元84为呈现单元85提供通过解码获取的对话信息,并且处理进行至步骤S67。
在步骤S67中,呈现单元85为观看者US11呈现从对话信息解码单元84提供的对话信息。
例如,至少呈现对话信息中的主对话信息、附加对话数量信息和附加对话信息。观看者US11确认所呈现的对话信息,并且从对话源和一些附加对话源中选择要再现的一个对话。观看者US11然后根据他/她的选择来操作输入单元86,并且做出对话选择指令。
在步骤S68中,输入单元86获取观看者US11的对话选择指令。输入单元86然后将取决于观看者US11的操作的选择指令提供至附加对话源解码单元83、对话选择单元88和附加对话选择单元90。
在步骤S69中,附加对话源解码单元83、对话选择单元88和附加对话选择单元90基于从输入单元86提供的选择指令来确定观看者US11选择的对话是否是包括在通道源中的对话通道的对话源的对话。
在步骤S69中,当确定对话是包括在通道源中的对话通道的对话源的对话时,或者当没有做出切换至附加对话源的指令时,处理进行至步骤S70。此时,附加对话源解码单元83不对附加对话源进行解码。
在步骤S69中,当确定对话是包括在通道源中的对话通道的对话源的对话时,或者在步骤S66中,当不存在对话信息时,执行步骤S70中的处理。
在步骤S70中,解码装置71输出包括对话通道的对话源的通道源。
也就是说,附加对话选择单元90为扬声器SP1提供从通道源解码单元82提供的对话通道的音频信号,并且基于从输入单元86提供的选择指令来再现对话源。此外,扬声器SP2至扬声器SP22基于从通道源解码单元82提供的音频信号来再现每个通道源。
当以这种方式再现了一帧的通道源时,处理返回至步骤S61,并且重复执行上述处理。
相反,在步骤S69中,当确定对话不是包括在通道源中的对话通道的对话源的对话时,或者当确定对话是附加对话源的对话时,处理进行至步骤S71。
在步骤S71中,附加对话源解码单元83基于从输入单元86提供的选择指令从分离单元81获取其中存储了所选择的附加对话源的编码数据的DSE(),并且根据例如图4所示的附加对话源的编码数据的比特流语法对附加对话源进行解码。
通过该处理,仅选择指令所指示的附加对话源的编码数据被解码。附加对话源解码单元83为增益校正单元87提供通过解码获取的附加对话源的音频信号。
在步骤S72中,增益校正单元87使从附加对话源解码单元83提供的附加对话源的音频信号与从对话信息解码单元84提供的由选择指令指示的附加对话源的校正增益值additional_dialogue_gain[i]相乘,从而进行增益校正。
增益校正单元87为对话选择单元88提供附加对话源的经增益校正的音频信号。此外,对话选择单元88基于从输入单元86提供的选择指令来切换开关的连接目的地。从而,从增益校正单元87提供的由选择指令指示的附加对话源的音频信号被提供至增益校正单元89。
在步骤S73中,增益校正单元89使从对话选择单元88提供的附加对话源的音频信号与从对话信息解码单元84提供的增益值dialogue_gain相乘以进行增益校正,并且将所得到的值提供至附加对话选择单元90。
在步骤S74中,附加对话选择单元90基于从输入单元86提供的选择指令,用从增益校正单元89提供的附加对话源的音频信号来替换从通道源解码单元82提供的对话源或对话通道的音频信号并输出。
在这种情况下,选择指令指示所选择的附加对话源,因而,附加对话选择单元90为扬声器SP1提供从增益校正单元89提供的附加对话源的音频信号,以再现附加对话源。此外,扬声器SP2至扬声器SP22基于从通道源解码单元82提供的音频信号来再现每个通道源。
从而,在扬声器SP2至扬声器SP22中再现通道源,并且在扬声器SP1中取代作为通道源的对话源而再现附加对话源。
当以这种方式再现了一帧的通道源时,处理返回至步骤S61,并且重复执行上述处理。
此外,在步骤S70或步骤S74中再现通道源之后,在步骤S61中,当确定不存在一帧数据时,解码处理结束。
如上所述,解码装置71从比特流获取对话信息的编码数据并且对该对话信息的编码数据进行解码,呈现对话信息,并且响应于观看者US11的选择指令对通道源和所需的附加对话源进行解码。
以这种方式对对话信息进行解码,使得可以呈现对话信息,并且响应于根据对话信息的呈现而做出的选择指令仅对所需的附加对话源进行解码,从而减少用于解码的计算量。
另外,基于以下假设进行了描述:要替换的通道或通过对话通道的音频信号再现对话源的扬声器位置是扬声器SP1。然而,对话信息包括对话位置信息dialogue_src_index,因此可以每帧指定作为用于再现对话源的扬声器的位置的任何扬声器位置。
在这种情况下,基于对话位置信息dialogue_src_index指定要替换的扬声器位置或要替换的通道源。然后,响应于观看者US11的选择指令,针对指定的通道源做出关于是输出通道源的音频信号还是用选择的附加源的音频信号来替换通道源的音频信号的选择。
顺便提及,上述一系列处理可以在硬件或软件中执行。当在软件中执行一系列处理时,在计算机中安装构成该软件的程序。在本文中,计算机可以是并入专用硬件中的计算机、能够通过在其中安装各种程序来执行各种功能的通用个人计算机等。
图8是示出了用于通过程序执行一系列处理的计算机的示例性硬件配置的框图。
在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503经由总线504相互连接。
总线504还与I/O接口505连接。I/O接口505与输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接。
输入单元506由键盘、鼠标、麦克风、成像装置等构成。输出单元507由显示器、扬声器等构成。记录单元508由硬盘、非易失性存储器等构成。通信单元509由网络接口等构成。驱动器510驱动可移除介质511,(如磁盘、光盘、磁光盘或半导体存储器)。
在这样配置的计算机中,CPU 501经由例如I/O接口505和总线504将记录在记录单元508中的程序加载至RAM 503中并且执行该程序,使得执行上述一系列处理。
例如,由计算机(CPU 501)执行的程序可以记录在可移除介质511中作为封装介质来提供。此外,可以经由有线或无线传输介质(如局域网、因特网或数字卫星广播)来提供程序。
在计算机中,可移除介质511安装在驱动器510上,使得程序可以经由I/O接口505安装在记录单元508中。此外,可以由通信单元509经由有线或无线传输介质接收程序并将该程序安装在记录单元508中。另外,程序可以预先安装在ROM 502或记录单元508中。
另外,由计算机执行的程序可以使得按照说明书中描述的顺序以时间序列执行使得一系列处理,或者使得并行执行或者在必要的定时(如在调用时)执行一系列处理。
此外,本技术的实施方式不限于上述实施方式,并且可以在不脱离本技术的精神的情况下进行各种改变。
例如,本技术可以采用其中经由网络在多个装置中分配和处理一个功能的云计算配置。
此外,流程图中描述的每个步骤可以在一个装置中执行,而且可以在多个装置中分配和执行。
此外,当一个步骤中包括多种处理时,该步骤中包括的多种处理可以在一个装置中执行,而且可以在多个装置中分配和执行。
此外,本技术可以采用以下配置。
[1]一种编码装置,包括:
通道源编码单元,其用于对包括对话源的多个通道源的音频信号进行编码以生成编码数据;
附加对话源编码单元,其用于对与所述对话源不同的附加对话源的音频信号进行编码以生成编码数据;以及
复用器,其用于对包括关于所述附加对话源的信息的对话信息、所述多个通道源的编码数据和所述附加对话源的编码数据进行复用。
[2]根据[1]所述的编码装置,
其中,所述附加对话源的编码数据和所述对话信息存储在通过所述复用获取的比特流的用户数据区中。
[3]根据[2]所述的编码装置,
其中,所述用户数据区是在运动图像专家组-高级音频编码MPEG AAC或MPEG-D联合语音和音频编码USAC中定义的数据流元素DSE。
[4]根据[1]至[3]中任一项所述的编码装置,
其中,所述对话信息包括关于所述对话源的信息。
[5]根据[4]所述的编码装置,
其中,所述对话信息包括指示所述附加对话源的类型的信息和指示所述对话源的类型的信息。
[6]根据[4]或[5]所述的编码装置,
其中,所述对话信息包括指示多通道配置中的所述多个通道源的音频信号的通道中的所述对话源的通道的信息。
[7]根据[1]至[6]中任一项所述的编码装置,
其中,所述对话信息包括用于对所述附加对话源的音频信号进行增益校正的增益信息。
[8]根据[1]至[7]中任一项所述的编码装置,
其中,所述对话信息包括用于根据多个所述附加对话源对所述多个附加对话源的音频信号进行增益校正的校正增益信息。
[9]一种编码方法,所述编码方法包括以下步骤:
对包括对话源的多个通道源的音频信号进行编码以生成编码数据;
对与所述对话源不同的附加对话源的音频信号进行编码以生成编码数据;以及
对包括关于所述附加对话源的信息的对话信息、所述多个通道源的编码数据和所述附加对话源的编码数据进行复用。
[10]一种程序,所述程序用于使计算机执行包括以下步骤的处理:
对包括对话源的多个通道源的音频信号进行编码以生成编码数据;
对与所述对话源不同的附加对话源的音频信号进行编码以生成编码数据;以及
对包括关于所述附加对话源的信息的对话信息、所述多个通道源的编码数据和所述附加对话源的编码数据进行复用。
[11]一种解码装置,包括:
分离单元,其用于将编码比特流分离为包括对话源的多个通道源的编码数据、与所述对话源不同的一个或更多个附加对话源的编码数据以及包括关于所述附加对话源的信息的对话信息;以及
附加对话源解码单元,其用于对从所述一个或更多个附加对话源的编码数据中选择的附加对话源的编码数据进行解码。
[12]根据[11]所述的解码装置,还包括:
通道源解码单元,其用于对所述多个通道源的编码数据进行解码。
[13]根据[11]或[12]所述的解码装置,还包括:
对话选择单元,其用于用通过对所选择的附加对话源的编码数据进行解码而获取的音频信号来替换通过对所述对话源的编码数据进行解码而获取的音频信号并输出。
[14]根据[11]至[13]中任一项所述的解码装置,
其中,所述附加对话源解码单元对响应于所述对话信息的呈现而选择的附加对话源的编码数据进行解码。
[15]一种解码方法,所述解码方法包括以下步骤:
将编码比特流分离为包括对话源的多个通道源的编码数据、与所述对话源不同的一个或更多个附加对话源的编码数据以及包括关于所述附加对话源的信息的对话信息;以及
对从所述一个或更多个附加对话源的编码数据中选择的附加对话源的编码数据进行解码。
[16]一种程序,所述程序用于使计算机执行包括以下步骤的处理:
将编码比特流分离为包括对话源的多个通道源的编码数据、与所述对话源不同的一个或更多个附加对话源的编码数据以及包括关于所述附加对话源的信息的对话信息;以及
对从所述一个或更多个附加对话源的编码数据中选择的附加对话源的编码数据进行解码。
附图标记列表
11 编码装置
21 通道源编码单元
22 附加对话源编码单元
23 对话信息编码单元
24 复用器
71 解码装置
81 分离单元
82 通道源解码单元
83 附加对话源解码单元
84 对话信息解码单元
85 呈现单元
86 输入单元
87 增益校正单元
88 对话选择单元
89 增益校正单元
90 附加对话选择单元
Claims (16)
1.一种编码装置,包括:
通道源编码单元,其用于对包括对话源的多个通道源的音频信号进行编码以生成编码数据;
附加对话源编码单元,其用于对与所述对话源不同的附加对话源的音频信号进行编码以生成编码数据;以及
复用器,其用于对包括关于所述附加对话源的信息的对话信息、所述多个通道源的编码数据和所述附加对话源的编码数据进行复用。
2.根据权利要求1所述的编码装置,
其中,所述附加对话源的编码数据和所述对话信息存储在通过所述复用获取的比特流的用户数据区中。
3.根据权利要求2所述的编码装置,
其中,所述用户数据区是在运动图像专家组-高级音频编码MPEGAAC或MPEG-D联合语音和音频编码USAC中定义的数据流元素DSE。
4.根据权利要求1所述的编码装置,
其中,所述对话信息包括关于所述对话源的信息。
5.根据权利要求4所述的编码装置,
其中,所述对话信息包括指示所述附加对话源的类型的信息和指示所述对话源的类型的信息。
6.根据权利要求4所述的编码装置,
其中,所述对话信息包括指示多通道配置中的所述多个通道源的音频信号的通道中的所述对话源的通道的信息。
7.根据权利要求1所述的编码装置,
其中,所述对话信息包括用于对所述附加对话源的音频信号进行增益校正的增益信息。
8.根据权利要求1所述的编码装置,
其中,所述对话信息包括用于根据多个所述附加对话源对所述多个附加对话源的音频信号进行增益校正的校正增益信息。
9.一种编码方法,所述编码方法包括以下步骤:
对包括对话源的多个通道源的音频信号进行编码以生成编码数据;
对与所述对话源不同的附加对话源的音频信号进行编码以生成编码数据;以及
对包括关于所述附加对话源的信息的对话信息、所述多个通道源的编码数据和所述附加对话源的编码数据进行复用。
10.一种程序,所述程序用于使计算机执行包括以下步骤的处理:
对包括对话源的多个通道源的音频信号进行编码以生成编码数据;
对与所述对话源不同的附加对话源的音频信号进行编码以生成编码数据;以及
对包括关于所述附加对话源的信息的对话信息、所述多个通道源的编码数据和所述附加对话源的编码数据进行复用。
11.一种解码装置,包括:
分离单元,其用于将编码比特流分离为包括对话源的多个通道源的编码数据、与所述对话源不同的一个或更多个附加对话源的编码数据以及包括关于所述附加对话源的信息的对话信息;以及
附加对话源解码单元,其用于对从所述一个或更多个附加对话源的编码数据中选择的附加对话源的编码数据进行解码。
12.根据权利要求11所述的解码装置,还包括:
通道源解码单元,其用于对所述多个通道源的编码数据进行解码。
13.根据权利要求11所述的解码装置,还包括:
对话选择单元,其用于用通过对所选择的附加对话源的编码数据进行解码而获取的音频信号来替换通过对所述对话源的编码数据进行解码而获取的音频信号并输出。
14.根据权利要求11所述的解码装置,
其中,所述附加对话源解码单元对响应于所述对话信息的呈现而选择的附加对话源的编码数据进行解码。
15.一种解码方法,所述解码方法包括以下步骤:
将编码比特流分离为包括对话源的多个通道源的编码数据、与所述对话源不同的一个或更多个附加对话源的编码数据以及包括关于所述附加对话源的信息的对话信息;以及
对从所述一个或更多个附加对话源的编码数据中选择的附加对话源的编码数据进行解码。
16.一种程序,所述程序用于使计算机执行包括以下步骤的处理:
将编码比特流分离为包括对话源的多个通道源的编码数据、与所述对话源不同的一个或更多个附加对话源的编码数据以及包括关于所述附加对话源的信息的对话信息;以及
对从所述一个或更多个附加对话源的编码数据中选择的附加对话源的编码数据进行解码。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014-182548 | 2014-09-08 | ||
JP2014182548 | 2014-09-08 | ||
PCT/JP2015/074132 WO2016039150A1 (ja) | 2014-09-08 | 2015-08-27 | 符号化装置および方法、復号装置および方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106663435A true CN106663435A (zh) | 2017-05-10 |
Family
ID=55458904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580046902.1A Pending CN106663435A (zh) | 2014-09-08 | 2015-08-27 | 编码装置和方法、解码装置和方法、以及程序 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10109285B2 (zh) |
EP (1) | EP3196877A4 (zh) |
JP (1) | JP6798312B2 (zh) |
CN (1) | CN106663435A (zh) |
RU (1) | RU2017106641A (zh) |
WO (1) | WO2016039150A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106663435A (zh) | 2014-09-08 | 2017-05-10 | 索尼公司 | 编码装置和方法、解码装置和方法、以及程序 |
WO2016038876A1 (ja) * | 2014-09-08 | 2016-03-17 | 日本放送協会 | 符号化装置、復号化装置及び音声信号処理装置 |
JP6436573B2 (ja) * | 2015-03-27 | 2018-12-12 | シャープ株式会社 | 受信装置、受信方法、及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101292428A (zh) * | 2005-09-14 | 2008-10-22 | Lg电子株式会社 | 用于编码/解码的方法和装置 |
US20100106509A1 (en) * | 2007-06-27 | 2010-04-29 | Osamu Shimada | Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system |
CN102985969A (zh) * | 2010-12-14 | 2013-03-20 | 松下电器产业株式会社 | 编码装置、解码装置和编码方法、解码方法 |
JP2014142475A (ja) * | 2013-01-23 | 2014-08-07 | Nippon Hoso Kyokai <Nhk> | 音響信号記述法、音響信号作成装置、音響信号再生装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09182036A (ja) * | 1995-12-25 | 1997-07-11 | Sony Corp | データ送信装置およびデータ受信装置 |
JPH1174868A (ja) * | 1996-09-02 | 1999-03-16 | Toshiba Corp | 情報伝送方法およびその方法が適用される情報伝送システムにおける符号化装置/復号化装置、並びに符号化・多重化装置/復号化・逆多重化装置 |
US20060106597A1 (en) * | 2002-09-24 | 2006-05-18 | Yaakov Stein | System and method for low bit-rate compression of combined speech and music |
US7617109B2 (en) * | 2004-07-01 | 2009-11-10 | Dolby Laboratories Licensing Corporation | Method for correcting metadata affecting the playback loudness and dynamic range of audio information |
WO2008006108A2 (en) * | 2006-07-07 | 2008-01-10 | Srs Labs, Inc. | Systems and methods for multi-dialog surround audio |
BRPI0721079A2 (pt) * | 2006-12-13 | 2014-07-01 | Panasonic Corp | Dispositivo de codificação, dispositivo de decodificação e método dos mesmos |
CN101548318B (zh) * | 2006-12-15 | 2012-07-18 | 松下电器产业株式会社 | 编码装置、解码装置以及其方法 |
KR20100007738A (ko) * | 2008-07-14 | 2010-01-22 | 한국전자통신연구원 | 음성/오디오 통합 신호의 부호화/복호화 장치 |
US9613630B2 (en) * | 2009-11-12 | 2017-04-04 | Lg Electronics Inc. | Apparatus for processing a signal and method thereof for determining an LPC coding degree based on reduction of a value of LPC residual |
JP2012010311A (ja) * | 2010-05-26 | 2012-01-12 | Sony Corp | 送信装置、送信方法、受信装置、受信方法および送受信システム |
JP5652642B2 (ja) | 2010-08-02 | 2015-01-14 | ソニー株式会社 | データ生成装置およびデータ生成方法、データ処理装置およびデータ処理方法 |
BR112013007730A2 (pt) * | 2011-08-04 | 2016-06-07 | Sony Corp | aparelho de transmissão, método de transmissão, e, aparelho de recepção |
JP2013179570A (ja) * | 2012-02-03 | 2013-09-09 | Panasonic Corp | 再生装置 |
US9761229B2 (en) * | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
IL287218B (en) * | 2013-01-21 | 2022-07-01 | Dolby Laboratories Licensing Corp | Audio encoder and decoder with program loudness and boundary metada |
RU2639663C2 (ru) * | 2013-01-28 | 2017-12-21 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Способ и устройство для нормализованного проигрывания аудио медиаданных с вложенными метаданными громкости и без них на новых медиаустройствах |
CN106663435A (zh) | 2014-09-08 | 2017-05-10 | 索尼公司 | 编码装置和方法、解码装置和方法、以及程序 |
-
2015
- 2015-08-27 CN CN201580046902.1A patent/CN106663435A/zh active Pending
- 2015-08-27 WO PCT/JP2015/074132 patent/WO2016039150A1/ja active Application Filing
- 2015-08-27 EP EP15839310.8A patent/EP3196877A4/en not_active Withdrawn
- 2015-08-27 RU RU2017106641A patent/RU2017106641A/ru not_active Application Discontinuation
- 2015-08-27 JP JP2016547351A patent/JP6798312B2/ja active Active
- 2015-08-27 US US15/508,286 patent/US10109285B2/en active Active
-
2018
- 2018-08-31 US US16/120,066 patent/US10446160B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101292428A (zh) * | 2005-09-14 | 2008-10-22 | Lg电子株式会社 | 用于编码/解码的方法和装置 |
US20100106509A1 (en) * | 2007-06-27 | 2010-04-29 | Osamu Shimada | Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system |
CN102985969A (zh) * | 2010-12-14 | 2013-03-20 | 松下电器产业株式会社 | 编码装置、解码装置和编码方法、解码方法 |
JP2014142475A (ja) * | 2013-01-23 | 2014-08-07 | Nippon Hoso Kyokai <Nhk> | 音響信号記述法、音響信号作成装置、音響信号再生装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3196877A1 (en) | 2017-07-26 |
EP3196877A4 (en) | 2018-02-28 |
RU2017106641A (ru) | 2018-09-03 |
JPWO2016039150A1 (ja) | 2017-06-22 |
US20180374490A1 (en) | 2018-12-27 |
WO2016039150A1 (ja) | 2016-03-17 |
RU2017106641A3 (zh) | 2019-03-27 |
US20170309278A1 (en) | 2017-10-26 |
JP6798312B2 (ja) | 2020-12-09 |
US10109285B2 (en) | 2018-10-23 |
US10446160B2 (en) | 2019-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6088444B2 (ja) | 3次元オーディオサウンドトラックの符号化及び復号 | |
CN105981411B (zh) | 用于高声道计数的多声道音频的基于多元组的矩阵混合 | |
CN101617360B (zh) | 用于编码和解码具有各种声道的多对象音频信号的设备和方法 | |
US20170366912A1 (en) | Ambisonic audio rendering with depth decoding | |
EP1416769B1 (en) | Object-based three-dimensional audio system and method of controlling the same | |
RU2643644C2 (ru) | Кодирование и декодирование аудиосигналов | |
CN101981617B (zh) | 多对象音频信号的附加信息比特流产生方法和装置 | |
CN104982042B (zh) | 多信道音频信号处理装置及方法 | |
CN106471574A (zh) | 信息处理装置和信息处理方法 | |
CN105323702B (zh) | 混音方法及系统 | |
JPWO2015056383A1 (ja) | オーディオエンコード装置及びオーディオデコード装置 | |
KR102172279B1 (ko) | 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법 | |
WO2019069710A1 (ja) | 符号化装置および方法、復号装置および方法、並びにプログラム | |
CN106663435A (zh) | 编码装置和方法、解码装置和方法、以及程序 | |
WO2021190039A1 (zh) | 可拆解和再编辑音频信号的处理方法及装置 | |
KR101949756B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
KR20140017344A (ko) | 오디오 신호 처리 방법 및 장치 | |
CN108206983A (zh) | 兼容现有音视频系统的三维声信号的编码器及其方法 | |
Faria et al. | An Overview of Audio Technologies, Immersion and Personalization Features envisaged for the TV3. 0 | |
KR101950455B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
KR101949755B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
KR20110102719A (ko) | 오디오 업믹싱 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20210129 |