CN112352278A - 信息处理装置和方法以及程序 - Google Patents

信息处理装置和方法以及程序 Download PDF

Info

Publication number
CN112352278A
CN112352278A CN201980042350.5A CN201980042350A CN112352278A CN 112352278 A CN112352278 A CN 112352278A CN 201980042350 A CN201980042350 A CN 201980042350A CN 112352278 A CN112352278 A CN 112352278A
Authority
CN
China
Prior art keywords
subspace
position information
information
space
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980042350.5A
Other languages
English (en)
Inventor
畠中光行
知念徹
辻实
本间弘幸
山本优树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN112352278A publication Critical patent/CN112352278A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本技术涉及一种能够减少代码量的信息处理装置和方法以及程序。信息处理装置包括:获取单元,其获取关于父空间内的子空间的位置和大小的空间信息以及指示对象在子空间内的位置的子空间内位置信息,所述子空间包括在父空间中,并且所述对象包括在子空间中;以及计算单元,其基于空间信息和子空间内位置信息,计算指示对象在父空间内的位置的父空间内位置信息。本技术可以应用于信号处理装置。

Description

信息处理装置和方法以及程序
技术领域
本技术涉及一种信息处理装置和方法以及一种程序,更具体地,涉及一种能够减少代码量的信息处理装置和方法以及程序。
背景技术
基于音频对象在作为原点的收听者位置周围空间移动的思想,为了固定视点,运动图像专家组(MPEG)-H编码标准使传统三维(3D)音频成为标准(例如,参见非专利文献1)。
另一方面,还提出了一种关于自由视点的技术,其中,收听者可以在空间中自由移动,即,收听者的视点位置(收听位置)可以自由移动。
引文列表
非专利文献
非专利文献1:ISO/IEC 23008-3信息技术-异构环境下的高效编码和媒体传输-第3部分:3D音频
发明内容
本发明要解决的问题
例如,在为了自由视点的音频再现中,在空间中存在的每个对象的位置被传输的情况下,包括在整个空间上的所有对象的位置信息被编码。即,包括在整个空间上的在坐标系中的所有对象的位置信息被编码。
然而,在整个空间中,对象的存在位置存在偏差,并且对象可能集中在空间中的特定区域。在这种情况下,当针对整个空间对对象的位置信息进行归一化和编码时,甚至需要用于表示对象实际上不存在的区域的信息量(代码量)。结果,传输的代码量增加。
针对这种情况而提出本技术,使得可以减少代码量。
问题的解决方案
根据本技术的一个方面的信息处理装置包括:获取单元,其获取有关父空间内的子空间的位置和大小的空间信息以及指示对象在子空间内的位置的子空间内位置信息,所述子空间包括在父空间中,并且所述对象包括在子空间中;以及计算单元,其基于空间信息和子空间内位置信息,计算指示对象在父空间内的位置的父空间内位置信息。
根据本技术的一个方面的信息处理方法或程序包括:获取有关父空间内的子空间的位置和大小的空间信息以及指示对象在子空间内的位置的子空间内位置信息,所述子空间包括在父空间中,并且所述对象包括在子空间中;并且基于空间信息和子空间内位置信息,计算指示对象在父空间内的位置的父空间内位置信息。
在本技术的一个方面中,获取有关父空间内包括的子空间的位置和大小的空间信息以及指示子空间中包括的对象在子空间内的位置的子空间内位置信息,并且基于空间信息和子空间内位置信息,计算指示对象在父空间内的位置的父空间内位置信息。
本发明的效果
根据本技术的一个方面,可以减少代码量。
注意,此处描述的效果不一定受到限制,并且可以是本公开中描述的任何效果。
附图说明
图1是描述父空间和子空间的示图;
图2是用于描述父空间和子空间的坐标系的示图;
图3是描述量化的示意图;
图4是示出划分索引和划分数量的示例的示图;
图5是示出子空间中位置信息的量化示例的示图;
图6是用于描述所使用的比特长度的差异的示图;
图7是示出编码器的配置示例的示图;
图8是描述编码处理的流程图;
图9是示出解码器的配置示例的示图;
图10是用于描述解码处理的流程图;
图11是示出报头信息的示例的示图;
图12是示出子空间信息的示例的示意图;
图13是示出初始量化位置信息传输请求的示例的示图;
图14是示出初始量化位置信息的示例的示图;
图15是示出额外比特信息传输请求的示例的示图;
图16是示出额外比特信息的示例的示意图;
图17是示出内容再现系统的配置示例的示图;
图18是示出绝对坐标位置信息编码器的配置示例的示图;
图19是示出服务器的配置示例的示图;
图20是示出客户端的配置示例的示图;
图21是用于描述编码处理和文件存储处理的流程图;
图22是用于描述位置信息获取处理和位置信息传输处理的流程图;
图23是用于描述额外比特信息获取处理和额外比特信息传输处理的流程图;
图24是示出子空间的示例的示意图;
图25是示出子空间的示例的示意图;
图26是示出报头信息的示例的示图;
图27是示出子空间信息的示例的示图;
图28是用于描述帧跳跃的示图;
图29是示出初始量化位置信息传输请求的示例的示图;
图30是示出初始量化位置信息的示例的示图;
图31是用于描述位置信息获取处理和位置信息传输处理的流程图;
图32是示出计算机的配置示例的示图。
具体实施方式
在下文中,将参考附图描述应用本技术的实施例。
<第一实施例>
<关于本技术>
本技术使得能够通过将存在于预定空间中的对象的位置信息转换成小于该空间的子空间中的位置信息并且量化转换后的位置信息,来减少代码量。
特别地,本技术具有以下特征T(1)至(4)。
特征T(1)
包括对象(作为要编码的目标)的存在范围的缩放空间(子空间),由整个空间(父空间)形成。
特征T(2)
在执行从父空间到子空间的缩放转换之后,执行编码和解码,并且对解码的子空间的对象的位置信息执行从子空间到父空间的逆缩放转换,以恢复父空间上的对象。
特征T(3)
多个不同的空间被设置为子空间,并且收听者选择性地接收和再现期望的子空间。
特征T(4)
解码侧基于传输的跳帧信息和插值信息,生成从当前回放位置插值到跳帧目的地之前的帧的对象的位置信息。
注意,在本技术中,作为要编码的目标的对象的位置信息不限于指示音频对象的位置的位置信息,并且可以是指示图像上或虚拟空间中的视频对象的位置的任何位置信息,例如,位置信息等。在下文中,将描述对音频对象的位置信息进行编码和解码的示例。
在下文中,将更详细地描述本技术。
首先,考虑一组对象局部集中在父空间PA11中的区域的情况,父空间PA11是三维绝对坐标系的整个空间,如图1的箭头Q11所示。注意,在图1中,每个圆圈表示一个对象(音频对象)。
在此处,父空间PA11是由绝对坐标表示的空间,并且父空间PA11中的位置由绝对坐标表示。换言之,父空间PA11是绝对坐标系的坐标空间。注意,父空间可以是不同于绝对坐标系的另一坐标系的坐标空间,例如,极坐标系统等,但是以下将通过以父空间是绝对坐标系的坐标空间的情况为例来继续描述。
例如,在表示对象在父空间PA11中的位置的情况下,通常通过三维绝对坐标来表示从父空间PA11中的三维绝对坐标系的原点O观看的对象的位置。
另一方面,在本技术中,编码侧的装置(即编码器)检测父空间PA11中对象的分布情况,并将根据检测结果把局部集中的一组对象周围的小空间设置为子空间。在该示例中,包括多个对象的缩放的小空间是子空间CA11,例如,如箭头Q12所示。
在此处,包括在父空间PA11中的子空间CA11是由绝对坐标表示的空间,并且在本技术中,子空间CA11中的位置由绝对坐标表示。换言之,子空间CA11是绝对坐标系的坐标空间。注意,子空间可以是不同于绝对坐标系的另一坐标系的坐标空间,例如,极坐标系统等,但是下文将通过以子空间是绝对坐标系的坐标空间的情况为例来继续描述。
在本技术中,对象在父空间PA11中的位置不是由父空间PA11的绝对坐标系的坐标来表示的,而是由关于子空间CA11在父空间PA11中的位置和大小的子空间信息以及对象在子空间CA11的绝对坐标系中的位置坐标来表示的。
在此处,将参考图2描述父空间PA11的坐标系和子空间CA11的坐标系。注意,在图2中,对应于图1中的部分将由相同的附图标记表示,并且将适当省略其描述。
例如,如图2中箭头Q21所示,父空间PA11是绝对坐标系的坐标空间,其使用由运动图像专家组(MPEG)-H处理的立方体的中心作为原点O,并且包括总共三个轴,x轴、y轴和z轴。
在父空间PA11中,为了表示每个轴方向上的位置,需要从0到1的归一化值来表示从原点O到终点的位置以及正负符号信息。即,指示x轴方向、y轴方向和z轴方向中的每个方向上的位置的x坐标、y坐标和z坐标分别是从-1到1的值。
在下文中,以原点O为参考的父空间PA11的绝对坐标系也将被称为xyz坐标系,并且指示xyz坐标系中的位置的坐标将被称为(x,y,z)。
此外,在父空间PA11中,例如,从x坐标为0的位置到x坐标为1的位置的实际长度(距离)是绝对距离absoluteDistance,如后所述。例如,绝对距离absoluteDistance以米为单位进行描述。
另一方面,如箭头Q22所示,在子空间CA11的绝对坐标系的坐标表示中,从便于位置信息的编码的角度来看,不使用正负号。
在此处,子空间CA11具有立方体或长方体形状。此外,子空间CA11的绝对坐标系被配置为使得子空间CA11的顶点对应于父空间PA11的位置(-1,-1,-1),并用作原点O’,并且每一侧使用从0到1的归一化值。
即,子空间CA11是绝对坐标系的坐标空间,该绝对坐标系使用图2中子空间CA11的左下顶点,作为原点O’,总共包括三个轴,一个X轴、一个Y轴和一个Z轴。
在下文中,以原点O’为参考的子空间CA11的绝对坐标系也将被称为XYZ坐标系,并且指示XYZ坐标系中的位置的坐标将被称为(X,Y,Z)。特别地,此处,X、Y和Z的坐标值是0和1之间的值。
注意,此处将描述XYZ坐标系的每个轴方向上的坐标值为0或更大的情况,但是每个轴方向上的坐标值可以是负值。此外,子空间CA11的形状不限于立方体或长方体形状,并且可以是任何形状。
在图2中所示的示例中,指示子空间CA11的原点O’在父空间PA11中的位置的xyz坐标系的坐标是(x0,y0,z0),指示子空间CA11的原点O’的对角顶点的位置的xyz坐标系的坐标是(x1,y1,z1)。
注意,指示对象在xyz坐标系中的位置(即对象在父空间内的位置)的信息在下文中也将被称为父空间内位置信息。此外,指示对象在XYZ坐标系中的位置(即对象在子空间中的位置)的信息在下文中也将被称为子空间内位置信息。
通过这种方式,例如,在对指示对象位置的位置信息进行编码的情况下,指示对象位置的输入信息是指示父空间中的位置的父空间内位置信息。因此,在本技术中,执行从父空间到子空间的坐标转换(缩放转换),即,从父空间中的位置信息到子空间中的位置信息。
现在,当指示在父空间中的第i个子空间的索引是i并且执行作为父空间中的位置信息的坐标(x,y,z)到作为第i个子空间的子空间中的位置信息的坐标(X,Y,Z)的坐标转换时,转换等式如下面的等式(1)所示。
【数学公式1】
Figure BDA0002854107760000061
在等式(1)中,0≤X≤1,0≤Y≤1,0≤Z≤1。此外,在等式(1)中,a_x[i],b_x[i],a_y[i],b_y[i],a_z[i]和b_z[i]是第i个子空间的缩放转换系数,并且在下面的等式(2)中示出。
【数学公式2】
Figure BDA0002854107760000062
注意,在等式(2)中,x0[i]、y0[i]和z0[i]分别表示第i个子空间的原点O’的位置在xyz坐标系的x坐标、y坐标和z坐标,并且对应于上述(x0,y0,z0)。此外,x1[i]、y1[i]和z1[i]分别表示xyz坐标系的x坐标、y坐标和z坐标,该坐标系指示对角顶点相对于第i个子空间的原点O’的位置,并且对应于上述(x1,y1,z1)。
因此,在此处,作为坐标转换,对坐标系的每个轴执行使用线性函数的函数转换。然后,每个轴的线性函数的倾角a_x[i]、a_y[i]和a_z[i]以及线性函数的截距b_x[i]、b_y[i]和b_z[i]用作线性函数的参数。
例如,在本技术中,这总共六个参数可以用作关于父空间中子空间的位置和大小的子空间信息。从子空间的原点O’的坐标(x0,y0,z0)和对角顶点的坐标(x1,y1,z1)获得线性函数的这些参数,因此可以说它们基本上是指示子空间在父空间中的位置和大小的信息。
注意,在希望从比特流中直接获取指示父空间中的子空间的位置的信息的情况下,代替等式(2)中所示的线性函数的参数,作为子空间信息,可以原样传输父空间中的子空间的原点O’的坐标(x0,y0,z0)和子空间的对角顶点相对于原点O’的坐标(x1,y1,z1),作为子空间信息。
然而,与成为子空间参考的顶点的原点O’的坐标(x0,y0,z0)和对角顶点的坐标(x1,y1,z1)作为子空间信息的传输相比,线性函数的参数作为子空间信息的传输可以减少解码侧的计算量。
此外,在一组对象存在于父空间的多个位置的情况下,可以为一个父空间形成多个子空间。
根据子空间归一化对象的位置信息被限制在对象(要编码的目标)存在的范围内,这与根据现有音频编码的频谱幅度应用比例因子是类似的关系。
子空间的位置、大小或形状的确定委托给编码器,但是子空间最好包括作为目标的所有对象,并且具有最小的体积。
当通过上述坐标转换获得子空间中的位置信息的坐标(X,Y,Z)时,子空间中的位置信息以预定的量化精度被量化,以成为量化的位置信息。
例如,在量化处理中,如图3所示,子空间的一侧(即一个轴方向上的一侧)从0归一化到1,并且一侧的2的幂的划分区域的中值是量化后的值。注意,在图3中,为了解释简单起见,子空间被示出为在X轴方向和Y轴方向上是二维的。
例如,子空间的每个轴方向上的范围(即每个轴的坐标范围)从0到1,但是这个范围被分成2n(在此处,0≤n),如图3中右侧所示,并且划分后的每个范围的中值是可以作为量化后的值的代表值。
当每个轴方向上的范围被划分为2n时,n(指数部分)的值在下文中将被特别称为划分索引。该划分索引指示每个轴方向上的范围被2的幂划分了多少。
例如,在图3所示的示例中,在划分索引的值为0的情况下,每个轴方向上的范围被划分为0,即基本上没有被划分,因此作为子空间中的位置信息的坐标(X,Y,Z)是(0.5,0.5,0.5)。
此外,例如,在划分索引的值为1的情况下,每个轴方向上的范围被划分为2,因此子空间中位置信息的每个轴的坐标是0.25或0.75的值。注意,在图3中,楔形标记的位置表示量化后的代表值。
在这样执行量化的情况下,2的幂越大,即由划分索引确定的划分数量越大,量化精度越高。
在此处,图4示出了在划分索引为0至10的情况下,在对应于划分索引的每个轴方向上的范围中的划分数量。在图4中,例如,在划分索引的值为0的情况下,划分数量为0,在划分索引的值为10的情况下,划分数量为512。
接下来,在下面的等式(3)中示出了用于量化具有最高精度的子空间中的位置信息的划分索引,即,用于量化具有最小量化步长的子空间中的位置信息的划分索引。然而,在此处,假设应用了在从收听者到对象的距离小于或等于最小距离MinDist时不执行量化的规则。最小距离MinDist是从收听者到对象的最小可能距离,并且最小距离MinDist被确定为使得收听者和对象不彼此重叠,例如,考虑收听者的头部尺寸。
【数学公式3】
max_exp_index_X
=INT(max({n|(1/2)^n<MinDist/absoluteDistanceX}))
max_exp_index_Y
=INT(max({n|(1/2)^n<MinDist/absoluteDistanceY}))
max_exp_index_Z
=INT(max({n|(1/2)^n<MinDist/absoluteDistanceZ}))
···(3)
注意,在等式(3)中,max_exp_index_X、max_exp_index_Y和max_exp_index_Z分别表示用于量化具有最高精度的子空间中的位置信息的X轴(X方向)、Y轴(Y方向)和Z轴(Z方向)的划分索引(以下也称为最高精度划分索引)。此外,在等式(3)中,INT()表示输出自变量的整数部分的INT函数,而“^”表示幂。
而且,在等式(3)中,absoluteDistanceX、absoluteDistanceY和absoluteDistanceZ指示子空间的X轴方向、Y轴方向和Z轴方向中的每一个的边的实际距离(绝对距离),并且这些绝对距离的单位是例如米(m)。类似地,从收听者到对象的最小距离MinDist的单位也是例如米(m),并且该最小距离MinDist是预定值,例如,一般用户的头部尺寸。
当通过等式(3)获得最高精度划分索引时,通过以下等式(4)获得子空间中XYZ坐标系的每个轴的量化步长。
【数学公式4】
Figure BDA0002854107760000081
注意,在等式(4)中,step_encX、step_encY和step_encZ表示相对于XYZ坐标系的x轴、y轴和z轴的量化步长,而“^”表示幂。
而且,通过使用以这种方式获得的量化步长计算下面的等式(5),获得Qpx_high[i]、Qpy_high[i]和Qpz_high[i],它们是通过量化在具有最高精度的子空间中的对象的子空间中的位置信息(X,Y,Z)而获得的量化位置信息的X坐标、Y坐标和Z坐标。注意,在等式(5)中,i是指示子空间的索引。
【数学公式5】
Figure BDA0002854107760000091
注意,通过量化子空间中的位置信息中,特别基于具有最高精度划分索引量化子空间中的位置信息而获得的量化位置信息在下文中将被称为最高精度量化位置信息。
此外,在此处,关于以最高量化精度确定每个轴方向上的区域划分数量的方法,已经使用了从收听者到对象的最小距离MinDist作为参考,但是也可以使用另一参考。
然而,由于存在不需要大量划分的情况,例如,子空间的绝对距离小的情况等,如果通过根据空间的绝对距离确定最高精度划分索引的上限划分索引来限制划分的数量,则可以减少不必要的比特长度。
此外,通过执行除以2的幂的划分数量而获得子空间中的位置信息的量化值(即量化的位置信息的值)。因此,通过从最高精度量化位置信息的最高有效位(MSB)侧提取所需的比特长度,可以获得具有任意量化精度的量化位置信息。
即,例如,在图5中示出在子空间中位置信息的预定轴的坐标值“0.2”以每个量化精度(即,每个划分数)被量化的情况下的量化位置信息。
在图5中,字符“划分索引”、“一个象限的一侧的划分数”和“量化步长”分别表示上述量化时的划分索引、一个轴方向上的范围内的划分数和量化步长。
此外,“量化值”、“比特表示法”和“传输比特长度”分别表示量化位置信息的一个轴方向上的坐标值(整数值)、量化位置信息的一个轴方向上的坐标值的比特表示法和量化位置信息的一个轴方向上的坐标值的比特长度。此外,“解码值”和“真值误差”分别表示通过解码量化的位置信息获得的子空间中的位置信息的一个轴方向上的坐标值以及解码后的子空间中的位置信息的一个轴方向上的坐标值和量化前的子空间中的位置信息的一个轴方向上的坐标值之间的误差。
在此处,例如,假设最高精度划分索引为“11”,当以最高精度划分索引进行量化时,量化值的比特表示法为“00110011001”。
此外,例如,当用具有比最高精度划分索引“0011001100”更小的划分索引“10”执行量化时,量化值的比特表示法是“0011001100”。
因此,可以看出,当从最高精度量化位置信息的量化值“00110011001”的最高有效位侧按由划分索引“10”指示的比特长度(10比特)提取位时,可以获得对应于划分索引“10”的量化值“0011001100”。
即,通过从最高精度量化位置信息的最高有效位侧由对应于划分索引的比特长度提取最高精度量化位置信息的位,可以获得具有任意划分索引(即任意量化精度)的量化位置信息。
如上所述,关于子空间的确定、父空间中的位置信息到子空间中的位置信息的坐标转换以及子空间中的位置信息的量化处理等处理过程,作为父空间中的位置信息的编码处理过程被执行。
接下来,将描述量化位置信息的解码。作为解码处理,执行量化的位置信息的逆量化和通过逆量化获得的子空间中的位置信息到父空间中的位置信息的逆转换。
例如,量化位置信息的X坐标、Y坐标和Z坐标分别是Qpx_dec、Qpy_dec和Qpz_dec,并且X坐标、Y坐标和Z坐标的划分索引分别是exp_index_fin_X、exp_index_fin_Y和exp_index_fin_Z。特别地,指示子空间的索引被称为i,并且子空间的划分索引exp_index_fin_X、exp_index_fin_Y和exp_index_fin_Z分别被称为划分索引exp_index_fin_X[i]、exp_index_fin_Y[i]和exp_index_fin_Z[i]。
此外,通过逆量化量化的位置信息而获得的子空间中的位置信息的X坐标、Y坐标和Z坐标(以下也称为子空间中的解码位置信息)分别是Xdec、Ydec和Zdec。
在这种情况下,在逆量化中,执行以下等式(6)的计算,使得获得子空间中的解码位置信息。注意,在等式(6)中,i是指示对象所属的子空间的索引,并且“^”指示幂。
【数学公式6】
Figure BDA0002854107760000101
因此,当对以这种方式获得的子空间中的解码位置信息的坐标(xdec,ydec,zdec)执行以下等式(7)中所示的逆缩放转换时,可以获得父空间中的原始位置信息的坐标(Xdec,Ydec,Zdec)。等式(7)的计算是上述等式(1)的逆转换。注意,在等式(7)中,i是指示对象所属的子空间的索引。
【数学公式7】
Figure BDA0002854107760000111
此外,在等式(7)中,a'_x[i],b'_x[i],a'_y[i],b'_y[i],a'_z[i]和b'_z[i]是从第i个子空间到父空间的逆缩放转换系数,并且由以下等式(8)使用a_x[i],b_x[i],a_y[i],b_y[i],a_z[i]和b_z[i]作为子空间信息来表示。
【数学公式8】
Figure BDA0002854107760000112
在上述解码处理中,获得坐标(xdec,ydec,zdec),作为指示对象在父空间内的位置的父空间中的位置信息。注意,通过解码处理获得的父空间中的位置信息在下文中将被适当地称为父空间中的解码位置信息。
通过将父空间中的位置信息转换成子空间中的位置信息,然后如在本技术中那样执行量化,与父空间中的位置信息原样量化的情况相比,量化的位置信息的代码量可以减少。换言之,可以减少对象的位置信息的传输代码量。
具体地,例如,如图6所示,认为多个对象集中并存在于父空间PA11中的部分区域中,形成子空间CA11并编码对象的位置信息。注意,在图6中,对应于图1中的部分将由相同的附图标记表示,并且将适当省略其描述。
在图6中所示的示例中,每个圆表示一个对象,作为立方体的父空间PA11的一边的长度为128m。包括在父空间PA11中的立方体的子空间CA11相对于该父空间PA11形成,并且子空间CA11的一侧的长度为10m。
在这种情况下,例如,相对于父空间中的位置信息的真值,使位置精度为0.2m或更小所需的坐标系的每个轴的编码比特长度在父空间PA11中为9比特,在子空间CA11中为5比特。即,当坐标空间的一侧为128m时,需要9比特,当坐标空间的一侧为10m时,需要5比特。
因此,由于每个坐标空间的坐标具有三个轴,例如,在父空间中的位置信息被原样量化的情况下,需要27比特,作为量化位置信息的比特长度,而在子空间中的位置信息被量化的情况下,仅需要15比特,作为量化位置信息的比特长度,以获得具有相同精度的信息。因此,在一个对象中,可以减少12比特。
然而,在子空间中的位置信息被量化的情况下,需要关于子空间CA11的位置和大小的子空间信息,并且例如当线性函数的一个参数是32比特时,子空间信息总共是32×6=192比特。此外,在子空间的位置或大小在时间方向上不改变的情况下,没有必要为每一帧传输子空间信息。
因此,子空间CA11中包含的对象数量越多,可以减少的比特长度就越大。因此,在对象数量大的情况下,在量化子空间中的位置信息的情况下,对象的位置信息可以以比原样量化父空间中的位置信息的情况下更小的代码量(比特长度)来传输。
<编码器配置示例>
因此,将描述上述本技术的更具体的实施例。
图7是示出应用本技术的编码器的实施例的配置示例的示图。
图7中所示的编码器11包括获取单元21、编码单元22和通信单元23。
获取单元21从外部装置等获取指示作为编码目标的对象的对象数量、父空间的绝对距离absoluteDistance以及每个对象在父空间内的位置信息,并将对象的数量、父空间的绝对距离absoluteDistance以及每个对象在父空间内的位置信息提供给编码单元22。
编码单元22基于从获取单元21提供的对象数量、父空间的绝对距离absoluteDistance或对象在父空间内的位置信息,对每个对象在父空间内的位置信息进行编码,并将作为编码结果获得的编码数据提供给通信单元23。
编码单元22包括子空间确定单元31、转换单元32和量化单元33。
子空间确定单元31基于每个对象在父空间内的位置信息来确定子空间。转换单元32基于子空间确定单元31对子空间的确定结果,将每个对象的父空间中的位置信息转换为子空间中的位置信息。量化单元33量化子空间中的位置信息。
通信单元23传输从编码单元22提供的编码数据。
<编码器的编码处理的描述>
接下来,将描述编码器11的操作。即,将在下文中参考图8的流程图来描述编码器11的编码处理。
在步骤S11中,获取单元21获取对象的数量、父空间的绝对距离absoluteDistance和每个对象在父空间内的位置信息,并将对象的数量、父空间的绝对距离absoluteDistance和每个对象在父空间内的位置信息提供给编码单元22。
在步骤S12中,子空间确定单元31基于从获取单元21提供的每个对象在父空间内的位置信息来确定子空间。
例如,在步骤S12中,包括存在于父空间中的所有对象并且具有最小体积的立方体区域(空间)是子空间。注意,例如,在多个对象组之间的距离为预定距离或更大的情况下等,可以为多个对象组中的每一个确定子空间。
在步骤S13中,转换单元32将从获取单元21提供的每个对象的父空间中的位置信息转换为子空间中的位置信息。
例如,在步骤S13中,执行上述等式(1)的计算,并且通过坐标转换来计算子空间中的位置信息。注意,可以由等式(2)从子空间的确定结果获得在等式(1)的计算中使用的线性函数的参数,即父空间中的子空间的原点O’的坐标和子空间的对角顶点相对于原点O’的坐标。
在步骤S14中,量化单元33确定划分索引。
例如,在步骤S14中,基于预定最小距离MinDist、子空间的确定结果、以及从绝对距离absoluteDistance获得的绝对距离absoluteDistanceX、absoluteDistanceY和absoluteDistanceZ,执行上述等式(3)的计算,从而获得最高精度的划分索引。
然后,基于最高精度划分索引来确定对应于所需量化精度的划分索引。此处,最高精度划分索引可以是用于量化的划分索引,或者具有小于最高精度划分索引的值的划分索引可以是用于量化的划分索引。
注意,可以为每个对象的子空间中的XYZ坐标系的每个轴确定划分索引。
在步骤S15中,量化单元33基于在步骤S14中确定的划分索引,通过执行类似于上述等式(4)的计算来获得量化步长。
在步骤S16中,量化单元33量化在步骤S13中获得的每个对象的子空间中的位置信息。
例如,在步骤S16中,使用在步骤S15中获得的量化步长,使得执行类似于上述等式(5)的计算,并且执行父空间中的位置信息的每个轴的坐标的量化。即,对每个轴的每个坐标分量执行量化。因此,获得每个对象的量化位置信息。
执行上述步骤S12至步骤S16的处理,作为对父空间中的位置信息进行编码的处理。注意,此处已经描述了所有对象的父空间中的位置信息被转换为子空间中的位置信息并被量化,但是只有父空间中的一些位置信息可以被转换为子空间中的位置信息并被量化,而父空间中的另一位置信息可以原样被量化。在这种情况下,例如,对于到所有其他对象的距离是预定距离或更大并且附近不存在其他对象的对象,父空间中的位置信息可以原样量化。
在步骤S17中,编码单元22生成编码数据,该编码数据包括在步骤S16中获得的量化位置信息、在步骤S11中获得的对象的数量和绝对距离absoluteDistance、从步骤S12中的子空间的确定结果获得的子空间信息和指示每个对象所属的子空间的信息(在下文中,也称为对象所属信息)以及在步骤S14中确定的划分索引。
编码单元22将获得的编码数据提供给通信单元23。
在步骤S18中,通信单元23传输从编码单元22提供的编码数据,并且编码处理结束。
以这种方式,编码器11通过坐标转换将父空间中的位置信息转换成子空间中的位置信息,并且量化子空间中的位置信息,以生成编码数据。通过这样做,与对父空间中的位置信息进行原样编码(量化)的情况相比,可以减少量化的位置信息的代码量。
<解码器的配置示例>
此外,从编码器11输出的编码数据直接或通过另一装置或记录介质提供给解码器,并由解码器解码。
在此处,将描述对编码器11输出的编码数据进行解码的解码器。图9示出了应用本技术的解码器的实施例的配置示例。
图9所示的解码器61包括获取单元71、解码单元72和输出单元73。
获取单元71通过接收由编码器11传输的编码数据、从另一装置获取编码数据或从记录介质读取编码数据来获取编码数据,并将编码数据提供给解码单元72。
解码单元72解包从获取单元71提供的编码数据,解码从编码数据提取的量化位置信息,以获得每个对象的父空间中的位置信息。解码单元72包括逆量化单元81和转换单元82。
逆量化单元81逆量化每个对象的量化位置信息,并计算子空间中的位置信息。转换单元82使用从编码数据提取的子空间信息,将子空间中的位置信息转换成父空间中的位置信息。此外,转换单元82通过将父空间中的位置信息乘以从编码数据提取的绝对距离absoluteDistance来计算父空间中的非标准化绝对对象的位置,并将计算获得的位置信息提供给输出单元73。
包括这种逆量化单元81和转换单元82的解码单元72用作计算单元,该计算单元基于空间信息和量化位置信息来计算指示对象在父空间内的位置的父空间中的位置信息,该量化位置信息是子空间中的量化位置信息。
输出单元73将从解码单元72提供的指示父空间中的对象的位置的位置信息输出到后续阶段。
<解码器的解码处理的描述>
接下来,将描述解码器61的操作。即,将在下文中参考图10的流程图来描述解码器61的解码处理。
在步骤S41,获取单元71获取编码数据,并将编码数据提供给解码单元72。解码单元72解包从获取单元71提供的编码数据,以提取每个对象的量化位置信息、对象数量、绝对距离absoluteDistance、子空间信息、对象归属信息和划分索引。
在步骤S42中,逆量化单元81通过基于量化的位置信息和划分索引计算上述等式(6)来逆量化每个对象的量化的位置信息。因此,获得子空间中的位置信息(子空间中的解码位置信息)。
在步骤S43中,转换单元82基于在步骤S42中获得的子空间中的位置信息和子空间信息对每个对象执行逆缩放转换,以将子空间中的位置信息转换成父空间中的位置信息。
例如,在步骤S43中,通过上述等式(8)从作为子空间信息的线性函数的参数获得逆缩放转换系数,并且基于逆缩放转换系数和子空间中的解码位置信息进一步执行等式(7)的计算,从而计算出父空间中的解码的位置信息。
当以这种方式获得每个对象的父空间中的解码位置信息时,转换单元82通过将父空间中的解码位置信息乘以绝对距离absoluteDistance来获得指示对象在父空间内的位置的位置信息,并将位置信息提供给输出单元73。
此时,如果需要,转换单元82还将对象的数量或对象所属信息提供给输出单元73,并且输出单元73将转换单元82提供的对象的位置信息、对象的数量或对象所属信息输出到后续阶段。
上述步骤S42和步骤S43的处理是用于解码量化的位置信息以获得父空间中的位置信息的处理。当以这种方式输出对象的位置信息时,解码处理结束。
以这种方式,解码器61逆量化所述量化位置信息,并将逆量化获得的子空间中的位置信息转换成父空间中的位置信息。通过这样做,与父空间中的位置信息被原样编码(量化)的情况相比,可以减少指示对象位置信息的代码量。
<第二实施例>
<关于内容分发>
通过这种方式,本技术也可以用于安排自由视点的内容,其至少包括音频对象的音频数据。在这种情况下,例如,作为内容的音频数据和作为内容的辅助信息的音频对象(对象)的位置信息从服务器传输到客户端。
在指示对象位置的量化位置信息作为内容的辅助信息从服务器传送到客户端的情况下,服务器可以预先保存上述最高精度的量化位置信息,作为量化位置信息。
在这种情况下,服务器可以根据客户端侧(即,收听者侧)的条件等,从最高精度的量化位置信息生成具有任意量化精度的量化位置信息,并将生成的量化位置信息提供给客户端。
例如,在对通信速度没有限制的情况下,服务器可以将具有最高量化精度的最高精度量化位置信息原样传输给客户端。另一方面,例如,在对通信速度等有限制的情况下,根据任何条件,通过向客户端传输量化精度低于最高精度的量化位置信息,可以降低量化位置信息的传输比特率。
此处提到的条件可以是基于例如收听者到父空间中的对象的实际距离、传输线路的频带情况等条件。
具体地,例如,在人类听觉中,在水平方向上,已知相对于前方对象的左右特定范围内的角度被识别为与前方角度相同的角度,并且该角度被称为感知极限角度。
因此,以收听者角度,如果在对象的某个位置满足量化步长小于对应于的感知极限角度在水平方向上的距离的时候,即使获得了具有任何量化精度的量化位置信息,在声音被定位在从量化位置信息获得的对象的位置处的情况下,收听者不会感觉到声像位置的偏差。换言之,如果量化位置信息的量化步长等于或小于由于感知极限角度引起的公差,则收听者将不会感觉到声像位置的偏差。
例如,因此,如果基于从收听者到对象的实际距离和感知极限角度来选择量化位置信息,其最大量化步长不超过对应于感知极限角度的在水平方向上的距离,则可以减少量化位置信息的代码量,并且可以减少传输比特率,而不会使收听者感觉到声像位置的偏差。
此外,例如,可以根据传输量化位置信息的传输线路的频带状态获取具有量化精度的量化位置信息。在这种情况下,例如,当传输线路的传输频带中存在裕量时,仅需要获取最高精度的量化位置信息,而当传输线路的传输频带较窄时,仅需要获取针对传输带宽确定的具有较低量化精度的量化位置信息。
此外,对于音频数据的每一帧等,需要从服务器向客户端传送客户端解码所需的信息,例如,对象的数量、绝对距离absoluteDistance等。
因此,只需要通过从服务器向客户端传输例如图11所示的报头信息来传输必要的信息,例如,对象的数量、绝对距离absoluteDistance等。
在图11中所示的示例中,报头信息包括绝对距离absoluteDistance,其指示由字符“absoluteDistance”指示的父空间的大小、由字符“ChildAreaInfo()”指示的子空间信息以及由字符“nobjs”指示的父空间中的对象的数量。
此外,在报头信息中,通过对应于对象数量的数量(即对于每个对象)存储指示对象所属的子空间的索引,作为对象所属信息。在此处,字符“ChildAreaIndexForObj[i]”表示第i个对象的对象归属信息。
而且,报头信息中包含的子空间信息“ChildAreaInfo()”部分的格式如图12所示。
在12图中所示的示例中,子空间信息包括子空间数量,其指示包含在父空间中的子空间数量,其由字符“numOfChildArea”指示。
此外,在子空间信息中,每个轴方向上的最高精度划分索引和线性函数的参数由对应于子空间数量的数字来存储。
即,字符“max_exp_index_X[i]”、“max_exp_index_Y[i]”和“max_exp_index_Z[i]”分别表示第i个子空间在X轴方向、Y轴方向和Z轴方向上的最高精度划分索引。
此外,字符“a_x[i]”、“a_y[i]”和“a_z[i]”分别是表示第i个子空间的线性函数在X轴方向、Y轴方向和Z轴方向的倾角的参数。此外,字符“b_x[i]”、“b_y[i]”和“b_z[i]”分别是表示第i个子空间的线性函数在X轴方向、Y轴方向和Z轴方向的截距的参数。线性函数的这些倾角和截距是上述等式(2)中所示的缩放转换系数。
注意,可以针对每一帧向客户端传输报头信息,或者可以在子空间的数量、位置或大小发生变化的情况下传输报头信息。此外,可以以恒定的帧间隔传输报头信息。
此外,在对象移出它所属的子空间的情况下,只需要更新对象归属信息,使该对象属于另一个现有的子空间或新的子空间。在这种情况下,包括更新的对象归属信息的报头信息从服务器传输到客户端。
而且,如果如上所述最高精度的量化位置信息保存在服务器中,则客户端可以从服务器获取具有任意量化精度的量化位置信息。
例如,即使在客户端已经获得具有预定量化精度的量化位置信息之后,也可以获得量化精度高于已经获得的量化位置信息的量化位置信息。
具体而言,首先,客户端最初从服务器获取的量化位置信息被称为初始量化位置信息。
注意,初始量化位置信息是量化精度小于或等于对应于包括在报头信息中的最高精度划分索引的最高精度的量化位置信息。因此,也可以获取最高精度的量化位置信息,作为初始量化位置信息。
客户端通过向服务器传输例如图13所示的比特流格式的初始量化位置信息传输请求,从服务器获取初始量化位置信息。
在图13中所示的示例中,在初始量化位置信息传输请求中,为每个对象在每个轴方向上存储对应于请求传输的量化精度的划分索引。
即,字符“exp_index_initial_x[i]”、“exp_index_initial_y[i]”和“exp_index_initial_z[i]”分别表示第i个对象在X轴方向、Y轴方向和Z轴方向上的划分索引。
已经接收到这样的初始量化位置信息传输请求的服务器向客户端发送量化位置信息,该量化位置信息具有与每个轴向的初始量化位置信息传输请求中包括的划分索引相对应的量化精度,作为每个对象的初始量化位置信息。
例如,在图5所示的示例中,在初始量化位置信息传输请求中包括的划分索引是“3”的情况下,对应于划分索引“3”的量化位置信息“001”作为初始量化位置信息传输到客户端。
具体地,例如,初始量化位置信息以图14所示的比特流格式从服务器传输到客户端。
在图14中所示的示例中,在比特流中,为每个对象的每个轴方向存储初始量化位置信息。
在此处,字符“Xpos_initial[i]”、“Ypos_initial[i]”和“Zpos_initial[i]”表示第i个对象在X轴方向、Y轴方向和Z轴方向中的每一个方向上的初始量化位置信息,更具体地,分别表示配置初始量化位置信息的每个轴方向上的分量的坐标值。
在客户端中,在以这种方式获取初始量化位置信息之后,在期望进一步获得量化精度高于初始量化位置信息的量化位置信息的情况下,获取额外比特信息,该额外比特信息是量化位置信息和初始量化位置信息之间的差异信息。
在客户端,通过将额外比特信息添加到初始量化位置信息的低位侧,获得量化精度高于初始量化位置信息的量化位置信息。
具体地,例如,在图5所示的示例中,假设已经获取了对应于划分索引“3”的量化位置信息“001”,作为初始量化位置信息,但是希望最终获得对应于划分索引“5”的量化位置信息“00110”。
在这种情况下,客户端获取“10”,作为额外比特信息,该“10”是初始量化位置信息“001”和期望最终获得的量化位置信息“00110”之间的差值信息。然后,客户端可以通过将新获取的额外比特信息“10”添加到已经获取的初始量化位置信息“001”的低位侧,来获得具有最终期望获得的量化精度的量化位置信息“00110”。
在客户端从服务器获取额外比特信息的情况下,客户端根据情况或传输频带等情况在获取额外比特信息时选择一个请求模式。然后,客户端以根据所选择的请求模式的格式,传输额外比特信息传输请求,用于请求服务器向服务器传输额外比特信息。
在此处,例如,图15所示的额外比特信息传输请求被传输到服务器。
在图15中所示的示例中,额外比特信息传输请求包括指示由字符“request_mode”指示的请求模式的信息。例如,有三种请求模式:公共模式、子空间公共模式和单独模式。
公共模式是一种为所有对象的每个轴方向请求额外比特信息的模式,以便为每个轴方向另外获取的额外比特信息的比特长度在所有对象中彼此相同。例如,在公共模式下,可选择在每个轴方向增加比特长度,即额外增加量化精度。
此外,子空间公共模式是一种用于为一个或多个期望的子空间请求属于子空间的所有对象的每个轴方向的额外比特信息的模式,使得在属于同一子空间的所有对象中,为每个轴方向额外获取的额外比特信息的比特长度彼此相同。例如,即使在子空间公共模式下,也可以选择为每个轴方向增加的比特长度。注意,在子空间公共模式中,存在请求额外比特信息的子空间和不请求额外比特信息的子空间。
而且,单独模式是为每个对象单独请求额外比特信息的模式。在单独模式中,可以选择是否为每个对象请求额外比特信息,并且可以请求额外比特信息,以便为每个对象的每个轴方向获得具有期望量化精度的量化位置信息。
在图15中,例如,在由字符“request_mode”指示的请求模式表示公共模式的情况下,如字符“情况0”的一部分所示,在额外比特信息传输请求中,存储由字符“addbit_x”、“addbit_y”和“addbit_z”指示的并表示在X轴方向、Y轴方向和Z轴方向中的每一个方向上的额外比特长度的信息。
例如,如果指示额外比特长度的信息是表示3比特的信息,则传输添加3比特的额外比特信息到初始量化位置信息,作为额外比特信息。
此外,在由字符“request_mode”指示的请求模式表示子空间公共模式的情况下,如字符“情况1”的一部分所示,在额外比特信息传输请求中,存储由字符“num_of_addprec_childArea”指示的并且表示请求额外比特信息的子空间的数量信息。
在这种情况下,此外,在额外比特信息传输请求中,由字符“addprec_childArea_index[i]”指示并表示请求额外比特信息的子空间的索引和表示子空间中每个轴方向上的额外比特长度的“addbit_x[i]”、“addbit_y[i]”和“addbit_z[i]”,由请求额外比特信息的子空间的数量来存储。特别地,在此处,字符“addbit_x[i]”、“addbit_y[i]”和“addbit_z[i]”是分别指示在X轴方向、Y轴方向和Z轴方向中的每一个方向上的额外比特长度的信息。
然而,在由字符“request_mode”指示的请求模式表示单独模式的情况下,如字符“情况2”的一部分所示,在额外比特信息传输请求中,存储由字符“num_of_addprec_objects”指示并且表示请求额外比特信息的对象的数量的信息。
在这种情况下,此外,在额外比特信息传输请求中,由字符“addprec_object_index[i]”指示并表示请求额外比特信息的对象的索引和表示在对象的每个轴方向上的额外比特长度的“addbit_x[i]”、“addbit_y[i]”和“addbit_z[i]”由请求额外比特信息的对象的数量来存储。特别地,在此处,字符“addbit_x[i]”、“addbit_y[i]”和“addbit_z[i]”是分别指示在X轴方向、Y轴方向和Z轴方向中的每一个方向上的额外比特长度的信息。
当服务器接收到图15所示的这样的额外比特信息传输请求时,服务器以图16所示的比特流格式将额外比特信息传输给客户端。
在图16中所示的示例中,在请求模式是公共模式的情况下,如字符“情况0”的一部分所示,在比特流中,存储由字符“Xpos_add[i]”、“Ypos_add[i]”和“Zpos_add[i]”指示的第i个对象在X轴方向、Y轴方向和Z轴方向中的每一个方向上的额外比特信息。
此外,在请求模式是子空间公共模式的情况下,如字符“情况1”的一部分所示,在比特流中,对于请求额外比特信息的每个子空间,存储属于子空间的每个对象的额外比特信息。具体地,存储由字符“Xpos_add[j]”、“Ypos_add[j]”和“Zpos_add[j]”指示的子空间中的第j个对象在X轴方向、Y轴方向和Z轴方向中的每一个方向上的额外比特信息。
而且,在请求模式是单独模式的情况下,如字符“情况2”的一部分所示,在比特流中,为请求额外比特信息的每个对象存储对象的额外比特信息。具体地,存储由字符Xpos_add[addprec_object_index[i]]、“Ypos_add[addprec_object_index[i]]”和“Zpos_add[addprec_object_index[i]]”指示的对象在X轴方向、Y轴方向和Z轴方向中的每一个方向上的额外比特信息。
通过这样获取额外比特信息,与从开始获取最高精度量化位置信息的情况相比,使得能够以更小的传输量获得具有足够量化精度的量化位置信息。
<内容再现系统的配置示例>
接下来,将描述如上所述的内容再现系统,其中,客户端从服务器获取内容或量化的位置信息并再现内容。
例如,如图17所示,配置内容再现系统。
图17所示的内容再现系统包括绝对坐标位置信息编码器111、服务器112、收听者位置获取装置113、客户端114和MPEG-H渲染器115。在该内容再现系统中,客户端114计算极坐标表示的极坐标位置信息,该极坐标表示指示从收听者U12观看的对象的位置。
即,在内容的分发侧,用户U11向绝对坐标位置信息编码器111输入父空间中的位置信息等,指示父空间中每个对象的位置。
如上所述,父空间中的该位置信息是由三维绝对坐标系(正交坐标系)(即xyz坐标系)的坐标表示的绝对坐标信息。
绝对坐标位置信息编码器111对用户U11输入的父空间中的位置信息进行编码,并将作为编码结果获得的编码数据文件传输到服务器112。
服务器112是包括记录单元121的信息处理装置,并且将从绝对坐标位置信息编码器111接收的编码数据文件记录在记录单元121中。在此处,编码数据文件包括每个对象的最高精度量化位置信息。
服务器112从记录在记录单元121中的最高精度量化位置信息生成初始量化位置信息或额外比特信息,并将初始量化位置信息或额外比特信息传输到客户端114。
在客户端114侧,收听者位置获取装置113获取指示收听者U12在父空间中的位置的收听者位置信息,并将收听者位置信息提供给客户端114。收听者位置获取装置113包括例如诸如全球定位系统(GPS)和陀螺仪传感器等距离测量装置、获取作为父空间的虚拟空间中的收听者U12的虚拟位置信息的输入装置等。
客户端114是包括绝对坐标位置信息解码器131和坐标转换单元132的信息处理装置,并且从服务器112获取初始量化位置信息或额外比特信息。
绝对坐标位置信息解码器131对从服务器112获取的初始量化位置信息或从初始量化位置信息和额外比特信息获得的量化位置信息进行解码。
坐标转换单元132将指示通过解码量化的位置信息获得的对象在父空间内的位置的信息转换成指示从收听者U12观看的对象在父空间中的相对位置的极坐标,并将转换后的极坐标作为极坐标位置信息。
坐标转换单元132将每个对象的极坐标位置信息提供给MPEG-H渲染器115,并且MPEG-H渲染器115基于所提供的极坐标位置信息和从服务器112获取的每个对象的音频数据来执行渲染。
然后,MPEG-H渲染器115将再现的音频数据输出到诸如扬声器等再现系统,以再现声音,通过渲染获得该再现的音频数据,并且其中,对象的声音镜像位于父空间中的每个位置。注意,MPEG-H渲染器115是由MPEG-H标准化的极坐标系统的渲染器。
在上述内容再现系统中,指示在服务器112和客户端114之间交换的对象的位置信息是量化的位置信息,该信息是绝对坐标。因此,有一个优点,即不需要考虑收听者U12在父空间中的位置,并且只需要针对移动对象向客户端114传输量化的位置信息。
<绝对坐标位置信息编码器的配置示例>
接下来,将描述图17所示的绝对坐标位置信息编码器111、服务器112和客户端114的更详细的配置示例。
首先,将描述绝对坐标位置信息编码器111的配置示例。
绝对坐标位置信息编码器111如图18所示配置。
图18所示的绝对坐标位置信息编码器111包括获取单元161、编码单元162和通信单元163。
获取单元161从外部装置等获取作为要编码的目标的对象的对象数量、父空间的绝对距离absoluteDistance以及每个对象在父空间内的位置信息,并将对象的数量、父空间的绝对距离absoluteDistance以及每个对象在父空间内的位置信息提供给编码单元162。
编码单元162基于从获取单元161提供的对象的数量、父空间的绝对距离absoluteDistance或在对象的父空间中的位置信息,对每个对象的父空间中的位置信息进行编码,并将作为编码结果获得的编码数据文件提供给通信单元163。
编码单元162包括子空间确定单元171、转换单元172和量化单元173。注意,子空间确定单元171至量化单元173对应于图7所示的子空间确定单元31至量化单元33,并且执行与子空间确定单元31至量化单元33相同的操作,因此将省略其描述。
通信单元163传输从编码单元162提供的编码数据文件。
<服务器的配置示例>
此外,如图19所示配置服务器112。注意,在图19中,对应于图17中的部分将由相同的附图标记表示,并且将适当省略其描述。
图19中所示的服务器112包括通信单元201、控制单元202和记录单元121。
通信单元201将从控制单元202提供的各种信息传输到客户端114,或者接收从绝对坐标位置信息编码器111或客户端114传输的各种信息,并将各种信息提供给控制单元202。
控制单元202控制服务器112的整个操作。控制单元202包括通信控制单元211和传输信息生成单元212。
通信控制单元211通过控制通信单元201来控制通信单元201与绝对坐标位置信息编码器111或客户端114的通信。如果需要,传输信息生成单元212使用诸如记录在记录单元121中的编码数据文件等信息来生成要传输到客户端114的各种信息。
<客户端的配置示例>
此外,如图20所示配置客户端114。注意,在图20中,对应于图17中的部分将由相同的附图标记表示,并且将适当省略其描述。
图20中所示的客户端114包括通信单元241、控制单元242和输出单元243。
通信单元241将从控制单元242提供的各种信息传输到服务器112,或者接收从服务器112传输的各种信息,并将各种信息提供给控制单元242。
控制单元242控制客户端114的整个操作。控制单元242包括通信控制单元251、绝对坐标位置信息解码器131和坐标转换单元132。
通信控制单元251通过控制通信单元241来控制通信单元241与服务器112的通信。例如,通信控制单元251用作通过控制通信单元241从服务器112获取初始量化位置信息或额外比特信息的获取单元。
绝对坐标位置信息解码器131用作计算单元,其通过基于量化的位置信息和额外比特信息计算父空间中指示对象在父空间中的绝对位置的位置信息,来执行对父空间中的编码位置信息的解码。
输出单元243将通过坐标转换单元132的坐标转换获得的每个对象的极坐标位置信息输出到MPEG-H渲染器115。
<编码处理和文件存储处理的描述>
接下来,将描述在内容再现系统中执行的具体处理。
首先,将参考图21的流程图描述绝对坐标位置信息编码器111的编码处理和服务器112的文件存储处理。
当绝对坐标位置信息编码器111开始编码处理时,在步骤S71中,获取单元161获取用户U11输入的对象的数量、父空间的绝对距离absoluteDistance和每个对象在父空间内的位置信息,并将对象的数量、父空间的绝对距离absoluteDistance和每个对象在父空间内的位置信息提供给编码单元162。
在步骤S72中,子空间确定单元171基于从获取单元161提供的每个对象在父空间内的位置信息来确定子空间。在步骤S72中,执行类似于图8的步骤S12的处理,从而确定子空间。
在步骤S73中,转换单元172将从获取单元161提供的每个对象的父空间中的位置信息转换为子空间中的位置信息。在步骤S73中,执行类似于图8的步骤S13的处理。
在步骤S74中,量化单元173确定最高精度划分索引。
例如,在步骤S74中,基于预定最小距离MinDist、子空间的确定结果以及从绝对距离absoluteDistance获得的绝对距离absoluteDistanceX、absoluteDistanceY和absoluteDistanceZ来执行上述等式(3)的计算,从而获得最高精度划分索引。
在步骤S75中,量化单元173基于在步骤S74中确定的最高精度划分索引,通过执行上述等式(4)的计算来获得量化步长。
在步骤S76中,量化单元173量化在步骤S73中获得的每个对象的子空间中的位置信息。
例如,在步骤S76中,使用在步骤S75中获得的量化步长,使得执行上述等式(5)的计算,执行父空间中位置信息在每个轴方向的坐标的量化,并且获得每个对象的最高精度量化位置信息。
在上述步骤S72至步骤S76的处理中,编码父空间中的位置信息。
在步骤S77中,编码单元162生成编码数据文件,该编码数据文件包括在步骤S71中获取的最高精度量化位置信息、对象数量和绝对距离absoluteDistance以及在步骤S72中从子空间的确定结果获得的子空间信息和对象所属信息,并将编码数据文件提供给通信单元163。
在此处,例如,子空间信息包括指示包括在父空间中的子空间的数量、每个子空间中的最高精度划分索引以及每个子空间的坐标转换的线性函数的参数的信息。
在步骤S78中,通信单元163通过无线或有线通信等将从编码单元162提供的编码数据文件传输到服务器112,并且编码处理结束。
注意,当编码数据文件被正确地存储在服务器112中时,如稍后所述,从服务器112传输指示编码数据文件已经被正确地存储在服务器112中的存储完成通知,因此,绝对坐标位置信息编码器111接收所传输的存储完成通知并适当地显示存储完成通知。
此外,当传输编码数据文件时,在服务器112中开始文件存储处理。
即,在步骤S101中,服务器112的通信单元201在通信控制单元211的控制下接收从绝对坐标位置信息编码器111传输的编码数据文件,并将编码数据文件提供给控制单元202。
在步骤S102中,控制单元202将从通信单元201提供的编码数据文件提供给记录单元121,并执行控制,以存储编码数据文件。因此,最高精度的量化位置信息等被存储(记录)在记录单元121中。
此后,通信控制单元211控制通信单元201向绝对坐标位置信息编码器111传输指示编码数据文件已经被正确存储的存储完成通知,并且文件存储处理结束。
以这种方式,绝对坐标位置信息编码器111通过坐标转换将父空间中的位置信息转换为子空间中的位置信息,并且量化子空间中的位置信息,以生成编码数据文件。通过这样做,与对父空间中的位置信息进行原样编码(量化)的情况相比,可以减少量化的位置信息的代码量。
此外,服务器112接收并存储从绝对坐标位置信息编码器111传输的编码数据文件。因此,可以根据客户端114的请求,从最高精度的量化位置信息生成具有任意量化精度的量化位置信息,并将生成的量化位置信息传输到客户端114。
结果,通过使客户端114获得每个对象的极坐标位置信息,可以减少诸如服务器112或绝对坐标位置信息编码器111等内容分发侧的处理负荷,并减少信息的传输量。
<位置信息获取处理和位置信息传输处理的描述>
当编码数据文件存储在服务器112中时,客户端114可以从服务器112接收内容的每个对象的量化位置信息。
在下文中,将描述客户端114从服务器112获取初始量化位置信息时的执行处理。即,下面将参考图22的流程图描述客户端114的位置信息获取处理和服务器112的位置信息传输处理。
当客户端114开始位置信息获取处理时,在步骤S131中,通信单元241在通信控制单元251的控制下向服务器112传输报头信息传输请求。
当传输报头信息传输请求时,在服务器112中开始位置信息传输处理。即,在步骤S161中,通信单元201在通信控制单元211的控制下接收从客户端114传输的报头信息传输请求,并将报头信息传输请求提供给控制单元202。
然后,传输信息生成单元212参考记录在记录单元121中的编码数据文件,生成包括绝对距离absoluteDistance、子空间信息、对象数量和对象所属信息的报头信息。因此,例如,生成图11所示的报头信息。
当传输信息生成单元212生成报头信息时,通信控制单元211将生成的报头信息提供给通信单元201。
在步骤S162中,通信单元201在通信控制单元211的控制下将从通信控制单元211提供的报头信息传输到客户端114。
在这种情况下,在客户端114中,在步骤S132中,通信单元241在通信控制单元251的控制下接收从服务器112传输的报头信息,并将报头信息提供给控制单元242。
当以这种方式获得报头信息时,控制单元242基于与服务器112的传输频带的情况、包括在报头信息中的对象的数量、最高精度划分索引等来确定初始量化位置信息的量化精度,即划分索引。
然后,控制单元242基于所确定的量化精度生成用于请求传输初始量化位置信息的初始量化位置信息传输请求,并将初始量化位置信息传输请求提供给通信单元241。例如,在此处,生成图13所示的初始量化位置信息传输请求。
在步骤S133中,通信单元241在通信控制单元251的控制下,将从控制单元242提供的初始量化位置信息传输请求传输到服务器112。
然后,在服务器112中,在步骤S163中,通信单元201在通信控制单元211的控制下接收从客户端114传输的初始量化位置信息传输请求,并将初始量化位置信息传输请求提供给控制单元202。
在步骤S164中,传输信息生成单元212根据从通信单元201提供的初始量化位置信息传输请求,参考记录在记录单元121中的编码数据文件生成初始量化位置信息。
例如,在图5的示例中,在初始量化位置信息传输请求所请求的划分索引是“9”的情况下,传输信息生成单元212提取包括在编码数据文件中的最高精度量化位置信息的高9比特,并且使用提取的高9比特作为初始量化位置信息。
在图5的示例中,通过从最高有效比特侧开始,在最高精度量化位置信息的预定轴方向上的坐标值“00110011001”中提取与划分索引“9”相同的比特长度(即,只有9比特)而获得的“001100110”是初始量化位置信息的预定轴方向上的坐标值。
注意,在初始量化位置信息传输请求请求最高精度划分索引的情况下,最高精度量化位置信息照原样是初始量化位置信息。
当传输信息生成单元212为每个对象生成初始量化位置信息时,传输信息生成单元212以图14所示的格式将初始量化位置信息存储在比特流中,并且通信控制单元211将生成的比特流提供给通信单元201。
在步骤S165中,通信单元201在通信控制单元211的控制下,将从通信控制单元211提供的比特流(即每个对象的初始量化位置信息)传输到客户端114,并且位置信息传输处理结束。
当服务器112传输初始量化位置信息时,在客户端114中执行步骤S134的处理。
在步骤S134中,通信单元241在通信控制单元251的控制下接收从服务器112传输的初始量化位置信息,并将初始量化位置信息提供给控制单元242。即,通信控制单元251获取初始量化位置信息。
在步骤S135中,绝对坐标位置信息解码器131基于初始量化位置信息和用于每个对象的初始量化位置信息的,存储在初始量化位置信息传输请求中的划分索引,通过执行类似于上述等式(6)的计算,来逆量化初始量化位置信息。因此,获得子空间中的解码位置信息。
在步骤S136中,绝对坐标位置信息解码器131将针对每个对象获得的子空间中的位置信息转换成父空间中的位置信息。
即,绝对坐标位置信息解码器131基于在步骤S135中获得的子空间中的解码位置信息和包括在报头信息中的子空间信息,通过执行上述等式(7)和等式(8)的计算来执行逆缩放转换。因此,子空间中的解码位置信息被转换成父空间中的解码位置信息。
而且,绝对坐标位置信息解码器131通过将在父空间中获得的解码的位置信息乘以包括在报头信息中的绝对距离absoluteDistance来获得指示对象在父空间内的位置的位置信息。然后,当获得指示对象位置的位置信息时,位置信息获取处理结束。
绝对坐标位置信息解码器131执行上述步骤S135和步骤S136的处理,作为对每个对象的解码处理。
以这种方式,客户端114获取并解码具有适当量化精度的量化位置信息,作为初始量化位置信息。此外,服务器112根据客户端114的请求生成初始量化位置信息,并将初始量化位置信息传输给客户端114。
通过这样做,与父空间中的位置信息按原样被编码(量化)的情况相比,可以减少指示对象位置信息的代码量。
<额外比特信息获取处理和额外比特信息传输处理的描述>
通过这种方式,当参考图22描述位置信息获取处理时,为每个对象获得指示该对象在父空间内的位置的位置信息(以下也称为对象位置信息)。
例如,在获取最高精度的量化位置信息作为初始量化位置信息的情况下,获得具有最高精度的对象位置信息,否则,对象位置信息的精度可能不够。
而且,已经获取了具有相对较低量化精度的初始量化位置信息,但是在传输频带中可能存在裕量,或者可能存在直到内容的再现时间的裕量,使得可能期望获取用于获取具有较高量化精度的量化位置信息的额外比特信息。
因此,当获得对象位置信息时,如果需要,客户端114从服务器112获取额外比特信息。在下文中,将描述在这种情况下由客户端114和服务器112执行的处理。
即,下面将参考图23的流程图描述客户端114的额外比特信息获取处理和服务器112的额外比特信息传输处理。注意,在获取最高精度的量化位置信息作为初始量化位置信息的情况下,不执行这些处理。
当在客户端114中开始额外比特信息获取处理时,在步骤S191中,绝对坐标位置信息解码器131为每个对象计算从收听者U12到每个对象的距离。
具体地,基于从收听者位置获取装置113提供的收听者位置信息和在图22的步骤S136的处理中获得的对象位置信息,计算从收听者U12到父空间中的对象的欧几里德距离。
在步骤S192中,绝对坐标位置信息解码器131指定要获取额外比特信息的对象。
例如,可以通过从收听者U12到由对象位置信息指示的位置的距离,来指定作为父空间中对象的量化位置信息的初始量化位置信息(即父空间中的解码位置信息)是否是具有足够精度的位置信息。
因此,绝对坐标位置信息解码器131从收听者U12到对象的距离和感知极限角度中获得量化步长的容差,并将该容差与通过初始量化位置信息的划分索引获得的量化步长进行比较。然后,绝对坐标位置信息解码器131基于比较结果指定初始量化位置信息的量化精度不够的对象,即,要获取额外比特信息的对象。
此外,例如,绝对坐标位置信息解码器131基于与服务器112的传输线路的频带情况、从内容的当前时间点到再现时间的时间、初始量化位置信息的量化精度等,指定要获取额外比特信息的对象。
而且,绝对坐标位置信息解码器131确定额外比特信息的请求比特长度,即,要获取额外比特信息的对象的请求量化精度。
注意,对于每个对象,可以在XYZ坐标系的每个轴方向上确定是否获取额外比特信息或额外比特信息的请求比特长度。
在步骤S193中,绝对坐标位置信息解码器131基于步骤S192的指定结果选择请求模式。
在此处,基于例如传输频带的情况、要获取额外比特信息的对象的数量、要获取额外比特信息的多个对象之间的位置关系等,选择适当的请求模式。
在步骤S194中,绝对坐标位置信息解码器131基于步骤S192的指定结果和步骤S193中的请求模式的选择结果生成额外比特信息传输请求。因此,例如,生成图15所示的额外比特信息传输请求。
通信控制单元251向通信单元241提供以这种方式生成的额外比特信息传输请求,并控制通信单元241向服务器112传输额外比特信息传输请求。
在步骤S195中,通信单元241在通信控制单元251的控制下,将从控制单元242提供的额外比特信息传输请求传输到服务器112。
当传输额外比特信息传输请求时,在服务器112中开始额外比特信息传输处理。
即,在步骤S221中,通信单元201在通信控制单元211的控制下接收从客户端114传输的额外比特信息传输请求,并将额外比特信息传输请求提供给控制单元202。
在步骤S222中,传输信息生成单元212根据从通信单元201提供的额外比特信息传输请求,生成请求传输的对象的额外比特信息。
例如,传输信息生成单元212通过从由记录在记录单元121中的编码数据文件的最高精度量化位置信息中的初始量化位置信息的量化精度(划分索引)确定的位置提取由额外比特信息传输请求指定的额外比特长度的比特,来生成额外比特信息。这种额外比特信息的产生可以通过比特移位来实现。
当传输信息生成单元212生成请求对象的额外比特信息时,传输信息生成单元212以图16所示的格式将额外比特信息存储在额外比特流中,并且通信控制单元211将生成的额外比特流提供给通信单元201。
在步骤S223中,通信单元201在通信控制单元211的控制下向客户端114传输来自于通信控制单元211包括额外比特信息的额外比特流,并且额外比特信息传输处理结束。
此外,当传输额外比特流时,在客户端114中执行步骤S196的处理。
在步骤S196中,通信单元241在通信控制单元251的控制下接收从服务器112传输的额外比特流,并将该额外比特流提供给控制单元242。即,通信控制单元251获取包括额外比特信息的额外比特流。
在步骤S197中,绝对坐标位置信息解码器131通过将额外比特信息添加到请求传输额外比特信息的对象的初始量化位置信息的低位侧来生成量化位置信息。
在步骤S198中,绝对坐标位置信息解码器131逆量化在步骤S197的处理中获得的量化位置信息。
然后,在步骤S199中,绝对坐标位置信息解码器131将通过步骤S198中的逆量化获得的子空间中的位置信息转换成父空间中的位置信息。
注意,在步骤S198和步骤S199中,执行处理类似于图22的步骤S135和步骤S136。
此外,在步骤S199中,绝对坐标位置信息解码器131通过将在父空间中获得的解码位置信息乘以绝对距离absoluteDistance来获得对象位置信息。
仅在已经获取了额外比特信息的对象上执行上述步骤S197至步骤S199的处理。
此外,可以对以这种方式获得的对象位置信息重复执行上述步骤S191至步骤S199的处理,直到获得具有足够量化精度的对象位置信息(父空间中的位置信息)。
在步骤S200中,坐标转换单元132基于对象位置信息和从收听者位置获取装置113提供的收听者位置信息,针对每个对象计算极坐标位置信息,该极坐标位置信息指示从收听者U12的视角对象在父空间中的位置。
然后,坐标转换单元132将获得的极坐标位置信息提供给输出单元243,并且输出单元243将极坐标位置信息输出给MPEG-H渲染器115。当输出单元243向MPEG-H渲染器115输出所有对象的极坐标位置信息时,额外比特信息获取处理结束。
当额外比特信息获取处理结束时,在MPEG-H渲染器115中执行渲染。即,MPEG-H渲染器115基于从服务器112等获取的每个对象的音频数据和从输出单元243提供的极坐标位置信息来执行渲染,以生成再现的音频数据,其中,对象的声像位于父空间中的每个位置,并将再现的音频数据输出到诸如扬声器等再现系统。
以这种方式,如果需要,客户端114获取额外比特信息,并获得最终对象位置信息。此外,服务器112根据客户端114的请求生成并传输额外比特信息。
通过这样做,与一开始就从服务器112获取最高精度量化位置信息的情况相比,客户端114可以以更小的信息传输量获取具有足够的精度的父空间中的位置信息。
此外,由于用于获得所需量化精度的处理和用于计算极坐标位置信息的处理都由客户端114执行,所以可以减少诸如服务器112或绝对坐标位置信息编码器111等内容分发侧的处理负荷。
<第二实施例的第一修改>
<关于子空间的设置>
通过这种方式,上文已经描述了通过在父空间中形成一个或多个子空间来对父空间中的位置信息进行有效编码的示例。
然而,例如,如图24所示,最初包括在两个不同父空间的每一个中的每个子空间可以设置在一个虚拟父空间中。
在图24中所示的示例中,子空间CA31和子空间CA32最初包括在彼此不同的父空间中,但是在此处,那些子空间CA31和子空间CA32设置在一个虚拟父空间中。
例如,通过这样做,收听者U12可以根据他/她的喜好仅选择子空间CA31或子空间CA32中的任何一个。在这种情况下,服务器112根据收听者U12的选择,将位于子空间CA31和子空间CA32中由收听者U12选择的子空间中的对象的音频数据以及这些对象的量化位置信息传输到客户端114。
因此,在客户端114侧,只能对收听者U12选择的子空间执行音频数据的再现。
注意,在这样的示例中,例如,子空间CA31和子空间CA32可以是具有彼此不同的混响特性的空间。即,子空间CA31和子空间CA32可以具有彼此不同的混响特性。此外,完全相同的对象可以以相同的位置关系存在于子空间CA31和子空间CA32中。
在这种情况下,收听者U12可以仅通过选择子空间来再现具有不同混响特性的音频数据,并且因此可以具有他/她在不同空间中的体验,即使设置了相同的对象。此外,收听者U12可以具有好像他/她在多个完全不同的空间之间来来去去的体验,例如,子空间CA31和子空间CA32。此外,在一个父空间中形成多个子空间的情况下,可以为每个对象的每个属性形成子空间,例如,乐器的对象或欢呼的对象。在这种情况下,包含在每个不同子空间中的每个对象具有彼此不同的属性。
例如,如图25所示,多个子空间可以彼此重叠。在该示例中,子空间CA41和子空间CA42形成在一个父空间中,但是整个子空间CA42包括在子空间CA41中。
即,存在于子空间CA42中的对象不仅属于子空间CA42,同时也属于子空间CA41。
即使在这种情况下,收听者U12也可以选择子空间CA41或子空间CA42中的任何一个,从而可以再现所选择的子空间中的对象的音频数据。
在这种情况下,例如,当再现与父空间相关的内容时,可以根据选择哪个子空间来改变要再现的对象。
例如,假设再现音乐会的内容,并且假设仅存在于子空间CA42中的对象是乐器的对象,而存在于子空间CA41中但不存在于子空间CA42中的对象是欢呼的对象。
在这种情况下,如果收听者U12选择子空间CA41,则再现乐器的声音和欢呼,如果收听者U12选择子空间CA42,则仅再现乐器的声音。即,可以在仅包括乐器的空间和不仅包括乐器而且包括欢呼的空间之间自由切换。
例如,在一个对象可以属于多个子空间的情况下,如图25所示的示例所示,上述报头信息如图26所示。
在图26中所示的示例中,在报头信息中,除了图11所示的示例的情况之外,为每个对象存储指示第i个对象所属的子空间的数量的信息,该信息由字符“numOfAttChildArea”新指示。然后,在指示该对象所属的子空间的数量的信息“numOfAttChildArea”之后,对象所属信息“ChildAreaIndexForObj[i]”由该信息指示的数量存储。
注意,以重叠方式属于多个子空间的对象的子空间中的位置信息的量化只需要在该对象所属的任何一个子空间上执行,例如,由ChildAreaIndexForObj[0]指定的子空间等。此外,在同一对象属于多个子空间的情况下,只需要针对该对象预先确定量化子空间中的哪个子空间位置信息。
即,仅量化和传输对象所属的多个子空间中的一个的子空间中的位置信息,而不传输其他子空间的量化位置信息。在客户端114侧,只需要从某个对象的一个子空间的子空间中的位置信息,获得同一对象的另一子空间的子空间中的位置信息。
此外,图26所示的报头信息中的子空间信息“ChildAreaInfo()”部分的格式如图27所示。注意,图27所示的子空间信息的格式与图12所示的相同,因此将省略其描述。
<第二实施例的第二修改>
<关于跳帧>
此外,在自由视点音频中,在服务器112和客户端114之间执行通信,使得在服务器112和客户端114之间交换诸如量化位置信息等信息。
然而,根据服务器112和客户端114之间的网络(即,传输线路)的拥塞情况,也有可能出现延迟,使得客户端114直到音频数据的再现时间都不能获取再现所需的信息,例如,量化的位置信息等。
因此,例如,在传输延迟变大的情况下,如图28所示,要跳过的帧的数量可以从客户端114传输到服务器112。
在这种情况下,服务器112传输时间上在由客户端114指定的跳过帧的数量之前的对象的量化位置信息和从当前再现时间到跳过帧的时间的插值信息。
例如,如图28中的箭头Q61所示,假设再现其中在帧1中,且位于XYZ坐标系中位置为(X1,Y1,Z1)的对象移动到7个帧之后的帧8中,位于XYZ坐标系中位置为(X2,Y2,Z2)的内容。
此时,如箭头Q62所示,假设可以在没有延迟的情况下传输和接收量化的位置信息,直到帧1和帧2,但是在这个时间点,客户端114已经确定传输线路的频带是窄的,使得可能会发生延迟。
然后,客户端114不请求服务器112传输帧3的初始量化位置信息,而是请求服务器112传输指定帧8的请求跳过帧数和用于插值处理的插值信息。
在此处,请求跳过帧数是指示跳过量化位置信息传输的帧数的信息。在此处,例如,由于请求跳过帧的数量“5”传输到服务器112,所以服务器112在已经完成传输的帧2之后跳过五个帧,并且传输下一帧8的量化位置信息和插值信息。
因此,在客户端114侧,可以通过对帧8的量化位置信息的解码处理来获得父空间中的位置信息。此外,客户端114可以通过基于帧2的父空间中的位置信息、帧8的父空间中的位置信息和插值信息的插值处理来获得帧3至帧7的父空间中的位置信息。
通过执行这样的插值处理,可以获得在任意时间(帧)从位置(X1,Y1,Z1)移动到位置(X2,Y2,Z2)的对象的位置。
例如,在客户端114这样向服务器112传输请求跳过帧的数量的情况下,由客户端114传输的初始量化位置信息传输请求如图29所示。
在图29中所示的示例中,除了在图13所示的第i个对象的每个轴方向上的划分索引“exp_index_initial_x[i]”、“exp_index_initial_y[i]”和“exp_index_initial_z[i]”之外,初始量化位置信息传输请求还包括由字符“SkipFrameRequest”指示的请求跳过帧的数量。
此外,例如,已经接收到图29所示的初始量化位置信息传输请求的服务器112以图30所示的比特流格式传输初始量化位置信息。
在图30中所示的示例中,除了图14中所示的初始量化位置信息“Xpos_initial[i]”、“Ypos_initial[i]”和“Zpos_initial[i]”之外,比特流还包括由字符“InterpolMode[i]”指示的插值信息。
特别地,在此处,插值信息插值码[i]是指示是对第i个对象执行线性插值还是二次插值的信息。然而,从客户端114接收在图13而不是图29所示的初始量化位置信息传输请求的情况下,插值信息InterpolMode[i]不存储在比特流中。
例如,在对象以对应于匀速运动的运动移动的情况下,只需要执行线性插值,而在对象以对应于匀速加速运动的运动移动的情况下,只需要执行二次插值。
注意,此处描述了选择性地执行线性插值和二次插值中的任何一种的示例,但是当然也可以使用其他插值方法。此外,用于插值处理的系数可以存储为插值信息,或者用于插值处理的系数本身可以由客户端114预先保存。
此外,在图30所示的示例中,存储在比特流中的初始量化位置信息是被请求跳过的帧数,跳过的前一帧的初始量化位置信息。
<位置信息获取处理和位置信息传输处理的描述>
在此处,描述由于传输线路的延迟等导致在客户端114传输图29所示的初始量化位置信息传输请求的情况下执行的处理。
即,下面将参考图31的流程图描述客户端114的位置信息获取处理和服务器112的位置信息传输处理。
注意,控制单元242基于例如服务器112和客户端114之间的传输线路的频带情况(即网络的流量)或者内容再现时的时间戳(即内容的再现情况),来确定是否针对量化的位置信息执行帧的跳过或者跳过多少帧。
当客户端114开始位置信息获取处理时,在步骤S251中,在通信控制单元251的控制下,通信单元241将从控制单元242提供的初始量化位置信息传输请求传输到服务器112。
即,控制单元242基于网络的流量、内容的再现情况等,生成图29所示的初始量化位置信息传输请求,并向通信单元241提供初始量化位置信息传输请求。该初始量化位置信息传输请求包括请求跳过帧的数量。
然后,在服务器112中,在步骤S291中,通信单元201在通信控制单元211的控制下接收从客户端114传输的初始量化位置信息传输请求,并将初始量化位置信息传输请求提供给控制单元202。
在步骤S292中,传输信息生成单元212根据从通信单元201提供的初始量化位置信息传输请求,参考记录在记录单元121中的编码数据文件生成初始量化位置信息。
在这种情况下,例如,在图30所示的比特流格式中,生成包括跳过后的第一帧的初始量化位置信息和插值信息的比特流。通信控制单元211将以这种方式生成的比特流提供给通信单元201。此时,传输信息生成单元212根据量化的位置信息,即,对象在跳过或被跳过帧之前和之后的帧中的位置,指定对象的运动,并且允许根据指定结果的插值信息包括在比特流中。
在步骤S293中,通信单元201在通信控制单元211的控制下,将从通信控制单元211提供的比特流(即每个对象的初始量化位置信息)传输到客户端114,并且位置信息传输处理结束。
在步骤S252中,当服务器112传输初始量化位置信息时,通信单元241在通信控制单元251的控制下接收从服务器112传输的初始量化位置信息,并将初始量化位置信息提供给控制单元242。
当获取初始量化位置信息时,此后执行步骤S253和步骤S254的处理,但是这些处理类似于图22的步骤S135和步骤S136的处理,因此将省略其描述。然而,在此处,在跳过之后的第一帧上执行处理,使得获得该帧在父空间中的解码位置信息。
在步骤S255中,绝对坐标位置信息解码器131基于在步骤S254中获得的跳过之后的帧的父空间中的解码位置信息和紧接之前获得的跳过之前的帧的父空间中的解码位置信息,在步骤S252中执行由与初始量化位置信息一起接收的插值信息指示的插值处理。
即,例如,绝对坐标位置信息解码器131通过执行由插值信息指示的处理,即线性插值或二次插值,生成每个跳过帧的父空间中的解码位置信息。
而且,对于通过上述处理获得的跳过帧和跳过后的第一帧,绝对坐标位置信息解码器131通过将每个帧的父空间中的解码位置信息乘以绝对距离absoluteDistance,来获得每个帧中的对象位置信息。当以这种方式获得对象位置信息时,位置信息获取处理结束。
以这种方式,当跳过一些帧时,客户端114传输包括请求跳过帧的数量的初始量化位置信息传输请求,获得跳过后的帧的父空间中的位置信息,并且通过插值处理获得跳过的帧的父空间中的位置信息。此外,服务器112根据请求跳过帧的数量向客户端114传输初始量化位置信息和插值信息。
通过这样做,即使在传输线路中出现延迟的情况下,也可以抑制在再现内容时出现延迟。
如上所述,根据本技术,在对象的存在位置在父空间中偏离的情况下,通过使用子空间传输指示对象位置的信息,可以在保持所需精度的同时以小的传输量传输指示对象位置的信息。
此外,如在第二实施例的第一修改中,通过将两个或更多个完全不同的空间视为相应的子空间,并且一个父空间内管理那些子空间,收听者可以通过仅解码必要的子空间来体验好像他/她在多个完全不同的空间之间来来去去。
而且,如在第二实施例的第二修改中,即使在传输线路拥塞时,使得所需的比特流达不到再现时间的情况下,也可以通过前瞻和插值来平滑地移动和再现对象。
<计算机的配置示例>
通过这种方式,上述一系列处理可以由硬件执行,也可以由软件执行。在一系列处理由软件执行的情况下,配置软件的程序安装在计算机中。在此处,计算机包括包含专用硬件的专用计算机或者例如能够通过安装各种程序来执行各种功能的通用个人计算机等。
图32是示出通过程序执行上述一系列处理的计算机硬件的配置示例的框图。
在计算机中,中央处理器(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504相互连接。
输入/输出接口505进一步连接到总线504。输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接到输入/输出接口505。
输入单元506包括键盘、鼠标、麦克风、图像捕捉元件等。输出单元507包括显示器、扬声器等。记录单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动器510驱动可移动记录介质511,例如,磁盘、光盘、磁光盘、半导体存储器等。
在如上所述配置的计算机中,CPU 501通过经由输入/输出接口505和总线504将例如记录在记录单元508中的程序加载到RAM 503中并执行该程序来执行上述一系列处理。
由计算机(CPU 501)执行的程序可以记录和设置在可移动记录介质511上,例如作为封装介质等。此外,可以经由有线或无线传输介质,例如,局域网、互联网或数字卫星广播,来提供节目。
在计算机中,通过将可移动记录介质511安装在驱动器510上,程序可以经由输入/输出接口505安装在记录单元508中。此外,程序可以由通信单元509经由有线或无线传输介质接收,并安装在记录单元508中。另外,程序可以预先安装在ROM 502或记录单元508中。
注意,由计算机执行的程序可以是根据本说明书中描述的顺序按时间序列执行处理的程序,或者可以是并行执行处理或在必要的时间(例如,进行呼叫的时间等)执行处理的程序。
此外,本技术的实施例不限于上述实施例,并且可以在不脱离本技术的范围的情况下进行各种修改。
例如,本技术可以具有云计算的配置,其中,一个功能通过网络由多个装置共享和联合处理。
此外,上述流程图中描述的各个步骤可以由一个装置执行,或者可以由多个装置以共享方式执行。
而且,在一个步骤中包括多个处理的情况下,一个步骤中包括的多个处理可以由一个装置执行,或者可以由多个装置以共享方式执行。
然而,本技术也可以具有以下配置。
(1)一种信息处理装置,包括:
获取单元,获取有关父空间内的子空间的位置和大小的空间信息以及指示对象在子空间内的位置的子空间内位置信息,所述子空间包括在所述父空间中,并且所述对象包括在所述子空间中;以及
计算单元,基于所述空间信息和所述子空间内位置信息,计算指示对象在所述父空间内的位置的父空间内位置信息。
(2)根据(1)所述的信息处理装置,其中,
所述父空间由绝对坐标表示。
(3)根据(1)或(2)所述的信息处理装置,其中,
所述空间信息是用于坐标转换的转换系数。
(4)根据(3)所述的信息处理装置,其中,
所述转换系数是线性函数的参数。
(5)根据(1)或(2)所述的信息处理装置,其中,
所述空间信息是指示在父空间内作为子空间参考的顶点的位置信息以及在父空间内子空间相对于所述顶点的对角顶点的位置信息。
(6)根据(1)至(5)中任一项所述的信息处理装置,其中,
所述子空间由绝对坐标表示。
(7)根据(1)至(6)中任一项所述的信息处理装置,其中,
在父空间中包含多个所述子空间。
(8)根据(7)所述的信息处理装置,其中,
包括在多个子空间的每一个中的每个对象具有彼此不同的属性。
(9)根据(7)所述的信息处理装置,其中,
所述多个子空间相互重叠。
(10)根据(7)所述的信息处理装置,其中,
所述多个子空间具有彼此不同的混响特性。
(11)根据(1)至(10)中任一项所述的信息处理装置,其中,
所述子空间包括多个对象。
(12)根据(1)至(11)中任一项所述的信息处理装置,其中,
一个对象包含在多个子空间中。
(13)根据(1)至(12)中任一项所述的信息处理装置,其中,
所述获取单元还获取额外位置信息,所述额外位置信息用于获得具有比获取的所述子空间内位置信息更高的精度的所述子空间内位置信息,并且
所述计算单元基于具有更高精度的所述子空间内位置信息和所述空间信息计算所述父空间内位置信息,具有更高精度的所述子空间内位置信息是基于获取的所述子空间内位置信息和所述额外位置信息而获得的。
(14)根据(1)至(13)中任一项所述的信息处理装置,其中,
所述对象是音频对象。
(15)一种由信息处理装置执行的信息处理方法,包括:
获取有关父空间内的子空间的位置和大小的空间信息以及指示对象在子空间内的位置的子空间内位置信息,所述子空间包括在所述父空间中,并且所述对象包括在所述子空间中;并且
基于所述空间信息和所述子空间内位置信息,计算指示对象在所述父空间内的位置的父空间内位置信息。
(16)一种用于使计算机执行处理的程序,包括以下步骤:
获取有关父空间内的子空间的位置和大小的空间信息以及指示对象在所述子空间内的位置的子空间内位置信息,所述子空间包括在所述父空间中,并且所述对象包括在所述子空间中;并且
基于所述空间信息和所述子空间内位置信息,计算指示对象在所述父空间内的位置的父空间内位置信息
附图标记列表
11编码器
21获取单元
22编码单元
23通信单元
31子空间确定单元
32转换单元
33量化单元
61解码器
71获取单元
72解码单元
73输出单元
81逆量化单元
82转换单元

Claims (16)

1.一种信息处理装置,包括:
获取单元,获取有关父空间内的子空间的位置和大小的空间信息以及指示对象在子空间内的位置的子空间内位置信息,所述子空间包括在所述父空间中,并且所述对象包括在所述子空间中;以及
计算单元,基于所述空间信息和所述子空间内位置信息,计算指示对象在所述父空间内的位置的父空间内位置信息。
2.根据权利要求1所述的信息处理装置,其中,
所述父空间由绝对坐标表示。
3.根据权利要求1所述的信息处理装置,其中,
所述空间信息是用于坐标转换的转换系数。
4.根据权利要求3所述的信息处理装置,其中,
所述转换系数是线性函数的参数。
5.根据权利要求1所述的信息处理装置,其中,
所述空间信息是指示在父空间内作为子空间参考的顶点的位置信息以及在父空间内子空间相对于所述顶点的对角顶点的位置信息。
6.根据权利要求1所述的信息处理装置,其中,
所述子空间由绝对坐标表示。
7.根据权利要求1所述的信息处理装置,其中,
在父空间中包含多个所述子空间。
8.根据权利要求7所述的信息处理装置,其中,
包括在多个子空间的每一个中的每个对象具有彼此不同的属性。
9.根据权利要求7所述的信息处理装置,其中,
多个所述子空间相互重叠。
10.根据权利要求7所述的信息处理装置,其中,
多个所述子空间具有彼此不同的混响特性。
11.根据权利要求1所述的信息处理装置,其中,
所述子空间中包括多个对象。
12.根据权利要求1所述的信息处理装置,其中,
一个对象包含在多个所述子空间中。
13.根据权利要求1所述的信息处理装置,其中,
所述获取单元还获取额外位置信息,所述额外位置信息用于获得具有比获取的所述子空间内位置信息更高的精度的所述子空间内位置信息,并且
所述计算单元基于具有更高精度的所述子空间内位置信息和所述空间信息计算所述父空间内位置信息,具有更高精度的所述子空间内位置信息是基于获取的所述子空间内位置信息和所述额外位置信息而获得的。
14.根据权利要求1所述的信息处理装置,其中,
所述对象是音频对象。
15.一种由信息处理装置执行的信息处理方法,包括:
获取有关父空间内的子空间的位置和大小的空间信息以及指示对象在子空间内的位置的子空间内位置信息,所述子空间包括在所述父空间中,并且所述对象包括在所述子空间中;并且
基于所述空间信息和所述子空间内位置信息,计算指示对象在所述父空间内的位置的父空间内位置信息。
16.一种用于使计算机执行处理的程序,包括以下步骤:
获取有关父空间内的子空间的位置和大小的空间信息以及指示对象在所述子空间内的位置的子空间内位置信息,所述子空间包括在所述父空间中,并且所述对象包括在所述子空间中;并且
基于所述空间信息和所述子空间内位置信息,计算指示对象在所述父空间内的位置的父空间内位置信息。
CN201980042350.5A 2018-07-04 2019-06-20 信息处理装置和方法以及程序 Pending CN112352278A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2018-127547 2018-07-04
JP2018127547 2018-07-04
JP2018-132490 2018-07-12
JP2018132490 2018-07-12
PCT/JP2019/024441 WO2020008890A1 (ja) 2018-07-04 2019-06-20 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
CN112352278A true CN112352278A (zh) 2021-02-09

Family

ID=69060234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980042350.5A Pending CN112352278A (zh) 2018-07-04 2019-06-20 信息处理装置和方法以及程序

Country Status (8)

Country Link
US (2) US11790925B2 (zh)
EP (1) EP3819902A4 (zh)
JP (2) JP7276337B2 (zh)
KR (1) KR20210030279A (zh)
CN (1) CN112352278A (zh)
BR (1) BR112020026728A2 (zh)
SG (1) SG11202012259RA (zh)
WO (1) WO2020008890A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11937070B2 (en) 2021-07-01 2024-03-19 Tencent America LLC Layered description of space of interest
WO2024132941A1 (en) * 2022-12-23 2024-06-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for predicting voxel coordinates for ar/vr systems

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2928216A1 (en) * 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
JP2015531078A (ja) * 2012-07-31 2015-10-29 インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. オーディオ信号処理方法および装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3214776B2 (ja) * 1994-04-13 2001-10-02 株式会社東芝 仮想環境表示装置および方法
WO2004063893A2 (en) * 2003-01-13 2004-07-29 Christopher Spooner System and method for spatial organization
JP4677060B1 (ja) * 2009-09-04 2011-04-27 パナソニック株式会社 位置校正情報収集装置、位置校正情報収集方法、及び位置校正情報収集プログラム
KR20140128564A (ko) * 2013-04-27 2014-11-06 인텔렉추얼디스커버리 주식회사 음상 정위를 위한 오디오 시스템 및 방법
RU2736418C1 (ru) * 2017-07-14 2020-11-17 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многоточечного описания звукового поля
WO2019149337A1 (en) * 2018-01-30 2019-08-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses for converting an object position of an audio object, audio stream provider, audio content production system, audio playback apparatus, methods and computer programs

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015531078A (ja) * 2012-07-31 2015-10-29 インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. オーディオ信号処理方法および装置
EP2928216A1 (en) * 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping

Also Published As

Publication number Publication date
SG11202012259RA (en) 2021-01-28
JP7276337B2 (ja) 2023-05-18
BR112020026728A2 (pt) 2021-03-23
EP3819902A4 (en) 2021-11-10
US20210272576A1 (en) 2021-09-02
EP3819902A1 (en) 2021-05-12
JPWO2020008890A1 (ja) 2021-08-02
US11790925B2 (en) 2023-10-17
WO2020008890A1 (ja) 2020-01-09
KR20210030279A (ko) 2021-03-17
JP7497767B2 (ja) 2024-06-11
JP2023083539A (ja) 2023-06-15
US20240013795A1 (en) 2024-01-11

Similar Documents

Publication Publication Date Title
US12081962B2 (en) Information processing apparatus and method, and program
JP7497767B2 (ja) 情報処理装置および方法、並びにプログラム
US11843932B2 (en) Six degrees of freedom and three degrees of freedom backward compatibility
US20230110257A1 (en) 6DOF Rendering of Microphone-Array Captured Audio For Locations Outside The Microphone-Arrays
US20240129683A1 (en) Associated Spatial Audio Playback
JP7552617B2 (ja) 信号処理装置および方法、並びにプログラム
EP4167600A2 (en) A method and apparatus for low complexity low bitrate 6dof hoa rendering
CN115244501A (zh) 音频对象的表示和渲染
KR20220124692A (ko) 정보 처리 장치 및 방법, 그리고 프로그램
CN114127843A (zh) 用于离散指向性数据的表示、编码和解码的方法、设备和系统
KR20200139670A (ko) 오디오 객체의 객체 위치를 변환시키기 위한 장치, 오디오 스트림 제공기, 오디오 콘텐츠 생성 시스템, 오디오 재생 장치, 방법 및 컴퓨터 프로그램
WO2024214318A1 (ja) 情報処理装置および方法、並びにプログラム
EP4451266A1 (en) Rendering reverberation for external sources
WO2024149557A1 (en) A method and apparatus for complexity reduction in 6dof audio rendering
WO2023220024A1 (en) Distributed interactive binaural rendering
CN117981361A (zh) 信息处理设备、方法和程序
WO2023165800A1 (en) Spatial rendering of reverberation
CN116325809A (zh) 信息处理装置、方法和程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination