CN110537373A - 信号处理装置和方法以及程序 - Google Patents

信号处理装置和方法以及程序 Download PDF

Info

Publication number
CN110537373A
CN110537373A CN201880026183.0A CN201880026183A CN110537373A CN 110537373 A CN110537373 A CN 110537373A CN 201880026183 A CN201880026183 A CN 201880026183A CN 110537373 A CN110537373 A CN 110537373A
Authority
CN
China
Prior art keywords
information
frame
propagation
processed
ifrm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880026183.0A
Other languages
English (en)
Other versions
CN110537373B (zh
Inventor
山本优树
知念徹
辻实
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN110537373A publication Critical patent/CN110537373A/zh
Application granted granted Critical
Publication of CN110537373B publication Critical patent/CN110537373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04806Zoom, i.e. interaction techniques or interactors for controlling the zooming operation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本技术涉及用于使得能够更容易地获得适当的传播信息的信号处理装置、方法和程序。该信号处理装置设置有传播信息生成单元,该传播信息生成单元基于关于与音频对象的要处理的帧不同的其它帧的传播信息、缩放信息和关于音频对象的尺寸的信息中的任一信息以及音频对象的要处理的帧的对象位置信息,来生成关于音频对象的要处理的帧的传播信息。本技术可以应用于编码装置和解码装置。

Description

信号处理装置和方法以及程序
技术领域
本技术涉及信号处理装置和方法以及程序,并且更具体地,涉及使得能够更容易地获得适当的传播信息的信号处理装置和方法以及程序。
背景技术
在相关技术中,例如,国际标准运动图像专家组(MPEG)-H部分3:3D音频标准等被称为可以处理对象音频的编码方案(例如,参见非专利文献1)。
在这种编码方案中,可以执行传播音频对象的声音的声音图像的传播处理。
具体地,在编码装置侧上,对象位置信息以及传播信息作为音频对象的元数据包括在比特流中,该对象位置信息指示音频对象的位置,该传播信息指示音频对象的声音的声音图像的传播程度。
例如,在音频对象的声音的声音图像要在水平方向和垂直方向对称传播的情况下,传播信息包含指示从0度至180度的范围内的任何角度的单个值(在下文中,还被称为传播角),该值指示水平方向和垂直方向上的声音图像的传播程度。
相反,在音频对象的声音的声音图像要在水平方向和垂直方向上不对称传播的情况下,传播信息包含指示水平方向上的传播角和垂直方向上的传播角的两个值。应注意,水平方向上的传播角和垂直方向上的传播角都采用从0度至180度的范围内的角度。
这种传播信息可以采用音频对象的音频信号的每帧中的不同值。
另外,在解码装置侧上,基于从比特流提取的传播信息执行传播音频对象的声音图像的渲染处理,或者换言之,传播处理。例如,如果执行这种传播处理,则可以放大附近对象的声音图像的区域,同时可以减少小型的并且远距离的对象的声音图像的区域。因此,可以实现感觉更逼真的内容再现。
引用列表
非专利文献
非专利文献1:国际标准ISO/IEC 23008-3第一版2015-10-15信息技术-非均质分布环境中的高效编码和媒体传递-部分3:3D音频。
发明内容
本发明待解决的问题
然而,不容易获得适当的传播信息。
例如,将传播信息手动分配至每个时间(帧)和每个音频对象成本高。另外,根据情形,在一些情况下,传播信息甚至不能被分配。
此外,如果由用户等在解码侧执行缩放处理,例如屏幕上的对象的尺寸改变,如果从比特流获得的传播信息照原样使用则声音图像的区域不可以传播适当尺寸。在这种情况下,屏幕上的对象的尺寸和对应于该对象的音频对象的声音图像的区域的尺寸将彼此不一致,并且将削弱真实感觉。
已经按照这种情况设计了本技术,并且使得能够更容易地获得适当的传播信息。
问题的解决方案
根据本技术的一方面的信号处理装置包括:传播信息生成单元,被配置为基于与音频对象的要处理器的帧不同的其他帧中的传播信息、缩放信息和关于音频对象的尺寸信息中的任一信息以及音频对象的要处理的帧中的对象位置信息,来生成音频对象的要处理器的帧中的传播信息。
传播信息生成单元可以基于音频对象的其他帧中的传播信息和要处理的帧中以及音频对象的其他帧中的对象位置信息,来生成要处理的帧中的传播信息。
对象位置信息可以是从参考位置至音频对象的距离。
传播信息生成单元可以生成要处理的帧中的距离和其他帧中的距离的比与其他帧中的传播信息的正切的乘积的反正切,作为要处理的帧中的传播信息。
传播信息生成单元可以基于音频对象的要处理的帧中的缩放信息和传播信息,来生成缩放后的音频对象的要处理的帧中的传播信息。
传播信息生成单元可以基于由缩放信息确定的缩放前的虚拟屏幕和缩放后的虚拟屏幕之间的位置和尺寸关系,来生成缩放后的音频对象的要处理的帧中的传播信息。
传播信息生成单元可以基于音频对象的要处理的帧中的尺寸信息和对象位置信息,来生成要处理的帧中的传播信息。
尺寸信息可以是从音频对象的中心至外壳(shell)的距离。
对象位置信息可以是从参考位置至音频对象的距离。
传播信息生成单元可以生成要处理的帧中的尺寸信息和对象位置信息的比的反正切,作为要处理的帧中的传播信息。
根据本技术的一方面的信号处理方法或程序,包括:基于与音频对象的要处理器的帧不同的其他帧中的传播信息、缩放信息和关于音频对象的尺寸信息中的任一信息以及音频对象的要处理的帧中的对象位置信息,生成音频对象的要处理器的帧中的传播信息的步骤。
在本技术的一方面中,基于与音频对象的要处理器的帧不同的其他帧中的传播信息、缩放信息和关于音频对象的尺寸信息中的任一信息以及音频对象的要处理的帧中的对象位置信息,生成音频对象的要处理器的帧中的传播信息。
本发明的效果
根据本技术的一方面,可以更容易地获得适当的传播信息。
应注意,本文中描述的有益效果不必是限制性的,并且可以获得本公开中描述的任何有益效果。
附图说明
[图1]是说明了传播信息的生成的示图。
[图2]是示出了编码装置的示例性配置的示图。
[图3]是说明了编码处理的流程图。
[图4]是示出了解码装置的示例性配置的示图。
[图5]是说明了解码处理的流程图。
[图6]是说明了传播信息的生成的示图。
[图7]是说明了编码处理的流程图。
[图8]是说明了解码处理的流程图。
[图9]是说明了缩放的示图。
[图10]是说明了根据缩放校正对象位置信息的示图。
[图11]是示出了解码装置的示例性配置的示图。
[图12]是说明了解码处理的流程图。
[图13]是示出了计算机的示例性配置的示图。
具体实施方式
在下文中,将参考附图描述应用本技术的实施方式。
<第一实施方式>
<关于本技术>
本技术基于与要获得的传播信息不同的其他信息(诸如关于音频对象的对象位置信息、缩放信息、尺寸信息和不同时间的传播信息)通过生成关于音频对象的传播信息,使得能够更容易地获得适当的传播信息。
在下文中,音频对象的多信息音频信号和一个音频信号被描述为根据预定标准等进行编码。应注意,在下文中,音频对象还简单地被称为对象。
例如,针对每帧编码并发送每个信道和每个对象的音频信号。
换言之,编码的音频信号和需要解码音频信号等的信息被存储在多个元素(比特流元素)中,并且包含这些元素的比特流从编码侧发送至解码侧。
具体地,在单个帧的比特流中,例如,多个元素从头开始按顺序布置,并且指示与关于帧的信息相关的终端位置的标识符被布置在最后。
此外,布置在开头的元素被当作称为数据流元素(DSE)的辅助数据区域。与多个信道中的每一个相关的信息(诸如与音频信号的下混合相关的信息以及识别信息)被称为DSE。
另外,编码的音频信号被存储在跟在DSE之后的每个元素中。具体地,存储单信道的音频信号的元素被称为单信道元素(SCE),同时存储两个成对信道的音频信号的元素被称为耦合信道元素(CPE)。每个对象的音频信号被存储在SCE中。
在本技术中,生成关于每个对象的音频信号的传播信息并存储在DSE中。更具体地,包括生成的传播信息的对象元数据被存储在DSE中。
在本文中,元数据至少包含传播信息和对象位置信息。
传播信息是指示对象的声音图像的尺寸范围的角信息,即,指示对象的声音的声音图像的传播程度的传播角。换言之,传播信息可以说是指示对象的区域的尺寸的信息。
另外,对象位置信息是指示三维空间中的对象的位置,并且例如,采用包括水平方向角、垂直方向角、和指示从参考位置(原点)看到的对象的位置的半径的坐标信息。
水平方向角是指示从参考位置看到的对象的水平方向上的位置,即用户在的位置的水平方向上的角度(方位角)。换言之,水平方向角是在用作水平方向上的参考的方向和从参考位置看到的对象的方向之间获得的角。
在本文中,当水平方向角是0度时,对象被直接定位在用户前面,并且当水平方向角是90度或-90度时,对象被直接定位在用户旁边。另外,当水平方向角是180度或-180度时,对象变成直接定位在用户后面。
类似地,垂直方向角是指示从参考位置看到的对象的垂直方向上的位置的垂直方向上的角(仰角),或者换言之,是在用作垂直方向上的参考的方向和从参考位置看到的对象的方向之间获得的角。
另外,半径是从参考位置至空间中的对象的位置的距离。
同时,将每一帧的传播信息手动分配至每个对象成本高。例如,对于电影内容,许多对象需要长时间处理,并且因此人工成本据说特别高。
因此,本技术应用的编码装置被配置为基于关于在时间上与要处理的帧不同的其他帧的传播信息和指示空间中的对象的位置的对象位置信息,来生成关于对象的要处理的帧的传播信息。
具体地,例如,传播信息仅手动分配给单个特定帧(在下文中,还被称为参考帧),诸如对象的音频信号的第一帧。此外,至于除了参考帧之外的帧,基于关于参考帧的对象位置信息和传播信息由编码装置生成传播信息。
应注意,形成内容的音频信号的单个帧可以被当作该参考帧,或者多个帧可以被当作多个参考帧。具体地,在提供多个参考帧的情况下,以均等时间间隔布置的帧可以被当作参考帧,或者以不相等的时间间隔布置的任何帧可以被当作参考帧。另外,在为该帧生成传播信息之后,不是原始的参考帧的帧还可以用作参考帧。
此外,尽管在本文中描述了以帧为单位生成传播信息的实例,但是还可以以预定时间量为单位,诸如以多个帧为单位生成传播信息。
在下文中,为了简化说明,将采用将单个帧当作参考帧的情况继续进行描述。
例如,假设对象的声音的声音图像要在水平方向和垂直方向上对称传播,则s(i)是指示帧的帧索引i的传播信息,即,传播角。另外,ifrm是指示要处理的当前帧的帧索引i,并且rfrm是参考帧的帧索引i。
此外,r(i)是包括在具有对象的帧索引i的帧中的对象位置信息中的对象的半径。
在这种情况下,例如,利用如图1所示的没有改变对象的尺寸的事实,并且生成关于当前帧ifrm的传播信息s(ifrm)。
在图1中示出的实例中,原点O的位置被当作用户的头部的位置,作为参考位置,并且在参考帧rfrm中的点OB11的位置处的对象移动至当前帧ifrm中的点OB21的位置。
此时,连接作为参考的原点O和点OB11的线L11的长度,或者换言之,从原点O至点OB11的距离变成参考帧rfrm中的对象位置信息中包括的半径r(rfrm)。类似地,连接原点O和点OB21的线L21的长度,或者换言之,从原点O至点OB21的距离变成当前帧ifrm中的对象位置信息中包括的半径r(ifrm)。
另外,已知的是由参考帧rfrm中的传播信息(即,传播信息s(rfrm))指示的传播角。L12是穿过原点O的线,因此在线L11和L12之间获得的角是s(rfrm)。
因为传播信息s(rfrm)是指示对象的声音图像的尺寸范围,即,对象的区域范围的角信息,因此对象的区域的端部(外壳部)被定位在线L12上。
换言之,假如L13是穿过点OB11且还垂直于L11的线并且点OBE11是线L12和线L13之间的交叉点,则这个点OBE11的位置变成对象的区域的端部(外壳部)的位置。因此,从点OB11至点OBE11的长度(距离)是从参考帧rfrm中的对象的中心至外壳的长度。
这种从点OB11至点OBE11的长度(即,线L13的长度)可以使用传播信息s(rfrm)和半径r(rfrm)表示为r(rfrm)×tan(s(rfrm))。
另外,关于要计算当前帧ifrm中的传播信息s(ifrm),L22作为穿过原点O的线,因此在线L21和L22之间获得的角是s(ifrm)。此外,假如L23是穿过点OB21且还垂直于L21的线并且点OBE21是线L22和线L23之间的交叉点,则这个点OBE21的位置变成当前帧ifrm中的对象的区域的端部(外壳部)的位置。
因此,从点OB21至点OBE21的长度(即,线L23的长度)变成从当前帧ifrm的对象的中心至外壳的长度,并且可以使用传播信息s(ifrm)和半径r(ifrm)表示为r(ifrm)×tan(s(ifrm))。
在此,假定在不考虑帧的情况下,对象的尺寸(即对象的声音图像的区域的尺寸)是恒定的(不变的),则从点OB11至点OBE11的长度和从点OB21至点OBE21的长度变成相等。换言之,保持r(rfrm)×tan(s(rfrm))=r(ifrm)×tan(s(ifrm))。
因此,从此关系看来,可以根据以下公式(1)获得当前帧ifrm中的适当的传播信息s(ifrm)。
[数学式1]
s(ifrm)=tan-1(tan(s(rfrm))×r(rfrm)/r(ifrm)}
(1)
在公式(1)中,计算当前帧ifrm中的半径r(ifrm)和对象的参考帧rfrm中的半径r(rfrm)的比r(rfrm)/r(ifrm)与对象的参考帧rfrm中的传播信息s(rfrm)的正切的乘积tan(s(rfrm))×r(rfrm)/r(ifrm)。此外,生成这个乘积tan(s(rfrm))×r(rfrm)/r(ifrm)的反正切作为对象的当前帧ifrm中的传播信息s(ifrm)。
如果基于当前帧ifrm中的半径r(ifrm)和传播信息s(rfrm)以及参考帧rfrm中的半径r(rfrm)以此方式评估公式(1),则可以利用简单的数学运算生成当前帧ifrm中的适当的传播信息s(ifrm)。
具体地,利用该实例,因为只需要仅为对象的音频信号的几个帧手动分配传播信息,因此可以大大降低手动分配传播信息的成本。
应注意,尽管以上描述了对象的声音的声音图像在水平方向和垂直方向上对称传播的情况,但是即使在对象的声音的声音图像在水平方向和垂直方向上不对称传播的情况下也可以通过类似计算生成传播信息。
例如,swidth(i)是具有帧索引i的帧中的水平方向上的传播信息,即,水平方向上的传播角,并且sheight(i)是具有帧索引i的帧中的垂直方向上的传播信息,即,垂直方向上的传播角。
在这种情况下,足以执行以以上描述的水平方向和垂直方向中的每一个的公式(1)相似的计算。
换言之,通过评估以下公式(2),可以获得当前帧ifrm中的水平方向上的传播信息swidth(ifrm),并且通过评估以下公式(3),可以获得当前帧ifrm中的垂直方向上的传播信息sheight(ifrm)。
[数学式2]
swidth(ifrm)=tan-1{tan(swidth(rfrm))×r(rfrm)/r(ifrn)}
···(2)
[数学式3]
Sheight(ifrm)=tan-1{tan(sheight(rfrm))×r(rfrm)/r(ifrm)}
...(3)
如上所述,如果使用当前帧中的对象位置信息以及参考帧中的对象位置信息和传播信息,则可以更容易地获得当前帧的适当的传播信息。
<编码装置的示例性配置>
接下来,将描述应用本技术的编码装置的具体实施方式。
图2是示出了应用本技术的编码装置的示例性配置的示图。
图2中示出的编码装置11包括信道音频编码单元21、对象音频编码单元22、元数据输入单元23、传播信息生成单元24和打包单元25。
信道音频编码单元21供应包含M个信道的多信道音频的每个信道的音频信号。例如,每个信道的音频信号从对应于这些信道中的每一个的麦克风供应。在图2中,从“#0”至“#M-1”的字符表示每个信道的信道编号。
信道音频编码单元21编码供应的每个信道的音频信号,并且将通过编码获得的编码数据供应至打包单元25。
对象音频编码单元22供应N个对象中的每一个的音频信号。例如,每个对象的音频信号从附接至这些对象中的每一个的麦克风供应。在图2中,从“#0”至“#N-1”的字符表示每个对象的对象编号。
对象音频编码单元22编码供应的每个对象的音频信号,并且将所获得的编码数据供应至打包单元25。
元数据输入单元23将每个对象的元数据供应至传播信息生成单元24。
例如,对象的参考帧中的元数据包含对象位置信息和传播信息。相反,不是对象的参考帧的帧的元数据包含对象位置信息,但是不包含传播信息。
传播信息生成单元24基于从元数据输入单元23供应的元数据生成不是参考帧的帧中的传播信息,并且将生成的传播信息存储在元数据中。利用这种布置,在传播信息生成单元24中,为所有帧获得包含对象位置信息和传播信息的元数据。
传播信息生成单元24将包含对象位置信息和传播信息的每个对象的元数据供应至打包单元25。
打包单元25将从信道音频编码单元21供应的编码数据、从对象音频编码单元22供应的编码数据和从传播信息生成单元24供应的元数据打包以生成和输出比特流。
以此方式获得的比特流包含每一帧的每个信道的编码数据、每个对象的编码数据以及每个对象的元数据。
在本文中,存储在单个帧的比特流中的M个信道中的每一个的音频信号和N个对象中的每一个的音频信号是应该同时再现的相同帧的音频信号。
<编码处理的描述>
接下来,将描述通过编码装置11执行的处理。
当编码装置11每次针对一个帧供应多个信道中的每一个的音频信号和多个对象中的每一个的音频信号时,编码装置11执行编码处理并且输出包含编码的音频信号的比特流。
在下文中,将参考图3中的流程图描述编码装置11的编码处理。
在步骤S11中,传播信息生成单元24确定要处理的帧是不是参考帧。
例如,通过接收用户的输入操作,与外部源通信,或者从外部记录区域读取,元数据输入单元23获取要处理的帧中的每个对象的元数据,并且将获取的元数据供应至传播信息生成单元24。
在传播信息包含在从元数据输入单元23供应的每个对象的要处理的帧中的元数据的情况下,传播信息生成单元24确定要处理的帧是参考帧。
应注意,被当作参考帧的帧被描述为用于所有对象都相同以便简化本文中的说明,但是在被当作参考帧的帧用于每个帧不同的情况下,足以为每个对象执行步骤S11和步骤S12的处理。
在步骤S11中,在确定要处理的帧是参考帧的情况下,传播信息生成单元24将从元数据输入单元23供应的每个对象的要处理的帧中的元数据照原样供应至打包单元25,并且该处理进行至步骤S13。
相反,在步骤S11中确定要处理的帧不是参考帧的情况下,该处理进行至步骤S12。
在步骤S12中,传播信息生成单元24基于从元数据输入单元23供应的元数据针对每个对象生成要处理的帧中的传播信息。
例如,传播信息生成单元24基于包含在要处理的元数据中的对象位置信息和先前从元数据输入单元23供应的参考帧的元数据中包含的对象位置信息和传播信息,通过评估以上描述的公式(1)或以上描述的公式(2)和(3),来生成要处理的帧中的传播信息。
当针对每个对象生成传播信息时,传播信息生成单元24将生成的传播信息存储在这些对象中的每一个的元数据中,并且将包含对象位置信息和传播信息的元数据供应至打包单元25。
在以此方式为每个对象获得包含对象位置信息和传播信息的元数据之后,该处理进行至步骤S13。
当在步骤S11中确定要处理的帧是参考帧时或者当在步骤S12中生成传播信息时,执行步骤S13中的处理。
换言之,在步骤S13中,打包单元25将从传播信息生成单元24供应的每个对象的元数据存储在比特流的DSE中。
在步骤S14中,信道音频编码单元21编码供应的每个信道的音频信号,并且将因此获得的每个信道的编码数据供应至打包单元25。
在步骤S15中,打包单元25将从信道音频编码单元21供应的每个信道的音频信号的编码数据存储在比特流的SCE或CPE中。换言之,编码数据被存储在跟随比特流中的DSE布置的每个元素中。
在步骤S16中,对象音频编码单元22编码供应的每个对象的音频信号,并且将因此获得的每个对象的编码数据供应至打包单元25。
在步骤S17中,打包单元25将从对象音频编码单元22供应的每个对象的音频信号的编码数据存储在比特流的SCE中。换言之,编码数据被存储在比特流中的DSE之后布置的一些元素中。
根据以上处理,对于正被处理的帧,获得存储所有信道的音频信号的编码数据以及所有对象的音频信号的元数据和编码数据。
在步骤S18中,打包单元25为单个帧输出获得的比特流。
在步骤S19中,编码装置11确定是否结束该处理。例如,在结束所有帧的编码的情况下,在步骤S19中确定结束该处理。
在步骤S19中确定没有结束该处理的情况下,该处理返回至步骤S11,下一帧被当作要被处理的帧,并且重复以上描述的处理。
相反,在步骤S19中确定结束该处理的情况下,停止由编码装置11的每个单元正在执行的处理,并且编码处理结束。
如上所述,编码装置11生成不是每个对象的参考帧的帧的传播信息,并且输出存储在比特流中的传播信息。利用该布置,可以降低手动分配传播信息的成本,并且可以更容易获得适当的传播信息。
<第一实施方式的变形例1>
<解码装置的示例性配置>
应注意,尽管以上描述了在编码装置11中生成传播信息的实例,但是还可以在解码装置中生成传播信息。在这种情况下,例如,如图4所示配置接受从编码装置输出的比特流的输入并且解码包含在比特流中的编码数据的解码装置。
图4中示出的解码装置101包括解包/解码单元111、传播信息生成单元112、渲染单元113和混合单元114。
解包/解码单元111获取从编码装置输出的比特流,并且此外,解包和解码该比特流。
解包/解码单元111将通过解包和解码获得的每个对象的音频信号供应至渲染单元113,并且此外,将通过解包和解码获得的每个对象的元数据供应至传播信息生成单元112。应注意,此时,假设传播信息仅包含在参考帧的元数据中,则传播信息没有包含在不是参考帧的帧的元数据中。
另外,解包/解码单元111将通过解包和解码获得的每个信道的音频信号供应至混合单元114。
传播信息生成单元112基于从解包/解码单元111供应的每个对象的元数据生成不是参考帧的帧中的传播信息,并且将生成的传播信息存储在元数据中。利用这种布置,在传播信息生成单元112中,为所有帧获得包含对象位置信息和传播信息的元数据。
传播信息生成单元112将包含对象位置信息和传播信息的每个对象的元数据供应至渲染单元113。
渲染单元113基于从解包/解码单元111供应的每个对象的音频信号和从传播信息生成单元112供应的每个对象的元数据生成M个信道的音频信号,并且将生成的音频信号供应至混合单元114。此时,渲染单元113生成M个信道中的每一个的音频信号,使得每个对象的声音图像被定位在由每个对象的对象位置信息指示的位置处,并且使得声音图像传播至由每个对象的传播信息指示的度数。
混合单元114为每个信道执行从解包/解码单元111供应的每个信道的音频信号和从渲染单元113供应的每个信道的音频信号的加权加法,并且生成每个信道的最终音频信号。混合单元114将以此方式获得的每个信道的最终音频信号供应至分别对应于每个信道的外部扬声器,并且使得声音再现。
<解码处理的描述>
接下来,将描述解码装置101的操作。
当比特流从编码装置供应时,解码装置101执行解码处理以生成音频信号并且将音频信号输出至扬声器。在下文中,将参考图5中的流程图描述由解码装置101执行的解码处理。
在步骤S51中,解包/解码单元111获取用于从编码装置发送的单个帧的比特流。换言之,接收要处理的帧的比特流。
在步骤S52中,解包/解码单元111执行帧解码处理。
换言之,解包/解码单元111解包在步骤S51中获取的要处理的帧的比特流,并且获取每个信道的编码数据、每个对象的编码数据和每个对象的元数据。
随后,解包/解码单元111解码每个信道的编码数据,并且将因此获得的每个信道的音频信号供应至混合单元114。另外,解包/解码单元111解码每个对象的编码数据,并且将因此获得的每个信道的音频信号供应至渲染单元113。
此外,解包/解码单元111将获取的每个对象的元数据供应至传播信息生成单元112。
在步骤S53中,传播信息生成单元112确定要处理的帧是不是参考帧。
例如,在传播信息包含在从解包/解码单元111供应的每个对象的要处理的帧中的元数据的情况下,传播信息生成单元112确定要处理的帧是参考帧。
在步骤S53中,在确定要处理的帧是参考帧的情况下,传播信息生成单元112将从元解包/解码单元111供应的每个对象的要处理的帧中的元数据照原样供应至渲染单元113,并且该处理进行至步骤S55。
相反,在步骤S53中确定要处理的帧不是参考帧的情况下,该处理进行至步骤S54。
在步骤S54中,传播信息生成单元112基于从解包/解码单元111供应的元数据针对每个对象生成要处理的帧中的传播信息。
例如,传播信息生成单元112基于包含在要处理的帧(当前帧)的元数据中的对象位置信息和包含在先前供应的参考帧的元数据中的对象位置信息和传播信息通过评估以上描述的公式(1)或以上描述的公式(2)和(3)生成要处理的帧中的传播信息。
当针对每个对象生成传播信息时,传播信息生成单元112将生成的传播信息存储在这些对象中的每一个的元数据中,并且将包含对象位置信息和传播信息的元数据供应至渲染单元113。
在以此方式为每个对象获得包含对象位置信息和传播信息的元数据之后,该处理进行至步骤S55。
当在步骤S53中确定要处理的帧是参考帧时或者当在步骤S54中生成传播信息时,执行步骤S55中的处理。
在步骤S55中,渲染单元113基于从解包/解码单元111供应的对象的音频信号和从传播信息生成单元112供应的元数据渲染对象的音频信号。
例如,对于每个对象,渲染单元113基于传播信息和对象位置信息根据矢量基幅值平移(VBAP)生成每个信道的音频信号,并且将生成的音频信号供应至混合单元114。在步骤S55中,生成音频信号,使得对象的声音图像被定位在由对象位置信息指示的位置处,并且使得声音图像传播至由传播信息指示的度数。
在步骤S56中,混合单元114为每个信道执行从解包/解码单元111供应的每个信道的音频信号的加权加法和从渲染单元113供应的每个信道的音频信号,并且将合成的音频信号供应至外部扬声器。利用这种布置,因为每个扬声器供应对应于扬声器的信道的音频信号,所以每个扬声器基于供应的音频信号再现声音。
在步骤S57中,解码装置101确定是否结束该处理。例如,在为所有帧结束音频信号输出至扬声器的情况下,在步骤S57中确定结果该处理。
在步骤S57中确定没有结束该处理的情况下,该处理返回至步骤S51,下一帧被当作要处理的帧,并且重复以上描述的处理。
相反,在步骤S57中确定结束该处理的情况下,停止由解码装置101的每个单元正在执行的处理,并且解码处理结束。
如上所述,解码装置101通过生成不是每个对象的参考帧的帧的传播信息来执行渲染。
利用该布置,可以降低手动分配传播信息的成本,并且可以更容易获得适当的传播信息。另外,如果使得在解码装置101侧上生成除了参考帧之外的帧的传播信息,则不必将除了参考帧之外的帧的传播信息存储在比特流中。因此,可以降低比特流发送至解码装置101的比特率。
<第二实施方式>
<关于传播信息的生成>
同时,第一实施方式描述了传播信息被手动分配至对象的音频信号的帧的子集的情况。
然而,还存在完全没有分配的任何传播信息的大量内容。
例如,可以处理对象音频的一些编码方案被设计成使得报头标记可用于在元数据中包括或不包括传播信息之间切换。换言之,允许存在没有分配的传播信息的比特流。
此外,首先还存在传播信息没有包括在比特流中的对象音频编码方案。
鉴于这种背景,存在传播信息没有在任何时间(帧)中被适当分配的大量内容,并且因此,不能为这种内容实现感觉高度逼真的再现。
因此,通过基于对象的对象位置信息和指示对象的尺寸的尺寸信息生成传播信息,可以将其配置为使得在没有手动分配传播信息的情况下获得适当的传播信息。
例如,在几个对象音频编码方案中,关于每个对象的尺寸信息包括在比特流中。在存在关于对象的尺寸信息的情况下,可以在没有手动分配传播信息的情况下通过使用对象位置信息和尺寸信息生成传播信息。
具体地,例如,假设对象的声音的声音图像要在水平方向和垂直方向上对称传播,并且假设指示从对象的中心至外壳(端部)的距离的信息被当作关于对象的尺寸信息。在下文中,d(i)是具有帧索引i的帧中的尺寸信息。
在这种情况下,如图6所示,假如点OB21是当前帧ifrm中的对象的中心位置并且点OBE21是对象的端部(外壳部)的位置,例如,从点OB21至点OBE21的距离变成尺寸信息d(ifrm),即,由尺寸信息指示的距离。应注意,在图6中,对应于图1中的情况的部分利用相同的参考符号表示,并且在适当情况下省略其描述。
在这个实例中,根据包括在对象位置信息中的半径r(ifrm)确定点OB21的位置。另外,从点OB21的位置和尺寸信息d(ifrm)确定点OBE21的位置。在本文中,将点OBE21定位在与连接原点O和点OB21的线L21正交的线上。换言之,连接点OB21和点OBE21的线L23作为垂直于线L21的线。
在以此方式给出关于对象的对象位置信息和尺寸信息的情况下,已知的是线L21的长度表示为r(ifrm)并且线L23的长度表示为d(ifrm)。
假如线L22是连接原点O和点OBE21的线,则当前帧ifrm中的传播信息s(ifrm)(即传播角)是在线L22和线L21之间获得的角。因此,半径r(ifrm)和尺寸信息d(ifrm)可以用于根据以下公式(4)计算传播信息s(ifrm)。
[数学式4]
s(ifrm)=tan-1{d(ifrm)/r(ifrm)}…(4)
在公式(4)中,计算了对象的当前帧ifrm中的尺寸信息d(ifrm)和对象的当前帧ifrm中的半径r(ifrm)的比d(ifrm)/r(ifrm),并且生成比d(ifrm)/r(ifrm)的反正切,来作为对象的当前帧ifrm中的传播信息s(ifrm)。
如果以此方式基于对象的当前帧ifrm中的半径r(ifrm)和尺寸信息d(ifrm)评估公式(4),则可以利用简单的数学运算生成对象的当前帧ifrm中的适当的传播信息s(ifrm)。
具体地,利用该实例,因为不必手动分配传播信息,所有可以大大降低分配传播信息的成本。换言之,即使在不存在具有分配的传播信息的单个帧的情况下,也可以相对于所有帧容易地生成适当的传播信息。利用这种布置,传播信息可以用于实现感觉高度逼真的内容再现。
另外,至于对象的声音的声音图像要在水平方向和垂直方向上不对称传播的情况,可以通过与公式(4)相似的计算同样生成传播信息。
换言之,例如,“水平方向距离”是从对象的中心至水平方向上的外壳(即,水平方向上的端部)的距离,并且“垂直方向距离”是从对象的中心至垂直方向上的外壳(即,垂直方向上的端部)的距离。
另外,假设对于当前帧ifrm中的对象,水平方向距离dwidth(ifrm)和垂直方向距离dheight(ifrm)被包括为尺寸信息。
在这种情况下,与以上描述的公式(4)相似,通过评估以下公式(5),可以获得当前帧ifrm中的水平方向上的传播信息swidth(ifrm),并且通过评估以下公式(6),可以获得当前帧ifrm中的垂直方向上的传播信息sheight(ifrm)。
[数学式5]
swidth(ifrm)=tan-1{dwidth(ifrm)/r(ifrm)}…(5)
[数学式6]
sheight(ifrm)=tan-1{dheight(ifrm)/r(ifrm)}…(6)
在公式(5)中,基于半径r(ifrm)和作为当前帧ifrm中的尺寸信息的水平方向距离dwidth(ifrm)计算水平方向传播信息swidth(ifrm)。类似地,在公式(6)中,基于半径r(ifrm)和作为当前帧ifrm中的尺寸信息的垂直方向距离dheight(ifrm)计算垂直方向传播信息sheight(ifrm)。
<编码处理的描述>
在基于如上所述的对象位置信息和尺寸信息生成传播信息的情况下,在图2中示出的编码装置11中,元数据和尺寸信息从元数据输入单元23供应至传播信息生成单元24。此时,元数据处于包含对象位置信息而不包含传播信息的状态。
传播信息生成单元24基于从元数据输入单元23供应的对象位置信息和尺寸信息生成传播信息。
在以此方式生成传播信息的情况下,在编码装置11中执行图7中示出的编码处理。在下文中,将参考图7中的流程图描述编码装置11的编码处理。
在步骤S81中,传播信息生成单元24生成传播信息。
换言之,通过接收用户的输入操作,与外部源通信,或者从外部记录区域读取,元数据输入单元23获取要处理的帧中的每个对象的元数据和尺寸信息,并且将获取的元数据和尺寸信息供应至传播信息生成单元24。
随后,传播信息生成单元24基于从元数据输入单元23供应的元数据和尺寸信息针对每个对象生成传播信息。
具体地,传播信息生成单元24基于包含在要处理的帧的元数据中的对象位置信息和要处理的帧的尺寸信息通过评估以上描述的公式(4)或以上描述的公式(5)和(6)生成要处理的帧中的传播信息。
然后,传播信息生成单元24将生成的传播信息存储在这些对象中的每一个的元数据中,并且将包含对象位置信息和传播信息和尺寸信息的元数据供应至打包单元25。
在生成传播信息之后,执行从步骤S82至步骤S88的处理并且编码处理结束,但是因为这些处理与图3中的从步骤S13至步骤S19的处理相似,因此省略了描述。然而,在步骤S82中,关于对象的尺寸信息还与元数据一起存储在比特流的DSE中。
如上所述,编码装置11基于对象位置信息和尺寸信息生成传播信息,并且输出存储在比特流中的传播信息。利用该布置,可以降低分配传播信息的成本,并且可以更容易获得适当的传播信息。
<第二实施方式的变形例1>
<解码处理的描述>
另外,在基于对象位置信息和尺寸信息生成传播信息的情况下,还可以在图4中示出的解码装置101中生成传播信息。
在解码装置101中生成传播信息的情况下,在解码装置101中执行图8中示出的解码处理。在下文中,将参考图8中的流程图描述通过解码装置101的解码处理。
应注意,因为步骤S111和步骤S112的处理与图5中的步骤S51和步骤S52的处理相似,所以将省略其描述。
然而,在步骤S112中,通过在解包/解码单元111中解包比特流获取每个对象的元数据和尺寸信息,并且元数据和尺寸信息被供应至传播信息生成单元112。在这种情况下,通过解包获取的元数据包含对象位置信息但是不包含传播信息。
在步骤S113中,传播信息生成单元112基于从解包/解码单元111供应的元数据和尺寸信息针对每个对象生成要处理的帧中的传播信息。
例如,传播信息生成单元112基于包含在要处理的帧的元数据中的对象位置信息和要处理的帧的尺寸信息通过评估以上描述的公式(4)或以上描述的公式(5)和(6)生成要处理的帧中的传播信息。
当生成每个对象的传播信息时,传播信息生成单元112将生成的传播信息存储在这些对象中的每一个的元数据中,并且将包含对象位置信息和传播信息的元数据供应至渲染单元113。
在执行步骤S113中的处理之后,执行从步骤S114至步骤S116的处理并且解码处理结束,但是因为这些处理与图5中的步骤S55至步骤S57的处理相似,所以省略其描述。
如上所述,解码装置101基于关于每个对象的对象位置信息和尺寸信息生成传播信息,并且执行渲染。
利用该布置,可以降低分配传播信息的成本,并且可以更容易获得适当的传播信息。另外,因为不必将传播信息存储在比特流中,所以可以降低比特流发送至解码装置101的比特率。
<第三实施方式>
<关于传播信息的生成>
同时,在可以处理对象音频的几个编码方案中,通过基于由用户指定的缩放信息校正对象位置信息,实现对应于缩放的对象移动。
另一方面,关于对象的声音图像(传播的),根据缩放信息不执行诸如校正传播信息的处理。因此,即使如果对象由于缩放靠近用户,例如,对象的声音图像没有展开,并且因此将削弱真实感。
因此,可以将其配置为使得通过基于缩放信息适当的校正要处理的帧中的传播信息,可以实现感觉更逼真的内容再现。
例如,假设在解码侧上,基于由用户指定的缩放信息校正对象的对象位置信息,则实现对应于缩放的对象的移动。
具体地,如由图9中的箭头A11所示,例如,在使点SCE11和点SCE12作为水平方向上的端点缩放前的状态下,假设对象OB61正被显示在定位在用户U11前面的虚拟屏幕SC11上。
在本文中,假设对象OB61是对应于音频对象的对象,并且从用户U11看到的指示对象OB61的垂直方向上的位置的垂直方向角(仰角)是0度。换言之,假设由对象OB61的对象位置信息指示的垂直方向角是0度。
另外,假设用户U11被定位在作为参考的原点O处,并且点SCO11是穿过原点O垂直于屏幕SC11的面的线L61和屏幕SC11之间的交叉点。
在本文中,点SCO11是屏幕SC11的中心位置,并且从用户U11看到的点SCO11的位置是水平方向角和垂直方向角都为0度的位置。
在这种状态下,从用户U11看到的对象OB61被定位在对角线右前方向上。此时,假如线L62是连接原点O和对象OB61的线并且是在线L61和线L62之间获得的角,则从用户U11看到的对象OB61的位置是水平方向角为和垂直方向角为0度的位置。
假设在由箭头A11示出的这种状态下,用户U11等执行缩放操作,并且给出缩放信息。
在本文中,例如,缩放信息被当作缩放后的虚拟屏幕SC21相对于缩放前的屏幕SC11的位置和尺寸是可指定的信息,诸如,指示缩放后的虚拟屏幕SC21的中心位置和缩放倍率的信息。换言之,缩放信息被当作屏幕SC11和屏幕SC21之间的位置和尺寸关系是可指定的信息。
应注意,为了在本文中简化说明,假设缩放前后的屏幕的中心位置在缩放前从用户U11看到的垂直方向上没有改变(移动)。
从这种缩放信息,指定了在屏幕SC21的中心位置处的点SCO21以及是屏幕SC21的水平方向上的端部的点SCE21和SCE22。
当供应缩放信息时,基于缩放信息校正对象OB61的对象位置信息,并且对象OB61的声音图像定位位置移动至根据缩放的位置。另外,在内容的图像上执行缩放处理。
利用该布置,显示了用户U11出现在虚拟屏幕SC21前面移动的图像,并且声音图像的定位位置也改变。换言之,执行图像显示控制和声音图像定位控制使得用户U11出现如由箭头M11所示的移动。
当执行缩放处理时,例如,用户U11变成定位在如箭头A12所示的屏幕SC21的前面,并且因此对象OB61变成定位在从用户U11看到的对角线右前方向上。
例如,线L63是在缩放后穿过用户U11的位置(即,原点O)而且还垂直于屏幕SC21的面的线。此时,线L63和屏幕SC21之间的交叉点变成屏幕SC21的中心位置处的点SCO21,并且从缩放后的用户U11看到的点SCO21的位置是水平方向角和垂直方向角都为0度的位置。
另外,线L64是连接缩放后的原点O和对象OB61的线。假如是在L63和线L64之间的角,则从缩放后的用户U11看到的对象OB61的位置是水平方向角为且垂直方向角为0度的位置。
当以此方式供应缩放信息时,指示对象OB61的水平方向上位置的水平方向角被校正为
具体地,如下计算在校正对象OB61的对象位置信息之后的水平方向上的水平方向角
换言之,例如,假设在对象OB61是如图10中的箭头A21所示的用户U11的对角线右前方的状态下执行缩放,并且在缩放后,对象OB61变成定位在如图10中的箭头A22所示的用户U11的对角线左前方。应注意,在图10中,对应于图9中的情况的部分利用相同的参考符号表示,并且在适当情况下省略其描述。
例如,如图10中的箭头A21所示,是在连接缩放前的用户11的位置(即,原点O)和点SCE11的线与线L61之间获得的角度。相似地,是在连接缩放前的原点O和SCE12的线与线L61之间获得的角度。这些角度是已知信息。
另外,是在连接缩放前的用户U11的位置(即,原点O)和点SCE21的线与线L61之间获得的角度。此外,是在缩放前连接原点O和点SCE22的线与线L61之间获得的角度。可以从缩放信息计算出这些角度
此外,假设用户U11和虚拟屏幕之间的相对位置关系在缩放前后相同,如箭头A22所示,连接缩放后的用户U11的位置(即,原点O)和点SCE21的线与线L63之间获得的角度变成相似地,在连接缩放后的原点O和点SCE22的线与线L63之间获得的角度变成
如果使用这些角度以及对象OB61的未校正的对象位置信息中的水平方向角则可以计算对象OB61的校正过的对象位置信息中的水平方向角换言之,可以根据以下公式(7)计算水平方向角
[数学式7]
应注意,以上描述了屏幕的中心位置在缩放前后在垂直方向上没有改变的实例。然而,即使在屏幕的中心位置在缩放前后在垂直方向上也改变的情况下,也可以与水平方向相似地计算校正过的对象位置信息中的垂直方向角。
例如,θ是缩放前(即,校正之前)的对象位置信息的垂直方向角,并且是缩放后(即,校正之后)的对象位置信息的垂直方向角θ'。
另外,θrepro top是连接缩放前后的用户的位置(即,原点O)和虚拟屏幕的中心的线与连接原点O和虚拟屏幕的顶部边缘的线之间获得的角度。θrepro bottom是连接缩放前后的原点O和虚拟屏幕的中心的线与连接原点O和虚拟屏幕的底部边缘的线之间获得的角度。这些角度θrepro top和θrepro bottom是已知的。
此外,θZASource top是连接缩放前的原点O和缩放前的虚拟屏幕的中心的线与连接缩放前的原点O和缩放后的虚拟屏幕的顶部边缘的线之间获得的角度。相似地,θZASource bottom是连接缩放前的原点O和缩放前的虚拟屏幕的中心的线与连接缩放前的原点O和缩放后的虚拟屏幕的底部边缘的线之间获得的角度。可以从缩放信息计算出这些角度θZASource top和θZASource bottom
在这种情况下,如果使用角度θrepro top、θrepro bottom、θZASource top和θZASource bottom以及对象的未校正的对象位置信息中的垂直方向角θ,则可以计算出对象的校正过的对象位置信息中的垂直方向角θ'。换言之,可以根据以下公式(8)计算垂直方向角θ'。
[数学式8]
当校正对象位置信息时,基于缩放信息和未校正的对象位置信息执行公式(7)、公式(8)等的计算,并且校正包括在对象位置信息中的对象的水平方向角、垂直方向角和半径。
同时,缩放前后的传播角的关系与由缩放前后的对象位置信息指示的水平方向角的关系和垂直方向角的关系相同。因此,通过执行与公式(7)和(8)相似的计算,可以适当地校正传播信息。换言之,可以生成缩放后的适当的传播信息。
具体地,例如,假设对象的声音的声音图像要在水平方向和垂直方向上不对称传播,并且假设传播信息swidth(ifrm)和传播信息sheight(ifrm)被给出为缩放前的当前帧ifrm中的传播信息。
另外,s'width(ifrm)是缩放后的当前帧ifrm中的水平方向上的传播角,并且s'height(ifrm)是缩放后的当前帧ifrm中的垂直方向上的传播角。换言之,包含传播信息s'width(ifrm)和传播信息s'height(ifrm)的信息被当作基于缩放信息根据缩放已经校正的校正之后(缩放后)的传播信息。
在这种情况下,通过利用swidth(ifrm)和s'width(ifrm)替换公式(7)中的可以获得校正的传播信息s'width(ifrm)。相似地,通过利用sheight(ifrm)和s'height(ifrm)替换公式(8)中的θ和θ',可以获得校正的传播信息s'height(ifrm)。
换言之,通过基于对象的当前帧ifrm中的缩放前的(未校正)的传播信息swidth(ifrm)评估以下公式(9),可以获得校正过的(缩放后)传播信息s'width(ifrm)。
另外,通过基于对象的当前帧ifrm中的缩放前的(未校正的)传播信息sheight(ifrm)评估以下公式(10),可以获得校正过的传播信息s'height(ifrm)。
[数学式9]
[数学式10]
根据这些公式(9)和(10)的传播信息的校正还可以基于缩放前的虚拟屏幕SC11和由缩放信息确定的缩放后的虚拟屏幕SC21之间的位置和尺寸关系、以及还基于对象的当前帧ifrm中的缩放前的传播信息,生成对象的当前帧ifrm中的缩放后的传播信息。
应注意,例如,尽管以上描述了对象的声音的声音图像要在水平方向和垂直方向上不对称传播的实例,但是即使在声音图像要在水平方向和垂直方向上对称传播的情况下也可以相似地校正传播信息。
在这种情况下,例如,假如s'(ifrm)是校正过的传播信息,足以通过利用传播信息s(ifrm)和传播信息s'(ifrm)替换公式(9)中的传播信息swidth(ifrm)和传播信息s'width(ifrm)执行计算。
<解码装置的示例性配置>
例如,在基于如上所述的缩放信息校正对象位置信息和传播信息的情况下,如图11所示配置解码装置。应注意,在图11中,对应于图4中的情况的部分利用相同的参考符号表示,并且在适当情况下省略其描述。
图11中示出的解码装置101包括解包/解码单元111、传播信息生成单元112、渲染单元113和混合单元114。另外,图11中示出的解码装置101的传播信息生成单元112设置有位置信息校正单元161和传播信息校正单元162。
图11中示出的解码装置101与图4中示出的解码装置101的不同在于传播信息生成单元112设置有位置信息校正单元161和传播信息校正单元162,然而具有与图4中示出的解码装置101相同的配置。
在这个实例中,每个对象的所有帧中的元数据从解包/解码单元111供应至传播信息生成单元112。在这种情况下,元数据始终包含对象位置信息和传播信息。此外,传播信息生成单元112还根据用户操作等供应缩放信息。
传播信息生成单元112的位置信息校正单元161基于供应的缩放信息校正包含在从解包/解码单元111供应的元数据中的对象位置信息。
传播信息生成单元112的传播信息校正单元162基于供应的缩放信息校正包含在从解包/解码单元111供应的元数据中的传播信息。换言之,传播信息校正单元162基于缩放信息和缩放前的(未校正的)传播信息生成缩放后的传播信息。
传播信息生成单元112将包含校正过的对象位置信息和校正过的传播信息的每个对象的元数据供应至渲染单元113。
<解码处理的描述>
接下来,将描述图11中示出的解码装置101的操作。
换言之,在下文中,将参考图12中的流程图描述通过图11中示出的解码装置101的解码处理。
应注意,因为步骤S141和步骤S142的处理与图5中的步骤S51和步骤S52的处理相似,所以将省略其描述。然而,在步骤S142中,包含每个对象的对象位置信息和传播信息的元数据被供应至传播信息生成单元112。
在步骤S143中,位置信息校正单元161基于供应的缩放信息校正从解包/解码单元111供应的包含在元数据中的对象位置信息。
换言之,位置信息校正单元161基于从解包/解码单元111供应的包含在元数据中的缩放信息和对象位置信息校正包括在对象位置信息中的水平方向角、垂直方向角和半径。
具体地,位置信息校正单元161通过评估以上描述的公式(7)计算指示对象的位置的校正过的水平方向角并且还通过评估以上描述的公式(8)计算指示对象的位置的校正过的垂直方向角θ'。另外,位置信息校正单元161通过将指示对象的位置的半径除以缩放倍率来计算指示对象的位置的校正过的半径。
在步骤S144中,传播信息校正单元162基于供应的缩放信息校正从解包/解码单元111供应的包含在元数据中的传播信息。换言之,根据缩放生成缩放后的传播信息。
例如,假设传播信息swidth(ifrm)和传播信息sheight(ifrm)被包括为从解包/解码单元111供应的元数据的传播信息。在这种情况下,传播信息校正单元162基于上述传播信息和缩放信息通过评估以上描述的公式(9)和(10)计算校正过的传播信息s'width(ifrm)和传播信息s'height(ifrm)。
当以此方式校正对象位置信息和传播信息时,传播信息生成单元112将包含校正过的对象位置信息和校正过的传播信息的每个对象的元数据供应至渲染单元113。
应注意,在不供应缩放信息的情况下,即,在不执行缩放的情况下,不具体执行步骤S143和步骤S144中的处理。换言之,不校正对象位置信息和传播信息。
在执行步骤S144中的处理之后,执行从步骤S145至步骤S147的处理并且解码处理结束,但是因为这些处理与图5中的步骤S55至步骤S57的处理相似,所以省略其描述。
如上所述,解码装置101校正关于每个对象的对象位置信息和传播信息,并且执行渲染。
利用这种布置,可以容易地获得适当的对象位置信息和传播信息,并且可以实现感觉更逼真的内容再现。
此外,上述中的第三实施方式还可以与第一实施方式或第二实施方式结合。
例如,在结合第二实施方式和第三实施方式的情况下,在作为参考图8描述的解码处理的一部分执行步骤S113中的处理之后,执行图12的步骤S143和步骤S144中的处理,并且此后,执行步骤S114至步骤S116的处理。
通过以此方式配置该处理,即使当存在缺乏传播信息的帧时,也可以容易地获得根据缩放信息的适当的传播信息。
<计算机的示例性配置>
顺便提及,上述处理序列可以由硬件执行或者可以由软件执行。在由软件执行处理序列的情况下,形成软件的程序被安装到计算机中。在此,计算机的实例包括结合在专用硬件中的计算机和可以通过安装各种类型的程序执行各种类型的功能的通用个人计算机。
图13是示出了利用程序执行上述处理序列的计算机的硬件的配置实例的框图。
在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504相互连接。
进一步地,输入/输出接口505连接到总线504。连接至输入/输出接口505的是输入单元506、输出单元507、记录单元508、通信单元509和驱动器510。
输入单元506包括键盘、鼠标、麦克风、图像传感器等。输出单元507包括显示器、扬声器等。记录单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动器510驱动可移除记录介质511,诸如,磁盘、光盘、磁光盘和半导体存储器。
在如上所述配置的计算机中,CPU 501将例如被记录在记录单元508中的程序经由输入/输出接口505和总线504装载到RAM 503上,并且执行该程序,从而执行上述处理序列。
例如,要由计算机(CPU 501)执行的程序可以记录和设置在作为封装介质等的可移除记录介质511中。此外,程序可以经由诸如局域网、互联网和数字卫星广播等有线或无线传输介质提供。
在计算机中,通过将可移除记录介质511安装到驱动器510上,程序可以经由输入/输出接口505安装到记录单元508中。此外,程序还可以经由有线或无线传输介质由通信单元509接收,并且安装到记录单元508中。此外,程序可以提前安装到ROM 502或记录单元508中。
应注意,由计算机执行的程序可以是处理以本文中描述的顺序的时间序列按序执行的程序或者可以是处理同时或以必要时间,诸如当调用该处理时执行。
此外,本技术的实施方式不局限于上述实施方式,并且只要它们在本技术的范围内可以发生各种变化。
例如,本技术可以采用云计算的配置,其中,多个装置经由网络共享单个功能并且协作执行处理。
此外,可以由单个装置执行或者由多个装置共享和执行上述流程图中的每个步骤。
此外,在单个步骤包括多个处理的情况下,可以由单个装置执行或者由多个装置共享和执行单个步骤中包括的多个处理。
参考符号列表
11 编码装置
22 对象音频编码单元
23 元数据输入单元
24 传播信息生成单元
101 解码装置
111 解包/解码单元
112 传播信息生成单元
113 渲染单元
161 位置信息校正单元
162 传播信息校正单元。

Claims (12)

1.一种信号处理装置,包括:
传播信息生成单元,被配置为基于与所述音频对象的要处理的帧不同的其他帧中的传播信息、缩放信息和所述音频对象的尺寸信息中的任一信息以及音频对象的要处理的帧中的对象位置信息,来生成所述音频对象的所述要处理的帧中的传播信息。
2.根据权利要求1所述的信号处理装置,其中
所述传播信息生成单元基于所述音频对象的其他帧中的传播信息、所述音频对象的所述要处理的帧中的对象位置信息和所述其他帧中的对象位置信息,来生成所述要处理的帧的所述传播信息。
3.根据权利要求2所述的信号处理装置,其中
所述对象位置信息是从参考位置至所述音频对象的距离。
4.根据权利要求3所述的信号处理装置,其中
所述传播信息生成单元生成所述要处理的帧中的距离和所述其他帧中的距离的比与所述其他帧中的所述传播信息的正切的乘积的反正切,来作为所述要处理的帧的所述传播信息。
5.根据权利要求1所述的信号处理装置,其中
所述传播信息生成单元基于所述缩放信息和所述音频对象的要处理的帧中的传播信息,来生成缩放后的所述音频对象的要处理的帧中的传播信息。
6.根据权利要求5所述的信号处理装置,其中
所述传播信息生成单元基于由所述缩放信息确定的缩放前的虚拟屏幕和缩放后的虚拟屏幕之间的位置和尺寸关系,来生成缩放后的所述音频对象的所述要处理的帧中的传播信息。
7.根据权利要求1所述的信号处理装置,其中
所述传播信息生成单元基于所述尺寸信息和所述音频对象的所述要处理的帧中的所述对象位置信息,来生成所述要处理的帧中的传播信息。
8.根据权利要求7所述的信号处理装置,其中
所述尺寸信息是从所述音频对象的中心至外壳的距离。
9.根据权利要求8所述的信号处理装置,其中
所述对象位置信息是从参考位置至所述音频对象的距离。
10.根据权利要求9所述的信号处理装置,其中
所述传播信息生成单元生成所述尺寸信息和所述要处理的帧中的所述对象位置信息的比的反正切,来作为所述要处理的帧中的传播信息。
11.一种信号处理方法,包括以下步骤:
基于与所述音频对象的要处理的帧不同的其他帧中的传播信息、缩放信息和所述音频对象的尺寸信息中的任一信息以及音频对象的要处理的帧中的对象位置信息,来生成所述音频对象的所述要处理的帧中的传播信息。
12.一种使得计算机执行处理的程序,包括以下步骤:
基于与所述音频对象的所述要处理的帧不同的其他帧中的传播信息、缩放信息和所述音频对象的尺寸信息中的任一信息以及音频对象的要处理的帧中的对象位置信息,来生成所述音频对象的所述要处理的帧中的传播信息。
CN201880026183.0A 2017-04-25 2018-04-11 信号处理装置和方法以及存储介质 Active CN110537373B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017-085907 2017-04-25
JP2017085907 2017-04-25
PCT/JP2018/015158 WO2018198767A1 (ja) 2017-04-25 2018-04-11 信号処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
CN110537373A true CN110537373A (zh) 2019-12-03
CN110537373B CN110537373B (zh) 2021-09-28

Family

ID=63919609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880026183.0A Active CN110537373B (zh) 2017-04-25 2018-04-11 信号处理装置和方法以及存储介质

Country Status (8)

Country Link
US (1) US20200126582A1 (zh)
EP (1) EP3618463A4 (zh)
JP (2) JP7107305B2 (zh)
KR (1) KR102506167B1 (zh)
CN (1) CN110537373B (zh)
BR (1) BR112019021897A2 (zh)
RU (1) RU2763785C2 (zh)
WO (1) WO2018198767A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115243075A (zh) * 2014-10-10 2022-10-25 索尼公司 再现装置和再现方法
US20200126582A1 (en) * 2017-04-25 2020-04-23 Sony Corporation Signal processing device and method, and program
BR112019021904A2 (pt) 2017-04-26 2020-05-26 Sony Corporation Dispositivo e método de processamento de sinal, e, programa.
JP2023506240A (ja) * 2019-12-12 2023-02-15 リキッド・オキシゲン・(エルオーイクス)・ベー・フェー 仮想音源と関連付けられた音声信号を発生させること

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0966179A2 (en) * 1998-06-20 1999-12-22 Central Research Laboratories Limited A method of synthesising an audio signal
WO2010034063A1 (en) * 2008-09-25 2010-04-01 Igruuv Pty Ltd Video and audio content system
CN103493479A (zh) * 2010-10-04 2014-01-01 布鲁珍视网络有限公司 低延迟h.264视频编码的抗误码的系统和方法
CN105227961A (zh) * 2014-06-27 2016-01-06 汤姆逊许可公司 用于确定图像组中的可修改单元集合的方法和设备
WO2016050740A1 (en) * 2014-10-01 2016-04-07 Dolby International Ab Efficient drc profile transmission
WO2016056411A1 (ja) * 2014-10-10 2016-04-14 ソニー株式会社 符号化装置および方法、再生装置および方法、並びにプログラム
CN105723740A (zh) * 2013-11-14 2016-06-29 杜比实验室特许公司 音频的屏幕相对呈现和用于这样的呈现的音频的编码和解码
CN105900169A (zh) * 2014-01-09 2016-08-24 杜比实验室特许公司 音频内容的空间误差度量
CN105898669A (zh) * 2016-03-18 2016-08-24 南京青衿信息科技有限公司 一种声音对象的编码方法
CN106105220A (zh) * 2014-01-07 2016-11-09 诺基亚技术有限公司 用于视频编码和解码的方法和装置
WO2016208406A1 (ja) * 2015-06-24 2016-12-29 ソニー株式会社 音声処理装置および方法、並びにプログラム
WO2017020011A1 (en) * 2015-07-30 2017-02-02 Dolby Laboratories Licensing Corporation Searching the results of an automatic speech recognition process
CN106385660A (zh) * 2015-08-07 2017-02-08 杜比实验室特许公司 处理基于对象的音频信号
CN106463128A (zh) * 2014-03-26 2017-02-22 弗劳恩霍夫应用研究促进协会 屏幕相关的音频对象重映射的设备和方法
CN106465034A (zh) * 2014-03-26 2017-02-22 弗劳恩霍夫应用研究促进协会 采用几何距离定义的音频呈现装置和方法
JP2017055149A (ja) * 2015-09-07 2017-03-16 ソニー株式会社 音声処理装置および方法、符号化装置、並びにプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3256045B2 (ja) * 1993-09-17 2002-02-12 シャープ株式会社 音声出力回路
US7532901B1 (en) * 2001-03-16 2009-05-12 Radeum, Inc. Methods and apparatus to detect location and orientation in an inductive system
US8743284B2 (en) * 2007-10-08 2014-06-03 Motorola Mobility Llc Synchronizing remote audio with fixed video
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
US10326978B2 (en) * 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
WO2013093565A1 (en) * 2011-12-22 2013-06-27 Nokia Corporation Spatial audio processing apparatus
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
WO2017208820A1 (ja) * 2016-05-30 2017-12-07 ソニー株式会社 映像音響処理装置および方法、並びにプログラム
US10863297B2 (en) * 2016-06-01 2020-12-08 Dolby International Ab Method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position
EP3301951A1 (en) * 2016-09-30 2018-04-04 Koninklijke KPN N.V. Audio object processing based on spatial listener information
US10721578B2 (en) * 2017-01-06 2020-07-21 Microsoft Technology Licensing, Llc Spatial audio warp compensator
US10861467B2 (en) * 2017-03-01 2020-12-08 Dolby Laboratories Licensing Corporation Audio processing in adaptive intermediate spatial format
US20200126582A1 (en) * 2017-04-25 2020-04-23 Sony Corporation Signal processing device and method, and program
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
GB201800918D0 (en) * 2018-01-19 2018-03-07 Nokia Technologies Oy Associated spatial audio playback

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0966179A2 (en) * 1998-06-20 1999-12-22 Central Research Laboratories Limited A method of synthesising an audio signal
WO2010034063A1 (en) * 2008-09-25 2010-04-01 Igruuv Pty Ltd Video and audio content system
CN103493479A (zh) * 2010-10-04 2014-01-01 布鲁珍视网络有限公司 低延迟h.264视频编码的抗误码的系统和方法
CN105723740A (zh) * 2013-11-14 2016-06-29 杜比实验室特许公司 音频的屏幕相对呈现和用于这样的呈现的音频的编码和解码
CN106105220A (zh) * 2014-01-07 2016-11-09 诺基亚技术有限公司 用于视频编码和解码的方法和装置
CN105900169A (zh) * 2014-01-09 2016-08-24 杜比实验室特许公司 音频内容的空间误差度量
CN106465034A (zh) * 2014-03-26 2017-02-22 弗劳恩霍夫应用研究促进协会 采用几何距离定义的音频呈现装置和方法
CN106463128A (zh) * 2014-03-26 2017-02-22 弗劳恩霍夫应用研究促进协会 屏幕相关的音频对象重映射的设备和方法
CN105227961A (zh) * 2014-06-27 2016-01-06 汤姆逊许可公司 用于确定图像组中的可修改单元集合的方法和设备
WO2016050740A1 (en) * 2014-10-01 2016-04-07 Dolby International Ab Efficient drc profile transmission
WO2016056411A1 (ja) * 2014-10-10 2016-04-14 ソニー株式会社 符号化装置および方法、再生装置および方法、並びにプログラム
WO2016208406A1 (ja) * 2015-06-24 2016-12-29 ソニー株式会社 音声処理装置および方法、並びにプログラム
WO2017020011A1 (en) * 2015-07-30 2017-02-02 Dolby Laboratories Licensing Corporation Searching the results of an automatic speech recognition process
CN106385660A (zh) * 2015-08-07 2017-02-08 杜比实验室特许公司 处理基于对象的音频信号
JP2017055149A (ja) * 2015-09-07 2017-03-16 ソニー株式会社 音声処理装置および方法、符号化装置、並びにプログラム
CN105898669A (zh) * 2016-03-18 2016-08-24 南京青衿信息科技有限公司 一种声音对象的编码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
翁超: "《数字音视频码流分割及合并技术研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
EP3618463A1 (en) 2020-03-04
JP2022137213A (ja) 2022-09-21
JP7388492B2 (ja) 2023-11-29
JPWO2018198767A1 (ja) 2020-02-27
JP7107305B2 (ja) 2022-07-27
KR20190140913A (ko) 2019-12-20
BR112019021897A2 (pt) 2020-05-26
RU2019132899A (ru) 2021-04-19
EP3618463A4 (en) 2020-04-29
WO2018198767A1 (ja) 2018-11-01
CN110537373B (zh) 2021-09-28
RU2763785C2 (ru) 2022-01-11
RU2019132899A3 (zh) 2021-07-21
US20200126582A1 (en) 2020-04-23
KR102506167B1 (ko) 2023-03-07

Similar Documents

Publication Publication Date Title
RU2683380C2 (ru) Устройство и способ для повторного отображения относящихся к экрану звуковых объектов
CN110537373A (zh) 信号处理装置和方法以及程序
US11330310B2 (en) Encoding device and method, reproduction device and method, and program
TWI326448B (en) Method for encoding and an audio signal and apparatus thereof and computer readable recording medium for method for decoding an audio signal
CN110121734A (zh) 一种信息的处理方法及装置
Stein et al. Ambisonics depth extensions for six degrees of freedom
CN111903135A (zh) 信息处理装置、信息处理方法以及程序
JP7314929B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20210243485A1 (en) Receiving apparatus, transmission apparatus, receiving method, transmission method, and program
US20230123253A1 (en) Method and Apparatus for Low Complexity Low Bitrate 6DOF HOA Rendering
GB2568726A (en) Object prioritisation of virtual content
Trevino et al. A Spatial Extrapolation Method to Derive High-Order Ambisonics Data from Stereo Sources.
CN116055746A (zh) 视频编码方法及装置、视频解码方法及装置
CN117640858A (zh) 录播画面的合成方法、装置、电子设备以及存储介质
KR100871159B1 (ko) 컨텐츠 영상을 제공하는 방송수신장치 및 그 방법
KR20150111115A (ko) 오디오 신호 처리 장치 및 방법
KR20150111117A (ko) 오디오 신호 처리 장치 및 방법
KR20150111116A (ko) 오디오 신호 처리 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant