CN116325809A - 信息处理装置、方法和程序 - Google Patents
信息处理装置、方法和程序 Download PDFInfo
- Publication number
- CN116325809A CN116325809A CN202180067428.6A CN202180067428A CN116325809A CN 116325809 A CN116325809 A CN 116325809A CN 202180067428 A CN202180067428 A CN 202180067428A CN 116325809 A CN116325809 A CN 116325809A
- Authority
- CN
- China
- Prior art keywords
- position information
- information
- reference viewpoint
- listener
- viewpoint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title abstract description 55
- 238000004364 calculation method Methods 0.000 claims description 67
- 238000003672 processing method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 21
- 230000005540 biological transmission Effects 0.000 description 47
- 230000008569 process Effects 0.000 description 45
- 230000009466 transformation Effects 0.000 description 43
- 238000004891 communication Methods 0.000 description 30
- 238000009877 rendering Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 13
- 230000004044 response Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000001131 transforming effect Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/50—Controlling the output signals based on the game progress
- A63F13/52—Controlling the output signals based on the game progress involving aspects of the displayed game scene
- A63F13/525—Changing parameters of virtual cameras
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/50—Controlling the output signals based on the game progress
- A63F13/54—Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/4728—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
- Stereophonic System (AREA)
Abstract
本技术涉及可以基于内容制作者的意图再现内容的信息处理装置和方法以及程序。信息处理装置获取收听者位置信息、第一参考视点的位置信息、第一对象在第一参考视点的对象位置信息、第二参考视点的位置信息,第一对象在第二参考视点的对象位置信息和第二对象的对象位置信息,并且基于收听者位置信息、第一参考视点的位置信息、第一参考视点的对象位置信息、第二参考视点的位置信息和第二参考视点的对象位置信息计算第一对象在收听者的视点的位置信息。本技术可应用于信息处理装置。
Description
技术领域
本技术涉及信息处理装置和方法以及程序,并且具体地涉及可以基于内容制作者的意图再现内容的信息处理装置、方法以及程序。
背景技术
例如,在自由视点空间中,假定将通过使用绝对坐标系统将要配置在该空间中的每个对象放置在固定布局(例如,参见专利文献1)。
在这种情况下,基于绝对空间中收听者的坐标位置和面部方位(orientation,定向)与对象之间的关系唯一地确定从任何收听位置观看的每个对象的方向,基于与收听位置的距离唯一地确定每个对象的增益,并且再现每个对象的声音。
[引用列表]
[专利文献]
[专利文献1]
WO 2019/198540
发明内容
[技术问题]
收听者所要强调的内容和要点的艺术质量也是重要的。
在一些情况下,对象理想地向前移动,例如,音乐内容中要强调的乐器或演奏者或运动内容中要强调的运动员。
在一些情况下,每个对象应布置在不同的布局中,例如,对象应始终布置在相对于收听者的固定位置处。
鉴于这样的情况,在收听者与对象之间的简单的物理关系中,可能不足以发现内容的吸引性。
鉴于这种情况做出本技术,并且本技术被设计成基于内容制作者的意图再现内容。
[问题的解决方案]
根据本技术的一个方面的信息处理装置包括:收听者位置信息获取单元,获取关于收听者的视点的收听者位置信息;参考视点信息获取单元,获取第一参考视点的位置信息、第一对象在第一参考视点的对象位置信息、第二参考视点的位置信息、第一对象在第二参考视点的对象位置信息和第二对象的对象位置信息;以及对象位置计算单元,基于收听者位置信息、第一参考视点的位置信息、第一对象在第一参考视点的对象位置信息、第二参考视点的位置信息、以及第一对象在第二参考视点的对象位置信息,计算第一对象在收听者的视点的位置信息。
根据本技术的一个方面的信息处理方法或程序包括以下步骤:获取收听者的视点的收听者位置信息;获取第一参考视点的位置信息、第一对象在第一参考视点的对象位置信息、第二参考视点的位置信息、第一对象在第二参考视点的对象位置信息和第二对象的对象位置信息;以及基于收听者位置信息、第一参考视点的位置信息、第一对象在第一参考视点的对象位置信息、第二参考视点的位置信息以及第一对象在第二参考视点的对象位置信息,计算第一对象在收听者的视点的位置信息。
在本技术的一方面,获取关于收听者的视点的收听者位置信息;获取第一参考视点的位置信息、第一对象在第一参考视点的对象位置信息、第二参考视点的位置信息和第一对象在第二参考视点的对象位置信息;获取第二对象的对象位置信息;并且基于收听者位置信息、第一参考视点的位置信息、第一对象在第一参考视点的对象位置信息、第二参考视点的位置信息、以及第一对象在第二参考视点的对象位置信息计算第一对象在收听者的视点的位置信息。
附图说明
图1是基于绝对坐标的插值对象和基于极坐标的固定对象的说明图。
图2示出了内容再现系统的配置实例。
图3是基于极坐标的插值对象的说明图。
图4示出了内容再现系统的配置实例。
图5是基于绝对坐标的固定对象的说明图。
图6示出了内容再现系统的配置实例。
图7是对象绝对坐标位置信息的插值的说明图。
图8是视点侧的三角网格的内部比例的说明图。
图9是对象位置的计算的说明图。
图10是通过插值计算对象极坐标位置信息的说明图。
图11表示系统配置信息的实例。
图12表示位流格式的实例。
图13表示位流格式的实例。
图14表示基于极坐标的固定对象的元数据实例。
图15表示基于极坐标的插值对象的元数据实例。
图16表示基于绝对坐标的固定对象的元数据实例。
图17示出了内容再现系统的配置实例。
图18是用于说明提供处理的流程图。
图19是用于说明生成再现音频数据的流程图。
图20是用于说明极坐标位置信息的生成的流程图。
图21示出了计算机的配置实例。
具体实施方式
下面将参考附图描述应用本技术的实施方式。
<第一实施方式>
<本技术>
本技术被设计为通过准备具有不同坐标表示(诸如原点位置和坐标形式)的多种类型的对象来获得更灵活的对象布局,从而基于内容制作者的意图再现内容。
例如,在使用艺术意图的自由视点空间中,可通过使用相对于多个参考视点的绝对坐标或基于收听者的方位的极坐标数据进行插值来产生任何对象位置。
除了这种对象之外,如果对象始终相对于收听者布置在固定位置处,则不管收听者如何,都不能表达对象布局,因为在上述技术中考虑了收听者的方位。
如果不考虑收听者的位置将对象布置在自由视点空间中的绝对位置处,则上述技术需要向后计算每个参考视点处的绝对固定对象作为相对布局信息,从而鉴于计算复杂度和准确性导致不期望的情形。
因此,在本技术中,四种类型(种类)的对象是可用的:基于绝对坐标的插值对象、基于极坐标的固定对象、基于极坐标的插值对象和基于绝对坐标的固定对象。这可以基于内容制作者的意图再现内容。
例如,在根据本技术的使用音频艺术意图的自由视点音频中,假设参考视点由内容制作者产生,则预先产生关于在多个参考视点的对象布局的信息。
收听者可自由地移动到除了参考视点之外的位置。
如果收听者位于不同于参考视点的位置处,则基于关于在围绕收听者的位置的参考视点的对象的位置信息执行插值,从而计算关于与收听者的当前位置对应的对象的位置信息。
因此,例如,当收听者如图1中的箭头Q11所示在自由视点空间中从位置P11移动至位置P11’时,相同对象的位置根据收听者的移动从位置P12移动至位置P12’。
因此,可以基于内容制作者的意图在自由视点位置再现空间声音。
在下文中,这样的对象将被称为基于绝对坐标的插值对象。
基于绝对坐标的插值对象位于相对于各参考视点的自由视点空间中的位置处。如果收听者位于与参考视点不同的位置,则通过基于针对收听者周围的多个参考视点确定的基于绝对坐标的插值对象的位置进行插值来确定基于绝对坐标的插值对象的位置。
因此,基于绝对坐标的插值对象的位置根据收听者在自由视点空间中的位置或方位而改变。
考虑到在例如使用这样的基于绝对坐标的插值对象的系统中取决于声音的声学AR(增强现实)或声音的到达方向的引导支持系统,对象需要相对于收听者固定,而不管收听者在自由视点空间中的位置和方位如何。以下,将这种对象称为基于极坐标的固定对象。
例如,当收听者如图1中的箭头Q12所示在自由视点空间中从位置P11移动至位置P11’时,基于极坐标的固定对象相应地例如从位置P13移动至位置P13’。此时,当从收听者观看时,基于极坐标的固定对象总是位于相同位置,例如,在移动之前和之后在收听者的左前方。
考虑收听者的方位,由基于绝对坐标的插值对象进行的表示基于对象在绝对坐标上的映射。
因此,该表示不能处理具有始终位于相对于收听者的相同位置的性质的对象。在本技术中,为了相对于收听者固定对象的目的,将基于绝对坐标的插值对象和基于极坐标的固定对象组合以处理为该目的设计的对象。
例如,如图2所示,配置以这种方式处理基于绝对坐标的插值对象和基于极坐标的固定对象的内容再现系统。
图2中的内容再现系统包括服务器11和客户端12。
服务器11包括配置信息发送单元21和编码数据发送单元22。
配置信息发送单元21将准备的系统配置信息发送到客户端12,接收从客户端12发送的视点选择信息等,并将该信息提供给编码数据发送单元22。
在内容再现系统中,预定公共绝对坐标空间上的多个收听位置被内容制作者指定(设置)为参考视点的位置(在下文中也称为参考视点位置)。
在这种情况下,内容制作者预先指定(设置)用作在内容再现期间在公共绝对坐标空间上的收听者的收听位置的位置、以及在该位置处收听者的面部的期望方位(即,用于收听内容的声音的期望视点)作为参考视点。
在服务器11中,系统配置信息和对象极坐标编码数据被预先准备。系统配置是关于参考视点的信息,对象极坐标编码数据指示用于参考视点的基于绝对坐标的插值对象的位置。
在这种情况下,通过对表示从每个参考视点观察到的基于绝对坐标的插值对象的相对位置的对象极坐标位置信息进行编码,来获得关于在每个参考视点的基于绝对坐标的插值对象的对象极坐标编码数据。
在对象极坐标位置信息中,从参考视点观察到的基于绝对坐标的插值对象(即,相对于参考视点)的相对位置由极坐标表示。对于每个参考视点,相同的基于绝对坐标的插值对象被布置在公共绝对坐标空间中的不同绝对位置处。
配置信息发送单元21紧接在内容再现系统的操作开始之后,即,紧接在建立与例如客户端12的连接之后,经由网络等向客户端12发送系统配置信息。另外,也可以在建立连接后,以适当的定时将系统配置信息适当地重新发送给客户端12。
编码数据发送单元22基于从配置信息发送单元21提供的视点选择信息选择两个或更多个参考视点,并且经由网络等将关于所选择的参考视点处的基于绝对坐标的插值对象的对象极坐标编码数据发送至客户端12。
在这种情况下,视点选择信息是关于例如由客户端12选择的参考视点的信息。
由此,在编码数据发送单元22中获取关于从客户端12请求的在选择的参考视点的基于绝对坐标的插值对象的对象极坐标编码数据,并将其发送到客户端12。
在下文中,假设通过视点选择信息选择(指定)三个参考视点。
此外,在服务器11中,除了关于基于绝对坐标的插值对象的对象极坐标编码数据之外,还准备关于基于极坐标的固定对象的对象极坐标编码数据。
基于极坐标的固定对象的对象极坐标编码数据是通过对表示从收听者(即,相对于收听者)观看的基于绝对坐标的插值对象的相对位置的对象极坐标位置信息进行编码而获得的。对象极坐标位置信息是由极坐标表示的位置信息。
关于基于极坐标的固定对象的对象极坐标位置信息与关于基于绝对坐标的插值对象的对象极坐标位置信息的不同之处在于,相对于收听者的位置(相对于收听者的位置)的原点而不是参考视点的原点,更具体地,相对于收听者的位置和方位,获得对象极坐标位置信息。
即使收听者的位置和方位改变,关于基于极坐标的固定对象的对象极坐标位置信息也不改变,从而针对一个基于极坐标的固定对象准备一条对象极坐标编码数据。
在编码数据发送单元22中,获取基于极坐标的固定对象的对象极坐标编码数据并将其发送至客户端12。
客户端12包括收听者位置信息获取单元41、视点选择单元42、配置信息获取单元43、编码数据获取单元44、解码单元45、坐标变换单元46、坐标轴变换单元47、对象位置计算单元48、以及极坐标变换单元49。
收听者位置信息获取单元41响应于用户(收听者)的指定操作而获取关于在公共绝对坐标空间上的收听者的绝对位置(收听位置)的收听者位置信息,并且将该信息提供至视点选择单元42、对象位置计算单元48、以及极坐标变换单元49。
例如,在收听者位置信息中,收听者在公共绝对坐标空间中的位置由绝对坐标表示。在下文中,由收听者位置信息指示的绝对坐标的坐标系也将被称为公共绝对坐标系。
视点选择单元42基于从配置信息获取单元43提供的系统配置信息和从收听者位置信息获取单元41提供的收听者位置信息选择围绕收听位置的三个参考视点,并且将有关选择结果的视点选择信息提供至配置信息获取单元43。
配置信息获取单元43接收从服务器11传输的系统配置信息,将系统配置信息提供至视点选择单元42和坐标轴变换单元47,并且经由网络等将从视点选择单元42提供的视点选择信息发送至服务器11。
在以下实例中,客户端12包括基于收听者位置信息和系统配置信息选择参考视点的视点选择单元42。视点选择单元42可以设置在服务器11中。
编码数据获取单元44接收从服务器11传输的对象极坐标编码数据,并将该信息提供给解码单元45。换言之,编码数据获取单元44从服务器11获取对象极坐标编码数据。
解码单元45对从编码数据获取单元44提供的对象极坐标编码数据进行解码。
解码单元45将关于基于绝对坐标的插值对象的对象极坐标位置信息提供给坐标变换单元46,对象极坐标位置信息通过解码获得。
另外,解码单元45将基于极坐标的固定对象的对象极坐标位置信息作为极坐标位置信息输出至未示出的渲染单元,对象极坐标位置信息通过解码获得。
坐标变换单元46对从解码单元45提供的对象极坐标位置信息执行坐标变换,并将通过坐标变换获得的对象绝对坐标位置信息提供给坐标轴变换单元47。
在坐标变换单元46中,执行坐标变换以将极坐标变换为绝对坐标。由此,将表示从参考视点观察到的基于绝对坐标的插值对象的位置在极坐标的对象极坐标位置信息转换为表示以参考视点的位置为原点的绝对坐标系中基于绝对坐标的插值对象的位置的关于绝对坐标的对象绝对坐标位置信息。
坐标轴变换单元47基于从配置信息获取单元43提供的系统配置信息对从坐标变换单元46提供的对象绝对坐标位置信息执行坐标轴变换。
在这种情况下,坐标轴变换是组合使用坐标变换(坐标轴变换)和补偿移位来执行的处理。坐标轴变换获得投影到公共绝对坐标空间的基于绝对坐标的插值对象的绝对坐标的对象绝对坐标位置信息。换言之,通过坐标轴变换获得的对象绝对坐标位置信息是公共绝对坐标系的绝对坐标(由绝对坐标表示的位置信息),该绝对坐标指示基于绝对坐标的插值对象在公共绝对坐标空间上的绝对位置。
对象位置计算单元48基于从收听者位置信息获取单元41提供的收听者位置信息和从坐标轴变换单元47提供的对象绝对坐标位置信息执行插值,并且将通过插值获得的最终对象绝对坐标位置信息提供给极坐标变换单元49。在这种情况下,当收听者的视点位于由收听者位置信息指示的收听位置时,最终对象绝对坐标位置信息是关于基于绝对坐标的插值对象在公共绝对坐标系中的位置的信息。
在对象位置计算单元48中,从由收听者位置信息指示的收听位置和由视点选择信息指示的三个参考视点的位置计算与收听位置对应的基于绝对坐标的插值对象在公共绝对坐标空间中的绝对位置(即,公共绝对坐标系的绝对坐标)作为最终对象绝对坐标位置信息。此时,对象位置计算单元48从配置信息获取单元43获取系统配置信息,或者根据需要从视点选择单元42获取视点选择信息。
极坐标变换单元49基于从收听者位置信息获取单元41提供的收听者位置信息,对从对象位置计算单元48提供的对象绝对坐标位置信息执行极坐标变换,然后将通过变换获得的极坐标位置信息输出至在后续阶段的渲染单元(未示出)。
在极坐标变换单元49中,执行极坐标变换,以将关于公共绝对坐标系的绝对坐标的对象绝对坐标位置信息变换为关于表示从收听位置观看的对象(基于绝对坐标的插值对象)的相对位置的极坐标的极坐标位置信息。
例如,诸如VBAP(基于向量的振幅平移)的渲染需要关于对象相对于收听位置的相对位置的极坐标位置信息作为关于对象的位置信息。
因此,对于基于绝对坐标的插值对象,通过插值确定关于收听者的视点的对象绝对坐标位置信息。将对象绝对坐标位置信息转换为极坐标位置信息并提供给渲染单元。
相反,关于基于极坐标的固定对象的对象极坐标位置信息是从收听者的视点观看的极坐标,并因此原样被提供给渲染单元而不被插值或变换为极坐标。
基于极坐标的固定对象允许对象布局,而不取决于收听者的位置和方位。
通过准备两种不同类型的对象:基于绝对坐标的插值对象和基于极坐标的固定对象,可以基于内容制作者的意图再现内容。
基于极坐标的固定对象是固定的,而不考虑收听者在自由视点空间中的位置。然而,根据内容制作者的意图,对于每个参考视点,不管收听者的方位如何都固定的对象可以被布置在不同的位置。
在这种情况下,每个视点具有不同的对象布局,其中收听者位于中心,例如,如图3所示。在视点处进行渲染时,可以相对于收听者固定对象。在图3中,对应于图1的那些的部分由相同的参考标号表示,并且根据需要省略其描述。
例如,在图3的实例中,当收听者位于自由视点空间中的位置P11时,对象固定在位置P21处,而不管收听者的方位。
如果收听者位于相同位置,则从收听者观看的对象始终位于相同位置(方向),例如,在收听者的左前方,而不管收听者的方位。
当收听者从位置P11移动至位置P11’时,在位置P21处的对象相应地移动至位置P21’。如果收听者位于位置P11’处,则从收听者观看的对象始终位于相同位置处,而不考虑收听者的方位。
此时,从位置P11处的收听者观看的对象的相对位置不同于从位置P11’处的收听者观看的对象的相对位置。
在下文中,这样的对象将被称为基于极坐标的插值对象。
在图3的实例中,参考图1准备基于绝对坐标的插值对象和基于极坐标的插值对象,使得可基于内容制作者的意图再现内容。
如果准备了基于绝对坐标的插值对象和基于极坐标的插值对象,则例如如图4所示配置内容再现系统。在图4中,与图2的部件对应的部件由相同的参考符号表示,并且根据需要省略其描述。
在图4所示的内容再现系统中,服务器11包括如图2的实例中的配置信息发送单元21和编码数据发送单元22。
在服务器11中,除了关于基于绝对坐标的插值对象的对象极坐标编码数据之外,还针对每个参考视点准备关于基于极坐标的插值对象的对象极坐标编码数据。
关于各参考视点处的基于极坐标的插值对象的对象极坐标编码数据通过对表示从各参考视点观察到的基于极坐标的插值对象的相对位置的对象极坐标位置信息进行编码来获得。
基于极坐标的插值对象的对象极坐标位置信息具有与基于绝对坐标的插值对象的对象极坐标位置信息相同的坐标表达式。
换言之,关于基于极坐标的插值对象的对象极坐标位置信息和关于基于绝对坐标的插值对象的对象极坐标位置信息均是指示从用作原点的参考视点观看的相对位置的极坐标。
如上所述,关于基于极坐标的插值对象的对象极坐标位置信息具有与关于基于绝对坐标的插值对象的对象极坐标位置信息相同的坐标表达式。
然而,在客户端12中,对基于极坐标的插值对象的对象极坐标位置信息进行与基于绝对坐标的插值对象不同的处理,从而获得基于极坐标的插值对象。
对于由视点选择信息表示的三个参考视点,编码数据发送单元22将关于基于绝对坐标的插值对象的对象极坐标编码数据和关于基于极坐标的插值对象的对象极坐标编码数据发送给客户端12。
在图4的实例中,除了图2的配置之外,客户端12还包括对象位置计算单元71。
在客户端12的解码单元45中,关于基于绝对坐标的插值对象的对象极坐标位置信息被提供给如图2所示的坐标变换单元46,通过解码获得对象极坐标位置信息。
此外,解码单元45将关于每个参考视点处的基于极坐标的插值对象的对象极坐标位置信息提供给对象位置计算单元71,对象极坐标位置信息通过解码获得。
对象位置计算单元71基于从收听者位置信息获取单元41提供的收听者位置信息和从解码单元45提供的关于基于极坐标的插值对象的对象极坐标位置信息执行插值。此时,对象位置计算单元71从配置信息获取单元43获取系统配置信息,或者根据需要从视点选择单元42获取视点选择信息。
因此,获得关于针对收听者的位置(收听位置)的基于极坐标的插值对象的对象极坐标位置信息作为极坐标位置信息。
极坐标位置信息是表示当收听者的视点位于由收听者位置信息指示的收听位置时从收听位置观察到的基于极坐标的插值对象的相对位置的极坐标。
对象位置计算单元71将关于基于极坐标的插值对象的极坐标位置信息输出到在后一阶段未示出的渲染单元,该极坐标位置信息通过插值获得。
在对象位置计算单元71中,直接使用关于参考视点的对象极坐标位置信息,即,作为用于插值的极坐标而不变换成绝对坐标,并且生成表示从收听位置观看的相对位置的极坐标位置信息。
如上所述,基于极坐标的插值对象经受与基于绝对坐标的插值对象不同的处理。这可获得基于极坐标的插值对象,该基于极坐标的插值对象根据收听位置被收听者在不同位置处观看,但是当收听者在相同收听位置处观看时始终固定在相同位置(方向)处,而不管收听者的方位(视点)如何。
例如,为了复制现场场地的目的,表示场地处的背景噪声等的对象被布置在自由视点空间中的绝对位置处,而不管收听者的位置如何,例如如图5所示。在图5中,对应于图1的那些的部分由相同的参考标号表示并且省略其描述。
在该实例中,除了基于绝对坐标的插值对象和基于极坐标的固定对象之外,自由视点空间具有始终位于自由视点空间中与收听者的视点无关的相同位置处的对象。以下,将始终位于自由视点空间(公共绝对坐标空间)中的相同位置(固定位置)的对象称为基于绝对坐标的固定对象。
例如,在图5的实例中,当收听者从位置P11移动至位置P11’时,基于绝对坐标的插值对象从位置P12移动至位置P12’,基于极坐标的固定对象从位置P13移动至位置P13’。即使当收听者从位置P11移动至位置P11’时,基于绝对坐标的固定对象也停留在位置P31处。
基于绝对坐标的固定对象的这种行为可由基于绝对坐标的插值对象来表示。然而,在这种情况下,通过向后计算每个参考视点的绝对固定对象作为相对布局信息来确定对象极坐标位置信息,从而导致许多缺点,诸如过度计算和精度方面的缺点。
因此,在本技术中,将基于绝对坐标的固定对象另外准备作为固定绝对坐标位置处的对象,并且将基于绝对坐标的固定对象与基于绝对坐标的插值对象和基于极坐标的固定对象组合,从而实现计算复杂性的降低和准确度方面的优点。
具体地,例如,如果准备基于绝对坐标的插值对象和基于绝对坐标的固定对象,则内容再现系统被配置为例如如图6中所示。在图6中,对应于图2的那些的部分由相同的参考标号表示,并且根据需要省略其描述。
在图6的实例中,服务器11和客户端12在配置上与图2中的那些相同。在服务器11中,除了基于绝对坐标的插值对象和对象极坐标编码数据之外,还准备关于基于绝对坐标的固定对象的对象绝对坐标编码数据。
关于基于绝对坐标的固定对象的对象绝对坐标编码数据是通过将关于指示基于绝对坐标的固定对象在公共绝对坐标空间(公共绝对坐标系)中的绝对位置的绝对坐标的对象绝对坐标位置信息编码获得的。
关于基于绝对坐标的固定对象的对象绝对坐标位置信息对应于关于基于绝对坐标的插值对象的对象绝对坐标位置信息,对象绝对坐标位置信息由客户端12的对象位置计算单元48获得。
对于由视点选择信息表示的三个参考视点,编码数据发送单元22将关于基于绝对坐标的插值对象的对象极坐标编码数据和关于基于绝对坐标的固定对象的对象绝对坐标编码数据发送给客户端12。
由此,在客户端12的解码单元45中,对对象极坐标编码数据和对象绝对坐标编码数据进行解码。
解码单元45将关于基于绝对坐标的插值对象的解码对象极坐标位置信息提供给坐标变换单元46,并将关于基于绝对坐标的固定对象的解码对象绝对坐标位置信息提供给极坐标变换单元49。
不管收听者的视点如何,基于绝对坐标的固定对象在公共绝对坐标空间中总是固定在相同位置处,从而消除与基于绝对坐标的插值对象不同的插值的需要。
关于基于绝对坐标的固定对象的对象绝对坐标位置信息可被处理为由对象位置计算单元48获得的关于基于绝对坐标的插值对象的对象绝对坐标位置信息。由此,对象绝对坐标位置信息在被解码之后被直接提供给极坐标变换单元49。
极坐标变换单元49基于来自收听者位置信息获取单元41的收听者位置信息,对从解码单元45提供的对象绝对坐标位置信息以及从对象位置计算单元48提供的对象绝对坐标位置信息执行极坐标变换。
极坐标变换单元49将基于绝对坐标的插值对象的极坐标位置信息和基于绝对坐标的固定对象的极坐标位置信息输出到在后级未图示的渲染单元。
在上述实例中,描述了基于绝对坐标的插值对象、基于极坐标的固定对象、基于极坐标的插值对象和基于绝对坐标的固定对象的特定组合。本公开可采用对象的任何组合。
<插值的实例>
下面将描述在对象位置计算单元48中执行的插值和在对象位置计算单元71中执行的插值的具体实例。
下面,对基于各参考视点的对象绝对坐标位置信息在对象位置计算单元48中进行的插值的实例进行说明。
例如,如在图7的左侧示出的,假设通过插值确定在任何收听位置F处的对象绝对坐标位置信息。
在该实例中,三个参考视点A、B和C包围收听位置F,并且使用关于参考视点A至C的信息进行插值。
在下文中,在公共绝对坐标系(即,XYZ坐标系)中收听位置F具有表示为(xf,yf)的X坐标和Y坐标。
同样地,在参考视点A、参考视点B以及参考视点C的位置处,X坐标和Y坐标分别被表示为(xa,ya)、(xb,yb)以及(xc,yc)。
在这种情况下,如图7的右侧所示,基于对应于参考视点A、参考视点B和参考视点C的对象位置A’、对象位置B’和对象位置C’的坐标来确定收听位置F处的对象位置F’。
在这种情况下,例如,对象位置A’表示当视点位于参考视点A时的对象的位置,即,由关于参考视点A的对象绝对坐标位置信息表示的基于绝对坐标的插值对象在公共绝对坐标系中的位置。
此外,对象位置F’表示当收听者位于收听位置F(即,由用作对象位置计算单元48的输出的对象绝对坐标位置信息指示的位置)时在公共绝对坐标系中基于绝对坐标的插值对象的位置。
在下文中,在对象位置A’、对象位置B’和对象位置C’处,X坐标和Y坐标分别被表示为(xa’,ya’)、(xb’,yb’)和(xc’,yc’),并且在对象位置F’处的X坐标和Y坐标被表示为(xf’,yf’)。
此外,在以下描述中,被诸如参考视点A至C的任意三个参考视点包围的三角形区域(即,由三个参考视点形成的三角形区域)将被称为三角形网格。
由于公共绝对坐标空间包括多个参考视点,因此可以利用参考视点的顶点形成多个三角形网格。
类似地,在以下描述中,将在任何三个参考视点处由诸如由对象绝对坐标位置信息指示的对象位置A’至C’的对象位置包围(形成)的三角形区域称为三角形网格。
可从xyz坐标系中的位置处的坐标和包括在系统配置信息中的参考视点的信息(更具体地,参考视点的位置和收听者在参考视点的方位)获得表示在公共绝对坐标系(XYZ坐标系)中的任何位置的坐标。
xyz坐标系是绝对坐标系,原点(基准点)在参考视点的位置处。为了简化描述,假设XYZ坐标系中的Z坐标值等于xyz坐标系中的z坐标值。
根据Ceva的定理,通过适当地确定三角形网格的边的内部比率,在从三角形网格的三个顶点到不与顶点相邻的三个边的内部划分点的线的交点处,唯一地确定由三个参考视点形成的三角形网格中的任何收听位置。
通过确定三角形网格的三个边的内部比率的配置,针对全部三角形网格建立此,而不考虑来自验证公式的三角形网格的形状。
所以,通过确定包括视点附近的收听位置(即,相对于参考视点)的三角形网格的内部比率并且将该内部比率应用于对象(即,对象的位置处的三角形网格),可以针对任何收听位置确定适当的对象位置。
参考图8和图9,下面将描述用于确定关于图7中的收听位置F的对象位置F’的对象绝对坐标位置信息的插值的实例。
例如,如图8所示,在具有参考视点A至C的三角形网格中首先确定内部分割点的X坐标和Y坐标,其中收听位置F包括在三角形网格中。
点D表示通过收听位置F和参考视点C的直线与从参考视点A到参考视点B的线AB的交点,并且(xd,yd)表示表示点D在XY平面上的位置的坐标。换言之,点D是线AB(边AB)上的内部分割点。
在这种情况下,关于表示从参考视点C到收听位置F的线CF上的任意点的位置的X坐标和Y坐标、以及表示线AB上的任意点的位置的X坐标和Y坐标,如下面的公式(1)那样建立关系。
[公式1]
线CF:Y=α1x-α1xc+yc,其中α1=(yc-yf)/(xc-xf)
线AB:Y=α2X-α2xa+ya,其中α2=(yb-ya)/(xb-xa)···(1)
由于点D是通过参考视点C和收听位置F的直线与线AB的交点,所以点D在XY平面上的坐标(xd,yd)可由公式(1)确定。坐标(xd,yd)在以下公式(2)中表示。
[公式2]
xd=(α1xc-yc-α2xa+ya)/(α1-α2)
yd=α1xd-α1xc+yc···(2)
由此,如以下公式(3)所示,基于点D的坐标(xd,yd)、参考视点A的坐标(xa,ya)和参考视点B的坐标(xb,yb),可获得线AB的点D处的内部比率(m,n),即,点D处的分隔比率。
[公式3]
m=sqrt((xa-xd)2+(ya-yd)2)
n=sqrt((xb-xd)2+(yb-yd)2)···(3)
同样地,点E表示通过收听位置F和参考视点B的直线与从参考视点A到参考视点C的线AC的交点,(xe,ye)表示指示点E在XY平面上的位置的坐标。换言之,点E是线AC(边AC)上的内部分割点。
在这种情况下,关于表示从参考视点B到收听位置F的线BF上的任意点的位置的X坐标和Y坐标、以及表示线AC上的任意点的位置的X坐标和Y坐标,如下面的公式(4)那样建立关系。
[公式4]
线BF:Y=α3X-α3xb+yb,其中α3=(yb-yt)/(xb-xf)
线AC:Y=α4x-α4xa+ya,其中α4=(yc-ya)/(xc-xa)···(4)
由于点E是通过参考视点B和收听位置F的直线和线AC的交点,所以点E在XY平面上的坐标(xe,ye)可根据公式(4)确定。坐标(xe,ye)用以下公式(5)表示。
[公式5]
xe=(α3xb-yb-α4xa+ya)/(α3-α4)
ye=α3xe-α3xb+yb···(5)
由此,如以下公式(6)所示,基于点E的坐标(xe,ye)、参考视点A的坐标(xa,ya)和参考视点C的坐标(xc,yc),可获得线AC的点E处的内部比率(k,1),即,点E处的分割比率。
[公式6]
k=sqrt((xa-xe)2+(ya-ye)2)
l=sqrt((xc-xe)2+(yc-ye)2)···(6)
此后,如图9中所示,将所确定的两条边的比率(具体地,内部比率(m,n)和内部比率(k,l))应用于对象侧三角形网格,从而确定XY平面上的对象位置F’的坐标(xf’,yf’)。
具体地,在该实例中,连接对象位置A’和对象位置B’的线A’B’上的点D’对应于点D。
类似地,连接对象位置A’和对象位置C’的线A’C’上的点E’对应于点E。
此外,在穿过对象位置C’和点D’的直线与穿过对象位置B’和点E’的直线的交点处的对象位置F’对应于收听位置F。
在这种情况下,假设线A’B’的点D’具有与点D相同的内部比率(m,n)。此时,如以下公式(7)所示,点D’在XY平面上的坐标(xd’,yd’)可以基于内部比率(m,n)、对象位置A’的坐标(xa’,ya’)和对象位置B’的坐标(xb’,yb’)来获得。
[公式7]
xd’=(nxa’+mxb’)/(m+n)
yd’=(nya’+myb’)/(m+n)···(7)
此外,假设线A’C’的点E’具有与点E相同的内部比率(k,l)。此时,如下面的公式(8)中所表达的,点E’在XY平面上的坐标(xe’,ye’)可以基于内部比率(k,l)、对象位置A’的坐标(xa’,ya’)和对象位置C’的坐标(xc’,yc’)来获得。
[公式8]
xe’=(lxa’+kxc’)/(k+l)
ye’=(lya’+kyc’)/(k+l)···(8)
所以,关于表示从对象位置B’到点E’的线B’E’上的任意点的位置的X坐标和Y坐标、以及表示从对象位置C’到点D’的线C’D’上的任意点的位置的X坐标和Y坐标,如以下公式(9)那样建立关系。
[公式.9]
线B′E′:Y=α5X+yb’-α5xb’,其中α5=(ye’-yb’)/(xe’-xb’)
线C′D′:Y=α6X+yc’-α6xc’,其中α6=(yd’-yc’)/(xd’-xc’)···(9)
由于目标对象位置F’是线B’E’和线C’D’的交点,因此根据以下公式(10),可以从公式(9)的关系获得目标对象位置F’的坐标(xf’,yf’)。
[公式.10]
xf’=(-yb’+α5xb’+yc’-α6xc’)/(α5-α6)
yf’=α6x-f’+yc’-α6xC’···(10)
该处理获得对象位置F’在XY平面上的坐标(xf’,yf’)。
随后,基于在XY平面上的对象位置F’的坐标(xf’,yf’)、在XYZ坐标系中的对象位置A’的坐标(xa’,ya’,za’)、对象位置B’的坐标(xb’,yb’,zb’)以及对象位置C’的坐标(xc’,yc’,zc’),确定在XYZ坐标系中的对象位置F’的坐标(xf’,yf’,zf’)。换言之,确定XYZ坐标系中的对象位置F’的Z坐标zf’。
例如,在三维空间(即包括对象位置A’、对象位置B’和对象位置C’的三维平面A’B’C’)上确定在XYZ坐标系(公共绝对坐标系)中的对象位置A’、对象位置B’和对象位置C’处具有顶点的三角形。此外,在三维平面A’B’C’上确定具有X坐标和Y坐标(xf’,yf’)的点,并且在该点处的z坐标是zf’。
具体地,在XYZ坐标系中在对象位置A’处具有初始点并且在对象位置B’处具有最终点的向量被表示为向量A’B’=(xab’,yab’,zab’)。
类似地,在XYZ坐标系中在对象位置A’处具有初始点并且在对象位置C’处具有最终点的向量被表示为向量A’C’=(xac’,yac’,zac’)。
向量A’B’和向量A’C’可以基于对象位置A’的坐标(xa’,ya’,za’)、对象位置B’的坐标(xb’,yb’,zb’)和对象位置C’的坐标(xc’,yc’,zc’)来获得。换言之,向量A’B’和向量A’C’可通过以下公式(11)获得。
[公式11]
向量A′B′:(xab’,yab’,zab’)=(xb’-xa’,yb’-ya’,zb’-za’)
向量A′C′:(xac’,yac’,zac’)=(xc’-xa’,yc’-ya’,zc’-za’)···(11)
三维平面A’B’C’的法向向量(s,t,u)是向量A’B’和向量A’C’的外积,并且可以通过下面的公式(12)确定。
[公式12]
(s,t,u)=(yab’zac’-zab’yac’,zab’xac’-xab’zac’,xab’yac’-yab’xac’)···(12)
因此,根据法向量(s,t,u)和对象位置A’的坐标(xa’,ya’,za’),如下公式(13)所示确定三维平面A’B’C’的平面方程。
[公式13]
s(X-xa’)+t(Y-ya’)+u(Z-za’)=0···(13)
由于在三维平面A’B’C’的对象位置F’的X坐标xf’和Y坐标yf’已经被确定,因此将X坐标xf’和Y坐标yf’代入公式(13)的平面该女生的X和Y中可以确定如下面公式(14)中表示的Z坐标zf’。
[公式14]
zf’=(-s(xf’-xa’)-t(yf’-ya’))/u+za’···(14)
计算获得目标对象位置F’的坐标(xf’,yf’,zf’)。在对象位置计算单元48中,输出表示对象位置F’的所获得的坐标(xf’,yf’,zf’)的对象绝对坐标位置信息。
下面将描述在对象位置计算单元71中执行的插值。
例如,如图10所示,关于基于极坐标的插值对象的对象极坐标位置信息通过在由三个参考视点:参考视点A、参考视点B和参考视点C包围的收听位置F处的插值来确定。
在图10中,对应于图8的那些的部分由相同的参考标号(符号)表示,并且根据需要省略其描述。
换言之,同样在图10的实例中,与图8中相同的计算确定点D的坐标(xd,yd)、点E的坐标(xe,ye)、收听位置F的坐标(xf,yf)、内部比率(m,n)和内部比率(k,l)。
此外,关于在参考视点A、参考视点B和参考视点C的基于极坐标的插值对象的对象极坐标位置信息被表示为(Az(a),El(a),Rad(a)),(Az(b),El(b),Rad(b)),和(Az(c),El(c),Rad(c))。
例如,Az(a)、El(a)和Rad(a)是构成极坐标的水平角、垂直角和半径。
在这种情况下,根据在参考视点A和参考视点B的对象极坐标位置信息(Az(a),El(a),Rad(a))和(Az(b),El(b),Rad(b))以及内比率(m,n),通过下面的公式(15)确定在点D的基于极坐标的插值对象的对象极坐标位置信息(Az(d),El(d),Rad(d))。
[公式15]
Az(d)=(m*Az(b)+n*Az(a))/(m+n)
El(d)=(m*El(b)+n*El(a))/(m+n)
Rad(d)=(m*Rad(b)+n*Rad(a))/(m+n)···(15)
此外,根据在点D处的对象极坐标位置信息(Az(d),El(d),Rad(d)),在参考视点C处的对象极坐标位置信息(Az(c),El(c),Rad(c)),参考视点C的坐标(xc,yc),点D的坐标(xd,yd)和收听位置F的坐标(xf,yf),通过以下公式(16)确定在收听位置F处的基于极坐标的插值对象的对象极坐标位置信息(Az(f),E1(f),Rad(f))。
[公式16]
Az(f)=(o*Az(c)+p*Az(d))/(o+p)
El(f)=(o*El(c)+p*El(d))/(o+p)
Rad(f)=(o*Rad(c)+p*Rad(d))/(o+p)
其中
o=SQRT((xd-xf)2+(yd-yf)2+(zd-zf)2)
p=SQRT((xc-xf)2+(yc-yf)2+(zc-zf)2)···(16)
如上所述,在对象位置计算单元71中,在保持极坐标的同时,根据公式(16),基于三个参考视点的对象极坐标位置信息执行插值,从而计算关于在收听位置的基于极坐标的插值对象的对象极坐标位置信息。
在对象位置计算单元71中执行的插值不限于参考图10描述的实例。插值可以通过任何类型的处理来实现,例如,使用向量运算的插值或使用神经网络的运算。
<系统配置信息的实例>
图11表示当可以处理基于绝对坐标的插值对象、基于极坐标的固定对象、基于极坐标的插值对象和基于绝对坐标的固定对象时的系统配置信息的位流格式的实例。
在图11的实例中,“NumOfObjs”表示构成内容的对象的数量。在这种情况下,对象的数量是指基于绝对坐标的插值对象、基于极坐标的固定对象、基于极坐标的插值对象和基于绝对坐标的固定对象的总数。
而且,“NumfOfRefViewPoint”表示参考视点的数量。
系统配置信息包括与参考视点的数量“NumfOfRefViewPoint”一样多的多条参考视点信息,该多条参考视点信息包括参考视点位置信息和收听者方位信息。
参考视点位置信息是表示参考视点的位置的公共绝对坐标系的绝对坐标。在该实例中,参考视点位置信息包括表示参考视点在公共绝对坐标系中的位置的X坐标“RefViewX[i]”、Y坐标“RefViewY[i]”和Z坐标“RefViewZ[i]”。
收听者方位信息是收听者的面部在水平方向上的旋转角度(水平角),该旋转角度表示在参考视点处收听者的面部的期望方位,即,在参考视点处收听者的面部的假设方位。
在该实例中,包括收听者的面部的水平角“RefYaw[i]”作为收听者方位信息。除了收听者的面部的水平角(偏航角)之外,收听者方位信息还可包括指示收听者的面部在垂直方向上的定向的垂直角(俯仰角)。
系统配置信息还包括指示再现模式的信息“ObjectOverLapMode[i]”,在该再现模式中,收听者和对象的位置彼此重叠,即,根据对象的数量“NumOfObjs”,收听者(收听位置)和对象位于同一位置。此外,如果空间被1.0标准化,“ProhibitRadius”表示从对象到收听者的距离的标准化值。
“InpterporationMode”表示客户端12允许的插值模式。此外,“NonInterpolatePolarObjFlag”是指示基于极坐标的固定对象的存在或不存在的标志。具体地,标志“NonInterpolatePolarObjFlag”的值“1”指示基于极坐标的固定对象的存在,而值“0”指示基于极坐标的固定对象的不存在。
如果标志“NonInterpolatePolarObjFlag”的值是“1”,则在系统配置信息中存储表示基于极坐标的固定对象的数量的“NumOfObjs_NIPO”。
“NonInterpolateCartesianObjFlag”是指示基于绝对坐标的固定对象的存在或不存在的标志。具体地,标志“NonInterpolateCartesianObjFlag”的值“1”指示存在基于绝对坐标的固定对象,而值“0”指示不存在基于绝对坐标的固定对象。
如果标志“NonIntermateCartesianObjFlag”的值是“1”,则在系统配置信息中存储表示基于绝对坐标的固定对象的数量的“NumOfObjs_NICO”。
“InterpolatePolarObjFlag”是表示基于极坐标的插值对象的存在或不存在的标志。具体地,标志“InterpolatePolarObjFlag”的值“1”指示基于极坐标的插值对象的存在,而值“0”指示基于极坐标的插值对象的不存在。
如果标志“InterpolatePolarObjFlag”的值是“1”,则在系统配置信息中存储有表示基于极坐标的插值对象的数量的“NumOfObjs_IPO”。
“NumOfAncBytes”表示扩展信息区域的大小,“AncByteData[i]”表示扩展区域字节数据。
例如,如图11中配置的系统配置信息从服务器11传输至客户端12。
<位流格式的实例>
图12表示在对象的位置不随时间变化(即,对象不移动)的条件下,批量传输关于对象的位置的信息(即,对象极坐标编码数据或对象绝对坐标编码数据)的位流格式的实例。
在该实例中,“fva_structure_info_polar()”表示系统配置信息。系统配置信息在单独传输时并不总是应该被包括。
在位流中,在参考点处的基于绝对坐标的插值对象的元数据“object_metadata()”的数量被包括为与参考视点的数量“NumfOfRefViewPoint”一样多。
元数据“object_metadata()”包括关于基于绝对坐标的插值对象的对象极坐标位置信息,更具体地,关于基于绝对坐标的插值对象的对象极坐标编码数据或增益信息(增益量)。
因为在该实例中具体地批量发送信息,所以针对所有参考视点存储基于绝对坐标的插值对象的元数据“object_metadata()”。
如果系统配置信息中包含的标志“NonInterpolatePolarObjFlag”的值为“1”,则将基于极坐标的固定对象的元数据“object_metadata_nontpPolar()”存储在位流中。
同样,如果包括在系统配置信息中的标志“NonInterpolateCartesianObjFlag”的值是“1”,则基于绝对坐标的固定对象的元数据“object_metadata_NontptCarte()”被存储在位流中。
此外,如果包括在系统配置信息中的标志“InterpolatePolarObjFlag”的值是“1”,则基于极坐标的插值对象的元数据“object_metadata_intpPolar()”被存储在位流中。
在该实例中,如在基于绝对坐标的插值对象的情况下,在参考点处的基于极坐标的插值对象的元数据“object_metadata_intpPolar()”的数量被存储为与参考视点的数量“NumfOfRefViewPoint”一样多。
在图12的实例中,假设对象的位置不随时间而改变。
图13表示当针对关于对象的音频数据的每个帧发送关于对象的对象极坐标编码数据或对象绝对坐标编码数据,以便与随着时间的每个对象的位置变化对应时的位流格式的实例。
在图13中,“fva_structure_info_polar_present”表示指示在位流中存在或不存在系统配置信息的配置信息存在标志。配置信息存在标志的值“1”具体地指示包括(存储)系统配置信息。相反,配置信息存在标志的值“0”指示不包括系统配置信息。
如果配置信息存在标志“fva_structure_info_polar_present”的值是“1”,则系统配置信息“fva_structure_info_polar()”被包括在位流中。
而且,在图13的实例中,不应总是包括系统配置信息。系统配置信息可以以规则的或者不规则的间隔发送。换言之,可以针对一个帧发送系统配置信息,而不针对另一帧发送系统配置信息。
由于在该实例中针对每个帧发送信息,所以仅针对由从客户端12接收(获取)的视点选择信息表示的三个参考视点存储基于绝对坐标的插值对象的元数据“object_metadata()”。
此外,如在图12的实例中,如果包括在系统配置信息中的标志“NonInterpolatePolarObjFlag”的值是“1”,则基于极坐标的固定对象的元数据“object_metadata_nontpPolar()”存储在位流中。
如果包括在系统配置信息中的标志“NonInterpolateCartesianObjFlag”的值是“1”,则在基于绝对坐标的固定对象的元数据“object_metadata_NontptCarte()”被存储在位流中。
此外,如果系统配置信息中包括的标志“InterpolatePolarObjFlag”的值是“1”,则基于极坐标的插值对象的元数据“object_metadata_intpPolar()存储在仅针对由视点选择信息表示的三个参考视点的位流中。
参照图14至图16,下面将描述关于基于极坐标的固定对象的元数据、关于基于极坐标的插值对象的元数据和关于基于绝对坐标的固定对象的元数据的实例。
图14表示图12和图13中所示的基于极坐标的固定对象的元数据“object_metadata_nontpPolar()”的位流格式的实例。
在该实例中,根据系统配置信息中包括的基于极坐标的固定对象的数量“NumOfObjs_NIPO”,存储基于极坐标的固定对象的对象极坐标位置信息(对象极坐标编码数据)和增益量(增益信息)。
具体地,“PosAzi[i]”、“PosEle[i]”和“PosRad[i]”表示构成基于极坐标的固定对象的对象极坐标位置信息的水平角、垂直角和半径。此外,“Gain[i]”表示用于对基于极坐标的固定对象的音频数据进行增益调整的增益量(更具体地,通过对增益信息进行编码而获得的编码增益信息)。
图15表示在图12和图13中表示的基于极坐标的插值对象的元数据“object_metadata_intpPolar()”的位流格式的实例。
在该实例中,根据系统配置信息中包括的基于极坐标的插值对象的数量“NumOfObjs_IPO”,存储基于极坐标的插值对象的对象极坐标位置信息(对象极坐标编码数据)和增益量(增益信息)。
具体地,“PosAzi[i]”、“PosEle[i]”和“PosRad[i]”表示构成基于极坐标的插值对象的对象极坐标位置信息的水平角、垂直角和半径。此外,“Gain[i]”表示对基于极坐标的插值对象的音频数据进行增益调整的增益量(更具体地,编码增益信息)。
图16表示在图12和图13中表示的基于绝对坐标的固定对象的元数据“object_metadata_nonntpCarte()”的位流格式的实例。
在该实例中,根据系统配置信息中包括的基于绝对坐标的固定对象的数量“NumOfObjs_NICO”,存储基于绝对坐标的固定对象的对象绝对坐标位置信息(对象绝对坐标编码数据)和增益量(增益信息)。
具体地,“PosX[i]”、“PosY[i]”和“PosZ[i]”表示公共绝对坐标系(XYZ坐标系)的X坐标、Y坐标和Z坐标,X、Y和Z坐标构成关于基于绝对坐标的固定对象的对象绝对坐标位置信息。此外,“Gain[i]”表示用于对基于绝对坐标的固定对象的音频数据进行增益调整的增益量(更具体地,编码增益信息)。
<内容再现系统的配置实例>
下面将描述应用本技术的内容再现系统的更具体的实施方式。
图17示出了应用本技术的内容再现系统的配置实例。在图17中,与图4的部件对应的部件由相同的参考标号表示,并且根据需要省略其描述。
图17中的内容再现系统包括分发内容的服务器11和接收从服务器11分发的内容的客户端12。
服务器11包括配置信息记录单元101、配置信息发送单元21、记录单元102、编码数据发送单元22和发送缓冲器103。
配置信息记录单元101记录例如如图11所示准备的系统配置信息,并且将所记录的系统配置信息提供给配置信息发送单元21。记录单元102可以部分作为配置信息记录单元101。
记录单元102记录(例如)通过对关于对象的音频数据进行编码而获得的编码音频数据、对象极坐标编码数据、对象绝对坐标编码数据以及关于在每个参考视点处的每个对象的编码增益信息。数据和信息构成内容。
记录单元102响应于请求等将例如记录的编码音频数据、记录的对象极坐标编码数据、记录的对象绝对坐标编码数据和记录的编码增益信息提供至编码数据发送单元22。
发送缓冲器103临时保存例如从编码数据发送单元22提供的编码音频数据、对象极坐标编码数据、对象绝对坐标编码数据和编码增益信息。
客户端12包括收听者位置信息获取单元41、视点选择单元42、通信单元111、解码单元45、位置计算单元112以及渲染单元113。
通信单元111例如对应于图2中的配置信息获取单元43和编码数据获取单元44,并且通过与服务器11的通信发送和接收各种数据。
例如,通信单元111将从视点选择单元42提供的视点选择信息发送至服务器11并且接收从服务器11发送的系统配置信息和位流。换句话说,通信单元111用作从服务器11获取包括在位流中的系统配置信息、对象极坐标编码数据、对象绝对坐标编码数据和编码增益信息的参考视点信息获取单元。
位置计算单元112基于从解码单元45提供的对象极坐标位置信息和对象绝对坐标位置信息以及从通信单元111提供的系统配置信息,生成关于所有种类的对象的位置的极坐标位置信息,并将极坐标位置信息提供给渲染单元113。
此外,位置计算单元112对有关所有种类的对象的音频数据执行增益调整,并且将已经经历增益调整的音频数据供应给渲染单元113,音频数据从解码单元45提供。
位置计算单元112包括坐标变换单元46、坐标轴变换单元47、对象位置计算单元48、极坐标变换单元49和对象位置计算单元71。
例如,渲染单元113基于从极坐标变换单元49、对象位置计算单元71和解码单元45提供的极坐标位置信息和音频数据执行诸如VBAP的渲染,生成用于再现内容的声音的再现音频数据,并且输出音频数据。
<提供的说明>
下面将描述图17中的服务器11和客户端12的操作。
例如,响应于初始化后来自客户端12的网络会话建立请求,服务器11进行与客户端12的网络会话建立处理。
之后,服务器11从客户端12接收关于会话开始的信息。响应于从客户端12发送系统配置信息的请求,服务器11开始提供,即,用于提供内容的处理。
参照图18的流程图,下面将描述由服务器11进行的提供处理。
在步骤S11中,配置信息发送单元21从配置信息记录单元101读取关于所请求内容的系统配置信息,并将所读取的系统配置信息发送到客户端12。
例如,在会话建立之后,即在服务器11和客户端12的连接建立之后,在发送编码的音频数据等之前,经由网络等向客户端12发送系统配置信息。
当发送系统配置信息时,客户端12发送关于与收听者的位置对应的三个参考视点的视点选择信息。
在步骤S12中,配置信息发送单元21接收从客户端12传输的视点选择信息,并且将视点选择信息和系统配置信息提供至编码数据发送单元22。
在步骤S13中,编码数据发送单元22基于视点选择信息和从配置信息发送单元21提供的系统配置信息将有关构成内容的基于绝对坐标的插值对象的数据加载到发送缓冲器103中。
具体地,关于由视点选择信息表示的三个参考视点,编码数据发送单元22针对每个基于绝对坐标的插值对象从记录单元102读取对象极坐标编码数据和编码增益信息,将数据和信息提供给发送缓冲器103,并且使发送缓冲器103保存数据和信息。编码数据发送单元22还从记录单元102读取关于每个基于绝对坐标的插值对象的编码音频数据,将数据提供至发送缓冲器103,并且使发送缓冲器103保存数据。
在步骤S14中,编码数据发送单元22基于系统配置信息确定作为构成内容的对象的基于极坐标的固定对象的存在或不存在。在这种情况下,如果包括在系统配置信息中的标志“NonInterpolatePolarObjFlag”的值是“1”,则确定基于极坐标的固定对象存在。
如果在步骤S14中确定基于极坐标的固定对象存在,则编码数据发送单元22在步骤S15中基于系统配置信息将与构成内容的基于极坐标的固定对象有关的数据加载到发送缓冲器103中。
具体地,编码数据发送单元22从记录单元102读取关于构成内容的每个基于极坐标的固定对象的对象极坐标编码数据、编码增益信息和编码音频数据,将数据和信息提供给发送缓冲器103,并且使发送缓冲器103保存该数据和信息。
在步骤S15的处理之后,处理进入步骤S16。
在步骤S14中确定不存在基于极坐标的固定对象的情况下,不进行步骤S15的处理。然后,处理进入步骤S16。
在步骤S16中,编码数据发送单元22基于系统配置信息确定作为构成内容的对象的基于绝对坐标的固定对象的存在或不存在。在这种情况下,如果包括在系统配置信息中的标志“NonInterpolateCartesianObjFlag”的值是“1”,则确定存在基于绝对坐标的固定对象。
如果在步骤S16中确定存在基于绝对坐标的固定对象,则编码数据发送单元22在步骤S17中基于系统配置信息将关于构成内容的基于绝对坐标的固定对象的数据加载到发送缓冲器103中。
具体地,编码数据发送单元22从记录单元102读取关于构成内容的每个基于绝对坐标的固定对象的对象绝对坐标编码数据、编码增益信息和编码音频数据,将数据和信息提供给发送缓冲器103,并且使发送缓冲器103保存数据和信息。
在步骤S17的处理之后,处理进入步骤S18。
如果在步骤S16中确定不存在基于绝对坐标的固定对象,则不执行步骤S17的处理。然后,处理进入步骤S18。
在步骤S18中,编码数据发送单元22基于系统配置信息确定作为构成内容的对象的基于极坐标的插值对象的存在与否。在这种情况下,如果包括在系统配置信息中的标志“InterpolatePolarObjFlag”的值是“1”,则确定基于极坐标的插值对象存在。
如果在步骤S18中确定基于极坐标的插值对象存在,则处理进入步骤S19。
在步骤S19中,编码数据发送单元22基于视点选择信息和系统配置信息将有关构成内容的基于极坐标的插值对象的数据加载到发送缓冲器103中。
具体地,关于由视点选择信息表示的三个参考视点,编码数据发送单元22针对每个基于极坐标的插值对象从记录单元102读取对象极坐标编码数据和编码增益信息,将数据和信息提供给发送缓冲器103,并且使发送缓冲器103保存数据和信息。编码数据发送单元22还从记录单元102读取关于每个基于极坐标的插值对象的编码音频数据,将数据提供至发送缓冲器103,并且使发送缓冲器103保存数据。
在步骤S19的处理之后,处理进入步骤S20。
如果在步骤S18中确定不存在基于极坐标的插值对象,则不进行步骤S19的处理。然后,处理进入步骤S20。
在步骤S20中,编码数据发送单元22多路复用关于对象的数据以生成位流,在步骤S13至S19的处理中将数据加载到发送缓冲器103中。在这种情况下,也可以复用系统配置信息。这生成例如图13的格式的位流。
在步骤S21中,编码数据发送单元22将生成的位流发送给客户端12。由此,完成内容向客户端12的分发。
在步骤S22中,编码数据发送单元22确定是否终止处理。
例如,在从客户端12请求停止内容的发送的情况下,或者在关于内容的所有数据的发送完成时,确定终止处理。
在步骤S22中,如果确定不终止处理,则处理返回至步骤S12以重复上述处理。
在步骤S22中确定为处理结束的情况下,服务器11的各个单元停止处理,从而结束提供。例如,在完成关于内容的所有数据的发送时,服务器11将关于数据发送完成的信息发送到客户端12并终止提供。
如上所述,服务器11产生包括关于构成内容的对象(即,来自关于四种对象的数据中的必需种类的对象)的数据的位流,并将该位流发送到客户端12。这可以基于内容制作者的意图再现内容。
<再现音频数据的生成的说明>
此外,客户端12在初始化之后向服务器11请求建立网络会话。当从服务器11接收到响应时,客户端12通过通信单元111发送发送系统配置信息的请求。
当响应于传输请求从服务器11传输系统配置信息时,客户端12开始生成再现音频数据。
参照图19的流程图,下面描述由客户端12生成再现音频数据。
在步骤S51中,通信单元111接收从服务器11传输的系统配置信息并且将信息提供至视点选择单元42、坐标轴变换单元47、对象位置计算单元48、以及对象位置计算单元71。在这种情况下,可根据需要通过解码单元45对系统配置信息进行解码。
在步骤S52中,收听者位置信息获取单元41响应于收听者的操作等获取收听者位置信息并且将该信息提供给视点选择单元42、对象位置计算单元48、对象位置计算单元71以及极坐标变换单元49。
在步骤S53中,视点选择单元42基于从通信单元111提供的系统配置信息和从收听者位置信息获取单元41提供的收听者位置信息选择三个参考视点,并且将关于选择结果的视点选择信息提供至通信单元111。
例如,在步骤S53中,从由系统配置信息指示的多个参考视点中选择围绕由收听者位置信息指示的收听位置的三个参考视点。
此外,通信单元111请求从服务器11开始传输位流。
在步骤S54中,通信单元111将从视点选择单元42提供的视点选择信息发送至服务器11。
响应于传输,从服务器11传输在图18的步骤S20中生成的位流。
在步骤S55中,通信单元111接收从服务器11传输的位流并且将位流提供到解码单元45。
在步骤S56中,客户端12生成每个对象的极坐标位置信息。
参照图20的流程图,下面将描述步骤S56中极坐标位置信息的生成。
在步骤S81中,解码单元45从通信单元111提供的位流提取关于基于绝对坐标的插值对象的数据并且对数据进行解码。
解码单元45将关于基于绝对坐标的插值对象的解码的对象极坐标位置信息提供给坐标变换单元46,并将关于基于绝对坐标的插值对象的解码的增益信息提供给对象位置计算单元48。
此外,解码单元45将关于基于绝对坐标的插值对象的解码音频数据提供给极坐标变换单元49。
在步骤S82中,坐标变换单元46对从解码单元45提供的关于基于绝对坐标的插值对象的对象极坐标位置信息执行坐标变换,并将获得的对象绝对坐标位置信息提供给坐标轴变换单元47。
这获得表示原点位于参考视点的位置的绝对坐标系中基于绝对坐标的插值对象的位置的对象绝对坐标位置信息。
在步骤S83中,坐标轴变换单元47基于从通信单元111提供的系统配置信息对从坐标变换单元46提供的对象绝对坐标位置信息执行坐标轴变换。
坐标轴变换单元47对关于每个参考视点的基于绝对坐标的插值对象的对象绝对坐标位置信息执行坐标轴变换,并将所获得的关于在公共绝对坐标系中基于绝对坐标的插值对象的位置的对象绝对坐标位置信息提供至对象位置计算单元48。在坐标轴变换中,使用包括在系统配置信息中的参考视点的参考视点信息,即,参考视点位置信息和收听者方位信息。
在步骤S84中,对象位置计算单元48基于从通信单元111提供的系统配置信息、从收听者位置信息获取单元41提供的收听者位置信息、从坐标轴变换单元47提供的对象绝对坐标位置信息以及从解码单元45提供的增益信息来执行插值。
例如,对象位置计算单元48基于包含在系统配置信息和收听者位置信息中的参考视点位置信息执行与上述公式(1)至(6)相同的计算,并且确定内部比率(m,n)和内部比率(k,l)。
然后,对象位置计算单元48基于所确定的内部比率(m,n)和(k,l)以及关于参考视点的对象绝对坐标位置信息执行与上述公式(7)至(14)相同的计算,从而通过插值获得关于基于绝对坐标的插值对象的最终对象绝对坐标位置信息。
与对象绝对坐标位置信息一样,对象位置计算单元48也对增益信息执行插值,并且确定关于基于绝对坐标的插值对象的最终增益信息。
对象位置计算单元48向极坐标变换单元49提供关于基于绝对坐标的插值对象的插值的最终对象绝对坐标位置信息和插值的增益信息。
在步骤S85中,极坐标变换单元49基于从收听者位置信息获取单元41提供的收听者位置信息,对从对象位置计算单元48提供的关于基于绝对坐标的插值对象的对象绝对坐标位置信息执行极坐标变换,并且生成极坐标位置信息。
由此,获得表示从收听位置观察到的基于绝对坐标的插值对象的相对位置的关于极坐标的极坐标位置信息。
极坐标变换单元49基于从对象位置计算单元48提供的关于基于绝对坐标的插值对象的增益信息,对从解码单元45提供的关于基于绝对坐标的插值对象的音频数据进行增益调整。
极坐标变换单元49将获得的极坐标位置信息和关于基于绝对坐标的插值对象的音频数据提供给渲染单元113。
在步骤S86中,解码单元45确定从通信单元111提供的位流是否包括关于基于极坐标的固定对象的数据。
例如,在步骤S86中,如果数据包括在位流中或可选地,如果从通信单元111提供的系统配置信息的标志“NonInterpolatePolarObjFlag”的值是“1”,则确定存在关于基于极坐标的固定对象的数据。
如果在步骤S86中确定存在关于基于极坐标的固定对象的数据,则在步骤S87中,解码单元45从通信单元111提供的位流提取关于基于极坐标的固定对象的数据并且对数据进行解码。
解码单元45基于关于基于极坐标的固定对象的解码增益信息,适当地对基于极坐标的固定对象的解码音频数据进行增益调整。
此外,解码单元45将关于基于极坐标的固定对象的解码的对象极坐标位置信息和关于基于极坐标的固定对象的增益调整的音频数据提供给渲染单元113。此时,基于极坐标的固定对象的对象极坐标位置信息不被变换,而是作为基于极坐标的固定对象的极坐标位置信息提供给渲染单元113。
在步骤S87的处理之后,处理进入步骤S88。
如果在步骤S86中确定不存在基于极坐标的固定对象,则处理进行到步骤S88。
在步骤S88中,解码单元45确定从通信单元111提供的位流是否包括关于基于绝对坐标的固定对象的数据。
例如,在步骤S88中,如果数据包括在位流中或可选地,如果从通信单元111提供的系统配置信息的标志“NonInterpolateCartersianObjFlag”的值是“1”,则确定存在关于基于绝对坐标的固定对象的数据。
如果在步骤S88中确定存在关于基于绝对坐标的固定对象的数据,则在步骤S89中解码单元45从通信单元111提供的位流提取关于基于绝对坐标的固定对象的数据并且解码数据。
解码单元45将关于基于绝对坐标的固定对象的解码对象绝对坐标位置信息、增益信息和音频数据提供给极坐标变换单元49。
在步骤S90中,极坐标变换单元49基于从收听者位置信息获取单元41提供的收听者位置信息,对从解码单元45提供的的关于基于绝对坐标的固定对象的对象绝对坐标位置信息执行极坐标变换,并且生成极坐标位置信息。
由此,获得指示从收听者(收听位置看到的基于绝对坐标的固定对象的相对位置)的极坐标的极坐标位置信息。
极坐标变换单元49基于从解码单元45提供的关于基于绝对坐标的固定对象的增益信息,对从解码单元45提供的关于基于绝对坐标的固定对象的音频数据进行增益调整。
极坐标变换单元49将所获取的极坐标位置信息和关于基于绝对坐标的固定对象的音频数据提供给渲染单元113。
在步骤S90的处理之后,处理进行至步骤S91。
如果在步骤S88中确定不存在基于绝对坐标的固定对象,则处理前进到步骤S91。
在步骤S91中,解码单元45确定从通信单元111提供的位流是否包括关于基于极坐标的插值对象的数据。
例如,在步骤S91中,如果数据包括在位流中或可选地,如果从通信单元111提供的系统配置信息的标志“InterpolatePolarObjFlag”的值是“1”,则确定存在关于基于极坐标的插值对象的数据。
如果在步骤S91中确定存在关于基于极坐标的插值对象的数据,则在步骤S92中,解码单元45从通信单元111提供的位流提取关于基于极坐标的插值对象的数据并且对数据进行解码。
解码单元45将关于基于极坐标的插值对象的解码的对象极坐标位置信息、增益信息和音频数据提供给对象位置计算单元71。
在步骤S93中,对象位置计算单元71基于从通信单元111提供的系统配置信息、从收听者位置信息获取单元41提供的收听者位置信息、从解码单元45提供的关于基于极坐标的插值对象的对象极坐标位置信息以及从解码单元45提供的增益信息来执行插值。
例如,对象位置计算单元71基于包含在系统配置信息中的参考视点位置信息和收听者位置信息执行与上述公式(1)至(3)相同的计算并且确定内部比率(m,n)。
然后,对象位置计算单元71基于所确定的内部比(m,n)、参考视点位置信息、关于在每个参考视点的基于极坐标的插值对象的对象极坐标位置信息和收听者位置信息执行与上述公式(15)和(16)相同的计算,从而通过插值确定关于基于极坐标的插值对象的极坐标位置信息。
与极坐标位置信息一样,对象位置计算单元71也对增益信息进行插值,并基于获得的基于极坐标的插值对象的最终增益信息,对基于极坐标的插值对象的音频数据进行增益调整。
对象位置计算单元71将关于基于极坐标的插值对象的极坐标位置信息和音频数据提供给渲染单元113,位置信息和音频数据通过插值和增益调整来获得。
在步骤S93的处理之后,极坐标位置信息的生成完成,然后处理前进到图19的步骤S57。
如果在步骤S91中确定不存在基于极坐标的插值对象,则完成极坐标位置信息的生成,而不执行步骤S92和步骤S93的处理。然后,处理前进到图19的步骤S57。
再次参考图19的流程图的描述,在步骤S57中,呈现单元113基于所提供的极坐标位置信息和关于每个对象的音频数据执行诸如VBAP的呈现,并且输出所获得的再现音频数据。
在步骤S57中,基于来自极坐标变换单元49的关于基于绝对坐标的插值对象和基于绝对坐标的固定对象的极坐标位置信息和音频数据、来自解码单元45的关于基于极坐标的固定对象的极坐标位置信息和音频数据、以及来自对象位置计算单元71的关于基于极坐标的插值对象的极坐标位置信息和音频数据来执行渲染。
例如,通过再现单元113的后续阶段的扬声器,基于再现音频数据再现内容的声音。
在步骤S58中,客户端12确定是否终止当前处理。例如,在步骤S58中,响应于来自收听者的停止对内容的再现的指令或者在再现内容上的所有接收的多条数据时,确定将终止处理。
如果在步骤S58中确定不终止处理,则处理返回至步骤S52以重复上述处理。
如果在步骤S58中确定要终止处理,则客户端12结束与服务器11的会话并停止以单元执行的处理,从而终止再现音频数据的生成。
如上所述,客户端12对包括在所接收的位流中的所有种类的对象执行适当的处理,并且生成再现音频数据。这可以基于内容制作者的意图再现内容,允许收听者充分地自由对内容的吸引。
如上所述,本技术将根据收听者的位置灵活定位的对象和与收听者的位置无关地固定的面向收听者的对象进行组合,并且对关于所有种类的对象的数据进行编码,以便有效地发送和再现数据。
这可以表示通过根据内容制作者的意图在三维空间中的音频艺术意图设计的对象布局中的任何位置处插值而确定的对象位置。本技术还可实现无论收听者的方位如何总是固定的对象和设置在自由视点空间中的绝对位置处的对象。
因此,本技术可以实现诸如取决于例如声学AR或声音的到达方向的引导支持系统的应用,并且实现艺术意图形式的内容再现世界,其中,在包括固定背景噪声的自由视点空间中,通过插值将对象布置在适当位置处。
<计算机的配置实例>
该系列处理可以由硬件或软件执行。如果通过软件执行该系列处理,则在计算机上安装构成软件的程序。在这种情况下,计算机包括例如内置于专用硬件中的计算机和其上安装有各种程序以能够执行各种功能的通用个人计算机。
图21是示出执行程序以执行该一系列处理的计算机的硬件配置实例的框图。
在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503经由总线504彼此连接。
输入/输出接口505进一步连接至总线504。输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接至输入/输出接口505。
输入单元506包括键盘、鼠标、麦克风和成像元件。输出单元507包括显示器和扬声器。记录单元508包括硬盘和非易失性存储器。通信单元509包括网络接口。驱动器510驱动可移除记录介质511,例如,磁盘、光盘、磁光盘或半导体存储器。
在这样配置的计算机中,例如,CPU 501通过输入/输出接口505和总线504将记录在记录单元508中的程序加载到RAM 503中,并且执行该程序,以便执行一系列处理。
由计算机(CPU 501)执行的程序可以以记录在例如用作封装介质的可移除记录介质511上的方式提供。还可以通过有线或无线传输介质(例如,局域网、互联网或数字卫星广播)来提供程序。
在计算机中,通过将可移除记录介质511加载到驱动器510中,程序可以通过输入/输出接口505安装在记录单元508上。此外,程序可以通过有线或无线传输介质由通信单元509接收并且安装在记录单元508上。此外,程序可以提前安装在ROM 502或记录单元508上。
注意,由计算机执行的程序可以是按照本说明书中描述的顺序按时间顺序执行处理的程序,或者可以是并行或在必要定时(例如,调用时间)执行处理的程序。
本技术的实施方式不限于上述实施方式,并且可以在不偏离本技术的主旨的情况下以各种方式改变。
例如,本技术可以被配置为云计算,其中,通过网络由多个设备共享和协作地处理一个功能。
另外,流程图中描述的步骤可以由一个设备或多个设备以共享方式执行。
此外,如果一个步骤包括多个处理,则包括在一个步骤中的多个处理可以由一个设备或多个设备以共享方式执行。
本技术还可配置如下。
(1)一种信息处理装置,包括:
收听者位置信息获取单元,获取关于收听者的视点的收听者位置信息;
参考视点信息获取单元,获取第一参考视点的位置信息、第一对象在第一参考视点的对象位置信息、第二参考视点的位置信息、第一对象在第二参考视点的对象位置信息和第二对象的对象位置信息;以及
对象位置计算单元,基于所述收听者位置信息、关于所述第一参考视点的所述位置信息、关于第一对象在第一参考视点的所述对象位置信息、关于所述第二参考视点的所述位置信息以及第一对象在第二参考视点的所述对象位置信息,计算关于第一对象在收听者的视点的位置信息。
(2)根据(1)所述的信息处理装置,其中,所述第一参考视点和所述第二参考视点是由内容制作者预先设置的视点。
(3)根据(1)或(2)所述的信息处理装置,其中,所述第一参考视点和所述第二参考视点是基于所述收听者位置信息选择的视点。
(4)根据(1)至(3)中任一项所述的信息处理装置,其中,所述对象位置计算单元通过插值来计算关于在第一对象在收听者的视点的所述位置信息。
(5)根据(4)所述的信息处理装置,其中,关于在第一对象在第一参考视点的所述对象位置信息是表示所述第一对象相对于所述第一参考视点的相对位置的坐标信息,以及
关于第一对象在第二参考视点的对象位置信息是表示第一对象相对于第二参考视点的相对位置的坐标信息。
(6)根据(5)所述的信息处理装置,其中,所述第一对象的所述对象位置信息是表示极坐标所表示的位置的信息。
(7)根据(6)所述的信息处理装置,其中,所述对象位置计算单元基于第一对象的极坐标对象位置信息执行插值。
(8)根据(4)至(6)中任一项所述的信息处理装置,其中所述对象位置计算单元将关于所述第一对象的所述极坐标对象位置信息变换成表示所述第一对象在公共绝对坐标空间中的绝对位置的对象绝对坐标位置信息,并且基于由绝对坐标表示的所述对象绝对坐标位置信息执行所述插值。
(9)根据(4)所述的信息处理装置,其中对于包括第一参考视点和第二参考视点的至少三个参考视点,参考视点信息获取单元获取关于参考视点的位置信息和关于第一对象在参考视点的对象位置信息,以及
对象位置计算单元基于收听者位置信息、关于三个参考视点的位置信息、以及关于第一对象在三个参考视点的对象位置信息执行插值。
(10)根据(1)至(9)中任一项所述的信息处理装置,其中关于所述第二对象的所述对象位置信息是指示所述第二对象相对于所述收听者的所述位置的相对位置的坐标信息。
(11)根据(1)至(9)中任一项所述的信息处理装置,其中,关于所述第二对象的所述对象位置信息是指示所述第二对象在所述公共绝对坐标空间中的绝对位置的坐标信息,以及
在收听者的视点处,对象位置计算单元将关于第二对象的对象位置信息转换为关于第二对象的位置信息。
(12)根据(1)至(11)中任一项所述的信息处理装置,其中所述对象位置计算单元基于所述收听者位置信息、关于所述第一参考视点的所述位置信息、关于在第一对象在第一参考视点的所述对象位置信息、关于所述收听者的所述面部在所述第一参考视点的设置方位的收听者方位信息、关于所述第二参考视点的所述位置信息、关于第一对象在第二参考视点的所述对象位置信息以及在所述第二参考视点的所述收听者方位信息,计算关于在第一对象在收听者的视点的位置信息。
(13)根据(12)所述的信息处理装置,其中,所述参考视点信息获取单元获取配置信息,所述配置信息包括关于包括所述第一参考视点和所述第二参考视点的至少三个参考视点的所述位置信息和所述收听者方位信息。
(14)根据(13)所述的信息处理装置,其中,配置信息包括关于参考视点的数量的信息以及关于第一对象和第二对象的数量的信息。
(15)一种信息处理方法,使信息处理装置执行以下:
获取收听者的视点的收听者位置信息;
获取第一参考视点的位置信息、第一对象在第一参考视点的对象位置信息、第二参考视点的位置信息、第一对象在第二参考视点的对象位置信息和第二对象的对象位置信息;以及
基于收听者位置信息、第一参考视点的位置信息、第一对象在第一参考视点的对象位置信息、第二参考视点的位置信息以及第一对象在第二参考视点的所述对象位置信息,计算第一对象在所述收听者的所述视点的位置信息。
(16)一种程序,使计算机执行以下:
获取关于收听者的视点的收听者位置信息;
获取第一参考视点的位置信息、第一对象在第一参考视点的对象位置信息、第二参考视点的位置信息、第一对象在第二参考视点的对象位置信息和第二对象的对象位置信息;以及
基于收听者位置信息、第一参考视点的位置信息、第一对象在第一参考视点的对象位置信息、所述第二参考视点的位置信息以及第一对象在第二参考视点的对象位置信息,计算第一对象在收听者的视点的位置信息。
[参考标号列表]
11 服务器
12 客户端
21 配置信息发送单元
22 编码数据发送单元
41收听者位置信息获取单元
42 视点选择单元
45 解码单元
48 对象位置计算单元
71 对象位置计算单元
111 通信单元
112 位置计算单元
113 渲染单元
Claims (16)
1.一种信息处理装置,包括:
收听者位置信息获取单元,获取关于收听者的视点的收听者位置信息;
参考视点信息获取单元,获取第一参考视点的位置信息、第一对象在所述第一参考视点的对象位置信息、第二参考视点的位置信息、所述第一对象在所述第二参考视点的对象位置信息和第二对象的对象位置信息;以及
对象位置计算单元,基于所述收听者位置信息、所述第一参考视点的所述位置信息、所述第一对象在所述第一参考视点的所述对象位置信息、所述第二参考视点的所述位置信息以及所述第一对象在所述第二参考视点的所述对象位置信息,计算所述第一对象在所述收听者的所述视点处的位置信息。
2.根据权利要求1所述的信息处理装置,其中,所述第一参考视点和所述第二参考视点是由内容制作者预先设置的视点。
3.根据权利要求1所述的信息处理装置,其中,所述第一参考视点和所述第二参考视点是基于所述收听者位置信息选择的视点。
4.根据权利要求1所述的信息处理装置,其中,所述对象位置计算单元通过插值来计算所述第一对象在所述收听者的所述视点处的所述位置信息。
5.根据权利要求4所述的信息处理装置,其中,所述第一对象在所述第一参考视点的所述对象位置信息是表示所述第一对象相对于所述第一参考视点的相对位置的坐标信息,以及
所述第一对象在所述第二参考视点的所述对象位置信息是表示所述第一对象相对于所述第二参考视点的相对位置的坐标信息。
6.根据权利要求5所述的信息处理装置,其中,所述第一对象的所述对象位置信息是指示由极坐标所表示的位置的信息。
7.根据权利要求6所述的信息处理装置,其中,所述对象位置计算单元基于所述第一对象的极坐标对象位置信息执行插值。
8.根据权利要求4所述的信息处理装置,其中,所述对象位置计算单元将所述第一对象的所述极坐标对象位置信息变换成表示所述第一对象在公共绝对坐标空间中的绝对位置的对象绝对坐标位置信息,并且基于由绝对坐标表示的所述对象绝对坐标位置信息执行所述插值。
9.根据权利要求4所述的信息处理装置,其中,对于包括所述第一参考视点和所述第二参考视点的至少三个参考视点,所述参考视点信息获取单元获取所述参考视点的位置信息和所述第一对象在所述参考视点的对象位置信息,以及
所述对象位置计算单元基于所述收听者位置信息、三个所述参考视点的位置信息、以及所述第一对象在三个所述参考视点的所述对象位置信息执行插值。
10.根据权利要求1所述的信息处理装置,其中,所述第二对象的所述对象位置信息是指示所述第二对象相对于所述收听者的位置的相对位置的坐标信息。
11.根据权利要求1所述的信息处理装置,其中,所述第二对象的所述对象位置信息是指示所述第二对象在公共绝对坐标空间中的绝对位置的坐标信息,以及
所述对象位置计算单元将所述第二对象的所述对象位置信息变换为所述第二对象在所述收听者的所述视点的位置信息。
12.根据权利要求1所述的信息处理装置,其中,所述对象位置计算单元基于所述收听者位置信息、所述第一参考视点的所述位置信息、所述第一对象在所述第一参考视点的所述对象位置信息、所述收听者的面部在所述第一参考视点的设定方位的收听者方位信息、所述第二参考视点的所述位置信息、所述第一对象在所述第二参考视点的所述对象位置信息以及在所述第二参考视点的所述收听者方位信息,计算所述第一对象在所述收听者的所述视点处的位置信息。
13.根据权利要求12所述的信息处理装置,其中,所述参考视点信息获取单元获取配置信息,所述配置信息包括关于包括所述第一参考视点和所述第二参考视点的至少三个参考视点的位置信息和所述收听者方位信息。
14.根据权利要求13所述的信息处理装置,其中,所述配置信息包括关于所述参考视点的数量的信息以及关于所述第一对象和所述第二对象的数量的信息。
15.一种信息处理方法,使信息处理装置执行以下:
获取关于收听者的视点的收听者位置信息;
获取第一参考视点的位置信息、第一对象在所述第一参考视点的对象位置信息、第二参考视点的位置信息、所述第一对象在所述第二参考视点的对象位置信息和第二对象的对象位置信息;以及
基于所述收听者位置信息、所述第一参考视点的所述位置信息、所述第一对象在所述第一参考视点的所述对象位置信息、所述第二参考视点的所述位置信息以及所述第一对象在所述第二参考视点的所述对象位置信息,计算所述第一对象在所述收听者的所述视点处的位置信息。
16.一种程序,使计算机执行以下:
获取关于收听者的视点的收听者位置信息;
获取第一参考视点的位置信息、第一对象在所述第一参考视点的对象位置信息、第二参考视点的位置信息、所述第一对象在所述第二参考视点的对象位置信息和第二对象的对象位置信息;以及
基于所述收听者位置信息、所述第一参考视点的所述位置信息、所述第一对象在所述第一参考视点的所述对象位置信息、所述第二参考视点的所述位置信息以及所述第一对象在所述第二参考视点的所述对象位置信息,计算所述第一对象在所述收听者的所述视点的位置信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020168944 | 2020-10-06 | ||
JP2020-168944 | 2020-10-06 | ||
PCT/JP2021/034952 WO2022075080A1 (ja) | 2020-10-06 | 2021-09-24 | 情報処理装置および方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116325809A true CN116325809A (zh) | 2023-06-23 |
Family
ID=81126731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180067428.6A Pending CN116325809A (zh) | 2020-10-06 | 2021-09-24 | 信息处理装置、方法和程序 |
Country Status (11)
Country | Link |
---|---|
US (1) | US20240007818A1 (zh) |
EP (1) | EP4228289A4 (zh) |
JP (1) | JPWO2022075080A1 (zh) |
KR (1) | KR20230080405A (zh) |
CN (1) | CN116325809A (zh) |
AU (1) | AU2021357463A1 (zh) |
BR (1) | BR112023005988A2 (zh) |
CA (1) | CA3190763A1 (zh) |
MX (1) | MX2023003340A (zh) |
WO (1) | WO2022075080A1 (zh) |
ZA (1) | ZA202304646B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002171460A (ja) * | 2000-11-30 | 2002-06-14 | Sony Corp | 再生装置 |
CN114466279A (zh) * | 2016-11-25 | 2022-05-10 | 索尼公司 | 再现方法、装置及介质、信息处理方法及装置 |
KR102653185B1 (ko) * | 2018-04-12 | 2024-04-02 | 소니그룹주식회사 | 정보 처리 장치 및 방법, 그리고 프로그램이 저장된 컴퓨터 판독 가능한 기록매체 |
CN114930877A (zh) * | 2020-01-09 | 2022-08-19 | 索尼集团公司 | 信息处理设备和信息处理方法以及程序 |
-
2021
- 2021-09-24 JP JP2022555360A patent/JPWO2022075080A1/ja active Pending
- 2021-09-24 US US18/029,254 patent/US20240007818A1/en active Pending
- 2021-09-24 WO PCT/JP2021/034952 patent/WO2022075080A1/ja active Application Filing
- 2021-09-24 CA CA3190763A patent/CA3190763A1/en active Pending
- 2021-09-24 MX MX2023003340A patent/MX2023003340A/es unknown
- 2021-09-24 EP EP21877381.0A patent/EP4228289A4/en active Pending
- 2021-09-24 CN CN202180067428.6A patent/CN116325809A/zh active Pending
- 2021-09-24 BR BR112023005988A patent/BR112023005988A2/pt unknown
- 2021-09-24 AU AU2021357463A patent/AU2021357463A1/en active Pending
- 2021-09-24 KR KR1020237009374A patent/KR20230080405A/ko unknown
-
2023
- 2023-04-21 ZA ZA2023/04646A patent/ZA202304646B/en unknown
Also Published As
Publication number | Publication date |
---|---|
BR112023005988A2 (pt) | 2023-05-02 |
CA3190763A1 (en) | 2022-04-14 |
US20240007818A1 (en) | 2024-01-04 |
EP4228289A4 (en) | 2024-03-20 |
ZA202304646B (en) | 2024-01-31 |
WO2022075080A1 (ja) | 2022-04-14 |
KR20230080405A (ko) | 2023-06-07 |
EP4228289A1 (en) | 2023-08-16 |
MX2023003340A (es) | 2023-03-27 |
AU2021357463A1 (en) | 2023-03-16 |
JPWO2022075080A1 (zh) | 2022-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109313907B (zh) | 合并音频信号与空间元数据 | |
US11395083B2 (en) | Scalable unified audio renderer | |
WO2020255810A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP2019533404A (ja) | バイノーラルオーディオ信号処理方法及び装置 | |
CN111434126B (zh) | 信号处理装置和方法以及程序 | |
KR20180008609A (ko) | 음성 처리 장치 및 방법, 그리고 기록 매체 | |
US11074921B2 (en) | Information processing device and information processing method | |
JPWO2019078035A1 (ja) | 信号処理装置および方法、並びにプログラム | |
US20210176582A1 (en) | Information processing apparatus and method, and program | |
TW201923745A (zh) | 用於電腦媒介實境系統之成像 | |
JP2022137213A (ja) | 信号処理装置および方法、並びにプログラム | |
JP2023164970A (ja) | 情報処理装置および方法、並びにプログラム | |
US11122386B2 (en) | Audio rendering for low frequency effects | |
CN108476365B (zh) | 音频处理装置和方法以及存储介质 | |
JP2022172391A (ja) | 信号処理装置および方法、並びにプログラム | |
CN116325809A (zh) | 信息处理装置、方法和程序 | |
WO2020008890A1 (ja) | 情報処理装置および方法、並びにプログラム | |
CN113632496A (zh) | 相关联的空间音频回放 | |
WO2022234698A1 (ja) | 情報処理装置および方法、並びにプログラム | |
US20230123253A1 (en) | Method and Apparatus for Low Complexity Low Bitrate 6DOF HOA Rendering | |
WO2022262758A1 (zh) | 音频渲染系统、方法和电子设备 | |
WO2022034805A1 (ja) | 信号処理装置および方法、並びにオーディオ再生システム | |
WO2022262750A1 (zh) | 音频渲染系统、方法和电子设备 | |
EP3987824A1 (en) | Audio rendering for low frequency effects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40086371 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |