CN117981361A - 信息处理设备、方法和程序 - Google Patents

信息处理设备、方法和程序 Download PDF

Info

Publication number
CN117981361A
CN117981361A CN202280032091.XA CN202280032091A CN117981361A CN 117981361 A CN117981361 A CN 117981361A CN 202280032091 A CN202280032091 A CN 202280032091A CN 117981361 A CN117981361 A CN 117981361A
Authority
CN
China
Prior art keywords
information
viewpoint
position information
listening
listening position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280032091.XA
Other languages
English (en)
Inventor
畠中光行
辻实
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN117981361A publication Critical patent/CN117981361A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本技术涉及使得可以基于内容制作者的意图再现内容的信息处理设备和方法、以及程序。该信息处理设备包括:收听者位置信息获取单元,获取收听者位置信息;视点选择单元,在预定时间选择形成包含收听位置的区域的多个参考视点;参考视点信息获取单元,获取关于多个参考视点的视点位置信息和关于在多个参考视点中的每个参考视点处的对象的对象位置信息;以及对象位置计算单元,如果在不同于预定时间的时间,收听位置在包括预定时间的收听位置的区域之外,则对象位置计算单元基于关于形成包括不同时间的收听位置的区域的多个参考视点的对象位置信息在收听位置处计算针对对象的位置信息,或者输出最终获得的位置信息。本技术可应用于信息处理设备。

Description

信息处理设备、方法和程序
技术领域
本技术涉及信息处理设备和方法以及程序,具体地,涉及可以基于内容创建者的意图实现内容再现的信息处理设备和方法以及程序。
背景技术
例如,在自由的视点空间中,使用绝对坐标系统布置在空间中的每个对象以固定的方式配置(例如,参考专利文献1)。
在这种情况下,基于收听者在绝对空间中的坐标位置、面部朝向以及与对象的关系,唯一地获得从任意收听位置观看的每个对象的朝向,基于与收听位置的距离,唯一地获得每个对象的增益,并且再现每个对象的声音。
引用列表
专利文献
专利文件1:WO 2019/198540
发明内容
本发明要解决的问题
另一方面,对于本领域,存在要强调作为内容和收听者的点。
例如,有时希望在对象(在想要强调内容的特定收听点处的乐器或演奏者等、或者希望强调运动内容的演奏者)在音乐内容的前方。
鉴于这样的情况,存在如上所述的收听者与对象之间的单纯的物理关系不能充分地传达内容的娱乐的可能性。
鉴于这种情况创作了本技术,并且其目的是在跟随收听者的自由位置的同时基于内容创建者的意图实现内容再现。
问题的解决方案
根据本技术的一个方面的信息处理设备包括:收听者位置信息获取单元,获取表示收听位置的收听者位置信息;视点选择单元,从多个参考视点之中选择形成包括预定时间的收听位置的区域的多个参考视点;参考视点信息获取单元,获取多个参考视点的视点位置信息、和针对多个参考视点中的每个参考视点的参考视点的对象的对象位置信息;以及对象位置计算单元,其在不同于预定时间的时间,在收听位置处于包括预定时间的收听位置的区域之外的情况下,基于形成包括不同时间的收听位置的区域的多个参考视点的对象位置信息计算收听位置的对象的位置信息,或者输出最后获得的收听位置的对象的位置信息。
根据本技术的另一方面的信息处理方法或程序包括:获取表示收听位置的收听者位置信息;从多个参考视点之中选择形成包括预定时间的收听位置的区域的多个参考视点;获取多个参考视点的视点位置信息以及针对多个参考视点中的每个参考视点的参考视点的对象的对象位置信息;以及在不同于预定时间的时间,在收听位置处于包括预定时间的收听位置的区域之外的情况下,基于形成包括不同时间的收听位置的区域的多个参考视点的对象位置信息,计算收听位置的对象的位置信息,或者输出最后获得的收听位置的对象的位置信息。
在本技术的方面,获取表示收听位置的收听者位置信息;从多个参考视点之中选择形成包括预定时间的收听位置的区域的多个参考视点;获取多个参考视点的视点位置信息以及针对多个参考视点中的每个参考视点的参考视点的对象的对象位置信息;以及在不同于预定时间的时间,在收听位置处于包括预定时间的收听位置的区域之外的情况下,基于形成包括不同时间的收听位置的区域的多个参考视点的对象位置信息,计算收听位置的对象的位置信息,或者输出最后获得的收听位置的对象的位置信息。
附图说明
图1是示出内容再现系统的配置示例的简图。
图2是示出系统配置信息的示例的图。
图3是用于描述坐标变换的图。
图4是用于描述坐标轴变换处理的图。
图5是用于描述插值处理的示图。
图6是用于描述对象绝对坐标位置信息的插值的图。
图7是用于描述视点侧的三角网格的内部划分比率的图。
图8是用于描述通过内分割比计算对象位置的图。
图9是用于描述通过内部划分比率计算增益信息的图。
图10是示出内容再现系统的顺序示例的图。
图11是用于描述收听位置与三角网格的关系的图。
图12是用于描述收听位置与三角网格的关系的图。
图13是用于描述本技术的图。
图14是示出内容再现系统的配置的图。
图15是用于描述系统配置信息发送处理和系统配置信息接收处理的流程图。
图16是用于描述视点选择信息的发送处理的流程图。
图17是用于描述提供处理的流程图。
图18是用于描述再现音频数据生成处理的流程图。
图19是用于描述额外的参考视点的图。
图20是用于描述视点选择信息的发送处理的流程图。
图21是用于描述再现音频数据生成处理的流程图。
图22是用于描述发送延迟的估计和参考视点的相加的图。
图23是用于描述视点选择信息发送处理的流程图。
图24是示出计算机的配置示例的图。
具体实施方式
在下文中,将参考附图描述应用本技术的实施例。
<第一实施例>
<内容再现系统的配置示例>
本技术具有以下特征F1至F3。
(特征F1)
准备自由视点空间中的多个参考视点的对象布置和增益信息。
(特征F2)
基于夹在或围绕任意收听位置的多个参考视点的对象布置和增益信息,获得任意收听位置处的对象位置和增益信息。
(特征F3)
在获得任意收听位置的对象位置和增益信息的情况下,从任意收听位置以及夹在或围绕任意收听位置的多个参考视点获得比例比率或与比例比率相似的元素,并且使用比例比率或与比例比率相似的元素来获得对象位置和增益信息。
首先,将描述应用本技术的内容再现系统。
内容再现系统包括对每条数据执行编码、发送和解码的服务器和客户端。
例如,如果必须,将收听者位置信息从客户端侧发送至服务器,并且根据收听者位置信息,将一些对象位置信息从服务器侧发送至客户端。然后,基于在客户端侧接收的一些对象位置信息,对每个对象执行渲染处理,并且再现包括每个对象的声音的内容。
例如,如图1中所示配置这种内容再现系统。
即,图1所示的内容再现系统包括服务器11和客户端12。
服务器11包括配置信息发送单元21和编码数据发送单元22。
配置信息发送单元21将预先准备的系统配置信息发送至客户端12,或者接收从客户端12发送的视点选择信息等,以将视点选择信息等提供给编码数据发送单元22。
在内容再现系统中,预定公共绝对坐标空间上的多个收听位置由内容创建者预先指定(设置)为参考视点的位置(在下文中,也称为参考视点位置)。
在此,内容创建者预先指定(设置)内容创建者在内容再现时希望收听者使用的公共绝对坐标空间上的位置作为在内容再现时的收听位置、以及内容创建者希望收听者在该位置处面向的面部朝向(即,内容创建者希望收听者收听内容的声音的视点)作为参考视点。
在服务器11中,准备作为与关于每个参考视点的信息相关联的信息的系统配置信息和针对每个参考视点的对象极坐标编码数据。
在此,针对每个参考视点的对象极坐标编码数据,是通过对表示从参考视点观察到的对象的相对位置的对象极坐标位置信息进行编码而获得的数据。在对象极坐标位置信息中,从参考视点观察到的对象的位置由极坐标表示。另外,即使是相同的对象,公共绝对坐标空间中的对象的绝对配置位置也针对每个参考视点而不同。
例如,配置信息发送单元21在内容再现系统刚开始后、即与客户端12建立连接后,经由网络等向客户端12发送系统配置信息。
编码数据发送单元22通过网络等将由从多个参考视点中的配置信息发送单元21提供的视点选择信息表示的多个参考视点中的每个参考视点的对象极坐标编码数据发送至客户端12。
在此,例如,视点选择信息是表示在客户端12侧选择的两个以上的参考视点的信息。
因此,在编码数据发送单元22中,获取由客户端12请求的参考视点的对象极坐标编码数据,并发送至客户端12。
此外,客户端12包括收听者位置信息获取单元41、视点选择单元42、配置信息获取单元43、编码数据获取单元44、解码单元45、坐标变换单元46、坐标轴变换处理单元47、对象位置计算单元48、以及极坐标变换单元49。
收听者位置信息获取单元41根据用户(收听者)等的指定操作等获取表示收听者在公共绝对坐标空间上的绝对位置(收听位置)的收听者位置信息,并且将收听者位置信息提供给视点选择单元42、对象位置计算单元48、以及极坐标变换单元49。
例如,在收听者位置信息中,收听者在公共绝对坐标空间中的位置由绝对坐标表示。要注意的是,在后文中,由收听者位置信息表示的绝对坐标的坐标系统也称为公共绝对坐标系统。
视点选择单元42基于从配置信息获取单元43提供的系统配置信息和从收听者位置信息获取单元41提供的收听者位置信息中选择两个以上参考视点,并且将表示选择结果的视点选择信息提供给配置信息获取单元43。
例如,视点选择单元42从多个参考视点中选择形成包括预定时间的收听位置的预定范围(区域)的两个以上参考视点。
具体而言,例如,视点选择单元42选择将收听位置夹在中间的两个参考视点。在这种情况下,收听位置位于连接选择的两个参考视点的部分上,即,位于两个参考视点之间的区域(范围)中。
此外,例如,视点选择单元42选择围绕收听位置的三个参考视点。在这种情况下,收听位置位于由选择的三个参考视点形成的三角形区域(范围)中。
配置信息获取单元43接收从服务器11发送的系统配置信息以将系统配置信息提供给视点选择单元42和坐标轴变换处理单元47,或经由网络等将从视点选择单元42提供的视点选择信息发送至服务器11。
应注意,在此,将描述在客户端12中提供基于收听者位置信息和系统配置信息选择参考视点的视点选择单元42的示例,但是可在服务器11侧上设置视点选择单元42。
编码数据获取单元44接收从服务器11发送的对象极坐标编码数据,并将对象极坐标编码数据提供给解码单元45。即,编码数据获取单元44从服务器11获取对象极坐标编码数据。
解码单元45对从编码数据获取单元44提供的对象极坐标编码数据进行解码,并将由此获得的对象极坐标位置信息提供给坐标变换单元46。
坐标变换单元46对从解码单元45提供的对象极坐标位置信息执行坐标变换,并将获得的对象绝对坐标位置信息作为结果提供给坐标轴变换处理单元47。
坐标变换单元46执行将极坐标变换为绝对坐标的坐标变换。因此,将作为表示从参考视点观察到的对象的位置的极坐标的对象极坐标位置信息变换为作为表示对象在以参考视点的位置为原点的绝对坐标系统中的位置的绝对坐标的对象绝对坐标位置信息。
坐标轴变换处理单元47基于从配置信息获取单元43提供的系统配置信息对从坐标变换单元46提供的对象绝对坐标位置信息执行坐标轴变换处理。
在此,坐标轴变换处理是通过组合坐标变换(坐标轴变换)和偏移位移而执行的处理,并且通过坐标轴变换处理获得表示在公共绝对坐标空间中投影的对象的绝对坐标的对象绝对坐标位置信息。即,通过坐标轴变换处理获得的对象绝对坐标位置信息是表示对象在公共绝对坐标空间上的绝对位置的公共绝对坐标系统的绝对坐标。
对象位置计算单元48基于从收听者位置信息获取单元41提供的收听者位置信息和从坐标轴变换处理单元47提供的对象绝对坐标位置信息执行插值处理,并且将获得的最终对象绝对坐标位置信息作为结果提供给极坐标变换单元49。
在此,最终对象绝对坐标位置信息是表示在收听者的视点处于由收听者位置信息表示的收听位置的情况下对象在公共绝对坐标系统中的位置的信息。
另一方面,从坐标轴变换处理单元47输出的对象绝对坐标位置信息是表示在收听者的视点处于参考视点的情况下对象在公共绝对坐标系统中的位置的信息。
对象位置计算单元48从由收听者位置信息表示的收听位置和由视点选择信息表示的多个参考视点的位置计算对象在与收听位置对应的公共绝对坐标空间中的绝对位置(即,公共绝对坐标系统的绝对坐标),并将绝对位置确定为最终对象绝对坐标位置信息。此时,对象位置计算单元48从配置信息获取单元43获取系统配置信息,或者根据需要从视点选择单元42获取视点选择信息。
极坐标变换单元49基于从收听者位置信息获取单元41提供的收听者位置信息,对从对象位置计算单元48提供的对象绝对坐标位置信息执行极坐标变换,并且在后续阶段将获得的极坐标位置信息作为结果输出至渲染处理单元(未示出)。
极坐标变换单元49执行将作为公共绝对坐标系统的绝对坐标的对象绝对坐标位置信息变换为作为表示从收听位置观察到的对象的相对位置的极坐标的极坐标位置信息的极坐标变换。
值得注意的是,以上说明了在服务器11中对每个参考视点准备对象极坐标编码数据的示例,但也可以在服务器11中准备要作为坐标轴变换处理单元47的输出的对象绝对坐标位置信息。
在这种情况下,客户端12被配置为不包含坐标变换单元46和坐标轴变换处理单元47。
然后,编码数据获取单元44接收从服务器11发送的对象绝对坐标编码数据,并且将对象绝对坐标编码数据提供给解码单元45。此外,解码单元45解码从编码数据获取单元44提供的对象绝对坐标编码数据,并且将获得的对象绝对坐标位置信息作为结果提供给对象位置计算单元48。
接下来,将进一步描述内容再现系统等。
首先,说明制作从服务器11提供给客户端12的内容的处理。
基于固定视点,通过3D音频等执行极坐标系统中的内容制作,并且本技术的内容再现系统具有可以照原样使用这种制作方法的优点。
根据内容创建者的意图在三维空间中设置内容创建者(在下文中,简称为制作者)想要收听者收听的多个参考视点。
作为与关于每个参考视点的信息相关联的信息的参考视点信息包括参考视点位置信息和表示收听者的面部朝向的收听者朝向信息,参考视点位置信息是表示在公共绝对坐标空间中的站立位置(即,参考视点的位置)的公共绝对坐标系统的绝对坐标,但其他的数据也可以是其组成部分。
在此,例如,收听者朝向信息包括在参考视点处收听者的面部在水平方向上的旋转角度(水平角度)以及表示在垂直方向上收听者的面部的朝向的垂直角度。
接着,由制作者设置代表在极坐标格式的多个设置的参考视点中的每一个处的每个对象的位置的对象极坐标位置信息、和针对在每个参考视点处每个对象的增益量(增益信息)。
例如,对象极坐标位置信息包括表示基于参考视点的对象的位置的水平角度和垂直角度、以及表示从参考视点到对象的距离的半径。
在以这种方式针对多个参考视点中的每个参考视点设置对象的位置等的情况下,获得以下信息IFP1至信息IFP5作为与关于参考视点的信息相关联的信息。
(信息IFP1)
对象的数量
(信息IFP2)
参考视点的数量
(信息IFP3)
收听者在参考视点的面部朝向(水平角度、垂直角度)
(信息IFP4)
在绝对空间(公共绝对坐标空间)中的参考视点处的绝对坐标位置
(信息IFP5)
从信息IFP3和信息IFP4观看的每个对象的极坐标位置(水平角度、垂直角度、半径)和增益量
在此,信息IFP3是上述收听者朝向信息,信息IFP4是上述参考视点位置信息。
另外,作为信息IFP5的极坐标位置包括水平角度、垂直角度和半径,并且是表示基于参考视点的对象的相对位置的对象极坐标位置信息。由于对象极坐标位置信息相当于MPEG-H的极坐标编码信息,因此可以利用MPEG-H的编码系统。
在信息IFP1至信息IFP5之中,包括信息IFP1至信息IFP4的信息是上述系统配置信息。
在发送与对象相关的数据(即,对象极坐标编码数据或通过对对象的音频数据进行编码而获得的编码音频数据)之前,该系统配置信息被发送至客户端12侧。
系统配置信息的具体示例例如如图2所示。
在图2中,“NumOfObjs”表示作为构成内容的对象的数量的对象的数量,即,上述信息IFP1,“NumfOfRefViewPoint”表示参考视点的数量,即,上述信息IFP2。
此外,系统配置信息包括参考视点的数量“NumfOfRefViewPoint”的参考视点信息。
即,“RefViewX[i]”、“RefViewY[i]”和“RefViewZ[i]”分别表示公共绝对坐标系统的X坐标、Y坐标和Z坐标,公共绝对坐标系统表示作为信息IFP4的构成第i个参考视点的参考视点位置信息的参考视点的位置。
此外,“ListenerYaw[i]”和“ListenerPitch[i]”是构成第i个参考视点的收听者朝向信息作为信息IFP3的水平角度(偏航角)和垂直角度(俯仰角)。
而且,在该示例中,系统配置信息包括信息“ObjectOverLapMode[i]”,其表示在收听者和对象的位置针对每个对象彼此重叠的情况下(即,收听者(收听位置)和对象处于相同位置)的再现模式。
将如上所述获得的系统配置信息、针对每个参考视点的每个对象的对象极坐标编码数据以及通过对表示增益量的增益信息进行编码而获得的编码增益信息保存在服务器11中。
例如,在使用自由视点音频的流服务等中,在开始内容再现系统的操作的情况下,服务器11在发送对象极坐标编码数据之前将系统配置信息发送至客户端12侧。因此,客户端12侧可以掌握构成内容的对象的数量、参考视点的数量、在公共绝对坐标空间中的参考视点的位置等。
接下来,客户端12根据收听者位置信息选择参考视点,并且将表示选择结果的视点选择信息发送至服务器11。
然后,服务器11将对象极坐标编码数据和由视点选择信息请求的参考视点的编码增益信息发送至客户端12。
在客户端12侧,基于多个参考视点中的每个参考视点处的对象极坐标编码数据和编码增益信息,以及收听者位置信息,通过插值处理等计算在当前收听者的任意视点处的对象绝对坐标位置信息和增益信息。
在此,将描述在当前收听者的任意视点处计算最终对象绝对坐标位置信息和增益信息的具体示例。
首先,将描述视点选择信息是表示将收听者夹在中间的两个参考视点的信息的示例。
在这种情况下,客户端12执行以下处理PC1至处理PC4以获得在收听者的视点的最终对象绝对坐标位置信息和增益信息。
(处理PC1)
在处理PC1中,坐标变换单元46针对每个参考视点对每个对象的对象极坐标位置信息执行坐标变换,生成对象绝对坐标位置信息。
例如,如图3所示,假设在以原点O为基础的极坐标系统的空间中存在一个对象OBJ11。此外,将具有作为参考(原点)的原点O,以及作为相应的轴的x轴、y轴和z轴的三维正交坐标系统(绝对坐标系统)称为xyz坐标系统。
在这种情况下,对象OBJ11在极坐标系统中的位置可以由极坐标表示,极坐标包括作为水平方向上的角度的水平角度θ、作为垂直方向上的角度的垂直角度γ、以及表示从原点O到对象OBJ11的距离的半径r。在该示例中,极坐标(θ,γ,r)是对象OBJ11的对象极坐标位置信息。
应注意,水平角度θ是从原点O(即,收听者的前方)开始的在水平方向上的角。在该示例中,在连接原点O和对象OBJ11的直线(线段)是LN,并且通过在xy平面上投影直线LN获得的直线是LN'的情况下,由y轴和直线LN'形成的角度是水平角度θ。
而且,竖直角γ是从原点O开始在竖直方向上的角度,即,收听者的前方,并且在这个示例中,由直线LN与xy平面形成的角度是竖直角γ。此外,半径r是从收听者(原点O)到对象OBJ11的距离,即,直线LN的长度。
在这种对象OBJ11的位置由xyz坐标系统的坐标(x,y,z)(即,绝对坐标)表示的情况下,该位置由以下表达式(1)表示。
[表达式1]
x=-r*sinθ*cosγ
y=r*cosθ*cosγ
z=r*sinγ…(1)
在处理PC1中,基于作为极坐标的对象极坐标位置信息计算表达式(1),从而计算作为表示对象在参考视点的位置为原点O的xyz坐标系统(绝对坐标系统)中的位置的绝对坐标的对象绝对坐标位置信息。
具体地,在处理PC1中,针对两个参考视点中的每一个,对参考视点处的多个对象中的每个对象的对象极坐标位置信息执行坐标变换。
(处理PC2)
在处理PC2中,针对两个参考视点中的每一个,坐标轴变换处理单元47针对每个对象对在处理PC1中获得的对象绝对坐标位置信息执行坐标轴变换处理。
在处理PC1中获得的两个参考视点中的每一个处的对象绝对坐标位置信息表示以参考视点中的每个作为原点O的xyz坐标系统中的位置。因此,对象绝对坐标位置信息的坐标(坐标系统)针对每个参考视点是不同的。
因此,执行将每个参考视点的对象绝对坐标位置信息集成为一个公共绝对坐标系统的绝对坐标(即公共绝对坐标系统(公共绝对坐标空间)中的绝对坐标)的坐标轴变换处理作为处理PC2。
为了执行坐标轴变换处理,除了针对每个参考视点的每个对象的对象绝对坐标位置信息之外,还需要在每个参考视点处的参考视点位置信息和收听者朝向信息。
即,坐标轴变换处理需要通过处理PC1获得的对象绝对坐标位置信息以及包括表示公共绝对坐标系统中的参考视点的位置的参考视点位置信息和在参考视点处的收听者朝向信息的系统配置信息。
应注意,为了简化描述,仅将水平方向上的旋转角度用作由收听者朝向信息表示的面部朝向,但是也可添加面部上下(俯仰)的信息。
现在,在公共绝对坐标系统是以X轴、Y轴和Z轴作为相应的轴的XYZ坐标系统,并且根据由收听者朝向信息表示的面部朝向的旋转角度是的情况下,例如,如图4中所示,执行坐标轴变换处理。
即,在图4所示的示例中,作为坐标轴变换处理,执行将坐标轴旋转旋转角度的坐标轴旋转、将坐标轴的原点从参考视点的位置位移至公共绝对坐标系统的原点位置的处理、更具体地,根据参考视点与公共绝对坐标系统的原点之间的位置关系来位移对象的位置的处理。
在图4中,位置P21表示参考视点的位置,箭头Q11表示由参考视点的收听者朝向信息所表示的收听者的面部朝向。具体地,在此,公共绝对坐标系统(XYZ坐标系统)中的位置P21的X坐标和Y坐标是(Xref,Yref)。
另外,位置P22表示参考视点位于位置P21时的对象的位置。在此,表示对象的位置P22的公共绝对坐标系统的X坐标和Y坐标是(Xobj,Yobj),而表示对象的位置P22并且以参考视点为原点的xyz坐标系统的x坐标和y坐标是(xobj,yobj)。
此外,在该示例中,由公共绝对坐标系统(XYZ坐标系统)的X轴和xyz坐标系统的X轴形成的角度是从收听者朝向信息获得的坐标轴变换的旋转角度/>
因此,例如,坐标轴X(X坐标)和变换之后的坐标轴Y(Y坐标)如以下表达式(2)中所示。
[表达式2]
X=参考视点的X坐标值+x*cos(φ)+y*sin(φ)
Y=参考视点的Y坐标值-x*sin(φ)+y*cos(φ)
…(2)
应注意,在表达式(2)中,x和y表示变换之前的x轴(x坐标)和y轴(y坐标),即,在xyz坐标系统中。此外,表达式(2)中的“参考视点X坐标值”和“参考视点Y坐标值”表示在参考视点在XYZ坐标系统(公共绝对坐标系统)中表示的位置的X坐标和Y坐标,即,构成参考视点位置信息的X坐标和Y坐标。
因此,在图4的示例中,可以从表达式(2)获得表示在坐标轴变换处理之后的对象的位置的X坐标值Xobj和Y坐标值Yobj。
即,表达式(2)中的被设置为从位置P21处的收听者朝向信息获得的旋转角度/>并且可通过相应地将“Xref”、“xobj”和“yobj”代入式表达式(2)中的“参考视点X坐标值”、“x”和“y”获得X坐标值Xobj。
此外,表达式(2)中的被设置为从位置P21处的收听者朝向信息获得的旋转角度并且可通过相应地将“Yref”、“xobj”和“yobj”代入式表达式(2)中的“参考视点Y坐标值”、“x”和“y”获得Y坐标值Yobj。
类似地,例如,在通过视点选择信息选择两个参考视点A和B的情况下,表示那些参考视点的坐标轴变换处理之后的对象的位置的X坐标值和Y坐标值如下面表达式(3)中所示。
[表达式3]
xa=参考视点A的X坐标值A+x*cos(φa)+y*sin(φa)
ya=参考视点A的Y坐标值A-x*sin(φa)+y*cos(φa)
xb=参考视点B的X坐标值B+x*cos(φb)+y*sin(φb)
yb=参考视点B的Y坐标值B-x*sin(φb)+y*cos(φb)
…(3)
注意,在表达式(3)中,xa和ya表示参考视点A的轴变换之后(坐标轴变换处理之后)XYZ坐标系统的X坐标值和Y坐标值,并且表示参考视点A的轴变换的旋转角度(即,上述旋转角度/>)。
因此,在构成在处理PC1中获得的参考视点A处的对象绝对坐标位置信息的x坐标和y坐标被代入表达式(3)中的情况下,,获得坐标xa和坐标ya作为表示参考视点A处的XYZ坐标系统(公共绝对坐标系统)中的对象的位置的X坐标和Y坐标。包括以这种方式获得的坐标xa和坐标ya的绝对坐标和Z坐标是从坐标轴变换处理单元47输出的对象绝对坐标位置信息。
应注意,在该示例中,由于仅使用水平方向上的旋转角度所以不对Z轴(Z坐标)执行坐标轴变换。因此,例如,构成在处理PC1中获得的对象绝对坐标位置信息的z坐标仅需要直接用作表示公共绝对坐标系统中对象的位置的Z坐标。
类似于参考视点A,在表达式(3)中,xb和yb表示用于参考视点B的轴变换之后(在坐标轴变换处理之后)的XYZ坐标系统的X坐标值和Y坐标值,并且表示针对参考视点B的轴变换的旋转角度(旋转角度/>)。
在坐标轴变换处理单元47中,执行上述坐标轴变换处理作为处理PC2。
(处理PC3)
在处理PC3中,从两个参考视点的绝对坐标位置(即,系统配置信息中包括的参考视点位置信息所表示的位置与夹在两个参考视点的位置之间的任意收听位置之间的位置关系)获得针对插值处理的比例比率。
即,对象位置计算单元48基于从收听者位置信息获取单元41提供的收听者位置信息和系统配置信息中包括的参考视点位置信息执行获得比例比率(m:n)的处理作为处理PC3。
在此,假设表示第一参考视点A的位置的参考视点位置信息是(x1,y1,z1),表示第二参考视点B的位置的参考视点位置信息是(x2,y2,z2),并且表示收听位置的收听者位置信息是(x3,y3,z3)。
在这种情况下,对象位置计算单元48计算比例比率(m:n),即,通过计算以下表达式(4)的比例比率的m和n。
[表达式4]
m=SQRT((x3-x1)*(x3-x1)+(y3-y1)*(y3-y1)+(z3-z1)*(z3-z1))
n=SQRT((x3-x2)*(x3-x2)+(y3-y2)*(y3-y2)+(z3-z2)*(z3-z2))
…(4)
(处理PC4)
随后,对象位置计算单元48基于通过处理PC3获得的比例比率(m:n)和从坐标轴变换处理单元47提供的两个参考视点中的每个对象的对象绝对坐标位置信息执行插值处理作为处理PC4。
即,在处理PC4中,通过将在处理PC3中获得的比例比率(m:n)应用于与在处理PC2中获得的两个参考视点相对应的同一对象,获得与任意收听位置相对应的对象位置和增益量。
在此,假设通过PC2处理获得的参考视点A处的预定对象的对象绝对坐标位置信息为(xa,ya,za),由针对参考视点A的预定对象的增益信息表示的增益量为g1。
类似地,假设通过处理PC2获得的参考视点B处的预定对象的对象绝对坐标位置信息是(xb,yb,zb),并且由针对参考视点B的对象的增益信息表示的增益量是g2。
此外,表示与参考视点A和参考视点B之间的任意收听位置相对应的XYZ坐标系统(公共绝对坐标系统)中的预定对象的位置的绝对坐标和增益量是(xc,yc,zc)和gain_c。绝对坐标(xc,yc,zc)是从对象位置计算单元48输出到极坐标变换单元49的最终对象绝对坐标位置信息。
此时,可通过使用比例比率(m:n)计算下式(5)来获得预定对象的最终对象绝对坐标位置信息(xc,yc,zc)和增益量gain_c。
[表达式5]
xC=(m*xb+n*xa)/(m+n)
yc=(m*yb+n*ya)/(m+n)
zc=(m*zb+n*za)/(m+n)
gain_c=(m*g2+n*g1)/(m+n)··(5)
上述参考视点A、参考视点B和收听位置之间的位置关系以及在参考视点A、参考视点B和收听位置的相应的位置处的相同对象之间的位置关系如图5中所示。
在图5中,水平轴和垂直轴分别表示XYZ坐标系统(公共绝对坐标系统)的X轴和Y轴。应注意,为了简化描述,仅示出了X轴方向和Y轴方向。
在该示例中,位置P51是由参考视点A的参考视点位置信息(x1,y1,z1)表示的位置,位置P52是由参考视点B的参考视点位置信息(x2,y2,z2)表示的位置。
此外,参考视点A与参考视点B之间的位置P53是由收听者位置信息(x3,y3,z3)表示的收听位置。
在上述表达式(4)中,基于参考视点A、参考视点B和收听位置之间的位置关系获得比例比率(m:n)。
此外,位置P61是由参考视点A处的对象绝对坐标位置信息(xa,ya,za)表示的位置,位置P62是由参考视点B处的对象绝对坐标位置信息(xb,yb,zb)表示的位置。
此外,位置P61与位置P62之间的位置P63是由收听位置处的对象绝对坐标位置信息(xc,yc,zc)表示的位置。
通过以这种方式执行表达式(5)的计算(即,插值处理)可针对任意收听位置获得表示适当对象位置的对象绝对坐标位置信息。
注意,上面已经描述了使用比例比率(m:n)来获得对象位置(即,最终对象绝对坐标位置信息)的示例,但是本公开不限于此,并且最终对象绝对坐标位置信息可以使用机器学习等来估计。
上面已经描述了使用两个参考视点的信息的两点插值。
接下来,将描述执行使用三个参考视点的信息的三点插值的情况下的具体示例。
例如,如图6的左侧所示,认为通过插值处理获得任意收听位置F处的对象绝对坐标位置信息。
在该示例中,存在三个参考视点A、参考视点B和参考视点C以便围绕收听位置F,并且在此,假设使用参考视点A至参考视点C的信息执行插值处理。
在下文中,假设在公共绝对坐标系统(即,XYZ坐标系统)中的收听位置F的X坐标和Y坐标是(xf,yf)。
类似地,假设参考视点A、参考视点B和参考视点C的位置的X坐标和Y坐标分别是(xa,ya)、(xb,yb)和(xc,yc)。
在这种情况下,如图6的右侧所示,基于相应地与参考视点A、参考视点B和参考视点C相对应的对象位置A'、对象位置B'和对象位置C'的坐标获得收听位置F处的对象位置F'。
在此,例如,对象位置A'表示当视点在参考视点A处时的对象的位置,即,由参考视点A的对象绝对坐标位置信息表示的公共绝对坐标系统中的对象的位置。
此外,对象位置F'表示当收听者在收听位置F处时对象在公共绝对坐标系统中的位置,即,由作为对象位置计算单元48的输出的对象绝对坐标位置信息表示的位置。
在下文中,假设对象位置A'、对象位置B'和对象位置C'的X坐标和Y坐标分别是(xa'、ya')、(xb'、yb')和(xc'、yc'),并且对象位置F'的X坐标和Y坐标是(xf'、yf')。
此外,在下文中,被任意三个参考视点(诸如参考视点A至参考视点C)围绕的三角形区域(即,由三个参考视点形成的三角形区域)也被称为三角形网格。例如,将由参考视点A至参考视点C形成的三角形网格称为三角形网格ABC等。
由于公共绝对坐标空间中存在多个参考视点,因此可以在公共绝对坐标空间中形成以参考视点为顶点的多个三角形网格。
类似地,在下文中,由任意三个参考视点的对象绝对坐标位置信息表示的对象位置(诸如,对象位置A'至对象位置C')围绕(形成)的三角形区域也称为三角形网格。例如,由对象位置A'到对象位置C'形成的三角形网格被称为三角形网格A'B'C'等。
在上述两点插值的示例中,收听者可移动至连接两个参考视点的线段上的任意位置,并且收听内容的声音。
另一方面,在执行三点插值的情况下,收听者可移动到由三个参考视点围绕的三角形网格的区域中的任意位置,并且收听内容的声音。即,可以覆盖在两点插值的情况下除了连接两个参考视点的线段之外的区域作为收听位置。
类似于两点插值的情况,即使在执行三点插值的情况下,也可通过上述表达式(2)从xyz坐标系统中的任意位置的坐标、收听者朝向信息和参考视点位置信息获得表示公共绝对坐标系统(XYZ坐标系统)中的任意位置的坐标。
注意,在此,假设XYZ坐标系统的Z坐标值与xyz坐标系统的z坐标值相同,但是在Z坐标值和z坐标值不同的情况下,仅需要通过将表示XYZ坐标系统中的参考视点的位置的Z坐标值与任意位置的z坐标值相加来获得表示任意位置的Z坐标值。
Ceva的定理证明,在适当地确定三角形网格的每个边的内部划分比率的情况下,通过从三角形网格的三个顶点中的每个顶点到不相邻于顶点的三个边的内部划分点中的每个的线段的交点,唯一地确定包括三个参考视点的三角形网格中的任意收听位置。
在从验证公式确定三角形网格的三条边的内部划分比率的配置的情况下,这在所有三角形网格中建立,而与三角形网格的形状无关。
因此,在针对视点侧(即,针对参考视点)获得包括收听位置的三角形网格的内部划分比率,并且向对象侧(即,对象位置的三角形网格)应用内部划分比率的情况下,可以获得针对任意收听位置的适当对象位置。
在下文中,将描述使用这样的内部划分比率的属性来获得表示对象在任意收听位置时的位置的对象绝对坐标位置信息的示例。
在这种情况下,首先,获得作为二维空间的XYZ坐标系统的XY平面上的参考视点的三角形网格的边的内部划分比率。
接下来,在XY平面上,将上述内部划分比率应用于与三个参考视点相对应的对象位置的三角形网格,并且获得与XY平面上的收听位置相对应的对象的位置的X坐标和Y坐标。
此外,基于包括与三维空间(XYZ坐标系统)中的三个参考视点相对应的三个对象的位置以及XY平面上的收听位置处的对象的X坐标和Y坐标的三维平面获得与收听位置相对应的对象的Z坐标。
在此,将参考图7至图9描述通过图6中示出的针对收听位置F的插值处理获得表示对象位置F'的对象绝对坐标位置信息和增益信息的示例。
例如,如图7所示,首先,获得包括参考视点A至包括收听位置F的参考视点C的三角形网格中的内部划分点的X坐标和Y坐标。
现在,假设通过收听位置F和参考视点C的直线与从参考视点A到参考视点B的线段AB的交点是点D,并且表示点D在XY平面上的位置的坐标是(xd,yd)。即,点D是线段AB(边AB)上的内部划分点。
此时,对表示从参考视点C到收听位置F的线段CF上的任意点的位置的X坐标和Y坐标、以及表示线段AB上的任意点的位置的X坐标和Y坐标建立下式(6)所示的关系。
[表达式6]
线段CF:Y=α1X-α1xc+yc,其中α1=(yc-yf)/(xc-xf)
线段AB:Y=α2X-α2xa+ya,其中α2=(yb-yfa)/(xb-xa)
…(6)
此外,由于点D是通过参考视点C和收听位置F的直线与线段AB的交点,所以点D在XY平面上的坐标(xd,yd)可从表达式(6)获得,并且坐标(xd,yd)如下面的表达式(7)所示。
[表达式7]
xd=(α1xc-yc2xa+ya)/(α12)
yd=α1xd1xc+yc…(7)
因此,如以下表达式(8)所示,线段AB对点D的内部划分比率(m,n)(即,划分比率)可以基于点D的坐标(xd,yd)、参考视点A的坐标(xa,ya)和参考视点B的坐标(xb,yb)获得。
[表达式8]
m=sqrt((xa-xd)2+(ya-yd)2)
n=sqrt((xb-xd)2+(yb-yd)2)…(8)
类似地,将通过收听位置F和参考视点B的直线与从参考视点A到参考视点C的线段AC的交点设为点E,表示点E在XY平面上的位置的坐标为(xe,ye)。即,点E是线段AC(边AC)上的内部划分点。
此时,对于表示从参考视点B到收听位置F的线段BF上的任意点的位置的X坐标和Y坐标、以及表示线段AC上的任意点的位置的X坐标和Y坐标,建立下面的表达式(9)中所示的关系。
[表达式9]
线段BF:Y=α3X-α3xb+yb,其中α3=(yb-yf)/(xb-xf)
线段AC:Y=α4X-α4xa+ya,其中α4=(yc-ya)/(xc-xa)…(9)
另外,由于点E是通过参考视点B和收听位置F的直线与线段AC的交点,因此点E在XY平面上的坐标(xe,ye)能够从表达式(9)获得,并且坐标(xe,ye)如下面的表达式(10)所示。
[表达式10]
xe=(α3xb-yb4xa+ya)/(α34)
ye=α3xe3xb+yb…(10)
因此,如以下表达式(11)中所示,线段AC对点E的内部划分比率(k,l)(即,划分比率)可以基于点E的坐标(xe,ye)、参考视点A的坐标(xa,ya)和参考视点C的坐标(xc,yc)获得。
[表达式11]
k=sqrt((xa-xe)2+(ya-ye)2)
l=sqrt((xc-xe)2+(yc-ye)2)…(11)
接下来,通过将以这种方式获得的两条边的比率(即,内部划分比率(m,n)和内部划分比率(k,l))应用于如图8中所示的对象边上的三角形网格,获得XY平面上的对象位置F′的坐标(xf′、yf′)。
具体地,在该示例中,与在连接对象位置A′和对象位置B′的线段A′B′上的点D相对应的点是点D′。
类似地,与连接对象位置A′和对象位置C′的线段A′C′上的点E相对应的点是点E′。
此外,穿过对象位置C′和点D′的直线与穿过对象位置B′和点E′的直线之间的交叉点是与收听位置F相对应的对象位置F′。
在此,假设线段A′B′对点D′的内部划分比率与点D处的内部划分比率(m,n)相同。此时,XY平面上的点D′的坐标(xd′,yd′)可基于内部划分比率(m,n)、对象位置A′的坐标(xa′,ya′)和对象位置B′的坐标(xb′,yb′)获得,如以下表达式(12)所示。
[表达式12]
xd’=(nxa’+mxb’)/(m+n)
yd’=(nya’+myb’)/(m+n)…(12)
此外,假设线段A′C′对点E′的内部划分比率与点E处的内部划分比率(k,1)相同。此时,XY平面上的点E′的坐标(xe′,ye′)可基于内部划分比率(k,l)、对象位置A′的坐标(xa′,ya′)和对象位置C′的坐标(xc′,yc′)获得,如以下表达式(13)所示。
[表达式13]
xe’=(lxa’+kxc’)/(k+l)
ye’=(lya’+kyc’)/(k+l)…(13)
因此,针对表示从对象位置B′到点E′的线段B′E′上的任意点的位置的X坐标和Y坐标,以及表示从对象位置C′到点D′的线段C′D′上的任意点的位置的X坐标和Y坐标,建立在以下表达式(14)中示出的关系。
[表达式14]
线段B′E′:Y=α5X+yb′-α5xb′,其中α5=(ye′-yb′)/(xe′-xb′)
线段C′D′:Y=α6X+yc′-α6xc′,其中α6=(yd′-yc′)/(xd′-xc′)…(14)
由于目标对象位置F′是线段B′E′和线段C′D′的交点,所以对象位置F′的坐标(xf′、yf′)可从表达式(14)的关系通过以下表达式(15)获得。
[表达式15]
xf’=(-yb’+α5xb’+yc’-α6xc’)/(α56)
yf’=α6xf’+yc’-α6xc’…(15)
通过上述处理,获得对象位置F′在XY平面上的坐标(xf′、yf′)。
随后,基于XY平面上的对象位置F′的坐标(xf′、yf′)以及XYZ坐标系统中的对象位置A′的坐标(xa′、ya′、za′)、对象位置B′的坐标(xb′、yb′、zb′)以及对象位置C′的坐标(xc′,yc′,zc′),获得XYZ坐标系统中的对象位置F′的坐标(xf′,yf′,zf′)。即,获得XYZ坐标系统中的对象位置F′的Z坐标zf′。
例如,获得具有XYZ坐标系统(公共绝对坐标空间)中的对象位置A′、对象位置B′和对象位置C′作为顶点的三维空间上的三角形,即,包括对象位置A′、对象位置B′和对象位置C′的三维平面A′B′C′。然后,获得在三维平面A′B′C′上X坐标和Y坐标是(xf′,yf′)的点,并且该点的Z坐标被设置为zf′。
具体地,将具有作为起点的XYZ坐标系统中的对象位置A′以及作为终点的对象位置B′的向量设置为向量A′B′=(xab′,yab′,zab′)。
类似地,将具有作为起点的XYZ坐标系统中的对象位置A′以及作为终点的对象位置C′的向量设置为向量A′C′=(xac′,yac′,zac′)。
向量A′B′和向量A′C′可以基于对象位置A′(xa′,ya′,za′)的坐标、对象位置B′(xb′,yb′,zb′)的坐标和对象位置C′(xc′,yc′,zc′)的坐标来获得。即,可以通过以下表达式(16)获得向量A′B′和向量A′C′。
[表达式16]
向量A′B′:(xab’,yab’,zab’)=(xb’-xa’,yb’-ya’、zb’-za’)
向量A′C′:(xac’,yac’,zac’)=(xc’-xa’,yc’-ya’,za’-za)
…(16)
此外,三维平面A′B′C′的法向量(s,t,u)是向量A′B′和向量A′C′的外积(outerproduct),并且可以通过以下表达式(17)获得。
[表达式17]
(s,t,u)=(yab’zac’-zab’yac’zab’xac’-xab’zac’,xab’yac’-yab’xac’)
…(17)
因此,从对象位置A′的法向量(s,t,u)和坐标(xa′,ya′,za′)中,三维平面A′B′C′的平面方程式如下面表达式(18)所示。
[表达式18]
s(X-xa’)+t(Y-ya’)+u(Z-za’)=0…(18)
在此,由于已经获得三维平面A′B′C′上的对象位置F′的X坐标xf′和Y坐标yf′,通过用X坐标xf′和Y坐标yf′代替表达式(18)的平面方程的X和Y,可以如以下表达式(19)所示获得Z坐标zf′。
[表达式19]
zf’=(-s(xf’-xa’)-t(yf’-ya’))/u+za’…(19)
通过上述计算,获得目标对象位置F′的坐标(xf′,yf′,zf′)。对象位置计算单元48输出表示以这种方式获得的对象位置F′的坐标(xf′,yf′,zf′)的对象绝对坐标位置信息。
此外,类似于对象绝对坐标位置信息的情况,也可以通过三点插值获得增益信息。
即,在视点处于参考视点A至参考视点C中的每个视点处的情况下,可通过基于对象的增益信息执行插值处理来获得对象位置F′处的对象的增益信息。
例如,如图9所示,考虑获得在由对象位置A′、对象位置B′和对象位置C′形成的三角形网格中的对象位置F′处的对象的增益信息Gf′。
现在,假设在视点处于参考视点A的情况下对象位置A′处的对象的增益信息是Ga′,对象位置B′处的对象的增益信息是Gb,并且对象位置C′处的对象的增益信息是Gc′。
在该情况下,首先,获得在视点实际上在点D处的情况下作为线段A′B′的内部划分点的点D′处的对象的增益信息Gd′。
具体地,增益信息Gd′可通过基于上述线段A′B′的内部划分比率(m,n)、对象位置A′的增益信息Ga′和对象位置B′的增益信息Gb′计算下式(20)来获得。
[表达式20]
Gd’=(m*Gb’+n*Ga’)/(m+n)…(20)
即,在表达式(20)中,通过基于增益信息Ga′和增益信息Gb′的插值处理获得点D′的增益信息Gd′。
接下来,通过基于由对象位置F′从对象位置C′至点D′的线段C′D′的内部划分比率(o,p)、对象位置C′的增益信息Gc′以及点D′的增益信息Gd′执行插值处理来获得对象位置F′的增益信息Gf′。即,通过执行下列表达式(21)的计算获得增益信息Gf′。
[表达式21]
Gf’=(o*Gc’+p*Gd’)/(o+p)
其中,
o=SQRT((xd’-xf’)2+(yd’-yf’)2+(zd’-zf’)2)
p=SQRT((xc’-xf’)2+(yc’-yf’)2+(zc’-zf’)2)…(21)
以这种方式获得的增益信息Gf′作为对应于收听位置F的对象的增益信息从对象位置计算单元48输出。
通过执行如上所述的三点插值,可以获得针对任意收听位置的对象绝对坐标位置信息和增益信息。应注意,在以下描述中,基本上假设执行三点插值。
<关于收听者和对象>
顺便提及,作为参考视点,例如,可以考虑被假设为收听者的视点和被假设为想象成为对象的表演者的视点的两个示例。
在后一种情况下,由于收听者与对象在参考视点处彼此重叠,即,收听者与对象处于相同位置,因此考虑以下情况CA1至CA3。
(情况CA1)
禁止收听者与对象重叠,或者禁止收听者进入特定范围。
(情况CA2)
当收听者与对象同化时,从对象生成的声音从所有信道输出。
(情况CA3)
使从重叠对象生成的声音静音或衰减
例如,在CA2的情况下,可再现位于收听者的头部中的感觉。
此外,在情况CA3中,通过使对象的声音静音或衰减,例如,可以想象收听者变成表演者并且以卡拉OK模式使用该声音。在这种情况下,除了表演者的歌声之外,周围的伴奏等围绕着收听者他/她自己,并且可以获得在其中唱歌的感觉。
在内容创建者具有这种意图的情况下,表示情况CA1至CA3的标识符可存储在从服务器11发送的编码比特流中,并发送至客户端12侧。例如,这种标识符是表示上述再现模式的信息。
<关于内容再现系统的操作>
例如,上述内容再现系统可以应用于使用音频艺术意图分配自由视点音频内容的系统。在这种情况下,可以实时地执行内容分配,或者可以分配预先准备的存档内容(存档数据发送)。
如上所述,在内容再现系统中,假设由内容创建者创建的多个参考视点,并且创建在参考视点的对象布置的信息(即,系统配置信息、对象极坐标位置信息等)。
另一方面,收听者可自由地移动到除了参考视点之外的位置。
在收听者位于除了参考视点之外的位置处的情况下,基于围绕收听者的位置的多个参考视点的对象绝对坐标位置信息执行插值处理,并且计算与当前收听者位置相对应的对象绝对坐标位置信息。由此,能够在反映内容制作者的意图的同时在自由视点位置进行空间声音再现。
然而,在发送与由收听者请求的参考视点相对应的对象极坐标编码数据的情况下,由于网络的延迟等,到客户端12的对象极坐标编码数据可能会延迟。
然后,在客户端12侧,发生不能获得关于与当前收听位置相对应的适当对象的位置的信息的事件。
在下文中,将参考图10描述在内容再现系统中执行的处理的流程(序列)和发送延迟的示例。
例如,在服务器11侧,极坐标系统编辑器生成并保存所有参考视点的对象极坐标编码数据,并且还生成并保存系统配置信息。
然后,服务器11经由网络等将系统配置信息发送至客户端12,并且客户端12接收并且保存系统配置信息。此时,客户端12对接收到的系统配置信息进行解码(解码),并对客户端系统进行初始化。
随后,客户端12基于收听者位置信息和系统配置信息选择插值处理所需的参考视点,并且将表示选择结果的视点选择信息发送至服务器11,从而请求发送对象极坐标编码数据。
例如,在选择参考视点时,选择围绕收听位置的三个参考视点或者将收听位置夹在中间的两个参考视点。换言之,选择形成包括收听位置的范围(即,将收听位置夹在中间的部分)的多个参考视点或者围绕收听位置的区域。
此外,服务器11根据从客户端12接收的视点选择信息,准备发送插值处理所需的参考视点的对象极坐标编码数据。
即,服务器11对由视点选择信息表示的参考视点的对象极坐标编码数据和编码增益信息读取和复用,以生成比特流。然后,服务器11将生成的比特流发送(发送)至客户端12。
客户端12接收从服务器11发送的比特流,进行解复用和解码,并获得极坐标对象位置信息和增益信息。
客户端12通过坐标变换将对象极坐标位置信息变换为对象绝对坐标位置信息,并且就对象绝对坐标位置信息而言,通过坐标轴变换展开到公共绝对坐标空间。
此外,客户端12从当前收听者位置和参考视点的位置计算针对插值处理的内部划分比率或者比例比率,并且执行对象绝对坐标位置信息和增益信息的插值处理。因此,获得与当前收听者位置相对应的对象绝对坐标位置信息和增益信息。
在下文中,客户端12通过极坐标变换,将对象绝对坐标位置信息变换为极坐标位置信息,执行应用获得的极坐标位置信息和增益信息的渲染处理。
例如,对所有对象执行由MPEG-H定义的极坐标系统中的渲染处理(诸如基于矢量的幅度平移(VBAP))。因此,获得针对再现内容的声音的再现音频数据。
在对预定帧执行上述处理以生成再现音频数据的情况下,适当地基于再现音频数据执行内容再现。之后,适当地将新的视点选择信息从客户端12发送至服务器11,并重复进行上述处理。
如上所述,内容再现系统根据多个参考视点中的每个参考视点的关于对象的位置的信息通过插值处理计算增益信息和关于任意收听位置处的对象的位置的信息。以这种方式,可以实现根据收听位置的基于内容创建者的意图的对象布置,而不是收听者与对象之间的简单物理关系。因此,可以实现基于内容创建者的意图的内容再现,并且可以将内容的娱乐充分地传递给收听者。
然而,在服务器11和客户端12之间的网络的发送延迟较大的情况下,客户端12可能不能获得适当的对象的极坐标位置信息。
例如,客户端12生成视点选择信息的箭头Q41表示的时间为时间Tα,时间Tα的收听位置为收听位置α。并且,假设客户端12接收对象极坐标编码数据(比特流)的箭头Q42所示的时间为时间Tβ,时间Tβ时的收听位置为收听位置β。
在这种情况下,从时间Tα到时间Tβ的时间是包括服务器11中的处理时间、网络中的发送延迟等的延迟时间。
在这种延迟时间长的情况下,存在收听者从在时间Tα的收听位置α移动到不同的收听位置β的可能性,并且在时间Tβ接收的对象极坐标编码数据不适合于移动之后的收听位置β。
作为具体示例,将描述选择围绕收听位置的三个参考视点的情况,即,执行三点插值的情况。
例如,如图11所示,假设存在包括参考视点A至参考视点C的三角形网格ABC和包括参考视点B至参考视点D的三角形网格BCD。
此外,还假设在时间Tα处的收听位置α是由箭头F11表示的位置。
在这种情况下,由于收听位置α在三角形网格ABC中,所以在时间Tα生成表示参考视点A、参考视点B和参考视点C的视点选择信息。然后,在时间Tβ,接收参考视点A至参考视点C的对象极坐标编码数据。
此时,在假设时间Tβ处的收听位置β是由箭头F12表示的位置的情况下,与收听位置α的情况类似,收听位置β在三角形网格ABC内。
因此,当收听者在收听位置β时在用于获得最终对象绝对坐标位置信息的插值处理中,参考视点A至参考视点C的对象极坐标编码数据是必须的。
由于在时间Tβ接收当收听者在收听位置β时的插值处理所需的对象极坐标编码数据,所以客户端12可适当地执行插值处理以获得再现音频数据。
另一方面,例如,如图12中所示,假设在时间Tα处的收听位置α是由箭头F21表示的位置,并且在时间Tβ处的收听位置β是由箭头F22表示的位置。
在该示例中,收听位置α在时间Tα在三角形网格ABC内,但是收听者此后移动,并且收听位置β在时间Tβ定位在三角形网格BCD内。
因此,在收听者在收听位置β时的插值处理中,参考视点B至参考视点D的对象极坐标编码数据是必须的。
然而,在时间Tβ接收参考视点A至参考视点C的对象极坐标编码数据。因此,客户端12不具有参考视点D的对象极坐标编码数据,并且不能正确地执行收听位置β的插值处理。
如上所述,在收听位置α和收听位置β位于同一三角形网格中的情况下,能够适当地执行插值处理。
另一方面,可以看出,在收听位置α和收听位置β由于发送延迟等的影响而被定位在不同的三角形网格中的情况下,不能针对收听者的当前位置执行插值处理。换言之,可以看出不能连续执行渲染处理。
在时间Tβ使用接收的参考视点A至参考视点C的对象极坐标编码数据和表示当前收听位置β的收听者位置信息的情况下,利用不正确的位置关系(不适当的位置关系)执行插值处理和渲染处理。
因此,在本技术中,例如,如图13所示,在收听位置α和收听位置β位于不同的三角形网格中的情况下,按原样使用通过最后插值处理获得的极坐标位置信息,使得可以连续执行渲染处理。注意,在图13中,对与图11的情况相对应的部分标注相同的附图标记,适当地省略其说明。
在图13中的示例中,在时间Tα处的收听位置α是由箭头F11表示的位置,并且在时间Tβ处的收听位置β是由箭头F12表示的位置。这些收听位置α和收听位置β位于同一三角形网格ABC内。
在这种情况下,类似于图11中的示例,在时间Tβ,使用接收的参考视点A至参考视点C的对象极坐标编码数据执行收听位置β的插值处理。
此时,假设通过插值处理获得对象绝对坐标位置信息OBJPOS1。另外,在时间Tβ,根据时间Tβ的收听位置β,对对象绝对坐标位置信息OBJPOS1执行极坐标变换,基于获得的极坐标位置信息OBJPOS1'执行渲染处理。
此外,在时间Tβ,针对下一帧等,生成当收听者在收听位置β时的视点选择信息,并且将该视点选择信息发送至服务器11。在该示例中,在时间Tβ发送表示参考视点A至参考视点C的视点选择信息。
另外,在时间Tβ,对象极坐标编码数据从服务器11发送,在时间Tγ,对象极坐标编码数据由客户端12接收。
另外,假设时间Tγ的收听位置γ为箭头F31所示的位置。
在这种情况下,收听位置γ位于与包括收听位置β的三角形网格ABC不同的三角形网格BCD内。
因此,在收听位置γ的插值处理中,参考视点B至参考视点D的对象极坐标编码数据是必须的,但是在时间Tγ不接收参考视点D的对象极坐标编码数据,并且因此不能执行插值处理。
因此,在时间Tγ,丢弃接收的对象极坐标编码数据,使用在前一时间Tβ获得的极坐标位置信息OBJPOS1'执行渲染处理。换言之,在时间Tγ,使用紧接在之前的时间Tβ的对象绝对坐标位置信息OBJPOS1和直接表示收听位置β的收听者位置信息执行渲染处理。
这样,在时间Tγ,可以避免执行处于不适当位置关系的插值处理。即,可以在对象和收听位置具有适当的位置关系的状态下获得再现音频数据。因此,虽然发生一些延迟感,但是可以抑制内容的声音质量的劣化。
<内容再现系统的配置示例>
在此,将描述应用上述本技术的内容再现系统的更详细的实施例。
图14是示出应用本技术的内容再现系统的配置示例的示图。注意,在图14中,对与图1的情况相对应的部分标注相同的附图标记,适当地省略其说明。
图14所示的内容再现系统包括分配内容的服务器11和从服务器11接收内容的分配的客户端12。
此外,服务器11包括配置信息记录单元101、配置信息发送单元21、记录单元102和编码数据发送单元22。
例如,配置信息记录单元101记录图2所示的系统配置信息,并将所记录的系统配置信息提供给配置信息发送单元21。注意,记录单元102的一部分可以是配置信息记录单元101。
例如,记录单元102记录通过编码构成内容的对象的音频数据而获得的编码音频数据、每个参考视点的每个对象的对象极坐标编码数据和编码增益信息等。
记录单元102将响应于请求等记录的编码音频数据、对象极坐标编码数据、编码增益信息等提供给编码数据发送单元22。
此外,客户端12包括收听者位置信息获取单元41、视点选择单元42、通信单元111、解码单元45、位置计算单元112以及渲染处理单元113。
通信单元111对应于图1中所示的配置信息获取单元43和编码数据获取单元44,并且通过与服务器11通信发送和接收各种数据。
例如,通信单元111将从视点选择单元42提供的视点选择信息发送至服务器11,或者接收从服务器11发送的系统配置信息和比特流。也就是说,通信单元111用作参考视点信息获取单元,其从服务器11中获取系统配置信息以及包括在比特流中的对象极坐标编码数据和编码增益信息。
位置计算单元112基于从解码单元45提供的对象极坐标位置信息和从通信单元111提供的系统配置信息生成表示对象位置的极坐标位置信息,并将极坐标位置信息提供给渲染处理单元113。
此外,位置计算单元112对从解码单元45提供的对象的音频数据执行增益调整,并且将增益调整之后的音频数据提供给渲染处理单元113。
位置计算单元112包括坐标变换单元46、坐标轴变换处理单元47、对象位置计算单元48和极坐标变换单元49。
再现处理单元113基于极坐标位置信息和从极坐标变换单元49提供的音频数据执行诸如VBAP的再现处理,并且生成和输出用于再现内容的声音的再现音频数据。
<系统配置信息发送处理和系统配置信息接收处理的描述>
接下来,将描述在图14中示出的内容再现系统的操作。
首先,参见图15的流程图对服务器11的系统配置信息发送处理和客户端12的系统配置信息接收处理进行说明。
例如,在为了预定内容的分配而在服务器11和客户端12之间建立连接的情况下,开始系统配置信息发送处理,并且执行步骤S11的处理。
即,在步骤S11中,配置信息发送单元21从配置信息记录单元101读取请求内容的系统配置信息,将读取的系统配置信息发送至客户端12,系统配置信息的发送处理结束。
例如,预先准备系统配置信息,并且紧接在开始内容再现系统的操作之后,即,例如,紧接在服务器11和客户端12之间建立连接之后,并且在发送编码的音频数据等之前,将系统配置信息发送至客户端12。
然后,在步骤S21中,客户端12的通信单元111接收从服务器11发送的系统配置信息,并且将系统配置信息提供给视点选择单元42、解码单元45、坐标轴变换处理单元47、以及对象位置计算单元48。
应注意,通信单元111从服务器11获取系统配置信息的定时可以是任何定时,只要其在内容再现开始之前即可。
在步骤S22中,视点选择单元42、解码单元45、坐标轴变换处理单元47和对象位置计算单元48保存从通信单元111提供的系统配置信息,并且系统配置信息接收处理结束。
如上所述,客户端12在再现内容之前获取并保存系统配置信息,使得可以使用系统配置信息适当地选择参考视点。
<视点选择信息发送处理的描述>
在执行参考图15描述的系统配置信息接收处理的情况下,此后,客户端12继续执行视点选择信息发送处理和再现音频数据生成处理,直至内容的再现结束。此外,在服务器11中,在系统配置信息发送处理之后,执行提供处理。
在下文中,将描述视点选择信息发送处理、再现音频数据生成处理以及提供处理。
首先,参见图16的流程图说明客户端12进行的视点选择信息的发送处理。
例如,在开始视点选择信息发送处理的情况下,视点选择单元42开启用于指定发送视点选择信息的定时(轮询时间)的轮询定时器。
例如,在针对要再现的内容(再现声音数据)的每个帧获取极坐标编码数据的情况下,作为接下来要再现的帧的极坐标编码数据的获取定时的时间为轮询时间。在轮询时,视点选择单元42执行步骤S51的处理。
在步骤S51中,视点选择单元42从收听者位置信息获取单元41获取收听者位置信息。
即,收听者位置信息获取单元41根据收听者的操作等获取收听者位置信息,并且将收听者位置信息输出至视点选择单元42、解码单元45、对象位置计算单元48以及极坐标变换单元49。视点选择单元42以这种方式获取从收听者位置信息获取单元41输出的收听者位置信息。
在步骤S52中,视点选择单元42基于从通信单元111提供并保存的系统配置信息以及从收听者位置信息获取单元41获取的收听者位置信息,选择多个参考视点。
例如,在对象位置计算单元48中执行三点插值的情况下,视点选择单元42从由系统配置信息表示的多个参考视点中选择围绕由收听者位置信息表示的收听位置的三个参考视点。换言之,从多个三角形网格中选择包括收听位置的一个三角形网格,并且选择构成三角形网格的三个参考视点。
此外,例如,在对象位置计算单元48中执行两点插值的情况下,视点选择单元42从由系统配置信息表示的多个参考视点中选择将收听位置夹在中间的两个参考视点。即,选择参考视点,使得收听位置位于连接选择的两个参考视点的线段上。
在步骤S53中,视点选择单元42生成表示在步骤S52中选择的参考视点的视点选择信息,并且将视点选择信息提供给通信单元111。例如,视点选择信息是表示每个选择的参考视点的索引信息等。
在步骤S54中,通信单元111将从视点选择单元42提供的视点选择信息发送至服务器11。因此,请求在由视点选择信息表示的参考视点处发送对象极坐标编码数据。
在步骤S55中,客户端12确定正在执行的处理是否结束。例如,在步骤S55中,在从用户指示的内容的再现结束的情况下、从服务器11接收表示内容的所有数据的发送结束的数据结束信号的情况下等,确定结束处理。
在步骤S55中确定处理尚未结束的情况下,处理返回至步骤S51,并且重复执行上述处理。在这种情况下,步骤S51的处理在作为下一轮询时间的定时执行。
另一方面,在步骤S55中确定处理结束的情况下,客户端12结束与服务器11的对话,并停止在每个单元中执行的处理,结束视点选择信息发送处理。
如上所述,客户端12根据收听位置来选择参考视点,并发送表示选择结果的视点选择信息,以请求发送适当的对象极坐标编码数据。以这种方式,可以根据收听位置基于内容创建者的意图实现内容再现。
此外,在内容再现系统中,与由服务器11执行参考视点的选择的情况相比,通过在客户端12侧选择参考视点可以减少服务器11的处理负荷。这样的服务器11的处理负荷的减轻在服务器11向多个客户端12同时分配内容的情况下尤其有用。
<提供处理的描述>
接下来,将参考图17中的流程图描述由服务器11执行的提供处理。重复执行该提供处理,直到内容的再现结束。
在步骤S81中,配置信息发送单元21接收从客户端12发送的视点选择信息,并且将视点选择信息提供给编码数据发送单元22。
编码数据发送单元22针对每个对象从记录单元102读取由配置信息发送单元21提供的视点选择信息表示的参考视点的对象极坐标编码数据和编码增益信息,并且还读取内容的每个对象的编码音频数据。
在步骤S82中,编码数据发送单元22对从记录单元102读取的对象极坐标编码数据、编码增益信息和编码音频数据进行复用以生成比特流。
在步骤S83中,编码数据发送单元22将生成的比特流发送至客户端12,并且结束提供处理。因此,执行向客户端12的内容的分配。
如上所述,服务器11根据视点选择信息生成包括对象极坐标编码数据和编码增益信息的比特流,并将该比特流发送至客户端12。这样,针对每个客户端12,可以基于内容创建者的意图实现内容再现。
<再现音频数据生成处理的描述>
在服务器11执行提供处理并且发送比特流的情况下,在客户端12中执行再现音频数据生成处理。
在下文中,将参考图18中的流程图描述由客户端12执行的再现音频数据生成处理。
在步骤S111中,通信单元111接收从服务器11发送的比特流,并且将比特流提供给解码单元45。
在步骤S112中,解码单元45从通信单元111提供的比特流中提取对象极坐标编码数据、编码增益信息以及编码音频数据,并执行解码。
在步骤S113中,解码单元45基于收听者位置信息、系统配置信息以及对象极坐标编码数据的解码结果确定收听者是否在三角形网格内。
即,例如,在接收到比特流时,解码单元45从收听者位置信息获取单元41重新获取表示在当前时间收听者的位置的收听者位置信息。这里的当前时间是比视点选择信息上次被发送至服务器11的时间晚的时间。
此外,从比特流的解复用或对象极坐标编码数据的解码的结果中,可以指定包括在比特流中的对象极坐标编码数据的参考视点。
注意,在下文中,与包括在接收到的比特流中的对象极坐标编码数据相对应的参考视点还特别被称为接收参考视点。即比特流包括接收参考视点的极坐标对象编码数据。
例如,在执行三点插值的情况下,在当前收听位置被包括在包括三个接收参考视点的三角形网格(在下文中,被称为接收三角形网格)中时,解码单元45确定收听者在三角形网格中。
因此,例如,在图11所示的状态中,在步骤S113中确定收听者在三角形网格内,并且在图12所示的状态中,在步骤S113中确定收听者不在三角形网格内。
在步骤S113中确定收听者在三角形网格内的情况下,此后,处理进行至步骤S114。
在这种情况下,解码单元45将通过解码获得的对象极坐标位置信息提供给坐标变换单元46,将通过解码获得的增益信息提供给对象位置计算单元48,并且将通过解码获得的音频数据提供给极坐标变换单元49。
应注意,在进行两点插值的情况下,在当前收听位置位于两个接收参考视点之间时,处理进行至步骤S114。
在步骤S114中,坐标变换单元46对从解码单元45提供的每个对象的对象极坐标位置信息执行坐标变换,并且将获得的对象绝对坐标位置信息作为结果提供给坐标轴变换处理单元47。
例如,在步骤S114中,针对每个参考视点,基于每个对象的对象极坐标位置信息计算上述表达式(1),并计算对象绝对坐标位置信息。
在步骤S115中,坐标轴变换处理单元47基于从通信单元111提供的系统配置信息对从坐标变换单元46提供的对象绝对坐标位置信息执行坐标轴变换处理。
坐标轴变换处理单元47针对每个参考视点针对每个对象执行坐标轴变换处理,将表示获得的公共绝对坐标系统中的对象的位置的对象绝对坐标位置信息提供给对象位置计算单元48。例如,在步骤S115中,执行类似于上述表达式(3)的计算,并且计算对象绝对坐标位置信息。
在步骤S116中,对象位置计算单元48基于从通信单元111提供的系统配置信息、从收听者位置信息获取单元41提供的收听者位置信息、从坐标轴变换处理单元47提供的对象绝对坐标位置信息以及从解码单元45提供的增益信息来执行插值处理。
例如,在接收到比特流时的定时,对象位置计算单元48从收听者位置信息获取单元41重新获取表示在当前时间收听者的位置的收听者位置信息。
然后,对象位置计算单元48执行上述的三点插值作为每个对象的插值处理,并计算最终对象绝对坐标位置信息和增益信息。
具体地,对象位置计算单元48基于包含在系统配置信息和收听者位置信息中的参考视点位置信息执行类似于上述表达式(6)至(11)的计算,并获得内部划分比率(m,n)和内部划分比率(k,l)。
然后,对象位置计算单元48通过基于所获得的内部划分比率(m,n)和内部划分比率(k,l)以及每个参考视点的对象绝对坐标位置信息和增益信息执行类似于上述表达式(12)至(21)的计算,来执行三点插值的插值处理。
此外,例如,在执行两点插值的情况下,对象位置计算单元48通过基于包括在系统配置信息和收听者位置信息中的参考视点位置信息执行类似于上述表达式(4)的计算来获得比例比率(m:n)。
然后,对象位置计算单元48通过基于所获得的比例(m:n)和两个参考视点的对象绝对坐标位置信息和增益信息执行类似于上述表达式(5)的计算,执行两点插值的插值处理。
注意,在两点插值或三点插值中,可以通过对期望的参考视点的对象绝对坐标位置信息和增益信息加权来执行插值处理。
在以这种方式执行插值处理并且获得最终对象绝对坐标位置信息和增益信息的情况下,对象位置计算单元48将所获得的对象绝对坐标位置信息和增益信息提供给极坐标变换单元49。
在步骤S117中,极坐标变换单元49基于从收听者位置信息获取单元41提供的收听者位置信息,对从对象位置计算单元48提供的对象绝对坐标位置信息执行极坐标变换,以生成极坐标位置信息。
应注意,例如,假设在接收比特流时的定时从收听者位置信息获取单元41获取此时使用的收听者位置信息。
此外,极坐标变换单元49基于从对象位置计算单元48提供的每个对象的增益信息,对从解码单元45提供的每个对象的音频数据执行增益调整。
极坐标变换单元49将通过极坐标变换获得的极坐标位置信息和通过增益调整获得的每个对象的声音数据提供给渲染处理单元113,之后进行至步骤S119。
此外,在步骤S113中确定收听者不在三角形网格内的情况下,处理进行至步骤S118。
在这种情况下,在当前时间的收听位置位于接收三角网格的外部,接收三角网格包括在与当前时间不同的预定时间的收听位置周围的接收参考视点,即,在当前时间之前的预定时间由视点选择单元42选择。
在确定收听者不在三角形网格中的情况下,解码单元45丢弃对象极坐标位置信息和解码获得的增益信息,并将解码获得的音频数据提供给极坐标变换单元49。
在步骤S118中,极坐标变换单元49将最后获取的极坐标位置信息、即在最后(紧跟之前)执行的步骤S117中生成的极坐标位置信息原样提供(输出)到渲染处理单元113。即,在后续阶段的渲染处理中使用与前一极坐标位置信息相同的极坐标位置信息。
此外,极坐标变换单元49基于在最后(紧跟之前)执行的步骤S116中生成的并且从对象位置计算单元48提供的每个对象的增益信息,对从解码单元45提供的每个对象的音频数据执行增益调整。
然后,极坐标变换单元49将通过增益调整而获得的每个对象的声音数据提供给渲染处理单元113,之后进行至步骤S119。在这种情况下,基于与先前增益调整中使用的增益信息相同的增益信息来执行最新音频数据的增益调整。
在执行步骤S117或步骤S118的处理的情况下,此后,执行步骤S119的处理。
在步骤S119中,渲染处理单元113基于从极坐标变换单元49提供的每个对象的极坐标位置信息和音频数据执行诸如VBAP的渲染处理,并且输出获得的再现音频数据作为结果。
例如,在再现处理单元113的后续阶段,在扬声器等中,基于再现的音频数据再现内容的声音。
在步骤S120中,客户端12确定正在执行的处理是否结束。例如,在步骤S120中,在从用户指示内容的再现结束的情况下、从服务器11接收表示内容的所有数据的发送结束的数据结束信号的情况下等,确定结束处理。
在步骤S120中确定处理尚未结束的情况下,处理返回至步骤S111,并且重复执行上述处理。在这种情况下,通信单元111处于针对接收比特流的待机状态,并且在从服务器11发送新的比特流的情况下,重新执行步骤S111的处理。
另一方面,在步骤S120中确定结束处理的情况下,客户端12结束与服务器11的会话,并且停止在每个单元中执行的处理,并且结束再现音频数据生成处理。
应注意,渲染处理单元113或极坐标变换单元49可基于在渲染处理之前包括在系统配置信息中的收听者位置信息和表示再现模式的信息对对象的音频数据执行根据再现模式的处理。
在这样的情况下,例如,在与收听位置重叠的位置处对对象的音频数据执行诸如增益调整的衰减处理,或者音频数据被零数据替换并且被静音。此外,例如,从所有声道(扬声器)输出在与收听位置重叠的位置处的对象的音频数据的声音。
如上所述,客户端12基于包括在接收的比特流中的每个参考视点的信息执行插值处理,并且获得每个对象的对象绝对坐标位置信息和增益信息。
以这种方式,根据收听位置而不是收听者与对象之间的简单物理关系,可以基于内容创建者的意图实现对象布置。因此,可以基于内容创建者的意图实现内容再现,并且可以充分地将内容的娱乐或现实感受传递给收听者。
另外,在接收三角网格中不包含当前的收听位置的情况下,通过使用与上次使用的极坐标位置信息和增益信息相同的极坐标位置信息和增益信息,客户端12可以抑制不适当的位置关系的插值处理。因此,可以实现更高质量的内容再现。
<第二实施例>
<关于参考视点的选择>
此外,例如,在由服务器11实时发送内容的情况下,不仅包括收听位置的三角形网格的参考视点,而且可以额外选择另一参考视点,并且可以请求那些参考视点的对象极坐标编码数据。
在这种情况下,例如如图19所示,执行参考视点的选择。
在图19所示的示例中,假设时间Tα的收听位置α为箭头F51所示的位置,时间Tβ的收听位置β为箭头F52所示的位置。
在该例中,在时间Tα,收听位置α位于三角网格ABC内,因此通常在视点选择单元42中选择参考视点A至参考视点C。
然而,由于收听者在时间Tβ已经移动到三角形网格BCD中的位置(收听位置β),所以对于执行插值处理重新需要参考视点D的对象极坐标编码数据。
因此,在包括时间Tα的收听位置α的三角形网格ABC在收听位置α的边界(边)附近(即,在与三角形网格ABC相邻的另一三角形网格附近)的情况下,还可以额外选择构成与三角形网格ABC相邻的另一三角形网格的参考视点。
注意,在下文中,额外选择的参考视点也被称为另外参考视点。此外,在生成视点选择信息时选择的三角形网格(即包括不是额外的参考视点的三个选择的参考视点的三角形网格)也被称为选择的三角形网格。
例如,是否选择额外的参考视点(即,是否请求额外的参考视点的对象极坐标编码数据)是仅基于发送的延迟时间等、从收听位置到选择的三角形网格的边的距离(选择的三角形网格与收听位置之间的位置关系)、收听者的移动速度和收听者的移动方向中的至少一者而确定的。
在此,例如,延迟时间可以是从发送视点选择信息到接收最后处理的帧的比特流等的时间。此外,每次可以从收听者位置信息获得收听者的移动速度和移动方向。
作为示例,例如,在以收听位置α为中心的具有预定半径的圆与选择的三角形网格的边相交的情况下,换言之,在从收听位置α到选择的三角形网格的边的距离等于或小于预定阈值的情况下,可选择额外的参考视点。例如,可基于收听者的移动速度和移动方向、延迟时间等确定此时的圆的半径(预定阈值)。
具体地,例如,在图19中的示例中,假设从由箭头F51表示的收听位置α到选择的三角形网格ABC的边BC的距离等于或小于预定阈值。
在这种情况下,将具有边BC作为边(具有与选择的三角形网格ABC公共的边BC)并与选择的三角形网格ABC相邻的三角形网格BCD的参考视点D选择为额外的参考视点。
然后,生成表示除了参考视点A至参考视点C之外的额外的参考视点D的视点选择信息。
然后,由于在时间Tβ接收参考视点A至参考视点D的对象极坐标编码数据,所以即使在收听者移动到三角形网格BCD的情况下,也可基于接收的对象极坐标编码数据执行插值处理。
注意,作为其他的示例,例如,也可以根据收听者的移动速度和移动方向、延迟时间等,计算直到接下来接收到对象极坐标编码数据的时间为止收听者可达到(移动)的范围、即时间Tβ的估计值(估计时间)。在这种情况下,在计算的范围(区域)与选择的三角形网格的边相交的情况下,仅需要选择额外的参考视点。
此外,将要选择的额外的参考视点的数量可以是一个或多个。例如,构成邻近于包括当前收听位置的三角形网格的两个以上三角形网格中的每一个的参考视点可被选择为额外的参考视点。
如上所述,在根据情况适当地选择额外的参考视点的情况下,数据发送量可增加,但是在对象和收听位置具有适当的位置关系的状态下可在不引起延迟的感觉的情况下获得再现音频数据。注意,可以在服务器11侧执行如上所述的额外的参考视点的选择。
<视点选择信息发送处理的描述>
此外,在适当地执行额外的参考视点的选择的情况下,客户端12执行图20所示的视点选择信息发送处理。以下,参见图20的流程图说明由客户端12执行的视点选择信息的发送处理。
注意,步骤S151和步骤S152的处理与图16中的步骤S51和步骤S52的处理相似,因此将省略其描述。
在步骤S153中,视点选择单元42基于步骤S152中的参考视点的选择结果、发送的延迟时间等以及收听者的移动速度和移动方向来确定是否要选择额外的参考视点。
例如,如参见图19所述,在从收听位置到选择的三角形网格的边的距离等于或小于预定阈值等的情况下,视点选择单元42确定选择额外的参考视点。
在步骤S153中确定不选择额外的参考视点的情况下,不执行步骤S154的处理,并且此后,处理进行到步骤S155。
另一方面,在步骤S153中确定要选择额外的参考视点的情况下,视点选择单元42在步骤S154中选择额外的参考视点。
此时,视点选择单元42基于步骤S152中的参考视点的选择结果(在当前时间收听位置与选择的三角形网格之间的位置关系)、收听者的移动方向和移动速度、以及发送的延迟时间等中的至少一者选择额外的参考视点。
例如,如参见图19所述,视点选择单元42选择构成具有与选择的三角形网格公共的边的三角形网格(即,与选择的三角形网格相邻的三角形网格)的参考视点作为额外的参考视点。注意,可以选择两个以上参考视点作为额外的参考视点。
在进行步骤S154的处理或在步骤S153中确定不选择额外的参考视点的情况下,视点选择单元42在步骤S155中生成视点选择信息,并且将视点选择信息提供给通信单元111。
例如,在步骤S153中确定不选择额外的参考视点的情况下,视点选择单元42生成表示在步骤S152中选择的参考视点的视点选择信息。
另一方面,在进行步骤S154的处理的情况下,视点选择单元42生成表示在步骤S152中选择的参考视点和在步骤S154中选择的额外的参考视点的视点选择信息。
在以这种方式生成视点选择信息的情况下,此后,执行步骤S156和步骤S157的处理,并且结束视点选择信息发送处理。然而,该处理与图16中的步骤S54和步骤S55的处理相似,因此将省略其描述。
如上所述,客户端12适当地选择额外的参考视点,并且生成视点选择信息。以这种方式,即使在收听者已经移动的情况下,也可以抑制在接收比特流时收听位置与接收参考视点之间的位置关系变得不适当并且不能进行插值处理等。
<再现音频数据生成处理的描述>
此外,在执行参考图20描述的视点选择信息发送处理的情况下,在服务器11中执行参考图17描述的提供处理。
在这种情况下,在步骤S82中,根据视点选择信息,生成不仅包括包括收听位置的三角形网格的参考视点而且适当地包括针对额外的参考视点的对象极坐标编码数据和编码增益信息的比特流。
此外,在发送这种比特流的情况下,客户端12执行图21中示出的再现音频数据生成处理。
在下文中,将参考图21中的流程图描述由客户端12执行的再现音频数据生成处理。应注意,因为步骤S181至步骤S183的处理与图18中的步骤S111至步骤S113的处理相似,所以适当地省略其描述。
在此,在步骤S183中,在当前收听位置包括在由不是额外的参考视点的三个参考视点(即,由视点选择信息表示的参考视点之中的在图20中的步骤S152中选择的三个参考视点)形成的三角形网格中的情况下,确定收听者在三角形网格中。
在步骤S183中确定收听者是三角形网格的情况下,此后,执行步骤S185至步骤S188的处理,并且处理进行至步骤S190。注意,步骤S185至步骤S188的处理与图18中的步骤S114至步骤S117的处理相似,因此将省略其描述。
此外,在步骤S183中确定收听者不在三角形网格中的情况下,在步骤S184中,解码单元45确定在接收比特流时的时间(当前时间)是否存在包括收听位置的三角形网格的信息。
在此,在接收参考视点中存在额外的参考视点并且当前收听位置包括在由包括额外的参考视点的三个接收参考视点形成的三角形网格中的情况下,确定存在三角形网格的信息。
在步骤S184中确定存在包括收听位置的三角形网格的信息的情况下,此后,执行步骤S185至步骤S188的处理,并且处理进行至步骤S190。
在这种情况下,使用对象极坐标位置信息和包括额外的参考视点的三个接收参考视点的增益信息来执行步骤S185至步骤S188的处理,这三个接收参考视点形成包括当前收听位置的三角形网格。
此外,在步骤S184中确定不存在包括收听位置的三角形网格的信息的情况下,处理进行至步骤S189。
在步骤S189中,执行与图18中的步骤S118的处理相似的处理,并且处理进行至步骤S190。即,将最后生成的极坐标位置信息直接提供给渲染处理单元113。
在执行步骤S188或步骤S189的处理的情况下,此后,执行步骤S190和步骤S191的处理,并且结束再现音频数据生成处理。然而,该处理类似于图18中的步骤S119和步骤S120的处理,并且省略其描述。
如上所述,客户端12根据需要还使用对象极坐标位置信息和额外的参考视点的增益信息来执行插值处理。以这种方式,即使在收听者已经移动的情况下,也可以抑制不能执行插值处理等。
<第三实施例>
<关于参考视点的选择>
同时,由服务器11分配的内容可以是存档内容,其中,在所有再现时间(帧)的内容分配之前,预先生成对象极坐标编码数据和编码音频数据。在这种情况下,服务器11可提取并发送任意再现时间的数据。
因此,考虑到诸如网络延迟的延迟时间,可发送与客户端12中的假设接收时间匹配的再现时间的数据。因此,可以将在客户端12中接近实际再现时间时的对象极坐标位置信息和增益信息发送至客户端12。
具体地,例如如图22所示,假设时间Tα的收听位置α为箭头F61所示的位置,时间Tβ的收听位置β为箭头F62所示的位置。
在该示例中,在时间Tα,收听位置α位于三角网格ABC内,因此在视点选择单元42中选择参考视点A至参考视点C。
此外,在视点选择单元42中,例如,从自发送最后处理的帧等中的视点选择信息至接收比特流的时间的测量结果中获得发送等的延迟时间,并且基于延迟时间估计时间Tβ作为数据接收时间。
另外,在视点选择单元42中,考虑估计时间Tβ,例如与图19的情况相同,在收听位置α处于包括收听位置α的三角形网格ABC的边界(边)附近的情况下,也选择额外的参考视点。在该示例中,选择参考视点D作为额外的参考视点。
然后,视点选择单元42生成表示选择的参考视点A至参考视点D的视点选择信息,其包括表示估计时间Tβ的请求时间信息,更具体地,诸如与时间Tβ相对应的渲染时间戳的再现时间(帧)。
然后,与时间Tα相对应的编码音频数据以及与请求时间信息所表示的时间Tβ相对应的参考视点A至参考视点D的对象极坐标编码数据和编码增益信息从服务器11发送。在此,与时间Tα相对应的编码音频数据是与由服务器11最后发送的预定再现时间的编码音频数据接着的再现时间的编码音频数据。
通过生成这样的视点选择信息,客户端12可以获得构成包括收听位置β的三角形网格BCD的参考视点B到参考视点D的时间Tβ的对象极坐标编码数据和编码增益信息。
因此,在实际时间Tβ,与图19中的示例中的情况类似地执行插值处理和渲染处理,并且可以在不引起延迟的感觉的情况下获得对象和收听位置处于适当位置关系的再现音频数据。
<视点选择信息发送处理的描述>
另外,如图22所示,在生成视点选择信息的情况下,客户端12执行图23所示的视点选择信息发送处理。在下文中,参见图23的流程图说明由客户端12执行的视点选择信息的发送处理。
在开始视点选择信息发送处理的情况下,在步骤S221中获取收听者位置信息,并且在步骤S222中估计延迟时间(发送延迟)。注意,步骤S221的处理与图20中的步骤S151的处理相似,因此将省略其描述。
在步骤S222中,视点选择单元42估计从当前时间直到从服务器11接收下一比特流的延迟时间。
具体地,例如,将从步骤S227中最后执行的处理到接收比特流的(直到最后执行图21中的步骤S181)的时间的测量结果设置为延迟时间等。此外,视点选择单元42还从估计的延迟时间中估计下一比特流的估计接收时间(假设获取时间)。
在估计延迟时间的情况下,此后,执行步骤S223至步骤S225的处理,但是该处理与图20中的步骤S152至步骤S154的处理相似,因此将省略其描述。应注意,在步骤S223至步骤S225中,可考虑在步骤S222中估计的延迟时间执行处理。
在步骤S226中,视点选择单元42生成包括表示与比特流的估计接收时间相对应的再现时间的请求时间信息的视点选择信息,并且将视点选择信息提供给通信单元111。因此,请求在与估计接收时间相对应的再现时间发送对象极坐标编码数据和编码增益信息。
在这种情况下,例如,在不执行步骤S225的处理的情况下,生成表示步骤S223中选择的参考视点的视点选择信息。
另一方面,在执行步骤S225的处理的情况下,生成表示步骤S223中选择的参考视点和步骤S225中选择的额外的参考视点的视点选择信息。
在生成视点选择信息的情况下,此后,执行步骤S227和步骤S228的处理,并且结束视点选择信息发送处理。然而,该处理与图20中的步骤S156和步骤S157的处理相似,因此将省略其描述。
如上所述,客户端12生成包括请求时间信息的视点选择信息。这样,客户端12可以在与比特流的接收时间相对应的再现时间获得对象极坐标编码数据和对象的编码增益信息。因此,能够在不引起延迟的感觉的情况下在对象和收听位置具有适当的位置关系的状态下获得再现音频数据。
注意,在本实施例中,也在服务器11中执行参见图17描述的提供处理。
然而,在这种情况下,在步骤S83中,将最后(紧跟之前)执行的步骤S83中发送的在再现时间的编码音频数据之后的在再现时间的编码音频数据存储在比特流中。此外,在比特流中,存储对象极坐标编码数据和在由请求时间信息表示的再现时间的编码增益信息。
此外,在本实施例中,在从服务器11发送比特流的情况下,在客户端12中执行参考图21描述的再现音频数据生成处理。在这种情况下,在步骤S185至步骤S188,基于对象极坐标位置信息和在由请求时间信息表示的再现时间的增益信息执行插值处理。
<计算机的配置示例>
注意,上述一系列处理可以由硬件或软件执行。在由软件执行一系列处理的情况下,在计算机上安装构成软件的程序。在此,计算机的示例包括结合在专用硬件中的计算机,并且例如,能够通过安装各种程序执行各种功能的通用个人计算机。
图24是示出通过程序执行上述一系列处理的计算机的硬件的配置示例的框图。
在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504相互连接。
此外,输入和输出接口505连接至总线504。输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接至输入和输出接口505。
输入单元506包括键盘、鼠标、麦克风、成像元件等。输出单元507包括显示器、扬声器等。记录单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动器510驱动可移除记录介质511(诸如磁盘、光盘、磁光盘或半导体存储器)。
在如上所述配置的计算机中,CPU 501经由输入和输出接口505和总线504将记录在记录单元508中的程序加载到RAM 503中,并且执行该程序,以执行上述一系列处理。
例如,由计算机(CPU 501)执行的程序可以通过记录在作为封装介质等的可移动记录介质511上来提供。此外,可经由诸如局域网、因特网、或者数字卫星广播等有线或无线发送介质提供程序。
在计算机中,通过将可移除记录介质511安装到驱动器510,经由输入和输出接口505将程序安装在记录单元508中。此外,程序可经由通信单元509经由有线或无线发送介质接收以安装在记录单元508上。此外,程序可以预先安装在ROM 502或记录单元508中。
应注意,由计算机执行的程序可以是用于按照本说明书中描述的顺序按时间序列执行的程序,或用于并行处理或在诸如当进行呼叫时的必须定时处理的程序。
此外,本技术的实施例不限于上述实施例,并且在不背离本技术的范围的情况下,各种修改是可能的。
例如,本技术可被配置为云计算,其中,通过网络由多个装置共享一个功能以一起处理。
此外,在上述流程图中描述的每个步骤可以由一个设备执行或者由多个设备以共享方式执行。
此外,在一个步骤中包括多种处理的情况下,在一个步骤中包括的多种处理可以由一个装置或者由多个装置以共享方式执行。
此外,本技术还可具有以下配置。
(1)一种信息处理设备,包括:
收听者位置信息获取单元,获取表示收听位置的收听者位置信息;
视点选择单元,从多个参考视点之中选择形成包括预定时间的收听位置的区域的多个参考视点;
参考视点信息获取单元,获取多个参考视点的视点位置信息、和针对多个参考视点中的每个参考视点的参考视点的对象的对象位置信息;以及
对象位置计算单元,
在不同于预定时间的时间,在收听位置处于包括预定时间的收听位置的区域之外的情况下,
基于形成包括不同时间的收听位置的区域的多个参考视点的对象位置信息,计算收听位置的对象的位置信息,或者
输出最后获得的收听位置的对象的位置信息。
(2)根据(1)的信息处理设备,
其中,参考视点是由内容创建者预先设置的视点。
(3)根据(1)或(2)的信息处理设备,还包括:
再现处理单元,基于收听位置的对象的位置信息和对象的音频数据执行再现处理。
(4)根据(3)的信息处理设备,
其中,参考视点信息获取单元还获取针对多个参考视点中的每个参考视点的参考视点的对象的增益信息,
对象位置计算单元
在不同时间,在收听位置处于预定时间包括收听位置的区域之外的情况下,
基于形成包括不同时间的收听位置的区域的多个参考视点的增益信息计算收听位置的增益信息,并且基于所计算的增益信息执行音频数据的增益调整,或者
基于最后获得的收听位置的增益信息执行音频数据的增益调整。
(5)根据(1)至(4)中任一项的信息处理设备,
其中,参考视点信息获取单元获取形成包括预定时间的收听位置的区域的多个参考视点的对象位置信息,以及
在不同时间,在收听位置处于包括预定时间的收听位置的区域之外的情况下,对象位置计算单元输出最后获得的收听位置的对象的位置信息。
(6)根据(1)至(4)中任一项的信息处理设备,
其中,视点选择单元选择形成包括预定时间的收听位置的区域的多个参考视点,并且形成与该区域相邻的另一区域的参考视点,
参考视点信息获取单元获取由视点选择单元选择的多个参考视点的对象位置信息,以及
在不同时间,在收听位置在另一区域中的情况下,对象位置计算单元基于形成另一区域的多个参考视点的对象位置信息计算收听位置的对象的位置信息。
(7)根据(6)的信息处理设备,
其中,视点选择单元基于预定时间的区域与收听位置之间的位置关系、收听者的移动方向和移动速度、以及直到获取对象位置信息的延迟时间中的至少一者,选择形成另一区域的参考视点。
(8)根据(7)的信息处理设备,
其中,视点选择单元基于延迟时间估计对象位置信息的假设的获取时间,以及
参考视点信息获取单元获取与由视点选择单元选择的多个参考视点的假设的获取时间相对应的再现时间的对象位置信息。
(9)根据(1)至(8)中任一项的信息处理设备,
其中,对象位置计算单元基于收听者位置信息、多个参考视点的视点位置信息以及多个参考视点的对象位置信息,通过插值处理计算收听位置的对象的位置信息。
(10)根据(9)的信息处理设备,
其中,对象位置计算单元通过加权多个参考视点的对象位置信息执行插值处理。
(11)根据(9)或(10)的信息处理设备,
其中,对象位置计算单元基于将收听位置夹在中间的两个参考视点的视点位置信息和对象位置信息执行插值处理。
(12)根据(9)或(10)的信息处理设备,
其中,对象位置计算单元基于围绕收听位置的三个参考视点的视点位置信息和对象位置信息执行插值处理。
(13)根据(4)的信息处理设备,
其中,对象位置计算单元基于收听者位置信息、多个参考视点的视点位置信息以及多个参考视点的增益信息,通过插值处理计算收听位置的增益信息。
(14)根据(1)至(13)中任一项的信息处理设备,
其中,对象位置计算单元基于收听者位置信息、多个参考视点的视点位置信息、多个参考视点的对象位置信息以及针对多个参考视点中的每个参考视点设置的表示参考视点的收听者的面部朝向的收听者朝向信息,通过插值处理计算收听位置的对象的位置信息。
(15)根据(14)的信息处理设备,
其中,参考视点信息获取单元获取包括多个参考视点中的每个参考视点的视点位置信息和收听者朝向信息的配置信息。
(16)根据(15)的信息处理设备,
其中,配置信息包括表示多个参考视点的数量的信息以及表示对象的数量的信息。
(17)一种信息处理设备的信息处理方法,信息处理方法包括:
获取表示收听位置的收听者位置信息;
在预定时间,从多个参考视点之中选择形成包括收听位置的区域的多个参考视点;
获取多个参考视点的视点位置信息以及针对多个参考视点中的每个参考视点的参考视点的对象的对象位置信息;以及
在不同于预定时间的时间,在收听位置处于包括预定时间的收听位置的区域之外的情况下,
基于形成包括不同时间的收听位置的区域的多个参考视点的对象位置信息,计算收听位置的对象的位置信息,或者
输出最后获得的收听位置的对象的位置信息。
(18)一种程序,使计算机执行以下处理:
获取表示收听位置的收听者位置信息;
从多个参考视点之中选择形成包括预定时间的收听位置的区域的多个参考视点;
获取多个参考视点的视点位置信息以及针对多个参考视点中的每个参考视点的参考视点的对象的对象位置信息;以及
在不同于预定时间的时间,在收听位置处于包括预定时间的收听位置的区域之外的情况下,
基于形成包括不同时间的收听位置的区域的多个参考视点的对象位置信息,计算收听位置的对象的位置信息,或者
输出最后获得的收听位置的对象的位置信息。
参考符号列表
11服务器
12客户端
41听者位置信息获取单元
42视点选择单元
45解码单元
111通信单元
112位置计算单元
113渲染处理单元。

Claims (18)

1.一种信息处理设备,包括:
收听者位置信息获取单元,获取表示收听位置的收听者位置信息;
视点选择单元,从多个参考视点之中选择形成包括预定时间的收听位置的区域的多个所述参考视点;
参考视点信息获取单元,获取多个所述参考视点的视点位置信息、和针对多个所述参考视点中的每个参考视点的所述参考视点的对象的对象位置信息;以及
对象位置计算单元,
在不同于所述预定时间的时间,在所述收听位置处于包括所述预定时间的收听位置的区域之外的情况下,
基于形成包括不同时间的收听位置的区域的多个所述参考视点的对象位置信息,计算所述收听位置的所述对象的位置信息,或者输出最后获得的所述收听位置的所述对象的位置信息。
2.根据权利要求1所述的信息处理设备,
其中,所述参考视点是由内容创建者预先设置的视点。
3.根据权利要求1所述的信息处理设备,还包括:
再现处理单元,基于所述收听位置的所述对象的位置信息和所述对象的音频数据执行再现处理。
4.根据权利要求3所述的信息处理设备,
其中,所述参考视点信息获取单元还获取针对多个所述参考视点中的每个参考视点的所述参考视点的所述对象的增益信息,
所述对象位置计算单元
在所述不同时间,在所述收听位置处于包括所述预定时间的收听位置的区域之外的情况下,
基于形成包括所述不同时间的收听位置的区域的多个所述参考视点的增益信息计算所述收听位置的增益信息,并且基于所计算的增益信息执行所述音频数据的增益调整,或者
基于最后获得的所述收听位置的增益信息执行音频数据的增益调整。
5.根据权利要求1所述的信息处理设备,
其中,所述参考视点信息获取单元获取形成包括所述预定时间的收听位置的区域的多个所述参考视点的对象位置信息,以及
在所述不同时间,在所述收听位置处于包括所述预定时间的收听位置的区域之外的情况下,所述对象位置计算单元输出最后获得的所述收听位置的所述对象的位置信息。
6.根据权利要求1所述的信息处理设备,
其中,所述视点选择单元选择形成包括所述预定时间的收听位置的区域的多个所述参考视点,以及形成与所述区域相邻的另一区域的所述参考视点,
所述参考视点信息获取单元获取由所述视点选择单元选择的多个所述参考视点的对象位置信息,以及
在所述不同时间,在所述收听位置在所述另一区域中的情况下,所述对象位置计算单元基于形成所述另一区域的多个所述参考视点的对象位置信息计算所述收听位置的所述对象的位置信息。
7.根据权利要求6所述的信息处理设备,
其中,所述视点选择单元基于所述预定时间的所述区域与所述收听位置之间的位置关系、收听者的移动方向和移动速度、以及直到获取所述对象位置信息的延迟时间中的至少一者,选择形成所述另一区域的所述参考视点。
8.根据权利要求7所述的信息处理设备,
其中,所述视点选择单元基于所述延迟时间估计所述对象位置信息的假设的获取时间,以及
所述参考视点信息获取单元获取与由所述视点选择单元选择的多个所述参考视点的假设的获取时间相对应的再现时间的所述对象位置信息。
9.根据权利要求1所述的信息处理设备,
其中,所述对象位置计算单元基于所述收听者位置信息、多个所述参考视点的视点位置信息以及多个所述参考视点的对象位置信息,通过插值处理计算所述收听位置的所述对象的位置信息。
10.根据权利要求9所述的信息处理设备,
其中,所述对象位置计算单元通过加权多个所述参考视点的对象位置信息来执行所述插值处理。
11.根据权利要求9所述的信息处理设备,
其中,所述对象位置计算单元基于将所述收听位置夹在中间的两个所述参考视点的视点位置信息和所述对象位置信息执行所述插值处理。
12.根据权利要求9所述的信息处理设备,
其中,所述对象位置计算单元基于围绕所述收听位置的三个所述参考视点的视点位置信息以及所述对象位置信息执行所述插值处理。
13.根据权利要求4所述的信息处理设备,
其中,所述对象位置计算单元基于所述收听者位置信息、多个所述参考视点的视点位置信息以及多个所述参考视点的增益信息,通过插值处理计算所述收听位置的增益信息。
14.根据权利要求1所述的信息处理设备,
其中,所述对象位置计算单元基于所述收听者位置信息、多个所述参考视点的视点位置信息、多个所述参考视点的对象位置信息以及针对多个所述参考视点中的每个参考视点设置的表示所述参考视点的收听者的面部朝向的收听者朝向信息,通过插值处理计算所述收听位置的所述对象的位置信息。
15.根据权利要求14所述的信息处理设备,
其中,所述参考视点信息获取单元获取包括多个所述参考视点中的每个参考视点的视点位置信息和收听者朝向信息的配置信息。
16.根据权利要求15所述的信息处理设备,
其中,所述配置信息包括表示多个所述参考视点的数量的信息以及表示所述对象的数量的信息。
17.一种信息处理设备的信息处理方法,所述信息处理方法包括:
获取表示收听位置的收听者位置信息;
从多个参考视点之中选择形成包括预定时间的收听位置的区域的多个所述参考视点;
获取多个所述参考视点的视点位置信息以及针对多个所述参考视点中的每个参考视点的所述参考视点的对象的对象位置信息;以及
在不同于所述预定时间的时间,在所述收听位置处于包括所述预定时间的收听位置的区域之外的情况下,
基于形成包括不同时间的收听位置的区域的多个所述参考视点的对象位置信息,计算所述收听位置的所述对象的位置信息,或者
输出最后获得的收听位置的所述对象的位置信息。
18.一种程序,使计算机执行以下处理:
获取表示收听位置的收听者位置信息;
从多个参考视点之中选择形成包括在预定时间的收听位置的区域的多个所述参考视点;
获取多个所述参考视点的视点位置信息以及针对多个所述参考视点中的每个参考视点的所述参考视点的对象的对象位置信息;以及
在不同于所述预定时间的时间,在所述收听位置处于包括所述预定时间的收听位置的区域之外的情况下,
基于形成包括不同时间的收听位置的区域的多个所述参考视点的对象位置信息,计算所述收听位置的所述对象的位置信息,或者
输出最后获得的所述收听位置的所述对象的位置信息。
CN202280032091.XA 2021-05-07 2022-02-01 信息处理设备、方法和程序 Pending CN117981361A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021-079174 2021-05-07
JP2021079174 2021-05-07
PCT/JP2022/003737 WO2022234698A1 (ja) 2021-05-07 2022-02-01 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
CN117981361A true CN117981361A (zh) 2024-05-03

Family

ID=83932100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280032091.XA Pending CN117981361A (zh) 2021-05-07 2022-02-01 信息处理设备、方法和程序

Country Status (7)

Country Link
US (1) US20240223985A1 (zh)
EP (1) EP4336862A1 (zh)
JP (1) JPWO2022234698A1 (zh)
KR (1) KR20240006514A (zh)
CN (1) CN117981361A (zh)
TW (1) TW202312749A (zh)
WO (1) WO2022234698A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019049409A1 (ja) * 2017-09-11 2019-03-14 シャープ株式会社 音声信号処理装置および音声信号処理システム
JP7226436B2 (ja) 2018-04-12 2023-02-21 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
JPWO2022234698A1 (zh) 2022-11-10
TW202312749A (zh) 2023-03-16
US20240223985A1 (en) 2024-07-04
KR20240006514A (ko) 2024-01-15
WO2022234698A1 (ja) 2022-11-10
EP4336862A1 (en) 2024-03-13

Similar Documents

Publication Publication Date Title
US12010502B2 (en) Apparatus and method for audio rendering employing a geometric distance definition
CN111466124B (zh) 用于渲染用户的视听记录的方法,处理器系统和计算机可读介质
US11089425B2 (en) Audio playback method and audio playback apparatus in six degrees of freedom environment
JP2019533404A (ja) バイノーラルオーディオ信号処理方法及び装置
US10659904B2 (en) Method and device for processing binaural audio signal
UA127896C2 (uk) Способи, апарати і системи для розширення трьох ступенів свободи (3dof+) mpeg-h 3d audio
TWI713017B (zh) 用於處理媒介資料之器件及方法與其之非暫時性電腦可讀儲存媒體
TW202105164A (zh) 用於低頻率效應之音訊呈現
US11337022B2 (en) Information processing apparatus, method, and program
US20220377488A1 (en) Information processing apparatus and information processing method, and program
CN117981361A (zh) 信息处理设备、方法和程序
US20240007818A1 (en) Information processing device and method, and program
CN114128312B (zh) 用于低频效果的音频渲染
RU2803062C2 (ru) Способы, аппараты и системы для расширения трех степеней свободы (3dof+) mpeg-h 3d audio

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination