CN111466124B - 用于渲染用户的视听记录的方法,处理器系统和计算机可读介质 - Google Patents

用于渲染用户的视听记录的方法,处理器系统和计算机可读介质 Download PDF

Info

Publication number
CN111466124B
CN111466124B CN201880081100.8A CN201880081100A CN111466124B CN 111466124 B CN111466124 B CN 111466124B CN 201880081100 A CN201880081100 A CN 201880081100A CN 111466124 B CN111466124 B CN 111466124B
Authority
CN
China
Prior art keywords
user
audio
orientation
data
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880081100.8A
Other languages
English (en)
Other versions
CN111466124A (zh
Inventor
M·普林斯
H·M·斯托金
S·N·B·冈克尔
H·N·欣里克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Koninklijke KPN NV
Original Assignee
Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Koninklijke KPN NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO, Koninklijke KPN NV filed Critical Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Publication of CN111466124A publication Critical patent/CN111466124A/zh
Application granted granted Critical
Publication of CN111466124B publication Critical patent/CN111466124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Processing Or Creating Images (AREA)

Abstract

提供了用于生成和渲染用户的增强的视听记录的系统和方法,这些系统和方法可以用于例如在虚拟现实中进行多用户通信。可以通过确定视听记录中该用户的面部朝向并生成指定表示所述确定的面部朝向的朝向的朝向数据来生成这种增强的记录。在渲染期间,可以基于该朝向数据来渲染音频数据,即,通过将该音频数据渲染为具有空间方向的空间音频源来渲染该音频数据,该空间方向与该用户的视觉表示中该用户的面部朝向一致。相应地,该用户的语音的空间方向可以更好地与该用户的视觉表示中该用户的面部方向相匹配。

Description

用于渲染用户的视听记录的方法,处理器系统和计算机可读 介质
技术领域
本发明涉及一种渲染用户的视听记录的方法,并且涉及一种被配置用于渲染用户的视听记录的处理器系统。本发明进一步涉及一种生成用户的增强的视听记录的方法,并且涉及一种被配置用于生成用户的增强的视听记录的处理器系统。本发明进一步涉及一种包括用于使处理器系统执行任一方法的指令的计算机程序。本发明进一步涉及一种包括元数据的计算机可读介质。
背景技术
如今,视听多用户通信很普遍。在这种类型的多用户通信中,通常通过视听记录设备(诸如,具有集成麦克风的网络摄像头)、或者通过分开的视觉记录设备(例如,相机)和音频记录设备(例如,麦克风)来记录(多个)用户,并且然后将用户的所捕获的视觉数据和音频数据播放给(多个)其他用户。
这种视听多用户通信的众所周知示例是Skype,其中可以通过用户的膝上型计算机、智能电话、平板计算机等中的相机来记录这些用户,同时在这些用户的设备的显示器上播放(多个)其他用户的视频数据,并且使用扬声器或头戴式耳机来播放音频数据。
视听多用户通信还可能在虚拟现实(VR)或增强现实(AR)中发生。在此,VR是指使用计算机技术来模拟用户在虚拟环境中的物理存在,而AR是指使用计算机技术、通过将虚拟环境叠加在用户对物理现实世界环境的视图上或以另一方式将虚拟环境与用户对物理现实世界环境的视图相结合来增强用户对物理现实世界环境的视图。
在基于VR或AR的多用户通信中,可以在虚拟环境中示出用户的视觉表示,在AR中,该视觉表示可以被显示为在用户的真实物理环境上的叠加物。这种虚拟环境的示例是Improov(http://www.middlevr.com/improov/),其被认为是“用于在虚拟现实中进行协作 的平台”,并且被认为使用用户的实况相机记录作为虚拟环境中的化身。在多用户通信中使用这种“视频化身”还在Hirose等人的论文“Integrating live video for immersive environments [集成实况视频以获得沉浸式环境]”,IEEE Multimedia [IEEE多媒体杂志]6.3,1999,第14-22页中进行了描述。
但总的来说,VR和AR中的视听多用户通信的问题在于视觉数据和音频数据的当前记录技术和渲染技术无法为用户提供足够逼真的体验、或者在VR的情况下无法为用户提供沉浸式体验。更具体地,发明人已经看出,如果用户例如通过转动他/她的头部来改变面部朝向,则其他用户能根据所播放的视觉数据而明显地感受到该转动,但是所播放的音频可能无法、或者无法完全传达该变化。例如,如果音频数据是通过附接到用户的麦克风来捕获的,则面部朝向的变化可能不但对所记录的音频数据的特性没有影响,而且对再现的特性(例如,就播放方向而言)也没有影响。另一方面,如果麦克风相对于用户具有静态位置,则音频特性(诸如,声级或频率分布)可能发生变化,但是在向(多个)其他用户播放所记录的音频数据时这些变化无法完全传达面部朝向的变化。
发明内容
将有利的是,能够生成和/或渲染更好地传达面部朝向的变化的用户的视听记录。
以下措施大体上涉及:确定视听记录中该用户的面部朝向、以及将音频数据渲染为具有与面部朝向一致的空间方向的空间音频源。
根据本发明的第一方面,提供了一种渲染用户的视听记录的方法。该方法可以包括:
- 接收表示该用户的视觉记录的视觉数据;
- 接收表示该用户的音频记录的音频数据;
- 获得指定朝向的朝向数据,该朝向表示该视听记录中该用户的面部朝向;
其中,渲染该视听记录包括:
- 渲染该视觉数据,以在显示器上建立该用户的视觉表示;
- 基于该朝向数据,将该音频数据渲染为具有空间方向的空间音频源,该空间方向与该视觉表示中该用户的面部朝向一致。
本发明的另一方面可以提供一种用于渲染用户的视听记录的处理器系统。该处理器系统可以包括:
- 通信接口,该通信接口被配置为接收:
表示该用户的视觉记录的视觉数据;
表示该用户的音频记录的音频数据;
指定朝向的朝向数据,该朝向表示该视听记录中该用户的面部朝向;
- 视频处理器,该视频处理器被配置为渲染该视觉数据,以在显示器上建立该用户的视觉表示;以及
- 音频处理器,该音频处理器被配置为基于该朝向数据,将该音频数据渲染为具有空间方向的空间音频源,该空间方向与该视觉表示中该用户的面部朝向一致。
本发明的另一方面可以提供一种生成用户的增强的视听记录的方法。该方法可以包括:
- 通过以下操作来获得该用户的该视听记录:
捕获表示该用户的视觉记录的视觉数据;
捕获表示该用户的音频记录的音频数据;
- 确定该视听记录中该用户的面部朝向;
- 生成指定朝向的朝向数据,该朝向表示所述确定的面部朝向。
本发明的另一方面可以提供一种用于生成用户的增强的视听记录的处理器系统。该处理器系统可以包括:
- 到视频捕获设备的视频接口,该视频捕获设备被配置用于捕获表示该用户的视觉记录的视觉数据;
- 到音频捕获设备的音频接口,该音频捕获设备被配置用于捕获表示该用户的音频记录的音频数据;以及
- 处理器,该处理器被配置为:
确定该视听记录中该用户的面部朝向;
生成指定朝向的朝向数据,该朝向表示所述确定的面部朝向。
本发明的另一方面可以提供一种包括计算机程序的暂态或非暂态计算机可读介质,该计算机程序包括用于使处理器系统执行任一方法的指令。
本发明的另一方面可以提供一种包括用户的视听记录的朝向数据的暂态或非暂态计算机可读介质,该朝向数据指定表示该视听记录中该用户的面部朝向的朝向。
上述措施是响应于在VR背景下在视听多用户通信中收集的见解而提供的,但是上述措施也适用于AR和其他类型的视听多用户通信。在基于VR的多用户通信中,通常将用户的视觉数据渲染为虚拟环境中的对象。例如,在视觉记录是2D或立体3D视频记录的情况下,对象通常是视频平面,该视频平面在虚拟环境中示出了用户的所记录的视频数据。有效地,这样的视频平面可以表示虚拟环境中的“虚拟显示器”,在该虚拟显示器上显示了相应用户的视频数据。
图1A和图1B展示了基于VR的多用户通信的现有技术场景,出于展示的目的,该场景仅示出了两个用户,但是可以包括更多用户,其中,麦克风附接到要捕获的用户,而摄像机在用户的环境中具有固定位置时。当用户在摄像机前转动时,虚拟环境中的视频平面通常将不会转动,而是简单地示出现在从用户的侧面示出他/她的所记录的视频数据。相应地,视频平面将通过改变的视频数据内容来传达用户的转动。然而,在记录期间音频特性将基本上保持不变(例如,就声级而言),而再现特性也保持不变(例如,就声音方向而言)。因此,所渲染的音频记录将与所渲染的视频记录不匹配,这可能会使多用户通信降级。在未详细地讨论图2A和图2B的情况下,应该注意,如果将(单声道)麦克风附连到相机上,也会发生这样的问题:虽然在记录期间音频特性可能轻微变化(例如,声级轻微降低并且语音听起来更加含混不清),但在播放期间声音方向仍可能与视觉记录中用户的面部朝向不匹配。
为了解决这样的问题,上述措施可以涉及确定视听记录中用户的面部朝向、以及生成指定表示所述确定的面部朝向的朝向数据。这些措施可以在进行视听记录的捕获侧执行,也可以在由另一位置处的另一实体(例如,基于云的处理器系统)播放视听记录的播放侧执行。
然后,朝向数据可以用于将该音频数据渲染为具有空间方向的空间音频源,该空间方向与该视觉表示中该用户的面部朝向一致。该渲染可以在向用户播放视听记录的播放侧执行,但是在一些实施例中,也可以由在另一位置处的另一实体(例如,由基于云的处理器系统)执行,在这种情况下,可以获得作为输出的空间音频数据,其中用户的音频记录可以被表示为空间音频源。相应地,另外在不考虑实际播放的情况下,上述措施还可以允许例如在记录而不是播放所渲染的视频和音频时正确地建立空间音频源的空间方向。
上述措施可能具有音频数据由方向空间音频源表示的效果。此类空间音频源例如从诸如高保真立体声等的环绕声场再现技术和基于对象的音频渲染技术本身是已知的,并且允许将音频数据渲染为(空间)声场中的空间声源,该空间声源在声场中具有空间位置和空间方向。然后,可以通过扬声器以已知的方式(例如,通过将虚拟麦克风放置在声场中与扬声器之间的实际相对位置相对应的相对位置处)来再现声场。这允许观看/收听用户感知所捕获的用户的音频记录(例如,他/她的语音)的空间方向,以便与用户的视觉表示中用户的面部方向匹配。
这可能具有的优点是,在VR中可以为用户提供更沉浸的体验。总体上,用户可以感知到再现的视听记录更加逼真、更具参与性、不那么令人厌倦等。
在上文和下文中,术语“用户的视听记录”可以是指至少由以下各项构成的记录:i) 表示至少用户头部/面部的记录的视觉数据;以及 ii) 表示至少用户的语音(例如,用户的说话声、歌声等)的记录的音频数据。
形容词“视觉”可以是指“视频”,并且从而是指基于2D或立体3D摄像机的视频记录技术,也可以是包括基于点云、网格、光场等的记录和再现技术。
术语“用户的视觉表示”可以是指对视觉数据渲染的结果。例如,如果视觉数据是在视频平面上渲染的视频数据,则示出所渲染的视频数据的视频平面可以构成用户的视觉表示。另一个示例是,如果视觉数据是在3D虚拟环境中渲染的点云,则所产生的3D渲染的点云可以构成用户的视觉表示。
术语“渲染”通常可以被理解为将某物的数字描述(例如,表示所捕获的图像传感器值或点云坐标的视觉数据)转换成用户可感知的形式(例如,可以在屏幕上显示的输出图像)的过程。如果渲染具体是在虚拟环境的背景下执行的,则这种渲染还可以包括常规被称为“计算机图形渲染”的操作,例如,根据虚拟环境的2D或3D模型生成输出图像。“渲染”可以但不需要包括实际播放所渲染的结果(例如,显示所生成的输出图像、播放音频波形等)的步骤。无需播放的示例是将这种渲染记录例如为剪辑或电影。
形容词“音频”可以是指使用麦克风(例如,将声音转换为电信号的换能器)产生的记录。在一些实施例中,麦克风可以是被配置用于单声道音频记录的麦克风。
具有与视觉表示中用户的面部朝向“一致”的空间方向的空间音频源可以是指在该确定的面部朝向与空间音频源的空间方向之间存在预定的空间关系,并且根据该预定关系建立空间方向。由此,面部朝向的转动可能导致空间音频源的空间方向的相同或至少成比例的转动。应该注意,为了使在再现期间空间音频源的空间方向实际上与视觉表示中用户的面部朝向相匹配,这可能还需要视频再现设备(例如,显示器)与音频再现设备(例如,(多个)扬声器)具有规定的空间关系,并根据该空间关系建立空间方向。在再现期间的这种匹配可能是期望的,但是也可能超出(多种)方法和(多个)处理器系统的技术可达范围,因为其可能依赖于在再现期间用户正确地定位他/她的显示器和扬声器。通常,可以在假定视频再现设备与音频再现设备之间存在某种空间关系的情况下建立空间方向。
在实施例中,渲染视听记录可以包括:
- 在虚拟环境中渲染该视觉数据,以在该虚拟环境内建立该用户的该视觉表示;以及
- 在该虚拟环境中将该音频数据渲染为具有空间位置的空间音频源,该空间位置与该虚拟环境中该用户的该视觉表示的空间位置一致。
视觉数据可以在虚拟环境内被渲染为例如虚拟对象,而音频数据可以在虚拟环境中被渲染为可以就空间位置而言与该虚拟对象匹配的空间音频源。这可以在虚拟环境中提供用户的更逼真的视听表示,并且从而可以提供更加沉浸的体验。
在这方面,应该注意,定位在“在虚拟环境”中的空间音频源可以是指定位在虚拟环境的声场中例如表示虚拟环境的声景的空间音频源。
在实施例中,朝向数据可以进一步指示用户在视觉表示的空间轮廓内的相对位置,并且对空间音频源进行渲染可以包括确定空间音频源相对于用户的视觉表示的空间位置,该空间位置与用户的所述相对位置一致。视觉数据可能还示出用户周围环境(例如,背景)的一部分。这可能是由具有相对较宽视场的摄像机引起的。因此,用户可以采取在相机的视场内并且由此在视觉记录的空间轮廓内的不同的相对位置。为了获得用户的更逼真的视听表示,可以根据用户在用户的视觉表示的空间轮廓(例如,视频平面)内的相对位置来确定空间音频源的空间位置。例如,如果用户向左倾斜,则空间音频源的相对位置可以向左移动。在用户的视觉表示是三维表示的情况下,相对位置还可以在三个维度中(例如,在X、Y和Z中)定义。应该注意,可以使用相同或类似的技术来检测用户的相对位置,如之后针对检测面部朝向的进一步描述的。
在实施例中,生成用户的增强的视听记录可以进一步包括以下操作中的至少一项:
- 将该朝向数据与该音频数据相关联,或使得该朝向数据能够与该音频数据相关联;
- 生成使得该朝向数据能够与该音频数据在时间上同步的同步数据;以及
- 生成包括该视觉数据、该音频数据、该朝向数据和可选地该同步数据的视听流。
同步数据可以例如包括时间戳或类似的定时数据。应该注意,当朝向数据作为元数据被包括在音频数据的报头中时,可能不需要这种同步数据,因为然后可以将朝向数据应用于该同步数据被插入到其报头中的音频数据。
在实施例中,所述生成可以进一步包括基于该确定的面部朝向来处理该音频数据,其中,所述处理可以包括补偿由于面部朝向的变化而导致的音频特性的变化,诸如声级降低或一个或多个频率分量的衰减。面部朝向的变化可能导致音频记录的一个或多个音频特性的变化,因为用户与麦克风之间的相对朝向可能变化(例如,在麦克风在用户的环境中具有固定位置的情况下)。例如,用户可能远离麦克风,这可能导致声级的降低、用户的语音显得更加含混不清等。相应地,可以将音频处理应用于音频记录以补偿此类变化。例如,可以提高音频记录的声级,或者可以将均衡器应用于音频记录。这可以具有可以改善音频记录的可听性的优点。在另一示例中,麦克风可以处于相对于用户的头部固定的位置,并且即使在渲染时所捕获的用户正远离观看者,用户语音的声级也可以是恒定的。相应地,可以应用音频处理以引入用户语音的变化。例如,当所捕获的用户正远离观看者时,可以相对地降低声级,或者可以应用滤波来与较低音频频率相比更大地降低相对较高音频频率的水平。该步骤可以例如刚好在播放之前执行,例如作为渲染期间使用的空间音频框架的一部分。
在实施例中,所述生成可以进一步包括:将音频数据编码为空间音频数据,在该空间音频数据中,用户的音频记录由空间音频源表示,其中,空间音频源的空间方向与视觉表示中用户的面部朝向一致。这种处理也可能已经在捕获侧进行(例如在生成视听记录时),而不是将朝向数据发送到确定空间音频源的空间方向的另一实体,在播放之前或播放期间进行。例如,音频数据可以根据例如高保真立体声或基于对象的音频格式而被编码为空间音频数据,其中,用户的音频记录由空间音频源表示,并且其中,可以适当地选择空间音频源的空间方向。这可能具有渲染系统可以不需要解析和处理单独的朝向数据的优点。相反,渲染系统仅需要解析和处理空间音频数据,该空间音频数据可以根据标准进行格式化,并且其中,朝向数据可以以标准化形式存在。这对于两人通信可能特别有利,因为在多于两人的通信中,每个捕获侧可能必须为每个相应的收听者创建空间音频数据,这可能会给捕获侧带来负担,并且替代地这可能会基于每个相应用户的所接收到的音频数据和所接收到的朝向数据在中央或在每个渲染侧执行。
在实施例中,确定视听记录中用户的面部朝向可以包括以下操作中的至少一项:
- 使用图像分析或计算机视觉技术来分析该视觉数据,以根据该视觉记录确定该用户的面部朝向;以及
- 例如使用由该用户佩戴的头戴式显示器中的朝向传感器来在该用户的环境中跟踪该用户的面部朝向。
应当理解,对面部朝向的跟踪可以使用附接到用户的头部的其他朝向传感器来执行,或者可以使用图像分析算法来检测所捕获的视频(可能使用其他或附加相机捕获)中的用户的面部和面部朝向,或者可以使用用户周围的多个麦克风、基于所捕获的音频(可能使用其他或附加麦克风捕获)等来确定面部朝向。通常,可以使用用于HMD跟踪的已知技术中的一种或组合,例如,由外而内跟踪、由内而外跟踪或混合。
在本发明的另一方面,在本说明书中描述的处理器系统中的任一处理器系统可以被配置为指示其是否支持朝向数据。在此,短语“指示支持”可以是指被生成和/或正被传输到另一实体的数据,该数据指示通用类型的支持(例如,处理器系统是否能够生成、处理和/或使用朝向数据)、和/或特定类型的支持(例如,特定类型的使用)、和/或支持哪种类型的朝向数据等。
以这种方式,处理器系统可以向另一实体指示其关于朝向数据的能力。例如,捕获设备可以指示其支持生成朝向数据和/或向媒体流添加朝向数据等。另一示例是渲染设备可以被配置为指示其支持接收、处理和/或使用朝向数据进行渲染。除了上述处理器系统、并且特别地相应地配置的捕获设备和渲染设备之外,其他实体也可以被配置为指示其对朝向数据的支持,例如,位于捕获设备与渲染设备之间的网络路径中的网络节点,该网络节点可以将其功能添加到端到端音频交付链。通常,处理器系统的处理器可以被配置用于经由通信接口来信号发送其对于朝向数据的支持。所描述的方法中的任一种可以进一步包括发送关于这种支持的信号。对支持的这种信号发送的非限制性示例可以是在通信会话的会话建立期间进行的这种信号发送。
本领域技术人员可以理解,可以以任何认为有用的方式组合上文提及的本发明的实施例、实施方式和/或方面中的两个或更多个。
本领域技术人员可以在本说明书的基础上对这两种处理器系统、方法和计算机程序中任一个进行修改和变化,这些修改和变化与对这两种系统、方法和计算机程序中的另一个进行的修改和变化相对应。
附图说明
参考下文所描述的实施例,本发明的这些和其他方面是显而易见的并且将被阐明。在附图中:
图1A和图1B展示了VR内的视听多用户通信,其中麦克风被附连到用户,并且用户在相机前转向;
图2A和图2B类似于图1A和图1B,但示出了在麦克风被定位在相对于相机的固定位置处的情形;
图3A和图3B类似于图2A和图2B,但示出了在麦克风是高保真立体声麦克风的情形;
图4A和图4B类似于图3A和图3B,但示出了在从观看环境内未沿着相机的光轴定位的虚拟视点观看用户的视觉表示的情形;
图5A和图5B示出了根据本发明一些实施例的捕获、转换和渲染的功能表示;
图6示出了用于记录、处理和渲染音频的各种选项,这些选项涉及使用基于对象的音频和/或高保真立体声;
图7示出了虚拟环境,在该虚拟环境中,用户A和B被定位成他们的视觉表示与他们的视点位于桌子的两侧;
图8示出了用户A的捕获环境;
图9展示了从捕获到渲染的步骤,这些步骤从捕获用户A进行到在图7的观看环境中渲染用户A的视觉表示并且将他/她的音频渲染为空间音频源;
图10示出了用户A在捕获环境中的朝向和位置相对于图8的情形已经改变;
图11示出了被配置用于生成用户的增强的视听记录以供在视听多用户通信中使用的处理器系统;
图12示出了被配置用于渲染用户的视听记录、并且特别是增强的视听记录的处理器系统;以及
图13示出了示例性数据处理系统。
应该注意,在不同的附图中具有相同附图标记的项具有相同的结构特征和相同的功能,或是相同的信号。在已经解释了这种项的功能和/或结构的情况下,在详细描述中不再重复解释。
参考标号和缩写的列表
以下参考标号和缩写的列表用于简化附图解释,不应被解释为对权利要求的限制。
10 被记录的用户
20 视频捕获设备(相机)
22 视觉数据
30 跟踪器
40 音频捕获设备(麦克风)
42 音频数据
50 高保真立体声麦克风
60 显示器
62 显示数据
80 扬声器
82 扬声器信号
100、102 虚拟环境
110 视觉表示(视频对象)
112 虚拟视点
114 用户A的视觉表示和视点
116 用户B的视觉表示和视点
120 桌子
122、124 座位
150 声音方向
160 多个声音方向
200 捕获
210 跟踪器
220 变换器
230 组合器
240 校准器
250 接口
300 转换
310 接口
320 转换器
330 编排器
340 接口
400 渲染
410 接口
420 音频渲染器
430 编排器
500 捕获
502 捕获音频
504 捕获视频
506 跟踪用户朝向、可选位置
510 传输音频、视频、朝向、可选定位
520 接收
530 渲染
600 用于生成增强的视听记录的处理器系统
610 视频接口
620 音频接口
630 处理器
640 通信接口
642 表示增强的视听记录的数据
700 用于渲染视听记录的处理器系统
710 通信接口
720 视频处理器
730 音频处理器
1000 示例性数据处理系统
1002 处理器
1004 存储器元件
1006 系统总线
1008 本地存储器
1010 大容量存储设备
1012 输入设备
1014 输出设备
1016 网络适配器
1018 应用。
具体实施方式
图1A至图4B描述了在VR背景下的视听多用户通信的已知示例,同时指示了与这类已知示例相关的问题。随后的附图和描述详述了本发明的实施例,这些实施例也在VR背景下进行了描述,但是同样适用于其他类型的视听多用户通信,例如不使用虚拟环境的AR或视频会议(诸如,Skype、Facetime等)。
图1A在左侧展示了视听多用户通信的“捕获侧”,该捕获侧示出了对用户10的视听记录。在此图及后续图中(包括图5A以前描述的本发明的实施例),通过摄像机20来获取视觉数据,该摄像机在用户10的物理环境中(例如,在2D或立体3D中)捕获他/她的视频数据。可替代地,可以使用例如基于点云、网格、光场等的任何其他合适的视觉记录技术和伴随的传感器或“相机”。在这些图中,相机被示出在单一定位中,但是实际上相机可以包括可以提供用户的多个记录角度的相机系统或多个传感器。
在右侧示出了“渲染侧”,其中在虚拟环境100中示出了用户的视觉表示110,该虚拟环境仅被示意性地示出。如果从虚拟环境100内面对用户的视觉表示110的另一用户的视点来渲染虚拟环境100(也正如图1A中所示的),则另一用户将正面地看到用户10。
在捕获侧,可以通过可以附连到用户的麦克风40来记录用户10的音频。例如,用户10可以佩戴包括麦克风40的头戴式耳机,或者麦克风可以被夹在用户10的衬衫上等。然后,在渲染侧,可以以各种方式渲染所记录的音频。例如,可以简单地“按原样”在扬声器(图1A中未示出)上播放所记录的音频。然后,当另一用户在虚拟环境内面对用户10时,声音方向150将与用户10在虚拟环境100内面对的方向相匹配。可替代地,可以在与在虚拟环境中的视觉表示110的朝向具有固定关系的声音方向上播放所记录的音频。例如,如果视觉表示110是虚拟显示器,则可以在渲染侧将声音方向150选择为垂直于虚拟显示器的表面。
这两种音频渲染技术都存在一个缺点,如图1B中所展示的。即,当用户10在他/她的物理环境中例如向右转向时,视觉表示110可以从用户10的侧面示出他/她。然而,所渲染的音频的声音方向150将保持不变。因此,观看者将体会到用户的面部的朝向(如由用户的视觉表示110所示的)与用户的语音的声音方向150之间的不匹配。实际上,由于麦克风40附连到用户10,因此音频记录的其他特性也没有观看者/收听者可以从中得知用户10正在转向或已经转向的显著的变化。
图2A和图2B类似于图1A和图1B,但示出了在麦克风40被定位在相对于相机的固定位置(例如靠近或附连到相机20)的情形。在这种情况下,当用户10转向时,通过常规(单声道)麦克风记录的音频将改变。例如,声级可能降低,或者用户10的语音可能显得更加含混不清。然而,如图2B中所示的,所渲染的音频的声音方向150仍将保持不变,并且因此与视觉表示110中用户的朝向不匹配。
图3A和图3B类似于图2A和图2B,但示出了在麦克风是高保真立体声麦克风50的情形,例如,如[6]中所描述的。这种麦克风可以记录用户环境中的3D声景或声场,该3D声景或声场可以在渲染侧以3D/环绕声再现,例如,由观看者/收听者周围的多个声音方向160所指示的。如果用户10转向(如图3B中所示的),则声景的再现将正确地反映用户10的变化后的朝向,例如,用户的语音将显得定向到右侧。
然而,除了这种麦克风的增大的成本之外,还存在与高保真立体声麦克风的使用相关联的各种缺点。例如,高保真立体声无法使得音频的渲染可以适应于虚拟环境:可以播放高保真立体声音频,但是如果虚拟环境改变,目前无法或至少很难例如通过添加反射和混响来对其进行调节。
图4A和图4B展示了使用高保真立体声麦克风以及直接再现所记录的声场的另一缺点,虽然这两幅图类似于图3A和图3B,但是示出了在从虚拟环境100内未沿着相机的光轴定位的视点112观看用户的视觉表示的情形。这样的视点112也可以被称为“虚拟”视点,因为可以在虚拟环境内对其进行定义,例如,与虚拟相机相对应。为了便于解释,在图4A和图4B中,虚拟视点112被示出在用户实际环境中,但是实际上表示虚拟环境100中的视点,该视点从侧面面对用户的视觉表示110。图4A的右侧示出了从该视点所见的虚拟环境100,从侧面示出了视觉表示110。在这方面,应该注意,为了使视觉表示110的内容可感知并且示出与相机20原始记录用户10的视角的不同的视角(例如,从侧面而不是从正面),视觉数据及其视觉表示可能需要具有合适的类型,例如被记录和再现为点云或光场。
在图4A中,声场的高保真立体声记录和再现将导致用户10的语音显得定向为朝向观看者,这可能与视觉表示110中的用户的朝向(例如,用户面对右侧)不匹配。同样地,如果用户10朝向虚拟视点112转向(如图4B中),则当适当地记录、处理和再现视觉表示110时,该视觉表示可以正面地示出用户,而用户10的声音方向160现在可能显得定向为朝向左侧。
人类确实使用其听力系统来检测其他人说话的朝向,参见[1]和[2]。因此,在视听多用户通信中,在空间上将音频与视觉匹配是很重要的,例如以获得沉浸感。
发明人设计了以各种方式解决该问题,这通常可能涉及确定用户的面部朝向,从而获得朝向数据并捕获用户的音频。然后可以例如通过将朝向数据传输到渲染侧来使用朝向数据适当地调整音频的渲染。以下首先描述上述步骤的一些通用和特定的选项,而然后参考图5A至图13继续描述各种实施例。
还如本说明书中的其他地方所描述的,可以以各种方式来执行对用户的面部朝向的确定。例如,用于VR的头戴式显示器(HMD)跟踪系统可以用于确定用户的头部朝向,并且从而近似地确定用户的面部朝向,并且例如假设声波的主要发射方向垂直于用户的面部,则从而近似地确定用户语音的方向。在这方面,应该注意,在本说明书中,头部、脸部和语音的方向或朝向可以互换使用。这种头部朝向参数例如由https://developer.oculus.com/ documentation/pcsdk/latest/concepts/dg-sensor/描述。应该注意,例如,出于调整用户在虚拟环境中的视点的目的,可能已经通过这种HMD跟踪系统跟踪了他/她的头部朝向。指示用户的头部/面部朝向的数据因此可能已经是可获得的。
为了捕获用户的音频,可以使用靠近用户的麦克风(例如,如集成在用户的头戴式耳机中的麦克风)、或单独的麦克风(例如,靠近或集成到相机中的麦克风)。麦克风不但可以是常规(单声道)麦克风或麦克风阵列,而且可以是立体声或高保真立体声麦克风。可能优选的是,仅或主要捕获用户的音频,并且避免捕获其他声源。为此,可以使用麦克风阵列(例如微软Kinect,参见http://www.contentmaster.com/kinect/kinect-sdk- beamforming/)和波束成形技术来导出期望的音频。当使用常规麦克风时,朝向数据可以用于处理所捕获的音频,例如以补偿由于用户对他/她的头部进行转向而导致的音频特性的变化。例如,可以均衡声级或频率分布。当在VR环境中播放音频或音频的播放涉及VR环境,并且在VR环境中收听者相对于所捕获的用户的表示不处于与在物理世界中麦克风相对于所捕获的用户类似的位置时,处理所捕获的音频可能是特别重要的。
朝向数据可以以各种方式指定用户的面部/语音方向。例如,可以使用Web AudioAPI,其使用(x,y,z)轴,并且可以使用3个向量(朝向. x、朝向. y和朝向. z)来描述音频源的朝向(例如根据https://developer.mozilla.org/en-US/docs/Web/API/PannerNode),同时还描述音频源的默认“形状”,例如以诸如以下参数来指定音频源的“宽度”如何:圆锥 体内角(coneInnerAngle)、圆锥体外角(coneOuterAngle)圆锥体外增益 (coneOuterGain)
朝向数据可以一次也可以周期性地(例如,对于每个音频样本,以规律的时间间隔、以不规律的时间间隔(例如,在朝向每次(显著)变化时等))生成和/或提供。另外,使用Web Audio API可以定义音频源的位置和速度。当用户在讲话、唱歌等的同时进行移动时,音频源的速度可能是有重大关系的。
可以基于朝向数据以各种方式执行音频渲染。通常,该音频渲染可能涉及将音频数据渲染为具有空间方向的空间音频源,该空间方向与该视觉表示中该用户的面部朝向一致。为此,可以使用如[3]中所描述的技术。在特定示例中,可以例如使用A-Frame在虚拟环境中示出视觉数据,通过此框架可以将视频数据投射在面对观看者的平面上。可以使用例如[3]中描述的技术在与视频平面基本相同的位置处创建音频对象,并赋予该音频对象一定的方向性,例如声音方向。使用[3],这目前仅在Unity中支持在A-Frame中不支持,尽管[3]可用于web/A-Frame,也可用于Omnitone(https://googlechrome.github.io/ omnitone/#home,用于Songbird,参见https://github.com/resonance-audio/resonance- audio-web-sdk)。Web Audio API还允许定义具有方向性的音频对象(其被称为“音锥”),参见https://webaudio.github.io/web-audio-api/#Spatialization。音频的默认正面方向可以与视频平面的放置对准,使得当所捕获的用户直视相机、并因此在视频平面中直视前方时,音频也被定向为直接从该平面中发出。
图5A和5B示出了根据本发明一些实施例的捕获、转换和渲染的功能表示。图5A示出了捕获200,其中麦克风40可用于记录音频,并且跟踪器210用于跟踪/检测用户的头部/面部朝向以及可选地他/她的位置。跟踪器210不但可以是HMD跟踪器,而且可以是允许跟踪用户的头部/面部朝向的任何其他已知类型的跟踪系统。例如,在本领域中已知的是,使用用于面部检测的算法来包括面部朝向(例如,姿势)。此外,相机20可以用于捕获用户的视频数据。所捕获的音频、所捕获的视频以及从跟踪器210获得的跟踪数据可以是在时间上同步的,如本身从媒体同步领域已知的。为了实现这种同步,可以使用校准器240功能来校准跟踪器210与相机20之间的空间关系,例如其相对位置和朝向。变换器220可以例如通过基于跟踪数据(未在图5A中明确示出)来处理音频数据从而可能地对所捕获的音频进行变换。可以通过组合器230将跟踪数据与音频数据组合,该跟踪数据不但可以包括朝向数据,而且可选地包括用户的位置数据和其他跟踪数据。例如,音频数据可以被格式化为音频流,或者与视频数据一起被格式化为视听流,并且朝向数据可以作为元数据被包括在所述流中。然后可以经由接口250将输出传输到一个或多个接收器。应该注意,在上文和下文中,对术语“麦克风”的任何提及都应该被解读为“一个或多个”麦克风(例如,麦克风阵列),并且对术语“相机”的任何提及都应该被解读为包括“一个或多个”相机。
应该注意,音频数据可以在被传送到渲染器之前被转换。例如,所捕获的用户的音频数据可以与其他音频数据一起被变换或转换为高保真立体声信号。这种转换300在图5A和图5B中被示出为是与捕获200和渲染400分开的,因为该转换不但可以由另一实体和/或在另一定位(例如,通过“云”内的云处理)执行,而且可以在捕获侧或渲染侧例如通过执行捕获或渲染的同一系统或装置、或通过与其连接的系统或设备等来执行。
转换300在功能上可以包括输入接口310、转换器320和输出接口340。另外,转换300可以包括编排器330,该编排器的功能可以简要地解释如下:为了将音频数据转换为例如高保真立体声信号,可以使用被捕获用户和收听用户的虚拟位置。这种信息还可以被称为“场景描述”,并且其后还将被进一步描述。编排器330可以获得这种场景描述并且可以相应地配置转换器320。这可能涉及针对各种收听用户以不同方式配置转换器。
图5B示出了渲染400,同时还示出了先前在图5A中示出的转换300,以便指示图5A与图5B之间的关系。渲染400在功能上可以包括输入接口410、音频渲染器420和音频播放设备,例如,(多个)扬声器或头戴式耳机80。在此同样示出了编排器430,该编排器的功能可以解释如下:如果接收到高保真立体声信号,则可以直接播放这种信号,但是可能需要一些信息。例如,如果使用扬声器,则可能需要关于扬声器设置的信息,或者如果使用头戴式耳机,则可能需要收听者的朝向,以便正确地渲染高保真立体声信号。出于获得收听者的朝向的目的,可以如参考捕获器200所描述的使用跟踪器(例如HMD跟踪器)。如将参考图6所描述的,在使用基于对象的音频的情况下,可能需要场景描述,例如,收听者相较于音频对象的位置、说话/所捕获的用户面对的方向、再者是收听者的朝向等。
图6示出了用于记录、处理和再现音频的各种选项,这些选项涉及使用基于对象的音频和/或高保真立体声。圆圈和箭头表示这些选项内的示例案例,其中,标签“A”代表“音频”“O”代表“朝向”,“P”代表位置,指的是在相应情况中的每一种情况下可能需要由捕获侧提供的数据。该位置数据通常可以是虚拟场景的场景描述的一部分,例如,其可以是虚拟环境中的虚拟对象(例如,用户)的位置。
1. 在此,基于对象的音频用于捕获和渲染。这种基于对象的音频可以是指在渲染期间分配给特定对象的音频,并且可以但不需要根据基于对象的音频格式对该音频进行格式化。在[5]中给出了这种格式的示例。然而,例如可以使用附接到用户(诸如,集成在头戴式耳机中)的麦克风,将基于对象的音频记录为“常规”单声道或立体声记录,这些记录的音频数据将在渲染期间被分配给对象。在本发明的上下文中,这种对象的示例是用户的视觉表示。一种特定示例是用户的单声道音频记录,例如,如16位44.1 kHz PCM波形。因此,音频可以被捕获为单声道音频,然后该单声道音频被渲染为具有空间方向的空间音频源。可能无需其他转换。可能仅需要确定用户的朝向(O),以便根据朝向确定空间方向。
2. 在此,音频可以被捕获为基于对象的音频,该基于对象的音频可以例如在云中或在捕获与渲染之间中的其他地方转换为高保真立体声信号。为了能够做到这一点,转换器可能需要所捕获用户的音频数据(A)、朝向(O)和位置(P)、以及场景描述。可选地,如由向上的虚线箭头所示,接收者(例如,观看者/收听者,在下文中也称为“接收用户”)的位置(P-R)也可以是动态的,而不是假设的场景中的静态位置。利用该信息,可以为接收用户创建适当的高保真立体声信号。
3. 在此,可以例如使用上述场景描述并基于所捕获用户的朝向和位置,在捕获侧将通过非高保真立体声麦克风捕获的音频数据转换为高保真立体声信号(A)。与案例2中一样,可选地,可以将接收用户的位置(P-R)从渲染侧供应到捕获侧,以支持动态地定位例如移动的收听者/观看者,如由向上的虚线箭头指示的。因此,在案例3中,捕获侧可以直接使用朝向数据。
4. 在此,可以通过高保真立体声麦克风直接捕获音频数据(A)。另外,可以确定所捕获的用户相对于麦克风的朝向(O)和位置(P)。使用该信息,可以通过虚拟波束成形[7]或类似的技术获得感兴趣对象(例如,用户)的音频,从而获得基于对象的音频,然后可以按照与案例1相同的方式将该基于对象的音频渲染为例如具有空间方向的空间音频源,该空间方向是根据所捕获用户的朝向(O)确定的。
应该注意,图6的示例未穷举,而仅是示出了关于捕获、转换和渲染的各种替代性方案都是可能的。
图7示出了虚拟环境102,在该虚拟环境中,用户A和B被定位成他们的视觉表示114、116与他们的视点位于(虚拟)桌子120的两侧,同时这两个用户坐在(虚拟)座位122、124上。因此,用户A和B在虚拟环境102中相互面对地坐着。用户A的嘴(嘴 = 说话声音的起源)与用户B的耳朵(耳朵 = 声音的目的地)之间的距离可以是1.5m。在该示例中,可以捕获用户A的音频以在用户B的头戴式耳机上渲染。图8示出了用户A的物理捕获环境,其中通过相机20来记录用户A 10,在该相机上可以放置HMD跟踪器30。用户A 10可以佩戴具有麦克风40的头戴式耳机;因此,例如在转动期间麦克风可以与用户一起移动。
可以使用跟踪器30来校准相机20。这可以通过将跟踪器30定位在相机上以便向跟踪器30提供与相机20相同或类似的视点来完成。可能需要配置跟踪器30或相应地处理跟踪数据的另一实体。可替代地,计算机视觉可以用于从由相机20捕获的图像中检测用户的头部朝向。这可以仅仅为了校准相机20与跟踪器30之间的空间关系而进行,或者可以为了检测用户的头部朝向而连续地进行。可替代地,可以在设置阶段期间要求用户A 10直视相机,并且然后按下“确定”按钮、或者说“确定”、或使用任何其他控制接口来提供确认。也可以使用校准相机20和跟踪器30的各种其他方式,并且这些方式本身在相关领域中是已知的。
在该示例中使用的三个轴可以是X(左-右)、Y(下-上)和Z(前-后)。使用右手系统(拇指在轴方向上,然后弯曲的手指示出正转动方向),与这三个轴相关联的三种转动对于X轴可以是俯仰、对于Y轴可以是偏转、对于Y轴可以是滚动。
初始地,跟踪器30可以获得跟踪数据,该跟踪数据包括用户10的位置数据和朝向数据,例如,包括以下值:
位置 =(X, Y, Z)=(0, 0, 0)。
朝向 =(俯仰,偏转,滚动)=(0, 0, 0)
一个非限制性示例是,位置可以以米为单位来表达,而朝向可以以度为单位表达。对于朝向,还存在各种替代性表示,例如四元数表示[8]。同样,位置也可以以不同的方式进行编码,例如通过使用方位角、高程和距离。
图9展示了从捕获到渲染的步骤,这些步骤从捕获用户A进行到在图7的观看环境中渲染用户A的视觉表示并且将他/她的音频渲染为空间音频源。特别地,捕获500可以包括音频捕获502、视频捕获504、以及例如使用图8中所示的跟踪器30来捕获用户的朝向和可选地位置506。朝向数据和位置数据可以作为元数据添加到包括音频数据和/或视频数据的流中,该流可以然后被传输510。应该注意,可能需要使用本身从媒体同步的技术领域已知的例如流间同步技术来同步相应的数据,因为音频数据的播放方向可能需要与所播放的视频中的头部转动对准。然后,该数据可以例如通过播放设备或诸如基于云的处理器系统等另一实体来接收520并渲染530,其中,渲染包括将音频数据渲染为具有空间方向的空间音频源,该空间方向是根据在所捕获的视频中用户的朝向来确定的。
图10示出了用户A 10在捕获环境中相对于图8的情形已经改变的朝向和位置。在此,轴位置值以cm为单位示出,而转动被示出为从0到360的逆时针方向度数。当所捕获的用户的朝向和可选地位置改变时,可以更新朝向数据和可选地位置数据。这可以以各种方式来实施。例如,如果朝向变化超过某个阈值(例如,大于10度),则可以以信号发送新的朝向。朝向也可以作为元数据被连续地添加到音频流。朝向数据的采样率可以被选择为例如匹配视频帧率、或处于较低的速率(例如,每第二、第五或第十帧、或每100 ms、每秒等)。各种其他规律或不规律的更新速率同样是可能的。
在图10的示例中,与图8的情形相比,用户A 10可以向后并向左侧倾斜,例如以允许从他/她的右肩上方看过去,就像人看向自身身后所做的那样。现在,跟踪数据可能指示:
位置 =(X, Y, Z)=(-0.2, 0, 0.2)。
朝向 =(俯仰,偏转,滚动)=(0, 270, 0)
通过对进一步参考朝向数据,该朝向数据可以作为元数据被编码例如到音频数据。在特定示例中,可以使用MPEG-H元数据模型对朝向数据进行编码,参见[4]中的4.2节。可以添加被称为“朝向”的动态元素,该元素可以具有与方位角描述在度数上相同参考朝向。在此,“方位角”可以是指音频对象相对于参考点(例如,收听者的位置)的以度为单位的方向。
MPEG-H 3D音频[9]定义了用于根据所指示的精度使用7位或9位对方位角进行编码的语法。该语法可以重新用于新的朝向元数据字段,该字段可以具有被称为角精度(angularPrecision)的静态参数、以及朝向方向(OrientationDirection)参数,其中,角精度位指示每个位表示5度(角精度 = 0)还是1度(角精度 = 1),朝向方向参数指示顺时针(值为1)或逆时针(值为0)。
因此,可以将270度偏转编码为:
角精度 = 0,朝向方向 = 1,朝向角度索引 = 18
角精度 = 1,朝向方向 = 1,朝向角度索引 = 90
类似于其他参数并且如本领域中已知的,可以将该新参数添加到MPEG-H比特流中的二进制编码的对象元数据中。
在ETSI基于对象的音频[5]中,方位角/半径/高程可以用于如在MPEG-H中那样地对位置进行编码,但是也可以以不同方式进行编码。ETSI将定位定义为结构。可以以类似的方式将朝向定义为单独的结构:
Figure DEST_PATH_IMAGE002
或者作为对位置结构的补充:
Figure DEST_PATH_IMAGE004
这些值对于fOrientation的解释可能与对fAzimuth的解释相同,并且可以定义为朝向 =(fOrientation-2048)*(360/2048),因此覆盖-360度到360度,或者当使用弧度时,定义为朝向 =(fAzimuth-2048)*(2π/2048)。因此,上述270度偏转可以被编码为顺时针90度偏转,从而得出参数值2560。如本领域中已知的,该元数据元素可以被添加到ETSI元数据规范。应该注意,针对朝向,还可以添加上/下头部转动(如在点头“是”时做出的)。例如,如果用户向后仰起他/她的头部或向下弯曲他/她的头部,则可以以类似的方式(例如通过以类似的方式添加属性fOrientationUpwards)将这种朝向的变化添加到元数据。
对朝向进行编码的另一种方式是利用矢量,例如根据Web Audio API(脚注10)使用三个轴X、Y、Z上的值,例如:
朝向X = 1
朝向Y = 0
朝向Z = 0
通常,WebRTC技术可以用于将音频和视频作为媒体流进行流式传输。WebRTC数据通道可以用于单独地供应朝向数据及其更新。可选地,可以包括时间戳以确保元数据与音频和视频流之间的同步。
除了朝向和位置之外,还可以考虑所捕获的用户的速度,因为声源的移动也可能影响声音特性,这些声音特性可以在渲染侧再现。应该注意,速度可能不需要单独测量,而是可以从指示两个或更多个位置及其测量时间的位置数据中计算得到。
如果HMD由外壳中的移动电话组成(例如,与三星Gear VR一样),则罗盘(例如,MEMS磁强计)可以用作跟踪器来检测HMD的朝向并由此检测用户面部的朝向。
测量HMD位置和朝向是对用户头部/面部位置和朝向的指示。然而,所测得的位置通常与确切的嘴位置不对应,这可能是有重大关系的,因为嘴可以被认为是用户在说话时发出的声音的起始点的点。例如可以通过将偏离量应用于从默认头部模型(例如基于平均大小的人类头部)导出的位置数据、或者通过使用计算机视觉来检测相对于HMD位置的实际嘴位置来校正这种不匹配。
通常,在使用朝向数据的多用户通信中涉及的实体可能需要支持朝向数据,其中,支持的类型取决于实体的角色。例如,捕获侧可能需要能够供应朝向数据,而渲染侧可能需要能够处理和使用(“应用”)朝向数据。为此,实体可以在会话建立期间指示其支持。会话建立通常使用会话协议(诸如,SIP)来完成,该会话协议使用SDP来指示所有支持和商定的媒体参数。例如,对支持的指示可以通过添加属性:a = 朝向能力(orientationCapable),或者将该信息作为参数添加到各种基于对象的音频编解码器的音频配置文件中而被添加到音频部分的SDP参数中。以这种方式,会话中的实体可以知道其他实体的能力,并且这可以确保工作的端到端链。当然,如果网络添加了这些能力(例如,通过使用图像分析来添加朝向信息,或者通过音频转换来供应适当的音频方向),则网络可以是该会话协商过程的一部分,例如,通过在会话建立过程中充当代理并添加这些能力。
图11示出了处理器系统600的更详细的视图,该处理器系统可以被配置用于生成用户的增强的视听记录。图11的处理器系统600可以实施如参考图4至图10所描述的“捕获侧”功能的一部分或全部。
处理器系统600被示出为包括到视频捕获设备20的视频接口610,该视频捕获设备可以被配置用于捕获表示用户的视觉记录的视觉数据22。在此,形容词“视频”应该被理解为也包括由点云、网格、光场等表示的视频。视频捕获设备20可以是可见光相机或测距相机,或任何其他类型的视频捕获设备,包括但不限于本说明书中提到的这些。视频捕获设备20还可以包括多个相机。在一些实施例中,视频捕获设备20可以是处理器系统600的一部分。视频接口610可以是例如到内部或外部总线(诸如,通用串行总线(USB))的通信接口,经由该总线可以接收视频数据22。可替代地,视频接口610可以是网络接口,包括但不限于例如基于Wi-Fi、蓝牙、ZigBee、4G移动通信或5G移动通信的无线网络接口,或例如基于以太网或光纤的有线网络接口。在这种情况下,处理器系统600可以经由网络例如从媒体源访问视频数据22。例如,网络接口不但可以是局域网(LAN)网络接口,而且可以是到广域网(WAN)(例如互联网)的网络接口。
处理器系统600进一步被示出为包括到音频捕获设备40的音频接口620,该音频捕获设备可以被配置用于捕获表示用户的音频记录的音频数据52。音频捕获设备40可以是麦克风或麦克风阵列,或任何其他类型的音频捕获设备,包括但不限于本说明书中提到的这些。在一些实施例中,音频捕获设备40可以是处理器系统600的一部分。音频接口620可以具有任何合适的类型,包括针对视频接口610提到的那些类型。
处理器系统600进一步被示出为包括处理器630,该处理器可以例如通过硬件设计或软件被配置为执行参考图4至图10以及与捕获侧有关的其他地方所描述的操作,包括但不限于确定面部朝向和生成朝向数据。例如,处理器630可以由单个中央处理器(CPU)来具体化,但是还可以由这种CPU和/或其他类型的处理单元的组合或系统来具体化。尽管在图11中未示出,但是处理器系统600还可以包括诸如内部存储器、硬盘、固态驱动器或其阵列等的数据存储装置,该数据存储装置可以用于缓冲数据,例如,视频数据22、音频数据42和/或朝向数据。图11将处理器系统600进一步示出为包括通信接口640,该通信接口可以是用于输出视频数据22、音频数据42和/或朝向数据的任何合适类型的接口,包括但不限于存储接口或网络接口。输出可以是例如朝向数据增强的视听流642。
处理器系统600可以由(单个)设备或装置来具体化。例如,处理器系统600可以具体化为智能电话、个人计算机、膝上型计算机、平板设备、游戏控制台、机顶盒、电视、监视器、投影仪、智能手表、智能眼镜、媒体播放器、媒体记录器等。处理器系统600还可以由这种设备或装置的分布式系统来具体化。该分布式系统的示例可以是处理器系统600的功能至少部分地分布在网络中的网络元件上。
图12示出了处理器系统700的更详细的视图,该处理器系统可以被配置用于生成用户的增强的视听记录。图12的处理器系统700可以实施如参考图4至图10以及其他地方所描述的“渲染侧”功能的一部分或全部。
处理器系统700被示出为包括通信接口710,该通信接口可以被配置为接收表示增强的视听记录的数据642,例如,表示用户的视觉记录的视觉数据、表示用户的音频记录的音频数据以及指定表示视听记录中用户的面部朝向的朝向数据。通信接口710可以是用于接收所述数据的任何合适类型的接口,包括但不限于存储器接口或网络接口。
处理器系统700进一步被示出为包括视频处理器720,该视频处理器可以例如通过硬件设计或软件被配置为执行参考图4至图10以及与视频数据的渲染有关的其他地方所描述的操作。在一些实施例中,视频处理器720可以直接生成显示数据62并将该显示数据输出到诸如HMD等的显示器60。在其他实施例中,视频处理器720可以输出所渲染的视频数据,该所渲染的视频数据可以由处理器系统700的另一部分或另一实体输出到显示器。
处理器系统700进一步被示出为包括音频处理器730,该音频处理器可以例如通过硬件设计或软件被配置为执行参考图4至图10以及与音频数据的渲染有关的其他地方所描述的操作。在一些实施例中,音频处理器730可以将扬声器信号82直接输出到例如扩音器或头戴式耳机的扬声器80。在其他实施例中,音频处理器730可以仅输出所渲染的音频数据,该所渲染的音频数据可以由另一部件或实体输出到扬声器80。
视频处理器720和音频处理器730不但可以各自或一起由单个中央处理器(CPU)来具体化,而且可以由这种CPU和/或其他类型的处理单元的组合或系统来具体化。
尽管在图12中未示出,但是处理器系统700还可以包括诸如内部存储器、硬盘、固态驱动器或其阵列等的数据存储装置,该数据存储装置可以用于缓冲数据,例如,所接收的视频数据22、所接收的音频数据42和/或所接收的朝向数据。
处理器系统700可以由(单个)设备或装置来具体化。例如,处理器系统700可以具体化为智能电话、个人计算机、膝上型计算机、平板设备、游戏控制台、机顶盒、电视、监视器、投影仪、智能手表、智能眼镜、媒体播放器、媒体记录器等。处理器系统700还可以由这种设备或装置的分布式系统来具体化。该分布式系统的示例可以是处理器系统700的功能至少部分地分布在网络中的网络元件上。
通常,图11的处理器系统600和图12的处理器系统700可以各自具体化为设备或装置,或在设备或装置中具体化。该设备或装置可以包括执行适当软件的一个或多个(微)处理器。任一系统的处理器可以由这些(微)处理器中的一个或多个来具体化。实施任一系统的功能的软件可能已经被下载和/或存储在相应的一个或多个存储器中,例如,诸如RAM等易失性存储器或诸如闪存等非易失性存储器。可替代地,任一系统的处理器可以以可编程逻辑的形式在设备或装置中实施,例如,作为现场可编程门阵列(FPGA)。任何输入和/或输出接口可以由设备或装置的相应接口(诸如网络接口)实施。通常,任一系统的每个单元可以以电路的形式实施。注意,任一系统还可以以分布式方式实施,例如,涉及不同的设备。
应该注意,在本说明书中描述的任何方法,例如,在任何权利要求中描述的任何方法,可以在计算机上实施为计算机实施的方法、专用硬件、或两者的组合。用于计算机的指令(例如,可执行代码)可以例如以一系列机器可读物理标记的形式和/或作为一系列具有不同电(例如,磁或光)属性或值的元件的形式存储在计算机可读介质上。可执行代码可以以暂态或非暂态的方式存储。计算机可读介质的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。
图13是框图,展示了可以在本说明书中描述的实施例中使用的示例性数据处理系统。这种数据处理系统包括本说明书中描述的数据处理实体,包括但不限于处理器系统、捕获系统或装置、转换系统或装置、渲染系统或装置等。
数据处理系统1000可以包括通过系统总线1006耦合至存储器元件1004的至少一个处理器1002。这样,数据处理系统可以在存储器元件1004内存储程序代码。进一步地,处理器1002可以执行经由系统总线1006从存储器元件1004访问的程序代码。在一方面,数据处理系统可以被实施为适合于存储和/或执行程序代码的计算机。然而,应当理解,数据处理系统1000可以以包括能够执行本说明书中描述的功能的处理器和存储器的任何系统的形式实施。
存储器元件1004可以包括一个或多个物理存储器设备,诸如例如,本地存储器1008和一个或多个大容量存储设备1010。本地存储器可以指在程序代码的实际执行期间通常使用的随机存取存储器或其他(多个)非持久性存储设备。大容量存储设备可以被实施为硬盘驱动器、固态硬盘或其他持久性数据存储设备。数据处理系统1000还可以包括一个或多个高速缓存存储器(未示出),这些高速缓存存储器提供至少一些程序代码的临时存储,以便减少在执行期间必须从大容量存储设备1010检索程序代码的次数。
被描绘为输入设备1012和输出设备1014的输入/输出(I/O)设备可以可选地耦合至数据处理系统。输入设备的示例可以包括但不限于,例如,麦克风、键盘、如鼠标等定点设备、游戏控制器、蓝牙控制器、VR控制器和基于手势的输入设备等。输出设备的示例可以包括但不限于,例如,监视器或显示器、扬声器等。输入设备和/或输出设备可以直接或通过中间I/O控制器耦合至数据处理系统。网络适配器1016还可以耦合至数据处理系统,以使其能够通过中间私有或公共网络耦合至其他系统、计算机系统、远程网络设备和/或远程存储设备。网络适配器可以包括用于接收由所述系统、设备和/或网络传输的数据的数据接收器和用于向所述系统、设备和/或网络传输数据的数据发射器。调制解调器、电缆调制解调器和以太网卡是可以与数据处理系统1000一起使用的不同类型的网络适配器的示例。
如图13中所示的,存储器元件1004可以存储应用1018。应当理解,数据处理系统1000可以进一步执行能够促进应用执行的操作系统(未示出)。以可执行程序代码的形式实施的应用可以由数据处理系统1000(例如,由处理器1002)执行。响应于执行应用,数据处理系统可以被配置为执行将在本文进一步详细描述的一个或多个操作。
在一方面,例如,数据处理系统1000可以表示由标记200、300、400、600或700指示的实体之一,例如,捕获系统或设备、转换系统或设备、渲染系统或设备、或相应的处理器系统。在这种情况下,应用1018可以表示当被执行时配置数据处理系统1000来执行本文参考所述实体所描述的功能的应用。
参考文献
[1] Kato, Hiroaki等, “On the human ability to auditorily perceive human speaker's facing angle [关于人类以听觉感知说话人的面对角度的能力]”,Universal Communication Symposium (IUCS), 2010 4th International. IEEE, 2010.
[2] Edlund,Jens,Mattias Heldner和Joakim Gustafson, “On the effect of the acoustic environment on the accuracy of perception of speaker orientation from auditory cues alone [声学环境对仅根据听觉提示来感知说话者朝向的准确性的影响]”, 13th Annual Conference of the International Speech CommunicationAssociation 2012, INTERSPEECH 2012, Curran Associates, Inc [柯伦盖尔公司],2012.
[3] https://developers.google.com/vr/concepts/spatial-audio
[4] Fueg, Simone等, “Design, coding and processing of metadata for object-based interactive audio [对基于对象的交互式音频的元数据的设计、编码和处理]”, Audio Engineering Society Convention 137 [音频工程学会公约137], AudioEngineering Society [音频工程学会], 2014.
[5] ETSI TS 103223 V1.1.1(2015-04), MDA; Object-Based Audio ImmersiveSound Metadata and Bitstream [基于对象的音频沉浸式声音元数据和比特流].
[6] Rafaely, Boaz等, “Spherical microphone array beamforming [球形麦克风阵列波束成形]”, Speech Processing in Modern Communication, SpringerBerlin Heidelberg, 2010, 281-305页.
[7] Ortolani, F和Uncini, A (2016年4月), A new approach to acousticbeamforming from virtual microphones based on Ambisonics for adaptive noisecancelling [基于高保真立体声的用于自适应噪声消除的从虚拟麦克风的声波束成形的新方法,], Electronics and Nanotechnology (ELNANO), 2016 IEEE 36thInternational Conference on (337-342页), IEEE.
[8] Bajd T,Mihelj M & Munih M (2013), Introduction to robotics[机器人技术概论], Springer Science & Business Media [施普林格科学 & 商业媒体].
[9] ISO/IEC 23008-3: 2015/Amd 3: 2017,MPEG-H 3D音频第2阶段。
在权利要求中,置于括号间的任何附图标记不应被解释为限制权利要求。动词“包括(comprise)”及其词形变化的使用不排除权利要求中所述的元件或步骤之外的元件或步骤的存在。元件前面的冠词“一个(a)”或“一种(an)”不排除存在多个这种元件。本发明可以通过包括若干不同元件的硬件以及通过适当编程的计算机来实施。在列举了若干装置的设备权利要求中,这些装置中的若干装置可以由同一个硬件项具体化。在相互不同的从属权利要求中陈述某些措施这一事实,并不表示不能有利地使用这些措施的组合。

Claims (15)

1.一种渲染用户的视听记录的方法,该方法包括:
- 接收表示该用户的视觉记录的视觉数据;
- 接收表示该用户的音频记录的音频数据;
- 获得指定朝向的朝向数据,
其中,渲染该视听记录包括:
- 渲染该视觉数据,以在显示器上建立该用户的视觉表示;
其特征在于,所述朝向表示在所述视听记录中所述用户的面部朝向;以及,
基于该朝向数据,将该音频数据渲染为具有空间方向的空间音频源,该空间方向与该视觉表示中该用户的面部朝向一致。
2.根据权利要求1所述的方法,其中,渲染该视听记录包括:
- 在虚拟环境中渲染该视觉数据,以在该虚拟环境内建立该用户的视觉表示;以及
- 将该音频数据渲染为该虚拟环境中的具有空间位置的空间音频源,该空间位置与该虚拟环境中该用户的该视觉表示的空间位置一致。
3.根据权利要求1或2所述的方法,其中,
- 该朝向数据进一步指示该用户在该视觉表示的空间轮廓内的相对位置;并且
- 渲染该空间音频源包括确定该空间音频源相对于该用户的视觉表示的空间位置,该空间位置与该用户的所述相对位置一致。
4.根据权利要求1或2所述的方法,其中,将该音频渲染为空间音频源包括使用以下技术:
- 包括高保真立体声的环绕声场再现技术;或者
- 基于对象的音频渲染技术。
5.一种生成用户的增强视听记录的方法,该方法包括:
- 通过以下操作来获得该用户的视听记录:
捕获表示该用户的视觉记录的视觉数据;
捕获表示该用户的音频记录的音频数据;
生成朝向数据;
其特征在于:
- 确定该视听记录中该用户的面部朝向;
- 所述朝向数据指定表示所确定的面部朝向的朝向;
- 将音频数据编码为空间音频数据,其中所述用户的音频记录由空间音频源表示,其中,该空间音频源的空间方向与该视觉表示中该用户的面部朝向一致。
6.根据权利要求5所述的方法,进一步包括以下操作中的至少一项:
- 将该朝向数据与该音频数据相关联,或使得该朝向数据能够与该音频数据相关联;
- 生成使得该朝向数据能够与该音频数据在时间上同步的同步数据;以及
- 生成包括该视觉数据、该音频数据和该朝向数据的视听流。
7.根据权利要求6所述的方法,其中,所述视听流还包括所述同步数据。
8.根据权利要求5、6或7任一项所述的方法,进一步包括:
- 基于所确定的面部朝向来处理该音频数据,其中,所述处理包括补偿由于面部朝向的变化而导致的音频特性的变化。
9.根据权利要求8所述的方法,其中,所述音频特性的变化包括声级的降低或者一个或多个频率分量的衰减。
10.根据权利要求5、6或7任一项所述的方法,其中,确定该视听记录中该用户的面部朝向包括以下操作中的至少一项:
- 使用图像分析或计算机视觉技术来分析该视觉数据,以根据该视觉记录来确定该用户的面部朝向;以及
- 在该用户的环境中跟踪该用户的面部朝向。
11.根据权利要求10所述的方法,其中,使用由该用户佩戴的头戴式显示器中的朝向传感器来在该用户的环境中跟踪该用户的面部朝向。
12.一种计算机可读介质,其上存储有计算机程序,所述计算机程序包括用于使处理器系统执行根据权利要求1至11中任一项所述的方法的指令。
13.一种用于渲染用户的视听记录的处理器系统,该处理器系统包括:
- 通信接口,该通信接口被配置为接收:
表示该用户的视觉记录的视觉数据;
表示该用户的音频记录的音频数据;
指定朝向的朝向数据;
- 视频处理器,该视频处理器被配置为渲染该视觉数据,以在显示器上建立该用户的视觉表示;以及
- 音频处理器,
其特征在于,该朝向表示该视听记录中该用户的面部朝向,以及在于该音频处理器被进一步配置为基于该朝向数据,将该音频数据渲染为具有空间方向的空间音频源,该空间方向与该视觉表示中该用户的面部朝向一致。
14.一种用于生成用户的增强视听记录的处理器系统,该处理器系统包括:
- 到视频捕获设备的视频接口,该视频捕获设备被配置用于捕获表示该用户的视觉记录的视觉数据;
- 到音频捕获设备的音频接口,该音频捕获设备被配置用于捕获表示该用户的音频记录的音频数据;以及
- 处理器,该处理器被配置为:生成朝向数据,
其特征在于所述处理器进一步被配置为:
确定该视听记录中该用户的面部朝向;
所述朝向数据指定表示所确定的面部朝向的朝向;
- 将所述音频数据编码为空间音频数据,其中所述用户的音频记录由空间音频源表示,其中,该空间音频源的空间方向与该视觉表示中该用户的面部朝向一致。
15.一种计算机可读介质,其上存储有用户的视听记录的朝向数据和同步数据,其中所述视听记录包括用户的音频记录和视频记录,该朝向数据指定表示该视听记录中该用户的面部朝向的朝向,
其中,所述朝向数据进一步指示所述用户在所述视频记录的空间轮廓内的相对位置,并且同步数据使所述朝向数据能够与所述视听记录在时间上同步。
CN201880081100.8A 2017-12-19 2018-12-19 用于渲染用户的视听记录的方法,处理器系统和计算机可读介质 Active CN111466124B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17208498 2017-12-19
EP17208498.0 2017-12-19
PCT/EP2018/085759 WO2019121864A1 (en) 2017-12-19 2018-12-19 Enhanced audiovisual multiuser communication

Publications (2)

Publication Number Publication Date
CN111466124A CN111466124A (zh) 2020-07-28
CN111466124B true CN111466124B (zh) 2022-04-15

Family

ID=60674005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880081100.8A Active CN111466124B (zh) 2017-12-19 2018-12-19 用于渲染用户的视听记录的方法,处理器系统和计算机可读介质

Country Status (4)

Country Link
US (1) US11082662B2 (zh)
EP (1) EP3729829A1 (zh)
CN (1) CN111466124B (zh)
WO (1) WO2019121864A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11082662B2 (en) 2017-12-19 2021-08-03 Koninklijke Kpn N.V. Enhanced audiovisual multiuser communication
CN112335264B (zh) * 2018-04-24 2022-09-06 弗劳恩霍夫应用研究促进协会 用于呈现用于向用户回放的音频信号的装置和方法
EP3588926B1 (en) * 2018-06-26 2021-07-21 Nokia Technologies Oy Apparatuses and associated methods for spatial presentation of audio
US11304021B2 (en) * 2018-11-29 2022-04-12 Sony Interactive Entertainment Inc. Deferred audio rendering
EP3787319A1 (en) * 2019-09-02 2021-03-03 Nokia Technologies Oy Rendering 2d visual content related to volumetric audio content
GB201914665D0 (en) * 2019-10-10 2019-11-27 Nokia Technologies Oy Enhanced orientation signalling for immersive communications
JP7467074B2 (ja) * 2019-11-05 2024-04-15 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
CN110989831B (zh) * 2019-11-15 2021-04-27 歌尔股份有限公司 音频设备的控制方法、音频设备及存储介质
CN113767432A (zh) * 2020-06-29 2021-12-07 深圳市大疆创新科技有限公司 音频处理方法、音频处理装置、电子设备
CN112261337B (zh) * 2020-09-29 2023-03-31 上海连尚网络科技有限公司 一种在多人语音中播放语音信息的方法与设备
US11470162B2 (en) * 2021-01-30 2022-10-11 Zoom Video Communications, Inc. Intelligent configuration of personal endpoint devices
CN114020235B (zh) * 2021-09-29 2022-06-17 北京城市网邻信息技术有限公司 实景空间中的音频处理方法、电子终端及存储介质
US20230143473A1 (en) * 2021-11-11 2023-05-11 Apple Inc. Splitting a Voice Signal into Multiple Point Sources
CN114598984B (zh) * 2022-01-11 2023-06-02 华为技术有限公司 立体声合成方法和系统
WO2023150486A1 (en) * 2022-02-01 2023-08-10 Dolby Laboratories Licensing Corporation Gesture controlled audio and/or visual rendering
CN115550600A (zh) * 2022-09-27 2022-12-30 阿里巴巴(中国)有限公司 识别音频数据声音来源的方法、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1860504A (zh) * 2003-09-30 2006-11-08 皇家飞利浦电子股份有限公司 用于视听内容合成的系统和方法
CN102859584A (zh) * 2009-12-17 2013-01-02 弗劳恩霍弗实用研究促进协会 用以将第一参数式空间音频信号转换成第二参数式空间音频信号的装置与方法
WO2015039239A1 (en) * 2013-09-17 2015-03-26 Société Des Arts Technologiques Method, system and apparatus for capture-based immersive telepresence in virtual environment
EP3255904A1 (en) * 2016-06-07 2017-12-13 Nokia Technologies Oy Distributed audio mixing

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6017854B2 (ja) 2011-06-24 2016-11-02 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
US10028071B2 (en) * 2016-09-23 2018-07-17 Apple Inc. Binaural sound reproduction system having dynamically adjusted audio output
US11082662B2 (en) 2017-12-19 2021-08-03 Koninklijke Kpn N.V. Enhanced audiovisual multiuser communication

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1860504A (zh) * 2003-09-30 2006-11-08 皇家飞利浦电子股份有限公司 用于视听内容合成的系统和方法
CN102859584A (zh) * 2009-12-17 2013-01-02 弗劳恩霍弗实用研究促进协会 用以将第一参数式空间音频信号转换成第二参数式空间音频信号的装置与方法
WO2015039239A1 (en) * 2013-09-17 2015-03-26 Société Des Arts Technologiques Method, system and apparatus for capture-based immersive telepresence in virtual environment
EP3255904A1 (en) * 2016-06-07 2017-12-13 Nokia Technologies Oy Distributed audio mixing

Also Published As

Publication number Publication date
CN111466124A (zh) 2020-07-28
US20200382747A1 (en) 2020-12-03
EP3729829A1 (en) 2020-10-28
US11082662B2 (en) 2021-08-03
WO2019121864A1 (en) 2019-06-27

Similar Documents

Publication Publication Date Title
CN111466124B (zh) 用于渲染用户的视听记录的方法,处理器系统和计算机可读介质
CN109906616B (zh) 用于确定一或多个音频源的一或多个音频表示的方法、系统和设备
JP6799141B2 (ja) 空間化オーディオを用いた複合現実システム
US11055057B2 (en) Apparatus and associated methods in the field of virtual reality
US11089425B2 (en) Audio playback method and audio playback apparatus in six degrees of freedom environment
TW201830380A (zh) 用於虛擬實境,增強實境及混合實境之音頻位差
US20140328505A1 (en) Sound field adaptation based upon user tracking
JP2019533404A (ja) バイノーラルオーディオ信号処理方法及び装置
JP2015530824A (ja) オブジェクトに基づくオーディオのための反射音レンダリング
US20150189455A1 (en) Transformation of multiple sound fields to generate a transformed reproduced sound field including modified reproductions of the multiple sound fields
JP7170069B2 (ja) オーディオ装置及びその動作方法
US11721355B2 (en) Audio bandwidth reduction
US20220225050A1 (en) Head tracked spatial audio and/or video rendering
CN111492342B (zh) 音频场景处理
TW201923745A (zh) 用於電腦媒介實境系統之成像
US10788888B2 (en) Capturing and rendering information involving a virtual environment
US11102604B2 (en) Apparatus, method, computer program or system for use in rendering audio
US20230283976A1 (en) Device and rendering environment tracking
US20230254660A1 (en) Head tracking and hrtf prediction
GB2568726A (en) Object prioritisation of virtual content
RU2797362C2 (ru) Аудиоустройство и способ его работы
WO2023150486A1 (en) Gesture controlled audio and/or visual rendering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant