CN116888983A - 音频数据的处理 - Google Patents

音频数据的处理 Download PDF

Info

Publication number
CN116888983A
CN116888983A CN202280012168.7A CN202280012168A CN116888983A CN 116888983 A CN116888983 A CN 116888983A CN 202280012168 A CN202280012168 A CN 202280012168A CN 116888983 A CN116888983 A CN 116888983A
Authority
CN
China
Prior art keywords
user
audio data
sound
orientation
predetermined gesture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280012168.7A
Other languages
English (en)
Inventor
J·A·利帕南
A·J·勒蒂涅米
L·J·拉克索南
M·T·维勒莫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN116888983A publication Critical patent/CN116888983A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Abstract

公开了一种装置、方法和计算机程序。该装置可以包括用于提供音频数据以向用户设备输出的部件,该音频数据表示虚拟空间,该虚拟空间包括位于虚拟空间内相应的空间位置的多个声音,该多个声音分别与多个声源相关联。该装置还可以包括用于以下的部件:检测与用户相关联的预定姿势,该用户将多个声源中的一个声源标识为感兴趣的声源;确定在虚拟空间中在检测到预定姿势时用户的位置和感兴趣的声源的位置之间的定向向量;以及处理该音频数据,使得当向用户设备输出时,至少在该定向向量的方向上的声音被修改。

Description

音频数据的处理
技术领域
示例实施例涉及一种用于处理音频数据的装置、方法和计算机程序,例如空间音频数据的处理,该空间音频数据可以表示虚拟空间内相应的空间位置处的多个声音。
背景技术
空间音频可以是指具有空间感知的音频,使得当通过音频输出换能器(诸如耳机、头戴式耳机或扬声器)听到时,不同的声音可以被感知为来自虚拟空间中的不同位置。
例如,高保真立体声是一种空间音频格式,其中来自真实世界声源的声音可以由麦克风阵列捕捉,捕捉到的声音被表示在空间音频数据中,其中相应的方向分量指示特定的声音相对于麦克风阵列来自何处。
空间音频可作为虚拟现实(VR)系统的一部分提供,VR系统可在消费阶段为用户探索提供虚拟空间。虚拟空间可以是任何的计算机生成的版本的空间(例如,所捕捉的真实世界空间),用户可以通过用户设备沉浸其中。用户设备可以具有一对显示器和/或一对音频输出换能器,例如耳机、头戴式耳机或扬声器。VR头戴式装置就是这种背景下的用户设备的一个示例。
发明内容
本发明的各种实施例所寻求的保护范围由独立权利要求阐述。在本说明书中描述的未落入独立权利要求的范围内的实施例和特征(如果有的话)将被解释为有助于理解本发明的各种实施例的示例。
根据第一方面,本说明书描述了一种装置,包括用于执行以下的部件:
提供音频数据以向用户设备输出,该音频数据表示虚拟空间,该虚拟空间包括位于虚拟空间内相应的空间位置的多个声音,该多个声音分别与多个声源相关联;检测与用户相关联的预定姿势,该用户将多个声源中的一个声源标识为感兴趣的声源;确定在虚拟空间中在检测到预定姿势时用户的位置和感兴趣的声源的位置之间的定向向量;以及处理该音频数据,使得当向用户设备输出时,至少在该定向向量的方向上的声音被修改。
被修改的声音可以包括一个或多个声音。
处理部件可以被配置为随着用户的位置改变而修改声音。
该装置可以还包括用于在定向向量的方向上生成定向波束图案的部件,处理部件通过修改与定向波束图案相对应的音频数据来处理该音频数据。
该装置可以还包括用于确定用户在虚拟空间中的位置与感兴趣的声源的位置之间的距离的部件,并且其中所生成的定向波束图案被配置为具有取决于所确定的距离的波束宽度。所生成的定向波束图案的波束宽度可以随着所确定的距离的变小而变大。波束宽度可以还取决于检测到的预定姿势的持续时间。
音频数据可以由球形麦克风阵列捕捉。
处理部件可以被配置为修改音频数据,使得增大与定向向量的方向上的声音相关联的增益。
处理部件可以被配置为修改音频数据,使得减小与定向向量的方向上的声音相关联的扩散。
修改的量可以还取决于检测到的预定姿势的持续时间。
检测部件可以被配置为响应于检测到用户的身体的至少一部分的朝向的改变而检测预定姿势。
该装置可以还包括用于确定用户的头部的朝向的部件,其中检测部件可以被配置为响应于检测到用户的头部的朝向的改变超过预定的第一角度阈值而检测预定姿势。
该装置可以还包括用于确定用户的上半身相对于用户的下半身的朝向的部件,其中检测部件被配置为响应于还检测到上半身相对于下半身的朝向的改变超过指示向下倾斜运动的预定的第二角度阈值而检测预定姿势。
音频数据可以与视频数据相关联以向用户设备输出,视频数据表示虚拟空间的至少一部分,其中检测部件可以还被配置为在用户的头部的改变后的朝向对应于用户观看由视频数据表示的视觉对象的情况下,不检测预定姿势。
检测部件可以被配置为响应于检测到用户的身体的一部分的改变后的朝向在至少预定的时间段保持而检测预定姿势。
定向向量可以基于检测到预定姿势之后用户的身体的部分的位置而被确定。
该装置可以还包括用于确定用户的耳朵的位置的部件,并且其中定向向量被确定为从用户的耳朵向外延伸。用户的耳朵的位置可以包括随着预定姿势的向下倾斜运动而向下移动的耳朵的位置。
所提供的音频数据可以是高保真立体声格式或另一种环绕声音或空间声音格式,其中用户的平移移动不会在向用户设备输出时修改与声音相关联的增益。
根据第二方面,本说明书描述了一种方法,包括:提供音频数据以向用户设备输出,该音频数据表示虚拟空间,该虚拟空间包括位于虚拟空间内相应的空间位置的多个声音,该多个声音分别与多个声源相关联;检测与用户相关联的预定姿势,该用户将多个声源中的一个声源标识为感兴趣的声源;确定在虚拟空间中在检测到预定姿势时用户的位置和感兴趣的声源的位置之间的定向向量;以及处理该音频数据,使得当向用户设备输出时,至少在该定向向量的方向上的声音被修改。
被修改的声音可以包括一个或多个声音。
该方法还可以包括随着用户的位置改变而修改声音。
该方法还可以包括在定向向量的方向上生成定向波束图案,通过修改与定向波束图案相对应的音频数据来处理该音频数据。
该方法还可以包括确定用户在虚拟空间中的位置与感兴趣的声源的位置之间的距离,并且其中所生成的定向波束图案被配置为具有取决于所确定的距离的波束宽度。所生成的定向波束图案的波束宽度可以随着所确定的距离的变小而变大。波束宽度可以还取决于检测到的预定姿势的持续时间。
音频数据可以由球形麦克风阵列捕捉。
处理可以修改音频数据,使得增大与定向向量的方向上的声音相关联的增益。
处理可以修改音频数据,使得减小与定向向量的方向上的声音相关联的扩散。
修改的量可以还取决于检测到的预定姿势的持续时间。
检测预定姿势可以响应于检测到用户的身体的至少一部分的朝向的改变。预定姿势可以响应于检测到用户的头部的朝向的改变超过预定的第一角度阈值而被检测到。
该方法还可以包括确定用户的上半身相对于用户的下半身的朝向,其中检测可以响应于还检测到上半身相对于下半身的朝向的改变超过指示向下倾斜运动的预定的第二角度阈值。
音频数据可以与视频数据相关联以向用户设备输出,视频数据表示虚拟空间的至少一部分,其中在用户的头部的改变后的朝向对应于用户观看由视频数据表示的视觉对象的情况下,可以不检测预定姿势。
预定姿势可以响应于检测到用户的身体的一部分的改变后的朝向在至少预定的时间段保持而被检测到。
定向向量可以基于检测到预定姿势之后用户的身体的部分的位置而确定。
该方法还可以包括确定用户的耳朵的位置,并且其中定向向量被确定为从用户的耳朵向外延伸。用户的耳朵的位置可以包括随着预定姿势的向下倾斜运动而向下移动的耳朵的位置。
所提供的音频数据可以是高保真立体声格式或另一种环绕声音或空间声音格式,其中用户的平移移动不会在向用户设备输出时修改与声音相关联的增益。
根据第三方面,本说明书描述了一种计算机程序,该计算机程序包括用于使装置执行至少以下的指令:提供音频数据以向用户设备输出,该音频数据表示虚拟空间,该虚拟空间包括位于虚拟空间内相应的空间位置的多个声音,该多个声音分别与多个声源相关联;检测与用户相关联的预定姿势,该用户将多个声源中的一个声源标识为感兴趣的声源;确定在虚拟空间中在检测到预定姿势时用户的位置和感兴趣的声源的位置之间的定向向量;以及处理该音频数据,使得当向用户设备输出时,至少在该定向向量的方向上的声音被修改。
第三方面的示例实施例也可以提供第二方面的任何特征。
根据第四方面,本说明书描述了一种计算机可读介质(诸如非瞬态计算机可读介质),其包括存储在其上的程序指令,该程序指令用于执行至少以下:提供音频数据以向用户设备输出,该音频数据表示虚拟空间,该虚拟空间包括位于虚拟空间内相应的空间位置的多个声音,该多个声音分别与多个声源相关联;检测与用户相关联的预定姿势,该用户将多个声源中的一个声源标识为感兴趣的声源;确定在虚拟空间中在检测到预定姿势时用户的位置和感兴趣的声源的位置之间的定向向量;以及处理该音频数据,使得当向用户设备输出时,至少在该定向向量的方向上的声音被修改。
根据第五方面,本说明书描述了一种装置,包括:至少一个处理器;以及包括计算机程序代码的至少一个存储器,当该计算机程序代码被至少一个处理器执行时,使该装置:提供音频数据以向用户设备输出,该音频数据表示虚拟空间,该虚拟空间包括位于虚拟空间内相应的空间位置的多个声音,该多个声音分别与多个声源相关联;检测与用户相关联的预定姿势,该用户将多个声源中的一个声源标识为感兴趣的声源;确定在在虚拟空间中检测到预定姿势时用户的位置和感兴趣的声源的位置之间的定向向量;以及处理该音频数据,使得当向用户设备输出时,至少在该定向向量的方向上的声音被修改。
附图说明
现在将参考附图,以非限制性示例的方式描述示例实施例,其中:
图1是虚拟现实系统的透视图;
图2是包括图1的虚拟现实系统的网络的示意图;
图3是虚拟现实捕捉场景的示意性俯视平面图;
图4A和图4B是图示了虚拟现实内容在相应的第一时间和第二时间的消费阶段的示意性俯视平面图;
图5是示出了根据一些示例实施例的处理操作的流程图;
图6是根据一些示例实施例的执行可以被检测到的姿势的用户的示意性侧视图;
图7是根据一些示例实施例的执行可以被检测到的不同姿势的用户的示意性侧视图;
图8A是根据一些示例实施例的用于指示波束的确定的用户的示意性俯视平面图;
图8B是根据一些示例实施例的用于指示较宽波束的确定的用户的示意性俯视平面图;
图9是根据一个或多个示例实施例的可以被配置的装置的示意图;以及
图10是根据一些示例实施例的非瞬态介质的平面图。
具体实施方式
示例实施例涉及用于处理音频数据的方法、计算机程序和装置,例如处理可以表示虚拟空间的音频数据,该虚拟空间包括虚拟空间内相应的空间位置处的多个声音。因此,该音频数据可以是空间音频数据。
空间音频数据可以伴随或不伴随视频数据,例如表示视频内容的视频数据,该视频内容包括位于虚拟空间内相应的空间位置处的一个或多个声源的图像。
因此,示例实施例可以涉及扩展现实(XR)方法和装置,例如虚拟现实(VR)、增强现实(AR)和/或混合现实(MR)方法和装置。
示例实施例将关注VR系统和方法,但应当理解的是,实施例适用于任何涉及处理具有空间感知的音频的系统或方法,使得不同的声音可以被收听用户感知为从虚拟“收听”空间中的不同位置发出以向用户设备输出。
例如,如上所述,高保真立体声是一种空间音频格式,其中来自声源的声音可以由球形麦克风阵列捕捉,并且所捕捉的声音可以在所得的音频数据中表示为来自相对于球形麦克风阵列的空间方向。
图1是表示用户端设备的VR系统1的示意性图示。VR系统1包括用于输出虚拟空间的视频和音频数据的VR头戴式装置(headset)20的形式的用户设备,以及用于在VR头戴式装置20处渲染视频和音频数据的VR媒体播放器10。VR头戴式装置20可以包括两个用于显示视频数据的视频屏幕和两个用于输出音频数据的音频输出换能器,例如耳机、头戴式耳机或扬声器。
在一些示例实施例中,单独的用户控制器(未示出)可以与VR系统1相关联,例如手持控制器。
在本说明书的上下文中,虚拟空间可以是任何空间的计算机生成的版本,例如,用户可以沉浸其中的所捕捉的真实世界空间。在一些示例实施例中,虚拟空间可以是完全由计算机生成的,即,不是捕捉的。VR头戴式装置20可以是任何合适的类型。VR头戴式装置20可以被配置为通过上述视频屏幕和音频输出换能器向用户提供VR视频和音频数据。由此,用户可以沉浸在虚拟空间中,并且可以通过移动探索虚拟空间。
VR头戴式装置20可以从VR媒体播放器10接收视频和音频数据。
VR媒体播放器10可以是独立设备的一部分,该独立设备通过有线或无线连接被连接到VR头戴式装置20。例如,VR媒体播放器10可以包括被配置为将视频和音频数据传送至VR头戴式装置20的游戏控制台、个人电脑(PC)、膝上型计算机或平板计算机。
备选地,VR媒体播放器10可以构成VR头戴式装置20的一部分。
VR系统1可以包括用于确定用户的位置的部件。用户的位置可以包括用户的空间位置和/或用户或用户的身体的一部分的朝向。
例如,VR系统1可以被配置为通过确定VR头戴式装置20的空间位置来确定用户的空间位置。因此,在连续的时间范围内,可以基于VR头戴式装置20的不同的空间位置来确定移动的度量。
例如,VR头戴式装置20可以包括运动跟踪传感器,该运动跟踪传感器可以包括一个或多个陀螺仪、加速度计和结构光系统。备选地或附加地,VR头戴式装置20可以包括定位接收器,诸如全球导航卫星系统(GNSS)接收器和/或另一定位系统(诸如WiFi定位接收器或蜂窝定位接收器,其基于例如到达角度(AoA)、到达时间(ToA)和/或接收信号强度指示(RSSI)信息进行操作)。
用户的空间位置和移动也可以使用一个或多个摄像机来确定,该摄像机被配置为检测和跟踪用户移动,其可能与用户携带的或放置在VR头戴式装置20上的一个或多个标记器或传感器相结合来检测和跟踪用户移动。
VR系统1还可以包括用于确定用户的身体的一部分的朝向(例如用户的头部的朝向)的部件。这也可以通过使用例如上述运动跟踪传感器确定VR头戴式装置20的朝向来确定。因此,在连续的时间范围内,也可以确定用户的头部的朝向的改变的度量,例如以标识旋转改变的量。
用户的头部的朝向还可以使用一个或多个摄像机来确定,该摄像机被配置为检测和跟踪头部朝向,其可能与用户携带的或放置在VR头戴式装置20上的一个或多个标记器或传感器相结合来检测和跟踪头部朝向。
VR系统1还可以包括用于确定用户的身体的一部分相对于用户的身体的另一部分的朝向的部件。
例如,VR系统1可以确定用户的上半身部分(例如躯干)相对于下半身部分(例如腿)的朝向。这可以使VR系统1能够基于检测到的上半身朝向相对于下半身朝向的改变来标识例如向下倾斜运动。
用户的上半身相对于下半身的朝向也可以使用一个或多个摄像机来确定,该摄像机被配置为检测和跟踪上半身和下半身部分,其可能与用户携带的一个或多个标记器或传感器相结合来检测和跟踪上半身和下半身部分。
确定用户的空间位置及其头部朝向使VR系统1能够跟踪用户,例如以确定当前的可视视场(FOV),该可视视场可以确定经由VR头戴式装置20向用户输出哪些视频和音频数据。如下所述,确定用户的空间位置和/或其他移动(例如,朝向改变和个体身体部分的移动)也使VR系统1能够确定用户的姿势,该姿势可以与执行某些操作的预定姿势相对应。
表示用户的空间位置、用户的身体的部分的朝向和/或用户的身体的部分的位置的数据,或可从中得出的数据,在本文中可被称为位置或定位数据。
图1指示了俯仰22、侧倾23和偏航24的相应的朝向,以及在欧几里得空间中沿左右、前后和上下轴线25、26、27的平移移动。这些表示所谓的六个自由度(6DoF),用户在探索或消费由视频和音频数据表示的虚拟空间时,可以改变该六个自由度。
参考图2,内容提供方30可以存储和(例如通过流传输)发送表示特定虚拟空间的视频和音频数据,以向VR头戴式装置20输出。响应于接收或下载由VR媒体播放器10发送的请求,内容提供方30可以通过网络40对视频和音频数据进行流传输,网络40可以是任何网络,例如,IP网络(诸如互联网)。
远程内容提供方30可以位于或不位于视频和音频数据被捕捉、创建和/或处理的位置或系统。
出于说明的目的,可以假设内容提供方30也对视频和音频数据进行捕捉、编码和存储,并响应于来自VR系统1的信号对其进行流传输。
参考图3,示出了示例VR捕捉场景31的概览。该VR示例捕捉场景31假设视频和音频数据均被捕捉,但是应当理解的是,实施例适用于仅音频捕捉。
图3以平面图的方式示出了真实世界空间33,其可以是例如包括多棵树木34的户外空间(诸如森林)。
用于视频和音频捕捉的VR捕捉设备35可以被支撑在真实世界空间33的一个或多个物体前面的地板上,除树木34以外,该一个或多个物体可以包括真实世界的声源(例如物体),该真实世界声源包括第一声源、第二声源、第三声源和第四声源36A、36B、36C和36D。
声源可以是在VR捕捉设备35进行音频捕捉期间产生声音的任何物体,例如真实世界的物体。第一声源至第四声源36A至36D可以是静态物体或可以随时间移动的物体。例如,第一声源36A可以是鸟鸣,第二声源36B可以是风吹树叶沙沙作响,第三声源36C可以是熊咆哮,第四声源36D可以是狼嚎。
VR捕捉设备35可以包括至少一个摄像机和麦克风阵列,其中在VR捕捉设备的主体上提供个体摄像机和个体麦克风元件。该个体摄像机和个体麦克风可以具有朝向真实世界空间33的相应的朝向或方向。由此,每个个体摄像机可以捕捉真实世界空间33的特定部分(或视频数据集),并且类似地,每个个体麦克风元件可以从其指向的真实世界空间的特定部分或波束捕捉声音。
例如,VR捕捉设备35可以是球形捕捉设备,其中阵列的个体摄像机和个体麦克风元件具有围绕VR捕捉设备的球形表面的相应的朝向/方向,该朝向/方向通常从VR捕捉设备的中心位置向外突出。
在图3中,附图标记37指示特定的摄像机和麦克风元件在VR捕捉设备35上的位置。应当理解的是,摄像机和麦克风元件可以使用不同的位置。
已知的球形捕捉设备的示例包括MG声学有限责任公司的“EigenMike”(仅音频)和诺基亚的“OZO”摄像机(视频和音频)。
VR捕捉设备35可以经由数据线38向VR编码和存储系统32提供所捕捉的视频和音频数据。VR编码和存储系统32可以使用任何合适的格式对视频和音频数据进行编码。例如,可以使用移动图像专家组(MPEG)-1标准对视频数据进行编码,并且可以使用空间音频格式(诸如上述高保真立体声音频格式或高阶高保真立体声(HOA)格式)对音频数据进行编码。
经编码的视频和音频数据可以存储在存储设备39上,存储设备39可以位于VR编码和存储系统32的内部或外部。存储设备39可以是任何合适形式的存储器,诸如以下示例中给出的存储器。
VR处理系统41也可以与内容提供方30相关联。
VR处理系统41可以被配置为基于VR系统1的用户的当前位置和/或朝向,确定要通过网络40向VR系统1发送所存储的视频数据和音频数据的一部分。
如上所述,视频和音频数据的该部分可通过从VR系统1接收指示用户的所述当前位置和/或朝向的位置数据来确定。
位置数据可以由VR处理系统41通过信号线路42接收。VR处理系统41可以从存储设备35获取视频和音频数据的适当部分,并且可以通过信号线43经由网络40向VR系统1发送视频和音频数据。
例如,VR处理系统41可以使用流服务器(未示出)通过信号线43发送视频和音频数据的该部分。
VR处理系统41还可以被配置为根据下文将要描述的一个或多个示例实施例执行音频处理。
备选地,为避免疑义,根据一个或多个示例实施例的音频处理可以由不同的VR处理系统执行,该VR处理系统可以是使用通过网络40从VR处理系统41接收的视频和音频数据的一部分的用户端VR系统1(例如VR媒体播放器10)的一部分。
备选地,为避免疑义,表示虚拟空间的经编码的视频和音频数据可以不通过网络40向VR系统1进行流传输。而是,经编码的视频和音频数据可以替代地由VR系统1存储,例如存储在VR媒体播放器10的本地存储器上或者可移动介质上,该可移动介质连接到VR媒体播放器或插入其中。在这种情况下,指示VR系统1的用户的当前位置和/或朝向的位置数据无需通过网络40传向内容提供方30发送。所有处理可以由VR媒体播放器10基于从VR头戴式装置20接收到的定位数据来执行。
图4A和图4B示出了经编码的视频和音频数据的消费阶段,这可能有助于理解下文将描述的示例实施例。图4A表示当前时间实例的消费场景的俯视平面图,并且图4B表示后续时间实例的消费场景的俯视平面图。
参考图4A,真实世界空间44在边界45内示出。真实世界空间44不同于上文参考图3描述的真实世界空间33(即所捕捉的空间),并且可能是与VR系统1的用户47相关联的房间或区域。
在一些示例实施例中,例如,当用户47的位置跨过边界45时,VR系统1可以触发视频和音频数据的输出。可以使用其他形式的触发条件。
从用户47的角度来看,输出到VR头戴式装置20的音频数据可以表示第一声音至第四声音46A至46D,第一声音至第四声音46A至46D与从其相应的空间朝向感知到的相应的第一声源至第四声源36A至36D的声音相对应。用户47的当前位置确定虚拟声场48的中心,第一声音至第四声音46A至46D围绕该中心排列,如同用户站立相对于虚拟声场的VR捕捉设备35的位置。
如图4B所示,如果用户47改变朝向,例如以这种方式执行向左旋转移动或仅移动他们的头部,则可以基于所得的定位数据处理音频数据,使得从一致的方向听到第一声音至第四声音46A至46D,尽管用户可以看到的视频数据可能由于朝向的改变而改变。
可以使用三个自由度(3DoF)跟踪音频数据,这意味着其输出响应于朝向(俯仰、侧倾、偏航)的改变而被修改,但不必响应于用户47的平移移动的改变而被修改。高保真立体声、HOA和某些其他空间音频格式就属于这种情况。3DoF音频格式可以不包括除声音和其相对于VR捕捉设备35的相应的方向之外的其他信息。例如,3DoF格式可以不包括关于所捕捉的声源(例如第一声源至第四声源36A至36D)的距离或位置的信息。
由此,尽管3DoF音频格式提供了对空间音频数据进行编码的存储和高效处理的方式,但在用户希望使用六个自由度(6DoF)探索虚拟空间的情况下,所得的音频在用户如何感知虚拟空间方面可能是不现实的和/或受限制的。
例如,如图4B所示,用户47向第一声音46A的平移移动49不会导致声音被感知为正在靠近(例如,声音可能如预期般变大)。而是,当用户通过平移移动探索虚拟空间时,虚拟声场48被感知为跟随用户。
图5是示出了根据一些示例实施例的处理操作的流程图,其可以提供在6DoF中的探索期间虚拟空间的更真实和直观的表示。例如,处理操作可以利用硬件、软件、固件或其组合来执行。例如,处理操作可以由VR处理系统41和/或由VR媒体播放器10的处理系统执行。
第一操作51可以包括提供用于向用户设备输出的音频数据。
音频数据可以表示虚拟空间,该虚拟空间包括位于虚拟空间内相应的空间位置的多个声音,该多个声音分别与多个声源相关联。
第二操作52可以包括检测与用户相关联的预定姿势,该用户将多个声源中的一个声源标识为感兴趣的声源。
第三操作53可以包括确定在虚拟空间中在检测到预定姿势时用户的位置和感兴趣的声源的位置之间的定向向量。
第四操作54可以包括处理该音频数据,使得当向用户设备输出时,至少在该定向向量的方向上的声音被修改。
关于第一操作51,用户设备可以是(但不限于)图1所示的VR头戴式装置20。虚拟空间可以包括图4A和图4B所示的虚拟声场48。多个声音可以包括图4A和图4B所示的第一声音至第四声音46A至46D,并且多个声源可以包括图3所示的第一声源至第四声源36A至36D。
关于第二操作52,预定姿势可以包括用户47或用户的身体的一部分的任何可检测的运动。该检测可以通过使用任何上述的位置确定的方法进行,例如使用来自VR头戴式装置20上的一个或多个运动传感器、指向用户47的一个或多个摄像机和/或由用户携带(例如在用户的身体的一个或多个部分上)的一个或多个定位标记器或传感器的位置数据。
位置数据可以被VR处理系统41和/或VR媒体播放器10用于执行第二操作52。
例如,预定姿势可以包括手、受臂或腿部运动或其组合。例如,预定姿势可以包括在声音中的一个声音(诸如第一声音至第四声音46A至46D中的一个声音)的方向上的指向姿势,以将其标识为感兴趣的声源。
例如,预定姿势可以基于用户的身体的至少一部分的朝向的检测到的改变。
例如,预定姿势可对应于用户的头部的朝向的检测到的改变高于预定的第一角度阈值α1。
图6示出了用户47的平面图,该平面图显示了头部的可检测的旋转改变例如大于α1=10度,其可以包括预定姿势。
例如,预定姿势也可以基于用户的上半身相对于用户的下半身的朝向。
例如,除了用户的头部的朝向的改变之外,预定姿势还可以对应于上半身相对于下半身的朝向的检测到的改变,例如指示向下倾斜运动。
如示出了与图6相对应的用户47的侧视图的图7所示,朝向的改变可能需要高于预定的第二角度阈值α2。
例如,除了头部的旋转改变大于10度以外,预定姿势还可以要求上半身以例如大于α2=15度的角度向下倾斜。在图7中,上半身(例如,躯干)由附图标记71表示,下半身(例如,腿)由附图标记72表示。
如果无法确定上半身71相对于下半身72的角度(可能是在仅头部跟踪可用的情况下),一些示例实施例可以估计用户的头部相对于用户肩部73的朝向。用户肩部73的角度可以基于用户47最近的平移移动的方向来估计。
在一些示例实施例中,对预定姿势的检测可以响应于检测到改变后的朝向(无论是对于头部还是对于头部和上半身71)在至少预定的时间段被被保持例如超过1秒。这避免了意外检测。
在一些示例实施例中,当音频数据与视频数据相关联以向用户设备(例如VR头戴式装置20)输出时,可以确定,在改变后的头部朝向对应于用户观看由视频数据表示的视觉对象的情况下,不检测预定姿势。该视觉对象可以具有可能使其成为可能的视觉感兴趣的对象的属性,例如,如果其超过某一大小,如果其正在移动或表示特定类型的对象。这可以避免如下情形:例如,在图6中,用户47影响朝向的改变以便在特定方向74上观看感兴趣的对象,而不是发起音频处理以修改在不同方向上(例如,参见定向向量75)的感兴趣的声音。
关于第三操作53,可以基于检测到预定姿势之后用户47的身体的部分的位置来确定定向向量。
例如,该方法可以包括确定用户的耳朵中的一个选定的耳朵的位置,并且定向向量可以被确定为从用户的耳朵的位置向外延伸的直线。例如,所选择的耳朵可以基于耳朵中的一只耳朵的位置通常与一个或多个声音相对应,而另一只耳朵的位置通常不与一个或多个声音相对应。在以下示例中,倾斜运动可以有助于确定选择哪只耳朵。
例如,参考图6和图7,可以看到,在检测到预定姿势时,可以确定定向向量75。用户的耳朵的位置可以基于例如VR头戴式装置20的当前朝向和VR头戴式装置内输出换能器(耳机、头戴式耳机或扬声器)的已知位置的知识来确定。备选地,标记器和/或传感器可以放置在位于输出换能器位置的VR头戴式装置20上。
在一些实施例中,如图7所示,其中上述倾斜运动形成预定姿势的一部分,被选择用于确定定向向量75的耳朵可以是随着向下倾斜运动而向下移动的耳朵。
关于第四操作54,处理音频数据可以包括处理音频数据的至少一部分,使得定向向量的方向上的声音例如通过使所述方向上的声音相对于来自其他方向的声音加重(emphasis)而被修改。这可能涉及修改在所述方向上的所述声音的增益和/或扩散。该修改可以响应于用户位置的改变(例如,移动朝向或远离感兴趣的声音)而发生或可以动态改变(例如增大或减小)。
例如,当用户向感兴趣的声源移动时,所述方向上的声音增益可以增大和/或扩散性减小,反之亦然。
在一些示例实施例中,可以执行另外的操作,包括在定向向量的方向上生成定向波束图案。这可以被称为波束赋形。在高保真立体声或HOA的上下文下,这可以被视为对音频数据的后处理或重放处理操作。
音频数据的处理可以包括修改与定向波束图案相对应的音频数据,例如与定向波束图案内的声音相对应的音频数据。
例如,对于高保真立体声或HOA,该处理可以包括通过以下方式修改原始的高保真立体声或HOA音频数据:首先,使用一种或多种已知的方法,在高保真立体声或HOA域在定向向量的方向上执行波束赋形,其次,在相同的高保真立体声或HOA域中将经波束赋形的音频信号平移至定向向量的方向,最后,将平移后的音频信号添加到原始高保真立体声或HOA音频数据中。
该已知的方法可能涉及使用创建所谓的虚拟麦克风以将高保真立体声或HOA音频数据修改为表示指令信号的数据。例如,对于高保真立体声或HOA进行波束赋形可能涉及在定向向量的左侧5至40度处创建第一虚拟麦克风,以及在定向向量的右侧5至40度处创建第二虚拟麦克风。其效果是在定向向量的方向上产生空间立体声效果。另一种方法是提供所谓的参数空间音频效果。另一种方法是在与定向向量相同的方向上提供经波束赋形的高保真立体声或HOA音频信号(单声道),然后,将该经波束赋形的信号平移到相同的高保真立体声域,并将平移后的信号与原始信号相加。
利用已知的处理方法,有可能在后处理或重放期间处理音频数据,以提供一种波束赋形的形式,从而有效地生成定向波束图案,使得在所生成的定向波束图案内表示的声音可以在第四操作54中被修改。所生成的定向波束图案也可以在其宽度方面被修改。
在一些示例实施例中,例如,可以估计或确定用户在虚拟空间中的位置和感兴趣的声源的位置之间的距离d。所生成的定向波束图案可以被配置为具有波束宽度W,波束宽度W取决于所确定的距离d。例如,所生成的定向波束图案的波束宽度W可以随着所确定的距离变小而变大。
距离d可以使用可以伴随音频数据或音频数据集的元数据来估计或确定。元数据可以基于例如视觉分析、多点捕捉或其他内容创建技术,由此在捕捉期间,得出音频源距VR捕捉设备35的距离的一些估计。
在一些示例实施例中,波束宽度W可以还取决于检测到的预定姿势的持续时间。
如上所述,例如,可以使用与一个或多个音频通道相关联(例如与高保真立体声或HOA域中的虚拟麦克风相对应的)的音频数据生成定向波束图案。
参考图8A,例如,响应于参考上文关于图6所述的检测到的用户姿势,VR处理系统41可以确定定向向量75,该定向向量75指向与第二声源36相对应的第二声音46B,并在所述定向向量的方向上生成定向波束图案91。
例如,如果距离d被估计或被确定为大于10米,则这可以被确定为需要相对较窄的波束(低波束宽度W1),其可在第四操作54中被修改。
参考图8B,当用户47向第二声音46B移动时,可以执行相同的过程,但是随着距离d变小,所确定的定向波束图案可能变大(更大的波束宽度W2),这可以对应于与先前音频数据组合的其他音频通道(例如其他虚拟麦克风位置)。这种定向波束图案在图8B中由附图标记93表示。在第四操作54中,仅与所确定的波束图案93相对应的音频数据可被修改。
如上所述,第四操作54中的修改可以包括(诸如通过增加增益或减少扩散)增加对音频数据的加重。例如,基于用户姿势的持续时间,增益或扩散的量还可以(例如逐渐地)增大。姿势的持续时间越长,增益越大。可以诸如通过对所确定的定向波束图案之外的音频数据集降低增益或增加扩散而执行其他修改。
尽管在上述示例中描述了波束赋形,但是也可以执行其他形式的方向相关增强。例如使用音频聚焦、音频缩放或其他方式。例如,可以对音频数据(例如HOA数据)的参数表示执行第四操作54,其中数据被分割为时间-频率图块。该图块可以包括以恒定的时间间隔描述音频内容的频率“仓”,并且每个图块可以具有包括例如增益、方向和扩散的参数。当获得用户期望的方向和波束宽度W时,与用户期望的方向相对应的图块中的增益可以增大。
总之,示例实施例可以以更真实的、沉浸式的和/或有趣的方式实现对至少部分由空间音频数据表示的虚拟空间进行交互或探索,该空间音频数据本质上是3DoF。当用户47移动朝向或远离虚拟空间中的声音时,输出的空间音频数据可以动态地改变。
示例装置
图9示出了根据一些示例实施例的装置。该装置可以被配置为执行本文描述的操作,例如参考任何公开的过程所描述的操作。该装置包括至少一个处理器1200和至少一个直接或紧密连接到处理器的存储器1201。存储器1201包括至少一个随机存取存储器(RAM)1201a和至少一个只读存储器(ROM)1201b。计算机程序代码(软件)1205存储于ROM 1201b中。该装置可以连接到发送器(TX)和接收器(RX)。可选地,该装置可以与用户接口(UI)连接,用于指示该装置和/或用于输出数据。至少一个处理器1200和至少一个存储器1201以及计算机程序代码1205一起被布置为使该装置至少执行根据任何前述过程的方法,例如,关于图5的流程图及其相关的特征所公开的方法。
图10示出了根据一些实施例的非瞬态介质1300。非瞬态介质1300是计算机可读存储介质。它可以例如是CD、DVD、USB条、蓝光盘等。非瞬态介质1300存储计算机程序代码,使装置执行任何前述过程的方法,例如,关于图5的流程图及其相关的特征所公开的方法。
网络元素、协议和方法的名称基于当前标准。在其他版本或其他技术中,只要这些网络元件和/或协议和/或方法提供相应的功能,们的名称可以不同。例如,实施例可以部署在2G/3G/4G/5G网络以及更高代的3GPP中,但也可以部署在非3GPP无线电网络(诸如WiFi)中。
内存可以是易失性或非易失性的。其可以例如是RAM、SRAM、快闪存储器、FPGA块RAM、DCD、CD、USB条和蓝光盘。
如果上下文中未另行声明或明确说明,两个实体不同的说法意味着它们执行不同的职能。这并不必然意味着它们基于不同的硬件。即,本说明书中描述的每个实体可以基于不同的硬件,或者部分或全部实体可以基于相同的硬件。这并不一定意味着它们基于不同的软件。即,本说明书中描述的每个实体可以基于不同的软件,或者部分或全部实体可以基于相同的软件。本说明书中描述的每个实体可以在云中实现。
作为非限制性示例,任何上述框图、装置、系统、技术或方法的实现方式包括硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合的实现方式。一些实施例可以在云中实现。
应当理解的是,上面描述的内容是目前认为的优选实施例。然而,应当注意的是,该优选实施例的描述仅以示例的方式给出,并且在不脱离所附权利要求限定的范围的情况下,可以进行各种修改。

Claims (15)

1.一种装置,包括用于以下的部件:
提供音频数据以向用户设备输出,所述音频数据表示虚拟空间,所述虚拟空间包括位于所述虚拟空间内相应的空间位置的多个声音,所述多个声音分别与多个声源相关联;
检测与用户相关联的预定姿势,所述用户将所述多个声源中的一个声源标识为感兴趣的声源;
确定在所述虚拟空间中在检测到所述预定姿势时所述用户的位置和所述感兴趣的声源的位置之间的定向向量;以及
处理所述音频数据,使得当向所述用户设备输出时,至少在所述定向向量的方向上的声音被修改。
2.根据权利要求1所述的装置,其中所述处理部件被配置为当所述用户的位置改变时修改所述声音。
3.根据权利要求1或权利要求2所述的装置,还包括用于在所述定向向量的方向上生成定向波束图案的部件,所述处理部件通过修改与所述定向波束图案相对应的音频数据来处理所述音频数据。
4.根据权利要求3所述的装置,还包括用于确定所述用户在所述虚拟空间中的所述位置与所述感兴趣的声源的所述位置之间的距离的部件,并且其中所生成的所述定向波束图案被配置为具有取决于所确定的所述距离的波束宽度。
5.根据权利要求4所述的装置,其中所生成的所述定向波束图案的所述波束宽度随着所确定的所述距离的变小而变大。
6.根据权利要求4或权利要求5所述的装置,其中所述波束宽度还取决于检测到的所述预定姿势的持续时间。
7.根据前述权利要求中任一项所述的装置,其中所述处理部件被配置为修改所述音频数据,使得与所述定向向量的所述方向上的声音相关联的增益被增大。
8.根据权利要求7所述的装置,其中所述修改的量还取决于检测到的所述预定姿势的持续时间。
9.根据前述权利要求中任一项所述的装置,其中所述检测部件被配置为响应于检测到所述用户的身体的至少一部分的朝向的改变,而检测所述预定姿势。
10.根据权利要求9所述的装置,还包括用于确定所述用户的头部的朝向的部件,其中所述检测部件被配置为响应于检测到所述用户的头部的朝向的改变超过预定的第一角度阈值,而检测所述预定姿势。
11.根据权利要求10所述的装置,还包括用于确定所述用户的上半身相对于所述用户的下半身的朝向的部件,其中所述检测部件被配置为响应于还检测到所述上半身相对于所述下半身的朝向的改变超过指示向下倾斜运动的预定的第二角度阈值,而检测所述预定姿势。
12.根据权利要求9至11中任一项所述的装置,其中所述检测部件被配置为响应于检测到所述用户的身体的一部分的改变后的朝向在至少预定的时间段保持,而检测所述预定姿势。
13.根据前述权利要求中任一项所述的装置,其中所述定向向量基于检测到所述预定姿势之后所述用户的身体部分的位置而被确定。
14.根据权利要求13所述的装置,还包括用于确定所述用户的耳朵的位置的部件,并且其中所述定向向量被确定为从所述用户的耳朵向外延伸。
15.一种方法,包括:
提供音频数据以向用户设备输出,所述音频数据表示虚拟空间,所述虚拟空间包括位于所述虚拟空间内相应的空间位置的多个声音,所述多个声音分别与多个声源相关联;
检测与用户相关联的预定姿势,所述用户将所述多个声源中的一个标识为感兴趣的声源;
确定在所述虚拟空间中在检测到所述预定姿势时所述用户的位置和所述感兴趣的声源的位置之间的定向向量;以及
处理所述音频数据,使得当向所述用户设备输出时,至少在所述定向向量的方向上的声音被修改。
CN202280012168.7A 2021-01-28 2022-01-20 音频数据的处理 Pending CN116888983A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21153938.2 2021-01-28
EP21153938.2A EP4037340A1 (en) 2021-01-28 2021-01-28 Processing of audio data
PCT/EP2022/051202 WO2022161840A1 (en) 2021-01-28 2022-01-20 Processing of audio data

Publications (1)

Publication Number Publication Date
CN116888983A true CN116888983A (zh) 2023-10-13

Family

ID=74346923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280012168.7A Pending CN116888983A (zh) 2021-01-28 2022-01-20 音频数据的处理

Country Status (4)

Country Link
US (1) US20240089688A1 (zh)
EP (1) EP4037340A1 (zh)
CN (1) CN116888983A (zh)
WO (1) WO2022161840A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3834848B2 (ja) * 1995-09-20 2006-10-18 株式会社日立製作所 音情報提供装置、及び音情報選択方法
US9632683B2 (en) * 2012-11-08 2017-04-25 Nokia Technologies Oy Methods, apparatuses and computer program products for manipulating characteristics of audio objects by using directional gestures

Also Published As

Publication number Publication date
WO2022161840A1 (en) 2022-08-04
EP4037340A1 (en) 2022-08-03
US20240089688A1 (en) 2024-03-14

Similar Documents

Publication Publication Date Title
CN111466124B (zh) 用于渲染用户的视听记录的方法,处理器系统和计算机可读介质
CN109564504B (zh) 用于基于移动处理空间化音频的多媒体装置
EP3440538B1 (en) Spatialized audio output based on predicted position data
US11055057B2 (en) Apparatus and associated methods in the field of virtual reality
US20220086588A1 (en) Method and system for handling local transitions between listening positions in a virtual reality environment
WO2018064296A1 (en) Method, systems and apparatus for determining audio representation(s) of one or more audio sources
JP2019527956A (ja) 仮想、拡張、および複合現実
CN109314832B (zh) 音频信号处理方法和设备
WO2018121524A1 (zh) 一种数据处理方法及装置、采集设备及存储介质
US20190149919A1 (en) Distributed Audio Capture and Mixing Controlling
WO2017034886A1 (en) Systems and methods for enhancing augmented reality experience with dynamic output mapping
US10664128B2 (en) Information processing apparatus, configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium
US20190306651A1 (en) Audio Content Modification for Playback Audio
US20190130644A1 (en) Provision of Virtual Reality Content
EP3503592B1 (en) Methods, apparatuses and computer programs relating to spatial audio
US20210092545A1 (en) Audio processing
CN111492342B (zh) 音频场景处理
KR20190020766A (ko) 매개 현실에서의 사운드 객체의 인지 향상
KR20200143293A (ko) 실시간 다원 ar 방송을 위한 증강 현실 영상 생성 방법 및 장치
US20240089688A1 (en) Processing of audio data
US11696085B2 (en) Apparatus, method and computer program for providing notifications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination