CN112970270A - 沉浸式音频服务中的音频处理 - Google Patents
沉浸式音频服务中的音频处理 Download PDFInfo
- Publication number
- CN112970270A CN112970270A CN201980071861.XA CN201980071861A CN112970270A CN 112970270 A CN112970270 A CN 112970270A CN 201980071861 A CN201980071861 A CN 201980071861A CN 112970270 A CN112970270 A CN 112970270A
- Authority
- CN
- China
- Prior art keywords
- audio
- data
- spatial
- directional
- microphone system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/152—Multipoint control units therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/323—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/326—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/027—Spatial or constructional arrangements of microphones, e.g. in dummy heads
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本公开大体上涉及音频场景的定向音频的捕获、声学预处理、编码、解码及呈现。特定来说,本公开涉及一种适于响应于捕获所述定向音频的麦克风系统的空间数据修改捕获的定向音频的定向性质的装置。本公开进一步涉及经配置以响应于接收的空间数据修改接收的定向音频的定向性质的呈现装置。
Description
相关申请案的交叉引用
本申请案主张以下美国临时专利申请案的优先权权益:2018年11月13日申请的第62/760,262号;2019年1月17日申请的第62/793,666号、2019年1月22日申请的第62/795,236号;及2019年1月28日申请的第62/797,563号,所述专利申请案以全文引用方式并入本文中。
技术领域
本公开大体上涉及音频场景的定向音频的捕获、声学预处理、编码、解码及呈现。特定来说,本公开涉及一种适于响应于捕获所述定向音频的麦克风系统的空间数据修改捕获的定向音频的定向性质的装置。本公开进一步涉及经配置以响应于接收的空间数据修改接收的定向音频的定向性质的呈现装置。
背景技术
将4G/5G高速无线接入引入到电信网络中,结合日益强大的硬件平台的可用性,为比以往任何时候更快且更容易地部署先进的通信及多媒体服务提供了基础。
第三代合作伙伴计划(3GPP)增强语音服务(EVS)编解码器通过引入超宽带(SWB)及全带(FB)语音及音频编码,结合改进的包丢失复原性,极大地改进用户体验。然而,扩展的音频带宽只是真正沉浸式体验所需的维度之一。在理想情况下,需要超出EVS目前提供的单声道及多声道的支持来以资源高效方式将用户沉浸在令人信服的虚拟世界中。
另外,3GPP中当前指定的音频编解码器为立体声内容提供合适的质量及压缩,但缺乏会话语音及电话会议所需的会话特征(例如,足够低的延时)。这些编码器还缺乏沉浸式服务所必需的多声道功能,例如实况及用户生成的内容流、虚拟现实(VR)及沉浸式电话会议。
为了填补这一技术空白并满足人们对丰富多媒体服务日益增长的需求,提出对用于沉浸式语音及音频服务(IVAS)的EVS编解码器的扩展的开发。另外,通过4G/5G实现的电话会议应用将受益于用作支持多流编码(例如,基于声道、对象及场景的音频)的改进的会话编码器的IVAS编解码器。此下一代编解码器的使用案例包含但不限于会话语音、多流电话会议、VR会话及用户生成的实况及非实况内容流。
因此,IVAS预期提供沉浸式及VR、AR及/或XR用户体验。在许多这些应用中,捕获定向(沉浸式)音频的装置(例如,移动电话)在许多情况下可能在会话期间相对于声学场景移动,从而导致捕获的音频场景的空间旋转及/或平移移动。取决于所提供的体验的种类,例如沉浸式、VR、AR或XR,且取决于特定的使用案例,这种行为可能是期望或不期望的。例如,如果每当捕获装置旋转时呈现场景总是旋转,那么可能会使收听者感到烦恼。在最坏的情况下,可能会引起运动病。
因此,需要在此上下文中进行改进。
附图说明
现在将参考附图来描述实例实施例,其上:
图1展示根据实施例的用于编码定向音频的方法,
图2展示根据实施例的用于呈现定向音频的方法,
图3展示根据实施例的经配置以执行图1的方法的编码器装置,
图4展示根据实施例的经配置以执行图2的方法的呈现装置,
图5展示根据实施例的包括图3及图4的装置的系统,
图6展示根据实施例的物理VR会议场景,
图7展示根据实施例的虚拟会议空间。
所有附图都是示意性的且通常仅展示为了阐明本公开而必需的部分,而其它部分可省略或仅暗示。除非另有指示,否则相似的参考编号指代不同附图中的相似部分。
具体实施方式
鉴于上述情况,目的是提供用于捕获、进行声学预处理及/或编码以补偿可能由捕获定向音频的麦克风系统的无意移动引起的空间声音场景的不期望的移动的装置及相关方法。进一步,目标是提供用于解码及呈现定向音频的对应解码器及/或呈现装置及相关联的方法。还提供包括例如编码器装置及呈现装置的系统。
I.概述-发送侧
根据第一方面,提供一种装置,其包括或连接到麦克风系统,所述麦克风系统包括用于捕获音频的一或多个麦克风。所述装置(也被称为发送侧或捕获装置)包括接收单元,其经配置以:
-接收由所述麦克风系统捕获的定向音频;
-接收与所述麦克风系统相关联的元数据,所述元数据包括所述麦克风系统的空间数据,所述空间数据指示所述麦克风系统的空间定向及/或空间位置,且包括来自以下各项的列表中的至少一者:所述麦克风系统的方位角、俯仰角、横摇角及空间坐标;
在此公开中,术语“定向音频”(定向声音)通常指沉浸式音频,即由定向麦克风系统捕获的音频,所述定向麦克风系统可拾取包含声音从其到达的方向的声音。定向音频的重放允许自然的三维声音体验(双耳呈现)。因此,可包括音频对象及/或声道(例如,表示呈环境立体声B格式的基于场景的音频或基于声道的音频)的音频与从其接收所述音频的方向相关联。换句话说,定向音频源于定向源,且从由例如方位角及仰角表示的到达方向(DOA)入射。相比之下,漫射环境声被假设为全向的,即空间不变的或空间均匀的。可用于“定向音频”的特征的其它表达方式包含“空间音频”、“空间声音”、“沉浸式音频”、“沉浸式声音”、“立体声”及“环绕音频”。
在此公开中,术语“空间坐标”通常是指麦克风系统或捕获装置在空间中的空间位置。笛卡尔坐标系(Cartesian coordinates)是空间坐标的一种实现形式。其它实例包含柱面坐标或球面坐标。应注意,空间中的位置可为相对的(例如,房间中的坐标,或相对于另一装置/单元等)或绝对的(例如GPS坐标或类似者)。
在此公开中,“空间数据”通常是指示麦克风系统的当前旋转定向及/或空间位置,或旋转定向及/或空间位置与麦克风系统的先前定向/位置相比的变化。
因此,所述装置接收元数据,所述元数据包括指示捕获定向音频的麦克风系统的空间定向及/或空间位置的空间数据。
所述装置进一步包括计算单元,其经配置以:修改所述定向音频中的至少一些以产生经修改的定向音频,借此响应于所述麦克风系统的空间定向及/或空间位置修改所述音频的定向性质。
可使用任何适当的手段进行修改,例如通过基于空间数据界定旋转/平移矩阵,并将定向音频与此矩阵相乘以实现经修改的定向音频。矩阵乘法适用于非参数空间音频。可通过调整空间元数据(例如,声音对象的定向参数)来修改参数化空间音频。
然后,将经修改的定向音频编码为数字音频数据,所述数据由所述装置的发射单元发射。
发明者已认识到,声音捕获装置(麦克风系统)的旋转/平移移动在发送端(即在捕获音频的端)得到最佳补偿。这可能允许被捕获的音频场景关于例如不期望移动的最佳可能稳定化。此类补偿可为捕获过程的一部分,即在声学预处理期间,或作为IVAS编码阶段的一部分。此外,通过在发送端执行补偿,放松将空间数据从发送端发射到接收端的需要。假定要在音频接收器处执行对声音捕获装置的旋转/平移移动的补偿,那么必须将完整的空间数据发射到接收端。假设所有三个轴上的旋转坐标分别用8位表示,并以50Hz的速率进行估计与传送,那么所得位速率将为1.2kbps。可对麦克风系统的空间坐标进行类似假设。
根据一些实施例,麦克风系统的空间定向用空间数据中的描述具有一个自由度DoF的旋转移动/定向的参数来表示。例如,对于电话会议来说仅考虑方位角就足够了。
根据一些实施例,麦克风系统的空间定向用空间数据中的描述具有三个自由度DoF的旋转定向/移动的参数来表示。
根据一些实施例,麦克风系统的空间数据以六个DoF表示。在此实施例中,麦克风系统的空间数据将麦克风系统的变化位置(本文中称为空间坐标)捕获为在三个垂直轴上的前/后(浪涌)、上/下(起伏)、左/右(摆动)平移,结合麦克风系统通过围绕三个垂直轴(通常称为偏航或方位角(法向/垂直轴)、俯仰(横轴)及横摇(纵轴))的旋转的定向变化(或当前旋转定向)。
根据一些实施例,接收到的定向音频包括包括定向元数据的音频。例如,此类音频可包括音频对象,即基于对象的音频(OBA)。OBA是具有空间元数据的空间/定向音频的参数化形式。一种特殊形式的参数化空间音频是元数据辅助空间音频(MASA)。
根据一些实施例,计算单元经进一步配置以将包括麦克风系统的空间数据的元数据的至少部分编码为所述数字音频数据。有利地,这允许在接收端对捕获的音频进行的定向调整的补偿。根据适当旋转参考帧的定义,例如其中z轴与垂直方向相对应,在许多情况下,可能仅必须发射方位角(以例如400bps)。可能仅在某些VR应用中需要捕获装置在旋转参考帧中的俯仰角及横摇角。通过在发送侧补偿麦克风系统的空间数据,并有条件地将空间数据的至少部分包含在编码的数字音频数据中,有利地支持其中呈现的声学场景应对捕获装置位置保持不变的情况及其中呈现的声学场景应随着捕获装置的对应移动而旋转的其余情况。
根据一些实施例,接收单元经进一步配置以接收第一指令,所述第一指令向计算单元指示是否将包括麦克风系统的空间数据的元数据的所述至少部分包含到所述数字音频数据中,借此计算单元相应地进行动作。因此,发送侧有条件地将空间数据的部分包含在数字音频数据中,以在可能的情况下节省位速率。在会话期间可能不止一次地接收指令,使得空间数据(的部分)是否应当包含在数字音频数据中随时间而改变。换句话说,可存在会话内自适应,其中装置可以连续及不连续的方式接收第一指令。连续将例如为每帧一次。不连续可为仅应给出新指令一次。也可能仅在会话建立时接收第一指令一次。
根据一些实施例,接收单元经进一步配置以接收第二指令,所述第二指令向计算单元指示麦克风系统的空间数据的哪个参数或哪些参数将包含在数字音频数据中,借此计算单元相应地进行动作。如上所例示,发送侧可经指示以仅包含方位角,或包含界定麦克风系统的空间定向的所有数据。在会话期间可不止一次地接收所述指令,使得包含在数字音频数据中的参数的数目随时间而改变。换句话说,可能存在会话内自适应,其中装置可以连续及不连续的方式接收第二指令。连续将例如为每帧一次。不连续可为仅应给出新指令一次。也可能仅在会话建立时接收第一指令一次。
根据一些实施例,发射单元经配置以将数字音频数据发射到另一装置,其中从所述另一装置接收关于第一及/或第二指令的指示。换句话说,接收侧(包括用于呈现接收的解码音频的呈现器)可取决于上下文指示发送侧是否将在数字音频数据中包含空间数据的一部分,及/或将包含哪些参数。在其它实施例中,关于第一及/或第二指令的指示可从例如用于多用户沉浸式音频/视频会议的协调单元(呼叫服务器)或不直接涉及定向音频的呈现的任何其它单元接收。
根据一些实施例,接收单元经进一步配置以接收元数据,所述元数据包括指示定向音频的捕获时间的时间戳,其中所述计算单元经配置以将所述时间戳编码为所述数字音频数据。有利地,此时间戳可用于在接收侧进行同步,例如,将音频呈现器与视频器呈现同步,或使从不同捕获装置接收的多个数字音频数据同步。
根据一些实施例,经修改的定向音频的编码包括对经修改的定向音频进行降混,其中通过考虑麦克风系统的所述空间定向来执行所述降混,并将所述降混与所述降混中使用的降混矩阵编码为所述数字音频数据。例如,基于对定向音频所做的定向修改,有利地调适朝向定向音频的特定定向源的声波束成形。
根据一些实施例,所述装置在包括麦克风系统及头部跟踪装置的虚拟现实VR装备或增强现实AR装备中实施,所述头部跟踪装置经配置以用3到6个DoF确定所述装置的空间数据。在其它实施例中,所述装置在包括麦克风系统的移动电话中实施。
II.概述-接收侧
根据第二方面,提供一种用于呈现音频信号的装置。所述装置(在此也称为接收侧或呈现装置)包括经配置以接收数字音频数据的接收单元。所述装置进一步包括解码单元,其经配置以将所接收的数字音频数据解码为定向音频及元数据,所述元数据包括空间数据,所述空间数据包括来自以下各项的列表中的至少一者:方位角、俯仰角、横摇角及空间坐标。空间数据可例如以参数的形式接收,例如3个DoF角。在其它实施例中,空间数据可作为旋转/平移矩阵接收。
所述装置进一步包括呈现单元,其经配置以:
使用所述空间数据修改所述定向音频的定向性质;及
呈现所述经修改的定向音频。
有利地,根据此方面的装置可修改如元数据中指示的定向音频。例如,在呈现时可考虑捕获音频的装置的移动。
根据一些实施例,所述空间数据指示包括捕获所述定向音频的一或多个麦克风的麦克风系统的空间定向及/或空间位置,其中所述呈现单元修改所述定向音频的所述定向性质以至少部分地重现所述麦克风系统的音频环境。在此实施例中,所述装置通过重新应用在捕获装置处补偿的声学场景旋转的至少部分(相对的,即,场景旋转相对于移动麦克风系统)来应用声学场景旋转。
根据一些实施例,空间数据包括描述具有一个自由度DoF的旋转移动/定向的参数。
根据一些实施例,空间数据包括描述具有三个自由度DoF的旋转移动/定向的参数。
根据一些实施例,解码的定向音频包括包括定向元数据的音频。例如,解码的定向音频可包括音频对象,即基于对象的音频(OBA)。在其它实施例中,解码的定向音频可为基于声道的,例如,表示呈以环境立体声B格式的基于场景的音频或基于声道的音频。
根据一些实施例,所述装置包括发射单元,其经配置以向从其接收数字音频的另一装置发射指令,所述指令向所述另一装置指示所述旋转数据应包括哪个(如果有的话)或哪些参数。因此,呈现装置可指示捕获装置例如仅发射旋转参数、仅发射方位角参数或全6DoF参数,这取决于使用案例及/或可用带宽。此外,呈现装置可基于呈现器处用于应用声学场景旋转的可用计算资源或呈现单元的复杂程度来作出此决定。指令可在会话期间被发射不止一次且因此随时间而改变,即基于上述内容。换句话说,可存在会话内自适应,其中装置可以连续方式及不连续方式两者发射指令。连续将为例如每帧一次。不连续可为仅应给出新指令时一次。也可能仅在会话建立时发射指令一次。
根据一些实施例,解码单元经进一步配置以从数字音频数据提取指示定向音频的捕获时间的时间戳。可出于同步原因而使用此时间戳,如上文所讨论。
根据一些实施例,由所述解码单元将所述接收的数字音频数据解码为定向音频包括:
将所述接收的数字音频数据解码为降混音频,
使用包含在所述接收的数字音频数据中的降混矩阵,由所述解码单元将所述降混音频上混为所述定向音频。
根据一些实施例,所述空间数据包含空间坐标,且其中所述呈现单元经进一步配置以基于所述空间坐标调整所述呈现音频的音量。在此实施例中,与从较近位置接收的音频相比,从“远处”接收的音频的音量可能被衰减。应注意,可基于虚拟空间来确定接收的音频的相对接近度,其中应用适当的距离度量(例如欧几里德(Euclidean)度量)基于装置的空间坐标来确定捕获装置在此空间中相对于接收装置的位置。进一步的步骤可涉及使用某种任意映射方案来从距离度量确定音频呈现参数,例如声级。有利地,在此实施例中,可改进所呈现音频的沉浸式体验。
根据一些实施例,所述装置在包括头部跟踪装置的虚拟现实VR装备或增强现实AR装备中实施,所述头部跟踪装置经配置以在六个DoF中测量所述装置的空间定向及空间位置。在此实施例中,当修改定向音频的定向性质时,还可使用呈现装置的空间数据。例如,接收的旋转/平移矩阵可以与界定例如呈现装置的旋转状态的类似矩阵相乘,且所得矩阵然后可用于修改定向音频的定向性质。有利地,在此实施例中,可改进呈现音频的沉浸式体验。在其它实施例中,所述装置在电话会议装置或类似装置中实施,所述装置被假设为静止的,且其中所述装置的任何旋转状态被忽略。
根据一些实施例,所述呈现单元经配置用于双耳音频呈现。
III.概述-系统
根据第三方面,提供一种系统,其包括:
根据所述第一方面的第一装置,其经配置以将数字音频数据发射到根据所述第二方面的第二装置,其中所述系统经配置用于音频及/或视频会议。
根据一些实施例,所述第一装置进一步包括视频记录单元,且经配置以将记录的视频编码为数字视频数据并将所述数字视频数据发射到所述第二装置,其中所述第二装置进一步包括用于显示解码数字视频数据的显示器。
根据第四方面,提供一种系统,其包括:
根据所述第一方面的第一装置,其经配置以将数字音频数据发射到第二装置,所述第二装置包括:
接收单元,其经配置以接收数字音频数据,
解码单元,其经配置以:
将所述接收的数字音频数据解码为定向音频及元数据,所述元数据包括空间数据,所述空间数据包括来自以下各项的列表中的至少一者:方位角、俯仰角、横摇角及空间坐标;
呈现单元,其用于呈现音频;
其中所述呈现单元经配置以,在所述第二装置进一步从所述第一装置接收编码视频数据之后:
使用所述空间数据修改所述定向音频的定向性质,及
呈现所述经修改的定向音频;
其中所述呈现单元经配置以,在所述第二装置不从所述第一装置接收编码视频数据之后:
呈现所述定向音频。
有利地,基于是否发射视频来决定是否通过补偿麦克风系统的空间定向及/或空间位置来重现麦克风系统的音频环境。在此实施例中,发送装置无法始终意识到何时需要或期望对发送装置的移动进行补偿。例如,考虑音频与视频一起呈现的情况。在那种情况下,至少当使用捕获音频的相同装置完成视频捕获时,有利地,可连同移动的视觉场景一起旋转音频场景或保持音频场景稳定。如果不消耗视频,那么通过补偿捕获装置的移动来保持音频场景稳定可能是优先的选择。
根据第五方面,提供一种存储指令的非暂时性计算机可读媒体,所述指令在由一或多个处理器执行时,致使所述一或多个处理器执行方面1到4中的任一方面的操作。
IV.概述-一般地
第二到第五方面通常可具有与第一方面相同或对应的特征及优点。
本发明的其它目标、特征及优点将从以下详细公开、从所附从属权利要求及从附图中显现。
除非明确陈述,否则本文公开的任何方法的步骤或实施一系列步骤的装置不必按照公开的准确顺序执行。
V-实例实施例
沉浸式语音及音频服务预期提供沉浸式及虚拟现实(VR)用户体验。还可提供增强现实(AR)及扩展现实(XR)体验。本公开涉及这样一个事实,即在许多情况下,捕获沉浸式或AR/VR/XR场景的移动装置(例如手持UE)可能在会话期间相对于声学场景移动。其突出应避免由接收装置将捕获装置的旋转移动重现为对应的呈现场景旋转的情况。此公开涉及如何有效地处理上述内容以满足用户取决于上下文对沉浸式音频的要求。
应注意,虽然本文中的一些实例将在IVAS编码器、解码器及/或呈现器的上下文中描述,但应注意,这仅是可应用本发明的一般原理的编码器/解码器/呈现器的一种类型,且可存在可与本文描述的各种实施例结合使用许多其它类型的编码器、解码器、解码器、及/或呈现器。
还应注意,虽然此文献中使用术语“上混”及“降混”,但它们不一定暗示分别增加及减少声道的数量。虽然这种情况可能经常发生,但应认识到,任何一个术语都可指代减少或增加声道的数量。因此,这两个术语都被归入更一般的“混合”概念
现在转到图1,根据一个实施例描述用于编码及发射定向音频的表示的方法1。图3中展示经配置以执行方法1的装置300。
装置300通常可为移动电话(智能电话),然而,装置也可为VR/AR/XR装备或任何其它类型的装置的一部分,所述装置包括或连接到包括一或多个用于捕获指向音频的麦克风的麦克风系统302。因此,装置300可包括麦克风系统302或(有线或无线地)连接到远程定位的麦克风系统302。在一些实施例中,装置300在包括麦克风系统302及头部跟踪装置的VR装备或AR装备中实施,所述头部跟踪装置经配置以用1到6个DoF确定装置的空间数据。
在一些音频捕获场景中,麦克风系统302的位置及/或空间定向可在定向音频的捕获期间改变。
现在将描述两个示范性场景。
在音频捕获期间麦克风系统302的位置及/或空间定向的改变可导致在接收装置处的呈现场景的空间旋转/平移。取决于所提供的体验的种类,例如沉浸式、VR、AR或XR,且取决于特定的使用案例,这种行为可能是期望的或不期望的。其中这可能是期望的的一个实例是当服务额外提供视觉组件时及在捕获相机(例如,360度视频捕获,未在图1中展示)与麦克风302集成在同一装置中时。在这种情况下,应预期捕获装置的旋转应导致呈现的视听场景的对应旋转。
另一方面,如果视听捕获不是由同一物理装置完成的,或在没有视频分量的情况下,如果每当捕获装置旋转时呈现的场景都旋转,那么可能会使收听者感到烦恼。在最坏的情况下,可能会引起运动病。因此,期望补偿捕获装置的位置变化(平移及/或旋转)。实例包含使用智能电话作为捕获装置(即,包括一组麦克风302)的沉浸式电话及沉浸式会议应用。在这些使用案例中,可能经常发生这样的情况:一组麦克风由于其被手持或用户在操作期间触摸其而被无意地移动。捕获装置的用户可能没有意识到移动所述麦克风可能导致接收装置处的呈现的空间音频的不稳定性。通常情况下,用户不期望在通话时保持手机不动。
下文中描述的方法及装置界定为上述场景的一些或全部。
因此,装置300包括或连接到麦克风系统302,麦克风系统302包括用于捕获音频的一或多个麦克风。因此,麦克风系统可包括1个、2个、3个、5个、10个等数目的麦克风。在一些实施例中,麦克风系统包括多个麦克风。装置300包括多个功能单元。这些单元可以硬件及/或软件实施,且可包括用于处置所述单元的功能的一或多个处理器。
装置300包括接收单元304,其经配置以接收S13由麦克风系统302捕获的定向音频320。定向音频320优选地是容易地允许音频场景旋转及/或平移的音频表示。定向音频320可例如包括允许音频场景旋转及/或平移的音频对象及/或声道。所述定向音频可包括
-基于声道的音频(CBA),例如立体声、多声道/环绕声、5.1、7.1等。
-基于场景的音频(SBA),例如一阶及高阶环境立体声。
-基于对象的音频(OBA)。
CBA及SBA是空间/定向音频的非参数化形式,而OBA是具有空间元数据的参数化形式。一种特殊形式的参数化空间音频是元数据辅助空间音频(MASA)。
接收单元304经进一步配置以接收S14与麦克风系统302相关联的元数据322。元数据322包括麦克风系统302的空间数据。空间数据表示麦克风系统302的空间定向及/或空间位置。麦克风系统的空间数据包括来自以下各项的列表中的至少一者:麦克风系统的方位角、俯仰角、横摇角及空间坐标。空间数据可以1个自由度DoF(例如,仅麦克风系统的方位角)、三个DoF(例如,麦克风系统在3个DoF中的空间定向)或六个DoF(3个DoF中的空间定向及3个DoF中的空间位置两者)来表示。当然,空间数据可用从1个到6个的任何自由度来表示。
装置300进一步包括计算单元306,其从接收单元304接收定向音频320及元数据322,且修改S15定向音频320(例如,定向音频的音频对象中的至少一些)中的至少一些以产生经修改的定向音频。此修改导致响应于麦克风系统的空间定向及/或空间位置修改音频的定向性质。
然后,计算单元306通过将经修改的定向音频编码S17为数字音频数据328来编码S16数字数据。装置300进一步包括发射单元310,其经配置以(有线或无线地)发射数字音频数据328,例如作为位流。
通过补偿已在编码装置300(也可指发送装置、捕获装置、发射装置、发送侧)处的麦克风系统302的旋转及/或平移移动,放松用于发射麦克风系统302的空间数据的要求。如果此类补偿将由接收经编码的定向音频的装置(例如沉浸式音频呈现器)来完成,那么所有所需的元数据将始终需要包含在数字音频数据328中。假设麦克风系统302在所有三个轴上的旋转坐标各自用8位表示,且以50Hz的速率估计并传送,那么信号332的位速率的所得增加将是1.2kbps。此外,在捕获侧没有运动补偿的情况下,听觉场景的变化很可能使得空间音频编码要求更高且潜在地使其效率更低。
此外,由于修改决定的基础信息在装置300处容易获得,因此补偿此处已存在的麦克风系统302的旋转/平移移动是适当的,这因此可高效地完成。因此,可减少此操作的最大算法延迟。
另一个优点是,通过在捕获装置300处始终(而不是根据请求有条件地)补偿旋转/平移移动并有条件地向接收端提供捕获系统的空间定向数据,在为具有不同呈现需求的多个端点提供服务(例如在多方会议使用案例中)的情况下,可避免潜在冲突。
以上内容涵盖呈现的声学场景应对捕获定向音频的麦克风系统302的位置及旋转保持不变的所有情况。为了解决呈现的声学场景应随着麦克风系统302的对应移动而旋转的剩余情况,计算单元306可任选地经配置以将包括麦克风系统的空间数据的元数据322的至少部分编码S18为所述数字音频数据328。例如,根据合适的旋转参考帧的定义,例如z轴对应于垂直方向,在许多情况下,可能仅必须发射方位角(以例如400bps)。可能仅在某些VR应用中需要麦克风系统302在旋转参考帧中的俯仰及横摇角。
有条件地提供的旋转/平移参数通常可作为IVAS RTP有效载荷格式的一个条件元素来传输。因此,这些参数将需要所分配的带宽的一小部分。
为了满足不同的场景,接收单元304可任选地经配置接收S10关于在计算单元306对数字音频数据328进行编码时如何处理元数据322的指令。指令可从呈现装置(例如,音频会议中的另一部分)或从协调装置(例如呼叫服务器或类似装置)接收S10。
在一些实施例中,接收单元304经进一步配置以接收S11第一指令,所述第一指令指示计算单元306是否将包括麦克风系统的空间数据的元数据322的所述至少部分包含到所述数字音频数据中。换句话说,第一指令通知装置300元数据中的任一者是否应包含在数字音频数据328中或所有元数据是否都不应包含在数字音频数据328中。例如,如果装置300作为音频会议的一部分发射数字音频数据328,那么第一指令可界定元数据322的任何部分都不应被包含在内。
替代地,或另外,在一些实施例中,接收单元304经进一步配置以接收第二指令,所述第二指令向计算单元指示麦克风系统的空间数据的哪个或哪些参数将包含在数字音频数据中,借此计算单元相应地进行动作。例如,出于带宽原因或其它原因,第二指令可向计算单元306界定以仅在数字音频数据328中包含方位角。
第一及/或第二指令可能通常受限于会话建立协商。因此,这些指令中的任何一个都不需要在会话期间传输,且将不需要为例如沉浸式音频/视频会议分配的任何带宽。
如上所提及,装置300可为视频会议的一部分。为此,接收单元304可经进一步配置以接收元数据(图1中未展示),所述元数据包括指示定向音频的捕获时间的时间戳,其中所述计算单元306经配置以将所述时间戳编码为所述数字音频数据。有利地,经修改的定向音频然后可在呈现侧上与捕获的视频同步。
在一些实施例中,经修改的定向音频的编码S17包括对经修改的定向音频进行降混,其中通过考虑麦克风系统302的空间定向来执行降混,并将降混与降混中使用的降混矩阵编码为所述数字音频数据328。降混可例如包括基于麦克风系统302的空间数据调整定向音频320的波束成形操作。
因此,数字音频数据作为例如沉浸式音频/视频会议场景的发射部分从装置300发射S19。数字音频数据然后由用于呈现音频信号的装置(例如沉浸式音频/视频会议场景的接收部分)接收。现在将结合图2及4描述呈现装置400。
呈现音频信号的装置400包括经配置以(有线或无线地)接收S21数字音频数据328的接收单元402。
装置400进一步包括解码单元404,其经配置以将接收的数字音频数据328解码S22为定向音频420及元数据422,所述元数据422包括空间数据,所述空间数据包括来自以下各项的列表的至少一者:方位角、俯仰角、横摇角及空间坐标。
在一些实施例中,上混由解码单元404执行。在这些实施例中,由解码单元404将接收的数字音频数据328解码为定向音频420包括:由解码单元404将接收的数字音频数据328解码为降混音频,并由解码单元404使用包含在接收的数字音频数据328中的降混矩阵将降混音频上混为定向音频420。
所述装置进一步包括呈现单元406,其经配置以使用空间数据修改S23定向音频的定向性质;并使用扬声器或耳机呈现S24经修改的定向音频424。
因此,装置400(其呈现单元406)经配置以基于接收的空间数据应用声学场景旋转/平移。
在一些实施例中,空间数据指示包括捕获定向音频的一或多个麦克风的麦克风系统的空间定向及/或空间位置,其中所述呈现单元修改S23定向音频的定向性质以至少部分地重现麦克风系统的音频环境。在此实施例中,装置400重新应用在捕获端由图3的装置300补偿的声学场景旋转的至少部分。
空间数据可包括包括以三个自由度DoF表示运动的旋转数据的空间数据。替代地,或另外,空间数据可包含空间坐标。
在一些实施例中,解码的定向音频可包括音频对象,或更一般来说,包括如上所述的与空间元数据相关联的音频。
在一些实施例中,由解码单元404将接收的数字音频数据解码S22为定向音频可包括将接收的数字音频数据解码为降混音频,并由解码单元404使用包含在接收的数字音频数据328中的降混矩阵将降混音频上混为定向音频。
为了提供提高的灵活性及/或满足带宽要求,装置400可包括发射单元306,其经配置以将指令发射S20到从其接收数字音频数据328的另一装置,所述指令向另一装置指示旋转或平移数据应包括哪个(如果有的话)或哪些参数。因此,此特征可促进满足潜在用户偏好或与呈现及/或所用服务的种类相关的偏好。
在一些实施例中,装置400还可经配置以向另一装置发射指示是否将包括空间数据的元数据包含到数字音频数据328中的指令。在这些实施例中,如果接收S21的数字音频数据328不包括任何此类元数据,那么呈现单元将把经解码定向音频呈现为经接收的(可能如上所述那样上混),而由于在捕获装置300处进行的补偿而不需要对定向音频的定向性质进行任何修改。然而,在一些实施例中,响应于呈现器的头部跟踪信息修改接收的定向音频(如下文进一步描述)。
在一些实施例中,装置400可在包括头部跟踪装置的VR装备或AR装备中实施,所述头部跟踪装置经配置以在六个DoF中测量装置的空间定向。呈现单元406可经配置以用于双耳音频呈现。
在一些实施例中,呈现单元406经配置以基于在元数据中接收的空间坐标来调整S25呈现音频的音量。下文将结合图6到7进一步描述此特征。
图5展示包括捕获装置300(如结合图3所述)及呈现装置400(如结合图4所述)的系统。在一些实施例中,捕获装置300可接收S10从呈现装置400发射S20的的指令334,所述指令334指示捕获装置300是否及在多大程度上应在数字音频数据328中包含捕获装置的麦克风系统的空间数据。
在一些实施例中,捕获装置300进一步包括视频记录单元,且经配置以将所记录的视频编码为数字视频数据502并将所述数字视频数据发射到呈现装置400,其中所述呈现装置400进一步包括用于显示经解码的数字视频数据的显示器。
如上所述,在音频捕获期间捕获装置300的麦克风系统的位置及/或空间定向的改变可导致呈现装置400处的呈现场景的空间旋转/平移。取决于所提供的体验的种类,例如沉浸式、VR、AR或XR,且取决于特定的使用案例,这种行为可能是期望或不期望的。其中这可能需是期望的的一个实例是当服务额外提供视觉组件502时,及在捕获相机与一或多个麦克风302集成在同一装置中的情况下。在这种情况下,应预期捕获装置300的旋转应导致在呈现装置400处的呈现的视听场景的对应旋转。
另一方面,如果视听捕获不是由同一物理装置完成的,或在没有视频分量的情况下,如果每当捕获装置300旋转时呈现场景都旋转,那么可能会使收听者感到烦恼。在最坏的情况下,可能会引起运动病。
为此,根据一些实施例,呈现装置400的呈现单元可经配置以在呈现装置400进一步接收来自捕获装置300的编码视频数据502之后,使用空间数据修改定向音频(在数字音频数据328中接收)的定向性质并呈现经修改的定向音频。
然而,当呈现装置400没有从捕获装置300接收到编码视频数据时,呈现装置400的呈现单元可经配置以在没有任何定向修改的情况下呈现定向音频。
在其它实施例中,在会议之前通知呈现装置400视频分量将不被包含在从捕获装置300接收的数据中。在这种情况下,呈现装置400可在指令334中指示捕获装置300的麦克风系统的空间数据根本不需要包含在数字音频数据328中,借此呈现装置400的呈现单元经配置以在没有任何定向修改的情况下呈现在数字音频数据328中接收到的定向音频。
在上文中,已简要概述定向音频在捕获装置上的降混及/或编码。现在将进一步阐述这一点。
在许多情况下,捕获装置300不具有有关经解码的呈现(在呈现装置处)是否将到单个单声道扬声器、立体声扬声器或耳机的信息。在服务会话期间,实际的呈现场景也可能变化,例如,在连接的重放装备可能改变的情况下,例如耳机与移动电话连接或断开连接。呈现装置能力未知的又一场景是当单个捕获装置300需要支持多个端点(呈现装置400)时。例如,在IVAS会议或VR内容分配使用案例中,一个端点可能正在使用耳机,且另一端点可能呈现到立体声扬声器,然而能够向两个端点供应单个编码将是有利的,因为这将降低编码侧的复杂度,且还可降低所需的聚合网络带宽。
支撑这些情况的简单但不太合意的方式是始终假设最低的接收装置能力,即单声道,并选择对应的音频操作模式。然而,更明智的是,要求使用的编解码器(例如IVAS编解码器),即使在支撑空间、双耳或立体声音频的呈现模式下操作,也始终可产生解码音频信号,所述解码音频信号可以相应较低的音频能力呈现在装置400上。在一些实施例中,编码为空间音频信号的信号也可经解码以用于双耳、立体声及/或单声道呈现。类似地,经编码为双耳的信号可经解码为立体声或单声道,且经编码为立体声的信号可经解码用于单声道呈现。作为说明,捕获装置300应只需要实施单个编码(数字音频数据328)并将相同的编码发送到多个端点400,其中一些可支持双耳呈现,且其中一些可仅为立体声的。
应注意,上面讨论的编解码器可在捕获装置或呼叫服务器中实施。在呼叫服务器的情况下,呼叫服务器将从捕获装置接收数字音频数据328,并对数字音频数据进行转码以满足上述要求然后将经转码的数字音频数据发送到一或多个呈现装置400。现在将结合图6来例示此类场景。
在图6中说明物理VR会议场景600。来自不同位点的5个VR/AR会议用户602a到e正虚拟地开会。VR/AR会议用户602a到e可为IVAS启用的。他们中的每一者都使用VR/AR装备,包含例如使用HMD的双耳回放及视频回放。所有用户的装备以对应的头部跟踪支持6DOF的移动。用户的用户装备UE 602与会议呼叫服务器604上下游交换编码音频。视觉上,用户可通过基于与相对位置参数及其旋转定向相关的信息来呈现的相应化身来表示。
为了进一步改进沉浸式用户体验,在呈现从会议场景中的其它参与者接收的音频时,还考虑收听者的头部的旋转移动及/或平移移动。因此,头部跟踪将用户的VR/AR装备的当前空间数据(6DOF)通知给用户的呈现装置(图4到5中的参考400)的呈现单元。此空间数据与从另一用户602接收的数字音频数据中接收的空间数据组合(例如,通过矩阵乘法或修改与定向音频相关联的元数据),借此呈现单元基于空间数据的组合修改从所述另一用户602接收的定向音频的定向性质。然后,将经修改的定向音频呈现给用户。
此外,可基于在数字音频数据中接收的空间坐标来调整从特定用户接收的呈现音频的音量。基于两个用户之间的虚拟(或真实)距离(由呈现装置或呼叫服务器604计算),可增大或减小音量以进一步改进沉浸式用户体验。
图7通过实例的方式说明由会议呼叫服务器生成的虚拟会议空间700。最初,服务器将会议用户Ui,i=1…5(也称为702a到e)放置在虚拟位置坐标Ki=(xi,yi,zi)。虚拟会议空间在用户之间共享。因此,每一用户的视听呈现在所述空间中进行。例如,从用户U5的角度(对应于图6中的用户602d),呈现将虚拟地将其它会议参与者放置在相对位置Ki–K5,i≠5。例如,用户U5将把用户U2感知为在距离|Ki–K5|处且在向量(Ki–K5)/|Ki–K5|的方向下,从而相对于U5的旋转位置执行指向呈现。图2中还说明U5朝向U4的移动。此移动将影响U5相对于其它用户的位置,这将在呈现时被考虑在内。同时,U5的UE将其改变的位置发送到会议服务器604,会议服务器604用U5的新坐标更新虚拟会议空间。因为虚拟会议空间被共享,所以用户U1到U4感知到移动用户U5,且可相应地调适其相应的呈现器。用户U2的同时移动正根据对应的原理工作。呼叫服务器604经配置以在共享会议空间中维护参与者702a到e的位置数据。
在图6到7的场景中,当涉及到音频时,以下6DOF要求中的一或多者可适用于编码框架:
-提供用于接收端点的位置信息的表示及上游传输的元数据框架,包含空间坐标及/或旋转坐标(如上结合图1到4所描述)。
-将输入音频元素(如对象)与6DOF属性(包含空间坐标、旋转坐标、方向性)相关联的能力。
-关于其相关联的6DOF属性同时空间呈现多个接收的音频元素的能力。
-在收听者头部的旋转及平移移动之后对呈现场景进行适当的调整。
应注意,上述内容也适用于XR会议,它是物理会议与虚拟会议的混合。物理参与者通过其AR眼镜及耳机看到并听到代表远程参与者的化身。他们在讨论中与化身交互,就好像这些是物理上存在的参与者一样。对于他们来说,与其它物理及虚拟参与者的交互发生在混合现实中。真实及虚拟参与者位置被合并到与物理会议空间中的真实参与者位置的位置一致的组合共享虚拟会议空间(例如通过呼叫服务器604)并使用绝对及相对物理/真实位置数据映射到虚拟会议空间中。
在VR/AR/XR场景中,可形成虚拟会议的子组。这些子组可用于通知呼叫服务器604在哪些用户当中例如服务质量QoS应该较高,及在哪些用户当中QoS可能较低。在一些实施例中,在经由VR/AR/XR装备提供给这些子组的虚拟环境中仅包含同一子组中的参与者。例如,可形成子组的场景是提供来自远程位置的虚拟参与的海报会话。远程参与者配备HMD及耳机。他们实际上是存在的,可从一张海报走到另一张海报。如果他们认为主题或正在进行的讨论是有趣的,那么他们可收听正在进行的海报展示,并移动到更接近展示。为了改进虚拟参与者与物理参与者之间沉浸式交互的可能性,可例如基于参与者当前对多个海报中的哪个海报感兴趣形成子组。
此场景的实施例包括:
-通过电话会议系统接收来自虚拟会议的参与者的主题;
-通过基于主题的电话会议系统将参与者分组为虚拟会议的子组;
-由电话会议系统接收来自新参与者的装置的加入虚拟会议的请求,所述请求与指示优先主题的指示符相关联;
-通过远程会议系统,基于优先主题及子组的主题从子组中选择子组;
-通过电话会议系统向新参与者的装置提供虚拟会议的虚拟环境,所述虚拟环境指示新参与者与所选子组的一或多个参与者之间的视觉虚拟接近或音频虚拟接近中的至少一者。
在一些实施例中,虚拟环境至少通过提供虚拟现实显示或虚拟现实声场来指示视觉虚拟接近或音频虚拟接近,其中新参与者的化身与所选子组的参与者的一或多个化身彼此接近。
在一些实施例中,每一参与者通过打开的耳机及AR眼镜连接。
VI-等效物、扩展、替代例及杂项
在研究上述描述之后,本公开的进一步实施例将对所属领域的技术人员变得显而易见。尽管本描述及附图公开实施例及实例,但本公开不限于这些具体实例。在不脱离本公开的范围的情况下可进行许多修改及变化,本公开的范围由所附权利要求书界定。权利要求书中出现的任何参考标志不应被理解为限制其范围。
此外,技术人员可在实践本公开时通过对附图、本公开及所附权利要求书的研究来理解并实现对所公开实施例的变化。在权利要求中,“包括”一词不排除其它元件或步骤,且不定冠词“一”或“一个”不排除多个。仅在相互不同的从属权利要求中叙述某些测量的事实并不指示不能有利地使用这些测量的组合。
以上公开的系统及方法可经实施为软件、固件、硬件或其组合。在硬件实施方案中,上述描述中提到的功能单元之间的任务划分不一定对应于划分成物理单元;相反,一个物理组件可具有多个功能,且一个任务可由多个物理组件协同执行。某些组件或所有组件可经实施为由数字信号处理器或微处理器执行的软件,或经实施为硬件或专用集成电路。此类软件可分布在计算机可读媒体上,计算机可读媒体可包括计算机存储媒体(或非暂时性媒体)及通信媒体(或暂时性媒体)。如所属领域技术人员所众所周知的,术语计算机存储媒体包含易失性及非易失性、可卸除及不可卸除媒体,其经实施在用于存储例如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术中。计算机存储媒体包含但不限于RAM、ROM、EEPROM、快闪存储器或其它存储器技术、CD-ROM、数字多功能磁盘(DVD)或其它光盘存储装置、磁带盒、磁带、磁盘存储或其它磁存储装置,或可用于存储所需信息并可由计算机存取的任何其它媒体。进一步来说,所属领域技术人员众所周知的是,通信媒体通常以例如载波或其它传送机制的调制数据信号体现计算机可读指令、数据结构、程序模块或其它数据,且包含任何信息递送媒体。
所有附图都是示意图,且通常仅展示为了阐明本公开所必需的部分,而其它部分可省略或仅暗示。除非另有指示,否则相似的参考编号指代不同附图中的相似部分。
Claims (28)
1.一种装置,其包括或连接到麦克风系统(302),所述麦克风系统包括用于捕获音频的一或多个麦克风,所述装置包括:
接收单元(304),其经配置以:
接收(S13)由所述麦克风系统捕获的定向音频(320);
接收(S14)与所述麦克风系统相关联的元数据(322),所述元数据包括所述麦克风系统的空间数据,所述空间数据指示所述麦克风系统的空间定向及/或空间位置,且包括来自以下各项的列表中的至少一者:所述麦克风系统的方位角、俯仰角、横摇角及空间坐标;
计算单元(306),其经配置以:
修改所述定向音频中的至少一些以产生经修改的定向音频,其中响应于所述麦克风系统的所述空间定向及/或空间位置修改所述音频的定向性质;
将所述经修改的定向音频编码为数字音频数据(328);
发射单元(308),其经配置以发射所述数字音频数据。
2.根据权利要求1所述的装置,其中所述麦克风系统的所述空间定向用所述空间数据中的描述具有一个自由度DoF的旋转移动/定向的参数来表示。
3.根据权利要求1所述的装置,其中所述麦克风系统的所述空间定向用所述空间数据中的描述具有三个DoF的旋转移动/定向的参数来表示。
4.根据权利要求1或3中任一权利要求所述的装置,其中所述麦克风系统的所述空间数据以六个DoF来表示。
5.根据权利要求1至4中任一权利要求所述的装置,其中所述接收的定向音频包括包括定向元数据的音频。
6.根据权利要求1至5中任一权利要求所述的装置,其中计算单元经进一步配置以将包括所述麦克风系统的空间数据的所述元数据的至少部分编码为所述数字音频数据。
7.根据权利要求6所述的装置,其中所述接收单元经进一步配置以接收(S11)第一指令(334),所述第一指令向所述计算单元指示是否将包括所述麦克风系统的空间数据的所述元数据的所述至少部分包含到所述数字音频数据中,其中所述计算单元相应地进行动作。
8.根据权利要求6至7中任一权利要求所述的装置,其中所述接收单元经进一步配置以接收(S12)第二指令(334),所述第二指令向所述计算单元指示所述麦克风系统的所述空间数据的哪个或哪些参数将包含在所述数字音频数据中,其中所述计算单元相应地进行动作。
9.根据权利要求7至8中任一权利要求所述的装置,其中所述发射单元经配置以将所述数字音频数据发射到另一装置(400),其中从所述另一装置接收关于所述第一及/或第二指令的指示。
10.根据权利要求1至9中任一权利要求所述的装置,其中所述接收单元经进一步配置以接收元数据,所述元数据包括指示所述定向音频的捕获时间的时间戳,其中所述计算单元经配置以将所述时间戳编码为所述数字音频数据。
11.根据权利要求1至10中任一权利要求所述的装置,其中所述经修改的定向音频的所述编码包括对所述经修改的定向音频进行降混,其中通过考虑所述麦克风系统的所述空间定向来执行所述降混,及将所述降混与所述降混中使用的降混矩阵编码为所述数字音频数据。
12.根据权利要求11所述的装置,其中所述降混包括波束成形。
13.根据权利要求1至12中任一权利要求所述的装置,其在包括所述麦克风系统及头部跟踪装置的虚拟现实VR装备(602a-e)或增强现实AR装备(602a-e)中实施,所述头部跟踪装置经配置以用3到6个DoF确定所述装置的空间数据。
14.一种用于呈现音频信号的装置(400),所述装置包括:
接收单元(402),其经配置以接收(S21)数字音频数据(328),
解码单元(404),其经配置以:
将接收的数字音频数据解码(S22)为定向音频(420)及元数据(422),所述元数据包括空间数据,所述空间数据包括来自以下各项的列表中的至少一者:方位角、俯仰角、横摇角及空间坐标;
呈现单元(406),其经配置以:
使用所述空间数据修改(S23)所述定向音频的定向性质;及
呈现(S24)经修改的定向音频(424)。
15.根据权利要求14所述的装置,其中所述空间数据指示麦克风系统(302)的所述空间定向及/或空间位置,所述麦克风系统包括捕获所述定向音频的一或多个麦克风,其中所述呈现单元修改所述定向音频的所述定向性质以至少部分地重现所述麦克风系统的音频环境。
16.根据权利要求14至15中任一权利要求所述的装置,其中所述空间数据包括描述具有一个自由度DoF的旋转移动/定向的参数。
17.根据权利要求14至15中任一权利要求所述的装置,其中所述空间数据包括描述具有三个DoF的旋转移动/定向的参数。
18.根据权利要求14至17中任一权利要求所述的装置,其中解码的定向音频包括包括定向元数据的音频。
19.根据权利要求14至18中任一权利要求所述的装置,其进一步包括发射单元(306),所述发射单元经配置以将指令(334)发射到从其接收所述数字音频的另一装置(300),所述指令向所述另一装置指示所述旋转数据应包括哪个或哪些参数。
20.根据权利要求14至19中任一权利要求所述的装置,其中所述解码单元经进一步配置以从所述数字音频数据提取指示所述定向音频的捕获时间的时间戳。
21.根据权利要求14至20中任一权利要求所述的装置,其中所述由所述解码单元将所述接收的数字音频数据解码为定向音频包括:
将所述接收的数字音频数据解码为降混音频,
由所述解码单元使用包含在所述接收的数字音频数据中的降混矩阵将所述降混音频上混为所述定向音频。
22.根据权利要求14至21中任一权利要求所述的装置,其中所述空间数据包含空间坐标,且其中所述呈现单元经进一步配置以基于所述空间坐标调整呈现音频的音量。
23.根据权利要求14至22中任一权利要求所述的装置,其在包括头部跟踪装置的虚拟现实VR装备(602a-e)或增强现实AR装备(602a-e)中实施,所述头部跟踪装置经配置以用六个DoF测量所述装置的空间定向及空间位置。
24.根据权利要求14至23中任一权利要求所述的装置,其中所述呈现单元经配置用于双耳音频呈现。
25.一种系统,其包括:
根据权利要求1至13中任一权利要求所述的第一装置(300),其经配置以将数字音频数据发射到根据权利要求14至24中任一权利要求所述的第二装置(400),其中所述系统经配置用于音频及/或视频会议。
26.根据权利要求25所述的系统,其中所述第一装置进一步包括视频记录单元,且经配置以将记录的视频编码为数字视频数据并将所述数字视频数据发射到所述第二装置,其中所述第二装置进一步包括用于显示解码数字视频数据的显示器。
27.一种系统,其包括根据权利要求1至13中任一权利要求所述的第一装置(300),所述第一装置经配置以向第二装置发射数字音频数据,所述第二装置包括:
接收单元,其经配置以接收数字音频数据,
解码单元,其经配置以:
将所述接收的数字音频数据解码为定向音频及元数据,所述元数据包括空间数据,所述空间数据包括来自以下各项的列表中的至少一者:方位角、俯仰角、横摇角及空间坐标;
呈现单元,其用于呈现音频;
其中所述呈现单元经配置以,在所述第二装置进一步从所述第一装置接收编码视频数据之后:
使用所述空间数据修改所述定向音频的定向性质,及
呈现所述经修改的定向音频;
其中所述呈现单元经配置以,在所述第二装置没有从所述第一装置接收编码视频数据之后:
呈现所述定向音频。
28.一种存储指令的非暂时性计算机可读媒体,所述指令在由一或多个处理器执行时致使一或多个处理器执行根据前述权利要求中任一权利要求所述的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311243327.7A CN117241173A (zh) | 2018-11-13 | 2019-11-12 | 沉浸式音频服务中的音频处理 |
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862760262P | 2018-11-13 | 2018-11-13 | |
US62/760,262 | 2018-11-13 | ||
US201962793666P | 2019-01-17 | 2019-01-17 | |
US62/793,666 | 2019-01-17 | ||
US201962795236P | 2019-01-22 | 2019-01-22 | |
US62/795,236 | 2019-01-22 | ||
US201962797563P | 2019-01-28 | 2019-01-28 | |
US62/797,563 | 2019-01-28 | ||
PCT/US2019/060855 WO2020102153A1 (en) | 2018-11-13 | 2019-11-12 | Audio processing in immersive audio services |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311243327.7A Division CN117241173A (zh) | 2018-11-13 | 2019-11-12 | 沉浸式音频服务中的音频处理 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112970270A true CN112970270A (zh) | 2021-06-15 |
CN112970270B CN112970270B (zh) | 2023-10-13 |
Family
ID=69160197
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311243327.7A Pending CN117241173A (zh) | 2018-11-13 | 2019-11-12 | 沉浸式音频服务中的音频处理 |
CN201980071861.XA Active CN112970270B (zh) | 2018-11-13 | 2019-11-12 | 沉浸式音频服务中的音频处理 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311243327.7A Pending CN117241173A (zh) | 2018-11-13 | 2019-11-12 | 沉浸式音频服务中的音频处理 |
Country Status (13)
Country | Link |
---|---|
US (1) | US20220022000A1 (zh) |
EP (2) | EP3881559B1 (zh) |
JP (2) | JP7488258B2 (zh) |
KR (1) | KR20210090171A (zh) |
CN (2) | CN117241173A (zh) |
AU (1) | AU2019380367A1 (zh) |
BR (1) | BR112021007089A2 (zh) |
CA (1) | CA3116181A1 (zh) |
ES (1) | ES2974219T3 (zh) |
IL (1) | IL281936A (zh) |
MX (1) | MX2021005017A (zh) |
SG (1) | SG11202103700QA (zh) |
WO (1) | WO2020102153A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020102156A1 (en) * | 2018-11-13 | 2020-05-22 | Dolby Laboratories Licensing Corporation | Representing spatial audio by means of an audio signal and associated metadata |
US20220311814A1 (en) * | 2021-03-29 | 2022-09-29 | Tencent America LLC | Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100008640A1 (en) * | 2006-12-13 | 2010-01-14 | Thomson Licensing | System and method for acquiring and editing audio data and video data |
US20100061558A1 (en) * | 2008-09-11 | 2010-03-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues |
US20100303265A1 (en) * | 2009-05-29 | 2010-12-02 | Nvidia Corporation | Enhancing user experience in audio-visual systems employing stereoscopic display and directional audio |
US20140226838A1 (en) * | 2013-02-13 | 2014-08-14 | Analog Devices, Inc. | Signal source separation |
US20140358567A1 (en) * | 2012-01-19 | 2014-12-04 | Koninklijke Philips N.V. | Spatial audio rendering and encoding |
US20150208156A1 (en) * | 2012-06-14 | 2015-07-23 | Nokia Corporation | Audio capture apparatus |
CN105792086A (zh) * | 2011-07-01 | 2016-07-20 | 杜比实验室特许公司 | 用于自适应音频信号产生、编码和呈现的系统和方法 |
US20180077491A1 (en) * | 2015-04-02 | 2018-03-15 | Dolby Laboratories Licensing Corporation | Distributed Amplification for Adaptive Audio Rendering Systems |
WO2018100232A1 (en) * | 2016-11-30 | 2018-06-07 | Nokia Technologies Oy | Distributed audio capture and mixing |
US20190132674A1 (en) * | 2016-04-22 | 2019-05-02 | Nokia Technologies Oy | Merging Audio Signals with Spatial Metadata |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5521981A (en) * | 1994-01-06 | 1996-05-28 | Gehring; Louis S. | Sound positioner |
US6814332B2 (en) * | 2003-01-15 | 2004-11-09 | Ultimate Support Systems, Inc. | Microphone support boom movement control apparatus and method with differential motion isolation capability |
JP2005181391A (ja) | 2003-12-16 | 2005-07-07 | Sony Corp | 音声処理装置および音声処理方法 |
US20050147261A1 (en) * | 2003-12-30 | 2005-07-07 | Chiang Yeh | Head relational transfer function virtualizer |
ATE503245T1 (de) | 2006-10-16 | 2011-04-15 | Dolby Sweden Ab | Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung |
CN101690212B (zh) * | 2007-07-05 | 2012-07-11 | 三菱电机株式会社 | 数字影像传送系统 |
US9994228B2 (en) | 2010-05-14 | 2018-06-12 | Iarmourholdings, Inc. | Systems and methods for controlling a vehicle or device in response to a measured human response to a provocative environment |
US8712076B2 (en) | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
WO2013135940A1 (en) * | 2012-03-12 | 2013-09-19 | Nokia Corporation | Audio source processing |
US9621991B2 (en) * | 2012-12-18 | 2017-04-11 | Nokia Technologies Oy | Spatial audio apparatus |
US9712936B2 (en) | 2015-02-03 | 2017-07-18 | Qualcomm Incorporated | Coding higher-order ambisonic audio data with motion stabilization |
US10085029B2 (en) * | 2015-07-21 | 2018-09-25 | Qualcomm Incorporated | Switching display devices in video telephony |
US9824500B2 (en) * | 2016-03-16 | 2017-11-21 | Microsoft Technology Licensing, Llc | Virtual object pathing |
US10026403B2 (en) * | 2016-08-12 | 2018-07-17 | Paypal, Inc. | Location based voice association system |
US10165386B2 (en) * | 2017-05-16 | 2018-12-25 | Nokia Technologies Oy | VR audio superzoom |
US10819414B2 (en) * | 2018-03-26 | 2020-10-27 | Intel Corporation | Methods and devices for beam tracking |
-
2019
- 2019-11-12 US US17/292,457 patent/US20220022000A1/en active Pending
- 2019-11-12 ES ES19836164T patent/ES2974219T3/es active Active
- 2019-11-12 JP JP2021525072A patent/JP7488258B2/ja active Active
- 2019-11-12 CA CA3116181A patent/CA3116181A1/en active Pending
- 2019-11-12 CN CN202311243327.7A patent/CN117241173A/zh active Pending
- 2019-11-12 CN CN201980071861.XA patent/CN112970270B/zh active Active
- 2019-11-12 EP EP19836164.4A patent/EP3881559B1/en active Active
- 2019-11-12 WO PCT/US2019/060855 patent/WO2020102153A1/en unknown
- 2019-11-12 BR BR112021007089-3A patent/BR112021007089A2/pt unknown
- 2019-11-12 SG SG11202103700QA patent/SG11202103700QA/en unknown
- 2019-11-12 EP EP24156662.9A patent/EP4344194A3/en active Pending
- 2019-11-12 KR KR1020217013172A patent/KR20210090171A/ko unknown
- 2019-11-12 MX MX2021005017A patent/MX2021005017A/es unknown
- 2019-11-12 AU AU2019380367A patent/AU2019380367A1/en active Pending
-
2021
- 2021-03-31 IL IL281936A patent/IL281936A/en unknown
-
2024
- 2024-05-09 JP JP2024076517A patent/JP2024102276A/ja active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100008640A1 (en) * | 2006-12-13 | 2010-01-14 | Thomson Licensing | System and method for acquiring and editing audio data and video data |
US20100061558A1 (en) * | 2008-09-11 | 2010-03-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues |
US20100303265A1 (en) * | 2009-05-29 | 2010-12-02 | Nvidia Corporation | Enhancing user experience in audio-visual systems employing stereoscopic display and directional audio |
CN105792086A (zh) * | 2011-07-01 | 2016-07-20 | 杜比实验室特许公司 | 用于自适应音频信号产生、编码和呈现的系统和方法 |
US20140358567A1 (en) * | 2012-01-19 | 2014-12-04 | Koninklijke Philips N.V. | Spatial audio rendering and encoding |
US20150208156A1 (en) * | 2012-06-14 | 2015-07-23 | Nokia Corporation | Audio capture apparatus |
US20140226838A1 (en) * | 2013-02-13 | 2014-08-14 | Analog Devices, Inc. | Signal source separation |
US20180077491A1 (en) * | 2015-04-02 | 2018-03-15 | Dolby Laboratories Licensing Corporation | Distributed Amplification for Adaptive Audio Rendering Systems |
US20190132674A1 (en) * | 2016-04-22 | 2019-05-02 | Nokia Technologies Oy | Merging Audio Signals with Spatial Metadata |
WO2018100232A1 (en) * | 2016-11-30 | 2018-06-07 | Nokia Technologies Oy | Distributed audio capture and mixing |
Also Published As
Publication number | Publication date |
---|---|
JP2022509761A (ja) | 2022-01-24 |
CN112970270B (zh) | 2023-10-13 |
JP2024102276A (ja) | 2024-07-30 |
US20220022000A1 (en) | 2022-01-20 |
EP4344194A3 (en) | 2024-06-12 |
KR20210090171A (ko) | 2021-07-19 |
EP3881559A1 (en) | 2021-09-22 |
CA3116181A1 (en) | 2020-05-22 |
SG11202103700QA (en) | 2021-05-28 |
MX2021005017A (es) | 2021-06-15 |
JP7488258B2 (ja) | 2024-05-21 |
AU2019380367A1 (en) | 2021-05-20 |
IL281936A (en) | 2021-05-31 |
WO2020102153A1 (en) | 2020-05-22 |
EP3881559B1 (en) | 2024-02-14 |
BR112021007089A2 (pt) | 2021-07-20 |
EP4344194A2 (en) | 2024-03-27 |
CN117241173A (zh) | 2023-12-15 |
ES2974219T3 (es) | 2024-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8791978B2 (en) | Scalable video encoding in a multi-view camera system | |
US8988486B2 (en) | Adaptive video communication channel | |
EP3803858A1 (en) | Spatial audio parameter merging | |
JP2024102276A (ja) | 没入的オーディオ・サービスにおけるオーディオ処理 | |
KR20180044077A (ko) | 단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치 | |
JP2010541343A (ja) | ビデオ通信方法、システムおよび装置 | |
US11662975B2 (en) | Method and apparatus for teleconference | |
CN111385515B (zh) | 视频会议数据的传输方法和视频会议数据的传输系统 | |
US20230085918A1 (en) | Audio Representation and Associated Rendering | |
US11503085B2 (en) | Multimedia composition in meeting spaces | |
CN114067810A (zh) | 音频信号渲染方法和装置 | |
JP7508586B2 (ja) | 没入型テレカンファレンスおよびテレプレゼンスのためのマルチグルーピングの方法、装置、およびコンピュータプログラム | |
US11930350B2 (en) | Rendering audio | |
CN117219096A (zh) | 一种在实时云渲染环境下多用户语音空间音频的实现方法 | |
RU2810920C2 (ru) | Обработка звука в звуковых услугах с эффектом присутствия | |
Gabin et al. | 5G multimedia standardization | |
GB2568726A (en) | Object prioritisation of virtual content | |
US20230146498A1 (en) | A Method, An Apparatus and a Computer Program Product for Video Encoding and Video Decoding | |
Shi et al. | ViewMark: An interactive videoconferencing system for mobile devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |