CN114072792A - 用于音频渲染的基于密码的授权 - Google Patents
用于音频渲染的基于密码的授权 Download PDFInfo
- Publication number
- CN114072792A CN114072792A CN202080048623.XA CN202080048623A CN114072792A CN 114072792 A CN114072792 A CN 114072792A CN 202080048623 A CN202080048623 A CN 202080048623A CN 114072792 A CN114072792 A CN 114072792A
- Authority
- CN
- China
- Prior art keywords
- audio
- password
- restricted
- audio stream
- audio streams
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009877 rendering Methods 0.000 title description 27
- 238000013475 authorization Methods 0.000 title description 4
- 238000000034 method Methods 0.000 claims abstract description 145
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000002085 persistent effect Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 230000000873 masking effect Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 description 66
- 238000004891 communication Methods 0.000 description 42
- 230000006870 function Effects 0.000 description 22
- 230000005540 biological transmission Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 20
- 230000003190 augmentative effect Effects 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 14
- 230000004886 head movement Effects 0.000 description 13
- 230000033001 locomotion Effects 0.000 description 12
- 238000007654 immersion Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 8
- 238000003491 array Methods 0.000 description 7
- 230000001404 mediated effect Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000004091 panning Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 102100022340 SHC-transforming protein 1 Human genes 0.000 description 5
- 101150036464 aptx gene Proteins 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000014616 translation Effects 0.000 description 5
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 239000004984 smart glass Substances 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- IBIKHMZPHNKTHM-RDTXWAMCSA-N merck compound 25 Chemical compound C1C[C@@H](C(O)=O)[C@H](O)CN1C(C1=C(F)C=CC=C11)=NN1C(=O)C1=C(Cl)C=CC=C1C1CC1 IBIKHMZPHNKTHM-RDTXWAMCSA-N 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 101100365689 Homo sapiens SHC1 gene Proteins 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- -1 enhanced AptX-E-AptX Proteins 0.000 description 1
- 239000008187 granular material Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 201000003152 motion sickness Diseases 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/42—User authentication using separate channels for security data
- G06F21/43—User authentication using separate channels for security data wireless channels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/305—Authentication, i.e. establishing the identity or authorisation of security principals by remotely controlling device operation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/33—User authentication using certificates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/083—Network architectures or network communication protocols for network security for authentication of entities using passwords
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/083—Network architectures or network communication protocols for network security for authentication of entities using passwords
- H04L63/0846—Network architectures or network communication protocols for network security for authentication of entities using passwords using time-dependent-passwords, e.g. periodically changing passwords
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/102—Entity profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/756—Media network packet handling adapting media to device capabilities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Stereophonic System (AREA)
Abstract
本公开描述了一种用于根据基于密码的隐私限制处理一个或多个音频流的方法和设备。一种设备可以被配置为:基于与密码相关联的隐私限制来接收一个或多个音频流中的不受限制音频流,其中该一个或多个音频流来自在声学环境中表示的音频元素,该声学环境包括一个或多个子声学空间,该一个或多个音频流中的每一者表示相应声场;以及生成不受限制音频流的相应声场。
Description
本申请要求于2020年7月1日提交的美国申请号16/918,338的优先权,该美国申请要求于2019年7月3日提交的美国临时申请号62/870,479的权益,每个申请的全部内容通过引用方式结合于本文中
技术领域
本公开涉及诸如音频数据等媒体数据的处理。
背景技术
正在开发计算机介导的现实系统,以允许计算设备增强或添加、去除或减去或通常修改用户体验的现有现实。计算机介导的现实系统(也可以称为“扩展现实系统”或“XR系统”)可以包括例如虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR))系统。计算机介导的现实系统的感知成功通常与此类计算机介导的现实系统在视频和音频体验两个方面提供逼真的沉浸式体验的能力有关,其中视频和音频体验以用户期望的方式对准。尽管人类视觉系统比人类听觉系统更敏感(例如,在场景中各种物体的感知定位方面),但是确保足够的听觉体验是确保逼真的沉浸式体验的越来越重要的因素,尤其是因为视频体验改进以允许更好地定位视频对象,该视频对象使得用户能够更好地标识音频内容的来源。
发明内容
本公开总体上涉及计算机介导的现实系统的用户体验的听觉方面,该现实系统包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉和图形系统。该技术的各个方面可以提供对用于扩展现实系统的声学空间的音频渲染的用户控制。如本文所使用的,声学环境被表示为室内环境或室外环境,或者室内环境和室外环境两者。声学环境可以包括一个或多个子声学空间,该子声学空间可以包括各种声学元件。子声学空间可以例如为房间,或房间或建筑物内的区域、车辆的车厢、教室、教室内的区域、或任何类型的声学空间的任何子集。室外环境的示例可以包括汽车、建筑物、墙壁、森林等。声学空间可以是声学环境的示例并且可以是室内空间或室外空间。如本文所使用,音频元素可以是通过传声器捕获的声音(例如,直接从近场源捕获或来自远场源的反射,而不管是真实还是合成的)、由传声器阵列捕获的声音、先前合成的声场、从本文到语音合成的单声道(mono)声音,和/或来自声学环境中的对象的虚拟声音的反射。
当以可以从实时场景的音频元素获得的许多音频源渲染XR场景(例如,六个自由度(6DOF)XR场景)时,某些音频元素或音频元素的群组(cluster)可以包含敏感信息和/或可能意图用于受限制或排他性访问。根据本公开的技术,音频回放设备(例如,VR或XR设备)可以被配置为根据与密码相关联的隐私限制接收和/或确定受限制和不受限制音频流。在本公开的上下文中,密码可以是用于使密码的特定保持器(holder)与隐私限制集合(例如,指示特定音频流是否被回放和/或渲染的限制)相关联的任何信息(例如,密钥、加密密钥、访问代码等)。
在一些示例中,音频回放设备可以从发送一个或多个音频流的主机获得密码。在一个示例中,音频回放设备可以请求音频流并将密码提供回到主机。在该示例中,主机可以发送基于密码的仅不受限制的音频流。在其它示例中,音频回放设备可以请求音频流,并且将密码提供回到主机,并且主机可以发送所有音频流。然而,主机还可以包括数据(例如,音频元数据),该数据指示特定流是否基于密码而受限制。音频回放设备然后将基于数据(例如,音频元数据)来限制回放。在另外其它示例中,音频回放设备不会将密码提供到主机。而是,主机可以发送所有音频流以及多个数据(例如,音频元数据),该数据指示特定流是否基于特定类型的密码而受限制。音频回放设备然后可以将存储于音频回放设备处的密码与对应于同一类型的密码的音频元数据相关联,并且然后基于流来限制回放,该流基于该关联而受限制。
密码可以针对一个或多个区(zone)/群组或与区/群组相关联的音频流来生成,并且认证可以基于与密码相关联的收听者或用户来执行。本公开的技术可以为音频流不可以从捕获侧受限制的情形提供渲染侧(例如,音频回放设备)隐私访问。此类技术在服务于音频数据的动态源时提供隐私灵活性,并且可以添加附加安全层。
在一个示例中,本公开描述了一种被配置为处理一个或多个音频流的设备,该设备包括存储器,该存储器被配置为存储该一个或多个音频流;以及一个或多个处理器,该一个或多个处理器耦合到该存储器并且被配置为:基于与密码相关联的隐私限制来接收一个或多个音频流中的不受限制音频流,其中该一个或多个音频流来自在声学环境中表示的音频元素,该声学环境包括一个或多个子声学空间,该一个或多个音频流中的每一者表示相应声场;以及生成该不受限制音频流的相应声场。
在另一示例中,本公开描述了一种用于处理一个或多个音频流的方法,该方法包括:基于与密码相关联的隐私限制来接收该一个或多个音频流中的不受限制音频流,其中该一个或多个音频流来自在声学环境中表示的音频元素,该声学环境包括一个或多个子声学空间,该一个或多个音频流中的每一者表示相应声场;以及生成该不受限制音频流的相应声场。
在另一示例中,本公开描述了一种存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使被配置为处理一个或多个音频流的设备的一个或多个处理器:基于与密码相关联的隐私限制来接收该一个或多个音频流中的不受限制音频流,其中该一个或多个音频流来自在声学环境中表示的音频元素,该声学环境包括一个或多个子声学空间,该一个或多个音频流中的每一者表示相应声场;以及生成该不受限制音频流的相应声场。
在另一示例中,本公开描述了一种被配置为处理一个或多个音频流的设备,该设备包括:用于基于与密码相关联的隐私限制来接收该一个或多个音频流中的不受限制音频流的装置,其中该一个或多个音频流来自在声学环境中表示的音频元素,该声学环境包括一个或多个子声学空间,该一个或多个音频流中的每一者表示相应声场;以及用于生成该不受限制音频流的相应声场的装置。
在附图及下文描述中陈述本公开的一个或多个示例的细节。从具体实施方式、附图说明及权利要求书,本技术的各个方面的其它特征、目的和优点将是显而易见的。
附图说明
图1A和图1B是示出可以执行本公开中描述的技术的各个方面的系统的图式。
图2是示出由用户穿戴的VR设备的示例的图示。
图3A至图3D是更详细地示出图1A的示例中所示的流选择单元的示例性操作的图示。
图4A至图4D是示出由图1A和图1B的示例中示出的源设备和/或内容消费者设备执行的基于密码的隐私限制的示例性操作的图示。
图5是示出可以根据本公开中描述的技术的各个方面操作的可穿戴设备的示例的图示。
图6A和图6B是示出可以执行本公开中描述的技术的各个方面的其它示例性系统的图示。
图7是示出图1的示例中所示的源设备和内容消费者设备中的一个或多个的示例性组件的框图。
图8A至图8C是示出图1A和图1B的示例中所示的流选择单元在执行流选择技术的各个方面时的示例性操作的流程图。
图9A至图9D是示出用于使用本公开的技术基于密码来处理一个或多个音频流的示例性技术的流程图。
图10示出了根据本公开的各方面的支持基于密码的隐私限制的无线通信系统的示例。
具体实施方式
有多种不同的方式来表示声场。示例性格式包括基于通道(channel)的音频格式、基于对象的音频格式和基于场景的音频格式。基于通道的音频格式是指5.1环绕声格式、7.1环绕声格式、22.2环绕声格式或将音频通道定位到收听者周围的特定位置以便重建声场的任何其它基于通道的格式。
基于对象的音频格式可以指代其中指定音频对象(通常使用脉码调制(PCM)进行编码并称为PCM音频对象)以便表示声场的格式。此类音频对象可以包括标识音频对象相对于收听者或声场中的其它参考点的位置的元数据,使得音频对象可以被渲染到一个或多个扬声器通道以供回放,以努力重建声场。本公开中描述的技术可以应用于前述格式中的任一者,包括基于场景的音频格式、基于通道的音频格式、基于对象的音频格式或其任何组合。
基于场景的音频格式可以包括分层元素集,其定义三维声场。分层元素集的一个示例是球谐系数(SHC)集。以下表达式示出了使用SHC对声场的描述或表示:
该表达式表明声场的任意点在时间t的压力pi可以由SHC唯一表示。在此,c是声速(约343m/s),是参考点(或观察点),jn(·)是阶数n的球贝塞尔函数,并且是阶数n和子阶数m的球谐基函数(也可以称为作为球面基函数)。可以认识到,方括号中的项是信号(即,)的频域表示,其可以用诸如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换等各种时频变换来近似。分层集的其它示例包括小波变换系数集和多分辨率基函数的其它系数集。
SHC可以通过各种传声器阵列配置物理得获取(例如,记录),或者可替代地,它们可以从基于通道或基于对象的声场描述中导出。SHC(也可以称为环绕声系数)表示基于场景的音频,其中SHC可以输入到音频编码器以获得可以促进更高效发送或存储的经编码的SHC。例如,可以使用涉及(1+4)2(25,因此是四阶)系数的四阶表示。
如上所述,SHC可以从使用传声器阵列的传声器记录中导出。在Poletti,M.在2005年11月发表在J.Audio Eng.Soc.第53卷第11号第1004至第1025页“Three-DimensionalSurround Sound Systems Based on Spherical Harmonics”中描述了可以如何从传声器阵列物理地获取SHC的各个示例。
其中i是是阶数n的(第二类)球面汉克尔函数,并且是对象的位置。(例如,使用时频分析技术,诸如对经脉码调制PCM的流执行快速傅里叶变换)知道作为频率函数的对象源能量g(ω)可以使得能够将每个PCM对象和对应位置转换为SHC此外,可以表明(因为以上是线性和正交分解)每个对象的系数是可加的。通过这种方式,PCM对象的数量可以由系数表示(例如,作为各个对象的系数向量的总和)。系数可以包含关于声场的信息(作为3D坐标函数的压力),并且以上表示从各个对象到观察点附近的整个声场表示的变换。
正在开发计算机为介导的现实系统(也可以称为“扩展现实系统”或“XR系统”)以利用由环绕声系数提供的许多潜在益处。例如,环绕声系数可以通过潜在地实现声场内的声源的准确三维(3D)定位的方式来表示三维声场。如此一来,XR设备可以将环绕声系数渲染到扬声器馈送,当经由一个或多个扬声器播放时,该扬声器馈送可以准确地再现声场。
作为另一示例,环绕声系数可以被转换(例如,旋转)以在没有过于复杂的数学运算的情况下考虑用户移动,由此潜在地适应XR的低延迟要求。另外,环绕声系数是分层的,由此自然地通过降阶来适应可扩展性(这可以消除与更高阶相关联的环绕声系数),由此潜在地实现声场的动态调节以适应XR设备的延迟和/或电池需求。
将环绕声系数用于XR可以使得能够开发依赖于由环绕声系数提供的更具沉浸式的声场的许多用例,特别是对于计算机游戏应用和实时视频流式传输应用。在依赖于声场的低延迟再现的这些高度动态用例中,XR设备可能相对于更难以操纵或涉及复杂渲染的其它表示更偏好环绕声系数。下面关于图1A和图1B提供了关于这些用例的更多信息。
虽然在本公开中关于VR设备进行了描述,但是可以在其它设备(诸如移动设备)的上下文中执行这些技术的各个方面。在该实例中,移动设备(诸如,所谓智能手机)可以经由屏幕呈现所显示的世界,该屏幕可以被安装在用户的头部或者按照正常使用移动设备时的方式被观看。如此一来,关于屏幕的任何信息可以为移动设备的一部分。移动设备可能能够提供跟踪信息41,由此允许VR体验(当安装在头上时)和正常体验两者来观看所显示的世界,其中正常体验仍可以允许用户观看所显示的世界,提供VR轻型(VR-lite-type)体验的声学空间(例如,举起设备并旋转或平移设备以观看所显示世界的不同部分)。
本公开总体上涉及计算机介导的现实系统的用户体验的听觉方面,该现实系统包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉和图形系统。该技术的各个方面可以提供对用于扩展现实系统的声学空间的音频渲染的用户控制。如本文所使用的,声学环境被表示为室内环境或室外环境,或者室内环境和室外环境两者。声学环境可以包括一个或多个子声学空间,该子声学空间可以包括各种声学元素。子声学空间可以例如为房间,或房间或建筑物内的区域、车辆的车厢、教室、教室内的区域、或任何类型的声学空间的任何子集。室外环境的示例可以包括汽车、建筑物、墙壁、森林等。声学空间可以是声学环境的示例并且可以是室内空间或室外空间。如本文所使用,音频元素可以是通过传声器捕获的声音(例如,直接从近场源捕获或来自远场源的反射,而不管是真实还是合成的)、由传声器阵列捕获的声音、先前合成的声场、从本文到语音合成的单声道声音、和/或来自声学环境中的对象的虚拟声音的反射。
当以可以从实时场景的音频元素获得的许多音频源渲染XR场景(例如,六个自由度(6DOF)XR场景)时,某些音频元素或音频元素的群组可以包含敏感信息和/或可能意图用于受限制或排他性访问。根据本公开的技术,音频回放设备(例如,VR或XR设备)可以被配置为从与密码相关联的隐私限制接收和/或确定受限制和不受限制音频流。
在一些示例中,音频回放设备可以从发送一个或多个音频流的主机获得密码。在一个示例中,音频回放设备可以请求音频流并将密码提供回到主机。在该示例中,主机可以发送基于密码的仅不受限制的音频流。在其它示例中,音频回放设备可以请求音频流,并且将密码提供回到主机,并且主机可以发送所有音频流。然而,主机还可以包括数据(例如,音频元数据),该数据指示特定流是否基于密码而受限制。音频回放设备然后将基于数据(例如,音频元数据)来限制回放。在另外其它示例中,音频回放设备不会将密码提供到主机。而是,主机可以发送所有音频流以及多个数据(例如,音频元数据),该数据指示特定流是否基于特定类型的密码而受限制。音频回放设备然后可以将存储于音频回放设备处的密码与对应于同一类型的密码的音频元数据相关联,并且然后基于流来限制回放,该流基于该关联而受限制。
密码可以针对一个或多个区/群组或与区/群组相关联的音频流来生成,并且认证可以基于与密码相关联的收听者或用户来执行。本公开的技术可以为音频流不能从捕获侧受限制的情形提供渲染侧(例如,音频回放设备)隐私访问。此类技术在服务于音频数据的动态源时提供隐私灵活性,并且可以添加附加安全层。
图1A和图1B是示出可以执行本公开中描述的技术的各个方面的系统的图式。如图1A的示例中所示,系统10包括源设备12和内容消费者设备14。虽然在源设备12和内容消费者设备14的上下文中进行了描述,但是该技术可以在其中对声场的任何表示进行编码以形成表示音频数据的比特流的任何上下文中实施。此外,源设备12可以表示能够生成声场表示的任何形式的计算设备,并且在本文中一般在作为VR内容创建者设备的上下文中描述。同样,内容消费者设备14可以表示能够实施本公开中描述的渲染元数据技术以及音频回放的任何形式的计算设备,并且在本文中一般在作为VR客户端设备的上下文中描述。
源设备12可以由娱乐公司或可以生成多通道音频内容以供诸如内容消费者设备14等内容消费者设备的运营商消费的其它实体来操作。在一些VR场景中,源设备12结合视频内容生成音频内容。源设备12包括内容捕获设备20、内容编辑设备22和声场表示生成器24。内容捕获设备20可以被配置为与传声器18接口或以其它方式通信。
传声器18可以表示或其它类型的3D音频传声器,其能够捕获声场并将其表示为音频数据19,该音频数据可以指代上述基于场景的音频数据(诸如环绕声系数)、基于对象的音频数据和基于通道的音频数据中的一个或多个。虽然被描述为3D音频传声器,但是传声器18也可以表示被配置为捕获音频数据19的其它类型的传声器(诸如全向传声器、点式传声器、单向传声器等)。
在一些示例中,内容捕获设备20可以包括集成到内容捕获设备20的壳体中的集成传声器18。内容捕获设备20可以无线地或经由有线连接与传声器18接口。不是经由传声器18捕获或结合捕获音频数据19,内容捕获设备20可以在音频数据19经由某种类型的可移动存储、无线地和/或经由有线输入过程被输入之后处理音频数据19。如此一来,根据本公开,内容捕获设备20与传声器18的各种组合是可能的。
内容捕获设备20还可以被配置为与内容编辑设备22接口或以其它方式通信。在一些实例中,内容捕获设备20可以包括内容编辑设备22(在一些实例中,其可以表示软件或软件与硬件的组合,包括由内容捕获设备20执行以将内容捕获设备20配置为执行特定形式的内容编辑的软件)。内容编辑设备22可以表示被配置为编辑或以其它方式更改从内容捕获设备20接收的内容21(包括音频数据19)的单元。内容编辑设备22可以将编辑后的内容23和相关联的元数据25输出到声场表示生成器24。
声场表示生成器24可以包括能够与内容编辑设备22(或内容捕获设备20)接口的任何类型的硬件设备。虽然图1A的示例中未示出,但是声场表示生成器24可以使用编辑后的内容23,其包括音频数据19和由内容编辑设备22提供以生成一个或多个比特流27的元数据25。在关注音频数据19的图1A的示例中,声场表示生成器24可以生成由音频数据19表示的同一声场的一个或多个表示以获得包括声场的表示和音频元数据25的比特流27。
例如,为了使用环绕声系数生成声场的不同表示(这也是音频数据19的一个示例),声场表示生成器24可以使用用于声场的环绕声表示的编解码方案,称为混合阶环绕声(MOA),如在2017年8月8日提交并作为在2019年1月3日提交的美国专利公开号20190007781出版的标题为“MIXED-ORDER AMBISONICS(MOA)AUDIO DATA FO COMPUTER-MEDIATEDREALITY SYSTEMS”的美国申请序列号15/672,058中更详细地讨论。
为了生成声场的特定MOA表示,声场表示生成器24可以生成环绕声系数全集的部分子集。例如,由声场表示生成器24生成的每个MOA表示可以提供关于声场的一些区域的精度,但在其它区域中提供较低精度。在一个示例中,声场的MOA表示可以包括八(8)个未压缩的环绕声系数,而同一声场的三阶环绕声表示可以包括十六(16)个未压缩的环绕声系数。如此一来,声场的每个MOA表示(作为环绕声系数的部分子集而生成)的存储密集度和带宽密集度可能低于(如果并且当通过所示传输通道作为比特流27的一部分被发送时)从环绕声系数生成的同一声场的对应三阶环绕声表示。
虽然关于MOA表示进行了描述,但是也可以对一阶环绕声(FOA)表示执行本公开的技术,其中与一阶球面基函数和零阶球面基函数相关联的所有环绕声系数用于表示声场。换句话说,声场表示生成器24可以使用给定阶N的所有环绕声系数来表示声场,而不是使用环绕声系数的部分非零子集来表示声场,从而导致总环绕声系数等于(N+1)2。
在这方面,环绕声音频数据(其是指代MOA表示或全阶表示中的环绕声系数的另一种方式,诸如上面提到的一阶表示)可以包括与具有一阶或更低阶的球面基函数相关联的环绕声系数(其可以称为“1阶环绕声音频数据”)、与具有混合阶和子阶的球面基函数相关联的环绕声系数(其可以称为上文讨论的“MOA表示”),或与具有大于一阶的球面基函数相关联的环绕声系数(其在上文称为“全阶表示”)。
在一些示例中,内容捕获设备20或内容编辑设备22可以被配置为与声场表示生成器24进行无线通信。在一些示例中,内容捕获设备20或内容编辑设备22可以经由无线连接或有线连接中的一者或两者与声场表示生成器24进行通信。经由内容捕获设备20与声场表示生成器24之间的连接,内容捕获设备20可以以各种内容形式提供内容,出于讨论目的,该形式在本文中描述为音频数据19的部分。
在一些示例中,内容捕获设备20可以利用声场表示生成器24的各个方面(就声场表示生成器24的硬件或软件能力而言)。例如,声场表示生成器24可以包括专用硬件,其被配置为(或专用软件,其在执行时使一个或多个处理器执行)执行心理声学音频编码(诸如由运动图像专家组(MPEG)、MPEG-H3 D音频编解码标准、MPEG-I沉浸式音频标准或专有标准(诸如AptXTM(包括AptX的各种版本,诸如增强型AptX–E-AptX、AptX live、AptX立体声和AptX高清晰度–AptX-HD)、高级音频编解码(AAC)、音频编解码器3(AC-3)、Apple无损音频编解码器(ALAC)、MPEG-4音频无损流媒体(ALS)、增强型AC-3、自由无损音频编解码器(FLAC)、Monkey's Audio、MPEG-1音频层II(MP2)、MPEG-1音频层III(MP3)、Opus和Windows媒体音频(WMA)。
内容捕获设备20可以不包括心理声学音频编码器专用硬件或专用软件,而是可以以非心理声学音频编解码的形式提供内容21的音频方面。声场表示生成器24可以通过至少部分地针对内容21的音频方面执行心理声学音频编码来帮助捕获内容21。
通过至少部分地基于从音频数据19(在音频数据19包括基于场景的音频数据的情况下)生成的音频内容(例如,MOA表示和/或三阶环绕声表示)生成一个或多个比特流27,声场表示生成器24也可以辅助内容捕获和发送。比特流27可以表示音频数据19的压缩版本和任何其它不同类型的内容21(诸如球形视频数据、图像数据或文本数据的压缩版本)。
作为一个示例,声场表示生成器24可以生成比特流27以用于跨传输通道传输,该传输通道可以是有线或无线信道、数据存储设备等。该比特流27可以表示该音频数据19的编码版本,并且可以包括主要比特流和另一侧比特流,这可以被称为侧通道信息或元数据。在一些情况下,表示音频数据19的压缩版本的比特流27(其也可以表示基于场景的音频数据、基于对象的音频数据、基于通道的音频数据或其组合)可以符合根据MPEG-H 3D音频编码标准和/或MPEG-I沉浸式音频标准产生的比特流。
在本公开的一些示例中,源设备12可以被配置为生成多个音频流以用于发送到内容消费者设备14。源设备12可以被配置为经由单个内容捕获设备20和/或内容捕获设备20的群组(例如,多个内容捕获设备)生成多个音频流中的每一者。在一些用例中,可能希望能够控制由源设备12生成的多个音频流中的哪些音频流可用于由内容消费者设备14回放。
例如,来自内容捕获设备20的某些捕获设备的音频可以包含敏感信息和/或来自内容捕获设备20的某些捕获设备的音频可能不意味着排他访问(例如,所有用户的无限制访问)。在一些示例中,可能需要基于由内容捕获设备20捕获的信息类型和/或基于内容捕获设备20所处的物理区的位置来限制对来自内容捕获设备20的某些捕获设备的音频的访问。
根据本公开的示例技术,源设备12还可以包括控制器31,该控制器被配置为在侧通道33中生成与隐私设置相关联的密码,以用于由源设备12生成的多个音频流中的一个或多个。在本公开的上下文中,密码可以是用于使密码的特定保持器与隐私限制集合(例如,指示特定音频流是否被回放和/或渲染的限制)相关联的任何信息(例如,密钥、加密密钥、访问代码等)。控制器31可以直接将密码发送到内容消费者设备14,或者密码可以通过内容消费者设备14通过其它手段在带外获得。在一些示例中,控制器31不需要是单独的物理单元。而是,控制器31可以集成到内容编辑设备22或声场表示生成器24中。
在一个示例中,密码指示多个音频流中的一个或多个受限制还是不受限制。在其它示例中,控制器31可以仅生成与不受限制的音频流相关联的密码。在该示例中,内容消费者设备14可以推断出与密码并未相关联的音频流受到限制,或反之亦然。
内容消费者设备14在请求音频流以供回放时将密码提供回到控制器31。在一些示例中,控制器31将仅发送针对该特定密码不受限制的音频流。在其它示例中,控制器31将所有音频流发送到内容消费者设备14,其中音频流利用元数据来标记,该元数据指示哪些流基于密码而不受限制或受限制。然后,内容消费者设备14可以基于存储于内容消费者设备14处的密码来限制受限制流的回放。在图1A的一个示例中,控制器31在侧通道33中发送密码。在其它示例中,控制器31可以在比特流27中发送密码。在其它示例中,内容消费者设备14可以通过其它手段在带外获得密码。包括基于密码的隐私限制的隐私限制的附加示例在下文参考图4A至图4D来更详细地描述。
内容消费者设备14可以由个人操作并且可以表示VR客户端设备。虽然关于VR客户端设备进行了描述,但是内容消费者设备14可以表示其它类型的设备,诸如增强现实(AR)客户端设备、混合现实(MR)客户端设备(或其它XR客户端设备)、标准计算机、头戴式装置(headset)、头戴式耳机(headphone)、移动设备(包括所谓的智能手机)或能够跟踪操作客户端消费者设备14的个人的头部移动和/或一般平移移动的任何其它设备。如图1A的示例中所示,内容消费者设备14包括音频回放系统16A,其可以指代能够渲染音频数据以作为多通道音频内容回放的任何形式的音频回放系统。
尽管在图1A中被示为直接发送到内容消费者设备14,但是源设备12可以将比特流27输出到位于源设备12与内容消费者设备14之间的中间设备。中间设备可以存储比特流27以供稍后输送到内容消费者设备14,其可以请求比特流27。中间设备可以包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储比特流27以供音频解码器稍后检索的任何其他设备。该中间设备可以驻留于能够将比特流27(以及可能结合发送对应视频数据比特流)流式传输到请求比特流27的订户(诸如,内容消费者设备14)的内容输送网络中。
可替代地,源设备12可以将比特流27存储到存储介质,诸如光盘、数字视频光盘、高清晰视频光盘或其它存储介质,其中大部分能够被计算机读取,因此可以被称为计算机可读存储介质或非暂时性计算机可读存储介质。在该上下文中,传输通道可以指代通过其发送存储到介质的内容(例如,以一个或多个比特流27的形式)的通道(并且可以包括零售商店和其它基于商店的输送机制)。在任何情况下,本公开的技术因此不应在这方面限于图1A的示例。
如上文指出,内容消费者设备14包括音频回放系统16A。音频回放系统16A可以表示任何能够回放多通道音频数据的系统。音频回放系统16A可以包括多个不同的渲染器32。渲染器32可以各自提供不同形式的渲染,其中不同形式的渲染可以包括执行矢量基幅平移(VBAP)的各种方式中的一个或多个和/或执行声场合成的各种方式中的一个或多个。如本文所使用的,“A和/或B”是指“A或B”,或“A和B两者”。
音频回放系统16A还可以包括音频解码设备34。音频解码设备34可以表示被配置为对比特流27进行解码以输出音频数据19’的设备(其中撇号可以表示音频数据19’由于音频数据19的有损压缩(诸如量化)而不同于音频数据19)。而且,音频数据19’可以包括基于场景的音频数据,在一些示例中,该音频数据可以形成全一阶(或更高阶)环绕声表示或全一阶(或更高阶)环绕声表示的形成同一声场的MOA表示的子集、全一阶(或更高阶)环绕声表示的分解,诸如在MPEG-H 3D音频编解码标准或其它形式的基于场景的音频数据中描述的主要音频信号、环境环绕声系数和基于矢量的信号。
其它形式的基于场景的音频数据包括根据HOA(高阶环绕声)传输格式(HTF)定义的音频数据。关于HTF的更多信息可以在由欧洲电信标准协会(ETSI)于2018年6月(2018-06)发表在ETSI TS 103 589V1.1.1的标题为“Higher Order Ambisonics(HOA)TransportFormat”的技术规范(TS)以及在2018年12月20日提交的题为“PRIORITY INFORMATION FORHIGHER ORDER AMBISONIC AUDIO DATA”的美国专利公开号2019/0918028中找到。在任何情况下,音频数据19'可以类似于音频数据19的全集或部分子集,但是可能由于有损操作(例如,量化)和/或经由传输通道的发送而不同。
音频数据19’可以包括基于通道的音频数据作为基于场景的音频数据的替代或包括它们的结合。音频数据19’可以包括基于对象的音频数据作为基于场景的音频数据的替代或包括它们的结合。如此一来,音频数据19’可以包括基于场景的音频数据、基于对象的音频数据和基于通道的音频数据的任何组合。
音频回放系统16A的音频渲染器32可以在音频解码设备34已经对比特流27解码以获得音频数据19’之后,渲染音频数据19’以输出扬声器馈送35。扬声器馈送35可以驱动一个或多个扬声器(为了便于说明,在图1A的示例中未示出)。各种音频表示(包括声场的基于场景的音频数据(和可能的基于通道的音频数据和/或基于对象的音频数据)可以通过多种方式(包括N3D、SN3D、FuMa、N2D或SN2D)归一化。
为了选择适当的渲染器或者在一些实例中生成适当的渲染器,音频回放系统16A可以获得指示扬声器(例如,扩音器器或头戴式耳机扬声器)的数量和/或扬声器的空间几何形状的扬声器信息37。在一些实例中,音频回放系统16A可以使用参考传声器获得扬声器信息37并且可以以动态确定扬声器信息37的方式驱动扬声器(其可以指代电信号的输出以引起换能器振动)。在其它实例中或者结合对扬声器信息37的动态确定,音频回放系统16A可以提示用户与音频回放系统16A交互并输入扬声器信息37。
音频回放系统16A可以基于扬声器信息37来选择音频渲染器32中的一者。在一些实例中,当没有一个音频渲染器32在距扬声器信息37中指定的扬声器几何形状的某个阈值相似性度量(就扬声器几何形状而言)以内时,音频回放系统16A可以基于扬声器信息37来生成音频渲染器32中的一者。在一些实例中,音频回放系统16A可以基于扬声器信息37来生成音频渲染器32中的一者,而无需首先尝试选择音频渲染器32中的现有的一个音频渲染器。
当将扬声器馈送35输出到头戴式耳机时,音频回放系统16A可以利用渲染器32中的一者,该音频渲染器使用头部相关传递函数(HRTF)或能够渲染到左右扬声器馈送35以供头戴式耳机扬声器播放的其它函数来提供双耳渲染,诸如双耳房间脉冲响应渲染器。术语“扬声器”或“换能器”通常可以指代任何扬声器,包括扩音器、头戴式耳机扬声器、骨传导扬声器、耳塞式扬声器、无线头戴式耳机扬声器等。一个或多个扬声器然后可以回放渲染的扬声器馈送35来再现声场。
虽然被描述为从音频数据19’渲染扬声器馈送35,但是对音频数据19’的扬声器馈送的渲染的引用可以指代其它类型的渲染,诸如直接结合到对来自比特流27的扬声器馈送35的解码中的渲染。可以在MPEG-H 3D音频标准的附件G中找到替代渲染的示例,渲染发生在声场组成之前的主要信号形成期间以及背景信号形成期间。如此一来,对音频数据19’的渲染的引用应当被理解为指代对实际音频数据19’的渲染或音频数据19’的分解或其表示(诸如上述主要音频信号、环境环绕声系数、和/或基于矢量的信号-其也可以称为V矢量或多维环绕声空间矢量)。
音频回放系统16A还可以基于跟踪信息41来适配(adapt)音频渲染器32。即,音频回放系统16A可以与跟踪设备40接口,该跟踪设备40被配置为跟踪VR设备的用户的头部移动和可能的平移移动。跟踪设备40可以表示一个或多个传感器(例如,相机—包括深度相机、陀螺仪、磁力计、加速度计、发光二极管—LED等),其被配置为跟踪VR设备的用户的头部移动和可能的平移移动。音频回放系统16A可以基于跟踪信息41来适配音频渲染器32,使得扬声器馈送35反映用户头部的改变和可能的平移移动,以正确再现响应于这样的移动的声场。
如上所述,内容消费者设备14可以表示其中人类可穿戴显示器(其也可以被称为“头戴式显示器”)安装在操作VR设备的用户眼前的VR设备。图2是示出由用户1102穿戴的VR设备1100的示例的图示。VR设备1100耦合到或以其它方式包括头戴式耳机1104,其可以通过扬声器馈送35的回放再现由音频数据19’表示的声场。扬声器馈送35可以表示模拟或数字信号,其能够使头戴式耳机1104的换能器内的隔膜以各种频率振动,其中这种过程通常被称为驱动头戴式耳机1104。
视频、音频和其它传感数据可以在VR体验中发挥重要作用。为了参与VR体验,用户1102可以穿戴VR设备1100(其也可以称为VR头戴式耳机1100)或其它可穿戴电子设备。VR客户端设备(诸如VR头戴式耳机1100)可以包括跟踪设备(例如,跟踪设备40),该跟踪设备被配置为跟踪用户1102的头部移动,并且适配经由VR耳机1100示出的视频数据以考虑头部移动,提供沉浸式体验,其中用户1102可以以视觉三维体验视频数据中所示的所显示世界。所显示的世界可以指代虚拟世界(其中所有世界都是模拟的)、增强世界(其中世界的部分由虚拟对象增强)或物理世界(其中真实世界图像被虚拟化导航)。
虽然VR(以及其它形式的XR、AR和/或MR)可以允许用户1102在视觉上驻留在虚拟世界中,但是VR头戴式耳机1100通常可能缺乏将用户可听地置于所显示的世界中的能力。换句话说,VR系统(其可以包括负责渲染视频数据和音频数据的计算机-为了便于说明,未在图2的示例中示出,以及VR头戴式耳机1100)可能无法可听地(并且在一些实例中,以反映经由VR头戴式耳机1100呈现给用户的所显示的场景的方式逼真地)支持全三维沉浸式。
虽然在本公开中关于VR设备进行了描述,但是可以在其它设备(诸如移动设备)的上下文中执行这些技术的各个方面。在该实例中,移动设备(诸如,所谓智能手机)可以经由屏幕呈现所显示的世界,该屏幕可以安装到用户1102的头部,或按照正常使用移动设备时的方式被观看。如此一来,关于屏幕的任何信息可以为移动设备的部分。移动设备可能能够提供跟踪信息41,由此允许VR体验(当安装在头上时)和正常体验两者来观看所显示的世界,其中正常体验仍可以允许用户观看所显示的世界,提供VR轻型体验的声学空间(例如,举起设备并旋转或平移设备以观看所显示世界的不同部分)。
在任何情况下,返回到VR设备上下文,VR的音频方面已经分类为三个单独的沉浸类别。第一类别提供最低水平的沉浸并且称为三自由度(3DOF)。3DOF是指在三个自由度(偏斜、俯仰和翻滚)中考虑头部移动的音频渲染,由此允许用户在任何方向上自由地环顾四周。然而,3DOF无法考虑头部不以声场的光学和声学中心为中心的平移头部移动。
第二类别,被称为3DOF加(3DOF+),除了由于远离声场内的光学中心和声学中心的头部移动而导致的有限空间平移移动,还提供三个自由度(偏斜、俯仰和翻滚)。3DOF+可以提供对诸如运动视差之类的感知效果的支持,这可以加强沉浸感。
第三类别,被称为六自由度(6DOF),以考虑头部移动(偏斜、俯仰和翻滚)方面的三个自由度而且考虑用户在空间中的平移(x、y和z平移)的方式渲染音频数据。可以由跟踪用户在物理世界中的位置的传感器或通过输入控制器引入空间平移。
3DOF渲染是用于VR的音频方面的当前技术。如此一来,VR的音频方面的沉浸感不如视频方面的沉浸感,并且因此潜在地降低了用户体验的整体沉浸感。然而,VR正在迅速转变,并且可能会迅速发展为同时支持3DOF+和6DOF,这可能会为附加的用例提供机会。
例如,交互式游戏应用可以利用6DOF来促进全沉浸式游戏,其中用户自己在VR世界中移动并且可以通过走向虚拟对象来与虚拟对象进行交互。此外,交互式直播应用可以利用6DOF来允许VR客户端设备体验音乐会或体育赛事的直播流,就好像自己出现在音乐会上一样,允许用户在音乐会或体育赛事中移动。
存在与这些用例相关联的许多困难。在全沉浸式游戏的实例中,延迟可能需要保持在低水平,以实现不会导致恶心或晕车的游戏玩法。此外,从音频角度来看,导致与视频数据失去同步的音频回放的延迟可能会降低沉浸感。此外,对于某些类型的游戏应用,空间准确度对于允许准确响应可能很重要,包括对用户如何感知声音的响应,因为这允许用户预测当前不在视野中的动作。
在实况流式传输应用的上下文中,大量的源设备12A或12B(为了简单起见,在下文中将两者都称为源设备12)可以流式传输内容21,其中源设备12可以具有广泛不同的能力。例如,一个源设备可能是带有数字固定镜头相机和一个或多个麦克风的智能电话,而另一源设备可能是能够获得比智能电话更高的分辨率和质量的视频的生产级(productionlevel)电视装备。然而,在实况流式传输应用的上下文中,所有源设备都可以提供不同质量的流,VR设备可能会尝试从中选择合适的流来提供预期的体验。
此外,与游戏应用类似,使得发生与视频数据失去同步的音频数据的延迟可能会导致较低的沉浸感。此外,空间精度可能也很重要,以便用户可以更好地理解不同音频源的上下文或位置。此外,当用户使用相机和传声器进行实况流式传输时,隐私可能会成为问题,因为用户可能不希望实况流对公众完全可用。
在流式传输应用(实况或记录)的上下文中,可能存在与不同级别的质量和/或内容相关联的大量音频流。音频流可以表示任何类型的音频数据,包括基于场景的音频数据(例如,立体混响音频数据,包括FOA音频数据、MOA音频数据和/或HOA音频数据)、基于通道的音频数据和基于对象的音频数据。仅从中选择潜在的大量音频流中的一个来重建声场可能无法提供确保足够沉浸感级别的体验。然而,由于多个音频流之间的不同空间定位,选择多个音频流可能会产生干扰,从而潜在地降低沉浸感。
根据本公开中所描述的示例性技术,音频解码设备34可以在经由比特流27可获得的音频流(其由位流27表示且因此比特流27可以被称为“音频流27”)之间进行自适应选择。音频解码设备34可以基于被包括作为伴随音频流27的元数据的捕获位置信息(CLI)45A来在音频流27的不同音频流之间进行选择,其中该捕获位置信息可以为捕获相应音频流27的传声器定义在所显示的世界中的捕获坐标。CLI 45A可以表示所显示的世界中的捕获位置,音频流27中的对应一者在该捕获位置处被捕获。音频解码设备34可以基于CLI 45A来选择音频流27的子集,其中音频流27的子集排除音频流27中的至少一者。音频解码设备34可以输出音频流27的子集作为音频数据19’(其也可以被称为“音频流19’”)。本公开的自适应性音频流选择技术可以与下文描述的基于密码的技术中的任一者一起使用。
另外,音频解码设备34可以获得跟踪信息41,内容消费者设备14可以将该跟踪信息转换为虚拟位置信息(VLI)45B。VLI 45B可以表示内容消费者设备14在所显示的世界中的虚拟位置,该虚拟位置可以被定义为所显示的世界中的一个或多个设备坐标。内容消费者设备15可以将VLI 45B提供给音频解码设备34。音频解码设备34然后可以基于CLI 45A和VLI 45B从音频流27选择音频流19’。音频回放系统16A然后可以基于音频流19’来再现对应的声场。
在这方面,音频解码设备34可以自适应性地选择音频流27的子集以获得可能导致更具沉浸式体验的音频流19’(与选择单个音频流或所有音频流19’相比)。如此一来,本公开中描述的技术的各个方面可以通过可能使得音频解码设备34能够更好地空间化声场内的声源来改进音频解码设备34(和音频回放系统16A以及内容消费者设备14)自身的操作,并且由此改进沉浸感。
在操作中,音频解码设备34可以与一个或多个源设备12接口以针对音频流27中的每一者确定CLI 45A。如图1A的示例中所示,音频解码设备34可以包括流选择单元44,其可以表示被配置为执行本公开中所描述的音频流选择技术的各个方面的单元。
流选择单元44可以基于CLI 45A生成群集图(constellation map,CM)47。CM47可以针对音频流27中的每一者定义CLI 45A。流选择单元44也可以针对音频流27中的每一者执行能量分析以针对音频流27中的每一者确定能量图,从而将能量图连同CLI 45A存储在CM 47中。能量图可以共同定义由音频流27表示的共同声场的能量。
流选择单元44可以接下来确定由VLI 45B表示的虚拟位置与由CLI 45A表示的捕获位置之间的距离,该CLI与音频流27中的至少一者和可能该音频流中的每一者相关联。流选择单元44然后可以基于(一个或多个)距离中的至少一个以及可能的每一个来从音频流27中选择音频数据19’,如下文关于图3A-图3D更详细地讨论的那样。
此外,在一些示例中,流选择单元44也可以基于存储到CM 47、CLI 45A和VLI 45B(共同地在CLI 45A和VLI 45B以上文所提及的距离的形式呈现的情况下,该距离也可以被称为“相对距离”)的能量图从音频流27选择音频流19’。例如,流选择单元44可以分析在CM47中呈现的能量图以确定音频源在共同声场中的音频源位置(ASL)49,该音频源发射由传声器(诸如传声器18)捕获并且由音频流27表示的声音。流选择单元44然后可以基于CLI45A、VLI 45B和ASL 49从音频流27确定音频流19’。下文关于图3A至图3D讨论更多关于流选择单元44可以选择流的方式的信息。
如下文更详细地解释,在本公开的一个示例中,内容消费者设备14可以被配置为:基于与密码相关联的隐私限制来接收该一个或多个音频流中的不受限制音频流,其中该一个或多个音频流来自在声学环境中表示的音频元素,该声学环境包括一个或多个子声学空间,该一个或多个音频流中的每一者表示相应声场;以及生成该不受限制音频流的相应声场。
在一个示例中,当从源设备12请求音频流时,内容消费者设备14可以将密码发送到主机设备(例如,源设备12),并且基于与密码相关联的隐私限制,从主机设备接收和/或获得一个或多个音频流中的仅不受限制音频流。内容消费者设备可以被配置为经由调制解调器和/或收发器(例如,通过无线链路(例如,蓝牙、WiFi、5G、LTE等))与源设备12通信。在一些示例中,调制解调器/收发器可以是内容消费者设备14内的独立芯片。在其它示例中,调制解调器/收发器可以与一个或多个处理器一起集成在集成电路、ASIC和/或SoC(片上系统)上。
在另一示例中,当从源设备12请求音频流时,内容消费者设备14可以将密码发送到主机设备(例如,源设备12),从主机设备接收一个或多个音频流中的不受限制音频流和一个或多个音频流中的受限制音频流,接收指示基于与密码相关联的隐私限制的受限制音频流的受限制回放的数据,并且基于指示受限制回放的数据来限制受限制音频流的相应声场的回放。
在另一示例中,当从源设备12请求音频流时,内容消费者设备14可以不将密码发送到主机设备(例如,源设备12)。而是,内容消费者设备14可以从主机设备接收一个或多个音频流中的不受限制音频流和一个或多个音频流中的受限制音频流,接收指示受限制音频流的受限制回放的数据,将密码与指示受限制回放的数据相关联,并且基于指示与密码相关联的受限制回放的数据来限制受限制音频流的相应声场的回放。
图1B是示出被配置为执行本公开中描述的技术的各个方面的另一示例性系统50的框图。系统50类似于图1A中所示的系统10,除了图1A中所示的音频渲染器32用能够使用一个或多个头部相关传递函数HRTF或能够渲染到左右扬声器馈入43的其它函数来执行双耳渲染的双耳渲染器42替换以外。
音频回放系统16B可以将左右扬声器馈入43输出到头戴式耳机1104,该头戴式耳机可以表示可穿戴型设备的另一示例并且其可以耦合到附加的可穿戴型设备以促进声场的再现,诸如手表、上文所提及的VR头戴式装置、智能眼镜、智能服饰、智能戒指、智能手镯或任何其它类型的智能珠宝(包括智能项链)等。头戴式耳机1104可以无线地或经由有线连接耦合到附加的可穿戴设备。
另外,头戴式耳机1104可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其它形式的有线连接)或无线地(诸如通过蓝牙TM连接、无线网络连接等)耦合到音频回放系统16B。头戴式耳机1104可以基于左右扬声器馈送43来重建由音频数据19’表示的声场。头戴式耳机1104可以包括左头戴式耳机扬声器和右头戴式耳机扬声器,它们由对应的左右扬声器馈送43供电(或换句话说,驱动)。
图3A至图3D是更详细地示出图1A的示例中所示的流选择单元的示例性操作的图示。如图3A的示例中所示,流选择单元44可以确定VLI 45B指示内容消费者设备14(示出为VR设备1100)在虚拟位置300A处。流选择单元44接下来可以确定用于音频元素302A至302J(其不仅可以表示传声器,诸如图1A中所示的传声器18,并且也可以表示其它类型的捕获设备,包括传声器阵列、其它XR设备、合成音频源、移动电话-包括所谓智能电话-等等)中的一个或多个的CLI 45A。
如上文所描述,流选择单元44可以获得音频流27。流选择单元44可以与音频元素302A至302J接口以获得音频流27。在一些示例中,流选择单元44可以根据第五代(5G)蜂窝标准、个人局域网络(PAN)(诸如蓝牙TM)或某一其它开放源、专有或标准化通信协议而与接口(诸如调制解调器、接收器、发送器和/或收发器)交互以获得音频流27。音频流的无线通信在图3A至图3D的示例中被表示为闪电(lightning bolt),其中所选择的音频流19’被示为从音频元素302中的所选择的一个或多个传达到VR设备1100。
在任何情况下,流选择单元44接下来可以以上述方式获得能量图,分析能量图以确定音频源位置304,其可以表示图1A的示例中所示的ASL 49的一个示例。能量图可以标示(denote)音频源位置304,因为音频源位置304处的能量可以高于周围区域。给定能量图中的每一者可以标示该较高能量,流选择单元44可以基于能量图中的较高能量对音频源位置304进行三角测量。
接下来,流选择单元44可以将音频源距离306A确定为音频源位置304与VR设备1100的虚拟位置300A之间的距离。流选择单元44可以将音频源距离306A与音频源距离阈值进行比较。在一些示例中,流选择单元44可以基于音频源308的能量导出音频源距离阈值。也就是说,当音源308具有较高能量时(或换句话说,当音源308较嘈杂时),流选择单元44可以增加音源距离阈值。当音源308具有低高能量时(或换句话说,当音源308较安静时),流选择单元44可以降低音源距离阈值。在其它示例中,流选择单元44可以获得静态定义的音频源距离阈值,其可以由用户1102静态定义或指定。
在任何情况下,当音频源距离306A大于音频源距离阈值(在该示例中出于说明目的假设该音频源距离阈值)时,流选择单元44可以选择由音频元素302A至302J(“音频元素302”)捕获的音频流27中的单个音频流(即,在图3A的示例中由音频元素302A捕获的音频流)。流选择单元44可以输出音频流27中的对应音频流,音频解码设备34可以将其解码并输出为音频流19’。
假设用户从虚拟位置300A移动到虚拟位置300B,流选择单元44可以将音频源距离306B确定为音频源位置304与虚拟位置300B之间的距离。在一些示例中,流选择单元44可以仅在一些可配置的释放时间之后更新,该释放时间可以指代直到收听者停止移动之后接收器区域增加为止的时间。
在任何情况下,流选择单元44可以再次将音频源距离306B与音频源距离阈值进行比较。当音频源距离306小于或等于音频源距离阈值(在该示例中出于说明目的假设该音频源距离阈值)时,流选择单元44可以选择由音频元素302A至302J(“音频元素302”)捕获的音频流27中的多个音频流(即,在图3A的示例中由音频元素302F至302J捕获的音频流)。流选择单元44可以输出音频流27中的对应音频流,音频解码设备34可以将其解码并输出为音频流19’。
流选择单元44也可以确定虚拟位置300A与由CLI 45A表示的捕获位置中的一个或多个(并且可能每一者)之间的接近距离以获得一个或多个接近距离。流选择单元44然后可以将一个或多个接近距离与阈值接近距离进行比较。,流选择单元44可以在一个或多个接近距离大于阈值接近距离时选择与当接近距离小于或等于阈值接近距离时相比更少数量的音频流27,以获得音频流19’。然而,,流选择单元44可以在接近距离中的一个或多个小于或等于阈值接近距离时选择与当接近距离小于或等于阈值接近距离时相比更大数量的音频流27,以获得音频流19’。
换句话说,流选择单元44可以尝试选择音频流27中的那些音频流,使得音频流19’与虚拟位置300B最密切地对准并围绕虚拟位置300B。接近距离阈值可以定义这样的阈值,可穿戴设备1100可以设置该阈值或者流选择单元44可以基于音频元素302F至302J的质量、音频源308的增益或响度、跟踪信息41(例如,以确定用户是否面对音频源308)或任何其它因素来再次动态地确定该阈值。
在这方面,当收听者在位置300B处时,流选择单元44可以增加音频空间化准确度。此外,当在位置300A处时,流选择单元44可以降低比特率,因为仅使用由音频元素302A捕获的音频流而不是由音频元素302B至302J捕获的多个音频流来再现声场。
接下来参考图3B的示例,流选择单元44可以确定由音频元素302A捕获的音频流被破坏、嘈杂或不可用。给定音频源距离306A大于音频源距离阈值,流选择单元44可以根据上文更详细描述的技术从CM 47中去除音频流并且反复(reiterate)通过音频流27,以选择音频流27中的单个音频流(即,在图3B的示例中,由音频元素302B捕获的音频流)。
接下来参考图3C的示例,流选择单元44可以获得新的音频流(由音频元素302K生成的)和包括CLI 45A的对应的新的音频元数据。流选择单元44可以将新的音频流添加到表示音频流27的CM 47。给定音频源距离306A大于音频源距离阈值,流选择单元44然后可以根据上文更详细描述的技术反复通过音频流27以选择音频流27中的单个音频流(即,在图3C的示例中,由音频元素302B捕获的音频流)。
在图3D的示例中,音频元素302被替换为特定设备320A至320J(“设备320”),其中设备320A表示设备320A的专用传声器,而设备320B、320C、320D、320G、320H和320J表示智能手机320。设备320E、320F和320I可以表示VR设备320。设备320中的每一者可以包括音频元素302,该音频元素捕获根据本公开中所描述的流选择技术的各个方面而选择的音频流27。
图4A至图4D是示出由图1A和图1B的示例中示出的源设备和/或内容消费者设备执行的基于密码的隐私限制的示例性操作的图示。如上文所描述,在一些用例中,可能希望能够控制由源设备12生成的多个音频流中的哪些音频流可用于由内容消费者设备14回放。
例如,来自内容捕获设备20的某些捕获设备的音频可以包含敏感信息和/或来自内容捕获设备20的某些捕获设备的音频可能不意味着排他访问(例如,所有用户的无限制访问)。可能需要基于由内容捕获设备20捕获的信息类型和/或基于内容捕获设备20所处的物理区的位置来限制对来自内容捕获设备20的某些捕获设备的音频的访问。
如图4A的示例中所示,流选择单元44可以确定VLI 45B指示内容消费者设备14(示出为VR设备400)在虚拟位置401处。VR设备400可以是6DoF回放系统的收听者。流选择单元44接下来可以确定用于音频元素402A至402J(其不仅可以表示传声器,诸如图1A中所示的传声器18,而且可以表示其它类型的捕获设备和声音生成设备,包括传声器阵列、传声器群组、其它XR设备、合成声源、移动电话-包括所谓智能电话-等等)中的一个或多个的CLI45A。
如上文所描述,流选择单元44可以获得音频流27。流选择单元44可以与音频元素402A至402H和/或源设备12接口以获得音频流27。在一些示例中,流选择单元44可以根据第五代(5G)蜂窝标准、个人局域网络(PAN)(诸如蓝牙TM)或某一其它开放源、专有或标准化通信协议而与接口(诸如调制解调器、接收器、发送器和/或收发器)交互以获得音频流27。音频流的无线通信在图4A的示例中表示为闪电,其中所选择的音频流19’被示为从音频元素402中的所选择的一个或多个和/或源设备12传达到VR设备400。
在图4A的示例中,VR设备400处于位置401处,该位置401在音频源408附近。使用上文所描述的技术并且下文更详细地,VR设备400可以使用能量图以确定音频源408处于位置401处。图4A示出了音频元素402D至402H处于位置401处。音频元素402A至402C不在VR设备400附近。
一般而言,本公开包括用于基于针对音频流的区、音频流群组和/或与密码相关联的各自音频流的条件隐私限制接收一个或多个音频流的技术。条件隐私限制可以包括指示如下情形的限制:渲染侧设备(例如,VR设备400)应静音,和/或不对(一个或多个)音频流进行解码,和/或不回放(一个或多个)音频流。源设备12可以为音频流的一个或多个群组和/或与群组相关联的音频流生成密码,并且认证可以基于与密码相关联的收听者或用户来执行。针对音频流不能从捕获侧限制的情形的渲染侧隐私访问提供隐私灵活性和添加的安全层。
在本公开的示例中,来自音频元素402的一个或多个音频流来自在声学环境中表示的音频元素,该声学环境包括一个或多个子声学空间。一个或多个音频流中的每一者表示相应声场。如本文所使用的,声学环境被表示为室内环境或室外环境,或者室内环境和室外环境两者。声学环境可以包括一个或多个子声学空间,该子声学空间可以包括各种声学元素。在该上下文中,音频元素的群组可以对应于子声学空间。子声学空间可以例如为房间、或房间或建筑物内的区域、车辆的车厢、教室、教室内的区域、或任何类型的声学空间的任何子集。室外环境的示例可以包括汽车、建筑物、墙壁、森林等。声学空间(子声学空间)可以为声学环境的示例,并且可以为室内空间、室外空间和/或虚拟空间。如本文所使用,音频元素可以是通过传声器捕获的声音(例如,直接从近场源捕获或来自远场源的反射,而不管是真实还是合成的)、由传声器阵列捕获的声音、先前合成的声场(例如,特殊效果和/或沉浸效应)、从本文到语音合成的单声道声音、和/或来自声学环境中的对象的虚拟声音的反射。
在一些示例中,内容创建者可以被配置为在每一音频源或音频源的群组/区处设置隐私设置。在其它示例中,源设备12处的控制器31可以被配置为确定隐私设置是否是多个音频流的集合所需要的(诸如通过由控制器31接收的显式指令)。基于针对区的隐私设置,控制器31可以使密码生成器为区/群组(例如,子声学空间)的特定隐私设置生成密码。隐私设置可以包括以下一个或多个:将区遮蔽、将区置零、对区进行切换(toggle)和/或应用声学遮挡器而为受限制或不受限制的。在一个示例中,对区进行切换指示多个音频流中的一个或多个是受限制还是不受限制的。在其它示例中,切换隐私限制仅指示受限制的音频流。
控制器31可以被配置为将密码嵌入在比特流和/或侧通道中,并且将密码发送到VR设备400。VR设备400可以被配置为从控制器(或从另一源)接收密码,并且在请求音频流时将密码发回到控制器。
图4B是示出本公开的一个示例中的源设备12的控制器31的操作的框图。在一个示例中,控制器31可以被实施为处理器712。下文参考图7更详细地描述处理器712。如上文参考图1A所描述,源设备12可以使用内容捕获设备20来捕获和/或生成音频数据。内容捕获设备20可以从音频元素402捕获和/或生成音频数据。音频元素402可以包括静态源,诸如静态的单个传声器或传声器群组。音频元素402可以为实时源。可替代地或另外,音频元素402可以包括动态音频源(例如,就使用和/或位置而言为动态的),诸如移动电话。在一些示例中,动态音频源可以为合成音频源。音频流可以来自单个物理地间隔开的音频源或来自单个物理位置中的音频源的群组。
根据本公开的技术,控制器31可以被配置为控制渲染侧(例如,VR设备400)处来自各种音频元素的音频流的回放而无需音频元素自身控制隐私限制。以此方式,来自各种音频元素的音频流可以利用隐私限制在动态设置中被聚集和散布而不需要各自的音频元素来设置和/或管理此类隐私设置。本公开的技术在服务于音频数据的动态源时提供隐私灵活性,并且可以添加附加安全层。
在一些示例中,可能有益的是将物理上定位成彼此接近的音频源分组成群组或区(例如,子声学空间),因为物理上共置的群组中的每个单独的音频源可以感测音频中的一些或全部作为同一物理区中其它音频源中的每一者。如此一来,在本公开的一些示例中,控制器31可以被配置为将来自音频源的区的音频流遮蔽、置零和/或切换。在该上下文中,将区遮蔽可以指代将区的音频增益调低。将区置零可以指代使来自该区的音频静默(例如,使用波束成形)。对区进行切换可以指代将音频流或音频流组标记为不受限制的(例如,能够被解码和/或播放)或受限制(例如,不能够被解码和/或播放)。开启(例如,受限制)的隐私切换指示VR设备应使音频流静音和/或通常不对该音频流进行解码或播放。关闭(例如,不受限制或共同访问)的隐私切换指示任一用户可以对音频流进行解码和播放。以此方式,音频工程师或内容创建者可以向不受限制的用户或基于分层隐私设置等级授予对某些音频源的排他性访问。
如图4B中所示,控制器31的区控制器405可以被配置为接收和/或访问由内容捕获设备20捕获的多个音频流。区控制器405可以被配置为通过音频源的物理位置将音频流划分成某些区。在一些示例中,区控制器405可以标记(例如,生成元数据),该元数据指示特定音频源属于哪个区。控制器31还可以生成区的边界元数据,包括质心位置和半径。
在一些示例中,内容创建者可以被配置为在每一个音频源或音频源的群组/区处设定隐私设置。在其它示例中,控制器31可以被配置为确定隐私设置是否是多个音频流的集合所需要的(诸如通过由控制器31接收的显式指令)。基于针对区的隐私设置,控制器31可以使密码生成器411为区的特定隐私设置生成密码。在一些示例中,控制器31可以根据加密类型409(例如,高级加密标准、Rivest-Shamir-Adleman(RSA)加密等)来对密码加密。
控制器31的嵌入和认证单元407可以被配置为将密码嵌入在比特流27和/或侧通道33(参见图1A)中,并且向VR设备400或任何其它内容消费者设备(包括图1A和图1B的内容消费者设备14)发送密码。在其它示例中,VR设备400可以通过其它手段(例如,通过另一通信离线地,或从另一源)获得密码。VR设备400可以被配置为从控制器31(或从另一源)接收密码,并且在请求音频流时将密码发回到控制器31。
控制器31的嵌入和认证单元407嵌入针对音频元素的群组和/或单独的音频元素利用由控制器31检索的音频流和元数据生成的各自的密码。控制器31的嵌入和认证单元407也基于由VR设备400提供的密码执行认证。嵌入和认证单元407可以在数据分组中(例如,经由调制解调器或收发器)将密码发送到VR设备400。在一些示例中,嵌入和认证单元407可以以二进制表示编码,并且可以包括在音频分组中。
在一个示例中,控制器31可以被配置为基于认证密码仅将不受限制音频流发送到VR设备400。也就是说,一般而言,VR设备400可以被配置为基于与密码相关联的隐私限制来接收一个或多个音频流中的不受限制音频流。如上文所描述,该一个或多个音频流来自在声学环境中表示的音频元素,该声学环境包括一个或多个子声学空间,该一个或多个音频流中的每一者表示相应声场。VR设备400然后可以被配置为生成不受限制音频流的相应声场。如此一来,在该示例中,VR设备400可以从发送一个或多个音频流的控制器31获得密码,或者可以通过其它手段获得密码。VR设备400可以从控制器31请求音频流,并且可以将密码提供回到控制器31。在该示例中,控制器31可以仅发送基于密码而不受限制的音频流。
在其它示例中,控制器设备31可以被配置为将音频流中的一个或多个连同指令(例如,数据或音频元数据)发送到VR设备400,该指令是关于音频流应被遮蔽、静默、置零和/或切换的方式(例如,一般而言,回放应如何受到限制)。例如,VR设备400可以请求音频流,并且将密码提供回到控制器31。控制器31可以向VR设备400发送所有音频流。然而,控制器31还可以包括数据(例如,音频元数据),该数据指示所发送的流中的特定流是否基于通过嵌入和认证单元407所认证的密码而受限制。VR设备400然后将基于数据(例如,音频元数据)来限制受限制音频流的回放。
因此,在该示例中,VR设备400可以被配置为将密码发送到主机设备(例如,控制器31),并且从主机设备接收一个或多个音频流中的不受限制音频流以及一个或多个音频流中的受限制音频流。VR设备400还可以基于与密码相关联的隐私限制来接收指示受限制音频流的受限制回放的数据。VR设备400然后将基于指示受限制回放的数据来限制受限制音频流的相应声场的回放。VR设备400也将生成不受限制音频流的相应声场。
在一个示例中,为了基于指示受限制回放的数据来限制受限制音频流的相应声场的回放,VR设备400可以将受限制音频流遮蔽、切换或置零。在其它示例中,为了基于指示受限制回放的数据来限制受限制音频流的相应声场的回放,VR设备400可以被配置为将声学遮挡器应用于受限制音频流。
在再其它示例中,VR设备400不将密码提供给控制器31。而是,主机31可以发送所有音频流以及多个数据(例如,音频元数据),该数据指示特定流是否基于特定类型的密码而受限制。也就是说,音频元数据可以包括针对多个密码中的每一者的隐私限制指令(例如,遮蔽、置零、切换、遮挡等)。VR设备400然后可以将存储于VR设备400处的密码与对应于同一类型的密码的音频元数据相关联。VR设备400然后可以基于流来限制回放,该流基于关联而受限制。
因此,在该示例中,VR设备400可以被配置为从主机设备(例如,控制器31)接收一个或多个音频流中的不受限制音频流以及一个或多个音频流中的受限制音频流。VR设备400还可以接收指示受限制音频流的受限制回放的数据,并且可以将密码与指示受限制回放的数据相关联。VR设备400然后可以基于指示与密码相关联的受限制回放的数据来限制受限制音频流的相应声场的回放。VR设备400也将生成不受限制音频流的相应声场。
而且,在该示例中,为了基于指示受限制回放的数据来限制受限制音频流的相应声场的回放,VR设备400可以将受限制音频流遮蔽、切换或置零。在其它示例中,为了基于指示受限制回放的数据来限制受限制音频流的相应声场的回放,VR设备400可以被配置为将声学遮挡器应用于受限制音频流。
如上文所描述,隐私设置可以包括以下一个或多个:将区遮蔽、将区置零、或对区进行切换为受限制或不受限制的。在一个示例中,对区进行切换指示多个音频流中的一个或多个是受限制还是不受限制的。在其它示例中,切换隐私限制仅指示受限制的音频流。
如通常在上文所描述,控制器31可以参考音频流在许多不同分层级别下生成密码。与任何一个密码相关联的隐私限制可以基于单独的音频元素、音频元素的任何组合、音频元素的群组或区(例如,与子声学空间相关联)、子声学空间的特定区域内的音频元素的群组或区,和/或音频元素的群组或区的组合。另外,与密码相关联的隐私限制可以不仅与物理音频源(例如,静态和动态音频元素402)相关联,而且可以与合成音频源相关联。合成音频源可以包括所谓沉浸效应(例如,反射、回波、混响等),该沉浸效应可以用于变更音频流以创建特殊效应和/或模仿某些声学环境。与密码相关联的隐私限制可以用以开启或关闭此类沉浸效应。
在其它示例中,隐私密码可以与音频元素的区或群组相关联,但仅与群组内的特定音频元素相关。例如,如果密码认证针对特定区失效,则与密码相关联的隐私限制可以指示VR设备以对区或群组内仅音频元素子集限制回放。在再其它示例中,与密码相关联的隐私限制可以与场景图形相关。在该上下文中,场景图形是分层数据结构,该分层数据结构可以用于指示多个音频流中的各种音频流之间的关系。密码可以在音频场景图形的各种级别下与隐私限制相关联。
在本公开的一个示例中,密码是与受限制隐私限制相关联的主(master)密码。在该示例中,控制器31可以被配置为生成多个音频流中的每一者。主密码可以是超级用户/管理者的密码。主设备密码给出整体上对所有音频流的不受限制访问。
在本公开的另一示例中,密码是与条件隐私限制相关联的永久密码。在该示例中,控制器31可以被配置为基于条件隐私限制来生成多个音频流中的一个或多个,其中该条件隐私限制指示多个音频流中的一个或多个是受限制还是不受限制的。在一个示例中,控制器31可以被配置为生成音频元数据(诸如上述音频元数据),该音频元数据还包括相应条件隐私限制,该条件隐私限制指示多个音频流中的一个或多个基于永久密码是受限制还是不受限制的。如下文将描述,条件隐私限制可以包括遮蔽(例如,如通过增益值所指示)、置零和/或切换。在一个示例中,永久密码保持有效,直到复位。控制器31可以为单独的区、区组、单独的音频元素、音频元素组和/或合成源生成永久密码。
在本公开的另一示例中,密码是与条件隐私限制相关联的临时密码。在该示例中,控制器31可以被配置为基于条件隐私限制来生成多个音频流中的一个或多个,其中该条件隐私限制权限指示多个音频流中的一个或多个是受限制还是不受限制的。在一个示例中,控制器31可以被配置为生成音频元数据(诸如上述音频元数据),该音频元数据还包括相应条件隐私限制,该条件隐私限制指示多个音频流中的一个或多个基于临时密码是受限制还是不受限制的。如下文将描述,条件隐私限制可以包括遮蔽(例如,如通过增益值所指示)、置零和/或切换。在一个示例中,永久密码保持有效,直到复位。临时密码保持有效达固定持续时间,并且在固定持续时间之后过期。控制器31可以在持续时间过期之后使临时密码自动地失效。
在一个示例中,隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应增益值。在另一示例中,隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应置零指示。在另一示例中,隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应切换指示。
图4C是示出将区和/或单独的音频源遮蔽和置零的示例的图示。在场景420中,向VR设备400发布密码,该密码与将区2(音频元素R7至R9)遮蔽的隐私限制相关联。在该示例中,VR设备400还接收针对区2的增益值以在回放来自区2的音频流时应用。在场景430中,向VR设备400发布密码,该密码与将音频元素R4置零的隐私限制相关联。在该示例中,VR设备400可以使来自音频元素R4的音频流静音(例如,通过波束成形或应用零增益)。
图4D是示出对区和/或单独的音频源进行切换的示例的图示。在场景440中,向VR设备400发布密码,该密码与对区2(音频元素R7至R9)进行切换而受限制的隐私限制相关联。在该示例中,VR设备400禁止对来自区2的音频流进行解码和/或回放。在场景450中,向VR设备400发布密码,该密码与切换音频元素R4的隐私限制相关联。在该示例中,VR设备400禁止对来自音频元素R4的音频流进行解码和/或回放。
如根据以上描述可知,本公开的技术可以为音频流不能从捕获侧受限制的情形提供渲染侧(例如,VR设备400)隐私访问。此类技术在服务于音频数据的动态源时提供隐私灵活性,并且可以添加附加安全层。
图5是示出可以根据本公开中描述的技术的各个方面操作的可穿戴设备500的示例的图示。在各种示例中,可穿戴设备500可以表示VR头戴式装置(诸如上述VR头戴式装置1100)、AR头戴式装置、MR头戴式装置或任何其它类型的扩展现实(XR)头戴式装置。增强现实“AR”可以指代叠加在用户实际所处的现实世界上的计算机渲染的图像或数据。混合现实“MR”可以指代被锁定到现实世界中的特定位置的计算机渲染的图像或数据,或者可以指代VR的一种变型,其中部分计算机渲染的3D元素和部分拍摄的真实元素被组合成模拟用户在环境中的物理存在的沉浸式体验。扩展现实“XR”可以表示VR、AR和MR的统称。关于XR术语的更多信息可以在Jason Peterson于2017年7月7日发表的标题为“Virtual Reality,Augmented Reality,and Mixed Reality Definitions”的文档中找到。
可穿戴设备500可以表示其它类型的设备,诸如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、头戴式耳机(包括所谓的“无线头戴式耳机”和“智能头戴式耳机”)、智能服装、智能珠宝等。无论是否表示VR设备、手表、眼镜和/或耳机,可穿戴设备500都可以经由有线连接或无线连接与支持可穿戴设备500的计算设备进行通信。
在一些实例中,支持可穿戴设备500的计算设备可以集成在可穿戴设备500内,如此一来,可穿戴设备500可以被视为与支持可穿戴设备500的计算设备相同的设备。在其它实例中,可穿戴设备500可以与可以支持可穿戴设备500的单独计算设备进行通信。在这方面,术语“支持”不应被理解为需要单独的专用设备,而是被配置为执行本公开中描述的技术的各个方面的一个或多个处理器可以集成在可穿戴设备500内或集成在与可穿戴设备500分离的计算设备内。
例如,当可穿戴设备500表示VR设备500时,单独的专用计算设备(诸如包括一个或多个处理器的个人计算机)可以渲染音频和视觉内容,而可穿戴设备500可以确定平移头部移动,根据本公开中描述的技术的各个方面,专用计算设备可以基于该平移头部移动来渲染音频内容(作为扬声器馈送)。作为另一示例,当可穿戴设备500表示智能眼镜时,可穿戴设备500可以包括一个或多个处理器,其确定平移头部移动(通过在穿戴设备500的一个或多个传感器内的接口)并基于所确定的平移头部移动来渲染扬声器馈送。
如图所示,可穿戴设备500包括一个或多个定向扬声器、以及一个或多个跟踪和/或记录相机。另外,可穿戴设备500包括一个或多个惯性、触觉和/或健康状况传感器、一个或多个眼动跟踪相机、一个或多个高灵敏度音频传声器和光学/投影硬件。可穿戴设备500的光学/投影硬件可以包括耐用的半透明显示技术和硬件。
可穿戴设备500还包括连接硬件,其可以表示支持多模式连接的一个或多个网络接口,诸如4G通信、5G通信、蓝牙等。可穿戴设备500还包括一个或多个环境光传感器以及骨传导传感器。在一些实例中,可穿戴设备500还可以包括具有鱼眼镜头和/或长焦镜头的一个或多个无源和/或有源相机。虽然未在图5中示出,但是可穿戴设备500还可以包括一个或多个发光二极管(LED)灯。在一些示例中,(一个或多个)LED灯可以被称为(一个或多个)“超亮”LED灯。在一些实施方式中,可穿戴设备500还可以包括一个或多个后置相机。应当理解,可穿戴设备500可以表现出多种不同的形状因子。
此外,跟踪和记录相机以及其它传感器可以促进平移距离的确定。虽然未在图5的示例中示出,但是可穿戴设备500可以包括用于检测平移距离的其它类型的传感器。
虽然关于可穿戴设备的特定示例(诸如上文关于图2的示例讨论的VR设备500和本文在图1A和图1B的示例中陈述的其它设备)进行了描述,但是本领域普通技术人员将理解,与图1A、图1B和图2相关的描述可以适用于可穿戴设备的其它示例。例如,其它可穿戴设备(诸如智能眼镜)可以包括传感器,通过该传感器获得平移头部移动。作为另一示例,其它可穿戴设备(诸如智能手表)可以包括传感器,通过该传感器获得平移移动。如此一来,本公开中描述的技术不应限于特定类型的可穿戴设备,而是任何可穿戴设备都可以被配置为执行本公开中描述的技术。
图6A和图6B是示出可以执行本公开中描述的技术的各个方面的示例性系统的图式。图6A示出了其中源设备12还包括相机600的示例。相机600可以被配置为捕获视频数据,并将捕获的原始视频数据提供给内容捕获设备20。内容捕获设备20可以将视频数据提供给源设备12的另一组件,以进一步处理成视口经划分的部分。
在图6A的示例中,内容消费者设备14还包括可穿戴设备1100。将理解,在各种实施方式中,可穿戴设备1100可以被包括在内容消费者设备14中或从外部耦合到内容消费者设备。可穿戴设备1100包括用于输出视频数据(例如,与各种视口相关联)和用于渲染音频数据的显示硬件和扬声器硬件。
图6B示出了其中图6A中所示的音频渲染器32被替换为能够使用一个或多个HRTF或能够渲染到左右扬声器馈送43的其它函数来执行双耳渲染的双耳渲染器42的示例。音频回放系统16C可以将左右扬声器馈送43输出到头戴式耳机1104。
头戴式耳机1104可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其它形式的有线连接)或无线地(诸如通过蓝牙TM连接、无线网络连接等)耦合到音频回放系统16C。头戴式耳机1104可以基于左右扬声器馈送43来重建由音频数据19’表示的声场。头戴式耳机1104可以包括左头戴式耳机扬声器和右头戴式耳机扬声器,它们由对应的左右扬声器馈送43供电(或换句话说,驱动)。
图7是示出图1的示例中所示的源设备和内容消费者设备中的一个或多个的示例性组件的框图。在图7的示例中,设备710包括处理器712(其可以被称为“一个或多个处理器”或“处理器”)、图形处理单元(GPU)714、系统存储器716、显示处理器718、一个或更多集成扬声器740、显示器703、用户接口720、天线721和收发器模块722。在其中设备710是移动设备的示例中,显示处理器718是移动显示处理器(MDP)。在一些示例中,诸如在其中源设备710是移动设备的示例中,处理器712、GPU 714和显示处理器718可以形成为集成电路(IC)。
例如,IC可以被认为是芯片封装内的处理芯片并且可以是片上系统(SoC)。在一些示例中,处理器712、GPU 714和显示处理器718中的两者可以一起容纳在同一IC中,而另一者可以容纳在不同的集成电路中(即,在不同的芯片封装中),或者所有三个都可以容纳在不同的IC中或在同一IC上。然而,在其中设备710是移动设备的示例中,处理器712、GPU 714和显示处理器718可能都容纳在不同的集成电路中。
处理器712、GPU 714和显示处理器718的示例包括但不限于一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路系统。处理器712可以是源设备710的中央处理单元(CPU)。在一些示例中,GPU 714可以是专用硬件,其包括为GPU 714提供适合图形处理的大规模并行处理能力的集成和/或离散逻辑电路。在一些实例中,GPU 714还可以包括通用处理能力,并且在实施通用处理任务(即,非图形相关任务)时可以被称为通用GPU(GPGPU)。显示处理器718也可以是专用集成电路硬件,其被设计为从系统存储器716中检索图像内容,将图像内容组合成图像帧,并将图像帧输出到显示器703。
处理器712可以执行各种类型的应用。应用的示例包括网络浏览器、电子邮件应用、电子表格、视频游戏、生成用于显示的可视对象的其它应用,或上文更详细列出的任何应用类型。系统存储器716可以存储用于执行应用的指令。处理器712上的应用中的一者的执行使处理器712产生要显示的图像内容的图形数据和(可能经由集成扬声器740)要播放的音频数据19。处理器712可以向GPU 714发送图像内容的图形数据,以用于基于处理器712发送到GPU 714的指令或命令进行进一步处理。
处理器712可以根据特定应用程序处理接口(API)与GPU 714通信。此类API的示例包括的API、Khronos组的或以及OpenCLTM;然而,本公开的各方面不限于DirectX、OpenGL或OpenCL API,并且可以扩展到其它类型的API。此外,本公开中描述的技术不需要根据API起作用,并且处理器712和GPU 714可以利用任何过程进行通信。
系统存储器716可以是设备710的存储器。系统存储器716可以包括一个或多个计算机可读存储介质。系统存储器716的示例包括但不限于随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、闪存或可以用于携带或存储呈指令和/或数据结构形式的所需数据并且可以由计算机或处理器访问的其它介质。
在一些示例中,系统存储器716可以包括使处理器712、GPU 714和/或显示处理器718执行本公开中归于处理器712、GPU 714和/或显示处理器718的功能的指令。因此,系统存储器716可以是其上存储有指令的计算机可读存储介质,该指令在被执行时使一个或多个处理器(例如,处理器712、GPU 714和/或显示处理器718)执行各种功能。
系统存储器716可以包括非暂时性存储介质。术语“非暂时性”指示存储介质不体现在载波或传播信号中。然而,术语“非暂时性”不应被解释为表示系统存储器716是不可移动的或其内容是静态的。作为一个示例,系统存储器716可以从源设备710移除并移动到另一设备。作为另一示例,基本上类似于系统存储器716的存储器可以插入到设备710中。在某些示例中,非暂时性存储介质可以存储随时间变化的数据(例如,存储在RAM中)。
用户接口720可以表示一个或多个硬件或虚拟(意味着硬件和软件的组合)用户接口,用户可以通过该用户接口与设备710交互。用户接口720可以包括物理按钮、开关、拨动开关、灯或它们的虚拟版本。用户接口720还可以包括物理或虚拟键盘、触摸界面-诸如触摸屏、触觉反馈等。
处理器712可以包括一个或多个硬件单元(包括所谓的“处理核”),其被配置为执行上文关于内容创建者设备和/或内容消费者设备的模块、单元或其它功能组件中的任一者中的一个或多个所讨论的全部或部分操作。天线721和收发器模块722可以表示被配置为在内容消费者设备14与内容消费者设备14之间建立和维持连接的单元。天线721和收发器模块722可以表示能够根据一种或多种无线通信协议(诸如第五代(5G)蜂窝标准、个域网(PAN)协议(诸如蓝牙TM)、或其它开源、专有或其它通信标准)进行无线通信的一个或多个接收器和/或一个或多个发送器。也就是说,收发器模块722可以表示单独的发送器、单独的接收器、单独的发送器和单独的接收器两者或组合的发送器和接收器。天线721和收发器722可以被配置为接收经编码的音频数据。同样,天线721和收发器722可以被配置为发送经编码的音频数据。收发器722也可以被配置为调制解调器。
图8A至图8C是示出图1A和图1B的示例中所示的流选择单元在执行流选择技术的各个方面时的示例性操作的流程图。首先参考图8A的示例,流选择单元44可以从所有启用接收器(其是指代传声器(诸如传声器18)的另一方式)获得所有音频流27,其中音频流27可以包括对应音频元数据,诸如CLI 45A(800)。流选择单元44可以针对音频流27中的每一者执行能量分析以计算相应的能量图(802)。
流选择单元44接下来可以基于与音频源308的接近度(如由音频源距离306A和/或306B所定义)和与接收器的接近度(如由上文讨论的接近距离定义)来循环(iterate)通过接收器的不同组合(在CM 47定义)(804)。如图8A中所示,接收器可以被排序或以其它方式与不同的访问权限相关联。流选择单元44可以基于由VLI 45B表示的收听者位置(其是指代“虚拟位置”的另一种方式)和由CLI 45A表示的接收器位置以上述方式循环,以识别是否需要音频流27的更大的子集或音频流27的减小的子集(806、808)。
当需要音频流27的更大的子集时,流选择单元44可以向音频流19’添加接收器,或者换句话说,添加附加的音频流(诸如当用户更靠近图3A的示例中的音频源时)(810)。当需要音频流27的减小的子集时,流选择单元44可以从音频流19’去除接收器,或者换句话说,去除现有的音频流(诸如当用户远离图3A的示例中的音频源时)(812)。
在一些示例中,流选择单元44可以确定接收器的当前群集是最佳集合(或者换句话说,现有音频流19’将保持与本文描述的选择过程相同导致相同音频流19’)(804)。然而,当音频流被添加到音频流19’或从音频数据去除时,流选择单元44可以更新CM 47(814),生成群集历史(815)。
另外,流选择单元44可以确定隐私设置是启用还是禁用接收器的添加(其中隐私设置可以指代例如通过密码、授权级别或排序、时间等限制对音频流27中的一个或多个的访问的数字访问权限)(816、818)。当隐私设置使得能够添加接收器时,流选择单元44可以将接收器添加到更新的CM 47(其是指将音频流添加到音频流19’)(820)。当隐私设置禁止添加接收器时,流选择单元44可以从更新的CM 47去除接收器(其是指从音频流19’去除音频流)(822)。通过这种方式,流选择单元44可以识别启用新的接收器集(824)。
流选择单元44可以通过这种方式循环并根据任何给定频率更新各种输入。例如,流选择单元44可以以用户接口速率更新隐私设置(意味着通过经由用户接口输入的更新来驱动更新)。流选择设备44可以以传感器速率更新位置(意味着位置通过接收器的移动而改变)。流选择单元44还可以以音频帧率更新能量图(意味着能量图每帧更新一次)。
接下来参考图8B的示例,流选择单元44可以通过上关于图8A描述的方式操作,除了流选择单元44可以不基于能量图来确定CM 47以外。如此一来,流选择单元44可以从所有启用接收器(其是指代传声器(诸如传声器18)的另一方式)获得所有音频流27,其中音频流27可以包括对应音频元数据,诸如CLI 45A(840)。流选择单元44可以确定隐私设置是启用还是禁用接收器的添加(其中隐私设置可以指代例如通过密码、授权级别或排序、时间等限制对音频流27中的一个或多个的访问的数字访问权限)(842、844)。
当隐私设置使得能够添加接收器时,流选择单元44可以将接收器添加到更新的CM47(其是指将音频流添加到音频流19’)(846)。当隐私设置禁止添加接收器时,流选择单元44可以从更新的CM 47去除接收器(其是指从音频流19’去除音频流)(848)。通过这种方式,流选择单元44可以识别启用新的接收器集(850)。流选择单元44可以循环通过CM 47中的接收器的不同组合以确定群集图历史(854),其表示音频流19’。
流选择单元44可以通过这种方式循环并根据任何给定频率更新各种输入。例如,流选择单元44可以以用户接口速率更新隐私设置(意味着通过经由用户接口输入的更新来驱动更新)。作为另一示例,流选择设备44可以以传感器速率更新位置(意味着位置通过接收器的移动而改变)。
接下来参考图8C的示例,流选择单元44可以通过上关于图8A描述的方式操作,除了流选择单元44可以不基于启用的接收器来确定CM 47以外。如此一来,流选择单元44可以从所有启用接收器(其是指代传声器(诸如传声器18)的另一方式)获得所有音频流27,其中音频流27可以包括对应音频元数据,诸如CLI 45A(860)。流选择单元44可以针对音频流27中的每一者执行能量分析以计算相应的能量图(862)。
流选择单元44接下来可以基于与音频源308的接近度(如由音频源距离306A和/或306B所定义)和与接收器的接近度(如由上文讨论的接近距离定义)来循环通过接收器的不同组合(在CM 47定义)(864)。如图8C中所示,接收器可以被排序或以其它方式与不同的访问权限相关联。流选择单元44可以基于由VLI 45B表示的收听者位置(其再次是指代上文讨论的“虚拟位置”的另一方式)和由CLI 45A表示的接收器位置以上述方式循环,以识别是否需要音频流27的更大的子集或音频流27的减小的子集(866、868)。
当需要音频流27的更大的子集时,流选择单元44可以向音频流19’添加接收器,或者换句话说,添加附加的音频流(诸如当用户更靠近图3A的示例中的音频源时)(870)。当需要音频流27的减小的子集时,流选择单元44可以从音频流19’去除接收器,或者换句话说,去除现有的音频流(诸如当用户远离图3A的示例中的音频源时)(872)。
在一些示例中,流选择单元44可以确定接收器的当前群集是最佳集合(或者换句话说,现有音频流19’将保持与本文描述的选择过程相同导致相同音频流19’)(864)。然而,当音频流被添加到音频流19’或从音频数据19’去除时,流选择单元44可以更新CM 47(874),生成群集历史(875)。
流选择单元44可以通过这种方式循环并根据任何给定频率更新各种输入。例如,流选择设备44可以以传感器速率更新位置(意味着位置通过接收器的移动而改变)。流选择单元44还可以以音频帧率更新能量图(意味着能量图每帧更新一次)。
应当认识到,取决于示例,本文描述的任何技术的某些动作或事件可以以不同顺序执行,可以被添加、合并或完全排除(例如,并非所有描述的动作或事件都是技术实践所必需的)。此外,在某些示例中,动作或事件可以同时执行,例如,通过多线程处理、中断处理或多个处理器执行,而不是顺序执行。
在一些示例中,VR设备(或流式传输设备)可以使用耦合到VR/流式传输设备的存储器的网络接口向外部设备传送交换消息,其中该交换消息与声场的多个可用表示相关联。在一些示例中,VR设备可以使用耦合到网络接口的天线接收无线信号,包括数据分组、音频分组、视频协议或与声场的多个可用表示相关联的传输协议数据。在一些示例中,一个或多个传声器阵列可以捕获声场。
在一些示例中,存储到存储器设备的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的高阶环绕声表示、声场的混合阶环绕声表示、声场的基于对象的表示与声场的高阶环绕声表示的组合、声场的基于对象的表示与声场的混合阶环绕声表示的组合、或声场的混合阶表示与声场的高阶环绕声表示的组合。
在一些示例中,声场的多个可用表示中的声场表示中的一个或多个可以包括至少一个高分辨率区域和至少一个较低分辨率区域,并且其中基于转向角的选择的呈现提供关于至少一个高分辨率区域的更大空间精度和关于较低分辨率区域的更低空间精度。
图9A至图9D是示出用于使用本公开的技术基于密码来处理一个或多个音频流的示例性技术的流程图。图9A至图9D的技术可以通过内容消费者设备(诸如图1A和图1B的内容消费者设备14)的一个或多个处理器和/或电路来执行。如上文所讨论,在一些示例中,图1A和图1B的内容消费者设备14可以是VR设备400(例如,参见图4B)或另一XR设备(例如,XR耳机)。
在图9A的一般示例中,内容消费者设备14可以被配置为:基于与密码相关联的隐私限制来接收该一个或多个音频流中的不受限制音频流(900),其中该一个或多个音频流来自在声学环境中表示的音频元素,该声学环境包括一个或多个子声学空间,该一个或多个音频流中的每一者表示相应声场;以及生成该不受限制音频流的相应声场(902)。
图9B更详细地示出图9A的技术的一个示例。在图9B的示例中,内容消费者设备14可以被配置为从主机设备(例如,源设备12)请求音频流(910),并且将密码发送到主机设备(912)。内容消费者设备14还可以被配置为基于与密码相关联的隐私限制从主机设备接收一个或多个音频流的仅不受限制音频流(914),并且生成不受限制音频流的相应声场(916)。
图9C更详细地示出图9A的技术的另一示例。在图9C的示例中,内容消费者设备14可以被配置为从主机设备(例如,源设备12)请求音频流(920),并且将密码发送到主机设备(922)。内容消费者设备14还可以被配置为从主机设备接收一个或多个音频流中的不受限制音频流和一个或多个音频流中的受限制音频流(924)。内容消费者设备还可以被配置为基于与密码相关联的隐私限制来接收指示受限制音频流的受限制回放的数据(926)。内容消费者设备14可以基于指示受限制回放的数据来限制受限制音频流的相应声场的回放(928),并且可以生成不受限制音频流的相应声场(930)。
图9D更详细地示出图9A的技术的另一示例。在图9D的示例中,内容消费者设备14可以被配置为从主机设备(例如,源设备12)请求音频流(940)。内容消费者设备14还可以被配置为从主机设备接收一个或多个音频流中的不受限制音频流和一个或多个音频流中的受限制音频流(942),并且接收指示受限制音频流的受限制回放的数据(944)。内容消费者设备14可以将密码与指示受限制回放的数据相关联(946),并且基于指示与密码相关联的受限制回放的数据来限制受限制音频流的相应声场的回放(948)。内容消费者设备14可以生成不受限制音频流的相应声场(950)。
在图9C和图9D的示例中的每一者中,为了基于指示受限制回放的数据来限制受限制音频流的相应声场的回放,内容消费者设备14可以被配置为将受限制音频流遮蔽、切换或置零。在另一示例中,为了基于指示受限制回放的数据来限制受限制音频流的相应声场的回放,内容消费者设备14可以被配置为将声学遮挡器应用于受限制音频流。
在本公开的一个示例中,密码是与受限制隐私限制相关联的主设备密码。在该示例中,为了基于与密码相关联的隐私限制来接收一个或多个音频流中的不受限制音频流,内容消费者设备14还被配置为:接收一个或多个音频流中的每一者。
在本公开的另一示例中,密码是与条件隐私限制相关联的永久密码。在该示例中,为了基于与密码相关联的隐私限制来接收一个或多个音频流中的不受限制音频流,内容消费者设备14还被配置为基于与永久密码相关联的条件隐私限制来接收一个或多个音频流中的不受限制音频流,其中永久密码保持有效,直到复位。
在本公开的另一示例中,密码是与条件隐私限制相关联的临时密码。在该示例中,为了基于与密码相关联的隐私限制来接收一个或多个音频流中的不受限制音频流,内容消费者设备14还被配置为基于与临时密码相关联的条件隐私限制来接收一个或多个音频流中的不受限制音频流,其中该临时密码保持有效达固定持续时间并且在该固定持续时间之后过期。
图10示出了根据本公开的各方面的支持基于密码的隐私限制的无线通信系统100的示例。无线通信系统100包括基站105、UE 115和核心网络130。在一些示例中,无线通信系统100可以是长期演进(LTE)网络、高级LTE(LTE-A)网络、LTE-A Pro网络或新无线电(NR)网络。在一些情况下,无线通信系统100可以支持增强型宽带通信、超可靠(例如,任务关键型)通信、低延迟通信或与低成本和低复杂度设备的通信。
基站105可以经由一个或多个基站天线与UE 115进行无线通信。本文描述的基站105可以包含或者可以被本领域技术人员称为基站收发器、无线电基站、接入点、无线电收发器、NodeB、eNodeB(eNB)、下一代NodeB或giga-NodeB(其中的任一个都可以被称为gNB)、家庭NodeB、家庭eNodeB或其它一些合适的术语。无线通信系统100可以包括不同类型的基站105(例如,宏小区基站或小小区基站)。本文描述的UE 115可能能够与各种类型的基站105和网络设备进行通信,该网络设备包括宏eNB、小小区eNB、gNB和中继基站等。
每个基站105可以与其中支持与各种UE 115的通信的特定地理覆盖区域110相关联。每个基站105可以经由通信链路125为相应的地理覆盖区域110提供通信覆盖,并且基站105与UE 115之间的通信链路125可以利用一个或多个载波。无线通信系统100中所示的通信链路125可以包括从UE 115到基站105的上行链路发送,或者从基站105到UE 115的下行链路发送。下行链路发送也可以被称为前向链路发送,而上行链路发送也可以被称为反向链路发送。
基站105的地理覆盖区域110可以被划分为构成地理覆盖区域110的一部分的扇区,并且每个扇区可以与小区相关联。例如,每个基站105可以为宏小区、小小区、热点或其它类型的小区或其各种组合提供通信覆盖。在一些示例中,基站105可以是可移动的,并且因此为移动的地理覆盖区域110提供通信覆盖。在一些示例中,与不同技术相关联的不同地理覆盖区域110可以重叠,并且同一基站105或不同基站105可以支持与不同技术相关联的重叠地理覆盖区域110。无线通信系统100可以包括例如异构LTE/LTE-A/LTE-A Pro或NR网络,其中不同类型的基站105为各种地理覆盖区域110提供覆盖。
UE 115可以分散在整个无线通信系统100中,并且每个UE 115可以是固定的或移动的。UE 115也可以被称为移动设备、无线设备、远程设备、手持设备或订户设备,或者一些其它合适的术语,其中“设备”也可以被称为单元、站、终端或客户端。UE 115也可以是个人电子设备,诸如蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或个人计算机。在本公开的示例中,UE 115可以是本公开中描述的任何音频源,包括VR头戴式装置、XR头戴式装置、AR头戴式装置、车辆、智能手机、传声器、传声器阵列或包括传声器或能够发送捕获和/或合成的音频流的任何其它设备。在一些示例中,合成音频流可以是存储在存储器中或先前创建或合成的音频流。在一些示例中,UE 115还可以指代无线本地环路(WLL)站、物联网(IoT)设备、万物联网(IoE)设备或MTC设备等,该UE可以在诸如电器、车辆、仪表等各种制品中实施。
诸如MTC或IoT设备之类的一些UE 115可以是低成本或低复杂度设备,并且可以(例如,经由机器对机器(M2M)通信)提供机器之间的自动化通信。M2M通信或MTC可以指代允许设备在无需人类干预的情况下彼此或与基站105进行通信的数据通信技术。在一些示例中,M2M通信或MTC可以包括来自设备的通信,该设备交换和/或使用基于密码的隐私数据以切换、遮蔽和/或置零各种音频流和/或音频源,如上文所描述。
在一些情况下,UE 115还可能能够与其它UE 115直接通信(例如,使用对等(P2P)或设备对设备(D2D)协议)。利用D2D通信的一组UE 115中的一个或多个可以在基站105的地理覆盖区域110内。这组中的其它UE 115可能在基站105的地理覆盖区域110之外,或者不能接收来自基站105的发送。在一些情况下,经由D2D通信进行通信的多组UE 115可以利用一对多(1:M)系统,其中每个UE 115向这组中的每个其它UE 115进行发送。在一些情况下,基站105促进用于D2D通信的资源的调度。在其它情况下,在UE115之间执行D2D通信而无需基站105参与。
基站105可以与核心网络130以及彼此进行通信。例如,基站105可以通过回程链路132(例如,经由S1、N2、N3或其它接口)与核心网络130接口。基站105可以直接地(例如,在基站105之间直接地)或间接地(例如,经由核心网络130)通过回程链路134(例如,经由X2、Xn或其它接口)彼此通信。
在一些情况下,无线通信系统100可以利用授权的无线电频谱带和未授权的无线电频谱带两者。例如,无线通信系统100可以在诸如5GHz ISM带之类的未授权带中采用授权辅助接入(LAA)、未授权的LTE(LTE-U)无线电接入技术或NR技术。当在未授权无线电频率频谱带中操作时,诸如基站105和UE 115之类的无线设备可以采用先听后讲(LBT)程序来确保在发送数据之前清空信道。在一些情况下,未授权带中的操作可以基于载波聚合配置与在授权频带(例如,LAA)中操作的分量载波的结合。未授权频谱中的操作可以包括下行链路发送、上行链路发送、对等发送或这些的组合。未授权频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或两者的组合。
下面描述本公开的其它说明性示例。
示例1A-一种被配置为处理多个音频流中的一个或多个的设备,该设备包括:存储器,被配置为存储多个音频流,该音频流中的每一者表示声场;以及一个或多个处理器,耦合到存储器并且被配置为:基于与密码相关联的隐私限制来接收多个音频流中的一个或多个;以及基于多个音频流中的一个或多个生成对应声场。
示例2A-根据示例1A所述的设备,其中密码是与不受限制隐私限制相关联的主密码,并且其中为了接收多个音频流中的一个或多个,所述一个或多个处理器还被配置为:接收多个音频流中的每一者。
示例3A-根据示例1A所述的设备,其中密码是与条件隐私限制相关联的永久密码,并且其中为了接收多个音频流中的一个或多个,一个或多个处理器还被配置为:基于条件隐私限制来接收多个音频流中的一个或多个,其中条件隐私限制指示多个音频流中的一个或多个是受限制还是不受限制的。
示例4A-根据示例3A所述的设备,其中一个或多个处理器还被配置为:接收还包括相应条件隐私限制的音频元数据,相应条件隐私限制指示多个音频流中的一个或多个是基于永久密码受限制还是不受限制的。
示例5A-根据示例3A所述的设备,其中永久密码保持有效,直到复位。
示例6A-根据示例1A所述的设备,其中密码是与条件隐私限制相关联的临时密码,并且其中为了接收多个音频流中的一个或多个,一个或多个处理器还被配置为:基于条件隐私限制来接收多个音频流中的一个或多个,其中条件隐私限制权限指示多个音频流中的一个或多个是受限制还是不受限制的。
示例7A-根据示例6A所述的设备,其中一个或多个处理器还被配置为:接收还包括相应条件隐私限制的音频元数据,相应条件隐私限制指示多个音频流中的一个或多个是基于临时密码受限制还是不受限制的。
示例8A-根据示例6A所述的设备,其中临时密码保持有效达固定持续时间,并且在固定持续时间之后过期。
示例9A-根据示例1A所述的设备,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应增益值。
示例10A-根据示例1A所述的设备,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应置零指示。
示例11A-根据示例1A所述的设备,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应切换指示。
示例12A-根据示例1A所述的设备,其中一个或多个处理器还被配置为:从主机接收密码。
示例13A-根据示例1A所述的设备,其中一个或多个处理器还被配置为:从除了主机之外的源接收密码。
示例14A-根据示例1A所述的设备,其中多个音频流包括来自音频捕获设备或音频捕获设备的群组中的一个或多个的音频流。
示例15A-根据示例14A所述的设备,其中音频捕获设备可以包括单一传声器和传声器阵列中的一个或多个。
示例16A-根据示例14A所述的设备,其中音频捕获设备可以包括移动设备。
示例17A-根据示例1A所述的设备,其中一个或多个处理器还被配置为:通过无线链路接收多个音频流。
示例18A-根据示例17A所述的设备,其中无线链路是5G空中接口。
示例19A-根据示例17A所述的设备,其中无线链路是蓝牙接口。
示例20A-根据示例1A至19A的任何组合所述的设备,其中该设备包括扩展现实头戴式装置。
示例21A-根据示例1A至20A的任何组合所述的设备,其还包括被配置为呈现所显示的世界的头戴式显示器。
示例22A-根据示例1A至19A的任何组合所述的设备,其中该设备包括移动手持终端。
示例23A-根据示例1A所述的设备,其中一个或多个处理器被配置为:接收包括表示所显示的世界中的捕获位置的捕获位置信息的音频元数据,多个音频流中的对应音频流在该捕获位置处被捕获;确定表示该设备在所显示的世界中的位置的位置信息;基于位置信息和捕获位置信息来选择多个音频流的子集,多个音频流的子集不包括多个音频流中的至少一者;以及基于多个音频流的子集来生成对应声场。
示例1B-一种处理多个音频流中的一个或多个的方法,该方法包括:由存储器存储多个音频流,音频流中的每一者表示声场;由一个或多个处理器基于与密码相关联的隐私限制来接收多个音频流中的一个或多个;以及由一个或多个处理器基于多个音频流中的一个或多个来生成对应声场。
示例2B-根据示例1B所述的方法,其中密码是与不受限制隐私限制相关联的主密码,并且其中接收多个音频流中的一个或多个包括:接收多个音频流中的每一者。
示例3B-根据示例1B所述的方法,其中密码是与条件隐私限制相关联的永久密码,并且其中接收多个音频流中的一个或多个包括:基于条件隐私限制来接收多个音频流中的一个或多个,其中条件隐私限制指示多个音频流中的一个或多个是受限制还是不受限制的。
示例4B-根据示例3B所述的方法,还包括:接收还包括相应条件隐私限制的音频元数据,相应条件隐私限制指示多个音频流中的一个或多个是基于永久密码受限制还是不受限制的。
示例5B-根据示例3B所述的方法,其中永久密码保持有效,直到复位。
示例6B-根据示例1B所述的方法,其中密码是与条件隐私限制相关联的临时密码,并且其中接收多个音频流中的一个或多个包括:基于条件隐私限制来接收多个音频流中的一个或多个,其中条件隐私限制权限指示多个音频流中的一个或多个是受限制还是不受限制的。
示例7B-根据示例6B所述的方法,还包括:接收还包括相应条件隐私限制的音频元数据,相应条件隐私限制指示多个音频流中的一个或多个是基于临时密码受限制还是不受限制的。
示例8B-根据示例6B所述的方法,其中临时密码保持有效达固定持续时间,并且在固定持续时间之后过期。
示例9B-根据示例1B所述的方法,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应增益值。
示例10B-根据示例1B所述的方法,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应置零指示。
示例11B-根据示例1B所述的方法,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应切换指示。
示例12B-根据示例1B所述的方法,还包括:从主机接收密码。
示例13B-根据示例1B所述的方法,还包括:从除了主机之外的源接收密码。
示例14B-根据示例1B所述的方法,其中多个音频流包括来自音频捕获设备或音频捕获设备的群组中的一个或多个的音频流。
示例15B-根据示例14B所述的方法,其中音频捕获设备可以包括单一传声器和传声器阵列中的一个或多个。
示例16B-根据示例14B所述的方法,其中音频捕获设备可以包括移动设备。
示例17B-根据示例1B所述的方法,还包括:通过无线链路接收多个音频流。
示例18B-根据示例17B所述的方法,其中无线链路是5G空中接口。
示例19B-根据示例17B所述的方法,其中无线链路是蓝牙接口。
示例20B-根据示例1B至19B的任何组合所述的方法,其中该方法通过扩展现实头戴式装置来执行。
示例21B-根据示例1B至20B的任何组合所述的方法,还包括:利用头戴式显示器呈现所显示的世界。
示例22B-根据示例1B至19B的任何组合所述的方法,其中该方法通过移动手持终端执行。
示例23B-根据示例1B所述的方法,还包括:接收表示所显示的世界中的捕获位置的捕获位置信息的音频元数据,多个音频流中的对应音频流在该捕获位置处被捕获;确定表示该设备在所显示的世界中的位置的位置信息;基于位置信息和捕获位置信息来选择多个音频流的子集,多个音频流的子集不包括多个音频流中的至少一者;以及基于多个音频流的子集来生成对应声场。
示例1C-一种被配置为处理多个音频流中的一个或多个的设备,该设备包括:用于存储多个音频流的装置,音频流中的每一者表示声场;用于基于与密码相关联的隐私限制来接收多个音频流中的一个或多个的装置;以及用于基于多个音频流中的一个或多个来生成对应声场的装置。
示例2C-根据示例1C所述的设备,其中密码是与不受限制隐私限制相关联的主密码,并且其中用于接收多个音频流中的一个或多个的装置包括:用于接收多个音频流中的每一者的装置。
示例3C-根据示例1C所述的设备,其中密码是与条件隐私限制相关联的永久密码,并且其中用于接收多个音频流中的一个或多个的装置包括:用于基于条件隐私限制来接收多个音频流中的一个或多个的装置,其中条件隐私限制指示多个音频流中的一个或多个是受限制还是不受限制的。
示例4C-根据示例3C所述的设备,还包括:用于接收还包括相应条件隐私限制的音频元数据的装置,相应条件隐私限制指示多个音频流中的一个或多个是基于永久密码受限制还是不受限制的。
示例5C-根据示例3C所述的设备,其中永久密码保持有效,直到复位。
示例6C-根据示例1C所述的设备,其中密码是与条件隐私限制相关联的临时密码,并且其中用于接收多个音频流中的一个或多个的装置包括:用于基于条件隐私限制来接收多个音频流中的一个或多个的装置,其中条件隐私限制权限指示多个音频流中的一个或多个是受限制还是不受限制的。
示例7C-根据示例6C所述的设备,还包括:用于接收还包括相应条件隐私限制的音频元数据的装置,相应条件隐私限制指示多个音频流中的一个或多个是基于临时密码受限制还是不受限制的。
示例8C-根据示例6C所述的设备,其中临时密码保持有效达固定持续时间,并且在固定持续时间之后过期。
示例9C-根据示例1C所述的设备,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应增益值。
示例10C-根据示例1C所述的设备,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应置零指示。
示例11C-根据示例1C所述的设备,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应切换指示。
示例12C-根据示例1C所述的设备,还包括:用于从主机接收密码的装置。
示例13C-根据示例1C所述的设备,还包括:用于从除了主机之外源接收密码的装置。
示例14C-根据示例1C所述的设备,其中多个音频流包括来自音频捕获设备或音频捕获设备的群组中的一个或多个的音频流。
示例15C-根据示例14C所述的设备,其中音频捕获设备可以包括单一传声器和传声器阵列中的一个或多个。
示例16C-根据示例14C所述的设备,其中音频捕获设备可以包括移动设备。
示例17C-根据示例1C所述的设备,还包括:用于通过无线链路接收多个音频流的装置。
示例18C-根据示例17C所述的设备,其中无线链路是5G空中接口。
示例19C-根据示例17C所述的设备,其中无线链路是蓝牙接口。
示例20C-根据示例1C至19C的任何组合所述的设备,其中该设备是扩展现实头戴式装置。
示例21C-根据示例1C至20C的任何组合所述的设备,还包括:用于利用头戴式显示器呈现所显示的世界的装置。
示例22C-根据示例1C至19C的任何组合所述的设备,其中该设备是移动手持终端。
示例23C-根据示例1C所述的设备,还包括:用于接收包括表示所显示的世界中的捕获位置的捕获位置信息的音频元数据的装置,多个音频流中的对应音频流在该捕获位置处被捕获;用于确定表示该设备在所显示的世界中的位置的位置信息的装置;用于基于位置信息和捕获位置信息来选择多个音频流的子集的装置,多个音频流的子集不包括多个音频流中的至少一者;以及用于基于多个音频流的子集来生成对应声场的装置。
示例1D-一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器:存储多个音频流,音频流中的每一者表示声场;基于与密码相关联的隐私限制来接收多个音频流中的一个或多个;以及基于多个音频流中的一个或多个来生成对应声场。
示例2D-根据示例1D所述的非暂时性计算机可读存储介质,其中密码是与不受限制隐私限制相关联的主密码,并且其中为了接收多个音频流中的一个或多个,该指令还使一个或多个处理器:接收多个音频流中的每一者。
示例3D-根据示例1D所述的非暂时性计算机可读存储介质,其中密码是与条件隐私限制相关联的永久密码,并且其中为了接收多个音频流中的一个或多个,该指令还使一个或多个处理器:基于条件隐私限制来接收多个音频流中的一个或多个,其中条件隐私限制指示多个音频流中的一个或多个是受限制还是不受限制的。
示例4D-根据示例3D所述的非暂时性计算机可读存储介质,其中该指令还使一个或多个处理器:接收还包括相应条件隐私限制的音频元数据,相应条件隐私限制指示多个音频流中的一个或多个是基于永久密码受限制还是不受限制的。
示例5D-根据示例3D所述的非暂时性计算机可读存储介质,其中永久密码保持有效,直到复位。
示例6D-根据示例1D所述的非暂时性计算机可读存储介质,其中密码是与条件隐私限制相关联的临时密码,并且其中为了接收多个音频流中的一个或多个,该指令还使一个或多个处理器:基于条件隐私限制来接收多个音频流中的一个或多个,其中条件隐私限制权限指示所述多个音频流中的一个或多个是受限制还是不受限制的。
示例7D-根据示例6D所述的非暂时性计算机可读存储介质,其中该指令还使一个或多个处理器:接收还包括相应条件隐私限制的音频元数据,相应条件隐私限制指示多个音频流中的一个或多个是基于临时密码受限制还是不受限制的。
示例8D-根据示例6D所述的非暂时性计算机可读存储介质,其中临时密码保持有效达固定持续时间,并且在固定持续时间之后过期。
示例9D-根据示例1D所述的非暂时性计算机可读存储介质,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应增益值。
示例10D-根据示例1D所述的非暂时性计算机可读存储介质,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应置零指示。
示例11D-根据示例1D所述的非暂时性计算机可读存储介质,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应切换指示。
示例12D-根据示例1D所述的非暂时性计算机可读存储介质,其中该指令还使一个或多个处理器:从主机接收密码。
示例13D-根据示例1D所述的非暂时性计算机可读存储介质,其中该指令还使一个或多个处理器:从除了主机之外的源接收密码。
示例14D-根据示例1D所述的非暂时性计算机可读存储介质,其中多个音频流包括来自音频捕获设备或音频捕获设备的群组中的一个或多个的音频流。
示例15D-根据示例14D所述的非暂时性计算机可读存储介质,其中音频捕获设备可以包括单一传声器和传声器阵列中的一个或多个。
示例16D-根据示例14D所述的非暂时性计算机可读存储介质,其中音频捕获设备可以包括移动设备。
示例17D-根据示例1D所述的非暂时性计算机可读存储介质,其中该指令还使一个或多个处理器:通过无线链路接收多个音频流。
示例18D-根据示例17D所述的非暂时性计算机可读存储介质,其中无线链路是5G空中接口。
示例19D-根据示例17D所述的非暂时性计算机可读存储介质,其中无线链路是蓝牙接口。
示例20D-根据示例1D至19D的任何组合所述的非暂时性计算机可读存储介质,其中一个或多个处理器是扩展现实头戴式装置的部分。
示例21D-根据示例1D至20D的任何组合所述的非暂时性计算机可读存储介质,其中一个或多个处理器是被配置为呈现所显示的世界的头戴式显示器的部分。
示例22D-根据示例1D至19D的任何组合所述的非暂时性计算机可读存储介质,其中一个或多个处理器是移动手持终端的部分。
示例23D-根据示例1D所述的非暂时性计算机可读存储介质,其中该指令还使所述一个或多个处理器:接收包括表示所显示的世界中的捕获位置的捕获位置信息的音频元数据,多个音频流中的对应音频流在该捕获位置处被捕获;确定表示该设备在所显示的世界中的位置的位置信息;基于位置信息和捕获位置信息来选择多个音频流的子集,多个音频流的子集不包括多个音频流中的至少一者;以及基于多个音频流的子集来生成对应声场。
示例1E-一种被配置为发送多个音频流的设备,该设备包括:存储器,被配置为存储多个音频流,音频流中的每一者表示声场;以及一个或多个处理器,耦合到存储器并且被配置为:基于与密码相关联的隐私限制来生成多个音频流中的一个或多个。
示例2E-根据示例1E所述的设备,其中一个或多个处理器还被配置为:向内容消费者设备发送多个音频流中的一个或多个。
示例3E-根据示例1E所述的设备,其中密码是与不受限制隐私限制相关联的主密码,并且其中生成多个音频流中的一个或多个,一个或多个处理器还被配置为:生成多个音频流中的每一者。
示例4E-根据示例1E所述的设备,其中密码是与条件隐私限制相关联的永久密码,并且其中为了生成多个音频流中的一个或多个,一个或多个处理器还被配置为:基于条件隐私限制来生成多个音频流中的一个或多个,其中条件隐私限制指示多个音频流中的一个或多个是受限制还是不受限制的。
示例5E-根据示例4E所述的设备,其中一个或多个处理器还被配置为:生成还包括相应条件隐私限制的音频元数据,相应条件隐私限制指示多个音频流中的一个或多个是基于永久密码受限制还是不受限制的。
示例6E-根据示例4E所述的设备,其中永久密码保持有效,直到复位。
示例7E-根据示例1E所述的设备,其中密码是与条件隐私限制相关联的临时密码,并且其中为了生成多个音频流中的一个或多个,一个或多个处理器还被配置为:基于条件隐私限制来生成多个音频流中的一个或多个,其中条件隐私限制权限指示多个音频流中的一个或多个是受限制还是不受限制的。
示例8E-根据示例7E所述的设备,其中一个或多个处理器还被配置为:生成还包括相应条件隐私限制的音频元数据,相应条件隐私限制指示多个音频流中的一个或多个是基于临时密码受限制还是不受限制的。
示例9E-根据示例7E所述的设备,其中临时密码保持有效达固定持续时间,并且在固定持续时间之后过期。
示例10E-根据示例1E所述的设备,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应增益值。
示例11E-根据示例1E所述的设备,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应置零指示。
示例12E-根据示例1E所述的设备,其中所述隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应切换指示。
示例13E-根据示例1E所述的设备,其中一个或多个处理器还被配置为:生成密码。
示例14E-根据示例1E所述的设备,其中一个或多个处理器还被配置为:接收密码。
示例15E-根据示例1E所述的设备,其中多个音频流包括来自音频捕获设备或音频捕获设备的群组中的一个或多个的音频流。
示例16E-根据示例15E所述的设备,其中音频捕获设备可以包括单一传声器和传声器阵列中的一个或多个。
示例17E-根据示例15E所述的设备,其中音频捕获设备可以包括移动设备。
示例18E-根据示例1E所述的设备,其中一个或多个处理器还被配置为:通过无线链路发送多个音频流。
示例19E-根据示例18E所述的设备,其中无线链路是5G空中接口。
示例20E-根据示例18E所述的设备,其中无线链路是蓝牙接口。
示例21E-根据示例1E至20E的任何组合所述的设备,其中该设备包括内容捕获设备。
示例22E-根据示例1E至21E的任何组合所述的设备,其中该设备包括移动手持终端。
示例1F-一种处理多个音频流中的一个或多个的方法,该方法包括:由存储器存储多个音频流,音频流中的每一者表示声场;以及由一个或多个处理器基于与密码相关联的隐私限制来生成多个音频流中的一个或多个。
示例2F-根据示例1F所述的方法,还包括:向内容消费者设备发送多个音频流中的一个或多个。
示例3F-根据示例1F所述的方法,其中密码是与不受限制隐私限制相关联的主密码,并且其中生成多个音频流中的一个或多个包括:生成多个音频流中的每一者。
示例4F-根据示例1F所述的方法,其中密码是与条件隐私限制相关联的永久密码,并且其中生成多个音频流中的一个或多个包括:基于条件隐私限制来生成多个音频流中的一个或多个,其中条件隐私限制指示多个音频流中的一个或多个是受限制还是不受限制的。
示例5F-根据示例4F所述的方法,还包括:生成还包括相应条件隐私限制的音频元数据,相应条件隐私限制指示多个音频流中的一个或多个是基于永久密码受限制还是不受限制的。
示例6F-根据示例4F所述的方法,其中永久密码保持有效,直到复位。
示例7F-根据示例1F所述的方法,其中密码是与条件隐私限制相关联的临时密码,并且其中生成多个音频流中的一个或多个包括:基于条件隐私限制来生成多个音频流中的一个或多个,其中条件隐私限制权限指示多个音频流中的一个或多个是受限制还是不受限制的。
示例8F-根据示例7F所述的方法,其进一步包括:生成还包括相应条件隐私限制的音频元数据,相应条件隐私限制指示多个音频流中的一个或多个是基于临时密码受限制还是不受限制的。
示例9F-根据示例7F所述的方法,其中临时密码保持有效达固定持续时间,并且在固定持续时间之后过期。
示例10F-根据示例1F所述的方法,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应增益值。
示例11F-根据示例1F所述的方法,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应置零指示。
示例12F-根据示例1F所述的方法,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应切换指示。
示例13F-根据示例1F所述的方法,还包括:生成密码。
示例14F-根据示例1F所述的方法,还包括:接收密码。
示例15F-根据示例1F所述的方法,其中多个音频流包括来自音频捕获设备或音频捕获设备的群组中的一个或多个的音频流。
示例16F-根据示例15F所述的方法,其中音频捕获设备可以包括单一传声器和传声器阵列中的一个或多个。
示例17F-根据示例15F所述的方法,其中音频捕获设备可以包括移动设备。
示例18F-根据示例1F所述的方法,还包括:通过无线链路发送多个音频流。
示例19F-根据示例18F所述的方法,其中无线链路是5G空中接口。
示例20F-根据示例18F所述的方法,其中无线链路是蓝牙接口。
示例21F-根据示例1F至20F的任何组合所述的方法,其中该方法通过内容捕获设备执行。
示例22F-根据示例1F至21F的任何组合所述的方法,其中该方法通过移动手持终端执行。
示例1G-一种被配置为处理多个音频流中的一个或多个的设备,该设备包括:用于存储多个音频流的装置,音频流中的每一者表示声场;以及用于基于与密码相关联的隐私限制来生成多个音频流中的一个或多个的装置。
示例2G-根据示例1G所述的设备,还包括:用于向内容消费者设备发送多个音频流中的一个或多个的装置。
示例3G-根据示例1G所述的设备,其中密码是与不受限制隐私限制相关联的主密码,并且其中用于生成多个音频流中的一个或多个的装置包括:用于生成多个音频流中的每一者的装置。
示例4G-根据示例1G所述的设备,其中密码是与条件隐私限制相关联的永久密码,并且其中用于生成多个音频流中的一个或多个的装置包括:用于基于条件隐私限制来生成多个音频流中的一个或多个的装置,其中条件隐私限制指示多个音频流中的一个或多个是受限制还是不受限制的。
示例5G-根据示例4G所述的设备,还包括:用于生成还包括相应条件隐私限制的音频元数据的装置,相应条件隐私限制指示多个音频流中的一个或多个是基于永久密码受限制还是不受限制的。
示例6G-根据示例4G所述的设备,其中永久密码保持有效,直到复位。
示例7G-根据示例1G所述的设备,其中密码是与条件隐私限制相关联的临时密码,并且其中用于生成多个音频流中的一个或多个的装置包括:用于基于条件隐私限制来生成多个音频流中的一个或多个的装置,其中条件隐私限制权限指示多个音频流中的一个或多个是受限制还是不受限制的。
示例8G-根据示例7G所述的设备,还包括:用于生成还包括相应条件隐私限制的音频元数据的装置,相应条件隐私限制指示多个音频流中的一个或多个是基于临时密码受限制还是不受限制的。
示例9G-根据示例7G所述的设备,其中临时密码保持有效达固定持续时间,并且在固定持续时间之后过期。
示例10G-根据示例1G所述的设备,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应增益值。
示例11G-根据示例1G所述的设备,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应置零指示。
示例12G-根据示例1G所述的设备,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应切换指示。
示例13G-根据示例1G所述的设备,还包括:用于生成密码的装置。
示例14G-根据示例1G所述的设备,还包括:用于接收密码的装置。
示例15G-根据示例1G所述的设备,其中多个音频流包括来自音频捕获设备或音频捕获设备的群组中的一个或多个的音频流。
示例16G-根据示例15G所述的设备,其中所述音频捕获设备可以包括单一传声器和传声器阵列中的一个或多个。
示例17G-根据示例15G所述的设备,其中音频捕获设备可以包括移动设备。
示例18G-根据示例1G所述的设备,还包括:用于通过无线链路发送多个音频流的装置。
示例19G-根据示例18G所述的设备,其中无线链路是5G空中接口。
示例20G-根据示例18G所述的设备,其中无线链路是蓝牙接口。
示例21G-根据示例1G至20G的任何组合所述的设备,其中该设备是内容捕获设备。
示例22G-根据示例1C至21G的任何组合所述的设备,其中该设备是移动手持终端。
示例1H-一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器:存储多个音频流,音频流中的每一者表示声场;以及基于与密码相关联的隐私限制来生成多个音频流中的一个或多个。
示例2H-根据示例1H所述的非暂时性计算机可读存储介质,其中该指令还使一个或多个处理器:向内容消费者设备发送多个音频流中的一个或多个。
示例3H-根据示例1H所述的非暂时性计算机可读存储介质,其中该密码是与不受限制隐私限制相关联的主密码,并且其中为了生成多个音频流中的一个或多个,该指令还使一个或多个处理器:生成多个音频流中的每一者。
示例4H-根据示例1H所述的非暂时性计算机可读存储介质,其中密码是与条件隐私限制相关联的永久密码,并且其中为了生成多个音频流中的一个或多个,该指令还使一个或多个处理器:基于条件隐私限制来生成多个音频流中的一个或多个,其中条件隐私限制指示多个音频流中的一个或多个是受限制还是不受限制的。
示例5H-根据示例4H所述的非暂时性计算机可读存储介质,其中该指令还使一个或多个处理器:生成还包括相应条件隐私限制的音频元数据,相应条件隐私限制指示多个音频流中的一个或多个是基于永久密码受限制还是不受限制的。
示例6H-根据示例4H所述的非暂时性计算机可读存储介质,其中永久密码保持有效,直到复位。
示例7H-根据示例1H所述的非暂时性计算机可读存储介质,其中密码是与条件隐私限制相关联的临时密码,并且其中为了生成多个音频流中的一个或多个,该指令还使一个或多个处理器:基于条件隐私限制来生成多个音频流中的一个或多个,其中条件隐私限制权限指示多个音频流中的一个或多个是受限制还是不受限制的。
示例8H-根据示例7H所述的非暂时性计算机可读存储介质,其中该指令还使一个或多个处理器:生成还包括相应条件隐私限制的音频元数据,相应条件隐私限制指示多个音频流中的一个或多个是基于临时密码受限制还是不受限制的。
示例9H-根据示例7H所述的非暂时性计算机可读存储介质,其中临时密码保持有效达固定持续时间,并且在固定持续时间之后过期。
示例10H-根据示例1H所述的非暂时性计算机可读存储介质,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应增益值。
示例11H-根据示例1H所述的非暂时性计算机可读存储介质,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应置零指示。
示例12H-根据示例1H所述的非暂时性计算机可读存储介质,其中隐私限制包括与多个音频流中的一个或多个中的相应音频流相关联的相应切换指示。
示例13H-根据示例1H所述的非暂时性计算机可读存储介质,其中该指令还使一个或多个处理器:生成密码。
示例14H-根据示例1H所述的非暂时性计算机可读存储介质,其中该指令还使一个或多个处理器:接收密码。
示例15H-根据示例1H所述的非暂时性计算机可读存储介质,其中多个音频流包括来自音频捕获设备或音频捕获设备的群组中的一个或多个的音频流。
示例16H-根据示例15H所述的非暂时性计算机可读存储介质,其中音频捕获设备可以包括单一传声器和传声器阵列中的一个或多个。
示例17H-根据示例15H所述的非暂时性计算机可读存储介质,其中音频捕获设备可以包括移动设备。
示例18H-根据示例1H所述的非暂时性计算机可读存储介质,其中该指令还使一个或多个处理器:通过无线链路发送多个音频流。
示例19H-根据示例18H所述的非暂时性计算机可读存储介质,其中无线链路是5G空中接口。
示例20H-根据示例18H所述的非暂时性计算机可读存储介质,其中无线链路是蓝牙接口。
示例21H-根据示例1H至20H的任何组合所述的非暂时性计算机可读存储介质,其中一个或多个处理器是内容消费者设备的部分。
示例22H-根据示例1H至21H的任何组合所述的非暂时性计算机可读存储介质,其中一个或多个处理器是移动手持终端的部分。
应当认识到,取决于示例,本文描述的任何技术的某些动作或事件可以以不同顺序执行,可以被添加、合并或完全排除(例如,并非所有描述的动作或事件都是技术实践所必需的)。此外,在某些示例中,动作或事件可以同时执行,例如,通过多线程处理、中断处理或多个处理器执行,而不是顺序执行。
在一些示例中,VR设备(或流式传输设备)可以使用耦合到VR/流式传输设备的存储器的网络接口向外部设备传送交换消息,其中该交换消息与声场的多个可用表示相关联。在一些示例中,VR设备可以使用耦合到网络接口的天线接收无线信号,包括数据分组、音频分组、视频协议或与声场的多个可用表示相关联的传输协议数据。在一些示例中,一个或多个传声器阵列可以捕获声场。
在一些示例中,存储到存储器设备的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的高阶环绕声表示、声场的混合阶环绕声表示、声场的基于对象的表示与声场的高阶环绕声表示的组合、声场的基于对象的表示与声场的混合阶环绕声表示的组合、或声场的混合阶表示与声场的高阶环绕声表示的组合。
在一些示例中,声场的多个可用表示中的声场表示中的一个或多个可以包括至少一个高分辨率区域和至少一个较低分辨率区域,并且其中基于转向角的所选择的呈现提供关于至少一个高分辨率区域的更大空间精度和关于较低分辨率区域的更低空间精度。
在一个或多个示例中,所描述的功能可以在硬件、软件、固件或其任何组合中实施。如果以软件实施,则功能可以作为一个或多个指令或代码存储在计算机可读介质上或经由计算机可读介质发送并由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质(其对应于诸如数据存储介质之类的有形介质)或通信介质,其包括促进例如根据通信协议将计算机程序从一个地方转移到另一地方的任何介质。以此方式,计算机可读介质一般可以对应于(1)非暂时性有形计算机可读存储介质,或(2)通信介质(诸如,信号或载波)。数据存储介质可以为可由一个或多个计算机或一个或多个处理器访问以检索用于实施本公开中所描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可包括计算机可读介质。
通过示例的方式而不是限制的方式,这种计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储介质或其它磁存储设备、快闪存储器或者可以用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机访问的任何其它介质。而且,将任何连接适当地称为计算机可读介质。例如,如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源发送指令,则在介质的定义中包括同轴电缆、光纤电缆、双绞线、DSL或诸如红外线、无线电及微波等无线技术。然而,应当理解,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其它暂时性介质,而是针对非暂时性、有形存储介质。如本文中使用的磁盘及光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中磁盘通常磁性地再现数据,而光盘借助于激光光学地再现数据。上述组合也应包括于计算机可读介质的范围内。
指令可以由一个或多个处理器执行,诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它等效的集成或离散逻辑电路系统。因此,如本文所使用的术语“处理器”可以指代任何前述结构或者适合于实施本文描述的技术的任何其它结构。另外,在一些方面中,本文描述的功能性可以被提供于被配置用于编码和解码或者被结合在组合编解码器中的专用硬件和/或软件模块内。而且,技术可完全实施于一个或多个电路或逻辑元件中。
本公开的技术可实施于广泛多种设备或装置中,包括无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本公开中描述各种组件、模块或单元以强调被配置为执行所公开技术的设备的功能方面,但未必需要由不同硬件单元来实现。而是,如上文所描述,可将各种单元组合于编解码硬件单元中,或由互操作性硬件单元(包括如上文所描述的一个或多个处理器)的集合结合合适软件和/或固件来提供各种单元。
已经描述了各种示例。这些和其它示例在以下权利要求的范围内。
Claims (30)
1.一种被配置为处理一个或多个音频流的设备,所述设备包括:
存储器,被配置为存储所述一个或多个音频流;以及
一个或多个处理器,耦合到所述存储器并且被配置为:
基于与密码相关联的隐私限制来接收所述一个或多个音频流中的不受限制音频流,其中所述一个或多个音频流来自在声学环境中表示的音频元素,所述声学环境包括一个或多个子声学空间,所述一个或多个音频流中的每一者表示相应声场;以及
生成所述不受限制音频流中的相应声场。
2.根据权利要求1所述的设备,还包括耦合到所述一个或多个处理器的调制解调器,其中所述一个或多个处理器还被配置为:
经由所述调制解调器将所述密码发送到主机设备;以及
基于与所述密码相关联的隐私限制经由所述调制解调器从所述主机设备获得所述一个或多个音频流中的仅所述不受限制音频流。
3.根据权利要求2所述的设备,其中所述调制解调器被配置为:
经由无线链路发送数据分组,所述数据分组包括所述密码的表示;以及
基于与所述密码相关联的隐私限制来接收不同数据分组,所述不同数据分组包括所述一个或多个音频流中的仅所述不受限制音频流的表示。
4.根据权利要求1所述的设备,还包括耦合到所述一个或多个处理器的调制解调器,其中所述一个或多个处理器还被配置为:
经由所述调制解调器将所述密码发送到主机设备;
经由所述调制解调器从所述主机设备获得所述一个或多个音频流中的不受限制音频流和所述一个或多个音频流中的受限制音频流;
基于与所述密码相关联的隐私限制来接收指示所述受限制音频流的受限制回放的数据;以及
基于指示所述受限制回放的数据来限制所述受限制音频流的相应声场的回放。
5.根据权利要求4所述的设备,其中所述调制解调器被配置为:
经由无线链路发送数据分组,所述数据分组包括所述密码的表示;以及
接收不同数据分组,所述不同数据分组包括所述不受限制音频流和所述受限制音频流的表示。
6.根据权利要求4所述的设备,其中为了基于指示所述受限制回放的数据来限制所述受限制音频流的相应声场的回放,所述一个或多个处理器还被配置为:
遮蔽、切换或置零所述受限制音频流。
7.根据权利要求4所述的设备,其中为了基于指示所述受限制回放的数据来限制所述受限制音频流的相应声场的回放,所述一个或多个处理器还被配置为:
将声学遮挡器应用于所述受限制音频流。
8.根据权利要求1所述的设备,还包括耦合到所述一个或多个处理器的调制解调器,其中所述一个或多个处理器还被配置为:
经由所述调制解调器从主机设备获得所述一个或多个音频流中的不受限制音频流和所述一个或多个音频流中的受限制音频流;
接收指示所述受限制音频流的不受限制回放的数据;
将所述密码与指示所述受限制回放的数据相关联;以及
基于指示与所述密码相关联的受限制回放的数据来限制所述受限制音频流的相应声场的回放。
9.根据权利要求8所述的设备,其中所述调制解调器被配置为:
接收一个或多个数据分组,所述一个或多个数据分组包括所述一个或多个音频流的不受限制音频流和所述一个或多个音频流中的受限制音频流的表示。
10.根据权利要求8所述的设备,其中为了基于指示与所述密码相关联的受限制回放的数据来限制所述受限制音频流的相应声场的回放,所述一个或多个处理器还被配置为:
遮蔽、切换或置零所述受限制音频流。
11.根据权利要求8所述的设备,其中为了基于指示与所述密码相关联的受限制回放的数据来限制所述受限制音频流的相应声场的回放,所述一个或多个处理器还被配置为:
将声学遮挡器应用于所述受限制音频流。
12.根据权利要求1所述的设备,其中所述密码是与不受限制隐私限制相关联的主密码,并且其中为了基于与所述密码相关联的隐私限制来接收所述一个或多个音频流中的不受限制音频流,所述一个或多个处理器还被配置为:
接收所述一个或多个音频流中的每一者。
13.根据权利要求1所述的设备,其中所述密码是与条件隐私限制相关联的永久密码,并且其中为了基于与所述密码相关联的隐私限制来接收所述一个或多个音频流中的不受限制音频流,所述一个或多个处理器还被配置为:
基于与所述永久密码相关联的条件隐私限制来接收所述一个或多个音频流中的不受限制音频流,其中所述永久密码保持有效,直到复位。
14.根据权利要求13所述的设备,其中所述条件隐私限制与一个或多个音频元素相关联,与音频元素的一个或多个群组相关联,或与所述一个或多个子声学空间中的一个或多个相应子声学空间相关联。
15.根据权利要求1所述的设备,其中所述密码是与条件隐私限制相关联的临时密码,并且其中为了基于与所述密码相关联的隐私限制来接收所述一个或多个音频流中的不受限制音频流,所述一个或多个处理器还被配置为:
基于与所述临时密码相关联的条件隐私限制来接收所述一个或多个音频流中的不受限制音频流,其中所述临时密码保持有效达固定持续时间,并且在所述固定持续时间之后过期。
16.根据权利要求15所述的设备,其中所述条件隐私限制与一个或多个音频元素相关联,与音频元素的一个或多个群组相关联,或与所述一个或多个子声学空间中的一个或多个相应子声学空间相关联。
17.根据权利要求1所述的设备,其中所述一个或多个处理器还被配置为:
从主机接收所述密码。
18.一种用于处理一个或多个音频流的方法,所述方法包括:
基于与密码相关联的隐私限制来接收所述一个或多个音频流中的不受限制音频流,其中所述一个或多个音频流来自在声学环境中表示的音频元素,所述声学环境包括一个或多个子声学空间,所述一个或多个音频流中的每一者表示相应声场;以及
生成所述不受限制音频流中的相应声场。
19.根据权利要求18所述的方法,还包括:
将所述密码发送到主机设备;以及
基于与所述密码相关联的隐私限制从所述主机设备接收所述一个或多个音频流中的仅所述不受限制音频流。
20.根据权利要求18所述的方法,还包括:
将所述密码发送到主机设备;
从所述主机设备接收所述一个或多个音频流中的不受限制音频流和所述一个或多个音频流中的受限制音频流;
基于与所述密码相关联的隐私限制来接收指示所述受限制音频流的受限制回放的数据;以及
基于指示所述受限制回放的数据来限制所述受限制音频流的相应声场的回放。
21.根据权利要求20所述的方法,其中基于指示所述受限制回放的数据来限制所述受限制音频流的相应声场的回放包括:
遮蔽、切换或置零所述受限制音频流。
22.根据权利要求20所述的方法,其中基于指示所述受限制回放的数据来限制所述受限制音频流的相应声场的回放包括:
将声学遮挡器应用于所述受限制音频流。
23.根据权利要求18所述的方法,还包括:
从所述主机设备接收所述一个或多个音频流中的不受限制音频流和所述一个或多个音频流中的受限制音频流;
接收指示所述受限制音频流的不受限制回放的数据;
将所述密码与指示所述受限制回放的数据相关联;以及
基于指示与所述密码相关联的受限制回放的数据来限制所述受限制音频流的相应声场的回放。
24.根据权利要求23所述的方法,其中基于指示与所述密码相关联的受限制回放的数据来限制所述受限制音频流的相应声场的回放包括:
切换所述受限制音频流。
25.根据权利要求23所述的方法,其中基于指示与所述密码相关联的受限制回放的数据来限制所述受限制音频流的相应声场的回放包括:
将声学遮挡器应用于所述受限制音频流。
26.根据权利要求18所述的方法,其中所述密码是与条件隐私限制相关联的永久密码,并且其中基于与所述密码相关联的隐私限制来接收所述一个或多个音频流中的不受限制音频流包括:
基于与所述永久密码相关联的条件隐私限制来接收所述一个或多个音频流中的不受限制音频流,其中所述永久密码保持有效,直到复位。
27.根据权利要求26所述的方法,其中所述条件隐私限制与一个或多个音频元素相关联,与音频元素的一个或多个群组相关联,或与所述一个或多个子声学空间中的一个或多个相应子声学空间相关联。
28.根据权利要求18所述的方法,其中所述密码是与条件隐私限制相关联的临时密码,并且其中基于与所述密码相关联的隐私限制来接收所述一个或多个音频流中的不受限制音频流包括:
基于与所述临时密码相关联的条件隐私限制来接收所述一个或多个音频流中的不受限制音频流,其中所述临时密码保持有效达固定持续时间,并且在所述固定持续时间之后过期。
29.根据权利要求28所述的方法,其中所述条件隐私限制与一个或多个音频元素相关联,与音频元素的一个或多个群组相关联,或与所述一个或多个子声学空间中的一个或多个相应子声学空间相关联。
30.根据权利要求28所述的方法,还包括:
从主机接收所述密码。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962870479P | 2019-07-03 | 2019-07-03 | |
US62/870,479 | 2019-07-03 | ||
US16/918,338 US11580213B2 (en) | 2019-07-03 | 2020-07-01 | Password-based authorization for audio rendering |
US16/918,338 | 2020-07-01 | ||
PCT/US2020/040709 WO2021003397A1 (en) | 2019-07-03 | 2020-07-02 | Password-based authorization for audio rendering |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114072792A true CN114072792A (zh) | 2022-02-18 |
Family
ID=74066062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080048623.XA Pending CN114072792A (zh) | 2019-07-03 | 2020-07-02 | 用于音频渲染的基于密码的授权 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11580213B2 (zh) |
EP (1) | EP3994864A1 (zh) |
CN (1) | CN114072792A (zh) |
BR (1) | BR112021026315A2 (zh) |
TW (1) | TW202107905A (zh) |
WO (1) | WO2021003397A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11356793B2 (en) * | 2019-10-01 | 2022-06-07 | Qualcomm Incorporated | Controlling rendering of audio data |
KR20210123198A (ko) * | 2020-04-02 | 2021-10-13 | 주식회사 제이렙 | 증강 현실 기반의 전기 음향과 건축 음향 통합 시뮬레이션 장치 |
US11750998B2 (en) | 2020-09-30 | 2023-09-05 | Qualcomm Incorporated | Controlling rendering of audio data |
US11743670B2 (en) | 2020-12-18 | 2023-08-29 | Qualcomm Incorporated | Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010070225A1 (fr) | 2008-12-15 | 2010-06-24 | France Telecom | Codage perfectionne de signaux audionumeriques multicanaux |
US9923982B2 (en) | 2011-06-24 | 2018-03-20 | Avaya Inc. | Method for visualizing temporal data |
HUE054452T2 (hu) | 2011-07-01 | 2021-09-28 | Dolby Laboratories Licensing Corp | Rendszer és eljárás adaptív hangjel elõállítására, kódolására és renderelésére |
US9058471B2 (en) | 2012-06-08 | 2015-06-16 | Oracle International Corporation | Authorization system for heterogeneous enterprise environments |
WO2014017134A1 (ja) | 2012-07-27 | 2014-01-30 | ソニー株式会社 | 情報処理システムおよび記憶媒体 |
US9530426B1 (en) | 2015-06-24 | 2016-12-27 | Microsoft Technology Licensing, Llc | Filtering sounds for conferencing applications |
GB2529310B (en) | 2015-07-16 | 2016-11-30 | Powerchord Group Ltd | A method of augmenting an audio content |
EP3391652B1 (en) * | 2015-12-15 | 2020-07-08 | Koninklijke KPN N.V. | Controlling retrieval in adaptive streaming |
US10242486B2 (en) | 2017-04-17 | 2019-03-26 | Intel Corporation | Augmented reality and virtual reality feedback enhancement system, apparatus and method |
US10405126B2 (en) | 2017-06-30 | 2019-09-03 | Qualcomm Incorporated | Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems |
US11070568B2 (en) | 2017-09-27 | 2021-07-20 | Palo Alto Networks, Inc. | IoT device management visualization |
KR101977897B1 (ko) | 2017-10-23 | 2019-08-28 | 동서대학교 산학협력단 | 융합현실, 가상현실 및 증강현실을 이용한 사용자 인증시스템 |
US10657974B2 (en) | 2017-12-21 | 2020-05-19 | Qualcomm Incorporated | Priority information for higher order ambisonic audio data |
US10620904B2 (en) * | 2018-09-12 | 2020-04-14 | At&T Intellectual Property I, L.P. | Network broadcasting for selective presentation of audio content |
US11128976B2 (en) | 2018-10-02 | 2021-09-21 | Qualcomm Incorporated | Representing occlusion when rendering for computer-mediated reality systems |
US11304013B2 (en) * | 2019-02-08 | 2022-04-12 | Starkey Laboratories, Inc. | Assistive listening device systems, devices and methods for providing audio streams within sound fields |
-
2020
- 2020-07-01 US US16/918,338 patent/US11580213B2/en active Active
- 2020-07-02 CN CN202080048623.XA patent/CN114072792A/zh active Pending
- 2020-07-02 EP EP20745421.6A patent/EP3994864A1/en active Pending
- 2020-07-02 WO PCT/US2020/040709 patent/WO2021003397A1/en unknown
- 2020-07-02 BR BR112021026315A patent/BR112021026315A2/pt unknown
- 2020-07-02 TW TW109122454A patent/TW202107905A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
US11580213B2 (en) | 2023-02-14 |
BR112021026315A2 (pt) | 2022-03-03 |
EP3994864A1 (en) | 2022-05-11 |
WO2021003397A1 (en) | 2021-01-07 |
US20210004452A1 (en) | 2021-01-07 |
TW202107905A (zh) | 2021-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112771894B (zh) | 针对计算机介导现实系统进行渲染时表示遮挡 | |
US11140503B2 (en) | Timer-based access for audio streaming and rendering | |
US11580213B2 (en) | Password-based authorization for audio rendering | |
US11429340B2 (en) | Audio capture and rendering for extended reality experiences | |
US11354085B2 (en) | Privacy zoning and authorization for audio rendering | |
US11356793B2 (en) | Controlling rendering of audio data | |
CN114072761A (zh) | 用于控制针对扩展现实体验的音频渲染的用户接口 | |
US20210006976A1 (en) | Privacy restrictions for audio rendering | |
WO2021102132A1 (en) | Priority-based soundfield coding for virtual reality audio | |
CN114008707A (zh) | 适配音频流以进行渲染 | |
CN114391263A (zh) | 用于扩展现实体验的参数设置调整 | |
TWI838554B (zh) | 具有用於控制擴展實境體驗之音訊呈現之使用者介面之裝置及非暫時性電腦可讀儲存媒體及其方法 | |
US11601776B2 (en) | Smart hybrid rendering for augmented reality/virtual reality audio | |
US20240129681A1 (en) | Scaling audio sources in extended reality systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |