CN114041113A - 用于音频渲染的隐私分区和授权 - Google Patents
用于音频渲染的隐私分区和授权 Download PDFInfo
- Publication number
- CN114041113A CN114041113A CN202080047096.0A CN202080047096A CN114041113A CN 114041113 A CN114041113 A CN 114041113A CN 202080047096 A CN202080047096 A CN 202080047096A CN 114041113 A CN114041113 A CN 114041113A
- Authority
- CN
- China
- Prior art keywords
- audio streams
- audio
- subset
- authorization level
- processors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4396—Processing of audio elementary streams by muting the audio signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/462—Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
- H04N21/4627—Rights management associated to the content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47202—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Acoustics & Sound (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
公开了示例设备和方法。示例设备包括被配置为存储多个音频流和多个音频流中的每一个音频流的相关联的授权级别的存储器。该设备还包括在电路中实现并通信地耦接到存储器的一个或多个处理器。一个或多个处理器被配置为基于相关联的授权级别选择多个音频流的子集,该多个音频流的子集排除多个音频流中的至少一个音频流。
Description
本申请要求2020年7月1日提交的美国申请第16/918,386号和2019年7月3日提交的美国临时申请第62/870,591号的权益,其各自的全部内容通过引用结合于此。
技术领域
本公开涉及对诸如音频数据的媒体数据的处理。
背景技术
正在开发以计算机为媒介的现实系统,以允许计算设备增强或添加、从中移除或减去、或一般地修改用户体验的现有现实。以计算机为媒介的现实系统(其也可以被称为“扩展现实系统”或“XR系统”)可以包括例如虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。以计算机为媒介的现实系统的感知成功通常与此类以计算机为媒介的现实系统同时在视频和音频体验方面提供逼真的沉浸式体验的能力有关,其中视频和音频体验以用户期望的方式对齐。尽管人类视觉系统比人类听觉系统更灵敏(例如,在对场景中各种对象的感知定位方面),但确保足够好的听觉体验是确保逼真的沉浸式体验的越来越重要的因素,尤其是随着视频体验改进以允许更好地定位视频对象,从而使用户能够更好地识别音频内容的来源。
发明内容
本公开一般涉及以计算机为媒介的现实系统的用户体验的听觉方面,包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉和图形系统。该技术的各个方面可以提供用于扩展现实系统的声学空间的自适应音频捕获或合成和渲染。如本文所使用的,声学环境被表示为室内环境或室外环境,或者同时表示为室内环境和室外环境两者。声学环境可以包括一个或多个亚声学空间,这些亚声学空间可以包括各种声学元素。室外环境的示例可以包括汽车、建筑物、墙壁、森林等。声学空间可以是声学环境的示例并且可以是室内空间或室外空间。如本文所使用的,音频元素是由麦克风捕获的声音(例如,直接从近场源或来自远场源的反射捕获的,无论是真实的还是合成的),或者先前合成的声场,或者从文本到语音合成的单声道声音,或者来自声学环境中的对象的虚拟声音的反射。
在一个示例中,该技术的各个方面指向一种设备,该设备包括:存储器,该存储器被配置为存储多个音频流和针对多个音频流中的每一个音频流的相关联的授权级别;以及一个或多个处理器,该一个或多个处理器在电路中实现并通信地耦接到存储器,并且被配置为:基于相关联的授权级别选择多个音频流的子集,该多个音频流的子集排除多个音频流中的至少一个音频流。
在另一个示例中,该技术的各个方面指向一种方法,该方法包括:由存储器存储多个音频流和针对多个音频流中的每一个音频流的相关联的授权级别;以及由一个或多个处理器并基于相关联的授权级别选择多个音频流的子集,该多个音频流的子集排除多个音频流中的至少一个音频流。
在另一个示例中,该技术的各个方面指向一种设备,包括:用于存储多个音频流和针对多个音频流中的每一个音频流的相关联的授权级别的部件;以及用于基于相关联的授权级别选择多个音频流的子集的部件,该多个音频流的子集排除多个音频流中的至少一个音频流。
在另一示例中,该技术的各个方面指向一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器:存储多个音频流和针对多个音频流中的每一个音频流的相关联的授权级别;以及基于相关联的授权级别选择多个音频流的子集,该多个音频流的子集排除多个音频流中的至少一个音频流。
本公开的一个或多个示例的细节在附图和以下描述中阐述。通过说明书和附图以及权利要求书,本技术的各个方面的其他特征、目的和优点将是显而易见的。
附图说明
图1A至图1C是示出可以执行本公开中描述的技术的各个方面的系统的图。
图2是示出由用户穿戴的VR设备的示例的图。
图3A至图3E是更详细地示出图1A至图1C的示例中所示的流选择单元的示例操作的图。
图4A和图4B是示出图1A至图1C的示例中所示的流选择单元在执行流选择技术的各个方面中的操作的示例的流程图。
图4C和图4D是示出根据本公开中描述的技术的各个方面的在本公开中关于隐私区描述的技术的各个方面的图。
图4E和图4F是进一步示出根据本公开中描述的技术的各个方面的隐私区的使用的图。
图4G和图4H是示出根据本公开中描述的技术的各个方面的排除单独音频流的图。
图5是示出可以根据本公开中描述的技术的各个方面操作的可穿戴设备的示例的图。
图6A和图6B是示出可执行本公开中描述的技术的各个方面的其他示例系统的图。
图7是示出图1A至图1C的示例中所示的源设备和内容消费者设备中的一个或多个的示例组件的框图。
图8A至图8C是示出图1A至图1C的示例中所示的流选择单元在执行流选择技术的各个方面中的示例操作的流程图。
图9示出了根据本公开的各方面的支持隐私区和授权级别的无线通信系统的示例。
具体实施方式
当音频场景用可以由现场场景中的音频捕获设备获得、或者可以合成的许多音频源进行渲染时,某些区可以包含可能包括应当被限制访问的敏感信息的音频源。根据本公开的技术,基于针对多个音频流中的每一个音频流的相关联的授权级别来选择多个音频流的子集。在一些示例中,多个音频流中的一个或多个音频流与至少一个隐私区相关联。在一些示例中,可以基于相关联的授权级别来改变多个音频流的子集中的一个或多个音频流的增益。在一些示例中,被排除的音频流可以被置空。
本公开的技术可以提供在渲染具有许多音频源的音频场景时保护敏感信息的能力。在一些示例中,当捕获侧无法限制对包含敏感信息的音频流的访问时,本公开的技术可以提供在渲染侧保护敏感信息的能力。
存在多种不同的方式来表示声场。示例格式包括基于通道的音频格式、基于对象的音频格式和基于场景的音频格式。基于通道的音频格式是指5.1环绕声格式、7.1环绕声格式、22.2环绕声格式或者将音频通道定位到收听者周围的特定位置以重建声场的任何其他基于通道的格式。
基于对象的音频格式可以指其中指定音频对象以表示声场的格式,音频对象通常使用脉冲编码调制(PCM)来编码并被称为PCM音频对象。此类音频对象可包括标识音频对象相对于收听者或声场中的其他参考点的位置的定位信息(例如,元数据),使得音频对象可以被渲染到一个或多个扬声器通道以用于在试图重建声场时回放。本公开中描述的技术可以应用于以下格式中的任一种,包括基于场景的音频格式、基于通道的音频格式、基于对象的音频格式或其任何组合。
基于场景的音频格式可以包括分层元素集合,这些元素在三个维度上定义了声场。分层元素集合的一个示例是球谐系数(spherical harmonic coefficient,SHC)集合。以下表达式演示了使用SHC对声场的描述或表示:
该表达式表明在时间t处声场的任意点处的压力pi可以由SHC,唯一表示。此处,c是声速(约343m/s),是参考点(或观测点),jn(·)是n阶球面贝塞尔函数,并且是n阶和m亚阶的球谐基函数(也可以被称为球基函数)。可以认识到,方括号中的项是信号的频域表示(例如),其可以通过各种时频变换来近似,诸如离散傅里叶变换(DFT)、离散余弦变换或小波变换。分层集合的其他示例包括小波变换系数集合和多分辨率基函数的其他系数集合。
SHC可以通过各种麦克风阵列配置物理地获取(例如,记录),或者可替代地,它们可以从声场的基于通道或基于对象的描述中导出。SHC(也可以被称为环绕声(ambisonic)系数)表示基于场景的音频,其中SHC可以被输入到音频编码器,以获得可以促进更有效传输或存储的经编码的SHC。例如,可以使用涉及(1+4)2个(25,并且因此是四阶)系数的四阶表示。
如上所述,SHC可以从使用麦克风阵列的麦克风记录中导出。在Poletti,M.的“基于球谐波的三维环绕声系统(Three-Dimensional Surround Sound Systems Based onSpherical Harmonics)”(《J.Audio Eng.Soc.》,第53卷,第11期,2005年11月,第1004-1025页)中描述了可以如何从麦克风阵列物理地获取SHC的各种示例。
其中,i为是n阶球面汉克尔函数(第二类),并且是对象的位置。了解作为频率函数的对象源能量g(ω)(例如,使用时频分析技术,诸如对脉冲编码调制(PCM)流执行快速傅立叶变换)可以使得能够将每个PCM对象和对应的位置转换为SHC此外,可以表明(因为以上是线性和正交分解)每个对象的个系数是可加的。以这种方式,多个PCM对象可以由个系数表示(例如,作为单独对象的系数向量的总和)。系数可以包含有关声场的信息(作为三维(3D)坐标函数的压力),并且以上表示从单独对象到观测点附近的整个声场的表示的转换。
正在开发以计算机为媒介的现实系统(也可以称为“扩展现实系统”或“XR系统”),以利用环绕声系数所提供的许多潜在有益效果。例如,环绕声系数可以以潜在地实现对声场内声源的准确3D定位的方式在三个维度上表示声场。因此,XR设备可以将环绕声系数渲染到扬声器馈送,当其经由一个或多个扬声器或头戴式耳机播放时,可以准确地再现声场。
作为另一个示例,可以平移或旋转环绕声系数以在没有过于复杂的数学运算的情况下考虑用户移动,从而潜在地顺应XR设备的低延迟要求。此外,环绕声系数是分层的,从而自然地通过阶数减少来适应可扩展性(这可以消除与更高阶相关联的环绕声系数),并从而潜在地实现声场的动态适应以顺应XR设备的延迟和/或电池要求。
将环绕声系数用于XR设备可以使得能够开发许多依赖于由环绕声系数提供的更具沉浸感的声场的用例,特别是对于计算机游戏应用和实时视频流应用。在这些依赖于声场的低延迟再现的高动态用例中,相对于其他更难以操纵或涉及复杂渲染的表示,XR设备可能更偏好环绕声系数。下面关于图1A至图1C提供关于这些用例的更多信息。
尽管在本公开中关于VR设备进行了描述,但是可以在诸如移动设备之类的其他设备的上下文中执行这些技术的各个方面。在这种情况下,移动设备(诸如所谓的智能电话)可以经由屏幕呈现声学空间,该屏幕可以安装到用户的头部或者按照正常使用移动设备时的方式进行观看。因此,屏幕上的任何信息都可以是移动设备的一部分。移动设备可以能够提供跟踪信息,从而允许VR体验(当头戴式时)和正常体验两者来查看声学空间,其中正常体验仍可以允许用户查看提供VR-精简型(VR-lite-type)体验的声学空间(例如,举起设备并旋转或平移设备以查看声学空间的不同部分)。
图1A至图1C是示出可以执行本公开中描述的技术的各个方面的系统的图。如图1A的示例中所示,系统10包括源设备12A和内容消费者设备14A。尽管在源设备12A和内容消费者设备14A的上下文中进行了描述,但是这些技术可以在其中声场的任何表示被编码以形成表示音频数据的比特流的任何上下文中实现。而且,源设备12A可以表示能够生成声场表示的任何形式的计算设备,并且在本文中一般在作为VR内容创建者设备的上下文中进行描述。同样,内容消费者设备14A可以表示能够实现本公开中描述的渲染技术以及音频回放的任何形式的计算设备,并且在本文中一般在作为VR客户端设备的上下文中描述。
源设备12A可以由娱乐公司或可以生成单通道和/或多通道音频内容以供内容消费者设备(诸如内容消费者设备14A)的操作者消费的其他实体操作。在一些VR场景中,源设备12A结合视频内容生成音频内容。源设备12A包括内容捕获设备20、内容编辑设备22和声场表示生成器24。内容捕获设备20可以被配置为与麦克风18接口或以其他方式通信。
麦克风18可以表示或其他类型的3D音频麦克风,其能够捕获声场并将其表示为音频数据19,音频数据可以指上述基于场景的音频数据(诸如环绕声系数)、基于对象的音频数据和基于通道的音频数据中的一个或多个。尽管被描述为3D音频麦克风,麦克风18也可以表示被配置为捕获音频数据19的其他类型的麦克风(诸如全向麦克风、点麦克风、单向麦克风等)。音频数据19可以表示音频流或包括音频流。
在一些示例中,内容捕获设备20可以包括集成到内容捕获设备20的外壳中的集成麦克风18。内容捕获设备20可以无线地或经由有线连接与麦克风18接口。不是经由麦克风18捕获音频数据19、或与经由麦克风18捕获音频数据19相结合,内容捕获设备20可以在音频数据19经由某种类型的可移动存储、无线和/或有线输入过程被输入之后处理音频数据19。因此,根据本公开,捕获设备20和麦克风18的各种组合是可能的。
内容捕获设备20还可以被配置为与内容编辑设备22接口或以其他方式通信。在一些情况下,内容捕获设备20可以包括内容编辑设备22(在一些情况下,其可以表示软件、或软件和硬件的组合,包括由内容捕获设备20执行以将内容捕获设备20配置为执行特定形式的内容编辑的软件)。内容编辑设备22可以表示被配置为编辑或以其他方式改变从内容捕获设备20接收的内容21(包括音频数据19)的单元。内容编辑设备22可以将经编辑的内容23和相关联的信息(例如,元数据)25输出到声场表示生成器24。
声场表示生成器24可以包括能够与内容编辑设备22(或内容捕获设备20)接口的任何类型的硬件设备。尽管未在图1A的示例中示出,声场表示生成器24可以使用由内容编辑设备22提供的包括音频数据19和信息(例如,元数据)25的经编辑的内容23来生成一个或多个比特流27。在关注音频数据19的图1A的示例中,声场表示生成器24可以生成由音频数据19表示的相同声场的一个或多个表示以获得比特流27,该比特流包括声场的表示和信息(例如,元数据)25。
例如,为了使用环绕声系数(同样是音频数据19的一个示例)生成声场的不同表示,声场表示生成器24可以使用针对声场的环绕声表示的编码方案,其被称为混合阶环绕声(MOA),如2017年8月8日提交的名称为“MIXED-ORDER AMBISONICS(MOA)AUDIO DATA FOCOMPUTER-MEDIATED REALITY SYSTEMS”的美国专利申请序列号15/672,058中更详细讨论的,该申请作为美国专利公开号20190007781于2019年1月3日公布。
为了生成声场的特定MOA表示,声场表示生成器24可以生成完整环绕声系数集合的部分子集。例如,由声场表示生成器24生成的每个MOA表示可以提供关于声场的一些区域的精度,但在其他区域中提供较低的精度。在一个示例中,声场的MOA表示可以包括八(8)个未压缩的环绕声系数,而相同声场的三阶环绕声表示可以包括十六(16)个未压缩的环绕声系数。因此,相比于由环绕声系数生成的相同声场的对应的三阶环绕声表示,作为环绕声系数的部分子集生成的声场的每个MOA表示可以是存储密集度更低且带宽密集度更低的(如果并且当作为比特流27的一部分通过所示出的传输通道传输时)。
尽管关于MOA表示进行了描述,但是本公开的技术也可以关于一阶环绕声(FOA)表示来执行,其中与一阶球面基函数和零阶球面基函数相关联的所有环绕声系数被用于表示声场。换言之,声场表示生成器24可以使用给定阶N的所有环绕声系数来表示声场,而不是使用环绕声系数的部分非零子集来表示声场,从而得到总共等于(N+1)2的环绕声系数。
在这方面,环绕声音频数据(这是在MOA表示或全阶表示(诸如上述一阶表示)中指代环绕声系数的另一种方式)可以包括与阶数为1或更少的球面基函数相关联的环绕声系数(可以被称为“1阶环绕声音频数据”)、与具有混合阶和亚阶的球面基函数相关联的环绕声系数(可以被称为上文讨论的“MOA表示”)、或与阶数大于1的球面基函数相关联的环绕声系数(其在上文被称为“全阶表示”)。
在一些示例中,内容捕获设备20或内容编辑设备22可以被配置为与声场表示生成器24无线通信。在一些示例中,内容捕获设备20或内容编辑设备22可以经由无线连接或有线连接中的一者或两者与声场表示生成器24通信。经由内容捕获设备20或内容编辑设备22与声场表示生成器24之间的连接,内容捕获设备20或内容编辑设备22可以提供各种形式的内容,为了讨论的目的,这些内容在本文中被描述为音频数据19的部分。
在一些示例中,内容捕获设备20可以利用声场表示生成器24的各个方面(就声场表示生成器24的硬件或软件能力而言)。例如,声场表示生成器24可以包括专用硬件(或专门软件),其被配置为(或在执行时使一个或多个处理器)执行心理声学(psychoacoustic)音频编码,诸如表示为“USAC”的统一语音和音频编解码器,其由运动图片专家组(MPEG)、MPEG-H 3D音频编解码标准、MPEG-I沉浸式音频标准或专有标准阐述,专有标准诸如AptXTM(包括AptX的各种版本,诸如增强型AptX-E-AptX、AptX live、AptX立体声和AptX高清晰度-AptX-HD)、高级音频编解码(AAC)、音频编解码器3(AC-3)、苹果无损音频编解码器(ALAC)、MPEG-4音频无损流媒体(ALS)、增强型AC-3、自由无损音频编解码器(FLAC)、猴子(Monkey’s)音频、MPEG-1音频层II(MP2)、MPEG-1音频层III(MP3)、Opus和微软媒体音频(WMA)或其他标准。
内容捕获设备20可以不包括心理声学音频编码器专用硬件或专门软件,而是可以以非心理声学-音频编解码的形式提供内容21的音频方面。声场表示生成器24可以通过至少部分地关于内容21的音频方面执行心理声学音频编码来帮助捕获内容21。
声场表示生成器24还可以通过至少部分地基于从音频数据19(在音频数据19包括基于场景的音频数据的情况下)生成的音频内容(例如,MOA表示和/或一阶环绕声表示)生成一个或多个比特流27来帮助内容捕获和传输。比特流27可以表示音频数据19的压缩版本和任何其他不同类型的内容21(诸如球面视频数据、图像数据或文本数据的压缩版本)。
声场表示产生器24可以生成比特流27以用于传输,作为一个示例,通过传输信道进行传输,该传输信道可以是有线或无线信道(诸如Wi-Fi信道、蓝牙信道或符合第5代(5G)蜂窝标准的信道)、数据存储设备等。比特流27可以表示音频数据19的编码版本,并且可以包括主要比特流和另一个侧比特流,其可以被称为侧信道信息或元数据。在一些情况下,表示音频数据19(其同样也可以表示基于场景的音频数据、基于对象的音频数据、基于通道的音频数据或其组合)的压缩版本的比特流27可以符合根据MPEG-H3D音频编解码标准和/或MPEG-I沉浸式音频标准产生的比特流。
内容消费者设备14A可以由个体操作,并且可以代表VR客户端设备。尽管关于VR客户端设备进行了描述,但内容消费者设备14A可以表示其他类型的设备,诸如增强现实(AR)客户端设备、混合现实(MR)客户端设备(或其他XR客户端设备)、标准计算机、耳机、头戴式耳机、移动设备(包括所谓的智能电话)或能够跟踪操作内容消费者设备14A的个体的头部运动和/或一般性平移运动的任何其他设备。如图1A的示例中所示,内容消费者设备14A包括音频回放系统16A,其可以指能够渲染音频数据以作为单通道和/或多通道音频内容进行回放的任何形式的音频回放系统。
虽然在图1A中被示为直接传输到内容消费者设备14A,但是源设备12A可以将比特流27输出到位于源设备12A和内容消费者设备14A之间的中间设备。中间设备可以存储比特流27以供稍后递送到可能请求比特流27的内容消费者设备14A。中间设备可以包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话、或者能够存储比特流27以供音频解码器稍后检索的任何其他设备。中间设备可以存在于能够将比特流27(并且可能结合传输相应的视频数据比特流)流传输到请求比特流27的订户(诸如内容消费者设备14A)的内容递送网络中。
可替代地,源设备12A可将比特流27存储到存储介质,诸如光盘、数字视频盘、高清晰度视频盘或其他存储介质,其中大部分能够被计算机读取并且因此可以被称为计算机可读存储介质或非暂时性计算机可读存储介质。在该上下文中,传输信道可以指通过其传输存储到介质的内容(例如,以一个或多个比特流27的形式)的信道(并且可以包括零售商店和其他基于存储的递送机制)。在任何情况下,本公开的技术不应因此在这方面限于图1A的示例。
如上所述,内容消费者设备14A包括音频回放系统16A。音频回放系统16A可以表示能够回放单通道和/或多通道音频数据的任何系统。音频回放系统16A可以包括多个不同的音频渲染器32。音频渲染器32可以各自提供不同形式的渲染,其中不同形式的渲染可以包括执行基于向量的幅度平移(VBAP)的各种方式中的一种或多种,和/或执行声场合成的各种方式中的一种或多种。如本文所使用的,“A和/或B”意为“A或B”,或“A和B两者”。
音频回放系统16A还可以包括音频解码设备34。音频解码设备34可以表示被配置为对比特流27进行解码以输出音频数据19’的设备(其中撇号可以表示音频数据19’由于音频数据19的诸如量化的有损压缩而不同于音频数据19)。同样,音频数据19’可以包括基于场景的音频数据,在一些示例中,其可以形成完整的一阶(或更高)阶环绕声表示或形成相同声场的MOA表示的它的子集;它的分解,诸如主导音频信号、环境环绕声系数和MPEG-H3D音频编解码标准中描述的基于向量的信号;或其他形式的基于场景的音频数据。音频数据19’可以包括音频流或音频流的表示。
其他形式的基于场景的音频数据包括根据HOA(高阶环绕声)传输格式(HTF)定义的音频数据。有关HTF的更多信息可以在欧洲电信标准协会(ETSI)的题为“高阶环绕声(HOA)传输格式(Higher Order Ambisonics(HOA)Transport Format)”的技术规范(TS)(ETSI TS 103 589V1.1.1,日期为2018年6月(2018-06))中、以及2018年12月20日提交的题为“PRIORITY INFORMATION FOR HIGHER ORDER AMBISONIC AUDIO DATA”的美国专利公开号2019/0918028中找到。在任何情况下,音频数据19’可以类似于音频数据19的完整集合或部分子集,但可能由于有损操作(例如,量化)和/或经由传输信道的传输而不同。
作为基于场景的音频数据的替代或与之结合,音频数据19’可以包括基于通道的音频数据。作为基于场景的音频数据的替代或与之结合,音频数据19’可以包括基于对象的音频数据或基于通道的音频。因此,音频数据19’可以包括基于场景的音频数据、基于对象的音频数据和基于通道的音频数据的任何组合。
音频回放系统16A的音频渲染器32可以在音频解码设备34已经解码比特流27以获得音频数据19’之后,渲染音频数据19’以输出扬声器馈送35。扬声器馈送35可以驱动一个或多个扬声器或头戴式耳机(为了便于说明的目的,其在图1A的示例中未示出)。各种音频表示,包括声场的基于场景的音频数据(和可能的基于通道的音频数据和/或基于对象的音频数据)可以以多种方式归一化,包括N3D、SN3D、FuMa、N2D或SN2D。
为了选择适当的渲染器或在一些情况下生成适当的渲染器,音频回放系统16A可以获得指示扬声器(例如,喇叭或头戴式耳机扬声器)的数量和/或扬声器的空间几何形状的扬声器信息37。在一些情况下,音频回放系统16A可以使用参考麦克风获得扬声器信息37,并且可以以动态地确定扬声器信息37的方式来驱动扬声器(其可以指用来引起换能器振动的电信号的输出)。在其他情况下,或者结合扬声器信息37的动态确定,音频回放系统16A可以提示用户与音频回放系统16A交互并输入扬声器信息37。
音频回放系统16A可以基于扬声器信息37选择音频渲染器32中的一个音频渲染器。在一些情况下,当音频渲染器32中没有一个在扬声器信息37中指定的对扬声器几何形状的某个阈值相似性度量(就扬声器几何形状而言)之内时,音频回放系统16可以基于扬声器信息37生成音频渲染器32中的一个音频渲染器。在一些情况下,音频回放系统16A可以在无需首先尝试选择音频渲染器32中的现有的一个音频渲染器的情况下,基于扬声器信息37生成音频渲染器32中的一个音频渲染器。
当将扬声器馈送35输出到头戴式耳机时,音频回放系统16A可以利用渲染器32中的一个音频渲染器,该音频渲染器使用头部相关传递函数(HRTF)或能够渲染左、右扬声器馈送35以用于头戴式耳机扬声器回放的其他函数来提供双耳渲染,诸如双耳室内脉冲响应渲染器。术语“扬声器”或“换能器”一般可以指任何扬声器,包括喇叭、头戴式耳机扬声器、骨传导扬声器、耳塞式扬声器、无线头戴式耳机扬声器等。一个或多个扬声器或头戴式耳机然后可以回放经渲染的扬声器馈送35以再现声场。
虽然被描述为由音频数据19’渲染扬声器馈送35,但对扬声器馈送35的渲染的提及可以指其他类型的渲染,诸如直接结合到对来自比特流27的音频数据的解码中的渲染。可以在MPEG-H 3D音频标准的附件G中找到可替代的渲染的示例,其中渲染发生在声场合成之前的主导号形成和背景信号形成的期间。因此,对音频数据19’的渲染的提及应被理解为指实际音频数据19’的渲染、或音频数据19’的分解或表示(诸如上述主导音频信号、环境环绕声系数、和/或基于向量的信号——其也可以被称为V向量或多维环绕声空间向量)两者。
音频回放系统16A还可以基于跟踪信息41调整音频渲染器32。即,音频回放系统16A可以与被配置为跟踪VR设备的用户的头部运动和可能的平移运动的跟踪设备40接口。跟踪装置40可以表示被配置为跟踪VR设备的用户的头部运动和可能的平移运动的一个或多个传感器(例如,相机(包括深度相机)、陀螺仪、磁力计、加速度计、发光二极管(LED)等)。音频回放系统16A可以基于跟踪信息41调整音频渲染器32,使得扬声器馈送35反映用户的头部的变化和可能的平移运动,以正确再现响应于这种运动的声场。
图1B是示出被配置为执行本公开中所描述的技术的各个方面的另一示例性系统50的框图。系统50类似于图1A中所示的系统10,除了图1A中所示的音频渲染器32被双耳渲染器42(在内容消费者设备14B的音频回放系统16B中)替换之外,双耳渲染器42能够使用一种或多种头部相关传递函数(HRTF)或能够渲染到左、右扬声器馈送43的其他函数来执行双耳渲染。
音频回放系统16B可以将左、右扬声器馈送43输出到头戴式耳机48,该头戴式耳机可以表示可穿戴设备的另一个示例,并且可以耦接到附加的可穿戴设备以利于声场的再现,诸如手表、上述VR耳机、智能眼镜、智能服装、智能戒指、智能手环或任何其他类型的智能首饰(包括智能项链)等。头戴式耳机48可以无线地或经由有线连接耦接到附加的可穿戴设备。
另外,头戴式耳机48可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其他形式的有线连接)或无线地(诸如通过BluetoothTM连接、无线网络连接等)耦接到音频回放系统16B。头戴式耳机48可以基于左、右扬声器馈送43重新创建由音频数据19’表示的声场。头戴式耳机48可以包括左头戴式耳机扬声器和右头戴式耳机扬声器,它们由对应的左、右扬声器馈送43供电(或换言之,驱动)。
图1C是示出另一个示例性系统60的框图。示例性系统60类似于图1A的示例性系统10,但是系统60的源设备12B不包括内容捕获设备。源设备12B包含合成设备29。内容开发者可以使用合成设备29来生成合成音频源。合成音频源可以具有与其相关联的定位信息,该定位信息可以标识音频源相对于收听者或声场中的其他参考点的位置,使得音频源可以被渲染到一个或多个扬声器通道以用于在试图重建声场中回放。在一些示例中,合成设备29还可以合成视觉或视频数据。
例如,内容开发者可以为视频游戏生成合成音频流。虽然图1C的示例与图1A的示例的内容消费者设备14A一起示出,但是图1C的示例的源设备12B可以与图1B的内容消费者设备14B一起使用。在一些示例中,图1C的源设备12B还可以包括内容捕获设备,使得比特流27可以同时包含捕获的(一个或多个)音频流和合成的(一个或多个)音频流两者。
如上所述,内容消费者设备14A或14B(其中任一者在下文中可以被称为内容消费者设备14)可以表示VR设备,其中人类可穿戴显示器(其也可被称为“头戴式显示器”)被安装在操作VR设备的用户的眼睛前方。图2是示出用户1102穿戴的VR设备1100的示例的图。VR设备1100耦接到或以其他方式包括头戴式耳机1104,其可以通过扬声器馈送35的回放再现由音频数据19’表示的声场。扬声器馈送35可以表示模拟或数字信号,该信号能够使头戴式耳机1104的换能器内的膜以各种频率振动,其中这种过程通常被称为驱动头戴式耳机1104。
视频、音频和其他感官数据可以在VR体验中发挥重要作用。为了参与VR体验,用户1102可以穿戴VR设备1100(其也可以被称为VR客户端设备1100)或其他可穿戴电子设备。VR客户端设备(诸如VR设备1100)可以包括跟踪设备(例如,跟踪设备40),该跟踪设备被配置为跟踪用户1102的头部运动,并且调整经由VR设备1100显示的视频数据以考虑头部运动,从而提供沉浸式体验,其中用户1102可以体验以视觉三维在视频数据中显示的声学空间。声学空间可以指虚拟世界(其中所有世界都是模拟的)、增强世界(其中世界的一部分由虚拟对象增强)或物理世界(其中真实世界图像被虚拟化导航)。
虽然VR(和其他形式的AR和/或MR)可以允许用户1102在视觉上驻留在虚拟世界中,但是VR设备1100通常可能缺乏将用户置于可听的声学空间中的能力。换言之,VR系统(其可以包括负责渲染视频数据和音频数据的计算机——为了便于说明的目的未在图2的示例中示出,以及VR设备1100)可能无法可听地(并且在某些情况下逼真地,以反映经由VR设备1100呈现给用户的显示场景的方式)支持全三维沉浸感。
尽管在本公开中关于VR设备进行了描述,但是可以在诸如移动设备之类的其他设备的上下文中执行这些技术的各个方面。在这种情况下,移动设备(诸如所谓的智能电话)可以经由屏幕呈现声学空间,该屏幕可以安装到用户1102的头部或者按照正常使用移动设备时的方式进行观看。因此,屏幕上的任何信息都可以是移动设备的一部分。移动设备可以能够提供跟踪信息41,从而允许VR体验(当头戴时)和正常体验两者来查看声学空间,其中正常体验仍可以允许用户查看提供VR-精简型体验的声学空间(例如,举起设备并旋转或平移设备以查看声学空间的不同部分)。
无论如何,回到VR设备的上下文,VR的音频方面已经被分类为三个独立的沉浸类别。第一类别提供最低级别的沉浸感,并且被称为三自由度(3DOF)。3DOF是指将头部在三个自由度(偏航、俯仰和滚转)中的运动考虑在内的音频渲染,从而允许用户在任何方向上自由地环顾四周。然而,3DOF无法将头部不以声场的光学和声学中心为中心的平移头部运动考虑在内。
第二类别称为3DOF plus(3DOF+),提供三个自由度(偏航、俯仰和滚转)以及由于头部运动而偏离声场内的光学中心和声学中心的有限的空间平移运动。3DOF+可以为诸如运动视差之类的感知效果提供支持,这可以增强沉浸感。
第三类别称为六自由度(6DOF),以考虑头部运动方面的三个自由度(偏航、俯仰和滚转)但也考虑用户在空间中的平移(x、y和z平移)的方式渲染音频数据。空间平移可以由跟踪用户在物理世界中的位置的传感器、或通过输入控制器引起。
3DOF渲染是VR的音频方面的最新技术。因此,VR的音频方面不如视频方面的沉浸感,因此可能会降低用户体验的整体沉浸感。然而,VR正在迅速转变,并且可能会迅速发展为同时支持3DOF+和6DOF,这可能会为附加的用例提供机会。
例如,交互式游戏应用可以利用6DOF来促进完全沉浸式游戏,其中用户自己在VR世界中移动并且可以通过走到虚拟对象来与虚拟对象进行交互。此外,交互式直播应用可以利用6DOF来允许VR客户端设备体验音乐会或体育赛事的直播,就好像它们自己在音乐会上一样,从而允许用户在音乐会或体育赛事中移动。
存在许多与这些用例相关联的困难。在完全沉浸式游戏的情况下,延迟可能需要保持在较低的水平,以实现不会导致恶心或晕动病的游戏玩法。而且,从音频的角度来看,导致与视频数据失去同步的音频回放的延迟可能会降低沉浸感。此外,对于某些类型的游戏应用,空间精度对于允许准确响应可能很重要,包括关于用户如何感知声音,因为这允许用户预测当前不在视野中的动作。
在直播应用的上下文中,大量的源设备12A或12B(其中的任何一个在下文中都可以被称为源设备12)可以流传输内容21,其中源设备12可以具有广泛不同的功能。例如,一个源设备12可以是具有数字固定镜头相机和一个或多个麦克风的智能电话,而另一个源设备可以是能够获得比智能电话更高的分辨率和质量的视频的生产级电视装备。然而,在直播应用的上下文中,所有源设备12可以提供不同质量的流,VR设备可以尝试从中选择合适的流以提供预期体验。
此外,与游戏应用类似,音频数据中的延迟使得与视频数据失去同步可能会导致沉浸感降低。而且,空间精度也可能很重要,以便用户可以更好地理解不同音频源的背景或位置。此外,当用户使用相机和麦克风进行直播时,隐私可能会成为问题,因为用户可能不希望直播完全向公众开放。
在流式应用(实时或录制)的上下文中,可能有大量音频流与不同级别的质量和/或内容相关联。音频流可以表示任何类型的音频数据,包括基于场景的音频数据(例如,环绕声音频数据,包括FOA音频数据、MOA音频数据和/或HOA音频数据)、基于通道的音频数据和基于对象的音频数据。仅选择潜在的大量音频流中的一个来重新创建声场可能无法提供确保足够级别的沉浸感的体验。然而,由于多个音频流之间的不同空间定位,选择多个音频流可能会产生干扰,从而潜在地降低沉浸感。
根据本发明中描述的技术,音频解码设备34可以在经由比特流27可用的音频流(其由比特流27表示且因此比特流27可被称为“音频流27”)之间自适应地选择。音频解码设备34可以基于音频定位信息(ALI)(例如,图1A至图1C中的45A)在音频流27的不同音频流之间进行选择,在一些示例中,音频定位信息可以被包括作为伴随音频流27的元数据,其中音频定位信息可以定义捕获相应音频流27的麦克风在声学空间中的捕获坐标、或合成音频流在声学空间中的虚拟捕获坐标。ALI 45A可以表示声学空间中捕获或合成音频流27中一个对应音频流的位置。音频解码设备34可以基于ALI 45A选择音频流27的子集,其中该音频流27的子集排除音频流27中的至少一个音频流。音频解码设备34可以输出音频流27的子集作为音频数据19’。
另外,音频解码设备34可以获得跟踪信息41,内容消费者设备14可以将其转换为设备定位信息(DLI)(例如,图1A至图1C中的45B)。DLI 45B可以表示内容消费者设备14在声学空间中的虚拟或实际位置,其可以被定义为声学空间中的一个或多个设备坐标。内容消费者设备14可以向音频解码设备34提供DLI 45B。音频解码设备34然后可以基于ALI 45A和DLI 45B从音频流27中选择音频数据19’。音频回放系统16A或16B然后可以基于音频数据19’再现对应的声场。
在这方面,音频解码设备34可以自适应地选择音频流27的子集,以获得可以导致更加沉浸式体验的音频数据19’(与选择单个音频流或所有音频数据19’相比))。因此,本公开中描述的技术的各个方面可以通过可能使音频解码设备34能够更好地空间化声场内的声源来改进音频解码设备34(以及音频回放系统16A或16B和内容消费者设备14)本身的操作,并由此提高沉浸感。
在操作中,音频解码设备34可以与一个或多个源设备12交互以确定每个音频流27的ALI 45A。如图1A的示例中所示,音频解码设备34可以包括流选择单元44,其可以表示被配置为执行本公开中描述的音频流选择技术的各个方面的单元。
流选择单元44可以基于ALI 45A生成星座图(CM)47。CM 47可以为每个音频流27定义ALI 45A。流选择单元44还可以关于每个音频流27执行能量分析,以确定每个音频流27的能量图,将能量图与ALI 45A一起存储在CM 47中。能量图可以共同定义由音频流27表示的公共声场的能量。
流选择单元44接下来可以确定由DLI 45B表示的设备位置和由与音频流27中至少一个(并且可能每一个)相关联的ALI 45A表示的(一个或多个)捕获位置或(一个或多个)合成位置之间的(一个或多个)距离。流选择单元44然后可以基于(一个或多个)距离从音频流27中选择音频数据19’,如下面关于图3A至图3E更详细地讨论的。
此外,在一些示例中,流选择单元44还可以基于存储到CM 47的能量图、ALI 45A和DLI 45B(其中ALI 45A和DLI 45B以上述距离的形式共同呈现,也可以称为“相对距离”)从音频流27中选择音频数据19’。例如,流选择单元44可以分析在CM 47中呈现的能量图,以确定由麦克风(例如麦克风18)捕获的或合成的(诸如通过合成设备29)以及由音频流27表示的发射声音的、公共声场中的音频源的音频源位置(ASL)49。流选择单元44然后可以基于ALI 45A、DLI 45B和ASL49从音频流27确定音频数据19’。下面关于图3A至图3E讨论关于流选择单元44可以如何选择流的更多信息。
图3A至图3E是更详细地示出图1A的示例中所示的流选择单元44的示例操作的图。如图3A的示例中所示,流选择单元44可以确定DLI 45B指示内容消费者设备14(示出为VR设备1100)在虚拟位置300A处。流选择单元44接下来可以确定音频元件302A-302J(统称为音频元件302)中的一个或多个的ALI 45A,音频元件不仅可以表示麦克风,诸如图1A中所示的麦克风18,还可以表示其他类型的捕获设备,包括其他XR设备、移动电话(包括所谓的智能电话等),或合成声场等。
如上所述,流选择单元44可以获得音频流27。流选择单元44可以与音频元件302A-302J接口以获得音频流27。在一些示例中,流选择单元44可以根据第五代(5G)蜂窝标准、诸如BluetoothTM的个人区域网络的(PAN)、或其他一些开源、专有或标准化的通信协议来与接口(诸如接收器、发送器和/或收发器)交互以获得音频流27。音频流的无线通信在图3A至图3E和图4E至图4H的示例中被表示为闪电,其中所选择的音频数据19’被示为从所选择的一个或多个音频元件302被通信到VR设备1100。
在任何情况下,流选择单元44接下来可以以上述方式获得能量图,分析能量图以确定音频源位置304,其可以表示图1A的示例中所示的ASL 49的一个示例。能量图可以表示音频源位置304,因为音频源位置304处的能量可能高于周围区域。假设每个能量图可以表示这种更高的能量,流选择单元44可以基于能量图中的更高能量对音频源位置304进行三角测量。
接下来,流选择单元44可以将音频源距离306A确定为音频源位置304和VR设备1100的虚拟位置300A之间的距离。流选择单元44可以将音频源距离306A与音频源距离阈值进行比较。在一些示例中,流选择单元44可以基于音频源308的能量导出音频源距离阈值。也就是说,当音源308具有较高的能量时(或换言之,当音源308较响时),流选择单元44可以增加音源距离阈值。当音频源308具有较低的能量时(或者换言之,当音频源308较安静时),流选择单元44可以降低音频源距离阈值。在其他示例中,流选择单元44可以获得静态定义的音频源距离阈值,其可以由用户1102静态定义或指定。
在任何情况下,当音频源距离306A大于音频源距离阈值(在该示例中为了说明的目的而假设)时,流选择单元44可以选择音频元件302A-302J(“音频元件302”)的音频流27中的单个音频流。流选择单元44可以输出音频流27中的对应音频流,音频解码设备34可以将其解码并输出为音频数据19’。
假设用户1102从虚拟位置300A移动到虚拟位置300B,流选择单元44可以将音频源距离306B确定为音频源位置304和虚拟位置300B之间的距离。在一些示例中,流选择单元44可以仅在某个可配置的释放时间之后更新,该释放时间可以指收听者停止移动之后的时间。
在任何情况下,流选择单元44可以再次将音频源距离306B与音频源距离阈值进行比较。当音频源距离306B小于或等于音频源距离阈值(在本例中为了说明的目的而假设)时,流选择单元44可以选择音频元件302A-302J(“音频元件302”)的音频流27中的多个音频流。流选择单元44可以输出音频流27中的对应音频流,音频解码设备34可以将其解码并输出为音频数据19’。
流选择单元44还可以确定虚拟位置300A与由ALI表示的一个或多个(并且可能每一个)捕获位置(或合成位置)之间的一个或多个接近距离。流选择单元44然后可以将一个或多个接近距离与阈值接近距离进行比较。当一个或多个接近距离大于阈值接近距离时,流选择单元44可以选择与一个或多个接近距离小于或等于阈值接近距离时相比较少数量的音频流27以获得音频数据19’。然而,当接近距离中的一个或多个接近距离小于或等于阈值接近距离时,流选择单元44可以选择与接近距离大于阈值接近距离时相比更多数量的音频流27以获得音频数据19’。
换言之,流选择单元44可以尝试选择音频流27中使得音频数据19’与虚拟位置300B最紧密地对齐并且围绕虚拟位置300B的那些音频流。接近距离阈值可以定义这样的阈值,VR耳机1100的用户1102可以设置该阈值,或者流选择单元44可以再次基于音频元件302F-302J的质量、音频源308的增益或响度、跟踪信息41(例如,以确定用户1102是否面对音频源308)或任何其他因素来动态地确定该阈值。
在这方面,当收听者在位置300B处时,流选择单元44可以增加音频空间化准确度。此外,当收听者在位置300A处时,流选择单元44可以降低比特率,因为仅使用音频元件302A的音频流而不是音频元件302B-302J的多个音频流来再现声场。
接下来参考图3B的示例,流选择单元44可以确定音频元件302A的音频流被破坏、嘈杂或不可用。流选择单元44可以从CM 47中移除该音频流,并且根据以上更详细描述的技术在音频流27中重复迭代以选择音频流27中的单个音频流(例如,图3B的示例中的音频元件302B的音频流),前提是音频源距离306A大于音频源距离阈值。
接下来参考图3C的示例,流选择单元44可以获得新的音频流(音频元件302K的音频流)和包括ALI 45A的对应的新信息(例如,元数据)。流选择单元44可以将新的音频流添加到表示音频流27的CM 47。流选择单元44可以根据以上更详细描述的技术在音频流27中重复迭代,以选择音频流27中的单个音频流(例如,图3C的示例中的元件302B的音频流),前提是音频源距离306A大于音频源距离阈值。
在图3D的示例中,音频元件302被特定的示例设备320A-320J(“设备320”)替换,其中设备320A表示专用麦克风320A,而设备320B、320C、320D、320G、320H和320J表示智能电话。设备320E、320F和320I可以表示VR设备。设备320中的每一个可以包括麦克风,其捕获要根据本公开中描述的流选择技术的各个方面来选择的音频流27。
在许多情况下,有些音频流可能对某些人是不合适或冒犯的。例如,在现场体育赛事中,可能有人在场地内使用冒犯性语言。在某些视频游戏中可能也是如此。在其他现场活动中,例如集会,可能会发生敏感的讨论。通过使用授权级别,流选择单元44可以从对内容消费者设备14的用户的回放中筛选出或以其他方式排除不想要的或敏感的音频流。授权级别可以与单独的音频流或隐私区相关联(关于图4C更详细地讨论)。
授权级别可以采用几种不同的形式。例如,授权级别可以类似于美国电影协会(MPAA)的评级,或者它们可以类似于安全许可。
实现授权级别的另一种方式可以基于联系人列表。该联系人列表可以包含多个联系人,并且还可以包含一个或多个联系人的好感度等级(rank)或好感度等级排序(ranking)。一个或多个处理器可以将联系人列表存储在内容消费者设备14内的存储器中。在该示例中,如果内容创建者或内容源在内容消费者设备14上的联系人列表(例如,内容列表中列出的人)内,则满足授权级别。如果否,则不满足授权级别。在另一个示例中,授权级别可以基于等级。例如,当联系人具有至少预定的好感度等级或好感度等级排序时,可以发生授权。
在一些情况下,源设备12可以设置授权级别。例如,在进行敏感讨论的集会上,内容创建者或源可以创建并应用授权级别,以便只有具有适当特权的某些人才能听到该信息。对于没有适当特权的其他人,流选择单元44可以筛选出或以其他方式排除该讨论的(一个或多个)音频流。
在其他情况下,例如体育赛事示例,内容消费者设备14可以创建授权级别。因此,用户可以在音频回放期间排除冒犯性语言。
图3E是示出具有三个或更多音频元件的示例音乐会的概念图。在图3E的示例中,在舞台323上描绘了多个音乐家。歌手312位于音频元件310A后面。弦乐部分314被描绘为在音频元件310B后面。鼓手316被描绘为在音频元件310C后面。其他音乐家318被描绘为在音频元件310D后面。音频元件310A-301D可以包括对应于麦克风接收到的声音的音频流。在一些示例中,音频元件310A-310D可以表示合成音频流。例如,音频元件310A可以表示主要与歌手312相关联的(一个或多个)音频流,但是该(一个或多个)音频流也可以包括由其他乐队成员产生的声音,诸如弦乐部分314、鼓手316或其他音乐家318,而音频元件310B可以表示主要与弦乐部分314相关联的(一个或多个)音频流,但也可以表示由其他乐队成员产生的声音。以此方式,音频元件310A-310D中的每一个可以表示不同的(一个或多个)音频流。
还描绘了多个设备。这些设备表示位于多个不同收听位置处的用户设备。头戴式耳机321位于音频元件310A附近,但在音频元件310A和音频元件310B之间。因此,根据本公开的技术,流选择单元44可以选择音频流中的至少一个音频流,来为头戴式耳机321的用户产生与正位于图3E中头戴式耳机321所在位置的用户类似的音频体验。类似地,VR护目镜322被示为位于音频元件310C后面,并且在鼓手316和其他音乐家318之间。流选择单元44可以选择至少一个音频流,来为VR护目镜322的用户产生与正位于图3E中VR护目镜322所在位置的用户类似的音频体验。
智能眼镜324被示为相当居中地位于音频元件310A、310C和310D之间。流选择单元44可以选择至少一个音频流,来为智能眼镜324的用户产生与正位于图3E中智能眼镜324所在位置的用户类似的音频体验。此外,设备326(其可以表示能够实施本公开的技术的任何设备,诸如移动手持机、扬声器阵列、头戴式耳机、VR护目镜、智能眼镜等)被示为位于音频元件310B的前面。流选择单元44可以选择至少一个音频流,来为设备326的用户产生与正位于图3E中设备325所在位置的用户类似的音频体验。虽然关于特定位置讨论了具体设备,但所描绘的任何设备都可以提供对与图3E中所描绘的不同的期望收听位置的指示。
图4A是示出根据本公开的技术的图1A至图1C的示例中所示的流选择单元的操作的示例的流程图。内容消费者设备14的一个或多个处理器可以在内容消费者设备14上的存储器中存储多个音频流和每个音频流的相关联的授权级别(350)。例如,音频流可以具有相关联的授权级别。在一些示例中,授权级别可以直接与音频流相关联。在一些示例中,授权级别可以与音频流所关联的隐私区相关联,并且以此方式音频流与授权级别相关联。在一些示例中,多个音频流以编码形式存储。在其他示例中,多个音频流以解码形式存储。
在一些示例中,音频流的授权级别基于与音频流相关联的定位信息。例如,音频解码设备34可以在存储器中存储与在其中捕获或合成了多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息。多个音频流中的每一个音频流的授权级别可以基于定位信息来确定。在一些示例中,可以在声学空间中定义多个隐私区。每个隐私区可以具有相关联的授权级别。在一些示例中,多个音频流中的至少一个音频流的授权级别可以基于包含捕获或合成多个音频流中的至少一个音频流的定位的隐私区的授权级别来确定。在一些示例中,多个音频流中的至少一个音频流的授权级别等于包含捕获或合成多个音频流中的一个音频流的定位的隐私区的授权级别。
内容消费者设备14的一个或多个处理器可以以排除多个音频流中的至少一个音频流的方式,基于相关联的授权级别来选择多个音频流的子集(352)。在一些示例中,排除的流与一个或多个隐私区相关联。例如,用户1102可能不具有收听一个或多个隐私区中的音频源的授权,并且流选择单元44的一个或多个处理器可以从多个音频流的子集中排除那些音频流。在一些示例中,流选择单元的一个或多个处理器可以通过将被排除的音频流置空来从多个音频流的子集中排除音频流。
流选择单元44的一个或多个处理器可以将多个音频流的子集输出到一个或多个扬声器或头戴式耳机(354)。例如,流选择单元44的一个或多个处理器可以将多个音频流的子集输出到头戴式耳机48。
在一些示例中,内容消费者设备14可以从源设备12接收授权级别。例如,授权级别可以包含在与音频流相关联的元数据中,或者可以以其他方式包含在比特流27中。在其他示例中,内容消费者设备的一个或多个处理器可以生成授权级别。在一些示例中,流选择单元44的一个或多个处理器可以将与每个音频流相关联的授权级别与设备或设备的用户(例如,用户1102)的授权级别进行比较,并且基于与每个音频流相关联的授权级别和设备或设备用户的授权级别的比较结果,来选择多个音频流的子集。在一些示例中,授权级别包括两个以上的等级,而不是授权或未授权。在这样的示例中,流选择单元44的一个或多个处理器可以通过以下方式选择多个音频源的子集:将多个音频流中的每一个的等级与用户(例如,用户1102)的等级进行比较,并且基于该比较选择多个音频流的子集。例如,用户的等级可以指示用户未被授权收听具有不同等级的音频流,并且流选择单元44可以不选择这样的音频流。在其他示例中,授权级别可以基于多个联系人,这些联系人可以存储在内容消费者设备14的存储器中。在这样的示例中,流选择单元44的一个或多个处理器可以通过以下方式选择多个音频流的子集:确定多个音频流中的一个或多个音频流的源是否与多个联系人中的一个或多个联系人相关联;以及基于该比较选择多个音频流的子集。在一些示例中,多个联系人包括好感度等级排序。在一些示例中,流选择单元44的一个或多个处理器可以通过以下方式选择多个音频源的子集:确定多个音频流中的一个或多个音频流的源是否与多个联系人中具有至少预定好感度等级排序的一个或多个联系人相关联;以及基于该比较选择多个音频流的子集。在一些示例中,当隐私区不具有相关联的授权级别时,内容消费者设备14可以抑制对与隐私区相关联的音频流进行解码。
在一些示例中,内容消费者设备14可以被配置为接收多个音频流和每个音频流的相关联的授权级别。在一些示例中,内容消费者设备14可以被配置为接收设备用户的授权级别。在一些示例中,内容消费者设备14可以通过选择具有不大于所接收的设备的用户的授权级别的、相关联的授权级别的那些音频流来选择多个音频流的子集,并且将所选择的多个音频流的子集发送到可听输出设备(例如,头戴式耳机48),以用于所选择的多个音频流的子集的可听输出。
在一些示例中,多个音频流的子集包括基于在由内容消费者设备14的一个或多个处理器解码的比特流(例如,比特流27)中接收的经编码信息的再现音频流。在其他示例中,音频流可能未经编码。
图4A是示出根据本公开的技术的图1A至图1C的示例中所示的流选择单元的操作(4000)的另一示例的流程图。一个或多个处理器可以在内容消费者设备14的存储器中存储音频流和与音频流相关联的信息,包括定位信息和授权级别(400)。在一些示例中,与音频流相关联的信息可以是元数据。流选择单元44可以获得定位信息(401)。如上所述,该定位信息可以与声学空间中的捕获坐标相关联。在一些示例中,流选择单元44可以通过从存储器读取定位信息来获得定位信息,例如当定位信息与特定音频流相关联时,或者在其他示例中,流选择单元44可以通过计算定位信息来获得定位信息(如果有必要的话),例如当定位信息与隐私区相关联时。
授权级别可以与每个音频流或隐私区相关联(将关于图4D更彻底地讨论)。例如,在现场活动中,可能会发生敏感的讨论,或者可能会使用不恰当的语言或针对某些观众讨论不恰当的话题。通过向每个音频流或隐私区分配授权级别,流选择单元44可以筛选出相关音频流或以其他方式排除它们以便不再现它们。流选择单元44可以确定流是否被授权用于用户1102(402)。例如,流选择单元44可以基于与音频流相关联的授权级别(例如,直接地或通过与具有相关联的授权级别的隐私区相关联)来确定音频流是否被授权。在一些示例中,授权级别可以是等级,如下面关于表1和表2所讨论的。在其他示例中,授权级别可以基于联系人列表。在使用联系人列表进行认证的示例中,当内容创建者或源不在联系人列表中或者不具有足够高的好感度等级排序时,流选择单元44可以筛选出或以其他方式排除(一个或多个)音频流或隐私区。
在一个示例中,音频回放系统16(为了简单起见,其可以指音频回放系统16A或音频回放系统16B)可以允许用户覆盖(override)授权级别。音频回放系统16可以从用户1102获得覆盖至少一个授权级别的请求,并确定是否覆盖该授权级别(404)。当授权级别被覆盖时,则流选择单元44可以选择或添加音频流(403),并且音频流或隐私区可以被包括在音频输出中。当授权级别未被覆盖时,相应的音频流或隐私区可以不包括在输出中,例如,流选择单元44将不选择音频流(405)。在一些示例中,一些用户可以具有覆盖授权级别的能力,而其他用户则没有。例如,父母可以具有覆盖授权级别的能力,而孩子可以没有。在一些示例中,超级用户可以具有覆盖授权级别的能力,而普通用户可以没有。在一个示例中,音频回放系统16可以向源设备12发送消息,指示源设备12或基站停止发送排除的(一个或多个)音频流(409)。以此方式,可以节省传输信道内的带宽。
当用户对给定的音频流或隐私区没有足够的授权级别时,流选择单元44可以排除(例如,不选择)该音频流或隐私区。在一个示例中,音频回放系统16可以基于音频流或隐私区的授权级别来改变增益,从而增强或衰减音频输出(406)。在一些示例中,音频回放系统16可以将给定的音频流或隐私区置空或归零。音频解码设备34可以将两个或更多个所选择的音频流组合在一起(407)。例如,可以通过混合或插值的方式来完成对所选择的音频流的组合。音频解码设备34然后可以输出所选择的流(408)。
图4C和图4D是示出在本公开中关于隐私区描述的技术的各个方面的图。示出了静态音频源441,诸如打开的麦克风。静态音频源441可以是现场音频源或合成音频源。还示出了动态音频源442,例如,用户在音频源记录时设置在用户操作的移动手持机中。动态音频源442可以是现场音频源或合成音频源。静态音频源441和/或动态音频源442中的一个或多个可以捕获或合成音频信息443。源设备可以将音频信息发送到控制器444。控制器444可以处理音频信息。在图4C中,控制器444被示为在处理器449A中实现,该处理器可以在内容消费者设备14中。在图4D中,控制器444被示为在可以在源设备12A或12B中的处理器450中实现,而不是在可以在内容消费者设备14中的处理器449B中实现。例如,控制器444可以将音频信息划分为相应的区(例如,隐私区),创建音频流,并且用关于音频源441和442的位置的定位信息以及例如通过质心和半径数据的区划分(compartmentalization)(包括区的边界)来标记音频流。在一些示例中,定位信息可以是元数据。控制器444可以在线或离线执行这些功能。控制器444然后可以通过单独的链路452向优先化单元445发送定位信息,并且通过链路453向优先化单元445发送音频流,或者可以通过单个链路一起发送定位信息和音频流。
在一个示例中,优先化单元445可以是创建和分配授权级别的地方。例如,优先化单元445可以确定哪些隐私区的增益可以改变以及哪些隐私区可以被置空或从渲染中排除。
示出了覆盖单元446。这种覆盖可以允许用户覆盖给定隐私区的授权级别。
内容消费者设备14可以确定用户位置和方向信息447,并且利用用户位置和方向信息447、音频流、定位信息、区边界和授权级别来创建渲染448。
图4E和图4F是进一步示出根据本公开的各方面的隐私区的概念的图。用户460被示出在几组音频元件附近,每组音频元件表示一音频流。在一些示例中,授权使用哪些音频流来成组而不是单独地创建用户460的音频体验可能是有用的。在一些示例中,可能存在彼此接近定位的多个音频元件。例如,在集会的示例中,彼此接近定位的多个音频元件可能正在接收敏感信息。因此可以创建隐私区并且可以为与给定隐私区相关联的每个音频流分配相同的授权级别。在一些示例中,授权级别可以与给定隐私区中的每个音频流直接相关联。在其他示例中,授权级别和音频流可以与隐私区相关联。如在本公开中使用的,当授权级别被称为与音频流相关联时,授权级别可以直接与音频流相关联,或者可以与音频流所关联的隐私区相关联。例如,当本公开声明存储器可以存储多个音频流和每个音频流的授权级别时,存储器可以存储多个音频流以及:1)(一个或多个)隐私区的授权级别,以及多个音频流与(一个或多个)隐私区之间的关联;2)每个音频流的授权级别;或3)它们的任何组合。
例如,源设备12可以向用户分配可以是等级的授权级别。图4C和图4D的优先化单元445可以分配增益、衰减和置空信息(例如,元数据),并且在该示例中,分配用于每个隐私区的等级。例如,隐私区461可以包含音频流4611、4612和4613。隐私区462可以包含音频流4621、4622和4623。隐私区463可以包含音频流4631、4632和4633。如表1所示,控制器444可以将这些音频流标记为属于它们相应的隐私区。优先化单元445也可以将增益和置空信息(例如,元数据)与音频流相关联。如表1所示,G是增益,N是置空或排除。在该示例中,用户460关于隐私区461和463的等级为2,但关于隐私区462的等级为3。如表中所示,流选择单元44将排除或置空隐私区462,并且隐私区462内的音频元件(或音频源)(例如,音频流4621-4623)将不可用于渲染,如图4E中所示,除非用户460要覆盖该授权级别,在这种情况下音频渲染将如图4F所示。虽然授权级别在表1中以等级示出,但授权级别可以以其他方式实现,诸如基于联系人列表。
区 | 标记 | 元数据 | 等级 |
461,463 | 4611-4613,4631-4633 | G-20dB,N=0 | 2 |
462 | 4621-4623 | G-N/A,N=1 | 3 |
表1
图4G和图4H是示出排除单独的音频流而不是隐私区的图。在该示例中,音频流没有成簇而是彼此远离,并且控制器444可以分别标记它们,每个音频流都具有其自身的授权级别。例如,音频流471、472、473和474可以不包含重叠信息。在一些示例中,音频流471、472、473和474中的每一个可以具有不同的授权级别。参考表2,在该示例中,控制器444可以用单独的授权级别来标记音频流471、472、473和474中的每一个,并且不将它们中的任何一个分配给隐私区。优先化单元445可以为每个音频流分配增益和置空信息(例如,元数据)。在一个示例中,内容消费者设备14可以为每个音频流的用户分配等级。如从表2中可以看出的,流选择单元44可以将音频流474置空或从用户470的渲染中排除,如图4G所示,除非用户470覆盖该优先级,否则用户470的渲染将如图4H所示呈现。在其他示例中,可以如上所述使用联系人列表而不是等级作为授权级别。
区 | 标记 | 元数据 | 等级 |
N/A | 471 | G=0dB,N=0 | 2 |
N/A | 472 | G=0dB,N=0 | 2 |
N/A | 473 | G=0dB,N=0 | 2 |
N/A | 474 | G=N/A,N=1 | 1 |
表2
图5是示出可以根据本公开中描述的技术的各个方面操作的可穿戴设备500的示例的图。在各种示例中,可穿戴设备500可以表示VR耳机(诸如上述VR设备1100)、AR耳机、MR耳机或任何其他类型的扩展现实(XR)耳机。增强现实“AR”可以指覆盖在用户实际所在的真实世界上的计算机渲染图像或数据。混合现实“MR”可以指被世界锁定到真实世界中的特定位置的计算机渲染的图像或数据,或者可以指对VR的变体,其中部分计算机渲染的3D元素和部分拍摄的真实元素组合成模拟用户在环境中的物理存在的沉浸式体验。扩展现实“XR”可以表示VR、AR和MR的统称。有关XR术语的更多信息可以在Jason Peterson于2017年7月7日的题为“虚拟现实、增强现实和混合现实定义(Virtual Reality,Augmented Reality,and Mixed Reality Definitions)”的文档中找到。
可穿戴设备500可以表示其他类型的设备,诸如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、头戴式耳机(包括所谓的“无线头戴式耳机”和“智能头戴式耳机”)、智能服装、智能首饰等。无论是表示VR设备、手表、眼镜和/或耳机,可穿戴设备500都可以经由有线连接或无线连接与支持可穿戴设备500的计算设备通信。
在一些情况下,支持可穿戴设备500的计算设备可以集成在可穿戴设备500内,并且因此,可穿戴设备500可以被视为与支持可穿戴设备500的计算设备相同的设备。在其他情况下,可穿戴设备500可以与可以支持可穿戴设备500的单独计算设备通信。在这方面,术语“支持”不应被理解为需要单独的专用设备,而是被配置为执行本公开中描述的技术的各个方面的一个或多个处理器可以被集成在可穿戴设备500内、或者被集成在与可穿戴设备500分开的计算设备内。
例如,当可穿戴设备500表示VR设备1100时,单独的专用计算设备(诸如包括一个或多个处理器的个人计算机)可以渲染音频和视觉内容,而可穿戴设备500可以确定平移的头部运动,此时专用计算设备可以根据本公开中描述的技术的各个方面基于平移的头部运动来渲染音频内容(作为扬声器馈送)。作为另一示例,当可穿戴设备500表示智能眼镜时,可穿戴设备500可以包括一个或多个处理器,该一个或多个处理器(通过可穿戴设备500的一个或多个传感器内的接口)确定平移的头部运动,并且基于所确定的平移的头部运动来渲染扬声器馈送。
如图所示,可穿戴设备500包括一个或多个定向扬声器,以及一个或多个跟踪和/或记录相机。此外,可穿戴设备500包括一个或多个惯性、触觉和/或健康传感器、一个或多个眼睛跟踪相机、一个或多个高灵敏度音频麦克风和光学/投影硬件。可穿戴设备500的光学/投影硬件可以包括耐用的半透明显示技术和硬件。
可穿戴设备500还包括连接硬件,其可以表示支持诸如4G通信、5G通信、蓝牙等的多模式连接的一个或多个网络接口。可穿戴设备500还包括一个或多个环境光传感器、一个或多个相机和夜视传感器,以及一个或多个骨传导传感器。在一些情况下,可穿戴设备500还可以包括一个或多个具有鱼眼镜头和/或长焦镜头的无源和/或有源相机。尽管在图5中未示出,但可穿戴设备500还可以包括一个或多个发光二极管(LED)灯。在一些示例中,(一个或多个)LED灯可以被称为(一个或多个)“超亮”LED灯。在一些具体实施方式中,可穿戴设备500还可以包括一个或多个后置相机。应当理解,可穿戴设备500可以展现出多种不同的形状因数。
此外,跟踪和记录相机以及其他传感器可以促进对平移距离的确定。尽管未在图5的示例中示出,但可穿戴设备500可以包括用于检测平移距离的其他类型的传感器。
尽管关于可穿戴设备的特定示例进行了描述,诸如上面关于图2的示例所讨论的VR设备1100和图1A至图1C的示例中阐述的其他设备,但是本领域的普通技术人员将理解,与图1A至图1C和图2相关的描述可以适用于可穿戴设备的其他示例。例如,诸如智能眼镜的其他可穿戴设备可以包括传感器,通过这些传感器来得平移的头部运动。作为另一个示例,诸如智能手表的其他可穿戴设备可以包括传感器,通过这些传感器来获得平移运动。因此,本公开中描述的技术不应限于特定类型的可穿戴设备,而是任何可穿戴设备都可以被配置为执行本公开中描述的技术。
图6A和图6B是示出可执行本公开中描述的技术的各个方面的示例系统的图。图6A示出了其中源设备12C还包括相机600的示例。相机600可以被配置为捕获视频数据,并将捕获的原始视频数据提供给内容捕获设备20。内容捕获设备20可以将视频数据提供给源设备12C的另一个组件,以进一步处理成视口划分(viewport-divided)的部分。
在图6A的示例中,内容消费者设备14C还包括VR设备1100。将理解的是,在各种具体实施方式中,VR设备1100可以被包括在内容消费者设备14C中或从外部与其耦接。VR设备1100包括用于输出视频数据(例如,与各种视口相关联)和用于渲染音频数据的显示硬件和扬声器硬件。
图6B示出了一个示例,其中图6A中所示的音频渲染器32被能够使用一个或多个HRTF或能够渲染到左、右扬声器馈送43的其他函数来执行双耳渲染的双耳渲染器42所代替。内容消费者设备14D的音频回放系统16C可以将左、右扬声器馈送43输出到头戴式耳机48。
头戴式耳机48可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其他形式的有线连接)或无线地(诸如通过BluetoothTM连接、无线网络连接等)耦接到音频回放系统16B。头戴式耳机48可以基于左、右扬声器馈送43重新创建由音频数据19’表示的声场。头戴式耳机48可以包括左头戴式耳机扬声器和右头戴式耳机扬声器,它们由对应的左、右扬声器馈送43供电(或换言之,驱动)。应当注意,内容消费者设备14C和内容消费者设备14D可以与图1C的源设备12B一起使用。
图7是示出图1A至图1C的示例中所示的源设备和内容消费者设备中的一个或多个的示例组件的框图。在图7的示例中,设备710包括处理器712(其可以被称为“一个或多个处理器”或“(一个或多个)处理器”)、图形处理单元(GPU)714、系统存储器716、显示处理器718、一个或多个集成扬声器740、显示器703、用户界面720、天线721和收发器模块722。在设备710是移动设备的示例中,显示处理器718是移动显示处理器(MDP)。在一些示例中,诸如在设备710是移动设备的示例中,处理器712、GPU 714和显示处理器718可以被形成为集成电路(IC)。
例如,IC可以被认为是芯片封装内的处理芯片,并且可以是片上系统(SoC)。在一些示例中,处理器712、GPU 714和显示处理器718中的两个可以一起容纳在同一IC中,而另一个可以容纳在不同的集成电路中(例如不同的芯片封装),或者所有三个可以容纳在不同的IC中或在同一IC上。然而,在设备710是移动设备的示例中,处理器712、GPU 714和显示处理器718可以都容纳在不同的集成电路中。
处理器712、GPU 714和显示处理器718的示例包括但不限于一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等效的集成或分立逻辑电路。处理器712可以是设备710的中央处理单元(CPU)。在一些示例中,GPU 714可以是专门硬件,其包括为GPU 714提供适合图形处理的大规模并行处理能力的集成和/或分立逻辑电路。在一些情况下,GPU 714还可以包括通用处理能力,并且在实现通用处理任务(例如非图形相关任务)时可以被称为通用GPU(GPGPU)。显示处理器718也可以是专门的集成电路硬件,其被设计为从系统存储器716检索图像内容、将图像内容组合成图像帧,并将图像帧输出到显示器703。
处理器712可以执行各种类型的应用。应用的示例包括网络浏览器、电子邮件应用、电子表格、视频游戏、生成用于显示的可视对象的其他应用、或以上更详细列出的任何应用类型。系统存储器716可以存储用于执行应用的指令。在处理器712上执行应用中的一个应用使处理器712产生要显示的图像内容的图形数据和(可能经由集成扬声器740)要播放的音频数据19。处理器712可以将图像内容的图形数据传输到GPU 714,以用于基于处理器712传输到GPU 714的指令或命令进行进一步处理。
处理器712可以根据特定应用处理接口(API)与GPU 714通信。此类API的示例包括的API、Khronos组的或OpenGL以及OpenCLTM;然而,本公开的各方面不限于DirectX、OpenGL或OpenCL的API,并且可以扩展到其他类型的API。此外,本公开中描述的技术不需要根据API起作用,并且处理器712和GPU 714可以利用任何过程进行通信。
系统存储器716可以是用于设备710的存储器。系统存储器716可以包括一个或多个计算机可读存储介质。系统存储器716的示例包括但不限于随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、闪速存储器、或者可用于携载或存储以可以由计算机或处理器访问的指令和/或数据结构的形式的期望程序代码的其他介质。
在一些示例中,系统存储器716可以包括使处理器712、GPU 714和/或显示处理器718执行本公开中归于处理器712、GPU 714和/或显示处理器718的功能的指令。因此,系统存储器716可以是其上存储有指令的计算机可读存储介质,指令在被执行时使一个或多个处理器(例如,处理器712、GPU 714和/或显示处理器718)执行各种功能。
系统存储器716可以包括非暂时性存储介质。术语“非暂时性”表示存储介质不以载波或传播信号来体现。然而,术语“非暂时性”不应被解释为表示系统存储器716是不可移动的或其内容是静态的。作为一个示例,系统存储器716可以从设备710移除并且移动到另一设备。作为另一个示例,基本上类似于系统存储器716的存储器可以被插入到设备710中。在某些示例中,非暂时性存储介质可以存储可以随时间改变的数据(例如,在RAM中)。
用户界面720可以表示一个或多个硬件或虚拟(意为硬件和软件的组合)用户界面,用户可以通过这些用户界面与设备710交互。用户界面720可以包括物理按钮、开关、切换键、灯或其虚拟版本。用户界面720还可以包括物理或虚拟键盘、触摸界面(诸如触摸屏)、触觉反馈等。
处理器712可以包括一个或多个硬件单元(包括所谓的“处理核心”),其被配置为执行上文关于内容创建者设备和/或内容消费者设备的任何模块、单元或其他功能组件中的一个或多个所讨论的操作的全部或部分。天线721和收发器模块722可以表示被配置为在源设备12和内容消费者设备14之间建立和维持连接的单元。天线721和收发器模块722可以表示能够根据一种或多种无线通信协议(诸如第五代(5G)蜂窝标准、诸如蓝牙TM的个人区域网络(PAN)协议,或其他开源、专有或其他通信标准)进行无线通信的一个或多个接收器和/或一个或多个发送器。例如,收发器模块722可以接收和/或发送无线信号。收发器模块722可以表示单独的发送器、单独的接收器、单独的发送器和单独的接收器两者、或组合的发送器和接收器。天线721和收发器模块722可以被配置为接收经编码的音频数据。同样地,天线721和收发器模块722可以被配置为发送经编码的音频数据。
图8A至图8C是示出图1A至图1C的示例中所示的流选择单元44在执行流选择技术的各个方面时的示例操作的流程图。首先参考图8A的示例,流选择单元44可以从所有启用的音频元件(也称为接收器)获得音频流27,其中音频流27可以包括对应的信息(例如,元数据),诸如ALI 45A(800)。流选择单元44可以关于每个音频流27执行能量分析,以计算相应的能量图(802)。
流选择单元44接下来可以基于与音频源308的接近度(如由音频源距离306A和/或306B所定义的)和与音频元件的接近度(如通过上面讨论的接近距离所定义的),在音频元件(在CM 47中定义)的不同组合中进行迭代(804),并且该过程可以返回到802。如图8A所示,音频元件可以被排序或以其他方式与不同的访问权限相关联。流选择单元44可以基于由DLI 45B表示的收听者位置(这是指代“虚拟位置”或“设备位置”的另一种方式)和由ALI45A表示的音频元件位置,按照上述方式进行迭代,以识别是需要更大的音频流27子集还是缩小的音频流27子集(806、808)。
当需要更大的音频流27子集时,流选择单元44可以向音频数据19’添加(一个或多个)音频元件,或者换言之,添加附加的音频流(诸如当用户更接近图3A的示例中的音频源时)(810)。当需要缩小的音频流27子集时,流选择单元44可以从音频数据19’中移除(一个或多个)音频元件,或者换言之,移除现有的(一个或多个)音频流(诸如当用户离图3A的示例中的音频源较远时)(812)。
在一些示例中,流选择单元44可以确定音频元件的当前星座是最佳集合(或者,换言之,现有音频数据19’将保持相同,因为本文描述的选择过程导致相同的音频数据19’)(804),并且该过程可以返回到802。然而,当音频流被添加到音频数据19’或从其中移除时,流选择单元44可以更新CM 47(814),生成星座历史(815)(包括位置、能量图等)。
另外,流选择单元44可以确定隐私设置是启用还是禁用音频元件的添加(其中隐私设置可以指限制对音频流27中的一个或多个音频流的访问的数字访问权限,例如,通过密码、授权级别或等级、时间等)(816、818)。当隐私设置启用音频元件的添加时,流选择单元44可以将(一个或多个)音频元件添加到更新的CM 47(其指的是将(一个或多个)音频流添加到音频数据19’)(820)。当隐私设置禁用音频元件的添加时,流选择单元44可以从更新的CM 47中移除(一个或多个)音频元件(其指的是从音频数据19’中移除(一个或多个)音频流)(822)。以此方式,流选择单元44可以识别启用的音频元件的新集合(824)。
流选择单元44可以以这种方式迭代并根据任何给定频率更新各种输入。例如,流选择单元44可以以用户界面速率更新隐私设置(意味着通过经由用户界面输入的更新来驱动更新)。作为另一示例,流选择单元44可以以传感器速率更新位置(意味着通过音频元件的移动来改变位置)。流选择单元44还可以以音频帧速率更新能量图(意味着能量图每帧更新)。
接下来参考图8B的示例,除了流选择单元44可以不基于能量图来确定CM 47之外,流选择单元44可以以上文关于图8A描述的方式操作。因此,流选择单元44可以从所有启用的音频元件获得音频流27,其中音频流27可以包括对应的信息(例如,元数据),诸如ALI45A(840)。流选择单元44可以确定隐私设置是启用还是禁用音频元件的添加(其中隐私设置可以指限制对音频流27中的一个或多个的访问的数字访问权限,例如,通过密码、授权级别或等级、时间等)(842、844)。
当隐私设置启用音频元件的添加时,流选择单元44可以将(一个或多个)音频元件添加到更新的CM 47(其指的是将(一个或多个)音频流添加到音频数据19’)(846)。当隐私设置禁用音频元件的添加时,流选择单元44可以从更新的CM 47中移除(一个或多个)音频元件(其指的是从音频数据19’中移除(一个或多个)音频流)(848)。以此方式,流选择单元44可以识别启用的音频元件的新集合(850)。流选择单元44可以对CM 47中的音频元件的不同组合进行迭代(852),以确定表示音频数据19’的星座图历史(854)。
流选择单元44可以以这种方式迭代并根据任何给定频率更新各种输入。例如,流选择单元44可以以用户界面速率更新隐私设置(意味着通过经由用户界面输入的更新来驱动更新)。作为另一示例,流选择单元44可以以传感器速率更新位置(意味着通过音频元件的移动来改变位置)。
接下来参考图8C的示例,除了流选择单元44可以不基于启用隐私设置的音频元件来确定CM 47之外,流选择单元44可以以上文关于图8A描述的方式操作。因此,流选择单元44可以从所有启用的音频元件获得音频流27,其中音频流27可以包括对应的信息(例如,元数据),诸如ALI 45A(860)。流选择单元44可以关于每个音频流27执行能量分析以计算相应的能量图(862)。
流选择单元44接下来可基于与音频源308的接近度(如由音频源距离306A和/或306B所定义的)和与音频元件的接近度(如通过上面讨论的接近距离所定义的),对音频元件(在CM 47中定义)的不同组合进行迭代(864),并且该过程可以返回到862。如图8C所示,音频元件可以被排序或以其他方式与不同的访问权限相关联。流选择单元44可以基于由DLI 45B表示的收听者位置(其同样是指代以上所讨论的“虚拟位置”或“设备位置”的另一种方式)和由ALI 45A表示的音频元件位置,按照上述方式进行迭代,以识别是需要更大的音频流27子集还是缩小的音频流27子集(866、868)。
当需要更大的音频流27子集时,流选择单元44可以向音频数据19’添加(一个或多个)音频元件,或者换言之,添加附加的(一个或多个)音频流(诸如当用户更接近图3A的示例中的音频源时)(870)。当需要缩小的音频流27子集时,流选择单元44可以从音频数据19’中移除(一个或多个)音频元件,或者换言之,移除现有的(一个或多个)音频流(诸如当用户离图3A的示例中的音频源较远时)(872)。
在一些示例中,流选择单元44可以确定音频元件的当前星座是最佳集合(或者,换言之,现有音频数据19’将保持相同,因为本文描述的选择过程导致相同的音频数据19’)(864),并且该过程可以返回到862。然而,当音频流被添加到音频数据19’或从其中移除时,流选择单元44可以更新CM 47(874),生成星座历史(875)。
流选择单元44可以以这种方式迭代并根据任何给定频率更新各种输入。例如,流选择单元44可以以传感器速率更新位置(意味着通过音频元件的移动来改变位置)。流选择单元44还可以以音频帧速率更新能量图(意味着能量图每帧更新)。
应当认识到,根据示例,本文描述的任何技术的某些动作或事件可以以不同的顺序执行,可以添加、合并或完全省略(例如,并非所有描述的动作或事件是技术实践所必需的)。而且,在某些示例中,动作或事件可以同时执行,例如通过多线程处理、中断处理或多个处理器,而不是顺序执行。
在一些示例中,VR设备(或流设备)可以使用耦接到VR/流设备的存储器的网络接口与外部设备传送交换消息,其中交换消息与声场的多个可用表示相关联。在一些示例中,VR设备可以使用耦接到网络接口的天线接收无线信号,该无线信号包括与声场的多个可用表示相关联的数据包、音频包、视频包或传输协议数据。在一些示例中,一个或多个麦克风阵列可以捕获声场。
在一些示例中,存储到存储器设备的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的高阶环绕声表示、声场的混合阶环绕声表示、声场的基于对象的表示与声场的高阶环绕声表示的组合、声场的基于对象的表示与声场的混合阶环绕声表示的组合,或声场的混合阶表示与声场的高阶环绕声表示的组合。
在一些示例中,声场的多个可用表示中的一个或多个声场表示可以包括至少一个高分辨率区域和至少一个较低分辨率区域,并且其中基于转向角的所选择的表示关于至少一个高分辨率区域提供较大的空间精度,且关于较低分辨率区域提供较小的空间精度。
图9示出了根据本公开的各方面的支持隐私限制的无线通信系统100的示例。无线通信系统100包括基站105、UE 115和核心网络130。在一些示例中,无线通信系统100可以是长期演进(LTE)网络、高级LTE(LTE-A)网络、LTE-A Pro网络、第五代(5G)蜂窝网络或新无线电(NR)网络。在一些情况下,无线通信系统100可以支持增强的宽带通信、超可靠(例如,关键任务)通信、低延迟通信,或与低成本和低复杂度设备的通信。
基站105可以经由一个或多个基站天线与UE 115无线通信。本文描述的基站105可以包括或者可以被本领域技术人员称为基站收发器、无线电基站、接入点、无线电收发器、NodeB、eNodeB(eNB)、下一代NodeB或giga-NodeB(任一个都可以称为gNB)、家庭NodeB、家庭eNodeB或其他一些合适的术语。无线通信系统100可以包括不同类型的基站105(例如,宏小区基站或小小区基站)。本文描述的UE 115可以能够与各种类型的基站105和网络设备进行通信,包括宏eNB、小小区eNB、gNB、中继基站等。
每个基站105可以与其中支持与各种UE 115的通信的特定地理覆盖区域110相关联。每个基站105可以经由通信链路125为相应的地理覆盖区域110提供通信覆盖,并且基站105和UE 115之间的通信链路125可以利用一个或多个载波。无线通信系统100中所示出的通信链路125可以包括从UE 115到基站105的上行链路传输,或者从基站105到UE 115的下行链路传输。下行链路传输也可以称为前向链路传输,而上行链路传输也可以称为反向链路传输。
基站105的地理覆盖区域110可以被划分为构成地理覆盖区域110的一部分的扇区,并且每个扇区可以与小区相关联。例如,每个基站105可以提供针对宏小区、小小区、热点或其他类型的小区或其各种组合的通信覆盖。在一些示例中,基站105可以是可移动的,并且因此为移动的地理覆盖区域110提供通信覆盖。在一些示例中,与不同技术相关联的不同地理覆盖区域110可以重叠,并且与不同技术相关联的重叠地理覆盖区域110可以由同一基站105或不同基站105来支持。无线通信系统100可以包括例如异构LTE/LTE-A/LTE-APro、5G蜂窝或NR网络,其中不同类型的基站105为各个地理覆盖区域110提供覆盖。
UE 115可以分散在整个无线通信系统100中,并且每个UE 115可以是固定的或移动的。UE 115也可以被称为移动设备、无线设备、远程设备、手持设备或订户设备,或一些其他合适的术语,其中“设备”也可以被称为单元、站、终端或客户端。UE 115还可以是个人电子设备,诸如蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或个人计算机。在本公开的示例中,UE 115可以是本公开中描述的任何音频源,包括VR耳机、XR耳机、AR耳机、车辆、智能电话、麦克风、麦克风阵列、或包括麦克风或能够传输捕获和/或合成的音频流的任何其他设备。在一些示例中,合成音频流可以是存储在存储器中的或先前创建或合成的音频流。在一些示例中,UE 115还可以指代无线本地环路(WLL)站、物联网(IoT)设备、万物互联(IoE)设备或机器类型通信(MTC)设备等,它们可以在诸如电器、车辆、仪表等的各种制品中实现。
诸如MTC或IoT设备的一些UE 115可以是低成本或低复杂度的设备,并且可以提供机器之间的自动化通信(例如,经由机器到机器(M2M)通信)。M2M通信或MTC可以指允许设备在无需人工干预的情况下彼此进行通信或与基站105进行通信的数据通信技术。在一些示例中,M2M通信或MTC可以包括来自设备的通信,这些设备交换和/或使用指示隐私区和/或授权级别的信息(例如,元数据),影响各种音频流和/或音频源的增益和/或置空,如关于图4A至图4H所描述的。
在一些情况下,UE 115还可以能够直接与其他UE 115通信(例如,使用点对点(P2P)或设备对设备(D2D)协议)。利用D2D通信的UE 115组中的一个或多个UE可以在基站105的地理覆盖区域110内。这样的组中的其他UE 115可能在基站105的地理覆盖区域110之外,或者在其他方面无法接收来自基站105的传输。在一些情况下,经由D2D通信进行通信的UE 115组可以利用一对多(1:M)系统,其中每个UE 115向组中的每个其他UE 115发送。在一些情况下,基站105促进对用于D2D通信的资源的调度。在其他情况下,D2D通信在UE 115之间执行而无需基站105的参与。
基站105可以与核心网络130通信以及彼此进行通信。例如,基站105可以通过回传链路132(例如,经由S1、N2、N3或其他接口)与核心网络130接口。基站105可以直接(例如,直接在基站105之间)或间接(例如,经由核心网络130)通过回传链路134(例如,经由X2、Xn或其他接口)彼此通信。
在一些情况下,无线通信系统100可以利用许可的和未许可的无线电频谱频段。例如,无线通信系统100可以在诸如5GHz工业、科学、医疗(ISM)频段之类的未许可频段中使用许可辅助访问(LAA)、LTE未许可(LTE-U)无线电访问技术或NR技术。当在未许可的无线电频谱频段中操作时,诸如基站105和UE 115之类的无线设备可以采用对话前监听(LBT)过程来确保在发送数据之前频率信道是畅通的。在一些情况下,未许可频段中的操作可以基于载波聚合配置与在许可频段(例如LAA)中操作的分量载波的结合。未许可频谱中的操作可以包括下行链路传输、上行链路传输、点对点传输或这些的组合。未许可频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或两者的组合。
本公开包括以下示例。
示例1.一种被配置为播放多个音频流中的一个或多个音频流的设备,该设备包括:存储器,该存储器被配置为存储多个音频流和对应的包括每个音频流的授权级别的音频元数据、以及与在其中捕获了多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息;以及一个或多个处理器,该一个或多个存储器耦接到存储器,并且被配置为:基于音频元数据中的授权级别和定位信息,选择多个音频流的子集,该多个音频流的子集排除多个音频流中的至少一个音频流。
示例2.根据示例1所述的设备,其中一个或多个处理器还被配置为获得定位信息。
示例3.根据示例2所述的设备,其中一个或多个处理器通过从存储器读取定位信息来获得定位信息。
示例4.根据示例2所述的设备,其中被排除的流与一个或多个隐私区相关联,并且一个或多个处理器通过确定定位信息来获得定位信息。
示例5.根据示例1至4的任意组合所述的设备,其中一个或多个处理器还被配置为将多个音频流的子集输出到一个或多个扬声器。
示例6.根据示例1至5的任意组合所述的设备,其中一个或多个处理器还被配置为基于音频元数据中的授权级别改变多个音频流的子集中的一个或多个音频流的增益。
示例7.根据示例1至6的任意组合所述的设备,其中一个或多个微处理器还被配置为基于音频元数据中的授权级别和与声学空间的坐标相关联的定位信息来确定隐私区。
示例8.根据示例7所述的设备,其中一个或多个微处理器还被配置为通过获得隐私区来确定隐私区。
示例9.根据示例1至6的任意组合所述的设备,其中一个或多个微处理器还被配置为基于音频元数据中的授权级别和与声学空间的坐标相关联的定位信息来生成隐私区。
示例10.根据示例1至9的任意组合所述的设备,其中一个或多个微处理器还被配置为向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号。
示例11.根据示例1至10的任意组合所述的设备,其中一个或多个处理器还被配置为组合多个音频流的子集中的至少两个音频流。
示例12.根据示例11所述的设备,其中一个或多个处理器通过混合或插值中的至少一种来组合多个音频流的子集中的至少两个音频流。
示例13.根据示例1至12的任意组合所述的设备,其中一个或多个处理器还被配置为覆盖音频元数据中的授权级别。
示例14.根据示例13所述的设备,其中一个或多个处理器被配置为:基于音频元数据中的授权级别被覆盖,将多个音频流输出到一个或多个扬声器。
示例15.根据示例1至14的任意组合所述的设备,其中音频元数据中的授权级别是从源设备接收的。
示例16.根据示例1至15的任意组合所述的设备,其中一个或多个处理器还被配置为生成音频元数据中的授权级别。
示例17.根据示例1至16的任意组合所述的设备,还包括显示设备。
示例18.根据示例17所述的设备,还包括麦克风,其中一个或多个处理器还被配置为从麦克风接收语音命令,并基于语音命令控制显示设备。
示例19.根据示例1至18的任意组合所述的设备,还包括一个或多个扬声器。
示例20.根据示例1至19的任意组合所述的设备,其中该设备包括扩展现实耳机,并且其中声学空间包括由相机捕获的视频数据表示的场景。
示例21.根据示例1至19的任意组合所述的设备,其中该设备包括扩展现实耳机,并且其中声学空间包括虚拟世界。
示例22.根据示例1至21的任意组合所述的设备,还包括被配置为呈现声学空间的头戴式设备。
示例23.根据示例1至19的任意组合所述的设备,其中该设备包括移动手持机。
示例24.根据示例1至23的任意组合所述的设备,还包括无线收发器,该无线收发器耦接到一个或多个处理器并且被配置为接收无线信号。
示例25.根据示例24所述的设备,其中无线信号是蓝牙(Bluetooth)。
示例26.根据示例24所述的设备,其中无线信号符合第五代(5G)蜂窝协议。
示例27.一种播放多个音频流中的一个或多个音频流的方法,包括:由存储器存储多个音频流和对应的包括每个音频流的授权级别的音频元数据、以及与在其中捕获了多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息;以及由一个或多个处理器并且基于音频元数据的授权级别和定位信息,选择多个音频流的子集,该多个音频流的子集排除多个音频流中的至少一个音频流。
示例28.根据示例27所述的方法,还包括由一个或多个处理器获得定位信息。
示例29.根据示例28所述的方法,其中通过从存储器读取定位信息来获得定位信息。
示例30.根据示例28所述的方法,其中通过确定定位信息来获得定位信息,并且其中被排除的流与一个或多个隐私区相关联。
示例31.根据示例27至30的任意组合所述的方法,还包括由一个或多个处理器将多个音频流的子集输出到一个或多个扬声器。
示例32.根据示例27至31的任意组合所述的方法,还包括由一个或多个处理器基于音频元数据中的授权级别改变多个音频流的子集中的一个或多个音频流的增益。
示例33.根据示例27至32的任意组合所述的方法,还包括由一个或多个处理器基于音频元数据中的授权级别和与声学空间的坐标相关联的定位信息来确定隐私区。
示例34.根据示例33所述的方法,其中通过获得隐私区来确定隐私区。
示例35.根据示例27至34的任意组合所述的方法,还包括由一个或多个处理器基于音频元数据中的授权级别和与声学空间的坐标相关联的定位信息生成隐私区。
示例36.根据示例27至35的任意组合所述的方法,还包括由一个或多个处理器向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号。
示例37.根据示例27至36的任意组合所述的方法,还包括由一个或多个处理器组合多个音频流的子集中的至少两个音频流。
示例38.根据示例37所述的方法,其中通过混合或插值中的至少一种来组合多个音频流的子集中的至少两个音频流。
示例39.根据示例27至38的任意组合所述的方法,还包括由一个或多个处理器覆盖音频元数据中的授权级别。
示例40.根据示例39所述的方法,还包括由一个或多个处理器基于音频元数据中的授权级别被覆盖将多个音频流输出到一个或多个扬声器。
示例41.根据示例27至40的任意组合所述的方法,还包括从源设备接收授权级别。
示例42.根据示例27至41的任意组合所述的方法,还包括由一个或多个处理器生成授权级别。
示例43.根据示例27至42的任意组合所述的方法,还包括从麦克风接收语音命令,并基于该语音命令控制显示设备。
示例44.根据示例27至43的任意组合所述的方法,还包括将多个音频流的子集输出到一个或多个扬声器。
示例45.根据示例27至44的任意组合所述的方法,其中在扩展现实耳机上执行该方法,并且其中声学空间包括由相机捕获的视频数据表示的场景。
示例46.根据示例27至45的任意组合所述的方法,其中在扩展现实耳机上执行该方法,并且其中声学空间包括虚拟世界。
示例47.根据示例27至46的任意组合所述的方法,其中在被配置为呈现声学空间的头戴式设备上执行该方法。
示例48.根据示例27至47的任意组合所述的方法,其中在移动手持机上执行该方法。
示例49.根据示例27至48的任意组合所述的方法,还包括接收无线信号。
示例50.根据示例49所述的方法,其中无线信号是蓝牙(Bluetooth)。
示例51.根据示例49所述的方法,其中无线信号符合第五代(5G)蜂窝协议。
示例52.一种被配置为播放多个音频流中的一个或多个音频流的设备,该设备包括:用于存储多个音频流和对应的包括每个音频流的授权级别的音频元数据、以及与在其中捕获了多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息的部件;以及用于基于音频元数据中的授权级别和定位信息,选择多个音频流的子集的部件,该多个音频流的子集排除多个音频流中的至少一个音频流。
示例53.根据示例52所述的设备,还包括用于获得定位信息的部件。
示例54.根据示例53所述的设备,其中通过从存储器读取定位信息来获得定位信息。
示例55.根据示例53所述的设备,其中通过确定定位信息来获得定位信息,并且其中被排除的流与一个或多个隐私区相关联。
示例56.根据示例52至55的任意组合所述的设备,还包括用于将多个音频流的子集输出到一个或多个扬声器的部件。
示例57.根据示例52至56的任意组合所述的设备,还包括用于基于音频元数据中的授权级别改变多个音频流的子集中的一个或多个音频流的增益的部件。
示例58.根据示例52至57的任意组合所述的设备,还包括用于基于音频元数据中的授权级别和与声学空间的坐标相关联的定位信息来确定隐私区的部件。
示例59.根据示例58所述的设备,其中通过获得隐私区来确定隐私区。
示例60.根据示例52至59的任意组合所述的设备,还包括用于基于音频元数据中的授权级别和与声学空间的坐标相关联的定位信息生成隐私区的部件。
示例61.根据示例52至60的任意组合所述的设备,还包括用于向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号的部件。
示例62.根据示例52至61的任意组合所述的设备,还包括用于组合多个音频流的子集中的至少两个音频流的部件。
示例63.根据示例62所述的设备,其中通过混合或插值中的至少一种来组合多个音频流的子集中的至少两个音频流。
示例64.根据示例52至63的任意组合所述的设备,还包括用于覆盖音频元数据中的授权级别的部件。
示例65.根据示例64所述的设备,还包括用于基于音频元数据中的授权级别被覆盖将多个音频流输出到一个或多个扬声器的部件。
示例66.根据示例52至65的任意组合所述的设备,还包括用于从源设备接收授权级别的部件。
示例67.根据示例52至66的任意组合所述的设备,还包括用于生成授权级别的部件。
示例68.根据示例和示例52至67的组合的设备,还包括用于从麦克风接收语音命令的部件和用于基于语音命令控制显示设备的部件。
示例69.根据示例52至68的任意组合所述的设备,还包括用于将多个音频流的子集输出到一个或多个扬声器的部件。
示例70.根据示例52至69的任意组合所述的设备,其中该设备包括扩展现实耳机,并且其中声学空间包括由相机捕获的视频数据表示的场景。
示例71.根据示例52至70的任意组合所述的设备,其中该设备包括扩展现实耳机,并且其中声学空间包括虚拟世界。
示例72.根据示例52至71的任意组合所述的设备,其中该设备包括被配置为呈现声学空间的头戴式设备。
示例73.根据示例52至69的任意组合所述的设备,其中该设备包括移动手持机。
示例74.根据示例52至73的任意组合所述的设备,还包括用于接收无线信号的部件。
示例75.根据示例74所述的设备,其中无线信号是蓝牙(Bluetooth)。
示例76.根据示例74所述的设备,其中无线信号符合第五代(5G)蜂窝协议。
示例77.一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器:存储多个音频流和对应的包括每个音频流的授权级别的音频元数据、以及与在其中捕获了多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息;以及基于音频元数据中的授权级别和定位信息,选择多个音频流的子集,该多个音频流的子集排除多个音频流中的至少一个音频流。
示例78.根据示例77所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器获得定位信息。
示例79.根据示例78所述的非暂时性计算机可读存储介质,其中一个或多个处理器通过从存储器读取定位信息来获得定位信息。
示例80.根据示例78所述的非暂时性计算机可读存储介质,其中被排除的流与一个或多个隐私区相关联,并且一个或多个处理器通过确定定位信息来获得定位信息。
示例81.根据示例77至80的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器将多个音频流的子集输出到一个或多个扬声器。
示例82.根据示例77至81的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器基于音频元数据中的授权级别改变多个音频流的子集中的一个或多个音频流的增益。
示例83.根据示例77至82的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器基于音频元数据中的授权级别和与声学空间的坐标相关联的定位信息来确定隐私区。
示例84.根据示例83所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器通过获得隐私区来确定隐私区。
示例85.根据示例77至84的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器基于音频元数据中的授权级别和与声学空间的坐标相关联的定位信息生成隐私区。
示例86.根据示例77至85的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号。
示例87.根据示例77至86的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器组合多个音频流的子集中的至少两个音频流。
示例88.根据示例87所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器通过混合或插值中的至少一种来组合多个音频流的子集中的至少两个音频流。
示例89.根据示例77至88的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器覆盖音频元数据中的授权级别。
示例90.根据示例89所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器基于音频元数据中的授权级别被覆盖将多个音频流输出到一个或多个扬声器。
示例91.根据示例77至90的任意组合所述的非暂时性计算机可读存储介质,其中音频元数据中的授权级别是从源设备接收的。
示例92.根据示例77至91的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器生成音频元数据中的授权级别。
示例93.根据示例77至92中任一项所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器基于语音命令来控制显示设备。
示例94.根据示例77至93的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器将多个音频流的子集输出到一个或多个扬声器。
示例95.根据示例77至95的任意组合所述的非暂时性计算机可读存储介质,其中声学空间包括由相机捕获的视频数据表示的场景。
示例96.根据示例77至95的任意组合所述的非暂时性计算机可读存储介质,其中声学空间包括虚拟世界。
示例97.根据示例77至96的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器在头戴式设备上呈现声学空间。
示例98.根据示例77至96的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器在移动手持机上呈现声学空间。
示例99.根据示例77至98的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器接收无线信号。
示例100.根据示例99所述的非暂时性计算机可读存储介质,其中无线信号是蓝牙(Bluetooth)。
示例101.根据示例99所述的非暂时性计算机可读存储介质,其中无线信号符合第五代(5G)蜂窝协议。
示例102.一种被配置为播放源自源的多个音频流中的一个或多个音频流的设备,该设备包括:存储器,该存储器被配置为存储多个联系人、多个音频流和对应的音频元数据、以及与在其中捕获了多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息;以及一个或多个处理器,该一个或多个存储器耦接到存储器,并且被配置为:确定源是否与多个联系人中的一个联系人相关联;以及当源不与多个联系人中的一个联系人相关联时,基于定位信息选择多个音频流的子集,该多个音频流的子集排除多个音频流中的至少一个音频流。
示例103.根据示例102所述的设备,其中一个或多个处理器还被配置为获得定位信息。
示例104.根据示例102至103的任意组合所述的设备,其中一个或多个处理器还被配置为将多个音频流的子集输出到一个或多个扬声器。
示例105.根据示例102至104的任意组合所述的设备,其中一个或多个处理器还被配置为基于源是否与多个联系人中的一个联系人相关联来改变多个音频流的子集的增益。
示例106.根据示例102至105的任意组合所述的设备,其中一个或多个微处理器还被配置为获得隐私区。
示例107.根据示例102至105的任意组合所述的设备,其中一个或多个微处理器还被配置为基于源是否不与多个联系人中的一个联系人相关联以及与声学空间的坐标相关联的定位信息来确定隐私区。
示例108.根据示例102至107的任意组合所述的设备,其中一个或多个微处理器还被配置为基于源是否不与多个联系人中的一个联系人相关联以及与声学空间的坐标相关联的定位信息来生成隐私区。
示例109.根据示例102至108的任意组合所述的设备,其中一个或多个微处理器还被配置为向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号。
示例110.根据示例102至109的任意组合所述的设备,其中一个或多个处理器还被配置为组合多个音频流的子集中的至少两个音频流。
示例111.根据示例110所述的设备,其中一个或多个处理器通过混合或插值中的至少一种来组合多个音频流的子集中的至少两个音频流。
示例112.根据示例102至111的任意组合所述的设备,其中一个或多个微处理器还被配置为向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号。
示例113.根据示例102至112的任意组合所述的设备,其中多个联系人包括好感度等级排序。
示例114.根据示例113所述的设备,其中一个或多个处理器还被配置为:确定源设备是否与多个联系人中具有至少预定好感度等级排序的一个联系人相关联;以及当源不与多个联系人中具有至少预定好感度等级排序的一个联系人相关联时,选择多个音频流的子集。
示例115.根据示例102至114的任意组合所述的设备,还包括显示设备。
示例116.根据示例102至115的任意组合所述的设备,还包括麦克风,其中一个或多个处理器还被配置为从麦克风接收语音命令并基于语音命令控制显示设备。
示例117.根据示例102至116的任意组合所述的设备,还包括一个或多个扬声器。
示例118.根据示例102至117的任意组合所述的设备,其中该设备包括扩展现实耳机,并且其中声学空间包括由相机捕获的视频数据表示的场景。
示例119.根据示例102至117的任意组合所述的设备,其中该设备包括扩展现实耳机,并且其中声学空间包括虚拟世界。
示例120.根据示例102至119的任意组合所述的设备,还包括被配置为呈现声学空间的头戴式设备。
示例121.根据示例102至117的任意组合所述的设备,其中该设备包括移动手持机。
示例122.根据示例102至121的任意组合所述的设备,还包括无线收发器,该无线收发器耦接到一个或多个处理器并且被配置为接收无线信号。
示例123.根据示例122所述的设备,其中无线信号是蓝牙(Bluetooth)。
示例124.根据示例122所述的设备,其中无线信号符合第五代(5G)蜂窝协议。
示例125.一种播放源自源的多个音频流中的一个或多个音频流的方法,该方法包括:由存储器存储多个联系人、多个音频流和对应的音频元数据、以及与在其中捕获了多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息;以及确定源是否与多个联系人中的一个联系人相关联;以及当源不与多个联系人中的一个联系人相关联时,由一个或多个处理器并且基于定位信息选择多个音频流的子集,该多个音频流的子集排除多个音频流中的至少一个音频流。
示例126.根据示例125所述的方法,还包括由一个或多个处理器获得定位信息。
示例127.根据示例125至126的任意组合所述的方法,还包括由一个或多个处理器将多个音频流的子集输出到一个或多个扬声器。
示例128.根据示例125至127的任意组合所述的方法,还包括由一个或多个处理器基于源是否与多个联系人中的一个联系人相关联来改变多个音频流的子集的增益。
示例129.根据示例125至128的任意组合所述的方法,还包括由一个或多个处理器获得隐私区。
示例130.根据示例125至129的任意组合所述的方法,还包括由一个或多个处理器基于源是否不与多个联系人中的一个联系人相关联以及与声学空间的坐标相关联的定位信息来确定隐私区。
示例131.根据示例125至130的任意组合所述的方法,还包括由一个或多个处理器基于源是否不与多个联系人中的一个联系人相关联以及与声学空间的坐标相关联的定位信息来生成隐私区。
示例132.根据示例125至131的任意组合所述的方法,还包括向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号。
示例133.根据示例125至132的任意组合所述的方法,还包括由一个或多个处理器组合多个音频流的子集中的至少两个音频流。
示例134.根据示例133所述的方法,其中通过混合或插值中的至少一种来组合多个音频流的子集中的至少两个音频流。
示例135.根据示例125至134的任意组合所述的方法,还包括由一个或多个处理器向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号。
示例136.根据示例125至135的任意组合所述的方法,其中多个联系人包括好感度等级排序。
示例137.根据示例136所述的方法,还包括:由一个或多个处理器确定源设备是否与多个联系人中具有至少预定好感度等级排序的一个联系人相关联;以及当源不与多个联系人中具有至少预定好感度等级排序的一个联系人相关联时,选择多个音频流的子集。
示例138.根据示例125至137的任意组合所述的方法,还包括从麦克风接收语音命令并且由一个或多个处理器基于语音命令控制显示设备。
示例139.根据示例125至138的任意组合所述的方法,还包括将多个音频流的子集输出到一个或多个扬声器。
示例140.根据示例125至139的任意组合所述的方法,其中声学空间包括由相机捕获的视频数据表示的场景。
示例141.根据示例125至139的任意组合所述的方法,其中声学空间包括虚拟世界。
示例142.根据示例125至141的任意组合所述的方法,还包括在头戴式设备上呈现声学空间。
示例143.根据示例125至139的任意组合所述的方法,其中在移动手持机上执行该方法。
示例144.根据示例125至143的任意组合所述的方法,还包括接收无线信号。
示例145.根据示例144所述的方法,其中无线信号是蓝牙(Bluetooth)。
示例146.根据示例144所述的方法,其中无线信号符合第五代(5G)蜂窝协议。
示例147.一种被配置为播放源自源的多个音频流中的一个或多个音频流的设备,该设备包括:用于存储多个联系人、多个音频流和对应的音频元数据、以及与在其中捕获了多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息的部件;用于确定源是否与多个联系人中的一个联系人相关联的部件;以及用于当源不与多个联系人中的一个联系人相关联时,基于定位信息选择多个音频流的子集的部件,该多个音频流的子集排除多个音频流中的至少一个音频流。
示例148.根据示例147所述的设备,还包括用于获得定位信息的部件。
示例149.根据示例147至148的任意组合所述的设备,还包括用于将多个音频流的子集输出到一个或多个扬声器的部件。
示例150.根据示例147至149的任意组合所述的设备,还包括用于基于源是否与多个联系人中的一个联系人相关联来改变多个音频流的子集的增益的部件。
示例151.根据示例147至150的任意组合所述的设备,还包括用于获得隐私区的部件。
示例152.根据示例147至151的任意组合所述的设备,还包括用于基于源是否不与多个联系人中的一个联系人相关联以及与声学空间的坐标相关联的定位信息来确定隐私区的部件。
示例153.根据示例147至152的任意组合所述的设备,还包括用于基于源是否不与多个联系人中的一个联系人相关联以及与声学空间的坐标相关联的定位信息来生成隐私区的部件。
示例154.根据示例147至153的任意组合所述的设备,还包括用于向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号的部件。
示例155.根据示例147至154的任意组合所述的设备,还包括用于组合多个音频流的子集中的至少两个音频流的部件。
示例156.根据示例155所述的设备,其中通过混合或插值中的至少一种来组合多个音频流的子集中的至少两个音频流。
示例157.根据示例147至156的任意组合所述的设备,还包括用于向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号的部件。
示例158.根据示例147至157的任意组合所述的设备,其中多个联系人包括好感度等级排序。
示例159.根据示例158所述的设备,还包括:用于确定源设备是否与多个联系人中具有至少预定好感度等级排序的一个联系人相关联的部件;以及当源不与多个联系人中具有至少预定好感度等级排序的一个联系人相关联时,用于选择多个音频流的子集的部件。
示例160.根据示例147至159的任何组合所述的设备,还包括用于从麦克风接收语音命令的部件和用于基于语音命令控制显示设备的部件。
示例161.根据示例147至160的任意组合所述的设备,还包括用于将多个音频流的子集输出到一个或多个扬声器的部件。
示例162.根据示例147至161的任意组合所述的设备,其中声学空间包括由相机捕获的视频数据表示的场景。
示例163.根据示例147至161的任意组合所述的设备,其中声学空间包括虚拟世界。
示例164.根据示例147至163的任意组合所述的设备,还包括用于在头戴式设备上呈现声学空间的部件。
示例165.根据示例147至164的任意组合所述的设备,还包括用于在移动手持机上呈现声学空间的部件。
示例166.根据示例147至165的任意组合所述的设备,还包括用于接收无线信号的部件。
示例167.根据示例166所述的设备,其中无线信号是蓝牙(Bluetooth)。
示例168.根据示例166所述的设备,其中无线信号符合第五代(5G)蜂窝协议。
示例169.一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器:存储多个联系人、多个音频流和对应的音频元数据、以及与在其中捕获了多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息;确定源是否与多个联系人中的一个联系人相关联;以及当源不与多个联系人中的一个联系人相关联时,基于定位信息选择多个音频流的子集,该多个音频流的子集排除多个音频流中的至少一个音频流。
示例170.根据示例169所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器获得定位信息。
示例171.根据示例169至170的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器将多个音频流的子集输出到一个或多个扬声器。
示例172.根据示例169至171的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器基于源是否与多个联系人中的一个联系人相关联来改变多个音频流的子集的增益。
示例173.根据示例169至172的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器获得隐私区。
示例174.根据示例169至173的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器基于源是否不与多个联系人中的一个联系人相关联以及与声学空间的坐标相关联的定位信息来确定隐私区。
示例175.根据示例169至174的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器基于源是否不与多个联系人中的一个联系人相关联以及与声学空间的坐标相关联的定位信息来生成隐私区。
示例176.根据示例169至175的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号。
示例177.根据示例172至178的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器组合多个音频流的子集中的至少两个音频流。
示例178.根据示例177所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器通过混合或插值中的至少一种来组合多个音频流的子集中的至少两个音频流。
示例179.根据示例169至178的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号。
示例180.根据示例169至179的任意组合所述的非暂时性计算机可读存储介质,其中多个联系人包括好感度等级排序。
示例181.根据示例180所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器:确定源设备是否与多个联系人中具有至少预定好感度等级排序的一个联系人相关联;以及当源不与多个联系人中具有至少预定好感度等级排序的一个联系人相关联时,选择多个音频流的子集。
示例182.根据示例169至181的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器基于语音命令来控制显示设备。
示例183.根据示例169至182的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器将多个音频流的子集输出到一个或多个扬声器。
示例184.根据示例169至183的任意组合所述的非暂时性计算机可读存储介质,其中声学空间包括由相机捕获的视频数据表示的场景。
示例185.根据示例169至183的任意组合所述的非暂时性计算机可读存储介质,其中声学空间包括虚拟世界。
示例186.根据示例169至185的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器在头戴式设备上呈现声学空间。
示例187.根据示例169至186的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器在移动手持机上呈现声学空间。
示例188.根据示例169至187的任意组合所述的非暂时性计算机可读存储介质,其中指令在被执行时使一个或多个处理器接收无线信号。
示例189.根据示例188所述的非暂时性计算机可读存储介质,其中无线信号是蓝牙(Bluetooth)。
示例190.根据示例188所述的非暂时性计算机可读存储介质,其中无线信号符合第五代(5G)蜂窝协议。
示例191.一种设备,包括:存储器,该存储器被配置为存储多个音频流和音频流中的每一个音频流的相关联的授权级别;以及一个或多个处理器,该一个或多个处理器在电路中实现并通信地耦接到存储器,并且被配置为:基于相关联的授权级别选择多个音频流的子集,该多个音频流的子集排除多个音频流中的至少一个音频流。
示例192.根据示例191所述的设备,其中存储器还被配置为存储与在其中捕获或合成了多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息。
示例193.根据示例192所述的设备,其中设备包括扩展现实耳机,并且其中声学空间包括由相机捕获的视频数据表示的场景。
示例194.根据示例192所述的设备,其中设备包括扩展现实耳机,并且其中声学空间包括虚拟世界。
示例195.根据示例192所述的设备,其中设备包括扩展现实耳机,并且其中声学空间包括物理世界。
示例196.根据示例192所述的设备,其中所选择的多个音频流的子集进一步基于定位信息。
示例197.根据示例191至196的任意组合所述的设备,其中被排除的流与一个或多个隐私区相关联。
示例198.根据示例191至197的任意组合所述的设备,其中一个或多个处理器还被配置为将多个音频流的子集输出到一个或多个扬声器或头戴式耳机。
示例199.根据示例191至198的任意组合所述的设备,其中一个或多个处理器还被配置为基于相关联的授权级别改变多个音频流的子集中的一个或多个音频流的增益。
示例200.根据示例191至199的任意组合所述的设备,其中一个或多个处理器还被配置为将被排除的音频流置空。
示例201.根据示例191至200的任意组合所述的设备,其中一个或多个处理器还被配置为向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号。
示例202.根据示例191至201的任意组合所述的设备,其中一个或多个处理器还被配置为通过混合或插值中的至少一种来组合多个音频流的子集中的至少两个音频流。
示例203.根据示例191至202的任意组合所述的设备,其中一个或多个处理器还被配置为:从用户获得覆盖至少一个授权级别的请求;以及基于该请求,将与至少一个授权级别相关联的被排除的音频流中的至少一个音频流添加到多个音频流的子集。
示例204.根据示例203所述的设备,其中一个或多个处理器被配置为:基于将被排除的音频流中的至少一个音频流添加到多个音频流的子集,将多个音频流的子集输出到一个或多个扬声器或头戴式耳机。
示例205.根据示例191至204的任意组合所述的设备,其中从源设备接收授权级别。
示例206.根据示例191至205的任意组合所述的设备,其中一个或多个处理器还被配置为生成相关联的授权级别。
示例207.根据示例191至206的任意组合所述的设备,其中相关联的授权级别包括等级。
示例208.根据示例207所述的设备,其中一个或多个处理器通过以下方式选择多个音频流的子集:将多个音频流中的每一个音频流的等级与用户的等级进行比较;以及基于该比较选择多个音频流的子集。
示例209.根据示例191至208的任意组合所述的设备,其中存储器还被配置为存储多个联系人,并且其中相关联的授权级别基于多个联系人。
示例210.根据示例209所述的设备,其中一个或多个处理器通过以下方式选择多个音频流的子集:确定多个音频流中的一个或多个音频流的源是否与多个联系人中的一个或多个联系人相关联;以及基于比较选择多个音频流的子集。
示例211.根据示例209-210的任意组合所述的设备,其中多个联系人包括好感度等级排序,并且其中一个或多个处理器通过以下方式选择多个音频流的子集:确定多个音频流中的一个或多个音频流的源是否与多个联系人中具有至少预定好感度等级排序的一个或多个联系人相关联;以及基于比较选择多个音频流的子集。
示例212.根据示例191-211的任意组合所述的设备,其中该设备是内容消费者设备,并且当隐私区不具有相关联的授权级别时,该内容消费者设备抑制对与隐私区相关联的音频流进行解码。
示例213.根据示例191-212的任意组合所述的设备,其中该设备是内容消费者设备,并且多个音频流的子集包括基于在由一个或多个处理器解码的比特流中接收的经编码信息的再现音频流。
示例214.根据示例191-213的任意组合所述的设备,其中该设备是源设备并且多个音频流未经编码。
示例215.根据示例191-214的任意组合所述的设备,其中一个或多个处理器基于多个音频流中的至少一个音频流未对用户授权来选择多个音频流的子集,以排除多个音频流中的至少一个音频流。
示例216.根据示例191-215的任意组合所述的设备,其中相关联的授权级别包含在与每个音频流相关联的元数据中或者以其他方式在比特流中。
示例217.根据示例191至216的任意组合所述的设备,还包括显示设备。
示例218.根据示例191至217的任意组合所述的设备,还包括麦克风,其中一个或多个处理器还被配置为从麦克风接收语音命令并基于语音命令控制显示设备。
示例219.根据示例191至218的任意组合所述的设备,还包括一个或多个扬声器。
示例220.根据示例191至219的任意组合所述的设备,其中该设备包括移动手持机。
示例221.根据示例191至220的任意组合所述的设备,还包括无线收发器,无线收发器耦接到一个或多个处理器并且被配置为接收无线信号,其中无线信号为蓝牙、Wi-Fi中的一个或符合第五代(5G)蜂窝协议。
示例222.根据示例191至221的任意组合所述的设备,其中对多个音频流的子集的选择基于相关联的授权级别与设备或设备的用户的授权级别的比较。
示例223.根据示例191至222的任意组合所述的设备,其中存储器还被配置为存储与在其中捕获或合成了多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息,并且其中多个音频流中的一个音频流的授权级别基于定位信息来确定。
示例224.根据示例223所述的设备,其中在声学空间中定义多个隐私区,每个隐私区具有相关联的授权级别,其中多个音频流中的一个音频流的授权级别基于包含捕获或合成多个音频流中的一个音频流的定位的隐私区的授权级别来确定。
示例225.根据示例224所述的设备,其中多个音频流中的一个音频流的授权级别等于包含捕获或合成多个音频流中的一个音频流的定位的隐私区的授权级别。
示例226.根据示例191至225的任意组合所述的设备,其中该设备被配置为:接收多个音频流和多个音频流中的每一个音频流的相关联的授权级别;以及接收设备用户的授权级别,其中一个或多个处理器被配置为:通过选择具有不大于所接收的设备用户的授权级别的、相关联的授权级别的那些音频流来选择多个音频流的子集;以及将所选择的多个音频流的子集发送到可听输出设备,以用于所选择的多个音频流的子集的可听输出。
示例227.一种方法,包括:由存储器存储多个音频流和音频流中的每一个音频流的相关联的授权级别;以及由一个或多个处理器并基于相关联的授权级别选择多个音频流的子集,该多个音频流的子集排除多个音频流中的至少一个音频流。
示例228.根据示例227所述的方法,还包括由存储器存储与在其中捕获或合成了所述多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息。
示例229.根据示例228所述的方法,其中在扩展现实耳机上执行该方法,并且其中声学空间包括由相机捕获的视频数据表示的场景。
示例230.根据示例228所述的方法,其中在扩展现实耳机上执行该方法,并且其中声学空间包括虚拟世界。
示例231.根据示例228所述的方法,其中在被配置为呈现声学空间的头戴式设备上执行该方法。
示例232.根据示例227至231的任意组合所述的方法,其中所选择的多个音频流的子集进一步基于定位信息。
示例233.根据示例227至232的任意组合所述的方法,其中被排除的流与一个或多个隐私区相关联。
示例234.根据示例227至233的任意组合所述的方法,还包括由一个或多个处理器将多个音频流的子集输出到一个或多个扬声器或头戴式耳机。
示例235.根据示例227至234的任意组合所述的方法,还包括由一个或多个处理器基于相关联的授权级别改变多个音频流的子集中的一个或多个音频流的增益。
示例236.根据示例227至235的任意组合所述的方法,还包括由一个或多个处理器将被排除的音频流置空。
示例237.根据示例227至236的任意组合所述的方法,还包括由一个或多个处理器向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号。
示例238.根据示例227至237的任意组合所述的方法,还包括由一个或多个处理器通过混合或插值中的至少一种来组合多个音频流的子集中的至少两个音频流。
示例239.根据示例227至238的任意组合所述的方法,还包括:从用户获得覆盖至少一个授权级别的请求;以及基于该请求,由一个或多个处理器将与至少一个授权级别相关联的被排除的音频流中的至少一个音频流添加到多个音频流的子集。
示例240.根据示例227至239的任意组合所述的方法,还包括由一个或多个处理器基于将被排除的音频流中的至少一个音频流添加到多个音频流的子集,将多个音频流的子集输出到一个或多个扬声器或头戴式耳机。
示例241.根据示例227至240的任意组合所述的方法,还包括从源设备接收授权级别。
示例242.根据示例227至241的任意组合所述的方法,还包括由一个或多个处理器生成授权级别。
示例243.根据示例227至241的任意组合所述的方法,其中相关联的授权级别包括等级。
示例244.根据示例243所述的方法,其中选择多个音频流的子集包括:由一个或多个处理器将多个音频流中的每一个音频流的等级与用户的等级进行比较;并且由一个或多个处理器基于该比较选择多个音频流的子集。
示例245.根据示例227至244的任意组合所述的方法,还包括由存储器存储多个联系人,并且其中相关联的授权级别基于多个联系人。
示例246.根据示例245所述的方法,其中选择多个音频流的子集包括:由一个或多个处理器确定多个音频流中的一个或多个音频流的源是否与多个联系人中的一个或多个联系人相关联;以及由一个或多个处理器基于比较选择多个音频流的子集。
示例247.根据示例245至246的任意组合所述的方法,其中多个联系人包括好感度等级排序,并且其中选择多个音频流的子集包括:由一个或多个处理器确定多个音频流中的一个或多个音频流的源是否与多个联系人中具有至少预定好感度等级排序的一个或多个联系人相关联;以及由一个或多个处理器基于比较选择多个音频流的子集。
示例248.根据示例227至247的任意组合所述的方法,还包括当隐私区不具有相关联的授权级别时,抑制对与隐私区相关联的音频流进行解码。
示例249.根据示例227至248的任意组合所述的方法,其中多个音频流的子集包括基于在由一个或多个处理器解码的比特流中接收的经编码信息的再现音频流。
示例250.根据示例227至249的任意组合所述的方法,其中多个音频流未经编码。
示例251.根据示例227至250的任意组合所述的方法,其中基于多个音频流中的至少一个音频流未对用户授权,来选择多个音频流的子集以排除多个音频流中的至少一个音频流。
示例252.根据示例227至251的任意组合所述的方法,还包括从麦克风接收语音命令并基于该语音命令控制显示设备。
示例253.根据示例227至252的任意组合所述的方法,其中在移动手持机上执行该方法。
示例254.根据示例227至253的任意组合所述的方法,还包括接收无线信号,其中该无线信号是蓝牙或Wi-Fi中的一个,或者符合第五代(5G)蜂窝协议。
示例255.根据示例227至254的任意组合所述的方法,其中对多个音频流的子集的选择基于相关联的授权级别与设备或设备用户的授权级别的比较。
示例256.根据示例227至255的任意组合所述的方法,还包括由存储器存储与在其中捕获或合成了多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息,其中多个音频流中的一个音频流的授权级别基于定位信息来确定。
示例257.根据示例256所述的方法,其中在声学空间中定义多个隐私区,每个隐私区具有相关联的授权级别,其中多个音频流中的一个音频流的授权级别基于包含捕获或合成多个音频流中的一个音频流的定位的隐私区的授权级别来确定。
示例258.根据示例257所述的方法,其中多个音频流中的一个音频流的授权级别等于包含捕获或合成多个音频流中的一个音频流的定位的隐私区的授权级别。
示例259.根据示例227至258的任意组合所述的方法,还包括:由一个或多个处理器接收多个音频流和多个音频流中的每一个音频流的相关联的授权级别;由一个或多个处理器接收设备用户的授权级别;以及由一个或多个处理器将所选择的多个音频流的子集发送到可听输出设备,以用于所选择的多个音频流的子集的可听输出,其中选择多个音频流的子集包括选择具有不大于所接收的设备用户的授权级别的、相关联的授权级别的那些音频流。
示例260.一种设备,包括:用于存储多个音频流和音频流中的每一个音频流的相关联的授权级别的部件;以及用于基于相关联的授权级别选择多个音频流的子集的部件,该多个音频流的子集排除多个音频流中的至少一个音频流。
示例261.一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器:存储多个音频流和音频流中的每一个音频流的相关联的授权级别;以及基于相关联的授权级别选择多个音频流的子集,该多个音频流的子集排除多个音频流中的至少一个音频流。
应注意,本文描述的方法描述了可能的实施方式,并且操作和步骤可以被重新布置或以其他方式修改,并且其他实施方式也是可能的。此外,可以组合来自两种或更多种方法的方面。
在一个或多个示例中,所描述的功能可以以硬件、软件、固件或其任何组合来实现。当以软件实现时,功能可以作为一个或多个指令或代码存储在计算机可读介质或通过计算机可读介质发送,并由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质,其对应于诸如数据存储介质之类的有形介质;或者通信介质,包括有利于例如根据通信协议将计算机程序从一个地方转移到另一个地方的任何介质。以这种方式,计算机可读介质一般可以对应于(1)有形的计算机可读存储介质,其为非暂时性的;或(2)通信介质,诸如信号或载波。数据存储介质可以是可由一个或多个计算机或一个或多个处理器访问以检索用于实现本公开中所述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。
以举例的方式而非限制,此类计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他的光盘存储、磁盘存储或其他磁性存储设备、闪速存储器,或者可以用于存储采用指令或数据结构形式的所需程序代码、并且可以通过计算机访问的任何其他介质。另外,任何连接都适当地称为计算机可读介质。例如,当指令是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或诸如红外、无线电和微波之类的无线技术从网站、服务器或其他远程源发送时,可以将同轴电缆、光纤电缆、双绞线、DSL或诸如红外、无线电和微波之类的无线技术包括在介质的定义中。然而,应当理解,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂时性介质,而是涉及非暂时性、有形的存储介质。如本文所使用的,磁盘和光盘包括紧凑型光盘(CD)、激光光盘、光学光盘、数字化通用光盘(DVD)、软盘以及蓝光光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。以上的组合同样应当包含在计算机可读介质的范围内。
指令可以由一个或多个处理器执行,诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他等效的集成或分立逻辑电路。因此,如本文所使用的术语“处理器”可以指任何前述结构或适合于实现本文所述的技术的任何其他结构。此外,在一些方面,本文描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块内提供,或者结合到组合编解码器中。此外,这些技术可以在一个或多个电路或逻辑元件中完全实现。
本公开的技术可以在各种各样的设备或装置中实现,包括无线手持机、集成电路(IC)或IC集合(例如芯片集合)。本公开中描述了各种组件、模块或单元,以强调被配置为执行所公开的技术的设备的功能方面,但不一定需要由不同的硬件单元来实现。而是,如上所述,各种单元可以结合在任何编解码硬件单元中,或者由包括如上所述的一个或多个处理器在内的互操作硬件单元的集合结合合适的软件和/或固件来提供。
已经描述了各种示例。这些示例以及其他示例在以下权利要求的范围内。
Claims (71)
1.一种设备,包括:
存储器,所述存储器被配置为存储多个音频流和所述多个音频流中的每一个音频流的相关联的授权级别;以及
一个或多个处理器,所述一个或多个处理器在电路中实现并通信地耦接到所述存储器,并且被配置为:
基于所述相关联的授权级别选择所述多个音频流的子集,所述多个音频流的所述子集排除所述多个音频流中的至少一个音频流。
2.根据权利要求1所述的设备,其中所述存储器还被配置为存储与在其中捕获或合成了所述多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息。
3.根据权利要求2所述的设备,其中所述设备包括扩展现实耳机,并且其中所述声学空间包括由相机捕获的视频数据表示的场景。
4.根据权利要求2所述的设备,其中所述设备包括扩展现实耳机,并且其中声学空间包括虚拟世界。
5.根据权利要求2所述的设备,其中所述设备包括扩展现实耳机,并且其中声学空间包括物理世界。
6.根据权利要求2所述的设备,其中所选择的所述多个音频流的子集进一步基于所述定位信息。
7.根据权利要求1所述的设备,其中被排除的音频流与一个或多个隐私区相关联。
8.根据权利要求1所述的设备,其中所述一个或多个处理器还被配置为将所述多个音频流的所述子集输出到一个或多个扬声器或头戴式耳机。
9.根据权利要求1所述的设备,其中所述一个或多个处理器还被配置为基于所述相关联的授权级别改变所述多个音频流的所述子集中的一个或多个音频流的增益。
10.根据权利要求1所述的设备,其中所述一个或多个处理器还被配置为将被排除的音频流置空。
11.根据权利要求1所述的设备,其中所述一个或多个处理器还被配置为向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号。
12.根据权利要求1所述的设备,其中所述一个或多个处理器还被配置为通过混合或插值中的至少一种来组合所述多个音频流的所述子集中的至少两个音频流。
13.根据权利要求1所述的设备,其中所述一个或多个处理器还被配置为:
从用户获得覆盖至少一个授权级别的请求;以及
基于所述请求,将与所述至少一个授权级别相关联的被排除的音频流中的至少一个音频流添加到所述多个音频流的所述子集。
14.根据权利要求13所述的设备,其中所述一个或多个处理器被配置为:
基于将被排除的音频流中的至少一个音频流添加到所述多个音频流的所述子集,将所述多个音频流的所述子集输出到一个或多个扬声器或头戴式耳机。
15.根据权利要求1所述的设备,其中从源设备接收授权级别。
16.根据权利要求1所述的设备,其中所述一个或多个处理器还被配置为生成所述相关联的授权级别。
17.根据权利要求1所述的设备,其中所述相关联的授权级别包括等级。
18.根据权利要求14所述的设备,其中所述一个或多个处理器通过以下方式选择所述多个音频流的所述子集:
将所述多个音频流中的每一个音频流的等级与用户的等级进行比较;以及
基于所述比较选择所述多个音频流的所述子集。
19.根据权利要求1所述的设备,其中所述存储器还被配置为存储多个联系人,并且其中所述相关联的授权级别基于所述多个联系人。
20.根据权利要求19所述的设备,其中所述一个或多个处理器通过以下方式选择所述多个音频流的所述子集:
确定所述多个音频流中的一个或多个音频流的源是否与所述多个联系人中的一个或多个联系人相关联;以及
基于比较选择所述多个音频流的所述子集。
21.根据权利要求19所述的设备,其中所述多个联系人包括好感度等级排序,并且其中所述一个或多个处理器通过以下方式选择所述多个音频流的所述子集:
确定所述多个音频流中的一个或多个音频流的源是否与所述多个联系人中具有至少预定好感度等级排序的一个或多个联系人相关联;以及
基于比较选择所述多个音频流的所述子集。
22.根据权利要求1所述的设备,其中所述设备是内容消费者设备,并且当隐私区不具有相关联的授权级别时,所述内容消费者设备抑制对与所述隐私区相关联的音频流进行解码。
23.根据权利要求1所述的设备,其中所述设备是内容消费者设备,并且所述多个音频流的所述子集包括基于在由所述一个或多个处理器解码的比特流中接收的经编码信息的再现音频流。
24.根据权利要求1所述的设备,其中所述设备是源设备并且所述多个音频流未经编码。
25.根据权利要求1所述的设备,其中所述一个或多个处理器基于所述多个音频流中的所述至少一个音频流未对用户授权来选择所述多个音频流的所述子集,以排除所述多个音频流中的至少一个音频流。
26.根据权利要求1所述的设备,其中所述相关联的授权级别被包含在与每个音频流相关联的元数据中,或者以其他方式在比特流中。
27.根据权利要求1所述的设备,还包括显示设备。
28.根据权利要求1所述的设备,还包括麦克风,其中所述一个或多个处理器还被配置为从所述麦克风接收语音命令,并基于所述语音命令控制显示设备。
29.根据权利要求1所述的设备,还包括一个或多个扬声器。
30.根据权利要求1所述的设备,其中所述设备包括移动手持机。
31.根据权利要求1所述的设备,还包括无线收发器,所述无线收发器耦接到所述一个或多个处理器并且被配置为接收无线信号,其中所述无线信号为蓝牙、或Wi-Fi中的一个,或者符合第五代(5G)蜂窝协议。
32.根据权利要求1所述的设备,其中对所述多个音频流的所述子集的选择基于所述相关联的授权级别与所述设备或所述设备的用户的授权级别的比较。
33.根据权利要求1所述的设备,其中所述存储器还被配置为存储与在其中捕获或合成了所述多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息,并且其中所述多个音频流中的所述一个音频流的授权级别基于所述定位信息来确定。
34.根据权利要求33所述的设备,其中在所述声学空间中定义多个隐私区,每个隐私区具有相关联的授权级别,其中所述多个音频流中的所述一个音频流的授权级别基于包含捕获或合成所述多个音频流中的所述一个音频流的定位的所述隐私区的授权级别来确定。
35.根据权利要求33所述的设备,其中所述多个音频流中的所述一个音频流的授权级别等于包含捕获或合成所述多个音频流中的所述一个音频流的定位的所述隐私区的授权级别。
36.根据权利要求1所述的设备,其中所述设备被配置为:
接收所述多个音频流和所述多个音频流中的每一个音频流的相关联的授权级别;以及
接收所述设备的用户的授权级别,
其中所述一个或多个处理器被配置为:
通过选择具有不大于所接收的所述设备的用户的授权级别的、相关联的授权级别的那些音频流,来选择所述多个音频流的所述子集;以及
将所选择的所述多个音频流的子集发送到可听输出设备,以用于所选择的所述多个音频流的子集的可听输出。
37.一种方法,包括:
由存储器存储多个音频流和所述多个音频流中的每一个音频流的相关联的授权级别;以及
由一个或多个处理器并基于所述相关联的授权级别选择所述多个音频流的子集,所述多个音频流的所述子集排除所述多个音频流中的至少一个音频流。
38.根据权利要求37所述的方法,还包括由所述存储器存储与在其中捕获或合成了所述多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息。
39.根据权利要求38所述的方法,其中在扩展现实耳机上执行所述方法,并且其中所述声学空间包括由相机捕获的视频数据表示的场景。
40.根据权利要求38所述的方法,其中在扩展现实耳机上执行所述方法,并且其中所述声学空间包括虚拟世界。
41.根据权利要求38所述的方法,其中在被配置为呈现所述声学空间的头戴式设备上执行所述方法。
42.根据权利要求37所述的方法,其中所选择的所述多个音频流的子集进一步基于所述定位信息。
43.根据权利要求37所述的方法,其中被排除的流与一个或多个隐私区相关联。
44.根据权利要求37所述的方法,还包括由所述一个或多个处理器将所述多个音频流的所述子集输出到一个或多个扬声器或头戴式耳机。
45.根据权利要求37所述的方法,还包括由所述一个或多个处理器基于所述相关联的授权级别改变所述多个音频流的所述子集内的一个或多个音频流的增益。
46.根据权利要求37所述的方法,还包括由所述一个或多个处理器将被排除的音频流置空。
47.根据权利要求37所述的方法,还包括由所述一个或多个处理器向源设备或基站中的至少一个发送指示停止发送被排除的音频流的信号。
48.根据权利要求37所述的方法,还包括由所述一个或多个处理器通过混合或插值中的至少一种来组合所述多个音频流的所述子集中的至少两个音频流。
49.根据权利要求37所述的方法,还包括:
从用户获得覆盖至少一个授权级别的请求;以及
基于所述请求,由所述一个或多个处理器将与所述至少一个授权级别相关联的被排除的音频流中的至少一个音频流添加到所述多个音频流的所述子集。
50.根据权利要求37所述的方法,还包括由所述一个或多个处理器基于将被排除的音频流中的至少一个音频流添加到所述多个音频流的所述子集,将所述多个音频流的所述子集输出到一个或多个扬声器或头戴式耳机。
51.根据权利要求37所述的方法,还包括从源设备接收授权级别。
52.根据权利要求37所述的方法,还包括由所述一个或多个处理器生成授权级别。
53.根据权利要求37所述的方法,其中所述相关联的授权级别包括等级。
54.根据权利要求37所述的方法,其中选择所述多个音频流的所述子集包括:
由所述一个或多个处理器将所述多个音频流中的每一个音频流的等级与用户的等级进行比较;以及
由所述一个或多个处理器基于所述比较选择所述多个音频流的所述子集。
55.根据权利要求37所述的方法,还包括由所述存储器存储多个联系人,并且其中相关联的授权级别基于所述多个联系人。
56.根据权利要求55所述的方法,其中选择所述多个音频流的所述子集包括:
由所述一个或多个处理器确定所述多个音频流中的一个或多个音频流的源是否与所述多个联系人中的一个或多个联系人相关联;以及
由所述一个或多个处理器基于比较选择所述多个音频流的所述子集。
57.根据权利要求55所述的方法,其中所述多个联系人包括好感度等级排序,并且其中选择所述多个音频流的所述子集包括:
由所述一个或多个处理器确定所述多个音频流中的一个或多个音频流的源是否与所述多个联系人中具有至少预定好感度等级排序的一个或多个联系人相关联;以及
由所述一个或多个处理器基于比较选择所述多个音频流的所述子集。
58.根据权利要求37所述的方法,还包括当隐私区不具有相关联的授权级别时,抑制对与所述隐私区相关联的音频流进行解码。
59.根据权利要求37所述的方法,其中所述多个音频流的所述子集包括基于在由所述一个或多个处理器解码的比特流中接收的经编码信息的再现音频流。
60.根据权利要求37所述的方法,其中所述多个音频流未经编码。
61.根据权利要求37所述的方法,其中基于所述多个音频流中的所述至少一个音频流未对用户授权来选择所述多个音频流的所述子集,以排除所述多个音频流中的所述至少一个音频流。
62.根据权利要求37所述的方法,还包括从麦克风接收语音命令,并基于所述语音命令控制显示设备。
63.根据权利要求37所述的方法,其中在移动手持机上执行所述方法。
64.根据权利要求37所述的方法,还包括接收无线信号,其中所述无线信号是蓝牙、或Wi-Fi中的一个,或者符合第五代(5G)蜂窝协议。
65.根据权利要求37所述的方法,其中对所述多个音频流的子集的选择基于所述相关联的授权级别与所述设备或所述设备的用户的授权级别的比较。
66.根据权利要求37所述的方法,还包括由所述存储器存储与在其中捕获或合成了所述多个音频流中的对应一个音频流的声学空间的坐标相关联的定位信息,其中所述多个音频流中的所述一个音频流的授权级别基于所述定位信息来确定。
67.根据权利要求37所述的方法,其中在所述声学空间中定义多个隐私区,每个隐私区具有相关联的授权级别,其中所述多个音频流中的所述一个音频流的授权级别基于包含捕获或合成所述多个音频流中的所述一个音频流的定位的所述隐私区的授权级别来确定。
68.根据权利要求37所述的方法,其中所述多个音频流中的所述一个音频流的授权级别等于包含捕获或合成所述多个音频流中的所述一个音频流的定位的所述隐私区的授权级别。
69.根据权利要求37所述的方法,还包括:
由所述一个或多个处理器接收所述多个音频流和所述多个音频流中的每一个音频流的相关联的授权级别;
由所述一个或多个处理器接收所述设备的用户的授权级别;以及
由所述一个或多个处理器将所选择的所述多个音频流的子集发送到可听输出设备,以用于所选择的所述多个音频流的子集的可听输出,
其中选择所述多个音频流的所述子集包括选择具有不大于所接收的所述设备的用户的授权级别的、相关联的授权级别的那些音频流。
70.一种设备,包括:
用于存储多个音频流和所述多个音频流中的每一个音频流的相关联的授权级别的部件;以及
用于基于所述相关联的授权级别选择所述多个音频流的子集的部件,所述多个音频流的所述子集排除所述多个音频流中的至少一个音频流。
71.一种其上存储有指令的非暂时性计算机可读存储介质,所述指令在被执行时使一个或多个处理器:
存储多个音频流和所述多个音频流中的每一个音频流的相关联的授权级别;以及
基于所述相关联的授权级别选择所述多个音频流的子集,所述多个音频流的所述子集排除所述多个音频流中的至少一个音频流。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962870591P | 2019-07-03 | 2019-07-03 | |
US62/870,591 | 2019-07-03 | ||
US16/918,386 US11354085B2 (en) | 2019-07-03 | 2020-07-01 | Privacy zoning and authorization for audio rendering |
US16/918,386 | 2020-07-01 | ||
PCT/US2020/040702 WO2021003394A1 (en) | 2019-07-03 | 2020-07-02 | Privacy zoning and authorization for audio rendering |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114041113A true CN114041113A (zh) | 2022-02-11 |
Family
ID=74066083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080047096.0A Pending CN114041113A (zh) | 2019-07-03 | 2020-07-02 | 用于音频渲染的隐私分区和授权 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11354085B2 (zh) |
EP (1) | EP3994562A1 (zh) |
CN (1) | CN114041113A (zh) |
BR (1) | BR112021026272A2 (zh) |
TW (1) | TW202117500A (zh) |
WO (1) | WO2021003394A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11310209B2 (en) * | 2019-09-10 | 2022-04-19 | Motorola Solutions, Inc. | Method and device for protecting confidentiality of audio messages |
US11080011B1 (en) * | 2020-03-20 | 2021-08-03 | Tap Sound System | Audio rendering device and audio configurator device for audio stream selection, and related methods |
KR20220034571A (ko) * | 2020-09-11 | 2022-03-18 | 삼성전자주식회사 | 음성에 포함된 커맨드를 확인하는 전자 장치와 이의 동작 방법 |
US11686191B2 (en) | 2020-10-16 | 2023-06-27 | Halliburton Energy Services, Inc. | Identification of residual gravitational signal from drilling tool sensor data |
CN116964543A (zh) * | 2021-03-11 | 2023-10-27 | 瑞典爱立信有限公司 | 扩展现实中的移动媒体 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8964994B2 (en) | 2008-12-15 | 2015-02-24 | Orange | Encoding of multichannel digital audio signals |
US8863008B2 (en) | 2010-02-17 | 2014-10-14 | International Business Machines Corporation | Automatic removal of sensitive information from a computer screen |
US8700406B2 (en) | 2011-05-23 | 2014-04-15 | Qualcomm Incorporated | Preserving audio data collection privacy in mobile devices |
KR102049977B1 (ko) * | 2012-12-31 | 2019-11-28 | 엘지전자 주식회사 | 이동 단말기 |
WO2016159984A1 (en) | 2015-03-31 | 2016-10-06 | Hewlett-Packard Development Company, L.P. | Transmitting multimedia streams to users |
US9530426B1 (en) * | 2015-06-24 | 2016-12-27 | Microsoft Technology Licensing, Llc | Filtering sounds for conferencing applications |
GB2529310B (en) | 2015-07-16 | 2016-11-30 | Powerchord Group Ltd | A method of augmenting an audio content |
US10530731B1 (en) * | 2016-03-28 | 2020-01-07 | Snap Inc. | Systems and methods for chat with audio and video elements |
US11032663B2 (en) | 2016-09-29 | 2021-06-08 | The Trustees Of Princeton University | System and method for virtual navigation of sound fields through interpolation of signals from an array of microphone assemblies |
US10659906B2 (en) | 2017-01-13 | 2020-05-19 | Qualcomm Incorporated | Audio parallax for virtual reality, augmented reality, and mixed reality |
US20180278835A1 (en) | 2017-03-21 | 2018-09-27 | Honeywell International Inc. | Systems and methods for enabling dynamic privacy zones in the field of view of a security camera based on motion detection |
US10405126B2 (en) | 2017-06-30 | 2019-09-03 | Qualcomm Incorporated | Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems |
US10540521B2 (en) | 2017-08-24 | 2020-01-21 | International Business Machines Corporation | Selective enforcement of privacy and confidentiality for optimization of voice applications |
KR20190035241A (ko) | 2017-09-26 | 2019-04-03 | 삼성전자주식회사 | 화학 기계적 연마 공정의 온도 제어 방법, 이를 수행하기 위한 온도 제어 유닛, 및 이러한 온도 제어 유닛을 포함하는 화학 기계적 연마 장치 |
US10657974B2 (en) | 2017-12-21 | 2020-05-19 | Qualcomm Incorporated | Priority information for higher order ambisonic audio data |
US10620904B2 (en) * | 2018-09-12 | 2020-04-14 | At&T Intellectual Property I, L.P. | Network broadcasting for selective presentation of audio content |
EP3921756A1 (en) * | 2019-02-08 | 2021-12-15 | Starkey Laboratories, Inc. | Assistive listening device systems, devices and methods for providing audio streams within sound fields |
-
2020
- 2020-07-01 US US16/918,386 patent/US11354085B2/en active Active
- 2020-07-02 WO PCT/US2020/040702 patent/WO2021003394A1/en unknown
- 2020-07-02 CN CN202080047096.0A patent/CN114041113A/zh active Pending
- 2020-07-02 TW TW109122456A patent/TW202117500A/zh unknown
- 2020-07-02 EP EP20743933.2A patent/EP3994562A1/en active Pending
- 2020-07-02 BR BR112021026272A patent/BR112021026272A2/pt unknown
Also Published As
Publication number | Publication date |
---|---|
US11354085B2 (en) | 2022-06-07 |
BR112021026272A2 (pt) | 2022-03-03 |
TW202117500A (zh) | 2021-05-01 |
EP3994562A1 (en) | 2022-05-11 |
WO2021003394A1 (en) | 2021-01-07 |
US20210004200A1 (en) | 2021-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112771894B (zh) | 针对计算机介导现实系统进行渲染时表示遮挡 | |
TWI838554B (zh) | 具有用於控制擴展實境體驗之音訊呈現之使用者介面之裝置及非暫時性電腦可讀儲存媒體及其方法 | |
US11354085B2 (en) | Privacy zoning and authorization for audio rendering | |
US11140503B2 (en) | Timer-based access for audio streaming and rendering | |
US11429340B2 (en) | Audio capture and rendering for extended reality experiences | |
US11356793B2 (en) | Controlling rendering of audio data | |
US20210006976A1 (en) | Privacy restrictions for audio rendering | |
US11580213B2 (en) | Password-based authorization for audio rendering | |
CN114730564A (zh) | 用于虚拟现实音频的基于优先级的声场编解码 | |
CN114391263A (zh) | 用于扩展现实体验的参数设置调整 | |
CN114008707A (zh) | 适配音频流以进行渲染 | |
US11601776B2 (en) | Smart hybrid rendering for augmented reality/virtual reality audio | |
US11750998B2 (en) | Controlling rendering of audio data | |
US20240129681A1 (en) | Scaling audio sources in extended reality systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |