CN115039421A

CN115039421A - 使用来自远程设备的音频进行音频/视频捕获

Info

Publication number: CN115039421A
Application number: CN202180012238.4A
Authority: CN
Inventors: L·J·拉克索南; M·T·维勒莫; A·J·勒蒂涅米; J·A·利帕南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2020-01-31
Filing date: 2021-01-21
Publication date: 2022-09-09
Also published as: US20230073568A1; US12047766B2; WO2021151771A1; EP3860151A1

Abstract

一种装置、方法和计算机程序产品，用于：接收由多个麦克风捕获的空间音频信息，从无线连接到该装置的音频设备接收捕获的音频对象，确定与音频设备相关的音频可听度值，确定音频可听度值是否满足至少一个准则，并且响应于确定音频可听度值满足至少一个准则而激活将由音频设备捕获的音频对象包括在由多个麦克风捕获的空间音频信息中。

Description

使用来自远程设备的音频进行音频/视频捕获

技术领域

本申请总体上涉及空间音频信息。更具体地，本申请涉及将音频对象添加到空间音频信息。

背景技术

多媒体内容的数量不断增加。用户创建和消费多媒体内容，并且它在现代社会中发挥着重要作用。

发明内容

本发明的示例的各个方面在权利要求中阐述。本发明的各种实施例所寻求的保护范围由独立权利要求规定。在本说明书中描述的不属于独立权利要求的范围的示例和特征(如果有的话)将被解释为对理解本发明的各种实施例有用的示例。

根据本发明的第一方面，提供了一种装置，该装置包括用于执行以下操作的部件：接收由多个麦克风捕获的空间音频信息，从无线连接到该装置的音频设备接收捕获的音频对象，确定与音频设备相关的音频可听度值，确定音频可听度值是否满足至少一个准则，以及响应于确定音频可听度值满足至少一个准则，激活将由音频设备捕获的音频对象包括在由多个麦克风捕获的空间音频信息中。

根据本发明的第二方面，提供了一种方法，该方法包括接收由多个麦克风捕获的空间音频信息，从无线连接到该装置的音频设备接收捕获的音频对象，确定与音频设备相关的音频可听度值，确定音频可听度值是否满足至少一个准则，以及响应于确定音频可听度值满足至少一个准则，激活将由音频设备捕获的音频对象包括在由多个麦克风捕获的空间音频信息中。

根据本发明的第三方面，提供了一种计算机程序，该计算机程序包括用于使装置至少执行以下操作的指令：接收由多个麦克风捕获的空间音频信息，从无线连接到该装置的音频设备接收捕获的音频对象，确定与音频设备相关的音频可听度值，确定音频可听度值是否满足至少一个准则，以及响应于确定音频可听度值满足至少一个准则，激活将由音频设备捕获的音频对象包括在由多个麦克风捕获的空间音频信息中。

根据本发明的第四方面，提供了一种装置，该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器，至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少：接收由多个麦克风捕获的空间音频信息，从无线连接到该装置的音频设备接收捕获的音频对象，确定与音频设备相关的音频可听度值，确定音频可听度值是否满足至少一个准则，以及响应于确定音频可听度值满足至少一个准则，激活将由音频设备捕获的音频对象包括在由多个麦克风捕获的空间音频信息中。

根据本发明的第五方面，提供了一种包括程序指令的非暂态计算机可读介质，该程序指令用于使装置至少执行以下操作：接收由多个麦克风捕获的空间音频信息，从无线连接到该装置的音频设备接收捕获的音频对象，确定与音频设备相关的音频可听度值，确定音频可听度值是否满足至少一个准则，以及响应于确定音频可听度值满足至少一个准则，激活将由音频设备捕获的音频对象包括在由多个麦克风捕获的空间音频信息中。

根据本发明的第六方面，提供了一种包括程序指令的计算机可读介质，该程序指令用于使装置至少执行以下操作：接收由多个麦克风捕获的空间音频信息，从无线连接到该装置的音频设备接收捕获的音频对象，确定与音频设备相关的音频可听度值，确定音频可听度值是否满足至少一个准则，以及响应于确定音频可听度值满足至少一个准则，激活将由音频设备捕获的音频对象包括在由多个麦克风捕获的空间音频信息中。

附图说明

现在将参考附图描述一些示例实施例：

图1示出了可以在其中应用所公开的实施例的示例的一种示例装置的框图；

图2示出了可以在其中应用所公开的实施例的示例的另一示例装置的框图；

图3A、图3B和图3C示出了可以在其中应用所公开的实施例的示例的一种示例系统；

图4A、图4B和图4C示出了可以在其中应用所公开的实施例的示例的另一示例系统；

图5A和图5B示出了示例用户接口；

图6示出了示例方法；以及

图7A和图7B示出了示例音频可听度值和阈值。

具体实施方式

以下实施例是示例性的。尽管说明书可能在正文的若干位置引用“一”、“一个”或“某个(某些)”实施例，但这并不一定表示每个引用都是针对(多个)相同实施例，也并不一定表示特定特征仅适用于单个实施例。不同实施例的单个特征也可以组合以提供其他实施例。

示例实施例涉及一种装置，该装置被配置为激活将由音频设备捕获的音频信号包括在由该装置接收的音频信息中。由音频设备捕获的音频信号可以包括例如由单个或多个麦克风捕获的音频。

一些示例实施例涉及一种装置，该装置被配置为接收由多个麦克风捕获的空间音频信息，从无线连接到该装置的音频设备接收捕获的音频对象，确定与音频设备相关的音频可听度值，确定音频可听度值是否满足至少一个准则，并且响应于确定音频可听度值满足至少一个准则，激活将由音频设备捕获的音频对象包括在由多个麦克风捕获的空间音频信息中。

一些示例实施例涉及激活分布式音频或视听捕获。分布式音频/视听捕获包括利用从单独设备接收的音频对象。

一些示例实施例涉及一种包括音频编解码器的装置。音频编解码器是被配置为对音频信号进行编码和/或解码的编解码器。音频编解码器可以包括例如被配置为对语音信号进行编码和/或解码的语音编解码器。实际上，音频编解码器包括实现对数字音频数据进行压缩和解压缩的算法的计算机程序。出于传输目的，该算法的目的是在保持质量的同时以最少比特数表示高保真音频信号。以这种方式，可以减少音频文件传输所需要的存储空间和带宽。

不同音频编解码器可能具有不同比特率。比特率是指单位时间内处理或传输的比特数。通常，比特率表示为每秒的比特数或千比特数(例如，kbps或kbits/秒)。比特率可以包括恒定比特率(CBR)或可变比特率(VBR)。CBR文件为时间段分配恒定量的数据，而VBR文件允许分配更高比特率，即，更多存储空间，以分配给更复杂的媒体文件段，并且VBR文件允许分配更低比特率，即，更少存储空间，以分配给不太复杂的媒体文件段。VBR操作可以包括可以与CBR或VBR操作结合使用的不连续传输(DTX)。在DTX操作中，可以选择性地更新参数以描述例如在诸如静音等非活动时段期间的背景噪声水平和/或频谱噪声特性，而在诸如语音等活动时段期间可以使用常规编码。

有不同种类的音频/语音编解码器，例如，适用于改进的电话和电话会议、视听会议服务和流式音频的增强型语音服务(EVS)编解码器。另一示例编解码器是沉浸式语音和音频服务(IVAS)编解码器。IVAS编解码器的一个目的是为实时会话空间语音、多流电话会议、虚拟现实(VR)会话通信和/或用户生成的实况和点播内容流提供支持。会话通信可以包括例如多个用户之间的实时双向音频。IVAS编解码器提供对例如从单声道到立体声再到完全沉浸式音频编码、解码和/或渲染的支持。沉浸式服务可以包括例如用于虚拟现实(VR)或增强现实(AR)的沉浸式语音和音频，并且编解码器可以被配置为处理语音、音乐和通用音频的编码、解码和渲染。编解码器还可以支持基于通道的音频、基于对象的音频和/或基于场景的音频。

例如，基于通道的音频可以包括通过为每个扬声器记录单独的音轨(通道)或者在至少两个扬声器通道之间平移和混合所选择的音轨来创建声轨。基于通道的环绕声系统的常见扬声器布置是5.1和7.1，它们分别使用五个和七个环绕通道、以及一个低频通道。基于通道的音频的一个缺点是，每个声轨都是为特定扬声器配置而创建的，诸如2.0(立体声)、5.1和7.1。

基于对象的音频通过将音频场表示为多个单独的音频对象来解决这个缺点，每个音频对象包括一个或多个音频信号和相关联的元数据。音频对象可以与定义该对象在音频场中的位置或轨迹的元数据相关联。基于对象的音频渲染包括将音频对象渲染为扬声器信号以再现音频场。除了指定对象的位置和/或移动之外，元数据还可以定义对象的类型(例如，对象的声学特性)、和/或将用于渲染对象的渲染器的类别。例如，对象可以标识为漫射对象或点源对象。基于对象的渲染器可以使用具有特定于特定对象类型的渲染算法的定位元数据，以基于扬声器配置的扬声器定位的知识来引导声音对象。

基于场景的音频结合了基于对象的音频和基于通道的音频的优点，并且适合实现真正的沉浸式VR音频体验。基于场景的音频包括编码和表示空间中固定点的三维(3D)声场。例如，基于场景的音频可以包括环境立体声(Ambisonics)和参数沉浸式音频。环境立体声包括球体环绕声格式，除了水平面之外，该球体环绕声格式还包括听众上方和下方的声源。例如，环境立体声可以包括具有四个通道的一阶环境立体声(FOA)或具有多于四个通道(诸如9、16、25、36或49个通道)的高阶环境立体声(HOA)。参数沉浸式音频可以包括例如元数据辅助空间音频(MASA)。

空间音频可以包括完整的球体环绕声，以模仿人们在现实生活中感知音频的方式。空间音频可以包括从用户定位出现以分配给某个方向和/或距离的音频。因此，感知的音频可能会随着用户的移动或用户的转动而改变。空间音频可以包括由声源创建的音频、环境音频或其组合。例如，环境音频可以包括就诸如交通嗡嗡声、风或波浪等声源而言可能无法标识的音频。球体环绕声可以包括空间音频场，并且用户的定位或捕获设备的定位可以被认为是空间音频场中的参考点。根据示例实施例，参考点包括音频场的中心。

包括多个麦克风的设备可以用于捕获空间音频信息。例如，用户可以在观看合唱团的表演时捕获包括空间音频的空间音频或视频信息。然而，就远离合唱团的定位而言，捕获空间音频信息的用户的定位可能不是最佳的。如果捕获设备与声源之间的距离较长，则与捕获设备与声源之间的较短距离时相比，信噪比(SNR)劣化。另一问题是，可能无法将例如合唱团中特定人的表演与整体捕获区分开。从多个声源中分离出特定声源可能是非常具有挑战性的，尤其是在存在多个空间重叠声源的情况下。

图1是描绘根据本发明的示例实施例进行操作的装置100的框图。例如，装置100可以是诸如芯片或芯片组等电子设备。装置100包括一个或多个控制电路系统(诸如至少一个处理器110)和至少一个存储器160，至少一个存储器160包括一种或多种算法，诸如计算机程序代码120，其中至少一个存储器160和计算机程序代码120被配置为与至少一个处理器110一起使装置100执行下面描述的任何示例功能。

在图1的示例中，处理器110是可操作地连接以从存储器160读取和向存储器160写入的控制单元。处理器110还可以被配置为接收经由输入接口接收的控制信号，和/或处理器110可以被配置为经由输出接口输出控制信号。在示例实施例中，处理器110可以被配置为将接收的控制信号转换为适当命令以控制装置100的功能。

至少一个存储器160存储计算机程序代码120，计算机程序代码120在被加载到处理器110中时控制装置100的操作，如下所述。在其他示例中，装置100可以包括多于一个存储器160或不同种类的存储设备。

用于实现本发明的示例实施例的计算机程序代码120或这样的计算机程序代码的一部分可以由装置100的制造商、由装置100的用户、或由装置100本身基于下载程序加载到装置100上，或者代码可以通过外部设备被推送到装置100。计算机程序代码120可以经由电磁载波信号到达装置100，或者从物理实体进行复制，诸如计算机程序产品、存储器设备或记录介质，诸如压缩盘(CD)、压缩盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或蓝光光盘。

图2是描绘根据本发明的示例实施例的装置200的框图。装置200可以是电子设备，诸如手持设备、移动电话或个人数字助理(PDA)、个人计算机(PC)、膝上型电脑、台式机、平板电脑、无线终端、通信终端、游戏机、音乐播放器、电子书阅读器(e-book阅读器)、定位设备、数码相机、家用电器、CD-、DVD或蓝光播放器、或媒体播放器。在以下示例中，假定装置200是移动计算设备或其一部分。

在图2的示例实施例中，装置200被示出为包括装置100、多个麦克风210、一个或多个扬声器230、和用于与装置200(例如，移动计算设备)交互的用户接口220。装置200还可以包括被配置为充当用户接口220的显示器。例如，显示器可以是触摸屏显示器。在示例实施例中，显示器和/或用户接口220可以在装置200外部，但是与装置200通信。

另外地或替代地，用户接口220还可以包括手动可操作控件，诸如按钮、键、触摸板、操纵杆、指示笔、笔、滚轮、摇杆、小键盘、键盘、或用于输入和/或访问信息的任何合适的输入机制。其他示例包括相机、语音识别系统、眼球运动识别系统、基于加速度、倾斜和/或运动的输入系统。因此，装置200还可以包括不同种类的传感器，诸如一个或多个陀螺仪传感器、加速度计、磁力计、定位传感器和/或倾斜传感器。

根据示例实施例，装置200被配置为使用例如蓝牙、WiFi、射频识别(RFID)或近场通信(NFC)连接与另一设备建立无线电通信。例如，装置200可以被配置为与无线耳机、增强/虚拟现实设备等建立无线电通信。

根据示例实施例，装置200可操作地连接到音频设备250。根据示例实施例，装置200无线连接到音频设备250。例如，装置200可以通过蓝牙连接等连接到音频设备250。

音频设备250可以包括用于捕获音频信号的至少一个麦克风和用于回放接收的音频信号的至少一个扬声器。音频设备250还可以被配置为滤除背景噪声和/或检测入耳位置。音频设备250可以包括单个音频设备250、或者被配置为作为一对进行工作的第一音频设备和第二音频设备。包括第一音频设备和第二音频设备的音频设备250可以被配置为使得第一音频设备和第二音频设备可以彼此单独和/或独立地使用。

根据示例实施例，音频设备250包括无线耳机。无线耳机可以独立于其他无线耳机和/或与至少一个其他无线耳机一起使用。例如，假定音频设备250包括一对无线耳机，相同或不同音频信息可以被引导到每个无线耳机，或者音频信息可以被引导到单个无线耳机并且另一无线耳机可以充当麦克风。

根据示例实施例，音频设备250被配置为从装置200接收音频信息。装置200可以被配置为基于音频设备250的特性或装置200的特性来控制音频信息向音频设备250的提供。例如，装置200可以被配置为在向音频设备250提供音频信息时调节装置200和/或音频设备250中的一个或多个设置。例如，一个或多个设置可以涉及音频信息的回放、可用扬声器的数目等。

例如，音频信息可以包括表示呼叫者的语音的语音信号、或流式音频信息。根据示例实施例，音频设备250被配置为通过引起接收的音频信息经由至少一个扬声器的输出来渲染从装置200接收的音频信息。

根据示例实施例，音频设备250被配置为向装置200传输音频信息。例如，音频信息可以包括表示语音的语音信号、或某种其他类型的音频信息。

根据示例实施例，装置200被配置为接收由多个麦克风捕获的空间音频信息。空间音频信息包括至少一个音频信号和用于控制至少一个音频信号的至少一个音频参数。例如，至少一个音频参数可以包括与音频相对于空间音频场中的参考点的方向和/或定位相对应的音频参数。

根据示例实施例，装置200被配置为使用多个麦克风210捕获空间音频信息。多个麦克风210可以被配置为在捕获设备周围捕获音频信号。多个麦克风210可以由装置200包括，或者多个麦克风210可以包括可操作地连接到装置200的单独的麦克风。

根据示例实施例，空间音频信息包括在语音或视频通话期间捕获的空间音频信息。

根据示例实施例，装置200被配置为从无线连接到装置200的音频设备接收捕获的音频对象。例如，捕获的音频对象可以包括由音频设备250包括的至少一个麦克风捕获的音频对象。

根据示例实施例，音频对象包括与元数据相关联的音频数据。与音频对象相关联的元数据提供关于音频数据的信息。关于音频数据的信息可以包括例如音频数据的一种或多种属性、音频数据的一种或多种特性、和/或与音频数据相关的标识信息。例如，元数据可以提供关于与空间音频场中的音频数据相关联的定位、空间音频场中的音频对象的移动和/或音频数据的功能的信息。

根据示例实施例，音频对象包括空间音频对象，该空间音频对象包括一个或多个音频信号、以及相关联的元数据，该元数据定义第二音频对象在空间音频场中的定位和/或轨迹。

在不限制权利要求的范围的情况下，音频对象的优点是，元数据可以与音频信号相关联，使得可以通过定义音频信号在空间音频场中的位置来再现音频信号。

从音频设备接收音频对象可以包括使用音频编解码器对接收的音频对象进行解码。音频编解码器可以包括例如IVAS编解码器或合适的蓝牙音频编解码器。

根据示例实施例，装置200包括音频编解码器，该音频编解码器包括用于解压缩诸如音频流等接收数据的解码器和/或用于压缩用于传输的数据的编码器。接收的音频数据可以包括例如编码比特流，该编码比特流包括可以从一个设备传送到另一设备的信息的二进制比特。

根据示例实施例，音频对象包括音频流。音频流可以包括包含实时音频的实况音频流。音频流可以与其他类型的媒体流一起流式传输，或者音频可以作为其他类型的媒体流(诸如视频流)的一部分进行流式传输。例如，音频流可以包括来自实况表演等的音频。

根据示例实施例，装置200被配置为确定与音频设备250相关的音频可听度值。

音频可听度值可以包括参数值，该参数值包括关于音频设备250与装置200之间的关系的信息。例如，参数值可以包括上下文信息，诸如音频设备250相对于装置200的定位的定位。作为另一示例，参数值可以包括关于由音频设备250捕获的内容的特性与由装置200捕获的内容的特性相关的信息。

根据示例实施例，与音频设备250相关的音频可听度值取决于音频设备250与装置200之间的距离。根据示例实施例，装置200被配置为响应于接收到关于音频设备250与装置200之间的改变后的距离的信息而更新音频可听度值。装置200可以接收关于改变后的距离的信息，例如，通过检测距离的改变或者响应于从云服务器接收到关于改变后的距离的信息，装置200和音频设备250可操作地连接到该云服务器。

根据示例实施例，与音频设备250相关的音频可听度值包括音频设备250与装置200之间的距离。该距离可以包括绝对距离或相对距离。

装置200可以被配置为基于诸如全球定位系统(GPS)坐标等定位信息、基于装置200与音频设备250之间的无线连接、基于诸如在检测事件时的延迟等声学测量来确定装置200与音频设备250之间的距离。

作为另一示例，装置200可以被配置为基于从云服务器接收的信息来确定装置200与音频设备250之间的距离。例如，如果装置200和音频设备250的位置存储在云服务器上，则云服务器可以向装置200通知装置200与音频设备250之间的相应位置或距离。

根据示例实施例，与音频设备250相关的音频可听度值包括音频设备250与装置200之间的声音飞行时间。

根据示例实施例，与音频设备250相关的音频可听度值基于声压或噪声水平来适配。声压包括总声压，并且噪声水平包括总噪声水平。根据另一示例实施例，与音频设备250相关的音频可听度值基于空间音频信息与音频对象之间的相关性度量来适配。

根据示例实施例，装置200被配置为确定音频可听度值是否满足至少一个准则。根据示例实施例，确定音频可听度值是否满足至少一个准则包括将音频可听度值与对应阈值的值进行比较，并且确定音频可听度值等于、低于还是高于阈值的值。

根据示例实施例，至少一个准则包括取决于音频设备250与装置200之间的距离的阈值的值。例如，假定音频可听度值包括装置200与音频设备250之间的距离，阈值的值包括阈值距离。作为另一示例，假定音频可听度值包括声音飞行时间，阈值的值包括阈值时间。

根据示例实施例，取决于音频设备250与装置200之间的距离的阈值的值基于声压或噪声水平来适配。例如，在安静环境中相对较远的声源可以在使用装置200的空间音频捕获中保持可听，而在较嘈杂环境中的声源需要更靠近装置200才能可听。

在不限制权利要求的范围的情况下，基于声压水平或噪声水平来适配阈值的值的优点是，可以在考虑到环境的情况下动态地适配阈值的值。

根据示例实施例，确定音频可听度值是否满足至少一个准则包括确定音频可听度值是否高于阈值的值。

根据另一示例实施例，确定音频可听度值是否满足至少一个准则包括确定音频可听度值是否低于阈值的值。

根据另一示例实施例，确定音频可听度值是否满足至少一个准则包括确定音频可听度值是否等于阈值的值。

根据示例实施例，装置200被配置为响应于确定音频可听度值满足至少一个准则而激活将由音频设备250捕获的音频对象包括在由多个麦克风捕获的空间音频信息中。

激活将由音频设备250捕获的音频对象包括在由多个麦克风捕获的空间音频信息中可以包括激活与音频设备250相关联的麦克风、激活音频信号从音频设备250的接收、去激活与音频设备250相关联的扬声器等。

激活将音频对象包括在空间音频信息中可以包括控制音频设备250的操作。根据示例实施例，装置200被配置为将音频设备250从第一模式切换到第二模式。第一模式可以包括例如扬声器模式，而第二模式可以包括例如麦克风模式。扬声器模式包括将音频设备250用作扬声器，而麦克风模式包括将音频设备250用作麦克风。

根据示例实施例，将音频设备250从第一模式切换到第二模式包括将音频设备250的音频输出端口切换到音频设备250的音频输入端口。

根据示例实施例，装置200被配置为响应于激活将音频对象包括在空间音频信息中而提供修改后的空间音频信息。修改后的空间音频信息可以包括包含空间音频信息和音频对象的音频场景的组合表示、或者其中空间音频信息和音频对象是单独分量的音频场景的表示。例如，修改后的空间信息可以包括音频对象被降混(downmixed)到其中的空间音频信息。作为另一示例，修改后的空间音频信息可以包括空间音频信息和音频对象作为单独分量。

音频对象在空间音频信息中的包括可以包括控制由装置200进行的音频编码器输入。例如，音频对象在空间音频信息中的包括可以包括将音频对象包括在音频编解码器输入格式中，使得同一音频编码器被配置为将两个音频信号联合编码或者一起打包和递送。

根据示例实施例，装置200被配置为将音频对象包括在音频编码器输入中。根据另一示例实施例，装置200被配置为激活音频编码器输入中的音频对象的使用。根据另一示例实施例，装置200被配置为重新协商或重新初始化音频编码器输入，使得音频对象被包括在编码器输入中。例如，如果音频编码器输入先前被协商为一阶环境立体声(FOA)，则音频编码器输入可以被重新协商为FOA和音频对象。根据又一示例实施例，装置200被配置为用修改后的空间音频信息替换先前的空间音频信息。

音频对象在空间音频信息中的包括可以基于与音频对象相关联的元数据来执行。

音频对象在空间音频信息中的包括可以在一段时间内激活。换言之，包括也可以被终止。根据示例实施例，装置200被配置为去激活将由音频设备捕获的音频对象包括在由多个麦克风捕获的空间音频信息中。

根据示例实施例，装置200被配置为响应于确定音频可听度值满足至少一个准则而去激活由音频设备捕获的音频对象在空间音频信息中的包括。用于去激活音频对象的包括的至少一个准则可以不同于用于激活音频对象的包括的至少一个准则。

在不限制权利要求的范围的情况下，用于激活和去激活音频对象在空间音频信息中包括的不同阈值的值的优点是，可以提供合适的滞后以防止频繁地激活和去激活将音频对象包括在空间音频信息中。

根据示例实施例，去激活将由音频设备250捕获的音频对象包括在空间音频信息中可以包括去激活与音频设备250相关联的麦克风、去激活音频信号从音频设备250的接收、激活与音频设备250相关联的扬声器、指示与音频设备相关联的麦克风充当扬声器或其组合。

去激活将音频对象包括在空间音频信息中可以包括控制音频设备250的操作。根据示例实施例，装置200被配置为将音频设备250从第二模式切换到第一模式。第一模式可以包括例如扬声器模式，而第二模式可以包括例如麦克风模式。扬声器模式包括将音频设备250用作扬声器，而麦克风模式包括将音频设备250用作麦克风。

如上所述，装置200可以包括用于使得用户能够控制和/或监测接收的空间音频信息和/或接收的音频对象的用户接口。例如，用户接口可以实现控制和/或监测音量、音频对象在空间音频场中的位置、平衡等。

根据示例实施例，装置200被配置为基于可用空间音频对象提供用户接口。因此，装置200可以被配置为动态地适配用户接口。

根据示例实施例，装置200被配置为提供用于控制捕获的空间音频信息的控制元件，并且响应于确定音频可听度值满足至少一个准则而适配用户接口。例如，适配用户接口可以包括通过添加、移除和/或修改一个或多个用户接口元素来修改用户接口的内容。修改一个或多个用户接口元素可以包括例如修改一个或多个用户接口元素的外观和/或操作。例如，用户接口可以包括用于捕获的空间音频信息的音量控件，并且响应于确定音频可听度值满足至少一个准则，用户接口可以被适配以进一步包括用于音频对象的音量控件。

根据示例实施例，装置200包括用于执行要求保护的发明的特征的部件，其中用于执行的部件包括至少一个处理器110、包括计算机程序代码120的至少一个存储器160，至少一个存储器160和计算机程序代码120被配置为与至少一个处理器110一起引起装置200的操作。用于执行要求保护的发明的特征的部件可以包括用于接收由多个麦克风捕获的空间音频信息的部件、用于从无线连接到该装置的音频设备接收捕获的音频对象的部件、用于确定与音频设备相关的音频可听度值的部件、用于确定音频可听度值是否满足至少一个准则的部件、以及用于响应于确定音频可听度值满足至少一个准则而激活将由音频设备捕获的音频对包括在由多个麦克风捕获的空间音频信息中的部件。

装置200还可以包括用于去激活由多个麦克风捕获的音频对象的包括的部件。装置200还可以包括用于将音频设备250从第一模式切换到第二模式的部件。装置200还可以包括用于提供用于控制捕获的空间音频信息的控制元件的部件和用于响应于确定音频可听度值满足至少一个准则而适配用户接口的部件。

图3A、图3B和图3C示出了根据示例实施例的示例系统。在图3A、图3B和图3C的示例中，装置200包括支持用户生成的实况内容流的音频编解码器。

在图3A的示例中，第一用户正在与第二用户(未示出)进行语音或视频通话。例如，第一用户301可以使用用于捕获空间音频信息的装置200，并且使用诸如无线耳机等音频设备250从第二用户接收音频。音频设备250使用例如蓝牙连接无线连接到装置200。音频设备250包括至少一个扬声器和至少一个麦克风。在图3A的示例中，从第二用户接收的音频用箭头306示出。第一用户301为第二用户捕获空间音频信息。捕获的空间音频信息用箭头305示出。在图3A、图3B和图3C的示例中，第三用户303是感兴趣的声源。例如，第三用户303可以是在合唱团中唱歌的人。

在图3A的示例中，第一用户301使用单个无线耳机。在这种情况下，耳机可以被配置为默认充当麦克风或扬声器。

在图3B的示例中，第一用户301已经将音频设备250交给了第三用户303。假定第三用户303是在合唱团中唱歌的人，当第三用户303移动到场地时，音频设备250与装置200之间的距离增加。

在图3C的示例中，装置200与音频设备250之间的距离307增加。装置200被配置为确定装置200与音频设备250之间的距离307是否在阈值的值以上。装置200还被配置为响应于确定装置200与音频设备250之间的距离307在阈值的值以上而激活将由音频设备250捕获的音频对象包括在由音频设备250捕获的空间音频信息中。如果音频设备250默认充当麦克风，则激活音频对象的包括可以包括激活音频信号从音频设备250的接收。如果音频设备250默认充当扬声器，则激活音频对象的包括可以包括将音频设备250从扬声器模式切换到麦克风模式。

图4A、图4B和图4C示出了根据示例实施例的另一示例系统。在图4A、图4B和图4C的示例中，装置200包括支持用户生成的实况内容流的音频编解码器。

在图4A的示例中，第一用户正在与第二用户(未示出)进行语音或视频通话。例如，第一用户301可以使用用于捕获空间音频信息的装置200，并且使用诸如无线耳机等一对音频设备250从第二用户接收音频。该对音频设备250使用例如蓝牙连接无线连接到装置200。

音频设备250包括至少一个扬声器和至少一个麦克风。在图4A的示例中，从第二用户接收的音频用箭头306示出。第一用户301为第二用户捕获空间音频信息。捕获的空间音频信息用箭头305示出。在图4A、图4B和图4C的示例中，第三用户303是感兴趣的声源。例如，第三用户303可以是在合唱团中唱歌的人。

在图4A的示例中，第一用户301使用一对无线耳机。该对无线耳机可以包括第一无线耳机和第二无线耳机。在这种情况下，一个耳机可以被配置为充当麦克风，而一个耳机可以被配置为充当扬声器。

在图4B的示例中，第一用户301已经将音频设备250中的一个交给了第三用户303。在下文中，假定第一用户301使用第一无线耳机并且第三用户303使用第二无线耳机。假定第三用户303是在合唱团中唱歌的人，当第三用户303移动到场地时，第三用户303的音频设备250与装置200之间的距离增加。

在图4C的示例中，装置200与音频设备250(例如，第二无线耳机)之间的距离307增加。装置200被配置为确定装置200与第三用户303的音频设备250之间的距离307是否在阈值的值以上。装置200还被配置为响应于确定装置200与第三用户303的音频设备250之间的距离307在阈值的值以上而激活将由音频设备250捕获的音频对象包括在由装置200捕获的空间音频信息中。假定第三用户303的音频设备250被配置为充当麦克风，激活音频对象的包括可以包括激活音频信号从第三用户的音频设备250的接收。另一方面，假定第三用户303的音频设备250被配置为充当扬声器，激活音频对象的包括可以包括发送将第三用户303的音频设备250从第一模式改变为第二模式的指令。例如，激活音频对象的包括可以包括发送将第三用户303的音频设备250从扬声器模式改变为麦克风模式的指令。作为另一示例，激活音频对象的包括可以包括发送停止使用扬声器的指令，这可能导致激活麦克风模式。

图5A和图5B示出了根据示例实施例的示例用户接口。更具体地，图5A中的示例用户接口示出了用于控制捕获的空间音频信息的用户接口，并且图5B中的示例用户接口示出了响应于确定与音频设备250相关的音频可听度值满足用于激活将音频对象包括在空间信息中的至少一个准则而动态地适配图5A所示的用户接口。

在图5A和图5B的示例中，音频设备250包括一对无线耳机。该对无线耳机可以包括第一无线耳机和第二无线耳机。类似于图4A、图4B和图4C的示例，假定第一用户301使用第一无线耳机并且第三用户303使用第二无线耳机。

装置200被配置为提供用户接口501和510。装置200还被配置为提供呈现在用户接口501、510上的一个或多个控制元件、以及空间音频场502的表示。在图5A和图5B的示例中，假定空间音频场的参考点包括空间音频场502的中心并且空间音频场的中心对应于装置200的定位。

在图5A的示例中，第一用户301利用空间音频输入。用户接口501包括用于控制空间音频信息的音量的控制元件505。用户接口501还被配置为呈现空间音频场502的表示。空间音频场502的表示包括不同方向的指示，诸如相对于参考点的前、右、后和左。

图5B示出了一个示例，其中第一用户301已经将一个无线耳机(诸如第二无线耳机)交给了第三用户303，并且与音频设备250相关的音频可听度值满足用于激活将音频对象包括在空间音频信息中的至少一个准则。

在图5B的示例中，至少一个准则包括第三用户303的无线耳机250(第二无线耳机)与第一用户301的无线耳机250(第一无线耳机)或装置200之间的距离307。当距离307在阈值的值以上时，音频对象在空间音频信息中的包括由装置200激活。装置200被配置为适配用户接口501以便能够控制音频对象。

在图5B的示例中，用户接口501包括用于控制接收的空间音频信息的音量的控制元件505和用于控制添加的音频对象的音量的控制元件515。添加的音频对象在控制元件515上被指示为远源。音频对象504的位置被指示为大约在空间音频场502中的右前方向。

再次参考图5A的示例，用户接口510包括用于控制接收的空间音频信息的音量的控制元件505和用于控制语音通道的音量的控制元件525。例如，第一用户301可以捕获空间音频信息并且同时收听来自第二用户的音频或者监测空间音频捕获。换言之，第一用户301利用两个音频输入。空间音频场502的表示包括不同方向的指示(诸如相对于参考点的前、右、后和左)、以及关于语音通道503的定位大致朝向左侧的指示。

在图5B的示例中，用户接口501包括用于控制接收的空间音频信息的音量的控制元件505、用于控制语音通道的音量的控制元件525、和用于控制添加的音频对象的音量的控制元件515。添加的音频对象在用户接口515上被指示为远源。音频对象504的位置被指示为大约在右前方向，并且语音通道503的定位被指示为在空间音频场中大约向左。

图6示出了结合先前公开的实施例的方面的示例方法600。更具体地，示例方法600示出了激活将音频对象包括在空间音频信息中。该方法可以由诸如移动计算设备等装置200来执行。

该方法开始于接收605由多个麦克风捕获的空间音频信息。该方法继续从无线连接到装置200的音频设备250接收610捕获的音频对象。

该方法还继续确定615与音频设备250相关的音频可听度值。

该方法还继续确定620音频可听度值是否满足至少一个准则。如果音频可听度值不满足至少一个准则，则该方法返回到确定620音频可听度值是否满足至少一个准则。如果音频可听度值满足至少一个准则，则该方法继续激活625将由音频设备250捕获的音频对象包括在由多个麦克风捕获的空间音频信息中。

图7A和图7B示出了音频可听度值和音频可听度阈值的值的示例。装置200被配置为基于装置200与音频设备250之间的关系确定音频可听度值。

在图7A的示例中，音频可听度值是基于装置200与音频设备250之间的距离来确定的。根据示例实施例，装置200与音频设备250之间的距离被用作音频可听度值。在这种情况下，可以将距离与一个或多个阈值距离值进行比较。

图7B示出了音频可听度值和音频可听度阈值的值的两个示例实施例。在图7B的示例中，音频可听度值是基于装置200与音频设备250之间的距离来确定的，其基于声压水平被适配。基于声压水平确定音频可听度值可以包括将声压水平保持为固定值并且根据声压值适配距离或确定取决于声压水平的自适应音频可听度阈值的值。

在不限制权利要求的范围的情况下，激活音频对象到空间音频信息的包括的优点在于，可以在空间音频信息中组合和/或隔离感兴趣的声源。另一优点是，即使场地拥挤等，捕获空间音频信息的用户也可以拾取感兴趣的声源。另一优点是，空间音频信息中可以包括可能由于距离或其他因素而不可听的声源。另一优点是，感兴趣的声源可以在必要时被包括在空间音频信息中。另一优点是，可以利用常规附件，而无需投资购买昂贵和复杂的设备。

在不以任何方式限制以下出现的权利要求的范围、解释或应用的情况下，本文中公开的一个或多个示例实施例的技术效果是，可以在没有复杂布置的情况下提供高质量的空间音频捕获。另一技术效果是，可以自动激活音频对象的包括。另外的技术效果是，当避免在空间音频信息中不必要地包括感兴趣的声源时，可以节省计算资源和带宽。

如本申请中使用的，术语“电路系统”可以是指以下中的一项或多项或全部：(a)仅硬件电路实现(诸如仅在模拟和/或数字电路系统中的实现)，以及(b)硬件电路和软件的组合，诸如(如适用)：(i)(多个)模拟和/或数字硬件电路与软件/固件的组合，以及(ii)具有软件的(多个)硬件处理器(包括(多个)数字信号处理器)、软件和(多个)存储器的任何部分，其一起工作以使装置(诸如移动电话或服务器)执行各种功能，以及(c)(多个)硬件电路和/或(多个)处理器，诸如(多个)微处理器或(多个)微处理器的一部分，其需要软件(例如，固件)进行操作，但当不需要该软件进行操作时，该软件可能不存在。

该电路系统的定义适用于该术语在本申请中的所有使用，包括在任何权利要求中。作为另一示例，如本申请中使用的，术语电路系统还涵盖仅硬件电路或处理器(或多个处理器)或者硬件电路或处理器的一部分及其(或它们的)随附软件和/或固件的实现。例如，如果适用于特定权利要求元素，术语电路系统还涵盖用于移动设备的基带集成电路或处理器集成电路、或者服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路。

本发明的实施例可以以软件、硬件、应用逻辑或软件、硬件和应用逻辑的组合来实现。软件、应用逻辑和/或硬件可以驻留在装置、单独的设备或多个设备上。如果需要，软件、应用逻辑和/或硬件的一部分可以驻留在装置上，软件、应用逻辑和/或硬件的一部分可以驻留在单独的设备上，并且软件、应用逻辑和/或硬件的一部分可以驻留在多个设备上。在示例实施例中，应用逻辑、软件或指令集被维护在各种常规计算机可读介质中的任何一种上。在本文档的上下文中，“计算机可读介质”可以是可以包含、存储、传送、传播或传输指令以供指令执行系统、装置或设备(诸如计算机)使用或与其结合使用的任何介质或部件，图2中描述和描绘了计算机的一个示例。计算机可读介质可以包括计算机可读存储介质，该计算机可读存储介质可以是可以包含或存储指令以供指令执行系统、装置或设备(诸如计算机)使用或与其结合使用的任何介质或部件。

如果需要，本文中讨论的不同功能可以以不同顺序和/或彼此同时执行。此外，如果需要，上述功能中的一个或多个可以是可选的或者可以组合。

尽管在独立权利要求中阐述了本发明的各个方面，但是本发明的其他方面包括来自所描述的实施例和/或从属权利要求的特征与独立权利要求的特征的其他组合，而不仅仅是在权利要求中明确阐述的组合。

对于本领域技术人员来说很清楚的是，随着技术的进步，本发明的概念可以以各种方式实现。本发明及其实施例不限于上述示例，而是可以在权利要求的范围内变化。

Claims

1.一种装置，包括：

用于接收由多个麦克风捕获的空间音频信息的部件；

用于从无线连接到所述装置的音频设备接收捕获的音频对象的部件；

用于确定与所述音频设备相关的音频可听度值的部件；

用于确定所述音频可听度值是否满足至少一个准则的部件；以及

用于响应于确定所述音频可听度值满足所述至少一个准则而激活将由所述音频设备捕获的所述音频对象包括在由所述多个麦克风捕获的所述空间音频信息中的部件。

2.根据权利要求1所述的装置，其中所述音频对象包括音频流。

3.根据权利要求1或2所述的装置，其中与所述音频设备相关的所述音频可听度值取决于所述音频设备与所述装置之间的距离。

4.根据权利要求3所述的装置，其中与所述音频设备相关的所述音频可听度值包括所述音频设备与所述装置之间的所述距离。

5.根据权利要求3所述的装置，其中与所述音频设备相关的所述音频可听度值包括所述音频设备与所述装置之间的声音飞行时间。

6.根据权利要求3至5中任一项所述的装置，其中与所述音频设备相关的所述音频可听度值基于声压水平或噪声水平来适配。

7.根据任一前述权利要求所述的装置，其中所述至少一个准则包括取决于所述音频设备与所述装置之间的所述距离的阈值的值。

8.根据任一前述权利要求所述的装置，其中所述音频设备包括无线耳机。

9.根据任一前述权利要求所述的装置，其中所述音频设备包括被配置为作为一对无线耳机进行工作的第一无线耳机和第二无线耳机，并且所述音频可听度值包括所述第一无线耳机与所述第二无线耳机之间的距离。

10.根据任一前述权利要求所述的装置，其中确定所述音频可听度值是否满足所述至少一个准则包括确定所述音频可听度值是否高于阈值的值。

11.根据任一前述权利要求所述的装置，其中所述装置包括用于去激活将由所述音频设备捕获的所述音频对象包括在由所述多个麦克风捕获的所述空间音频信息中的部件。

12.根据任一前述权利要求所述的装置，其中所述装置包括用于将所述音频设备从第一模式切换到第二模式的部件。

13.根据任一前述权利要求所述的装置，其中所述装置包括用于提供用于控制所捕获的所述空间音频信息的控制元件的部件、以及用于响应于确定所述音频可听度值满足所述至少一个准则而适配用户接口的部件。

14.一种方法，包括：

接收由多个麦克风捕获的空间音频信息；

从无线连接到所述装置的音频设备接收捕获的音频对象；

确定与所述音频设备相关的音频可听度值；

确定所述音频可听度值是否满足至少一个准则；以及

响应于确定所述音频可听度值满足所述至少一个准则，激活将由所述音频设备捕获的所述音频对象包括在由所述多个麦克风捕获的所述空间音频信息中。

15.一种计算机可读介质，包括用于使装置至少执行以下操作的指令：

接收由多个麦克风捕获的空间音频信息；

从无线连接到所述装置的音频设备接收捕获的音频对象；

确定与所述音频设备相关的音频可听度值；

确定所述音频可听度值是否满足至少一个准则；以及