CN117321984A

CN117321984A - 基于内容类型或参与者角色的视频会议电话中的空间音频

Info

Publication number: CN117321984A
Application number: CN202280018870.4A
Authority: CN
Inventors: 卡斯腾·塞普; 安东·沃尔科夫; 杰·普姆·帕克
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-06-04
Filing date: 2022-06-03
Publication date: 2023-12-29
Also published as: WO2022256585A2; WO2022256585A3; US20220394413A1; EP4248645A2; US11540078B1

Abstract

本公开描述了用于多参与者视频会议的系统和方法。系统可以基于内容类型或参与者角色在视频会议通话中执行空间音频调制技术。特别的，通过将用户角色和内容类型分配给二维或三维音频声音空间或"声场"中的特定区域，用户可以仅仅通过听来识别音频的源(例如，当前发言人是谁和/或声音是否来自特定类型的内容)。因此，在本公开的示例实施方式中，一些会议角色和/或内容类型中的每一个都可以在音频声场内被分配特定的虚拟位置。

Description

基于内容类型或参与者角色的视频会议电话中的空间音频

优先权声明

本申请是美国申请号17/339,226的延续，其申请日为2021年6月4日。申请人要求对这些申请中的每一项享有优先权和利益，并将所有这些申请纳入本文的整体参考。

技术领域

本公开一般涉及视频会议技术。更具体地说，本公开涉及基于内容类型或参与者角色的视频会议电话中的空间音频。

背景技术

多与会者视频会议系统可以视频会议的多个与会者向客户端设备提供视听流。通常，有许多参与者正在参加视频会议，并且可以在显示屏上可视化(例如，来自其他参与者的视觉数据，展示的内容，共享的内容等)。

然而，在现有的视频会议技术中，每个视听流的音频部分始终放置在与视频会议相关的音频声场的前面和中心。无论内容类型、参与者在屏幕上的位置，或参与者在会议中的角色如何。这是一种不自然的用户体验，因为人类期望声音的空间差异。

因此，参与者可能会努力从多个可能的源(例如，多个其他参与者)中消除音频流来源的歧义。这种在视频会议中消除音频来源歧义的努力可能会导致误解、疲劳、中断、无法分离多个扬声器/音频源等。这些缺点中的每一个都可能导致更长的视频会议，从而导致计算资源的使用增加，如处理器使用、内存使用、网络带宽等。

发明内容

本公开的实施例的方面和优点将在下面的描述中部分地阐述，或者可以从描述中了解，或者可以通过实践实施例了解。

本公开的一个示例方面涉及用于在视频会议应用中提供空间音频的计算机实施的方法。所述方法包括由包含一个或多个计算设备的计算系统接收与视频会议中的多个参与者分别相关联多个视听流，其中每个视听流包括音频数据和视觉数据。针对所述多个视听流中的至少第一视听流，所述方法包括：由所述计算系统确定所述第一视听流的会议属性，其中所述会议属性描述以下一项或两项:与所述第一视听流相关联的内容类型或与所述第一视听流相关联的参与者角色；由所述计算系统至少部分地基于所述会议属性，确定所述第一视听流在音频声场内的第一虚拟音频位置；以及由所述计算系统修改与所述第一视听流相关联的所述音频数据，以使所述音频数据的播放在所述音频声场内具有所述第一虚拟音频位置。所述方法包括由所述计算系统提供所述多个视听流，所述多个视听流包括具有修改过的音频数据的所述第一视听流，用于在所述视频会议中的视听播放。

本公开的另一示例方面指向一种计算系统，所述计算系统包括一个或多个处理器和存储指令的一个或多个非暂时性计算机可读介质，当所述指令由所述一个或多个处理器执行时使得所述计算系统执行操作。所述操作包括由所述计算系统接收与视频会议中的多个参与者相关联的多个视听流，其中每个视听流包括音频数据和视觉数据。所述操作包括针对所述多个视听流中的至少第一视听流:由所述计算系统确定所述第一视听流的会议属性，其中所述会议属性描述了以下一项或两项:与所述第一视听流相关联的内容类型或与所述第一视听流相关联的参与者角色；由所述计算系统至少部分地基于所述会议属性，确定所述第一视听流在音频声场内的第一虚拟音频位置；以及由所述计算系统修改与所述第一视听流相关联的所述音频数据，以使所述音频数据的播放在所述音频声场内具有所述第一虚拟音频位置。所述操作包括由所述计算系统提供所述多个视听流，所述多个视听流包括具有修改过的音频数据的所述第一视听流，用于所述视频会议的视听播放。

本公开的另一示例方面指向存储指令的一种或多种非暂时性计算机可读介质，当所述指令由计算系统的一个或多个处理器执行时，使所述计算系统进行操作，以校准视频会议的参与者的音频。所述操作包括用音频播放设备引起音频数据的播放，同时修改所述音频数据在音频声场内的虚拟音频位置。所述操作包括在修改所述音频数据在音频声场中的虚拟音频位置期间，接收视频会议的所述参与者提供的输入数据。所述操作包括基于所述视频会议的参与者提供的所述输入数据，确定所述视频会议的所述参与者相对于音频播放设备的物理位置。所述操作包括利用所述视频会议的所述参与者相对于音频播放设备的所述物理位置，修改来自所述视频会议的其他参与者的一个或多个其他音频信号，以使所述音频播放设备对所述一个或多个其他音频信号的播放在所述视频会议期间为所述视频会议的所述参与者生成的音频声场中具有预期的虚拟位置。

本公开的其他方面涉及各种系统、设备、非暂时性计算机可读介质、用户界面和电子设备。

参考以下描述和所附权利要求，本公开的各种实施例的这些和其他特征、方面和优点将变得更好地理解。附图包含在本说明书中并构成本说明书的一部分，说明了本公开的示例实施例，并且与描述一起用于解释相关原理。

附图说明

本说明书中列出了针对本领域普通技术之一的实施例的详细讨论，其参考了所附图，其中:

图1描述了根据本公开的示例实施例的示例计算系统的框图。

图2A和2B描述了根据本公开的示例实施例的视听流分组的空间音频调制。

图3描述了根据本公开的示例实施例的基于视听流的内容类型的空间音频调制的示例。

图4描述了根据本公开的示例实施例的基于视听流的参与者角色的空间音频调制的示例。

图5描述了根据本公开的示例实施例的基于视听流的参与者角色的空间音频调制的示例。

图6描述了根据本公开的示例实施例的基于视听流的内容类型的空间音频调制的示例。

在多元图形中重复的参考数字旨在识别各种实现中的相同特征。

具体实施方式

本公开的示例方面涉及系统和方法，在视频会议电话中基于内容类型或参与者角色执行空间音频调制技术。特别的，通过将用户角色和内容类型分配给二维或三维音频声音空间或"声场"中的特定区域，用户可以仅仅通过听来识别音频的源(例如，当前说话者是谁和/或声音是否来自特定类型的内容)。因此，在本公开的示例实施方式中，一些会议角色和/或内容类型中的每一个都可以在音频声场中被分配特定的虚拟位置。然后，来自部分或所有源的音频数据(例如，包括在视频会议中的每个视听流)可以被修改，以便音频数据的播放在音频声场中具有与它的会议角色或内容类型相对应的虚拟位置。以这种方式，视频会议的参与者可以很容易地识别和归属视频会议中包括的每个音频信号的来源。

更特别的是，视频会议系统可以接收多个视听流，这些视听流分别与视频会议中的多个参与者有关。每个视听流可以包括音频数据和视觉数据。在一些实施方式中，一些或所有参与者可以是人类参与者。例如，视觉数据可以对应于描述人类参与者的视频，而音频数据可以对应于在人类参与者所在的环境中捕获的音频。在一些实施方式中，一些参与者可以对应于正在一些或所有其他参与者之间共享的内容。例如，视听流可以对应于共享显示或其他共享内容(例如，由特定的人类参与者从他们的设备共享或从第三方来源或集成共享)。在另一示例中，一个视听流可以对应于多个人类参与者(例如，位于同一房间使用一套视听设备的多个人类)。

在一些实施方式中，视听流(例如，由参与者共享的显示流)可以包括动态视觉数据，而该流的音频数据为空或空白。在其他实施方式中，视听流可以包括动态音频数据，而该流的视觉数据为空或空白(例如，在人类参与者的视频"关闭"的情况下)。因此，如本文所使用的，术语视听流一般指定义的内容流，可以包括音频和/或视频。多个内容流可以来自同一设备(例如，在用户有用于他们的视频/音频存在的第一视听流以及从他们的设备到其他参与者分享内容的第二视听流的情况)。

根据本公开的一方面，对于包括在视频会议中的部分或全部视听流，视频会议系统可以为每个视听流确定会议属性。会议属性可以描述视听流如何与视频会议中的其他视听流相关和/或视听流应该如何被各种会议参与者感知的特征。作为示例，为每个视听流确定的会议属性可以描述或对应于以下一个或两个：与视听流相关联的内容类型或与视听流相关的参与者角色。

根据本公开的另一方面，视频会议系统可以至少部分地基于为视听流确定的会议属性，在音频声场内为每个视听流确定虚拟音频位置。视频会议系统可以修改与每个视听流相关的音频数据，以使音频数据的播放具有为视听流确定的音频声场内的虚拟音频位置。然后，视频会议系统可以提供具有修改的音频数据的多个视听流，以便在视频会议中进行视听播放。

各种技术可用于修改与每个视听流相关的音频数据，以使音频数据的播放具有为视听流确定的音频声场内的虚拟音频位置。示例技术包括使用与头部有关的传递函数，这是一种描述耳朵如何从空间的某一点接收声音的响应。其他示例技术包括波场合成、环绕声、混响和/或其他三维位置的音频技术。音频声场可以是二维的(例如，具有与相关联的显示屏幕的轴线相对应的两个维度)，或者音频声场可以是三维的(例如，具有附加的深度维度)。

因此，在本公开的示例实施方式中，一些会议角色和/或内容类型中的每个都可以在音频声场中被分配特定的虚拟位置。然后，包括在视频会议中的部分或全部视听流可以分配给不同的会议角色和/或内容类型。此后，视频会议中包括的部分或全部视听流的音频数据可以被修改，以便每个视听流的音频数据的播放在音频声场中具有与其会议角色或内容类型相对应的虚拟位置。以这种方式，视频会议的参与者可以很容易地识别和归属视频会议中包括的每个音频信号的源。

上述框架可用于实施一些不同的用例或示例应用或用户体验。在一些例子中，为每个视听流确定的会议属性可以对应于或被约束为多个预定义属性值中的一个。

作为示例，多个预定义属性值可以至少包括演示内容类型和发言人参与者角色。因此，与已被确定为演示内容类型的视听流相关联的音频可以被修改，以便来自与演示内容相关联的某个虚拟音频位置(例如，中部-左侧)，同时与已被确定为发言人参与者角色的视听流相关联的音频可以被修改，以便来自与发言人相关的不同虚拟音频位置(例如，顶部-右侧)。

在另一个示例中，多个预定义属性值可以至少包括发言人参与者角色和听众参与者角色。因此，与已经被确定为发言人角色的视听流相关联的音频可以被修改，以便来自与发言人相关联的某个虚拟音频位置(例如，顶部-中心)。另一方面，与已被确定为听众参与者角色的视听流相关联的音频可以被修改，以便来自与听众相关联的不同的虚拟音频位置(例如，底部-中心)。在一些实施方式中，多个视听流可以被指定为发言人参与者角色(例如，当发言人的"小组"存在时)。

在另一个示例中，多个预定义属性值可以至少包括主要发言人参与者角色和翻译人参与者角色。例如，主要发言人参与者角色可以包括主要组发言人参与者角色(即小组或炉边谈话)。因此，与已被确定为主要发言人角色的视听流相关联的音频可以被修改，以便来自与主要发言人相关的某个虚拟音频位置(例如，中心-中心)。另一方面，与已被确定为翻译参与者角色的视听流相关联的音频可以被修改，以便来自与翻译人相关联的不同的虚拟音频位置(例如，底部-右侧)。在一些实施方式中，多个视听流可以被指定为主要发言人角色(例如，当多人以共同语言或不同语言发言时)。在一些实施方式中，多个视听流可以被指定为翻译人角色(例如，当多人翻译成不同语言时)。多个翻译人可以位于不同的虚拟音频位置。

在另一个示例中，多个预定义属性值可以至少包括有字幕的内容类型和无字幕的内容类型。因此，与已被确定为无字幕音频的视听流相关联的音频可以不做修改，以便来自于这种音频本来位于的位置。另一方面，与已被确定为有字幕音频的视听流相关联的音频可以被修改，以便来自于与有字幕音频相关联的特定虚拟音频位置(例如，底部-中心)。例如，基于内部会议设置或参数和/或基于从音频生成的文本与有字幕文本的比较，可以确定音频与字幕音频对应。

作为另一个示例，在一些实施方式中，会议属性可以描述将视听流分配到多个视听流的多个不同分组之一。例如，每个视听流可以被分配(例如，自动地和/或由参与者或主持人)到若干不同组之一。每个组可以在音频声场中被分配不同的虚拟音频位置。然后，任何视听流的音频可以被修改，以便来自分配给组的虚拟音频位置，其中视听流当前被分配/包括在该组。以这种方式，在同一视频会议中可以出现分组讨论室或多个子会议，同时使用不同的虚拟音频位置，使参与者能够区分每个子会议中出现的音频(例如，对话)。这个示例使用可以促进交互活动(如网络活动或休闲聚会)在同一视频会议中发生，用户能够在不同的子会议中移动，加入不同的讨论或对话。

在一些实施方式中，视听流的会议属性(例如，内容类型或参与者角色)可以是预先分配的和静态的(例如，在视频会议过程中不改变)。在其他实施方式中，会议属性可以是动态的(例如，在视频会议的过程中改变)。例如，角色可以由主持人改变，或者可以基于自动判断或分析而自动改变。

在一些实施方式中，视听流的相应会议属性可以是手动控制的。例如，主持人可以控制/分配视听流的会议属性，使得它们对视频会议的所有参与者是相同的(例如，每个视频会议参与者接收相同的音频体验)。在另一个示例中，由于在他们自己的设备上播放，每个会议参与者可以能够被分配视听流的会议属性(例如，每个视频会议参与者可以有他们自己的不同的和单独控制的音频体验)。

在一些实施方式中，视听流的相应会议属性可以自动确定。例如，可以使用各种算法或启发式来自动确定每个视听流的一个或多个会议属性。作为一个示例，视频会议系统可以识别包括在视听流之一中的视觉数据中的文本；执行语音转文本，以从包括在另一个视听流中的音频数据中生成文本；以及当从音频数据中生成的文本与视觉数据中的文本相匹配时，将另一个视听流识别为发言人参与者角色。换句话说，视频会议系统可以使用各种工具，如语音转文本工具、光学字符识别(OCR)工具等，来检测某个视听流何时对不同视听流中呈现的内容进行介绍。在另一个示例中，各种机器学习技术，如人工神经网络，可用于自动确定视听流的相应的会议属性。例如，可以使用监督技术训练机器学习模型，该技术应用于训练从手动分配相应的会议属性到视听流中收集的数据。在另一个示例中，模型可以使用无监督技术训练自己，例如观察和自我评价会议动态。

在一些实施方式中，第一视听流的会议属性可以在与视频会议相关联的日历邀请中被分配或被定义。例如，日历邀请的创建者可以能够在日历邀请内将会议属性分配给被邀请的与会者。其他与会者可以有也可以没有修改或要求修改会议属性的能力(例如，根据选定的设置)。

在一些实施方式中，可供使用的会议属性(例如，预定义属性值)可以与为视频会议选择的预定义模板布局或主题相关联，并且是预定义模板布局或主题的函数。例如，一些模板布局可以被预定义。每个模板布局可以有一些与模板布局相关联预定义的会议属性值。包括在视频会议中的视听流可以被分配以填充包括在布局中的不同预定义属性值。作为示例，布局可以对应于由五个发言人角色和一个组听众角色组成的小组。五个视听流可以被分配到五个小组的位置，且所有其他视听流放置与组听众角色相关联。示例模板可以有相应的视觉位置、视觉外观修改(例如，虚拟的"照相馆"切口、虚拟图片框架、虚拟背景等)、时间特征、组洗牌特征或其他特征。

在一些实施方式中，与视听流相关联的音频数据可以被分配到多个不同的虚拟音频位置。例如，对于某些会议属性，可以分配多个虚拟音频位置。作为一个示例，示例会议角色可以对应于乐器的演示或教学。在这样的示例中，来自对应于语音的视听流的音频数据可以被修改为来自第一虚拟音频位置(例如，顶部-右侧)，而来自对应于音乐的同一视听流的音频数据可以被修改为来自第二虚拟音频位置(例如，中心-中心)。因此，在这个和其他示例中，视频会议系统可以对与视听流相关联的音频数据执行源分离，将音频数据分成来自第一音频源的第一源音频数据和来自第二音频源的第二源音频数据。第一源音频数据和第二源音频可以被修改为来自不同的虚拟音频位置。例如，可以基于频域分析来进行源分离。

在一些示例实施方式中，与视听流的音频数据相关联的虚拟音频位置可以与视听流的视觉数据的视频位置相关联。例如，发言人的视频可以出现在参与者的显示屏幕的右上方，而相应的音频位于声场的右上方。然而，在其他实施方式中，与视听流的音频数据相关联的虚拟音频位置可以与视听流的视觉数据的视频位置去相关。例如，某个视听流的音频可以在声场周围移动，而不考虑相应的视频在显示屏幕上的位置。

本公开内容中描述的技术(例如，一般归属于视频会议系统的技术)可以在各种不同的设备上执行。作为一个示例，本文描述的技术(例如，会议属性的确定和由此产生的音频数据的修改)可以在促进视频会议的服务器计算系统中执行。例如，当音频修改对所有参与者是一致/统一的时候，这种情况可以是有利的。作为另一个示例，本文描述的技术(例如，会议属性的确定和音频数据的结果修改)可以在客户端计算设备(例如，与参与者之一相关联的设备)上执行。例如，当音频修改不一致且针对不同的参与者不同时，或者当用户激活"无障碍模式"(以有利于他们理解的方式在声场上分配声源)时，甚至在视觉提示不可用时，这种情况可以是有利的。在示例中，音频数据的修改可以通过执行视频会议网络应用的浏览器应用执行的插件或其他计算机可读代码在客户端计算设备上执行。在另一个示例中，客户端的操作可以在专门的视频会议应用中执行。

本公开的另一个示例方面涉及校准视频会议的参与者的音频的技术。特别的，在一个示例中，为给与会者校准音频，视频会议系统可以用音频播放设备引起音频数据的播放，同时修改音频数据在音频声场中的虚拟音频位置。当在音频声场内修改音频数据的虚拟音频位置的期间，系统可以接收视频会议的参与者提供的输入数据，并根据视频会议的参与者提供的输入数据，确定视频会议的参与者相对于音频播放设备的物理位置。系统可以使用视频会议的参与者相对于音频播放设备的物理位置来修改来自视频会议的其他参与者的一个或多个其他音频信号，以使音频播放设备对该一个或多个其他音频信号播放在视频会议期间为视频会议参与者生成的音频声场中基于预期的虚拟位置。

本公开内容提供了一些技术效果和好处。作为技术效果和好处的一个示例，本公开的系统和方法使多与会者视频会议中的参与者能够改善音频理解。更特别的是，本公开内容修改了来自视频会议中包括的部分或全部源(例如，每个视听流)的音频数据，从而使音频数据的播放在音频声场中具有与其会议角色或内容类型相对应的虚拟位置。以这种方式，视频会议的参与者可以很容易地识别和归属视频会议中包括的每个音频信号的源。对音频源属性的改进和直观理解可以减少疲劳，并提供更容易理解和一致的用户体验，这对有视觉障碍的用户可以是特别有利的。

作为另一个示例技术效果，本公开的系统和方法还节约了计算资源。特别的，本公开的系统和方法使视频会议的参与者能够更容易地识别包括在视频会议中的每个音频信号，并将其归属于特定的源。这可以减少视频会议中的混乱，从而减少视频会议的长度，因为可能需要澄清的误解更少。较短的视频会议可以节省计算资源，如处理器的使用、存储器的使用、网络带宽等。此外，用户可以只是作为"听众"来参加视频会议，这种基于内容类型、用户角色和无障碍设置的音频空间分布可以足够去理解和跟随会议，通过省略视觉数据来节省带宽。

本文提出的技术可以对视障用户有特别的帮助，他们可能无法从视觉上确定当前说话者或音频源的身份。因此，作为示例，通过将音频空间中的虚拟位置分配给用户角色和内容类型，视障用户可以分辨出是主讲人还是听众正在讲话，和/或声音是属于共享内容还是集成应用。

现在参考图，将进一步详细讨论本公开的示例实施方式。

图1描述了根据本公开的示例实施方式的示例客户端-服务器环境100。客户端-服务器环境100包括客户端计算设备102和服务器计算系统130，它们通过网络180连接并通信。尽管描述的是单个客户端计算设备102，但任何数量的客户端计算设备102都可以包括在客户端-服务器环境100中，并通过网络180连接到服务器计算系统130。

在一些示例实施方式中，客户端计算设备102可以是任何合适的设备，包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、游戏机或任何其他配置为可以允许用户参与视频会议的计算机设备。客户端计算设备102可以包括一个或多个处理器112、存储器114、相关联的显示设备120、视频会议应用122、相机124、麦克风126和音频播放设备128(例如，扬声器，例如立体声扬声器)。

一个或多个处理器112可以是任意合适的处理装置，如微处理器、微控制器、集成电路或其他合适的处理装置。存储器114可以包括任意合适的计算系统或媒体，包括但不限于非暂态计算机可读介质、RAM、ROM、硬盘、闪存驱动器或其他存储器设备。存储器114可以存储一个或多个处理器112可以访问的信息，包括可以由一个或多个处理器112执行的指令。该指令可以是任意一组指令，其当由一个或多个处理器112执行时，会使一个或多个处理器112提供所需的功能。

特别的，在一些设备中，存储器114可以存储用于客户端计算设备102和服务器计算设备130间的视频会议的指令(例如，一个或多个视频会议应用122等)。客户端计算设备102可以实施指令去执行本公开的各个方面，包括指导与服务器计算系统130的通信，向用户提供视频会议应用122和/或视频流，将收到的视频流缩放到不同分辨率的显示区域，和/或生成指令并向为显示区域请求新视频流的服务器计算系统发送。

可以理解的是，术语"系统"可以指专业的硬件、在更通用的处理器上执行的计算机逻辑，或其某种组合。因此，一个系统可以在硬件、应用专用电路、固件和/或控制通用处理器的软件中实施。在一个实施方式中，系统可以作为存储在存储设备上，加载到存储器中并由处理器执行或可以由计算机程序产品提供的程序代码文件被实施，例如计算机可执行指令，这些指令存储在有形的计算机可读存储介质中，如RAM、硬盘或光学或磁性介质。

存储器114还可以包括数据116，例如可以被一个或多个处理器112检索、操纵、创建或存储的视频会议数据(例如，在客户端计算设备102处捕获的或从服务器计算系统130接收的)。在一些示例实施方式中，这种数据可以在视频会议期间被访问并显示给客户端计算设备102的一个或多个用户，或者被传输到服务器计算系统130。

客户端计算设备102可以执行视频会议应用122。在一个示例中，视频会议应用122是专用的、特制的视频会议应用。在另一个示例中，视频会议应用122是浏览器应用，它在本地(例如，由处理器112)执行计算机可读代码，以提供作为网络应用的视频会议。

视频会议应用122可以从相机124和/或麦克风126捕获视觉数据，并将该数据传送到服务器计算系统130。客户端计算设备102可以从服务器计算系统130接收来自视频会议的一个或多个其他参与者(例如，其他客户端计算设备102)的视听数据(例如，音频数据和/或视觉数据)。然后，客户端计算设备102可以在相关联的显示设备120上向客户端计算设备102的用户显示所接收的视觉数据和/或用音频播放设备128向客户端计算设备102的用户播放所接收的音频数据。在一些示例实施方式中，相机124从一个或多个用户收集视觉数据。相机124可以是能够捕获视觉数据的任意设备。麦克风126可以是能够捕获音频数据的任意设备。在一个示例中，网络摄像头可以同时充当相机和麦克风。

根据一些示例实施方式，服务器计算系统130可以包括一个或多个处理器132、存储器134和视频会议系统140。存储器134可以存储一个或多个处理器132可访问的信息，包括可由处理器执行的指令138和数据136。

服务器计算系统130可以使用未画出的网络通信设备与一个或多个客户端计算设备102进行通信。网络180可以是任意类型的通信网络，例如局域网(例如内联网)、广域网(例如因特网)，或其某种组合。一般来说，客户端计算设备102和服务器计算系统130之间的通信可以通过网络接口进行，使用任意类型的有线和/或无线连接，使用各种通信协议(例如，TCP/IP、HTTP、RTP、RTCP等)、编码或格式(例如，HTML、XML)和/或保护方案(例如，VPN、安全HTTP、SSL)。

服务器计算系统130可以包括视频会议系统140。在一些实施方式中，视频会议系统140可以配置为促进由一个或多个客户端计算设备102执行的视频会议应用122的操作。作为一个示例，视频会议系统140可以从分别与多个视频会议参与者相关的多个客户端计算设备102(例如，通过网络180)接收视听流。视频会议系统140可以向每个客户端计算设备102提供视听流。

视频会议应用122和/或视频会议系统140可以独立或协作地操作，以执行本文所述的任意技术。

图2A和2B描述了根据本公开的示例实施方式的基于视听流的分组的空间音频调制。特别的，图2A显示了视频会议应用的基本用户界面200。用户界面200显示来自多个视听流的视觉数据，这些视听流分别与视频会议中的多个参与者相关。每个视听流可以包括音频数据和视觉数据。在一些实施方式中，一些或所有参与者可以是人类参与者。例如，视觉数据可以对应于描绘人类参与者的视频，而音频数据可以对应于在人类参与者所在的环境中捕获的音频。例如，用户界面的区域202和204对应于描绘视频会议的两个不同人类参与者的视频。

在一些实施方式中，一些参与者(未显示)可以对应于正在一些或所有其他参与者之间共享的内容。例如，视听流可以对应于共享显示或其他共享内容(例如，由特定的人类参与者从他们的设备中共享或从第三方来源或集成中共享)。在另一个示例中，一个视听流可以对应于多个人类参与者(例如，位于同一房间的使用一套视听设备的多个人类)。

在一些实施方式中，视听流(例如，由参与者共享的显示流)可以包括动态视觉数据，而该流的音频数据为空或空白。在其他实施方式中，视听流可以包括动态音频数据，而该流的视觉数据为空或空白(例如，在人类参与者的视频"关闭"的情况下)。因此，如本文所使用的，术语视听流一般指可以包括音频和/或视频的定义的内容流。多个内容流可以来自同一设备(例如，在用户具有用于他们的视频/音频存在的第一视听流和将内容从他们的设备分享到其他参与者的第二视听流的情况下)。

在基本用户界面200的一些实施方式中，与视听流相关的音频数据的播放可以始终来自声场上的同一个虚拟位置(例如，中心)。在基本用户界面200的其他实施方式中，来自每个视听流的音频数据的播放可以来自相应的虚拟位置，该虚拟位置与用户界面200内相对应的视觉数据的位置相关(例如，与区域204中包含的视觉数据相关的音频数据的播放可以在声场的右上方有虚拟位置)。

根据本公开的一个方面，至少部分地基于为视听流确定的会议属性，视频会议系统可以在音频声场内为每个视听流确定虚拟音频位置。视频会议系统可以修改与每个视听流相关的音频数据，以使音频数据的播放具有为视听流确定的音频声场内的虚拟音频位置。然后，视频会议系统可以提供具有修改过的音频数据的多个视听流，用于视频会议中的视听播放。该框架可用于实现一些不同的用例或示例应用或用户体验。

具体地，现在参考图2B，在一些实施方式中，为每个视听流确定的会议属性可以描述将每个视听流分配到多个视听流的多个不同分组中的一个。例如，每个视听流可以(例如，自动地和/或由参与者或主持人)被分配到若干不同组中的一个。每个组可以被分配音频声场中的不同的虚拟音频位置。然后，来自任意视听流的音频可以被修改，以便来自分配给组的虚拟音频位置，其中视听流当前被分配/包括在该组中。以这种方式，在同一视频会议中可以出现分组讨论室或多个子会议，同时使用不同的虚拟音频位置，以使参与者能够区分每个子会议中出现的音频(例如，对话)。这个示例使用可以促进交互事件(如网络事件或偶然的聚会)发生在同一个视频会议中，用户能够在不同的子会议中移动以加入不同的讨论或对话。

图2B说明了示例用户界面250，其中视听流已被分配到组。具体地，仅作为示例，已经生成了三个组，每个组分配了四个视听流。每个组可以被分配音频声场中的不同的虚拟音频位置。例如，组252可以被分配音频声场的左上方的虚拟音频位置。

然后，来自任意视听流的音频可以被修改，以便来自分配给该视听流当前被分配/包含在其中的组的虚拟音频位置。例如，来自254显示的视听流的音频的播放可以来自分配给组252的虚拟位置。

因此，声音的空间调制可以用来指示主通话中的组归属。例如，在从较大的视频会议中脱离出来进入子会议(分组讨论室)之前或作为代替，用户可以在屏幕上的不同二维位置进行分组。该组用户的声音可以在三维空间中被调制，以直接来自于该方向。这允许多个组同时交谈，但用户可以通过跟随与他们组的屏幕位置相关的调制的声音，在屏幕上轻松区分并找到他们的组。

作为另一个示例应用，图3描述了根据本公开的示例实施方式的基于视听流的内容类型的空间音频调制的示例。具体地，在图3中，视听流可以被分配(潜在地在其他可能的指定中)为演示内容类型和发言人参与者角色。因此，与已被确定为演示内容类型的视听流302相关联的音频可以被修改，以便来自与演示内容相关联的某个虚拟音频位置(例如，左中部)，而与已被确定为发言人参与者角色的视听流304相关联的音频可以被修改，以便来自与发言人相关联的不同虚拟音频位置(例如，右上角)。额外地，来自另一个源的声音(例如来自正包括在视频会议中的另一个事件或平台的直播流)可以被调制为来自右下方。

因此，可以基于内容类型进行声音的空间调制。这可以对残疾人有改善的"易使用性"或其他好处。例如，当人们在视频会议中介绍东西时，可以将版面分割：演示可以显示在一边(如左边)，发言人在另一边(如右边)，并且听众则在不同的位置。为了允许清晰的声音区分，示例实施方式可以调制演示的声音(例如，呈现的视频)，使其来自与发言人不同的方向。使用空间调制，发言人和呈现内容可以在声音上分开，并可以单独地混合。例如，视频会议系统可以提高发言人的声音，同时过滤掉来自呈现材料的噪声。观众可以被分配到3D声景中的另一个空间。属于此组的人的声音可以与演示和发言人的声音有不同的调制，因此很容易识别。因此，用户可以通过声音调制来识别内容类型。用户可以将其注意力集中在特定类型的内容上，同时仍能收听其他内容。

作为另一个示例应用，图4描述了根据本公开的示例实施方式的基于视听流的参与者角色的空间音频调制的示例。具体来说，在图4中，视听流可以被分配(潜在的在其他可能的指定中)为主持人参与者角色、观众参与者角色和翻译者参与者角色。因此，与已被确定为主持人角色的视听流402相关联的音频可以被修改，以便来自与发言人相关联的某个虚拟音频位置(例如，左上角)，而与已被确定为观众参与者角色的视听流404相关联的音频可以被修改，以便来自与观众相关联的不同虚拟音频位置(例如，左下角)。同样，与已被确定为翻译者角色的视听流406相关联的音频可以被修改，以便来自与翻译者相关联的某个虚拟音频位置(例如，右下角)。

因此，声音的空间调制可以基于参与者角色来进行。这对残疾人来说可能会有改善的"易使用性"或其他好处。例如，可以为会议中的一个或多个关键人物保留特定的屏幕位置。然后，这些数据流可以与二维或三维的虚拟声音位置相关联。视障用户将能够分辨出他们的声音，并能通过特定的二维或三维音频坐标分辨出这个人的重要性，例如，他们是目前正在讲话的发言人或CEO，而无需通过视觉方式知道他们的名字。

二维或三维的声音调制可以用来为不同类型的视频会议参与者分配可区分的角色。作为一个示例，教室里的老师的声音可能总是来自声音空间的顶部，而学生的声音可能来自声音空间的底部。作为另一个示例，来自小组的人的声音可能总是来自声音空间的顶部，而观众的问题总是来自声音空间的底部。

因此，在一些实施方式中，多个视听流可以被指定为发言人参与者角色(例如，当发言人的"小组"出现时)。例如，在图5中说明了这种情况，其中四个流(例如，包括流502)已被指定为专家小组，并且所有其他视听流(例如，包括流504)已被置于与组观众角色相关联的地方。

作为另一个示例应用，图6描述了根据本公开的示例实施方式的基于视听流的内容类型的空间音频调制的示例。例如，可以分配给视听流的预定义属性值可以至少包括有字幕的内容类型和无字幕的内容类型。因此，与已被确定为无字幕音频的视听流相关联的音频可以不被修改，以便来自这种音频本来位于的位置，而与已被确定为字幕音频的视听流相关联的音频可以被修改，以便来自与字幕音频相关联的特定虚拟音频位置(例如，底部中心)。例如，在图6中，区域602中描绘的视听流正在被加字幕(例如，如字幕604所示)。因此，来自区域602中描述的视听流的音频可以被修改，以便音频的播放来自声场的底部中心虚拟位置(例如，不管区域602中描述的视听流的视觉位置)。在其他实施方式中，有字幕的音频可以被调制为来自于如果没有字幕就会来自的位置。

本公开的另一个示例方面涉及为视频会议的参与者的校准音频的技术。特别的，在一个示例中，为给参与者校准音频，视频会议系统可以用音频播放设备引起音频数据的播放，同时修改音频数据在音频声场中的虚拟音频位置。在修改音频数据在音频声场内的虚拟音频位置期间，系统可以接收视频会议参与者提供的输入数据，并基于视频会议参与者提供的输入数据，确定视频会议参与者相对于音频播放设备的物理位置。系统可以使用视频会议参与者相对于音频播放设备的物理位置来修改来自视频会议其他参与者的一个或多个其他音频信号，以通过音频播放设备引起一个或多个其他音频信号的播放，以在视频会议期间具有为视频会议参与者生成的音频声场中的预期的虚拟位置。

更特别的是，用户通常不会坐在屏幕的中心位置，而且用户的音频播放设备(扬声器)与显示屏放置在同一位置可能并不安全。因此，示例实施方式可以使用三维声音平移来帮助用户在屏幕前正确定位。视频会议系统可以进行三维声音平移，用户可以指出声音的来源。例如，视频会议系统可以在空间上对声音进行三维处理，然后用户可以指出何时或何地从用户的视角来看音频处于中心位置。。

视频会议系统可以评估响应，从而确定用户的位置。视频会议系统可以利用这一信息在随后的会议中调制三维声音。利用三维声音操作，用户的位置可以被纠正。虽然用户可能仍然坐在不同的地方，但视频会议系统可以通过重新调整声场来弥补这一点。

本公开的另一个示例方面涉及利用信号处理技术并生成从音频数据和/或视频数据中提取的至少一个特征参数以确定第一视听流的虚拟音频位置的技术。特别的，在一个示例中，为了提取特征参数，通过使用信号处理技术来处理音频数据和/或视频数据，以生成指示特定会议属性的一个或多个特征参数(例如，语音识别技术和/或图像识别技术)来识别相应视听流中的主要发言人。根据这方面，第一视听流的会议属性因此可以从第一音频流的音频数据和/或视频数据直接被确定。然后，通过基于特征参数评估的结果来评估至少一个特征参数，第一视听流的第一虚拟音频位置可以被确定。例如，如果根据提取的特征参数，主要发言人被识别为演示302的发言人304，则第一虚拟音频位置将被确定为来自图3中的右上角位置。为了修改与第一视听流相关联的音频数据以使音频数据的播放具有音频声场内的第一虚拟音频位置，则基于第一虚拟音频位置向与第一视听流相关联的音频数据提供位置特征。例如，使用信号处理技术对音频数据进行转换，为第一视听流的音频数据提供虚拟音频位置，以便在播放期间听众体验到第一视听流来自第一虚拟音频位置。

本文讨论的技术提到了服务器、数据库、软件应用和其他基于计算机的系统，以及采取的动作和发送到这些系统与来自这些系统的信息。基于计算机的系统固有的灵活性允许在组件之间有多种可能的配置、组合以及任务和功能的划分。例如，本文所讨论的过程可以使用单个设备或组件或多个设备或组件组合工作来实施。数据库和应用可以在单个系统上实施或分布在多个系统上。分布式组件可以顺序地或并行地运行。

虽然本主题已经就其各种具体的示例实施方式进行了详细描述，但每个示例都是以解释的方式提供的，而不是对公开内容的限制。本领域的技术人员在了解了上述内容后，可以容易地对这些实施方式进行修改、变化和等同。因此，本主题的公开并不排除对本主题的修改、变化和/或补充，因为对于本领域的普通技术人员来说，这些修改、变化和/或补充是很明显的。例如，作为一个实施方式的一部分所说明或描述的特征可以与另一个实施方式一起使用，以生成进一步的实施方式。因此，本公开的目的是涵盖这种改变、变化和等同。

Claims

1.一种在视频会议应用中提供空间音频的计算机实施的方法，其特征在于，所述方法包括：

由包括一个或多个计算设备的计算系统接收与视频会议中的多个参与者分别相关联的多个视听流，其中每个视听流包括音频数据和视觉数据；

针对所述多个视听流中的至少第一视听流：

由所述计算系统确定所述第一视听流的会议属性，其中所述会议属性描述了以下一项或两项：与所述第一视听流相关联的内容类型或与所述第一视听流相关联的参与者角色；

由所述计算系统至少部分基于所述会议属性，确定所述第一视听流在音频声场内的第一虚拟音频位置；以及

由所述计算系统修改与所述第一视听流相关联的所述音频数据，以使所述音频数据的播放在所述音频声场内具有所述第一虚拟音频位置；以及

由所述计算系统提供所述多个视听流，所述多个视听流包括具有修改过的音频数据的所述第一视听流，用于在所述视频会议中的视听播放。

2.根据权利要求1所述的计算机实施的方法，其特征在于，

所述会议属性包括多个预定义属性值中的一个；以及

所述多个预定义属性值至少包括演示内容类型和发言人参与者角色。

3.根据权利要求1所述的计算机实施的方法，其特征在于，

所述会议属性包括多个预定义属性值中的一个；以及

所述多个预定义属性值至少包括发言人角色和听众参与者角色。

4.根据权利要求1所述的计算机实施的方法，其特征在于，

所述会议属性包括多个预定义属性值中的一个；以及

所述多个预定义属性值至少包括主讲人参与者角色和翻译者参与者角色。

5.根据权利要求1所述的计算机实施的方法，其特征在于，

所述会议属性包括多个预定义属性值中的一个；以及

所述多个预定义属性值至少包括有字幕的内容类型和无字幕的内容类型。

6.根据权利要求1所述的计算机实施的方法，其特征在于，所述会议属性描述了将所述第一视听流分配到所述多个视听流的多个不同分组中的一个分组。

7.根据权利要求1所述的计算机实施的方法，其特征在于，所述会议属性是动态的，并且可由所述视频会议的主持人手动控制。

8.根据权利要求1所述的计算机实施的方法，其特征在于，所述第一视听流的所述会议属性是特定于每个参与者的，并且可由所述视频会议的每个参与者手动控制。

9.根据权利要求1所述的计算机实施的方法，其特征在于，所述第一视听流的所述会议属性是在与所述视频会议相关联的日历邀请内定义的。

10.根据权利要求1所述的计算机实施的方法，其特征在于，

所述会议属性包括多个预定义属性值中的一个；以及

所述多个预定义属性值与为所述视频会议选择的预定义模板布局相关联，并且是所述预定义模板布局的函数。

11.根据权利要求1所述的计算机实施的方法，其特征在于，由所述计算系统确定所述第一视听流的所述会议属性包括由所述计算系统自动确定所述第一视听流的所述会议属性。

12.根据权利要求11所述的计算机实施的方法，其特征在于，由所述计算系统自动确定所述第一视听流的所述会议属性包括：

由所述计算系统识别包括在一个所述视听流中的视觉数据中的文本；

由所述计算系统执行语音转文本，以从包括在另一个所述视听流中的音频数据中生成文本；以及

当从音频数据生成的所述文本与所述视觉数据中的所述文本相匹配时，由所述计算系统识别另一个所述视听流。

13.根据权利要求1所述的计算机实施的方法，其特征在于，

由所述计算系统至少部分基于所述会议属性确定所述第一视听流在所述音频声场内的所述第一虚拟音频位置包括：由所述计算系统至少部分基于所述会议属性，确定所述第一视听流在所述音频声场内的所述第一虚拟音频位置和第二虚拟音频位置；以及

由所述计算系统修改与所述第一视听流相关联的所述音频数据、以使所述音频数据的播放在所述音频声场内具有所述第一虚拟音频位置包括：

由所述计算系统对与所述第一视听流相关联的所述音频数据进行源分离，以将所述音频数据分成来自第一音频源的第一源音频数据和来自第二音频源的第二源音频数据；

由所述计算系统修改所述第一源音频数据，以使所述第一源音频数据的播放在所述音频声场内具有所述第一虚拟音频位置；以及

由所述计算系统修改所述第二源音频数据，以使所述第二源音频数据的播放在所述音频声场内具有所述第二虚拟音频位置。

14.根据权利要求1所述的计算机实施的方法，其特征在于，所述第一视听流的所述第一虚拟音频位置与所述第一视听流的视频位置去相关。

15.根据权利要求1所述的计算机实施的方法，其特征在于，所述计算系统包括服务器计算系统，并且所述计算机实施的方法是在所述服务器计算系统执行。

16.根据权利要求1所述的计算机实施的方法，其特征在于，所述计算系统包括与其中一个所述参与者相关联的客户端计算设备，并且所述计算机实施的方法是在所述客户端计算设备执行。

17.一种计算系统，其特征在于，包括：

一个或多个处理器；以及

存储指令的一个或多个非暂时性计算机可读介质，当所述指令由所述一个或多个处理器执行时使得所述计算系统执行操作，所述操作包括：

由所述计算系统接收与视频会议中的多个参与者分别相关联的多个视听流，其中每个视听流包括音频数据和视觉数据；

针对所述多个视听流中的至少第一视听流：

由所述计算系统提供所述多个视听流，所述多个视听流包括具有修改过的音频数据的所述第一视听流，用于所述视频会议的视听播放。

18.根据权利要求17所述的计算系统，其特征在于，

所述会议属性包括多个预定义属性值中的一个；以及

所述多个预定义属性值包括：

演示内容类型；

发言人参与者角色；

听众参与者角色；

主讲人参与者角色；

翻译者参与者角色；

有字幕的内容类型；或

无字幕的内容类型。

19.根据权利要求17所述的计算系统，其特征在于，所述会议属性描述了将所述第一视听流分配到所述多个视听流的多个不同分组中的一个分组。

20.一种或多种存储指令的非暂时性计算机可读介质，其特征在于，当所述指令由计算系统的一个或多个处理器执行时，使所述计算系统进行操作，以校准视频会议的参与者的音频，所述操作包括：

用音频播放设备引起音频数据的播放，同时修改所述音频数据在音频声场内的虚拟音频位置；

在修改所述音频数据在所述音频声场内的虚拟音频位置期间，接收视频会议的所述参与者提供的输入数据；

基于所述视频会议的所述参与者提供的所述输入数据，确定所述视频会议的所述参与者相对于音频播放设备的物理位置；以及

利用所述视频会议的所述参与者相对于音频播放设备的所述物理位置，修改来自所述视频会议的其他参与者的一个或多个其他音频信号，以使所述音频播放设备对所述一个或多个其他音频信号的播放在所述视频会议期间为所述视频会议的所述参与者生成的音频声场中具有预期的虚拟位置。