CN105898185A

CN105898185A - 调节视频会议系统中的空间一致性

Info

Publication number: CN105898185A
Application number: CN201410670335.4A
Authority: CN
Inventors: 孙学京; 施栋; 黄申; 李凯; H·米施; G·迪金斯; G·斯皮特尔
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2014-11-19
Filing date: 2014-11-19
Publication date: 2016-08-24
Also published as: WO2016081412A1; EP3222040A1; US20170324931A1; CN107005678A

Abstract

本发明的实施例涉及空间一致性调节。公开了一种用于调节视频会议中的空间一致性的方法。该方法包括：检测由视频端点设备采集的视觉场景与由音频端点设备采集的听觉场景之间的空间一致性，该音频端点设备相对于视频端点设备被定位，空间一致性为听觉场景与视觉场景之间校准的程度；将所检测的空间一致性与预定的阈值相比较；并且响应于所检测的空间一致性低于该阈值而调节空间一致性。还公开了相应的系统和计算机程序产品。

Description

调节视频会议系统中的空间一致性

技术领域

本发明的实施例一般涉及音频内容处理，更特别地，涉及用于调节特别是在视频会议系统中的空间一致性的方法和系统。

背景技术

当实施视频会议时，视觉信号与听觉信号一起被生成且从一方传输至另一方，使得当一个或多个与会者正在发言时，在另一方产生的声音应当被同步化且同时播放。主要存在音频和视频之间的两种类型的差异：时间上的差异和空间一致性上的差异。音频和视频流之间的时间上的差异可导致同步问题，诸如从发言的与会者传出的语音不与其嘴型同步。空间一致性是用于描述正在被播放的声场如何与正在显示的视觉场景相匹配的术语，或者，其可以被定义为听觉场景和视觉场景之间校准的程度。本发明的目的在于调节视频会议系统中的空间一致性，使得听觉场景与视觉场景彼此匹配，为多方的与会者提供身临其境的视频会议体验。

如果音频信号是在若干现存的视频会议系统中广泛采用的单声道格式，则用户不需要关注空间一致性问题。空间一致性仅当音频信号以至少两个声道(及立体声)存在时才会发生。现今，声音可以被多于两个麦克风所采集，这将以诸如5.1或7.1环绕格式之类的多声道格式进行传输，并被终端用户的多个换能器表现及播放。在通常的会议环境中，多个与会者围绕用于采集其语音的设备，并且每个与会者可以被视为单个音频对象，其在发言时产生一系列音频信号。

如在本文中使用的，术语“音频对象”指的是在声场中存在限定时间期间的个体音频元素。音频对象可以是动态或静态的。例如，与会者可以围绕音频采集设备行走，且相应的音频对象的位置也相应地改变。

对于视频会议和各种其它涉及空间一致性问题的应用而言，不一致的听觉-视觉表现导致不自然的感受，这将导致会议体验降低。一般而言，小于5°的差异可以被视为可接受的，因为这样的角度差异对于大多数人而言并不明显。如果角度差异多于20°，大多数人都会显著地觉得不舒服。

有鉴于此，本领域有需要引入调节听觉场景以与视觉场景校准的方案，或者是调节视觉场景以与听觉场景校准的方案。

发明内容

为了解决前述和其它潜在的问题，本发明提出了用于调节视频会议系统中的空间一致性的方法和系统。

在一个方面，本发明的实施例提供了用于调节视频会议中的空间一致性的方法。该方法包括：检测由视频端点设备采集的视觉场景与由音频端点设备采集的听觉场景之间的空间一致性，该音频端点设备相对于视频端点设备被定位，空间一致性为听觉场景与视觉场景之间校准的程度；将所检测的空间一致性与预定的阈值相比较；并且响应于所检测的空间一致性低于该阈值而调节空间一致性。关于该方面的实施例进一步包括相应的计算机程序产品。

在另一个方面，本发明的实施例提供了用于调节视频会议中的空间一致性的系统。该系统包括：被配置成采集视觉场景的视频端点设备；被配置成采集听觉场景的音频端点设备，该音频端点设备相对于视频端点设备被定位；被配置成检测所采集的听觉场景与所采集的视觉场景之间的空间一致性的空间一致性检测单元，空间一致性为听觉场景与视觉场景之间校准的程度；被配置成将所检测的空间一致性与预定的阈值相比较的空间一致性比较单元；以及被配置成响应于所检测的空间一致性低于该阈值而调节空间一致性的空间一致性调节单元。

通过以下的描述，将要理解的是，根据本发明的各个实施例，空间一致性可以响应于听觉场景与视觉场景之间的任何差异而被调节。相对于视觉场景所调节的听觉场景或者相对于听觉场景所调节的视觉场景被多个换能器(包括扬声器、耳机等)以及至少一个显示器自然地呈现。本发明实现了以三维音频呈现的视频会议。本发明的各个实施例所实现的其它优点将通过以下描述而变得显而易见。

附图说明

通过参照附图的以下详细描述，本发明的上述和其它目的、特征和优点将变得更容易理解。在附图中，本发明的数个实施例讲义示例以及非限制性的方式进行说明，其中：

图1图示了根据本发明的示例实施例的音频端点设备的示意图；

图2图示了用于图1中所示的音频端点设备的示例坐标系；

图3图示了根据本发明的示例实施例的用于调节视频会议中的空间一致性的方法的流程图；

图4图示了根据本发明的示例实施例的通过在视频会议的一方的视频端点设备所采集的示意图；

图5图示了根据本发明的示例实施例的用于检测空间一致性的方法的流程图；

图6图示了根据本发明的示例实施例的在视频会议的一方的示例情景；

图7图示了根据本发明的示例实施例的用于检测空间一致性的方法的流程图；

图8图示了根据本发明的示例实施例的在视频会议的一方要被缩放的示例情景；

图9图示了根据本发明的示例实施例的用于调节视频会议中的空间一致性的系统的框图；以及

图10图示了适于实施本发明的实施例的示例计算机系统的框图。

在全部附图中，相同或相应的附图标记指代相同或相应的部分。

具体实施方式

现在将参照附图中所示的各种示例实施例对本发明的原理进行说明。应当理解，这些实施例的描述仅仅是使本领域技术人员能够更好地理解并进一步实施本发明，而不意在以任何方式限制本发明的范围。

本发明设计涉及包含在视频会议系统中的技术。为了使得视频会议中的音频信号以三维呈现，必须有两方加入会议，确立有效的会话。双方可以被命名为呼叫方和被呼叫方。在一个实施例中，呼叫方包括至少一个音频端点设备和至少一个视频端点设备。音频端点设备被适配为采集听觉场景，而视频端点设备被适配为采集视觉场景。所采集的听觉场景和所采集的视觉场景可以被传输至被呼叫方，使得所采集的听觉场景在被呼叫方被多个换能器播放并且所采集的听觉场景被至少一个屏幕显示。这样的换能器可以具有许多形式。例如，它们可以被构建作为置于主屏幕下方的声音条、具有许多分布在被叫方空间中的扬声器的多声道扬声器系统、在被呼叫方的与会者的对应的个人电脑(诸如笔记本电脑)上的立体声扬声器、或者被与会者佩戴的耳机或头戴式耳机。显示屏可以是悬挂在墙上的大型显示器或者多个在个人设备上的小型显示器。

在被呼叫方，可以包括用于采集听觉场景的音频端点设备以及用于采集视觉场景的视频端点设备，所采集的听觉场景和视觉场景各自将在呼叫方被播放及观看。然而，在该特定实施例中，应当注意的是在被呼叫方的端点设备是可选的，并且一旦在呼叫方提供至少一个音频端点设备与至少一个视频端点设备，视频会议或会话就可以被建立。在其它实施例中，例如，在呼叫方并不提供任何端点设备，但是在被呼叫方提供至少一个音频端点设备与至少一个视频端点设备。而且，呼叫方和被呼叫方可以互换，这取决于谁发起了该视频会议。

图1图示了根据本发明的示例实施例的音频端点设备100的示意图；一般而言，音频端点设备100包含至少两个麦克风，每个麦克风用于采集或收集向着它的声压。在一个实施例中，如图1所示，在单个音频端点设备100中设置了面对三个不同的方向的三个心形麦克风101、102、103。根据该特定实施例的每个音频端点设备100具有前方向，其被用来促进所采集的音频数据的转换。在如图1所示的该特定实施例中，由箭头所示的前方向相对于该三个麦克风被固定。可以设置指向第一方向的右侧麦克风101、指向第二方向的背侧麦克风102、以及指向第三方向的左侧麦克风103。在该特定实施例中，第一方向相对于前方向被顺时针旋转大约60度而得到，第二方向相对于前方向被顺时针旋转大约180度而得到，第三方向相对于前方向被逆时针旋转大约60度而得到。

应当注意的是，尽管在一个音频端点设备中可能存在多于三个麦克风，三个麦克风在多数情况下已经可以被用来在空间中采集到身临其境的听觉场景。在如图1所图示的麦克风的配置中，前方向被预设定并相对于麦克风被固定，以便于将从三个麦克风所采集的音频信号转换为“WXY”B格式。针对如图1所图示的在音频端点设备100中使用三个麦克风101、102和103的示例，音频端点设备100可以通过左侧麦克风103、右侧麦克风101以及背侧麦克风102生成LRS信号，其中L表示由左侧麦克风103采集及生成的音频信号，R表示由右侧麦克风101采集及生成的音频信号，以及S表示由背侧麦克风102采集及生成的音频信号。在一个实施例中，LRS信号可以通过以下等式被转换为WXY信号：

[\begin{matrix} W \\ X \\ Y \end{matrix}] = [\begin{matrix} \frac{2}{3} & \frac{2}{3} & \frac{2}{3} \\ \frac{2}{3} & \frac{2}{3} & - \frac{4}{3} \\ \frac{2}{\sqrt{3}} & - \frac{2}{\sqrt{3}} & 0 \end{matrix}] [\begin{matrix} L \\ R \\ S \end{matrix}] - - - (1)

在等式(1)中，W表示从所有的三个麦克风101、102、103相等加权的总信号，这意味着其可以被用作在音频信号正不包括位置或方向信息的单声道输出，而X和Y表示音频对象在如图2所示的X-Y坐标系中各自沿X轴和Y轴的位置。在图2所示的示例中，X轴由音频端点设备100的前方向所定义，并且Y轴相对于X轴逆时针旋转90度而得到。

这样的坐标系可以从X轴逆时针被旋转任意角度θ，并且新的WXY声场可以通过以下等式(2)而获得：

[\begin{matrix} W^{'} \\ X^{'} \\ Y^{'} \end{matrix}] = [\begin{matrix} 1 & 0 & 0 \\ 0 & \cos (θ) & - \sin (θ) \\ 0 & \sin (θ) & \cos (θ) \end{matrix}] [\begin{matrix} W \\ X \\ Y \end{matrix}] - - - (2)

通过使用等式(2)，音频端点设备100的旋转可以被补偿。

继续考虑环绕声场被生成为B格式信号的示例。将易于理解的是，一旦B格式信号被生成，W、X和Y通道可以被转换为适于空间表现的各种格式。环绕立体声(Ambisonics)的解码和重现取决于用于空间表现的扬声器系统。一般而言，从环绕立体声信号向一组扬声器信号的解码基于以下假设，如果所解码的扬声器信号被重播，在扬声器阵列的几何中心处录制的“虚拟”环绕立体声信号应当与用于解码的环绕立体声信号相同。这可以被表示为：

C·L＝B (3)

其中L＝{L₁，L₂，...，L_n}^T表示一组扬声器信号，B＝{W，X，Y，Z}^T表示“虚拟”环绕立体声信号，其假设与用于解码的输入环绕立体声信号相同，并且C是已知作为由扬声器阵列的几何定义(即每个扬声器的方位、仰角)所限定的“重新编码”矩阵。例如，给出方形扬声器阵列，其中扬声器被水平地防止在方位{45°，-45°，135°，-135°}以及仰角{0°，0°，0°，0°}，这将C定义为：

基于此，扬声器信号可以被导出为：

L＝D·B (5)

其中D表示通常被定义为C的假逆矩阵的解码矩阵。

根据一些实施例，在双声道表现中，音频通过一对耳机或头戴式耳机被重播。B格式至双声道的转换可以通过相加“虚拟”扬声器阵列馈送而大致实现，每一个被头部相关传递函数(HRTF)匹配扬声器位置而滤波。在空间聆听中，方向性的声音源行经两个不同的传播路径以各自到达左耳和右耳。这导致了两耳进入信号之间的到达时间和强度的差别，这随后被人类听觉系统利用以实现本地聆听。这两个传播路径可以通过一对依据方向的声学滤波器建模，该滤波器被称为头部相关传递函数。例如，假设声音源S位于方向耳进入信号S_left和S_right可以被建模为：

其中知表示方向的HRTF。在实践中，给定方向的HRTF可以通过插入对象(或者是人或者是假人头)的耳朵中的探针麦克风以从置于该方向的脉冲(或已知的刺激)拾得响应。

这些HRTF测量可以被用来从单声道源合成虚拟耳进入信号。通过利用对应于某方向并且经由耳机或头戴式耳机向听众呈现产生的左信号和右信号的一对HRTF对该源进行滤波，具有在所需的方向空间化的虚拟声音源的声场可以被仿真。使用如上所述的四个扬声器阵列，因而可以将W、X和Y通道转换为如下的双声道信号：

[\begin{matrix} S_{left} \\ S_{right} \end{matrix}] = [\begin{matrix} H_{left, 1} & H_{lrft, 2} & H_{lrft, 3} & H_{left, 4} \\ H_{reght, 1} & H_{right, 2} & H_{right, 3} & H_{right, 4} \end{matrix}] \cdot [\begin{matrix} L_{1} \\ L_{2} \\ L_{3} \\ L_{4} \end{matrix}] - - - (7)

其中H_left，n表示从第n个扬声器到左耳的传递函数，并且H_right，n表示从第n个扬声器到右耳的传递函数。这可以被延伸至更多扬声器的情况：

[\begin{matrix} S_{left} \\ S_{right} \end{matrix}] = [\begin{matrix} H_{left, 1} & H_{left, 2} & . . . & H_{left, n} \\ H_{right, 1} & H_{right, 2} & . . . & H_{right, n} \end{matrix}] \cdot [\begin{matrix} L_{1} \\ L_{2} \\ . \\ . \\ . \\ L_{n} \end{matrix}] - - - (8)

其中n表示扬声器的总数量。

将要理解的是，当声场通过扬声器阵列或耳机被表现时，本发明以后要引入的更复杂的声场处理根据前述的解码方法而构建。

在一个实施例中，视频端点设备可以是具有至少一个镜头的视频摄像机。该视频摄像机可以位于屏幕附近或能够采集所有的与会者的其它地方。通常，嵌入有广角镜头的摄像机能够采集对于在另一方的与会者而言包含足够信息的视觉场景。可选地，镜头可以被变焦趋近以用于特别地强调视觉场景的发言的与会者或一部分。要注意的是，本发明并不旨在限制视频端点设备的形式或位置。此外，在视频会议的一方可以有多于一个的视频端点设备。通常，本发明具有以一定距离原理视频端点设备摆放的音频端点设备。

首先参考图3，其示出了根据本发明的示例实施例的用于调节视频会议中的空间一致性的方法300的流程图。

在静止环境中，所有的设备和音频对象的位置是固定的，因而假设会话者不改变其物理位置，一旦初始调节好设置则不存在空间一致性问题。然而，在实际中，在视频会议每一方的环境可能持续或偶尔改变。这样的改变可以包括若干情景。第一情景式音频端点设备被移动，这导致所采集的声场或听觉场景的变化。音频端点设备的运动，特别是旋转运动，将导致显著的不适，因而应当尽可能被补偿。第二情景式视频端点设备被改变，诸如摄像机位移或变焦。在该第二情景中，声场或所采集的听觉场景是稳定的，但所采集的视觉场景被改变。因此，所采集的听觉场景应当被逐渐改变(例如旋转)以与所采集的视频场景相匹配以便调节空间一致性。第三个可能的情景是在视频会议每一方的与会者可以相对于音频端点设备移动，诸如围绕房间行走、向前侧身或靠近音频端点设备移动等等，这可导致角度上的显著改变，而这样的改变在视觉上并不那么明显。应当注意的是，在同一时间可以发生多于一种情景。

在一个实施例中，诸如图1所示的音频端点设备相对于视频端点设备被定位。在一方的通常的会议设置中，提供将屏幕悬挂在墙壁上，并将视频摄像机固定在该屏幕上方或下方以用于不被遮挡地采集视频场景。同时，一些与会者在屏幕和视频摄像机之前围绕音频端点设备就座。这样的典型设置可以在图4中所见，其示出了由在视频会议中一方的视频摄像机所采集的普通视频场景。

在图4中，三个与会者A、B和C围绕桌子坐下，在该桌子上放置有音频端点设备400。在音频端点设备400上可以有视觉标记物401。标记物410可以被用于音频端点设备400的初始校准。在一个实施例中，标记物410与如图1所示的前方向重合。换言之，音频端点设备400可以使得其标记物410置于指向视频端点设备以便于识别音频端点设备400的任何旋转或移动。在一个实施例中，音频端点设备400可以被置于视频端点设备的视频摄像机前方，即在穿过视频端点设备的镜头或视频摄像机的中心的垂直平面上，并且该垂直平面可以与其上放置有摄像机的壁垂直。这样的将音频端点设备置于所采集的影像或视觉场景的中间平面上的布置对空间一致性调节而言是有利的。

然而应当注意的是，音频端点设备可以在确立视频会议通话之前或之后相对于视频端点设备被定位，并且本发明并不旨在限制用于这种定位的时间。

在步骤S301，所采集的听觉场景与所采集的视觉场景之间的空间一致性被检测，并且该检测优选为实时检测。空间一致性可以被不同的指标所表示。例如，空间一致性可以被角度所表示。可选地，考虑到音频对象或与会者的位置可以与由镜头定义的空间中的所采集的视觉场景进行比较，空间一致性可以被距离或百分数所表示。该特定步骤S301可以在整个视频会议通话期间被实时进行，包括在刚开始视频会议通话以后的空间一致性的初始检测。

在步骤S302，所检测的空间一致性与预定的阈值进行比较。在特定示例中，如上所述，空间一致性被表示为角度，预定的阈值可以是10°，意味着所采集的听觉场景与所采集的视觉场景相比较偏移了10°。其结果是，大于10°的角度上的差异将会触发步骤S303的调节，其将在以下进行描述。

在步骤S303，响应于例如所采集的听觉场景与所采集的视觉场景之间的差异超过预定阈值或者空间一致性低于如上所述的阈值，则对空间一致性进行调节。

在步骤S301的所采集的听觉场景与所采集的视觉场景之间的空间一致性的检测可以进一步被引导方法和盲测方法中的至少一个执行，这两种方法将在以下进行具体描述。

引导方法

参照图5，其示出了根据本发明的示例实施例的用于检测空间一致性的方法500的流程图。

在步骤S501，可以指配视频端点设备的标称正方向；该标称正方向可以与如图1所示的前方向重合或不重合。在一个实施例中，标称正方向可以被在图4中的饮品店电设备400上的标记物410标示，其与前方向重合以便于简化计算。可选地，在其它实施例中，被标记物410标示的标称正方向可以不与前方向重合但在其间具有一定角度。例如，在图6中，如果标称正方向与麦克风阵列的前方向重合，则需要在标称正方向与校正的正方向之间的角度差之上对声场进行180度旋转。另一方面，如果标称正方向与麦克风阵列的前方向的角度差为180度，则不需要前述附加的旋转。

在步骤S502，标称正方向与穿过视频端点设备的镜头的中心的垂直平面之间的角度可以被确定。该特定角度可以通过不同方式被确定。例如，当标称正方向与如前所述的标记物410重合时，标记物410可以被视频端点设备所识别，并且通过预设定程序可以计算及生成角度差。通过识别标称正方向与垂直平面之间的角度差，听觉场景或声场可以相应地被旋转以补偿该差值，例如，通过使用如上所述的等式(2)。换言之，初始校正可以与将音频端点设备相对于视频端点设备进行定位一起完成。有利的是，参照图4，如果用户将音频端点设备400放置于如上所述的垂直平面上并将音频端点设备400转动使得标记物410正对着视频端点设备的镜头，将会减少用于检测空间一致性所需的时间。

在步骤S503，可以由嵌入所述音频端点设备中的传感器检测音频端点设备运动。通过结合诸如陀螺仪和加速度计之类的传感器，音频端点设备的转动或定向可以被检测，这使得空间一致性的检测能够响应于其音频端点设备的任何变化而被实时做出。可选地，音频端点设备的诸如旋转之类的运动可以通过分析音频端点设备上的标记物相对于视频端点设备的变化而获得。然而应当注意的是，如果音频端点设备的形状能够被视频端点设备所识别，音频端点设备上不必存在标记物。

在步骤S504，可以基于所采集的视觉场景检测视频端点设备运动。特别地，摄像机的诸如水平移动、倾斜、变焦等的运动可以直接从摄像机获得或基于对所采集的影像进行分析而获得。当运动从摄像机直接获得时，来自摄像机的硬件的信息可以被用来检测视频端点设备的运动。

音频端点设备运动或视频端点运动可以触发对空间一致性的调节，一旦差异超出预定阈值。

在一个实施例中，如图6所示，音频端点设备610可以是通常的声音采集设备，其包括三个麦克风并使得其标称正方向指向第一方向，如实线箭头所示。在空间中总共有4个与会者，即A、B、C和D，他们的位置信息可以通过听觉场景分析而获得。视频端点设备620被放置与音频端点设备610保持一定距离，并且其镜头直接面对音频端点设备610。换言之，音频端点设备610被置于穿过视频端点设备620的镜头的中心的垂直平面上。因为标称正方向并不指向视频端点设备620，一旦音频端点设备610和视频端点设备620两者的位置关系被固定，在初始时校正的正方向可能需要相对于标称正方向被补偿。如图6所示的介于第一方向与校正的正方向之间的角度差σ易于被补偿，例如可以通过等式(2)补偿。

如上所述，角度差σ可以通过识别音频端点设备610上的标记物而获得。可选地，当不存在标记物时，在一个实施例中，可以提供音频端点设备610中的通信模块(未示出)，其能够将音频端点设备610的定向信息传输至视频端点设备620以便于获得角度差σ。

通过使用嵌入在音频端点设备610中的诸如陀螺仪传感器之类的传感器以用于检测音频端点设备610的运动，音频端点设备的任何旋转可以立即被检测，使得空间一致性的实时检测成为可能。

在一个实施例中，特别是当音频端点设备610不处于视频端点设备620的镜头的正前方时，镜头或摄像机可以被转向左侧或右侧一定角度，以便于将音频端点设备610置于垂直平面或变焦趋近到发言的与会者上。这可以导致在所采集的影像的视觉场景中的相应左侧或右侧的人向着影像的中间移动。需要获知所采集的视觉场景的该变化，以便于操作所采集的听觉场景以用于调节空间一致性。

除了如上所述的视频端点设备的镜头的旋转角度之外，诸如焦距或镜头的垂直角之类的其它信息也可以用于显示所有的与会者或显示特定的某人，例如已经发言一段时间的人。

该引导方法可以依赖于嵌入音频端点设备与视频端点设备两者中的设备。利用这样的设备彼此通信，在视频会议期间的任何变化都可以立即被检测到。例如，这样的变化可以包括每个端点设备的旋转、位移以及倾斜等。

盲测方法

参照图7，其示出了根据本发明的示例实施例的用于检测空间一致性的方法700的流程图。

除了如上所述的需要利用某些先验知识(例如，由嵌入音频端点设备或视频端点设备中的传感器得到的定向信息)的引导方法之外，当这样的信息不可用时，基于分析所采集的视觉和/或听觉场景的盲测方法可以是有用的。

在步骤S701，可以根据所采集的听觉场景执行听觉场景分析(ASA)以便识别音频对象的听觉分布，其中听觉分布为音频对象相对于音频端点设备的分布。例如，通过参照图4，与会者A、B和C围绕音频端点设备400，并因而组成了空间中的听觉分布。

在一个实施例中，ASA可以通过多个技术而实现。例如，针对每个音频对象可以执行到达方向(DOA)分析。一些本领域常见的和已知的DOA方法包括广义相关相位变换(GCC-PHAT)、转向响应功率相位变换(SRP-PHAT)、多信号分类(MUSIC)等。本领域已知的大部分DOA方法已经能够分析音频对象的分布，即视频会议中的与会者的分布。ASA还可以通过估计音频对象的深度/距离、信号水平、以及扩散性而执行。音频对象的扩散性表示从特定源到达麦克风位置的声学信号回响的程度有多大。此外或可替代地，发言者识别或发言者分类方法可以被用来进一步改进ASA。发言者识别系统采用频谱分析和模式匹配以识别与会者身份。发言者分类系统可以划分及聚集历史会议记录，使得每个语音分段指配有与会者身份。此外或可替代地，会话分析可以被执行以检查与会者之间的互动模式，即音频对象之间的会话互动。以最简易的形式，一个或多个主要或关键的音频对象可以通过检查每个与会者的发言长度被识别。知道哪个与会者说话最多不仅有助于更好地校准音频对象，还使得当不能获得完整的空间一致性时做出最佳的权衡。即，至少可以确保关键音频对象具有满意的一致性。

应当注意的是，大部分已知ASA技术能够识别音频对象的听觉分布，因而在本文中将不对这些技术做出详细阐述。

在步骤S702，可以根据所采集的视觉场景执行视觉场景分析(VSA)以便识别音频对象的视觉分布，其中视觉分布为音频对象相对于视频端点设备的分布。例如，参照图4，与会者A、B和C被分布在所采集的视觉场景中，并因而组成了相对于视频端点设备的视觉分布。

在一个实施例中，VSA也可以通过多个技术而实现。大多数技术可以涉及对象检测和分类。在本上下文中，作为能够发言的与会者的视频和音频对象是主要考量并且要被检测。例如，通过分析所采集的视觉场景，本领域已知的脸部检测/识别算法对于识别对象在空间中的位置可能是有用的。此外，感兴趣区域(ROI)分析或其它对象识别方法可以可选地被用来识别目标视频对象的边界，例如，当脸部不能被简单地检测到时识别肩膀和手臂。一旦与会者的脸部在所采集的视觉场景中被发现，针对脸部的ROI可以被创建并且随后可以对脸部可选地执行唇部检测，因为唇部动作是将与会者与音频对象相关联并检查与会者是否在说话的有用线索。

应当注意的是，大部分已知VSA技术能够识别音频对象的视觉分布，因而在本文中将不对这些技术做出详细阐述。

可选地，与会者的身份可以被识别，这对于将音频与视频信号匹配是有用的以便于实现一致性。在步骤S703，空间一致性可以依据产生的ASA和/或VSA被检测。

一旦获得了空间一致性，可以在步骤S303执行空间一致性的调节。空间一致性的调节可以包括听觉场景调节和视觉场景调节中的一个或两个。如上所述，如果所检测的空间一致性低于某阈值(步骤S302)，该调节可以被触发。以上的示例使用角度值来表示视觉场景与听觉场景匹配或不匹配的程度。然而，还可以使用更复杂的表示法来表示匹配或不匹配的程度。例如，可以生成仿真的三维空间以使得一个或多个与会者映射在空间中，每个与会者具有对应于他/她在声场中的感知位置的值。可以生成另外的仿真的三维空间以使得相同的与会者映射在空间中，每个与会者具有对应于他/她听觉位置的值。两个生成的空间可以被比较以生成空间一致性或被解译以便于促进空间一致性的调节。

可以使用多个方法来调节空间一致性。在一个实施例中，如上所述，等式(2)可以被用来将所采集的听觉场景旋转任意所需的角度。旋转可以是调节空间一致性简单却有效的方式，例如，响应于音频端点设备被旋转而进行的旋转。

在另外的实施例中，所采集的听觉场景可以相对于由视频端点设备所定义的轴线被镜像。例如，参照图6，所采集的视觉场景与听觉场景不匹配。例如，假设标称正方向就是麦克风阵列的前方向，与会者B大致位于音频端点设备610的标称正方向上，或者出现在校正的正方向的左侧。另一方面，相同的与会者B将会在所采集的视觉场景中的右手侧。如以上所提及的，可以使用等式(2)旋转声场180度，使得对象A至D将在匹配视觉场景的正确侧。可替代地，可以执行声场镜像操作，使得音频对象相对于音频端点设备与视频端点设备之间的垂直平面被反射(θ是音频对象与用于反射的轴线之间的角度)。听觉场景的镜像可以通过以下等式(9)而执行，其将被本领域技术人员理解为欧几里得几何中的反射运算：

[\begin{matrix} W^{'} \\ X^{'} \\ Y^{'} \end{matrix}] = [\begin{matrix} 1 & 0 & 0 \\ 0 & \cos (2 θ) & \sin (2 θ) \\ 0 & \sin (2 θ) & - \cos (2 θ) \end{matrix}] [\begin{matrix} W \\ X \\ Y \end{matrix}] - - - (9)

因此，在如图6所示的示例中，在镜像步骤之后，四个与会者相对于校正的正方向被镜像。应当注意的是，以上的任何方法均可能需要附加的声场运算以便于实现更高的空间一致性。例如，在将声场或所采集的听觉场景进行旋转之后，音频对象B、C和D可能表现为从听众视野的后面传出，然而视觉上他们全部处于观看者的前方。类似地，尽管简单的反射或镜像处理可以将对象翻转至正确的一侧，但它们在听觉场景中的距离感知与在视觉场景中的距离感知并不匹配。这些问题在以下所示的示例中变得更为明显。

在图8所示的另一个示例情景中，如上所述的声场旋转或反射可能不能实现完全空间一致性。在图8中，如从视频端点设备820所见，与会者A和B将显得从彼此略微分离。然而，如由音频端点设备810所直接采集的，两个与会者听起来将从彼此显著地分离。有鉴于此，所采集的听觉场景可能需要被缩放、移动、或压缩以与所采集的视觉场景相匹配。移动声场或听觉场景包括使用欧几里得几何的项的平移运算。与缩放或压缩声场一起，需要以上所述的B格式解码处理的改变。

多个示例技术在以下进行描述：将WXY的B格式转换为双声道立体声信号(所谓C格式)的UHJ降混；或者将完全360°环绕声场压缩为更小声场的压缩。例如，360°声场可以被压缩为60°立体声声场，这被一对立体声扬声器表现为使得声场有如在用户的前方。可替代地，可以利用正面耳机虚拟化，环绕用户的360°声场通过该虚拟化被重新映射至用户前方的垂直平面中的封闭形状，例如圆形或椭圆形。

另一种可能需要缩放所采集的听觉场景的情景是当视频端点设备的镜头被变焦趋近或变焦趋远时。所采集的听觉场景可能需要被相应地缩放为更宽及更窄，以便于维持恰当的空间一致性。

实现空间一致性并不被限于对声场进行处理。将理解的是，除了听觉场景调节之外，有时可以调节视觉场景以用于改进空间一致性。例如，视频端点设备的摄像机可以被旋转、移位或变焦以用于将所采集的视觉场景与所采集的听觉场景校准。可替代地，所采集的视觉场景可以被处理而不改变视频端点设备的物理状态。例如，所采集的视觉场景可以被裁切、缩放、或移位以与所采集的听觉场景相匹配。

在一个实施例中，如在步骤S301中所述的空间一致性的检测可以被实时地执行，这意味着所采集的听觉场景和视觉场景处于同一地点并且相应的信号在被发送至被呼叫方之前在呼叫方被生成。可替代地，空间一致性可以在呼叫方与被呼叫方之间进行传输的服务器处被检测，使得从呼叫方仅发送所采集的听觉数据和视觉数据。在服务器处执行检测将会减小对呼叫方的计算需求。

在一个实施例中，如步骤S303所描述的空间一致性的调节可以在呼叫方与被呼叫方之间进行传输的服务器处被执行。可替代地，空间一致性可以在传输已经完成之后在被呼叫方被调节。在服务器处执行调节将会减小对被呼叫方的计算需求。

图9示出了根据本发明的一个示例实施例的用于调节视频会议中的空间一致性的系统900的框图。如图所示，系统900包括被配置成采集听觉场景的音频端点设备901、被配置成采集视觉场景的视频端点设备、被配置成检测所采集的听觉场景与视觉场景之间的空间一致性的空间一致性检测单元903、被配置成将所检测的空间一致性与预定阈值比较的空间一致性比较单元904、以及被配置成响应于所检测的空间一致性低于预定阈值而调节空间一致性的空间一致性调节单元905。

在一些实施例中，音频端点设备901可以被置于穿过视频端点设备902的镜头的中心的垂直平面上。

在这些实施例中，空间一致性检测单元903可以包括确定标定正方向与垂直平面之间角度的角度确定单元；被配置成由嵌入音频端点设备901的传感器检测音频端点设备运动的音频端点设备检测单元；以及被配置成基于所采集的视觉场景的分析检测视频端点设备运动的视频端点设备检测单元。

在一些实施例中，空间一致性检测单元903可以包括被配置成基于所采集的听觉场景执行听觉场景分析以便于识别音频对象的听觉分布的听觉场景分析单元，听觉分布为音频对象相对于音频端点设备901的分布；被配置成基于所采集的视觉场景执行视觉场景分析以便于识别音频对象的视觉分布的视觉场景分析单元，视觉分布为音频对象相对于视频端点设备902的分布；空间一致性检测单元903被配置成根据听觉场景分析以及视觉场景分析检测空间一致性。在这些实施例中，听觉场景分析单元可以进一步包括以下中的至少一个：被配置成分析音频对象的到达方向的DOA分析单元；被配置成分析音频对象的深度的深度分析单元；被配置成分析关键音频对象的关键对象分析单元；以及被配置成分析音频对象之间的会话互动的会话分析单元。在这些实施例中，视觉场景分析单元可以进一步包括以下中的至少一个：被配置成执行针对音频对象的脸部检测或识别的脸部分析单元；被配置成分析针对所采集的视觉场景的感兴趣区域的区域分析单元；以及被配置成执行针对音频对象的唇部检测的唇部分析单元。

在一些实施例中，空间一致性调节单元905可以包括以下中的至少一个：被配置成旋转所采集的听觉场景的听觉场景旋转单元；被配置成相对于由视频端点设备定义的轴线镜像所采集的听觉场景的听觉场景镜像单元；被配置成平移所采集的听觉场景的听觉场景平移单元；被配置为缩放所采集的听觉场景的听觉场景缩放单元；以及被配置成调节所采集的视觉场景的视觉场景调节单元。

在一些实施例中，空间一致性可以被现场检测或在服务器处被检测。在一些实施例中，所采集的听觉场景可以再服务器处被调节或在视频会议的接收端处被调节。

为了清楚起见，系统900的一些可选部件在图9中并未示出。然而应当理解的是，如上述参照图1至8所描述的特征均适用于系统900。此外，系统900的部件可以是硬件模块或软件单元模块。例如，在一些实施例中，系统900可以部分地或完全地以软件/或固件实现，例如实现为收录在计算机可读介质中的计算机程序产品。可替代地或附加地，系统900可以部分地或完全地基于硬件实现，例如作为集成电路(IC)、应用专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围并不局限于该方面。

图10示出了适于实施本发明的实施例的示例计算机系统1000的框图。如图所示，计算机系统1000包括中央处理单元(CPU)1001，其能够根据存储在只读存储器(ROM)1002中的程序或从存储区1008加载到随机存取存储器(RAM)1003的程序而执行各种处理。在RAM1003中，当CPU 1001执行各种处理等等时，还根据所需存储有所需的数据。CPU 1001、ROM 1002和RAM 1003经由总线1004彼此相连。输入/输出(I/O)接口1005也连接到总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网之类的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等，根据需要安装在驱动器1010上，使得从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本发明的实施例，上文参考图1至图8描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，该计算机程序包含用于执行方法300、500和/或700的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。

一般而言，本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑、或其任何组合中实施。某些方面可以在硬件中实施，而其它方面可以在可由控制器、微处理器或其它计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其它图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备，或其某些组合中实施。

而且，流程图中的各框可以被看作是方法步骤，和/或计算机程序代码的操作生成的操作，和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如，本发明的实施例包括计算机程序产品，其包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为实现上文描述方法的程序代码。

在本公开的上下文中，机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多个导线的电气连接、便携式计算机磁盘、硬盘、随机存储存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备，或其任意合适的组合。

用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其它可编程的数据处理装置的处理器，使得程序代码在被计算机或其它可编程的数据处理装置执行的时候，引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。

另外，尽管操作以特定顺序被描绘，但这并不应该被理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务或并行处理可能是有利的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何发明或权利要求的范围，而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例火灾任意合适的子组合中实施。

针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外，前述说明书和附图存在启发的益处，涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其它实施例。

Claims

1.一种用于调节视频会议中的空间一致性的方法，所述方法包括：

检测由视频端点设备采集的视觉场景与由音频端点设备采集的听觉场景之间的空间一致性，所述音频端点设备相对于所述视频端点设备被定位，所述空间一致性为所述听觉场景与所述视觉场景之间校准的程度；

将所检测的空间一致性与预定义的阈值相比较；以及

响应于所检测的空间一致性低于所述阈值而调节所述空间一致性。

2.根据权利要求1所述的方法，其中所述音频端点设备被定位于穿过所述视频端点设备的镜头的中心的垂直平面上。

3.根据权利要求2所述的方法，其中检测所述空间一致性包括：

指配所述视频端点设备的标称正方向；

确定所述标称正方向与所述垂直平面之间的角度；

由嵌入所述音频端点设备中的传感器检测音频端点设备运动；以及

基于所采集的视觉场景来检测视频端点设备运动。

4.根据权利要求1或2所述的方法，其中检测所采集的听觉场景与所采集的视觉场景之间的所述空间一致性包括：

基于所采集的听觉场景来执行听觉场景分析以便识别音频对象的听觉分布，所述听觉分布为所述音频对象相对于所述音频端点设备的分布；

基于所采集的视觉场景来执行视觉场景分析以便识别所述音频对象的视觉分布，所述视觉分布为所述音频对象相对于所述视频端点设备的分布；以及

根据所述听觉场景分析和所述视觉场景分析来检测所述空间一致性。

5.根据权利要求4所述的方法，其中执行所述听觉场景分析包括以下各项中的至少一项：

分析所述音频对象的到达方向；

分析所述音频对象的深度；

分析关键音频对象；以及

分析所述音频对象之间的会话互动。

6.根据权利要求4所述的方法，其中执行所述视觉场景分析包括以下各项中的至少一项：

执行针对所述音频对象的脸部检测或识别；

分析针对所采集的视觉场景的感兴趣区域；以及

执行针对所述音频对象的唇部检测。

7.根据权利要求1或2所述的方法，其中调节所述空间一致性包括以下各项中的至少一项：

旋转所采集的听觉场景；

关于所述音频端点设备平移所采集的听觉场景；

关于所述音频端点设备镜像所采集的听觉场景；

缩放所采集的听觉场景；以及

调节所采集的视觉场景。

8.根据权利要求1或2所述的方法，其中所述空间一致性在现场被检测或在服务器处被检测。

9.根据权利要求1或2所述的方法，其中所述空间一致性在服务器处被调节或在所述视频会议的接收端处被调节。

10.一种用于调节视频会议中的空间一致性的系统，所述系统包括：

视频端点设备，被配置成采集视觉场景；

音频端点设备，被配置成采集听觉场景，所述音频端点设备相对于所述视频端点设备被定位；

空间一致性检测单元，被配置成检测所采集的听觉场景与所采集的视觉场景之间的空间一致性，所述空间一致性为所述听觉场景与所述视觉场景之间校准的程度；

空间一致性比较单元，被配置成将所检测的空间一致性与预定义的阈值相比较；以及

空间一致性调节单元，被配置成响应于所检测的空间一致性低于所述阈值而调节所述空间一致性。

11.根据权利要求10所述的系统，其中所述音频端点设备被定位于穿过所述视频端点设备的镜头的中心的垂直平面上。

12.根据权利要求11所述的系统，其中所述空间一致性检测单元包括：

角度确定单元，被配置成确定标称正方向与所述垂直平面之间的角度；

音频端点设备检测单元，被配置成由嵌入所述音频端点设备中的传感器检测音频端点设备运动；以及

视频端点设备检测单元，被配置成基于所采集的视觉场景来检测视频端点设备运动。

13.根据权利要求10或11所述的系统，其中所述空间一致性检测单元包括：

听觉场景分析单元，被配置成基于所采集的听觉场景来执行听觉场景分析以便识别音频对象的听觉分布，所述听觉分布为所述音频对象相对于所述音频端点设备的分布；以及

视觉场景分析单元，被配置成基于所采集的视觉场景来执行视觉场景分析以便识别所述音频对象的视觉分布，所述视觉分布为所述音频对象相对于所述视频端点设备的分布，

其中所述空间一致性检测单元被配置成根据所述听觉场景分析和所述视觉场景分析检测所述空间一致性。

14.根据权利要求13所述的系统，其中所述听觉场景分析单元包括以下各项中的至少一项：

到达方向分析单元，被配置成分析所述音频对象的到达方向；

深度分析单元，被配置成分析所述音频对象的深度；

关键对象分析单元，被配置成分析关键音频对象；以及

会话分析单元，被配置成分析所述音频对象之间的会话互动。

15.根据权利要求13所述的系统，其中所述视觉场景分析单元包括以下各项中的至少一项：

脸部分析单元，被配置成执行针对所述音频对象的脸部检测或识别；

区域分析单元，被配置成分析针对所采集的视觉场景的感兴趣区域；以及

唇部分析单元，被配置成执行针对所述音频对象的唇部检测。

16.根据权利要求10或11所述的系统，其中所述空间一致性调节单元包括以下各项中的至少一项：

听觉场景旋转单元，被配置成旋转所采集的听觉场景；

听觉场景平移单元，被配置成关于所述音频端点设备平移所采集的听觉场景；

听觉场景镜像单元，被配置成关于所述音频端点设备镜像所采集的听觉场景；

听觉场景缩放单元，被配置成缩放所采集的听觉场景；以及

视觉场景调节单元，被配置成调节所采集的视觉场景。

17.根据权利要求10或11所述的系统，其中所述空间一致性在现场被检测或在服务器处被检测。

18.根据权利要求10或11所述的系统，其中所述空间一致性在服务器处被调节或在所述视频会议的接收端处被调节。

19.一种用于调节视频会议中的空间一致性的计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，所述计算机可执行指令在被执行时使得机器执行根据权利要求1至9中任一项所述的方法的步骤。