CN104135638A

CN104135638A - 优化的视频快照

Info

Publication number: CN104135638A
Application number: CN201410178226.0A
Authority: CN
Inventors: Y·威纳; O·莫戴
Original assignee: Avaya Technology LLC
Current assignee: Avaya Technology LLC
Priority date: 2013-05-02
Filing date: 2014-04-30
Publication date: 2014-11-05
Anticipated expiration: 2034-04-30
Also published as: CN104135638B; US20140327730A1; US9609272B2

Abstract

本申请涉及优化的视频快照。提供了用于从所捕获的参加会议人员的序列中产生优化的图像快照的方法、介质和设备。在有些实施例中，所述方法、介质和设备用于利用捕获的图像作为人的代表性图像从而作为视频流的代替、在离线归档系统中作为人的表示、或者在系统参与者名单中作为人的表示。

Description

优化的视频快照

技术领域

本发明的领域一般涉及用于提供视频会议参与者的可视资源的方法、介质和设备。

背景技术

视频会议系统在广泛使用，并且使得在完全不同地理位置的参与者能够进行面对面的会议而不必旅行很远的距离。当参加这种会议时，贯穿会议始终看见参与者的视频并且在会议期间任何时间能够确定谁在会议中会是有用的。

发明内容

因此，本发明的实施例可以包括一种用于呈现美感图像的方法，该方法包括：分析会议中用户的音轨以确定何时该用户是正在讲话者，当该用户是正在讲话者时，分析音轨的语音信号以识别用于该用户是正在讲话者时的美感音素，以及确定对应于该美感音素的用户的至少一个图像。

本发明的实施例还可以包括一种用于呈现美感图像的系统，该系统包括：音频分析工具，该音频分析工具被启用以分析会议的音轨来确定会议的参与者何时是正在讲话者，分析音轨的语音信号以识别正在讲话者的美感音素，以及确定对应于美感音素的正在讲话者的至少一个图像。

附图说明

图1示出了用于提供视频会议参与者的可视资源的系统。

图2示出了用于提供视频会议参与者的可视资源的方法的流程图。

具体实施方式

提供了用于提供视频会议参与者的可视资源的方法、介质和设备。可以从所捕获的参加会议人员的序列中产生优化的图像快照。应当理解，优化的图像可以是视频帧，其中捕获的对象—诸如某个人或某些人的—在帧中是完全可见的。完全可见的捕获可以是其中没有裁减的捕获，或者没有被遮住的捕获。对本文感兴趣的人员应当理解，也许不能得到完美的捕获，但是可以获得较优选的捕获。

可以利用高效率、低复杂度音频分析工具来捕获音轨。基于已知某人何时在讲话，可以把从此人的视频序列中提取图像作为目标。本发明利用了正在讲话者的偏好，其中正在讲话者在进行会议并且意识到注意力集中在他们身上，也许想要通过看照相机并使他们位于照相机前面以便不被遮住来优化他们的外表。

也可以分析音素来获得优选的捕获。为了识别美感的面部表情，可以利用音轨。本发明的系统可以识别其中正在讲话的人的嘴唇和面部处于美观方式的音素。应当理解，音素分析会比图像分析方法学有较小的计算复杂度。

捕获的图像可以与特定的参与者相关联，该图像是为该特定的参与者拍摄的。存在许多可以利用所捕获的图像的用途。捕获的图像可以作为会议参与者的代表性图像替换视频流。在参与者已经静音他的视频或者在特定时间网络条件不提供最佳视频质量时，会是这样。捕获的图像可以作为离线归档系统中会议参与者的代表性图像。捕获的图像可以在用于那些归档的其中参与者过去正在讲话时的会议片段中识别讲话者。捕获的图像可以作为系统参与者名单中会议参与者的表示。捕获的图像可以作为用于会在会议期间发生的不同事件的可视队列。这些事件的例子是：当参与者开始介绍时，或者当参与者发送聊天消息时，或“把他们的手举起”等。应当理解，以上是捕获图像的用途的例子，本领域技术人员可以在许多其它的情形下使用这种捕获的图像。

启用本发明的系统来接收一组同步的音频流和视频流。该系统将提取会议参与者的美感视频快照或图像。特定用户的音频流和视频流可以通过系统—诸如通过一组同步捕获时钟—进行时间标记。

该系统分析会议参与者的音轨。当参与者是正在讲话者时，系统将分析语音信号并且通过音素把音频分段。应当理解，这种分析可以通过VAD(语音活动检测)算法执行。

在本发明的实施例中，系统可以把音素分类成多个不同的集合。第一集合可以是与美感上愉快的面部表情相关联的音素。这些音素通常被称为“美感音素”。可以把其它音素归类成一个或多个其它集合。当分析音素时，系统会选择正好在该音素之前或之后的时间段，比如静寂时间段。当分析音素时，系统可以通过特定音素的子元素进行分类。其可以是诸如辅音或者元音。系统可以通过音素集合或序列进行分类。系统还可以通过备选的音频参数细化图像选择。这些备选的音频参数可以是例如可通过使用多个麦克风指示的音频方向估计。音频水平、背景噪声估计、串扰检测、或其它音频参数可以用于细化。

图1示出了用于提供视频会议参与者的可视资源的系统。系统100可以包括多会议单元(MCU)102、端点104、数据库106、内部服务器108、外部服务器110、以及连接112，114，116和118。MCU102可以包括语音分析工具120。语音分析工具可以是所讨论的VAD，或者是被本领域技术人员理解的其它语音分析工具。尽管语音分析工具120在MCU102中示出，但是应当理解，语音分析工具可以在系统100中的其它地方。例如，语音分析工具及本发明的算法会尤其适合在端点或者用户的通信客户端执行其功能。语音分析工具120在图1的MCU中示出是为了方便起见，它并不是要限制算法可以执行的地方。而且，应当理解，算法或语音分析工具可以分析所记录的序列以提取讲话者的代表性图像，其中所记录的序列是会议的一部分。

图2是提供视频会议参与者的可视资源的方法的流程图。在过程200中，在步骤210，系统将监视会议。下一步220，确定特定的讲话者是否正在讲话。如果特定的参与者没有正在讲话，那么方法200将循环回到步骤210。如果特定的讲话者正在讲话，那么在步骤230对用于该讲话者的音频进行分析。如上所述，应当理解，音频部分和视频部分是同步的。如上所述，音频分析230包括把参与讲话者的音素进行分类。在步骤240，捕获正在讲话者的图像。利用分类的音素来捕获美感图像的同步视频图像。在步骤250，对于识别为“美感音素”的每个音频片段，系统会分析与经过同步的视频帧对应的时间，并且识别最佳的图像帧。可以通过以下参数中的一个或多个来确定最佳的图像。

1.捕获的面部是完整的吗？这可以通过面部检测和分析算法确定。

2.面部图像是正面的吗？这可以通过面部检测和分析算法确定。

3.面部是遮住的吗？

4.面部是正确地组成的吗？

5.帧是以高质量曝光的吗？换句话说，面部是在足够曝光条件下聚焦的吗或者场景和面部的光照水平合适吗？

6.在背景场景中有太多运动吗？

应当理解，只要视频和音频是同步的，那么选择最佳快照的过程就独立于视频图像的捕获。

在步骤250，确定最佳图像的过程可以通过高计算密集型算法来执行。尽管使用音频和音素减少了实时分析的计算强度，但是这些可以用于步骤250的高计算强度型算法并不需要实时运行。

在图2的步骤260，系统将输出美感上最佳的图像。该美感上最佳的快照可以用于任何意图，包括那些在本说明书中所描述的。

给出本发明的以上描述是为了说明和描述。它不是要详尽的或者要把本发明限制到所公开的精确形式，而是在以上技术教导的启发下，其它修改和变化也是可能的。所述实施方式的选择和描述是为了最好地解释本发明的原理及其实践应用，从而使本领域其他技术人员在各种实施例中能够最好地利用本发明并且进行适合预期特定使用的各种修改。所附权利要求应当被认为是包括除由现有技术所限制的范围之外本发明的其它备选实施例。

Claims

1.一种用于呈现美感图像的方法，所述方法包括：

分析会议中用户的音轨以确定所述用户何时是正在讲话者；

当所述用户是正在讲话者时，分析音轨的语音信号以识别用于用户是正在讲话者时的美感音素；以及

确定对应于所述美感音素的用户的至少一个图像。

2.如权利要求1所述的方法，所述方法还包括在音频分析工具处接收一组同步的音频流和视频流。

3.如权利要求2所述的方法，其中所述分析音轨的语音信号的步骤包括把语音信号的音素分类成至少两个音素集合。

4.如权利要求3所述的方法，其中所述至少两个音素集合中的一个是美感音素。

5.如权利要求2所述的方法，所述方法还包括利用音轨的音频参数细化所述确定的美感图像。

6.一种用于呈现美感图像的系统，所述系统包括：

音频分析工具，所述音频分析工具被启用以分析会议的音轨来确定会议的参与者何时是正在讲话者，分析音轨的语音信号以识别所述正在讲话者的美感音素，以及确定对应于所述美感音素的所述正在讲话者的至少一个图像。

7.如权利要求6所述的系统，其中所述工具还被启用以接收一组同步的音频流和视频流。

8.如权利要求7所述的系统，其中所述语音信号的分析包括把语音信号的音素分类成至少两个音素集合。

9.如权利要求8所述的系统，其中所述至少两个音素集合中的一个是美感音素。

10.如权利要求7所述的系统，其中所述工具还被启用以利用音轨的音频参数来细化所述美感图像的确定。