CN103581608A

CN103581608A - 发言人检测系统、发言人检测方法和音频/视频会议系统

Info

Publication number: CN103581608A
Application number: CN201210252356.5A
Authority: CN
Inventors: 李茂全
Original assignee: Polycom Communications Technology Beijing Co Ltd
Current assignee: Polycom Communications Technology Beijing Co Ltd
Priority date: 2012-07-20
Filing date: 2012-07-20
Publication date: 2014-02-12
Anticipated expiration: 2032-07-20
Also published as: CN103581608B

Abstract

一种发言人检测系统可以包括：摄像机，用于获取多个与会者的视频信息；麦克风，用于获取音频/视频会议的音频信息；处理模块，配置为对所述视频信息中的所述多个与会者中每一个的视觉语音活动分别进行检测，以生成针对所述多个与会者中每一个的视觉语音活动检测信号；并配置为对所述音频信息中的声学语音活动进行检测，以生成声学语音活动检测信号；比较模块，用于将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较，并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。本发明还描述了一种相应的发言人检测方法以及一种合并了该发言人检测系统的音频/视频会议系统。

Description

发言人检测系统、发言人检测方法和音频/视频会议系统

技术领域

本发明公开了一种用于在音频/视频会议中检测发言人的系统、方法以及一种音频/视频会议系统。

背景技术

在现代的商业组织和家庭中，音频/视频会议已经变得非常普遍。在音频/视频会议中，当发言人在讲话时，人们往往希望获得发言人的图像和/或身份信息。尤其对于视频会议而言，在会场上突出显示发言人的视频信息，能够使得视频会议具有与面对面会议相似的现场感受。

当前流行的视频会议系统通常首先通过声音定位找出发言人的方向，然后从图像中检测离该方向最近的人脸，如果找到人的面部，就将其视为发言人的面部。

发明内容

然而，上述的现有技术具有两个重要的缺点：

首先，被会议室的桌子、墙壁、天花板等反射的声学回声往往会干扰声音定位并降低其准确度。

其次，当会议室中相对拥挤时，有时会有许多面部靠近声音的方向，仅通过面部识别等技术将无法准确确认哪个面部属于真正的发言人。

因此，希望提供一种基于视觉语音活动检测和声学语音活动检测的发言人检测系统。也希望提供一种基于视觉语音活动检测和声学语音活动检测的发言人检测方法。还希望将这些系统合并到音频/视频会议系统中。

根据本发明的第一方面，所述发言人检测系统可以包括：摄像机，用于获取多个与会者的视频信息；麦克风，用于获取音频/视频会议的音频信息；处理模块，配置为对所述视频信息中的所述多个与会者中每一个的视觉语音活动分别进行检测，以生成针对所述多个与会者中每一个的视觉语音活动检测信号；并配置为对所述音频信息中的声学语音活动进行检测，以生成声学语音活动检测信号；比较模块，用于将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较，并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。

本发明的另一个目标是提供一种基于视觉语音活动检测和声学语音活动检测的发言人检测方法。

根据本发明的第二方面，所述发言人检测方法包括：获取多个与会者的视频信息；获取音频/视频会议的音频信息；对所述视频信息中的所述多个与会者的每一个的视觉语音活动分别进行检测，以生成针对所述多个与会者的每一个的视觉语音活动检测信号；并对所述音频信息中的声学语音活动进行检测，以生成声学语音活动检测信号；将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较，并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。

本发明的又一目标是提供一种音频/视频会议系统。

根据本发明的第三方面，所述音频/视频会议系统包括：摄像机，用于获取多个与会者的视频信息；麦克风，用于获取音频/视频会议的音频信息；处理模块，配置为对所述视频信息中的所述多个与会者中每一个的视觉语音活动分别进行检测，以生成针对所述多个与会者中每一个的视觉语音活动检测信号；并配置为对所述音频信息中的声学语音活动进行检测，以生成声学语音活动检测信号；比较模块，用于将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较，并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。

由于视觉语音活动和声学语音活动的直接联系，基于视觉语音活动检测和声学语音活动检测以及二者的比较结果，能够相对可靠地确定音频/视频会议中当前的发言人。从而可以在画面中突出发言人，比如放大居中显示发言人以增强视觉效果;或者使用较低分辨率的视频只传输发言人的视频以降低对信道带宽的需求。此外，本发明中的视觉语音活动检测信号和声学语音活动检测信号均为极低速率的二进制数字信号，可以传输到其它终端以便于系统的灵活设计，并且信道占用几乎可以完全忽略。

本发明的这些和其他方面根据下面描述的实施例将是清楚明白的，并且将参照这些实施例进行阐述。

附图说明

在附图中：

- 图1示出了根据本发明实施例的发言人检测系统或音频/视频会议系统；

- 图2示出了根据本发明实施例的发言人检测方法的流程图。

具体实施方式

图1示出了根据本发明第一方面的发言人检测系统100，该发言人检测系统100包括：摄像机（未示出），用于获取多个与会者a、b和c的视频信息101；麦克风102，用于获取音频/视频会议的音频信息；处理模块103，用于对所述视频信息101中的多个与会者a、b和c的视觉语音活动分别进行检测，以生成针对多个与会者a、b和c中每一个的视觉语音活动检测信号VVAD1、VVAD2和VVAD3；并对所述音频信息中的声学语音活动进行检测，以生成会场的声学语音活动检测信号AVAD；比较模块104，用于将所述视觉语音活动检测信号VVAD1、VVAD2和VVAD3分别与所述声学语音活动检测信号AVAD进行比较，并将与所述声学语音活动检测信号AVAD具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。

所述视觉语音活动是视觉上可观查到的与语音相关联的身体活动，对于音频/视频会议，视觉语音活动可以包括与会者的嘴唇活动、面部形变等。所述声学语音活动是指音频信息中是否存在语音的状态。

进一步地，所述处理模块103可以包括视觉语音活动检测单元（未示出）和声学语音活动检测单元（未示出）；所述视觉语音活动检测单元用于检测所述视频信息101并输出各视觉语音活动检测信号VVAD1、VVAD2和VVAD3；所述声学语音活动检测单元用于检测所述音频信息并输出所述声学语音活动检测信号AVAD。在其他的实施方式中，所述处理模块103也可以使用单独的处理单元来分别处理视频信息和音频信息。

优选地，所述视觉语音活动为与会者的嘴唇运动，且其中：所述视觉语音活动检测单元对多个与会者a、b和c中每一个分别进行独立的视觉语音活动检测，所述视觉语音活动检测单元通过嘴唇颜色与脸部颜色的差异来获得嘴唇轮廓，并基于上下唇和上下唇之间的间隙在亮度和/或颜色上的差异来确定嘴唇轮廓范围内该间隙的面积。发言人的发言活动通常伴随着其嘴部的连续的、快速的运动，该运动导致嘴唇间隙面积的连续变化。当该面积在视频的连续帧中的差异超过预设的阈值时，该嘴唇的视觉语音活动检测信号的输出为“1”，否则，该嘴唇的视觉语音活动检测信号的输出为“0”；所述声学语音活动检测单元用于通过检测所述音频信息来获得所述声学语音活动检测信号；当音频信息中存在语音时，所述声学语音活动检测信号的输出为“1”，否则，所述声学语音活动检测信号的输出为“0”。使用比较电路、比较器等组件，能够得出各视觉语音活动检测信号VVAD1、VVAD2和VVAD3与声学语音活动检测信号AVAD的相关度，并由此确定与所述声学语音活动检测信号AVAD具有最大相关度的视觉语音活动检测信号。

在发言人限于某个群组的情况下，所述多个与会者的数目可以小于所有与会者的数目；在发言人可能是所有与会者中任何一个的情况下，所述多个与会者的数目也可以等于所有与会者的数目。

尽管图中未示出，所述系统还可以包括显示模块，用于显示被确定为当前发言人的与会者。为上述目的，该发言人检测系统100可以使用广角摄像机获取会场视频，在确定会场中当前的发言人之后，可以将该发言人单独呈现，或使用另外的摄像机获取该发言人的高清晰视频，用于向所述显示模块提供该发言人的视频信息。

所述系统可以进一步包括存储模块，用于存储所有与会者的身份信息；在该音频/视频会议期间，每当确定出当前发言人时，可以识别当前发言人并可向所述显示模块提供与当前发言人相应的与会者的身份信息。在确定当前发言人之后，可以使用已存储的会场座位、语音样本、脸部图像等信息与当前发言人进行比对，以识别当前发言人并呈现相关信息，以便其余的与会者甚至会场以外的听/观众可以了解发言人的相关信息。

所述系统在该音频/视频会议期间，每当确定出当前发言人时，在音频流和/或视频流中标识与当前发言人相应的与会者的身份信息。对于音频/视频会议的音频流和/或视频流，可能需要在会议后进行进一步的整理。在转换发言人的时刻对音频流和/或视频流进行适当的标识，使得整理工作无需查找额外的资料或进行额外的比对，即可确定任意时刻的发言人。

图2示出了根据本发明第二方面的发言人检测方法的流程图，所述发言人检测方法包括：

获取多个与会者的视频信息以及音频/视频会议的音频信息（步骤201）；

对所述视频信息中的多个与会者的每一个的视觉语音活动分别进行检测，以生成针对多个与会者中每一个的视觉语音活动检测信号；并对所述音频信息中的声学语音活动进行检测，以生成会场的声学语音活动检测信号（步骤202）；

将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较（步骤203）；

将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人（步骤204）。

优选地，所述视觉语音活动为与会者的嘴唇运动，且其中：对多个与会者中每一个分别进行独立的视觉语音活动检测，所述视觉语音活动检测单元通过嘴唇颜色与脸部颜色的差异来获得嘴唇轮廓，并基于上下唇和上下唇之间的间隙在亮度和/或颜色上的差异来确定嘴唇轮廓范围内该间隙的面积。发言人的发言活动通常伴随着其嘴部的连续的、快速的运动，该运动导致嘴唇间隙面积的连续变化。当该面积在视频的连续帧中的差异超过预设的阈值时，该嘴唇的视觉语音活动检测信号的输出为“1”，否则，该嘴唇的视觉语音活动检测信号的输出为“0”；通过检测所述音频信息来获得所述声学语音活动检测信号；当音频信息中存在语音时，所述声学语音活动检测信号的输出为“1”，否则，所述声学语音活动检测信号的输出为“0”。

附加地，所述方法可以包括使用显示模块显示被确定为当前发言人的与会者。

所述发言人检测方法也可以包括存储所有与会者的身份信息；在该音频/视频会议期间，每当确定出当前发言人时，可以识别当前发言人并可向所述显示模块提供与当前发言人相应的与会者的身份信息。

所述方法可以进一步包括在该音频/视频会议期间，每当确定出当前发言人时，在音频流和/或视频流中标识与当前发言人相应的与会者的身份信息。

参考图1，根据本发明第三方面的音频/视频会议系统可以包括：摄像机（未示出），用于获取多个与会者a、b和c的视频信息101；麦克风102，用于获取音频/视频会议的音频信息；处理模块103，用于对所述视频信息101中的多个与会者a、b和c的视觉语音活动分别进行检测，以生成针对多个与会者a、b和c中每一个的视觉语音活动检测信号VVAD1、VVAD2和VVAD3；并对所述音频信息中的声学语音活动进行检测，以生成会场的声学语音活动检测信号AVAD；比较模块104，用于将所述视觉语音活动检测信号VVAD1、VVAD2和VVAD3分别与所述声学语音活动检测信号AVAD进行比较，并将与所述声学语音活动检测信号AVAD具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。

优选地，所述视觉语音活动为与会者的嘴唇运动，且其中：所述视觉语音活动检测单元对多个与会者a、b和c中每一个分别进行独立的视觉语音活动检测，所述视觉语音活动检测单元通过嘴唇颜色与脸部颜色的差异来获得嘴唇轮廓，并基于上下唇和上下唇之间的间隙在亮度和/或颜色上的差异来确定嘴唇轮廓范围内该间隙的面积。发言人的发言活动通常伴随着其嘴部的连续的、快速的运动，该运动导致嘴唇间隙面积的连续变化。当该面积在视频的连续帧中的差异超过预设的阈值时，该嘴唇的视觉语音活动检测信号的输出为“1”，否则，该嘴唇的视觉语音活动检测信号的输出为“0”；所述声学语音活动检测单元用于通过检测所述音频信息来获得所述声学语音活动检测信号；当音频信息中存在语音时，所述声学语音活动检测信号的输出为“1”，否则，所述声学语音活动检测信号的输出为“0”。这样，视觉语音活动检测信号和声学语音活动检测信号均为低速率数字信号（而非模拟信号），有效减小了数据量以及系统负荷。而由于发言人的视觉语音活动与音频信号中的声学语音活动具有直接的关联，因此使用较少的数据量，就能准确并可靠地确定会场中当前的发言人。

尽管图中未示出，所述系统还可以包括显示模块，用于显示被确定为当前发言人的与会者。

根据本发明的另一实施例，所述系统可以进一步包括存储模块，用于存储所有与会者的身份信息；在该音频/视频会议期间，每当确定出当前发言人时，识别当前发言人并向所述显示模块提供与当前发言人相应的与会者的身份信息。

根据本发明的又一实施例，所述系统在该音频/视频会议期间，每当确定出当前发言人时，在音频流和/或视频流中标识与当前发言人相应的与会者的身份信息。

然而，根据本发明第三方面的音频/视频会议系统除了以上的配置外，还可以包含一般音频/视频会议系统的其它设备，例如扬声器、投影仪等。

应当指出的是，上述实施例说明了而不是限制了本发明，并且本领域技术人员在不脱离所附权利要求书的范围的情况下应当能够设计出许多可替换的实施例。在权利要求书中，置于括号之间的任何附图标记都不应当被视为限制了权利要求。动词“包括”及其变体的使用并没有排除存在权利要求中未陈述的元件或步骤。元件之前词“一”或“一个”并没有排除存在多个这样的元件。本发明可以借助于包括若干不同元件的硬件以及借助于经过适当编程的计算机来实现。在列举了若干装置的设备权利要求中，这些装置中的一些可以由同一硬件项实施。在相互不同的从属权利要求中陈述了特定措施这一事实并不意味着这些措施的组合不可以加以利用。

Claims

1. 一种基于视觉语音活动检测和声学语音活动检测的发言人检测系统，包括：

摄像机，用于获取多个与会者的视频信息；

麦克风，用于获取音频/视频会议的音频信息；

处理模块，配置为对所述视频信息中的所述多个与会者中每一个的视觉语音活动分别进行检测，以生成针对所述多个与会者中每一个的视觉语音活动检测信号；并配置为对所述音频信息中的声学语音活动进行检测，以生成声学语音活动检测信号；

比较模块，用于将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较，并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。

2. 根据权利要求1所述的系统，其中所述视觉语音活动为与会者的嘴唇运动，且其中：

所述处理模块对所述多个与会者中每一个分别进行独立的视觉语音活动检测，所述处理模块通过嘴唇颜色与脸部颜色的差异来获得嘴唇轮廓，并基于上下唇和上下唇之间的间隙在亮度和/或颜色上的差异来确定嘴唇轮廓范围内该间隙的面积，当该面积在视频的连续帧中的差异超过预设的阈值时，该嘴唇的视觉语音活动检测信号的输出为“1”，否则，该嘴唇的视觉语音活动检测信号的输出为“0”；

所述处理模块通过检测所述音频信息来获得所述声学语音活动检测信号；当音频信息中存在语音时，所述声学语音活动检测信号的输出为“1”，否则，所述声学语音活动检测信号的输出为“0”。

3. 根据权利要求1或2所述的系统，其中所述多个与会者的数目小于或等于所有与会者的数目。

4. 根据权利要求3所述的系统，进一步包括显示模块，用于显示被确定为当前发言人的与会者。

5. 根据权利要求4所述的系统，进一步包括存储模块，用于存储所有与会者的身份信息；在该音频/视频会议期间，每当确定出当前发言人时，识别当前发言人并向所述显示模块提供与当前发言人相应的与会者的身份信息。

6. 根据权利要求5所述的系统，其中所述系统在该音频/视频会议期间，每当确定出当前发言人时，在音频流和/或视频流中标识与当前发言人相应的与会者的身份信息。

7. 一种基于视觉语音活动检测和声学语音活动检测的发言人检测方法，包括：

获取多个与会者的视频信息；

获取音频/视频会议的音频信息；

对所述视频信息中的所述多个与会者的每一个的视觉语音活动分别进行检测，以生成针对所述多个与会者的每一个的视觉语音活动检测信号；并对所述音频信息中的声学语音活动进行检测，以生成声学语音活动检测信号；

将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较，并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。

8. 根据权利要求7所述的方法，其中所述视觉语音活动为与会者的嘴唇运动，且其中：

对所述多个与会者中每一个分别进行独立的视觉语音活动检测，通过嘴唇颜色与脸部颜色的差异来获得嘴唇轮廓，并基于上下唇和上下唇之间的间隙在亮度和/或颜色上的差异来确定嘴唇轮廓范围内该间隙的面积，当该面积在视频的连续帧中的差异超过预设的阈值时，该嘴唇的视觉语音活动检测信号的输出为“1”，否则，该嘴唇的视觉语音活动检测信号的输出为“0”；

通过检测所述音频信息来获得所述声学语音活动检测信号；当音频信息中存在语音时，所述声学语音活动检测信号的输出为“1”，否则，所述声学语音活动检测信号的输出为“0”。

9. 根据权利要求7或8所述的方法，其中所述多个与会者的数目小于或等于所有与会者的数目。

10. 根据权利要求9所述的方法，进一步包括使用显示模块显示被确定为当前发言人的与会者。

11. 根据权利要求10所述的方法，进一步包括存储所有与会者的身份信息；在该音频/视频会议期间，每当确定出当前发言人时，识别当前发言人并向所述显示模块提供与当前发言人相应的与会者的身份信息。

12. 根据权利要求11所述的方法，包括在该音频/视频会议期间，每当确定出当前发言人时，在音频流和/或视频流中标识与当前发言人相应的与会者的身份信息。

13. 一种音频/视频会议系统，所述音频/视频会议系统包括如权利要求1-6中任一项所述的基于视觉语音活动检测和声学语音活动检测的发言人检测系统。