CN103581608A - 发言人检测系统、发言人检测方法和音频/视频会议系统 - Google Patents
发言人检测系统、发言人检测方法和音频/视频会议系统 Download PDFInfo
- Publication number
- CN103581608A CN103581608A CN201210252356.5A CN201210252356A CN103581608A CN 103581608 A CN103581608 A CN 103581608A CN 201210252356 A CN201210252356 A CN 201210252356A CN 103581608 A CN103581608 A CN 103581608A
- Authority
- CN
- China
- Prior art keywords
- activity detection
- detection signal
- audio
- visual speech
- participants
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Emergency Alarm Devices (AREA)
- Closed-Circuit Television Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
一种发言人检测系统可以包括:摄像机,用于获取多个与会者的视频信息;麦克风,用于获取音频/视频会议的音频信息;处理模块,配置为对所述视频信息中的所述多个与会者中每一个的视觉语音活动分别进行检测,以生成针对所述多个与会者中每一个的视觉语音活动检测信号;并配置为对所述音频信息中的声学语音活动进行检测,以生成声学语音活动检测信号;比较模块,用于将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较,并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。本发明还描述了一种相应的发言人检测方法以及一种合并了该发言人检测系统的音频/视频会议系统。
Description
技术领域
本发明公开了一种用于在音频/视频会议中检测发言人的系统、方法以及一种音频/视频会议系统。
背景技术
在现代的商业组织和家庭中,音频/视频会议已经变得非常普遍。在音频/视频会议中,当发言人在讲话时,人们往往希望获得发言人的图像和/或身份信息。尤其对于视频会议而言,在会场上突出显示发言人的视频信息,能够使得视频会议具有与面对面会议相似的现场感受。
当前流行的视频会议系统通常首先通过声音定位找出发言人的方向,然后从图像中检测离该方向最近的人脸,如果找到人的面部,就将其视为发言人的面部。
发明内容
然而,上述的现有技术具有两个重要的缺点:
首先,被会议室的桌子、墙壁、天花板等反射的声学回声往往会干扰声音定位并降低其准确度。
其次,当会议室中相对拥挤时,有时会有许多面部靠近声音的方向,仅通过面部识别等技术将无法准确确认哪个面部属于真正的发言人。
因此,希望提供一种基于视觉语音活动检测和声学语音活动检测的发言人检测系统。也希望提供一种基于视觉语音活动检测和声学语音活动检测的发言人检测方法。还希望将这些系统合并到音频/视频会议系统中。
根据本发明的第一方面,所述发言人检测系统可以包括:摄像机,用于获取多个与会者的视频信息;麦克风,用于获取音频/视频会议的音频信息;处理模块,配置为对所述视频信息中的所述多个与会者中每一个的视觉语音活动分别进行检测,以生成针对所述多个与会者中每一个的视觉语音活动检测信号;并配置为对所述音频信息中的声学语音活动进行检测,以生成声学语音活动检测信号;比较模块,用于将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较,并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。
本发明的另一个目标是提供一种基于视觉语音活动检测和声学语音活动检测的发言人检测方法。
根据本发明的第二方面,所述发言人检测方法包括:获取多个与会者的视频信息;获取音频/视频会议的音频信息;对所述视频信息中的所述多个与会者的每一个的视觉语音活动分别进行检测,以生成针对所述多个与会者的每一个的视觉语音活动检测信号;并对所述音频信息中的声学语音活动进行检测,以生成声学语音活动检测信号;将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较,并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。
本发明的又一目标是提供一种音频/视频会议系统。
根据本发明的第三方面,所述音频/视频会议系统包括:摄像机,用于获取多个与会者的视频信息;麦克风,用于获取音频/视频会议的音频信息;处理模块,配置为对所述视频信息中的所述多个与会者中每一个的视觉语音活动分别进行检测,以生成针对所述多个与会者中每一个的视觉语音活动检测信号;并配置为对所述音频信息中的声学语音活动进行检测,以生成声学语音活动检测信号;比较模块,用于将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较,并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。
由于视觉语音活动和声学语音活动的直接联系,基于视觉语音活动检测和声学语音活动检测以及二者的比较结果,能够相对可靠地确定音频/视频会议中当前的发言人。从而可以在画面中突出发言人,比如放大居中显示发言人以增强视觉效果;或者使用较低分辨率的视频只传输发言人的视频以降低对信道带宽的需求。此外,本发明中的视觉语音活动检测信号和声学语音活动检测信号均为极低速率的二进制数字信号,可以传输到其它终端以便于系统的灵活设计,并且信道占用几乎可以完全忽略。
本发明的这些和其他方面根据下面描述的实施例将是清楚明白的,并且将参照这些实施例进行阐述。
附图说明
在附图中:
- 图1示出了根据本发明实施例的发言人检测系统或音频/视频会议系统;
- 图2示出了根据本发明实施例的发言人检测方法的流程图。
具体实施方式
图1示出了根据本发明第一方面的发言人检测系统100,该发言人检测系统100包括:摄像机(未示出),用于获取多个与会者a、b和c的视频信息101;麦克风102,用于获取音频/视频会议的音频信息;处理模块103,用于对所述视频信息101中的多个与会者a、b和c的视觉语音活动分别进行检测,以生成针对多个与会者a、b和c中每一个的视觉语音活动检测信号VVAD1、VVAD2和VVAD3;并对所述音频信息中的声学语音活动进行检测,以生成会场的声学语音活动检测信号AVAD;比较模块104,用于将所述视觉语音活动检测信号VVAD1、VVAD2和VVAD3分别与所述声学语音活动检测信号AVAD进行比较,并将与所述声学语音活动检测信号AVAD具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。
所述视觉语音活动是视觉上可观查到的与语音相关联的身体活动,对于音频/视频会议,视觉语音活动可以包括与会者的嘴唇活动、面部形变等。所述声学语音活动是指音频信息中是否存在语音的状态。
进一步地,所述处理模块103可以包括视觉语音活动检测单元(未示出)和声学语音活动检测单元(未示出);所述视觉语音活动检测单元用于检测所述视频信息101并输出各视觉语音活动检测信号VVAD1、VVAD2和VVAD3;所述声学语音活动检测单元用于检测所述音频信息并输出所述声学语音活动检测信号AVAD。在其他的实施方式中,所述处理模块103也可以使用单独的处理单元来分别处理视频信息和音频信息。
优选地,所述视觉语音活动为与会者的嘴唇运动,且其中:所述视觉语音活动检测单元对多个与会者a、b和c中每一个分别进行独立的视觉语音活动检测,所述视觉语音活动检测单元通过嘴唇颜色与脸部颜色的差异来获得嘴唇轮廓,并基于上下唇和上下唇之间的间隙在亮度和/或颜色上的差异来确定嘴唇轮廓范围内该间隙的面积。发言人的发言活动通常伴随着其嘴部的连续的、快速的运动,该运动导致嘴唇间隙面积的连续变化。当该面积在视频的连续帧中的差异超过预设的阈值时,该嘴唇的视觉语音活动检测信号的输出为“1”,否则,该嘴唇的视觉语音活动检测信号的输出为“0”;所述声学语音活动检测单元用于通过检测所述音频信息来获得所述声学语音活动检测信号;当音频信息中存在语音时,所述声学语音活动检测信号的输出为“1”,否则,所述声学语音活动检测信号的输出为“0”。使用比较电路、比较器等组件,能够得出各视觉语音活动检测信号VVAD1、VVAD2和VVAD3与声学语音活动检测信号AVAD的相关度,并由此确定与所述声学语音活动检测信号AVAD具有最大相关度的视觉语音活动检测信号。
在发言人限于某个群组的情况下,所述多个与会者的数目可以小于所有与会者的数目;在发言人可能是所有与会者中任何一个的情况下,所述多个与会者的数目也可以等于所有与会者的数目。
尽管图中未示出,所述系统还可以包括显示模块,用于显示被确定为当前发言人的与会者。为上述目的,该发言人检测系统100可以使用广角摄像机获取会场视频,在确定会场中当前的发言人之后,可以将该发言人单独呈现,或使用另外的摄像机获取该发言人的高清晰视频,用于向所述显示模块提供该发言人的视频信息。
所述系统可以进一步包括存储模块,用于存储所有与会者的身份信息;在该音频/视频会议期间,每当确定出当前发言人时,可以识别当前发言人并可向所述显示模块提供与当前发言人相应的与会者的身份信息。在确定当前发言人之后,可以使用已存储的会场座位、语音样本、脸部图像等信息与当前发言人进行比对,以识别当前发言人并呈现相关信息,以便其余的与会者甚至会场以外的听/观众可以了解发言人的相关信息。
所述系统在该音频/视频会议期间,每当确定出当前发言人时,在音频流和/或视频流中标识与当前发言人相应的与会者的身份信息。对于音频/视频会议的音频流和/或视频流,可能需要在会议后进行进一步的整理。在转换发言人的时刻对音频流和/或视频流进行适当的标识,使得整理工作无需查找额外的资料或进行额外的比对,即可确定任意时刻的发言人。
图2示出了根据本发明第二方面的发言人检测方法的流程图,所述发言人检测方法包括:
获取多个与会者的视频信息以及音频/视频会议的音频信息(步骤201);
对所述视频信息中的多个与会者的每一个的视觉语音活动分别进行检测,以生成针对多个与会者中每一个的视觉语音活动检测信号;并对所述音频信息中的声学语音活动进行检测,以生成会场的声学语音活动检测信号(步骤202);
将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较(步骤203);
将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人(步骤204)。
优选地,所述视觉语音活动为与会者的嘴唇运动,且其中:对多个与会者中每一个分别进行独立的视觉语音活动检测,所述视觉语音活动检测单元通过嘴唇颜色与脸部颜色的差异来获得嘴唇轮廓,并基于上下唇和上下唇之间的间隙在亮度和/或颜色上的差异来确定嘴唇轮廓范围内该间隙的面积。发言人的发言活动通常伴随着其嘴部的连续的、快速的运动,该运动导致嘴唇间隙面积的连续变化。当该面积在视频的连续帧中的差异超过预设的阈值时,该嘴唇的视觉语音活动检测信号的输出为“1”,否则,该嘴唇的视觉语音活动检测信号的输出为“0”;通过检测所述音频信息来获得所述声学语音活动检测信号;当音频信息中存在语音时,所述声学语音活动检测信号的输出为“1”,否则,所述声学语音活动检测信号的输出为“0”。
在发言人限于某个群组的情况下,所述多个与会者的数目可以小于所有与会者的数目;在发言人可能是所有与会者中任何一个的情况下,所述多个与会者的数目也可以等于所有与会者的数目。
附加地,所述方法可以包括使用显示模块显示被确定为当前发言人的与会者。
所述发言人检测方法也可以包括存储所有与会者的身份信息;在该音频/视频会议期间,每当确定出当前发言人时,可以识别当前发言人并可向所述显示模块提供与当前发言人相应的与会者的身份信息。
所述方法可以进一步包括在该音频/视频会议期间,每当确定出当前发言人时,在音频流和/或视频流中标识与当前发言人相应的与会者的身份信息。
参考图1,根据本发明第三方面的音频/视频会议系统可以包括:摄像机(未示出),用于获取多个与会者a、b和c的视频信息101;麦克风102,用于获取音频/视频会议的音频信息;处理模块103,用于对所述视频信息101中的多个与会者a、b和c的视觉语音活动分别进行检测,以生成针对多个与会者a、b和c中每一个的视觉语音活动检测信号VVAD1、VVAD2和VVAD3;并对所述音频信息中的声学语音活动进行检测,以生成会场的声学语音活动检测信号AVAD;比较模块104,用于将所述视觉语音活动检测信号VVAD1、VVAD2和VVAD3分别与所述声学语音活动检测信号AVAD进行比较,并将与所述声学语音活动检测信号AVAD具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。
进一步地,所述处理模块103可以包括视觉语音活动检测单元(未示出)和声学语音活动检测单元(未示出);所述视觉语音活动检测单元用于检测所述视频信息101并输出各视觉语音活动检测信号VVAD1、VVAD2和VVAD3;所述声学语音活动检测单元用于检测所述音频信息并输出所述声学语音活动检测信号AVAD。在其他的实施方式中,所述处理模块103也可以使用单独的处理单元来分别处理视频信息和音频信息。
优选地,所述视觉语音活动为与会者的嘴唇运动,且其中:所述视觉语音活动检测单元对多个与会者a、b和c中每一个分别进行独立的视觉语音活动检测,所述视觉语音活动检测单元通过嘴唇颜色与脸部颜色的差异来获得嘴唇轮廓,并基于上下唇和上下唇之间的间隙在亮度和/或颜色上的差异来确定嘴唇轮廓范围内该间隙的面积。发言人的发言活动通常伴随着其嘴部的连续的、快速的运动,该运动导致嘴唇间隙面积的连续变化。当该面积在视频的连续帧中的差异超过预设的阈值时,该嘴唇的视觉语音活动检测信号的输出为“1”,否则,该嘴唇的视觉语音活动检测信号的输出为“0”;所述声学语音活动检测单元用于通过检测所述音频信息来获得所述声学语音活动检测信号;当音频信息中存在语音时,所述声学语音活动检测信号的输出为“1”,否则,所述声学语音活动检测信号的输出为“0”。这样,视觉语音活动检测信号和声学语音活动检测信号均为低速率数字信号(而非模拟信号),有效减小了数据量以及系统负荷。而由于发言人的视觉语音活动与音频信号中的声学语音活动具有直接的关联,因此使用较少的数据量,就能准确并可靠地确定会场中当前的发言人。
在发言人限于某个群组的情况下,所述多个与会者的数目可以小于所有与会者的数目;在发言人可能是所有与会者中任何一个的情况下,所述多个与会者的数目也可以等于所有与会者的数目。
尽管图中未示出,所述系统还可以包括显示模块,用于显示被确定为当前发言人的与会者。
根据本发明的另一实施例,所述系统可以进一步包括存储模块,用于存储所有与会者的身份信息;在该音频/视频会议期间,每当确定出当前发言人时,识别当前发言人并向所述显示模块提供与当前发言人相应的与会者的身份信息。
根据本发明的又一实施例,所述系统在该音频/视频会议期间,每当确定出当前发言人时,在音频流和/或视频流中标识与当前发言人相应的与会者的身份信息。
然而,根据本发明第三方面的音频/视频会议系统除了以上的配置外,还可以包含一般音频/视频会议系统的其它设备,例如扬声器、投影仪等。
应当指出的是,上述实施例说明了而不是限制了本发明,并且本领域技术人员在不脱离所附权利要求书的范围的情况下应当能够设计出许多可替换的实施例。在权利要求书中,置于括号之间的任何附图标记都不应当被视为限制了权利要求。动词“包括”及其变体的使用并没有排除存在权利要求中未陈述的元件或步骤。元件之前词“一”或“一个”并没有排除存在多个这样的元件。本发明可以借助于包括若干不同元件的硬件以及借助于经过适当编程的计算机来实现。在列举了若干装置的设备权利要求中,这些装置中的一些可以由同一硬件项实施。在相互不同的从属权利要求中陈述了特定措施这一事实并不意味着这些措施的组合不可以加以利用。
Claims (13)
1. 一种基于视觉语音活动检测和声学语音活动检测的发言人检测系统,包括:
摄像机,用于获取多个与会者的视频信息;
麦克风,用于获取音频/视频会议的音频信息;
处理模块,配置为对所述视频信息中的所述多个与会者中每一个的视觉语音活动分别进行检测,以生成针对所述多个与会者中每一个的视觉语音活动检测信号;并配置为对所述音频信息中的声学语音活动进行检测,以生成声学语音活动检测信号;
比较模块,用于将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较,并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。
2. 根据权利要求1所述的系统,其中所述视觉语音活动为与会者的嘴唇运动,且其中:
所述处理模块对所述多个与会者中每一个分别进行独立的视觉语音活动检测,所述处理模块通过嘴唇颜色与脸部颜色的差异来获得嘴唇轮廓,并基于上下唇和上下唇之间的间隙在亮度和/或颜色上的差异来确定嘴唇轮廓范围内该间隙的面积,当该面积在视频的连续帧中的差异超过预设的阈值时,该嘴唇的视觉语音活动检测信号的输出为“1”,否则,该嘴唇的视觉语音活动检测信号的输出为“0”;
所述处理模块通过检测所述音频信息来获得所述声学语音活动检测信号;当音频信息中存在语音时,所述声学语音活动检测信号的输出为“1”,否则,所述声学语音活动检测信号的输出为“0”。
3. 根据权利要求1或2所述的系统,其中所述多个与会者的数目小于或等于所有与会者的数目。
4. 根据权利要求3所述的系统,进一步包括显示模块,用于显示被确定为当前发言人的与会者。
5. 根据权利要求4所述的系统,进一步包括存储模块,用于存储所有与会者的身份信息;在该音频/视频会议期间,每当确定出当前发言人时,识别当前发言人并向所述显示模块提供与当前发言人相应的与会者的身份信息。
6. 根据权利要求5所述的系统,其中所述系统在该音频/视频会议期间,每当确定出当前发言人时,在音频流和/或视频流中标识与当前发言人相应的与会者的身份信息。
7. 一种基于视觉语音活动检测和声学语音活动检测的发言人检测方法,包括:
获取多个与会者的视频信息;
获取音频/视频会议的音频信息;
对所述视频信息中的所述多个与会者的每一个的视觉语音活动分别进行检测,以生成针对所述多个与会者的每一个的视觉语音活动检测信号;并对所述音频信息中的声学语音活动进行检测,以生成声学语音活动检测信号;
将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较,并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。
8. 根据权利要求7所述的方法,其中所述视觉语音活动为与会者的嘴唇运动,且其中:
对所述多个与会者中每一个分别进行独立的视觉语音活动检测,通过嘴唇颜色与脸部颜色的差异来获得嘴唇轮廓,并基于上下唇和上下唇之间的间隙在亮度和/或颜色上的差异来确定嘴唇轮廓范围内该间隙的面积,当该面积在视频的连续帧中的差异超过预设的阈值时,该嘴唇的视觉语音活动检测信号的输出为“1”,否则,该嘴唇的视觉语音活动检测信号的输出为“0”;
通过检测所述音频信息来获得所述声学语音活动检测信号;当音频信息中存在语音时,所述声学语音活动检测信号的输出为“1”,否则,所述声学语音活动检测信号的输出为“0”。
9. 根据权利要求7或8所述的方法,其中所述多个与会者的数目小于或等于所有与会者的数目。
10. 根据权利要求9所述的方法,进一步包括使用显示模块显示被确定为当前发言人的与会者。
11. 根据权利要求10所述的方法,进一步包括存储所有与会者的身份信息;在该音频/视频会议期间,每当确定出当前发言人时,识别当前发言人并向所述显示模块提供与当前发言人相应的与会者的身份信息。
12. 根据权利要求11所述的方法,包括在该音频/视频会议期间,每当确定出当前发言人时,在音频流和/或视频流中标识与当前发言人相应的与会者的身份信息。
13. 一种音频/视频会议系统,所述音频/视频会议系统包括如权利要求1-6中任一项所述的基于视觉语音活动检测和声学语音活动检测的发言人检测系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210252356.5A CN103581608B (zh) | 2012-07-20 | 2012-07-20 | 发言人检测系统、发言人检测方法和音频/视频会议系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210252356.5A CN103581608B (zh) | 2012-07-20 | 2012-07-20 | 发言人检测系统、发言人检测方法和音频/视频会议系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103581608A true CN103581608A (zh) | 2014-02-12 |
CN103581608B CN103581608B (zh) | 2019-02-01 |
Family
ID=50052407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210252356.5A Active CN103581608B (zh) | 2012-07-20 | 2012-07-20 | 发言人检测系统、发言人检测方法和音频/视频会议系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103581608B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104270655A (zh) * | 2014-10-24 | 2015-01-07 | 四川省科本哈根能源科技有限公司 | 一种多点视频汇聚系统 |
CN104301659A (zh) * | 2014-10-24 | 2015-01-21 | 四川省科本哈根能源科技有限公司 | 一种多点视频汇聚识别系统 |
CN105976828A (zh) * | 2016-04-19 | 2016-09-28 | 乐视控股(北京)有限公司 | 一种声音区分方法和终端 |
WO2017004753A1 (zh) * | 2015-07-03 | 2017-01-12 | 马岩 | 会议的灯光控制方法及系统 |
CN106782551A (zh) * | 2016-12-06 | 2017-05-31 | 北京华夏电通科技有限公司 | 一种语音识别系统及方法 |
CN109274922A (zh) * | 2018-11-19 | 2019-01-25 | 国网山东省电力公司信息通信公司 | 一种基于语音识别的视频会议控制系统 |
CN110210196A (zh) * | 2019-05-08 | 2019-09-06 | 北京地平线机器人技术研发有限公司 | 身份认证方法及装置 |
CN110300001A (zh) * | 2019-05-21 | 2019-10-01 | 深圳壹账通智能科技有限公司 | 会议音频控制方法、系统、设备及计算机可读存储介质 |
WO2019227552A1 (zh) * | 2018-06-01 | 2019-12-05 | 深圳市鹰硕技术有限公司 | 基于行为识别的语音定位方法以及装置 |
CN110648667A (zh) * | 2019-09-26 | 2020-01-03 | 云南电网有限责任公司电力科学研究院 | 多人场景人声匹配方法 |
CN110719430A (zh) * | 2018-07-13 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 图像数据生成方法、装置、电子设备及存储介质 |
CN111046850A (zh) * | 2019-12-31 | 2020-04-21 | 杭州晨安科技股份有限公司 | 一种基于声音与图像融合的发言者定位方法 |
CN111182256A (zh) * | 2018-11-09 | 2020-05-19 | 中移(杭州)信息技术有限公司 | 一种信息处理方法及服务器 |
CN111222117A (zh) * | 2019-12-30 | 2020-06-02 | 云知声智能科技股份有限公司 | 身份信息的识别方法及装置 |
CN112272284A (zh) * | 2020-09-14 | 2021-01-26 | 重庆国翔创新教学设备有限公司 | 基于双摄像头的多方视频通信方法、装置和系统 |
CN112351238A (zh) * | 2020-11-07 | 2021-02-09 | 杭州集联科技有限公司 | 一种视频会议一体机及其图像传输检测系统 |
CN112633219A (zh) * | 2020-12-30 | 2021-04-09 | 深圳市皓丽智能科技有限公司 | 一种会议发言人追踪方法、装置、计算机设备及存储介质 |
CN113179383A (zh) * | 2021-03-03 | 2021-07-27 | 梁霄 | 一种企业办公远程会议系统 |
CN113794814A (zh) * | 2021-11-16 | 2021-12-14 | 珠海视熙科技有限公司 | 一种控制视频图像输出的方法、装置及存储介质 |
WO2021253259A1 (en) * | 2020-06-17 | 2021-12-23 | Plantronics, Inc. | Presenter-tracker management in a videoconferencing environment |
CN114554095A (zh) * | 2022-02-25 | 2022-05-27 | 深圳锐取信息技术股份有限公司 | 一种4k摄像机的目标对象确定方法以及相关装置 |
WO2022143883A1 (zh) * | 2020-12-30 | 2022-07-07 | 华为技术有限公司 | 一种拍摄方法、系统及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1118961A (zh) * | 1994-04-06 | 1996-03-20 | 美国电报电话公司 | 具有综合的感知语音和视频编码的比特率视听通讯系统 |
US20040267521A1 (en) * | 2003-06-25 | 2004-12-30 | Ross Cutler | System and method for audio/video speaker detection |
CN101080000A (zh) * | 2007-07-17 | 2007-11-28 | 华为技术有限公司 | 视频会议中显示发言人的方法、系统、服务器和终端 |
CN101383876A (zh) * | 2007-09-07 | 2009-03-11 | 华为技术有限公司 | 会议中获取当前活动发言人的方法、媒体服务器 |
CN101540873A (zh) * | 2009-05-07 | 2009-09-23 | 深圳华为通信技术有限公司 | 一种在视讯会议中提示发言人信息的方法、装置及系统 |
-
2012
- 2012-07-20 CN CN201210252356.5A patent/CN103581608B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1118961A (zh) * | 1994-04-06 | 1996-03-20 | 美国电报电话公司 | 具有综合的感知语音和视频编码的比特率视听通讯系统 |
US20040267521A1 (en) * | 2003-06-25 | 2004-12-30 | Ross Cutler | System and method for audio/video speaker detection |
CN101080000A (zh) * | 2007-07-17 | 2007-11-28 | 华为技术有限公司 | 视频会议中显示发言人的方法、系统、服务器和终端 |
CN101383876A (zh) * | 2007-09-07 | 2009-03-11 | 华为技术有限公司 | 会议中获取当前活动发言人的方法、媒体服务器 |
CN101540873A (zh) * | 2009-05-07 | 2009-09-23 | 深圳华为通信技术有限公司 | 一种在视讯会议中提示发言人信息的方法、装置及系统 |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104301659A (zh) * | 2014-10-24 | 2015-01-21 | 四川省科本哈根能源科技有限公司 | 一种多点视频汇聚识别系统 |
CN104270655A (zh) * | 2014-10-24 | 2015-01-07 | 四川省科本哈根能源科技有限公司 | 一种多点视频汇聚系统 |
WO2017004753A1 (zh) * | 2015-07-03 | 2017-01-12 | 马岩 | 会议的灯光控制方法及系统 |
CN105976828A (zh) * | 2016-04-19 | 2016-09-28 | 乐视控股(北京)有限公司 | 一种声音区分方法和终端 |
CN106782551A (zh) * | 2016-12-06 | 2017-05-31 | 北京华夏电通科技有限公司 | 一种语音识别系统及方法 |
CN106782551B (zh) * | 2016-12-06 | 2020-07-24 | 北京华夏电通科技有限公司 | 一种语音识别系统及方法 |
WO2019227552A1 (zh) * | 2018-06-01 | 2019-12-05 | 深圳市鹰硕技术有限公司 | 基于行为识别的语音定位方法以及装置 |
CN110719430A (zh) * | 2018-07-13 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 图像数据生成方法、装置、电子设备及存储介质 |
CN111182256A (zh) * | 2018-11-09 | 2020-05-19 | 中移(杭州)信息技术有限公司 | 一种信息处理方法及服务器 |
CN109274922A (zh) * | 2018-11-19 | 2019-01-25 | 国网山东省电力公司信息通信公司 | 一种基于语音识别的视频会议控制系统 |
CN110210196A (zh) * | 2019-05-08 | 2019-09-06 | 北京地平线机器人技术研发有限公司 | 身份认证方法及装置 |
CN110210196B (zh) * | 2019-05-08 | 2023-01-06 | 北京地平线机器人技术研发有限公司 | 身份认证方法及装置 |
CN110300001A (zh) * | 2019-05-21 | 2019-10-01 | 深圳壹账通智能科技有限公司 | 会议音频控制方法、系统、设备及计算机可读存储介质 |
CN110300001B (zh) * | 2019-05-21 | 2022-03-15 | 深圳壹账通智能科技有限公司 | 会议音频控制方法、系统、设备及计算机可读存储介质 |
CN110648667B (zh) * | 2019-09-26 | 2022-04-08 | 云南电网有限责任公司电力科学研究院 | 多人场景人声匹配方法 |
CN110648667A (zh) * | 2019-09-26 | 2020-01-03 | 云南电网有限责任公司电力科学研究院 | 多人场景人声匹配方法 |
CN111222117A (zh) * | 2019-12-30 | 2020-06-02 | 云知声智能科技股份有限公司 | 身份信息的识别方法及装置 |
CN111046850A (zh) * | 2019-12-31 | 2020-04-21 | 杭州晨安科技股份有限公司 | 一种基于声音与图像融合的发言者定位方法 |
US11423550B2 (en) | 2020-06-17 | 2022-08-23 | Plantronics, Inc. | Presenter-tracker management in a videoconferencing environment |
WO2021253259A1 (en) * | 2020-06-17 | 2021-12-23 | Plantronics, Inc. | Presenter-tracker management in a videoconferencing environment |
CN112272284A (zh) * | 2020-09-14 | 2021-01-26 | 重庆国翔创新教学设备有限公司 | 基于双摄像头的多方视频通信方法、装置和系统 |
CN112272284B (zh) * | 2020-09-14 | 2023-04-14 | 重庆国翔创新教学设备有限公司 | 基于双摄像头的多方视频通信方法、装置和系统 |
CN112351238A (zh) * | 2020-11-07 | 2021-02-09 | 杭州集联科技有限公司 | 一种视频会议一体机及其图像传输检测系统 |
WO2022143883A1 (zh) * | 2020-12-30 | 2022-07-07 | 华为技术有限公司 | 一种拍摄方法、系统及电子设备 |
CN112633219A (zh) * | 2020-12-30 | 2021-04-09 | 深圳市皓丽智能科技有限公司 | 一种会议发言人追踪方法、装置、计算机设备及存储介质 |
CN113179383A (zh) * | 2021-03-03 | 2021-07-27 | 梁霄 | 一种企业办公远程会议系统 |
CN113179383B (zh) * | 2021-03-03 | 2024-01-26 | 深圳市玄关健康医疗互联网有限公司 | 一种企业办公远程会议系统 |
CN113794814B (zh) * | 2021-11-16 | 2022-02-08 | 珠海视熙科技有限公司 | 一种控制视频图像输出的方法、装置及存储介质 |
CN113794814A (zh) * | 2021-11-16 | 2021-12-14 | 珠海视熙科技有限公司 | 一种控制视频图像输出的方法、装置及存储介质 |
CN114554095A (zh) * | 2022-02-25 | 2022-05-27 | 深圳锐取信息技术股份有限公司 | 一种4k摄像机的目标对象确定方法以及相关装置 |
CN114554095B (zh) * | 2022-02-25 | 2024-04-16 | 深圳锐取信息技术股份有限公司 | 一种4k摄像机的目标对象确定方法以及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103581608B (zh) | 2019-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103581608A (zh) | 发言人检测系统、发言人检测方法和音频/视频会议系统 | |
WO2018049957A1 (zh) | 音频信号、图像处理的方法、装置和系统 | |
Donley et al. | Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments | |
US9179098B2 (en) | Video conferencing | |
US9154730B2 (en) | System and method for determining the active talkers in a video conference | |
US8878678B2 (en) | Method and apparatus for providing an intelligent mute status reminder for an active speaker in a conference | |
US10771694B1 (en) | Conference terminal and conference system | |
EP2993860B1 (en) | Method, apparatus, and system for presenting communication information in video communication | |
US9165182B2 (en) | Method and apparatus for using face detection information to improve speaker segmentation | |
KR20100028060A (ko) | 디스플레이 장치 검출 기법 | |
GB2342802A (en) | Indexing conference content onto a timeline | |
US20190149769A1 (en) | Combining installed audio-visual sensors with ad-hoc mobile audio-visual sensors for smart meeting rooms | |
US11405584B1 (en) | Smart audio muting in a videoconferencing system | |
TWI511126B (zh) | 麥克風系統及噪音消除方法 | |
EP2814244A1 (en) | A method and a system for improving communication quality of a video conference | |
EP3005690B1 (en) | Method and system for associating an external device to a video conference session | |
US20160142462A1 (en) | Displaying Identities of Online Conference Participants at a Multi-Participant Location | |
US9426573B2 (en) | Sound field encoder | |
TW201543902A (zh) | 視訊會議靜音技術 | |
US11775834B2 (en) | Joint upper-body and face detection using multi-task cascaded convolutional networks | |
Berghi et al. | Visually supervised speaker detection and localization via microphone array | |
WO2017071045A1 (zh) | 录音方法及装置 | |
CN114762039A (zh) | 一种会议数据处理方法及相关设备 | |
US10580410B2 (en) | Transcription of communications | |
EP2760223A9 (en) | Sound field encoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1194884 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |