CN111343411A - 一种智能远程视频会议系统 - Google Patents

一种智能远程视频会议系统 Download PDF

Info

Publication number
CN111343411A
CN111343411A CN202010199405.8A CN202010199405A CN111343411A CN 111343411 A CN111343411 A CN 111343411A CN 202010199405 A CN202010199405 A CN 202010199405A CN 111343411 A CN111343411 A CN 111343411A
Authority
CN
China
Prior art keywords
sound source
microphone array
position information
video stream
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010199405.8A
Other languages
English (en)
Other versions
CN111343411B (zh
Inventor
李颖
刘波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Co Ltd
Qingdao Hisense Smart Life Technology Co Ltd
Original Assignee
Qingdao Hisense Smart Home Systems Co ltd
Hisense Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Hisense Smart Home Systems Co ltd, Hisense Co Ltd filed Critical Qingdao Hisense Smart Home Systems Co ltd
Priority to CN202010199405.8A priority Critical patent/CN111343411B/zh
Publication of CN111343411A publication Critical patent/CN111343411A/zh
Application granted granted Critical
Publication of CN111343411B publication Critical patent/CN111343411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/30Determining absolute distances from a plurality of spaced points of known location

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)

Abstract

本发明公开了一种智能远程视频会议系统,该方法包括多个麦克风阵列系统、多个声源跟踪摄像机和中央控制系统,中央控制系统用于根据各麦克风阵列相对声源的位置信息,确定出备选和有效的麦克风阵列,发送给备选和有效的麦克风阵列对应的声源跟踪摄像机,在接收到声源跟踪摄像机反馈的转动角度和采集到的声源处发言人的视频流时,进行人脸识别分析,确定出声源的位置信息,并将声源的位置信息发送给声源的位置信息对应的麦克风阵列,以使声源的位置信息对应的麦克风阵列增强声源的位置信息所在方向的声音采集。通过布置多个麦克风阵列系统进行声源定位,结合声源跟踪摄像机的位置矫正,可以提高声源定位的准确度,从而提高会场音频流的质量。

Description

一种智能远程视频会议系统
技术领域
本发明实施例涉及智慧家居技术领域,尤其涉及一种智能远程视频会议系统。
背景技术
目前最常用的声源定位算法是TDOA,因其运算量较低,实时性好。但是也存在不足:1.定位时的时延值与已测得的时延值不同步;2.若房间内混响较强,信噪比较低时,将导致声源定位误差很大。但由于其运算量较低,在经过改进后,在一定噪声和混响的环境下,仍能获得较好的定位效果,因此被广泛应用。
视频会议中的音频流质量是至关重要的,基于以上分析,单纯使用TDOA算法进行声源定位是不可行的,现有的改进主要有两种,一是通过增加麦克风阵列的麦克风个数,麦克风个数的增加无疑增加了麦克风阵列的空间复杂度,预示着声源定位算法的复杂度将会大大提高;二是结合其他算法,但是要想在大型会议室中达到良好的效果,算法的复杂度无疑被大大提高。这两者都会使得声源定位的效率大大降低,无法保证实时性。
发明内容
本发明实施例提供一种智能远程视频会议系统,用以提高声源定位的效率,保证声源定位的实时性。
第一方面,本发明实施例提供一种智能远程视频会议系统,包括:多个麦克风阵列系统、多个声源跟踪摄像机和中央控制系统;
所述多个麦克风阵列系统用于采集各麦克风阵列相对声源的位置信息,并将所述各麦克风阵列相对声源的位置信息发送给所述中央控制系统;
所述多个声源跟踪摄像机用于根据所述中央控制系统发送的备选和有效麦克风阵列相对声源的位置信息,确定出采集到声源处发言人的视频流时摄像头的转动角度,并将所述转动角度和采集到的声源处发言人的视频流发送给所述中央控制系统;所述多个麦克风阵列系统与所述多个声源跟踪摄像机一一对应;
所述中央控制系统用于根据所述各麦克风阵列相对声源的位置信息,确定出备选和有效的麦克风阵列,将所述备选和有效的麦克风阵列相对声源的位置信息发送给所述备选和有效的麦克风阵列对应的声源跟踪摄像机,在接收到所述声源跟踪摄像机反馈的所述转动角度和采集到的声源处发言人的视频流时,进行人脸识别分析,确定出所述声源的位置信息,并将所述声源的位置信息发送给所述声源的位置信息对应的麦克风阵列,以使所述声源的位置信息对应的麦克风阵列增强所述声源的位置信息所在方向的声音采集,对采集的音视频流进行合成。
上述技术方案中,通过在会场布置多个麦克风阵列系统进行声源定位,结合声源跟踪摄像机的位置矫正,可以降低声源定位的复杂度,提升声源定位的效率,提高声源定位的准确度,从而提高会场音频流的质量。
可选的,所述中央控制系统包括音频流的控制模块、视频流的控制模块和音视频处理模块;
所述音频流的控制模块包括声源定位决策模块,用于根据所述各麦克风阵列相对声源的位置信息,确定出备选和有效的麦克风阵列,以及在接收到所述转动角度和人脸识别分析结果时,根据所述人脸识别分析结果和所述转动角度,确定出所述声源的位置信息,并将所述声源的位置信息发送给所述声源的位置信息对应的麦克风阵列;
所述视频流的控制模块包括声源跟踪摄像机控制模块,用于将所述备选和有效的麦克风阵列相对声源的位置信息发送给所述备选和有效的麦克风阵列对应的声源跟踪摄像机;
所述音视频处理模块用于对采集的音视频流进行合成。
可选的,所述声源定位决策模块用于对比所述各麦克风阵列相对声源的位置信息中的距离数据,当两个麦克风阵列相对声源的位置信息中的距离数据的差值小于等于距离阈值时,将所述两个麦克风阵列确定为备选的麦克风阵列,当所述两个麦克风阵列相对声源的位置信息中的距离数据的差值大于距离阈值时,将距离数据小的麦克风阵列确定为有效的麦克风阵列。
可选的,所述视频流的控制模块还包括人脸分析模块;
所述人脸分析模块用于在接收到所述声源跟踪摄像机反馈的所述转动角度和采集到的声源处发言人的视频流时,进行人脸识别分析,将人脸识别分析结果和所述转动角度发送给所述声源定位决策模块。
可选的,所述系统还包括白板摄像机和幕布摄像机;所述视频流的控制模块还包括白板检测图像分析模块和投影检测图像分析模块;
所述白板摄像机用于采集白板的视频流,并将采集到的所述白板的视频流发送给所述白板检测图像分析模块;
所述幕布摄像机用于采集幕布的视频流,并将采集到的所述幕布的视频流发送给所述投影检测图像分析模块;
所述白板检测图像分析模块用于在根据所述采集到的所述白板的视频流检测到所述白板处于活动状态时,将所述白板的视频流确定为有效视频流;
所述投影检测图像分析模块用于在根据所述采集到的所述幕布的视频流检测到所述幕布的处于活动状态时,将所述幕布的视频流确定为有效视频流。
可选的,所述声源定位决策模块还用于将所述声源的位置信息对应的视频流确定为有效视频流;
所述音视频处理模块还用于在检测到网络环境差时,将多个有效视频流根据优先级对所述多个有效视频流进行压缩处理,并与所述声源的位置信息对应的麦克风阵列采集音频流进行合并后上传。
可选的,所述麦克风阵列系统包括正四面体麦克风阵列、前置放大电路、A/D转换模块和DSP;
所述正四面体麦克风阵列用于采集声源处的声音信号;
所述前置放大电路用于将所述声音信号放大后;
所述A/D转换模块用于将放大后的声音信号转换为声音数字信号;
所述DSP用于对所述声音数字进行基于更小搜索步长的TDOA算法处理,确定出所述正四面体麦克风阵列相对声源的位置信息。
可选的,所述麦克风阵列通过TCP通信的方式与所述中央控制系统进行通信。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种智能远程视频会议系统的结构示意图;
图2为本发明实施例提供的一种麦克风阵列系统的结构示意图;
图3为本发明实施例提供的一种麦克风阵列系统的布置示意图;
图4为本发明实施例提供的一种麦克风阵列的坐标系示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
现有的视频会议很多都使用一个麦克风阵列进行移动声源定位,不再需要麦克风时刻指向声源方向,能够增强噪声环境中发言人方向的声音信息收集,具有抑制噪声和语音增强的能力,并且能够利用位置信息转动摄像机将发言人置于画面中间,省去了人工控制摄像机。但是根据相关建筑设计规范,大致可以得出大型会议室可容纳150人以上,面积大约200平米以上或更多。在这样的面积下,使用一个大小合适的麦克风阵列进行声源定位,位置信息的误差将无法估计,进而影响视频会议上传的音频流质量和摄像机搜索发言人的速度。因为距离对声源定位准确度的影响是非常大的,随着声源相对麦克风阵列距离增大,位置信息就越不准确。
麦克风阵列的各个麦克风之间的距离和不同的麦克风拓扑结构都会影响麦克风阵列声源定位的准确度,麦克风之间的间距越大,它的定位准确度越高,但是视频会议使用的麦克风阵列必然不能间距过大,所以正四面体的拓扑结构虽然提高了声源定位的准确度,但是若声源距离麦克风阵列距离过远,仍然不会有好的定位效果。在大型视频会议的场景下,发言人即声源和麦克风阵列的距离大多属于远场,这样的场景也降低了算法的复杂度。本文使用正四面体麦克风阵列,它相对于平面阵列,具有定位误差较小,使用很少的麦克风,就可以定位较远的距离的优点。
目前出现的定位方法中计算量最小、最易于实时应用的声源定位方法是TDOA算法,但是该算法除了本身的缺陷外,还有很多因素影响着声源定位的精度,如会议室的混响,墙壁的反射和噪音等,都影响声源定位的准确度。
通过上述分析,为了提高大中型视频会议的声源定位准确度,本发明实施例提供一种智能远程视频会议系统,通过在视频会议室现场布置多个麦克风阵列进行声源定位,结合摄像机辅助,根据声源的位置变化和人脸转动,实时决策有效音频流的麦克风阵列和有效视频流的摄像机的方法。
如图1所示的智能远程视频会议系统的结构,该智能远程视频会议系统可以包括多个麦克风阵列系统100、多个声源跟踪摄像机200和中央控制系统300。
其中,多个麦克风阵列系统100用于采集各麦克风阵列相对声源的位置信息,并将各麦克风阵列相对声源的位置信息发送给中央控制系统300。多个声源跟踪摄像机200用于根据中央控制系统300发送的备选和有效麦克风阵列相对声源的位置信息,确定出采集到声源处发言人的视频流时摄像头的转动角度,并将转动角度和采集到的声源处发言人的视频流发送给中央控制系统300。其中,多个麦克风阵列系统100与多个声源跟踪摄像机200一一对应。中央控制系统300用于根据各麦克风阵列相对声源的位置信息,确定出备选和有效的麦克风阵列,将备选和有效的麦克风阵列相对声源的位置信息发送给备选和有效的麦克风阵列对应的声源跟踪摄像机200,在接收到声源跟踪摄像机200反馈的转动角度和采集到的声源处发言人的视频流时,进行人脸识别分析,确定出声源的位置信息,并将声源的位置信息发送给声源的位置信息对应的麦克风阵列,以使声源的位置信息对应的麦克风阵列增强声源的位置信息所在方向的声音采集,对采集的音视频流进行合成。
具体的,上述中央控制系统300可以包括音频流的控制模块、视频流的控制模块和音视频处理模块306。
音频流的控制模块包括声源定位决策模块301,用于根据各麦克风阵列相对声源的位置信息,确定出备选和有效的麦克风阵列,以及在接收到转动角度和人脸识别分析结果时,根据人脸识别分析结果和转动角度,确定出声源的位置信息,并将声源的位置信息发送给声源的位置信息对应的麦克风阵列。具体的,声源定位决策模块301用于对比各麦克风阵列相对声源的位置信息中的距离数据,例如,当两个麦克风阵列相对声源的位置信息中的距离数据的差值小于等于距离阈值时,将两个麦克风阵列确定为备选的麦克风阵列,当两个麦克风阵列相对声源的位置信息中的距离数据的差值大于距离阈值时,将距离数据小的麦克风阵列确定为有效的麦克风阵列。
麦克风阵列系统100负责收集各个麦克风阵列相对声源的位置信息(r,α,β),其中r代表距离,α代表方位角,β代表仰角。然后把位置信息发送给声源定位决策模块301,声源定位决策模块301通过对比r值,选出距离声源最近的两个麦克风阵列,当两个r值之差小于Δd时,这两个麦克风阵列均当作有效音频流的备选,将r值更小的麦克风阵列作为暂时的有效音频流的麦克风阵列;当两个r值之差大于Δd时,r值小的麦克风阵列即为有效音频流的麦克风阵列,它所对应的声源跟踪摄像机200采集的视频流即为有效视频流,执行第2步。然后,把备选和有效麦克风阵列系统100得出的位置信息再发送给声源跟踪摄像机控制模块302,由声源跟踪摄像机控制模块3021发送给对应的声源跟踪摄像机200,其他无效摄像机的位置信息则不发送,避免无效劳动。
视频流的控制模块包括声源跟踪摄像机控制模块302、人脸分析模块303、白板检测图像分析模块304和投影检测图像分析模块305,用于将备选和有效的麦克风阵列相对声源的位置信息发送给备选和有效的麦克风阵列对应的声源跟踪摄像机200。音视频处理模块306用于对采集的音视频流进行合成。
进一步的,声源定位决策模块301用于对比各麦克风阵列相对声源的位置信息中的距离数据,当两个麦克风阵列相对声源的位置信息中的距离数据的差值小于等于距离阈值时,将两个麦克风阵列确定为备选的麦克风阵列,当两个麦克风阵列相对声源的位置信息中的距离数据的差值大于距离阈值时,将距离数据小的麦克风阵列确定为有效的麦克风阵列。
人脸分析模块303用于在接收到声源跟踪摄像机200反馈的转动角度和采集到的声源处发言人的视频流时,进行人脸识别分析,将人脸识别分析结果和转动角度发送给声源定位决策模块301。
具体的,各个声源跟踪摄像机200根据位置信息转动摄像头,调整焦距,采集视频流,然后将视频流发送给人脸分析模块303,通过人脸分析模块303进行图像识别,找到发言人,此时这个转动角度再反馈给声源定位决策模块301,得出最终更加精确的位置信息并发送给对应的麦克风阵列系统100,使麦克风阵列增强这个方向的声音采集,抑制其他方向的噪音采集。这里,不仅发言人位置的变化会影响有效麦克风阵列的选择,人脸的转动也会有影响。需要说明的是,若两个备选麦克风阵列的r值之差小于Δd时,还应在找到发言人后增加一步,确定是否两个声源跟踪摄像机都找到发言人,若仅有一个找到,则该声源跟踪摄像机所对应的麦克风阵列即为有效麦克风阵列;若都找到,则分析两个声源跟踪摄像机采集的发言人面部信息,一样多则取近的有效,不一样多则取面部信息更完整的为有效。这样就得出了最终的有效音频流。
系统还包括白板摄像机400和幕布摄像机500。白板摄像机400用于采集白板的视频流,并将采集到的白板的视频流发送给白板检测图像分析模块304。白板检测图像分析模块304用于在根据采集到的白板的视频流检测到白板处于活动状态时,将白板的视频流确定为有效视频流。幕布摄像机500用于采集幕布的视频流,并将采集到的幕布的视频流发送给投影检测图像分析模块305。投影检测图像分析模块305用于在根据采集到的幕布的视频流检测到幕布的处于活动状态时,将幕布的视频流确定为有效视频流。
举例来说,会议开始设定其中一个麦克风阵列为有效音频流的设备,该麦克风阵列所对应的摄像机为有效的声源跟踪摄像机,设定麦克风阵列和声源跟踪摄像机的初始角度,默认白板摄像机和幕布摄像机不上传视频流。
以往的视频会议系统往往是发送突出发言人的全景视频画面,还有就是视频仅仅跟踪发言人,但是很多时候想传达的有效图像并非仅有发言人,并且现有视频会议系统多通过视频会议系统软件,内置白板共享和屏幕录制等功能去共享同一画面,往往需要有管理员专门去操控软件进行切换,这种交互是不自然的,降低了使用体验。因此,在这里提出一种更侧重会议信息的视频筛选方法,它可以不用通过手动或者语音的方式控制摄像机。
通过使用白板摄像机和幕布摄像机,通过图像识别去检测白板或幕布是否正在活动,实现判断白板摄像机和幕布摄像机采集的视频流当前是不是有效视频流。当正在使用时,也就是处于活动状时,自动判定为有效视频流,这时有效视频流不仅为声源跟踪摄像机采集的视频流,还有白板摄像机或者幕布摄像机采集的视频流。同时,为了保证视频会议的流畅性和音视频数据的清晰准确,当检测到网络环境差的时候,对多个有效视频流做优先级排序,进行不同程度的压缩处理,然后进行传输。例如当通过图像处理检测白板正在使用,则白板摄像机上传的视频流为主视频流,图像尺寸大且压缩比小,声源跟踪摄像机的图像尺寸小且压缩比大,使得视频会议的另一端可以使用大小窗口叠加播放视频流。当没有活动的发言人、白板和幕布时,默认幕布摄像机上传视频流。
进一步的,声源定位决策模块301还用于将声源的位置信息对应的视频流确定为有效视频流。音视频处理模块306还用于在检测到网络环境差时,将多个有效视频流根据优先级对多个有效视频流进行压缩处理,并与声源的位置信息对应的麦克风阵列采集音频流进行合并后上传。
需要说明的是,如图2所示,上述麦克风阵列系统100可以包括正四面体麦克风阵列、前置放大电路、A/D转换模块和DSP。其中,正四面体麦克风阵列用于采集声源处的声音信号;前置放大电路用于将声音信号放大后;A/D转换模块用于将放大后的声音信号转换为声音数字信号;DSP用于对声音数字进行基于更小搜索步长的TDOA算法处理,确定出正四面体麦克风阵列相对声源的位置信息。麦克风阵列通过TCP通信的方式与中央控制系统进行通信。
声音信号到达正四面体麦克风阵列,经麦克风阵列接收后转换为微弱的电信号,然后由前置放大电路对电信号放大到A/D可以采集到的电压水平,接着电信号将进行A/D转换,然后将信号送入DSP进行基于更小搜索步长的TDOA算法处理得出位置信息。关于麦克风阵列系统与中央控制系统之间的通信,各个麦克风阵列系统和它所对应的摄像机均采用POE供电连接在同一局域网下,A/D转换得来的PCM数据采用UDP通信的方式传输给中央控制系统,位置信息采用TCP通信的方式发送给中央控制系统,中央控制系统的各种控制信息采用TCP通信的方式发送给麦克风阵列系统。
如图3所示的麦克风阵列系统的布置情况,假设一个麦克风阵列可保证一定声源定位准确性的距离为L,根据会议室大小,在会议室现场布置了三个麦克风阵列。当会议现场在S处有人发言时,三个麦克风阵列都开始进行实时的声源定位,根据图4制定的直角坐标系,得到声源相对各个麦克风阵列的位置信息(r,α,β),各个麦克风阵列系统再实时将位置信息发送到中央控制系统,中央控制系统每隔1秒就对各个麦克风阵列发来的位置信息分别取平均,然后对比三个麦克风阵列对应的位置信息的平均值,筛选出其中两个
Figure BDA0002418826590000101
值较小的麦克风阵列,即距离声源最近的两个麦克风阵列。当两个r的差大于Δd时,就选定r值较小的麦克风阵列作为有效音频流的麦克风阵列;若两个r的差小于Δd时,暂时返回小的为有效,还需要通过摄像机对发言人图像进行分析后,确定最终有效的麦克风阵列。这个过程是各个声源跟踪摄像机依据与之对应的麦克风阵列系统所确定的发言人位置信息,快速调整摄像机的方向及焦距,检索正在说话的人脸,将正在说话的人脸置于画面中央,然后通过分析人脸特征,判断发言人人脸朝向哪个摄像机更多,辅助决策有效音频流的麦克风阵列。
中央控制系统对于多个麦克风阵列的音频流的上传控制逻辑如下:设置一个全局数组,数组的各个变量分别对应各个麦克风阵列,数组每个元素的值只有0和1,1表示上传,0表示不上传。设置一个储存均值的全局结构体数组,每隔1秒种,就对麦克风阵列系统发来的位置信息取平均存于全局结构体数组中,从数组中筛选出值最小的两个做差,当两个的差大于时,就选定值较小的麦克风阵列作为上传音频流的麦克风阵列;若两个的差小于时,暂定较小的一个为有效,还需要通过摄像机对发言人图像进行分析后,确定最终上传音频流的麦克风阵列。
最后,由音视频处理模块完成音视频的合成。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种智能远程视频会议系统,其特征在于,包括:多个麦克风阵列系统、多个声源跟踪摄像机和中央控制系统;
所述多个麦克风阵列系统用于采集各麦克风阵列相对声源的位置信息,并将所述各麦克风阵列相对声源的位置信息发送给所述中央控制系统;
所述多个声源跟踪摄像机用于根据所述中央控制系统发送的备选和有效麦克风阵列相对声源的位置信息,确定出采集到声源处发言人的视频流时摄像头的转动角度,并将所述转动角度和采集到的声源处发言人的视频流发送给所述中央控制系统;所述多个麦克风阵列系统与所述多个声源跟踪摄像机一一对应;
所述中央控制系统用于根据所述各麦克风阵列相对声源的位置信息,确定出备选和有效的麦克风阵列,将所述备选和有效的麦克风阵列相对声源的位置信息发送给所述备选和有效的麦克风阵列对应的声源跟踪摄像机,在接收到所述声源跟踪摄像机反馈的所述转动角度和采集到的声源处发言人的视频流时,进行人脸识别分析,确定出所述声源的位置信息,并将所述声源的位置信息发送给所述声源的位置信息对应的麦克风阵列,以使所述声源的位置信息对应的麦克风阵列增强所述声源的位置信息所在方向的声音采集,对采集的音视频流进行合成。
2.如权利要求1所述的系统,其特征在于,所述中央控制系统包括音频流的控制模块、视频流的控制模块和音视频处理模块;
所述音频流的控制模块包括声源定位决策模块,用于根据所述各麦克风阵列相对声源的位置信息,确定出备选和有效的麦克风阵列,以及在接收到所述转动角度和人脸识别分析结果时,根据所述人脸识别分析结果和所述转动角度,确定出所述声源的位置信息,并将所述声源的位置信息发送给所述声源的位置信息对应的麦克风阵列;
所述视频流的控制模块包括声源跟踪摄像机控制模块,用于将所述备选和有效的麦克风阵列相对声源的位置信息发送给所述备选和有效的麦克风阵列对应的声源跟踪摄像机;
所述音视频处理模块用于对采集的音视频流进行合成。
3.如权利要求2所述的系统,其特征在于,所述声源定位决策模块用于对比所述各麦克风阵列相对声源的位置信息中的距离数据,当两个麦克风阵列相对声源的位置信息中的距离数据的差值小于等于距离阈值时,将所述两个麦克风阵列确定为备选的麦克风阵列,当所述两个麦克风阵列相对声源的位置信息中的距离数据的差值大于距离阈值时,将距离数据小的麦克风阵列确定为有效的麦克风阵列。
4.如权利要求2所述的系统,其特征在于,所述视频流的控制模块还包括人脸分析模块;
所述人脸分析模块用于在接收到所述声源跟踪摄像机反馈的所述转动角度和采集到的声源处发言人的视频流时,进行人脸识别分析,将人脸识别分析结果和所述转动角度发送给所述声源定位决策模块。
5.如权利要求2所述的系统,其特征在于,所述系统还包括白板摄像机和幕布摄像机;所述视频流的控制模块还包括白板检测图像分析模块和投影检测图像分析模块;
所述白板摄像机用于采集白板的视频流,并将采集到的所述白板的视频流发送给所述白板检测图像分析模块;
所述幕布摄像机用于采集幕布的视频流,并将采集到的所述幕布的视频流发送给所述投影检测图像分析模块;
所述白板检测图像分析模块用于在根据所述采集到的所述白板的视频流检测到所述白板处于活动状态时,将所述白板的视频流确定为有效视频流;
所述投影检测图像分析模块用于在根据所述采集到的所述幕布的视频流检测到所述幕布的处于活动状态时,将所述幕布的视频流确定为有效视频流。
6.如权利要求5所述的系统,其特征在于,所述声源定位决策模块还用于将所述声源的位置信息对应的视频流确定为有效视频流;
所述音视频处理模块还用于在检测到网络环境差时,将多个有效视频流根据优先级对所述多个有效视频流进行压缩处理,并与所述声源的位置信息对应的麦克风阵列采集音频流进行合并后上传。
7.如权利要求1所述的系统,其特征在于,所述麦克风阵列系统包括正四面体麦克风阵列、前置放大电路、A/D转换模块和DSP;
所述正四面体麦克风阵列用于采集声源处的声音信号;
所述前置放大电路用于将所述声音信号放大后;
所述A/D转换模块用于将放大后的声音信号转换为声音数字信号;
所述DSP用于对所述声音数字进行基于更小搜索步长的TDOA算法处理,确定出所述正四面体麦克风阵列相对声源的位置信息。
8.如权利要求1至7任一项所述的系统,其特征在于,所述麦克风阵列通过TCP通信的方式与所述中央控制系统进行通信。
CN202010199405.8A 2020-03-20 2020-03-20 一种智能远程视频会议系统 Active CN111343411B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010199405.8A CN111343411B (zh) 2020-03-20 2020-03-20 一种智能远程视频会议系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010199405.8A CN111343411B (zh) 2020-03-20 2020-03-20 一种智能远程视频会议系统

Publications (2)

Publication Number Publication Date
CN111343411A true CN111343411A (zh) 2020-06-26
CN111343411B CN111343411B (zh) 2021-07-06

Family

ID=71187671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010199405.8A Active CN111343411B (zh) 2020-03-20 2020-03-20 一种智能远程视频会议系统

Country Status (1)

Country Link
CN (1) CN111343411B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396887A (zh) * 2020-10-26 2021-02-23 华中科技大学 基于声源定位和面部检测的pbl课堂记录方法和系统
CN112492207A (zh) * 2020-11-30 2021-03-12 深圳卡多希科技有限公司 一种基于声源定位控制摄像头转动的方法和装置
CN112543302A (zh) * 2020-12-03 2021-03-23 云知声智能科技股份有限公司 一种多人远程会议中智能降噪的方法和设备
CN112887652A (zh) * 2021-01-21 2021-06-01 宁波市鄞州声科电子有限公司 一种基于智能麦克风阵列提高网络会议质量的系统及方法
CN113099160A (zh) * 2021-03-29 2021-07-09 苏州科达科技股份有限公司 基于麦克风阵列的视频会议方法、系统、设备及存储介质
CN113286088A (zh) * 2021-05-31 2021-08-20 江苏文旭信息技术股份有限公司 一种通过声音定位进行视频优化的视频系统
CN114245065A (zh) * 2021-12-20 2022-03-25 深圳市音络科技有限公司 用于会议系统的定位跟踪方法、系统及电子设备
CN115242971A (zh) * 2022-06-21 2022-10-25 海南视联通信技术有限公司 摄像头控制方法、装置、终端设备和存储介质
CN116165607A (zh) * 2023-02-15 2023-05-26 深圳市拔超科技股份有限公司 采用多个麦克风阵列实现声源精确定位系统及定位方法
CN116866509A (zh) * 2023-07-10 2023-10-10 深圳市创载网络科技有限公司 会议现场画面跟踪方法、装置和存储介质
TWI826768B (zh) * 2021-01-22 2023-12-21 圓展科技股份有限公司 視訊會議系統與方法
WO2024087641A1 (zh) * 2022-10-27 2024-05-02 深圳奥尼电子股份有限公司 一种具有无线麦克风智能跟踪功能的音视频控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007032108A1 (en) * 2005-09-15 2007-03-22 Yamaha Corporation Speaker apparatus and voice conference apparatus
CN103841357A (zh) * 2012-11-21 2014-06-04 中兴通讯股份有限公司 基于视频跟踪的麦克风阵列声源定位方法、装置及系统
CN106679651A (zh) * 2017-02-08 2017-05-17 北京地平线信息技术有限公司 声源定位方法、装置和电子设备
CN110062200A (zh) * 2018-01-19 2019-07-26 浙江宇视科技有限公司 视频监控方法、装置、网络摄像机及存储介质
CN110493690A (zh) * 2019-08-29 2019-11-22 北京搜狗科技发展有限公司 一种声音采集方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007032108A1 (en) * 2005-09-15 2007-03-22 Yamaha Corporation Speaker apparatus and voice conference apparatus
CN103841357A (zh) * 2012-11-21 2014-06-04 中兴通讯股份有限公司 基于视频跟踪的麦克风阵列声源定位方法、装置及系统
CN106679651A (zh) * 2017-02-08 2017-05-17 北京地平线信息技术有限公司 声源定位方法、装置和电子设备
CN110062200A (zh) * 2018-01-19 2019-07-26 浙江宇视科技有限公司 视频监控方法、装置、网络摄像机及存储介质
CN110493690A (zh) * 2019-08-29 2019-11-22 北京搜狗科技发展有限公司 一种声音采集方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CE WANG 等: "real-time automated video and audio capture with multiple cameras and microphones", 《JOURNAL OF VLSI SIGNAL PROCESSING》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396887B (zh) * 2020-10-26 2022-01-11 华中科技大学 基于声源定位和面部检测的pbl课堂记录方法和系统
CN112396887A (zh) * 2020-10-26 2021-02-23 华中科技大学 基于声源定位和面部检测的pbl课堂记录方法和系统
CN112492207A (zh) * 2020-11-30 2021-03-12 深圳卡多希科技有限公司 一种基于声源定位控制摄像头转动的方法和装置
CN112492207B (zh) * 2020-11-30 2023-04-18 深圳卡多希科技有限公司 一种基于声源定位控制摄像头转动的方法和装置
CN112543302B (zh) * 2020-12-03 2023-01-31 云知声智能科技股份有限公司 一种多人远程会议中智能降噪的方法和设备
CN112543302A (zh) * 2020-12-03 2021-03-23 云知声智能科技股份有限公司 一种多人远程会议中智能降噪的方法和设备
CN112887652A (zh) * 2021-01-21 2021-06-01 宁波市鄞州声科电子有限公司 一种基于智能麦克风阵列提高网络会议质量的系统及方法
CN112887652B (zh) * 2021-01-21 2023-03-14 宁波市鄞州声科电子有限公司 一种基于智能麦克风阵列提高网络会议质量的系统及方法
TWI826768B (zh) * 2021-01-22 2023-12-21 圓展科技股份有限公司 視訊會議系統與方法
US11856387B2 (en) 2021-01-22 2023-12-26 Aver Information Inc. Video conferencing system and method thereof
CN113099160A (zh) * 2021-03-29 2021-07-09 苏州科达科技股份有限公司 基于麦克风阵列的视频会议方法、系统、设备及存储介质
CN113286088A (zh) * 2021-05-31 2021-08-20 江苏文旭信息技术股份有限公司 一种通过声音定位进行视频优化的视频系统
CN114245065A (zh) * 2021-12-20 2022-03-25 深圳市音络科技有限公司 用于会议系统的定位跟踪方法、系统及电子设备
CN115242971A (zh) * 2022-06-21 2022-10-25 海南视联通信技术有限公司 摄像头控制方法、装置、终端设备和存储介质
WO2024087641A1 (zh) * 2022-10-27 2024-05-02 深圳奥尼电子股份有限公司 一种具有无线麦克风智能跟踪功能的音视频控制方法
CN116165607B (zh) * 2023-02-15 2023-12-19 深圳市拔超科技股份有限公司 采用多个麦克风阵列实现声源精确定位系统及定位方法
CN116165607A (zh) * 2023-02-15 2023-05-26 深圳市拔超科技股份有限公司 采用多个麦克风阵列实现声源精确定位系统及定位方法
CN116866509A (zh) * 2023-07-10 2023-10-10 深圳市创载网络科技有限公司 会议现场画面跟踪方法、装置和存储介质
CN116866509B (zh) * 2023-07-10 2024-02-23 深圳市创载网络科技有限公司 会议现场画面跟踪方法、装置和存储介质

Also Published As

Publication number Publication date
CN111343411B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN111343411B (zh) 一种智能远程视频会议系统
US8717402B2 (en) Satellite microphone array for video conferencing
US8705778B2 (en) Method and apparatus for generating and playing audio signals, and system for processing audio signals
US8130257B2 (en) Speaker and person backlighting for improved AEC and AGC
US8115799B2 (en) Method and apparatus for obtaining acoustic source location information and a multimedia communication system
US8289363B2 (en) Video conferencing
US9584758B1 (en) Combining installed audio-visual sensors with ad-hoc mobile audio-visual sensors for smart meeting rooms
WO2018049957A1 (zh) 音频信号、图像处理的方法、装置和系统
US9699414B2 (en) Information processing apparatus, information processing method, and computer program product
JP2000125274A (ja) 会議内容に索引付けを行うための方法と装置
US11076127B1 (en) System and method for automatically framing conversations in a meeting or a video conference
CN104378635B (zh) 基于麦克风阵列辅助的视频感兴趣区域的编码方法
US11856387B2 (en) Video conferencing system and method thereof
CN114245065A (zh) 用于会议系统的定位跟踪方法、系统及电子设备
EP4135314A1 (en) Camera-view acoustic fence
CN112804455A (zh) 远程交互方法、装置、视频设备和计算机可读存储介质
JPH06276514A (ja) テレビ会議システムにおけるカメラ制御方式
US20230237621A1 (en) Video processing method and associated system on chip
US11805231B2 (en) Target tracking method applied to video transmission
TWI840300B (zh) 視訊會議系統及方法
WO2011087356A2 (en) Video conferencing using single panoramic camera
US20220415003A1 (en) Video processing method and associated system on chip
JPH06276427A (ja) 動画像音声制御装置
CN117527768A (zh) 对发言人追踪拍摄的音视频选择方法及其系统
CN116389888A (zh) 视频会议图像采集方法、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 266100 Songling Road, Laoshan District, Qingdao, Shandong Province, No. 399

Patentee after: Qingdao Hisense Smart Life Technology Co.,Ltd.

Patentee after: HISENSE Co.,Ltd.

Address before: 266100 Songling Road, Laoshan District, Qingdao, Shandong Province, No. 399

Patentee before: QINGDAO HISENSE SMART HOME SYSTEMS Co.,Ltd.

Patentee before: HISENSE Co.,Ltd.