CN114245065B - 用于会议系统的定位跟踪方法、系统及电子设备 - Google Patents
用于会议系统的定位跟踪方法、系统及电子设备 Download PDFInfo
- Publication number
- CN114245065B CN114245065B CN202111564524.XA CN202111564524A CN114245065B CN 114245065 B CN114245065 B CN 114245065B CN 202111564524 A CN202111564524 A CN 202111564524A CN 114245065 B CN114245065 B CN 114245065B
- Authority
- CN
- China
- Prior art keywords
- target object
- sound source
- microphone
- information
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 230000004807 localization Effects 0.000 claims 1
- 208000005809 status epilepticus Diseases 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请提供一种用于会议系统的定位跟踪方法、系统及电子设备,采集声源信息将声源信号进行处理后生成声源信息,并基于声源信息确定麦克风编号,由此能够确定所需采集区域,在采集区域内采集具有目标对象的参会图像,经过解析和识别后,生成目标对象的参会信息,将这些参会信息与预设的基准参会信息进行对比,就能判断目标对象的参会状态,由此确定目标对象是否在讲话,若识别到目标对象在讲话,则自动调整具有目标对象的画面并发送输出,从而能够通过声源信息以及此摄像机所采集的图像的共同配合下,对目标对象进行识别,无需提前录入发言人位置或发言人,如此增强适用性,操作简单。
Description
技术领域
本申请涉及会议系统领域,尤其是涉及用于会议系统定义跟踪方法、系统以及电子设备。
背景技术
会议系统是一种通过某种传输介质能够实现实时、可视、交互的多媒体通讯技术,主要包括基础话筒发言管理、代表人员检验签到以及电子表决等功能。
一般会议系统包括发言设备、控制设备、翻译设备以及显示设备等,使用时,会预先将发言设备放置于会议桌上,对发言人或参会人进行收音,翻译设备对所收到的音频信息进行翻译,控制设备对发言设备、翻译设备以及显示设备等进行管理和控制。
相关技术中,为提高会议体验,突出展现会议特定的参与人或发言人,常通过会议系统对特定参会人或发言人进行全屏展示,一般是通过手动移动对特定的发言人进行全屏展示,或通过采集视频图像进行人脸识别,定然后将视频投屏至显示屏中显示。
针对上述相关技术,发明认为上述的发言人跟踪方式需要事先设定特定参会人或固定参会人的位置,较为不便,且无法根据实际情况进行调整,通用性差。
发明内容
为了提高会议系统的机的通用性以及便捷性,本申请提供一种用于会议系统的定位跟踪方法、系统及电子设备。
第一方面,本申请提供一种用于会议系统的定位跟踪方法,采用如下技术方案:
一种用于会议系统的定位跟踪方法,包括如下步骤:
获取声源信号,将所述声源信号进行处理,生成声源信息;
根据所述声源信息,确定麦克风编号;
基于确定的所述麦克风编号,确定采集区域;
基于确定的所述采集区域,连续获取具有目标对象的参会图像,并对具有目标对象的参会图像进行解析识别,生成目标对象的参会信息;
将所述目标对象的参会信息与预设的基准参会信息进行对比,判断目标对象的参会状态,所述参会状态为发言状态以及不发言状态;
根据所述目标对象的参会状态,确定是否发送输出画面指令;
当确定目标对象的参会状态为发言状态,则确定发送输出画面指令,自动调整具有目标对象的画面。
通过采用上述技术方案,获取声源信号,将声源信号进行处理后所生成声源信息,并基于声源信息确定麦克风编号,由此能够确定所需采集区域,在采集区域内采集具有目标对象的参会图像,经过解析和识别后,生成目标对象的参会信息,将这些参会信息与预设的基准参会信息进行对比,就能判断目标对象的参会状态,由此确定目标对象是否在讲话,若识别到目标对象在讲话,则自动调整具有目标对象的画面并发送输出,从而能够通过声源信息以及此摄像机所采集的图像的共同配合下,对目标对象进行识别,无需提前录入发言人位置或发言人,如此增强适用性,操作简单。
优选的,所述自动调整具有目标对象的画面的具体步骤包括:
检测目标对象相对于画面的大小,将目标对象相对于画面的大小与预设的基准比进行对比,以得到对比结果;
基于所述对比结果自动调整具有目标对象的图像大小。
通过采用上述技术方案,检测目标对象相对于画面的大小,以获得目标对象相对于画面大小,若将目标对象相对于画面的大小与预设的基准比进行比较,就能得到对比结果,当目标对象相对于画面大小小于预设的基准比时,则自动调整目标对象相对于画面大小调节至预设的基准比,由此能够将每个输出的画面能够保持在预设的基准比,从而能够对会议展示效果优化。
优选的,所述基于对比结果自动调整具有目标对象的图像大小的具体步骤包括:
若具有目标对象的参会图像相对画面大小小于预设的第一基准比阈值,则将具有目标对象的参会图像相对于画面大小调整至预设的第一基准比阈值。
若具有目标对象的参会图像相对于画面的大小大于至预设的第二基准比阈值,则将具有目标对象的参会图像相对于画面大小调整预设的第二基准比阈值。
通过采用上述技术方案,若目标对象相对于画面大小大于预设的基准比范围,则表明目标对象相对于画面显示过大,若目标对象相对于画面大小小于预设的第二基准比阈值,则表明目标对象相对于画面显示过小,由此能够使目标对象一定的基准比阈值范围内,以使目标对象相对于画面大小显示合适。
优选的,所述基于确定的所述采集区域,连续获取具有目标对象的参会图像,并对具有目标对象的参会图像进行解析识别,生成目标对象的参会信息的具体步骤包括:
根据确定的采集区域在预设时间内采集画面;
将采集到连续具有目标对象的图像依次与预设的基准图像进行匹配,以生成匹配结果;
根据匹配结果,确定目标对象的动态情况,所述目标对象的动态情况包括有人情况以及无人情况;
基于目标对象的动态情况,确定是否生成参会人信息;
当确定为有人情况,则对目标对象的参会图形进行解析识别,并生成参会人信息。
通过采用上述技术方案,在采集区域内采集具有目标对象的参会图像,将采集连续具有目标对象的参会图像与预设的基准图像进行匹配,以根据匹配结果确定目标对象的动态情况,由此确定是否生成参会人信息,当确定为有人情况,则识别并生成参会人信息,这样可以能够根据摄像头实际采集情况来确定生成参会人信息的触发条件,以为后续确定目标对象是否在讲话提供了判断标准。
优选的,所述根据匹配结果,确定是否目标对象的动态情况,目标对象的动态情况包括有人情况以及无人情况的具体步骤包括:
若采集区域内所采集到的具有目标对象的图像与预设的基准图像对比,且匹配度达到或高于预设的匹配度,则确定为有人情况;
若采集区域内所采集到的具有目标对象的图像与预设的具有目标对象的图像对比,且匹配度低于预设的匹配度,则确定为无人情况。
通过采用上述技术方案,根据匹配结果确定目标对象的动态情况,若果匹配度高于预设的匹配度,则确定为有人情况,表明该采集区域内包括了目标对象,若匹配度低于预设的匹配度,则确定为无人情况,表明该采集区域内未包括目标对象,如此能够为后续去确定目标对象提供了相应的判断条件和范围。
优选的,所述将目标对象的参会信息与预设的基准参会信息进行对比,判断目标对象的参会状态,参会状态为发言状态以及不发言状态的具体步骤包括:
当目标对象的相关信息与预设的基准参会信息对比,且匹配度达到或大于预设的匹配度,则确定目标对象的参会状态为发言状态;
当目标对象的相关信息与预设的基准参会信息对比,且匹配度低于预设的匹配度,则确定目标对象的参会状态为不发言状态。
通过采用上述技术方案,基于生成目标对象的参会信息与预设的基准参会信息进行对比,由此判断目标对象的参会状态,当目标对象的相关信息与预设的基准参会信息进行对比,若匹配度低于预设的匹配度,表明目标对象并没有在讲话,确定为不发言状态,若匹配度高于或等于预设的匹配度,则表明目标对象正在讲话,以确定为发言状态,从而能够判断发言人是否在讲话,以便于切换镜头。
第二方面,本申请提供一种用于会议系统的定位跟踪系统,采用如下技术方案:
声源信息采集模块,用于获取声源信号,将所获取到的声源信号进行处理,生成声源信息;
编号确定模块,用于根据声源信息,确定麦克风编号;
采集区域确定模块,用于基于确定的麦克风编号,确定采集区域;
图像采集模块,用于基于确定的采集区域,连续获取具有目标对象的图像,并对具有目标对象的图像进行解析识别,生成具有目标对象的图像信息;
判断模块,用于将目标对象的参会信息与预设的基准参会信息进行对比,判断目标对象的参会状态,参会状态为发言状态以及不发言状态;
执行模块,用于根据目标对象的参会状态,确定是否发送输出画面指令。
通过采用上述技术方案,声源信息采集模块获取声源信号并对声源信号进行处理,生成声源信息,编号确定模块根据声源信息确定麦克风编号,采集区域确定模块基于确定的麦克风编号确定采集区域发送至图像采集模块,图像采集模块基于确定采集区域,在采集区域内连续获取具有目标对象的图像并解析生成具有目标对象的图像信息,判断模块将具有目标对象的图像的参会信息与预设的基准参会信息比较,执行模块根据目标对象的参会状态确是否发送输出画面指令,由此根据声源以及摄像头采集的共同配合下对目标对象在发言时能够及时自动识别,切换画面,提高系统操作的方便性,增强通用性。
第三方面,本申请提供一种电子设备,采用如下技术方案:
一种电子设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行上述用于会议系统的定位跟踪方法的计算机程序。
第四方面,本申请提供一种可读存储介质,采用如下技术方案:
一种可读存储介质,存储有能够被处理器加载并执行如上述用于会议系统的定位跟踪方法的计算机程序。
第五方面,本申请提供一种用于会议系统的定位跟踪装置,采用如下技术方案:
一种用于会议系统的定位跟踪装置,包括,
摄像头,用于采集具有目标对象的图像;
麦克风阵列,用于采集声源信号;
如上述所述的一种电子设备。
通过上述技术方案,摄像头采集具有目标对象的图像传输至电子设备,麦克风阵列采集声源信号传输至电子设备,由此能够将摄像头以及麦克风阵列的共同配合下自动确定发言人切换画面,无需预先录入发言人的固定位置和顺序,操作方便。
综上所述,本申请包括以下至少一种有益技术效果:
1.通过采集声源信号来确定所要采集的区域,在采集区域内采集具有目标对象的图像,并基于具有目标对象的图像来判断目标对象的参会状态,由此自动识别目标对象切换画面,操作简单,提高通用性;
2.利用声源信息采集模块采集声源信息确定声源的初步位置,然后根据声源的初步位置,确定麦克风的编号,利用采集区域确定模块采集具有目标对象的图像,并通过判断模块判断目标对象的参会状态,由此执行模块根据参会状态切换画面,以提高通用性。
附图说明
图1是本申请一种用于会议系统的定位跟踪方法的流程框图;
图2是本申请一种用于会议系统的定位跟踪系统的结构框图;
图3是本申请的一种电子设备的结构框图;
图4是本申请一种用于会议系统的定位跟踪装置的结构框图。
附图标记说明:
1、声源信息采集模块;2、编号确定模块;3、图像采集模块;4、判断模块;5、执行模块;6、摄像头;7、电子设备;8、麦克风阵列。
具体实施方式
结合附图对一种用于会议系统的定位跟踪方法、系统以及电子设备进行如下详细说明。
本申请公开一种用于会议系统的定位跟踪方法。
参照图1,一种用于会议系统的定位跟踪方法,包括如下具体步骤:
S01、获取声源信号,将所获取到的声源信号进行处理,生成声源信息。
声源信息是指参会人在会议上所发出的声音信号,通过麦克风阵列采样后处理和转换计算得到的信息。声源信息包括声源到麦克风阵列的距离、大小、时间以及方向。
麦克风阵列是指由一定数目的麦克风组成,对声场的空间特性进行采样并滤波的系统。在本实施例中,麦克风阵列采用的是指向性麦克风阵列,也可采用全向性麦克风阵列,该指向性麦克风阵列中的所有麦克风的频率响应一致,麦克风的采样时钟也是同步的。
麦克风阵列可采用平面阵列或线性阵列或方形阵列,且麦克风阵列可以根据会议桌的形状、长度、会议桌上能容纳最多参会人的数量以及参会人的位置决定麦克风阵列的形状、数量以及每个麦克风的位置。此外,麦克风可采用心形麦克风或超心型麦克风或枪型麦克风或指向形麦克风等。
例,会议桌若采用的是圆桌,会议桌最多能坐12人,为能达到最佳的拾音效果,采用圆形平面的麦克风阵列,麦克风的数量为6个,且该麦克风阵列放置于圆桌的中心,每个麦克风可位于相邻两个参会人之间。
会议桌若采用的是长条桌或U形桌,会议桌最多能坐10个人,则采用线性阵列的麦克风,麦克风的数量可为5个,该麦克风阵列沿会议桌的长度方向设置,每个麦克风位于相邻两个参会人之间。
S02、根据声源信息,确定麦克风编号。
麦克风的编号是预先对麦克风阵列的每个麦克风赋予对应的编号,可以任一麦克风为起点,该作为起点的麦克风的编号为00,而后依次对麦克风阵列每个麦克风依次排列编号。
若以声源幅度大小作为判定条件,具体步骤如下:
S021、将每个麦克风所得到的声源的幅度大小与预设的声源幅度范围进行比较,以得到幅度比较结果。
具体的说,由于麦克风距离声源的远近会直接导致所采集到的声源的大小有所不同,当麦克风距离声源位置较近,则所采集到的声源幅度大小较强,当麦克风距离声源位置较远,则所采集到的声源幅度大小较弱。
因此,若将麦克风阵列中的每个麦克风所采集到的声源幅度大小与预设的声源幅度比较,得到如下结果:
S022、若存在麦克风阵列中的每个麦克风所采集到的声源幅度大小位于预设的声源幅度范围内,确定麦克风编号。
S023、若存在麦克风阵列中的每个麦克风所采集到的声源幅度大小不位于预设的声源幅度范围内,不确定麦克风编号,重新控制麦克风阵列采集声源信号。
如设定麦克风阵列为圆形阵列,麦克风的数量为5个,预设的声源幅度范围位于[20db,25 db],麦克风A、麦克风B、麦克风C、麦克风D以及麦克风E所对应赋予的麦克风编号为01、02、03、04以及05,则麦克风阵列中的每个麦克风阵列所此采集到的声源幅度分别为麦克风A为19db 、麦克风B为20db、麦克风C为24db、麦克风D为25.5db以及麦克风E为26db,此时麦克风C为24db位于预设的声源幅度范围内,则判定该麦克风是最接近声源的,从而确定该麦克风的编号为03。
当麦克风阵列中的每个麦克风所采集到的声源幅度分别为A为19db 、麦克风B为20db、麦克风C为24db、麦克风D为24.6db以及麦克风E为26db,此时确定麦克风C和麦克风D位于预设的声源幅度范围内,则确定麦克风编号为03以及04,从而确定该两个麦克风的编号。
若以声源到每个麦克风的距离差距作为判断条件,则具体步骤如下:
S024、将声源到每个麦克风的距离与预设的声源距离范围进行比较,以得到距离比较结果。
具体的说,当每个麦克风实时采集声源时,由于每个麦克风到声源的距离是不同的。由于麦克风阵列到达每个麦克风距离声源的距离不相同而引起时间差,可采用时延估计算法估计声源到每个麦克风的初始位置,其中时延估计算法包括相关法、广义相关法以及最大似然估计法。通过时延估计计算法得到同一个目标对象声源到达每个麦克风的相对时间差,而后根据时间差即可计算出声源到达各麦克风的距离差,由此根据声源到麦克风的距离差以及结合阵列拓扑结构用几何算法确定声源的到每个麦克风的距离以及方向角。
如设定只有一个声源,麦克风阵列采用线性阵列,选择麦克风A为参考点,第n个麦
克风在k时刻接收到的声源信号为=,其中,(n=1,2...,N)为信号在传播过程中的衰减,其
值介于[0,1]之间;t表示信号从传播到第一个麦克风之间的传播时间;表示在
第n个麦克风上接收到的加性噪声;表示第一个麦克风与第二个麦克风所接收到的信号
时延差;表示第n个麦克风到第一个麦克风之间的信号时延。
因此将声源到每个麦克风的距离与预设的声源距离范围进行比较,得到的距离比较结果如下:
当存在麦克风阵列中的每个麦克风到声源的距离位于预设的声源距离范围内,则确定麦克风编号。
当存在麦克风阵列的每个麦克风到声源的距离不位于预设的声源距离范围内,则重新采集声源信号。
如设定预设的声源距离范围为1.52米-1.53米,采用的麦克风阵列为线性阵列,麦克风阵列的每个麦克风到声源的距离如下,麦克风A为1.5米、麦克风B为1.52米、麦克风C为1.49米、麦克风D为1.54米以及麦克风E为1.6米,将麦克风阵列的每个麦克风与预设的声源距离范围进行比较,麦克风B位于预设的声源距离范围内,则确定与声源最接近的距离为麦克风B,确定麦克风编号为02。
若麦克风阵列的每个麦克风到声源的距离分别为麦克风A为1.52米、麦克风B为1.522米、麦克风C为1.49米、麦克风D为1.53米以及麦克风E为1.6米,将麦克风阵列的每个麦克风到声源的距离与预设的源距离范围进行比较,麦克风A与麦克风B以及麦克风D均小于预设的源距离范围,则表明这三个麦克风距离声源的位置较近,因此确定这三个麦克风编号分别为01、02以及04。
若麦克风阵列的每个麦克风到声源的距离分别为麦克风A为1.4米、麦克风B为1.45米、麦克风C为1.46米、麦克风D为1.47米以及麦克风E为1.5米,将麦克风阵列中的每个麦克风到声源的距离与预设的声源距离进行比较,麦克风阵列中的所有麦克风均大于预设的阈值距离,则表明距离声源距离麦克风阵列的所有麦克风较远,则不确定麦克风编号,重新获取声源信号。
S03、基于确定的麦克风编号,确定采集区域。
在本实施例中,可预先将麦克风编号与采集区域建立对应关系,即确定麦克风编号即可确定对应的一个或多个采集区域。而每个采集区域是指通过摄像机所转动角度采集画面的区域。
具体的说,以摄像头为中心,设定摄像头旋转一定角度,摄像头所扫描的空间作为一个采集区域。在本实施例中,摄像头可360度旋转,在这个过程中,以摄像头旋转15度划分一个采集区域,并对多个采集区域依次编号。
如,当采集区域与麦克风一一对应时,设定采集区域依次为A、B、C以及D,麦克风编号为01、02、03以及04,建立每个采集区域与麦克风编号的对应关系,麦克风编号为01时,采集区域与麦克风编号所对应的区域为A,麦克风编号为02时,则采集区域与麦克风编号所对应的区域为B,麦克风编号为03时,采集区域对应的是C,麦克风编号为04时,采集区域对应的是D,因此当确定麦克风编号为01时,则确定采集区域为A,当确定麦克风编号为02时,则确定采集区域为B。
S04、基于确定的采集区域,连续获取具有目标对象的图像,并对具有目标对象的图像进行解析识别,生成具有目标对象的图像信息。
具有目标对象的图像是指在确定好的采集区域内摄像头能够采集到目标对象的图像,该图像包括了至少一个目标对象的图像以及无目标对象的图像。当确定好采集区域,则将控制摄像头调节至该采集区域内,使摄像头在该采集区域内旋转角度时,所旋转的角度为采集区域的夹角大小,此时摄像头基于该旋转角度连续获取具有目标对象的图像。
S04的具体步骤如下:
S041、根据确定的采集区域在预设时间内采集具有目标对象的图像。
S042、将采集到具有目标对象的图像依次与预设的基准图像进行匹配,以生成匹配结果。
预设的基准图像是指预先设定的具有至少一个目标对象的图像,可以根据用于实际的需求进行设置,其包括至少一个目标对象在讲话的图像或具有至少一个目标对象的姿势图像,其中姿势图像可以为喝水姿势图像、举手姿势图像以及写字姿势图像等其他姿势图像。
S043、根据匹配结果,确定是否目标对象的动态情况,目标对象的动态情况包括有人情况以及无人情况。
若采集区域内所采集到的具有目标对象的图像与预设的基准图像对比,且匹配度达到或高于预设的匹配度,则确定为有人情况。
若采集区域内所采集到的具有目标对象的图像与预设的具有目标对象的图像对比,且匹配度低于预设的匹配度,则确定为无人情况。
如,设定预设的匹配度为90%,当获取到区域的画面与预设的画面进行对比,若达到的匹配度为95%,则确定为有人情况,具有至少一个目标对象位于采集区域内;当匹配度为85%,则确定无人情况,不存在至少一个目标对象位于采集区域内。
S044、基于目标对象的动态情况,确定是否生成参会人信息,当确定为有人情况,则确定识别具有目标对象的图像并生成参会信息;当确定为无人情况,则确定不识别具有目标对象的图像生成参会信息。
S05、将目标对象的参会信息与预设的基准参会信息进行对比,判断目标对象的参会状态,参会状态包括发言状态以及不发言状态。
预设的基准参会信息是指预设的目标对象参会时正在讲话时的嘴巴动作变化信息,通过目标对象的参会信息与预设的基准参会信息进行对比,来判断发言人是否在讲话,以判断目标对象的参会状态。其中参会状态是指参会人在开会时的状态,其包括发言状态以及不发言状态,发言状态表示目标对象当前正在讲话,不发言状态表示目标对象当前没有在讲话。因此,将目标对象的参会信息与预设的基准参会信息进行对比,得到以下两种情况:
S051、当目标对象的相关信息与预设的基准参会信息对比,且匹配度达到或大于预设的匹配度,则确定目标对象的参会状态为发言状态;
S052、当目标对象的相关信息与预设的基准参会信息对比,且匹配度低于预设的匹配度,则确定目标对象的参会状态为不发言状态。
如,设定预设的匹配度为90%,若目标对象的参会信息与预设的基准参会信息对比,若目标对象的参会信息与预设的基准参会信息的匹配度大于93%,则表明目标对象的参会信息与预设的基准参会信息匹配,判定目标对象正在讲话,则表明目标对象的参会状态为发言状态,若目标对象的参会信息与预设的基准参会信息的匹配度为85%,则表明目标对象的参会信息与预设的基准参会信息不匹配,由此判定目标对象没有在讲话,确定为不发言状态。
S06、根据目标对象的参会状态,确定是否发送输出画面指令。
当确定目标对象的参会状态为发言状态,确定是发送输出画面指令,并自动调整输出画面大小。
当确定为不发言状态,则确定不发送输出画面指令。
具体的说,若当前采集区域确定没有发言人,则调整采集区域的采集范围重新采集目标对象的图像,即可扩大采集区域的夹角范围。而后根据该采集区域重新采集目标对象的图像。
自动调整画面大小的步骤具体如下:
检测目标对象相对于画面的大小,将具有目标对象的图像相对于画面的大小与预设的基准比范围进行对比,以得到对比结果。
以输出显示屏画面的大小作为标准画面,目标对象相对于画面的大小是指目标对象相对于标准画面大小的占用面积。预设的基准比是指预设的具有目标对象的图像与标准画面大小的基准比值范围。而检测具有目标对象的图像的大小是检测目标对象在画面中的大小,可设检测具有目标对象的图像的大小占画面的百分之70%-80%。在本实施例中,检测具有目标对象的图像大小的方式可以采用提取具有目标对象的图像的关键特征如目标对象的外形、眼睛、嘴巴、耳朵和鼻子。根据所提取的具有目标对象的图像的关键特征进行解析,生成关键特征相关信息,如发言人眼睛的长度、嘴巴的长度、耳朵的长度以及鼻子的高度或外形轮廓的大小。
将具有目标对象的图像相对于画面的大小与预设的基准比范围进行对比,以得到如下的对比结果:
若具有目标对象的图像相对于画面的大小小于预设的第一基准比阈值,则表明摄像头所采集的具有目标对象的图像在画面中显示过小。
若具有目标对象的参会图像相对于画面的大小大于预设的第二基准比阈值,则表明摄像头所采集的具有目标对象的图像在画面中显示过大。
若具有目标对象的参会图像相对于画面的大小大于或等于预设的第一基准比阈值且小于或等于第二基准比阈值,则表明摄像头所采集的具有目标对象的图像在画面中显示适中。
例,设定预设第一基准比阈值为70% ,预设第二基准比阈值为80%,若当前具有目标对象的参会图像相对于画面的大小为81%,则表明具有目标对象的图像在画面中显示过大,若当前具有目标对象的图像相对于画面的大小为68%,则表明具有目标对象的参会图像在画面中显示过小,若当前具有目标对象的图像相对于画面的大小为75%,则位于预设的基准范围内,表明具有目标对象的参会图像在画面中显示合适。
基于对比结果自动调整具有目标对象的参会图像大小。
在本实施例中,调整具有目标对象的参会图像大小可采用光学变焦以及数字变焦的方式将具有目标对象的参会图像大小进行放大和缩小。
当具有目标对象的参会图像相对画面大小大于预设的基准范围,则将具有目标对象的参会图像相对于画面大小调整至预设的第一基准比阈值。
具体的,若需要将具有目标对象的参会图像相对于画面的大小放大至预设的第一基准比阈值,则通过增大目标对象的焦距使具有目标对象的图像放大。
若需要将具有目标对象的参会图像相对于画面的大小放大至预设的第二基准比阈值,则通过缩小目标对象的焦距使具有目标对象的参会图像缩小。
应当理解的是,上述各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施过程构成任何限定。
因此,通过获取声源信号并生成声源信息,基于声源信息确定麦克风编号,由此确定所需采集的区域,并在此采集区域内确定发言人画面,通过声源位置以及摄像头采集位置来确定发言人,自动切换画面输出,而后将发言人画面投屏至显示屏中显示,由此能够根据发言人的位置进行跟踪定位,通用性强。
本申请公开一种用于会议系统的定位跟踪系统。
参照图2,一种用于会议系统的定位跟踪系统,包括:
声源信息采集模块1,获取声源信号,将所获取到的声源信号进行处理,生成声源信息;
编号确定模块2,用于根据声源信息,确定麦克风编号;
采集区域确定模块,用于基于确定的麦克风编号,确定采集区域;
图像采集模块3,用于基于确定的采集区域,连续获取具有目标对象的图像,并对具有目标对象的图像进行解析识别,生成具有目标对象的图像信息;
判断模块4,用于将目标对象的参会信息与预设的基准参会信息进行对比,判断目标对象的参会状态,参会状态为发言状态以及不发言状态;
执行模块5,用于根据目标对象的参会状态,确定是否发送输出画面指令。
应当理解的是,关于一种用于会议系统的定位跟踪系统的具体限定可以参见上文对于一种用于会议系统的定位跟踪方法的限定,在此不在赘述。
参照图3,本申请公开一种电子设备。
一种电子设备,该电子设备7可以如服务器或计算机或网络设备等,其包括通过系统总线连接的处理器、存储器、存储在存储器上并在处理器上运行的计算机程序、网络接口以及数据库。其中该计算机程序被处理器执行时以实现上述所公开的一种用于会议系统的定位跟踪方法的各个步骤;存储器为非易失性存储介质中的操作系统和计算机程度的运行提供环境,网络接口可优选为标准的有线接口以及无线接口;网络可为互联网以及WIFI网络,网络环境中的各种设备可被配置为根据各种有线和无线通信协议接收到的通信网络。
本申请还公开了一种可读存储介质,存储有能够被处理器加载并执行如上述一种用于会议系统的定位跟踪方法的各个步骤的计算机程序,且能达到相同的效果。该可读存储介质如U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器、磁碟或光盘等各种可以存储程序代码的介质。
本申请还公开了一种用于会议系统的定位跟踪装置。
参照图4,一种用于会议系统的定位跟踪装置,包括,
摄像头6,用于采集具有目标对象的图像;
麦克风阵列8,用于采集目标对象的声源信号;
电子设备7,如上述一种电子设备7,电子设备7与摄像头6以及麦克风阵列8连接。
因此,麦克风阵列8采集声源信号发送至电子设备7以确定声源信号的幅度、距离以及方向确定声源信号的位置,而后可控制摄像头6扫描对应的采集区域确定目标对象,而后对摄像头6所采集的目标对象的视频进行处理并输出,在整个过程中,自动判断声源信号的位置,摄像头6就能跟踪定位目标对象,无需事先设定参会人或固定参会人的位置,通用性好。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过硬件来完成,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。
Claims (8)
1.一种用于会议系统的定位跟踪方法,包括如下步骤:
获取声源信号,将所述声源信号进行处理,生成声源信息;
根据所述声源信息,确定麦克风编号;
基于确定的所述麦克风编号,确定采集区域;
基于确定的所述采集区域,连续获取具有目标对象的参会图像,并对具有目标对象的参会图像进行解析识别,生成目标对象的参会信息;
将所述目标对象的参会信息与预设的基准参会信息进行对比,判断目标对象的参会状态,所述参会状态为发言状态以及不发言状态;
根据所述目标对象的参会状态,确定是否发送输出画面指令;
当确定目标对象的参会状态为发言状态,则确定发送输出画面指令,自动调整具有目标对象的画面;
根据所述声源信息,确定麦克风编号的步骤包括:
将每个麦克风所得到的声源的幅度大小与预设的声源幅度范围进行比较,以得到幅度比较结果;
若存在麦克风阵列中的每个麦克风所采集到的声源幅度大小位于预设的声源幅度范围内,确定麦克风编号;
若存在麦克风阵列中的每个麦克风所采集到的声源幅度大小不位于预设的声源幅度范围内,不确定麦克风编号,重新控制麦克风阵列采集声源信号;
将声源到每个麦克风的距离与预设的声源距离范围进行比较,以得到距离比较结果;
所述基于确定的所述采集区域,连续获取具有目标对象的参会图像,并对具有目标对象的参会图像进行解析识别,生成目标对象的参会信息的具体步骤包括:
根据确定的采集区域在预设时间内采集画面;
将采集到连续具有目标对象的图像依次与预设的基准图像进行匹配,以生成匹配结果;
根据匹配结果,确定目标对象的动态情况,所述目标对象的动态情况包括有人情况以及无人情况;
基于目标对象的动态情况,确定是否生成参会人信息;
当确定为有人情况,则对目标对象的参会图形进行解析识别,并生成参会人信息;
所述将目标对象的参会信息与预设的基准参会信息进行对比,判断目标对象的参会状态,参会状态为发言状态以及不发言状态的具体步骤包括:
当目标对象的相关信息与预设的基准参会信息对比,且匹配度达到或大于预设的匹配度,则确定目标对象的参会状态为发言状态;
当目标对象的相关信息与预设的基准参会信息对比,且匹配度低于预设的匹配度,则确定目标对象的参会状态为不发言状态;
预设的基准参会信息是指预设的目标对象参会时正在讲话时的嘴巴动作变化信息,通过目标对象的参会信息与预设的基准参会信息进行对比,来判断发言人是否在讲话,以判断目标对象的参会状态。
2.根据权利要求1所述的一种用于会议系统的定位跟踪方法,其特征在于,所述自动调整具有目标对象的画面的具体步骤包括:
检测目标对象相对于画面的大小,将目标对象相对于画面的大小与预设的基准比进行对比,以得到对比结果;
基于所述对比结果自动调整具有目标对象的图像大小。
3.根据权利要求2所述的一种用于会议系统的定位跟踪方法,其特征在于,所述基于对比结果自动调整具有目标对象的图像大小的具体步骤包括:
若具有目标对象的参会图像相对画面大小小于预设的第一基准比阈值,则将具有目标对象的参会图像相对于画面大小调整至预设的第一基准比阈值;
若具有目标对象的参会图像相对于画面的大小放大至预设的第二基准比阈值,则将具有目标对象的参会图像相对于画面大小调整预设的第二基准比阈值。
4.根据权利要求1所述的一种用于会议系统的定位跟踪方法,其特征在于,所述根据匹配结果,确定目标对象的动态情况,所述目标对象的动态情况包括有人情况以及无人情况的具体步骤包括:
若所述采集区域内所采集到的具有目标对象的图像与预设的基准图像对比,且匹配度达到或高于预设的匹配度,则确定为有人情况;
若所述采集区域内所采集到的具有目标对象的图像与预设的具有目标对象的图像对比,且匹配度低于预设的匹配度,则确定为无人情况。
5.一种用于会议系统的定位跟踪系统,其特征在于,包括,
声源信息采集模块(1),用于获取声源信号,将所获取到的声源信号进行处理,生成声源信息;
编号确定模块(2),用于根据声源信息,确定麦克风编号;
采集区域确定模块,用于基于确定的麦克风编号,确定采集区域;
图像采集模块(3),用于基于确定的采集区域,连续获取具有目标对象的图像,并对具有目标对象的图像进行解析识别,生成具有目标对象的图像信息;
判断模块(4),用于将目标对象的参会信息与预设的基准参会信息进行对比,判断目标对象的参会状态,参会状态为发言状态以及不发言状态;
执行模块(5),用于根据目标对象的参会状态,确定是否发送输出画面指令;
所述编号确定模块(2)还用于将每个麦克风所得到的声源的幅度大小与预设的声源幅度范围进行比较,以得到幅度比较结果;
若存在麦克风阵列中的每个麦克风所采集到的声源幅度大小位于预设的声源幅度范围内,确定麦克风编号;
若存在麦克风阵列中的每个麦克风所采集到的声源幅度大小不位于预设的声源幅度范围内,不确定麦克风编号,重新控制麦克风阵列采集声源信号;
将声源到每个麦克风的距离与预设的声源距离范围进行比较,以得到距离比较结果;
所述图像采集模块(3)还用于根据确定的采集区域在预设时间内采集画面;
将采集到连续具有目标对象的图像依次与预设的基准图像进行匹配,以生成匹配结果;
根据匹配结果,确定目标对象的动态情况,所述目标对象的动态情况包括有人情况以及无人情况;
基于目标对象的动态情况,确定是否生成参会人信息;
所述判断模块还用于当确定为有人情况,则对目标对象的参会图形进行解析识别,并生成参会人信息;
当目标对象的相关信息与预设的基准参会信息对比,且匹配度达到或大于预设的匹配度,则确定目标对象的参会状态为发言状态;
当目标对象的相关信息与预设的基准参会信息对比,且匹配度低于预设的匹配度,则确定目标对象的参会状态为不发言状态;
预设的基准参会信息是指预设的目标对象参会时正在讲话时的嘴巴动作变化信息,通过目标对象的参会信息与预设的基准参会信息进行对比,来判断发言人是否在讲话,以判断目标对象的参会状态。
6.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行上述权利要求1-4任一项用于会议系统的定位跟踪方法的计算机程序。
7.一种可读存储介质,存储有能够被处理器加载并执行如上述权利要求1-4任一项用于会议系统的定位跟踪方法的计算机程序。
8.一种用于会议系统的定位跟踪装置,包括,
摄像头(6),用于采集具有目标对象的图像;
麦克风阵列(8),用于采集声源信号;
如上述权利要求6所述的一种电子设备(7)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111564524.XA CN114245065B (zh) | 2021-12-20 | 2021-12-20 | 用于会议系统的定位跟踪方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111564524.XA CN114245065B (zh) | 2021-12-20 | 2021-12-20 | 用于会议系统的定位跟踪方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114245065A CN114245065A (zh) | 2022-03-25 |
CN114245065B true CN114245065B (zh) | 2023-03-24 |
Family
ID=80759518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111564524.XA Active CN114245065B (zh) | 2021-12-20 | 2021-12-20 | 用于会议系统的定位跟踪方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114245065B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114900644B (zh) * | 2022-07-13 | 2022-10-21 | 杭州全能数字科技有限公司 | 一种视频会议中云台相机的预置位远程操作方法及系统 |
CN116801102B (zh) * | 2023-08-22 | 2024-02-09 | 瑞芯微电子股份有限公司 | 控制摄像头的方法、视频会议系统、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633219A (zh) * | 2020-12-30 | 2021-04-09 | 深圳市皓丽智能科技有限公司 | 一种会议发言人追踪方法、装置、计算机设备及存储介质 |
CN113707153A (zh) * | 2021-09-06 | 2021-11-26 | 北京紫涓科技有限公司 | 一种会议语音数据处理方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110798648A (zh) * | 2018-08-03 | 2020-02-14 | 视联动力信息技术股份有限公司 | 一种视频会议的处理方法和系统 |
TWI714318B (zh) * | 2019-10-25 | 2020-12-21 | 緯創資通股份有限公司 | 人臉辨識方法及裝置 |
CN111343411B (zh) * | 2020-03-20 | 2021-07-06 | 青岛海信智慧家居系统股份有限公司 | 一种智能远程视频会议系统 |
CN112866772B (zh) * | 2020-08-21 | 2022-08-12 | 海信视像科技股份有限公司 | 一种显示设备及声像人物定位追踪方法 |
CN112015364A (zh) * | 2020-08-26 | 2020-12-01 | 广州视源电子科技股份有限公司 | 拾音灵敏度的调整方法、装置 |
US11115625B1 (en) * | 2020-12-14 | 2021-09-07 | Cisco Technology, Inc. | Positional audio metadata generation |
-
2021
- 2021-12-20 CN CN202111564524.XA patent/CN114245065B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633219A (zh) * | 2020-12-30 | 2021-04-09 | 深圳市皓丽智能科技有限公司 | 一种会议发言人追踪方法、装置、计算机设备及存储介质 |
CN113707153A (zh) * | 2021-09-06 | 2021-11-26 | 北京紫涓科技有限公司 | 一种会议语音数据处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114245065A (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114245065B (zh) | 用于会议系统的定位跟踪方法、系统及电子设备 | |
US10574899B2 (en) | People detection method for auto-framing and tracking in a video conference | |
US10122972B2 (en) | System and method for localizing a talker using audio and video information | |
US9392221B2 (en) | Videoconferencing endpoint having multiple voice-tracking cameras | |
US9633270B1 (en) | Using speaker clustering to switch between different camera views in a video conference system | |
US8248448B2 (en) | Automatic camera framing for videoconferencing | |
US9723260B2 (en) | Voice tracking camera with speaker identification | |
CN105657329B (zh) | 视频会议系统、处理装置及视频会议方法 | |
WO2015172630A1 (zh) | 摄像装置及其对焦方法 | |
EP2538236A2 (en) | Automatic camera selection for videoconferencing | |
US10582117B1 (en) | Automatic camera control in a video conference system | |
CN112073613B (zh) | 会议人像的拍摄方法、交互平板、计算机设备及存储介质 | |
CN111260313A (zh) | 发言者的识别方法、会议纪要生成方法、装置及电子设备 | |
US9756421B2 (en) | Audio refocusing methods and electronic devices utilizing the same | |
CN111551921A (zh) | 一种声像联动的声源定向系统及方法 | |
CN115242971A (zh) | 摄像头控制方法、装置、终端设备和存储介质 | |
CN112507829A (zh) | 一种多人视频手语翻译方法及系统 | |
CN116665111A (zh) | 基于视频会议系统的注意力分析方法、系统及存储介质 | |
Cutler et al. | Multimodal active speaker detection and virtual cinematography for video conferencing | |
CN114762039A (zh) | 一种会议数据处理方法及相关设备 | |
EP4075794A1 (en) | Region of interest based adjustment of camera parameters in a teleconferencing environment | |
Zotkin et al. | Smart videoconferencing | |
CN112804455A (zh) | 远程交互方法、装置、视频设备和计算机可读存储介质 | |
Wang et al. | Real-time automated video and audio capture with multiple cameras and microphones | |
US20220374636A1 (en) | Object data generation for remote image processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |