CN116347216A

CN116347216A - 一种精确定位麦克风的视频会议系统

Info

Publication number: CN116347216A
Application number: CN202310397415.6A
Authority: CN
Inventors: 王勇
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-06-27

Abstract

本发明提出一种精确定位麦克风的视频会议系统，包括一台会议主机、一个摄像头及至少一支麦克风，所述会议主机分别与所述摄像头及所述至少一支麦克风连接，会议主机被配置为：预先获取所述至少一支麦克风的位置信息，记录所述至少一支麦克风的位置信息并存储至位置信息数据库，按照预设时间间隔获取所述至少一支麦克风的位置信息，更新存储在位置信息数据库中的至少一支麦克风的位置信息，检测是否存在正在接收说话人声音的至少一支麦克风，若是，从所述位置信息数据库获取所述正在接收说话人声音的至少一支麦克风的所述位置信息；根据所述位置信息控制摄像头调整所采集的图像，使图像包括所述说话人。采用本系统，可实现在只有一个摄像头的情况下，也能够高效准确的拍摄到说话人，并可适配各种会议场景，进一步提升视频会议的参与感及沉浸感。

Description

一种精确定位麦克风的视频会议系统

技术领域

本发明涉及视频会议领域，具体涉及一种精确定位麦克风的视频会议系统。

背景技术

视频会议系统在日常办公中扮演着越来越重要的角色，会议中可以通过会议系统的摄像头采集会场图像及使用麦克风采集会场声音并经由网络发送至其他会场，极大提升了会议效率。此外，对于表演直播、远程演讲等各种场景，均可以通过类似于上述的图像声音采集和传输方式来实现。

现有技术中已出现了一些利用摄像头实现对说话人跟踪拍摄的方案，例如通过手动遥控摄像头进行画面调节，或者利用人脸识别技术拍摄说话人，或者是利用传声器阵列来对说话人进行定位等等，而利用人工手段进行调节的精确度及便捷性不高，通过人脸识别技术进行说话人追踪也常会出现精确度不高的问题，特别对于远端的与会者识别度会显著降低，利用传声器阵列进行声源定位识别说话人的精确度也难以保证；此外在会议中为了拍摄到不同的参会者，需要布置多台摄像机，造成系统复杂度高、成本高昂，而若只安排一部摄像机，一是很难快速准确的定位到说话人以实现图像跟踪，而且一部摄像机也难以应对多种会议场景。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的精确定位麦克风的视频会议系统。

本发明提供了一种精确定位麦克风的视频会议系统，包括一台会议主机、一个摄像头及至少一支麦克风，所述会议主机分别与所述摄像头及所述至少一支麦克风连接，会议主机，其内建有位置信息数据库，该会议主机被配置为：预先获取所述至少一支麦克风的位置信息，记录所述至少一支麦克风的位置信息并存储至位置信息数据库，按照预设时间间隔获取所述至少一支麦克风的位置信息，更新存储在位置信息数据库中的至少一支麦克风的位置信息，检测是否存在正在接收说话人声音的至少一支麦克风，若是，从所述位置信息数据库获取所述正在接收说话人声音的至少一支麦克风的所述位置信息；根据所述位置信息控制摄像头调整所采集的图像，使图像包括所述说话人；所述一个摄像头包括至少两个定位芯片，所述至少一支麦克风包括至少一个定位芯片；会议主机根据所述摄像头的至少两个定位芯片与所述至少一支麦克风的至少一个定位芯片间的距离进行计算，获取所述至少一支麦克风的位置信息；其中，会议主机根据麦克风开关的开启状态和/或说话人声音信号分析结果，检测是否存在正在接收说话人声音的至少一支麦克风。

进一步的，所述定位芯片为蓝牙定位芯片或超宽带定位芯片，复用所述定位芯片以无线方式由所述麦克风传输数字音频信号至所述会议主机。

进一步的，所述一个摄像头包括两个定位芯片，所述至少一支麦克风包括一个定位芯片；根据计算出的距离相对差，使用RSS和/或TOA测量得到的距离值作为麦克风的定位芯片与摄像头定位芯片间的距离。

进一步的，所述至少一支麦克风还包括运动传感器，当运动传感器检测到所述至少一支麦克风发生位移时，会议主机按照预设时间间隔获取所述至少一支麦克风新的位置，更新位置信息数据库中的所述至少一支麦克风的位置信息。

进一步的，其中，声音信号分析结果包括信号能量大小和/或信号是否为语音，会议主机将声音信号能量超过预设阈值的至少一支麦克风和/或所接收信号被检测为语音的至少一支麦克风确定为正在接收说话人声音的麦克风。

进一步的，会议主机根据所述位置信息控制摄像头调整其焦距和/或角度，使图像包括所述说话人。

进一步的，会议主机对图像进行面部识别，控制摄像头调整焦距和/或角度，使图像主体为说话人头面部。

进一步的，预设一个时间范围，在该时间范围内，会议主机根据所述正在接收说话人声音的至少一支麦克风的数量及位置，判断当前场景，根据预设规则调整摄像头采集画面。

进一步的，会议主机使用面部识别，剔除摄像头采集图像中的非说话人，仅呈现所述多个说话人。

采用本发明的方案，一方面会议主机被配置为通过预先将各个麦克风的位置信息存储在位置信息数据库，在会议中可以直接调取麦克风的位置信息调整摄像头采集画面，从而实现在只有一个摄像头的情况下，也能够高效准确的拍摄到说话人；第二方面，通过由会议主机检测并判断出当前确实存在正在接收说话人声音的麦克风后，才从数据库调取该麦克风位置信息以调整摄像头，从而保证在只有一个摄像头的情况下，也可以实现准确跟踪到说话人，提升会议效果，避免无意义会议画面出现；第三方面通过麦克风内置的一个定位芯片配合摄像头端的两个定位芯片就能够实现准确快速定位，大大减轻了系统复杂度，相比现有技术中的基于人脸识别或者传声器阵列进行定位，大大减少系统开销，增强了系统可靠性；第四方面，本发明将位置信息数据库作为一种缓冲，通过在数据库中动态更新有位移的麦克风位置信息，只通过一个摄像头即可实现快速准确跟踪到不同说话人；第五方面，进一步通过会议主机检测到的在一预设时间范围内的活跃麦克风数量及位置，由会议主机判断当前场景是否为预设场景，并根据预设规则调整摄像头采集画面以适配当前场景并突出相应说话人，以进一步提升视频会议的参与感及沉浸感；第六方面，本发明麦克风所采用的定位芯片优选为蓝牙或UWB芯片，可以使用该芯片进行定位的同时复用该芯片同时以无线方式传输数字音频信号，实现麦克风与会议服务主机间的全无线连接，从而进一步提升系统性能及灵活性；第七方面，本发明还提出采用计算距离相对差的方式动态选择不同测距方法得到的距离测量结果从而更加精确的对麦克风进行定位以利于调整摄像头进行图像跟踪。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明的一种精确定位麦克风的视频会议系统的结构示意图

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

图1示出了本发明实施例一提供的精确定位麦克风的视频会议系统的系统组成示意图，该系统可应用于包含摄像头和独立麦克风的各种视频会议场合。

如图1所示，该系统包括会议主机10、摄像头20及至少一支麦克风30，所述会议主机10分别与所述摄像头20及所述至少一支麦克风30连接。

其中，会议主机10被配置为预先获取至少一支麦克风的位置信息。

本发明所包括的视频会议系统应用于设置有独立麦克风的会场中，也即图1中的麦克风30与会场内用于拍摄图像的摄像头20是分离设置的，麦克风30可以为手持式、鹅颈式、领夹式等，其配合说话人使用。

其中，各麦克风30可以是放置于参会者面前的麦克风，可在会议开始前预先通过物理测量得到各个麦克风相对于摄像头的位置信息；在另一种方式中，也可以是在会议开始前预先通过麦克风30内置的定位芯片301获取麦克风的位置信息。

所述位置信息可以包括各个麦克风30相对于摄像头20的位置信息，例如可以为相对摄像头20的角度和/或距离；也可以简化为各个麦克风30在会场内的坐标，例如以房屋一角作为原点建立坐标系，麦克风的位置信息则为各个麦克风30在该坐标系内的坐标，后续在进一步获得摄像头20所在位置坐标后，则可通过计算得到各个麦克风30相对于摄像头20的位置。

会议主机10被配置为记录所述至少一支麦克风的位置信息并存储至位置信息数据库101。

会场内设置有会议主机10，其分别与摄像头20及麦克风30建立有线或无线连接，并提供数据传输通道。该会议主机10内建有位置信息数据库101，会议主机10预先获取到麦克风30的位置信息后，将位置信息存储至所述位置信息数据库101中，以用于后续随时调用。

会议主机10被配置为检测是否存在正在接收说话人声音的至少一支麦克风30。

由会议主机10对各个麦克风30输入的信号进行检测，判断是否存在正在拾取说话人讲话的麦克风30，检测方式例如可以通过判断麦克风是否开启了开关处于工作状态，因为在一些场景下，只有开启了麦克风开关的参会人才被视为有效的说话人。

会议主机10被配置为从所述位置信息数据库获取所述正在接收说话人声音的至少一支麦克风的所述位置信息。

当会议主机10检测并判断出当前存在正在接收说话人声音的至少一支麦克风30后，则可直接调用预先存储的位置信息数据库101中上述至少一支麦克风30的位置信息用于后续摄像头20采集画面的调整。

会议主机10根据所述位置信息调整摄像头20采集的图像，使图像包括所述说话人。

当会议主机10获得当前正在接收说话人声音的至少一支麦克风30的位置信息后，根据该位置信息发送指令给摄像头20，调整摄像头20的焦距和/或角度，使摄像头20采集的画面中将当前使用麦克风30的说话人包括在内，示例性的，在会议主机10的位置信息数据库101中记录的为各麦克风30相对摄像头20的角度和距离，会议主机10调取到说话人正使用的麦克风30的角度和距离后，根据摄像头20当前的状态，依据角度信息计算得到摄像头20需要进行调整的角度，依据距离信息计算得到摄像头20需要进行调整的焦距，从而使摄像头20采集画面将当前说话人包括在内。

由此可见，本发明实施例一预先获取至少一支麦克风30的位置信息，并记录该至少一支麦克风30的位置信息并存储至位置信息数据库101，当检测并判断到存在正在接收说话人声音的至少一支麦克风30后，从所述位置信息数据库101获取所述正在接收说话人声音的至少一支麦克风30的所述位置信息，根据所述位置信息调整摄像头20采集的图像，使图像包括所述说话人；将麦克风位置信息预先进行存储以用于后续直接调用有利于采用一个摄像头也可以实现快速调整以跟踪到说话人，可以理解的是，不比采用多个摄像头的方案，如果不采用数据库对各个麦克风的位置信息进行预先存储，那么用一个摄像头则无法实现对会场内多个说话人的快速定位；另外，在会场内麦克风一般是跟随说话人的，因此以麦克风位置为基准调整摄像头以捕捉到说话人画面可以提高说话人跟踪的准确性，相比利用人脸识别技术等进行跟踪将显著提高定位的精度及效率。

实施例二

本发明实施例二是对实施例一的进一步优化。

进一步参考图1，该视频会议系统还包括以下配置：

视频会议会场内包括至少一支独立于摄像头20的麦克风30，该麦克风30可以为手持式、鹅颈式、领夹式等，此处不做具体限定。麦克风30内置有至少一个定位芯片301，优选的，一支麦克风30仅包括一个定位芯片301，可以理解的是，考虑到麦克风30的特殊尺寸及形状或基于作为冗余备份等因素，一支麦克风30也可包括多个定位芯片301。

会场内还设置有一个摄像头20，摄像头20包括固定的底座或云台201，至少两个定位芯片2011以一定间距设置在底座或云台内，所述间距可以根据会场大小灵活选择，可以理解的是，为了提升定位精确度，所述间距与会场大小正向相关；摄像头20还包括可调整角度和/或焦距的镜头部202。优选的，设置在底座或云台内的定位芯片2011为两个，镜头部202设置在两个定位芯片2011连线的中点位置，有利于更加精确的调整摄像头20采集到的画面。

会场中设置有会议主机10，该会议主机10与摄像头20及麦克风30间通过有线和/或无线方式进行连接，并建立数据传输通道进行数据传输。可以理解的是，会议主机10也可以与摄像头20一体化设置，进一步提升系统紧凑性。

进一步的，会议主机10根据所述摄像头20的至少两个定位芯片2011与所述至少一支麦克风30的至少一个定位芯片301间的距离进行计算，获取所述至少一支麦克风30的位置信息。

对于定位，一种可选实现方式包括：麦克风30开关开启后，自动与会议主机10建立连接，会议主机10发送指令至摄像头20建立其内部的至少两个定位芯片2011与麦克风30的至少一个定位芯片301的连接，例如使用三角定位法，得到麦克风30的至少一个定位芯片301到摄像头20至少两个定位芯片2011间的距离，会议主机10根据芯片彼此间距离则可计算出麦克风30相对于摄像头20的角度和/或距离，该角度和/或距离即所述的位置信息，优选的，摄像头20内设置两个定位芯片2011，两个芯片2011间的距离是已知的，那么只通过测量得到麦克风30中一个定位芯片301到摄像头20内两个定位芯片2011间的距离，则可计算出麦克风30相对于摄像头20的角度和/或距离。

所述的定位芯片2011和301可以包括UWB(Ultra-Wideband)定位芯片或蓝牙定位芯片。利用UWB定位技术或蓝牙定位技术对麦克风30进行定位。

其中，UWB定位技术是一种通过发送宽带脉冲信号来实现精确定位的技术。它是一种无线通信技术，其工作原理是通过发送短脉冲信号，然后测量这些信号在空间中的传播时间来确定接收器的位置。UWB定位技术可以实现高精度的定位，通常精度可以在几厘米到几毫米之间。由于其高精度和低功耗的特点，UWB定位技术被广泛应用。

蓝牙定位技术是一种利用蓝牙信号进行室内或密闭空间位置定位的技术。通过在目标区域内放置蓝牙信标，并在定位设备上接收这些信标的信号，可以确定设备在该区域内的位置。

而为了更加精确的测量获得麦克风30的位置，本发明同时提出以下可选的麦克风30位置确定方法，既是用于UWB定位也适用于蓝牙定位，其中，所述的麦克风30的位置信息为麦克风30的相对坐标，会议主机10进一步通过该相对坐标即可计算得到麦克风30相对于摄像头20的距离和/或角度，方法包括：

已知摄像头20的两个定位芯片2011的坐标分别为(x₁,y₁)和(x₂,y₂)，需要得到麦克风30的定位芯片3011的相对坐标为(x₃,y₃)作为麦克风30的所述位置信息，设(x₃,y₃)到(x₁,y₁)、(x₂,y₂)的距离为d₂和d₃，其中d₂和d₃的距离均可以通过测量芯片间无线信号的信号强度值RSS或到达时间TOA两种方法实现。本领域技术人员可以理解的是，当得到d₂和d₃后，即可以通过以下公式计算得到麦克风30的相对坐标(x₃,y₃)。

然而发明人发现，基于RSS测量距离容易受到阴影和多径效应的干扰，RSS还容易受到无线网络设备和设备天线、目标移动参数等因素的影响。因此，仅采用将RSS转换为相应距离的误差较大，导致准确性较低。而基于TOA方式估计物体位置可以在平面上实现定位，获得TOA后则可以计算得到发射端和接收端的距离，与基于RSS测量距离的方法不同，基于TOA估计物体位置确实可以达到较高的定位精度，但是基于TOA估计物体位置的主要问题是需要精确地同步所有发射端和接收端的时间。因此，为平衡测量精度和时间测量成本，本实施例采用计算距离相对差的方式动态选择检测方法来确定麦克风定位芯片301与摄像头20定位芯片2011间的距离d_i。

具体的，通过下面公式2计算出基于RSS测量的距离，其中P₀是在参考距离接收信号强度(db)，b_i是接收信号强度(db)，b_max是最大接收信号强度，γ是路径损耗系数。

通过公式3来计算基于TOA测量的距离，τ_i是TOA到达时间，c是光速。

d_i ^TOA＝cτ_i……公式3

通过公式4计算距离相对差θ，根据θ值来选择不同的检测方法测量得到距离，达到测量精度和时间的平衡。

当θ≤θ_max时采用TOA测量方法得到的距离值d_i ^TOA作为距离d_i，当θ≥θ_min时采用RSS测量方法得到的距离值d_i ^RSS作为距离d_i，当θ_min＜θ＜θ_max则可采用TOA测量方法得到的距离值和RSS测量方法得到的距离值两者进行加权后得到的距离值作为距离d_i，例如取两者平均值作为距离值d_i，其中θ_max和θ_min预设值可以通过环境数据计算得到，本领域技术人员可以根据实际情况进行设置，此处并不进行具体限定。

值得一提的是，定位芯片2011和301的选择也可以有其他选择，而本实施例中优选蓝牙或UWB定位芯片，则进一步可以复用该蓝牙或UWB定位芯片以无线方式传输数字音频信号，既满足定位需求也可以传输所拾取的说话人语音，可大大提升整个系统的灵活性及性能。基于蓝牙或UWB的音频传输方法属于本领域现有技术，此处不做具体限定。

进一步的，由会议主机10记录所述至少一支麦克风30的位置信息并存储至位置信息数据库101。

进一步的，一种实现方式包括，由会议主机10按照预设时间间隔获取所述至少一支麦克风30的位置信息，更新存储在位置信息数据库101中的至少一支麦克风30的位置信息。

具体的，麦克风30可以是手持式或领夹式等可移动式麦克风，则会议主机10在麦克风30开启后获得麦克风30的位置信息并记录在数据库后，依然会按照预设的时间间隔继续获取麦克风30的新位置，并更新记录在数据库101中的麦克风30的位置信息，可以理解的是，虽然会场内仅有一个摄像头，然而通过这种方式，即使该一个摄像头20正在拍摄其他说话人，另一支麦克风30仅是位置发生了改变，例如被移动到其他位置，一旦有参会人使用该麦克风30讲话从而该麦克风30被检测判断为正在接收说话人声音的麦克风30，会议主机10也可以立刻调取到该麦克风的新位置信息并控制摄像头20捕获到持有该麦克风30正在讲话的说话人，而不会造成失去目标的情况发生；另外，如果该麦克风30本身就是正在接收说话人声音的麦克风30，当持有该麦克风的说话人开始移动，摄像头也依然可以不断获取到该麦克风的新位置从而跟踪说话人。示例性的，所述预设的时间间隔可以为500毫秒、1秒、3秒、5秒、10秒等，本领域技术人员可以根据需要灵活选择。

进一步的，另一种可选的实现方式包括：麦克风30还包括运动传感器(图中未示出)，用于检测麦克风30是否发生位移，当检测到麦克风30发生位移时，麦克风30通知给会议主机10，此时才会触发会议主机10再次获取麦克风30新的位置并更新数据库101中的位置信息，当麦克风30停止运动时，则停止更新位置，通过这种方式，可以减少数据通路占用，节约能耗，提高工作效率。示例性的，所述运动传感器例如可以是陀螺仪、重力或加速度传感器等中的一个或几个的组合，此处不进行具体限定。

进一步的，由会议主机10检测是否存在正在接收说话人声音的至少一支麦克风30。

具体的，由会议主机10对开启后的各麦克风30的通路信号进行检测，判断所接入的麦克风30中是否存在正在接收说话人声音的至少一支麦克风30。只有确定有说话人使用某支麦克风30讲话时，才需要调整摄像头20使画面包括该说话人，从而避免因为一些偶发性噪声被麦克风30拾取到而触发摄像头20调整。

为此，一种实现方式可以是，会议主机10对每个通道的麦克风信号进行语音检测，例如采用VAD(语音端点检测)方式，判断麦克风通路信号中是否有语音，若检测到有语音，则将接入该通道的麦克风30确定为正在接收说话人声音的麦克风30。

另一种情况可以是，存在多个麦克风30同时开启的情况，一个说话人的声音可能会被多支麦克风30拾取到，则可以对各个麦克风30的信号能量进行检测，例如将信号能量值最大的麦克风30判定为是正在接收说话人声音的麦克风30，从而使摄像头20能够准确的捕捉到该说话人。

或者，将上面两种方式进行结合以更加准确的确定正在接收说话人声音的麦克风30，例如先进行信号能量检测，再进行语音检测，从而可以达到有效过滤掉噪声的作用，利于摄像头20捕捉到真正在讲话的说话人。

进一步的，一种可选的实现方式可以是，当会议主机10检测到存在正在接收说话人声音的麦克风30后，再开始按照预设时间间隔获取所述至少一支麦克风30的位置信息，更新存储在位置信息数据库101中的至少一支麦克风30的位置信息，说话人停止说话即检测不到说话人声音后，则停止麦克风30位置信息的更新，从而既可以实现摄像头20精确跟踪真正说话人的效果，同时也可以起到节约资源及能耗的作用。示例性的，对一种可能的场景进行描述，例如一位参会人员在开启麦克风后，即触发会议主机10定位该麦克风30并将位置信息记录在位置信息数据库101中，但此时该参会人员并未说话，如果此时即开始不断更新麦克风30的位置，会造成资源浪费，而当该参会人员真正开始说话时，被主机10检测到，此时再进行麦克风30的位置更新，，参会人员停止说话，则停止位置更新。

进一步的，如上文所述，当会议主机10检测到存在正在接收说话人声音的至少一支麦克风30后，会议主机10从所述位置信息数据库获取所述正在接收说话人声音的至少一支麦克风的所述位置信息后，根据所述位置信息调整摄像头采集的图像，最终使图像包括所述说话人。

由此可见，在本发明实施例二中，会议主机10首先获取至少一支麦克风30的位置信息，其中根据所述摄像头20的至少两个定位芯片2011与所述至少一支麦克风的至少一个定位芯片301间的距离进行计算，获取所述至少一支麦克风30的位置信息，记录所述至少一支麦克风30的位置信息并存储至位置信息数据库101，按照预设时间间隔获取所述至少一支麦克风30的位置信息，更新存储在位置信息数据库101中的至少一支麦克风30的位置信息，根据信号能量/语音检测来判断是否存在正在接收说话人声音的至少一支麦克风30，从所述位置信息数据库101获取所述正在接收说话人声音的至少一支麦克风30的所述位置信息，最后根据所述位置信息调整摄像头20采集的图像，使图像包括所述说话人。本实施例只使用极少数量的定位芯片用于定位麦克风位置，利用其定位速度快精确度高的特点，并且还以位置信息数据库作为缓冲，采取一定策略更新数据库中麦克风的位置信息，在节约能耗的同时也能够实现即使只使用一个摄像头也可以对说话人画面的跟踪捕捉；进一步通过信号能量/语音检测方式以判断是否存在正在接收说话人声音的麦克风，可以有效提升摄像头画面跟踪说话人的效率及准确度，同时也能够起到节约能耗及信道资源的作用。

实施例三

本发明实施例三是对其他实施例的进一步优化。

进一步参考图1，该视频会议系统还包括：

当会议主机10在获取到当前说话人正使用的麦克风30的位置信息后，即可发送指令至摄像头20调整其焦距和/或角度以捕捉到正在使用麦克风30讲话的说话人，如上述实施例中所述的，因为位置信息可以包括麦克风30距离摄像头20的距离和/或角度信息，则可以根据距离信息调整摄像头30的焦距，根据角度信息调整摄像头30的旋转角度以使摄像头30捕获的画面能够突出说话人；本领域技术人员可以理解的是，随着麦克风30距离摄像头20的距离越远，则摄像头20的焦距可以越大，即拉进远处的拍摄对象，并且根据麦克风30相对于摄像头20的角度可以同步调整摄像头20的旋转角度以使捕捉到更佳的说话人画面；另一方面，本领域技术人员可以理解的是，为了进一步提升摄像头20追踪到当前说话人的效率，所述的麦克风30的位置信息也可以是根据麦克风30距离摄像头20的距离和/或角度信息计算得到的摄像头20能够捕捉到合适的麦克风所在区域画面的摄像头20的目标焦距和/或指向角度，并将该目标焦距和/或指向角度作为位置信息存储进会议主机10的位置信息数据库101以更快速的调用以调节摄像头20。。

为了获得更好的拍摄效果，进一步可选的，在根据麦克风30的位置信息调整摄像头20拍摄画面至说话人处后，执行面部识别，进一步微调摄像头20的焦距和/或角度，将画面集中于说话人头面部，以达到更好的会议图像采集效果。

此外，对于一些会议场合，可能会发生会场内多位参会人员进行语言互动的情况，例如会议主持人与其他参会人员的交流互动或者参会人员之间的辩论等，也就是说，可能会有在较短时间内存在多个说话人交替说话的情况出现，而本发明中的摄像头20个数优选为一个，对于上述这些情况，因为摄像头20的调整需要一定时间，可能会存在摄像头20来不及调整从而难以及时捕捉到不同说话人的情况。为此可选的，本实施例可进一步包括以下实现方式：预设一个时间范围，在该时间范围内，若会议主机10检测到存在多个正在接收说话人语音的麦克风30，且各个通道的麦克风30语音被交替检测到，则判定为当前场景为多说话人交互场景，由会议主机10调整摄像头20的焦距至最小即广角模式和/或调整角度，使画面能够覆盖整个会场，或者也可以根据上述多个麦克风30的位置信息，调整摄像头20使画面范围恰好包括进使用上述多个麦克风30讲话的说话人，以进行局部聚焦，又或者可以进一步结合面部识别，将画面内的其他没有在讲话的非说话人剔除，仅保留在进行交互的说话人，并以分屏的形式进行呈现，例如检测出短时间内有两个说话人在交互，则将屏幕分为左右各半，每半屏显示一位说话人的面部，以更适当的展现当前场景。所述的时间范围例如可以设置为10秒、20秒等，包括画面呈现方式在内，本领域技术人员都可以进行灵活设置，此处不做具体限定。

由此可见，在本发明实施例三中，会议主机10能够根据检测到的正在接收说话人声音的麦克风30的位置信息，通过调整摄像头20的焦距和/或角度，并可进一步利用面部识别的手段，使得所采集画面更加突出说话人，并且可根据一预设时间范围内的活跃麦克风30的数量及位置，判断出当前场景是否是多说话人交互场景，根据预设规则调整摄像头20采集画面以适配当前场景并突出说话人，提升了会议参与感与沉浸感。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种精确定位麦克风的视频会议系统，包括一台会议主机、一个摄像头及至少一支麦克风，所述会议主机分别与所述摄像头及所述至少一支麦克风连接，特征在于：

会议主机，其内建有位置信息数据库，该会议主机被配置为：预先获取所述至少一支麦克风的位置信息，记录所述至少一支麦克风的位置信息并存储至位置信息数据库，按照预设时间间隔获取所述至少一支麦克风的位置信息，更新存储在位置信息数据库中的至少一支麦克风的位置信息，检测是否存在正在接收说话人声音的至少一支麦克风，若是，从所述位置信息数据库获取所述正在接收说话人声音的至少一支麦克风的所述位置信息；根据所述位置信息控制摄像头调整所采集的图像，使图像包括所述说话人；

所述一个摄像头包括至少两个定位芯片，所述至少一支麦克风包括至少一个定位芯片；会议主机根据所述摄像头的至少两个定位芯片与所述至少一支麦克风的至少一个定位芯片间的距离进行计算，获取所述至少一支麦克风的位置信息；

其中，会议主机根据麦克风开关的开启状态和/或说话人声音信号分析结果，检测是否存在正在接收说话人声音的至少一支麦克风。

2.如权利要求1所述的视频会议系统，特征在于：所述定位芯片为蓝牙定位芯片或超宽带定位芯片，复用所述定位芯片以无线方式由所述麦克风传输数字音频信号至所述会议主机。

3.如权利要求1所述的视频会议系统，特征在于：所述一个摄像头包括两个定位芯片，所述至少一支麦克风包括一个定位芯片；

根据计算出的距离相对差，使用RSS和/或TOA测量得到的距离值作为麦克风的定位芯片与摄像头定位芯片间的距离。

4.如权利要求1所述的视频会议系统，特征在于：所述至少一支麦克风还包括运动传感器，当运动传感器检测到所述至少一支麦克风发生位移时，会议主机按照预设时间间隔获取所述至少一支麦克风新的位置，更新位置信息数据库中的所述至少一支麦克风的位置信息。

5.如权利要求1所述的视频会议系统，特征在于：其中，声音信号分析结果包括信号能量大小和/或信号是否为语音，会议主机将声音信号能量超过预设阈值的至少一支麦克风和/或所接收信号被检测为语音的至少一支麦克风确定为正在接收说话人声音的麦克风。

6.如权利要求1-5之一所述的视频会议系统，特征在于：会议主机根据所述位置信息控制摄像头调整其焦距和/或角度，使图像包括所述说话人。

7.如权利要求6所述的视频会议系统，特征在于：会议主机对图像进行面部识别，控制摄像头调整焦距和/或角度，使图像主体为说话人头面部。

8.如权利要求7所述的视频会议系统，特征在于：预设一个时间范围，在该时间范围内，会议主机根据所述正在接收说话人声音的至少一支麦克风的数量及位置，判断当前场景，根据预设规则调整摄像头采集画面。

9.如权利要求8所述的视频会议系统，特征在于：会议主机使用面部识别，剔除摄像头采集图像中的非说话人，仅呈现多个所述说话人。