CN116389888A

CN116389888A - 视频会议图像采集方法、电子设备及计算机存储介质

Info

Publication number: CN116389888A
Application number: CN202310397435.3A
Authority: CN
Inventors: 崔立峰
Original assignee: Individual
Current assignee: Individual
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-04

Abstract

本发明提出一种视频会议图像采集方法、电子设备及计算机存储介质，包括：预先获取话筒的位置信息，记录其位置信息并存储至位置信息数据库，检测是否存在正在接收说话人声音的话筒，若是，则从位置信息数据库获取所述正在接收说话人声音的话筒的位置信息，根据所述位置信息调整摄像头采集的图像，将说话人在图像中突出显示。采用本方案，可实现在只有一个摄像头的情况下，也能够高效准确的拍摄到说话人，并可适配各种会议场景，进一步提升视频会议的参与感及沉浸感。

Description

视频会议图像采集方法、电子设备及计算机存储介质

技术领域

本发明涉及视频会议领域，具体涉及一种视频会议图像采集方法、电子设备及计算机存储介质。

背景技术

随着网络技术的不断发展，视频会议在日常办公中扮演着越来越重要的角色，可通过摄像头采集会场图像及话筒采集会场声音并经由网络发送至其他会场，极大提升了会议效率。此外，对于表演直播、远程演讲等各种场景，均可以通过类似于上述的图像声音采集和传输方式来实现。

现有技术中已出现了一些利用摄像头实现对说话人跟踪拍摄的方案，例如通过手动遥控摄像头进行画面调节，或者利用人脸识别技术拍摄说话人，或者是利用传声器阵列来对说话人进行定位等等，而利用人工手段进行调节的精确度及便捷性不高，通过人脸识别技术进行说话人追踪也常会出现精确度不高的问题，特别对于远端的与会者识别度会显著降低，利用传声器阵列进行声源定位识别说话人的精确度也难以保证；此外在会议中为了拍摄到不同的参会者，需要布置多台摄像机，造成系统复杂度高、成本高昂，而若只安排一部摄像机，一是很难快速准确的定位到说话人以实现图像跟踪，而且一部摄像机也难以应对多种会议场景；此外，在现有技术中，如果会议中的说话人位置发生改变时，摄像头捕捉速度慢，特别是使用一部摄像机的情况下无法实现不同说话人的快速跟踪。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的视频会议图像采集方法、电子设备及计算机存储介质。

根据本发明的一个方面，提供了一种视频会议图像采集方法，包括：

预先获取至少一支话筒的位置信息；

记录所述至少一支话筒的位置信息并存储至位置信息数据库；

检测是否存在正在接收说话人声音的至少一支话筒；

若是，从所述位置信息数据库获取所述正在接收说话人声音的至少一支话筒的所述位置信息；

根据所述位置信息调整摄像头采集的图像，使图像包括所述说话人。

进一步的，其中，所述摄像头包括至少两个定位芯片，所述至少一支话筒包括至少一个定位芯片；根据所述摄像头的至少两个定位芯片与所述至少一支话筒的至少一个定位芯片间的距离进行计算，获取所述至少一支话筒的位置信息。

进一步的，所述定位芯片为蓝牙定位芯片或超宽带定位芯片。

进一步的，按照预设时间间隔获取所述至少一支话筒的位置信息，更新存储在位置信息数据库中的至少一支话筒的位置信息。

进一步的，其中，所述至少一支话筒还包括运动传感器；当运动传感器检测到所述至少一支话筒发生位移时，按照预设时间间隔获取所述至少一支话筒新的位置，更新位置信息数据库中的所述至少一支话筒的位置信息。

进一步的，根据话筒开关的开启状态和/或说话人声音信号分析结果，检测是否存在正在接收说话人声音的至少一支话筒。其中，声音信号分析结果包括声音信号能量大小和/或信号是否为语音，将声音信号能量超过预设阈值的至少一支话筒和/或所接收信号被检测为语音的至少一支话筒确定为正在接收说话人声音的话筒。

进一步的，对图像进行面部识别，调整摄像头焦距和/或角度，使图像主体为说话人头面部。

进一步的，预设一时间范围，在该时间范围内，根据所述正在接收说话人声音的至少一支话筒的数量及位置，判断当前场景，根据预设规则调整摄像头采集画面。

根据本发明的另一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如下操作：

预先获取至少一支话筒的位置信息；

检测是否存在正在接收说话人声音的至少一支话筒；

根据本发明的又一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行上述任一项的视频会议图像采集方法对应的操作。

采用本发明的方案，一方面通过预先将各个话筒的位置信息存储在位置信息数据库，在会议中可以直接调取话筒的位置信息调整摄像头采集画面，从而实现在只有一个摄像头的情况下，也能够高效准确的拍摄到说话人；第二方面，通过检测并判断出当前确实存在正在接收说话人声音的话筒后，才从数据库调取该话筒位置信息以调整摄像头，从而保证在只有一个摄像头的情况下，也可以实现准确跟踪到说话人，提升会议效果，避免无意义会议画面出现；第三方面通过话筒内置的一个定位芯片配合摄像头端的两个定位芯片就能够实现准确快速定位，大大减轻了系统复杂度，相比现有技术中的基于人脸识别或者传声器阵列进行定位，大大减少系统开销，增强了系统可靠性；第四方面，本发明将位置信息数据库作为一种缓冲，通过在数据库中动态更新有位移的话筒位置信息，只通过一个摄像头即可实现快速准确跟踪到不同说话人；第五方面，进一步通过检测到的在一预设时间范围内的活跃话筒数量及位置，判断当前场景是否为预设场景，并根据预设规则调整摄像头采集画面以适配当前场景并突出相应说话人，以进一步提升视频会议的参与感及沉浸感；第六方面，本发明话筒所采用的定位芯片优选为蓝牙或UWB芯片，可以使用该芯片进行定位的同时复用该芯片同时以无线方式传输数字音频信号，实现话筒与会议服务主机间的全无线连接，从而进一步提升系统性能及灵活性；第七方面，本发明还提出采用计算距离相对差的方式动态选择不同测距方法得到的距离测量结果从而更加精确的对话筒进行定位以利于调整摄像头进行图像跟踪。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例一的视频会议图像采集方法流程图

图2示出了本发明实施例二的视频会议图像采集方法流程图

图3示出了本发明实施例三的视频会议图像采集方法流程图

图4示出了本发明实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

图1示出了本发明实施例一提供的视频会议图像采集方法的流程图，该方法可应用于包含摄像头和独立话筒的各种视频会议场合。

如图1所示，该方法包括如下步骤：

步骤S110，预先获取至少一支话筒的位置信息。

本发明所包括的各个方案应用于设置有独立话筒的会场中，也即与会场内用于拍摄图像的摄像头是分离设置的，话筒可以为手持式、鹅颈式、领夹式等，其配合说话人使用。

在一种可选的预先获取话筒位置信息的方式中，各话筒可以是放置于参会者面前的话筒，可在会议开始前预先通过物理测量得到各个话筒相对于摄像头的位置信息；在另一种方式中，也可以是在会议开始前预先通过话筒内置的定位芯片获取话筒的位置信息。

所述位置信息可以包括各个话筒相对于摄像头的位置信息，例如可以为相对摄像头的角度和/或距离；也可以简化为各个话筒在会场内的坐标，例如以房屋一角作为原点建立坐标系，话筒的位置信息则为各个话筒在该坐标系内的坐标，后续在进一步获得摄像头所在位置坐标后，则可通过计算得到各个话筒相对于摄像头的位置。

步骤S120，记录所述至少一支话筒的位置信息并存储至位置信息数据库。

会场内还设置有会议服务主机，其分别与摄像头及话筒建立有线或无线连接，并提供数据传输通道。该会议服务主机内建有位置信息数据库，会议服务主机预先获取到话筒的位置信息后，将位置信息存储至所述位置信息数据库中，以用于后续随时调用。

步骤S130，检测是否存在正在接收说话人声音的至少一支话筒。

由会议服务主机对各个话筒输入的信号进行检测，判断是否存在正在拾取说话人讲话的话筒，检测方式例如可以通过判断话筒是否开启了开关处于工作状态，因为在一些场景下，只有开启了话筒开关的参会人才被视为有效的说话人。

步骤S140，若是，从所述位置信息数据库获取所述正在接收说话人声音的至少一支话筒的所述位置信息。

当会议服务主机检测并判断出当前存在正在接收说话人声音的至少一支话筒后，则可直接调用预先存储的位置信息数据库中上述至少一支话筒的位置信息用于后续摄像头采集画面的调整。

步骤S150，根据所述位置信息调整摄像头采集的图像，使图像包括所述说话人。

当会议服务主机获得当前正在接收说话人声音的至少一支话筒的位置信息后，根据该位置信息发送指令给摄像头，调整摄像头的焦距和/或角度，使摄像头采集的画面中将当前使用话筒的说话人包括在内，示例性的，在会议服务主机的位置信息数据库中记录的为各话筒相对摄像头的角度和距离，会议服务主机调取到说话人正使用的话筒的角度和距离后，根据摄像头当前的状态，依据角度信息计算得到摄像头需要进行调整的角度，依据距离信息计算得到摄像头需要进行调整的焦距，从而使摄像头采集画面将当前说话人包括在内。

由此可见，本发明实施例一预先获取至少一支话筒的位置信息，并记录该至少一支话筒的位置信息并存储至位置信息数据库，当检测并判断存在正在接收说话人声音的至少一支话筒后，从所述位置信息数据库获取所述正在接收说话人声音的至少一支话筒的所述位置信息，根据所述位置信息调整摄像头采集的图像，使图像包括所述说话人；将话筒位置信息预先进行存储以用于后续直接调用有利于采用一个摄像头也可以实现快速调整以跟踪到说话人，可以理解的是，不比采用多个摄像头的方案，如果不采用数据库对各个话筒的位置信息进行预先存储，那么用一个摄像头则无法实现对会场内多个说话人的快速定位；另外，在会场内话筒一般是跟随说话人的，因此以话筒位置为基准调整摄像头以捕捉到说话人画面可以提高说话人跟踪的准确性，相比利用人脸识别技术等进行跟踪将显著提高定位的精度及效率。

实施例二

图2示出了本发明实施例二提供的一种视频会议图像采集方法的流程示意图。其中，本发明实施例是对其他方法实施例的进一步优化。

如图2所示，该方法包括以下步骤：

步骤S210，获取至少一支话筒的位置信息。

视频会议会场内包括至少一支独立于摄像头的话筒，所述话筒可以为手持式、鹅颈式、领夹式等，此处不做具体限定。话筒内置有至少一个定位芯片，优选的，一支话筒仅包括一个定位芯片，可以理解的是，考虑到话筒的特殊尺寸及形状或基于作为冗余备份等因素，一支话筒也可包括多个定位芯片。

会场内还设置有一个摄像头，摄像头包括固定的底座或云台，至少两个定位芯片以一定间距设置在底座或云台内，所述间距可以根据会场大小灵活选择，可以理解的是，为了提升定位精确度，所述间距与会场大小正向相关；摄像头还包括可调整角度和/或焦距的镜头部。优选的，设置在底座或云台内的定位芯片为两个，镜头部设置在两个定位芯片连线的中点位置，有利于更加精确的调整摄像头采集到的画面。

会场中还设置有会议服务主机，该会议服务主机与摄像头及话筒间通过有线和/或无线方式进行连接，并建立数据传输通道进行数据传输。可以理解的是，会议服务主机也可以与摄像头一体化设置，进一步提升系统紧凑性。

步骤S210进一步包括步骤211，根据所述摄像头的至少两个定位芯片与所述至少一支话筒的至少一个定位芯片间的距离进行计算，获取所述至少一支话筒的位置信息。

该步骤的一种可选实现方式包括：话筒开关开启后，自动与主机建立连接，主机发送指令至摄像头建立其内部的至少两个定位芯片与话筒的至少一个定位芯片的连接，例如使用三角定位法，得到话筒至少一个定位芯片到摄像头至少两个定位芯片间的距离，会议服务主机根据芯片彼此间距离则可计算出话筒相对于摄像头的角度和/或距离，该角度和/或距离即所述的位置信息，优选的，摄像头内设置两个定位芯片，两个芯片间的距离是已知的，那么只通过测量得到话筒中一个定位芯片到摄像头内两个定位芯片间的距离，则可计算出话筒相对于摄像头的角度和/或距离。

所述的定位芯片可以包括UWB(Ultra-Wideband)定位芯片或蓝牙定位芯片。利用UWB定位技术或蓝牙定位技术对话筒进行定位。

其中，UWB定位技术是一种通过发送宽带脉冲信号来实现精确定位的技术。它是一种无线通信技术，其工作原理是通过发送短脉冲信号，然后测量这些信号在空间中的传播时间来确定接收器的位置。UWB定位技术可以实现高精度的定位，通常精度可以在几厘米到几毫米之间。由于其高精度和低功耗的特点，UWB定位技术被广泛应用。

蓝牙定位技术是一种利用蓝牙信号进行室内或密闭空间位置定位的技术。通过在目标区域内放置蓝牙信标，并在定位设备上接收这些信标的信号，可以确定设备在该区域内的位置。

而为了更加精确的测量获得话筒的位置，本发明同时提出以下可选的话筒位置确定方法，既是用于UWB定位也适用于蓝牙定位，其中，所述的话筒的位置信息为话筒的相对坐标，会议服务主机进一步通过该相对坐标即可计算得到话筒相对于摄像头的距离和/或角度，方法包括：

已知摄像头的两个定位芯片的坐标分别为(x₁,y₁)和(x₂,y₂)，需要得到话筒的定位芯片的相对坐标为(x₃,y₃)作为话筒的所述位置信息，设(x₃,y₃)到(x₁,y₁)、(x₂,y₂)的距离为d₂和d₃，其中d₂和d₃的距离均可以通过测量芯片间无线信号的信号强度值RSS或到达时间TOA两种方法实现。本领域技术人员可以理解的是，当得到d₂和d₃后，即可以通过以下公式计算得到话筒的相对坐标(x₃,y₃)。

然而发明人发现，基于RSS测量距离容易受到阴影和多径效应的干扰，RSS还容易受到无线网络设备和设备天线、目标移动参数等因素的影响。因此，仅采用将RSS转换为相应距离的误差较大，导致准确性较低。而基于TOA方式估计物体位置可以在平面上实现定位，获得TOA后则可以计算得到发射端和接收端的距离，与基于RSS测量距离的方法不同，基于TOA估计物体位置确实可以达到较高的定位精度，但是基于TOA估计物体位置的主要问题是需要精确地同步所有发射端和接收端的时间。因此，为平衡测量精度和时间测量成本，本实施例采用计算距离相对差的方式动态选择检测方法来确定话筒定位芯片与摄像头定位芯片间的距离d_i。

具体的，通过下面公式2计算出基于RSS测量的距离，其中P₀是在参考距离接收信号强度(db)，b_i是接收信号强度(db)，b_max是最大接收信号强度，γ是路径损耗系数。

通过公式3来计算基于TOA测量的距离，τ_i是TOA到达时间，c是光速。

d_i ^TOA＝cτ_i……公式3

通过公式4计算距离相对差θ，根据θ值来选择不同的检测方法测量得到距离，达到测量精度和时间的平衡。

当θ≤θ_max时采用TOA测量方法得到的距离值d_i ^TOA作为距离d_i，当θ≥θ_min时采用RSS测量方法得到的距离值d_i ^RSS作为距离d_i，当θ_min＜θ＜θ_max则可采用TOA测量方法得到的距离值和RSS测量方法得到的距离值两者进行加权后得到的距离值作为距离d_i，例如取两者平均值作为距离值d_i，其中θ_max和θ_min预设值可以通过环境数据计算得到，本领域技术人员可以根据实际情况进行设置，此处并不进行具体限定。

值得一提的是，定位芯片的选择也可以有其他选择，而本实施例中优选蓝牙或UWB定位芯片，则进一步可以复用该蓝牙或UWB定位芯片以无线方式传输数字音频信号，既满足定位需求也可以传输所拾取的说话人语音，可大大提升整个系统的灵活性及性能。基于蓝牙或UWB的音频传输方法属于本领域现有技术，此处不做具体限定。

步骤S220，记录所述至少一支话筒的位置信息并存储至位置信息数据库。

该步骤的实施方式与实施例一中步骤S120相同，此处不再赘述。

步骤S220进一步包括步骤S221，按照预设时间间隔获取所述至少一支话筒的位置信息，更新存储在位置信息数据库中的至少一支话筒的位置信息。

本步骤的一种可能实现方式包括：话筒为手持式或领夹式等可移动式话筒，则会议服务主机在话筒开启后获得话筒的位置信息并记录在数据库后，依然会按照预设的时间间隔继续获取话筒的新位置，并更新记录在数据库中的话筒的位置信息，可以理解的是，虽然会场内仅有一个摄像头，然而通过这种方式，即使该一个摄像头正在拍摄其他说话人，另一支话筒仅仅是位置发生了改变，例如被移动到其他位置，一旦有参会人使用该话筒讲话从而该话筒被检测判断为正在接收说话人声音的话筒，会议服务主机也可以立刻调取到该话筒的新位置信息并控制摄像头捕获到持有该话筒正在讲话的说话人，而不会造成失去目标的情况发生；另外，如果该话筒本身就是正在接收说话人声音的话筒，当持有该话筒的说话人开始移动，摄像头也依然可以不断获取到该话筒的新位置从而跟踪说话人。示例性的，所述预设的时间间隔可以为500毫秒、1秒、3秒、5秒、10秒等，本领域技术人员可以根据需要灵活选择。

本步骤另一种可选的实现方式包括：话筒进一步包括运动传感器，用于检测话筒是否发生位移，当检测到话筒发生位移时，话筒通知给会议服务主机，此时才会触发会议服务主机再次获取话筒新的位置并更新数据库中的位置信息，当话筒停止运动时，则停止更新位置，通过这种方式，可以在保证定位及时性的同时减少数据通路占用，节约能耗，提高工作效率。示例性的，所述运动传感器例如可以是陀螺仪、重力或加速度传感器等中的一个或几个的组合，此处不进行具体限定。

步骤S230，检测是否存在正在接收说话人声音的至少一支话筒。

由会议服务主机对开启后的各话筒的通路信号进行检测，判断所接入的话筒中是否存在正在接收说话人声音的至少一支话筒。只有确定有说话人使用某支话筒讲话时，才需要调整摄像头使画面包括该说话人，从而避免因为一些偶发性噪声被话筒拾取到而触发摄像头调整。

为此，一种实现方式可以是，会议主机服务器对每个通道的话筒信号进行语音检测，例如采用VAD(语音端点检测)方式，判断话筒通路信号中是否有语音，若检测到有语音，则将接入该通道的话筒确定为正在接收说话人声音的话筒。

另一种情况可以是，存在多个话筒同时开启的情况，说话人的声音可能会被多支话筒拾取到，则可以对各个话筒的信号能量进行检测，例如将信号能量值最大的话筒判定为是正在接收说话人声音的话筒，从而使摄像头能够准确的捕捉到该说话人。

或者，将上面两种方式进行结合以更加准确的确定正在接收说话人声音的话筒，例如先进行信号能量检测，再进行语音检测，从而可以达到有效过滤掉噪声的作用，利于摄像头捕捉到真正在讲话的说话人。

进一步的，本步骤可以先于步骤S230执行，具体可以是，当会议服务主机检测到存在正在接收说话人声音的话筒后，再开始按照预设时间间隔获取所述至少一支话筒的位置信息，更新存储在位置信息数据库中的至少一支话筒的位置信息，说话人停止说话即检测不到说话人声音后，则停止话筒位置信息的更新，从而既可以实现摄像头精确跟踪真正说话人的效果，同时也可以起到节约资源及能耗的作用。示例性的，对一种可能的场景进行描述，例如一位参会人员在开启话筒后，即触发会议服务主机定位该话筒并将位置信息记录在位置信息数据库中，但此时该参会人员并未说话，如果此时即开始不断更新话筒位置，会造成资源浪费，而当该参会人员真正开始说话时，被主机检测到，此时再进行话筒的位置更新，参会人员停止说话，则停止位置更新。

步骤S240，若是，从所述位置信息数据库获取所述正在接收说话人声音的至少一支话筒的所述位置信息。

具体实施方式同实施例一步骤S140。

步骤S250，根据所述位置信息调整摄像头采集的图像，使图像包括所述说话人。

具体实施方式同实施例一步骤S150。

由此可见，在本发明实施例二中，首先获取至少一支话筒的位置信息，其中根据所述摄像头的至少两个定位芯片与所述至少一支话筒的至少一个定位芯片间的距离进行计算，获取所述至少一支话筒的位置信息，记录所述至少一支话筒的位置信息并存储至位置信息数据库，按照预设时间间隔获取所述至少一支话筒的位置信息，更新存储在位置信息数据库中的至少一支话筒的位置信息，根据信号能量/语音检测来判断是否存在正在接收说话人声音的至少一支话筒，从所述位置信息数据库获取所述正在接收说话人声音的至少一支话筒的所述位置信息，最后根据所述位置信息调整摄像头采集的图像，使图像包括所述说话人。本实施例只使用极少数量的定位芯片用于定位话筒位置，利用其定位速度快精确度高的特点，并且还以位置信息数据库作为缓冲，采取一定策略更新数据库中话筒的位置信息，在节约能耗的同时也能够实现即使只使用一个摄像头也可以对说话人画面的跟踪捕捉；进一步通过信号能量/语音检测方式以判断是否存在正在接收说话人声音的话筒，可以有效提升摄像头画面跟踪说话人的效率及准确度，同时也能够起到节约能耗及信道资源的作用。

实施例三

图3示出了本发明实施例三提供的一种视频会议图像采集方法的流程示意图。

其中，本发明实施例是对其他方法实施例的进一步优化。

如图3所示，该方法包括以下步骤：

步骤S310-S340，具体实施方式与步骤S110-S140或者S210-S240相同。步骤S350，根据所述位置信息调整摄像头采集的图像，使图像包括所述说话人。

会议服务主机在获取到当前说话人正使用的话筒的位置信息后，即可发送指令至摄像头调整其焦距和/或角度以捕捉到正在使用话筒讲话的说话人，如上述实施例中所述的，因为位置信息可以包括话筒距离摄像头的距离和/或角度信息，则可以根据距离信息调整摄像头焦距，根据角度信息调整摄像头旋转角度以使摄像头捕获的画面能够突出说话人；本领域技术人员可以理解的是，随着话筒距离摄像头的距离越远，则摄像头焦距可以越大，即拉进远处的拍摄对象，并且根据话筒相对于摄像头的角度可以同步调整摄像头旋转角度以使捕捉到更佳的说话人画面；另一方面，本领域技术人员可以理解的是，为了进一步提升摄像头追踪到当前说话人的效率，所述的话筒的位置信息也可以是根据话筒距离摄像头的距离和/或角度信息计算得到的摄像头能够捕捉到合适的话筒所在区域画面的摄像头的目标焦距和/或指向角度，并将该目标焦距和/或指向角度作为位置信息存储进会议服务主机的位置信息数据库以更快速的调用以调节摄像头。

为了获得更好的拍摄效果，进一步可选的，在根据话筒的位置信息调整摄像头拍摄画面至说话人处后，执行面部识别，进一步微调摄像头焦距和/或角度，将画面集中于说话人头面部，以达到更好的会议图像采集效果。

此外，对于一些会议场合，可能会发生会场内多位参会人员进行语言互动的情况，例如会议主持人与其他参会人员的交流互动或者参会人员之间的辩论等，也就是说，可能会有在较短时间内存在多个说话人交替说话的情况出现，而本发明中的摄像头个数优选为一个，对于上述这些情况，因为摄像头的调整需要一定时间，可能会存在摄像头来不及调整从而难以及时捕捉到不同说话人的情况。为此可选的，本实施例可进一步包括以下实现方式：预设一个时间范围，在该时间范围内，若检测到存在多个正在接收说话人语音的话筒，且各个通道的话筒语音被交替检测到，则判定为当前场景为多说话人交互场景，则可由会议服务主机调整摄像头焦距至最小即广角模式，使画面能够覆盖整个会场，或者也可以根据上述多个话筒的位置信息，调整摄像头使画面范围恰好包括进使用上述多个话筒讲话的说话人，以进行局部聚焦，又或者可以进一步结合面部识别，将画面内的其他没有在讲话的非说话人剔除，仅保留在进行交互的说话人，并以分屏的形式进行呈现，例如检测出短时间内有两个说话人在交互，则将屏幕分为左右各半，每半屏显示一位说话人的面部，以更适当的展现当前场景。所述的时间范围例如可以设置为10秒、20秒等，包括画面呈现方式，本领域技术人员都可以进行灵活设置，此处不做具体限定。

由此可见，在本发明实施例三中，会议服务主机能够根据检测到的正在接收说话人声音的话筒的位置信息，通过调整摄像头焦距和/或角度，并可进一步利用面部识别的手段，使得所采集画面更加突出说话人，并且可根据一预设时间范围内的活跃话筒数量及位置，判断出当前场景是否是多说话人交互场景，根据预设规则调整摄像头采集画面以适配当前场景并突出说话人，提升了会议参与感与沉浸感。

实施例四

本发明实施例四提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的方法。

可执行指令具体可以用于使得处理器执行以下操作：

预先获取至少一支话筒的位置信息；

检测是否存在正在接收说话人声音的至少一支话筒；

在一种可选的实施方式中，所述可执行指令使所述处理器执行如下操作：

其中，所述摄像头包括至少两个定位芯片，所述至少一支话筒包括至少一个定位芯片；根据所述摄像头的至少两个定位芯片与所述至少一支话筒的至少一个定位芯片间的距离进行计算，获取所述至少一支话筒的位置信息。

所述定位芯片为蓝牙定位芯片或超宽带定位芯片。

按照预设时间间隔获取所述至少一支话筒的位置信息，更新存储在位置信息数据库中的至少一支话筒的位置信息。

其中，所述至少一支话筒还包括运动传感器；当运动传感器检测到所述至少一支话筒发生位移时，按照预设时间间隔获取所述至少一支话筒新的位置，更新位置信息数据库中的所述至少一支话筒的位置信息。

根据话筒开关的开启状态和/或说话人声音信号分析结果，检测是否存在正在接收说话人声音的至少一支话筒。其中，声音信号分析结果包括声音信号能量大小和/或信号是否为语音，将声音信号能量超过预设阈值的至少一支话筒和/或所接收信号被检测为语音的至少一支话筒确定为正在接收说话人声音的话筒。

对图像进行面部识别，调整摄像头焦距和/或角度，使图像主体为说话人头面部。

预设一时间范围，根据该时间范围内的所述正在接收说话人声音的至少一支话筒的数量及位置，判断当前场景，根据预设规则调整摄像头采集画面。

由此可见，本实施例一方面通过预先将各个话筒的位置信息存储在位置信息数据库，在会议中可以直接调取话筒的位置信息调整摄像头采集画面，从而实现在只有一个摄像头的情况下，也能够高效准确的拍摄到说话人；第二方面，通过检测并判断出当前确实存在正在接收说话人声音的话筒后，才从数据库调取该话筒位置信息以调整摄像头，从而保证在只有一个摄像头的情况下，也可以实现准确跟踪到说话人的效果，提升会议效果，避免无意义会议画面出现；第三方面通过话筒内置的一个定位芯片配合摄像头端的两个定位芯片就能够实现准确快速定位，大大减轻了系统复杂度，相比现有技术中的基于人脸识别或者传声器阵列进行定位，大大减少系统开销，增强了系统可靠性；第四方面，本发明将位置信息数据库作为一种缓冲，通过在数据库中动态更新有位移的话筒位置信息，只通过一个摄像头即可实现快速准确跟踪到不同说话人；第五方面，进一步通过一预设时间范围内检测到的活跃话筒数量及位置，判断当前场景是否为预设场景，并根据预设规则调整摄像头采集画面以适配当前场景并突出相应说话人，以进一步提升视频会议的参与感及沉浸感。

实施例五

图4示出了本发明实施例五提供的一种电子设备的结构示意图。本发明具体实施例并不对电子设备的具体实现做限定。

如图4所示，该电子设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。处理器402，用于执行程序410，具体可以执行上述方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行以下操作：

预先获取至少一支话筒的位置信息；

检测是否存在正在接收说话人声音的至少一支话筒；

在一种可选的实施方式中，程序410具体可以用于使得处理器402执行以下操作：

所述定位芯片为蓝牙定位芯片或超宽带定位芯片。

预设一时间范围，根据该时间范围内所述正在接收说话人声音的至少一支话筒的数量及位置，判断当前场景，根据预设规则调整摄像头采集画面。

由此可见，本实施例一方面通过预先将各个话筒的位置信息存储在位置信息数据库，在会议中可以直接调取话筒的位置信息调整摄像头采集画面，从而实现在只有一个摄像头的情况下，也能够高效准确的拍摄到说话人；第二方面，通过检测并判断出当前确实存在正在接收说话人声音的话筒后，才从数据库调取该话筒位置信息以调整摄像头，从而保证在只有一个摄像头的情况下，也可以实现准确跟踪到说话人的效果，提升会议效果，避免无意义会议画面出现；第三方面通过话筒内置的一个定位芯片配合摄像头端的两个定位芯片就能够实现准确快速定位，大大减轻了系统复杂度，相比现有技术中的基于人脸识别或者传声器阵列进行定位，大大减少系统开销，增强了系统可靠性；第四方面，本发明将位置信息数据库作为一种缓冲，通过在数据库中动态更新有位移的话筒位置信息，只通过一个摄像头即可实现快速准确跟踪到不同说话人；第五方面，进一步通过预设一时间范围，根据检测到的该时间范围内的活跃话筒数量及位置，判断当前场景是否为预设场景，并根据预设规则调整摄像头采集画面以适配当前场景并突出相应说话人，以进一步提升视频会议的参与感及沉浸感。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种视频会议图像采集方法，包括以下步骤：

预先获取至少一支话筒的位置信息；

检测是否存在正在接收说话人声音的至少一支话筒；

2.如权利要求1所述的视频会议图像采集方法，所述获取至少一支话筒的位置信息包括：

其中，所述摄像头包括至少两个定位芯片，所述至少一支话筒包括至少一个定位芯片；

根据所述摄像头的至少两个定位芯片与所述至少一支话筒的至少一个定位芯片间的距离进行计算，获取所述至少一支话筒的位置信息。

3.如权利要求2所述的视频会议图像采集方法，所述摄像头包括至少两个定位芯片，所述至少一支话筒包括至少一个定位芯片所述定位芯片包括：

所述定位芯片为蓝牙定位芯片或超宽带定位芯片，复用所述定位芯片以无线方式传输数字音频信号。

4.如权利要求1-3之一所述的视频会议图像采集方法，在所述预先获取至少一支话筒的位置信息，记录所述至少一支话筒的位置信息并存储至位置信息数据库之后，包括：

5.如权利要求4所述的视频会议图像采集方法，其中，所述至少一支话筒还包括运动传感器，所述按照预设时间间隔获取所述至少一支话筒的位置信息，更新存储在位置信息数据库中的至少一支话筒的位置信息包括：

当运动传感器检测到所述至少一支话筒发生位移时，按照预设时间间隔获取所述至少一支话筒新的位置，更新位置信息数据库中的所述至少一支话筒的位置信息。

6.如权利要求1所述的视频会议图像采集方法，所述检测是否存在正在接收说话人声音的至少一支话筒包括：

根据话筒开关的开启状态和/或说话人声音信号分析结果，检测是否存在正在接收说话人声音的至少一支话筒。

其中，声音信号分析结果包括声音信号能量大小和/或信号是否为语音，将声音信号能量超过预设阈值的至少一支话筒和/或所接收信号被检测为语音的至少一支话筒确定为正在接收说话人声音的话筒。

7.如权利要求1所述的视频会议图像采集方法，所述根据所述位置信息调整摄像头采集的图像，使图像包括所述说话人包括：

8.如权利要求7所述的视频会议图像采集方法，其中，对图像进行面部识别，调整摄像头焦距和/或角度，使图像主体为说话人头面部包括：

预设一时间范围，在该时间范围内，根据所述正在接收说话人声音的至少一支话筒的数量及位置，判断当前场景，根据预设规则调整摄像头采集画面。

9.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

获取至少一支话筒的位置信息；

检测是否存在正在接收说话人声音的至少一支话筒；

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-8中任一项所述的视频会议图像采集方法对应的操作。