CN108718402B

CN108718402B - 视频会议管理方法及装置

Info

Publication number: CN108718402B
Application number: CN201810926934.6A
Authority: CN
Inventors: 付达; 潘宇清; 谭发军
Original assignee: Sichuan Yiwei Zhixing Technology Co ltd
Current assignee: Sichuan Yiwei Zhixing Technology Co ltd
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2021-04-13
Anticipated expiration: 2038-08-14
Also published as: CN108718402A

Abstract

本发明实施例涉及影像处理技术领域，具体而言，涉及一种视频会议管理方法及装置。该方法应用于与多台摄像机通信连接的电子设备，各摄像机设置于会场中的会议桌，会议桌设置有麦克风，麦克风与电子设备通信连接，该方法包括：获得各摄像机拍摄的实时影像，将各实时影像进行拼接以获得会场的实时全景影像，根据实时全景影像判断多个与会者中的至少一个与会者是否存在触发麦克风进行语音采集的行为，若至少一个与会者存在触发麦克风进行语音采集的行为，控制麦克风开启，接收麦克风采集的实时语音信息，将实时全景影像和实时语音信息进行同步发送。该方法能够提高视频会议系统的智能化程度、语音效果和交互感。

Description

视频会议管理方法及装置

技术领域

本发明实施例涉及影像处理技术领域，具体而言，涉及一种视频会议管理方法及装置。

背景技术

随着科技的不断进步，越来越多的会议模式通过远程会议进行，远程会议具有不受地域限制、与会灵活性高等优点。远程会议主要是通过视频会议的方式实现，但是现有的视频会议系统大多智能化程度不高、语音效果不好、交互感不强。

发明内容

有鉴于此，本发明提供了一种视频会议管理方法及装置，能够提高视频会议系统的智能化程度、语音效果和交互感。

为实现上述目的，本发明实施例提供了一种视频会议管理方法，应用于电子设备，所述电子设备与多台摄像机通信连接，各所述摄像机设置于会场中的会议桌，所述会议桌设置有麦克风，所述麦克风与所述电子设备通信连接，所述方法包括：

获得各所述摄像机拍摄的实时影像，将各所述实时影像进行拼接以获得所述会场的实时全景影像；其中，各所述摄像机的拍摄时间同步，所述全景影像中包括多个与会者；

根据所述实时全景影像判断所述多个与会者中的至少一个与会者是否存在触发所述麦克风进行语音采集的行为，若所述至少一个与会者存在触发所述麦克风进行语音采集的行为，控制所述麦克风开启；接收所述麦克风采集的实时语音信息；

将所述实时全景影像和所述实时语音信息进行同步发送。

可选地，所述会议桌为多个，各所述会议桌设置有麦克风，各所述麦克风与所述电子设备通信连接，各所述麦克风对应所述多个与会者中的其中一个与会者；根据所述实时全景影像判断所述多个与会者中的至少一个与会者是否存在触发所述麦克风进行语音采集的行为，若所述至少一个与会者存在触发所述麦克风进行语音采集的行为，控制所述麦克风开启的步骤，包括：

计算所述至少一个与会者的面部与对应的麦克风的空间距离，判断所述空间距离是否小于预设值，若所述空间距离小于所述预设值，判断所述至少一个与会者的口型是否发生变化，若所述口型发生变化，控制所述至少一个与会者对应的麦克风开启。

可选地，所述方法还包括：

若经过预设时长没有接收到所述至少一个与会者对应的麦克风采集的实时语音信息，控制所述至少一个与会者对应的麦克风关闭。

可选地，所述麦克风为麦克风阵列，根据所述实时全景影像判断所述多个与会者中的至少一个与会者是否存在触发所述麦克风进行语音采集的行为，若所述至少一个与会者存在触发所述麦克风进行语音采集的行为，控制所述麦克风开启的步骤，包括：

判断所述至少一个与会者的口型是否发生变化，若所述口型发生变化，初始化所述麦克风阵列的主瓣方向指向所述至少一个与会者。

可选地，将各所述实时影像进行拼接以获得所述会场的实时全景影像的步骤，包括：

提取各所述实时影像的有效区域；

对各所述有效区域进行畸变校正，获得畸变校正之后的有效区域；

提取各畸变校正之后的有效区域中的重叠区域的特征，对各所述特征进行匹配以获得匹配结果，根据所述匹配结果对各所述实时影像进行拼接，以获得所述会场的实时全景影像。

本发明实施例还提供了一种视频会议管理装置，应用于电子设备，所述电子设备与多台摄像机通信连接，各所述摄像机设置于会场中的会议桌，所述会议桌设置有麦克风，所述麦克风与所述电子设备通信连接，所述装置包括：

实时全景影像获取模块，用于获得各所述摄像机拍摄的实时影像，将各所述实时影像进行拼接以获得所述会场的实时全景影像；其中，各所述摄像机的拍摄时间同步，所述全景影像中包括多个与会者；

实时语音信息获取模块，用于根据所述实时全景影像判断所述多个与会者中的至少一个与会者是否存在触发所述麦克风进行语音采集的行为，若所述至少一个与会者存在触发所述麦克风进行语音采集的行为，控制所述麦克风开启；接收所述麦克风采集的实时语音信息；

发送模块，用于将所述实时全景影像和所述实时语音信息进行同步发送。

可选地，所述会议桌为多个，各所述会议桌设置有麦克风，各所述麦克风与所述电子设备通信连接，各所述麦克风对应所述多个与会者中的其中一个与会者；所述实时语音信息获取模块通过以下方式控制所述麦克风开启：

可选地，若所述实时语音信息获取模块经过预设时长没有接收到所述至少一个与会者对应的麦克风采集的实时语音信息，所述语音信息获取模块还用于控制所述至少一个与会者对应的麦克风关闭。

可选地，所述麦克风为麦克风阵列，所述实时语音信息获取模块通过以下方式控制所述麦克风开启：

可选地，所述实时全景影像获取模块通过以下方式获得所述会场的实时全景影像：

提取各所述实时影像的有效区域；

本发明实施例提供的视频会议管理方法及装置，能够将各个摄像头采集到的实时影像进行拼接处理获得实时全景图像，相比于将摄像头对准某个角度进行拍摄的方式，该方式能够提高视频会议的交互感，并通过实时全景图像以及与会者的行为对麦克风进行控制，能够减少不必要的噪声，提高了视频会议的智能化程度和语音效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种电子设备10的方框示意图。

图2为本发明实施例所提供的一种视频会议管理方法的流程图。

图3为一实施方式中图2所示的步骤S21包括的子步骤的示意图。

图4为本发明实施例所提供的一种麦克风控制方法的流程图。

图5为本发明实施例所提供的另一种麦克风控制方法的流程图。

图6为本发明实施例所提供的一种视频会议管理装置20的模块框图。

图标：10-电子设备；11-存储器；12-处理器；13-网络模块；20-视频会议管理装置；21-实时全景影像获取模块；22-实时语音信息获取模块；23-发送模块。

具体实施方式

发明人经调查发现，现有的视频会议系统大多智能化程度不高、交互感不强。例如，现有的视频会议系统多是在与会人员面前安置一个带有开关的麦克风，并人工控制其开关状态，此外，对于视频会议的采集也大多将摄像头对准某个角度拍摄，这样会导致远端的与会人员只能看到会场的局部场景，进一步地，即使根据摄像头拍摄的场景对麦克风进行远程控制，但是由于摄像头拍摄角度单一，难以做到对麦克风的准确控制(例如只采用单一角度可能导致空间距离判断的误差较大)，使得现有的视频会议系统智能化程度不高、语音效果不好、交互感不强。

以上现有技术中的方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案，都应该是发明人在本发明过程中对本发明做出的贡献。

基于上述研究，本发明实施例提供了一种视频会议管理方法及装置，能够提高视频会议系统的智能化程度、语音效果和交互感。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

图1示出了本发明实施例所提供的一种电子设备10的方框示意图。本发明实施例中的电子设备10可以为具有数据存储、传输、处理功能的服务端，如图1所示，电子设备10包括：存储器11、处理器12、网络模块13和视频会议管理装置20。

存储器11、处理器12和网络模块13之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器11中存储有视频会议管理装置20，所述视频会议管理装置20包括至少一个可以软件或固件(firmware)的形式储存于所述存储器11中的软件功能模块，所述处理器12通过运行存储在存储器11内的软件程序以及模块，例如本发明实施例中的视频会议管理装置20，从而执行各种功能应用以及数据处理，即实现本发明实施例中的视频会议管理方法。

其中，所述存储器11可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器11用于存储程序，所述处理器12在接收到执行指令后，执行所述程序。

所述处理器12可能是一种集成电路芯片，具有数据的处理能力。上述的处理器12可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

网络模块13用于通过网络建立电子设备10与其他通信终端设备之间的通信连接，实现网络信号及数据的收发操作。上述网络信号可包括无线信号或者有线信号。

可以理解，图1所示的结构仅为示意，电子设备10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

本发明实施例还提供一种计算机可读存储介质，所述可读存储介质包括计算机程序。所述计算机程序运行时控制所述可读存储介质所在电子设备10执行下面的视频会议管理方法。

图2示出了本发明实施例所提供的一种视频会议管理方法的流程图。所述方法有关的流程所定义的方法步骤应用于电子设备10，可以由所述处理器12实现。下面将对图2所示的具体流程进行详细阐述：

在本实施例中，该电子设备与多台摄像机通信连接，各摄像机设置于会场中的会议桌，会议桌设置有麦克风，麦克风与电子设备通信连接，其中，该电子设备可以为一主控计算机，用于对整个会场的视频会议进行管控。

步骤S21，获得各摄像机拍摄的实时影像，将拍摄到的各实时影像进行拼接以获得会场的实时全景影像。

其中，各台摄像机设置于会议桌边缘，用于对会议桌以及与会人员进行拍摄，可以理解，多台摄像机能够从不同角度对同一局部场景进行拍摄，能够为全景拼接提供数据基础，此外，各台摄像机的拍摄时间同步。主控计算机获得各台摄像机拍摄的实时影像，对各个实时影像的重叠区域进行拼接处理以获得反映会场全貌的实时全景影像。

请结合参阅图3，本实施例中通过步骤S211、步骤S212和步骤S213列举了步骤S21的其中一种实现方式。

步骤S211，提取各实时影像的有效区域。

本发明实施例可以采用双鱼眼相机进行实时影像的拍摄，拍摄到实时影像之后，首先提取各个实时影像的有效区域，可以理解，有效区域的形状可以为圆形。

步骤S212，对各有效区域进行畸变校正，获得畸变校正之后的有效区域。

由于双鱼眼相机的视角范围较大，因此提取出的有效区域的畸变更大，若不进行校正，会导致拼接难度大，进而降低拼接质量。因此，在进行拼接之前会对各个有效区域进行畸变校正，畸变校正能够去除由于镜头工艺和安装等产生的误差。

步骤S213，提取各畸变校正之后的有效区域中的重叠区域的特征，对各所述特征进行匹配以获得匹配结果，根据所述匹配结果对各所述实时影像进行拼接，以获得所述会场的实时全景影像。

在进行畸变校正和旋转校正之后，各个有效区域会存在重叠区域，提取重叠区域的特征，并进行特征的匹配和实时影像的拼接，以获得会场的实时全景影像。例如，针对十个实时影像，将两两重叠区域进行拼接，能够获得交互感较强的实时全景影像，其中，实时全景影像中包括多个与会者。

步骤S22，根据实时全景影像判断多个与会者中的至少一个与会者是否存在触发麦克风进行语音采集的行为，若至少一个与会者存在触发麦克风进行语音采集的行为，控制麦克风开启；接收麦克风采集的实时语音信息。

可以理解，根据实时全景影像以及与会者的行为可以控制麦克风的开闭状态，并接收麦克风采集的实时语音信息。

步骤S23，将实时全景影像和实时语音信息进行同步发送。

主控计算机会将实时全景影像和实时语音信息进行同步发送至远端，实现交互感强、高度智能化的视频会议。

其中，麦克风的设置分为两种情况，一种情况是在每个与会者的桌前配备一个麦克风，一种情况是在多个与会者共同就坐的会议桌的合适位置设置麦克风整列，下面将对这两种情况一一进行说明。

请参阅图4，为本发明实施例所提供的一种麦克风控制方法的流程图。

可以理解，这种麦克风控制方法针对每个与会者的桌前配备一个麦克风的情况。

步骤S41，计算与会者的面部与对应的麦克风的空间距离。

例如，计算与会者A1与麦克风B1的空间距离，可以理解，与会者A1在发言时，会习惯性地将嘴靠近麦克风B1，可以利用这种习惯行为判断与会者A1是否准备发言，因此会计算与会者A1的面部与麦克风B1的空间距离，其中，该空间距离可以细化为与会者A1的嘴部与麦克风B1的空间距离，其中，可以将与会者A1的嘴部与麦克风B1均视为一质点，然后计算两质点之间的空间距离。

步骤S42，判断空间距离是否小于预设值。

当空间距离小于预设值时，主控计算机判定与会者A1可能要发言，此时转向步骤S43。其中，空间距离可以通过不同摄像机拍摄到的影像计算得到，例如，主控计算机会获得多个摄像机拍摄的同一与会者不同角度的影像，根据这些影像通过类似于双目视觉的办法来计算景深(空间距离)。

步骤S43，判断与会者的口型是否发生变化。

当与会者A1要发言时，其口型会发生变化，主控计算机可以通过实时全景影像准确判断出与会者A1的口型是否发生变化，若发生变化，转向步骤S44，若没有发生变化，表明与会者A1可能只是前后晃动身体，并没有发言意愿，这样能够避免误打开麦克风，减少了不必要的噪声。

步骤S44，控制与会者对应的麦克风开启。

可以理解，主控计算机在控制麦克风开B1启之后，麦克风B1会采集与会者A1的实时语音信息，并将实时语音信息发送至主控计算机，主控计算机接收该实时语音信息。

可选地，若主控计算机经过预设时长没有接收到麦克风B1采集的实时语音信息，会控制该麦克风关闭。如此设置，实现了对麦克风的智能化控制。

这种在每个会议桌前设置的一麦克风的方式适用于大型会议场合，但在一些小型会议场合，采用该方法可能显得有些繁琐，因此本发明实施例还提供了另一种麦克风控制方法，如图5所示，这种麦克风控制方法针对麦克风整列。

步骤S51，判断与会者的口型是否发生变化。

其中，小型会议场合可能设置有环形会议桌或者方形会议桌，多个与会者就坐距离较近，若为每个与会者配备一个麦克风，可能出现控制上的失误。此时在会议桌配备麦克风整列是比较合适的选择。可以理解，主控机算机也通过实时全景影像判断各个与会者的口型是否发生变化，由于麦克风阵列的主瓣能够改变自身方向，能够增强语音并提高语音的收敛速度，因此，不需要额外判断与会者的面部与麦克风阵列的距离。

步骤S52，初始化麦克风阵列的主瓣方向指向该与会者。

若主控计算机检测到有与会者的口型发生变化，可以初始化麦克风阵列的主瓣方向指向该与会者，如此设置，避免了因声源方向失配带来的信号泄漏，从而加快了语音增强的收敛速度，也增强了说话人的语音效果。

可以理解，初始化的过程即为麦克风阵列的打开过程，麦克风阵列在开启之后，直到会议结束都不会关闭，在会议过程中，主控计算机会根据每个与会者是否说话控制麦克风的主瓣指向，这样，能够增强说话人方向的声音，弱化其余方向的声音，提高会议的语音效果。

在上述基础上，如图6所示，本发明实施例提供了一种视频会议管理装置20，所述视频会议管理装置20包括：实时全景影像获取模块21、实时语音信息获取模块22和发送模块23。

实时全景影像获取模块21，用于获得各所述摄像机拍摄的实时影像，将各所述实时影像进行拼接以获得所述会场的实时全景影像；其中，各所述摄像机的拍摄时间同步，所述全景影像中包括多个与会者。

由于实时全景影像获取模块21和图2中步骤S21的实现原理类似，因此在此不作更多说明。

实时语音信息获取模块22，用于根据所述实时全景影像判断所述多个与会者中的至少一个与会者是否存在触发所述麦克风进行语音采集的行为，若所述至少一个与会者存在触发所述麦克风进行语音采集的行为，控制所述麦克风开启；接收所述麦克风采集的实时语音信息。

由于实时语音信息获取模块22和图2中步骤S22的实现原理类似，因此在此不作更多说明。

发送模块23，用于将所述实时全景影像和所述实时语音信息进行同步发送。

由于发送模块23和图2中步骤S23的实现原理类似，因此在此不作更多说明。

综上，本发明实施例所提供的视频会议管理方法及装置，通过全景影像拼接以及麦克风的智能控制，能够提高视频会议系统的智能化程度、语音效果和交互感。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备10，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频会议管理方法，其特征在于，应用于电子设备，所述电子设备与多台摄像机通信连接，各所述摄像机设置于会场中的会议桌，所述会议桌设置有麦克风，所述麦克风与所述电子设备通信连接，所述方法包括：

将所述实时全景影像和所述实时语音信息进行同步发送；

其中，所述会议桌为多个，各所述会议桌设置有麦克风，各所述麦克风与所述电子设备通信连接，各所述麦克风对应所述多个与会者中的其中一个与会者；根据所述实时全景影像判断所述多个与会者中的至少一个与会者是否存在触发所述麦克风进行语音采集的行为，若所述至少一个与会者存在触发所述麦克风进行语音采集的行为，控制所述麦克风开启的步骤，包括：

计算所述至少一个与会者的面部与对应的麦克风的空间距离，判断所述空间距离是否小于预设值，若所述空间距离小于所述预设值，判断所述至少一个与会者的口型是否发生变化，若所述口型发生变化，控制所述至少一个与会者对应的麦克风开启；

其中，所述麦克风为麦克风阵列，根据所述实时全景影像判断所述多个与会者中的至少一个与会者是否存在触发所述麦克风进行语音采集的行为，若所述至少一个与会者存在触发所述麦克风进行语音采集的行为，控制所述麦克风开启的步骤，包括：

2.根据权利要求1所述的视频会议管理方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的视频会议管理方法，其特征在于，将各所述实时影像进行拼接以获得所述会场的实时全景影像的步骤，包括：

提取各所述实时影像的有效区域；

4.一种视频会议管理装置，其特征在于，应用于电子设备，所述电子设备与多台摄像机通信连接，各所述摄像机设置于会场中的会议桌，所述会议桌设置有麦克风，所述麦克风与所述电子设备通信连接，所述装置包括：

发送模块，用于将所述实时全景影像和所述实时语音信息进行同步发送；

其中，所述会议桌为多个，各所述会议桌设置有麦克风，各所述麦克风与所述电子设备通信连接，各所述麦克风对应所述多个与会者中的其中一个与会者；所述实时语音信息获取模块通过以下方式控制所述麦克风开启：

其中，所述麦克风为麦克风阵列，所述实时语音信息获取模块通过以下方式控制所述麦克风开启：

5.根据权利要求4所述的视频会议管理装置，其特征在于，若所述实时语音信息获取模块经过预设时长没有接收到所述至少一个与会者对应的麦克风采集的实时语音信息，所述语音信息获取模块还用于控制所述至少一个与会者对应的麦克风关闭。

6.根据权利要求4所述的视频会议管理装置，其特征在于，所述实时全景影像获取模块通过以下方式获得所述会场的实时全景影像：

提取各所述实时影像的有效区域；