CN111263106B

CN111263106B - 一种视频会议的画面追踪方法及装置

Info

Publication number: CN111263106B
Application number: CN202010116187.7A
Authority: CN
Inventors: 褚莹琨; 廖昀
Original assignee: Xiamen Yealink Network Technology Co Ltd
Current assignee: Xiamen Yealink Network Technology Co Ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2021-11-30
Anticipated expiration: 2040-02-25
Also published as: CN111263106A

Abstract

本发明公开了一种视频会议的画面追踪方法及装置，该方法先采集视频会议的图像信息和待定位声音信息；对所述视频会议的图像信息进行图像处理，获得与会人员的位置分布数据；对所述待定位声音信息进行声音定位处理，获得声音的位置信息；根据所述声音的位置信息和所述与会人员的位置分布数据，确定与所述待定位声音信息相匹配的人员的位置信息；生成所述人员的位置信息对应的特写图像。本发明技术方案能够提高特写镜头输出特写画面的准确度和提高特写画面的输出速度，从而提高视频会议的沟通效率。

Description

一种视频会议的画面追踪方法及装置

技术领域

本发明涉及视频会议技术领域，尤其涉及一种视频会议的画面追踪方法及装置。

背景技术

在使用视频会议终端进行多人视频会议时，常常需要输出某个讲演者的特写镜头，以便于提高视频会议的沟通效率。

现有的视频特写输出方式有两种，一种是通过一个设有多个预置位的摄像机来实现特写镜头的输出，具体步骤如下：首先，给摄像机配置好一定数量的预置位；其次，当讲演者切换时，主持人或会议助手手动调节摄像机至其相邻的预置位；最后，对摄像机进行微调，使摄像机对准讲演者，从而输出特写镜头。但是，该方法需要手动调节，费时费力，降低特写画面的输出速度，从而降低视频会议的沟通效率；不仅如此，若会议场地大，超过支持的预置位的数量时，还需要现场调节摄像机的拍摄位置，进一步增加会议时间，降低视频会议的沟通效率。

另一种通过一个摄像头和具有语音追踪技术的麦克风实现特写镜头的输出，具体步骤如下：首先，根据麦克风获取声音的位置；其次，摄像机根据麦克风的反馈信息，转动到声音的位置，并调节摄像头焦距，采集该视角范围内的与会人员，最后，摄像头再次调焦，获取讲演者的特写画面。该方法仅通过麦克风来获取讲演者的位置信息，使得输出的特写画面的准确度低，因此需要反复调整摄像头的位置和角度，从而消耗大量的时间，降低视频会议的沟通效率；不仅如此，该方法的摄像头至少需要两次调焦，进一步降低特写画面的输出速度，降低视频会议的沟通效率。

发明内容

本发明实施例提供了一种视频会议的画面追踪方法及装置，解决现有技术中输出特写画面需耗费较多的时间导致视频会议沟通效率低的技术问题，本发明能够提高特写镜头输出特写画面的准确度和提高特写画面的输出速度，从而提高视频会议的沟通效率。

为了解决上述技术问题，本发明实施例提供了一种视频会议的画面追踪方法，包括：

采集视频会议的图像信息和待定位声音信息；

对所述视频会议的图像信息进行图像处理，获得与会人员的位置分布数据；

对所述待定位声音信息进行声音定位处理，获得声音的位置信息；

根据所述声音的位置信息和所述与会人员的位置分布数据，确定与所述待定位声音信息相匹配的人员的位置信息；

生成所述人员的位置信息对应的特写图像。

作为优选方案，所述对所述视频会议的图像信息进行图像处理，获得与会人员的位置分布数据，具体为：

基于人脸识别技术，对所述视频会议的图像信息进行图像处理，获得与会人员的位置分布数据，其中，所述与会人员的位置分布数据包括若干个人员的位置信息。

作为优选方案，所述对所述待定位声音信息进行声音定位处理，获得声音的位置信息，具体为：

基于语音追踪技术，定位所述待定位声音信息的位置，获得声音的位置信息。

作为优选方案，所述根据所述声音的位置信息和所述与会人员的位置分布数据，确定与所述待定位声音信息相匹配的人员的位置信息，具体为：

将所述声音的位置信息与所述与会人员的位置分布数据中每一个人员的位置信息进行匹配，获取与所述声音的位置信息相同的人员的位置信息。

作为优选方案，在生成所述人员的位置信息对应的特写图像之后，还包括：

通过人脸识别技术，判断所述特写图像是否存在N个人脸区域；其中，N为大于1的整数；

若所述特写图像存在N个人脸区域时，对所述特写图像进行预处理，获得讲演者的人脸区域，并输出所述讲演者的人脸区域对应的特写画面；

若所述特写图像仅存在一个人脸区域时，直接输出所述人脸区域对应的特写画面。

作为优选方案，所述对所述特写图像进行预处理，获得讲演者的人脸区域，具体为：

基于唇动识别技术，从所述特写画面提取讲演者的人脸区域，获得讲演者的人脸区域。

相应地，本发明实施例还提供一种视频会议的画面追踪装置，包括：

全景摄像头，用于采集视频会议的图像信息；

阵列麦克风，用于采集待定位声音信息；

人员位置分析单元，用于对所述视频会议的图像信息进行图像处理，获得与会人员的位置分布数据；

声音位置分析单元，用于对所述待定位声音信息进行声音定位处理，获得声音的位置信息；

定位单元，用于根据所述声音的位置信息和所述与会人员的位置分布数据，确定与所述待定位声音信息相匹配的人员的位置信息；

特写摄像头，用于生成所述人员的位置信息对应的特写图像。

作为优选方案，所述全景摄像头为短焦的广角镜头。

作为优选方案，所述特写镜头为可变倍的光学镜头。

实施本发明实施例，具有如下有益效果：

本发明实施例提供的视频会议的画面追踪方法，该方法先采集视频会议的图像信息和待定位声音信息；对所述视频会议的图像信息进行图像处理，获得与会人员的位置分布数据；对所述待定位声音信息进行声音定位处理，获得声音的位置信息；根据所述声音的位置信息和所述与会人员的位置分布数据，确定与所述待定位声音信息相匹配的人员的位置信息；生成所述人员的位置信息对应的特写图像。相比于现有技术仅根据麦克风来获取讲演者的位置，本发明技术方案根据人员的位置分布数据和声音的位置信息使得获取到讲演者的位置信息的准确度高，从而无需反复调节摄像头的位置和角度，就能够快速获取特写画面，进一步提高画面的输出速度，从而提高视频会议的沟通效率。

附图说明

图1是本发明提供的视频会议的画面追踪方法的第一实施例的流程示意图；

图2是视频会议的场景图；

图3是本发明提供的视频会议的画面追踪装置的第二实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例：

参见图1，是本发明提供的视频会议的画面追踪方法的一种实施例的流程示意图。如图1，该构建方法包括步骤101至步骤105，各步骤具体如下：

步骤101：采集视频会议的图像信息和待定位声音信息。

在其中一种优选实施例中，利用全景摄像头实时采集视频会议的图像信息，其中，全景摄像头为短焦的广角镜头；利用阵列麦克风实时采集待定位声音信息，其中，待定位声音信息为讲演者的说话声音。

步骤102：对视频会议的图像信息进行图像处理，获得与会人员的位置分布数据。

在其中一种优选实施例中，步骤102具体为：基于人脸识别技术，对视频会议的图像信息进行图像处理，获得与会人员的位置分布数据，其中，与会人员的位置分布数据包括若干个人员的位置信息。

步骤103：对待定位声音信息进行声音定位处理，获得声音的位置信息。

在其中一种优选实施例中，步骤103具体为：基于语音追踪技术，定位待定位声音信息的位置，获得声音的位置信息。

步骤104：根据声音的位置信息和与会人员的位置分布数据，确定与待定位声音信息相匹配的人员的位置信息。

在其中一种优选实施例中，步骤104具体为：将声音的位置信息与与会人员的位置分布数据中每一个人员的位置信息进行匹配，获取与声音的位置信息相同的人员的位置信息。

在本实施例中，根据人员的位置分布数据和声音的位置信息来获取讲演者的位置信息，从而减少麦克风受其他噪声的干扰而导致获取的讲演者的位置信息存在偏差，进一步提高讲演者的位置信息的准确度，使得摄像头无需反复定位，提高特写画面输出速度。

步骤105：生成人员的位置信息对应的特写图像。

在其中一种优选实施例中，在步骤105之后，还包括：通过人脸识别技术，判断特写图像是否存在N个人脸区域；其中，N为大于1的整数；若特写图像存在N个人脸区域时，对特写图像进行预处理，获得讲演者的人脸区域，并输出讲演者的人脸区域对应的特写画面；若特写图像仅存在一个人脸区域时，直接输出人脸区域对应的特写画面。

在本实施例中，对特写图像进行预处理，具体为：基于唇动识别技术，从特写画面提取讲演者的人脸区域，获得讲演者的人脸区域。

在本实施例中，利用唇动识别技术，进一步判断特写图像是否仅有一个人脸区域，一旦特写图像中存在多个人脸区域时，对特写图像进行处理，使得最后输出的特写画面的准确度最高，进一步提高视频会议的沟通效率。

为了更好的说明本实施例的流程和原理，以下面的例子进行具体说明：

步骤一，通过全景摄像头采集视频会议的图像信息，并利用人脸识别技术，获取与会人员的位置分布数据；

步骤二，通过阵列麦克风采集待定位声音信息，并利用语音追踪技术，定位待定位声音信息，获取声音的位置信息；

步骤三，将声音的位置信息与与会人员的位置分布数据中每一个人员的位置信息进行匹配，获取与声音的位置信息相同的人员的位置信息，获得讲演者的位置信息；

步骤四，计算讲演者与特写摄像头之间的相对角度和相对距离；

步骤五，特写摄像头根据相对角度调整角度，特写摄像头根据相对距离的调整焦距，生成讲演者的特写图像；

步骤六，通过人脸识别技术，判断特写图像是否存在N个人脸区域；其中，N为大于1的整数；

步骤七，特写图像存在N个人脸区域时，基于唇动识别技术，从特写画面提取讲演者的人脸区域，获得讲演者的人脸区域，并输出讲演者的人脸区域对应的特写画面，可参见图2，B人员和C人员的位置较近，因此，特写图像可能包括B人员和C人员；

步骤八，若特写图像仅存在一个人脸区域时，直接输出人脸区域对应的特写画面，可参见图2中A人员。

由上可见，本发明实施例提供的视频会议的画面追踪方法，该方法先采集视频会议的图像信息和待定位声音信息；对视频会议的图像信息进行图像处理，获得与会人员的位置分布数据；对待定位声音信息进行声音定位处理，获得声音的位置信息；根据声音的位置信息和与会人员的位置分布数据，确定与待定位声音信息相匹配的人员的位置信息；生成人员的位置信息对应的特写图像。相比于现有技术仅根据麦克风来获取讲演者的位置，本发明技术方案根据人员的位置分布数据和声音的位置信息使得获取到讲演者的位置信息的准确度高，从而无需反复调节摄像头的位置和角度，就能够快速获取特写画面，进一步提高画面的输出速度，从而提高视频会议的沟通效率。

第二实施例：

请参见图3，是本发明提供的一种视频会议的画面追踪装置的第二实施例的结构示意图。该装置包括：全景摄像头201、阵列麦克风202、人员位置分析单元203、声音位置分析单元204、定位单元205和特写摄像头206。

全景摄像头201，用于采集视频会议的图像信息；

阵列麦克风202，用于采集待定位声音信息；

人员位置分析单元203，用于对视频会议的图像信息进行图像处理，获得与会人员的位置分布数据；

声音位置分析单元204，用于对待定位声音信息进行声音定位处理，获得声音的位置信息；

定位单元205，用于根据声音的位置信息和与会人员的位置分布数据，确定与待定位声音信息相匹配的人员的位置信息；

特写摄像头206，用于生成人员的位置信息对应的特写图像。

在其中一种优选实施例中，全景摄像头201为短焦的广角镜头，实时采集采集视频会议的图像信息。

在其中一种优选实施例中，特写镜头205为可变倍的光学镜头。

在其中一种优选实施例中，全景摄像头201输出视频会议中所有与会人员的画面，特写摄像头206输出特写画面，用户可根据需要自行拼接，使得一个显示屏上同时输出两个画面。

在本实施例中，视频会议画面的追踪装置采用全景摄像头和特写摄像头，使得特写摄像头在输出特写图像时，仅进行一次调焦，进一步提高特写镜头的输出速度，进而提高视频会议的沟通效率。

在本实施例中，现有的中视频会议画面的追踪装置的摄像头是分开设置，因此，前期需要专业人员进行部署和测量，精准测量每个镜头和麦克风的位置，增加了部署的负担，而本申请的视频会议的画面追踪装置采用一体化设计，从而减少安装测量的部署工作。

本实施例更详细的工作原理和流程可以但不限于参见第一实施例的基于机器学习的像差矫正方法。

由上可见，本发明技术方案根据人员的位置分布数据和声音的位置信息使得获取到讲演者的位置信息的准确度高，从而无需反复调节摄像头的位置和角度，就能够快速获取特写画面，提高画面的输出速度；不仅如此，本发明采用全景摄像头和特写摄像头，从而使得特写摄像头在输出特写图像时，仅进行一次调焦，提高特写镜头的输出速度，进而提高视频会议的沟通效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种视频会议的画面追踪方法，其特征在于，包括：

采集视频会议的图像信息和待定位声音信息；

生成所述人员的位置信息对应的特写图像；

所述方法还包括：

若所述特写图像仅存在一个人脸区域时，直接输出所述人脸区域对应的特写画面；

其中，所述对所述特写图像进行预处理，获得讲演者的人脸区域，具体为：

基于唇动识别技术，从所述特写画面提取讲演者的人脸区域，获得讲演者的人脸区域；

所述根据所述声音的位置信息和所述与会人员的位置分布数据，确定与所述待定位声音信息相匹配的人员的位置信息，具体为：

2.如权利要求1所述的视频会议的画面追踪方法，其特征在于，所述对所述视频会议的图像信息进行图像处理，获得与会人员的位置分布数据，具体为：

3.如权利要求1所述的视频会议的画面追踪方法，其特征在于，所述对所述待定位声音信息进行声音定位处理，获得声音的位置信息，具体为：

4.一种视频会议的画面追踪装置，其特征在于，包括：

全景摄像头，用于采集视频会议的图像信息；

阵列麦克风，用于采集待定位声音信息；

特写摄像头，用于生成所述人员的位置信息对应的特写图像；

所述特写摄像头，还用于通过人脸识别技术，判断特写图像是否存在N个人脸区域；其中，N为大于1的整数；若特写图像存在N个人脸区域时，对特写图像进行预处理，获得讲演者的人脸区域，并输出讲演者的人脸区域对应的特写画面；若特写图像仅存在一个人脸区域时，直接输出人脸区域对应的特写画面；

其中，对特写图像进行预处理，具体为：基于唇动识别技术，从特写画面提取讲演者的人脸区域，获得讲演者的人脸区域；

所述声音位置分析单元，还用于将所述声音的位置信息与所述与会人员的位置分布数据中每一个人员的位置信息进行匹配，获取与所述声音的位置信息相同的人员的位置信息。

5.如权利要求4所述的视频会议的画面追踪装置，其特征在于，所述全景摄像头为短焦的广角镜头。

6.如权利要求4所述的视频会议的画面追踪装置，其特征在于，所述特写镜头为可变倍的光学镜头。