CN112367495B

CN112367495B - 一种基于多摄像头的图像处理系统及方法

Info

Publication number: CN112367495B
Application number: CN202110039411.1A
Authority: CN
Inventors: 沈玉勤; 焦显伟
Original assignee: Beijing Telecom Easiness Information Technology Co Ltd
Current assignee: Beijing Telecom Easiness Information Technology Co Ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-04-13
Anticipated expiration: 2041-01-13
Also published as: CN112367495A

Abstract

本发明涉及一种基于多摄像头的图像处理系统及方法，属于图像处理技术领域；首先根据声纹定位模块确定发言人具体位置，然后通过现实增强模块调整激光投影方式，使激光光斑的中心与发言人位置重合，以降低图像处理的复杂度，最后利用图像采集处理采集发言人的图像数据，处理后得到发言人正面视角图像。

Description

一种基于多摄像头的图像处理系统及方法

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于多摄像头的图像处理系统及方法。

背景技术

网络的发展为视频会议提供了便捷，一个备受关注的功能是场景内发言者的精准定位，以及对发言者特写镜头的平滑切换。对于视频会议摄像头输出的视频来说，最佳的体验是只需关注当前发言者的特写区域，给观看摄像头输出视频的人更清晰，更直观的感受，就好像与发言者在近距离沟通。

现有的方案是设置多台摄像头，做到不同发言者之间的特写画面切换的功能，但这种切换功能基本是通过人工的方式实现的。浪费人力，而且当发言人所处位置，不在摄像头的理想拍摄范围时，无法到达特写镜头采集的效果。

发明内容

本发明的目的是提供一种基于多摄像头的图像处理系统及方法，根据发言人的位置自动调整摄像头，并且能在摄像头无法独立获取完整发言人正面视角图像时，通过多个摄像头采集图像的拼接，还原发言人正面视角图像。

为实现上述目的，本发明提供了如下方案：

一种基于多摄像头的图像处理系统，所述图像处理系统包括：

声纹定位模块，用于通过采集发言人的声音到达多个麦克风的时间，确定发言人位置；

现实增强模块与所述声纹定位模块连接，用于根据所述发言人位置调整激光投影方式；

图像采集处理模块与所述现实增强模块连接，用于采集所述发言人的图像数据，并对所述图像数据处理得到发言人正面视角图像。

可选的，所述声纹定位模块包括：第一同步器、多个麦克风和运算处理器；所述麦克风的数量至少为4个；

所述第一同步器，用于生成同步信号，使所述多个麦克风工作在同一个时钟体系下；

所述多个麦克风，用于采集发言人的声音到达相应麦克风的时间；

运算处理器，用于根据任意四个麦克风的位置坐标，以及发言人的声音到达所选麦克风的时间，利用

解析得到所述发言人位置（x，y，z）；

其中，（ Xa，Ya，Za）为麦克风a的位置坐标，（ Xb，Yb，Zb）为麦克风b的位置坐标，（Xc，Yc，Zc）为麦克风c的位置坐标，（ Xd，Yd，Zd）为麦克风d的位置坐标，Tba为发言人的声音到达麦克风b和麦克风a的时间差，Tca为声音到达麦克风c和麦克风a的时间差，Tda为声音到达麦克风d和麦克风a的时间差，V为声音的传播速度。

可选的，所述现实增强模块包括多个激光光斑投影装置，所述多个激光光斑投影装置用于根据发言人位置调整所述多个激光光斑投影装置的投影方式，使激光光斑的中心位于所述发言人位置。

可选的，所述图像采集处理模块包括：

多个摄像头，用于采集发言人的图像数据；

第二同步器，用于生成同步信号，使所述多个摄像头工作在同一个时钟体系下；

激光光斑提取单元，用于提取图像数据的激光光斑；

图像特征提取单元，用于根据所述激光光斑提取所述发言人的人脸特征；

图像三维重建单元，用于以所述激光光斑的信息为初始值，根据所述发言人的人脸特征进行三维重建，得到三维重建结果；

图像生成单元，用于对所述三维重建结果调整，生成所述发言人正面视角图像。

可选的，所述激光光斑投影装置在使用前先进行标定，标定内容包括激光光斑投影装置的安装位置标定和安装方向标定；

所述激光光斑投影装置的安装位置标定方法为：利用全站仪类的测量设备对所述激光光斑投影装置的位置进行测量，得到相应的安装位置；

所述激光光斑投影装置的安装方向标定方法为：使所述激光光斑投影装置的激光光斑投射在开阔面上；利用全站仪类的测量设备测量激光光斑的位置；根据所述安装位置和所述激光光斑的位置得到激光光斑投影装置的初始方向，完成安装方向标定。

可选的，所述摄像头在使用前需要进行标定，标定内容包括摄像头内参和摄像头外参；

所述摄像头内参包括图像畸变参数，所述摄像头内参通过标定板进行标定；

所述摄像头外参包括摄像头的安装位置和摄像头的角度，所述摄像头外参的标定通过全站仪类的测量设备测量标定。

可选的，所述图像采集处理模块还包括：

图像色彩校正单元，用于对图像生成单元生成所述发言人正面视角图像进行色彩校正。

一种基于多摄像头的图像处理方法，所述图像处理方法包括：

采集发言人的声音到达多个麦克风的时间；

根据所述发言人的声音到达多个麦克风的时间确定发言人位置；

根据所述发言人位置调整激光投影方式；

控制多个摄像头采集发言人在激光投影下的图像数据；

对所述图像数据处理得到发言人正面视角图像。

可选的，所述根据所述发言人的声音到达多个麦克风的时间确定发言人位置，具体包括：

利用第一同步器生成同步信号，使所述多个麦克风工作在同一个时钟体系下；

所述多个麦克风采集发言人的声音到达相应麦克风的时间；

解析得到所述发言人位置（x，y，z）；

可选的，所述对所述图像数据处理得到发言人正面视角图像，具体包括：

控制第二同步器生成同步信号，使所述多个摄像头工作在同一个时钟体系下；

获取发言人在激光投影下的图像数据；

提取所述图像数据的激光光斑；

根据所述激光光斑提取所述发言人的人脸特征；

以所述激光光斑的信息为初始值，根据所述发言人的人脸特征进行三维重建，得到三维重建结果；

对所述三维重建结果调整，生成所述发言人正面视角图像。

据本发明提供的具体实施例，本发明公开了以下技术效果：通过现实增强模块调整激光投影方式，使激光光斑的中心与发言人位置重合，以降低图像处理的复杂度；并且可以根据发言人的位置自动调整摄像头，并且能在摄像头无法独立获取完整发言人正面视角图像时，通过多个摄像头采集图像的拼接，还原发言人正面视角图像，减少了人工消耗，也避免了人工操作引起的误差较大的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于多摄像头的图像处理系统示意图；

图2为本发明提供的基于多摄像头的图像处理方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书以及上述附图中的术语“第一”、“第二”、“第三”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应当理解，这样描述的对象在适当情况下可以互换。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

在本专利文档中，下文论述的附图以及用来描述本发明公开的原理的各实施例仅用于说明，而不应解释为限制本发明公开的范围，所属领域的技术人员将理解，本发明的原理可在任何适当布置的系统中实施。将详细说明示例性实施方式，在附图中示出了这些实施方式的实例。此外，将参考附图详细描述根据示例性实施例的终端。附图中的相同附图标号指代相同的元件。

本发明说明书中使用的术语仅用来描述特定实施方式，而并不意图显示本发明的概念。除非上下文中有明确不同的意义，否则，以单数形式使用的表达涵盖复数形式的表达。在本发明说明书中，应理解，诸如“包括”、“具有”以及“含有”等术语意图说明存在本发明说明书中揭示的特征、数字、步骤、动作或其组合的可能性，而并不意图排除可存在或可添加一个或多个其他特征、数字、步骤、动作或其组合的可能性。附图中的相同参考标号指代相同部分。

本发明的目的是提供一种基于多摄像头的图像处理系统及方法，可高度准确还原发言者的图像信息。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，为本发明提供的基于多摄像头的图像处理系统示意图，该图像处理系统包括：声纹定位模块10、现实增强模块20和图像采集处理模块30。

声纹定位模块10用于通过采集发言人的声音到达多个麦克风的时间，确定发言人位置。

现实增强模块20与声纹定位模块10连接，现实增强模块20用于根据发言人位置调整激光投影方式。

图像采集处理模块30与现实增强模块20连接，图像采集处理模块30用于采集发言人的图像数据，并对图像数据处理得到发言人正面视角图像。

本发明在确定发言人位置的基础上调整激光投影方式，然后才采集并处理发言人在激光投影下的图像数据，得到发言人正面视角图像，可以更加真实准确的还原发言人的正面视角图像。

具体的，声纹定位模块10包括：第一同步器101、多个麦克风102和运算处理器103；麦克风的数量至少为4个。

麦克风在使用前需要先进行标定，标定内容为麦克风的安装位置，也就是麦克风的位置坐标，可以通过全站仪类的测量设备进行测量。

本发明以4个麦克风为例说明定位的过程。麦克风在采集声音信息时，还将标记该声音的到来时间。根据麦克风编号（编号a、b、c、d等）的不同，标记为ta、tb、tc、td等，其中ta为信号到达编号a麦克风的时间，其中tb为信号到达编号b麦克风的时间，以此类比。

第一同步器101用于生成同步信号，使多个麦克风102工作在同一个时钟体系下。

多个麦克风102用于采集发言人的声音到达相应麦克风的时间。

解析得到所述发言人位置（x，y，z）；

现实增强模块20包括多个激光光斑投影装置201，具体为La、Lb、Lc……，多个激光光斑投影装置201用于根据发言人位置调整多个激光光斑投影装置的投影方式，使激光光斑的中心位于发言人位置，降低图像处理的复杂度。激光为红外非可见光。

激光光斑投影装置在使用前先进行标定，标定内容包括激光光斑投影装置的安装位置标定和安装方向标定。

激光光斑投影装置的安装位置标定方法为：利用全站仪类的测量设备对激光光斑投影装置La、Lb、Lc……的位置进行测量，得到相应的安装位置La1、Lb1、Lc1……。

激光光斑投影装置的安装方向标定方法为：使激光光斑投影装置的激光光斑投射在开阔面上，便于测量，如墙面、桌面、天花板等；利用全站仪类的测量设备测量激光光斑的位置La2、Lb2、Lc2……；根据安装位置La1、Lb1、Lc1……和激光光斑的位置La2、Lb2、Lc2……得到激光光斑投影装置的初始方向，完成安装方向标定。在测量过程中，因红外线的不可见特性，需配合红外夜视仪进行测量。

激光光斑投影装置201的控制电机可以控制激光光斑上下、左右移动。

图像采集处理模块30包括：多个摄像头301、第二同步器302、激光光斑提取单元303、图像特征提取单元304、图像三维重建单元305、图像生成单元306和图像色彩校正单元307。

摄像头301用于采集图像数据，拥有变焦能力，拥有可上下、左右调整视角的云台，在使用前需要进行标定，标定内容包括摄像头内参和摄像头外参。

摄像头内参包括图像畸变参数，摄像头内参通过标定板进行标定。

摄像头外参包括摄像头的安装位置和摄像头的角度，摄像头外参的标定通过全站仪类的测量设备测量标定。

多个摄像头301用于采集发言人的图像数据。

第二同步器302用于生成同步信号，使多个摄像头工作在同一个时钟体系下。

激光光斑提取单元303用于提取图像数据的激光光斑，并将其作为第一特征点。提取过程中，优先选择发言人位置及附近的图像信息。

图像特征提取单元304用于从第一特征点附近提取发言人的人脸特征，其作为第二特征点。

图像三维重建单元305用于以第一特征点信息为初始值，根据第二特征点信息三维重建，得到三维重建结果。三维重建算法可以选择Shape from Template或Face2Face。

图像生成单元306用于对三维重建结果调整，生成发言人正面视角图像。

因在图像特征采集过程中，引入了激光光斑，光斑会对图像的相应像素产生色彩上的影响，因此增加图像色彩校正单元307，用于对图像生成单元生成发言人正面视角图像进行色彩校正，消除激光光斑的色彩，恢复图像的正常形态。

如图2所示，为本发明提供的与基于多摄像头的图像处理系统相应的处理方法流程示意图，该图像处理方法具体包括：

步骤1：采集发言人的声音到达多个麦克风的时间。

步骤2：根据发言人的声音到达多个麦克风的时间确定发言人位置。

步骤3：根据发言人位置调整激光投影方式。

步骤4：控制多个摄像头采集发言人在激光投影下的图像数据。

步骤5：对图像数据处理得到发言人正面视角图像。

步骤1具体包括：

步骤101：利用第一同步器生成同步信号，使多个麦克风工作在同一个时钟体系下。

步骤102：多个麦克风采集发言人的声音到达相应麦克风的时间。

步骤103：运算处理器，用于根据任意四个麦克风的位置坐标，以及发言人的声音到达所选麦克风的时间，利用

解析得到所述发言人位置（x，y，z）；

步骤5具体包括：

步骤501：控制第二同步器生成同步信号，使多个摄像头工作在同一个时钟体系下。

步骤502：获取发言人在激光投影下的图像数据。

步骤503：提取图像数据的激光光斑。

步骤504：根据激光光斑提取发言人的人脸特征。

步骤505：以激光光斑的信息为初始值，根据发言人的人脸特征进行三维重建，得到三维重建结果。三维重建算法可以选择Shape from Template或Face2Face。

步骤506：对三维重建结果调整，生成发言人正面视角图像。

根据本发明提供的基于多摄像头的图像处理系统及方法，同样也可以将方案理解为：

S1：完成麦克风、激光光斑投影装置、摄像头的标定工作，在系统中标识出会议室的中心区域，一般为会议室中心的桌子。

S2：发言人讲话，声纹定位模块确定发言人的位置，并生成发言人的中轴线。中轴线为以发言人位置为起点、以会议室中心区域为终点的有向线段。

S3：根据发言人位置选择不同的处理逻辑。

S3_1：若发言人的位置可以通过某一摄像头直接采集到正面视角（特写镜头），直接选择该摄像头的图像数据，跳转至S6流程结束。

S3_2：若发言人的位置不能通过合适的摄像头采集正面视角，则选择摄像头中的所有可以拍摄到部分正面的摄像头，同时进入S4处理流程。

S4：根据发言人位置，现实增强模块调用激光光斑投影装置，在发言人的中轴线上发射激光，需最少产生的两个激光光斑。激光光斑投影装置与摄像头联动，根据需求生成或取消。

S5：图像采集处理模块采集处理所有图像数据，具体包括：

S5_1：激光光斑提取单元从采集到的图像中，以发言人的中轴线为基准，在附近提取激光光斑，并将其作为第一特征点。

S5_2：图像特征提取单元从发言人位置附近，提取人脸特征作为第二特征点。

S5_3：图像三维重建单元以第一特征点信息为初始值，根据第二特征点信息进行三维重建，三维重建算法一般为Shape from Template或Face2Face。

S5_4：图像生成单元以三维重建后的结果为基础，生成发言人正面视角下的图像。

S5_5：图像色彩校正单元对图像生成单元生成的发言人正面视角下的图像进行色彩校正。图像色彩校正单元消除激光光斑的色彩，恢复图像的正常形态。此时S4步骤中的激光停止发射，图像色彩校正单元根据没有激光的图像信息，获得其原激光光斑覆盖区域的色彩信息，并用该信息对图像生成单元生成的发言人正面视角下的图像进行色彩替换。

S6：流程结束。

本发明通过现实增强模块调整激光投影方式，使激光光斑的中心与发言人位置重合，以降低图像处理的复杂度；并且可以根据发言人的位置自动调整摄像头，并且能在摄像头无法独立获取完整发言人正面视角图像时，通过多个摄像头采集图像的拼接，还原发言人正面视角图像，减少了人工消耗，也避免了人工操作引起的误差较大的问题。

本说明书中实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言，由于其与实施例公开的系统相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多摄像头的图像处理系统，其特征在于，所述图像处理系统包括：

所述现实增强模块包括多个激光光斑投影装置，所述多个激光光斑投影装置用于根据发言人位置调整所述多个激光光斑投影装置的投影方式，使激光光斑的中心位于所述发言人位置；

图像采集处理模块与所述现实增强模块连接，用于采集所述发言人的图像数据，并对所述图像数据处理得到发言人正面视角图像；

所述图像采集处理模块包括：

多个摄像头，用于采集发言人的图像数据；

激光光斑提取单元，用于提取图像数据的激光光斑；

图像生成单元，用于对所述三维重建结果调整，生成所述发言人正面视角图像；

图像色彩校正单元，用于对图像生成单元生成发言人正面视角图像进行色彩校正，消除激光光斑的色彩，恢复图像的正常形态。

2.根据权利要求1所述的基于多摄像头的图像处理系统，其特征在于，所述声纹定位模块包括：第一同步器、多个麦克风和运算处理器；所述麦克风的数量至少为4个；

解析得到所述发言人位置（x，y，z）；

其中，（ Xa，Ya，Za）为麦克风a的位置坐标，（ Xb，Yb，Zb）为麦克风b的位置坐标，（ Xc， Yc，Zc）为麦克风c的位置坐标，（ Xd，Yd，Zd）为麦克风d的位置坐标，Tba为发言人的声音到达麦克风b和麦克风a的时间差，Tca为声音到达麦克风c和麦克风a的时间差，Tda为声音到达麦克风d和麦克风a的时间差，V为声音的传播速度。

3.根据权利要求1所述的基于多摄像头的图像处理系统，其特征在于，所述激光光斑投影装置在使用前先进行标定，标定内容包括激光光斑投影装置的安装位置标定和安装方向标定；

4.根据权利要求1所述的基于多摄像头的图像处理系统，其特征在于，所述摄像头在使用前需要进行标定，标定内容包括摄像头内参和摄像头外参；

5.一种基于多摄像头的图像处理方法，其特征在于，所述图像处理方法包括：

采集发言人的声音到达多个麦克风的时间；

根据所述发言人位置调整激光投影方式；

控制多个摄像头采集发言人在激光投影下的图像数据；

对所述图像数据处理得到发言人正面视角图像；

所述对所述图像数据处理得到发言人正面视角图像，具体包括：

获取发言人在激光投影下的图像数据；

提取所述图像数据的激光光斑；

根据所述激光光斑提取所述发言人的人脸特征；

对所述三维重建结果调整，生成所述发言人正面视角图像；

对图像生成单元生成发言人正面视角图像进行色彩校正，消除激光光斑的色彩，恢复图像的正常形态。

6.根据权利要求5所述的基于多摄像头的图像处理方法，其特征在于，所述根据所述发言人的声音到达多个麦克风的时间确定发言人位置，具体包括：

所述多个麦克风采集发言人的声音到达相应麦克风的时间；

解析得到所述发言人位置（x，y，z）；