CN113362455B

CN113362455B - 一种视频会议背景虚拟化处理方法和装置

Info

Publication number: CN113362455B
Application number: CN202110675570.0A
Authority: CN
Inventors: 尹志诚
Original assignee: Terminus Technology Group Co Ltd
Current assignee: Terminus Technology Group Co Ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2022-02-15
Anticipated expiration: 2041-06-18
Also published as: CN113362455A

Abstract

本发明公开了一种视频会议背景虚拟化处理方法和装置，涉及三维计算机视觉技术领域，该方法包括获取视频会议的第一声音信息，根据第一深度学习网络模型对其进行标注，获得第一会议内容关键词并据此识别获得第一会议主题集；获取第一会议主题集中一个第一会议主题元素内容后，查询获得与其相匹配的第一背景；根据目标空间定位数据生成目标的最小外接长方体并据此选取第一背景的大小；将选取获得的第一背景和目标空间定位数据进行合成，获得背景虚拟化后的视频会议内容并输出。本发明通过3D TOF测量、目标检测及图像提取技术，可在预设距离范围内以参会者为中心布局定制视频会议显示空间及特色背景，实现智慧屏视频会议的背景虚拟化。

Description

一种视频会议背景虚拟化处理方法和装置

技术领域

本发明涉及三维计算机视觉技术领域，具体涉及一种视频会议背景虚拟化处理方法和装置。

背景技术

随着移动互联网的发展，人们普遍开始从网络上进行视频交流，例如视频会议等。现有的视频会议都是直接将多方会议场景进行实时转播，所以需要将会议背景进行清理，参会者除了能观看到主要参会人员和桌椅等会议场景以外，还有会议背景等影响会议环境的冗余信息。这些背景的显示大大影响了进行视频会议的可移动性和适用范围，所以需要将特定的背景内容替换这些冗余背景，从而可以达到不同的会议效果和目的。例如，增加视频会议背景的趣味性等。

例如，公开号为CN105678724A的中国专利中公开了一种“图像的背景替换方法及装置”，其是基于图像帧的RGB分量，计算出绿色差值，基于绿色差值得到初始背景图像和初始前景图像，再基于环境光因子对背景和前景进行柔化处理，再将待合成的背景图像和经处理的前景图像进行合成。这种方式在分离背景图像和前景图像时，通常无法实现高精度的分离。

发明内容

因此，为了克服上述缺陷，本发明实施例提供一种高精度的视频会议背景虚拟化处理方法和装置。

为此，本发明实施例的一种视频会议背景虚拟化处理方法，包括以下步骤：

获取视频会议的第一预设时间段内的第一声音信息，根据预先构建的第一深度学习网络模型对所述第一声音信息进行标注，获得第一会议内容关键词；

根据所述第一会议内容关键词识别获得第一会议主题集，并输出包含所述第一会议主题集内容的消息；

获取所述消息的应答消息，所述应答消息包含所述第一会议主题集中一个第一会议主题元素内容；

根据所述一个第一会议主题元素，查询获得与其相匹配的第一背景；

获取视频会议的目标空间定位数据；

根据所述目标空间定位数据生成目标的最小外接长方体，以所述最小外接长方体为中心向四周扩大预设距离后所达到的边界作为虚拟背景边界，按照所述虚拟背景边界的大小选取所述第一背景的大小；

将选取获得的所述第一背景和所述目标空间定位数据进行合成，获得背景虚拟化后的视频会议内容并输出。

优选地，采用卷积神经网络或循环神经网络构建第一深度学习网络模型的步骤包括：

收集各种语料，标注每条语料的内容关键词，获得第一训练样本；

用所述第一训练样本训练网络，当网络收敛时，获得所述第一深度学习网络模型。

优选地，根据所述第一会议内容关键词识别获得第一会议主题集的步骤包括：

收集各种会议主题样本料，对其进行聚类，获得相应的分类；

收集各种内容关键词词料，标注可与每个内容关键词对应的会议主题集，获得第二训练样本；

用所述第二训练样本训练第二深度学习网络模型，当网络收敛时，获得所述第二深度学习网络模型。

优选地，所述根据所述一个第一会议主题元素，查询获得与其相匹配的第一背景的步骤包括：

根据所述一个第一会议主题元素，查询预设关系表，所述预设关系表包括一个第一会议主题元素与一个第一背景之间的对应关系或一个第一会议主题元素与两个或两个以上第一背景之间的对应关系；

当查询所得结果为一个第一背景时，获得与一个第一会议主题元素相匹配的第一背景为所述一个第一背景。

优选地，所述根据所述一个第一会议主题元素，查询获得与其相匹配的第一背景的步骤还包括：

当查询所得结果为两个或两个以上第一背景时，输出包含所述两个或两个以上第一背景内容的消息；

获取所述消息的应答消息，所述应答消息包含所述两个或两个以上第一背景的其中一个第一背景内容，获得与一个第一会议主题元素相匹配的第一背景为所述其中一个第一背景。

本发明实施例的一种视频会议背景虚拟化处理装置，包括：智慧交互屏控制系统、显示模块、视频编解码传输模块、3D TOF三维测量模块、图像采集模块和融合处理模块；所述智慧交互屏控制系统分别与显示模块、视频编解码传输模块和融合处理模块连接；所述融合处理模块分别与3D TOF三维测量模块和图像采集模块连接；所述显示模块与视频编解码传输模块连接；

所述智慧交互屏控制系统用于获取视频会议的第一预设时间段内的第一声音信息，根据预先构建的第一深度学习网络模型对所述第一声音信息进行标注，获得第一会议内容关键词；根据所述第一会议内容关键词识别获得第一会议主题集，并输出包含所述第一会议主题集内容的消息；获取所述消息的应答消息，所述应答消息包含所述第一会议主题集中一个第一会议主题元素内容；根据所述一个第一会议主题元素，查询获得与其相匹配的第一背景；获取视频会议的目标空间定位数据；根据所述目标空间定位数据生成目标的最小外接长方体，以所述最小外接长方体为中心向四周扩大预设距离后所达到的边界作为虚拟背景边界，按照所述虚拟背景边界的大小选取所述第一背景的大小；将选取获得的所述第一背景和所述目标空间定位数据进行合成，获得背景虚拟化后的视频会议内容并输出；

所述显示模块用于获取并显示所述智慧交互屏控制系统输出的包含所述第一会议主题集内容的消息，接收第一用户指示消息并根据所述第一用户指示消息生成所述消息的应答消息并输出，所述应答消息包含所述第一会议主题集中一个第一会议主题元素内容；获取并显示所述智慧交互屏控制系统输出的背景虚拟化后的视频会议内容；获取并显示所述视频编解码传输模块输出的视频会议内容；

所述视频编解码传输模块用于获取所述智慧交互屏控制系统输出的背景虚拟化后的视频会议内容，对其进行编码处理后输出；接收网络传送来的视频会议内容，对其进行解码处理后输出；

所述3D TOF三维测量模块主要由3D TOF传感器组成，用于采集会议场景的点云数据并输出；

所述图像采集模块主要由RGB摄像头组成，用于采集会议场景的RGB图像并输出；

所述融合处理模块用于同步获取3D TOF传感器输出的点云数据和RGB摄像头输出的RGB图像；根据所述点云数据和RGB图像，采用SIFT算法进行粗配准，获得第一匹配点对；根据空间约束关系，对所述第一匹配点对进行精配准，获得第二匹配点对；根据所述第二匹配点对训练RBF神经网络，获得所述点云数据和RGB图像之间的对应关系；根据所述点云数据，进行滤波、分割提取处理，获得目标的点云数据；根据所述RGB图像，进行去噪、分割提取处理，获得目标的RGB图像；根据所述点云数据和RGB图像之间的对应关系，将所述目标的点云数据和目标的RGB图像进行融合，获得目标空间定位数据。

优选地，所述智慧交互屏控制系统用于根据所述一个第一会议主题元素，查询获得与其相匹配的第一背景具体包括：

用于根据所述一个第一会议主题元素，查询预设关系表，所述预设关系表包括一个第一会议主题元素与一个第一背景之间的对应关系或一个第一会议主题元素与两个或两个以上第一背景之间的对应关系；当查询所得结果为一个第一背景时，获得与一个第一会议主题元素相匹配的第一背景为所述一个第一背景。

优选地，所述智慧交互屏控制系统用于根据所述一个第一会议主题元素，查询获得与其相匹配的第一背景具体还包括：

用于当查询所得结果为两个或两个以上第一背景时，输出包含所述两个或两个以上第一背景内容的消息；获取所述消息的应答消息，所述应答消息包含所述两个或两个以上第一背景的其中一个第一背景内容，获得与一个第一会议主题元素相匹配的第一背景为所述其中一个第一背景；

所述显示模块还用于获取并显示所述智慧交互屏控制系统输出的包含所述两个或两个以上第一背景内容的消息，接收第二用户指示消息并根据所述第二用户指示消息生成所述消息的应答消息并输出，所述应答消息包含所述两个或两个以上第一背景的其中一个第一背景内容。

本发明实施例的视频会议背景虚拟化处理方法和装置，具有如下优点：

1.通过神经网络对视频会议内容进行自动提取，获得会议主题推荐，并且通过建立与用户之间的互动，用户可自主选择更符合实际需求的会议主题，提高了智能化程度，从而实现了特色背景的AI自适应推荐，实现会议现场的虚拟化布置方案。通过最小外接长方体选取背景大小，以适应不同会议场景中对视觉空间的需求，提升用户体验度。

2.通过3D TOF测量、人体物体目标检测及图像提取技术，可以根据视频会议的内容和主题，在预设距离范围内以参会者为中心布局定制视频会议显示空间及特色背景，实现智慧屏视频会议的背景虚拟化。

附图说明

为了更清楚地说明本发明具体实施方式中的技术方案，下面将对具体实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中视频会议背景虚拟化处理方法的一个具体示例的流程图；

图2为本发明实施例1中视频会议背景虚拟化处理方法的另一个具体示例的流程图；

图3为本发明实施例1中视频会议背景虚拟化处理方法的又一个具体示例的流程图；

图4为本发明实施例2中视频会议背景虚拟化处理装置的一个具体示例的原理框图；

图5为本发明实施例2中视频会议背景虚拟化处理装置的一个具体示例的电路图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，本文所用的术语仅用于描述特定实施例的目的，而并非旨在限制本发明。除非上下文明确指出，否则如本文中所使用的单数形式“一”、“一个”和“该”等意图也包括复数形式。使用“包括”和/或“包含”等术语时，是意图说明存在该特征、整数、步骤、操作、元素和/或组件，而不排除一个或多个其他特征、整数、步骤、操作、元素、组件、和/或其他组合的存在或增加。术语“和/或”包括一个或多个相关列出项目的任何和所有组合。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，本说明书中的某些图式是用于例示方法的流程图。应了解，这些流程图中的每一个方块、及这些流程图中方块的组合可通过计算机程序指令来实施。这些计算机程序指令可加载至一计算机或其他可编程的设备上来形成一机器，以使在所述计算机或其他可编程设备上执行的指令形成用于实施在所述流程图方块中所规定功能的结构。这些计算机程序指令也可储存于一计算机可读存储器中，所述计算机可读存储器可指令一计算机或其他可编程设备以一特定方式工作，以使储存于所述计算机可读存储器中的指令形成一包含用于实施在所述流程图方块中所规定功能的指令结构的制品。所述计算机程序指令也可加载至一计算机或其他可编程设备上，以便在所述计算机或其他可编程设备上执行一系列操作步骤来形成一由计算机实施的过程，从而使在所述计算机或其他可编程设备上执行的指令提供用于实施在所述流程图方块中所规定功能的步骤。

相应地，各流程图中的方块支持用于执行所规定功能的结构的组合及用于执行所规定功能的步骤的组合。还应了解，所述流程图中的每一个方块、及所述流程图中方块的组合可由执行所规定功能或步骤的基于专用硬件的计算机系统、或者专用硬件与计算机指令的组合来实施。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本实施例提供一种视频会议背景虚拟化处理方法，如图1所示，包括以下步骤：

S1、获取视频会议的第一预设时间段内的第一声音信息，根据预先构建的第一深度学习网络模型对所述第一声音信息进行标注，获得第一会议内容关键词；优选地，第一声音信息可采用声音传感器进行采集。

S2、根据所述第一会议内容关键词识别获得第一会议主题集，并输出包含所述第一会议主题集内容的消息；显示模块显示该消息，供用户选择，用户可选择更符合自己需求的所述第一会议主题集的其中一个第一会议主题。

S3、获取所述消息的应答消息，所述应答消息包含所述第一会议主题集中一个第一会议主题元素内容；该一个元素为用户所选择的第一会议主题。

S4、根据所述一个第一会议主题元素，查询获得与其相匹配的第一背景；

S5、获取视频会议的目标空间定位数据；所述目标包括人体和物体，物体例如是桌椅等，所述空间定位数据包括空间位置、形状和大小等。

S6、根据所述目标空间定位数据生成目标的最小外接长方体，以所述最小外接长方体为中心向四周扩大预设距离后所达到的边界作为虚拟背景边界，按照所述虚拟背景边界的大小选取所述第一背景的大小；

S7、将选取获得的所述第一背景和所述目标空间定位数据进行合成，获得背景虚拟化后的视频会议内容并输出。

上述视频会议背景虚拟化处理方法，通过神经网络对视频会议内容进行自动提取，获得会议主题推荐，并且通过建立与用户之间的互动，用户可自主选择更符合实际需求的会议主题，提高了智能化程度，从而实现了特色背景的AI自适应推荐，实现会议现场的虚拟化布置方案。通过最小外接长方体选取背景大小，以适应不同会议场景中对视觉空间的需求，提升用户体验度。

作为一种优选，上述视频会议背景虚拟化处理方法还包括以下步骤：

S8-1、获取视频会议的第二预设时间段内的第二声音信息，根据预先构建的第一深度学习网络模型对所述第二声音信息进行标注，获得第二会议内容关键词；

S8-2、根据所述第二会议内容关键词识别获得第二会议主题集；

S8-3、判断所述第二会议主题集与所述第一会议主题集中元素的相似程度是否大于或等于预设相似程度值；优选地，相似程度可以采用两个会议主题集中相同元素的个数与两个会议主题集内元素的总个数的比值来表示；预设相似程度值可根据实际需求进行设置；当相似程度大于或等于预设相似程度值时，表示在第一、第二预设时间段内视频会议的会议主题没有发生改变，会议背景也不用更换，可维持现状。

S8-4、当相似程度小于预设相似程度值时，表示在第一、第二预设时间段内视频会议的会议主题发生了改变，输出包含所述第二会议主题集内容的消息；

S8-5、获取所述消息的应答消息，所述应答消息包含所述第二会议主题集中一个第二会议主题元素内容；

S8-6、根据所述一个第二会议主题元素，查询获得与其相匹配的第二背景；

S8-7、获取视频会议的目标空间定位数据；

S8-8、根据所述目标空间定位数据生成目标的最小外接长方体，以所述最小外接长方体为中心向四周扩大预设距离后所达到的边界作为虚拟背景边界，按照所述虚拟背景边界的大小选取所述第二背景的大小；

S8-9、将选取获得的所述第二背景和所述目标空间定位数据进行合成，获得背景虚拟化后的视频会议内容并输出。通过将第一、第二预设时间段内会议主题进行相似程度判断，实现了视频会议进行过程中虚拟化背景能随会议主题的改变而AI自适应改变推荐，进一步提高了智能化程度。

作为一种优选，采用卷积神经网络或循环神经网络构建第一深度学习网络模型的步骤包括：

用所述第一训练样本训练网络，当网络收敛时，获得所述第一深度学习网络模型。收敛的条件例如是针对95％以上的第一训练样本，网络输出的内容关键词与标注的相同。

作为一种优选，根据所述第一会议内容关键词识别获得第一会议主题集的步骤包括：

收集各种会议主题样本料，对其进行聚类，获得相应的分类，即各种类别的会议主题集；优选地，聚类可采用K均值聚类算法等。

收集各种内容关键词词料，标注可与每个内容关键词对应的会议主题集，获得第二训练样本；每个内容关键词可反映多个会议主题，从而该多个会议主题构成会议主题集。

用所述第二训练样本训练第二深度学习网络模型，例如是采用卷积神经网络或循环神经网络构建，当网络收敛时，获得所述第二深度学习网络模型。收敛的条件例如是针对95％以上的第二训练样本，网络输出的会议主题集与标注的相同。

作为一种优选，S4的根据所述一个第一会议主题元素，查询获得与其相匹配的第一背景的步骤包括：

S41、根据所述一个第一会议主题元素，查询预设关系表，所述预设关系表包括一个第一会议主题元素与一个第一背景之间的对应关系或一个第一会议主题元素与两个或两个以上第一背景之间的对应关系；

S42、当查询所得结果为一个第一背景时，获得与一个第一会议主题元素相匹配的第一背景为所述一个第一背景；

S43、当查询所得结果为两个或两个以上第一背景时，输出包含所述两个或两个以上第一背景内容的消息；显示模块显示该消息，供用户选择，用户可选择更符合自己需求的所述两个或两个以上第一背景的其中一个第一背景。

S44、获取所述消息的应答消息，所述应答消息包含所述两个或两个以上第一背景的其中一个第一背景内容，获得与一个第一会议主题元素相匹配的第一背景为所述其中一个第一背景；该一个第一背景为用户根据实际需求所选择的。通过设置与第一会议主题相匹配的多个选项的第一背景，即可实现第一背景的全自动推荐，又可实现用户根据多项推荐的自主选择，提高了智能化程度。

作为一种优选，如图2所示，S5的获取视频会议的目标空间定位数据的步骤包括：

S51、同步获取3D TOF传感器输出的点云数据和RGB摄像头输出的RGB图像；

S52、根据所述点云数据和RGB图像，采用SIFT算法进行粗配准，获得第一匹配点对；

S53、根据空间约束关系，对所述第一匹配点对进行精配准，获得第二匹配点对；

S54、根据所述第二匹配点对训练RBF神经网络，获得所述点云数据和RGB图像之间的对应关系；

S55、根据所述点云数据，进行滤波、分割提取处理，获得目标的点云数据；所述目标包括人体和物体，所述物体包括办公桌椅等；

S56、根据所述RGB图像，进行去噪、分割提取处理，获得目标的RGB图像；

S57、根据所述点云数据和RGB图像之间的对应关系，将所述目标的点云数据和目标的RGB图像进行融合，获得目标空间定位数据，所述空间定位数据包括空间位置、形状、大小等。通过结合SIFT算法和空间约束关系，提高了匹配点对的获取精度。通过采用RBF神经网络得出3D TOF传感器输出的点云数据和RGB摄像头输出的RGB图像之间的对应关系，实现两者融合，基于三维信息结合图像信息实现对空间目标的重构，进一步提高了定位精度，能满足复杂条件下环境实时精确感知的要求。通过3D点云和图像融合算法进行目标空间定位，在技术上形成了互补，提高了定位精度。通过对目标人、物体的分割提取，以及定位，大大增加了虚拟背景设计布局的操作空间。

作为一种优选，如图3所示，S52的根据所述点云数据和RGB图像，采用SIFT算法进行粗配准，获得第一匹配点对的步骤包括：

S521、将所述点云数据转换成二维图像；优选地，所述二维图像中的像素值用所述点云数据中的高度值来表示。

S522、采用SIFT算法提取所述二维图像的第一关键点，获得其特征向量F_i ¹，i＝1,2,…,n，n为第一关键点的总数，F_i ¹为一个128维特征向量；

S523、采用SIFT算法提取所述RGB图像的第二关键点，获得其特征向量F_j ²，j＝1,2,…,m，m为第二关键点的总数，F_j ²为一个128维特征向量；

S524、分别计算第一关键点与第二关键点之间的近邻指数Gij，计算公式为：

其中，μ_i为第一关键点特征向量F_i ¹的均值，μ_j为第二关键点特征向量F_j ²的均值，σ_i为第一关键点特征向量F_i ¹的方差，σ_j为第二关键点特征向量F_j ²的方差，σ_ij为第一关键点特征向量F_i ¹和第二关键点特征向量F_j ²的协方差，C₁、C₂、C₃分别为预设常数；

S525、针对每一个第一关键点，选取所有第二关键点中的近邻指数G_ij最大的k个，作为第一关键点的粗配准点，获得第一匹配点对(F_i ¹,F_j ²)，i＝1,2,…，n，j＝1,2,…，k；由于RGB图像的分辨率固定不变，而通过点云数据转换而来的二维图像的分辨率可根据实际需求进行提高或降低的改变，从而利用基于该二维图像提取的第一关键点来搜寻RGB图像提取的第二关键点的方式所获得的粗配准精度也能随着二维图像分辨率的提高而提高，实现了粗配准精度的按需可控调整，扩大了适用范围。

作为一种优选，S53的根据空间约束关系，对所述第一匹配点对进行精配准，获得第二匹配点对的步骤包括：

S531、选出同时满足以下三个空间约束关系的所述第一匹配点对，获得第二匹配点对：

第一匹配点对中的第一关键点与第二关键点之间的像素平移距离小于或等于第一预设值；所述第一预设值可根据实际需求进行设置；

其中，

为第一匹配点对中的任意两对匹配点对，

为二维图像中两个第一关键点连线与水平方向的夹角，

为RGB图像中两个第二关键点连线与水平方向的夹角，ε₁为第二预设值，可根据实际需求进行设置；

其中，

为二维图像中两个第一关键点之间的距离，

为RGB图像中两个第二关键点之间的距离，ε₂为第三预设值，可根据实际需求进行设置。通过三个空间约束关系，从而对不满足该三个空间约束关系的第一匹配点对进行了剔除，对第一匹配点对进行了精配准，提高了配准精度。

作为一种优选，S54的根据所述第二匹配点对训练RBF神经网络，获得所述点云数据和RGB图像之间的对应关系的步骤包括：

S541、构建所述第二匹配点对中的第一关键点特征向量和第二关键点特征向量之间的转换矩阵模型，将第二匹配点对中的第一关键点特征向量作为RBF神经网络的输入，第二匹配点对中的第二关键点特征向量作为RBF神经网络的期望输出，利用输入和期望输出训练RBF神经网络，获得所述转换矩阵模型的各项参数；

S542、将RGB图像中的任一像素点输入训练好的RBF神经网络，获得与所述任一像素点对应的二维图像中的像素点；

S543、根据所述点云数据转换成二维图像的过程的逆过程，获得所述二维图像中的像素点对应的点云数据中的空间位置点，获得所述点云数据和RGB图像之间的对应关系。通过训练RBF神经网络，得出RGB图像与二维图像之间的对应关系，并根据二维图像与点云数据之间的对应关系，最终获得了RGB图像与点云数据之间的对应关系，为后续实现对空间目标的重构建立基础。

作为一种优选，S55的根据所述点云数据，进行滤波、分割提取处理，获得目标的点云数据的步骤包括：

S551、基于所述点云数据，采用半径滤波方法去除离群点，获得滤波点云数据；

S552、对于滤波点云数据，建立其三维的kd-树空间索引；针对滤波点云数据中的每一个空间位置点，利用所述kd-树空间索引求取获得k个最邻近点；对于每一个空间位置点及其k个最邻近点，采用特征值法求取获得其拟合平面的方程，确定出每一个空间位置点的法向量；

S553、根据所述法向量进行分割及区域生长，获得目标的点云数据，即得到目标的三维点云数据，从背景中抓取获得了目标。

作为一种优选，S56的根据所述RGB图像，进行去噪、分割提取处理，获得目标的RGB图像的步骤包括：

S561、在COCO数据集上获取常见目标的模型；

S562、对所述RGB图像进行去噪处理，获得去噪RGB图像；

S563、利用所述常见目标的模型分割所述去噪RGB图像，获得目标的RGB图像，从背景中抓取获得了目标，得到了目标的RGB图像。

作为一种优选，S57的根据所述点云数据和RGB图像之间的对应关系，将所述目标的点云数据和目标的RGB图像进行融合，获得目标空间定位数据的步骤包括：

S571、根据所述点云数据和RGB图像之间的对应关系，将所述目标的RGB图像中每一个像素点的参数赋值给与其对应的目标的点云数据中的空间位置点，对所述目标的点云数据和目标的RGB图像进行融合，获得目标空间定位数据，实现了目标的重构。

作为一种优选，所述将所述目标的RGB图像中每一个像素点的参数赋值给与其对应的目标的点云数据中的空间位置点的步骤包括：

将目标的点云数据中的所有空间位置点增加像素参数项，用于体现空间位置点的颜色；

针对每一个空间位置点，将与其对应的所述目标的RGB图像中的一个像素点的像素值或两个以上像素点的像素值的加权平均值赋值给所述空间位置点的像素参数项的值。

实施例2

本实施例提供一种视频会议背景虚拟化处理装置，如图4所示，包括：智慧交互屏控制系统、显示模块、视频编解码传输模块、3D TOF三维测量模块、图像采集模块和融合处理模块；所述智慧交互屏控制系统分别与显示模块、视频编解码传输模块和融合处理模块连接；所述融合处理模块分别与3D TOF三维测量模块和图像采集模块连接；所述显示模块与视频编解码传输模块连接；

所述视频编解码传输模块用于获取所述智慧交互屏控制系统输出的背景虚拟化后的视频会议内容，对其进行编码处理后输出，供其他视频会议背景虚拟化处理装置进行处理并显示，实现多方会议操作；接收网络传送来的视频会议内容，例如是其他视频会议背景虚拟化处理装置输出的，对其进行解码处理后输出；

所述3D TOF三维测量模块主要由3D TOF传感器组成，用于采集会议场景的点云数据并输出；所述会议场景中包括参会人员和桌椅等场地环境和背景；

上述视频会议背景虚拟化处理装置，通过3D TOF测量、人体物体目标检测及图像提取技术，可以根据视频会议的内容和主题，在预设距离范围内(例如10米范围内)以参会者为中心布局定制视频会议显示空间及特色背景，实现智慧屏视频会议的背景虚拟化。

作为一种优选，所述所述智慧交互屏控制系统还用于获取视频会议的第二预设时间段内的第二声音信息，根据预先构建的第一深度学习网络模型对所述第二声音信息进行标注，获得第二会议内容关键词；根据所述第二会议内容关键词识别获得第二会议主题集；判断所述第二会议主题集与所述第一会议主题集中元素的相似程度是否大于或等于预设相似程度值；优选地，相似程度可以采用两个会议主题集中相同元素的个数与两个会议主题集内元素的总个数的比值来表示；预设相似程度值可根据实际需求进行设置；当相似程度大于或等于预设相似程度值时，表示在第一、第二预设时间段内视频会议的会议主题没有发生改变，会议背景也不用更换，可维持现状。当相似程度小于预设相似程度值时，表示在第一、第二预设时间段内视频会议的会议主题发生了改变，输出包含所述第二会议主题集内容的消息；获取所述消息的应答消息，所述应答消息包含所述第二会议主题集中一个第二会议主题元素内容；根据所述一个第二会议主题元素，查询获得与其相匹配的第二背景；获取视频会议的目标空间定位数据；根据所述目标空间定位数据生成目标的最小外接长方体，以所述最小外接长方体为中心向四周扩大预设距离后所达到的边界作为虚拟背景边界，按照所述虚拟背景边界的大小选取所述第二背景的大小；将选取获得的所述第二背景和所述目标空间定位数据进行合成，获得背景虚拟化后的视频会议内容并输出。通过将第一、第二预设时间段内会议主题进行相似程度判断，实现了视频会议进行过程中虚拟化背景能随会议主题的改变而AI自适应改变推荐，进一步提高了智能化程度。

作为一种优选，所述智慧交互屏控制系统用于根据所述一个第一会议主题元素，查询获得与其相匹配的第一背景具体包括：

用于根据所述一个第一会议主题元素，查询预设关系表，所述预设关系表包括一个第一会议主题元素与一个第一背景之间的对应关系或一个第一会议主题元素与两个或两个以上第一背景之间的对应关系；当查询所得结果为一个第一背景时，获得与一个第一会议主题元素相匹配的第一背景为所述一个第一背景；当查询所得结果为两个或两个以上第一背景时，输出包含所述两个或两个以上第一背景内容的消息；获取所述消息的应答消息，所述应答消息包含所述两个或两个以上第一背景的其中一个第一背景内容，获得与一个第一会议主题元素相匹配的第一背景为所述其中一个第一背景。

所述显示模块还用于获取并显示所述智慧交互屏控制系统输出的包含所述两个或两个以上第一背景内容的消息，接收第二用户指示消息并根据所述第二用户指示消息生成所述消息的应答消息并输出，所述应答消息包含所述两个或两个以上第一背景的其中一个第一背景内容。通过设置与第一会议主题相匹配的多个选项的第一背景，即可实现第一背景的全自动推荐，又可实现用户根据多项推荐的自主选择，提高了智能化程度。

优选地，在硬件上，所述3D TOF传感器采用Sony IMX556工业级VGA像素级TOF传感器模块，所述RGB摄像头采用Sony IMX274高清CMOS传感器模块，以及采用VCSEL面光源驱动模块和瑞芯微自带ISP和2TOPS NPU算力的RV1126SOC芯片模块等组成，各部分的连接关系如图5所示。通过采用RV1126单芯片SOC方案实现，简化了系统电路设计的复杂性，也节省了系统空间，降低了系统成本。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种视频会议背景虚拟化处理方法，其特征在于，包括以下步骤：

获取视频会议的目标空间定位数据；

2.根据权利要求1所述的方法，其特征在于，采用卷积神经网络或循环神经网络构建第一深度学习网络模型的步骤包括：

3.根据权利要求1所述的方法，其特征在于，根据所述第一会议内容关键词识别获得第一会议主题集的步骤包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述一个第一会议主题元素，查询获得与其相匹配的第一背景的步骤包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述一个第一会议主题元素，查询获得与其相匹配的第一背景的步骤还包括：

6.一种视频会议背景虚拟化处理装置，其特征在于，包括：智慧交互屏控制系统、显示模块、视频编解码传输模块、3D TOF三维测量模块、图像采集模块和融合处理模块；所述智慧交互屏控制系统分别与显示模块、视频编解码传输模块和融合处理模块连接；所述融合处理模块分别与3D TOF三维测量模块和图像采集模块连接；所述显示模块与视频编解码传输模块连接；

7.根据权利要求6所述的装置，其特征在于，所述智慧交互屏控制系统用于根据所述一个第一会议主题元素，查询获得与其相匹配的第一背景具体包括：

8.根据权利要求7所述的装置，其特征在于，所述智慧交互屏控制系统用于根据所述一个第一会议主题元素，查询获得与其相匹配的第一背景具体还包括：