CN118018678B

CN118018678B - 基于数字孪生的视频会议重构方法、装置及系统

Info

Publication number: CN118018678B
Application number: CN202410429077.4A
Authority: CN
Inventors: 请求不公布姓名; 林实立
Original assignee: Beijing Yuntian Fantasy Information Technology Co ltd; Shenzhen Yuntian Changxiang Information Technology Co ltd
Current assignee: Beijing Yuntian Fantasy Information Technology Co ltd; Shenzhen Yuntian Changxiang Information Technology Co ltd
Priority date: 2024-04-10
Filing date: 2024-04-10
Publication date: 2024-07-05
Anticipated expiration: 2044-04-10
Also published as: CN118018678A

Abstract

本发明公开了基于数字孪生的视频会议重构方法、装置及系统，实时监控采集视频会议的每个发言人的行为信号，并从行为信号中提取音频信号，基于音频信号获取时间‑音频二维空间数组；通过数字孪生技术形成匹配每个发言人的数字人，搭建视频会议虚拟场景；重构孪生音频数据，将所有发言人的时间‑音频二维空间数组按照时序依次顺次排列在孪生时间序列上，以形成一个集成所有发言人的时间‑音频孪生数组，并分区标记不同音频分段对应的发言人信息；将不同音频分段标记的发言人信息分别与每个发言人的数字人进行集成，形成孪生动态可视化的视频会议视频；本发明能够记录完整的会议内容。

Description

基于数字孪生的视频会议重构方法、装置及系统

技术领域

本发明涉及视频会议技术领域，具体涉及基于数字孪生的视频会议重构方法、装置及系统。

背景技术

数字孪生是充分利用物理模型、传感器更新、运行历史等数据，集成多学科、多物理量、多尺度、多概率的仿真过程，在虚拟空间中完成映射，从而反映相对应的实体装备的全生命周期过程。

现有对于视频会议的记录大多为个人撰写，记录内容比较分散，且不易复盘完整的会议内容（如发言人的发言顺序以及每个发言人的具体发言内容），更不容易将完整的会议内容进行保存，对于一些比较重要性的会议来说，现有技术中还没有涉及到如何完整的将视频会议内容重现的技术方案。

发明内容

本发明的目的在于提供基于数字孪生的视频会议重构方法、装置及系统，以解决现有技术中没有涉及到如何完整的将视频会议内容重现的方案的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

基于数字孪生的视频会议重构方法、装置及系统，包括以下步骤：

实时监控采集视频会议的每个发言人的行为信号，并从所述行为信号中提取音频信号，基于所述音频信号获取时间-音频二维空间数组；

通过数字孪生技术形成数字人，搭建视频会议虚拟场景，且将数字人集成到所述视频会议虚拟场景内；

重构孪生音频数据，将所有发言人的时间-音频二维空间数组按照时序依次顺次无重叠排列在孪生时间序列上，以形成一个集成所有发言人的时间-音频孪生数组，并分区标记不同音频分段对应的发言人信息；

将不同音频分段标记的发言人信息分别与每个所述发言人的数字人进行集成，使得所述视频会议虚拟场景内的每个发言人按照原始发言顺序依次发言，形成按照所述视频会议还原的动态可视化孪生视频会议。

作为本发明的一种优选方案，将所有发言人的时间-音频二维空间数组按照时序依次顺次排列在孪生时间序列上的实现方式为：

从每个发言人的时间-音频二维空间数组中获取具有音频数据的音频分段；

将所有发言人的音频分段对应的持续时间进行对比，标记所述发言人的持续时间存在重叠时域的音频分段，对存在重叠时域的所述音频分段进行解析降噪，使得降噪后的音频分段仅包含每个发言人的音频数据；

将存在重叠时域的音频分段根据所述音频分段的起始时间的差异分为参照对象和判定目标，且所述参照对象的起始时间早于所述判定目标的起始时间，存在重叠时域的音频分段作为延时因子，将所述判定目标的重叠时域的音频数据以独立排列方式排列在孪生时间序列上；

将所有发言人的所述音频分段依次按照时序顺序和时序间隔排列在孪生时间序列上，形成一个集成所有发言人的时间-音频孪生数组。

作为本发明的一种优选方案，对存在重叠时域的所述音频分段进行解析降噪的实现方式为：

获取所有发言人的时间-音频二维空间数组，且统计每个所述发言人的存在音频数据对应的音频分段，并统计该音频分段的持续时间；

以每个所述发言人的音频分段进行快速傅里叶变换，得到频域特征，依设定滤波器对每个所述发言人的音频分段进行降噪，以滤除与其他发言人的音频分段存在重叠时域的音频数据，以使得降噪后的音频分段仅包含每个发言人的音频数据。

作为本发明的一种优选方案，所述判定目标的重叠时域的音频数据以独立排列方式排列在孪生时间序列上的实现方式为：

判断存在重叠时域的音频数据的所述参照对象与所述判定目标的持续时间之间的包含关系，基于包含关系来调整所述参照对象与所述判定目标的音频分段在所述孪生时间序列上的编码时序。

作为本发明的一种优选方案，判断存在重叠时域的音频数据的所述参照对象与所述判定目标的持续时间之间的包含关系时，以两个所述发言人的音频分段进行依次循环对比，具体的实现方式为：

以音频分段的起始时间进行对比，将起始时间靠前的所述音频分段作为参照对象，并确定参照对象的音频分段的持续时间；

基于每个音频分段的持续时间，从其他的发言人的音频分段中筛选出与参照对象在音频重叠的音频分段；

筛选出与参照对象在音频重叠的音频分段中选择起始时间相对靠前的所述音频分段作为判定对象，根据所述判定对象与所述参照对象对应的音频分段的持续时间之间的包含关系，来选定将所述判定对象编码至重构的所述孪生时间序列上的时序坐标；

以判定目标作为参照对象，重复上述步骤，以所述判定目标重构的时序坐标作为参考值，确定与该判定目标存在音频重叠的音频分段在所述孪生时间序列上的时序坐标。

作为本发明的一种优选方案，根据所述判定对象与所述参照对象的音频分段的持续时间之间的包含关系，来选定对所述判定对象编码至重构的所述孪生时间序列内的时序坐标的具体实现方法为：

当存在重叠时域的音频分段的持续时间为交叉关系时，则将所述判定对象的音频分段解析后添加在所述参照对象的音频分段后面，使得所述判定对象的音频分段的时序坐标值大于所述参照对象的音频数据的时序坐标值；

当判定对象的音频分段的持续时间被包含在所述参照对象的音频分段的持续时间时，则进一步将所述判定对象的音频分段的持续时间的最大时序坐标值与所述参照对象的音频分段的持续时间的最大时序坐标值进行对比，根据对比结果确定所述判定对象的时序坐标。

作为本发明的一种优选方案，设定时序差值阈值T，并获取所述判定对象的持续时间的最大时序坐标值与所述参照对象的持续时间的最大时序坐标值的差值，将该差值与时序差值阈值T进行对比；

若差值大于时序差值阈值T，则将所述参照对象的音频分段以所述判定对象的持续时间的起始点和结束点作为分割点，将所述参照对象的音频数据拆分为两段音频数据，并在重构的孪生时间序列内将所述判定对象的音频数据以顺次排列方式插入至所述参照对象被拆分的两段音频数据之间；

若差值小于等于时序差值阈值T，则将所述判定对象的音频数据排列在所述参照对象的音频数据的后段。

作为本发明的一种优选方案，将所述时间-音频孪生数组与发言人信息之间构建二维空间映射关系，使得所述时间-音频孪生数组以所述发言人信息划分为不同的音频数块；

以每个所述音频数块的发言人信息为媒介，从所述视频会议虚拟场景中选择对应的数字人，以使得音频和视频同步。

进一步的，本发明还提供了基于数字孪生的视频会议记录的三维场景重构方法的装置，包括：

前端监控组件，用于实时监控采集视频会议的每个发言人的行为信号；

数据处理中心，与所述前端监控组件通讯连接，用于获取所述前端监控组件的采集数据，并通过数字孪生构建虚拟视频会议三维场景。

进一步的，本发明还提供了基于数字孪生的视频会议记录的三维场景重构方法的系统，包括：

前端监控模块，用于实时监控采集视频会议的每个发言人的行为信号；

数据解析模块，用于从所述行为信号中提取音频信号，并生成时间-音频二维空间数组；

三维场景搭建模块，采用数字孪生技术形成与每个发言人对应的数字人，且搭建三维虚拟会议场景，并将数字人融合到虚拟会议场景内；

音频孪生处理模块，将所有发言人的时间-音频二维空间数组经过处理后集成到一个重构的孪生时间序列内，形成一个集成所有发言人的时间-音频孪生数组；

音视频融合模块，用于将所述音频孪生处理模块与所述三维场景搭建模块进行融合，以形成以时间作为变量的三维虚拟视频会议记录；

数据储存模块，用于将三维虚拟视频会议记录的构建数据保存。

本发明与现有技术相比较具有如下有益效果：

本发明在每个发言人所处空间内设置信息采集组件，主要用于采集发言人的人体形象作为视频信号，采集发言人的发言内容作为音频信号，通过对视频信号进行数据处理和数字孪生技术，将所有发言人融合到一个面对面的虚拟会议场景内，同时对音频信号进行数据处理和数字孪生技术，以使得各个不同的发言人的音频数据集成到一个重构的孪生时间序列，生成时间-音频孪生数组，因此每个发言人的音频数据（即发言内容）按照时间顺序依次排列，从而可以将时间-音频孪生数组与虚拟会议场景进行融合，来形成孪生动态可视化的视频会议视频，因此利用数字孪生技术，为现实物理空间内的视频会议搭建虚拟三维会议场景，一方面为第三方提供能够更加动态直观的面对面的会议场景，另一方面，还能够记录完整的会议内容，包括发言人、发言人的发言顺序以及每个发言人的发言内容。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的基于数字孪生的视频会议重构方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了基于数字孪生的视频会议重构方法，包括以下步骤：

步骤1：实时监控采集视频会议的每个发言人的行为信号，并从所述行为信号中提取音频信号，基于所述音频信号获取时间-音频二维空间数组；

步骤2：通过数字孪生技术形成数字人，搭建视频会议虚拟场景，且将数字人集成到所述视频会议虚拟场景内；

步骤3：重构孪生音频数据，将所有发言人的时间-音频二维空间数组按照时序依次顺次无重叠排列在孪生时间序列上，以形成一个集成所有发言人的时间-音频孪生数组，并分区标记不同音频分段对应的发言人信息；

步骤4：将不同音频分段标记的发言人信息分别与每个所述发言人的数字人进行集成，使得所述视频会议虚拟场景内的每个发言人按照原始发言顺序依次发言，形成按照所述视频会议还原的动态可视化孪生视频会议。

现有对于视频会议的记录大多为个人撰写，记录内容比较分散，且不易将完整的会议内容（如发言人以及与发言人的具体发言内容）保存，对于一些比较重要性的会议来说，现有技术中没有涉及到如何完整的将视频会议内容重现的方案。

而本实施方式利用数字孪生技术，为现实物理空间内的视频会议搭建虚拟三维会议场景，一方面为第三方提供能够更加动态直观的面对面的会议场景，另一方面，还能够记录完整的会议内容，包括发言人、发言人的发言顺序以及每个发言人的发言内容。

具体的实现方式为：

在每个发言人所处空间内设置信息采集组件，主要用于采集发言人的人体形象作为视频信号，采集发言人的发言内容作为音频信号。

通过对视频信号进行数据处理和数字孪生技术，将所有发言人融合到一个面对面的虚拟会议场景内，同时对音频信号进行数据处理和数字孪生技术，以使得各个不同的发言人的音频数据集成到一个重构的孪生时间序列，生成时间-音频孪生数组，因此每个发言人的音频数据（即发言内容）按照时间顺序依次排列，从而可以将时间-音频孪生数组与虚拟会议场景进行融合，来形成孪生动态可视化的视频会议视频。

其中，步骤1和步骤2的内容，通过现有技术可以实现，在本实施方式中不做赘述，其中，在步骤2中，通过数字孪生技术形成数字人时，主要生成对应每个发言人的数字人，在形成孪生的视频会议时，该数字人并不重复复制发言人的动作行为，仅仅作为一个集成所有发言人的会议场景中的发言人，而作为本实施方式的重点发明内容，在步骤3中，将所有发言人的时间-音频二维空间数组按照时序依次顺次排列在孪生时间序列上的实现方式为：

（1）从每个发言人的时间-音频二维空间数组中获取具有音频数据的音频分段；

（2）将所有发言人的音频分段对应的持续时间进行对比，标记发言人的持续时间存在重叠时域的音频分段，对存在重叠时域的音频分段进行解析降噪，使得降噪后的音频分段仅包含每个发言人的音频数据；

（3）将存在重叠时域的音频分段根据音频分段的起始时间的差异分为参照对象和判定目标，且参照对象的起始时间早于判定目标的起始时间，存在重叠时域的音频分段作为延时因子，将判定目标的重叠时域的音频数据以独立排列方式排列在孪生时间序列上；

（4）将所有发言人的音频分段依次按照时序顺序和时序间隔排列在孪生时间序列上，形成一个集成所有发言人的时间-音频孪生数组。

在本实施方式中，不仅仅实现了通过数字孪生完成对现实物理空间的视频会议的完整会议内容记录，同时还对会议内容的音频数据进行处理，使得不同发言人存在交叉发言的时段进行拆分，并重新按照时序排列在孪生时间序列上，从而保证每个发言人的发言信息的完整性，实现了降噪工作，并保留了每个发言人的发言内容，同时由于所有发言人的音频分段依次按照时序顺序排列在孪生时间序列上，形成一个集成所有发言人的时间-音频孪生数组，因此时间-音频孪生数组在语音输出的流畅度和响应速度快，提高孪生动态可视化的视频会议视频的响应和鲁棒性。

在实际的视频会议中，经常存在其中一个发言人没有发言完毕时，另一个发言人开始发言，导致从每个发言人的时间-音频二维空间数组中获取具有音频数据的音频分段的持续时间，存在重叠时域，且发言人的音频分段由于存在重叠时域，导致该重叠食欲对应的音频分段存在噪声，因此为了方便第三方观看该视频会议，本实施方式在孪生动态可视化的视频会议视频时，对对存在重叠时域的音频分段进行解析降噪，从而保证每个发言人的时间-音频二维空间数组中仅包含该发言人本身的发言内容。

具体的，对存在重叠时域的音频分段进行解析降噪的实现方式为：

获取所有发言人的时间-音频二维空间数组，且统计每个发言人的存在音频数据对应的音频分段，并统计该音频分段的持续时间；

以每个发言人的音频分段进行快速傅里叶变换，得到频域特征，依设定滤波器对每个发言人的音频分段进行降噪，以滤除与其他发言人的音频分段存在重叠时域的音频数据，以使得降噪后的音频分段仅包含每个发言人的音频数据。

进一步的，判定目标的重叠时域的音频数据以独立排列方式排列在孪生时间序列上的实现方式为：

判断存在重叠时域的音频数据的参照对象与判定目标的持续时间之间的包含关系，基于包含关系来调整参照对象与判定目标的音频分段在孪生时间序列上的编码时序。

还需要特别说明的是，本实施方式将所有发言人的音频分段依次按照时序顺序排列在孪生时间序列上，形成的优势为：

每个发言人对应一个时间-音频二维空间数组，将不同发言人的音频数据先对存在重叠时域的音频分段的处理，然后将处理后形成的音频数块依次按照时序顺序排列在孪生时间序列上，相当于先将每个时间-音频二维空间数组拆解，然后逐一在孪生时间序列重新整合，这样就使得在将音频数据与已经搭建好的视频数据进行耦合时，直接按照孪生时间序列上的每个发言人的音频数据时域范围进行耦合，不需要再对比所有发言人的时间-音频二维空间数组进行筛选，并且也更加容易实现将判定目标的重叠时域的音频数据以独立排列方式排列在孪生时间序列上，从而提高最后形成的孪生动态可视化的视频会议视频的稳定性和高效性。

假使以分散的每个发言人的时间-音频二维空间数组作为与视频会议虚拟场景进行耦合时，由于所有发言人之间存在同时发言的重叠问题，因此需要同时对所有发言人的时间-音频二维空间数组进行索引，以时间为检索条件，来将不同的发言人的音频信息耦合到视频会议虚拟场景内。

因此，经过上述对比操作可知，如果将分散的每个发言人的时间-音频二维空间数组作为与视频会议虚拟场景进行耦合，引起的问题为：其一，在耦合过程中，需要同时对所有发言人的时间-音频二维空间数组进行索引，增加负担，造成孪生动态可视化的视频会议视频不流畅，其二，在更改存在重叠时域的每个发言人音频片段的时序时，需要同时对其他发言人的时间-音频二维空间数组进行更改，导致更改过程复杂，实现难度增大。

基于上述，判断存在重叠时域的音频数据的参照对象与判定目标的持续时间之间的包含关系时，以两个发言人的音频分段进行依次循环对比，具体的实现方式为：

以音频分段的起始时间进行对比，将起始时间靠前的音频分段作为参照对象，并确定参照对象的音频分段的持续时间；

筛选出与参照对象在音频重叠的音频分段中选择起始时间相对靠前的音频分段作为判定对象，根据判定对象与参照对象对应的音频分段的持续时间之间的包含关系，来选定将判定对象编码至重构的孪生时间序列上的时序坐标；

以判定目标作为参照对象，重复上述步骤，以判定目标重构的时序坐标作为参考值，确定与该判定目标存在音频重叠的音频分段在孪生时间序列上的时序坐标。

即如果其他发言人的音频分段中，存在与当前作为判定对象的时间-音频二维空间数组内对应的音频片段的持续时间存在时域重叠，则将当前作为判定对象重新定义为参照对象，将与该参照对象的持续时间存在时域重叠的音频分段中，选择起始时间相对靠前的音频分段作为判定对象，确定包含关系；

依次类推，直至确定两个持续时间存在时域重叠的音频数据的包含关系，以累计递进的方式调整所有发言人的音频分段在孪生时间序列的排列时序。

而具体的，根据判定对象与参照对象的音频分段的持续时间之间的包含关系，来选定对判定对象编码至重构的孪生时间序列内的时序坐标的具体实现方法为：

当存在重叠时域的音频分段的持续时间为交叉关系时，则将判定对象的音频分段解析后添加在参照对象的音频分段后面，使得判定对象的音频分段的时序坐标值大于参照对象的音频数据的时序坐标值；

当判定对象的音频分段的持续时间被包含在参照对象的音频分段的持续时间时，则进一步将判定对象的音频分段的持续时间的最大时序坐标值与参照对象的音频分段的持续时间的最大时序坐标值进行对比，根据对比结果确定判定对象的时序坐标。

设定时序差值阈值T，并获取判定对象的持续时间的最大时序坐标值与参照对象的持续时间的最大时序坐标值的差值，将该差值与时序差值阈值T进行对比；

若差值大于时序差值阈值T，则将参照对象的音频分段以判定对象的持续时间的起始点和结束点作为分割点，将参照对象的音频数据拆分为两段音频数据，并在重构的孪生时间序列内将判定对象的音频数据以顺次排列方式插入至参照对象被拆分的两段音频数据之间；

若差值小于等于时序差值阈值T，则将判定对象的音频数据排列在参照对象的音频数据的后段。

最后，将时间-音频孪生数组与发言人信息之间构建二维空间映射关系，使得时间-音频孪生数组以发言人信息划分为不同的音频数块。

以每个音频数块的发言人信息为媒介，从视频会议虚拟场景中选择对应的数字人，以使得音频和视频同步。

另外，本实施方式还提供了上述基于数字孪生的视频会议记录的三维场景重构方法的装置，包括：

数据处理中心，与前端监控组件通讯连接，用于获取前端监控组件的采集数据，并通过数字孪生构建虚拟视频会议三维场景。

本实施方式还提供了上述基于数字孪生的视频会议记录的三维场景重构方法的系统，包括：

本实施方式利用数字孪生技术，为现实物理空间内的视频会议搭建虚拟三维会议场景，一方面为第三方提供能够更加动态直观的面对面的会议场景，另一方面，还能够记录完整的会议内容，包括发言人的发言顺序以及每个发言人的发言内容。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.基于数字孪生的视频会议重构方法，其特征在于，包括以下步骤：

通过数字孪生技术形成匹配每个发言人的数字人，搭建视频会议虚拟场景，且将数字人集成到所述视频会议虚拟场景内；

将所有发言人的时间-音频二维空间数组按照时序依次顺次排列在孪生时间序列上的实现方式为：

将所有发言人的所述音频分段依次按照时序顺序和时序间隔排列在孪生时间序列上，形成一个集成所有发言人的时间-音频孪生数组；

对存在重叠时域的所述音频分段进行解析降噪的实现方式为：

以每个所述发言人的音频分段进行快速傅里叶变换，得到频域特征，依设定滤波器对每个所述发言人的音频分段进行降噪，以滤除与其他发言人的音频分段存在重叠时域的音频数据，以使得降噪后的音频分段仅包含每个发言人的音频数据；

所述判定目标的重叠时域的音频数据以独立排列方式排列在孪生时间序列上的实现方式为：

判断存在重叠时域的音频数据的所述参照对象与所述判定目标的持续时间之间的包含关系，基于包含关系来调整所述参照对象与所述判定目标的音频分段在所述孪生时间序列上的编码时序；

判断存在重叠时域的音频数据的所述参照对象与所述判定目标的持续时间之间的包含关系时，以两个所述发言人的音频分段进行依次循环对比，具体的实现方式为：

以判定目标作为参照对象，重复上述步骤，以所述判定目标重构的时序坐标作为参考值，确定与该判定目标存在音频重叠的音频分段在所述孪生时间序列上的时序坐标；

2.根据权利要求1所述的基于数字孪生的视频会议重构方法，其特征在于，

根据所述判定对象与所述参照对象的音频分段的持续时间之间的包含关系，来选定对所述判定对象编码至重构的所述孪生时间序列内的时序坐标的具体实现方法为：

3.根据权利要求2所述的基于数字孪生的视频会议重构方法，其特征在于，

设定时序差值阈值T，并获取所述判定对象的持续时间的最大时序坐标值与所述参照对象的持续时间的最大时序坐标值的差值，将该差值与时序差值阈值T进行对比；

4.根据权利要求3所述的基于数字孪生的视频会议重构方法，其特征在于，

将所述时间-音频孪生数组与发言人信息之间构建二维空间映射关系，使得所述时间-音频孪生数组以所述发言人信息划分为不同的音频数块；

5.一种应用于权利要求1-4任一项所述的基于数字孪生的视频会议重构方法的装置，其特征在于，包括：

6.一种基于权利要求1-4任一项所述的基于数字孪生的视频会议重构方法的系统，其特征在于，包括：