CN118018676A

CN118018676A - 一种孪生视频会议的回放互动方法、装置及系统

Info

Publication number: CN118018676A
Application number: CN202410412109.XA
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Shenzhen Yuntian Changxiang Information Technology Co ltd
Current assignee: Shenzhen Yuntian Changxiang Information Technology Co ltd
Priority date: 2024-04-08
Filing date: 2024-04-08
Publication date: 2024-05-10
Anticipated expiration: 2044-04-08

Abstract

本发明公开了一种孪生视频会议的回放互动方法、装置及系统，包括实时监控每个发言人的行为信号，基于视频信号获取时间‑动作二维空间数组，基于音频信号获取时间‑音频二维空间数组；搭建视频会议虚拟场景，将所有发言人的时间‑音频二维空间数组按照音频分段的时序逐次集成到同一个孪生音频时间序列，将每个发言人的时间‑动作二维空间数组的视频片段按照孪生音频时间序列形成的新序列进行调整，将所有发言人重新调整时序后的时间‑动作二维空间数组按照视频片段的时序逐次集成到同一个孪生视频时间序列内，将孪生音频时间序列与孪生视频时间序列在视频会议虚拟场景内动态播放；能够缩小孪生的视频会议时长，实现逐帧无时隙的顺接播放。

Description

一种孪生视频会议的回放互动方法、装置及系统

技术领域

本发明涉及数字孪生技术领域，具体涉及一种孪生视频会议的回放互动方法、装置及系统。

背景技术

一般情况下，真实空间内的视频会议的每个发言人处于不同的空间内，因此即使将会议视频存储进行播放，也是以个体为第一视角，其他的发言人为第二视角进行播放，因此使得视频会议记录的动态播放存在不直观的问题，因此提出通过孪生视频会议的方式将参与视频会议的所有人集成到一个视频会议虚拟场景内，从而实现可视化的集成面对面式的会议模式。

而现有对视频会议的回放为：对视频会议从开始到结束阶段的所有内容进行播放，其中包含无音频数据的时长，导致在回放视频会议内容时的回放时间长，为了缩短时长，现有大多采用快进倍速的方式进行回放，快进播放方法虽然可以缩短视频会议回放的时间，但是很明显会影响对会议重要内容的提取。

发明内容

本发明的目的在于提供一种孪生视频会议的回放互动方法、装置及系统，以解决现有技术中，视频会议记录的动态播放存在不直观，以及现有大多采用快进倍速的方式进行回放，快进播放方法很明显会影响对会议重要内容的提取的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

一种孪生视频会议的回放互动方法，包括以下步骤：

实时监控采集视频会议的每个发言人的行为信号，将所述行为信号分为视频信号和音频信号，其中，基于所述视频信号获取时间-动作二维空间数组，基于所述音频信号获取时间-音频二维空间数组；

通过数字孪生技术将所述时间-动作二维空间数组构成虚拟数字人，搭建视频会议虚拟场景；

将所有发言人的时间-音频二维空间数组按照音频分段的时序，逐次集成到同一个孪生音频时间序列，使得所述孪生音频时间序列上的音频分段顺序无重叠无时隙的依次排列；

将每个所述发言人的时间-动作二维空间数组的视频片段按照所述孪生音频时间序列形成的新序列进行调整，以使得每个所述发言人的时间-动作二维空间数组的视频片段的时间序列与所述孪生音频时间序列上对应发言人的音频分段的时间序列一一匹配；

将所有发言人重新调整时序后的时间-动作二维空间数组按照视频片段的时序，逐次集成到同一个孪生视频时间序列内，将所述孪生音频时间序列与所述孪生视频时间序列的发言人对应在所述视频会议虚拟场景内动态播放，以使得每个所述发言人依次无时隙的发言互动，以缩短孪生视频会议的播放时间。

作为本发明的一种优选方案，将所有发言人的时间-音频二维空间数组按照时序依次顺次排列在孪生音频时间序列上的实现方式为：

从每个发言人的时间-音频二维空间数组中获取具有音频数据的音频分段；

将所有发言人的音频分段对应的持续时间进行对比，标记所述发言人的持续时间存在重叠时域的音频分段；

将存在重叠时域的音频分段根据所述音频分段的起始时间的差异分为参照对象和判定目标，且所述参照对象的起始时间早于所述判定目标的起始时间，将存在重叠时域的音频分段作为调整因子，将所述判定目标的重叠时域的音频数据以独立排列方式排列在孪生音频时间序列上；

将所有发言人的所述音频分段依次按照时序顺序排列在孪生音频时间序列上，形成一个集成所有发言人的时间-音频孪生数组。

作为本发明的一种优选方案，将所述判定目标的重叠时域的音频数据以独立排列方式排列在孪生音频时间序列上的实现方法为：

以时间作为索引轴，将索引轴从所述时间-音频二维空间数组的起点向时间轴移动；

将索引的第一个所述音频分段作为参照对象，将索引的第二个所述音频分段作为判定目标，使得所述索引轴单次仅能检索两个所述音频分段；

先将所述参照对象的音频数据复制至所述孪生音频时间序列上，然后将所述判定目标的音频数据无时隙复制至所述参照对象的后端；

重复上述步骤，直至将所有发言人的音频数据依次复制至所述孪生音频时间序列上，且使得所述孪生音频时间序列上的音频分段顺序无重叠无时隙的依次排列。

作为本发明的一种优选方案，对存在重叠时域的所述音频分段进行解析降噪；

以降噪后的音频数据覆盖替换每个所述发言人的时间-音频二维空间数组，使得降噪后的每个所述发言人的时间-音频二维空间数组的音频分段仅包含每个发言人的音频数据。

作为本发明的一种优选方案，对每个所述发言人的时间-音频二维空间数组中获取具有音频数据的音频分段进行标记；

在所述索引轴同一时间同时检索到两个所述音频分段时，将索引的第一个所述音频分段作为参照对象后，将所述参照对象的音频数据复制至所述孪生音频时间序列上，同时解除将该音频分段作为参照对象的认定，将所述判定目标调整为参照对象，重复上述步骤，直至将所有发言人中具有音频数据的音频分段依次在所述孪生音频时间序列上无重叠无时隙的排列；

在所述索引轴同一时间仅检索到一个所述音频分段时，在该音频分段结束索引时，将该音频分段的音频数据按照无时隙无重叠方式依次复制至所述孪生音频时间序列上。

作为本发明的一种优选方案，标记从每个发言人的时间-音频二维空间数组中获取具有音频数据的每个音频分段的原始时序；

将所述音频数据复制至所述孪生音频时间序列上时，建立孪生时序-发言人-原始时序的映射关系，以使得每个音频分段在所述孪生音频时间序列上的持续时间对应一个发言人的信息，同时对应该发言人在所述时间-音频二维空间数组的原始时序。

作为本发明的一种优选方案，将每个所述发言人的时间-动作二维空间数组的视频片段的时间序列与所述孪生音频时间序列上对应发言人的音频分段的时间序列一一匹配的实现方式为：

确定所述孪生音频时间序列上的每个音频分段对应的持续时间和发言人信息；

以发言人信息为第一优先级，从所有发言人中选择匹配的发言人；

以所述原始时序为第二优先级，从该发言人对应的时间-动作二维空间数组中截取与原始时序相同的视频片段；

将所述视频片段按照孪生时序依次在所述孪生视频时间序列内按照无重叠无时隙顺序排列。

作为本发明的一种优选方案，将所述孪生音频时间序列与所述孪生视频时间序列的发言人对应在所述视频会议虚拟场景内动态播放的实现方式为：

对所述视频会议虚拟场景内的数字人进行标记，使得每个数字人与每个发言人一一对应匹配；

以所述孪生视频时间序列内每个视频片段对应的发言人信息为触发条件，从所述视频会议虚拟场景内选择发言的数字人，且以触发条件从所述孪生音频时间序列中选择并播放对应的音频分段的音频数据。

进一步的，本发明还提供了一种应用于视频会议回放互动方法的装置，包括：

前端监控组件，用于实时监控采集视频会议的每个发言人的行为信号；

数据处理中心，与所述前端监控组件通讯连接，用于获取所述前端监控组件的采集数据，并将所述行为信号拆分为视频信号和音频信号，通过对所述视频信号和音频信号进行重新整理，形成无重叠无时隙的孪生音频时间序列和孪生音频时间序列，以主动过滤空音频数据的会议时间。

进一步的，本发明还提供了一种应用于视频会议回放互动方法的实现系统，包括：

前端监控模块，用于实时监控采集视频会议的每个发言人的行为信号；

数据解析模块，用于将所述行为信号解析为视频信号和音频信号，并生成时间-动作二维空间数组和时间-音频二维空间数组；

三维场景搭建模块，将每个发言人的所述时间-动作二维空间数组采用数字孪生技术形成与每个发言人对应的数字人，且搭建三维虚拟会议场景，并将数字人融合到虚拟会议场景内；

音频孪生处理模块，将所有发言人的时间-音频二维空间数组经过处理后集成到一个重构的孪生音频时间序列内，形成一个集成所有发言人且无数据重叠无时间间隔的时间-音频孪生数组；

视频孪生处理模块，以每个所述发言人的时间-音频二维空间数组上具有音频数据的所有音频分段的原始时序为标准，从每个所述发言人的时间-视频二维空间数组上拆分出对应的视频分段，并将所有发言人的视频分段按照所述孪生音频时间序列上的排列方式集成到一个重构的孪生视频时间序列内，形成一个集成所有发言人且无数据重叠无时间间隔的时间-视频孪生数组；

孪生数据融合模块，定义所述虚拟会议场景内的每个数字人，将所述视频孪生处理模块得到的孪生视频时间序列以及所述音频孪生处理模块得到的孪生音频时间序列与所述数字人进行一一匹配，将每个所述数字人按照时序依次播放所述音频孪生处理模块的音频数据，形成三维虚拟视频会议；

数据储存模块，用于保存三维虚拟视频会议的实现数据。

本发明与现有技术相比较具有如下有益效果：

本发明构建视频会议虚拟场景后，对每个发言人的视频信号和音频信号进行处理，且分别将所有发言人的时间-音频二维空间数组按照音频分段的时序逐次集成到同一个孪生音频时间序列，将所有发言人的时间-动作二维空间数组按照孪生音频时间序列的时序逐次集成到同一个孪生视频时间序列内，从而使得孪生音频时间序列和孪生视频时间序列为无重叠无时隙的序列，则能够将原始视频会议中无音频数据的时间删减掉，从而能够缩小孪生的视频会议时长，将视频会议虚拟场景实现逐帧无时隙的顺接播放。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的回放互动方法的整体流程示意图；

图2为本发明实施例的回放互动方法实现系统的整体结构框图；

1-前端监控模块；2-数据解析模块；3-三维场景搭建模块；4-音频孪生处理模块；5-视频孪生处理模块；6-孪生数据融合模块；7-数据储存模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种孪生视频会议的回放互动方法，包括以下步骤：

第一步：实时监控采集视频会议的每个发言人的行为信号，将所述行为信号分为视频信号和音频信号，其中，基于所述视频信号获取时间-动作二维空间数组，基于所述音频信号获取时间-音频二维空间数组。

第二步：通过数字孪生技术将所述时间-动作二维空间数组构成虚拟数字人，搭建视频会议虚拟场景。

第三步：将所有发言人的时间-音频二维空间数组按照音频分段的时序，逐次集成到同一个孪生音频时间序列，使得所述孪生音频时间序列上的音频分段顺序无重叠无时隙的依次排列。

第四步：将每个所述发言人的时间-动作二维空间数组的视频片段按照所述孪生音频时间序列形成的新序列进行调整，以使得每个所述发言人的时间-动作二维空间数组的视频片段的时间序列与所述孪生音频时间序列上对应发言人的音频分段的时间序列一一匹配。

第五步：将所有发言人重新调整时序后的时间-动作二维空间数组按照视频片段的时序，逐次集成到同一个孪生视频时间序列内，将所述孪生音频时间序列与所述孪生视频时间序列的发言人对应在所述视频会议虚拟场景内动态播放，以使得每个所述发言人依次无时隙的发言互动，以缩短孪生视频会议的播放时间。

一般情况下，真实空间内的视频会议的每个发言人处于不同的空间内，因此即使将会议视频存储进行播放，也是以个体为第一视角，另外的发言人为第二视角进行播放，因此使得视频会议记录的动态播放存在不直观的问题。

本实施方式创新性提出将视频会议进行数字孪生，使得所有发言人集成到同一个视频会议虚拟场景，从而形成面对面的会议模式。

另外，为了进一步的精简会议时长，本实施方式构建视频会议虚拟场景后，对每个发言人的视频信号和音频信号进行处理，且分别将所有发言人的时间-音频二维空间数组按照音频分段的时序逐次集成到同一个孪生音频时间序列，将所有发言人的时间-动作二维空间数组按照孪生音频时间序列的时序逐次集成到同一个孪生视频时间序列内，从而使得孪生音频时间序列和孪生视频时间序列为无重叠无时隙的序列，也就是说，将原始视频会议中无音频数据的时间删减掉，从而能够缩小孪生的视频会议时长，将视频会议虚拟场景实现逐帧无时隙的顺接播放。

具体的，在第三步中，将所有发言人的时间-音频二维空间数组按照时序依次顺次排列在孪生音频时间序列上的实现方式为：

（1）从每个发言人的时间-音频二维空间数组中获取具有音频数据的音频分段；

（2）将所有发言人的音频分段对应的持续时间进行对比，标记发言人的持续时间存在重叠时域的音频分段。

其中，由于持续时间存在重叠时域的音频分段存在噪音，因此需要对每个发言人的时间-音频二维空间数组进行降噪处理，即对存在重叠时域的音频分段进行解析降噪。

以降噪后的音频数据覆盖替换每个发言人的时间-音频二维空间数组，使得降噪后的每个发言人的时间-音频二维空间数组的音频分段仅包含每个发言人的音频数据。

（3）将存在重叠时域的音频分段根据音频分段的起始时间的差异分为参照对象和判定目标，且参照对象的起始时间早于判定目标的起始时间，将存在重叠时域的音频分段作为调整因子，将判定目标的重叠时域的音频数据以独立排列方式排列在孪生音频时间序列上。

（4）将所有发言人的音频分段依次按照时序顺序排列在孪生音频时间序列上，形成一个集成所有发言人的时间-音频孪生数组。

将判定目标的重叠时域的音频数据以独立排列方式排列在孪生音频时间序列上的实现方法为：

以时间作为索引轴，将索引轴从时间-音频二维空间数组的起点向时间轴移动；

将索引的第一个音频分段作为参照对象，将索引的第二个音频分段作为判定目标，使得索引轴单次仅能检索两个音频分段；

先将参照对象的音频数据复制至孪生音频时间序列上，然后将判定目标的音频数据无时隙复制至参照对象的后端；

重复上述步骤，直至将所有发言人的音频数据依次复制至孪生音频时间序列上，且使得孪生音频时间序列上的音频分段顺序无重叠无时隙的依次排列。

在本实施方式中，将所有发言人的时间-音频二维空间数组集成到同一个孪生音频时间序列时，存在两个甚至三个发言人的音频分段的持续时间存在重叠的情况，也就是说，在其中一个人发言时，其他的发言人同样在发言。

此时，由于不同发言人的音频片段的持续时间存在重叠，将存在重叠区域的发言人的音频片段集成到同一个孪生音频时间序列时，会导致音频片段的时间序列存在混乱的问题。

为了解决上述问题，本实施方式在检索到存在重叠的音频片段时，即索引轴在某一时间点同时检索到两个音频片段，则将该两个音频片段作为对比对象，其中，将开始时间比较早的音频分段作为参照对象，将开始时间靠后的音频分段作为判定目标，且以时间-音频二维空间数组为基准，将参照对象的音频数据复制至孪生音频时间序列上，同时解除对该参照对象的定义，将判定目标调整为参照对象。

索引轴持续移动，当索引轴在某一时间点同时检索到两个音频片段，重复上述步骤，并将重新定义为参照对象的音频数据复制至孪生音频时间序列上，且无时隙拼接在上一个音频片段的后面，直至将所有发言人的音频数据依次复制至孪生音频时间序列上，且使得孪生音频时间序列上的音频分段顺序无重叠无时隙的依次排列。

即对每个发言人的时间-音频二维空间数组中获取具有音频数据的音频分段进行标记。

在索引轴同一时间同时检索到两个音频分段时，将索引的第一个音频分段作为参照对象后，将参照对象的音频数据复制至孪生音频时间序列上，同时解除将该音频分段作为参照对象的认定，将判定目标调整为参照对象，重复上述步骤，直至将所有发言人中具有音频数据的音频分段依次在孪生音频时间序列上无重叠无时隙的排列；

而需要补充说明的是，在索引轴同一时间仅检索到一个音频分段时，在该音频分段结束索引时，将该音频分段的音频数据按照无时隙无重叠方式依次复制至孪生音频时间序列上。

作为本实施方式的重点，为了方便将所有发言人的时间-动作二维空间数组的视频片段集成到同一个孪生视频时间序列内，以每个发言人的音频分段在初始的时间-音频二维空间数组的筛选时间为基准，在每个发言人的时间-动作二维空间数组中对应摘选匹配的视频片段，再以每个发言人的音频分段在孪生音频时间序列的持续时间为基准，将每个每个发言人摘选的视频片段对应排列在孪生视频时间序列内。

因此，为了获取每个发言人的时间-动作二维空间数组与音频分段一一匹配的视频片段，首先，标记从每个发言人的时间-音频二维空间数组中获取具有音频数据的每个音频分段的原始时序，然后将音频数据复制至孪生音频时间序列上时，建立孪生时序-发言人-原始时序的映射关系，以使得每个音频分段在孪生音频时间序列上的持续时间对应一个发言人的信息，同时对应该发言人在时间-音频二维空间数组的原始时序。

将每个发言人的时间-动作二维空间数组的视频片段的时间序列与孪生音频时间序列上对应发言人的音频分段的时间序列一一匹配的实现方式为：

确定孪生音频时间序列上的每个音频分段对应的持续时间和发言人信息；

以发言人信息为第一优先级，从所有发言人中选择匹配的发言人。

以原始时序为第二优先级，从该发言人对应的时间-动作二维空间数组中截取与原始时序相同的视频片段。

将视频片段按照孪生时序依次在孪生视频时间序列内按照无重叠无时隙顺序排列。

在第五步中，将孪生音频时间序列与孪生视频时间序列的发言人对应在视频会议虚拟场景内动态播放的实现方式为：

对视频会议虚拟场景内的数字人进行标记，使得每个数字人与每个发言人一一对应匹配。

以孪生视频时间序列内每个视频片段对应的发言人信息为触发条件，从视频会议虚拟场景内选择发言的数字人，且以触发条件从孪生音频时间序列中选择并播放对应的音频分段的音频数据。

经过上述处理，视频会议虚拟场景中进行动态播放的视频会议，数字人（发言人的数字模型）的视频动作与音频信息是一一匹配的，且数字人（发言人的数字模型）按照时序依次进行发言，自动过滤出原始视频会议中的无音频数据的时间，从而可以缩减孪生会议时间，且保留所有发言人的发言信息。

因此在本实施方式中，对视频会议动态回放的方式具体为：对每个发言人生成孪生数字人，且虚构一个会议场景，使得每个孪生数字人集成在该虚构会议场景内。

然后通过对每个发言人的音频片段进行处理，将所有发言人的音频片段按照原始时序依次无重叠无时隙的排列在孪生音频时间序列内，以孪生音频时间序列内的每个音频片段对应的原始时序以及在孪生音频时间序列上的新时序为标准，将所有发言人的视频分段依次无重叠无时隙的排列在孪生视频时间序列内。

最后将虚构会议场景内的每个孪生数字人对应的发言人，以及孪生音频时间序列和孪生视频时间序列内的每个发言人的视频数据和音频数据进行一一对应，从而实现对视频会议的动态回放互动。

为了实现上述视频会议回放互动方法，本实施方式体提供了一种支持上述视频会议回放互动方法的装置，包括：

数据处理中心，与前端监控组件通讯连接，用于获取前端监控组件的采集数据，并将行为信号拆分为视频信号和音频信号，通过对视频信号和音频信号进行重新整理，形成无重叠无时隙的孪生音频时间序列和孪生音频时间序列，以主动过滤空音频数据的会议时间。

为了实现上述视频会议回放互动方法，如图2所示，本实施方式体提供了一种支持上述视频会议回放互动方法的实现系统，包括：

前端监控模块1，用于实时监控采集视频会议的每个发言人的行为信号；

数据解析模块2，用于将行为信号解析为视频信号和音频信号，并生成时间-动作二维空间数组和时间-音频二维空间数组；

三维场景搭建模块3，将每个发言人的时间-动作二维空间数组采用数字孪生技术形成与每个发言人对应的数字人，且搭建三维虚拟会议场景，并将数字人融合到虚拟会议场景内；

音频孪生处理模块4，将所有发言人的时间-音频二维空间数组经过处理后集成到一个重构的孪生音频时间序列内，形成一个集成所有发言人且无数据重叠无时间间隔的时间-音频孪生数组；

视频孪生处理模块5，以每个发言人的时间-音频二维空间数组上具有音频数据的所有音频分段的原始时序为标准，从每个发言人的时间-视频二维空间数组上拆分出对应的视频分段，并将所有发言人的视频分段按照孪生音频时间序列上的排列方式集成到一个重构的孪生视频时间序列内，形成一个集成所有发言人且无数据重叠无时间间隔的时间-视频孪生数组；

孪生数据融合模块6，定义虚拟会议场景内的每个数字人，将视频孪生处理模块5得到的孪生视频时间序列以及音频孪生处理模块4得到的孪生音频时间序列与数字人进行一一匹配，将每个数字人按照时序依次播放音频孪生处理模块4的音频数据，形成三维虚拟视频会议；

数据储存模块7，用于保存三维虚拟视频会议的实现数据。

本实施方式构建视频会议虚拟场景后，对每个发言人的视频信号和音频信号进行处理，且分别将所有发言人的时间-音频二维空间数组按照音频分段的时序逐次集成到同一个孪生音频时间序列，将所有发言人的时间-动作二维空间数组按照孪生音频时间序列的时序逐次集成到同一个孪生视频时间序列内，从而使得孪生音频时间序列和孪生视频时间序列为无重叠无时隙的序列，则能够将原始视频会议中无音频数据的时间删减掉，从而能够缩小孪生的视频会议时长，将视频会议虚拟场景实现逐帧无时隙的顺接播放。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种孪生视频会议的回放互动方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种孪生视频会议的回放互动方法，其特征在于，

将所有发言人的时间-音频二维空间数组按照时序依次顺次排列在孪生音频时间序列上的实现方式为：

3.根据权利要求2所述的一种孪生视频会议的回放互动方法，其特征在于，

将所述判定目标的重叠时域的音频数据以独立排列方式排列在孪生音频时间序列上的实现方法为：

4.根据权利要求2或3所述的一种孪生视频会议的回放互动方法，其特征在于，

对存在重叠时域的所述音频分段进行解析降噪；

5.根据权利要求3所述的一种孪生视频会议的回放互动方法，其特征在于，

对每个所述发言人的时间-音频二维空间数组中获取具有音频数据的音频分段进行标记；

6.根据权利要求2所述的一种孪生视频会议的回放互动方法，其特征在于，

标记从每个发言人的时间-音频二维空间数组中获取具有音频数据的每个音频分段的原始时序；

7.根据权利要求6所述的一种孪生视频会议的回放互动方法，其特征在于，

将每个所述发言人的时间-动作二维空间数组的视频片段的时间序列与所述孪生音频时间序列上对应发言人的音频分段的时间序列一一匹配的实现方式为：

8.根据权利要求7所述的一种孪生视频会议的回放互动方法，其特征在于，

将所述孪生音频时间序列与所述孪生视频时间序列的发言人对应在所述视频会议虚拟场景内动态播放的实现方式为：

9.一种基于权利要求1-8任一项所述的视频会议回放互动方法的装置，其特征在于，包括：

10.一种基于权利要求1-8任一项所述的视频会议回放互动方法的系统，其特征在于，包括：

前端监控模块（1），用于实时监控采集视频会议的每个发言人的行为信号；

数据解析模块（2），用于将所述行为信号解析为视频信号和音频信号，并生成时间-动作二维空间数组和时间-音频二维空间数组；

三维场景搭建模块（3），将每个发言人的所述时间-动作二维空间数组采用数字孪生技术形成与每个发言人对应的数字人，且搭建三维虚拟会议场景，并将数字人融合到虚拟会议场景内；

音频孪生处理模块（4），将所有发言人的时间-音频二维空间数组经过处理后集成到一个重构的孪生音频时间序列内，形成一个集成所有发言人且无数据重叠无时间间隔的时间-音频孪生数组；

视频孪生处理模块（5），以每个所述发言人的时间-音频二维空间数组上具有音频数据的所有音频分段的原始时序为标准，从每个所述发言人的时间-视频二维空间数组上拆分出对应的视频分段，并将所有发言人的视频分段按照所述孪生音频时间序列上的排列方式集成到一个重构的孪生视频时间序列内，形成一个集成所有发言人且无数据重叠无时间间隔的时间-视频孪生数组；

孪生数据融合模块（6），定义所述虚拟会议场景内的每个数字人，将所述视频孪生处理模块（5）得到的孪生视频时间序列以及所述音频孪生处理模块（4）得到的孪生音频时间序列与所述数字人进行一一匹配，将每个所述数字人按照时序依次播放所述音频孪生处理模块（4）的音频数据，形成三维虚拟视频会议；

数据储存模块（7），用于保存三维虚拟视频会议的实现数据。