CN114554267B

CN114554267B - 基于数字孪生技术的音频视频的同步方法及装置

Info

Publication number: CN114554267B
Application number: CN202210164406.8A
Authority: CN
Inventors: 张岩; 彭小波; 刘小叶
Original assignee: Shanghai I2finance Software Co ltd
Current assignee: Shanghai I2finance Software Co ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2024-04-02
Anticipated expiration: 2042-02-22
Also published as: CN114554267A

Abstract

本申请实施例提供了一种基于数字孪生技术的音频视频的同步方法及装置，包括：获取目标用户的音频数据流和视频数据流；对所述音频数据流标记音频时间戳，对所述视频数据流标记视频时间戳，所述音频时间戳和所述视频时间戳相对应；将所述音频数据流和所述视频数据流输入至数字化人物模型，通过所述数字化人物模型所述音频时间戳的时序输出所述音频数据流，以所述音频数据流的时钟为参考时钟，通过所述数字化人物模型按照所述视频时间戳的时序同步控制所述视频数据流的播放速度，并根据所述视频数据流中目标用户的口型数据控制所述数字化人物模型的口型同步变化。

Description

基于数字孪生技术的音频视频的同步方法及装置

技术领域

本申请涉及音视频技术领域，尤其涉及一种基于数字孪生技术的音频视频的同步方法及装置。

背景技术

随着互联网技术的不断发展，数字孪生技术开始在产品设计、产品制造、医学分析以及金融等领域开始广泛应用。数字孪生技术指的是使用传感器收集相关实时状态，采集工作环境位置的数据并上传到基于云的系统，该云的系统接收并处理传感器收集的数据，根据现实业务和关联数据进行分析，分析结果通过虚拟仿真技术进行可视化呈现。

在一些场景下，在金融行业领域的在线客服的人机对话中，采用数字孪生技术将客服人物虚拟化、数字化后，得到数字化人物，对于数字化人物的动态尤其是口型和声音的同步是提高用户体验的关键因素。但是在实际应用的过程中，数字化人物的口型变化往往是固定的，对应不同的真人客服，数字化人物的口型和真人客服的口型和声音会出现不同步的情况，导致用户体验感较低。

发明内容

本申请实施例的目的是提供一种基于数字孪生技术的音频视频的同步方法及装置，以解决数字化人物的口型和真人客服的口型和声音不同步的问题。

第一方面，本申请实施例提供了一种基于数字孪生技术的音频视频的同步方法，包括：获取目标用户的音频数据流和视频数据流；对所述音频数据流标记音频时间戳，对所述视频数据流标记视频时间戳，所述音频时间戳和所述视频时间戳相对应；将所述音频数据流和所述视频数据流输入至数字化人物模型，通过所述数字化人物模型按照所述音频时间戳的时序输出所述音频数据流，以所述音频数据流的时钟为参考时钟，通过所述数字化人物模型按照所述视频时间戳的时序同步控制所述视频数据流的播放速度，并根据所述视频数据流中目标用户的口型数据控制所述数字化人物模型的口型同步变化。

第二方面，本申请实施例提供了一种基于数字孪生技术的音频视频的同步装置，包括：获取模块，用于获取目标用户的音频数据流和视频数据流；标记模块，用于对所述音频数据流标记音频时间戳，对所述视频数据流标记视频时间戳，所述音频时间戳和所述视频时间戳相对应；同步模块，用于将所述音频数据流和所述视频数据流输入至数字化人物模型，通过所述数字化人物模型按照所述音频时间戳的时序输出所述音频数据流，以所述音频数据流的时钟为参考时钟，通过所述数字化人物模型按照所述视频时间戳的时序同步控制所述视频数据流的播放速度，并根据所述视频数据流中目标用户的口型数据控制所述数字化人物模型的口型同步变化。

第三方面，本申请实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线；其中，所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现如第一方面所述的基于数字孪生技术的音频视频的同步方法步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如第一方面所述的基于数字孪生技术的音频视频的同步方法步骤。

由以上本申请实施例提供的技术方案可见，通过确定目标用户的音频数据流和视频数据流，对音频数据流标记音频时间戳，对视频数据流标记视频时间戳，音频时间戳和视频时间戳相对应，将所述音频数据流和所述视频数据流输入至数字化人物模型，通过数字化人物模型按照音频时间戳的时序播放音频数据流，以音频数据流的时钟为参考时钟，通过数字化人物模型按照视频时间戳的时序同步控制视频数据流的播放速度，并根据视频数据流中目标用户的口型数据控制数字化人物模型的口型同步变化，能够以音频数据流的时钟为参考时钟，利用音频时间戳和视频时间戳同步控制视频数据流的播放速度，使得数字化人物的音频和口型和视频数据流中目标用户的口型和声音同步，提升了用户的体验感。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于数字孪生技术的音频视频的同步方法的第一种流程示意图；

图2为本申请实施例提供的基于数字孪生技术的音频视频的同步方法的第二种流程示意图；

图3为本申请实施例提供的基于数字孪生技术的音频视频的同步方法的第三种流程示意图；

图4为本申请实施例提供的基于数字孪生技术的音频视频的同步装置的模块组成示意图；

图5为本申请实施例提供的电子设备的结构示意图；

图6为本申请实施例提供的基于数字孪生技术的音频视频的同步系统的结构示意图。

具体实施方式

本申请实施例提供了一种基于数字孪生技术的音频视频的同步方法、装置及电子设备，解决了数字化人物的口型和真人客服的口型和声音不同步的问题。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

示例性的，如图1所示，本申请实施例提供一种基于数字孪生技术的音频视频的同步方法，该方法的执行主体可以为终端设备，也就是说，本申请实施例提供的一种基于数字孪生技术的音频视频的同步方法可以由安装在终端设备上的硬件或软件完成。该基于数字孪生技术的音频视频的同步方法具体可以包括以下步骤：

在步骤S101中，获取目标用户的音频数据流和视频数据流。

具体来讲，目标用户为参与到与驱动数字化人物模型的用户，目标用户在说话的过程中，可以利用传感器收集目标用户的声音以及通过摄像头采集目标用户的口型变化的动作。

进一步，获取目标用户的音频数据流和视频数据流包括：获取目标用户的音频数据和视频数据，对音频数据和视频数据进行编码后，得到音频数据流和视频数据流。具体是传感器收集的目标用户的音频数据后，传输至音频编码器，由音频编码器对音频数据进行编码，得到音频数据流，摄像头采集到目标用户的口型变化的视频数据后，传输至视频编码器，由视频编码器对视频数据进行编码，得到视频数据流。

在获取目标用户的音频数据流和视频数据流时，可以是以预定时间间隔获取音频数据流和视频数据流，对于音频数据流而言，预定时间间隔可以为第一采集时间间隔，对于视频数据流而言，预定时间间隔可以为第二采集时间间隔。具体是每隔第一采集时间间隔采集目标用户的音频数据，每隔第二采集时间间隔采集目标用户的视频数据，再由音频编码器对音频数据进行编码，由视频编码器对视频数据进行编码。其中，第一采集时间间隔和第二采集时间间隔可以相同。

在步骤S103中，对音频数据流标记音频时间戳，对视频数据流标记视频时间戳，音频时间戳和视频时间戳相对应。

具体来讲，对于音频数据流而言，以音频标记时间间隔按照音频数据流的时序对音频数据流标记时间戳，音频标记时间间隔可以由用户自定义设置，如设置为1秒、2秒等，也可以根据当前的网络带宽确定音频标记时间间隔，例如，以2秒为一个音频标记时间间隔按照音频数据流的时序对音频数据流标记时间戳。对于视频数据流而言，以视频标记时间间隔按照视频数据流的时序对视频数据流标记时间戳，视频标记时间间隔可以由用户自定义设置，如设置为1秒、2秒等，也可以根据当前的网络带宽确定视频标记时间间隔，例如，以2秒为一个音频标记时间间隔按照音频数据流的时序对音频数据流标记时间戳。其中，对于音频数据流和视频数据流，可以以本地时钟作为参考，将音频时间戳和视频时间戳确定为相同的时刻，从而保证音频数据流和视频数据流的一致性。

在步骤S105中，将音频数据流和视频数据流输入至数字化人物模型，通过数字化人物模型按照音频时间戳的时序输出音频数据流，以音频数据流的时钟为参考时钟，通过数字化人物模型按照视频时间戳的时序同步控制视频数据流的播放速度，并根据视频数据流中目标用户的口型数据控制数字化人物模型的口型同步变化。

具体来讲，在获取到标记了音频时间戳和视频时间戳的音频数据流和视频数据流之后，通过音频解码器解码音频数据流，将解码后的音频数据流和视频数据流中各音频字节流对应的音频时间戳缓存至音频缓存区，按照音频时间戳的时序从音频缓存区中读取音频字节流并通过所述数字化人物模型播放。在播放音频字节流的过程中，以音频数据流的时钟为参考时钟，通过视频解码器解码视频数据流，将解码后的视频数据流和视频数据流中各视频字节流对应的视频时间戳缓存至视频缓冲区，按照视频时间戳的时序从视频缓冲区中读取视频字节流并通过所述数字化人物模型同步控制视频字节流的播放速度，从音频缓存区和视频缓存区中读取音频字节流和视频字节流并通过数字化人物模型播放，能够进一步提升音频和视频播放时的同步性。

在视频数据流中，包括目标用户在说话时的口型变化的动作，用户说话的过程中，会产生声音和口型变化，将视频数据流输入到数字化人物模型，确定当前时刻播放的音频字节流的音频标记时间戳，再确定与当前时刻播放的音频字节流的音频标记时间戳对应的视频标记时间戳，并将该视频标记时间戳对应的视频字节流中目标用户的口型变化动作应用到数字化人物模型，使得数字化人物模型的口型与目标用户的口型同步变化。

由以上本申请实施例提供的技术方案可见，能够以音频数据流的时钟为参考时钟，利用音频时间戳和视频时间戳同步控制视频数据流的播放速度，使得数字化人物的音频和口型和视频数据流中目标用户的口型和声音同步，提升了用户的体验感。

示例性的，如图2所示，本申请实施例提供一种基于数字孪生技术的音频视频的同步方法，该方法的执行主体可以为终端设备，也就是说，本申请实施例提供的一种基于数字孪生技术的音频视频的同步方法可以由安装在终端设备上的硬件或软件完成。该基于数字孪生技术的音频视频的同步方法具体可以包括以下步骤：

在步骤S201中，获取目标用户的音频数据流和视频数据流。

在步骤S203中，根据当前时间的网络带宽确定音频标记时间间隔和视频标记时间间隔，其中，网络带宽与音频标记时间间隔和视频标记时间间隔呈正比；以本地时钟为参考，从音频数据流的起点开始，按照音频标记时间间隔对音频数据流标记音频时间戳，从视频数据流的起点开始，按照视频标记时间间隔对视频数据流标记视频时间戳。

具体的，根据网络带宽的大小确定音频标记时间间隔和视频标记时间间隔，若当前时刻的网络带宽较高，则可以将音频标记时间间隔和视频标记时间间隔设置的大一些，若当前时刻的网络带宽较低，则可以将音频标记时间间隔和视频标记时间间隔设置的小一些，例如，在网络带宽处于150KB/s以下时，将音频标记时间间隔和视频标记时间间隔设置为1秒，在网络带宽处于150KB/s以上时，将音频标记时间间隔和视频标记时间间隔设置为2秒等。

进一步，音频数据流由多段音频字节流组成，视频数据流由多段视频字节流组成，音频数据流和视频数据流都具有起点和终点，在标记时间戳时，可以从音频数据流的起点开始，按照音频标记时间间隔对音频数据流中的各段音频字节流标记时间戳，从视频数据流的起点开始，按照视频标记时间间隔对视频数据流中的各段视频字节流标记时间戳。

在步骤S205中，将音频数据流和视频数据流输入至数字化人物模型，通过数字化人物模型按照音频时间戳的时序输出音频数据流，以音频数据流的时钟为参考时钟，通过数字化人物模型按照视频时间戳的时序同步控制视频数据流的播放速度，并根据视频数据流中目标用户的口型数据控制数字化人物模型的口型同步变化。

值得注意的是，步骤S201和步骤S205与上述步骤S101和步骤S105具有相同或类似的实现方式，其可以互相参照，本申请实施例在此不再赘述。

由以上本申请实施例提供的技术方案可见，能够以音频数据流的时钟为参考时钟，利用音频时间戳和视频时间戳同步控制视频数据流的播放速度，使得数字化人物的音频和口型和视频数据流中目标用户的口型和声音同步，提升了用户的体验感。此外，还能够按照当前时间的网络带宽确定音频标记时间间隔和视频标记时间间隔，根据实际的网络情况确定时间间隔，使得对音频数据流和视频数据流添加时间戳能够和实际网络带宽保持一致性，进一步提高了数字化人物的音频和口型和视频数据流中目标用户的口型和声音同步性。

示例性的，如图3所示，本申请实施例提供一种基于数字孪生技术的音频视频的同步方法，该方法的执行主体可以为终端设备，也就是说，本申请实施例提供的一种基于数字孪生技术的音频视频的同步方法可以由安装在终端设备上的硬件或软件完成。该基于数字孪生技术的音频视频的同步方法具体可以包括以下步骤：

在步骤S301中，获取目标用户的音频数据流和视频数据流。

在步骤S303中，对音频数据流标记音频时间戳，对视频数据流标记视频时间戳，音频时间戳和视频时间戳相对应。

在步骤S305中，以音频数据流的时钟为参考时钟，在视频数据流中当前播放的视频字节流的视频时间戳早于当前播放的音频字节流的音频时间戳的情况下，则跳转到当前播放的音频字节流的音频时间戳对应的视频时间戳的视频字节流并通过所述数字化人物模型播放，在视频数据流中当前播放的视频字节流的视频时间戳晚于当前播放的音频字节流的音频时间戳的情况下，则暂停视频数据流中当前播放的视频字节流，并在音频字节流的音频时间戳与当前播放的视频字节流的视频时间戳再次对应的情况下，再通过所述数字化人物模型控制视频数据流中当前播放的视频字节流开始播放，并根据视频数据流中目标用户的口型数据控制数字化人物模型的口型同步变化。

具体来讲，在确定目标用户之后，驱动数字化人物模型，将音频数据流和视频数据流输入到数字化人物模型中，按照标记的音频时间戳的时序播放音频数据流，以音频数据流的时钟为参考时钟，在视频数据流中当前播放的视频字节流的视频时间戳早于当前播放的音频字节流的音频时间戳的情况下，说明音频数据流播放的比视频数据流播放的快，则直接跳过当前播放的该段视频字节流，即丢弃该段视频字节流，跳转到当前播放的音频字节流的音频时间戳对应的视频时间戳的视频字节流并播放。在视频数据流中当前播放的视频字节流的视频时间戳晚于当前播放的音频字节流的音频时间戳的情况下，说明音频数据流比视频数据流播放的慢，则先暂停视频字节流的播放，音频数据流继续播放，等到当前播放的音频数据流的时间戳与暂停的视频字节流的时间戳一致时，再控制视频数据流中当前播放的视频字节流开始播放。从而保证音频字节流和视频字节流播放时的同步性，同时保证数字化人物模型的口型和声音与当前播放的视频字节流的目标用户的口型的同步性。

此外，视频数据流中当前播放的视频字节流的视频时间戳早于当前播放的音频字节流的音频时间戳的情况下，还可以加速播放视频字节流，暂停音频字节流，在两者的时间戳变为一致时，将视频数据流的播放速度恢复为正常速度，并控制音频字节流由暂停状态为开始播放状态。在视频数据流中当前播放的视频字节流的视频时间戳晚于当前播放的音频字节流的音频时间戳的情况下，可以加速播放音频数据流，暂停视频数据流，在两者的时间戳变为一致时，将音频数据流的播放速度恢复为正常速度，并控制视频字节流由暂停状态为开始播放状态。

值得注意的是，步骤S301和步骤S303与上述步骤S101和步骤S103具有相同或类似的实现方式，本申请实施例在此不再赘述。

由以上本申请实施例提供的技术方案可见，能够以音频数据流的时钟为参考时钟，利用音频时间戳和视频时间戳同步控制视频数据流的播放速度，使得数字化人物的音频和口型和视频数据流中目标用户的口型和声音同步，提升了用户的体验感。此外，在音频数据流或视频数据流的播放速度相对过快或过慢时，可以调整音频数据流或视频数据流的播放速度，从而数字化人物的音频和口型和视频数据流中目标用户的口型和声音同步。

对应上述实施例提供的基于数字孪生技术的音频视频的同步方法，基于相同的技术构思，本申请实施例还提供了一种基于数字孪生技术的音频视频的同步装置，图4本申请实施例提供的基于数字孪生技术的音频视频的同步装置的模块组成示意图，该基于数字孪生技术的音频视频的同步装置用于执行图1至图3描述的基于数字孪生技术的音频视频的同步方法，如图4示，该基于数字孪生技术的音频视频的同步装置包括：获取模块401，用于获取目标用户的音频数据流和视频数据流；标记模块402，用于对音频数据流标记音频时间戳，对视频数据流标记视频时间戳，音频时间戳和视频时间戳相对应；同步模块403，用于将所述音频数据流和所述视频数据流输入至数字化人物模型，通过所述数字化人物模型按照音频时间戳的时序播放音频数据流，以音频数据流的时钟为参考时钟，通过所述数字化人物模型按照视频时间戳的时序同步控制视频数据流的播放速度，并根据视频数据流中目标用户的口型数据控制数字化人物模型的口型同步变化。

在一种可能的实现方式中，标记模块402，还用于根据当前时间的网络带宽确定音频标记时间间隔和视频标记时间间隔，其中，网络带宽与音频标记时间间隔和视频标记时间间隔呈正比；以本地时钟为参考，从音频数据流的起点开始，按照音频标记时间间隔对音频数据流标记音频时间戳，从视频数据流的起点开始，按照视频标记时间间隔对视频数据流标记视频时间戳。

在一种可能的实现方式中，获取模块401，还用于获取目标用户的音频数据和视频数据，对音频数据和视频数据进行编码后，得到音频数据流和视频数据流。

在一种可能的实现方式中，同步模块403，还用于通过音频解码器解码音频数据流后，将解码后的音频数据流和音频数据流中各音频字节流对应的音频时间戳缓存至音频缓存区，按照音频时间戳的时序从音频缓存区中读取音频字节流并通过所述数字化人物模型播放，通过视频解码器解码视频数据流，将解码后的视频数据流和视频数据流中各视频字节流对应的视频时间戳缓存至视频缓冲区，按照视频时间戳的时序从视频缓冲区中读取视频字节流并通过所述数字化人物模型同步控制视频字节流的播放速度。

在一种可能的实现方式中，音频数据的第一采集时间间隔与音频标记时间间隔相对应，视频数据的第二采集时间间隔与视频标记时间间隔相对应。

在一种可能的实现方式中，同步模块403，还用于以音频数据流的时钟为参考时钟，在视频数据流中当前播放的视频字节流的视频时间戳早于当前播放的音频字节流的音频时间戳的情况下，则跳转到当前播放的音频字节流的音频时间戳对应的视频时间戳的视频字节流并通过所述数字化人物模型播放，在视频数据流中当前播放的视频字节流的视频时间戳晚于当前播放的音频字节流的音频时间戳的情况下，则暂停视频数据流中当前播放的视频字节流，并在音频字节流的音频时间戳与当前播放的视频字节流的视频时间戳再次对应的情况下，再通过所述数字化人物模型控制视频数据流中当前播放的视频字节流开始播放。

本申请实施例提供的基于数字孪生技术的音频视频的同步装置能够实现上述基于数字孪生技术的音频视频的同步方法对应的实施例中的各个过程，为避免重复，这里不再赘述。

需要说明的是，本申请实施例提供的基于数字孪生技术的音频视频的同步装置与本申请实施例提供的基于数字孪生技术的音频视频的同步方法基于同一申请构思，因此该实施例的具体实施可以参见前述基于数字孪生技术的音频视频的同步方法的实施，重复之处不再赘述。

对应上述实施例提供的基于数字孪生技术的音频视频的同步方法，基于相同的技术构思，本申请实施例还提供了一种电子设备，该电子设备用于执行上述的基于数字孪生技术的音频视频的同步方法，图5为实现本申请各个实施例的一种电子设备的结构示意图，如图5所示。电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器501和存储器502，存储器502中可以存储有一个或一个以上存储应用程序或数据。其中，存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对电子设备中的一系列计算机可执行指令。

更进一步地，处理器501可以设置为与存储器502通信，在电子设备上执行存储器502中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源503，一个或一个以上有线或无线网络接口504，一个或一个以上输入输出接口505，一个或一个以上键盘506。

具体在本实施例中，电子设备包括有处理器、通信接口、存储器和通信总线；其中，处理器、通信接口以及存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现以上方法实施例中的步骤。

本实施例中还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现以上方法实施例中的步骤。

对应上述实施例提供的基于数字孪生技术的音频视频的同步方法，基于相同的技术构思，本申请实施例还提供了一种音频视频的同步系统，如图6所示的，音频视频的同步系统包括：第一服务器601，用于获取目标用户的音频数据流，对音频数据流标记音频时间戳；第二服务器602，用于获取目标用户的视频数据流，对视频数据流标记视频时间戳，音频时间戳和视频时间戳相对应；第三服务器603，用于将所述音频数据流和所述视频数据流输入至数字化人物模型，通过所述数字化人物模型按照音频时间戳的时序播放音频数据流，以音频数据流的时钟为参考时钟，通过所述数字化人物模型按照视频时间戳的时序同步控制视频数据流的播放速度，并根据视频数据流中目标用户的口型数据控制数字化人物模型的口型同步变化。

通过本申请实施例提供的一种音频视频的同步系统，音频和视频的处理能够由不同的服务器进行处理，从而互相隔离，音频处理和视频处理之间互相不会受到影响，从而减少了对业务处理层的影响，进一步提高了音频数据流和视频数据流之间的同步性。此外，对音频数据流和视频数据流的同步性控制的操作由第三服务器执行，从而减少了对音频处理和视频处理的影响，进一步提高了音频数据流和视频数据流之间的同步性，减少了对业务处理层的影响。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，电子设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、装置或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于数字孪生技术的音频视频的同步方法，其特征在于，所述同步方法包括：

获取目标用户的音频数据流和视频数据流；

对所述音频数据流标记音频时间戳，对所述视频数据流标记视频时间戳，所述音频时间戳和所述视频时间戳相对应；

将所述音频数据流和所述视频数据流输入至数字化人物模型，通过所述数字化人物模型按照所述音频时间戳的时序输出所述音频数据流，以所述音频数据流的时钟为参考时钟，通过所述数字化人物模型按照所述视频时间戳的时序同步控制所述视频数据流的播放速度，并根据所述视频数据流中目标用户的口型数据控制所述数字化人物模型的口型同步变化。

2.根据权利要求1所述的基于数字孪生技术的音频视频的同步方法，其特征在于，所述对所述音频数据流标记音频时间戳，对所述视频数据流标记视频时间戳包括：

根据当前时间的网络带宽确定音频标记时间间隔和视频标记时间间隔，其中，所述网络带宽与所述音频标记时间间隔和所述视频标记时间间隔呈正比；

以本地时钟为参考，从所述音频数据流的起点开始，按照所述音频标记时间间隔对所述音频数据流标记音频时间戳，从所述视频数据流的起点开始，按照所述视频标记时间间隔对所述视频数据流标记视频时间戳。

3.根据权利要求1所述的基于数字孪生技术的音频视频的同步方法，其特征在于，所述获取目标用户的音频数据流和视频数据流包括：

获取所述目标用户的音频数据和视频数据，对所述音频数据和所述视频数据进行编码后，得到所述音频数据流和所述视频数据流；

所述通过所述数字化人物模型按照所述音频时间戳的时序输出所述音频数据流包括：

通过音频解码器解码所述音频数据流后，将解码后的音频数据流和音频数据流中各音频字节流对应的音频时间戳缓存至音频缓存区，按照所述音频时间戳的时序从所述音频缓存区中读取音频字节流并通过所述数字化人物模型播放；

所述通过所述数字化人物模型按照所述视频时间戳的时序同步控制所述视频数据流的播放速度包括：

通过视频解码器解码所述视频数据流，将解码后的视频数据流和视频数据流中各视频字节流对应的视频时间戳缓存至视频缓冲区，按照所述视频时间戳的时序从所述视频缓冲区中读取视频字节流并通过所述数字化人物模型同步控制所述视频字节流的播放速度。

4.根据权利要求3所述的基于数字孪生技术的音频视频的同步方法，其特征在于，所述音频数据的第一采集时间间隔与音频标记时间间隔相对应，所述视频数据的第二采集时间间隔与视频标记时间间隔相对应。

5.根据权利要求1-4任意一项所述的基于数字孪生技术的音频视频的同步方法，其特征在于，所述以所述音频数据流的时钟为参考时钟，通过所述数字化人物模型按照所述视频时间戳的时序同步控制所述视频数据流的播放速度包括：

以所述音频数据流的时钟为参考时钟，在所述视频数据流中当前播放的视频字节流的视频时间戳早于当前播放的音频字节流的音频时间戳的情况下，则跳转到当前播放的音频字节流的音频时间戳对应的视频时间戳的视频字节流并通过所述数字化人物模型播放，在所述视频数据流中当前播放的视频字节流的视频时间戳晚于当前播放的音频字节流的音频时间戳的情况下，则暂停所述视频数据流中当前播放的视频字节流，并在音频字节流的音频时间戳与当前播放的视频字节流的视频时间戳再次对应的情况下，再通过所述数字化人物模型控制视频数据流中当前播放的视频字节流开始播放。

6.一种基于数字孪生技术的音频视频的同步装置，其特征在于，所述装置包括：

获取模块，用于获取目标用户的音频数据流和视频数据流；

标记模块，用于对所述音频数据流标记音频时间戳，对所述视频数据流标记视频时间戳，所述音频时间戳和所述视频时间戳相对应；

同步模块，用于将所述音频数据流和所述视频数据流输入至数字化人物模型，通过所述数字化人物模型按照所述音频时间戳的时序输出所述音频数据流，以所述音频数据流的时钟为参考时钟，通过所述数字化人物模型按照所述视频时间戳的时序同步控制所述视频数据流的播放速度，并根据所述视频数据流中目标用户的口型数据控制所述数字化人物模型的口型同步变化。

7.根据权利要求6所述的基于数字孪生技术的音频视频的同步装置，其特征在于，所述标记模块，还用于根据当前时间的网络带宽确定音频标记时间间隔和视频标记时间间隔，其中，所述网络带宽与所述音频标记时间间隔和所述视频标记时间间隔呈正比；以本地时钟为参考，从所述音频数据流的起点开始，按照所述音频标记时间间隔对所述音频数据流标记音频时间戳，从所述视频数据流的起点开始，按照所述视频标记时间间隔对所述视频数据流标记视频时间戳。

8.根据权利要求6所述的基于数字孪生技术的音频视频的同步装置，其特征在于，所述同步模块，还用于以所述音频数据流的时钟为参考时钟，在所述视频数据流中当前播放的视频字节流的视频时间戳早于当前播放的音频字节流的音频时间戳的情况下，则跳转到当前播放的音频字节流的音频时间戳对应的视频时间戳的视频字节流并通过所述数字化人物模型播放，在所述视频数据流中当前播放的视频字节流的视频时间戳晚于当前播放的音频字节流的音频时间戳的情况下，则暂停所述视频数据流中当前播放的视频字节流，并在音频字节流的音频时间戳与当前播放的视频字节流的视频时间戳再次对应的情况下，再通过所述数字化人物模型控制视频数据流中当前播放的视频字节流开始播放。

9.一种音频视频的同步系统，其特征在于，包括：

第一服务器，用于获取目标用户的音频数据流，对所述音频数据流标记音频时间戳；

第二服务器，用于获取目标用户的视频数据流，对所述视频数据流标记视频时间戳，所述音频时间戳和所述视频时间戳相对应；

第三服务器，用于将所述音频数据流和所述视频数据流输入至数字化人物模型，通过所述数字化人物模型按照所述音频时间戳的时序输出所述音频数据流，以所述音频数据流的时钟为参考时钟，通过所述数字化人物模型按照所述视频时间戳的时序同步控制所述视频数据流的播放速度，并根据所述视频数据流中目标用户的口型数据控制所述数字化人物模型的口型同步变化。

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线；其中，所述处理器、所述通信接口以及所述存储器通过通信总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现如权利要求1-5任一项所述的基于数字孪生技术的音频视频的同步方法的步骤。