CN116112720A

CN116112720A - 一种基于ptp网络同步的超高清音视频同步系统

Info

Publication number: CN116112720A
Application number: CN202310104036.3A
Authority: CN
Inventors: 吴其伟; 邹伟华; 黄化吉; 江锐; 袁金保
Original assignee: WELLAV TECHNOLOGIES Ltd
Current assignee: WELLAV TECHNOLOGIES Ltd
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-05-12

Abstract

本发明公开了一种基于PTP网络同步的超高清音视频同步系统，所述系统至少包括：PTP时钟参考源，不间断地发出PTP网络协议数据包；时钟同步模块，基于PTP网络协议数据包，使本地时钟与PTP时钟参考源同步；音视频拆分模块，提取媒体输入信号中的视频数据和音频数据；视频同步模块，将提取的视频数据通过PTP网络同步到PTP时钟参考源；音频同步模块，将提取的音频数据通过PTP网络同步到PTP时钟参考源；音视频组合模块，将同步到PTP时钟参考源的视频数据和音频数据组合到一个画面帧中，得到媒体输出信号；本发明具有复杂度低、稳定性高和不强制媒体信号接口类型的优点，解决现有超高清音视频同步系统部署难度高、成本负担大、媒体信号接口支持不够完善的问题。

Description

一种基于PTP网络同步的超高清音视频同步系统

技术领域

本发明涉及音视频同步技术领域，尤其涉及一种基于PTP网络同步的超高清音视频同步系统。

背景技术

在现有技术中，媒体信号来源于各种各样的设备，比如机顶盒、卫星解码器、网络摄像头等。在设备硬件存在差异的情况下，设备之间的媒体信号必然不是同步的。现有超高清音视频使用场景中，很多都对多个媒体信号间的同步有一定的要求，例如体育场馆的多个超高清显示屏所连接的超高清音视频就要求必须是同步的，否则带来的观众视听体验将会是难以忍受。

现有的超高清音视频同步系统中，通常利用Genlock对诸如SDI接口等的媒体信号进行同步，但是利用Genlock必然会带来系统部署的复杂度以及成本的额外负担。特别是在空间较大的环境中，部署Genlock所带来的设备走线难度将会是巨大的。同时，Genlock对HDMI、DP等接口支持并不良好，部署难度大、成本负担高、媒体信号接口支持不够完善，是现有超高清音视频同步系统的问题。

发明内容

针对上述存在的超高清音视频同步系统部署难度高、成本负担大和媒体信号接口支持不够完善等问题，本发明提供了一种基于PTP网络同步的超高清音视频同步系统，具有复杂度低、稳定性高和不强制媒体信号接口类型的优点，有效解决现有超高清音视频同步系统部署难度高、成本负担大、媒体信号接口支持不够完善的问题。

为了解决上述技术问题，本发明提供的具体方案如下：

一种基于PTP网络同步的超高清音视频同步系统，所述系统至少包括：

PTP时钟参考源，不间断地发出PTP网络协议数据包；

时钟同步模块，基于所述PTP网络协议数据包，使本地时钟与所述PTP时钟参考源同步；

音视频拆分模块，提取媒体输入信号中的视频数据和音频数据；

视频同步模块，将提取的所述视频数据通过PTP网络同步到所述PTP时钟参考源；

音频同步模块，将提取的所述音频数据通过PTP网络同步到所述PTP时钟参考源；

音视频组合模块，将同步到所述PTP时钟参考源的所述视频数据和所述音频数据组合到一个画面帧中，得到媒体输出信号。

在一些实施方式中，所述基于所述PTP网络协议数据包，使本地时钟与所述PTP时钟参考源同步，包括：

基于所述PTP网络协议数据包，获取本地时钟与PTP时钟参考源的时钟差值，计算时钟频差；

将计算得到的所述时钟频差应用到本地时钟中，使本地时钟与PTP时钟参考源同步；

在PTP时钟参考源不间断地发起PTP网络协议数据包的情况下，本地时钟将会与PTP时钟参考源时钟保持在亚微秒级别时钟同步精度。

在一些实施方式中，所述提取媒体输入信号中的视频数据和音频数据，包括：

媒体输入信号中的视频数据存在于整张画面帧的有效视频部分，利用画面帧数据中的行场定位信息，定位出视频数据的有效数据段，提取视频数据；

媒体输入信号中的音频数据存在于整张画面帧的消隐部分，利用封装在消隐部分中的音频数据包头部信息，定位并提取音频数据；

基于PTP网络同步的音频同步策略与视频同步策略并不相同，因此，需要通过音视频拆分获取独立的音频和视频数据。

在一些实施方式中，所述将提取的所述视频数据通过PTP网络同步到所述PTP时钟参考源，包括：

所述视频同步模块将提取的所述视频数据同步到所述时钟同步模块的本地时钟，通过所述时钟同步模块中的本地时钟同步到所述PTP时钟参考源中；

实现视频数据同步到PTP时钟参考源亚微秒误差以内。

在一些实施方式中，所述将同步到所述PTP时钟参考源的所述视频数据和所述音频数据组合到一个画面帧中，得到媒体输出信号，包括：

将同步到所述PTP时钟参考源的所述视频数据封装在画面帧中的有效视频部分，将同步到所述PTP时钟参考源的所述音频数据封装在画面帧中的消隐部分，得到媒体输出信号；

当视频数据和音频数据分别通过视频同步模块和音频同步模块同步到PTP时钟参考源后，需要重新将视频数据和音频数据组合到一个画面帧中。

在一些实施方式中，所述将提取的所述视频数据通过PTP网络同步到所述PTP时钟参考源中，所述同步过程包括视频数据缓存过程与视频数据播放过程；

所述视频数据缓存过程，具体工作流程如下：

等待新的画面帧第一个视频数据到来后，记录当前本地时钟值；

根据所述当前本地时钟值，计算播放时钟值；

判断是否为低延时输出的应用场景，并根据判断结果将视频数据写入对应的帧缓存区域；

所述视频数据播放过程，具体工作流程如下：

等待本地时钟到达播放时刻的播放时钟值后，查找缓存中是否存在当前播放时刻的视频数据，如是，则播放缓冲中当前播放时刻的视频数据，如否，则播放缓存中上一个播放时刻的视频数据。

在一些实施方式中，所述判断是否为低延时输出的应用场景，并根据判断结果将视频数据写入对应的帧缓存区域，包括：

若为低延时输出的应用场景，则判断当前计算得到的播放时钟值是否与上一帧到来时计算得到的播放时钟值一致，若是，则把当前到来的视频数据写入到上一帧所缓存的区域中，若否，则将当前到来的视频数据写入到一个新的帧缓存区域中；

若为非低延时输出的应用场景，则无论当前计算得到的播放时钟值是否与上一帧到来时计算得到的播放时钟值一致，都将当前到来的视频数据写入到一个新的帧缓存区域中；

对于低延时输出的应用场景和非低延时输出的应用场景的处理机制存在差异，在上述两种应用场景中的当前帧数据缓存完毕后，即同样回到流程起始，等待下一个画面帧的第一个视频数据到来。

在一些实施方式中，所述视频数据播放过程中，通过播放时刻的播放时钟值控制视频数据的丢弃或重复，使PTP网络同步后的视频数据同步；

在对视频数据持续进行PTP网络同步后，长时间工作会出现帧多或者帧少两种情况，通过控制视频数据的丢弃或重复，能够实现PTP网络同步后的视频数据同步。

在一些实施方式中，所述音频同步模块，包括：

采样率时钟产生模块，用于生成与本地时钟同步的音频采样率时钟；

音频采样率转换模块，用于将未同步的音频数据同步到所述采样率时钟产生模块中生成的音频采样率时钟；

实现同步后的音频数据与PTP时钟参考源将维持在亚微秒级别的同步精度。

在一些实施方式中，所述视频数据和音频数据的同步参考源均为PTP时钟参考源，且同步精度为亚微秒级，视频数据与音频数据即同步。

本发明提供的一种基于PTP网络同步的超高清音视频同步系统，将PTP应用到超高清音视频同步系统中，利用PTP网络协议的亚微秒级别时钟同步精度的优势，实现不同设备的异步媒体信号同步到同一个时钟参考中，从而实现超高清音视频同步，基于PTP网络同步的超高清音视频同步系统部署只需要网络连接，具有复杂度低、稳定性高和不强制媒体信号接口类型的优点，有效解决现有超高清音视频同步系统部署难度高、成本负担大、媒体信号接口支持不够完善的问题。

附图说明

图1为本发明实施例中提供的一种基于PTP网络同步的超高清音视频同步系统的结构框图；

图2为本发明实施例中提供的多个基于PTP网络同步的超高清音视频同步系统的使用场景图；

图3为本发明实施例中提供的视频数据缓存过程的流程图；

图4为本发明实施例中提供的视频数据播放过程的流程图；

图5为本发明实施例中提供的音频同步模块的结构框图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述。所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。

因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

例如，一种基于PTP网络同步的超高清音视频同步系统，所述系统至少包括：PTP时钟参考源，不间断地发出PTP网络协议数据包；时钟同步模块，基于所述PTP网络协议数据包，使本地时钟与所述PTP时钟参考源同步；音视频拆分模块，提取媒体输入信号中的视频数据和音频数据；视频同步模块，将提取的所述视频数据通过PTP网络同步到所述PTP时钟参考源；音频同步模块，将提取的所述音频数据通过PTP网络同步到所述PTP时钟参考源；音视频组合模块，将同步到所述PTP时钟参考源的所述视频数据和所述音频数据组合到一个画面帧中，得到媒体输出信号。

本实施例提供的一种基于PTP网络同步的超高清音视频同步系统，将PTP应用到超高清音视频同步系统中，利用PTP网络协议的亚微秒级别时钟同步精度的优势，实现不同设备的异步媒体信号同步到同一个时钟参考中，从而实现超高清音视频同步，基于PTP网络同步的超高清音视频同步系统部署只需要网络连接，具有复杂度低、稳定性高和不强制媒体信号接口类型的优点，有效解决现有超高清音视频同步系统部署难度高、成本负担大、媒体信号接口支持不够完善的问题。

实施例一：

如图1和图2所示，一种基于PTP网络同步的超高清音视频同步系统，至少包括PTP时钟参考源、时钟同步模块、音视频拆分模块、视频同步模块、音频同步模块和音视频组合模块。

其中，PTP时钟参考源，用于不间断地发出PTP网络协议数据包，便于本地时钟与PTP时钟参考源时钟保持在亚微秒级别时钟同步精度。PTP时钟参考源，作为系统的时钟参考源，通常情况下为能够进行PTP网络协议数据包交互的PTP主机，PTP时钟参考源依赖一个稳定的全局时钟，如GPS等，尽管环境中可能存在多个PTP时钟参考源，但由于PTP时钟参考源依赖同一个稳定的全局时钟情况下，PTP时钟参考源彼此间便是同步的。

时钟同步模块，基于PTP网络协议数据包，使本地时钟与PTP时钟参考源同步。

时钟同步模块作为系统处理PTP网络协议数据包，并依据PTP网络同步将本地时钟同步到PTP时钟参考源的模块。在PTP网络协议能够达到亚微秒级别时钟同步精度的情况下，通过时钟同步模块，可以将本地时钟同步到PTP时钟参考源亚微秒误差以内。

音视频拆分模块，提取媒体输入信号中的视频数据和音频数据。

基于PTP网络同步的音频同步策略与视频同步策略并不相同，因此，需要通过音视频拆分获取独立的音频数据和视频数据。

视频同步模块，将提取的视频数据通过PTP网络同步到PTP时钟参考源。

由音视频拆分模块拆分得到的独立视频数据从媒体输入信号中提取而来，其速率与媒体输入信号同步，经视频同步模块通过PTP网络同步到PTP时钟参考源亚微秒误差以内。

音频同步模块，将提取的所述音频数据通过PTP网络同步到所述PTP时钟参考源。

由音视频拆分模块拆分得到的独立音频数据从媒体输入信号中提取而来，其速率与媒体输入信号同步，经音频同步模块通过PTP网络同步到PTP时钟参考源亚微秒误差以内。

音视频组合模块，将同步到PTP时钟参考源的视频数据和音频数据组合到一个画面帧中，得到媒体输出信号。

基于PTP网络同步的音频同步策略与视频同步策略并不相同，因此需要通过音视频拆分模块，将视频数据和音频数据从媒体输入信号中拆分出来；当视频数据和音频数据分别通过视频同步模块和音频同步模块同步到PTP时钟参考源后，需要重新将视频数据和音频数据组合到一个画面帧中，得到媒体输出信号。

本示例中提供的一种基于PTP网络同步的超高清音视频同步系统，如图2所示，在多个媒体信号的使用场景中，可集成多个基于PTP网络同步的超高清音视频同步系统，利用PTP网络协议的亚微秒级别时钟同步精度的优势，多个基于PTP网络同步的超高清音视频同步系统将多个异步媒体输入信号同步到同一个PTP时钟参考源中，从而实现多个异步媒体信号的同步，基于PTP网络同步的超高清音视频同步系统复杂度低，稳定性高，不强制媒体信号接口类型，有效解决现有超高清音视频同步系统部署难度高、成本负担大、媒体信号接口支持不够完善的问题。

实施例二：

在该示例中，基于所述PTP网络协议数据包，使本地时钟与所述PTP时钟参考源同步，包括：

基于所述PTP网络协议数据包，获取本地时钟与PTP时钟参考源的时钟差值，计算时钟频差。

具体计算过程为，将时钟差值，除以得到时钟差值的时间间隔得到的值即为本地时钟与PTP时钟参考源每秒时的时钟频差。如，两次PTP时钟同步过程的时间间隔为0.125s，本地时钟变化值和PTP时钟参考源的时钟变化值通过这两次PTP时钟同步过程中的PTP网络协议数据包中获取，然后将两者变化值相减，得到时钟差值，而得到时钟差值的时间间隔为0.125s。将时钟差值除以0.125s即可得到上述的本地时钟与PTP时钟参考源每秒时的时钟频差。由于存在网络抖动以及运算误差，通常情况下可加入滤波算法对计算得到的时钟频差进行优化。

将计算得到的所述时钟频差应用到本地时钟中，使本地时钟与PTP时钟参考源同步。

在PTP时钟参考源不间断地发起PTP网络协议数据包的情况下，本地时钟将会与PTP时钟参考源时钟保持在亚微秒级别时钟同步精度。进一步的，由于网络抖动的不确定性，在计算本地时钟与PTP时钟参考源的时钟频差时通常采用滤波算法。在本发明实施例中，对采用何种方式获取及解析PTP时钟参考源发起的PTP网络协议数据包进而计算本地时钟与PTP时钟参考源的时钟频差不做约束。

实施例三：

媒体输入信号中的音频数据存在于整张画面帧的消隐部分，利用封装在消隐部分中的音频数据包头部信息，定位并提取音频数据。

基于PTP网络同步的音频同步策略与视频同步策略并不相同，因此，需要通过音视频拆分获取独立的音频和视频数据。通常情况下，媒体输入信号中的音频数据存在于整张画面帧的消隐部分，视频数据存在于整张画面帧的有效视频部分，利用封装在消隐部分中的音频数据包头部信息，可以定位并提取音频数据；利用画面帧数据中的行场定位信息，可以定位出视频数据的有效数据段，提取视频数据，从而得到独立的音频数据和视频数据。

对于采用HDMI转MIPI之类的媒体输入接口芯片，其芯片内部会完成音频数据和视频数据的拆分，并通过独立的接口进行传输，通过不同的接口接收音频数据和视频数据，获取独立的音频数据和视频数据。在本发明实施例中，对采用何种方法拆分和获取媒体信号输入中的音频数据和视频数据不作约束。

实施例四：

在该示例中，所述将提取的所述视频数据通过PTP网络同步到所述PTP时钟参考源，包括：

所述视频同步模块将提取的所述视频数据同步到所述时钟同步模块的本地时钟，通过所述时钟同步模块中的本地时钟同步到所述PTP时钟参考源中；实现视频数据同步到PTP时钟参考源亚微秒误差以内。

视频数据从媒体输入信号中提取而来，其速率与媒体输入信号同步，视频同步模块将视频数据同步到时钟同步模块中的本地时钟，通过时钟同步模块中的本地时钟同步到PTP时钟参考源亚微秒误差以内，从而实现视频数据同步到PTP时钟参考源亚微秒误差以内。

同理的，所述将提取的所述音频数据通过PTP网络同步到所述PTP时钟参考源，包括：

所述音频同步模块将提取的所述音频数据同步到所述时钟同步模块的本地时钟，通过所述时钟同步模块中的本地时钟同步到所述PTP时钟参考源中；实现音频数据同步到PTP时钟参考源亚微秒误差以内。

与视频数据类似，音频数据从媒体输入信号中提取而来，其速率与媒体输入信号同步，音频同步模块将音频数据同步到时钟同步模块中的本地时钟，通过时钟同步模块中的本地时钟同步到PTP时钟参考源亚微秒误差以内，从而实现音频数据同步到PTP时钟参考源亚微秒误差以内。

其中，所述将同步到所述PTP时钟参考源的所述视频数据和所述音频数据组合到一个画面帧中，得到媒体输出信号，包括：

由于本发明实施例中基于PTP网络同步的音频同步策略与视频同步策略并不相同，因此需要在音视频拆分模块的拆分过程中，将音频数据和视频数据从媒体输入信号中拆分出来，当视频数据和音频数据分别通过视频同步模块和音频同步模块同步到PTP时钟参考源后，需要重新将视频数据和音频数据组合到一个画面帧中。

将音频数据封装在画面帧中的消隐部分，视频数据封装在画面帧中的有效视频部分，即可得到媒体输出信号。对于采用MIPI转HDMI之类的媒体输出接口芯片，其芯片可通过独立的音频和视频接口分别获取音频数据和视频数据，并在芯片内部完成音视频组合动作，得到媒体输出信号。在本发明实施例中，对采用何种方法组合音频数据和视频数据成媒体输出信号不作约束。

实施例五：

如图3和图4所示，在一些实施方式中，所述将提取的所述视频数据通过PTP网络同步到所述PTP时钟参考源中，所述同步过程包括视频数据缓存过程与视频数据播放过程；

所述视频数据缓存过程，具体工作流程如下：

根据所述当前本地时钟值，计算播放时钟值；

判断是否为低延时输出的应用场景，并根据判断结果将视频数据写入对应的帧缓存区域。

视频数据以帧为单位存储到缓存区域中，首先等待画面帧的第一个视频数据到来后，通常情况下，画面帧的第一个视频数据为第一行第一个像素点，此时，记录当前的本地时钟值，再根据本地时钟值，查找其播放时的播放时钟值。在PTP网络同步后，对视频帧数据播放有严格要求，视频帧数据播放的帧间时间间隔需要满足PTP网络同步后的本地时钟所计算的视频帧间时间间隔。如帧率为25Hz的2160P视频，在PTP网络同步后，视频帧间时间间隔为本地时钟计算下固定的40ms。因此，根据固定的时间间隔以及固定的本地时钟基值，可以计算出每一帧起始播放时刻的播放时钟值。其中，本地时钟基值与PTP时钟参考源相关，通常从0开始。

进一步的，对于希望通过播放时延来控制视频播放时刻的系统来说，在计算得到的每一帧起始播放时刻的播放时钟值基础上添加一个固定的延时时间即可实现。根据第一个视频数据到来时所记录的本地时钟值，计算最近的播放时钟值，作为这一帧视频数据起始播放的时刻。

所述视频数据播放过程，具体工作流程如下：

上述提到，每一帧起始播放时刻的播放时钟值是可以计算得到的，等待本地时钟到达播放时刻的播放时钟值后，查找缓存中是否存在当前播放时刻的视频数据。若缓存中存在当前播放时刻的视频数据，则播放缓冲中当前播放时刻的视频数据；若缓存中不存在当前播放时刻的视频数据，则播放旧的播放时刻对应缓存区域中的视频数据，旧的播放时刻通常指的是上一个播放时刻，即播放上一个画面帧视频数据。

上述播放时钟值为当前到来画面帧视频将要播放的时刻，其决定当前到来的画面帧何时播放。在低延时输出的应用场景中，播放时刻一致的画面帧缓存到一样的区域中，使后面到来的画面帧更及时的播放出去，达到低延时的目的。但是这一过程会导致播放时有可能出现一帧画面出现两帧的视频数据，如画面上半部分为旧一帧的视频画面，下半部分为新一帧的视频画面。多帧画面数据同时写到一个缓存区域时不可避免地发生类似这种“撕裂”的画面问题。类似这种“撕裂”的画面问题不会频繁发生，通常跟未同步前的视频数据速率与同步后的视频帧速率差值有关。在非低延时的应用场景中，不同帧的视频数据缓存到不同区域中，帧与帧之间不存在交集，因此播放时画面不会受到影响。

未同步前的视频数据速率与同步后的视频数据速率不会完全相等，在本发明实施例中对视频数据持续进行PTP网络同步后，长时间工作会出现“帧多”或者“帧少”这两种情况。“帧多”指的是未同步前的视频数据到来速率快于同步后的视频数据播放速率，视频数据逐步堆积，逐渐多出一帧视频数据。在本发明实施例中，表现为两个画面帧的视频数据到来后所计算得到的播放时刻的播放时钟值一致。在上述视频数据播放工作流程中，播放时会查找缓存中符合当前播放时刻的播放时钟值的视频数据，即使有两个画面帧视频数据的播放时刻一致，由于播放时刻过去后不会再进行播放，因此只会播放两个画面帧视频数据中的其中一帧，另外一帧则不播放，相当于将该帧视频数据“丢弃”。“帧少”指的是未同步前的视频数据到来速率慢于同步后的视频数据播放速率，出现缓存中不存在属于当前播放时刻的视频数据。在这种情况下，由于新的视频数据还没到来，但播放时刻已到，因此只能播放缓存中属于旧的播放时刻的视频数据，通常为上一个播放时刻的视频数据，即上一帧视频数据，相当于将上一帧视频数据“重复”。通过播放时刻的播放时钟值控制视频数据“丢弃”和帧视频数据“重复”来实现PTP网络同步后的视频数据速率同步。

在PTP网络协议的亚微秒级别时钟同步精度的情况下，本地时钟与PTP时钟参考源维持着亚微秒级别的同步精度，通过计算得到视频数据播放时刻的播放时钟值，当本地时钟到达播放时刻时，将视频数据播放出去，播放出去的视频数据与PTP时钟参考源将会维持在亚微秒级别的同步精度，实现PTP网络同步后的视频数据输出。

实施例六：

如图5所示，在该示例中，所述音频同步模块，包括：

采样率时钟产生模块，用于生成与本地时钟同步的音频采样率时钟。

在上述时钟同步模块持续工作过程中，本地时钟将会与PTP时钟参考源始终维持着亚微秒级别时钟同步精度。因此产生的音频采样率时钟与PTP时钟参考源也维持着亚微秒级别时钟同步精度。产生的音频采样率时钟可以不必与输入的音频数据采样率一致，如输入的是48kHz采样率音频，如果用户希望得到同步后的44.1kHz音频，则可以控制采样率时钟产生模块产生44.1kHz采样率时钟。产生采样率时钟的方法可以为创建一个本地时钟的计数器，当计数到某个确定的值后产生一个采样率时钟，也可以利用时钟产生芯片基于本地时钟产生采样率时钟等，在本发明实施例中，对采用何种方法生成音频采样率时钟不做约束。

音频采样率转换模块，用于将未同步的音频数据同步到所述采样率时钟产生模块中生成的音频采样率时钟；实现同步后的音频数据与PTP时钟参考源将维持在亚微秒级别的同步精度。

未同步的音频数据通过上述音视频拆分模块中提取出来，其音频采样率与上述采样率时钟产生模块中生成的音频采样率时钟不会完全相同，音频采样率转换模块将会涉及到音频数据的采样率变换。采用诸如FIR滤波器算法可以很方便的实现音频数据的采样率变换。如果对音频数据的连续性没有要求，简单地“丢弃”或“重复”音频数据样点也能够实现采样率变换。在本发明实施例中，对采用何种方法实现音频数据的采样率转换不做约束。

具体的，所述视频数据和音频数据的同步参考源均为PTP时钟参考源，且同步精度为亚微秒级，视频数据与音频数据即同步。体现为，视频同步模块实现视频数据与PTP时钟参考源维持亚微秒级别的同步精度，上述音频同步模块实现音频数据与PTP时钟参考源维持亚微秒级别的同步精度。视频数据和音频数据的同步参考源均为PTP时钟参考源且同步精度为亚微秒级，音频数据和视频数据即同步。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述的内容，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于PTP网络同步的超高清音视频同步系统，其特征在于，所述系统至少包括：

PTP时钟参考源，不间断地发出PTP网络协议数据包；

2.根据权利要求1所述的基于PTP网络同步的超高清音视频同步系统，其特征在于，所述基于所述PTP网络协议数据包，使本地时钟与所述PTP时钟参考源同步，包括：

3.根据权利要求1所述的基于PTP网络同步的超高清音视频同步系统，其特征在于，所述提取媒体输入信号中的视频数据和音频数据，包括：

4.根据权利要求1所述的基于PTP网络同步的超高清音视频同步系统，其特征在于，所述将提取的所述视频数据通过PTP网络同步到所述PTP时钟参考源，包括：

所述视频同步模块将提取的所述视频数据同步到所述时钟同步模块的本地时钟，通过所述时钟同步模块中的本地时钟同步到所述PTP时钟参考源中。

5.根据权利要求1所述的基于PTP网络同步的超高清音视频同步系统，其特征在于，所述将同步到所述PTP时钟参考源的所述视频数据和所述音频数据组合到一个画面帧中，得到媒体输出信号，包括：

将同步到所述PTP时钟参考源的所述视频数据封装在画面帧中的有效视频部分，将同步到所述PTP时钟参考源的所述音频数据封装在画面帧中的消隐部分，得到媒体输出信号。

6.根据权利要求1所述的基于PTP网络同步的超高清音视频同步系统，其特征在于，所述将提取的所述视频数据通过PTP网络同步到所述PTP时钟参考源中，所述同步过程包括视频数据缓存过程与视频数据播放过程；

所述视频数据缓存过程，具体工作流程如下：

根据所述当前本地时钟值，计算播放时钟值；

所述视频数据播放过程，具体工作流程如下：

7.根据权利要求6所述的基于PTP网络同步的超高清音视频同步系统，其特征在于，所述判断是否为低延时输出的应用场景，并根据判断结果将视频数据写入对应的帧缓存区域，包括：

若为非低延时输出的应用场景，则无论当前计算得到的播放时钟值是否与上一帧到来时计算得到的播放时钟值一致，都将当前到来的视频数据写入到一个新的帧缓存区域中。

8.根据权利要求6所述的基于PTP网络同步的超高清音视频同步系统，其特征在于，所述视频数据播放过程中，通过播放时刻的播放时钟值控制视频数据的丢弃或重复，使PTP网络同步后的视频数据同步。

9.根据权利要求1所述的基于PTP网络同步的超高清音视频同步系统，其特征在于，所述音频同步模块，包括：

音频采样率转换模块，用于将未同步的音频数据同步到所述采样率时钟产生模块中生成的音频采样率时钟。

10.根据权利要求1-9中任一项所述的基于PTP网络同步的超高清音视频同步系统，其特征在于，所述视频数据和音频数据的同步参考源均为PTP时钟参考源，且同步精度为亚微秒级。