CN114339454A - 音视频同步方法、装置、电子装置和存储介质 - Google Patents

音视频同步方法、装置、电子装置和存储介质 Download PDF

Info

Publication number
CN114339454A
CN114339454A CN202210236679.9A CN202210236679A CN114339454A CN 114339454 A CN114339454 A CN 114339454A CN 202210236679 A CN202210236679 A CN 202210236679A CN 114339454 A CN114339454 A CN 114339454A
Authority
CN
China
Prior art keywords
audio
video
frame
identification information
time stamp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210236679.9A
Other languages
English (en)
Inventor
潘冬冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202210236679.9A priority Critical patent/CN114339454A/zh
Publication of CN114339454A publication Critical patent/CN114339454A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请涉及一种音视频同步方法、装置、电子装置和存储介质,其中,该音视频同步方法包括:通过采集过程中的同一采集时刻确定音频标识信息和视频标识信息,进而确定对应的有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧,然后根据该参考音频帧的时间戳和参考视频帧的时间戳对待校正音频帧的时间戳和/或待校正视频帧的时间戳进行调整。通过本申请,解决了在时间戳本身存在偏差的情况下,易导致依赖于时间戳实现音视频同步时准确度较低的问题,提高了音视频同步过程的准确度。

Description

音视频同步方法、装置、电子装置和存储介质
技术领域
本申请涉及音视频编解码技术领域,特别是涉及音视频同步方法、装置、电子装置和存储介质。
背景技术
在终端设备或电视机等设备中播放音视频数据时,播放的画面和声音需要保持同步,以保证用户的观看体验。一般来说,设备在采集到音视频数据后,需要将视频数据和音频数据同步输入至不同的通道进行处理后才能输出播放,由于处理视频数据的过程较为繁琐、耗费时长较长,故很容易出现播放的音视频数据不同步的现象。
在相关技术中,音视频同步需要基于编码数据中音频和视频的时间戳信息实现,具体为根据音频和视频播放的时间戳进行音视频同步检测以及控制。然而,若视频的时间戳信息和音频的时间戳信息本身存在偏差的,那么在播放时音视频无法实现完全同步。
针对相关技术中,在时间戳本身存在偏差的情况下,易导致依赖于时间戳实现音视频同步时准确度较低的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种音视频同步方法、装置、电子装置和存储介质,以解决相关技术中依赖于时间戳实现音视频同步,容易导致音视频同步时的准确度较低的问题。
第一个方面,在本实施例中提供了一种音视频同步方法,包括:
分别获取具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧,其中,所述音频标识信息和所述视频标识信息在采集过程中的同一采集时刻标记得到;
根据所述参考音频帧的时间戳和所述参考视频帧的时间戳确定校正差值;
根据所述校正差值对待校正音频帧的时间戳和/或待校正视频帧的时间戳进行调整。
在其中的一些实施例中,所述分别获取具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧包括:
对模数转换后的脉冲编码调制数据进行解析,获取具有音频标识信息的参考音频帧;和/或,
对模数转换后的颜色编码数据进行解析,获取具有视频标识信息的参考视频帧。
在其中的一些实施例中,所述音频标识信息为预设音频信号;和/或,所述视频标识信息为预设视频信号。
在其中的一些实施例中,在分别获取具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧之前,所述方法包括:
根据预设时间周期,在采集时刻对音频数据添加所述音频标识信息,对视频数据添加所述视频标识信息。
在其中的一些实施例中,在根据所述校正差值对待校正音频帧的时间戳和/或待校正视频帧的时间戳进行调整之后,所述方法还包括:
将具有所述音频标识信息的参考音频帧进行数据还原,以得到初始的参考音频帧进行音频编码;
将具有所述视频标识信息的参考视频帧进行数据还原,以得到初始的参考视频帧进行视频编码。
在其中的一些实施例中,在分别获取具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧之前,所述方法包括:
对音频数据中的所有音频帧添加时间戳;
对视频数据中的所有视频帧添加时间戳。
在其中的一些实施例中,所述根据所述参考音频帧的时间戳和所述参考视频帧的时间戳确定校正差值包括:
在所述参考音频帧的时间戳和所述参考视频帧的时间戳之间的差值大于或者等于预设时间差值的情况下,根据所述参考音频帧的时间戳和所述参考视频帧的时间戳确定参考时间戳;
根据所述参考时间戳与所述参考音频帧的时间戳之间的差值得到所述校正差值,或者,根据所述参考时间戳与所述参考视频帧的时间戳之间的差值得到所述校正差值。
在其中的一些实施例中,在所述根据所述校正差值对待校正音频帧的时间戳和/或待校正视频帧的时间戳进行调整之后,所述方法包括:
对调整后的待校正音频帧和/或调整后的待校正视频帧进行编码。
第二个方面,在本实施例中提供了一种音视频同步装置,包括获取模块、确定模块和调整模块:
所述获取模块,用于分别获取具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧,其中,所述音频标识信息和所述视频标识信息在采集过程中的同一采集时刻标记得到;
所述确定模块,用于根据所述参考音频帧的时间戳和所述参考视频帧的时间戳确定校正差值;
所述调整模块,用于根据所述校正差值对待校正音频帧的时间戳和/或待校正视频帧的时间戳进行调整。
第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的音视频同步方法。
第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的音视频同步方法。
与相关技术相比,在本实施例中提供的音视频同步方法,通过采集过程中的同一采集时刻确定音频标识信息和视频标识信息,进而确定对应的有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧,然后根据该参考音频帧的时间戳和参考视频帧的时间戳对待校正音频帧的时间戳和/或待校正视频帧的时间戳进行调整,由于在同步过程中,同步的依据不仅是时间戳,还有采集过程中同一采集时刻得到的音频标识信息和视频标识信息,因此解决了在时间戳本身存在偏差的情况下,易导致依赖于时间戳实现音视频同步时准确度较低的问题,提高了音视频同步过程的准确度。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本实施例的音视频同步方法的终端的硬件结构框图。
图2是相关技术中音频帧时间戳和视频帧时间戳的对比示意图。
图3是本实施例的音视频同步方法的流程图。
图4是本实施例的音频标识信息和视频标识信息的示意图。
图5是本实施例的解析音频标识信息的示意图。
图6是根据本实施例的确定校正差值的方法的流程图。
图7是本优选实施例的音视频同步的示意图。
图8是本优选实施例的音视频同步的方法的流程图。
图9是本实施例的音视频同步装置的结构框图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的音视频同步方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的音视频同步方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
图2是相关技术中音频帧时间戳和视频帧时间戳的对比示意图,如图2所示,Ta1至Ta11表示不同音频帧的时间戳,Tv1至Tv6表示不同视频帧的时间戳。可以看出,在对音频数据和视频数据进行处理的过程中,会存在缓存队列或者处理调度上的问题,从而会导致同一时刻从编码器中拿出的数据,并不是真正同一时刻的音频和视频,因此即使时间戳的序号相同,对应的视频帧和音频帧也不一定是真实同步的。
针对上述问题,本实施例中提供了一种音视频同步方法,图3是本实施例的音视频同步方法的流程图,如图3所示,该流程包括如下步骤:
步骤S301,分别获取具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧,其中,所述音频标识信息和所述视频标识信息在采集过程中的同一采集时刻标记得到。
本实施例把对音频数据和视频数据进行匹配的过程前置,在对音频数据和视频数据进行采集的过程中实现音频数据和视频数据的对应。具体的,通过添加音频标识信息和视频标识信息的方法来实现参考音频帧和参考视频帧的对应,例如,在同一采集时刻将采集到的音频数据和视频数据先进行标记,得到音频标识信息和视频标识信息。由于在采集时,音频数据和视频数据是同时采集的,所以在对音视频进行后续编解码的过程中,可以根据该音频标识信息和视频标识信息确定时间上真实对应的参考音频帧和参考视频帧,以实现音频数据和视频数据的同步校正。
步骤S302,根据参考音频帧的时间戳和参考视频帧的时间戳确定校正差值。
通常情况下,音频数据包括多个音频帧,同样的,视频数据包括多个视频帧。在对多个视频帧和多个音频帧分别进行编解码的过程中,受到缓存队列或者数据处理进程阻塞的影响,同一时刻采集的视频帧的时间戳和音频帧的时间戳不一致,此时需要对时间戳进行校正,本实施例中,该校正差值由参考音频帧的时间戳和参考视频帧的时间戳得到。
步骤S303,根据校正差值对待校正音频帧的时间戳和/或待校正视频帧的时间戳进行调整。
需要说明的是,待校正音频帧可以包括音频数据中除参考音频帧之外的所有音频帧,待校正视频帧可以包括视频数据中除参考视频帧之外的所有视频帧。在校正时,若以参考音频帧为标准,此时待校正视频帧还包括参考视频帧,同样的,若以参考视频帧为标准,此时待校正音频帧还包括参考音频帧。
调整的具体方式为,在待校正音频帧的时间戳和/或待校正视频帧的时间戳的基础上,修正校正差值,得到修正后的时间戳,作为音视频同步的结果。
通过上述步骤S301至步骤S303,在采集过程中完成参考音频帧和参考视频帧之间对应关系的标记,可以得到在时间上真实对应的音频帧和视频帧。在此基础上,本实施例中的音视频同步,不仅依赖时间戳,还需要根据具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧实现。由于在采集过程中得到的音频标识信息和视频标识信息不会受到缓存处理等因素的影响,所以音频标识信息和视频标识信息之间的对应关系准确度较高,因此解决了在时间戳本身存在偏差的情况下,易导致依赖于时间戳实现音视频同步时准确度较低的问题,提高了音视频同步过程的准确度。
进一步的,在对待校正音频帧的时间戳和待矫正视频帧的时间戳进行调整之后,对调整后的待校正音频帧和/或调整后的待校正视频帧进行编码,以完成音视频同步过程。
具体地,音频标识信息可以为具有规律的预设音频信号,例如,方波、三角波等等,视频标识信息可以为特殊的预设视频信号,例如具有规律的颜色信息或者亮度信息。本实施例中,将预设音频信号和预设视频信号分别作为音频标识信息和视频标识信息,有利于提高音频标识信息和视频标识信息的识别速度。图4是本实施例的音频标识信息和视频标识信息的示意图,如图4所示,可以在音频数据和视频数据采集的过程中,在音频数据中添加有规律的方波作为音频标识信息,在视频数据中添加特殊标识信号作为视频标识信息,以提高音频标识信息和视频标识信息的识别度。
在其中的一些实施例中,对模数转换后数字信号格式的音频数据进行解析,获取具有音频标识信息的参考音频帧;和/或,对模数转换后数字信号格式的视频数据进行解析,获取具有视频标识信息的参考视频帧。优选地,音频标识信息能够体现在音频数据中的脉冲编码调制(Pulse Code Modulation,简称为PCM)数据中,该PCM数据是对连续变化的模拟信号进行抽样、量化和编码产生的数字信号,PCM参数通常包括采样频率、量化位数、通道个数、符号位、字节数、整形或者浮点型等等。因此,在对音频数据进行编码之前,可以对所述音频数据中的PCM数据进行解析,获取具有所述音频标识信息的参考音频帧。
另一方面,视频标识信息能够体现在视频数据的颜色编码数据中,其中,颜色编码数据为能够表示视频帧中像素信息的数据,可以为RGB格式,RGB分别表示红(Red)、绿(Green)、蓝(Blue),也可以为YUV格式,其中,Y表示明亮度(Luminance Luma),U和V表示色度(Chrominance chroma)。由于每个视频帧由有效行和消隐行组成,只有在有效行上的视频信息才被编码,因此本实施例中颜色编码数据通常指有效行的颜色编码数据。以YUV格式的颜色编码数据为例,视频标识信息可以为Y数据,也可以为U数据或者V数据。因此,对颜色编码数据进行解析,获取具有所述视频标识信息的参考视频帧。优选地,可以在YUV数据中添加一行特殊的亮度信息作为视频标识信息。
示例性的,图5是本实施例的解析音频标识信息的示意图,如图5所示,为一帧音频帧的PCM数据,实线框中为添加在PCM数据中的音频标识信息,实质上为方波。该帧音频数据的采样率为8kHz,位深(bit-depth)为16,其中,位深用于描述存储数字信号值的字节数。
通过对脉冲编码调制数据中的音频标识信息进行解析,和/或对颜色编码数据中的视频标识信息进行解析,能够更加便捷、快速地确定参考视频帧和参考音频帧,从而提高音视频同步效率。
在其中一些实施例中,需要在采集时刻,根据预设时间周期对音频数据添加音频标识信息,对视频数据添加视频标识信息。具体地,每隔预设时间周期,在音频数据中添加该音频标识信息,同时在视频数据中添加视频标识信息,优选地,各预设时间周期的视频标识信息不同,各预设时间周期的音频标识信息也不同,以避免相同的标识信息可能带来的干扰。预设时间周期可以根据对音视频同步的精度需求进行设置。在精度要求较高的情况下,预设时间周期可以较短,精度要求较低的情况下,预设时间周期可以长一些。本实施例中通过设置预设时间周期,能够根据需求调节音视频同步的精度。
在其中一些实施例中,由于进行音视频同步需要根据时间戳实现,所以在获取参考音频帧和参考视频帧之前,需要对音频数据中的所有音频帧添加时间戳,对视频数据中的所有视频帧添加时间戳,以实现音视频同步。需要说明的是,由于音频数据和视频数据的处理过程是分开进行的,所以即使是同一时刻采集的参考音频帧和参考视频帧,由于各自的处理速度不同,编解码过程中二者的时间戳也可能不对应。
在其中的一些实施中,在根据校正差值对待校正音频帧的时间戳和/或待校正视频帧的时间戳进行调整之后,需要将具有音频标识信息的参考音频帧进行数据还原,具体为将参考音频帧中的音频标识信息删除,以得到初始的参考音频帧进行音频编码,同时将具有视频标识信息的参考视频帧进行数据还原,具体为将参考视频帧中的视频标识信息删除,以得到初始的参考视频帧进行视频编码。因此,通过对参考音频帧和参考视频帧进行数据还原,本实施例可以消除音频标识信息和视频标识信息对原有音视频数据的影响,避免数据损失。
在其中一些实施例中,图6是根据本实施例的确定校正差值的方法的流程图,如图6所示,该方法包括如下步骤:
步骤S601,在参考音频帧的时间戳和参考视频帧的时间戳之间的差值大于或者等于预设时间差值的情况下,根据参考音频帧的时间戳和参考视频帧的时间戳确定参考时间戳。
通常情况下,在进行音视频同步的过程中,会有一个预设时间差值,若音频帧时间戳与视频帧的时间戳之间的差值大于或者等于该预设时间差值,则认为需要进行音视频同步校正,若音频帧时间戳与视频帧的时间戳之间的差值小于该预设时间差值,则认为音频帧和视频帧已经同步,不需要进行音视频同步校正。
本实施例中根据参考音频帧的时间戳和参考视频帧的时间戳进行音视频同步,因此需要先根据参考音频帧的时间戳和参考视频帧的时间戳确定校正标准。具体地,可以在参考音频帧的时间戳和参考视频帧的时间戳中选择一个作为参考时间戳,也可以计算两个时间戳的平均值或者加权平均值作为参考时间戳。进一步地,由于缓存较多和数据处理较慢的原因,可能会存在标记的时间戳比真实的时间戳靠后,因此在两个时间戳中选择一个作为参考时间戳时,通常选择时间在前的时间戳作为参考时间戳。
步骤S602,根据参考时间戳与参考音频帧的时间戳之间的差值得到校正差值,或者,根据参考时间戳与参考视频帧的时间戳之间的差值得到校正差值。
具体地,在以参考视频帧的时间戳作为参考时间戳之后,可以根据参考音频帧的时间戳与参考时间戳之间的差值得到校正差值;在以参考音频帧的时间戳作为参考时间戳之后,可以根据参考视频帧的时间戳与参考时间戳之间的差值得到校正差值;在根据参考视频帧的时间戳和参考音频帧的时间戳计算得到参考时间戳的情况下,可以在两个时间戳中选择一个时间戳,并计算其与参考时间戳的差值,得到校正差值。
通过上述步骤S601和步骤S602,根据参考音频帧的时间戳和参考视频帧的时间戳先确定参考时间戳,再根据参考时间戳得到校正差值,以进一步地提高音视频同步的准确度。
下面通过优选实施例对本实施例进行描述和说明。
在相关技术中,在对音频数据和视频数据进行处理的过程中,会存在缓存队列或者处理调度上的问题,从而会导致同一时刻从编码器中拿出的数据,并不是真正同一时刻的音频和视频,因此即使时间戳的序号相同,对应的视频帧和音频帧也不一定是真实同步的。
针对上述问题,本优选实施例给出了一种音视频同步的方法,图7是本优选实施例的音视频同步的示意图,如图7所示,分别给出了音频数据通路和视频数据通路,具体地,基于上述音视频同步的示意图,图8是本优选实施例的音视频同步的方法的流程图,如图8所示,该方法包括如下步骤:
步骤S801,在采集到音频数据和视频数据的过程中,每隔预设时间周期,例如若干秒,对音频数据添加音频标识信息,对视频数据添加视频标识信息。具体地,可以通过寄存器设置,在音频数据模数转换时进行添加,在视频数据模数识别过程中,对视频数据的行信息进行添加,然后再将视频的模拟信号转换为数字信号。音频标识信息和视频标识信息的作用为,可以对数字信号进行数据分析得到对应的参考视频帧和参考音频帧,并认为它们是同一时刻的数据,优选的,音频标识信息为PCM数据中的规律标识,视频标识信息设置在YUV数据的有效行中。
步骤S802,在转换后的数字信号中,对音频数据和视频数据进行分析,得到具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧。具体为,对于音频数据,对PCM数据进行数据解析,在匹配到对应的音频标识信息之后,确定该帧数据为参考音频帧,并在参考音频帧后打上Tax作为时间戳;对于视频数据,对YUV数据中的亮度信号,例如Y分量的第一行数据进行解析,通过解析第一行YUV亮度值来确定该视频帧是否为参考视频帧,在确定为参考视频帧之后打上Tvx作为时间戳。
步骤S803,计算Tax和Tvx的差值并进行阈值判断,在该差值小于预设时间差值△t的情况下认为参考视频帧和参考音频帧已经同步,不做处理,在该差值大于或者等于预设时间差值的情况下,判断Tax和Tvx的大小关系。
步骤S804,在Tax≤Tvx的情况下,将Tax作为参考时间戳Trx,将|Tax-Tvx|的值作为校正差值△T,将参考视频帧的时间戳Tvx修正为Trx,且在得到下一个参考视频帧和参考音频帧之前,将其他所有的视频帧的时间戳均修正△T。
步骤S805,在Tax>Tvx的情况下,将Tvx作为参考时间戳Trx,将|Tax-Tvx|的值作为校正差值△T,将参考音频帧的时间戳Tax修正为Trx,且在得到下一个参考视频帧和参考音频帧之前,将其他所有的音频帧的时间戳均修正△T。
步骤S806,对参考音频帧和参考视频帧进行数据还原。
步骤S807,对还原后的参考音频帧和参考视频帧,以及其他所有的音频帧和视频帧进行编码,并对原有的时间戳进行修正。
需要说明的是,在音频数据和视频数据进行模数转换之后,就可以对各个音频帧和视频帧添加时间戳,同时对各个音频帧和视频帧进行分析,以确定参考音频帧和参考视频帧。在这个过程中,若优先找到参考视频帧,对于其他的视频帧仍然正常进行添加时间戳的过程,同时对于所有的音频帧也正常添加时间戳。直到找到参考音频帧,将参考视频帧的时间戳和参考音频帧的时间戳进行阈值判断,在两个时间戳的差值大于或者等于△t的情况下,以参考视频帧的时间戳作为参考时间戳,此时,其他的视频帧仍正常添加时间戳,仅对参考音频帧和之后的所有音频帧按照校正差值进行调整。
通过上述步骤S801至步骤S807,基于采集过程,在模数转换时对音频数据和视频数据分别添加音频标识信息和视频标识信息,以提高音频帧和视频帧之间的对应精度,基于参考音频帧和参考视频帧的时间戳进行音视频同步,可以大大提升音视频同步的精度。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中还提供了一种音视频同步装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图9是本实施例的音视频同步装置的结构框图,如图9所示,该装置包括获取模块91、确定模块92和调整模块93:
获取模块91,用于分别获取具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧,其中,音频标识信息和视频标识信息在采集过程中的同一采集时刻标记得到;优选地,音频标识信息为预设音频信号;和/或,视频标识信息为预设视频信号。
确定模块92,根据参考音频帧的时间戳和参考视频帧的时间戳确定校正差值;
调整模块93,根据校正差值对待校正音频帧的时间戳和/或待校正视频帧的时间戳进行调整。
通过上述音视频同步装置,在采集过程中通过获取模块91完成参考音频帧和参考视频帧之间对应关系的标记,可以得到在时间上真实对应的音频帧和视频帧。在此基础上,本实施例中的音视频同步,不仅依赖时间戳,还需要根据具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧实现。由于在采集过程中得到的音频标识信息和视频标识信息不会受到缓存处理等因素的影响,所以音频标识信息和视频标识信息之间的对应关系准确度较高,因此解决了在时间戳本身存在偏差的情况下,易导致依赖于时间戳实现音视频同步时准确度较低的问题,提高了音视频同步过程的准确度。
在其中的一些实施例中,音视频同步装置还包括编码模块,编码模块用于对调整后的待校正音频帧和/或调整后的待校正视频帧进行编码。
在其中的一些实施例中,获取模块91还用于对模数转换后的脉冲编码调制数据进行解析,获取具有音频标识信息的参考音频帧;和/或,对模数转换后的颜色编码数据进行解析,获取具有视频标识信息的参考视频帧。
在其中的一些实施例中,音视频同步装置还包括标识信息添加模块,用于根据预设时间周期,在采集时刻对音频数据添加音频标识信息,对视频数据添加视频标识信息。
在其中的一些实施例中,音视频同步装置还包括时间戳添加模块,用于对音频数据中的所有音频帧添加时间戳;对视频数据中的所有视频帧添加时间戳。
在其中的一些实施例中,调整模块93还用于在参考音频帧的时间戳和参考视频帧的时间戳之间的差值大于或者等于预设时间差值的情况下,根据参考音频帧的时间戳和参考视频帧的时间戳确定参考时间戳;根据参考时间戳与参考音频帧的时间戳之间的差值得到校正差值,或者,根据参考时间戳与参考视频帧的时间戳之间的差值得到校正差值。
在其中的一些实施例中,音视频同步装置还包括数据还原模块,用于将具有音频标识信息的参考音频帧进行数据还原,以得到初始的参考音频帧进行音频编码;将具有视频标识信息的参考视频帧进行数据还原,以得到初始的参考视频帧进行视频编码。
在其中的一些实施例中,音视频同步装置还包括编码模块,用于对调整后的待校正音频帧和/或调整后的待校正视频帧进行编码。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,分别获取具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧,其中,所述音频标识信息和所述视频标识信息在采集过程中的同一采集时刻标记得到。
S2,根据所述参考音频帧的时间戳和所述参考视频帧的时间戳确定校正差值。
S3,根据所述校正差值对待校正音频帧的时间戳和/或待校正视频帧的时间戳进行调整。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的音视频同步方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种音视频同步方法。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种音视频同步方法,其特征在于,包括:
分别获取具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧,其中,所述音频标识信息和所述视频标识信息在采集过程中的同一采集时刻标记得到;
根据所述参考音频帧的时间戳和所述参考视频帧的时间戳确定校正差值;
根据所述校正差值对待校正音频帧的时间戳和/或待校正视频帧的时间戳进行调整。
2.根据权利要求1所述的音视频同步方法,其特征在于,所述分别获取具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧包括:
对模数转换后的脉冲编码调制数据进行解析,获取具有音频标识信息的参考音频帧;和/或,
对模数转换后的颜色编码数据进行解析,获取具有视频标识信息的参考视频帧。
3.根据权利要求1所述的音视频同步方法,其特征在于,所述音频标识信息为预设音频信号;和/或,所述视频标识信息为预设视频信号。
4.根据权利要求1所述的音视频同步方法,其特征在于,在分别获取具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧之前,所述方法包括:
根据预设时间周期,在采集时刻对音频数据添加所述音频标识信息,对视频数据添加所述视频标识信息。
5.根据权利要求1所述的音视频同步方法,其特征在于,在根据所述校正差值对待校正音频帧的时间戳和/或待校正视频帧的时间戳进行调整之后,所述方法还包括:
将具有所述音频标识信息的参考音频帧进行数据还原,以得到初始的参考音频帧进行音频编码;
将具有所述视频标识信息的参考视频帧进行数据还原,以得到初始的参考视频帧进行视频编码。
6.根据权利要求1所述的音视频同步方法,其特征在于,在分别获取具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧之前,所述方法包括:
对音频数据中的所有音频帧添加时间戳;
对视频数据中的所有视频帧添加时间戳。
7.根据权利要求1至6任一项所述的音视频同步方法,其特征在于,所述根据所述参考音频帧的时间戳和所述参考视频帧的时间戳确定校正差值包括:
在所述参考音频帧的时间戳和所述参考视频帧的时间戳之间的差值大于或者等于预设时间差值的情况下,根据所述参考音频帧的时间戳和所述参考视频帧的时间戳确定参考时间戳;
根据所述参考时间戳与所述参考音频帧的时间戳之间的差值得到所述校正差值,或者,根据所述参考时间戳与所述参考视频帧的时间戳之间的差值得到所述校正差值。
8.根据权利要求7所述的音视频同步方法,其特征在于,在所述根据所述校正差值对待校正音频帧的时间戳和/或待校正视频帧的时间戳进行调整之后,所述方法包括:
对调整后的待校正音频帧和/或调整后的待校正视频帧进行编码。
9.一种音视频同步装置,其特征在于,包括获取模块、确定模块和调整模块:
所述获取模块,用于分别获取具有音频标识信息的参考音频帧和具有视频标识信息的参考视频帧,其中,所述音频标识信息和所述视频标识信息在采集过程中的同一采集时刻标记得到;
所述确定模块,用于根据所述参考音频帧的时间戳和所述参考视频帧的时间戳确定校正差值;
所述调整模块,用于根据所述校正差值对待校正音频帧的时间戳和/或待校正视频帧的时间戳进行调整。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至8中任一项所述的音视频同步方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的音视频同步方法的步骤。
CN202210236679.9A 2022-03-11 2022-03-11 音视频同步方法、装置、电子装置和存储介质 Pending CN114339454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210236679.9A CN114339454A (zh) 2022-03-11 2022-03-11 音视频同步方法、装置、电子装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210236679.9A CN114339454A (zh) 2022-03-11 2022-03-11 音视频同步方法、装置、电子装置和存储介质

Publications (1)

Publication Number Publication Date
CN114339454A true CN114339454A (zh) 2022-04-12

Family

ID=81033462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210236679.9A Pending CN114339454A (zh) 2022-03-11 2022-03-11 音视频同步方法、装置、电子装置和存储介质

Country Status (1)

Country Link
CN (1) CN114339454A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114845004A (zh) * 2022-07-04 2022-08-02 杭州兆华电子股份有限公司 一种音视频同步实现方法及声学成像方法
CN115499677A (zh) * 2022-09-20 2022-12-20 上海哔哩哔哩科技有限公司 基于直播的音视频同步检测方法及装置
WO2023231478A1 (zh) * 2022-05-31 2023-12-07 中兴通讯股份有限公司 音视频共享方法、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104618786A (zh) * 2014-12-22 2015-05-13 深圳市腾讯计算机系统有限公司 音视频同步方法和装置
US20210021889A1 (en) * 2019-07-18 2021-01-21 Realtek Semiconductor Corporation Method for synchronizing audio and video and related apparatus
CN112423075A (zh) * 2020-11-11 2021-02-26 广州华多网络科技有限公司 音视频时间戳的处理方法、装置、电子设备及存储介质
CN113891132A (zh) * 2021-10-25 2022-01-04 北京字节跳动网络技术有限公司 一种音视频同步监控方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104618786A (zh) * 2014-12-22 2015-05-13 深圳市腾讯计算机系统有限公司 音视频同步方法和装置
US20210021889A1 (en) * 2019-07-18 2021-01-21 Realtek Semiconductor Corporation Method for synchronizing audio and video and related apparatus
CN112423075A (zh) * 2020-11-11 2021-02-26 广州华多网络科技有限公司 音视频时间戳的处理方法、装置、电子设备及存储介质
CN113891132A (zh) * 2021-10-25 2022-01-04 北京字节跳动网络技术有限公司 一种音视频同步监控方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023231478A1 (zh) * 2022-05-31 2023-12-07 中兴通讯股份有限公司 音视频共享方法、设备及计算机可读存储介质
CN114845004A (zh) * 2022-07-04 2022-08-02 杭州兆华电子股份有限公司 一种音视频同步实现方法及声学成像方法
CN114845004B (zh) * 2022-07-04 2022-10-25 杭州兆华电子股份有限公司 一种音视频同步实现方法及声学成像方法
CN115499677A (zh) * 2022-09-20 2022-12-20 上海哔哩哔哩科技有限公司 基于直播的音视频同步检测方法及装置

Similar Documents

Publication Publication Date Title
CN114339454A (zh) 音视频同步方法、装置、电子装置和存储介质
US11423942B2 (en) Reference and non-reference video quality evaluation
CN105472477B (zh) 一种数据传输方法、装置及设备
CN112423075B (zh) 音视频时间戳的处理方法、装置、电子设备及存储介质
US20210377542A1 (en) Video encoding and decoding method, device, and system, and storage medium
US7466754B2 (en) Header-estimating moving picture receiving apparatus and output apparatus
KR20120042833A (ko) 역방향의 강력한 헤더 압축 수신기
CN101426137B (zh) 一种视频帧类型的识别方法和装置
WO2005001760A3 (en) Fast loss less image compression system based on neighborhood comparisons
CN106993199A (zh) 一种实时视频转码的方法及系统
US20080175502A1 (en) Method and system for providing arithmetic code normalization and byte construction
CN110691238A (zh) 一种视频重建质量测试方法、装置、设备及可读存储介质
WO2006126826A1 (en) A hardware apparatus having video/audio encoding function and multiplexing function, and method thereof
FI107497B (fi) Menetelmä videokuvan siirtoon
CN106658071B (zh) 码流传输状态确定方法及装置
CN108924502A (zh) 一种便携式图传系统及其图传方法
US8842740B2 (en) Method and system for fast channel change
EP1104202A3 (en) Digital video decoding of compressed digital pictures by correcting corrupted header information with an estimated picture size
EP3172718B1 (en) Method and apparatus for processing image data
CN108124183B (zh) 以同步获取影音以进行一对多影音串流的方法
US11831862B2 (en) Embedded timestamps for determining offset between test streams
CN114666638B (zh) 音视频数据同步方法、装置、设备及存储介质
CN116437134B (zh) 一种用于检测音视频同步性的方法及装置
EP0843483A2 (en) A method for decoding encoded video data
KR100339554B1 (ko) 화상통신기기의 화상 압축전송 및 수신복원 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220412