CN111954064B

CN111954064B - 音视频同步方法和装置

Info

Publication number: CN111954064B
Application number: CN202010895576.4A
Authority: CN
Inventors: 毕建华; 范健康; 刘春华; 宋杰
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-11-04
Anticipated expiration: 2040-08-31
Also published as: WO2022045516A1; CN111954064A

Abstract

本申请公开了一种音视频同步方法和装置，其中方法包括：对于视频中的每个视频帧，确定该视频帧对应的语义；对于所述视频中的每个音频段，确定该音频段对应的语义；其中，一个音频段的时长和一个视频帧对应的采样时长相同；对于所述视频中具有相同语义的每对音频段和视频帧，判断该对音频段和视频帧是否具有相同的显示时间戳PTS，如果不相同，则采用预设的PTS调整方式，使得该对音频段和视频帧具有相同的PTS。采用本发明，可以有效解决音视频不同步问题。

Description

音视频同步方法和装置

技术领域

本发明涉及计算机应用技术，特别是涉及一种音视频同步方法和装置。

背景技术

在视频播放领域，音频和视频的同步播放是保障用户观看体验的关键技术之一。

目前的音视频同步方案中，通常是根据视频帧和音频帧的显示时间戳进行音视频的同步，将具有相同显示时间戳(PTS)的视频和音频关联在一起播放，以达到同步的目的。

发明人在实现本发明的过程中，在上述现有方案实际使用过程中仍然存在音频和视频不同步的问题，通过对现有方案认真研究分析后发现具体原因如下：

上述现有方案是依据视频帧和音频帧的PTS是否相同，来触发同步操作的执行，即当视频帧(或音频帧)没有关联到具有相同PTS的对应帧时，才会设法确保它们对应具有相同PTS的音频帧(或视频帧)，以实现视频帧和音频帧的同步播放。

而在实际应用中，在某些场景下会存在：视频本身就有声音和画面不同步的问题，即具有相同PTS的视频帧和音频帧本身在内容上就是不同步的。例如，当视频采集设备和音频采集设备相距较远时，会由于各自参考的系统时间不一致而导致：本应同步播放的视频帧和音频帧具有不同的显示时间戳，相应的，具有相同显示时间戳的视频帧和音频帧实际上是不应同步播放的，从而出现了上述视频本身的声音和画面不同步问题。比如，当电视台实时转播外国电台的实况节目时，此时如果只需要外国电台的画面，同步播放的声音是本台主持人的声音，此时就可能会存在待播放视频本身的声音和画面不同步问题。

再如另外一种视频录制场景，该场景下视频录制设备在录制视频时需要同时执行其他视频处理操作(如画面美化)，这样就会使得视频采集时延相比于音频采集时延大很多，此时，也会容易出现上述视频本身的声音和画面不同步问题。

上述问题存在时，同时播放的声音和画面虽然在实际内容方面是错位的，但是由于具有相同的显示时间戳，使得上述现有方案，会将这种情况视频为正常的同步，因此，采用上述现有方法无法检测出上述音视频不同步问题的存在，进而也无法解决该问题。

发明内容

有鉴于此，本发明的主要目的在于提供一种音视频同步方法和装置，可以有效解决音视频不同步的问题。

为了达到上述目的，本发明提出的技术方案为：

一种音视频同步方法，包括：

对于视频中的每个视频帧，确定该视频帧对应的语义；对于所述视频中的每个音频段，确定该音频段对应的语义；其中，一个音频段的时长和一个视频帧对应的采样时长相同；

对于所述视频中具有相同语义的每对音频段和视频帧，判断该对音频段和视频帧是否具有相同的显示时间戳PTS，如果不相同，则采用预设的PTS调整方式，使得该对音频段和视频帧具有相同的PTS。

较佳的，所述对于视频中的每个视频帧，确定该视频帧对应的语义包括：

对于视频中的每个视频帧，采用预设的视频分类模型，确定该视频帧对应的视频类型；所述视频类型包括适用于唇语识别的视频和适用于画面整体识别的视频；

如果所确定的视频类型为适用于唇语识别的视频，则采用预设的唇语识别网络模型，生成所述视频帧的语义文本信息；如果所确定的视频类型为适用于画面整体识别的视频，则采用预设的视频分析网络模型，生成所述视频帧的语义文本信息；

将所述语义文本信息转化为相应的语义向量。

较佳地，所述对于视频中的每个音频段，确定该音频段对应的语义包括：

对于视频中的每个音频段，采用预设的音频语义分析网络模型，生成该音频段的语义文本信息，并将所生成的语义文本信息转化为相应的语义向量。

较佳地，所述方法进一步包括：确定所述视频中具有相同语义的每对音频段和视频帧，具体包括：

对于每个所述音频段M_i，根据该音频段M_i的语义，从所述视频中查找与该音频段M_i语义匹配的一个视频帧，如果查找成功，则确定该音频段M_i与所查找到的视频段具有相同语义。

较佳地，所述从所述视频中查找与该音频段M_i语义相匹配的一个视频帧包括：

在所述视频中的预设视频帧范围内，查找与该音频段M_i语义匹配的一个视频帧；所述视频帧范围为PTS大于等于PTS_i-△t且小于等于PTS_i+△t的所有视频帧，△t为预设的范围调整参数，所述PTS_i为该音频段M_i的PTS。

一种音视频同步装置，包括：

语义分析模块，用于对于视频中的每个视频帧，确定该视频帧对应的语义；对于所述视频中的每个音频段，确定该音频段对应的语义；其中，一个音频段的时长和一个视频帧对应的采样时长相同；

同步模块，用于对于所述视频中具有相同语义的每对音频段和视频帧，判断该对音频段和视频帧是否具有相同的显示时间戳PTS，如果不相同，则采用预设的PTS调整方式，使得该对音频段和视频帧具有相同的PTS。

较佳地，语义分析模块，具体用于对于视频中的每个视频帧，确定该视频帧对应的语义，包括：

将所述语义文本信息转化为相应的语义向量。

较佳地，所述语义分析模块，具体用于对于视频中的每个音频段，确定该音频段对应的语义，具体包括：

较佳地，所述同步模块，进一步用于确定所述视频中具有相同语义的每对音频段和视频帧，具体包括：

较佳地，所述同步模块，具体用于从所述视频中查找与该音频段M_i语义相匹配的一个视频帧，包括：

本申请还公开了一种音视频同步装置，包括：

较佳的，所述语义分析模块，具体用于对于视频中的每个视频帧，采用预设的视频语义分析网络模型，生成该视频帧的语义文本信息，并将所生成的语义文本信息转化为相应的语义向量；对于视频中的每个音频段，采用预设的音频语义分析网络模型，生成该音频段的语义文本信息，并将所生成的语义文本信息转化为相应的语义向量。

较佳的，所述同步模块，进一步用于确定所述视频中具有相同语义的每对音频段和视频帧，具体包括：对于每个所述音频段M_i，根据该音频段M_i的语义，从所述视频中查找与该音频段M_i语义匹配的一个视频帧，如果查找成功，则确定该音频段M_i与所查找到的视频段具有相同语义。

较佳的，所述同步模块，具体用于从所述视频中查找与该音频段M_i语义相匹配的一个视频帧，包括：在所述视频中的预设视频帧范围内，查找与该音频段M_i语义匹配的一个视频帧；所述视频帧范围为PTS大于等于PTS_i-△t且小于等于PTS_i+△t的所有视频帧，△t为预设的范围调整参数，所述PTS_i为该音频段M_i的PTS。

本申请还公开了一种音视频同步设备，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上所述的音视频同步方法。

本申请还公开了一种计算机可读存储介质，其中存储有计算机可读指令，该计算机可读指令用于执行如上所述的音视频同步方法。

由上述技术方案可见，本发明提出的音视频同步方法，不再简单地基于音频和视频的PTS不同而触发PTS的调整，而是：通过对视频中音频和视频的语义进行分析，并检查具有相同语义的音频和视频帧是否具有相同的PTS，如果PTS不同，则触发相应的调整，以确保相同语义的音频和视频帧具有相同的PTS。如此，即可确保同时播放的音频和视频帧具有相同语义，从而可以有效确保音视频播放的同步，尤其是可以有效解决由于原始视频中音视频本身不同步而导致的视频播放时音视频不同步问题。

附图说明

图1为本发明实施例的音视频同步方法流程示意图；

图2为本发明实施例的音视频同步装置结构示意图；

图3为本发明实施例应用于视频会议场景的示意图；

图4为本发明实施例应用于烹饪教学视频配音场景的示意图；

图5为根据本发明的音视频同步设备结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

图1为本发明实施例的音视频同步方法流程示意图，如图1所示，该实施例实现的音视频同步方法主要包括：

步骤101、对于视频中的每个视频帧，确定该视频帧对应的语义；对于所述视频中的每个音频段，确定该音频段对应的语义。其中，一个音频段的时长和一个视频帧对应的采样时长相同。

本步骤，用于对视频中的每个视频帧和每个音频段，分析出它们各自的语义，以便后续同步步骤中基于它们的语义，检查出视频中本身存在的音视频问题，即语义相同但PTS不同的视频帧和音频段的组合。

较佳的，为了提高对视频帧的语义分析准确性，在进行语义分析时可以区分不同的视频类型，采用与视频所属类型相匹配的语义分析方式，来获取视频帧的语义，具体可以采用下述方法实现这一效果：

步骤x1、对于视频中的每个视频帧，采用预设的视频分类模型，确定该视频帧对应的视频类型；所述视频类型包括适用于唇语识别的视频和适用于画面整体识别的视频。

这里，考虑到视频画面的复杂性，将视频帧划分为两类，一类是适用于唇语识别的视频，另一类是适用于画面整体识别的视频，以确保对每个视频帧都可以采用更准确、快速的方式进行语义分析。

所述视频分类模型可以预先由本领域技术人员基于机器学习模型训练得到，例如，可以是视觉几何组(VGG)卷积神经网络模型，但不限于此。

步骤x2、如果所确定的视频类型为适用于唇语识别的视频，则采用预设的唇语识别网络模型，生成所述视频帧的语义文本信息；如果所确定的视频类型为适用于画面整体识别的视频，则采用预设的视频分析网络模型，生成所述视频帧的语义文本信息。

本步骤中，对于不同类型的视频帧，将采用不同的语义分析方式，以提高语义分析的准确度。

所述唇语识别网络模型，可以预先由本领域技术人员基于机器学习模型训练得到，具体可以为视听语音识别(Audio-visual recognition，AVR)模型，但不限于此。

所述视频分析网络模型可以预先由本领域技术人员基于机器学习模型训练得到，例如，可以是视频捕获模型(Video Capture)，也可以是长短期记忆模型(LSTM)，但不限于此。

步骤x3、将所述语义文本信息转化为相应的语义向量。

这里，为了便于在后续步骤中更方便、准确地对音频段和视频帧的语义相同与否进行比较，需要将语义文本信息转化为语义向量。这样，在后续进行语义比较时，直接进行向量的匹配性比较即可。

较佳地，步骤101中可以采用下述方法，基于人工智能，来确定视频中每个音频段对应的语义：

上述方法中将语义文本信息转化为相应的语义向量的具体方法，为本领域技术人员所掌握，在此不再赘述。

步骤102、对于所述视频中具有相同语义的每对音频段和视频帧，判断该对音频段和视频帧是否具有相同的显示时间戳(PTS)，如果不相同，则采用预设的PTS调整方式，使得该对音频段和视频帧具有相同的PTS。

这里需要说明的是，当一对音频段和视频帧具有相同语义但PTS不同时，说明从内容表现的层面，这对音频段和视频帧应当是同步播放的，但是，由于PTS不同而使得当视频播放时，它们是无法同步播放的。为此，本步骤中，通过基于音频段和视频帧的语义，从视频中筛选出具有相同语义但PTS不同的音频段和视频帧，并调整它们的PTS，以确保它们具有相同的PTS，如此，通过以语义相同但PTS不同作为触发进行PTS调整的时机，即可确保它们能够同步播放，从而可以有效解决视频本身音视频不同步而导致的播放异常问题，进而可以大幅度提升视频播放效果。

在实际应用中，具体的PTS调整方式可采用现有方法实现，例如，可以以音频的PTS为基准，调整对应视频的PTS；或者，以视频的PTS为基准调整对应音频的PTS；或者，以外部时钟为基准，调整音频和视频的PTS。本领域技术人员可以根据实际需要选择合适的调整方式，使得具有相同语义的每对音频段和视频帧也具有相同的PTS。

较佳的，为了提高用户观看视频的连贯性，可以以音频为基准，确定每个音频段对应的具有相同语义的视频帧，从而可以获得视频中具有相同语义且一一对应的音频段和视频帧，具体采用下述方法实现：

在实际应用中，上述方法中具体可以采用现有的匹配方法，如Word Mover’sDistance、欧氏距离等方法进行上述匹配，但不限于此。

较佳的，为了提高上述方法中相同语义的视频帧效率，可以限定仅在音频段对应的PTS附近的视频帧范围内，从所述视频中查找与所述音频段M_i语义相匹配的一个视频帧，具体方法如下：

在所述视频中的预设视频帧范围内，查找与该音频段M_i语义匹配的一个视频帧；所述视频帧范围为PTS大于等于PTS_i-△t且小于等于PTS_i+△t的所有视频帧，即所具有的PTS在[PTS_i-△t,PTS_i+△t]范围内的所有视频帧。

其中，所述PTS_i为该音频段M_i的PTS。

所述△t为预设的范围调整参数，△t≥0，△t越大可选择的视频帧范围越大，△t越小，查找的效率越高，具体可由本领域技术人员根据实际需要结合上述规律设置合适取值，在此不再赘述。

与上述方法实施例相对应，本申请还公开了一种音视频同步装置实施例，如图2所示，包括：

语义分析模块201，用于对于视频中的每个视频帧，确定该视频帧对应的语义；对于所述视频中的每个音频段，确定该音频段对应的语义；其中，一个音频段的时长和一个视频帧对应的采样时长相同；

同步模块202，用于对于所述视频中具有相同语义的每对音频段和视频帧，判断该对音频段和视频帧是否具有相同的显示时间戳PTS，如果不相同，则采用预设的PTS调整方式，使得该对音频段和视频帧具有相同的PTS。

较佳的，所述语义分析模块201，具体用于对于视频中的每个视频帧，采用预设的视频语义分析网络模型，生成该视频帧的语义文本信息，并将所生成的语义文本信息转化为相应的语义向量；对于视频中的每个音频段，采用预设的音频语义分析网络模型，生成该音频段的语义文本信息，并将所生成的语义文本信息转化为相应的语义向量。

较佳的，所述同步模块202，进一步用于确定所述视频中具有相同语义的每对音频段和视频帧，具体包括：对于每个所述音频段M_i，根据该音频段M_i的语义，从所述视频中查找与该音频段M_i语义匹配的一个视频帧，如果查找成功，则确定该音频段M_i与所查找到的视频段具有相同语义。

较佳的，所述同步模块202，具体用于从所述视频中查找与该音频段M_i语义相匹配的一个视频帧，包括：在所述视频中的预设视频帧范围内，查找与该音频段M_i语义匹配的一个视频帧；所述视频帧范围为PTS大于等于PTS_i-△t且小于等于PTS_i+△t的所有视频帧，△t为预设的范围调整参数，所述PTS_i为该音频段M_i的PTS。

通过上述技术方案可以看出，采用上述实施例可以有效确保音视频的同步播放。在实际应用中，上述技术方案可以应用于对实时录制视频的同步处理，也可以应用于对已录制完成视频的同步处理，既可以应用于视频录制端在对所采集的音频和视频进行编码前，进行音视频同步处理，以节省客户端的同步处理开销，也可以应用于视频播放端在对视频进行播放前，进行音视频同步处理，如此，可以同时解决网络传输所致的音、视频不同步问题，具体地本领域技术人员可以根据实际需要选择具体安装运行上述技术方案的实体。下面结合图3和图4的两种具体应用场景，对上述实施例的应用作进一步说明。

图3给出了本发明实施例应用于视频会议场景的示意图。如图3所示，在视频会议场景下，视频会议APP会检查所获取的音、视频中是否存在语义相同但PTS不同的音、视频组合，并对检查到的音、视频组合的PTS进行调整(为了保证语音的连贯性，可以采用以音频的PTS为基准调整对应视频的PTS的调整方式)，之后再对同步处理后的音视频进行编码。

图4给出了本发明实施例应用于烹饪教学视频配音场景的示意图。如图4所示，在该场景下，在给视频配音时，对于需要播放的原始烹饪教学视频和给视频配的音频(中文音频)，需要先查找出语义相同的音频和视频具有不同PTS的情况，并对它们的PTS进行调整(为了保证画面的连贯性，可以采用以视频的PTS为基准调整对应音频的PTS的调整方式)，之后再输出同步处理后的音视频，从而获得配音和视频画面同步的新视频文件。

图5为根据本发明的音视频同步设备结构图。

如图5所示，该音视频同步设备包括：处理器501和存储器502；其中存储器502中存储有可被处理器501执行的应用程序，用于使得处理器501执行如上任一项所述的音视频同步方法方法。

其中，存储器502具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器501可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列，其中现场可编程门阵列集成一或多个中央处理器核。具体地，中央处理器或中央处理器核可以实施为CPU或MCU。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施方式中的硬件模块可以以机械方式或电子方式实现。例如，一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式，或是采用专用的永久性电路，或是采用临时配置的电路(如由软件进行配置)来实现硬件模块，可以根据成本和时间上的考虑来决定。

本发明还提供了一种机器可读的存储介质，存储用于使一机器执行如本申请所述方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外，还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施方式中任一实施方式的功能。

用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机或云上下载程序代码。

在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁，各图中的只示意性地表示出了与本发明相关部分，而并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”并不表示将本发明相关部分的数量限制为“仅此一个”，并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中，“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系，而非限定这些相关部分的绝对位置。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音视频同步方法，其特征在于，包括：

对于所述视频中具有相同语义的每对音频段和视频帧，判断该对音频段和视频帧是否具有相同的显示时间戳PTS，如果不相同，则采用预设的PTS调整方式，使得该对音频段和视频帧具有相同的PTS；

所述对于视频中的每个视频帧，确定该视频帧对应的语义包括：

将所述语义文本信息转化为相应的语义向量。

2.根据权利要求1所述的方法，其特征在于，所述对于视频中的每个音频段，确定该音频段对应的语义包括：

3.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：确定所述视频中具有相同语义的每对音频段和视频帧，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述从所述视频中查找与该音频段M_i语义相匹配的一个视频帧包括：

5.一种音视频同步装置，其特征在于，包括：

同步模块，用于对于所述视频中具有相同语义的每对音频段和视频帧，判断该对音频段和视频帧是否具有相同的显示时间戳PTS，如果不相同，则采用预设的PTS调整方式，使得该对音频段和视频帧具有相同的PTS；

所述语义分析模块，具体用于对于视频中的每个视频帧，确定该视频帧对应的语义，包括：

将所述语义文本信息转化为相应的语义向量。

6.根据权利要求5所述的装置，其特征在于，

所述语义分析模块，具体用于对于视频中的每个音频段，确定该音频段对应的语义，具体包括：

7.根据权利要求5所述的装置，其特征在于，所述同步模块，进一步用于确定所述视频中具有相同语义的每对音频段和视频帧，具体包括：

8.根据权利要求7所述的装置，其特征在于，所述同步模块，具体用于从所述视频中查找与该音频段M_i语义相匹配的一个视频帧，包括：