CN112653916B

CN112653916B - 一种音视频同步优化的方法及设备

Info

Publication number: CN112653916B
Application number: CN201910957946.XA
Authority: CN
Inventors: 赵登
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2023-08-29
Anticipated expiration: 2039-10-10
Also published as: CN112653916A

Abstract

本发明提供一种音视频同步优化的方法及设备，该设备包括：根据解码后的音频数据和视频数据分别对应的时间戳，对所述音频数据和视频数据进行初步同步；利用计算机视觉分析技术，对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象；利用PCM数据校验方法，对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段；将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步时，对所述音频数据和视频数据进行再次同步后输出。本发明提供的音视频同步优化的方法及设备，解决了现有的音视频同步方案无法解决的源文件中PTS数值错误引入的音视频不同步问题。

Description

一种音视频同步优化的方法及设备

技术领域

本发明涉及音视频同步技术领域，特别涉及一种音视频同步优化的方法及设备。

背景技术

带有声音和图像的视频，在播放的时候都需要处理音视频同步的问题。音视频同步是指影片中声音与画面的协调一致，也就是当用户看视频时听到的声音和出现的画面相对应时，不会感觉到画面有超前或者延后的情况。音视频同步是多媒体系统服务质量(QoS)研究中的一项重要内容，不同步将非常严重的影响到用户的观看体验。

目前解决音视频同步问题的方案是选择一个参考时钟，在生成音视频数据流时依据参考时钟上的时间给每个音视/视频数据帧都打上显示时间戳PTS，在播放过程中完成解码后，读取音视/视频数据帧上的PTS，同时参考当前参考时钟上的时间来安排播放。

现有音视频同步方案要求在生成音视/视频数据帧时必须打上正确的显示时间戳PTS。因此在音视频文件中的PTS值无异常的情况下，能够取得比较好的音视频同步效果。

但是，在日常工作和生活中，很多音视频文件在压缩生产的过程中，可能会因为某些原因，导致文件中音频/视频帧的PTS标记出现错误，在解码后音视频同步过程中利用PTS值来做音视频同步，可能出现音视频不同步的情况，明显感觉出声音或者画面的超前或滞后。

可见，现有音视频同步方案都是基于源文件中已有的PTS数值进行音视频同步的，并没有做PTS错误假设的调整方案。但是，PTS错误的情况是客观存在的，一旦源文件中音频/视频的PTS值因为压缩、介质等原因导致出错时，目前的同步方案就必然会有问题。

发明内容

本发明提供了一种音视频同步优化的方法及设备，用以解决现有的音视频同步方案无法解决源文件中PTS数值错误引入的音视频不同步问题。

根据本发明实施例的第一方面，提供一种音视频同步优化的方法，该方法包括：

根据解码后的音频数据和视频数据分别对应的时间戳，对所述音频数据和视频数据进行初步同步；

利用计算机视觉分析技术，对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象；

利用PCM数据校验方法，对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段；

将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步时，对所述音频数据和视频数据进行再次同步后输出。

根据本发明实施例的第二方面，提供一种音视频同步优化的设备，包括：

初步同步模块，用于根据解码后的音频数据和视频数据分别对应的时间戳，对所述音频数据和视频数据进行初步同步；

内容识别模块，用于利用计算机视觉分析技术，对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象；

声音识别模块，用于利用PCM数据校验方法，对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段；

再次同步模块，用于将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步时，对所述音频数据和视频数据进行再次同步后输出。

可选地，所述再次同步模块将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步，包括：

将所述内容识别的结果和校验结果作为输入特征，输入到经验和概率模型中得到不同步的概率；

确定不同步的概率大于设定阈值时，确定所述视频片段和音频片段不同步。

可选地，所述再次同步模块在确定所述视频片段和音频片段不同步时，对所述音频数据和视频数据进行再次同步后输出，包括：

确定所述视频片段和音频片段不同步时，输出是否进行同步调整的提示信息；

响应进行同步调整的指示信息，对所述音频数据和视频数据进行再次同步后输出；或者

响应接收到的不进行同步调整的指示信息，输出所述音频数据和视频数据。

可选地，所述再次同步模块在将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步时，具体用于：

所述声音识别结果为有声片段，但所述内容识别结果为无声源对象；或者

所述声音识别结果为无声片段，但所述内容识别结果为有声源对象。

可选地，所述再次同步模块在将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步时，还用于：

所述声音识别结果为有声片段，所述内容识别结果为有声源对象，但所述音频片段中声音的声源对象类型与所述视频片段中声音的声源对象类型不一致。

可选地，所述声音识别模块对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段时，具体用于：对所述音频片段提取音频数据特征，输入到已训练的第一音频分析模型，获得所述第一音频分析模型输出的是否有声音的声音识别结果，所述第一音频分析模型用于根据音频数据特征识别是否有声音；

所述内容识别模块对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象时，具体用于：对所述视频片段提取视频数据特征，输入到已训练的第一视频分析模型，获得所述第一视频分析模型输出的是否有声源对象的内容识别结果，所述第一视频分析模型用于根据视频数据特征识别是否有声源对象。

可选地，所述声音识别模块对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段时，具体用于：对所述音频片段提取音频数据特征，输入到已训练的第二音频分析模型，获得所述第二音频分析模型输出的是否有声音的声音识别结果，当所述音频片段为有声片段时，所述识别结果还包括声源对象类型，所述第二音频分析模型用于根据音频数据特征识别不同的声源对象类型；

所述内容识别模块对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象时，具体用于：对所述视频片段提取视频数据特征，输入到已训练的第二视频分析模型，获得所述第二视频分析模型输出的是否有声源对象的内容识别结果，当所述视频片段为有声源对象时，所述识别结果还包括声源对象类型，所述第二视频分析模型用于根据视频数据特征识别不同的声源对象类型。

可选地，所述再次同步模块响应进行同步调整的指示信息，对所述音频数据和视频数据进行再次同步后输出，具体用于：

响应进行同步调整的指示信息，将所述视频数据进行调整后，同步输出所述音频数据和调整后的视频数据。

根据本发明实施例的第三方面，提供一种音视频同步优化的设备，包括：存储器和处理器；其中：

所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

可选地，处理器将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步，包括：

可选地，确定所述视频片段和音频片段不同步时，处理器对所述音频数据和视频数据进行再次同步后输出，包括：

可选地，处理器将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步，具体包括：

可选地，处理器将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步，还包括：

可选地，所述处理器对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段，包括：对所述音频片段提取音频数据特征，输入到已训练的第一音频分析模型，获得所述第一音频分析模型输出的是否有声音的声音识别结果，所述第一音频分析模型用于根据音频数据特征识别是否有声音；

所述处理器对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象，包括：对所述视频片段提取视频数据特征，输入到已训练的第一视频分析模型，获得所述第一视频分析模型输出的是否有声源对象的内容识别结果，所述第一视频分析模型用于根据视频数据特征识别是否有声源对象。

可选地，所述处理器对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段，包括：对所述音频片段提取音频数据特征，输入到已训练的第二音频分析模型，获得所述第二音频分析模型输出的是否有声音的声音识别结果，当所述音频片段为有声片段时，所述识别结果还包括声源对象类型，所述第二音频分析模型用于根据音频数据特征识别不同的声源对象类型；

所述处理器对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象，包括：对所述视频片段提取视频数据特征，输入到已训练的第二视频分析模型，获得所述第二视频分析模型输出的是否有声源对象的内容识别结果，当所述视频片段为有声源对象时，所述识别结果还包括声源对象类型，所述第二视频分析模型用于根据视频数据特征识别不同的声源对象类型。

可选地，所述处理器响应进行同步调整的指示信息，对所述音频数据和视频数据进行再次同步后输出，包括：

根据本发明实施例的第四方面，提供一种芯片，所述芯片与设备中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现本申请实施例上述各个方面以及各个方面涉及的任一可能设计的方法。

根据本发明实施例的第五方面，提供一种计算机可读存储介质，该计算机存储介质存储有程序指令，当其在计算机上运行时，使得计算机执行本发明实施例上述各个方面以及各个方面涉及的任一可能设计的方法。

根据本发明实施例的第六方面，提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本申请实施例上述各个方面以及各个方面涉及的任一可能设计的方法。

利用本发明提供的音视频同步优化的方法及设备，具有以下有益效果：

本发明提供的音视频同步优化的方法及设备，在初步同步的基础上检测音频数据与视频数据是否同步，并在所述音频数据和视频数据不同步时，分别对音视拼内容解析进行再次同步，解决了现有的音视频同步方案无法解决源文件中PTS数值错误引入的音视频不同步问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的一种目前具有音视频播放功能的设备的音视频同步流程示意图；

图2为本发明实施例中提供的一种音视频同步优化的方法示意图；

图3为本发明实施例中提供的一种音视频同步优化的流程示意图；

图4为本发明实施例中提供的一种音视频同步优化的设备示意图；

图5为本发明实施例中提供的一种音视频同步优化的设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本发明实施例提供音视频同步优化方法应用了人工智能技术，为了方便理解，下面对本发明实施例中涉及的名词进行解释：

1)计算机视觉技术：是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统；计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术；本实施例中具体利用视频分析模型对输入的视频数据特征进行分析，得到视频分析结果；

2)语音技术(Speech Technology)：语音技术的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术；让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一；本实施例中具体利用音频分析模型对输入的音频数据特征进行分析，得到音频分析结果；

3)自然语言处理(Nature Language Processing，NLP)：是计算机科学领域与人工智能领域中的一个重要方向；它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法；自然语言处理是一门融语言学、计算机科学、数学于一体的科学；因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系；自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术；

4)机器学习(Machine Learning,ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能；机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域；机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术；

5)PTS(Presentation Time Stamp，显示时间戳)：这个时间戳用来告诉播放器该在什么时候显示这一帧的数据，这个值的大小反映了帧数据显示的先后顺序；

6)帧(Frame)：即数据帧，是音视频技术中编解码时的基本单位，包括音频帧和视频帧；音频帧，是指一定长度的音频PCM数据经过某种特定的压缩算法压缩后生成的一段长度不固定或者固定的数据块，这块音频数据播放的时长可能是23.32ms、46.64ms、128ms等长度，这样的单个数据块就叫做一帧，对于音视频文件，音频部分就是由很多个音频帧所组成；视频帧，与音频帧概念类似，一帧数据块压缩了一张图像的内容，解码后可以恢复出原图像的内容。

本发明实施例提供一种音视频同步优化的方法，应用于具有音视频播放功能的设备，可以为多媒体设备如电视，也可以为移动终端。该移动终端可以是蜂窝电话、无绳电话、会话启动协议(Session Initiation Protocol，SIP)电话、无线本地环路(Wireless LocalLoop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备以及5G网络中的移动台或者未来演进的公共陆地移动网(Public Land Mobile Network，PLMN)网络中的订阅设备等。

上述具有音视频播放功能的设备，可以是播放本地存储的音视频文件，也可以为播放从服务器上下载的音视频文件。

如图1所示，目前具有音视频播放功能的设备的音视频同步流程为：

步骤S101，获取音视频源数据；

具有音视频播放功能的设备获取音视频源数据的方式可以是接收能够发送音视频数据的另一设备发送的音视频数据，或者从服务器下载音视频数据，或者其他方法。这里不做具体限定。获取的音视频源数据是压缩后的封装格式的音视频数据。

步骤S102，分离音视频源数据得到音频数据和视频数据，并分别存入对应的音频数据缓冲区和视频数据缓冲区；

Muxer是将视频文件、音频文件和字幕文件合并为某一个视频格式，而Demuxer是拆分这些文件的。利用Demuxer分离器从封装格式的音视频源数据中将压缩过的音频帧和视频帧解析出来，然后将音频帧存入音频数据缓冲区，将视频帧存入视频数据缓冲区。在进行音视频数据的分离时，首先初始化3个解封装功能的结构体，其中1个用于音视频源数据的输入，另外2个分别用于音频数据输出和视频数据输出。3个解封装功能的结构体初始化之后，通过拷贝函数可以将输入的音视频源数据的参数拷贝至输出音频数据/视频数据的解封装功能的结构体。最后，通过函数读取音视频源数据的封装格式，根据封装格式类型的不同，分别使用函数将音频数据和视频数据写入不同的输出文件中即可。

通过上述输出文件输出音频数据和视频数据，并将音频数据存入音频数据缓冲区，将视频数据存入视频数据缓冲区。音频数据缓冲区和视频数据缓冲区只是音视频处理过程中音频数据和视频数据的临时存放区，其中的内容是不断更新的。

步骤S103，解码音频数据并存入PCM数据缓冲区，解码视频数据并存入YUV数据缓冲区；

音频解码器是把读取的数字音频信息转换成模拟音频信号输出的程序或设备，是把录音时经过编码的多声道音频信息作解码还原；视频解码器是把读取的数字视频信息进行压缩或者解压缩的程序或者设备，是把视频图像信息作解码还原。解码时从上述音频数据缓冲区读取音频数据，并利用音频解码器解码音频数据的音频帧得到的解码数据；同时从上述视频数据缓冲区读取视频数据，并利用视频解码器解码视频数据的视频帧得到的解码数据。一般音频解码器解码得到的为PCM数据，视频解码器解码得到的为YUV数据。将解码后的音频数据即PCM数据存入对应的PCM数据缓冲区，将解码后的视频数据即YUV数据存入对应的YUV数据缓冲区。

步骤S104，对所述音频数据和视频数据进行同步；

目前在生成音视频源数据时会给音频数据和视频数据分别设置时间戳来标明数据所属的时间及相对关系，而编码封装时只要不改动音视频时间的相对关系就能保证音频与视频在时间上的对应，如此封装好数据之后，播放端就能够根据音视频的时间戳来播放对应的音频数据/视频数据，从而达到音视频同步的效果。

一般音视频同步的做法是选用Audio Master(音频控制)模式，即音频解码后按顺序连续输出，视频数据参考音频数据的时间信息决定输出时间。具体实施时，将音频数据对应的音频帧按顺序连续输出，视频帧输出时参考音频帧输出位置对应的PTS值，通过对比当前视频帧的PTS值和音频帧输出位置的PTS值的大小，决定视频帧的输出时间，存在如下三种情况：

1)当前视频帧的PTS值大于音频帧输出位置的PTS值，说明当前视频帧超前于音频帧，则等待一定时间后输出当前视频帧，所述时间值为当前视频帧的PTS值与音频帧输出位置的PTS值的差值。

2)当前视频帧的PTS值等于音频帧输出位置的PTS值，说明当前视频帧与音频帧同步，则正常输出当前视频帧。

3)当前视频帧的PTS值小于音频帧输出位置的PTS值，说明当前视频帧落后于音频帧，则跳帧输出，所述跳帧时间值为音频帧输出位置的PTS值与当前视频帧的PTS值的差值。

步骤S105，输出音频数据和视频数据。

输出上述方法同步后的音频数据和视频数据，得到同步的音视频数据。

在音视频源文件中PTS值无异常的情况下，上述方法能得到较好的音视频同步效果，但是，当音视频源文件中PTS值因为压缩、介质等原因导致出错时，上述方法就必然会出错，无法得到较好的音视频同步效果。

实施例1

鉴于目前源文件中音频/视频的PTS值因为压缩、介质等原因导致出错时，同步方案就必然会出错的问题，本申请实施例提供一种音视频同步优化的方法，本发明实施例的音视频同步优化中，应用了上述计算机视觉技术和NLP(Natural Language Processing，自然语言处理)技术。

如图2所示，本申请实施例提供的音视频同步优化的方法如下：

步骤S201，根据解码后的音频数据和视频数据分别对应的时间戳，对所述音频数据和视频数据进行初步同步；

如前所述，具有音视频播放功能的设备接收压缩形式的音视频源数据，首先进行音视频分离，分别得到音频数据和视频数据。

音频数据的时间戳包括显示时间戳PTS和解码时间戳DTS，视频数据的时间戳包括显示时间戳PTS和解码时间戳DTS；DTS值反映了帧数据解码的先后顺序，根据音频数据的解码时间戳对分离后的音频数据进行解码，根据视频数据的解码时间戳对分离后的视频数据进行解码；PTS值反映了帧数据显示的先后顺序，根据音频数据的显示时间戳对解码后的音频数据进行输出，根据视频数据的显示时间戳对分离后的视频数据进行输出。

依据音频数据和视频数据分别对应的PTS，初步完成音视频数据同步。具体同步方法可采用上述方法，这里不再详述。

步骤S202，利用计算机视觉分析技术，对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象；

读取上述初步同步后的音频数据和视频数据，获取当前视频数据输出点前后预设时间内的视频片段作为当前需要输出的初步同步后的视频数据所在的视频片段。

计算机视觉技术通过视频内容分析能对播放中的视频进行识别、跟踪、测量、分析等行为，并进一步判断图像想要表达的内容和情景。可利用计算机视觉技术结合机器学习构建第一视频分析模型/第二视频分析模型并进行模型训练，通过已训练的模型对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象。

作为一种可选的实施方式，第一视频分析模型，用于根据视频数据特征识别视频数据是否存在声源对象，第一视频分析模型的训练过程如下：

获取多个训练样本，训练样本包括带有有声源对象标签的视频数据，及带有无声源对象标签的视频数据，对视频数据进行视频数据特征提取，将提取的视频数据特征作为第一视频分析模型的输入特征，将对应的标签作为输出特征，对第一视频分析模型进行训练，训练结束后，可以利用测试样本对第一视频分析模型进行测试，测试样本包括带有有声源对象标签的视频数据，及带有无声源对象标签的视频数据，测试结束后如果第一视频分析模型的分类精度不够，重复上述过程至第一视频分析模型根据视频数据特征分类是否有声源对象的分类精度高于设定阈值。上述视频数据特征可以是视频数据的对象轮廓等，考虑一些干扰的影响，上述带无声源对象标签的视频数据，可以是对象轮廓无接近的声源对象轮廓的视频，上述带有有声源对象标签的数据，可以是对象轮廓接近声源对象轮廓的视频数据。

训练完成后，第一视频分析模型输出一个二维的分类向量，分别代表有声源对象的概率值和无声源对象的概率值。

通过上述方法对第一视频分析模型进行训练，使其能够对输入的视频片段的数据进行分析，识别出该视频片段是否有声源对象。

上述判断视频片段是否有声源时，也可以采用其他的判断方法，这里不做具体限定。

作为另一种可选的实施方式，第二视频分析模型用于根据视频数据特征识别不同的声源对象类型，即第二视频分析模型不仅用于根据视频数据特征识别视频数据是否有声源对象，还进一步用于在识别到有声源对象时，进一步区分声源对象的类型。第二视频分析模型的训练过程如下：

获取多个训练样本，训练样本包括带有有声源对象标签及声源对象类型标签的视频数据，及带无声源标签的视频数据，对视频数据进行视频数据特征提取，将提取的视频数据特征作为第二视频分析模型的输入特征，将对应的标签作为输出特征，对第二视频分析模型进行训练，训练结束后，可以利用测试样本对第二视频分析模型进行测试，测试样本包括带有有声源对象标签及声源对象类型标签的视频数据，及带有无声源对象标签的视频数据；测试结束后如果第二视频分析模型的分类精度不够，重复上述过程至第二视频分析模型根据视频数据特征分类是否有声源对象及有声源对象时对应的声源对象分类的分类精度高于设定阈值。上述视频数据特征可以是视频数据的对象轮廓等，考虑一些干扰的影响，上述带无声源对象标签的视频数据，可以是对象轮廓无接近的声源对象轮廓的视频，上述带有有声源对象标签的数据，可以是对象轮廓接近声源对象轮廓的视频数据。

需要说明的是，本实施例中第二视频分析模型的输出结果为二维的分类向量，作为一种可选的实施方式，分类向量中每行的不同位置对应不同的声源对象类型或无声源对象的分类结果，对应同一声源对象的同一行中包括两列元素，分别代表属于该声源对象类型的概率，及不属于该声源对象类型的概率。

作为另一种可选的实施方式，分类向量中每列的不同位置对应不同的声源对象类型或无声源对象的分类结果，对应同一声源对象类型的同一列中包括两行元素，分别代表属于该声源对象类型的概率，及不属于该声源对象类型的概率。

通过上述方法对第二视频分析模型进行训练，使其能够对输入的视频片段的数据进行分析，识别出该视频片段中声源对象的类型。

上述判断视频片段中的声源对象类型时，也可以采用其他的判断方法，这里不做具体限定。

步骤S203，利用PCM数据校验方法，对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段；

读取上述初步同步后的音频数据和视频数据，获取当前音频数据输出点前后预设时间内的音频片段作为当前需要输出的初步同步后的音频数据所在的音频片段；或者根据视频数据的PTS值确定当前视频片段对应时间段的音频片段作为当前需要输出的初步同步后的音频数据所在的视频片段。

自然语言处理NLP技术是人工智能的一个分支，包括语音识别、自然语言生成、文本分类、信息检索、信息抽取、机器翻译等功能。可利用NLP技术结合机器学习构建第一音频分析模型/第二音频分析模型并进行模型训练，通过已训练的模型对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段。

作为一种可选的实施方式，第一音频分析模型，用于根据音频数据特征识别音频数据是否有声音，第一音频分析模型的训练过程如下：

获取多个训练样本，训练样本包括带有声音标签的音频数据，及带无声音标签的音频数据，对音频数据进行音频数据特征提取，将提取的音频数据特征作为第一音频分析模型的输入特征，将对应的标签作为输出特征，对第一音频分析模型进行训练，训练结束后，可以利用测试样本对第一音频分析模型进行测试，测试样本包括带有声音标签的音频数据，及带有无声音标签的音频数据，测试结束后如果第一音频分析模型的分类精度不够，重复上述过程至第一音频分析模型根据音频数据特征分类是否有声音的分类精度高于设定阈值。上述音频数据特征可以是音频数据的分贝值等，考虑噪声的影响，上述带无声音标签的音频数据，可以是分贝值接近于零的音频，上述带有声音标签的数据，可以是分贝值高于一定值的音频数据。

训练完成后，第一音频分析模型输出的一个二维的分类向量，分别代表有声音的概率值和无声音的概率值。

通过上述方法对第一音频分析模型进行训练，使其能够对输入的音频片段的数据进行分析，识别出该音频片段是否有声音。

上述判断音频片段是否是有声片段时，也可以采用其他的判断方法，这里不做具体限定。

作为另一种可选的实施方式，第二音频分析模型用于根据音频数据特征识别不同的声源对象类型，即第二音频分析模型不仅用于根据音频数据特征识别音频数据是否有声音，还进一步用于在识别到有声音时，进一步区分声源对象的类型。第二音频分析模型的训练过程如下：

获取多个训练样本，训练样本包括带有声音标签及声源对象类型标签的音频数据，及带无声音标签的音频数据，对音频数据进行音频数据特征提取，将提取的音频数据特征作为第二音频分析模型的输入特征，将对应的标签作为输出特征，对第二音频分析模型进行训练，训练结束后，可以利用测试样本对第二音频分析模型进行测试，测试样本包括带有声音标签及声源对象类型标签的音频数据，及带有无声音标签的音频数据；测试结束后如果第二音频分析模型的分类精度不够，重复上述过程至第二音频分析模型根据音频数据特征分类是否有声音及有声音时对应的声源对象分类的分类精度高于设定阈值。上述音频数据特征可以是音频数据的分贝值等，考虑噪声的影响，上述带无声音标签的音频数据，可以是分贝值接近于零的音频，上述带有声音标签的数据，可以是分贝值高于一定值的音频数据。

需要说明的是，本实施例中第二音频分析模型的输出结果为二维的分类向量，作为一种可选的实施方式，分类向量中每行的不同位置对应不同的声源对象类型或无声音的分类结果，对应同一声源对象的同一行中包括两列元素，分别代表属于该声源对象类型的概率，及不属于该声源对象类型的概率。

作为另一种可选的实施方式，分类向量中每列的不同位置对应不同的声源对象类型或无声音的分类结果，对应同一声源对象类型的同一列中包括两行元素，分别代表属于该声源对象类型的概率，及不属于该声源对象类型的概率。

通过上述方法对第二音频分析模型进行训练，使其能够对输入的音频片段的数据进行分析，识别出该音频片段中声音的声源对象。

上述判断音频片段中的声源对象类型时，也可以采用其他的判断方法，这里不做具体限定。

上述自然语言处理NLP技术和计算机视觉技术的模型训练可以采用现有技术，这里不再详述。

基于上述步骤S202及步骤S203的训练模型，分别利用如下两种方式，对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段，及对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象。

方式一：利用第一音频分析模型对当前音频数据输出点前后预设时间内的音频片段进行声音识别，利用第一视频分析模型对当前视频输出点的视频数据所在的视频片段进行内容识别。根据声音识别结果和内容识别结果是否匹配确定是否对音频数据和视频数据进行二次同步。

提取初步同步后的音频片段的音频数据，输入到利用上述方法训练的第一音频分析模型，得到第一音频分析模型对音频数据进行分析后输出的音频片段中是否有声音的声音识别结果；并提取上述初步同步后的视频片段的视频数据，输入到利用上述方法训练的第一视频分析模型，得到第一视频分析模型对视频数据进行分析后输出的视频片段中是否有声源对象的内容识别结果。

方式二：利用第二音频分析模型对当前音频数据输出点前后预设时间内的音频片段进行声音识别，利用第二视频分析模型对当前视频输出点的视频数据所在的视频片段进行内容识别。根据声音识别结果和内容识别结果是否匹配确定是否对音频数据和视频数据进行二次同步。

提取初步同步后的音频片段的音频数据，输入到利用上述方法训练的第二音频分析模型，得到第二音频分析模型对音频数据进行分析后输出的音频片段中是否有声音及有声音时对应的声源对象类型的声音识别结果；并提取上述初步同步后的视频片段的视频数据，输入到利用上述方法训练的第二视频分析模型，得到第二视频分析模型对视频数据进行分析后输出的视频片段中是否有声源对象及有声源对象时的声源对象类型的内容识别结果。根据声音识别结果和内容识别结果是否匹配确定是否对音频数据和视频数据进行二次同步。

步骤S204，将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步时，对所述音频数据和视频数据进行再次同步后输出。

经验与概率模型，用于根据音频分析模型和视频分析模型的识别结果判断音频片段与视频片段是否同步，经验与概率模型的训练过程如下：

获取多个训练样本，训练样本的生成方法为：获取音频数据与视频数据同步的音视频匹配的正样本，和音频数据与视频数据不同步的音视频不匹配的负样本，将音视频匹配的正样本输入到上述训练的音频分析模型和视频分析模型，将音频分析模型得到的音频识别数据和视频分析模型得到的视频分析数据作为输入到经验和概率模型的训练样本。

上述视频识别数据和音频识别数据包括如下两种类型：

1)视频识别数据为二维的分类向量，分别代表有声源对象的概率值和无声源对象的概率值，音频识别数据为二维的分类向量，分别代表有声音的概率值和无声音的概率值；

2)视频识别数据为二维的分类向量，分类向量中每行/列的不同位置对应不同的声源对象类型或无声源对象的分类结果，对应同一声源对象的同一行/列中包括两列元素，分别代表属于该声源对象类型的概率，及不属于该声源对象类型的概率，音频识别数据为二维的分类向量，分类向量中每行/列的不同位置对应不同的声源对象类型或无声音的分类结果，对应同一声源对象类型的同一行/列中包括两行元素，分别代表属于该声源对象类型的概率，及不属于该声源对象类型的概率。

将上述获取的多个训练样本作为经验与概率模型的输入样本，将对应的是否匹配的标签作为输出特征进行训练，对上述输入样本进行概率数据特征提取，将提取的概率数据特征作为经验与概率模型的输入特征，将对应的标签(是否匹配)作为输出特征，对经验与概率模型进行训练，训练结束后，可以利用测试样本对经验与概率模型进行测试，测试样本包括上述两种类型的带有匹配标签的视频识别数据和音频识别数据，及带有不匹配标签的视频识别数据和音频识别数据，测试结束后如果经验与概率模型的匹配精度不够，重复上述过程至经验与概率模型根据分类向量判断是否匹配的匹配精度高于设定阈值。上述视频数据特征和音频数据特征均为概率值，通过经验与概率模型对概率值进行判断生成0-1之间的数值，作为匹配概率输出，该匹配概率值的大小表示音频识别数据与视频识别数据不匹配的可能性高低，概率值越大，说明音频识别数据与视频识别数据不匹配的可能性越高，即音频数据与视频数据不同步的可能性越高。

通过上述经验与概率模型的训练，可以对上述音频分析模型和视频分析模型得到的识别结果进行是否匹配的判断，从而确定音频片段与视频片段是否同步。

作为一种可选的实施方式，将利用上述步骤S202及步骤S203的训练模型得到的内容识别的结果和声音识别的结果作为输入特征，输入到上述方法训练的经验和概率模型中得到匹配概率，作为音频片段和视频片段不同步的概率，当确定不同步的概率大于设定阈值时，确定上述视频片段和音频片段不同步。

作为另一种可选的实施方式，当视频识别数据和音频识别数据为上述类型1)时，采用归一化指数函数对视频识别数据中的两个概率值进行归一化处理为一个0-1之间概率值，利用该归一化后的概率值判断是否有声源对象，如在大于设定概率阈值时，确定视频数据为有声源对象的视频数据，否则确定视频数据为无声源对象的数据。采用归一化指数函数对音频识别数据中的两个概率值进行归一化处理为一个0-1之间概率值，利用该归一化后的概率值判断是否有声音，如在大于设定概率阈值时，确定音频数据为有声片段，否则确定音频数据为无声片段。通过判断上述确定的视频数据和音频数据的类型是否匹配确定视频片段和音频片段是否同步。

当视频识别数据和音频识别数据为上述类型2)时，对视频识别数据中属于声源对象类型的概率，及不属于声源对象类型的概率，通过归一化指数函数进行归一化得到一个概率值，从而得到一维的分类向量。其中在每个声源对象类型对应的概率值大于设定阈值时，认为属于该声源对象类型，否则认为不属于该声源对象类型。对音频识别数据中属于声源对象类型的概率，及不属于声源对象类型的概率，通过归一化指数函数进行归一化得到一个概率值，从而得到一维的分类向量。其中在每个声源对象类型对应的概率值大于设定阈值时，认为属于该声源对象类型，否则认为不属于该声源对象类型。通过判断上述确定的视频数据和音频数据的类型是否匹配确定视频片段和音频片段是否同步。

确定视频片段和音频片段不同步时，输出是否进行同步调整的提示信息,响应进行同步调整的指示信息，将所述视频数据进行调整后，同步输出所述音频数据和调整后的视频数据；或者响应接收到的不进行同步调整的指示信息，输出所述音频数据和视频数据。

通过上述方法在现有的初步同步的基础上检测音频数据与视频数据是否同步，并在所述音频数据和视频数据不同步时，对音视频数据进行再次同步，解决了现有的音视频同步方案无法解决的源文件中PTS数值错误引入的音视频不同步问题。

实施例2

如图3所示，本发明实施例提供的一种音视频同步优化的方法流程图，具体包括以下步骤：

步骤S301，获取音视频源数据；

根据上述方法获取音视频源数据，这里不再详述。

步骤S302，分离音视频源数据得到音频数据和视频数据，并分别存入对应的音频数据缓冲区和视频数据缓冲区；

音视频源数据是压缩后的封装格式的数据。利用音视频分离器Demuxer将封装格式的音视频源数据中的音频源数据和视频源数据分离开，并从音频源数据中将压缩的音频帧解析出来存储到音频数据缓冲区，从视频源数据中将压缩的视频帧解析出来存储到视频数据缓冲区中，以备后续解码。

上述音频数据和视频数据的分离可以采用上述方法，这里不再详述。

步骤S303，解码音频数据并存入PCM数据缓冲区，解码视频数据并存入YUV数据缓冲区；

上述分离音频数据和视频数据后，利用音频解码器读取音频数据缓冲区的音频帧，并解码音频帧得到PCM数据格式的音频数据，存储到PCM数据缓冲区；同时利用视频解码器读取视频数据缓冲区的视频帧，并解码视频帧得到YUV数据格式的视频数据，存储到YUV数据缓冲区。

上述音频数据和视频数据的解码可以采用上述方法，这里不再详述。

步骤S304，对所述音频数据和视频数据进行初步同步；

在进行音频数据和视频数据的同步时选择音频控制模式，即音频解码后按顺序连续输出，视频数据参考音频数据的时间信息决定输出时间。具体实施时，将音频数据对应的音频帧按顺序连续输出，视频帧输出时参考音频帧输出位置对应的PTS值，通过对比当前视频帧的PTS值和音频帧输出位置的PTS值的大小，决定视频帧的输出时间。

通过上述方法能够实现音频数据和视频数据的初步同步。

上述音频数据和视频数据初步同步的实现可以采用现有技术，本实施例中在进行音频数据和视频数据的初步同步时可以采用上述的现有方法，这里不再详述。

步骤S305，利用计算机视觉分析技术，对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象，及利用PCM数据校验方法，对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段；

读取上述初步同步后的音频数据和视频数据，获取当前视频数据输出点前后预设时间内的视频片段作为当前需要输出的初步同步后的视频数据所在的视频片段；获取当前音频数据输出点前后预设时间内的音频片段作为当前需要输出的初步同步后的音频数据所在的音频片段；或者根据视频数据的PTS值确定当前视频片段对应时间段的音频片段作为当前需要输出的初步同步后的音频数据所在的视频片段。上述预设时间可以根据对音视频数据的处理能力设定合适的值，例如可以设置为100ms或者200ms等。

作为第一种可选的实施方式，可以根据上述方式一对视频片段和音频片段进行声音识别和内容识别，提取上述当前输出的音频片段的音频数据，输入到已训练的第一音频分析模型，得到第一音频分析模型对音频数据进行分析后输出的音频识别数据；并提取上述初步同步后的视频片段的视频数据，输入到已训练的第一视频分析模型，得到第一视频分析模型对视频数据进行分析后输出的视频识别数据。

或者根据上述方式二进行声音识别和内容识别，提取上述初步同步后的音频片段的音频数据，输入到已训练的第二音频分析模型，得到第二音频分析模型对音频数据进行分析后输出的音频识别数据；并提取上述初步同步后的视频片段的视频数据，输入到已训练的第二视频分析模型，得到第二视频分析模型对视频数据进行分析后输出的视频识别数据。

作为第二种可选的实施方式，在根据上述方式一进行声音识别和内容识别后，通过前述归一化处理的方法对音频识别数据和视频识别数据进行归一化处理，得到音频片段中是否有声音的声音识别结果和视频片段中是否有声源对象的内容识别结果。识别结果包括如下四种情况：

1)声音识别结果为音频片段中有声音，内容识别结果为视频片段中无声源对象；

2)声音识别结果为音频片段中无声音，内容识别结果为视频片段中有声源对象；

3)声音识别结果为音频片段中无声音，内容识别结果为视频片段中无声源对象；

4)声音识别结果为音频片段中有声音，内容识别结果为视频片段中有声源对象。

作为第三种可选的实施方式，在根据上述方式二进行声音识别和内容识别后，通过前述归一化处理的方法对音频识别数据和视频识别数据进行归一化处理，得到音频片段中声源对象类型的声音识别结果和视频片段中声源对象类型的内容识别结果。识别结果包括如下两种情况：

1)声音识别结果为音频片段中有声音及声源对象类型，内容识别结果为无声源对象；

2)声音识别结果为音频片段中无声音，内容识别结果为有声源对象及声源对象类型；

3)声音识别结果为音频片段中无声音，内容识别结果为无声源对象；

4)声音识别结果为音频片段中有声音及声源对象类型，内容识别结果为有声源对象及声源对象类型。

利用上述说明的方法能够对当前需要输出的音频片段进行是否有声音的声音识别，对当前需要输出的视频片段进行是否存在声源对象的内容识别，并得到识别结果。

步骤S306，将内容识别的结果和声音识别的结果进行匹配，确定视频片段和音频片段不同步时，输出是否进行同步调整的提示信息；

在采用上述步骤S305中第一种方式进行声音识别和内容识别时，将上述声音识别的结果和内容识别的结果即音频识别数据和视频识别数据作为输入特征，输入到已训练的经验和概率模型中得到匹配概率，作为音频片段和视频片段不同步的概率，当确定不同步的概率大于设定阈值时，确定上述视频片段和音频片段不同步。

在采用上述步骤S305中第二种方式进行声音识别和内容识别时，当识别结果为上述识别结果中的情况1)和情况2)对应的结果时确定为声音识别结果与内容识别结果不匹配，确定上述音频片段与视频片段不同步；当识别结果为上述识别结果中的情况3)对应的结果时确定为声音识别结果与内容识别结果匹配，确定上述音频片段与视频片段同步；当识别结果为上述识别结果中的情况4)对应的结果时，采用上述方式二进行声音识别和内容识别。

在采用上述步骤S305中第三种方式进行声音识别和内容识别时，当识别结果为上述识别结果中的情况1)和情况2)对应的结果时确定为声音识别结果与内容识别结果不匹配，确定上述音频片段与视频片段不同步；当识别结果为上述识别结果中的情况3)对应的结果时确定为声音识别结果与内容识别结果匹配，确定上述音频片段与视频片段同步；当识别结果为上述识别结果中的情况4)对应的结果时，进一步确定声音识别结果的声源对象类型与内容识别结果的声源对象类型是否匹配。

上述进一步确定声音识别结果的声源对象类型与内容识别结果的声源对象类型是否匹配的方法可以是在超过预设数量个声音识别结果的声源对象类型与内容识别结果的声源对象类型一致时确定为匹配，否则确定为不匹配。上述预设数量可以根据精度要求进行设定，这里不做具体限定。例如：预设数量确定为3时，第二音频分析模型得到五个声源对象类型包括：人、狗、汽车、飞机和轮船，第二视频分析模型得到四个声源对象类型包括：狗、汽车、飞机和轮船，此时有四个声源对象的类型是一致的，大于预设数量3，因此确定第二音频分析模型声音识别结果的声源对象类型与第二视频分析模型内容识别结果的声源对象类型是匹配的。

利用上述方法在确定声音识别结果和内容识别结果不匹配时，确定上述音频片段与视频片段不同步；在确定声音识别结果和内容识别结果匹配时，确定上述音频片段与视频片段同步。

在通过上述方法确定音频片段与视频片段不同步时，输出是否进行音频数据和视频数据同步调整的提示信息，提醒用户音频数据和视频数据较大概率是不同步的，请用户决定是否要对音频数据和视频数据进行同步调整。

步骤S307，响应进行同步调整的指示信息，对所述音频数据和视频数据进行再次同步；

在收到用户不进行同步调整的指示信息时，输出所述初步同步后的音频数据和视频数据；在收到用户进行同步调整的指示信息时，输出提醒用户设置同步调整时间的提示信息，并接收用户返回的同步调整时间值，根据该时间值对所述音频数据和视频数据进行再次同步后输出。

上述同步时间值的单位为ms，若用户通过主观判断确定视频图像落后，则输入正值，比如300，表示300ms，此时在初步同步的基础上根据用户输入的300将视频数据相对音频数据超前300ms输出；若用户通过主观判断确定视频图像落后，则输入负值，比如-300，此时在初步同步的基础上根据用户输入的300将视频数据相对音频数据延后300ms输出，当用户输入值为0时，同步输出音频数据和视频数据。用户可根据观看视频时的主观感受多次调整输入的同步调整时间的值，根据返回的用户调整的时间值进行相应同步调整，直到达到用户最满意的同步状态。

本实施例进行声音识别和内容识别时利用的音频分析模型和视频分析模型可以直接采用上述第一音频分析模/第二音频分析模型和第一视频分析模型/第二视频分析模型，这里不再详述。

通过上述方法在音视频播放功能开启的时候，能够在视频文件播放过程中发现可能存在的音视频不同步现象并进行确认，在确认有不同步现象发生时，给出同步调整提示信息，引导用户在用户界面上设置用于纠正音视频不同步现象的同步调整时间并进行相应调整后输出，得到用户满意的音视频同步效果，解决了音视频源文件中PTS值数值错误引入的音视频不同步问题。

步骤S308，输出音频数据和视频数据。

输出上述方法同步后的音频数据和视频数据，得到再次同步的音视频数据。

实施例3

以上对本发明中一种音视频同步优化的方法进行说明，以下对执行上述音视频同步优化的设备进行说明。

请参阅图4，本发明实施例提供一种音视频同步优化的设备，包括：

初步同步模块401，用于根据解码后的音频数据和视频数据分别对应的时间戳，对所述音频数据和视频数据进行初步同步；

内容识别模块402，用于利用计算机视觉分析技术，对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象；

声音识别模块403，用于利用PCM数据校验方法，对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段；

再次同步模块404，用于将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步时，对所述音频数据和视频数据进行再次同步后输出。

上面从模块化功能实体的角度对本申请实施例中的音视频同步优化的设备进行了描述，下面从硬件处理的角度对本申请实施例中的音视频同步优化的设备进行描述。

实施例4

请参阅图5，本申请实施例中音视频同步优化的设备的另一个实施例包括：

处理器501、存储器502、收发器509以及总线系统511；

所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

图5是本发明实施例提供的一种音视频同步优化的设备结构示意图，该设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(英文全称：Central Processing Units，英文简称：CPU)501(例如，一个或一个以上处理器)和存储器502，一个或一个以上存储应用程序504或数据506的存储介质503(例如一个或一个以上海量存储设备)。其中，存储器502和存储介质503可以是短暂存储或持久存储。存储在存储介质503的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对信息处理装置中的一系列指令操作。更进一步地，处理器501可以设置为与存储介质503通信，在设备500上执行存储介质503中的一系列指令操作。

设备500还可以包括一个或一个以上电源510，一个或一个以上有线或无线网络接口507，一个或一个以上输入输出接口508，和/或，一个或一个以上操作系统505，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD等。

本发明实施例还提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述实施例提供的音视频同步优化的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上对本申请所提供的技术方案进行了详细介绍，本申请中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种音视频同步优化的方法，其特征在于，包括：

利用第一视频分析模型，对当前视频输出点的视频数据所在的视频片段进行内容识别，第一视频分析模型输出一个二维的分类向量，分别代表有声源对象的概率值和无声源对象的概率值，以识别出是否存在声源对象；

利用第一音频分析模型，对当前音频数据输出点前后预设时间内的音频片段进行声音识别，第一音频分析模型输出的一个二维的分类向量，分别代表有声音的概率值和无声音的概率值，以识别出是否是有声音的片段；

将得到的内容识别的结果和声音识别的结果作为输入特征，输入到经验和概率模型中得到匹配概率，作为音频片段和视频片段不同步的概率，当确定不同步的概率大于设定阈值时，确定视频片段和音频片段不同步；

确定所述视频片段和音频片段不同步时，对所述音频数据和视频数据进行再次同步后输出。

2.根据权利要求1所述的方法，其特征在于，确定所述视频片段和音频片段不同步时，对所述音频数据和视频数据进行再次同步后输出，包括：

3.根据权利要求1所述的方法，其特征在于，确定所述视频片段和音频片段不同步，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述对当前音频数据输出点前后预设时间内的音频片段进行声音识别，包括：对所述音频片段提取音频数据特征，输入到已训练的第一音频分析模型，获得所述第一音频分析模型输出的是否有声音的声音识别结果，所述第一音频分析模型用于根据音频数据特征识别是否有声音；

所述对当前视频输出点的视频数据所在的视频片段进行内容识别，包括：对所述视频片段提取视频数据特征，输入到已训练的第一视频分析模型，获得所述第一视频分析模型输出的是否有声源对象的内容识别结果，所述第一视频分析模型用于根据视频数据特征识别是否有声源对象。

5.根据权利要求1所述的方法，其特征在于，

所述对当前音频数据输出点前后预设时间内的音频片段进行声音识别，包括：对所述音频片段提取音频数据特征，输入到已训练的第二音频分析模型，获得所述第二音频分析模型输出的是否有声音的声音识别结果，当所述音频片段为有声片段时，所述识别结果还包括声源对象类型，所述第二音频分析模型用于根据音频数据特征识别不同的声源对象类型；

所述对当前视频输出点的视频数据所在的视频片段进行内容识别，包括：对所述视频片段提取视频数据特征，输入到已训练的第二视频分析模型，获得所述第二视频分析模型输出的是否有声源对象的内容识别结果，当所述视频片段为有声源对象时，所述识别结果还包括声源对象类型，所述第二视频分析模型用于根据视频数据特征识别不同的声源对象类型。

6.根据权利要求2所述的方法，其特征在于，响应进行同步调整的指示信息，对所述音频数据和视频数据进行再次同步后输出，包括：

7.一种音视频同步优化的设备，其特征在于，包括：

内容识别模块，用于利用第一视频分析模型，对当前视频输出点的视频数据所在的视频片段进行内容识别，第一视频分析模型输出一个二维的分类向量，分别代表有声源对象的概率值和无声源对象的概率值，以识别出是否存在声源对象；

声音识别模块，用于利用第一音频分析模型，对当前音频数据输出点前后预设时间内的音频片段进行声音识别，第一音频分析模型输出的一个二维的分类向量，分别代表有声音的概率值和无声音的概率值，以识别出是否是有声音的片段；

再次同步模块，用于将得到的内容识别的结果和声音识别的结果作为输入特征，输入到经验和概率模型中得到匹配概率，作为音频片段和视频片段不同步的概率，当确定不同步的概率大于设定阈值时，确定视频片段和音频片段不同步；确定所述视频片段和音频片段不同步时，对所述音频数据和视频数据进行再次同步后输出。

8.一种音视频同步优化的设备，其特征在于，包括：存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，实现如权利要求1～6任一所述方法的步骤。

9.一种计算机程序介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1～6任一所述方法的步骤。