CN114339199A

CN114339199A - 音视频同步检测方法、装置、计算机设备和存储介质

Info

Publication number: CN114339199A
Application number: CN202111453995.3A
Authority: CN
Inventors: 蒋延春; 王璐
Original assignee: Ifreecomm Technology Co ltd
Current assignee: Ifreecomm Technology Co ltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-04-12

Abstract

本申请涉及一种音视频同步检测方法、装置、计算机设备和存储介质。该方法包括：获取测试音频和对应的包括至少一个目标文字的文字文本；生成用于将文字文本和测试音频同步播放的同步音视频文件；将同步音视频文件中的第一音频数据和第一视频数据输入至多媒体系统，输出第二音频数据和第二视频数据；对第二视频数据所对应的视频进行字符识别，得到每个目标文字在对应的视频中出现的第一时间信息；对第二音频数据所对应的音频进行语音识别，得到每个目标文字的发音在对应的音频中出现的第二时间信息；比较第一时间信息和第二时间信息的差异，基于差异得到音视频同步检测结果。采用本方法可量化音视频同步检测结果。

Description

音视频同步检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及软件技术领域，特别是涉及一种音视频同步检测方法、装置、计算机设备和存储介质。

背景技术

随着多媒体技术的发展，多媒体系统的应用已渗透到人类生活的各个领域，如通信、工业、医学、教学等，给人们生活带来了极大的便利。并且，多媒体系统经常涉及对音频和视频的处理，导致容易出现音视频不同步的问题。因此，衡量多媒体系统的音视频的同步效果，成了对多媒体系统的评价指标之一。

但是，目前大都是采用主观评估方法来判断多媒体系统输出的音频和视频是否同步，无法对音频和视频的同步延时差进行量化。

发明内容

基于此，有必要针对上述技术问题，提供一种可量化的音视频同步检测方法、装置、计算机设备、存储介质和计算机程序产品。

第一方面，本申请提供了一种音视频同步检测方法,所述方法包括：

获取测试音频和所述测试音频对应的文字文本；所述文字文本中包括至少一个目标文字；

生成用于将所述文字文本和测试音频同步播放的同步音视频文件；

将所述同步音视频文件对应的第一音频数据和第一视频数据输入至多媒体系统，触发所述多媒体系统以预设的音视频处理流程处理所述第一音频数据和所述第一视频数据，输出处理后的第二音频数据和第二视频数据；

对所述第二视频数据所对应的视频进行字符识别，得到所述目标文字以及每个所述目标文字在对应的视频中出现的第一时间信息；

对所述第二音频数据所对应的音频进行语音识别，得到所述目标文字以及每个所述目标文字的发音在对应的音频中出现的第二时间信息；

比较第一时间信息和第二时间信息的差异，基于所述差异得到音视频同步检测结果。

在其中一个实施例中，所述获取测试音频和所述测试音频对应的文字文本包括：

获取用于进行音视频同步测试的测试音频；

对所述测试音频进行语音识别，得到对应的文字文本。

在其中一个实施例中，所述比较第一时间信息和第二时间信息的差异，基于所述差异得到音视频同步检测结果包括：

针对所述文字文本中的每个目标文字，确认每个目标文字所对应的所述第一时间信息和所述第二时间信息之间的差异值；

基于所述差异值得到音视频同步检测结果。

在其中一个实施例中，所述基于所述差异值得到音视频同步检测结果包括：

若每个目标文字所对应的差异值皆小于预设差异阈值，则确认所述音视频同步检测结果为音视频播放同步；

若任一目标文字所对应的所述差异值大于预设差异阈值，则确认所述音视频同步检测结果为音视频播放不同步。

在其中一个实施例中，所述多媒体系统包括采集端和输出端；所述将所述同步音视频文件中的第一音频数据和第一视频数据输入至多媒体系统，触发所述多媒体系统以预设的音视频处理流程处理所述第一音频数据和所述第一视频数据，输出处理后的第二音频数据和第二视频数据包括：

将所述同步音视频文件中的第一音频数据和第一视频数据输入所述采集端，触发所述采集端同时分别采集输入的第一音频数据和第一视频数据，分别进行编码，得到编码后的音频数据和视频数据；

将所述编码后的音频数据和视频数据发送给所述输出端；

通过所述输出端对接收到的编码后的音频数据和视频数据进行解码，输出处理后的第二音频数据和第二视频数据。

在其中一个实施例中，所述多媒体系统为视频会议系统，所述采集端为所述视频会议系统中的第一视频会议终端；所述输出端为所述视频会议系统中的第二视频会议终端；所述视频会议系统中还包括多点控制单元；所述将所述编码后的音频数据和视频数据发送给所述输出端包括：

通过所述第一视频会议终端将所述编码后的音频数据和视频数据发送至多点控制单元；

通过所述多点控制单元针对收到的编码后的音频数据和视频数据进行解码，并将解码后的各路音频数据合成为同一路目标音频数据，以及将解码后的各路视频数据合成为同一路目标视频数据；

通过所述多点控制单元对所述目标音频数据和所述目标视频数据进行编码，得到中间音频数据和中间视频数据；

通过所述多点控制单元发送所述中间音频数据和中间视频数据给所述第二视频会议终端。

第二方面，本申请还提供了一种音视频同步检测装置。所述装置包括：

准备模块，用于获取测试音频和所述测试音频对应的文字文本；所述文字文本中包括至少一个目标文字；生成用于将所述文字文本和测试音频同步播放的同步音视频文件；

传入模块，用于将所述同步音视频文件对应的第一音频数据和第一视频数据输入至多媒体系统，触发所述多媒体系统以预设的音视频处理流程处理所述第一音频数据和所述第一视频数据，输出处理后的第二音频数据和第二视频数据；

计算模块，用于对所述第二视频数据所对应的视频进行字符识别，得到所述目标文字以及每个所述目标文字在对应的视频中出现的第一时间信息；对所述第二音频数据所对应的音频进行语音识别，得到所述目标文字以及每个所述目标文字的发音在对应的音频中出现的第二时间信息；

确定模块，用于比较第一时间信息和第二时间信息的差异，基于所述差异得到音视频同步检测结果。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行上述音视频同步检测方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行上述音视频同步检测方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行上述音视频同步检测方法的步骤。

上述音视频同步检测方法、装置、计算机设备、存储介质和计算机程序产品，通过获取测试音频和所述测试音频对应的文字文本；所述文字文本中包括至少一个目标文字；生成用于将所述文字文本和测试音频同步播放的同步音视频文件。将所述同步音视频文件对应的第一音频数据和第一视频数据输入至多媒体系统，触发所述多媒体系统以预设的音视频处理流程处理所述第一音频数据和所述第一视频数据，输出处理后的第二音频数据和第二视频数据，相对于同步音视频文件中的第一音频数据和第一视频数据，经过所述多媒体系统处理的第二音频数据和第二视频数据可能是不同步的。对所述第二视频数据所对应的视频进行字符识别，得到所述目标文字以及每个所述目标文字在对应的视频中出现的第一时间信息。对所述第二音频数据所对应的音频进行语音识别，得到所述目标文字以及每个所述目标文字的发音在对应的音频中出现的第二时间信息。比较第一时间信息和第二时间信息的差异，即音视频之间的延时差值，基于所述差异得到音视频同步检测结果。因此，在不需要人工主观评估的情况下，自动对音视频同步进行检测，可量化地得出音视频同步检测结果。

附图说明

图1为一个实施例中音视频同步检测方法的应用环境图；

图2为一个实施例中音视频同步检测方法的流程示意图；

图3为一个实施例中音视频同步检测方法的流程示意图；

图4为一个实施例中音视频同步检测方法的流程示意图；

图5为一个实施例中音视频同步检测方法的流程示意图；

图6为一个实施例中音视频同步检测装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的音视频同步检测开发方法，可以应用于如图1所示的应用环境中。其中，终端110通过网络与多媒体系统120进行通信。其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，多媒体系统120可以由至少一个终端或/和至少一个服务器组成的系统来实现。

终端110可以获取测试音频和所述测试音频对应的文字文本；所述文字文本中包括至少一个目标文字。终端110生成用于将所述文字文本和测试音频同步播放的同步音视频文件。终端110将所述同步音视频文件对应的第一音频数据和第一视频数据输入至多媒体系统120，触发多媒体系统120以预设的音视频处理流程处理所述第一音频数据和所述第一视频数据，输出处理后的第二音频数据和第二视频数据给终端110。终端110对所述第二视频数据所对应的视频进行字符识别，得到所述目标文字以及每个所述目标文字在对应的视频中出现的第一时间信息。对所述第二音频数据所对应的音频进行语音识别，得到所述目标文字以及每个所述目标文字的发音在对应的音频中出现的第二时间信息。终端110比较第一时间信息和第二时间信息的差异，基于所述差异得到音视频同步检测结果。可以理解，终端110可以包括第一终端和第二终端。终端110所执行的处理由第一终端和第二终端来共同执行。具体地，第一终端生成同步音视频文件，并将对应的第一音频数据和第一视频数据输入至多媒体系统120，多媒体系统120输出处理后的第二音频数据和第二视频数据给第二终端。第二终端得到每个目标文字第一时间信息和第二时间信息后，比较第一时间信息和第二时间信息的差异，基于所述差异得到音视频同步检测结果。

在一个实施例中，如图2所示，提供了一种音视频同步检测方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现，还可以应用于包括多个终端的系统，并通过多个终端的交互实现。本实施例中，该方法包括以下步骤：

S202，获取测试音频和测试音频对应的文字文本；文字文本中包括至少一个目标文字；生成用于将文字文本和测试音频同步播放的同步音视频文件。

其中，测试音频是为执行音视频同步检测方法而准备的音频。

在一个实施例中，文字文本是基于对测试音频进行语音识别得到的。

在另一个实施例中。文字文本是对测试音频进行人工标注得到的。

在一个实施例中，将文字文本和测试音频同步播放的同步音视频文件表示同步音视频文件中的音频为测试音频，同步音视频文件中的视频展示文字文本中的目标文字，且目标文字的出现时刻与目标文字对应的发音在同步音视频文件的音频中出现时刻是同步的。

具体地，终端可以获取测试音频和测试音频对应的文字文本。该文字文本中包括至少一个目标文字。终端基于测试音频和文字文本生成用于将文字文本和测试音频同步播放的同步音视频文件。

在一个实施例中，如图3所示，终端获取测试音频后，终端的语音识别模块处理测试音频，对测试音频进行语音识别，生成对应的文本文字。终端基于文本文字生成展示文本文字的白底黑字的视频。终端将白底黑字的视频和测试音频合成音视频同步的多媒体文件，从而生成要播放的多媒体文件、即同步音视频文件。

S204，将同步音视频文件对应的第一音频数据和第一视频数据输入至多媒体系统，触发多媒体系统以预设的音视频处理流程处理第一音频数据和第一视频数据，输出处理后的第二音频数据和第二视频数据。

其中，多媒体系统是利用计算机技术和数字通讯网技术来处理和控制多媒体信息的系统，比如视频会议系统。同步音视频文件对应的第一音频数据是指用于展示同步音视频文件中的音频的音频数据，格式不限定。同步音视频文件对应的第一视频数据是用于展示同步音视频文件中的视频的视频数据，格式不限定。

在一个实施例中，终端可以传输同步音视频文件到多媒体系统中，以使得将同步音视频文件对应的第一音频数据和第一视频数据输入多媒体系统。

在另一个实施例中，终端可以传输压缩过后的同步音视频文件到多媒体系统中，以使得将同步音视频文件对应的第一音频数据和第一视频数据输入多媒体系统。

在另一个实施例中，终端可以播放同步音视频文件，通过物理接口将同步音视频文件对应的第一音频数据和第一视频数据输入至多媒体系统。比如，终端播放同步音视频文件时，终端通过AV(Audio&Video，一种设备传输端口)音视频线将基于同步音视频文件对应的第一音频数据和第一视频数据传输到多媒体系统的采集端。

在一个实施例中，多媒体系统对输入的第一音频数据和第一视频数据分别进行编码、传输和解码后，输出处理后的第二音频数据和第二视频数据。

在一个实施例中，多媒体系统为视频会议系统，包括多个视频会议终端和用于将至少一路音频和至少一路视频合成一路音频和一路视频的多点控制单元。第一视频会议终端进行采集和编码，发送给多点控制单元，多点控制单元进行解码、音视频合成处理和编码后，发送给第二视频会议终端，第二视频会议终端进行解码，生成处理后的第二音频数据和第二视频数据。

在一个实施例中，多媒体系统可以输出包括第二音频数据和第二视频数据的媒体文件。

在另一个实施例中，多媒体系统的第二视频会议终端播放音视频，并通过物理接口将对应的第二音频数据和第二视频数据同时传输到终端。

具体地，终端可以将同步音视频文件对应的第一音频数据和第一视频数据输入至多媒体系统，多媒体系统按照预设的音视频处理流程处理第一音频数据和第一视频数据，生成可能不同步待检测的第二音频数据和第二视频数据，并输出第二音频数据和第二视频数据给终端。

S206，对第二视频数据所对应的视频进行字符识别，得到目标文字以及每个目标文字在对应的视频中出现的第一时间信息；对第二音频数据所对应的音频进行语音识别，得到目标文字以及每个目标文字的发音在对应的音频中出现的第二时间信息。

其中，第二视频数据所对应的视频是指基于第二视频数据生成的视频，第二音频数据所对应的音频是指基于第二音频数据生成的音频，第二视频数据和第二音频数据的格式不做限定。

其中，字符识别是指对展示出的文字字符进行识别，将识别结果以文本方式存储在计算机器中。比如，可以对纸上的文字字符进行识别或者对图片上的文字字符进行识别，提取出对应的文字。时间信息包括多个时间点，可以是毫秒级别的时间点，也可以是微秒级别或者秒级别的时间点。

在一个实施例中，终端可以对第二视频数据所对应的视频进行字符识别，识别到目标文字时，记录下对应的时间点，从而生成第一时间信息。

在一个实施例中，终端可以对第二音频数据所对应的音频进行语音识别，确认目标文字的发音在对应的音频中出现时，记录下对应的时间点，从而生成第二时间信息。

可以理解，基于同步音视频文件生成的第二视频数据，第二视频数据所对应的视频是包括目标文字的。具体地，终端对第二视频数据所对应的视频进行字符识别，识别到目标文字时，记录对应的时间点，从而得到目标文字以及每个目标文字在对应的视频中出现的第一时间信息。终端对第二音频数据所对应的音频进行语音识别，识别到音频的发音所对应的文字为目标文字时，记录下对应的时间点，从而得到目标文字以及每个目标文字的发音在对应的音频中出现的第二时间信息。

S208，比较第一时间信息和第二时间信息的差异，基于差异得到音视频同步检测结果。

在一个实施例中，终端可以针对文字文本中的每个目标文字，确认目标文字的第一时间信息和第二时间信息之间的差异值，基于差异值得到音视频同步检测结果。

在一个实施例中，终端可以预先设置预设差异阈值，通过对预设差异阈值与每个目标文字的差异值的比对，得到音视频同步检测结果为音视频播放同步或者音视频播放不同步。

具体地，终端比较第一时间信息和第二时间信息的差异，针对差异按照预设规则进行判断，从而得到音视频同步检测结果为音视频播放同步或者音视频播放不同步。

上述音视频同步检测方法，通过获取测试音频和测试音频对应的文字文本；文字文本中包括至少一个目标文字；生成用于将文字文本和测试音频同步播放的同步音视频文件。将同步音视频文件中的第一音频数据和第一视频数据输入至多媒体系统，触发多媒体系统以预设的音视频处理流程处理第一音频数据和第一视频数据，输出处理后的第二音频数据和第二视频数据，相对于同步音视频文件中的第一音频数据和第一视频数据，经过多媒体系统处理的第二音频数据和第二视频数据可能是不同步的。对第二视频数据所对应的视频进行字符识别，得到目标文字以及每个目标文字在对应的视频中出现的第一时间信息。对第二音频数据所对应的音频进行语音识别，得到目标文字以及每个目标文字的发音在对应的音频中出现的第二时间信息。比较第一时间信息和第二时间信息的差异，即音视频之间的延时差值，基于差异得到音视频同步检测结果。因此，在不需要人工主观评估的情况下，自动对音视频同步进行检测，可量化地得出音视频同步检测结果。

在一个实施例中，获取测试音频和测试音频对应的文字文本包括获取用于进行音视频同步测试的测试音频；对测试音频进行语音识别，得到对应的文字文本。

具体地，终端获取到用于音视频同步测试的测试音频，对测试音频进行语音识别，得到测试音频对应的文本。可以理解，通过对测试音频进行语音识别，得到的文本和在步骤S206中对第二音频数据对应的音频进行语音识别得到的文本是相同的。

在本实施例中，通过获取用于进行音视频同步测试的测试音频；对测试音频进行语音识别，得到对应的文字文本，以使得生成的文本与步骤S206中对第二音频数据对应的音频进行语音识别得到的文本相同。这样，在不需要人工标注的情况下，保证了步骤S206中语音识别和字符识别得到的文本相同，从而为步骤S208提供准确性的数据，以提高音视频同步检测结果的准确性。

在一个实施例中，比较第一时间信息和第二时间信息的差异，基于差异得到音视频同步检测结果包括针对文字文本中的每个目标文字，确认每个目标文字所对应的第一时间信息和第二时间信息之间的差异值；基于差异值得到音视频同步检测结果。

具体地，终端针对文字文本中的每个目标文字，确认每个目标文字在步骤S206过程中得到的第一时间信息和第二时间信息，并计算得到第一时间信息和第二时间信息之间的差异值。终端根据差异值得到音视频同步检测结果。

在一个实施中，终端可以基于差异值的大小得到音视频同步检测结果。

在另一个实施例中，终端可以基于差异值的大小幅度变化得到音视频同步的稳定性。

在另一个实施中，终端可以基于所有目标文字的差异值的平均值，得到音视频同步平均延时。

在本实施例中，终端针对文字文本中的每个目标文字，确认每个目标文字所对应的第一时间信息和第二时间信息之间的差异值；基于差异值得到音视频同步检测结果。这样，终端不仅仅是在某个时间点上进行分析得到音视频同步检测结果，而是在音视频播放总时长的各个时间点上分析得到音视频同步检测结果，从而提高音视频同步检测结果的准确性和全面性。

在一个实施例中，基于差异值得到音视频同步检测结果包括若每个目标文字所对应的差异值皆小于预设差异阈值，则确认音视频同步检测结果为音视频播放同步；若任一目标文字所对应的差异值大于预设差异阈值，则确认音视频同步检测结果为音视频播放不同步。

具体地，终端获取预设差异阈值，获取每个目标文字对应的差异值，执行比较判断。如果每个目标文字对应的差异值皆小于预设差异阈值，则确认音视频同步检测结果为音视频播放同步。如果任一个目标文字对应的差异值大于预设差异阈值，则确认音视频同步检测结果为音视频播放不同步。

在本实施例中，通过对每个目标文字所对应的差异值大小进行判断，确认音视频同步检测结果为音视频播放不同步或者同步。这样，终端不仅仅是在某个时间点判断差异值大小得到音视频同步检测结果，而是在音视频播放总时长的各个时间点上判断差异值大小得到音视频同步检测结果，从而提高音视频同步检测结果的准确性和全面性。

在一个实施例中，多媒体系统包括采集端和输出端；将同步音视频文件中的第一音频数据和第一视频数据输入至多媒体系统，触发多媒体系统以预设的音视频处理流程处理第一音频数据和第一视频数据，输出处理后的第二音频数据和第二视频数据包括将同步音视频文件中的第一音频数据和第一视频数据输入采集端，触发采集端同时分别采集输入的第一音频数据和第一视频数据，分别进行编码，得到编码后的音频数据和视频数据；将编码后的音频数据和视频数据发送给输出端；通过输出端对接收到的编码后的音频数据和视频数据进行解码，输出处理后的第二音频数据和第二视频数据。

在一个实施例中，多媒体系统包括采集端和输出端。采集端可以采集到同步音视频文件中的第一音频数据和第一视频数据。输入端可以输出处理后的第二音频数据和第二视频数据。

在一个实施例中，终端播放同步音视频文件，并通过物理接口，将播放同步音视频文件过程中所产生的第一音频数据和第一视频数据输入到采集端。

具体地，终端将同步音视频文件中的第一音频数据和第一视频数据输入采集端，采集端同时分别采集输入的第一音频数据和第一视频数据，分别进行编码，得到编码后的音频数据和视频数据。采集端将编码后的音频数据和视频数据发送给输出端。通过输出端对接收到的编码后的音频数据和视频数据进行解码，输出处理后的第二音频数据和第二视频数据。

在本实施例中，多媒体系统包括采集端和输出端，并对音视频进行处理，该处理可能导致音视频不同步，以使得需要在步骤S206中对输出的第二音频数据和第二视频数据进行处理，得到音视频同步检测结果。

在一个实施例中，多媒体系统为视频会议系统，采集端为视频会议系统中的第一视频会议终端；输出端为视频会议系统中的第二视频会议终端；视频会议系统中还包括多点控制单元；将编码后的音频数据和视频数据发送给输出端包括通过第一视频会议终端将编码后的音频数据和视频数据发送至多点控制单元；通过多点控制单元针对收到的编码后的音频数据和视频数据进行解码，并将解码后的各路音频数据合成为同一路目标音频数据，以及将解码后的各路视频数据合成为同一路目标视频数据；通过多点控制单元对目标音频数据和目标视频数据进行编码，得到中间音频数据和中间视频数据；通过多点控制单元发送中间音频数据和中间视频数据给第二视频会议终端。

其中，视频会议系统是指不受地域限制、建立在网络通讯基础上，双向、多点、实时的音视频交互系统。多点控制单元是用于将至少一个音频合成一路音频，将至少一路视频合成一路视频的设备。

具体地，通过网络传输的方式，将第一视频会议终端将编码后的音频数据和视频数据发送至多点控制单元。多点控制单元针对收到的编码后的音频数据和视频数据进行解码，并将解码后的各路音频数据合成为同一路目标音频数据，以及将解码后的各路视频数据合成为同一路目标视频数据。多点控制单元对目标音频数据和目标视频数据进行编码，得到中间音频数据和中间视频数据。多点控制单元通过网络传输的方式，发送中间音频数据和中间视频数据给第二视频会议终端。

在本实施例中，多媒体系统为视频会议系统，采集端为视频会议系统中的第一视频会议终端；输出端为视频会议系统中的第二视频会议终端；视频会议系统中还包括多点控制单元。通过第一视频会议终端、第二视频会议终端和多点控制单元各自对音视频数据的处理，达到多媒体系统的业务需求同时，可能导致输出的音视频不同步，以使得需要在步骤S206中对输出的第二音频数据和第二视频数据进行处理，得到音视频同步检测结果。

在一个实施例中，如图4所示，多媒体系统的第二视频会议终端与用于音视频同步检测的终端通过物理接口连接。用于音视频同步检测的终端获取到第二视频会议终端传送的第二音频数据和第二视频数据。用于音视频同步检测的终端中的字符识别模块对第二视频数据所对应的视频进行处理，生成包括第一时间信息的文本1。用于音视频同步检测的终端中的语音识别模块对第二音频数据所对应的音频进行处理，生成包括第二时间信息的文本2。将文本1和文本2输入到用于音视频同步检测的终端的音视频同步判断模块，音视频判断模块根据文本1和文本2之间的差异，得到音视频同步检测结果，从而实现了对多媒体系统的同步效果的量化评估。

在一个实施例中，多媒体系统包括多个视频会议终端和多点控制单元。具体地，如图5所示，终端通过语音识别技术对测试音频生成对应的文字文本，基于文字文本和测试音频生成同步播放的同步音视频文件。终端播放同步音视频文件，通过物理接口传输同步音视频文件对应的第一音频数据和第一视频数据到多媒体系统中。多媒体系统中的第一视频会议终端采集同步音视频文件对应的第一视频数据和第二视频数据，经过编码后，通过网络传输给多点控制单元。多点控制单元对收到的编码后的音频数据和视频数据进行解码，并将解码后的各路音频数据合成为同一路目标音频数据，以及将解码后的各路视频数据合成为同一路目标视频数据，通过网络传输给第二视频会议终端。第二视频会议终端对接收到的编码后的音频数据和视频数据进行解码，输出处理后的第二音频数据和第二视频数据，通过物理接口将处理后的第二音频数据和第二视频数据输入到用于音视频同步检测的终端。用于音视频同步检测的终端对第二视频数据所对应的视频进行字符识别，得到含有时间轴的文本1，对第二音频数据所对应的音频进行语音识别，得到含有时间轴的文本2。用于音视频同步检测的终端将文本1和文本2做对比，看时间差是否在可接受范围内，从而得到音视频同步检测结果。其中，用于音视频同步检测的终端针对所述文字文本中的每个目标文字，确认每个目标文字所对应的所述第一时间信息和所述第二时间信息之间的差异值。若每个目标文字所对应的差异值皆小于预设差异阈值，用于音视频同步检测的终端确认音视频同步检测结果为音视频播放同步。若任一目标文字所对应的差异值大于预设差异阈值，用于音视频同步检测的终端确认所述音视频同步检测结果为音视频播放不同步。可以理解，在本实施例中的终端也可以是用于音视频同步检测的终端中的一个模块。

应该理解的是，虽然本申请部分实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的音视频同步检测方法的音视频同步检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个音视频同步检测装置实施例中的具体限定可以参见上文中对于音视频同步检测方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种音视频同步检测装置600，包括：准备模块602、传入模块604、计算模块606和确定模块608，其中：

准备模块602，用于获取测试音频和测试音频对应的文字文本；文字文本中包括至少一个目标文字；生成用于将文字文本和测试音频同步播放的同步音视频文件。

传入模块604，用于将同步音视频文件对应的第一音频数据和第一视频数据输入至多媒体系统，触发多媒体系统以预设的音视频处理流程处理第一音频数据和第一视频数据，输出处理后的第二音频数据和第二视频数据。

计算模块606，用于对第二视频数据所对应的视频进行字符识别，得到目标文字以及每个目标文字在对应的视频中出现的第一时间信息；对第二音频数据所对应的音频进行语音识别，得到目标文字以及每个目标文字的发音在对应的音频中出现的第二时间信息。

确定模块608，用于比较第一时间信息和第二时间信息的差异，基于差异得到音视频同步检测结果。

在一个实施例中，准备模块602还用于获取用于进行音视频同步测试的测试音频；对所述测试音频进行语音识别，得到对应的文字文本。

在一个实施例中，计算模块606还用于针对所述文字文本中的每个目标文字，确认每个目标文字所对应的所述第一时间信息和所述第二时间信息之间的差异值；

基于所述差异值得到音视频同步检测结果。

在一个实施例中，计算模块606还用于若每个目标文字所对应的差异值皆小于预设差异阈值，则确认所述音视频同步检测结果为音视频播放同步；若任一目标文字所对应的所述差异值大于预设差异阈值，则确认所述音视频同步检测结果为音视频播放不同步。

在一个实施例中，所述多媒体系统包括采集端和输出端；所述传入模块604还用于将所述同步音视频文件中的第一音频数据和第一视频数据输入所述采集端，触发所述采集端同时分别采集输入的第一音频数据和第一视频数据，分别进行编码，得到编码后的音频数据和视频数据；将所述编码后的音频数据和视频数据发送给所述输出端；通过所述输出端对接收到的编码后的音频数据和视频数据进行解码，输出处理后的第二音频数据和第二视频数据。

在一个实施例中，所述多媒体系统为视频会议系统，所述采集端为所述视频会议系统中的第一视频会议终端；所述输出端为所述视频会议系统中的第二视频会议终端；所述视频会议系统中还包括多点控制单元；所述传入模块604还用于通过所述第一视频会议终端将所述编码后的音频数据和视频数据发送至多点控制单元；通过所述多点控制单元针对收到的编码后的音频数据和视频数据进行解码，并将解码后的各路音频数据合成为同一路目标音频数据，以及将解码后的各路视频数据合成为同一路目标视频数据；通过所述多点控制单元对所述目标音频数据和所述目标视频数据进行编码，得到中间音频数据和中间视频数据；通过所述多点控制单元发送所述中间音频数据和中间视频数据给所述第二视频会议终端。

上述音视频同步检测装置，通过获取测试音频和测试音频对应的文字文本；文字文本中包括至少一个目标文字；生成用于将文字文本和测试音频同步播放的同步音视频文件。将同步音视频文件中的第一音频数据和第一视频数据输入至多媒体系统，触发多媒体系统以预设的音视频处理流程处理第一音频数据和第一视频数据，输出处理后的第二音频数据和第二视频数据，相对于同步音视频文件中的第一音频数据和第一视频数据，经过多媒体系统处理的第二音频数据和第二视频数据可能是不同步的。对第二视频数据所对应的视频进行字符识别，得到目标文字以及每个目标文字在对应的视频中出现的第一时间信息。对第二音频数据所对应的音频进行语音识别，得到目标文字以及每个目标文字的发音在对应的音频中出现的第二时间信息。比较第一时间信息和第二时间信息的差异，即音视频之间的延时差值，基于差异得到音视频同步检测结果。因此，在不需要人工主观评估的情况下，自动对音视频同步进行检测，可量化地得出音视频同步检测结果。

关于上述音视频同步检测装置的具体限定可以参见上文中对于上述音视频同步检测方法的限定，在此不再赘述。上述音视频同步检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种音视频同步检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音视频同步检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取测试音频和所述测试音频对应的文字文本包括：

获取用于进行音视频同步测试的测试音频；

对所述测试音频进行语音识别，得到对应的文字文本。

3.根据权利要求1所述的方法，其特征在于，所述比较第一时间信息和第二时间信息的差异，基于所述差异得到音视频同步检测结果包括：

基于所述差异值得到音视频同步检测结果。

4.根据权利要求3所述的方法，其特征在于，所述基于所述差异值得到音视频同步检测结果包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述多媒体系统包括采集端和输出端；所述将所述同步音视频文件中的第一音频数据和第一视频数据输入至多媒体系统，触发所述多媒体系统以预设的音视频处理流程处理所述第一音频数据和所述第一视频数据，输出处理后的第二音频数据和第二视频数据包括：

将所述编码后的音频数据和视频数据发送给所述输出端；

6.根据权利要求5所述的方法，其特征在于，所述多媒体系统为视频会议系统，所述采集端为所述视频会议系统中的第一视频会议终端；所述输出端为所述视频会议系统中的第二视频会议终端；所述视频会议系统中还包括多点控制单元；所述将所述编码后的音频数据和视频数据发送给所述输出端包括：

7.一种音视频同步检测装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。