CN115499677A

CN115499677A - 基于直播的音视频同步检测方法及装置

Info

Publication number: CN115499677A
Application number: CN202211144869.4A
Authority: CN
Inventors: 戴杰超; 陈阳; 刘月娥
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-12-20

Abstract

本申请提供基于直播的音视频同步检测方法及装置，其中所述基于直播的音视频同步检测方法包括：接收针对待检测音视频的音视频同步检测请求，其中，所述待检测音视频中包含当前音频流、当前视频流和检测音频流；确定所述检测音频流的音频频率，并提取所述当前视频流中的视频帧标识；比对所述音频频率和所述视频帧标识，获得所述待检测音视频的音视频同步检测结果。本申请的音视频同步检测方法，通过主播客户端发送的待检测音视频，在观众客户端进行音视频同步检测，提升了音视频同步检测的全面性。

Description

基于直播的音视频同步检测方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及基于直播的音视频同步检测方法。本申请同时涉及基于直播的音视频同步检测装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

为了判断观众观看的音视频是否音画同步，往往由技术人员进行人为判断；还可以在码流中添加时间戳，实现对视频传输链路的检测。

然而，上述人工确定是否同步的方式需要消耗大量的人工资源；而采用添加时间戳的方式，仅能对链路传输情况进行检测，而无法确定采集、处理、编解码等环节的问题。

因此，如何高效全面的对音视频的同步情况进行检测成为本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本申请实施例提供了基于直播的音视频同步检测方法。本申请同时涉及基于直播的音视频同步检测装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的无法全面检测音视频同步的问题。

根据本申请实施例的第一方面，提供了一种基于直播的音视频同步检测方法，应用于观众客户端，包括：

接收针对待检测音视频的音视频同步检测请求，其中，所述待检测音视频中包含当前音频流、当前视频流和检测音频流；

确定所述检测音频流的音频频率，并提取所述当前视频流中的视频帧标识；

比对所述音频频率和所述视频帧标识，获得所述待检测音视频的音视频同步检测结果。

根据本申请实施例的第二方面，提供了一种基于直播的音频同步检测装置，应用于主播客户端，包括：

第一接收模块，被配置为接收针对待检测音视频的音视频同步检测请求，其中，所述待检测音视频中包含当前音频流、当前视频流和检测音频流；

确定模块，被配置为确定所述检测音频流的音频频率，并提取所述当前视频流中的视频帧标识；

比对模块，被配置为比对所述音频频率和所述视频帧标识，获得所述待检测音视频的音视频同步检测结果。

根据本申请实施例的第三方面，提供了一种基于直播的音视频同步检测方法，应用于主播客户端，包括：

接收待检测音视频生成请求，并基于所述待检测音视频生成请求确定初始音视频，其中，所述初始音视频中包含初始音频和初始视频；

创建所述初始音频对应的检测音频，其中，所述初始音频的音频时长与所述检测音频的音频时长一致；

在所述初始视频中添加视频帧标识，获得目标视频；

组合所述初始音频、所述检测音频和所述目标视频，获得待检测音视频，其中，所述待检测音视频用于发送至观众客户端进行音视频同步检测。

根据本申请实施例的第四方面，提供了一种基于直播的音频同步检测装置，应用于观众客户端，包括：

第二接收模块，被配置为接收待检测音视频生成请求，并基于所述待检测音视频生成请求确定初始音视频，其中，所述初始音视频中包含初始音频和初始视频；

创建模块，被配置为创建所述初始音频对应的检测音频，其中，所述初始音频的音频时长与所述检测音频的音频时长一致；

添加模块，被配置为在所述初始视频中添加视频帧标识，获得目标视频；

组合模型模块，被配置为组合所述初始音频、所述检测音频和所述目标视频，获得待检测音视频，其中，所述待检测音视频用于发送至观众客户端进行音视频同步检测。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述基于直播的音频同步检测方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现所述基于直播的音频同步检测方法的步骤。

本申请提供的基于直播的音频同步检测方法，接收针对待检测音视频的音视频同步检测请求，其中，所述待检测音视频中包含当前音频流、当前视频流和检测音频流；确定所述检测音频流的音频频率，并提取所述当前视频流中的视频帧标识；比对所述音频频率和所述视频帧标识，获得所述待检测音视频的音视频同步检测结果。

本申请一实施例实现了通过主播客户端发送的包含音频频率和视频帧标记标识的待检测音视频，在观众客户端进行音视频同步检测，提升了音视频同步检测的全面性。

附图说明

图1是本申请一实施例提供的基于直播的音频同步检测方法的示意图；

图2是本申请一实施例提供的一种应用于观众客户端，基于直播的音频同步检测方法的流程图；

图3是本申请一实施例提供的音频波形的示意图；

图4是本申请一实施例提供的一种应用于主播客户端，基于直播的音频同步检测方法的流程图；

图5是本申请一实施例提供的音频频率与时间之间关系的示意图；

图6是本申请一实施例提供的一种应用于游戏直播视频的音视频同步检测方法的处理流程图；

图7是本申请一实施例提供的一种应用于舞蹈直播视频的音视频同步检测方法的处理流程图；

图8是本申请一实施例提供的一种应用于观众客户端的基于直播的音频同步检测装置的结构示意图；

图9是本申请一实施例提供的一种应用于主播客户端的基于直播的音频同步检测装置的结构示意图；

图10是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

tesseract：一款开源的OCR(Optical Character Recognition,光学字符识别)库，它可以通过训练识别出任何字体，我们可以不断训练库，使图像转换文本能力不断增强。

ffmpeg：一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

numpy：Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵。

opencv：一个基于BSD许可(开源)发行的跨平台计算机视觉库。

当前，音视频的音频与画面是否同步往往由人工去判断，即人工听声音和观看图像来确定音画是否同步；此外，还可以通过在网络传输层上通过码流的时间戳判断是否存在不同步。

然而，通过人为检测的方式，费事费力，并且无法精确数据量化，即无法准确的确定出音频与画面的时间差；而采用检测时间戳的方式只能对网络链路以及网络传输系统进行检测，无法发现采集、处理、编解码等视频处理环节中的问题。

为此，本申请的方案通过在视频和音频上叠加随时间变化的信息，在视频播放端实现对信息的提取和匹配，减少了人工成本，便于音画延时的计算；同时，由于本方案的信息是叠加在最上层业务中实现的，从而可以实现端到端全链路的检测。

在本申请中，提供了基于直播的音视频同步检测方法，本申请同时涉及基于直播的音视频同步检测装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例提供的基于直播的音视频同步检测方法的示意图；主播端采集直播间主播在直播过程中产生的画面内容和音频内容，并基于画面内容和音频内容生成直播间的初始音视频；进一步地，在初始音视频的初始视频中逐帧添加数值递增的视频帧标识，并在初始音视频的初始音频中添加与初始音频时长一致的检测音频，其中，检测音频的音频频率随时间递增；组合添加了视频帧标识的初始视频和添加了测试音频的初始音频生成待检测音视频。

生成的待检测音视频被上传至服务器，在服务器接收到观众客户端的观看请求的情况下，将待检测音视频推流至发送观看请求的观众客户端进行展示；进一步地，观众客户端在接收到音视频同步检测请求的情况下，解析待检测音视频，获得当前视频流和当前音频流；在当前视频流中的每个视频帧中识别视频帧标识，并在当前音频流中确定检测音频流，并计算检测音频流的音频频率；通过比对视频帧标识和检测音频流的音频频率，获得音视频同步检测结果。

进一步地，可以将音视频同步检测结果返回至服务器；音视频检测结果可以是同步或是非同步，若检测结果为同步，则可以将检测结果返回至服务器；若检测结果为非同步，则可以计算音频频率与视频帧标识的差值，并将检测结果和差值一同返回至服务器，由服务器生成提示信息，反馈至相关技术人员，使得相关技术人员及时对不同步问题进行解决。

本申请基于直播的音视频同步检测方法，由主播端为视频和音频添加随时间变化的信息，生成待检测音视频；将待检测音视频作为发送至观众客户端展示的音视频，使得观众客户端可以进行同步检测，从而实现了视频端到端传输过程中整条链路的同步检测，保证了音视频同步检测的全面性，即视频在网络传输、编解码、采集等视频处理过程中任意环节出现问题，均可以采用本申请的音视频同步检测方法检测到延迟问题。

图2示出了根据本申请一实施例提供的基于直播的音视频同步检测方法的流程图，应用于观众客户端，具体包括以下步骤：

步骤202：接收针对待检测音视频的音视频同步检测请求，其中，所述待检测音视频中包含当前音频流、当前视频流和检测音频流。

其中，待检测音视频是指由主播客户端生成的，用于进行音视频同步检测的音视频；音视频同步检测请求是指检测待检测音视频中的视频和音频是否同步的请求；当前音频流是指观众客户端接收到的与视频画面对应的音频流；当前视频流是指主播客户端接收到的与音频对应的视频流；检测音频流是指当前视频流携带的，用于进行音视频同步检测的音频流。

具体的，在观众客户端接收到主播客户端发送的待检测音视频的情况下，可接收针对待检测音视频的音视频同步检测方法；确定待检测音视频后，基于opencv对渲染的直播画面进行采集，确定待检测音视频中包含携带有视频帧标识的当前视频流、当前音频流以及当前音频流携带的检测音频流。

在本申请一具体实施方式中，观众客户端A向服务器发送观看直播内容的请求；基于观看请求接收服务器返回的待检测音视频；进一步由观众客户端A接收针对待检测音视频的音视频同步检测请求，其中，待检测音视频中包含携带有视频帧标识的当前视频流、当前音频流和与当前音频流携带的检测音频流。

观众客户端接收针对待检测音视频的同步检测请求，以便后续对待检测音视频进行音视频同步检测。

步骤204：确定所述检测音频流的音频频率，并提取所述当前视频流中的视频帧标识。

其中，音频频率是指声源每秒的震动次数，即待检测音视频中检测音频每条的震动次数；视频帧标识是指主播客户端在生成待检测音视频的过程中为每个视频帧添加的标识。

在实际应用中，主播客户端采集直播间主播在直播过程中产生的画面内容和音频内容后，生成初始音视频；分别在初始音视频的初始音频和初始视频中添加随时间递增的信息后，生成待检测音视频，即在初始音频中添加随时间增加而音频频率增加的检测音频，该检测音频的音频时长与初始音频一致，并且在初始视频的每个视频帧中添加随时间递增，数值递增的视频帧标识。

观众客户端在接收到针对待检测音视频的音视频同步检测请求后，响应于音视频同步检测请求，解析待检测音视频，确定检测音频流的音频频率和当前视频流的视频帧标识。

进一步地，确定所述检测音频流的音频频率的方法可以包括：

确定所述检测音频流对应的音频波形；

根据所述音频波形的波形过零次数确定所述音频波形对应的音频频率。

其中，音频波形是指检测音频在音频振幅维度的图像表达；例如，获取到检测音频为mp3格式，则可以将mp3格式的音频转换为wav格式，并提取wav格式的检测音频中的音频特征绘制音频波形；波形过零次数是指音频波形在预设时长内波形的纵坐标为0的次数；基于波形过零次数可以计算检测音频的频率，例如，一个正弦波如果在1秒内经过两次零点，即两次纵坐标为0，则音频频率为1HZ。

在本申请一具体实施方式中，检测音频流为mp3格式；将检测音频流转换为wav格式，并采集该检测音频流的音频特征，生成如图3所示的音频波形，图3是本申请一实施例提供的音频波形的示意图；在0-0.04s内，波形过零次数为8次，则检测音频流在当前时间段内的音频频率为100HZ。

通过提取检测音频流对应的音频频率，以便后续基于音频频率对待检测音视频进行音视频同步检测。

进一步地，提取当前视频流中的视频帧标识的方法可以包括：

确定所述当前视频流对应的视频帧信息；

基于所述视频帧信息在所述当前视频流对应的每个视频帧中识别视频帧标识。

其中，视频帧信息是指当前视频流对应的视频属性信息，如，视频帧信息为视频帧数量信息、视频帧名称信息等；由于主播客户端在生成待检测视频的过程中，为每个视频帧添加了视频帧标识，故可以基于视频帧信息确定待检测音视频中的每个视频帧，以便对每个视频帧进行识别，得到每个视频帧中识别出的视频帧标识。

需要注意的是，使用识别算法对视频帧进行识别的过程，会出现识别错误的情况，例如，将数字“7”识别为数字“1”；因此，为了保证识别到的视频帧标识的准确性，在识别得到视频帧标识后，还可以基于滤波函数对视频帧标识进行平滑处理，即排除图像识别误差导致的视频帧标识误差。

在实际应用中，由于音视频的视频帧内会包含较多的数字信息，导致在视频帧中添加视频帧标识后，后续无法正确提取出正确的视频帧标识，故在视频帧中创建视频帧标识区域，在视频帧标识区域中添加视频帧标识，以便在后续提取视频帧中的视频帧标识时，可以解决识别误差较大、以及识别消耗资源较多的问题。

具体的，所述视频帧信息中可以包含视频帧标识区域坐标；基于所述视频帧信息在所述当前视频流对应的每个视频帧中识别视频帧标识可以包括：

确定所述视频帧信息中的视频帧标识区域坐标，并基于视频帧标识区域坐标在每个视频帧中截取视频帧标识区域；

在每个视频帧标识区域中识别每个视频帧对应的视频帧标识。

其中，视频帧标识区域坐标是指可以在每个视频帧中用于确定视频帧标识区域的坐标；视频帧标识区域是指在视频帧上添加视频帧标识的区域。

在实际应用中，主播客户端在初始视频的每个视频帧中确定视频帧标识区域，并在视频帧标识区域中添加数值递增的视频帧标识；观众客户端在接收到待检测音视频后，基于当前直播流对应的视频帧信息中的视频帧表标识区域坐标在每个视频帧中裁剪视频帧标识区域；在每个视频帧标识区域识别视频帧标识，例如，使用tesseract在裁剪的区域上识别视频帧标识；此外，视频帧标识区域所赋值的颜色可以与视频帧标识的字体颜色存在较大差异，从而提升识别正确性，例如，将视频帧标识区域绘制为白色，将视频帧标识绘制为黑色。

在本申请一具体实施方式中，主播客户端在每个视频帧中创建空白画布，并在空白画布中添加视频帧标识；则观众客户端在进行视频帧标识识别的过程中，根据视频帧标识区域坐标在每个视频帧中采集画布区域，并在每个画布区域中识别视频帧标识。

通过识别当前视频流中包含的视频帧标识，以便后续基于视频帧标识对待检测音视频进行音视频同步检测。

步骤206：比对所述音频频率和所述视频帧标识，获得所述待检测音视频的音视频同步检测结果。

其中，音视频同步检测结果是指观众客户端通过将视频帧标识与音频频率进行比对，确定待检测音视频同步或不同步。

具体的，比对所述音频频率和所述视频帧标识，获得所述待检测音视频的音视频同步检测结果的方法可以包括：

确定所述当前视频流中的目标视频帧，并确定目标视频帧对应的音频时间区间；

将所述目标视频帧对应的目标视频帧标识与所述音频时间区间对应的目标音频频率进行比对；

在所述目标视频帧标识与所述目标音频频率一致的情况下，确定所述待检测音视频为同步音视频；

在所述目标视频帧标识与所述目标音频频率不一致的情况下，确定所述待检测音视频为非同步音视频。

其中，目标视频帧为当前视频流中的任意一个视频帧；音频时间区间是指播放目标视频帧的时间区间；目标音频频率是指在音频时间区间内检测音频流的音频频率。

具体的，确定目标视频帧，并将目标视频帧对应的视频帧标识与检测音频流在目标视频帧对应的目标音频时间区间内的音频频率进行比对，确定是否一致，若一致，则待检测音视频为音视频同步状态，若不一致，则待检测音视频为音视频非同步状态，基于目标音频频率与目标视频帧标识的差值作为延迟数值上传至服务器或存储至表格中，便于后续对不同步的问题进行调整。

在实际应用中，可以确定当前视频流中包含的每个视频帧，并确定播放每个视频帧的音频时间区间；将每个视频帧对应的视频帧标识分别与对应的音频时间区间内的音频频率进行比对，确定音视频同步检测结果。

此外，还可以预设时间区间，预设时间区间为播放待检测音视频的部分时间，如1秒钟、5秒钟等等；集预设时间区间内的当前视频流、当前音频流以及检测音频流；并将预设时间区间内每个视频帧对应的视频帧标识与每个音频时间区间对应的音频频率进行对比，获得音视频同步检测结果；还可以在确定每个视频帧对应的视频帧标识后，计算视频帧标识的标识平均值，同时计算检测直播流的音频频率的音频平均值，通过比对标识平均值和音频平均值，获得预设时间区间内的音视频同步检测结果。

在本申请一具体实施方式中，以观众客户端接收到针对待检测音视频H为例；接收针对待检测音视频H的音视频同步检测请求，其中，待检测音视频是由主播客户端生成的，具体为：主播客户端在接收到待检测音视频生成请求后，确定初始音视频，并在初始音视频的每个视频帧中逐帧添加数值递增的视频帧标识，例如，在第1个至第10个视频帧中逐帧添加视频帧标识1-10，得到当前视频流；进一步地，确定每个视频帧对应的时间区间，如第一个视频帧对应的时间区间为0秒-0.04秒，基于时间区间生成音频频率递增的检测音频流，如，生成时间区间在0秒-0.04秒对应的音频频率为1HZ的检测音频流，得到检测音频流；将初始音频流对应的当前音频流与当前视频流和检测音频流进行融合，得到待检测音视频。

观众客户端响应于音视频同步检测请求，对待检测音频进行解析，确定待检测音视频中的当前音频流、当前视频流和检测音频流；任意确定某一时间区间内的视频帧标识以及对应的音频频率进行比对，确定音视频是否同步，如确定时间区间0秒-0.04秒对应的视频帧标识的标识值1与该时间区间解析得到音频频率的频率值1进行比对，确定第一帧实现了音视频同步，若确定频率值为2，则确定音视频存在不同步的问题，需要向技术人员发送提示信息，由技术人员排查发生音视频不同步的原因，从而可以及时解决该音视频不同步的问题。

本申请一具体实施例通过接收针对待检测音视频的音视频同步检测方法，解析待检测音视频中的音频频率与视频帧标识，并通过将视频帧标识与音频频率进行比对，得到音视频同步的检测结果，实现了对待检测音视频的音视频同步检测。

进一步地，观众客户端可以接收主播客户端发送的包含音频频率和视频帧标识的待检测音视频，基于待检测音视频中的音频频率与视频帧标识进行比对，获得音视频检测结果，保证可以检测到在音视频传输过程中每个环节发生的音视频不同步问题，实现端到端全链路的检测，提升了音视频同步检测的全面性。

图4示出了根据本申请一实施例提供的基于直播的音视频同步检测方法的流程图，应用于主播客户端，具体包括以下步骤：

步骤402：接收待检测音视频生成请求，并基于所述待检测音视频生成请求确定初始音视频，其中，所述初始音视频中包含初始音频和初始视频。

其中，待检测音视频生成请求是指在主播客户端生成用于音视频同步检测的音视频的请求；初始音视频是指主播客户端基于采集主播在直播中的视频和音频信息生成音视频；初始音频是指采集主播直播过程中的画面内容生成的视频；初始音频是指采集主播在直播过程中的音频内容生成的音频。

具体的，主播客户端接收到主播开播请求后，开始对主播在直播间中产生的画面和音频进行采集生成初始音视频；在接收到待检测音视频生成请求后，基于待检测音视频生成请求中的视频标识确定初始音视频；在初始音视频中包含初始音频和初始视频。

通过接收待检测音视频生成请求，并基于待检测音视频生成请求确定初始音视频，便于后续基于初始音视频生成待检测音视频。

步骤404：创建所述初始音频对应的检测音频，其中，所述初始音频的音频时长与所述检测音频的音频时长一致。

其中，检测音频是指基于初始音频创建的随时间递增而音频频率递增的音频；音频时长是指播放音频的时长；为了后续可以基于检测音频实现音视频同步的检测，故需要创建与初始音频的音频时长一致的检测音频。

具体的，创建所述初始音频对应的检测音频的方法可以包括：

确定预设音频频率集合和所述初始音频对应的音频时长；

基于所述预设音频频率集合中的音频频率，创建与所述音频时长一致的检测音频。

其中，预设音频频率集合是指由不同的音频频率组成的集合，并且在该集合中包含音频频率可以进行顺序的排序，而非均为相同的频率值。

具体的，在确定初始音频后，确定初始音频对应的音频时长；根据预设音频频率集合中的音频频率和音频时长创建检测音频，例如，如图5所示，图5是本申请一实施例提供的音频频率与时间之间关系的示意图，创建的检测音频的音频频率随时间线性递增，图中x轴表示时间，y轴表示频率。

在本申请一具体实施方式中，确定初始音频对应的音频时长，以及预设的音频频率；将音频时长和预设音频频率输入至numpy和wave模块，完成指定的音频频率的检测音频的创建。

进一步地，基于所述预设音频频率集合中的音频频率，创建与所述音频时长一致的检测音频的方法可以包括：

确定预设时间周期，其中，所述音频时长对应至少一个预设时间周期；

在所述预设音频频率集合中确定每个预设时间周期对应的目标音频频率，并基于每个预设时间周期和对应的目标音频频率生成目标子音频；

拼接每个目标子音频获得检测音频。

其中，预设时间周期是指检测音频的音频频率发生变化的周期，例如，预设时间周期为初始视频中视频帧的播放时长，即视频帧播放时间为0.04秒，则检测音频每隔0.04秒生成一个相较于本周期内的音频频率更高的子音频，再由每个子音频组成检测音频；目标音频频率是指目标时间周期对应的音频频率；目标子音频是指音频频率为目标音频频率的子音频。

在本申请一具体实施方式中，确定预设时间周期为视频帧的播放时长0.04秒；在预设音频频率集合中确定第一音频频率，并将其作为第一时间周期对应的音频频率，创建第一子音频；在创建第一子音频后，在预设音频频率集合中确定第二音频频率，其中，第二音频频率大于第一音频频率，基于第二音频频率创建第二子音频；同理，创建每个时间周期对应的子音频后，再对每个子音频进行拼接，得到检测音频。

步骤406：在所述初始视频中添加视频帧标识，获得目标视频。

其中，视频帧标识是指数值随时间线性增加的标识；例如，在第一视频帧中添加视频帧标识1，在与第一视频帧之后相邻的第二视频帧中添加视频帧标识2；目标视频是指在添加了视频帧标识的初始视频。

进一步地，在所述初始视频中添加视频帧标识，获得目标视频，包括：

解析所述初始视频中的每个视频帧，并在每个视频帧中创建视频帧标识区域；

在每个视频帧标识区域中添加视频帧标识，生成目标视频。

其中，视频帧标识区域是指添加视频帧标识的区域，例如，在视频帧S中创建1920pt*200pt的画布，作为视频帧标识区域。

在本申请一具体实施方式中，对初始视频进行解析，确定初始视频中包含的视频帧集合；分别在每个视频帧中绘制画布，并在每个视频帧的画布中逐一添加随时间递增，数值递增的视频帧标识。

步骤408：组合所述初始音频、所述检测音频和所述目标视频，获得待检测音视频，其中，所述待检测音视频用于发送至观众客户端进行音视频同步检测。

具体的，对初始音频、初始音频对应的检测音频以及添加了视频帧标识的初始视频进行组合，得到待检测音视频，例如，使用ffmpeg合成待检测音视频。生成的待检测音视频用于发送至观众客户端，以使客户端进行音视频同步检测；生成的待检测音视频可上传至服务器，以便观众客户端在接收到对待检测音视频进行音视频同步检测的情况下，可以从服务器直接下载待检测音视频。

需要注意的是，由于采集信息需要阻塞线程，而对音视频的分析也比较消耗计算资源，所以可以通过多线程的方式来分别运行任务，生成的待检测音视频的文件名通过消息队列传输，提升可处理效率，实现解耦。

本申请应用于主播客户端的音视频检测方法，接收待检测音视频生成请求，并基于所述待检测音视频生成请求确定初始音视频，其中，所述初始音视频中包含初始音频和初始视频；创建所述初始音频对应的检测音频，其中，所述初始音频的音频时长与所述检测音频的音频时长一致；在所述初始视频中添加视频帧标识，获得目标视频；组合所述初始音频、所述检测音频和所述目标视频，获得待检测音视频，其中，所述待检测音视频用于发送至观众客户端进行音视频同步检测。通过创建包含随时间递增的视频帧标识和检测音频待检测音视频，以便客户端可以基于待检测音视频实现端到端的全链路的音视频同步检测，提升音视频同步检测的全面性。

下述结合附图6，以本申请提供的基于直播的音视频同步检测方法在游戏直播视频的应用为例，对所述基于直播的音视频同步检测方法进行进一步说明。其中，图6示出了本申请一实施例提供的一种应用于游戏直播视频的基于直播的音视频同步检测方法的处理流程图，具体包括以下步骤：

步骤602：主播客户端基于待检测音视频生成请求确定初始游戏直播音视频，其中，初始游戏直播音视频中包含初始游戏直播音频和初始游戏直播视频。

步骤604：主播客户端创建初始游戏直播音频对应的检测音频。

步骤606：主播客户端在初始游戏直播视频中添加视频帧标识，获得目标视频。

步骤608：主播客户端组合检测音频、初始游戏直播音频和目标视频，获得待检测音视频，并上传至服务器。

步骤610：基于针对待检测音视频的音视频同步检测请求，在服务器中获取待检测音视频，其中，待检测音视频中包含当前音频流、当前视频流和检测音频流。

步骤612：确定检测音频流的音频频率，并提取当前视频流中的视频帧标识。

步骤614：比对音频频率和视频帧标识，获得待检测音视频的音视频同步检测结果。

下述结合附图7，以本申请提供的基于直播的音视频同步检测方法在舞蹈直播视频的应用为例，对基于直播的音视频同步检测方法进行进一步说明。其中，图7示出了本申请一实施例提供的一种应用于舞蹈直播视频的基于直播的音视频同步检测方法的处理流程示意图，具体包括以下步骤：

步骤702：观众客户端对播放的舞蹈待检测音视频进行定时采样。

具体的，采用屏幕录制的方式获得视频文件，并基于采集扬声器的声音信息，获得声音文件。

步骤704：将采集到的音频文件和视频文件存储到对应的存储队列中。

步骤706：在接收到音视频检测请求的情况下，确定舞蹈待检测音视频的音视频文件名。

步骤708：基于音视频文件名加载音频，并解析音频中的检测音频。

步骤710：调用ffmpeg将检测音频转换为wav格式。

步骤712：确定预设时间区间内检测音频对应的音频频率范围。

步骤714：基于音视频文件名加载视频。

步骤716：将视频转换为帧数据。

步骤718：根据视频帧标识坐标在视频帧中裁剪视频帧标识区域图片。

步骤720：提取首帧和尾帧对应的视频帧标识区域图片中的视频帧标识。

步骤722：将音频频率的频率平均值与首帧和尾帧对应的视频帧标识平均值进行比对，确定音视频同步检测结果。

步骤724：对采集的音视频进行合并处理。

具体的，将采集的所有音频内容和视频内容进行合并，便于后续对其做进一步的处理。

与上述方法实施例相对应，本申请还提供了基于直播的音视频同步检测装置实施例，应用于观众客户端，图8示出了本申请一实施例提供的一种基于直播的音视频同步检测装置的结构示意图。如图8所示，该装置包括：

第一接收模块802，被配置为接收针对待检测音视频的音视频同步检测请求，其中，所述待检测音视频中包含当前音频流、当前视频流和检测音频流；

确定模块804，被配置为确定所述检测音频流的音频频率，并提取所述当前视频流中的视频帧标识；

比对模块806，被配置为比对所述音频频率和所述视频帧标识，获得所述待检测音视频的音视频同步检测结果。

可选地，确定接收模块804，进一步被配置为：

确定所述检测音频流对应的音频波形；

可选地，确定接收模块804，进一步被配置为：

确定所述当前视频流对应的视频帧信息；

可选地，确定接收模块804，进一步被配置为：

可选地，确定比对模块806，进一步被配置为：

本申请应用于观众客户端的音视频同步检测装置，第一接收模块，被配置为接收针对待检测音视频的音视频同步检测请求，其中，所述待检测音视频中包含当前音频流、当前视频流和检测音频流；确定模块，被配置为确定所述检测音频流的音频频率，并提取所述当前视频流中的视频帧标识；比对模块，被配置为比对所述音频频率和所述视频帧标识，获得所述待检测音视频的音视频同步检测结果。

通过接收包含随时间递增而递增的视频帧标识，以及随时间递增而递增的检测音频组成的待检测音视频，实现了在观众客户端对同步检测信息的提取和匹配，便于进行音画延时的计算；由于待检测音视频为主播客户端生成的，故可以实现端到端全链路的音视频同步的检测，提升了检测的全面性。

与上述方法实施例相对应，本申请还提供了基于直播的音视频同步检测装置实施例，应用于主播客户端，图9示出了本申请一实施例提供的一种基于直播的音视频同步检测装置的结构示意图。如图9所示，该装置包括：

第二接收模块902，被配置为接收待检测音视频生成请求，并基于所述待检测音视频生成请求确定初始音视频，其中，所述初始音视频中包含初始音频和初始视频；

创建模块904，被配置为创建所述初始音频对应的检测音频，其中，所述初始音频的音频时长与所述检测音频的音频时长一致；

添加模块906，被配置为在所述初始视频中添加视频帧标识，获得目标视频；

组合模型模块908，被配置为组合所述初始音频、所述检测音频和所述目标视频，获得待检测音视频，其中，所述待检测音视频用于发送至观众客户端进行音视频同步检测。

可选地，所述创建模块904，进一步被配置为：

确定预设音频频率集合和所述初始音频对应的音频时长；

可选地，所述创建模块904，进一步被配置为：

拼接每个目标子音频获得检测音频。

可选地，所述添加模块906，进一步被配置为：

在每个视频帧标识区域中添加视频帧标识，生成目标视频。

本申请应用于主播客户端的音视频同步检测方法，第二接收模块，被配置为接收待检测音视频生成请求，并基于所述待检测音视频生成请求确定初始音视频，其中，所述初始音视频中包含初始音频和初始视频；创建模块，被配置为创建所述初始音频对应的检测音频，其中，所述初始音频的音频时长与所述检测音频的音频时长一致；添加模块，被配置为在所述初始视频中添加视频帧标识，获得目标视频；组合模型模块，被配置为组合所述初始音频、所述检测音频和所述目标视频，获得待检测音视频，其中，所述待检测音视频用于发送至观众客户端进行音视频同步检测。

通过创建包含随时间递增的视频帧标识和检测音频待检测音视频，以便客户端可以基于待检测音视频实现端到端的全链路的音视频同步检测，提升音视频同步检测的全面性。

上述为本实施例的基于直播的音频同步检测装置的示意性方案。需要说明的是，该基于直播的音频同步检测装置的技术方案与上述的基于直播的音频同步检测方法的技术方案属于同一构思，基于直播的音频同步检测装置的技术方案未详细描述的细节内容，均可以参见上述基于直播的音频同步检测方法的技术方案的描述。

图10示出了根据本申请一实施例提供的一种计算设备1000的结构框图。该计算设备1000的部件包括但不限于存储器1010和处理器1020。处理器1020与存储器1010通过总线1030相连接，数据库1050用于保存数据。

计算设备1000还包括接入设备1040，接入设备1040使得计算设备1000能够经由一个或多个网络1060通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1040可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备1000的上述部件以及图10中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图10所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1000可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1000还可以是移动式或静止式的服务器。

其中，处理器1020执行所述计算机指令时实现所述的基于直播的音频同步检测方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的基于直播的音频同步检测方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述基于直播的音频同步检测方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述基于直播的音频同步检测方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的基于直播的音频同步检测方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述基于直播的音频同步检测方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于直播的音视频同步检测方法，其特征在于，应用于观众客户端，包括：

2.如权利要求1所述的方法，其特征在于，确定所述检测音频流的音频频率，包括：

确定所述检测音频流对应的音频波形；

3.如权利要求1所述的方法，其特征在于，提取当前视频流中的视频帧标识，包括：

确定所述当前视频流对应的视频帧信息；

4.如权利要求3所述的方法，其特征在于，所述视频帧信息中包含视频帧标识区域坐标；

基于所述视频帧信息在所述当前视频流对应的每个视频帧中识别视频帧标识，包括：

5.如权利要求1所述的方法，其特征在于，比对所述音频频率和所述视频帧标识，获得所述待检测音视频的音视频同步检测结果，包括：

6.一种基于直播的音视频同步检测方法，其特征在于，应用于主播客户端，包括：

在所述初始视频中添加视频帧标识，获得目标视频；

7.如权利要求6所述的方法，其特征在于，创建所述初始音频对应的检测音频，包括：

确定预设音频频率集合和所述初始音频对应的音频时长；

8.如权利要求7所述的方法，其特征在于，基于所述预设音频频率集合中的音频频率，创建与所述音频时长一致的检测音频，包括：

拼接每个目标子音频获得检测音频。

9.如权利要求6所述的方法，其特征在于，在所述初始视频中添加视频帧标识，获得目标视频，包括：

在每个视频帧标识区域中添加视频帧标识，生成目标视频。

10.一种基于直播的音频同步检测装置，其特征在于，应用于观众客户端，包括：

11.一种基于直播的音频同步检测装置，其特征在于，应用于主播客户端，包括：

12.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述计算机指令时实现权利要求1-5或者6-9任意一项所述方法的步骤。

13.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-5或者6-9任意一项所述方法的步骤。