CN116437068A

CN116437068A - 一种唇音同步的测试方法、装置、电子设备和存储介质

Info

Publication number: CN116437068A
Application number: CN202211599754.4A
Authority: CN
Inventors: 陈慧
Original assignee: Beijing Feixun Digital Technology Co ltd
Current assignee: Beijing Feixun Digital Technology Co ltd
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-07-14

Abstract

本申请提供了一种唇音同步的测试方法、装置、电子设备和存储介质，所述方法包括：对接收端接收到的声音和图像进行录制，得到目标录制文件，其中，所述声音和所述图像是发送端发送给所述接收端的；确定所述目标录制文件中的声音播放时刻和预设视频帧的视频帧时刻；记录所述视频帧时刻和所述声音播放时刻之间的测试延迟时长；确定所述测试延迟时长和所述发送端中原始播放文件的标准延时时长之间的时长差值；根据所述时长差值和设定差值指标之间的关系，确定唇音同步是否符合要求。本申请提高了唇音同步测试准确性。

Description

一种唇音同步的测试方法、装置、电子设备和存储介质

技术领域

本申请涉及媒体通讯技术领域，尤其涉及一种唇音同步的测试方法、装置、电子设备和存储介质。

背景技术

在视频指挥系统中，声音和视频是分别编码、分别传输的，当受到网络传输或编解码延时处理的影响时，会存在声音和视频不同步的现象，因此唇音同步是视频指挥系统的一项重要指标要求。

为了检测唇音同步是否符合指标要求，目前搭建的测试环境如附图1所示。唇音测试过程如下：指挥终端A视频呼叫指挥终端B，二者建立音视频通话链接，相互看到对端图像，听到对端声音；测试人员A面对着指挥终端A的摄像机镜头，开始数数“1，2，3”，保证摄像机能够采集到测试人员A的口型；测试人员B在指挥终端B的显示器上查看测试人员A的口型，并同时监听测试人员A的声音，若查看到测试人员A的口型和听到的声音一致(例如：口型为1，听到的声音也为1)，则说明唇音同步；若不一致，则唇音不同步。

当前测试方法存在的问题为：不同测试人员感知误差程度不同，测试方法的主观性较大，不能客观精准的计算出唇音误差数值，导致唇音测试不准确。

发明内容

本申请实施例的目的在于提供一种唇音同步的测试方法、装置、电子设备和存储介质，以解决唇音测试不准确的问题。具体技术方案如下：

第一方面，提供了一种唇音同步的测试方法，所述方法包括：

对接收端接收到的声音和图像进行录制，得到目标录制文件，其中，所述声音和所述图像是发送端发送给所述接收端的；

确定所述目标录制文件中的声音播放时刻和预设视频帧的视频帧时刻；

记录所述视频帧时刻和所述声音播放时刻之间的测试延迟时长；

确定所述测试延迟时长和所述发送端中原始播放文件的标准延时时长之间的时长差值；

根据所述时长差值和设定差值指标之间的关系，确定唇音同步是否符合要求。

可选的，所述确定所述目标录制文件中的声音播放时刻和预设视频帧的视频帧时刻之前，所述方法还包括：

将所述目标录制文件的起始视频帧作为所述预设视频帧。

通过分析所述目标录制文件中的人物画面，获取包含有人物说话画面的初始视频帧；

将所述初始视频帧作为所述预设视频帧。

可选的，所述通过分析所述目标录制文件中的人物画面，获取包含有人物说话画面的初始视频帧包括：

将所述目标录制文件的每个视频帧逐帧输入识别模型；

通过所述识别模型对视频帧的画面进行分析，识别包含有人物说话画面的多个待选视频帧；

从所述多个待选视频帧中选取出首张视频帧作为所述初始视频帧；

通过所述识别模型输出所述初始视频帧。

可选的，所述目标录制文件包括至少两个子录制文件，确定所述测试延迟时长和所述发送端中原始播放文件的标准延时时长之间的时长差值包括：

确定每个子录制文件的测试延时时长和所述标准延时时长之间的子时长差值；

将每个所述子时长差值的平均值作为所述时长差值。

可选的，所述对接收端接收到的声音和图像进行录制，得到目标录制文件包括：

控制所述接收端播放接收到的声音和图像；

对所述声音和所述图像进行录制；

在录制时长达到预设录制时长后，得到一个子录制文件，并控制所述接收端重新播放所述声音和所述图像，并重新录制所述声音和所述图像，直至得到预设数目个录制内容相同的子录制文件。

控制所述接收端播放接收到的声音和图像；

对所述接收到的声音和图像进行录制；

在录制时长达到预设录制时长后，得到一个子录制文件，并控制所述接收端继续播放声音和图像，并继续录制播放的声音和图像，直至得到预设数目个录制内容不同的子录制文件。

可选的，根据所述时长差值和设定差值指标之间的关系，确定唇音同步是否符合要求包括：

若所述时长差值大于所述设定差值指标，则确定唇音同步不符合要求；

若所述时长差值小于等于所述设定差值指标，则确定唇音同步符合要求。

第二方面，提供了一种唇音同步的测试装置，所述装置包括：

录制模块，用于对接收端接收到的声音和图像进行录制，得到目标录制文件，其中，所述声音和所述图像是发送端发送给所述接收端的；

第一确定模块，用于确定所述目标录制文件中的声音播放时刻和预设视频帧的视频帧时刻；

记录模块，用于记录所述视频帧时刻和所述声音播放时刻之间的测试延迟时长；

第二确定模块，用于确定所述测试延迟时长和所述发送端中原始播放文件的标准延时时长之间的时长差值；

第三确定模块，用于根据所述时长差值和设定差值指标之间的关系，确定唇音同步是否符合要求。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现任一所述的唇音同步的测试方法步骤。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现任一所述的唇音同步的测试方法步骤。

本申请实施例有益效果：

本申请实施例提供了一种唇音同步的测试方法，本申请通过测试装置自动确定目标录制文件的测试延时时长和原始播放文件的标准延时时长，从而根据时长差值确定唇音同步是否符合要求，本申请无需采用人员测试，提高了唇音同步测试准确性。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中唇音同步的测试方法硬件环境示意图；

图2为本申请实施例提供的唇音同步的测试方法硬件环境示意图；

图3为本申请实施例提供的一种唇音同步的测试的方法流程图；

图4为本申请实施例提供的一种唇音同步的测试装置的结构示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身并没有特定的意义。因此，“模块”与“部件”可以混合地使用。

为了解决背景技术中提及的问题，根据本申请实施例的一方面，提供了一种唇音同步的测试方法的实施例。

本申请实施例提供了一种唇音同步的测试方法，可以应用于测试装置，用于提高唇音同步测试的准确性。测试装置可以为一个独立的测试设备，也可以是位于服务器或终端上的一个虚拟装置。

下面将结合具体实施方式，对本申请实施例提供的一种唇音同步的测试方法进行详细的说明，如图2所示，具体步骤如下：

步骤201：对接收端接收到的声音和图像进行录制，得到目标录制文件。

其中，声音和图像是发送端发送给接收端的。

在本申请实施例中，图3为本申请提供的唇音同步的测试方法硬件环境示意图，如图3所示，发送端连接有音视频播放盒，音视频播放盒可以播放有声音和图像的原始播放文件，原始播放文件中的声音和图像同步。接收端可以控制发送端连接的音视频播放盒播放视频和声音，这样发送端将声音和图像编码后发送至接收端，接收端对接收到的视频和声音解码，测试装置控制对解码后的视频和声音进行录制，得到目标录制文件。

步骤202：确定目标录制文件中的声音播放时刻和预设视频帧的视频帧时刻。

测试装置将目标录制文件中首次出现声音的时刻作为声音播放时刻。测试装置将目标录制文件中的某个视频帧作为预设视频帧，然后确定该预设视频帧出现的视频帧时刻。其中，确定预设视频帧的方法后在下文描述，此处不再赘述。

其中，原始播放文件中有动态时间显示，测试装置可以根据目标录制文件中显示的时刻，确定声音播放时刻和视频帧时刻；也可以从目标录制文件播放时开始计时，根据系统内部时钟确定声音播放时刻和视频帧时刻。

步骤203：记录视频帧时刻和声音播放时刻之间的测试延迟时长。

针对目标录制文件，测试装置将视频帧时刻和声音播放时刻之间的差值作为测试延迟时长。针对原始播放文件，测试装置将视频帧时刻和声音播放时刻之间的差值作为标准延迟时长。

步骤204：确定测试延迟时长和发送端中原始播放文件的标准延时时长之间的时长差值。

测试装置确定测试延迟时长和标准延时时长之间的时长差值，该时长差值指示原始播放文件的声音和图像发送至接收端后，接收端接收到的声音和图像是否有同步。

步骤205：根据时长差值和设定差值指标之间的关系，确定唇音同步是否符合要求。

若时长差值大于设定差值指标，表明传播过程中音频和视频不同步，那么接收端接收到的声音和图像也不同步，则确定唇音同步不符合要求；若时长差值小于等于设定差值指标，表明传播过程中音频和视频同步，那么接收端接收到的声音和图像也同步，则确定唇音同步符合要求。

本申请的唇音同步的测试方法，可以应用于视频指挥系统中的测试，也可以应用于弱网环境下的测试，也可以应用于不同音频格式下的测试，本申请对使用场景不做具体限定。

本申请通过测试装置自动确定目标录制文件的测试延时时长和原始播放文件的标准延时时长，从而根据时长差值确定唇音同步是否符合要求。本申请无需采用人员测试，提高了唇音同步测试准确性。

作为一种可选的实施方式，确定预设视频帧包括两种实施例：

在一种实施例中，测试装置确定目标录制文件的起始视频帧，也就是目标录制文件开始播放后的第一帧视频帧，将该起始视频帧作为预设视频帧。

在另一种实施例中，测试装置分析目标录制文件中图像的人物画面，获取包含有人物说话画面的初始视频帧，将该初始视频帧作为预设视频帧。

具体的，确定预设视频帧的方式可为图像分析、神经网络模型等。针对神经网络模型，测试装置将目标录制文件的每个视频帧逐帧输入识别模型，识别模型对视频帧的画面进行分析，识别出包含有人物说话画面的多个待选视频帧，然后将首张视频帧作为初始视频帧，识别模型输出初始视频帧。

本申请中，可以将目标录制文件中任意一个视频帧作为预设视频帧，但为了更加清楚的确定预设视频帧，可以将目标录制文件中的起始视频帧作为预设视频帧，也可以将人物说话的首张视频帧作为预设视频帧，采用人物说话画面的预设视频帧，可以更加准确的计算唇音的测试延时时长。

作为一种可选的实施方式，目标录制文件包括多个子录制文件，针对每个子录制文件，测试装置都计算子录制文件的测试延时时长和标准延时时长之间的子时长差值，然后将每个子时长差值的平均值作为时长差值。本申请通过多次计算子时长差值，增加测试样本数量，可以减小网络不稳定时造成的误差，提高时长差值的准确性。

作为一种可选的实施方式，对接收端接收到的声音和图像进行录制，得到目标录制文件包括两种实施例：

在一种实施例中，测试装置控制接收端播放接收到的声音和图像，然后对声音和图像进行录制，在录制时长达到预设录制时长后，得到一个子录制文件，此时控制接收端重新播放声音和图像，并重新录制声音和图像，这样就得了录制内容相同的子录制文件，重复上述步骤多次，当录制预设数目个子录制文件后，录制完成。

在另一种实施例中，测试装置控制接收端播放接收到的声音和图像，然后对声音和图像进行录制，在录制时长达到预设录制时长后，得到一个子录制文件，此时控制接收端继续播放声音和图像，并继续录制播放的声音和图像，这样就得了录制内容不相同的子录制文件，按照上述方法进行录制，直至得到预设数目个子录制文件。

可选的，本申请实施例还提供了唇音同步的测试的处理流程图，具体步骤如下。

1.在接收端上控制发送端发送图像和声音，开启监听，能够监听到发送端连接的音视频播放盒播放的视频和声音；

2.在测试装置上设置唇音同步的设定差值指标μ0；

3.测试装置设置录制时长t和录制次数n；

4.测试装置开启对接收端解码后的图像和声音的录制，音视频播放盒开始播放；

5.达到录制时长t后自动停止录制，产生一个子录像文件；

6.自动分析音频播放盒中原始播放文件的标准延时时长t0；

7.自动分析步骤6中录制的目标录制文件的测试延时时长t1；

8.并自动计算时长差值Δt＝t1-t0；

9.以上测试共执行n次；

10.把每次识别、计算的时长差值Δt作为样本X的样本观测值，即t＝(Δt1、Δt2...Δtn)，样本平均数

11.若

装置输出测试结果：唇音同步符合技术指标；若/>

装置输出测试结果：唇音同步不符合技术指标。

基于相同的技术构思，本申请实施例还提供了一种唇音同步的测试装置，如图4所示，该装置包括：

录制模块401，用于对接收端接收到的声音和图像进行录制，得到目标录制文件，其中，声音和图像是发送端发送给接收端的；

第一确定模块402，用于确定目标录制文件中的声音播放时刻和预设视频帧的视频帧时刻；

记录模块403，用于记录视频帧时刻和声音播放时刻之间的测试延迟时长；

第二确定模块404，用于确定测试延迟时长和发送端中原始播放文件的标准延时时长之间的时长差值；

第三确定模块405，用于根据时长差值和设定差值指标之间的关系，确定唇音同步是否符合要求。

可选的，该装置还用于：

将目标录制文件的起始视频帧作为预设视频帧。

可选的，该装置还用于：

通过分析目标录制文件中的人物画面，获取包含有人物说话画面的初始视频帧；

将初始视频帧作为预设视频帧。

可选的，该装置还用于：

将目标录制文件的每个视频帧逐帧输入识别模型；

通过识别模型对视频帧的画面进行分析，识别包含有人物说话画面的多个待选视频帧；

从多个待选视频帧中选取出首张视频帧作为初始视频帧；

通过识别模型输出初始视频帧。

可选的，目标录制文件包括至少两个子录制文件，记录模块403用于：

确定每个子录制文件的测试延时时长和标准延时时长之间的子时长差值；

将每个子时长差值的平均值作为时长差值。

可选的，录制模块401用于：

控制接收端播放接收到的声音和图像；

对声音和图像进行录制；

在录制时长达到预设录制时长后，得到一个子录制文件，并控制接收端重新播放声音和图像，并重新录制声音和图像，直至得到预设数目个录制内容相同的子录制文件。

可选的，录制模块401用于：

控制接收端播放接收到的声音和图像；

对接收到的声音和图像进行录制；

在录制时长达到预设录制时长后，得到一个子录制文件，并控制接收端继续播放声音和图像，并继续录制播放的声音和图像，直至得到预设数目个录制内容不同的子录制文件。

可选的，第三确定模块405用于：

若时长差值大于设定差值指标，则确定唇音同步不符合要求；

若时长差值小于等于设定差值指标，则确定唇音同步符合要求。

根据本申请实施例的另一方面，本申请提供了一种电子设备，如图5所示，包括存储器503、处理器501、通信接口502及通信总线504，存储器503中存储有可在处理器501上运行的计算机程序，存储器503、处理器501通过通信接口502和通信总线504进行通信，处理器501执行计算机程序时实现上述方法的步骤。

上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。

可选地，在本申请实施例中，计算机可读介质被设置为存储用于所述处理器执行上述方法的程序代码。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本申请实施例在具体实现时，可以参阅上述各个实施例，具有相应的技术效果。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种唇音同步的测试方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标录制文件中的声音播放时刻和预设视频帧的视频帧时刻之前，所述方法还包括：

将所述目标录制文件的起始视频帧作为所述预设视频帧。

3.根据权利要求1所述的方法，其特征在于，所述确定所述目标录制文件中的声音播放时刻和预设视频帧的视频帧时刻之前，所述方法还包括：

将所述初始视频帧作为所述预设视频帧。

4.根据权利要求3所述的方法，其特征在于，所述通过分析所述目标录制文件中的人物画面，获取包含有人物说话画面的初始视频帧包括：

将所述目标录制文件的每个视频帧逐帧输入识别模型；

通过所述识别模型输出所述初始视频帧。

5.根据权利要求1所述的方法，其特征在于，所述目标录制文件包括至少两个子录制文件，确定所述测试延迟时长和所述发送端中原始播放文件的标准延时时长之间的时长差值包括：

将每个所述子时长差值的平均值作为所述时长差值。

6.根据权利要求5所述的方法，其特征在于，所述对接收端接收到的声音和图像进行录制，得到目标录制文件包括：

控制所述接收端播放接收到的声音和图像；

对所述声音和所述图像进行录制；

7.根据权利要求5所述的方法，其特征在于，所述对接收端接收到的声音和图像进行录制，得到目标录制文件包括：

控制所述接收端播放接收到的声音和图像；

对所述接收到的声音和图像进行录制；

8.根据权利要求1所述的方法，其特征在于，根据所述时长差值和设定差值指标之间的关系，确定唇音同步是否符合要求包括：

9.一种唇音同步的测试装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一的方法步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一的方法步骤。