CN112423120B

CN112423120B - 音频时延的检测方法及系统

Info

Publication number: CN112423120B
Application number: CN202010074609.9A
Authority: CN
Inventors: 郑翰超
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2023-09-01
Anticipated expiration: 2040-01-22
Also published as: CN112423120A

Abstract

本发明公开了一种音频时延的检测方法及系统，该方法包括：获取音频信息、音频播放总采样数和音频写入总字节数，其中，所述音频信息包括音频采样率、声道数和采样位数；根据所述音频信息和所述音频写入总字节数计算音频写入时长；根据所述音频信息和所述播放总采样数计算音频播放时长；根据所述音频播放时长和所述音频写入时长确定音频输出时延。本发明能够测量出硬件设备中每种系统的音频时延，极大的缩短了硬件设备的测量时间，加快了测量效率，扩大了适用范围，便于后期维护。

Description

音频时延的检测方法及系统

技术领域

本发明涉及音频技术领域，具体涉及一种音频时延的检测方法及系统。

背景技术

随着电视技术的不断发展，音画同步是人们对视频的基本要求。音画同步指的是正在渲染的那一帧画面和音频是完全对应的。在实际应用中，由于音画时间戳的间隔并不是完全一致以及硬件设备均存在音频时延，而且硬件设备的不同或者硬件设备中系统的不同，导致音频时延均不同，使得音画更加无法做到绝对的同步。故，要实现音画同步，首先需要解决硬件设备中系统的音频时延问题，在保证硬件设备的音频准时的情况下，再通过调整视频的时间戳，以达到音画同步。然而，现有技术中对音频的时延测量，是通过测量每个设备音画时间间隔的方法，测量出的时间间隔仅对该种机型的硬件设备适用，适用范围窄，后期维护困难。

发明内容

本发明的目的在于提供一种音频时延的检测方法、系统、计算机设备及可读存储介质，用于解决现有技术中针对每种硬件设备进行音画时间间隔的测量，适用范围窄，后期维护困难的缺陷。

根据本发明的一个方面，提供了一种音频时延的检测方法，该方法包括如下步骤：

获取音频信息、音频播放总采样数和音频写入总字节数，其中，所述音频信息包括音频采样率、声道数和采样位数；

根据所述音频信息和所述音频写入总字节数计算音频写入时长；

根据所述音频信息和所述播放总采样数计算音频播放时长；

根据所述音频播放时长和所述音频写入时长确定音频输出时延。

可选地，所述音频写入时长的计算公式为：

可选地，所述音频播放时长的计算公式为：

可选地，所述根据所述音频播放时长和所述音频写入时长计算音频输出时延，包括：

将所述音频写入时长减去所述音频播放时长，得到时长差，所述时长差即为所述音频输出时延。

可选地，所述音频时延的检测方法还包括：

根据所述音频输出时延，调整音频写入时间，以实现音画同步。

为了实现上述目的，本发明还提供一种音频时延的检测系统，该系统具体包括以下组成部分：

获取模块，用于获取音频信息、音频播放总采样数和音频写入总字节数，其中，所述音频信息包括音频采样率、声道数和采样位数；

计算模块，用于根据所述音频信息和所述音频写入总字节数计算音频写入时长，根据所述音频信息和所述音频播放总采样数计算音频播放时长；

确定模块，用于根据所述音频播放时长和所述音频写入时长确定音频输出时延。

可选地，所述音频写入时长的计算公式为：

可选地，所述音频播放时长的计算公式为：

为了实现上述目的，本发明还提供一种计算机设备，该计算机设备具体包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述介绍的音频时延的检测方法的步骤。

为了实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述介绍的音频时延的检测方法的步骤。

本发明提供的音频时延的检测方法、系统、计算机设备及可读存储介质，通过获取音频信息、音频播放总采样数和音频写入总字节数，其中，所述音频信息包括音频采样率、声道数和采样位数；然后，根据所述音频信息和所述音频写入总字节数计算音频写入时长，根据所述音频信息和所述音频播放总采样数计算音频播放时长；最后，根据所述音频播放时长和所述音频写入时长确定音频输出时延。通过本发明能够测量出硬件设备中每种系统的音频时延，极大的缩短了硬件设备的测量时间，加快了测量效率，扩大了适用范围，便于后期维护。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本公开实施例提供的音频时延的检测方法的一种可选的应用环境图；

图2为本公开实施例提供的音频时延的检测方法的一种可选的流程示意图；

图3为本发明实施例中一可选的音频时延示意图；

图4为本公开实施例提供的音频时延的检测系统的一种可选的程序模块示意图；

图5为本公开实施例提供的计算机设备的一种可选的硬件架构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

用户在观看视频时，当音画的时间间隔在-100ms～25ms范围内时，则用户无法感知出音画之间存在的细微时间间隔，也即用户认为视频中的音画同步。当音画的时间间隔为-125ms或45ms这两个时间间隔点时，用户即可以感知出音画不同步。当音画的时间间隔小于-185ms或大于90ms时，则这样的音画时间间隔的视频播放效果极差，为用户所无法忍受的时间间隔范围。

需要说明的是负数的时间间隔表示画面在前，音频在后，也即先出现画面然后出现声音；正数的时间间隔表示音频在前，画面在后，也即先出现声音然后出现画面。每个音视频帧上均有对应的时间戳。在实现视频的音画同步时，音频随着时间流逝播放，而画面则一直对比视频的时间戳。如果当前的画面时间戳和音频时间戳的差值在一定的范围内，那么该画面时间戳会被渲染，这样就能实现一个基本的音画同步。若音频更新不及时，则画面按照通过帧率计算出的帧间隔固定刷新。若画面的时间戳超过了音频的时间戳，则画面通过慢放的方式来等待音频，避免音画不同步。若画面的时间戳落后音频，则花名通过快放的方式来追赶音频，以避免音画不同步。

当然，即使通过上面的音画同步方式，音画也很难实现真正的同步，再加上播放设备对音频的影响，使得音画的时间间隔处于-100ms～25ms范围之外，导致用户的观看体验差。在进行音画同步的时间检测时，通过将预设文件输入至专业的设备中，并显示音画通过播放设备造成的时间差，也即确定了所述播放设备的音画同步情况。其中，所述预设文件每次闪现一个画面的同时，发出预设声音，也即所述预设文件中音频和画面同步。当音画的时间间隔处于-100ms～25ms范围之外时，音画的不同步极大的影响了用户的观看体验，则需要对该设备的音频延时进行检测。

根据音频的工作原理可知，当一个音频需要从一个设备中播放出来时，首先需要将所述音频写入所述设备，然后所述设备对所述音频进行一系列的处理，最后从所述设备播放。需要说明的是，设备对所述音频的一系列处理指的是所述设备中的系统对所述音频的处理，具有相同系统的设备，对所述音频的处理过程相同，也即所述音频的处理时间相同，造成的音频时延也相同。当需要对设备的音频时延进行检测时，则通过测量音频写入的时间和播放的时间，即可获得所述设备的音频时延，所述获得的音频时延即为所述设备的系统的音频时延。

下面结合附图对本发明提供的音频时延的检测方法进行说明。

图1为本发明实施例一可选的应用环境示意图。音频从硬件设备的输入端输入，并从硬件设备的输出端输出。由于设备中系统的性能，例如：音频采集后的声卡对音频信号的转换处理、采用的编解码算法、音频处理中滤波器阶数等，造成音频的写入时长和播放时长存在时延。

图2为本发明音频时延的检测方法的一种可选的流程示意图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定，下面以计算机设备为执行主体进行示例性描述。所述计算机设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便携式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

如图2所示，该方法具体包括以下步骤：

步骤S100：获取音频信息、音频播放总采样数和音频写入总字节数，其中，所述音频信息包括音频采样率、声道数和采样位数。

具体地，数字化声音的过程实际上就是以一定的频率对来自设备的连续的模拟音频信号进行模数转换得到音频数据的过程；数字化声音的播放就是将音频数据进行数模转换变成模拟音频信号输出。在数字化声音时有两个重要的指标，即采样频率和采样大小。所述音频采样频率即单位时间内音频的采样次数，音频采样频率越大，采样点之间的间隔越小，数字化得到的声音就越逼真，但相应的数据量增大，处理起来就越困难。采样大小即记录每次样本值大小的数值的位数，它决定采样的动态变化范围，位数越多，所能记录声音的变化程度就越细腻，所得的数据量也越大。

采样位数是指记录每次采样值数值大小的二进制位数。采样位数通常有8bits或16bits两种，采样位数越大，所能记录声音的变化度就越细腻，相应的数据量就越大。声道数是指处理的声音是单声道还是立体声。单声道在声音处理过程中只有单数据流，而立体声则需要左、右声道的两个数据流。显然，立体声的效果要好，但相应的数据量要比单声道的数据量加倍。所述音频信息可从音频文件中直接获取。

当音频从设备系统的输入端写入，并通过设备系统的输出端播放时，可以从设备系统中获取播放的音频播放总采样数和累加的音频写入总字节数。

步骤S102：根据所述音频信息和所述音频写入总字节数计算音频写入时长。

在示例性的实施例中，将获取的音频写入总字节数和音频采样率、采样位数和声道数按照音频写入时长的计算公式可计算出音频写入时长，其中，所述音频写入时长的计算公式为：例如：获取到的音频写入总字节数为N，音频采样率为44kHz，声道数为2，采样位数为16位，也即2个字节，则所述音频写入总采样数n₁＝N/(2*2)，计算出的音频写入时长t₁＝N/(2*2*44000)s。

步骤S104：根据所述音频信息和所述音频播放总采样数计算音频播放时长。

在示例性的实施例中，将获取的音频播放总采样数和音频采样率按照音频播放时长的计算公式可计算出音频播放时长，其中，所述音频播放时长的计算公式为：例如：获取到的音频播放总采样数为n₂位，音频采样率为44kHz，则音频播放时长t₂＝n₂/44000s。

步骤S106：根据所述音频播放时长和所述音频写入时长确定音频输出时延。

具体地，通过音频的写入至设备系统的时间和从该设备系统输出的播放时长，进而可以确定所述设备系统对所述音频的处理时长，也即播放所述音频相对于所述音频写入时的时间差(时延)。请参阅图3，图3为一可选的音频时延示意图。当所述音频总写入时长为t₁时，若需要计算此时硬件设备对所述音频的输出时延，则需要计算此时音频从所述硬件设备的播放总时长t₂，根据t₁和t₂，即可得到播放所述音频相对于所述音频写入时的时间差(时延)。

在示例性的实施例中，所述步骤S106可以包括步骤：

具体地，音频在硬件设备的时延为所述音频写入所述硬件设备的总时长与所述音频从所述硬件设备播放的总时长的差值。若音频写入所述硬件设备的总时长与所述音频从所述硬件设备播放的总时长的差值为0，也即所述音频写入所述硬件设备的同时所述音频从所述硬件设备播放，则代表所述硬件设备处理所述音频的时长为0，音频通过所述硬件设备没有时延。请继续参阅图3，音频总写入时长为t₁，音频播放总时长为t₂，△t＝t₁-t₂，△_t即为音频的输出时延。

在示例性的实施例中，所述音频时延的检测方法还可以包括步骤：

具体地，当计算出音频输出时延后，可根据所述输出时延自适应调整所述音频的写入时间，以提高音频时间戳的准确性。例如：若视频播放时存在音画不同步的情况，若此时的音频时间戳为1000ms，音频的输出时延为200ms，通过调整音频的写入时间，将音频提前写入200ms，调整后的音频时间戳为800ms，进而将音画的同步时间差减小了200ms，使得音画的时间间隔在-100ms～25ms范围内。

当计算出硬件设备对音频的输出时延后，由于硬件设备从音频的写入到播放过程中，对所述音频的输出时延的长短起主要作用的是硬件设备的系统对所述音频的处理速度，在人的感知范围内，可以将计算出的硬件设备对音频的输出时延可看作是硬件设备的处理系统对所述音频的输出时延，进而可将计算出的所述硬件设备的音频输出时延当作是具有与所述硬件设备一样的系统的音频输出时延。通过所述音频时延的检测方法，极大的降低了设备音频时延的测量。

基于上述实施例中提供的音频时延的检测方法，本实施例中提供一种音频时延的检测系统，所述音频时延的检测系统可以应用于计算机设备中。具体地，图4示出了该音频时延的检测系统的可选的结构框图，该音频时延的检测系统被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合描述音频时延的检测系统在存储介质中的执行过程，以下描述将具体介绍本实施例各程序模块的功能。

如图4所示，音频时延的检测系统具体包括以下组成部分：

获取模块201，用于获取音频信息、音频播放总采样数和音频写入总字节数，其中，所述音频信息包括音频采样率、声道数和采样位数。

当音频从设备系统的输入端写入，并通过设备系统的输出端播放时，所述获取模块201可以从设备系统中获取播放的音频播放总采样数和累加的音频写入总字节数。

计算模块202，用于根据所述音频信息和所述音频写入总字节数计算音频写入时长。

在示例性的实施例中，所述计算模块202将获取的音频写入总字节数和音频采样率、采样位数和声道数，按照音频写入时长的计算公式可计算出音频写入时长，其中，所述音频写入时长的计算公式为：例如：获取到的音频写入总字节数为N，音频采样率为44kHz，声道数为2，采样位数为16位，也即2个字节，则音频写入总采样数n₁＝N/(2*2)，所述计算模块202计算出的音频写入时长t₁＝N/(2*2*44000)s。

所述计算模块202，还用于根据所述音频信息和所述音频播放总采样数计算音频播放时长。

在示例性的实施例中，所述计算模块202将获取的音频播放总采样数和音频采样率，按照音频播放时长的计算公式可计算出音频播放时长，其中，所述音频播放时长的计算公式为：例如：获取到的音频播放总采样数为n₂位，音频采样率为44kHz，则所述计算模块202计算出的音频播放时长t₂＝n₂/44000s。

确定模块203，用于根据所述音频播放时长和所述音频写入时长确定音频输出时延。

具体地，所述确定模块203通过音频的写入至设备系统的时间和从该设备系统输出的播放时长，进而可以确定所述设备系统对所述音频的处理时长，也即播放所述音频相对于所述音频写入时的时间差(时延)。请参阅图3，图3为一可选的音频时延示意图。当所述音频总写入时长为t₁时，若需要计算此时硬件设备对所述音频的输出时延，则需要计算此时音频从所述硬件设备的播放总时长t₂，根据t₁和t₂，即可得到播放所述音频相对于所述音频写入时的时间差(时延)。

在示例性的实施例中，所述确定模块203还用于：

具体地，音频在硬件设备的时延为所述音频写入所述硬件设备的总时长与所述音频从所述硬件设备播放的总时长的差值。若音频写入所述硬件设备的总时长与所述音频从所述硬件设备播放的总时长的差值为0，也即所述音频写入所述硬件设备的同时所述音频从所述硬件设备播放，则代表所述硬件设备处理所述音频的时长为0，音频通过所述硬件设备没有时延。请继续参阅图3，音频总写入时长为t₁，音频播放总时长为t₂，△t＝t₁-t₂，△t即为音频的输出时延。

在示例性的实施例中，所述音频时延的检测系统还包括：

调整模块，用于根据所述音频输出时延，调整音频写入时间，以实现音画同步。

当计算出硬件设备对音频的输出时延后，由于硬件设备从音频的写入到播放过程中，对所述音频的输出时延的长短起主要作用的是硬件设备的系统对所述音频的处理速度，在人的感知范围内，可以将计算出的硬件设备对音频的输出时延可看作是硬件设备的处理系统对所述音频的输出时延，进而可将计算出的所述硬件设备的音频输出时延当作是具有与所述硬件设备一样的系统的音频输出时延。通过所述音频时延的检测系统，极大的降低了设备音频时延的测量。

本实施例还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图5所示，本实施例的计算机设备30至少包括但不限于：可通过系统总线相互通信连接的存储器301、处理器302。需要指出的是，图5仅示出了具有组件301-302的计算机设备30，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器301(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器301可以是计算机设备30的内部存储单元，例如该计算机设备30的硬盘或内存。在另一些实施例中，存储器301也可以是计算机设备30的外部存储设备，例如该计算机设备30上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器301还可以既包括计算机设备30的内部存储单元也包括其外部存储设备。在本实施例中，存储器301通常用于存储安装于计算机设备30的操作系统和各类应用软件，例如上述实施例的音频时延的检测系统的程序代码等。此外，存储器301还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器302在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器302通常用于控制计算机设备30的总体操作。

具体的，在本实施例中，处理器302用于执行处理器302中存储的音频时延的检测方法的程序，所述音频时延的检测方法的程序被执行时实现如下步骤：

根据所述音频信息和所述播放总采样数计算音频播放时长；

上述方法步骤的具体实施例过程可参见上述实施例，本实施例在此不再重复赘述。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下方法步骤：

根据所述音频信息和所述播放总采样数计算音频播放时长；

本实施例提供的音频时延的检测方法、系统、计算机设备及可读存储介质，通过获取音频信息、音频播放总采样数和音频写入总字节数，其中，所述音频信息包括音频采样率、声道数和采样位数；然后，根据所述音频信息和所述音频写入总字节数计算音频写入时长，根据所述音频信息和所述音频播放总采样数计算音频播放时长；最后，根据所述音频播放时长和所述音频写入时长确定音频输出时延。通过本发明能够测量出硬件设备中每种系统的音频时延，极大的缩短了硬件设备的测量时间，加快了测量效率，扩大了适用范围，便于后期维护。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音频时延的检测方法，其特征在于，所述方法包括：

根据所述音频信息和所述音频写入总字节数获得音频写入时长；其中，所述音频写入时长为音频写入至设备系统的时长；

根据所述音频信息和所述播放总采样数获得音频播放时长；其中，所述音频播放时长为音频从所述设备系统播放的时长；

根据所述音频播放时长和所述音频写入时长确定音频输出时延；

其中，所述根据所述音频播放时长和所述音频写入时长确定音频输出时延，包括：

2.如权利要求1所述的音频时延的检测方法，其特征在于，所述音频写入时长的计算公式为：

3.如权利要求1所述的音频时延的检测方法，其特征在于，所述音频播放时长的计算公式为：

4.如权利要求1所述的音频时延的检测方法，其特征在于，所述音频时延的检测方法还包括：

5.一种音频时延的检测系统，其特征在于，所述系统包括：

计算模块，用于根据所述音频信息和所述音频写入总字节数获得音频写入时长，根据所述音频信息和所述音频播放总采样数获得音频播放时长；其中，所述音频写入时长为音频写入至设备系统的时长；所述音频播放时长为音频从所述设备系统播放的时长；

确定模块，用于根据所述音频播放时长和所述音频写入时长确定音频输出时延；

其中，所述确定模块具体用于：

6.如权利要求5所述的音频时延的检测系统，其特征在于，所述音频写入时长的计算公式为：

7.如权利要求5所述的音频时延的检测系统，其特征在于，所述音频播放时长的计算公式为：

8.一种计算机设备，所述计算机设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的音频时延的检测方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的音频时延的检测方法的步骤。