CN112447185A - 音频同步误差测试方法、装置、服务器及可读存储介质 - Google Patents

音频同步误差测试方法、装置、服务器及可读存储介质 Download PDF

Info

Publication number
CN112447185A
CN112447185A CN201910816550.3A CN201910816550A CN112447185A CN 112447185 A CN112447185 A CN 112447185A CN 201910816550 A CN201910816550 A CN 201910816550A CN 112447185 A CN112447185 A CN 112447185A
Authority
CN
China
Prior art keywords
audio
data
synchronization error
audio data
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910816550.3A
Other languages
English (en)
Other versions
CN112447185B (zh
Inventor
唐诗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Technology Co Ltd
Original Assignee
Guangzhou Huya Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huya Technology Co Ltd filed Critical Guangzhou Huya Technology Co Ltd
Priority to CN201910816550.3A priority Critical patent/CN112447185B/zh
Publication of CN112447185A publication Critical patent/CN112447185A/zh
Application granted granted Critical
Publication of CN112447185B publication Critical patent/CN112447185B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Debugging And Monitoring (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)

Abstract

本申请实施例提供一种音频同步误差测试方法、装置、服务器及可读存储介质,通过将待测试的音频数据中每段音频段数据视为平稳随机信号,从而计算音频数据中各段音频段数据对应的自回归模型系数,以根据各段音频段数据对应的自回归模型系数,确定第一音频同步误差。如此,以客观定量地分析音频同步误差,且无需人工干预,避免了人工主观判断法带来的主观误差,从而能够有效提高音频同步误差的准确性和测试效率,降低测试成本。

Description

音频同步误差测试方法、装置、服务器及可读存储介质
技术领域
本申请涉及互联网直播计算领域,具体而言,涉及一种音频同步误差测试方法、装置、服务器及可读存储介质。
背景技术
在诸如音视频直播等实时音视频传输过程,或者多人连麦过程中,音频延迟可能会严重影响互动体验,或影响用户获取关键信息的时机等,从而造成产品体验较差。
究其原因,音频数据在经过音视频处理系统时,可能会引入同步误差。随着音频数据处理量的增加,该同步误差可能会不断累积,也可能会相互抵消。因此,同步误差是衡量音频视处理系统质量的一个重要指标。然而,传统方案主要基于人工检测同步误差,不仅会额外增加测试成本,并且准确性和测试效率有待考量。
发明内容
有鉴于此,本申请的目的在于提供一种音频同步误差测试方法、装置、服务器及可读存储介质,能够有效提高音频同步误差的准确性和测试效率,且无需人工干预,降低测试成本。
根据本申请的一方面,提供一种音频同步误差测试方法,应用于服务器,所述方法包括:
获取待测试的音频数据,所述音频数据包括第一终端在直播间中的第一音频数据和第二终端在该直播间中的第二音频数据;
计算所述音频数据中各段音频段数据对应的自回归模型系数;
根据所述各段音频段数据对应的自回归模型系数,确定第一音频同步误差。
根据本申请的另一方面,提供一种音频同步误差测试装置,应用于服务器,所述装置包括:
获取模块,用于获取待测试的音频数据,所述音频数据包括第一终端在直播间中的第一音频数据和第二终端在该直播间中的第二音频数据;
计算模块,用于计算所述音频数据中各段音频段数据对应的自回归模型系数;
确定模块,用于根据所述各段音频段数据对应的自回归模型系数,确定第一音频同步误差。
根据本申请的另一方面,提供一种服务器,所述服务器包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述处理器在执行所述机器可执行指令时,所述服务器实现前述的音频同步误差测试方法。
根据本申请的另一方面,提供一种可读存储介质,所述可读存储介质中存储有机器可执行指令,所述机器可执行指令被执行时实现前述的音频同步误差测试方法。
基于上述任一方面,本申请通过将待测试的音频数据中每段音频段数据视为平稳随机信号,从而计算音频数据中各段音频段数据对应的自回归模型系数,以根据各段音频段数据对应的自回归模型系数,确定第一音频同步误差。如此,以客观定量地分析音频同步误差,且无需人工干预,避免了人工主观判断法带来的主观误差,从而能够有效提高音频同步误差的准确性和测试效率,降低测试成本。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的音频同步误差测试方法的交互应用场景示意图;
图2示出了本申请实施例所提供的音频同步误差测试方法的流程示意图之一;
图3示出了本申请实施例所提供的音频同步误差测试方法的流程示意图之二;
图4示出了本申请实施例所提供的音频同步误差测试方法的流程示意图之三;
图5示出了本申请实施例所提供的音频同步误差测试装置的功能模块示意图;
图6示出了本申请实施例所提供的用于实现上述音频同步误差测试方法的服务器的结构示意框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
基于前述背景技术获知的技术问题,本申请发明人在研究过程中发现,传统音频同步误差的测试方案中,通常是测试人员在第一终端发出音频,该音频发出的时间作为音频发送时间,然后测试人员在第二终端接收该音频并记录当前时间,作为音频接收时间,若音频发送时间与音频接收时间之间的时长小于设定阈值,则判定同步,否则判定存在误差。
然而,该方案中,上述设定阈值缺乏统一的标准,难以客观地判定是否同步,并且音频发送时间和音频接收时间受限于人的主观性,必然会存在不准确性,而当判定音频不同步时,也无法客观准确地给出音频同步误差,或者音频同步误差的精度不够。
为此,基于上述技术问题的发现,发明人提出下述技术方案以解决或者改善上述问题。需要注意的是,以上现有技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应该是发明人在发明创造过程中对本申请做出的贡献,而不应当理解为本领域技术人员所公知的技术内容。
参照图1所示,图1示出了本申请实施例所提供的音频同步误差测试方法的交互应用场景示意图。例如,该交互应用场景可以包括服务器100、第一终端200以及第二终端300,服务器100分别与第一终端200以及第二终端300通信连接,用于为第一终端200以及第二终端300提供音视频交互服务。
可以理解,图1所示的交互应用场景仅为一种可行的示例,在其它可行的实施例中,该交互应用场景也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。
以音视频直播场景为例,服务器100可以为第一终端200以及第二终端300提供直播服务。例如,第一终端200可以是主播所在的终端,第二终端300可以是观众所在的终端。第一终端200可以将直播间的直播视频流发送给服务器100,观众可以通过第二终端300访问服务器100以观看直播间的直播视频。又例如,主播服务器100也可以在观众订阅的直播间开播时向该观众的第二终端300发送通知消息。直播视频流可以是当前正在直播平台中直播的视频流或者直播完成后形成的完整视频流。
在一些实施场景中,第一终端200和第二终端300可以互换使用。例如,第一终端200的主播可以使用第一终端200来为观众提供直播视频服务,或者作为观众查看其它主播提供的直播视频。又例如,第二终端300的观众也可以使用第二终端300观看所关注的主播提供的直播视频,或者作为主播为其它观众提供直播视频服务。
本实施例中,第一终端200和第二终端300可以是,但不限于智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。其中,第一终端200和第二终端300中可以安装用于提供互联网直播服务的互联网产品,例如,互联网产品可以是计算机或智能手机中使用的与互联网直播服务相关的应用程序APP、Web网页、小程序等。
本实施例中,服务器100可以是单个物理服务器100,也可以是一个由多个用于执行不同数据处理功能的物理服务器100构成的服务器100组。服务器100组可以是集中式的,也可以是分布式的(例如,服务器100可以是分布式系统)。在一些可能的实施方式中,针对单个物理服务器100,可以基于不同直播服务功能为该物理服务器100分配不同的逻辑服务器100。
图2示出了本申请实施例提供的音频同步误差测试方法的流程示意图,该音频同步误差测试方法可以由图1中的服务器100执行。应当理解,在其它实施例中,本实施例的音频同步误差测试方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该音频同步误差测试方法的详细步骤介绍如下。
步骤S110,获取待测试的音频数据。
可选地,以音视频在线直播场景为例,待测试的音频数据可包括第一终端200在直播间中的第一音频数据和第二终端300在该直播间中的第二音频数据。
步骤S120,计算音频数据中各段音频段数据对应的自回归模型系数。
步骤S130,根据各段音频段数据对应的自回归模型系数,确定第一音频同步误差。
本申请发明人在研究过程中发现,音频数据在一个较长时间范围内是一种非平稳的随机信号,但在一定的时间范围内可以近似认为平稳随机信号。因此,发明人创造性发现,可以按照平稳随机信号的信号处理方式对音频数据中各段音频段数据进行处理,从而精确确定音频同步误差。
基于此,本实施例通过将待测试的音频数据中每段音频段数据视为平稳随机信号,从而计算音频数据中各段音频段数据对应的自回归模型系数,以根据各段音频段数据对应的自回归模型系数,确定第一音频同步误差。如此,以客观定量地分析音频同步误差,且无需人工干预,避免了人工主观判断法带来的主观误差,从而能够有效提高音频同步误差的准确性和测试效率,降低测试成本。
在一种可能的实施方式中,针对步骤S110,仍旧以音视频在线直播场景为例来示例性说明待测试的音频数据的获取过程。服务器100可以通知进入直播间的第一终端200和第二终端300,以使第一终端200开播播放第一初始音频数据。其中,第一音频数据可以为任意音频数据,例如主播开播时的说话音频数据、播放背景音乐时的音频数据、直播玩游戏时的音频数据等,在此不作具体限制。第二终端300在进入该第一终端200开播的直播间后,实时接收该直播间的第二初始音频数据。显然,由于网络环境、程序设计等影响,第一初始音频数据和第二初始音频数据通常不是完全同步的音频数据,因此在后文的描述中会针对此情况确定具体的音频同步误差。
接下来,服务器100则从直播间中获取第一终端200的第一初始音频数据和第二终端300的第二初始音频数据,并分别对第一初始音频数据和第二初始音频数据进行音频解码,得到左声道和右声道所对应的第一音频数据和第二音频数据。例如,可以通过ffmpeg音频解码技术对第一初始音频数据和第二初始音频数据进行音频解码,得到左声道和右声道所对应的第一音频数据和第二音频数据。
在接下来的描述中,由于左声道和右声道的相关性较强,即左右声道音频数据的相似性很高,不便于原理阐述,因此可以选择左声道或者右声道中的任意一种声道所对应的第一音频数据和第二音频数据作为待测试的音频数据。例如,可以选择左声道所对应的第一音频数据和第二音频数据作为待测试的音频数据。
由于音频数据只有在一定的时间范围内可以近似认为平稳随机信号,因此需要对音频数据进行分段处理。值得说明的是,由于音频数据包括第一音频数据和第二音频数据,但在接下来对步骤S120的描述中,服务器100对第一音频数据和第二音频数据的处理方式大致相同,故为便于本领域技术人员对本方案的理解,以及便于描述的简洁,本实施例将以对音频数据的处理为例来对自回归模型系数的计算流程进行详细的描述。因此,本领域技术人员在具体实施时,针对第一音频数据和第二音频数据,均可以分别采用以下对音频数据的处理流程来实施。
在一种可能的实施方式中,针对步骤S120,可首先对音频数据进行分段,得到多段音频段数据,其中,每段音频段数据的长度为预设长度。例如,假定预设长度为I,即表示每段音频段数据包括I个音频采样点。如I为1024,那么每段音频段数据则可包括1024个音频采样点。
接着,针对每段音频段数据,根据预先设定的自回归模型(Auto RegressiveModel,AR Model)的阶数确定该段音频段数据中待计算的自相关系数的自变量。
例如,若自回归模型的阶数P为2,则确定该段音频段数据中待计算的自相关系数的自变量为0、1、2。又例如,若自回归模型的阶数P为3,则确定该段音频段数据中待计算的自相关系数的自变量为0、1、2、3,以此类推。
在此基础上,则可根据该段音频段数据中待计算的自相关系数的自变量和预设长度,计算该段音频段数据对应的自回归模型系数。
例如,在一种可能的实施方式中,首先根据该段音频段数据中待计算的自相关系数的自变量、预设长度以及该段音频段数据每个音频采样点的音频特征值,计算该段音频段数据所对应的自相关系数。
该段音频段数据所对应的自相关系数与上文确定的自变量有关。例如,若确定该段音频段数据中待计算的自相关系数的自变量为0、1、2,则该段音频段数据所对应的自相关系数可包括R(0),R(1),R(2)。又例如,若确定该段音频段数据中待计算的自相关系数的自变量为0、1、2、3,则该段音频段数据所对应的自相关系数可包括R(0),R(1),R(2),R(3)。
如此,通过计算得到的该段音频段数据所对应的自相关系数,即可得到该段音频段数据所对应的自回归模型系数。
例如,在一种示例中,该段音频段数据所对应的自相关系数与该段音频段数据对应的自回归模型系数可满足以下计算公式:
Figure BDA0002186515270000091
Figure BDA0002186515270000092
Figure BDA0002186515270000093
Figure BDA0002186515270000094
其中,a为待计算的自相关系数的自变量,R(a)为待计算的自相关系数,I为预设长度,P为预先设定的自回归模型的阶数,x(n)和x(n+a)分别表示该段音频段数据中第n个音频采样点和第n+a个音频采样点的音频特征值,w(n)为该段音频段数据中第n个音频采样点的白噪声数据,ak为该段音频段数据对应的自回归模型系数,k=1,2,…,P,
Figure BDA0002186515270000095
为白噪声数据的方差。
根据上述计算公式,以自回归模型的阶数P为2为例,可以得到如下矩阵形式:
Figure BDA0002186515270000096
上述公式中,由于自相关系数的函数的对称性,可以得到R(a)=R(-a),因此R(0),R(1),R(2),R(-1),R(-2),σw 2均为已知,从而可以得到该段音频段数据所对应的自回归模型系数a1,a2
由此,以前述自回归模型系数为第一音频数据中各段第一音频段数据对应的第一自回归模型系数为例,可以得到第一音频数据中各段第一音频段数据对应的第一自回归模型系数
Figure BDA0002186515270000097
同理,可以得到第二音频数据中各段第二音频段数据对应的第二自回归模型系数
Figure BDA0002186515270000101
接下来,针对步骤S130,由于第二音频数据在时间维度上必然是延后于第一音频数据的,为便于误差计算,在一种可能的实施方式中,首先可从第二音频数据中各段第二音频段数据对应的第二自回归模型系数中选择至少部分连续段的第二音频段数据对应的第二自回归模型系数。例如,仍旧以自回归模型的阶数P=2为例,可以从
Figure BDA0002186515270000102
中选择前K段第二音频段数据对应的第二自回归模型系数
Figure BDA0002186515270000103
然后,计算选择的每个第二自回归模型系数与第一音频数据中各段第一音频段数据对应的第一自回归模型系数的绝对误差。
例如,仍旧以自回归模型的阶数P=2为例,各绝对误差delta(i)可以通过如下计算公式得到:
Figure BDA0002186515270000104
其中,delta(i)为绝对误差,
Figure BDA0002186515270000105
Figure BDA0002186515270000106
为第i+j段的第一自回归模型系数,
Figure BDA0002186515270000107
Figure BDA0002186515270000108
为第j段的第二自回归模型系数。
最后,根据计算的每个绝对误差计算得到第一音频同步误差delay_cu:
Figure BDA0002186515270000109
其中,第一音频同步误差delay_cu具体可以表示以音频采样点为单位的音频偏移。
如此,本实施例通过将每段音频数据视为平稳随机信号,从而引入自回归模型系数来确定音频同步误差,无需人工测试,节约开发成本,测试精度和准确率较高。
在前述描述的基础上,经本申请发明人进一步研究发现,音频同步误差除了上述第一音频同步误差delay_cu之外,还包括第二音频同步误差delay_xi,详细地,请进一步参阅图3,在步骤S130之后,本实施例提供的音频同步误差测试方法还可以包括步骤S140,具体描述如下。
步骤S140,根据确定的第一音频同步误差将第一音频数据和第二音频数据进行音频对齐后,计算第一音频数据和第二音频数据之间的第二音频同步误差。
本实施例中,在确定第一音频同步误差delay_cu后,可以先根据该第一音频同步误差delay_cu将第一音频数据和第二音频数据进行音频对齐,即根据第一音频同步误差delay_cu表示的以音频采样点为单位的音频偏移将第二音频数据中的音频采样点偏移对应的音频采样点单位。
然而,发明人研究发现在根据确定的第一音频同步误差将第一音频数据和第二音频数据进行音频对齐后,仍旧存在音频同步误差,表明此时第一音频数据和第二音频数据并未完全同步,还存在未考虑到的音频同步误差。基于此,发明人经过创造性研究后,提出以下示例方案以确定未考虑到的第二音频同步误差delay_xi。
首先,可从第一音频数据中选择第一采样点范围的第一目标音频数据,并从第二音频数据中选择第二采样点范围的第二目标音频数据,其中,第二采样点范围处于第一采样点范围内。例如,可以选取第一音频数据的采样点范围为(0,2J+V)的第一目标音频数据T,同时选取第二音频数据的采样点范围为(J,J+V)的第二目标音频数据W。例如,如果j为100,v为100,那么第一目标音频数据T在第一音频数据中的采样点范围为(0,300),第二目标音频数据W在第二音频数据中的采样点范围为(100,200)。
接着,计算第二目标音频数据W在第一目标音频数据T中每个音频采样点的相关系数。可选地,相关系数的计算方式可以通过FFT(Fast Fourier Transform,快速傅里叶变换)进行快速运算,此处不再赘述。
其中,由于音频数据中各音频采样点的音频特征值是正负交替的,因此在计算相关系数之前还需要对各音频采样点的音频特征值进行绝对值计算,之后可以进行低通滤波以提取音频数据,从而降低一些噪声的影响。
在计算得到各个相关系数后,可获取计算的各个相关系数中最大的相关系数所对应的目标音频采样点。然后,以该目标音频采样点在第一音频数据中的位置为第二音频数据的音频对齐位置,计算第二音频数据从该音频对齐位置对齐到第一音频数据的偏移采样点数量,偏移采样点数量为第二音频同步误差delay_xi。
如此,本实施例通过进一步考虑第二音频同步误差delay_xi,以提高音频同步误差的准确性。
在确定前述第一音频同步误差delay_cu和第二音频同步误差delay_xi后,为便于进一步细化音频同步误差在单位时间内的误差情况,请参阅图4,在步骤S140之后,本实施例提供的音频同步误差测试方法还可以包括步骤S150,具体描述如下。
步骤S150,根据第一音频同步误差、第二音频同步误差以及第一音频数据和第二音频数据的采样频率,得到第一音频数据和第二音频数据之间的音频同步误差,具体满足以下计算公式:
delay_final=(delay_cu+delay_xi)/fs
其中,fs为第二音频同步误差以及第一音频数据和第二音频数据的采样频率,delay_cu为第一音频同步误差,delay_xi为第二音频同步误差,delay_final为以时间为单位的音频同步误差。
基于同一发明构思,请参阅图5,示出了本申请实施例提供的音频同步误差测试装置400的功能模块示意图,本实施例可以根据上述方法实施例对音频同步误差测试装置400进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。比如,在采用对应各个功能划分各个功能模块的情况下,图5示出的音频同步误差测试装置400只是一种装置示意图。其中,音频同步误差测试装置400可以包括获取模块410、计算模块420以及确定模块430,下面分别对该音频同步误差测试装置400的各个功能模块的功能进行详细阐述。
获取模块410,用于获取待测试的音频数据,音频数据包括第一终端200在直播间中的第一音频数据和第二终端300在该直播间中的第二音频数据。可以理解,该获取模块410可以用于执行上述步骤S110,关于该获取模块410的详细实现方式可以参照上述对步骤S110有关的内容。
计算模块420,用于计算音频数据中各段音频段数据对应的自回归模型系数。可以理解,该计算模块420可以用于执行上述步骤S120,关于该计算模块420的详细实现方式可以参照上述对步骤S120有关的内容。
确定模块430,用于根据各段音频段数据对应的自回归模型系数,确定第一音频同步误差。可以理解,该确定模块430可以用于执行上述步骤S130,关于该确定模块430的详细实现方式可以参照上述对步骤S130有关的内容。
在一种可能的实施方式中,获取模块410可以通过以下方式获取待测试的音频数据:
从直播间中获取第一终端200的第一初始音频数据和第二终端300的第二初始音频数据;
分别对第一初始音频数据和第二初始音频数据进行音频解码,得到左声道和右声道所对应的第一音频数据和第二音频数据;
选择左声道或者右声道中的任意一种声道所对应的第一音频数据和第二音频数据作为待测试的音频数据。
在一种可能的实施方式中,计算模块420可以通过以下方式计算音频数据中各段音频段数据对应的自回归模型系数:
对音频数据进行分段,得到多段音频段数据,其中,每段音频段数据的长度为预设长度;
针对每段音频段数据,根据预先设定的自回归模型的阶数确定该段音频段数据中待计算的自相关系数的自变量;
根据该段音频段数据中待计算的自相关系数的自变量和预设长度,计算该段音频段数据对应的自回归模型系数。
在一种可能的实施方式中,计算模块420可以通过以下方式计算该段音频段数据对应的自回归模型系数:
根据该段音频段数据中待计算的自相关系数的自变量、预设长度以及该段音频段数据每个音频采样点的音频特征值,计算该段音频段数据所对应的自相关系数;
其中,该段音频段数据所对应的自相关系数与该段音频段数据对应的自回归模型系数满足以下计算公式:
Figure BDA0002186515270000141
Figure BDA0002186515270000142
Figure BDA0002186515270000143
Figure BDA0002186515270000144
其中,a为待计算的自相关系数的自变量,R(a)为待计算的自相关系数,I为预设长度,P为预先设定的自回归模型的阶数,x(n)和x(n+a)分别表示该段音频段数据中第n个音频采样点和第n+a个音频采样点的音频特征值,w(n)为该段音频段数据中第n个音频采样点的白噪声数据,ak为该段音频段数据对应的自回归模型系数,
Figure BDA0002186515270000145
为白噪声数据的方差。
在一种可能的实施方式中,确定模块430可以通过以下方式确定第一音频同步误差:
从第二音频数据中各段第二音频段数据对应的第二自回归模型系数中选择至少部分连续段的第二音频段数据对应的第二自回归模型系数;
计算选择的每个第二自回归模型系数与第一音频数据中各段第一音频段数据对应的第一自回归模型系数的绝对误差;
根据计算的每个绝对误差计算得到第一音频同步误差。
在一种可能的实施方式中,确定模块430还可以用于根据确定的第一音频同步误差将第一音频数据和第二音频数据进行音频对齐后,计算第一音频数据和第二音频数据之间的第二音频同步误差。
在一种可能的实施方式中,确定模块430具体可以通过以下方式计算第一音频数据和第二音频数据之间的第二音频同步误差:
从第一音频数据中选择第一采样点范围的第一目标音频数据,并从第二音频数据中选择第二采样点范围的第二目标音频数据,其中,第二采样点范围处于第一采样点范围内;
计算第二目标音频数据在第一目标音频数据中每个音频采样点的相关系数;
获取计算的各个相关系数中最大的相关系数所对应的目标音频采样点;
以该目标音频采样点在第一音频数据中的位置为第二音频数据的音频对齐位置,计算第二音频数据从该音频对齐位置对齐到第一音频数据的偏移采样点数量,偏移采样点数量为第二音频同步误差。
在一种可能的实施方式中,确定模块430具体还可以用于:
根据第一音频同步误差、第二音频同步误差以及第一音频数据和第二音频数据的采样频率,得到第一音频数据和第二音频数据之间的音频同步误差,具体可以满足以下计算公式:
delay_final=(delay_cu+delay_xi)/fs
其中,fs为第二音频同步误差以及第一音频数据和第二音频数据的采样频率,delay_cu为第一音频同步误差,delay_xi为第二音频同步误差,delay_final为以时间为单位的音频同步误差。
基于同一发明构思,请参阅图6,示出了本申请实施例提供的用于执行上述音频同步误差测试方法的服务器100的结构示意框图,该服务器100可以包括机器可读存储介质120和处理器130。
本实施例中,机器可读存储介质120与处理器130均位于服务器100中且二者分离设置。然而,应当理解的是,机器可读存储介质120也可以是独立于服务器100之外,且可以由处理器130通过总线接口来访问。可替换地,机器可读存储介质120也可以集成到处理器130中,例如,可以是高速缓存和/或通用寄存器。
处理器130是该服务器100的控制中心,利用各种接口和线路连接整个服务器100的各个部分,通过运行或执行存储在机器可读存储介质120内的软件程序和/或模块,以及调用存储在机器可读存储介质120内的数据,执行该服务器100的各种功能和处理数据,从而对服务器100进行整体监控。可选地,处理器130可包括一个或多个处理核心;例如,处理器130可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
其中,处理器130可以是一个通用的中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(Application-Specific Integrated Circuit,ASIC),或一个或多个用于控制下述方法实施例提供的音频同步误差测试方法的程序执行的集成电路。
机器可读存储介质120可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmabler-Only MEMory,EEPROM)、只读光盘(Compactdisc Read-Only MEMory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。机器可读存储介质120可以是独立存在,通过通信总线与处理器130相连接。机器可读存储介质120也可以和处理器集成在一起。其中,机器可读存储介质120用于存储执行本申请方案的机器可执行指令。处理器130用于执行机器可读存储介质120中存储的机器可执行指令,以实现前述方法实施例提供的音频同步误差测试方法。
由于本申请实施例提供的服务器100是上述服务器100执行的方法实施例的另一种实现形式,且服务器100可用于执行上述方法实施例提供的音频同步误差测试方法,因此其所能获得的技术效果可参考上述方法实施例,在此不再赘述。
进一步地,本申请实施例还提供一种包含计算机可执行指令的可读存储介质,计算机可执行指令在被执行时可以用于方法实施例提供的音频同步误差测试方法。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本申请任意实施例所提供的音频同步误差测试方法中的相关操作。
本申请实施例是参照根据本申请实施例的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (11)

1.一种音频同步误差测试方法,其特征在于,应用于服务器,所述方法包括:
获取待测试的音频数据,所述音频数据包括第一终端在直播间中的第一音频数据和第二终端在该直播间中的第二音频数据;
计算所述音频数据中各段音频段数据对应的自回归模型系数;
根据所述各段音频段数据对应的自回归模型系数,确定第一音频同步误差。
2.根据权利要求1所述的音频同步误差测试方法,其特征在于,所述获取待测试的音频数据的步骤,包括:
从所述直播间中获取所述第一终端的第一初始音频数据和所述第二终端的第二初始音频数据;
分别对所述第一初始音频数据和所述第二初始音频数据进行音频解码,得到左声道和右声道所对应的第一音频数据和第二音频数据;
选择左声道或者右声道中的任意一种声道所对应的第一音频数据和第二音频数据作为待测试的音频数据。
3.根据权利要求1所述的音频同步误差测试方法,其特征在于,所述计算所述音频数据中各段音频段数据对应的自回归模型系数的步骤,包括:
对所述音频数据进行分段,得到多段音频段数据,其中,每段音频段数据的长度为预设长度;
针对每段音频段数据,根据预先设定的自回归模型的阶数确定该段音频段数据中待计算的自相关系数的自变量;
根据该段音频段数据中待计算的自相关系数的自变量和所述预设长度,计算该段音频段数据对应的自回归模型系数。
4.根据权利要求3所述的音频同步误差测试方法,其特征在于,所述根据该段音频段数据中待计算的自相关系数的自变量和所述预设长度,计算该段音频段数据对应的自回归模型系数的步骤,包括:
根据该段音频段数据中待计算的自相关系数的自变量、所述预设长度以及该段音频段数据每个音频采样点的音频特征值,计算该段音频段数据所对应的自相关系数;
其中,该段音频段数据所对应的自相关系数与该段音频段数据对应的自回归模型系数满足以下计算公式:
Figure FDA0002186515260000021
Figure FDA0002186515260000022
Figure FDA0002186515260000023
Figure FDA0002186515260000024
其中,a为待计算的自相关系数的自变量,R(a)为待计算的自相关系数,I为所述预设长度,P为预先设定的自回归模型的阶数,x(n)和x(n+a)分别表示该段音频段数据中第n个音频采样点和第n+a个音频采样点的音频特征值,w(n)为该段音频段数据中第n个音频采样点的白噪声数据,ak为该段音频段数据对应的自回归模型系数,
Figure FDA0002186515260000025
为白噪声数据的方差。
5.根据权利要求1所述的音频同步误差测试方法,其特征在于,所述根据所述各段音频段数据对应的自回归模型系数,确定第一音频同步误差的步骤,包括:
从所述第二音频数据中各段第二音频段数据对应的第二自回归模型系数中选择至少部分连续段的第二音频段数据对应的第二自回归模型系数;
计算选择的每个第二自回归模型系数与所述第一音频数据中各段第一音频段数据对应的第一自回归模型系数的绝对误差;
根据计算的每个绝对误差计算得到第一音频同步误差。
6.根据权利要求1-5中任意一项所述的音频同步误差测试方法,其特征在于,所述方法还包括:
根据确定的第一音频同步误差将所述第一音频数据和所述第二音频数据进行音频对齐后,计算所述第一音频数据和所述第二音频数据之间的第二音频同步误差。
7.根据权利要求6所述的音频同步误差测试方法,其特征在于,计算所述第一音频数据和所述第二音频数据之间的第二音频同步误差的步骤,包括:
从所述第一音频数据中选择第一采样点范围的第一目标音频数据,并从所述第二音频数据中选择第二采样点范围的第二目标音频数据,其中,所述第二采样点范围处于所述第一采样点范围内;
计算所述第二目标音频数据在所述第一目标音频数据中每个音频采样点的相关系数;
获取计算的各个相关系数中最大的相关系数所对应的目标音频采样点;
以该目标音频采样点在所述第一音频数据中的位置为所述第二音频数据的音频对齐位置,计算所述第二音频数据从该音频对齐位置对齐到所述第一音频数据的偏移采样点数量,所述偏移采样点数量为所述第二音频同步误差。
8.根据权利要求6所述的音频同步误差测试方法,其特征在于,所述方法还包括:
根据所述第一音频同步误差、所述第二音频同步误差以及所述第一音频数据和所述第二音频数据的采样频率,得到所述第一音频数据和所述第二音频数据之间的音频同步误差,具体满足以下计算公式:
delay_final=(delay_cu+delay_xi)/fs
其中,fs为所述第二音频同步误差以及所述第一音频数据和所述第二音频数据的采样频率,delay_cu为所述第一音频同步误差,delay_xi为所述第二音频同步误差,delay_final为以时间为单位的音频同步误差。
9.一种音频同步误差测试装置,其特征在于,应用于服务器,所述装置包括:
获取模块,用于获取待测试的音频数据,所述音频数据包括第一终端在直播间中的第一音频数据和第二终端在该直播间中的第二音频数据;
计算模块,用于计算所述音频数据中各段音频段数据对应的自回归模型系数;
确定模块,用于根据所述各段音频段数据对应的自回归模型系数,确定第一音频同步误差。
10.一种服务器,其特征在于,所述服务器包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述处理器在执行所述机器可执行指令时,所述服务器实现权利要求1-8中任意一项所述的音频同步误差测试方法。
11.一种可读存储介质,其特征在于,所述可读存储介质中存储有机器可执行指令,所述机器可执行指令被执行时实现权利要求1-8中任意一项所述的音频同步误差测试方法。
CN201910816550.3A 2019-08-30 2019-08-30 音频同步误差测试方法、装置、服务器及可读存储介质 Active CN112447185B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910816550.3A CN112447185B (zh) 2019-08-30 2019-08-30 音频同步误差测试方法、装置、服务器及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910816550.3A CN112447185B (zh) 2019-08-30 2019-08-30 音频同步误差测试方法、装置、服务器及可读存储介质

Publications (2)

Publication Number Publication Date
CN112447185A true CN112447185A (zh) 2021-03-05
CN112447185B CN112447185B (zh) 2024-02-09

Family

ID=74734159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910816550.3A Active CN112447185B (zh) 2019-08-30 2019-08-30 音频同步误差测试方法、装置、服务器及可读存储介质

Country Status (1)

Country Link
CN (1) CN112447185B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1742492A (zh) * 2003-02-14 2006-03-01 汤姆森特许公司 媒体内容的基于音频和视频的媒体服务的自动同步
CN102056026A (zh) * 2009-11-06 2011-05-11 中国移动通信集团设计院有限公司 音视频同步检测方法及其系统、语音检测方法及其系统
CN108989884A (zh) * 2018-08-01 2018-12-11 浙江齐聚科技有限公司 直播视频延迟性能测试方法、装置、设备和存储介质
WO2019002179A1 (en) * 2017-06-27 2019-01-03 Dolby International Ab HYBRID AUDIO SIGNAL SYNCHRONIZATION BASED ON CROSS CORRELATION AND ATTACK ANALYSIS
CN109756911A (zh) * 2019-01-31 2019-05-14 腾讯科技(深圳)有限公司 网络质量预测方法、业务调整方法、相关设备及存储介质
CN109842795A (zh) * 2019-02-28 2019-06-04 苏州科达科技股份有限公司 音视频同步性能测试方法、装置、电子设备、存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1742492A (zh) * 2003-02-14 2006-03-01 汤姆森特许公司 媒体内容的基于音频和视频的媒体服务的自动同步
CN102056026A (zh) * 2009-11-06 2011-05-11 中国移动通信集团设计院有限公司 音视频同步检测方法及其系统、语音检测方法及其系统
WO2019002179A1 (en) * 2017-06-27 2019-01-03 Dolby International Ab HYBRID AUDIO SIGNAL SYNCHRONIZATION BASED ON CROSS CORRELATION AND ATTACK ANALYSIS
CN108989884A (zh) * 2018-08-01 2018-12-11 浙江齐聚科技有限公司 直播视频延迟性能测试方法、装置、设备和存储介质
CN109756911A (zh) * 2019-01-31 2019-05-14 腾讯科技(深圳)有限公司 网络质量预测方法、业务调整方法、相关设备及存储介质
CN109842795A (zh) * 2019-02-28 2019-06-04 苏州科达科技股份有限公司 音视频同步性能测试方法、装置、电子设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余琼 等: "一种高效的音频流媒体服务器策略", 《计算机与现代化》, no. 8, pages 114 - 117 *

Also Published As

Publication number Publication date
CN112447185B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
US8625027B2 (en) System and method for verification of media content synchronization
CN104768082B (zh) 一种音视频播放信息处理方法及服务器
CN108683952B (zh) 基于交互视频的视频内容片段推送方法及装置
US10777211B2 (en) Methods and apparatus to inspect characteristics of multichannel audio
CN103077734A (zh) 录制的音频信号的时间对准
CN113242361B (zh) 一种视频处理方法、装置以及计算机可读存储介质
CN110267083B (zh) 音视频同步的检测方法、装置、设备及存储介质
US9412391B2 (en) Signal processing device, signal processing method, and computer program product
CN110047513B (zh) 一种视频监测方法、装置、电子设备和存储介质
US9431024B1 (en) Method and apparatus for detecting noise of audio signals
US20190132409A1 (en) Dynamic filtering and amelioration of content stream manifests
CN111782543A (zh) 一种在云端进行的评测方法、相关设备及系统
US11134279B1 (en) Validation of media using fingerprinting
CN110933459B (zh) 赛事视频的剪辑方法、装置、服务器以及可读存储介质
CN107371053B (zh) 音频视频流对比分析方法及装置
US11610610B1 (en) Audio-video synchronization for non-original audio tracks
CN113301386B (zh) 视频处理方法、装置、服务器以及存储介质
CN108769831B (zh) 视频预告的生成方法及装置
CN112053669B (zh) 一种人声消除方法、装置、设备及介质
CN112447185B (zh) 音频同步误差测试方法、装置、服务器及可读存储介质
CN113296666A (zh) 主播曝光数据上报方法、装置、终端设备及存储介质
CN106407353B (zh) 一种播放动画的方法和装置
CN110460874B (zh) 视频播放参数生成方法、装置、存储介质及电子设备
CN114996509A (zh) 训练视频特征提取模型和视频推荐的方法和装置
CN114422814A (zh) 直播音视频处理方法、装置、服务器及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant