CN111785294B

CN111785294B - 音频检测方法及装置、终端、存储介质

Info

Publication number: CN111785294B
Application number: CN202010534387.4A
Authority: CN
Inventors: 白金; 严锋贵
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2024-04-02
Anticipated expiration: 2040-06-12
Also published as: CN111785294A

Abstract

本申请实施例公开了一种音频检测方法，包括：获取待检测数据；其中，所述待检测数据为待测终端对原始音频处理后的音频数据；对所述待检测数据进行分段，得到N个分段数据；其中，所述N为大于等于2的整数；将每一所述分段数据与包含特定类别数据的音频模板进行匹配，得到匹配结果；其中，所述模板数据为通过特定终端对所述原始音频进行处理后截取的数据段；在所述匹配结果表明所述待检测数据中存在目标数据的情况下，确定所述目标数据的参数信息。本申请实施例还同时提供了一种音频检测装置、终端及存储介质。

Description

音频检测方法及装置、终端、存储介质

技术领域

本申请涉及电子设备技术领域，涉及但不限定于音频检测方法及装置、终端、存储介质。

背景技术

近年来，随着科技产业日益发达，终端例如笔记本电脑、平板电脑与智能手机已频繁地出现在日常生活中。这些终端在出厂前都需要进行相关的音频性能测试。

目前只在研发前期对终端中电声器件的声学性能进行管控，但最后终端在制成成品时，依然有可能会有不良品。因此，目前的终端的音频测试方法可靠性不高，容易导致终端的稳定性差。

发明内容

本申请实施例提供一种音频检测方法及装置、终端、存储介质。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供一种音频检测方法，所述方法包括：

获取待检测数据；其中，所述待检测数据为待测终端对原始音频处理后的音频数据；

对所述待检测数据进行分段，得到N个分段数据；其中，所述N为大于等于2的整数；

将每一所述分段数据与包含特定类别数据的音频模板进行匹配，得到匹配结果；其中，所述模板数据为通过特定终端对所述原始音频进行处理后截取的数据段；

在所述匹配结果表明所述待检测数据中存在目标数据的情况下，确定所述目标数据的参数信息。

第二方面，本申请实施例提供一种音频检测装置，包括获取模块、分段模块、匹配模块和确定模块，其中：

所述获取模块，用于获取待检测数据；其中，所述待检测数据为待测终端对原始音频处理后的音频数据；

所述分段模块，用于对所述待检测数据进行分段，得到N个分段数据；其中，所述N为大于等于2的整数；

所述匹配模块，用于将每一所述分段数据与包含特定类别数据的音频模板进行匹配，得到匹配结果；其中，所述模板数据为通过特定终端对所述原始音频进行处理后截取的数据段；

所述确定模块，用于在所述匹配结果表明所述待检测数据中存在目标数据的情况下，确定所述目标数据的参数信息。

第三方面，本申请实施例提供一种终端，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述音频检测方法中的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述音频检测方法中的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，首先，获取待测终端对原始音频处理后的待检测数据；然后，对待检测数据进行分段；再分别将每一段数据与包含特定类别数据的音频模板进行匹配；最后，在匹配结果表明所述待检测数据中存在目标数据的情况下，确定所述目标数据的参数信息；如此，通过将待检测数据与包含特定类别数据的音频模板进行分段对比，在判定待检测数据存在目标数据的情况下，可以同时确定目标数据的参数信息，有利于进一步检测待测终端的音频处理通路是否正常。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本申请实施例提供的一种音频检测方法的流程示意图；

图2为本申请实施例提供的另一种音频检测方法的流程示意图；

图3为本申请实施例提供的又一种音频检测方法的流程示意图；

图4为本申请实施例提供的再一种音频检测方法的流程示意图；

图5A为本申请实施例提供的检测上行音频处理通路的系统框图；

图5B为本申请实施例提供的音频检测方法的逻辑流程图；

图5C为本申请实施例提供的检测上行音频处理通路的系统框图；

图5D为本申请实施例提供的梅尔频率倒谱系数MFCC特征提取过程；

图5E为本申请实施例提供的线性预测倒谱系数LPCC特征提取过程；

图5F为本申请实施例提供的DTW弯曲路径示意图；

图6为本申请实施例提供的一种音频检测装置的组成结构示意图；

图7为本申请实施例提供的一种终端的硬件实体示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。以下实施例用于说明本申请，但不用来限制本申请的范围。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

需要指出，本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请实施例所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

相关技术中提供了一种音频测试系统，包括测试装置和待测装置，测试装置包括测试发音端及测试收音端，待测装置包括收音端及两侧发音端。其中，测试装置通过测试发音端发送测试音频，并控制待测装置通过收音端进行录音以产生待测音频。测试装置在录音完毕后，控制待测装置从两侧发音端之其一播放待测音频，以使测试装置通过测试收音端进行录音，并呼叫音频分析程序以产生第一测试结果。控制待测装置从两侧发音端之另一端播放待测音频，以使测试装置通过测试收音端进行录音，并呼叫音频分析程序以产生第二测试结果。利用此方法执行自动化测试，免除繁琐的检测步骤及细节。

但是，该方案需要同时控制测试装置发送测试音频，经过待测装置进行录音处理后播放待测音频，然后又控制测试装置对该待测音频进行录音，并分析产生测试结果。检测过程比较耗时，且只能检测经常音频处理通路后的待测音频是否存在异常，不能进一步分析出现异常的原因。

本申请实施例提供一种音频检测方法，应用于终端。所述终端包括但不限于手机、笔记本电脑、平板电脑和掌上上网设备、多媒体设备、流媒体设备、移动互联网设备、可穿戴设备或其他类型的终端设备。该方法所实现的功能可以通过终端中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该终端至少包括处理器和存储介质。处理器可以用于进行音频检测的过程的处理，存储器可以用于进行音频检测的过程中需要的数据以及产生的数据。该终端还可以包括可以用于接收以及发送数据的收发器。

图1为本申请实施例提供的一种音频检测方法的流程示意图，如图1所示，所述方法至少包括以下步骤：

步骤S110，获取待检测数据。

这里，所述待检测数据为待测终端对原始音频处理后的音频数据。

这里，获取待检测数据的过程可以通过以下方式实现：首先控制标准扬声器播放原始音频，然后控制待测终端进行录音，经过待测终端的音频处理通路处理后，得到待检测数据；还可以通过以下方式实现：读取待测终端中预先存储的原始音频，通过待测终端自带的扬声器播放经过待测终端的音频处理通路处理后的音频，用标准麦克风对播放的音频进行录音，得到待检测数据。

需要说明的是，所述待测终端可以为具有通话功能的移动终端，包括麦克风、扬声器、屏幕等输入输出设备，其中：麦克风可以用于播放音频或采集语音信号等；扬声器可以用于播放音频；屏幕可以是触控屏，用于显示操作选项、音频检测结果等处理。所述待测终端，也可以为任何涉及音频检测通路的设备，在实施过程中可以通过外接扬声器和麦克风实现音频的录制与播放。

值得注意的是，待测终端的音频处理通路包括上行通道和下行通道。下行通道用于从其他客户端或服务器到移动终端的语音信号转发，上行通道用于把移动终端的语音转发给其他客户端或服务器。本申请实施例提供的音频检测方法对上行通道和下行通道的检测都可以适用。

步骤S120，对所述待检测数据进行分段，得到N个分段数据。

这里，所述N为大于等于2的整数。

这里，通过对获取的待检测数据进行加窗处理，实现将待检测数据分为N个分段数据。例如将1秒的音频数据，乘以窗函数(时长为10毫秒)，即可得到至少100个分段数据。其中窗函数是一种计权函数，常用的窗函数有矩形窗、汉宁窗、平顶窗、指数窗等。不同的窗函数计权是不一样的。也就是说，基于信号类型和分析目的，可以选取适当的窗函数来做信号截取即分段。

步骤S130，将每一所述分段数据与包含特定类别数据的音频模板进行匹配，得到匹配结果。

这里，所述特定类别数据可以为爆破音、高斯白噪声、静音、环境音或纯语音等类别中的一种数据。

这里，所述音频模板为通过特定终端对所述原始音频进行处理后截取的数据段，包含特定类别的数据。

需要说明的是，所述特定终端的音频通路已经经过检测，能够输出包含特定类别数据的音频数据即特定音频数据。通过将原始音频经过特定终端的音频通路处理得到特定音频数据，然后对特定音频数据按照预设长度进行截取得到音频模板，该音频模板中只包含特定类别的数据。

这里，将获得的N个分段数据分别与预先设定的音频模板进行匹配，判断是否存在某个分段数据能与音频模板匹配成功。如果匹配成功，则说明原待检测音频中存在特定类别的数据；如果匹配失败，则说明原待检测音频中不存在特定类别的数据。

步骤S140，在所述匹配结果表明所述待检测数据中存在目标数据的情况下，确定所述目标数据的参数信息。

这里，所述目标数据的参数信息可以包括目标数据在待检测数据中出现的位置、目标数据的类别等。

这里，如果存在分段数据与音频模板匹配成功，说明所述待检测数据中存在目标数据，该目标数据的数据特征与音频模板中包含的特定类别数据的特征相同。可以根据音频模板中特定类别数据的特征，确定目标数据的参数信息。从而进一步检测待测终端的信噪比、失真率、频率响应等参数。

图2为本申请实施例提供的另一种音频检测方法的流程示意图，如图2所述，所述方法至少包括以下步骤：

步骤S210，获取待检测数据。

步骤S220，对所述待检测数据进行分段，得到N个分段数据。

这里，通过滑动窗函数将待检测数据分成多个分段数据。

步骤S230，通过DTW算法确定每一所述分段音频与所述音频模板之间的N个相似度。

这里，所述相似度为每个分段音频提取的特征向量与音频模板中提取的特征向量之间的最小距离。

需要说明的是，DTW算法的主要思想为通过调整时间点之间的对应关系，找出两个任意长时间序列中数据之间的最佳匹配路径，也就是选择一个路径，使得最后得到的总的距离即累积距离最小，从而度量时间序列的相似性。本申请实施例通过DTW算法找到每一分段数据的特征向量到音频模板的特征向量的最佳匹配路径，然后计算沿该路径的累积距离，即为每一分段数据与音频模板之间的相似度。

步骤S240，在所述N个相似度中存在小于或等于预设相似度阈值的情况下，确定匹配结果为待检测数据中存在目标数据。

这里，所述预设相似度阈值为根据历史检测结果确定的。通过预设一个相似度阈值来判断当前匹配是否成功，若判定为匹配成功，则表示待检测数据中存在目标数据。

这里，如果某个分段音频与音频模板之间的相似度小于或等于预设相似度阈值，说明该分段音频中的音频数据与音频模板中的特定类别数据相似，即可以确定待检测数据中存在目标数据。例如，音频模板中包含的特定类别数据为爆破音，则如果存在某个分段音频与音频模板匹配成功，则可以确定出待检测数据中存在类似爆破音的杂音。

步骤S250，在所述匹配结果表明所述待检测数据存在目标数据的情况下，将与所述特定类别数据之间的相似度小于或等于预设相似度阈值对应的分段数据作为目标数据段。

这里，在检测到待检测数据中存在目标数据的情况下，可以将与特定类别数据之间的相似度满足条件的分段数据确定为目标数据段。

值得注意的是，在每个分段数据与特定类别数据之间的N个相似度中只要任意若干个相似度满足条件对应的分段数据都可以作为目标数据段。也就是说目标数据段可以是一个，也可以是多个。

步骤S260，获取所述待测终端的音频处理通路读取所述原始音频的起始时间。

这里，在将原始音频输入到待测终端的音频处理通路中时，记录读取原始音频的起始时间。例如可以设定定时器，读取原始音频时触发控制信号，启动定时器定时，记录读取时间并保存。

步骤S270，根据所述目标数据段的分段索引和所述起始时间，确定所述目标数据出现的位置。

这里，所述目标数据段的分段索引可以是对待检测数据进行加窗分段的时候标记并保存的。

这里，所述目标数据出现的位置为目标数据在待检测数据中出现的时间点，可以通过包含目标数据的目标数据段的分段索引和起始时间，得到目标数据出现的时间点。在判定有多个目标数据段的情况下，分别确定在每个目标数据段中目标数据出现的时间点。

在本申请实施例中，首先对获取的待检测数据进行分段，得到N个分段数据；然后通过DTW算法确定每一分段数据与音频模板的N个相似度；在判断N个相似度中存在小于或等于预设相似度阈值的情况下，确定待检测数据中存在目标数据；最后，根据目标数据所在数据段的分段索引和待测终端的音频处理通路读取原始音频的起始时间，确定待检测数据中出现目标数据的时间点。如此，通过将待检测数据中每一段数据分别与音频模板进行匹配，可以检测经过待测终端的音频处理通路处理后的待检测数据是否包含目标数据，同时能够确定目标数据在待检测数据中出现的位置，以进一步进行音频处理通路的检测分析。

图3为本申请实施例提供的另一种音频检测方法的流程示意图，如图3所述，所述方法至少包括以下步骤：

步骤S310，在预设环境下通过标准音箱播放原始音频。

这里，所述预设环境可以是无环境噪声的静音箱。通过软件控制标准音箱的扬声器输出原始音频。

步骤S320，通过待测终端的音频处理通路对所述原始音频进行处理，得到所述待检测数据。

这里，所述音频处理通路包括上行通路和下行通路，其中上行通路即发送给对方的声音通路，下行通路即本地听到声音的通路。原始音频经过音频处理通路进行降噪、滤波等处理后，得到待检测数据。后续对待检测数据进行进一步分析检测，可以推断待测终端的音频处理通路是否正常。

步骤S330，对所述待检测数据进行分段，得到N个分段数据。

这里，通过滑动窗函数将待检测数据分成多个分段数据。每一个分段数据包括若干帧，每一帧包括M个采样点集合通常情况下M的值为256或512，涵盖的时间约为20～30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了P个取样点，通常P的值约为N的1/2或1/3。

步骤S340，通过DTW算法确定每一所述分段音频与所述音频模板之间的N个相似度。

这里，所述相似度为每个分段音频提取的特征向量与音频模板中提取的特征向量之间的最小距离。通过DTW算法找到每一分段数据的特征向量到音频模板的特征向量的最佳匹配路径，然后计算沿该路径的累积距离，即为每一分段数据与音频模板之间的相似度。

步骤S350，在所述N个相似度中存在小于或等于预设相似度阈值的情况下，确定匹配结果为待检测数据中存在目标数据。

这里，如果某个分段音频与音频模板之间的相似度小于或等于预设相似度阈值，说明该分段音频中的音频数据与音频模板中的特定类别数据相似，即可以确定待检测数据中存在目标数据。

步骤S360，在所述匹配结果表明所述待检测数据中存在目标数据的情况下，根据所述音频模板中特定数据的类别，确定所述目标数据的类别。

这里，所述音频模板为原始音频通过特定终端的音频处理通路后截取得到的数据段，每个音频模板只包含特定类别的音频数据。这样，在判定待检测数据中存在目标数据的情况下，可以直接将目标数据的类别确定为音频模板对应的类别。

在本申请实施例中，首先在预设环境下通过标准音箱播放原始音频；其次，通过待检测终端的音频处理通路对原始音频进行处理，得到待检测数据；然后通过DTW算法确定每一分段音频与音频模板之间的N个相似度；再通过分析N个相似度是否满足特定条件，从而确定匹配成功即待检测数据中存在目标数据，最后，根据音频模板中特定数据的类别，确定目标数据的类别。可以代替人工听音，实现特定音频数据的检测和类别判断。

图4为本申请实施例提供的再一种音频检测方法的流程示意图，如图4所示，上述步骤S230或步骤S340“通过DTW算法确定每一所述分段音频与所述音频模板之间的N个相似度”可以通过以下过程实现：

步骤S410，分别提取每一所述分段数据的第一特征向量和所述音频模板中特定类别数据的第二特征向量。

这里，对每个分段数据提取音频特征得到每个分段数据对应的特征向量，也就是说，第一特征向量是多个不同的特征向量。

这里，对音频模板中特定类别数据的每一帧进行特征提取，得到第二特征向量。第二特征向量为特定的一个特征向量。

需要说明的是，音频特征可以为如梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient，MFCC)特征、线性预测倒谱系数(Linear Predictive CepstralCoefficients，LPCC)特征或频谱图等常用特征。本申请实施例对提取的音频特征不作具体限定。

步骤S420，根据所述第一特征向量和所述第二特征向量，确定每一所述分段数据和所述特定类别数据之间的最佳匹配路径。

这里，首先，通过第一特征向量中的每个特征值到第二特征向量中的每个特征值的欧式距离，构成距离矩阵D；然后通过设定约束条件，在D中寻找一条弯曲路径，使得第一特征向量与第二特征向量之间的匹配度最大，即确定出满足约束条件的最佳匹配路径。

步骤S430，根据所述最佳匹配路径，确定每一所述分段数据和所述特定类别数据之间的N个相似度。

这里，所述最佳匹配路径的查找是通过动态规划来实现的。当找到一条匹配路径，就计算第一特征向量和第二特征向量之间的累积距离，确定最小的累积距离即为分段数据和特定类别数据之间的相似度。

下面结合一个具体实施例对上述音频检测方法进行说明，然而值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

在音频测量中，杂音检测是一个比较常见的测试项目。杂音是指一个电子设备或者电子系统中存在的蜂鸣等干扰。杂音的产生通常是由于电子器件本身的缺陷或者装配过程产生的。本申请实施例通过对经过终端的音频处理通路处理后的音频数据进行杂音检测，进一步检测音频处理通路是否正常。

本申请实施例分别对终端的上行音频处理通路进行检测的场景和对终端的下行音频处理通路进行检测的场景进行说明。

图5A为本申请实施例提供的检测上行音频处理通路的系统框图，如图5A所示，所述检测系统包括待测终端51、标准音箱52、静音箱53和软件检测装置54，其中待测终端51至少包括音频上行通路511，将经过音频上行通路511处理后的数据输入到软件检测装置54中进行检测。

图5B为本申请实施例提供的音频检测方法的逻辑流程图，如图5B所示，所述方法至少包括以下步骤：

第一阶段，收集异常数据：

步骤S501，将待测终端51和标准音箱52部署在静音箱53中。

这里，静音箱可降低环境杂音对待测终端的干扰，以期得到较为准确的测试效果。

步骤S502，控制标准音箱52的扬声器播放一个固定的标准音源。

步骤S503，待测终端51通过自带麦克风录音，得到待检测数据。

这里，待检测数据是对标准音源经过音频上行处理通路处理得到的。

步骤S504，标记待检测数据中的异常数据。

这里，首先，通过训练好的模型对待检测数据中的异常数据进行分类：异常A类、异常B类等；针对每类异常数据，从待检测数据中截取固定长度的数据段作为模板数据；然后，分别提取每类模板数据相应的音频特征，如MFCC特征系数，对特征系数标记所属类别、数据长度，保存记录。

需要说明的是，训练模型用到的特征还可以是LPCC、频谱图等常用特征。

第二阶段，自动化测试阶段：

步骤S505，获取待检测数据。

这里，采用软件控制实现上述第一阶段中的步骤S502和S503过程，得到待检测数据，同时记录读取标准音源的起始时间。软件检测部分如检测器得到待检测数据后，开启检测。

步骤S506，对待检测数据进行加窗分段处理。

步骤S507，将分段后的数据与模板数据进行匹配。

这里，模板数据中只包含一类异常数据，且数据长度为固定的。

这里，对分段后的数据分别提取相应音频特征，将得到的特征值与上述保留的异常数据特征项依次进行序列匹配，匹配算法为DTW。若匹配成功，则表示检测到异常，即待检测数据中存在杂音。否则，循环进行测试。

步骤S508，如果匹配成功，确定杂音出现的时间点和类别。

这里，根据数据的分段索引和读取标准音源的起始时间，计算杂音出现的相对时间点与绝对时间点，保存匹配成功的类别与时间点信息。

需要说明的是，该系统的软件检测部分，引入DTW算法，数据分段检测机制，MFCC特征值等，实现杂音类别判断与出现时间点检测。

图5C为本申请实施例提供的检测下行音频处理通路的系统框图；如图5C所示，所述检测系统包括待测终端51、录音麦55、静音箱53和软件检测装置54，其中待测终端51至少包括音频下行通路512，将经过音频下行通路512处理后的数据，再经过录音麦55录音得到的音频，输入到软件检测装置54中进行检测。

对应地上述步骤S501至步骤S503可以替换为以下步骤：

步骤S509，将待测终端51和录音麦55部署在静音箱53中。

步骤S510，读取待测终端51中预先存储的标准音频文件。

步骤S511，待测终端51通过自带扬声器播放标准音频文件。

这里，播放的标准音频文件经过待测终端51的音频下行处理通路进行了处理。

步骤S512，通过录音麦55进行录音，得到待检测数据。

需要说明的是，凡是涉及到需要音频上、下行通路检测的设备都可以应用，若待测设备没有自带的麦克风与扬声器，可通过外接扬声器与麦克风实现方案应用。

下面对上述步骤S507中的检测原理进行解释：

由于杂音在模版中出现时长与在待检测数据中出现的时长很可能不一致，这势必为影响到模版匹配的效果。为了解决这一问题，引入DTW算法，DTW的主要思想为通过调整时间点之间的对应关系，找出两个任意长时间序列中数据之间的最佳匹配路径，从而度量时间序列的相似性。

假设模版数据为X＝(x₁,x₂,...x_m)，将待检测数据截取分段，其中一小段的分段数据为Y＝(y₁,y₂,...y_n)其中m和n为数据的帧号，一般取帧长为10ms，帧重叠为5ms。

对X,Y中的每一帧分别计算特征向量，例如计算MFCC系数，特征向量为1*12维。如图5D所示，对待处理的音频依次通过S5001预加重，即将语音信号通过一个高通滤波器；S5002汉明窗，以增加帧左端和右端的连续性；S5003快速傅里叶(Fast FourierTransformation，FFT)变换，对分帧加窗后的各帧信号进行FFT变换得到各帧的频谱；S5004梅尔频率滤波器组；S5005对数运算，即求对数能量；最后经S5006离散余弦变换(DiscreteCosine Transform，DCT)求倒谱，得到MFCC系数。

对X,Y中的每一帧还可以计算LPCC系数，如图5E所示，对待处理的音频依次通过S5007帧阻塞(Frame Blocking)；S5008加窗处理(Windowing)，以增加帧左端和右端的连续性；S5009自动相关分析(Autocorrelation Analysis)；S5010线性预测编码(LinearPredictive Coding，LPC)分析；最后经S5011 LPC参数转换得到LPCC系数。

通过对模版数据与待检测数据提取特征后，可表示为由r_i与t_j的欧式距离/>的平方构成距离矩阵D。

DTW算法的主要目的就是在D中寻找一条弯曲路径W＝(w₁,w₂,...,w_k)使得R与T的匹配度最大，即路径的累积距离最小。其中max(m,n)≤k≤m+n-1，且w_l＝(i,j)表示与/>的距离，w_l同时须满足以下约束：

(1)边界约束

w₁＝(1,1)；w_k＝(m,n) (1)；

其中，w₁为D中的左下角元素，w_k为D中的右上角元素。

(2)单调性、连续性约束

w_l＝(a_l,b_l)；w_l+1＝(a_l+1,b_l+1) (2)；

其中，0≤a_l+1-a_l≤1,0≤b_l+1-b_l≤1，a_l为R中的任意一个特征值，b_l为T中的任意一个特征值。

连续性：即不可能跨过某个格点去匹配，只能和当前格相邻的格点对齐。这样可以保证R和T中的每个坐标都在W中出现。

单调性：这限制W上面的点必须是随着时间单调进行的。

满足上面这些约束条件的路径可以有指数个，然后实际有价值的是使得下面的规整代价最小的路径。如图5F所示，每一个格点表示为w_l＝(i,j)，灰色部分的完全路径即为DTW路径，可以表示为如下公式(3)：

其中，q为变量，分母中的k主要是用来对不同的长度的规整路径做补偿。

以上最优路径的查找可以通过动态规划来实现的，定义累积矩阵P＝{p(i,j)}_m,n来记录最短路径，即累积距离p(i,j)可以按下面的方式(4)表示：

其中，i和j为变量，p(i,j)为累积距离，表示为当前格点距离即点ri和tj的欧式距离。

当最优路径(使得沿路径的积累距离达到最小值的路径)被找到后，可以计算出R与T的最小距离，即相似度。从而推断出待检测数据与模版数据之间的相似度。通过预设一个相似度阈值来判断当前匹配是否成功，若判定为匹配成功，则表示检测到有杂音出现。

本申请实施例提供的检测音频杂音的方法，通过引入DTW算法、数据分段检测机制、MFCC特征值、LPCC特征值等，实现杂音类别判断与出现时间点检测。能够实现大批量设备音频测试，替代人工听音，完成设备的老化测试。当杂音出现时长与模版不一致时，仍然能够准确检测出系统杂音的类别与杂音出现时间点。

基于前述的实施例，本申请实施例再提供一种音频检测装置，所述控制装置包括所包括的各模块、以及各模块所包括的各单元，可以通过终端中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CentralProcessing Unit，CPU)、微处理器(Micro Processing Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable GateArray，FPGA)等。

图6为本申请实施例提供的一种音频检测装置的组成结构示意图，如图6所示，所述检测装置600包括获取模块610、分段模块620、匹配模块630和确定模块640，其中：

所述获取模块610，用于获取待检测数据；其中，所述待检测数据为待测终端对原始音频处理后的音频数据；

所述分段模块620，用于对所述待检测数据进行分段，得到N个分段数据；其中，所述N为大于等于2的整数；

所述匹配模块630，用于将每一所述分段数据与包含特定类别数据的音频模板进行匹配，得到匹配结果；其中，所述模板数据为通过特定终端对所述原始音频进行处理后截取的数据段；

所述确定模块640，用于在所述匹配结果表明所述待检测数据中存在目标数据的情况下，确定所述目标数据的参数信息。

在一些可能的实施例中，所述获取模块610包括播放子模块和处理子模块，其中：所述播放子模块，用于在预设环境下通过标准音箱播放所述原始音频；所述处理子模块，用于通过所述待测终端的音频处理通路对所述原始音频进行处理，得到所述待检测数据。

在一些可能的实施例中，所述匹配模块630包括第一确定子模块和第二确定子模块，其中：所述第一确定子模块，用于通过DTW算法确定每一所述分段音频与所述音频模板之间的N个相似度；所述第二确定子模块，用于在所述N个相似度中存在小于或等于预设相似度阈值的情况下，确定所述匹配结果为待检测数据中存在目标数据；或者在所述N个相似度中不存在小于或等于预设相似度阈值的情况下，确定所述匹配结果为匹配失败。

在一些可能的实施例中，所述第一确定子模块包括提取单元、第一确定单元和第二确定单元，其中：所述提取单元，用于分别提取每一所述分段数据的第一特征向量和所述音频模板中特定类别数据的第二特征向量；所述第一确定单元，用于根据所述第一特征向量和所述第二特征向量，确定每一所述分段数据和所述特定类别数据之间的最佳匹配路径；所述第二确定单元，用于根据所述最佳匹配路径，确定每一所述分段数据和所述特定类别数据之间的N个相似度。

在一些可能的实施例中，所述目标数据的参数信息包含所述待检测数据中目标数据出现的位置；所述确定模块640包括第三确定子模块、获取子模块和第四确定子模块，其中：所述第三确定子模块，用于在所述匹配结果表明所述待检测数据存在目标数据的情况下，将与所述特定类别数据之间的相似度小于或等于预设相似度阈值对应的分段数据作为目标数据段；所述获取子模块，用于获取所述待测终端的音频处理通路读取所述原始音频的起始时间；所述第四确定子模块，用于根据所述目标数据段的分段索引和所述起始时间，确定所述目标数据出现的位置。

在一些可能的实施例中，所述目标数据的参数信息包含目标数据的类别；所述确定模块640还用于在所述匹配结果表明所述待检测数据中存在目标数据的情况下，根据所述音频模板中特定数据的类别，确定所述目标数据的类别。

在一些可能的实施例中，所述检测装置600还包括截取模块、标记模块和更新模块，其中：所述截取模块，用于按照特定的数据长度，截取所述待检测数据中包含目标数据的音频段；所述标记模块，用于为所述音频段标记所述目标数据的类别；所述更新模块，用于将标记好的音频段更新到所述音频模板中。

在一些可能的实施例中，所述检测装置600还包括分析模块，用于根据所述目标数据出现的位置和所述目标数据的类别，分析所述待测终端的音频处理通路的质量。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述音频检测方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得终端(可以是具有摄像头的智能手机、平板电脑等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中任一所述音频检测方法中的步骤。

对应地，本申请实施例中，还提供了一种芯片，所述芯片包括可编程逻辑电路和/或程序指令，当所述芯片运行时，用于实现上述实施例中任一所述音频检测方法中的步骤。

对应地，本申请实施例中，还提供了一种计算机程序产品，当该计算机程序产品被终端的处理器执行时，其用于实现上述实施例中任一所述音频检测方法中的步骤。

基于同一技术构思，本申请实施例提供一种终端，用于实施上述方法实施例记载的音频检测方法。图7为本申请实施例提供的一种终端的硬件实体示意图，如图7所示，所述终端700包括存储器710和处理器720，所述存储器710存储有可在处理器720上运行的计算机程序，所述处理器720执行所述程序时实现本申请实施例任一所述音频检测方法中的步骤。

存储器710配置为存储由处理器720可执行的指令和应用，还可以缓存待处理器720以及终端中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random Access Memory，RAM)实现。

处理器720执行程序时实现上述任一项的会话检测方法的步骤。处理器720通常控制终端700的总体操作。

上述处理器可以为特定用途集成电路(Application Specific IntegratedCircuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(Programmable LogicDevice，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述计算机存储介质/存储器可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本申请实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得设备自动测试线执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频检测方法，其特征在于，所述方法包括：

将每一所述分段数据与包含特定类别数据的音频模板进行匹配，得到匹配结果；其中，所述音频模板为通过特定终端对所述原始音频进行处理后截取的数据段；

在所述匹配结果表明所述待检测数据中存在目标数据的情况下，确定所述目标数据的参数信息；所述参数信息包括：所述目标数据在所述待检测数据中出现的位置、目标数据的类别；

根据所述目标数据出现的位置和所述目标数据的类别，分析所述待测终端的音频处理通路的质量。

2.如权利要求1所述的方法，其特征在于，所述获取待检测数据，包括：

在预设环境下通过标准音箱播放所述原始音频；

通过所述待测终端的音频处理通路对所述原始音频进行处理，得到所述待检测数据。

3.如权利要求1所述的方法，其特征在于，所述获取待检测数据，包括：

用标准麦克风对通过所述待测终端的音频处理通路处理后的原始音频进行录音，得到待检测数据。

4.如权利要求1所述的方法，其特征在于，所述将每一所述分段数据与包含特定类别数据的音频模板进行匹配，得到匹配结果，包括：

通过动态时间规整DTW算法确定每一所述分段数据与所述音频模板之间的N个相似度；

在所述N个相似度中存在小于或等于预设相似度阈值的情况下，确定所述匹配结果为待检测数据中存在目标数据；或者

在所述N个相似度中不存在小于或等于预设相似度阈值的情况下，确定所述匹配结果为匹配失败。

5.如权利要求4所述的方法，其特征在于，所述通过动态时间规整DTW算法确定每一所述分段数据与所述音频模板之间的N个相似度，包括：

分别提取每一所述分段数据的第一特征向量和所述音频模板中特定类别数据的第二特征向量；

根据所述第一特征向量和所述第二特征向量，确定每一所述分段数据和所述特定类别数据之间的最佳匹配路径；

根据所述最佳匹配路径，确定每一所述分段数据和所述特定类别数据之间的N个相似度。

6.如权利要求4或5所述的方法，其特征在于，所述目标数据的参数信息包含所述待检测数据中目标数据出现的位置；

所述在所述匹配结果表明所述待检测数据中存在目标数据的情况下，确定所述目标数据的参数信息，包括：

在所述匹配结果表明所述待检测数据存在目标数据的情况下，将与所述特定类别数据之间的相似度小于或等于预设相似度阈值对应的分段数据作为目标数据段；

获取所述待测终端的音频处理通路读取所述原始音频的起始时间；

根据所述目标数据段的分段索引和所述起始时间，确定所述目标数据出现的位置。

7.如权利要求6所述的方法，其特征在于，所述目标数据的参数信息包含目标数据的类别；

在所述匹配结果表明所述待检测数据中存在目标数据的情况下，根据所述音频模板中特定数据的类别，确定所述目标数据的类别。

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

按照特定的数据长度，截取所述待检测数据中包含目标数据的音频段；

为所述音频段标记所述目标数据的类别；

将标记好的音频段更新到所述音频模板中。

9.一种音频检测装置，其特征在于，所述检测装置包括获取模块、分段模块、匹配模块和确定模块，其中：

所述匹配模块，用于将每一所述分段数据与包含特定类别数据的音频模板进行匹配，得到匹配结果；其中，所述音频模板为通过特定终端对所述原始音频进行处理后截取的数据段；

所述确定模块，用于在所述匹配结果表明所述待检测数据中存在目标数据的情况下，确定所述目标数据的参数信息；所述参数信息包括：所述目标数据在所述待检测数据中出现的位置、目标数据的类别；

所述检测装置还包括分析模块，所述分析模块，用于根据所述目标数据出现的位置和所述目标数据的类别，分析所述待测终端的音频处理通路的质量。

10.一种终端，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8任一项所述方法中的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述方法中的步骤。