CN117789767A

CN117789767A - 一种音频采集设备的测试方法、装置及相关设备

Info

Publication number: CN117789767A
Application number: CN202311837542.XA
Authority: CN
Inventors: 袁超
Original assignee: Icarvisions Shenzhen Technology Co ltd
Current assignee: Icarvisions Shenzhen Technology Co ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-03-29

Abstract

本申请涉及车载配件测试技术领域，尤其涉及一种音频采集设备的测试方法、装置及相关设备。方法包括：获取由音频采集设备对预置语音进行采集后得到的采集语音；针对所述采集语音进行语音识别，得到识别语句；确定所述识别语句与对应的预置语句之间的语句长度差值以及差异文字数量；所述预置语句为所述预置语音对应的文本内容；根据所述语句长度差值、所述差异文字数量以及预设标准，确定所述音频采集设备是否通过测试。本申请能够解决现有的MDVR音频采集设备的测试由于依赖人工测听，导致测试结果误差大以及无法反映音频采集设备的采集性能的技术问题。

Description

一种音频采集设备的测试方法、装置及相关设备

技术领域

本申请涉及车载配件测试技术领域，尤其涉及一种音频采集设备的测试方法、装置及相关设备。

背景技术

现有的MDVR(Mobile Digital Video Recorders，车载硬盘录像机)在出厂时、在被用户使用过较长时间后或者语音识别出现误差较大时，都会产生对MDVR中的音频采集设备的测试需求，用于确定音频采集设备是否需要进行相应的调整。

在现有技术中，基本都是通过人工的方式对音频采集设备进行测试，过程主要为通过音频采集设备采集到测试音频，然后通过音频采集设备采集到测试音频进行人工测听，用于判断是否需要进行相应的调整。

但是根据实际经验可知，人工测听的方式由于依赖测听工作者的主观经验和主观判断，此外还会受个人状态等因素的影响，导致测试结果误差大，无法反映音频采集设备的采集性能。

发明内容

有鉴于此，本申请的目的在于提供一种音频采集设备的测试方法、装置及相关设备，用于解决现有的MDVR音频采集设备的测试由于依赖人工测听，导致测试结果误差大以及无法反映音频采集设备的采集性能的技术问题。

第一方面，本申请提供了一种音频采集设备的测试方法，包括：

获取音频采集设备对预置语音进行采集后得到的采集语音；

针对所述采集语音进行语音识别，得到识别语句；

确定所述识别语句与对应的预置语句之间的语句长度差值以及差异文字数量；所述预置语句为所述预置语音对应的文本内容；

根据所述语句长度差值、所述差异文字数量以及预设标准，得到所述音频采集设备是否通过测试。

优选地，所述针对所述采集语音进行语音识别，得到识别语句，包括：

对所述采集语音进行特征提取，得到梅尔频谱倒谱系数；

通过声学模型对所述梅尔频谱倒谱系数进行处理，得到多个识别文字；

将多个所述识别文字进行拼接，得到所述识别语句。

优选地，所述确定所述音频采集设备是否通过测试，包括：

若所述语句长度差值比大于等于第一阈值，确定所述音频采集设备不通过测试；

所述语句长度差值比为所述识别语句与所述预置语句的语句长度差值的绝对值与所述预置语句的语句长度之间的比值。

优选地，所述确定所述音频采集设备是否通过测试，包括：

若所述差异文字数量大于等于第二阈值，确定所述音频采集设备不通过测试。

优选地，所述确定所述音频采集设备是否通过测试，包括：

若差异文字占比大于等于第三阈值，确定所述音频采集设备不通过测试；所述差异文字占比为所述差异文字数量与所述预置语句的语句长度之间的比值。

优选地，所述方法还包括：重复获取音频采集设备对预置语音进行采集后得到的采集语音的步骤，确定所述音频采集设备的多个所述语句长度差值比、多个所述差异文字数量或者多个所述差异文字占比；

确定多个所述语句长度差值比、多个所述差异文字数量或者多个所述差异文字占比的平均值；

根据所述平均值以及预设标准，确定所述音频采集设备是否通过测试。

第二方面，本申请提供了一种音频采集设备的测试装置，所述装置包括：获取模块、识别模块和判断模块；

所述获取模块，用于获取音频采集设备对预置语音进行采集后得到的采集语音；还用于针对所述采集语音进行语音识别，得到识别语句；

所述识别模块，用于确定识别语句与对应的预置语句之间的语句长度差值以及差异文字数量；所述预置语句为所述预置语音对应的文本内容；

所述判断模块，用于根据所述语句长度差值、所述差异文字数量以及预设标准，得到所述音频采集设备是否通过测试。

优选地，所述获取模块包括：提取单元；所述提取单元，用于对所述采集语音进行特征提取，得到梅尔频谱倒谱系数；还用于通过声学模型对所述梅尔频谱倒谱系数进行处理，得到多个识别文字；还用于将多个所述识别文字进行拼接，得到所述识别语句。

第三方面，本申请提供了一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现上述的音频采集设备的测试方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述的音频采集设备的测试方法。

有益效果：

本申请提供了一种音频采集设备的测试方法、装置及相关设备，首先获取由音频采集设备对预置语音进行采集后得到的采集语音；针对采集语音进行语音识别，得到识别语句；确定识别语句与对应的预置语句之间的语句长度差值以及差异文字数量；预置语句为预置语音对应的文本内容；根据语句长度差值、差异文字数量以及预设标准，确定音频采集设备是否通过测试。综上可知，本申请通过对采集语音进行语音识别，然后对识别得到的识别语句进行量化的统计，然后再根据语句长度差值、差异文字数量以及预设标准，用于量化地去对MDVR音频采集设备是否不通过测试做出判断，避免了人工测听可能带来的误差，此外测试结果还具有易于统计和易于存储的优点，因此本申请的技术方案能够显著提高测试结果的准确率并且使测试结果真实准确地反应音频采集设备的采集性能。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请中音频采集设备的测试方法的流程示意图；

图2为本申请中音频采集设备的测试装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在实施测试前，需要对相关设备进行组装，包括：MDVR、测试工装和安装在客户端的测试软件。

MDVR连接测试工装，测试工装的网口通过连接路由器接入局域网，客户端也通过连接路由器接入局域网。在测试过程中，客户端监听MDVR的连接和断开，连接情况可在可视化区域中的固定区域进行显示。

设备连接后，客户端中的测试软件自动顺序发送多个测试项命令到MDVR，MDVR收到测试项命令回复结果，比如测试IO1到IO8是否正常，直接返回各个IO状态值到客户端，比如测试GPS，直接把GPS源数据发到客户端，客户端解析数据值判断GPS模块是否有信号以及强弱。

测试完成后，客户端会记录每个测试项反馈的结果并且显示是否通过，然后自动断开与MDVR之间连接，同时测试结果存档。

在本申请实施例中，测试项为MDVR音频采集设备，为便于对本实施例进行理解，下面对本申请实施例进行详细介绍。

第一，本申请提供了音频采集设备的测试方法的实施例，如图1所示，图1为本申请中音频采集设备的测试方法的流程示意图，方法包括：

S110：获取音频采集设备对预置语音进行采集后得到的采集语音；针对采集语音进行语音识别，得到识别语句。

具体地，在本申请实施例中，对MDVR的音频采集设备测试时，是以采集语音作为测试对象，间接测试MDVR的音频采集设备是否不通过测试。

在本申请实施例中，MDVR的音频采集设备为MDVR的麦。预置语音的内容和时长均可根据需求确定。

其中，当对MDVR的音频采集设备的进行多次测试时，应当保证MDVR的音频采集设备与播放预置语音的设备之间的距离相同，尽量使MDVR的音频采集设备采集预置语音时处于相同的设置情况。

MDVR的音频采集设备在采集预置语音时使用PCM编码并且以8000Hz的采样率进行采集。在采集到预置语音的音频信号后，将音频的音频信号转换为数字信号，再将数字信号传送至客户端的测试软件上。

在一些实施例中，针对采集语音进行语音识别，包括：

(1)对采集语音进行特征提取，得到梅尔频谱倒谱系数。

具体地，客户端的测试软件收到数字信号后，将数字信号解码为音频信号并且按照预设时间长度进行缓存；缓存后进行下述操作：

1)对音频信号进行分帧处理，具体的过程使用移动窗口函数实现。在本申请实施例中，相邻的两帧之间是有交叠区间的。每帧长25毫秒，相邻的两帧之间有15毫秒的交叠区间；

2)对分帧后的音频信号进行转换处理。在本申请实施例中，转换后可得到线性预测倒谱系数和/或梅尔频率倒谱系数MFCC；

现以得到MFCC的过程为例，进行举例说明：

①预处理：对分帧后的音频信号进行预处理，包括去除直流分量、去除噪声、分帧等操作；

②转换到梅尔频率域：将预处理后的音频信号转换到梅尔频率域，梅尔频率是通过对音频信号的短时傅里叶变换STFT进行谱分析和滤波确定；

③计算倒谱系数：将转换至梅尔频率域的信号进行倒谱分析，得到倒谱系数。通常需要进行对数运算和离散余弦变换DCT。

④提取MFCC特征：将倒谱分析得到的倒谱系数作为MFCC特征。

⑤提取音频特征：MFCC特征能够有效地捕捉到人类语音信号中的重要特征，包括音调、音色、共振峰等。

音频特征为一个12行(当假设声学特征为12维时)、N列的一个音频矩阵，N表示音频信号的总帧数。

(2)通过声学模型对所述梅尔频谱倒谱系数进行处理，得到多个识别文字，将多个所述识别文字进行拼接，得到所述识别语句。

具体地，可通过声学模型，比如隐马尔可夫模型对音频矩阵进行划分和识别，然后再把识别的文字进行组合，得到识别语句。

S120：确定识别语句与对应的预置语句之间的语句长度差值以及差异文字数量；预置语句为预置语音对应的文本内容。

具体地，识别语句与对应的预置语句之间的语句长度差值以及差异文字数量能够作为MDVR的音频采集设备是否不通过测试的直接判断对象。

S130：根据语句长度差值、差异文字数量以及预设标准，确定音频采集设备是否通过测试。

具体地，当语句长度差值较大时，认为MDVR的音频采集设备不通过测试，此外当差异文字数量较多时，也认为MDVR的音频采集设备不通过测试。

在一些实施例中，预设标准包括：第一阈值、第二阈值和第三阈值。确定音频采集设备是否通过测试，包括：

(1)若语句长度差值比大于等于第一阈值，确定音频采集设备不通过测试。其中，语句长度差值比为识别语句与预置语句的语句长度差值的绝对值与预置语句的语句长度之间的比值。

具体地，第一阈值可取值5％，即当语句长度差值比大于等于5％，即认为MDVR的音频采集设备不通过测试。

(2)若差异文字数量大于等于第二阈值，确定音频采集设备不通过测试。

具体地，第二阈值可取值10个，即差异文字数量大于等于10时，即认为MDVR的音频采集设备不通过测试。

(3)若差异文字占比大于等于第三阈值，确定MDVR的音频采集设备不通过测试。其中，差异文字占比为差异文字数量与预置语句的语句长度之间的比值。

具体地，第三阈值可取值10％，即差异文字占比大于等于10％时，即认为MDVR的音频采集设备不通过测试。

在一些实施例中，音频采集设备的数量为多个；方法还包括：

(1)重复上述S110～S120，确定音频采集设备的多个语句长度差值比、多个差异文字数量或者多个差异文字占比。

具体地，通过对MDVR的音频采集设备进行多次测试，可以降低偶然性因素导致的测试误差。

(2)确定多个语句长度差值比、多个差异文字数量或者多个差异文字占比的平均值。

具体地，除了计算平均值，还可进行其他统计项的计算，用于更全面地掌握多个语句长度差值比、多个差异文字数量或者多个差异文字占比的分布特征。

(3)根据平均值以及预设标准，确定音频采集设备是否通过测试。

综上可知，本申请通过对采集语音进行语音识别，然后对识别得到的识别语句进行量化的统计，然后再根据语句长度差值、差异文字数量以及预设标准，用于量化地去对MDVR音频采集设备是否不通过测试做出判断，避免了人工测听具有的误差，因此能够显著提高测试结果的准确率并且使测试结果真实准确反应音频采集设备的采集性能。

第二，本申请提供了音频采集设备的测试装置的实施例，如图2所示，图2为本申请中音频采集设备的测试装置的结构示意图，装置包括：获取模块210、识别模块220和判断模块230。

获取模块210，用于获取音频采集设备对预置语音进行采集后得到的采集语音；还用于针对所述采集语音进行语音识别，得到识别语句。

识别模块220，用于对所述采集语音进行特征提取，得到梅尔频谱倒谱系数；还用于通过声学模型对所述梅尔频谱倒谱系数进行处理，得到多个识别文字；还用于将多个所述识别文字进行拼接，得到所述识别语句。

判断模块230，用于根据语句长度差值、差异文字数量以及预设标准，确定音频采集设备是否通过测试。

在一些实施例中，识别模块220包括：提取单元；提取单元，用于对采集语音进行特征提取，得到梅尔频谱倒谱系数；还用于通过声学模型对梅尔频谱倒谱系数进行处理。

在一些实施例中，预设标准包括：第一阈值；

判断模块230，还用于若语句长度差值比大于等于第一阈值，确定音频采集设备不通过测试；语句长度差值比为识别语句与预置语句的语句长度差值的绝对值与预置语句的语句长度之间的比值。

在一些实施例中，预设标准包括：第二阈值；

判断模块230，还用于若差异文字数量大于等于第二阈值，确定音频采集设备不通过测试。

在一些实施例中，预设标准包括：第三阈值；

判断模块230，还用于若差异文字占比大于等于第三阈值，确定音频采集设备不通过测试；差异文字占比为差异文字数量与预置语句的语句长度之间的比值。

在一些实施例中，取模块210和识别模块220，还用于重复多次确定音频采集设备的多个语句长度差值比、多个差异文字数量或者多个差异文字占比的过程；

判断模块230，还用于确定多个语句长度差值比、多个差异文字数量或者多个差异文字占比的平均值；还用于根据平均值以及预设标准，确定音频采集设备是否通过测试。

第三，本申请还提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述S110～S130的音频采集设备的测试方法。

第四，本申请还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述S110～S130的音频采集设备的测试方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本申请实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

所述功能若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频采集设备的测试方法，其特征在于，包括：

获取音频采集设备对预置语音进行采集后得到的采集语音；

针对所述采集语音进行语音识别，得到识别语句；

2.根据权利要求1所述的方法，其特征在于，所述针对所述采集语音进行语音识别，得到识别语句，包括：

对所述采集语音进行特征提取，得到梅尔频谱倒谱系数；

将多个所述识别文字进行拼接，得到所述识别语句。

3.根据权利要求1所述的方法，其特征在于，所述确定所述音频采集设备是否通过测试，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述音频采集设备是否通过测试，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定所述音频采集设备是否通过测试，包括：

6.根据权利要求3～5任一项所述的方法，其特征在于，所述方法还包括：重复获取音频采集设备对预置语音进行采集后得到的采集语音的步骤，确定所述音频采集设备的多个所述语句长度差值比、多个所述差异文字数量或者多个所述差异文字占比；

7.一种音频采集设备的测试装置，其特征在于，所述装置包括：获取模块、识别模块和判断模块；

8.根据权利7所述的装置，其特征在于，所述获取模块包括：提取单元；所述提取单元，用于对所述采集语音进行特征提取，得到梅尔频谱倒谱系数；还用于通过声学模型对所述梅尔频谱倒谱系数进行处理，得到多个识别文字；还用于将多个所述识别文字进行拼接，得到所述识别语句。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现上述权利要求1～5任一项所述的音频采集设备的测试方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1～5任一项所述的音频采集设备的测试方法。