CN117789764A

CN117789764A - 车机输出音频检测方法、系统、控制装置及存储介质

Info

Publication number: CN117789764A
Application number: CN202311793418.8A
Authority: CN
Inventors: 吴胜兵
Original assignee: Weilai Automobile Technology Anhui Co Ltd
Current assignee: Weilai Automobile Technology Anhui Co Ltd
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-03-29

Abstract

本申请涉及语音处理技术领域，具体提供一种车机输出音频检测方法，旨在解决现有技术中对语音进行检测时效率低的技术问题。为此目的，本申请的车机输出音频检测方法包括：采集车机输出的第一音频；基于预设的第二音频，在第一音频中确定出与第二音频相对应的目标音频；获取目标音频和第二音频的音频特征；基于目标音频特征和第二音频特征，确定第一音频与第二音频的匹配度。通过本申请，可以在采集的第一音频中快速地筛选出无关的音频片段和最有参考价值的音频片段即目标音频，从而提高了音频检测的效率，通过计算目标音频与预设的第二音频的匹配度，能够为分析车机输出音频的准确度提供参考依据。

Description

车机输出音频检测方法、系统、控制装置及存储介质

技术领域

本申请涉及语音处理技术领域，具体提供一种车机输出音频检测方法、系统、控制装置及存储介质。

背景技术

近年来，汽车行业发展迅猛，汽车座舱系统越来越智能，汽车的智能座舱一般都有智能语音对话系统。

针对座舱语音对话系统的测试，传统的手动测试方法需要依靠测试人员人耳来听车机系统的发声，从而判断发声是否正确。这种依靠人耳的测试方法，不仅需要测试人员全程集中精力来捕获车机系统发声中的有效关键词，而且费时费力，最终导致人力成本极高且测试效率低下。

相应地，本领域需要一种新的车机输出音频测试方法、系统、控制装置及存储介质方案来解决上述问题。

发明内容

为了克服上述缺陷，提出了本申请，以提供解决或至少部分地解决现有技术中对语音进行检测时效率低的技术问题的车机输出音频检测方法、系统、控制装置及存储介质。

在第一方面，本申请提供一种车机输出音频检测方法，所述方法包括：

采集车机输出的第一音频；

基于预设的第二音频，在所述第一音频中确定出与所述第二音频相对应的目标音频；

获取所述目标音频和所述第二音频的音频特征，其中，所述目标音频的音频特征记为目标音频特征，所述第二音频的音频特征记为第二音频特征；

基于所述目标音频特征和所述第二音频特征，确定所述第一音频与所述第二音频的匹配度。

上述技术方案可以在采集的第一音频中快速地筛选出无关的音频片段和最有参考价值的音频片段即目标音频，从而提高了音频检测的效率，通过计算目标音频与预设的第二音频的匹配度，能够为分析车机输出音频的准确度提供参考依据。

在上述车机输出音频检测方法的一个技术方案中，所述基于预设的第二音频，在所述第一音频中确定出与所述第二音频相对应的目标音频包括：

对所述第一音频的每个采样点的采样值取绝对值，得到长度为m的第三音频；

对所述第二音频的每个采样点的采样值取绝对值，得到长度为n的第四音频；

基于第一预设规则，在所述第三音频中截取至少一个长度为n的待测音频；

在所述所有待测音频中，确定出与所述第四音频相对应的待测音频，记为所述目标音频。

上述技术方案对第一音频和第二音频的每个采样点取绝对值，能够简化信号处理过程并降低计算复杂性，从而进一步提高语音检测的效率。

在上述车机输出音频检测方法的一个技术方案中，所述基于第一预设规则，在所述第三音频中截取至少一个长度为n的待测音频包括：

在所述第三音频的采样点序列中，按照先后顺序依次选取一个采样点，直到第m-n个采样点为止；

针对所述每一个被选取的采样点，以该采样点为第一个采样点，向后截取n-1个采样点以得到所述长度为n的待测音频；

遍历所述所有被选取的采样点，得到所述至少一个长度为n的待测音频。

上述技术方案从采样序列的第一个采样点开始，从头至尾每次向前移动一个采样点，依次截取以得到待测音频。依次序遍历采样点，在规则清晰且算法简洁的前提下，能够不遗漏采样点，即提高了语音检测的效率，又间接保证了最终结果的准确性。

在上述车机输出音频检测方法的一个技术方案中，所述在所述所有待测音频中，确定出与所述第四音频相对应的待测音频，记为所述目标音频包括：

针对所述每一个待测音频，计算该待测音频与所述第四音频的归一化相关系数；

遍历所述所有待测音频，得到所有归一化相关系数；

基于第二预设规则和所述所有归一化相关系数，在所述所有待测音频中，确定出所述目标音频。

上述技术方案利用归一化相关系数，能够保证在对音频信号的处理过程中不受振幅变化影响，而且算法简洁从而能够提高语音检测的效率。

在上述车机输出音频检测方法的一个技术方案中，所述基于第二预设规则和所述所有归一化相关系数，在所述所有待测音频中，确定出所述目标音频包括：

在所述所有归一化相关系数中，选取数值最大的归一化相关系数；

将所述数值最大的归一化相关系数所对应的待测音频，记为所述目标音频。

在上述车机输出音频检测方法的一个技术方案中，所述基于所述目标音频特征和所述第二音频特征，确定所述第一音频与所述第二音频的匹配度包括：

基于动态时间规整，计算所述目标音频特征与所述第二音频特征的最短距离；

基于第三预设规则，确定与所述最短距离相对应的匹配度，记为所述第一音频与所述第二音频的匹配度。

上述技术方案基于动态时间规整来计算目标音频特征与第二音频特征的最短距离，使得对音频信号进行处理的算法具备更强的适应性和鲁棒性。而且，基于预设的规则，将最短距离转换为相应的匹配率，从而为分析车机输出音频的准确度提供参考依据。

在上述车机输出音频检测方法的一个技术方案中，所述获取所述目标音频和所述第二音频的音频特征包括：

对所述目标音频进行降噪处理得到降噪后的目标音频，对所述第二音频进行降噪处理得到降噪后的第二音频；

基于Mel频率倒谱系数，获取所述降噪后的目标音频的目标音频特征，以及，获取所述降噪后的第二音频的第二音频特征。

上述技术方案通过降噪处理，能够消除音频信号中的噪音分量，精简信号数据并提高结果准确度；通过Mel频率倒谱系数，能够突出音频信号中的关键特征且提高了处理过程中对噪声的鲁棒性。

在第二方面，本申请提供一种车机输出音频检测系统，所述系统包括：

采集模块，所述采集模块被配置为采集车机输出的第一音频；

处理模块，所述处理模块被配置为，基于预设的第二音频在所述第一音频中确定出与所述第二音频相对应的目标音频，以及，获取所述目标音频和所述第二音频的音频特征；

分析模块，所述分析模块被配置为基于所述目标音频特征和所述第二音频特征，确定所述第一音频与所述第二音频的匹配度。

在第三方面，提供一种控制装置，该控制装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述车机输出音频检测方法的技术方案中任一项技术方案所述的车机输出音频检测方法。

在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述车机输出音频检测方法的技术方案中任一项技术方案所述的车机输出音频检测方法。

附图说明

参照附图，本申请的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本申请的保护范围组成限制。此外，图中类似的数字用以表示类似的部件，其中：

图1是根据本申请的一个实施例的车机输出音频检测方法的主要步骤流程示意图；

图2是根据本申请的一个实施例的音频匹配步骤示意图；

图3是根据本申请的一个实施例的音频匹配效果示意图；

图4是根据本申请的一个实施例的车机输出音频检测方法的程序流程示意图；

图5是根据本申请的一个实施例的车机输出音频检测系统的主要结构框图示意图。

附图标记列表：

11：采集模块；12：处理模块；13：分析模块。

具体实施方式

下面参照附图来描述本申请的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本申请的技术原理，并非旨在限制本申请的保护范围。

在本申请的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

请参阅附图1至附图4，如图1所示，本申请的车机输出音频检测方法的主要步骤步骤S1-步骤S4：

步骤S1、采集车机输出的第一音频。在本实施例中，可以将USB声卡连接到被测设备的Speaker线束，从而采集被测设备输出的声音，这种方式可以排除环境噪音的干扰；也可以通过仿真耳采集的方式，不需要与车机进行硬线连接，直接将仿真耳放到车机的扬声器旁边即可；还可以通过麦克风阵列采集，这种方式可以进行噪声抑制、回声抑制，从而能最大限度将环境背景声音消除掉，以提高音声采集的质量。其具体的采集方式，在此不做限定。

步骤S2、基于预设的第二音频，在第一音频中确定出与第二音频相对应的目标音频。

在本实施例中，预设的第二音频是预先录制好的标准音频，其能够代表正确的输出结果。实际测试中，车机输出的音频中通常会包含除极具代表性的关键词之外的其它信息(如图3中所示的线框之外的音频信息)，如果不对这些信息加以筛除，则无论是人工检测还是自动化检测，都会严重降低检测的效率。所以在本实施例中，需要先在车机输出的第一音频中截取出最有代表性、或者说与第二音频最相似的目标音频。这一过程中，可以利用音频的幅值或相位等相关参数来寻找目标音频，也可以利用音频处理中的相关算法如归一化相关系数匹配法来寻找目标音频。

在一个实施例中，步骤S2还可以包括步骤S21-步骤S24：

步骤S21、对第一音频的每个采样点的采样值取绝对值，得到长度为m的第三音频；

步骤S22、对第二音频的每个采样点的采样值取绝对值，得到长度为n的第四音频；

步骤S23、基于第一预设规则，在第三音频中截取至少一个长度为n的待测音频；

在一个实施例中，步骤S23可以采用随机取样的方式，在第三音频中随机截取长度为n的待测音频，或者，采用平均分割的方式，将第三音频的数据序列均分为若干个长度为n的待测音频。

在另一个实施例中，步骤S23还可以包括步骤S231-步骤S233：

步骤S231、在第三音频的采样点序列中，按照先后顺序依次选取一个采样点，直到第m-n个采样点为止；

步骤S232、针对每一个被选取的采样点，以该采样点为第一个采样点，向后截取n-1个采样点以得到长度为n的待测音频；

步骤S233、遍历所有被选取的采样点，得到至少一个长度为n的待测音频。

在一个实施方式中，步骤S21-步骤S23可以描述为：

对音频T₁和音频R₁的每个采样值取绝对值，得到处理后的T₁ ^’和R₁ ^’；音频T的长度记为n，音频R的长度记为m。在音频R₁ ^’的数据序列上，从头到尾，每次向前移动一个采样点，以此截取长度为n的序列R_i，i∈(0，m-n)；其中，音频T是待匹配的音频(预设的标准音频)，音频R是录制音频(采集的车机输出音频)，音频T₁是音频T做预处理得到的，音频R₁是音频R做预处理得到的，预处理过程可以包括但不限于多声道转单声道、音量放大、首尾静音切除、以同样的采样频率进行重采样等。

步骤S24、在所有待测音频中，确定出与第四音频相对应的待测音频，记为目标音频。

在一个实施例中，步骤S24可以采用音频频谱图像匹配的方式，选取频谱曲线与第四音频最匹配的待测音频作为目标音频，或者，通过匹配幅值的方式，选取多个幅值出现的位置与第四音频最匹配的待测音频作为目标音频。

在另一个实施例中，步骤S24还可以包括步骤S241-步骤S243：

步骤S241、针对每一个待测音频，计算该待测音频与第四音频的归一化相关系数；步骤S242、遍历所有待测音频，得到所有归一化相关系数；步骤S243、基于第二预设规则和所有归一化相关系数，在所有待测音频中，确定出目标音频。

在上述实施方式的基础上，步骤S241-步骤S243可以描述为：

分别计算T₁ ^’与R_i的归一化相关系数Cov_i，具体的计算公式如下所示：

其中，i∈(0，m-n)。在该实施方式中，可以通过设置阈值的方式，选取大于该阈值的R_i输入至训练好的模型中，在缩减模型计算量的前提下获得精准的判断结果，或者，沿用上述实施方式中，对选取的大于该阈值的R_i作频谱曲线图像匹配处理或幅值匹配处理，最终确定出R₂。

在一个实施例中，步骤S243还可以包括步骤S2431-步骤S2432：

步骤S2431、在所有归一化相关系数中，选取数值最大的归一化相关系数；步骤S2432、将数值最大的归一化相关系数所对应的待测音频，记为目标音频。在上述实施方式的基础上，步骤S2431-步骤S2432可以描述为：直接选取最大的归一化相关系数Cov_max＝max(Cov₀,Cov₁,…,Cov_m-n)所对应的R_i记为R₂。

步骤S3、获取目标音频和所述第二音频的音频特征，其中，目标音频的音频特征记为目标音频特征，第二音频的音频特征记为第二音频特征；

在本实施例中，目标音频和第二音频的音频特征可以为波形图、频谱图、声谱包络、Mel频率倒谱系数等。需找二者的音频特征是为了能够分析二者的相似度，其具体的形式在此不做限定。

在一个实施例中，步骤S3还可以包括：步骤S31-步骤S32：

步骤S31、对目标音频进行降噪处理得到降噪后的目标音频，对第二音频进行降噪处理得到降噪后的第二音频；步骤S32、基于Mel频率倒谱系数，获取降噪后的目标音频的目标音频特征，以及，获取降噪后的第二音频的第二音频特征。

在上述实施方式的基础上，步骤S31-步骤S32可以描述为：

以Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)作为音频的特征参数，分别提取音频T₂和音频R₃的音频特征MFCC₁和MFCC₂，其中，音频T₂是对音频T₁进行降噪处理后得到的，音频R₃是对音频R₂进行降噪处理后得到的。

步骤S4、基于目标音频特征和第二音频特征，确定第一音频与第二音频的匹配度。

在本实施例中，音频特征可以为波形图、频谱图、声谱包络、Mel频率倒谱系数等，对应的，可以通过计算均方根误差来计算两个音频对应波形图的差异，较小的均方根误差则表示相似度较高；或者可以使用频谱的相关性或余弦相似度来比较两个频谱图，相关性较高的频谱表示相似的音频信号；又或者可以使用梅尔频率倒谱系数进行比较，具体可以使用余弦相似度或其它相似度量。其具体的形式，在此不做限定。

在一个实施例中，步骤S4还可以包括步骤S41-步骤S42：

步骤S41、基于动态时间规整，计算目标音频特征与第二音频特征的最短距离；步骤S42、基于第三预设规则，确定与最短距离相对应的匹配度，记为第一音频与所述第二音频的匹配度。

在上述实施方式的基础上，步骤S41-步骤S42可以描述为：

利用动态时间规整(Dynamic Time Warping，DTW)算法，计算MFCC₁和MFCC₂的最短距离D；将计算的距离D转换为匹配率Confidence，其具体的转换规则可以如下公式所示：

基于上述步骤S1-步骤S4可知，本申请首先在采集到的车机输出的第一音频中，确定出与标准的预设第二音频相对应的目标音频，然后获取目标音频与第二音频各自对应的音频特征，最后基于目标音频特征和第二音频特征确定第一音频与第二音频的匹配度。通过本申请，可以在采集的第一音频中快速地筛选出无关的音频片段和最有参考价值的音频片段即目标音频，从而提高了音频检测的效率，通过计算目标音频与预设的第二音频的匹配度，能够为分析车机输出音频的准确度提供参考依据。

至此，本申请的车机输出语音检测方法已描述完毕。需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本申请的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本申请的保护范围之内。

进一步，本申请还提供了一种车机输出音频检测系统。

参阅附图5，图5是根据本申请的一个实施例的车机输出音频检测系统的主要结构框图。如图5所示，本申请实施例中的车机输出音频检测系统主要包括采集模块11、处理模块12和分析模块13。在一些实施例中，采集模块11、处理模块12和分析模块13中的一个或多个可以合并在一起成为一个模块。在一些实施例中采集模块11可以被配置成采集车机输出的第一音频。处理模块12可以被配置成，基于预设的第二音频在所述第一音频中确定出与所述第二音频相对应的目标音频，以及，获取所述目标音频和所述第二音频的音频特征。分析模块13可以被配置成基于所述目标音频特征和所述第二音频特征，确定所述第一音频与所述第二音频的匹配度。

上述车机输出音频检测系统以用于执行图1至图4所示的车机输出音频检测方法实施例，两者的技术原理、所解决的技术问题及产生的技术效果相似，本技术领域技术人员可以清楚地了解到，为了描述的方便和简洁，车机输出音频检测系统的具体工作过程及有关说明，可以参考车机输出音频检测方法的实施例所描述的内容，此处不再赘述。

本领域技术人员能够理解的是，本申请实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本申请还提供了一种控制装置。在根据本申请的一个控制装置实施例中，控制装置包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的车机输出音频检测方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的车机输出音频检测方法的程序。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。

进一步，本申请还提供了一种计算机可读存储介质。在根据本申请的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的车机输出音频检测方法的程序，该程序可以由处理器加载并运行以实现上述车机输出音频检测方法。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本申请实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本申请的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本申请的原理，因此，拆分或合并之后的技术方案都将落入本申请的保护范围内。

至此，已经结合附图所示的优选实施方式描述了本申请的技术方案，但是，本领域技术人员容易理解的是，本申请的保护范围显然不局限于这些具体实施方式。在不偏离本申请的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本申请的保护范围之内。

Claims

1.一种车机输出音频检测方法，其特征在于，所述方法包括：

采集车机输出的第一音频；

2.根据权利要求1所述的车机输出音频检测方法，其特征在于，所述基于预设的第二音频，在所述第一音频中确定出与所述第二音频相对应的目标音频包括：

3.根据权利要求2所述的车机输出音频检测方法，其特征在于，所述基于第一预设规则，在所述第三音频中截取至少一个长度为n的待测音频包括：

4.根据权利要求2所述的车机输出音频检测方法，其特征在于，所述在所述所有待测音频中，确定出与所述第四音频相对应的待测音频，记为所述目标音频包括：

遍历所述所有待测音频，得到所有归一化相关系数；

5.根据权利要求4所述的车机输出音频检测方法，其特征在于，所述基于第二预设规则和所述所有归一化相关系数，在所述所有待测音频中，确定出所述目标音频包括：

6.根据权利要求1所述的车机输出音频检测方法，其特征在于，所述基于所述目标音频特征和所述第二音频特征，确定所述第一音频与所述第二音频的匹配度包括：

7.根据权利要求1所述的车机输出音频检测方法，其特征在于，所述获取所述目标音频和所述第二音频的音频特征包括：

8.一种车机输出音频检测系统，其特征在于，所述系统包括：

9.一种控制装置，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至7中任一项所述的车机输出音频检测方法。

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的车机输出音频检测方法。