CN117579982A

CN117579982A - 基于机器视觉的音响检测方法、装置、设备及介质

Info

Publication number: CN117579982A
Application number: CN202311524341.4A
Authority: CN
Inventors: 刘吉悦
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-02-20

Abstract

本申请公开了一种基于机器视觉的音响检测方法、装置、设备及介质，属于声学检测的技术领域。在本申请中，通过机器视觉的自动化检测技术对量产阶段的智能音响的声学质量进行检测，以此保证产品质量。首先，将待测音响在播放预设测试音频时录制的录音音频转换为时域图像和频域图像；然后，根据该时域图像对录音音频进行异常音频检测，根据该频域图像对录音音频进行频谱检测；如果该异常音频检测和该频谱检测均合格，则确定待测音响合格。

Description

基于机器视觉的音响检测方法、装置、设备及介质

技术领域

本申请涉及声学检测的技术领域，尤其涉及一种基于机器视觉的音响检测方法、基于机器视觉的音响检测装置、基于机器视觉的音响检测设备及计算机可读存储介质。

背景技术

智能音响在传统音响的基础上结合了语音识别和自然语言处理等新兴技术,使其同时具备了有声资源播放、智能语音交互和智能家居控制等功能。智能音响因其丰富的产品功能而被视为智能家居的控制中枢，进而成为如今发展最迅速的电子产品之一。其中，音频播放是智能音响的基础功能，因此保障智能音响的声学性能是品质端的基本要求，这就需要在生产制造环节对声学指标进行检测。

目前，在传统智能音响的生产制造场景中，量产阶段往往在产线边的隔音房内以人工听音的方式对其声学性能进行评判，这种检测方法耗费人工成本、降低检测效率、鲁棒性差、受人主观因素影响大，且长时间的检测会导致检验员听觉疲劳，影响员工听力健康且难以保证产品质量一致性。

发明内容

本申请的主要目的在于提供一种基于机器视觉的音响检测方法、基于机器视觉的音响检测装置、基于机器视觉的音响检测设备及计算机可读存储介质，旨在准确检测音响的声学质量。

为实现上述目的，本申请提供一种基于机器视觉的音响检测方法，所述方法包括：

获取待测音响在播放预设测试音频时录制的录音音频，并将所述录音音频转换为时域图像和频域图像；

基于所述时域图像对所述录音音频进行异常音频检测，基于所述频域图像对所述录音音频进行频谱检测；

若对所述待测音响的所述录音音频的所述异常音频检测和所述频谱检测均合格，则确定所述待测音响合格。

示例性的，所述基于所述时域图像对所述录音音频进行异常音频检测的步骤，包括：

在所述时域图像上框选所述预设测试音频对应的第一ROI区域，并确定所述第一ROI区域的图像特征是否与所述预设测试音频对应的预设异音特征匹配；

若所述第一ROI区域的图像特征与所述预设测试音频对应的预设异音特征不匹配，则判定所述录音音频存在异音，并确定所述待测音响的所述录音音频的异常音频检测不合格；

若所述第一ROI区域的图像特征与所述预设测试音频对应的预设异音特征匹配，则判定所述录音音频不存在异音，并确定所述待测音响的所述录音音频的异常音频检测合格。

示例性的，所述基于所述频域图像对所述录音音频进行频谱检测的步骤，包括：

在所述频域图像上框选所述预设测试音频对应的第二ROI区域，并确定所述第二ROI区域的图像特征是否与所述预设测试音频对应的预设频谱特征匹配；

若所述第二ROI区域的图像特征与所述预设测试音频对应的预设频谱特征不匹配，则判定所述录音音频频谱异常，并确定所述待测音响的所述录音音频的频谱检测不合格；

若所述第二ROI区域的图像特征与所述预设测试音频对应的预设频谱特征匹配，则判定所述录音音频频谱正常，并确定所述待测音响的所述录音音频的频谱检测合格。

示例性的，所述基于所述时域图像对所述录音音频进行异常音频检测，基于所述频域图像对所述录音音频进行频谱检测的步骤之前，包括：

获取所述时域图像的基础图像特征，并获取所述频域图像的基础图像特征；

若所述时域图像的基础图像特征符合预设时域特征标准，则执行所述基于所述时域图像对所述录音音频进行异常音频检测的步骤；

若所述频域图像的基础图像特征符合预设频域特征标准，则执行所述基于所述频域图像对所述录音音频进行频谱检测的步骤。

示例性的，所述获取所述时域图像的基础图像特征的步骤，包括：

对所述时域图像进行图像分割处理，得到时域波形区域图像，并获取所述时域波形区域图像的波形；

将所述时域波形区域图像进行图像二值化处理，得到二值化时域波形图像，并对所述二值化时域波形图像进行边缘检测，确定所述波形的包络线；

基于所述波形的包络线，确定所述时域图像的基础图像特征，其中，所述基础图像特征包括过零率和起音时间；

若所述时域图像的基础图像特征符合预设时域特征标准，则执行所述基于所述时域图像对所述录音音频进行异常音频检测的步骤。

示例性的，所述获取所述频域图像的基础图像特征的步骤，包括：

对所述频域图像进行图像分割处理，得到频域波形区域图像，并获取所述频域波形区域图像的波形；

将所述频域波形区域图像进行图像二值化处理，得到二值化频域波形图像，并对所述二值化频域波形图像进行边缘检测，确定所述波形的包络线；

基于所述波形的包络线，确定所述频域图像的基础图像特征，其中，所述基础图像特征包括频谱质心和基谐波频率；

示例性的，所述方法还包括：

获取所述待测音响的关键测试点，并获取所述待测音响在播放预设测试音频时在所述关键测试点的基础电学参数；

若对所述待测音响的所述录音音频的所述异常音频检测和所述频谱检测均合格，且，所述基础电学参数符合预设电学参数标准，则确定所述待测音响合格。

本申请还提供一种基于机器视觉的音响检测装置，所述基于机器视觉的音响检测装置包括：

获取模块，用于获取待测音响在播放预设测试音频时录制的录音音频，并将所述录音音频转换为时域图像和频域图像；

检测模块，用于基于所述时域图像对所述录音音频进行异常音频检测，基于所述频域图像对所述录音音频进行频谱检测；

确定模块，用于若对所述待测音响的所述录音音频的所述异常音频检测和所述频谱检测均合格，则确定所述待测音响合格。

本申请还提供一种基于机器视觉的音响检测设备，所述基于机器视觉的音响检测设备包括：存储器、处理器、及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的基于机器视觉的音响检测方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于机器视觉的音响检测方法的步骤。

本申请实施例提出的一种基于机器视觉的音响检测方法、基于机器视觉的音响检测装置、基于机器视觉的音响检测设备及计算机可读存储介质,获取待测音响在播放预设测试音频时录制的录音音频，并将所述录音音频转换为时域图像和频域图像；基于所述时域图像对所述录音音频进行异常音频检测，基于所述频域图像对所述录音音频进行频谱检测；若对所述待测音响的所述录音音频的所述异常音频检测和所述频谱检测均合格，则确定所述待测音响合格。

在本申请中，通过机器视觉的自动化检测技术对量产阶段的智能音响的声学质量进行检测，以此保证产品质量。首先，将待测音响在播放预设测试音频时录制的录音音频转换为时域图像和频域图像；然后，根据该时域图像对录音音频进行异常音频检测，根据该频域图像对录音音频进行频谱检测；如果该异常音频检测和该频谱检测均合格，则确定待测音响合格。为保证智能音响质量，就需要在产线生产阶段对其声学性能进行检测，若使用人工检测则需要消耗大量人力资源且长时间检测会造成听觉疲劳，同时易发生漏检、错检。通过基于机器视觉的智能音响产测方法，以实现产线自动化声学检测，准确检测音响的声学智能。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的运行设备的结构示意图；

图2为本申请实施例方案涉及的基于机器视觉的音响检测方法一实施例的流程示意图；

图3为本申请实施例方案涉及的基于机器视觉的音响检测方法一实施例的PCB来料检测算法示意图；

图4为本申请实施例方案涉及的基于机器视觉的音响检测方法一实施例的PCB来料检测过程示意图；

图5为本申请实施例方案涉及的基于机器视觉的音响检测方法一实施例的应用示意图；

图6为本申请实施例方案涉及的基于机器视觉的音响检测装置的示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，图1为本申请实施例方案涉及的硬件运行环境的运行设备结构示意图。

如图1所示，该运行设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对运行设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及计算机程序。

在图1所示的运行设备中，网络接口1004主要用于与其他设备进行数据通信；用户接口1003主要用于与用户进行数据交互；本申请运行设备中的处理器1001、存储器1005可以设置在运行设备中，所述运行设备通过处理器1001调用存储器1005中存储的计算机程序，并执行以下操作：

在一实施例中，处理器1001可以调用存储器1005中存储的计算机程序，还执行以下操作：

所述基于所述时域图像对所述录音音频进行异常音频检测的步骤，包括：

所述基于所述频域图像对所述录音音频进行频谱检测的步骤，包括：

所述基于所述时域图像对所述录音音频进行异常音频检测，基于所述频域图像对所述录音音频进行频谱检测的步骤之前，包括：

所述获取所述时域图像的基础图像特征的步骤，包括：

所述获取所述频域图像的基础图像特征的步骤，包括：

所述方法还包括：

本申请实施例提供了一种基于机器视觉的音响检测方法，参照图2，在基于机器视觉的音响检测方法的一实施例中，所述方法包括：

步骤S10，获取待测音响在播放预设测试音频时录制的录音音频，并将所述录音音频转换为时域图像和频域图像；

为保障智能音响的声学性能，需在产线生产阶段对其质量进行检测。检测在产线中完成，先使待测音响播放预设测试音频，在一实施例中，并行进行三组检测：人工监听、仪表测量和Loopback。其中人工监听是通过标准麦克风录音，人工远程抽检其声学性能；仪表测量是对其电压电流等基础参数进行测量(前提是智能音响整机在产品开发时预留测试点)；Loopback是用智能音响自带的麦克风录音，将音频信号经串口发送至上位机，在上位机中将音频信号转换为图像，在对图像进行基于机器视觉的检测算法来评判其声学性能。

在一实施例中，若检测PASS，则判定产品合格送入后续工站；若检测NG，则将信息上传至专家系统并分析测试数据，后续可进行返修或其他处理。

步骤S20，基于所述时域图像对所述录音音频进行异常音频检测，基于所述频域图像对所述录音音频进行频谱检测；

Loopback测试为在智能音响扬声器播放音频的同时使用智能音响的麦克风录音，将所录制的音频信号传入上位机执行音频检测算法，以全方面保证声学性能。

在一实施例中，参照图3，首先上位机经串口接收音频信号，再将信号分别转化为时域图像和频域图像，并行进行检测。音频信号为数字信号，可根据数字信号的帧总数、采样率、振幅等信息将其转化为图像。然后根据时域图像对录音音频进行异常音频检测，根据频域图像对录音音频进行频谱检测。

在根据时域图像对录音音频进行异常音频检测时，首先根据所播放测试音频的不同框选特定ROI区域。然后进行异音检测，检测ROI区域的图像特征(模板匹配法或用机器学习)，验证其是否与预设特征匹配。若ROI区域特征不匹配预设特征则判定为有异音，产品NG；否则判定为异常音频检测合格。

在根据频域图像对录音音频进行频谱检测时，先使用短时傅里叶变换STFT将时域信号转换至频域，得到其频域波形图像。然后，根据所播放测试音频的不同框选特定ROI区域，进行频谱检测，检测ROI区域的图像特征(模板匹配法或用机器学习)，验证其是否与预设特征匹配。若ROI区域特征不匹配预设特征则判定为NG；否则判定为频谱检测合格。

在一实施例中，参照图3，在进行异常音频检测和频谱检测之前，需要进行基础特征的验证。获取时域图像的基础图像特征，以及频域图像的基础图像特征，如果时域图像的基础图像特征符合预设时域特征标准，才执行基于时域图像对录音音频进行异常音频检测的步骤；如果频域图像的基础图像特征符合预设频域特征标准，才执行基于频域图像对录音音频进行频谱检测的步骤。

在获取时域图像的基础图像特征时，利用空域滤波器做图像去噪后，图像分割得到波形区域，可以获取其波形；将图像二值化，使用边缘检测算法(如利用差分算子)可获得波形的包络线。然后检测时域图像的各种基础特征，过零率：曲线跟踪波形曲线，记录通过零点(无信号时)的次数。起音时间：曲线跟踪包络线，取其上升阶段时长。若其基础特征不符合标准则判断为NG，否则执行后续异常音频检测的步骤。

在获取频域图像的基础图像特征时，图像分割得到波形区域，可以获取其频域波形；将图像二值化，使用边缘检测算法(如利用差分算子)可获得频域波形的包络线。然后检测频域图像的各种基础特征，频谱质心：遍历包络线，求其一阶矩即为频谱质心，其中是包络线的横坐标，是对应的纵坐标。基谐波检测：曲线跟踪包络线，寻找极值点对应的横纵坐标，以确定其基波与谐波的频率与值。若其基础特征不符合标准则判断为NG，否则执行后续频谱检测的步骤。

步骤S30，若对所述待测音响的所述录音音频的所述异常音频检测和所述频谱检测均合格，则确定所述待测音响合格。

若异常音频检测和频谱检测均PASS，则将产品送入后续工站。若出现NG，下一步需将有问题的信息传入专家系统进行分析。专家系统是一个软件系统，它会对异常情况进行分析，将声学性能异常原因以电路异常、结构异常喇叭异常和其他进行分类，提出返修或其他处理建议，判断是否需要人工复检或需要人工返工。

示例性的，所述方法还包括：

在一实施例中，在智能音响暴露测试点的前提下，获取待测音响的关键测试点，获取待测音响在播放预设测试音频时在关键测试点的基础电学参数，用仪表测量其音频播放时的关键测试点电压电流，以保证其与音频播放的电学指标正常。若对待测音响的录音音频的异常音频检测和频谱检测均合格，且，基础电学参数符合预设电学参数标准，则确定待测音响合格。

在本申请一种基于机器视觉的音响检测方法的一应用场景中，参照图4，基于机器视觉的智能音响产测，整个过程分为产线前期准备阶段和产线检测阶段两部分。在产线前期准备阶段，保证有一个稳定的检测环境并进行金机测试验证，包括搭建测试环境和金机测试，利用隔音响搭建智能音响产测环境，隔音响保证隔音并无音源干扰，在隔音响内固定好待测产品与标准麦克风(用于人工抽检)位置。测试环境搭建完成后需经过调试，用金机(各项指标参数为最佳的产品)验证测试环境的一致稳定性并进行测试环境参数校准。

在产线检测阶段，在待测产品按测试需求播放音频时并行执行人工监听、仪表测量和Loopback三项检测。其中人工监听为不定期抽检，通过人工干预验证该自动化检测方法的稳定性；仪表测量和Loopback为检测的主要部分，两项检测都通过后产品才会流入后续工站，否则进行其他处理。

其中，人工不定期抽检时标准麦克风启动，将录制的音频远程发送至实验室，以供人耳监听评判其声学性能。在智能音响暴露测试点的前提下，用仪表测量其音频播放时的关键测试点电压电流，以保证其与音频播放的电学指标正常。Loopback测试如图3所示。

参照图5，基于机器视觉的音响检测流程详述如下：

(1)搭建好产线的测试环境并进行金机测试；

(2)将待测智能音响送检进入测试环境，音响播放测试音频；

(3)并行进行三组检测，其中需抽检部分产品进行人工监听；

(4)并行用仪表测量基本电学参数，若不合格判定为NG；

(5)并行进行Loopback测试，将音响自带麦克风录制的音频传入上位机；在上位机中执行基于机器视觉的音频检测算法，若不合格则判定为NG；

(6)将NG品的信息传入专家系统进行分析，根据专家系统的处理建议执行返修或其他处理；

(7)若以上检测都合格则判定产品PASS，允许其流入后续工站，至此基于机器视觉的智能音响产测结束。

通过提供一种智能音响产线自动化检测方法，替代人工自动化检测音频质量，提升检测效率和精度，保证了产品质量。并且该系统会与专家系统联动，敏捷处理产品故障并优化产品设计与工艺等部分，从而提升制造业智能化程度。该方法具有高集成度、高可靠性、高自动化程度与一定的智能化能力，降低检测成本，提升检测效率，并可推广到其他含有音频播放功能的产品上。

参照图6，此外，本申请实施例还提供一种基于机器视觉的音响检测装置，所述基于机器视觉的音响检测装置包括：

获取模块M1，用于获取待测音响在播放预设测试音频时录制的录音音频，并将所述录音音频转换为时域图像和频域图像；

检测模块M2，用于基于所述时域图像对所述录音音频进行异常音频检测，基于所述频域图像对所述录音音频进行频谱检测；

确定模块M3，用于若对所述待测音响的所述录音音频的所述异常音频检测和所述频谱检测均合格，则确定所述待测音响合格。

示例性的，所述检测模块还用于：

所述基于所述时域图像对所述录音音频进行异常音频检测，基于所述频域图像对所述录音音频进行频谱检测的步骤之前，

示例性的，所述检测模块还用于：

示例性的，所述确定模块还用于：

本申请提供的基于机器视觉的音响检测装置，采用上述实施例中的基于机器视觉的音响检测方法，旨在准确检测音响的声学质量。与常规技术相比，本申请实施例提供的基于机器视觉的音响检测装置的有益效果与上述实施例提供的基于机器视觉的音响检测方法的有益效果相同，且基于机器视觉的音响检测装置中的其他技术特征与上述实施例方法公开的特征相同，在此不做赘述。

此外，本申请实施例还提供一种基于机器视觉的音响检测设备，所述基于机器视觉的音响检测设备包括：存储器、处理器、及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的基于机器视觉的音响检测方法的步骤。

此外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于机器视觉的音响检测方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对常规技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于机器视觉的音响检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于机器视觉的音响检测方法，其特征在于，所述基于所述时域图像对所述录音音频进行异常音频检测的步骤，包括：

3.如权利要求1所述的基于机器视觉的音响检测方法，其特征在于，所述基于所述频域图像对所述录音音频进行频谱检测的步骤，包括：

4.如权利要求1所述的基于机器视觉的音响检测方法，其特征在于，所述基于所述时域图像对所述录音音频进行异常音频检测，基于所述频域图像对所述录音音频进行频谱检测的步骤之前，包括：

5.如权利要求4所述的基于机器视觉的音响检测方法，其特征在于，所述获取所述时域图像的基础图像特征的步骤，包括：

6.如权利要求4所述的基于机器视觉的音响检测方法，其特征在于，所述获取所述频域图像的基础图像特征的步骤，包括：

7.如权利要求1所述的基于机器视觉的音响检测方法，其特征在于，所述方法还包括：

8.一种基于机器视觉的音响检测装置，其特征在于，所述基于机器视觉的音响检测装置包括：

9.一种基于机器视觉的音响检测设备，其特征在于，所述基于机器视觉的音响检测设备包括：存储器、处理器、及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的基于机器视觉的音响检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于机器视觉的音响检测方法的步骤。