CN113744756A

CN113744756A - 设备质检及音频数据扩充方法和相关装置、设备、介质

Info

Publication number: CN113744756A
Application number: CN202110921266.XA
Authority: CN
Inventors: 王彤; 牛杰杰; 李俊; 宫韬; 车骋; 徐甲甲
Original assignee: Zhejiang Xunfei Intelligent Technology Co ltd
Current assignee: Zhejiang Xunfei Intelligent Technology Co ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-12-03

Abstract

本申请公开了一种设备质检及音频数据扩充方法和相关装置、设备、介质，其中，设备质检方法包括：获取待检设备运行时产生的待测音频；提取待测音频的声学特征；利用质检模型检测声学特征，得到待检设备的质检结果；其中，质检模型是利用样本声学特征训练得到的，且样本声学特征是基于样本子语谱图提取得到的，样本子语谱图由样本音频的样本语谱图划分得到。上述方案，能够同时提高设备质检的效率和精度。

Description

设备质检及音频数据扩充方法和相关装置、设备、介质

技术领域

本申请涉及音频处理技术领域，特别是涉及一种设备质检及音频数据扩充方法和相关装置、设备、介质。

背景技术

在设备打包出厂之前，为了确保出厂良率，往往需要对设备进行质检。目前，一般需要质检员凭借其经验，通过触、听、看等多种手段来对设备质检。例如，在设备运行之后，质检员可以通过将听到的运行声音与记忆中的正常声音做比对，来判断设备存在故障，经验丰富的质检员，甚至可以判断出具体的故障类别。

然而，人工质检由于严重依赖于质检员主观经验，故难以保证质检准确性。得益于深度学习的快速发展，目前神经网络已经在越来越多的行业中发挥着重要作用，通过将神经网络引入设备质检场景中，能够有效打破主观经验对于质检准确性的限制。但是，现实场景中，往往很难在短时间内采集到海量音频，以支持神经网络学习设备运行时的声音特征，因而也难以确保神经网络的准确性。有鉴于此，如何同时提高设备质检的效率和精度成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种设备质检及音频数据扩充方法和相关装置、设备、介质，能够同时提高设备质检的效率和精度。

为了解决上述技术问题，本申请第一方面提供了一种设备质检方法，包括：获取待检设备运行时产生的待测音频；提取待测音频的声学特征；利用质检模型检测声学特征，得到待检设备的质检结果；其中，质检模型是利用样本声学特征训练得到的，且样本声学特征是基于样本子语谱图提取得到的，样本子语谱图由样本音频的样本语谱图划分得到。

为了解决上述技术问题，本申请第二方面提供了一种音频数据扩充方法，包括：获取设备运行时的样本音频，并获取样本音频的样本语谱图；其中，设备包括至少两个设备运行阶段；基于设备运行阶段和频谱频域区间，将样本语谱图进行时域划分和频域划分，得到若干样本子语谱图。

为了解决上述技术问题，本申请第三方面提供了一种设备质检装置，包括：音频获取模块、特征提取模块和特征检测模块，音频获取模块，用于获取待检设备运行时产生的待测音频；特征提取模块，用于提取待测音频的声学特征；特征检测模块，用于利用质检模型检测声学特征，得到待检设备的质检结果；其中，质检模型是利用样本声学特征训练得到的，且样本声学特征是基于样本子语谱图提取得到的，样本子语谱图由样本音频的样本语谱图划分得到。

为了解决上述技术问题，本申请第四方面提供了一种音频数据扩充装置，包括：样本获取模块和频谱划分模块，音频获取模块，用于获取设备运行时的样本音频，并获取样本音频的样本语谱图；其中，设备包括至少两个设备运行阶段；频谱划分模块，用于基于设备运行阶段和频谱频域区间，将样本语谱图进行时域划分和频域划分，得到若干样本子语谱图。

为了解决上述技术问题，本申请第五方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的设备质检方法，或实现上述第二方面的音频数据扩充方法。

为了解决上述技术问题，本申请第六方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的设备质检方法，或实现上述第二方面的音频数据扩充方法。

上述方案，获取待检设备运行时产生的待测音频，并提取待测音频的声学特征，在此基础上，再利用质检模型检测声学特征，得到待检设备的质检结果，且质检模型是利用样本声学特征训练得到的，样本声学特征是基于样本子语谱图提取得到的，而样本子语谱图由样本音频的样本语谱图划分得到，故由一条样本音频所提取出来的样本语谱图通过语谱划分、特征提取等一系列操作，可以得到众多样本声学特征，并利用样本声学特征对质检模型进行训练，从而即使难以在短时间内采集到海量音频，也能够通过数据切割获取到丰富的训练样本，使得质检模型能够充分学习，故一方面能够有效克服数据短缺的现实问题，有利于提高质检模型的精度，另一方面通过质检模型来进行设备质检，有利于提高设备质检的效率，故此能够同时提高设备质检的效率和精度。

附图说明

图1是本申请质检模型的训练方法一实施例的流程示意图；

图2是提取样本语谱图一实施例的过程示意图；

图3是样本语谱图一实施例的示意图；

图4是样本语谱图另一实施例的示意图；

图5是样本语谱图又一实施例的示意图；

图6是提取样本声学特征一实施例的过程示意图；

图7是本申请音频数据扩充方法一实施例的流程示意图；

图8是本申请设备质检方法一实施例的流程示意图；

图9是本申请设备质检装置一实施例的框架示意图；

图10是本申请音频数据扩充装置一实施例的框架示意图；

图11是本申请电子设备一实施例的框架示意图；

图12是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

本申请公开实施例，获取待检设备运行时产生的待测音频，并提取待测音频的声学特征，在此基础上，再利用质检模型检测声学特征，得到待检设备的质检结果，且质检模型是利用样本声学特征训练得到的，样本声学特征是基于样本子语谱图提取得到的，而样本子语谱图由样本音频的样本语谱图划分得到，故由一条样本音频所提取出来的样本语谱图通过语谱划分、特征提取等一系列操作，可以得到众多样本声学特征，并利用样本声学特征对质检模型进行训练，从而即使难以在短时间内采集到海量音频，也能够通过数据切割获取到丰富的训练样本，使得质检模型能够充分学习，故一方面能够有效克服数据短缺的现实问题，有利于提高质检模型的精度，另一方面通过质检模型来进行设备质检，有利于提高设备质检的效率，故此能够同时提高设备质检的效率和精度。

为了便于阐述，本申请公开实施例分别从“训练阶段”以及后续“应用阶段”两方面来描述。请参阅图1，图1是本申请质检模型的训练方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取样本音频的样本语谱图。

需要说明的是，样本音频是设备在运行时产生的声音。具体地，该设备与“应用阶段”的待检设备可以属于同一类型、或属于同一厂家、或属于同一型号，甚至还可以属于同一类别、同一厂家且同一型号，在此不做限定。为了尽可能地提升质检模型的精度，该设备具体可以与“应用阶段”的待检设备属于相同类别、相同厂家且相同型号。以“应用阶段”的待检设备为厂家A所生产的型号为B的电机，则可以在训练质检模型之前，先收集厂家A所生产的型号为B的电机在运行时产生的声音，作为样本音频。

在一个实施场景中，样本音频即可以包括设备运行正常时的声音，也可以包括设备运行异常时的声音，从而能够使得质检模型在训练过程中，既能够学习到设备正常运行时的声音特征，也能够学习到设备异常运行时的声音特征，进而能够有利于提升质检模型的辨别能力。

在一个实施场景中，样本音频可以标注有样本标记，样本标记可以表示采集该样本音频时设备的故障类别。具体地，样本标记所表示的故障类别可以根据实际需要进行设置。例如，在“应用阶段”需要确定待检设备存在故障或不存在故障情况下，样本标记所表示的故障类别可以包括有故障或无故障，也就是说，在设备正常运行时采集的样本音频，其所标注的样本标记所表示的故障类别为“无故障”，而在设备异常运行时采集的样本音频，其所标注的样本标记所表示的故障类别为“有故障”；或者，在“应用阶段”需要确定待检设备细分故障的情况下，样本标记所表示的故障类别可以包括：无故障以及若干种预设类别，以设备是电机为例，若干种预设类别可以包括但不限于：定子与转子间隙不均匀、电机过载、电机缺相、铁芯松动、轴承缺油等等，在此不做限定。对于其他设备，可以以此类推对样本音频进行标注，在此不再一一举例。

在一个实施场景中，请结合参阅图2，图2是提取样本语谱图一实施例的过程示意图。如图2所示，在提取样本语谱图过程中，可以先对样本音频进行预加重，再对预加重之后的样本音频进行分帧、加窗处理，之后再对加窗后的语音数据进行傅里叶变换，得到样本语谱图。

在一个具体的实施场景中，在预加重过程中，可以将样本音频输入一个高通滤波器，从而提升高频部分，使得信号的频谱趋于平坦，保持对整个频带都能用同样的信噪比求取频谱。

在一个具体的实施场景中，在分帧过程中，可以采用预设长度对预加重之后的样本音频进行分帧，预设长度可以根据实际需要进行设置，例如，可以设置为10ms、20ms等等，在此不做限定。此外，为了便于相邻两帧之间的变化过大，相邻两帧之间存在重叠区域。

在一个具体的实施场景中，在加窗过程中，为了避免频谱泄露，可以采用包括但不限于汉宁窗、汉明窗等窗函数对分帧数据进行加窗，在此不做限定。

在一个具体的实施场景中，在加窗之后，为了提高提取样本语谱图的效率，可以采用短时傅里叶变换(Short Time Fourier Transform，STFT)对加窗后的数据进行处理，然后对变换所得频谱取模平方得到样本语谱图。

步骤S12：划分样本语谱图，得到若干样本子语谱图。

具体地，可以基于若干种预设维度对样本语谱图进行划分，得到样本子语谱图，且若干种预设维度可以包括但不限于：设备运行阶段、频谱频域区间。需要说明的是，设备从开始运行到停止运行，往往会存在多个设备运行阶段，不同阶段往往会表现出不同声音特征。以电机为例，电机从开始运行到结束运行一般会经历加速运转、平稳运转和减速运转等三个阶段，在加速阶段，设备正常运行时其声音频率通常随时间而增大，而在平稳运转阶段，设备正常运行时其声音频率通常比较平稳，以及在减速阶段，设备正常运行时其声音频率通常随时间而减小，其他设备可以以此类推，在此不再一一举例。此外，由于语谱图还能够在频域维度反映信号能量，设备在有故障以及在无故障情况下分别运行时，表现在频域上信号能量分布也会不一样。例如，设备在无故障的情况下，声音频率可以较为集中，表现在频域上信号能量可以集中分布于某一个特定频率(或某几个特定频率)，而设备在有故障的情况下，信号能量除了可以分布于上述特定频率，还可以分布于由于故障而产生的其他频率。需要说明的是，关于上述举例仅仅是示例性地描述几种可能的设备运行阶段，具体可以根据实际需要质检的设备而进行设定，在此不做限定。上述方式，通过基于若干种预设维度对样本语谱图进行划分得到样本子语谱图，且若干种预设维度包括设备运行阶段、频谱频域区间中至少一者，故能够从不同维度来对样本语谱图进行切分，有利于进一步丰富训练样本，提升质检模型的性能。

在一个实施场景中，在预设维度包括设备运行阶段的情况下，可以基于设备运行阶段，将样本语谱图在时域上进行划分，得到样本子语谱图。上述方式，在预设维度包括设备运行阶段的情况下，通过基于设备运行阶段，将样本语谱图在时域上划分得到样本子语谱图，能够从设备运行阶段维度划分样本语谱图，以从时域层面丰富训练样本，有利于提升质检模型的性能。

在一个具体的实施场景中，如前所述，设备运行阶段可以根据设备具体种类进行设置，以电机为例，设备运行阶段可以包括加速运转、平稳运转和减速运转等三个阶段，上述三种阶段的具体含义可以参阅前述相关描述，在此不再赘述。在此基础上，可以根据三种阶段过程中，频率随时间的变化情况，来将样本语谱图进行划分。此外，不同设备运行阶段对应的样本子语谱图可以无重叠。或者，不同设备运行阶段对应的样本子语谱图也可以设置为有重叠，从而能够有利于提升对划分误差的包容度，提升训练样本质量，有利于提高后续训练得到的质检模型的性能。

在一个具体的实施场景中，如前所述，语谱图可以从时域和频域两个维度，分别表示频率随时间变化情况，以及表示不同频率上信号能量分布情况。请结合参阅图3，图3是样本语谱图一实施例的示意图。如图3所示，一般情况下，语谱图横轴表示时间，纵轴表示频率，不同灰度值表示信号能量的强弱，如可以设置为信号能量越强，颜色越亮，信号能量越弱，颜色越暗，反之也可以设置为信号能量越强，颜色越暗，信号能量越弱，颜色越亮，在此不做限定。请继续结合参阅图3，以电机为例，根据频率随时间在时域上的变化情况，可以将样本语谱图分为：加速运转阶段对应的样本子语谱图、平稳运转阶段对应的样本子语谱图和减速运转阶段对应的样本子语谱图(如图中加粗虚线划分所示)。需要说明的是，为了避免混淆，图3中加粗虚线并未贯穿样本语谱图，实际划分时，不同设备运行阶段对应的样本子语谱图所涵盖范围，需以上述加粗虚线贯穿样本语谱图的情况为准。其他设备可以以此类推，在此不再一一举例。

在一个实施场景中，在预设维度包括频谱频域区间的情况下，可以基于频谱频域区间，将样本语谱图在频域进行划分，得到样本子语谱图。上述方式，在预设维度包括频谱频域区间的情况下，通过基于频谱频域区间，将样本语谱图在频域上划分得到样本子语谱图，能够从频谱频域区间维度划分样本语谱图，以从时域层面丰富训练样本，有利于提升质检模型的性能。

在一个具体的实施场景中，如前所述，设备在有故障以及在无故障情况下分别运行时，表现在频域上信号能量分布也会不一样，在此基础上，可以对不同设备分别预先设置不同的频域区间。以电机为例，可以设置高频区间和低频区间，示例性地，高频区间的频率范围可以设置为1kHz～2kHz，低频区间的频率范围可以设置为0kHz～1kHz，在此不做限定。其他设备可以以此类推，在此不做限定。在此基础上，可以将样本语谱图在频谱频域区间维度在频域进行划分，得到样本子语谱图。

在一个具体的实施场景中，请结合参阅图4，图4是样本语谱图另一实施例的示意图，样本语谱图的含义可以参阅前述相关描述，在此不再赘述。如图4所示，仍以电机为例，根据频谱频域区间，可以将样本语谱图分为：高频区间对应的样本子语谱图和低频区间对应的样本子语谱图(如图中加粗虚线划分所示)。其他设备可以以此类推，在此不再一一举例。其他设备可以以此类推，在此不再一一举例。

在一个实施场景中，在预设维度包括设备运行阶段和频谱频域区间的情况下，可以基于设备运行阶段，将样本语谱图划分为若干候选语谱图，对于每一候选语谱图，可以进一步基于频谱频域区间在频域进行划分，得到样本子语谱图。上述方式，在预设维度包括设备运行阶段和频谱频域区间的情况下，通过先基于设备运行阶段将样本语谱图划分为若干候选语谱图，再对每一候选语谱图基于频谱频域区间在频域划分得到样本子语谱图，故能够从设备运行阶段和频谱频域区间两个维度共同划分样本语谱图，从而能够从时域和频域层面尽可能地丰富训练样本，有利于提升质检模型的性能。

在一个具体的实施场景中，基于设备运行阶段在时域维度划分样本语谱图的具体过程，可以参阅前述相关描述，在此不再赘述。此外，在对每一候选语谱图，基于频谱频域区间在频域进行划分时，对于每一候选频谱图其所设置的频域区间可以完全相同，也可以不完全相同。以电机为例，对于每一候选语谱图可以设置统一的高频区间(1kHz～2kHz)和低频区间(0kHz～1kHz)；或者，对于加速运转阶段对应的候选语谱图和减速运转阶段对应的候选语谱图可以设置高频区间(1kHz～2kHz)和低频区间(0kHz～1kHz)，对于平稳运转阶段对应的候选语谱图可以设置高频区间(1.5kHz～2kHz)、中频区间(0.5kHz～1.5kHz)和低频区间(0kHz～0.5kHz)。其他设备可以以此类推，在此不再一一举例。

在一个具体的实施场景中，请结合参阅图5，图5是样本语谱图又一实施例的示意图。如图5所示，仍以电机为例，基于设备运行维度可以划分得到下述三个候选语谱图：加速运转阶段对应的候选语谱图、平稳运转阶段对应的候选语谱图和减速运转阶段对应的候选语谱图，对于上述三个候选语谱图可以统一基于1kHz～2kHz的高频区间和0kHz～1kHz的低频区间，划分得到样本子语谱图。需要说明的是，为了避免混淆，图5中加粗虚线并未贯穿样本语谱图，实际划分时，不同设备运行阶段对应的样本子语谱图所涵盖范围，需以上述加粗虚线贯穿样本语谱图的情况为准。其他设备可以以此类推，在此不再一一举例。

步骤S13：分别提取若干样本子语谱图的样本声学特征。

具体地，样本声学特征可以包括但不限于：MFCC((Mel Frequency CepstrumCoefficient，梅尔频率倒谱系数)、FBank等声学特征，在此不做限定。以MFCC为例，请结合参阅图6，图6是提取样本声学特征一实施例的过程示意图。如图6所示，可以先对样本子语谱图进行滤波，以消除谐波作用，并突显原先声音的共振峰。例如，可以采用梅尔尺度的三角形滤波器组对样本子语谱图进行滤波。在此基础上，再对滤波之后的信号做对数变换，之后再进行离散余弦变换(Discrete Cosine Transform，DCT)，即可得到MFCC。需要说明的是，MFCC是一种静态特征，还可以通过动态差分参数提取到动态特征，具体可以参阅动态差分相关技术细节，在此不再赘述。

步骤S14：利用样本声学特征训练质检模型。

在一个实施场景中，为了准确约束质检模型学习不同声音特征，样本声学特征可以标注有第一标记，且第一标记是基于样本子语谱图体现的故障类别和参考的预设维度编码得到的，在此基础上，第一标记即可作为先验信息来监督质检模型的训练。具体的，可以采用one-hot等编码方式进行编码，在此不做限定。

在一个具体的实施场景中，在预设维度包括设备运行阶段的情况下，第一标记表征样本子语谱图所处设备运行阶段体现的故障类别。以电机为例，第一标记可以表征加速运转阶段电机过载，或者，第一标记可以表征减速运转阶段铁芯松动，以此类推，在此不做限定。进一步地，为了区分不同设备运转阶段对应的样本子语谱图所提取出来的样本声学特征，可以采用不同第一标记表征不同设备运转阶段对应的样本子语谱图所存在的故障类别。例如在采用one-hot进行编码时，以电机共存在2种故障类别(即无故障、有故障)且存在上述三种设备运行阶段为例，可以采用3bit编码得到第一标记，如对于加速运转阶段，可以采用第一标记[0 0 1]来表示无故障，对于平稳运转阶段，可以采用第一标记[0 1 0]来表示无故障，对于减速运转阶段，可以采用第一标记[1 0 0]来表示无故障，其他情况可以以此类推，在此不再一一举例。此外，也可以通过采用更多比特位来实现不同第一标记表征不同设备运转阶段对应的样本子语谱图所存在的故障类别。仍以上述采用one-hot对电机故障类别进行编码为例，在电机共存在2种故障类别(即无故障、有故障)且存在上述三种设备运行阶段的情况下，可以认为共计存在6种情况(即6种组合)，故可以采用6bit编码得到第一标记，例如，在第一标记最后一位为1且其他位为0时，可以表征加速运转阶段无故障，以此类推，在此不再一一举例。

在一个具体的实施场景中，在预设维度包括频谱频域区间的情况下，第一标记表征样本子语谱图所处频谱频域区间体现的故障类别。以电机为例，第一标记可以表征高频区间电机过载，或者，第一标记可以表征低频区间铁芯松动，以此类推，在此不做限定。进一步地，为了区分不同频谱频域区间对应的样本子语谱图所提取出来的样本声学特征，可以采用不同第一标记表征不同频谱频域区间对应的样本子语谱图所存在的故障类别。例如，在采用one-hot进行编码时，以电机共存在2种故障类别(即无故障和有故障)且存在上述两种频域区间为例，例如在采用one-hot进行编码时，以电机共存在2种故障类别(即无故障、有故障)且存在上述两种频谱频域区间为例，可以采用2bit编码得到第一标记，如对于高频区间，可以采用第一标记[0 1]来表示无故障，对于低频区间，可以采用第一标记[1 0]来表示无故障，其他情况可以以此类推，在此不再一一举例。此外，也可以通过采用更多比特位来实现不同第一标记表征不同频谱频域区间对应的样本子语谱图所存在的故障类别。仍以上述采用one-hot对电机故障类别进行编码为例，在电机共存在2种故障类别(即无故障、有故障)且存在上述两种频谱频域区间的情况下，则可以认为共计存在4种情况(即4种排列组合)，故可以采用4bit编码得到第一标记，例如，在第一标记最后一位为1且其他位为0时，可以表征高频区间无故障，以此类推，在此不再一一举例。

在一个具体的实施场景中，在预设维度包括设备运行阶段和频谱频域区间的情况下，第一标记表征样本子语谱图所处设备运行阶段和频谱频域区间体现的故障类别。以电机为例，第一标记可以表征加速运转阶段高频区间电机过载，或者，第一标记可以表征减速运转阶段低频区间铁芯松动，以此类推，在此不做限定。进一步地，为了区分不同设备运行阶段、不同频谱频域区间对应的样本子语谱图所提取出来的样本声学特征，可以采用不同第一标记表征不同设备运行阶段、不同频谱频域区间对应的样本子语谱图所存在的故障类别。例如，在采用one-hot进行编码时，以电机共存在2种故障类别(即无故障、有故障)且存在上述两种频域区间以及三种设备运转阶段为例，可以采用6bit编码得到第一标记，如对于加速运转阶段的高频区间，可以采用第一标记[0 0 0 0 0 1]来表示无故障，对于加速运转阶段的低频区间，可以采用第一标记[0 0 0 0 1 0]来表示无故障，其他情况可以以此类推，在此不再一一举例。此外，也可以通过采用更多比特位来实现不同第一标记表征不同设备运转阶段、不同频谱频域区间对应的样本子语谱图所存在的故障类别。仍以上述采用one-hot对电机故障类别进行编码为例，在电机共存在2种故障类别(即无故障、有故障)且存在上述两种频域区间以及三种设备运转阶段的情况下，可以认为共计存在12种情况(即12种排列组合)，故可以采用12bit编码得到第一标记，例如，在第一标记最后一位为1且其他位为0的情况下，可以表征加速运转阶段在高频区间无故障，以此类推，在此不再一一举例。

在一个实施场景中，如前所述，样本声学特征可以标注有第一标记，且第一标记表征样本子语谱图所体现的故障类别。在此基础上，可以利用质检模型对样本声学特征进行检测，得到第二标记，且第二标记表征质检模型检测出的故障类别，基于此，可以基于第一标记和第二标记之间的差异，调整质检模型的网络参数。上述方式，通过分阶段地先结合先验知识提取出样本声学特征，再利用标注有第一标记的样本声学特征来训练质检模型，而不再直接利用样本音频来训练质检模型，能够大大减少质检模型所需要的样本数量，且也有利于减少质检模型的网络参数及其占用空间，有利于大大缩短前向推理时间。

在一个具体的实施场景中，质检模型可以检测出若干种故障类别的预测概率值，在此基础上，可以采用交叉熵损失函数以及第一标记处理上述预测概率值，得到质检模型的损失值，并基于损失值调整质检模型的网络参数。

在一个具体的实施场景中，可以采用诸如梯度下降法等优化方式对质检模型的网络参数进行调整。具体调整过程，可以参阅梯度下降法等优化方式的具体技术细节，在此不再赘述。

在一个实施场景中，质检模型的网络结构可以包括但不限于：卷积层、池化层、全连接层等等，在此不做限定。

上述方案，获取样本音频的样本语谱图，并划分样本语谱图，得到若干样本子语谱图，以及分别提取若干样本子语谱图的样本声学特征，在此基础上，再利用样本声学特征训练质检模型，故由一条样本音频所提取出来的样本语谱图通过语谱划分、特征提取等一系列操作，可以得到众多样本声学特征，并利用样本声学特征对质检模型进行训练，从而即使难以在短时间内采集到海量音频，也能够通过数据切割获取到丰富的训练样本，使得质检模型能够充分学习，故一方面能够有效克服数据短缺的现实问题，有利于提高质检模型的精度，另一方面通过质检模型来进行设备质检，有利于提高设备质检的效率，故此能够同时提高设备质检的效率和精度。

请参阅图7，图7是本申请音频数据扩充方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S71：获取设备运行时的样本音频，并获取样本音频的样本语谱图。

本公开实施例中，设备包括至少两个设备运行阶段。如前述公开实施例所述，设备从开始运行到停止运行，往往会存在多个设备运行阶段，不同阶段往往会表现出不同声音特征。以电机为例，电机从开始运行到结束运行一般会经历加速运转、平稳运转和减速运转等三个阶段，具体可以参阅前述公开实施例中相关描述，在此不再赘述。

在一个实施场景中，为了在后续在训练之后，提升诸如质检模型等相关模型辨别故障音频的能力，样本音频可以是在设备运行异常时的音频数据。以电机为例，设备异常可以包括但不限于：子与转子间隙不均匀、电机过载、电机缺相、铁芯松动、轴承缺油，在此不做限定。

在一个实施场景中，为了在后续在训练过程中，提升诸如质检模型等相关模型区分正常音频和故障音频的能力，样本音频既可以包括设备运行异常时的音频数据，也可以包括设备运行正常时的音频数据，在此不做限定。

在一个实施场景中，可以先对样本音频进行预加重，再对预加重之后的样本音频进行分帧、加窗处理，之后再对加窗后的语音数据进行傅里叶变换，得到样本语谱图，具体可以图2以及参阅前述公开实施例中相关描述，在此不再赘述。

步骤S72：基于设备运行阶段和频谱频域区间，将样本语谱图进行时域划分和频域划分，得到若干样本子语谱图。

需要说明的是，由于语谱图还能够在频域维度反映信号能量，设备在有故障以及在无故障情况下分别运行时，表现在频域上信号能量分布也会不一样。例如，设备在无故障的情况下，声音频率可以较为集中，表现在频域上信号能量可以集中分布于某一个特定频率(或某几个特定频率)，而设备在有故障的情况下，信号能量除了可以分布于上述特定频率，还可以分布于由于故障而产生的其他频率，具体可以参阅前述公开实施例中相关描述，在此不再赘述。

在一个实施场景中，可以基于设备运行阶段，将样本语谱图在时域划分为若干候选语谱图，对于每一候选语谱图，可以进一步基于频谱频域区间在频域进行划分，得到样本子语谱图。请结合参阅图5，仍以电机为例，基于设备运行维度可以划分得到下述三个候选语谱图：加速运转阶段对应的候选语谱图、平稳运转阶段对应的候选语谱图和减速运转阶段对应的候选语谱图，对于上述三个候选语谱图可以统一基于1kHz～2kHz的高频区间和0kHz～1kHz的低频区间，划分得到样本子语谱图。需要说明的是，为了避免混淆，图5中加粗虚线并未贯穿样本语谱图，实际划分时，不同设备运行阶段对应的样本子语谱图所涵盖范围，需以上述加粗虚线贯穿样本语谱图的情况为准。其他设备可以以此类推，在此不再一一举例。

在另一个实施场景中，也可以先基于频谱频域区间将样本语谱图在频域划分为若干候选语谱图，并对于每一候选语谱图，可以进一步基于设备运行阶段在时域进行划分，得到样本子语谱图。

上述方案，通过基于设备运行阶段和频谱频域区间，将样本语谱图进行时域划分和频域划分，得到若干样本子语谱图，能够从时域和频域层面尽可能地扩充训练样本，有利于后续在训练诸如质检模型等相关模型时，提升模型的性能，从而在后续进一步利用质检模型进行设备质检时，有利于提升设备质检效率和精度。

请参阅图8，图8是本申请设备质检方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S81：获取待检设备运行时产生的待测音频。

具体地，训练下述质检模型所依据的样本音频是在设备运行时产生的，待检设备可以与上述设备属于同一类型、或属于同一厂家、或属于同一型号，甚至还可以属于同一类别、同一厂家且同一型号，在此不做限定。具体可以参阅前述公开实施例相关描述，在此不再赘述。当然，在对设备质检的准确性要求相对宽松的情况下，待检设备也可以与该设备不属于相同型号、不属于相同厂家，设置也可以不属于相同类别。例如，上述设备可以是洗衣机电机，待检设备可以是榨汁机电机、甚至也可以是空调压缩机，在此不做限定。

步骤S82：提取待测音频的声学特征。

请结合参阅图2、图6以及前述公开实施例中相关描述，声学特征可以包括但不限于：MFCC((Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)、FBank等，在此不做限定。以MFCC为例，可以先对待测音频进行预加重，再对预加重之后的待测音频进行分帧、加窗处理，之后再对加窗后的语音数据进行傅里叶变换，得到待测语谱图。在此基础上，可以先对待测语谱图进行滤波，以消除谐波作用，并突显原先声音的共振峰。例如，可以采用梅尔尺度的三角形滤波器组对待测语谱图进行滤波。在此基础上，再对滤波之后的信号做对数变换，之后再进行离散余弦变换(Discrete Cosine Transform，DCT)，即可得到MFCC。

步骤S83：利用质检模型检测声学特征，得到待检设备的质检结果。

本公开实施例中，质检模型是利用样本声学特征训练得到的，且样本声学特征是基于样本子语谱图提取得到的，样本子语谱图由样本音频的样本语谱图划分得到，具体训练过程可以参阅前述公开实施例，在此不再赘述。

请参阅图9，图9是本申请设备质检装置90一实施例的框架示意图。设备质检装置90包括：音频获取模块91、特征提取模块92和特征检测模块93，音频获取模块91，用于获取待检设备运行时产生的待测音频；特征提取模块92，用于提取待测音频的声学特征；特征检测模块93，用于利用质检模型检测声学特征，得到待检设备的质检结果；其中，质检模型是利用样本声学特征训练得到的，且样本声学特征是基于样本子语谱图提取得到的，样本子语谱图由样本音频的样本语谱图划分得到。

上述方案，一方面能够有效克服数据短缺的现实问题，有利于提高质检模型的精度，另一方面通过质检模型来进行设备质检，有利于提高设备质检的效率，故此能够同时提高设备质检的效率和精度。

在一些公开实施例中，样本子语谱图是基于若干种预设维度对样本语谱图划分得到的，若干种预设维度包括设备运行阶段、频谱频域区间中至少一者。

因此，通过基于若干种预设维度对样本语谱图进行划分得到样本子语谱图，且若干种预设维度包括设备运行阶段、频谱频域区间中至少一者，故能够从不同维度来对样本语谱图进行切分，有利于进一步丰富训练样本，提升质检模型的性能。

在一些公开实施例中，设备质检装置90包括第一划分模块，用于在预设维度包括设备运行阶段的情况下，基于设备运行阶段，将样本语谱图在时域进行划分，得到样本子语谱图。

因此，在预设维度包括设备运行阶段的情况下，通过基于设备运行阶段，将样本语谱图在时域上划分得到样本子语谱图，能够从设备运行阶段维度划分样本语谱图，以从时域层面丰富训练样本，有利于提升质检模型的性能。

在一些公开实施例中，设备质检装置90包括第二划分模块，用于在预设维度包括频谱频域区间的情况下，基于频谱频域区间，将样本语谱图在频域进行划分，得到样本子语谱图。

因此，在预设维度包括频谱频域区间的情况下，通过基于频谱频域区间，将样本语谱图在频域上划分得到样本子语谱图，能够从频谱频域区间维度划分样本语谱图，以从时域层面丰富训练样本，有利于提升质检模型的性能。

在一些公开实施例中，设备质检装置90包括第三划分模块，第三划分模块包括时域划分子模块和频域划分子模块，且在预设维度包括设备运行阶段和频谱频域区间的情况下，时域划分子模块用于基于设备运行阶段，将样本语谱图在时域划分为若干候选语谱图，频域划分子模块用于对于每一候选语谱图，基于频谱频域区间在频域进行划分，得到样本子语谱图。

因此，在预设维度包括设备运行阶段和频谱频域区间的情况下，通过先基于设备运行阶段将样本语谱图划分为若干候选语谱图，再对每一候选语谱图基于频谱频域区间在频域划分得到样本子语谱图，故能够从设备运行阶段和频谱频域区间两个维度共同划分样本语谱图，从而能够从时域和频域层面尽可能地丰富训练样本，有利于提升质检模型的性能。

在一些公开实施例中，样本声学特征标注有第一标记，第一标记是基于样本子语谱图体现的故障类别和参考的预设维度编码得到的。

因此，通过将样本声学特征标注有第一标记，且第一标记是基于样本子语谱图体现的故障类别和参考的预设维度编码得到的，能够准确约束质检模型学习不同声音特征，有利于提升质检模型的性能。

在一些公开实施例中，在预设维度包括设备运行阶段的情况下，第一标记表征样本子语谱图所处设备运行阶段体现的故障类别；或者，在预设维度包括频谱频域区间的情况下，第一标记表征样本子语谱图所处频谱频域区间体现的故障类别；或者，在预设维度包括设备运行阶段和频谱频域区间的情况下，第一标记表征样本子语谱图所处设备运行阶段和频谱频域区间体现的故障类别。

因此，在预设维度包含内容不同的情况下，第一标记在不同维度体现故障类别，有利于在不同预设维度对应的样本子语谱图监督下，准确约束质检模型学习不同声音特征，有利于提升质检模型的性能。

在一些公开实施例中，样本声学特征标注有第一标记，第一标记表征样本子语谱图所体现的故障类别；设备质检装置90包括模型训练模块，用于利用样本声学特征训练质检模型，且模型训练模块包括样本检测子模块，用于利用质检模型对样本声学特征进行检测，得到第二标记；其中，第二标记表征质检模型检测出的故障类别；模型训练模块还包括参数调整子模块，用于基于第一标记和第二标记之间的差异，调整质检模型的网络参数。

因此，通过分阶段地先结合先验知识提取出样本声学特征，再利用标注有第一标记的样本声学特征来训练质检模型，而不再直接利用样本音频来训练质检模型，能够大大减少质检模型所需要的样本数量，且也有利于减少质检模型的网络参数及其占用空间，有利于大大缩短前向推理时间。

请参阅图10，图10是本申请音频数据扩充装置100一实施例的框架示意图。音频数据扩充装置100包括：样本获取模块101和语谱划分模块102，样本获取模块101用于获取设备运行时的样本音频，并获取样本音频的样本语谱图；其中，设备包括至少两个设备运行阶段；语谱划分模块102用于基于设备运行阶段和频谱频域区间，将样本语谱图进行时域划分和频域划分，得到若干样本子语谱图。

上述方案，通过基于设备运行阶段和频谱频域区间，将样本语谱图进行时域划分和频域划分，得到若干样本子语谱图，能够从时域和频域层面尽可能地扩充训练样本，有利于后续在训练诸如质检模型等相关模型时，提升模型的性能。

在一些公开实施例中，样本音频是设备运行异常时的音频数据。

因此，在设备运行异常时采集得到样本音频，能够在后续在训练过程中，提升诸如质检模型等相关模型区分正常音频和故障音频的能力。

请参阅图11，图11是本申请电子设备110一实施例的框架示意图。电子设备110包括相互耦接的存储器111和处理器112，存储器111中存储有程序指令，处理器112用于执行程序指令以实现上述任一音频数据扩充方法实施例中的步骤，或实现上述任一设备质检方法实施例中的步骤。具体地，电子设备110可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。

具体而言，处理器112用于控制其自身以及存储器111以实现上述任一音频数据扩充方法实施例中的步骤，或实现上述任一设备质检方法实施例中的步骤。处理器112还可以称为CPU(Central Processing Unit，中央处理单元)。处理器112可能是一种集成电路芯片，具有信号的处理能力。处理器112还可以是通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器112可以由集成电路芯片共同实现。

请参阅图12，图12是本申请计算机可读存储介质120一实施例的框架示意图。计算机可读存储介质120存储有能够被处理器运行的程序指令121，程序指令121用于实现上述任一音频数据扩充方法实施例中的步骤，或实现上述任一设备质检方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种设备质检方法，其特征在于，包括：

获取待检设备运行时产生的待测音频；

提取所述待测音频的声学特征；

利用质检模型检测所述声学特征，得到所述待检设备的质检结果；

其中，所述质检模型是利用样本声学特征训练得到的，且所述样本声学特征是基于样本子语谱图提取得到的，所述样本子语谱图由样本音频的样本语谱图划分得到。

2.根据权利要求1所述的方法，其特征在于，所述样本子语谱图是基于若干种预设维度对所述样本语谱图划分得到的，所述若干种预设维度包括设备运行阶段、频谱频域区间中至少一者。

3.根据权利要求2所述的方法，其特征在于，在所述预设维度包括所述设备运行阶段的情况下，所述样本子语谱图的划分步骤包括：

基于所述设备运行阶段，将所述样本语谱图在时域进行划分，得到所述样本子语谱图。

4.根据权利要求2所述的方法，其特征在于，在所述预设维度包括所述频谱频域区间的情况下，所述样本子语谱图的划分步骤包括：

基于所述频谱频域区间，将所述样本语谱图在频域进行划分，得到所述样本子语谱图。

5.根据权利要求2所述的方法，其特征在于，在所述预设维度包括所述设备运行阶段和所述频谱频域区间的情况下，所述样本子语谱图的划分步骤包括：

基于所述设备运行阶段，将所述样本语谱图在时域划分为若干候选语谱图；

对于每一所述候选语谱图，基于所述频谱频域区间在频域进行划分，得到所述样本子语谱图。

6.根据权利要求2所述的方法，其特征在于，所述样本声学特征标注有第一标记，所述第一标记是基于所述样本子语谱图体现的故障类别和参考的预设维度编码得到的。

7.根据权利要求6所述的方法，其特征在于，在所述预设维度包括所述设备运行阶段的情况下，所述第一标记表征所述样本子语谱图所处所述设备运行阶段体现的故障类别；

或者，在所述预设维度包括所述频谱频域区间的情况下，所述第一标记表征所述样本子语谱图所处所述频谱频域区间体现的故障类别；

或者，在所述预设维度包括所述设备运行阶段和所述频谱频域区间的情况下，所述第一标记表征所述样本子语谱图所处所述设备运行阶段和所述频谱频域区间体现的故障类别。

8.根据权利要求1所述的方法，其特征在于，所述样本声学特征标注有第一标记，所述第一标记表征所述样本子语谱图所体现的故障类别，且所述样本子语谱图是基于若干种预设维度对所述样本语谱图划分得到的，所述若干种预设维度包括设备运行阶段和频谱频域区间；所述质检模型的训练步骤包括：

利用所述质检模型对所述样本声学特征进行检测，得到第二标记；其中，所述第二标记表征所述质检模型检测出的故障类别，；

基于所述第一标记和所述第二标记之间的差异，调整所述质检模型的网络参数。

9.一种音频数据扩充方法，其特征在于，包括：

获取设备运行时的样本音频，并获取所述样本音频的样本语谱图；其中，所述设备包括至少两个设备运行阶段；

基于所述设备运行阶段和频谱频域区间，将所述样本语谱图进行时域划分和频域划分，得到若干样本子语谱图。

10.根据权利要求9所述的方法，其特征在于，所述样本音频是所述设备运行异常时的音频数据。

11.一种设备质检装置，其特征在于，包括：

音频获取模块，用于获取待检设备运行时产生的待测音频；

特征提取模块，用于提取所述待测音频的声学特征；

特征检测模块，用于利用质检模型检测所述声学特征，得到所述待检设备的质检结果；

12.一种音频数据扩充装置，其特征在于，包括：

样本获取模块，用于获取设备运行时的样本音频，并获取所述样本音频的样本语谱图；其中，所述设备包括至少两个设备运行阶段；

语谱划分模块，用于基于所述设备运行阶段和频谱频域区间，将所述样本语谱图进行时域划分和频域划分，得到若干样本子语谱图。

13.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至8任一项所述的设备质检方法，或实现权利要求9至10任一项所述的音频数据扩充方法。

14.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至8任一项所述的设备质检方法，或实现权利要求9至10任一项所述的音频数据扩充方法。