CN110808068A

CN110808068A - 一种声音检测方法、装置、设备和存储介质

Info

Publication number: CN110808068A
Application number: CN201911094667.1A
Authority: CN
Inventors: 袁振杰; 雒冬梅; 郝瑞
Original assignee: Beijing Ruantong Zhicheng Technology Co Ltd
Current assignee: Beijing Ruantong Zhicheng Technology Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-02-18

Abstract

本发明实施例公开了一种声音检测方法、装置、设备和存储介质。该声音检测方法包括：根据获取的待检测声音信号得到声音波形图像数据；将所述声音波形图像数据输入到声音检测模型中，得到待检测声音信号的故障类型；其中，所述声音检测模型通过样本声音信号的波形特征、声音波形图像数据和故障类型训练得到。本发明实施例基于声音检测模型对待检测声音信号的声音波形图像数据进行判断，得到待检测声音信号的故障类型。实现了通过在打印设备运行中采集声音信号，实时对声音信号进行故障类型判断，避免对设备故障类型判断不准确或不及时造成设备打印错误的问题，进而提高打印设备的运行效率。

Description

一种声音检测方法、装置、设备和存储介质

技术领域

本发明实施例涉及语音识别领域，尤其涉及一种声音检测方法、装置、设备和存储介质。

背景技术

声音检测是当设备运行时发出异常声音时，通过对异常声音的识别判断设备是否故障。而对于目前工业上经常使用的铸造3D打印设备来说，设备上有一万多个打印喷胶头，当打印喷胶头出现不能喷胶且数量超过百分之十以上时，需要对打印设备进行及时检查。利用打印设备在打印时发出的声音进行设备故障判断，保证了设备正常运转并且一旦出现故障可以及时发现，不会影响打印效率。

目前对于铸造3D打印设备进行声音检测常用的几种方法是：人工对设备声音进行辨别，发现故障声音时对设备进行停止操作并检查故障原因；采用直接改造打印针头机械结构，加装传感器感知打印喷涂是否正常，或者通过传感器设备对故障声音进行感知，如通过听针和听棒等传感器；也可以利用声音采集设备如麦克风或麦克风阵列等采集音频，根据音频信号分析声音谐波，从谐波中分析设备故障的高频数据。

然而，通过人工进行排查故障需要事先对人工进行培训，使得其具有识别不同的故障声音的能力，并且通过人工判断故障声音会造成漏报、延时的情况，造成设备故障发现不及时对设备造成损失。直接改造打印针头机械结构会破坏已有打印头的结构，改造成本大，并且传感器取得的辅助判断信息，无法直接对故障进行判断，且面临在狭小的工作空间改造难度大的问题。通过传感器设备对故障声音进行感知的方法需要在铸造3D打印设备上部署大量感知设备，实施难度较高，增加打印成本。而通过对声音谐波进行故障分析的方法中，对故障所在的频谱范围难以确定，一旦故障声音所在频谱范围确定有误，会导致设备故障声音判断错误。

发明内容

本发明实施例提供一种声音检测方法、装置、设备和存储介质，以提高对设备运行时故障声音的检测准确度。

第一方面，本发明实施例提供了一种声音检测方法，包括：

根据获取的待检测声音信号得到声音波形图像数据；

将所述声音波形图像数据输入到声音检测模型中，得到待检测声音信号的故障类型；其中，所述声音检测模型通过样本声音信号的波形特征、声音波形图像数据和故障类型训练得到。

第二方面，本发明实施例还提供了一种声音检测装置，包括：

波形图像数据确定模块，用于根据获取的待检测声音信号得到声音波形图像数据；

故障类型确定模块，用于将所述声音波形图像数据输入到声音检测模型中，得到待检测声音信号的故障类型；其中，所述声音检测模型通过样本声音信号的波形特征、声音波形图像数据和故障类型训练得到。

第三方面，本发明实施例还提供了一种计算机设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的声音检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的声音检测方法。

本发明实施例基于对样本声音信号的波形特征、声音波形图像数据和故障类型训练得到声音检测模型，使得模型中结合了声音信号的故障波形特征以及整体波形的特征，提高模型对声音信号特征的识别能力，进而提高声音检测模型对故障类型确定的准确性。基于此声音检测模型对待检测声音信号的声音波形图像数据进行判断，得到待检测声音信号的故障类型。实现了通过在打印设备运行中采集声音信号，实时对声音信号进行故障类型判断，避免对设备故障类型判断不准确造成设备打印错误的问题，进而提高打印设备的运行效率。

附图说明

图1是本发明实施例一中的声音检测方法的流程图；

图2是本发明实施例二中的声音检测方法的流程图；

图3是本发明实施例三中的声音检测装置的结构示意图；

图4是本发明实施例四中的计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1是本发明实施例一中的声音检测方法的流程图，本实施例可适用于根据设备运行时的声音判断设备故障类型的情况。该方法可以由声音检测装置来执行，该装置可以采用软件和/或硬件的方式实现，并可配置在计算机设备中，例如计算机设备可以是后台服务器等具有通信和计算能力的设备。如图1所示，该方法具体包括：

步骤101、根据获取的待检测声音信号得到声音波形图像数据。

其中，待检测声音信号是指需要进行故障类型判断的声音，包括铸造3D打印设备在打印时设备发出的声音，根据声音信号可以判断设备的故障类型。可以通过声音采集设备进行获取，声音采集设备可以是安装在铸造3D打印设备上的麦克风或麦克风阵列。通过麦克风采集到的为声波信号，是一种模拟信号，而声音波形图像数据是指将获取到待检测声音信号转化为可视的波形图像，可选的，声音波形图像数据包括声音频谱图，其为二维数据，纵轴为频率，横轴为时间，频谱图反映的是声音信号在时间分辨率下的动态频谱特征，便于从直观上对声音信号的特征进行识别。

具体的，在铸造3D打印设备上安装麦克风阵列，采集打印设备在打印过程中发出的声音，并将该声音处理为横轴是时间纵轴是频率的频谱图数据。可选的，基于灰度分层的伪彩色矩阵将采集到的声音信息映射为彩色频谱图数据，以从可视的角度对声音信号的特征进行识别。

步骤102、将所述声音波形图像数据输入到声音检测模型中，得到待检测声音信号的故障类型。

其中，所述声音检测模型通过样本声音信号的波形特征、声音波形图像数据和故障类型训练得到。样本声音信号是指用于对声音检测模型进行训练采集的设备故障声音信号，样本声音信号的故障类型为已知的，便于声音检测模型根据其故障类型对声音信号的特征进行学习。波形特征是指根据声音信号的故障波形对故障特征进行提取的相关表征系数。声音检测模型是基于机器学习算法对样本声音信号的特征进行学习得到的模型，该模型可以对声音信号的故障类型进行判断。故障类型是指根据待检测声音信号判断设备的具体工作状态。可选的，故障类型根样本声音信号的故障类型进行确定，示例性的，若将样本声音信号分为两种故障类型的声音信号，无故障和有故障，则此时对待检测声音信号进行确定得到的故障类型则为两种：设备无故障或设备有故障；若将样本声音信号根据设备故障的具体情况分为多类，如设备底座故障、设备喷胶头故障和无故障等，则此时对待检测声音信号进行确定得到的故障类型也为：设备底座故障、设备喷胶头故障和无故障。

具体的，预先采集样本声音信号，并获取样本声音信号的故障类型，如无故障和有故障，通过样本声音信号的波形特征、声音波形图像数据和故障类型训练得到声音检测模型，将待检测声音信号的声音波形图像数据输入到声音检测模型中，输出待检测声音信号的故障类型。通过声音检测模型根据设备的声音波形图像数据对设备的故障类型进行实时判断，可以根据不同的故障类型对设备进行调整。

可选的，通过如下步骤训练得到所述声音检测模型：

确定样本声音信号的波形特征和声音波形图像数据；其中，声音波形图像数据反映声音信号在时间维度下的动态频谱特征；

对所述声音波形图像数据进行数据增强操作，得到增强后的声音波形图像数据；

根据增强后的声音波形图像数据和样本声音信号的波形特征，训练得到所述声音检测模型。

其中，波形特征是指对故障声音信号波形的特征进行表征的相关系数，可选的，对故障声音信号的功率谱包络进行显示。数据增强是指为了增加模型训练的数据量，提高模型的泛化能力，或者通过增加噪声数据提升模型的鲁棒性。

具体的，对样本声音信号进行采集并获取相应的故障类型，根据样本声音信号的获取其波形特征，如频率相关系数等，以及声音波形图像数据，如频谱图，并对声音波形图像数据进行数据增强操作，以增加图像数据的数据量以及图像数据中的噪声数据，将增强后的声音波形图像数据和波形特征引入模型训练中，得到声音检测模型。在模型训练中同时引入波形特征以及波形图像数据进行训练，可以从故障波形的细节特征和整体特征上同时进行训练，提高模型对故障波形特征的识别能力。可选的，在训练时将波形图像数据处理为多维向量，将波形特征处理为一维向量，并将波形特征向量加至波形图像数据向量中，增加其维度，在模型训练时提高对特征的提取范围，提高模型对故障类型确定的准确度。

可选的，确定样本声音信号的波形特征，包括：

提取样本声音信号的短时帧信号；

对所述短时帧信号进行傅里叶变换，得到短时帧信号的幅度谱，用于表征短时帧信号的能量分布信息；

确定所述幅度谱的梅尔频率倒谱系数，以作为样本声音波形信号的波形特征。

其中，短时帧信号是指对声音信号进分帧处理提取短时特性，声音信号是非线性时变信号，同时具有短时平稳的特点，因此对声音信号进行短时帧提取，用短时帧信号代表声音信号能提高对声音信号的处理效率，避免一部分干扰因素的影响。傅里叶变换是指从离散的声音采样信号中提取离散频段频谱信息的工具，将原来难以处理的时域信号转换成了易于分析的频域信号(信号的频谱)。幅度谱是指反映声音信号的幅度随时间变化的规律。梅尔频率倒谱系数是指对声音信号的特征进行表征的系数，用于对故障波形的包络特征进行描述。

可选的，在提取样本声音信号的短时帧信号之前，对样本声音信号进行模数转换。样本声音信号是经过麦克风采集，为模拟信号，直接对模拟信号进行处理不利于对故障声音特征的提取，因此需要将声波的模拟信号转换为数字信息，可以通过模数转换器进行转换。示例性的，模数转换器主要包括：采样和量化。由于在生产环境中的声音环境比较复杂，以44.1kHz采样率进行采样，即1s的时间内采样44.1k个样本，这些样本都是以幅度值存储。为了有效存储幅度值，需要将其量化为整数。例如使用16位量化位数，可以表示-32768～32767之间的整数值，所以可以将采样幅度值量化为最近的整数值。

具体的，在对声音信号进行模数转换后，通过预加重和分帧加窗的操作提取样本声音信号的短时帧信号。预加重是指将声音信号通过一个高通滤波器，使得声音信号的频率更平坦，保持在低频到高频的频带中；分帧加窗操作是指对声音信号进行切分，示例性的，可取帧长为30ms、帧移为10ms对声音信号进行分帧加窗处理，最后得到声音信号的短时帧信号。

得到短时帧信号后需要知道获得的每一帧信号在不同频段的能量分布信息，则对短时帧信号进行傅里叶变换，可选的，针对离散声音信号，采取离散傅里叶变换对其进行处理，离散傅里叶变换的输入是分帧加窗处理后的信号，输出是N个频带的复数，表示原始声音信号中某一频率成分的幅度和相位信息。例如，在本发明实施例中，为了提高效率，采取快速傅里叶变换来计算离散傅里叶变换。经过快速傅里叶变换计算，确定声音信号的频谱。

得到声音信号的频谱后，采取能够表征频谱特征的参数对声音信号进行描述。在本发明实施例中，采取该声音信号频谱的梅尔频率倒谱系数对该帧声音的特征进行表征，此外，与梅尔频率倒谱系数一样可以对该帧声音信号的特征进行表征的相关参数均不会脱离本发明的保护范围。示例性的，梅尔频率倒谱系数可以通过如下步骤进行获取：将傅里叶变换的频谱通过一组梅尔滤波器组得到梅尔频谱；其中，梅尔滤波器组一般是一组梅尔刻度的三角形滤波器组，即包括1000Hz以下的10个滤波器线性相隔，1000Hz以上的剩余滤波器对数相隔。定义一个有M个滤波器的滤波器组，采用的滤波器为三角滤波器，中心频率为f(m)，m＝1，2，…，M，例如将M取26(滤波器的个数和临界带个数相近)。各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽。接着对梅尔频谱进行倒谱分析获得梅尔频率倒谱系数；其中，倒谱分析是指对梅尔频谱经过取对数、作逆变换的操作，逆变换一般采取离散余弦变换来实现，最后去离散余弦变换后的第2个到第13个系数作为梅尔频率倒谱系数，至此，梅尔频率倒谱系数可以用来表征该段短时帧信号的特征，以供模型进行学习故障声音的特征。

可选的，所述数据增强操作包括如下至少一项：旋转操作、平移操作和添加噪声操作。

其中，旋转操作是指对声音波形图像数据作旋转操作，示例性的，以水平面为对称轴对声音波形图像数据进行旋转。平移操作是指对声音波形图像数据作平移操作，示例性的，以垂直面为对称轴对声音波形图像数据进行平移。添加噪声操作是指利用对声音波形数据进行噪声处理，更好地对设备在生产过程中环境产生的噪声进行模拟，更贴合实际情况。可选的，选取高斯噪声进行添加噪声处理。

本发明实施例基于对样本声音信号的波形特征、声音波形图像数据和故障类型训练得到声音检测模型，使得模型中结合了声音信号的故障波形细节特征以及整体波形的特征，提高模型对声音信号特征的识别能力，进而提高声音检测模型对故障类型确定的准确性。基于此声音检测模型对待检测声音信号的声音波形图像数据进行判断，得到待检测声音信号的故障类型。实现了通过在打印设备运行中采集声音信号，实时对声音信号进行故障类型判断，避免对设备故障类型判断不准确或不及时造成设备打印错误的问题，进而提高打印设备的运行效率。

实施例二

图2是本发明实施例二中的声音检测方法的流程图，本实施例二在实施例一的基础上进行进一步地优化。如图2所示，所述方法包括：

步骤201、对双向长短时记忆网络进行预训练得到声音检测模型。

可选的，所述声音检测模型的网络结构为双向长短时记忆网络；其中，所述双向长短时记忆网络为在长短时记忆网络中添加一层与正向隐层同规模的反向隐层，将两个隐层连接到输出层上得到的。

具体的，长短时记忆网络是利用具有记忆能力的长短时记忆神经元替代常规循环神经网络的网络单元。长短时记忆神经元类似于计算机内的存储单元，每个单元包含一个或多个内部的存储器和三个门控(输入、输出和忘记门)，门控用于长短时记忆单元的读写和复位操作，最终长短时记忆网络通过不同类型的门控来决定信息流是否保持或更改。这种结构克服了循环神经网络不能学习长期依赖的难题，在特征相关间隔很长时，这种结构的优势会更加明显。正是由门控组成的特殊结构保证了长短时记忆网络能在场时间段内保存和访问信息，从而解决了梯度消失或爆炸的问题。

本发明对长短时记忆网络结构进行改造，在原网络正向隐层的基础上加一层同规模的反向隐层，然后将两个独立的隐层都连接到输出层上，构成双向的长短时记忆网络结构。反向隐层将正向隐层提取出的特征进行反馈，使得网络对声音信号的特征识别能力提高，进而提高网络对待检测声音信号的识别能力，提高对声音信号的故障类型的判断准确性。

使用实际生产设备故障声音信号对该方法进行了验证，结果表明，基于双向长短时记忆网络对设备声音进行检测能够在不依赖人工提取特征的情况下，对待检测声音信号进行识别分类，具备智能化识别分类能力，提高对设备故障的处理效率和识别准确性。

可选的，将双向长短时记忆网络集成到算法分析服务集群中，以便于可以同时对多个待检测声音信号进行故障类型确定，提高对待检测声音信号的处理效率。

步骤202、根据获取的待检测声音信号得到声音波形图像数据。

步骤203、将所述声音波形图像数据输入到声音检测模型中，得到待检测声音信号的故障类型。

可选的，在确定待检测声音信号的故障类型后，将结果告知生产设备。可选的，通过web端告警，短信、邮件等方式通知设备维护人员及时对设备故障进行处理。并且提供接口服务，对接生产设备，将设备异常情况告知生产设备，由生产设备利用规则进行及时处理。提高对设备故障的处理效率，进而提升设备的生产效率。

本发明实施例基于长短时记忆网络结构进行改造，引入双向长短时记忆网络结构对待检测声音信号进行检测，反向隐层的增加提高了网络对声音信号特征的识别能力，进而提高网络对待检测声音的识别准确性。

实施例三

图3是本发明实施例三中的声音检测装置的结构示意图，本实施例可适用于根据设备运行时的声音判断设备故障类型的情况。如图3所示，该装置包括：

波形图像数据确定模块310，用于根据获取的待检测声音信号得到声音波形图像数据；

故障类型确定模块320，用于将所述声音波形图像数据输入到声音检测模型中，得到待检测声音信号的故障类型；其中，所述声音检测模型通过样本声音信号的波形特征、声音波形图像数据和故障类型训练得到。

可选的，通过声音检测模型训练模块训练得到所述声音检测模型，所述声音检测模型训练模块包括：

波形特征和图像数据确定单元，用于确定样本声音信号的波形特征和声音波形图像数据；其中，声音波形图像数据反映声音信号在时间维度下的动态频谱特征；

数据增强单元，用于对所述声音波形图像数据进行数据增强操作，得到增强后的声音波形图像数据；

模型训练单元，用于根据增强后的声音波形图像数据和样本声音信号的波形特征，训练得到所述声音检测模型。

可选的，波形特征和图像数据确定单元中确定样本声音信号的波形特征，包括：

提取样本声音信号的短时帧信号；

本发明实施例所提供的声音检测装置可执行本发明任意实施例所提供的声音检测方法，具备执行声音检测方法相应的功能模块和有益效果。

实施例四

图4是本发明实施例四提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储装置28，连接不同系统组件(包括系统存储装置28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储装置总线或者存储装置控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储装置28可以包括易失性存储装置形式的计算机系统可读介质，例如随机存取存储装置(RAM)30和/或高速缓存存储装置32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储装置28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储装置28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储装置28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的声音检测方法，包括：

根据获取的待检测声音信号得到声音波形图像数据；

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的声音检测方法，包括：

根据获取的待检测声音信号得到声音波形图像数据；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种声音检测方法，其特征在于，包括：

根据获取的待检测声音信号得到声音波形图像数据；

2.根据权利要求1所述的方法，其特征在于，通过如下步骤训练得到所述声音检测模型：

3.根据权利要求2所述的方法，其特征在于，确定样本声音信号的波形特征，包括：

提取样本声音信号的短时帧信号；

4.根据权利要求2所述的方法，其特征在于，所述数据增强操作包括如下至少一项：旋转操作、平移操作和添加噪声操作。

5.根据权利要求1所述的方法，其特征在于，所述声音检测模型的网络结构为双向长短时记忆网络；其中，所述双向长短时记忆网络为在长短时记忆网络中添加一层与正向隐层同规模的反向隐层，将两个隐层连接到输出层上得到的。

6.一种声音检测装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，通过声音检测模型训练模块训练得到所述声音检测模型，所述声音检测模型训练模块包括：

8.根据权利要求7所述的装置，其特征在于，波形特征和图像数据确定单元中确定样本声音信号的波形特征，包括：

提取样本声音信号的短时帧信号；

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的声音检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的声音检测方法。