CN116612783B

CN116612783B - 一种声音识别方法、装置、电子设备及存储介质

Info

Publication number: CN116612783B
Application number: CN202310868878.6A
Authority: CN
Inventors: 白欲立; 屠程远; 李亦硕
Original assignee: Lenovo New Vision Beijing Technology Co Ltd
Current assignee: Lenovo New Vision Beijing Technology Co Ltd
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-10-27
Anticipated expiration: 2043-07-17
Also published as: CN116612783A

Abstract

本申请公开了一种声音识别方法、装置、电子设备及存储介质，该方法包括：获取符合第一要求的第一声音数据；将第一声音数据划分为多个识别单元；基于识别单元构建用于特征提取的三通道图片；将三通道图片输入到目标神经网络中，以对三通道图片进行特征提取，生成多个特征图；将特征图分别输入到与目标神经网络连接的全连接层分类网络和对比学习卷积网络进行处理，以分别得到特征图的交叉熵损失数据以及对比学习损失数据；将交叉熵损失数据以及对比学习损失数据进行融合，生成相应的损失数据，其中损失数据用于对目标神经网络进行训练；基于训练后的目标神经网络对目标声音数据进行识别。该方法能够准确确定出目标物的故障概率分布。

Description

一种声音识别方法、装置、电子设备及存储介质

技术领域

本申请涉及声音识别领域，特别涉及一种声音识别方法、装置、电子设备及存储介质。

背景技术

汽车故障诊断技术是指在汽车不解体或不完全解体的前提下，依靠先进的传感器技术与监测技术，通过采集汽车的某些特征的动态信息，并提取特征、分析处理，区分和识别这些信息并确认其异常表现，预测其状态发展趋势，查明其发生部位、产生原因和严重程度，并提出针对性的维修措施和处理方法，并提供公正的科学的数据的汽车应用技术。

目前，记录车辆数据的主要工具是行车记录仪，但是行车记录仪对汽车的音频信号关注度不够。实际上，汽车在行驶过程中声音的音调音色都在很大程度上反应汽车的运行状态，对于有经验的技术人员而言，往往可以通过听汽车运行的声音来确定汽车到底哪里发生了故障，以及具体的故障具体情况。但是，毕竟有经验的技术人员有限作业效率低，而且有时候人工作业容易出现故障判断不准确的问题。

发明内容

本申请实施例的目的在于提供一种声音识别方法、装置、电子设备及存储介质，该方法能够针对目标声音数据进行识别，提高识别效率的同时，能够准确的确定出目标物的故障的概率分布。

为了实现该目的，本申请实施例提供了一种声音识别方法，包括：

获取符合第一要求的第一声音数据；

将所述第一声音数据划分为多个识别单元；

基于所述识别单元构建用于特征提取的三通道图片，其中所述三通道图片与目标神经网络相适配；

将所述三通道图片输入到所述目标神经网络中，以对所述三通道图片进行特征提取，生成多个特征图；

将所述特征图分别输入到与所述目标神经网络连接的全连接层分类网络和对比学习卷积网络进行处理，以分别得到所述特征图的交叉熵损失数据以及对比学习损失数据；

将所述交叉熵损失数据以及对比学习损失数据进行融合，生成相应的损失数据，其中所述损失数据用于对所述目标神经网络进行训练；

基于训练后的所述目标神经网络对目标声音数据进行识别。

作为可选，所述获取符合第一要求的第一声音数据，包括：

获取目标场景的视频数据；

在所述视频数据符合识别场景要求的情况下，基于预设采样率，从所述视频数据中获取所述第一声音数据。

作为可选，所述基于所述识别单元构建用于特征提取的三通道图片，包括：

对所述识别单元进行短时傅里叶变换，生成相应的频谱图；

基于多个频率段，将所述频谱图划分为多个与所述频率段对应的频谱子图；

基于多个所述频谱子图，生成所述三通道图片。

作为可选，所述方法还包括对所述目标神经网络进行训练，其中包括：

将训练特征图分别输入到所述全连接层分类网络以及所述对比学习卷积网络，分别得到所述训练特征图的训练交叉熵损失数据以及第一训练对比学习损失数据；

将训练特征图输入到训练支路，经过所述训练支路对所述训练特征图进行编码后得到第二训练对比学习损失数据；

将所述第二训练对比学习损失数据发送到所述对比学习卷积网络，以使所述对比学习卷积网络基于所述第一训练对比学习损失数据和所述第二训练对比学习损失数据，生成训练对比学习损失数据。

作为可选，所述对所述目标神经网络进行训练，还包括：

将所述训练交叉熵损失数据以及所述训练对比学习损失数据进行融合，生成相应的训练损失数据；

通过优化器将所述训练损失数据进行最小化处理，以对所述目标神经网络进行训练。

作为可选，所述对所述目标神经网络进行训练，还包括：

将训练识别单元划分为训练集及和测试集；

将所述训练集划分为多个交叉素材，其中每个交叉素材中均具有验证集；

对所述训练识别单元进行短时傅里叶变换，生成相应的训练频谱图；

对所述训练频谱图进行数据增强操作，以扩大所述训练频谱图的数据量。

作为可选，所述对所述目标神经网络进行训练，还包括：

基于所述交叉素材，训练出所述目标神经网络的预定数量的第一网络模型；

将所有的所述第一网络模型进行模型融合，生成融合模型。

作为可选，所述基于训练后的所述目标神经网络对目标声音数据进行识别，包括：

根据识别操作中得到的故障种类的数量和/或频率，确定所述目标声音数据对应的故障种类的概率分布。

作为可选，所述方法还包括：

利用回归模型，将所述故障种类的置信度与经验数据相关联，以对确定的所述故障种类的置信度进行校准。

本申请实施例还提供了一种声音识别装置，包括：

获取模块，其配置为获取符合第一要求的第一声音数据；

划分模块，其配置为将所述第一声音数据划分为多个识别单元；

构建模块，其配置为基于所述识别单元构建用于特征提取的三通道图片，其中所述三通道图片与目标神经网络相适配；

处理模块，其配置为将所述三通道图片输入到所述目标神经网络中，以对所述三通道图片进行特征提取，生成多个特征图；将所述特征图分别输入到与所述目标神经网络连接的全连接层分类网络和对比学习卷积网络进行处理，以分别得到所述特征图的交叉熵损失数据以及对比学习损失数据；将所述交叉熵损失数据以及对比学习损失数据进行融合，生成相应的损失数据，其中所述损失数据用于对所述目标神经网络进行训练；

识别模块，其配置为基于训练后的所述目标神经网络对目标声音数据进行识别。

本申请实施例还提供了一种电子设备，包括：存储器和处理器，所述存储器中存储有可执行程序，所述处理器执行所述可执行程序以实现如上所述方法的步骤。

本申请实施例还提供了一种存储介质，所述存储介质承载有一个或者多个计算机程序，所述一个或者多个计算机程序被处理器执行时实现如上所述方法的步骤。

本申请的该声音识别方法，通过使用训练后的目标神经网络自动对汽车等目标物的目标声音数据进行识别，提高识别效率的同时，能够准确的确定出目标物的故障的概率分布，从而为用户排除故障提供有效帮助。

附图说明

图1为本申请实施例的声音识别方法的流程图；

图2为本申请实施例的图1中步骤S100的一个实施例的流程图；

图3为本申请实施例的图1中步骤S300的一个实施例的流程图；

图4为本申请实施例的对目标神经网络进行训练的第一个实施的流程图；

图5为本申请实施例的对目标神经网络进行训练的第二个实施的流程图；

图6为本申请实施例的对目标神经网络进行训练的第三个实施的流程图；

图7为本申请实施例的对目标神经网络进行训练的第四个实施的流程图；

图8为本申请实施例的目标神经网络的结构关系示意图；

图9为本申请实施例的声音识别装置的结构框图；

图10为本申请实施例的电子设备的结构框图。

具体实施方式

此处参考附图描述本申请的各种方案以及特征。

应理解的是，可以对此处申请的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式。

当结合附图时，鉴于以下详细说明，本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例；然而，应当理解，所申请的实施例仅仅是本申请的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此，本文所申请的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本申请的相同或不同实施例中的一个或多个。

本申请实施例的一种声音识别方法，该方法能够对故障音频进行识别，如对汽车的故障音频进行识别，从而确定出一个或多个故障的概率。例如，司机可以在车内安静的环境下录制一段视频，提交给相关应用程序，相关应用程序通过从视频中抽取音频文件并进行分析，得到一个各种故障类型的概率分布，反馈给司机。司机就可以根据有关反馈合理安排解决方案。

该方法包括获取应用场景的视频，该视频可以用于确定采集场景是否符合采集要求。如果符合采集要求，则可以从该视频中提取出符合第一要求的第一声音数据，第一声音数据可以是用于训练目标神经网络的音频数据。按照预设时长将第一声音数据划分为多个音频单元，每个音频单元可以作为一个故障音频的识别单元使用。随后可以将将识别单元进行短时傅里叶变换转成频谱图。转成频谱图之后，基于高、中、低频将频谱图分成三段数据，再将三段数据组合成一个三通道图片，可以作为目标神经网络的输入。如输入具有resnet50+self-attention的目标神经网络做特征提取。目标神经网络是融合了卷积层、残差网络和attention的网络的网络结构，对其可以大量使用注意力机制和残差网络，以减少过拟合的风险。在对三通道图片特征提取之后，特征图feature map 分别输入三个子网络中，第一输入到全连接层分类网络，第二输入到对比学习卷积网络，第三输入到训练支路Batchformer作为训练数据使用以对目标神经网络进行训练，经过训练支路Batchformer编码之后在进入对比学习卷积网络。全连接层分类网络可以得到交叉熵损失数据（交叉熵loss），而对比学习网络可以得到对比学习损失数据（对比学习loss）。将各个损失数据（loss）做融合，作为神经网络模型的损失数据，利用目标神经网络对目标声音数据进行识别。

下面结合附图对该声音识别方法进行详细的说明。图1为本申请实施例的声音识别方法的流程图，如图1所示，该声音识别方法包括以下步骤：

S100，获取符合第一要求的第一声音数据。

示例性的，第一声音数据可以是用于训练目标神经网络的音频数据，其本身可以是目标物的音频数据，如可以是出现故障的汽车的相关音频数据等。第一声音数据是识别目标，同时也是通过声音识别对故障进行判断的基础数据，其具有对应的第一要求。在一个实施例中，第一要求包括采集场景的要求，声音质量的要求以及采集时间的要求。通过对第一声音数据的标识信息进行识别，从而能够确定第一声音数据是否符合第一要求。在另一个实施例中，可以通过采集目标物的视频数据，再从视频数据中提取到第一声音数据。

针对第一要求举例说明，采集场景要求规定的时间内，在安静的环境下，针对特定的目标进行声音采集，从而保证获取到的第一声音数据符合要求。否则可以生成提示信息，以提示用户，该第一声音数据不符合第一要求，请求重新采集相关文件。

S200，将所述第一声音数据划分为多个识别单元。

示例性的，第一声音数据可以是整体的音频数据，其中包含的表征故障的音频可能分布在该第一声音数据的各个位置。本实施例中基于预设时间间隔将第一声音数据划分为多个识别单元。例如，按照5秒为一个窗口步长进行滑动窗口的切分，形成多个识别单元。当然时间间隔可以根据实际需要进行调整，从而使得识别单元能够明显的表征故障音频。

S300，基于所述识别单元构建用于特征提取的三通道图片，其中所述三通道图片与目标神经网络相适配。

示例性的，三通道图片与目标神经网络相适配，可以作为目标神经网络的输入。三通道图片可以是彩色图，也可以是灰度模式的图像。在一个实施例中，三通道图片的每个像素点都由3个值表示，分别指RGB(红,绿,蓝)通道。

基于识别单元构建相应的三通道图片，从而可以作为目标神经网络的输入。在一个实施例中，可以将多个识别单元进行傅里叶变换，生成相应的频谱图并降低运算量。在另一个实施例中可以将识别单元进行短时傅里叶变换生成频谱图。其中短时傅里叶变换是和傅里叶变换相关的一种数学变换，用以确定相应的时变信号及其局部区域正弦波的频率与相位。

频谱图横轴表示时间，纵轴表示频率，具体坐标上的颜色表示声音强度，声音信号可以通过频谱图的方式被记录。再基于频谱图生成相应的三通道图片。从而实现由音频转换为相应的图像，以便使用该三通道图片来进行特征识别。

S400，将所述三通道图片输入到所述目标神经网络中，以对所述三通道图片进行特征提取，生成多个特征图。

示例性的，目标神经网络可以基于卷积层、残差网络和attention网络进行构建。在一个实施例中，该目标神经网络主要通过卷积加注意力机制，在整体提取图片特征的同时还兼顾到图片每个区域的重要性权重，进而更加准确地捕捉到和故障声音识别直接相关的声音频谱特征。

目标神经网络构建后需要对其进行训练。例如，构建于目标神经网络训练支路Batchformer，通过训练支路Batchformer使用相应的训练数据对目标神经网络进行训练。

使用时，可以将三通道图片输入到训练后的目标神经网络中，从而对三通道图片进行特征提取，生成多个用于表示各个特征的特征图。

S500，将所述特征图分别输入到与所述目标神经网络连接的全连接层分类网络和对比学习卷积网络进行处理，以分别得到所述特征图的交叉熵损失数据以及对比学习损失数据。

示例性的，结合图8，目标神经网络具有输入侧用于输入特征图等数据。在一个实施例中，目标神经网络分别与训练支路、全连接层分类网络和对比学习卷积网络连接。训练支路用于对目标神经网络进行训练。

全连接层分类网络的每一个节点都与前层的节点全部互连，整合前层网络提取的特征，并把特征映射到样本标记空间。全连接层分类网络对前层输出的特征进行加权求和，并把结果输入到激活函数，最终完成目标的分类。

对比学习卷积网络可以针对不同类别的故障的相关数据进行对比，从而对比学习不同样本之间的差距。

本实施例中，将特征图输入到全连接层分类网络得到所述特征图的交叉熵损失数据；将特征图输入对比学习卷积网络进行处理，得到特征图的对比学习损失数据。其中，交叉熵损失数据以及对比学习损失数据均可以是相应的损失函数loss。损失函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。损失函数可以作为学习准则与优化问题相联系，通过最小化损失函数求解和评估模型。

S600，将所述交叉熵损失数据以及对比学习损失数据进行融合，生成相应的损失数据，其中所述损失数据用于对所述目标神经网络进行训练。

示例性的，将交叉熵损失数据以及对比学习数据进行融合，具体的融合处理可以是加权平均法，也可以是选择最小损失的数据方式等。

融合生成的损失数据可以被用于对目标神经网络进行训练。在训练目标神经网络时，可以使用多个不同的损失函数来计算误差，并将它们进行融合作为训练目标。而在使用目标神经网路对特征图进行推断过程中，并不仅使用一个损失数据（损失函数，如交叉熵），而是通过将交叉熵损失数据以及对比学习损失数据进行融合处理，生成的相应的损失数据可以作为目标神经网络的损失函数。避免目标神经网络在对第一声音数据进行识别过程中，忽略各网络中其他重要的信息，而导致最终的结果不够准确。

S700，基于训练后的所述目标神经网络对目标声音数据进行识别。

示例性的，本实施例中可以将融合后得到的损失数据作为目标神经网络的损失函数，通过目标神经网络中的预设深度学习算法对特征图进行识别，得到的识别结果可以表征目标物的故障的概率分布，从而实现对目标声音数据的识别。目标声音数据可以是识别目标，例如，目标声音数据是故障汽车的音频数据，目标神经网络对目标声音数据识别后得到该汽车的至少一个故障的概率分布。

在本申请的一个实施例中，如图2所示，所述获取符合第一要求的第一声音数据，包括以下步骤：

S110，获取目标场景的视频数据。

示例性的，目标场景可以是所需要声音识别的目标物所处的使用场景。如目标物为汽车，而汽车的故障声音需要被识别。目标场景则是该汽车在发动状态的场景，包括周围环境、汽车本身、记录时间等场景信息。通过采集设备可以采集到该目标场景的视频数据，该视频数据能够记录目标场景中的有效信息。

S120，在所述视频数据符合识别场景要求的情况下，基于预设采样率，从所述视频数据中获取所述第一声音数据。

示例性的，采集后的视频数据需要对其内容进行分析以确定是否符合识别场景要求。视频数据中包含了目标物所处的目标场景中的有效信息，例如，视频数据记录了目标物的身份信息、采集的时间信息、噪音信息等。需要对身份信息、采集的时间信息、噪音信息等信息进行判断，以确定上述信息是否符合识别场景要求。例如，确定目标物的身份信息合法，确定采集时间符合要求、采集场景噪音也在合理范围内，则可以确定视频数据符合识别场景要求。否则可以要求重新采集视频数据。

而针对符合识别场景要求的视频数据，则可以基于预设采样率，从中获取第一声音数据。例如，利用分析系统用ffmpeg从视频数据中按照44100的采样率抽取长音频wav文件，即第一声音数据。基于视频数据获取第一声音数据的方式避免了接触式维修，实现用简单的收集录制视频的办法解决接触式维修的问题。

在本申请的一个实施例中，所述基于所述识别单元构建用于特征提取的三通道图片，如图3所示，包括：

S310，对所述识别单元进行短时傅里叶变换，生成相应的频谱图；

S320，基于多个频率段，将所述频谱图划分为多个与所述频率段对应的频谱子图；

S330，基于多个所述频谱子图，生成所述三通道图片。

示例性的，短时傅里叶变换是和傅里叶变换相关的一种数学变换，用以确定识别单元对应的时变信号及其局部区域正弦波的频率与相位，生成相应的频谱图。频谱图为频率分布图，能够用于显示信号中包含的不同频率成分。例如可以以横轴纵轴的波纹方式，记录画出信号在各种频率的图形资料。

获取到频谱图后，可以基于高、中、低频将频谱图分成多个与各个频率段对应的频谱子图，再将频谱子图组合成一个三通道图片，可以作为目标神经网络的输入。具体来说，三通道图片与目标神经网络相适配的输入数据，三通道图片可以是彩色图，也可以是灰度模式的图像。在一个实施例中，三通道图片的每个像素点都由3个值表示，分别指RGB（红，绿，蓝）通道。

在本申请的一个实施例中，所述方法还包括对所述目标神经网络进行训练。其中包括获取训练特征图，该过程可以基于获取的训练视频提取出训练音频，并加入背景音频，形成训练数据，再基于训练数据生成相应的训练特征图。

举例说明，首先，可以针对目标物的每类故障至少要获取100条以上的视频。具体的，在训练的过程中，可以由汽车生产厂家的维修人员专门录制了不同故障类型的视频，每种类型的故障数量超过100条。每条故障音频都标注有大分类以及大分类下的子分类（整个推断过程是同时预测大分类和小分类，然后将小分类的结果归于大分类做融合，最终推断出大分类的概率）。然后，为了区别故障音和背景音，可以收集和汽车行驶、停车场景相似的各种背景音，同时还可以利用多款不同的采集设备的采集设备背景音，如收集了手机背景音。前者的作用是为了让目标神经网络区分环境背景音，后者是为了让目标神经网络更好的区分采集设备背景音。另一方面，为了让目标神经网络能够区分各种非形式状态下的环境背景音，还可以合并通用的ESC50数据集。在融合成一个大数据集之后，再进行上文中所述的抽帧、切片以及短时快速傅里叶变换，形成训练频谱图。基于高频、中频以及低频的频率段，将训练频谱图划分为多个与频率段对应的训练频谱子图，基于多个训练频谱子图，生成训练三通道图片。将训练三通道图片输入到目标神经网络中，以对训练三通道图片进行特征提取，生成多个训练特征图。

在一个实施例中，对所述目标神经网络进行训练，如图4所示并结合图8，还包括以下步骤：

S810，将训练特征图分别输入到所述全连接层分类网络以及所述对比学习卷积网络，分别得到所述训练特征图的训练交叉熵损失数据以及第一训练对比学习损失数据。

示例性的，目标神经网络分别与训练支路、全连接层分类网络和对比学习卷积网络连接。全连接层分类网络的每一个节点都与前层的节点全部互连，整合前层网络提取的特征，并把特征映射到样本标记空间。全连接层分类网络对前层输出的特征进行加权求和，并把结果输入到激活函数，最终完成目标的分类。

对比学习卷积网络可以针对不同类别的故障的相关数据进行对比，从而对比学习不同样本之间的差距。将训练特征图输入到全连接层分类网络得到特征图的训练交叉熵损失数据；将训练特征图输入对比学习卷积网络进行处理，得到特征图的第一训练对比学习损失数据。其中，训练交叉熵损失数据以及第一训练对比学习损失数据均可以是相应的损失函数loss。

S820，将训练特征图输入到训练支路，经过所述训练支路对所述训练特征图进行编码后得到第二训练对比学习损失数据。

示例性的，训练支路（Batchformer）用于对目标神经网络进行训练，当然训练支路也可以利用全连接层分类网络和对比学习卷积网络对目标神经网络进行训练。将训练特征图输入到训练支路，经过Batchformer编码之后得到第二训练对比学习损失数据。

S830，将所述第二训练对比学习损失数据发送到所述对比学习卷积网络，以使所述对比学习卷积网络基于所述第一训练对比学习损失数据和所述第二训练对比学习损失数据，生成训练对比学习损失数据。

示例性的，训练支路（Batchformer）分别与对比学习卷积网以及目标神经网络连接，训练支路（Batchformer）将第二训练对比学习损失数据发送到对比学习卷积网络，对比学习卷积网络将第一训练对比学习损失数据和第二训练对比学习损失数据进行融合，生成训练对比学习损失数据。

在本申请的一个实施例中，所述对所述目标神经网络进行训练，如图5所示，还包括以下步骤：

S840，将所述训练交叉熵损失数据以及所述训练对比学习损失数据进行融合，生成相应的训练损失数据；

S850，通过优化器将所述训练损失数据进行最小化处理，以对所述目标神经网络进行训练。

示例性的，使用多个不同的损失函数来计算误差，并将它们进行融合作为训练目标。通过将训练交叉熵损失数据以及训练对比学习损失数据进行融合处理，生成的相应的训练损失数据可以作为目标神经网络的损失函数。避免目标神经网络在对第一声音数据进行识别过程中，忽略各网络中其他重要的信息，而导致最终的结果不够准确。而对于具体的融合处理可以是加权平均法，也可以是选择最小损失的数据方式等。

将融合后得到的训练损失数据作为目标神经网络的损失函数，通过adam优化器将训练损失数据做最小化处理，可以训练出目标神经网络的一组网络模型。该网络模型可以用于对特征图进行识别。

在本申请的一个实施例中，所述对所述目标神经网络进行训练，如图6所示，还包括以下步骤：

S860，将训练识别单元划分为训练集及和测试集；

S870，将所述训练集划分为多个交叉素材，其中每个交叉素材中均具有验证集；

S880，对所述训练识别单元进行短时傅里叶变换，生成相应的训练频谱图；

S890，对所述训练频谱图进行数据增强操作，以扩大所述训练频谱图的数据量。

示例性的，基于多个确定的训练识别单元，可以形成相应的数据集。本实施例中，可以将数据集划分为训练集及和测试集，其中训练集可以用于对目标神经网络进行训练，而测试集则可以在训练过程中对目标神经网络的训练结果进行测试。

例如，将80%数量（或数据量）的视频形成的训练识别单元作为训练集，将20%数量（或数据量）的视频形成的训练识别单元作为测试集。训练集再划分成5个交叉素材crossfolder ，其中，5个中的1个交叉素材cross folder可以作为验证集。验证集可以用于对训练出的目标神经网络的网络模型进行ensemble。

对训练识别单元进行短时傅里叶变换，生成相应的训练频谱图。为了充分运用有限的数据，可以对训练频谱图进行数据增强操作，从而扩大训练频谱图的数据量。

数据增强操作可以通过针对频谱图增加频谱mix等方式实现训练频谱图的数据量的扩大。还可以对与频谱图关联的包络图进行剪切等数据增强手段来实现数据增强操作。此外还可以采用训练时在线随机增强、增强概率随训练轮数变化的手段。既解决了数据量少的问题，也利用了声音的内在特点，使得训练出的网络模型能有更好的泛化能力。

在本申请的一个实施例中，所述对所述目标神经网络进行训练，如图7所示，还包括：

S811，基于所述交叉素材，训练出所述目标神经网络的预定数量的第一网络模型；

S812，将所有的所述第一网络模型进行模型融合，生成融合模型。

示例性的，基于多个确定的训练识别单元，形成相应的数据集，并对数据集进行划分。划分好数据集之后，就可以将其输入目标神经网络中，对目标神经网络进行训练。例如，基于5个交叉素材cross folder，就可以训练出目标神经网络的5个第一网络模型，用于进行数据的融合。具体的，在每个交叉素材cross folder上至少训练4次，每次取准确率高前3个网络模型，得到12个网络模型。对这12个网络模型再做模型的融合，得到提高了准确率的融合模型。5个第一网络模型共做5次融合，可以得到准确率最高的5个融合模型，目标神经网络通过得到的融合模型来对第一声音数据进行识别能够有效的提高识别的准确度。

在本申请的一个实施例中，所述基于训练后的所述目标神经网络对目标声音数据进行识别，包括：

示例性的，目标声音数据为识别目标，如其可以是用户提供车辆的音频数据，以期望通过对该目标声音数据来确定车辆的故障。目标神经网络利用其具有的多个网络模型对目标声音数据进行多次的识别操作，均可以得到相应的识别结果。基于多个识别结果中故障种类的数量和/或频率，再确定出目标声音数据对应的故障种类的概率分布。

例如，在使用多个网络模型对目标声音数据进行识别操作后，选取连续两个或三个相同的识别结果对应故障种类作为最终的识别结果。如果识别结果中确定出了多个不同的故障种类，则选取故障对应的置信度最高的那类故障作为主故障。

在本申请的一个实施例中，所述方法还包括：

示例性的，回归模型是对统计关系进行定量描述的一种数学模型，回归模型可以进行回归分析，回归分析可以构建因变量（目标）和自变量（预测器）之间的关系。本实施例中，利用回归模型将故障种类的置信度与经验数据相关联，其中，经验数据可以是针对目标物而真实出现的故障相关信息，如故障种类，以及各个故障种类的概率分布等。

通过将预测样本置信度分布与真实样本故障概率分布做回归，能够得到更为准确地贴合现实的预测故障概率分布。具体的，将识别出的故障种类的置信度与经验数据（真实样本故障概率分布）进行对比，当对比结果表明两者的区别度在一定范围内，则可以确定识别出的故障种类准确。而如果区别度超出一定范围，则可以对确定的故障种类的置信度进行校准，进而使得校准后的故障置信度能够真实反应故障发生概率。

基于同样的发明构思，本申请实施例还提供了一种声音识别装置，如图9所示，包括：

获取模块，其配置为获取符合第一要求的第一声音数据。

示例性的，第一声音数据可以是用于训练目标神经网络的音频数据，其本身可以是目标物的音频数据，如该目标物可以是出现故障的汽车等。第一声音数据是识别目标，同时也是通过声音识别对故障进行判断的基础数据，其具有对应的第一要求。在一个实施例中，第一要求包括采集场景的要求，声音质量的要求以及采集时间的要求。获取模块通过对第一声音数据的标识信息进行识别，从而能够确定第一声音数据是否符合第一要求。在另一个实施例中，获取模块可以通过采集目标物的视频数据，再从视频数据中提取到第一声音数据。

示例性的，第一声音数据可以是整体的音频数据，其中包含的表征故障的音频可能分布在该第一声音数据的各个位置。本实施例中划分模块基于预设时间间隔将第一声音数据划分为多个识别单元。例如，划分模块按照5秒为一个窗口步长进行滑动窗口的切分，形成多个识别单元。当然时间间隔可以根据实际需要进行调整，从而使得识别单元能够明显的表征故障音频。

构建模块基于识别单元构建相应的三通道图片，从而可以作为目标神经网络的输入。在一个实施例中，构建模块可以将多个识别单元进行傅里叶变换，生成相应的频谱图并降低运算量。在另一个实施例中构建模块可以将识别单元进行短时傅里叶变换生成频谱图。其中短时傅里叶变换是和傅里叶变换相关的一种数学变换，用以确定相应的时变信号及其局部区域正弦波的频率与相位。

频谱图可以以横轴纵轴的波纹方式，记录画出信号在各种频率的图形资料。构建模块再基于频谱图生成相应的三通道图片。从而实现由音频转换为相应的图像，以便使用该三通道图片来进行特征识别。

处理模块，其配置为将所述三通道图片输入到所述目标神经网络中，以对所述三通道图片进行特征提取，生成多个特征图；将所述特征图分别输入到与所述目标神经网络连接的全连接层分类网络和对比学习卷积网络进行处理，以分别得到所述特征图的交叉熵损失数据以及对比学习损失数据；将所述交叉熵损失数据以及对比学习损失数据进行融合，生成相应的损失数据，其中所述损失数据用于对所述目标神经网络进行训练。

使用时，处理模块可以将三通道图片输入到训练后的目标神经网络中，从而对三通道图片进行特征提取，生成多个用于表示各个特征的特征图。

目标神经网络具有输入侧用于输入特征图等数据。在一个实施例中，目标神经网络分别与训练支路、全连接层分类网络和对比学习卷积网络连接。训练支路用于对目标神经网络进行训练，当然训练支路也可以利用全连接层分类网络和对比学习卷积网络对目标神经网络进行训练。

本实施例中，处理模块将特征图输入到全连接层分类网络得到所述特征图的交叉熵损失数据；将特征图输入对比学习卷积网络进行处理，得到特征图的对比学习损失数据。其中，交叉熵损失数据以及对比学习损失数据均可以是相应的损失函数loss。损失函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。损失函数可以作为学习准则与优化问题相联系，通过最小化损失函数求解和评估模型。

处理模块将交叉熵损失数据以及对比学习数据进行融合，可以被用于对目标神经网络进行训练；也可以用于对特征图进行推断，即基于融合生成的损失数据，使用目标神经网路对特征图进行推断得到识别结果。

在训练目标神经网络时，可以使用多个不同的损失函数来计算误差，并将它们进行融合作为训练目标。而在使用目标神经网路对特征图进行推断过程中，并不仅使用一个损失数据（损失函数，如交叉熵），而是通过将交叉熵损失数据以及对比学习损失数据进行融合处理，具体的融合处理可以是加权平均法，也可以是选择最小损失的数据方式等。融合生成的损失数据可以作为目标神经网络的损失函数。避免目标神经网络在对第一声音数据进行识别过程中，忽略各网络中其他重要的信息，而导致最终的结果不够准确。

示例性的，本实施例中可以将融合后得到的损失数据作为目标神经网络的损失函数，识别模块通过目标神经网络中的预设深度学习算法对特征图进行识别，得到的识别结果可以表征目标物的故障的概率分布，从而实现对目标声音数据的识别。目标声音数据可以是识别目标，例如，目标声音数据是故障汽车的音频数据，目标神经网络对目标声音数据识别后得到该汽车的至少一个故障的概率分布。

在本申请的一个实施例中，获取模块进一步配置为：

获取目标场景的视频数据；

在本申请的一个实施例中，构建模块进一步配置为：

对所述识别单元进行短时傅里叶变换，生成相应的频谱图；

基于多个所述频谱子图，生成所述三通道图片。

在本申请的一个实施例中，声音识别装置还包括训练模块，训练模块配置为对所述目标神经网络进行训练，其中包括：

在本申请的一个实施例中，训练模块进一步配置为：

将训练识别单元划分为训练集及和测试集；

在本申请的一个实施例中，训练模块进一步配置为：

将所有的所述第一网络模型进行模型融合，生成融合模型。

在本申请的一个实施例中，识别模块进一步配置为：

在本申请的一个实施例中，声音识别装置还包括校准模块，校准模块配置为利用回归模型，将所述故障种类的置信度与经验数据相关联，以对确定的所述故障种类的置信度进行校准。

本申请实施例还提供了一种电子设备，如图10所示，包括：存储器和处理器，所述存储器中存储有可执行程序，所述处理器执行所述可执行程序以实现如上所述方法的步骤。

上述处理器可以是通用处理器、数字信号处理器、专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logicdevice，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic,简称GAL)或其任意组合。通用处理器可以是微处理器或者任何常规的处理器等。

上述存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

本实施例中的存储介质可以是电子设备/系统中所包含的；也可以是单独存在，而未装配入电子设备/系统中。上述存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本申请实施例的方法。

根据本申请的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种声音识别方法，其特征在于，包括：

获取符合第一要求的第一声音数据；

将所述第一声音数据划分为多个识别单元；

基于训练后的所述目标神经网络对目标声音数据进行识别；其中，

所述方法还包括对所述目标神经网络进行训练，其中包括：基于获取的训练视频提取出训练音频，加入背景音频，形成训练数据，再基于训练数据生成相应的训练特征图；其中，每条训练音频都标注有大分类以及所述大分类下的小分类，相应的对所述目标神经网络进行训练包括预测所述大分类和所述小分类，将所述小分类的结果归于所述大分类做融合，以推断出所述大分类的概率；

所述对所述目标神经网络进行训练，还包括：

将训练特征图输入到训练支路，经过所述训练支路对所述训练特征图进行编码后得到第二训练对比学习损失数据，其中，所述训练支路中具有Batchformer，所述Batchformer用于利用所述全连接层分类网络和所述对比学习卷积网络对所述目标神经网络进行训练，当所述训练特征图输入到训练支路后，经过所述Batchformer编码得到所述第二训练对比学习损失数据；

将所述第二训练对比学习损失数据发送到所述对比学习卷积网络，以使所述对比学习卷积网络基于所述第一训练对比学习损失数据和所述第二训练对比学习损失数据，生成训练对比学习损失数据；

所述对所述目标神经网络进行训练，还包括：

将训练识别单元划分为训练集及和测试集；

对所述训练频谱图进行数据增强操作，以扩大所述训练频谱图的数据量；

所述对所述目标神经网络进行训练，还包括：

将所有的所述第一网络模型进行模型融合，生成融合模型，其中包括在所述第一网络模型之间进行融合。

2.根据权利要求1所述的声音识别方法，其特征在于，所述获取符合第一要求的第一声音数据，包括：

获取目标场景的视频数据；

3.根据权利要求1所述的声音识别方法，其特征在于，所述基于所述识别单元构建用于特征提取的三通道图片，包括：

对所述识别单元进行短时傅里叶变换，生成相应的频谱图；

基于多个所述频谱子图，生成所述三通道图片。

4.根据权利要求1所述的声音识别方法，其特征在于，所述对所述目标神经网络进行训练，还包括：

5.根据权利要求1所述的声音识别方法，其特征在于，所述基于训练后的所述目标神经网络对目标声音数据进行识别，包括：

6.根据权利要求5所述的声音识别方法，其特征在于，所述方法还包括：

7.一种声音识别装置，其特征在于，包括：

获取模块，其配置为获取符合第一要求的第一声音数据；

识别模块，其配置为基于训练后的所述目标神经网络对目标声音数据进行识别；其中，

所述声音识别装置还包括训练模块，所述训练模块配置为对所述目标神经网络进行训练，其中包括：基于获取的训练视频提取出训练音频，加入背景音频，形成训练数据，再基于训练数据生成相应的训练特征图；其中，每条训练音频都标注有大分类以及所述大分类下的小分类，相应的对所述目标神经网络进行训练包括预测所述大分类和所述小分类，将所述小分类的结果归于所述大分类做融合，以推断出所述大分类的概率；

所述训练模块进一步配置为：

将训练识别单元划分为训练集及和测试集；

8.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器中存储有可执行程序，所述处理器执行所述可执行程序以实现如权利要求1至6中任一项所述方法的步骤。

9.一种存储介质，其特征在于，所述存储介质承载有一个或者多个计算机程序，所述一个或者多个计算机程序被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。