CN113889077A

CN113889077A - 声音识别方法、装置、电子设备及存储介质

Info

Publication number: CN113889077A
Application number: CN202111109192.6A
Authority: CN
Inventors: 申和平; 张海兵; 冯权胜; 孙春艳; 肖百庆
Original assignee: Wuhan Puhui Ocean Photoelectric Technology Co ltd
Current assignee: Wuhan Puhui Ocean Photoelectric Technology Co ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2022-01-04

Abstract

本发明提供一种声音识别方法、装置、电子设备及存储介质，声音识别方法包括：获取声音样本；对声音样本进行特征提取，得到声音样本的多维特征信息，并将多维特征信息进行融合，得到声音样本的融合特征，其中，多维特征信息包括但不限于：色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征；获取待训练的多层感知器模型，并将所述融合特征输入至所述多层感知器模型中迭代训练，反复迭代和调整所述多层感知器模型的训练参数，直至所述多层感知器模型的损失值收敛至第一目标，以及在验证集上对准确率评估达到第二目标。本发明能够通过对声音多特征提取和融合及多层感知器模型提高声音识别的准确度。

Description

声音识别方法、装置、电子设备及存储介质

技术领域

本发明涉及声音信号处理与识别技术领域，尤其涉及一种声音识别方法、装置、电子设备及存储介质。

背景技术

随着深度学习在计算机视觉领域的广泛运用，基于人工智能方法的声音识别技术也应运而生。但是声音识别的环境复杂多变，信号本身具有非周期性、非平稳、低信噪比的特性，而且大多数音频数据都包含着噪声的干扰，给声音信号分类带来了很大的难度和挑战，使用传统的声谱特征分析方法进行声音信号的识别效果并不理想，识别准确度较低。

因此，本发明需要解决的技术问题是：在声音识别过程中，如何提高对声音识别的准确度。

发明内容

本发明提供一种声音识别方法、装置、电子设备及存储介质，用以解决现有技术中声音识别度较差的缺陷，提高对声音识别的准确度。

本发明提供一种声音识别方法，包括：

获取声音样本；

对所述声音样本进行特征提取，得到所述声音样本的多维特征信息，并将所述多维特征信息进行融合，得到所述声音样本的融合特征，其中，所述多维特征信息包括但不限于：色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征；

获取待训练的多层感知器模型，并将所述融合特征输入至所述多层感知器模型中迭代训练，反复迭代和调整所述多层感知器模型的训练参数，直至所述多层感知器模型的损失值收敛至第一目标，以及在验证集上对准确率评估达到第二目标。

根据本发明提供的一种声音识别方法，所述声音样本包括训练集和测试集；

其中，所述对所述声音样本进行特征提取，包括：

对所述训练集进行特征提取；

所述方法还包括：

获取多个训练周期，在各个训练周期分别得到所述训练集的识别结果及对应训练所述多层感知器模型得到的中间权重模型；

将所述测试集输入到各所述中间权重模型中，得到测试结果；

从各所述测试结果中选取目标测试结果，所述目标测试结果高于各所述测试结果中的其他测试结果，将所述目标测试结果所对应的中间权重模型作为训练好的所述多层感知权重模型。

根据本发明提供的一种声音识别方法，所述测试结果包括：准确率、平均精确率、召回率及F-score。

根据本发明提供的一种声音识别方法，在对所述声音样本进行特征提取，得到所述声音样本的多个特征信息之前，所述方法还包括：

对所述声音样本进行预处理，包括但不限于：调整样本时长一致、按声音种类将样本分类、样本数据归一化以及样本数据增强；

对所述声音样本进行特征提取，得到所述声音样本的多个特征信息，包括：

对预处理得到的声音样本进行特征提取，得到所述声音样本的多个特征信息。

根据本发明提供的一种声音识别方法，包括：

获取待识别的声音数据；

对所述声音数据进行特征提取，得到所述声音数据的多维特征信息，并将所述多维特征信息进行融合，得到所述声音样本的融合特征，其中，所述多维特征信息包括但不限于：色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征；

将所述融合信息输入多层感知器模型中，得到所述声音数据的识别结果；

其中，所述多层感知器模型是采用如上述任一所述声音识别方法训练得到的。

本发明还提供一种声音识别装置，包括：

获取模块，用于获取声音样本；

特征融合模块，用于对所述声音样本进行特征提取，得到所述声音样本的多维特征信息，并将所述多维特征信息进行融合，得到所述声音样本的融合特征，其中，所述多维特征信息包括但不限于：色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征；

训练模块，用于获取待训练的多层感知器模型，并将所述融合特征输入至所述多层感知器模型中迭代训练，反复迭代和调整所述多层感知器模型的训练参数，直至所述多层感知器模型的损失值收敛至第一目标，以及在验证集上对准确率评估达到第二目标。

本发明还提供一种声音识别装置，包括：

获取模块，用于获取待识别的声音数据；

特征融合模块，用于对所述声音数据进行特征提取，得到所述声音数据的多维特征信息，并将所述多维特征信息进行融合，得到所述声音样本的融合特征，其中，所述多维特征信息包括但不限于：色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征；

识别模块，用于将所述融合信息输入多层感知器模型中，得到所述声音数据的识别结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述声音识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述声音识别方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述声音识别方法的步骤。

本发明提供的声音识别方法、装置及电子设备，利用了多特征融合训练技术对用于声音识别的多层感知器模型进行训练，通过将声音样本进行特征提取，将提取到的多维特征进行融合，再将融合特征输入至多层感知器模型中进行训练。训练得到的多层感知器模型用于声音识别时，由于将提取的声音样本的多维特征进行融合因此能够提高对待识别声音数据的特征表征能力，并进一步通过多层感知器模型本征的泛化性来提升声音区分能力，从而提高识别的准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的声音识别方法的流程示意图之一；

图2是本发明提供的声音识别方法的流程示意图之二；

图3是本发明提供的声音识别方法的流程示意图之三；

图4是本发明提供的声音识别方法的流程示意图之四；

图5是本发明提供的声音识别装置的结构示意图之一；

图6是本发明提供的声音识别装置的结构示意图之二；

图7是本发明提供的声音识别装置的结构示意图之三；

图8是本发明提供的声音识别装置的结构示意图之四；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图4描述本发明提供的声音识别方法。

如图1所示，本发明提供的声音识别方法包括以下步骤：

步骤110：获取声音样本；

步骤120：对所述声音样本进行特征提取，得到所述声音样本的多维特征信息，并将所述多维特征信息进行融合，得到所述声音样本的融合特征，其中，所述多维特征信息包括但不限于：色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征；

步骤130：获取待训练的多层感知器模型，并将所述融合特征输入至所述多层感知器模型中迭代训练，反复迭代和调整所述多层感知器模型的训练参数，直至所述多层感知器模型的损失值收敛至第一目标，以及在验证集上对准确率评估达到第二目标。

具体地，本实施例中的声音样本中的声音是来自于各种环境背景下的声音经过处理得到的语音数据。

本实施例中对声音样本进行多维度的特征提取，获取多个维度的特征信息。特征信息包括：色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征。

本实施例中，将提取到的声音样本的多维特征进行融合，将声音样本的多种特征向量融合为一个新的一维特征向量，输入多层感知器模型中去表征不同声音目标。

多层感知器模型用于将声音样本的融合特征进行识别，进而得到声音样本的识别结果。在训练过程中，多层感知器模型输出的识别结果产生误差值，可根据误差值对多层感知器模型的参数进行调整。当目标准确度达到预期值时，保持此时的多层感知器模型。其中，目标准确度达到预期指的是多层感知器模型收敛，具体表现为：声音的识别结果的误差小于预设阈值，表示模型训练完成。

本实施例提供的声音识别方法，利用了多特征融合训练技术对用于声音识别的多层感知器模型进行训练，通过将声音样本进行特征提取，将提取到的多维特征进行融合，再将融合特征输入至多层感知器模型中进行训练。训练得到的多层感知器模型用于声音识别时，由于将提取的声音样本的多维特征进行融合因此能够提高对待识别声音数据的特征表征能力，并进一步通过多层感知器模型本征的泛化性来提升声音区分能力，从而提高识别的准确度。

可选的，所述声音样本包括训练集和测试集。

如图2所示，本发明提供的声音识别方法还包括以下步骤：

步骤210：对所述训练集进行特征提取；

步骤220：获取多个训练周期，在各个训练周期分别得到所述训练集的识别结果及对应训练所述多层感知器模型得到的中间权重模型；

步骤230：将所述测试集输入到各所述中间权重模型中，得到测试结果；

步骤240：从各所述测试结果中选取目标测试结果，所述目标测试结果高于各所述测试结果中的其他测试结果，将所述目标测试结果所对应的中间权重模型作为训练好的所述多层感知器模型。

其中，所述测试结果包括：准确率、平均精确率、召回率及F-score。

具体地，训练集和测试集分别用于多层感知器模型的训练和测试。本实施例中，多层感知器模型的训练过程可分为多个训练周期，设置固定的训练周期之后便保存一次中间权重模型，训练到最后也保存最终的多层感知器模型。由此能够根据训练次数的增加，尽可能地提高多层感知器模型的参数准确度。

获取多个中间权重模型是为了得到最适合声音样本的参数，这个参数可能在训练过程中获得，也可能在训练结束后获得。可能是中间某个迭代过程中的模型，其准确率更高，更适合模型的部署需要。

本实施例将测试集输入到多个中间权重模型中，得到测试结果，根据测试结果从多个中间权重模型中挑选出最优的模型作为训练好的多层感知器模型。

测试结果包括：准确率、平均精确率、召回率及F-score。根据这四个数据判断如何挑选出最优的模型。具体包括：以准确率优先，其次为平均精确率，然后根据这四个参数的平均值进行判断。若测试的结果以上三种判断方式的指标都一样，则选择训练周期最大的中间权重模型作为训练好的多层感知器模型。

如图3所示，可选的，在对所述声音样本进行特征提取，得到所述声音样本的多个特征信息之前，所述方法还包括以下步骤：

步骤310：对所述声音样本进行预处理，包括但不限于：调整样本时长一致、按声音种类将样本分类、样本数据归一化以及样本数据增强；

步骤320：对预处理得到的声音样本进行特征提取，得到所述声音样本的多个特征信息。

具体地，对声音样本进行预处理，使声音样本的时长一致，对声音种类进行分类，对声音样本进行数据归一化处理以及对样本数据进行增强处理。

其中，样本数据增强包括混合噪声数据增强、时间偏移数据增强、同种类的声音剪切填充数据增强等。通过数据增强，能够扩充声音样本，提升声音样本在不同环境中的鲁棒性。

如图4所示，在一可选的实施例中，本发明还提供一种声音识别方法，本实施例为训练完成的神经网络的应用过程，包括以下步骤：

步骤410：获取待识别的声音数据；

步骤420：对所述声音数据进行特征提取，得到所述声音数据的多维特征信息，并将所述多维特征信息进行融合，得到所述声音样本的融合特征，其中，所述多维特征信息包括但不限于：色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征；

步骤430：将所述融合信息输入多层感知器模型中，得到所述声音数据的识别结果；

其中，所述多层感知器模型是采用如上述任一实施例所述的声音识别方法训练得到的。

本实施例提供的声音识别方法利用了多特征融合训练技术通过将待识别的声音数据进行特征提取，将提取到的多维特征进行融合，再将融合特征输入至多层感知器模型中进行识别。多层感知器模型对融合后的多维特征进行声音识别，由于将提取的声音数据的多维特征进行融合因此能够提高对待识别声音数据的特征表征能力，并进一步通过多层感知器模型本征的泛化性来提升声音区分能力，从而提高识别的准确度。

以下对本发明进行详细描述：

声音样本预处理，本发明中以样本狗叫声为例。包括将狗叫声目标样本切片时长都统一到4s，如有些样本低于4s时长，该切片末尾进行补0，直到数据长度除以采样率fs为4s即可；狗叫声样本的切片数据归一到[-1，1]之间；狗叫声样本数据增强中，随机选取两个狗叫声样本，各取2s时长，组合成一个狗叫声样本；或随机选则一个样本，将其开头1秒覆盖一些非常接近于0的随机数，在拼接上该样本3s的数据，组合成一个新样本。

声音样本的特征提取和融合。选取该对应场景下合适的多种特征提取，如对于一个音频切片样本，将时域数据转换成一维的色谱能量归一化特征向量1*12，一维的常熟Q特征向量1*12，一维的色谱特征向量1*12，一维的谱对比度特征向量1*7，一维梅尔频率倒谱系数特征向量1*40，一维梅尔频谱特征向量1*129，将该6种特征向量融合为一个新的一维特征向量1*211，输入特征训练网络中去表征不同声音目标。

本发明中的多层感知器模型包括：Input输入层1层，Dense隐藏层2层，激活层2层，Dropout池化层2层，softmax分类输出层1层；Input输入尺寸为1*211，每层Dense隐藏层采用512个感知器单元，激活层采用ReLU激活函数，Dropout池化层池化率为0.5，softmax分类输出层为多种目标声音的各自预测的最大概率分值。其中，softmax分类输出层的维度大小可根据声音目标样本种类的数量确定，在此不做具体限定。

声音样本包括输入集和测试集。将声音样本按8：2的比例随机分为输入集与测试集数据，将输入集数据再次按照8：2比例随机分为训练集与验证集。模型训练时将训练集与验证集按照小批次特征送入模型中进行训练，通过损失函数，计算该批次参数下的损失，使其最大限度地减少损失的模型，将损失(Loss)最小化，迭代几个周期(epoch)后就保存一次模型；根据每一次训练结束后的损失函数值及验证集准确率不断更新网络参数，不断提高模型的精度，直至得到一个准确度较高的模型。

本发明的声音识别的应用过程为：根据训练完成的多层感知器模型，输入该场景下未知类型的目标声音，并计算和得到一维的融合特征，将其传入到该权重模型内进行分类识别，输出一个组1*N(目标声音总类数量)的预测概率向量，在该向量中的最大值则为该未知声音的预测得分，对应最大概率的索引序号ID在加1则为未知声音的类别。

下面对本发明提供的声音识别装置进行描述，下文描述的声音识别装置与上文描述的声音识别方法可相互对应参照。

如图5所示，本发明提供一种声音识别装置，包括以下模块：

获取模块510，用于获取声音样本；

特征融合模块520，用于对所述声音样本进行特征提取，得到所述声音样本的多维特征信息，并将所述多维特征信息进行融合，得到所述声音样本的融合特征，其中，所述多维特征信息包括但不限于：色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征；

训练模块530，用于获取待训练的多层感知器模型，并将所述融合特征输入至所述多层感知器模型中迭代训练，反复迭代和调整所述多层感知器模型的训练参数，直至所述多层感知器模型的损失值收敛至第一目标，以及在验证集上对准确率评估达到第二目标。

如图6所示，可选的，声音识别装置还包括以下模块：

中间权重模型获取模块610，用于获取多个训练周期，在各个训练周期分别得到所述训练集的识别结果及对应训练所述多层感知器模型得到的中间权重模型；

测试模块620，用于将所述测试集输入到各所述中间权重模型中，得到测试结果；

选取模块630，用于从各所述测试结果中选取目标测试结果，所述目标测试结果高于各所述测试结果中的其他测试结果，将所述目标测试结果所对应的中间权重模型作为训练好的所述多层感知器模型。

如图7所示，可选的，声音识别装置还包括以下模块：

预处理模块710，用于对所述声音样本进行预处理，包括但不限于：调整样本时长一致、按声音种类将样本分类、样本数据归一化以及样本数据增强。

特征提取模块720，用于对预处理得到的声音样本进行特征提取，得到所述声音样本的多个特征信息。

如图8所示，本发明还提供一种声音识别装置，包括以下模块：

获取模块810，用于获取待识别的声音数据；

特征融合模块820，用于对所述声音数据进行特征提取，得到所述声音数据的多维特征信息，并将所述多维特征信息进行融合，得到所述声音样本的融合特征，其中，所述多维特征信息包括但不限于：色谱能量归一化特征、常数Q特征、色谱特征、谱对比度特征、梅尔频率倒谱系数特征以及梅尔频谱特征；

识别模块930，用于将所述融合信息输入多层感知器模型中，得到所述声音数据的识别结果；

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行声音识别方法，该方法包括：

获取声音样本；

或者，该方法还包括：

获取待识别的声音数据；

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的声音识别方法，该方法包括：

获取声音样本；

获取待训练的多层感知器模型，并将所述融合特征输入至所述多层感知器模型中迭代训练，反复迭代和调整所述多层感知器模型的训练参数，直至所述多层感知器模型的损失值收敛至第一目标，以及在验证集上对准确率评估达到第二目标；

或者，该方法还包括：

获取待识别的声音数据；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的声音识别方法，该方法包括：

获取声音样本；

或者，该方法还包括：

获取待识别的声音数据；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声音识别方法，其特征在于，包括：

获取声音样本；

2.根据权利要求1所述的声音识别方法，其特征在于，所述声音样本包括训练集和测试集；

其中，所述对所述声音样本进行特征提取，包括：

对所述训练集进行特征提取；

所述方法还包括：

从各所述测试结果中选取目标测试结果，所述目标测试结果高于各所述测试结果中的其他测试结果，将所述目标测试结果所对应的中间权重模型作为训练好的所述多层感知器模型。

3.根据权利要求2所述的声音识别方法，其特征在于，所述测试结果包括：准确率、平均精确率、召回率及F-score。

4.根据权利要求1所述的声音识别方法，其特征在于，在对所述声音样本进行特征提取，得到所述声音样本的多个特征信息之前，所述方法还包括：

5.一种声音识别方法，其特征在于，包括：

获取待识别的声音数据；

其中，所述多层感知器模型是采用权利要求1至4中任一项所述声音识别方法训练得到的。

6.一种声音识别装置，其特征在于，包括：

获取模块，用于获取声音样本；

7.一种声音识别装置，其特征在于，包括：

获取模块，用于获取待识别的声音数据；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述声音识别方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述声音识别方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述声音识别方法的步骤。