CN117975994A

CN117975994A - 嗓音数据的质量分类方法、装置以及计算机设备

Info

Publication number: CN117975994A
Application number: CN202410381528.1A
Authority: CN
Inventors: 张俊鸿; 庄伟豪; 张雪媛; 翁胤仑; 王国望; 彭卓凡; 袭奇; 王婧; 谢承旺
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2024-04-01
Filing date: 2024-04-01
Publication date: 2024-05-03
Anticipated expiration: 2044-04-01
Also published as: CN117975994B

Abstract

本发明涉及音频检测领域，特别涉及一种嗓音数据的质量分类方法、装置、计算机设备以及存储介质，对待分类的嗓音数据进行全面以及深入分析提取扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据，提供了更为全面和精确的声音特征描述，结合提取的特征数据，采用涵盖特征选择、特征变换和分类框架，实现了对嗓音数据的质量分类，提高了质量分类的准确性以及效率。

Description

嗓音数据的质量分类方法、装置以及计算机设备

技术领域

本发明涉及音频检测领域，特别涉及是一种嗓音数据的质量分类方法、装置、计算机设备以及存储介质。

背景技术

在音频检测领域，目前常用的传统声学参数主要包括基频、强度、振动和声调和过零率，梅尔倒频谱系数等特征，这些参数对于捕捉和识别个体的声音特征至关重要。

然而，上述的传统声学参数的局限性在于它们无法充分表达嗓音数据中的复杂模式和细微差异，并且嗓音数据中通常包括正常嗓音以及失调嗓音，正常嗓音和失调嗓音之间存在连续性，基于传统声学参数的基本特性对嗓音数据进行质量检测，无法实现嗓音数据的准确以及高效的质量分类。

发明内容

基于此，本发明的目的在于，提供一种嗓音数据的质量分类方法、装置、计算机设备以及存储介质，通过对待分类的嗓音数据进行全面以及深入分析提取扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据，提供了更为全面和精确的声音特征描述，结合提取的特征数据，采用涵盖特征选择、特征变换和分类框架，实现了对嗓音数据的质量分类，提高了质量分类的准确性以及效率。

第一方面，本申请实施例提供了一种嗓音数据的质量分类方法，包括以下步骤：

获得待分类的嗓音数据以及预设的音频质量分类模型，其中，所述音频质量分类模型包括特征提取模块、特征选择模块、特征变换模块以及分类模块；

将所述待分类的嗓音数据输入至所述特征提取模块中进行特征提取，获得音频特征矩阵，其中，所述音频特征矩阵包括若干个原始特征数据，所述原始特征数据包括扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据；

将所述音频特征矩阵输入至所述特征选择模块中，对所述音频特征矩阵中若干个原始特征数据进行特征选择，获得若干个目标特征数据，构建特征选择矩阵；

将所述特征选择矩阵输入至所述特征变换模块中进行空间映射，获得若干个目标特征数据对应的空间映射特征数据，构建特征变换矩阵；

将所述特征变换矩阵输入至所述分类模块中进行分类预测，获得所述待分类的嗓音数据的质量预测概率数据，根据所述质量预测概率数据，获得所述待分类的嗓音数据的质量分类结果。

第二方面，本申请实施例提供了一种嗓音数据的质量分类装置，包括：

数据获得模块，用于获得待分类的嗓音数据以及预设的音频质量分类模型，其中，所述音频质量分类模型包括特征提取模块、特征选择模块、特征变换模块以及分类模块；

音频特征矩阵提取模块，用于将所述待分类的嗓音数据输入至所述特征提取模块中进行特征提取，获得音频特征矩阵，其中，所述音频特征矩阵包括若干个原始特征数据，所述原始特征数据包括扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据；

音频特征矩阵选择模块，用于将所述音频特征矩阵输入至所述特征选择模块中，对所述音频特征矩阵中若干个原始特征数据进行特征选择，获得若干个目标特征数据，构建特征选择矩阵；

音频特征矩阵变换模块，用于将所述特征选择矩阵输入至所述特征变换模块中进行空间映射，获得若干个目标特征数据对应的空间映射特征数据，构建特征变换矩阵；

质量分类模块，用于将所述特征变换矩阵输入至所述分类模块中进行分类预测，获得所述待分类的嗓音数据的质量预测概率数据，根据所述质量预测概率数据，获得所述待分类的嗓音数据的质量分类结果。

第三方面，本申请实施例提供了一种计算机设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述计算机程序被所述处理器执行时实现如第一方面所述嗓音数据的质量分类方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的嗓音数据的质量分类方法的步骤。

在本申请实施例中，提供一种嗓音数据的质量分类方法、装置、计算机设备以及存储介质，对待分类的嗓音数据进行全面以及深入分析提取扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据，提供了更为全面和精确的声音特征描述，结合提取的特征数据，采用涵盖特征选择、特征变换和分类框架，实现了对嗓音数据的质量分类，提高了质量分类的准确性以及效率。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本申请一个实施例提供的嗓音数据的质量分类方法的流程示意图；

图2为本申请一个实施例提供的嗓音数据的质量分类方法中S2的流程示意图；

图3为本申请一个实施例提供的嗓音数据的质量分类方法中S2的流程示意图；

图4为本申请一个实施例提供的嗓音数据的质量分类方法中S3的流程示意图；

图5为本申请一个实施例提供的嗓音数据的质量分类方法中S4的流程示意图；

图6为本申请一个实施例提供的嗓音数据的质量分类方法中S5的流程示意图；

图7为本申请另一个实施例提供的嗓音数据的质量分类方法中S6的流程示意图；

图8为本申请一个实施例提供的嗓音数据的质量分类装置的结构示意图；

图9为本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，图1为本申请一个实施例提供的嗓音数据的质量分类方法的流程示意图，方法包括如下步骤：

S1：获得待分类的嗓音数据以及预设的音频质量分类模型，其中，所述音频质量分类模型包括特征提取模块、特征选择模块、特征变换模块以及分类模块。

本申请的嗓音数据的质量分类方法的执行主体为嗓音数据的质量分类方法的分类设备（以下简称分类设备）。在一个可选的实施例中，分类设备可以是一台计算机设备，可以是服务器，或多台计算机设备联合而成的服务器机群。

在本实施例中，分类设备获得待分类的嗓音数据以及预设的音频质量分类模型，其中，所述音频质量分类模型包括特征提取模块、特征选择模块、特征变换模块以及分类模块。

S2：将所述待分类的嗓音数据输入至所述特征提取模块中进行特征提取，获得音频特征矩阵，其中，所述音频特征矩阵包括若干个原始特征数据，所述原始特征数据包括扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据。

在本实施例中，分类设备将所述待分类的嗓音数据输入至所述特征提取模块中进行特征提取，获得音频特征矩阵，其中，所述音频特征矩阵包括若干个原始特征数据，所述原始特征数据包括扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据。

对于所述扰动特征数据，所述扰动特征数据包括平滑倒谱峰值突出度数据、谐噪比数据、频率抖动数据、振幅抖动数据、频谱斜率数据、频谱回归线倾斜度数据、周期标准差数据、一次和二次谐波振幅差异数据、喉音噪声激发比数据、音高数据、音频质量指数数据和声学呼吸指数数据。

具体地，分类设备采用VOXplot软件提取所述待分类的嗓音数据的平滑倒谱峰值突出度数据、谐噪比数据、频率抖动数据、振幅抖动数据、频谱斜率数据、频谱回归线倾斜度数据、周期标准差数据、一次和二次谐波振幅差异数据、喉音噪声激发比数据、音高数据，其中，平滑倒谱峰值突出度指倒谱图中第一次谐波峰与平滑倒谱回归线之间的距离；谐噪比是语音信号中谐波成分与非谐波噪声成分之间的比例；频率抖动和振幅抖动指声带相邻振动周期之间频率、振幅的差异；频谱斜率指平均频谱中0-1000Hz范围内的能量与1000-10000Hz范围内的能量之差；频谱回归线倾斜度是平均频谱回归线中0-1000Hz范围内的能量与1000-10000Hz范围内的能量之差；周期标准差指各个周期标准差的变化。

对于所述音频质量指数数据，分类设备对所述平滑倒谱峰值突出度数据、谐噪比数据、频率抖动数据、振幅抖动数据、频谱斜率数据以及频谱回归线倾斜度数据进行加权计算，获得所述音频质量指数数据。

对于所述声学呼吸指数数据分类设备对所述平滑倒谱峰值突出度数据、谐噪比数据、频率抖动数据、振幅抖动数据、频谱斜率数据、频谱回归线倾斜度数据、周期标准差数据、一次和二次谐波振幅差异数据以及喉音噪声激发比数据进行加权计算，获得所述声学呼吸指数数据。

对于所述时域特征数据，所述时域特征数据包括过零率数据，过零率指一个信号的符号变化比率，被认为是信号频率的粗略估计，请参阅图2，图2为本申请一个实施例提供的嗓音数据的质量分类方法中S2的流程示意图，包括步骤S201~S202，具体如下：

S201：将所述嗓音数据划分为若干个音频信号段，获得若干个所述音频信号段中若干个数据点的原始音频信号值以及汉明窗函数值，将同一个所述数据点的原始音频信号值以及汉明窗函数值进行乘积，获得若干个所述音频信号段中若干个数据点的汉明窗处理后的音频信号值。

在本实施例中，分类设备将所述嗓音数据划分为若干个音频信号段，获得若干个所述音频信号段中若干个数据点的原始音频信号值以及汉明窗函数值，其中，所述汉明窗处理后的音频信号值为：

式中，M为数据点的数目，为第m个数据点的汉明窗函数值。

分类设备将同一个所述数据点的原始音频信号值以及汉明窗函数值进行乘积，获得若干个所述音频信号段中若干个数据点的汉明窗处理后的音频信号值。

S202：根据若干个所述音频信号段中若干个数据点的汉明窗处理后的音频信号值以及汉明窗函数值进行过零率计算，获得若干个所述音频信号段的过零率，将若干个所述音频信号段的过零率进行累加，获得所述过零率数据。

在本实施例中，分类设备根据若干个所述音频信号段中若干个数据点的汉明窗处理后的音频信号值以及汉明窗函数值进行过零率计算，获得若干个所述音频信号段的过零率，其中，所述音频信号段的过零率为：

式中，为第i个所述音频信号段的过零率，M为数据点的数目，/>为第m个数据点的汉明窗处理后的音频信号值，/>为第m个数据点的汉明窗函数值，/>为符号函数。

为了保持过零率数据的有效性，并与提取的扰动特征数据的维度一致，分类设备将若干个所述音频信号段的过零率进行累加，获得所述过零率数据，其中，所述过零率数据为：

式中，为所述过零率数据，I为音频信号段的数目。

对于所述频域特征数据，所述频域特征数据包括平均梅尔倒频谱系数数据以及线性预测倒频谱系数数据，用以反映嗓音数据中的细微特征。请参阅图3，图3为本申请一个实施例提供的嗓音数据的质量分类方法中S2的流程示意图，包括步骤S211~S214，具体如下：

S211：将若干个所述音频信号段进行傅里叶变换，获得若干个所述音频信号段对应的频域信号段，根据预设的若干个滤波器，对若干个所述频域信号段进行滤波处理，获得若干个所述频域信号段的能量数据，根据频域信号段的对数能量值进行梅尔倒频谱系数计算，获得若干个所述频域信号段的若干个梅尔倒频谱系数。

在本实施例中，分类设备将若干个所述音频信号段进行傅里叶变换，以将时域信号转换至频域，获得若干个所述音频信号段对应的频域信号段，根据预设的若干个滤波器，具体地，所述滤波器采用Mel三角滤波器组，对若干个所述频域信号段进行滤波处理，获得若干个所述频域信号段的能量数据，其中，所述能量数据包括若干个滤波器对应的能量值。

分类设备根据频域信号段的对数能量值进行梅尔倒频谱系数计算，获得若干个所述频域信号段的若干个梅尔倒频谱系数，其中，所述梅尔倒频谱系数为：

式中，为第i个所述频域信号段的梅尔倒频谱系数，K为滤波器的数目，为第i个所述频域信号段的第k个滤波器对应的能量值，p为第p个梅尔倒频谱系数。

S212：将若干个所述频域信号段的若干个梅尔倒频谱系数进行维度变换，构建若干个所述频域信号段的多维梅尔倒频谱向量，根据若干个所述频域信号段的多维梅尔倒频谱向量，采用差分处理方法，获得若干个所述频域信号段的差分梅尔倒频谱向量，对若干个所述频域信号段的差分梅尔倒频谱向量进行平均处理，获得所述平均梅尔倒频谱系数数据。

为了保持平均梅尔倒频谱系数数据的有效性，并与提取的扰动特征数据的维度一致，在本实施例中，分类设备将若干个所述频域信号段的若干个梅尔倒频谱系数进行维度变换，构建若干个所述频域信号段的多维梅尔倒频谱向量。

分类设备根据若干个所述频域信号段的多维梅尔倒频谱向量，采用差分处理方法，获得若干个所述频域信号段的差分梅尔倒频谱向量，其中，所述差分梅尔倒频谱向量为：

式中，为第i个所述频域信号段的差分梅尔倒频谱向量，/>为第i+1个所述频域信号段的多维梅尔倒频谱向量，/>为第i个所述频域信号段的多维梅尔倒频谱向量。

分类设备对若干个所述频域信号段的差分梅尔倒频谱向量进行平均处理，获得所述平均梅尔倒频谱系数数据，其中，所述平均梅尔倒频谱系数数据为：

式中，为所述平均梅尔倒频谱系数数据。

S213：将若干个所述音频信号段输入至预设的线性预测模型，根据若干个所述音频信号段中若干个数据点的原始音频信号值以及预设的线性系数预测算法，进行线性系数预测，获得若干个所述音频信号段的线性系数，其中，所述线性系数包括预测系数以及增益系数。

在本实施例中，分类设备将若干个所述音频信号段输入至预设的线性预测模型，根据若干个所述音频信号段中若干个数据点的原始音频信号值以及预设的线性系数预测算法，进行线性系数预测，获得若干个所述音频信号段的线性系数，其中，所述线性系数包括预测系数以及增益系数，其中，所述线性系数预测算法为：

式中，为第m个数据点的原始音频信号值，q为预测系数的数目，/>为第l个预测系数，/>为第m-l个数据点的原始音频信号值，G为增益系数，/>为第m个数据点的激活函数值。

S214：根据若干个所述音频信号段的预测系数、增益系数以及预设的线性预测倒频谱系数计算算法，获得若干个所述音频信号段的线性预测倒频谱系数序列，将若干个所述音频信号段的线性预测倒频谱系数序列进行组合，构建所述线性预测倒频谱系数数据，其中，所述线性预测倒频谱系数序列包括若干个线性预测倒频谱系数。

所述线性预测倒频谱系数计算算法为：

式中，为所述线性预测倒频谱系数序列中第t个线性预测倒频谱系数，/>为第t个线性预测倒频谱系数对应的预测系数，/>为所述线性预测倒频谱系数序列中第t-l个线性预测倒频谱系数。

在本实施例中，分类设备根据若干个所述音频信号段的预测系数、增益系数以及预设的线性预测倒频谱系数计算算法，获得若干个所述音频信号段的线性预测倒频谱系数序列，将若干个所述音频信号段的线性预测倒频谱系数序列进行组合，构建所述线性预测倒频谱系数数据，其中，所述线性预测倒频谱系数序列包括若干个线性预测倒频谱系数。以更直观地反映了嗓音数据的谱包络特征，能够提供更多的关于嗓音数据的细节信息以及频域信息。

对于所述时频域融合特征数据，所述时频域融合特征数据利用了时域和频域特征所提供的互补信息，不仅丰富了嗓音数据的特征多样性，有助于显露时域与频域特征间的潜在联系，提高嗓音数据的质量分类的准确性以及效率。

在本实施例中，分类设备采用多层感知机（MLP）神经网络模型，所述多层感知机（MLP）神经网络模型的网络结构由五层构成，包括输入层、两个隐藏层和输出层。输入层拥有若干个神经元，分类设备将所述时域特征数据以及频域特征数据输入至所述多层感知机（MLP）神经网络模型，在两个隐藏层的协同作用下，时域特征数据以及频域特征数据得到了深度融合，获得所述时频域融合特征数据。具体来说，第一个隐藏层包含64个神经元，利用ReLU激活函数对输入特征进行变换和组合，提炼出更抽象的特征表示。第二个隐藏层则包含32个神经元，继续利用ReLU激活函数对第一个隐藏层的输出进行进一步的变换和提炼，实现更深层次的特征融合。

对于所述卷积特征数据，所述卷积特征数据反映了嗓音数据的局部特征信息，能够提供更多的关于嗓音数据的更加丰富的细节信息。

在本实施例中，分类设备采用SincNet卷积神经网络模型，SincNet卷积神经网络模型在音频信号处理中突显了出色的特征提取能力。其独特之处在于通过学习低频和高频的截止频率，定制生成滤波器组，提高了对特定频率范围内关键特征的灵活性。采用参数化的sinc函数实现的带通滤波器设计，使得模型在高效计算的同时能够捕捉输入信号中的重要频率信息。

SincNet卷积神经网络模型的起始点是一个Sinc卷积层，该层通过梅尔滤波器处理音频数据，模拟了人耳对各种频率声音的敏感度。该层的核心优势在于它能直接从截止频率生成滤波器，极大地降低了模型的参数数量，增强了效率。在每个卷积层之后，SincNet卷积神经网络模型都会采用批量归一化或层归一化层，确保了数据在网络中流动时的稳定性和规范性。为了引入非线性特性从而能捕捉更加复杂的数据关系，SincNet卷积神经网络模型还包括若干个激活函数层，此外，每个激活函数层之后还配备了池化层和Dropout层，前者用于有效降低特征维度，而后者则有效防止了模型过拟合，增强了泛化能力。最终，SincNet卷积神经网络模型通过一系列全连接层进行输出，全连接层共包含30个神经元，将学习到的高级特征准确映射到30个输出，为接下来机器学习分类任务提供了强大的分析和预测能力。

分类设备将所述待分类的嗓音数据输入至所述SincNet卷积神经网络模型，在模型前向传播过程中，通过控制计算流程避免梯度计算，从所述待分类的嗓音数据中提取关键特征，作为所述卷积特征数据，深度挖掘和整合了嗓音数据中的高阶特征，有效克服了传统参数的局限，提供了更为全面和精确的声音特征描述，从而提高嗓音数据的质量分类的准确性。

S3：将所述音频特征矩阵输入至所述特征选择模块中，对所述音频特征矩阵中若干个原始特征数据进行特征选择，获得若干个目标特征数据，构建特征选择矩阵。

为了提高质量分类的效率，同时保证质量分类的准确性，在本实施例中，分类设备将所述音频特征矩阵输入至所述特征选择模块中，对所述音频特征矩阵中若干个原始特征数据进行特征选择，获得若干个目标特征数据，构建特征选择矩阵。

所述特征选择模块为梯度提升树模型，所述特征选择模块包括若干个第一决策树，请参阅图4，图4为本申请一个实施例提供的嗓音数据的质量分类方法中S3的流程示意图，包括步骤S31~S33，具体如下：

S31：根据所述音频特征矩阵中若干个原始特征数据以及若干个所述第一决策树进行节点分裂，获得若干个所述第一决策树的若干个分裂节点以及分裂节点对应的分裂特征数据，其中，所述分裂特征数据为所述音频特征矩阵中的参与节点分裂的原始特征数据。

在本实施例中，分类设备将所述音频特征矩阵分别输入至所述若干个第一决策树中，根据所述音频特征矩阵中若干个原始特征数据以及若干个所述第一决策树，每个所述第一决策树利用音频特征矩阵中的原始特征数据进行分裂，以选择对分类最有帮助的特征，获得若干个所述第一决策树的若干个分裂节点以及分裂节点对应的分裂特征数据，其中，所述分裂特征数据为所述音频特征矩阵中的参与节点分裂的原始特征数据。

S32：根据若干个所述第一决策树的若干个分裂节点对应的分裂特征数据，构建若干个所述原始特征数据对应的若干个第一决策树的指示矩阵，其中，所述指示矩阵包括若干个所述原始特征数据对应的指示向量，所述指示向量用于指示所述原始特征数据在相应的所述第一决策树的出现频率。

在本实施例中，分类设备根据若干个所述第一决策树的若干个分裂节点对应的分裂特征数据，构建若干个所述原始特征数据对应的若干个第一决策树的指示矩阵，其中，所述指示矩阵包括若干个所述原始特征数据对应的指示向量，所述指示向量用于指示所述原始特征数据在相应的所述第一决策树的出现频率，其中，所述指示向量为：

式中，为所述第i个原始特征数据对应的指示向量，N为所述第一决策树中的分裂节点的数目，/>为第r个第一决策树中第n个分裂节点对应的分裂特征数据，/>为所述音频特征矩阵中第i个的原始特征数据。

S33：根据若干个所述原始特征数据对应的若干个第一决策树的指示矩阵，将同一个所述原始特征数据对应的指示向量进行累加，获得若干个所述原始特征数据对应的累加指示向量值，根据若干个所述原始特征数据对应的累加指示向量值，从若干个所述原始特征数据中提取若干个目标特征数据，构建所述特征选择矩阵。

在本实施例中，分类设备根据若干个所述原始特征数据对应的若干个第一决策树的指示矩阵，将同一个所述原始特征数据对应的指示向量进行累加，获得若干个所述原始特征数据对应的累加指示向量值，通过遍历若干个所述第一决策树，获得若干个所述原始特征数据在所有的第一决策树的总出现频率，以反映若干个所述原始特征数据的重要性。

分类设备根据若干个所述原始特征数据对应的累加指示向量值，从若干个所述原始特征数据中提取若干个目标特征数据，构建所述特征选择矩阵。具体地，分类设备根据若干个所述原始特征数据对应的累加指示向量值，将若干个所述原始特征数据从大到小进行排序，将排序前50%的所述原始特征数据作为所述目标特征数据，从若干个所述原始特征数据中提取若干个目标特征数据，构建所述特征选择矩阵。

S4：将所述特征选择矩阵输入至所述特征变换模块中进行空间映射，获得若干个目标特征数据对应的空间映射特征数据，构建特征变换矩阵。

所述特征变换模块采用随机森林神经网络模型，所述随机森林神经网络模型用于提升分类和回归任务的准确性和鲁棒性，通过构建若干个决策树并将若干个决策树的预测结果进行汇总来实现这一目标。除了用于预测，随机森林还可以进行特征变换，它能将特征空间映射到一个更高维的稀疏空间，其中每个维度对应于某棵树的一个叶节点。在这个转换后的空间里，如果一个数据点落在了特定的叶节点上，那么该维度的值就是该叶节点在树中的索引值。

在本实施例中，分类设备将所述特征选择矩阵输入至所述特征变换模块中进行空间映射，获得若干个目标特征数据对应的空间映射特征数据，构建特征变换矩阵，从而将所述特征选择矩阵中的目标特征数据空间映射到一个更高维的稀疏空间，提高质量分类的准确性。

所述特征变换模块包括若干个第二决策树，所述第二决策树包括与所述特征选择矩阵的相同目标特征数据数目的若干个叶节点，请参阅图5，图5为本申请一个实施例提供的嗓音数据的质量分类方法中S4的流程示意图，包括步骤S41~S43，具体如下：

S41：将所述特征选择矩阵分别输入至若干个所述第二决策树中，获得若干个所述第二决策树中若干个所述叶节点对应的映射特征数据，其中，所述映射特征数据为所述叶节点从所述特征选择矩阵中提取的目标特征数据。

在本实施例中，分类设备将所述特征选择矩阵分别输入至若干个所述第二决策树中，所述第二决策树中的若干个所述叶节点从所述特征选择矩阵中提取目标特征数据作为映射特征数据，获得若干个所述第二决策树中若干个所述叶节点对应的映射特征数据，其中，所述映射特征数据为所述叶节点从所述特征选择矩阵中提取的目标特征数据。

S42：根据若干个所述第二决策树的若干个所述叶节点对应的映射特征数据，构建若干个所述第二决策树对应的空间映射矩阵，其中，所述空间映射矩阵包括若干个所述目标特征数据对应的叶节点的空间映射向量，所述空间映射向量用于指示所述目标特征数据所处第二决策树的叶节点的位置索引。

在本实施例中，分类设备根据若干个所述第二决策树的若干个所述叶节点对应的映射特征数据，构建若干个所述第二决策树对应的空间映射矩阵，其中，所述空间映射矩阵包括若干个所述目标特征数据对应的叶节点的空间映射向量，所述空间映射向量用于指示所述目标特征数据所处第二决策树的叶节点的位置索引。

S43：根据若干个所述第二决策树对应的空间映射矩阵，将同一个所述目标特征数据对应的空间映射向量进行组合，获得若干个所述目标特征数据对应的空间映射特征数据，构建所述特征变换矩阵。

在本实施例中，分类设备根据若干个所述第二决策树对应的空间映射矩阵，将同一个所述目标特征数据对应的空间映射向量进行组合，获得若干个所述目标特征数据对应的空间映射特征数据，构建所述特征变换矩阵，其中，所述特征变换矩阵为：

式中，为所述特征变换矩阵，/>为第u个所述目标特征数据，/>为第u个所述目标特征数据对应的空间映射特征数据，T为转置符号，/>为第u个所述目标特征数据对应的第R个第二决策树的叶节点的空间映射向量。

S5：将所述特征变换矩阵输入至所述分类模块中进行分类预测，获得所述待分类的嗓音数据的质量预测概率数据，根据所述质量预测概率数据，获得所述待分类的嗓音数据的质量分类结果。

所述分类模型采用CatBoost分类器，所述CatBoost分类器是一个用于处理分类特征（categorical features）的梯度提升决策树（GBDT）框架。

在本实施例中，分类设备将所述特征变换矩阵输入至所述分类模块中进行分类预测，获得所述待分类的嗓音数据的质量预测概率数据，根据所述质量预测概率数据，获得所述待分类的嗓音数据的质量分类结果，其中，所述质量分类结果包括正常嗓音结果以及若干种不同程度的失调嗓音结果。

对待分类的嗓音数据进行全面以及深入分析提取扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据，提供了更为全面和精确的声音特征描述，结合提取的特征数据，采用涵盖特征选择、特征变换和分类框架，实现了对嗓音数据的质量分类，提高了质量分类的准确性以及效率。

所述分类模块包括若干个第三决策树，请参阅图6，图6为本申请一个实施例提供的嗓音数据的质量分类方法中S5的流程示意图，包括步骤S51~S52，具体如下：

S51：将所述特征变换矩阵分别输入至若干个所述第三决策树中，获得所述质量预测概率数据，其中，所述质量预测概率数据包括若干个所述第三决策树输出的质量预测概率向量。

在本实施例中，分类设备将所述特征变换矩阵分别输入至若干个所述第三决策树中，获得若干个所述第三决策树输出的多分类质量预测概率向量，其中，所述多分类质量预测概率向量包括若干个质量分类类型对应的质量预测概率子向量。

分类设备分别取若干个所述第三决策树输出的多分类质量预测概率向量中最大的质量预测概率子向量，作为所述第三决策树输出的质量预测概率向量，获得所述质量预测概率数据，其中，所述质量预测概率数据包括若干个所述第三决策树输出的质量预测概率向量。

S52：根据所述质量预测概率数据中若干个所述第三决策树输出的质量预测概率向量，从若干个所述第三决策树输出的质量预测概率向量中提取最大的质量预测概率向量作为目标质量预测概率向量，获得所述目标质量预测概率向量对应的质量分类类型，作为所述待分类的嗓音数据的质量分类结果。

在本实施例中，分类设备根据所述质量预测概率数据中若干个所述第三决策树输出的质量预测概率向量，从若干个所述第三决策树输出的质量预测概率向量中提取最大的质量预测概率向量作为目标质量预测概率向量，其中，所述目标质量预测概率向量为：

式中，F为所述目标质量预测概率向量，B为所述第三决策树的数目，为第b个第三决策树输出的质量预测概率向量，/>为求最大值函数。

分类设备获得所述目标质量预测概率向量对应的质量分类类型，作为所述待分类的嗓音数据的质量分类结果，实现了对待分类的嗓音数据的质量多分类。

在一个可选的实施例中，还包括步骤S6：训练所述特征选择模块，请参阅图7，图7为本申请另一个实施例提供的嗓音数据的质量分类方法中S6的流程示意图，包括步骤S61，具体如下：

S61：获得若干个样本嗓音数据、若干个所述样本嗓音数据的样本音频特征矩阵以及所述样本音频特征矩阵中若干个样本音频特征数据的真实值，采用梯度下降法，根据若干个所述样本嗓音数据的样本音频特征矩阵、所述样本音频特征矩阵中若干个样本音频特征数据的真实值以及预设的模型训练函数，对所述特征选择模块进行训练。

梯度提升树模型通过在每一步迭代中添加一个新的决策树来更新模型，以减少当前模型的损失。

在本实施例中，分类设备获得若干个样本嗓音数据以及若干个所述样本嗓音数据的样本音频特征矩阵，其中，所述样本嗓音数据可以从德国嗓音数据库（SVD）获得若干个样本音频数据，覆盖了多种嗓音质量样本，以提高模型的泛化能力。

为了防止由于数据量有限且分布不平衡导致的过拟合问题，以提高模型的泛化能力和鲁棒性，在一个可选的实施例中，分类设备采用高斯随机数的数据增强的方法，对若干个样本嗓音数据进行数据增强，获得数据增强后的若干个样本嗓音数据，根据数据增强后的若干个样本嗓音数据以及所述特征提取模块，获得若干个所述样本嗓音数据的样本音频特征矩阵，具体实施例可以参考步骤S2的具体内容，在此不再赘述。

分类设备获得若干个所述样本嗓音数据的样本音频特征矩阵中若干个样本音频特征数据的真实值，采用梯度下降法，根据若干个所述样本嗓音数据的样本音频特征矩阵、所述样本音频特征矩阵中若干个样本音频特征数据的真实值以及预设的模型训练函数，在每一轮迭代q中，梯度提升树模型通过添加一个新的第一决策树进行优化，采用梯度下降法来求解最优梯度提升树模型将损失函数在当前模型的负梯度值作为梯度下降的方向，对所述特征选择模块进行训练，其中，所述模型训练函数为：

式中，为第q次迭代的特征选择模块的特征选择模块的目标函数，/>为所述样本音频特征矩阵中第i个的原始特征数据的真实值，/>为所述样本音频特征矩阵中第i个的原始特征数据，/>为第q次迭代的特征选择模块基于所述样本音频特征矩阵中第i个的原始特征数据输出的预测值，Z为所述样本音频特征矩阵中原始特征数据的数目，为梯度函数，表示损失函数相对于模型预测/>的梯度，/>为第q次迭代的学习率，所述学习率具体如下：

式中，为求最小值函数，/>为损失函数，/>为初始学习率。

请参考图8，图8为本申请一个实施例提供的嗓音数据的质量分类装置的结构示意图，该装置可以通过软件、硬件或两者的结合实现嗓音数据的质量分类装置的全部或一部分，该装置8包括：

数据获得模块81，用于获得待分类的音频数据以及预设的音频质量分类模型，其中，所述音频质量分类模型包括特征提取模块、特征选择模块、特征变换模块以及分类模块；

音频特征矩阵提取模块82，用于将所述待分类的音频数据输入至所述特征提取模块中进行特征提取，获得音频特征矩阵，其中，所述音频特征矩阵包括若干个原始特征数据，所述原始特征数据包括扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据；

音频特征矩阵选择模块83，用于将所述音频特征矩阵输入至所述特征选择模块中，对所述音频特征矩阵中若干个原始特征数据进行特征选择，获得若干个目标特征数据，构建特征选择矩阵；

音频特征矩阵变换模块84，用于将所述特征选择矩阵输入至所述特征变换模块中进行空间映射，获得若干个目标特征数据对应的空间映射特征数据，构建特征变换矩阵；

质量分类模块85，用于将所述特征变换矩阵输入至所述分类模块中进行分类预测，获得所述待分类的音频数据的质量预测概率数据，根据所述质量预测概率数据，获得所述待分类的音频数据的质量分类结果。

在本实施例中，通过数据获得模块，获得待分类的音频数据以及预设的音频质量分类模型，其中，所述音频质量分类模型包括特征提取模块、特征选择模块、特征变换模块以及分类模块；通过音频特征矩阵提取模块，将所述待分类的音频数据输入至所述特征提取模块中进行特征提取，获得音频特征矩阵，其中，所述音频特征矩阵包括若干个原始特征数据，所述原始特征数据包括扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据；通过音频特征矩阵选择模块，将所述音频特征矩阵输入至所述特征选择模块中，对所述音频特征矩阵中若干个原始特征数据进行特征选择，获得若干个目标特征数据，构建特征选择矩阵；通过音频特征矩阵变换模块，将所述特征选择矩阵输入至所述特征变换模块中进行空间映射，获得若干个目标特征数据对应的空间映射特征数据，构建特征变换矩阵；质量分类模块，用于将所述特征变换矩阵输入至所述分类模块中进行分类预测，获得所述待分类的音频数据的质量预测概率数据，根据所述质量预测概率数据，获得所述待分类的音频数据的质量分类结果。对待分类的嗓音数据进行全面以及深入分析提取扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据，提供了更为全面和精确的声音特征描述，结合提取的特征数据，采用涵盖特征选择、特征变换和分类框架，实现了对嗓音数据的质量分类，提高了质量分类的准确性以及效率。

请参考图9，图9为本申请一个实施例提供的计算机设备的结构示意图，计算机设备9包括：处理器91、存储器92以及存储在存储器92上并可在处理器91上运行的计算机程序93；计算机设备可以存储有多条指令，指令适用于由处理器91加载并执行上述图1至图7的方法步骤，具体执行过程可以参见图1至图7的具体说明，在此不进行赘述。

其中，处理器91可以包括一个或多个处理核心。处理器91利用各种接口和线路连接服务器内的各个部分，通过运行或执行存储在存储器92内的指令、程序、代码集或指令集，以及调用存储器92内的数据，执行嗓音数据的质量分类装置8的各种功能和处理数据，可选的，处理器91可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programble LogicArray，PLA）中的至少一个硬件形式来实现。处理器91可集成中央处理器91（CentralProcessing Unit，CPU）、图像处理器91（Graphics Processing Unit，GPU）和调制解调器等中的一个或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器91中，单独通过一块芯片进行实现。

其中，存储器92可以包括随机存储器92（Random Access Memory，RAM），也可以包括只读存储器92（Read-Only Memory）。可选的，该存储器92包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器92可用于存储指令、程序、代码、代码集或指令集。存储器92可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控指令等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器92可选的还可以是至少一个位于远离前述处理器91的存储装置。

本申请实施例还提供了一种存储介质，所述存储介质可以存储有多条指令，所述指令适用于由处理器加载并执行上述图1至图7的方法步骤，具体执行过程可以参见图1至图7的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束算法。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种嗓音数据的质量分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的嗓音数据的质量分类方法，其特征在于：所述扰动特征数据包括平滑倒谱峰值突出度数据、谐噪比数据、频率抖动数据、振幅抖动数据、频谱斜率数据、频谱回归线倾斜度数据、周期标准差数据、一次和二次谐波振幅差异数据、喉音噪声激发比数据、音高数据、音频质量指数数据和声学呼吸指数数据。

3.根据权利要求2所述的嗓音数据的质量分类方法，其特征在于：所述时域特征数据包括过零率数据；

所述将所述待分类的嗓音数据输入至所述特征提取模块中进行特征提取，获得音频特征矩阵，包括步骤：

将所述嗓音数据划分为若干个音频信号段，获得若干个所述音频信号段中若干个数据点的原始音频信号值以及汉明窗函数值，将同一个所述数据点的原始音频信号值以及汉明窗函数值进行乘积，获得若干个所述音频信号段中若干个数据点的汉明窗处理后的音频信号值；

根据若干个所述音频信号段中若干个数据点的汉明窗处理后的音频信号值以及汉明窗函数值进行过零率计算，获得若干个所述音频信号段的过零率，将若干个所述音频信号段的过零率进行累加，获得所述过零率数据。

4.根据权利要求3所述的嗓音数据的质量分类方法，其特征在于：所述频域特征数据包括平均梅尔倒频谱系数数据以及线性预测倒频谱系数数据；

将若干个所述音频信号段进行傅里叶变换，获得若干个所述音频信号段对应的频域信号段，根据预设的若干个滤波器，对若干个所述频域信号段进行滤波处理，获得若干个所述频域信号段的能量数据，根据频域信号段的对数能量值进行梅尔倒频谱系数计算，获得若干个所述频域信号段的若干个梅尔倒频谱系数；

将若干个所述频域信号段的若干个梅尔倒频谱系数进行维度变换，构建若干个所述频域信号段的多维梅尔倒频谱向量，根据若干个所述频域信号段的多维梅尔倒频谱向量，采用差分处理方法，获得若干个所述频域信号段的差分梅尔倒频谱向量，对若干个所述频域信号段的差分梅尔倒频谱向量进行平均处理，获得所述平均梅尔倒频谱系数数据；

将若干个所述音频信号段输入至预设的线性预测模型，根据若干个所述音频信号段中若干个数据点的原始音频信号值以及预设的线性系数预测算法，进行线性系数预测，获得若干个所述音频信号段的线性系数，其中，所述线性系数包括预测系数以及增益系数，其中，所述线性系数预测算法为：

式中，为第m个数据点的原始音频信号值，q为预测系数的数目，/>为第l个预测系数，/>为第m-l个数据点的原始音频信号值，G为增益系数，/>为第m个数据点的激活函数值；

根据若干个所述音频信号段的预测系数、增益系数以及预设的线性预测倒频谱系数计算算法，获得若干个所述音频信号段的线性预测倒频谱系数序列，将若干个所述音频信号段的线性预测倒频谱系数序列进行组合，构建所述线性预测倒频谱系数数据，其中，所述线性预测倒频谱系数序列包括若干个线性预测倒频谱系数，所述线性预测倒频谱系数计算算法为：

5.根据权利要求4所述的嗓音数据的质量分类方法，其特征在于：所述特征选择模块包括若干个第一决策树；

所述将所述音频特征矩阵输入至所述特征选择模块中，对所述音频特征矩阵中若干个原始特征数据进行特征选择，获得若干个目标特征数据，构建特征选择矩阵，包括步骤：

根据所述音频特征矩阵中若干个原始特征数据以及若干个所述第一决策树进行节点分裂，获得若干个所述第一决策树的若干个分裂节点以及分裂节点对应的分裂特征数据，其中，所述分裂特征数据为所述音频特征矩阵中的参与节点分裂的原始特征数据；

根据若干个所述第一决策树的若干个分裂节点对应的分裂特征数据，构建若干个所述原始特征数据对应的若干个第一决策树的指示矩阵，其中，所述指示矩阵包括若干个所述原始特征数据对应的指示向量，所述指示向量用于指示所述原始特征数据在相应的所述第一决策树的出现频率；

根据若干个所述原始特征数据对应的若干个第一决策树的指示矩阵，将同一个所述原始特征数据对应的指示向量进行累加，获得若干个所述原始特征数据对应的累加指示向量值，根据若干个所述原始特征数据对应的累加指示向量值，从若干个所述原始特征数据中提取若干个目标特征数据，构建所述特征选择矩阵。

6.根据权利要求5所述的嗓音数据的质量分类方法，其特征在于：所述特征变换模块包括若干个第二决策树，所述第二决策树包括与所述特征选择矩阵的相同目标特征数据数目的若干个叶节点；

所述将所述特征选择矩阵输入至所述特征变换模块中进行空间映射，获得若干个目标特征数据对应的空间映射特征数据，构建特征变换矩阵，包括步骤：

将所述特征选择矩阵分别输入至若干个所述第二决策树中，获得若干个所述第二决策树中若干个所述叶节点对应的映射特征数据，其中，所述映射特征数据为所述叶节点从所述特征选择矩阵中提取的目标特征数据；

根据若干个所述第二决策树的若干个所述叶节点对应的映射特征数据，构建若干个所述第二决策树对应的空间映射矩阵，其中，所述空间映射矩阵包括若干个所述目标特征数据对应的叶节点的空间映射向量，所述空间映射向量用于指示所述目标特征数据所处第二决策树的叶节点的位置索引；

根据若干个所述第二决策树对应的空间映射矩阵，将同一个所述目标特征数据对应的空间映射向量进行组合，获得若干个所述目标特征数据对应的空间映射特征数据，构建所述特征变换矩阵。

7.根据权利要求6所述的嗓音数据的质量分类方法，其特征在于：所述分类模块包括若干个第三决策树；

所述将所述特征变换矩阵输入至所述分类模块中进行分类预测，获得所述待分类的嗓音数据的质量预测概率数据，根据所述质量预测概率数据，获得所述待分类的嗓音数据的质量分类结果，包括步骤：

将所述特征变换矩阵分别输入至若干个所述第三决策树中，获得所述质量预测概率数据，其中，所述质量预测概率数据包括若干个所述第三决策树输出的质量预测概率向量；

根据所述质量预测概率数据中若干个所述第三决策树输出的质量预测概率向量，从若干个所述第三决策树输出的质量预测概率向量中提取最大的质量预测概率向量作为目标质量预测概率向量，获得所述目标质量预测概率向量对应的质量分类类型，作为所述待分类的嗓音数据的质量分类结果。

8.根据权利要求5所述的嗓音数据的质量分类方法，其特征在于，所述将所述音频特征矩阵输入至所述特征选择模块中，对所述音频特征矩阵中若干个原始特征数据进行特征选择，获得若干个目标特征数据，构建特征选择矩阵之前，包括步骤：

获得若干个样本嗓音数据、若干个所述样本嗓音数据的样本音频特征矩阵以及所述样本音频特征矩阵中若干个样本音频特征数据的真实值，采用梯度下降法，根据若干个所述样本嗓音数据的样本音频特征矩阵、所述样本音频特征矩阵中若干个样本音频特征数据的真实值以及预设的模型训练函数，对所述特征选择模块进行训练，其中，所述模型训练函数为：

式中，为第q次迭代的特征选择模块的特征选择模块的目标函数，/>为第q次迭代的学习率，/>为所述样本音频特征矩阵中第i个的原始特征数据的真实值，/>为所述样本音频特征矩阵中第i个的原始特征数据，/>为第q次迭代的特征选择模块基于所述样本音频特征矩阵中第i个的原始特征数据输出的预测值，Z为所述样本音频特征矩阵中原始特征数据的数目，/>为梯度函数，表示损失函数相对于模型预测/>的梯度。

9.一种嗓音数据的质量分类装置，其特征在于，包括：

10.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的嗓音数据的质量分类方法的步骤。