CN111837185B

CN111837185B - 基于约束半非负矩阵分解的声音分类方法、装置及介质

Info

Publication number: CN111837185B
Application number: CN201880089090.2A
Authority: CN
Inventors: 韩威; 周松斌; 李昌; 刘忆森; 刘伟鑫
Original assignee: Guangdong Institute of Intelligent Manufacturing
Current assignee: Guangdong Institute of Intelligent Manufacturing
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2024-03-12
Anticipated expiration: 2038-12-07
Also published as: WO2020113575A1; CN111837185A

Abstract

一种基于约束半非负矩阵分解的声音分类方法、装置及介质，该声音分类包括：将训练声音数据样本和测试声音数据样本表示为半非负矩阵(S1)；根据半非负矩阵构建类别约束矩阵，并根据半非负矩阵构建稀疏约束矩阵(S2)；在类别约束和稀疏约束下，对半非负矩阵进行约束半非负矩阵分解，得到对应的系数矩阵；将系数矩阵中对应于训练声音数据样本的低维表示以及训练声音数据样本的类别信息作为训练数据，对分类模型进行训练得到分类器(S3)；将系数矩阵中对应于测试声音数据样本的低维表示输入分类器，输出测试声音数据样本的分类结果(S4)。该方法有效利用了训练声音数据样本的类别信息并使得降维后的低维表示具有稀疏性，从而得到更具区分性的样本低维表示，提高了声音数据分类方法的正确率。

Description

基于约束半非负矩阵分解的声音分类方法、装置及介质

技术领域

本发明涉及声音信号处理和模式识别技术领域，具体涉及一种基于约束半非负矩阵分解的声音分类方法、装置及介质。

背景技术

随着社会发展和科学技术的不断进步，声音识别技术在我们的生产生活中被日益广泛的研究和应用，目前其已经被应用在产品质量检测、车辆NVH性能试验、声学事件分类、语音文字转换、心肺音分类等领域。

声音数据的维数通常较高，如果仅仅利用原始声音数据进行分类，可能会使分类系统计算量较大而且分类精度较差。为解决此问题，一般对高维的声音数据进行降维处理，将其压缩到一个低维的子空间中进行识别，此过程通常也叫做声音特征提取，低维的声音特征通常比原始声音数据更具区分性。基频、短时平均过零率、共振峰、频谱峰值等都是常用的低维声音特征。但是随着声音技术的应用越来越广泛以及对声音识别效果的需求提升，对提取声音特征的方法提出了更高的要求，上述低维声音特征逐渐难以有效地区分声音类别属性。因此，国内外学者一直在研究更有效的声音降维方法，如矩阵分解、主成分分析、独立成分分析等。

目前矩阵分解已经被学者们广泛认为具有较好的特征解释和特征表示能力，其已成为图像、声音、光谱等信号处理领域的研究热点，并在数据降维和特征提取方面获得了较为成功的应用。华南理工大学申请的中国发明专利“一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法”(申请号201810140213.2)，首先从人的语音数据中提取声学特征，包括基频、能量、谐噪比、共振峰、声门波、线性预测系数、常Q倒谱系数，并将上述特征拼接成一个特征矩阵，再采用非负矩阵分解算法对上述特征矩阵进行分解，得到降维后的特征矩阵，将上述降维后的特征矩阵输入分类器来判断该人正常或者是阿尔茨海默症患者。该专利所述的声音特征提取方法在采用非负矩阵分解算法进行降维的过程中，没有利用训练样本的类别信息来提高样本低维表示的区分性能，从而可能影响降维后的特征的识别效果；此外，在降维过程中也没有采用稀疏约束，而稀疏的低维表示可能弱化区分性能较差的特征而强化区分性能较好的特征。该专利所述方法没有直接对语音数据进行降维，而是采用非负矩阵分解算法对从语音数据中提取的声学特征矩阵进行降维，但是上述声学特征并不一定能充分表示语音数据的类别属性。因此，通常可能需要直接对语音样本进行降维处理，以获得样本的低维表示。如果直接对语音数据进行降维，由于语音数据一般是半非负的，非负矩阵分解算法并不适用。

发明内容

有鉴于此，有必要针对上述问题，提出一种基于约束半非负矩阵分解的声音分类方法、装置及介质，采用约束半非负矩阵分解算法对声音数据进行降维处理，降维过程中施加的约束包括类别约束和稀疏约束，以有效利用训练声音数据样本的类别信息并使得降维后的低维表示具有稀疏性，得到更具区分性的样本低维表示，从而提高声音数据分类方法的正确率。

为实现上述目的，本发明采取以下的技术方案：

一种基于约束半非负矩阵分解的声音分类方法包括以下步骤：

S1，将训练声音数据样本和测试声音数据样本表示为半非负矩阵X；

S2，根据半非负矩阵X构建类别约束矩阵U，并根据半非负矩阵X构建稀疏约束矩阵S；

S3，在类别约束和稀疏约束下，对半非负矩阵X进行约束半非负矩阵分解，得到对应的系数矩阵H；

S4，将系数矩阵H中对应于训练声音数据样本的低维表示以及训练声音数据样本的类别信息作为训练数据，对分类模型进行训练得到分类器R；

S5，将系数矩阵H中对应于测试声音数据样本的低维表示输入分类器R，输出测试声音数据样本的分类结果。

进一步地，S1所述的将训练声音数据样本和测试声音数据样本表示为半非负矩阵X，按如下步骤进行：

S11，对训练声音数据样本和测试声音数据样本进行幅值归一化，使得每个样本的幅值在[-1，1]；

S12，将每个训练声音数据样本表示成一个M维的列向量，记为x_i(i＝1，2，…，N1)，其中N1为训练声音数据样本的个数；并将每个测试声音数据样本表示成一个M维的列向量，记为x_j(j＝1，2，…，N2)，其中N2为测试声音数据样本的个数；

S13，将x_i和x_j排列成半非负矩阵X(M行N列)，X被记为x_k(k＝1，2，…，N；N＝N1+N2)，其中前N1列是类别已知的训练样本(x₁…x_N1)，剩下的N2列(N2＝N-N1)是类别未知的测试样本(x_N1+1…x_N)。

进一步地，S2所述的根据半非负矩阵X构建类别约束矩阵U，按如下步骤进行：

S201，声音数据样本包含B类，每个声音数据样本属于一个类别，根据半非负矩阵X中的训练样本构建一个N1行B列的矩阵C，矩阵C记为c_i，b(i＝1，2，…，N1；b＝1，2，…，B)；当训练样本x_i是第b类时，c_i，b＝1，其余c_i，b＝0；

S202，构建N行(B+N2)列的类别约束矩阵U如下

其中，O表示零矩阵，I_N2是一个N2行N2列的单位矩阵。

进一步地，S2所述的根据半非负矩阵X构建稀疏约束矩阵S，按如下方式进行：

每个声音数据样本经过约束半非负矩阵分解算法降维后，其维度由M维变为M′维，则构建稀疏约束矩阵S如下

于公式(1)中，θ为稀疏度参数，其范围为0≤θ≤1；I_M′是一个M′行M′列的单位矩阵；l是一个元素全为1、维数为M′的列向量；l^T为l的转置。

进一步地，S3所述的在类别约束和稀疏约束下，对半非负矩阵X进行约束半非负矩阵分解，得到对应的系数矩阵H，按如下步骤进行：

S31，构造约束半非负矩阵分解的目标函数Γ

于公式(2)中，表示矩阵的Frobenius范数；W表示约束半非负矩阵分解的基矩阵，W＝[w₁，w₂，…，w_M′]是一个半非负矩阵，w_i(i＝1，2，…，M′)表示一个M维的列向量；U是类别约束矩阵；S是稀疏约束矩阵；Z是一个非负矩阵，非负矩阵Z是一个(B+N2)行M′列的矩阵；(UZ)^T为(UZ)的转置；

S32，将矩阵Z的所有元素的值初始化为(0，1)之间的随机正数；

S33，计算基矩阵W的初始值为

于公式(3)中，U为类别约束矩阵；S为稀疏约束矩阵；Z为一个非负矩阵，非负矩阵Z为一个(P+N2)行M′列的矩阵；X为半非负矩阵；S^T为S的转置；Z^T为Z的转置；U^T为U的转置；

S34，设定约束半非负矩阵分解的目标函数Γ的最小值Γ_min、稀疏度参数θ、降维后的维度M′的值；

S35，将矩阵Z和基矩阵W交替迭代更新：先迭代更新一次矩阵Z，然后迭代更新一次基矩阵W，如此循环往复的先后迭代更新矩阵Z和基矩阵W；利用公式

迭代更新矩阵Z中元素，利用公式/>迭代更新基矩阵W中的元素；

于公式(4)及公式(5)中，U为类别约束矩阵；S为稀疏约束矩阵；Z为一个非负矩阵；X为半非负矩阵；W为一个半非负矩阵；S^T为S的转置；Z^T为Z的转置；U^T为U的转置；W^T为W的转置；

S36，设定最大迭代次数E_max，每次迭代更新完成后计算目标函数Γ的值，当目标函数Γ的值小于Γ_min或者迭代次数达到E_max时，则停止迭代，得到最终的基矩阵W和矩阵Z；

S37，计算约束半非负矩阵分解的系数矩阵H

H＝(UZ)^T (6)

于公式(6)中，H＝[h₁；h₂；…；h_N]表示约束半非负矩阵分解的系数矩阵，h_i(i＝1，2，…，N)为一个M′维的行向量；U为类别约束矩阵；Z为一个非负矩阵；(UZ)^T为(UZ)的转置。

进一步地，S4所述的将系数矩阵H中对应于训练声音数据样本的低维表示以及训练声音数据样本的类别信息作为训练数据，对分类模型进行训练得到分类器R，按如下步骤进行：

S41，系数矩阵H中的前N1行是训练声音数据样本的低维表示，记为HT，HT＝[ht₁；ht₂；…；ht_N1]，ht_i(i＝1，2，…，N1)是维度为M′的行向量；

S42，训练声音数据样本的类别信息表示为矩阵A，该矩阵A记为a_i，b(i＝1，2，…，N1；b＝1，2，…，B)，当ht_i对应的样本属于第b类时，a_i，b＝1，其余a_i，b＝0；

S43，选定分类模型，分类模型记为MW，将ht_i作为分类模型MW的输入、a_i，b作为分类模型MW的输出，对分类模型MW进行训练，得到分类器R。

进一步地，S5所述的将系数矩阵H中对应于测试声音数据样本的低维表示输入分类器R，输出测试声音数据样本的分类结果，按如下步骤进行：

S51，系数矩阵H中的(N1+1)～N行(共N2行)是测试声音数据样本的低维表示，记为HC，HC＝[hc₁；hc₂；…；hc_N2]，hc_j(j＝1，2，…，N2)是维度为M′的行向量；

S52，将hc_j输入分类器R，分类器R的输出即是对应的测试样本的分类结果。

进一步地，所述分类模型MW选用最近邻分类器或支持向量机。

一种基于约束半非负矩阵分解的声音分类装置包括：

处理器；

存储器，耦合至所述的处理器并存储有指令，所述的指令在由所述处理器执行实现如上所述的基于约束半非负矩阵分解的声音分类方法的步骤。

进一步地，该装置获取训练声音数据样本和测试声音数据样本。

一种计算机可读取存储介质存储有基于约束半非负矩阵分解的声音分类方法的应用程序，所述应用程序实现如上所述的基于约束半非负矩阵分解的声音分类方法的步骤。

本发明的有益效果为：

本发明由于在对声音数据样本进行半非负矩阵分解的过程中，有效利用了训练声音样本数据的类别信息，并增加了稀疏约束，因而能得到更具区分性的低维声音特征，解决了半非负矩阵分解无法利用训练数据类别以及施加稀疏约束的问题，提高了声音数据分类方法的正确率。

附图说明

图1为本发明的一种基于约束半非负矩阵分解的声音分类方法的工作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明的技术方案作进一步清楚、完整地描述。需要说明的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，一种基于约束半非负矩阵分解的声音分类方法包括以下步骤：

于本实施例中，本发明所述的半非负矩阵表示矩阵的元素中有正值也有负值，本发明所述的非负矩阵表示矩阵的元素的值没有负数。

于本实施例中，进一步地，S1所述的将训练声音数据样本和测试声音数据样本表示为半非负矩阵X，按如下步骤进行：

于本实施例中，进一步地，S2所述的根据半非负矩阵X构建类别约束矩阵U，按如下步骤进行：

S202，构建N行(B+N2)列的类别约束矩阵U如下

其中，O表示零矩阵(零矩阵的元素全为0)，I_N2是一个N2行N2列的单位矩阵(单位矩阵的对角线元素全为1，其余元素全为0)。

于公式(1)中，θ为稀疏度参数(该稀疏度参数可设置)，其范围为0≤θ≤1；I_M′是一个M′行M′列的单位矩阵；l是一个元素全为1、维数为M′的列向量；l^T为l的转置(l的上标T表示对l进行转置)。

于本实施例中，进一步地，S3所述的在类别约束和稀疏约束下，对半非负矩阵X进行约束半非负矩阵分解，得到对应的系数矩阵H，按如下步骤进行：

S31，构造约束半非负矩阵分解的目标函数Γ

S33，计算基矩阵W的初始值为

S35，将矩阵Z和基矩阵W交替迭代更新：先迭代更新一次矩阵Z，然后迭代更新一次基矩阵W，如此循环往复的先后迭代更新矩阵Z和基矩阵W；利用公式迭代更新矩阵Z中元素，利用公式/>迭代更新基矩阵W中的元素；

S37，计算约束半非负矩阵分解的系数矩阵H

H＝(UZ)^T (6)

于本实施例中，进一步地，S4所述的将系数矩阵H中对应于训练声音数据样本的低维表示以及训练声音数据样本的类别信息作为训练数据，对分类模型进行训练得到分类器R，按如下步骤进行：

于本实施例中，进一步地，S5所述的将系数矩阵H中对应于测试声音数据样本的低维表示输入分类器R，输出测试声音数据样本的分类结果，按如下步骤进行：

于本实施例中，进一步地，所述分类模型MW选用最近邻分类器或支持向量机。

于本实施例中，进一步地，对本发明所述的矩阵Z和基矩阵W的迭代更新公式推导如下。

约束半非负矩阵的数学模型表示为：

X≈WS(UZ)^T

其中：X是半非负矩阵；W是约束半非负矩阵分解的基矩阵；U是类别约束矩阵；S是稀疏约束矩阵；Z是非负矩阵。

采用Frobenius范数作为约束半非负矩阵的目标函数

按照矩阵的迹对目标函数Γ进行展开，可得

Γ＝Tr((X-WSZ^TU^T)^T(X-WSZ^TU^T))

＝Tr((X^T-UZS^TW^T)(X-WSZ^TU^T))

＝Tr(X^TX-X^TWSZ^TU^T-UZS^TW^TX+UZS^TW^TWSZ^TU^T)

＝Tr(X^TX)-2Tr(X^TWSZ^TU^T)+Tr(UZS^TW^TWSZ^TU^T)

结合上式，对目标函数Γ中的W和Z求偏导，可得

在分解过程中，应使目标函数Γ的值尽可能小。令则有-XUZS^T+WSZ^TU^TUZS^T＝0，即得到基矩阵W的迭代更新公式

令则有-U^TX^TWS+U^TUZS^TW^TWS＝0。

U^T(X^TW)^-S+U^TUZS^T(WTW)⁺S＝U^T(XTW)⁺S+U^TUZS^T(W^TW)^-S

Z是一个非负矩阵，为了在对其进行迭代更新的过程中，保持其非负性，在上式等号两边分别乘以Z²，则有

Z²[U^T(X^TW)^-S+U^TUS^TZ(W^TW)⁺S]＝Z²[U^T(X^TW)⁺S+U^TUZS^T(W^TW)^-S]

最终得到矩阵Z的迭代更新公式

由于矩阵Z的所有元素的初始值是(0，1)之间的随机正数，上式能确保在对矩阵Z进行迭代更新的过程中，让矩阵Z保持非负性。

一种基于约束半非负矩阵分解的声音分类装置包括：

处理器；

于本实施例中，本发明的效果可以通过以下仿真实验进一步说明：

1)、实验数据

实验数据样本来自于罐装食品振动所发出的声音。使罐装食品振动并发出声音的方式为：采用高能电磁脉冲信号激励罐盖，使得罐盖振动并发出声音。此声音信号能反应罐内压力。共采集了72个某种罐装食品的声音信号，其中罐内压力合格的产品有36个，罐内压力过大的产品有15个，罐内压力过小的产品有21个。

2)、仿真条件

本发明的仿真使用Matlab9.2.0仿真软件，将约束半非负矩阵分解算法的稀疏度参数θ分别设为0.0、0.1和0.3，目标函数Γ的最小值Γ_min设为0.0001，最大迭代次数E_max为100次，分类模型MW选用最近邻分类器，每次实验均重复独立运行5次，取其平均值作为最终结果。

3)、仿真实验结果

对罐内压力合格和罐内压力过大的产品所对应的声音数据分别采用本发明所述的约束半非负矩阵分解方法和传统半非负矩阵分解方法进行罐内压力分类实验，实验结果如表1所示。

表1

对罐内压力合格和罐内压力过小的产品所对应的声音数据分别采用本发明所述的约束半非负矩阵分解方法和传统半非负矩阵分解方法进行罐内压力分类实验，实验结果如表2所示。

表2

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于约束半非负矩阵分解的声音分类方法，其特征在于，该声音分类方法包括以下步骤：

S1，将训练声音数据样本和测试声音数据样本表示为半非负矩阵X；按如下步骤进行：

S11，对训练声音数据样本和测试声音数据样本进行幅值归一化，使得每个样本的幅值在[-1,1]；

S12，将每个训练声音数据样本表示成一个M维的列向量，记为x_i，i＝1,2,…,N1，其中N1为训练声音数据样本的个数；并将每个测试声音数据样本表示成一个M维的列向量，记为x_j，j＝1,2,…,N2，其中N2为测试声音数据样本的个数；

S13，将x_i和x_j排列成半非负矩阵X，半非负矩阵X包括M行N列，X被记为x_k，k＝1,2,…,N；N＝N1+N2，其中前N1列是类别已知的训练样本x₁…x_N1，剩下的N2列是类别未知的测试样本x_N1+1…x_N，N2＝N-N1；

S2，根据半非负矩阵X构建类别约束矩阵U，按如下步骤进行：

S201，声音数据样本包含B类，每个声音数据样本属于一个类别，根据半非负矩阵X中的训练样本构建一个N1行、B列的矩阵C，矩阵C记为c_i,b，i＝1,2,…,N1；b＝1,2,…,B；当训练样本x_i是第b类时，c_i,b＝1，其余c_i,b＝0；

S202，构建N行、B+N2列的类别约束矩阵U如下

其中，O表示零矩阵，I_N2是一个N2行、N2列的单位矩阵；

并根据半非负矩阵X构建稀疏约束矩阵S；具体地：

于公式(1)中，θ为稀疏度参数，其范围为0≤θ≤1；I_M′是一个M′行M′列的单位矩阵；l是一个元素全为1、维数为M′的列向量；l^T为l的转置；

2.根据权利要求1所述的基于约束半非负矩阵分解的声音分类方法，其特征在于，S3所述的在类别约束和稀疏约束下，对半非负矩阵X进行约束半非负矩阵分解，得到对应的系数矩阵H，按如下步骤进行：

S31，构造约束半非负矩阵分解的目标函数Γ

于公式(2)中，表示矩阵的Frobenius范数；W表示约束半非负矩阵分解的基矩阵，W＝[w₁,w₂,…,w_M′]是一个半非负矩阵，w_i表示一个M维的列向量，i＝1,2,…,M′；U是类别约束矩阵；S是稀疏约束矩阵；Z是一个非负矩阵，非负矩阵Z是一个B+N2行、M′列的矩阵；(UZ)^T为(UZ)的转置；

S32，将矩阵Z的所有元素的值初始化为(0,1)之间的随机正数；

S33，计算基矩阵W的初始值为

于公式(3)中，U为类别约束矩阵；S为稀疏约束矩阵；Z为一个非负矩阵，非负矩阵Z为一个P+N2行M′列的矩阵；X为半非负矩阵；S^T为S的转置；Z^T为Z的转置；U^T为U的转置；

迭代更新矩阵Z中元素，利用公式迭代更新基矩阵W中的元素；

S37，计算约束半非负矩阵分解的系数矩阵H

H＝(UZ)^T (6)

于公式(6)中，H＝[h₁；h₂；…；h_N]表示约束半非负矩阵分解的系数矩阵，h_i为一个M′维的行向量，i＝1,2,…,N；U为类别约束矩阵；Z为一个非负矩阵；(UZ)^T为(UZ)的转置。

3.根据权利要求1所述的基于约束半非负矩阵分解的声音分类方法，其特征在于，S4所述的将系数矩阵H中对应于训练声音数据样本的低维表示以及训练声音数据样本的类别信息作为训练数据，对分类模型进行训练得到分类器R，按如下步骤进行：

S41，系数矩阵H中的前N1行是训练声音数据样本的低维表示，记为HT，HT＝[ht₁；ht₂；…；ht_N1]，ht_i是维度为M′的行向量，i＝1,2,…,N1；

S42，训练声音数据样本的类别信息表示为矩阵A，该矩阵A记为a_i,b，i＝1,2,…,N1；b＝1,2,…,B，当ht_i对应的样本属于第b类时，a_i,b＝1，其余a_i,b＝0；

S43，选定分类模型，分类模型记为MW，将ht_i作为分类模型MW的输入、a_i,b作为分类模型MW的输出，对分类模型MW进行训练，得到分类器R。

4.根据权利要求1所述的基于约束半非负矩阵分解的声音分类方法，其特征在于，S5所述的将系数矩阵H中对应于测试声音数据样本的低维表示输入分类器R，输出测试声音数据样本的分类结果，按如下步骤进行：

S51，系数矩阵H中的N1+1至N行是测试声音数据样本的低维表示，系数矩阵H共N2行，记为HC，HC＝[hc₁；hc₂；…；hc_N2]，hc_j是维度为M′的行向量，j＝1,2,…,N2；

5.根据权利要求3所述的基于约束半非负矩阵分解的声音分类方法，其特征在于，所述分类模型MW选用最近邻分类器或支持向量机。

6.一种基于约束半非负矩阵分解的声音分类装置，其特征在于，包括：

处理器；

存储器，耦合至所述的处理器并存储有指令，所述的指令在由所述处理器执行实现权利要求1至5中任一项所述的基于约束半非负矩阵分解的声音分类方法的步骤。

7.根据权利要求6所述的基于约束半非负矩阵分解的声音分类装置，其特征在于，该装置获取训练声音数据样本和测试声音数据样本。

8.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质存储有基于约束半非负矩阵分解的声音分类方法的应用程序，所述应用程序实现如权利要求1至5中任一项所述的基于约束半非负矩阵分解的声音分类方法的步骤。