CN113240029A

CN113240029A - 一种gmm-hmm混合模型概率似然得分的svm二次分类方法

Info

Publication number: CN113240029A
Application number: CN202110568311.8A
Authority: CN
Inventors: 李秀坤; 王集; 刘开金
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-10

Abstract

本发明提供一种GMM‑HMM混合模型概率似然得分的SVM二次分类方法，该方法首先使用GMM‑HMM混合模型对鲸鱼叫声进行建模，然后使用SVM对模型进行二次分类。实验数据处理表明该方法有效地提高了分类准确率，该方法比GMM‑HMM的分类准确率提高了近2％，比SVM模型分类准确率提高了近10％。

Description

一种GMM-HMM混合模型概率似然得分的SVM二次分类方法

技术领域

本发明涉及一种GMM-HMM混合模型概率似然得分的SVM二次分类方法，属于神经网络方法的水下声学应用技术领域。

背景技术

马尔可夫(Markov)链描述的是一种具有离散、有限状态空间或者离散索引集的Markov过程。Markov过程对应实践中这样一种随机过程，即在已知当前状态的基础上，该过程自身的演变与过去状态没有关系，换句话说，这是一种可以仅依靠当前状态预测未来结果的过程。在这种完全依赖“现在”状态下，“将来”与“过去”假设完全独立的特性，称作Markov性，具有Markov性的过程也被称作Markov过程。

隐马尔可夫模型，就是在马尔可夫链的基础上扩展而来。考虑到实际的情况更为复杂：并不是可以观测到的状态就是状态的真实值，或者说可以观测的状态跟事务内部状态并不是一一对应的。假设观测值和真实的状态二者的联系可以通过一组概率分布相联系，就进一步扩展成了隐马尔可夫模型(Hidden Markov Model，HMM)。

隐马尔可夫过程实际上是一个双重的随机过程：其中一个就是Markov链，用它来描述事物内部的状态转换，站在观测者的角度上，该状态是不可见的，也叫隐含状态链；另一个就是随机过程描述观测值与内部状态的统计关系，由于是可见的，因此也叫可见状态链。事实上，隐马尔可夫模型的基本思想就在于通过一个随机过程去感知内部的状态转换关系和特性，所以称之为“隐”。

在训练生成马尔可夫模型时，只需要利用观测的时间序列o_t∈(V₁，V₂，…，V_M)，确定HMM模型中的N，M，π，A，B五个参数，就可以得到所建立的HMM。实际上，内部隐状态个数N和对应的观测值个数M可以由矩阵A和得到B，因此HMM模型可以简单记为λ＝(π，A，B)

其中，λ表示马尔可夫模型；π，A和B表示该模型的参数，确定了这些参数即可唯一地确定该模型。π表征初始概率分布的矩阵；A表征状态转移规律的矩阵；B表征观测值概率的矩阵。

由于声波是目前已知唯一能在海洋中远距离传播的手段，所以产生了水下声学技术，又称为水声技术。该技术领域主要关注利用水下声信号完成水下目标的探测、识别和信息提取等任务。鲸鱼在海洋中通过声信号实现通信、交流等活动，因而对鲸鱼叫声进行分析有助于对鲸鱼的研究。作为地球上体型最大的哺乳动物，鲸鱼在海洋中分布广泛，数量庞大，种类众多。须鲸主要使用喉来发出叫声，并且可以通过喉部和胸部的收缩来改变声音的幅度和频率，其叫声的低频部分主要集中于20-200Hz之间；齿鲸口中多有利齿，主要靠捕食鱼类，可以通过嘴唇的振动来发出0.2到150kHz的叫声用于定位。在同类之间进行低频远程交流时，大致在30Hz到2000Hz。这些声音信号包含丰富的信息，信号变化规律复杂多样，对研究鲸鱼的日常活动具有十分重要的意义。

在基于GMM-HMM(高斯混合模型，Gussian Mixed Model,GMM)混合模型的水下声学领域，国内鲜有此类研究。鉴于此，本发明提出了一种基于GMM-HMM混合模型概率似然得分的SVM二次分类的方法，将GMM-HMM混合模型应用于水声领域，并将其应用于鲸鱼叫声的识别任务中。

发明内容

本发明的目的是为了提供一种GMM-HMM混合模型概率似然得分的SVM二次分类方法。

本发明的目的是这样实现的：包括训练阶段和预测阶段，步骤如下：

训练阶段包括：

步骤1：分别对5类鲸鱼叫声音频样本进行预处理，再提取语音识别领域常用的MFCC特征，作为隐马尔可夫混合模型的可观测序列；

步骤2：对每一类鲸鱼对应的音频特征，训练建立一个与之对应的GMM-HMM概率模型；

步骤3：采用Viterbi算法，将步骤1中提取的特征重新输入到训练完成的GMM-HMM模型库，作模型匹配；计算得到5个模型下的对数似然度；

步骤4：将每个样本对应输出的5个对数似然度作为新的特征，输入到支持向量机分类器中，进行二次训练，得到训练完成的支持向量机分类器；

预测阶段包括：

步骤5：同训练阶段中的步骤1，对未知种类的鲸鱼叫声音频样本，提取MFCC特征作为隐马尔可夫混合模型的可观测序列；

步骤6：同训练阶段中的步骤3，将所提取的特征输入到在训练阶段中训练完成的“GMM-HMM鲸鱼叫声模型库”中，进行模型匹配，输出得到5个对数似然度；

步骤7：将上述步骤中计算得到的5个对数似然度作为新特征，输入到在训练阶段中训练完成的支持向量机分类器中，进行二次识别，预测得到最终的鲸鱼种类识别结果。

本发明还包括这样一些结构特征：

1.步骤2总计得到5个训练完成的GMM-HMM模型，形成“GMM-HMM鲸鱼叫声模型库”；模型的训练问题是在基于给定观测序列的条件下，采用Baum-Welch算法完成模型参数的建立。

与现有技术相比，本发明的有益效果是：本发明首先使用GMM-HMM混合模型对鲸鱼叫声进行建模，然后使用SVM对模型进行二次分类。实验数据处理表明该方法有效地提高了分类准确率，该方法比GMM-HMM的分类准确率提高了近2％，比SVM模型分类准确率提高了近10％。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

隐马尔可夫是一种性能强大的动态模式分析处理方法，该方法在语音识别领域和自然语言处理领域得到了广泛的应用，且都取得了惊人的成就。HMM声学模型在本质上，归属于一种模式识别手段，而鲸鱼叫声的分类也是一类模式识别问题。

实际上，鲸鱼叫声是一种不确定的、随着时间发声变化的振动信号，因此可以用多个动态变量来对其的特性进行描述。并且，由于鲸鱼的种类是一种隐含的状态值，无法直接通过观测鲸鱼叫声得到，故需要通过手动提取鲸鱼叫声的特征作为观测值得到。进一步考虑到鲸鱼叫声和人类语音识别的相似性，可以得出结论：隐马尔可夫模型十分适用于鲸鱼叫声的音频识别任务。

对鲸鱼叫声的识别过程实质上是通过所采集的五种不同种类的鲸鱼叫声音频信号数据，提取特征，再映射到鲸鱼种类的问题。从概率模型的角度来看，可以描述为，在给定未知种类的鲸鱼特征的条件下，各种类叫声模型与该观测特征匹配概率似然度最大者即为最可能的鲸鱼种类，也就是最后的鲸鱼识别结果。

HMM模型的出发点就是基于概率的思想。具体的做法是，首先以五类鲸鱼叫声的数据特征(这里选取MFCC特征)(Mel频率倒谱系数，Mel Frequency Cepstrum Coefficient,MFCC)为训练的HMM模型的可观测序列，然后对每种鲸鱼的MFCC特征建立一个与之对应的HMM概率模型。模型训练是基于给定观测序列的情况下，因此采用的是B-韦尔什(Baum-Welch)方法进行模型参数的建立。

完成五种鲸鱼对应的五个模型的建立后，就可以对未知的测试集数据进行模式识别，识别过程对应的就是HMM的评估问题，将待识别的鲸鱼叫声的MFCC特征分别输入至训练好的模型中，采取维特比(Viterbi)算法，匹配哪个模型的参数λ_i，使得该模型下的对数似然度最大，对应的模型i即为鲸鱼种类。

普通的HMM模型，所得到的观测值都是离散值，但是对于鲸鱼叫声识别任务，所使用的HMM观测序列是通过对连续的鲸鱼叫声音频数据提取的MFCC特征，导致了观测序列时连续的，无法用离散状态的转移矩阵来进行描述。故本文采用概率密度函数(probabilitydensity function,PDF)的方法来描述HMM中的状态特性。

本发明在GMM-HMM混合模型的基础上设计了一种基于GMM-HMM和SVM的两步分类方法。

在原始的GMM-HMM模型中，采用的判决方式是，直接计算得到对数似然度最大的模型，该模型对应的类标签就判决为未知鲸鱼音频对应的种类。

然而这种直接取最大似然的处理方式过于粗糙。考虑在海洋背景噪声比较嘈杂的情况，会出现有好几类模型输出的似然度相类似，这就会导致模型判决困难，甚至误判。因此考虑在HMM模型匹配输出后级联SVM进行二次分类判决，借助SVM强大、稳定的分类决策能力，并结合GMM-HMM处理连续时序动态信号的优势，来弥补仅以最大似然度进行判决的缺陷。

在GMM-HMM混合模型中，HMM的观测概率是使用GMM来描述的，不同数目的高斯混合分量以及不同数目的HMM状态个数都会影响最终的识别结果，为了得到上述两个参数的最佳组合，本发明采用网格搜索法对两个参数(n_comp和n_mix)进行搜索，其中n_comp代表HMM状态个数，n_mix代表高斯混合分量个数。表1展示了搜索结果。

表1 GMM-HMM混合模型识别准确率(％)

从表中可以看出：横向来看，随着高斯混合分量即n_mix的增加，识别准确率整体呈上升趋势；纵向来看，整体的识别准确率也是随HMM模型的状态数n_comp的增加而上升。这是因为，理论上来说HMM状态数越多，或者GMM混合分量越多，那么模型的描述能力也就越强。事实上，上述实验结果表明，二者的增加带来的识别准确率增益到达一定的程度后，就会出现两个结果：其一是训练模型可能不收敛；另一是由于二者的增加导致数据的相对不充分，使得识别准确率略微下降，这就使得存在一个最优组合，使得识别效果最佳。从表中可得到对应的最佳参数是当n_comp＝16，n_mix＝16时取得最大值86.60％。

GMM-HMM通过单纯的将最大的概率似然度对应的模型类别作为最终的判决结果，往往不是最好的选择。这是因为，如果若干个类别的似然度近似，则会带来判决误差。SVM算法在低维度和小样本分类任务上性能十分优异，且对于错误数据和离群数据的鲁棒性高，这就是引入SVM分类模型进行二次分类的出发点所在。具体的做法是：首先同样采用四则交叉验证，将数据分成四折，三折用于训练GMM-HMM模型，剩余的一折用于测试。训练完成后，分别将训练集和测试集通过GMM-HMM计算对数似然度，作为SVM的特征输入，最后借助SVM强大的分类决策能力，得到最终的结果，由表2给出。

表2 GMM-HMM-SVM混合模型识别准确率(％)

横向比较，同GMM-HMM模型一样：随着高斯混合分量即n_mix的增加，识别准确率整体呈上升趋势；纵向来看，整体的识别准确率也是随HMM模型的状态数的增加而上升。同样存在一个最佳的参数，即当n_comp＝16，n_mix＝16时，识别准确率达到了88.54％，相比GMM-HMM模型提高了近2％，相比SVM单模型提高了近10％。

下面结合附图1对本发明实施步骤加以说明。本发明使用了HMM和GMM完成模型匹配，然后使用SVM完成分类任务；使用了步骤1-步骤8构造和训练GMM-HMM-SVM分类器。也可以说本发明的构建流程主要包含训练阶段和预测阶段，具体步骤如下：

(1)训练阶段：

步骤1:分别对5类鲸鱼叫声音频样本进行预处理，再提取语音识别领域常用的MFCC特征，作为隐马尔可夫混合模型的可观测序列。MFCC特征是通过模拟人耳听觉感知特性的一类特征，相比传统的人工特征具有更优的性能。

步骤2：对每一类鲸鱼对应的音频特征，训练建立一个与之对应的GMM-HMM概率模型。即总计得到5个训练完成的GMM-HMM模型，形成“GMM-HMM鲸鱼叫声模型库”。模型的训练问题，就是在基于给定观测序列的条件下，采用Baum-Welch算法完成模型参数的建立。

步骤3：采用Viterbi算法，将步骤1中提取的特征重新输入到训练完成的GMM-HMM模型库，作模型匹配。计算得到5个模型下的对数似然度

步骤4：将每个样本对应输出的5个对数似然度作为新的特征，输入到支持向量机分类器中，进行二次训练，得到训练完成的支持向量机分类器。

(2)预测阶段：

步骤5：同训练阶段中的步骤1，对未知种类的鲸鱼叫声音频样本，提取MFCC特征作为隐马尔可夫混合模型的可观测序列。

步骤6：同训练阶段中的步骤3，将所提取的特征输入到在训练阶段中训练完成的“GMM-HMM鲸鱼叫声模型库”中，进行模型匹配，输出得到5个对数似然度。

步骤8：结束。

Claims

1.一种GMM-HMM混合模型概率似然得分的SVM二次分类方法，其特征在于：包括训练阶段和预测阶段，步骤如下：

训练阶段包括：

预测阶段包括：

2.根据权利要求1所述的一种GMM-HMM混合模型概率似然得分的SVM二次分类方法，其特征在于：步骤2总计得到5个训练完成的GMM-HMM模型，形成“GMM-HMM鲸鱼叫声模型库”；模型的训练问题是在基于给定观测序列的条件下，采用Baum-Welch算法完成模型参数的建立。