CN110310624A

CN110310624A - 一种高效副语音检测识别方法及装置

Info

Publication number: CN110310624A
Application number: CN201910594425.2A
Authority: CN
Inventors: 赵小蕾; 许喜斌; 王辰尹
Original assignee: Xinhua College of Sun Yat Sen University
Current assignee: Xinhua College of Sun Yat Sen University
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-10-08

Abstract

本发明公开了一种高效副语音检测与识别方法，包括以下步骤：对语音信息进行检测并提取副语音；对副语音进行识别判断副语音类型。本发明还提出一种高效副语音检测与识别装置，包括：检测单元，对语音信息进行检测并提取副语音；识别单元，对副语音进行识别判断副语音类型。本发明使用基于似然比距离的音频分割算法完成语音段预分割，随后使用预先训练好的模型进行分割点确认，最终判断是否有副语音段，完成副语音自动检测，随后提取检测到的副语音段语谱图，作为PCANET网络输入计算深度学习特征，并使用SVM模型进行识别，与人工统计特征相比取得了更高的识别率。

Description

一种高效副语音检测识别方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种高效副语音检测识别方法及装置。

背景技术

哭声、笑声、叹息声等副语音信息是人们日常交流中常使用的辅助表达，往往携带着说话者大量的非语言信息，如情感、身心活动等，且受说话者的地域、语言及说话人的不同影响较小，比语言本身更具有可靠性。

副语音的检测对新型人机交互技术具有极大的推动作用，副语音的发生往往也会伴随着手势、动作、表情等的发生，具有极强的辅助作用，具有重要的研究价值。其中，笑声在社交中是最常发生的事件，在交际中携带着大量的情感信息，针对笑声的研究也较多，如笑声的自动检测和识别、笑声辅助情感、心理研究等，笑声也分为许多种类：无声笑、有声笑、携带说话声音的笑，有研究评估了各类别所携带的情感信息量，研究表明有声笑携带了更多的情感信息，本文研究的笑声即为说话者的有声笑声。一般笑声和身体动作是同时发生的、具有某种关联，综合视觉特征和声学特征，使用神经网络机器学习方法可以实现笑声和身体行为的自动检测。哭声，尤其是对婴幼儿哭声的识别，研究哭声在婴幼儿看护、智能家居等领域具有重要的应用价值，有研究使用语谱图结合残差网络取得了不错的效果；叹息声等在医学上、生理心理学上均有相关应用。上述分析可知，副语音具有广泛的研究及应用价值，然而针对副语言的研究一般只针对一到两种，通用性不强，另外检测率也有待提高。

副语音和语音具有明显的区别，可将其看成不同的音频类别，可采用音频分割算法。音频混合分割算法包括基于距离的算法、基于模型选择的算法、基于模型的算法和混合算法。基于距离的算法通过滑动窗得到一条距离曲线，通过设置阈值找到局部最大点作为分割点；最具有代表性的模型选择算法是贝叶斯信息准则的分割算法(Bayesianinformation criterion,BIC)，其要计算两个子分析窗的协方差矩阵，计算量加大，且存在漏检测的问题；基于模型的算法首先为不同音频类别建立模型，分割时利用训练好的模型检测语音帧，类别变化处则为分割点，该方法需要事先知道需要检测的音频类别及需要大量已知类别的训练数据。混合分割算法为上述几种算法的某种结合，最具有代表性的混合分割算法是Delacourt等人首次提出的基于举例与贝叶斯准则混合音频检测算法(DIStance-Bayesian Information Criterion,DISTBIC)，该方法需要两趟检测，第一趟通过计算距离曲线检测分割点，第二趟通过BIC确认分割点，该方法效果较好，但可能存在虚假分割点。由上述对现有技术的分析可知，音频分割算法各有优缺点，应用于副语音检测中准确率有待提升。

发明内容

针对上述现有技术存在不足，本发明提供一种高效副语音检测识别方法及装置，在包含副语音的情感语料库上，副语音检测和识别率得到了显著提升。

本发明采用的技术方案为：

一种高效副语音检测识别方法，包括以下步骤：

对语音信息进行检测并提取副语音；

对副语音进行识别判断副语音类型。

作为本发明的进一步技术方案为：所述对语音信息进行检测并提取副语音，具体包括：

对语音信息进行分割，获取候选分割点；

合并相同类别相邻语音段确认分割点；

判断语音段是否为副语音并提取副语音。

作为本发明的进一步技术方案为：所述对语音信息进行分割，获取候选分割点；具体包括：

通过似然比距离方法对语音信息进行预分割，获取候选分割点。

作为本发明的进一步技术方案为：所述合并相同类别相邻语音段确认分割点；具体包括：

使用模型方法学习语音类别，获得各语音段类别标签；

合并相同类别的相邻语音段，去掉其中的分割点；

剩下的分割点即为最终分割点。

作为本发明的进一步技术方案为：所述判断语音段是否为副语音并提取副语音，具体为：通过模型方法学习的副语音判断语音段是否为副语音，如果属于副语音则提取该语音段。

作为本发明的进一步技术方案为：所述对副语音进行识别判断副语音类型，具体包括：

获取副语音的灰度语谱图；

将灰度语谱图输入到PCANET模型自动提取特征；

将所提取的特征输入到SVM模型对副语音类型进行识别。

作为本发明的进一步技术方案为：所述获取副语音的灰度语谱图，具体包括：

对副语音进行分帧加窗、短时傅里叶变换、归一化量化及语谱图灰度化后得到语谱图信息。

进一步地：所述语音信息包括静音段、语音段和非语音段，其中语音段包括情感语音段和副语音段。

本发明还提出一种高效副语音检测识别装置，其特征在于，包括：

检测单元，对语音信息进行检测并提取副语音；

识别单元，对副语音进行识别判断副语音类型。

本发明的有益效果：

本发明使用基于似然比距离的音频分割算法完成语音段预分割，随后使用预先训练好的模型进行分割点确认，最终判断是否有副语音段，完成副语音自动检测，随后提取检测到的副语音段灰度语谱图，作为PCANET网络输入计算深度学习特征，并使用SVM模型进行检测，与人工统计特征相比取得了更高的识别率。

附图说明

图1为本发明提出的一种高效副语音检测识别方法流程图；

图2为本发明提出的所述对语音信息进行检测并提取副语音方法流程图；

图3为本发明提出的一具体实施例流程图；

图4为本发明提出的所述对副语音进行识别判断副语音类型方法流程图；

图5为本发明提出的语谱图信息获取流程图；

图6为本发明提出的PCANET网络结构图；

图7为本发明提出的一种高效副语音检测识别装置结构图；

图8为本发明提出的一具体实施例测试图；

图9为本发明提出的一具体实施例测试图。

具体实施方式

本发明提供的技术方案总体思路如下：

本发明提出的基于混合音频分割及深度学习特征的副语音检测方法，包括副语音检测和副语音识别。其中副语音检测使用音频混合分割方法，随后输入到预先训练好的副语音检测模型(副语音类别和语音类别)，如果有副语音段，则输送到副语音识别阶段，提取灰度语谱图，再将语谱图输入到PCANET网络，提取的深度学习特征输入到SVM(SupportVector Machines，支持向量机)模型进行识别，最终判断副语音音频为何种副语音。

本发明使用基于似然比距离的音频分割算法完成语音段预分割，随后使用预先训练好的模型进行分割点确认，最终判断是否有副语音段，完成副语音自动检测，随后提取检测到的副语音段语谱图，作为PCANET网络输入计算深度学习特征，并使用SVM模型进行检测，与人工统计特征相比取得了更高的识别率。

以上是本申请的核心思想，为了使本技术领域的人员更好地理解本申请方案，下面结合附图对本申请作进一步的详细说明。应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

实施例一

如图1所示，为本发明提出的一种高效副语音检测识别方法流程图。

参照图1，一种高效副语音检测识别方法，包括以下步骤：

步骤100，对语音信息进行检测并提取副语音；

步骤200，对副语音进行识别判断副语音类型。

本发明实施例，主要分为两个阶段：副语音检测和副语音识别。副语音检测阶段使用混合音频分割技术——基于距离和基于模型的方法，其中距离使用似然比距离，其具有对音频改变反映灵敏、计算代价低的特点，基于模型方法需要预先学习两个类别语音类别和副语音类别，两个类别数据方便获取，混淆度低，识别率高。

参见图2，为本发明提出的所述对语音信息进行检测并提取副语音方法流程图；

如图2所示，对语音信息进行检测并提取副语音，具体包括：

步骤101，对语音信息进行分割，获取候选分割点；

步骤102，合并相同类别相邻语音段确认分割点；

步骤103，判断语音段是否为副语音并提取副语音。

本发明实施例中，先通过基于距离分割方法获取候选分割点，再使用基于模型方法合并相同类别的相邻语音段进而确认分割点，最终确认是否有副语音，如果有副语音再输送到下一个阶段——副语音识别阶段，副语音识别阶段没有使用人工统计特征，使用了简化深度学习模型PCANET，由于其较善于处理图像识别，故提取了副语音的灰度语谱图。

在步骤101中，所述对语音信息进行分割，获取候选分割点；具体包括：

通过基于似然比距离方法对语音信息进行预分割，获取候选分割点。

在步骤102中，所述合并相同类别相邻语音段确认分割点，具体包括：

使用模型方法学习语音类别，获得各语音段类别标签；

合并相同类别的相邻语音段，去掉其中的分割点；

剩下的分割点即为最终分割点。

在步骤103中，所述判断语音段是否为副语音并提取副语音，具体为：通过模型方法学习的副语音判断语音段是否为副语音，如果属于副语音则提取该语音段。

进一步的，所述对副语音进行识别判断副语音类型；具体包括：

将提取的副语音与预先学习到的副语音类型进行对比，获取副语音类型并进行标记。

其中，语音信息包括静音段、语音段和非语音段，其中语音段包括情感语音段和副语音段。首先利用端点检测技术从连续语音段中检测出语音信息。接下来采用音频分割算法对不同类别的音频进行分割。

参见图3，为本发明提出的一具体实施例流程图；

本发明实施例中，对语音信息进行检测并提取副语音，具体流程如下：

第一步，采用距离曲线计算候选分割点；

第二步，识别各分割点隔开的语音段类别；

第三步，取第i个语音段；

第四步，判断第i个语音段与前一段类别是否连续；

第五步，如果连续则合并语音段；

第六步，若不连续，则获取完整的语音段，判断该语音段是否为副语音；

第七步，如果是则输出副语音段，否则返回第三步。

本文将一段连续的语音信息分为静音段、语音段、非语音段，语音段又分为情感语音段(说话人语言表达典型情感及平静语音)和副语音段。首先利用端点检测技术从连续语音段中检测出语音信息。接下来采用音频分割算法对不同类别的音频进行分割。提高检测效率。

假设有训练好的检测副语音的模型，该模型使用SVM训练而得，仅有两个类别：副语音和语音。具体步骤描述如下：

基于距离的分割算法是利用相邻窗(两个拥有相同窗长的连续窗口)的样本间的距离来度量相邻音频段的相似性，形成一条距离曲线，本文采用一般似然比度量距离(Generalized likelihood ratio,GLR)如公式(1)所示，其具有对音频类改变反映灵敏、计算代价低的特点，经常被选为距离的度量函数；

其中，X₁、X₂是相邻两端语音的声学特征序列，X＝X₁UX₂。GLR距离在音频跳变点具有高且窄的峰值，并且属于同一类型音频段的GLR距离变化幅度比较平稳。

曲线上所有满足d_max-d(l_min)＞σσ|d_max-d(r_min)|＞ασ的局部最大点被视为候选分割点，d_max为局部最大点处的距离值，l_min和r_min是局部最大点左右两侧的局部最小点，σ为举例曲线的方差，α是由人工确定的实数；

得到候选分割点集合Seg＝{t₁,t₂,t₃,….t_n}，n个分割点，将语音样本分割成n+1个语音段，Speech＝{s₁,s₂,…s_n+1}；

训练检测模型(副语音和语音两个类别)，判断各个语音段的类别，逐个检测如果相邻的语音段类别相同则合并，并标记合并后语音段的类别标签lable＝{lab_i},i＝1,…k.；

若lab_i为副语音类别，则输出该语音段；

完成副语音检测，算法结束。

参见图4，为本发明提出的所述对副语音进行识别判断副语音类型方法流程图；

如图4所示，对副语音进行识别判断副语音类型，具体包括：

步骤201，获取副语音的灰度语谱图；

步骤202，将灰度语谱图输入到PCANET模型自动提取特征；

步骤203，将所提取的特征输入到SVM模型对副语音类型进行识别。

参见图5，为本发明灰度语谱图获取流程图；

如图5所示，所述获取副语音的灰度语谱图，具体包括：

参见图6，为本发明使用到的PCANET网络结构图；

检测到副语音之后，获取副语音的灰度语谱图，并输入到PCANET模型中，采用该方法，是因为语谱图携带大量的差异性信息，使用PCANET网络提取深度学习特征，不需要人工设计特征，PCANET网络是最简单的深度学习模型在图像识别领域具有突出的优势，故以语谱图作为输入，将提取到的特征最终输入到SVM中完成副语音类型的识别过程。

本发明实施例中，识别的副语音类型为日常交流常用的副语音：笑声、质疑声、叫喊声、伤心的哭声、害怕的哭声、叹息声等，本发明通过预先设置上述副语音类型作为参考，对检测到的副语音进行识别。

副语音检测阶段使用混合音频分割技术，基于距离和基于模型的方法，其中距离使用似然比距离，具有对音频改变反映灵敏、计算代价低的特点，基于模型方法需要预先学习两个类别语音类别和副语音类别，两个类别数据方便获取，混淆度低，识别率高；先通过距离方法获取候选分割点，再使用模型方法合并相同类别的相邻语音段进而确认分割点，最终确定是否有副语音，如果有副语音再输送到下一个阶段副语音识别阶段，副语音识别阶段没有使用人工统计特征，使用了2阶段的深度学习模型PCANET，由于其较善于处理图像识别，故提取了副语音的灰度语谱图作为输入，而语谱图携带了大量的类别差异性信息。

本发明能够自动检测副语音信息并可分离副语音段，一方面分离出副语音信息可以保证剩余语音信息的纯净，可避免副语音的干扰；另一方面分离出来的副语音可以做辅助研究，比如笑声可以代表高兴、可辅助并发动作的识别等。

本发明的副语音识别是在检测出副语音段之后进行，有一个预判断是否含有副语音的过程，并将副语音分离出来进行识别，获取相对完整的副语音音频，识别效果较好。

本发明实施例中，基于模型的分割点确认中，只有两个类别：语音类别和副语音类别，训练和识别过程均较为简单。识别阶段使用了PCANET网络学习模型自动提取特征，没有使用人工统计特征，获得了较好的效果。

为了提高副语音的识别率，在检测到副语音之后，获取副语音的灰度语谱图，并输入到PCANET模型中提取特征，采用该方法，是因为语谱图携带大量的差异性信息，使用PCANET网络提取深度学习特征，不需要人工设计特征，PCANET网络是最简单的深度学习模型在图像识别领域具有突出的优势，故以语谱图作为输入，将提取到的特征最终输入到SVM中完成副语音的识别过程。

实施例二

基于与前述实施例中一种高效的副语音检测识别方法同样的发明构思，本发明还提供一种高效副语音检测识别装置。

参见图7，为本发明提出的一种高效副语音检测识别装置结构图。

如图7所示，一种高效副语音检测识别装置，其特征在于，包括：

检测单元301，对语音信息进行检测并提取副语音；

识别单元302，对副语音进行识别判断副语音类型。

实施例一中的一种高效副语音检测识别方法的各种变化方式和具体实例同样适用于本实施例的一种高效副语音检测识别装置，通过前述对一种高效副语音检测识别方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种高效副语音检测识别装置，所以为了说明书的简洁，在此不再详述。

实施例三

本实施例根据上述实施例的技术方案进行实验，具体实验为：

实验一：录制的包含副语音的语音数据库，涵盖了日常生活中常用的副语音类别，如笑声、伤心的哭声、质疑声、叫喊声、害怕的哭声、叹息声，情感类别包含六类典型的情感：高兴、伤心、惊奇、生气、害怕，以及平静语音。5男6女录制每种情感15个预料，副语音自然的嵌入到各个语料的情感表达中。

实验环境：windows10,i7CPU,16G内存，MATLAB2016，LibSVM工具包实验参数：GLR计算距离曲线窗长度选择60个采样点、窗移为40个采样点，参数α取0.1，使用的声学特征为12维Mel频率倒谱系数(MFCC)、短时过零率、短时能量共14维特征；副语音预判断检测模型paraDM使用“一对一”SVM模型进行训练，训练数据为副语音集合和语音集合(不包含副语音)，样本均为360个，采用基因频率相关、能量相关、共振相关等特征一共101维度，并采用SFFS降维方法到61维度；副语音训练和识别的数据60％作为训练、40％数据作为测试。PCANET网络各参数设置：2阶段PCA处理；图像分块大小取5*5(单位：像素)；每阶段的滤波器数取8个，直方图分块大小取6，块重叠率取50％；语谱图大小为348*301。以上参数均为实验验证中效果最好取值。

为了验证各参数对所提副语音检测率的影响，首先给出参考对检测率影响的实验结果分析，所提方法实质为两趟算法，两趟算法中最直接影响的参数是第一趟距离方法的窗长选择，窗长过短则虚假分割点增多，窗长过长则可能会存在漏检真实的分割点，实验测试了窗长从20帧到150帧步长为10帧检测率结果，如图8所示，从图中可以看出帧长取90效果最佳。

为了验证本发明提出的混合音频检测副语音算法的有效性，与经典的常用算法应用于副语音检测进行对比，基于定长分段的音频检测方法(算法1，使用预判断模型进行合并相同类别段)、基于距离(GLR)的方法(算法2)、基于距离(GLR)与BIC混合分割方法(算法3)。算法1中的定长分段段长取80帧、段移取60帧；算法2和算法3中相关参数与本发明副语音检测方法一致，在参数设置中已给出，算法3中BIC确认过程中使用的特征为14维，其中包括12维MFCC、1个过零率、1个短时能量。检测对比结果如表1所示：

表1副语音检测算法检测结果对比

算法	检测准确率
		算法1	88.7％
算法2	87.5％
		算法3	92.6％
本发明方法	94.2％

从表1可以看出，算法3优于算法1，算法1优于算法2，算法2基于距离的方法存在很多虚假的分割点，算法1基于定长分段不够灵活，但结合本文的预判断模型确认分割点，去掉了很多虚假分割点，算法3是比较经典的算法确实取得了不错的效果，然而本发明采用的模型预判混合音频分割副语音检测方法更为优，这是因为从语音样本中检测到的语音信息具有完整性，避免了虚假分割点的干扰。

实验二：副语音识别准确率验证

所提识别方法使用了PCANET网络，首先给出主要参数图像块大小对识别率的影响，测试了3*3、5*5、7*7、9*9、11*11(一般为奇数)如图9所示，其他参数参考前面给出的参数设置。从图9可以看出块大小对识别率是有直接影响的，结果可以看出5*5取得的平均识别率最高。

为了验证所提识别方法的有效性，进行了对比实验，对比方法一：直接将分割后的语音段输入到包含13个类别(6个副语音类别+6个典型情感类别+平静语音)中进行识别，直接将基于距离分割后的语音段进行判断为何种副语音，将同类别的副语音段合并，得到最终的语音段和语音类别，此方法省去了副语音预判断模型；对比方法二：在识别阶段使用人工统计声学特征(101维度特征，降维到61维)，即不提取语谱图不经过PCANET网络，直接提取语音信号的声学特征，输入到SVM识别模型识别。

表2对比实验识别准确率(％)

表2给出了本发明技术方案与两种识别方法的比较，表中的识别结果为准确识别到副语音类别的情况，其中去除了副语音检测阶段的误判率和识别阶段的误识别率，方法二优于方法一，是因为方法一的类别较多，易于混淆，且直接使用距离分割后的语音段，存在较多的虚假分割点，语音段不完整，也会应用特征的提取进而应用识别，而本发明结合语谱图和深度学习的副语音识别方法优于方法二，说明了PCANET网络适用于识别阶段，验证了所提识别策略的有效性。

首先使用基于似然比距离的音频分割算法完成语音段预分割，随后使用预先训练好的模型进行分割点确认，最终判断是否有副语音段，完成副语音自动检测，在涵盖副语音的语音库上进行实验，与较为经典的分割算法如定长分段、基于似然比距离、基于距离及BIC混合分割算法相比，所提方法在副语音检测中取得了最高检测率，高达94.2％；随后提取检测到的副语音段语谱图，作为PCANET网络输入计算深度学习特征，并使用SVM模型进行检测，与人工统计特征相比取得了更高的识别率。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种高效副语音检测与识别方法，包括以下步骤：

对语音信息进行检测并提取副语音；

对副语音进行识别判断副语音类型。

2.根据权利要求1所述的方法，其特征在于，所述对语音信息进行检测并提取副语音，具体包括：

对语音信息进行预分割，获取候选分割点；

合并相同类别相邻语音段确认分割点；

判断语音段是否为副语音并提取副语音。

3.根据权利要求2所述的方法，其特征在于，所述对语音信息进行分割，获取候选分割点；具体包括：

通过音频分割技术中的似然比距离方法对语音信息进行分割，获取候选分割点。

4.根据权利要求2所述的方法，其特征在于，所述合并相同类别相邻语音段确认分割点；具体包括：

使用模型方法学习语音类别，获得各语音段类别标签；

合并相同类别的相邻语音段，去掉其中的分割点；

剩下的分割点即为最终分割点。

5.根据权利要求2所述的方法，其特征在于，所述判断语音段是否为副语音并提取副语音，具体为：通过模型方法学习的副语音判断语音段是否为副语音，如果属于副语音则提取该语音段。

6.根据权利要求1所述的方法，其特征在于，所述对副语音进行识别判断副语音类型，具体包括：

获取副语音的灰度语谱图；

将灰度语谱图输入到PCANET模型自动提取特征；

将所提取的特征输入到SVM模型对副语音类型进行识别。

7.根据权利要求6所述的方法，其特征在于，所述获取副语音的灰度语谱图，具体包括：

对副语音进行分帧加窗、短时傅里叶变换、归一化量化及语谱图灰度化后得到灰度语谱图。

8.根据权利要求1所述的方法，其特征在于，所述语音信息包括静音段、语音段和非语音段，其中语音段包括情感语音段和副语音段。

9.根据权利要求1-8中任一所述的方法提出一种高效副语音检测识别装置，其特征在于，包括：

检测单元，对语音信息进行检测并提取副语音；

识别单元，对副语音进行识别判断副语音类型。