CN114373453A

CN114373453A - 一种基于运动轨迹和区分性信息的语音关键词检测方法

Info

Publication number: CN114373453A
Application number: CN202111460052.3A
Authority: CN
Inventors: 贺前华; 田颖慧; 兰小添; 危卓
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-04-19
Anticipated expiration: 2041-12-02
Also published as: CN114373453B

Abstract

本发明公开了一种基于运动轨迹和区分性信息的语音关键词检测方法，该方法步骤包括：构建关键词特征空间运动轨迹；针对关键词声学相近词对比构建关键词局部区分性信息；利用待检测音段特征空间分布与关键词特征空间分布知识的相似性预选可能的关键词子集，同时检测待检测音段音节数与关键词音节数是否匹配，利用待检测音段特征空间运动轨迹与预选关键词子集中每个词的特征空间运动轨迹相似度选出最可能的关键词，有声学相似竞争者时利用其局部区分性信息甄别确定最后检测结果，本发明利用关键词时序信息和局部区分性信息有效提高在训练数据较少时的关键词检出性能，对音频样本基于音节切分算法划分匹配段使得匹配段语义信息完整，有利于关键词的检出。

Description

一种基于运动轨迹和区分性信息的语音关键词检测方法

技术领域

本发明涉及语音关键词检测技术领域，具体涉及一种基于运动轨迹和区分性信息的语音关键词检测方法。

背景技术

语音关键词检测技术是语音识别技术的一个分支，其目的是从连续语音流中检测预先定义的关键词。随着互联网和多媒体技术的飞速发展，语音数据量呈现爆炸式的增长，如何对语音文档进行组织和检索成为研究热点，因此关键词检测技术越来越受到重视。

传统的语音关键词检测技术主要分为三种：基于QbyE的模板匹配、基于隐马尔科夫模型的关键词/垃圾模型、基于大词汇量语音识别。基于QbyE的模板匹配的语音关键词检测是采用滑动窗口在连续语音流上进行滑窗搜索，利用动态时间规整进行匹配计算，但是该种方法关键词的检出率比较低。基于隐马尔科夫模型的关键词检测将语音分为关键词(keyword)和非关键词(filler)，分别对两类进行建模，keyword建模采用精细建模方法，在词级、音素级或状态级上对关键词进行建模；filler建模采用粗放建模的方法，对除关键词之外的任意词语和噪音进行建模，采用维特比算法解码进行识别。基于隐马尔科夫模型的关键词检测方法，虽然能达到较好的检出效果，但是模型训练依赖较大的语料库。基于大词汇量语音识别的关键词检测，对输入语音使用该方法的优点在于可以充分利用语言模型，对集内词的检测准确率高，但是对于集外词的影响较大，同时需要较大的语料库训练语音识别模型。基于直方图的关键词检测方法，只考虑关键词的统计特征，忽略时序特征，虚警率比较高。对于低数据资源的语音数据来说，上述方法并不适用，因此需要找到一种适合低数据资源的语音关键词检测技术。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于运动轨迹和区分性信息的语音关键词检测方法，该方法以音节作为建模单元统一描述关键词音频在音频特征空间中的分布信息和运动轨迹信息，与基于矢量量化得到直方图作为关键词模型的方法相比，不仅使得关键词的信息描述更加充分，而且增加了时序信息，减少误检，同时考虑音频类之间的局部区分性信息，能够在低数据资源下取得更好的性能。

为了达到上述目的，本发明采用以下技术方案：

一种基于运动轨迹和区分性信息的语音关键词检测方法，包括下述步骤：

将关键词的特征空间运动轨迹采用其语音样本按音节构成的特征空间分布序列表达；

针对声学相近词对比构建关键词的局部区分性信息，并用关键词中最具有声学混淆的音节分布差异信息表达；

进行关键词检测，具体步骤包括：

利用待检测音段的特征空间分布与关键词的特征空间分布知识的相似性预选可能的关键词子集W^(c)，同时检测待检测音段的音节数与关键词的音节数是否匹配，若不匹配则该关键词不在预选范围内；

利用待检测音段的特征空间运动轨迹与预选关键词子集W^(c)中每个词的特征空间运动轨迹的相似度选出最可能的关键词

当关键词

有声学相似竞争者时，利用其局部区分性信息进行甄别确定最后检测结果。

作为优选的技术方案，所述将关键词的特征空间运动轨迹采用其语音样本按音节构成的特征空间分布序列表达，具体步骤包括：

对关键词音频段利用基于VAD的音节切分算法进行音节的划分；

基于音频特征空间表达Ω＝{g_k，k＝1，2，...，K}计算关键词W第i个音节的K维特征空间分布

所述音频特征空间表达Ω＝{g_k，k＝1，2，...，K}采用聚类方法构建，g_k＝N(m_k，U_k)为多维高斯分布函数。

作为优选的技术方案，所述针对声学相近词对比构建关键词的局部区分性信息，并用关键词中最具有声学混淆的音节分布差异信息表达，具体步骤包括：

计算两个音节特征空间分布P_A和P_B在每一维上的相对差异得到

其中，

对

从大到小进行排序，取topN对应的标识子作为两者之间的局部区分性标识子，得到局部区分性标识子集Ψ；

根据局部区分性标识子集Ψ构建掩码向量Q＝[q¹，q²，...，q^K]^T，其中，

g_k表示标识子。

作为优选的技术方案，所述利用待检测音段的特征空间分布与关键词的特征空间分布知识的相似性预选可能的关键词子集W^(c)，基于SVM分类器判断检测音段的特征空间分布与关键词的特征空间分布知识的相似性，每个关键词训练L个SVM二分分类器，待检测音段的特征空间分布通过每个关键词的L个SVM分类器投票判决给出分类结果，根据分类结果预选可能的关键词子集W^(c)。

作为优选的技术方案，所述利用待检测音段的特征空间运动轨迹与预选关键词子集W^(c)中每个词的特征空间运动轨迹的相似度选出最可能的关键词

相似度计算公式具体为：

其中，score₁表示相似度得分，

表示P_i和

的余弦相似度，P_i表示待测音段第i个音节的特征空间分布，

表示预选关键词W第i个音节的先验特征空间分布，

表示预选关键词W第i个音节到第i+1个音节的标识子转移概率矩阵；

相似度得分超过设定阈值且得分最高的关键词作为最可能的关键词

作为优选的技术方案，所述标识子转移概率矩阵具体计算公式为：

其中

表示

第k₁维的值，

表示

第k₂维的值。

作为优选的技术方案，当关键词

有声学相似竞争者时，利用其局部区分性信息进行甄别确定最后检测结果，具体步骤包括：

当关键词

的声学相似竞争者不在关键词列表内，关键词

与其声学相似竞争者的第i个音节相似时，对待检测音段第i个音节的特征空间分布P_i和关键词

第i个音节的特征空间分布

利用掩码向量Q进行掩码操作后再计算余弦相似度，若余弦相似度超过设定阈值，则该音频段的检测结果为关键词

否则该音频段的检测结果为非关键词；

当关键词

的声学相似竞争者在关键词列表内，关键词

与其声学相似竞争者的第i个音节相似时，利用两者进行掩码操作后的特征空间分布数据训练SVM二分分类器，对待检测音段第i个音节的特征空间分布P_i利用掩码向量Q进行掩码操作后送入SVM分类器，根据分类结果给出检测结果。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明利用音频特征空间对关键词建模，描述关键词音频特征在音频特征空间中的分布信息和运动轨迹信息，本质上是音频特征在特征空间中的定位，与生成式模型如隐马尔科夫模型(HMM)相比，定位是相对的，生成模型是绝对的；与基于深度神经网络的方法相比，具有可解释性，每一个知识数据都具有物理语义，不论是基于生成式模型的方法还是基于神经网络的方法，都需要大量的标注训练样本，本发明可在标注数据较少的情况下取得比基于生成式模型的方法和基于神经网络的方法更好的性能。

(2)本发明以音节作为建模单元，不仅描述了关键词音频特征在音频特征空间中的分布，而且描述了运动轨迹，与基于矢量量化得到直方图作为关键词模型的方法相比，不仅使得关键词的信息描述更加充分，而且增加了时序信息，减少误检。

(3)本发明利用基于VAD的音节切分算法对测试语音划分匹配段，与传统的利用固定窗长进行窗移的方式划分匹配段相比，能够使得匹配段的语义信息完整，更有利于关键词的检出，有效避免了关键词音频段被滑动窗阶段而影响关键词检出的情况。同时，能够减少不必要的匹配，加快搜索速度。

附图说明

图1为本发明基于运动轨迹和区分性信息的语音关键词检测方法的流程框架图；

图2为本发明利用音频特征空间构建关键词知识的步骤流程图；

图3为本发明待检测音段的识别流程图；

图4为本发明构建关键词局部区分性信息的步骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，本实施例提供一种基于运动轨迹和区分性信息的语音关键词检测方法，具体包括下述步骤：

S1：关键词W＝w₁w₂...w_I的特征空间运动轨迹由其语音样本按音节构成的特征空间分布序列

表达，其中I表示关键词W的音节数，w_i为第i个音节，

表示关键词W第i个音节的语音特征空间分布。

S2：关键词W＝w₁w₂...w_I的局部区分性信息是针对声学相近词对比构建的，并用关键词中最具有声学混淆的音节分布差异信息表达。

S3：关键词检测采用先整体后局部的思路，由以下三步组成：

S31：利用待检测音段的特征空间分布P与关键词的特征空间分布知识

的相似性预选可能的关键词子集W^(c)，其中N表示预先定义的关键词的个数，P_wn表示第n个关键词的特征空间分布，同时考虑待检测音段的音节数与关键词的音节数是否匹配，若不匹配则该关键词不在预选范围内；

S32：利用待检测音段的特征空间运动轨迹与预选关键词子集W^(c)中每个词的特征空间运动轨迹的相似性选出最可能的关键词

S33：如果关键词

有声学相似竞争者，利用其局部区分性信息进行甄别确定最后检测结果。

如图2所示，为本实施例利用音频特征空间构建关键词知识的步骤，在构建音频特征空间Ω时，从Aishell-1数据集中随机挑选24000条语音数据作为构建音频特征空间的样本集，提取语音样本集12维MFCC(梅尔频率倒谱系数)特征。利用K-Means算法对特征集进行聚类，计算每个类的均值和方差，作为GMM的初始化参数。最后通过EM算法求解GMM模型的参数，保留每个高斯分量的均值m_k和对角方差U_k作为语音特征空间表达Ω＝{g_k，k＝1，2，...，K}，g_k＝N(m_k，U_k)为多维高斯分布函数，称之为标识子，K表示特征空间标识子的数量，K取4096，关键词的一次发音视为空间Ω中的一次运动。

基于音频特征空间，以音节为建模单元构建关键词知识。从Aishell-1收集包含关键词的语音样本，本实施例所选取的关键词为：北京、城市、记者、公司、房地产、互联网。每个关键词500个样本，以3∶1∶1的比例划分训练集、验证集、测试集。对测试集和验证集的样本标注关键词段的起始位置。基于音频特征空间计算关键词W＝w₁w₂...w_I的特征序列f_w在特征空间中的K维特征空间分布P_w和特征空间运动轨迹

其中I表示关键词W的音节数，

表示关键词W第i个音节的K维特征空间分布，K维特征空间分布计算过程如下：

1)提取音频段的12维MFCC特征序列f＝{f₁，f₂，...，f_t}，计算f_t与标识子g_k(m_k，U_k)的关联度：

其中f_t表示第t帧MFCC特征，m_k表示高斯分量均值，U_k表示高斯分量方差，α取1。

2)计算样本集与标识子g_k(m_k，U_k)关联度的期望值：

其中

表示第a个样本第t特征与标识子g_k(m_k，U_k)的关联度。

3)K维特征空间分布P＝[p¹，p²，...，p^K]^T，其中，

其中基于VAD的音节切分算法包括以下步骤：

1)利用双门限法进行VAD，去除静音段；

2)对语音段利用自相关函数法提取基频，划分清音段和浊音段；

3)对长浊音段利用短时能量、频谱强度确定音节边界；

4)根据普通话发音特性，清音在前，浊音在后，将清、浊音段进行结合得到音节。

如图3所示，为本实施例的待检测音段的识别步骤，对测试语音样本，利用基于VAD的音节切分算法进行分段识别，基于音频特征空间表达Ω＝{g_k，k＝1，2，...，K}计算待检测音段的特征空间分布和特征空间运动轨迹，关键词检测采用先整体后局部的思路，包括以下步骤：

1)基于SVM分类器判断检测音段的特征空间分布与关键词的特征空间分布知识的相似性。每个关键词训练L个SVM二分分类器，待检测音段的特征空间分布会通过每个关键词的L个SVM分类器投票判决给出分类结果，根据分类结果预选可能的关键词子集W^(c)，同时考虑待检测音段的音节数与某个关键词的音节数是否匹配，若不匹配则该关键词不在预选范围内。

其中，每个关键词的L个SVM分类器的训练采用bagging算法，从非关键词集随机选取非关键词子集，其大小与关键词集大小一致，重复采样L次得到L个非关键词子集，每一个非关键词子集与关键词集训练一个SVM二分分类器，最终得到L个SVM分类器在对待检测音段分类识别时进行投票判决。对于某个关键词来说，其他关键词的样本会作为负样本参与分类器的训练。本实施例中L取5。

2)计算待检测音段的特征空间运动轨迹(P₁，P₂，...，P_I)与预选关键词子集W^(c)中每个词的特征空间运动轨迹的相似性，选出最可能的关键词

相似度得分的计算如下：

其中

表示P_i和

的余弦相似度，P_i表示待测音段第i个音节的特征空间分布，

表示预选关键词W第i个音节的先验特征空间分布，

是特征空间运动轨迹另一种表达方式，表示预选关键词W第i个音节到第i+1个音节的标识子转移概率矩阵。关键词W第i个音节到第i+1个音节的标识子转移概率矩阵

计算如下：

其中

表示

第k₁维的值，

表示

第k₂维的值。

根据相似度得分，score₁超过阈值σ₁且得分最高的关键词作为最可能的关键词

β取值为0.3，阈值σ₁定义为验证集中语音样本通过步骤S3的判决获得等错误率FAR＝＝FRR时的判决门限，取值为0.31。

3)如果关键词

有声学相似竞争者，则利用局部区分性信息进行甄别。主要分为两种情况：

3.1)当关键词

的声学相似竞争者不在关键词列表内，关键词

第i个音节的特征空间分布

利用掩码向量Q进行掩码操作后再计算余弦相似度，

若score₂超过阈值σ2则该音频段的检测结果为关键词

否则该音频段的检测结果为非关键词。阈值σ₂通过使用验证集中关键词样本和声学相近词样本使用局部区分性信息进行识别时获得等错误率时的判决门限，取值为0.29。

3.2)当关键词

的声学相似竞争者在关键词列表内，关键词

如图4所示，为本实施例构建关键词局部区分性标识子信息的步骤，在实验中发现，音段“gonglshi4”极易被错误识别为关键词“公司gonglsil”，造成虚警。因此对两者构建局部区分性信息进行进一步的甄别，使用两者最具声学混淆的音节分布差异构建局部区分性信息。由于两者的局部区分性主要体现在第二个音节上，因此使用第二个音节的分布差异构建局部区分性信息，包括以下步骤：

a)计算两个音节特征空间分布P_A和P_B在每一维上的相对差异得到

其中，

越大则第k个标识子越能作为两者之间的局部区分性标识；

b)对

队大到小进行排序，取topN对应的标识子作为两者之间的局部区分性标识子，得到局部区分性标识子集Ψ；

c)根据局部区分性标识子集Ψ构建掩码向量Q＝[q¹，q²，...，q^K]^T，其中，

为关键词“公司gonglsil”构建局部区分性信息后，能够有效减少对音段“gonglshi4”的误检，降低虚警率。

本发明利用音频特征空间对关键词建模，描述关键词音频特征在音频特征空间中的分布信息和运动轨迹信息，本质上是音频特征在特征空间中的定位，与生成式模型如隐马尔科夫模型(HMM)相比，定位是相对的，生成模型是绝对的；与基于深度神经网络的方法相比，具有可解释性，每一个知识数据都具有物理语义。不论是基于生成式模型的方法还是基于神经网络的方法，都需要大量的标注训练样本，本发明可在标注数据较少的情况下取得比基于生成式模型的方法和基于神经网络的方法更好的性能。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于运动轨迹和区分性信息的语音关键词检测方法，其特征在于，包括下述步骤：

进行关键词检测，具体步骤包括：

当关键词

2.根据权利要求1所述的基于运动轨迹和区分性信息的语音关键词检测方法，其特征在于，所述将关键词的特征空间运动轨迹采用其语音样本按音节构成的特征空间分布序列表达，具体步骤包括：

所述音频特征空间表达Ω＝{g_k，k＝1，2，...，K}采用聚类方法构建，g_k＝N(m_k，U_k)为多维高斯分布函数，称之为标识子。

3.根据权利要求1所述的基于运动轨迹和区分性信息的语音关键词检测方法，其特征在于，所述针对声学相近词对比构建关键词的局部区分性信息，并用关键词中最具有声学混淆的音节分布差异信息表达，具体步骤包括：

其中，

对

g_k表示标识子。

4.根据权利要求1所述的基于运动轨迹和区分性信息的语音关键词检测方法，其特征在于，所述利用待检测音段的特征空间分布与关键词的特征空间分布知识的相似性预选可能的关键词子集W^(c)，基于SVM分类器判断检测音段的特征空间分布与关键词的特征空间分布知识的相似性，每个关键词训练L个SVM二分分类器，待检测音段的特征空间分布通过每个关键词的L个SVM分类器投票判决给出分类结果，根据分类结果预选可能的关键词子集W^(c)。

5.根据权利要求1所述的基于运动轨迹和区分性信息的语音关键词检测方法，其特征在于，所述利用待检测音段的特征空间运动轨迹与预选关键词子集W^(c)中每个词的特征空间运动轨迹的相似度选出最可能的关键词