CN111128128B

CN111128128B - 一种基于互补模型评分融合的语音关键词检测方法

Info

Publication number: CN111128128B
Application number: CN201911366488.9A
Authority: CN
Inventors: 贺前华; 李黎晗
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-05-23
Anticipated expiration: 2039-12-26
Also published as: CN111128128A

Abstract

本发明提供了一种基于互补模型评分融合的语音关键词检测方法，包括以下步骤：1)在音频特征空间进行关键词建模的基础上，引入基于i‑vector的关键词建模；2)自适应分段窗移：对于待检测的语音样本，从起始信号截取语音段，获取当前段在语音特征空间的分布表达，将其与关键词类属性计算相似度得到当前段的类评分序列，根据当前段的得分获得下一段的窗移，逐段处理直至信号结束，待检测的语音样本被分成K段；3)利用关键词候选点的位置进行评分融合。该发明采用两种有差异的模型实现一种有一定互补性的关键词检测算法，对两种模型的评分结果进行融合，能解决在训练样本量少的情况下的语音关键词检出，同时能提升关键词检出准确度。

Description

一种基于互补模型评分融合的语音关键词检测方法

技术领域

本发明涉及连续语音关键词识别领域，具体涉及一种基于互补模型评分融合的语音关键词检测方法。

背景技术

语音关键词检测是语音识别技术的一项特殊应用，其目的在于从连续语音中检测出是否包含了特定的关键词。目前连续语音关键词识别技术取得快速的发展，成功地在生活中的很多场景得到普及，已经成为语音控制、语音检索、安全监听等领域的重要研究课题。

传统的语音关键词检测技术主要有三种：滑动匹配模型、基于隐马尔可夫模型的垃圾模型和音节网格网络。滑动匹配模型采用滑动窗口在连续语音上进行关键词搜索，并采用动态时间规整进行匹配计算，但识别率不是很高。因此大多数采用的技术是基于隐马尔可夫模型和大词汇量连续语音识别系统的方法。基于隐马尔可夫模型的垃圾模型需要分别对关键词模型、背景模型以及对应关键词的垃圾模型进行建模，采用维特比解码算法进行识别。基于大词汇量连续语音识别系统的方法以语音关键词文本作为输入，通过对语料库进行语音识别，将其转化为识别词网格表示，然后再在该词网络上进行关键词匹配。

基于隐马尔可夫模型的垃圾模型和基于大词汇量连续语音识别系统的方法，比如：论文《基于HMM的汉语语音关键词检测研究与实现》和论文《Recent developments inspoken term detection》(International Journal of Speech Technology,2014,17(2):183-198)，虽然能够达到较好的检测效果，但是都必须依赖一个较大的语料库，需要大量的标注数据资源和巨大的工作量，对于低资源的语音数据来说并不具备训练一个鲁棒的关键词检测系统的条件，因此需要找到一种能解决在训练样本量少的情况下的语音关键词检出。

发明内容

本发明要解决的技术问题是用具有一定信息表达互补的模型评价融合解决单一模型信息表达不充分，从而导致判决不可靠的问题。在现有技术中，利用矢量量化得到直方图作为关键词的模型或者使用基于DTW的模板匹配方法，难以充分表达关键词的信息，在对语音样本的每一段进行识别时容易将非关键词误判为关键词，对最终的判决造成混淆。

本发明的目的是针对现有技术的不足，提供了一种基于互补模型评分融合的语音关键词检测方法，对关键词检测的评分进行融合，依靠关键词建模方式的差异，获得检测系统的互补性，使得关键词模型的潜力被更好的挖掘，得到较好的语音关键词检测结果。

本发明至少通过如下技术方案之一实现。

一种基于互补模型评分融合的语音关键词检测方法，利用音频特征空间和i-vector对关键词分别进行建模，对两种差异性建模方法的评分结果进行融合，包括以下步骤：

1)在音频特征空间进行关键词建模的基础上，引入基于身份矢量(i-vector)的关键词建模，获得两种建模方法；

2)自适应分段窗移：对于待检测的语音样本，从起始信号截取窗长为w的语音段，获取当前段在语音特征空间Ω的分布表达p，将其与关键词类属性M计算相似度得到当前段的类评分序列

根据当前段的得分获得下一段的窗移，逐段处理直至信号结束，待检测的语音样本被分成K段。

3)利用关键词候选点的位置进行评分融合：对于待检测的语音样本，通过音频特征空间评分序列

和利用i-vector所得评分序列/>

两条评分曲线极大值点得到关键词候选点的位置，对关键词候选点所在位置的评分进行加权融合，作为关键词检测的判决依据。

进一步地，步骤1)包括以下步骤：

a)利用无标注语音样本训练GMM模型(高斯混合模型)，将其高斯分布函数g_j(m_j,U_j)张成一个语音特征空间Ω＝{g_j,j＝1,2,…,J}，其中，g_j表示特征分布空间中的标识子，J为特征空间标识子的数量，m_j表示高斯分布函数的均值，U_j表示高斯分布函数的方差。预设的关键词有N个，计算每个关键词的语音样本特征在语音特征空间中的分布信息作为其类属性M_n；

b)利用关键词语音样本的梅尔频谱特征，提取每个关键词的i-vector。

进一步地，类评分序列

中每一段的相似度得分是余弦值，取相似度最高的作为该段的评分：

其中，

表示第k段语音的语音特征与第j个特征空间标识子的关联度，/>

表示第n个关键词与第j个特征空间标识子的关联度，/>

表示第k段语音的分布信息与第n个关键词的类属性M_n的相似度。

进一步地，步骤2)中，获得下一段的窗移据shift是当前段的得分

与阈值σ₁得到，具体如下：

进一步地，阈值σ₁是统计验证集每一个关键词的样本与它本身类属性M_n的相似度得分

取各个关键词最小相似度得分的平均作为阈值σ₁：

/>

其中，N为预设的关键词的数量，i表示关键词的样本数。

进一步地，关键词候选点的定义为两条曲线在同一位置出现的极大值点且在该位置两种建模方法法识别结果一致。

进一步地，步骤3)中，对关键词候选点所在位置的评分进行加权融合，包括以下步骤：

(1)若不存在关键词候选点，则认为待检测语音样本中不含关键词；

(2)若只有一个关键词候选点，检测结果为该候选点所在位置的识别结果；

(3)若有若干个关键词候选点集合L，不同候选点的识别结果不同，则对两种建模方法的评分结果进行融合，两种建模方法采用不同的权重进行线性加权，取融合后的评分最高值作为最终得分S；

当最终得分S大于预设的阈值σ₂时，将最终得分所在位置识别的关键词结果作为该文件的检测结果，否则认为待检测语音样本中不含关键词。

进一步地，最终得分S的计算步骤如下：

1)将

的取值区间规整到[-1,1]：

其中，

表示第k段语音的i-vector与第n个关键词的i-vector的PLDA评分；

2)对

和/>

进行线性加权，s_k表示第k段语音加权后的评分：

3)取加权后最高值作为最终得分S：

上述系数α取0.6≤α≤0.7，β取0.3≤β≤0.4。

进一步地，阈值σ₂定义为验证集中语音样本通过步骤3)的判决获得等错误率FAR＝FRR时的判决门限。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明提供的一种基于互补模型评分融合的语音关键词检测方法，在利用音频特征空间进行关键词建模的基础上，引入基于i-vector的关键词建模方法，对关键词检测的评分结果进行融合。本发明中所使用的两种模型的互补性主要体现在：1)利用音频特征空间对关键词建模在本质上是语音特征在空间中的定位，对于不同的关键词的语音特征，使用关联度来表示不同关键词的语音特征定位信息，从而表达不同关键词之间的区分性；而基于i-vector的关键词建模方法在计算PLDA评分时，更加关注不同关键词的类间特征而忽略同一个关键词的类内特征来衡量两段语音的相似程度，可以对语音特征定位信息提供有益的补充；2)利用音频特征空间得到的评分序列曲线中有多个极大值点，对最终的判决容易造成混淆，引入基于i-vector的关键词建模所得PLDA评分曲线可以减少一些极大值点的混淆，通过两条曲线得到关键词候选点集合作为关键词检测的判决依据，能提高关键词检出准确度。

2、本发明提供的一种基于互补模型评分融合的语音关键词检测方法，在对语音样本进行检测时，从起始信号截取固定窗长的语音段，根据当前段的相似度得分获取下一段的窗移，若当前段是关键词段，则按固定窗移移动；若当前段是非关键词段，相似度越小，窗移越大，能加快搜索速度。

3、本发明提供的一种基于互补模型评分融合的语音关键词检测方法，对两种模型的评分结果进行融合，能解决在训练样本量少的情况下单一模型信息表达不充分从而导致判决不可靠的问题，提升关键词检出准确度。

附图说明

图1为本发明实施例中基于互补模型评分融合的语音关键词检测方法的概略流程图；

图2为本发明实施例中利用音频特征空间对关键词进行建模的步骤流程图；

图3为本发明实施例中对待检测语音样本进行检测的步骤流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例的一种基于互补模型评分融合的语音关键词检测方法，包括以下步骤：

1)在音频特征空间进行关键词建模的基础上，引入基于i-vector(身份矢量)的关键词建模，获得两种建模方法；利用每个关键词的语音样本特征在语音特征空间中的分布信息作为其类属性；

如图2所示，利用语音特征空间对关键词进行建模，基于i-vector对关键词进行建模。

利用语音特征空间对关键词进行建模具体是使用aishell中文语料库中的语音数据作为无标注的语音样本集来训练语音特征空间，提取无标注语音样本集语音的12维MFCC(梅尔频率倒谱系数)特征，训练一个混合度为J的GMM模型，保留每个高斯分量作为语音特征空间的标识子集合Ω＝{g_j.j＝1,2,…,J}，其中，g_j表示特征分布空间中的标识子，J为特征空间标识子的数量，标识子数量J选择4096；

采集aishell中含有关键词的语音样本，每个关键词500个语音样本，从这些样本中截取关键词段来构成关键词样本集，时长在300ms-400ms，根据6:2:2的比例划分训练集、验证集和测试集。提取关键词段的12维MFCC特征F₁＝{f₁,f₂,…,f_t}，计算特征f_t与空间标识子g_j(m_j,U_j)的位置关联度：

其中，f_t表示第t帧的MFCC特征，m_j表示高斯分布函数的均值，U_j表示高斯分布函数的方差，

表示第t帧特征与第j个特征空间标识子的关联度，系数α取0.6≤α≤0.7。

计算关键词样本集与空间标识子g_j(m_j,U_j)的位置关联度的期望值：

/>

其中

为第n个样本的第t帧特征与标识子g_j(m_j,U_j)的位置关联度；

计算关键词类属性为：

基于i-vector对关键词进行建模具体是利用训练集中关键词样本集的梅尔频谱特征训练一个GMM-UBM模型，将每个GMM成分的均值组合成一个均值超矢量，从均值超矢量提取每个关键词的i-vector。

图3所示，检测过程包括以下步骤：

(1)从起始信号截取窗长为50帧的语音段，提取该段MFCC特征f＝{f₁,f₂,…,f_t}，其中，f_t表示第t帧特征；

(2)计算该段MFCC特征f＝{f₁,f₂,…,f_t}在特征空间Ω的分布p；

(3)计算样本分布p与关键词类属性M_n的相似度，取相似度最高的作为该段的评分：

其中，

表示第n个关键词与第j个特征空间标识子的关联度，/>

根据当前段的得分

与阈值σ₁获得下一段的窗移shift：

逐段分析直至信号结束，待检测的语音样本被分成K段。

阈值σ₁是统计验证集中每一个关键词的样本与它本身类属性M_n的相似度得分

取各个关键词最小相似度得分的平均值作为阈值σ₁：

其中，N为预设的关键词的数量，i表示关键词的样本数。

(4)对于已分好的K段，对每一段提取i-vector,将其与关键词的i-vector计算PLDA评分，得到待检测语音样本的i-vector评分序列

和利用i-vector所得评分序列/>

两条评分序列曲线存在多个极大值点，但两条曲线在关键词出现位置一定都存在极大值点，因此关键词候选点的定义为：两条曲线在同一位置出现的极大值点且在该位置两种建模方法识别结果一致。

对关键词候选点进行判决，判决如下：

a)若不存在关键词候选点，则认为待检测语音样本中不含关键词；

b)若只有一个关键词候选点，检测结果为该候选点所在位置的识别结果；

c)若有多个关键词候选点集合L，不同候选点的识别结果不同，则对两种建模方法的评分结果进行融合，两种建模方法采用不同的权重进行线性加权，取融合后的评分最高值作为最终得分S：

其中，

表示第k段语音的i-vector与第n个关键词的i-vector的PLDA评分，s_k表示第k段语音加权后的评分，上述系数α＝0.7,β＝0.3。

当最终得分S大于预设的阈值σ₂时，将最终得分所在位置识别的关健词结果作为该文件的检测结果，否则认为待检测语音样本中不含关键词。

阈值σ₂定义为验证集中语音样本通过上述判决方法获得等错误率FAR＝FRR时的判决门限，取σ₂＝0.4。

以上所述，仅为本发明较佳的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.一种基于互补模型评分融合的语音关键词检测方法，利用音频特征空间和i-vector对关键词分别进行建模，对两种差异性建模方法的评分结果进行融合，其特征在于，包括以下步骤：

1)在音频特征空间进行关键词建模的基础上，引入基于身份矢量的关键词建模，获得两种建模方法；

根据当前段的得分获得下一段的窗移，逐段处理直至信号结束，待检测的语音样本被分成K段；

和利用i-vector所得评分序列/>

这两条评分曲线极大值点得到关键词候选点的位置，对关键词候选点所在位置的评分进行加权融合，作为关键词检测的判决依据；对关键词候选点所在位置的评分进行加权融合，包括以下步骤：

当最终得分S大于预设的阈值σ₂时，将最终得分所在位置识别的关键词结果作为该文件的检测结果，否则认为待检测语音样本中不含关键词；

最终得分S的计算步骤如下：

1)将

的取值区间规整到[-1,1]：

其中，

表示第k段语音的i-vector与第n个关键词的i-vector的PLDA评分；

2)对

和/>

进行线性加权，s_k表示第k段语音加权后的评分：

3)取加权后最高值作为最终得分S：

上述系数α取0.6≤α≤0.7，β取0.3≤β≤0.4。

2.根据权利要求1所述的一种基于互补模型评分融合的语音关键词检测方法，其特征在于，步骤1)包括以下步骤：

a)利用无标注语音样本训练GMM模型，将其高斯分布函数g_j(m_j,U_j)张成一个语音特征空间Ω＝{g_j,j＝1,2,···,J}，其中，g_j表示特征分布空间中的标识子，J为特征空间标识子的数量，m_j表示高斯分布函数的均值，U_j表示高斯分布函数的方差；预设的关键词有N个，计算每个关键词的语音样本特征在语音特征空间中的分布信息作为其类属性M_n；

3.根据权利要求1所述的一种基于互补模型评分融合的语音关键词检测方法，其特征在于，类评分序列s₁ ^k中每一段的相似度得分是余弦值，取相似度最高的作为该段的评分：