CN106297776A

CN106297776A - 一种基于音频模板的语音关键词检索方法

Info

Publication number: CN106297776A
Application number: CN201510266553.6A
Authority: CN
Inventors: 徐及; 张舸; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2015-05-22
Filing date: 2015-05-22
Publication date: 2017-01-04
Anticipated expiration: 2035-05-22
Also published as: CN106297776B

Abstract

本发明涉及一种基于音频模板的语音关键词检索方法，包括：首先将语音样例模板和待检索语音转换成概率分布的序列，然后通过动态时间规整对语音样例模板和待检索语音进行匹配，获得待检索语音中关键词起止时间点和每个出现位置的声学置信度得分，最后对不同语音样例模板获得的得分进行规整，排序后得到检索结果。本发明的检索过程完全不要求特定语种的信息，最大化通用性和可移植性，同时减小检索过程中的运算量，加快了关键词检索的速度。

Description

一种基于音频模板的语音关键词检索方法

技术领域

本发明涉及语音检索领域，特别涉及一种基于音频模板的语音关键词检索方法。

背景技术

关键词检索任务是指快速地从大规模、多样性的语音数据中找到给定的关键词所在的位置。目前主流的关键词检索方法是通过大词汇量连续语音识别系统将待检索语音转换成文本。考虑到大词汇量连续语音识别系统的识别准确性，首选结果的错误率较高，因此通常采用包含多候选信息和时间信息的词图，再在词图上对待检索关键词的文本或发音进行搜索和置信度计算，得到关键词检索结果(邵健，面向大规模电话交谈语音的汉语语音检索，博士学位论文，2008)。这种方法可以获得良好的检索性能。

然而，这一方法要求一个性能良好的大词汇量连续语音识别系统，搭建这样一个系统需要大量的标注语料，这样就显著提高了在一种新语言上的应用成本。此外，如果关键词是以语音片段的形式给出，这种方法需要将孤立的语音片段首先识别成首选文本，而这一过程通常精度有限，从而进一步限制了关键词检索的准确性。因此，传统的关键词检索方法通常只适用于充分了解的语种，这对关键词检索的应用带来了限制。为了能够在非特定的语种上实现以语音片段形式给出的关键词的检索任务，需要一种不依赖于大词汇量连续语音识别系统的语音关键词检索方法。

发明内容

本发明的目的在于克服传统的关键词检索方法对大词汇量连续语音识别系统的依赖，提出一种基于模板匹配的语音关键词检索方法。

为了实现上述目的，本发明提供了一种基于音频模板的语音关键词检索方法，包括：首先将语音样例模板和待检索语音转换成概率分布的序列，然后通过动态时间规整对语音样例模板和待检索语音进行匹配，获得待检索语音中关键词起止时间点和每个出现位置的声学置信度得分，最后对不同语音样例模板获得的得分进行规整，排序后得到检索结果。

上述技术方案中，该方法具体包括以下步骤：

步骤1)、分别对语音样例模板和待检索语音片段进行特征提取，将所提取的特征通过一个深层神经网络计算对一个给定的音素集上全部音素的声学后验概率；

步骤2)、以步骤1)得到的声学后验概率中属于静音的状态的强度为依据，在语音样例模板和待检索语音片段中，通过语音活动性检测去除属于静音的帧，仅保留属于语音的帧；

步骤3)、对属于每个特定关键词的一组语音样例模板分别进行动态时间规整和平均，得到属于每个关键词的单一平均语音样例模板；

步骤4)、对步骤3)所得到的平均语音样例模板和待检索语音片段进行动态时间规整，获得在每个待检索语音片段上的关键词候选以及相应的置信度得分；

步骤5)、对每一待检索语音片段，根据所有关键词候选的整体分布对置信度得分进行规整，并通过设定的阈值从关键词候选中得到最终检索出的关键词。

上述技术方案中，在步骤1)中，所述音素集为基于国际音标系统的通用音素集，或目标语言的特定音素集。

上述技术方案中，步骤1)进一步包括：

步骤1-1)、对语音样例模板与待检索语音片段进行分帧操作；

步骤1-2)、为语音样例模板和待检索语音片段中的语音帧提取语音识别特征；

步骤1-3)、将所提取的语音识别特征输入深层神经网络，生成语音帧在特定音素集状态中的后验概率；所述后验概率满足如下条件：

假设p_i,s(t)为第t帧时音素i，1≤i≤M，状态s，1≤s≤S的后验概率，则音素后验概率p_i(t)为该音素所有状态的概率和，即：

p_{i} (t) = \underset{&ForAll; s}{Σ} p_{i, s} (t)

并满足：

Σ_{&ForAll; i} p_{i} (t) = 1.

上述技术方案中，所述步骤2)进一步包括：

步骤2-1)、基于步骤1)得到的声学后验概率，对语音帧进行筛选，排除那些静音为所有音素中概率最高的语音帧；

步骤2-2)、对剩余的语音帧重新整理并记录原始位置。

上述技术方案中，所述步骤2-2)还包括：若剩余的语音帧少于给定的阈值，丢弃整个语音样例模板或待检索语音片段。

上述技术方案中，所述步骤3)进一步包括：

步骤3-1)、将属于同一个关键词的两个语音样例模板作为两个待匹配的序列；

步骤3-2)、为两个待匹配的序列寻找最优匹配路径，其中，假设待匹配的两个序列分别标记为X和Y，其长度分别为N和M，给出匹配路径p＝(p₁,…,p_L)，有p_l＝(n_l,m_l)∈[1:N]×[1:M]，l∈[1:L]，满足如下条件：

边界条件：p₁＝(1,1)且p_L＝(N,M)；

单调性条件：n₁≤n₂≤…≤n_L，m₁≤m₂≤…≤m_L；

步长条件：p_l+1-p_l∈{(0,1),(1,0),(1,1)}；

记D(n,m)为从匹配起点到位置(n,m),1≤n≤N,1≤m≤M的累积匹配得分，d(x_n,y_m)为序列元素x_n和y_m之间的距离，则匹配路径的选择满足：

D (n, 1) = Σ_{k = 1}^{n} d (x_{k}, y_{1})

D (1, m) = Σ_{k = 1}^{m} d (x_{1}, y_{k})

D (n, m) = d (x_{n}, y_{m}) + m i n \{\begin{matrix} D (n - 1, m) \\ D (n - 1, m - 1) \\ D (n, m - 1) \end{matrix}

对最优匹配路径的选择方法是：当p_l＝(n,m)，

据此，根据边界条件回溯得到最优匹配路径；

步骤3-3)、将不同长度的语音样例模板以最优匹配路径为依据被对齐到同一长度，从而得到每一帧的平均声学后验概率，并将这个平均值作为单一的平均语音样例模板。

上述技术方案中，所述步骤4)进一步包括：

步骤4-1)、将平均语音样例模板和待检索语音片段作为两个待匹配的序列；

步骤4-2)、为两个待匹配的序列寻找最优匹配路径；其中，假设待匹配的两个序列分别标记为X和Y，其长度分别为N和M，给出匹配路径p＝(p₁,…,p_L)，有p_l＝(n_l,m_l)∈[1:N]×[1:M]，l∈[1:L]，满足如下条件：

边界条件：p₁＝(1,a)且p_L＝(N,b)，其中1≤a≤b≤M；

单调性条件：n₁≤n₂≤…≤n_L，m₁≤m₂≤…≤m_L；

步长条件：p_l+1-p_l∈{(0,1),(1,0),(1,1)}；

D (n, 1) = Σ_{k = 1}^{n} d (x_{k}, y_{1})

D(1,m)＝d(x₁,y_k)

D (n, m) = d (x_{n}, y_{m}) + m i n \{\begin{matrix} D (n - 1, m) \\ D (n - 1, m - 1) \\ D (n, m - 1) \end{matrix}

其中，计算序列元素的距离时，采用巴氏距离(Bhattacharyya distance)：

d (x, y) = - l o g (Σ_{k = 1}^{K} \sqrt{x_{k} y_{k}})

对最优匹配路径的选择方法是：当p_l＝(n,m)，

据此，根据边界条件回溯得到最优匹配路径；

步骤4-3)、取D(N,m),1≤m≤M作为以m为匹配终点的累积匹配得分，并根据回溯得到的匹配路径获得最优匹配的起点；

步骤4-4)、根据设定的阈值选出最小的若干个累积匹配得分所在位置，以最优匹配的起止时间作为关键词候选的起止时间，以累积匹配得分的负数作为关键词候选的置信度得分。

上述技术方案中，所述步骤5)进一步包括：

对关键词候选进行直方图统计，获得计数最多的直方图分段，将该分段的中间值认为是得分的众数μ_q，并作为规整的对齐位置；统计得分高于众数的候选的得分标准差σ_qm，对置信度得分s_q,t作规整：

{\hat{s}}_{q, t} = \frac{s_{q, t} - μ_{q}}{σ_{q m}}

以规整后的得分作为依据，根据给定的阈值给出最终检索出的关键词。

本发明的优点在于：

1、采用本发明的方法实现检索的过程中，不依赖于语音到文本形式的转换，从而使检索过程完全不要求特定语种的信息，最大化通用性和可移植性，同时减小检索过程中的运算量，加快了关键词检索的速度。

2、本发明的方法采用语音样例模板平均，在保留模板信息的同时减少了匹配次数。

3、本发明的方法根据候选的整体分布进行置信度得分规整，消除了不同关键词模板在声学模型上产生的不平衡性，从而在混合语种或复杂场景的任务上保持性能的稳定。

附图说明

图1是本发明的语音关键词检索方法的流程图。

具体实施方式

下面对本发明作进一步描述。

本发明的语音关键词检索方法首先将语音样例模板和待检索语音通过声学模型前端转换成概率分布的序列，然后通过动态时间规整(Dynamic Time Warping)算法对语音样例模板和待检索语音进行匹配，获得待检索语音中关键词起止时间点和每个出现位置的声学置信度得分，最后对不同语音样例模板获得的得分进行规整，排序后得到检索结果。在比较理想的情况下，其可以完全不利用特定语种的数据。参考图1，本发明方法的具体描述如下：

步骤1)、分别对语音样例模板和待检索语音片段进行特征提取，将所提取的特征通过一个深层神经网络(Deep Neural Network)计算对一个给定的音素集上全部音素的声学后验概率；其中，所述语音样例模板有多个，一般对于一个特定关键词会有数个到数十个语音样例模板；所述音素集既可以采用基于国际音标系统的通用音素集，也可以采用目标语言的特定音素集；所述深层神经网络预先基于若干种语言的数据训练产生。

步骤2)、以后验概率中属于静音的状态的强度为依据，在语音样例模板和待检索语音片段中，通过语音活动性检测(Speech Activity Detection)去除属于静音的帧，仅保留属于语音的帧；

下面对本发明方法中的步骤做进一步描述。

在步骤1)中，计算后验概率是将语音样例模板和待检索语音片段转化为帧级音素后验概率；因此在特征提取前，首先对语音样例模板与待检索语音片段进行分帧操作，所述分帧操作是在输入语音流上，以25毫秒为帧长、10毫秒为帧移，进行时域上的切分。所述特征提取中所涉及的特征为语音识别特征，如MFCC或PLP。随后，这些特征被送入深层神经网络并生成特定音素集状态的后验概率。该后验概率满足如下条件：

假设p_i,s(t)为第t帧时音素i(1≤i≤M)、状态s(1≤s≤S)的后验概率，则音素后验概率p_i(t)为该音素所有状态的概率和，即：

p_{i} (t) = \underset{&ForAll; s}{Σ} p_{i, s} (t)

并满足：

\underset{&ForAll; i}{Σ} p_{i} (t) = 1

对于所使用的神经网络，尽管其训练数据和目标音素集来自于某一特定语言或者几种语言的混合，但由于这些语言均可以与待测语音无关，因此后验概率生成步骤可以被认为是对语音信号的一种刻画，是语种无关的。

在步骤2)中，所述语音活动性检测的目的是基于步骤1)得到的声学后验概率。对语音帧进行筛选，排除那些静音为所有音素中概率最高的语音帧。通过语音活动性检测，可以排除语音片段中的静音部分对匹配过程产生的影响，即：认为所有的静音部分都是相同的，因此不应该参与到匹配计算。

经过语音活动性检测，剩余的帧将会被重新整理并记录原始位置，从而避免在还原时出现错位的情况。此外，如果在语音活动性检测后剩余的语音帧少于给定的阈值，整个语音样例模板或待检索语音片段将会被丢弃，以确保后续匹配过程的统计稳定性。

在步骤3)和步骤4)中，动态时间规整用于寻找两个序列的最优对齐，并获得序列匹配程度的度量。在步骤3)中，两个待匹配的序列均为属于同一个关键词的语音样例模板；在步骤4)中，两个待匹配的序列为平均语音样例模板和待检索语音片段。

首先描述对两个序列进行整体对齐的方法。假设待匹配的两个序列分别标记为X和Y，其长度分别为N和M，给出匹配路径p＝(p₁,…,p_L)，有p_l＝(n_l,m_l)∈[1:N]×[1:M]，l∈[1:L]，满足如下条件：

边界条件：p₁＝(1,1)且p_L＝(N,M)；

单调性条件：n₁≤n₂≤…≤n_L，m₁≤m₂≤…≤m_L；

步长条件：p_l+1-p_l∈{(0,1),(1,0),(1,1)}；

D (n, 1) = Σ_{k = 1}^{n} d (x_{k}, y_{1})

D (1, m) = Σ_{k = 1}^{m} d (x_{1}, y_{k})

D (n, m) = d (x_{n}, y_{m}) + m i n \{\begin{matrix} D (n - 1, m) \\ D (n - 1, m - 1) \\ D (n, m - 1) \end{matrix}

对最优匹配路径的选择方法是：当p_l＝(n,m)，

据此，根据边界条件回溯可以得到最优匹配路径。

在匹配终点，累积匹配得分D(N,M)即是两个序列相似程度的度量。

对两个序列进行整体对齐的方法应用于步骤3)时，通过动态时间规整，不同长度的语音样例模板以最优匹配路径为依据被对齐到同一长度，从而得到每一帧的平均声学后验概率，并将这个平均值作为单一的平均语音样例模板，用于后续检索过程。

在步骤4)中，为了同时获得匹配得分和最优匹配位置，需要采用子序列动态时间规整方法，从而在一遍匹配过程中遍历所有可能匹配位置相对应的最优路径。该方法对经典方法的边界条件进行放宽，即：

p₁＝(1,a)且p_L＝(N,b)，其中1≤a≤b≤M

此时，匹配路径的选择满足：

D (n, 1) = Σ_{k = 1}^{n} d (x_{k}, y_{1})

D(1,m)＝d(x₁,y_k)

D (n, m) = d (x_{n}, y_{m}) + m i n \{\begin{matrix} D (n - 1, m) \\ D (n - 1, m - 1) \\ D (n, m - 1) \end{matrix}

d (x, y) = - l o g (Σ_{k = 1}^{K} \sqrt{x_{k} y_{k}})

实验表明这样的距离准则可以获得最优的性能。

在匹配完成之后，取D(N,m),1≤m≤M作为以m为匹配终点的累积匹配得分，并根据回溯得到的匹配路径获得最优匹配的起点。根据设定的阈值选出最小的若干个累积匹配得分所在位置，以最优匹配的起止时间作为关键词候选的起止时间，以累积匹配得分的负数作为关键词候选的置信度得分，这样就得到在一条待检索语音片段上的全部关键词候选。

在关键词检索时通常需要面对多变的语音模板样例的长度和发音模式。因此，步骤4)所做的动态时间规整给出的置信度得分在不同的关键词上可能具有相当不同的分布，从而无法直接采用统一的阈值获得最终候选。为此在步骤5)中需要对每个关键词对应的得分候选进行规整。

考虑到关键词得分的分布类似于长尾的正态分布，本步骤在进行规整时主要考虑更有价值的高置信度得分。首先对关键词候选进行直方图统计，获得计数最多的直方图分段，将该分段的中间值认为是得分的众数μ_q，并作为规整的对齐位置，统计得分高于众数的候选的得分标准差σ_qm，对置信度得分s_q,t作规整：

{\hat{s}}_{q, t} = \frac{s_{q, t} - μ_{q}}{σ_{q m}}

以规整后的得分作为依据，就可以根据给定的阈值给出最终候选。

本方法在测试中，在20小时混合语种数据上，对500个关键词进行检索时，可以达到单线程0.7倍实时率，F1分数24.96的实验结果。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于音频模板的语音关键词检索方法，包括：首先将语音样例模板和待检索语音转换成概率分布的序列，然后通过动态时间规整对语音样例模板和待检索语音进行匹配，获得待检索语音中关键词起止时间点和每个出现位置的声学置信度得分，最后对不同语音样例模板获得的得分进行规整，排序后得到检索结果。

2.根据权利要求1所述的基于音频模板的语音关键词检索方法，其特征在于，该方法具体包括以下步骤：

3.根据权利要求2所述的基于音频模板的语音关键词检索方法，其特征在于，在步骤1)中，所述音素集为基于国际音标系统的通用音素集，或目标语言的特定音素集。

4.根据权利要求2所述的基于音频模板的语音关键词检索方法，其特征在于，步骤1)进一步包括：

步骤1-1)、对语音样例模板与待检索语音片段进行分帧操作；

p_{i} (t) = \underset{&ForAll; s}{Σ} p_{i, s} (t)

并满足：

Σ_{&ForAll; i} p_{i} (t) = 1 .

5.根据权利要求2所述的基于音频模板的语音关键词检索方法，其特征在于，所述步骤2)进一步包括：

步骤2-2)、对剩余的语音帧重新整理并记录原始位置。

6.根据权利要求5所述的基于音频模板的语音关键词检索方法，其特征在于，所述步骤2-2)还包括：若剩余的语音帧少于给定的阈值，丢弃整个语音样例模板或待检索语音片段。

7.根据权利要求2所述的基于音频模板的语音关键词检索方法，其特征在于，所述步骤3)进一步包括：

边界条件：p₁＝(1,1)且p_L＝(N,M)；

单调性条件：n₁≤n₂≤…≤n_L，m₁≤m₂≤…≤m_L；

步长条件：p_l+1-p_l∈{(0,1),(1,0),(1,1)}；

D (n, 1) = Σ_{k = 1}^{n} d (x_{k}, y_{1})

D (1, m) = Σ_{k = 1}^{m} d (x_{1}, y_{k})

D (n, m) = d (x_{n}, y_{m}) + \min \{\begin{matrix} D (n - 1, m) \\ D (n - 1, m - 1) \\ D (n, m - 1) \end{matrix}

对最优匹配路径的选择方法是：当p_l＝(n,m)，

据此，根据边界条件回溯得到最优匹配路径；

8.根据权利要求2所述的基于音频模板的语音关键词检索方法，其特征在于，所述步骤4)进一步包括：

边界条件：p₁＝(1,a)且p_L＝(N,b)，其中1≤a≤b≤M；

单调性条件：n₁≤n₂≤…≤n_L，m₁≤m₂≤…≤m_L；

步长条件：p_l+1-p_l∈{(0,1),(1,0),(1,1)}；

D (n, 1) = Σ_{k = 1}^{n} d (x_{k}, y_{1})

D(1,m)＝d(x₁,y_k)

D (n, m) = d (x_{n}, y_{m}) + \min \{\begin{matrix} D (n - 1, m) \\ D (n - 1, m - 1) \\ D (n, m - 1) \end{matrix}

d (x, y) = - \log (Σ_{k = 1}^{K} \sqrt{x_{k} y_{k}})

对最优匹配路径的选择方法是：当p_l＝(n,m)，

据此，根据边界条件回溯得到最优匹配路径；

9.根据权利要求2所述的基于音频模板的语音关键词检索方法，其特征在于，所述步骤5)进一步包括：

{\hat{s}}_{q, t} = \frac{s_{q, t} - μ_{q}}{σ_{qm}}