CN114530141A

CN114530141A - 一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现

Info

Publication number: CN114530141A
Application number: CN202011323748.7A
Authority: CN
Inventors: 陆峰; 薛玉敏
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2022-05-24

Abstract

本公开的实施例公开了一种中英文混合的离线语音关键词识别方法及其系统。该方法的一具体实施方式包括：获取语音数字信号，对其进行语音活动检测，得到待识别语音段；定义自适应关键词匹配窗口，分割待识别语音段；对语音段进行特征提取，得到梅尔频率倒谱系数嵌入特征向量；分析自定义关键词列表，结合预先训练的音素补白模型，得到中文解码网络空间和英文解码网络空间；将所述梅尔频率倒谱系数嵌入特征向量依次输入所述解码网络空间中，得到识别结果；对识别结果后处理，生成目标识别结果。该实施方式的计算量低，可以离线识别，识别准确率高，响应速度快，支持中英文混合识别，能够灵活的更换关键词列表从而适应不同场景下的应用。

Description

一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现

技术领域

本公开的实施例涉及语音识别技术领域，具体涉及中英文混合的离线语音关键词识别方法及其系统。

背景技术

语音关键词识别技术是自动语音识别领域的一个研究分支，自动语音识别技术需要对采集到的连续语音流进行完整的解码转换，对硬件计算能力要求更高，常常采用数据上传云端计算的在线识别方式，在网络离线时识别效果急剧下降，在线识别也存在着数据上传云端时的隐私泄露风险。语音关键词识别只关注关键词部分，对硬件依赖较低，可以在本地完成解码计算，从而实现离线识别，在军事领域、空中交通管制领域、语音监听领域等特定场景有着广阔的应用前景。

语音关键词识别最早开始于20世纪70年代，经过多年的技术发展与积累，语音关键词识别算法，大致可以分为两类。一类是基于音素补白模型的语音关键词识别，该种方法将待识别语音看作是由关键词和非关键词两部分组成，另一类是基于模板匹配的语音关键词识别，该种方法将待识别语音直接与关键词模板语音进行对比，计算距离差异。

对于基于音素补白模型的语音关键词识别方法，有基于隐马尔可夫模型和基于神经网络两种实现方案。基于隐马尔可夫模型的音素补白模型对关键词和非关键词都建立HMM(Hidden Markov Model，隐马尔可夫模型)，HMM能够比较好的描述语音信号特征状态的统计分布概率，但是这种实现方法存在识别准确率低，响应时间慢等缺点，需要进一步优化。基于神经网络的音素补白模型则将关键词识别看作是关键词和非关键词的分类问题，该种方案需要大量语料进行神经网络训练，更换关键词时，需要重新收集训练数据，重新训练网络参数，因此该种方案在实际应用中较为受限。

对于基于模板匹配的语音关键词识别方法，也有基于DTW(Dynamic TimeWarping，动态时间规整)和基于嵌入学习两种实现方案。基于DTW的关键词识别，是语音关键词识别早期使用的一种方法，核心思想就是动态规划进行序列对齐，然后计算序列之间的距离，这种方式实现比较简单，但是主要用于孤立词识别。基于嵌入学习的语音关键词识别则是通过训练一个神经网络特征提取器(例如：LSTM特征提取器)，将待识别语音和关键词模板语音经过特征提取器转换为长度相同的特征向量，然后计算向量距离，这种实现方法在单个关键词识别时，具有很高的识别准确率，因此在智能设备唤醒领域具有广泛应用，但是随着待识别的关键词数目增多，识别准确率会急剧下降，虽然仅需要收集少量关键词模板语料即可实现更换待识别关键词，但是这种方式又带来非特定人识别效果较差的问题。

发明内容

本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

针对上述语音关键词识别存在的问题，本公开的一些实施例提出了中英文混合的离线语音关键词识别方法及其系统实现，并提出以上下文相关音素为隐马尔可夫模型声学模型基本建模单元，采用在线式废料模型匹配连续语音中的非关键词部分，通过上述这些方法使得关键词识别能够很方便地根据特定场景更换关键词列表，并且不会对识别准确率产生太大的影响，更换关键词列表也不需要重新训练废料模型，本公开的一些实施例还提出简化语音活动检测和优化路径解码等策略提升系统识别准确率和响应速度。

本公开的一些实施例提供了一种中英文混合的离线语音关键词识别方法，该方法包括：获取语音数字信号，对其进行语音活动检测，得到待识别语音段；定义自适应关键词匹配窗口，分割待识别语音段；对所述窗口内的语音段进行特征提取，得到梅尔频率倒谱系数嵌入特征向量；分析特定场景下的自定义关键词列表，以及结合预先训练的音素补白模型，得到自定义关键词的中文解码网络空间和英文解码网络空间；将所述梅尔频率倒谱系数嵌入特征向量依次输入所述解码网络空间中，得到识别结果；对所述识别结果后处理，生成目标识别结果作为输出。

可选的，所述语音活动检测包括：定义语音采集的参数信息，调用音频处理接口以如下参数对原始语音进行量化处理：采样频率为16000Hz，声道数为1，每一个语音块包含的语音帧数为1024，得到第n时刻的量化处理的语音帧编码信息x(n)＝(x₁(n)，x₂(n)，...，x_m(n))，k个语音帧编码信息组合得到t₁到t_k时间段内的原始语音块信息f＝(x(t₁)，x(t₂)，...，x(t_k))；对所述量化处理的语音帧编码信息计算平均声音强度如下：

其中，n表示第n时刻，x表示语音帧编码信息，x(n)表示第n时刻采集到的语音帧编码信息，x₁(n)表示第n时刻采集到的语音帧编码信息中的第1位，x₂(n)表示第n时刻采集到的语音帧编码信息中的第2位，x_m(n)表示第n时刻采集到的语音帧编码信息中的第m位，f表示语音块，t表示时刻，t₁表示第1个时刻，t₂表示第2个时刻，t_k表示第k个时刻，x(t₁)表示t₁时刻采集到的语音帧编码信息，x(t₂)表示t₂时刻采集到的语音帧编码信息，x(t_k)表示t_k时刻采集到的语音帧编码信息，threshold表示平均声音强度也作为当前环境下的静音阈值，γ表示影响因子，具体取值为γ＝2.5，k表示序号，i表示序号，m表示语音帧编码信息的数量，X_i表示语音帧编码信息中的第i位，x_i(n)表示第n时刻采集到的语音帧编码信息中的第i位；分析声音强度变化，当关键词识别完成或长时间没有声音强度超过该阈值时，动态更新静音阈值。

可选的，所述定义自适应关键词匹配窗口，包括：对照关键词列表计算平均关键词长度为：

其中，l表示平均关键词长度，n表示关键词数量，i表示序号，l_i表示第i个关键词的长度；以平均关键词长度为依据定义匹配窗口的长度wnd和窗口移动的距离rwnd，wnd满足1.5l≤wnd≤2l，当识别到关键词时rwnd＝0.8l，如果未识别到关键词则rwnd＝0.4l。

可选的，所述对所述窗口内的语音段进行特征提取，得到梅尔频率倒谱系数嵌入特征向量，包括：对所述关键词匹配窗口内的语音信号预加重，弥补高频信号在声音传播中的损失；以固定帧长和帧移对语音信号重叠分帧，得到分帧语音信号；对所述分帧语音信号加窗，得到中央部分增强其余部分趋于零的语音信号；对加窗后的语音信号进行傅里叶变换，得到每一帧语音信号的线性频谱；将所述线性频谱输入梅尔频率滤波器组，得到梅尔频率倒谱系数嵌入特征向量。

可选的，所述分析特定场景下的自定义关键词列表，以及结合预先训练的音素补白模型，得到自定义关键词的中文解码网络空间和英文解码网络空间，包括：以上下文相关音素为基本建模单元训练隐马尔可夫模型声学模型，以在线式废料模型构建音素补白模型，其中，音素作为构成语音的最小基本单位，所述在线式废料模型直接在所述音素模型中计算每一个语音帧的局部废料概率评分，不需要单独训练废料模型；根据不同场景的应用需求，自定义关键词列表，以卡麦基梅隆大学字典的划分方式，生成关键词和音素对应关系的字典信息；以关键词文本作为语言模型语料库，基于统计语言模型进行语言建模，对于给定关键词序列S＝(s₁，s₂，...，s_n)，3元语言模型概率表示如下：

其中，S表示关键词序列，s₁表示关键词序列中的第1个字，s₂表示关键词序列中的第2个字，s_n表示关键词序列中的第n个字，n表示关键词序列的长度，i表示序号，P表示概率，P(s₁，s₂，...，s_n)表示以(s₁，s₂，...，s_n)顺序出现的关键词序列的概率，P(s_i|s_i-1，s_i-2)表示s_i在已知s_i-1和S_i-2的情况下的概率，S_i-1表示关键词序列中的第i-1个字，S_i-2表示关键词序列中的第i-2个字，

表示第1个到第n个概率进行连乘计算；所述预先训练的音素补白模型、字典信息和3元语言模型概率，三者共同构成自定义关键词列表的中文解码网络空间和英文解码网络空间，其中，当关键词列表更改时，组成语音的音素不需要重新训练，只需要重新生成待识别关键词列表的字典信息和3元语言模型概率即可。

可选的，所述将所述梅尔频率倒谱系数嵌入特征向量依次输入所述解码网络空间中，得到识别结果，包括：获取自适应关键词匹配窗口内的梅尔频率倒谱系数嵌入特征向量作为语音观察序列：O＝(o₁，o₂，...，o_M)，其中，O表示语音观察序列，o₁表示语音观察序列中的第1帧，o₂表示语音观察序列中的第2帧，O_M表示语音观察序列中的第M帧；在所述中文解码网络空间λ₁和英文解码网络空间λ₂构成并行的多语言解码器中，对同一个语音观察序列O＝(o₁，o₂，...，o_M)分别在两个解码网络空间中使用维特比算法并行计算解码，得到给定的语音观察序列的包含关键词音素和非关键词音素的最佳状态序列P_c和P_e，计算确认得分如下：

其中，S₁表示语音观察序列O在中文解码网络空间的确认得分，P表示概率，O表示语音观察序列，P_c表示中文最佳状态序列，P(P_c|O)表示P_c在语音观察序列为O时出现的条件概率，P(P_c)表示P_c在语言模型中出现的概率，P(O)表示语音观察序列O的概率，P(O|P_c)表示O在P_c时出现的条件概率，S₂表示语音观察序列O在英文解码网络空间的确认得分，P_e表示英文最佳状态序列，P(P_e|O)表示P_e在语音观察序列为O时出现的条件概率，P(P_e)表示P_e在语言模型中出现的概率，P(O|P_e)表示O在P_e时出现的条件概率；其中P(P_c)和P(P_e)由语言模型获得，P(O|P_c)和P(O|P_e)则由隐马尔可夫模型声学模型获得，两个式子分母相同，具体就是比较分子，即比较在哪种语言解码网络空间下产生当前语音观察序列的概率最大。若S₁＞S₂则认为识别到中文，否则认为识别到英文。

可选的，所述对所述识别结果后处理，生成目标识别结果作为输出，包括：在字典信息和语言模型的指导下，组合最佳状态路径，得到包含关键词和非关键词信息的识别结果；对所述包含非关键词信息的识别结果，以关键词列表作为所述音素输出概率的评判标准，得到目标识别结果作为输出，其满足：

其中，P表示概率，W表示关键词，W_i表示关键词列表中的第i个关键词，C表示由最佳状态路径组合得到的识别结果，

表示在识别结果为C的情况下，最可能识别到的关键词。

本公开的一些实施例还提供了一种中英文混合的离线语音关键词识别系统，包括：语音实时监听模块，用于麦克风实时监听当前环境下的语音信号；语音活动检测模块，用于检测语音信号中的待识别语音段；关键词识别模块，用于判断所述语音信号中是否有关键词出现；数据记录存储域检索模块，用于将出现关键词相关信息记录到数据库中，并提供数据查询功能。

本公开的上述各个实施例具有如下有益效果：首先，本公开的一些实施例提出了一种简化的语音活动检测算法，该算法实现简单，计算量低，本地即可完成计算，有助于关键词识别的离线实现。对静音阈值能够做到动态更新，可以较快感知到当前环境下的背景音变化，对背景环境较为复杂的情况下能有更好的端点区分能力。其次，本公开的一些实施例提出了自适应滑动窗口的语音关键词匹配，根据待识别的关键词长度定义滑动窗口长度，将长语音段进一步分割成较短语音段，这种方式既结合了模板匹配算法的优点，又具有隐马尔可夫模型声学模型的优点，前者使该算法在解码计算过程中有较低的计算量，能做到实时响应，也使得中英文混合识别成为可能，后者则使匹配网络具有隐马尔可夫模型声学模型的特征，在解码时按音素识别，对具有相同前缀的关键词有更高的识别准确率，提高了系统的响应速度。接着，本公开的一些实施例提出了关键词识别后处理操作，对路径解码部分得到的包含废料信息的识别结果，以关键词列表作为音素后验概率得分的评判标准，去除废料状态得到最终识别结果，提高了系统的拒识别率。最后，本公开的一些实施例提出了以音素为基本建模单元，采用在线式废料模型的音素补白模型，能够比较方便的更换关键词列表而不降低识别准确率。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制。

图1是本公开的一些实施例可以应用于其中的示例性系统的实现模块设计图；

图2是根据本公开的中英文混合的离线语音关键词识别方法的一些实施例的流程图；

图3是根据本公开的中英文混合的离线语音关键词识别方法的另一些实施例的流程图；

图4是根据本公开的中英文混合的离线语音关键词识别方法的另一些实施例的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本公开。

图1是本公开的一些实施例可以应用于其中的示例性系统的实现模块设计图。包括语音监听模块、语音识别模块和数据查询模块。语音监听模块和语音识别模块一起组成本公开的中英文混合的离线语音关键词识别。数据查询模块则主要提供数据记录和检索功能。

语音监听模块主要包括麦克风录音模块、语音活动检测模块和语音特征提取模块。其中，麦克风录音模块主要负责调用相关音频处理接口(例如：API)进行语音信号的获取和量化存储。语音活动检测模块主要对麦克风采集的语音进行检测，判断是否有声音到来。本公开的一些实施例采用简化的双门限法实现语音活动检测。语音预处理模块主要对语音活动检测处理后的待识别语音段进行自适应匹配窗口分割和特征提取。其中，由于采集到的语音数字信号包含一些背景噪音、静音和实际说话人的语音信号部分。实际说话人的语音信号部分是关键词识别所需要的。待识别语音段提取出语音信号中真正的说话声音部分，也即语音信号部分。作为示例，可以采用梅尔频率倒谱系数进行特征提取。

具体地，麦克风录音模块采用接口(例如：PyAudio接口)。定义语音信号的参数信息。定义语音采集的参数信息。调用音频处理接口以如下参数对原始语音进行量化处理：采样频率为16000Hz。声道数为1。每一个语音块包含的语音帧数为1024。得到第n时刻的量化处理的语音帧编码信息x(n)＝(x₁(n)，x₂(n)，...，x_m(n))。k个语音帧编码信息组合得到t₁到t_k时间段内的原始语音块信息f＝(x(t₁)，x(t₂)，...，x(t_k))。其中，n表示第n时刻。x表示语音帧编码信息。x(n)表示第n时刻采集到的语音帧编码信息。x₁(n)表示第n时刻采集到的语音帧编码信息中的第1位。x₂(n)表示第n时刻采集到的语音帧编码信息中的第2位。x_m(n)表示第n时刻采集到的语音帧编码信息中的第m位。f表示原始语音块信息。t表示时刻。t₁表示第1个时刻。t₂表示第2个时刻。t_k表示第k个时刻。x(t₁)表示t₁时刻采集到的语音帧编码信息。x(t₂)表示t₂时刻采集到的语音帧编码信息。x(t_k)表示t_k时刻采集到的语音帧编码信息。

继续参考图2，示出了根据本公开的中英文混合的离线语音关键词识别方法的一些实施例的流程图。

对采集到的语音信号进行分析，采集1s当前环境下的语音帧编码信息x(n)。计算该时间段内声音信号的平均声音强度：

其中，n表示第n时刻。x表示语音帧编码信息。x(n)表示第n时刻采集到的语音帧编码信息。x₁(n)表示第n时刻采集到的语音帧编码信息中的第1位。x₂(n)表示第n时刻采集到的语音帧编码信息中的第2位。x_m(n)表示第n时刻采集到的语音帧编码信息中的第m位。f表示原始语音块信息。t表示时刻。t₁表示第1个时刻。t₂表示第2个时刻。t_k表示第k个时刻。x(t₁)表示t₁时刻采集到的语音帧编码信息。x(t₂)表示t₂时刻采集到的语音帧编码信息。x(t_k)表示t_k时刻采集到的语音帧编码信息。threshold表示平均声音强度也作为当前环境下的静音阈值。γ表示影响因子。具体取值为γ＝2.5。k表示序号。i表示序号。m表示语音帧编码信息的数量。X_i表示语音帧编码信息中的第i位。x_i(n)表示第n时刻采集到的语音帧编码信息中的第i位。

将所述threshold作为当前环境下的静音阈值。根据该静音阈值判断声音的开始和结束。如果10s内仍然没有声音强度超过静音阈值，则重新计算并更新静音阈值。

语音特征提取模块主要将语音信号转化为声学特征向量。首先，对语音信号预加重弥补声音传播过程中的高频能量损耗。然后，以帧长25ms和帧移10ms对语音信号重叠分帧。接着，对每一帧信号进行加窗操作y(n)＝x(n)×w(n)。其中w(n)表示窗函数。最后对加窗后的每一帧信号进行傅里叶变换，再进行梅尔频率倒谱系数提取得到梅尔频率倒谱系数嵌入特征向量。

进一步参考图3，示出了根据本公开的中英文混合的离线语音关键词识别方法的另一些实施例的流程图。

语音识别模块主要包括声学模型训练和关键词识别两部分。声学模型训练部分包括自定义关键词模块和自定义关键词对应的解码网络训练模块。关键词识别模块则主要包括自适应关键词匹配窗口定义、路径解码和识别结果的后处理三部分。其中，所述自适应关键词匹配窗口是本公开在解决关键词识别率低、识别响应速度慢的一种方法，这种方法将语音活动检测得到的真正语音信号部分用一个滑动窗口再次分割成一个一个的小语音段。窗口的大小由待识别的关键词长度确定。窗口的移动距离由是否识别到关键词确定。由于窗口的大小和移动距离并不是确定的，而是随着关键词而变化。所以它是具有“自适应”性的，滑动窗口分割出来的预定数目个语音段就是这里所说的“关键词匹配窗口”。作为示例，所述预定数目个可以是5个。

下面参考图4，其示出了根据本公开的中英文混合的离线语音关键词识别方法的另一些实施例的流程图。

根据特定场景下的应用需求得到待识别的关键词列表，按照卡麦基梅隆大学字典的划分方式定义关键词与音素对应的字典信息，训练生成语言模型。音素是构成语音的最小基本单位。本实施方案中采用卡麦基梅隆大学字典的划分方式。以上下文相关音素为基本建模单元训练隐马尔可夫模型声学模型。，采用在线式废料模型匹配语音中的非关键词部分。隐马尔可夫模型声学模型λ的构建主要是确定状态转移概率矩阵A和状态对齐概率矩阵B。根据上述梅尔频率倒谱系数观察序列O＝(o₁，o₂，...，o_M)不断迭代模型参数。其中，O表示语音观察序列。o₁表示语音观察序列中的第1帧。o₂表示语音观察序列中的第2帧。o_M表示语音观察序列中的第M帧。使得概率P(O|λ)最大，本实施方案中参数训练部分采用算法(例如：Baum-Welch算法)完成。以关键词文本作为语言模型语料库，基于统计语言模型进行语言建模。对于给定关键词序列S＝(s₁，s₂，...，s_n)，3元语言模型概率表示如下：

其中，S表示关键词序列。s₁表示关键词序列中的第1个字。s₂表示关键词序列中的第2个字。s_n表示关键词序列中的第n个字。n表示关键词序列的长度。i表示序号。P表示概率。P(s₁，s₂，...，s_n)表示以(s₁，s₂，...，s_n)顺序出现的关键词序列的概率。P(s_i|s_i-1，s_i-2)表示si在已知s_i-1和s_i-2的情况下的概率。s_i-1表示关键词序列中的第i-1个字。S_i-2表示关键词序列中的第i-2个字。

表示第1个到第n个概率进行连乘计算。

所述预先训练好的音素补白模型、自定义关键词的字典信息和语言模型。三者共同构成自定义关键词列表的中文解码网络空间和英文解码网络空间。当关键词列表更改时，组成语音的音素不需要重新训练。只需要重新生成待识别关键词列表的字典信息和语言模型即可。其中，音素补白模型是本公开解决关键词识别时的一种方案，也被叫做“垃圾模型”或者“废料模型”。连续语音由关键词和关键词以外的非关键词部分组成。音素补白模型主要用来解决连续语音中非关键词部分的误识别问题的。基于隐马尔可夫模型的关键词识别通常采用这种方法。这种方法为每一个待识别关键词训练一个隐马尔可夫模型声学模型。为非关键词部分训练一个音素补白模型/垃圾模型。在关键词识别路径解码时，关键词语音部分被解码成对应的关键词。非关键词部分解码为补白。从而可以只识别关键词，而不识别非关键词。

自适应关键词匹配部分，首先计算关键词的平均长度

其中，l表示平均关键词长度。n表示关键词数量。i表示序号。l_i表示第i个关键词的长度。以平均关键词长度为依据定义匹配窗口的长度wnd和窗口移动的距离rwnd。wnd满足1.5l≤wnd≤2l。当识别到关键词时rwnd＝0.8l。如果未识别到关键词则rwnd＝0.4l。自适应窗口将待识别语音进一步划分为更小的语音段。从而提高系统识别的响应速度和识别准确率。

关键词识别部分主要是针对特征提取得到的语音观察序列O＝(o₁，o₂，...，o_M)。分别在并行的中英文解码空间中使用维特比算法并行计算解码，得到给定的语音观察序列的包含关键词音素和非关键词音素的最佳状态序列P_c和P_e。计算确认得分如下：

其中，S₁表示语音观察序列O在中文解码网络空间的确认得分。P表示概率。O表示语音观察序列。P_c表示中文最佳状态序列。P(P_c|O)表示P_c在语音观察序列为O时出现的条件概率。P(P_c)表示P_c在语言模型中出现的概率。P(O)表示语音观察序列O的概率。P(O|P_c)表示O在P_c时出现的条件概率。S₂表示语音观察序列O在英文解码网络空间的确认得分。P_e表示英文最佳状态序列。P(P_e|O)表示P_e在语音观察序列为O时出现的条件概率。P(P_e)表示P_e在语言模型中出现的概率。P(O|P_e)表示O在P_e时出现的条件概率。

其中P(P_c)和P(P_e)由语言模型获得。P(O|P_c)和P(O|P_e)则由隐马尔可夫模型声学模型获得。两个式子分母相同。具体就是比较分子，即比较在哪种语言解码空间下产生当前语音观察序列的概率最大。若S₁＞S₂则认为识别到中文，否则认为识别到英文。

识别结果后处理部分在字典信息和语言模型的指导下，组合最佳状态路径，得到包含关键词和非关键词信息的识别结果C。以关键词列表作为音素输出概率得分的评判标准，得到最终关键词识别结果W满足：

其中，P表示概率。W表示关键词。W_i表示关键词列表中的第i个关键词。C表示由最佳状态路径组合得到的识别结果。

表示在识别结果为C的情况下最可能识别到的关键词。

数据查询模块主要涉及对数据记录的操作。作为示例，该部分使用数据库技术(例如：sqlite数据库技术)实现。定义查询模型，设置查询语句。然后，将查询语句与用户查询条件进行拼接，组成更加完善的精确查询。本实施例中同时设计了分页查询，每页只展示5条数据记录。分页查询不仅使界面更加美观，同时限制了数据库每次查询的数据条数。当数据库数据量较大时，能快速获取到数据库的查询结果。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种中英文混合的离线语音关键词识别方法，包括：

获取语音数字信号，对其进行语音活动检测，得到待识别语音段；

定义自适应关键词匹配窗口，分割待识别语音段；

对所述窗口内的语音段进行特征提取，得到梅尔频率倒谱系数嵌入特征向量；

分析特定场景下的自定义关键词列表，以及结合预先训练的音素补白模型，得到自定义关键词的中文解码网络空间和英文解码网络空间；

将所述梅尔频率倒谱系数嵌入特征向量依次输入所述解码网络空间中，得到识别结果；

对所述识别结果后处理，生成目标识别结果作为输出。

2.根据权利要求1所述的方法，其中，所述语音活动检测包括：

定义语音采集的参数信息，调用音频处理接口以如下参数对原始语音进行量化处理：采样频率为16000Hz，声道数为1，每一个语音块包含的语音帧数为1024，得到第n时刻的量化处理的语音帧编码信息x(n)＝(x₁(n)，x₂(n)，...，x_m(n))，k个语音帧编码信息组合得到t₁到t_k时间段内的原始语音块信息f＝(x(t₁)，x(t₂)，...，x(t_k))；

对所述量化处理的语音帧编码信息计算平均声音强度如下：

其中，n表示第n时刻，x表示语音帧编码信息，x(n)表示第n时刻采集到的语音帧编码信息，x₁(n)表示第n时刻采集到的语音帧编码信息中的第1位，x₂(n)表示第n时刻采集到的语音帧编码信息中的第2位，x_m(n)表示第n时刻采集到的语音帧编码信息中的第m位，f表示原始语音块信息，t表示时刻，t₁表示第1个时刻，t₂表示第2个时刻，t_k表示第k个时刻，x(t₁)表示t₁时刻采集到的语音帧编码信息，x(t₂)表示t₂时刻采集到的语音帧编码信息，x(t_k)表示t_k时刻采集到的语音帧编码信息，threshold表示平均声音强度也作为当前环境下的静音阈值，γ表示影响因子，具体取值为γ＝2.5，k表示序号，i表示序号，m表示语音帧编码信息的数量，x_i表示语音帧编码信息中的第i位，x_i(n)表示第n时刻采集到的语音帧编码信息中的第i位；

分析声音强度变化，当关键词识别完成或长时间没有声音强度超过该阈值时，动态更新静音阈值。

3.根据权利要求2所述的方法，其中，所述定义自适应关键词匹配窗口，包括：

对照关键词列表计算平均关键词长度为：

其中，l表示平均关键词长度，n表示关键词数量，i表示序号，l_i表示第i个关键词的长度；

以平均关键词长度为依据定义匹配窗口的长度wnd和窗口移动的距离rwnd，wnd满足1.5l≤wnd≤2l，当识别到关键词时rwnd＝0.8l，如果未识别到关键词则rwnd＝0.4l。

4.根据权利要求3所述的方法，其中，所述对所述窗口内的语音段进行特征提取，得到梅尔频率倒谱系数嵌入特征向量，包括：

对所述关键词匹配窗口内的语音信号预加重，弥补高频信号在声音传播中的损失；

以固定帧长和帧移对语音信号重叠分帧，得到分帧语音信号；

对所述分帧语音信号加窗，得到中央部分增强其余部分趋于零的语音信号；

对加窗后的语音信号进行傅里叶变换，得到每一帧语音信号的线性频谱；

将所述线性频谱输入梅尔频率滤波器组，得到梅尔频率倒谱系数嵌入特征向量。

5.根据权利要求4所述的方法，所述分析特定场景下的自定义关键词列表，以及结合预先训练的音素补白模型，得到自定义关键词的中文解码网络空间和英文解码网络空间，包括：

以上下文相关音素为基本建模单元训练隐马尔可夫模型声学模型，以在线式废料模型构建音素补白模型，其中，音素作为构成语音的最小基本单位，所述在线式废料模型直接在所述音素模型中计算每一个语音帧的局部废料概率评分，不需要单独训练废料模型；

根据不同场景的应用需求，自定义关键词列表，以卡麦基梅隆大学字典的划分方式，生成关键词和音素对应关系的字典信息；

以关键词文本作为语言模型语料库，基于统计语言模型进行语言建模，对于给定关键词序列S＝(s₁，s₂，...，s_n)，3元语言模型概率表示如下：

表示第1个到第n个概率进行连乘计算；

所述预先训练的音素补白模型、字典信息和3元语言模型概率，三者共同构成自定义关键词列表的中文解码网络空间和英文解码网络空间，其中，当关键词列表更改时，组成语音的音素不需要重新训练，只需要重新生成待识别关键词列表的字典信息和3元语言模型概率即可。

6.根据权利要求5所述的方法，所述将所述梅尔频率倒谱系数嵌入特征向量依次输入所述解码网络空间中，得到识别结果，包括：

获取自适应关键词匹配窗口内的梅尔频率倒谱系数嵌入特征向量作为语音观察序列：

O＝(o₁，o₂，...，o_M)，

其中，O表示语音观察序列，o₁表示语音观察序列中的第1帧，o₂表示语音观察序列中的第2帧，o_M表示语音观察序列中的第M帧；

在所述中文解码网络空间λ₁和英文解码网络空间λ₂构成并行的多语言解码器中，对同一个语音观察序列O＝(o₁，o₂，...，o_M)分别在两个解码网络空间中使用维特比算法并行计算解码，得到给定的语音观察序列的包含关键词音素和非关键词音素的最佳状态序列P_c和P_e，计算确认得分如下：

其中，S₁表示语音观察序列O在中文解码网络空间的确认得分，P表示概率，O表示语音观察序列，P_c表示中文最佳状态序列，P(P_c|O)表示P_c在语音观察序列为O时出现的条件概率，P(P_c)表示P_c在语言模型中出现的概率，P(O)表示语音观察序列O的概率，P(O|P_c)表示O在P_c时出现的条件概率，S₂表示语音观察序列O在英文解码网络空间的确认得分，P_e表示英文最佳状态序列，P(P_e|O)表示P_e在语音观察序列为O时出现的条件概率，P(P_e)表示P_e在语言模型中出现的概率，P(O|P_e)表示O在P_e时出现的条件概率；

其中P(P_c)和P(P_e)由语言模型获得，P(O|P_c)和P(O|P_e)则由隐马尔可夫模型声学模型获得，两个式子分母相同，具体就是比较分子，即比较在哪种语言解码网络空间下产生当前语音观察序列的概率最大。若S₁＞S₂则认为识别到中文，否则认为识别到英文。

7.根据权利要求6所述的方法，其中，所述对所述识别结果后处理，生成目标识别结果作为输出，包括：

在字典信息和语言模型的指导下，组合最佳状态路径，得到包含关键词和非关键词信息的识别结果；

对所述包含非关键词信息的识别结果，以关键词列表作为所述音素输出概率的评判标准，得到目标识别结果作为输出，其满足：

表示在识别结果为C的情况下，最可能识别到的关键词。

8.一种特定场景下的中英文混合的离线语音关键词识别系统，包括：语音实时监听模块，用于麦克风实时监听当前环境下的语音信号；语音活动检测模块，用于检测语音信号中的待识别语音段；关键词识别模块，用于判断所述语音信号中是否有关键词出现；数据记录存储域检索模块，用于将出现关键词相关信息记录到数据库中，并提供数据查询功能。