CN113192535B

CN113192535B - 一种语音关键词检索方法、系统和电子装置

Info

Publication number: CN113192535B
Application number: CN202110412011.0A
Authority: CN
Inventors: 程高峰; 杨润延; 黎塔; 张鹏远; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-09-09
Anticipated expiration: 2041-04-16
Also published as: CN113192535A

Abstract

本申请实施例提供了一种语音关键词检索方法，包括：获取语音信号；提取所述语音信号的声学特征；所述声学特征为梅尔频率倒谱系数声学特征；将所述声学特征输入端到端语音识别及音素分类模型进行解码，输出至少一条候选文本和音素后验概率；检索所述至少一条候选文本的关键词；根据所述关键词将对应的候选文本转换为音素序列，并在所述音素序列中插入静音音素；对所述音素后验概率和所述音素序列计算，获得所述关键词的起止时间点和置信度；对所述关键词检索结果按所述置信度进行判决，保留置信度符合判决标准的关键词作为最终的关键词检索结果。

Description

一种语音关键词检索方法、系统和电子装置

技术领域

本申请实施例属于语音识别技术领域，具体涉及一种语音关键词检索方法、系统和电子装置。

背景技术

语音关键词检索是指在连续语音流中检测出一组以文本形式给定的关键词的过程。语音关键词检索在命令控制，实时对话系统，语音监听，以及语音数据库检索等方面有着广泛的应用。

近年来基于联结主义时间分类(connectionist temporal classification,CTC)或注意力机制的端到端语音识别不断发展。与DNN-HMM混合语音识别相比，端到端语音识别的优点是结构简单、训练流程简单、开发难度低，且语音识别性能已经超过了DNN-HMM混合语音识别。然而端到端语音识别由于一般采取标签同步的搜索解码方式，具有无法给出时间点或时间点误差大、对判决过度自信导致置信度不可靠的不足，导致其应用于语音关键词检索任务中存在困难。目前尚未有工作能够克服端到端语音识别应用于关键词检索中的这两项障碍。

发明内容

本申请实施例的目的是解决现有技术无法给出时间点或时间点误差大、对判决过度自信导致置信度不可靠的不足，导致其应用于语音关键词检索任务中存在困难的问题。为实现上述目的，本申请实施例提供了一种语音关键词检索方法、系统和电子装置。

第一方面，本申请实施例提供了一种语音关键词检索方法，所述方法包括：获取语音信号；提取所述语音信号的声学特征；所述声学特征为梅尔频率倒谱系数声学特征；将所述声学特征输入训练好的端到端语音识别及音素分类模型进行解码，输出至少一条候选文本和音素后验概率；检索所述至少一条候选文本获得对应的关键词；根据所述关键词将对应的候选文本转换为音素序列，并在所述音素序列中插入静音音素；对所述音素后验概率和所述音素序列计算，获得所述关键词的起止时间点和置信度；对所述关键词检索结果按所述置信度进行判决，保留置信度符合判决标准的关键词作为最终的关键词检索结果。

在一个可能的实施方式中，所述端到端语音识别及音素分类模型至少包括序列到序列模型、帧级别音素分类器和集束搜索解码模块；所述方法还包括训练所述端到端语音识别及音素分类模型的步骤：建立训练集；所述训练集至少包括若干条语音序列及对应的文本序列、对应的声学特征以及对应的音素序列的时间对齐信息；将所述语音序列对应声学特征序列输入所述序列到序列模型，输出音素标签序列的后验概率；将所述音素标签序列的后验概率与所述对应的人工转写文本序列进行比较后进行反向传播和参数更新，最终得到训练好的序列到序列模型；根据训练好的序列到序列模型训练帧级别音素分类器，得到端到端语音识别及音素分类模型。

在一个可能的实施方式中，所述根据训练好的序列到序列模型训练帧级别音素分类器，包括：

所述将所述序列到序列模型的一个中间层的输出结果输入所述帧级别音素分类器，输出逐帧的音素后验概率；

将所述逐帧的音素后验概率与所述音素序列的时间对齐信息进行比较后，在序列到序列模型的参数保持固定的基础上进行反向传播和参数更新，最终得到训练好的帧级别音素分类器。

在一个可能的实施方式中，所述提取所述的语音信号的声学特征，包括：对所述语音信号进行预加重、分帧和加窗处理，提取待各帧的梅尔频率倒谱系的数声学特征。

在一个可能的实施方式中，所述将所述声学特征输入训练好的端到端语音识别及音素分类模型进行解码，输出至少一条候选文本和音素后验概率，包括：将所述声学特征输入训练好的所述序列到序列模型进行计算，将计算结果输入集束搜索解码模块，得到至少一个候选文本；将所述序列到序列模型的一个中间层的输出值输入所述帧级别音素分类器，输出逐帧的音素后验概率。

在一个可能的实施方式中，所述根据所述关键词将对应的候选文本转换为音素序列，并在所述音素序列中插入静音音素，包括：将所述关键词的对应的候选文本输入发音字典，得到逐帧的音素序列；在所述关键词的对应的候选文本中每两个相邻词对应的每两个相邻音素序列之间插入一个静音音素。

在一个可能的实施方式中，所述对所述音素后验概率和所述音素序列计算，获得所述关键词的起止时间点和置信度，包括：对所述音素后验概率和包含所述关键词的候选文本对应的音素序列计算动态概率概率值，获得一条概率符合要求的帧级别的音素对齐路径；根据所述帧级别的音素对齐路径得到所述关键词的检索结果，所述检索结果至少包括关键词的起止时间点和置信度。

在一个可能的实施方式中，所述根据所述帧级别的音素对齐路径得到所述关键词的检索结果，包括：根据所述帧级别的音素对齐路径得到所述关键词对应的各个音素的起止帧数和各个帧上所述各个音素的后验概率；根据各个音素的起止帧数得到所述关键词的起止时间点；根据各个帧上所述各个音素的后验概率获得所述各个帧的帧平均后验概率置信度。

第二方面，本申请实施例提供了一种语音关键词检索系统，所述系统包括：信号处理及声学特征提取模块、端到端语音识别及音素分类模块、关键词检索模块、发音字典、帧级别音素对齐模块和置信度判决模块；所述信号处理及声学特征提取模块用于提取提取所述语音信号的声学特征；所述声学特征为梅尔频率倒谱系数声学特征；所述端到端语音识别及音素分类模块用于将所述声学特征输入训练好的端到端语音识别及音素分类模型进行解码，输出至少一条候选文本和音素后验概率；所述端到端语音识别及音素分类模型至少包括序列到序列模型、帧级别音素分类器和集束搜索解码模块；所述关键词检索模块用于检索所述至少一条候选文本的关键词；所述发音字典用于根据所述关键词将对应的候选文本转换为音素序列，并在所述音素序列中插入静音音素；所述帧级别音素对齐模块用于对所述音素后验概率和所述音素序列计算，获得所述关键词的起止时间点和置信度；所述置信度判决模块用于对所述关键词检索结果按所述置信度进行判决，保留置信度符合判决标准的关键词作为最终的关键词检索结果。

第三方面，本申请实施例提供了一种电子装置，包括存储器和处理器；所述处理器用于执行所述存储器所存储的计算机执行指令，所述处理器运行所述计算机执行指令执行上述任意一项实施方式所述的语音关键词检索方法。

本申请实施例提供了一种语音关键词检索方法、系统和电子装置，能够给出时间点且时间点误差小，判决致置信度可靠，在语音关键词检索任务中能够有效提高语音关键词检索性能。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提出的一种语音关键词检索方法的流程图；

图2为本申请实施例提出的一种语音关键词检索方法的端到端语音识别及音素分类模型的结构示意图；

图3为本申请实施例提出的一种语音关键词检索方法的端到端语音识别及音素分类模型的训练流程图；

图4为本申请实施例提出的一种语音关键词检索系统的功能框图；

图5a为基于本申请实施例的方法将关键词结果的置信度替换为在现有的基于端到端语音识别的方法中使用的CTC尖峰概率置信度的系统的ROC曲线图；

图5b为本申请实施例提出的一种语音关键词检索系统的ROC曲线图。

图6为本申请实施例提供的一种电子装置示意图。

具体实施方式

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三等”或模块A、模块B、模块C等，仅用于区别类似的对象，不代表针对对象的特定排序，可以理解地，在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在以下的描述中，所涉及的表示步骤的标号，如S110、S120……等，并不表示一定会按此步骤执行，在允许的情况下可以互换前后步骤的顺序，或同时执行。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

下面通过附图和实施例，对本申请实施例的技术方案做进一步的详细描述。

目前成熟的关键词检索技术主要基于大词汇量连续语音识别。典型的基于大词汇量连续语音识别的关键词系统由以下基本模块级联组成：

信号处理及特征提取模块，用于从输入信号中提取特征，供语音识别模块处理；同时，它包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。

语音识别模块，用于处理从信号中提取出的特征，识别出连续的语音中所有可能的文本序列与文本中各个词的时间点和置信度，供关键词检索模块进行搜索。

关键词检索模块，用于从语音识别得到的文本序列中检索出给定的关键词及其时间点和置信度。

置信度判决模块，用于根据检索出关键词的置信度对检索结果进行判决，判断结果为命中或虚警，将被判为命中的关键词作为最终的检索结果。该模块通过调整置信度判决规则，可以实现关键词检索系统的精度-召回率平衡的调节，使基于大词汇量连续语音识别的关键词系统能够用于不同的应用场景。

在一个语音识别系统中语音识别模块是对语音关键词检索系统性能起决定性作用的关键模块。目前在关键词检索技术中应用较为成熟的一类语音识别是深度神经网络-隐马尔可夫模型(deep neural network–hidden Markov model,DNN-HMM)混合语音识别。由于其采用帧同步搜索解码，DNN-HMM混合语音识别的优点是能提供准确的时间点和可靠的置信度，但也有结构复杂、训练和解码步骤繁琐、开发时间长的缺点。

本申请实施例实施例提出了一种语音关键词检索方法，如图1所示，该方法包括：

S101，获取待检索的语音信号。

S102，对待检索的语音信号进行信号处理，提取待声学特征。

在一个可能的实施方式中，对待检索的语音信号进行预加重、分帧、加窗处理，提取待检索语音各帧的梅尔频率倒谱系数声学特征。

示例性地，预加重处理其实是将语音信号通过一个高通滤波器,例如：

H(Z)＝1-μz^-1

其中，Z为语音信号，μ的值介于0.9-1.0之间，我们通常取0.97。

预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

示例性地，分帧处理是将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20～30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是256/8000*1000＝32ms。

示例性地，加窗(Hamming Window)是将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n＝0,1,…,N-1,N为帧的大小，那么乘上汉明窗后S'(n)＝S(n)*W(n)，W(n)形式可以如下：

其中a为参数，不同的a值会产生不同的汉明窗，一般情况下a取0.46。

示例性地，梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，简称MFCC)是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性。

在语音识别(SpeechRecognition)和话者识别(SpeakerRecognition)方面，最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，简称MFCC)。根据人耳听觉机理的研究发现，人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音，故一般来说，低音容易掩蔽高音，而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以，人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征，对此特征经过进一步处理后就可以作为语音的输入特征。

S103，将提取出的声学特征解码得到若干条候选文本和逐帧的音素后验概率。

在一个可能的实施方式中，将提取出的声学特征输入训练好的端到端语音识别及音素分类模型进行解码处理，输出得分最高的若干条候选文本和逐帧的音素后验概率。

S104，检索若干条候选文本中的关键词。

S105，根据关键词将对应的候选文本转换为音素序列，并在音素序列之间插入静音音素。

在一个可能的实施方式中，将关键词的对应的候选文本输入发音字典，得到逐帧的音素序列，并在该文本中的每两个相邻词对应的每两个相邻音素序列之间插入一个静音音素。

S106，对音素后验概率和对应的音素序列计算，获得对应的关键词的起止时间点和置信度。

在一个可能的实施方式中，对音素后验概率和包含关键词的候选文本的音素序列计算，获得一条概率最大的帧级别的音素对齐路径，从而得到关键词的检索结果，检索结果包括关键词的起止时间点和置信度。

在一个可能的实施方式中，对逐帧的音素后验概率和包含关键词的候选文本的音素序列使用动态规划算法，计算动态概率值，获得一条概率值符合规划要求的帧级别的音素对齐路径；符合规划要求的概率值可以是最大的概率值；根据帧级别的音素对齐路径得到关键词对应的各个音素的起止帧数以及各帧上音素的后验概率，进而得到关键词的起止时间点和帧平均后验概率置信度。

S107，对关键词检索结果按帧平均后验概率置信度进行判决，保留帧平均后验概率置信度符合判决标准的关键词作为最终的关键词检索结果。

在一个可能的实施方式中，对于在同一条语音的不同候选文本中检出的相同关键词，若时间点存在重叠，则仅保留其中置信度最高的一个关键词检出结果。

如图2所示，端到端语音识别及音素分类模型20具体包括：序列到序列模型21、集束搜索解码模块22和帧级别音素分类器23。

在一个可能的实施方式中，序列到序列模型21具体包括：编码器211、解码器212、应用于解码器层上的注意力机制和全连接分类网络213。其中，编码器由若干层第一神经网络堆叠构成，每层神经网络为一个编码器层；解码器由若干层第二神经网络堆叠构成，每层神经网络为一个解码器层；全连接分类网络213由全连接层构成。

帧级别音素分类器23包括：编码器231和全连接分类网络232；其中编码器231由若干层神经网络堆叠构成，全连接分类网络232由全连接层构成的。

本申请实施例实施例提出的语音关键词检索方法，还包括建立训练集，基于训练集数据训练端到端语音识别及音素分类模型20。如图3所示，具体步骤如下：

S301)建立训练集；训练集至少包括若干条语音序列及每条语音序列对应的文本序列、对应的声学特征以及对应的音素的时间对齐信息；

进一步地，每条语音序列对应的文本序列为人工转写的文本序列；每条语音序列对应的声学特征为梅尔频率倒谱系数声学特征；每条语音序列对应音素的时间对齐信息为每条语音序列全部或部分音素的时间对齐信息；

S302)根据训练集数据训练序列到序列模型21。

在一个可能的实施方式中，将训练集中的一条语音序列对应声学特征序列输入序列到序列模型21，得到音素标签序列的后验概率。将音素标签序列的后验概率与对应的文本进行比较后进行反向传播和参数更新，最终得到训练好的序列到序列模型21。

例如，可以将一条语音序列对应的梅尔频率倒谱系数声学特征序列输入序列到序列模型21，得到音素标签序列的后验概率，将音素标签序列的后验概率与人工转写文本进行比较后进行反向传播和参数更新，最终得到训练好的序列到序列模型21。

S303)根据训练好的序列到序列模型21训练帧级别音素分类器23。

在一个可能的实施方式中，利用帧级别音素分类器23对序列到序列模型21的一个中间解码器层输出进行处理，得到逐帧的音素后验概率，与音素的时间对齐信息进行比较后，在序列到序列模型21参数保持固定的基础上进行反向传播和参数更新，最终得到训练好的帧级别音素分类器23。

基于训练好的端到端语音识别及音素分类模型20，S103具体包括：

S1031，利用序列到序列模型21对梅尔频率倒谱系数声学特征进行计算，利用集束搜索解码模块22解码，得到至少一个候选文本。

示例性地，将梅尔频率倒谱系数声学特征输入序列到序列模型21对进行计算，将计算结果输入集束搜索解码模块，集束搜索解码模块22解码后输出解码分值，对解码分值进行排序，将解码分值较高的若干条文本作为候选文本。

S1032，利用帧级别音素分类器23对序列到序列模型21的一个中间解码器层输出进行处理，得到逐帧的音素后验概率。

如图4所示，本申请实施例实施例还提出一种的语音关键词检索系统，包括：信号处理及声学特征提取模块41、端到端语音识别及音素分类模型20、关键词检索模块42、发音字典43、帧级别音素对齐模块44和置信度判决模块45。

其中，信号处理及声学特征提取模块41用于将待检索的信号进行预加重、分帧、加窗和梅尔频率倒谱系数处理，提取待检索语音各帧的声学特征。

端到端语音识别及音素分类模块20用于对待检索语音各帧的声学特征进行解码处理，得到得分最高的若干条候选文本和逐帧的音素后验概率。

关键词检索模块42用于在解码得到的若干条候选文本中对关键词进行检索。

发音字典43用于将检出关键词的文本转换为音素序列，并在相邻词对应的音素序列之间插入一个静音音素。

帧级别音素对齐模块44用于对逐帧的音素后验概率和包含关键词的候选文本音素序列使用动态规划算法，找到一条概率最大的帧级别的音素对齐路径，得到关键词对应的各个音素的起止帧数以及各帧上音素的后验概率，进而得到关键词的起止时间点和帧平均后验概率置信度；对于在同一条语音的不同候选文本中检出的相同关键词，若时间点存在重叠，则仅保留置信度最高的一个。

置信度判决模块45用于对关键词检索结果按置信度进行判决，保留置信度符合判决标准的关键词作为最终的关键词检索结果。

基于本申请实施例的语音识别系统的合理性和有效性已经在实际系统上得到了验证，结果见表1与图5a-5b。其中表1是HKUST关键词检索实际词加权值(actual term-weighted value,ATWV)指标测试的结果，HKUST是一个标准的汉语电话交谈语音识别任务，又从词表中抽取100个词作为关键词生成了汉语语音关键词检索任务，ATWV是一个综合漏检率和虚警率的关键词检索性能评价指标，取值范围为(-∞,1]，越高代表关键词检索性能越好；图5a-5b是HKUST关键词检索测试的接收者操作特征曲线(receiver operatingcharacteristic curve,ROC曲线)，其中图5a是基于本申请实施例的方法并将关键词结果的置信度替换为在现有的基于端到端语音识别的方法中使用的CTC尖峰概率置信度的系统的ROC曲线，图5b是本申请实施例的系统的ROC曲线，ROC曲线反映了不同置信度判决条件下系统的召回率和虚警率的变化，ROC曲线下面积越大即代表关键词检索系统的精度-召回率可调性越高。可以看出，本申请实施例的方法能够有效提高语音关键词检索性能。

表1

在HKUST测试集上，现有的基于混合语音识别的方法、现有的基于端到端语音识别的方法本申请实施例提出的基于端到端语音识别和帧级别音素对齐的方法的ATWV对比。HKUST测试集是HKUST dev，是从训练数据中提取的一部分数据，这部分数据和训练数据完全同源，但是不包含在模型训练的训练数据当中。

如图6所示，本申请实施例提供一种电子装置1100，包括处理器1101和存储器1102；处理器1101用于执行所述存储器1102所存储的计算机执行指令，处理器1101运行计算机执行指令执行上述任意实施例所述的语音关键词检索方法。

本申请实施例提供一种存储介质1103，包括可读存储介质和存储在所述可读存储介质中的计算机程序，所述计算机程序用于实现上述任意一实施例所述的语音关键词检索方法。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请实施例的具体实施方式而已，并不用于限定本申请实施例的保护范围，凡在本申请实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种语音关键词检索方法，其特征在于，所述方法包括：

获取语音信号；

提取所述语音信号的声学特征；所述声学特征为梅尔频率倒谱系数声学特征；

将所述声学特征输入训练好的端到端语音识别及音素分类模型进行解码，输出至少一条候选文本和音素后验概率；包括：将所述声学特征输入训练好的序列到序列模型进行计算，将计算结果输入集束搜索解码模块，得到至少一个候选文本；将所述序列到序列模型的一个中间层的输出值输入帧级别音素分类器，输出逐帧的音素后验概率；

检索所述至少一条候选文本获得对应的关键词；

根据所述关键词将对应的候选文本转换为音素序列，并在所述音素序列中插入静音音素；

对所述音素后验概率和所述音素序列计算，获得所述关键词的起止时间点和置信度；

对所述关键词按所述置信度进行判决，保留置信度符合判决标准的关键词作为最终的关键词检索结果。

2.根据权利要求1所述的语音关键词检索方法，其特征在于，所述方法还包括训练所述端到端语音识别及音素分类模型的步骤：

建立训练集；所述训练集至少包括若干条语音序列及对应的文本序列、对应的声学特征以及对应的音素序列的时间对齐信息；

将所述语音序列和对应的声学特征序列输入所述序列到序列模型，输出音素标签序列的后验概率；

将所述音素标签序列的后验概率与所述对应的文本序列进行比较后进行反向传播和参数更新，最终得到训练好的序列到序列模型；

根据训练好的序列到序列模型训练帧级别音素分类器，得到端到端语音识别及音素分类模型。

3.根据权利要求2所述的语音关键词检索方法，其特征在于，所述根据训练好的序列到序列模型训练帧级别音素分类器，包括：

4.根据权利要求1所述的语音关键词检索方法，其特征在于，所述提取所述的语音信号的声学特征，包括：对所述语音信号进行预加重、分帧和加窗处理，提取待各帧的梅尔频率倒谱系的数声学特征。

5.根据权利要求1所述的语音关键词检索方法，其特征在于，所述根据所述关键词将对应的候选文本转换为音素序列，并在所述音素序列中插入静音音素，包括：

将所述关键词的对应的候选文本输入发音字典，得到逐帧的音素序列；

在所述关键词的对应的候选文本中每两个相邻词对应的每两个相邻音素序列之间插入一个静音音素。

6.根据权利要求1所述的语音关键词检索方法，其特征在于，所述对所述音素后验概率和所述音素序列计算，获得所述关键词的起止时间点和置信度，包括：

对所述音素后验概率和包含所述关键词的候选文本对应的音素序列计算动态概率概率值，获得一条概率符合要求的帧级别的音素对齐路径；

根据所述帧级别的音素对齐路径得到所述关键词的检索结果，所述检索结果至少包括关键词的起止时间点和置信度。

7.根据权利要求6所述的语音关键词检索方法，其特征在于，所述根据所述帧级别的音素对齐路径得到所述关键词的检索结果，包括：

根据所述帧级别的音素对齐路径得到所述关键词对应的各个音素的起止帧数和各个帧上所述各个音素的后验概率；

根据各个音素的起止帧数得到所述关键词的起止时间点；

根据各个帧上所述各个音素的后验概率获得所述各个帧的帧平均后验概率置信度。

8.一种语音关键词检索系统，其特征在于，所述系统包括：信号处理及声学特征提取模块、端到端语音识别及音素分类模块、关键词检索模块、发音字典、帧级别音素对齐模块和置信度判决模块；

所述信号处理及声学特征提取模块用于提取语音信号的声学特征；所述声学特征为梅尔频率倒谱系数声学特征；

所述端到端语音识别及音素分类模块用于将所述声学特征输入训练好的端到端语音识别及音素分类模型进行解码，输出至少一条候选文本和音素后验概率；所述端到端语音识别及音素分类模型至少包括序列到序列模型、帧级别音素分类器和集束搜索解码模块；

所述关键词检索模块用于检索所述至少一条候选文本的关键词；

所述发音字典用于根据所述关键词将对应的候选文本转换为音素序列，并在所述音素序列中插入静音音素；

所述帧级别音素对齐模块用于对所述音素后验概率和所述音素序列计算，获得所述关键词的起止时间点和置信度；

所述置信度判决模块用于对所述关键词检索结果按所述置信度进行判决，保留置信度符合判决标准的关键词作为最终的关键词检索结果。

9.一种电子装置，包括存储器和处理器；所述处理器用于执行所述存储器所存储的计算机执行指令，所述处理器运行所述计算机执行指令执行权利要求1-7任意一项所述的语音关键词检索方法。