CN101593519B

CN101593519B - 检测语音关键词的方法和设备及检索方法和系统

Info

Publication number: CN101593519B
Application number: CN 200810099976
Authority: CN
Inventors: 杨庆涛; 缪炜; 吴亚栋; 李丰芹
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-05-29
Filing date: 2008-05-29
Publication date: 2012-09-19
Anticipated expiration: 2028-05-29
Also published as: CN101593519A

Abstract

公开了一种检测语音关键词的方法和设备以及相应的检索方法和系统，该设备包括：VQ码本库，存储了基于预定声学模型的VQ码本；状态特征库，存储了该音频文件的VQ状态序列矩阵，该矩阵包括该音频文件的各个语音帧的VQ码本编号和相应的声学概率值；状态序列生成单元，基于VQ码本库中的VQ码本，将输入的关键词转换成相应的VQ状态序列；以及匹配单元，利用转换的VQ状态序列对状态特征库中的VQ状态序列矩阵进行缩减，并用该VQ状态序列在经缩减的矩阵中搜索该语音关键词。利用本发明的技术，能够从音频文件中快速检测到语音关键词，以及从音频文件库中快速找到含有该关键词的音频文件。

Description

检测语音关键词的方法和设备及检索方法和系统

技术领域

本发明涉及语音关键词检测，具体涉及一种检测语音关键词的方法和设备以及相应的检索方法和系统，能够从音频文件中快速检测到语音关键词。

背景技术

近年来，越来越多的信息终端装置，例如PC(个人计算机)、PDA(个人数字助理)、移动电话和遥控器等具备了语音输入功能，从而允许使用者通过发出语音来输入命令或者输入关键词。也就是说，需要这样的信息终端装置能够从用户输入的未知语音串中识别出用户想要输入的关键词，或者从现有的语音文件中检测用户输入的关键词，例如在音频检索系统中的应用。因此，如何准确和快速地检测语音文件中的关键词是语音识别技术中一个重要的问题。

非专利文献1(A keyword spotting method based on speech feature space trace matching，Xuhui Wu，Yadong Wu，Acoustics，Speech，and Signal Processing，2002.Proceedings.(ICASSP′02)，IEEE International Conference on Volume 4，13-17May 2002Page(s)：IV-4193vol.4)披露了一种定位语音文件中的关键词的技术，它是一种基于语音特征空间轨迹匹配的识别技术。采用的变帧率技术，通过在特征矢量空间中计算矢量距离来获得具有音韵特征结构的语音特征矢量序列，并且要对矢量序列先重新刻度，以再计算线性移动匹配中各矢量间距离。

也就是，该技术采用了在特征矢量空间中计算矢量间距离计算方法，通过定义合适阈值来进行语音特征归并，获得具有音韵特征结构的语音特征矢量序列。但是，由于矢量计算的计算量较大，并且进行特征归并的阀值也比较难确定，而这个阀值的设定直接影响得到的具有音韵结构特征的特征矢量序列准确与否，这造成了计算精度不高，在匹配中必须进行重新刻度才能进行线性匹配，增大了计算量。

发明内容

本发明的目的是提出一种检测语音关键词的方法和设备以及相应的检索方法和系统，能够快速从音频文件中检测到语音关键词。

在本发明的一个方面，提出了一种检测音频文件中的语音关键词的设备，包括：VQ码本库，存储了基于预定声学模型的VQ码本；状态特征库，存储了该音频文件的VQ状态序列矩阵，该矩阵包括该音频文件的各个语音帧的VQ码本编号和相应的声学概率值；状态序列生成单元，基于VQ码本库中的VQ码本，将输入的关键词转换成相应的VQ状态序列；以及匹配单元，利用转换的VQ状态序列对状态特征库中的VQ状态序列矩阵进行缩减，并用该VQ状态序列在经缩减的矩阵中搜索该语音关键词。

根据本发明的实施例，所述的状态特征库是基于所述VQ码本而事先创建的。

根据本发明的实施例，所述的状态序列生成单元，在输入的关键词是文本形式时，基于所述VQ码本将关键词的音节拆分成具有音韵特征的VQ状态序列。

根据本发明的实施例，所述的状态序列生成单元，在输入的关键词是语音形式时，基于所述VQ码本将对关键词进行解码所得到的最优状态序列转换成VQ状态序列。

根据本发明的实施例，所述的匹配单元针对VQ状态序列矩阵的每一帧(列)，只保留在关键词的VQ状态序列中含有的状态，而舍弃关键词VQ状态序列中不包含的状态。

根据本发明的实施例，所述的匹配单元使用了从左到右的优先自转、允许跳转的匹配方法，在缩减的矩阵中从前往后搜索所有可能的关键词候选段。

根据本发明的实施例，所述的匹配单元基于候选段的VQ状态序列与关键词的VQ状态序列的长度关系和/或候选段实际经历过的VQ状态与该关键词VQ状态序列的比例关系来对候选段进行筛选。

根据本发明的实施例，所述的匹配单元针对每个候选段，计算其声学概率值，并根据事先设定的拒绝门限来对候选段进行筛选。

在本发明的另一方面，提出了一种检测音频文件中的语音关键词的方法，包括步骤：基于存储了基于预定声学模型的VQ码本的VQ码本库中的VQ码本，将输入的关键词转换成相应的VQ状态序列；取得该音频文件的VQ状态序列矩阵，该矩阵包括该音频文件的各个语音帧的VQ码本编号和相应的声学概率值；以及利用转换的VQ状态序列对状态特征库中的VQ状态序列矩阵进行缩减，并用该VQ状态序列在经缩减的矩阵中搜索该语音关键词。

在本发明的另一方面，提出了一种从包含至少一个音频文件的音频库中检索语音关键词的音频检索方法，包括步骤：输入待检索的关键词；基于存储了基于预定声学模型的VQ码本的VQ码本库中的VQ码本，将输入的关键词转换成相应的VQ状态序列；取得该音频文件的VQ状态序列矩阵，该矩阵包括该音频文件的各个语音帧的VQ码本编号和相应的声学概率值；利用转换的VQ状态序列对状态特征库中的VQ状态序列矩阵进行缩减，并用该VQ状态序列在经缩减的矩阵中搜索该语音关键词；以及输出音频库中包含该语音关键词的音频文件及该关键词在该音频文件中的定位信息。

在本发明的又一方面，提出了一种从包含至少一个音频文件的音频库中检索语音关键词的音频检索系统，包括：输入装置，输入待检索的关键词；VQ码本库，存储了基于预定声学模型的VQ码本；状态特征库，存储了该音频文件的VQ状态序列矩阵，该矩阵包括该音频文件的各个语音帧的VQ码本编号和相应的声学概率值；状态序列生成单元，基于VQ码本库中的VQ码本，将输入的关键词转换成相应的VQ状态序列；匹配单元，利用转换的VQ状态序列对状态特征库中的VQ状态序列矩阵进行缩减，并用该VQ状态序列在经缩减的矩阵中搜索该语音关键词；以及输出装置，输出音频库中包含该语音关键词的音频文件及该关键词在该音频文件中的定位信息。

在上述实施例中，由于中采用基于VQ的矢量量化技术，对语音的VQ状态序列进行计算，无需定义合适阈值来进行语音特征归并，减少了计算量。

另外，由于生成的音频文件的VQ状态序列矩阵和关键词的VQ状态序列都基于同一码本(HMM声学模型)来描述，具有相同的音韵特征结构，所以进行线性移动匹配时不需要重新刻度，从而降低了计算量，同时也提高了精度。

另外，由于对每帧语音保留前N个声学概率最大的码本作为矢量量化结果，使得相对于最接近现有技术中所采用的传统的矢量量化方法中利用欧氏距离尺度直接将语音帧量化到某一个码本上，这最大限度的减小了一帧语音只量化到一个码本上所带来的量化误差。

另外，由于对每帧语音保留前N个声学概率最大的码本作为矢量量化结果，并在VQ状态序列矩阵中保留每帧语音与码本库中所有码本上的声学概率值，使得在后面的对候选段语音的确认计算中，无需再对语音文件进行操作，只需直接从VQ状态序列矩阵中读入声学概值，极大地减少了搜索过程的计算量。在以后的检索过程中，无需再对音频文件进行操作，全部的操作都只在该音频文件的VQ状态序列矩阵中进行。如果音频库中需加入新的音频文件，也只需在对它进行首次检索时，生成该音频文件的VQ状态序列矩阵，在以后的检索中则无需再对该音频文件进行操作，从而有效的减少了计算资源和存储资源。

另外，由于对已有的VQ状态序列矩阵进行初步筛选，只保留关键词VQ状态序列中含有的声学概率值较大的码本，构建一个规模更小、更具针对性的搜索矩阵，使移动线性匹配中对每帧语音的计算量减少，从而减轻了运算单元的负担，使其更有利于移植到PDA、手机等运算嵌入式小型系统。

另外，由于在线性移动匹配中实行自转优先、允许跳转的搜索方法，使匹配的过程具备了一定的容忍度。针对由于发音速率和发音习惯的问题，使得关键词的VQ状态序列与待检索的音频文档VQ状态序列矩阵中关键词发音部分不可能完全一一对应的情况，能够在不损失精度的前提下，搜索出所有符合条件的候选语音段。

附图说明

从下面结合附图的详细描述中，本发明的上述特征和优点将更加明显，其中：

图1示出了根据本发明实施例的语音关键词检索系统的示意性功能框图；

图2是描述根据本发明实施例的码本库的生成过程的流程图；

图3是描述根据本发明实施例的音频文件VQ状态矩阵生成过程的流程图；

图4是描述在用户输入查询请求之后进行的操作过程的流程图；

图5是描述根据本发明实施例的文本形式输入的关键词的VQ码本生成过程的流程图；

图6是描述根据本发明实施例的生成搜索矩阵的过程的流程图；

图7是描述根据本发明实施例的VQ状态特征搜索过程的流程图；

图8是描述多候选段进行筛选的过程的流程图；以及

图9是根据本发明实施例的关键词检索系统的用户图形界面的示意图。

具体实施方式

下面，参考附图详细说明本发明的优选实施方式。为了清楚和简明，包含在这里的已知的功能和结构的详细描述将被省略，以防止它们使本发明的主题不清楚。

图1示出了根据本发明实施例的语音关键词检索系统的示意性功能框图。如图1所示，根据本发明实施例的语音关键词检索系统包括音频文件输入装置200，关键词输入装置300，语音关键词检测装置100和检测结果输出装置400。

用户利用音频文件输入装置200输入一个或者更多个语音文件，利用关键词输入装置300输入文本形式或者语音形式的关键词。而语音关键词检测部分100用来从输入的语音文件中检测上述关键词，定位检测到的关键词的位置。语音关键词检测部分100所得到的检测结果由检测结果输出装置400输出给用户，例如向用户显示或者播放检测结果。

如图1所示，语音关键词检测部分100包括：状态矩阵生成单元110， VQ状态特征库120，VQ码本库130，状态序列生成单元140和匹配单元150。

VQ码本库130中存储了HMM状态级模型下音素的状态集合。例如，训练一套上下文相关的音素模型，每个音素由三个状态构成。然后将相似的状态聚类，最后得到一个482个状态的状态集合，所有的音素都可以由这482个状态构成。这里，我们直接采用482个状态作为语音空间482个码本来构成VQ码本库。每个状态由n个高斯分布表示，每个高斯分量都占据不同的权重，如图2所示。

状态矩阵生成单元110针对音频文件输入装置200所输入的音频文件，将音频文件分成语音帧，提取语音帧的特征，计算每帧语音与VQ码本库中存储的码本之间的概率匹配值，并且将概率值最大的前N个VQ码本作为该音频文件的VQ状态序列矩阵，并且存储在VQ状态特征库120中。

这样，状态矩阵生成单元110针对用户输入的多个音频文件，生成相应的多个VQ状态序列矩阵，存储在VQ状态特征库120中。

以文本形式输入关键词时，状态序列生成单元140将关键词转化为对应的音节(带音调的拼音)表达形式，通过查找音节-音素模型对应表、音素模型-状态名对应表，进行音节拆分，将任意关键词的音节拆分成具有音韵特征结构的VQ状态序列。

以语音方式输入关键词时，状态序列生成单元140对包含关键词的语音进行解码操作，可以得到表征该关键词的最优状态序列。对于上述得到的状态序列，在码本库中查找对应的VQ码本，即可得到VQ状态序列。

匹配单元150，在进行关键词检测之前，对于VQ状态特征库120中存储的矩阵进行精简，例如，对于生成的语音文件的VQ状态序列矩阵的每一帧(列)，按其在码本库中所有码本上的概率值，从高到低扫描前面记录的码本，只保留由关键词VQ状态序列中也含有的并且声学概率较大的码本，从而得到一个新的搜索矩阵。该搜索矩阵的行数小于VQ状态特征矩阵的行数。

然后，匹配单元150将关键词的VQ状态序列和语音文件的搜索矩阵进行线性移动匹配，完成关键词自动定位及内容检出。在线性移动匹配中，每得到一个候选语音段时，匹配单元150判断该候选段的长度与关键词的VQ状态序列长度之间差别以及该候选段实际经历的状态个数(不包括重复的状态)与关键词的VQ状态总个数之间差别，并且只保留候选段的长度与关键词的VQ状态序列长度之间差别较小，并且候选段实际经历的状态个数(不包括重复的状态)与关键词的VQ状态总个数之间差别较小的候选段，来实现即时的筛选。

下面对照附图2～8详细说明根据本发明实施例的系统中上述各个单元和装置的详细操作过程。

图2是描述根据本发明实施例的码本库的生成过程的流程图。如图2所示，训练一套上下文相关的音素模型，每个音素由三个状态构成。然后将相似的状态聚类(S10)，最后得到一个482个状态的状态集合，所有的音素都可以由这482个状态构成。

这里，直接采用482个状态作为语音空间482个码本来构成VQ码本库，其中每个状态由n个高斯分布表示，每个高斯分量都占据不同的权重，n为自然数。

然后，对所有状态进行编号，每个状态都有惟一确定的ID编号(S11)，例如图2所示的1，2，……，M-1，M，它代表该状态的特征矢量，并用于生成状态特征码本。所生成的状态特征码本被存储在VQ码本库13中。码本中所含码本矢量的个数(M)定义为码本的大小。

图3是描述根据本发明实施例的音频文件VQ状态矩阵生成过程的流程图。如图3所示，对于音频文件库中的每个音频文件，首先对它进行分帧处理，例如200ms每帧，帧移为100ms，分成语音帧F₁，F₂，F₃，F₄，F₅，F₆，F₇，……，并提取声学特征(S20)，然后计算这些语音帧各自在VQ码本库中所有VQ码本上的声学分数，得到相应的VQ矢量V₁，V₂，V₃，V₄，V₅，V₆，V₇，……(S21)，并依据从大到小顺序排列，保留概率最大的前N个VQ码本的ID编号以及在所有码本上的声学分数(S22)，保存在VQ状态序列矩阵中。注意，VQ矢量V₁，V₂，V₃，V₄，V₅，V₆，V₇，……中的每一个都是列向量，该列向量的各个元素表示该语音帧在VQ码本库中的所有VQ码本上的声学分数和ID编号。当所有文件都处理完成之后，也就生成了音频VQ状态序列矩阵库(S23)。保存声学分数的目的在于后期进行Viterbi搜索筛选候选语音段时，可以直接利用已经生成的VQ状态序列矩阵，而不需再次操作音频文件。

图4是描述在用户输入查询请求之后进行的操作过程的流程图。

如图4所示，系统支持两种关键词输入方式，一种是文本方式输入，另一种是语音输入方式。

对于以文本输入关键词方式，切分部分141将关键词通过词典切分成音节，进而转化成音素序列，然后串接部分152通过码本库查询每个音素模型对应的VQ状态序列，并将每个音素对应的VQ状态序列串接成关键词的VQ状态序列。图5给出了上述过程的流程图。首先通过关键词输入装置300输入文本形式的关键词，例如‘上海’(S30)，然后切分部分141将关键词转化为对应的音节(带音调的拼音)表达形式，例如将‘上海’转换成‘shang4/hai3’。然后，通过查找音节-音素模型对应表、音素模型-状态名对应表，进行音节拆分(S31，S32，S33)，将任意关键词的音节拆分成具有音韵特征结构的VQ状态序列。

对于语音输入关键词方式，首先解码部分146对输入关键词语音解码得到最佳状态序列，然后VQ状态序列生成部分147通过查找VQ码本来得到该语音关键词的VQ状态序列。

图6是描述根据本发明实施例的对状态特征库中存储的VQ状态序列矩阵缩减来生成搜索矩阵的过程的流程图。

匹配单元150，根据待搜索的关键词，构建一个规模更小、更具针对性的搜索矩阵。对于输入的关键词，由上述步骤可以得到其对应的关键词VQ状态序列。在VQ状态序列矩阵的每一帧(列)上，只保留在关键词VQ状态序列中含有的状态，而舍弃关键词VQ状态序列中不包含的状态序列。此外，如果在VQ状态序列矩阵的某一帧中，包含关键词VQ状态序列中的状态数超过M个(M≤N)时，则只保留前M个。这样便达到了对VQ状态序列矩阵进行精简的目的。图6中●表示在特征矩阵的该帧(列)中保留的前M个状态码本，○表示在特征矩阵的该帧(列)中没有与其匹配的状态码本。

图7是描述根据本发明实施例的VQ状态特征搜索过程的流程图。如图所示，在匹配单元150中，使用了从左到右的优先自转、允许跳转的匹配方法，在搜索矩阵中从前往后搜索所有可能的关键词候选段。

在匹配中，优先自转是指，如果当前帧处于状态i，在下一帧中，如果在搜索矩阵的下一帧中也存在状态i，则认为在下一帧中仍然驻留在状态i。

允许跳转是指，实际语音由于发音速率和发音习惯的问题，中间可能会跳过1个或多个状态。这样在搜索中，允许当前状态能够跳到与其不相邻的后面的状态上，而不必遍历所有的VQ状态序列中的所有语音帧。

图8给出了对前面所得到的候选语音段进一步筛选，从而得到包含关键词语音段的流程图。

由于在上述搜索匹配过程中，匹配单元150采用的是具有一定容忍度的匹配方法，所以会有一些干扰语音段也会被判断为候选段。根据本发明的另一实施例，在搜索时和搜索后分别对候选段作一次筛选。

在搜索过程中，在搜到一个候选段的时候，可以根据该候选段本身的特性，这里主要用两个参数：一是该候选段的VQ状态序列(包含驻留状态)与关键词的VQ状态序列的长度关系，二是该候选段实际经历过的VQ状态(不包括跳转状态)与该关键词VQ状态序列的比例关系，不满足这两个参数条件的候选段都被立即抛弃。在搜索结束后，对每个候选段利用Viterbi计算其声学概率值，根据事先设定的拒绝门限，凡是概率值小于该门限的候选段将被拒绝。这样，经以上处理后得到的语音段就是包含待检索关键词的语音段，通过检测结果输出装置400输出给用户。

如图9所示，整个界面主要分为四个区域，分别为文件操作区51、搜索显示播放区55、关键词输入区52、文件列表区54。

在文件操作区域中，点击‘record’录音按钮，用户可以通过该方式输入待检索的关键词语音。点击录音停止按钮‘stop’，中断用户的待检索关键词语音输入。点击打开文件按钮‘open file’，选择音频文档所在的目录。点击播放关键词按钮‘play keyword’，播放当前选择的结果文件中搜索出来的关键词(红色部分)。

在搜索显示播放区56，点击播放音频文件按钮‘play file’，播放当前选择的音频文档。点击检索按钮‘search’，在所选择的目录中启动搜索。点击检索策略选择按钮‘严格’，设置应用Viterbi概率值筛选候选段的门限值。点击检索结果显示按钮，在显示区55显示包含关键词词的音频文档的信息。start代表关键词的起始点，end为关键词的结束点，file为该文件的名称，score为该关键词候选段的概率值。

在关键词输入区域52，用户可以在界面所提供的文本框中输入想要检索的关键词，或者在下面的列表里面选择要检索的关键词。在文件列表区54中显示待检索目录中所包含的所有音频文档名称。

在图9的界面上，当点击“Open File”按钮，选择音频文档所在的目录，文件列表区54会显示所选择目录中的所有音频文件。

另外，用户可以在在关键词输入文本框52中键入用于检索的关键词名称。

然后，点击“Search”按钮53，系统开始对刚才所选择的目录中包含的所有音频文档进行搜索。

搜索的过程是按照文件名的排列顺序依次进行的。系统会依次高亮显示正在被搜索的音频文件名。遍历目录中所有的音频文件后，系统自动提示检索结束。

“Result”区域55显示系统搜索到的包含关键词的音频文件的信息(关键词起始位置、关键词终点位置，音频文件名称、匹配概率得分)。

当用户点击选择任何一个音频文件(高亮显示)，其相应的波形会显示在上面的显示区域56中，关键词部分则以红色标出。用户可以点击“Play keyword”来播放当前文件中搜索到的关键词发音，点击“Playfile”可以播放整个音频文件。

【变型1】

以上描述的是向语音关键词检测装置输入音频文件和语音关键词的情况，但是本发明并不局限于此。例如可以对音频文件事先进行处理，得到其VQ状态序列矩阵存储在VQ状态特征库中，从而可以省去音频文件输入装置200和状态矩阵生成单元110。

【变型2】

另外，也可以事先对关键词进行处理，将其VQ状态序列存储在装置和系统的存储器(未示出)中，从而在实际检测过程中可以省去对该关键词的处理。

如上所述，根据本发明实施例的关键词检测方法基于VQ(矢量量化)的技术思路，将已有的HMM(Hidden Markov Model)音素级声学模型视为码本库，对待识语音(T帧)矢量量化。量化过程中按概率值对每一帧语音信号保留N个量化结果，从而得到待识语音的VQ状态序列矩阵(N×T)，该VQ状态序列矩阵即为表征该待识语音的索引。用户可以通过文本或者语音，输入用于检测的关键词，该关键词也将被转换成VQ状态序列。执行检测操作时，对于上述得到的待识语音的VQ状态序列矩阵中的每一帧，只保留M个(M≤N)待检测关键词VQ状态序列中所包含的状态，从而得到搜索矩阵。在上述得到的搜索矩阵中快速搜索与该关键词VQ状态序列相匹配的候选语音段并在此基础上对候选语音段进行筛选，得出检测结果。对音频库中的所有语音文件重复以上描述的关键词检测操作，便可检索到音频库中包含指定关键词的语音文件及其关键词在该语音文件中的定位信息，实现音频检索的功能。

根据本发明实施例的检测装置和检索系统可以应用于所有采用语音、文本或手写作为输入的信息终端(桌面电脑、笔记本电脑、移动电话、PDA、遥控器等)上。

如上所述，在上述实施例中，由于中采用基于VQ的矢量量化技术，对语音的VQ状态序列进行计算，无需定义合适阈值来进行语音特征归并，减少了计算量。

另外，由于生成的语音文件的VQ状态序列矩阵和关键词的VQ状态序列都基于同一码本(HMM声学模型)来描述，具有相同的音韵特征结构，所以进行线性移动匹配时不需要重新刻度，从而降低了计算量，同时也提高了精度。

另外，由于对每帧语音保留前N个声学概率最大的码本作为矢量量化结果，并在VQ状态序列矩阵中保留每帧语音与码本库中所有码本上的声学概率值，使得在后面的对候选段语音的确认计算中，无需再对语音文件进行操作，只需直接从VQ状态序列矩阵中读入声学概值，极大地减少了搜索过程的计算量。在以后的检索过程中，无需再对音频文件进行操作，全部的操作都只在该音频文件的VQ状态序列矩阵中进行。如果音频库中需加入新的音频文件，也只需在对它进行首次检索时生成该音频文件的VQ状态序列矩阵，在以后的检索中则无需再对该音频文件进行操作，从而有效的减少了计算资源和存储资源。

以上所虽然以功能模块的形式描述了本发明实施例装置和系统的构成及其功能，但是这并不意味着将本发明限定于上述的形式。本领域的普通技术人员能够将其中的一个或者多个模块进行组合，或者将其中的一个模块的功能分别在两个或者更多个模块中实现。

另外，上述的装置和系统中的功能模块可以由软件来实现，也可以由硬件来实现，或者由软件和硬件一起来实现。

另外，虽然作为本发明实施例之一的装置和系统可以作为软件或者硬件来实现。但是在作为软件来实现的情况下，相应的程序可被存储在记录介质上，例如光存储器件或者磁存储器器件等，通过CPU执行该程序来实现本发明。

上面的描述仅用于实现本发明的实施方式，本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均应该属于本发明的权利要求来限定的范围，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种检测音频文件中的语音关键词的设备，包括：

VQ码本库，存储了基于预定声学模型的VQ码本；

状态特征库，存储了该音频文件的VQ状态序列矩阵，该矩阵包括该音频文件的各个语音帧的VQ码本编号和相应的声学概率值；

状态序列生成单元，基于VQ码本库中的VQ码本，将输入的关键词转换成相应的VQ状态序列；以及

匹配单元，利用转换的VQ状态序列对状态特征库中的VQ状态序列矩阵进行缩减，并用该VQ状态序列在经缩减的矩阵中搜索该语音关键词。

2.如权利要求1所述的设备，其中所述的状态特征库是基于所述VQ码本而事先创建的。

3.如权利要求1或2所述的设备，其中所述的状态序列生成单元，在输入的关键词是文本形式时，基于所述VQ码本将关键词的音节拆分成具有音韵特征的VQ状态序列。

4.如权利要求1或2所述的设备，其中所述的状态序列生成单元，在输入的关键词是语音形式时，基于所述VQ码本将对关键词进行解码所得到的最优状态序列转换成VQ状态序列。

5.如权利要求1或2所述的设备，其中所述的匹配单元针对VQ状态序列矩阵的每一帧(列)，只保留在关键词的VQ状态序列中含有的状态，而舍弃关键词VQ状态序列中不包含的状态。

6.如权利要求1或2所述的设备，其中所述的匹配单元使用了从左到右的优先自转、允许跳转的匹配方法，在缩减的矩阵中从前往后搜索所有可能的关键词候选段。

7.如权利要求6所述的设备，其中所述的匹配单元基于候选段的VQ状态序列与关键词的VQ状态序列的长度关系和/或候选段实际经历过的VQ状态与该关键词VQ状态序列的比例关系来对候选段进行筛选。

8.如权利要求6所述的设备，其中所述的匹配单元针对每个候选段，计算其声学概率值，并根据事先设定的拒绝门限来对候选段进行筛选。

9.一种检测音频文件中的语音关键词的方法，包括步骤：

基于存储了基于预定声学模型的VQ码本的VQ码本库中的VQ码本，将输入的关键词转换成相应的VQ状态序列；

取得该音频文件的VQ状态序列矩阵，该矩阵包括该音频文件的各个语音帧的VQ码本编号和相应的声学概率值；以及

利用所述的VQ状态序列对状态特征库中的VQ状态序列矩阵进行缩减，并用该VQ状态序列在经缩减的矩阵中搜索该语音关键词。

10.如权利要求9所述的方法，其中所述的状态特征库是基于所述VQ码本而事先创建的。

11.如权利要求9或10所述的方法，其中，在输入的关键词是文本形式时，基于所述VQ码本将关键词的音节拆分成具有音韵特征的VQ状态序列。

12.如权利要求9或10所述的方法，其中，在输入的关键词是语音形式时，基于所述VQ码本将对关键词进行解码所得到的最优状态序列转换成VQ状态序列。

13.如权利要求9或10所述的方法，其中，针对VQ状态序列矩阵的每一帧(列)，只保留在关键词的VQ状态序列中含有的状态，而舍弃关键词VQ状态序列中不包含的状态。

14.如权利要求9或10所述的方法，其中，使用了从左到右的优先自转、允许跳转的匹配方法，在缩减的矩阵中从前往后搜索所有可能的关键词候选段。

15.如权利要求14所述的方法，其中，基于候选段的VQ状态序列与关键词的VQ状态序列的长度关系和/或候选段实际经历过的VQ状态与该关键词VQ状态序列的比例关系来对候选段进行筛选。

16.如权利要求14所述的方法，其中，针对每个候选段，计算其声学概率值，并根据事先设定的拒绝门限来对候选段进行筛选。

17.一种从包含至少一个音频文件的音频库中检索语音关键词的音频检索方法，包括步骤：

输入待检索的关键词；

取得该音频文件的VQ状态序列矩阵，该矩阵包括该音频文件的各个语音帧的VQ码本编号和相应的声学概率值；

利用转换的VQ状态序列对状态特征库中的VQ状态序列矩阵进行缩减，并用该VQ状态序列在经缩减的矩阵中搜索该语音关键词；以及

输出音频库中包含该语音关键词的音频文件及该关键词在该音频文件中的定位信息。

18.一种从包含至少一个音频文件的音频库中检索语音关键词的音频检索系统，包括：

输入装置，输入待检索的关键词；

VQ码本库，存储了基于预定声学模型的VQ码本；

状态序列生成单元，基于VQ码本库中的VQ码本，将输入的关键词转换成相应的VQ状态序列；

匹配单元，利用转换的VQ状态序列对状态特征库中的VQ状态序列矩阵进行缩减，并用该VQ状态序列在经缩减的矩阵中搜索该语音关键词；以及

输出装置，输出音频库中包含该语音关键词的音频文件及该关键词在该音频文件中的定位信息。