CN111462777B

CN111462777B - 关键词检索方法、系统、移动终端及存储介质

Info

Publication number: CN111462777B
Application number: CN202010239637.1A
Authority: CN
Inventors: 张广学; 肖龙源; 李稀敏; 刘晓葳; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2023-02-14
Anticipated expiration: 2040-03-30
Also published as: CN111462777A

Abstract

本发明提供了一种关键词检索方法、系统、移动终端及存储介质，该方法包括：获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态；根据指定声学状态对滑窗的窗长进行设置，获取待检测语音的当前声学状态，将滑窗设置为当前声学状态；根据滑窗判断待检测语音中语音段的声学状态与指定声学状态是否匹配；若是，则对语音段进行音素状态转换，得到当前音素状态；根据指定音素状态判断当前音素状态对应的音素是否是关键词音素；若是，对语音段进行关键词标记，记录语音段的语音位置。本发明通过指定声学状态和指定音素状态的获取，以采用样本无相关的方式对待检测语音进行关键词的检索，无需获取语音信息的标注数据，提高了关键词检索效率。

Description

关键词检索方法、系统、移动终端及存储介质

技术领域

本发明属于信息检索技术领域，尤其涉及一种关键词检索方法、系统、移动终端及存储介质。

背景技术

语音关键词检索是从语料库中确定出现指定关键词的语音数据，并确定该指定关键词在对应的语音数据中出现的位置。现有技术中，语音关键词检索方案主要基于语音识别技术，即将待检索语音数据转换为文本内容，确定文本内容中是否出现指定关键词，若出现指定关键词，进一步确定指定关键词出现的位置。

现有技术中的检索效果完全依赖于语音识别系统的识别效果，而训练一个大量词汇的语音识别系统需要大量的标注数据，由于公共安全领域对于某些小语种或方言语种进行关键词检索的需求日益迫切，考虑到特定语种熟悉人员相对有限，缺乏标注数据，因此，无法快速开发相应的语音识别系统，即无法利用主流的语音关键词检索方法进行关键词检索，降低了关键词检索的效率。

发明内容

本发明实施例的目的在于提供一种关键词检索方法、系统、移动终端及存储介质，旨在解决现有的关键词检索过程中，由于小语种或方言语种的标注数据较少所导致的关键词检索效率低下的问题。

本发明实施例是这样实现的，一种关键词检索方法，所述方法包括：

获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态；

根据所述指定声学状态对滑窗的窗长进行设置，获取待检测语音的当前声学状态；

根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配；

当判断到所述语音段的声学状态与所述指定声学状态匹配时，对所述语音段进行音素状态转换，得到当前音素状态；

根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素；

当判断到所述当前音素状态对应的音素是所述关键词音素时，对所述语音段进行关键词标记，并记录所述语音段的语音位置。

更进一步的，所述获取待检测语音的当前声学状态的步骤包括：

获取待检测语音的MFCC特征、PITCH特征和IVECTOR特征，并对所述MFCC特征、所述PITCH特征和所述IVECTOR特征进行向量转换，得到特征向量；

对所述特征向量进行向量合并，得到所述当前声学状态。

更进一步的，所述根据所述指定声学状态对滑窗的窗长进行设置的步骤包括：

计算每个所述指定声学状态的长度，并将最大长度的所述指定声学状态设置所述滑窗的窗长。

更进一步的，所述根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配的步骤包括：

根据所述滑窗依序获取所述待检测语音中每帧语音帧内所述语音段的语音声学状态；

判断所述语音声学状态与所述指定声学状态是否相同/相似；

当判断到所述语音声学状态与所述指定声学状态相同/相似时，则判定对应所述语音段的声学状态与所述指定声学状态相匹配。

更进一步的，所述对所述语音段进行音素状态转换，得到当前音素状态的步骤包括：

将所述语音段转换为拼音，得到拼音串，并对所述拼音串内的辅音音素和元音音素进行分隔；

对所述拼音串中相邻的音素进行组合，得到待检测音素对，并对所述待检测语音进行语音端点检测，得到端点检测结果；

根据所述端点检测结果对所述拼音串中的所述待检测音素对进行静音标记，以得到所述当前音素状态。

更进一步的，所述根据所述端点检测结果对所述拼音串中的所述音素对进行静音标记的步骤包括：

分别获取每个所述待检测音素对末端音素在所述端点检测结果中对应的静音时长；

根据所述静音时长查询时长标识，并根据所述时长标识对所述待检测音素对进行时长标记。

更进一步的，所述根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素的步骤包括：

将所述指定音素状态中存储指定音素对与所述当前音素状态中存储的所述待检测音素对进行匹配；

当所述指定音素对与所述待检测音素对匹配成功时，判断所述指定音素对和所述待检测音素对上的所述时长标识是否相同/相似；

当判断到所述时长标识相同/相似时，则判定所述当前音素状态是所述关键词音素。

本发明实施例的另一目的在于提供一种关键词检索系统，所述系统包括：

样本信息获取模块，用于获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态；

滑窗设置模块，用于根据所述指定声学状态对滑窗的窗长进行设置，获取待检测语音的当前声学状态，并将所述滑窗设置为所述当前声学状态；

声学状态匹配模块，用于根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配；

音素转换模块，用于当判断到所述语音段的声学状态与所述指定声学状态匹配时，对所述语音段进行音素状态转换，得到当前音素状态；

音素状态判断模块，用于根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素；当判断到所述当前音素状态对应的音素是所述关键词音素时，对所述语音段进行关键词标记，并记录所述语音段的语音位置。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的关键词检索方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的关键词检索方法的步骤。

本发明实施例，通过基于对指定关键词的指定声学状态和指定音素状态的获取，以采用样本无相关的方式对待检测语音进行关键词的检索，无需获取语音信息的标注数据，提高了对小语种或方言语种的关键词检索效率，且通过对滑窗进行长度和状态信息的设置，以采用滑窗检索的方式对待检测语音进行关键词检索，进一步提高了关键词检索的效率。

附图说明

图1是本发明第一实施例提供的关键词检索方法的流程图；

图2是本发明第二实施例提供的关键词检索方法的流程图；

图3是本发明第三实施例提供的关键词检索方法的流程图；

图4是本发明第四实施例提供的关键词检索系统的结构示意图；

图5是本发明第五实施例提供的移动终端的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

实施例一

请参阅图1，是本发明第一实施例提供的关键词检索方法的流程图，包括步骤：

步骤S10，获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态；

其中，该指定关键词库中指定关键词的数量可以根据需求进行设置，该声学状态主要存储在final.mdl文件中，该声学状态中存储有音素特征向量，该音素状态为对应指定关键词中音素之间的音素组合特征和/或音素静音时长特征等；

步骤S20，根据所述指定声学状态对滑窗的窗长进行设置，获取待检测语音的当前声学状态，并将所述滑窗设置为所述当前声学状态；

其中，该滑窗的窗长为滑窗对语音帧的检索长度，该步骤中，通过根据该指定声学状态对滑窗的窗长进行设置，有效的提高了后续对待检测语音中语音帧选取的准确性。

具体的，该步骤中，对该滑窗的声学状态的设置次数等于该当前声学状态的数量，以得到对应数量的滑窗，即该步骤中，将该滑窗依序设置为当前声学状态，直至所有的当前声学状态均被设置完成后，停止该滑窗的设置；

步骤S30，根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配；

其中，根据所述滑窗依序对待检测语音中语音段的声学状态进行检测，并基于检测结果判断与指定声学状态是否相同/相似，当判断到语音段的声学状态与任一指定声学状态相同/相似时，判定所述语音段的声学状态与对应所述指定声学状态相匹配；

具体的，该步骤中，将设置完成后的所有滑窗对该待检测语音进行声学状态的匹配检测，直至判断到所有滑窗均完成检测时，停止所述滑窗对所述待检测语音的匹配检测；

优选的，本实施例中，当判断到所述语音段的声学状态与所述指定声学状态匹配时，则判定该语音段与该指定声学状态对应的指定关键词的语音特征相同/相似。

步骤S40，当判断到所述语音段的声学状态与所述指定声学状态匹配时，对所述语音段进行音素状态转换，得到当前音素状态；

其中，通过对所述语音段进行音素状态转换的设计，将该语音段的音频信息转换为音素信息，有效的方便了该语音段与对应指定关键词之间的音素分析；

具体的，该当前音素状态中存储有对应语音段内音素之间的音素组合特征和/或音素静音时长特征等；

步骤S50，根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素；

其中，通过判断指定音素状态与当前音素状态内的音素组合特征和/或音素静音时长特征是否相同/相似，以判定所述当前音素状态对应的音素是否为关键词语音；

具体的，该步骤中，通过判断指定音素状态与当前音素状态内的音素组合特征是否相同/相似的设计，以判断指定音素状态与当前音素状态内的发音音素是否相同/相似，且通过判断指定音素状态与当前音素状态内的音素静音时长特征是否相同/相似的设计，以判断指定音素状态与当前音素状态之间的发音停顿是否相同/相似；

优选的，当判断到指定音素状态与当前音素状态内的音素组合特征和/或音素静音时长特征之间的当前相似度大于相似度阈值时，则判定所述当前音素状态对应的音素为关键词语音。

当判断到所述当前音素状态对应的音素是所述关键词音素时，执行步骤S60；

步骤S60，对所述语音段进行关键词标记，并记录所述语音段的语音位置；

其中，该关键词标记用于对对应语音段进行突显显示，以表示该语音段对应的词汇为该指定关键词，优选的，该关键词标记可以采用颜色标记、框选标记、放大标记或缩小标记等方式对该语音段进行突显，有效的方便了用户对该待检测语音内关键词位置的查看。

优选的，不同指定关键词所采用的关键词标记方式可以不相同，例如当该关键词标记采用颜色标记的方式进行标记时，则对不同指定关键词对应语音段的标记颜色不相；

例如针对第一指定关键词所采用的标记颜色为红色、第二指定关键词所采用的标记颜色为蓝色，则当语音段A中的声学状态与第一指定关键词中的指定声学状态相匹配，且根据第一指定关键词的指定音素状态判断到语音段A的当前音素状态对应的音素是关键词音素时，则将该语音段A标记为红色；可以理解的，当语音段B中的声学状态与第二指定关键词中的指定声学状态相匹配，且根据第二指定关键词的指定音素状态判断到语音段B的当前音素状态对应的音素是关键词音素时，则将该语音段B标记为蓝色；

通过将不同指定关键词的关键词标记方式设置为不相同的设计，有效的方便了用户对不同指定关键词检索结果的查看，提高了用户的观察体验。

本实施例，通过基于对指定关键词的指定声学状态和指定音素状态的获取，以采用样本无相关的方式对待检测语音进行关键词的检索，无需获取语音信息的标注数据，提高了对小语种或方言语种的关键词检索效率，且通过对滑窗进行长度和状态信息的设置，以采用滑窗检索的方式对待检测语音进行关键词检索，进一步提高了关键词检索的效率。

实施例二

请参阅图2，是本发明第二实施例提供的关键词检索方法的流程图，包括步骤：

步骤S11，获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态，并计算每个所述指定声学状态的长度；

其中，通过获取该指定声学状态中存储的音素特征向量，对音素特征向量进行合并，以得到该指定声学状态的长度；

步骤S21，将最大长度的所述指定声学状态设置所述滑窗的窗长，并获取待检测语音的MFCC特征、PITCH特征和IVECTOR特征；

优选的，通过对所有指定声学状态的长度进行排序，以获取最大长度的所述指定声学状态，并根据获取结果对该滑窗的窗长进行参数设置；

进一步的，通过获取该待检测语音的MFCC特征、PITCH特征和IVECTOR特征，有效的达到了提取该待检测语音的语音特征的效果；

步骤S31，对所述MFCC特征、所述PITCH特征和所述IVECTOR特征进行向量转换，得到特征向量；

其中，通过对所述MFCC特征、所述PITCH特征和所述IVECTOR特征进行向量转换的设计，以使将音频信息转换为矢量信息，有效的方便了后续对该待检测语音中关键词检索的判断；

步骤S41，对所述特征向量进行向量合并，得到所述当前声学状态，并将所述滑窗设置为所述当前声学状态；

其中，通过对所有所述特征向量进行向量合并的设计，以使采用一个特征向量来表述待检测语音的声学特征，有效的方便了该滑窗声学状态的设置；

步骤S51，根据所述滑窗依序获取所述待检测语音中每帧语音帧内所述语音段的语音声学状态；

其中，一个滑窗内选取有多个语音帧，该步骤中，依序获取每个语音帧内所述语音段的语音声学状态；

步骤S61，判断所述语音声学状态与所述指定声学状态是否相同/相似；

其中，当判断到所述语音声学状态与任一指定声学状态相同/相似时，判定该语音段与该指定声学状态对应的指定关键词的语音特征相同/相似；

当判断到所述语音声学状态与所述指定声学状态相同/相似时，执行步骤S71；

步骤S71，判定对应所述语音段的声学状态与所述指定声学状态相匹配，对所述语音段进行音素状态转换，得到当前音素状态；

步骤S81，根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素；

当判断到所述当前音素状态对应的音素是所述关键词音素时，执行步骤S91；

步骤S91，对所述语音段进行关键词标记，并记录所述语音段的语音位置；

本实施例中，通过基于对指定关键词的指定声学状态和指定音素状态的获取，以采用样本无相关的方式对待检测语音进行关键词的检索，无需获取语音信息的标注数据，提高了对小语种或方言语种的关键词检索效率，且通过对滑窗进行长度和状态信息的设置，以采用滑窗检索的方式对待检测语音进行关键词检索，进一步提高了关键词检索的效率。

实施例三

请参阅图3，是本发明第三实施例提供的关键词检索方法的流程图，包括步骤：

步骤S12，获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态；

步骤S22，根据所述指定声学状态对滑窗的窗长进行设置，获取待检测语音的当前声学状态，并将所述滑窗设置为所述当前声学状态；

步骤S32，根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配；

步骤S42，当判断到所述语音段的声学状态与所述指定声学状态匹配时，将所述语音段转换为拼音，得到拼音串；

其中，可以通过对该语音段进行音素识别，以得到该拼音串，例如该语音段的音频内容为“关键词”时，则对应得到的拼音串为“guan jian ci”；

步骤S52，对所述拼音串内的辅音音素和元音音素进行分隔，并对所述拼音串中相邻的音素进行组合，得到待检测音素对；

其中，该拼音串“guan jian ci”中包括辅音音素g、j、c，元音元素uan、ian、i，因此，对辅音音素和元音音素进行分隔，得到“g uan j ian c i”；

优选的，对所述拼音串中相邻的音素进行组合后，得到的待检测音素对包括：g-uan、uan-j、j-ian、an-c和c-i；

步骤S62，对所述待检测语音进行语音端点检测，得到端点检测结果，并根据所述端点检测结果对所述拼音串中的所述待检测音素对进行静音标记，以得到所述当前音素状态；

其中，语音端点检测(Voice Activity Detection,VAD)又称语音活动检测和语音边界检测，该语音端点检测的目的是从待检测语音中的声音信号流里识别各个语言节点的静音期，进而有效的保障了后续针对音素对静音标记的准确性；

具体的，该步骤中，以音素对为单位进行静音标记，以使对该拼音串中所有的音素对进行静音长度的标记，当该静音标记越大时，则判定对应的音素对后续的静音时间较长；

此外，该步骤中，所述根据所述端点检测结果对所述拼音串中的所述音素对进行静音标记的步骤包括：

步骤S72，将所述指定音素状态中存储指定音素对与所述当前音素状态中存储的所述待检测音素对进行匹配；

具体的，该步骤中，通过将指定音素与待检测音素对进行匹配的设计，以判断指定音素状态与当前音素状态内的发音音素是否相同/相似；当所述指定音素对与所述待检测音素对匹配成功时，执行步骤S82；

步骤S82，判断指定音素对和待检测音素对上的时长标识是否相同/相似；

其中，该指定音素状态中的指定音素对的静音标记方式与该待检测语音中待检测音素对标记方式相同，且在步骤S82实施之前，已经完成了针对该指定音素状态中所有指定音素对的静音标记；

具体的，该步骤中，通过判断所述指定音素对和所述待检测音素对上的所述时长标识是否一致的设计，以判断指定音素状态与当前音素状态之间的发音停顿是否一致；

当判断到所述时长标识一致时，执行步骤S92；

步骤S92，判定所述当前音素状态是所述关键词音素，对所述语音段进行关键词标记，并记录所述语音段的语音位置；

实施例四

请参阅图4，是本发明第四实施例提供的关键词检索系统100的结构示意图，包括：样本信息获取模块10、滑窗设置模块11、声学状态匹配模块12、音素转换模块13和音素状态判断模块14，其中：

样本信息获取模块10，用于获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态。

滑窗设置模块11，用于根据所述指定声学状态对滑窗的窗长进行设置，获取待检测语音的当前声学状态，并将所述滑窗设置为所述当前声学状态。

其中，所述滑窗设置模块11还用于：获取待检测语音的MFCC特征、PITCH特征和IVECTOR特征，并对所述MFCC特征、所述PITCH特征和所述IVECTOR特征进行向量转换，得到特征向量；

对所述特征向量进行向量合并，得到所述当前声学状态。

优选的，所述滑窗设置模块11还用于：计算每个所述指定声学状态的长度，并将最大长度的所述指定声学状态设置所述滑窗的窗长。

声学状态匹配模块12，用于根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配。

其中，所述声学状态匹配模块12还用于：根据所述滑窗依序获取所述待检测语音中每帧语音帧内所述语音段的语音声学状态；

判断所述语音声学状态与所述指定声学状态是否相同/相似；

音素转换模块13，用于当判断到所述语音段的声学状态与所述指定声学状态匹配时，对所述语音段进行音素状态转换，得到当前音素状态。

其中，所述音素转换模块13还用于：将所述语音段转换为拼音，得到拼音串，并对所述拼音串内的辅音音素和元音音素进行分隔；

优选的，所述音素转换模块13还用于：分别获取每个所述待检测音素对末端音素在所述端点检测结果中对应的静音时长；

音素状态判断模块14，用于根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素；当判断到所述当前音素状态对应的音素是所述关键词音素时，对所述语音段进行关键词标记，并记录所述语音段的语音位置。

其中，所述音素状态判断模块14还用于：将所述指定音素状态中存储指定音素对与所述当前音素状态中存储的所述待检测音素对进行匹配；

当判断到所述时长标识一致时，则判定所述当前音素状态是所述关键词音素。

实施例五

请参阅图5，是本发明第五实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的关键词检索方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

根据所述指定声学状态对滑窗的窗长进行设置，获取待检测语音的当前声学状态，并将所述滑窗设置为所述当前声学状态；

当判断到所述当前音素状态对应的音素是所述关键词音素时，对所述语音段进行关键词标记，并记录所述语音段的语音位置。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图4中示出的组成结构并不构成对本发明的关键词检索系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-3中的关键词检索方法亦采用图4中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标关键词检索系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标关键词检索系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种关键词检索方法，其特征在于，所述方法包括：

当判断到所述当前音素状态对应的音素是所述关键词音素时，对所述语音段进行关键词标记，并记录所述语音段的语音位置；

所述根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配的步骤包括：

判断所述语音声学状态与所述指定声学状态是否相同/相似；

当判断到所述语音声学状态与所述指定声学状态相同/相似时，则判定对应所述语音段的声学状态与所述指定声学状态相匹配；

所述对所述语音段进行音素状态转换，得到当前音素状态的步骤包括：

2.如权利要求1所述的关键词检索方法，其特征在于，所述获取待检测语音的当前声学状态的步骤包括：

对所述特征向量进行向量合并，得到所述当前声学状态。

3.如权利要求1所述的关键词检索方法，其特征在于，所述根据所述指定声学状态对滑窗的窗长进行设置的步骤包括：

计算每个所述指定声学状态的长度，并依据最大长度的所述指定声学状态设置所述滑窗的窗长。

4.如权利要求1所述的关键词检索方法，其特征在于，所述根据所述端点检测结果对所述拼音串中的所述待检测音素对进行静音标记的步骤包括：

5.如权利要求4所述的关键词检索方法，其特征在于，所述根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素的步骤包括：

将所述指定音素状态中存储的指定音素对与所述当前音素状态中存储的所述待检测音素对进行匹配；

当所述指定音素对与所述待检测音素对匹配成功时，判断所述指定音素对和所述待检测音素对上的所述时长标识是否一致；

6.一种关键词检索系统，其特征在于，所述系统包括：

音素状态判断模块，用于根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素；当判断到所述当前音素状态对应的音素是所述关键词音素时，对所述语音段进行关键词标记，并记录所述语音段的语音位置；

所述声学状态匹配模块还用于：根据所述滑窗依序获取所述待检测语音中每帧语音帧内所述语音段的语音声学状态；

判断所述语音声学状态与所述指定声学状态是否相同/相似；

所述音素转换模块还用于：将所述语音段转换为拼音，得到拼音串，并对所述拼音串内的辅音音素和元音音素进行分隔；

7.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至5任一项所述的关键词检索方法。

8.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至5任一项所述的关键词检索方法的步骤。