CN115691479A

CN115691479A - 语音检测方法、装置、电子设备及存储介质

Info

Publication number: CN115691479A
Application number: CN202211096275.0A
Authority: CN
Inventors: 原道德; 吴磊; 杨凯; 刘进涛; 葛新; 韩东彪
Original assignee: CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2023-02-03

Abstract

本申请提供一种语音检测方法、装置、电子设备及存储介质，涉及语音识别领域。所述方法包括：获取用户的指令语音，并提取所述指令语音的声纹特征；从各声纹特征对应的语音检测模型中，确定与所述指令语音的声纹特征对应的目标语音检测模型；以及，根据所述指令语音，对所述目标语音检测模型进行自适应处理；基于自适应处理后的所述目标语音检测模型，对所述指令语音进行语音检测。以上方案，通过筛选与用户的指令语音的声纹特征对应的目标语音检测模型，来提高指令语音的声纹特征与语音检测模型的匹配度，从而提高语音检测准确度。

Description

语音检测方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别领域，尤其涉及一种语音检测方法、装置、电子设备及存储介质。

背景技术

随着语音识别技术的进步，语音唤醒在人机交互场景的应用大大提高了工作效率。语音唤醒是通过检测语音中包含的预定义语音指令词将设备从休眠状态转换为工作状态的技术。

在实际应用中，执行语音唤醒前会先使用语音检测模型检测说话人的语音，在预设的语音中是否存在，即需要先进行语音检测。但由于不同说话人的声纹特征、说话方式等方面存在很大差异，语音检测的性能受说话人的影响很大，说话人的特征与语音检测的模型越匹配，其检测准确度越高。

在相关技术中，考虑到不同说话人的声音不同，会使用说话人的待检测语音对语音检测模型进行自适应，之后再进行语音检测。然而，待检测语音通常较短，一般仅为几秒，因此自适应优化的效果有限，无法有效提高语音检测的准确性。

发明内容

本申请提供一种语音检测方法、装置、电子设备及存储介质，用于提高语音检测准确度。

第一方面，本申请提供一种语音检测方法，包括：获取用户的指令语音，并提取所述指令语音的声纹特征；从各声纹特征对应的语音检测模型中，确定与所述指令语音的声纹特征对应的目标语音检测模型；以及，根据所述指令语音，对所述目标语音检测模型进行自适应处理；基于自适应处理后的所述目标语音检测模型，对所述指令语音进行语音检测。

在一种可能的实施方式中，所述从各声纹特征对应的语音检测模型中，确定与所述指令语音的声纹特征对应的目标语音检测模型，包括：计算所述指令语音的声纹特征与所述各声纹特征中每个声纹特征的相似度；从所述各声纹特征对应的语音检测模型中，选取与所述指令语音的声纹特征相似度最高的声纹特征所对应的语音检测模型，作为所述目标语音检测模型；其中，每个声纹特征对应的语音检测模型是基于该声纹特征对应的训练语料建立的。

在一种可能的实施方式中，根据多个训练语料，建立原始语音检测模型；提取所述多个训练语料的声纹特征，并基于声纹特征的相似度，对所述多个训练语料进行聚类，获得所述各声纹特征对应的训练语料；通过分别基于每个声纹特征对应的训练语料，对所述原始语音检测模型进行自适应处理，得到所述各声纹特征对应的语音检测模型。

在一种可能的实施方式中，根据所述语音检测的检测结果，执行语音唤醒流程。

在一种可能的实施方式中，所述根据所述语音检测的检测结果，执行语音唤醒流程，包括：若所述检测结果为通过，则根据所述指令语音，执行对应的唤醒处理；若所述检测结果为未通过，则不执行后续处理。

第二方面，本申请提供一种语音检测装置，包括：提取模块，用于获取用户的指令语音，并提取所述指令语音的声纹特征；筛选模块，用于从各声纹特征对应的语音检测模型中，确定与所述指令语音的声纹特征对应的目标语音检测模型；以及，根据所述指令语音，对所述目标语音检测模型进行自适应处理；检测模块，用于基于自适应处理后的所述目标语音检测模型，对所述指令语音进行语音检测。

在一种可能的实施方式中，所述筛选模块，具体用于计算所述指令语音的声纹特征与所述各声纹特征中每个声纹特征的相似度；所述筛选模块，具体还用于从所述各声纹特征对应的语音检测模型中，选取与所述指令语音的声纹特征相似度最高的声纹特征所对应的语音检测模型，作为所述目标语音检测模型；其中，每个声纹特征对应的语音检测模型是基于该声纹特征对应的训练语料建立的。

在一种可能的实施方式中，所述装置还包括：建立模块，用于根据多个训练语料，建立原始语音检测模型；聚类模块，用于提取所述多个训练语料的声纹特征，并基于声纹特征的相似度，对所述多个训练语料进行聚类，获得所述各声纹特征对应的训练语料；处理模块，用于通过分别基于每个声纹特征对应的训练语料，对所述原始语音检测模型进行自适应处理，得到所述各声纹特征对应的语音检测模型。

在一种可能的实施方式中，所述装置还包括：执行模块，用于根据所述语音检测的检测结果，执行语音唤醒流程。

在一种可能的实施方式中，所述执行模块，具体用于若所述检测结果为通过，则根据所述指令语音，执行唤醒处理；所述执行模块，具体还用于若所述检测结果为未通过，则不执行后续的处理。

第三方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现第一方面中任一项所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行如第一方面中任一项所述的方法。

本申请提供的语音检测方法、装置、电子设备及存储介质，获取用户的指令语音，并提取所述指令语音的声纹特征；从各声纹特征对应的语音检测模型中，确定与所述指令语音的声纹特征对应的目标语音检测模型；以及，根据所述指令语音，对所述目标语音检测模型进行自适应处理；基于自适应处理后的所述目标语音检测模型，对所述指令语音进行语音检测。以上方案，通过筛选与用户的指令语音的声纹特征对应的目标语音检测模型，来提高指令语音的声纹特征与语音检测模型的匹配度，从而提高语音检测准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种语音检测方法的应用场景示意图；

图2为本申请实施例一提供的一种语音检测方法的流程示意图；

图3为本申请实施例提供的声纹特征和语音检测模型映射关系表示例；

图4为本申请实施例提供的语音检测方法示例示例；

图5为本申请实施例二提供的一种语音检测装置的结构示例图；

图6为本申请实施例三提供的一种语音检测装置的装置框图；

图7为本申请实施例四中提供的一种电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

首先对涉及的名词进行解释：

声纹：用电声学仪器显示的携带语音信息的声波频谱；

说话人自适应：利用说话人的语音数据调整模型，减小模型和说话人语音不匹配的技术。

伴随设备的逐渐智能化，越来越多的设备支持只要听到用户的语音指令就会执行相应的任务，这就是语音唤醒功能。举例来说，语音唤醒技术会在设备或软件中预置唤醒词，当用户发出对应的语音指令时，设备便从休眠状态中被唤醒，并作出指定响应，从而提升人机交互的效率。

语音唤醒的应用场景逐渐广泛，主要是应用在语音交互的设备。比如，智能音箱，用户我们通过说出音箱的名字唤醒智能音箱，和其进行交互。再比如，智能手机也应用有语音唤醒功能，可以配置手机助手进行语音交互，让用户即使不触碰手机，也可以实现一些操作。再比如，还有一些服务类型的机器人，也可以采用语音唤醒技术。

语音唤醒功能主要依赖于语音唤醒模型，是整个语音唤醒的核心。实际应用中，为了避免一些不必要的处理，比如用户误操作，或者非认证用户的操作，在执行语音唤醒之前先进行语音检测。具体的，语音检测用于检测用户当前发出的语音指令是否是在预置的语音指令库中，可以通过语音检测来进行指令内容和用户的识别。比如，假设当前用户说出的指令语音，并未预置在指令语音库中，则可不执行后续的语音唤醒处理，从而避免误操作和不必要的处理，节省资源。而若检测到当前的指令语音中包含预设的指令，则可基于语音唤醒模型执行该指令对应的处理。

图1为本申请实施例提供的一种语音检测方法的应用场景示意图，结合图示的场景进行举例：获取用户的指令语音，从指令语音中提取声纹特征。根据指令语音的声纹特征确定对应的目标语音检测模型。根据指令语音，对目标语音检测模型进行自适应处理，得到自适应处理的目标语音检测模型，从而缩小指令语音的声纹特征和目标语音检测模型的差异。通过自适应处理的目标语音检测模型对指令语音进行检测，输出检测结果。

下面以具体的实施例对本申请的技术方案以及本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。在本申请的描述中，除非另有明确的规定和限定，各术语应在本领域内做广义理解。下面将结合附图，对本申请的实施例进行描述。

下面结合以下各实施例对本申请实施例的方案进行示例介绍。

实施例一

图2为本申请实施例一提供的一种语音检测方法的流程示意图，该方法包括以下步骤：

S101、获取用户的指令语音，并提取所述指令语音的声纹特征；

S102、从各声纹特征对应的语音检测模型中，确定与所述指令语音的声纹特征对应的目标语音检测模型；以及，根据所述指令语音，对所述目标语音检测模型进行自适应处理；

S103、基于自适应处理后的所述目标语音检测模型，对所述指令语音进行语音检测。

作为示例，该实施例的执行主体可以为语音检测装置，该语音检测装置的实现有多种。例如，可以为程序软件，也可以为存储有相关计算机程序的介质，例如，U盘等；或者，该装置还可以为集成或安装有相关计算机程序的实体设备，例如，芯片、智能终端、电脑、服务器等。在一个示例中，所述语音检测装置可以为解码器。

其中，语音指令为用户通过比如说话等方式发出的语音形式的指令。结合实际场景举例，当用户希望设备播放音乐时，可以说出“播放音乐”的语音指令；当用户希望设备关机时，可以说出“请关机”的语音指令。

在一个示例中，S101具体包括：将指令语音输入声纹提取工具，获得所述声纹提取工具输出的所述指令语音的特征声波频谱；所述特征声波频谱即为声纹特征。

作为一种可实施的方式，所述声纹提取工具包含声纹提取算法，将指令语音输入声纹提取工具，声纹提取算法从指令语音的声波频谱中提取反映说话人生理特征的特征声波频谱。其中，所述生理特征包括说话人的发声器官的尺寸形态。具体的声纹特征获取方法可以参照相关技术，这不再详细介绍。

基于以上实施方式，通过声纹提取工具，能够准确地提取声纹特征，从而在后续以声纹特征为依据选取合适的语音检测模型，提高语音检测的准确性。

获取指令语音的声纹特征后，需要确定与该指令语音的声纹特征匹配的语音检测模型。在一个示例中，S102中，所述从各声纹特征对应的语音检测模型中，确定与所述指令语音的声纹特征对应的目标语音检测模型，具体包括：

计算所述指令语音的声纹特征与所述各声纹特征中每个声纹特征的相似度；

从所述各声纹特征对应的语音检测模型中，选取与所述指令语音的声纹特征相似度最高的声纹特征所对应的语音检测模型，作为所述目标语音检测模型；其中，每个声纹特征对应的语音检测模型是基于该声纹特征对应的训练语料建立的。

作为一种可实施的的方式，如图3所示，图3为声纹特征和语音检测模型映射关系表示例。建立各声纹特征和各语音检测模型的映射关系表，其中，基于每个声纹特征对应的训练语料建立对应的语音检测模型。本示例中，计算指令语音的声纹特征与各声纹特征中每个声纹特征的相似度。选取与指令语音的声纹特征相似度最高的声纹特征作为目标声纹特征，根据各声纹特征和各语音检测模型的映射关系表，将目标声纹特征对应的语音检测模型作为目标语音检测模型。举例来说，若声纹特征2与指令语音的声纹特征相似度最高，则将映射关系表中声纹特征2对应的语音检测模型2作为目标语音检测模型。

基于以上实施方式，通过选取与指令语音的声纹特征相似度最高的声纹特征所对应的语音检测模型，能够提高自适应处理的效果，从而提高语音检测的准确性。

具体的，所述自适应处理，用于针对某一个说话人来优化语音检测模型的识别性能。自适应技术的目的是为了减少训练集和说话人之间差异性造成的语音识别性能下降的影响。这种差异性主要包括语音学上的差异还有生理上发音习惯上不同导致的差异性等等。语音技术中的自适应技术有很多，按照空间大致可以分成两类：特征空间自适应和模型空间自适应。本实施例中，关于自适应处理的详细内容可以参照相关技术。

基于以上实施方式，自适应处理后的目标语音检测模型，能够优化对指令语音的特征声波频谱的识别参数，提高了对指令语音的声纹特征的识别能力，可以针对性进行指令识别，从而提高检测结果的准确度。

具体的，本实施例中，基于预先建立的各声纹特征对应的语音检测模型，当接收到用户的指令语音时，从各声纹特征对应的语音检测模型中选取合适的目标语音检测模型，以提高语音检测的准确性。

为了建立各声纹特征对应的语音检测模型，在一个示例中，语音检测方法还包括：根据多个训练语料，建立原始语音检测模型；提取所述多个训练语料的声纹特征，并基于声纹特征的相似度，对所述多个训练语料进行聚类，获得所述各声纹特征对应的训练语料；通过分别基于每个声纹特征对应的训练语料，对所述原始语音检测模型进行自适应处理，得到所述各声纹特征对应的语音检测模型。

结合场景示例来说：可先使用所有训练语料，训练得到一个原始语音检测模型。以训练语料的声纹特征为依据，对训练语料进行聚类，将声纹特征相似度超过预设阈值的训练语料分到一类。分别使用每类训练语料中的特征训练语料对原始语音检测模型进行自适应处理，得到各声纹特征对应的语音检测模型。其中，每个声纹特征对应的语音检测模型，是基于该声纹特征下的训练语料，对原始语音检测模型进行自适应处理得到的。其中，所述训练语料可以通过录制获得，也可以通过合成获得。举例来说，训练语料可以通过录制多个不同年龄段、不同性别的说话人的语音获得。通过增加说话人的数量可以丰富训练语料的声纹特征，在实际应用中，以多说话人录制的训练语料训练的语音检测模型，对不同声纹特征的指令语音的适应性更高。训练语料也可以通过合成获得，通过对已录制的说话人的语音的频谱进行修改，相比重新录制语音，可以方便快捷地合成新的具有不同声纹特征的语音作为训练语料。

基于以上实施方式，通过对原始语音检测模型进行自适应处理，得到各声纹特征对应的语音检测模型，可以在后续的语音检测中，筛选与用户的指令语音的声纹特征差异度小的语音检测模型，从而提高语音检测准确度。

为便于理解，图4为语音检测方法示例，如图4所示：

(1)对指令语音进行声纹特征提取，得到声纹特征。

(2)对比指令语音的声纹特征和语音检测模型库中的多个语音检测模型(例如，图中的语音检测模型1、语音检测模型2以及语音检测模型3，即不同声纹特征对应的语音检测模型)对应的训练语料的声纹特征的相似度，确定目标语音检测模型。

(3)通过指令语音，对目标语音检测模型进行自适应处理，得到自适应处理的目标语音检测模型。

(4)执行解码器中的逻辑，调用自适应处理后的目标语音检测模型，对指令语音进行语音检测，获得检测结果。

结合上述示例，在实际应用中，S103可以由解码器执行。相应的，具体包括：将所述指令语音输入解码器，以使解码器通过调用所述自适应处理后的目标语音检测模型，对所述指令语音进行语音检测；获得所述解码器输出的语音检测结果。

基于以上实施方式，通过与用户的指令语音的声纹特征对应的目标语音检测模型，进行语音检测，可以提高语音检测准确度。

以上方案，对检测用户的指令语音进行示例性说明，接下来对语音检测后的语音唤醒流程进行示例性说明。

在一个示例中，语音检测方法还包括：根据所述语音检测的检测结果，执行语音唤醒流程。

可选的，所述根据所述语音检测的检测结果，执行语音唤醒流程，具体可以包括：若所述检测结果为通过，则根据所述指令语音，执行对应的唤醒处理；若所述检测结果为未通过，则不执行后续的处理。

作为一种可实施的方式，预先建立预设指令和预设动作的映射关系表，根据对用户的指令语音检测到的预设指令，对照预设指令和预设动作的映射关系表，得到对应的预设动作，执行所述预设动作。

举例来说，若用户的指令语音“播放音乐”的检测结果为通过，则执行与该指令语音对应的处理，比如，自动开始播放音乐。若用户的指令语音“唤醒”的检测结果为通过，则执行与该指令语音对应的处理，比如，激活设备的工作状态。

基于以上实施方式，通过建立预设指令和预设动作的对应关系，从而根据检测结果准确执行对应动作。

本实施例提供的语音检测方法中，获取用户的指令语音，并提取所述指令语音的声纹特征；从各声纹特征对应的语音检测模型中，确定与所述指令语音的声纹特征对应的目标语音检测模型；以及，根据所述指令语音，对所述目标语音检测模型进行自适应处理；基于自适应处理后的所述目标语音检测模型，对所述指令语音进行语音检测。以上方案，通过筛选与用户的指令语音的声纹特征对应的目标语音检测模型，来提高指令语音的声纹特征与语音检测模型的匹配度，从而提高语音检测准确度。

实施例二

图5为本申请实施例三提供的一种语音检测装置的结构示意图，如图5所示，所述语音检测装置包括：

提取模块61，用于获取用户的指令语音，并提取所述指令语音的声纹特征；

筛选模块62，用于从各声纹特征对应的语音检测模型中，确定与所述指令语音的声纹特征对应的目标语音检测模型；以及，根据所述指令语音，对所述目标语音检测模型进行自适应处理；

检测模块63，用于基于自适应处理后的所述目标语音检测模型，对所述指令语音进行语音检测。

在一个示例中，提取模块61，具体用于：将指令语音输入声纹提取工具，获得所述声纹提取工具输出的所述指令语音的特征声波频谱；所述特征声波频谱即为声纹特征。

作为一种可实施的方式，所述声纹提取工具包含声纹提取算法，将指令语音输入声纹提取工具，声纹提取算法从指令语音的声波频谱中提取反映说话人生理特征的特征声波频谱。其中，所述生理特征包括说话人的发声器官的尺寸形态。具体的声纹特征获取方法可以按照相关技术，这不再详细介绍。

获取指令语音的声纹特征后，需要确定与该指令语音的声纹特征匹配的语音检测模型。在一个示例中，筛选模块62，具体用于：计算所述指令语音的声纹特征与所述各声纹特征中每个声纹特征的相似度；从所述各声纹特征对应的语音检测模型中，选取与所述指令语音的声纹特征相似度最高的声纹特征所对应的语音检测模型，作为所述目标语音检测模型；其中，每个声纹特征对应的语音检测模型是基于该声纹特征对应的训练语料建立的。

作为一种可实施的的方式，如图3所示，图3为声纹特征和语音检测模型映射关系表示例。筛选模块62建立各声纹特征和各语音检测模型的映射关系表，其中，基于每个声纹特征对应的训练语料建立对应的语音检测模型。本示例中，计算指令语音的声纹特征与各声纹特征中每个声纹特征的相似度。选取与指令语音的声纹特征相似度最高的声纹特征作为目标声纹特征，根据各声纹特征和各语音检测模型的映射关系表，将目标声纹特征对应的语音检测模型作为目标语音检测模型。举例来说，若声纹特征2与指令语音的声纹特征相似度最高，则将映射关系表中声纹特征2对应的语音检测模型2作为目标语音检测模型。

基于以上实施方式，自适应处理后的目标语音检测模型，修改了能够优化对指令语音的特征声波频谱的识别参数，提高了对指令语音的声纹特征的识别能力，可以针对性进行指令识别，从而提高检测结果的准确度。

具体的，本实施例中，筛选模块62基于预先建立的各声纹特征对应的语音检测模型，当接收到用户的指令语音时，从各声纹特征对应的语音检测模型中选取合适的目标语音检测模型，以提高语音检测的准确性。

为了建立各声纹特征对应的语音检测模型，在一个示例中，语音检测装置还包括：建立模块64，用于根据多个训练语料，建立原始语音检测模型；聚类模块65，用于提取所述多个训练语料的声纹特征，并基于声纹特征的相似度，对所述多个训练语料进行聚类，获得所述各声纹特征对应的训练语料；处理模块66，用于通过分别基于每个声纹特征对应的训练语料，对所述原始语音检测模型进行自适应处理，得到所述各声纹特征对应的语音检测模型。

结合场景示例来说：建立模块64可先使用所有训练语料，训练得到一个原始语音检测模型。聚类模块65以训练语料的声纹特征为依据，对训练语料进行聚类，将声纹特征相似度超过预设阈值的训练语料分到一类。处理模块66分别使用每类训练语料中的特征训练语料对原始语音检测模型进行自适应处理，得到多个语音检测模型。其中，每个声纹特征对应的语音检测模型，是基于该声纹特征下的训练语料，对原始语音检测模型进行自适应处理得到的。其中，所述训练语料可以通过录制获得，也可以通过合成获得。举例来说，训练语料可以通过录制多个不同年龄段、不同性别的说话人的语音获得。通过增加说话人的数量可以丰富训练语料的声纹特征，在实际应用中，以多说话人录制的训练语料训练的语音检测模型，对不同声纹特征的指令语音的适应性更高。训练语料也可以通过合成获得，通过对已录制的说话人的语音的频谱进行修改，相比重新录制语音，可以方便快捷地合成新的具有不同声纹特征的语音作为训练语料。

在实际应用中，检测模块63，具体用于：将所述指令语音输入解码器，以使解码器通过调用所述自适应处理后的目标语音检测模型，对所述指令语音进行语音检测；获得所述解码器输出的语音检测结果。

基于以上实施方式，通过与用户的指令语音的声纹特征对应的目标语音检测模型，进行语音检测，可以提高语音检测准确度

在一个示例中，语音检测装置还包括：执行模块67，用于根据所述语音检测的检测结果，执行语音唤醒流程。

作为一种可实施的方式，执行模块67预先建立预设指令和预设动作的映射关系表，根据对用户的指令语音检测到的预设指令，对照预设指令和预设动作的映射关系表，得到对应的预设动作，执行所述预设动作。

本实施例提供的语音检测装置中，提取模块获取用户的指令语音，并提取所述指令语音的声纹特征；筛选模块从各声纹特征对应的语音检测模型中，确定与所述指令语音的声纹特征对应的目标语音检测模型；以及，根据所述指令语音，对所述目标语音检测模型进行自适应处理；检测模块基于自适应处理后的所述目标语音检测模型，对所述指令语音进行语音检测。以上方案，通过筛选与用户的指令语音的声纹特征对应的目标语音检测模型，来提高指令语音的声纹特征与语音检测模型的匹配度，从而提高语音检测准确度。

实施例三

图6是根据一示例性实施例示出的一种语音检测装置的装置框图，该装置可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

实施例四

图7为本申请实施例中提供的一种电子设备的结构示意图，如图7所示，该电子设备包括：

处理器(processor)291，电子设备还包括了存储器(memory)292；还可以包括通信接口(Communication Interface)293和总线294。其中，处理器291、存储器292、通信接口293、可以通过总线294完成相互间的通信。通信接口293可以用于信息传输。处理器291可以调用存储器294中的逻辑指令，以执行上述实施例的方法。

此外，上述的存储器292中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器292作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本申请实施例中的方法对应的程序指令/模块。处理器291通过运行存储在存储器292中的软件程序、指令以及模块，从而执行功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器292可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器292可以包括高速随机存取存储器，还可以包括非易失性存储器。

本申请实施例提供一种非临时性计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如前述实施例所述的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种语音检测方法，其特征在于，包括：

获取用户的指令语音，并提取所述指令语音的声纹特征；

从各声纹特征对应的语音检测模型中，确定与所述指令语音的声纹特征对应的目标语音检测模型；以及，根据所述指令语音，对所述目标语音检测模型进行自适应处理；

基于自适应处理后的所述目标语音检测模型，对所述指令语音进行语音检测。

2.根据权利要求1所述的方法，其特征在于，所述从各声纹特征对应的语音检测模型中，确定与所述指令语音的声纹特征对应的目标语音检测模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据多个训练语料，建立原始语音检测模型；

提取所述多个训练语料的声纹特征，并基于声纹特征的相似度，对所述多个训练语料进行聚类，获得所述各声纹特征对应的训练语料；

通过分别基于每个声纹特征对应的训练语料，对所述原始语音检测模型进行自适应处理，得到所述各声纹特征对应的语音检测模型。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

根据所述语音检测的检测结果，执行语音唤醒流程。

5.根据权利要求4所述的方法，其特征在于，所述根据所述语音检测的检测结果，执行语音唤醒流程，包括：

若所述检测结果为通过，则根据所述指令语音，执行对应的唤醒处理；

若所述检测结果为未通过，则不执行后续处理。

6.一种语音检测装置，其特征在于，包括：

提取模块，用于获取用户的指令语音，并提取所述指令语音的声纹特征；

筛选模块，用于从各声纹特征对应的语音检测模型中，确定与所述指令语音的声纹特征对应的目标语音检测模型；以及，根据所述指令语音，对所述目标语音检测模型进行自适应处理；

检测模块，用于基于自适应处理后的所述目标语音检测模型，对所述指令语音进行语音检测。

7.根据权利要求6所述的装置，其特征在于，

所述筛选模块，具体用于计算所述指令语音的声纹特征与所述各声纹特征中每个声纹特征的相似度；

所述筛选模块，具体还用于从所述各声纹特征对应的语音检测模型中，选取与所述指令语音的声纹特征相似度最高的声纹特征所对应的语音检测模型，作为所述目标语音检测模型；其中，每个声纹特征对应的语音检测模型是基于该声纹特征对应的训练语料建立的。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

建立模块，用于根据多个训练语料，建立原始语音检测模型；

聚类模块，用于提取所述多个训练语料的声纹特征，并基于声纹特征的相似度，对所述多个训练语料进行聚类，获得所述各声纹特征对应的训练语料；

处理模块，用于通过分别基于每个声纹特征对应的训练语料，对所述原始语音检测模型进行自适应处理，得到所述各声纹特征对应的语音检测模型。

9.根据权利要求6-8任一项所述的装置，其特征在于，所述装置还包括：

执行模块，用于根据所述语音检测的检测结果，执行语音唤醒流程。

10.根据权利要求9所述的装置，其特征在于，

所述执行模块，具体用于若所述检测结果为通过，则根据所述指令语音，执行对应的唤醒处理；

所述执行模块，具体还用于若所述检测结果为未通过，则不执行后续处理。

11.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-5中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-5中任一项所述的方法。