CN110473536A

CN110473536A - 一种唤醒方法、装置和智能设备

Info

Publication number: CN110473536A
Application number: CN201910768130.2A
Authority: CN
Inventors: 陈孝良; 冯大航; 常乐
Original assignee: Beijing Sound Intelligence Technology Co Ltd
Current assignee: Beijing Sound Intelligence Technology Co Ltd; Beijing SoundAI Technology Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-11-19
Anticipated expiration: 2039-08-20
Also published as: CN110473536B

Abstract

本发明提供一种唤醒方法、装置和智能设备，获取待分析唤醒词的音素特征，其中，音素特征包括待分析唤醒词的声韵母，在第一声学模型中对音素特征进行计算，获得中间结果，若中间结果指示第一声学模型被唤醒，确定音素特征中的起始音素特征，基于中间结果和起始音素特征，在第二声学模型中计算待分析唤醒词的各个音素特征的概率值，若唤醒词的各个音素特征的概率值大于或等于预设概率值，确定智能设备被唤醒，以及确定待分析唤醒词为唤醒智能设备的唤醒词。降低了对智能设备的误唤醒率，提升了用户对智能设备唤醒的良好体验感。

Description

一种唤醒方法、装置和智能设备

技术领域

本发明属于语音识别技术领域，具体涉及一种唤醒方法、装置和智能设备。

背景技术

随着科学技术的进步，人工智能的不断发展，不仅仅限于人与人之间的交互，人和智能机器的交互也越来越成熟。在智能设备中，唤醒在智能应用中具有重要的作用，为了人与智能设备之间进行交互，目前，一般都需要一个唤醒词将智能设备唤醒，然后再进行交互。

但是，目前的对智能设备唤醒的方法，误唤醒率比较高，导致用户对智能设备唤醒的体验不佳，因此，唤醒难易直接影响到用户的体验效果。

发明内容

有鉴于此，本发明的目的在于提供一种唤醒方法、装置和智能设备，用于实现在用户与智能设备的交互中，降低误唤醒，增强用户与智能设备之间交互的体验感。技术方案如下：

本发明提供一种唤醒方法，适用于唤醒装置，所述唤醒装置包括经由多任务学习方式训练确定的第一声学模型和第二声学模型，所述第一声学模型和所述第二声学模型中部分网络层的参数相同，所述方法包括：

获取待分析唤醒词的音素特征，所述音素特征包括所述待分析唤醒词的声韵母；

在所述第一声学模型中对所述音素特征进行计算，获得中间结果；

若所述中间结果指示所述第一声学模型被唤醒，确定所述音素特征中的起始音素特征；

基于所述中间结果和所述起始音素特征，在所述第二声学模型中计算所述待分析唤醒词的各个音素特征的概率值；

若所述待分析唤醒词的各个音素特征的概率值大于或等于预设概率值，确定所述智能设备被唤醒，以及确定所述待分析唤醒词为唤醒所述智能设备的唤醒词。

优选的，所述方法还包括：

若所述中间结果指示所述第一声学模型未被唤醒，退出唤醒。

优选的，所述基于所述中间结果和所述起始音素特征，在所述第二声学模型中计算所述待分析唤醒词的各个音素特征的概率值，包括：

将所述中间结果和所述起始音素特征输入所述第二声学模型中与所述第一声学模型参数不同的网络层，并确定所述待分析唤醒词的所有音素特征；

基于所述中间结果和声韵母全部音素特征，以确定的所述起始音素特征为起始，对所述待分析唤醒词的所有音素特征依次进行计算，获得所述待分析唤醒词的各个音素特征的概率值。

优选的，所述若所述中间结果指示所述第一声学模型被唤醒，确定所述音素特征中的起始音素特征，包括：

若所述中间结果指示经由所述第一声学模型计算的各个音素特征的输出结果与预设输出结果相同，确定所述中间结果指示第一声学模型被唤醒；

确定在所述第一声学模型中进行音素特征计算的第一位音素特征，将所述第一位音素特征作为起始音素特征。

优选的，所述方法还包括：

若所述唤醒词的各个音素特征的概率值小于预设概率值，确定所述智能设备未唤醒，以及确定所述待分析唤醒词非唤醒所述智能设备的唤醒词。

本发明还提供一种唤醒装置，所述装置包括：

获取模块，用于获取待分析唤醒词的音素特征，所述音素特征包括所述待分析唤醒词的声韵母；

第一声学模型，用于对所述音素特征进行计算，获得中间结果，若所述中间结果指示所述第一声学模型被唤醒，确定所述音素特征中的起始音素特征；

第二声学模型，用于基于所述中间结果和所述起始音素特征，在所述第二声学模型中计算所述待分析唤醒词的各个音素特征的概率值，若所述待分析唤醒词的各个音素特征的概率值大于或等于预设概率值，确定所述智能设备被唤醒，以及确定所述待分析唤醒词为唤醒所述智能设备的唤醒词。

优选的，所述装置还包括：

退出模块，用于若所述中间结果指示所述第一声学模型未被唤醒，退出唤醒。

优选的，所述第二声学模型，用于确定所述待分析唤醒词的所有音素特征，并在与所述第一声学模型参数不同的网络层，基于输入的所述中间结果和声韵母全部音素特征，以确定的所述起始音素特征为起始，对所述待分析唤醒词的所有音素特征依次进行计算，获得所述待分析唤醒词的各个音素特征的概率值。

优选的，所述第一声学模型，用于若所述中间结果指示经由所述第一声学模型计算的各个音素特征的输出结果与预设输出结果相同，确定所述中间结果指示第一声学模型被唤醒，确定在所述第一声学模型中进行音素特征计算的第一位音素特征，将所述第一位音素特征作为起始音素特征。

本发明实施例还提供一种智能设备，所述智能设备包括权利要求6-9中任一项所述的唤醒装置。

与现有技术相比，本发明提供的上述技术方案具有如下优点：

获取待分析唤醒词的音素特征，其中，音素特征包括待分析唤醒词的声韵母，在第一声学模型中对音素特征进行计算，获得中间结果，若中间结果指示第一声学模型被唤醒，确定音素特征中的起始音素特征，基于中间结果和起始音素特征，在第二声学模型中计算待分析唤醒词的各个音素特征的概率值，若唤醒词的各个音素特征的概率值大于或等于预设概率值，确定智能设备被唤醒，以及确定待分析唤醒词为唤醒智能设备的唤醒词。降低了对智能设备的误唤醒率，提升了用户对智能设备唤醒的良好体验感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种唤醒方法的流程图；

图2是本发明实施例提供的一种第一声学模型计算待分析唤醒词的音素特征的示意图；

图3是本发明实施例提供的一种第二声学模型计算待分析唤醒词的各个音素特征概率的示意图；

图4是本发明实施例提供的一种基于中间结果和起始音素特征，在第二声学模型中计算待分析唤醒词的各个音素特征的概率值的流程图；

图5是本发明实施例提供的一种确定音素特征中的起始音素特征的流程图；

图6是本发明实施例提供的一种唤醒装置的结构示意图。

具体实施方式

本发明提供了一种一种唤醒方法、装置和智能设备，用于降低智能设备的误唤醒率，提升了用户对智能设备唤醒的良好体验感。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，都属于本发明保护范围。

如图1所示，为本发明实施例提供的一种唤醒方法的流程图，该方法包括以下步骤：

S101:获取待分析唤醒词的音素特征。

在S101中，音素特征包括待分析唤醒词的声韵母，待分析唤醒词为当前用户用于唤醒智能设备所使用的词语。

需要说明的是，智能设备都会预先设置相应的唤醒词，当智能设备获取到与该唤醒词相匹配的唤醒词时，执行唤醒操作。

例如：设置“开启音箱”为智能音箱的唤醒词。当对着智能音箱说：“开启音箱”时，智能音箱就会被唤醒，然后可以进行人机交互，其中，“开启音箱”就是预先设置的智能音箱的唤醒词。

在执行S101的过程中，智能设备通过第一声学模型，接收待分析唤醒词，对该对待分析唤醒词进行处理，获取待分析唤醒词的音素特征。

例如：“开启音箱”为待分析唤醒词。第一声学模型接收到“开启音箱”，然后进一步的获取“开启音箱”的每个字的声韵母。“开”字获得声母为“k”，“启”字获得声母“q”，“音”字获得的声母为“y”，“箱”字获得声母为“x”，“开”字获得韵母为“ai”，“启”字获得的韵母为“i”，“音”字获得的韵母为“in”，“箱”字获得韵母为“iang”。以上“开启音箱”在第一声学模型中共获取8个音素，再加上静音音素“sil”，第一声学模型共输出9类音素特征。

需要说明的是，除了获取待分析唤醒词的音素特征之外，还可以获取发出待分析唤醒词的声音的分贝，然后将分贝和音素特征结合，更能全面分析该待分析唤醒词。

S102:在第一声学模型中对音素特征进行计算，获得中间结果。

在执行S102的过程中，第一声学模型获得待分析唤醒词的全部音素特征之后，根据第一声学模型中的预设参数，对该待分析唤醒词的音素特征进行计算，最后得到一个中间结果，将中间结果放在循环数组中进行存储，若第二声学模型部分网络层的参数与第一声学模型部分网络层的参数相同，在第二声学模型对音素特征进行计算时，则直接调用该中间结果，提高了计算的效率。需要说明的是，通过该中间结果能使得第一声学模型被唤醒。

第一声学模型获得待分析唤醒词的全部音素特征之后计算音素特征获得中间结果。其中，中间结果可以是一个概率值。

需要说明的是，该第一声学模型具有多层网络层，而每层网络层中的参数不同，在计算过程中，结合第一声学模型中各网络层的预设参数进行计算。

如图2所示，为第一声学模型计算待分析唤醒词的音素特征的示意图。

在图2中，以“开启音箱”为待分析唤醒词，其中，该待分析唤醒词的音素特征为8类，再加上静音音素“sil”，总共9类音素特征，通过对该待分析唤醒词的音素特征进行计算处理，输出对应的9类音素特征。

S103:基于中间结果，判断中间结果指示第一声学模型是否被唤醒，若是，则执行S105，若否，则执行S104。

S104:退出唤醒。

在执行S104的过程中，如果获得的中间结果，不满足第一声学模型需要的数据，则第一声学模型不被唤醒，确定，该待分析唤醒词不为智能设备的唤醒词，然后退出唤醒智能设备的操作。

例如：假如中间结果是一个概率值2/4，而第一声学模型中存在一个预设概率值3/4，只要中间结果的概率值小于第一声学模型中的预设概率值，则第一声学模型就不会被唤醒。

需要说明的是，若退出唤醒智能设备的操作，则等待获取下一个待分析唤醒词的音素特征。

S105:确定音素特征中的起始音素特征。

在执行S105的过程中，如果获得的中间结果，使得第一声学模型被唤醒，则确定待分析唤醒词的全部音素特征中的起始音素特征。

例如：确定“开启音箱”中起始音素特征“k”，即确定待分析唤醒词的首个字的音素特征。

需要说明的是，也可以随机确定待分析唤醒词中某个字的音素特征，然后再确定待分析唤醒词另一个字的音素特征，具体的可根据实际需求进行设定。

S106:基于中间结果和起始音素特征，在第二声学模型中计算待分析唤醒词的各个音素特征的概率值。

在执行S106的过程中，对获得的中间结果，输入至第二声学模型中然后第二声学模型基于确定的起始音素特征和全部共224个声韵母，对待分析唤醒词的音素特征从起始音素特征开始计算，直到计算到最后一个音素特征。最后计算得出的结果为待分析唤醒词中的各个音素特征的概率值。

需要说明的是，第二声学模型具有多层网络层，每层网络层中的参数不同，在计算过程中，结合第一声学模型中各网络层的预设参数和224个声韵母从起始音素特征开始，计算待分析唤醒词的各个音素特征的概率值。

在本发明实施例中，第一声学模型中的参数和第二声学模型中的参数，部分相同，另外一部分不同。

基于上述S106，如图3所示，为第二声学模型计算待分析唤醒词的各个音素特征概率的示意图。

在图3中，以“开启音箱”为待分析唤醒词，基于第二声学模型从待分析唤醒词的起始音素依次计算该待分析唤醒词中的8类音素特征的概率值。

S107:判断待分析唤醒词的各个音素特征的概率值是否大于或等于预设概率值，若是，执行S108，若否，执行S104。

S108:确定智能设备被唤醒，以及确定待分析唤醒词为唤醒智能设备的唤醒词。

在执行S108的过程中，如果计算获得的待分析唤醒词的各个音素特征的概率值，满足各个音素特征的概率值大于或等于预设概率值的条件，则智能设备被唤醒。

根据上述本发明实施例公开的唤醒方法可知，获取待分析唤醒词的音素特征，其中，音素特征包括待分析唤醒词的声韵母，在第一声学模型中对音素特征进行计算，获得中间结果，若中间结果指示第一声学模型被唤醒，确定音素特征中的起始音素特征，基于中间结果和起始音素特征，在第二声学模型中计算待分析唤醒词的各个音素特征的概率值，若唤醒词的各个音素特征的概率值大于或等于预设概率值，确定智能设备被唤醒，以及确定待分析唤醒词为唤醒智能设备的唤醒词。降低了对智能设备的误唤醒率，提升了用户对智能设备唤醒的良好体验感。

基于上述本发明实施例图1公开的唤醒方法，图1示出的S106:基于中间结果和起始音素特征，在第二声学模型中计算待分析唤醒词的各个音素特征的概率值具体实现过程，如图4所示，主要包括：

S401:将中间结果和起始音素特征输入第二声学模型中与第一声学模型参数不同的网络层，并确定待分析唤醒词的所有音素特征。

在执行S401的过程中，将获得的中间结果和起始音素特征输入至第二声学模型中，然后确定待分析唤醒词的全部音素特征，此次确定为第二次确定待分析唤醒词的全部音素。

需要说明的是，第二次通过第二声学模型确定待分析唤醒词的全部音素特征，为计算待分析唤醒词的各个音素特征提供了保障。

S402:基于中间结果和声韵母全部音素特征，以确定的起始音素特征为起始，对待分析唤醒词的所有音素特征依次进行计算，获得待分析唤醒词的各个音素特征的概率值。

在执行S402的过程中，第二声学模型确定待分析唤醒词后，根据确定的起始音素特征，对待分析唤醒词按照先后顺序依次对各个音素特征进行概率值得计算。

需要说明的是，也可以设定待分析唤醒词的各个音素特征的权重，根据权重的大小，然后按照从小到大顺序计算各个音素特征概率值。

根据上述本发明实施例公开的唤醒方法可知，根据将中间结果输入至第二声学模型，然后再次确定待分析唤醒词的各个音素特征，从起始音素特征开始按照先后顺序计算待分析唤醒词的各个音素特征的概率值，实现了第二次验证待分析唤醒词的音素特征，降低对智能设备误唤醒的概率。

基于上述本发明实施例图1公开的唤醒方法，图1示出的S105:确定音素特征中的起始音素特征的具体实现过程，如图5所示，主要包括：

S501:判断中间结果指示经由第一声学模型计算的各个音素特征的输出结果与预设输出结果相同是否相同，若是，执行S502，若否，执行S503。

S502:确定中间结果指示第一声学模型被唤醒。

在执行S502的过程中，将获得待分析唤醒词的各个音素特征，根据第一声学模型中的参数，对各个音素特征进行计算，然后获得各个音素特征的输出结果，如果各个音素的输出结果和预设输出结果相同，那么第一声学模型就会被唤醒。

需要说明的是，第一声学模型中的参数，可根据实际需求进行设定、添加和删除等。

S503:确定智能设备未唤醒，以及确定待分析唤醒词非唤醒智能设备的唤醒词。

在执行S503的过程中，如果计算获得的待分析唤醒词的各个音素特征的概率值，满足各个音素特征的概率值小于预设概率值的条件，则智能设备不被唤醒。

例如：计算获得的“开启音箱”中的“开”字声母“k”以及韵母“ai”的概率值分别为2/5和3/5小于预设概率值为4/5，同理，待分析唤醒词中别的字的音素特征概率值小于4/5，则智能设备不被唤醒，从而确定该待分析唤醒词不为唤醒智能设备的唤醒词。

S504:确定在第一声学模型中进行音素特征计算的第一位音素特征，将第一位音素特征作为起始音素特征。

在执行S504的过程中，如果第一声学模型被唤醒，说明该待分析唤醒词可能为唤醒智能设备的唤醒词。但是，为了进一步确认待分析唤醒词为唤醒智能设备的唤醒词，需要确定第一声学模型中进行音素特征计算的第一位音素特征，然后将第一位音素特征作为起始音素特征。当第二声学模型获得中间结果时，可根据起始音素特征，按照先后的计算各个音素特征的概率值。

基于上述本发明实施例公开的一种唤醒方法，本发明实施例还相应公开了一种唤醒装置，如图6示，为本发明实施例还相应公开的一种唤醒装置的结构示意图，包括：获取模块60，第一声学模型61和第二声学模型62。

获取模块60，用于获取待分析唤醒词的音素特征，音素特征包括待分析唤醒词的声韵母。

第一声学模型61，用于对音素特征进行计算，获得中间结果，若中间结果指示第一声学模型被唤醒，确定音素特征中的起始音素特征。

具体的，还用于若中间结果指示经由第一声学模型计算的各个音素特征的输出结果与预设输出结果相同，确定中间结果指示第一声学模型被唤醒，确定在第一声学模型中进行音素特征计算的第一位音素特征，将第一位音素特征作为起始音素特征。

第二声学模型62，用于基于中间结果和起始音素特征，在第二声学模型中计算待分析唤醒词的各个音素特征的概率值，若待分析唤醒词的各个音素特征的概率值大于或等于预设概率值，确定智能设备被唤醒，以及确定待分析唤醒词为唤醒智能设备的唤醒词。

具体的，还用于确定待分析唤醒词的所有音素特征，并在与第一声学模型参数不同的网络层，基于输入的中间结果和声韵母全部音素特征，以确定的起始音素特征为起始，对待分析唤醒词的所有音素特征依次进行计算，获得待分析唤醒词的各个音素特征的概率值。

根据上述本发明实施例公开的唤醒装置可知，获取待分析唤醒词的音素特征，其中，音素特征包括待分析唤醒词的声韵母，在第一声学模型中对音素特征进行计算，获得中间结果，若中间结果指示第一声学模型被唤醒，确定音素特征中的起始音素特征，基于中间结果和起始音素特征，在第二声学模型中计算待分析唤醒词的各个音素特征的概率值，若唤醒词的各个音素特征的概率值大于或等于预设概率值，确定智能设备被唤醒，以及确定待分析唤醒词为唤醒智能设备的唤醒词。降低了对智能设备的误唤醒率，提升了用户对智能设备唤醒的良好体验感。

基于上述本发明实施例公开的唤醒装置，该唤醒装置还包括：退出模块。

退出模块，用于若中间结果指示第一声学模型未被唤醒，退出唤醒。

根据上述本发明实施例公开的唤醒装置可知，若中间结果指示第一声学模型未被唤醒，退出唤醒的操作。等待获取下一个待分析唤醒词的音素特征，节约了计算资源。

本发明实施例还提供一种智能设备，该智能设备包括上述本发明实施例公开的唤醒装置。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种唤醒方法，其特征在于，适用于唤醒装置，所述唤醒装置包括经由多任务学习方式训练确定的第一声学模型和第二声学模型，所述第一声学模型和所述第二声学模型中部分网络层的参数相同，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述中间结果和所述起始音素特征，在所述第二声学模型中计算所述待分析唤醒词的各个音素特征的概率值，包括：

4.根据权利要求1所述的方法，其特征在于，所述若所述中间结果指示所述第一声学模型被唤醒，确定所述音素特征中的起始音素特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.一种唤醒装置，其特征在于，所述唤醒装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述第二声学模型，用于确定所述待分析唤醒词的所有音素特征，并在与所述第一声学模型参数不同的网络层，基于输入的所述中间结果和声韵母全部音素特征，以确定的所述起始音素特征为起始，对所述待分析唤醒词的所有音素特征依次进行计算，获得所述待分析唤醒词的各个音素特征的概率值。

9.根据权利要求6所述的装置，其特征在于，所述第一声学模型，用于若所述中间结果指示经由所述第一声学模型计算的各个音素特征的输出结果与预设输出结果相同，确定所述中间结果指示第一声学模型被唤醒，确定在所述第一声学模型中进行音素特征计算的第一位音素特征，将所述第一位音素特征作为起始音素特征。

10.一种智能设备，其特征在于，所述智能设备包括权利要求6-9中任一项所述的唤醒装置。