CN111081217A

CN111081217A - 一种语音唤醒方法、装置、电子设备及存储介质

Info

Publication number: CN111081217A
Application number: CN201911221563.2A
Authority: CN
Inventors: 柴瑞娥
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-04-28
Anticipated expiration: 2039-12-03
Also published as: CN111081217B

Abstract

本申请公开了一种语音唤醒方法、装置、电子设备及存储介质，用于有效提高语音唤醒的唤醒效率，提升用户的使用体验。所述方法包括：获取到当前进行语音唤醒的瑕疵唤醒词，瑕疵唤醒词为区别于标准普通话语音的唤醒词，然后获取瑕疵唤醒词对应的韵律特征信息，并根据韵律特征信息和预先训练的语料识别模型，确定瑕疵唤醒词对应的标准唤醒词，语料识别模型是根据多个标注了标准语音的瑕疵音样本训练得到的，最后根据标准唤醒词进行语音唤醒。

Description

一种语音唤醒方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音唤醒方法、装置、电子设备及存储介质。

背景技术

随着语音技术的发展，很多智能设备都可以通过语音与用户进行交互。智能设备的语音交互系统通过对用户的语音进行识别，完成用户的指令。在传统的语音交互中，用户通常手动激活语音，比如按下录音键，才可以进行语音交互。为了使用户更加顺畅的切入语音，能够在远程的环境下实现人机交互，语音唤醒功能应运而生。

在与智能设备进行语音交互时，用户首先说唤醒词，唤醒词可以是针对智能设备预先设置的。语音交互系统的唤醒模块对语音进行检测，提取语音特征，确定提取到的语音特征与预设的唤醒词的语音特征是否匹配，如果匹配，就对输入的语音指令进行语音识别与语义分析，进而与针对用户指令执行相应的功能。上述语音唤醒方式中，语音交互系统一般是基于标准普通话模式进行的语音识别，然而，因为不同民族、不同语种、口语不清、方言语种存在差异性，用户在针对智能设备说出非标准普通话模式的唤醒词时，可能会导致设备的唤醒率较低。

发明内容

本申请实施例提供一种语音唤醒方法、装置、电子设备及存储介质，用于提高语音唤醒时的唤醒效率。

第一方面，提供一种语音唤醒方法，所述方法包括：

获取当前进行语音唤醒的瑕疵唤醒词，其中，所述瑕疵唤醒词为区别于标准普通话语音的唤醒词；

获取所述瑕疵唤醒词对应的韵律特征信息；

根据所述韵律特征信息和预先训练的语料识别模型，确定所述瑕疵唤醒词对应的标准唤醒词，其中，所述语料识别模型是根据多个标注了标准语音的瑕疵语音样本训练得到的；

根据所述标准唤醒词进行语音唤醒。

在一种可能的设计中，根据所述韵律特征信息和预先训练的语料识别模型，确定所述瑕疵唤醒词对应的标准唤醒词，包括：

根据所述韵律特征信息，确定方言区域特征信息，其中，所述方言区域特征信息用于表明所述瑕疵唤醒词所属的方言区域；

获得与所述方言区域特征信息对应的方言区域特征向量；

根据所述方言区域特征向量，确定与所述瑕疵唤醒词对应的标准唤醒词。

在一种可能的设计中，根据所述方言区域特征向量，确定与所述瑕疵唤醒词对应的标准唤醒词，包括：

根据所述韵律特征信息，确定在所述瑕疵唤醒词所属的方言区域下的地区方言特征信息，其中，所述地区方言特征信息用于表明所述瑕疵唤醒词在所述方言区域包括的不同地域下的地区方言特性；

获得与所述地区方言特征信息对应的地区方言特征向量；

根据所述地区方言特征向量，确定与所述瑕疵唤醒词对应的标准唤醒词。

在一种可能的设计中，在获取所述瑕疵唤醒词对应的韵律特征信息之前，所述方法还包括：

确定所述瑕疵唤醒词的文字数量属于预设数量范围；或者，

确定所述瑕疵唤醒词的文字数量占唤醒语音的总文字数量的比例大于预定比例阈值，其中，所述唤醒语音为包括所述瑕疵唤醒词的语音。

在一种可能的设计中，所述韵律特征信息包括所述瑕疵唤醒词的音节、音位、重音、声调、语调中的至少一种。

根据所述韵律特征信息和预先训练的语料识别模型，确定所述瑕疵唤醒词包含的文字；

将所述瑕疵唤醒词包含的文字转换为标准普通话模式下的第一目标文本；

将所述第一目标文本确定为所述瑕疵唤醒词对应的标准唤醒词。

根据所述韵律特征信息和预先训练的语料识别模型，确定所述瑕疵唤醒词的唤醒词语义；

确定在所述标准普通话模式具有所述唤醒词语义的第二目标文本；

将所述第二目标文本确定为所述瑕疵唤醒词对应的标准唤醒词。

第二方面，提供一种语音唤醒装置，所述装置包括：

第一获取模块，用于获取当前进行语音唤醒的瑕疵唤醒词，其中，所述瑕疵唤醒词为区别于标准普通话语音的唤醒词；

第二获取模块，用于获取所述瑕疵唤醒词对应的韵律特征信息；

第一确定模块，用于根据所述韵律特征信息和预先训练的语料识别模型，确定所述瑕疵唤醒词对应的标准唤醒词，其中，所述语料识别模型是根据多个标注了标准语音的瑕疵语音样本训练得到的；

唤醒模块，用于根据所述标准唤醒词进行语音唤醒。

在一种可能的设计中，所述第一确定模块，用于：

获得与所述方言区域特征信息对应的方言区域特征向量；

在一种可能的设计中，所述第一确定模块，用于：

获得与所述地区方言特征信息对应的地区方言特征向量；

在一种可能的设计中，所述装置还包括第二确定模块，用于：

在第二获取模块获取所述瑕疵唤醒词对应的韵律特征信息之前，确定所述瑕疵唤醒词的文字数量属于预设数量范围；或者，

在一种可能的设计中，所述第一确定模块，用于：

第三方面，提供一种电子设备，所述电子设备包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行第一方面中的任一方法包括的步骤。

第四方面，提供一种存储介质，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行第一方面中的任一方法包括的步骤。

第五方面，提供一种包含指令的计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行上述各种可能的实现方式中所描述的语音唤醒方法。

在本申请实施例中，在获取到当前进行语音唤醒的瑕疵唤醒词时，就获取该瑕疵唤醒词对应的韵律特征信息，并根据韵律特征信息和预先训练的语料识别模型，确定瑕疵唤醒词对应的标准唤醒词，最后根据标准唤醒词进行语音唤醒。瑕疵唤醒词为区别于标准普通话语音的唤醒词，也可以理解为非标准普通话语音的唤醒词。也就是说，当电子设备检测到用户输入的唤醒词为瑕疵唤醒词时，可以获取该瑕疵唤醒词的韵律特征信息，进而根据韵律特征信息与语料识别模型，将瑕疵唤醒词转换为标准普通话模式下的标准唤醒词，然后电子设备就执行标准唤醒词对应的指令，执行相应的功能，提供了一种有效提高语音唤醒时的唤醒效率的方法，在用户输入的唤醒词存在因为不同民族、不同语种、口音不清、方言语种等差异性语言问题时，电子设备可能无法准确识别用户唤醒词，在将用户的瑕疵唤醒词转换为标准普通话模式下的标准唤醒词之后，电子设备就可以根据标准唤醒词进行语音唤醒，提高了唤醒设备的准确性，从而提升了用户的使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的应用场景的示意图；

图2为本申请实施例提供的语音唤醒方法的流程示意图；

图3a为本申请实施例提供的语音唤醒装置的结构框图；

图3b为本申请实施例提供的语音唤醒装置的另一结构框图；

图4为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个，例如可以是两个、三个或者更多个，本申请实施例不做限制。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

为便于理解本申请实施例提供的技术方案，下面对本申请实施例提供的技术方案使用的应用场景做一些简单的介绍，需要说明的是，以下介绍的应用场景仅用于说明本发明实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

请参见图1所示，图1为本申请实施例的技术方案能够适用的一种应用场景，在该应用场景中，包括多个用户(如用户1和用户2)和多个电子设备(如电子设备1、电子设备2、电子设备3和电子设备4)，电子设备可以是例如手机、电脑或者其它可以通过语音进行语音唤醒的智能家居设备(例如空调、冰箱、智能风扇、加湿器)，等等，本申请实施例不做限制。在本应用场景中，在用户1和用户2可以通过不同的方言对电子设备输入唤醒词，例如用户1通过方言1对电子设备进行语音唤醒，用户2通过方言2对电子设备进行语音唤醒，方言1与方言2属于不同类型的方言。用户通过方言输入唤醒词时，电子设备可能无法识别，或者可能无法准确识别，即识别错误，可以将用户通过方言输入的唤醒词称为是瑕疵唤醒词。电子设备在获取到用户输入的瑕疵唤醒词后，获取瑕疵唤醒词的韵律特征信息，然后根据韵律特征信息和预先训练的语料识别模型，确定对应于瑕疵唤醒词的标准唤醒词，进而电子设备对获得的标准唤醒词进行相应的应答，执行相应的功能。需要说明的是，本应用场景中的用户1和用户2可进行语音唤醒的电子设备的种类和数目是一样的，但在具体的实施方式中，不同用户可以对不同的电子设备进行语音唤醒，对于进行语音唤醒的电子设备的种类和数目，本申请实施例不做限制。

下面结合说明书附图介绍本申请实施例提供的技术方案。

请参见图2，图2为本申请实施例提供的一种语音唤醒方法，该方法可以由前述图1中所示应用场景中的任一电子设备执行，在具体实施过程中，该电子设备例如可以是手机、平板、电脑或其它可以进行语音唤醒的智能家居设备(例如空调、冰箱、智能风扇、加湿器)。图2中语音唤醒方法的流程描述如下。

步骤201：获取当前进行语音唤醒的瑕疵唤醒词。

其中，唤醒词指的是用户用于对电子设备进行语音唤醒的唤醒指令，也可以直接理解为是用户通过语音使得电子设备进行解锁的解锁词。例如可以是手机在锁定状态下用户用于解锁手机的解锁词，或者在用户想要开启空调输入“打开空调”的唤醒词，等等。瑕疵唤醒词为区别于标准普通话的唤醒词，因为不同语种、不同民族、口音不清、方言语重等语言差异性，可能造成同一文字内容的唤醒词有不同的语言版本，当用户输入的唤醒词为非标准普通话的唤醒词时，就可以将该唤醒词称为是瑕疵唤醒词。

在一般情况下，用户与电子设备进行语音交互时，是通过标准普通话模式的语音进行的，所以当用户通过不同民族、不同语种的方言对电子设备进行唤醒时，电子设备可能直接无法识别用户输入的唤醒词，进而不进行任何响应，或者无法正确识别，进行了错误的响应。例如，用户通过东北方言对手机输入“开机”的唤醒词时，手机可能直接无法识别用户输入的唤醒词，进而不执行任何的功能；或者，手机将用户输入的“开机”唤醒词识别为“关机”唤醒词，也就是说，识别错误，进而将手机进行关机处处理。此时，就可以将用户用东北方言输入的“开机”唤醒词理解为是瑕疵唤醒词。

在具体的实施过程中，用户针对电子设备输入唤醒词时，该唤醒词可以是用户说的标准普通话的唤醒词，那么此时电子设备就直接根据用户输入的唤醒词进行语音唤醒；或者，该唤醒词为瑕疵唤醒词，那么就需要确定出对应于该瑕疵唤醒词的标准唤醒词，进而电子设备根据标准唤醒词进行语音唤醒。

在本申请实施例中，在用户输入不同方言、不同语种的唤醒词时，都可以将其转换为标准普通话模式的唤醒词，进而控制电子设备执行相应的功能，增加了电子设备的智能性，也提高了语音唤醒电子设备的有效性。

步骤202：获取瑕疵唤醒词的韵律特征信息。

其中，韵律特征信息即为韵律学特征信息，或者可以理解为是超语音学特征，韵律特征信息可以包括瑕疵唤醒词的音节、音位、重音、声调、语调等超音段特征，在具体的实施过程中，韵律学特征信息还可以是其它一些相关的超音段特征，对于韵律学特征信息的种类和数量，本申请实施例不做限制。

在具体的实施过程中，在获取瑕疵唤醒词的韵律特征信息之前，可以先对瑕疵唤醒词进行一定的限定。在一般情况下，用户在针对电子设备说唤醒词的时候，如果唤醒词过长时，用户记忆起来比较困难，在用户进行语音唤醒时容易出现错误，不能有效唤醒电子设备，而唤醒词过短时，则会导致误唤醒率较高，而且安全性不够高，所以，唤醒词的文字数量不会太多，也不会太少。

在一种可能的实施方式中，电子设备在检测到用户说的瑕疵唤醒词时，可以先判断该瑕疵唤醒词包含的文字数量，在该文字数量属于预设数量范围时，才获取该瑕疵唤醒词的韵律特征信息，进而确定对应的标准唤醒词进行语音唤醒。预设数量范围可以根据具体的实际情况进行确定，例如可以实现将预设数量范围限定为大于3，小于或者等于10，例如手机检测到用户用输入的瑕疵唤醒词为“开机”，那么此时的唤醒词文字数量不满足预设数量范围，手机就认为用户不是真的需要进行唤醒，进而就不对瑕疵唤醒词进行响应处理，或者手机检测到用户输入的瑕疵唤醒词为“打开手机”，此时满足预设数量范围，就提取该瑕疵唤醒词的韵律特征信息。通过确定瑕疵唤醒词的文字数量来确定是否获取瑕疵唤醒词的韵律特征信息，提高了唤醒设备准确性。

在另一种可能的实施方式中，电子设备在检测到用户输入的瑕疵唤醒词时，可以先确定一下检测到的瑕疵唤醒词在用户输入的唤醒语音中的总文字数量的比例，如果该比例大于预设比例阈值，那么就获取针对瑕疵唤醒词的韵律特征信息，如果该比例小于或者等于预设阈值，那么就可以认为用户只是讲话的时候说出了带有瑕疵唤醒词的语音，但是并没有真的想要通过瑕疵唤醒词唤醒设备，此时就可以不用获取针对瑕疵唤醒词的韵律特征信息。预设比例可以是预先按照用户的实际使用需求进行设定的，例如可以是85％。通过瑕疵唤醒词在用户输入的唤醒语音中的比例，确定用户是否真的需要唤醒设备，进而提高了唤醒设备的准确性。

步骤203：根据韵律特征信息和预先训练的语料识别模型，确定瑕疵唤醒词对应的标准唤醒词。

其中，语料识别模型是是根据多个标注了标准语音的瑕疵语音样本训练得到的语料识别库，在通过本方法进行语音唤醒之前，可以采集很多瑕疵语音样本进行训练，以获得语料识别模型，采集样本时需要采集各种民族、各种方言、各种口音的瑕疵语音样本，以确保在进行语音唤醒的时候，可以准确确定用户输入的瑕疵唤醒词属于哪一个特定地区的方言，以及是哪一种民族的方言。在获取到很多瑕疵语音样本之后，可以对这些瑕疵语音样本进行标注，标注对应于瑕疵语音样本的标准语音，标准语音即为标准普通话模式下的语音，然后就可以利用谱(例如梅尔频率倒谱系数)的相关性分析特征，提取出瑕疵语音的韵律音色特征，进而形成对应于不同方言的训练子模型，很多训练子模型就可以组成语料识别模型。

在训练模型时，例如可以根据方言的近似性，将方言种类划分为很多个方言区域。例如，云南、四川、贵州的方言比较相似，可以将这三个省份的方言划分为一个方言区域，将东北三省，黑龙江省、吉林省和辽宁省划分为一个方言区域，等等。或者也可以针对每个省份分别划分不同的方言区域，对于训练模型时，划分方言区域的方式，本申请实施例不做限制。进一步地，可以将每个方言区域再细分为多个地区方言，例如，四川省很多地区的方言也存在一定的差异，那就针对每个地区划分一个地区方言，例如，可以将四川省下的地区方言划分为眉山方言、内江方言、乐山方言，等等，也就是说，可以根据地区数量划分等量的地区方言，在实际的训练模型过程中，也可以通过其它一些划分方式划分地区方言，本申请实施例不做限制。

在一种可能的实施方式中，在获取到用户输入的瑕疵唤醒词的韵律特征信息时，可以先确定该瑕疵唤醒的方言区域特征信息，方言区域特征信息用于表明该瑕疵唤醒词所述的方言区域，方言区域特征信息例如可以是针对该方言区域的音色、响度、音调等可以识别出瑕疵唤醒词属于该方言区域的语音特征信息，进而获取与该方言区域特征信息对应的方言区域特征向量，然后根据获得的方言区域特征向量，确定与瑕疵唤醒词对应的标准唤醒词。

以将云南、四川、贵州划分为一个方言区域为例，例如将该方言区域成为是云贵川方言区域，例如用户用四川方言对空调输入“将空调开到26度”的唤醒词，该唤醒词即可以理解为是瑕疵唤醒词，先获取该瑕疵唤醒词的韵律特征信息，然后根据韵律特征信息确定出该瑕疵唤醒词的方言区域特征向量，进而根据该方言区域特征向量确定当前的瑕疵唤醒词属于云贵川方言区域，那么就可以根据云贵川的语音知识确定出对应于该瑕疵唤醒词的标准唤醒词。

在本申请实施例中，可以先识别出瑕疵唤醒词属于的方言区域，因为，很多临近的省份方言会有有些相似的地方，所以根据这种方法可以先确定瑕疵唤醒词可能属于的大致区域，先做一个粗略的确定，在确定方言区域之后，根据方言区域确定标准唤醒词，可以一定程度上提高语音唤醒的准确性。

在一种可能的实施方式中，确定出瑕疵唤醒属于哪一个方言区域后，还可以进一步细粒度的确定出瑕疵唤醒词属于哪一种地区方言。在获取到用户输入的瑕疵唤醒词的韵律特征信息后，可以根据该韵律特征信息确定出获取地区方言特征信息，地区方言特征信息用于表明瑕疵唤醒词在方言区域包括的不同地域下的地区方言特征，然后获得与确定出的地区方言对应的地区方言特征向量，根据该地区方言特征向量确定出该瑕疵唤醒词为方言区域中的具体地区方言，进而根据地区方言特征向量确定与瑕疵唤醒词对应的标准唤醒词。需要说明的是，地区方言是包括在前述的方言区域之内的，也就是说，每个方言区域对应包含有很多中不同的地区方言，例如四川省的方言可以按地区划分为眉山方言、乐山方言、内江方言，等等。

以前述的将云南、四川、贵州划分为一个方言区域为例，例如将该方言区域成为是云贵川方言区域，例如用户用四川乐山方言对空调输入“将空调开到26度”的唤醒词，该唤醒词即可以理解为是瑕疵唤醒词，先获取该瑕疵唤醒词的韵律特征信息，然后根据韵律特征信息确定出该瑕疵唤醒词的方言区域特征向量，进而根据方言区域特征向量确定当前的瑕疵唤醒词属于云贵川方言区域，然后再根据地区方言特性确定其地区方言特征向量，进而根据该地区方言特征向量确定出该瑕疵唤醒词为云贵川方言区域中的乐山地区方言。

在本申请实施例中，可以在确定出瑕疵唤醒词属于的方言区域之后，再细粒度地确定出瑕疵唤醒词具体属于哪一地区的方言，进而根据地区方言确定对应于瑕疵唤醒词的标准唤醒词，不仅可以确定出用户输入的瑕疵唤醒词时哪一个大范围区域(例如是云贵川方言区域)的方言，还可以确定出更具体的小范围地区方言(例如是四川乐山方言)，比在确定方言区域后就确定标准唤醒词具备更高的准确性。

对应于瑕疵唤醒词的标准唤醒词指的是将瑕疵唤醒词转换为标准普通话模式下的唤醒词，一般情况下，电子设备可以对标准唤醒词直接进行识别，并根据识别结果执行相应的功能的唤醒词，所以，当瑕疵唤醒词转换为标准唤醒词时，表明电子设备可以较为准确的根据用户指令执行相应的功能。在本申请实施例中，例如通过以下两种确定方法确定瑕疵唤醒词对应的标准唤醒词。

第一种确定条件

以前述图1所述的应用场景为例，确定瑕疵唤醒词对应的标准唤醒词，可以直接是文字字面上的确定，可以根据韵律特征信息和预先训练的语料识别模型，确定出当前瑕疵唤醒词包含的文字，进而直接将瑕疵唤醒词包含的文字转换为标准唤醒词，例如，用户1用自己家乡的方言对电子设备输入唤醒词，此时，用户用方言说出的唤醒词即可以理解为是瑕疵唤醒词，电子设备在检测到该瑕疵唤醒词时，确定该瑕疵唤醒词的方言区域，即确定用户1的方言大致是属于那个大范围区域内的方言，然后再根据确定出的方言区域进一步确定出瑕疵唤醒词属于哪一种地区方言，然后根据地区方言的方言内容，确定用户1说的方言对应于标准普通话模式下的文字，然后直接将瑕疵唤醒词包含的文字转换为普通话模式下的普通话文字，例如可以将该普通话文字称为是第一目标文本，在转换完成后，就可以将第一目标文本确定为当前瑕疵唤醒词对应的标准唤醒词，电子设备就根据转换到的标准唤醒词执行相应的用户指令。

例如用户1在用手机看小说，在看完一页后，用户用自己家乡的方言对手机说“请翻页”的瑕疵唤醒词，确定用户1说出的瑕疵唤醒词包含的文字为“请翻页”时，该“请翻页”的文字即为第一目标文本，然后就可以直接将瑕疵唤醒词转换为普通话模式下的“请翻页”，那么手机就根据标准普通话“请翻页”执行相应的功能，将小说翻转到下一页。

在本申请实施例中，是直接将瑕疵唤醒词包含的文字转换为标准普通话模式下的文字，这样电子设备就可以根据转换后的标准普通话指令执行相应的功能，可以确保唤醒电子设备的准确性，也可以使得电子设备对用户指令进行快速反应，提高了电子设备的唤醒率。

第二种确定条件

还是以前述图1所述的应用场景为例，确定瑕疵唤醒词对应的标准唤醒词，也可以是唤醒词语义之间的转换，可以根据韵律特征信息和预先训练的语料识别模型，确定出当前瑕疵唤醒词的语义，进而根据瑕疵唤醒词的语义将瑕疵唤醒词转换为标准唤醒词。

在一般情况下，每个民族的可能有一些自己民族的专有方言，也就是说，有一些方言，在标准普通话模式下可能是没有对应的文字的，例如维吾尔族语言、傈僳族语言、彝族语言、拉祜族语言等，很多少数民族都在使用自己民族的专有语言，这些专有语言中有很多语言文字是自己民族特有的，在这种情况下，就不能通过文字转换为文字的方法将瑕疵唤醒词转换为标准普通话模式下的文字，那么就可以根据语义来进行转换，先确定瑕疵唤醒词的语义，进而确定出标准普通话模式下具有该唤醒词语义的唤醒词，例如可以将该具有该唤醒词语义的唤醒词称为是第二目标文本，在转换完成后，就可以将第二目标文本确定为当前瑕疵唤醒词对应的标准唤醒词，电子设备就根据转换到的标准唤醒词执行相应的用户指令。

例如，用户2属于少数民族傈僳族，他在使用时候时，可能觉得手机的屏幕亮度太暗了，那么用户2就使用自己民族的语音说出语义大致为屏幕亮度太低的唤醒词，手机在检测到用户2输入的瑕疵唤醒词之后，先确定该瑕疵唤醒词是傈僳族方言，然后根据傈僳族的方言内容，确定出用户2输出的瑕疵唤醒词语义为屏幕亮度太暗，然后根据确定出的语义将瑕疵唤醒词转换为“将屏幕亮度调高”，“将屏幕亮度调高”即为第二目标文本，也即为对应于瑕疵唤醒词的标准唤醒词，然后手机就根据标准唤醒词执行相应的功能，将手机屏幕的亮度适当调高。

在本申请实施例中，是通过语义转换的方式将瑕疵唤醒词转换为语义相同的标准普通话唤醒词，这样，针对不同少数民族的特有方言，也可以将其转换为语义相近的唤醒词，进而唤醒电子设备，提高了对电子设备进行唤醒的方法的灵活性，也能提高电子设备对用户唤醒词的唤醒效率。

步骤204：根据标准唤醒词进行语音唤醒。

在一种可能的实施方式中，当把用户输入的瑕疵唤醒词转换为标准唤醒词后，电子设备就可以根据标准唤醒词进行语音唤醒，进而执行相应的功能，例如，当标准唤醒词为“将空调温度开到26度”，空调在检测到标准唤醒词时，可能处于工作的状态下，也可能处于未开机的状态下，如果处于工作状态下，那就调整温度的工作参数，将温度调整为26度，如果处于未开机的状态下，就进行开启后将温度调整到26度。

在本申请实施例中，当电子设备检测到用户输入的唤醒词为瑕疵唤醒词时，可以提取该瑕疵唤醒词的韵律特征信息，进而根据韵律特征信息和语料识别模型，确定出用户输入的瑕疵唤醒词对应的标准普通话模式下的标准唤醒词，进而电子设备就执行标准唤醒词对应的相关指令，执行相应的功能，提供了一种有效提高语音唤醒时的唤醒效率率的方法，解决了在用户输入的唤醒词存在因为不同民族、不同语种、口音不清、方言语种等差异性语言问题时，无法识别用户的唤醒词，或者无法准确识别用户的唤醒词的问题，提升用户的使用体验。

基于同一发明构思，本申请实施例提供了一种语音唤醒装置，该语音唤醒装置能够实现前述的语音唤醒方法对应的功能。该语音唤醒装置可以是硬件结构、软件模块、或者硬件结构加软件模块。该语音唤醒装置可以由芯片系统实现，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。请参见图3a所示，该语音唤醒装置包括第一获取模块301、第二获取模块302、第一确定模块303，和唤醒模块304。其中：

第一获取模块301，用于获取当前进行语音唤醒的瑕疵唤醒词，其中，瑕疵唤醒词为区别于标准普通话语音的唤醒词；

第二获取模块302，用于获取瑕疵唤醒词对应的韵律特征信息；

第一确定模块303，用于根据韵律特征信息和预先训练的语料识别模型，确定瑕疵唤醒词对应的标准唤醒词，其中，语料识别模型是根据多个标注了标准语音的瑕疵语音样本训练得到的；

唤醒模块304，用于根据标准唤醒词进行语音唤醒。

在一种可能的实施方式中，第一确定模块301，用于：

根据韵律特征信息，确定方言区域特征信息，其中，方言区域特征信息用于表明瑕疵唤醒词所属的方言区域；

获得与方言区域特征信息对应的方言区域特征向量；

根据方言区域特征向量，确定与瑕疵唤醒词对应的标准唤醒词。

在一种可能的实施方式中，第一确定模块301，用于：

根据韵律特征信息，确定在瑕疵唤醒词所属的方言区域下的地区方言特征信息，其中，地区方言特征信息用于表明瑕疵唤醒词在方言区域包括的不同地域下的地区方言特性；

获得与地区方言特征信息对应的地区方言特征向量；

根据地区方言特征向量，确定与瑕疵唤醒词对应的标准唤醒词。

在一种可能的实施方式中，请参见图3b所示，本申请实施例中的语音唤醒装置还包括第二确定模块305，用于：

在第二获取模块303获取瑕疵唤醒词对应的韵律特征信息之前，确定瑕疵唤醒词的文字数量属于预定数量范围；或者，

确定瑕疵唤醒词的文字数量占唤醒语音的总文字数量的比例大于预定比例阈值，其中，唤醒语音为包括瑕疵唤醒词的语音。

在一种可能的实施方式中，韵律特征信息包括瑕疵唤醒词的音节、音位、重音、声调、语调中的至少一种。

在一种可能的实施方式中，第一确定模块303，用于：

根据韵律特征信息和预先训练的语料识别模型，确定瑕疵唤醒词包含的文字；

将瑕疵唤醒词包含的文字转换为标准普通话模式下的第一目标文本；

将第一目标文本确定为瑕疵唤醒词对应的标准唤醒词。

在一种可能的实施方式中，第一确定模块303，用于：

根据韵律特征信息和预先训练的语料识别模型，确定瑕疵唤醒词的唤醒词语义；

确定在标准普通话模式具有唤醒词语义的第二目标文本；

将第二目标文本确定为瑕疵唤醒词对应的标准唤醒词。

前述的语音唤醒方法的实施例涉及的各步骤的所有相关内容均可援引到本申请施例中的语音唤醒装置所对应的功能模块的功能描述，在此不再赘述。

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

基于同一发明构思，本申请实施例提供一种电子设备。请参见图4所示，该电子设备包括至少一个处理器401，以及与至少一个处理器连接的存储器402，本申请实施例中不限定处理器401与存储器402之间的具体连接介质，图4中是以处理器401和存储器402之间通过总线400连接为例，总线400在图4中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线400可以分为地址总线、数据总线、控制总线等，为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本申请实施例中的电子设备还可以包括通信接口403，该通信接口403例如是网口，电子设备可以通过该通信接口403接收数据或者发送数据。

在本申请实施例中，存储器402存储有可被至少一个处理器401执行的指令，至少一个处理器401通过执行存储器402存储的指令，可以执行前述的语音唤醒方法中所包括的步骤。

其中，处理器401是电子设备的控制中心，可以利用各种接口和线路连接整个设备的各个部分，通过运行或执行存储在存储器402内的指令以及调用存储在存储器402内的数据，电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理单元，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。在一些实施例中，处理器401和存储器402可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器401可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的语音唤醒方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器402可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器402还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

通过对处理器401进行设计编程，可以将前述实施例中介绍的语音唤醒方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行前述的语音唤醒方法的步骤，如何对处理器401进行设计编程为本领域技术人员所公知的技术，这里不再赘述。

基于同一发明构思，本申请实施例还提供一种存储介质，该存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行如前述的语音唤醒方法的步骤。

在一些可能的实施方式中，本申请提供的语音唤醒方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使该电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的语音唤醒方法中的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音唤醒方法，其特征在于，所述方法包括：

获取所述瑕疵唤醒词对应的韵律特征信息；

根据所述标准唤醒词进行语音唤醒。

2.如权利要求1所述的方法，其特征在于，根据所述韵律特征信息和预先训练的语料识别模型，确定所述瑕疵唤醒词对应的标准唤醒词，包括：

获得与所述方言区域特征信息对应的方言区域特征向量；

3.如权利要求2所述的方法，其特征在于，根据所述方言区域特征向量，确定与所述瑕疵唤醒词对应的标准唤醒词，包括：

获得与所述地区方言特征信息对应的地区方言特征向量；

4.如权利要求1所述的方法，其特征在于，在获取所述瑕疵唤醒词对应的韵律特征信息之前，所述方法还包括：

确定所述瑕疵唤醒词的文字数量属于预设数量范围；或者，

确定所述瑕疵唤醒词的文字数量占唤醒语音的总文字数量的比例大于预设比例阈值，其中，所述唤醒语音为包括所述瑕疵唤醒词的语音。

5.如权利要求1所述的方法，其特征在于，所述韵律特征信息包括所述瑕疵唤醒词的音节、音位、重音、声调、语调中的至少一种。

6.如权利要求1-5任一所述的方法，其特征在于，根据所述韵律特征信息和预先训练的语料识别模型，确定所述瑕疵唤醒词对应的标准唤醒词，包括：

7.如权利要求1-5任一所述的方法，其特征在于，根据所述韵律特征信息和预先训练的语料识别模型，确定所述瑕疵唤醒词对应的标准唤醒词，包括：

8.一种语音唤醒装置，其特征在于，所述装置包括：

唤醒模块，用于根据所述标准唤醒词进行语音唤醒。

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行权利要求1-7任一所述的方法包括的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1-7任一所述的方法包括的步骤。