CN110473542A

CN110473542A - 语音指令执行功能的唤醒方法、装置及电子设备

Info

Publication number: CN110473542A
Application number: CN201910843399.2A
Authority: CN
Inventors: 杜国威
Original assignee: Beijing Anyun Century Technology Co Ltd
Current assignee: Beijing Anyun Century Technology Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-11-19
Anticipated expiration: 2039-09-06
Also published as: CN110473542B

Abstract

本发明公开了一种语音指令执行功能的唤醒方法，包括：获取声源对象发出的语音信息；使用模型对语音信息进行分析，在确定语音信息中具有唤醒词的情况下，根据语音信息的音量变化趋势是否为预设变化趋势，确定声源对象发出语音信息的行为是否为唤醒行为；当声源对象发出语音信息的行为是唤醒行为时，唤醒电子设备的语音指令执行功能。本发明还公开了一种语音指令执行功能的唤醒装置及电子设备。

Description

语音指令执行功能的唤醒方法、装置及电子设备

技术领域

本发明涉及智能电子设备技术领域，尤其涉及一种语音指令执行功能的唤醒方法、装置及电子设备。

背景技术

随着人工智能的快速发展，智能音箱、智能语音识别机器人等语音智能设备不断涌现，并且由于语音智能设备能够智能识别用户的语音指令，无需手动操作，极大的方便了用户对电子设备的控制，智能语音识别技术得到极大的发展。通常，电子设备在执行语音指令之前均处于休眠状态，需要通过用户发出的唤醒指令对电子设备的语音指令执行功能进行唤醒。

相关技术中，对电子设备的语音指令执行功能进行唤醒通常有两种方式，一种是通过增加外设按钮，按键激活电子设备；另一种是通过唤醒词来唤醒电子设备。

但是，相关技术中通过唤醒词对电子设备的语音指令执行功能进行唤醒时，容易被环境音干扰，从而发生误唤醒的问题。

发明内容

有鉴于此，本发明提供了一种语音指令执行功能的唤醒方法、装置电子设备及存储介质，以解决相关技术中唤醒词对电子设备的语音指令执行功能进行唤醒时，容易出现误唤醒的问题。

为实现上述发明目的，根据本发明的第一个方面，提供了一种语音指令执行功能的唤醒方法，包括：

获取声源对象发出的语音信息；

使用模型对所述语音信息进行分析，在确定所述语音信息中具有唤醒词的情况下，根据所述语音信息的音量变化趋势是否为预设变化趋势，确定所述声源对象发出所述语音信息的行为是否为唤醒行为；

当所述声源对象发出所述语音信息的行为是所述唤醒行为时，唤醒电子设备的语音指令执行功能。

在一种可选方式中，在所述使用模型对所述语音信息进行分析之前，所述方法还包括：

使用多组语音数据进行训练，获取所述模型，所述多组语音数据中的每组语音数据均包括：所述声源对象发出的语音信息和标识所述语音信息的音量变化趋势的第一标签。

在一种可选方式中，所述多组语音数据中的每组语音数据还包括：标识所述语音信息中唤醒词音节的第二标签。

在一种可选方式中，所述使用模型对所述语音信息进行分析，包括：

使用所述模型对所述语音信息的音节进行分析；

当所述语音信息的音节中具有所述唤醒词音节时，确定所述语音信息中具有所述唤醒词。

在一种可选方式中，所述多组语音数据中的每组语音数据还包括：在所述语音信息唤醒所述电子设备的语音指令执行功能时，标识发出所述语音信息的所述声源对象的位置的第三标签。

在一种可选方式中，在所述获取声源对象发出的语音信息之后，所述方法还包括：

获取所述声源对象发出所述语音信息的位置；

所述使用模型对所述语音信息进行分析，在确定所述语音信息中具有唤醒词的情况下，根据所述语音信息的音量变化趋势是否为预设变化趋势，确定所述声源对象发出所述语音信息的行为是否为唤醒行为，包括：

在确定所述语音信息中具有唤醒词的情况下，确定所述语音信息的音量变化趋势是否为预设变化趋势，以及所述声源对象发出所述语音信息的位置是否为唤醒位置；

当所述语音信息的音量变化趋势为所述预设变化趋势且所述位置为所述唤醒位置时，确定声源对象发出所述语音信息的行为为所述唤醒行为。

在一种可选方式中，所述多组语音数据中的每组语音数据还包括：在所述语音信息唤醒所述电子设备的语音指令执行功能时，标识发出所述语音信息的时间的第四标签。

获取所述声源对象发出语音信息的时间；

在确定所述语音信息中具有唤醒词的情况下，确定所述语音信息的音量变化趋势是否为预设变化趋势，以及所述声源对象发出所述语音信息的时间是否为唤醒时间；

当所述语音信息的音量变化趋势为所述预设变化趋势且所述时间为所述唤醒时间时，确定声源对象发出所述语音信息的行为为所述唤醒行为。

提取所述语音信息的音节以及所述语音信息的音量变化趋势；

上传请求，所述请求包括：所述语音信息的音节和所述语音信息的音量变化趋势；用于请求云端设备根据所述语音信息的音节确定所述语音信息中是否具有所述唤醒词，并根据所述语音信息的音量变化趋势确定所述声源对象发出所述语音信息的行为是否为所述唤醒行为；

接收所述云端设备发送的响应指示，所述响应指示为所述语音信息中是否具有所述唤醒词和所述行为是否为唤醒行为。

根据本发明第二个方面，提供了一种语音指令执行功能的唤醒装置，包括：

获取模块，用于获取声源对象发出的语音信息；

确定模块，用于使用模型对所述语音信息进行分析，在确定所述语音信息中具有唤醒词的情况下，根据所述语音信息的音量变化趋势是否为预设变化趋势，确定所述声源对象发出所述语音信息的行为是否为唤醒行为；

唤醒模块，用于当所述声源对象发出所述语音信息的行为是所述唤醒行为时，唤醒电子设备的语音指令执行功能。

在一种可选方式中，所述装置还包括：

训练模块，用于在所述使用模型对所述语音信息进行分析之前，使用多组语音数据进行训练，获取所述模型，所述多组语音数据中的每组语音数据均包括：所述声源对象发出的语音信息和标识所述语音信息的音量变化趋势的第一标签。

在一种可选方式中，所述确定模块，还用于使用所述模型对所述语音信息的音节进行分析；

所述确定模块，还用于当所述语音信息的音节中具有所述唤醒词音节时，确定所述语音信息中具有所述唤醒词。

在一种可选方式中，所述获取模块，还用于在所述获取声源对象发出的语音信息之后，获取所述声源对象发出所述语音信息的位置；

所述确定模块，还用于在确定所述语音信息中具有唤醒词的情况下，确定所述语音信息的音量变化趋势是否为预设变化趋势，以及所述声源对象发出所述语音信息的位置是否为唤醒位置；

所述确定模块，还用于当所述语音信息的音量变化趋势为所述预设变化趋势且所述位置为所述唤醒位置时，确定声源对象发出所述语音信息的行为为所述唤醒行为。

在一种可选方式中，所述获取模块，还用于在所述获取声源对象发出的语音信息之后，获取所述声源对象发出语音信息的时间；

所述确定模块，还用于在确定所述语音信息中具有唤醒词的情况下，确定所述语音信息的音量变化趋势是否为预设变化趋势，以及所述声源对象发出所述语音信息的时间是否为唤醒时间；

所述确定模块，还用于当所述语音信息的音量变化趋势为所述预设变化趋势且所述时间为所述唤醒时间时，确定声源对象发出所述语音信息的行为为所述唤醒行为。

在一种可选方式中，所述装置还包括：

提取模块，用于在所述使用模型对所述语音信息进行分析之前，提取所述语音信息的音节以及所述语音信息的音量变化趋势；

上传模块，用于上传请求，所述请求包括：所述语音信息的音节和所述语音信息的音量变化趋势；用于请求云端设备根据所述语音信息的音节确定所述语音信息中是否具有所述唤醒词，并根据所述语音信息的音量变化趋势确定所述声源对象发出所述语音信息的行为是否为所述唤醒行为；

接收模块，用于接收所述云端设备发送的响应指示，所述响应指示为所述语音信息中是否具有所述唤醒词和所述行为是否为唤醒行为。

根据本发明第三个方面，提供了一种电子设备，包括存储器、处理器和通讯总线；

所述存储器与所述处理器通过所述通讯总线通讯连接；

所述存储器中存储有计算机可执行指令，所述处理器用于执行所述计算机可执行指令，用于实现本发明第一个方面任一可选方式提供的方法。

根据本发明第四个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被执行时，用于实现本发明第一个方面任一可选方式提供的方法。

本发明提供的一种语音指令执行功能的唤醒方法、装置电子设备及存储介质；其中，语音指令执行功能的唤醒方法，包括：获取声源对象发出的语音信息；使用模型对语音信息进行分析，在确定语音信息中具有唤醒词的情况下，根据语音信息的音量变化趋势是否为预设变化趋势，确定声源对象发出语音信息的行为是否为唤醒行为；当声源对象发出语音信息的行为是唤醒行为时，唤醒电子设备的语音指令执行功能。如此，通过模型对声源对象发出的语音信息进行分析，在确定语音信息中具有唤醒词的情况下，进一步分析语音信息的音量变化趋势，根据语音信息的音量变化趋势，确定声源对象发出语音信息的行为，当声源对象发出的语音信息的行为是唤醒行为时，才唤醒电子设备的语音指令执行功能，避免了因环境音中存在唤醒词的情况下对电子设备的语音指令执行功能进行误唤醒的情况；提高了对电子设备的语音指令执行功能唤醒的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。

图1是本申请一实施例提供的语音指令执行功能的唤醒方法的实现流程图；

图2是本申请另一实施例提供的语音指令执行功能的唤醒方法的实现流程图；

图3A是本申请实施例提供的语音指令执行功能的唤醒方法的一种具体应用场景示意图；

图3B是本申请实施例提供的语音指令执行功能的唤醒方法的另一种具体应用场景示意图；

图4是本申请一实施例提供的语音指令执行功能的唤醒装置的结构示意图；

图5是本申请一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

在本申请实施例的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

图1是本申请一实施例提供的语音指令执行功能的唤醒方法的实现流程图。

参照图1所示，本申请一实施例提供的语音指令执行功能的唤醒方法，该唤醒方法应用于电子设备，其中，电子设备可以是智能音箱、智能移动终端、智能家居，例如智能空调、智能冰箱、智能洗衣机等智能设备；在一些实施方式中，电子设备还可以是其他诸如智能电饭煲等电器设备，本申请实施例对此不作具体限定。该唤醒方法，包括以下步骤：

步骤101，获取声源对象发出的语音信息。

本实施方式中，声源对象具体可以是电子设备的使用用户，语音信息可以是使用用户发出的任意一条语音信息；可以是针对电子设备发出的语音信息，也可以是用户与环境中其他对象对话的语音信息。

步骤102，使用模型对语音信息进行分析，在确定语音信息中具有唤醒词的情况下，根据语音信息的音量变化趋势是否为预设变化趋势，确定声源对象发出语音信息的行为是否为唤醒行为。

本实施方式中，模型可以是通过机器学习训练得出的模型，模型至少包括有唤醒电子设备语音指令执行功能的唤醒词。具体的，使用模型对语音信息进行分析，可以是使用模型对语音信息中的词汇进行分析，确定语音信息中是否包含唤醒词。在一些可能的实施方式中，唤醒词具体可以是“小爱同学”、“天猫精灵”、“若琪”、“Siri”等唤醒词。在一些可选的方式中，唤醒词还可以是用户根据实际需要自行设置的唤醒词，例如对亲属的昵称等，以上仅为对唤醒词的举例说明，并非对唤醒词的具体形式进行限定。具体的，本实施方式中，确定语音信息中是否具有唤醒词可以是使用模型对获取到的语音信息进行分析，从而确定是否具有唤醒词的。具体的，在具体应用场景中，电子设备的麦克风阵列能够获取到的声源对象发出的语音信息的音量可能存在多种情况，通常声源对象(例如用户)发出语音信息的音量都是平稳的，音量波动较小，从而电子设备可以根据麦克风阵列能够获取到的语音信息的音量变化的情况，利用建立的模型分析用户发出语音信息的行为是否为唤醒电子设备的语音指令执行功能的行为。通常，电子设备的麦克风阵列能够获取到的语音信息的音量的变化趋势可以包括以下几种：音量逐渐增强、音量逐渐减弱或者音量平稳不变。如此，通过对电子设备的麦克风阵列能够获取到的语音信息的音量变化趋势的分析，从而能够准确确定声源对象发出语音信息的行为是否为唤醒行为，其中，唤醒行为具体可以是唤醒电子设备的语音指令执行功能的行为。

步骤103，当声源对象发出语音信息的行为是唤醒行为时，唤醒电子设备的语音指令执行功能。

本实施方式中，唤醒电子设备的语音指令执行功能后，电子设备能够响应于声源对象的语音指令从而执行各种动作。

本申请提供的语音指令执行功能的唤醒方法，包括：获取声源对象发出的语音信息；使用模型对语音信息进行分析，在确定语音信息中具有唤醒词的情况下，根据语音信息的音量变化趋势是否为预设变化趋势，确定声源对象发出语音信息的行为是否为唤醒行为；当声源对象发出语音信息的行为是唤醒行为时，唤醒电子设备的语音指令执行功能。如此，通过模型对声源对象发出的语音信息进行分析，在确定语音信息中具有唤醒词的情况下，进一步分析语音信息的音量变化趋势，根据语音信息的音量变化趋势，确定声源对象发出语音信息的行为，当声源对象发出的语音信息的行为是唤醒行为时，才唤醒电子设备的语音指令执行功能，避免了因环境音中存在唤醒词的情况下对电子设备的语音指令执行功能进行误唤醒的情况；提高了对电子设备的语音指令执行功能唤醒的准确性。

图2是本申请另一实施例提供的语音指令执行功能的唤醒方法的实现流程图；图3A是本申请实施例提供的语音指令执行功能的唤醒方法的一种具体应用场景示意图；图3B是本申请实施例提供的语音指令执行功能的唤醒方法的另一种具体应用场景示意图。

基于前述实施例，参照图2所示，本申请另一实施例提供的语音指令执行功能的唤醒方法，包括以下步骤：

步骤201，获取声源对象发出的语音信息。

步骤202，使用多组语音数据进行训练，获取模型。

其中，多组语音数据中的每组语音数据均包括：声源对象发出的语音信息和标识语音信息音量变化趋势的第一标签。

具体的，本实施方式中，声源对象发出的语音信息可以是包括有唤醒词的语音信息，标识语音信息的音量变化趋势的第一标签可以包括增强、减弱和不变。在具体实施中，第一标签标识的是电子设备的麦克风阵列能够获取到的语音信息的音量变化趋势。

步骤203，使用模型对语音信息进行分析，在确定语音信息中具有唤醒词的情况下，根据语音信息的音量变化趋势是否为预设变化趋势，确定声源对象发出语音信息的行为是否为唤醒行为。

具体的，本实施方式中，预设变化趋势可以是电子设备的麦克风阵列获取到的语音信息的音量逐渐增强；当通过模型对获取到的语音信息进行分析，确定语音信息的音量变化趋势为增强时，则确定声源对象发出语音信息的行为是唤醒电子设备语音指令执行功能的唤醒行为。

具体的，参照图3A所示，在一些具体应用场景中，例如用户32正在看书等，电子设备31位于用户的一侧，此时，用户32想要电子设备31执行某一个语音指令，例如“帮我播放王菲的音乐”；但是，目前电子设备31的语音指令执行功能处于休眠状态，用户32转头向电子设备31发出语音信息，例如可以是“嗨，小爱同学”；此时，电子设备31麦克风阵列获取到的语音信息“嗨，小爱同学”；由于发出语音信息的用户32在发出该条语音信息的第一个音节时，面部朝向为图3A中的虚线所示出的位置，当用户32说完整句语音信息后，用户32的面部朝向转动至图3A中实线所示出的位置。虽然，用户32在发出语音信息的过程中声音是平稳的，没有音量波动；但是，由于用户32转头的动作，导致声波在空间中传递方向的转变，从而导致电子设备31的麦克风阵列能够获取到的语音信息的音量逐渐增强，电子设备31确定用户发出语音信息“嗨，小爱同学”的行为是唤醒电子设备31语音指令执行功能的唤醒行为。

在另一些具体场景中，参照图3B所示，例如用户32发出语音信息的第一个音节的位置在图3B中虚线示出的位置，用户32在移动中发出语音信息，从图3B中虚线示出的位置移动到图3B中实线示出的位置，完成一句完整的语音信息，此时，由于用户32在发出语音信息的过程中向电子设备31移动，电子设备31的麦克风阵列能够获取到的语音信息的音量逐渐增强，电子设备31确定用户发出语音信息“嗨，小爱同学”的行为是唤醒电子设备31语音指令执行功能的唤醒行为。

本实施方式中，通过模型对获取到的语音信息的音量变化趋势进行分析，当获取到的语音信息的音量变化趋势为预设变化趋势时，确定声源对象发出语音信息的行为是唤醒行为，从而有效避免了在用户发出的语音信息中具有唤醒词的情况下对电子设备的语音执行功能的误唤醒。可以理解的是，本实施方式中，预设变化趋势可以是增强，当然也可以是减弱或者其他变化趋势，本实施方式中，对变化趋势的具体形式不作限定。

步骤204，当声源对象发出语音信息的行为是唤醒行为时，唤醒电子设备的语音指令执行功能。

在一些可选实施方式中，步骤202中，多组语音数据中的每组语音数据还包括：标识语音信息中唤醒词音节的第二标签。

具体的，本实施方式中，对多组语音数据中的每组语音数据中唤醒词的音节添加第二标签，其中，唤醒词的音节可以是标准普通话读音或者标准外文读音；在一些可能的方式中，唤醒词的音节也可以是具有各地方言特色的读音，例如四川话、广东话或者北京话等；在另一些可能的方式中，唤醒词的音节也可以是根据用户的习惯用语的音节。本实施方式中对此不作具体限定。通过对唤醒词音节的训练得到模型，从而能够提高对不同人群和不同用语习惯人员的唤醒语音信息的辨识度；提高了电子设备语音指令执行功能唤醒的准确性。

在一些可选的方式中，步骤203，包括：

使用模型对语音信息的音节进行分析；

当语音信息的音节中具有唤醒词音节时，确定语音信息中具有唤醒词。

在另一些可选方式中，步骤202中，多组语音数据中的每组语音数据还包括：在语音信息唤醒电子设备的语音指令执行功能时，标识发出语音信息的声源对象的位置的第三标签。

具体的，本实施方式中，可以是在每一次电子设备的语音指令执行功能被唤醒时，对声源对象发出语音信息的位置进行定位；可选的，本实施方式中，对声源对象发出语音信息的位置进行定位的方式可以采用声源测向原理对声源对象进行定位。将每一次电子设备的语音指令执行功能被唤醒时，声源对象的发声位置进行定位并添加第三标签。

在一些可选方式中，步骤201之后，本实施例提供的语音指令执行功能的唤醒方法，还包括：

获取声源对象发出语音信息的位置。

具体的，获取声源对象发出语音信息的位置可以基于声源测向原理对声源对象进行定位。

相应的，步骤203，包括：

在确定语音信息中具有唤醒词的情况下，确定语音信息的音量变化趋势是否为预设变化趋势，以及声源对象发出语音信息的位置是否为唤醒位置。

当语音信息的音量变化趋势为预设变化趋势且位置为唤醒位置时，确定声源对象发出语音信息的行为为唤醒行为。

本实施方式中，在确定声源对象发出语音信息的行为是否为唤醒行为时，在对电子设备的麦克风阵列获取到的语音信息的音量进行分析的同时，还分析声源对象发出语音信息的地址；在一些具体场景中，例如，用户比较偏爱在洗漱间洗漱时唤醒电子设备的语音指令执行功能；则可以确定用户在洗漱间发出的具有唤醒词的语音信息，且语音信息的音量变化趋势为预设趋势时的行为为唤醒行为，从而能够准确唤醒电子设备的语音指令执行功能。

在另一些可选方式中，步骤202中，多组语音数据中的每组语音数据还包括：在语音信息唤醒电子设备的语音指令执行功能时，标识发出语音信息的时间的第四标签。

具体的，本实施方式中，可以是在每一次电子设备的语音指令执行功能被唤醒时，对声源对象发出语音信息的时间进行记录；将每一次电子设备的语音指令执行功能被唤醒时，对声源对象的发声时间添加第四标签。

获取声源对象发出语音信息的时间。

具体的，在获取声源对象发出语音信息的同时，可以获取电子设备的系统时间。

相应的，步骤203，包括：

在确定语音信息中具有唤醒词的情况下，确定语音信息的音量变化趋势是否为预设变化趋势，以及声源对象发出语音信息的时间是否为唤醒时间。

当语音信息的音量变化趋势为预设变化趋势且时间为唤醒时间时，确定声源对象发出语音信息的行为为唤醒行为。

具体的，本实施方式中，在确定声源对象发出语音信息的行为是否为唤醒行为时，在对电子设备的麦克风阵列获取到的语音信息的音量进行分析的同时，还分析声源对象发出语音信息的时间，具体的，可以是分析声源对象发出语音信息时，电子设备的系统时间；在一些具体的场景中，例如，夜间用户可能存在说梦话或者其他发出语音信息的行为，此时；对获取到的语音信息进行分析的同时，分析可以确定声源对象发出语音信息的时间不是声源对象常用唤醒电子设备语音指令执行功能的时间，因此，确定声源对象发出语音信息的行为不是唤醒电子设备语音指令执行功能的唤醒行为。如此，可以有效避免在夜间对电子设备的语音指令执行功能的误唤醒，降低了电子设备的语音指令执行功能被误唤醒几率。

在另一些可选的实施方式中，电子设备在用户使用初期，可能存在语音信息的数据量不够，从而模型对语音信息的分析尚且不够准确的情况；为提高电子设备的语音指令执行功能唤醒的准确性，本申请实施例提供的语音指令执行功能的唤醒方法，在步骤202之前，还包括：

提取语音信息的音节以及语音信息的音量变化趋势。

具体的，本实施方式中提取的语音信息的音节可以是声源对象发出语音信息是的音节，具体可以是声源对象根据普通话发出的标准音节，也可以是声源对象根据自身的用语习惯或者地方方言发出的音节；本实施方式中对此不作具体限定。

上传请求，请求包括：语音信息的音节和语音信息的音量变化趋势；用于请求云端设备根据语音信息的音节确定语音信息中是否具有唤醒词，并根据语音信息的音量变化趋势确定声源对象发出语音信息的行为是否为唤醒行为。

接收云端设备发送的响应指示，响应指示为语音信息中是否具有唤醒词和行为是否为唤醒行为。

云端设备可以是用于管理多个声源对象发出的语音信息的服务器设备，云端设备在接收到电子设备上传的请求后，将语音信息的音节和语音信息的音量变化趋势与其他声源对象成功唤醒电子设备语音指令执行功能的语音信息进行匹配；匹配成功后，向电子设备反馈响应指示，响应指示包括用户发出的语音信息中是否具有唤醒词，以及用户发出语音信息的行为是否为唤醒电子设备语音执行功能的唤醒行为。

本实施方式中，通过将声源对象发出的语音信息上传至云端设备，弥补了在电子设备使用初期，声源数据较少，模型准确度相对较低的情况；并且，能够通过云端设备的校正，不断校正模型，提高对语音信息分析的准确度，从而提高唤醒电子设备语音执行功能的准确性，有效避免了误唤醒的发生。

需要说明的是，本实施例与本申请其他实施例具有相同或类似的有益效果，本实施例中不再赘述。

图4是本申请一实施例提供的语音指令执行功能的唤醒装置的结构示意图。

基于前述实施例，参照图4所示，本申请实施例提供的语音指令执行通能的唤醒装置40，用于电子设备中，其中，电子设备可以是智能音箱、智能移动终端、智能家居，例如智能空调、智能冰箱、智能洗衣机等智能设备；在一些实施方式中，电子设备还可以是其他诸如智能电饭煲等电器设备，本申请实施例对此不作具体限定。该唤醒装置40包括：

获取模块41，用于获取声源对象发出的语音信息；

确定模块42，用于使用模型对语音信息进行分析，在确定语音信息中具有唤醒词的情况下，根据语音信息的音量变化趋势是否为预设变化趋势，确定声源对象发出语音信息的行为是否为唤醒行为；

唤醒模块43，用于当声源对象发出语音信息的行为是唤醒行为时，唤醒电子设备的语音指令执行功能。

在一些可选实施方式中，唤醒装置40还包括：

训练模块44，用于在使用模型对语音信息进行分析之前，使用多组语音数据进行训练，获取模型，多组语音数据中的每组语音数据均包括：声源对象发出的语音信息和标识语音信息的音量变化趋势的第一标签。

在一些可选实施方式中，多组语音数据中的每组语音数据还包括：标识语音信息中唤醒词音节的第二标签。

在一些可选实施方式中，确定模块42，还用于使用模型对语音信息的音节进行分析；

确定模块42，还用于当语音信息的音节中具有唤醒词音节时，确定语音信息中具有唤醒词。

在一些可选实施方式中，多组语音数据中的每组语音数据还包括：在语音信息唤醒电子设备的语音指令执行功能时，标识发出语音信息的声源对象的位置的第三标签。

在一些可选实施方式中，获取模块41，还用于在获取声源对象发出的语音信息之后，获取声源对象发出语音信息的位置；

确定模块42，还用于在确定语音信息中具有唤醒词的情况下，确定语音信息的音量变化趋势是否为预设变化趋势，以及声源对象发出语音信息的位置是否为唤醒位置；

确定模块42，还用于当语音信息的音量变化趋势为预设变化趋势且位置为唤醒位置时，确定声源对象发出语音信息的行为为唤醒行为。

在一些可选实施方式中，多组语音数据中的每组语音数据还包括：在语音信息唤醒电子设备的语音指令执行功能时，标识发出语音信息的时间的第四标签。

在一些可选实施方式中，获取模块41，还用于在获取声源对象发出的语音信息之后，获取声源对象发出语音信息的时间；

确定模块42，还用于在确定语音信息中具有唤醒词的情况下，确定语音信息的音量变化趋势是否为预设变化趋势，以及声源对象发出语音信息的时间是否为唤醒时间；

确定模块42，还用于当语音信息的音量变化趋势为预设变化趋势且时间为唤醒时间时，确定声源对象发出语音信息的行为为唤醒行为。

在一些可选实施方式中，唤醒装置40还包括：

提取模块45，用于在使用模型对语音信息进行分析之前，提取语音信息的音节以及语音信息的音量变化趋势；

上传模块46，用于上传请求，请求包括：语音信息的音节和语音信息的音量变化趋势；用于请求云端设备根据语音信息的音节确定语音信息中是否具有唤醒词，并根据语音信息的音量变化趋势确定声源对象发出语音信息的行为是否为唤醒行为；

接收模块47，用于接收云端设备发送的响应指示，响应指示为语音信息中是否具有唤醒词和行为是否为唤醒行为。

需要说明的是，本申请装置实施例与方法实施例具有相同或类似的有益效果，本实施例中不再赘述。

图5是本申请一实施例提供的电子设备的结构示意图。

基于前述实施例，参照图5所示，本申请实施例提供的电子设备50，包括存储器51、处理器52和通讯总线53；

存储器51与处理器52通过通讯总线53通讯连接；

存储器51中存储有计算机可执行指令，处理器52用于执行计算机可执行指令，用于实现本申请任一实施例提供的语音指令执行功能的唤醒方法。

需要说明的是，本申请设备实施例与方法实施例具有相同或类似的有益效果，本实施例中不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的一种语音指令执行功能的唤醒方法、装置及电子设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者设备程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干设备的单元权利要求中，这些设备中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种语音指令执行功能的唤醒方法，其特征在于，包括：

获取声源对象发出的语音信息；

2.根据权利要求1所述的方法，其特征在于，在所述使用模型对所述语音信息进行分析之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述多组语音数据中的每组语音数据还包括：标识所述语音信息中唤醒词音节的第二标签。

4.根据权利要求3所述的方法，其特征在于，所述使用模型对所述语音信息进行分析，包括：

使用所述模型对所述语音信息的音节进行分析；

5.根据权利要求2所述的方法，其特征在于，所述多组语音数据中的每组语音数据还包括：在所述语音信息唤醒所述电子设备的语音指令执行功能时，标识发出所述语音信息的所述声源对象的位置的第三标签。

6.根据权利要求5所述的方法，其特征在于，在所述获取声源对象发出的语音信息之后，所述方法还包括：

获取所述声源对象发出所述语音信息的位置；

7.根据权利要求1-6任一项所述的方法，其特征在于，在所述使用模型对所述语音信息进行分析之前，所述方法还包括：

8.一种语音指令执行功能的唤醒装置，其特征在于，包括：

获取模块，用于获取声源对象发出的语音信息；

9.一种电子设备，其特征在于，包括存储器、处理器和通讯总线；

所述存储器与所述处理器通过所述通讯总线通讯连接；

所述存储器中存储有计算机可执行指令，所述处理器用于执行所述计算机可执行指令，用于实现权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被执行时，用于实现权利要求1-7任一项所述的方法。