CN111640433A

CN111640433A - 语音交互方法、存储介质、电子设备及智能家居系统

Info

Publication number: CN111640433A
Application number: CN202010485716.0A
Authority: CN
Inventors: 李明杰; 宋德超; 贾巨涛; 韩林峄
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-09-08

Abstract

本发明公开了一种语音交互方法、存储介质、电子设备及智能家居系统，涉及语音交互技术领域，该方法包括：获取语音交互信息；对语音交互信息进行语义分析，以确定发出语音交互信息的发声者的意图；根据发声者的位置，从多个备选语音设备中选取出距离发声者预设距离范围的语音设备；根据发声者的意图，从距离发声者预设距离范围的语音设备中选取出能够响应发声者的意图的语音设备，并将其作为目标语音设备；控制目标语音设备执行与发声者的意图相关联的响应动作。本发明的有益效果是：不仅能够精确实现多个语音设备的响应调度，而且能够准确实现用户意图精准识别。

Description

语音交互方法、存储介质、电子设备及智能家居系统

技术领域

本发明属于语音交互技术领域，尤其涉及一种语音交互方法、存储介质、电子设备及智能家居系统。

背景技术

随着技术的进步，物联网和多语音设备的语音交互技术的不断发展。但是随着智能家居系统中的语音设备和用户不断增多，现有的多语音设备交互技术存在缺少精准的多语音设备入口的响应机制的技术问题，无法准确地从多个语音设备中选取与适合与用户进行交互的语音设备。

发明内容

本发明正是基于现有的多语音设备交互技术缺少精准的多语音设备入口的响应机制的技术问题，提出了一种语音交互方法、存储介质、电子设备及智能家居系统。

第一方面，本发明实施例提供了一种语音交互方法，包括：

获取语音交互信息；

对所述语音交互信息进行语义分析，以确定发出所述语音交互信息的发声者的意图；

根据所述发声者的位置，从多个备选语音设备中选取出距离所述发声者预设距离范围的语音设备；

根据所述发声者的意图，从距离所述发声者预设距离范围的语音设备中选取出能够响应所述发声者的意图的语音设备，并将其作为目标语音设备；

控制所述目标语音设备执行与所述发声者的意图相关联的响应动作。

可选地，所述方法还包括：

当选取出能够响应所述发声者的意图的语音设备的数量为多个时，将选取出的能够响应所述发声者的意图的语音设备中距离所述发声者最近的语音设备作为目标语音设备。

可选地，在根据所述发声者的位置，从多个备选语音设备中选取出距离所述发声者预设距离范围的语音设备之前，所述方法还包括：

根据所述语音交互信息进行声源定位，以确定发出所述语音交互信息的发声者的位置。

可选地，根据所述语音交互信息进行声源定位，以确定发出所述语音交互信息的发声者的位置，包括：

提取所述语音交互信息中的语音唤醒音频信息；

根据接收到所述语音唤醒音频信息的语音设备的位置以及该语音设备接收到所述语音唤醒音频信息的时间，执行声源定位解算，以确定发出所述语音交互信息的发声者的位置。

可选地，控制所述目标语音设备执行与所述发声者的意图相关联的响应动作，包括：

根据所述发声者的意图，从预设的数据库中确定与所述发声者的意图相关联的响应信息；

根据所述响应信息控制所述目标语音设备执行与所述发声者的意图相关联的响应动作。

可选地，根据所述发声者的意图，从预设的数据库中确定与所述发声者的意图相关联的响应信息，包括：

根据所述发声者的身份，判断所述发声者是否具有用于实现所述发声者的意图的相关设备的操作权限；

当所述发声者具有用于实现所述发声者的意图的相关设备的操作权限时，从预设的数据库中确定的与所述发声者的意图相关联的响应信息为支持所述发声者的意图的响应信息。

可选地，所述方法还包括：

当所述发声者不具有用于实现所述发声者的意图的相关设备的操作权限时，从预设的数据库中确定的与所述发声者的意图相关联的响应信息为不支持所述发声者的意图的响应信息。

可选地，在根据所述发声者的身份，判断所述发声者是否具有用于实现所述发声者的意图的相关设备的操作权限之前，所述方法还包括；

从所述语音交互信息中提取声纹特征，并基于所述声纹特征确定发出所述语音交互信息的发声者的身份。

可选地，所述语音交互信息中提取声纹特征，并基于所述声纹特征确定发出所述语音交互信息的发声者的身份，包括：

确定所述语音交互信息中的语音唤醒音频信息；

从所述唤醒语音音频信息中提取声纹特征，并基于所述声纹特征确定发出所述语音交互信息的发声者的身份。

第二方面，本发明实施例提供了一种存储介质，所述存储介质上存储有程序代码，所述程序代码被处理器执行时，实现如上述实施例中任一项所述的语音交互方法。

第三方面，本发明实施例提供了一种电子设备，所述电子设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的程序代码，所述程序代码被所述处理器执行时，实现如上述实施例中任一项所述的语音交互方法。

第四方面，本发明实施例提供了一种智能家居系统，包括：

用于进行语音交互的多个语音设备；

云服务器，用于根据所述多个语音设备获取到的语音交互信息，执行存储在所述云服务器上的用于实现如上述实施例中任一项所述的语音交互方法的程序代码，以对所述语音交互信息做出响应。

在本发明实施例提供的一种语音交互方法，通过根据发出语音交互信息的发声者的位置以及所述发声者的意图，从多个备选语音设备中选择合适的语音设备作为目标语音设备，即语音交互入口，从而能够精确实现多个语音设备的响应调度，而且通过语义分析可以准确了解用户意图，从而让目标语音设备执行与所述发声者的意图相关联的响应动作，从而实现用户意图精准识别。

附图说明

通过结合附图阅读下文示例性实施例的详细描述可更好地理解本公开的范围。其中所包括的附图是：

图1示出了本发明实施例一提出的一种语音交互方法的流程示意图；

图2示出了本发明实施例一提出的语音交互过程的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下将结合附图及实施例来详细说明本发明的实施方法，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例一

根据本发明的实施例，提供了一种语音交互方法，该语音交互方法可以应用于智能家居系统，该智能家居系统可以包括云服务器以及与该云服务器进行连接的语音设备，其中，该语音设备为能够进行语音交互的智能设备。

图1示出了本发明实施例一提出的一种语音交互方法的流程示意图，如图1所示，该语音交互方法可以包括：步骤110至步骤150。

在步骤110中，获取语音交互信息。

这里，该语音交互信息是用户对语音设备进行唤醒后发出的交互音频。例如，用户发出“小优，帮我打开空调”的语音信息，其中，“小优”作为唤醒词，用于对语音设备进行唤醒，“帮我打开空调”则作为语音交互信息。其中，可以利用语音设备的麦克风采集所述语音交互信息。

在步骤120中，对所述语音交互信息进行语义分析，以确定发出所述语音交互信息的发声者的意图。

这里，可以是将语音设备采集到的语音交互信息输入到语音识别引擎中进行识别，以在该语音识别引擎中将该语音信息转换为文本信息。在得到文本信息后，对该文本信息进行语义分析，从而得到发声者的意图。例如，语音交互信息为“我想打开空调”，则将该语音交互信息转换为文本信息后，得到的发声者的意图为“打开空调”。

值得说明的是，语义分析技术是现有的语音交互系统中比较常见的功能和实现方式，故在此不再赘述。

在步骤130中，根据所述发声者的位置，从多个备选语音设备中选取出距离所述发声者预设距离范围的语音设备。

这里，备选语音设备可以是指发声者所处的环境中包含的语音设备，例如，发声者的所处的是家居环境，则备选语音设备就是在该家居环境中存在的语音设备。

发声者的位置是指发出该语音交互信息的用户所在的位置，例如，用户在客厅说出语音交互信息“帮我打开空调”，则发声者的位置信息为客厅。该发声者的位置实际上是一个坐标信息，从而根据该坐标信息确定发声者距离各个语音设备的距离。例如，预先对用户的家居环境进行建模，并录入各种设备的摆放位置，从而可以获得一个包含多个设备的摆放位置信息的坐标系。当获得发声者的位置后，根据该极坐标就可以确定发声者距离各个设备的距离。

进而，从多个备选语音设备中选取出距离所述发声者预设距离范围的语音设备。例如，当用户在客厅说出“我想吃西红柿炒鸡蛋”的语音信息，在客厅中存在智能冰箱、智能空调以及智能电视这三个语音设备，而根据发声者的位置信息，确定发声者距离智能空调4米，距离智能冰箱0.8米，距离智能电视1米，而预设距离范围为0.5至1.5米，则从多个备选语音设备中选取出距离所述发声者预设距离范围的语音设备为智能冰箱和智能电视。

值得说明的是，该预设距离范围可以根据实际情况设计，如1-2米之内，目的是能够让发声者能够清晰听到目标语音设备输出的会话。如果不存在距离发声者预设范围内的语音设备，则直接选择距离发声者最近的语音设备作为目标语音设备。

在一个可选的实施方式中，在步骤130之前，所述方法还可以包括：

这里，可以利用所述发声者所处的环境中包含的语音设备所接收到的语音交互信息，进行声源定位。发出所述语音交互信息的发声者所处的环境中包含的语音设备是指用户家居环境中包括的语音设备，数量可以为一个或多个。这些语音设备与服务器进行物联，组成麦克风网络，每个语音设备就是该麦克风网络上的一个麦克风。

其中，声源定位的具体过程是具有语音交互功能的语音设备通过其麦克风接收到语音交互信息，并根据预先录入的语音设备的位置信息对该语音交互信息进行声源定位，从而确定发出该语音交互信息的发声者的位置信息。例如，用户在客厅说出语音交互信息“帮我打开空调”，而用户的家居环境中包括智能冰箱、智能空调以及智能电视等语音设备，则利用智能冰箱、智能空调以及智能电视接收到的该语音交互信息的时间差进行声源定位，从而确定用户的位置信息。该位置信息可以是一个坐标信息，从而根据该坐标信息确定发声者距离各个语音设备的距离。

声源定位的具体过程是，可以预先对家居环境进行建模，从而确定家居环境中的空间位置，并录入语音设备的位置信息，从而获得包含语音设备的坐标系。在接收到语音交互信息后，根据接收到语音交互信息的时间以及接收到语音交互信息的语音设备的位置，执行TDOA声源定位解算。其中，TDOA声源定位为时间差定位。

在一个可选的实施方式中，根据所述语音交互信息进行声源定位，以确定发出所述语音交互信息的发声者的位置，包括：

提取所述语音交互信息中的语音唤醒音频信息；

这里，语音交互一般包括唤醒阶段以及语音交互阶段，在唤醒阶段中语音设备接收唤醒词语音，当从唤醒词语音中识别到对应的唤醒词，则对语音设备进行唤醒。在语音设备唤醒后，接收用户的语音交互信息，从而进行语音交互。

其中，获取发出所述语音交互信息的发声者的位置信息的另一个实施方式可以是利用语音交互信息中的唤醒词来对发声者进行定位。例如，在用户发出“小优，我要打开空调”的语音交互信息，可以检测到“小优”的语音唤醒音频信息。因此，可以利用所述发声者所处的环境中包含的语音设备所接收到的唤醒语音信息，对进行声源定位，发出所述语音交互信息的发声者的位置信息。其中，关于声源定位技术已在上述实施方式中进行了详细说明，在此不再赘述。

在步骤140中，根据所述发声者的意图，从距离所述发声者预设距离范围的语音设备中选取出能够响应所述发声者的意图的语音设备，并将其作为目标语音设备。

这里，目标语音设备指的是与用户进行语音交互的语音设备。在步骤130中选取出了距离所述发声者预设距离范围的语音设备，在步骤140中，从距离所述发声者预设距离范围的语音设备中选取出能够响应所述发声者的意图的语音设备作为目标语音设备。

例如，多个备选语音设备中选取出距离所述发声者预设距离范围的语音设备为智能冰箱和智能电视，则能够响应所述发声者的意图的语音设备为智能冰箱。

在另一个可选的实施方式中，所述方法还包括：

例如，目标语音设备包括智能冰箱和智能油烟机，其设备功能都可以播报菜谱，当用户意图是“烹饪西红柿炒鸡蛋”时，会查找到两个与该用户意图匹配的目标语音设备。因此，可以将距离发声者最近的语音设备确定为用于与用户进行语音交互的目标语音设备。如用户离智能油烟机更近，则会优先利用智能油烟机与用户进行交互。

在步骤150中，控制所述目标语音设备执行与所述发声者的意图相关联的响应动作。

在一个可选的实施方式中，步骤150中，控制所述目标语音设备执行与所述发声者的意图相关联的响应动作，可以包括：

这里，与所述发声者的意图相关联的响应动作，其可以是服务会话和/或设备控制指令。例如，当用户意图为“烹饪西红柿炒鸡蛋”时，需要“播报菜谱动作”和/或向用户反馈“已为您推荐西红柿炒鸡蛋的菜谱”的服务会话。

设备控制指令可以是用于控制目标语音设备本身的状态的控制指令，也可以是目标语音设备执行的用于控制其他智能设备的控制指令。例如，当用户说出“我要吃西红柿炒鸡蛋”的语音交互信息时，根据该语音交互信息确定用户意图是“烹饪西红柿炒鸡蛋”，而此时的目标语音设备为智能空调，则智能空调在接到与“烹饪西红柿炒鸡蛋”的用户意图匹配的设备控制指令是“播报西红柿炒鸡蛋的菜谱”，则利用该智能空调进行菜谱播报。

该服务会话是指语音设备根据用户的语音交互信息向用户返回的服务响应会话，例如，用户说出“我想吃西红柿炒鸡蛋”的语音交互信息，语音设备反馈的服务会话可以是“已为您推荐西红柿炒鸡蛋菜谱”或“已为您寻找到以下外卖”。

其中，根据用户意图，确定与所述用户意图匹配的服务会话，可以是将用户意图与预设的服务会话资源库中的服务会话进行匹配，从而获得与该用户意图相匹配的服务会话。也可以是根据用户意图以及根据该用户意图执行相应的控制指令后生成的服务会话，例如，用户意图是“想吃西红柿炒鸡蛋”，则根据用户意图中包含的意图信息，生成“已为您推荐西红柿炒鸡蛋菜谱”的服务会话。

在一个可选的实施方式中，根据所述发声者的意图，从预设的数据库中确定与所述发声者的意图相关联的响应信息，包括：

当所述发声者具有用于实现所述发声者的意图的相关设备的操作权限时，从预设的数据库中确定的与所述发声者的意图相关联的响应信息为支持所述发声者的意图的响应信息；

这里，所述发声者的身份决定了发声者对于相关设备的操作权限，该操作权限是在录入身份信息时预先进行录入的。如小孩子A录入身份信息后，根据小孩子A设置不同的操作权限，如小孩子A不能使用燃气灶、微波炉等设备，即小孩子A没有实现烹饪意图的操作权限。因此，通过判断所述发声者是否具有用于实现所述发声者的意图的相关设备的操作权限，可以更加精确地确定到符合用户意图以及用户身份的响应信息。

例如，小孩子A对着空调说：“我想吃西红柿炒鸡蛋”，则小孩子A的意图是“烹饪西红柿炒鸡蛋”，但是小孩子A并没有烹饪设备的操作权限，则空调会执行“等妈妈回来给你做西红柿炒鸡蛋”的响应信息。当妈妈对空调说：“我想吃西红柿炒鸡蛋”，而且妈妈具有烹饪设备的操作权限，则空调会执行“已为您推送西红柿炒鸡蛋步骤，并设置厨房相关设备处于运行状态，协助您做饭”的响应信息。

在一个可选的实施方式中，在根据所述发声者的身份，判断所述发声者是否具有用于实现所述发声者的意图的相关设备的操作权限之前，所述方法还包括；

这里，从语音交互信息中提取声纹特征，可以是通过VQ聚类模块从语音信息中提取声纹特征，声纹特征包括频率、音调、鼻音、呼吸等特征，以及对用户的韵律特征提取，包括：说话节奏、语速、语调、口音等特征。在提取声纹特征后，通过将该声纹特征与数据库中预存的声纹进行对比，从而确定说出该语音信息的用户的用户身份信息。

值得说明的是，在识别声纹特征上，不局限于VQ聚类识别方法，还可以使用高斯混合模型方法、神经网络方法、HMM隐式马尔可夫模型或DNN深度学习等模板匹配方法来提取声纹特征。

在一个可选的实施方式中，所述语音交互信息中提取声纹特征，并基于所述声纹特征确定发出所述语音交互信息的发声者的身份，包括：

确定所述语音交互信息中的语音唤醒音频信息；

这里，唤醒语音音频信息是在获取语音交互信息之前获取到的用户用于唤醒语音设备的唤醒词语音。语音设备交互包括唤醒阶段以及语音交互阶段，在唤醒阶段中语音设备接收唤醒词语音，当从唤醒词语音中识别到对应的唤醒词，则对语音设备进行唤醒。在语音设备唤醒后，接收用户的语音交互信息，从而进行语音交互。

由此，在用户在语音交互阶段发出语音交互信息之前，先根据用户在唤醒阶段时发出的唤醒语音信息进行声纹特征提取，从而根据该声纹特征确定发出所述唤醒语音信息的说话人的身份信息，从而将发出所述唤醒语音信息的说话人的身份信息确定为发出所述语音交互信息的说话人的身份信息。这里，由于唤醒语音信息与语音交互信息的发出间隔不会太长，所以可以直接根据唤醒语音信息来确定用户的身份特征。其中，在唤醒阶段的声纹特征提取可以放在语音设备中进行，后续的声纹特征识别则放在云服务器进行，从而在后续的语音交互阶段可以减少设备处理声纹特征的压力，实现声纹的快速识别，以降低识别的成本。

下面，通过一个具体的示例对本实施例的语音交互方法进行说明。图2示出了本发明实施例一提出的语音交互过程的示意图，如图2所示。

该语音交互过程可以分为语音设备执行的部分以及云服务器执行的部分。当然，在本示例中，语音设备和云服务器分别执行的部分交互只是作为一个示例性的，其全部交互操作都可以由云服务执行，也可以全部交互操作由语音设备执行。

在语音设备执行部分，通过对语音交互信息进行声纹、声源定位特征提取，可以分别获取到对应的声纹特征以及接收到语音交互信息的时间，从而在云服务器上根据声纹特征确定到发声者的身份，以及根据接收到的语音交互信息的时间进行声源定位，确定发声者的位置。

并且，在语音设备执行部分还对语音交互信息进行音频特征提取。其具体的操作可以是对唤醒词音频信号进行消除噪音、信道失真等处理，增强语音信号，实现语音信号从时域转化到频域，从而提取到声纹特征以及声源定位特征。

在云服务器执行部分，根据接收到语音交互信息的时间进行声源定位，其可以是利用不同位置上的语音设备接收到同一语音交互信息的时间差进行声源定位，得到发声者的位置。语音设备的位置是预先对家居环境进行建模，从而确定家居环境中的空间位置，并录入语音设备的位置信息，从而获得包含语音设备的坐标系，通过声源定位技术即可确定到发声者的位置。

并且，可以利用声纹识别模型对提取到的声纹特征进行识别，从而获得发声者的身份。该声纹识别模型即是预先录入的声纹特征与该声纹特征关联的用户身份，将提取到的声纹特征与预存的声纹特征进行比对，从而根据发声者的身份。而且，云服务器对提取到的音频特征进行语义分析，从而获得发声者的意图。

在获得发声者的位置以及发声者的意图后，根据发声者的位置以及发声者的意图从多个语音设备中确定出目标语音设备，该目标语音设备是与用户进行交互的语音设备入口。并且根据发声者的意图来确定与发声者的意图相匹配的响应信息。或者根据发声者的意图以及发声者的身份来确定与发声者的意图以及发声者的身份均匹配的响应信息，从而控制目标语音设备根据该响应信息执行对应的响应动作。

实施例二

根据本发明的实施例，还提供了一种存储介质，所述存储介质上存储有程序代码，所述程序代码被处理器执行时，实现如上述实施例任一项所述的语音交互方法。

实施例三

根据本发明的实施例，还提供了一种电子设备，所述电子设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的程序代码，所述程序代码被所述处理器执行时，实现如上述实施例任一项所述的语音交互方法。

实施例四

根据本发明的实施例，还提供了一种智能家居系统，包括：

用于进行语音交互的多个语音设备；

以上结合附图详细说明了本发明的技术方案，考虑到相关技术中，存在现有的多语音设备交互技术缺少精准的多语音设备入口的响应机制的技术问题。本发明提供一种语音交互方法、存储介质、电子设备及智能家居系统，通过根据发出语音交互信息的发声者的位置以及所述发声者的意图，从多个备选语音设备中选择合适的语音设备作为目标语音设备，即语音交互入口。从而能够实现多个语音设备的响应调度，而且通过语义分析可以准确了解用户意图，从而让目标语音设备执行与所述发声者的意图相关联的响应动作，从而实现用户意图精准识别。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种语音交互方法，其特征在于，所述方法包括：

获取语音交互信息；

2.根据权利要求1所述的语音交互方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的语音交互方法，其特征在于，在根据所述发声者的位置，从多个备选语音设备中选取出距离所述发声者预设距离范围的语音设备之前，所述方法还包括：

4.根据权利要求3所述的语音交互方法，其特征在于，根据所述语音交互信息进行声源定位，以确定发出所述语音交互信息的发声者的位置，包括：

提取所述语音交互信息中的语音唤醒音频信息；

5.根据权利要求1所述的语音交互方法，其特征在于，控制所述目标语音设备执行与所述发声者的意图相关联的响应动作，包括：

6.根据权利要求5所述的语音交互方法，其特征在于，根据所述发声者的意图，从预设的数据库中确定与所述发声者的意图相关联的响应信息，包括：

7.根据权利要求6所述的语音交互方法，其特征在于，所述方法还包括：

8.根据权利要求6所述的语音交互方法，其特征在于，在根据所述发声者的身份，判断所述发声者是否具有用于实现所述发声者的意图的相关设备的操作权限之前，所述方法还包括；

9.根据权利要求8所述的语音交互方法，其特征在于，所述语音交互信息中提取声纹特征，并基于所述声纹特征确定发出所述语音交互信息的发声者的身份，包括：

确定所述语音交互信息中的语音唤醒音频信息；

10.一种存储介质，所述存储介质上存储有程序代码，其特征在于，所述程序代码被处理器执行时，实现如权利要求1至9中任一项所述的语音交互方法。

11.一种电子设备，其特征在于，所述电子设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的程序代码，所述程序代码被所述处理器执行时，实现如权利要求1至9中任一项所述的语音交互方法。

12.一种智能家居系统，其特征在于，包括：

用于进行语音交互的多个语音设备；

云服务器，用于根据所述多个语音设备获取到的语音交互信息，执行存储在所述云服务器上的用于实现如权利要求1至9中任一项所述的语音交互方法的程序代码，以对所述语音交互信息做出响应。