CN111294258A

CN111294258A - 一种控制智能家居设备的语音交互系统及方法

Info

Publication number: CN111294258A
Application number: CN202010084684.3A
Authority: CN
Inventors: 李林; 李征; 赵仕才; 吉仕强
Original assignee: Chengdu Jieshunbao Information Technology Co ltd
Current assignee: Chengdu Jieshunbao Information Technology Co ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-16

Abstract

本发明提供一种控制智能家居设备的语音交互系统及方法，系统包括，语音交互控制网关、多个语音交互子设备和多个智能家居设备，语音交互控制网关分别与多个语音交互子设备、多个智能家居设备电连接；多个语音交互子设备分别设置在不同的房间，用于获取房间内的语音指令信息并将语音指令信息发送至语音交互控制网关；语音交互控制网关用于根据声纹识别用户的身份，将同一用户，同样语义的语音指令信息的语音强度进行排序，根据语音强度最大的语音指令信息确定应该执行的房间，生成第一执行指令，并且将同一用户，不同语义的语音指令信息生成第二执行指令，分别将第一执行指令和第二执行指令发送至对应的智能家居设备。

Description

一种控制智能家居设备的语音交互系统及方法

技术领域

本发明涉及智能家居设备领域，具体涉及一种控制智能家居的语音交互系统及方法。

背景技术

随着智能家居的快速发展，各种各样的智能家居设备进入千家万户，比如，智能照明设备、智能电视、智能冰箱以及智能空调等等。在使用该类智能家居设备的过程中，为了操作方便，用户可以通过语音来控制该类智能家居设备。比如，用户可以通过语音“打开冰箱”来控制智能冰箱的打开。

当前，语音交互控制已逐渐成为智能家居控制的一种主要方案，普遍采用在一个控制设备对所有智能家居设备进行控制，但在实际使用过程中，仍存在诸多问题。

家庭涉及多个同类设备时，控制设备需要明确设备的位置信息，如打开空调，需要说指令“打开客厅空调”；即使在不同房间放置一个或多个语音控制设备进行控制，也存在不能用简单指令控制所在房间设备(如：在卧室，一般需说“打开/关闭卧室空调”，而不能说“打开/关闭空调”)，用户的体验性不佳。

发明内容

本发明的目的在于克服现有技术中的缺点，提供控制智能家居设备的语音交互系统及方法。

本发明的目的是通过以下技术方案来实现的：一种语音交互系统，包括语音交互控制网关、多个语音交互子设备和多个智能家居设备，所述语音交互控制网关分别与所述多个语音交互子设备、所述多个智能家居设备电连接；

所述多个语音交互子设备分别设置在不同的房间，用于获取房间内的语音指令信息并将所述语音指令信息发送至所述语音交互控制网关；

所述语音交互控制网关用于根据声纹识别用户的身份，将同一用户，同样语义的语音指令信息的语音强度进行排序，根据语音强度最大的语音指令信息确定应该执行的房间，生成第一执行指令，并且将同一用户，不同语义的语音指令信息生成第二执行指令，分别将所述第一执行指令和所述第二执行指令发送至对应的智能家居设备；

所述智能家居设备根据所述第一指令信息和第二指令信息执行操作。

本发明的有益效果是，通过在每个房间安装语音交互子设备采集语音指令信息，并发送至语音交互控制网关，如果是一个用户，可能存在多个房间的语音子设备均采集到语音指令信息，语音交互控制网关通过声纹识别出用户的身份，分别计算出同一语义的语音指令信息的语音强度，根据语音强度最大的语音指令信息生成第一执行指令，确定控制语音强度最大的房间的智能设备执行。

此外，由于存在同一时间，多个房间都有用户进行语音控制的情况，每个房间的语音交互子设备均可能采集到每个用户的语音指令信息，语音交互控制网关通过声纹辨认出每个用户的身份，再分别计算同一用户相同语义的语音指令信息的语音强度，根据语音强度最大的语音指令信息生成第一控制指令，确定控制语音强度最的房间的智能设备执行，将不同语义的语音指令信息生成第二控制指令，智能家居设备分别执行。使得用户在进行语音指令控制时不需要过多的明确位置信息，体验感更好，更智能。

进一步，所述语音交互子设备包括语音获取模块、放大模块、模数转换模块，第一控制模块和第一传输模块；

所述语音获取模块、放大模块、模数转换模块顺次连接，并且所述模数转换模块的输出端与所述第一控制模块连接，所述第一控制模块与所述第一传输模块相互连接；

所述语音获取模块用于获取房间内的语音信息，并转化为语音指令信息通过所述放大模块传输至所述第一控制模块，所述第一控制模块用于控制所述第一传输模块接收或发送信息。

采用上述进一步方案的有益效果是，语音获取模块用于获取用户的语音指令信息，将语音信号转换为电信号，通过放大模块进行放大再经过模数转换模块转换为数字信号发送至第一控制模块，第一控制模块再通过控制第一传输模块将语音指令信息发送至语音控制网关。

进一步，所述第一传输模块为WIFI、ZIGBEE、蓝牙、RFID、GPRS、UWB、NFC中的一种或多种。

采用上述进一步方案的有益效果是，采用WIFI、ZIGBEE、蓝牙、RFID、GPRS、UWB、NFC中的一种或多种无线传输方式，综合成本低、组网灵活，方便排查故障。

进一步，所述语音子交互子设备上还设置有人体红外传感器，所述人体红外传感器用于检测到用户靠近时开启所述语音获取模块。

采用上述进一步方案的有益效果是，设置人体红外传感器当检测到有人靠近时则驱动语音交互子设备开启采集语音指令信息，减少资源的浪费，且减少语音交互控制网关的工作量。

进一步，所述语音交互控制网关包括第二控制模块、语音解析模块和第二传输模块，所述第二控制模块分别与所述语音解析模块、所述第一传输模块电连接；

所述语音解析模块用于识别所述语音指令信息的语义和声纹并将识别结果发送至所述第二控制模块；

所述第二控制模块用于根据所述声纹进行用户身份辨别、计算各个房间接收到的语音指令的语音强度，将同一用户，同样语义的语音指令信息的语音强度进行排序，根据语音强度最大的语音指令信息确定应该执行的房间，生成所述第一执行指令，并且将同一用户，不同语义的语音指令信息生成第二执行指令，分别将所述第一执行指令和所述第二执行指令通过所述第二传输模块发送至对应的智能家居设备。

采用上述进一步方案的有益效果是，所述第二控制模块可采用PLC可编程控制器，结合算法对语音强度进行排序，根据语音强度最大的语音指令信息确定应该执行的房间，生成所述第一执行指令，不同语义的语音指令信息生成第二执行指令，再控制第二传输模块将第一控制指令和第二控制指令发送至对应的智能家居设备，使得用户在进行语音指令控制时不需要过多的明确位置信息，体验感更好，更智能。

进一步，所述第二传输模块为WIFI、ZIGBEE、蓝牙、RFID、GPRS、UWB、NFC中的一种或多种。

进一步，所述语音交互控制模块与所述多个语音交互子设备、多个智能家居设备的通信方式为全双工通信，所述多个智能家居设备接收到所述第一执行指令和第二执行指令后，发送反馈信息至所述语音交互控制模块，所述语音交互控制模块接收所述反馈信息后发送至所述多个语音交互子设备，所述语音交互子设备通过语音播报所述反馈信息。

采用上述进一步方案的有益效果是，智能家居设备在执行完控制命令后反馈执行状态，所述语音交互子设备通过语音播报，方便用户知晓智能设备的执行状态。

一种控制智能家居设备的语音交互方法，包括以下步骤：

S1：获取同一时间，不同房间的语音指令信息，执行S2；

S2：根据声纹识别出所述语音指令信息中用户的身份，执行S3；

S3：判断同一用户的所述语音指令信息中是否有语义相同的语音指令信息，若是执行S4,若否执行S5；

S4：筛选出语义相同的语音指令信息，计算所述筛选出的语音指令信息的语音强度，按照所述语音强度进行排序，根据语音强度最大的语音指令信息确定应该执行的房间，生成第一执行指令，执行S5；

S5：分别将语义不同的语音指令信息生成第二执行指令，执行S6；

S6：分别执行所述第一执行指令和所述第二执行指令,执行S7；

S7：判断是否所有用户的语音指令信息均执行完毕，若是，退出本次语音控制程序，若否，提取下一个用户的语音指令信息并执行S3。

本发明的有益效果是，当只有一个用户时，采集所有房间内的语音指令信息，分别计算出每个房间内收的语音指令信息的语音强度，根据语音强度最大的语音指令信息，判断出用户可能想控制的空间的智能设备，使得用户体验感更好，更智能。

当多个用户在不同房间同时发出相同语义的语音控制指令时，由于每个房间的语音交互子设备均可采集到用户的语音指令信息，通过先进行声纹识别将用户的身份分别确认，再计算每个用户在不同房间的语音强度，根据语音强度最大的语音指令信息确认出需要执行的房间，生成第一执行指令，控制所述房间的智能设备执行，避免出现错误开启其他房间同类智能设备的情况。

当同一用户发出不同语义的语音指令信息时，分别生成第二执行指令，控制所述房间的智能设备执行。

进一步，所述S2包括以下步骤；

S20：获取用户的语音指令信息的第一时域波形图，根据所述第一时域波形图进行傅立叶变换得到第一频谱图；

S21：提取所述第一频谱图中的声纹特征，建立声音识别模型；

S22：获取同一房间中的语音指令信息的第二频谱图；

S23：输入所述第二频谱图至所示声音识别模型；

S24：所述声音识别模型分别输出用户的身份，并且提取出每个用户的第三频谱图。

采用上述进一步方案的有益效果是，首先获取不同用户的语音指令信息的第一频谱图，由于声音信号为模拟信号，在进行特征提取时特征信号不显著，因此先通过傅立叶变换获取频谱图，再提取声纹特征建立声音识别模型，在确认用户身份的时候，输入采集的语音指令信息的频谱图即可识别出用户的身份，此外，由于不同用户的音色不同，而音色可用频率表示，在同一个房间采取到多个用户的声音的音色并不会叠加，这也是声纹识别的原理，因此可分别求出每个用户当前语音指令信息的第三频谱图。

进一步，所述S4中计算相同语义的语音指令信息的强度包括以下过程：

S41：根据所述第三频谱图进行傅立叶反变换，获得每个用户在不同房间语义相同的语音指令信息的第二时域波形图，用所述第二时域波形图的幅值表示语音指令信息的强度。

采用上述进一步方案的有益效果是，根据第二时域波形图进行傅立叶反变换得到时域波形图，用第二时域波形图的幅值表示语音指令信息的强度，即每个房间采集到的用户的语音指令信息的强度都可计求出。

进一步，所述S20还包括以下步骤：

S201:对所述语音指令信息进行采样，表示如下：

S(n)＝S_α(nT)

其中，n为自然数，S(n)为按采样周期T对S_α(T)采样后得到的离散信号；

S202:通过量化器得到量化幅度

的量化集，定义c′(n)＝c(n)表示每个量化后采样值的码字级，称为编码过程；

S203:定义一个译码器将码字序列c′(n)反编码得到量化后采样序列，称为译码过程，采用拉普拉斯密度估算语音信号的振幅密度；

S204:采用半侦交叠分侦的方式，将所述语音指令信息进行分帧，从而得到－组特征参数时间序列；

S205:采用汉宁窗对所述特征参数时间序列进行加窗处理。

采用上述进一步方案的有益效果是：使用采样、量化、分帧、加窗处理，将语音信号与噪声进行有效分离。

附图说明

图1为本发明一种控制智能家居设备的语音交互系统的示意图；

图2为本发明一种控制智能家居设备的语音交互方法的流程示意图；

图3为本发明一种控制智能家居设备的语音交互方法S2的流程示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下。

实施例1

一种语音交互系统，包括语音交互控制网关、多个语音交互子设备和多个智能家居设备，语音交互控制网关分别与多个语音交互子设备、多个智能家居设备电连接；

多个语音交互子设备分别设置在不同的房间，用于获取房间内的语音指令信息并将语音指令信息发送至语音交互控制网关；

语音交互控制网关用于根据声纹识别用户的身份，将同一用户，同样语义的语音指令信息的语音强度进行排序，根据语音强度最大的语音指令信息确定应该执行的房间，生成第一执行指令，并且将同一用户，不同语义的语音指令信息生成第二执行指令，分别将第一执行指令和第二执行指令发送至对应的智能家居设备；

多个智能家居设备根据第一指令信息和第二指令信息执行操作。

通过在每个房间安装语音交互子设备采集语音指令信息，并发送至语音交互控制网关，如果是一个用户，可能存在多个房间的语音子设备均采集到语音指令信息，语音交互控制网关通过声纹识别识别出用户的身份，分别计算出同一语义的语音指令信息的语音强度，根据语音强度最大的语音指令信息生成第一执行指令，确定控制语音强度最大的房间的智能设备执行。

语音交互子设备包括语音获取模块、放大模块、模数转换模块，第一控制模块和第一传输模块；

语音获取模块、放大模块、模数转换模块顺次连接，并且模数转换模块的输出端与第一控制模块连接，第一控制模块与第一传输模块相互连接；

语音获取模块用于获取房间内的语音信息，并转化为语音指令信息通过放大模块传输至第一控制模块，第一控制模块用于控制第一传输模块接收或发送信息。

语音获取模块用于获取用户的语音指令信息，将语音信号转换为电信号，通过放大模块进行放大再经过模数转换模块转换为数字信号发送至第一控制模块，第一控制模块再通过控制第一传输模块将语音指令信息发送至语音控制网关。

其中，语音获取模块可采用麦克风、等语音传感器，放大模块可采用功能运算放大器组成的放大电路，模数转换模块可采用型号为ADC08D1500的模数转换芯片，第一控制模块采用基于51单片机的控制电路，第一传输模块可采用无线传输模块。

第一传输模块为WIFI、ZIGBEE、蓝牙、RFID、GPRS、UWB、NFC中的一种或多种。

采用WIFI、ZIGBEE、蓝牙、RFID、GPRS、UWB、NFC中的一种或多种无线传输方式，综合成本低、组网灵活，方便排查故障。

语音子交互子设备上还设置有人体红外传感器，人体红外传感器用于检测到用户靠近时开启语音获取模块。

设置人体红外传感器当检测到有人靠近时则驱动语音交互子设备开启采集语音指令信息，减少资源的浪费，且减少语音交互控制网关的工作量。人体红外传感器可使用全志芯科技有限公司的AS084-SD1传感器。

语音交互控制网关包括第二控制模块、语音解析模块和第二传输模块，第二控制模块分别与语音解析模块、第一传输模块电连接；

语音解析模块用于识别语音指令信息的语义和声纹并将识别结果发送至第二控制模块；

第二控制模块用于根据声纹进行用户身份辨别、计算各个房间接收到的语音指令的语音强度，将同一用户，同样语义的语音指令信息的语音强度进行排序，根据语音强度最大的语音指令信息确定应该执行的房间，生成第一执行指令，并且将同一用户，不同语义的语音指令信息生成第二执行指令，分别将第一执行指令和第二执行指令通过第二传输模块发送至对应的智能家居设备。

第二控制模块可采用PLC可编程控制器，结合算法对语音强度进行排序，根据语音强度最大的语音指令信息确定应该执行的房间，生成第一执行指令，不同语义的语音指令信息生成第二执行指令，再控制第二传输模块将第一控制指令和第二控制指令发送至对应的智能家居设备，使得用户在进行语音指令控制时不需要过多的明确位置信息，体验感更好，更智能。

第二传输模块为WIFI、ZIGBEE、蓝牙、RFID、GPRS、UWB、NFC中的一种或多种。

语音交互控制模块与多个语音交互子设备、多个智能家居设备的通信方式为全双工通信，多个智能家居设备接收到第一执行指令和第二执行指令后，发送反馈信息至语音交互控制模块，语音交互控制模块接收反馈信息后发送至多个语音交互子设备，语音交互子设备通过语音播报反馈信息。

智能家居设备在执行完控制命令后反馈执行状态，语音交互子设备通过语音播报，方便用户知晓智能设备的执行状态。

实施例2

在实施例1的基础上，如图1所示，一种控制智能家居设备的语音交互方法，包括以下步骤：

S1：获取同一时间，不同房间的语音指令信息，执行S2；

S2：根据声纹识别出语音指令信息中用户的身份，执行S3；

S3：判断同一用户的语音指令信息中是否有语义相同的语音指令信息，若是执行S4,若否执行S5；

S4：筛选出语义相同的语音指令信息，计算筛选出的语音指令信息的语音强度，按照语音强度进行排序，根据语音强度最大的语音指令信息确定应该执行的房间，生成第一执行指令，执行S5；

S6：分别执行第一执行指令和第二执行指令,执行S7；

当只有一个用户时，采集所有房间内的语音指令信息，分别计算出每个房间内收的语音指令信息的语音强度，根据语音强度最大的语音指令信息，判断出用户可能想控制的空间的智能设备，使得用户体验感更好，更智能。

当多个用户在不同房间同时发出相同语义的语音控制指令时，由于每个房间的语音交互子设备均可采集到用户的语音指令信息，通过先进行声纹识别将用户的身份分别确认，再计算每个用户在不同房间的语音强度，根据语音强度最大的语音指令信息确认出需要执行的房间，生成第一执行指令，控制房间的智能设备执行，避免出现错误开启其他房间同类智能设备的情况。

当同一用户发出不同语义的语音指令信息时，分别生成第二执行指令，控制房间的智能设备执行。

S2包括以下步骤；

S20：获取用户的语音指令信息的第一时域波形图，根据第一时域波形图进行傅立叶变换得到第一频谱图；

S21：提取第一频谱图中的声纹特征，建立声音识别模型；

S22：获取同一房间中的语音指令信息的第二频谱图；

S23：输入第二频谱图至所示声音识别模型；

S24：声音识别模型分别输出用户的身份，并且提取出每个用户的第三频谱图。

首先获取不同用户的语音指令信息的第一频谱图，由于声音信号为模拟信号，在进行特征提取时特征信号不显著，因此先通过傅立叶变换获取频谱图，再提取声纹特征建立声音识别模型，在确认用户身份的时候，输入采集的语音指令信息的频谱图即可识别出用户的身份，此外，由于不同用户的音色不同，而音色可用频率表示，在同一个房间采取到多个用户的声音的音色并不会叠加，这也是声纹识别的原理，因此可分别求出每个用户当前语音指令信息的第三频谱图。

具体的，在进行声纹特征提取之前还需对语音信息进行预处理及端点检测，主要是将语音信号与噪声有效分离。所谓的端点检测就是在一端包含语音的型号中准确的识别出语音信号的起点和终点，将语音数据和背景噪声有效分离，现有的语音端点检测方式一般分为两种：基于特征和基于模型。基于特征的检测方式能够检测出反应语音信号和噪声信号差异的特征；而给予模型的检测方法须分别对语音和噪声进行建立模型，其作为有声或无声判决的疑虑是这两个模型下概率的大小。

S20还包括以下步骤：

S201:对语音指令信息进行采样，表示如下：

S(n)＝S_α(nT)

S202:通过量化器得到量化幅度

S204:采用半侦交叠分侦的方式，将语音指令信息进行分帧，从而得到－组特征参数时间序列；

S205:采用汉宁窗对特征参数时间序列进行加窗处理。

预处理的过程依次为：采样、量化、分帧处理、加窗函数。

其中采样指按一定的采样周期对模拟信号进行数字化采样的过程，表示如下。

S(n)＝S_α(nT)

其中，n为自然数，S(n)为按采样周期T对S_α(T)采样后得到的离散信号。为了使采样后的信号能在数字信道中进行传输、处理运算，需要对语音信号的振幅进行量化处理。

量化第一步：通过量化器得到量化幅度

的量化集以及用码子c(n)表示每个量化后采样值的码子级，称为编码过程。第二步，定义c′(n)＝c(n)

表示每个量化后采样值的码字级，称为编码过程。第二步：定义一个译码器将码字序列c′(n)反编码得到量化后采样序列，称为译码过程，在本实施例中，用于估算语音信号振幅密度的方法是拉普拉斯密度。

受声口激励化及口腔和鼻腔等辅助发音器官的影响，频率越离语音指令信息的功率谱越小，平均功率谱在800HZ以上功率谱大约按6db/oct衰减，因此在对语音信号进行分析之前通常采用一个6db/oct的高频提升预加重数字滤波器处理语音信号，以便在从低频到高频的频带内，对语音指令信息的处理施以相同的信噪比(SNR)。滤波响应函数如下：

H(z)＝1-αz^-1,0.9≤α≤1.0

其中α为预加重系数，通常取0.94或0.92，于是，预加重网络的输出S(n)和输入语音指令信息S(n)的就可以通过差分方程s(n)＝s(n)-αs(n-1)进行表征。

一般来讲，语音指令信息是随时间变化而变化。但是在个较短的时间段内，可以近似地认为，其特性基本保持不变，语音指令信息的这种将性称为＂瞬时平稳性＂，这个时间一般为10-30ms。所以分析和处理语音指令信息，一般也是基于话音的“瞬时平稳性”，即进行“瞬时分析”，此时须对语音指令信息流采用分帧处理。分帧一般采用两种方式：连续分侦及交叠分倾。鉴于语音指令信息之间的相关性，在本实施例中采用半侦交叠分侦的方式，把一段语音指令信息进行分解，从而得到－组特征参数时间序列。

为了强化、突出语音指令信息中抽样n附近的波形，而对波形的其余部分进行弱化，对信号进行加窗处理。对语音指令信息分侦后的各个子段进行处理的实质就是对其作某种变换，或者进行某种运算，其一般公式为：

其中，s(n)则为语音指令信息Q_n是一个时间序列。常用的窗函数分别是矩形窗、海明窗和汉宁窗。在本实施例中使用汉宁窗，可以得到相对纯净的频谱

声纹特征包括短时过零率、短时能量、短时平均幅度以及基音频率，通过分析语音的频谱图可知，其频谱中含有说话人的声道特性和激励源特性，而这些特性基本可以体现出说话者的个性差异，如语音功率谱、复倒谱。

建立模型可采用概率模型法、模板匹配法、人工神经网络法和支持向量机法，模板匹配法主要有时间规整法、最小临近法和矢量量化法。统计概率模型法主要有马尔可夫模型、分段高斯模型以及高斯混合模型等，在本实施例中采用高斯混合模型。

高斯混合模型的原理为：采用多个高斯分布的线性组合对多维矢量的任一连续概率分布进行拟合，相对其他模型，高斯混合模型对表征说话人特性方面效果明显。

高斯混合模型是M个高斯分布的线性加权组合即：

其中，x_t是一个D维随即向量，w_i(i＝1,2,…M)为混合权重，且

p[x_t|u_i,∑i]为D维高斯函数，即：

一个高斯混合模型参数λ，表示为如下公式：

λ＝{w_t|u_i,∑i]},＝1,2，…M

协方差原始矩阵∑i可以用满矩阵。高斯混合模型参数λ可用最大似然估计，也就是使

中对数似然值L达到最大。

S4中计算相同语义的语音指令信息的强度包括以下过程：

S41：根据第三频谱图进行傅立叶反变换，获得每个用户在不同房间语义相同的语音指令信息的第二时域波形图，用第二时域波形图的幅值表示语音指令信息的强度。

根据第二时域波形图进行傅立叶反变换得到时域波形图，用第二时域波形图的幅值表示语音指令信息的强度，即每个房间采集到的用户的语音指令信息的强度都可求出。

以上仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护。

Claims

1.一种控制智能家居设备的语音交互系统，其特征在于，包括语音交互控制网关、多个语音交互子设备和多个智能家居设备，所述语音交互控制网关分别与所述多个语音交互子设备、所述多个智能家居设备电连接；

2.根据权利要求1所述的控制智能家居设备的语音交互系统，其特征在于，所述语音交互子设备包括语音获取模块、放大模块、模数转换模块，第一控制模块和第一传输模块；

3.根据权利要求2所述的控制智能家居设备的语音交互系统，其特征在于，所述第一传输模块为WIFI、ZIGBEE、蓝牙、RFID、GPRS、UWB、NFC中的一种或多种。

4.根据权利要求3所述的控制智能家居设备的语音交互系统，其特征在于，所述语音子交互子设备上还设置有人体红外传感器，所述人体红外传感器用于检测到用户靠近时开启所述语音获取模块。

5.根据权利要求1-4任一所述的控制智能家居设备的语音交互系统，其特征在于，所述语音交互控制网关包括第二控制模块、语音解析模块和第二传输模块，所述第二控制模块分别与所述语音解析模块、所述第一传输模块电连接；

6.根据权利要求5所述的控制智能家居设备的语音交互系统，其特征在于，所述第二传输模块为WIFI、ZIGBEE、蓝牙、RFID、GPRS、UWB、NFC中的一种或多种。

7.根据权利要求1-4任一所述的语音交互系统，其特征在于，所述语音交互控制模块与所述多个语音交互子设备、多个智能家居设备的通信方式为全双工通信，所述多个智能家居设备接收到所述第一执行指令和第二执行指令后，发送反馈信息至所述语音交互控制模块，所述语音交互控制模块接收所述反馈信息后发送至所述多个语音交互子设备，所述语音交互子设备通过语音播报所述反馈信息。

8.一种控制智能家居设备的语音交互方法，其特征在于，包括以下步骤：

S1：获取同一时间，不同房间的语音指令信息，执行S2；

9.根据权利要求8所述的控制智能家居设备的语音交互方法，其特征在于，所述S2包括以下步骤；

S21：获取用户的语音指令信息的第一时域波形图，根据所述第一时域波形图进行傅立叶变换得到第一频谱图；

S22：获取同一房间中的语音指令信息的第二频谱图；

S23：输入所述第二频谱图的声纹特征至所示声音识别模型；

10.根据权利要求9所述的控制智能家居设备的语音交互方法，其特征在于，所述S4中计算相同语义的语音指令信息的强度包括以下过程：