CN106847281A

CN106847281A - 基于语音模糊识别技术的智能家居语音控制系统及方法

Info

Publication number: CN106847281A
Application number: CN201710105528.9A
Authority: CN
Inventors: 程前
Original assignee: Shanghai Newbest It Co Ltd
Current assignee: Shanghai Newbest It Co Ltd
Priority date: 2017-02-26
Filing date: 2017-02-26
Publication date: 2017-06-13

Abstract

本发明提供了一种基于语音模糊识别技术的智能家居语音控制系统，包括：样本采集模块，用于采集用户语音指令；样本训练模块，用于将用户语音指令与控制功能进行绑定；样本生成模块，用于将控制功能上传至主机系统进行解析并保存记录，生成标定了控制功能的语音指令样本集；语音输入模块，用于输入语音原始信号，并压缩生成语音信号上传至主机系统；语音比对模块，用于将语音信号与语音指令样本集进行比对，并输出对应的控制功能指令。同时提供了一种智能家居语音控制方法。本发明实现智能家居系统的用户语音自学习控制功能；在不限定语种、不限定口音的自由度下，实现语音控制；实现了智能家居系统对用户的辨识，有效杜绝非法用户的语音指令。

Description

基于语音模糊识别技术的智能家居语音控制系统及方法

技术领域

本发明属于智能家居控制系统技术领域，具体地，涉及一种基于语音模糊识别技术的智能家居语音控制系统及方法，利用语音控制，实现对智能家居系统中电气设备及场景模式等的自动化控制。

背景技术

智能家居系统经过多年的发展，至今已形成了种类齐全、稳定可靠的电气设备。但家用电气设备的种类繁多且生产厂家各不相同，这些不同的设备厂家又各自遵循不同的标准化接口协议进行产品研发和推广，目前市场上普及较多的如：EIB/KNX协议、MODBUS协议、BacNet协议、Lonworks协议、RTSP协议、HomeKit框架协议、AllJoyn框架协议、OIC框架协议等。这些协议或通讯框架适用于不同的硬件设备，在整体的家居自动化控制系统中，往往需要搭建多种多样的硬件设备进行功能实现。常见的如：MODBUS空调+EIB/KNX灯光+EIB/KNX智能面板+RTSP网络摄像头+Homekit手机APP。

这就使得家居自动化控制系统在建设过程中，必须通过支持多种不同协议框架的网关设备进行转发与控制，在此基础上，通过软件开发手段，对网关设备加入数据收集及处理的能力，可将其描述为“智能家居系统主机”，用户通过对接主机，即可实现对多种系统的集中智能化控制，系统逻辑关系如图1所示。

随着移动互联网技术及智能化手机的普及，当前市场上所销售智能化控制系统，在用户交互层主要采用手机APP的方式实现，如美国Savant,Crestron，国内小米、海尔等。APP风格大相径庭，但综其根本，可分为两类。

第一类，通过为不同类型的设备生成不同的交互控件，如空调的温度调节滑条、窗帘的开关停按键、监控摄像头的云台控制方向键等，来实现点按式控制。如图2所示。

此类系统实际上是将传统物理按键遥控器进行了手机APP模拟化，相比单一遥控器具备了集中控制的功能，但是操作过于复杂，同时带来了诸多问题，如不具备物理按键的触感，极易导致误操作；老人小孩的使用，有一定困难。

第二类，为解决APP点按式操作带来的问题，各别厂商推出了语音控制的解决方案，通过为不同类型的设备预制标准格式的语音控制指令，实现用户通过手机语音进行设备控制。这些厂商如：AppleHomekit(Siri)，AmazonEcho等。

此类系统基于STT(Speech to Text语音转文本)技术，采用了字符串匹配的形式，实现语音控制，其系统逻辑如图3所示。

STT技术需要对语音进行解析，转换对应文本信息，此类算法有较高的计算量需求，多通过构建云服务器，调用API的形式实现，此类技术(STT技术)目前世界范围内，主要有以下公司从事开发研究：国内如科大讯飞、云之声主要针对汉语(含方言)进行研究，国外如：Google,Amazon,IBM主要针对西语系(英语、法语、德语等)进行研究。

该方案同样也存在诸多问题：

1、因为需要将语音信号转换为对应的文本内容，因此对于解决跨语言、方言、口音等问题，具有极大的局限性；

2、对于整体系统来讲，除STT环节外，还需要在“字符串理解”环节，投入较大的开发量，从文本内容上，明确区分理解用户的需求：<打开/关闭><具体某房间><具体某设备>；

3、需要由系统设计人员预先配置语音控制的指令内容或规则，培训用户使用方法，对于规则外的语音指令(文本内容)无法理解、无法执行；

4、网络调用API对用户语音内容的隐私性，无法很好地确保；

5、对于系统安全性来讲，无法识别语音指令的输入人身份，只要指令内容STT识别正确，均会达到控制效果。

智能家居市场的发展，一定需要建立在便捷、高效的操控体验基础上。目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

针对现有技术中存在的上述不足，本发明的目的是提供一种基于语音模糊识别技术的智能家居语音控制系统及方法，该控制系统及方法应用于智能化家居系统的用户交互层，通过语音模糊识别技术，实现智能家居系统自学习功能，支持用户的自定义语音指令；解决跨语音、方言、口音识别问题；利用语音的特征向量提取实现声纹采集，识别说话人身份，提高系统安全性。

为实现上述目的，本发明是通过以下技术方案实现的。

根据本发明的一个方面，提供了一种基于语音模糊识别技术的智能家居语音控制系统，包括：

-样本采集模块，用于采集用户语音指令；

-样本训练模块，用于将样本采集模块得到的用户语音指令与智能家居系统中的控制功能进行绑定；

-样本生成模块，用于将样本训练模块得到的绑定后的控制功能上传至智能家居系统的主机系统进行解析并保存记录，生成标定了控制功能的语音指令样本集；

-语音输入模块，用于输入用户有效的语音原始信号，并压缩生成智能家居系统的主机系统能够识别的语音信号上传至智能家居系统的主机系统；

-语音比对模块，用于将语音输入模块得到的语音信号与样本生成模块生成的语音指令样本集进行比对，并输出对应的控制功能指令。

优选地，所述基于语音模糊识别技术的智能家居语音控制系统，还包括校正模块，所述校正模块用于设定语音信号与语音指令样本集之间的匹配度阈值。

根据本发明的另一个方面，提供了一种基于语音模糊识别技术的智能家居语音控制方法，包括如下步骤：

-步骤a，根据输入的语音指令标定对应的控制功能，训练语音指令样本集；

-步骤b，输入有效的语音信号与步骤a中得到的语音指令样本集进行比对，并根据标定的控制功能输出控制功能指令，完成语音控制。

优选地，所述步骤a包括如下步骤：

步骤a1，用户根据智能家居系统内已有的控制功能进行语音指令采集，并将智能家居系统内已有的控制功能与语音指令进行绑定；

步骤a2，将步骤a1中得到的绑定后的控制功能上传至智能家居系统的主机系统，通过主机系统进行解析并保存记录，生成标定了控制功能的语音指令样本集。

优选地，所述步骤b包括如下步骤：

步骤b1，输入用户有效的语音原始信号，压缩生成智能家居系统的主机系统能够识别的语音信号并上传至主机系统；

步骤b2，主机系统接收到语音信号后，对语音信号提取包含了声纹信息的语音特征向量，并与语音指令样本集进行比对；

将步骤b3，根据语音指令样本集标定的控制功能，输出对应的控制功能指令。

优选地，所述步骤b2中的比对包括如下步骤：

设置语音信号与语音指令样本集之间的匹配度阈值，当语音信号与语音指令样本集之间的识别匹配度大于设置的匹配度阈值时，认为输入的语音信号与语音指令样本集内的目标样本匹配，比对成功。

优选地，所述步骤b2中采用梅尔频率倒谱系数提取算法提取包含了声纹信息的语音特征向量，并将语音特征参数MFCC作为语音特征向量。

优选地，所述梅尔频率倒谱系数提取算法包括如下步骤：

第一步，预加重，增加输入语音信号的高频部分能量；

第二步，对输入语音信号进行分帧加窗处理，以实现时频局域化；

第三步，对加窗后的每一帧输入语音信号进行离散傅里叶变换(DFT)，得到离散频谱信息；

第四步，将离散频谱信息通过Mel滤波器组，得到Mel频谱mel(f)：

其中，f表示输入语音信号的频率；

第五步，对Mel频谱进行倒谱分析，得到Mel频率倒谱系数，即语音特征参数MFCC。

优选地，所述第一步中，通过一阶高通滤波器增加输入语音信号的高频部分能量。

优选地，所述第二步中，分帧加窗采用边缘平滑的汉明窗进行。

与现有技术相比，本发明具有如下有益效果：

1、本发明通过由“训练语音指令样本集”到“语音控制”的方式，可以实现智能家居系统的用户语音自学习控制功能；

2、本发明通过模糊识别并匹配语音指令样本的方法，可以在不限定语种、不限定口音的自由度下，实现语音控制；

3、本发明通过语音特征向量匹配语音指令样本的方法，实现了智能家居系统对用户的辨识，有效杜绝非法用户的语音指令。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为智能家居系统逻辑示意图；

图2为现有用户交互层采用的手机APP示意图；

图3为语音识别技术原理示意图；

图4为训练语音指令样本集并标定控制功能逻辑示意图；

图5为语音控制-指令输入阶段逻辑示意图；

图6为语音控制-样本比对阶段逻辑示意图；

图7为语音控制-功能执行阶段逻辑示意图；

图8为语音的梅尔频率倒谱系数提取逻辑示意图；

图9为训练样本集，标定功能应用界面示意图；

图10语音控制阶段应用界面示意图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

实施例

本实施例提供了一种基于语音模糊识别技术的智能家居语音控制系统，包括：

-样本采集模块，用于采集用户语音指令；

进一步地，所述基于语音模糊识别技术的智能家居语音控制系统，还包括校正模块，所述校正模块用于设定语音信号与语音指令样本集之间的匹配度阈值。

本实施例还提供了一种基于语音模糊识别技术的智能家居语音控制方法，包括如下步骤：

进一步地，所述步骤a包括如下步骤：

进一步地，所述步骤b包括如下步骤：

进一步地，所述步骤b2中的比对包括如下步骤：

进一步地，目前常用的声音特征向量提取算法有：梅尔频率倒谱系数(MFCC)提取算法、线性预测倒谱系数(LPCC)提取算法等。考虑到识别说话人的声纹特征，本实施例中推荐采用梅尔频率倒谱系数(MFCC)提取算法，将语音特征参数MFCC作为语音特征向量进行提取。(有理论分析和实验数据证明，采用MFCC参数的声纹识别在屏蔽噪音和抗噪声能力上优于采用LPCC参数的声纹识别。详见《MFCC和LPCC特征参数在说话人识别中的研究》文章编号1674-330(2010)02-0051-05)

梅尔频率倒谱系数提取算法(即语音特征参数MFCC的提取方法)步骤如下，其实现逻辑图请见图8：

第一步，预加重，增加输入语音信号的高频部分能量；

由于声音的功率谱密度随频谱的增高而下降，在处理时为了提高语音信号的信噪比，往往需要人为的增加输入语音信号的高频部分能量，这一过程称作“预加重”；在MFCC处理中(即MFCC提取过程中)，通过一阶高通滤波器即可实现；

在MFCC处理中需要采用边缘平滑的汉明窗进行；

第四步，将离散频谱信息通过Mel滤波器组，得到Mel频谱；

Mel频谱转换是MFCC处理中的关键，其表达式为：

其中，f表示输入语音信号的频率；

MFCC作为语音特征向量不仅体现了不同语音内容，同时还能有效区分不同说话人，即包含了说话人的声纹特征。

下面以用户交互层采用手机APP的方式为例，实现结合附图对本实施例提供的控制系统及方法进一步描述。

语音模糊识别技术的原理，是通过比对语音控制指令与已有标本的特征频谱，从而实现模糊理解和执行的。模糊识别是一种从宏观角度上的机器自然语义理解，对于系统来讲，单一输入的语音控制指令不具备任何意义和功能，但通过对语音的频谱分析与已有样本的比对后，可以通过匹配度，对输入信号进行界定，实现已有样本设定好的功能触发。

本实例采用的技术方案具体为：

(一)训练样本集，标定功能，其应用界面示意图如图9所示：

模糊识别的关键是在已有样本集的基础上进行比对、匹配，因此需要用户通过手机麦克风进行语音采集，并通过APP操作(样本训练模块)将具体的控制功能与语音指令绑定。这些控制功能在APP中已具备的，如<打开客厅吊灯>、<激活离家模式>、<激活晚安模式>等。配置好后，将语音指令包含对设备的控制功能上传至主机系统，由主机系统进行相关的解析，并保存记录，生成样本集。其逻辑示意如图4所示。

(二)语音控制阶段，其应用界面示意图如图10所示:

当用户进行语音控制时，需要通过手机麦克风采集有效语音信号，并由APP(语音输入模块)进行压缩编码，后通过以太网络，输入至主机系统，如图5所示。

当主机系统收到语音控制指令后，需要对输入信号提取特征向量，并与存储好的样本集进行比对，如图6所示。同一说话人的不同语音内容以及不同说话人同一语音内容均会导致特征向量的匹配失败。

当遇到有效输入信号时，会在样本集中发现相匹配样本。考虑到环境噪声及人体发音差异等噪声影响，目标样本与输入信号的匹配度必然<100％，实际使用时需要确定匹配度阈值，通过实际测试比对语音样本和语音指令的MFCC语音特征向量，优化识别匹配度阈值，当匹配度大于X％时，即认为输入信号与目标样本匹配(选用不同的特征向量算法，对此阈值的影响较大)。此时，执行目标样本所绑定的设备控制逻辑，即实现了对智能家居系统的语音控制，如图7所示。

本实施例提供的基于语音模糊识别技术的智能家居语音控制系统及方法：

通过由训练样本集到语音控制的方式，可以实现智能家居系统的用户语音自学习控制功能；

通过模糊识别并匹配样本的方法，可以在不限定语种、不限定口音的自由度下，实现语音控制；

通过模糊识别并匹配样本的方法，实现了系统对使用者的“辨识”，可以杜绝非法用户的语音指令。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于语音模糊识别技术的智能家居语音控制系统，其特征在于，包括：

-样本采集模块，用于采集用户语音指令；

2.基于语音模糊识别技术的智能家居语音控制系统，其特征在于，还包括校正模块，所述校正模块用于设定语音信号与语音指令样本集之间的匹配度阈值。

3.一种基于语音模糊识别技术的智能家居语音控制方法，其特征在于，包括如下步骤：

4.根据权利要求3所述的基于语音模糊识别技术的智能家居语音控制方法，其特征在于，所述步骤a包括如下步骤：

5.根据权利要求3所述的基于语音模糊识别技术的智能家居语音控制方法，其特征在于，所述步骤b包括如下步骤：

6.根据权利要求5所述的基于语音模糊识别技术的智能家居语音控制方法，其特征在于，所述步骤b2中的比对包括如下步骤：

7.根据权利要求5所述的基于语音模糊识别技术的智能家居语音控制方法，其特征在于，所述步骤b2中采用梅尔频率倒谱系数提取算法提取包含了声纹信息的语音特征向量，并将语音特征参数MFCC作为语音特征向量。

8.根据权利要求7所述的基于语音模糊识别技术的智能家居语音控制方法，其特征在于，所述梅尔频率倒谱系数提取算法包括如下步骤：

第一步，预加重，增加输入语音信号的高频部分能量；

第二步，对输入语音信号进行分帧加窗处理；

m e l (f) = 2595 \times \log_{10} (1 + \frac{f}{700})

其中，f表示输入语音信号的频率；

9.根据权利要求8所述的基于语音模糊识别技术的智能家居语音控制方法，其特征在于，所述第一步中，通过一阶高通滤波器增加输入语音信号的高频部分能量。

10.根据权利要求8所述的基于语音模糊识别技术的智能家居语音控制方法，其特征在于，所述第二步中，分帧加窗采用边缘平滑的汉明窗进行。