CN107993660A

CN107993660A - 用于物联网智能控制系统的语音控制系统

Info

Publication number: CN107993660A
Application number: CN201711428162.5A
Authority: CN
Inventors: 张萌
Original assignee: Jiangsu Smart Polytron Technologies Inc
Current assignee: Jiangsu Dalen Electronic Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-05-04

Abstract

本发明公开了用于物联网智能控制系统的语音控制系统，包括依次通讯连接的智能语音识别单元、语音合成单元、语音播放单元和外部选配设备，智能语音识别单元将语音转化为文本信息，语音合成单元提取用户语音的语义信息及文字信息再转化为语音信息，语音播放单元将语音合成单元转化的语音信息进行播放，进而完成对外部选配设备进行动作的控制，智能语音识别单元包括特征提取模块、声学模型模块、语言模型模块和解码模块。本发明使语音识别更加精准、高效。

Description

用于物联网智能控制系统的语音控制系统

技术领域

本发明涉及语音控制系统的应用领域，特别涉及一种用于物联网智能控制系统的语音控制系统。

背景技术

目前，语音识别是研究如何将人类说话的声音转换为文本的技术，可以实现人机交互，当今人类的日常生活中，手机电脑等各种小型设备得到了广泛的应用，各种传统家电也开使与人工智能相结合，从而开启了智能家电的新篇章。

早期的语音识别是从孤立词，关键词识别开始的，DTW(Dynamic Time Warping)和LPC（Linear predictive coding）等方法是早期比较主流的方法。随着研究的进一步发展，HMM（Hidden Markov Model）为大规模连续语音识别的实现提供了可能。

尽管HMM以及HMM-高斯混合模型（Gaussian Mixture Model）在语音识别上的应用对语音识别技术的发展贡献很大，但是目前仍存在许多问题，对于在静音环境下正常录制的语音，当前主流语音识别系统的识别率，可以接近人类进行仍语音识别的精准程度。

然而在实际应用下，语音中很容易混淆噪声，回声等，这些都导致语音识别系统性能的急剧下降，所以，如何提高语音识别的识别率是语音识别研究领域的一个非常重要的课题。

同时，随着全球化的发展，多种语言音声识别以及音声对话被广泛关注，在此，识别入力声音为何种语言的识别技术也尤为重要。

在此，本产品应用基于DNN（Deep Neural Network）的声学模型，大幅度提高了识别率，使得各国家的用户可以舒适准确的使用此产品。

发明内容

为解决上述背景技术中存在的问题，本发明的目的在于提供一种用于物联网智能控制系统的语音控制系统，以达到使语音识别更加精准、高效的目的。

为达到上述目的，本发明的技术方案如下：

用于物联网智能控制系统的语音控制系统，包括依次通讯连接的智能语音识别单元、语音合成单元、语音播放单元和外部选配设备，所述智能语音识别单元将语音转化为文本信息，所述语音合成单元提取用户语音的语义信息及文字信息再转化为语音信息，所述语音播放单元将语音合成单元转化的语音信息进行播放，进而完成对外部选配设备进行动作的控制，所述智能语音识别单元包括特征提取模块、声学模型模块、语言模型模块和解码模块，所述特征提取模块将声音信号转换为频域，并为声学模型模块提取特征向量，所述声学模型模块根据声学特性为输入计算一个声学模型的分数，所述语言模型模块计算一句话对应的词序列，所述解码模块组合了声学模型模块、语言模型模块和词序列表的信息，并将输入的特征详情所对应的词序列进行输出，所述外部选配设备均为通过语音直接控制的设备。

优选的，所述外部选配设备包括空调、电视、窗帘、安防设备，其上均设置有集成的温湿度传感器、光感应器、人体传感器。

优选的，所述智能语音识别单元基于DNN的语音识别。

优选的，所述DNN为前进型神经网络，设短时间音频单元的声学特征量为x，语言l的后验概率直接推定DNN模型，其中，y代表DNN的参数，第j个神经元的入力值为z，出力于以下公式定义

运用softmax函数作为激励函数，出力层各神经元对应各个语言的标签，这时语言l的后验概率可由定义为如下公式

在此，为l对应节点的参数，DNN是通过学习所有层的所有神经元的权重参数决定的。

通过上述技术方案，本发明提供的用于物联网智能控制系统的语音控制系统，可根据客户的需求进行搭配，不仅降低了成本，还提高了语音的识别率，实现高精度的语音识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的结构示意图；

图2为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的智能语音识别单元的结构示意图；

图3为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的智能语音识别单元的示意图；

图4为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的智能语音识别单元的的框架示意图；

图5为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的外部选配设备的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供的用于物联网智能控制系统的语音控制系统，如图1-5所示，包括依次通讯连接的智能语音识别单元、语音合成单元、语音播放单元和外部选配设备，所述智能语音识别单元基于DNN的语音识别，其将语音转化为文本信息，所述语音合成单元提取用户语音的语义信息及文字信息再转化为语音信息，所述语音播放单元将语音合成单元转化的语音信息进行播放，进而完成对外部选配设备进行动作的控制，所述智能语音识别单元包括特征提取模块、声学模型模块、语言模型模块和解码模块，所述特征提取模块将声音信号转换为频域，常见的方法有MFCC等，并为声学模型模块提取特征向量，所述声学模型模块根据声学特性为输入计算一个声学模型的分数，所述语言模型模块计算一句话对应的词序列，所述解码模块组合了声学模型模块、语言模型模块和词序列表的信息，并将输入的特征详情所对应的词序列进行输出，所述外部选配设备均为通过语音直接控制的设备，所述外部选配设备包括空调、电视、窗帘、安防设备，其上均设置有集成的温湿度传感器、光感应器、人体传感器。

特征提取模块是语音识别系统的第一部分，接受最原始的音频信号，通过消除噪声和信道失真对语音进行增强，将信号从时域转化到频域，并为后面的声学模型提取合适的有代表性的特征向量。

声学模型模块以特征提取部分生成的特征为输入，为可变长特征序列生成声学模型分数。

语言模型模块估计通过训练语料学习词与词之间的相互关系，来估计假设词序列的可能性，又叫语言模型分数。如果了解领域或任务相关的先验知识，语言模型的分数通常可以估计的更准确。

解码模块搜索综合声学模型分数与语言模型分数的结果，将总体输出分数最高的词序列当做识别结果。

所述DNN为前进型神经网络，设短时间音频单元的声学特征量为x，语言l的后验概率直接推定DNN模型，其中，y代表DNN的参数，第j个神经元的入力值为z，出力于以下公式定义

将用已有方法得出的DNN后验概率离散，对于每种语言的离散系列进行建模，从而实现高精度的语言识别。

设为第k帧的后验概率分布，DNN后验概率系列P=变换为离散系列S= ，用k-means聚类进行离散系列。

取向量集合中指定数量的centroid（代表向量）进行训练，设所求T个centroid为,则利用centroid的DNN后验概率的离散化遵循以下公式

在此，D表示2向量间的Euclid距离。即此处理为各后验概率centroid的序号离散。

为检测上述的有效性，使用了多语言声音数据库Globalphone进行评价。Globalphone数据库为各国语言的native speakers的录音。本发明相对于现有方法的语音识别的精准度，有了大幅度的改善，并且通过对各种语言建模的方法，提高了多语言的识别度。

本发明公开的用于物联网智能控制系统的语音控制系统，可根据客户的需求进行搭配，不仅降低了成本，还提高了语音的识别率，实现高精度的语音识别。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.用于物联网智能控制系统的语音控制系统，其特征在于，包括依次通讯连接的智能语音识别单元、语音合成单元、语音播放单元和外部选配设备，所述智能语音识别单元将语音转化为文本信息，所述语音合成单元提取用户语音的语义信息及文字信息再转化为语音信息，所述语音播放单元将语音合成单元转化的语音信息进行播放，进而完成对外部选配设备进行动作的控制，所述智能语音识别单元包括特征提取模块、声学模型模块、语言模型模块和解码模块，所述特征提取模块将声音信号转换为频域，并为声学模型模块提取特征向量，所述声学模型模块根据声学特性为输入计算一个声学模型的分数，所述语言模型模块计算一句话对应的词序列，所述解码模块组合了声学模型模块、语言模型模块和词序列表的信息，并将输入的特征详情所对应的词序列进行输出，所述外部选配设备均为通过语音直接控制的设备。

2.根据权利要求1所述的用于物联网智能控制系统的语音控制系统，其特征在于，所述外部选配设备包括空调、电视、窗帘、安防设备，其上均设置有集成的温湿度传感器、光感应器、人体传感器。

3.根据权利要求1所述的用于物联网智能控制系统的语音控制系统，其特征在于，所述智能语音识别单元基于DNN的语音识别。

4.根据权利要求3所述的用于物联网智能控制系统的语音控制系统，其特征在于，所述DNN为前进型神经网络，设短时间音频单元的声学特征量为x，语言l的后验概率直接推定DNN模型，其中，y代表DNN的参数，第j个神经元的入力值为z，出力于以下公式定义