CN114664303A

CN114664303A - 连续语音指令快速识别控制系统

Info

Publication number: CN114664303A
Application number: CN202210347366.0A
Authority: CN
Inventors: 陈芒
Original assignee: Shenzhen Light Life Technology Co ltd
Current assignee: Shenzhen Light Life Technology Co ltd
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2022-06-24

Abstract

本发明提供连续语音指令快速识别控制系统，包括：输入模块与预处理模块连接，通过MIC输入用户控制语音；预处理模块的另一端分别与在线语音识别处理模块、离线语音识别处理模块连接，对用户控制语音进行音频预处理；在线语音识别处理模块通过云端平台对预处理后的语音进行语音识别得到语音输出信息；离线语音识别处理模块通过神经网络RNN模型对预处理后的语音进行语音识别得到语音输出信息；输出模块将在线语音识别处理模块或离线语音识别处理模块得到的语音输出信息输出。本发明通过在线语音识别处理模块和离线语音识别处理模块消除了是否在线的限制，使得离线状态也能够进行语音指令识别，而且还能够快速稳定地针对连续的语音指令进行识别。

Description

连续语音指令快速识别控制系统

技术领域

本发明涉及智能控制技术领域，特别涉及一种连续语音指令快速识别控制系统。

背景技术

随着计算机的普及和越来越多的智能设备出现，怎么跟这些设备之间建立一个简单直接的沟通方式成了人们迫切的需求，语音识别技术的出现让人们的这种需求从梦想变成了现实，实现可以跟机器就行语音交流，语音识别，通常称为自动语音识别，主要是将人类语音中的词汇内容转换为计算机可读的输入。

目前，在线语音识别普遍都存在着网络不稳定、回馈延时大等问题，离线语音识别的出现则摆脱了对网络的依赖，但是单次只能识别一条单一的指令，大大的影响了用户使用产品的体验感，因此，本发明给出了一种连续语音指令快速识别控制系统，通过在线语音识别处理模块和离线语音识别处理模块消除了是否在线的限制，使得离线状态也能够进行语音指令识别，而且还能够快速稳定地针对连续的语音指令进行识别。

发明内容

本发明提供了连续语音指令快速识别控制系统，运用神经网络RNN，解决现有技术方案中单次只能识别一条单一指令的问题。

本发明提供一种连续语音指令快速识别控制系统，包括：一种连续语音指令快速识别控制系统，其特征在于，包括：输入模块、预处理模块、在线语音识别处理模块、离线语音识别处理模块和输出模块；

所述输入模块与所述预处理模块连接，用于通过MIC输入用户控制语音；

所述预处理模块的另一端分别与所述在线语音识别处理模块、离线语音识别处理模块连接，用于对所述用户控制语音进行音频预处理，得到预处理后的语音；

所述在线语音识别处理模块，用于通过云端平台对预处理后的语音进行语音识别得到语音输出信息；

所述离线语音识别处理模块，用于通过神经网络RNN模型对预处理后的语音进行语音识别得到语音输出信息；

所述输出模块，用于将所述在线语音识别处理模块或所述离线语音识别处理模块得到的语音输出信息输出。

优选的，所述连续语音指令快速识别控制系统还包括：唤醒模块；当所述连续语音指令快速识别控制系统在预设时间内未收到用户控制语音时，所述连续语音指令快速识别控制系统进入休眠状态，当再次使用所述连续语音指令快速识别控制系统时，通过所述唤醒模块，利用特定唤醒词将处于休眠状态的连续语音指令快速识别控制系统唤醒进入待命状态。

优选的，所述MIC采用线性双麦克风阵列，所述预处理模块在对所述用户控制语音进行音频预处理时包括：

通过AD芯片对所述MIC输入的用户控制语音进行采集，获得所述用户控制语音；

对所述用户控制语音进行分帧处理，将所述用户控制语音按帧划分，获得多个用户控制语音帧；

在所述用户控制语音帧中查找静音信号语音帧，并在所述用户控制语音帧中将所述静音信号语音帧去除，得到第一处理后的用户控制语音；其中，在所述用户控制语音帧中查找静音信号语音帧是通过声音识别模型进行识别匹配得到的，所述声音识别模型是根据静音信号生成的声学模型，在通过声音识别模型进行识别匹配时，提取所述用户控制语音帧语音特征，并将所述语音特征在所述声音识别模型中进行匹配，获得所述语音特征的匹配值，再针对所述语音特征的匹配值进行判断，将所述语音特征的匹配值大于预设阈值的用户控制语音帧判断为静音信号语音帧；

针对所述第一处理后的用户控制语音进行自身声音消除处理，包括：将所述第一处理后的用户控制语音通过功放由喇叭进行播放，同时所述MIC进行声音采集，并将采集到的声音传输至所述AD芯片，再通过回声消除算法得到预处理后的语音。

优选的，所述在线语音识别处理模块在通过云端平台对预处理后的语音进行语音识别得到语音输出信息时，通过TPC/IP协议获取所述预处理后的语音；针对所述预处理后的语音进行自然语言处理识别出用户的意图；针对所述用户的意图进行意图识别，确定所述用户的意图的合理性；当所述用户的意图合理时，根据所述用户的意图进行资源访问，获得目标资源，并将所述目标资源传输至所述中央处理单元，所述中央处理单元针对所述目标资源进行交互信息输出，得到语音输出信息。

优选的，所述离线语音识别处理模块在通过神经网络RNN模型对预处理后的语音进行语音识别得到语音输出信息时，针对所述预处理后的语音进行特征提取，获得预处理后的语音特征，然后根据所述预处理后的语音特征进行模型训练和模型识别，所述模型训练包括：根据所述语音特征以及调整模型参数对音频进行模型建立，得到初始状态下的神经网络RNN模型，对所述初始状态下的神经网络RNN模型进行模型训练，得到优化神经网络RNN模型模板，并将所述优化神经网络RNN模型模板保存到模型存储单元中；所述模型识别包括：根据所述语音特征在所模型存储单元中进行模型匹配，得到优化神经网络RNN 模型，并根据失真判决准则进行识别判断，得到语音输出信息。

优选的，所述神经网络RNN模型是在神经网络DNN模型的基础上进行改造得到的，包括：深层双向RNN和序列短时分类；所述深层双向RNN是在神经网络DNN模型的隐层上增加一个反馈连接，所述序列短时分类是在神经网络 DNN模型的输出层上引入长短时记忆模块。

优选的，对所述初始状态下的神经网络RNN模型进行模型训练是通过矩阵和矢量加速器对训练过程进行加速。

优选的，所述连续语音指令快速识别控制系统还包括：文件系统模块、USB 模块和外设模块；

所述文件系统模块，用于进行信息保存，形成本地文件内容；

所述USB模块，用于连接外接存储数据和作为供电接口，连接外接电源，为所述连续语音指令快速识别控制系统供电；

所述外设模块，用于连接外接设备，所述外接设备包括：蓝牙音箱、智能家电和汽车电子。

优选的，所述输出模块在将所述在线语音识别处理模块或所述离线语音识别处理模块得到的语音输出信息输出时，包括：根据所述语音输出信息生成音频信息进行播放和根据所述语音输出信息生成控制信号输向对应的终端设备进行控制，其中，根据所述语音输出信息生成音频信息进行播放包括：将所述输出的语音输出信息转换成目标格式；对目标格式下的语音输出信息进行功放处理后通过喇叭播放出来。

优选的，所述喇叭在将功放处理后目标格式下的语音输出信息播放出来之前还通过所述预处理模块进行回声消除处理；所述预处理模块对功放处理后目标格式下的语音输出信息进行回声消除处理的过程包括：

接收功放处理后目标格式下的语音输出信息，并获得功放处理后目标格式下的语音输出信息的信号特征；

根据所述功放处理后目标格式下的语音输出信息的信号特征对功放处理后目标格式下的语音输出信息进行归一处理；

对滤波器进行参数配置，并通过滤波器对功放处理后目标格式下的语音输出信息进行滤波处理，得到回声消除后的功放处理后目标格式下的语音输出信息。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明所述的连续语音指令快速识别控制系统的示意图；

图2为本发明所述的连续语音指令快速识别控制系统中预处理模块的原理示意图；

图3为本发明所述的连续语音指令快速识别控制系统中在线语音识别模块的原理示意图；

图4为本发明所述的连续语音指令快速识别控制系统中离线语音识别模块的原理示意图；

图5为本发明所述的连续语音指令快速识别控制系统中离线语音识别模块中神经网络隐层改进示意图；

图6为本发明所述的连续语音指令快速识别控制系统中离线语音识别模块中神经网络输出层改进示意图；

图7为本发明所述的连续语音指令快速识别控制系统的原理示意图；

图8为本发明所述的连续语音指令快速识别控制系统中文件系统模块的目录示意图；

图9为本发明所述的连续语音指令快速识别控制系统中USB模块的原理示意图；

图10为本发明所述的连续语音指令快速识别控制系统中输出模块的原理示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供了连续语音指令快速识别控制系统，包括：输入模块、预处理模块、在线语音识别处理模块、离线语音识别处理模块和输出模块；

上述技术方案中，输入模块通过MIC输入用户控制语音，能够比较容易的获得用户控制语音，方便采集用户控制语音；通过预处理模块对语音进行预处理，能够抑制无关干扰声音，提高语音的辨识度，保障识别效果；设置在线语音识别处理模块和离线语音识别处理模块，使得连续语音指令快速识别控制系统消除了是否在线的限制，在离线状态下也能够进行语音指令识别，使得既可以享受在线语音识别的丰富资源，又能体验到离线语音识别快速响应的快感，而且在在线语音识别处理模块中，通过云端平台进行语音识别不仅能够快速得到语音识别结果，而且还比较稳定，不会出现回馈延时大或者得不到回馈的现象，并且在离线语音识别处理模块中，通过采用神经网络RNN模型能够使得离线状态也能对连续语音指令进行交互，针对复杂语音中存在多个指令信息的状况也能够同时识别出来进行执行，解决了单次只能识别一条单一指令的问题；输出模块在输出所述语音输出信息实现交互时，具有内置音频播放功能，支持最大音频个数限定为254，支持最多四个音频连续播放，支持识别等引擎提示音播放，提升了用户体验感。

本发明提供的一个实施例中，所述连续语音指令快速识别控制系统还包括：唤醒模块；当所述连续语音指令快速识别控制系统在预设时间内未收到用户控制语音时，所述连续语音指令快速识别控制系统进入休眠状态，当再次使用所述连续语音指令快速识别控制系统时，通过所述唤醒模块，利用特定唤醒词将处于休眠状态的连续语音指令快速识别控制系统唤醒进入待命状态。

上述技术方案中，通过连续语音指令快速识别控制系统在预设时间内未收到用户控制语音时，使得连续语音指令快速识别控制系统进入休眠状态能够减少连续语音指令快速识别控制系统在空闲时候的损耗，提高连续语音指令快速识别控制系统的使用寿命，而且连续语音指令快速识别控制系统处于休眠状态时不接收控制指令，只有用户通过唤醒模块借助特定唤醒词唤醒连续语音指令快速识别控制系统，进入待命状态之后才能继续输入用户控制语音，从而避免连续语音指令快速识别控制系统接收非目标指令信息，以及避免出现的功能误触发问题。

本发明提供的一个实施例中，所述MIC采用线性双麦克风阵列，如图2所示，所述预处理模块在对所述用户控制语音进行音频预处理时包括：

上述技术方案中，通过MIC采用线性双麦克风阵列进行远场拾音，能够实现家居场景5m的用户指令音频拾取，而且在预处理模块中以信号处理为核心，以音频数据输出为最终目的，在中央处理单元的控制下，从信号接收，数据输出，到信息显示，都以信号处理为核心，确保输出数据的完整性和可靠性，并且通过对用户控制语音进行分帧处理、静音出除以及回声消除，使得预处理后的语音更加具有辨识性，同时还将通过MIC采集用户语音的同时采集到的周围其他的声音抑制或者不处理，提升采集声音的效果，此外，预处理模块还能够对通过MIC输入的用户语音伴随有方言口音的语音进行预处理，提高用户语音的辨别率。

本发明提供的一个实施例中，所述在线语音识别处理模块在通过云端平台对预处理后的语音进行语音识别得到语音输出信息时，如图3所示，通过TPC/IP 协议获取所述预处理后的语音；针对所述预处理后的语音进行自然语言处理识别出用户的意图；针对所述用户的意图进行意图识别，确定所述用户的意图的合理性；当所述用户的意图合理时，根据所述用户的意图进行资源访问，获得目标资源，并将所述目标资源传输至所述中央处理单元，所述中央处理单元针对所述目标资源进行交互信息输出，得到语音输出信息。

上述技术方案中，在线语音识别处理模块在通过云端平台对预处理后的语音进行语音识别得到语音输出信息时，首先，通过TPC/IP协议获取预处理后的语音，然后，针对预处理后的语音进行自然语言处理识别出用户的意图，接着对用户的意图进行意图识别，确定用户的意图的合理性，在用户的意图合理时，根据用户的意图进行资源访问，获得目标资源，并将目标资源传输至中央处理单元，最后由中央处理单元针对目标资源进行交互信息输出，从而得到语音输出信息。通过上述技术方案不仅能够快速得到语音识别结果，而且还比较稳定，不会出现回馈延时大或者得不到回馈的现象，并且在线语音识别处理模块根据用户语音实现在互联网海量信息中快速找到有用的消息，在云端平台上访问目标资源，最终放回到设备的中央处理单元，通过中央处理单元进行协同，实现一个完整的人机交互过程；通过云端平台单元使得具有更强大的运算能力，识别率和自由性更高。

本发明提供的一个实施例中，所述离线语音识别处理模块在通过神经网络 RNN模型对预处理后的语音进行语音识别得到语音输出信息时，如图4所示，针对所述预处理后的语音进行特征提取，获得预处理后的语音特征，然后根据所述预处理后的语音特征进行模型训练和模型识别，所述模型训练包括：根据所述语音特征以及调整模型参数对音频进行模型建立，得到初始状态下的神经网络RNN模型，对所述初始状态下的神经网络RNN模型进行模型训练，得到优化神经网络RNN模型模板，并将所述优化神经网络RNN模型模板保存到模型存储单元中；所述模型识别包括：根据所述语音特征在所模型存储单元中进行模型匹配，得到优化神经网络RNN模型，并根据失真判决准则进行识别判断，得到语音输出信息。

上述技术方案中通过采用神经网络RNN模型能够使得离线状态也能对连续语音指令进行交互，针对复杂语音中存在多个指令信息的状况也能够同时识别出来进行执行，解决了单次只能识别一条单一指令的问题，而且当连续语音指令快速识别控制系统处于未联网的状态下或者在网络不是很好的情况下，离线语音识别处理模块针对预处理后的语音进行特征提取，获得预处理后的语音特征，然后根据预处理后的语音特征进行模型训练和模型识别，从而实现通过神经网络RNN模型对预处理后的语音进行语音识别得到语音输出信息的目的。通过对预处理后的语音进行特征提取，获得特征参数，特征参数中包括：基音周期，共振峰，短时平均能量或幅度，(LPC)线性预测系数，自相关函数，(PLP) 感知加权预测系数，(LPCC)线性预测倒谱系数，小波变换系数，(MFCC)梅尔倒谱系数，经验模态分解系数(EMD)，伽马通滤波器系数(GFCC)以及短时平均过零率；在进行模型训练时，根据语音特征以及调整模型参数对音频进行模型建立，得到初始状态下的神经网络RNN模型，对初始状态下的神经网络RNN模型进行模型训练，得到优化神经网络RNN模型模板，并将优化神经网络RNN 模型模板保存到模型存储单元中。运用神经网络RNN模型能够将单帧的信号作为输入，还能够采用拼接帧作为输入，使得说话时出现协同发音现象时能够完整进行识别，提高了识别的准确性；通过对初始状态下的神经网络RNN模型进行模型训练，使得生产模型时运用的调整模型参数通过训练得到优化，从而得到优化的神经网络RNN模型，进而能够使得离线语音识别处理模块在进行识别过程中识别的更加准确。在进行模型识别时，根据语音特征在所模型存储单元中进行模型匹配，得到优化神经网络RNN模型，并根据失真判决准则进行识别判断，而且采用欧式距离，协方差矩阵以及贝叶斯距离作为失真判断准则，从而获得语音输出信息。

本发明提供的一个实施例中，所述神经网络RNN模型是在神经网络DNN 模型的基础上进行改造得到的，包括：深层双向RNN和序列短时分类；所述深层双向RNN是在神经网络DNN模型的隐层上增加一个反馈连接，所述序列短时分类是在神经网络DNN模型的输出层上引入长短时记忆模块。

上述技术方案中，如图5所示，基于神经网络DNN模型进行改进得到神经网络RNN模型，在神经网络DNN模型的隐层上增加了一个反馈连接，当前时刻的输入数据中总有一部分是前一时刻的隐层输出数据，赋予RNN记忆功能，使得模型非常适合用于对时序信号的建模，从而能够实现连续的多操作指令的句子识别；如图6所示，在神经网络DNN模型的输出层上引入长短时记忆模块，实现连续的多操作指令的句子识别，通过引入长短时记忆模块(Long-Short Term Memory，LSTM)解决传统RNN的梯度消失的问题，同时可以在语音识别领域实用化，双向RNN对当前语音帧进行判断时，不仅可以利用历史的语音信息，还可以利用未来的语音信息，从而进行更加准确的决策；序列短时分类 (ConnectionistTemporal Classification，CTC)使得训练过程无需帧级别的标注，实现有效的“端对端”训练。

本发明提供的一个实施例中，对所述初始状态下的神经网络RNN模型进行模型训练是通过矩阵和矢量加速器对训练过程进行加速。

上述技术方案中，矩阵和矢量加速器在对初始状态下的神经网络RNN模型进行训练过程中加速训练过程，由于在对DNN进行模型训练过程中往往会涉及卷积和矩阵的计算，在卷积和矩阵的计算上通常会消耗大量的时间，通过运用矩阵和矢量加速器加速矩阵的乘加运算，达到加速深度学习和模型训练与推理的目的。

如图7所示，本发明提供的一个实施例中，所述连续语音指令快速识别控制系统还包括：文件系统模块、USB模块和外设模块；

上述技术方案中，连续语音指令快速识别控制系统中还设置有文件系统模块、USB模块和外设模块，如图8所示，通过文件系统模块进行信息保存，而且文件系统模块在进行信息保存时采用分级分类保存，在保存成功后会形成根目录和各个等级及类别的子目录，并进行实时更新；如图9所示，通过USB模块进行外接存储数据，根据USB协议栈通过USB接口将USB存储设备和/文件系统模块连接到中央处理单元上；外设模块连接支持IO端口、定时器、看门狗定时器、UART、SPI、I2C、DMA、PLL、USB1.1(全速)、RTC、Quad SPI和SDIO系统级外设功能。搭载文件系统模块，使得当用户将设备通过USB接口与中央处理单元进行连接时，可以充当一个U盘使用，用来存着文档、音乐等内容，也可以通过语音交互方式将会议的内容转换成文本形式保存下来，后期可以根据需求选择是通过语音形式播放出来还是通过USB将文档导出进行二次编辑修正；同时支持将语音设置的备忘录，电话，地址等信息保存，引入最大程度实现了多功能支持，同时也节省了空间，方便用户对资源的管理、编辑、访问。 USB接口一般是一个通用的接口，通过USB连接设备后直接外接到中央处理单元上，可做为中央处理单元的一个移动储存设备，中央处理单元通过USB协议栈可直接对设备中的存储单元进行读写访问；而且USB口有5V电源，也可通过USB接口给其它设备充电，同时还可以结合上面的文件系统使用可以实现录音、文本转语音、语音转文本、备忘录、收藏地址、导入导出联系人等众多功能。外设模块支持IO端口、定时器、看门狗定时器、UART、SPI、I2C、DMA、 PLL、USB1.1(全速)、RTC、Quad SPI、SDIO等系统级外设功能，丰富使用范围。

本发明提供的一个实施例中，所述输出模块在将所述在线语音识别处理模块或所述离线语音识别处理模块得到的语音输出信息输出时，包括：根据所述语音输出信息生成音频信息进行播放和根据所述语音输出信息生成控制信号输向对应的终端设备进行控制，其中，根据所述语音输出信息生成音频信息进行播放包括：将所述输出的语音输出信息转换成目标格式；对目标格式下的语音输出信息进行功放处理后通过喇叭播放出来。

上述技术方案中，输出模块在将在线语音识别处理模块或离线语音识别处理模块得到的语音输出信息输出时，既可以根据语音输出信息生成音频信息进行播放，又可以根据语音输出信息生成控制信号输向对应的终端设备进行控制，而且在根据语音输出信息生成音频信息进行播放时，如图10所示，输出模块先是将语音输出信息转换成目标格式，然后对目标格式下的语音输出信息通过功放进行处理，最后通过喇叭播放处理；通过将语音输出信息转换成PCM或者 ADPCM播放，减小了音频所占用的控制，通过集成一个classd的D类功放对喇叭播放前的语音输出信息的音频进行功率放大，将信号较弱的部分更好的体现出来，内置音频播放功能，喇叭支持最大音频个数限定为254个，支持最多四个音频连续播放，支持识别等引擎提示音播放。上述技术方案不仅支持立体声输出，适用于对音频要求不高的场合，同时还支持外部功放输出立体声，满足了不同场合的要求。

本发明提供的一个实施例中，所述喇叭在将功放处理后目标格式下的语音输出信息播放出来之前还通过所述预处理模块进行回声消除处理；所述预处理模块对功放处理后目标格式下的语音输出信息进行回声消除处理的过程包括：

根据所述功放处理后目标格式下的语音输出信息的信号特征对功放处理后目标格式下的语音输出信息进行归一处理；其中在归一处理时根据如下公式获得归一处理后的功放处理后目标格式下的语音输出信息频率；

上述公式中，w表示归一处理后的功放处理后目标格式下的语音输出信息频率，k表示待定常数，N表示阶数，L表示最大衰减量，ln表示对数函数，a表示功放处理后目标格式下的语音输出信息频率；

对滤波器进行参数配置，并通过滤波器对功放处理后目标格式下的语音输出信息进行滤波处理，得到回声消除后的功放处理后目标格式下的语音输出信息，在对滤波器进行参数配置时，滤波器的带宽根据如下公式进行确定：

上述公式中，DK表示EMC滤波器的带宽,c表示EMC滤波器的过渡带的边界频率，b表示阻带中心频率。

上述技术方案中，预处理模块在喇叭将功放处理后目标格式下的语音输出信息播放出来之前对播放的目标格式下的语音输出信息进行回声消除处理，运用喇叭将根据目标格式下的语音输出信息进行处理与识别得到的语音输出信息播放出来，实现语音交互，运用预处理模块对目标格式下的语音输出信息在播放前进行回声消除处理，使得喇叭播放出来的语音音效更加清晰。喇叭在将功放处理后目标格式下的语音输出信息播放出来之前通过预处理模块进行回声消除处理的过程中，首先，接收功放处理后的目标格式下的语音输出信息，并获得收功放处理后目标格式下的语音输出信息的信号特征；然后，根据收功放处理后目标格式下的语音输出信息的信号特征对功放处理后目标格式下的语音输出信息进行归一处理和对滤波器进行参数配置，最后，通过滤波器对功放处理后目标格式下的语音输出信息进行滤波处理，得到回声消除后的功放处理后的语音输出信息，使得对功放处理后目标格式下的语音输出信息中混入的回音音频频率较弱的通过设置过滤器将其过滤掉，只保存语音输出信息的主频率，从而达到回声消除的目的，进而使得喇叭播放的语音音效更加，提升用户的体验感，此外，通过归一化处理能够降低滤除过程中出现错误的概率，使得滤波器进行滤除处理过程更加的精确，而且在带宽的计算公式中能够放大EMC滤波器的过渡带的边界频率与阻带中心频率之间的关系，使得得到的EMC滤波器的带宽更准确。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种连续语音指令快速识别控制系统，其特征在于，包括：输入模块、预处理模块、在线语音识别处理模块、离线语音识别处理模块和输出模块；

2.根据权利要求1所述的连续语音指令快速识别控制系统，其特征在于，所述连续语音指令快速识别控制系统还包括：唤醒模块；当所述连续语音指令快速识别控制系统在预设时间内未收到用户控制语音时，所述连续语音指令快速识别控制系统进入休眠状态，当再次使用所述连续语音指令快速识别控制系统时，通过所述唤醒模块，利用特定唤醒词将处于休眠状态的连续语音指令快速识别控制系统唤醒进入待命状态。

3.根据权利要求1所述的连续语音指令快速识别控制系统，其特征在于，所述MIC采用线性双麦克风阵列，所述预处理模块在对所述用户控制语音进行音频预处理时包括：

4.根据权利要求1所述的连续语音指令快速识别控制系统，其特征在于，所述在线语音识别处理模块在通过云端平台对预处理后的语音进行语音识别得到语音输出信息时，通过TPC/IP协议获取所述预处理后的语音；针对所述预处理后的语音进行自然语言处理识别出用户的意图；针对所述用户的意图进行意图识别，确定所述用户的意图的合理性；当所述用户的意图合理时，根据所述用户的意图进行资源访问，获得目标资源，并将所述目标资源传输至所述中央处理单元，所述中央处理单元针对所述目标资源进行交互信息输出，得到语音输出信息。

5.根据权利要求1所述的连续语音指令快速识别控制系统，其特征在于，所述离线语音识别处理模块在通过神经网络RNN模型对预处理后的语音进行语音识别得到语音输出信息时，针对所述预处理后的语音进行特征提取，获得预处理后的语音特征，然后根据所述预处理后的语音特征进行模型训练和模型识别，所述模型训练包括：根据所述语音特征以及调整模型参数对音频进行模型建立，得到初始状态下的神经网络RNN模型，对所述初始状态下的神经网络RNN模型进行模型训练，得到优化神经网络RNN模型模板，并将所述优化神经网络RNN模型模板保存到模型存储单元中；所述模型识别包括：根据所述语音特征在所模型存储单元中进行模型匹配，得到优化神经网络RNN模型，并根据失真判决准则进行识别判断，得到语音输出信息。

6.根据权利要求5所述的连续语音指令快速识别控制系统，其特征在于，所述神经网络RNN模型是在神经网络DNN模型的基础上进行改造得到的，包括：深层双向RNN和序列短时分类；所述深层双向RNN是在神经网络DNN模型的隐层上增加一个反馈连接，所述序列短时分类是在神经网络DNN模型的输出层上引入长短时记忆模块。

7.根据权利要求6所述的连续语音指令快速识别控制系统，其特征在于，对所述初始状态下的神经网络RNN模型进行模型训练是通过矩阵和矢量加速器对训练过程进行加速。

8.根据权利要求1所述的连续语音指令快速识别控制系统，其特征在于，所述连续语音指令快速识别控制系统还包括：文件系统模块、USB模块和外设模块；

9.根据权利要求3所述的连续语音指令快速识别控制系统，其特征在于，所述输出模块在将所述在线语音识别处理模块或所述离线语音识别处理模块得到的语音输出信息输出时，包括：根据所述语音输出信息生成音频信息进行播放和根据所述语音输出信息生成控制信号输向对应的终端设备进行控制，其中，根据所述语音输出信息生成音频信息进行播放包括：将所述输出的语音输出信息转换成目标格式；对目标格式下的语音输出信息进行功放处理后通过喇叭播放出来。

10.根据权利要求9所述的连续语音指令快速识别控制系统，其特征在于，所述喇叭在将功放处理后目标格式下的语音输出信息播放出来之前还通过所述预处理模块进行回声消除处理；所述预处理模块对功放处理后目标格式下的语音输出信息进行回声消除处理的过程包括：