CN104882141A

CN104882141A - 一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统

Info

Publication number: CN104882141A
Application number: CN201510093489.6A
Authority: CN
Inventors: 夏菽兰; 王吉林
Original assignee: Yangcheng Institute of Technology
Current assignee: Yangcheng Institute of Technology; Yancheng Institute of Technology
Priority date: 2015-03-03
Filing date: 2015-03-03
Publication date: 2015-09-02

Abstract

本发明涉及一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统及其实现方法。结合主机端的控制软件和投影机端控制装置构成整个系统。将语音控制技术集成到原有的串口控制技术之上，实现了基于串口的语音控制，更加方便用户灵活控制投影仪。用户发送语音控制命令控制投影机的操作，其中在其中的语音识别部分，采用了基于时延神经网络和隐马尔可夫模型的识别方法。该投影装置会反馈对应的语音消息给使用者，使用户无需通过目视观察即可确认该投影装置当前的状态。

Description

一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统

技术领域

本发明涉及一种投影控制系统；特别涉及一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统及其实现方法。

背景技术

随着投影技术的不断提升，投影仪在实际应用中的范围越来越广，不断深入到人们的工作、学习和生活中。随着科学技术的不断发展，人们对自动化、智能化控制需求也越来越高，在会议、学校、工程中等各种涉及到投影应用的场合，能够实现一种自动化控制投影系统是必然的发展趋势。

投影机一般都会有串口，从而可以实现串口控制。通过RS232串口线连接投影机与一台电脑主机，通过主机端发送相应的控制码可以实现投影机的开、关、视频和VGA1、VGA2的切换等。这种串口控制在工程应用中非常方便，对设备要求很低。

语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技术。语音识别经过四十多年的发展，显示出了巨大的应用前景。另外随着语音识别技术的不断成熟，语音控制在智能化控制中不断得到应用和普及。将语音控制技术集成到原有的串口控制技术之上，可以实现基于串口的语音控制。

在一些大型会议或者大型展会中，需要投影仪演示一些会议内容、会议报告或展会中播放的图片视频等，而传统的一般这种投影仪都会与一台电脑主机相连，通过计算机控制显示的内容。在这些场合中，往往需要在后台对投影机实现控制，后台工作人员可以通过串口通信和语音交互实现远程控制。

发明内容

本发明要解决的技术问题是提供一种投影仪的控制方法，在基于RS232串口控制基础上加上语音控制方法方便用户灵活控制投影仪。用户发送语音控制命令控制投影机的一些操作，该投影装置会反馈对应的语音提示给使用者，使用户无需通过目视观察即可确认该投影装置当前的状态。

为了达到上述目的，本发明提供了一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统，其特征在于，在投影机端集成一套装置，该装置包含输入单元、存储单元、传输单元、处理单元及输出单元；输入单元用于接收串口发来的命令消息，该消息是对用户发出的语音命令经过处理后得到，用户发出的语音信号，通过麦克风录入；存储单元用以储存用户的语音控制命令，并且存储了一定的语音库，当有新的语音命令时，会更新语音库，在该单元中会先预设定几个控制命令用于查找匹配；传输单元用于RS232串口线上的数据传输；处理单元通过处理用户的语音命令进行语音数据库的更新和对用户语音命令与存储的控制命令进行匹配查找，按照对应的控制命令执行相应的操作；输出单元一方面用以向串口线输出投影机反馈的命令信号，发回给连接投影机的电脑主机，另一方面通过音频输出设备输出反馈的语音；

该投影控制系统的基本流程包括：

（1-1）获取语音信号并对语音数据进行处理，转换成语音命令；

（1-2）在主机端对语音命令进行数据转换，将得到的命令消息通过串口发送给投影仪；

（1-3）在投影仪端，根据预设的语音信号与控制指令的对应关系，查找并获取所述语音信号对应的控制指令；

（1-4）根据控制命令，投影仪执行相应的操作；

（1-5）投影机通过串口线将反馈信息发送给主机，并且再次经过数据转换得到命令文本，再经过语音合成得到反馈信息的语音；

在系统正式投入使用之前，需要预先训练投影仪端的控制装置，在存储单元中导入语音库和预先建立对投影仪的控制命令，从而建立录入的语音命令和控制指令间的对应关系。

进一步的，与该系统相配套的语音控制方法的工作流程如下：

（2-1）通过音频录入设备获取到用户的语音命令；

（2-2）通过基于时延神经网络和隐马尔可夫模型的语音识别方法将语音命令转换成对应的文本；

（2-3）对文本经过数据转换，向串口发送相应的消息；

（2-4）当接收到投影仪端发送回来的反馈消息，进行数据转换得到文本信息，经过语音合成得到反馈信息的语音，用户便得知当前投影仪的状态信息。

进一步的，所述的基于时延神经网络和隐马尔可夫模型的语音识别方法包括如下步骤：

（3-1）预处理与特征提取

首先，使用了基于能量和过零率的方法进行静音检测，并用谱减法去除噪声，而后采用f(z)=1-0.97z ^-1的滤波器对语音信号进行预加重，采用长度为50ms和窗移为20ms的汉明窗进行分帧，并进行15阶的线性预测（LPC）分析，然后从得到的LPC系数中求出13阶倒谱系数作为语音识别的特征向量；

（3-2）训练

训练时，将提取出的特征向量经过延迟后进入时延神经网络（TDNN），TDNN学习特征向量的结构，提取特征向量序列的时间信息；然后把学习结果以残差特征向量的形式提供给隐马尔可夫模型（HMM），采用Baum-Welch算法进行HMM模型训练，并且利用带惯性的向后反演方法更新TDNN的权系数；具体训练过程如下：

（3-2-1）确定HMM模型和TDNN结构：

HMM的概率密度函数是由初始状态矢量，状态转移矩阵和输出概率分布三组参数表示；

对于TDNN，特征向量经过线性延迟块的延迟后，作为TDNN的输入，TDNN对输入进行非线性变换，然后线性加权，得到输出向量，再与特征向量比较，通常使用的准则是最小均方准则（MMSE）；具体来说，TDNN的隐含层的神经元数目与输入层的神经元的数目的比例为4：3，非线性激活S函数为，为经过加权求和后的输入；训练时，神经网络的惯性系数；

（3-2-2）设定收敛条件和最大迭代次数；具体而言，收敛条件为相邻两次HMM系数与TDNN权系数的欧式距离小于0.0001，最大迭代次数通常不大于100；

（3-2-3）确定初始迭代的TDNN和HMM模型参数；TDNN的初始系数设定为由计算机产生的伪随机数，HMM中，H=6，J=3，和和中的参数在满足，，条件的前提下随机产生；

（3-2-4）把特征向量输入TDNN网络，将通过TDNN之前的特征向量与TDNN的输出特征向量相减，得到所有的残差向量；

（3-2-5）采用Baum-Welch算法修正HMM模型中的和和参数；

（3-2-6）利用修正后的HMM模型各个高斯分布的权系数，均值向量和方差，把残差带入，得到一个似然概率，利用带惯性的向后反演方法修正TDNN参数；

TDNN参数通过使下式中的函数极大化得到：

其中为神经网络输出，为输入的特征矢量；

对上式取对数后再取负，得到：

采用带惯性的向后反演方法求其迭代公式如下：

其中，，为第m次迭代中，连接输入和输出的权系数，k为神经网络的层序号，为迭代步长，，为惯性系数；

（3-2-7）判断是否满足步骤（2-2）中设定的收敛条件或者是否达到最大迭代次数，如果是，则停止训练，否则，跳至步骤（2-4）；

（3-3）识别

识别时，特征向量序列经过延迟后输入TDNN；然后将与TDNN的输出序列相减所得到的残差序列提供给HMM模型，对于T个残差矢量的序列R=R₁,R_2,…_,R，它的HMM概率可以写为：

在对数域表示为：

识别时运用贝叶斯定理，在N个未知话者的模型中，似然概率最大的模型对应的话者即为目标说话人：

。

综上所述，本系统将所述控制装置和投影仪集成在一起结合主机端的语音控制软件构成一个投影系统。该系统可有效解决远距离语音控制投影装置的问题，通过串口线传输处理后的语音数据和语音命令。

附图说明

图1为本发明所述的投影仪控制系统的整体框图；

图2为本发明所述的实现语音控制的流程示意图；

图3为本发明所述的投影仪的控制装置模块示意图；

图4为本发明所述的控制软件的语音处理工作示意图；

图5为本系统的整体工作流程图。

具体实施方式

本发明的实施针对现有技术中控制投影仪方式比较单一的问题，是在传统串口通信控制基础之上加入语音控制的一种投影仪装置和系统。

为使本发明的实施要解决的技术问题和技术方案更加清楚，下面将结合附图及具体实施进行详细描述。

如图1所示，为本发明所述的投影仪控制系统的整体结构简图，包括:一台电脑主机，一台与电脑相连的投影仪，一个语音录入装置和已经编写好的控制软件。

其中电脑主机与投影仪通过RS232串口线连接建立通信，通过主机端发送指令控制投影机的相关操作；语音录入装置通过音频输入接口与计算机相连，接收用户输入的语音控制信号然后输入到控制软件进行数据转换；该编写好的控制软件对接收到的语音输入信号进行处理得到成对应的文本信息，然后进行数据转换成对应的串口命令发送给投影机，投影机接收到串口命令后与已有的控制命令进行查找和匹配，然后执行相应的操作，并反馈一个串口消息给控制软件，控制软件进行处理后得到反馈的语音。

如图2所示，为该投影仪控制系统中的主机端语音处理模块，该模块的核心程序是基于时延神经网络（TDNN）和隐马尔可夫模型（HMM）的语音识别和Microsoft Speech SDK开发的语音合成，已经集成到图1中的控制软件中。

基于时延神经网络和隐马尔可夫模型的语音识别方法的步骤如下：

（1）预处理与特征提取；

首先，使用了基于能量和过零率的方法进行静音检测，并用谱减法去除噪声，而后采用f(z)=1-0.97z ^-1的滤波器对语音信号进行预加重，采用长度为50ms和窗移为20ms的汉明窗进行分帧，并进行15阶的线性预测（LPC）分析，然后从得到的LPC系数中求出13阶倒谱系数作为语音识别的特征向量。

（2）训练；

训练时，将提取出的特征向量经过延迟后作为TDNN的输入，TDNN学习特征向量的结构，提取特征向量序列的时间信息。然后把学习结果以残差特征向量的形式提供给隐马尔可夫模型（HMM），采用Baum-Welch算法进行HMM模型训练，并且利用带惯性的向后反演方法更新TDNN的网络的权系数。具体训练过程如下：

（2-1）确定HMM模型和TDNN结构：

这里，HMM的概率密度函数是由初始状态矢量，状态转移矩阵和输出概率分布三组参数表示。

对于TDNN，特征向量经过线性延迟块的延迟后，作为TDNN的输入，TDNN对输入进行非线性变换，然后线性加权，得到输出向量，再与特征向量比较，通常使用的准则是最小均方准则（MMSE）。具体来说，TDNN的隐含层的神经元数目与输入层的神经元的数目的比例为4：3，非线性激活S函数为，为经过加权求和后的输入。训练时，神经网络的惯性系数。

（2-2）设定收敛条件和最大迭代次数；具体而言，收敛条件为相邻两次HMM参数与TDNN权系数的欧式距离小于0.0001，最大迭代次数通常不大于100。

（2-3）确定初始迭代的TDNN和HMM模型参数；TDNN的初始系数设定为由计算机产生的伪随机数，HMM中，H=6，J=3，和和中的参数在满足，，条件的前提下随机产生。

（2-4）把特征向量输入TDNN网络，将通过TDNN之前的特征向量与TDNN的输出特征向量相减，得到所有的残差向量；

（2-5）采用Baum-Welch算法修正HMM模型中的和和参数；

（2-6）利用修正后的HMM中的各参数，把残差带入，得到一个似然概率，利用带惯性的向后反演方法修正TDNN参数；

TDNN网络参数通过使下式中的函数极大化得到：

其中为神经网络输出，为输入的特征矢量。

对上式取对数后再取负，得到：

采用带惯性的向后反演方法求其迭代公式如下：

其中，，为第m次迭代中，连接输入和输出的权系数，k为神经网络的层序号，为迭代步长，，为惯性系数。

（2-7）判断是否满足步骤（2-2）中设定的收敛条件或者是否达到最大迭代次数，如果是，则停止训练，否则，跳至步骤（2-4）。

（3）语音识别

识别时，特征向量序列经过延迟后输入TDNN。然后将与TDNN的输出序列相减所得到的残差序列提供给HMM模型，对于T个残差矢量的序列R=R₁,R_2,…_,R_T，它的HMM概率可以写为：

在对数域表示为：

识别时运用贝叶斯定理，在N个训练好语音模型中，似然概率最大的模型对应的语音即为识别结果：

在所述的一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法中，所述的的计算过程如下：

在TDNN网络中，，，为第k层第i个神经元输入样本时的输出，为第k层第i个神经元输入样本时的输入，为激活函数。那么：

在所述的一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法中，所述的计算过程分为TDNN的输出层和隐含层两种情况；

对于输出层：

其中：，

对于隐含层：

语音录入装置，用于当投影仪上工作时，获取用户输入的语音信号，并将获取到的语音信息发送至主机，利用Speech SDK中的语音识别引擎，通过控制软件处理得到正确的文本命令然后进行数据转换通过串口发送；

投影机端会根据主机发送来的消息进行查找和匹配，执行相应的操作后会返回对应操作的反馈信息，经过串口传回给主机，进行转换得到文本命令，然后通过TTS(Text To Sound)用户得到反馈的语音信息。

如图3所示，为投影机端集成控制模块。该控制模块包含输入单元、存储单元、传输单元、处理单元及输出单元。

输入单元用于接收主机通过串口发过来的命令信息，该命令信息是用户语音命令通过语音识别得到文本命令然后进行格式转换得到的字符串信息；

存储单元用以储存用户的语音控制命令，在该单元中会先预设定控制命令，这些控制命令是提前录入，从而建立用户输入语音命令与这些设定的控制命令间的对应关系；另外存储单元用以储存多个语音数据，其中多个语音数据可包含多个不同的语言群组(如中文、英文、日文及法文等等)及各种不同的语音提示内容(如开机、关机、灯灭及过热等等)，上述多国语言及语音提示内容可视实际情况而增加或减少，并非用以限制本发明的范围；

传输单元用于RS232串口线上的数据传输；

处理单元通过串口接收到的信息即已经经过处理的用户语音命令，然后与存储的与设定的控制命令进行匹配查找，按照对应的控制命令执行相应的操作，并反馈一个信息给输出单元；另外在投影机中有界面语言选择，处理单元会根据投影的设置，选择存储单元中对应的语音数据库。

输出单元一方面将投影机反馈的信息通过串口线发回给连接投影机的电脑主机，另一方面输出单元根据选定的语音数据，通过音频输出播放出相应的语音。

所述语音信号对应的控制指令包括：对投影仪的打开、关闭、VGA1、VGA2、视频以及显示内容进行上翻页或者下翻页的指令。

如图4所示，为该投影系统的控制软件的运作流程。

该控制软件为该投影系统和语音录入装置的中控部分；

主要为串口通信程序，然后加入语音控制程序部分；

在串口通信部分里，读入投影机的串口参数配置文件后即可实现投影机与串口的通信连接；

在语音录入装置中，通过Speech SDK中的语音识别引擎，将语音翻译成文本，在程序中通过数据转换得到命令信息发送给串口；

投影机执行操作后，发送对应的串口信息返回给该控制软件，然后将其转换成文本，最后通过TTS(Text To Sound)，用户得到反馈的语音信息，即获得了当然投影机的操作状态。

在本系统中，投影装置上还可通过传输接口与外部装置(例如电脑)连接。从而，电脑可通过传输接口存取存储单元的信息，以更新其中的语音数据，也就是电脑可将更新的语音数据储存至存储单元，或者将存储单元内己储存的语音数据覆写为新的语音数据。在本实例中，传输接口可以为RS232及USB等标准接口或特定接口，而外部装置可为电脑、个人数字助理、便携式电子装置等装置，上述示例仅为方便说明本系统方案的实施，并非用以限制本发明的范围。

图5所示，为本发明投影仪控制系统的整体工作流程图。

步骤1：打开主机端的控制软件，用串口线连接主机和投影仪，语音录入装置接入主机端，这时候系统处于启动状态；

步骤2：等待用户发出语音控制命令，开启整个系统的运作；

步骤3：用户通过语音录入装置发出语音控制命令，输入到控制软件；

步骤4：控制系统基于时延神经网络，开始进行语音训练和语音识别识别，得到对应的文本信息，然后进行处理将数据转换为相应的串口命令；

步骤5：根据识别的结果，将处理后得到的串口命令发送给投影机端；

步骤6：投影仪端收到串口命令后，与已有的控制命令进行查找和匹配，完成对应的操作。然后发送一个反馈消息给主机端；

步骤7：主机端收到反馈消息后，控制软件对其进行处理，转换数据得到文本信息。然后通过语音合成，得到反馈消息对应的语音；

步骤8：用户收到反馈回来的语音消息后，便得到了投影机当前的状态信息，整个系统完成一次完整的运作。然后等待用户发出下一个语音控制命令，继续系统的运作。

本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims

1.一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统，其特征在于，在投影机端集成一套装置，该装置包含输入单元、存储单元、传输单元、处理单元及输出单元；输入单元用于接收串口发来的命令消息，该消息是对用户发出的语音命令经过处理后得到，用户发出的语音信号，通过麦克风录入；存储单元用以储存用户的语音控制命令，并且存储了一定的语音库，当有新的语音命令时，会更新语音库，在该单元中会先预设定几个控制命令用于查找匹配；传输单元用于RS232串口线上的数据传输；处理单元通过处理用户的语音命令进行语音数据库的更新和对用户语音命令与存储的控制命令进行匹配查找，按照对应的控制命令执行相应的操作；输出单元一方面用以向串口线输出投影机反馈的命令信号，发回给连接投影机的电脑主机，另一方面通过音频输出设备输出反馈的语音；

该投影控制系统的基本流程包括:

（1-4）根据控制命令，投影仪执行相应的操作；

2.根据权利要求1所述的一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统，其特征在于，与该系统相配套的语音控制方法的工作流程如下：

（2-1）通过音频录入设备获取到用户的语音命令；

（2-3）对文本经过数据转换，向串口发送相应的消息；

3.根据权利要求2所述的一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统，其特征在于，所述的基于时延神经网络和隐马尔可夫模型的语音识别方法包括如下步骤：

（3-1）预处理与特征提取

（3-2）训练

（3-2-1）确定HMM模型和TDNN结构：

（3-2-5）采用Baum-Welch算法修正HMM模型中的和和参数；

TDNN参数通过使下式中的函数极大化得到：

其中为神经网络输出，为输入的特征矢量；

对上式取对数后再取负，得到：

采用带惯性的向后反演方法求其迭代公式如下：

（3-3）识别

识别时，特征向量序列经过延迟后输入TDNN；然后将与TDNN的输出序列相减所得到的残差序列提供给HMM模型，对于T个残差矢量的序列，它的HMM概率可以写为：

在对数域表示为：

。