CN112017658A

CN112017658A - 一种基于智能人机交互的操作控制系统

Info

Publication number: CN112017658A
Application number: CN202010887099.7A
Authority: CN
Inventors: 侯祖贵; 杨舸; 卢秋实; 赵鑫
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-01

Abstract

本发明涉及一种基于智能人机交互的操作控制系统，属于语音控制技术领域。本发明提供了一种基于智能人机交互的操作控制系统，该系统中使用智能传感模块进行显控台操作控制，智能传感模块采用麦克风阵列采集用户输入的语音信息，将特定语音短语信息转换成可以控制显控台的文本信息，根据文本信息的具体含义对显控台进行相应的控制。通过声纹识别技术进行身份认证，将声纹信息与注册语音库中的声纹信息进行比对，用以授权用户对显控台进行相应权限的控制。该系统充分利用声纹识别和语音控制，使得设备上的人机交互更加智能、便捷、准确。

Description

一种基于智能人机交互的操作控制系统

技术领域

本发明属于语音控制技术领域，具体涉及一种基于智能人机交互的操作控制系统。

背景技术

智能人机交互操作控制正作为一种新型的沟通平台逐渐走进军用设备研制应用中，人机交互的智能化在一定程度上决定了人机交互的多样性，同样也是关键环节之一。随着机器学习、人工智能等技术的发展，语音识别控制技术也得到了极大的发展，语音识别技术的渐渐成熟，性能及稳定性的发展，使之可以越来越广泛的应用在设备研制中。

生物识别领域中包括多种生物性特征，为了满足社会需要，研究一种迅速、有效、稳定的生物识别技术在当今网络技术普及率极高的情况下，显得尤其必要。声纹识别便在这种情况下应运而生，语言是人类所具有的自然属性之一，是人类进行相互通信和交流的最方便快捷的一种手段，每个人说话都具有各自的生物特征，同其他传统的生物识别技术相比，使用说话人语音对说话人的身份进行识别具有更加简便、准确、经济及可扩展性良好等各种优势。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种基于智能人机交互的操作控制系统，使得设备上的人机交互更加智能、便捷、准确。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于智能人机交互的操作控制系统，包括：语音信息拾取模块、语音信息预处理模块、语音信息特征提取模块、身份认证模块、语音识别控制模块；

所述语音信息拾取模块用于采用麦克风阵列采集用户的语音信号；

所述语音信息预处理模块，用于对语音信息拾取模块输出的语音信号依次进行预加重处理、分帧加窗处理；

所述语音信息特征提取模块，用于对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征；

所述身份认证模块，用于将语音信息特征提取模块提取出语音信息的特征与已建立的用户语音特征库进行比对，通过计算特征值之间的最小距离，得到用户的身份信息，判断用户是否为合法用户及拥有的权限；

所述语音识别控制模块，用于采用DTW技术计算出采集的语音与短语库中短语的最小距离，即将输入的语音转换为文本，根据文本信息进行相应的操作控制。

优选地，所述语音信息拾取模块具体用于通过声波抵达麦克风阵列中每个麦克风之间的微小时差的相互作用，使用阵列算法处理后的指向性波束形成技术来形成一个锥状窄波束，只接收说话人的声音，同时抑制环境中的噪声与干扰。

优选地，所述语音信息预处理模块在预加重处理时具体是将语音信号S(n)中高频部分的频谱进行提升处理，以抑制语音信号的低频干扰。

优选地，所述语音信息预处理模块在预加重处理的实现方式具体是利用一阶的FIR高通滤波器对语音信号进行预加重，FIR高通滤波器的传递函数为H(z)＝1-αz^-1，其中α表示FIR高通滤波器的预加重系数，0.9<α<1.0。

优选地，所述语音信息预处理模块在分帧加窗处理时，其中的分帧是指以20毫秒为帧，1/2的时间作为帧移位帧，其中的帧移位是指相邻两帧之间的重叠区域。

优选地，所述语音信息预处理模块在分帧加窗处理时，分帧加窗处理中的加窗是在分帧之后，通过一个有限长度的窗口在语音信号上进行滑动加权，使成帧后的信号变得连续，具体的计算方式是用窗函数H_m(k)与语音信号相乘。

优选地，所述语音信息特征提取模块具体用于按照如下方法对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征：

步骤1)设对语音信号S(n)进行语音信息预处理后，得到一系列按帧计数的短时语音帧信号x(n)，对提取出的短时语音帧信号x(n)进行快速傅里叶变换FFT，从而计算出短时语音帧信号x(n)的线性频谱X_α(k)：

0≤k≤N-1，N表示x(n)的个数；

步骤2)计算步骤1)中X_α(k)模的平方，得到信号能量谱；

步骤3)定义一个含有M个三角滤波器的滤波器组，三角滤波器的中心频率为f(m)，m＝1,2,…,M，M＝24，各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽；

步骤4)将所述信号能量谱输入所述滤波器组，得到各三角滤波器的输出：

步骤5)计算每个三角滤波器输出的对数能量，然后经过离散余弦变换DCT得MFCC参数：

其中，L表示MFCC系数的阶数，取为16，即提取16阶MFCC系数作为语音信息的特征。

本发明还提供了一种基于所述系统实现的基于智能人机交互的操作控制方法，包括以下步骤：

所述语音信息拾取模块采用麦克风阵列采集用户的语音信号；

所述语音信息预处理模块对语音信息拾取模块输出的语音信号依次进行预加重处理、分帧加窗处理；

所述语音信息特征提取模块对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征；

所述身份认证模块将语音信息特征提取模块提取出语音信息的特征与已建立的用户语音特征库进行比对，通过计算特征值之间的最小距离，得到用户的身份信息，判断用户是否为合法用户及拥有的权限；

所述语音识别控制模块采用DTW技术计算出采集的语音与短语库中短语的最小距离，即将输入的语音转换为文本，根据文本信息进行相应的操作控制。

优选地，所述文本为短语。

本发明还提供了一种所述的系统在语音控制技术领域中的应用。

(三)有益效果

本发明提供了一种基于智能人机交互的操作控制系统，该系统中使用智能传感模块进行显控台操作控制，智能传感模块采用麦克风阵列采集用户输入的语音信息，将特定语音短语信息转换成可以控制显控台的文本信息，根据文本信息的具体含义对显控台进行相应的控制。通过声纹识别技术进行身份认证，将声纹信息与注册语音库中的声纹信息进行比对，用以授权用户对显控台进行相应权限的控制。该系统充分利用声纹识别和语音控制，使得设备上的人机交互更加智能、便捷、准确。

附图说明

图1为本发明的系统实现原理图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明提供了一种基于智能人机交互的操作控制系统，所述系统包括：

语音信息拾取模块、语音信息预处理模块、语音信息特征提取模块、身份认证模块、语音识别控制模块；

所述语音信息拾取模块用于采用麦克风阵列采集用户的语音信号，通过声波抵达麦克风阵列中每个麦克风之间的微小时差的相互作用，使用阵列算法处理后的指向性波束形成技术来形成一个锥状窄波束，只接收说话人的声音，同时抑制环境中的噪声与干扰；

所述语音信息预处理模块，用于对语音信息拾取模块输出的语音信号依次进行预加重处理、分帧加窗处理。

所述预加重处理，是将语音信号S(n)中高频部分的频谱进行提升处理，以抑制语音信号的低频干扰；具体地，利用一阶的FIR高通滤波器对语音信号进行预加重，FIR高通滤波器的传递函数为H(z)＝1-αz-1，其中α表示FIR高通滤波器的预加重系数，0.9<α<1.0；

在10-30ms范围内，可以认为信号是稳定的，因此，所述分帧加窗处理中的分帧是指以20毫秒为帧，1/2的时间作为帧移位帧，其中，帧移位是指相邻两帧之间的重叠区域，以避免相邻两帧的变化；所述分帧加窗处理中的加窗是在分帧之后，通过一个有限长度的窗口在语音信号上进行滑动加权，使成帧后的信号变得连续，具体的计算方式是用窗函数H_m(k)与语音信号相乘。

所述语音信息特征提取模块，用于对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征；具体提取过程如下：

0≤k≤N-1，N表示x(n)的个数；

步骤2)计算步骤1)中X_α(k)模的平方，得到信号能量谱；

所述语音识别控制模块，用于采用DTW技术计算出采集的语音与短语库中短语的最小距离，即将输入的语音转换为文本(短语)，根据文本信息进行相应的操作控制。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于智能人机交互的操作控制系统，其特征在于，包括：语音信息拾取模块、语音信息预处理模块、语音信息特征提取模块、身份认证模块、语音识别控制模块；

2.如权利要求1所述的系统，其特征在于，所述语音信息拾取模块具体用于通过声波抵达麦克风阵列中每个麦克风之间的微小时差的相互作用，使用阵列算法处理后的指向性波束形成技术来形成一个锥状窄波束，只接收说话人的声音，同时抑制环境中的噪声与干扰。

3.如权利要求1所述的系统，其特征在于，所述语音信息预处理模块在预加重处理时具体是将语音信号S(n)中高频部分的频谱进行提升处理，以抑制语音信号的低频干扰。

4.如权利要求3所述的系统，其特征在于，所述语音信息预处理模块在预加重处理的实现方式具体是利用一阶的FIR高通滤波器对语音信号进行预加重，FIR高通滤波器的传递函数为H(z)＝1-αz^-1，其中α表示FIR高通滤波器的预加重系数，0.9<α<1.0。

5.如权利要求4所述的系统，其特征在于，所述语音信息预处理模块在分帧加窗处理时，其中的分帧是指以20毫秒为帧，1/2的时间作为帧移位帧，其中的帧移位是指相邻两帧之间的重叠区域。

6.如权利要求5所述的系统，其特征在于，所述语音信息预处理模块在分帧加窗处理时，分帧加窗处理中的加窗是在分帧之后，通过一个有限长度的窗口在语音信号上进行滑动加权，使成帧后的信号变得连续，具体的计算方式是用窗函数H_m(k)与语音信号相乘。

7.如权利要求6所述的系统，其特征在于，所述语音信息特征提取模块具体用于按照如下方法对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征：

N表示x(n)的个数；

步骤2)计算步骤1)中X_α(k)模的平方，得到信号能量谱；

8.一种基于权利要求1至7中任一项所述系统实现的基于智能人机交互的操作控制方法，其特征在于，包括以下步骤：

9.如权利要求8所述的方法，其特征在于，所述文本为短语。

10.一种如权利要求1至7中任一项所述的系统在语音控制技术领域中的应用。