CN110930534A

CN110930534A - 一种基于特殊语音识别技术的乘务员自助出退勤方法

Info

Publication number: CN110930534A
Application number: CN201911246586.9A
Authority: CN
Inventors: 吴高峰; 朱高岭; 李云; 刘钰峰
Original assignee: Zhengzhou Improvau Science & Technology Co Ltd
Current assignee: Zhengzhou Improvau Science & Technology Co Ltd
Priority date: 2019-12-07
Filing date: 2019-12-07
Publication date: 2020-03-27

Abstract

本发明提出了一种基于特殊语音识别技术的乘务员自助出退勤方法，其步骤为：首先，乘务员在自助出退勤设备上进行出勤/退勤作业；其次，乘务员进行调度命令复述，自主出退勤设备上的语音识别系统对调度命令复述进行识别；最后，根据识别正确率确认乘务员完成出勤/退勤作业。本发明通过语音识别系统对调度命令复述信号进行预处理和特征提取，实现铁路术语的语音文字的转换，并将转换后的文字与语音识别系统内的方言特征数据库、术语特征数据库进行对比处理，完成乘务员的自助的出退勤作业流程。本发明能够减少值班员的劳动强度，减少出退勤业务的流程人为干预。

Description

一种基于特殊语音识别技术的乘务员自助出退勤方法

技术领域

本发明涉及自助出退勤技术领域，特别是指一种基于特殊语音识别技术的乘务员自助出退勤方法。

背景技术

近年来，随着计算机系统设备、计算机网络设备和传感器技术的发展，铁路系统对乘务员出退勤作业流程的标准化、无人化、高效化要求逐步提高，在此大背景下，自助出退勤设备应运而生。为实现作业流程中“调度命令复述”的功能，虽然使用语音识别技术，但是缺乏基本模型库与自学习模型库，无法对铁路的术语进行处理，因此现有的语音识别技术在辨识术语等非常用的语音过程中，识别率低差错率高。

发明内容

针对上述背景技术中存在的不足，本发明提出一种基于特殊语音识别技术的乘务员自助出退勤方法，解决了自助出退勤设备识别率低、差错率高的技术问题。

本发明的技术方案是这样实现的：

一种基于特殊语音识别技术的乘务员自助出退勤方法，其步骤如下：

S1、乘务员在自助出退勤设备上进行出勤/退勤作业；

S2、乘务员进行调度命令复述；

S3、自主出退勤设备上的语音识别系统对步骤S2中的调度命令复述进行识别：

S31、对调度命令复述信号进行预处理和特征提取获得调度命令复述信号特征；

S32、将步骤S31中的调度命令复述信号特征分别与方言特征数据库、术语特征数据库进行对比处理，得到调度命令复述信号特征参数；

S33、对调度命令复述信号特征参数进行识别，输出术语/方言语音识别率；

S4、判断识别正确率是否大于97％，若是，执行步骤S5，否则，执行步骤S2；

S5、乘务员完成出勤/退勤作业。

所述步骤S31中对调度命令复述信号进行预处理和特征提取的操作包括预处理加重、语音分帧和加窗处理、三角带通滤波处理和离散余弦变换处理。

所述对调度命令复述信号进行预处理加重的方法为：通过一个一阶高通滤波器实现，在时域上输入信号为x[n]，μ为滤波器的参数，预处理加重后的信号为y[n]＝x[n]-μx[n-1]；在频域上预处理加重后的信号表示为：H(z)＝1-μz^-1，其中，z为频域上的输入信号。

所述对调度命令复述信号进行语音分帧和加窗处理的方法为：

y'[n]＝w[n]y[n]，

其中，w[n]为窗函数，

L为帧长，y'[n]为语音分帧和加窗处理后的信号。

所述三角带通滤波处理的方法为：mef(f)＝1125*ln(1+f/700)，其中，f为频率。

所述离散余弦变换处理的方法为：

其中，M为三角滤波器个数，

为滤波器输出的对数能量，

为语音信号的DFT，H_m(k)为三角带通滤波的频率响应。

本技术方案能产生的有益效果：本发明通过语音识别系统对调度命令复述信号进行预处理和特征提取，实现铁路术语的语音文字的转换，并将转换后的文字与语音识别系统内的方言特征数据库、术语特征数据库进行对比处理，完成乘务员的自助的出退勤作业流程。本发明能够减少值班员的劳动强度，减少出退勤业务的流程人为干预。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图。

图2为本发明的语音识别的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种基于特殊语音识别技术的乘务员自助出退勤方法，具体步骤如下：

S1、乘务员在自助出退勤设备上进行出勤/退勤作业。

S2、乘务员进行调度命令复述。

S31、对调度命令复述信号进行预处理和特征提取获得调度命令复述信号特征；预处理和特征提取的操作包括预处理加重、语音分帧和加窗处理、三角带通滤波处理和离散余弦变换处理，如图2所示。

所述对调度命令复述信号进行语音增加信噪比处理和预处理加重的方法为：预处理加重是通过一个一阶高通滤波器实现，在时域上输入信号为x[n]，μ为滤波器的参数，μ∈[0.9,1.0]，本发明中μ＝0.97，预处理加重后的信号为y[n]＝x[n]-μx[n-1]；在频域上预处理加重后的信号表示为：H(z)＝1-μz^-1，其中，z为频域上的输入信号。

先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20～30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是256/8000×1000＝32ms。日常生活中的声音一般是非平稳信号，其统计特性不是固定不变的，但在一段相当短的时间内，可以认为信号是平稳的，这就是加窗。窗由三个参数来描述：窗长(单位毫秒)、偏移和形状。每一个加窗的声音信号叫做一帧，每一帧的毫秒数叫做帧长，相邻两帧左边界的距离叫帧移。

从预处理加重后的信号y[n]中提取一帧的过程可表示为y'[n]＝w[n]y[n]，如果w[n]是矩形窗，则信号会在边界处切断，这些不连续会对傅里叶分析造成影响。因此，加窗一般使用边缘平滑降到0的汉明窗，所述对调度命令复述信号进行语音分帧和加窗处理的方法为：

其中，w[n]为窗函数，L为帧长。

由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为：

其中，N为傅里叶变换的点数。

傅里叶变换的结果包含此帧信号在每一频带的能量信息。但是，人耳听觉对不同频带的敏感度是不同的，人耳对高频不如低频敏感，这一分界线大约是1000Hz，在提取声音特征时模拟人耳听觉这一性质可以提高识别性能。因此，将傅里叶变换输出的频率对应到mel刻度上。1mel是1个音高单位，在音高上感知等距的声音可以被相同数量的mel数分离。频率(单位Hz)和mel刻度之间的对应关系在1000Hz以下是线性的，在1000Hz以上是对数的，计算公式为：

mef(f)＝1125*ln(1+f/700)，

其中，f是信号y'[n]通过傅里叶变换后的频率。

将傅里叶变换的频谱通过一组mel滤波器组就可以转换为mel频谱。Mel滤波器组一般是一组mel刻度的三角形滤波器组，1000Hz以下的10个滤波器线性相隔，1000Hz以上的剩余滤波器对数相隔。定义一个有M个滤波器的滤波器组，采用的滤波器为三角滤波器，中心频率为f(m)，m＝1，2，…，M，M通常取22-26(滤波器的个数和临界带个数相近)。各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽，每个三角带通滤波的频率响应为：

其中，使用三角带通滤波器具体两个作用：1、可以对频谱进行平滑，并消除谐波的作用，突显原始声音的共振峰。2、还可以降低运算量。在得到mel频谱后，计算每个滤波器组输出的对数能量。一般人对声音声压的反应呈对数关系，人对高声压的细微变化敏感度不如低声压。此外，使用对数可以降低提取的特征对输入声音能量变化的敏感度，因为声音与麦克风之间的距离是变化的，因而麦克风采集到的声音能量也是变化的。每个滤波器输出的对数能量为：

尽管可以用mel频谱本身作为声音特征，但使用倒谱有其优点并且可以提高识别性能。抛开预加重和mel刻度转换，倒谱的定义可以看做是频谱对数的频谱，即将标准幅度谱的幅度值先取对数，然后形象化对数谱使其看起来像声音波形。倒谱系数的优点是其不同系数的变化是不相关的，大大减少了参数数量。利用滤波器的对数能量，倒谱系数可以由离散余弦变换获得为：

其中，M为三角滤波器个数。

S32、对调度命令复述信号特征参数进行识别，输出术语/方言语音识别率。

利用神经网络对获取的调度命令复述信号特征参数与方言特征数据库、术语特征数据库匹对识别，神经网络采用开源神经网络模块。

S4、判断识别正确率是否大于97％，若是，执行步骤S5，否则，执行步骤S2。

S5、乘务员完成出勤/退勤作业。

在铁路机车乘务员出退勤作业中，要进行调度命令的诵读，以往诵读过程须在有值班员的前提下，对值班员诵读，并由值班员确认该作业流程已进行。自助出退勤设备要求在值班员不在场的情况下，完成该流程，就需要能够自动识别语言的设备将语言变为文字并进行比对，以确认该作业流程进行完毕。本发明解决了由于铁路的术语较多,比如对数字的读取“洞、幺、拐”(对应数字0、1、7)，现有的出退勤设备无法识别出乘务员的语音，无法实现出退勤的自助化的问题；本发明提高了自助出退勤作业流程的识别率，降低了差错率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于特殊语音识别技术的乘务员自助出退勤方法，其特征在于，其步骤如下：

S1、乘务员在自助出退勤设备上进行出勤/退勤作业；

S2、乘务员进行调度命令复述；

S5、乘务员完成出勤/退勤作业。

2.根据权利要求1所述的基于特殊语音识别技术的乘务员自助出退勤方法，其特征在于，所述步骤S31中对调度命令复述信号进行预处理和特征提取的操作包括预处理加重、语音分帧和加窗处理、三角带通滤波处理和离散余弦变换处理。

3.根据权利要求2所述的基于特殊语音识别技术的乘务员自主出退勤方法，其特征在于，所述对调度命令复述信号进行预处理加重的方法为：通过一个一阶高通滤波器实现，在时域上输入信号为x[n]，μ为滤波器的参数，预处理加重后的信号为y[n]＝x[n]-μx[n-1]；在频域上预处理加重后的信号表示为：H(z)＝1-μz^-1，其中，z为频域上的输入信号。

4.根据权利要求2或3所述的基于特殊语音识别技术的乘务员自助出退勤方法，其特征在于，所述对调度命令复述信号进行语音分帧和加窗处理的方法为：

y'[n]＝w[n]y[n]，

其中，w[n]为窗函数，

L为帧长，y'[n]为语音分帧和加窗处理后的信号。

5.根据权利要求2或3所述的基于特殊语音识别技术的乘务员自助出退勤方法，其特征在于，所述三角带通滤波处理的方法为：mef(f)＝1125*ln(1+f/700)，其中，f为频率。

6.根据权利要求2或3所述的基于特殊语音识别技术的乘务员自助出退勤方法，其特征在于，所述离散余弦变换处理的方法为：

其中，M为三角滤波器个数，

为滤波器输出的对数能量，

为语音信号的DFT，H_m(k)为三角带通滤波的频率响应。