CN110930534A - 一种基于特殊语音识别技术的乘务员自助出退勤方法 - Google Patents
一种基于特殊语音识别技术的乘务员自助出退勤方法 Download PDFInfo
- Publication number
- CN110930534A CN110930534A CN201911246586.9A CN201911246586A CN110930534A CN 110930534 A CN110930534 A CN 110930534A CN 201911246586 A CN201911246586 A CN 201911246586A CN 110930534 A CN110930534 A CN 110930534A
- Authority
- CN
- China
- Prior art keywords
- attendance
- crew
- voice recognition
- self
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000005516 engineering process Methods 0.000 title claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000009432 framing Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 12
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000001228 spectrum Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000003137 locomotive effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C1/00—Registering, indicating or recording the time of events or elapsed time, e.g. time-recorders for work people
- G07C1/10—Registering, indicating or recording the time of events or elapsed time, e.g. time-recorders for work people together with the recording, indicating or registering of other data, e.g. of signs of identity
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于特殊语音识别技术的乘务员自助出退勤方法,其步骤为:首先,乘务员在自助出退勤设备上进行出勤/退勤作业;其次,乘务员进行调度命令复述,自主出退勤设备上的语音识别系统对调度命令复述进行识别;最后,根据识别正确率确认乘务员完成出勤/退勤作业。本发明通过语音识别系统对调度命令复述信号进行预处理和特征提取,实现铁路术语的语音文字的转换,并将转换后的文字与语音识别系统内的方言特征数据库、术语特征数据库进行对比处理,完成乘务员的自助的出退勤作业流程。本发明能够减少值班员的劳动强度,减少出退勤业务的流程人为干预。
Description
技术领域
本发明涉及自助出退勤技术领域,特别是指一种基于特殊语音识别技术的乘务员自助出退勤方法。
背景技术
近年来,随着计算机系统设备、计算机网络设备和传感器技术的发展,铁路系统对乘务员出退勤作业流程的标准化、无人化、高效化要求逐步提高,在此大背景下,自助出退勤设备应运而生。为实现作业流程中“调度命令复述”的功能,虽然使用语音识别技术,但是缺乏基本模型库与自学习模型库,无法对铁路的术语进行处理,因此现有的语音识别技术在辨识术语等非常用的语音过程中,识别率低差错率高。
发明内容
针对上述背景技术中存在的不足,本发明提出一种基于特殊语音识别技术的乘务员自助出退勤方法,解决了自助出退勤设备识别率低、差错率高的技术问题。
本发明的技术方案是这样实现的:
一种基于特殊语音识别技术的乘务员自助出退勤方法,其步骤如下:
S1、乘务员在自助出退勤设备上进行出勤/退勤作业;
S2、乘务员进行调度命令复述;
S3、自主出退勤设备上的语音识别系统对步骤S2中的调度命令复述进行识别:
S31、对调度命令复述信号进行预处理和特征提取获得调度命令复述信号特征;
S32、将步骤S31中的调度命令复述信号特征分别与方言特征数据库、术语特征数据库进行对比处理,得到调度命令复述信号特征参数;
S33、对调度命令复述信号特征参数进行识别,输出术语/方言语音识别率;
S4、判断识别正确率是否大于97%,若是,执行步骤S5,否则,执行步骤S2;
S5、乘务员完成出勤/退勤作业。
所述步骤S31中对调度命令复述信号进行预处理和特征提取的操作包括预处理加重、语音分帧和加窗处理、三角带通滤波处理和离散余弦变换处理。
所述对调度命令复述信号进行预处理加重的方法为:通过一个一阶高通滤波器实现,在时域上输入信号为x[n],μ为滤波器的参数,预处理加重后的信号为y[n]=x[n]-μx[n-1];在频域上预处理加重后的信号表示为:H(z)=1-μz-1,其中,z为频域上的输入信号。
所述对调度命令复述信号进行语音分帧和加窗处理的方法为:
y'[n]=w[n]y[n],
所述三角带通滤波处理的方法为:mef(f)=1125*ln(1+f/700),其中,f为频率。
本技术方案能产生的有益效果:本发明通过语音识别系统对调度命令复述信号进行预处理和特征提取,实现铁路术语的语音文字的转换,并将转换后的文字与语音识别系统内的方言特征数据库、术语特征数据库进行对比处理,完成乘务员的自助的出退勤作业流程。本发明能够减少值班员的劳动强度,减少出退勤业务的流程人为干预。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程图。
图2为本发明的语音识别的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于特殊语音识别技术的乘务员自助出退勤方法,具体步骤如下:
S1、乘务员在自助出退勤设备上进行出勤/退勤作业。
S2、乘务员进行调度命令复述。
S3、自主出退勤设备上的语音识别系统对步骤S2中的调度命令复述进行识别:
S31、对调度命令复述信号进行预处理和特征提取获得调度命令复述信号特征;预处理和特征提取的操作包括预处理加重、语音分帧和加窗处理、三角带通滤波处理和离散余弦变换处理,如图2所示。
所述对调度命令复述信号进行语音增加信噪比处理和预处理加重的方法为:预处理加重是通过一个一阶高通滤波器实现,在时域上输入信号为x[n],μ为滤波器的参数,μ∈[0.9,1.0],本发明中μ=0.97,预处理加重后的信号为y[n]=x[n]-μx[n-1];在频域上预处理加重后的信号表示为:H(z)=1-μz-1,其中,z为频域上的输入信号。
先将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。日常生活中的声音一般是非平稳信号,其统计特性不是固定不变的,但在一段相当短的时间内,可以认为信号是平稳的,这就是加窗。窗由三个参数来描述:窗长(单位毫秒)、偏移和形状。每一个加窗的声音信号叫做一帧,每一帧的毫秒数叫做帧长,相邻两帧左边界的距离叫帧移。
从预处理加重后的信号y[n]中提取一帧的过程可表示为y'[n]=w[n]y[n],如果w[n]是矩形窗,则信号会在边界处切断,这些不连续会对傅里叶分析造成影响。因此,加窗一般使用边缘平滑降到0的汉明窗,所述对调度命令复述信号进行语音分帧和加窗处理的方法为:
其中,w[n]为窗函数,L为帧长。
由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为:
其中,N为傅里叶变换的点数。
傅里叶变换的结果包含此帧信号在每一频带的能量信息。但是,人耳听觉对不同频带的敏感度是不同的,人耳对高频不如低频敏感,这一分界线大约是1000Hz,在提取声音特征时模拟人耳听觉这一性质可以提高识别性能。因此,将傅里叶变换输出的频率对应到mel刻度上。1mel是1个音高单位,在音高上感知等距的声音可以被相同数量的mel数分离。频率(单位Hz)和mel刻度之间的对应关系在1000Hz以下是线性的,在1000Hz以上是对数的,计算公式为:
mef(f)=1125*ln(1+f/700),
其中,f是信号y'[n]通过傅里叶变换后的频率。
将傅里叶变换的频谱通过一组mel滤波器组就可以转换为mel频谱。Mel滤波器组一般是一组mel刻度的三角形滤波器组,1000Hz以下的10个滤波器线性相隔,1000Hz以上的剩余滤波器对数相隔。定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,…,M,M通常取22-26(滤波器的个数和临界带个数相近)。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽,每个三角带通滤波的频率响应为:
其中,使用三角带通滤波器具体两个作用:1、可以对频谱进行平滑,并消除谐波的作用,突显原始声音的共振峰。2、还可以降低运算量。在得到mel频谱后,计算每个滤波器组输出的对数能量。一般人对声音声压的反应呈对数关系,人对高声压的细微变化敏感度不如低声压。此外,使用对数可以降低提取的特征对输入声音能量变化的敏感度,因为声音与麦克风之间的距离是变化的,因而麦克风采集到的声音能量也是变化的。每个滤波器输出的对数能量为:
尽管可以用mel频谱本身作为声音特征,但使用倒谱有其优点并且可以提高识别性能。抛开预加重和mel刻度转换,倒谱的定义可以看做是频谱对数的频谱,即将标准幅度谱的幅度值先取对数,然后形象化对数谱使其看起来像声音波形。倒谱系数的优点是其不同系数的变化是不相关的,大大减少了参数数量。利用滤波器的对数能量,倒谱系数可以由离散余弦变换获得为:其中,M为三角滤波器个数。
S32、对调度命令复述信号特征参数进行识别,输出术语/方言语音识别率。
利用神经网络对获取的调度命令复述信号特征参数与方言特征数据库、术语特征数据库匹对识别,神经网络采用开源神经网络模块。
S4、判断识别正确率是否大于97%,若是,执行步骤S5,否则,执行步骤S2。
S5、乘务员完成出勤/退勤作业。
在铁路机车乘务员出退勤作业中,要进行调度命令的诵读,以往诵读过程须在有值班员的前提下,对值班员诵读,并由值班员确认该作业流程已进行。自助出退勤设备要求在值班员不在场的情况下,完成该流程,就需要能够自动识别语言的设备将语言变为文字并进行比对,以确认该作业流程进行完毕。本发明解决了由于铁路的术语较多,比如对数字的读取“洞、幺、拐”(对应数字0、1、7),现有的出退勤设备无法识别出乘务员的语音,无法实现出退勤的自助化的问题;本发明提高了自助出退勤作业流程的识别率,降低了差错率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于特殊语音识别技术的乘务员自助出退勤方法,其特征在于,其步骤如下:
S1、乘务员在自助出退勤设备上进行出勤/退勤作业;
S2、乘务员进行调度命令复述;
S3、自主出退勤设备上的语音识别系统对步骤S2中的调度命令复述进行识别:
S31、对调度命令复述信号进行预处理和特征提取获得调度命令复述信号特征;
S32、将步骤S31中的调度命令复述信号特征分别与方言特征数据库、术语特征数据库进行对比处理,得到调度命令复述信号特征参数;
S33、对调度命令复述信号特征参数进行识别,输出术语/方言语音识别率;
S4、判断识别正确率是否大于97%,若是,执行步骤S5,否则,执行步骤S2;
S5、乘务员完成出勤/退勤作业。
2.根据权利要求1所述的基于特殊语音识别技术的乘务员自助出退勤方法,其特征在于,所述步骤S31中对调度命令复述信号进行预处理和特征提取的操作包括预处理加重、语音分帧和加窗处理、三角带通滤波处理和离散余弦变换处理。
3.根据权利要求2所述的基于特殊语音识别技术的乘务员自主出退勤方法,其特征在于,所述对调度命令复述信号进行预处理加重的方法为:通过一个一阶高通滤波器实现,在时域上输入信号为x[n],μ为滤波器的参数,预处理加重后的信号为y[n]=x[n]-μx[n-1];在频域上预处理加重后的信号表示为:H(z)=1-μz-1,其中,z为频域上的输入信号。
5.根据权利要求2或3所述的基于特殊语音识别技术的乘务员自助出退勤方法,其特征在于,所述三角带通滤波处理的方法为:mef(f)=1125*ln(1+f/700),其中,f为频率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911246586.9A CN110930534A (zh) | 2019-12-07 | 2019-12-07 | 一种基于特殊语音识别技术的乘务员自助出退勤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911246586.9A CN110930534A (zh) | 2019-12-07 | 2019-12-07 | 一种基于特殊语音识别技术的乘务员自助出退勤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110930534A true CN110930534A (zh) | 2020-03-27 |
Family
ID=69858352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911246586.9A Pending CN110930534A (zh) | 2019-12-07 | 2019-12-07 | 一种基于特殊语音识别技术的乘务员自助出退勤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110930534A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936967A (zh) * | 2005-09-20 | 2007-03-28 | 吴田平 | 声纹考勤机 |
JP2009205188A (ja) * | 2008-01-31 | 2009-09-10 | Takeo Minomiya | 情報管理システム |
CN106230853A (zh) * | 2016-08-29 | 2016-12-14 | 陕西西北铁道电子有限公司 | 一种轨道车安全防护系统 |
CN106934870A (zh) * | 2017-02-17 | 2017-07-07 | 安徽金猫数字科技有限公司 | 一种语音考勤系统 |
CN206628007U (zh) * | 2016-12-26 | 2017-11-10 | 河南思维信息技术有限公司 | 调机乘务员出退勤管理一体机 |
-
2019
- 2019-12-07 CN CN201911246586.9A patent/CN110930534A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936967A (zh) * | 2005-09-20 | 2007-03-28 | 吴田平 | 声纹考勤机 |
JP2009205188A (ja) * | 2008-01-31 | 2009-09-10 | Takeo Minomiya | 情報管理システム |
CN106230853A (zh) * | 2016-08-29 | 2016-12-14 | 陕西西北铁道电子有限公司 | 一种轨道车安全防护系统 |
CN206628007U (zh) * | 2016-12-26 | 2017-11-10 | 河南思维信息技术有限公司 | 调机乘务员出退勤管理一体机 |
CN106934870A (zh) * | 2017-02-17 | 2017-07-07 | 安徽金猫数字科技有限公司 | 一种语音考勤系统 |
Non-Patent Citations (4)
Title |
---|
丛珠峰: "浅谈动车组随车机械师出退勤管理及分析系统", 《科学技术创新》 * |
北方工业大学教务处: "《创想启动未来:北方工业大学2011年"北京市大学生科学研究与创业行动计划"研究报告论文集》", 30 November 2012 * |
韩冰: "《数字音视频处理》", 31 October 2018 * |
韩志艳: "《语音识别及语音可视化技术研究》", 31 January 2017 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kurzekar et al. | A comparative study of feature extraction techniques for speech recognition system | |
CN102543073B (zh) | 一种沪语语音识别信息处理方法 | |
CN109256138B (zh) | 身份验证方法、终端设备及计算机可读存储介质 | |
Xiao et al. | Normalization of the speech modulation spectra for robust speech recognition | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN103646649A (zh) | 一种高效的语音检测方法 | |
CN104078039A (zh) | 基于隐马尔科夫模型的家用服务机器人语音识别系统 | |
Nwe et al. | Detection of stress and emotion in speech using traditional and FFT based log energy features | |
CN101930733B (zh) | 一种用于语音情感识别的语音情感特征提取方法 | |
CN108682432B (zh) | 语音情感识别装置 | |
CN103985390A (zh) | 一种基于伽马通相关图语音特征参数提取方法 | |
CN109215634A (zh) | 一种多词语音控制通断装置的方法及其系统 | |
CN112542174A (zh) | 基于vad的多维特征参数声纹识别方法 | |
CN107039035A (zh) | 一种语音起始点和终止点的检测方法 | |
CN113823293A (zh) | 一种基于语音增强的说话人识别方法及系统 | |
Hasan et al. | Preprocessing of continuous bengali speech for feature extraction | |
Riazati Seresht et al. | Spectro-temporal power spectrum features for noise robust ASR | |
CN112151066A (zh) | 基于声音特征识别的语言冲突监测方法、介质及设备 | |
CN110415707B (zh) | 一种基于语音特征融合和gmm的说话人识别方法 | |
CN115938364A (zh) | 一种智能识别控制方法、终端设备及可读存储介质 | |
CN110930534A (zh) | 一种基于特殊语音识别技术的乘务员自助出退勤方法 | |
CN110265049A (zh) | 一种语音识别方法及语音识别系统 | |
Qi et al. | Analysis of nasal consonants using perceptual linear prediction | |
CN112908343B (zh) | 一种基于倒谱语谱图的鸟类物种数量的获取方法及系统 | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200327 |
|
RJ01 | Rejection of invention patent application after publication |