CN110085212A

CN110085212A - 一种用于cnc程序控制器的语音识别方法

Info

Publication number: CN110085212A
Application number: CN201910269151.XA
Authority: CN
Inventors: 杜树旺
Original assignee: Zhijiang College of ZJUT
Current assignee: Zhijiang College of ZJUT
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-08-02

Abstract

本发明提供了一种用于CNC程序控制器的语音识别方法，该设备包括操作台、软操作面板和机械面板，所述软操作面板镶嵌安装在操作台上，机械面板镶嵌安装在操作台上且在软操作面板下方，所述软操作面板上镶嵌安装有显示器和按键以上构件与主控制器通过电性连接，所述机械面板上镶嵌安装有急停按钮、循环启动键、进给倍率旋钮、主轴转速旋钮关机键和开机键以上结构与主控制器通过电性连接，本发明通过后处理模块，先对原始语音信号进行处理，再进行特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征。

Description

一种用于CNC程序控制器的语音识别方法

技术领域

本发明涉及一种语音识别方法，特别涉及一种用于CNC程序控制器的语音识别方法。

背景技术

在人工智能快速发展的今天，语音识别开始成为很多设备的标配，语音识别开始被越来越多的人关注，国外微软、苹果、谷歌、nuance，国内的科大讯飞、思必驰等厂商都在研发语音识别新策略新算法，似乎人类与语音的自然交互渐行渐近。

我们都希望像《钢铁侠》中那样智能先进的语音助手，在与机器人进行语音交流时，让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”，该技术让机器通过识别和理解，把语音信号转变为相应的文本或命令。

语音识别技术，也被称为自动语音识别AutomaTIc Speech RecogniTIon， (ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容，目前市场上已有的CNC编程系统都是通过电脑画图或者手工编辑实现程序的撰写，过程较为复杂且学习流程较为抽象，初学者学习起来难度较大。为此，我们提出一种用于CNC程序控制器的语音识别方法。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种用于CNC程序控制器的语音识别方法，解决了现有的CNC编程中过程较为复杂且学习流程较为抽象，初学者学习起来难度较大的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种CNC编程装置，包括操作台、软操作面板和机械面板，所述软操作面板镶嵌安装在操作台上，机械面板镶嵌安装在操作台上且在软操作面板下方，所述软操作面板上镶嵌安装有显示器和按键以上构件与主控制器通过电性连接，所述机械面板上镶嵌安装有急停按钮、循环启动键、进给倍率旋钮、主轴转速旋钮关机键和开机键以上结构与主控制器通过电性连接。

所述操作台中间位置设置有语音识别装置，语音识别装置包括报警装置、声音收集器和扬声器，报警装置在语音录入时错误使会发出警报，报警装置与语音识别系统通过电性连接，声音收集器在使用时将人的口语指令收集传输到控制器中等待处理，扬声器将系统处理后的反馈结果以声音的形态输出。

一种基于CNC编程的系统，包括信息收集器和声音系统，其特征在于：所述信息收集器包括数据库、输入模块、识别模块、后处理模块和输出模块，收集到的电子信号会在芯片内部放大电路AGC的作用下进行进一步处理，此过程需要用到A/D转换器来辅助作用。

一种用于CNC程序控制器的语音识别方法，包括预处理、反复训练、模式匹配、提取声学特征和模型锻炼其特征在于：所述预处理，对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响，此外还会考虑到语音识别基本单元的选取和端点检测问题。

1)语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

2)未知语音经过输入模块变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

3)语音识别系统构建过程整体上包括两大部分：训练和识别。训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”；而识别过程通常是在线完成的，对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块：“前端”模块主要的作用是进行端点检测去除多余的静音和非说话声、降噪、特征提取等；“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别又称“解码”，得到其包含的文字信息，此外，后端模块还存在一个“自适应”的反馈模块，可以对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。

4)后处理模块，先对原始语音信号进行处理，再进行特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征。

5)首先经过前端特征提取取得声学特征，再进一步对声学特征停止统计建模。建模运用到的贝叶斯统计建模框架，也就是最大后验概率决策原则。

6)最后的解码过程又能够分红动态解码网络和静态解码网络两种：动态网络会编译一个状态网络并构成搜索空间，把单词转换成一个个的音素后将其依照语序拆分红状态序列，再依据音素上下文分歧性准绳将状态序列停止衔接。

7)所述预处理，其中就包括对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响，此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音，从原始语音信号样本中去除冗余信息，保留关键信息，再按照一定规则对数据加以整理，构成模式库。再者是模式匹配，它是整个语音识别系统的核心部分，是根据一定规则以及计算输入特征与库存模式之间的相似度，进而判断出输入语音的意思。

8)所述言语模型是依据不同品种的言语，对词串停止统计建模，目前普遍采用的是基于(n-)阶马尔可夫链统计的n元语法模型。

9)所述提取声学特征；当语音输入之后，首先停止模电转换，将模仿信号转变为数字信号，再停止静音切除去掉无关噪音，然后停止分帧。将此时的信号分红一帧一帧之后每一帧并不是独立存在的而是相互关联的，还要停止一系列的信号处置，包括预加重、加窗之后，再停止FFT变换之后，再经过Mel参数的滤波和取对数、离散余弦变换等一系列算法处置后，能够停止用梅尔频率倒谱系数MFCC停止特征提取，得到声学特征。声学模型就是将声学特征统计建模后得到的。得到了模型库之后就能够停止模型锻炼和形式匹配了。

10)所述模型锻炼就是指依照一定的原则，从大量已知语音形式中获取一个最具特征的模型参数。而形式匹配则相反，是依据一定原则，将未知语音形式与模型库中的某一个模型取得最佳匹配。

11)所述语言被识别成文字后，文字信息会通过输出模块从显示器呈现出来，被编辑成相应的CNC程序，CNC处理器会对编辑过的程序逐行检查，如果存在错误处理器会提交报警信号给报警装置，使用者通过按键对程序进行进一步的微调更改，形成可使用程序保存到CNC存储器中。

(三)有益效果

本发明提供了一种用于CNC程序控制器的语音识别方法。具备以下有益效果：

(1)、该CNC编程的语音识别方法，通过预处理，对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响，此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音，从原始语音信号样本中去除冗余信息，保留关键信息，再按照一定规则对数据加以整理，构成模式库。再者是模式匹配，它是整个语音识别系统的核心部分，是根据一定规则以及计算输入特征与库存模式之间的相似度，进而判断出输入语音的意思的。

(2)、该CNC编程的语音识别方法，通过后处理模块，先对原始语音信号进行处理，再进行特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征。

附图说明

图1为本发明CNC编程设备整体结构示意图；

图2为本发明语音识别系统流程示意图；

图3为本发明语音识别方法程示意图。

图中：1操作台、2软操作面板、3显示器、4按键、5报警装置、6 声音收集器、7扬声器、8机械面板、9急停按钮、10循环启动键、11进给倍率旋钮、12主轴转速旋钮、13关机键、14开机键。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

如图所示，一种CNC编程装置，包括操作台1、软操作面板2和机械面板8，所述软操作面板2镶嵌安装在操作台1上，机械面板8镶嵌安装在操作台1上且在软操作面板2下方，所述软操作面板2上镶嵌安装有显示器3和按键4以上构件与主控制器通过电性连接，所述机械面板8上镶嵌安装有急停按钮9、循环启动键10、进给倍率旋钮11、主轴转速旋钮12 关机键13和开机键14以上结构与主控制器通过电性连接。

所述操作台2中间位置设置有语音识别装置，语音识别装置包括报警装置5、声音收集器6和扬声器7，报警装置5在语音录入时错误使会发出警报，报警装置5与语音识别系统通过电性连接，声音收集器6在使用时将人的口语指令收集传输到控制器中等待处理，扬声器7将系统处理后的反馈结果以声音的形态输出。

一种基于CNC编程的系统，包括信息收集器和声音系统，所述信息收集器包括数据库、输入模块、识别模块、后处理模块和输出模块，收集到的电子信号会在芯片内部放大电路AGC的作用下进行进一步处理，此过程需要用到A/D转换器来辅助作用，声音实际上是一种波，常见的mp3、 wmv等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows PCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。要对声音进行分析，识别模块对声音进行分帧，也就是把声音切开成一小段一小段，每小段称为一帧，分帧操作一般不是简单的切开，而是使用移动窗函数来实现，帧与帧之间一般是有交叠的，分帧后，语音就变成了很多小段，但波形在时域上几乎没有描述能力，因此必须将波形作变换，常见的一种变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息，其中，前两种概率从声学模型中获取，最后一种概率从语言模型中获取，语言模型是使用大量的文本训练出来的，可以利用某门语言本身的统计规律来帮助提升识别正确率，语言模型很重要，如果不使用语言模型，当状态网络较大时，识别出的结果基本是一团乱麻。

一种用于CNC程序控制器的语音识别方法，包括预处理、反复训练、模式匹配、提取声学特征和模型锻炼，语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

未知语音经过输入模块变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

语音识别系统构建过程整体上包括两大部分：训练和识别。训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”；而识别过程通常是在线完成的，对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块：“前端”模块主要的作用是进行端点检测去除多余的静音和非说话声、降噪、特征提取等；“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别又称“解码”，得到其包含的文字信息，此外，后端模块还存在一个“自适应”的反馈模块，可以对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。

预处理，其中就包括对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响，此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音，从原始语音信号样本中去除冗余信息，保留关键信息，再按照一定规则对数据加以整理，构成模式库。再者是模式匹配，它是整个语音识别系统的核心部分，是根据一定规则以及计算输入特征与库存模式之间的相似度，进而判断出输入语音的意思。

后处理模块，先对原始语音信号进行处理，再进行特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征。

不管是微软家的Cortana、三星家的S-voice苹果家的Siri，还是国内一些独立做语音辨认的比方讯飞、Rokid，在原理在实质上没有几差别：就是语音输入后，停止特征提取，将提取的特征值放进模型库里，再不时地停止锻炼和匹配，最终解码得到结果。

假如要细说的话就比拟复杂了，比方模型库中又分为声学模型和言语模型。其中言语模型是依据不同品种的言语，对词串停止统计建模，目前普遍采用的是基于(n-1)阶马尔可夫链统计的n元语法模型。

首先经过前端特征提取取得声学特征，再进一步对声学特征停止统计建模。建模运用到的贝叶斯统计建模框架，也就是最大后验概率决策原则。

提取声学特征；当语音输入之后，首先停止模电转换，将模仿信号转变为数字信号，再停止静音切除去掉无关噪音，然后停止分帧。将此时的信号分红一帧一帧之后每一帧并不是独立存在的而是相互关联的，还要停止一系列的信号处置，包括预加重、加窗之后，再停止FFT变换之后，再经过Mel参数的滤波和取对数、离散余弦变换等一系列算法处置后，能够停止用梅尔频率倒谱系数MFCC停止特征提取，得到声学特征。声学模型就是将声学特征统计建模后得到的。得到了模型库之后就能够停止模型锻炼和形式匹配了。

所谓模型锻炼就是指依照一定的原则，从大量已知语音形式中获取一个最具特征的模型参数。而形式匹配则相反，是依据一定原则，将未知语音形式与模型库中的某一个模型取得最佳匹配。

最后的解码过程又能够分红动态解码网络和静态解码网络两种：动态网络会编译一个状态网络并构成搜索空间，把单词转换成一个个的音素后将其依照语序拆分红状态序列，再依据音素上下文分歧性准绳将状态序列停止衔接。

而静态网络普通是针对一些特殊词孤立词的辨认网络，它的构造就简单多了：先将每条特殊词扩展成HMM状态序列，然后再计算得分，选择得分最大的作为辨认输出结果。由于静态网络是依据声学概率计算权重，不需求查询言语模型概率，因而解码速度很快。

语音辨认技术其实应用以及很普遍了，比方在北美很多企业的电话自动效劳都会用到，只需用户直接说出想要的命令，就能够自动查询到需求的效劳，不需求像过去那样按键。手机应用里运用语音辨认技术比方微信的声音锁，讯飞、搜狗语音输入等等很多就不说了，而个人最看好的是声控语音拨号系统、家用机器人、智能家电等范畴，以语音交流的方式取代过去的传统人机互动。国内在这个范畴的语音辨认尝试也是相当多的，比方Rokid这样能够语音辨认命令还具有深度学习才能的家用机器人，能够自动播放视频、音乐，以至以后能够语音对话机器人叫个饿了么外卖，叫个滴滴出行等等。我今年夏天去参观过他们的语音辨认开发部门，他们用的是本人独立开发的一套流程在跑，整个语音模型库也是依据中国人发音习气连读、口音做的。

当语言被识别成文字后，文字信息会通过输出模块从显示器3呈现出来，被编辑成相应的CNC程序，CNC处理器会对编辑过的程序逐行检查，如果存在错误处理器会提交报警信号给报警装置5，使用者通过按键4对程序进行进一步的微调更改，形成可使用程序保存到CNC存储器中。

工作原理：

需要说明的是，本发明为一种用于CNC程序控制器的语音识别方法。在使用时，通过操作台2中间位置设置的语音识别装置，语音识别装置包括报警装置5、声音收集器6和扬声器7，报警装置5在语音录入时错误使会发出警报，报警装置5与语音识别系统通过电性连接，声音收集器6在使用时将人的口语指令收集传输到控制器中等待处理，扬声器 7将系统处理后的反馈结果以声音的形态输出，提取声学特征；当语音输入之后，首先停止模电转换，将模仿信号转变为数字信号，再停止静音切除去掉无关噪音，然后停止分帧。将此时的信号分红一帧一帧之后每一帧并不是独立存在的而是相互关联的，还要停止一系列的信号处置，包括预加重、加窗之后，再停止FFT变换之后，再经过Mel参数的滤波和取对数、离散余弦变换等一系列算法处置后，能够停止用梅尔频率倒谱系数MFCC停止特征提取，得到声学特征。声学模型就是将声学特征统计建模后得到的。得到了模型库之后就能够停止模型锻炼和形式匹配了，当语言被识别成文字后，文字信息会通过输出模块从显示器3呈现出来，被编辑成相应的CNC 程序，CNC处理器会对编辑过的程序逐行检查，如果存在错误处理器会提交报警信号给报警装置5，使用者通过按键4对程序进行进一步的微调更改，形成可使用程序保存到CNC存储器中。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种CNC编程装置，包括操作台(1)、软操作面板(2)和机械面板(8)，其特征在于：所述软操作面板(2)镶嵌安装在操作台(1)上，机械面板(8)镶嵌安装在操作台(1)上且在软操作面板(2)下方，所述软操作面板(2)上镶嵌安装有显示器(3)和按键(4)以上构件与主控制器通过电性连接。

2.根据权利要求1所述的一种CNC编程装置，其特征在于：所述机械面板(8)上镶嵌安装有急停按钮(9)、循环启动键(10)、进给倍率旋钮(11)、主轴转速旋钮(12)关机键(13)和开机键(14)以上结构与主控制器通过电性连接。

3.根据权利要求1所述的一种CNC编程装置，其特征在于：所述操作台(2)中间位置设置有语音识别装置，语音识别装置包括报警装置(5)、声音收集器(6)和扬声器(7)。

4.一种基于CNC编程的系统，包括信息收集器和声音系统，其特征在于：所述信息收集器包括数据库、输入模块、识别模块、后处理模块和输出模块，数据库的输出端与输入模块的输入端通过电性连接，输入模块的输出端与识别模块的输入端通过电性连接，识别模块的输出端与后处理模块输入端通过电性连接，后处理模块输出端与输出模块输入端通过电性连接。

5.一种用于CNC程序控制器的语音识别方法，包括预处理、反复训练、模式匹配、提取声学特征和模型锻炼，其特征在于：所述预处理，对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响，此外还会考虑到语音识别基本单元的选取和端点检测问题。

1)反复训练是在识别之前通过让说话人多次重复语音，从原始语音信号样本中去除冗余信息，保留关键信息，再按照一定规则对数据加以整理，构成模式库，收集到的电子信号会在芯片内部放大电路AGC的作用下进行进一步处理，此过程需要用到A/D转换器来辅助作用。

2)模式匹配是整个语音识别系统的核心部分，是根据一定规则以及计算输入特征与库存模式之间的相似度，进而判断出输入语音的意思。

3)言语模型是依据不同品种的言语，对词串停止统计建模，目前普遍采用的是基于(n-1)阶马尔可夫链统计的n元语法模型。

4)提取声学特征；当语音输入之后，首先停止模电转换，将模仿信号转变为数字信号，再停止静音切除去掉无关噪音，然后停止分帧。将此时的信号分红一帧一帧之后(每一帧并不是独立存在的而是相互关联的)，还要停止一系列的信号处置，包括预加重、加窗之后，再停止FFT变换之后，再经过Mel参数的滤波和取对数、离散余弦变换等一系列算法处置后，能够停止用梅尔频率倒谱系数(MFCC)停止特征提取，得到声学特征。声学模型就是将声学特征统计建模后得到的。得到了模型库之后就能够停止模型锻炼和形式匹配了。

5)模型锻炼就是指依照一定的原则，从大量已知语音形式中获取一个最具特征的模型参数。而形式匹配则相反，是依据一定原则，将未知语音形式与模型库中的某一个模型取得最佳匹配。

6)语言被识别成文字后，文字信息会通过输出模块从显示器(3)呈现出来，被编辑成相应的CNC程序，CNC处理器会对编辑过的程序逐行检查，如果存在错误处理器会提交报警信号给报警装置(5)，使用者通过按键(4)对程序进行进一步的微调更改，形成可使用程序保存到CNC存储器中。