CN108172229A - 一种基于语音识别的身份验证及可靠操控的方法 - Google Patents
一种基于语音识别的身份验证及可靠操控的方法 Download PDFInfo
- Publication number
- CN108172229A CN108172229A CN201711313817.4A CN201711313817A CN108172229A CN 108172229 A CN108172229 A CN 108172229A CN 201711313817 A CN201711313817 A CN 201711313817A CN 108172229 A CN108172229 A CN 108172229A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- speech recognition
- carried out
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000001228 spectrum Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims abstract description 6
- 230000005236 sound signal Effects 0.000 claims abstract description 3
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 210000003462 vein Anatomy 0.000 claims description 2
- 238000007689 inspection Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 3
- 238000013461 design Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 206010015535 Euphoric mood Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明公开了一种基于语音识别的身份验证及可靠操控的方法,其中,包括:语音信号预处理、特征提取建模、训练模板库以及模式匹配;语音信号预处理包括:对采集到的音频信号进行加窗处理,并进行语音信号的端点检测,使得计算机从包好一段语音的信号中找出字和词的起始点及结束点;进行短时平均过零率计算,区分清音量和浊音量,并在信噪比高的情况下,区分有声和无声;特征提取建模包括:对采集的语音进行能量、幅度、频谱、过零率以及功率谱的提取,作为特征参数,滤除掉冗余信息。本发明的一种基于语音识别的身份验证及可靠操控的方法,可以大大改善由于船身过度摇摆造成的操作上的不便,能够有效的降低操作难度,提升工作效率。
Description
技术领域
本发明涉及一种语音识别技术,特别是一种基于语音识别的身份验证及可靠操控的方法。
背景技术
新型船用操控台是为了满足新时期船用新型操控系统和综合电子信息系统的要求而设计,在信息收集、处理、显示和操控手段等方面具备更高效的处理能力。船舱环境相比于实验室环境具备噪音大、湿度大、信号稳定度差、船身摆浮大人员不便操控等特点。现有的操控台对于指令操控上采用传统的键盘鼠标控制方式,在某些海清恶劣的特定环境中,由于船身过度摇摆造成的操作上的不便,提高了操作难度,降低了工作效率。
发明内容
本发明的目的在于提供一种一种基于语音识别的身份验证及可靠操控的方法,用于解决上述现有技术的问题。
本发明一种基于语音识别的身份验证及可靠操控的方法,其中,包括:语音信号预处理、特征提取建模、训练模板库以及模式匹配;语音信号预处理包括:对采集到的音频信号进行加窗处理,并进行语音信号的端点检测,使得计算机从包好一段语音的信号中找出字和词的起始点及结束点;进行短时平均过零率计算,区分清音量和浊音量,并在信噪比高的情况下,区分有声和无声;特征提取建模包括:对采集的语音进行能量、幅度、频谱、过零率以及功率谱的提取,作为特征参数,滤除掉冗余信息。
根据本发明的基于指静脉生物特征的身份识别方法的一实施例,其中,训练模板库利用小波神经网络对采集以及提取的语音信号进行训练,结合隐马尔科夫经典声学模型将采集到的人体语音信号进行模式匹配。
本发明首次将语音识别技术引入到船用电子操控台。船舱环境相比于实验室环境具备噪音大、湿度大、信号稳定度差、船身摆浮大人员不便操控等特点。引入语音识别技术进行操控人员的身份验证以及相关常用功能的操作,相比于以往的操控台对于指令操控上采用传统的键盘鼠标控制方式,在某些海清恶劣的特定环境中,可以大大改善由于船身过度摇摆造成的操作上的不便,能够有效的降低操作难度,提升工作效率。
附图说明
图1所示为语音输入设备模块外形示意图;
图2所示为语音识别系统原理框图;
图3所示为基于隐马尔科夫(HMM)建模和小波神经网络语音识别抗噪原理框图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
图1所示为语音输入设备模块外形示意图,如图1所示,该设备采用模块化设计,采用新型的符合材料,吸声静音,内嵌于操控台面,考虑到人体工程学的设计理念,语音输入设备模块位于操控台面左前端,方便操作人员进行语音输入。
图2所示为语音识别方法的原理框图,如图2所示,语音识别的身份验证的方法主要分为语音信号预处理、特征提取建模、训练模板库、模式匹配几个过程。
语音信号预处理包括:考虑到船上工作环境噪音大以及海况海情不稳定等环境因素,为了保证语音信号在短时间内频谱保持平稳,需要对采集到的音频信号进行加窗处理,并进行语音信号的端点检测,使得计算机从包好一段语音的信号中找出字、词的起始点及结束点,保证计算机只存储和处理有效的语音信号。
其次,进行短时平均过零率计算,有效的区分清音量和浊音量,并在信噪比高的情况下,区分有声和无声。
然后对采集的语音进行能量、幅度、频谱、过零率、功率谱的提取,作为特征参数。滤除掉无关紧要的冗余信息,保留影响语音识别的重要信息作为匹配依据。
由于神经网络具备很强的非线性映射能力,同时又具有小波多分辨率的分析特性,因而能对信号的细节分量加以提取,这样得到的特征量可以更好的反映出信号的原始信息。因此,利用小波神经网络对采集、提取的语音信号进行训练,结合隐马尔科夫(HMM)经典声学模型将采集到的人体语音信号进行模式匹配,从而可以很好的达到语音模式识别的效果。
图3所示为基于隐马尔科夫(HMM)建模和小波神经网络语音识别抗噪原理框图,如图3所示,操作人员可以根据使用习惯和需要添加修改常用指令代码,方便通过语音方式对操控台进行操作,控制计算机与船上其他设备进行数据交互。
本发明在语音输入设备外形的设计上,考虑到船用设备使用环境的特殊性,在设计过程中尽量采取吸声静音符合材料,设备本身采取模块化设计,为一独立的方便拆卸更换的组件,模块内嵌于操作台面内,与操控台之间连接牢固,在最大限度上避免了连接不牢固产生的激励震动,起到消声减噪的效果。在整体布局上语音输入模块位于整个操控台操作台面的左前方,靠近USB调试接口,远离电源、显示器、机箱等大功率高频设备,以防止该模块工作时噪声源的干扰。
在软件实现上,本发明针对船上专用设备的操控(如对导航仪、定位系统、测速系统等接口数据的交互),结合语音识别技术将别授权操作人的语音中的词汇内容转换为计算机可读的输入(例如按键、二进制编码或字符序列)作为指令控制计算机自动完成与船舱内其他相关设备的数据交互。
在软件设计上本发明主要由信号预处理、特征提取、训练模板库、模式匹配4个阶段组成。针对船上工作环境,机械噪音强,风浪背景噪音大的特点,本发明的技术重点是抑制各频率的信号干扰。本发明采用基于隐马尔科夫(HMM)建模和小波神经网络语音识别抗噪设计,对采集的语音信号进行处理、分析、匹配识别。隐马尔科夫模型配合小波神经网络可以很好的提取的人体声音中的特征信息,较好的完成被授权人语音识别的功能。
另外,为了操作人员对常用设备的操作,本发明开发了常用指令语音库,使用者在熟悉船上操作规范及流程的情况下可以直接对所需要的功能进行语音输入操作,同时在被授权的条件下也可以根据自己的操作习惯对常用指令库进行指令添加及修改。
本发明为一种基于语音识别的身份验证及可靠操控的方法,属于计算机人机交互领域。运用于新型船用操控台的人机交互,通过专用语音采集模块进行音频采集输入,与计算机完成相关指令的人机交互,提高了船用操控台在操作上的便捷性,可以满足新型船用操控台更加智能更加简便的发展趋势。
本发明的效果在于:将人体语音转化为计算机可以识别的指令、二进制码,从而可以大大的节省了由鼠标键盘操作带来的操作繁琐、误操作频繁等弊端,并且针对于船上工作的特点,对于一些复杂的操作步骤,在环境恶劣的情况下可以保证操作人员快速、准确地完成操控,因此在很大程度上可以节省操作人员的精力,也是船用新型操控台技术的发展趋势。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (2)
1.一种基于语音识别的身份验证及可靠操控的方法,其特征在于,包括:
语音信号预处理、特征提取建模、训练模板库以及模式匹配;
语音信号预处理包括:对采集到的音频信号进行加窗处理,并进行语音信号的端点检测,使得计算机从包好一段语音的信号中找出字和词的起始点及结束点;
进行短时平均过零率计算,区分清音量和浊音量,并在信噪比高的情况下,区分有声和无声;
特征提取建模包括:对采集的语音进行能量、幅度、频谱、过零率以及功率谱的提取,作为特征参数,滤除掉冗余信息。
2.如权利要求1所述的基于指静脉生物特征的身份识别方法,其特征在于,训练模板库利用小波神经网络对采集以及提取的语音信号进行训练,结合隐马尔科夫经典声学模型将采集到的人体语音信号进行模式匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711313817.4A CN108172229A (zh) | 2017-12-12 | 2017-12-12 | 一种基于语音识别的身份验证及可靠操控的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711313817.4A CN108172229A (zh) | 2017-12-12 | 2017-12-12 | 一种基于语音识别的身份验证及可靠操控的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108172229A true CN108172229A (zh) | 2018-06-15 |
Family
ID=62524963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711313817.4A Pending CN108172229A (zh) | 2017-12-12 | 2017-12-12 | 一种基于语音识别的身份验证及可靠操控的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108172229A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312251A (zh) * | 2020-02-24 | 2020-06-19 | 五邑大学 | 基于语音识别的远程机械臂控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1991976A (zh) * | 2005-12-31 | 2007-07-04 | 潘建强 | 基于音素的语音识别方法与系统 |
CN101447190A (zh) * | 2008-06-25 | 2009-06-03 | 北京大学深圳研究生院 | 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法 |
CN103236260A (zh) * | 2013-03-29 | 2013-08-07 | 京东方科技集团股份有限公司 | 语音识别系统 |
US9240184B1 (en) * | 2012-11-15 | 2016-01-19 | Google Inc. | Frame-level combination of deep neural network and gaussian mixture models |
CN106373562A (zh) * | 2016-08-31 | 2017-02-01 | 黄钰 | 一种基于自然语言处理的机器人语音识别方法 |
-
2017
- 2017-12-12 CN CN201711313817.4A patent/CN108172229A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1991976A (zh) * | 2005-12-31 | 2007-07-04 | 潘建强 | 基于音素的语音识别方法与系统 |
CN101447190A (zh) * | 2008-06-25 | 2009-06-03 | 北京大学深圳研究生院 | 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法 |
US9240184B1 (en) * | 2012-11-15 | 2016-01-19 | Google Inc. | Frame-level combination of deep neural network and gaussian mixture models |
CN103236260A (zh) * | 2013-03-29 | 2013-08-07 | 京东方科技集团股份有限公司 | 语音识别系统 |
CN106373562A (zh) * | 2016-08-31 | 2017-02-01 | 黄钰 | 一种基于自然语言处理的机器人语音识别方法 |
Non-Patent Citations (2)
Title |
---|
唐军: "基于HMM与小波神经网络的语音识别系统研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
肖勇等: "改进的HMM和小波神经网络的抗噪语音识别", 《计算机工程与应用》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312251A (zh) * | 2020-02-24 | 2020-06-19 | 五邑大学 | 基于语音识别的远程机械臂控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179975B (zh) | 用于情绪识别的语音端点检测方法、电子设备及存储介质 | |
Dahake et al. | Speaker dependent speech emotion recognition using MFCC and Support Vector Machine | |
Deb et al. | Multiscale amplitude feature and significance of enhanced vocal tract information for emotion classification | |
CN102737629B (zh) | 一种嵌入式语音情感识别方法及装置 | |
Latif et al. | Adversarial machine learning and speech emotion recognition: Utilizing generative adversarial networks for robustness | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN110503969A (zh) | 一种音频数据处理方法、装置及存储介质 | |
CN105938399B (zh) | 基于声学的智能设备的文本输入识别方法 | |
WO2020248388A1 (zh) | 歌声合成模型的训练方法、装置、计算机设备以及存储介质 | |
CN109394258A (zh) | 一种肺部呼吸音的分类方法、装置及终端设备 | |
EP1500087A4 (en) | PARAMETRIC ONLINE HISTOGRAM NORMALIZATION FOR NOISE REDUCED LANGUAGE RECOGNITION | |
CN101930733A (zh) | 一种用于语音情感识别的语音情感特征提取方法 | |
Meng et al. | Speech emotion recognition using wavelet packet reconstruction with attention-based deep recurrent neutral networks | |
CN108172229A (zh) | 一种基于语音识别的身份验证及可靠操控的方法 | |
Domont et al. | Hierarchical spectro-temporal features for robust speech recognition | |
Sharma et al. | Automatic speech recognition systems: challenges and recent implementation trends | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN104299611A (zh) | 基于时频脊线-Hough变换的汉语声调识别方法 | |
Jing et al. | Speech recognition system based improved DTW algorithm | |
CN111105798B (zh) | 基于语音识别的设备控制方法 | |
Mini et al. | Feature vector selection of fusion of MFCC and SMRT coefficients for SVM classifier based speech recognition system | |
CN109003613A (zh) | 结合空间信息的声纹识别支付信息防伪方法 | |
CN1760976A (zh) | 手持语言障碍辅助设备 | |
Mishra et al. | Revisiting automatic speech recognition for tamil and hindi connected number recognition | |
CN113724691A (zh) | 一种具有快速抓取识别用户语音功能的键盘 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180615 |
|
RJ01 | Rejection of invention patent application after publication |