CN108172229A - 一种基于语音识别的身份验证及可靠操控的方法 - Google Patents

一种基于语音识别的身份验证及可靠操控的方法 Download PDF

Info

Publication number
CN108172229A
CN108172229A CN201711313817.4A CN201711313817A CN108172229A CN 108172229 A CN108172229 A CN 108172229A CN 201711313817 A CN201711313817 A CN 201711313817A CN 108172229 A CN108172229 A CN 108172229A
Authority
CN
China
Prior art keywords
signal
voice
speech recognition
carried out
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711313817.4A
Other languages
English (en)
Inventor
李耀曾
胡亮
陈玉涵
张秀秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Jinhang Computing Technology Research Institute
Original Assignee
Tianjin Jinhang Computing Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Jinhang Computing Technology Research Institute filed Critical Tianjin Jinhang Computing Technology Research Institute
Priority to CN201711313817.4A priority Critical patent/CN108172229A/zh
Publication of CN108172229A publication Critical patent/CN108172229A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种基于语音识别的身份验证及可靠操控的方法,其中,包括:语音信号预处理、特征提取建模、训练模板库以及模式匹配;语音信号预处理包括:对采集到的音频信号进行加窗处理,并进行语音信号的端点检测,使得计算机从包好一段语音的信号中找出字和词的起始点及结束点;进行短时平均过零率计算,区分清音量和浊音量,并在信噪比高的情况下,区分有声和无声;特征提取建模包括:对采集的语音进行能量、幅度、频谱、过零率以及功率谱的提取,作为特征参数,滤除掉冗余信息。本发明的一种基于语音识别的身份验证及可靠操控的方法,可以大大改善由于船身过度摇摆造成的操作上的不便,能够有效的降低操作难度,提升工作效率。

Description

一种基于语音识别的身份验证及可靠操控的方法
技术领域
本发明涉及一种语音识别技术,特别是一种基于语音识别的身份验证及可靠操控的方法。
背景技术
新型船用操控台是为了满足新时期船用新型操控系统和综合电子信息系统的要求而设计,在信息收集、处理、显示和操控手段等方面具备更高效的处理能力。船舱环境相比于实验室环境具备噪音大、湿度大、信号稳定度差、船身摆浮大人员不便操控等特点。现有的操控台对于指令操控上采用传统的键盘鼠标控制方式,在某些海清恶劣的特定环境中,由于船身过度摇摆造成的操作上的不便,提高了操作难度,降低了工作效率。
发明内容
本发明的目的在于提供一种一种基于语音识别的身份验证及可靠操控的方法,用于解决上述现有技术的问题。
本发明一种基于语音识别的身份验证及可靠操控的方法,其中,包括:语音信号预处理、特征提取建模、训练模板库以及模式匹配;语音信号预处理包括:对采集到的音频信号进行加窗处理,并进行语音信号的端点检测,使得计算机从包好一段语音的信号中找出字和词的起始点及结束点;进行短时平均过零率计算,区分清音量和浊音量,并在信噪比高的情况下,区分有声和无声;特征提取建模包括:对采集的语音进行能量、幅度、频谱、过零率以及功率谱的提取,作为特征参数,滤除掉冗余信息。
根据本发明的基于指静脉生物特征的身份识别方法的一实施例,其中,训练模板库利用小波神经网络对采集以及提取的语音信号进行训练,结合隐马尔科夫经典声学模型将采集到的人体语音信号进行模式匹配。
本发明首次将语音识别技术引入到船用电子操控台。船舱环境相比于实验室环境具备噪音大、湿度大、信号稳定度差、船身摆浮大人员不便操控等特点。引入语音识别技术进行操控人员的身份验证以及相关常用功能的操作,相比于以往的操控台对于指令操控上采用传统的键盘鼠标控制方式,在某些海清恶劣的特定环境中,可以大大改善由于船身过度摇摆造成的操作上的不便,能够有效的降低操作难度,提升工作效率。
附图说明
图1所示为语音输入设备模块外形示意图;
图2所示为语音识别系统原理框图;
图3所示为基于隐马尔科夫(HMM)建模和小波神经网络语音识别抗噪原理框图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
图1所示为语音输入设备模块外形示意图,如图1所示,该设备采用模块化设计,采用新型的符合材料,吸声静音,内嵌于操控台面,考虑到人体工程学的设计理念,语音输入设备模块位于操控台面左前端,方便操作人员进行语音输入。
图2所示为语音识别方法的原理框图,如图2所示,语音识别的身份验证的方法主要分为语音信号预处理、特征提取建模、训练模板库、模式匹配几个过程。
语音信号预处理包括:考虑到船上工作环境噪音大以及海况海情不稳定等环境因素,为了保证语音信号在短时间内频谱保持平稳,需要对采集到的音频信号进行加窗处理,并进行语音信号的端点检测,使得计算机从包好一段语音的信号中找出字、词的起始点及结束点,保证计算机只存储和处理有效的语音信号。
其次,进行短时平均过零率计算,有效的区分清音量和浊音量,并在信噪比高的情况下,区分有声和无声。
然后对采集的语音进行能量、幅度、频谱、过零率、功率谱的提取,作为特征参数。滤除掉无关紧要的冗余信息,保留影响语音识别的重要信息作为匹配依据。
由于神经网络具备很强的非线性映射能力,同时又具有小波多分辨率的分析特性,因而能对信号的细节分量加以提取,这样得到的特征量可以更好的反映出信号的原始信息。因此,利用小波神经网络对采集、提取的语音信号进行训练,结合隐马尔科夫(HMM)经典声学模型将采集到的人体语音信号进行模式匹配,从而可以很好的达到语音模式识别的效果。
图3所示为基于隐马尔科夫(HMM)建模和小波神经网络语音识别抗噪原理框图,如图3所示,操作人员可以根据使用习惯和需要添加修改常用指令代码,方便通过语音方式对操控台进行操作,控制计算机与船上其他设备进行数据交互。
本发明在语音输入设备外形的设计上,考虑到船用设备使用环境的特殊性,在设计过程中尽量采取吸声静音符合材料,设备本身采取模块化设计,为一独立的方便拆卸更换的组件,模块内嵌于操作台面内,与操控台之间连接牢固,在最大限度上避免了连接不牢固产生的激励震动,起到消声减噪的效果。在整体布局上语音输入模块位于整个操控台操作台面的左前方,靠近USB调试接口,远离电源、显示器、机箱等大功率高频设备,以防止该模块工作时噪声源的干扰。
在软件实现上,本发明针对船上专用设备的操控(如对导航仪、定位系统、测速系统等接口数据的交互),结合语音识别技术将别授权操作人的语音中的词汇内容转换为计算机可读的输入(例如按键、二进制编码或字符序列)作为指令控制计算机自动完成与船舱内其他相关设备的数据交互。
在软件设计上本发明主要由信号预处理、特征提取、训练模板库、模式匹配4个阶段组成。针对船上工作环境,机械噪音强,风浪背景噪音大的特点,本发明的技术重点是抑制各频率的信号干扰。本发明采用基于隐马尔科夫(HMM)建模和小波神经网络语音识别抗噪设计,对采集的语音信号进行处理、分析、匹配识别。隐马尔科夫模型配合小波神经网络可以很好的提取的人体声音中的特征信息,较好的完成被授权人语音识别的功能。
另外,为了操作人员对常用设备的操作,本发明开发了常用指令语音库,使用者在熟悉船上操作规范及流程的情况下可以直接对所需要的功能进行语音输入操作,同时在被授权的条件下也可以根据自己的操作习惯对常用指令库进行指令添加及修改。
本发明为一种基于语音识别的身份验证及可靠操控的方法,属于计算机人机交互领域。运用于新型船用操控台的人机交互,通过专用语音采集模块进行音频采集输入,与计算机完成相关指令的人机交互,提高了船用操控台在操作上的便捷性,可以满足新型船用操控台更加智能更加简便的发展趋势。
本发明的效果在于:将人体语音转化为计算机可以识别的指令、二进制码,从而可以大大的节省了由鼠标键盘操作带来的操作繁琐、误操作频繁等弊端,并且针对于船上工作的特点,对于一些复杂的操作步骤,在环境恶劣的情况下可以保证操作人员快速、准确地完成操控,因此在很大程度上可以节省操作人员的精力,也是船用新型操控台技术的发展趋势。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (2)

1.一种基于语音识别的身份验证及可靠操控的方法,其特征在于,包括:
语音信号预处理、特征提取建模、训练模板库以及模式匹配;
语音信号预处理包括:对采集到的音频信号进行加窗处理,并进行语音信号的端点检测,使得计算机从包好一段语音的信号中找出字和词的起始点及结束点;
进行短时平均过零率计算,区分清音量和浊音量,并在信噪比高的情况下,区分有声和无声;
特征提取建模包括:对采集的语音进行能量、幅度、频谱、过零率以及功率谱的提取,作为特征参数,滤除掉冗余信息。
2.如权利要求1所述的基于指静脉生物特征的身份识别方法,其特征在于,训练模板库利用小波神经网络对采集以及提取的语音信号进行训练,结合隐马尔科夫经典声学模型将采集到的人体语音信号进行模式匹配。
CN201711313817.4A 2017-12-12 2017-12-12 一种基于语音识别的身份验证及可靠操控的方法 Pending CN108172229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711313817.4A CN108172229A (zh) 2017-12-12 2017-12-12 一种基于语音识别的身份验证及可靠操控的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711313817.4A CN108172229A (zh) 2017-12-12 2017-12-12 一种基于语音识别的身份验证及可靠操控的方法

Publications (1)

Publication Number Publication Date
CN108172229A true CN108172229A (zh) 2018-06-15

Family

ID=62524963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711313817.4A Pending CN108172229A (zh) 2017-12-12 2017-12-12 一种基于语音识别的身份验证及可靠操控的方法

Country Status (1)

Country Link
CN (1) CN108172229A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312251A (zh) * 2020-02-24 2020-06-19 五邑大学 基于语音识别的远程机械臂控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1991976A (zh) * 2005-12-31 2007-07-04 潘建强 基于音素的语音识别方法与系统
CN101447190A (zh) * 2008-06-25 2009-06-03 北京大学深圳研究生院 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
CN106373562A (zh) * 2016-08-31 2017-02-01 黄钰 一种基于自然语言处理的机器人语音识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1991976A (zh) * 2005-12-31 2007-07-04 潘建强 基于音素的语音识别方法与系统
CN101447190A (zh) * 2008-06-25 2009-06-03 北京大学深圳研究生院 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统
CN106373562A (zh) * 2016-08-31 2017-02-01 黄钰 一种基于自然语言处理的机器人语音识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
唐军: "基于HMM与小波神经网络的语音识别系统研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
肖勇等: "改进的HMM和小波神经网络的抗噪语音识别", 《计算机工程与应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312251A (zh) * 2020-02-24 2020-06-19 五邑大学 基于语音识别的远程机械臂控制方法

Similar Documents

Publication Publication Date Title
CN111179975B (zh) 用于情绪识别的语音端点检测方法、电子设备及存储介质
Dahake et al. Speaker dependent speech emotion recognition using MFCC and Support Vector Machine
Deb et al. Multiscale amplitude feature and significance of enhanced vocal tract information for emotion classification
CN102737629B (zh) 一种嵌入式语音情感识别方法及装置
Latif et al. Adversarial machine learning and speech emotion recognition: Utilizing generative adversarial networks for robustness
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN110503969A (zh) 一种音频数据处理方法、装置及存储介质
CN105938399B (zh) 基于声学的智能设备的文本输入识别方法
WO2020248388A1 (zh) 歌声合成模型的训练方法、装置、计算机设备以及存储介质
CN109394258A (zh) 一种肺部呼吸音的分类方法、装置及终端设备
EP1500087A4 (en) PARAMETRIC ONLINE HISTOGRAM NORMALIZATION FOR NOISE REDUCED LANGUAGE RECOGNITION
CN101930733A (zh) 一种用于语音情感识别的语音情感特征提取方法
Meng et al. Speech emotion recognition using wavelet packet reconstruction with attention-based deep recurrent neutral networks
CN108172229A (zh) 一种基于语音识别的身份验证及可靠操控的方法
Domont et al. Hierarchical spectro-temporal features for robust speech recognition
Sharma et al. Automatic speech recognition systems: challenges and recent implementation trends
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
CN104299611A (zh) 基于时频脊线-Hough变换的汉语声调识别方法
Jing et al. Speech recognition system based improved DTW algorithm
CN111105798B (zh) 基于语音识别的设备控制方法
Mini et al. Feature vector selection of fusion of MFCC and SMRT coefficients for SVM classifier based speech recognition system
CN109003613A (zh) 结合空间信息的声纹识别支付信息防伪方法
CN1760976A (zh) 手持语言障碍辅助设备
Mishra et al. Revisiting automatic speech recognition for tamil and hindi connected number recognition
CN113724691A (zh) 一种具有快速抓取识别用户语音功能的键盘

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180615

RJ01 Rejection of invention patent application after publication