CN106448655A - 语音识别方法 - Google Patents

语音识别方法 Download PDF

Info

Publication number
CN106448655A
CN106448655A CN201610903124.XA CN201610903124A CN106448655A CN 106448655 A CN106448655 A CN 106448655A CN 201610903124 A CN201610903124 A CN 201610903124A CN 106448655 A CN106448655 A CN 106448655A
Authority
CN
China
Prior art keywords
signal
telecommunication
pretreatment
voice
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610903124.XA
Other languages
English (en)
Inventor
张作勇
曹鹏飞
陈家制
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Borui Tongyun Technology Co Ltd
Original Assignee
Jiangxi Borui Tongyun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Borui Tongyun Technology Co Ltd filed Critical Jiangxi Borui Tongyun Technology Co Ltd
Priority to CN201610903124.XA priority Critical patent/CN106448655A/zh
Publication of CN106448655A publication Critical patent/CN106448655A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种语音识别方法,所述方法包括:用户终端获取用户输入的语音信号;将所述语音信号转换为第一电信号,对所述第一电信号进行滤波处理,得到第二电信号;对所述第二电信号进行预处理,得到预处理第二电信号;提取所述预处理第二电信号的特征信息;利用语音识别数据库对所述特征信息进行识别,输出识别结果。本发明提供的语音识别方法,识别精度高,用户体验好。

Description

语音识别方法
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法。
背景技术
随着网络技术和移动通信技术的发展,与人们日常生活密切相关的电子产品应用越来越普遍。例如,智能手机、车载导航设备等。
在使用电子产品时,无论手写输入还是键盘输入,都存在各种限制。为了使用方便,经常需要输入语音,设备对语音进行识别后,输出语音的文字内容或者执行相应的操作指令。
然而,现有技术中的识别设备识别精度不高,经常出现识别错误的问题,给使用带来不便,处理效率低下,用户体验度差。
发明内容
本发明的目的是针对现有技术的缺陷,提供一种语音识别方法,识别精度高,用户体验好。
为实现上述目的,本发明提供了一种语音识别方法,所述方法包括:
用户终端获取用户输入的语音信号;
将所述语音信号转换为第一电信号,对所述第一电信号进行滤波处理,得到第二电信号;
对所述第二电信号进行预处理,得到预处理第二电信号;
提取所述预处理第二电信号的特征信息;
利用语音识别数据库对所述特征信息进行识别,输出识别结果。
进一步的,所述将所述语音信号转换为第一电信号具体包括:
将所述语音信号转换为电压信号或者电流信号。
进一步的,所述对所述第一电信号进行滤波处理,得到第二电信号具体包括:
将所述第一电信号进行模拟/数字转换,得到数字信号;
对所述数字信号进行高频滤波或者带通滤波,去除非语音干扰信号。
进一步的,所述对所述第二电信号进行预处理,得到预处理第二电信号具体包括:
对所述第二电信号进行标准化处理,得到预处理第二电信号。
进一步的,所述标准化处理具体包括:语音信号预加权处理、语音信号分帧处理、语音信号加窗处理。
进一步的,所述提取所述预处理第二电信号的特征信息具体包括:
利用线性预测编码lpc方法、线性预测倒谱系数lpcc方法、梅尔频率倒谱系数mfcc方法提取所述预处理第二电信号的特征信息。
进一步的,所述利用语音识别数据库对所述特征信息进行识别,输出识别结果具体包括:
将所述特征信息与所述语音识别数据库中的识别数据进行比对,输出匹配度最高的识别数据对应的语音单词或指令。
进一步的,所述语音识别数据库包括本地数据库和/或网络数据库。
本发明涉及的语音识别方法,识别精度高,用户体验好。
附图说明
图1为本发明语音识别方法的流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明提供的语音识别方法实现于具有语音识别功能的移动终端,例如智能手机、平板电脑、车载导航设备等。
图1为本发明语音识别方法的流程图,如图所示,本发明实施例具体包括如下步骤:
步骤101,用户终端获取用户输入的语音信号。
具体的,获取由麦克风收集的用户输入的语音信号即音频信号。
步骤102,将所述语音信号转换为第一电信号,对所述第一电信号进行滤波处理,得到第二电信号。
具体的,将语音信号转换为电压信号或者电流信号。将第一电信号进行模拟/数字转换,得到数字信号;对数字信号进行高频滤波或者带通滤波,去除非语音干扰信号。
滤波处理的目的是去除直流信号和非语音信号的杂音干扰,使用户输入的语音数据便于后续提取特征信息。如果输入语音的环境噪音较大或者存在其他干扰信号,则不利于对于语音信息进行识别,因此需要将语音数据进行滤波处理,得到更加便于提取特征的数据。
步骤103,对所述第二电信号进行预处理,得到预处理第二电信号。
具体的,对第二电信号进行标准化处理,得到预处理第二电信号。
其中,标准化处理具体包括:语音信号预加权处理、语音信号分帧处理、语音信号加窗处理。
语音信号的预处理也叫作前端处理,是指在特征提取之前,先对原始语音进行处理,使处理后的信号更能满足实际的需要,对提高数据处理精确度。
语音信号的预加权,目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。通过传递函数为H(z)=1-az-1一阶FIR高通数字滤波器来实现预加权,其中a为预加权系数,0.9<a<1.0。设n时刻的语音采样值为x(n),经过预加重处理后的结果为y(n))=x(n)-ax(n-1)。
语音信号分帧处理是指利用移动窗函数对声音进行分帧处理,处理后声音成为多个小段,每小段为一帧。帧与帧之间具有交叠,如果每帧的长度是25毫秒,每两帧之间有15毫秒交叠,则称为以帧长25毫秒,帧移10毫秒进行分帧。
步骤104,提取所述预处理第二电信号的特征信息。
具体的,利用线性预测编码(linear predictive coding,LPC)方法、线性预测倒谱系数lpcc方法、梅尔频率倒谱系数(Mel-scale Frequency CepstralCoefficientsmer,MFCC)法提取预处理第二电信号的特征信息。
以提取MFCC特征为例,根据人耳的生理特性,把每一帧波形变成一个多维向量,这个向量包含了这帧语音的内容信息。
步骤105,利用语音识别数据库对所述特征信息进行识别,输出识别结果。
具体的,将特征信息与语音识别数据库中的识别数据进行比对,输出匹配度最高的识别数据对应的语音单词或指令。
其中,语音识别数据库包括本地数据库和/或网络数据库。
具体的,语音识别数据库中的识别数据可以为声学模型,将特征信息输入声学模型,每个声学模型对应语音单词或指令,输出特征信息适合的声学模型对应的语音单词或指令,即为识别结果。
在搭载于车载导航系统等的语音识别功能中,通常用户会向系统明确表示发话的开始。因此,会在触摸面板上显示、或在方向盘上设置指示语音识别开始的按钮。于是,在语音识别开始按钮被用户按下之后,开始用户终端获取用户输入的语音信号,将所述语音信号转换为第一电信号,对所述第一电信号进行滤波处理,得到第二电信号。对所述第二电信号进行预处理,得到预处理第二电信号。提取所述预处理第二电信号的特征信息,例如提取MFCC值,利用语音识别数据库对MFCC值进行识别,输出与用户所说的内容相应的语音单词或指令。
本发明涉及的语音识别方法,识别精度高,用户体验好。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种语音识别方法,其特征在于,所述方法包括:
用户终端获取用户输入的语音信号;
将所述语音信号转换为第一电信号,对所述第一电信号进行滤波处理,得到第二电信号;
对所述第二电信号进行预处理,得到预处理第二电信号;
提取所述预处理第二电信号的特征信息;
利用语音识别数据库对所述特征信息进行识别,输出识别结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音信号转换为第一电信号具体包括:
将所述语音信号转换为电压信号或者电流信号。
3.根据权利要求1所述的方法,其特征在于,所述对所述第一电信号进行滤波处理,得到第二电信号具体包括:
将所述第一电信号进行模拟/数字转换,得到数字信号;
对所述数字信号进行高频滤波或者带通滤波,去除非语音干扰信号。
4.根据权利要求1所述的方法,其特征在于,所述对所述第二电信号进行预处理,得到预处理第二电信号具体包括:
对所述第二电信号进行标准化处理,得到预处理第二电信号。
5.根据权利要求4所述的方法,其特征在于,所述标准化处理具体包括:语音信号预加权处理、语音信号分帧处理、语音信号加窗处理。
6.根据权利要求1所述的方法,其特征在于,所述提取所述预处理第二电信号的特征信息具体包括:
利用线性预测编码lpc方法、线性预测倒谱系数lpcc方法、梅尔频率倒谱系数mfcc方法提取所述预处理第二电信号的特征信息。
7.根据权利要求1所述的方法,其特征在于,所述利用语音识别数据库对所述特征信息进行识别,输出识别结果具体包括:
将所述特征信息与所述语音识别数据库中的识别数据进行比对,输出匹配度最高的识别数据对应的语音单词或指令。
8.根据权利要求1所述的方法,其特征在于,所述语音识别数据库包括本地数据库和/或网络数据库。
CN201610903124.XA 2016-10-18 2016-10-18 语音识别方法 Pending CN106448655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610903124.XA CN106448655A (zh) 2016-10-18 2016-10-18 语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610903124.XA CN106448655A (zh) 2016-10-18 2016-10-18 语音识别方法

Publications (1)

Publication Number Publication Date
CN106448655A true CN106448655A (zh) 2017-02-22

Family

ID=58175222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610903124.XA Pending CN106448655A (zh) 2016-10-18 2016-10-18 语音识别方法

Country Status (1)

Country Link
CN (1) CN106448655A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787380A (zh) * 2020-07-06 2020-10-16 四川长虹网络科技有限责任公司 语音换台控制方法、装置和手持智能终端

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201126359Y (zh) * 2007-11-29 2008-10-01 厉天福 一种车载多媒体导航装置
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101727901A (zh) * 2009-12-10 2010-06-09 清华大学 嵌入式系统的汉英双语语音识别方法
CN101944359A (zh) * 2010-07-23 2011-01-12 杭州网豆数字技术有限公司 一种面向特定人群的语音识别方法
CN102005070A (zh) * 2010-11-17 2011-04-06 广东中大讯通信息有限公司 一种语音识别门禁系统
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统
CN104615052A (zh) * 2015-01-15 2015-05-13 深圳乐投卡尔科技有限公司 Android车载导航全局声控装置及方法
CN105719645A (zh) * 2014-12-17 2016-06-29 现代自动车株式会社 语音识别装置、包括其的车辆和控制语音识别装置的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201126359Y (zh) * 2007-11-29 2008-10-01 厉天福 一种车载多媒体导航装置
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101727901A (zh) * 2009-12-10 2010-06-09 清华大学 嵌入式系统的汉英双语语音识别方法
CN101944359A (zh) * 2010-07-23 2011-01-12 杭州网豆数字技术有限公司 一种面向特定人群的语音识别方法
CN102005070A (zh) * 2010-11-17 2011-04-06 广东中大讯通信息有限公司 一种语音识别门禁系统
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统
CN105719645A (zh) * 2014-12-17 2016-06-29 现代自动车株式会社 语音识别装置、包括其的车辆和控制语音识别装置的方法
CN104615052A (zh) * 2015-01-15 2015-05-13 深圳乐投卡尔科技有限公司 Android车载导航全局声控装置及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787380A (zh) * 2020-07-06 2020-10-16 四川长虹网络科技有限责任公司 语音换台控制方法、装置和手持智能终端

Similar Documents

Publication Publication Date Title
CN106486130B (zh) 噪声消除、语音识别方法及装置
US6691090B1 (en) Speech recognition system including dimensionality reduction of baseband frequency signals
CN110322891B (zh) 一种语音信号的处理方法、装置、终端及存储介质
CN112767954B (zh) 音频编解码方法、装置、介质及电子设备
CN108108357B (zh) 口音转换方法及装置、电子设备
CN102723078A (zh) 基于自然言语理解的语音情感识别方法
CN108461081B (zh) 语音控制的方法、装置、设备和存储介质
CN111326178A (zh) 基于卷积神经网络的多模态语音情感识别系统及方法
CN102543073A (zh) 一种沪语语音识别信息处理方法
CN106251872A (zh) 一种病例录入方法及系统
CN115062143A (zh) 语音识别与分类方法、装置、设备、冰箱及存储介质
CN111554281B (zh) 自动识别语种的车载人机交互方法、车载终端及存储介质
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN106228984A (zh) 语音识别信息获取方法
Kanabur et al. An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition
CN106448655A (zh) 语音识别方法
Li et al. A high-performance auditory feature for robust speech recognition.
Deiv et al. Automatic gender identification for hindi speech recognition
CN113160796B (zh) 一种广播音频的语种识别方法、装置、设备及存储介质
CN110767238B (zh) 基于地址信息的黑名单识别方法、装置、设备及存储介质
JP2012155301A (ja) 状況認知型音声認識方法
Kalaiarasi et al. Performance Analysis and Comparison of Speaker Independent Isolated Speech Recognition System
CN114550741A (zh) 一种语义识别的方法和系统
CN110164449A (zh) 语音识别的空调机控制方法及装置
Sakka et al. Using geometric spectral subtraction approach for feature extraction for DSR front-end Arabic system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222

RJ01 Rejection of invention patent application after publication