CN106228984A - 语音识别信息获取方法 - Google Patents

语音识别信息获取方法 Download PDF

Info

Publication number
CN106228984A
CN106228984A CN201610907083.1A CN201610907083A CN106228984A CN 106228984 A CN106228984 A CN 106228984A CN 201610907083 A CN201610907083 A CN 201610907083A CN 106228984 A CN106228984 A CN 106228984A
Authority
CN
China
Prior art keywords
signal
telecommunication
voice
pretreatment
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610907083.1A
Other languages
English (en)
Inventor
张作勇
曹鹏飞
陈家制
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Borui Tongyun Technology Co Ltd
Original Assignee
Jiangxi Borui Tongyun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Borui Tongyun Technology Co Ltd filed Critical Jiangxi Borui Tongyun Technology Co Ltd
Priority to CN201610907083.1A priority Critical patent/CN106228984A/zh
Publication of CN106228984A publication Critical patent/CN106228984A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种语音识别信息获取方法,所述方法包括:用户终端获取用户输入的语音信号;将所述语音信号转换为第一电信号,对所述第一电信号进行滤波处理,得到第二电信号;对所述第二电信号进行预处理,得到预处理第二电信号;提取所述预处理第二电信号的特征信息;利用语音识别数据库对所述特征信息进行识别,得到识别结果;将所述识别结果与网络资源数据库中的资源信息进行匹配;将匹配度最高的资源信息作为所述识别结果对应的识别信息输出。本发明涉及的语音识别信息获取方法,从网络资源库获取识别结果对应的识别信息,网络资源库信息量大,内容丰富,能够满足用户的多种需求。

Description

语音识别信息获取方法
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别信息获取方法。
背景技术
随着网络技术和移动通信技术的发展,与人们日常生活密切相关的电子产品应用越来越普遍。例如,智能手机、车载导航设备等。
在使用电子产品时,无论手写输入还是键盘输入,都存在各种限制。为了使用方便,经常需要输入语音,设备对语音进行识别后,输出语音的文字内容或者执行相应的操作指令。设备对语音进行识别后,如何获取识别结果对应的识别信息成为需要解决的问题。
发明内容
本发明的目的是针对现有技术的缺陷,提供一种语音识别信息获取方法,从网络资源库获取识别结果对应的识别信息,网络资源库信息量大,内容丰富,能够满足用户的多种需求。
为实现上述目的,本发明提供了一种语音识别信息获取方法,所述方法包括:
用户终端获取用户输入的语音信号;
将所述语音信号转换为第一电信号,对所述第一电信号进行滤波处理,得到第二电信号;
对所述第二电信号进行预处理,得到预处理第二电信号;
提取所述预处理第二电信号的特征信息;
利用语音识别数据库对所述特征信息进行识别,得到识别结果;
将所述识别结果与网络资源数据库中的资源信息进行匹配;
将匹配度最高的资源信息作为所述识别结果对应的识别信息输出。
进一步的,所述将所述语音信号转换为第一电信号具体包括:
将所述语音信号转换为电压信号或者电流信号。
进一步的,所述对所述第一电信号进行滤波处理,得到第二电信号具体包括:
将所述第一电信号进行模拟/数字转换,得到数字信号;
对所述数字信号进行高频滤波或者带通滤波,去除非语音干扰信号。
进一步的,所述对所述第二电信号进行预处理,得到预处理第二电信号具体包括:
对所述第二电信号进行标准化处理,得到预处理第二电信号。
进一步的,所述标准化处理具体包括:语音信号预加权处理、语音信号分帧处理、语音信号加窗处理。
进一步的,所述提取所述预处理第二电信号的特征信息具体包括:
利用线性预测编码lpc方法、线性预测倒谱系数lpcc方法、梅尔频率倒谱系数mfcc方法提取所述预处理第二电信号的特征信息。
进一步的,所述利用语音识别数据库对所述特征信息进行识别,输出识别结果具体包括:
将所述特征信息与所述语音识别数据库中的识别数据进行比对,输出匹配度最高的识别数据对应的语音单词或指令。
进一步的,所述语音识别数据库包括本地数据库和/或网络数据库。
进一步的,当所述识别结果与网络资源数据库中的资源信息完全不匹配时,利用本地资源数据库对网络资源数据库中的数据进行更新。
本发明涉及的语音识别信息获取方法,从网络资源库获取识别结果对应的识别信息,网络资源库信息量大,内容丰富,能够满足用户的多种需求。
附图说明
图1为本发明语音识别信息获取方法的流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明提供的语音识别信息获取方法实现于具有语音识别功能的移动终端,例如智能手机、平板电脑、车载导航设备等。
图1为本发明语音识别信息获取方法的流程图,如图所示,本发明实施例具体包括如下步骤:
步骤101,获取用户输入的语音信号。
具体的,获取由麦克风收集的用户输入的语音信号即音频信号。
步骤102,将所述语音信号转换为第一电信号,对所述第一电信号进行滤波处理,得到第二电信号。
具体的,将语音信号转换为电压信号或者电流信号。将第一电信号进行模拟/数字转换,得到数字信号;对数字信号进行高频滤波或者带通滤波,去除非语音干扰信号。
滤波处理的目的是去除直流信号和非语音信号的杂音干扰,使用户输入的语音数据便于后续提取特征信息。如果输入语音的环境噪音较大或者存在其他干扰信号,则不利于对于语音信息进行识别,因此需要将语音数据进行滤波处理,得到更加便于提取特征的数据。
步骤103,对所述第二电信号进行预处理,得到预处理第二电信号。
具体的,对第二电信号进行标准化处理,得到预处理第二电信号。
其中,标准化处理具体包括:语音信号预加权处理、语音信号分帧处理、语音信号加窗处理。
语音信号的预处理也叫作前端处理,是指在特征提取之前,先对原始语音进行处理,使处理后的信号更能满足实际的需要,对提高数据处理精确度。
语音信号的预加权,目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。通过传递函数为H(z)=1-az-1一阶FIR高通数字滤波器来实现预加权,其中a为预加权系数,0.9<a<1.0。设n时刻的语音采样值为x(n),经过预加重处理后的结果为y(n))=x(n)-ax(n-1)。
语音信号分帧处理是指利用移动窗函数对声音进行分帧处理,处理后声音成为多个小段,每小段为一帧。帧与帧之间具有交叠,如果每帧的长度是25毫秒,每两帧之间有15毫秒交叠,则称为以帧长25毫秒,帧移10毫秒进行分帧。
步骤104,提取所述预处理第二电信号的特征信息。
具体的,利用线性预测编码(linear predictive coding,LPC)方法、线性预测倒谱系数lpcc方法、梅尔频率倒谱系数(Mel-scale Frequency CepstralCoefficientsmer,MFCC)法提取预处理第二电信号的特征信息。
以提取MFCC特征为例,根据人耳的生理特性,把每一帧波形变成一个多维向量,这个向量包含了这帧语音的内容信息。
步骤105,利用语音识别数据库对所述特征信息进行识别,输出识别结果。
具体的,将特征信息与语音识别数据库中的识别数据进行比对,输出匹配度最高的识别数据对应的语音单词或指令。
其中,语音识别数据库包括本地数据库和/或网络数据库。
具体的,语音识别数据库中的识别数据可以为声学模型,将特征信息输入声学模型,每个声学模型对应语音单词或指令,输出特征信息适合的声学模型对应的语音单词或指令,即为识别结果。
例如,在搭载于车载导航系统等的语音识别功能中,通常用户会向系统明确表示发话的开始。因此,会在触摸面板上显示、或在方向盘上设置指示语音识别开始的按钮。于是,在语音识别开始按钮被用户按下之后,开始获取用户输入的语音信号,将所述语音信号转换为第一电信号,对所述第一电信号进行滤波处理,得到第二电信号。对所述第二电信号进行预处理,得到预处理第二电信号。提取所述预处理第二电信号的特征信息,例如提取MFCC值,利用语音识别数据库对MFCC值进行识别,输出与用户所说的内容相应的语音单词或指令。
步骤106,将所述识别结果与网络资源数据库中的资源信息进行匹配。
如步骤105中的例子,如果识别结果为“东直门到鸟巢路线”,则将识别结果与网络资源数据库中的资源信息进行匹配,并按照匹配度进行排序。
步骤107,将匹配度最高的资源信息作为所述识别结果对应的识别信息输出。
如步骤106中的例子,将匹配度最高的“东直门到鸟巢路线”地图输出显示。
当识别结果与网络资源数据库中的资源信息完全不匹配时,利用本地资源数据库对网络资源数据库中的数据进行更新。
本发明涉及的语音识别信息获取方法,从网络资源库获取识别结果对应的识别信息,网络资源库信息量大,内容丰富,能够满足用户的多种需求。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种语音识别信息获取方法,其特征在于,所述方法包括:
用户终端获取用户输入的语音信号;
将所述语音信号转换为第一电信号,对所述第一电信号进行滤波处理,得到第二电信号;
对所述第二电信号进行预处理,得到预处理第二电信号;
提取所述预处理第二电信号的特征信息;
利用语音识别数据库对所述特征信息进行识别,得到识别结果;
将所述识别结果与网络资源数据库中的资源信息进行匹配;
将匹配度最高的资源信息作为所述识别结果对应的识别信息输出。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音信号转换为第一电信号具体包括:
将所述语音信号转换为电压信号或者电流信号。
3.根据权利要求1所述的方法,其特征在于,所述对所述第一电信号进行滤波处理,得到第二电信号具体包括:
将所述第一电信号进行模拟/数字转换,得到数字信号;
对所述数字信号进行高频滤波或者带通滤波,去除非语音干扰信号。
4.根据权利要求1所述的方法,其特征在于,所述对所述第二电信号进行预处理,得到预处理第二电信号具体包括:
对所述第二电信号进行标准化处理,得到预处理第二电信号。
5.根据权利要求4所述的方法,其特征在于,所述标准化处理具体包括:语音信号预加权处理、语音信号分帧处理、语音信号加窗处理。
6.根据权利要求1所述的方法,其特征在于,所述提取所述预处理第二电信号的特征信息具体包括:
利用线性预测编码lpc方法、线性预测倒谱系数lpcc方法、梅尔频率倒谱系数mfcc方法提取所述预处理第二电信号的特征信息。
7.根据权利要求1所述的方法,其特征在于,所述利用语音识别数据库对所述特征信息进行识别,输出识别结果具体包括:
将所述特征信息与所述语音识别数据库中的识别数据进行比对,输出匹配度最高的识别数据对应的语音单词或指令。
8.根据权利要求1所述的方法,其特征在于,所述语音识别数据库包括本地数据库和/或网络数据库。
9.根据权利要求1所述的方法,其特征在于,当所述识别结果与网络资源数据库中的资源信息完全不匹配时,利用本地资源数据库对网络资源数据库中的数据进行更新。
CN201610907083.1A 2016-10-18 2016-10-18 语音识别信息获取方法 Pending CN106228984A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610907083.1A CN106228984A (zh) 2016-10-18 2016-10-18 语音识别信息获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610907083.1A CN106228984A (zh) 2016-10-18 2016-10-18 语音识别信息获取方法

Publications (1)

Publication Number Publication Date
CN106228984A true CN106228984A (zh) 2016-12-14

Family

ID=58076827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610907083.1A Pending CN106228984A (zh) 2016-10-18 2016-10-18 语音识别信息获取方法

Country Status (1)

Country Link
CN (1) CN106228984A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818784A (zh) * 2017-08-15 2018-03-20 上海展扬通信技术有限公司 一种备忘录的标题生成方法及标题生成系统
CN109410940A (zh) * 2018-12-05 2019-03-01 湖北安心智能科技有限公司 一种基于显控台的人机交互方法及系统
CN112133288A (zh) * 2020-09-22 2020-12-25 中用科技有限公司 一种语音转文字的处理方法、系统及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1320902A (zh) * 2000-03-14 2001-11-07 索尼公司 语音识别装置、语音识别方法和记录介质
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN102005070A (zh) * 2010-11-17 2011-04-06 广东中大讯通信息有限公司 一种语音识别门禁系统
CN104821168A (zh) * 2015-04-30 2015-08-05 北京京东方多媒体科技有限公司 一种语音识别方法及装置
CN105205695A (zh) * 2015-08-31 2015-12-30 武汉艾菲比特信息传媒有限公司 一种基于互联网的广告交互系统及方法
CN105679310A (zh) * 2015-11-17 2016-06-15 乐视致新电子科技(天津)有限公司 一种用于语音识别方法及系统
CN105931644A (zh) * 2016-04-15 2016-09-07 广东欧珀移动通信有限公司 一种语音识别方法及移动终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1320902A (zh) * 2000-03-14 2001-11-07 索尼公司 语音识别装置、语音识别方法和记录介质
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN102005070A (zh) * 2010-11-17 2011-04-06 广东中大讯通信息有限公司 一种语音识别门禁系统
CN104821168A (zh) * 2015-04-30 2015-08-05 北京京东方多媒体科技有限公司 一种语音识别方法及装置
CN105205695A (zh) * 2015-08-31 2015-12-30 武汉艾菲比特信息传媒有限公司 一种基于互联网的广告交互系统及方法
CN105679310A (zh) * 2015-11-17 2016-06-15 乐视致新电子科技(天津)有限公司 一种用于语音识别方法及系统
CN105931644A (zh) * 2016-04-15 2016-09-07 广东欧珀移动通信有限公司 一种语音识别方法及移动终端

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818784A (zh) * 2017-08-15 2018-03-20 上海展扬通信技术有限公司 一种备忘录的标题生成方法及标题生成系统
CN109410940A (zh) * 2018-12-05 2019-03-01 湖北安心智能科技有限公司 一种基于显控台的人机交互方法及系统
CN112133288A (zh) * 2020-09-22 2020-12-25 中用科技有限公司 一种语音转文字的处理方法、系统及设备

Similar Documents

Publication Publication Date Title
CN108630193B (zh) 语音识别方法及装置
CN106486130B (zh) 噪声消除、语音识别方法及装置
CN110322891B (zh) 一种语音信号的处理方法、装置、终端及存储介质
Hu et al. Pitch‐based gender identification with two‐stage classification
CN108108357B (zh) 口音转换方法及装置、电子设备
CN102723078A (zh) 基于自然言语理解的语音情感识别方法
CN108564956B (zh) 一种声纹识别方法和装置、服务器、存储介质
CN108461081B (zh) 语音控制的方法、装置、设备和存储介质
CN111326178A (zh) 基于卷积神经网络的多模态语音情感识别系统及方法
CN106251872A (zh) 一种病例录入方法及系统
CN111883135A (zh) 语音转写方法、装置和电子设备
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN106228984A (zh) 语音识别信息获取方法
CN110136726A (zh) 一种语音性别的估计方法、装置、系统及存储介质
Kanabur et al. An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition
CN109686365B (zh) 一种语音识别方法和语音识别系统
Biswas et al. Hindi phoneme classification using Wiener filtered wavelet packet decomposed periodic and aperiodic acoustic feature
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
CN109817223A (zh) 基于音频指纹的音素标记方法及装置
CN111145726B (zh) 基于深度学习的声场景分类方法、系统、装置及存储介质
CN106448655A (zh) 语音识别方法
CN113889073B (zh) 语音处理方法、装置、电子设备和存储介质
CN113782005B (zh) 语音识别方法及装置、存储介质及电子设备
Boril et al. Data-driven design of front-end filter bank for Lombard speech recognition
CN110767238B (zh) 基于地址信息的黑名单识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161214