CN106887226A - 一种基于人工智能识别的语音识别算法 - Google Patents
一种基于人工智能识别的语音识别算法 Download PDFInfo
- Publication number
- CN106887226A CN106887226A CN201710223847.XA CN201710223847A CN106887226A CN 106887226 A CN106887226 A CN 106887226A CN 201710223847 A CN201710223847 A CN 201710223847A CN 106887226 A CN106887226 A CN 106887226A
- Authority
- CN
- China
- Prior art keywords
- training
- identification
- voice
- feature
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于人工智能识别的语音识别算法,包括以下步骤:对输入的语音信号进行预处理:对经过预处理的语音信号进行特征提取:将提取的特征输入训练识别网络进行识别后输出识别结果;其中,所述训练识别网络包括标准普通话训练识别模块、地方语言训练识别模块。本发明通过训练识别网络包括标准普通话训练识别模块、地方语言训练识别模块,可以实现语音识别算法的功能进一步的扩展,不但可以识别标准的普通话,且可以识别各种不同的地方语言,实现多种语音的识别处理。
Description
技术领域
本发明涉及人工智能识别技术领域,尤其是一种基于人工智能识别的语音识别算法。
背景技术
随着多媒体技术的发展,多媒体系统的服务项目也随之扩展,例如音乐、视频、图片、实时路况信号、目的地地图导航、语音导航等。智能终端的广泛使用给上述服务项目提供了广阔的发展空间。
无论终端带有按键还是触摸屏,都需要人为进行手动操控,才能使用上述服务项目,不仅操作繁琐,还可能具有危险性,例如驾驶员在行车过程中手动操作车载设备就可能发生危险。
语音识别技术的发展为此类操作提供了新的发展方向。但是现有人工智能识别中的语音识别技术存在缺陷,不能准确地实现人输出的主意的准确的识别,特别是人们在地方语言时,更是无法识别,如何准确识别语音信息中的操作指令内容成为了急需解决的问。因此,开发一种架构简单的基于人工智能识别的语音识别算法,具有重要的意义。
发明内容
本发明的目的在于解决上述的技术问题而提供一种基于人工智能识别的语音识别算法。
为实现上述目的,本发明采用如下技术方案:
一种基于人工智能识别的语音识别算法,包括以下步骤:
对输入的语音信号进行预处理:
对经过预处理的语音信号进行特征提取:
将提取的特征输入训练识别网络进行识别后输出识别结果;
其中,所述训练识别网络包括标准普通话训练识别模块、地方语言训练识别模块。
所述训练识别网络在进行识别处理时的步骤包括:
将输入的语音经过预算后,语音信号的特征被提取出来,将提取出来的特征与训练形成的多个语音参考模式比较,进行模式匹配,找出一系列最优的与输入语音匹配的语音模式,然后给出识别的结果并输出。
所述训练识别网络的训练步骤包括:
将输入的语音经过预处理后,将语音信号的特征被提取出来,然后在提取的特征的基础上建立多个语音模式,形成语音参考模式。
所述训练识别网络进行识别后输出识别结果,是通过该语音模式号的定义,然后通过查找表给出识别的结果并输出。
本发明通过训练识别网络包括标准普通话训练识别模块、地方语言训练识别模块,可以实现语音识别算法的功能进一步的扩展,不但可以识别标准的普通话,且可以识别各种不同的地方语言,实现多种语音的识别处理。
附图说明
图1是本发明实施例提供的基于人工智能识别的语音识别算法的处理流程示意图;
图2是本发明的模式匹配的处理流程示意图。
具体实施方式
下面,结合实例对本发明的实质性特点和优势作进一步的说明,但本发明并不局限于所列的实施例。
参见图1-2所示,一种基于人工智能识别的语音识别算法,包括以下步骤:
对输入的语音信号进行预处理:
对经过预处理的语音信号进行特征提取:
将提取的特征输入训练识别网络进行识别后输出识别结果;
其中,所述训练识别网络包括标准普通话训练识别模块、地方语言训练识别模块。
本发明通过训练识别网络包括标准普通话训练识别模块、地方语言训练识别模块,可以实现语音识别算法的功能进一步的扩展,不但可以识别标准的普通话,且可以识别各种不同的地方语言,实现多种语音的识别处理。
所述对输入的语音信号进行预处理主要是指去除背景噪声,语音增强,主要是通过预滤波、预加重、短时加窗处理以及端点检测,以去除个体发音差异以及设备、环境引起噪声影响等,以及对基元选取及以及确定语音的起点与终点的端点检测,获得符合特征提取的语音信号,供后续的语音特征提取的训练与识别。
其中,所述训练识别网络可以采用现有训练识别网络进行处理,如卷积神经网络(Convolutional Neural Network)进行。
所述的语音特征提取采用Mel频率倒谱系数(MFCC)语音特征提取技术,其步骤为:
1.将音频分解为帧;2.对于每一帧,计算周期功率谱;3.将mel滤波器应用到功率谱中,计算每个滤波器的能量和;4.计算能量的对数值;5.对每个对数能量进行离散余弦变换(DCT);6.保留DCT的2-13个系数,其余系数舍去。
由于一个音频信号通常是不断变化的,为了简化,通常假设一个较短时间内音频信号不会有较大的变化,所以把每一帧划分成20-40ms为宜,若该时间太短,则没有足够的信号来进行功率估计;方之,若太长,则每一帧信号变化太多。
下一步是计算每一帧的周期功率谱,这个源自人的耳锅,它随声音的大小而发生不同频率的振动。通过耳锅的不同位置上的振动,不同的神经元将会通知大脑现在听到的音频频率。周期图同样为我们做出这种工作,确定帧中存在哪些频率。
周期图同样存在一些ASR(Automatic Speech Recognition)不需要的信息。实际上耳锅无法辨别两个空间上相近的频率。当频率变大时,这种影响更明显。因此采取周期图块,并且将它们进行累加来得知在不同频率区域的能量是多少。这个是由mel滤波器完成的,第一个滤波器非常狭窄,可获得频率为0Hz附近的能量是多少,当频率渐渐变高时,滤波器也会越来越宽,因此只关心每一个点能量是多少。
一旦有了滤波器的能量,对它取对数,这也是受人类听力启发的;通常人产无法听出线性级别的音量,通常若声音扩大两倍,需要放入8倍的能量进去。这就意味着能量上有较大的变化并不代表声音大小变化很大,为什么这里使用对数而不是取平方根,那是因为可以使用cepstral mean subtraction,它是一个频道归一化的技巧。
最后一步是计算对数能量的DCT,关于这个有两点原因:因为滤波器通常都有交叠,因此滤波器能量彼此相关;DCT对能量进行去相关,意味着协方差的对角矩阵可以用来对HMM分类器进行建模。但是注意,DCT中26个系数只有12个被保留下来,这是因为DCT的高阶系数代表滤波器能量的快速变化,事实证明这些快速变化影响ASR的表现,所以去除高阶系数。
为了进一步的实现该功能,可以在运用设备上,建立训练识别模块选择模块,以选择要使用的训练识别模块,以在不同的训练识别模块间切换。
其中,所述训练识别网络在进行识别处理时的步骤包括:
将输入的语音经过预算后,语音信号的特征被提取出来,将提取出来的特征与训练形成的多个语音参考模式比较,进行模式匹配,找出一系列最优的与输入语音匹配的语音模式,然后给出识别的结果并输出。
其中,所述训练识别网络的训练步骤包括:
将输入的语音经过预处理后,将语音信号的特征被提取出来,然后在提取的特征的基础上建立多个语音模式,形成语音参考模式。
其中,所述训练识别网络进行识别后输出识别结果,是通过该语音模式号的定义,然后通过查找表给出识别的结果并输出。
下面对本发明的识别过程总的说明如下:
训练过程:将输入的语音经过预算后,语音信号的特征被提取出来,然后在提取的特征的基础上建立多个语音模式,形成参考模式;
识别过程:将输入的语音经过预算后,语音信号的特征被提取出来,将提取出来的特征与多个语音模式比较,进行模式匹配,找出一系列最优的与输入语音匹配的语音模式,然后再根据该语音模式号的定义,然后通过查找表给出识别的结果并输出。
本发明通过训练识别网络包括标准普通话训练识别模块、地方语言训练识别模块,可以实现语音识别算法的功能进一步的扩展,不但可以识别标准的普通话,且可以识别各种不同的地方语言,实现多种语音的识别处理。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于人工智能识别的语音识别算法,其特征在于,包括以下步骤:
对输入的语音信号进行预处理:
对经过预处理的语音信号进行特征提取:
将提取的特征输入训练识别网络进行识别后输出识别结果;
其中,所述训练识别网络包括标准普通话训练识别模块、地方语言训练识别模块。
2.如权利要求1所述基于人工智能识别的语音识别算法,其特征在于,所述训练识别网络在进行识别处理时的步骤包括:
将输入的语音经过预算后,语音信号的特征被提取出来,将提取出来的特征与训练形成的多个语音参考模式比较,进行模式匹配,找出一系列最优的与输入语音匹配的语音模式,然后给出识别的结果并输出。
3.如权利要求2所述基于人工智能识别的语音识别算法,其特征在于,所述训练识别网络的训练步骤包括:
将输入的语音经过预处理后,将语音信号的特征被提取出来,然后在提取的特征的基础上建立多个语音模式,形成语音参考模式。
4.如权利要求2所述基于人工智能识别的语音识别算法,其特征在于,所述训练识别网络进行识别后输出识别结果,是通过该语音模式号的定义,然后通过查找表给出识别的结果并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710223847.XA CN106887226A (zh) | 2017-04-07 | 2017-04-07 | 一种基于人工智能识别的语音识别算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710223847.XA CN106887226A (zh) | 2017-04-07 | 2017-04-07 | 一种基于人工智能识别的语音识别算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106887226A true CN106887226A (zh) | 2017-06-23 |
Family
ID=59182749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710223847.XA Pending CN106887226A (zh) | 2017-04-07 | 2017-04-07 | 一种基于人工智能识别的语音识别算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106887226A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109300279A (zh) * | 2018-10-01 | 2019-02-01 | 厦门快商通信息技术有限公司 | 一种商店安全监控方法 |
CN110517664A (zh) * | 2019-09-10 | 2019-11-29 | 科大讯飞股份有限公司 | 多方言识别方法、装置、设备及可读存储介质 |
WO2019232848A1 (zh) * | 2018-06-04 | 2019-12-12 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102376305A (zh) * | 2011-11-29 | 2012-03-14 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103065629A (zh) * | 2012-11-20 | 2013-04-24 | 广东工业大学 | 一种仿人机器人的语音识别系统 |
CN103956169A (zh) * | 2014-04-17 | 2014-07-30 | 北京搜狗科技发展有限公司 | 一种语音输入方法、装置和系统 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
-
2017
- 2017-04-07 CN CN201710223847.XA patent/CN106887226A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102376305A (zh) * | 2011-11-29 | 2012-03-14 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103065629A (zh) * | 2012-11-20 | 2013-04-24 | 广东工业大学 | 一种仿人机器人的语音识别系统 |
CN103956169A (zh) * | 2014-04-17 | 2014-07-30 | 北京搜狗科技发展有限公司 | 一种语音输入方法、装置和系统 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019232848A1 (zh) * | 2018-06-04 | 2019-12-12 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
CN109300279A (zh) * | 2018-10-01 | 2019-02-01 | 厦门快商通信息技术有限公司 | 一种商店安全监控方法 |
CN110517664A (zh) * | 2019-09-10 | 2019-11-29 | 科大讯飞股份有限公司 | 多方言识别方法、装置、设备及可读存储介质 |
CN110517664B (zh) * | 2019-09-10 | 2022-08-05 | 科大讯飞股份有限公司 | 多方言识别方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105632501B (zh) | 一种基于深度学习技术的自动口音分类方法及装置 | |
CN104036774B (zh) | 藏语方言识别方法及系统 | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN109256150B (zh) | 基于机器学习的语音情感识别系统及方法 | |
CN105374356B (zh) | 语音识别方法、语音评分方法、语音识别系统及语音评分系统 | |
CN110473566A (zh) | 音频分离方法、装置、电子设备及计算机可读存储介质 | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN107369439A (zh) | 一种语音唤醒方法和装置 | |
CN102543073B (zh) | 一种沪语语音识别信息处理方法 | |
CN105161092B (zh) | 一种语音识别方法和装置 | |
CN106601230B (zh) | 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、系统及物流分拣系统 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN106653056A (zh) | 基于lstm循环神经网络的基频提取模型及训练方法 | |
CN110600014B (zh) | 一种模型训练方法、装置、存储介质及电子设备 | |
CN106023986B (zh) | 一种基于声效模式检测的语音识别方法 | |
CN111667818A (zh) | 一种训练唤醒模型的方法及装置 | |
CN110189746B (zh) | 一种应用于地空通信的话音识别方法 | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
CN112992191B (zh) | 语音端点检测方法、装置、电子设备及可读存储介质 | |
CN106531195B (zh) | 一种对话冲突检测方法及装置 | |
CN106887226A (zh) | 一种基于人工智能识别的语音识别算法 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN111105798B (zh) | 基于语音识别的设备控制方法 | |
CN115547345A (zh) | 声纹识别模型训练及相关识别方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170623 |
|
WD01 | Invention patent application deemed withdrawn after publication |