CN110992959A - 一种语音识别方法及系统 - Google Patents
一种语音识别方法及系统 Download PDFInfo
- Publication number
- CN110992959A CN110992959A CN201911240123.1A CN201911240123A CN110992959A CN 110992959 A CN110992959 A CN 110992959A CN 201911240123 A CN201911240123 A CN 201911240123A CN 110992959 A CN110992959 A CN 110992959A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- neural network
- audio
- trained
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 163
- 238000012549 training Methods 0.000 claims abstract description 69
- 238000012360 testing method Methods 0.000 claims abstract description 54
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 40
- 238000011160 research Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种语音识别方法及系统。本发明首先建立包括级联连接的音频转拼音神经网络和拼音转文字神经网络的语音识别网络模型,然后,基于训练样本集分别训练音频转拼音神经网络和拼音转文字神经网络,并利用测试样本集对级联后的语音识别网络模型进行测试,最后,获得训练后的语音识别网络模型,对待识别音频进行识别。本发明基于神经网络实现非特定人的语音识别,同时本发明的训练后的语音识别网络模型不依赖于数据库,可以部署在用户本地。本发明实现了满足本地部署和应用需求的非特定人的语音识别。
Description
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音识别方法及系统。
背景技术
在语音识别的研究发展过程中,相关研究人员根据不同语言的发音特点,设计和制作了语音数据库,这些语音数据库可以为连续语音识别算法研究、系统设计、及产业化工作提供充分、科学的训练语音样本。
以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候,除了识别声学信息外,更多地利用各种语言知识,诸如构词、句法、语义、对话背景方面等的知识来帮助进一步对语音作出识别和理解。同时在语音识别研究领域,还产生了基于统计概率的语言模型。
前期隐马尔可夫模型(HMM)技术成为语音识别的主流方法。随着人工神经网络在语音识别中的应用研究的兴起,人工神经网络具有区分复杂的分类边界的能力,有助于模式划分。有着广泛的应用前景,成了当前语音识别应用的一个热点。大多采用基于反向传播算法(BP算法)的多层感知网络。
基于反向传播算法(BP算法)的多层感知网络一些公司开发了语音识别引擎,其中部分引擎可以面向普通用户免费试用,但是在使用过程中需要在线调用语音识别引擎,用户数据提交到引擎提供方。对于需要本地部署、本地运行的应用需求,此类型语音识别引擎不能完全满足用户需求。如何满足本地部署和应用需求的非特定人的语音识别成为一个亟待解决的技术问题。
发明内容
本发明的目的是提供一种语音识别方法及系统,以满足本地部署和应用需求的非特定人的语音识别。
为实现上述目的,本发明提供了如下方案:
一种语音识别方法,所述识别方法包括如下步骤:
获取包括音频文件,及所述音频文件对应的拼音批注文本和文字批注文本的样本,组成样本集,并将所述样本集划分为训练样本集和测试样本集;
建立语音识别网络模型,所述语音识别网络模型包括级联连接的音频转拼音神经网络和拼音转文字神经网络;
利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络;
利用所述训练样本集对所述拼音转文字神经网络进行训练,获得训练后的拼音转文字神经网络;
利用所述测试样本集对训练后的语音识别网络模型进行测试,判断所述训练后的语音识别网络模型是否满足识别要求,得到第一判断结果,所述训练后的语音识别网络模型包括级联连接的所述训练后的音频转拼音神经网络和所述训练后的拼音转文字神经网络;
若所述第一判断结果表示所述训练后的语音识别网络模型不满足识别要求,则返回步骤“利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络”;
若所述第一判断结果表示所述训练后的语音识别网络模型满足识别要求,则输出训练后的语音识别网络模型;
将待测音频文件输入所述训练后的语音识别网络模型进行识别,获得音频文件的拼音识别结果和文字识别结果。
可选的,所述音频转拼音神经网络从输入至输出依次包括:第一隐藏层、第二隐藏层、第三隐藏层、双向循环神经网络层、第四隐藏层和全连接层。
可选的,所述利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络,具体包括:
提取所述音频文件的MFCC倒谱特征;
对所述MFCC倒谱特征进行数据对齐和拼接,获得对齐后的MFCC倒谱特征;
将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络,获得拼音识别结果;
将所述拼音识别结果与所述音频文本对应的拼音批注文本进行对比,计算CTC损失函数值;
判断所述CTC损失函数值是否小于损失函数阈值,得到第二判断结果;
若第二判断结果为所述CTC损失函数值不小于所述损失函数阈值,则判断迭代次数是否小于迭代次数阈值,得到第三判断结果;
若所述第三判断结果表示所述迭代次数小于迭代次数阈值,则根据所述CTC损失函数值更新所述音频转拼音神经网络的连接权值和节点阈值,令迭代次数的数值增加1,返回步骤“将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络,获得拼音识别结果”;
若第二判断结果为所述损失函数值小于所述损失函数阈值或第三判断结果表示所述迭代次数不小于迭代次数阈值,则输出所述音频转拼音神经网络,作为训练后的音频转拼音神经网络。
可选的,所述利用所述测试样本集对训练后的语音识别网络模型进行测试,判断所述训练后的语音识别网络模型是否满足识别要求,得到第一判断结果,具体包括:
将所述测试样本集的样本的音频文件输入所述训练后的音频转拼音神经网络,获得输出拼音文本;
将所述输出拼音文本输入所述训练后的拼音转文字神经网络,获得输出文字文本;
将所述输出文字文本与所述音频文件对应的文字批注文本进行对比,计算识别的正确率;
判断所述正确率是否大于正确率阈值;
若所述正确率大于正确率阈值,则所述第一判断结果表示训练后的语音识别网络模型满足识别要求;
若所述正确率不大于正确率阈值,则所述第一判断结果表示训练后的语音识别网络模型不满足识别要求。
一种语音识别系统,所述识别系统包括:
样本集获取模块,用于获取包括音频文件,及所述音频文件对应的拼音批注文本和文字批注文本的样本,组成样本集,并将所述样本集划分为训练样本集和测试样本集;
语音识别网络模型建立模块,用于建立语音识别网络模型,所述语音识别网络模型包括级联连接的音频转拼音神经网络和拼音转文字神经网络;
音频转拼音神经网络训练模块,用于利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络;
拼音转文字神经网络训练模块,用于利用所述训练样本集对所述拼音转文字神经网络进行训练,获得训练后的拼音转文字神经网络;
语音识别网络模型测试模块,用于利用所述测试样本集对训练后的语音识别网络模型进行测试,判断所述训练后的语音识别网络模型是否满足识别要求,得到第一判断结果,所述训练后的语音识别网络模型包括级联连接的所述训练后的音频转拼音神经网络和所述训练后的拼音转文字神经网络;
返回模块,用于若所述第一判断结果表示所述训练后的语音识别网络模型不满足识别要求,则返回步骤“利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络”;
训练后的语音识别网络模型输出模块,用于若所述第一判断结果表示所述训练后的语音识别网络模型满足识别要求,则输出训练后的语音识别网络模型;
识别模块,用于将待测音频文件输入所述训练后的语音识别网络模型进行识别,获得音频文件的拼音识别结果和文字识别结果。
可选的,所述音频转拼音神经网络从输入至输出依次包括:第一隐藏层、第二隐藏层、第三隐藏层、双向循环神经网络层、第四隐藏层和全连接层。
可选的,所述音频转拼音神经网络训练模块,具体包括:
特征提取子模块,用于提取所述音频文件的MFCC倒谱特征;
对齐子模块,用于对所述MFCC倒谱特征进行数据对齐和拼接,获得对齐后的MFCC倒谱特征;
训练识别子模块,用于将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络,获得拼音识别结果;
CTC损失函数值计算子模块,用于将所述拼音识别结果与所述音频文本对应的拼音批注文本进行对比,计算CTC损失函数值;
第二判断子模块,用于判断所述CTC损失函数值是否小于损失函数阈值,得到第二判断结果;
第三判断子模块,用于若第二判断结果为所述CTC损失函数值不小于所述损失函数阈值,则判断迭代次数是否小于迭代次数阈值,得到第三判断结果;
网络参数更新子模块,用于若所述第三判断结果表示所述迭代次数小于迭代次数阈值,则根据所述CTC损失函数值更新所述音频转拼音神经网络的连接权值和节点阈值,令迭代次数的数值增加1,返回步骤“将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络,获得拼音识别结果”;
训练后的音频转拼音神经网络输出子模块,用于若第二判断结果为所述损失函数值小于所述损失函数阈值或第三判断结果表示所述迭代次数不小于迭代次数阈值,则输出所述音频转拼音神经网络,作为训练后的音频转拼音神经网络。
可选的,所述语音识别网络模型测试模块,具体包括:
测试拼音文本输出子模块,用于将所述测试样本集的样本的音频文件输入所述训练后的音频转拼音神经网络,获得输出拼音文本;
测试文字文本输出子模块,用于将所述输出拼音文本输入所述训练后的拼音转文字神经网络,获得输出文字文本;
正确率计算子模块,用于将所述输出文字文本与所述音频文件对应的文字批注文本进行对比,计算识别的正确率;
测试结果获取子模块,用于判断所述正确率是否大于正确率阈值;若所述正确率大于正确率阈值,则所述第一判断结果表示训练后的语音识别网络模型满足识别要求;若所述正确率不大于正确率阈值,则所述第一判断结果表示训练后的语音识别网络模型不满足识别要求。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提出了一种语音识别方法及系统。本发明首先建立包括级联连接的音频转拼音神经网络和拼音转文字神经网络的语音识别网络模型,然后,基于训练样本集分别训练音频转拼音神经网络和拼音转文字神经网络,并利用测试样本集对级联后的语音识别网络模型进行测试,最后,获得训练后的语音识别网络模型,对待识别音频进行识别。本发明基于神经网络实现非特定人的语音识别,同时本发明的训练后的语音识别网络模型不依赖于数据库,可以部署在用户本地。本发明实现了满足本地部署和应用需求的非特定人的语音识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种语音识别方法的流程图;
图2为本发明提供的一种语音识别方法的原理示意图;
图3为本发明提供的一种语音识别系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种语音识别方法及系统,以满足本地部署和应用需求的非特定人的语音识别。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
为了实现上述目的本发明提供一种语音识别方法,如图1和2所示,所述识别方法包括如下步骤:
步骤101,获取包括音频文件,及所述音频文件对应的拼音批注文本和文字批注文本的样本,组成样本集,并将所述样本集划分为训练样本集和测试样本集。
在清华大学30小时中文语音数据集THCHS-30的基础上,构建相对应的wav音频文件样本、拼音标注文本样本、文字标注文本样本。其中70%作为训练样本,剩余作为测试样本。
对wav音频文件、拼音标注文本、文字标注文本进行数据读取,产生wav音频文件列表、拼音标注文本列表、文字标注文本列表。
步骤102,建立语音识别网络模型,所述语音识别网络模型包括级联连接的音频转拼音神经网络和拼音转文字神经网络。
所述音频转拼音神经网络从输入至输出依次包括:第一隐藏层、第二隐藏层、第三隐藏层、双向循环神经网络层、第四隐藏层和全连接层。所述拼音转文字神经网络的结构与音频转拼音神经网络结构相同,在此不再赘述。
步骤103,利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络;
以wav音频文件列表作为输入、拼音标注文本列表作为输出训练音频转拼音神经网络。
步骤103所述利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络,具体包括:提取所述音频文件的MFCC(mel-frequencycepstral coefficients)倒谱特征;对所述MFCC倒谱特征进行数据对齐和拼接,获得对齐后的MFCC倒谱特征;将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络,获得拼音识别结果;将所述拼音识别结果与所述音频文本对应的拼音批注文本进行对比,计算CTC(Connectionist Temporal Classification)损失函数值;判断所述CTC损失函数值是否小于损失函数阈值,得到第二判断结果;若第二判断结果为所述CTC损失函数值不小于所述损失函数阈值,则判断迭代次数是否小于迭代次数阈值,得到第三判断结果;若所述第三判断结果表示所述迭代次数小于迭代次数阈值,则根据所述CTC损失函数值更新所述音频转拼音神经网络的连接权值和节点阈值,令迭代次数的数值增加1,返回步骤“将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络,获得拼音识别结果”;若第二判断结果为所述损失函数值小于所述损失函数阈值或第三判断结果表示所述迭代次数不小于迭代次数阈值,则输出所述音频转拼音神经网络,作为训练后的音频转拼音神经网络。
首先,设置参数:样本集最大迭代次数(epochs=120)、批次大小(batch_size=8);计算梅尔倒谱系数的个数n_input=26;对于每个时间点,要包含上下文样本的个数n_context=9;第一层输入为[-1,n_input+2*n_input*n_context]结构,隐藏层节点512。第二层隐藏层节点512。第三层隐藏层节点1024。第四层为双向循环神经网络,隐藏节点512。第五层隐藏层节点512。第六层为全连接层,用于softmax分类。Dropout的作用是为了减轻过拟合带来的问题而使用,用在每个连接层的输出。激活函数Relu去线性化。
然后,按照batch_size参数,对wav音频文件列表、拼音标注文本列表、文字标注文本列表进行批次切分。
然后,提取语音特征梅尔频率倒谱系数(MFCC),对每个批次的wav音频文件进行语音特征提取,采用梅尔频率倒谱系数(MFCC),在一定程度上模拟了人耳对语音的处理特点,相当于一个滤波器组,提高语音识别性能。梅尔倒谱系数是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性。每25ms语音片段使用26个MFCC倒谱特征。
然后,对wav音频文件语音特征进行数据对齐。将当前25ms语音片段和前后各9个语音片段的494个倒谱系数拼接。不存在的片段采用补0的方式将长度统一。
然后,将音频文件语音特征数据对齐结果作为神经网络的输入,将对应批次拼音标注文本列表作为神经网络的输出,进行神经网络训练,输出层输出语音对应拼音的识别结果。
最后,误差计算,模型评估。具体的,初始设置最大、最小损失值为0。对语音拼音文本识别结果和对应批次拼音标注文本进行对比,采用CTC(Connectionist TemporalClassification)损失函数。根据误差,调整连接权值,更新节点阈值。判断迭代是否满足条件结束(条件为若第二判断结果为所述损失函数值小于所述损失函数阈值或第三判断结果表示所述迭代次数不小于迭代次数阈值),如果结束则存储当前神经网络模型;如果不结束则根据下一批次数据继续训练。
步骤104,利用所述训练样本集对所述拼音转文字神经网络进行训练,获得训练后的拼音转文字神经网络。
拼音转文字神经网络的结构及训练方式与音频转拼音神经网络的结构与训练方式类似,具体包括:
拼音转文字神经网络为6层拼音转文本神经网络。
首先,设置参数:样本集最大迭代次数epochs=120、批次大小batch_size=8。输入节点数n_input为待识别文字的个数。对于每个时间点,要包含上下文样本的个数n_context=9。第一层输入为[-1,n_input+2*n_input*n_context]结构,隐藏层节点512。第二层隐藏层节点512。第三层隐藏层节点1024。第四层为双向循环神经网络,隐藏节点512。第五层隐藏层节点512。第六层为全连接层,用于softmax分类。Dropout的作用是为了减轻过拟合带来的问题而使用,用在每个连接层的输出。激活函数Relu去线性化。
然后,将分批次的拼音标注文本列表作为输入,对应文字标注文本列表作为输出,训练拼音转文本神经网络,输出层输出语音对应文字的识别结果。
然后,误差计算,模型评估。具体的,初始设置最大、最小损失值为0。对语音文字文本识别结果和对应批次文字标注文本进行对比,采用CTC(Connectionist TemporalClassification)损失函数。根据误差,调整连接权值,更新节点阈值。判断迭代是否满足条件结束,如果结束则存储当前神经网络模型;如果不结束则根据下一批次数据继续训练。
步骤105,利用所述测试样本集对训练后的语音识别网络模型进行测试,判断所述训练后的语音识别网络模型是否满足识别要求,得到第一判断结果,所述训练后的语音识别网络模型包括级联连接的所述训练后的音频转拼音神经网络和所述训练后的拼音转文字神经网络。
步骤105所述利用所述测试样本集对训练后的语音识别网络模型进行测试,判断所述训练后的语音识别网络模型是否满足识别要求,得到第一判断结果,具体包括:将所述测试样本集的样本的音频文件输入所述训练后的音频转拼音神经网络,获得输出拼音文本;将所述输出拼音文本输入所述训练后的拼音转文字神经网络,获得输出文字文本;将所述输出文字文本与所述音频文件对应的文字批注文本进行对比,计算识别的正确率;判断所述正确率是否大于正确率阈值;若所述正确率大于正确率阈值,则所述第一判断结果表示训练后的语音识别网络模型满足识别要求;若所述正确率不大于正确率阈值,则所述第一判断结果表示训练后的语音识别网络模型不满足识别要求。
步骤106(图1中未视出),若所述第一判断结果表示所述训练后的语音识别网络模型不满足识别要求,则返回步骤“利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络”。
步骤107,若所述第一判断结果表示所述训练后的语音识别网络模型满足识别要求,则输出训练后的语音识别网络模型。
步骤108,将待测音频文件输入所述训练后的语音识别网络模型进行识别,获得音频文件的拼音识别结果和文字识别结果。
如图3所示,本发明还提供一种语音识别系统,所述识别系统包括:
样本集获取模块301,用于获取包括音频文件,及所述音频文件对应的拼音批注文本和文字批注文本的样本,组成样本集,并将所述样本集划分为训练样本集和测试样本集。
语音识别网络模型建立模块302,用于建立语音识别网络模型,所述语音识别网络模型包括级联连接的音频转拼音神经网络和拼音转文字神经网络。
所述音频转拼音神经网络从输入至输出依次包括:第一隐藏层、第二隐藏层、第三隐藏层、双向循环神经网络层、第四隐藏层和全连接层。
音频转拼音神经网络训练模块303,用于利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络。
所述音频转拼音神经网络训练模块303,具体包括:特征提取子模块,用于提取所述音频文件的MFCC倒谱特征;对齐子模块,用于对所述MFCC倒谱特征进行数据对齐和拼接,获得对齐后的MFCC倒谱特征;训练识别子模块,用于将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络,获得拼音识别结果;CTC损失函数值计算子模块,用于将所述拼音识别结果与所述音频文本对应的拼音批注文本进行对比,计算CTC损失函数值;第二判断子模块,用于判断所述CTC损失函数值是否小于损失函数阈值,得到第二判断结果;第三判断子模块,用于若第二判断结果为所述CTC损失函数值不小于所述损失函数阈值,则判断迭代次数是否小于迭代次数阈值,得到第三判断结果;网络参数更新子模块,用于若所述第三判断结果表示所述迭代次数小于迭代次数阈值,则根据所述CTC损失函数值更新所述音频转拼音神经网络的连接权值和节点阈值,令迭代次数的数值增加1,返回步骤“将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络,获得拼音识别结果”;训练后的音频转拼音神经网络输出子模块,用于若第二判断结果为所述损失函数值小于所述损失函数阈值或第三判断结果表示所述迭代次数不小于迭代次数阈值,则输出所述音频转拼音神经网络,作为训练后的音频转拼音神经网络。
拼音转文字神经网络训练模块304,用于利用所述训练样本集对所述拼音转文字神经网络进行训练,获得训练后的拼音转文字神经网络;
语音识别网络模型测试模块305,用于利用所述测试样本集对训练后的语音识别网络模型进行测试,判断所述训练后的语音识别网络模型是否满足识别要求,得到第一判断结果,所述训练后的语音识别网络模型包括级联连接的所述训练后的音频转拼音神经网络和所述训练后的拼音转文字神经网络。
所述语音识别网络模型测试模块305,具体包括:测试拼音文本输出子模块,用于将所述测试样本集的样本的音频文件输入所述训练后的音频转拼音神经网络,获得输出拼音文本;测试文字文本输出子模块,用于将所述输出拼音文本输入所述训练后的拼音转文字神经网络,获得输出文字文本;正确率计算子模块,用于将所述输出文字文本与所述音频文件对应的文字批注文本进行对比,计算识别的正确率;测试结果获取子模块,用于判断所述正确率是否大于正确率阈值;若所述正确率大于正确率阈值,则所述第一判断结果表示训练后的语音识别网络模型满足识别要求;若所述正确率不大于正确率阈值,则所述第一判断结果表示训练后的语音识别网络模型不满足识别要求。
返回模块306,用于若所述第一判断结果表示所述训练后的语音识别网络模型不满足识别要求,则返回步骤“利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络”;
训练后的语音识别网络模型输出模块307,用于若所述第一判断结果表示所述训练后的语音识别网络模型满足识别要求,则输出训练后的语音识别网络模型;
识别模块308,用于将待测音频文件输入所述训练后的语音识别网络模型进行识别,获得音频文件的拼音识别结果和文字识别结果。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提出了一种语音识别方法及系统。本发明首先建立包括级联连接的音频转拼音神经网络和拼音转文字神经网络的语音识别网络模型,然后,基于训练样本集分别训练音频转拼音神经网络和拼音转文字神经网络,并利用测试样本集对级联后的语音识别网络模型进行测试,最后,获得训练后的语音识别网络模型,对待识别音频进行识别。本发明基于神经网络实现非特定人的语音识别,同时本发明的训练后的语音识别网络模型不依赖于数据库,可以部署在用户本地。本发明实现了满足本地部署和应用需求的非特定人的语音识别。
本发明的基于双向循环的神经网络级联的语音识别网络模型具有高度的并行性、高度的非线性全局作用、良好的容错性及联想记忆功能、强大的自组织、自学习、自适应能力。本发明的语音识别网络模型可以部署在用户本地,调用模型即可实现本地应用对非特定人语音识别。
本说明书中等效实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,等效实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
Claims (8)
1.一种语音识别方法,其特征在于,所述识别方法包括如下步骤:
获取包括音频文件,及所述音频文件对应的拼音批注文本和文字批注文本的样本,组成样本集,并将所述样本集划分为训练样本集和测试样本集;
建立语音识别网络模型,所述语音识别网络模型包括级联连接的音频转拼音神经网络和拼音转文字神经网络;
利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络;
利用所述训练样本集对所述拼音转文字神经网络进行训练,获得训练后的拼音转文字神经网络;
利用所述测试样本集对训练后的语音识别网络模型进行测试,判断所述训练后的语音识别网络模型是否满足识别要求,得到第一判断结果,所述训练后的语音识别网络模型包括级联连接的所述训练后的音频转拼音神经网络和所述训练后的拼音转文字神经网络;
若所述第一判断结果表示所述训练后的语音识别网络模型不满足识别要求,则返回步骤“利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络”;
若所述第一判断结果表示所述训练后的语音识别网络模型满足识别要求,则输出训练后的语音识别网络模型;
将待测音频文件输入所述训练后的语音识别网络模型进行识别,获得音频文件的拼音识别结果和文字识别结果。
2.根据权利要求1所述的语音识别方法,其特征在于,所述音频转拼音神经网络从输入至输出依次包括:第一隐藏层、第二隐藏层、第三隐藏层、双向循环神经网络层、第四隐藏层和全连接层。
3.根据权利要求1所述的语音识别方法,其特征在于,所述利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络,具体包括:
提取所述音频文件的MFCC倒谱特征;
对所述MFCC倒谱特征进行数据对齐和拼接,获得对齐后的MFCC倒谱特征;
将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络,获得拼音识别结果;
将所述拼音识别结果与所述音频文本对应的拼音批注文本进行对比,计算CTC损失函数值;
判断所述CTC损失函数值是否小于损失函数阈值,得到第二判断结果;
若第二判断结果为所述CTC损失函数值不小于所述损失函数阈值,则判断迭代次数是否小于迭代次数阈值,得到第三判断结果;
若所述第三判断结果表示所述迭代次数小于迭代次数阈值,则根据所述CTC损失函数值更新所述音频转拼音神经网络的连接权值和节点阈值,令迭代次数的数值增加1,返回步骤“将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络,获得拼音识别结果”;
若第二判断结果为所述损失函数值小于所述损失函数阈值或第三判断结果表示所述迭代次数不小于迭代次数阈值,则输出所述音频转拼音神经网络,作为训练后的音频转拼音神经网络。
4.根据权利要求1所述的语音识别方法,其特征在于,所述利用所述测试样本集对训练后的语音识别网络模型进行测试,判断所述训练后的语音识别网络模型是否满足识别要求,得到第一判断结果,具体包括:
将所述测试样本集的样本的音频文件输入所述训练后的音频转拼音神经网络,获得输出拼音文本;
将所述输出拼音文本输入所述训练后的拼音转文字神经网络,获得输出文字文本;
将所述输出文字文本与所述音频文件对应的文字批注文本进行对比,计算识别的正确率;
判断所述正确率是否大于正确率阈值;
若所述正确率大于正确率阈值,则所述第一判断结果表示训练后的语音识别网络模型满足识别要求;
若所述正确率不大于正确率阈值,则所述第一判断结果表示训练后的语音识别网络模型不满足识别要求。
5.一种语音识别系统,其特征在于,所述识别系统包括:
样本集获取模块,用于获取包括音频文件,及所述音频文件对应的拼音批注文本和文字批注文本的样本,组成样本集,并将所述样本集划分为训练样本集和测试样本集;
语音识别网络模型建立模块,用于建立语音识别网络模型,所述语音识别网络模型包括级联连接的音频转拼音神经网络和拼音转文字神经网络;
音频转拼音神经网络训练模块,用于利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络;
拼音转文字神经网络训练模块,用于利用所述训练样本集对所述拼音转文字神经网络进行训练,获得训练后的拼音转文字神经网络;
语音识别网络模型测试模块,用于利用所述测试样本集对训练后的语音识别网络模型进行测试,判断所述训练后的语音识别网络模型是否满足识别要求,得到第一判断结果,所述训练后的语音识别网络模型包括级联连接的所述训练后的音频转拼音神经网络和所述训练后的拼音转文字神经网络;
返回模块,用于若所述第一判断结果表示所述训练后的语音识别网络模型不满足识别要求,则返回步骤“利用所述训练样本集对所述音频转拼音神经网络进行训练,获得训练后的音频转拼音神经网络”;
训练后的语音识别网络模型输出模块,用于若所述第一判断结果表示所述训练后的语音识别网络模型满足识别要求,则输出训练后的语音识别网络模型;
识别模块,用于将待测音频文件输入所述训练后的语音识别网络模型进行识别,获得音频文件的拼音识别结果和文字识别结果。
6.根据权利要求6所述的语音识别系统,其特征在于,所述音频转拼音神经网络从输入至输出依次包括:第一隐藏层、第二隐藏层、第三隐藏层、双向循环神经网络层、第四隐藏层和全连接层。
7.根据权利要求6所述的语音识别系统,其特征在于,所述音频转拼音神经网络训练模块,具体包括:
特征提取子模块,用于提取所述音频文件的MFCC倒谱特征;
对齐子模块,用于对所述MFCC倒谱特征进行数据对齐和拼接,获得对齐后的MFCC倒谱特征;
训练识别子模块,用于将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络,获得拼音识别结果;
CTC损失函数值计算子模块,用于将所述拼音识别结果与所述音频文本对应的拼音批注文本进行对比,计算CTC损失函数值;
第二判断子模块,用于判断所述CTC损失函数值是否小于损失函数阈值,得到第二判断结果;
第三判断子模块,用于若第二判断结果为所述CTC损失函数值不小于所述损失函数阈值,则判断迭代次数是否小于迭代次数阈值,得到第三判断结果;
网络参数更新子模块,用于若所述第三判断结果表示所述迭代次数小于迭代次数阈值,则根据所述CTC损失函数值更新所述音频转拼音神经网络的连接权值和节点阈值,令迭代次数的数值增加1,返回步骤“将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络,获得拼音识别结果”;
训练后的音频转拼音神经网络输出子模块,用于若第二判断结果为所述损失函数值小于所述损失函数阈值或第三判断结果表示所述迭代次数不小于迭代次数阈值,则输出所述音频转拼音神经网络,作为训练后的音频转拼音神经网络。
8.根据权利要求1所述的语音识别系统,其特征在于,所述语音识别网络模型测试模块,具体包括:
测试拼音文本输出子模块,用于将所述测试样本集的样本的音频文件输入所述训练后的音频转拼音神经网络,获得输出拼音文本;
测试文字文本输出子模块,用于将所述输出拼音文本输入所述训练后的拼音转文字神经网络,获得输出文字文本;
正确率计算子模块,用于将所述输出文字文本与所述音频文件对应的文字批注文本进行对比,计算识别的正确率;
测试结果获取子模块,用于判断所述正确率是否大于正确率阈值;若所述正确率大于正确率阈值,则所述第一判断结果表示训练后的语音识别网络模型满足识别要求;若所述正确率不大于正确率阈值,则所述第一判断结果表示训练后的语音识别网络模型不满足识别要求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911240123.1A CN110992959A (zh) | 2019-12-06 | 2019-12-06 | 一种语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911240123.1A CN110992959A (zh) | 2019-12-06 | 2019-12-06 | 一种语音识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110992959A true CN110992959A (zh) | 2020-04-10 |
Family
ID=70090926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911240123.1A Pending CN110992959A (zh) | 2019-12-06 | 2019-12-06 | 一种语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110992959A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112233668A (zh) * | 2020-10-21 | 2021-01-15 | 中国人民解放军海军工程大学 | 一种基于神经网络的语音指令及身份识别方法 |
CN112233655A (zh) * | 2020-09-28 | 2021-01-15 | 上海声瀚信息科技有限公司 | 一种提高语音命令词识别性能的神经网络训练方法 |
CN113555009A (zh) * | 2020-04-21 | 2021-10-26 | 京东数字科技控股有限公司 | 用于训练模型的方法和装置 |
CN113671031A (zh) * | 2021-08-20 | 2021-11-19 | 北京房江湖科技有限公司 | 墙体空鼓检测方法和装置 |
CN116013256A (zh) * | 2022-12-19 | 2023-04-25 | 镁佳(北京)科技有限公司 | 一种语音识别模型构建及语音识别方法、装置及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067780A (zh) * | 2007-06-21 | 2007-11-07 | 腾讯科技(深圳)有限公司 | 智能设备的文字输入系统及方法 |
WO2013178002A1 (zh) * | 2012-05-29 | 2013-12-05 | 中国移动通信集团公司 | 一种语音识别匹配的方法和设备,以及计算机程序和存储介质 |
CN105489220A (zh) * | 2015-11-26 | 2016-04-13 | 小米科技有限责任公司 | 语音识别方法及装置 |
CN106653007A (zh) * | 2016-12-05 | 2017-05-10 | 苏州奇梦者网络科技有限公司 | 一种语音识别系统 |
CN108417202A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
WO2019200923A1 (zh) * | 2018-04-19 | 2019-10-24 | 京东方科技集团股份有限公司 | 基于拼音的语义识别方法、装置以及人机对话系统 |
CN110534100A (zh) * | 2019-08-27 | 2019-12-03 | 北京海天瑞声科技股份有限公司 | 一种基于语音识别的中文语音校对方法和装置 |
CN111435592A (zh) * | 2018-12-25 | 2020-07-21 | Tcl集团股份有限公司 | 一种语音识别方法、装置及终端设备 |
-
2019
- 2019-12-06 CN CN201911240123.1A patent/CN110992959A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067780A (zh) * | 2007-06-21 | 2007-11-07 | 腾讯科技(深圳)有限公司 | 智能设备的文字输入系统及方法 |
WO2013178002A1 (zh) * | 2012-05-29 | 2013-12-05 | 中国移动通信集团公司 | 一种语音识别匹配的方法和设备,以及计算机程序和存储介质 |
CN105489220A (zh) * | 2015-11-26 | 2016-04-13 | 小米科技有限责任公司 | 语音识别方法及装置 |
CN106653007A (zh) * | 2016-12-05 | 2017-05-10 | 苏州奇梦者网络科技有限公司 | 一种语音识别系统 |
CN108417202A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
WO2019200923A1 (zh) * | 2018-04-19 | 2019-10-24 | 京东方科技集团股份有限公司 | 基于拼音的语义识别方法、装置以及人机对话系统 |
CN111435592A (zh) * | 2018-12-25 | 2020-07-21 | Tcl集团股份有限公司 | 一种语音识别方法、装置及终端设备 |
CN110534100A (zh) * | 2019-08-27 | 2019-12-03 | 北京海天瑞声科技股份有限公司 | 一种基于语音识别的中文语音校对方法和装置 |
Non-Patent Citations (2)
Title |
---|
徐涵: "《大数据、人工智能和网络舆情治理》", 31 October 2018, 武汉大学出版社 * |
高志强 等: "《深度学习:从入门到实战》", 30 June 2018, 中国铁道出版社 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113555009A (zh) * | 2020-04-21 | 2021-10-26 | 京东数字科技控股有限公司 | 用于训练模型的方法和装置 |
CN112233655A (zh) * | 2020-09-28 | 2021-01-15 | 上海声瀚信息科技有限公司 | 一种提高语音命令词识别性能的神经网络训练方法 |
CN112233668A (zh) * | 2020-10-21 | 2021-01-15 | 中国人民解放军海军工程大学 | 一种基于神经网络的语音指令及身份识别方法 |
CN112233668B (zh) * | 2020-10-21 | 2023-04-07 | 中国人民解放军海军工程大学 | 一种基于神经网络的语音指令及身份识别方法 |
CN113671031A (zh) * | 2021-08-20 | 2021-11-19 | 北京房江湖科技有限公司 | 墙体空鼓检测方法和装置 |
CN113671031B (zh) * | 2021-08-20 | 2024-06-21 | 贝壳找房(北京)科技有限公司 | 墙体空鼓检测方法和装置 |
CN116013256A (zh) * | 2022-12-19 | 2023-04-25 | 镁佳(北京)科技有限公司 | 一种语音识别模型构建及语音识别方法、装置及存储介质 |
CN116013256B (zh) * | 2022-12-19 | 2024-01-30 | 镁佳(北京)科技有限公司 | 一种语音识别模型构建及语音识别方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song | English speech recognition based on deep learning with multiple features | |
CN111739508B (zh) | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 | |
CN110992959A (zh) | 一种语音识别方法及系统 | |
Agarwalla et al. | Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech | |
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
CN111311327A (zh) | 基于人工智能的服务评价方法、装置、设备及存储介质 | |
CN108711421A (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
CN107886968B (zh) | 语音评测方法及系统 | |
CN113094578A (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN110019741A (zh) | 问答系统答案匹配方法、装置、设备及可读存储介质 | |
Gupta et al. | Speech emotion recognition using SVM with thresholding fusion | |
Sinha et al. | Acoustic-phonetic feature based dialect identification in Hindi Speech | |
CN112331207A (zh) | 服务内容监控方法、装置、电子设备和存储介质 | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
Liu et al. | Learning salient features for speech emotion recognition using CNN | |
Elbarougy | Speech emotion recognition based on voiced emotion unit | |
Elakkiya et al. | Implementation of speech to text conversion using hidden markov model | |
CN111145787B (zh) | 一种基于主辅网络的语音情感特征融合方法及系统 | |
Saputri et al. | Identifying Indonesian local languages on spontaneous speech data | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
Sawakare et al. | Speech recognition techniques: a review | |
CN114333790A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
Chittaragi et al. | Sentence-based dialect identification system using extreme gradient boosting algorithm | |
Kafle et al. | Modeling Acoustic-Prosodic Cues for Word Importance Prediction in Spoken Dialogues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |