CN116631410A - 一种基于深度学习的语音识别方法 - Google Patents
一种基于深度学习的语音识别方法 Download PDFInfo
- Publication number
- CN116631410A CN116631410A CN202310914137.7A CN202310914137A CN116631410A CN 116631410 A CN116631410 A CN 116631410A CN 202310914137 A CN202310914137 A CN 202310914137A CN 116631410 A CN116631410 A CN 116631410A
- Authority
- CN
- China
- Prior art keywords
- data
- noise
- function
- speech
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 230000006870 function Effects 0.000 claims abstract description 121
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000036039 immunity Effects 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 239000012633 leachable Substances 0.000 claims description 2
- 238000007635 classification algorithm Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 3
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的语音识别方法,该方法包括音源采集、音源预处理、抗噪增强、口语理解、说话人识别和语音识别,本发明属于语音识别技术领域,具体是指一种基于深度学习的语音识别方法。本方案采用时频去噪网络结合损失函数训练预测模型的方法进行对音源数据的抗噪增强,提高了音源数据的质量,采用基于集成学习的口语识别架构进行口语理解,提高了语音识别的可用性和精确性,采用基于决策函数的说话人身份识别和分类算法,分析和处理音源数据进行说话人识别,提高了语音识别的信息获取密度和优化了语音识别的信息获取结构,进而优化了语音识别的可靠性、可延展性和适用性。
Description
技术领域
本发明涉及语音识别技术领域,具体是指一种基于深度学习的语音识别方法。
背景技术
语音识别技术是指将人类语音转化为计算机可识别的文本或命令的技术,随着人工智能和机器学习技术的快速发展,语音识别技术在智能助理、智能音箱、语音搜索和语音翻译等领域得到越来越广泛的应用。
但是在已有的语音识别过程中,存在着音源噪声干扰较多,音源质量参差不齐,加大了语音特征提取的难度,对语音识别的准确率造成了负面影响的技术问题;在已有的语音识别方法中,存在着难以识别并理解言语中的口语意图,降低了语音识别的可用性和精确性的技术问题;在已有的语音识别方法中,存在着缺少一种能够识别、匹配并分类说话人的方法,影响了语音识别的可靠性和可延展性,降低了语音识别的信息获取密度的技术问题。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供了一种基于深度学习的语音识别方法,针对在已有的语音识别过程中,存在着音源噪声干扰较多,音源质量参差不齐,加大了语音特征提取的难度,对语音识别的准确率造成了负面影响的技术问题,本方案创造性地采用时频去噪网络结合损失函数训练预测模型的方法进行对音源数据的抗噪增强,提高了音源数据的质量,进而降低了后续语音识别过程中特征提取等音源处理步骤的难度,提升了语音识别的总体准确率;针对在已有的语音识别方法中,存在着难以识别并理解言语中的口语意图,降低了语音识别的可用性和精确性的技术问题,本方案创造性地采用基于集成学习的口语识别架构进行口语理解,从音源数据中识别出口语言语的意图,提高了语音识别的可用性和精确性;针对在已有的语音识别方法中,存在着缺少一种能够识别、匹配并分类说话人的方法,影响了语音识别的可靠性和可延展性,降低了语音识别的信息获取密度的技术问题,本方案创造性地采用基于决策函数的说话人身份识别和分类算法,分析和处理音源数据进行说话人识别,提高了语音识别的信息获取密度和优化了语音识别的信息获取结构,进而优化了语音识别的可靠性、可延展性和适用性。
本发明采取的技术方案如下:本发明提供的一种基于深度学习的语音识别方法,该方法包括以下步骤:
步骤S1:音源采集;
步骤S2:音源预处理;
步骤S3:抗噪增强;
步骤S4:口语理解;
步骤S5:说话人识别;
步骤S6:语音识别。
进一步地,在步骤S1中,所述音源采集具体指从音频数据中采集得到音频原始数据。
进一步地,在步骤S2中,所述音源预处理包括采样率调整、音量归一化和声道归一化,得到单声道音源数据SMA。
进一步地,在步骤S3中,所述抗噪增强,包括以下步骤:
步骤S31:采用时频去噪网络对所述单声道音源数据SMA进行抗噪处理,包括以下步骤:
步骤S311:通过编码器encoder,计算得到单声道音源编码数据ESMA,计算公式为:
;
其中,是编码器函数,所述编码器函数/>具体由短时傅里叶变换函数和ReLu激活函数构成的可学习一维卷积组成,SMA是单声道音源数据;
步骤S312:通过掩码估计网络MaskEstNet,计算去噪掩码,计算公式为:
;
其中,是去噪掩码,MaskV是语音数据掩码,MaskN是噪声数据掩码,是掩码估计网络;
步骤S313:通过解码器decoder,计算得到语音解码数据,计算公式为:
;
其中,是语音解码数据,/>是解码器函数,所述解码器函数是逐元素点乘运算,具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成,MaskV是语音数据掩码,/>是点积运算,ESMA是单声道音源编码数据;
步骤S314:通过解码器decoder,计算得到噪声解码数据,计算公式为:
;
其中,是噪声解码数据,/>是解码器函数,所述解码器函数是逐元素点积运算,具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成,MaskV是语音数据掩码,/>是点积运算,ESMA是单声道音源编码数据;
步骤S32:使用语音解码数据和噪声解码数据/>,通过多种训练损失函数,进行预测模型训练,计算得到多种训练损失,并得到抗噪增强预测模型,所述使用语音解码数据和噪声解码数据/>,通过多种训练损失函数,进行预测模型训练,包括以下步骤:
步骤S321:通过信噪比损失函数LSNR,在保留单声道音源数据SMA的原始规模的基础上进行音源增强,所述信噪比损失函数LSNR的计算公式为:
;
其中,是信噪比损失函数,θ是预测模型参数,/>是信噪比函数,是纯净语音数据/>和语音增强得到的语音解码数据/>之间的信噪比;
步骤S322:通过对数均方误差损失函数Llog-MSE,降低预测语音和真实语音之间的差异,所述对数均方误差损失函数Llog-MSE的计算公式为:
;
其中,是对数均方误差损失函数,θ是预测模型参数,/>是纯净语音数据/>的振幅谱,MaskV是语音数据掩码,/>是点积运算,ESMA是单声道音源编码数据,||·||2是欧几里得范数;
步骤S323:通过噪声重建损失函数LNR,提高模型的鲁棒性,所述噪声重建损失函数LNR的计算公式为:
;
其中,是噪声重建损失函数,θ是预测模型参数,/>是信噪比函数,是纯净语音数据/>和语音增强得到的语音解码数据/>之间的信噪比,是纯净噪声数据/>和语音增强得到的噪声解码数据/>之间的信噪比;
步骤S33:通过抗噪增强预测模型,对单声道音源数据SMA进行语抗噪增强,得到抗噪增强语音数据SAN。
进一步地,在步骤S4中,所述口语理解,包括以下步骤:
步骤S41:特征提取,具体为提取大小为N×M的特征数组Fe,其中,在所述特征数组Fe中,每个特征数组中的元素Fei可以表示为,得到特征数组中第i行和第j列的特征元素Feij,并计算网络特征集Sj,所述网络特征集Sj的计算公式为:
;
其中,Sj是网络特征集,N是特征数组Fe的长,Feij是特征数组中第i行和第j列的特征元素,i是特征数组Fe的行索引,j是特征数组Fe的列索引;
步骤S42:构建口语识别架构,包括以下步骤:
步骤S421:设置多层感知器,具体为使用线性激活函数设置输入层,构建具有14个隐藏层的深度多层感知网络,并使用非线性函数激活隐藏层,使用Softmax激活函数设置输出层;
步骤S422:设置深度卷积神经网络,具体为在卷积层设置中,使用一组可学习过滤器组成卷积层;
步骤S423:设置半监督生成对抗网络,具体包括以下步骤:
步骤S4231:采用预训练的ResNet网络训练鉴别器DIS,并采用多种损失函数训练生成器GEN;
步骤S4232:采用监督损失函数Lsup优化生成器GEN生成数据的真实性,计算公式为:
;
其中,Lsup是监督损失函数,x是输入样本,y是生成得到的标签,是所有来自数据分布Pdata(x,y)的标签样本(x,y)的期望值,/>是在给定输入样本x和前δ+1个标签y的情况下,模型生成得到标签y的概率,/>是对数概率;
步骤S4233:采用无监督损失函数Lunsup优化生成器GEN生成数据的多样性,计算公式为:
;
其中,Lunsup是无监督损失函数,x是输入样本,y是生成得到的标签,是所有来自数据分布Pdata(x)的输入样本x的期望值,/>是在给定输入样本x的情况下,模型生成的样本y经过分类器得到的可能性大于等于δ+1的概率,/>是对生成器GEN得到的样本x进行期望运算;
步骤S4234:采用对抗损失函数LGAN优化生成器的生成误差,计算公式为:
;
其中,LGAN是对抗损失函数,x是输入样本,y是生成得到的标签是所有来自数据分布Pdata(x,y)的标签样本(x,y)的期望值,/>是给定输入样本x的情况下,模型生成得到标签y的概率,/>是给定输入样本x的情况下,模型生成得到标签y经过分类器得到的可能性大于等于δ+1的概率,/>是对生成器GEN得到的样本x进行期望运算,/>是对数概率;
步骤S4235:采用对抗训练的方法,训练得到半监督生成对抗网络模型;
步骤S43:采用集成学习的方法,通过多层感知器、深度卷积神经网络和半监督生成对抗网络构建模糊集成模型,进行口语理解,从抗噪增强语音数据SAN中得到口语意图分类数据SSI。
进一步地,在步骤S5中,所述说话人识别,包括以下步骤:
步骤S51:采用注册决策函数DOSI进行说话人注册,计算公式为:
;
其中,DOSI是注册决策函数,SAN是抗噪增强语音数据,SP是待识别说话人,α是已注册说话人,是已注册说话人α的抗噪增强语音数据SAN的相似性分数,θ是预定义分数阈值;
步骤S52:采用分类决策函数DCSI进行说话人身份识别,计算公式为:
;
其中,DCSI是分类决策函数,SAN是抗噪增强语音数据,SP是待识别说话人,α是已注册说话人,是已注册说话人α的抗噪增强语音数据SAN的相似性分数;
步骤S53:采用验证决策函数DASV进行说话人发言验证,计算公式为:
;
其中,DASV是验证决策函数,是已注册说话人α测试某种发言语音数据/>的分数,θ是预定义分数阈值;
步骤S54:通过三种决策函数,进行说话人识别,得到说话人身份数据SID。
进一步地,在步骤S6中,所述语音识别,具体指通过结合口语意图分类数据SSI和说话人身份数据SID,得到语音识别数据SR。
采用上述方案本发明取得的有益效果如下:
(1)针对在已有的语音识别过程中,存在着音源噪声干扰较多,音源质量参差不齐,加大了语音特征提取的难度,对语音识别的准确率造成了负面影响的技术问题,本方案创造性地采用时频去噪网络结合损失函数训练预测模型的方法进行对音源数据的抗噪增强,提高了音源数据的质量,进而降低了后续语音识别过程中特征提取等音源处理步骤的难度,提升了语音识别的总体准确率;
(2)针对在已有的语音识别方法中,存在着难以识别并理解言语中的口语意图,降低了语音识别的可用性和精确性的技术问题,本方案创造性地采用基于集成学习的口语识别架构进行口语理解,从音源数据中识别出口语言语的意图,提高了语音识别的可用性和精确性;
(3)针对在已有的语音识别方法中,存在着缺少一种能够识别、匹配并分类说话人的方法,影响了语音识别的可靠性和可延展性,降低了语音识别的信息获取密度的技术问题,本方案创造性地采用基于决策函数的说话人身份识别和分类算法,分析和处理音源数据进行说话人识别,提高了语音识别的信息获取密度和优化了语音识别的信息获取结构,进而优化了语音识别的可靠性、可延展性和适用性。
附图说明
图1为本发明提供的一种基于深度学习的语音识别方法的流程示意图;
图2为本发明提供的一种基于深度学习的语音识别方法的数据流图;
图3为步骤S3的流程示意图;
图4为步骤S31的流程示意图;
图5为步骤S32的流程示意图;
图6为步骤S4的流程示意图;
图7为步骤S42的流程示意图;
图8为步骤S5的流程示意图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例一,参阅图1和图2,本发明提供的一种基于深度学习的语音识别方法,该方法包括以下步骤:
步骤S1:音源采集;
步骤S2:音源预处理;
步骤S3:抗噪增强;
步骤S4:口语理解;
步骤S5:说话人识别;
步骤S6:语音识别。
实施例二,参阅图1和图2,该实施例基于上述实施例,在步骤S1中,所述音源采集具体指从音频数据中采集得到音频原始数据。
实施例三,参阅图1和图2,该实施例基于上述实施例,在步骤S2中,所述音源预处理包括采样率调整、音量归一化和声道归一化,得到单声道音源数据SMA。
实施例四,参阅图2、图3、图4和图5,该实施例基于上述实施例,在步骤S3中,所述抗噪增强,包括以下步骤:
步骤S31:采用时频去噪网络对所述单声道音源数据SMA进行抗噪处理,包括以下步骤:
步骤S311:通过编码器encoder,计算得到单声道音源编码数据ESMA,计算公式为:
;
其中,是编码器函数,所述编码器函数/>具体由短时傅里叶变换函数和ReLu激活函数构成的可学习一维卷积组成,SMA是单声道音源数据;
步骤S312:通过掩码估计网络MaskEstNet,计算去噪掩码,计算公式为:
;
其中,是去噪掩码,MaskV是语音数据掩码,MaskN是噪声数据掩码,是掩码估计网络;
步骤S313:通过解码器decoder,计算得到语音解码数据,计算公式为:
;
其中,是语音解码数据,/>是解码器函数,所述解码器函数是逐元素点乘运算,具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成,MaskV是语音数据掩码,/>是点积运算,ESMA是单声道音源编码数据;
步骤S314:通过解码器decoder,计算得到噪声解码数据,计算公式为:
;
其中,是噪声解码数据,/>是解码器函数,所述解码器函数是逐元素点积运算,具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成,MaskV是语音数据掩码,/>是点积运算,ESMA是单声道音源编码数据;
步骤S32:使用语音解码数据和噪声解码数据/>,通过多种训练损失函数,进行预测模型训练,计算得到多种训练损失,并得到抗噪增强预测模型,所述使用语音解码数据和噪声解码数据/>,通过多种训练损失函数,进行预测模型训练,包括以下步骤:
步骤S321:通过信噪比损失函数LSNR,在保留单声道音源数据SMA的原始规模的基础上进行音源增强,所述信噪比损失函数LSNR的计算公式为:
;
其中,是信噪比损失函数,θ是预测模型参数,/>是信噪比函数,是纯净语音数据/>和语音增强得到的语音解码数据/>之间的信噪比;
步骤S322:通过对数均方误差损失函数Llog-MSE,降低预测语音和真实语音之间的差异,所述对数均方误差损失函数Llog-MSE的计算公式为:
;
其中,是对数均方误差损失函数,θ是预测模型参数,/>是纯净语音数据/>的振幅谱,MaskV是语音数据掩码,/>是点积运算,ESMA是单声道音源编码数据,||·||2是欧几里得范数;
步骤S323:通过噪声重建损失函数LNR,提高模型的鲁棒性,所述噪声重建损失函数LNR的计算公式为:
;
其中,是噪声重建损失函数,θ是预测模型参数,/>是信噪比函数,是纯净语音数据/>和语音增强得到的语音解码数据/>之间的信噪比,是纯净噪声数据/>和语音增强得到的噪声解码数据/>之间的信噪比;
步骤S33:通过抗噪增强预测模型,对单声道音源数据SMA进行语抗噪增强,得到抗噪增强语音数据SAN;
通过执行上述操作,针对在已有的语音识别过程中,存在着音源噪声干扰较多,音源质量参差不齐,加大了语音特征提取的难度,对语音识别的准确率造成了负面影响的技术问题,本方案创造性地采用时频去噪网络结合损失函数训练预测模型的方法进行对音源数据的抗噪增强,提高了音源数据的质量,进而降低了后续语音识别过程中特征提取等音源处理步骤的难度,提升了语音识别的总体准确率。
实施例五,参阅图2、图6和图7,该实施例基于上述实施例,在步骤S4中,所述口语理解,包括以下步骤:
步骤S41:特征提取,具体为提取大小为N×M的特征数组Fe,其中,在所述特征数组Fe中,每个特征数组中的元素Fei可以表示为,得到特征数组中第i行和第j列的特征元素Feij,并计算网络特征集Sj,所述网络特征集Sj的计算公式为:
;
其中,Sj是网络特征集,N是特征数组Fe的长,Feij是特征数组中第i行和第j列的特征元素,i是特征数组Fe的行索引,j是特征数组Fe的列索引;
步骤S42:构建口语识别架构,包括以下步骤:
步骤S421:设置多层感知器,具体为使用线性激活函数设置输入层,构建具有14个隐藏层的深度多层感知网络,并使用非线性函数激活隐藏层,使用Softmax激活函数设置输出层;
步骤S422:设置深度卷积神经网络,具体为在卷积层设置中,使用一组可学习过滤器组成卷积层;
步骤S423:设置半监督生成对抗网络,具体包括以下步骤:
步骤S4231:采用预训练的ResNet网络训练鉴别器DIS,并采用多种损失函数训练生成器GEN;
步骤S4232:采用监督损失函数Lsup优化生成器GEN生成数据的真实性,计算公式为:
;
其中,Lsup是监督损失函数,x是输入样本,y是生成得到的标签,是所有来自数据分布Pdata(x,y)的标签样本(x,y)的期望值,/>是在给定输入样本x和前δ+1个标签y的情况下,模型生成得到标签y的概率,/>是对数概率;
步骤S4233:采用无监督损失函数Lunsup优化生成器GEN生成数据的多样性,计算公式为:
;
其中,Lunsup是无监督损失函数,x是输入样本,y是生成得到的标签,是所有来自数据分布Pdata(x)的输入样本x的期望值,/>是在给定输入样本x的情况下,模型生成的样本y经过分类器得到的可能性大于等于δ+1的概率,/>是对生成器GEN得到的样本x进行期望运算;
步骤S4234:采用对抗损失函数LGAN优化生成器的生成误差,计算公式为:
;
其中,LGAN是对抗损失函数,x是输入样本,y是生成得到的标签是所有来自数据分布Pdata(x,y)的标签样本(x,y)的期望值,/>是给定输入样本x的情况下,模型生成得到标签y的概率,/>是给定输入样本x的情况下,模型生成得到标签y经过分类器得到的可能性大于等于δ+1的概率,/>是对生成器GEN得到的样本x进行期望运算,/>是对数概率;
步骤S4235:采用对抗训练的方法,训练得到半监督生成对抗网络模型;
步骤S43:采用集成学习的方法,通过多层感知器、深度卷积神经网络和半监督生成对抗网络构建模糊集成模型,进行口语理解,从抗噪增强语音数据SAN中得到口语意图分类数据SSI;
通过执行上述操作,针对在已有的语音识别方法中,存在着难以识别并理解言语中的口语意图,降低了语音识别的可用性和精确性的技术问题,本方案创造性地采用基于集成学习的口语识别架构进行口语理解,从音源数据中识别出口语言语的意图,提高了语音识别的可用性和精确性。
实施例六,参阅图2和图8,该实施例基于上述实施例,在步骤S5中,所述说话人识别,包括以下步骤:
步骤S51:采用注册决策函数DOSI进行说话人注册,计算公式为:
;
其中,DOSI是注册决策函数,SAN是抗噪增强语音数据,SP是待识别说话人,α是已注册说话人,是已注册说话人α的抗噪增强语音数据SAN的相似性分数,θ是预定义分数阈值;
步骤S52:采用分类决策函数DCSI进行说话人身份识别,计算公式为:
;
其中,DCSI是分类决策函数,SAN是抗噪增强语音数据,SP是待识别说话人,α是已注册说话人,是已注册说话人α的抗噪增强语音数据SAN的相似性分数;
步骤S53:采用验证决策函数DASV进行说话人发言验证,计算公式为:
;
其中,DASV是验证决策函数,是已注册说话人α测试某种发言语音数据/>的分数,θ是预定义分数阈值;
步骤S54:通过三种决策函数,进行说话人识别,得到说话人身份数据SID;
针对在已有的语音识别方法中,存在着缺少一种能够识别、匹配并分类说话人的方法,影响了语音识别的可靠性和可延展性,降低了语音识别的信息获取密度的技术问题,本方案创造性地采用基于决策函数的说话人身份识别和分类算法,分析和处理音源数据进行说话人识别,提高了语音识别的信息获取密度和优化了语音识别的信息获取结构,进而优化了语音识别的可靠性、可延展性和适用性。
实施例七,参阅图1、图2、图6和图7,该实施例基于上述实施例,在步骤S6中,所述语音识别,具体指通过结合口语意图分类数据SSI和说话人身份数据SID,得到语音识别数据SR。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (7)
1.一种基于深度学习的语音识别方法,其特征在于:该方法包括以下步骤:
步骤S1:音源采集;
步骤S2:音源预处理;
步骤S3:抗噪增强;
步骤S4:口语理解;
步骤S5:说话人识别;
步骤S6:语音识别;
在步骤S2中,所述音源预处理包括采样率调整、音量归一化和声道归一化,得到单声道音源数据SMA;
在步骤S3中,所述抗噪增强,包括以下步骤:
步骤S31:采用时频去噪网络对所述单声道音源数据SMA进行抗噪处理;
步骤S32:使用语音解码数据和噪声解码数据/>,通过多种训练损失函数,进行预测模型训练,计算得到多种训练损失,并得到抗噪增强预测模型;
步骤S33:通过抗噪增强预测模型,对单声道音源数据SMA进行语抗噪增强,得到抗噪增强语音数据SAN。
2.根据权利要求1所述的一种基于深度学习的语音识别方法,其特征在于:在步骤S31中,所述采用时频去噪网络对所述单声道音源数据SMA进行抗噪处理,包括以下步骤:
步骤S311:通过编码器encoder,计算得到单声道音源编码数据ESMA,计算公式为:
;
其中,是编码器函数,所述编码器函数/>具体由短时傅里叶变换函数和ReLu激活函数构成的可学习一维卷积组成,SMA是单声道音源数据;
步骤S312:通过掩码估计网络MaskEstNet,计算去噪掩码,计算公式为:
;
其中,是去噪掩码,MaskV是语音数据掩码,MaskN是噪声数据掩码,是掩码估计网络;
步骤S313:通过解码器decoder,计算得到语音解码数据,计算公式为:
;
其中,是语音解码数据,/>是解码器函数,所述解码器函数是逐元素点乘运算,具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成,MaskV是语音数据掩码,是点积运算,ESMA是单声道音源编码数据;
步骤S314:通过解码器decoder,计算得到噪声解码数据,计算公式为:
;
其中,是噪声解码数据,/>是解码器函数,所述解码器函数是逐元素点积运算,具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成,MaskV是语音数据掩码,是点积运算,ESMA是单声道音源编码数据。
3.根据权利要求2所述的一种基于深度学习的语音识别方法,其特征在于:在步骤S32中,所述使用语音解码数据和噪声解码数据/>,通过多种训练损失函数,进行预测模型训练,包括以下步骤:
步骤S321:通过信噪比损失函数LSNR,在保留单声道音源数据SMA的原始规模的基础上进行音源增强,所述信噪比损失函数LSNR的计算公式为:
;
其中,是信噪比损失函数,θ是预测模型参数,/>是信噪比函数,/>是纯净语音数据/>和语音增强得到的语音解码数据/>之间的信噪比;
步骤S322:通过对数均方误差损失函数Llog-MSE,降低预测语音和真实语音之间的差异,所述对数均方误差损失函数Llog-MSE的计算公式为:
;
其中,是对数均方误差损失函数,θ是预测模型参数,/>是纯净语音数据/>的振幅谱,MaskV是语音数据掩码,/>是点积运算,ESMA是单声道音源编码数据,||·||2是欧几里得范数;
步骤S323:通过噪声重建损失函数LNR,提高模型的鲁棒性,所述噪声重建损失函数LNR的计算公式为:
;
其中,是噪声重建损失函数,θ是预测模型参数,/>是信噪比函数,是纯净语音数据/>和语音增强得到的语音解码数据/>之间的信噪比,是纯净噪声数据/>和语音增强得到的噪声解码数据/>之间的信噪比。
4.根据权利要求3所述的一种基于深度学习的语音识别方法,其特征在于:在步骤S4中,所述口语理解,包括以下步骤:
步骤S41:特征提取,具体为提取大小为N×M的特征数组Fe,其中,在所述特征数组Fe中,每个特征数组中的元素Fei可以表示为/>,得到特征数组中第i行和第j列的特征元素Feij,并计算网络特征集Sj,所述网络特征集Sj的计算公式为:
;
其中,Sj是网络特征集,N是特征数组Fe的长,Feij是特征数组中第i行和第j列的特征元素,i是特征数组Fe的行索引,j是特征数组Fe的列索引;
步骤S42:构建口语识别架构,包括以下步骤:
步骤S421:设置多层感知器,具体为使用线性激活函数设置输入层,构建具有14个隐藏层的深度多层感知网络,并使用非线性函数激活隐藏层,使用Softmax激活函数设置输出层;
步骤S422:设置深度卷积神经网络,具体为在卷积层设置中,使用一组可学习过滤器组成卷积层;
步骤S423:设置半监督生成对抗网络,具体包括以下步骤:
步骤S4231:采用预训练的ResNet网络训练鉴别器DIS,并采用多种损失函数训练生成器GEN;
步骤S4232:采用监督损失函数Lsup优化生成器GEN生成数据的真实性,计算公式为:
;
其中,Lsup是监督损失函数,x是输入样本,y是生成得到的标签,是所有来自数据分布Pdata(x,y)的标签样本(x,y)的期望值,/>是在给定输入样本x和前δ+1个标签y的情况下,模型生成得到标签y的概率,/>是对数概率;
步骤S4233:采用无监督损失函数Lunsup优化生成器GEN生成数据的多样性,计算公式为:
;
其中,Lunsup是无监督损失函数,x是输入样本,y是生成得到的标签,是所有来自数据分布Pdata(x)的输入样本x的期望值,/>是在给定输入样本x的情况下,模型生成的样本y经过分类器得到的可能性大于等于δ+1的概率,/>是对生成器GEN得到的样本x进行期望运算;
步骤S4234:采用对抗损失函数LGAN优化生成器的生成误差,计算公式为:
;
其中,LGAN是对抗损失函数,x是输入样本,y是生成得到的标签是所有来自数据分布Pdata(x,y)的标签样本(x,y)的期望值,/>是给定输入样本x的情况下,模型生成得到标签y的概率,/>是给定输入样本x的情况下,模型生成得到标签y经过分类器得到的可能性大于等于δ+1的概率,/>是对生成器GEN得到的样本x进行期望运算,/>是对数概率;
步骤S4235:采用对抗训练的方法,训练得到半监督生成对抗网络模型;
步骤S43:采用集成学习的方法,通过多层感知器、深度卷积神经网络和半监督生成对抗网络构建模糊集成模型,进行口语理解,从抗噪增强语音数据SAN中得到口语意图分类数据SSI。
5.根据权利要求4所述的一种基于深度学习的语音识别方法,其特征在于:在步骤S5中,所述说话人识别,包括以下步骤:
步骤S51:采用注册决策函数DOSI进行说话人注册,计算公式为:
;
其中,DOSI是注册决策函数,SAN是抗噪增强语音数据,SP是待识别说话人,α是已注册说话人,是已注册说话人α的抗噪增强语音数据SAN的相似性分数,θ是预定义分数阈值;
步骤S52:采用分类决策函数DCSI进行说话人身份识别,计算公式为:
;
其中,DCSI是分类决策函数,SAN是抗噪增强语音数据,SP是待识别说话人,α是已注册说话人,是已注册说话人α的抗噪增强语音数据SAN的相似性分数;
步骤S53:采用验证决策函数DASV进行说话人发言验证,计算公式为:
;
其中,DASV是验证决策函数,是已注册说话人α测试某种发言语音数据/>的分数,θ是预定义分数阈值;
步骤S54:通过三种决策函数,进行说话人识别,得到说话人身份数据SID。
6.根据权利要求5所述的一种基于深度学习的语音识别方法,其特征在于:在步骤S1中,所述音源采集具体指从音频数据中采集得到音频原始数据。
7.根据权利要求6所述的一种基于深度学习的语音识别方法,其特征在于:在步骤S6中,所述语音识别,具体指通过结合口语意图分类数据SSI和说话人身份数据SID,得到语音识别数据SR。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310914137.7A CN116631410B (zh) | 2023-07-25 | 2023-07-25 | 一种基于深度学习的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310914137.7A CN116631410B (zh) | 2023-07-25 | 2023-07-25 | 一种基于深度学习的语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116631410A true CN116631410A (zh) | 2023-08-22 |
CN116631410B CN116631410B (zh) | 2023-10-24 |
Family
ID=87603076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310914137.7A Active CN116631410B (zh) | 2023-07-25 | 2023-07-25 | 一种基于深度学习的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116631410B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1229925A (en) * | 1985-01-17 | 1987-12-01 | James K. Baker | Speech recognition method |
CN106128477A (zh) * | 2016-06-23 | 2016-11-16 | 南阳理工学院 | 一种口语识别校正系统 |
CN107481732A (zh) * | 2017-08-31 | 2017-12-15 | 广东小天才科技有限公司 | 一种口语测评中的降噪方法、装置及终端设备 |
KR20170140461A (ko) * | 2016-06-10 | 2017-12-21 | 경북대학교 산학협력단 | 적응형 잡음제거기, 잡음제거 방법 |
CN111105783A (zh) * | 2019-12-06 | 2020-05-05 | 中国人民解放军61623部队 | 一种基于人工智能的综合客服系统 |
CN112927707A (zh) * | 2021-01-25 | 2021-06-08 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113555038A (zh) * | 2021-07-05 | 2021-10-26 | 东南大学 | 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统 |
CN113808607A (zh) * | 2021-03-05 | 2021-12-17 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
CN114898778A (zh) * | 2022-05-17 | 2022-08-12 | 东南大学 | 基于注意力时频网络的语音情感识别方法及系统 |
CN116434759A (zh) * | 2023-04-11 | 2023-07-14 | 兰州交通大学 | 一种基于srs-cl网络的说话人识别方法 |
-
2023
- 2023-07-25 CN CN202310914137.7A patent/CN116631410B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1229925A (en) * | 1985-01-17 | 1987-12-01 | James K. Baker | Speech recognition method |
KR20170140461A (ko) * | 2016-06-10 | 2017-12-21 | 경북대학교 산학협력단 | 적응형 잡음제거기, 잡음제거 방법 |
CN106128477A (zh) * | 2016-06-23 | 2016-11-16 | 南阳理工学院 | 一种口语识别校正系统 |
CN107481732A (zh) * | 2017-08-31 | 2017-12-15 | 广东小天才科技有限公司 | 一种口语测评中的降噪方法、装置及终端设备 |
CN111105783A (zh) * | 2019-12-06 | 2020-05-05 | 中国人民解放军61623部队 | 一种基于人工智能的综合客服系统 |
CN112927707A (zh) * | 2021-01-25 | 2021-06-08 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113808607A (zh) * | 2021-03-05 | 2021-12-17 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
CN113555038A (zh) * | 2021-07-05 | 2021-10-26 | 东南大学 | 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统 |
CN114898778A (zh) * | 2022-05-17 | 2022-08-12 | 东南大学 | 基于注意力时频网络的语音情感识别方法及系统 |
CN116434759A (zh) * | 2023-04-11 | 2023-07-14 | 兰州交通大学 | 一种基于srs-cl网络的说话人识别方法 |
Non-Patent Citations (2)
Title |
---|
BO HUANG 等: "Rate-Distortion-Complexity Optimized Coding Mode Decision for HEVC", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, vol. 30, no. 3, pages 795 - 809, XP011776269, DOI: 10.1109/TCSVT.2019.2893396 * |
郑莉 等: "时频掩码优化的两阶段语音增强算法", 电子设计工程, vol. 30, no. 4, pages 17 - 21 * |
Also Published As
Publication number | Publication date |
---|---|
CN116631410B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364779B (zh) | 信号处理与深-浅网络多模型融合的水声目标识别方法 | |
Li et al. | Robust automatic speech recognition: a bridge to practical applications | |
Li et al. | Sound event detection via dilated convolutional recurrent neural networks | |
Ohi et al. | Deep speaker recognition: Process, progress, and challenges | |
CN108962229B (zh) | 一种基于单通道、无监督式的目标说话人语音提取方法 | |
CN104795064A (zh) | 低信噪比声场景下声音事件的识别方法 | |
WO1991013430A1 (en) | Method for spectral estimation to improve noise robustness for speech recognition | |
CN116092501B (zh) | 语音增强方法、语音识别方法、说话人识别方法和系统 | |
CA3133283A1 (en) | Signal processor employing neural network trained using evolutionary feature selection | |
CN112735460A (zh) | 基于时频掩蔽值估计的波束成形方法及系统 | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
Wang et al. | A novel underground pipeline surveillance system based on hybrid acoustic features | |
CN113707136B (zh) | 服务型机器人语音交互的音视频混合语音前端处理方法 | |
CN116092512A (zh) | 一种基于数据生成的小样本语音分离方法 | |
Fan et al. | Deep attention fusion feature for speech separation with end-to-end post-filter method | |
Kumar et al. | Classification of voiced and non-voiced speech signals using empirical wavelet transform and multi-level local patterns | |
CN113470655A (zh) | 一种基于音素对数似然比的时延神经网络的声纹识别方法 | |
Pashaian et al. | A novel jointly optimized cooperative DAE-DNN approach based on a new multi-target step-wise learning for speech enhancement | |
CN116631410B (zh) | 一种基于深度学习的语音识别方法 | |
CN112420056A (zh) | 基于变分自编码器的说话人身份鉴别方法、系统及无人机 | |
CN116347723A (zh) | 一种可调灯光样色的声控型墙壁开关的控制系统 | |
CN116469394A (zh) | 一种基于谱图去噪和对抗学习的鲁棒说话人识别方法 | |
Chien et al. | Stochastic Recurrent Neural Network for Speech Recognition. | |
Essa et al. | A comparison of combined classifier architectures for Arabic Speech Recognition | |
Bhavani et al. | A survey on various speech emotion recognition techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230922 Address after: 7th Floor, Building A, 360 Building, No. 6 Jiuxianqiao Road, Chaoyang District, Beijing, 100015 (International Electronics City Headquarters) Applicant after: Chen Zhifeng Address before: Room 7202, 2nd Floor, Building 7, Huayuan Hotel, No. 30 Huayuan East Road, Haidian District, Beijing, 100080 Applicant before: Beijing Anji Bema Health Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |