CN116959426A - 语音识别模型的训练方法、装置、计算机设备和存储介质 - Google Patents
语音识别模型的训练方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116959426A CN116959426A CN202310847565.2A CN202310847565A CN116959426A CN 116959426 A CN116959426 A CN 116959426A CN 202310847565 A CN202310847565 A CN 202310847565A CN 116959426 A CN116959426 A CN 116959426A
- Authority
- CN
- China
- Prior art keywords
- voice
- data set
- model
- recognition model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000002776 aggregation Effects 0.000 claims description 98
- 238000004220 aggregation Methods 0.000 claims description 98
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 37
- 238000001228 spectrum Methods 0.000 claims description 35
- 230000003044 adaptive effect Effects 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 27
- 230000009467 reduction Effects 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 16
- 230000004931 aggregating effect Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 abstract description 13
- 238000005457 optimization Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000006641 stabilisation Effects 0.000 description 3
- 238000011105 stabilization Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及一种语音识别模型的训练方法、装置、计算机设备和存储介质。所述方法包括:实时获取语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。采用本方法能够在使用过程中优化语音识别模型,进一步提高语音识别模型的准确率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种语音识别模型的训练方法、装置、计算机设备和存储介质。
背景技术
近年来,智能客服语音系统在国内外得到了越来越快的发展,智能语音系统起到企业和客户之间沟通桥梁的作用。
智能客服语音系统中,针对客户声音输入的智能语音识别系统是整个系统的关键。现有的方法一般是基于卷积神经网络的深度学习模型,这些语音识别模型都在训练之后模型都会固化,在使用过程中无法进行微调和优化。
发明内容
基于此,有必要针对上述技术问题,提供一种能够进一步提高语音识别模型的准确率的语音识别模型的训练方法、装置、计算机设备和存储介质。
第一方面,本申请提供了一种语音识别模型的训练方法。所述方法包括:
实时获取语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;
利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;
利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
在其中一个实施例中,所述获取语音客户系统中语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集,包括:
选择所述语音数据中客户的语音数据;
根据客户的语音数据的获取时间将客户的语音数据分为旧数据集和新数据集。
在其中一个实施例中,所述利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型,包括:
对所述旧数据集中的语音数据进行频谱变化,获得对应的梅尔频谱数据;
对所述梅尔频谱数据进行特征提取,获得对应的第一特征数据;
对所述第一特征数据进行降维处理,获得降维后的特征数据;
根据降维后的特征数据获得对应的输出结果;
将所述输出结果和各语言数据的标签作为损失函数的输入,并根据损失函数的结果调整初始语音识别模型中参数,并返回步骤:对所述梅尔频谱数据进行特征提取,获得对应的第一特征数据,直到所述损失函数的输出结果小于或者等于预设结果。
在其中一个实施例中,所述增量学习模型包括多级残差自适应聚合网络子模型,所述利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型,包括:
将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型进行特征提取,获得经过多级残差自适应聚合网络子模型提取的第二特征;
利用所述第二特征对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
在其中一个实施例中,所述将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型进行特征提取,获得经过多级残差自适应聚合网络子模型提取的第二特征,包括:
将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型中第一级残差自适应聚合网络子模型的第一残差块,获得第一子特征;
将所述第一子特征和所述第一级残差自适应聚合网络子模型的第二残差块输出的特征进行聚合,获得第一聚合特征;
将所述第一聚合特征输入至所述多级残差自适应聚合网络子模型中第二残差自适应聚合网络子模型的第一残差块,获得第二子特征;
将所述第二子特征和所述第二级残差自适应聚合网络子模型的第二残差块输出的特征进行聚合,获得第二聚合特征,依次类推,直到将最后一级残差自适应聚合网络子模型的第一残差块和第二残差块输出的子特征进行聚合,获得所述第二特征。
在其中一个实施例中,所述利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型,之前包括:
计算所述新数据集中各语音数据与所述旧数据集中各语音数据的相似度;
剔除所述新数据集中所述相似度低于预设相似度的语音数据。
第二方面,本申请还提供了一种语音识别模型的训练装置。所述装置包括:
语音数据获取模块,用于获取语音客户系统中语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;
训练模块,用于利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;
优化模块,用于利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
实时获取语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;
利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;
利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
实时获取语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;
利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;
利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
实时获取语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;
利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;
利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
上述语音识别模型的训练方法、装置、计算机设备和存储介质,通过实时获取语音客户系统中语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。通过上述方式,本申请将实时语音数据的获取时间将获得的语音数据划分为旧数据和新数据,利用旧数据集先顺利语音识别模型,再利用新数据集和增量学习模型对语音识别模型进行优化,能够不断优化语音识别模型,提高语音识别模型的准确率。
附图说明
图1为一个实施例中语音识别模型的训练方法的应用环境图;
图2为一个实施例中语音识别模型的训练方法的流程示意图;
图3为一个实施例中实时获取语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集的步骤的流程示意图;
图4为一个实施例中利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型的步骤的流程示意图;
图5为一个实施例中语音识别模型训练过程的演示示意图;
图6为一个实施例中增量学习模型包括多级残差自适应聚合网络子模型,所述利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型的步骤的流程示意图;
图7为一个实施例中增量学习模型过程的演示示意图;
图8为另一个实施例中语音识别模型的训练方法的流程示意图;
图9为一个实施例中语音识别模型的训练装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的语音识别模型的训练方法,可以应用于如图1所示的应用环境中。其中,客服系统102通过网络与语音模型训练系统104进行通信。数据存储系统可以存储语音模型训练系统104需要处理的数据。数据存储系统可以集成在语音模型训练系统104上,也可以放在云上或其他网络服务器上。语音模型训练系统104可以从客服系统102主动获取语音数据,也可以由客服系统102主动向语音模型训练系统104发送语音数据,语音模型训练系统104在获得语音数据后,根据获取到的语音数据的时间划分新数据集和旧数据集,利用旧数据集先对语音识别模型进行训练,然后利用新数据集和增量学习模型对训练后的语音识别模型进行优化。其中,客服系统102可以是具有智能客户语音系统的终端或者由多个终端(或者多个终端和至少一个服务器)构成的集群,语音模型训练系统104可以用独立的终端/服务器或者是多个终端/服务器组成的服务器集群来实现。终端可以是但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。
在一个实施例中,如图2所示,提供了一种语音识别模型的训练方法,以该方法应用于图1中的语音模型训练系统104为例进行说明,包括以下步骤:
步骤210,实时获取语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;
具体的,语音模型训练系统可以与客服系统进行通信,实时获取客服系统内产生的语音数据,其中客服系统用于通过智能语音机器人主动或者被动与客户进行通话,例如,客户可以通过客服系统更改服务电话。在客服系统与客户通过过程中,会产生对应的语音对话数据,这些语音对话数据即语音数据。在使用该过程中,实时获取语音数据,根据获取语音数据的时间将获得的语音数据划分为旧数据集和新数据集。需要说明的是,不管是旧数据集还是新数据集均都包括多个语音数据。
作为另一种实施例,语音数据还可以由技术人员定期从客服系统导出后,再拷贝至语音模型训练系统。
进一步地,在获得语音数据后还可以对语音数据进行预处理,将语音数据中清楚的语音剔除,以避免这部分数据对训练模型的干扰。
步骤220,利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;
具体的,在将语音数据划分为旧数据集和新数据集之后,先利用旧数据集中语音数据对初始语音识别模型进行训练,获得训练后的语音识别模型,其中初始语音识别模型为包括初始化参数的语音识别模型。该训练过程可以参考现有技术中语音识别模型训练过程。
需要说明的是,本实施例中先将语音数据划分为旧数据集和新数据集,再利用旧数据集进行语音模型的训练,但在实际使用过程中,可以先将获得的语音数据先全部作为旧数据集,然后利用旧数据集对语音识别模型进行训练,在训练过程中或者语音识别模型训练完成后,重新获取语音数据,将重新获取的语音数据作为新数据集。
步骤230,利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
具体的,在获得利用旧数据训练好的语音识别模型后,利用新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,从而获得优化后的语音识别模型。
可以理解的是,本实施中可以旧数据集和新数据集仅仅是相对概念,示例性的,在某年1月获取的语音数据作为旧数据集,第一次训练好的语音模型后,第二个月的语音数据作为新数据集。在第三个月还可以继续获得语音数据,此时在利用第三个月的语音数据进行训练的过程中,第一个月和第二个月获得的语音作为旧数据集,第三个月获得的语音数据作为新的数据集。
上述语音识别模型的训练方法、装置、计算机设备和存储介质,通过实时获取语音客户系统中语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。通过上述方式,本申请将实时语音数据的获取时间将获得的语音数据划分为旧数据和新数据,利用旧数据集先顺利语音识别模型,再利用新数据集和增量学习模型对语音识别模型进行优化,能够不断优化语音识别模型,提高语音识别模型的准确率。
在一个实施例中,如图3所示,步骤210:获取语音客户系统中语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集,包括:
步骤211,选择所述语音数据中客户的语音数据;
步骤212,根据客户的语音数据的获取时间将客户的语音数据分为旧数据集和新数据集。
具体的,由于客服系统中产生的对话语音数据包括智能客服的语音以及客户的语音,智能客服的语音数据由系统自动生成,比较清晰,对该部分语音作为训练数据的影响较低,因此,本实施中在获得客服系统产生的语音数据后,选择语音数据中客户的语音数据,剔除智能客服的语音数据,然后根据客户的语音数据的获取时间将客户的语音数据分为旧数据集和新数据集。
在一个实施例中,如图4所示,步骤220:利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型,包括:
步骤221,对所述旧数据集中的语音数据进行频谱变化,获得对应的梅尔频谱数据;
具体的,为了避免客服系统内产生的语音数据中噪音等对训练结果产生影响,本事实例中在获得语音数据后,先对语音时间进行人工听译,将听译内容保存文件txt文件,然后将txt文件中的内容进行频谱变化,生成梅尔频谱,将文件内容转换为人耳可识别信号,其中,数据的基本单位为帧,每帧都是一个含40维度的一维梅尔频谱,输入的数据是由多帧组合成的向量[x_(t-l),…,x_(t+r)],其中最左侧一帧即第一帧计为x_(t-l),最后一帧计为x_(t+r)。
步骤222,对所述梅尔频谱数据进行特征提取,获得对应的第一特征数据;
在获得梅尔频谱数据后,利用卷积神经网络对梅尔频谱数据进行特征提取,获得的特征,定义为第一特征数据。
步骤223,对所述第一特征数据进行降维处理,获得降维后的特征数据;
由于利用卷积神经网络进行特征提取获得的第一特征数据的量较大,因此本实施例先对第一特征数据进行降维处理,以减少数据量,获得降维后的特征数据。
步骤224,根据降维后的特征数据获得对应的输出结果;
在降维后的特征数据进行语音识别模型的训练,获得对应的输出结果。
步骤225,将所述输出结果和各语言数据的标签作为损失函数的输入,并根据损失函数的结果调整初始语音识别模型中参数,并返回步骤:对所述梅尔频谱数据进行特征提取,获得对应的第一特征数据,直到所述损失函数的输出结果小于或者等于预设结果。
然后利用获得的数据结果和各语言数据的标签作为损失函数的输入,并根据损失函数的结果调整初始语音识别模型中参数,然后重新利用调整参数后的语音识别模型和旧数据集重新进行训练,即从步骤221重新执行,实现对旧数据集中的语音数据进行频谱变化,并进行特征提取等步骤,具体实施中还可以从步骤222重新执行。直到所述损失函数的输出结果小于或者等于预设结果,此时说明训练已经达到初步预期效果。
作为一种示例,如图5所示,对语音数据进行频谱变化,生成梅尔频谱。数据的基本单位为帧x_t,每帧都是一个含40维度的一维梅尔频谱,输入的数据是由多帧组合成的向量[x_(t-l),…,x_(t+r)]。生成数据之后,模型使用卷积神经网络对数据进行特征提取。卷积神经网络共使用两层卷积层,第一层的卷积核为(9,9),第二层的卷积核为(4,3),两层卷积层中含1个池化核为3的池化层。考虑到卷积结构的特征数据量较大,使用线性层将数据降维处理,将数据降维至每帧256个样本。之后采用2层长短期记忆网络(LSTM)结构,每层含832个单元,另有一个含500个单元的投影层作降维处理。时间步长设为20。构建损失函数,将模型输出和标签作为损失函数的输入,同时使用反向传播算法对模型进行训练。训练之后的模型参数作为预训练模型进行保存。具体实施中可以根据需要设置卷积和的尺寸等数据。
在一个实施例中,如图6所示,增量学习模型包括多级残差自适应聚合网络子模型,所述步骤230:利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型,包括:
步骤231,将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型进行特征提取,获得经过多级残差自适应聚合网络子模型提取的第二特征;
步骤232,利用所述第二特征对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
其中,将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型进行特征提取,获得经过多级残差自适应聚合网络子模型提取的第二特征,包括:
将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型中第一级残差自适应聚合网络子模型的第一残差块,获得第一子特征;
将所述第一子特征和所述第一级残差自适应聚合网络子模型的第二残差块输出的特征进行聚合,获得第一聚合特征;
将所述第一聚合特征输入至所述多级残差自适应聚合网络子模型中第二残差自适应聚合网络子模型的第一残差块,获得第二子特征;
将所述第二子特征和所述第二级残差自适应聚合网络子模型的第二残差块输出的特征进行聚合,获得第二聚合特征,依次类推,直到将最后一级残差自适应聚合网络子模型的第一残差块和第二残差块输出的子特征进行聚合,获得所述第二特征。
具体的,同时参阅图7,针对预训练模型在新数据中泛化能力不强的问题,构建增量学习模型。本发明采用了一个具有三个残差级别的自适应聚合网络。输入x[0]为预处理之后的语音数据,输出x[3]是用于训练检测器的特征。我们的每个残差“级别”都由两个平行的残差“块”组成:灰色模块(称为变化模块)的参数将完全适应新的数据,而黑色模块(称为稳定模块)的参数部分保持不变,以保持从旧数据中学到的知识。如图所示,将数据输入到Level1后,分别从两个模块中获得两组特征图,然后施加聚合权重α[1]后对输出进行聚合。聚合后的输出则作为Level2的输入,然后重复这个过程。同时对第3级采用相同的步骤。最后,将第3级获得的结果作为模型输出。每个稳定模块和变化模块由7个卷积模块组成,每个卷积模块包括有卷积层,池化层,和归一化层,其中卷积层的卷积核参数为5x5。
在一个实施例中,利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型,之前包括:
计算所述新数据集中各语音数据与所述旧数据集中各语音数据的相似度;
剔除所述新数据集中所述相似度低于预设相似度的语音数据。
具体的,1)从新数据中抽取部分数据,构成与旧数据大小相等的数据集,此时各类别数据之间类别平衡(类别不平衡是指训练数据各类样本之间数目差异巨大,会导致模型训练时忽略少数类。类别平衡反之,是指数据数目均衡),利用该数据集,在小学习率下对模型进行微调,此时选用的损失函数为交叉熵。2)固定变化模块的参数,利用旧数据和新数据中相似度较高的子数据集,对稳定模块进行微调;3)固定稳定模块,利用新数据和旧数据中相似度较高的子数据集,对变化模块进行微调;4)重复2和3步骤10次之后,仅利用新数据,对变化模块进行微调,微调过程的学习率设置上线。
在一个实施例中,如图8所示,先从客服服务语音系统收集语音,将收集的语音分为旧数据(集)和新数据(集),然后通过语音识别系统利用旧数据集进行模型训练,得到训练好的语音识别模型,然后利用新数据和增量学习模型对语音识别模型进行模型优化。具体过程可以参考上述说明。进一步地,优化后,还可以对优化后的语音识别模型进行优化性能评估。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的语音识别模型的训练方法的语音识别模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个语音识别模型的训练装置实施例中的具体限定可以参见上文中对于语音识别模型的训练方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种语音识别模型的训练装置,包括:
语音数据获取模块910,用于获取语音客户系统中语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;
训练模块920,用于利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;
优化模块930,用于利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
在一个实施例中,语音数据获取模块910,用于:
选择所述语音数据中客户的语音数据;
根据客户的语音数据的获取时间将客户的语音数据分为旧数据集和新数据集。
在一个实施例中,训练模块920,用于:
对所述旧数据集中的语音数据进行频谱变化,获得对应的梅尔频谱数据;
对所述梅尔频谱数据进行特征提取,获得对应的第一特征数据;
对所述第一特征数据进行降维处理,获得降维后的特征数据;
根据降维后的特征数据获得对应的输出结果;
将所述输出结果和各语言数据的标签作为损失函数的输入,并根据损失函数的结果调整初始语音识别模型中参数,并返回步骤:对所述梅尔频谱数据进行特征提取,获得对应的第一特征数据,直到所述损失函数的输出结果小于或者等于预设结果。
在一个实施例中,所述增量学习模型包括多级残差自适应聚合网络子模型,优化模块930,用于:
将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型进行特征提取,获得经过多级残差自适应聚合网络子模型提取的第二特征;
利用所述第二特征对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
在一个实施例中,优化模块930,用于:
将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型中第一级残差自适应聚合网络子模型的第一残差块,获得第一子特征;
将所述第一子特征和所述第一级残差自适应聚合网络子模型的第二残差块输出的特征进行聚合,获得第一聚合特征;
将所述第一聚合特征输入至所述多级残差自适应聚合网络子模型中第二残差自适应聚合网络子模型的第一残差块,获得第二子特征;
将所述第二子特征和所述第二级残差自适应聚合网络子模型的第二残差块输出的特征进行聚合,获得第二聚合特征,依次类推,直到将最后一级残差自适应聚合网络子模型的第一残差块和第二残差块输出的子特征进行聚合,获得所述第二特征。
在一个实施例中,所述装置用于:
计算所述新数据集中各语音数据与所述旧数据集中各语音数据的相似度;
剔除所述新数据集中所述相似度低于预设相似度的语音数据。
上述语音识别模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型的训练方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
实时获取语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;
利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;
利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
选择所述语音数据中客户的语音数据;
根据客户的语音数据的获取时间将客户的语音数据分为旧数据集和新数据集。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对所述旧数据集中的语音数据进行频谱变化,获得对应的梅尔频谱数据;
对所述梅尔频谱数据进行特征提取,获得对应的第一特征数据;
对所述第一特征数据进行降维处理,获得降维后的特征数据;
根据降维后的特征数据获得对应的输出结果;
将所述输出结果和各语言数据的标签作为损失函数的输入,并根据损失函数的结果调整初始语音识别模型中参数,并返回步骤:对所述梅尔频谱数据进行特征提取,获得对应的第一特征数据,直到所述损失函数的输出结果小于或者等于预设结果。
在一个实施例中,所述增量学习模型包括多级残差自适应聚合网络子模型,处理器执行计算机程序时还实现以下步骤:
将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型进行特征提取,获得经过多级残差自适应聚合网络子模型提取的第二特征;
利用所述第二特征对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型中第一级残差自适应聚合网络子模型的第一残差块,获得第一子特征;
将所述第一子特征和所述第一级残差自适应聚合网络子模型的第二残差块输出的特征进行聚合,获得第一聚合特征;
将所述第一聚合特征输入至所述多级残差自适应聚合网络子模型中第二残差自适应聚合网络子模型的第一残差块,获得第二子特征;
将所述第二子特征和所述第二级残差自适应聚合网络子模型的第二残差块输出的特征进行聚合,获得第二聚合特征,依次类推,直到将最后一级残差自适应聚合网络子模型的第一残差块和第二残差块输出的子特征进行聚合,获得所述第二特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
计算所述新数据集中各语音数据与所述旧数据集中各语音数据的相似度;
剔除所述新数据集中所述相似度低于预设相似度的语音数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
实时获取语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;
利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;
利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
选择所述语音数据中客户的语音数据;
根据客户的语音数据的获取时间将客户的语音数据分为旧数据集和新数据集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对所述旧数据集中的语音数据进行频谱变化,获得对应的梅尔频谱数据;
对所述梅尔频谱数据进行特征提取,获得对应的第一特征数据;
对所述第一特征数据进行降维处理,获得降维后的特征数据;
根据降维后的特征数据获得对应的输出结果;
将所述输出结果和各语言数据的标签作为损失函数的输入,并根据损失函数的结果调整初始语音识别模型中参数,并返回步骤:对所述梅尔频谱数据进行特征提取,获得对应的第一特征数据,直到所述损失函数的输出结果小于或者等于预设结果。
在一个实施例中,所述增量学习模型包括多级残差自适应聚合网络子模型,计算机程序被处理器执行时还实现以下步骤:
将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型进行特征提取,获得经过多级残差自适应聚合网络子模型提取的第二特征;
利用所述第二特征对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型中第一级残差自适应聚合网络子模型的第一残差块,获得第一子特征;
将所述第一子特征和所述第一级残差自适应聚合网络子模型的第二残差块输出的特征进行聚合,获得第一聚合特征;
将所述第一聚合特征输入至所述多级残差自适应聚合网络子模型中第二残差自适应聚合网络子模型的第一残差块,获得第二子特征;
将所述第二子特征和所述第二级残差自适应聚合网络子模型的第二残差块输出的特征进行聚合,获得第二聚合特征,依次类推,直到将最后一级残差自适应聚合网络子模型的第一残差块和第二残差块输出的子特征进行聚合,获得所述第二特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
计算所述新数据集中各语音数据与所述旧数据集中各语音数据的相似度;
剔除所述新数据集中所述相似度低于预设相似度的语音数据。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
实时获取语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;
利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;
利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
选择所述语音数据中客户的语音数据;
根据客户的语音数据的获取时间将客户的语音数据分为旧数据集和新数据集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对所述旧数据集中的语音数据进行频谱变化,获得对应的梅尔频谱数据;
对所述梅尔频谱数据进行特征提取,获得对应的第一特征数据;
对所述第一特征数据进行降维处理,获得降维后的特征数据;
根据降维后的特征数据获得对应的输出结果;
将所述输出结果和各语言数据的标签作为损失函数的输入,并根据损失函数的结果调整初始语音识别模型中参数,并返回步骤:对所述梅尔频谱数据进行特征提取,获得对应的第一特征数据,直到所述损失函数的输出结果小于或者等于预设结果。
在一个实施例中,所述增量学习模型包括多级残差自适应聚合网络子模型,计算机程序被处理器执行时还实现以下步骤:
将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型进行特征提取,获得经过多级残差自适应聚合网络子模型提取的第二特征;
利用所述第二特征对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型中第一级残差自适应聚合网络子模型的第一残差块,获得第一子特征;
将所述第一子特征和所述第一级残差自适应聚合网络子模型的第二残差块输出的特征进行聚合,获得第一聚合特征;
将所述第一聚合特征输入至所述多级残差自适应聚合网络子模型中第二残差自适应聚合网络子模型的第一残差块,获得第二子特征;
将所述第二子特征和所述第二级残差自适应聚合网络子模型的第二残差块输出的特征进行聚合,获得第二聚合特征,依次类推,直到将最后一级残差自适应聚合网络子模型的第一残差块和第二残差块输出的子特征进行聚合,获得所述第二特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
计算所述新数据集中各语音数据与所述旧数据集中各语音数据的相似度;
剔除所述新数据集中所述相似度低于预设相似度的语音数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种语音识别模型的训练方法,其特征在于,所述方法包括:
实时获取语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;
利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;
利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述获取语音客户系统中语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集,包括:
选择所述语音数据中客户的语音数据;
根据客户的语音数据的获取时间将客户的语音数据分为旧数据集和新数据集。
3.根据权利要求2所述的方法,其特征在于,所述利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型,包括:
对所述旧数据集中的语音数据进行频谱变化,获得对应的梅尔频谱数据;
对所述梅尔频谱数据进行特征提取,获得对应的第一特征数据;
对所述第一特征数据进行降维处理,获得降维后的特征数据;
根据降维后的特征数据获得对应的输出结果;
将所述输出结果和各语言数据的标签作为损失函数的输入,并根据损失函数的结果调整初始语音识别模型中参数,并返回步骤:对所述梅尔频谱数据进行特征提取,获得对应的第一特征数据,直到所述损失函数的输出结果小于或者等于预设结果。
4.根据权利要求1所述的方法,其特征在于,所述增量学习模型包括多级残差自适应聚合网络子模型,所述利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型,包括:
将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型进行特征提取,获得经过多级残差自适应聚合网络子模型提取的第二特征;
利用所述第二特征对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
5.根据权利要求4所述的方法,其特征在于,所述将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型进行特征提取,获得经过多级残差自适应聚合网络子模型提取的第二特征,包括:
将所述新数据集中的语音数据输入至所述多级残差自适应聚合网络子模型中第一级残差自适应聚合网络子模型的第一残差块,获得第一子特征;
将所述第一子特征和所述第一级残差自适应聚合网络子模型的第二残差块输出的特征进行聚合,获得第一聚合特征;
将所述第一聚合特征输入至所述多级残差自适应聚合网络子模型中第二残差自适应聚合网络子模型的第一残差块,获得第二子特征;
将所述第二子特征和所述第二级残差自适应聚合网络子模型的第二残差块输出的特征进行聚合,获得第二聚合特征,依次类推,直到将最后一级残差自适应聚合网络子模型的第一残差块和第二残差块输出的子特征进行聚合,获得所述第二特征。
6.根据权利要求1所述的方法,其特征在于,所述利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型,之前包括:
计算所述新数据集中各语音数据与所述旧数据集中各语音数据的相似度;
剔除所述新数据集中所述相似度低于预设相似度的语音数据。
7.一种语音识别模型的训练装置,其特征在于,所述装置包括:
语音数据获取模块,用于获取语音客户系统中语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;
训练模块,用于利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;
优化模块,用于利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310847565.2A CN116959426A (zh) | 2023-07-11 | 2023-07-11 | 语音识别模型的训练方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310847565.2A CN116959426A (zh) | 2023-07-11 | 2023-07-11 | 语音识别模型的训练方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116959426A true CN116959426A (zh) | 2023-10-27 |
Family
ID=88457671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310847565.2A Pending CN116959426A (zh) | 2023-07-11 | 2023-07-11 | 语音识别模型的训练方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959426A (zh) |
-
2023
- 2023-07-11 CN CN202310847565.2A patent/CN116959426A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170116520A1 (en) | Memory Efficient Scalable Deep Learning with Model Parallelization | |
CN111695375B (zh) | 基于模型蒸馏的人脸识别模型压缩方法、介质及终端 | |
CN113435509B (zh) | 基于元学习的小样本场景分类识别方法及系统 | |
CN111079899A (zh) | 神经网络模型压缩方法、系统、设备及介质 | |
CN111357051B (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN114330713A (zh) | 卷积神经网络模型剪枝方法和装置、电子设备、存储介质 | |
Chien et al. | Variational and hierarchical recurrent autoencoder | |
JPWO2019146189A1 (ja) | ニューラルネットワークのランク最適化装置および最適化方法 | |
CN116188878A (zh) | 基于神经网络结构微调的图像分类方法、装置和存储介质 | |
CN112529767A (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
CN114972897A (zh) | 图像特征处理方法、装置、产品、介质及设备 | |
CN113409827B (zh) | 基于局部卷积块注意力网络的语音端点检测方法及系统 | |
CN114861907A (zh) | 数据计算方法、装置、存储介质和设备 | |
CN112418388A (zh) | 一种实现深度卷积神经网络处理的方法及装置 | |
CN116959426A (zh) | 语音识别模型的训练方法、装置、计算机设备和存储介质 | |
CN116384471A (zh) | 模型剪枝方法、装置、计算机设备、存储介质和程序产品 | |
CN113887719B (zh) | 一种模型压缩方法及装置 | |
CN114065913A (zh) | 模型量化方法、装置及终端设备 | |
CN113723593A (zh) | 一种基于神经网络的切负荷预测方法及系统 | |
CN113298248B (zh) | 一种针对神经网络模型的处理方法、装置以及电子设备 | |
CN116306985A (zh) | 预测模型训练方法、装置、计算机设备和存储介质 | |
CN118657151A (zh) | 语义特征提取模型训练方法、装置、设备和存储介质 | |
CN116468531A (zh) | 账户信息处理方法、装置、计算机设备和存储介质 | |
CN118504658A (zh) | 预训练联邦学习微调方法、系统、电子设备及存储介质 | |
CN117017277A (zh) | 基于光电容积脉搏波的身份识别方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |