CN113178192B - 语音识别模型的训练方法、装置、设备及存储介质 - Google Patents

语音识别模型的训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113178192B
CN113178192B CN202110486527.XA CN202110486527A CN113178192B CN 113178192 B CN113178192 B CN 113178192B CN 202110486527 A CN202110486527 A CN 202110486527A CN 113178192 B CN113178192 B CN 113178192B
Authority
CN
China
Prior art keywords
model
voice
enhancement
spectrum
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110486527.XA
Other languages
English (en)
Other versions
CN113178192A (zh
Inventor
秦冲
王瑞璋
孙岩丹
魏韬
马骏
王少军
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110486527.XA priority Critical patent/CN113178192B/zh
Publication of CN113178192A publication Critical patent/CN113178192A/zh
Application granted granted Critical
Publication of CN113178192B publication Critical patent/CN113178192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请涉及语音语义技术,尤其涉及语音处理,提供了一种语音识别模型的训练方法、装置、设备及存储介质。所述训练方法包括初始化语音识别模型,语音识别模型包括语音增强子模型及训练过的语音识别子模型;将含噪音的语音数据输入语音增强子模型进行增强处理,以获取增强频谱;通过语音识别子模型,根据增强频谱进行语音识别以得到语音识别结果;根据语音识别结果,确定语音识别模型的识别误差;根据识别误差调整语音增强子模型的模型参数。本申请还涉及区块链技术,得到的语音识别模型可以存储于区块链中。

Description

语音识别模型的训练方法、装置、设备及存储介质
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别模型的训练方法、装置、计算机设备及存储介质。
背景技术
语音识别(ASR,Automatic Speech Recognition)是一种在生活中获得广泛应用语音处理技术,它通过技术手段将语音转成文字信息,可方便机器系统获取语音的意图,或方便人们获取语音对应的文字内容。在深度学习技术的助力下,在理想信道环境下,百度、搜狗、讯飞等多家公司早在2016年语音识别的准确率就达到了97%,但在市场、公路、酒吧等嘈杂的实际场景中,效果往往不够理想,主要原因是这些场景存在严重的背景噪音,会对语音识别模型的识别效果造成严重的干扰,因此对语音数据降噪显得很有必要。
语音增强也是常用的语音处理技术之一,其主要目标之一是降低噪音的影响。目前的去噪的主流方法是为了获取符合人耳听觉的降噪频谱,也就是尽可能恢复出和干净语音相同的频谱,但对于语音识别模型来说,获得干净的语音不一定是最优的降噪方法,因为未被污染的频谱不一定对语音识别模型有用,反而可能造成混淆,而被噪音污染的频谱不一定对语音识别模型有害。
因此,需要一种语音识别模型,可针对语音识别对语音数据进行增强处理,从而降低噪音的影响,提高语音识别的效果。
发明内容
本申请提供了一种语音识别模型的训练方法、语音识别方法、装置、计算机设备及存储介质,能够针对语音识别对语音数据进行增强处理,降低噪音对语音识别的影响,提高语音识别的效果。
第一方面,本申请提供了一种语音识别模型的训练方法,包括:
初始化语音识别模型,所述语音识别模型包括语音增强子模型及训练过的语音识别子模型;
将含噪音的语音数据输入所述语音增强子模型进行增强处理,以获取增强频谱;
通过所述语音识别子模型,根据所述增强频谱进行语音识别以得到语音识别结果;
根据所述语音识别结果,确定所述语音识别模型的识别误差;
根据所述识别误差调整所述语音增强子模型的模型参数。
第二方面,本申请提供了一种语音识别模型的训练装置,包括:
初始化单元,用于初始化语音识别模型,所述语音识别模型包括语音增强子模型及训练过的语音识别子模型;
增强单元,用于将含噪音的语音数据输入所述语音增强子模型进行增强处理,以获取增强频谱;
识别单元,用于通过所述语音识别子模型,根据所述增强频谱进行语音识别以得到语音识别结果;
误差确定单元,用于根据所述语音识别结果,确定所述语音识别模型的识别误差;
调整单元,用于根据所述识别误差调整所述语音增强子模型的模型参数。
第三方面,本申请提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现上述的语音识别模型的训练方法。
第四方面,本申请提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,若所述计算机程序被处理器执行,实现上述的语音识别模型的训练方法。
本申请公开了一种语音识别模型的训练方法、识别方法、装置、设备及介质,通过初始化语音识别模型,所述语音识别模型包括语音增强子模型及训练过的语音识别子模型;将含噪音的语音数据输入所述语音增强子模型进行增强处理,以获取增强频谱;通过所述语音识别子模型,根据所述增强频谱进行语音识别以得到语音识别结果;根据所述语音识别结果,确定所述语音识别模型的识别误差;根据所述识别误差调整所述语音增强子模型的模型参数。通过含噪音的语音数据对语音识别模型进行训练,而语音识别子模型已训练过,从而使得语音增强子模型对于适用于语音识别的增强处理进行学习,训练后的语音增强子模型能够通过增强处理降低噪音对语音识别的影响,提高语音识别的效果。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种语音识别模型的训练方法的流程示意图;
图2是本申请一实施例提供的一种语音识别模型的结构示意框图;
图3是本申请一实施例提供的一种语音识别模型的训练装置的结构示意框图;
图4是本申请一实施例提供的一种计算机设备的结构示意框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
本申请的实施例提供了一种语音识别模型的训练方法、语音识别方法、装置、计算机设备及计算机存储介质。用于为语音识别提供语音识别模型或基于所述语音识别模型的语音识别方法,该语音识别模型中可对语音数据进行适用于语音识别的语音增强处理。示例性的,在语音识别中,经常会面对噪音的干扰,例如,在市场、公路酒吧等存在严重噪音的场景中,由于受到噪音的影响,语音识别模型往往会出现识别结果不准确的情况,可以根据本申请实施例的语音识别模型的训练方法获得语音识别模型,该语音识别模型可对语音数据进行适用于语音识别的语音增强处理,降低噪音对语音识别的影响,提高语音识别的识别效果。
其中,该语音识别模型的训练方法可以用于服务器,当然也可以用于终端,其中,终端可以是手机、平板电脑、笔记本电脑、台式电脑等电子设备;服务器例如可以为单独的服务器或服务器集群。但为了便于理解,以下实施例将以应用于服务器的语音识别模型的训练方法进行详细介绍。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种语音识别模型的训练方法的示意流程图。
如图1所示,该语音识别模型的训练方法可以包括以下步骤S110-步骤S150。
步骤S110、初始化语音识别模型,所述语音识别模型包括语音增强子模型及训练过的语音识别子模型。
示例性的,在所述语音识别模型的训练过程中,所述训练过的语音识别子模型的模型参数保持不变。所述语音识别子模型训练过,即该模型经过了语音识别训练,可直接用于语音识别。模型参数是机器学习模型内部的配置变量,通过训练进行学习优化;模型参数保持不变,即所述语音识别模型的训练过程中,所述语音识别子模型未进行学习优化。
示例性的,语音识别模型如图2所示,所述语音增强子模型包括特征提取模块、幅度增强模子网络及相位还原模块,所述特征提取模块用于对所述含噪音的语音数据提取包括幅度信息及相位信息的特征频谱;所述幅度增强子网络用于对根据所述幅度信息确定的幅度谱进行增强处理得到增强幅度谱;所述相位还原模块用于将所述特征频谱中的相位信息与所述增强幅度谱融合得到所述增强频谱。幅度增强子网络可以采用人工神经网络实现,由于卷积神经网络(CNN)在处理语音数据方面具有速度、效果的优势,本实施例中所述幅度增强子网络采用卷积神经网络实现。举例而言,语音识别子模型包括声学模型、语言模型、字典及解码器,所述声学模型用于根据语音数据输出识别的发音结果,声学模型可根据隐马尔科夫模型(HMM)或深度神经网络(DNN)实现,具体的,本实施中,所述声学模型采用延迟神经网络(TDNN)实现,输入的语音信号是频谱,输出识别的发音结果,发音结果包括可能的发音的后验概率;所述语言模型为用于计算由词组构成的句子出现的概率的模型,例如,在已经出现了几个词的情况下预测下一个出现的词语的概率;所述字典,即发音字典,包含了词语到发音之间的映射,起到了连接所述声学模型及所述语言模型的作用;所述解码器,用于根据所述声学模型、所述语言模型及所述字典,对输入其的语音信号进行识别得到识别的文字。
示例性的,所述训练过的语音识别子模型根据第一信噪比的语音数据训练得到。
示例性的,第一信噪比的语音数据是高信噪比的语音数据,即该语音数据中噪音信号的占比低,理想情况下,该语音数据为没有噪音的干净语音数据,例如,可以在安静的环境下直接录制该语音数据,也可以通过降噪技术对普通环境下获取的语音数据进行降噪获得。
示例性的,本语音识别模型的训练方法还包括获得所述训练过的语音识别子模型的步骤S100:
步骤S100、对语音识别子模型进行语音识别训练,得到所述训练过的语音识别子模型。
示例性的,具体的,通过开源的语音工具Kaldi搭建所述语音识别子模型。
示例性的,搭建好所述语音识别子模型后,根据第一信噪比的语音数据集对所述语音识别子模型进行训练:将所述语音数据集中的语音数据作为所述语音识别子模型的输入,将所述语音数据对应的文字内容作为所述语音识别子模型的期望输出,对所述语音识别子模型进行训练。具体实施中,若语音数据与声学模型的输入格式相匹配,则可直接将语音数据作为所述语音识别子模型的输入,若语音数据与所述声学模型的输入格式不匹配,则将语音数据进行预处理后再作为所述语音识别子模型的输入,例如,语音数据为时域音频,而所述声学模型的输入为频谱,通过快速傅里叶变换(FFT)等预处理方式将所述原始音频转换为与所述声学模型的输入相匹配的频谱。具体的,可采用开源的语音数据集对所述语音识别子模型进行训练,如AISHELL中文语音数据集,该语音数据集中的语音数据是在安静的室内环境中采用高保真麦克风进行录制,是高信噪比的语音数据。
其他实施例中,所述训练过的语音识别子模型也可以采用训练好的开源的语音识别子模型。
步骤S120、将含噪音的语音数据输入所述语音增强子模型进行增强处理,以获取增强频谱;
示例性的,所述含噪音的语音数据为第二信噪比的语音数据,所述第二信噪比低于所述第一信噪比。
示例性的,所述第二信噪比的语音数据为低信噪比的语音数据,即该语音数据中噪音信号的占比高,例如,可以在嘈杂的环境下直接录制该语音数据,也可以对普通环境下获取的语音数据后期进行加噪获得。
所述训练过的语音识别子模型根据高信噪比的所述第一信噪比的语音数据训练得到,所述含噪音的语音数据为低信噪比的所述第二信噪比的语音数据,即根据低信噪比的语音数据训练所述语音识别模型,从而保证所述语音增强子模型针对噪音的增强效果。
示例性的,步骤S120所述将含噪音的语音数据输入所述语音增强子模型进行增强处理,以获取增强频谱具体包括步骤S121-步骤S124:
步骤S121、基于所述语音增强子模型的特征提取模块,对所述含噪音的语音数据提取包括幅度信息及相位信息的特征频谱;
示例性的,所述特征频谱提取模块通过对所述含噪音的语音数据进行傅里叶变换以获得所述特征频谱,所述幅度信息包括所述特征频谱在不同频率下对应的振幅,所述相位信息包括所述特征频谱在不同频率下对应的相位。傅里叶变换可以采用快速傅里叶变换、短时傅里叶变换等方式实现。
步骤S122、根据所述特征频谱中的幅度信息确定幅度谱;
示例性的,仅保留所述特征频谱中的幅度信息,而剔除所述特征频谱中的相位信息,得到所述幅度谱。
步骤S123、基于所述语音增强子模型的幅度增强子网络,对所述幅度谱进行增强处理得到增强幅度谱;
示例性的,所述幅度增强子网络包括掩膜,所述掩膜为矩阵元素与所述幅度谱的采样点对应的矩阵。例如,所述掩膜的矩阵元素的值的范围为0至1之间,矩阵元素越接近于1,则意味着对应的频谱信息保留的越多,去除的越少;矩阵元素的值越接近于0,则意味着对应的频谱信息保留的越少,去除的越多。
示例性的,步骤S123具体包括:将所述幅度谱的每个采样点与所述掩膜中对应的矩阵元素相乘,得到增强幅度谱。
通过所述掩膜中的矩阵元素与所述幅度谱的采样点相乘,对所述幅度谱的频谱信息进行保留、去除,从而最终得到有利于语音识别的增强幅度谱。
步骤S124、基于所述语音增强子模型的相位还原模块,将所述特征频谱中的相位信息与所述增强幅度谱融合得到所述增强频谱。
示例性的,所述相位还原模块将所述特征频谱中的相位信息与所述增强幅度谱根据频率对应的关系,按照傅里叶频谱的形式进行融合得到所述增强频谱。
通过所述相位还原模块对所述增强幅度谱和所述相位信息的融合处理,使得增强频谱获得相位信息,从而具备更完整更丰富的语音识别特征。
步骤S130、通过所述语音识别子模型,根据所述增强频谱进行语音识别以得到语音识别结果。
示例性的,若所述增强频谱满足所述语音识别子模型的输入格式要求,则可直接将所述增强频谱输入所述语音识别子模型中进行语音识别,得到预测的语音识别结果;若所述增强频谱与所述语音识别子模型的输入格式不符,则可以通过相应的措施对所述增强频谱进行处理以满足所述语音识别子模型的输入格式,例如,所述语音识别子模型的输入为时域音频,则可通过逆傅里叶变换将所述增强频谱转换为增强的时域音频,在将所述增强的时域音频输入所述语音识别子模型中进行语音识别,得到预测的语音识别结果。
步骤S140、根据所述语音识别结果,确定所述语音识别模型的识别误差。
示例性的,基于交叉熵损失函数,根据所述语音识别结果和所述含噪音的语音数据的标注信息计算所述识别误差。
例如,交叉熵损失函数的计算公式为:
其中n为参与训练的所述含噪音语音数据的的个数,i为取值范围在1至n之间的正整数,Li表示参与训练的第i个所述含噪音语音数据对应的语音识别结果中预测的文字概率分布和对应的标准的文字分布之间的交叉熵(Cross Entropy),所述标准的文字分布根据所述含噪音的语音数据的标注信息得到。比如,一段标记有标注信息为文字“我”的音频作为含噪音的语音数据经所述语音增强子模型增强处理后得到增强频谱,所述语音识别子模型根据所述增强频谱进行语音识别得到的语音识别结果包括预测的文字概率分布q1=(0.6,0.3,0.1),其中0.6代表语音对应的文字为“我”的概率、0.3代表语音对应的文字为“你”的概率,0.1代表语音对应的文字为“他”的概率,则对应的标准的文字分布为p1=(1,0,0),p与q的交叉熵为L1=-(1xlog0.6+0xlog0.3+0xlog0.1)≈0.22;使用另一段同样标记有标注信息为文字“我”的音频作为含噪音的语音数据进行训练,得到的语音识别结果中预测的文字概率分布为q2=(0.8,0.1,0.1),则对应的标准的文字分布仍为p1,p1与q2之间的交叉熵为L2=-(1xlog0.8+0xlog0.1+0xlog0.1)≈0.1。交叉熵越小,则语音识别结果中预测的文字概率分布与标准的文字分布之间的差距越小。假如只使用了这两段音频进行训练,则所述识别误差为L≈0.33,识别误差越小,则语音识别模型的性能越好。
可提前通过人工标注的方式将实际对应的文字内容作为标注信息标记在所述含噪音的语音数据上,以方便得到对应的所述标准的文字分布。
步骤S150、根据所述识别误差调整所述语音增强子模型的模型参数。
示例性的,根据所述识别误差,通过反向传播(Backpropagation)调整所述幅度增强子网络的网络参数。反向传播是目前用来训练人工神经网络最常用且最有效的方法之一。例如,所述幅度增强子网络为包括输入层、隐含层、输出层的卷积神经网络,将所诉含噪音的语音数据输入卷积神经网络的输入层,经过隐藏层,最后达到输出层并输出所述增强幅度谱,这是幅度增强子网络的向前传播过程;将所述识别误差从输出层向隐含层反向传播,直至传播到输入层,这是幅度增强子网络的反向传播过程。反向传播过程中,根据所述识别误差对幅度增强子网络的网络参数求梯度,并根据所述梯度,按照梯度下降法调整所述幅度增强子网络的网络参数。梯度下降法是求解机器学习模型的模型参数的常用方法之一,梯度下降法的计算过程就是沿梯度下降的方向求解极小值。
其他实施例中,也可以采用最小二乘法等其他参数调整方法来调整所述语音增强子模型的模型参数。
示例性的,所述语音识别模型的一次模型参数调整过程包括:将一个个的所述含噪音的语音数据输入所述语音识别模型中,通过步骤S120及步骤S130得到每个含噪音的语音数据的语音识别结果,通过步骤S140根据所有含噪音的语音数据对应的语音识别结果计算识别误差,通过步骤S150根据所述识别误差调整所述语音增强子模型的模型参数。对所述模型参数调整过程进行一次次迭代,当所述识别误差下降到足够低的水平时,可结束所述语音识别模型的训练。
本申请另一实施例提供了一种语音识别方法,包括:
将语音数据输入经所述语音识别模型训练方法训练过的所述语音识别模型中,获得预测的语音识别结果。
示例性的,所述语音识别结果包括语音对应的文字。例如,将一段内容为“打开空调”的语音输入所述训练过的语音识别模型中,在所述语音识别模型的输出获得的预测的语音识别结果,语音识别结果中包括预测的文字“打开空调”。
在一些实施方式中,所述语音识别模型可以储存在区块链节点中。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
如图3所示,该语音识别模型的训练装置,包括:初始化单元110、增强单元120、识别单元130、误差确定单元140及调整单元150。
初始化单元110,用于初始化语音识别模型,所述语音识别模型包括语音增强子模型及训练过的语音识别子模型。
示例性的,所述训练过的语音识别子模型根据第一信噪比的语音数据训练得到。
示例性的,在所述语音识别模型的训练过程中,所述训练过的语音识别子模型的模型参数保持不变。
增强单元120,用于将含噪音的语音数据输入所述语音增强子模型进行增强处理,以获得增强频谱。
示例性的,所述含噪音的语音数据为第二信噪比的语音数据,所述第二信噪比低于所述第一信噪比。
示例性的,所述增强单元120包括特征提取子单元、幅度增强子单元及相位还原子单元。
特征提取子单元,用于基于所述语音增强子模型的特征提取模块,对所述含噪音的语音数据提取包括幅度信息及相位信息的特征频谱;根据所述特征频谱中的幅度信息确定幅度谱。
示例性的,所述特征频谱提取模块通过对所述含噪音的语音数据进行傅里叶变换以获得所述特征频谱,所述幅度信息包括所述特征频谱在不同频率下对应的振幅,所述相位信息包括所述特征频谱在不同频率下对应的相位。
幅度增强子单元,用于基于所述语音增强子模型的幅度增强子网络,对所述幅度谱进行增强处理得到增强幅度谱。
示例性的,所述幅度增强子网络为卷积神经网络。
示例性的,所述幅度增强子网络包括掩膜,所述掩膜为矩阵元素与所述幅度谱的采样点对应的矩阵。
示例性的,幅度增强子单元包括掩膜相乘模块,所述掩膜相乘模块,用于将所述幅度谱的每个采样点与所述掩膜中对应的矩阵元素相乘,得到增强幅度谱。
相位还原子单元,用于基于所述语音增强子模型的相位还原模块,将所述特征频谱中的相位信息与所述增强幅度谱融合得到所述增强频谱。示例性的,所述相位还原模块将所述特征频谱中的相位信息与所述增强幅度谱根据频率对应的关系,按照傅里叶频谱的形式进行融合得到所述增强频谱。
识别单元130,用于通过所述语音识别子模型,根据所述增强频谱进行语音识别以得到语音识别结果;
误差确定单元140,用于根据所述语音识别结果,确定所述语音识别模型的识别误差。示例性的,基于交叉熵损失函数,根据所述语音识别结果和所述含噪音的语音数据的标注信息计算所述识别误差。
调整单元150,用于根据所述识别误差调整所述语音增强子模型的模型参数。示例性的,根据所述识别误差,通过反向传播调整所述幅度增强子网络的网络参数。
示例性的,该语音识别模型训练装置还包括语音识别子模型训练模块,用于对语音识别子模型进行语音识别训练,得到所述训练过的语音识别子模型。
请参阅图4,图4是本申请实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器或终端。
如图4所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种语音识别模型的训练方法或语音识别方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种语音识别模型的训练方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,该计算机设备的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现语音识别模型的训练方法。
在一些实施方式中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:初始化语音识别模型,所述语音识别模型包括语音增强子模型及训练过的语音识别子模型;将含噪音的语音数据输入所述语音增强子模型进行增强处理,以获取增强频谱;通过所述语音识别子模型,根据所述增强频谱进行语音识别以得到语音识别结果;根据所述语音识别结果,确定所述语音识别模型的识别误差;根据所述识别误差调整所述语音增强子模型的模型参数。示例性的,在所述语音识别模型的训练过程中,所述训练过的语音识别子模型的模型参数保持不变;所述训练过的语音识别子模型根据第一信噪比的语音数据训练得到;所述含噪音的语音数据为第二信噪比的语音数据,所述第二信噪比低于所述第一信噪比。
示例性地,处理器用于实现将含噪音的语音数据输入所述语音增强子模型进行增强处理,实现:基于所述语音增强子模型的特征提取模块,对所述含噪音的语音数据提取包括幅度信息及相位信息的特征频谱;根据所述特征频谱中的幅度信息确定幅度谱;基于所述语音增强子模型的幅度增强子网络,对所述幅度谱进行增强处理得到增强幅度谱;基于所述语音增强子模型的相位还原模块,将所述特征频谱中的相位信息与所述增强幅度谱融合得到所述增强频谱。
示例性的,处理器用于实现所述基于所述语音增强子模型的特征提取模块,对所述含噪音的语音数据提取包括幅度信息及相位信息的特征频谱时,实现:所述特征频谱提取模块通过对所述含噪音的语音数据进行傅里叶变换以获得所述特征频谱,所述幅度信息包括所述特征频谱在不同频率下对应的振幅,所述相位信息包括所述特征频谱在不同频率下对应的相位。
示例性的,处理器用于实现所述幅度增强子网络时,实现:所述幅度增强子网络包括掩膜,所述掩膜为矩阵元素与所述幅度谱的采样点对应的矩阵。
示例性地,处理器用于实现所述基于所述语音增强子模型的幅度增强子网络,对所述幅度谱进行增强处理得到增强幅度谱时,实现:将所述幅度谱的每个采样点与所述掩膜中对应的矩阵元素相乘,得到增强幅度谱。
示例性地,处理器用于实现所述基于所述语音增强子模型的相位还原模块,将所述特征频谱中的相位信息与所述增强幅度谱融合得到所述增强频谱时,实现:所述相位还原模块将所述特征频谱中的相位信息与所述增强幅度谱根据频率对应的关系,按照傅里叶频谱的形式进行融合得到所述增强频谱。
示例性地,处理器用于实现确定所述语音识别模型的识别误差时,实现:基于交叉熵损失函数,根据所述语音识别结果和所述含噪音的语音数据的标注信息计算所述识别误差。
示例性的,处理器用于实现根据所述误差调整所述语音增强子模型的模型参数时,实现:根据所述识别误差,通过反向传播调整所述幅度增强子网络的网络参数。
示例性的,所述计算机程序还包括以下步骤:对语音识别子模型进行语音识别训练,得到所述训练过的语音识别子模型。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法,如:
一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项语音识别模型的训练方法。
其中,所述计算机存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种语音识别模型的训练方法,其特征在于,所述方法包括:
初始化语音识别模型,所述语音识别模型包括语音增强子模型及训练过的语音识别子模型;所述训练过的语音识别子模型根据第一信噪比的语音数据训练得到;
将含噪音的语音数据输入所述语音增强子模型进行增强处理,以获取增强频谱;所述含噪音的语音数据为第二信噪比的语音数据,所述第二信噪比低于所述第一信噪比;
通过所述语音识别子模型,根据所述增强频谱进行语音识别以得到语音识别结果;
根据所述语音识别结果,确定所述语音识别模型的识别误差;
根据所述识别误差调整所述语音增强子模型的模型参数;
所述将含噪音的语音数据输入所述语音增强子模型进行增强处理,以获取增强频谱,包括:
基于所述语音增强子模型的特征提取模块,对所述含噪音的语音数据提取包括幅度信息及相位信息的特征频谱;
根据所述特征频谱中的幅度信息确定幅度谱;
基于所述语音增强子模型的幅度增强子网络,对所述幅度谱进行增强处理得到增强幅度谱;
基于所述语音增强子模型的相位还原模块,将所述特征频谱中的相位信息与所述增强幅度谱融合得到所述增强频谱;
在所述语音识别模型的训练过程中,所述语音识别子模型的模型参数保持不变;
所述根据所述识别误差调整所述语音增强子模型的模型参数,包括:根据所述识别误差,通过反向传播调整所述幅度增强子网络的网络参数。
2.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述幅度增强子网络包括掩膜,所述掩膜为矩阵元素与所述幅度谱的采样点对应的矩阵;
所述基于所述语音增强子模型的幅度增强子网络,对所述幅度谱进行增强处理得到增强幅度谱包括:
将所述幅度谱的每个采样点与所述掩膜中对应的矩阵元素相乘,得到增强幅度谱。
3.根据权利要求1所述的语音识别模型的训练方法,其特征在于:
所述基于所述语音增强子模型的特征提取模块,对所述含噪音的语音数据提取包括幅度信息及相位信息的特征频谱,包括:
所述特征频谱提取模块通过对所述含噪音的语音数据进行傅里叶变换以获得所述特征频谱,所述幅度信息包括所述特征频谱在不同频率下对应的振幅,所述相位信息包括所述特征频谱在不同频率下对应的相位;
所述基于所述语音增强子模型的相位还原模块,将所述特征频谱中的相位信息与所述增强幅度谱融合得到所述增强频谱,包括:
所述相位还原模块将所述特征频谱中的相位信息与所述增强幅度谱根据频率对应的关系,按照傅里叶频谱的形式进行融合得到所述增强频谱。
4.根据权利要求1-3任一项所述的语音识别模型的训练方法,其特征在于,
所述根据所述语音识别结果,确定所述语音识别模型的识别误差,包括:
基于交叉熵损失函数,根据所述语音识别结果和所述含噪音的语音数据的标注信息计算所述识别误差。
5.一种语音识别模型的训练装置,其特征在于,所述装置包括:
初始化单元,用于初始化语音识别模型,所述语音识别模型包括语音增强子模型及训练过的语音识别子模型;所述训练过的语音识别子模型根据第一信噪比的语音数据训练得到;
增强单元,用于将含噪音的语音数据输入所述语音增强子模型进行增强处理,以获取增强频谱;所述含噪音的语音数据为第二信噪比的语音数据,所述第二信噪比低于所述第一信噪比;
识别单元,用于通过所述语音识别子模型,根据所述增强频谱进行语音识别以得到语音识别结果;
误差确定单元,用于根据所述语音识别结果,确定所述语音识别模型的识别误差;
调整单元,用于根据所述识别误差调整所述语音增强子模型的模型参数;
所述将含噪音的语音数据输入所述语音增强子模型进行增强处理,以获取增强频谱,包括:
基于所述语音增强子模型的特征提取模块,对所述含噪音的语音数据提取包括幅度信息及相位信息的特征频谱;
根据所述特征频谱中的幅度信息确定幅度谱;
基于所述语音增强子模型的幅度增强子网络,对所述幅度谱进行增强处理得到增强幅度谱;
基于所述语音增强子模型的相位还原模块,将所述特征频谱中的相位信息与所述增强幅度谱融合得到所述增强频谱;
在所述语音识别模型的训练过程中,所述语音识别子模型的模型参数保持不变;
所述根据所述识别误差调整所述语音增强子模型的模型参数,包括:根据所述识别误差,通过反向传播调整所述幅度增强子网络的网络参数。
6.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1-4任一项所述的语音识别模型的训练方法。
7.一种计算机存储介质,所述计算机的存储介质存储有计算机程序,其特征在于,若所述计算机程序被处理器执行,实现如权利要求1-4任一项所述的语音识别模型的训练方法。
CN202110486527.XA 2021-04-30 2021-04-30 语音识别模型的训练方法、装置、设备及存储介质 Active CN113178192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110486527.XA CN113178192B (zh) 2021-04-30 2021-04-30 语音识别模型的训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110486527.XA CN113178192B (zh) 2021-04-30 2021-04-30 语音识别模型的训练方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113178192A CN113178192A (zh) 2021-07-27
CN113178192B true CN113178192B (zh) 2024-05-24

Family

ID=76928093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110486527.XA Active CN113178192B (zh) 2021-04-30 2021-04-30 语音识别模型的训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113178192B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707134B (zh) * 2021-08-17 2024-05-17 北京搜狗科技发展有限公司 一种模型训练方法、装置和用于模型训练的装置
CN114283828A (zh) * 2021-09-02 2022-04-05 腾讯科技(北京)有限公司 语音降噪模型的训练方法、语音评分方法、装置及介质
CN114512136B (zh) * 2022-03-18 2023-09-26 北京百度网讯科技有限公司 模型训练、音频处理方法、装置、设备、存储介质及程序
CN115299937B (zh) * 2022-09-16 2023-08-11 东联信息技术有限公司 一种智能摔倒检测平台

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110415686A (zh) * 2019-05-21 2019-11-05 腾讯科技(深圳)有限公司 语音处理方法、装置、介质、电子设备
CN110600017A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 语音处理模型的训练方法、语音识别方法、系统及装置
CN110675864A (zh) * 2019-09-12 2020-01-10 上海依图信息技术有限公司 一种语音识别方法及装置
CN111261146A (zh) * 2020-01-16 2020-06-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
CN111754983A (zh) * 2020-05-18 2020-10-09 北京三快在线科技有限公司 一种语音去噪方法、装置、电子设备及存储介质
CN112289333A (zh) * 2020-12-25 2021-01-29 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN112562691A (zh) * 2020-11-27 2021-03-26 平安科技(深圳)有限公司 一种声纹识别的方法、装置、计算机设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105280195B (zh) * 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US10381020B2 (en) * 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110415686A (zh) * 2019-05-21 2019-11-05 腾讯科技(深圳)有限公司 语音处理方法、装置、介质、电子设备
CN110600017A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 语音处理模型的训练方法、语音识别方法、系统及装置
CN110675864A (zh) * 2019-09-12 2020-01-10 上海依图信息技术有限公司 一种语音识别方法及装置
WO2021047201A1 (zh) * 2019-09-12 2021-03-18 上海依图信息技术有限公司 一种语音识别方法及装置
CN111261146A (zh) * 2020-01-16 2020-06-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
CN111754983A (zh) * 2020-05-18 2020-10-09 北京三快在线科技有限公司 一种语音去噪方法、装置、电子设备及存储介质
CN112562691A (zh) * 2020-11-27 2021-03-26 平安科技(深圳)有限公司 一种声纹识别的方法、装置、计算机设备及存储介质
CN112289333A (zh) * 2020-12-25 2021-01-29 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置

Also Published As

Publication number Publication date
CN113178192A (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN113178192B (zh) 语音识别模型的训练方法、装置、设备及存储介质
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
CN110838289A (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
US8386254B2 (en) Multi-class constrained maximum likelihood linear regression
CN111326148B (zh) 置信度校正及其模型训练方法、装置、设备及存储介质
CN111583906B (zh) 一种语音会话的角色识别方法、装置及终端
US20110257976A1 (en) Robust Speech Recognition
WO2008001486A1 (fr) Dispositif et programme de traitement vocal, et procédé de traitement vocal
CN112634867A (zh) 模型训练方法、方言识别方法、装置、服务器及存储介质
JP6973304B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
WO2020252935A1 (zh) 声纹验证方法、装置、设备及存储介质
CN113646833A (zh) 语音对抗样本检测方法、装置、设备及计算机可读存储介质
Biagetti et al. Speaker identification in noisy conditions using short sequences of speech frames
Karbasi et al. Non-intrusive speech intelligibility prediction using automatic speech recognition derived measures
Saleem et al. Low rank sparse decomposition model based speech enhancement using gammatone filterbank and Kullback–Leibler divergence
Girirajan et al. Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network.
JP2020095732A (ja) 対話行為推定方法、対話行為推定装置及びプログラム
CN115547345A (zh) 声纹识别模型训练及相关识别方法、电子设备和存储介质
Fujita et al. Robust DNN-Based VAD Augmented with Phone Entropy Based Rejection of Background Speech.
CN113744718A (zh) 语音文本的输出方法及装置、存储介质、电子装置
Kanrar Dimension compactness in speaker identification
Ondusko et al. Blind signal-to-noise ratio estimation of speech based on vector quantizer classifiers and decision level fusion
CN116386611B (zh) 一种教学声场环境的去噪方法
Liu et al. Teacher-student learning and post-processing for robust BiLSTM mask-based acoustic beamforming
CN112233651B (zh) 方言类型的确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant