CN108510979B - 一种混合频率声学识别模型的训练方法及语音识别方法 - Google Patents

一种混合频率声学识别模型的训练方法及语音识别方法 Download PDF

Info

Publication number
CN108510979B
CN108510979B CN201710108893.5A CN201710108893A CN108510979B CN 108510979 B CN108510979 B CN 108510979B CN 201710108893 A CN201710108893 A CN 201710108893A CN 108510979 B CN108510979 B CN 108510979B
Authority
CN
China
Prior art keywords
speech
voice
signal
training
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710108893.5A
Other languages
English (en)
Other versions
CN108510979A (zh
Inventor
范利春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yutou Technology Hangzhou Co Ltd
Original Assignee
Yutou Technology Hangzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yutou Technology Hangzhou Co Ltd filed Critical Yutou Technology Hangzhou Co Ltd
Priority to CN201710108893.5A priority Critical patent/CN108510979B/zh
Priority to US16/487,819 priority patent/US11120789B2/en
Priority to PCT/CN2018/074320 priority patent/WO2018153214A1/zh
Priority to TW107106653A priority patent/TW201832223A/zh
Publication of CN108510979A publication Critical patent/CN108510979A/zh
Application granted granted Critical
Publication of CN108510979B publication Critical patent/CN108510979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种混合频率声学识别模型的训练方法及语音识别方法,属于语音识别技术领域;方法包括:获取第一语音信号的第一类语音特征并进行处理,以得到对应的第一语音训练数据;获取第二语音信号的第一类语音特征并对进行处理,以得到对应的第二语音训练数据;根据功率谱获取第一语音信号的第二类语音特征以及第二语音信号的第二类语音特征;根据第一语音信号和第二语音信号预训练形成混合频率声学识别模型的一初步识别模型;根据第一语音训练数据、第二语音训练数据以及第二类语音特征对初步识别模型进行有监督的参数训练,以形成混合频率声学识别模型。上述技术方案的有益效果是:识别模型具有较好的鲁棒性和泛化性。

Description

一种混合频率声学识别模型的训练方法及语音识别方法
技术领域
本发明涉及语音识别技术领域,尤其涉及一种混合频率声学识别模型的训练方法及语音识别方法。
背景技术
现有技术中,由于使用环境、数据传输要求和传输使用的技术手段的不同,不同的录音设备和存储方法之间存在较大的差异,其中比较主要的差异在于采样频率的差异。例如8kHz采样频率的语音数据通常来自于电话录音,那么在传统的语音识别方法中会专门利用电话数据训练形成一个8kHz数据的声学识别模型。相应地,16kHz采样频率的语音数据通常来自于桌面录音,同样利用桌面数据训练形成一个16kHz数据的声学识别模型。因此传统的针对混合采样频率的语音数据的声学识别方法是针对不同环境不同采样频率的语音数据分别建立声学识别模型。
尽管使用专用的声学模型能够使得测试环境和训练环境更加匹配,但是这样做也会带来很多弊端:一是识别模型的更新和维护会非常繁琐,需要分别针对每个专用的声学模型进行专门的更新和维护;二是每个专用的声学模型分别进行训练会使得各个模型的训练数据不够充分,模型的鲁棒性和泛化性也会受到限制。
发明内容
根据现有技术中存在的上述问题,现提供一种混合频率声学识别模型的训练方法及语音识别方法的技术方案,旨在针对不同采样频率的语音信号形成一个统一的声学识别模型,使得模型对不同采样频率的数据具有较好的鲁棒性和泛化性,并且能够较好地抑制环境噪声对语音识别的影响。
上述技术方案具体包括:
一种混合频率声学识别模型的训练方法,其中,训练形成一统一的所述混合频率声学识别模型,以分别对具有一第一采样频率的第一语音信号进行声学识别,以及对具有一第二采样频率的第二语音信号进行声学识别;
所述混合频率声学识别模型的训练方法具体包括:
步骤S1,获取所述第一语音信号的第一类语音特征并对所述第一语音数据进行处理,以得到对应的第一语音训练数据;
步骤S2,获取所述第二语音信号的所述第一类语音特征并对所述第二语音数据进行处理,以得到对应的第二语音训练数据;
步骤S3,根据所述第一语音信号的功率谱获取所述第一语音信号的第二类语音特征,以及根据所述第二语音信号的功率谱获取所述第二语音信号的第二类语音特征;
步骤S4,根据所述第一语音信号和所述第二语音信号预训练形成所述混合频率声学识别模型的一初步识别模型;
步骤S5,根据所述第一语音训练数据、所述第二语音训练数据以及所述第二类语音特征对所述初步识别模型进行有监督的参数训练,以形成所述混合频率声学识别模型。
优选的,该训练方法,其中,所述第一采样频率为16KHz的采样频率。
优选的,该训练方法,其中,所述第二采样频率为8KHz的采样频率。
优选的,该训练方法,其中,所述第一类语音特征为MFCC特征。
优选的,该训练方法,其中,所述第二类语音特征为fbank特征。
优选的,该训练方法,其中,所述步骤S1中,对所述第一语音信号进行处理以得到所述第一语音训练数据的方法具体包括:
步骤S11,利用所述第一类语音特征训练形成一第一声学模型;
步骤S12,利用所述第一声学模型对所述第一语音信号进行强制对齐操作,以形成帧对齐的所述第一语音训练数据。
优选的,该训练方法,其中,所述步骤S2中,利用与所述第一声学模型相同的三音子决策树获取所述第二语音信号的所述第一类语音特征。
优选的,该训练方法,其中,所述步骤S2中,对所述第二语音信号进行处理以得到所述第二语音训练数据的方法具体包括:
步骤S21,利用所述第二类语音特征训练形成一第二声学模型;
步骤S22,利用所述第二声学模型对所述第二语音信号进行强制对齐操作,以形成帧对齐的所述第二语音训练数据。
优选的,该训练方法,其中,所述第一声学模型为GMM-HMM声学模型。
优选的,该训练方法,其中,所述第二声学模型为GMM-HMM声学模型。
优选的,该训练方法,其中,所述第一语音信号的所述第一采样频率为16KHz;
所述步骤S3中,获取所述第一语音信号中的所述第二类语音特征的方法具体包括:
步骤S31a,获取所述第一语音信号的功率谱;
步骤S32a,采用梅尔滤波器组,根据所述第一语音信号的所述功率谱对所述第一语音信号的高频带的信号部分进行规整,以得到所述第一语音信号的所述第二类语音特征的高频部分;
步骤S33a,采用梅尔滤波器组,根据所述第一语音信号的所述功率谱对所述第一语音信号的低频带的信号部分进行规整,以得到所述第一语音信号的所述第二类语音特征的低频部分;
步骤S34a,结合所述高频部分和所述低频部分得到所述第一语音信号的所述第二类语音特征。
优选的,该训练方法,其中,所述第二语音信号的所述第二采样频率为8KHz;
所述步骤S3中,获取所述第二语音信号中的所述第二类语音特征的方法具体包括:
步骤S31b,获取所述第二语音信号的功率谱;
步骤S32b,采用梅尔滤波器组,根据所述第二语音信号的所述功率谱对所述第二语音信号进行规整,以得到所述第二语音信号的所述第二类语音特征的低频部分;
步骤S33b,对所述第二语音信号进行高维补零处理,以得到所述第二语音信号的所述第二类语音特征的高频部分;
步骤S34b,结合所述高频部分和所述低频部分得到所述第二语音信号的所述第二类语音特征。
优选的,该训练方法,其中,所述混合频率声学识别模型为部分连接的深度神经网络模型;或者
所述混合频率声学识别模型为全连接的深度神经网络模型。
优选的,该训练方法,其中,所述步骤S4中,采用限制玻尔兹曼机,根据所述第一语音信号和所述第二语音信号对所述深度神经网络模型进行预训练,以形成所述混合频率声学模型的初步识别模型。
优选的,该训练方法,其中,所述步骤S5中,采用随机梯度下降方法,根据所述第一语音训练数据、所述第二语音训练数据以及所述第二类语音特征对所述初步识别模型进行有监督的参数训练,以形成所述混合频率声学识别模型。
一种语音识别方法,其中,采用上述的混合频率声学识别模型的训练方法。
上述技术方案的有益效果是:提供一种混合频率声学识别模型的训练方法,能够针对不同采样频率的语音信号形成一个统一的声学识别模型,使得模型对不同采样频率的数据具有较好的鲁棒性和泛化性,并且能够较好地抑制环境噪声对语音识别的影响。
附图说明
图1是本发明的较佳的实施例中,一种混合频率声学识别模型的训练方法的总体流程示意图;
图2-3是本发明的较佳的实施例中,训练得到第一类语音特征的流程示意图;
图4-5是本发明的较佳的实施例中,训练得到第二类语音特征的流程示意图;
图6是本发明的一个较佳的实施例中,采用梅尔滤波器组训练得到第二类语音特征的示意图;
图7是本发明的一个较佳的实施例中,采用部分连接的深度神经网络作为混合频率声学识别模型的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
基于现有技术中存在的上述问题,现提供一种混合频率声学识别模型的训练方法,该方法中,训练形成一统一的混合频率声学识别模型,以分别对具有一第一采样频率的第一语音信号进行声学识别,以及对具有一第二采样频率的第二语音信号进行声学识别。换言之,在该训练方法中,针对多种不同采样频率的语音数据,训练形成一个统一的声学识别模型进行识别,而非如传统方法那样针对每种语音数据训练形成专用的声学识别模型进行识别。
上述训练方法具体如图1所示,包括:
步骤S1,获取第一语音信号的第一类语音特征并对第一语音数据进行处理,以得到对应的第一语音训练数据;
步骤S2,获取第二语音信号的第一类语音特征并对第二语音数据进行处理,以得到对应的第二语音训练数据;
步骤S3,根据第一语音信号的功率谱获取第一语音信号的第二类语音特征,以及根据第二语音信号的功率谱获取第二语音信号的第二类语音特征;
步骤S4,根据第一语音信号和第二语音信号预训练形成混合频率声学识别模型的一初步识别模型;
步骤S5,根据第一语音训练数据、第二语音训练数据以及第二类语音特征对初步识别模型进行有监督的参数训练,以形成混合频率声学识别模型。
具体地,本实施例中,首先需要分别获得上述第一语音信号和第二语音信号的第一类语音特征。上述第一语音信号的第一类语音特征和第二语音信号的第一类语音特征应当保持一致,因此应当采用相同的三音子决策树分别处理获取上述第一语音信号和第二语音信号的第一类语音特征。进一步地,上述第一类语音特征为梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)特征,具体获取过程在下文中详述。
在获取上述第一类语音特征后,根据第一类语音特征分别对对应的第一语音信号或者第二语音信号进行处理,以得到第一语音训练数据或者第二语音训练数据。
本实施例中,随后分别获取第一语音信号和第二语音信号的第二类语音特征。进一步地,上述第二类语音特征为fbank特征,具体获取过程在下文中详述。
本实施例中,将上述第一语音信号和第二语音信号作为输入数据,对混合频率声学识别模型进行预训练,以形成一个初步模型,随后根据上述第一类语音特征、第二类语音特征以及上述第一语音训练数据和第二语音训练数据对上述初步模型进行有监督的参数训练,并最终训练形成混合频率声学识别模型。
本发明的较佳的实施例中,上述第一语音信号的第一采样频率为16kHz,通常来自电话录音。而上述第二语音信号的第二采样频率为8kHz,通常来自桌面录音。
本发明的较佳的实施例中,上述步骤S1中,如图2中所示,对上述第一语音信号进行处理以得到第一语音训练数据的方法具体包括:
步骤S11,利用第一类语音特征训练形成一第一声学模型;
步骤S12,利用第一声学模型对第一语音信号进行强制对齐操作,以形成帧对齐的第一语音训练数据。
具体地,本实施例中,首先对上述第一语音信号提取第一类语音特征(即MFCC特征),随后利用该第一类语音特征训练形成一个第一声学模型。MFCC特征是语音识别领域内最常见的语音特征,从语音信号中提取MFCC特征的方法在现有技术中也有较为成熟的实现方式,在此不再赘述。
本发明的一个较佳的实施例中,在基于DNN-HMM(Deep Neural Networks-HiddenMarkov Model,深度神经网络-隐马尔可夫模型)框架的声学模型出现之前,基于GMM-HMM(Gaussian Mixture Model-Hidden Markov Model,高斯混合模型-隐马尔可夫模型)框架的声学模型是语音识别领域最为广泛的配置。这种框架结构利用隐马尔可夫模型对三音子状态进行转移建模,并且利用高斯混合模型对状态的发射概率建模,这些状态正好都对应深度神经网络模型的输出节点。因此,当上述混合频率声学识别模型为深度神经网络模型时,上述第一声学模型可以为GMM-HMM声学模型,即利用上述MFCC特征训练形成一GMM-HMM声学模型。
本实施例中,利用上述训练形成的第一声学模型对上述第一语音信号进行强制对齐。所谓强制对齐,是指将语音的每一帧语音特征都对应到绑定三音子的某一个状态上去,而这些状态正好对应着混合频率声学识别模型的输出节点。有了帧对齐的数据就可以对混合频率声学识别模型(深度神经网络模型)进行有监督的参数训练了。
本发明的较佳的实施例中,类似上文中,上述步骤S2中,对第二语音信号进行处理以得到第二语音训练数据的方法如图3所示,具体包括:
步骤S21,利用第二类语音特征训练形成一第二声学模型;
步骤S22,利用第二声学模型对第二语音信号进行强制对齐操作,以形成帧对齐的第二语音训练数据。
上述获取第二类语音特征并训练形成第二声学模型,随后利用第二声学模型对第二语音信号进行强制操作的过程与上文中针对第一语音信号的操作类似,在此不再赘述。
应当注意的是,由于16kHz语音与8kHz语音的语音特征存在较大的差异,其中每一维所涵盖的频域都是不相同的,因此这两种语音数据无法共享同一个GMM-HMM模型,并且由于需要使用16kHz语音数据和8kHz语音数据共同训练形成同一个混合频率声学识别模型,因此这两种语音数据帧对齐的输出节点要保持一致。则在对上述第二语音信号提取第二类语音特征时,采用与上述第一声学模型相同的三音子决策树提取,即第一语音信号和第二语音信号中提取第一类语音特征所使用的音子集和决策树相同。
本发明的较佳的实施例中,上述步骤S3中,获取16kHz的第一语音信号中的第二类语音特征的方法具体如图4所示,包括:
步骤S31a,获取第一语音信号的功率谱;
步骤S32a,采用梅尔滤波器组,根据第一语音信号的功率谱对第一语音信号的高频带的信号部分进行规整,以得到第一语音信号的第二类语音特征的高频部分;
步骤S33a,采用梅尔滤波器组,根据第一语音信号的功率谱对第一语音信号的低频带的信号部分进行规整,以得到第一语音信号的第二类语音特征的低频部分;
步骤S34a,结合高频部分和低频部分得到第一语音信号的第二类语音特征。
具体地,本实施例中,如上文中所述,上述第二类语音特征为fbank特征。则上述步骤中,首先获取第一语音信号的功率谱,随后Mel滤波器组分别对该第一语音信号的高频带和低频带进行规整,以获取语音的fbank特征。具体地,获取语音信号的功率谱的方法是所有语音特征都需要进行的处理过程,大致需要进行语音信号的预加重、分帧、加窗、快速傅里叶变换以得到语音信号的频谱,然后再得到功率谱。
本实施例中,常见的Mel滤波器组对功率谱进行规整的过程中,对于16kHz的语音数据(第一语音信号)通常采用24维的Mel滤波器组,对于8kHz的语音数据(第二语音信号)通常采用8维的Mel滤波器组。而在本发明中,对于第一语音信号的低频带部分采用22维的Mel滤波器组进行规整以形成上述低频部分,对于第一语音信号的高频带部分采用7维的Mel滤波器组进行规整以形成上述高频部分,随后归纳上述低频部分和高频部分形成第二类语音特征(具体如图6所示)。
本发明的较佳的实施例中,上述步骤S3中,获取8kHz的第二语音信号中的第二类语音特征的方法具体如图5所示,包括:
步骤S31b,获取第二语音信号的功率谱;
步骤S32b,采用梅尔滤波器组,根据第二语音信号的功率谱对第二语音信号进行规整,以得到第二语音信号的第二类语音特征的低频部分;
步骤S33b,对第二语音信号进行高维补零处理,以得到第二语音信号的第二类语音特征的高频部分;
步骤S34b,结合高频部分和低频部分得到第二语音信号的第二类语音特征。
获取上述第二语音信号的功率谱的方式与上述第一语音信号相同,均为现有技术中通常采用的方式,在此不再赘述。
本实施例中,由于8kHz的第二语音信号没有高频段,因此经过Mel滤波器组之后仅为22维的特征。为了使得第二语音信号和第一语音信号具有相同长度的语音特征,在对第二语音信号采用Mel滤波器组进行规整之后,对其进行高维补零处理,即对其高频带用零补齐,从而同样形成第二类语音特征。
上述处理之后,第二语音信号的第二类语音特征与第一语音信号的第二类语音特征的长度相同,并且语音特征在低频带能够共享。
本发明的较佳的实施例中,上述混合频率声学识别模型为部分连接或者全连接的深度神经网络模型。
具体地,全连接的深度神经网络模型无法单独处理语音中来自不同频段的噪声干扰。因此可以提供一种部分连接的深度神经网络模型,该深度神经网络中包括至少一个部分连接的隐藏层,每个部分连接的隐藏层71仅接受来自特定频段的输入数据,并且这些输入数据之间没有相互重叠。高层的部分连接层同样仅接受来自底层的部分连接层的输入数据。这样在每一组频率段之间就不存在相互交叉的影响,从而使得每个神经网络能够单独处理对应频段内的噪声。在上述部分连接的神经元层之上是多个全连接的神经元层,其能够将对应每组频段的输入数据进行结合处理,并最终形成一个具有表达能力的特征组合,进而得到输出结果。
本发明的一个较佳的实施例中,上述部分连接的深度神经网络的一种神经网络结构如图7所示。若输入的语音特征被分为m个频带部分,被表示为:
V=[v1,v2,...,vm]; (1)
则上述部分连接的隐藏层也相应地被分为m个部分,则第n个部分的部分连接的隐藏层的各个部分被表示为:
Hn=[hn1,hn2,...,hnm]; (2)
那么第k个部分的值
Figure GDA0002581832220000091
可以通过比其第一层的第k个部分的值计算得到,具体为:
Figure GDA0002581832220000092
其中,
θ(*)为激活函数;
Figure GDA0002581832220000093
用于表示第n个部分连接的隐藏层的第k个部分的权重矩阵;
Figure GDA0002581832220000094
用于表示第n个部分连接的隐藏层的第k个部分的偏置量。
本发明中,部分连接的深度神经网络与全连接的深度神经网络在训练方法上是相通的,部分连接的神经网络的部分连接层在进行预训练时,可以看作是对多个相互分离的深度神经网络进行预训练。本发明中,采用部分连接的深度神经网络作为混合频率声学识别模型能够提升其抗噪性能,对多种环境噪声均能够有效抑制,并且能够获得比普通的全连接的深度神经网络更好的识别性能。
本发明中同样可以采用全连接的深度神经网络作为混合频率声学识别模型,其在抗噪性能上略逊于部分连接的深度神经网络。
如上文中所述,部分连接的深度神经网络和全连接的深度神经网络在训练步骤上是相通的,因此下文中不再一一对全连接的深度神经网络和部分连接的深度神经网络的训练过程做分别阐述。
本发明的较佳的实施例中,上述步骤S4中,采用限制玻尔兹曼机,根据第一语音信号和第二语音信号对深度神经网络模型进行预训练,以形成混合频率声学模型的初步识别模型。
具体地,本实施例中,以部分连接的深度神经网络为例,对于上述第二类语音特征,部分连接层采用两个部分分别对应第二类语音特征的低频部分和高频部分,即0-4kHz对应低频部分,4-8kHz对应高频部分。随后将fbank特征的低频部分输入到部分连接层的第一个部分,将fbank特征的高频部分输入到部分连接层的第二个部分,最后利用限制玻尔兹曼机(Restricted Boltzmann Machine,RBM)对部分连接的深度神经网络进行预训练以形成混合频率声学识别模型的初步模型。
本发明的较佳的实施例中,上述步骤S5中,可以采用随机梯度下降方法,根据第一语音训练数据、第二语音训练数据以及第二类语音特征对初步识别模型进行有监督的参数训练,以形成混合频率声学识别模型。
具体地,本实施例中,可以采用随机梯度下降法(Stochastic Gradient descent,SGD)对整个初步模型进行有监督的优化训练。具体地,利用fbank特征和帧对齐的第一语音训练数据和第二语音训练数据对初步模型进行有监督训练。训练过程中可以使用真实数据的开发集来观测模型的性能。开发集的测试性能会随着模型的迭代逐渐变好。当开发集的性能增加变慢并且两次模型迭代在开发集上的绝对性能增加小于一预设阈值时,训练停止。此时训练好的模型即为最终完成的混合频率声学识别模型。根据这个模型能够分别对16kHz的第一语音信号和8kHz的第二语音信号进行识别,提升了模型的鲁棒性和泛化性。当该混合频率声学识别模型采用部分连接的深度神经网络模型训练形成时,其抗噪性能也有所提升,对于多种环境噪声都能够有效抑制,并且进一步提升了识别性能。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (15)

1.一种混合频率声学识别模型的训练方法,其特征在于,训练形成一统一的所述混合频率声学识别模型,以分别对具有一第一采样频率的第一语音信号进行声学识别,以及对具有一第二采样频率的第二语音信号进行声学识别;
所述混合频率声学识别模型为部分连接的深度神经网络模型;
所述混合频率声学识别模型的训练方法具体包括:
步骤S1,获取所述第一语音信号的第一类语音特征,并对所述第一语音信号进行处理,以得到对应的第一语音训练数据;
步骤S2,获取所述第二语音信号的所述第一类语音特征,并对所述第二语音信号进行处理,以得到对应的第二语音训练数据;
步骤S3,根据所述第一语音信号的功率谱获取所述第一语音信号的第二类语音特征,以及根据所述第二语音信号的功率谱获取所述第二语音信号的第二类语音特征;其中,所述第一语音信号、所述第二语音信号均具有低频带部分,所述第一语音信号还具有高频带部分;所述步骤S3的所述根据所述第二语音信号的功率谱获取所述第二语音信号的第二类语音特征包括,对所述第二语音信号的高频带用零补齐,以使得所述第一语音信号的第二类语音特征与所述第二语音信号的第二类语音特征的长度相同;
步骤S4,根据所述第一语音信号和所述第二语音信号对所述深度神经网络模型进行预训练,以形成所述混合频率声学识别模型的一初步识别模型;所述深度神经网络模型中包括至少一个部分连接的隐藏层,每个所述部分连接的隐藏层仅接受来自特定频段的输入数据,并且所述输入数据之间没有相互重叠;
步骤S5,根据所述第一语音训练数据、所述第二语音训练数据以及所述第二类语音特征对所述初步识别模型进行有监督的参数训练,以形成所述混合频率声学识别模型。
2.如权利要求1所述的训练方法,其特征在于,所述第一采样频率为16KHz的采样频率。
3.如权利要求1所述的训练方法,其特征在于,所述第二采样频率为8KHz的采样频率。
4.如权利要求1所述的训练方法,其特征在于,所述第一类语音特征为MFCC特征。
5.如权利要求1所述的训练方法,其特征在于,所述第二类语音特征为fbank特征。
6.如权利要求1所述的训练方法,其特征在于,所述步骤S1中,对所述第一语音信号进行处理以得到所述第一语音训练数据的方法具体包括:
步骤S11,利用所述第一类语音特征训练形成一第一声学模型;
步骤S12,利用所述第一声学模型对所述第一语音信号进行强制对齐操作,以形成帧对齐的所述第一语音训练数据;其中,所述强制对齐是指将语音的每一帧语音特征都对应到绑定三音子的某一个状态,而所述状态对应着所述混合频率声学识别模型的输出节点。
7.如权利要求6所述的训练方法,其特征在于,所述步骤S2中,利用与所述第一声学模型相同的三音子决策树获取所述第二语音信号的所述第一类语音特征。
8.如权利要求1所述的训练方法,其特征在于,所述步骤S2中,对所述第二语音信号进行处理以得到所述第二语音训练数据的方法具体包括:
步骤S21,利用所述第二类语音特征训练形成一第二声学模型;
步骤S22,利用所述第二声学模型对所述第二语音信号进行强制对齐操作,以形成帧对齐的所述第二语音训练数据;其中,所述强制对齐是指将语音的每一帧语音特征都对应到绑定三音子的某一个状态,而所述状态对应着所述混合频率声学识别模型的输出节点。
9.如权利要求6或7所述的训练方法,其特征在于,所述第一声学模型为GMM-HMM声学模型。
10.如权利要求8所述的训练方法,其特征在于,所述第二声学模型为GMM-HMM声学模型。
11.如权利要求1所述的训练方法,其特征在于,所述第一语音信号的所述第一采样频率为16KHz;
所述步骤S3中,获取所述第一语音信号中的所述第二类语音特征的方法具体包括:
步骤S31a,获取所述第一语音信号的功率谱;
步骤S32a,采用梅尔滤波器组,根据所述第一语音信号的所述功率谱对所述第一语音信号的高频带的信号部分进行规整,以得到所述第一语音信号的所述第二类语音特征的高频部分;
步骤S33a,采用梅尔滤波器组,根据所述第一语音信号的所述功率谱对所述第一语音信号的低频带的信号部分进行规整,以得到所述第一语音信号的所述第二类语音特征的低频部分;
步骤S34a,结合所述高频部分和所述低频部分得到所述第一语音信号的所述第二类语音特征。
12.如权利要求1所述的训练方法,其特征在于,所述第二语音信号的所述第二采样频率为8KHz;
所述步骤S3中,获取所述第二语音信号中的所述第二类语音特征的方法具体包括:
步骤S31b,获取所述第二语音信号的功率谱;
步骤S32b,采用梅尔滤波器组,根据所述第二语音信号的所述功率谱对所述第二语音信号进行规整,以得到所述第二语音信号的所述第二类语音特征的低频部分;
步骤S33b,对所述第二语音信号进行高维补零处理,以得到所述第二语音信号的所述第二类语音特征的高频部分;
步骤S34b,结合所述高频部分和所述低频部分得到所述第二语音信号的所述第二类语音特征。
13.如权利要求1所述的训练方法,其特征在于,所述步骤S4中,采用限制玻尔兹曼机,根据所述第一语音信号和所述第二语音信号对所述深度神经网络模型进行预训练,以形成所述混合频率声学模型的所述初步识别模型;
其中,所述深度神经网络模型的高层的所述部分连接的隐藏层仅接受来自底层的所述部分连接的隐藏层的输入数据;所述深度神经网络模型的所述部分连接的隐藏层采用第一个部分和第二个部分来分别对应所述第二类语音特征的低频部分和高频部分;所述步骤S4包括:将所述第一语音信号的第二类语音特征和所述第二语音信号的第二类语音特征的所述低频部分输入到所述部分连接的隐藏层的所述第一个部分,将所述高频部分输入到所述部分连接的隐藏层的所述第二个部分。
14.如权利要求1所述的训练方法,其特征在于,所述步骤S5中,采用随机梯度下降方法,根据所述第一语音训练数据、所述第二语音训练数据以及所述第二类语音特征对所述初步识别模型进行有监督的参数训练,以形成所述混合频率声学识别模型。
15.一种语音识别方法,其特征在于,采用如权利要求1-14中任意一项所述的混合频率声学识别模型的训练方法。
CN201710108893.5A 2017-02-27 2017-02-27 一种混合频率声学识别模型的训练方法及语音识别方法 Active CN108510979B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201710108893.5A CN108510979B (zh) 2017-02-27 2017-02-27 一种混合频率声学识别模型的训练方法及语音识别方法
US16/487,819 US11120789B2 (en) 2017-02-27 2018-01-26 Training method of hybrid frequency acoustic recognition model, and speech recognition method
PCT/CN2018/074320 WO2018153214A1 (zh) 2017-02-27 2018-01-26 一种混合频率声学识别模型的训练方法及语音识别方法
TW107106653A TW201832223A (zh) 2017-02-27 2018-02-27 一種混合頻率聲學識別模型的訓練方法及語音識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710108893.5A CN108510979B (zh) 2017-02-27 2017-02-27 一种混合频率声学识别模型的训练方法及语音识别方法

Publications (2)

Publication Number Publication Date
CN108510979A CN108510979A (zh) 2018-09-07
CN108510979B true CN108510979B (zh) 2020-12-15

Family

ID=63253118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710108893.5A Active CN108510979B (zh) 2017-02-27 2017-02-27 一种混合频率声学识别模型的训练方法及语音识别方法

Country Status (4)

Country Link
US (1) US11120789B2 (zh)
CN (1) CN108510979B (zh)
TW (1) TW201832223A (zh)
WO (1) WO2018153214A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461447B (zh) * 2018-09-30 2023-08-18 厦门快商通信息技术有限公司 一种基于深度学习的端到端说话人分割方法及系统
CN111462732B (zh) * 2019-01-21 2024-04-09 阿里巴巴集团控股有限公司 语音识别方法和装置
CN110600017B (zh) * 2019-09-12 2022-03-04 腾讯科技(深圳)有限公司 语音处理模型的训练方法、语音识别方法、系统及装置
CN110534098A (zh) * 2019-10-09 2019-12-03 国家电网有限公司客户服务中心 一种年龄增强的语音识别增强方法和装置
CN110556125B (zh) * 2019-10-15 2022-06-10 出门问问信息科技有限公司 基于语音信号的特征提取方法、设备及计算机存储介质
CN111149154B (zh) * 2019-12-24 2021-08-24 广州国音智能科技有限公司 一种声纹识别方法、装置、设备和储存介质
CN111105786B (zh) * 2019-12-26 2022-10-18 思必驰科技股份有限公司 一种多采样率语音识别方法、装置、系统及存储介质
CN111402867B (zh) * 2020-04-21 2021-01-22 北京字节跳动网络技术有限公司 混合采样率声学模型训练方法、装置及电子设备
CN111627418B (zh) * 2020-05-27 2023-01-31 携程计算机技术(上海)有限公司 语音合成模型的训练方法、合成方法、系统、设备和介质
CN111916103B (zh) * 2020-08-11 2024-02-20 南京拓灵智能科技有限公司 一种音频降噪方法和装置
CN113555007B (zh) * 2021-09-23 2021-12-14 中国科学院自动化研究所 语音拼接点检测方法及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1229519A1 (en) * 2001-01-26 2002-08-07 Telefonaktiebolaget L M Ericsson (Publ) Speech analyzing stage and method for analyzing a speech signal
SE522553C2 (sv) 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US7089178B2 (en) * 2002-04-30 2006-08-08 Qualcomm Inc. Multistream network feature processing for a distributed speech recognition system
CN101014997B (zh) * 2004-02-18 2012-04-04 皇家飞利浦电子股份有限公司 用于生成用于自动语音识别器的训练数据的方法和系统
US7983916B2 (en) * 2007-07-03 2011-07-19 General Motors Llc Sampling rate independent speech recognition
CN101320560A (zh) 2008-07-01 2008-12-10 上海大学 语音识别系统应用采样速率转化提高识别率的方法
CN101577116B (zh) * 2009-02-27 2012-07-18 北京中星微电子有限公司 语音信号的MFCC系数提取方法、装置及Mel滤波方法、装置
CN103065629A (zh) * 2012-11-20 2013-04-24 广东工业大学 一种仿人机器人的语音识别系统
CN104036775A (zh) * 2014-04-09 2014-09-10 天津思博科科技发展有限公司 一种视听融合的语音识别系统
US9520127B2 (en) * 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US9368110B1 (en) * 2015-07-07 2016-06-14 Mitsubishi Electric Research Laboratories, Inc. Method for distinguishing components of an acoustic signal
CN105513590A (zh) 2015-11-23 2016-04-20 百度在线网络技术(北京)有限公司 语音识别的方法和装置
CN105702250B (zh) * 2016-01-06 2020-05-19 福建天晴数码有限公司 语音识别方法和装置
CN105590625A (zh) * 2016-03-18 2016-05-18 上海语知义信息技术有限公司 声学模型自适应方法及系统
US10008218B2 (en) * 2016-08-03 2018-06-26 Dolby Laboratories Licensing Corporation Blind bandwidth extension using K-means and a support vector machine
CN106453865A (zh) * 2016-09-27 2017-02-22 努比亚技术有限公司 一种移动终端及语音到文本的转换方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
General hybrid framework for uncertainty-decoding-based automatic speech recognition systems;Ahmed Hussen Abdelaziz等;《Speech Communication》;20160531;第79卷;第1-13页 *
Mel频率下基于LPC的语音信号深度特征提取算法;罗元等;《重庆邮电大学学报(自然科学版)》;20161231(第2期);第174-179页 *
基于LPC和MFCC得分融合的说话人辨认;单燕燕;《计算机技术与发展》;20161231(第1期);第39-42、47页 *

Also Published As

Publication number Publication date
CN108510979A (zh) 2018-09-07
US11120789B2 (en) 2021-09-14
TW201832223A (zh) 2018-09-01
WO2018153214A1 (zh) 2018-08-30
US20200380954A1 (en) 2020-12-03

Similar Documents

Publication Publication Date Title
CN108510979B (zh) 一种混合频率声学识别模型的训练方法及语音识别方法
CN108766419B (zh) 一种基于深度学习的非常态语音区别方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
Schmidt et al. Wind noise reduction using non-negative sparse coding
CN111128209B (zh) 一种基于混合掩蔽学习目标的语音增强方法
CN110120227A (zh) 一种深度堆叠残差网络的语音分离方法
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN106205623A (zh) 一种声音转换方法及装置
CN110827844B (zh) 一种基于bp网络的噪声分类方法
CN109559755A (zh) 一种基于dnn噪声分类的语音增强方法
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
Sharma et al. Study of robust feature extraction techniques for speech recognition system
CN113646833A (zh) 语音对抗样本检测方法、装置、设备及计算机可读存储介质
CN110931045A (zh) 基于卷积神经网络的音频特征生成方法
CN114283822A (zh) 一种基于伽马通频率倒谱系数的多对一语音转换方法
Liu et al. Using bidirectional associative memories for joint spectral envelope modeling in voice conversion
Wu et al. A Characteristic of Speaker's Audio in the Model Space Based on Adaptive Frequency Scaling
CN110544472B (zh) 提升使用cnn网络结构的语音任务的性能的方法
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
Aggarwal et al. Performance evaluation of artificial neural networks for isolated Hindi digit recognition with LPC and MFCC
CN108492821A (zh) 一种减弱语音识别中说话人影响的方法
Ahmad et al. The impact of low-pass filter in speaker identification
Fukuda et al. Effective joint training of denoising feature space transforms and neural network based acoustic models
Öztürk et al. DNN-based speaker-adaptive postfiltering with limited adaptation data for statistical speech synthesis systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1252737

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant