CN108922515A - 语音模型训练方法、语音识别方法、装置、设备及介质 - Google Patents

语音模型训练方法、语音识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN108922515A
CN108922515A CN201810551458.4A CN201810551458A CN108922515A CN 108922515 A CN108922515 A CN 108922515A CN 201810551458 A CN201810551458 A CN 201810551458A CN 108922515 A CN108922515 A CN 108922515A
Authority
CN
China
Prior art keywords
target
model
feature
score
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810551458.4A
Other languages
English (en)
Inventor
涂宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810551458.4A priority Critical patent/CN108922515A/zh
Priority to PCT/CN2018/094348 priority patent/WO2019227574A1/zh
Publication of CN108922515A publication Critical patent/CN108922515A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种语音模型训练方法、语音识别方法、装置、设备及介质。该语音模型训练方法包括:获取训练语音数据,基于所述训练语音数据提取训练语音特征;基于所述训练语音特征获取目标背景模型;获取目标语音数据,基于所述目标语音数据提取目标语音特征;采用所述目标背景模型对所述目标语音特征进行自适应处理,获取目标声纹特征识别模型;将所述目标语音特征输入到深度神经网络中进行训练,获取目标语音特征识别模型;将所述目标声纹特征识别模型和所述目标语音特征识别模型关联存储在数据库中。采用该语音模型训练方法得到的关联存储的语音模型,能够达到精确识别语音的效果。

Description

语音模型训练方法、语音识别方法、装置、设备及介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音模型训练方法、语音识别方法、装置、设备及介质。
背景技术
目前在进行语音识别时,大多数都是根据语音特征进行识别,这些语音特征有的维度太高,包含太多非关键信息;有的维度太低,不能充分体现语音的特点,使得当前语音识别精确度较低,无法对语音进行有效的识别,制约了语音识别的应用。
发明内容
本发明实施例提供一种语音模型训练方法、装置、设备及介质,以解决当前语音识别准确度较低的问题。
一种语音模型训练方法,包括:
获取训练语音数据,基于所述训练语音数据提取训练语音特征;
基于所述训练语音特征获取目标背景模型;
获取目标语音数据,基于所述目标语音数据提取目标语音特征;
采用所述目标背景模型对所述目标语音特征进行自适应处理,获取目标声纹特征识别模型;
将所述目标语音特征输入到深度神经网络中进行训练,获取目标语音特征识别模型;
将所述目标声纹特征识别模型和所述目标语音特征识别模型关联存储在数据库中。
一种语音模型训练装置,包括:
训练语音特征提取模块,用于获取训练语音数据,基于所述训练语音数据提取训练语音特征;
目标背景模型获取模块,用于基于所述训练语音特征获取目标背景模型;
目标语音特征提取模块,用于获取目标语音数据,基于所述目标语音数据提取目标语音特征;
目标声纹特征识别模型获取模块,用于采用所述目标背景模型对所述目标语音特征进行自适应处理,获取目标声纹特征识别模型;
语音特征识别获取模块,用于将所述目标语音特征输入到深度神经网络中进行训练,获取目标语音特征识别模型;
模型存储模块,用于将所述目标声纹特征识别模型和所述目标语音特征识别模型关联存储在数据库中。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述语音模型训练方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述语音模型训练方法的步骤。
本发明实施例提供一种语音识别方法、装置、设备及介质,以解决当前语音识别准确度较低的问题。
一种语音识别方法,包括:
获取待识别语音数据,所述待识别语音数据与用户标识相关联;
基于所述用户标识查询数据库,获取关联存储的目标声纹特征识别模型和目标语音特征识别模型,所述目标声纹特征识别模型和所述目标语音特征识别模型是采用所述语音模型训练方法获取的语音模型;
基于所述待识别语音数据,提取待识别语音特征;
将所述待识别语音特征输入到目标语音特征识别模型,获取第一得分;
将所述待识别语音数据输入到目标声纹特征识别模型中,获取第二得分;
将所述第一得分与预设的第一加权比例相乘,获取第一加权得分,将所述第二得分与预设的第二加权比例相乘,获取第二加权得分,将所述第一加权得分和所述第二加权得分相加,获取目标得分;
若所述目标得分大于预设得分阈值,则确定所述待识别语音数据为所述用户标识对应的目标语音数据。
一种语音识别装置,包括:
待识别语音数据获取模块,用于获取待识别语音数据,所述待识别语音数据与用户标识相关联;
模型获取模块,用于基于所述用户标识查询数据库,获取关联存储的目标声纹特征识别模型和目标语音特征识别模型,所述目标声纹特征识别模型和所述目标语音特征识别模型是采用所述语音模型训练方法获取的模型;
待识别语音特征提取模块,用于基于所述待识别语音数据,提取待识别语音特征;
第一得分获取模块,用于将所述待识别语音特征输入到目标语音特征识别模型,获取第一得分;
第二得分获取模块,用于将所述待识别语音数据输入到目标声纹特征识别模型中,获取第二得分;
目标得分获取模块,用于将所述第一得分与预设的第一加权比例相乘,获取第一加权得分,将所述第二得分与预设的第二加权比例相乘,获取第二加权得分,将所述第一加权得分和所述第二加权得分相加,获取目标得分;
语音确定模块,用于若所述目标得分大于预设得分阈值,则确定所述待识别语音数据为所述用户标识对应的目标语音数据。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述语音识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述处理器执行所述计算机程序时实现所述语音识别方法的步骤。
本发明实施例所提供的语音模型训练方法、装置、设备及介质中,通过提取的训练语音特征获取目标背景模型,并采用该目标背景模型对提取的目标语音特征进行自适应处理,获取声纹特征识别模型,目标背景模型涵盖训练语音数据多个维度的语音特征,能够基于该目标背景模型对数据量较少的目标语音特征进行自适应补充处理,使得在数据量很少的情况下,同样能够得到目标声纹特征识别模型。该目标声纹特征识别模型能够识别采用较低维度表示目标语音特征的声纹特征,从而进行语音识别。然后将目标语音特征输入到深度神经网络中进行训练,获取目标语音特征识别模型,该目标语音特征识别模型深度学习了目标语音特征,能够进行精确度较高的语音识别。最后将目标声纹特征识别模型和目标语音特征识别模型关联存储在数据库中,将两个模型关联存储作为一个总的语音模型,有助于后续利用总的语音模型进行语音识别时,能够提高语音识别的精确率。
本发明实施例所提供的语音识别方法、装置、设备及介质中,根据提取的待识别语音特征输入到语音模型中,得到与目标语音特征识别模型相关的第一得分和目标声纹特征识别模型相关的第二得分,并通过加权运算获取目标得分,由目标得分得出语音识别结果。第一得分从较低维度的声纹特征反映了语音识别结果的概率,由于声纹特征的维度较低,难以避免地丢失了部分关键语音特征,使得第一得分与实际输出存在误差,影响语音识别结果;第二得分从较高维度的目标语音特征反映了语音识别结果的概率,由于第二得分的维度较高,包含了部分干扰语音特征(如噪音等),使得第二得分与实际输出存在误差,影响语音识别结果。采用加权运算获取的目标得分能够针对目标语音特征识别模型和目标声纹特征识别模型各自的不足,克服第一得分和第二得分的误差,得到更精确合理的目标得分,提高语音识别的精确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中语音模型训练方法的一应用环境图;
图2是本发明一实施例中语音模型训练方法的一流程图;
图3是图2中步骤S10的一具体流程图;
图4是图3中步骤S11的一具体流程图;
图5是图2中步骤S20的一具体流程图;
图6是图2中步骤S50的一具体流程图;
图7是本发明一实施例中语音模型训练装置的一示意图;
图8是本发明一实施例中语音识别方法的一流程图;
图9是本发明一实施例中语音识别装置的一示意图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出本发明实施例提供的语音模型训练方法的应用环境。该语音模型训练方法的应用环境包括服务端和客户端,其中,服务端和客户端之间通过网络进行连接。客户端又称为用户端,是指与服务端相对应,为客户提供本地服务的程序,该客户端安装在可与用户进行人机交互的计算机设备上,包括但不限于电脑、智能手机和平板等设备。服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现,服务端包括但不限于文件服务器、数据库服务器、应用程序服务器和WEB服务器。
如图2所示,图2示出本发明实施例中语音模型训练方法的一流程图,本实施例以该语音模型训练方法应用在服务端为例进行说明,该语音区分方法包括如下步骤:
S10:获取训练语音数据,基于训练语音数据提取训练语音特征。
其中,训练语音数据是用于训练目标背景模型的语音数据。该训练语音数据可以是计算机设备上集成的录音模块或与计算机设备相连的录音设备对大量的不带标识的用户进行录音所采集的录音数据,也可以是直接采用网上开源的语音数据训练集作为训练语音数据。
本实施例中,获取训练语音数据,该训练语音数据不能被计算机直接识别,无法直接用于训练目标背景模型。因此,需根据该训练语音数据提取训练语音特征,将训练语音数据转化为计算机能够识别的训练语音特征。该训练语音特征具体可以是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,简称MFCC),该MFCC特征具有39个维度的特征(以向量的形式表示),能够较好地描述训练语音数据。
在一实施例中,如图3所示,步骤S10中,基于训练语音数据提取训练语音特征,包括如下步骤:
S11:对训练语音数据进行预处理。
本实施例中,在提取训练语音特征时,对训练语音数据进行预处理。预处理训练语音数据的过程能够更好地提取训练语音数据的训练语音特征,使得提取出的训练语音特征更能代表该训练语音数据。
在一实施例中,如图4所示,步骤S11中,对训练语音数据进行预处理,包括如下步骤:
S111:对训练语音数据作预加重处理。
本实施例中,预加重处理的计算公式为s'n=sn-a*sn-1,其中,sn为时域上的信号幅度,sn-1为与sn相对应的上一时刻的信号幅度,s'n为预加重后时域上的信号幅度,a为预加重系数,a的取值范围为0.9<a<1.0。其中,预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。随着信号速率的增加,信号在传输过程中受损很大,为了在接收终端能得到比较好的信号波形,就需要对受损的信号进行补偿。预加重技术的思想就是在传输线的始端增强信号的高频成分,以补偿高频分量在传输过程中的过大衰减。预加重对噪声并没有影响,因此能够有效提高输出信噪比。服务端通过对训练语音数据进行预加重处理,能够消除说话人发声过程中声带和嘴唇等造成的干扰,可以有效补偿训练语音数据被压抑的高频部分,并且能够突显训练语音数据高频的共振峰,加强训练语音数据的信号幅度,有助于提取训练语音特征。
S112:对预加重后的训练语音数据进行分帧处理。
本实施例中,对预加重后的训练语音数据进行分帧处理。分帧是指将整段的语音信号切分成若干段的语音处理技术,每帧的大小在10-30ms的范围内,以大概1/2帧长作为帧移。帧移是指相邻两帧间的重叠区域,能够避免相邻两帧变化过大的问题。对训练语音数据进行分帧处理能够将训练语音数据分成若干段的语音数据,可以细分训练语音数据,便于训练语音特征的提取。
S113:对分帧处理后的训练语音数据进行加窗处理。
本实施例中,对分帧处理后的训练语音数据进行加窗处理。在对训练语音数据进行分帧处理后,每一帧的起始段和末尾端都会出现不连续的地方,所以分帧越多与原始信号的误差也就越大。采用加窗能够解决这个问题,可以使分帧处理后的训练语音数据变得连续,并且使得每一帧能够表现出周期函数的特征。加窗处理具体是指采用窗函数对训练语音数据进行处理,窗函数可以选择汉明窗,则该加窗的公式为N为汉明窗窗长,n为时间,sn为时域上的信号幅度,s'n为加窗后时域上的信号幅度。服务端通过对训练语音数据进行加窗处理,能够使得分帧处理后的训练语音数据在时域上的信号变得连续,有助于提取训练语音数据的训练语音特征。
步骤S111-S113中,对训练语音数据进行预加重、分帧和加窗的预处理,有助于从训练语音数据中提取训练语音特征,使得提取出的训练语音特征更能代表该训练语音数据。
S12:对预处理后的训练语音数据作快速傅里叶变换,获取训练语音数据的频谱,并根据频谱获取训练语音数据的功率谱。
其中,快速傅里叶变换(Fast Fourier Transformation,简称FFT),指利用计算机计算离散傅里叶变换的高效、快速计算方法的统称。采用这种计算方法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少,特别是被变换的抽样点数越多,FFT算法计算量的节省就越显著。
本实施例中,对预处理后的训练语音数据作快速傅里叶变换具体包括如下过程:首先,采用计算频谱的公式对预处理后的训练语音数据进行计算,获取训练语音数据的频谱。该计算频谱的公式为1≤k≤N,N为帧的大小,s(k)为频域上的信号幅度,s(n)为时域上的信号幅度,n为时间,i为复数单位。然后,采用计算功率谱的公式对获取到的训练语音数据的频谱进行计算,求得训练语音数据的功率谱。该计算功率谱的公式为1≤k≤N,N为帧的大小,s(k)为频域上的信号幅度。通过将训练语音数据从时域上的信号幅度转换为频域上的信号幅度,再根据该频域上的信号幅度获取训练语音数据的功率谱,为从训练语音数据的功率谱中提取训练语音特征提供重要的技术前提。
S13:采用梅尔刻度滤波器组处理训练语音数据的功率谱,获取训练语音数据的梅尔功率谱。
其中,采用梅尔刻度滤波器组处理训练语音数据的功率谱是对功率谱进行的梅尔频率分析,而梅尔频率分析是基于人类听觉感知的分析。观测发现人耳就像一个滤波器组一样,只关注某些特定的频率分量(即人的听觉对频率是有选择性的),也就是说人耳只让某些频率的信号通过,而直接无视不想感知的某些频率信号。具体地,梅尔刻度滤波器组包括多个滤波器,这些滤波器在频率坐标轴上却不是统一分布的,在低频区域有很多的滤波器,分布比较密集,但在高频区域,滤波器的数目就变得比较少,分布很稀疏。可以理解地,梅尔刻度滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在。通过采用梅尔频率刻度滤波器组对频域信号进行切分,使得最后每个频率段对应一个能量值,若滤波器的个数为22,那么将得到训练语音数据的梅尔功率谱相对应的22个能量值。通过对训练语音数据的功率谱进行梅尔频率分析,使得获取到的梅尔功率谱保留着与人耳特性密切相关的频率部分,该频率部分能够很好地反映出训练语音数据的特征。
S14:在梅尔功率谱上进行倒谱分析,获取训练语音数据的梅尔频率倒谱系数,并将获取到的梅尔频率倒谱系数确定为训练语音特征。
其中,倒谱(cepstrum)是指一种信号的傅里叶变换谱经对数运算后再进行的傅里叶反变换,由于一般傅里叶谱是复数谱,因而倒谱又称复倒谱。通过在梅尔功率谱上倒谱分析,可以将原本特征维数过高,难以直接使用的训练语音数据的梅尔功率谱中包含的特征,转换成能够在模型训练过程中直接使用的训练语音特征,该训练语音特征即梅尔频率倒谱系数。
步骤S11-S14中,基于训练语音数据特征提取训练语音特征,该训练语音特征具体可以是梅尔频率倒谱系数,能够很好地反映训练语音数据。
S20:基于训练语音特征获取目标背景模型。
其中,通用背景模型(Universal Background Model,简称UBM)是一个表示大量非特定说话人语音特征分布的高斯混合模型(Gaussian Mixture Model,简称GMM),由于UBM的训练通常采用大量的与特定说话人无关、信道无关的语音数据,因此通常可以认为UBM是与特定说话人无关的模型,它只是拟合人的语音特征分布,而并不代表某个具体的说话人。高斯混合模型是用高斯概率密度函数(即正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数形成的模型。目标背景模型是通用背景模型经过特征降维后得到的模型。
本实施例中,在获取训练语音特征(如MFCC特征)后,基于训练语音特征训练通用背景模型即可获得目标背景模型。该目标背景模型相比于通用背景模型,以较低的特征维度便良好展现了训练语音数据的语音特征,并且在进行与目标背景模型相关的计算(如采用目标背景模型对目标说话人语音数据进行自适应处理)时会大大减少计算量,提高效率。
在一实施例中,如图5所示,步骤S20中,基于训练语音特征获取目标背景模型,包括如下步骤:
S21:采用训练语音特征进行通用背景模型训练,获取通用背景模型。
本实施例中,采用训练语音特征训练通用背景模型。通用背景模型的表达式为高斯概率密度函数:其中,x表示训练语音特征,K表示组成通用背景模型的高斯分布的个数,Ck表示第k个混合高斯的系数,N(x;mk,Rk)表示均值mk是D维矢量,D×D维对角协方差矩阵Rk的高斯分布。由通用背景模型的表达式可知,训练通用背景模型实际上就是求出该表达式中的参数(Ck、mk和Rk)。该通用背景模型的表达式为高斯概率密度函数,因此可以采用最大期望算法(Expectation Maximization Algorithm,简称EM算法)求出该表达式中的参数(Ck、mk和Rk)。EM算法是一种迭代算法,用于对含有隐变量的概率参数模型进行最大似然估计或最大后验概率估计。在统计学里,隐变量是指不可观测的随机变量,但可以通过可观测变量的样本对隐变量作出推断,在训练通用背景模型的过程中由于训练过程是不可观测的(或者说隐藏的),因此通用背景模型中的参数实际上是隐变量。采用EM算法可以基于最大似然估计或最大后验概率估计求出通用背景模型中的参数,求得参数后即得到通用背景模型。EM算法是计算含有隐变量的概率密度函数的常用数学方法,在此不对该数学方法进行赘述。通过获取该通用背景模型,为后续在目标说话人语音数据较少或不足的情况下能够基于该通用背景模型,获取到相应的目标声纹特征识别模型提供重要的实现基础。
S22:采用奇异值分解对通用背景模型进行特征降维处理,获取目标背景模型。
其中,由通用背景模型的表达式:x表示训练语音特征,K表示组成通用背景模型的高斯分布的个数,Ck表示第k个混合高斯的系数,N(x;mk,Rk)表示均值mk是D维矢量,D×D维对角协方差矩阵Rk的高斯分布,可知,通用背景模型采用高斯概率密度函数表示,该通用背景模型参数中的协方差矩阵Rk采用矢量(矩阵)表示,可以采用奇异值分解的方式对通用背景模型进行特征降维处理,去除通用背景模型中的噪音数据。奇异值分解是指线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵酉对角化的推广,在信号处理、统计学等领域有重要应用。
本实施例中,采用奇异值分解对通用背景模型进行特征降维。具体地,将通用背景模型中参数协方差矩阵Rk相对应的矩阵进行奇异值分解,用公式表示为:mk=σ1u1v1 T2u2v2 T+...+σnunvn T,其中,等式右边每一项前的系数σ为奇异值,σ是对角矩阵,u为是一个方阵,u包含的向量是正交的,称为左奇异矩阵,v为是一个方阵,v包含的向量是正交的,称为右奇异矩阵,T表示矩阵转置的矩阵运算。该等式中uvT都是秩为1的矩阵,并且奇异值满足σ1≥σ2≥σn>0。可以理解地,奇异值越大表示该奇异值对应的分项σuvT代表在Rk中越重要的特征,奇异值越小的特征认为是越不重要的特征。在训练通用背景模型中,难免也会有噪音数据的影响,导致训练出来的通用背景模型不仅特征维度高,而且还不够客观精确,采用奇异值分解的方式,可以对通用背景模型参数中的矩阵进行特征降维处理,把原本特征维度较高的通用背景模型降维到特征较低的目标背景模型,去除掉奇异值较小的分项。需要说明的是,该特征降维处理不但没有减弱特征表达通用背景模型的能力,实际上反而是增强了,因为在进行奇异值分解时去除的部分特征维度,该特征维度中都是σ比较小的特征,这些σ比较小的特征实际上就是训练通用背景模型时的噪音部分。因此,采用奇异值分解对通用背景模型进行特征降维处理,能够去除通用背景模型中的噪音部分代表的特征维度,获取目标背景模型(该目标背景模型是优化后的通用背景模型,可以替代原本的通用背景模型对目标说话人语音数据进行自适应处理,并能达到更好的效果)。该目标背景模型以较低特征维度良好展现了训练语音数据的语音特征,并且在进行与目标背景模型相关的计算(如采用目标背景模型对目标说话人语音数据进行自适应处理)时会大大减少计算量,提高效率。
步骤S21-S22中,通过获取通用背景模型,为后续在目标说话人语音数据较少或不足的情况下能够基于该通用背景模型,获取到相应的目标声纹特征识别模型提供重要的实现基础,并且对通用背景模型采用奇异值分解的特征降维方法后获取目标背景模型,该目标背景模型以较低特征维度良好展现了训练语音数据的语音特征,在进行与目标背景模型相关的计算时能够提高效率。
S30:获取目标语音数据,基于目标语音数据提取目标语音特征。
其中,目标语音数据是指与特定的目标用户相关联的语音数据。该目标用户与用户标识相关联,可通过用户标识唯一识别对应的用户。可以理解地,在需要训练与某些用户相关的目标声纹特征识别模型或目标语音特征识别模型时,这些用户就是目标用户。用户标识是用于唯一识别用户的标识。
本实施例中,获取目标语音数据,该目标语音数据不能被计算机直接识别,无法用于模型训练。因此,需根据该目标语音数据提取目标语音特征,将目标语音数据转化为计算机能够识别的目标语音特征。该目标语音特征具体可以是梅尔频率倒谱系数,具体提取过程参见S11-S14,在此不在赘述。
S40:采用目标背景模型对目标语音特征进行自适应处理,获取目标声纹特征识别模型。
其中,目标声纹特征识别模型是指与目标用户相关的声纹特征识别模型。
本实施例中,目标语音数据在某些场景下是比较难获取的(如在银行等办理业务的场景下),因此造成基于目标语音数据提供的目标语音特征的数据样本比较少。采用数据样本少的目标语音特征直接训练获取的目标声纹特征识别模型在后续计算目标声纹特征时的效果非常差,无法体现出目标语音特征的语音(声纹)特征。因此,本实施例需采用目标背景模型对目标语音特征进行自适应处理,获取相对应的目标声纹特征识别模型,以使得获取到的目标声纹特征识别模型的准确性更高。目标背景模型是一个表示大量非特定语音特征分布的高斯混合模型,将目标背景模型中大量非特定语音特征自适应地添加到目标语音特征中,相当与把目标背景模型中的一部分非特定语音特征作为目标语音特征一同训练,可以很好地“补充”目标语音特征,以训练目标声纹特征识别模型。
其中,自适应处理是指将目标背景模型中的与目标语音特征相近的一部分非特定语音特征作为目标语音特征进行处理的方法,该自适应处理具体可以采用最大后验估计算法(Maximum A Posteriori,简称MAP)实现。最大后验估计是根据经验数据获得对难以观察的量的估计,估计过程中,需利用先验概率和贝叶斯定理得到后验概率,目标函数(即表示目标声纹特征识别模型的表达式)为后验概率的似然函数,求得该似然函数最大时的参数值(可采用梯度下降算法求出似得然函数的最大值),也就实现将目标背景模型中的与目标语音特征相近的一部分非特定语音特征作为目标语音特征一同训练的效果,根据求得的似然函数最大时的参数值获取到与目标语音特征相对应的目标声纹特征识别模型。
S50:将目标语音特征输入到深度神经网络中进行训练,获取目标语音特征识别模型。
其中,目标语音特征识别模型是指与目标用户相关的语音特征识别模型。深度神经网络(Deep Neural Networks,简称DNN)模型中包括由神经元组成的输入层、隐藏层和输出层。该深度神经网络模型中包括各层之间各个神经元连接的权值和偏置,这些权值和偏置决定了DNN模型的性质及识别效果。
本实施例中,将目标语音特征输入到深度神经网络模型中进行训练,更新该深度神经网络模型的网络参数(即权值和偏置),获取目标语音特征识别模型。目标语音特征包括了目标语音数据的关键语音特征。本实施例中目标语音特征通过在DNN模型中训练,进一步地提取目标语音数据的特征,在目标语音特征的基础上进行深层特征的提取。该深层特征通过目标语音特征识别模型中的网络参数表达,可以根据该提取的深层特征,在后续采用该目标语音识别模型识别时达到较为精确的识别效果。
在一实施例中,如图6所示,步骤S50中,将目标语音特征输入到深度神经网络中进行训练,获取目标语音特征识别模型,包括如下步骤:
S51:初始化深度神经网络模型。
本实施例中,初始化DNN模型,该初始化操作即设置DNN模型中权值和偏置的初始值,该初始值可以设置为较小的值,如设置在区间[-0.3-0.3]之间。合理的初始化DNN模型可以使DNN模型在初期有较灵活的调整能力,可以在DNN模型训练过程中对模型进行有效的调整,使得训练出的DNN模型识别效果较好。
S52:将目标语音特征分组输入到深度神经网络模型中,根据前向传播算法获取深度神经网络模型的输出值,目标语音特征的第i组样本在深度神经网络模型的当前层的输出值用公式表示为ai,l=σ(Wlai,l-1+bl),其中,a为输出值,i表示输入的目标语音特征的第i组样本,l为深度神经网络模型的当前层,σ为激活函数,W为权值,l-1为深度神经网络模型的当前层的上一层,b为偏置。
本实施例中,先将目标语音特征分成预设组数的样本,再分组输入到DNN模型中进行训练,即把分组后的样本分别输入到DNN模型进行训练。DNN的前向传播算法是根据DNN模型中连接各个神经元的权值W,偏置b和输入值(向量xi)在DNN模型中进行的一系列线性运算和激活运算,从输入层开始,一层层运算,一直运算到输出层,得到输出层的输出值为止。根据前向传播算法可以计算DNN模型中网络每一层的输出值,直至算到输出层的输出值(即DNN模型的输出值)。
具体地,设DNN模型的总层数为L,DNN模型中连接各个神经元的权值W,偏置b和输入值向量xi,输出层的输出值ai,L(i表示输入的目标语音特征的第i组样本),则a1=xi(第一层的输出为在输入层输入的目标语音特征,即输入值向量xi),根据前向传播算法可知输出ai,l=σ(Wlai,l-1+bl),其中,l表示深度神经网络模型的当前层,σ为激活函数,这里具体采用的激活函数可以是sigmoid或者tanh激活函数。根据上述计算ai,l的公式按层数逐层进行前向传播,获取DNN模型中网络最终的输出值ai,L(即深度神经网络模型的输出值),有了输出值ai,L即可以根据输出值ai,L对DNN模型中的网络参数(连接各个神经元的权值W,偏置b)进行调整,以获取语音识别能力较准确的目标语音特征识别模型。
S53:基于深度神经网络模型的输出值进行误差反传,更新深度神经网络模型各层的权值和偏置,获取目标语音特征识别模型,其中,更新权值的计算公式为l为深度神经网络模型的当前层,W为权值,α为迭代步长,m为输入的目标语音特征的样本总数,δi,l为当前层的灵敏度;zi,l=Wlai,l-1+bl,ai,l-1为上一层的输出,T表示矩阵转置运算,表示两个矩阵对应元素相乘的运算(Hadamard积),更新偏置的计算公式为
本实施例中,在根据前向传播算法获取DNN模型的输出值ai,L后,可以根据ai,L与预先设置好标签值(该标签值是根据实际情况设置的用于与输出值进行比较,获取误差的值)的目标语音特征,计算目标语音特征在该DNN模型中训练时产生的误差,并根据该误差构建合适的误差函数(如采用均方差来度量误差的误差函数),根据误差函数进行误差反传,以调整更新DNN模型各层的权值W和偏置b。
更新DNN模型各层的权值W和偏置b采用的是后向传播算法,根据后向传播算法求误差函数的极小值,以优化更新DNN模型各层的权值W和偏置b,获取目标语音特征识别模型。具体地,设置模型训练的迭代步长为α,最大迭代次数MAX与停止迭代阈值∈。在后向传播算法中,灵敏度δi,l是每次更新参数都会出现的公共因子,因此可以借助灵敏度δi,l计算误差,以更新DNN模型中的网络参数。已知a1=xi(第一层的输出为在输入层输入的目标语音特征,即输入值向量xi),则先求出输出层L的灵敏度δi,Lzi,l=Wlai ,l-1+bl,其中i表示输入的目标语音特征的第i组样本,y为标签值(即用来与输出值ai,L相比较的值),表示两个矩阵对应元素相乘的运算(Hadamard积)。再根据δi,L求出深度神经网络模型的第l层的灵敏度δi,l,根据后向传播算法可以计算得出深度神经网络模型的第l层的灵敏度得到深度神经网络模型的第l层的灵敏度δi,l后,即可更新DNN模型各层的权值W和偏置b,更新后的权值为更新后的偏置为其中,α为模型训练的迭代步长,m为输入的目标语音特征的样本总数,T表示矩阵转置运算。当所有W和b的变化值都小于停止迭代阈值∈时,即可停止训练;或者,训练达到最大迭代次数MAX时,停止训练。通过目标语音特征在DNN模型中的输出值和预先设置好的标签值之间产生的误差,能够实现DNN模型各层的权值W和偏置b的更新,使得获取的目标语音特征识别模型能够进行语音识别。
步骤S51-S53采用目标语音特征对DNN模型进行训练,使得训练获取的目标语音特征识别模型可以对语音进行识别。具体地,目标语音特征识别模型在模型训练过程中进一步提取了目标语音特征的深层特征,模型中训练好的权值和偏置体现了该基于目标语音特征的深层特征。因此,目标语音特征识别模型能够基于训练学习到的深层特征进行识别,实现较为精确的语音识别。
S60:将目标声纹特征识别模型和目标语音特征识别模型关联存储在数据库中。
本实施例中,在获取目标声纹特征识别模型和目标语音特征识别模型后,将该两个模型关联存储在数据库中。具体地,通过目标用户的用户标识进行模型间的关联存储,把相同的用户标识对应的目标声纹特征识别模型和目标语音特征识别模型以文件的形式存储到数据库中。通过将该两个模型进行关联存储,可以在语音的识别阶段调用用户标识对应的目标声纹特征识别模型和目标语音特征识别模型,以结合该两个模型进行语音识别,克服各个模型单独进行识别是存在的误差,进一步地提高语音识别的准确率。
本实施例所提供的语音模型训练方法中,通过提取的训练语音特征获取目标背景模型,该目标背景模型由通用背景模型采用奇异值分解的特征降维方法得到,该目标背景模型以较低特征维度良好展现了训练语音数据的语音特征,在进行与目标背景模型相关的计算时能够提高效率。采用该目标背景模型对提取的目标语音特征进行自适应处理,获取声纹特征识别模型。目标背景模型涵盖训练语音数据多个维度的语音特征,可以通过该目标背景模型对数据量较少的目标语音特征进行自适应补充处理,使得在数据量很少的情况下,同样能够得到目标声纹特征识别模型。该目标声纹特征识别模型能够识别采用较低维度表示目标语音特征的声纹特征,从而进行语音识别。然后将目标语音特征输入到深度神经网络中进行训练,获取目标语音特征识别模型,该目标语音特征识别模型深度学习了目标语音特征,能够进行准确率较高的语音识别。最后将目标声纹特征识别模型和目标语音特征识别模型关联存储在数据库中,将两个模型关联存储作为一个总的语音模型,该语音模型有机结合了目标声纹特征识别模型和目标语音特征识别模型,采用由该总的语音模型进行语音识别时,能够语音识别的精确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图7示出与实施例中语音模型训练方法一一对应的语音模型训练装置的示意图。如图7所示,该语音模型训练装置包括训练语音特征提取模块10、目标背景模型获取模块20、目标语音特征提取模块30、目标声纹特征识别模型获取模块40、语音特征识别获取模块50和模型存储模块60。其中,训练语音特征提取模块10、目标背景模型获取模块20、目标语音特征提取模块30、目标声纹特征识别模型获取模块40、语音特征识别获取模块50和模型存储模块60的实现功能与实施例中语音模型训练方法对应的步骤一一对应,为避免赘述,本实施例不一一详述。
训练语音特征提取模块10,用于获取训练语音数据,基于训练语音数据提取训练语音特征;
目标背景模型获取模块20,用于基于训练语音特征获取目标背景模型;
目标语音特征提取模块30,用于获取目标语音数据,基于目标语音数据提取目标语音特征;
目标声纹特征识别模型获取模块40,用于采用目标背景模型对目标语音特征进行自适应处理,获取目标声纹特征识别模型;
语音特征识别获取模块50,用于将目标语音特征输入到深度神经网络中进行训练,获取目标语音特征识别模型;
模型存储模块60,用于将目标声纹特征识别模型和目标语音特征识别模型关联存储在数据库中。
优选地,训练语音特征提取模块10包括预处理单元11、功率谱获取单元12、梅尔功率谱获取单元13和训练语音特征确定单元14。
预处理单元11,用于对训练语音数据进行预处理。
功率谱获取单元12,用于对预处理后的训练语音数据作快速傅里叶变换,获取训练语音数据的频谱,并根据频谱获取训练语音数据的功率谱。
梅尔功率谱获取单元13,用于采用梅尔刻度滤波器组处理训练语音数据的功率谱,获取训练语音数据的梅尔功率谱。
训练语音特征确定单元14,用于在梅尔功率谱上进行倒谱分析,获取训练语音数据的梅尔频率倒谱系数,并将获取到的梅尔频率倒谱系数确定为训练语音特征。
优选地,预处理单元11包括预加重子单元111、分帧子单元112和加窗子单元113。
预加重子单元111,用于对训练语音数据作预加重处理。
分帧子单元112,用于对预加重后的训练语音数据进行分帧处理。
加窗子单元113,用于对分帧处理后的训练语音数据进行加窗处理。
优选地,目标背景模型获取模块20包括通用背景模型获取单元21和目标背景模型获取单元22。
通用背景模型获取单元21,用于采用训练语音特征进行通用背景模型训练,获取通用背景模型。
目标背景模型获取单元22,用于采用奇异值分解对通用背景模型进行特征降维处理,获取目标背景模型。
优选地,语音特征识别获取模块50包括初始化单元51、输出值获取单元52和目标语音特征识别模型获取单元53。
初始化单元51,用于初始化深度神经网络模型。
输出值获取单元52,用于将目标语音特征分组输入到深度神经网络模型中,根据前向传播算法获取深度神经网络模型的输出值,目标语音特征的第i组样本在深度神经网络模型的当前层的输出值用公式表示为ai,l=σ(Wlai,l-1+bl),其中,a为输出值,i表示输入的目标语音特征的第i组样本,l为深度神经网络模型的当前层,σ为激活函数,W为权值,l-1为深度神经网络模型的当前层的上一层,b为偏置。
目标语音特征识别模型获取单元53,用于基于深度神经网络模型的输出值进行误差反传,更新深度神经网络模型各层的权值和偏置,获取目标语音特征识别模型,其中,更新权值的计算公式为l为深度神经网络模型的当前层,W为权值,α为迭代步长,m为输入的目标语音特征的样本总数,δi,l为当前层的灵敏度;zi,l=Wlai,l-1+bl,ai,l-1为上一层的输出,T表示矩阵转置运算,表示两个矩阵对应元素相乘的运算(Hadamard积),更新偏置的计算公式为
图8示出在一实施例中语音识别方法的一流程图。该语音识别方法可应用在银行、证券、投资和保险等金融机构或者需进行语音识别的其他机构的计算机设备上,以达到人工智能的语音识别目的。其中,该计算机设备是可与用户进行人机交互的设备,包括但不限于电脑、智能手机和平板等设备。如图8所示,该语音识别方法包括如下步骤:
S71:获取待识别语音数据,待识别语音数据与用户标识相关联。
其中,待识别语音数据是指待进行识别的用户的语音数据,用户标识是用于唯一识别用户的标识,该用户标识可以是身份证号或电话号码等能够唯一识别用户的标识。
本实施例中,获取待识别语音数据,具体可以是通过计算机设备内置的录音模块或者外部的录音设备采集,该待识别语音数据与用户标识相关联,可以根据与用户标识相关联的待识别语音数据判断是不是用户本人发出的语音,实现语音识别。
S72:基于用户标识查询数据库,获取关联存储的目标声纹特征识别模型和目标语音特征识别模型,目标声纹特征识别模型和目标语音特征识别模型是上述实施例提供的语音模型训练方法获取的模型。
本实施例中,根据用户标识查询数据库,在数据库中获取与用户标识相关联的目标声纹特征识别模型和目标语音特征识别模型。关联存储的目标声纹特征识别模型和目标语音特征识别模型在数据库中以文件的形式存储,在对数据库查询后调用与用户标识相对应的模型的文件,以使计算机设备可根据文件存储的目标声纹特征识别模型和目标语音特征识别模型进行语音识别。
S73:基于待识别语音数据,提取待识别语音特征。
本实施例中,获取待识别语音数据,该待识别语音数据不能被计算机直接识别,无法进行语音识别。因此,需根据该待识别语音数据提取相应的待识别语音特征,将待识别语音数据转化为计算机能够识别的待识别语音特征。该待识别语音特征具体可以是梅尔频率倒谱系数,具体提取过程参S11-S14,在此不在赘述。
S74:将待识别语音特征输入到目标语音特征识别模型,获取第一得分。
本实施例中,采用目标语音特征识别模型对待识别语音特征进行识别,将识别语音特征输入到目标语音特征识别模型中,经过该模型内部的网络参数(权值和偏置)对待识别语音特征进行计算,获取第一得分。
S75:将待识别语音数据输入到目标声纹特征识别模型中,获取第二得分。
本实施例中,将待识别语音数据输入到目标声纹特征识别模型中进行识别,具体地,先采用目标声纹特征模型提取待识别语音数据中的待识别声纹特征,可以通过以下公式计算获取待识别声纹特征:M(i)=M0+Tw(i),其中M0是由目标背景模型参数中的均值(mk)连接组成的A×K维超矢量(目标背景模型是采用上述实施例提供的语音模型训练方法获取的目标背景模型,目标背景模型中的均值是降维过的,降维后均值表示为A维矢量),M(i)是由目标声纹特征识别模型参数中的均值(mk')连接组成的A×K维超矢量,T是(A×K)×F维的描述总体变化的矩阵,表示待识别声纹特征的向量空间,w(i)表示一个F维矢量符合标准的正太分布,该w(i)即为待识别声纹特征。由于向量空间T的参数含有隐变量,无法直接得到,但是能够根据已知的M(i)和M0,采用EM算法,根据M(i)和M0迭代计算求出空间T,再根据M(i)=M0+Tw(i)的关系式获取待识别声纹特征。获取待识别声纹特征后,根据该待识别声纹特征与目标语音特征对应的目标声纹特征进行相似度的比较(如余弦相似度),若相似度越高,则认为该待识别声纹特征与目标声纹特征越接近,也就代表是用户本人语音的可能性越大。则同样根据上述采用待识别语音数据求得待识别声纹特征的方法,可以计算得到训练目标声纹特征识别模型过程中采用的目标语音特征对应的目标声纹特征,通过计算待识别声纹特征与目标声纹特征的余弦相似度,将余弦相似度作为第二得分。
S76:将第一得分与预设的第一加权比例相乘,获取第一加权得分,将第二得分与预设的第二加权比例相乘,获取第二加权得分,将第一加权得分和第二加权得分相加,获取目标得分。
本实施例中,根据目标声纹特征识别模型和目标语音特征识别模型各自存在的不足进行针对性的克服。可以理解地,在采用目标语音特征识别模型识别并获取第一得分时,由于待识别语音特征维度较高,包含了部分干扰语音特征(如噪音等),使得在单独采用该模型得到的第一得分与实际结果存在一定的误差;在采用目标声纹特征识别模型识别并获取第二得分时,由于待识别声纹特征的维度较低,难以避免地丢失了部分能够代表待识别语音数据的特征,使得在单独采用该模型得到的第二得分与实际结果存在一定的误差。由于第一得分和第二得分直接的误差是由维度较高和维度较低两个相反的原因造成的误差,因此针对第一得分的误差和第二得分的误差造成的原因,将第一得分与预设的第一加权比例相乘,获取第一加权得分,将第二得分与预设的第二加权比例相乘,获取第二加权得分,将第一加权得分和第二加权得分相加,获取目标得分,该目标得分即最终输出的得分。采用该加权的处理方式恰好可以克服第一得分的误差和第二得分的误差,可以认为两个误差之间相互抵消掉,使得目标得分更接近实际结果,能够提高语音识别的准确率。
S77:若目标得分大于预设得分阈值,则确定待识别语音数据为用户标识对应的目标语音数据。
本实施例中,判断目标得分是否大于预设得分阈值,若目标得分大于预设得分阈值,则认为待识别语音数据为用户标识对应的目标语音数据,即确定为用户本人的语音数据;若目标得分不大于预设得分阈值,则不认为该待识别语音数据为用户本人的语音数据。
其中,预设得分阈值是指预先设置的用于衡量待识别语音数据是否为用户标识对应的目标语音数据的阈值,该阈值以分数的形式表示。例如,将预设得分阈值设置为0.95,则目标得分大于0.95的待识别语音数据为与用户标识对应的目标语音数据,目标得分不大于0.95的待识别语音数据不认为用户标识对应的用户本人的语音数据。
本实施例所提供的语音识别方法中,根据提取的待识别语音特征输入到语音模型中,得到与目标语音特征识别模型相关的第一得分和目标声纹特征识别模型相关的第二得分,并通过加权运算获取目标得分,由目标得分得出语音识别结果。第一得分从较低维度的声纹特征反映了语音识别结果的概率,由于声纹特征的维度较低,难以避免地丢失了部分关键语音特征,使得第一得分与实际输出存在误差,影响语音识别结果;第二得分从较高维度的目标语音特征反映了语音识别结果的概率,由于第二得分的维度较高,包含了部分干扰语音特征(如噪音等),使得第二得分与实际输出存在误差,影响语音识别结果。采用加权运算获取的目标得分能够针对目标语音特征识别模型和目标声纹特征识别模型各自的不足,克服第一得分和第二得分的误差,可以认为将两个误差相互抵消掉,使得目标得分更接近实际结果,提高语音识别的精确率。
图9示出与实施例中语音识别方法一一对应的语音识别装置的示意图。如图9所示,该语音识别装置包括待识别语音数据获取模块70、模型获取模块80、待识别语音特征提取模块90和第一得分获取模块100、第二得分获取模块110、目标得分获取模块120和语音确定模块130。其中,待识别语音数据获取模块70、模型获取模块80、待识别语音特征提取模块90和第一得分获取模块100、第二得分获取模块110、目标得分获取模块120和语音确定模块130的实现功能与实施例中语音识别方法对应的步骤一一对应,为避免赘述,本实施例不一一详述。
待识别语音数据获取模块70,用于获取待识别语音数据,待识别语音数据与用户标识相关联。
模型获取模块80,用于基于用户标识查询数据库,获取关联存储的目标声纹特征识别模型和目标语音特征识别模型,目标声纹特征识别模型和目标语音特征识别模型是采用上述实施例提供的语音模型训练方法获取的模型。
待识别语音特征提取模块90,用于基于待识别语音数据,提取待识别语音特征。
第一得分获取模块100,用于将待识别语音特征输入到目标语音特征识别模型,获取第一得分。
第二得分获取模块110,用于将待识别语音数据输入到目标声纹特征识别模型中,获取第二得分。
目标得分获取模块120,用于将第一得分与预设的第一加权比例相乘,获取第一加权得分,将第二得分与预设的第二加权比例相乘,获取第二加权得分,将第一加权得分和第二加权得分相加,获取目标得分。
语音确定模块130,用于若目标得分大于预设得分阈值,则确定待识别语音数据为用户标识对应的目标语音数据。
本实施例提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现实施例中语音模型训练方法,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现实施例中语音模型训练装置的各模块/单元的功能,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现实施例中语音识别方法中各步骤的功能,为避免重复,此处不一一赘述。或者,该计算机程序被处理器执行时实现实施例中语音识别装置中各模块/单元的功能,为避免重复,此处不一一赘述。
图10是本发明一实施例提供的计算机设备的示意图。如图10所示,该实施例的计算机设备140包括:处理器141、存储器142以及存储在存储器142中并可在处理器141上运行的计算机程序143,该计算机程序143被处理器141执行时实现实施例中的语音模型训练方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器141执行时实现实施例中语音模型训练装置中各模型/单元的功能,为避免重复,此处不一一赘述。或者,该计算机程序被处理器141执行时实现实施例中语音识别方法中各步骤的功能,为避免重复,此处不一一赘述。或者,该计算机程序被处理器141执行时实现实施例中语音识别装置中各模块/单元的功能。为避免重复,此处不一一赘述。
计算机设备140可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,处理器141、存储器142。本领域技术人员可以理解,图10仅仅是计算机设备140的示例,并不构成对计算机设备140的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器141可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器142可以是计算机设备140的内部存储单元,例如计算机设备140的硬盘或内存。存储器142也可以是计算机设备140的外部存储设备,例如计算机设备140上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器142还可以既包括计算机设备140的内部存储单元也包括外部存储设备。存储器142用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器142还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音模型训练方法,其特征在于,包括:
获取训练语音数据,基于所述训练语音数据提取训练语音特征;
基于所述训练语音特征获取目标背景模型;
获取目标语音数据,基于所述目标语音数据提取目标语音特征;
采用所述目标背景模型对所述目标语音特征进行自适应处理,获取目标声纹特征识别模型;
将所述目标语音特征输入到深度神经网络中进行训练,获取目标语音特征识别模型;
将所述目标声纹特征识别模型和所述目标语音特征识别模型关联存储在数据库中。
2.根据权利要求1所述的语音模型训练方法,其特征在于,所述基于所述训练语音数据提取训练语音特征,包括:
对所述训练语音数据进行预处理;
对预处理后的训练语音数据作快速傅里叶变换,获取训练语音数据的频谱,并根据所述频谱获取训练语音数据的功率谱;
采用梅尔刻度滤波器组处理所述训练语音数据的功率谱,获取训练语音数据的梅尔功率谱;
在所述梅尔功率谱上进行倒谱分析,获取训练语音数据的梅尔频率倒谱系数,并将获取到的梅尔频率倒谱系数确定为所述训练语音特征。
3.根据权利要求2所述的语音模型训练方法,其特征在于,所述对所述训练语音数据进行预处理,包括:
对所述训练语音数据作预加重处理;
对预加重后的所述训练语音数据进行分帧处理;
对分帧处理后的所述训练语音数据进行加窗处理。
4.根据权利要求1所述的语音模型训练方法,其特征在于,所述基于所述训练语音特征获取目标背景模型,包括:
采用所述训练语音特征进行通用背景模型训练,获取通用背景模型;
采用奇异值分解对所述通用背景模型进行特征降维处理,获取所述目标背景模型。
5.根据权利要求1所述的语音模型训练方法,其特征在于,所述将所述目标语音特征输入到深度神经网络中进行训练,获取目标语音特征识别模型,包括:
初始化深度神经网络模型;
将所述目标语音特征分组输入到所述深度神经网络模型中,根据前向传播算法获取深度神经网络模型的输出值,目标语音特征的第i组样本在深度神经网络模型的当前层的输出值用公式表示为ai,l=σ(Wlai,l-1+bl),其中,a为输出值,i表示输入的目标语音特征的第i组样本,l为深度神经网络模型的当前层,σ为激活函数,W为权值,l-1为深度神经网络模型的当前层的上一层,b为偏置;
基于深度神经网络模型的输出值进行误差反传,更新深度神经网络模型各层的权值和偏置,获取所述目标语音特征识别模型,其中,更新权值的计算公式为l为深度神经网络模型的当前层,W为权值,α为迭代步长,m为输入的目标语音特征的样本总数,δi,l为当前层的灵敏度;zi,l=Wlai,l-1+bl,ai,l-1为上一层的输出,T表示矩阵转置运算,表示两个矩阵对应元素相乘的运算(Hadamard积),更新偏置的计算公式为
6.一种语音识别方法,其特征在于,包括:
获取待识别语音数据,所述待识别语音数据与用户标识相关联;
基于所述用户标识查询数据库,获取关联存储的目标声纹特征识别模型和目标语音特征识别模型,所述目标声纹特征识别模型和所述目标语音特征识别模型是采用权利要求1-5任一项所述语音模型训练方法获取的模型;
基于所述待识别语音数据,提取待识别语音特征;
将所述待识别语音特征输入到目标语音特征识别模型,获取第一得分;
将所述待识别语音数据输入到目标声纹特征识别模型中,获取第二得分;
将所述第一得分与预设的第一加权比例相乘,获取第一加权得分,将所述第二得分与预设的第二加权比例相乘,获取第二加权得分,将所述第一加权得分和所述第二加权得分相加,获取目标得分;
若所述目标得分大于预设得分阈值,则确定所述待识别语音数据为所述用户标识对应的目标语音数据。
7.一种语音模型训练装置,其特征在于,包括:
训练语音特征提取模块,用于获取训练语音数据,基于所述训练语音数据提取训练语音特征;
目标背景模型获取模块,用于基于所述训练语音特征获取目标背景模型;
目标语音特征提取模块,用于获取目标语音数据,基于所述目标语音数据提取目标语音特征;
目标声纹特征识别模型获取模块,用于采用所述目标背景模型对所述目标语音特征进行自适应处理,获取目标声纹特征识别模型;
语音特征识别获取模块,用于将所述目标语音特征输入到深度神经网络中进行训练,获取目标语音特征识别模型;
模型存储模块,用于将所述目标声纹特征识别模型和所述目标语音特征识别模型关联存储在数据库中。
8.一种语音识别装置,其特征在于,包括:
待识别语音数据获取模块,用于获取待识别语音数据,所述待识别语音数据与用户标识相关联;
模型获取模块,用于基于所述用户标识查询数据库,获取关联存储的目标声纹特征识别模型和目标语音特征识别模型,所述目标声纹特征识别模型和所述目标语音特征识别模型是采用权利要求1-5任一项所述语音模型训练方法获取的模型;
待识别语音特征提取模块,用于基于所述待识别语音数据,提取待识别语音特征;
第一得分获取模块,用于将所述待识别语音特征输入到目标语音特征识别模型,获取第一得分;
第二得分获取模块,用于将所述待识别语音数据输入到目标声纹特征识别模型中,获取第二得分;
目标得分获取模块,用于将所述第一得分与预设的第一加权比例相乘,获取第一加权得分,将所述第二得分与预设的第二加权比例相乘,获取第二加权得分,将所述第一加权得分和所述第二加权得分相加,获取目标得分;
语音确定模块,用于若所述目标得分大于预设得分阈值,则确定所述待识别语音数据为所述用户标识对应的目标语音数据。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音模型训练方法的步骤;或者,所述处理器执行所述计算机程序时实现如权利要求6所述语音识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音模型训练方法的步骤;或者,所述处理器执行所述计算机程序时实现如权利要求6所述语音识别方法的步骤。
CN201810551458.4A 2018-05-31 2018-05-31 语音模型训练方法、语音识别方法、装置、设备及介质 Pending CN108922515A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810551458.4A CN108922515A (zh) 2018-05-31 2018-05-31 语音模型训练方法、语音识别方法、装置、设备及介质
PCT/CN2018/094348 WO2019227574A1 (zh) 2018-05-31 2018-07-03 语音模型训练方法、语音识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810551458.4A CN108922515A (zh) 2018-05-31 2018-05-31 语音模型训练方法、语音识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN108922515A true CN108922515A (zh) 2018-11-30

Family

ID=64420091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810551458.4A Pending CN108922515A (zh) 2018-05-31 2018-05-31 语音模型训练方法、语音识别方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN108922515A (zh)
WO (1) WO2019227574A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448726A (zh) * 2019-01-14 2019-03-08 李庆湧 一种语音控制准确率的调整方法及系统
CN110706690A (zh) * 2019-09-16 2020-01-17 平安科技(深圳)有限公司 语音识别方法及其装置
CN110928583A (zh) * 2019-10-10 2020-03-27 珠海格力电器股份有限公司 一种终端唤醒方法、装置、设备和计算机可读存储介质
CN110942779A (zh) * 2019-11-13 2020-03-31 苏宁云计算有限公司 一种噪声处理方法、装置、系统
WO2020173133A1 (zh) * 2019-02-27 2020-09-03 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN111883175A (zh) * 2020-06-09 2020-11-03 河北悦舒诚信息科技有限公司 一种基于声纹库的油站服务质量提升方法
CN112116909A (zh) * 2019-06-20 2020-12-22 杭州海康威视数字技术股份有限公司 语音识别方法、装置及系统
CN112599136A (zh) * 2020-12-15 2021-04-02 江苏惠通集团有限责任公司 基于声纹识别的语音识别方法及装置、存储介质、终端
CN113223537A (zh) * 2020-04-30 2021-08-06 浙江大学 一种基于阶段测试反馈的语音训练数据迭代更新方法
CN113457096A (zh) * 2020-03-31 2021-10-01 荣耀终端有限公司 基于可穿戴设备检测篮球动作的方法以及可穿戴设备
WO2022127042A1 (zh) * 2020-12-16 2022-06-23 平安科技(深圳)有限公司 基于语音识别的考试作弊识别方法、装置及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法
CN104217152A (zh) * 2014-09-23 2014-12-17 陈包容 一种移动终端在待机状态下进入应用程序的实现方法和装置
US20150127336A1 (en) * 2013-11-04 2015-05-07 Google Inc. Speaker verification using neural networks
CN105895104A (zh) * 2014-05-04 2016-08-24 讯飞智元信息科技有限公司 说话人自适应识别方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194455A (zh) * 2010-03-17 2011-09-21 博石金(北京)信息技术有限公司 一种与说话内容无关的声纹鉴别认证方法
CN104992705B (zh) * 2015-05-20 2018-08-24 普强信息技术(北京)有限公司 一种英语口语自动打分方法及系统
CN106971713B (zh) * 2017-01-18 2020-01-07 北京华控智加科技有限公司 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法
US20150127336A1 (en) * 2013-11-04 2015-05-07 Google Inc. Speaker verification using neural networks
CN105895104A (zh) * 2014-05-04 2016-08-24 讯飞智元信息科技有限公司 说话人自适应识别方法及系统
CN104217152A (zh) * 2014-09-23 2014-12-17 陈包容 一种移动终端在待机状态下进入应用程序的实现方法和装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448726A (zh) * 2019-01-14 2019-03-08 李庆湧 一种语音控制准确率的调整方法及系统
WO2020173133A1 (zh) * 2019-02-27 2020-09-03 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN112116909A (zh) * 2019-06-20 2020-12-22 杭州海康威视数字技术股份有限公司 语音识别方法、装置及系统
CN110706690A (zh) * 2019-09-16 2020-01-17 平安科技(深圳)有限公司 语音识别方法及其装置
CN110928583A (zh) * 2019-10-10 2020-03-27 珠海格力电器股份有限公司 一种终端唤醒方法、装置、设备和计算机可读存储介质
CN110942779A (zh) * 2019-11-13 2020-03-31 苏宁云计算有限公司 一种噪声处理方法、装置、系统
CN113457096A (zh) * 2020-03-31 2021-10-01 荣耀终端有限公司 基于可穿戴设备检测篮球动作的方法以及可穿戴设备
CN113457096B (zh) * 2020-03-31 2022-06-24 荣耀终端有限公司 基于可穿戴设备检测篮球动作的方法以及可穿戴设备
CN113223537A (zh) * 2020-04-30 2021-08-06 浙江大学 一种基于阶段测试反馈的语音训练数据迭代更新方法
CN113223537B (zh) * 2020-04-30 2022-03-25 浙江大学 一种基于阶段测试反馈的语音训练数据迭代更新方法
CN111883175A (zh) * 2020-06-09 2020-11-03 河北悦舒诚信息科技有限公司 一种基于声纹库的油站服务质量提升方法
CN112599136A (zh) * 2020-12-15 2021-04-02 江苏惠通集团有限责任公司 基于声纹识别的语音识别方法及装置、存储介质、终端
WO2022127042A1 (zh) * 2020-12-16 2022-06-23 平安科技(深圳)有限公司 基于语音识别的考试作弊识别方法、装置及计算机设备

Also Published As

Publication number Publication date
WO2019227574A1 (zh) 2019-12-05

Similar Documents

Publication Publication Date Title
CN108922515A (zh) 语音模型训练方法、语音识别方法、装置、设备及介质
CN107331384B (zh) 语音识别方法、装置、计算机设备及存储介质
WO2019227586A1 (zh) 语音模型训练方法、说话人识别方法、装置、设备及介质
CN107633842B (zh) 语音识别方法、装置、计算机设备及存储介质
CN107680582A (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
US9685155B2 (en) Method for distinguishing components of signal of environment
CN107610707B (zh) 一种声纹识别方法及装置
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN110289003A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN110428842A (zh) 语音模型训练方法、装置、设备及计算机可读存储介质
CN106847309A (zh) 一种语音情感识别方法
CN110459225B (zh) 一种基于cnn融合特征的说话人辨认系统
CN106847292A (zh) 声纹识别方法及装置
CN109155006A (zh) 使用神经网络进行基于频率的音频分析
CN107564513A (zh) 语音识别方法及装置
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN108986798B (zh) 语音数据的处理方法、装置及设备
WO2021051628A1 (zh) 构建语音识别模型的方法、装置、设备和存储介质
Cao et al. Underwater target classification at greater depths using deep neural network with joint multiple‐domain feature
Dua et al. Optimizing integrated features for Hindi automatic speech recognition system
Rahman et al. Detecting synthetic speech manipulation in real audio recordings
Xiao et al. AMResNet: An automatic recognition model of bird sounds in real environment
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181130