CN109377981A

CN109377981A - 音素对齐的方法及装置

Info

Publication number: CN109377981A
Application number: CN201811397421.7A
Authority: CN
Inventors: 伍强
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-02-22
Anticipated expiration: 2038-11-22
Also published as: CN109377981B

Abstract

本发明提出一种音素对齐的方法及装置，属于机器学习中语音信号处理领域。本发明解决了现有音素对齐技术存在模型复杂度高、步骤繁琐及很难实现本地化的问题，其技术方案要点为：首先，定义音素集合；其次，语音样本数据采集和音素位置信息的标定；然后，提取语音的声学特征；再然后，语音转文本并参照音素集合进行音素拆分；再然后，训练每类音素的概率模型；再然后，采用概率模型对语音特征求后验概率，得到概率矩阵；再然后，采用动态路径规划对概率矩阵求解最优对齐路径；最后，音素位置信息映射，得到音素的起始和终止位置。本发明的有益效果是：能够高效且准确地实现音素对齐。适用于机器学习。

Description

音素对齐的方法及装置

技术领域

本发明涉及机器学习中语音信号处理技术，特别涉及音素对齐的方法及装置的技术。

背景技术

近几年来，随着人工智能技术的快速发展，越来越多的带有人工智能技术的产品出现在人们的日常生活中。如语音识别、语音合成和声纹识别等技术应用越来越广泛，而这些技术的大都会使用到音素对齐技术。

现有音素对齐技术存在这样的问题：模型复杂度高，步骤繁琐，很难实现本地化。

发明内容

本发明的目的是提供一种音素对齐的方法及装置，解决现有音素对齐技术存在模型复杂度高、步骤繁琐及很难实现本地化的问题。

本发明解决其技术问题，采用的技术方案是：音素对齐的方法，包括以下步骤：

步骤1、定义音素集合；

步骤2、语音样本数据采集和音素位置信息的标定；

步骤3、提取语音的声学特征；

步骤4、语音转文本并参照音素集合进行音素拆分；

步骤5、训练每类音素的概率模型；

步骤6、采用概率模型对语音特征求后验概率，得到概率矩阵；

步骤7、采用动态路径规划对概率矩阵求解最优对齐路径；

步骤8、音素位置信息映射，得到音素的起始和终止位置。

进一步的是，步骤1中，音素集合的定义是根据不同发音方式将声母和韵母定义为M类的音素集合。

进一步的是，步骤3中，提取语音的声学特征包括：提取梅尔频率倒谱系数特征或者PNCC特征，同时记录该特征中每一帧特征对应于原始语音数据上的起始位置和终止位置。

进一步的是，步骤4中，语音转文本并参照音素集合进行音素拆分是首先将汉字转为拼音，然后将拼音拆分为声母和韵母，最后根据音素的定义集合映射为对应的音素。

进一步的是，步骤5中，训练每类音素的概率模型，包括以下步骤：

步骤501、每类音素的样本准备，具体为：对于标定的音素，采用此音素的真实窗口的语音数据作为正样本；

步骤502、特征提取，具体为：对所有的正样本提取特征，假设帧长为A毫秒，步长为B毫秒，每个帧长内就会得到一个C维的特征向量，假设音素数据有N帧，这样得到CxN的二维矩阵X；

步骤503、训练概率模型，具体为：设置混合系数为K，训练混合高斯模型。

进一步的是，步骤6中，采用概率模型对语音特征求后验概率时，采用步骤3中的特征矩阵中的每一帧特征和所有的音素的概率模型求后验概率，最终得到一个概率矩阵。

进一步的是，步骤7中，所述动态路径规划是根据概率矩阵寻找最优的音素对齐路径，并输出音素特征的起始和终止位置信息。

进一步的是，步骤8中，所述音素位置信息映射时，是根据步骤3中的特征在原始语音的位置信息和步骤7中音素特征对齐的路径做映射，并输出音素的起始和终止位置信息。

音素对齐的装置,应用于所述音素对齐的方法，包括语音采集存储模块和音素对齐模块，所述语音采集存储模块和音素对齐模块连接；

所述语音采集存储模块用于采集和存储语音数据；

所述音素对齐模块，用于识别音素的起始和终止位置。

进一步的是，所述音素对齐模块包括音素的类别定义、文本内容的音素拆分、语音特征提取、特征概率计算、动态路径规划及音素位置信息映射。

本发明的有益效果是，通过上述音素对齐的方法及装置，首先，定义音素集合；其次，语音样本数据采集和音素位置信息的标定；然后，提取语音的声学特征；再然后，语音转文本并参照音素集合进行音素拆分；再然后，训练每类音素的概率模型；再然后，采用概率模型对语音特征求后验概率，得到概率矩阵；再然后，采用动态路径规划对概率矩阵求解最优对齐路径；最后，音素位置信息映射，得到音素的起始和终止位置。能够高效且准确地实现音素对齐。

附图说明

图1为本发明音素对齐的装置的结构框图。

具体实施方式

下面结合实施例，详细描述本发明的技术方案。

本发明所述音素对齐的方法，包括以下步骤：

步骤1、定义音素集合，其中，音素集合的定义是根据不同发音方式将声母和韵母定义为M类的音素集合。

步骤2、语音样本数据采集和音素位置信息的标定；

步骤3、提取语音的声学特征，提取语音的声学特征包括：提取梅尔频率倒谱系数特征或者PNCC特征，同时记录该特征中每一帧特征对应于原始语音数据上的起始位置和终止位置。

步骤4、语音转文本并参照音素集合进行音素拆分，语音转文本并参照音素集合进行音素拆分是首先将汉字转为拼音，然后将拼音拆分为声母和韵母，最后根据音素的定义集合映射为对应的音素。

步骤5、训练每类音素的概率模型，具体包括以下步骤：

步骤6、采用概率模型对语音特征求后验概率，得到概率矩阵，采用概率模型对语音特征求后验概率时，采用步骤3中的特征矩阵中的每一帧特征和所有的音素的概率模型求后验概率，最终得到一个概率矩阵。

步骤7、采用动态路径规划对概率矩阵求解最优对齐路径，所述动态路径规划是根据概率矩阵寻找最优的音素对齐路径，并输出音素特征的起始和终止位置信息。

步骤8、音素位置信息映射，得到音素的起始和终止位置，所述音素位置信息映射时，是根据步骤3中的特征在原始语音的位置信息和步骤7中音素特征对齐的路径做映射，并输出音素的起始和终止位置信息。

音素对齐的装置,应用于所述音素对齐的方法，包括语音采集存储模块和音素对齐模块，其结构框图参见图1，其中，语音采集存储模块和音素对齐模块连接；语音采集存储模块用于采集和存储语音数据；所述音素对齐模块，用于识别音素的起始和终止位置。音素对齐模块包括音素的类别定义、文本内容的音素拆分、语音特征提取、特征概率计算、动态路径规划及音素位置信息映射。

实施例

本实施例音素对齐的方法，具体实施例时，包括如下步骤：

步骤1、定义音素集合

根据语言学原理，将声母和韵母定义为66类音素，如下：a,aa,ai,an,ang,ao,b,c,ch,d,e,ee,ei,en,eng,er,f,g,h,i,ia,ian,iang,iao,ie,ii,in,ing,iong,iu,ix,iy,iz,j,k,l,m,n,o,ong,oo,ou,p,q,r,s,sh,t,u,ua,uai,uan,uang,ueng,ui,un,uo,uu,v,van,ve,vn,vv,x,z,zh。

步骤2、数据收集和标定

收集语音数据库，标定音素的类别和位置。

步骤3、提取语音的声学特征

假设帧长为A毫秒，步长为B毫秒，每个帧长内就会得到一个C维的特征向量，假设音素数据有N帧，这样得到CxN的二维矩阵X。

步骤4、语音转文本并参照音素集合进行音素拆分

将语音文本信息转为拼音，并按照S1中定义的音素集合确定此段语音中包含的音素。

步骤5、训练概率模型

针对每一类音素训练一个混合高斯模型，如此就可以得到66个混合高斯模型，混合高斯模型训练方法如下：

步骤501、将步骤2中收集的数据提取MFCC特征；

步骤502、将每类音素的每一帧作为训练此类音素的混合高斯模型的样本；

步骤503、设置混合高斯模型的混合度为16；

步骤504、训练混合高斯模型知道收敛；

步骤505、保存66个混合高斯模型；

步骤506、采用概率模型对语音特征求后验概率，得到概率矩阵

对于一段语音，首先提取MFCC特征，设帧长为25ms，步长为10ms，N帧，因此每个帧长内就会得到一个39维的特征向量，假设N＝100，这样得到39x100的二维mfcc特征矩阵，同时记录该特征中每一帧特征对应于原始语音数据上的起始位置和终止位置；将语音文本信息转为拼音，并按照S1中定义的音素集合确定此段语音中包含的音素，假设包含如下音素。ch、ang、h、ong、x、iao、b、ai；在S5中的混合高斯模型中挑选出这8个模型，用这8个模型分别和S41中39x100的矩阵计算概率，得到一个8x100的概率矩阵；

步骤6、用动态路径规划对概率矩阵求解最优对齐路径,采用动态时间规整对步骤5中的概率矩阵寻找最优路径，输出音素的特征的起始和终止位置。

步骤7、音素位置信息映射，根据步骤6中的特征的起始和终止位置信息和步骤5中每一帧特征对应于原始语音数据上的起始位置和终止位置做对应的映射，得到音素在语音中的起始和终止位置。

音素对齐的装置,应用于本实施例的音素对齐的方法，包括语音采集存储模块和音素对齐模块，语音采集存储模块和音素对齐模块连接；语音采集存储模块用于采集和存储语音数据；音素对齐模块，用于识别音素的起始和终止位置。

音素对齐模块包括音素的类别定义、文本内容的音素拆分、语音特征提取、特征概率计算、动态路径规划及音素位置信息映射。

具体应用时：

音素的类别定义，方法为：汉字通常是由声母和韵母组成，根据语言学的原理可以在进一步细分，相同的韵母和不同的声母组合可以表现为不同的音素，因此通过语言学原理将声母和韵母重新定义为一个音素集合。

文本内容的音素拆分，方法为：首先将文本内容转写为拼音，然后根据音素的类别定义中音素集合将拼音拆分为单个音素。

语音特征提取，方法为：设定一个固定窗口大小和一个固定的步长，对音素的类别定义中语音提取MFCC或者PNCC特征，同时记录该特征中每一帧特征对应于原始语音数据上的起始位置和终止位置。

特征概率计算，方法为：首先对每一类音素训练一个概率模型，然后用所有概率模型对每一帧语音特征计算概率，得到概率矩阵。

动态路径规划，方法为根据特征概率计算中的概率矩阵采用动态时间归整寻找最优对齐路径，并输出特征的起始和终止位置信息。

音素位置信息映射，方法为根据动态路径规划中的特征的起始和终止位置信息和语音特征提起中每一帧特征对应于原始语音数据上的起始位置和终止位置做对应的映射，得到音素在语音中的起始和终止位置。

实现上述实施例方法中的全部或部分流程是可以通各种算法程序实现的，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可包括如上各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

Claims

1.音素对齐的方法，其特征在于，包括以下步骤：

步骤1、定义音素集合；

步骤2、语音样本数据采集和音素位置信息的标定；

步骤3、提取语音的声学特征；

步骤4、语音转文本并参照音素集合进行音素拆分；

步骤5、训练每类音素的概率模型；

步骤7、采用动态路径规划对概率矩阵求解最优对齐路径；

步骤8、音素位置信息映射，得到音素的起始和终止位置。

2.如权利要求1所述的音素对齐的方法，其特征在于，步骤1中，音素集合的定义是根据不同发音方式将声母和韵母定义为M类的音素集合。

3.如权利要求1所述的音素对齐的方法，其特征在于，步骤3中，提取语音的声学特征包括：提取梅尔频率倒谱系数特征或者PNCC特征，同时记录该特征中每一帧特征对应于原始语音数据上的起始位置和终止位置。

4.如权利要1所述的音素对齐的方法，其特征在于，步骤4中，语音转文本并参照音素集合进行音素拆分是首先将汉字转为拼音，然后将拼音拆分为声母和韵母，最后根据音素的定义集合映射为对应的音素。

5.如权利要求1所述的音素对齐的方法，其特征在于，步骤5中，训练每类音素的概率模型，包括以下步骤：

6.如权利要求1所述的音素对齐的方法，其特征在于，步骤6中，采用概率模型对语音特征求后验概率时，采用步骤3中的特征矩阵中的每一帧特征和所有的音素的概率模型求后验概率，最终得到一个概率矩阵。

7.如权利要求1所述的音素对齐的方法，其特征在于，步骤7中，所述动态路径规划是根据概率矩阵寻找最优的音素对齐路径，并输出音素特征的起始和终止位置信息。

8.如权利要求1所述的音素对齐的方法，其特征在于，步骤8中，所述音素位置信息映射时，是根据步骤3中的特征在原始语音的位置信息和步骤7中音素特征对齐的路径做映射，并输出音素的起始和终止位置信息。

9.音素对齐的装置,应用于上述权利要求1-8任意一项所述音素对齐的方法，其特征在于，包括语音采集存储模块和音素对齐模块，所述语音采集存储模块和音素对齐模块连接；

所述语音采集存储模块用于采集和存储语音数据；

所述音素对齐模块，用于识别音素的起始和终止位置。

10.如权利要求9所述的音素对齐的装置，其特征在于，所述音素对齐模块包括音素的类别定义、文本内容的音素拆分、语音特征提取、特征概率计算、动态路径规划及音素位置信息映射。