CN104934029B

CN104934029B - 基于基音同步频谱参数的语音识别系统和方法

Info

Publication number: CN104934029B
Application number: CN201510114134.0A
Authority: CN
Inventors: 陈成钧
Original assignee: Columbia University in the City of New York
Current assignee: Columbia University in the City of New York
Priority date: 2014-03-17
Filing date: 2015-03-16
Publication date: 2019-03-29
Anticipated expiration: 2035-03-16
Also published as: CN104934029A; US9135923B1; US20150262587A1

Abstract

本发明定义了一种基于基音同步的语音识别系统和方法。语音信号首先经过一个确定基音周期标志的程序，来标定浊音音段中每一个基音周期的起点。这些基音周期的起点标志被送到一个处理单元，以对整个的语音信号产生出一组完整的分割点。根据分割点，语音信号被分割成与基音同步的而且互不重叠的帧。一个程序把每一帧的两个端点的数值做成等值。使用傅立叶分析，每个帧中的语音信号被转换为基音同步振幅频谱，然后用Laguerre函数把上述基音同步振幅频谱转换成一个代表瞬时音色的单位矢量，称为音色矢量。这些音色矢量然后与数据库中的音色矢量相比，找到最可能的音素序列。然后可能的音素序列被送到语言解码器，找出最可能的文本。

Description

基于基音同步频谱参数的语音识别系统和方法

本专利申请是题为“语音合成系统和方法”的美国专利8719030的部分延续。

技术领域

本发明总体上涉及用基音同步频谱参数自动语音识别，特别是基于音色矢量的方法。

背景技术

语音识别是一个把语音信号转换成文本的自动过程，其中有三个步骤。第一步骤，声学处理，把语音信号转换成某种参数。第二步骤是要从语音信号参数化表示中找到最可能的音素序列。第三步是从可能的音素序列和语言模型找到最可能的单词序列。本发明涉及一种新类型的语音信号参数的化表示和把语音信号转换成这种参数化表示的过程。

在目前的语音识别系统中，语音信号首先被乘以一个移动的处理窗，通常为Hamming窗，其持续时间约25毫秒，每次移位大约10毫秒，以形成一个帧，见图2(A)。从每个帧的语音信号产生一组参数。因此，每10毫秒，有一组代表在25毫秒窗口的持续时间的声音信号的参数产生。最广泛使用的参数表示是线性预测系数(LPC)和Mel倒谱系数(MFCC)。这种方法具有的缺陷：首先，处理窗口的位置与基音周期是无关的。因此，基音信息和频谱信息不能清晰地划分开。第二，因为窗口的持续时间大约是位移时间的2.5倍，一个音素边界总是由两个或三个连接的窗口交叉。换句话说，大量的帧包含有音素边界，见图2(A)。

很多年来，人们知道，基音同步的语音信号参数化是更好的方法。首先把语音信号分割成和基音周期同步而且互不重叠的帧，见图2(B)。对于浊音211，每个帧是单个的基音周期，213。对于清音212，帧214是等分的。为方便起见，对于清音，每帧的时间约等于浊音段的平均基音周期。基音同步参数的优点是：首先，一个单一的帧的语音信号只表示该语音的频谱或音色，从音高脱钩。因此，音色信息和基音信息被干净地分开。第二，因为一个音素边界必须是一个浊音和清音之间边界，或是两个基音周期之间的边界，每个帧的音素是独特的。因此，每一组参数都代表独特的音素。语音识别的准确性可以得到改善。(详细内容见Springer Handbook of Speech Processing,Part E,Springer Verlag2008)。

发明内容

本发明定义了一种基音同步的语音信号参数化表示，并公开了从语音信号生成的上述基音同步参数化表示的方法，特别是音色矢量和产生音色矢量的方法。

本发明的示例性的实施方案参见图1。语音信号首先经过一个确定基音周期标志的程序，来标定浊音音段中每一个基音周期的起点。这些基音周期的起点标志被送到一个处理单元，以对整个的语音信号产生出一组完整的分割点。根据所述分割点，语音信号被分割成与基音同步的而且互不重叠的帧。每一个帧的两个端点的数值可能不同。一个程序把每一帧的两个端点的数值做成等值。使用傅立叶分析，每个帧中的语音信号被转换为基音同步振幅频谱，然后用Laguerre函数把上述基音同步振幅频谱转换成一个代表瞬时音色的单位矢量，称为音色矢量。音色矢量的总和构成语音信号的参数化表示。

语音数据库的形成，是通过一个说话人或者一组说话人朗读一组包含目标语言的所有音素的文本，录制而成。然后把语音信号库转换成音色矢量库。每个音色矢量的音素标识由相关的文本来确定。把平均音色矢量和方差与单独的音素配对起来，形成一个语音数据库。

在语音识别过程中，流入的语音信号首先被转换成音色矢量序列。这些音色矢量然后与数据库中的音色矢量相比，找到最可能的音素序列。然后最可能的音素序列被送到语言解码器，找出最可能的文本。

附图说明

图1是使用基音同步频谱参数的语音识别系统的方框图。

图2阐明了使用重叠和移位处理窗口的现有技术方法与本发明的基音同步信号处理方法之间的根本区别。

图3是用不对称窗查找基音周期标志的实例。

图4是确定基音周期标志的轮廓函数的例子。

图5是一个基音周期标志数目和不对称窗长度的函数关系，用来优化不对称窗口的尺度。

图6是一个均衡基音周期波形两端值的程序。

图7是一个基音周期的振幅频谱，包括原始数据，内插后的数据，与用Laguerre函数展开后再恢复的例子。

图8是的Laguerre函数的曲线图。

图9是接近指数的一个例子。

具体实施方式

下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。

本发明可以在一个或多个处理器和一个或多个存储器单元的计算机系统中实现。根据示例性实施方案，在一个或多个计算机处理器根据编码在计算机中存储的指令执行。

图1是根据本发明的自动语音识别系统的示例性的实例的方框图。输入信号102，通常用PCM(脉码调制)格式，首先与非对称窗101卷积，以产生一个轮廓函数104。如果轮廓函数的峰值105比阈值更大时，其位置就定为一个基音周期标志。这个基音周期标志是对输入语音信号102的浊音部分的帧的端点106。用程序107，这些帧的端点延伸到PCM信号的清音区段和无声区段。一般说来，清音区段和无声区段是以一个恒定的时间间隔来划分，大致等于浊音区段的平均基音周期。由此生成一套完整的帧端点108。用上述帧的端点通过分割器109，PCM信号102被分段成原始帧110。一般情况下，一个原始帧的两端的PCM值不匹配。如果用傅里叶分析这些原始帧，将产生问题。现在，用一个端部匹配过程111施加于每个原始帧，使其两端相等，成为一个连续周期函数的样本，或者说周期帧112。然后，傅立叶分析113被施加到每个周期帧112，以产生振幅傅立叶系数114。根据采样定理，振幅频谱的点的数目是每一帧的点的数目的二分之一。因此，它是一个离散的振幅频谱。使用内插过程115，离散振幅频谱被扩展到全部频率轴上，通常成为512点或1024点，成为一个实际上连续的频谱函数。然后，这个连续谱函数用Laguerre函数117展开，产生一组展开系数。Laguerre展开系数构成这个帧112的音色矢量118。音色矢量118包含该帧的音色的精确信息。通过这述音色矢量，两帧之间的音色距离可以精确地确定。

然后，这些音色矢量118送到语音识别引擎的剩余部分，从119到124。在语音解码器119中，这些音色矢量与包含音素或亚音素单元的相关表的音色矢量数据库相比较。生成一个最可能的音素序列121。最可能的音素序列121被送到语言解码器123，运用语言模型122，以找到最可能的输出文本124。

与现有技术中相比，本发明的根本新颖点在语音信号分成的帧的方式，参考图2(A)。根据现有技术的语音识别系统，语音信号201和202被首先乘以处理窗203。通常为Hamming窗，它的持续时间约25毫秒，每一个移位大约10毫秒，以形成一个帧。从每个窗的语音信号产生的一组参数。因此，对于每个10毫秒，一组代表在25毫秒窗口的持续时间的声音信号的参数产生出来。最广泛使用的参数表示是线性预测系数(LPC)和Mel频率倒谱系数(MFCC)。这种方法具有的缺陷。首先，处理窗口的位置与基音周期是无关的。因此，基音信息和频谱信息不能清晰地划分开。第二，因为窗口的持续时间大约是位移时间的2.5倍，一个音素边界总是由两个或三个连接的窗口交叉。换句话说，大量的帧包含有音素边界，见图2(A)。

本发明开始于一个不同的分割方法。很多年来，人们知道，基音同步的语音信号参数化是更好的方法。首先把语音信号分割成和基音周期同步的帧，见图2(B)。对于浊音211，每个帧是单个的基频周期，213。对于清音212，帧214是等分的。为方便起见，每帧的时间约等于浊音段的平均基因周期。基音同步参数的优点是：首先，一个单一的帧的语音信号只表示该语音的频谱或音色，从音高脱钩。因此，音色信息和基频信息被干净地分开。第二，因为一个音素边界必须是一个浊音和清音之间边界，或是一个基频周期边界，每个帧的音素是独特的。因此，每一个参数都代表独特的音素。语音识别的准确性可以得到改善。(详细内容见Springer Handbook of Speech Processing,Part E,Springer Verlag 2008)。

为了把语音信号分割成基音同步的帧，一种已知的方法是依赖于同时采集的电子声门仪(EGG)信号102。但是，语音识别，绝大多数情况下是没有电子声门仪。然而，为了把语音信号分割成基音同步的帧，并不要求准确的声门闭合瞬间。它仅需要在一个基音周期中找出其中的变化最弱的区段。基于对于波形的观察，我们发现了一种确定在一个音调周期的变化最弱部分的方法。它是基于这样的事实，在一个音调周期的开始时刻，信号的变化是最大的。因此，通过用非对称窗函数w(n)卷积语音信号，见图3，最弱变化的位置可以找到。的非对称窗函数的一个例子是在一个时间间隔中(-N<n<N)由以下公式定义

其中的±符号用于配合PCM信号的极性。如果取正号，则当0<n<N，该值为正。在n＝N，变为零。如果取负号，-N<n<0，在n＝-N，再次变为零。把PCM信号表示为p(n)，卷积后就生成一个轮廓函数

典型的结果示于图4。这里，401是声音信号。402表示每一个基音周期的起点，此处信号变化最强。403是使用非对称窗函数w(n)的所产生的轮廓函数。如图所示，轮廓函数的极大值的位置404就是信号变化最弱之处405。每个音调周期开始于402大的变化的pcm信号的变化逐渐减小，变弱靠近每个基音周期的结束。

为了产生精确的结果，非对称窗函数的尺度N应该被适当地选择。这可以用一个简单的测试来完成：对于一个给定的发言者的一个句子，执行基音周期标志的标定程序。找出基音周期标志的总数与非对称窗函数的尺度N的关系。如果极性是正确的，在很大的窗口尺度范围内，基音周期标志的总数应该是稳定的。图5示出一个典型的结果。501是正确的极性的曲线。当窗口太小，会产生许多虚假基音周期标志。501表示出当窗口尺度是大致正确，502，有一个宽广的窗口尺度，其中的输出是稳定的；在这里，9毫秒至15毫秒。选择12毫秒的窗大小是好的。如果窗口规模过大，503，基音周期标志的数量迅速减少。如果极性不正确，504，对于相对小的窗口尺度，虚假基音周期标志的数目迅速增加。如果极性是错误的，基音周期标志是在一个音调周期的中间。因此，该测试还能够确定正确的极性。

如图4所示，语音信号在两个相邻的基音周期标志上的数值，例如两个相邻405点，可能不匹配。以下是一种用以均衡端点数值的算法。让相邻的两个基音周期标志之间的采样点数量为N，而原来的声音信号是x₀(n)。平滑信号x(n)的小间隔0<n<M被定义为

其中M是关于N/10。否则，x(n)＝x₀(n)。图6示出一个例子。原始波形的起始点PCM601和PCM终点602不匹配。傅立叶分析会引起错误。把前一个基音周期波形603末端的一小部分和当前的基音周期波形604的前段进行一个线性内插，产生一个新的小部分605，来取代在原始波形的一小部分604，形成右方的波形。新的波形的两端606和607是匹配的。因为端部匹配是在变化微弱区域执行，对频谱干扰是微不足道的。

对于清音区段，参照图2的212。在图2中，信号为了方便而被切割。通常，清音区段和无声区段被分割成大小近似等于在浊音区段的平均基频周期的帧，参见212中所示。同样，终端匹配过程也适用于清音帧。

每一个帧中的波形的两端部相匹配之后，606和607，通过傅立叶分析产生一个振幅频谱，参见图7。由于每一个基频周期的点的数目是有限的，根据采样定理，振幅频谱的点数是基频周期的点数的二分之一，参照图7的701。为了使用数值积分来产生音色矢量，离散点701通过各种方法进行内插，方法包括二次曲线，三次曲线，和惠特克-香农算法。虚线702表示内插后的曲线，是连续频谱。然后，使用Laguerre函数来产生一组Laguerre展开系数，从而构成一个音色矢量。连续振幅频谱可以高精度的从音色矢量复原，703。因此，音色矢量可以高精度的表示振幅频谱，如下所述。

Laguerre函数，如图8，被定义为

其中，k是整数，通常为k＝0，2或4。相关的拉盖尔多项式是

图8的Laguerre函数的参数被调整为频率，801.低阶Laguerre函数都集中在低频区域，802高阶Laguerre函数，在低频区域中，有一个振荡，803；在高频区域，也有宽峰。因此，Laguerre函数非常相似的人耳的频率响应曲线。

振幅频谱可以用Laguerre函数展开，

其中系数由下面的公式计算

其中的常数κ是用来使精度最大化。矢量C的长度是强度参数I，

归一化的Laguerre系数被定义为

c_n＝C_n/I.

振幅频谱可以从Laguerre系数恢复。通过使用足够数量的Laguerre系数，量的精度可以无限提高，参照图7的703。

除了归一化的Laguerre系数，完整的音色矢量还可以包括类别指数，指示该帧是浊音或清音；基音周期，特别是浊音；和该帧的强度。这些参数是在解码过程中，119，是有用的。

运用音色矢量的基频同步参数表示每个基音周期的音色。两帧之间的音色距离δ可以被定义为

其中c(1)n和c(2)n是两个音色矢量的元素。实验表明，对于相同的音素(未元音)两个音色矢量，该距离小于0.1。对于不同元音的音色矢量，该距离为0.1至0.6。为一个元音和辅音，该距离就更大了。更方便的参数，音色接近指数，可以定义

P＝-log(δ+ε),

其中ε是一个小的正数(这里ε＝0.1)，以避免无限大。音色接近指数大于如果两个音素都是相似的。图9示出音色接近索引与帧索引的变化的一个例子。显示是三个IPA音素序列，[IAO]。901是P的关于的基音素的变化[I]中，902是P的相对于[A]，和903的基极音素中的变化的P方面的基音素[O的变化]。因此，每个音调周期的音素同一性可以被识别。的高精确度的一种语音识别系统可以基于该方法来构建。

虽然本发明已经经由示例性实施例进行了描述，但是对熟练的技术人员，许多替换，修改和变化是显而易见的。因此，本发明的示例性实施例中，都是说明性的，不是限制性的。在不脱离本发明的精神和范围内，各种改变都可以包括在内。

Claims

1.一种自动语音识别的方法，使用一个或多个处理器，通过以下步骤把语音信号转换成文本：A)把语音信号分割成基音同步帧，其中浊音部分的每个帧是一个基音周期；B)对每一个帧，用端点匹配方法使波形的两端均衡；C)用傅立叶分析生成每个帧的振幅频谱；D)用Laguerre函数把振幅频谱转化成音色矢量；E)进行声学解码，把每个音色矢量与音色矢量数据库进行比较，找到最可能的音素或子音素单元序列；F)进行语言解码，把最可能的音素序列和一个语言模型数据库相比较，找出最可能的文本；其中语音信号的分割是使用非对称窗对语音信号进行分析：a)对于说话者进行测试，找出非对称窗的最佳尺寸；b)把语音信号与该非对称窗进行卷积，形成一个轮廓函数；c)取轮廓函数的最大值所在时间点为分割点；d)把分割点扩展到清音段和无声段。

2.根据权利要求1所述的方法，其特征在于：对于浊音部分，声学解码是通过计算每个音色矢量和在音色矢量数据库中的不同浊音音素的音色矢量之间的音色距离实现的。

3.根据权利要求1所述的方法，其特征在于：对于清音部分，声学解码是通过计算每个音色矢量和在音色矢量数据库中的不同清音音素的音色矢量之间的音色距离实现的。

4.根据权利要求1所述的方法，其特征在于：对于声调语言，不同的声调是通过计算每个帧的长度和帧的长度对时间的斜率实现的。

5.根据权利要求1所述的方法，其特征在于：其中的音色矢量数据库是由以下步骤构成的：由朗读者或若干朗读者朗读准备好的文本，做成录音，该文本包含目标语言的所有音素；把录音中的语音信号分割成基音同步帧，其中浊音部分的每个帧是一个基音周期；对每一个帧，用端点匹配方法使波形的两端均衡；用傅立叶分析生成每个帧的振幅频谱；用Laguerre函数把振幅频谱转化成音色矢量；把准备好的文本分割成音素或子音素单元；把每一个音色矢量与文本中的音素或子音素单元联系起来；收集音色矢量和相应的音素或子音素单元的对，以形成一个数据库。

6.一种自动语音识别的系统，使用一个或多个处理器，通过系统所包括的以下模块把语音信号转换成文本：

语音信号分割模块，用于把语音信号分割成基音同步帧，其中浊音部分的每个帧是一个基音周期；其中语音信号的分割是使用非对称窗对语音信号进行分析，该模块包括：

最佳尺寸确定单元，用于对于说话者进行测试，找出非对称窗的最佳尺寸；

轮廓函数获取单元，用于把语音信号与该非对称窗进行卷积，形成一个轮廓函数；

分割点确定单元，用于取轮廓函数的最大值所在时间点为分割点；

分割点扩展单元，用于把分割点扩展到清音段和无声段；

帧均衡模块，用于对每一个帧，用端点匹配方法使波形的两端均衡；

振幅频谱生成模块，用于用傅立叶分析生成每个帧的振幅频谱；

振幅频谱转化模块，用于用Laguerre函数把振幅频谱转化成音色矢量；

音素查找模块，用于进行声学解码，把每个音色矢量与音色矢量数据库进行比较，找到最可能的音素或子音素单元序列；

文本查找模块，用于进行语言解码，把最可能的音素序列和一个语言模型数据库相比较，找出最可能的文本。

7.根据权利要求6所述的系统，其特征在于：对于浊音部分，声学解码是通过计算每个音色矢量和在音色矢量数据库中的不同浊音音素的音色矢量之间的音色距离实现的。

8.根据权利要求6所述的系统，其特征在于：对于清音部分，声学解码是通过计算每个音色矢量和在音色矢量数据库中的不同清音音素的音色矢量之间的音色距离实现的。

9.根据权利要求6所述的系统，其特征在于：对于声调语言，不同的声调是通过计算每个帧的长度和帧的长度对时间的斜率实现的。

10.根据权利要求6所述的系统，其特征在于：其中的音色矢量数据库是由以下步骤构成的：由朗读者或若干朗读者朗读准备好的文本，做成录音，该文本包含目标语言的所有音素；把录音中的语音信号分割成基音同步帧，其中浊音部分的每个帧是一个基音周期；对每一个帧，用端点匹配方法使波形的两端均衡；用傅立叶分析生成每个帧的振幅频谱；用Laguerre函数把振幅频谱转化成音色矢量；把准备好的文本分割成音素或子音素单元；把每一个音色矢量与文本中的音素或子音素单元联系起来；收集音色矢量和相应的音素或子音素单元的对，以形成一个数据库。