CN1450529A

CN1450529A - 语音音素译码器

Info

Publication number: CN1450529A
Application number: CN02105936A
Authority: CN
Inventors: 杨凰琳
Original assignee: Inventec Besta Co Ltd
Current assignee: Inventec Besta Co Ltd
Priority date: 2002-04-09
Filing date: 2002-04-09
Publication date: 2003-10-22
Anticipated expiration: 2022-04-09
Also published as: CN1189862C

Abstract

本发明涉及一种语音音素译码器，运用语音数据当中的基周、振幅与频谱等三种参数所编码的语音数据，加以合成为语音信号；语音音素译码器包括了：一初始化单元、一加载参数单元、一平滑处理单元、一合成单元与一语音输出单元；初始化单元产生初始化信号后，加载上述的基周、振幅与频谱等三种语音参数至平滑处理单元；平滑处理单元接收到语音参数数据后，即以内差法作平滑处理，并将经处理的语音参数数据传送至合成单元；合成单元即依基周、频谱与振幅参数的顺序，合成语音数据并输出至语音输出单元。

Description

语音音素译码器

技术领域

本发明涉及一种语音合成器，特别涉及一种语音音素译码器，以音素为基础来对语音编码后加以译码的语音音素译码器。

背景技术

在中低档的电子辞典市场中，标榜以真人发音的功能，已成为电子辞典主要追求的特色。为了提升中低档电子辞典在市场的竞争力，各家厂商无不专注于语音功能的改进并且同时要能降低生产成本。有些厂商所强调的真人录制特定语音，由于其数据量大，且系统输出的种类受极大限制，相当耗费成本，所以，大多数厂商都以语音分析合成的方式来接近真人发音，可让电子辞典能节省语音数据存储器并提高声音品质。

这种语音分析合成的技术是依照一定的处理方法，分析语言信号并将其提出必要的特征参数，并用这些参数按照语音产生的模型合成为语音。于是，依据不同的特征参数，就有相应的语音编码方法以及语音合成方法。

由于语音分析合成的过程是将声音信号以最少的数字数据来代表原始信号，所以，一般也称为语音压缩技术，其牵涉到语音的取样以及编码与译码等技术。如语音波形编码中的适应性差量脉冲码调变(AdaptiveDelta Pulse Code Modulation；ADPCM)的编码方式，其重点在于使重建的信号与原始信号波形愈像愈好；从数学的观点而言，其采用最小均方误差的准则(Minimum Mean Square Error Criterion)，但ADPCM方法的位率小于24kbps(Kilo Bit Per Second)，会有经还原后的声音品质变差，且运算量大的问题。

以上所述的语音分析合成，其特色是具有可大幅压缩语音数据量，也可额外有保密通信的优点(运用加密技术)。不过，其缺点为语音合成的轻重、分音、基周往往与自然语音有所差距，造成不自然，甚至不易识别的缺点。

即便是经过压缩的语音分析合成技术，仍然有节省内存空间的可能性。此外，现有的语音分析合成技术多以线上(on-line)的方式运作，所以，必须加上判断语音是否“有声音”的动作，常常在判断的过程中，会将「有声」与“无声”的部分判断错误，造成语音合成时产生声音沙哑的情形。

于是，如何能让语音分析合成技术所产生的语音，一方面能达到接近自然语音，即，音质的改善；另一方面，如何能达到最大压缩的程度，即，最不耗占内存空间；再一方面，如何能让语音分析合成的过程较为简单；以上几点均成为重要的研究课题。

发明内容

鉴于以上现有技术的问题，本发明的目的在于提供一种基于语音音素分类的编码方法，利用将语音音素分为有声、无声与静音三种，只要将有声的部分加以编码；于译码时，只要针对有声的编码部分运用本发明的语音音素译码器，即可执行高运算量的语音译码。

本发明的目的是这样实现的：

本发明提供一种语音音素译码器，其以一振幅参数(RMS)、一基周参数(Pitch)与一以线性预估编码方式编码(Linear Predictive Coding，LPC)的频谱参数(RC’s)所边码的语音数据加以译码，该经编码的语音数据存于一语音数据库，对语音数据库中的语音数据加以译码，本发明的语音音素译码器包括：一初始化单元、一加载参数单元、一平滑处理单元、一合成单元与一语音输出单元。

其中，初始化单元，用来产生一初始化信号(initial)。加载参数单元则与初始化单元相连接，用来接收初始化单元所发出的初始化信号，并以一个音框(Frame)为单位从语音数据库中加载此次音框的语音数据。平滑处理单元则用来接收加载参数单元所加载的此次音框的语音数据，并以此次音框中的一个基周(Pitch)为长度，运用内差法分别处理此次音框的语音数据中的振幅参数、基周参数与频谱参数，平滑处理单元处理完此次音框的语音数据后，发出下一个音框的信号至加载参数单元以加载下一个音框的语音数据。合成单元用来接收平滑处理单元所处理的每个基周的语音数据，并将其合成为一语音信号；合成单元处理完每个基周的语音数据后，发出下一个基周的信号至平滑处理单元以处理下一个基周的语音数据。最后，合成单元即可将合成的语音信号送至语音输出单元以输出语音。

此外，平滑处理则以内差法来作处理，其中必须计算比例参数(Prop；Proportion)。另外，因为在合成时以基周为合成单位，即一次合成一个周期。因而，在一个音框合成的周期总长度，必须小于这个要合成的语音长度(Frame_len)，其残留未合成的语音长度(Frame_res＝Frame_1en-Synths)将并到下个音框处理，故下一个音框要合成的语音长度即为，Frame_len＝Frame_res+180。其中，Prop＝(Synths+PitchI)/Frame_len。

具体地讲，本发明公开的技术方案中，包括：

所述的加载参数单元包括一参数译码器，其依据该基周参数、该振幅参数与该频谱参数的编码顺序，译码并平行输出至该平滑处理单元。

所述的加载参数单元于加载该音框的语音数据后，暂存该此次音框的语音数据，并于接收由该平滑处理单元所传送的该下一个音框的信号后，加载该下一个音框的语音数据，并将该此次音框的语音数据与该下一个音框的语音数据送至该平滑处理单元。

所述的平滑处理单元以内差法处理该此次音框的语音数据与该下一个音框的语音数据并输出至该合成单元。

所述的平滑处理单元包括：

一计算比例单元，用以计算该此次音框的已合成音框长度与该此音框的合成音框长度的比例；

一音高参数平滑处理单元，用以接收该此次音框的基周参数与该下一个音框的基周参数，并以内差法计算出一合成基周参数；

一振幅参数平滑处理单元，用以接收该此次音框的振幅参数与该下一个音框的振幅参数，并以内差法计算出一合成振幅参数；

一频谱参数平滑处理单元，用以接收该此次音框的频谱参数与该下一个音框的频谱参数，并以内差法计算出一合成频谱参数；

一计算合成长度单元，用以计算该此次音框的已合成音框长度并将结果输入至该计算比例单元，并输出该下一个音框的信号至该加载参数单元；及

一缓存器，用以储存该合成基周参数、该合成振幅参数与该合成频谱参数并输出至该合成单元。

所述的合成单元包括：

一脉冲序列产生器，用以将该基周参数输出为一激发信号(Excitation Signal)；

一声道滤波器，用以接收该激发信号并依据该频谱参数作为该声道滤波器的滤波参数将的处理为一合成语音信号；及

一振幅调整单元，用以将该合成语音信号乘上该振幅参数以输出一还原语音，并输出至该语音输出单元。

所述的合成单元还包括一内存，用以暂存该合成语音信号与该还原语音，并输出该还原语音至该语音输出单元。

有关本发明的特征等，配合附图及最佳实施例详细说明如下。

附图说明

图1为本发明的语音音素译码器的系统架构图；

图2为本发明的语音音素译码器的具体实施例；

图3为本发明的语音音素译码器具体实施例中初始化单元与参数加载单元的架构图；

图4为本发明的语音音素译码器具体实施例中平滑处理单元的架构图；

图5为本发明的语音音素译码器具体实施例中合成单元的架构图。

具体实施方式

由于电子辞典市场的语音处理较为规则，且其要求的数据压缩量较大，所以，本发明运用线性预估编码(Linear Predictive Coding，以下简称LPC)的方式作为本发明的编码与译码的方式，因为，此方法是基于语音发声模型，而估计信号的声道滤波器(Vocal Tract Filter)参数及基本周期(Pitch)达到压缩的目的，可达到非常低的位率(Low Bit Rate)，所以相当适合作为本发明的编码方法。

本发明运用声音的“有声”(voiced)、“无声”(气音；unvoiced)与“静音”语音音素(phoneme)来做基本声音分类，并将有声语音音素部分加以压缩编码，无声语音音素部分则保留其原音不压缩，静音部分则只记录静音长度。以此种分类方式所计算出的参数，包括振幅(RMS；root ofmean square)、基周(Pitch，即音调)及频谱(RC’s；反射系数，reflection coefficients)参数三种。其中，振幅参数与基周参数的获得，以一个音框(一个音框frame＝180取样点，8kHz的取样率)为单位，逐步计算出其参数值。而频谱参数(RC’s)的获得则依LPC的模型计算而得，即，依照下列转移函数(Transfer Function in Z-Domain)H(z)计算而得：

H(z)＝A₀/(1+a₁z^-1+a₂z^-2…+a₁₀z^-10)

其中，A₀系为振幅参数，z(＝e^-jw)为复数(complex number)，a₁--a₁₀即为LPC参数。

由以上的三种参数，一个“有声”语音音框(180samples)可编码为54bits，压缩位率相当于2.4kbps，各个参数的位配置如下：Pitch(6bits)，RMS(6bits)，RC’s(RC₀--RC₉)

6

5

4

3

由语音音素编码方法所得到的经编码语音，在解压缩时，只需将有声语音部份，利用内差方式将振幅、基周及频谱参数做平滑处理，再利用语音合成器，还原有声语音；无声部分只需依据地址取出原语音加以还原；而静音部分，只需取出静音时间长即可。

通过上述方法所建立的语音数据库，即以上述三种参数作为编码的基础，译码时，只要依据语音数据库的建立规则来设计语音音素译码器即可。

语音音素译码器的动作过程，首先，先将一连串的位序列(BitStream)，也即，从语音数据库当中所选取的经编码的语音资料，转为编码时的三项参数，振幅、音高与频谱参数，再将这些参数经由语音合成器合成语音。合成时以一个基周(Pitch)为单位，每隔一个音框(Frame)读入一组参数，并储存上一个音框参数(RMSO，RCO，PitchO)，每一个周期合成所需的参数(RMS，RC，Pitch)，由这些音框与上一个音框参数作平滑处理(Smoother)得到。

平滑处理则以内差法来作处理，其中必须计算比例参数(Prop；Proportion)。另外，因为在合成时以基周为合成单位，即一次合成一个周期。因而，在一个音框合成的周期总长度，必须小于这个要合成的语音长度(Frame_len)，其残留未合成的语音长度(Frame_res＝Frame_len-Synths)将并到下个音框处理，故下一个音框要合成的语音长度即为，Frame_len＝Frame_res+180。其中，Prop＝(Synths+PitchI)/Frame_len。

以下详细介绍本发明利用上述语音编码方法所设计的语音音素译码器。

首先，请参考图1，本发明的语音音素译码器的系统架构图，其包括了以下几个部分：初始化单元10、加载参数单元20、平滑处理单元30、合成单元40及语音输出单元50。

首先，初始化单元10产生一初始化信号(initial)，加载参数单元20依此设定各项参数初值。接着，加载参数单元20即依序加载所要合成的音框(Frame)当中的所有参数值，也即，一次加载一个音框当中的三项语音参数。接着，平滑处理单元30将加载参数单元20所加载的各项语音参数加以平滑处理后，一次处理一个音框当中的一个基周(Pitch)，并将这些经过平滑处理的参数送至合成单元40合成为语音，并送出一个“下一个音框”(Next_Frame)的信号至加载参数单元20，让其加载“下一个音框”的语音参数。合成单元40所合成的语音信号送至语音输出单元50即可输出语音，并且送出“下一个基周”(Next_Pitch)信号至平滑处理单元30，让平滑处理单元处理“下一个基周”的语音参数。

接下来，将以具体实施例来说明本发明的语音音素译码器，请继续参考图2，其说明了本发明的信号传输架构。初始化单元10产生初始化信号(initial)。加载参数单元20依初始化信号来设定各项初始值，此外，并负责加载语音音素的三项参数(RCj(10)，RMSj，Pitchj)，并保留上一个音框的三项参数(RCO(10)，RMSO，PitchO)，最后，依据平滑处理单元所送来的每一次音框处理的合成长度(L)以产生下一个音框处理的长度(M)。平滑处理单元30则接收加载参数单元20所传送的各项参数后，将此次所处理音框的三项参数(RCj(10)，RMSj，Pitchj)加以平滑处理，并将处理后的参数(RC(10)，RMS，Pitch)，一次以一个基周(Pitchj)为单位，传送至合成单元40，并送出下一个基周(Next_Pitch)信号，要求平滑处理单元30传送下一个基周的参数，以及，送出一个合成长度(L)至加载参数单元20，也即，此次合成语音的长度。最后，合成单元40将三项参数合成后，送至语音输出单元50以输出语音。

其中，各项参数的位信号，如图2所示，初始化信号(initial)为一位的控制信号；RCO(10)为带符号(signed)的八位信号；RMSO为未带符号(unsigned)的十六位信号；PitchO为未带符号的八位信号；RCj(10)为带符号的八位信号；RMSj为未带符号的十六位信号；Pitchj为未带符号的八位信号；合成音框长度M为未带符号的九位信号；合成长度L为未带符号的九位信号；RC为带符号的八位信号；RMS为未带符号的十六位信号；Pitch为未带符号的八位信号；Next_Frame为一位的控制信号；Next_Pitch为一位的控制信号；合成单元所送出的为带符号的十六位信号。

接着请参考图3，其说明了从初始化单元至加载参数单元的信号产生架构图。首先，初始化单元10所产生的初始化信号“initial”，让加载参数单元20设定各项参数初值，包括已合成长度(L＝0)、合成音框长度(M＝180个取样点，以取样率为每秒8000次为例)、振幅(RMS₀＝0)(RMS_j；Root of Mean Square)、音高(Pitch₀＝Pitch₁)(Pitch_j；第j个音框的基本周期)及频谱参数(RC₀(i)＝RC₁(i)，i＝0，1，2，…，9；ReflectionCoefficients)等等。读取数据的动作由数据加载单元24执行，其中，位序列(54位)为从语音数据库所读入的语音音素数据，经由参数译码器241译码为RCj(10)、RMSj与Pitchj等部分，分别输入至第二缓存器25当中。接着，第二缓存器25即将所读入的数据传送至下一个部分，也即，平滑处理单元30以及第三缓存器26。第三缓存器26将此次所读入的数据暂存，即可作为下一个音框所读入的语音参数的参考数据，也即，当接收到平滑处理单元的“下一个音框”(Next_Frame)的命令时，即将此次参数设定为上一个音框的参数值(RCO(10)，RMSO，PitchO)，并输入至平滑处理单元30作平滑处理的参考数据。

此外，由于一开始的音框长度(180)常常不会整倍于基周的长度，所以会有剩余的部分。因此，将此剩余的部分并入下次的音框长度当中，说明如下：首先初始化信号(initial)输入至缓存器21及计算合成长度单元33当中，并将缓存器21及计算合成长度单元33输出L清为零，此时加法器23输出即为第一个合成音框长度(M＝180)。接着计算下一个合成音框长度，缓存器21将上一次合成音框长度(9位)加载减法器22当中，减去前次的已合成长度(L)，并由加法器23加上音框长度默认值常数(默认值常数＝180)，即可计算出下一个音框的长度(M＝M-L+180)。

由加载参数单元所加载的参数，接着由平滑处理单元30加以平滑处理，请参考图4。其中，“平滑处理单元30”包括音高参数平滑处理单元31、计算比例单元32、计算合成长度单元33、振幅参数平滑处理单元34、频谱参数平滑处理单元35及一个缓存器36。

平滑处理单元30在接收到两次音框的参数数据后，也即，此次音框语音音素参数(RCj(10)、RMSj、Pitchj)与上一次语音音素音框参数(RCO(10)、RMSO与PitchO)，即开始作平滑处理，每隔一个基周长度(Pitch)做一次平滑处理。

首先，由计算比例单元32计算出比例参数，也即，Prop＝L/M。接着，基周参数(Pitchj，PitchO)由音高参数平滑处单元31作处理，以得出经处理的基周，也即：Pitch＝PitchO*(1-Prop)+Pitch_j*Prop，计算出的基周(Pitch)，即可送至缓存器36暂存。振幅参数(RMSj，RMSO)则由振幅参数平滑处理单元34作平滑处理，得出经平滑处理的振幅参数，也即，RMS＝RMSO*(1-Prop)+RMS_j*Prop，同样送至缓存器36暂存。频谱参数(RCj(10)，RCO(10))的平滑处理则由频谱参数平滑处理单元35负责，得出经平滑处理的频谱参数，也即，RC(i)＝RCO(i)*(1-Prop)+RC_j(i)*Prop，i＝0，1，…，9，同样地，将经处理后的频谱参数存至缓存器36当中。

存至缓存器36当中的音高参数与振幅参数以及频谱参数送至下一个部分，也即，合成单元40当中后，合成单元40合成此次基周的参数后，送出“下一个基周”(Next_Pitch)信号，此信号可控制缓存器36的输出，当缓存器接收到此信号时，即加载下一个基周的经平滑处理的语音参数。“平滑处理单元30”当中的计算合成长度单元33接受“下一个基周”(Next_Pitch)信号后，即计算此次合成的音框长度，得出L＝L+Pitch，if L＞M then L＝0；否则，送出“下一个音框”(Next_Frame)信号至加载参数单元20，进行下一个音框参数的加载，并令L＝0。其中，初始化单元10所送出的初始化信号(initial)则送至计算合成长度单元33当中，并令L＝0，用以起始化本单元。

接下来的工作由合成单元40来进行，请参考图5，其包括了脉冲序列产生器41、声道滤波器42、振幅调整单元43以及内存44。

脉冲序列产生器41输出一个周期的脉冲信号，此脉冲信号乃仿真人声带振动的波形，预先储存于其中所包括的内存中，撷取其前长度为Pitch的值，若Pitch大于内存所储存的脉冲序列长度，超过部份补0。例如：内存所储存的脉冲序列为{p[1]，p[2]，…，p[25]}，则若Pitch＞25，输出e(n)＝{p[1]，p[2]，…，p[25]，0，…，0}若Pitch＜＝25，输出e(n)＝{p[1]，p[2]，…，p[Pitch]}。

声道滤波器42为仿真人口腔、鼻腔、声道等，对声带振动所产生的共振效应，可以一全极点滤波器(All Pole Filter)或一点阵滤波器(Lattice Filter)来实现，其输入滤波器参数为RC(i)，i＝0，1，2，…9。

将脉冲序列通过声道滤波器42后，再经过振幅调整单元43，即可合成语音信号，振幅调整单元43由RMS计算振幅所需调整的量。语音合成后，由振幅调整单元43送出”下一个基周”(Next_Pitch)至平滑处理单元30。

内存44则负责暂存声道滤波器42与振幅调整单元43所计算的语音信号。

最后，将平滑处理单元30处理后的参数经由合成单元40合成一个基本周期语音，从内存44中送至语音输出单元50，即可输出语音。语音输出单元50至少有一个内存缓冲器(Memory Buffer)，让每次合成的语音周期储存到其中。

虽然本发明以前述的较佳实施例公开如上，然其并非用以限定本发明，任何本领域的普通技术人员，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，因此本发明的保护范围以权利要求为准。

Claims

1.一种语音音素译码器，其特征在于，所述译码器对以一振幅参数(RMS)、一基周参数(Pitch)与一以线性预估编码方式编码(LinearPredictive Coding，LPC)的频谱参数(RC’s)所编码的语音数据加以译码，该经编码的语音数据存于一语音数据库，该语音音素译码器包括：

一初始化单元，用以产生一初始化信号；

一加载参数单元，与该初始化单元相连接，用以接收该初始化信号，并以一音框(Frame)为单位从该语音数据库中加载一此次音框的语音数据；

一平滑处理单元，用以接收该此次音框的语音数据，并以该此次音框中的一基周(Pitch)为长度，运用内差法分别处理该此次音框的语音数据中的该振幅参数、该基周参数与该频谱参数，发出一下一个音框的信号至该加载参数单元以加载该下一个音框的语音数据；

一合成单元，用以接收该平滑处理单元所处理的该基周的语音数据并合成为一语音信号，该合成单元处理完该基周的语音数据后，发出一下一个基周的信号至该平滑处理单元以处理该下一个基周的语音数据；及

一语音输出单元，用以接收该合成单元所传送的语音信号以输出语音。

2.如权利要求1所述的语音音素译码器，其特征在于，所述的加载参数单元包括一参数译码器，其依据该基周参数、该振幅参数与该频谱参数的编码顺序，译码并平行输出至该平滑处理单元。

3.如权利要求1所述的语音音素译码器，其特征在于，所述的加载参数单元系于加载该音框的语音数据后，暂存该此次音框的语音数据，并于接收由该平滑处理单元所传送的该下一个音框的信号后，加载该下一个音框的语音数据，并将该此次音框的语音数据与该下一个音框的语音数据送至该平滑处理单元。

4.如权利要求1所述的语音音素译码器，其特征在于，所述的平滑处理单元以内差法处理该此次音框的语音数据与该下一个音框的语音数据并输出至该合成单元。

5.如权利要求1所述的语音音素译码器，其特征在于，所述的平滑处理单元包括：

6.如权利要求1所述的语音音素译码器，其特征在于，所述的合成单元包括：

7.如权利要求1或6所述的语音音素译码器，其特征在于，所述的合成单元还包括一内存，用以暂存该合成语音信号与该还原语音，并输出该还原语音至该语音输出单元。