CN1210688C

CN1210688C - 语音音素的编码及语音合成方法

Info

Publication number: CN1210688C
Application number: CNB021059357A
Authority: CN
Inventors: 杨凰琳
Original assignee: Inventec Besta Co Ltd
Current assignee: Inventec Besta Co Ltd
Priority date: 2002-04-09
Filing date: 2002-04-09
Publication date: 2005-07-13
Anticipated expiration: 2022-04-09
Also published as: CN1450528A

Abstract

本发明涉及一种语音音素的编码及语音合成方法，本发明以离线的方式对语音进行取样，将经取样的语音数据依照其音素的浊音、清音与静音加以分类为三种音素，将其中的浊音音素依照音高参数、振幅参数与频谱参数加以编码，并将清音音素直接记录，将静音音素记录其静音时间长，在将这些经编码的音素数据记录至语音数据库；接着，只要将语音数据库当中经编码的音素数据加以译码与合成即可还原语音；所取出的浊音音素只要经过一个依据音高参数振幅参数与频谱参数设计的语音合成器加以合成，将清音音素直接取出，将静音音素播出静音长度，即可合成出接近原音的语音。

Description

语音音素的编码及语音合成方法

技术领域

本发明涉及一种语音编码及语音合成方法，特别是一种以音素为基础并运用LPC技术来对语音编码与译码的方法。

背景技术

在中低档的电子辞典市场中，标榜以真人发音的功能，已成为电子辞典主要诉求的特色。为了提升中低档电子辞典在市场的竞争力，各家厂商无不专注于语音功能的改进并且同时要能降低生产成本。有些厂商所强调的真人录制特定语音，由于其数据量大，且系统输出的种类受极大限制，相当耗费成本，所以，大多数厂商都以语音分析合成的方式来接近真人发音，可让电子辞典能节省语音数据存储器并提高声音品质。

这种语音分析合成的技术是依照一定的处理方法，分析语言信号并将其提出必要的特征参数，并用这些参数按照语音产生的模型合成为语音的技术。由于语音分析合成的过程是将声音信号以最少的数字数据来代表原始信号，所以，一般也称的为语音压缩技术，其牵涉到语音的取样以及编码与译码等技术。如语音波形编码中的适应性差量脉冲码调变(Adaptive Delta Pulse Code Modulation；ADPCM)的编码方式，其重点在于使重建的信号与原始信号波形愈像愈好；从数学的观点而言，其采用最小均方误差的准则(Minimum Mean Square Error Criterion)，但ADPCM方法的位率小于24kbps(Kilo Bit Per Second)，会有经还原后的声音品质变差，且运算量大的问题。

以上所述的语音分析合成，其特色是具有可大幅压缩语音数据量，也可额外有保密通信的优点(运用加密技术)。不过，其缺点为语音合成的轻重、分音、音高(音调)往往与自然语音有所差距，造成不自然，甚至不易识别的缺点。

即便是经过压缩的语音分析合成技术，仍然有节省内存空间的可能性。此外，现有的语音分析合成技术多以线上(orline)的方式运作，所以，必须加上判断语音是否“浊音音”的动作，常常在判断的过程中，会将“浊音”与“清音”的部分判断错误，造成语音合成时产生声音沙哑的情形。

于是，如何能让语音分析合成技术所产生的话音，一方面能达到接近自然语音，也即，音质的改善；另一方面，如何能达到最大压缩的程度，也即，最不耗占内存空间；再一方面，如何能让语音分析合成的过程较为简单；以上几点均成为重要的研究课题。

发明内容

鉴于以上现有技术的问题，本发明的目的在于，提供一种语音音素的编码及语音合成方法，其可于离线(off-line)的状况下，事先将语音的音素区分为浊音音素与清音音素，加以分别处理，可于语音合成时简化语音合成的过程。

将浊音语音音素加以编码，计算振幅、音高及频谱参数并进行编码，其中，频谱参数以LPC参数编码方式；而对于清音(气音；unvoiced)语音音素文件保留其原音不压缩；静音部分则只记录静音长度。解压缩时，只需将浊音语音部份，利用内插方式将振幅、音高及频谱参数做平滑处理，再利用语音合成器，还原浊音语音；清音部分只需依据地址取出原语音加以还原；而静音部分，只需取出静音时间长即可。

依据本发明所揭露的技术，本发明提供一种语音音素的编码及语音合成方法，其包括两个阶段，语音数据库建立阶段与语音合成阶段：

语音数据库建立阶段，包括下列步骤：将该语音音素区分为一浊音、清音与静音音素；将该浊音音素压缩编码，并将该清音音素进行一地址编码与将该静音音素进行一时间长度编码；以及，储存经压缩编码的该浊音音素并储存该清音与静音音素至该语音数据库。

一旦使用者键入文字数据，即可分析该文字数据的音素并读取该语音数据库的音素数据，接着，即进入下一个阶段。

语音合成阶段依据该语音数据库的该音素数据，合成该文字数据的语音，包括下列步骤：读取该音素数据的浊音音素码、该清音音素码与该静音音素码；以及，依据该音素数据的浊音音素码经由一语音合成器合成一浊音语音，并依据该语音数据的清音音素码产生一清音语音，并依据该静音音素码产生一静音语音。

在语音数据库建立阶段中，浊音音素依据音高参数、振幅参数与频谱参数加以压缩编码；清音音素则依据音高参数与地址参数加以编码；静音音素则依据音高参数与时间参数加以编码。

在语音合成阶段，只要依据语音编码的规则，取出语音数据库当中的浊音语音码、清音语音码与静音语音码，并分别加以译码与合成即可获得一合成的语音。其中，浊音语音经由一语音合成器，此语音合成器是依照音高参数、频谱参数以及振幅参数三者加以设计。

具体地讲，本发明一种语音音素的编码及语音合成方法，以离线方式对一语言进行取样，并将经取样的该语言的语音音素进行编码与语音合成，包括下列步骤：

建立一语音数据库，包括下列步骤：

将该语音音素区分为一浊音、清音与静音音素；

将该浊音音素压缩编码，并将该清音音素进行一地址编码与将该静音音素进行一时间长度编码；及

储存经压缩编码的该浊音音素并储存该清音与静音音素至该语音数据库；

当使用者键入一文字数据时，分析该文字数据的音素并读取该语音数据库的一音素数据；以及

依据该语音数据库的该音素数据，合成该文字数据的语音，包括下列步骤：

读取该音素资料的浊音音素码、该清音音素码与该静音音素码；及

依据该音素数据的浊音音素码经由一语音合成器合成一浊音语音，并依据该语音数据的清音音素码产生一清音语音，并依据该静音音素码产生一静音语音。

所述的语音音素的编码及语音合成方法中，取样该语言的取样率为每秒8千次。

所述的浊音音素的压缩编码依据一音高参数、一振幅参数与一频谱参数加以编码；该清音音素的该地址编码以该音高参数与一地址参数加以编码；该静音音素的时间长度编码以该音高参数与一时间参数加以编码。

所述的浊音音素的该音高参数与该振幅参数以一个帧(frame)为单位，逐步计算参数值。

所述的频谱参数的编码系以一线性预估编码(Linear PredictiveCoding，LPC)方式加以编码。

所述地址参数是记录该经取样的该语音的该清音音素的储存地址。

所述时间参数是记录该经取样的该语音的该静音音素的静音时间长度。

所述清音音素的音高参数值定义为1，该静音音素的音高参数值定义为0。

所述浊音语音的合成依据该音高参数、振幅参数与频谱参数以合成该浊音语音，其中该语音合成器包括：

一脉冲序列产生器，用以将该音高参数输出为一激发信号(ExcitationSignal)；

一声道滤波器，依据该频谱参数作为该声道滤波器的滤波参数，用以接收该激发信号并将的输出为一语音信号；以及

一乘法器，用以将该语音信号乘上该振幅参数以输出一还原语音。

所述清音语音的产生系依据该地址参数读取该语音数据库的一清音语音音素，并依据该清音语音音素产生该清音语音。

所述的静音语音的产生依据该时间参数输出符合该时间参数的时间长度的一振幅为0的静音。

本发明的语音音素编码及译码的方法，可以离线(off-line)方式进行，可将原本音素文件的内存容量压缩至2M字节(bytes)以下(2.4kbps)，可大量节省内存空间，并提高音质为每个取样为16位，解压缩时利用平滑处理，则可改善部份音素连结不好的语音。再者，因为本编码方法将浊音与清音语音个别处理，浊音部份不会发生在一般语音编码时，所产生的浊音、清音误判的状况，造成声音沙哑等发音不良问题；清音部份则保留气音原音，以维持最佳的气音效果。

有关本发明的特征等，配合附图最佳实施例详细说明如下。

附图说明

图1为本发明的语音音素的编码及语音合成方法的流程图；

图2为本发明的语音合成器方块图；

图3为本发明的仿真人声带振动图；

图4为本发明的语音音素译码流程图；

图5为本发明的语音合成器信号处理流程图；

图6A为单字“abbreviation”的原音语音波形；

图6B为单字“abbreviation”利用本发明加以编码与语音合成方法的语音波形；

图6C为单字“abbreviation”以一般方式编码与语音合成方法的语音波形；

图7A为图6A的频谱图；

图7B为图6B的频谱图；及

图7C为图6C的频谱图。

具体实施方式

若以发音为基础，大部分语言都是多音节语言。以英文为例，若把英文细分为由各个不同的音标所组成的不同的单音节，则可将英文归纳出几千个基本的发音单元，这些发音单元即为音素，而每个不同的音素本身都含有其音高(pitch)。所以，可以利用这种以音素为发音基础的语言，反过来以音素做为该语音的编码与译码，本发明即为依据此种概念的应用。

其次，由于电子辞典市场的语音处理较为规则，且其要求的数据压缩量较大，所以，本发明运用线性预估编码(Linear Predictive Coding，以下简称LPC)的方式作为本发明的编码与译码的方式。此外，线性预测编码(Linear Prediction Coding；LPC)，是基于语音发声模型，而估计信号的声道滤波器(Vocal Tract Filter)参数及基本周期(Pitch)达到压缩的目的，可达到非常低的位率(Low Bit Rate)，所以相当适合作为本发明的编码方法。

接下来，请参考图1，本发明的语音音素的编码及语音合成方法的流程图，包括下列步骤：区分浊音、清音与静音音素(步骤10)；进行音素编码(步骤20)；储存经编码的浊音音素码、清音音素与静音音素(步骤30)；将音素译码与平滑处理(步骤40)；以及，合成语音(步骤50)。其中，从上述的编码与译码流程中，事实上包括了两个阶段，也即，编码阶段(步骤10--30)与译码阶段(步骤40-50)。其中，编码阶段所着重的在于语音数据库的建立，所以，也可称的为语音数据库建立阶段；而译码阶段则是在电子辞典使用者在按下所想要发音的文字时，电子辞典即可依语音数据库的建立规则，将文字拆解为语音音素，并依本发明的编码规则取出所编码的语音音素再加以译码，进而还原与合成语音，所以，本阶段也可称的为合成阶段。以下将针对个别的步骤逐一说明：

首先，在步骤10当中，由于语音可以从文字的发音部分区分出语音音素(phoneme)，而语音音素也可以加以分类，所以，本发明运用语音音素当中的浊音(voiced)、清音(unvoiced)与静音的区别来做基本分类方式。由于浊音的音素为周期性(periodic)的语音部分，所以，可进一步压缩；而清音的音素为非周期性(non-periodic)的语音部分，所以，不进行压缩；静音则直接记录其长度即可。

以电子辞典当中的英文发音为例，由于其字母以及音标(phoneticalphabet)的配对有一定的规则，也即，以每个音节为单位，可以区分出不同音节的浊音与清音部分，所以，可事先通过英文数据库当中的音标数据加以区别语音的浊音与清音。例如，“清音”的部分有f、p、s、t等，例如：free的音标[fri]处理后为[f-ri]。至于国语与其它语言的语音处理，道理也同。

通过语言本身的信息，即可将语音的浊音与清音在离线(off-line)的状况下，通过事前处理，也即，于语音编码前，将所有的语音音素加以区分为浊音与清音两类。其中，浊音音素的处理，系切除音节音素的声母气音，只留韵母浊音音。而清音音素的处理，系保留清音子音与音节音素的声母气音，而将语音静音部份(可能含有些微噪声)全部设为零，只记录静音长度。

将语音的音素分类后，即可进入步骤20，进行音素编码。由于本发明在步骤10当中，将语音音素分为“浊音”、“清音”与“静音”三种，因此，本发明将针对三种事先分类好的语音音素加以编码。本发明的编码方式系将语音编码的三个主要参数加以编码，三个参数分别为：振幅参数的均方根值(RMS；root of mean square)、音高(Pitch，也即音调)参数及频谱参数(RC’s；反射系数，reflection coefficients)。

其中，振幅参数与音高参数的获得，系以一个帧(一个帧frame＝180取样点，8kHz的取样率)为单位，逐步计算出其参数值。而频谱参数(RC’s)的获得则依LPC的方式计算而得，也即，依照下列方程式计算而得：

A0/(1+a₁Z^-1+a₂Z^-2…+a₁₀Z^-10)

其中，A₀系为振幅参数，Z系为，a₁-a₁₀即为LPC参数。

由以上的三种参数，一个浊音语音帧(180samples)可编码为54bits，压缩位率相当于2.4kbps，各个参数的位配置如下：

Pitch(6bits)，RMS(6bits)，RC’_s(RC₀-RC₉)

6

5

4

3

至于清音的语音帧，由于本发明直接将其记录起来，所以，定义其音高(Pitch)参数值为1，其编码方式如下：

Pitch(6bits)Index_of unvoiced_speech

6

8(Idx)

其中，Idx为实际语音(气音)的指针，也即，其所储存的地址。静音的语音帧，设其音高参数值为0，其编码方式如下：

Pitch(6bits)Length_of_Silence

6

8(Ls)

其中，Ls为清音的长度。

接下来，即可将以上所编码的语音数据记录至语音数据库，也即，步骤30。以上的步骤10-30已说明了本发明的编码规则，也就是利用语音音素本身的“浊音”、“清音”与“静音”三个部分，用不同的方式加以编码。如此，即可省去相当大的内存空间。

此一建立好的语音数据库，即可用来作为语音合成的数据基础。也就是，读取语音数据时以音高参数为起始的读取点，也即，若Pitch＞1，则共读取54bits，译码还原成浊音语音；若Pitch＝1，则再读取8bits(Idx)，根据Idx加载实际语音气音数据，以英文为例，所有清音气音数据约占内存120kbytes；若Pitch＝0，则再读取8bits(Ls)，译码还原成静音，长度Ls*8。

换句话说，由于本发明采取的技术策略为将语音的“浊音”、“清音”与“静音”的部分分开处理，所以，三者经编码的数据型态有所不同，如上所述的各种声音的位配置。于是，在合成语音时，只要依据本发明编码的规则，反过来操作即可。以下，将介绍合成阶段的操作方法，也就是步骤40-50。

首先，先介绍音素译码与平滑处理的部分，也即，步骤40。在步骤40当中，也需依照、三种音素分别加以处理。

先参考“浊音”音素方面，请参考图2，本发明的语音合成器100方块图。在语音合成时，先依据使用者所键入的文字数据，依音素拆解法则取出适当的语音音素，其做法为，先利用可产生周期为浊音音素的音高的脉冲序列(Impulse Train；Excitation Signal)产生器101；接着，将的通过一个声道滤波器(Vocal Tract Filter)102，此声道滤波器102的频率响应由RC’S值决定；然后，根据RMS值经由乘法器103调整输出语音能量。

其中，脉冲序列产生器101是仿真人声带的振动，请参考图3，其产生方法是将序列p[25]＝{8，-16，26，-48，86，-162，294，-502，718，-728，184，672，-610，-672，184，728，718，502，294，162，86，48，26，16，8}组成一周期性序列e(n)，周期即为音高(pitch)参数。若Pitch＞25，则e(n)＝{p[1]，p[2]，…，p[25]，0，…，0}；若Pitch＜＝25，则e(n)＝{p[1]，p[2]，…，p[Pitch]}。然后e(n)再通过一个LowpassFilter(1+0.75z^-1+0.125z^-2)，得到声道滤波器的输入激发信号(ExcitationSignal)。

至于声道滤波器102，其为仿真口腔信道的频率响应，滤波器参数即为依LPC方式所计算出的频谱参数，RC’s，通过声道滤波器102即可实现，其输入信号为e(n)，输出为语音s(n)。由于LPC处理过程，在编码时有做预强调处理(Pre-emphasis)(1-0.9875z^-1)，其用以加强高频信号的正确运算，故译码时，需加一个解预强调滤波器(De-emphasisFilter)1/(1-0.9875z^-1)。

在图2的乘法器中，将增益值(Gain)加入，也即，将译码后语音信号的RMS值乘入经声道滤波器102的译码值，也即，上述的振幅参数，将的调整为与编码前相同即可，其中：

Gain = RMS / \sqrt{\frac{1}{N} Σ_{n = 0}^{N} s^{2} (n)}

另外，在浊音音素的语音合成时，需要将音高(Pitch)加以同步。同步的方法系在语音合成时，以一个音高为单位，合成连续几个周期后，合成语音长度必须≤目前帧总样本点数(即：帧长度(180)+前一合成帧剩下样本点数)，剩下未满总样本点数的样本点，并于下个帧处理。如图3所示，以取样率为每秒8千为例，一个帧的长度约为180点，在取完五个音高后，由于不满180点，剩余点数又不足以取一个音高的长度，因的将其编入下一个周期继续，以此类推。

最后，即进入步骤40的第二阶段，平滑处理，也即，将音高、振幅与RC’S参数平滑处理。参数是以内差方式，做平滑处理，

其中，合成参数＝上一帧参数*(1-Prop)+目前帧参数*Prop。

其中，0≤Prop(Proportion；比例)≤1，

Prop＝目前帧已合成样本点数/目前帧总样本点数。

有于浊音音素的编码过程较为繁复，所以，上述以较清楚的说明来描述其合成过程。接下来，将针对三种不同的音素合成做一个统整的介绍，也即，一套合成语音的流程，请参考图4，本发明的语音音素译码流程图，通过此流程图，将可更清楚说明步骤40与50的具体操作。

在整个语音数据读取的比特流程中，由于本发明的编码采取音高(pitch)参数编于数据的最前端的方式，并且，“浊音”的音高参数依计算而取得，“清音”的音高参数为1，“静音”的音高参数为0，所以，可以音高参数的数据加以判断其为“浊音”、“清音”或“静音”数据，并分别加以处理。由于音高参数占6位的数据，所以，先读入6位(步骤401)，以判别数据为“浊音”、“清音”或“静音”。如果，音高＞1(步骤402)，则其必为浊音音素，接着，读取剩余的48个位数据，也即，振幅参数(RMS)与频谱参数(RC’s)，读入48位(步骤408)后，再经语音合成器处理(步骤409)即可将经编码的“浊音”语音加以还原；如果，音高＝0(步骤403)，则其必为静音，则读入8位(步骤404)，以读取静音的长度，并产生Ls*8点静音(步骤407)；如果，音高不大于1，又不等于0，则音高参数必为1，则读入8位(步骤405)，也即，搜寻气音的储存地址，根据数据库读入气音样本点(步骤406)。最后，即可输出语音(步骤410)，将原来的语音的“浊音”、“清音”与“静音”的部分，分别加以还原。

请继续参考图5，本发明的语音合成器信号处理流程图，通过此图可以更清楚地说明“浊音”音素的合成。

在“浊音”的数据中，其约占54个位，以下即为合成的流程。首先，在步骤411中，先读入第一个帧参数，接着，在步骤412中，

令N＝0，L＝180，

音高0＝音高

RMS0＝0，

RC0_i＝RC_i，i＝0，1，…，9

以读取RC参数，接着，即可进行参数平滑的动作，以让音质更好，此即步骤413，如下所示：

prop＝N/L；

音高_j＝音高0*(1-prop)+音高*prop

RMS_j＝RMS0*(1-prop)+RMS*prop；

RC_j(i)＝RC0(i)*(1-prop)+RC(i)*prop

i＝0，1，…，9

其中，prop即为比例(Proportion)，L则为帧的大小，一开始时，L＝180。

接着，如果N+音高_j＞L(步骤414)，也即，取到大于一个帧的长度后，重新读取下一个帧，也就是，进入步骤415；

令L＝L-N+180

N＝0

音高0＝音高

RMS0＝RMS

RC0_i＝RC_i，i＝0，1，…，9

接着，继续步骤416，读入下一个帧参数。

如果，N+音高_j非大于L，也就是，取出音高参数、RMS与RC’s参数，进行步骤417，经语音合成器处理，即可输出语音(步骤418)，接着，继续下一个语音帧的处理，也就是，步骤419：

令N＝N+音高_j

j＝j+1

通过上述的语音合成流程，即可将经压缩的浊音音素加以译码并合成为浊音语音。

图6A为单字“abbreviation”的原音语音波形，图6B为利用本发明将“abbreviation”加以编码及译码后的语音波形，图6C为其经由一般现有技术的编码及译码后的语音波形；图7A--7C则分别为其频谱，由图6A与图6B，以及图7A与图7B可看出，利用本发明的编码与语音合成方法，不仅可解出非常近似的音高及频谱，且其噪声比现有的方法小很多，再者，经过平滑处理后，使本发明的发音苛比现有技术图7C的发音更平顺自然。

虽然本发明以前述的较佳实施例公开如上，然其并非用以限定本发明，任何本领域的普通技术人员，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，因此本发明的保护范围以权利要求为准。

Claims

1.一种语音音素的编码及语音合成方法，其特征在于，以离线方式对一语言进行取样，并将经取样的该语言的语音音素进行编码与语音合成，包括下列步骤：

建立一语音数据库，包括下列步骤：

将该语音音素区分为一浊音、清音与静音音素；

储存经压缩编码的该浊音音素码并储存该清音与静音音素码至该语音数据库；

当使用者键入一文字数据时，分析该文字数据的音素并读取该语音数据库中该文字数据所对应的一音素数据；以及

读取该音素数据的浊音音素码、该清音音素码与该静音音素码；及

2.如权利要求1所述的语音音素的编码及语音合成方法，其特征在于，取样该语言的取样率为每秒8千次。

3.如权利要求1所述的语音音素的编码及语音合成方法，其特征在于，所述的浊音音素的压缩编码依据一音高参数、一振幅参数与一频谱参数加以编码；该清音音素的该地址编码以该音高参数与一地址参数加以编码；该静音音素的时间长度编码以该音高参数与一时间参数加以编码。

4.如权利要求3所述的语音音素的编码及语音合成方法，其特征在于，所述的浊音音素的该音高参数与该振幅参数以一个帧为单位，逐步计算参数值。

5.如权利要求3所述的语音音素的编码及语音合成方法，其特征在于，所述的频谱参数的编码系以一线性预估编码方式加以编码。

6.如权利要求3所述的语音音素的编码及语音合成方法，其特征在于，该地址参数系记录该经取样的该语音的该清音音素的储存地址。

7.如权利要求3所述的语音音素的编码及语音合成方法，其特征在于，该时间参数系记录该经取样的该语音的该静音音素的静音时间长度。

8.如权利要求3所述的语音音素的编码及语音合成方法，其特征在于，该清音音素的音高参数值定义为1，该静音音素的音高参数值定义为0。

9.如权利要求3所述的语音音素的编码及语音合成方法，其特征在于，该浊音语音的合成是依据音高参数、振幅参数与频谱参数以合成该浊音语音，其中该浊音语音合成步骤包括：

通过一脉冲序列产生器，将该音高参数输出为一激发信号；

依据该频谱参数作为一声道滤波器的滤波参数，该声道滤波器接收该激发信号并将其输出为一语音信号；以及

通过一乘法器，将该语音信号乘上该振幅参数以输出一还原语音。

10.如权利要求3所述的语音音素的编码及语音合成方法，其特征在于，该清音语音的产生系依据该地址参数读取该语音数据库的一清音语音音素，并依据该清音语音音素产生该清音语音。

11.如权利要求3所述的语音音素的编码及语音合成方法，其特征在于，所述的静音语音的产生依据该时间参数输出符合该时间参数的时间长度的一振幅为0的静音。