CN1085367C

CN1085367C - 汉语识别合成型声码器及其韵律信息处理方法

Info

Publication number: CN1085367C
Application number: CN94118778A
Authority: CN
Inventors: 易克初; 程俊
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 1994-12-06
Filing date: 1994-12-06
Publication date: 2002-05-22
Anticipated expiration: 2014-12-06
Also published as: CN1122936A

Abstract

本发明属于电通信技术，特别是涉及极低比特率声码器，目的是为了制造比特率低于250比特/秒而能输出高质量语音的通信设备。本发明基于语音识别与合成技术实现以音节为单位的编码，音节种类包括了普通话口语中的各种音节，运用音联、基音轮廓线、强度轮廓线等韵律特征以确保输出语音的高可懂度，语音输入方式兼容连续语音与基于孤立词的断续语音两种输入方式，都能输出流畅的语句，从而成为一种现实可行的语音通信手段。

Description

汉语识别合成型声码器及其韵律信息处理方法

本发明属于电通信技术，特别是涉及极低比特率声码器。

近年来，比特率低于1000bps(比特/秒)的极低比特率语音编码技术的研究受到普遍关注，因为短波信道中的话音通信、电子邮箱中的语音邮件业务等许多场合都迫切需要这种技术。如果语音的比特率可以压缩到200bps以下，则其比特率可以与电报相比拟，这时还可开发许多前所未有的新型语音处理应用。

但是，近十几年来发表的大量文献表明：要将语音数据的比特率压缩到400bps以下，采用基于语音分析与合成的各种编码算法所能获得的输出语音质量很差，很难达到能让公从接受的程度。其原因是因为这种分析合成型声码器的编码单元是一帧或几帧语音信号。一帧语音信号通常是10毫秒到30毫秒的一段信号，其特性变化无穷，用一个有限符号集来编码即意味着恢复的语音信号难免产生不可容忍的失真。

与此相对应的识别合成型声码器是以语音单位(或称语音基元，如音素、音节或词)为编码单元编码的。任一种语言的音素或音节是一个有限数目的集合。这种声码器在发送部分采用语音识别技术进行语音基元识别和编码，接收部分根据收到的语音基元代码串和某些附加的韵律信息重新合成语音。这种声码器需要在信道中传输的参数很少，而在接收端是按规则合成语音，因此可以以极低的比特率传输或存贮语音参数却能恢复出高质量的语音。

1986年8月6日公开的中国发明专利——极低数码率汉语识别声码器(专利号CN85.1.00576A)就是根据这个原理提出的将汉语连续语音以音节、声母、韵母为基础进行识别、编码、合成以构成极低比特率声码器的基本思想，但这一专利尚存在某些缺陷，使之难于实施，即使实施成功也不能保证获得高可懂度的输出语音。其缺陷主要表现在：

1.音节表中的音节只考虑了普通话中的1300个常规有调节音节，没有考虑一般使用者所说普通话口语中经常出现的特殊音节，如儿化音节、轻声音节，以及因使用者发音习惯或语言环境影响而产生的在常规音节之外的音节。这一缺陷必然导致输出语音自然度、可懂充降低，甚至因所缺音节的错误取代而产生语意表达错误。

2.没有考虑到韵律特征对合成语句的可懂度的重要作用，遣漏或忽视了一些关键性的韵律参数的运用，因而无法保证输出语音的高可懂度。例如：信道中没有传输能反映语句中词语划分的参数，接收端便无法进行词语划分，合成单元也就无法区分同一词中两个相邻音节间和不同词的两个相邻节间在协同发音影响方面的重大差别，不得不将语句中每一音节同等看待进行合成，其结果是严重损害合成语句中多音节词的清晰度和自然度，同时也将严重损害整个语句的自然度和可懂度，因为缺少词语划分依据的语句，常常无法解决语意上多义性的问题。无论是由人来听辨，还是用一个自动语音理解系统来处理都是这样。实测表明：这种合成语音的可懂度低于70％。

3.只考虑了连续语音输入的方式，没有考虑因连续语音输入时汉语全音节识别器的识别率无法保证，而不得不采用一个音节一个音节或一个词一个词地断续地输入的方式。此时如何保证输出语音流畅而自然的问题，该发明没有提出任何措施。

本发明的目的之一是提供一种能克服上述缺陷的汉语识别合成型声码器的新结构，目的之二是设计汉语识别合成型声码器的一种韵律信息处理方法。

本发明的汉语识别合成型声码器是由发送和接收两大部分和一个汉语音节表构成的，发送部分包括语音识别、韵律分析和参数编码三个单元，接收部分包括参数译码、韵律参数转换和语音合成三个单元，如图1所示。

输入语音经发端的发送部分逐个音节地进行自动识别，编码为音节代码，同时提取语音中的韵律特征参数，进行压缩编码；收端进行参数译码后，利用其中的音节代码串和韵律参数重新合成为语句输出。

音节表是发送和接收两部分共用的，表中包括了一般使用者普通话口语中常用的各种音节共1866个，即包括普通话中1300个常规有调音节，332个因发音人方言习惯或语音环境而产生的额外的有调音节，还有94个儿化音节和140个轻声音节。从表中可根据各音节的序号查到它的声、韵、调和是否儿化音节，反过也可以由声、韵、调和是否儿化音节确定其音节序号。

韵律信号处理单元包括发送部分韵律分析单元和接收部分的韵律参数转换单元，它们配合语音识别、语音合成以及参数编译码单元实现以下韵律信息处理方法：

①在发端自动检测音联参数，以标明当前音节与下一音节是否属于同一个多音节(包括双音节)词，收端利用这个音联参数进行词语划分，利用词内音节协同发音规则合成高质量的词语，进而构成语句。

②在发端逐帧地进行基音检测，并将每个音节的基音轮廓线(即基音周期随时间而变化的曲线)进行压缩编码，收端还原出基音轮廓线后，控制合成音节的基音轮廓线与原音节的基音轮廓线相似。

③在发端进行信号强度(短时能量或短时幅度)的逐帧检测，并将每个音节的幅度轮廓线(即信号强度随时间而变化的曲线)进行压缩编码，收端还原幅度轮廓线后，控制各合成音节的幅度轮廓线与原输入音节的幅度轮廓线相似。

识别单元中的端点检测方法和语音识别方法能兼容连续语音输入和孤立词(包括单音节词)输入两种方式，而通过利用音联参数来保证合成的语句流畅性和自然度。

本发明有益效果如下：

1.音节表中的音节包括一般使用者普通话口语中经常出现的音节，避免了因音节不全而造成的识别错误，其中儿化音节和轻声音节的运用，明显地改善了合成语句自然度和可懂度。

2.本发明的发送和接收部分都设有韵律信息处理单元，采用了多种韵律信息处理方法，在发端的发送部分提取韵律特征参数，并压缩码传输到收端，收端的接收部分有效地利用它们进行合成语音的韵律调整，因而对改善这种声码器输出语音质量起了关键性的作用。具体地说，有：

①音联参数的利用使合成语句的可懂度提高21.4％，即由68.5％提高到89.9％。其中后一数据为本组参加全国性测评的结果，登载在《智能机研究动态》1994年第6期上。前一数据是本组采用同样测试方法测得的。测听队反映：不用音联参数时，合成语音给人以一个字一个字地蹦出来的感觉，采用音联参数后，语句自然度显著地改善了。

②各音节的基音轮廓线信息的利用，明显地改善了输出语音的自然度和语调表达能力，同时使语句可懂度提高到99.6％，这是实测结果。

③各音节信号强度轮廓线的利用，进一步改善了输出语音的自然度和语气表达能力。

3.语音输入方式兼容孤立词输入方式，显著地增强了这种声码器的实用性和现实可行性，它使这种声码器的实施能打破连续语音中全音节识别技术困难的限制，而使它能立足于当前已成熟的技术，而且在应用中能适应语言不够标准的使用者。

下面结合图解进一步叙述各单元的结构及其实施方式：

图1是由一个识别合成型声码器的发送部分与另一个同类声码器

的接收部分构成的单工方式语音通信系统的总体框图

图2是音节表结构图

图3是语音识别单元的结构框图

图4是韵律分析单元的框图

图5是合成单元的结构框图

1.音节表：

图1中音节表的结构如图2所示，它是一个24×35×6的三维阵列，三维的下标分别表示声母、韵母和声调的序号。其中声母中有一个零声母；韵母中将资韵(即ZI，Ci，si，zhi，Chi，Shi，ri)单列为一个韵母，而不属韵母i；声调本来只有4种声调，考虑轻声和儿化音，所以排了6个元素。本方案定义了1866个音节，每个音节有一个序号，这些序号就按照其声、韵、调以及是否儿化存于上述三维阵列之中，三维阵列中没有相应音节的元素取为0值。如果已知一个音节的序号可以直接由这个表查到声、韵、调和是否儿化，反之亦然。显然，这个音节表是音节编译码过程不可缺少的。同时也在音节识别和语音合成过程中用作操作数据库的索引。

2.语音识别单元：

图1中的语音识别单元的结构如图3所示。

语音识别单元的目的是对输入语音中每个音节进行自动识别，以便进行编码。作为声码器应用，应该考虑词汇量不受限制，而且希望迟延尽可能小，因此要求识别单元能准实时地识别全部汉语音节。

由于汉语听写机研制的推动，汉语全音节识别技术已经部分地成熟起来，并且还在迅速改进之中。因此本方案的实施有许多成熟的技术可供借鉴。本方案的重点是针对汉语识别合成型声码器的一些特殊要求来进行结构和实施途径的设计，其中一个最突出的问题是语音输入方式问题。

作为声码器应用，语音识别单元通常都认为其输入语音的方式是连续的自然语言。因此，本方案中全音节识别器也针对连续语音中汉语全音节识别进行设计。但是，本方案也考虑到连续语音中的汉语全音节比孤立音节的识别要困难得多，为确保各种不同的使用者都能达到足够高的音节识别正确率，本方案还设计了另一种输入方式——孤立音节或孤立词输入方式，即既允许一个字一个字地说，也允许一个词一个词地说，如果仍然发生个别错误，还可在发现错误时用最简单的键盘操作纠正之。所谓最简单的键盘操作是指用数字键从识别结果中的四个候选音节中挑出那个正确的音节来顶替主选音节。这样，如果主选音节正确率可达90％，加上四个候选音节之后正确率可达99％，那末只有10％的机会是要打一个数字键纠错的，而结果可达到99％的正确率。这样的状况在目前的技术水平下已经达到。在允许以多音节词为单位进行识别时，由于可利用词一级的语言模型，其音节识别率更高。只是这时的时延要增大到一个词语的持续长度，不适于全双工语音通信应用。不过，识别合成型声码器独特之处在于其比特率特别低，音质可以任意改善，完全可以基于半双工或单工通信方式得到广泛应用。

图3所示的结构是兼容上述两种语音输入方式的语音识别单元实施例。其硬件结构是由一个或两个并行方式工作的32位高速信号处理器子系统，配以前置放大器、防混叠滤波器、数/模和模/数转换器、显示器和简单键盘等外围设备构成的；或者将上述设备中除显示器和键盘以外的部分做成个人微机插件板形式，配合个人微机的操作环境而构成。

按照图3的结构，输入语音信号经前置放大、防混滤波、模/数变换、预加重等预处理后，由实时端点检测方法检测到语音后开始进行特征提取，提取的基音参数用于声调识别，提取的声学特征矢量序列用于进行相似度计算以判别当前音节属于哪个无调音节。

相似度计算方法用复合隐马尔可夫模型法(HMM)或加权动态时间弯折法(DTW)或神经网络法(NN)，其中当前最成熟的方法是隐马尔可夫模型法，但神经网络法尚有较大发展潜力，特别是与HMM法相结合时效果很好。本方案采用前半音节模型与后半音节模型复合构成全音节模型的方法的主要优点是：与独立的全音节模型相比，其参数占用存贮空间大小、相似度计算的计算量、模型训练的计算开销以及训练模型所需的训练样本数量都可以减少一个数量级以上，而不降低识别精度，这是汉语音节的有规则结构所带来的巨大优越性。

声调识别采用HMM法，实验已证明可获得97％以上的正确识别率。

语音输入方式的选择主要在于端点检测法。下面具体介绍三种输入方式：

①连续语音输入方式；采用端点检测1实现，它采用多门限过零率法判断一个语句或短语的开始，然后在转入音节切分算法的同时进行声学和韵律特征实时提取，音节切分算法是根据短时能量和清浊判别结果，随时判断前一音节是否结束并已进入下一音节之中，一旦找到当前音节末点，便随时通知另一个与之并行处理的高速信号处理子系统进行相性度计算。在进行自动切分音节的同时，还判断是否已到达语句或短语的未尾，一旦到达，又重新开始上述整个过程。

②孤立音节或孤立词输入方式：采用端点检测方法2。它也用多门限过零率法判断每一个孤立音节或孤立词的开始、然后转入末点检测，同时进行声学特征和韵律特征提取，它也用多门限过零率法判断每一孤立音节或孤立词的起点，然后转入末点检测，同时开始进行特征提取。末点检测方法只用短时能量就能较好判断音节结尾，一旦找到末点再继续检测是否又有语音开始，如果这个停顿时间超过一定的门限ΔT₀(我们取ΔT₀＝0.2秒)仍没有语音出现，就判定这个音节或词语已经结束，立即通知相似度计算单元进行计算和识别，当然，为改善实时性也可在特征提取的同时进行相似度计算。这种算法可以自动判断当前输入的是单节词还是用多音节词，以决定用哪种识别方法来识别。

③半连续多音节词输入方式：也采用端点检测2实现，注意到多音节词识别法的优点是能借助词一级的语言统计模型提高识别率，但存在时延较大的缺点。因此，在实际应用中，为了缩短时延可以根本不用多音节词识别部分，只用孤立音节识别部分，但输入语音仍然可以是以单音节或多音节词方式输入，只是在发音时稍加注意，多音节词的发音每两个相邻音节间稍有停顿但不要长于门限ΔT₀(这时我们取ΔT＝0.25秒)，同时保证两个不同的词之间的停顿总是大于ΔT₀，这就可以把多音节词中的音节可以与孤立音节基本等同看待了，而且可以自动检出音联参数。

需要说明的是上述三种情况中所用的半音节模型是不同的，连续语音输入方式中半音节模型必须更多，划分得更细一些，第二种输入方式次之，第三种输入方式与通常的孤立音节的全音节识别方法基本相同，前、后半音节模型各取100个左右就足够了。已通过实验证明采用半音节模型效果优于声母、韵母模型，因为声、韵、调的相互影响，根据声学特征的相似性程度，每个声母和每个韵母划分为多个子类，每个子类生成一个半音节模型，统计特性更加稳定。

3.韵律信息处理单元：

韵律信息处理单元涉及图1中韵律分析、参数编码、参数译码和韵律参数转换等单元的内容，并与语音识别单元和语言合成单元配合，实现韵律特征参数的提取、压缩编码和运用。

图4是韵律分析单元的结构框图。它包括四种主要韵律特征参数的提取，即音长参数、基音参数、音强参数和音联参数。下面叙述这些韵律参数的作用、提取方法、压缩编码传输和运用等方面的细节：

①音长参数：码长6比特，以帧为单位表示当前音节的时长，结合端点检测或音节切分法求得。还可结合基音检测中清浊判别法求出当前音节浊音段时长、清音段时长。在合成单元中主要控制浊音段时长与输入音节一致，而对清音段时长的调整是按组词规则调整的。

②基音参数：音节中浊音段基音周期值随时间而变的曲线，(简称基音轮廓线)，它对声调起决定性作用。但每一种有调音节的基音轮廓线并不是一成不变的，它受语音环境和语调的影响，特别在多音节词中相邻音节的协同发音影响可使基音轮廓线产生明显的变异，甚至变成另一种声调。因此，各音节的基音轮廓线是一种对语音质量起决定性作用的重要韵律参数。本方案采用最通用的一种算法——中心削波自相关法进行基音周期检测，用自适应增量调制编码法或矢量量化编码法对基音轮廓线进行压缩编码，或者只传基音周期一个最小值和一个最大值，用以控制调值的范围。基音参数用于控制合成语音的基音轮廓线相似于输入音节的基音轮廓线。

③音强参数：反映音强的参数有两种，一种是短时能量，一种是短时信号幅度，本方案根据合成器类型选择其中一种。每帧求一个音强参数，整个音节的音强参数值即构成一条平滑的音强随间而变的曲线，简称为音强轮廓线，音节的音强轮廓线对声调的感觉有一定的作用，对语句的流畅性也有一定影响，本方案考虑了用压缩编码方法传输音强轮廓信息，但为了减少编码比特数，当应用中对语音质量要求不很高时，我们只取一个典型的音强值。这个参数在合成单元中用于控制合成音节的音强。

④音联参数：码长1比特，它反映当前音节与下一个音节是否连成一个词。本方案采用自动检测方法获得这种特殊的韵律参数。这就是结合端点检测和音节切分方法，计算当前音节与下一音节间的停顿的时长。当此停顿时长小于某一门限ΔT₀(本方案选ΔT₀＝0.2～0.25秒)时，即认为下一个音节与本音节同属一词，置音联参数为1，否则认为不属同一词，置音联参数为0。音联参数在合成单元起两个作用：a)控制音节间协同发音的规则；b)控制音节间是否停顿及停顿时长。

4.语音合成单元：

图1中的语音合成单元的结构如图5所示。

语音合成单元是这种声码器接收部分的主体，它必须能利用发送端传转来的参数，准实时地合成词汇量不受限制的汉语语音。

语音合成单元本质上是一个以音节或半音节为合成基元的无限词汇汉语语音合成器。当然也不排除设一个常用词组语音库，直接合成一些词组以便进一步改善常用语的自然度。如前所述，发送端传来的参数不仅包括语句中各音节的代码，而且包括有一些对合成语句的可懂度、自然度起决定性作用的韵律参数。因此，只要合成方法能充分运用这些信息，输出语音质量是可以任意地提高，而不受信道的限制的。

语音合成单元要满足的起码要求是：它必须能合成如前所述的汉语口语中常用的各种各样的汉语音节，包括1632个有调音节、常用的儿化音节和轻声音节。

如果要保证输出语音具有高可懂度(＞90％)，要求合成单元具有基本的韵律调整能力：①合成的任一音节，其音强、音长可以随意改变而仍能保持它的高清晰度和良好自然度；②要能在一定程度上考虑音节间协同发音影响合成多音节词(包括双音节词)，并能保证常用多音节词合成语音的清晰度达90％以上，自然度达8.0分以上。

要想获得可懂度更高、自然度更好的输出语音，合成器除满足上述所有要求之外，还必须具有更高一级的韵律调整能力：①合成音节的基音轮廓线允许随意改变而仍能保持合成音节的高清晰度和自然度；②要求合成音节的韵母部分的共振峰轨迹可以随意修改，或有足够多的韵母—声母过渡段供选用来解决音节间协同发音影响。这两种韵律调整能力对于高质量的多音节词的合成、语句自然度的改善以及语调的表达来说，都是十分重要的。合成方法可用基音同步叠接相加法、共振峰合成法或线性预测合成法。

图5给出了一种满足上述要求的无限词汇汉语合成器的结构框图。

在这个合成器方案中，全音节参数数据库可以以两种方式存贮，一种是每个音节作为一个整体存贮，另一种是分解为若干个公用的前半音节和后半音存贮，合成时按规则组合成全音节。前者有利于保证音节的合成质量，后者能有效地减少存贮要求。同时，为了更好地合成多音节词，还存贮了一些协同发音过渡段的合成参数，它是由各种双音节词中前一音节的尾部受后一音节影响产生共振峰特性明显变异的情况中提取得到的。图中韵律参数转换单元将译码单元译出的韵律参数，按照韵律调整规则转换为各种各样的控制信息，在词和语句合成的过程中发挥作用。

5.编码和译码单元：

①音节编码：编码单元若是将语音识别结果以声、韵、调为单位进行编码，每个音节需14比特，而若用前述的音节表以音节为单位进行编码，每个音节只需11比特，可以节省3比特。

②韵律参数的编码：

韵律参数的编码的灵活性很大，与识别合成型声码器所达到的性能指标有直接关系，我们用两个典型的实施例来说明编码效果：

a)一种最低比特率编码实施方式：

这里所说的最低比特率是指这种声码器实施结果能保证输出语句可懂度达到90％以上的情况下的最低比特率要求。为了尽可能压缩比特率，我们从上述四种韵律参数中挑选两个最关键的，一个是音联参数，码长1比特，另一个是信号强度，我们选用本音节最大信号幅度的PCM-A律变换，取5比特量化结果，这样总共只有6比特韵律参数，再加上11比特音节代码，总共17比特/音节，按每秒5个音节的最快说话速度来算，其比特率仍然只有85比特/秒。而这样实施的声码器实测的语句可懂度高于90％。这与美国2.4千比特/秒的LPC-10声码器相当。这里所用合成方法采用基音同步叠接相加法，并利用一些词内音节间协同发音规则。这里起决定性作用的是音联信息的利用。

b)一种高质量语音输出的极低比特率编码实施方式：

为要使输出语音质量达到较高质量，我们选用以下四几种韵律参数：浊音段音长6比特、音强参数(同上)5比特、基音轮廓线压缩编码25比特、音联参数1比特，再加音节代码11比特总共48比特/音节。实施中合成方法采用基音同步叠接相加法，这样构成的识别合成型声码器的输出语音可懂度实测结果为99.6％。这里起关键作用的是基音轮廓线参数的运用，它使语调逼真，音节间声调过渡平滑。

以上只是给出了如何选择韵律参数的示范，还可灵活地调整，以获得希望达到的性能。关于译码单元，它只不过是编码的逆过程，在此不再出赘述。

Claims

1.一种汉语识别合成型声码器，包括发送和接收两部分以及一个两部分共用的汉语音节表，通信时，发端的发送部分采用语音分析与语音识别技术将输入语音以音节为单位进行编码，收端的接收部分根据接收到的音节代码串重新合成语音，音节表中的音节设有普通话中1300个常规的有调音节，其特征在于：

①发送部分包括有韵律分析单元，接收部分包括有韵律参数转换单元，构成一种能利用音长、音强、基音和音联等信息来保证输出语音质量的韵律信息处理方法；

②音节表中增设有一般使用者的普通话口语中因方言习惯或语言环境影响可能发出的数百个其它有调音节，以及普通话口语中常用的儿化音节和轻声音节。

2.根据权利要求1所述的汉语识别合成型声码器的韵律信息处理方法，其韵律信息处理单元在发端对输入语音中各音节的音长、幅度值进行自动检测编码，在收端利用这些参数控制音节的合成，其特征在于：

①在发端进行音联参数的自动检测和编码，以标明当前音节与下一音节是否属于同一个多音节词，在收端利用该参数划分词以便进行词语和语句的合成；

②在发端对每一音节的语音信号逐帧地进行基音检测和编码，并对每个音节的基音轮廓线进行压缩编码；在收端将收到的基音编码参数进行转换，以控制所合成音节的基音轮廓线相似于原输入音节的基音轮廓线；

③在发端对每一音节的语音信号逐帧地进行信号强度的自动检测和压缩编码；在收端将收到的强度编码参数进行转换，以控制所合成音节的信号强度轮廓线相似于原输入音节的信号强度轮廓线。

3.根据权利要求2所述的方法，其特征在于：输入语音的方式兼容连续语音输入方式以及基于孤立音节或孤立词的断续输入方式，收端都可利用音联参数合成流畅的语句。