CN1303584C

CN1303584C - 联接式语音合成的声音目录编码方法和装置

Info

Publication number: CN1303584C
Application number: CNB031648495A
Authority: CN
Inventors: 岳东剑
Original assignee: Motorola Inc
Current assignee: Serenes Operations
Priority date: 2003-09-29
Filing date: 2003-09-29
Publication date: 2007-03-07
Anticipated expiration: 2023-09-29
Also published as: CN1604189A

Abstract

在对联接式语音合成目录的语音信号进行编码之前，将该语音信号的有声帧进行下采样，而将无声帧分离成与已下采样的有声帧相同大小的伪下采样帧。在对源自目录中的所选定帧进行解码之后和在进行联接式语音合成之前，将源自目录的已解码有声帧进行上采样，同时将源自目录的多对已解码无声帧联接成与已上采样的有声帧同样大小的帧。

Description

联接式语音合成的声音目录编码方法和装置

发明领域

本发明涉及联接式语音合成的声音目录。本发明特别适用于，但并不必限于，对诸如文本-语音转换(TTS)合成等联接式语音合成的声音目录。

背景技术

语音合成是从非语音音频信号产生语音音频信号。它大多通常用作文本-语音转换合成(TTS)，将文本流转换成为语音音频信号。这包括接收文本流、分析和将其转换成语音，然后产生相应语音的信号。这种信号的产生手段通常属于以下两类之一：(i)从语音信号模型来产生；和(ii)联接预先录制的语音信号。这两种手段中的后者，可以被称作联接式语音合成。

目前，几乎所有高质量的文本-语音转换系统都是以联接式语音合成为基础的。这是由于这种手段往往产生出更自然的输出合成式语音。这可以通过利用声音单元目录来完成，该目录越大也就越好。这一手段要比语音模型化手段更加需要存储空间。在存储器空间不是特别有限的情况下，比如在台式计算机中，并不显得那么重要。然而，在其它设备中，特别是诸如移动电话和个人数字助理(PDA)等便携式设备中，当把越来越多功能打包到超小型或更小的设备时，就必须要考虑。为了缩减TTS系统的存储容量并且符合手持式设备中有限资源的需要，因而对TTS目录进行压缩编码。例如，可以应用具有低计算复杂度的低比特率语音编码技术。

要获得声音目录，需要从讲话者得到所录制的音频信号。讲话者花费几个小时高声朗读一篇预定文本，该文本被录制下来。合理设计此文本以便于尽可能多地录制音素序列组合，最好是录制每个所需组合的几种情况。所录制的朗读由语音识别器进行处理，以确定音素从何处起始及结束。由于该文本是已知的，因此，每个音素的位置及音素组合就是已知的，且从语音里提取正确的记录来提供所需声音单元，不论是作为音素、双音素、三音素或者某些其它元素，也就相对容易。当存在指定音素或音素组合的几种样本时，就选择他们中最好的。对所选定声音单元记录进行压缩，并且在数据库中将它们存储起来。

图1所示为操作已知编码和解码技术的系统。所选定声音单元记录的记录集合被提供作为单元采样信号OSi，并被压缩且由编码器10进行编码。该信号由编码器10中的信号分段器12分段成帧Fi。单个帧Fi由下采样器与编码器14进行下采样和编码。下采样过程包括选择每个帧的每一个第二组成部分。接着，已缩小化的帧由代码激发线性预测(CELP)方案20进行编码。已编码的帧以压缩与编码单元CUi的单个比特流从下采样器与编码器14和编码器10中输出，并照此存储在目录30中。

对于声音单元的任一语料库，上述压缩和在该目录中的编码及存储只执行一次。在此之后，将声音单元的目录固定并可以对其存取多次。

在TTS合成期间，以将要合成的声音单元Uj的索引为基础对目录进行访问。该索引被输入到解码器40中，在那里被选择器42接收。基于所输入的索引，选择器42从参数目录30中选择并提取出适当的声音单元UCUj。

将所提取的声音单元UCUj流输入到解码器与上采样器44中，在那里由下采样器与编码器14进行的下采样和编码处理被反向。基于与在编码处理过程中所用方案相同的CELP方案20，对所提取的声音单元UCUj进行解码。接着对已解码的声音单元进行内插，以提供上采样声音单元。这些上采样单元接着从解码器40中输出作为声音单元Uj的已合成采样。

尽管基于语音生成的此类或其它类参数窄带语音编码方法可以实现低比特率语音编码，但是重建的语音质量却没有所预想的那么好。在部分合成语音中缺乏清晰度。

发明内容

在此说明书中，包括权利要求中，术语“包括”、“包含”或类似术语意指非排他性的包括，这样，包含所列出的一组元件的方法或装置，并不仅仅包括那些列出的元件，而是也可以包括其它未列出的元件。

根据本发明的一个方面，提供了一种装置，用于在联接式语音合成中从含有多个片段的语音信号中产生目录。一个检测器检测语音信号中不同的第一和第二类型的片段。一个压缩装置缩减语音信号内的片段大小。该压缩装置在所检测的第一类型片段上和所检测的第二类型片段上所进行的操作不同。

根据本发明的另一方面，提供了一种用于从片段流给联接式语音合成提供合成的语音信号的装置。检测器检测片段流内不同的第一和第二类型的片段。解压缩装置增加片段流内的片段大小。该解压缩装置在所检测的第一类型片段上和在所检测的第二类型片段上所进行的操作不同。

根据本发明的另一个方面，提供了一种用于联接式语音合成中从含有多个片段的语音信号产生目录的方法。该方法检测语音信号内不同的第一和第二类型的片段。该方法缩减语音信号内的片段大小。检测的第一类型的片段的缩减方式与检测的第二类型的片段的缩减方式不同。

提供了一种用于联接式语音合成中从含有多个片段的语音信号产生目录的方法。该方法检测语音信号内不同的第一和第二类型的片段。该方法增加语音信号内的片段大小。检测的第一类型的片段的增加方式与检测的第二类型的片段的增加方式不同。

根据本发明的再进一步方面，提供了一种目录，该目录包括对于联接式语音合成的多个第一类型的已压缩片段和多个第二类型的已压缩片段。第一类型的片段的缩减方式与第二类型的片段的缩减方式不同。

附图说明

为了本发明能更加易于理解并付诸实施，下面参照附图举例说明的优选的、非限定性实施例，其中：

图1是已知编码和解码系统的框图；

图2是根据本发明实施例的编码和解码系统实施例的框图；

图3是本发明示范性实施例的编码器的操作流程图；

图4是本发明示范性实施例的解码器的操作流程图；和

图5是包含有本发明的无线电话的框图。

优选实施例的详细说明

在附图中，不同图中的相同数字表示相同的元件。参见图2，图中示出了根据本发明的实施例的用于联接式TTS合成的声音目录的编码/解码系统。

如上所述，通过处理朗读录音来提供选定声音单元记录的记录集合。将该选定声音单元记录的记录集合输入到本发明实施例的编码器100中，作为单元采样OSi的宽带语音信号。该信号由编码器100当中的信号分段器12分段成语音帧Fi，以提供帧流。

在此实施例中，帧是定长语音信号的片段，例如30毫秒长，并且语音信号中的每个声音单元都包含2到20个帧。片段的定义可以变化，比如可包含两个(或多个)帧或者另外确定。所用声音单元的定义可以依语音平衡及统计数字而变化。它可以是音素、双音素、音节或者长于音节的单音串。

检测器与分解器102在帧流内检测两种帧类型，并且将该帧流分解成两个子流，每个子流中有不同的帧类型，即第一帧类型在第一子流中，而第二帧类型在第二子流中。

更具体地说，检测器与分解器102对有声帧和无声帧进行检测，以将高噪音的无声帧UFi从正常的有声帧Nfi中鉴别出来。

下采样器与编码器104接收有声帧流，并对单个有声帧NFi进行下采样和编码。在该示范性实施例中，下采样包括选择每个有声帧的每一个第二组成部分，来提供下采样帧的窄带信号。该被缩减的帧由低比特率的编码激发线性预测(CELP)方案120来进行编码。所压缩和编码的有声帧作为有声输出参数阵列PNFi来输出。

分离器与编码器106接收无声帧UFi的帧流。每个无声帧Ufi被分成两部分，形成两个伪窄带帧。这两个伪窄频帧分别由低比特率的编码激发线性预测(CELP)方案120来进行编码。所分离和编码的帧作为无声输出参数阵列PUFia和PUFib来输出。

编码的参数PNFi、PUFia和PUFib均被输入到打包机108中。编码参数PNFi、PUFia和PUFib被量化并打包成声音单元BUi的单个比特流。这些参数所打包的顺序与帧流内原始帧的顺序相同。

将该联接式TTS系统的所有声音单元BUi都存储到参数目录130中，可访问它来进行合成。

在TTS合成期间，以将要合成的声音单元Uj的索引为基础访问该参数目录130。然后，与在为在目录中存储而进行的编码相反的方式处理提取出的声音单元。声音单元Uj索引被输入到解码器140中，在那里被选择器42接收。选择器42基于输入索引，从参数目录30中选择并提取适当的声音单元UBUj。

类型鉴别器与分解器142鉴别两个不同类型的帧，并将帧流分离成两个子流，第一帧类型在第一子流中，而第二帧类型在第二子流中。更具体地说，类型鉴别器根据其类型信息确定所提取的帧UBUj是有声的还是无声的，并且相应地将所提取的比特流分离成有声输出参数阵列PNFj和无声输出参数阵列PUFj。

解码器与上采样器144接收有声输出参数阵列PNFj，其中在由下采样器与编码器104进行下采样和编码处理被反向。依据与编码处理过程中所使用的同一CELP方案120，对有声输出参数阵列PNFj的帧进行解码。将相应的语音片段重建并接着上采样成为宽带信号，特别是，将已解码的声音单元进行内插，以提供上采样的声音单元。接下来，这些声音单元作为已重建的有声帧SNFj来输出。

解码器与联接器146接收无声输出参数阵列PUFj，其中在由分离器与编码器106进行的分离和编码处理被反向。依据与编码处理过程中所使用的相同的CELP方案120，对无声输出参数阵列PUFj的帧进行解码。将相应的语音片段重建并接着联接在一起。接下来，这些声音单元作为已重建的无声帧SUFj来输出。

帧联接器148按照与以下同样的顺序，将已重建的有声和无声帧SNFj和SUFj依次联接起来，即从目录中提取某些帧来形成相应声音单元的合成语音信号，所述有声和无声帧就源自这些帧。接下来，从解码器140将这些联接式起来的帧作为合成后的声音单元Uj采样来输出。

尽管可以加以添加到此种目录或另外加以更改，但仅需要为声音单元的任一语料库执行一次上述压缩和在该目录中的编码及存储。它可以被访问多次。虽然上述实施例一起示出了编码器100和解码器140，但是在多数设备中它们往往并在一起，例如：PDA或移动电话。它们往往具有(从编码器中)预先加载的目录，而它们自己仅具有该目录和解码器(以及其它组成部分或是用于TTS合成的代码)。

在上述示范性实施例中，以下采样器和分离器形式的压缩装置通过进行下采样来缩减有声帧的大小，并通过进行分离来缩减无声帧的大小。也可以用其它手段来对声音单元片段进行压缩。

在上述示范性实施例中，以上采样器和联接器形式的解压缩装置通过进行上采样来增加有声帧的大小，并通过进行联接来增加无声帧的帧大小。也可以用其它手段来对声音单元片段进行解压缩。

图3是本发明示范性实施例的编码器的操作流程图。

在步骤S202，将声音单元的语音信号OSi分段成帧Fi。步骤S204检测传入的帧是否为无声帧。如果传入的帧不是无声帧，则在步骤S206对其进行下采样。在步骤S208对下采样后的帧NFi编码，并且在步骤S210将编码后的帧PNFi打包成比特流。如果在步骤S204检测出传入的帧Fi是无声帧UFi，则在步骤S212将其分离成两个伪帧。在步骤S214对分离后的无声帧相继进行编码。在步骤S210，按照与其它已编码帧相同的顺序，将编码后的帧PUFi打包成比特流，即按照那些已编码帧所源自的帧出现在输入语音信号当中的顺序。

在图3的处理之后，将比特流记录在一个目录中。

图4是本发明示范性实施例的解码器的操作流程图。

在步骤S252，输入将要合成的声音单元Uj的索引。按照与相应的声音单元出现在索引当中的顺序相同的顺序，在步骤S254，从目录中选择，且在步骤S256，提取出相应于编入索引的声音单元的适当的已编码帧UBUj。在步骤S258，检测任何传入的已编码帧是否为无声的已编码帧PUHj。如果不是无声帧，则在步骤S260对其进行解码。在步骤S262，将解码后的帧上采样，并在步骤S264将上采样后的帧SNFj联接成比特流。如果在步骤S258检测出传入的帧UBUj是无声帧，则在步骤S266对其进行解码。此帧往往是成对出现。在步骤S258接着将每对的两个已解码的帧联接起来。在步骤S264，将已联接式对联接式成比特流。相对于其它已解码的帧，在步骤S264的联接是按照相同的顺序进行的，即按照那些已解码帧所源自的已编码帧出现在将要合成的单元索引当中的顺序。

在上述示范性实施例中，是以帧的类型是有声帧还是无声帧为基础对已被下采样的帧与已被分离(处理的反向进行)的帧进行区分的。在其它实施例中，可以基于其它标准来区分。例如，两个相关类型的帧可能为有噪音无声和无噪音无声，也就是，它们之间的区分依赖于这两个无声帧有多大噪音。照此，仅将噪音更大的无声的帧分离开，从而节省一些存储容量。这种区分可以依据帧的线性光谱频率(LSF)参数的测量。

上述示范性实施例利用了CELP方案，该方案以240个向量对帧编码。传入的帧Fi以480个向量开始，因此，以2∶1的比率将有声帧下采样。在传入帧Fi的组成结构有所改变的情况下，和/或在所用的编码方案有所改变的情况下，不论该编码方案仍是CELP编码方案还是其它编码方案，将会出现其它下采样比率。

在上述示范性实施例中，将每个无声的帧分离成两个伪帧。这还是因为传入帧Fi是以480个向量开始的，而当前的CELP方案却是以240个向量对帧进行编码的。根据传入帧Fi组成结构上的改变和/或所用编码方案中的改变，可以改变伪帧的数量。如果输入帧内的向量数目并不是所需伪帧内向量数目的确切倍数，则还可有一个下采样(或上采样)的程度。

上述示范性实施例示出了混合方案，其中只有两个不同的手段：在编码侧的一个下采样或一个分离手段，以及在解码侧的一个上采样或一个联接手段。也可以其它的手段，比如：输入帧内向量数目不是所需伪帧内向量数目的二倍(例如：输入帧Fi是以720个向量开始的，而与此同时CELP方案却是以240个向量对帧进行编码的)。在这种情况下，可以判断输入帧为三种不同类型之一；例如有声的、有噪音无声的和无噪音无声的。在编码前，可以3∶1的比率对有声帧下采样。在编码前，可以将有噪音无声帧分离成三个。另一方面，在编码前，可以3∶2的比率(即：每个为480个向量)对无噪音无声帧进行下采样，并接着将它分离成两个。在解码侧将进行与上述相反向的处理。

上述示范性实施例利用了窄带语音编码技术，该技术是在低比特率混和带宽CELP编码技术的基础上，将CELP模型作为基本架构并对TTS目录进行压缩的新手段。TTS目录的每个声音单元都是以混和带宽CELP方案进行编码的，因为在合成期间，通过混和带宽CELP方案建立TTS目录并对单元比特流进行解码。

对于上述实施例中的CELP方案，可以依据TTS或语音合成的特性来定制编码方法。为了达到此目的，建立一个低比特率窄带CELP方案，作为联接式TTS系统的声音目录的语音编码基础。由于只有一个(或两个)特定和已知的讲话者为TTS系统录制语音语料库，因而可以将该讲话者相关特征充分地应用于定制编码方案上。尤其是，可以通过训练来获得代表讲话者发音特征的线性频谱对(LSP)向量代码本。这些操作可以将编码率降低到具有高质量语音重建的低比特率。

在图2的示范性实施例和图3的流程图中，帧的编码是分开完成的，在下采样器与编码器104中对无声帧进行编码，而在分离器与编码器106中对有声帧进行编码。在另一示范性实施例中，可以在相同的编码装置中为所有帧进行编码。例如，在帧被编码(仅已被适当地下采样或分离之后)前，打包器108对这些帧进行打包，在存储于目录之前进行编码。

在图2的示范性实施例和图4的流程图中，帧的解码是分开完成的，在解码器与下采样器144中对无声帧进行解码，而在解码器与联接器146中对有声帧进行解码。在另一示范性实施例中，可以在相同的解码装置中为所有帧进行解码。例如，可以在提取之后和在由类型鉴别器142鉴定为有声或无声之前，对所有帧都进行编码。

在上述示范性实施例中，在对联接式语音合成目录的语音信号进行编码之前，将该语音信号的有声帧下采样，同时将无声帧分离成与已下采样有声帧同样大小的伪下采样帧。因此，在压缩过程中，对有声和无声帧是不同对待的。

在上述示范性实施例中，在对从目录中选定的帧进行解码之后和在进行联接式语音合成之前，将源自目录中的已解码的有声帧上采样，同时将源自目录的多对(或其它数目)已解码的无声帧联接成与已上采样无声帧同样大小的帧。因此，在解压缩过程中，对有声和无声帧是不同对待的。

参见图5，图中示出了体现本发明的无线电话300。该无线电话300具有与处理器304通信联接的射频通信单元302。屏幕306和小键盘308的形式的输入接口，也通信联接于该处理器304。

处理器304包括带有相关只读存储器(ROM)312的编码器/解码器310，该只读存储器存储用来编码和解码声音信号或其它信号的数据，上述信号可以由无线电话300来发送或接收。处理器304还包括：微处理器314，它通过通用数据及地址总线316联接于编码器/解码器310以及相关字符只读存储器(ROM)318；声音单元目录只读存储器(ROM)320(用作图2示范性实施例的目录130)；随机存储器(RAM)320；静态可编程存储器324；以及可拆装SIM模块326。除其它内容外，静态可编程存储器324和SIM模块326各可以存储所选定的输入文本信息以及电话号码的电话簿数据库。

微处理器314具有端口，用来联接含有振动式马达和相关驱动器的小键盘308、提示模块328、麦克风330和扬声器332。

字符ROM318存储用于解码或编码文本信息的代码，这些文本信息可以由通信单元302来接收，由小键盘308输入。字符ROM318和目录ROM320都还为微处理器314存储操作码(OC)，该目录ROM320当中的OC被用于TTS合成。特别是，它包括了OC，从而使得微处理器314在图2的系统中像解码器140那样工作。

射频通信单元302是具有共用天线334的组合式接收器与发送器。该通信单元302具有经由射频放大器338联接于天线334的无线电收发机336。该无线电收发机336还联接于组合式调制/解调器340，该调制/解调器340将通信单元302联接到处理器304上。

上述示范性实施例利用了低比特率、混和带宽语音编码方法，以通过为每个声音单元中的无声部分保持宽带信号，来提高重建后的声音单元中无声语音片段的清晰度。这样可以有助于实现TTS系统声音单元目录的所需高质量及高压缩率编码。它还要求合理小的存储容量以及低计算量。

本发明的实施例可以用在基于联接式语音合成的各种TTS系统中。当要将TTS系统以低存储容量和低计算量嵌入到诸如移动电话、PDA等设备中时，它是非常有用的。该示范性实施例提供了一种手段，从而以非常低的比特率来实现对TTS目录的高质量和高效的压缩编码，该手段在自然声音嵌入的联接式TTS系统中有所帮助。

该示范性的上述实施例和上面所提到的变形包括了各种步骤，这些步骤可以以几种形式之一实现，比如：可作为专用硬件或是作为由通用或专用处理器或是逻辑电路执行的机器可执行指令。本发明的示范性实施例还含盖了由软件及硬件的结合来执行的各种步骤。

可以以一种计算机程序产品作为另外的实施例，例如：存储在互联网或其它网络上的计算机程序，或其上存储有指令的机器可读介质。上述指令可以用来对移动电话、其它便携式或非便携式设备或者计算机内的微处理进行编程。典型的机器可读介质包括：磁盘、卡、记忆棒和其它存储装置，不论是光学的还是磁性的、也不论是只读的还是可重写的。

上述详细说明仅提供了优选示范性实施例，而并未意图对本发明的范围、应用性或配置进行限制。相反，优选示范性实施例的详细说明，为本领域技术人员提供了用于实施本发明优选实施例的启发式说明。应该理解，在不脱离本发明所附权利要求限定的实质和范的情况下，可以对组成部分的功能和安排进行各种改变。

Claims

1.一种用于在联接式语音合成中从含有多个片段的语音信号中产生目录的装置，该装置包括：

检测器，用于检测语音信号内不同的第一和第二类型的片段；和

压缩装置，用于缩减语音信号内的片段大小；

其中所述压缩装置将检测的作为第一类型片段的有声片段进行下采样，并且将检测的作为第二类型片段的无声片段分离成多个更小的片段。

2.根据权利要求1的装置，其中所述压缩装置可将检测的第一和第二类型片段缩减成相同大小的片段。

3.根据权利要求1的装置，其中所述片段是语音帧。

4.根据权利要求1的装置，进一步包括：

分段器，用于为检测器将语音信号分段成片段；编码器，用于对源自压缩装置的片段进行编码；和打包器，用于将已编码片段打包成单个比特流。

5.一种用于从语音单元片段流提供已合成语音信号的装置，该装置包括：

检测器，用于检测片段流内不同的第一和第二类型的片段；和

解压缩装置，用于增加片段流内的片段大小；

其中，所述解压缩装置将检测的作为第一类型片段的有声片段进行上采样，并将多个检测的作为第二类型片段的无声片段联接成单个更大的片段。

6.根据权利要求5的装置，其中所述解压缩装置可将检测的第一和第二类型的片段增加成更大的大小相同的片段。

7.根据权利要求5的装置，其中所述片段是语音帧。

8.根据权利要求5的装置，进一步包括：选择器，用于为检测器选择片段；解码器，用于对源自检测器的片段进行解码；和联接器，用于将已解码片段联接成单个比特流。

9.一种用于在联接式语音合成中从含有多个片段的语音信号中产生目录的方法，该方法包括：

检测语音信号内不同的第一和第二类型的片段；和

缩减所述语音信号内的片段大小；

其中所述缩减片段大小的步骤包括：对检测的作为第一类型片段的有声片段进行下采样，并将检测的作为第二类型片段的无声片段分离成多个更小的片段。

10.根据权利要求9的方法，其中检测的第一和第二类型片段被缩减成相同大小的片段。

11.根据权利要求9的方法，其中所述片段是语音帧。

12.根据权利要求9的方法，进一步包括：为检测步骤将语音信号分段成片段；对已缩减大小的片段进行编码；和将已编码片段打包成单个比特流。

13.一种用于从语音单元片段流提供已合成语音信号的方法，该方法包括：

检测片段流内不同的第一和第二类型的片段；和

增加片段流内的片段大小；

其中所述增加片段大小的步骤包括：对检测的作为第一类型片段的有声帧进行上采样，并将多个检测的作为第二类型片段的无声帧联接成单个更大的片段。

14.根据权利要求13的方法，其中将已检测的第一和第二类型片段增加成更大的相同大小的片段。

15.根据权利要求13的方法，其中所述片段是语音帧。

16.根据权利要求13的方法，进一步包括：为检测步骤选择片段；对源自检测步骤的片段进行解码；和将已解码片段联接成单个比特流。