CN101425291A

CN101425291A - 语音处理装置及语音处理方法

Info

Publication number: CN101425291A
Application number: CNA200810179911XA
Authority: CN
Inventors: 平林刚; 徐大威; 笼岛岳彦
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-10-31
Filing date: 2008-10-31
Publication date: 2009-05-06
Also published as: JP2009109805A; US20090112580A1

Abstract

本发明涉及语音处理装置及语音处理方法。语音处理装置被配置为将第一语音波形和第二语音波形分别分割为多个频带以产生作为每一频带分量的第一带语音波形和第二带语音波形；确定每一频带的第一带语音波形和第二带语音波形之间的交叠相加位置以获得第一带语音波形和第二带语音波形之间的高互相关；并且以该交叠相加位置为基础，交叠相加每一频带的第一带语音波形和第二带语音波形并且在所有的多个频带上集成该多个频带的交叠相加带语音波形以产生拼接语音波形。

Description

语音处理装置及语音处理方法

技术领域

本发明涉及文本语音合成，尤其涉及一种通过拼接(concatenating)语音单元以产生合成语音的语音处理装置及其方法。

背景技术

近年来，配置为从给定语句产生人工语音信号的文本语音合成系统已经得到发展。一般来说，这样的文本语音合成系统包括三个模块：语言处理部件、韵律产生部件、和语音信号产生部件。

当输入文本时，语言处理部件执行文本的模式元素分析或语法分析，然后韵律产生部件产生韵律和语调，并且然后输出音位序列和韵律信息(基频，音位持续长度，功率等)。最后，语音信号产生部件从音位序列和韵律信息中产生语音信号，结果，输入的文本的合成语音产生了。

作为已知的语音信号产生部件(所谓的语音合成器)，图2示出了拼接式(单元交叠相加)语音合成器，其从语音单元字典中选择语音单元并且通过拼接被选择的语音单元产生所期望的语音，其中该语音单元字典以音位序列和韵律信息为基础存储有多个语音单元(语音波形单元)。

为了使频谱在语音单元的拼接部分平滑变化，该拼接式语音合成器(concatenative speech synthesizer)通常对要被拼接的多个语音单元的部分或全部进行加权并且在时间轴方向上进行交叠相加，如图17B所示。然而当被拼接的单个单元的语音单元波形的相位不同时，仅通过简单的交叠相加部件不能产生中间频谱，并且频谱的变化不连续，因此导致拼接失真。

因此，在相关领域，为了减小由于语音单元之间的相位差所导致的失真，应用这样一种方法：在拼接部分直接计算交叠相加的多个语音单元的互相关并且改变位置来交叠相加语音单元以得到高相关。图18A和18B示出语音单元的浊音部分被分解为基音周期波形单元，并且该基音周期波形在拼接部分要被交叠相加的实例。图18A示出其中不考虑相位差的实例，并且图18B示出其中考虑相位差并且移动要被交叠相加的两个基音周期波形以获得最大相关的情况。

还提出一种获得合成语音的方法，其中，由于拼接的相位差导致的语音波形的形状差异所导致的拼接失真通过预先对原始语音波形(通过移除线性相位分量进行相位置零)应用相位均衡的相位均衡语音来进行减小(例如，见JP-A-8-335095)。

然而，相关技术有下述问题。

在直接计算要被交叠相加的多个语音单元的互相关并且改变交叠相加位置以得到高相关的方法中，虽然具有相对高功率的低频带的相位被校准，但是具有低功率的从中频到高频的相位位移不被校正。因此，部分相位被拒绝并且部分频带分量被衰减，结果，拼接部分的频谱改变是不连续的，由此所产生的合成语音的清晰和自然度被恶化。

例如，考虑如图8所示的情况，其中基音周期波形A和基音周期波形B在拼接部分被交叠相加。每一个基音周期波形A和基音周期波形B都具有包括两个峰值的功率谱，具有相似的光谱形状，但在低频带有不同的相位特性。当直接计算基音周期波形A和基音周期波形B的互相关，并且移动交叠相加位置以获得更高的互相关时，具有相对高功率的低频带的相位被校准，但是高频带的相位被相反地移动。因此，交叠相加基音周期波形丢失了高频分量，并且因此，具有介于基音周期波形A和基音周期波形B中间的频谱的波形不能用相关技术中如图18A所示的方法产生，结果，就不能获得在拼接部分平滑改变的合成语音。

另一方面，通过例如相位置零或相位均衡的处理来形成语音波形的原始相位信息以对相位进行强制校准时，就产生一个问题，就是零相位的特定的鼻音是刺耳令人不愉快的，甚至当它是浊音时，尤其是，在包含大量高频分量的浊音塞擦音的情况下，结果语音质量的恶化就不能忽略了。

发明内容

考虑到上述问题，本发明的目的是提供一种语音处理装置，其中当在拼接部分交叠相加语音波形时，缓解了拼接部分频谱改变的不连续性。

依照本发明的实施例，提供一种语音处理装置，被配置为交叠相加作为第一语音单元的一部分的第一语音波形和作为第二语音单元的一部分的第二语音波形以拼接第一语音单元和第二语音单元，包括：分割部件，被配置为将第一语音波形分割成多个频带以产生作为每一频带分量的带语音波形A，以及将第二语音波形分割成多个频带以产生作为每一频带分量的带语音波形B；位置确定部件，被配置为确定每一频带的带语音波形A和带语音波形B之间的交叠相加位置以获得带语音波形A和带语音波形B之间的高互相关或获得带语音波形A和带语音波形B之间相位频谱中的小差异；和集成部件，被配置为以交叠相加位置为基础交叠相加每一频带的带语音波形A和带语音波形B和在所有的多个频带上集成该多个频带中被交叠相加的带语音波形以产生拼接语音波形。

依照本发明的另一实施例，提供一种语音处理装置，包括第一字典，其包括多个语音波形和基准点，当对每一语音波形拼接存储在其中的语音波形时，所述多个语音波形和基准点被交叠相加；分割部件，被配置为将每一语音波形分割为多个频带并且产生作为每一频带分量的带语音波形；基准波形产生部件，被配置为产生每一个都包含每一频带的信号分量的带基准语音波形；位置校正部件，被配置为校正带语音波形的基准点以获得带语音波形和带基准语音波形之间的高互相关或者获得带语音波形和带基准语音波形之间相位频谱中的小差异和获得带语音波形的带基准点；和重构部件，被配置为移动带语音波形以校准带基准点的位置和集成所有该多个频带的被移动的带语音波形以重构语音波形。

依照本发明，所有频带中拼接部分要被交叠相加的语音波形之间的相位位移被减小，并且，因此，拼接部分频谱改变的不连续性被缓解，结果，清晰和自然的合成语音就产生了。

依照本发明，创建语音波形字典时的所有频带中语音波形之间的相位位移被减小，结果产生清晰平滑的合成语音而不增加在线吞吐量。

附图说明

图1示出依照本发明第一实施例的拼接部分波形产生部件的配置实例的框图；

图2示出拼接式语音合成器的配置实例的框图；

图3示出语音单元修改/拼接部分的处理程序实例的流程图；

图4示出语音单元修改/拼接部分的处理内容实例的示意图；

图5示出拼接部分波形产生部件的处理程序实例的流程图；

图6示出用于带分割的滤波器特性的示例图；

图7示出通过对其带分割而获得的基音周期波形和低频基音周期波形和高频基音周期波形的示例图；

图8示出依照第一实施例的处理内容实例的示意图；

图9示出依照第二实施例的处理内容实例的解释性示意图；

图10示出拼接部分波形产生部件的配置实例的框图；

图11示出依照第二实施例中的变型2的拼接部分波形产生部件的配置实例的框图；

图12示出依照第三实施例的语音单元字典创建装置的配置实例的框图；

图13示出语音单元字典创建装置的处理程序实例的流程图；

图14描示出处理内容实例的示意图；

图15示出依照第三实施例中的变型4的语音单元字典创建装置的配置实例的框图；

图16示出依照第三实施例中的变型5的用于带分割的滤波器特性的示例图；

图17是交叠相加和拼接语音单元的处理的解释性示图；和

图18是考虑基音周期波形的相位差的交叠相加处理的解释性示图。

具体实施方式

现在参考图，本发明的实施例将被详细描述。

第一实施例

参考图1到图8，将描述依照本发明第一实施例的作为语音处理装置的拼接式语音合成器。

(1)拼接式语音合成器的配置

图2示出依照第一实施例的作为语音处理装置的拼接式语音合成器的配置实例。

拼接式语音合成器包括语音单元字典20，语音单元选择部件21，和语音单元修改/拼接部分22。

单个部件20，21和22的功能可以作为硬件执行。第一实施例中描述的方法可以通过存储在如磁盘，光盘或半导体存储器的记录介质中或作为计算机能执行的程序通过网络分配。上述功能也可通过描述为软件和使计算机装置具有处理该描述的合适机构来执行。

语音单元字典20在产生合成语音时使用的语音的单元(合成单元)中存储有大量语音单元。合成单元是音素或音素片段的组合，并包括半音素、音素、双音素、三音素和音节，并且可以具有可变长度例如其组合。语音单元是对应于合成单元或代表其特性的参数序列的语音信号波形。

语音单元选择部件21以通过合成单元划界输入音位序列获得的许多片段的单个输入音位序列/韵律信息100为基础从存储在语音单元字典20的语音单元中选择合适的语音单元101。韵律信息包括，例如，基音周期模式，其是浊音基音和音位期间的变化模式。

语音单元修改/拼接部分22修改和拼接由语音单元选择部件21以输入韵律信息为基础选择的语音单元101并且输出合成语音波形102。(2)语音单元修改/拼接部分22中的处理过程

图3示出语音单元修改/拼接部分22中执行的过程的流程图。在本说明书中，将作为实例描述单独地从语音单元修剪出基音周期波形，并在时间轴上交叠相加这些基音周期波形以产生合成语音波形的情况。图4示出这一过程序列的模式图。

本说明书中，术语“基音周期波形”代表相对短的语音波形，其长度最大为几倍左右的语音基频并且本身没有基频，其频谱代表语音信号的频谱包络。

首先，从音位序列/韵律信息中产生如图4所示的目标基音标记231。目标基音标记231代表产生合成语音波形的基音周期波形在时间轴上被交叠相加的位置，并且基音标记的间隔对应于基音周期(S221)。

随后，确定交叠相加和拼接前一语音单元和后一语音单元的拼接部分232，以平滑拼接语音单元(S222)。

随后，通过从语音单元选择部件21选择的语音单元101中修剪各基音周期波形并考虑交叠相加时需要的权重而通过改变功率修改来产生基音周期波形233，其在目标基音标记231处分别被交叠相加(S223)。

这里，假定语音单元101包括语音波形信息111和基准点序列112的信息，并且基准点被提供给循环出现在语音单元的浊音部分中的语音波形上的每一基音周期波形或预先以一定的时间间隔在清音部分中被提供。可用各种已有的方法例如基音抽取方法或基音标记映射方法来自动设置基准点，或可用手工映射，并且假定是与浊音部分中的基音周期波形的上升点或峰值点映射的基音同步的点。修剪基音周期波形时，例如，一种方法运用窗口功能234，该窗口功能234具有从基音周期到映射到语音单元的基准点周围的长度的大约两倍的窗口长度。

随后，在目标基音标记位于拼接部分内的情况下，从前一语音单元中修剪的基音周期波形和后一语音单元中修剪的基音周期波形中产生拼接部分基音周期波形235(S225)。

最后，在目标基音标记处交叠相加基音周期波形(S226)。

对所有目标基音标记重复上述操作到结束并且输出合成语音波形102(S227)。

(3)拼接部分波形产生部件1概述

以下，将对作为第一实施例的特性部分同时也作为语音单元修改/拼接部分22的部分的有关拼接部分波形产生部件1的配置和处理操作进行进一步详细描述。

拼接部分波形产生部件1是通过在拼接部分上交叠相加多个基音周期波形来执行产生基音周期波形235的处理的部分(S225)。

这里，将作为一个实例描述在对每一基音周期波形拼接前一语音单元和后一语音单元的拼接部分内的某目标基音标记上产生要被交叠相加的拼接部分波形的情况。

(4)拼接部分波形产生部件1的配置

图1示出拼接部分波形产生部件1的配置的实例。

拼接部分波形产生部件1包括带分割部件10、互相关计算部件11、带基音周期波形交叠相加部件12和带集成部件13。

(4-1)带分割部件10

带分割部件10将从在拼接部分要被交叠相加的前一语音单元中抽取的第一基音周期波形120和从后一语音单元中抽取的第二基音周期波形130分割成多个频带，并且分别产生带基音周期波形A(此后被称作带基音周期波形121，122)和带基音周期波形B(此后被称作带基音周期波形131，132)。

将利用高通滤波器和低通滤波器分割为两个带——高频带和低频带的情况作为一个实例进行描述。

(4-2)互相关计算部件11

互相关计算部件11计算分别从每一带的要被交叠相加的基音周期波形中产生的带基音周期波形的互相关，并且为每一带确定在一定的搜索范围内具有最大互相关系数的交叠相加位置140和150。

(4-3)带基音周期波形交叠相加部件12

带基音周期波形交叠相加部件12依照互相关计算部件11确定的交叠相加位置140或150为每一带交叠相加带基音周期波形，并且输出通过交叠相加被交叠相加的基音周期波形的单个带分量获得的带交叠相加基音周期波形141和151。

(4-4)带集成部件13

带集成部件13集成每一带交叠相加的带交叠相加基音周期波形141和151，并且输出在拼接部分内的一定目标基音标记上要被交叠相加的拼接部分基音周期波形235。

(5)拼接部分波形产生部件1中的处理

随后，通过拼接部分波形产生部件1执行的每一处理都将利用图5中描绘的拼接部分波形产生部件1中的处理流程图来详细描述。

(5-1)步骤S1

首先，在步骤S1中，带分割部件10将从前一语音单元中抽取的基音周期波形120和从后一语音单元中抽取的基音周期波形130分别分割成多个频带以产生带基音周期波形。

这里，由于将分割成两个带——高频带和低频带的情况作为实例，因此利用低通滤波器分别从基音周期波形120和基音周期波形130中抽取低频带分量以产生低频基音周期波形121和131，并且利用高通滤波器分别从基音周期波形120和基音周期波形130中抽取高频带分量以产生高频基音周期波形122和132。

图6示出低通滤波器和高通滤波器的频率特性。图7示出相应的基音周期波形(a)和低频基音周期波形(b)和高频基音周期波形(c)的实例。

如上所述，带基音周期波形121、122、131和132分别是从基音周期波形120和基音周期波形130中产生的，然后过程进行到图5中的步骤S2。

(5-2)步骤S2

随后，在步骤S2中，互相关计算部件11计算分别从每一带的要被交叠相加的前一语音单元和后一语音单元中产生的带基音周期波形的互相关，并且确定具有最大互相关的每一带的交叠相加位置140和150。

换句话说，互相关计算部件11为每一带独立地计算低频带和高频带的单个带基音周期波形的互相关，并且确定交叠相加位置，在该交叠相加位置将获得来自被交叠相加的两语音单元的带基音周期波形的高互相关，就是说，在该交叠相加位置每一带中的相位位移小。

例如，在某一带中，为了通过计算相对于从前一语音单元中产生的带基音周期波形的基准点的从后一语音单元中产生的带基音周期波形的基准点的适当移动宽度来确定交叠相加位置而必须做的是计算增加的k值：

C (k) = Σ_{t = 0}^{N} px (t) . py (t + k), - K \leq k \leq K

这里，px(t)是前一语音单元的带基音周期波形信号，py(t)是后一语音单元的带基音周期波形信号，N是计算互相关的带基音周期波形的长度，以及，K是确定搜索交叠相加位置的范围的最大移动宽度。

如上所述，在计算带基音周期波形之间的互相关和输出减小每一带的被交叠相加相位位移的交叠相加位置140和150后，过程进行到图5中的步骤S3。

(5-3)步骤S3

随后，在步骤S3中，带基音周期波形交叠相加部件部件12依照互相关计算部件部件11在每一带中确定的交叠相加位置140或150来交叠相加带基音周期波形121和131，或122和132，并且输出通过在拼接部分交叠相加基音周期波形的每一带的分量而获得的带交叠相加基音周期波形141和151。

换句话说，依照交叠相加位置140通过交叠相加带基音周期波形121和131产生低频带的带交叠相加基音周期波形141和依照交叠相加位置150通过交叠相加带基音周期波形122和132产生高频带的带交叠相加基音周期波形151。

因此，将在每一带中获得具有由于交叠相加基音周期波形之间的相位差所导致的中间频谱的小失真的带交叠相加基音周期波形。

如上所述，在输出通过交叠相加每一带的拼接部分的多个语音单元获得的带交叠相加基音周期波形141和151后，过程进行到图5中的步骤S4。

(5-4)步骤S4

随后，在步骤S3中，带集成部件13集成低频带的带交叠相加基音周期波形141和高频带的带交叠相加基音周期波形151，并且输出在拼接部分中的某一目标基音标记处被交叠相加的拼接部分基音周期波形235。

(6)优点

如上所述，依照第一实施例，当交叠相加语音单元的拼接部分中的多个基音周期波形时，在带分割部件10中，每一要被交叠相加的基音周期波形都被分割成多个频带，并且每一带的相位校准通过互相关计算部件11和带基音周期波形交叠相加部件12来执行。因此，所有频带中的用于拼接部分的语音单元之间的相位位移被减小。

换句话说，对比图8A所示的相关技术中所有频带的互相关被直接计算以产生拼接部分基音周期波形的情况，图8B中示意性地示出在第一实施例中操作的确定交叠相加位置以获得相对于被分割成单个带的波形的高互相关。因此，低频带和高频带的具有更小相位差的波形分别被产生，该波形在拼接部分的前一语音单元和后一语音单元之间具有中间频谱并且因此具有由于相位差所导致的小失真。

通过利用上述波形，拼接部分不连续的频谱变化被缓解，并且，不同于通过例如相位置零处理的相位被校准的情况，由于相位信息的丢失而导致的语音质量的恶化被避免，结果，提高了产生的合成语音的清晰度和自然度。

(7)变型

(7-1)变型1

在上述的第一实施例中，拼接部分基音周期波形被预先产生并且在拼接部分的目标基音标记处被交叠相加。然而，本发明并不限于此。

例如，在目标基音标记处预先交叠相加来自前一语音单元的基音周期波形也是可能的，并且，当在拼接部分将来自后一语音单元的基音周期波形交叠相加到来自前一语音单元的基音周期波形上时，移动交叠相加位置以获得每一带中目标基音标记外围的高互相关也是可能的。

(7-2)变型2

在第一实施例中，从语音单元修剪出基音周期波形。然而，本发明并不限于此。

例如，当存储在语音单元字典20中的浊音单元包括至少一个基音周期波形时，基音周期波形可通过从语音单元中选择要被交叠相加到相应目标基音标记处的基音周期波形和通过执行例如改变所需要的功率代替修剪图3的步骤S233中的被选择的语音单元的基音周期波形的处理进行修改来产生。在那之前的处理步骤与上述的第一实施例相同。

作为语音单元保存的基音周期波形并不限于是简单通过对语音波形运用窗口功能进行修剪来获得的，并且可以是那些修剪后进行过各种各样修改或转换的波形。

(7-3)变型3

在第一实施例中，对于考虑交叠相加时的权重通过例如改变功率(S223)进行修改后的基音周期波形进行处理，所述处理例如带分割或计算互相关。然而，处理过程并不限于此。

例如，通过对简单修剪语音单元得到的基音周期波形进行例如带分割(S1)或互相关计算(S2)的处理，和通过交叠相加带基音周期波形(S3)时对单个基音周期波形应用权重也能达到相同的效果。

第二实施例

现在参考图9和图10，将描述依照本发明第二实施例的作为语音合成装置的拼接式语音合成器。

第二实施例的特征是，在语音单元不被分解为基音周期波形和被拼接以产生合成语音波形的情况下，相互之间具有小相位位移的多个语音单元在时间轴方向上被交叠相加。

换句话说，图2中的语音单元修改/拼接部分22输出合成语音波形102而没有将语音单元选择部件21选择的语音单元101分解成基音周期波形，而是，修改语音单元例如以输入韵律信息或交叠相加时需要的权重为基础考虑修改改变功率和通过在拼接部分部分地或全部交叠相加来拼接多个语音单元。

在下述的描述中，将主要描述图9中所示的在拼接部分交叠相加前一语音单元和后一语音单元的处理。其它处理与第一实施例相同并且因此不再进行详细描述。

(1)拼接部分波形产生部件1的配置

图10示出依照第二实施例的拼接部分波形产生部件1的配置实例。

处理内容和流程基本与第一实施例相同。然而，不同的是输入是语音单元波形而不是基音周期波形，并且在带分割部件10、互相关计算部件11、带波形交叠相加部件14和带集成部件13中的每一过程中处理语音单元波形。这里，将作为一个实例描述拼接前一语音单元160和后一语音单元170的情况。

(1-1)带分割部件10

带分割部件10将前一语音单元160和后一语音单元170分割成两频带：低频带和高频带，并且从其分别产生带语音单元161，162，171和172。

(1-2)互相关计算部件11

互相关计算部件11分别计算低频带和高频带的单个带语音单元的互相关，并且确定获得被交叠相加的两语音单元的带语音单元的高互相关的交叠相加位置140和150，也就是，该交叠相加位置处每一带的相位位移小。

例如，当前一语音单元的第二半部分与后一语音单元的第一半部分在拼接部分被交叠相加时，通过计算互相关同时假定后一语音单元的带语音单元171的第一半部分被交叠相加到前一语音单元的带语音单元161的第二半部分的语音波形上，以及通过计算一定搜索范围中具有最高互相关的位置来确定低频区域的交叠相加位置140。

(1-3)带波形交叠相加部件14

带波形交叠相加部件14依照通过互相关计算部件11确定的每一带的交叠相加位置140和150来交叠相加带语音单元，并且输出带交叠相加语音单元180和190，其是通过交叠相加每一带的被拼接的语音单元的分量获得的波形。

(1-4)带集成部件13

带集成部件13集成每一带交叠相加的带交叠相加语音单元180和190，并且输出拼接部分的语音波形200。

(2)优点

如到现在为止所描述的，依照第二实施例，所有频带中在拼接部分语音单元之间的相位位移可通过在拼接部分交叠相加多个语音单元时对语音单元施加与第一实施例相同的处理来减小。

换句话说，在拼接部分，就产生了在前一语音单元和后一语音单元之间具有中间频谱和由于相位差所导致的小失真的波形。因此，频谱改变具有更少的不连续性，并且由于例如相位置零的处理所导致的语音质量的恶化也被避免，从而产生清晰和平滑的合成语音。

(3)变型

(3-1)变型1

在上述的第一和第二实施例中，通过互相关计算部件11计算的单个频带的要被交叠相加的带语音单元(或带基音周期波形)的互相关来确定交叠相加位置。然而，本发明并不限于此。

例如，以相位频谱中的差异而不是互相关计算部件11为基础计算要交叠相加的单个带语音单元(或带基音周期波形)的相位频谱和确定交叠相加位置也是可能的。在这一例子中，带语音单元(或带基音周期波形)被移动和交叠相加以减小这些相位频谱之间的差异，结果就产生了具有由于相位差所导致的小失真的波形。

(3-2)变型2

上述的第一和第二实施例使用这样的配置，其中通过依照被确定的交叠相加位置交叠相加多个带语音单元(或带基音周期波形)获得的每一带的交叠相加带语音单元(或交叠相加带基音周期波形)被产生，并且然后，分别集成这些带的交叠相加带语音单元(或交叠相加带基音周期波形)。然而，本发明的处理程序并不限于此。

换句话说，在拼接部分用到的交叠相加多个语音单元(或基音周期波形)的处理和集成带的处理的顺序并不限于上述变型。

例如，如图11所示，依照每一带确定的交叠相加位置首先移动和集成带基音周期波形以产生基音周期波形123和133也是可能的，基音周期波形123和133具有小相位位移并具有在拼接部分要被交叠相加的基音周期波形120和130在每一带中产生的所有频带分量，并且然后交叠相加这些基音周期波形123和133以在所有频带中产生具有由于相位差所导致的小失真的拼接部分基音周期波形235也是可能的。

(3-3)变型3

在上述的第一和第二实施例中，在拼接部分交叠相加前一语音单元和后一语音单元的两语音波形。然而，本发明并不限于此。

例如，加权和交叠相加三个或更多语音单元也是可能的。在这一例子中，当移动以减小每一带的相位位移时，通过交叠相加除了一定语音单元的一个剩余带语音单元(或带基音周期波形)外的语音单元的带语音单元(或带基音周期波形)产生具有由于相位差所导致的小失真的语音波形。

(3-4)变型4

在上述的第一和第二实施例中，在拼接部分对要被交叠相加的前一语音单元和后一语音单元都执行带分割处理。然而，本发明并不限于此。

在被限定具有一定长度的语音波形的情况下，因为在各自频带中的波形之间的相关是低的，因此上述实施例描述的几乎相同的优点简单地通过仅在前一语音单元和后一语音单元之一中带分割语音单元就能达到。

例如，通过仅在后一语音单元中带分割和搜索交叠相加位置，在该交叠相加位置处获得具有所有频带分量的后一语音单元和前一语音单元的带语音单元之间的高相关，每一带的相位位移就被减小，并且对应于前一语音单元的带分割处理的除去数量，计算量减小了。

第三实施例

现在参考图12到图14，将描述依照本发明的第三实施例的作为语音处理装置的语音单元字典创建装置。

(1)语音单元字典创建装置的配置

图12示出语音单元字典创建装置的配置的实例。

这个语音单元字典创建装置包括输入语音单元字典20，带分割部件10，带基准点校正部件15，带集成部件13，和输出语音单元字典29。(1-1)输入语音单元字典20

输入语音单元字典20存储大量语音单元。这里，将作为一个实例描述其中浊音语音单元(voiced sound speech unit)包括至少一个基音周期波形的情况。

(1-2)带分割部件10

带分割部件10分割输入语音单元字典20中的某一语音单元中的基音周期波形310和预先设置的基准语音波形300成多个频带，并且产生各带的基音周期波形311和312及带基准语音波形301和302。

这里，将作为一个实例描述利用上述实施例中的高通滤波器和低通滤波器分割成两个带：高频带和低频带的情况。

如上所述，基音周期波形310和基准语音波形300各具有基准点，并且当它们被合成时，通过交叠相加基音周期波形同时用目标基音标记位置校准基准点产生合成语音。

假定分割成单个带的带基音周期波形和带基准语音波形把带分割之前的波形基准点位置作为带基准点。

(1-3)带基准点校正部件15

带基准点校正部件15校正每一带中的带基音周期波形的带基准点以获得带基准语音波形和带基音周期波形之间的最高互相关，并且输出被校正的带基准点320和330。

(1-4)带集成部件13

带集成部件13以被校正的带基准点320和330为基础集成带基音周期波形311和312并且输出通过校正每一带的原始基音周期波形310的相位获得的基音周期波形313。

(2)语音单元字典创建装置的处理过程

现在将参考示意性地示出第三实施例的操作的图13和图14中的流程图，详细描述语音单元字典创建装置的处理过程。

(2-1)步骤S31

在步骤S31中，带分割部件10将包含在输入语音单元字典20中的一个语音单元中的基音周期波形310和预先设置的基准语音波形300分别分割成两个带的波形：低频带和高频带。

这里的术语“基准语音波形”是指用作基准的语音波形，用于尽可能地最小化包含在输入语音单元字典20中的语音单元(基音周期波形)之间的相位位移，并且包括相位被校准的所有频带的信号分量。

作为一个实例，假定通过计算包含在输入语音单元字典20中的所有基音周期波形的形心(centroid)和从输入语音单元字典20中选择距离形心最近的基音周期波形来获得。

基准语音波形可被预先存储在输入语音单元字典20中。

如上所述，从基音周期波形310中产生带基音周期波形311和312和从基准语音波形300中产生带基准语音波形301和302，并且然后过程进行到图13中的步骤S32。

(2-2)步骤S32

在步骤S32中，带基准点校正部件15校正带基音周期波形的带基准点以在每一带中获得带基准语音波形和带基音周期波形之间的更高的互相关，并且输出被校正的带基准点320和330。

换句话说，以与第一实施例中描述的互相关计算部件11相同的方式，计算每一带的带基音周期波形和带基准语音波形之间的互相关，以及一定搜索范围内的每一带的获得高互相关的移动位置，也就是，搜索带基音周期波形相对于带基准语音波形的小相位位移被获得的移动位置以校正带基音周期波形的带基准点。如图14所示，通过移动带基音周期波形的带基准点到相对于带基准语音波形的相关性被最大化的位置来校正每一个低频带和高频带。

如上所述，从每一带中输出通过校正带基音周期波形的带基准点获得的被校正的带基准点320和330，并且然后过程进行到图13中的步骤S33。

(2-3)步骤S33

在步骤S33中，带集成部件13以被校正的带基准点320和330为基础集成带基音周期波形311和312，并且输出通过校正每一带的原始基音周期波形310的相位获得的基音周期波形313。

换句话说，如图14所示，所有频带中相对于基准语音波形的相位位移被减小的基音周期波形通过集成作为单个带的分量的带基音周期波形，同时校准被校正的带基准点而被重构，以获得每一带的相对于带基准语音波形的高相关。

通过对包含在输入语音单元字典20中的语音单元的基音周期波形顺次地应用上述处理，包含相对于某一基准语音波形具有更小相位位移的语音单元的输出语音单元字典29被创建。通过使用图2中所示的拼接式语音合成器中的这个字典产生合成语音。

(3)优点

如到现在为止所描述的，依照第三实施例，通过带分割部件10将包含在输入语音单元字典20中的语音单元的每一基音周期波形分割成多个频带，通过带基准点校正部件15校正基准点以减小每一带的相对于基准语音波形的相位位移，以及通过带集成部件13重构基音周期波形以校准被校正的基准点，所有频带中的相对于某一基准语音波形的相位位移可被减小。

因此，包含在输出语音单元字典29中的语音单元的每一基音周期波形都具有相对于某一基准语音波形的小相位位移，并且，随后，所有频带中的语音单元相互之间的相位位移被减小。

换句话说，通过对拼接式语音合成器使用在依照第三实施例的处理中应用的语音单元字典，所有频带中的语音单元之间的相位位移仅通过在拼接部分交叠相加多个语音单元时依照基准点交叠相加每一语音单元(基音周期波形)而没有增加例如相位校准的特殊处理就被减小，并且在拼接部分也产生具有由于相位差所导致的小失真的波形。

当通过进行例如相位置零的处理来修整原始相位信息以使相位被强迫校准时，作为问题出现的语音质量的恶化问题不再发生。换句话说，即使当合成中吞吐量的限制是严格的，实现具有由拼接部分要被交叠相加的语音单元的相位位移所导致的频谱变化的更少不连续性的清晰平滑的合成语音的产生，而不增加在线的新处理。

(4)变型

(4-1)变型1

在上述的第三实施例中，浊音的语音单元字典包括至少一个基音周期波形，并且执行每一基音周期波形与基准语音波形的相位校准。然而，语音单元的配置并不限于此。

例如，当语音单元是音素单元中的语音波形，并且具有用于合成的在时间轴的方向上交叠相加语音单元的基准点时，应用上述处理以获得所有频带中对于被期望交叠相加到整个语音单元上或拼接部分处以减小包含在语音单元字典中的语音单元之间的相位位移的部分的相对于某一基准语音波形的小相位位移也是可能的。

(4-2)变型2

在上述的第三实施例中，基准语音波形是距离包含在输入语音单元字典20中的所有基音周期波形的形心最近的基音周期波形。然而，本发明并不限于此。

其它波形，只要其包含相位被校准的频带信号分量并且不是极端偏离作为相位校准目标的语音单元(或基音周期波形)就可被应用。例如，语音单元字典中所有基音周期波形的形心本身可被使用。

(4-3)变型3

在上述的第三实施例中，对某种类型的基准语音波形执行相位校准处理。然而，本发明并不限于此。

例如，多个不同类型的基准语音波形可被使用于例如每一音位环境。然而，用相同基准语音波形对合成时具有可能被拼接的(在拼接部分被交叠相加)语音单元的部分(或基音周期波形)进行相位校准是优选的。

(4-4)变型4

上述的第三实施例使用其中也执行基准语音波形的带分割处理的配置。然而，本发明并不限于此。

例如，如图15所示，预先为低频带和高频带分别准备带基准语音波形并且使用相同带基准语音波形作为随后处理的输入也是可能的。

(4-5)变型5

在以上示出的第三实施例中，通过移动提供给语音单元(或基音周期波形)的基准点来执行校准(相位位移被减小)。然而，本发明并不限于此。

例如，通过在语音单元(或基音周期波形)的中心固定基准点和移动波形，例如通过在波形末尾补零(padding zero)也能达到相同的效果。

(4-6)变型6

在以上示出的第三实施例中，通过带基准点校正部件15计算每一频带的带基准语音波形和带基音周期波形之间的互相关来确定每一带基音周期波形的带基准点。然而，本发明并不限于此。

例如，计算每一带基音周期波形(或带语音单元)和带基准语音波形的相位频谱和以相位频谱中的差异为基础确定每一带的基准点也是可能的。在这种情况下，通过移动每一带基音周期波形(或带语音单元)减小其中相位频谱的差异，以减小所有频带中相对于基准语音波形的相位位移。

(4-7)变型7

在以上示出的第三实施例中，通过校正包含在输入语音单元字典20中的基准点来确定每一带基准点。然而，本发明并不限于此。

例如，当基准点未提供给输入语音单元字典20中的基音周期波形(或语音单元)时，在所有频带中对于一位置具有相对于基准语音波形的小相位位移的基音周期波形(或语音单元)可通过例如将带基准语音波形的中心点作为新的带基准点，并且通过移动以校准每一带的带基准点，并且通过图12或图15中的带基准点校正部件15进行集成而产生，其中在所述位置处，将获得每一带基音周期波形(或带语音单元)和带基准语音波形之间的极大或最大系数的互相关，或者在所述位置处，将获得相位频谱中的极小或最小差异。

(4-8)变型8

在以上示出的第一，第二和第三实施例中，分割带时用高通滤波器和低通滤波器将语音单元(或基音周期波形)分割成两个带：高频带和低频带。然而，本发明并不限于此，并且可以将语音单元(或基音周期波形)分割成三个或更多带并且这些带的带宽互相之间可以是不同的。

例如，它可被分割成图16所示的具有不同带宽的四个带。在这种情况下，通过减小低频带侧的带宽来达到有效的带分割。

(4-9)变型9

在上述的第一，第二和第三实施例中，对应用带分割的所有频带执行相位校准。然而，本发明并不限于此。

例如，将语音单元(或基音周期波形)分割成多个带和仅对低频至中间频率带中的带语音单元(或带基音周期波形)应用上述处理以减小相位位移同时不处理具有相对随机相位的高频分量也是可能的。

(4-10)变型10

在带-带的基础上改变移动基准点或波形的范围以减小相位位移(计算相位频谱中互相关或差异的搜索范围)也是可能的。

Claims

1.一种语音处理装置，被配置为交叠相加作为第一语音单元的一部分的第一语音波形和作为第二语音单元的一部分的第二语音波形以拼接所述第一语音单元和所述第二语音单元，包括：

分割部件，被配置为将所述第一语音波形分割成多个频带以产生作为每一频带分量的带语音波形A，以及将所述第二语音波形分割成多个频带以产生作为每一频带分量的带语音波形B；

位置确定部件，被配置为确定每一频带的所述带语音波形A和所述带语音波形B之间的交叠相加位置，以便获得所述带语音波形A和所述带语音波形B之间的高互相关或者以便获得所述带语音波形A和所述带语音波形B之间的相位频谱中的小差异；以及

集成部件，被配置为以所述交叠相加位置为基础交叠相加每一频带的所述带语音波形A和所述带语音波形B，并且在所有的多个频带上集成该多个频带的交叠相加的带语音波形以产生拼接语音波形。

2.如权利要求1所述的装置，其中所述语音波形是从浊音部分抽取的基音周期波形。

3.如权利要求1所述的装置，其中所述位置确定部件确定移动所述带语音波形A或所述带语音波形B的位置作为要被交叠相加的位置，以获得所述带语音波形A和所述带语音波形B之间的极大或最大系数的互相关。

4.如权利要求1所述的装置，其中所述位置确定部件确定移动所述带语音波形A或所述带语音波形B的位置作为要被交叠相加的位置，以获得所述带语音波形A和所述带语音波形B之间相位频谱中的极小或最小差异。

5.一种语音处理装置，包括：

第一字典，包括多个语音波形和基准点，当对每一语音波形拼接存储在所述第一字典中的语音波形时，所述多个语音波形和基准点将被交叠相加；

分割部件，被配置为将每一语音波形分割成多个频带并且产生作为每一频带分量的带语音波形；

基准波形存储部件，被配置为存储带基准语音波形，所述带基准语音波形每一个都包含每一频带的信号分量；

位置校正部件，被配置为校正所述带语音波形的基准点以获得所述带语音波形和所述带基准语音波形之间的高互相关或获得所述带语音波形和所述带基准语音波形之间相位频谱中的小差异，从而获得所述带语音波形的带基准点；以及

重构部件，被配置为移动所述带语音波形以校准所述带基准点的位置和在所有的多个频带上集成被移动的带语音波形以重构语音波形。

6.如权利要求5所述的装置，其中所述语音波形是从浊音部分抽取的基音周期波形。

7.如权利要求5所述的装置，其中所述位置校正部件校正所述基准点以获得所述带语音波形和所述带基准语音波形之间的极大或最大系数的互相关并获得所述带基准点。

8.如权利要求5所述的装置，其中所述位置校正部件校正所述基准点以获得所述带语音波形和所述带基准语音波形之间相位频谱中的极小或最小差异并获得所述带基准点。

9.如权利要求5所述的装置，其中所述基准波形存储部件存储从外部提供的带基准语音波形或存储利用存储在所述第一字典中的语音波形产生的带基准语音波形。

10.如权利要求5所述的装置，其中所述重构部件产生第二字典，所述第二字典存储被重构的语音波形和对应于所述带基准点的新的基准点。

11.一种语音处理方法，被配置为交叠相加作为第一语音单元的一部分的第一语音波形和作为第二语音单元的一部分的第二语音波形以拼接所述第一语音单元和所述第二语音单元，包括：

将所述第一语音波形分割成多个频带以产生作为每一频带分量的带语音波形A，以及将所述第二语音波形分割成多个频带以产生作为每一频带分量的带语音波形B；

确定所述每一频带的所述带语音波形A和所述带语音波形B之间的交叠相加位置，以获得所述带语音波形A和所述带语音波形B之间的高互相关或获得所述带语音波形A和所述带语音波形B之间的相位频谱中的小差异；以及

以交叠相加位置为基础交叠相加所述每一频带的所述带语音波形A和所述带语音波形B并且在所有的多个频带上集成该多个频带的交叠相加带语音波形以产生拼接语音波形。

12.一种语音处理方法，包括：

从第一字典中将语音波形分割成多个频带并且产生带语音波形作为每一频带的分量，所述第一字典包括多个语音波形和基准点，当对每一语音波形拼接存储在所述第一字典中的语音波形时，所述多个语音波形和基准点将被交叠相加；

产生带基准语音波形，所述带基准语音波形包含所述每一频带的信号分量；

校正所述带语音波形的基准点以获得所述带语音波形和所述带基准语音波形之间的高互相关或获得所述带语音波形和所述带基准语音波形之间相位频谱中的小差异，并且获得所述带语音波形的带基准点；以及

移动所述带语音波形以校准所述带基准点的位置并且在所有的多个频带上集成被移动的带语音波形以重构语音波形。