CN101536087B

CN101536087B - 用于建模语音频谱的系统和方法

Info

Publication number: CN101536087B
Application number: CN200780041119.1A
Authority: CN
Inventors: J·尼尔米南; S·伊玛南
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj; Nokia Inc
Priority date: 2006-11-06
Filing date: 2007-09-26
Publication date: 2013-06-12
Anticipated expiration: 2027-09-26
Also published as: KR20090082460A; CN101536087A; EP2080196A4; KR101083945B1; US8489392B2; WO2008056282A1; US20080109218A1; EP2080196A1

Abstract

一种用于以话音贡献和非话音贡献二者能够共存于某频率的方式建模语音的系统和方法。在多种实施方式中，使用三种频带(或高达三种不同类型的频带)。在一个实施方式中，最低频带或频带组完全是话音的，中间频带或频带组包含话音贡献和非话音贡献两者，而最高频带或频带组是完全非话音的。可将本发明的实施方式用于语音编码和其它语音处理应用。

Description

用于建模语音频谱的系统和方法

技术领域

本发明总体涉及语音处理。更特别地，本发明涉及诸如语音编码、话音转换和文本到语音合成的语音处理应用。

背景技术

本部分意在提供在权利要求书中陈述的本发明的背景或上下文。本文的描述可包括将被贯彻的概念，但前面被表达和贯彻的内容并非是必须的。因而，除非在本文指出，在此部分所描述的并非是在该申请中的说明书和权利要求书的现有技术，以及并非通过包含于此部分内而承认其为现有技术。

许多语音模型依赖于基于线性预测(LP)的方法，其中使用LP系数对声道(vocal tract)进行建模。继而，使用进一步的技术对激励信号(即，LP残差(residual))建模。下面是一些传统技术。第一，可将激励建模为周期性脉冲(在话音语音(voiced speech)期间)或者噪声(在非话音语音(unvoiced speech)期间)。然而，由于话音/非话音硬决策，限制了可获得的质量。第二，可使用激励频谱对激励建模，其将在时变的截止频率之下的激励频谱认为是话音的，而将在该频率之上的激励频谱认为是非话音的。这种频带切分方法能够在语音信号的许多部分上令人满意地执行，但是问题依然出现，尤其是在具有混合的声音和噪声语音的频谱的情况下。第三，可使用多带激励(MBE，multiband excitation)模型。在此模型中，频谱可包括若干话音的频带和非话音的频带(多达谐波的数量)。对于每个频带执行单独的话音/非话音决策。尽管在一些情况下是相当可接受的，但是MBE模型的性能关于对多个频带的话音/非话音硬决策依然具有受限的质量。第四，在波形内插(WI，waveforminterpolation)语音编码中，将激励建模为慢渐变波形(SEW，slowlyevolving waveform)和快渐变波形(REW，rapidly evolvingwaveform)。SEW对应于话音的贡献，而REW代表非话音的分布。不幸的是，由于高复杂度和对于获得SEW和REW的完美分割不总是可行，此模型受到损害。

因此，希望提供一种改进的用于建模语音频谱的系统和方法，以解决上面提出的许多问题。

发明内容

本发明的多种实施方式提供了用于以话音的和非话音的贡献二者能够共存于某频率的方式来建模语音的系统和方法。为将复杂度保持在适中的程度，使用三组频谱带(或者高达三种不同类型的频带)。在一个特定实施方式中，最低频带或频带组完全是话音的，中间频带或频带组包含话音的和非话音的贡献两者，而最高频带或频带组是完全非话音的。此种实现在需要的场合提供了高的建模精度，并且也以低计算负载支持较简单的情况。可使用本发明的实施方式用于语音编码和其它语音处理应用，诸如文本到语音合成和话音转换。

本发明的多种实施方式在语音建模，尤其在较弱的话音语音的情况下，提供了高精度，与此同时，仅承受适中的计算负载。多种实施方式相对于传统装置也提供了在精度和复杂度之间的改进的平衡。

当结合附图而考虑时，从下文的详细描述中，本发明的这些和其它优点和特征，连同其操作的方式和组织将变得明显，其中贯穿下文描述的若干附图，相同的单元具有相同的数字。

附图说明

图1是示出了可以如何实现多种实施方式的流程图；

图2是可在本发明的实现中使用的移动电话的透视图；以及

图3是对图2移动电话的电话电路的示意性展现。

具体实施方式

本发明的多种实施方式提供了用于以话音的和非话音的贡献二者能够共存于某频率的方式来建模语音的系统和方法。为将复杂度保持在适中的程度，使用三个频谱带集合(或者高达三种不同类型的频带)。在一个特定实施方式中，最低频带或频带组完全是话音的，中间频带或频带组包含话音的和非话音的贡献两者，而最高频带或频带组是完全非话音的。此种实现在需要的场合提供了高的建模精度，并且也以低计算负载支持较简单的情况。可使用本发明的实施方式用于语音编码和其它语音处理应用，诸如文本到语音合成和语音转换。

图1是示出了本发明的一个特定实施方式的实现的流程图。在图1的100，接收语音帧(例如，20毫秒帧)作为输入。在110，计算当前帧的音高估计(pitch estimate)，并获得对在音高频率及其谐波所采样的频谱(或激励频谱)的估计。然而，应当指出，可用不同于音高谐波的方式对频谱采样。在120，在每个谐波频率执行调声估计。作为对获得话音(例如，使用值1.0指出)和非话音(例如，使用值0.0指出)之间硬决策的替代，获得“调声似然性(voicinglikelihood)”(例如，在从0.0到1.0的范围之间)。由于本质上调声不是离散值，可将多种已知估计技术用于此过程。

在130，指明话音频带。可通过以下来对此加以实现：从频谱的低频端开始，并经过针对谐波频率的调声值，直到调声似然性下降到预先确定的阈值(例如0.9)之下。话音频带的宽度甚至可以为0，或者如果需要的话，话音频带可覆盖整个频谱。在140，指明非话音频带。可通过以下来对此加以实现：开始于频谱的高频端，经过针对谐波频率的调声值，直到调声似然性大于预先确定的阈值(例如0.1)。同话音频带类似，非话音频带的宽度可以是0，或者，如果必要的话，该频带也可覆盖整个频谱。应当指出，对于话音频带和非话音频带二者，可使用多种比例和/或范围，以及如果必要或者需要的话，可将个别的“话音值”和“非话音值”定位在频谱的多个部分。在150，将在话音频带和非话音频带之间的频谱区域指定为混合频带。如同用于话音频带和非话音频带的情况，混合频带的宽度可从0延伸到覆盖整个频谱。如果必须或者需要的话，也可用其它方式定义混合频带。

在160，创建针对混合频带的“调声形状(voicing shape)”。用于执行此动作的一种选项同样地涉及使用调声似然性。例如，如果在调声估计中使用的窗口(bins)宽于谐波间隔，那么可使用在此点或者在下面解释的180处的内插来重定义形状。在语音编码的情况下，可进一步处理或简化调声形状，以允许对信息的有效压缩。在简单的情况下，可使用该频带内的线性模型。

在170，存储所获得的模型的参数(在语音编码的情况下)，或者在话音转换的情况下，传递所获得的模型的参数用于进一步处理或者用于语音合成。在180，基于模型参数重建频谱的振幅和相位。在话音频带中，假定相位是线性演化(evolve linearly)。在非话音频带，相位可以是随机的。在混合频带中，可以将两种贡献组合以实现组合的振幅和相位值，或者可使用两种单独的值来表示两种贡献(依赖于合成技术)。在190，将频谱转换到时域。此转换可使用例如离散傅立叶变换或正弦振荡器而发生。可通过执行线性预测合成滤波器或者通过是用传统上已知的其它过程来将所合成的激励转换为语音而实现语音建模的其余部分。

如同此处所讨论的，从110到170的项特别地涉及语音分析或编码，而从180到190的项特别地涉及语音合成或解码。

除了在图1中描绘的过程，以及如同上面所讨论的，对编码和解码过程的多种变化也是可能的。例如，处理框架和参数估计算法可不同于上面所讨论的那些。此外，可使用不同的调声检测算法，以及每个频率窗口的宽度可以是可变的。而且，该建模仅使用混合频带，或者可以使用代表三种不同频带类型的频带，而替代对每种类型的一个频带的使用。依然进一步地，可用不同于上面所讨论的方式来执行对调声形状的确定，以及合成方法的细节可以是多样的。

实现本发明的多种实施方式的设备可使用多种传输技术来通信，传输技术包括但不限于码分多址(CDMA)、全球移动通信系统(GSM)、通用移动通信系统(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议/因特网协议(TCP/IP)、短消息传送服务(SMS)、多媒体消息传送服务(MMS)、电子邮件、即时消息传送服务(IMS)、蓝牙、IEEE802.11等。通信设备可使用包括但不限于射频、红外、激光、线缆连接及其类似的多种介质而通信。

图2和3示出了其中可实现本发明的一种代表性移动电话12。然而，应当理解，本发明并非意在限制于移动电话12或者其它电子设备的一种特定类型。图2和3的移动电话12包括外壳30、液晶显示器形式的显示器32、键区34、麦克风36、耳机38、电池40、红外端口42、天线44、根据本发明的实施方式的UICC形式的智能卡46、读卡器48、无线电接口电路52、编解码器电路54、控制器56和存储器58。单独的电路和单元全都是现有技术中(例如，Nokia系列的移动电话中)公知的类型。

在方法步骤的一般上下文中描述了本发明，通过包括诸如程序代码的由在网络环境中的计算机执行的计算机可执行指令的程序产品，可将其实现于一种实施方式。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。同数据结构相关联的计算机可执行指令，以及程序模块，代表了用于执行此处公开的方法步骤的程序代码的例子。此类可执行指令或相关联的数据结构的特定序列代表了用于实现在此类步骤中描述的功能的对应活动的例子。

可用标准编程技术，使用基于规则的逻辑以及用于实现多种动作的其它逻辑，实现本发明的软件和web实现。也应当指出，此处以及在权利要求书中所使用的单词“组件”和“模块”意在包括使用一行或多行软件代码的实现，和/或硬件实现，和/或接收手工输入的装置。

已经为了示出和描述的目的而展现了本发明的实施方式的前述描述。并非意在穷尽或限制本发明于所公开的精确形式，以及按照上述教导，调整和变化是可能的，或者从本发明的实践中可获得调整和变化。选择和描述实施方式以便解释本发明的原则及其实际应用，以允许所属领域技术人员来在多种实施方式中用适合于特定使用目的的多种调整来利用本发明。

Claims

1.一种获得语音帧模型的方法，包括：

获得对所述语音帧的频谱估计；

为在所估计的频谱内的每个频点分配调声似然值；

标识包括具有第一集合的调声似然值的频点的至少一个话音频带；

标识包括具有第二集合的调声似然值的频点的至少一个非话音频带；

标识包括具有第三集合的调声似然值的频点的至少一个混合频带；

创建针对频点的所述至少一个混合频带的调声形状。

2.根据权利要求1的所述方法，其中：

所述至少一个话音频带包括具有在第一取值范围内的调声似然值的频点；

所述至少一个非话音频带包括具有在第二取值范围内的调声似然值的频点；

所述至少一个混合频带包括具有在所述至少一个话音频带和所述至少一个非话音频带之间的调声似然值的频点。

3.根据权利要求1的所述方法，其中在所确定的音高频率及其谐波上采样用于所述语音帧的频谱估计。

4.根据权利要求1的所述方法，进一步包括存储用于所获得的模型的参数。

5.根据权利要求1的所述方法，进一步包括向远程设备传送用于所获得的模型的参数。

6.根据权利要求1的所述方法，进一步包括进一步处理用于所获得的模型的参数。

7.根据权利要求1的所述方法，其中使用在所述至少一个混合频带中的调声似然值而实现对调声形状的创建。

8.根据权利要求1的所述方法，其中对调声形状的创建包括在所述至少一个混合频带中的调声似然值之间内插值。

9.根据权利要求1或3的所述方法，其中所述至少一个话音频带、所述至少一个非话音频带和所述至少一个混合频带中的至少其一，覆盖了频点的整个频谱。

10.根据权利要求1或3的所述方法，其中所述至少一个话音频带、所述至少一个非话音频带和所述至少一个混合频带中的至少其一，没有覆盖频点的频谱的任何部分。

11.根据权利要求1的所述方法，其中所述至少一个话音频带、所述至少一个非话音频带和所述至少一个混合频带中的每个，包括单一频带。

12.一种用于获得语音帧模型的设备，包括：

用于获得对所述语音帧的频谱估计的装置；

用于为在所估计的频谱内的每个频点分配调声似然值的装置；

用于标识包括具有第一集合的调声似然值的频点的至少一个话音频带的装置；

用于标识包括具有第二集合的调声似然值的频点的至少一个非话音频带的装置；

用于标识包括具有第三集合的调声似然值的频点的至少一个混合频带的装置；以及

用于创建针对频点的所述至少一个混合频带的调声形状的装置。

13.根据权利要求12的所述设备，其中：

所述至少一个非话音频带包括具有在第二取值范围内的调声似然值的频点；以及

14.根据权利要求12的所述设备，其中在所确定的音高频率及其谐波上采样用于所述语音帧的频谱估计。

15.根据权利要求12的所述设备，其中使用在至少一个混合频带中的话音似然值而实现对所述调声形状的所述创建。

16.根据权利要求12或14的所述设备，其中所述至少一个话音频带、所述至少一个非话音频带和所述至少一个混合频带中的至少其一，覆盖了频点的整个频谱。

17.根据权利要求12或14的所述设备，其中所述至少一个话音频带、所述至少一个非话音频带和所述至少一个混合频带中的至少其一，没有覆盖频点的频谱的任何部分。

18.一种用于合成在频谱上的语音帧模型的方法，包括：

基于所述频谱的参数而重建所述频谱的振幅和相位值，所述频谱包括至少一个话音频带，至少一个非话音频带和至少一个混合频带，所述话音频带包括具有第一集合的调声似然值的频点，所述非话音频带包括具有第二集合的调声似然值的频点，所述混合频带包括具有第三集合的调声似然值的频点；以及

将所述频谱转换到时域，

其中所述频谱的参数包括针对频点的所述至少一个混合频带创建的调声形状。

19.根据权利要求18的所述方法，其中使用傅立叶变换将所述频谱转换到时域。

20.根据权利要求18的所述方法，其中使用正弦振荡器将所述频谱转换到时域。

21.根据权利要求18的所述方法，其中，为了重建所述频谱，将针对所述至少一个话音频带的相位值假定为线性演化。

22.根据权利要求18的所述方法，其中，为了重建所述频谱，将针对所述至少一个非话音频带的相位值假定为随机的。

23.根据权利要求18的所述方法，其中，为了重建所述频谱，针对所述至少一个混合频带的振幅和相位值包括针对话音贡献和非话音贡献的各自的振幅和相位值的组合。

24.根据权利要求18的所述方法，其中，为了重建所述频谱，针对所述至少一个混合频带的振幅和相位值的每个包括两个单独的值。

25.根据权利要求18的所述方法，其中所述至少一个话音频带、所述至少一个非话音频带和所述至少一个混合频带中的每个，包括单一频带。

26.一种用于合成在频谱上的语音帧模型的设备，包括：

用于基于所述频谱的参数而重建所述频谱的振幅和相位值的装置，所述频谱包括至少一个话音频带，至少一个非话音频带和至少一个混合频带，所述话音频带包括具有第一集合的调声似然值的频点，所述非话音频带包括具有第二集合的调声似然值的频点，所述混合频带包括具有第三集合的调声似然值的频点；以及

用于将所述频谱转换到时域的装置，

27.根据权利要求26的所述设备，其中，为了重建所述频谱，针对所述至少一个非话音频带的相位值是随机的。

28.根据权利要求26的所述设备，其中，为了重建所述频谱，针对所述至少一个混合频带的振幅和相位值包括针对话音贡献和非话音贡献的各自的振幅和相位值的组合。

29.根据权利要求26的所述设备，其中所述至少一个话音频带、所述至少一个非话音频带和所述至少一个混合频带中的每个，包括单一频带。