CN1432177A

CN1432177A - 语音速率转换

Info

Publication number: CN1432177A
Application number: CN01810565.3A
Authority: CN
Inventors: C·安德伦; H·约翰尼松
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2000-04-06
Filing date: 2001-03-27
Publication date: 2003-07-23
Also published as: US20020038209A1; WO2001078066A1; US6763329B2; AU2001242520A1

Abstract

一种转换语音信号(2)的语音速率的方法，其中语音信号(2)的音调周期低于最大预期音调周期，所述方法包括以下步骤：将语音信号分为若干段；估计某段中的语音周期；复制该段中的部分语音信号，所述部分的时长等于估计音调周期；根据所述部分提供具有相同时长的中间信号；以及通过将所述中间信号音调同步地插入到该段的语音信号中来对该段进行扩展。使用了比最大预期音调周期要长但比最大预期音调周期的两倍要短的段长度。各段要处理的数据量小得多，使该方法能够在例如移动电话的有限计算资源中得以实现。还提供了一种类似的装置。

Description

语音速率转换

本发明涉及一种转换语音信号的语音速率的方法，该语音信号的音调周期低于最大预期音调周期。该方法包括以下步骤：将语音信号分为若干段；估计某段中语音信号的语音周期；复制该段中的部分语音信号，所述部分的时长等于所述估计音调周期；根据所述部分提供具有相同时长的中间信号；以及通过将所述中间信号音调同步地插入该段的语音信号中来对该段进行扩展。本发明还涉及该方法在移动电话中的使用。此外，本发明还涉及适合转换语音信号的语音速率的装置。

在很多情况下都希望提高语音的可懂度。尤其是上了年纪的人们常常受到某种听力障碍的困扰，因而降低了他们对速度较快的语音的理解力。另外，有语言学习障碍的儿童也能够从改善的可懂度中获益。此外，当移动电话用于嘈杂环境时，就很难完全听懂说的内容。不仅听力障碍的人会遇到这种情况，其它人也不例外。因此，愈来愈多地需要在移动电话方面获得提高的可懂度。

提高语音可懂度的一种方法是减缓语音的速度。该方法的主要目的是为听众提供一些额外的时间来识别所说的内容。这可以通过使用时间标度技术来实现，也就是改变信号的时间演变。通过根据所选算法将额外的时间数据加入到信号中来调整语音速率。

存在几种语音增强算法，它们都基于放慢输入语音的技术。这些算法的基本思想是执行一种语音扩展，在提升可懂度的同时仍保持语音的自然属性。因此，大部分扩展算法均取决于语音的音调周期性。然而，这类算法不适合在移动电话中实现。

从Y.Nejime、T.Aritsuka、T.Imamura、T.Ifukube以及J.Matsushima的文章“用于听力障碍的便携式数字语音速率转换器”(IEEETransactions on Rehabilitatin Engineering，vol.4，no.2，pp.73-83，June1996)中可以了解到采用这样一种算法的装置。该装置是一种手掌大小的便携式装置，它在不改变音调的情况下转换语音。当语音速度降低时，在输入和输出语音之间产生延时。将语音信号记录在固态存储器中，同时放慢并生成前面记录的信号。用户通过按下装置上的某个按钮来激活该装置。用户按下按钮放慢语音速度的时间越长，延迟也越长。尽管可以通过去掉大于1秒的静寂时间来减少延迟，但并不足以消除延迟。用户可以通过释放该按钮来返回到非延迟状态。

存储器中的语音数据被分为若干帧。时间标度过程逐帧扩展语音数据的时间标度。通过插入从三个连续音调周期的信号中创建的合成音调模式获得时间扩展。使用合成模式以避免扩展信号的混响。由于所用时间标度过程需要四音调长度的数据元素，因此各帧的长度为48ms，对应于本文中设置为12ms的假设最大音程的四倍。提及的其它文件假定16ms甚至接近20ms的最大音调周期，这将需要更长的帧长度，进而各帧所处理的数据量更大。

要处理的这种数据量尤其影响了上述算法在移动电话中的使用，因为移动电话中计算资源相当有限。这种算法的另一缺陷在于：用户按住装置的按钮时会积累延时。移动电话的使用几乎都是两个人之间的双向通信，因此希望尽可能使扩展语音接近实时状态。

本发明的一个目的是提供一种上述类型的方法，其中，一帧所必须处理的数据量大大减少，使这种方法能够在例如移动电话的有限计算资源中得以实现。

根据本发明，通过采用比所述最大预期音调周期要长但比最大预期音调周期的两倍要短的段长度来实现这个目的。

测试证明，与短音调周期相比，具有相对长的音调周期的语音信号出现混响的危险性较小，因为它们实际上的改变较慢。因此，这些信号不需要合成音调模式，并且足够有一个帧或段长度正好允许处理一个全音调长度的模式。因此，段长度可以减少为仅略长于最大预期音调周期的一个值，也就是说，处于最大预期音调周期和最大预期音调周期的两倍之间。显然，较短的段或帧长减少了每帧要处理的数据量，并且由于至少可以避免对具有长音调周期的语音信号进行的合成信号计算，所以它还会进一步减少。对于具有较短音调周期的语音信号，仍然可以从例如两个连续音调周期中形成合成音调模式。

在一个有利实施例中，该方法还包括以下步骤：如果段的实际估计音调周期大于段长度的一半，则通过将复制部分直接用作中间信号来提供中间信号。这避免了额外计算合成信号。

如果段的实际估计音调周期小于该段长度的一半，该方法则还可包括以下步骤：复制两个连续部分，其中每个部分的时长等于估计音调周期；以及提供两个连续部分的平均作为中间信号。通过这种方法，可以最大程度地减少具有较短音调周期的语音的混响，这种较短音调周期的语音实际上具有更高的混响危险性。

如果某段语音信息的内容低于预设阈值，则该方法还包括将该语音信号段分类为静寂段；如果某段和若干紧挨在前面的段已被分类为静寂段，则该方法还包括缩短该段，以补偿前面数段的扩展，有可能将输入信号和所述(扩展)输出信号之间的延迟保持在极低水平，从而提供基本实时的语音对话。这就使该算法更适合用于希望将扩展语音尽量保持接近实时状态的移动电话中。

当采用20ms的段长度时，实现了特别适用于移动电话的有利实施例，因为许多移动电话中现有语音信号处理也使用这种段长度，从而通过使用与语音扩展算法相同的段，可以节省大量计算资源。

当通过将中间信号音调多次同步插入某段语音信号来扩展该段时，可以获得更高的扩展率，而不会大量增加计算资源的使用。

如果在复制所述部分和插入所述中间信号时采用重叠窗口，则可以得到更好结果，而不会在插入中引进尖峰信号或类似的不连续性。

该方法的典型使用是在便携式通信装置中，在一个有利实施例中，该方法用于移动电话。

如上所述，本发明还涉及一种装置，这种装置适于转换语音信号的语音速率，该语音信号的音调周期小于最大预期音调周期。该装置包括用于将语音信号分为若干段的装置；用于估计某段中语音信号的语音周期的装置；用于复制该段中部分语音的装置，所述部分的时长等于所述估计音调周期；用于根据所述部分提供具有相同时长的中间信号的装置；以及通过将所述中间信号音调同步地插入到该段的语音信号中来对该段进行扩展的装置。当该装置适于采用比所述最大预期音调周期更长但比最大预期音调周期的两倍要短的段长度时，则一帧所必须处理的数据量较少，使这种方法能够在例如移动电话的有限计算资源中得以实现。

在一个有利实施例中，如果段的实际估计音调周期大于该段长度的一半，则该装置还适合于通过将复制部分直接用作中间信号来提供中间信号。这避免了额外计算合成信号。

如果某段的实际估计音调周期小于该段长度的一半，则该装置还适合于复制两个连续部分，其中每个部分的时长等于估计音调周期；以及提供两个连续部分的平均作为中间信号。通过这种方法，可以最大程度地减少具有较短音调周期的语音的混响，这种较短音调周期的语音实际上具有更高的混响危险性。

如果某段语音信息的内容低于预设阈值，则该装置还适合于将该语音信号段分类为静寂段；如果某个段和若干紧挨在前面的段已被分类为静寂段，则该方法还包括缩短该段，以补偿前面数段的扩展，有可能将输入信号和所述(扩展)输出信号之间的延迟保持在极低水平，从而提供基本实时的语音对话。这就使该算法更适合用于希望将扩展语音尽量保持接近实时状态的移动电话中。

当装置适合采用20ms的段长度时，实现了特别适合于移动电话的有利实施例，因为许多移动电话中现有语音信号处理也使用这种段长度，从而通过使用与语音扩展算法相同的段，可节省大量计算资源。

当装置适合于通过将中间信号音调多次同步地插入到某段语音信号中来扩展该段时，可以获得更高的扩展率，而不会大量增加计算资源的使用。

如果装置适合于在复制所述部分以及插入所述中间信号时采用重叠窗口，则可以得到更好的结果，而不会在插入中引进尖峰信号或类似的不连续性。

在本发明的一个有利实施例中，该装置是移动电话，不过，它也可以是其它类型的便携式通信装置。

在另一实施例中，该装置是可以用于各种设备的集成电路。

下面将参照附图更全面地描述本发明，其中：

图1给出了根据本发明的语音速率转换系统的方框图，

图2说明了一种模型，用于有声语音生成以及从有声语音提取激励传号，

图3说明有声语音信号以及相应的残留信号的自相关的实例，

图4给出了用于具有较短音调周期的语音信号的第一扩展算法的简图，

图5说明了图4所示算法的另一实施例，

图6给出了用于具有较长音调周期的语音信号的第二扩展算法的简图，以及

图7说明了图6所示算法的另一实施例。

图1给出了语音速率转换系统1的实例的方框图，其中可以实现本发明的方法及装置。所示语音速率转换系统可被用于移动电话或类似通信装置中。

在采样电路3中以8kHz的采样速率对语音信号2进行采样，并将这些采样分为160个连续采样的段或帧。这样，各段对应于20ms的语音信号。这是通常用于标准移动电话的语音处理中的采样和分段，因此，采样电路3是这种电话的正常组成部分。

然后，将160个采样的各段或帧发送给噪声阈单元4，在该单元中执行将静寂与语音分离的分类步骤。将对分类为语音的帧作进一步处理，而将其余的帧发送给静寂缩短单元5，稍后将会对此进行说明。在要实时进行语音扩展时，语音与静寂的分离是必需操作，因为扩展语音所引起的额外时间是通过减少信号的静寂或噪声部分的时间进行补偿的。

分类基于能量测量与前面各帧能量历史记录形式的存储的配合。假定背景噪声变化较慢，而语音包络变化更快。首先计算阈值。计算各帧的短时能量，并且连续保存最后150帧的短时能量值。选取分类为静寂的那些帧的能量值，并计算这些所选能量值的平均能量。还储存所选能量值的最小能量值。通过将平均值和最小值之差与预选因数的乘积加入平均能量计算阈值。要确定给定帧是语音还是静寂，只要简单地将当前帧的能量与阈值进行比较。如果帧的能量超过该值，则该帧被分类为语音，否则将该帧分类为静寂。

然后，将分类为语音的帧发送到有声/无声分类单元6，因为在进行扩展之前需要将语音分离为有声和无声部分。这种分离可以通过若干方法进行，下面将详细说明其中一个方法。

但是，先简单地说明语音信号的特性。在传统方法中，将语音信号模型化为慢速时变线性滤波器的输出。用准周期序列脉冲或者随机噪声激励滤波器，具体取决于要创建的是浊音还是清音。靠将空气压出肺部通过振动声带产生形成浊音的脉冲串。脉冲之间的时段称作音调周期，该时段对语音的特异性极为重要。另一方面，通过在声道中形成收缩并通过迫使空气高速通过该压缩产生紊流来生成清音。

由于语音是一种变化信号，所以滤波器也必需是时变的。然而，语音信号的属性随时间的变化相对较慢。有理由相信，语音的一般属性在10-20ms的周期内保持不变。这样就得出一个基本原则：如果考虑语音信号若干短的段，则各段可以有效地被模型化为已通过在该时段期间激励线性非时变系统所产生的那样。滤波器的作用可以被看作是由声道、舌、嘴以及唇所产生的。

如上所述，有声语音可以解释为来自激励信号所驱动的线性滤波器的输出信号。图2的上半部分说明了这一点，其中，滤波器22对脉冲串21进行处理以便产生有声语音信号23。如果可以从语音中提取激励信号，则获得有声/无声分类的好信号。通过在框24中估计滤波器参数A，然后根据估计的滤波器参数通过反向滤波器25对语音进行滤波，就可以获得类似于激励信号的信号26。这个信号被称作残留信号。在图2的下半部分说明了这个过程。框24和25包含在图1的有声/无声分类单元6中。

滤波器参数估计基于通过称作线性预测分析(LPA)的方法所执行的全极点模型。这个名称源于以下事实：该方法等同于线性预测。这种方法在本领域是众所周知的，所以这里不再进行更详细地说明。

然后，通过计算残留信号的自相关函数并将该结果缩放到±1之间来产生分类信号。由于反向滤波已消除了滤波器引进的许多拖尾效应，所以更清晰波峰的概率高于直接计算语音帧的自相关的概率。然后，通过将分类信号中最高峰值与阈值进行比较来作出有声/无声决定，因为分类信号中的足够高的波峰表示脉冲串实际出现在残留信号中，从而也出现在帧的原始语音信号中。

或者，可以简单地通过将帧的功率电平或能级与类似用于噪声阈单元4中的阈值进行比较来确定有声/无声，仅与较高阈值比较，因为低于特定功率电平的信号主要包括辅音或半元音，它们通常是无声的。不过，这种方法的结果没有通过上述分类所获得的结果准确。

如果确定帧是无声的，则直接将该帧发送给组合或连接单元7。否则，即如果确定该帧为有声的，则将该帧转发给音调估计单元8，下面将进行说明。

估计音调，作为扩展过程的准备，必需是音调同步的。估计的一般思想源于上述语音模型，其中，音调表示声门激励周期。由于音调表示语音的自然属性和特异性，所以对音调进行良好估计是重要的。

音调的估计基于残留信号的自相关，所述残留信号通过前面在有声/无声分类中所述的LPA获得。可以这样做是因为残留信号的自相关中的最高峰表示音调周期，并且因此可用作音调估计。通过重复利用数据，降低了该方法的复杂度。图3a说明有声语音信号的某个20ms段的实例，而图3b说明相应的残留信号的自相关函数的实例。从图3a可以看到，实际的音调周期约为5.25ms，对应于42个采样，因此音调估计必需以该值结束。

音调估计中的第一步是将波峰选择算法应用于单元6提供的自相关函数。这时通过识别自相关函数中的最高波峰(即最大值)的峰值检测器进行的。最大峰值的指标值，即最大峰值的采样数量或滞后，则用作音调周期的估计。在图3b所示的情况中，可以看到，最大峰值实际上出现在42个采样之后。最大峰值的搜索仅在音调周期可能出现的范围内进行。在这种情况下，该范围被设置为60-333Hz。

估计结果与语音帧一起发送给扩展单元9。扩展算法是基于时域的方法，它在整个音调周期块上进行。这种技术的使用意味着可以避免不必要的音调变化，从而可以保持语音的特异性。

下面将说明的扩展算法是音调同步重叠相加(PSOLA)方法的变型。简单地说，该算法复制一个或两个音调周期，并将其加入原始语音数据，其中可能用相同的重叠。变型是由于以下事实：使用了20ms的较短帧或段长度。

根据估计的音调周期，在语音扩展中采用两种不同方法。第一种方法用于较短的音调周期。它可以是低于8.75ms的音调周期，对应于采用8kHz采样速率的70个采样。它还对应于高于114Hz的音调频率。第二种方法则用于高于8.75ms的音调周期，即较长的音调周期。采用两种不同方法的原因在于：由于20ms的短帧或段长度，对于具有长音调周期的信号的扩展目的，仅可以提取信号的一个全音调长度，包括特定重叠，而对于具有较短音调周期的信号，则可以提取两个连续的音调周期(以及重叠)。

第一种方法利用音调周期较短的情况。图4说明了这种方法中执行的不同步骤。从输入帧中复制两个连续音调周期T_P以及对应于重叠部分的附加段L。重叠部分可以设置为T_P的10％。将某窗口应用于两个段I和II，从而形成将称作段IWin和段II Win的段。所用窗口可以是升余弦窗或梯形窗。计算窗口内段的平均值，表示为MWin。通过形成平均段，可以避免现有段不必要的重复。从而可以减少例如混响等不希望的假信号的风险。

现在，将L个采样与原始帧的重叠插入段Mwin以执行语音扩展。从表示输出数据的图4的下半部分可以看到，扩展帧具有160+T_P个采样的长度，而不是原始的160个采样。必要时，还可以通过将同样包含重叠的Mwin相加所需次数，将帧扩展所选数量的段。图5类似于图4，只不过加了两次MWin，使扩展帧的长度为160+2T_P个采样。

在第二种方法中，音调周期更长。不能使用第一种方法，因为帧长度不够长，无法包括两个音调周期。从图6中可以看到第二种方法中各级的示范。只从输入帧中复制长度为T_P+L的一个段I，并采用所选窗口开窗。同样在这种情况下，长度L对应于T_P的10％。然后，再将L个采样与原始采样的重叠插入窗口段IWin。在显示输出数据的图6的下半部分可以看到IWin的插入，其中可以看到，由于在插入IWin之前以及之后使用了原始音调长度段，因而扩展帧现在具有160+2T_P个采样长度，而不是原始的160个采样。

同样在这种方法中，通过再次加上包括重叠的IWin，可以进一步对帧进行扩展。然而，如图7所示，原始音调长度段还可以使用仅两次，从而使扩展帧长度为160+T_P个采样。

应当注意，可以使用不同的重叠百分比。较短的重叠长度表示可以用第一种方法对较长音调周期进行扩展。不过，如果重叠变得太小，重叠过程则会失去作用。以上所采用的10％的重叠看来是较佳的折衷方案。

现在，将扩展帧发送给连接单元7，在这里，它将与其它帧混合。

从上面可以看到，语音扩展在语音中产生了不希望的延迟，尤其是在移动电话环境下。要避免这种延迟，必需去掉输入信号的某些部分。一种自然选择是采用仅包含静寂的语音间歇。在缩短单元5中执行实现实时需求的缩短算法，在下面进行说明。

在可以开始缩短静寂部分之前，必须满足一个条件。当前帧和之前三帧必须是静寂帧。如果满足了这个条件，则去掉对应于扩展部分的采样数量。还可以去掉帧的若干部分，以便保持实时状态。

上述条件的原因有两个。

第一个原因是，如果环境相当嘈杂，无声声音可以被错误分类为静寂，不能去掉这些错误分类的帧。已使用的假设是无声语音常常跟在有声语音后面。如果某个无声语音帧被错误分类为静寂，就有理由相信，不久将会出现浊音或者该语音部分已结束。无论在哪种情况下，上述条件的使用防止了无声帧被去掉。

该条件的第二个原因是，语音中存在间歇，这是语音的自然流动所必需的。如果去掉这些间歇，语音则更难以理解，这是和所需结果相背的。

当分类为静寂的帧被缩短以补偿有声帧的扩展时，它们被发送给组合单元7。

从上面可以看到，输入帧能够在系统中以三种途经发送给连接或组合单元7，取决于该帧是分类为静寂、无声语音还是有声语音。与这些帧采用的途经无关，输入帧必须以其到达时的相同顺序发出，而不管它们是否已经改变。因此，组合单元7可以看作是先进先出(FIFO)缓冲器。

虽然已经给出并说明了本发明的最佳实施例，然而，本发明并不限于此，而是还可以按照以下权利要求书所定义的主题范围之内的其它方式来实现。

因此，可以直接从语音信号而不是残留信号计算自相关函数，或者其它相似函数可以用来代替自相关函数。例如，可以计算语音信号和残留信号之间的互相关。此外，可以采用不同的采样速率。

Claims

1.一种转换语音信号(2)的语音速率的方法，所述语音信号(2)的音调周期低于最大预期音调周期，所述方法包括以下步骤：

·将所述语音信号分为若干段，

·估计某段中所述语音信号的所述音调周期，

·复制所述段中的部分所述语音信号，其中所述部分的时长等于所述估计音调周期，

·根据所述部分提供相同时长的中间信号，以及

·通过将所述中间信号音调同步地插入到所述段的所述语音信号中来扩展所述段，

其特征在于使用比所述最大预期音调周期要长但比所述最大预期音调周期的两倍要短的段长度。

2.如权利要求1所述的方法，其特征在于所述方法还包括以下步骤：

·如果所述段的所述实际估计音调周期大于所述段长度的一半，则通过将所述复制部分直接用作所述中间信号来提供所述中间信号。

3.如权利要求1或2所述的方法，其特征在于所述方法还包括以下步骤：

·如果所述段的所述实际估计音调周期小于所述段长度的一半，则复制两个连续部分，其中所述各个部分的时长等于所述估计音调周期的时长，以及

·提供所述两个连续部分的平均作为所述中间信号。

4.如权利要求1至3中任何一项所述的方法，其特征在于所述方法还包括以下步骤：

·如果某段语音信息的内容低于预设阈值，则将所述语音信号的所述段分类为静寂段，

·如果已经将某段以及紧挨在前面的若干段分类为静寂段，则缩短所述段以补偿前面若干段的扩展。

5.如权利要求1至4中任何一项所述的方法，其特征在于采用20ms的段长度。

6.如权利要求1至5中任何一项所述的方法，其特征在于通过将所述中间信号音调多次同步地插入到所述段的所述语音信号中来扩展所述段。

7.如权利要求1至6中任何一项所述的方法，其特征在于：在复制所述部分以及插入所述中间信号时采用了重叠窗口。

8.在移动电话中应用权利要求1至7中任何一项所述的方法。

9.一种适合转换语音信号(2)的语音速率的装置，所述语音信号(2)的音调周期低于最大预期音调周期，所述装置包括：

·用于将所述语音信号分为若干段的单元(3)，

·用于估计某段中所述语音信号的所述音调周期的单元(8)，

·用于复制所述段中的部分所述语音信号的单元，其中所述部分的时长等于所述估计音调周期，

·用于根据所述部分提供相同时长的中间信号的单元，以及

·通过将所述中间信号音调同步地插入到所述段的所述语音信号中来扩展所述段的单元(9)，

其特征在于所述装置适合于使用比所述最大预期音调周期要长但比所述最大预期音调周期的两倍要短的段长度。

10.如权利要求9所述的装置，其特征在于所述装置还适合于在所述段的所述实际估计音调周期大于所述段长度的一半时，通过将所述复制部分直接用作所述中间信号来提供所述中间信号。

11.如权利要求9或10所述的装置，其特征在于：所述装置还适合于在所述段的所述实际估计音调周期小于所述段长度的一半时，复制两个连续部分，其中，所述各个部分的时长等于所述估计音调周期，以及适合于提供所述两个连续部分的平均作为所述中间信号。

12.如权利要求9至11中任何一项所述的装置，其特征在于所述装置还适合于：

·如果某个段语音信息的内容低于预设阈值，则将所述语音信号的所述段分类为静寂段，

·如果已将某个段以及紧挨在前面的若干段分类为静寂段，则缩短所述段以补偿前面若干段的扩展。

13.如权利要求9至12中任何一项所述的装置，其特征在于所述装置适合采用20ms的段长度。

14.如权利要求9至13中任何一项所述的装置，其特征在于：所述装置适合于通过将所述中间信号音调多次同步地插入到所述段的所述语音信号中来扩展所述段。

15.如权利要求9至14中任何一项所述的装置，其特征在于：所述装置适合于在复制所述部分以及插入所述中间信号时采用重叠窗口。

16.如权利要求9至15中任何一项所述的装置，其特征在于所述装置是移动电话。

17.如权利要求9至15中任何一项所述的装置，其特征在于所述装置是集成电路。