CN1155942C

CN1155942C - 具有改进的音调检测的编码语音传输系统和方法

Info

Publication number: CN1155942C
Application number: CNB961904712A
Authority: CN
Inventors: R; R·陶里; �¬; R·J·施卢伊特; E·卡思曼
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1995-05-10
Filing date: 1996-05-07
Publication date: 2004-06-30
Anticipated expiration: 2016-05-07
Also published as: DE69614799T2; DE69614799D1; EP0770254B1; HK1012752A1; US5963895A; EP0770254A2; CN1153565A; WO1996036041A2; WO1996036041A3

Abstract

在一种传输系统中，其中采用包括一个音调检测器(12)的语音编码器，为提高音调检测的质量，采用从要编码的信号中选择特征辅助信号部分的选择装置(22)。现在通过在语音信号中搜索与特征辅助信号部分相对应的信号部分和计算各信号部分之间的时间差，就可以得到音调。

Description

具有改进的音调检测的编码语音传输系统和方法

技术领域

本发明涉及一种传输系统，其包括一个发射器，发射器带有一个从准周期信号导出编码信号的编码器，设置发射器用于通过一种介质向接收器发送编码信号，编码器包括一个用于从准周期信号得到音调(pitch)信息的音调检测器。

本发明还涉及一种编码器，一种用于检测准周期信号的周期的检测器和一种音调检测方法。

背景技术

从Y.M.Cheng和D.O.Shunghnessy在IEEE Transaction onAcoustics，“语音及信号处理”(Speech and Signal Proces sing)，Vol.ASSP-23，pp.418-423，1976上发表的文章“声门封闭瞬间和周期的自动和可靠的估计”(“Automatic and Reliable Estimationof Glottal Closure lnstant and Period”)中已知一种在开始段中定义的在传输系统中使用的音调检测器。

这样的传输系统用于例如通过象无线信道，同轴电缆或玻璃纤维这样的传输介质传输语音信号。另外，这样的传输系统还可以用于在磁带或磁盘这样的存贮介质上存贮语音信号。例如应用于自动电话应答机和录音电话机。

一个语音信号由清音和浊音部分组成。当发出一些辅音时会产生语音信号的清音分量而且显示不出任何周期性。当发元音时会产生语音信号的浊音分量并有或多或少的周期性。这样一种信号也称为准周期的信号。这样一种信号的一个重要参数就是周期，通常称为音调。对于各种语音编码器，精确计算语音信号发声部分的音调是极为重要的。

确定音调的第一种方法是计算准周期信号的自相关函数，并由自相关函数两个峰值之间延迟的差代表音调信息。但是问题是在具有给定时间期间的信号段上计算的是一个单一的音调值。在该给定时间期间中音调的任何变化都不能测出，只导致自相关函数峰点的(不希望)变宽。

在从所说的文章已知的音调检测器中，从语音信号和人类语言系统对由关闭声带引起的激励信号的模拟响应信号之间的互相关函数中得出音调信息。人类语言系统的特性用从语音信号获得的线性推算参数来描述。从这个互相关函数获得一个信号，该信号中出现的峰值表示激励瞬间。从这个信号中减去这个信号的平均值并限幅，而得到脉冲形信号，其中脉冲表示激励瞬间，脉冲会在音调不是常数的信号中丢失，或者次级脉冲可以作为暂时过高或过低平均值的结果出现。这会导致音调检测可靠性下降。

发明内容

本发明的目的如开始段所提出的是提供一种传输系统，其中准周期信号对于可靠的音调检测无需是恒定的。

为此，本发明的特征在于音调检测器包括用于选择代表准周期信号的辅助信号的音调周期部分的选择装置，用于通过对所述音调周期部分和辅助信号施加一个相关函数来得到一个互相关值来搜索辅助信号的至少其它音调周期的其它部分的搜索装置，以及，用于在产生音调周期部分和在互相关值中具有一个峰值的其它音调周期的其它部分的瞬间产生音调信息的装置。

本发明另一个优点是无需计算线性推算参数，从而使本发明的音调检测器比现有技术的音调检测器更简单。又一个优点是避免了在一个音调周期中存在两个激励脉冲时发生的错误的音调检测。在这方面，会出现在语音信号的一个音调周期中有规则地产生两个激励瞬间的情况。在这种情况下，现有技术的用于搜索激励瞬间的音调检测器会错误计算音调周期。由于本发明的音调检测器不搜索激励瞬间，而是使特征辅助信号部分重复出现，所以，不会发生音调周期的这种错误计算。

本发明的一个实施例的特征在于特征辅助信号部分包括一个在单位时间段上具有最大能量的信号部分。

一种合适的特征辅助信号部分是在单位时间段上能量最大的辅助信号部分。通过搜索最大工作能量函数值就可以简单发现这样一种信号部分。通过对辅助信号进行由偶函数表述其运算的非线性运算，并对这种运算的结果关于单位时间间隔进行积分，就可以计算出工作能量函数值。合适的偶函数是f(x)＝x²和f(x)＝|x|。寻找特征辅助信号部分的另一种方法是在单位时间段中搜索辅助信号的最大值。总之，具有最大强度的辅助信号部分适合用作特征辅助信号部分。

本发明另一个实施例的特征在于特征辅助信号部分的时间期限小于或等于所出现的最简短的音调周期。

一种合适的特征辅助信号部分是一个音调周期或其有效部分。通过取得长度最简短的音调周期的特征辅助信号部分，在绝大多数情况下都能够发现一种合适的特征辅助信号部分。可以根据产生的音调周期选择辅助信号部分的长度，以获得自适应系统。

本发明又一个实施例的特征在于搜索装置包括用于计算特征辅助信号部分和辅助信号之间相关性，和用在相关函数中峰值的位置表示音调信息的相关装置。

一种搜索与特征辅助信号部分相对应的其它辅助信号部分的简单方法是计算特征辅助信号部分和辅助信号之间的互相关函数。然后，用互相关函数的最大值的位置表示音调信息。可以从互相关函数的两个相邻最大值之间的时间差计算出音调周期。

本发明另一个实施例的特征在于音调检测器包括用于计算互相关函数中波峰表面的装置，设置音调检测器用于从互相关函数与时间的关系曲线的波峰表面获得音调信息。

实验表明特征辅助信号部分和辅助信号的互相关函数不仅具有所需要的波峰，而且还具有宽度小于所需要波峰的不希望的副峰。通过用具有和自相关函数中相对应的波峰表面成比例的幅值的脉冲表示音调信息，在需要和不需要的波峰之间进行鉴别就会变得更简单了。通过用扩展表面值代替表面可以进一步简化鉴别。获得扩展表面值的一种合适方法是用波峰表面乘以对应波峰的最大值。

可以看出，本发明不限于语言信号的音调检测，而是还可以用于确定两个或更多信号分量之间的延迟。这类例子是多个源的分离，这种情况可能发生在象在雷达系统中用于抑制背景噪声和形成射束这样的系统中。在这种应用中，可能会发生准周期信号不会具有超过两个周期的情况。

通过参照后面描述的实施例的说明，本发明的这些和其它方面会是很清楚的。

附图说明

在附图中：

图1表示的是一种采用本发明的传输系统；

图2表示的是本发明的音调检测器的一个实施例；

图3表示的是各种可能会在图2所示的音调检测器中发生的信号波形；和

图4表示的是用于根据本发明确定音调的可编程处理器的程序流程图。

具体实施方式

在图1所示的传输系统中，向发射器2施加一个数字语音信号S′〔n〕。在这个发射器2中，将语音信号S′〔n〕施加给编码器，其中将语言信号S′〔n〕施加给音调检测器12和音调同步编码装置10。将音调检测器12上以音调信息作为输出信号的一个输出端与多路复用处理器14的一个输入端和音调同步编码装置10的第一输入端相连。音调同步编码装置10的一个输出端与多路复用处理器14的第二输入端相连。多路复用处理器14的输出端与发射器2的输出端相耦合。

发射器2的输出端通过通路4与接收器6的输入端相连。接收器6的输入端与信号分离器16的输入端相连。信号分离器的第一输出端与音调同步解码器18的第一输入端相连。信号分离器16上将音调信息作为其输出信号传输的第二输出端与音调同步解码器18的第二输入端相连。音调同步解码器18上将再建语音信号作为其输出信号传输的一个输出端与接收器6的输出端相连。

在图1所示的传输系统中，用音调检测器12从准周期语言信号中获得音调信息。音调同步解码器10使用音调信息以减少编码信号所必须的传输容量。音调同步解码器10的例子记录在由P.Hedelin发表在Proceedings of the lnternational Conference of the IEEE，ASSP’84，San Diego，1984上的文章“A glottal LPC-vocoder”和由W.B.Kleyn发表在IEEE Transactions on Speech and Audioprocessing，Val.1，No.4，October 1993上的文章“Encoding SpeechUsing Prototype Waveforms”中。

由多路复用处理器14将编码语音信号和音调信息组合成一个单独的编码输出信号。这个编码输出信号由传输通路4传送给接收器6。

在接收器6中，接收的信号被检测并被变换成数字信号。这个数字信号由信号分离器16分离成一个编码信号和一个代表音调信息的信号。音调同步解码器18从编码信号和音调信息中得到再建语音信号。这种再建语音信号在接收器6的输出端输出。

在图2所示的音调检测器中，将准周期信号S′〔n〕施加给低通滤波器20。低通滤波器20上将辅助信号S〔n〕作为其输出信号输出的输出端与能量测量装置22的输入端、选择装置24的第一输入端和包络检波器30的输入端相连。

能量测量装置22上传输输出信号E〔n〕的输出端与选择装置24的第二输入端相连。选择装置24上将特征辅助信号部分f〔n〕作为其输出信号的输出端与此处由相关器28形成的搜索装置的第一输入端相连。可控放大器26上传输输出信号S_ec〔n〕的输出端与相关器28的第二输入端相连。包络检波器30上传输控制信号e_c〔n〕的输出端与可控放大器26的控制端相连。可控放大器26和包络检波器30一起形成幅度控制装置。

相关器28上传输输出信号Rf〔n〕的输出端与积分器32相连。积分器32上传输输出信号A〔n〕的输出端与展开装置34的输入端相连，同时，展开装置34上传输输出信号P〔n〕的输出端与检测器36的输入端相连。在检测器36的输出端具有信号P′〔n〕形式的音调信息。

为除去信号中频率较高和对音调检测会有干扰的信号成分，用低通滤波器20对由信号S′〔n〕数字表示的语音信号进行滤波。选择低通滤波器20的截止频率，以使其超过可能的最高音调频率。在实际中能够使用的已经得出的数值是600Hz。

对于N个取样长度的段，能量测量装置22计算取样长度为M的辅助信号部分的工作能量函数。已证明，合适期限段是例如为40ms，而对于工作能量函数，2ms的期间是合适的。采用8KHz的采样频率，N等于320，M等于16。对于信号E〔n〕，可以写成：

E [n] = Σ_{k = 0}^{M} s^{2} [n + k] 0 \leq n \leq N - M - - - (1)

特征辅助信号部分现在是工作能量函数E〔n〕最大的辅助信号部分。如果假设对n＝nm，E〔n〕最大，则特征辅助信号部分f〔n〕等于：

通过选择装置24并采用从E〔n〕计算出的值n_m能够从信号S〔n〕中得到这个辅助信号部分f〔n〕。相关器2 8计算出现在可控放大器26输出端的幅度控制信号S_ec〔n〕的互相函数Rsf〔n〕。对于这个互相关函数R_sf〔n〕，下式成立：

R_{sf} [n] = Σ_{k = 0}^{M} MAX {f (k) \cdot S_{ec} [n + k], 0}, \frac{M}{2} \leq n \leq N - \frac{M}{2} - - - (3)

(3)还可以写成：

R_{sf} [n] = Σ_{k = 0}^{M} MAX {S [n_{m} + k] \cdot S_{ec} [n + k], 0}, \frac{M}{2} \leq n \leq N - \frac{M}{2} - - - (4)

在(3)和(4)中采用MAX函数以避免出现负值的R_sf〔n〕。当搜索与特征辅助信号部分相对应的信号部分的时候，这些负的互相关值一点也不重要。

由积分器32得到一个信号A〔n〕，信号A〔n〕是对属于互相关函数R_sf〔n〕中各n值的波峰表面的度量。在互相关函数中的第K个波峰可以表述为：

b_k和e_k表示自相关函数的第K个波峰的开始和结束。对于第K个波峰的表面A_K，下式成立：

a_{k} = Σ_{i = b_{k}}^{e_{k}} L_{k} [i] - - - (6)

属于a_k的n_k值是属于波峰L_k〔n〕的最大值m_k的n值。这样，对于m_k下述成立：

m_k＝MAX{L_k[n]} (7)

用ak的最大值来度量表面A，以使数值A〔n〕小于或等于一。这样，对于函数A〔n〕可用下式表示：

在(8)中，q是信号段中波峰的个数。将函数R_sf〔n〕变换成函数A〔n〕会导致函数R_sf〔n〕不需要的副峰相对衰减，这是由于这些不需要的脉冲不仅低，而且宽度还窄，所以使副波峰的表面显著小于所需波峰的表面。

为进一步扩大所需波峰与不需要的副峰之间的差，展开装置34进行非线性运算，其中A〔n〕的大值被放大超过A〔n〕的小值。这可以通过例如用函数A〔n〕乘以m_k的相应值来实现。这样对于展开装置的输出信号P〔n〕，下式成立：

可以用对A〔n〕进行不同的非线性运算来代替(9)。

检测器36从信号P〔n〕中去除不需要的副脉冲。前一种选择可以是去除彼此间隔小于2ms的最小的脉冲P〔n〕。基于音调周期小于2ms的事实，这种方法是非常不可能的。后一种选择是通过去除幅度小于前一个脉冲幅度的一定比例的脉冲来实现的。音调信息可以用信号P′〔n〕来表示，而对于n的值，当产生音调脉冲时，信号P′〔n〕具有第一逻辑值(“1”)，而对于n的其它值，信号P′〔n〕具有第二逻辑值(“0”)。

在图3中，曲线38表示的是准周期语言信号S′〔n〕与n的关系曲线。曲线38清楚地表示了语音信号的(准)周期特性。曲线40表示的是辅助信号S〔n〕与时间的关系曲线。这个信号除去了干扰音调检测的高频分量。曲线42表示的是工作能量函数E〔n〕与n的关系曲线的值。对于n_max，E〔n〕的值最大。在曲线44中，表示的是特征辅助信号部分f〔n〕。这个特征辅助信号部分f〔n〕是在n＝n_max附近从S〔n〕中选取的。

曲线46表示的是互相关函数信号Rsf〔n〕与n的关系曲线。在这个曲线中，所需的波峰和不需要的副峰都存在。在曲线48中，画有表面测量A〔n〕与n的关系曲线。曲线48更加清楚地表示了所需波峰与不需要波峰之间的区别。

在曲线50中，表示的是经信号A〔n〕的非线性运算获得的信号P〔n〕与n的关系曲线。这里，所需脉冲与不需要脉冲之间的区别更大。最后，曲线52表示了逻辑信号形式的音调信息，逻辑信号在产生所需脉冲时的n值处的值为“1”。如上所述已去掉了不需要的脉冲。

在图4所示的流程中，这些方框具有以下含义。

标号名称含义

60 START 程序开始。

62 INIT 所用变量初始化。

64 TAKE SEGM{S〔n〕} 存贮辅助信号的取样段。

66 VOI CED 检测辅助信号是否仍为浊

音。

68 CALCE〔n〕计算存贮段的工作能量函

数。

70 EXTR f〔n〕从辅助信号中选取特征辅助

信号部分。

72 CORR ENV. 从辅助信号中得出幅度控制

辅助信号。

74 CALC R_sf〔n〕计算互相关函数R_sf〔n〕。

76 CALC A〔n〕计算R_sf〔n〕中波峰的表面。

78 EXPAND 通过非线性运算由A〔n〕计算

信号P〔n〕。

80 DEL PEAKS 消除不需要的副峰。

82 CALCn₁，n₂ 计算段中头两个音调脉冲的

位置n₁和n₂。

84 FIRST VOICED SEGMENT 检查相应的段是否是一部分

语音信号中的第一浊音段。

86 PITCHMARK ATn₁，n₂ 对于n＝n₁和n＝n₂，使P〔n〕

的逻辑值等于“1”。

88 LPM：＝n2 存贮最后标准的音调标记的

位置。

90 LPM：＝LPM+n₂-n₁ 计算和存贮新音调标记的位

置。

92 PITCHMARK AT LPM 对于n＝LPM，使P′〔n〕的逻

辑值等于“1”。

94 TAKE SEGM{S〔n〕+n₂-n₁}取辅助信号的下一个取样

段。

在方框60和62中，如果有浊音语音信号程序就开始启动，而且将所使用的变量设置为一个所需的初始值。在方框64中，存贮信号S〔n〕的一个段。该段的长度值可以为20-40ms。

在方框66中，检查S〔n〕的段是否仍为浊音。如果信号不是浊音，则在方框96停止程序。由程序产生语音信号是否浊音的信息(没有示出)。

在方框68中，计算工作能量函数E〔n〕。这可以根据(1)来实现。然后，在方框70中，选取特征辅助信号部分，这可以根据(2)来实现。在步骤72中，计算幅度控制辅助信号Sec〔n〕。为此，先计算辅助信号包络的范围Se〔n〕。这可以根据下式来实现：

S_{e} [n] = Σ_{i = 0}^{L} | s [n - i] | \cdot h [i] - - - (10)

在(10)中，i是工作变量，L是响应由(10)模拟的过滤器的脉冲的长度，h〔i〕是响应由(10)模拟的过滤器的脉冲。已证明适合于由(10)模拟的过滤器的截止频率值是25Hz。L的一个合适值是121。

根据下式由信号Se〔n〕计算幅度修正信号1c〔n〕：

e_{c} [n] = \frac{MAX {S_{e} [n]}}{S_{e} [n]} 0 \leq n < N - - - (11)

借助(11)，根据下式得出幅度控制辅助信号Sec〔n〕：

S_ec[n]＝ S[n]·e_c[n] (12)应注意到，万一辅助信号幅度较低，幅值修正会以这样的方式放大不需要的副峰，即，这些副峰会被作为需要的波峰来检测。为避免这种情况，如果辅助信号的(平均)幅值下降到一个特定阈值之下，可以停止幅值修正。

在方框74中，计算相关函数Rsf〔n〕。这根据(3)或(4)来实现。，然后，在方框76中，根据(8)计算信号A〔n〕，在方框78中，根据(9)通过进行非线性运算计算信号P〔n〕。

在方框80中，从信号A〔n〕中去掉不需要的副脉冲。这可以用已经描述过的方式来实现。

在方框82中，计算当前段的信号P〔n〕的头两个脉冲的位置n1和n2。然后，在方框84中，检查当前段是否是有浊音语音的第一段。如果是，在方框86，将音调标记插入在与n1和n2相对应的位置上的信号P′〔n〕中。在方框88，将最后插入信号P′〔n〕的音调标记存贮在可变的LPM以便以后使用。

如果当前段不是包含浊音语音的第一段，则在方框90，通过向LPM的旧值加入值n₂-n₁而计算最后的音调标记的位置。然后，在方框92中，将音调标记设置在信号P′〔n〕中的位置LPM上。

在方框94中，取下一个段。这个段与前面段不相邻，而是有重叠。下一个段的开始移动r₂-n₁个取样。其理由是在两个相邻段转变的情况下，即使在改变的特征信号部分，也会在已建立的音调值中发生不连续的改变。通过加大段的重叠，才会大大避免这种情况。

在方框94之后，返回方框66以处理新段。

Claims

1.一种传输系统，包括一个具有将准周期信号编码成编码信号的编码器的发射器，该发射器被设置成通过一种传输链路向接收器发送编码信号，该编码器包括一个用于从准周期信号中获得音调信息的音调检测器，其特征在于音调检测器包括用于选择代表准周期信号的辅助信号的音调周期部分的选择装置，用于通过对所述音调周期部分和辅助信号施加一个相关函数来得到一个互相关值来搜索辅助信号的至少其它音调周期的其它部分的搜索装置，以及，用于在产生音调周期部分和在互相关值中具有一个峰值的其它音调周期的其它部分的瞬间产生音调信息的装置。

2.如权利要求1所述的传输系统，其特征在于所述选择装置被设置来选择一个在一定时间段上具有最大工作能量的音调周期部分。

3.如权利要求1所述的传输系统，其特征在于音调周期部分的持续时间小于或等于最短暂发生的辅助信号的音调周期。

4.如权利要求1、2或3所述的传输系统，其特征在于搜索装置包括用于计算音调周期部分和辅助信号之间相关性的相关装置，音调信息由相关函数中波峰的位置来表示。

5.如权利要求4所述的传输系统，其特征在于音调检测器包括用于通过对波峰的幅度和宽度相乘来从相关函数的一组波峰中选择第一波峰和第二波峰并且将具有最高相乘结果的波峰选择作为第一波峰和将具有第二高相乘结果的波峰选择作为第二波峰的装置，音调检测器设置成能从第一波峰的位置和第二波峰的位置之间的差异中获得音调信息。

6.一种编码器，用于从准周期信号中获得编码信号，该编码器包括一个用于从准周期信号中获得音调信息的音调检测器，其特征在于音调检测器包括用于选择表示准周期信号的辅助信号的音调周期部分的选择装置，用于通过对所述音调周期部分和辅助信号施加一个相关函数来得到一个互相关值来搜索辅助信号的至少其它音调周期的其它部分的搜索装置，以及，用于在产生音调周期部分和在互相关值中具有一个峰值的其它音调周期的其它部分的瞬间产生音调信息的装置。

7.如权利要求6所述的编码器，其特征在于所述选择装置被设置来选择一个在一定时间段上具有最大工作能量的音调周期部分。

8.一种用于计算准周期信号周期的装置，其特征在于该装置包括用于选择表示准周期信号的辅助信号的音调周期部分的选择装置，用于通过对所述音调周期部分和辅助信号施加一个相关函数来得到一个互相关值来搜索辅助信号的至少其它音调周期的其它部分的搜索装置，以及，用于在产生音调周期部分和在互相关值中具有一个峰值的其它音调周期的其它部分的瞬间产生音调信息的装置。

9.一种用于将准周期信号编码成编码信号的编码方法，该编码方法包括从准周期信号获得音调信息，其特征在于该方法包括选择表示准周期信号的辅助信号的音调周期部分，用于通过对所述音调周期部分和辅助信号施加一个相关函数来得到一个互相关值来搜索辅助信号的至少其它音调周期的其它部分，以及，在产生音调周期部分和在互相关值中具有一个峰值的其它音调周期的其它部分的瞬间产生音调信息。