CN1246825C

CN1246825C - 预估语音信号的语调估测值的方法和装置

Info

Publication number: CN1246825C
Application number: CNB031525725A
Authority: CN
Inventors: 林珮瑩
Original assignee: Ali Corp
Current assignee: Ali Corp
Priority date: 2003-08-04
Filing date: 2003-08-04
Publication date: 2006-03-22
Anticipated expiration: 2023-08-04
Also published as: CN1581295A

Abstract

一种用语音处理器计算语音讯号的语调估测值的方法，该语音讯号包含有多个数字语音数据，该方法包含下列步骤：(a)依据数据库中所储存的语音讯号及其相对应的语调值范围，决定该语音讯号的语调上限值及语调下限值；(b)依据步骤(a)所决定的该语调上限值及下限值，计算延迟参数下限值及延迟参数上限值；(c)依据该延迟参数下限值及上限值之间的多个延迟参数，对该语音讯号作自相关函数运算以产生多个自相关函数值；以及(d)比较该等自相关函数值以找出最大值，并利用相对应于该最大值的延迟参数来计算该语音讯号语调估测值。

Description

预估语音信号的语调估测值的方法和装置

技术领域

本发明涉及一种预估语调估测值的方法，尤其涉及一种利用自相关函数运算预估语调估测值的方法。

背景技术

近年来电子无线通讯与计算机技术不断的进步，多媒体系统与因特网的普及，对于语音信号编码与分析的需求也越来越多。语音通讯将是下一代因特网的一项重要应用，也是因特网多媒体通讯的重要环节。

语音编码的技术应用最广的地方就是通讯，因此通讯传输的标准就非常重要。目前国际电话网络标准语音编码技术，在国际无线通讯联盟(International Telecommunication Union)的制定下有PCM(64Kpbs)、G711(64Kpbs)、G726(ADPCM，16、24、32、40Kpbs)，G728(Low Delay CELP16Kpbs)、G728(Low Delay CELP 8Kpbs)。而目前对于数字蜂巢式的无线电话制定的标准，在北美有TIA(Telecommunication Industry Association)所制定的VSELP编码技术，在日本与欧洲则有JDC(Japanese Digital Cellular)与GSM(Global System for Mobil Telecommunication)所使用的RPE-LTP编码技术。目前所应用的实时编码技术都还维持在8Kbps，而新一代的编码技术则是在4.8Kbps(LD-CELP)至2.4Bbps(MELP，STC)，要能够达到如此高的压缩比，所需要的运算复杂度当然也相对的增加，如此要使用一般通用的数字信号处理器来实现完成实时的运算就非轻易的事。

如何提升运算速度就是我们需要解决的问题。为了符合设计上的需求，通常会有一个或多个特殊应用设计的数字信号处理器作为语音压缩或辨识之用。DSP的特性为具有很短的指令周期、高度的平行性以及各种特殊的寻址模式用来解决各种一般数字讯号处理的问题。而语音处理中具有大量计算量的部分是语调预估(Pitch Estimation)步骤，此步骤是根据下列所记述的方程式一计算的。

R [τ] = Σ_{n = 0}^{N - 1} x [n] x [n + τ]

方程式一

方程式一是为自相关函数的运算，x[n]为语音信号，包含多个语音数据，是由x[0]到x[N-1]，x[n+τ]为语音信号x[n]延迟一延迟参数单位τ所产生的另一语音讯号，由x[τ]到x[N-1+τ]，R[τ]为语音讯号x[n]相对应于一延迟参数τ的自相关函数值，其将x[n]与x[n+τ]两语音讯号中其相对应的语音数据相乘产生一数值，并将该多个数值加总以产生一自相关函数值。

已知预估语调估测值的方法，是根据多个延迟参数τ中的每一个延迟参数τ都做自相关函数的运算，计算出相对应于多个延迟参数τ的多个自相关函数值R[τ]之后，比较该等自相关函数值R[τ]，并找出该等多个自相关函数值R[τ]的最大值，并利用相对应于该最大值的延迟参数τ来计算语音讯号x[n]的语调估测值。

此外，预估语调估测值另有一标准化自相关函数的计算方法，请参阅如下的方程式二：

R {[τ]}^{2} = \frac{{[Σ_{n = 0}^{N - 1} x [n] x [n + τ]]}^{2}}{[Σ_{n = 0}^{N - 1} x {[n + τ]}^{2}]}

方程式二

标准化自相关函数的计算方法，是根据方程式二计算R[τ]²，亦是根据多个延迟参数τ中的每一个延迟参数τ做自相关函数值的平方值R[τ]²的运算，并将复数个延迟参数τ及自相关函数值的平方值R[τ]²储存到内存中，之后比较该等自相关函数值R[τ]²并找出该等自相关函数值的平方值R[τ]²的最大值，并利用相对应于该最大值的延迟参数τ来计算语音讯号x[n]的语调估测值。

此两种预估语音讯号的语调估测值的方法，在数字讯号处理器中所需使用的运算量都相当庞大，当输入的语音讯号其数据量愈加庞大时，其语调估测的计算量则更形庞大，数据处理的时间也愈加长久，语音数据无法被实时的处理运算，其语音品质在传输或做其它用途时会因而降低。

发明内容

本发明的主要目的是提供一种用语音处理器计算语音讯号的语调估测值(Pitch esitimation)的方法，以解决上述问题。

依据本发明的申请专利范围，是揭露一种计算语音信号的语调估测值的方法，该语音信号包含有多个数字语音数据，该方法包含下列步骤：(a)依据数据库中所储存的语音信号及其相对应的语调值范围，决定该语音信号的语调上限值及语调下限值；(b)依据步骤(a)所决定的该语调上限值及该语调下限值，计算延迟参数下限值及延迟参数上限值；(c)使用该语音处理器，依据该延迟参数下限值及该延迟参数上限值之间的多个延迟参数，对该语音信号作自相关函数运算以产生多个自相关函数值；以及(d)比较该等自相关函数值以找出该多个自相关函数值中的最大值，并利用相对应于该最大值的延迟参数来计算该语音信号的语调估测值。

本发明提供一种语音处理装置，用来实施上述的方法；其包含：语音处理器(12)，用来处理语音信号x[n]；语音处理器(10)，计算多个自相关函数值R[τ]；存储器(14)，用来储存多个延迟参数τ；及语音信号源(16)，产生语音信号x[n]，并输入语音处理装置(10)；以及数据库(18)，用来储存各种不同类型的语音信号及其特征参数与语调值范围，当语音处理装置接收到语音信号x[n]时，语音处理器(12)比较语音信号x[n]及数据库(18)中的数据，分析x[n]属于何种类型的语音信号，并且根据此类型语音信号的语调值范围，决定x[n]的语调上限值P_upper以及语调下限值P_lower。

附图说明

图1是本发明语音处理装置的功能方块图。

图2是本发明第一实施例预估语调估测值的方法的流程图。

图3是本发明第二实施例预估语调估测值的方法的流程图。

具体实施方式

请参阅图1，图1是本发明语音处理装置的功能方块图。语音信号x[n]输入语音处理装置10，语音处理装置10是包含语音处理器12，用来处理语音信号x[n]，及内存14，用来储存多个延迟参数τ及语音处理器10所计算的多个自相关函数值R[τ]，语音信号x[n]是由语音信号源16所产生，并输入语音处理装置10，以及数据库18，用来储存语音信号及相对应的语调值范围。

其中，数据库18是储存各种不同类型的语音信号及其特征参数与语调值范围，当语音处理装置接收到语音信号x[n]时，语音处理器12会比较语音信号x[n]及数据库18中的数据，分析x[n]属于何种类型的语音信号，并且根据此类型语音信号的语调值范围，决定x[n]的语调上限值P_upper以及语调下限值P_lower。

请参阅图2，图2是本发明预估语音信号的语调估测值的方法的流程图，本发明是根据下列的方程式三预估语调估测值，其方法包含下列步骤：

R [k] = \underset{n}{Σ} x [n] x [n + k]

方程式三

其中n＝i×Δn i＝1，2，3，…，

步骤200：依据数据库18中所储存的语音信号及其相对应的语调值范围，决定语音信号x[n]的语调上限值P_upper以及语调下限值P_lower；

步骤202：依据步骤200所决定的语调上限值P_upper以及语调下限值P_lower，计算延迟参数下限值W_n及延迟参数上限值Δ_n；

步骤204：使用语音处理器12，依据延迟参数下限值W_n及延迟参数上限值Δ_n之间的多个延迟参数τ，对语音信号x[n]作自相关函数运算以产生多个自相关函数值R[τ]；以及

步骤206：比较该等自相关函数值R[τ]以找出该多个自相关函数值R[τ]中的最大值，并利用相对应于该最大值的延迟参数τ来计算语音信号x[n]的语调估测值。

在步骤200中，语音处理器12根据数据库18中所储存的语音信号及其相对应的语调值范围，决定语音处理器12所处理的语音信号x[n]其语调估测值可能所在的范围，此范围具有语调上限值P_upper以及语调下限值P_lower。

在步骤202中，语音处理器12依据语调上限值P_upper以及语调下限值P_lower计算延迟参数下限值W_n及延迟参数上限值Δ_n，延迟参数下限值W_n为取样频率Fs除以语调下限值P_lower，延迟参数上限值Δ_n为取样频率Fs除以语调上限值P_upper。

在步骤204中，使用语音处理器12，依据延迟参数上限值W_n及延迟参数下限值Δ_n两者所构成的范围其间的多个延迟参数，及方程式三对语音信号x[n]做自相关函数运算，以产生多个自相关函数值R[τ]。在此处该等多个自相关函数值R[τ]是经由位于延迟参数上限值W_n及延迟参数下限值Δ_n两者所构成的范围之间的多个延迟参数τ进行如上所述的自相关函数运算而得到，而该等多个延迟参数τ当中的相邻二延迟参数τ之差是可等于延迟参数下限值Δ_n，由此范围所选取的第一个延迟参数τ是等于延迟参数下限值Δ_n，第二个延迟参数τ为延迟参数下限值的二倍2Δ_n，其余延迟参数俱为延迟参数下限值的整数倍，而在此范围中所选取的最大延迟参数是等于延迟参数上限值W_n。

在步骤206中，使用语音处理器10，比较该等自相关函数值R[τ]，以找出该多个自相关函数值R[τ]中的最大值，并用相对应的延迟参数τ依据方程式四来计算语音信号x[n]的语调估测值。

pitch = \frac{F_{s}}{k_{\max}}

方程式四

请参阅图3，图3是在本发明的第二实施例中预估语调估测值的方法的流程图。

步骤300：依据数据库18中所储存的语音信号及其相对应的语调值范围，决定语音信号x[n]的语调上限值P_upper以及语调下限值P_lower；

步骤302：依据步骤300所决定的语调上限值P_upper以及语调下限值P_lower，计算延迟参数下限值W_n及延迟参数上限值Δ_n；

步骤304：使用语音处理器12，根据方程式三，计算出多个R[τ]；

步骤306：从数据库18中取得筛选公式，将步骤304所计算出的多个R[τ]，代入筛选公式得到临界值R_th；

步骤308：将所有步骤304中的多个R[τ]与R_th相比，筛选出大于R_th的R[τ]其所相对应的τ值，而多个R_th的R[τ]其所相对应的τ值为集合B；

步骤310：根据方程式一，计算相对应集合B中每一个τ值的R[τ]，该等多个R[τ]为集合C；以及

步骤312：于集合C中找出R[τ]的最大值其所对应的τ值，并根据方程式四，计算出语调估测值。

在步骤300中，语音处理器12根据数据库18中所储存的语音信号及其相对应的语调值范围，决定语音处理器12所处理的语音信号x[n]其语调估测值可能所在的范围，此范围具有语调上限值P_upper以及语调下限值P_lower。

在步骤302中，语音处理器12依据语调上限值P_upper以及语调下限值P_lower计算延迟参数下限值W_n及延迟参数上限值Δ_n，延迟参数下限值W_n为取样频率Fs除以语调下限值P_lower，延迟参数上限值Δ_n为取样频率Fs除以语调上限值P_upper。

在步骤304中，使用语音处理器12，依据延迟参数上限值W_n及延迟参数下限值Δ_n两者所构成的范围其间的多个指标值，及方程式三对语音信号x[n]选取相对应该多个指针值的语音数据x[n]作自相关函数运算，以产生多个自相关函数值R[τ]。

在步骤306-308中，从数据库18中取得筛选公式，将步骤304中所计算出的多个R[τ]，代入筛选公式得到一临界值R_th；将所有步骤304中的多个R[τ]与R_th相比，筛选出大于R_th的R[τ]其所相对应的τ值，而多个R_th的R[τ]其所相对应的τ值为集合B；在此处该等多个自相关函数值R[τ]是以位于延迟参数上限值W_n及延迟参数下限值Δ_n两者所构成的范围之间的多个指标值所相对应的语音数据x[n]进行如方程式三所述的自相关函数运算而得到，而该等多个指标值当中的相邻二指标值的差是等于延迟参数下限值Δ_n，由此范围所选取的第一个指标值是等于延迟参数下限值Δ_n，第二个指标值为延迟参数下限值的二倍2Δ_n，其余指标值俱为延迟参数下限值Δ_n的整数倍，而于此范围中所选取的最大指标值是等于延迟参数上限值W_n。

在步骤310-312中，根据方程式一以及步骤308中集合B中的每一个τ值，计算出相对应集合B中的每一个τ值的R[τ]值，并于该等相对应集合B中的每一个τ值的R[τ]值中找出该等R[τ]的最大值，之后根据相对应该等R[τ]值的最大值的延迟参数τ及方程式四，计算出语音数据x[n]的语调估测值。

与现有技术比较，本发明依据数据库18决定语音信号x[n]的语调可能范围，然后依据此范围的上限值及下限值计算延迟参数τ的上限值及下限值，之后在延迟参数τ的范围之中选择延迟参数下限值Δ_n的倍数的延迟参数τ，并根据所选择的延迟参数τ计算自相关函数值以找出语音信号x[n]的语调估测值，不同于现有技术根据所有延迟参数τ计算自相关函数值，本发明可减少语音处理时计算语调估测值的运算量并能确保不误判语调估测值的情况。

以上所述仅为本发明的优选实施例，凡依本发明申请专利范围所做的均等变化与修改，皆应属本发明专利的涵盖范围。

Claims

1.一种用语音处理器计算语音讯号的语调估测值的方法，该语音讯号包含有多个数字语音数据，该方法包含下列步骤：

(a)依据数据库中所储存的语音讯号及其相对应的语调值范围，决定该语音讯号的语调上限值及语调下限值；

(b)依据步骤(a)所决定的该语调上限值及该语调下限值，计算延迟参数下限值及延迟参数上限值；

(c)使用该语音处理器，依据该延迟参数下限值及该延迟参数上限值之间的多个延迟参数，对该语音讯号作自相关函数运算以产生多个自相关函数值；以及

(d)比较该等自相关函数值以找出该多个自相关函数值中的最大值，并利用相对应于该最大值的延迟参数来计算该语音讯号的语调估测值。

2.如权利要求1所述的方法，其中在步骤(c)中另包含有设定递增值等于该延迟参数下限值，相邻二延迟参数之差是等于该递增值。

3.如权利要求1所述的方法，其中另包含有以下步骤：

在步骤(c)中产生多个自相关函数值后，提供临界值；

分别比较每一自相关函数值及该临界值；以及

在步骤(d)中，比较大于该临界值的自相关函数值以找出该等自相关函数值中的最大值，并利用相对应于该最大值的延迟参数来计算该语音讯号的语调估测值。

4.一种语音处理装置，用来实施如权利要求1所述的方法；

其包含：语音处理器(12)，用来处理语音信号x[n]；语音处理器(10)，计算多个自相关函数值R[τ]；存储器(14)，用来储存多个延迟参数τ；及语音信号源(16)，产生语音信号x[n]，并输入语音处理装置(10)；以及数据库(18)，用来储存各种不同类型的语音信号及其特征参数与语调值范围，当语音处理装置接收到语音信号x[n]时，语音处理器(12)比较语音信号x[n]及数据库(18)中的数据，分析x[n]属于何种类型的语音信号，并且根据此类型语音信号的语调值范围，决定x[n]的语调上限值P_upper以及语调下限值P_lower。