CN1735926A

CN1735926A - 语音处理中用于人工扩展带宽的方法和设备

Info

Publication number: CN1735926A
Application number: CNA2004800019784A
Authority: CN
Inventors: L·卡利奥; P·阿尔库; K·凯克; M·卡亚拉; P·瓦尔韦
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2003-01-10
Filing date: 2004-01-09
Publication date: 2006-02-15
Also published as: EP1581929A4; KR20050089874A; WO2004064039A3; KR100726960B1; WO2004064039A2; EP1581929A2; US20040138876A1

Abstract

一种改善利用300Hz和3.4kHz之间的音频带宽传输的语音信号的质量的方法和设备。在将接收语音信号划分成帧之后，在样本之间插零以使采样频率加倍。利用基于语音帧分类的自适应算法调整这些混叠频率分量的电平。可以将语音划分为咝音和非咝音，可以再将非咝音划分为浊音和塞音。所述调整基于一些参数，例如由300Hz和3.4kHz之间的向上采样语音信号频谱计算的过零点数量和能量分布来执行。通过对经过调整的向上采样语音频谱执行逆傅立叶变换而获得带宽在300Hz和7.7kHz之间的新语音。

Description

语音处理中用于人工扩展带宽的方法和设备

发明领域

本发明总体上涉及用于提高以电方式再现的语音信号的质量的方法和设备，更具体地来说涉及通过扩展语音带宽来提高语音质量。

发明背景

常规技术下，语音信号在电信系统中以窄带传输，根据奈奎斯特定理，包含在300Hz到3.4kHz范围内的频率，采样率为8kHz。但是，如果所传送语音的带宽更宽些(例如达到8kHz)，则人所感觉到的语音会更自然。由于频率范围受限，所以如此传送的语音的质量不甚理想，因为声音有些不自然。为此，新的宽带传输标准如AMR(自适应多速率)宽带语音编解码器可以传送达7kHz的频率。但是，如果语音源自窄带网络或具有窄带语音编码器的设备，则具有宽带功能的终端或宽带网络不会提供有关所传输的语音自然度的任何优势，因为较高频率的内容已经在传输时丢失。因此，有利且希望的是扩展传输语音的带宽，以便提高语音质量。过去，已经将多种方法用于此目的。例如，H.Yasukawa所著的“通过滤波和多速率技术提高带宽受限语音的质量”(″Quality Enhancement of BandLimited Speech by Filtering and Multirate Techniques″，Proc.Int.Conf.on Spoken Language Proc，.pp.1607-1610)中公开了一种扩展频谱方法，将采样率转换中的混叠效应和数字滤波用于在扩展的频谱的较高频带中进行频谱整形。EP10064648公开了一种语音带宽扩展方法，其中在接收器上利用码本(codebook)生成高频带(例如4kHz和8kHz之间)语音的丢失频率分量。码本包含不同频谱特征的频率矢量，全部涵盖相同的高频带。扩展频率范围相当于选择最优矢量，并将其添加到接收的低频带(例如0到4kHz)的频谱分量中。

虽然现有技术的解决方案提高了语音信号的质量，但它们通常实现起来成本高昂，或需要大量的训练才能合成宽带语音。

因此，最好提供一种方法和设备，用于以低计算复杂性来提高语音信号质量。

发明概述

根据本发明的第一方面，提供一种改善多个具有时域语音信号的信号片段中的语音的方法，所述方法的特征在于：

对所述信号片段执行向上采样，以提供时域上的向上采样片段；

将向上采样片段转换成多个具有频域上的语音频谱的变换片段；

基于所述语音信号的至少一个信号特征将所述语音信号划分为多个类；

基于所述这些类在频域上修改所述语音频谱，以提供修改变换片段；以及

将所述修改变换片段转换成时域上的语音数据。

最好，所述向上采样通过在所述信号片段中的相邻信号样本之间插值来执行，其中所述插值为零。

最好，所述语音信号包括在时间轴上有多个交叉点的时间波形，所述语音信号的所述至少一个特征表示信号片段中交叉点的数量。

最好，每个信号片段包含多个信号样本，所述信号片段的所述至少一个特征表示所述信号片段中交叉点的数量与所述信号片段中信号样本的数量的比率。

最好，所述语音信号的至少一个信号特征表示所述语音信号的二阶导数的能量与所述语音信号中的能量的比率。

最好，所述多个类包括浊音和塞音，并且

如果所述比率小于预定值，则将所述语音信号归类为所述浊音；

如果所述比率大于所述预定值，则将所述语音信号归类为所述塞音。

最好，所述多个类包括咝音类和非咝音类；并且

如果所述比率大于预定值，则将所述语音信号归类为所述咝音类；

如果所述比率小于或等于所述预定值，则将所述语音信号归类为所述非咝音类。

最好，所述语音信号的所述至少一个信号特征表示所述语音信号的二阶导数的能量与所述语音信号中的能量的另一个比率，如果所述另一个比率也大于另一个预定值，则将所述语音信号规类为所述咝音类。

最好，每个语音频谱具有在较低频率范围中的第一频谱部分和在较高频率范围中的第二频谱部分，在所述语音信号归类为所述咝音类时，增强所述第二频谱部分来提供所述修改变换片段；在所述语音信号归类为所述非咝音类时，衰减所述第二频谱部分来提供所述修改变换片段。

最好，每个语音频谱具有在较低频率范围中的第一频谱部分和在较高频率范围中的第二频谱部分，并且在将所述修改变换片段转换成时域上的语音数据之前，通过执行平均运算来平滑所述第二频谱部分。

根据本发明的第二方面，提供一种电信网络中的网络设备，其中所述网络设备可以

接收表示语音的数据，并将所述接收数据划分成多个具有时域语音信号的信号片段。所述网络设备的特征在于包括：

向上采样模块，用于对所述信号片段执行向上采样，以提供时域上的向上采样片段；

变换模块，用于将向上采样片段转换成多个具有频域上的语音频谱的变换片段；

分类算法，用于基于所述语音信号的至少一个信号特征将所述语音信号划分为多个类；

调整算法，用于基于所述这些类在频域上修改所述语音频谱，以提供修改变换片段；以及

逆变换模块，用于将所述修改变换片段转换成时域上的语音数据。

最好，每个信号片段包括对在时间轴上有多个交叉点的波形采样得到的多个信号样本，并且所述分类算法适于基于至少一个信号片段中交叉点的数量与信号样本的数量的比率将所述语音信号分类。

最好，所述分类算法还适于基于所述语音信号的二阶导数的能量与至少一个信号片段中的能量的比率来将所述语音信号分类。

最好，所述多个类包括咝音类和非咝音类；每个语音频谱具有在较低频率范围中的第一频谱部分和在较高频率范围中的第二频谱部分，所述设备的特征在于所述调整算法适于：

在所述语音信号归类为所述咝音类时，增强所述第二频谱部分，以及

在所述语音信号归类为所述非咝音类时，衰减所述第二频谱部分。

最好，所述调整算法还适于通过平均运算平滑所述第二频谱部分。

根据本发明的第三方面，提供一种用于语音解码器的声音分类算法，其中在所述语音解码器中将语音数据划分成多个具有时域语音信号的信号片段，且每个信号片段包括多个信号样本，所述语音信号包括在时间轴上具有多个交叉点的时间波形。所述分类算法的特征在于：

基于至少一个信号片段中交叉点的数量与信号样本的数量的比率将所述语音信号划分为多个类。

最好，将所述语音信号划分为咝音类和非咝音类；如果所述比率大于预定值，则将所述语音信号规类为所述咝音类。

最好，所述分类还基于所述语音信号的二阶导数的能量与至少一个信号片段中的能量的另一个比率来执行。

最好，将所述语音信号划分为咝音类和非咝音类；如果所述比率大于第一预定值且所述另一个比率大于第二预定值，则将所述语音信号规类为所述咝音类。所述第一预定值可以基本等于0.6，而所述第二预定值可以基本等于8。

根据本发明的第四方面，提供一种用于语音解码器的频谱调整算法，它可以：

接收语音数据；

将语音数据划分成多个具有时域语音信号的信号片段；

对所述信号片段执行向上采样，以提供向上采样片段；以及

将所述向上采样片段转换成多个变换片段，每个变换片段具有在第一频率范围中的第一语音频谱部分和在高于所述第一频率范围的第二频率范围中的第二语音频谱部分。所述调整算法的特征在于：

在所述语音信号归类为所述咝音类时，增强所述第二语音频谱部分；

在所述语音信号归类为所述非咝音类时，衰减所述第二语音频谱部分；以及

通过平均运算平滑所述第二频谱部分。

最好，当至少两个连续信号片段中的语音信号归类为所述咝音类时，所述至少两个连续的信号片段包括开始片段和至少一个后续片段，其中，按第一系数增强所述开始片段中的所述第二语音频谱部分，按小于所述第一系数的第二系数增强所述至少一个后续片段中的所述第二语音频谱部分。

下文将参考图1-12阐述本发明。

附图简介

图1以框图形式说明根据本发明的语音解码器。

图2以图表说明插零之后语音帧的增强FFT频谱。

图3a以图表说明插零之后浊音帧的FFT频谱。

图3b以图表说明用于修改浊音帧的FFT频谱的衰减曲线。

图3c以图表说明按照图3b所示的衰减曲线执行衰减之后图3a的FFT频谱。

图4a以图表说明插零之后塞音帧的FFT频谱。

图4b以图表说明用于修改塞音帧的FFT频谱的衰减曲线。

图4c以图表说明按照图4b所示的衰减曲线执行衰减之后图4a的FFT频谱。

图5a以图表说明用于修改塞音帧的FFT频谱的另一个衰减曲线。

图5b以图表说明按照图5a所示的衰减曲线执行衰减之后图4a的FFT频谱。

图6以图表说明用于增强第一咝音帧的振幅和随后的咝音帧的振幅的两个不同放大曲线。

图7a以图表说明插零之后咝音帧的FFT频谱。

图7b以图表说明在按与图6所示曲线相似的放大曲线放大之后图6a的FFT频谱。

图8a以图表说明执行衰减之后非咝音帧的FFT频谱。

图8b以图表说明通过移动平均运算修改之后图8a的经过衰减的FFT频谱。

图9a以示意图说明通过帧级联操作处理的三个加窗的帧。

图9b以示意图说明帧级联操作得到的连续帧序列。

图10以流程图形式说明根据本发明的语音质量改善方法。

图11以框图说明根据本发明具有语音信号修改模块的移动终端。

图12以框图说明含有多个分别采用本发明的语音信号修改模块的基站的电信网络。

发明的最佳实施方式

本发明利用接收器接收到的原始窄带语音信号(0-4kHz)，通过人工扩展接收语音的带宽来生成新的语音信号，以基于该新语音信号提高语音的自然度。无需传输附加信息，本发明基于传输的语音信号的特征生成新的高频分量。图1显示了根据本发明的语音解码器10。如图所示，输入信号包括以典型采样频率8kHz采样得到的连续样本序列。通过成帧块12将该输入信号划分成若干边缘重叠的窗或帧。帧的缺省大小是20毫秒。采样频率为f_s＝8kHz时，每帧中有160个样本。以30毫秒的汉明窗(240个样本)对每个帧进行加窗处理，以便一帧的每一端与相邻帧有5毫秒的重叠。在混叠块14中，在样本之间插零-通常为两个样本之间插入一个零。由此，采样频率从8kHz倍增到16kHz。在插零之后，在FFT模块16中计算FFT(快速傅立叶变换)频谱。该FFT的长度为1024。要注意的是，在插零之后，增强的FFT功率频谱具有在0-4kHz范围内的原始窄带分量以及相同频谱在4kHz-8kHz频率范围内的镜像，如图2所示。

增强的FFT频谱由语音信号修改模块20修改，此模块包括声音分类算法22和频谱调整算法24。根据本发明，利用声音分类算法22将所述语音信号划分为多个类，随后基于分类结果利用频谱调整算法24修改上述经过增强的FFT频谱。具体而言，首先将帧中的语音信号划分为两种基本类型：咝音和非咝音。咝音是摩擦音，如/s/、/sh/和/z/，它们包含较其它辅音高得多的频率分量。摩擦音是呼出气息磨擦通过声道某点上狭窄处形成的辅音。非咝音还进一步划分为浊音类和塞音类。一般而言，低频带(0-4kHz)上浊音的频谱包络随频率衰落，而在相同频带中咝音的频谱包络随频率提升。浊音如元音的频谱与咝音的频谱差异十分大，从而可以将咝音与非咝音区分开。但是，最好在时域而非频域使用语音信号来进行语音信号分类。例如，可以将时域中过零点的数量和时域信号的能量及其二阶导数用于区分咝音与非咝音。具体而言，基于两个商数q₁和q₂来区分每个帧中的语音信号：

q₁＝N_Z/N_S

q₂＝D_E/E_S

其中N_Z是时域中语音信号帧或窗的过零点数量；N_S是帧中的样本数量；D_E是时域中语音信号二阶导数的能量，以及E_S是该语音信号的能量，它等于帧中信号的平方和。因此，q₁是表示帧的频率内容的量度，q₂是帧中能量相对于频率的分布的相关量度。还应该注意，存在也表示频率内容的其它量度，如FFT系数及能量分布，例如对帧执行任何高通滤波之后的能量，这些量度均可用于声音分类，但商数q₁和q₂易于计算。将这两个商数与两个不同的极限值c₁和c₂相比较来区分咝音与非咝音。如果q₁＞c₁且q₂＞c₂，则将所述帧视为属于咝音。否则，将该帧视为属于非咝音。例如，极限值c₁和c₂可以分别选择为0.6和8。

一般而言，语音中摩擦音的持续时间比其它辅音的持续时间长。更精确地说，咝音的持续时间通常比非咝音的摩擦音(如/f/和/h/)的持续时间更长。因此，最好采用第三准则来从语音信号中选出咝音，仅将具有至少两个被视为摩擦音的连续帧的语音片段作为咝音处理。最后，当一个帧满足要求q₁＞c₁和q₂＞c₂时，声音分类算法22还检查至少一个后续帧，以判断q₁＞c₁和q₂＞c₂的要求是否也得到满足。

一旦将帧划分为咝音和非咝音，则基于比值q₁进一步将非咝音帧划分成浊音帧和塞音帧。塞音是清音，如/k/、/p/和/t/。例如，如果q₁大于0.4，则可以将该帧视为属于塞音。否则，将该帧视为属于浊音。

上述声音分类准则基于试验事实，它们可以某种方式变化以改变所述方法的识别特征。例如，如果使q₁和/或q₂更小，例如为0.3和5，则本发明方法不太可能检测出所有咝音，而同时误检测的咝音也会减少。如果使q₁和/或q₂更大，例如为0.9和12，则本发明方法更可能检测出所有咝音，而同时误检测的咝音也会增加。持续时间D的阈值也可以类似方式变化而得到类似结果，例如，在30毫秒和90毫秒之间变化。

当利用参数q₁、q₂和D来检测咝音时，根据本发明，可以根据本方法检测咝音和摩擦音的敏感度和特异性确定这些参数相对于每种实施方案的合理极限值。在某种极端条件下，如在非常嘈杂的环境中，这些参数的值甚至可以超过上述范围。

在将这些帧划分成不同的声音类别之后，利用频谱调整算法24来修改相应插零帧中的增强FFT频谱的振幅。如上所述，增强FFT频谱涵盖0到8kHz的频率范围。频率范围的半低频范围具有原窄带FFT频谱，而频率范围的半高频范围具有同一频谱的镜像。最好只修改高频带频谱，而低频带保持不变。但是，也可以不同的处理操作来修改低频带，然后结合两种处理操作来实现一种对整个频谱进行修改而改善声音质量的方法。

浊音帧

修改较高频率范围中的FFT频谱，以使其振幅随频率升高而作更大的衰减。基于两个参数：attnlg和kx来衰减增强的浊音帧FFT频谱的振幅，这两个参数如下计算：

attnlg＝L_max-L_ave

kx＝2.90-0.086*attnlg+0.0010*(attnlg)²

其中L_max是0-4kHz的最大频谱级，L_ave是2-3.4kHz的平均频谱级。由这两个参数可形成步阶间隔为1kHz的阶跃函数，以便衰减4-8kHz的振幅频谱，通过将衰减量逐渐增加到如下给出的最大衰减量来获得每个步阶：

p＝kx*attnlg*w

其中w是与最大频谱分量的频率成比例的加权系数。阶跃函数在0-4kHz之间的振幅是0dB。为了显示振幅衰减的结果，图3a中显示了一个浊音帧的典型振幅频谱，而在图3b中显示了一个示范衰减阶跃函数。图3c中显示的是按该阶跃函数衰减之后的振幅频谱。

塞音帧

对于塞音帧，最好以类似方式衰减每个帧的振幅频谱，不同之处在于：

attnlg＝3(L_max-L_ave)

图4a中显示了一个塞音帧的典型振幅频谱。图4b中显示的是一个示范衰减阶跃函数。图4c中显示的是按该阶跃函数衰减之后的振幅频谱。或者，如图5a-5b所示，以更渐进的方式执行衰减操作。如图5a所示，对频谱振幅的衰减始于4kHz，其衰减曲线呈对数函数的形状。图5b是按图5a所示衰减曲线衰减之后图4a的振幅频谱。

咝音帧

一般来说，在对咝音帧进行插零处理之后，其FFT频谱的振幅包络从0到4kHz递增，而后从4kHz到8kHz递减。希望对该频谱进行修改，使得较高频率范围中频谱的振幅随频率增加。如上所述，仅将具有至少两个满足要求q₁＞c₁和q₂＞c₂的连续帧的语音片段作为咝音处理，在咝音片段中，使0-4.8kHz之间的增强FFT频谱的振幅保持不变，而按如下对数函数attslidelg增强4.8kHz-8kHz之间频谱的振幅：

attslidelg＝kUV*sqrt[f-4800)/3200]

其中UV是频率范围0.3kHz-3kHz上振幅频谱差的dB值(例如，该差值可以由频率范围两端的若干样本的均值计算得到)，f是以Hz为单位的频率，并且对于第一咝音帧，k＝0.4，对于后续咝音帧，k＝0.7。图6中显示了UV＝15时咝音帧的放大曲线。要注意的是，在确定放大曲线之后，将其转换为线性标度(linear scale)，然后再将其值与增强FFT频谱的振幅相乘。图7c中显示了经过放大的频谱。图7a中显示的是原始频谱，而图7b中显示的是所用放大曲线。

移动平均

在较高频带(4kHz-8kHz)上采用移动平均运算的目的在于通过消除谐音结构使语音更为自然。移动平均运算是对若干样本求振幅频谱平均，并且样本数量随频率范围的增加而增加。移动平均运算也由频谱调整算法24执行。例如，在4kHz-5kHz的频率范围上，不执行任何平均运算。在5kHz-6kHz的频率范围上，对5个样本求振幅频谱平均。在6kHz-7kHz的频率范围上，对9个样本求振幅频谱平均。最后在7kHz-8kHz的频率范围上，对13个样本求振幅频谱平均。图8a是执行移动平均运算之前一帧的振幅频谱。图8b是执行移动平均运算之后的振幅频谱。

IFFT和能量调整

在频域对频谱进行处理之后，使用逆快速傅立叶变换(IFFT)模块30通过逆快速傅立叶变换(IFFT)将频谱变换回时域。由每个帧计算长度为1024的IFFT。由变换结果，480个第一样本(30毫秒)构成了该帧的时域表示。在因新的频谱分量添加到信号中而使频率扩展之后，每个帧的能量发生改变。此外，能量的改变随帧不同而不同。因此，最好利用能量调整模块32将宽带帧的能量调整到与原窄带帧中相同的水平。

消窗

在此阶段，利用消窗(unwindowing)模块34通过将所有处理的帧乘以逆汉明窗(inverse Hamming window)来补偿计算FFT时执行的加窗操作。逆窗的长度为30毫秒，480个样本。

级联帧

为从处理的帧获得连续信号，利用帧级联模块36通过重叠方式将帧放置在一起。应该注意的是，此阶段采样频率为16kHz，加窗帧长度为30毫秒，而实际帧为20毫秒。当将加窗帧级联时，最好结合相邻帧中的样本求加窗帧20毫秒中间部分的前50个样本和最后50个样本的平均，如图9a所示。平均运算用于避免实际帧之间的突跳(sudden jump)。在平均过程中，采用线性斜率的单调函数，以使一个帧的影响随时间线性下降，而后续帧的影响随时间线性增加。在将帧级联之后，如图9b所示，连续的帧序列包含采样频率为16kHz的连续样本序列。

图10中以流程图100说明根据本发明的人工扩展接收语音信号带宽的方法。如图10所示，通过混叠模块(参见图1)对时域上的语音帧进行向上采样之后，由FFT模块(参见图1)在步骤102将向上采样帧转换为频域上的变换帧。在步骤104，由声音分类模块(参见图1)利用时域上对应语音帧中过零点数量、时长和能量信息判断该变换帧表示的是咝音还是非咝音。如果变换帧属于非咝音，则在步骤120判断该帧属于浊音还是塞音。如果该帧属于浊音，则在步骤122根据衰减曲线对语音帧的FFT频谱进行衰减。如果该帧属于塞音，则在步骤124根据另一个衰减曲线对语音帧的FFT频谱进行衰减。但是，如果步骤104判定与频域上变换帧相关联的语音片段是咝音，则在步骤112或114根据步骤110就该帧是否是第一帧的判断结果来修改那些变换帧的FFT频谱。在基于时域上对应语音帧的特征修改频域上的语音帧之后，在步骤130通过逆FFT模块将修改后的语音帧转换回时域上的多个语音帧，并在步骤140由能量调整模块调整时域上这些语音帧的能量，以便进一步处理。

根据本发明的人工扩展接收语音信号带宽的方法可以概括为如下三个主要步骤：

在第一步骤，通过在原始信号的每两个样本之间插零来对时域上的语音帧进行向上采样，从而使采样频率和数字语音信号带宽加倍。因此，如果原采样频率是8kHz，则创建了4kHz和8kHz之间语音帧中的混叠频率分量。

在第二步骤，基于语音片段的分类利用自适应算法调整该混叠频率分量的电平。由向上采样语音信号的原始窄带FFT频谱计算混叠频率分量的调整量。

在第三步骤，利用逆傅立叶变换将调整的频谱变换到时域，以生成频带为300kHz-7.7kHz的新语音(如果所传送的原始语音信号的频率分量在300Hz和3.4kHz之间)。

图11是根据本发明一个示范实施例的移动终端200的方框图。移动终端200包括一些典型的终端部件，如麦克风201、小键盘207、显示器206、耳机214、发送/接收切换开关208、天线209和控制单元205。此外，图11显示移动终端的典型发送器和接收器块204、211。发送器块204包括用于对语音信号进行编码的编码器221。发送器块204还包括信道编码、解密和调制所需的操作以及RF功能，为简明起见，这些部件未在图11中示出。接收器块211还包括根据本发明的解码块220。解码块220包括类似于图1所示语音信号修改模块20的语音信号修改模块222。信号来自麦克风201，在放大级202进行放大，并在A/D转换器中数字化，然后传送到发送器块204，通常是传送到发送块所包括的语音编码装置。经过发送块处理、调制并放大的发送信号通过发送/接收切换开关208传送到天线209。要接收的信号经发送/接收切换开关208从天线传送到接收器块211，由其对接收信号解调，并进行信道解密和解码。语音信号修改模块222对接收信号进行人工扩展来提高语音质量。得到的语音信号通过D/A转换器212传送给放大器213，进而传送给耳机214。控制单元205控制移动终端200的操作，从小键盘207读取用户提供的控制命令，并通过显示器206向用户提供消息。

根据本发明的语音信号修改模块20还可以用于电信网络300如普通电话网，或移动台网络如GSM网络。图12显示此类电信网络的一个框图实例。例如，电信网络300可以包括电话交换机或对应的交换系统360，它们与普通电话370、基站340、基站控制器350和电信网络的其它中央设备355连接。移动终端330可以通过基站340与电信网络建立连接。含有类似于图1所示修改模块20的语音信号修改模块322的解码块320最好可以设在例如基站340上。应该注意的是，语音信号修改模块322可以应用于代码转换器，该代码转换器用于将来自PSTN(公众交换电话网)或PLMN(公众陆地移动网)如GSM或IS-95的语音转换到3G移动网。代码转换通常是将PCM(脉冲码调制)窄带信号表示转换为例如WB-AMR(宽带自适应多速率)表示，以使移动终端330无需进行语音信号修改。解码块320还可以设在例如基站控制器350或其它中央或交换设备355上。因此，可以利用语音信号修改模块332通过人工扩展基站或基站控制器中接收的语音信号的带宽来提高语音质量。语音信号修改模块332还可以用于个人计算机、IP电话等。

虽然已参考优选实施例对本发明作了说明，但本技术领域人员会理解，在不背离本发明范围的前提下可以在形式和细节上对所述实施例进行上述及各种其它变更、省略和调整。

Claims

1.一种用于改善多个具有时域语音信号的信号片段中的语音的方法，所述方法的特征在于：

将所述向上采样片段转换成具有频域上语音频谱的多个变换片段；

基于所述这些类在频域上修改所述语音频谱，以提供经过修改变换片段；以及

将所述修改变换片段转换成时域上的语音数据。

2.如权利要求1所述的方法，其中每个信号片段包含多个信号样本，所述方法的特征在于：

所述向上采样通过在所述信号片段中的相邻信号样本之间插值来执行。

3.如权利要求2所述的方法，其特征在于：所述插入值是零值。

4.如权利要求1至3中任何一项所述的方法，其中所述语音信号包括在时间轴上具有多个交叉点的时间波形，所述方法的特征在于：

所述语音信号的所述至少一个特征表示信号片段中交叉点的数量。

5.如权利要求4所述的方法，其中每个所述信号片段包含多个信号样本，所述方法的特征在于：

所述信号片段的所述至少一个特征表示所述信号片段中交叉点的数量与所述信号片段中信号样本的数量的比率。

6.如权利要求1至5中任何一项所述的方法，其特征在于：所述语音信号的所述至少一个特征表示信号片段中的能量。

7.如权利要求1所示的方法，其特征在于：

所述语音信号的所述至少一个信号特征表示所述语音信号的二阶导数的能量与所述语音信号中的能量的比率。

8.如权利要求5所述的方法，其中所述多个类包括浊音和塞音，所述方法的特征在于：

如果所述比率小于预定值，则将所述语音信号规类为所述浊音；

如果所述比率大于所述预定值，则将所述语音信号规类为所述闭塞辅音。

9.如权利要求5所述的方法，其中所述多个类包括咝音和非咝音；所述方法的特征在于：

如果所述比率大于预定值，则将所述语音信号规类为所述咝音类；

如果所述比率小于或等于所述预定值，则将所述语音信号规类为所述非咝音类。

10.如权利要求9所述的方法，其中所述语音信号的所述至少一个信号特征表示所述语音信号的二阶导数的能量与所述语音信号中的能量的另一个比率，所述方法的特征还在于：

如果所述另一个比率大于另一个预定值，则将所述语音信号规类为所述咝音类。

11.如权利要求9所述的方法，其中每个所述语音频谱具有在较低频率范围中的第一频谱部分和在较高频率范围中的第二频谱部分，所述方法的特征在于：

在所述语音信号归类为所述咝音类时，增强所述第二频谱部分以提供所述修改变换片段。

12.如权利要求9所述的方法，其中每个语音频谱具有在较低频率范围中的第一频谱部分和在较高频率范围中的第二频谱部分，所述方法的特征在于：

在所述语音信号归类为所述非咝音类时，衰减所述第二频谱部分以提供所述修改变换片段。

13.如权利要求1至12中任何一项所述的方法，其中每个所述语音频谱具有在较低频率范围中的第一频谱部分和在较高频率范围中的第二频谱部分，所述方法的特征还在于：

在将所述修改变换片段转换成时域上的语音数据之前，通过执行平均运算平滑所述第二频谱部分。

14.一种电信网络中的网络设备，其中所述网络设备可以：

接收表示语音的数据；以及

将所述接收数据划分成多个具有时域语音信号的信号片段，所述网络设备的特征在于：

变换模块，用于将所述向上采样片段转换成多个具有频域上的语音频谱的变换片段；

分类算法，用于基于所述语音信号的至少一个信号特征将所述语音信号划分为多个类；以及

调整算法，用于基于所述这些类在频域上修改所述语音频谱，以提供修改变换片段。

15.如权利要求14所述的设备，其特征还在于：

16.如权利要求14或15所述的设备，其中每个所述信号片段包含多个信号样本，所述设备用于对在时间轴上具有多个交叉点的时间波形进行采样，所述设备的特征在于：

所述分类算法适于基于至少一个信号片段中交叉点数量与信号样本数量的比率将所述语音信号分类。

17.如权利要求14或15所述的设备，其特征在于：

所述分类算法适于基于所述语音信号的二阶导数的能量与至少一个信号片段中的能量的比率来将所述语音信号分类。

18.如权利要求17所述的设备，其中每个所述信号片段包含多个信号样本，所述设备用于对在时间轴上具有多个交叉点的时间波形进行采样，所述设备的特征还在于：

所述分类算法适于基于所述至少一个信号片段中交叉点的数量与信号样本的数量的另一个比率将所述语音信号分类。

19.如权利要求14至18中任何一项所述的设备，其中所述多个类包括咝音类和非咝音类；每个所述语音频谱具有在较低频率范围中的第一频谱部分和在较高频率范围中的第二频谱部分，所述设备的特征在于所述调整算法适于：

在所述语音信号归类为所述咝音类时，增强所述第二频谱部分；以及

20.如权利要求14至18中任何一项所述的设备，其中每个所述语音频谱具有在较低频率范围中的第一频谱部分和在较高频率范围中的第二频谱部分，所述设备的特征还在于：

所述调整算法适于通过平均运算平滑所述第二频谱部分。

21.如权利要求19所述的设备，其特征还在于：

所述调整算法适于通过平均运算平滑所述第二频谱部分。

22.权利要求14至21中任何一项所述的设备，其特征在于包括：所述电信网络中的移动终端。

23.权利要求14至21中任何一项所述的设备，其特征在于包括：所述电信网络中的基站。

24.权利要求14至21中任何一项所述的设备，其特征在于包括：所述电信网络中的代码转换器。

25.一种用于语音解码器的声音分类算法，其中在所述语音解码器中将语音数据划分成多个具有时域语音信号的信号片段，且每个信号片段包括多个信号样本，所述语音信号包括在时间轴上具有多个交叉点的时间波形，所述分类算法的特征在于：

26.如权利要求25所述的声音分类算法，其中将所述语音信号划分为咝音类和非咝音类；所述分类算法的特征在于：

如果所述比率大于预定值，则将所述语音信号规类为所述咝音类。

27.如权利要求25或26所述的算法，其特征在于：

所述分类还基于所述语音信号的二阶导数的能量与所述至少一个信号片段中的能量的另一个比率来执行。

28.如权利要求27所述的声音分类算法，其中将所述语音信号划分为咝音类和非咝音类；所述分类算法的特征在于：

如果所述比率大于第一预定值且所述另一个比率大于第二预定值，则将所述语音信号规类为所述咝音类。

29.如权利要求28所述的声音分类算法，其特征在于：

所述第一预定值基本等于0.6，以及

而所述第二预定值基本等于8。

30.一种用于语音解码器的频谱调整算法，其能够：

接收语音数据；

将语音数据划分成多个具有时域语音信号的信号片段；

对所述信号片段执行向上采样，以提供向上采样片段；以及

将所述向上采样片段转换成多个变换片段，每个变化片段具有在第一频率范围中的第一语音频谱部分和在大于所述第一频率范围的第二频率范围中的第二语音频谱部分，所述调整算法的特征在于：

在所述语音信号归类为所述咝音类时，增强所述第二语音频谱部分；以及

在所述语音信号归类为所述非咝音类时，衰减增强所述第二语音频谱部分。

31.如权利要求30所述的频谱调整算法，其特征还在于：

通过平均运算平滑所述第二频谱部分。

32.如权利要求30或31所述的频谱调整算法，其中，在将至少两个连续信号片段中的所述语音信号归类为所述咝音类时，所述至少两个连续的信号片段包括开始片段和至少一个后续片段，所述调整算法的特征在于：

按第一系数增强所述开始片段中的所述第二语音频谱部分，以及

按大于所述第一系数的第二系数增强所述至少一个后续片段中的所述第二语音频谱部分。