CN1397064A

CN1397064A - 修改语音信号的系统和方法

Info

Publication number: CN1397064A
Application number: CN01804286A
Authority: CN
Inventors: U·林格伦; H·古斯塔夫松; P·多伊特根; C·图尔班
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2000-01-28
Filing date: 2001-01-17
Publication date: 2003-02-12
Anticipated expiration: 2021-01-17
Also published as: US20010044722A1; DE60101148T2; EP1252621A1; CN1185626C; WO2001056021A1; EP1252621B1; ATE253766T1; US6704711B2; DE60101148D1; AU2001230190A1

Abstract

一种用于语音信号增强的系统和方法在接收机处对一个窄带语音信号进行上抽样以便产生一个宽带语音信号。使用接收的窄带语音信号来再生宽带语音信号的较低频率范围。接收的窄带语音信号被分析以便确定它的共振峰和音调信息。使用从接收的窄带语音信号中得到的信息来合成宽带语音信号的较高频率范围。

Description

修改语音信号的系统和方法

发明背景

本发明涉及用于在通信网中发射语音信息的技术，并且更特别涉及用于增强接收机处的窄带语音信号的技术。

在语音信号的发射中，在网络容量(即，被发射的呼叫次数)和那些呼叫的话音信号的质量之间有一种折衷方法。当今正在使用中的大部分电话系统根据奈奎斯特定理以8kHz的一个抽样速率来在大约300Hz和3.4kHz之间的窄频带中编码并发射语音信号。由于人类语音包含大约50Hz和13kHz之间的频率，所以以一个8kHz速率来抽样人类语音并发射大约300Hz到3.4kHz的窄频率范围必定忽略语音信号中的信息。因此，电话系统必定衰落语音信号的质量。

扩展电话系统中发射的语音信号带宽的各种方法已经被开发。该方法能够被分成两类。第一类别包括这样的系统：这些系统通过整个电话系统发射的语音信号的带宽以便容纳由人类语音产生的一个更宽频率范围。这些系统在网络各处强加了另外的带宽要求，因此难以实现。

第二类别包括这样的系统：这些系统使用数学算法来操作被现有电话系统使用的窄带语音信号。典型的示例包括压缩发射机中的宽带语音信号的算法，如此以便可以通过一个现有的窄带连接来发射宽带信号。宽带信号然后必须在接收机处被解压缩。这些方法可能实现起来太昂贵，-因为需要改变现有系统的结构。

其他技术实现一种“电报密码本”(codebook)方法。一个电报密码本被用来从窄带语音信号转换为新的宽带语音信号。常常从窄带到宽带的转换是以两种模型为基础的：一种用于窄带语言分析而一种用于宽带语音合成。电报密码本关于语音数据被训练以便“学会”大多数话音(语音)的分集。当使用电报密码本时，窄带语音被形成模式并且表示对窄带模型的一个最小间距的电报密码本入口被查找。被选择的模型被转换成它的宽带等价物，其被用于合成宽带语音。与电报密码本相关的一个缺点是：它们需要重要的训练。

另一种方法通常被称为频谱叠加。频谱叠合技术是以这样一种原理为基础的：即，低频带中的内容可以被叠加到较高频带中。一般来说，以一个更高的抽样速率来对窄带信号进行再抽样以便在高频带中引入混叠。较高频带然后用一个低通滤波器而被整形，并且产生宽带信号。这些方法是简单而有效的，但是它们常常引入使话音有金属感的高频失真。

因此，在本领域中需要用于发射窄带语音信号的另外的系统和方法。另外，在本领域中需要用于处理接收机处的窄带语音信号的系统和方法，以便模拟宽带语音信号。

发明内容

本发明通过把合成信息加到在接收机处接收的窄带语音信号中来处理这些和其他需要。优选地，语音信号被拆分为一个声域模型和一个激励信号。一个或多个谐振频率可以被加到声域模型去，从而把一个额外的共振峰合成在语音信号中。另外，一个新的合成激励信号可以被加到要被合成的频率范围中的激励信号去。语音然后可以被合成以便获得一个宽带语音信号。有利地，本发明的方法有相对低的计算复杂性，并且未把显著的失真引入到语音信号中。

在一个方面中，本发明提供一种用于处理语音信号的方法。该方法包括如下步骤：分析一个接收窄带信号以便确定合成的高频带的内容；使用接收的窄带信号来再生语音信号的一个低频带；和把所述再生的低频带与确定的合成高频带进行合并以便产生一个具有合成分量的宽带语音信号。

按照本发明的另外一个方面，分析步骤还包括如下步骤：对接收窄带信号执行一个频谱分析以便确定与语音模型和残留误差信号相关的参数；确定与残留误差信号相关的一个音调；识别与接收窄带信号相关的峰值；和根据确定的音调和识别的峰值中的至少一个把来自接收窄带信号中的信息复制到一个高频带中以便提供合成高频带内容。

按照本发明的另外一个方面，宽带信号的一个预确定频率范围可以被选择性地增大。宽带信号也可以被转换成一个模拟格式并被放大。

按照另一方面，本发明提供一个用于处理一个语音信号的系统。该系统包括：装置，用于分析一个接收窄带信号以便确定合成高频带内容；装置，用于使用接收的窄带信号来再生语音信号的一个低频带；和装置，用于把所述再生的低频带与确定的合成高频带进行合并以便产生一个具有合成分量的宽带语音信号。

按照本发明的另外一个方面，用于分析一个接收窄带信号以便确定合成高频带内容的设备包括：一个参量频谱分析模块，用于分析窄带信号的共振峰结构并且产生描述该窄频带语音信号的参数和一个误差信号；一个音调判断模块，用于确定由窄带信号表示的声音段的音调；和一个残余扩展器和复制模块，用于处理从窄带语音信号中得到的信息并产生一个合成高频带信号分量。

按照本发明的另外方面，残余扩展器和复制模块包括一个快速傅里叶变换模块，用于把来自参量频谱分析模块中的误差信号转换成为频域；一个峰值检波器，用于识别误差信号的谐波频率；和一个复制模块，用于把由峰值检波器识别的峰值复制到较高频率范围中。

在另一方面中，本发明提供一种用于在接收机处处理一个窄带语音信号的系统。本系统包括一个上抽样器，其接收窄带语音信号并且增加抽样频率以便产生具有一个增加频谱的一个输出信号；一个参量频谱分析模块，其接收来自上抽样器中的输出信号并且分析该输出信号以便产生与一个语音模型和一个残留误差信号相关的参数；一个音调判断模块，其接收来自参量频谱分析模块中的残留误差信号并且产生表示该语音信号音调的一个音调信号和表示该语音信号是浊音语音或者是清音语音的一个指示信号；和一个残余扩展器和复制模块，其接收并处理该残留误差信号和该音调信号以便产生一个合成高频带信号分量。

附图说明

通过结合附图阅读下列详细说明书将理解本发明的目的和优点，附图中：

图1是说明根据本发明各个方面的接收机功能的一个示意叙述；

图2说明了浊音语音的一个典型频谱以及共振峰的粗略结构；

图3说明了一个典型的光频图；

图4是一个框图，其说明了根据本发明用于把合成信息加到窄带语音信号去的系统和方法的一个可仿效实施例；

图5说明了在图4中描述的一个可仿效残余扩展器和复制电路的一个框图；

图6是一个框图，其说明了根据本发明用于把合成信息加到窄带语音信号去的系统和方法的第二可仿效实施例；

图7说明了在图6中描述的一个可仿效残余扩展器和复制电路的一个框图；

图8是一个框图，其说明了根据本发明用于把合成信息加到窄带语音信号去的系统和方法的第三可仿效实施例；

图9是说明了根据本发明的一个可仿效残余的修改量的一个框图；

图10是说明了表示浊音的一个语音抽样的短时间自相关函数的一个曲线图；

图11是说明了表示浊音的一个语音抽样的平均幅度差值函数的一个曲线图；

图12是说明了一个AR模型转送函数可以被分开成两种转送函数的一个框图；

图13是一个曲线图，其说明了在把一个合成共振峰加到语音信号之前与后的语音信号的粗略结构；

图14是一个曲线图，其说明了在把一个合成共振峰加到语音信号之前与后的语音信号的粗略结构；和

图15是一个曲线图，其说明了有关于语音信号的不同参数的AR模型的频率响应曲线。

最佳实施方式

本发明提供对可以在接收机处实现的语音信号处理的改善。按照本发明的一个方面，使用接收语音信号的较低频率区域中的信息来合成较高频率区域中的语音信号的频率。本发明做出如下事实的有利使用：即，语音信号具有可以被外插到较高频率区域中的谐波含量。

本发明可以被使用于传统的有线线路中(即，固定的)电话系统或者使用于无线(即，移动)电话系统中。因为大多数的现有无线电话系统都是数字的，所以本发明可以在移动通信终端(例如，移动电话或其他通信设备)中被轻易地实现。图1提供了根据本发明的各个方面通过作为接收机的通信终端所执行功能的示意描写。一个编码语音信号被移动电话的天线110和接收机120所接收，被一个信道解码器130和一个声码器140所解码。来自声码器140中的数字信号是针对一个带宽扩展模块150，它根据接收语音信号中的信息合成语音信号的丢失频率(例如，较高频率区域中的信息)。增强的信号可以被发射给一个D/A转换器160，它把数字信号转换为可以被导向到扬声器170去的一个模拟信号。由于语音信号已经是数字的，所以在发射移动电话中已经完成了抽样。可是，应该理解，本发明不局限于无线网络；它通常可以被使用于所有的双向电话通信中。语音产生

通过背景，语言由控制声音系统的脑中的神经信号(neuromuscular signals)所产生。由声音系统产生的不同声音被称作音素(phonemes)，它们被合并以便形成字和/或句子。每一种语言都有它自己的音素组，并且某些音素存在于一种以上的语言中。

语音声音可以被区分为两种主要的类别：浊音和清音。浊音是在空气的准周期被声门释放时产生，声门是声带之间的开口。空气的这些猝发激发声域，产生一个浊音(即，“car”中的一个短“a”)。相反，清音是在通过声域中一个约束迫使的空气稳流时所产生。这种约束常常接近嘴部，使得空气变得狂暴并且产生一个类似噪音的声音(即，如“she”中的“sh”)。当然，存在具有浊音和清音的特性的那些声音。

有许多与语言模拟技术有关的各种特征。其中的这样一个特征是共振峰频率，它取决于声域的形状。声域的激励源也是一个有关的参数。

图2说明了以16kHz抽样频率抽样的浊音语音的频谱。粗略结构由虚线210来说明。三个第一共振峰由箭头表示。

共振峰是声域的谐振频率。它们形成语音频率频谱的粗略结构。共振峰取决于扬声器声域的特性来变化，即，是否它是长(典型的为男性)或者短(典型的为女性)。当声域的形状改变时，谐振频率也在频率、带宽和幅度方面改变。共振峰在音素期间连续地改变形状，但是突变在从一个浊音到一个清音转换时发生。具有最低谐振频率的三个共振峰对于抽样产生的话音很重要。可是，包括另外的共振峰(例如，第4和第5共振峰)增强了语音信号的质量。由于在窄带传输系统中实现的低抽样速率(即，8kHz)，所以较高频率的共振峰从编码语音信号中被省略，这导致一个较低的质量语音信号。共振峰常常用Fk来表示，在此，k是共振峰的数目。

存在两种类型的声域激励：脉冲激励和噪声激励。脉冲激励和噪声激励可以同时发生从而产生一个混合激励。

发源于声门中的空气猝发是脉冲激励的基础。声门脉冲取决于说话的声音和声带的压力。声门脉冲的频率被称为基频，常常表示为Fo。在两个连续猝发之间的周期是音调周期并且它的范围从语音的大约1.25ms到20ms，它对应于50Hz到800Hz之间的一个频率范围。音调只在声带振动时存在并且产生一个浊音(或混合激励声音)。

不同的声音产生取决于声域的形状。基频Fo是性别相关的，并且通常男性说话者比女性说话者较低。可以在作为很好的频谱结构的频域中观察音调。在绘制是时间和频率的一个函数的信号能量(通常由彩色亮度来表示)的一个频谱图中，音调可以作为水平细线被观测，如图3所述。这个结构表示音调频率以及发源于基频的它的高阶谐波。

当清音产生时，激励源表示噪音。噪声由经过声域中(常常是在口腔中)一个压迫的空气稳流而产生。当空气流传递该压迫时，它变得狂暴，并且产生一个噪声声音。依靠产生的音素类型，压迫位于不同的位置。由于几乎相等空出的峰值的缺乏，细致的频谱结构与一个浊音不同。可仿效语音信号增强电路

图4说明了根据本发明用于把合成信息加到窄带语音信号的一个系统和方法的一个可仿效实施例。可以把合成信息加到一个窄带语音信号以便扩展再生的频带，从而提供改良的再生感觉语音质量。参见图4，由接收机(例如，一个移动电话)接收的一个输入话音或语音信号405首先被上抽样器410进行上抽样以便增加接收信号的抽样频率。在优选实施例中，上抽样器410可以把接收信号上抽样一个因子二(2)，但是应该理解，也可以应用其他上抽样因子。

上抽样信号被一个参量频谱分析模块420分析从而确定接收语音信号的共振峰结构。由参量频谱分析单元420执行的特定类型的分析可以变化。在一个实施例中，一个自动回归(AR)模型可用来估计模拟参数，如下所述。可替代地，一个正弦曲线模型可以被使用在参量频谱分析单元420中，例如，在作者为Deisher和Spanias、标题为“Speech Enhancement Using State-based Estimation andSinusoidal Modeling”(使用基于状态的估计和正弦曲线模拟的语音增强)的文章中所述，其公开在此被参考结合。在任一情况中，参量频谱分析单元420输出描述接收语音信号的参数，(即，与使用在其中的特定模型相关的值)，以及一个误差信号(e)424，它表示与参量频谱分析单元420的接收语音信号的估计相关的预测误差。

误差信号(e)424被音调判断单元430使用来估计接收语音信号的音调。音调判断单元430例如能够基于误差信号中的瞬态之间的距离来确定音调。这些瞬态是当产生浊音时由声门产生的脉冲结果。音调判断单元430还要确定接收信号的语音内容是否表示一个浊音或者一个清音，并且产生一个表示它的信号。由音调判断单元430作出的关于作为浊音或清音的接收信号特性的判定可以是一个双择判定或者一个表示浊音信号或一个清音信号的相对概率的软判定。

音调信息和一个表示不论接收信号是一个浊音或一个清音的信号从音调判断单元430被输出到残余扩展器和复制单元440。如下关于图5所述，残余扩展器和复制单元440从接收窄带语音信号中提取信息，(例如，在0到4kHz范围内)并且使用提取信息来移到一个较高频率范围，(例如，4kHz-8kHz)。结果然后被转送给一个合成滤波器450，它把以从参量频谱分析单元420输出的参数为基础的较低频率范围和以残余扩展器和复制单元440的输出为基础的较高频率范围进行合成。合成滤波器450例如是用于AR模型的一个相反的滤波器。可替代地，合成滤波器450可以是以正弦曲线模型为基础的。

还可以通过把合成滤波器450的输出提供到一个线性时间不同的(LTV)滤波器460来放大感兴趣频率范围的一部分。在一个可仿效实施例中，LTV滤波器460可以是一个无限脉冲响应(IIR)滤波器。虽然可以使用其它类型的滤波器，但是具有不同极的IIR滤波器特别适合于模拟话音域。可以基于关于合成共振峰(或多个共振峰)应该被布置在合成语音信号内的判定来适合LTV滤波器460。通过确定单元470根据接收语音信号的音调以及从参量频谱分析单元420输出的参数根据这些值的线性或非线性的组合、或者基于储存在查询表中并根据得出的语音模型参数和确定音调被标引的值来进行此判断。

图5描述残余扩展器和复制单元440的一个可仿效实施例。其中，来自参量频谱分析单元420中的残留误差信号(e)424被输入给一个快速傅里叶变换(FFT)模块510。FFT单元510把误差信号转换成为频域用于由复制单元530操作。复制单元530，在峰值检波器520的控制之下，从残留误差信号(e)424中选择信息，其可用于驻留至少一部分的激励信号。在一个实施例中，，峰值检波器520可以识别窄带语音信号的残留误差信号(e)中的峰值或谐波。峰值可以被复制模块530复制到高频带。可替代地，峰值检波器520能够识别在窄带语音信号中找到的峰值数目的一个子集，(例如，第一峰值)，并且使用由音调判断单元430识别的音调周期来计算由复制单元530复制的另外峰值的位置。由于在语音段表示一个清音时峰值检测和复制被合成清音的高频带语音内容替换，所以表示被抽样窄带信号是浊音或清音的那个信号还被提供给峰值检波器520。

清音语音内容由语音内容单元540产生。合成清音高频带语音内容能够以许多不同的方式被创建。例如，一个线性回归取决于语音参数并且音调可以被执行来提供合成清音高频带语音内容。作为一种替换，一个相关的存储模块可以包括一个查询表，其提供与来自模型和确定音调中的语音参数相关的输入值相应的合成高频带清音语音内容。来自残留误差信号中的复制峰值信息和合成清音高频带语音内容被输入到合并模块560。合并单元560允许复制单元530和合成清音高频带语音内容单元540的输出在被FFT单元570转换回时域之前被加权并一起被总计。加权值可以由增益控制单元550来调整。增益控制模块550确定输入频谱的均匀性，并且使用此信息和来自音调判断模块430中的音调信息，调整与合并单元120相关的增益。作为加权算法的一部分，增益控制单元550还接收指示该语音段表示浊音或清音的那个信号。如上所述，这个信号可以是二进制或者“软”信息，其提供被处理的接收信号段是浊音或清音的可能性。

图6说明了用于把一个合成语音共振峰加到接收信号的较高频率范围去的系统和方法的另外一个可仿效实施例。图6中描述的实施例类似于图4中描述的实施例，除了残余扩展器和复制模块640提供仅仅基于来自接收信号窄带部分中的信息的一个输出之外。这个残余扩展器和复制模块640的一个可仿效实施例如图7所述，并且在下面被描述。如果音调判断单元430确定感兴趣的一个特定段表示一个清音，则它控制开关635来选择直接用于输入到合成滤波器450的残留误差(e)信号。相反，如果音调判断模块630确定存在一个语音信号，那么开关635被控制来连接到残余扩展器和复制单元440的输出如此以便确定较高频率内容。一个放大滤波器660对合成滤波器450的输出进行操作以便增加期望抽样频率的一个预确定部分中的增益。例如，放大滤波器660可以被设计来增加从2kHz到8kHz频带的增益。通过模拟在此所述的各种合成语音共振峰的再生，滤波器极对例如可以被最佳化在半径为0.85和角度为0.58π的邻近区域中。

图7提供使用在图6的可仿效实施例中的一个残余扩展器和复制单元640的示例。在此，残留误差信号(e)再一次被FFT单元710转变成频域。峰值检波器720识别与残留误差信号(e)的频域形式相关的峰值，其然后被复制模块730复制并被FFT模块740转换成为时域。正如在图5的可仿效实施例中，峰值检波器620可以独立地检测每一峰值或者峰值的一个子集，并且能够基于确定的音调来计算残余峰值。A对本领域技术人员来说很明显，当与图5中的实施相比较时，残余扩展器和复制模块的这个特定实施多少被简化，因为它不试图把清音合成在较高频带语音内容中。

图8是根据本发明用于把一个合成语音共振峰加到一个较高频率范围的接收信号去的系统和方法的另一可仿效实施例的示意描写。由x(n)表示的一个窄带语音信号被导向到一个上抽样器810以便获得具有一个增加抽样频率(例如为16kHz)的一个新信号s(n)。应当指出，n是抽样数。T被上抽样的信号s(n)被导向到一个分段模块820，该分段模块820把包括信号s(n)的抽样组集中到一个向量(vector)(或缓存器)中。

例如可以使用一个AR模型来估计共振峰结构。例如可以使用一个线性预测算法来估计模型参数ak。线性预测模块840接收上抽样信号s(n)和由分段模块820产生的抽样向量作为输入，并且计算预测器多项式ak，如下所述。A线性预测编码(LPC)模块830使用反向多项式来预知导致残余信号e(n)的信号s(n)，预测误差。通过用残余信号e(n)激励AR模型来重建原始信号。

信号还要被扩展到频带的上部。为了激励该扩展信号，残余信号e(n)被残余调节器模块860扩展，并被导向到一个合成器模块870。另外，一个新的共振峰模块850估计共振峰在较高频率范围中的位置，并且把这个信息转发给合成器模块870。合成器模块870使用LPC参数、扩展的残余信号以及由新的共振峰模块850提供的扩展模型信息来产生从该系统中输出的宽带语音信号。

图9说明了一种用于把残余信号扩展到较高频率区域中的系统，其可以符合在图8中描述的残余调节器模块860。T残余信号e_i(n)被导向到音调估计模块910，其例如基于误差信号中的瞬态之间的距离来确定音调并且产生代表它的一个信号912。音调估计模块910还要确定接收信号的语音内容是否是一个浊音或者一个清音，并且产生表示它的一个信号。由音调估计模块910关于作为浊音或清音的接收信号的特性而作出的判断可以是一个双择判断或者是表示一个相对概率(信号表示一个浊音或一个者清音)的一个软判断。残余信号ei(n)还被引导到第一FFT模块920来被转变成频域，以及被引导到一个开关950。第一FFT模块920的输出被导向到把信号修改为宽带格式的一个调节器模块930。T调节器模块930的输出被导向到一个反FFT(IFFT)模块940，其输出被导向到开关950。

如果音调估计模块910确定感兴趣的一个特定分段表示一个清音，那么它控制开关950来选择直接用于输入到合成器870去的残留误差(e)。相反，如果音调估计模块910确定该分段表示一个浊音，那么开关950被控制来连接到调节器模块930和IFFT模块940的输出，如此以致较高频率内容从而被确定。来自开关950中的输出例如可以被引导到合成器870用于进一步处理。

如图8和图9中所述的系统可用来实现驻留于高频带的两个方法。在第一个方法中，调节器930通过把低频带残余信号部分复制到高频带来在高频带中产生谐波峰值。可以通过在频谱中找到超出平均频谱的基波峰值和与频率内的电话频带相应的上一峰值来对准谐波峰值。在前后峰值之间的部分可以被复制到上一峰值的位置。这导致在高频带中同样空出的峰值。虽然这种方法可能不会使峰值达到频谱的末端(8kHz)，但是该技术能够被重复直到已经达到频谱的末端。

此过程的结果在图13中被描述，它基本上反映了在高频带中同样空出的峰值。因为在4.6kHz附近地区中只有一个合成共振峰被附加，所以这里没有能够被在大约6kHz上的谐波激励的共振峰模型。这种方法不在最终合成语音中产生任何人造品。取决于附加在AR模型计算中的噪声数量，被扩展的频谱部分可能需要用随增加频率而衰减的一个函数来加权。

在第二种方法中，调节器模块930使用音调周期来把新的谐波峰值定位在正确位置中。通过使用估计的音调周期，可计算谐波在较高频带中的位置，因为谐波被认为是多个基频。此方法使其能够产生与较高频带中的高次谐波相应的峰值。

在全球移动通信系统(GSM)中，在移动电话和基站之间的传输是按照抽样字块的形式而被执行的。在GSM中，字块由相应于20ms语音的160个抽样组成。GSM中的字块尺寸假定语音是一个准稳定的信号。本发明可以适合于符合GSM抽样结构，因此使用相同的字块尺寸。一个抽样字块被称作一帧。在上抽样之后，帧长度将成为320个抽样并且用L表示。语音产生的AR模型

模拟语音信号的一种方法是：假定从已经经过一个滤波器的白噪声源中已经产生了信号。如果滤波器只由极组成，则该过程被称作一个自动回归过程。当假定短时稳态时，此过程可能通过下列差分方程来描述。

s_{i} (n) = Σ_{k = 1}^{p} a_{ik} s_{i} (n - k) + w_{i} (n) - - - - - - (1)

在此，w_i(n)是有单位方差的白噪声，s_i(n)是该过程的输出而p是模型排序。s_i(n-k)是该过程的旧输出值而a_ik是相应的滤波器系数。下标i被用来指示该算法是以处理时间变化数据字决为基础的，在此i是字块编号。该模型假定在当前字块中期间信号是稳定的。在z域中相应的系统函数可以被表示为：

H_{i} (z) = \frac{1}{1 - Σ_{k = 1}^{p} a_{ik} z^{- k}} = \frac{1}{A_{i} (Z)} - - - - - - (2)

在此H_i(z)是系统的转送函数而A_i(z)被称作预测值。该系统只由极组成并且不完全地模拟语音，但是已经说明当声音设备近似作为一个较小损耗的管级联时，转送函数将与AR模型匹配。AR模型的系统函数的倒数，一个全零函数为：

\frac{1}{H_{i} (z)} = 1 + Σ_{k = 1}^{p} a_{ik} z^{- k} = A_{i} (Z) - - - - - - (3)

它被称作预测滤波器。这是从[si(n)，...，Si(n-p+1)的上一次p+1值而来的s_i(n+1)的一步预测。从信号s_i(n)中减去的称为的预测信号产生预测误差e_i(n)，它有时被称为残余。即使这个近似未完成，它也提供有关语音信号的有价值的信息。在该模型中鼻腔和鼻孔已经被省略。如果AR模型的阶被选择为十分高，那么AR模型将提供语音信号的一个有用近似。窄带语音信号可以用一个八(8)阶来模拟。

AR模型可用于在短期基础上模拟语音信号，即，典型的10-30ms的持续时间段，在此，语音信号被认为是稳定的。AR模型估计一个具有近似语音信号s_i(n)的脉冲响应的全极滤波器。脉冲响应

是系统函数H(z)的反z变换。在模型和语音信号之间的误差，e(n)能因此被定义为

e_{i} (n) = s_{i} (n) - {\hat{s}}_{i} (n) - {\hat{s}}_{i} (n) - s_{i} (n) - Σ_{k = 1}^{p} a_{ik} (i) s_{i} (n - k) - - - - - (4)

这里有好几种方法用于寻找AR模型的系数，a_ik。自相关方法产生系数，其最小化

ϵ (i) = Σ_{n = 0}^{L + p - 1} {| e_{i} (n) |}^{2} - - - - - (5)

在此L是数据长度。总和起始于零而结束于L+p-1。这假定数据是L个可用数据之外的零并且通过把s_i(n)乘以一个矩形窗口而被完成。把导致解决一组线性方程的误差函数最小化

在此，r_si(k)表示窗口数据(n)的自相关而a_ik是AR模型的系数。

方程式6可以按照好几种不同的方法来解答，一种方法是Levinson-Durbin递归，它是以系数矩阵是Toeplitz的事实为基础的。如果每个对角线中的元素有相同的数值的话，则一个矩阵是Toeplitz。此方法很快速并且既产生滤波器系数aik又产生反射系数。当利用一个点阵结构来实现AR模型时，反射系数被使用。当在定点环境(其经常是移动电话中的情况)中实现一个滤波器时，应该考虑滤波器系数量化的不灵敏性。点阵结构点阵结构对这些影响是迟钝的并且因此比直接形式实施更适合。用于找到反射系数的更有效方法是Schur的递归，它只产生反射系数。音调确定

在音调周期可以被估计之前，语音段性质必须被确定。在下面描述的预测器导致一个残余信号。分析残余语音信号能够显示该语音段表示一个浊音还是一个清音。如果语音段表示一个清音，那么残余信号将类似噪声。相反，如果残余信号由一串脉冲组成，那么它可能表示一个浊音。可以以许多方法来实行此分类，并且因为音调周期也需要被确定，所以同时能够估计两者的一种方法是优选的。这样的一个方法是以如下被定义的残余信号的短时间标准自动相关函数为基础的：

R_{ie} (l) = \frac{1}{R_{ie} (0)} Σ_{n = 0}^{L - 1 - 1} e_{i} (n) e_{i} (n + l) - - - - - (7)

在此，n是具有标引i的帧中的抽样数，而1是偏移。当R_ie(1)的最大值在音调范围之内并且超出一个门限值时，语音信号被分类为浊音。语音的音调范围是50-800Hz，它对应20-320抽样范围中的1。图10示出了一个浊音帧的短时间自相关函数。一个峰值在偏移72周围清楚可见。峰值在多倍基频处也是可见的。

适合于分析残余信号的另一算法是平均幅度差值函数(AMDF)。这种方法有一个相对低的计算复杂性。这种方法也使用残余信号。AMDF的定义为：

{AMDF}_{i} (l) = \frac{1}{L} Σ_{n = 0}^{L - 1} | e_{i} (n) - e_{i} (n - l) | - - - - - - (8)

此函数在与音调周期相应的偏移处具有一个本地最小值。当本地最小值的数值低于一个可变门限时，该帧被分类为浊音。此方法至少需要两个音调周期的一个数据长度来估计音调周期。图11示出了一个浊音帧的AMDF函数的曲线，可以看到好几个本地最小值。音调周期大约是72个抽样，这意味着当抽样频率是16kHz时基频是222Hz。增加一个合成共振峰

增加合成谐振频率的各种方法已经被估计。所有这些方法用一个滤波器模拟合成共振峰。AR模型具有一个如下形式的转送函数：

H_{i} (z) = \frac{1}{1 - Σ_{k = 1}^{p} a_{ik} z^{- k}} - - - - - - (9)

它可以再用形式被表示为

H_{i} (z) = \frac{1}{(1 - Σ_{k = 1}^{p - 2} a_{ik}^{1} z^{- k})} - \frac{1}{1 + a_{i (p - 1)}^{1} z^{- 1} + a_{i 1}^{1} z^{- 2}} = H_{i 1} (z) \cdot H_{i 2} (z) - - - (10)

在此a_ik表示两个新的AR模型系数。正如图12中所说明的，一个滤波器能够被分成两个滤波器。H_i1(z)表示从电流语音段中计算出的AR模型而H_i2(z)表示新的合成共振峰滤波器。

在一个方法中，合成共振峰(组)由一个复共扼极对(complexconjugate pole pair)来表示。转送函数H_i2(z)然后可以被下列方程式定义：

H_{i 2} (z) = \frac{b_{0}}{1 - 2 v \cos (ω_{s}) + v^{2}} - - - (11)

在此，υ是半径而ω₅是极的角度。参数b₀可用来设置滤波器放大系数的基本级。放大系数的基本级可以被设置为1以避免影响低频信号。这可以通过把b₀设置等于Hi2(z)分母中的系数总和来达到。合成共振峰能够以半径为0.85并且角度为0,58π来被设置。参数b₀然后将是2.1453。如果此合成共振峰被加到窄带语音信号上估计的AR模型，那么结果的转送函数将不合有一个显著的合成共振峰峰值。取而代之的是，AFA功能转送函数将升高频率在范围2.0-3.4kHz中。合成共振峰不显著的原因是由于AR模型中大的幅度电平差，通常为60-80dB。增强修改的信号以使共振峰达到一个精确的幅度电平减少了共振峰带宽并且把低频带中的较高频率放大了一些dB。这在图13中被说明其中，虚线1310表示增加一个合成共振峰之前的粗略频谱结构。实线1320表示在增加一个合成共振峰之后的频谱结构，它在大约4.6kHz处产生一个小峰值。

因此，使用一个复共扼极对的一个共振峰滤波器使得难以让共振峰滤波器表现类似一个普通共振峰。如果在AR模型参数的估计之前高通带滤波器白噪声被加到话音信号上，那么AR模型将模拟噪声和语音信号。如果AR模型的阶保持不变(例如，阶八)，则某些共振峰可能被不充分估计。当AR模型的阶被增加以使它可以模拟较高频带中的噪声而不妨碍低频带语音信号的模拟时，获得一个更好的AR模型。这将使合成共振峰出现更像一个普通共振峰。这在图14中被说明其中，虚线1410表示增加一个合成共振峰之前的粗略频谱结构。实线1420表示在增加一个合成共振峰之后的频谱结构，它在大约4.6kHz处产生一个小峰值。

图15说明了在对语音信号增加噪声与没有对语音信号增加噪声所计算出的AR模型之间的区别。参见图15，实线1510表示确定为第十四阶的窄带语音信号的一个AR模型。虚线1520表示确定为第十四阶并用高通滤波器噪声补充的窄带语音信号的一个AR模型。虚线1530表示确定为第八阶的窄带语音信号的一个AR模型。

解决这问题的另一方法是使用一种更复杂的共振峰滤波器。滤波器可以由好几个复共扼极对和零来构成。使用一个更复杂的合成共振峰滤波器增加了控制滤波器中极半径以及实行有关滤波器的其他要求(比如获得在低频处的单位增益)的难度。

为了控制合成共振峰滤波器的极半径，滤波器应该保持简单。在现有的较低频率共振峰和新的合成共振峰的半径之间的一个线性相关性可以根据如下来确定：

υ₁α₁+υ₂α₂+υ₃α₃+υ₄α₄＝υ_ω5 (12)

在此，υ₁υ₂υ₃和υ₄是来自窄带语音信号中的AR模型中的共振峰半径。参数α_m，m＝1，2，3，4是线性系数。参数υ_ω5是宽带语音信号的AR模型的合成的第五共振峰的半径。如果好几个AR模型被使用，那么方程式12可以可以表示成：

[\begin{matrix} r_{11} & r_{12} & r_{13} & r_{14} \\ r_{21} & r_{22} & r_{23} & r_{24} \\ ._{.}^{.} & ._{.}^{.} & ._{.}^{.} & ._{.}^{.} \\ r_{k 1} & r_{k 2} & r_{k 3} & r_{k 4} \end{matrix}] [\begin{matrix} α_{1} \\ α_{2} \\ α_{3} \\ α_{4} \end{matrix}] = [\begin{matrix} r_{15 w} \\ r_{25 w} \\ ._{.}^{.} \\ r_{k 5 w} \end{matrix}] - - - - - (13)

在此，υ是共振峰半径并且第一标引表示AR模型编号，第二标引表示共振峰编号而最右边向量中的第三标引w表示来自宽带语音信号中被估计的共振峰，并且k是AR模型的编号。这些方程式的这个系统由多种因素确定并且可以借助于伪倒置计算出最小平方解决方案。所获得的解决方案然后被用于计算新的合成共振峰的半径为：

{\hat{v}}_{i 5} = r_{i 1} α_{1} + r_{i 2} α_{2} + r_{i 3} α_{3} + r_{i 4} α_{4} - - - - - (14)

在此，υ_i5是新的合成共振峰半径并且α参数是方程式系统13的解决方案。在上面参考特定实施例描述了本发明，并且对本领域技术人员来说很明显，可按照除上述的优选实施例之外的其他具体形式来把本发明具体表达。在上面描述的详细实施例只是说明性的并且不应该以任何方式被认为是限定的。本发明的范围由随后的权利要求来确定，并且落在权利要求之内的所有变化和等价物意指包含在其中。

Claims

1.一种用于处理语音信号的方法，该方法包括如下步骤：

分析一个接收窄带信号以便确定合成的高频带内容；

使用所述接收窄带信号再生所述语音信号的一个低频带；和

把所述再生的低频带与确定的合成的高频带进行合并以便产生一个具有合成分量的宽带语音信号。

2.如权利要求所述的方法，其中，所述接收窄带信号提供在大约0-4kHz范围内的信息内容并且所述合成的高频带内容是在大约4-8kHz范围内。

3.如权利要求1所述的方法，其中，分析步骤还包括如下步骤：

对接收窄带信号执行一个频谱分析以便确定与语音模型和残留误差信号相关的参数；

确定与残留误差信号相关的一个音调；

识别与接收窄带信号相关的峰值；和

根据确定的音调和识别的峰值中的至少一个把来自接收窄带信号中的信息复制到一个高频带中以便提供合成的高频带内容。

4.如权利要求3所述的方法，其中，执行频谱分析的步骤使用一个AR预测器。

5.如权利要求4所述的方法，其中，执行频谱分析的步骤使用一个正弦曲线模型。

6.如权利要求1所述的方法，还包括选择性地放大所述宽带信号的一个预确定频率范围的步骤。

7.如权利要求1所述的方法，还包括把所述宽带信号转换为一个模拟格式的步骤。

8.如权利要求7所述的方法还包括如下步骤：对所述宽带信号进行放大。

9.一种用于处理语音信号的系统，包括：

装置，用于分析一个接收窄带信号以便确定合成的高频带内容；

装置，用于使用所述接收窄带信号再生所述语音信号的一个低频带；和

装置，用于把所述再生的低频带与确定的合成的高频带进行合并以便产生一个具有合成分量的宽带语音信号。

10.如权利要求9所述的系统，其中，用于分析一个接收窄带信号以便确定合成的高频带内容的装置包括：

一个参量频谱分析模块，用于分析窄带信号的共振峰结构并且产生描述该窄频带语音信号的参数和一个误差信号；

一个音调判断模块，用于确定由窄带信号表示的声音段的音调；和

一个残余扩展器和复制模块，用于处理从窄带语音信号中得到的信息并产生一个合成的高频带信号分量。

11.如权利要求10所述的系统，其中，所述残余扩展器和复制模块包括：

一个快速傅里叶变换模块，用于把来自参量频谱分析模块中的误差信号转换成为频域；

一个峰值检波器，用于识别误差信号的谐波频率；和

一个复制模块，用于把由峰值检波器识别的峰值复制到较高频率范围中。

12.如权利要求11所述的系统，其中，所述残余扩展器和复制模块还包括：

一个用于产生合成的清音语音内容的模块。

13.如权利要求12所述的系统，其中，所述残余扩展器和复制模块还包括：

一个合并器，用于把来自复制模块中的一个输出信号和来自用于产生合成的清音语音内容的模块中的一个输出进行合并。

14.如权利要求13所述的系统，其中，所述残余扩展器和复制模块还包括：

一个增益控制模块，用于把合并器中的输入信号加权。

15.如权利要求13所述的系统，其中，所述残余扩展器和复制模块还包括：

一个快速傅里叶变换模块，用于把来自所述参量频谱分析模块中的误差信号从频域转换成为时域。

16.如权利要求9所述的系统，其中，使用接收窄带信号来用于再生所述语音信号的一个低频带的装置包括：

一个参量频谱分析模块，用于分析所述窄带信号的共振峰结构并且产生描述所述窄带语音信号和一个误差信号的参数；和

一个合成滤波器。

17.一种用于在接收机处处理一个窄带语音信号的系统，包括：

一个上抽样器，其接收窄带语音信号并且增加抽样频率以便产生具有一个增加频谱的一个输出信号；

一个参量频谱分析模块，其接收来自上抽样器中的输出信号并且分析该输出信号以便产生与一个语音模型和一个残留误差信号相关的参数；

一个音调判断模块，其接收来自参量频谱分析模块中的残留误差信号并且产生表示该语音信号音调的一个音调信号和表示该语音信号是浊音语音或者是清音语音的一个指示信号；和

一个残余扩展器和复制模块，其接收并处理该残留误差信号和该音调信号以便产生一个合成的高频带信号分量。

18.如权利要求17所述的系统，还包括：

一个合成滤波器，其接收来自所述参量频谱分析模块中的参数以及从残留误差信号中得到的信息，并且产生与所述窄带语音信号对应的一个宽带信号。

19.如权利要求17所述的系统，其中，来自所述音调判断模块中的指示信号控制连接到所述合成滤波器一个输入端的一个开关，如此以致如果所述指示信号表示该语音信号表示浊音语音时，那么合成滤波器的输入被连接到残余扩展器和复制模块的输出，并且如果指示信号指示所述语音信号表示清音语音，那么合成滤波器的输入被连接到从所述参量频谱分析模块中输出残留误差信号。