CN1768375A

CN1768375A - 语音信号压缩设备、语音信号压缩方法和程序

Info

Publication number: CN1768375A
Application number: CNA2004800086632A
Authority: CN
Inventors: 佐藤宁
Original assignee: Kenwood KK
Current assignee: Lotte Group Co ltd
Priority date: 2003-03-28
Filing date: 2004-03-26
Publication date: 2006-05-03
Anticipated expiration: 2024-03-26
Also published as: DE04723803T1; US7653540B2; US20060167690A1; KR101009799B1; JP2004294969A; EP1610300B1; DE602004015753D1; JP4256189B2; EP1610300A1; WO2004088634A1; KR20050107763A; EP1610300A4; CN100570709C

Abstract

本发明提供了一种用于去除必然混杂在语音中的噪声的语音信号噪声去除设备和具有类似功能的设备。间距分析部分(2)决定语音间距成分各频率的修正后的移动平均值，该语音是由语音输入部分(1)获得的原始语音信号所表示的。可变滤波器(3)通过从原始语音信号成分中去除由间距分析部分(2)所确定的修正后的移动平均值及其附近之外的成分，以提取该间距成分。绝对值检测部分(4)确定该间距成分的绝对值，并且低通滤波器(5)对表示所获得的绝对值的信号进行滤波以生成增益调整信号。随后，通过由增益调整信号的值所确定的增益，由增益调整部分(7)对由延迟部分(6)调整了时点的原始语音数据进行放大或减弱并输出。

Description

语音信号压缩设备、语音信号压缩方法和程序

技术领域

本发明涉及一种语音信号压缩设备、语音信号压缩方法和程序。

背景技术

本发明涉及一种语音信号压缩设备、语音信号压缩技术和程序。

近来，用于将文本数据和其他类似的数据转化为语音的语音合成方法已经应用在例如汽车导航领域中。

在语音合成中，例如，需要识别包含在文本数据中的词语、短语和短语中的演变关系，并且根据所识别出的词语、短语和演变关系识别读取句子的方式。随后，根据由所识别出的读取方式表示的音标顺序决定组成语音的音素的波形、持续时间和间距(pitch)(基频)型态。接着，根据该决定的结果决定表示包括日文汉字和假名的整个句子的语音波形，并且输出具有该决定的波形的语音。

在前文提及的语音合成方法中，在一语音字典(speech dictionary)中搜索以识别语音波形，该语音字典已经积累了表示语音波形或者语音频谱分布的语音数据。为了使合成的语音自然逼真，在该语音字典中需要积累大量的语音数据。

另外，当在需要缩小尺寸的设备上应用该方法的时候，例如汽车导航设备，通常需要缩小存储设备的尺寸，该存储设备用于存储由该设备使用的语音字典。当缩小了存储设备的尺寸时，不可避免地会减小存储容量。

因此，为了使包含有足够数量的语音数据的语音字典能够存储在具有小存储容量的存储设备中，已经使用了语音数据的数据压缩(方法)，以减小语音数据的数据容量。(参见，例如，国际专利申请的国家公布No.2000-502539)

发明内容

尽管，当应用熵编码(entropy coding)方法对表示由人发出的语音的语音数据进行压缩的时候——该熵编码方法是一种根据数据的规律性压缩数据的方法(特别是，算术编码，霍夫曼编码和其他类似的编码方法)——由于作为一个整体，语音数据不需要具有清晰的周期性，因而压缩效率低下。

即，如图11(A)所示，例如，人发出的语音的波形由显示具有各种时长的规律性的区间和不具有清晰的规律性的区间组成。也很难从这样的波形的频谱分布中找到清晰的规律性。因此，如果对表示由人发出的语音的全部语音数据进行熵编码，则压缩效率是很低的。

此外，如图11(B)所示，例如，当在时间长度的规则时间间隔处对语音数据进行分割的时候，通常分割时点(图11(B)中标记为“T1”的时点)与两个相邻音素(图11(B)中标记为“T0”的时点)之间的分界线不一致。因此，很难找到对于所有单独分割的部分通用的规律性(例如，图11(B)中标记为“P1”和“P2”的部分)，并且因此，这些部分的每一个的压缩效率也是低下的。

此外，间距波动也是一个问题。间距容易被人的情绪或意识所影响。间距在某种程度上可以被视为恒定的周期，但是实际上，会发生微小的波动。因此，当同一个讲话者发出相应于多个间距的同一词语(音素)时，间距长度通常不是恒定的。因此，表示一个音素的波形通常不会显示出精确的规律性，并且因此使用熵编码压缩的效率通常是较低的。

本发明是在考虑了上述情况后完成的，并且它的目标是提供一种语音信号压缩设备、语音信号压缩方法和程序，用以能够实现对于表示语音的数据的数据容量的高效压缩。

为了实现上述目的，根据本发明第一方面的语音信号压缩设备，其特征在于：包括依音素划分的装置，用于获取语音信号，该语音信号表示了将要压缩的语音波形，并将所述语音信号划分为表示各单独音素波形的各部分；

滤波器，用于对划分的语音信号进行滤波以提取间距信号；

相位调整装置，用于根据所述滤波器提取的间距信号将语音信号分割为各部分，并对每一个部分，根据与间距信号的相关性关系对相位进行调整；

采样装置，用于对由所述相位调整装置调整过相位的每个区间，根据所述相位确定采样长度，并根据所述采样长度进行采样，以生成采样信号；

语音信号处理装置，用于根据相位调整装置调整的结果和采样长度的值，将所述采样信号处理成为间距波形信号；

子带数据生成装置，用于根据所述间距波形信号生成子带数据，所述子带数据表示了每个音素的频谱分布随时间的变化；以及

依音素压缩的装置，用于根据针对由所述子带数据表示的音素而设定的预定条件进行所述子带数据的数据压缩。

依音素压缩的装置可以由以下各部分构成：可重写地储存表的装置，用于可重写地存储表，所述表设定了要对表示各个音素的所述子带数据进行数据压缩的条件；以及，进行所述子带数据的数据压缩的装置，用于根据所述表所设定的条件，对表示每个音素的所述子带数据进行数据压缩。

依音素压缩的装置可以通过对数据进行非线性量子化处理，对表示每个音素的所述子带数据进行数据压缩，以达到满足针对所述音素而设定的条件的压缩比率。

可以为子带数据的每个频谱成分设定优先级；以及以用高分辨率对具有高优先级的频谱成分进行量子化处理的方式，通过对子带数据的每个频谱成分进行量子化，所述依音素压缩的装置执行对子带数据的数据压缩。

依音素压缩的装置可以通过改变子带数据对子带数据进行数据压缩，以显示在删除了预定频谱成分之后的频谱分布。

根据本发明的第二方面的语音信号压缩设备，其特征在于包括：

语音信号处理装置，用于获取表示语音波形的语音信号，并且通过使由分割语音信号所获得的多个区间的相位实质上均等，将所述语音信号处理成为间距波形信号，所述多个区间中的每一个都相应于该语音的单位间距；

子带数据生成装置，用于根据所述间距波形信号生成所述子带数据，所述子带数据表示每个音素的频谱分布随时间的变化；以及

依音素压缩的装置，用于根据针对由该部分所表示的音素而设定的预定的条件，对表示所述子带数据的单独音素的每一部分进行数据压缩。

根据本发明的第三方面的语音信号压缩设备，其特征在于包括：获得表示语音波形或者表示语音频谱分布随时间的变化的信号的装置；以及，根据针对由所述部分所表示的音素而设定的预定的条件，对表示所述获得信号的单独音素的每个部分进行数据压缩的装置。

根据本发明的第四方面的语音信号压缩方法，其特征在于：包括获取表示语音波形或语音频谱分布随时间的变化的信号；以及根据针对由所述部分所表示的音素而设定的预定的条件，对表示所述获取信号的单独音素的每个部分进行数据压缩。

根据本发明的第五方面的程序，其特征在于该程序使计算机具有如下功能：获取表示语音波形或表示语音频谱分布随时间变化的信号；以及

根据针对由所述部分所表示的音素而设定的预定的条件，对表示所述获取信号的单独音素的每个部分进行数据压缩。

附图说明

图1示出了根据本发明的第一实施例的语音数据压缩器的配置的框图；

图2(A)示出了优先级数据的数据结构的图表，以及图2(B)以曲线图的形式示出了优先级数据；

图3示出了压缩比率数据的数据结构的图表；

图4示出了图1中语音数据压缩器的操作流程的前半部分的图表；

图5示出了图1中语音数据压缩器的操作流程的后半部分的图表；

图6示出了音素标记数据的数据结构的图表；

图7(A)和(B)示出了相移前语音数据波形的图表，以及图7(C)示出了相移后语音数据波形的图表；

图8(A)是示出了图1或图9中的间距波形数据划分器对图11(A)中的波形进行分割的时点的图表，图8(B)是示出了图1或图9中的间距波形数据划分器对图11(B)中的波形进行分割的时点的图表；

图9是示出了根据本发明的第二实施例的语音数据压缩器的配置的框图；

图10是示出了图9中的间距波形提取部分的配置的框图；以及

图11(A)示出了人发出的语音波形的例子的图表，以及图11(B)是用于说明现有技术中分割波形的时点的图表。

具体实施方式

现在将参考附图描述本发明的各实施例。

(第一实施例)

图1示出了根据本发明的第一实施例的语音数据压缩器的配置。如图所示，该语音数据压缩器配置有用于读取记录在记录介质上(例如，软盘，CD-R(光盘刻录机)或其他介质)的数据的记录介质驱动器SMD(软盘驱动器和CD-ROM驱动器和类似的驱动器)和连接到该记录介质驱动器SMD的计算机C1。

如图中所示，计算机C1由以下部分组成：由CPU(中央处理单元)、DSP(数字信号处理器)或其他类似的设备构成的处理器，由RAM(随机存储存储器)或其他类似的存储器构成的易失性存储器，由硬盘或其他类似的存储器构成的非易失性存储器，以及由键盘或其他类似的输入设备构成的输入部分，由液晶显示器或其他类似的显示器构成的显示部分，由USB(通用串行总线)接口电路或其他接口电路构成的串行通讯控制部分，用于控制与外界的串行通讯，以及其他类似的配置。在计算机C1中，预先存储了语音数据压缩程序。通过运行该语音数据压缩程序，完成将在下文中描述的各操作过程。

在计算机C1中，以根据操作者的操作可以重新写入的方式存储压缩表。压缩表包括优先级数据和压缩比率数据。

该优先级数据是用于为语音数据的每个频谱成分设定量子化分辨率(quantization resolution)高低(height)的数据，其中该语音数据要由计算机C1根据语音数据压缩程序进行处理。

特别地，优先级数据仅需要具有图2(A)中示出的数据结构。可选地，例如它可以由示出在图2(B)中的曲线图所显示的数据组成。

示出在图2(A)或2(B)中的优先级数据包括各频谱成分的频率和为相互关联的各频谱成分所设定的优先级。如在下文的描述，执行语音数据压缩程序的计算机C1以较高分辨率(具有较大比特数)对具有较小优先级数值的频谱部分进行量子化。

作为各音素中每个音素的相对值，压缩比率数据是设定下文描述的子带数据(sub-band)的目标压缩比率的数据，该子带数据由计算机C1通过下文描述的操作过程生成。特别地，例如，压缩比率数据仅需要具有图3中示出的数据结构。

示出于图3的压缩比率数据包括标记音素的符号和彼此相关联的音素的相对压缩比率的目标值。即，例如，在图3中示出的压缩比率数据中，将音素“a”的相对压缩比率的目标值设定为“1.00”，而音素“ch”的相对压缩比率的目标值设定为“0.12”。这意味着表示音素“ch”的子带数据的压缩比率被设定为是表示音素“a”的子带数据的压缩比率的0.12倍。因此，根据示出于图3的压缩比率数据，例如，如果表示音素“a”的子带数据的压缩比率为0.5(即，压缩后的子带数据的数据量是压缩前数据量的50％)，用它来进行处理，那么应当进行这样的处理：表示音素“ch”的子带数据的压缩比率为0.06。

压缩表可以进一步包括表示应该从语音数据中删除的频谱成分的数据，该语音数据是根据语音数据压缩程序要由计算机C1进行处理的(在下文中称为删除的频带数据)。

(第一实施例：操作)

接着，将参考图4和图5描述该语音数据压缩器的操作。图4和图5示出了图1中语音数据压缩器的操作流程。

当用户在记录介质驱动器SMD中放置了记录介质(在该记录介质上记录了后文将描述的表示语音波形和音素标记数据的语音数据)并且命令计算机C1激活语音数据压缩程序时，计算机C1启动语音数据压缩程序的操作。计算机C1首先通过记录介质驱动器SMD从该记录介质上读取语音数据(图4，步骤S1)。

假定该语音数据具有例如PCM(脉冲编码调制)调制的数字信号的形式，并且表示已经对语音进行了如下的采样处理：以相对于语音间距来说足够短的恒定周期进行采样。

同时，音素标记数据示出了由该音素数据表示的波形的哪个部分代表哪一个音素，并且该音素标记数据具有例如图6所示的数据结构。

例如，图6中的音素标记数据显示了以下各部分：一部分是表示静音的情况，对应于从语音数据所表示的波形开始0.20秒的部分；从0.20秒后一直到0.31秒的部分表示了音素“t”的波形(限于本例，接下来的音素是“a”)；从0.31秒后一直到0.39秒的部分表示了音素“a”(限于本例，之前的音素是“t”并且接下来的音素是“k”)；其他部分类似。

回到对操作的描述，计算机C1随即将从记录介质读取的语音数据分为各个部分，每个部分表示了一个音素(步骤S2)。通过解释在步骤S1处读取的音素标记数据，计算机C1可以识别出表示音素的每个部分。

接下来，计算机C1通过对每个语音数据进行滤波而生成滤波后的语音数据(间距信号)，其中所述的每个语音数据是通过为各个音素划分语音数据而获得的(步骤S3)。假定间距信号是以数字化形式的数据所组成的，这种数字化的形式具有与语音数据的采样间隔大致相同的采样间隔。

当间距信号的瞬时值是0的时候(过零时刻)，通过基于后文描述的间距长度和时间进行反馈处理，计算机C1决定所要进行的滤波的特性以生成间距信号。

即，计算机C1对每个语音数据进行，例如，倒谱分析(cepstrumanalysis)或者基于自相关函数的分析，以识别出由该语音数据所表示的语音的基频，并且计算机C1确定该基频的倒数的绝对值(即，间距长度)(步骤S4)。(可选地，计算机C1可以通过同时进行倒谱分析和基于自相关函数的分析识别出两个基频，以将这两个基频的倒数的绝对值的平均值确定为间距长度。)

特别地，在倒谱分析中进行下述操作：首先，将语音数据的强度转化为大体等于原始值的对数的值(该对数的底数是任意的)；然后，借助快速傅立叶变换的方法(或者其他任何用于生成表示进行离散变量的傅立叶变换结果的数据的方法)确定已被转化了值的语音数据的频谱(即，倒谱)；以及随后，在提供了最大倒谱值的频率中的最小值被确定为基频。

此时，具体说，在基于自相关函数的分析中进行下述操作：首先，利用读取的语音数据来确定由公式1的右边所表示的自相关函数r(1)；然后，从对自相关函数r(1)进行傅立叶变换而获得的函数的最大值提供的频率中，将超过预定下限的最小值确定为基频(周期图)。

[公式1]

r (1) = \frac{1}{N} Σ_{t = 0}^{N - 1 - 1} {x (t + 1) \cdot x (t)}

(其中，语音数据的采样总数由N表示；以及从语音数据的起始处的第α次采样的值由X(α)表示)

计算机C1确定当间距信号的过零点来临时的时点(步骤S5)。计算机C1随后判断间距长度和间距信号的过零时长(period)是否彼此相差了预定的量(步骤S6)。如果判断不是相差了预定的量，则以使用过零时长的倒数作为中心频率(center frequency)的带通滤波器的特性进行上文提及的滤波(步骤S7)。相反，如果确定它们彼此相差了预定的量或者更多，则以使用间距长度的倒数作为中心频率的带通滤波器的特性进行上文提及的滤波(步骤S8)。无论哪一种情况，都希望用于滤波的通频带宽度是这样设定的：该通频带的上限总是在由语音数据表示的语音基频的两倍以内。

接下来，在生成的间距信号的单位时长(例如，一个周期)的边界来临时(具体说，在各间距信号过零的时点)，计算机C1对从记录介质上读取的语音数据进行分割(步骤S9)。然后，对于由分割后所获得的各个区间，确定在该区间中各种变化的语音数据相位与该区间中的间距信号之间的相关性，并且具有最高相关性的语音数据的相位被确定为该区间中的语音数据的相位(步骤10)。随后，移动语音数据的各个区间的相位以使得各个区间实质上处于同相位。

具体说，对于每个区间，计算机C1通过各种变化的表示相位的值(值是0或更大的整数)确定例如由公式2的右边表示的cor值。提供了cor为最大值时的值作为Ψ值，将该值确定为在区间中表示语音数据的相位的值。结果，为区间确定了与间距信号具有最高相关性的相位值。计算机C1随即将语音数据的相位在区间中移动(-Ψ)。

[公式2]

(此处，一个区间中的采样数由n表示；在该区间中从语音数据起始处第β次采样的值由f(β)表示；在该区间中从间距信号起始处第γ次采样的值由g(γ)表示)

图7(C)示出了一个波形的例子，该波形是由如上描述的移动语音数据相位而获得的数据所表示的。在图7(A)中示出的在相移前语音数据的波形中，由于图7(B)中示出的间距波动的影响，由“#1”和“#2”表示的两个区间具有不同的相位。经对比，在相移之后的语音数据所表示的波形的两个区间#1和区间#2的相位彼此相对应，这是由于间距波动的影响被消除的缘故，如图7(C)中所示。如图7(A)中所示，各区间的起始点处的数值接近于0。

一个区间的时间长度最好基本对应于一个间距。当区间稍长时，将会导致在该区间内采样数增加的问题，并且，由此，间距波形数据的数据量增加了，或者导致采样变长、以及由间距波形数据所表示的语音不准确了。

接下来，计算机C1对相移后的语音数据进行拉格朗日插值(步骤S12)。即，使用拉格朗日插值法在语音数据移相的采样中间生成表示插值数值的数据。插值之后的语音数据是由相移后的语音数据和拉格朗日插值数据构成的。

接着，在插值后，计算机C1对语音数据的每个区间再次进行采样(重采样)。还生成了关于采样数的信息，该信息表示了每个区间的原始采样数的数据(步骤S13)。假定计算机C1以这样的方式进行重采样：间距波形数据的每个区间的采样数彼此几乎相同，并且在相同的区间内以规则的间隔进行重采样。

如果从记录介质读取的语音数据的采样间隔是已知的，那么关于采样数的信息起到了表示与语音数据的单位间距相应的区间的原始时间长度信息的作用。

接下来，对于已经在步骤S13使各区间的时间长度相等化的每个语音数据，如果每个都相应于一个间距的各个区间彼此之间存在有高于预定级别的相关性，则计算机C1确定这些区间之间的组合，(步骤S14)。随后，对于每个如此确定的合并，属于相同组合的每个区间的数据被这些区间中的一个的数据所取代，以使这些区间的波形均等(步骤S15)

例如通过在两个区间(其中的每一个都相应于一个间距)的波形之间确定一个相关性系数并基于每个确定的相关性系数的值，可以确定各个区间(其中的每一个都相应于一个间距)中的相关程度。可选地，它可以通过以下方式确定：通过每个都相应于一个间距的两个区间中的差，并基于所确定的差的有效值或平均值来确定。接下来，计算机C1利用一直进行处理直到步骤S15的间距波形数据生成子带数据，该子带数据表示了由每个音素的间距波形数据表示的语音的频谱随时间的变化(步骤S16)。具体说，例如，可以通过进行如DCT(离散余弦变换)的正交变换，为该间距波形数据生成子带数据。

接下来，如果存储在计算机C1的压缩表中包括了删除的频带数据，则计算机C1以下列方式将一直到步骤S15所生成的子带数据改变成：由删除频带表所设定的频谱成分的强度为0(步骤S17)。

接下来，计算机C1对每个子带数据进行非线性量子化，以进行子带数据的数据压缩(步骤S18)。即，对每个频率成分的瞬时值进行非线性压缩而获得一个值，通过对该值进行量子化而生成(通过量子化而获得的值)相应的子带数据，其中所述的每个频率成分的瞬时值(具体说，例如，通过将瞬时值代入到向上凸起的函数[convex function]而获得的值)是由已进行的一直到步骤S16(或到步骤S17)所处理的各个子带数据所表示的。

在步骤S18，计算机C1确定压缩特性(非线性量子化之前的子带数据的内容和非线性量子化之后的子带数据的内容之间的相应关系)，以使得子带数据的压缩比率是这样的一个值：它是由压缩比率数据为由子带数据所表示的音素而设定的相对目标值和预定总体目标值的乘积来确定的。计算机C1可以预先存储上述提及的总体目标值或者可以根据操作者的操作而获取它。

通过例如以下的方式可以确定压缩特性：根据非线性量子化之前的子带数据和非线性量子化之后的子带数据确定子带数据的压缩比率，以及随后根据所确定的压缩比率进行反馈处理或者其他类似的处理。

即，例如，判断为表示某些音素的子带数据而确定的压缩比率是否大于该音素的压缩比率的相对目标值和总体目标值的乘积。如果该确定的压缩比率大于这个乘积，则确定压缩特性以使得压缩比率低于当前的比率。相反，如果判断出该确定的压缩比率等于或小于该乘积，那么确定压缩特性以使得压缩比率高于当前的比率。

在步骤S18，计算机C1量子化包含在子带数据中的各频谱成分，以使得具有较小优先级数值的频谱成分具有较高的分辨率，该优先级的较低数值由存储在计算机C1的优先级数据示出。

作为一直进行到步骤S14的处理结果，从记录介质上读取的语音数据已经被转换为子带数据，该子带数据表示了由语音数据所表示的组成语音的每个音素的频谱分布的非线性量子化的结果。计算机C1对子带数据进行熵编码(具体说，例如算术编码，霍夫曼编码，以及其他类似的编码方式)，并且通过它自身的串行通讯控制部分(步骤S19)，将熵编码后的子带数据和在步骤S13生成的有关采样数的信息输出到外部。

通过前述步骤S16的处理，作为对具有如图11(A)中示出的波形的原始语音数据进行的划分结果而获得的每个语音数据是，例如，通过在时点“t1”到“t9”对原始语音数据进行划分而获得的每个语音数据，只要在音素标记数据的内容中没有错误，如图8(A)中所示，这些时点是不同音素间的分界线(或者是语音的结尾)。

如果具有图11(B)中示出的波形的语音数据通过步骤S16的处理被划分为多个部分，只要在音位标记数据内容中没有错误，就会正确地选择了两个相邻音素的分界线“T0”作为如图8(B)中示出的分割时点，而非图11(B)中显示的分割的方法。因而，就可能在通过这个处理获得的每个部分的波形中防止多个音素的波形的混杂(例如，图8(B)中标记为“P3”或“P4”部分的波形)。

经划分的语音数据被处理成间距波形数据，并且随即转换为子带数据。该间距波形数据是区间时长已被标准化并且间距波动影响已被消除了的语音数据，所述区间中的每一个都对应于单位间距。因此，利用间距波形数据生成的每个子带数据都精确地表示了由原始语音数据表示的每个音素的频谱分布随时间的变化。

由于划分的音素数据、间距波形数据和子带数据具有前文描述的特性，因此对特定频谱成分的删除操作、或者对于每个音素和每个频谱成分用不同的压缩特性进行非线性量子化的处理都可以精确地执行。此外，非线性量子化子带数据的熵编码操作也可以高效地执行。因此，能够不损失原始语音数据的语音质量而高效地进行数据压缩。

非线性量子化处理或者频谱成分的删除是根据示出在压缩表中的对每个音素或者每个频率的条件而进行的。因而，通过变化地对压缩表的内容进行重写，能够以适合音素特性或者适合人类声学感受的频带特性的方式进行精确且恰当的数据压缩。

例如，摩擦音具有这样的特性：即使它被显著地扭曲了，对比其他种类的音素，它还是很难在声学上辨认出异常情况。因而，对比其他种类的音素，摩擦音的高压缩(具有小的压缩率数值)是没有问题的。至于具有与正弦波相近的波形的音素，例如元音声，即使除了正弦波以外的频谱成分被删除或者以低于正弦波的频谱成分的分辨率进行量子化，语音质量也不会大幅下降。

对于低于十几赫兹人难于听到的成分和高于数十千赫兹的成分，即使该成分以低于其他成分的分辨率进行量子化或者被删除，也不会导致语音质量在声学上有更多的下降。

通过变化地对压缩表的内容进行重写，能够对例如多个讲话者发出的语音以适合于每个讲话者语音特点的方式进行精确且恰当的数据压缩。

由于间距波形数据的每个区间的原始时长可以利用关于采样数的信息来确定，因此，通过对压缩的语音数据进行IDCT(反离散余弦变换)，以获取表示语音波形的数据，并且随后将该数据的每个区间的时长恢复为原始语音数据，从而能够很容易地恢复原始语音数据。

该语音数据压缩器的配置不仅限于前文描述的配置。

例如，计算机C1可以通过串行通讯控制部分获取串行地从外部传送来的语音数据或者音素标记数据。语音数据或者音素标记数据可以通过通讯线路，例如电话线、专线和卫星通讯线路(satellite line)从外部获得。在这种情况下，计算机C1只需要配置例如调制解调器、DSU(数据服务单元)和其他类似功能的装置。如果语音或者音素标记数据是从除了记录介质驱动器SMD以外的任何地方获取的，则计算机C1无需配置记录介质驱动器SMD。语音数据和音素标记数据可以通过不同的途径分别获得。

计算机C1可以通过通讯线路或者其他类似的设备从外部获取并存储压缩表。可选地，也可以将记录有压缩表的记录介质放在记录介质驱动器SMD中，并且操作计算机C1的输入部分，使得计算机C1通过记录介质驱动器SMD对记录在记录介质上的压缩表进行读取或存储。压缩表并不需要一定包含有优先级数据。

计算机C1可以配置有语音收集器，它由下述部分组成：麦克风、AF放大器、采样器、A/D(模-数)转换器、PCM编码器或者其他部件。语音收集器通过如下步骤获取语音数据：通过对语音收集器的麦克风采集的表示语音的语音信号进行放大；对该语音信号进行采样和A/D转换；以及随后对已进行采样的语音信号进行PCM调制。由计算机C1获取的语音数据不需要一定是PCM信号。

计算机C1可以通过记录介质驱动器SMD，将压缩的语音数据或者关于采样数的信息写入到放在记录介质驱动器SMD中的记录介质上，或者可以将其写入到由硬盘或者其他类似设备构成的外部存储设备上。在这种情况下，计算机C1只需要配置记录介质驱动器和诸如硬盘控制器的控制电路。

计算机C1可以通过串行通讯控制部分输出数据，该数据表示步骤S18是用哪种分辨率对子带数据的每个频谱成分进行量子化处理的，或者计算机C1可以通过记录介质驱动器SMD将该数据写入到放在记录介质驱动器SMD中的记录介质上。将原始语音数据划分为表示各单独音素的各部分的方法可以是任何方法。例如，可以预先将原始语音数据划分为音素，或者可以在原始语音数据被处理为间距波形数据后再进行划分。可选地，可以在转换为子带数据之后进行划分。此外，还能够对语音数据、间距波形数据或者子带数据进行分析，以识别出表示每个音素的区间，并且剪切所识别出的区间。

计算机C1可以跳过S16和S17的处理。在这种情况下，通过对在步骤S18处表示各单独音素的间距波形数据的每个部分进行非线性量子化处理，可以进行间距波形数据的数据压缩。随后，在步骤S19处，可以对压缩后的间距波形数据进行熵编码并输出，以取代压缩后的子带数据。

此外，计算机C1可以不进行倒谱分析或基于自相关函数的分析中的任意一个。在这种情况下，由倒谱分析和基于自相关函数的分析的任意一个所确定的基频的倒数即可被直接作为间距长度。

此外，计算机C1在语音数据的每个区间中移动语音数据相位的量不需要一定是(-Ψ)。例如，伴随对于所有区间共用的表示了初始相位的实数δ，对于每个区间，计算机C1可以将语音数据的相位移动(-Ψ+δ)。计算机C1分割语音数据的语音数据的位置不需要一定是在间距信号的过零时点处。例如，该位置可以位于间距信号是除了0以外的预定值时的时点。

然而，如果假定初始相位α为0，并且在间距信号的过零时点处分割语音数据，则每个区间的起始点的值接近于0，并且因此，由于将语音数据分割为各区间而使包含在每个区间内的噪声的数量将会减少。

压缩比率数据可以是这样的数据：其中表示每个音素的子带数据的压缩比率被设定为绝对值而不是相对值(例如，如前文所述的，用总体目标值乘以一个系数)。

计算机C1不需要是一个专用系统。它可以是个人电脑或其他类似的设备。语音数据压缩程序可以从存储有该语音数据压缩程序的介质(CD-ROM，MO，软盘或其他类似设备)上安装到计算机C1上。可选地，间距波形提取程序可以加载到通讯线路的公告牌系统(BBS)并且通过该通讯线路递送。还能够用表示该语音数据压缩程序的信号对载波进行调制，并且发送所获得的调制后的波形。随后接收到调制后波性的设备对其进行解调，以恢复语音数据压缩程序。

通过在类似于其他应用程序的操作系统的控制下被激活并由计算机C1执行，语音数据压缩程序可以进行上述的处理。如果操作系统参与了上述处理的一部分，则用于控制该处理的部分可以从存储在记录介质上的语音压缩程序中去除。

(第二实施例)

接下来，将描述本发明的第二实施例。

图9示出了根据本发明第二实施例的语音数据压缩器的配置。如图所示，该语音数据压缩器由以下部分构成：语音输入部分1、语音数据划分部分2、间距波形提取部分3、相似波形检测部分4、波形均等化部分5、正交变换部分6、压缩表存储部分7、频带控制部分8、非线性量子化部分9、熵编码部分10和比特流形成部分11。

语音输入部分1配置有，例如，记录介质驱动器或者类似于第一实施例中的记录介质驱动器SMD的设备。

语音输入部分1，例如，通过从记录数据的记录介质上读取数据，获取表示语音波形的语音数据和前文提及的音素标记数据，并且将这些数据提供给语音数据划分部分2。假设语音数据是PCM调制的数字信号的格式，并且该语音数据表示已经用相对于语音间距足够短的恒定周期进行了采样的语音。

语音数据划分部分2，间距波形提取部分3、相似波形检测部分4、波形均等化部分5、正交变换部分6、频带控制部分8、非线性量子化部分9和熵编码部分10都由诸如DSP和CPU的处理器构成。

间距波形提取部分3、相似波形检测部分4、波形均等化部分5、正交变换部分6、频带控部分8、非线性量子化部分9和熵编码部分10的部分功能或者全部功能可以由单独的处理器实现。

当从语音输入部分1提供了语音数据和音素标记数据时，语音数据划分部分2将提供的语音数据划分成各部分，每个部分代表了每个音素，这些音素构成了由语音数据表示的语音，并且将该语音数据提供给间距波形提取部分3。语音数据划分部分2基于从语音输入部分1提供的音素标记数据的内容来确定表示各音素的每个部分。

间距波形提取部分3进一步将由语音数据划分部分2提供的每个语音数据划分为各区间，每个区间相应于由语音数据表示的语音的单位间距(例如，一个间距)。随后，通过对这些区间进行移相并重采样，间距波形提取部分3使这些区间的相位和时长相等，以此使它们大体相同。这些区间的相位和时长已经相等的语音数据(间距波形数据)随即被提供给相似波形检测部分4和波形均等化部分5。

间距波形提取部分3生成关于采样数的信息并将它提供给熵编码部分10，该信息表示了语音数据的每个部分的原始采样数量。

例如，如图10所示，间距波形提取部分3功能性由以下部分构成：倒谱分析部分301、自相关性分析部分302、权重计算部分303、BPF(带通滤波器)系数计算部分304、带通滤波器305、过零分析部分306、波形相关性分析部分307、相位调整部分308、插值部分309和间距长度调整部分310。

倒谱分析部分301、自相关性分析部分302、权重计算部分303、BPF(带通滤波器)系数计算部分304、带通滤波器305、过零分析部分306、波形相关性分析部分307、相位调整部分308、插值部分309和间距长度调整部分310的全部或部分功能都可以由单独的处理器完成。

间距波形提取部分3利用倒谱分析和基于自相关函数的分析一起确定间距长度。

即，倒谱分析部分301首先对由语音数据划分部分2提供的语音数据进行倒谱分析，以确定语音数据表示的语音的基频，生成表示已确定了基频的数据，并且将它提供给权重计算部分303。具体说，当语音数据划分部分2提供了语音数据的时候，倒谱分析部分301将语音数据的强度转换成实质上等于原始值的对数(该对数的底数为任意数)的数值。

随后，倒谱分析部分301通过快速傅立叶变换的方法(或者其他任何方法，用于生成表示进行离散变量的傅立叶变换结果的数据)确定已被转换了值的语音数据的频谱(即倒谱)。

随后，提供了最大倒谱值的各频率中的最小值被确定为基频，生成表示该确定基频的数据并将它提供给权重计算部分303。

同时，当语音数据划分部分2提供了语音数据的时候，自相关性分析部分302根据语音数据波形的自相关函数确定了由语音数据表示的语音的基频，生成表示该确定基频的数据并将该数据发送给权重计算部分303。

具体说，当语音数据划分部分2提供了语音数据的时候，自相关性分析部分302首先确定前文描述的自相关函数r(1)。随后，从对确定的自相关函数r(1)进行了傅立叶变换的结果中获得的周期图的最大值所提供的频率中，将超过预定下限的最小值确定为基频，生成表示确定基频的数据并且将该数据提供给权重计算部分303。

当两个表示基频的数据全都被提供的时候(一个来自倒谱分析部分301而一个来自自相关性分析部分302)，权重计算部分303确定由这两个数据所表示的基频的倒数的绝对值的平均值。随后，生成表示该确定值的数据(即，平均间距长度)，并且将其提供给BPF系数计算部分304。

当权重计算部分303提供了表示平均间距长度的数据而且过零分析部分306提供了下文将描述的过零信号的时候，BPF系数计算部分304根据所提供的数据和过零信号判断平均间距长度、间距信号和过零时长是否彼此相差一个预定的量或者更大。如果判断为否，则对带通滤波器305的频率特性进行控制，以将过零时长的倒数设定为中心频率(带通滤波器305的通带的中心频率)。相反，如果判断它们相差了预定的量或更大，则对带通滤波器305的频率特性进行控制，以将平均间距长度的倒数设定为中心频率。

带通滤波器305执行FIR(有限脉冲响应)类型滤波器的功能，其中心频率是可变的。

具体说，带通滤波器305根据BPF系数计算部分304的控制，将它自身的中心频率设置为某一值。随后，带通滤波器305对从语音数据划分部分2提供的语音数据进行滤波，并且将滤波后的语音数据(间距信号)提供给过零分析部分306和波形相关性分析部分307。间距信号由数字形式的数据构成，具有与语音数据的采样间隔大体上相同的采样间隔。希望带通滤波器305具有这样的带宽：带通滤波器305的通频带的上限总是在由语音数据所表示的语音的基频的两倍以内。

当带通滤波器305提供的间距信号的瞬时值为0的时刻到来时，过零分析部分306确定这个时点，并且将这个表示该确定的时点的信号提供给BPF系数计算部分304。按这种方法，确定语音数据的间距长度。

然而，当间距信号的瞬时值是除了0以外的预定值的时刻到来时，过零分析部分306也可以确定这个时点，并且用表示该确定时点的信号取代过零信号提供给BPF系数计算部分304。

当语音数据划分部分2提供了语音数据并且带通滤波器305提供了间距信号的时候，波形相关性分析部分307在间距信号的单位周期(例如一个周期)的边界来临的时点处分割语音数据。随后，对于通过分割获得的各个部分，在区间中语音数据的各种变化的相位和区间中的间距信号之间确定相关性，并且具有最高相关性的语音数据的相位被确定为该区间内语音数据的相位。按这个方法，确定每个区间的语音数据的相位。

具体说，例如，波形相关性分析部分307为每个区间确定前文所述的值Ψ，生成表示值Ψ的数据，并且将该数据提供给相位调整部分308作为表示区间内语音数据相位的相位数据。一个区间的时长希望与一个间距基本上相对应。

当数据划分部分2提供了语音数据并且波形相关性分析部分307提供了表示语音数据的每个区间的相位Ψ的数据的时候，相位调整部分308通过将每个区间的语音数据的相位移动(-Ψ)来均等化各区间的相位。随后，经过相移的数据被提供给插值部分309。

插值部分309对相位调整部分308提供的语音数据(经过相移的语音数据)进行拉格朗日插值，并将其提供给间距长度调整部分310。

当插值部分309提供了已经过拉格朗日插值处理的语音数据的时候，间距长度调整部分310对所提供的语音数据的每个区间进行重采样以均等化各区间的时长，以使得它们大体上相同。随后，各区间时长已经均等化过的语音数据(即，间距波形数据)被提供给相似波形检测部分4和波形均等化部分5。

间距长度调整部分310生成关于采样数的信息，该采样数表示了语音数据的每个区间的原始采样数(当从语音数据划分部分2提供给间距长度调整部分310时，该语音数据的每个区间的采样数)并且将该信息提供给熵编码部分10。

当间距波形提取部分3提供了各区间时长已被均等化过的每个语音数据(即，间距波形数据)的时候，相似波形检测部分4确定各区间之间的组合，这些区间中的每一个都相应于一个间距并且显示了彼此间高于预定级别的高相关性，如果有任何这样的区间存在。随后，将该确定的组合通知到波形均等化部分5。

例如，通过在两个区间(其中的每个都相应于一个间距)的波形中确定一个相关性系数并根据该确定的相关性系数的值，可以确定各区间(其中的每个都相应于一个间距)之间的相关度。可选地，可以通过确定两个区间(每个都相应于一个间距)之间的差值并根据该差值的平均值或者实际值来确定相关性。当间距波形提取部分3提供了间距波形数据、并由波形检测部分4通知了各区间之间的组合(这些区间中的每一个都相应于一个间距并且显示了彼此间高于预定级别的高相关性)，波形均等化部分5对所提供的间距波形数据中的由相似波形检测部分4通知的属于该组合的各区间中的波形进行均等化。即，对于各个通知的组合，属于同一组合的各区间的数据由这些区间中的任意一个的数据所替代。随后，将波形已被均等化的间距波形数据提供给正交变换部分6。

正交变换部分6对波形均等化部分5提供的间距波形数据进行诸如DCT的正交变换，以生成前文所述的子带数据。随后，将生成的子带数据提供给频带控制部分8。

压缩表存储部分7由诸如RAM的易失性存储器或者诸如EEPROM(电可擦除的/可编程只读存储器)、硬盘设备和闪存器的非易失性存储器等构成。

压缩表存储部分7根据操作者的操作，可重写地存储前文提及的压缩表，并且使得存储在压缩表存储部分7中的压缩表的至少一部分能由频带控制部分8或者非线性量子化部分9读取，以响应来自频带控制部分8和非线性量子化部分9的访问。

频带控制部分8访问压缩表存储部分7以判断存储在压缩表存储部分7中的压缩表中是否包含有删除的频带数据。如果判断不包含该类数据，则将由正交变换部分6提供的子带数据直接提供给非线性量子化部分9。相反地，如果判断包含有删除的频带数据，则读取删除的频带数据，改变由正交变换部分6提供的子带数据，以使得由该删除的频带数据所表示的频谱成分的强度为0，并且随后将该子带数据提供给非线性量子化部分9。

当频带控制部分8提供了子带数据的时候，非线性量子化部分9生成相应于由量子化一个值获得的子带数据，该值是通过非线性地压缩该子带数据所表示的每个频率成分的瞬时值而获得的，并且将生成的子带数据(非线性量子化过的子带数据)提供给熵编码部分10。

非线性量子化部分9根据存储在压缩表存储部分7中的压缩表设定的条件非线性地量子化子带数据。即，非线性量子化部分9根据压缩特性进行非线性量子化，以使得子带数据的压缩比率成为由预定的总体目标值和相对目标值的乘积所决定的数值，该相对目标值是由包含在压缩表中的压缩比率数据为子带数据表示的音素而设定的。非线性量子化部分9以具有较小优先级数值的频谱成分用高分辨率进行量子化的方式对包含在子带数据中的每个频谱成分进行量子化，该优先级数据是在包含于压缩表中的优先级数据所设定的。

总体目标值可以预先存储在压缩表存储部分或者可由非线性量子化部分9根据操作者的操作而获得。

熵编码部分10将由非线性量子化部分9提供的非线性量子化过的子带数据和由间距波形提取部分3提供的关于采样数的信息转化为熵编码(例如，算术编码或者霍夫曼编码)，并且将它们彼此相关地提供给比特流形成部分11。

比特流形成部分11由用于控制与外界进行串行通讯、符合诸如USB标准的串行接口电路和诸如CPU的处理器构成。比特流形成部分11生成并输出由熵编码部分10提供的表示了经熵编码的子带数据(压缩的语音数据)和经熵编码的关于采样数的信息的比特流。

在图9中由语音数据压缩器输出的经压缩的语音数据表示了每个音素的频谱分布的非线性量子化的结果，这些音素构成了由语音数据所表示的语音。这些经压缩的语音数据也是基于间距波形数据而生成的，该间距波形数据中各区间(每个都相应于单位间距)的时长已被标准化并且间距波动的影响已被消除。因此，语音的每个频率成分的强度随时间的变化可以被精确地表示出。

该语音数据压缩器的语音数据划分部分2还在示于图8中的t1到t19的时刻对具有如图11(A)所示波形的语音数据进行分割，只要音素标记数据的内容中没有错误。在语音数据具有示于图11(B)中的波形的情况下，只要音素标记数据的内容中没有错误，如图8(B)所示，正确地选择在两个相邻音素之间的分界线T0处作为分割时点。因此，能够在要由语音数据划分部分2进行处理而获得的每个部分的波形中防止多个音素的波形被混杂在一起。

因此，该语音压缩器也能精确地完成对特定频谱成分的删除，或者对每个音素或每个频谱成分以不同的压缩特性精确地完成非线性量子化处理。此外，还可以高效地对经非线性量子化的子带数据进行熵编码。因此，能够以无损于原始语音数据的语音质量的方式高效地完成数据压缩。

在该语音数据压缩器中，还可以通过对存储在压缩表存储部分7中的压缩表的内容进行变化地重写，能够以适合音素特性或者适合人类声学感受的频带特性的方式实现精确且恰当的数据压缩，在多个讲话者发出的语音的时候，也能够完成适合每个讲话者的语音特性的数据压缩。

由于间距波形数据每个区间的原始时长可以利用关于采样数的信息来确定，所以能够通过以下操作很容易地复原原始语音数据：通过对压缩后的语音数据进行IDCT变换，以获得表示了语音波形的数据，并且随后将该数据的每个区间的时长恢复为原始语音数据中的时长。

语音数据压缩器的配置并不限于前文描述的配置。

例如，语音输入部分1可以通过通讯线路(诸如电话线、专线和卫星通讯线路或者任何其他的串行传输线路)从外界获得语音数据或者音素标记数据。在这种情况下，语音输入部分1仅需要配置调制解调器和DSU、或者由串行接口电路构成的任何其他的通讯控制部分。此外，语音输入部分1可以通过不同的途径分别获得语音数据和音素标记数据。

语音输入部分1可以配置有由麦克风、AF放大器、采样器、A/D转换器、PCM编码器或者其他部件构成的语音收集器。语音收集器可以通过如下步骤获取语音数据：放大通过语音收集器的麦克风采集的表示语音的语音信号；对该语音信号进行采样和A/D转换；以及随后对已进行采样的语音信号进行PCM调制。语音数据输入部分1所要获取的语音数据不需要一定是PCM信号。

语音数据划分部分2将原始语音数据划分为表示各单独音素的各部分的方法可以是任何的方法。因此，例如，可以预先将原始语音数据划分为各音素。可选地，能够将由间距波形提取部分3生成的间距波形数据划分为表示各单独音素的各部分，并且将它们提供给相似波形检测部分4和波形均等化部分5。还能够将由正交变换部分6生成的子带数据划分为表示各单独音素的各部分，并将它们提供给频带控制部分8。此外，还能够对语音数据、间距波形数据或者子带数据进行分析，以确定表示每个音素的区间，并剪切所确定的区间。

波形均等化部分5可以将波形已被均等化过的间距波形数据提供给非线性量子化部分9，并且非线性量子化部分9可以对表示了每个音素的间距波形数据的每个部分进行非线性量子化处理，并将其提供给熵编码部分10。在这种情况下，熵编码部分10可以对经过非线性量子化后的间距波形数据和有关采样数的信息进行熵编码，并将它们相互关联地提供给比特流形成部分11。比特流形成部分11将经过了熵编码的间距波形数据作为压缩后的语音数据。

间距波形提取部分3可以不配置倒谱分析部分301(或者自相关性分析部分302)。在这种情况下，权重计算部分303可以将由倒谱分析部分301(或者自相关性分析部分302)所确定的基频的倒数直接作为平均间距长度。

过零分析部分306可以将带通滤波器305所提供的间距信号作为过零信号直接提供给BPF系数计算部分304。

压缩表存储部分7可以通过通讯线路或者其他类似的设备从外部获得压缩表并存储它。在这种情况下，压缩表存储部分7只需要配置有调制解调器和DSU，或者配置有串行接口电路的任何其他通讯控制部分。

可选地，压缩表存储部分7可以从记录有压缩表的存储介质上读取压缩表并存储它。在这种情况下，压缩表存储部分7只需要配置有记录介质驱动器。

压缩比率数据是这样的数据：它将表示每个音素的子带数据的压缩比率设定为绝对值而非相对值。压缩表不需要一定包含有优先级数据。

比特流形成部分11可以通过通讯线路或其他类似的设备将压缩后的语音数据或者关于采样数的信息输出到外部。如果通过通讯线路输出数据，比特流形成部分11只需要提供例如调制解调器、DSU和具有类似功能的设备构成的通讯控制部分。

比特流形成部分11可以配置有记录介质驱动器。在这种情况下，比特流形成部分11可以将压缩后的语音数据或者关于采样数的信息写入到放在记录介质驱动器中的记录介质的存储区域中。

非线性量子化部分9可以生成表示以怎样的分辨率对子带数据的每个频谱成分已进行了量子化处理的数据。该数据可以被，例如，比特流形成部分11所获取，以便将数据以比特流的形式向外界输出或者写入到记录介质的存储区域。

单个的串行接口电路或者记录介质驱动器可以承担语音输入部分1、压缩表存储部分7、比特流形成部分11的通讯控制部分或者记录介质驱动器的功能。

工业实用性

如前文所述，根据本发明，已实现了语音信号压缩设备、语音信号压缩方法和程序，从而能够高效地压缩表示语音数据的数据容量。

Claims

1.一种语音信号压缩设备，包括：

依音素划分的装置，用于获取语音信号，该语音信号表示了将要压缩的语音波形，并将所述语音信号划分为表示各单独音素波形的各部分；

滤波器，用于对划分的语音信号进行滤波以提取间距信号；

2.如权利要求1的语音信号压缩设备，其中依音素的压缩装置由以下各部分构成：

可重写地储存表的装置，用于可重写地存储表，所述表设定了要对表示各个音素的所述子带数据进行数据压缩的条件；以及

进行所述子带数据的数据压缩的装置，用于根据所述表所设定的条件，对表示每个音素的所述子带数据进行数据压缩。

3.如权利要求1或2的语音信号压缩设备，其中依音素压缩的装置通过对数据进行非线性量子化处理，对表示每个音素的所述子带数据进行数据压缩，以达到满足针对所述音素而设定的条件的压缩比率。

4.如权利要求1或2或3的语音信号压缩设备，其中

为子带数据的每个频谱成分设定优先级；以及

以用高分辨率对具有高优先级的频谱成分进行量子化处理的方式，通过对子带数据的每个频谱成分进行量子化，所述依音素压缩的装置执行对子带数据的数据压缩。

5.如权利要求1-4中任何一个的语音信号压缩设备，其中所述依音素压缩的装置通过改变子带数据对子带数据进行数据压缩，以显示在删除了预定频谱成分之后的频谱分布。

6.一种语音信号压缩设备，包括：

7.一种语音信号压缩设备，包括：

获得表示语音波形或者表示语音频谱分布随时间的变化的信号的装置；以及

根据针对由所述部分所表示的音素而设定的预定的条件，对表示所述获得信号的单独音素的每个部分进行数据压缩的装置。

8.一种语音信号压缩方法，其中

获取表示语音波形或语音频谱分布随时间的变化的信号；以及

9.一种使计算机起到如下作用的程序：

能够获取表示语音波形或表示语音频谱分布随时间变化的信号；以及

能够根据针对由所述部分所表示的音素而设定的预定的条件，对表示所述获取信号的单独音素的每个部分进行数据压缩。