CN1071769A

CN1071769A - 一种对人的语音信号进行编码和译码的方法

Info

Publication number: CN1071769A
Application number: CN92109401A
Authority: CN
Inventors: 罗塞尔D·胡佛
Original assignee: Mechatronics Holding AG
Current assignee: Mechatronics Holding AG
Priority date: 1991-08-12
Filing date: 1992-08-12
Publication date: 1993-05-05
Also published as: US5355430A; IL102781A0; AU2445892A; WO1993004465A1; MX9204680A

Abstract

本发明揭示了一种通过产生一储存若干人的语音信号类型的数据库来对人的语音信号进行编码和译码的方法。所储存的人的语音信号的类型数足够覆盖所有的可觉察到的人的语音。根据本发明的第一实施例，一组代表性的人的语音信号直接从自然和人的语音中得到。尽管本发明是专门为人的语音设计的，它也可用于其它音频信号，例如电子乐器的信号。

Description

本发明涉及一种对人的语音信号进行编码和译码的方法。

今天，人们越来越希望有许多通过基于数字计算机的方法处理语音信号的应用，特别是在电话上的应用。通常电话质量的语音信号是在200赫和3，4千赫之间滤过波的带通信号。如果这种信号被以每秒8000样本的速度进行取样并通过8位分辨力的脉码调制进行编码，那么计算机得进行接近64kbit/s的数据率处理。因此，大多数电话语音信号压缩技术的目标是：

1）产生一大大小于64kbit/s的原始信号的压缩编码表示。

2）通过一使原始信号畸变最小的解码程序从该压缩编码表示重构原始信号。

人们观察到，在与原始信号展示出一局部最大值的同时向电子送话器仅发送一数字脉冲或“尖峰”的语音波形表示将包含该原始信号波形的大部分信息内容。尽管原始波形的本身十分嘈杂，收听该“尖峰序列”的人能说出讲了些什么、语音的变调而且一般讲能讲出是谁在讲话。原始语音波是人的发声器官产生一能再生位于局部极值之间的基本区间系列的声音信号的结果。因此，尽管人的语音波形的信息内容已经通过指定在上述观察中波峰之间的间距来编码到一定程度，但是在技术应用所要求的可接受的信噪比的水平范围内，信号的附加特征也应被编码。

根据专利号为4，382，160的美国专利，我们知道了对信号进行编码和构造的方法，通过该方法，一语音波形被编码以便减少存储容量或传输的带宽。对每一种波形，两个特征被编码，例如（a）子划分持续期，以及（b）在该子划分内的波形形状。与每一子划分的持续期有关的第一信号和涉及有关形状数据的第二信号构成一对基本码符号。基本码符号的解码通过产生一模拟语音信号来进行语音合成。该模拟语音信号有一由第一信号确定的子划分持续期和一由第二信号确定的形状。

象上述美国专利4，382，160所进行的语音波形的子划分一样，它可用任何系统的方式定义，只要在任一子划分区间内语音波形的振荡成分过零不超过三次。子划分可延伸为半周的倍数和分数。在上述美国专利4，382，160的一较佳实施例中，每一子划分可在相邻的零交叉之间即单个半周内延续。然而，它也揭示子划分可对于预定的最大值和最小值例如那些紧接着零交叉的最大值和最小传值来确定。

参考文献US-4，382，160揭示，每一子划分内的波形可由有限数量的上述第二信号来描述。所以，第二信号在限定的预定集分内提取。每一表示子划分持续期的第一信号与半周的持续期有关，而表示子划分形状的第二信号与要编码半周内信号的发生事件的数量有关。在美国专利4，382，160的上下文中，“事件”意味着可被辩认的任何变化。

在美国专利4，382，160所公开的方法中，每一对由第一信号和第二信号组成的基本码符号可通过将它编码为次级信号来工作，每一次级信号可根据基本码符号使用映照表选择。

构造一输出信号的方法可从美国专利4，382，160中了解，它包括下列步骤：产生一具有与所述第一信号有关的持续期子划分的模拟信号，每一子划分具有与相应的一个上述第二信号有关的形状，每一上述第二信号来自一组预定信号，且模拟信号的每一子划分波形是来自一组预定的波形，例如，上述细分可由上述输出信号波形的任何预定特征所定义，只要上述输出信号的变化分量在上述任一子划分内没有超过三次零交叉。

按照已有技术的现状，对语音信号进行编码和译码的方法有一些不足之处，那就是重构的语音质量有待进一步提高。而且，由已有技术方法得到的信号压缩对使用该方法的特别小组的单个讲话者的语音特征不太敏感。

所以，本发明的一个目的是提供一种对人的语音信号进行编码和译码的方法，该方法是高度压缩的，且重构语音信号质量很好。

根据本发明的第一方面，一组用来组成一解码语音信号的代表性信号曲线取自自然的人的语音。这样改善了重构（解码后）的语言信号的真实性。

根据本发明的第二方面，一组预定的描述相邻的同类的第一极值和第二极值之间的曲线段（“Curvelet”）（该概念下面将要解释）和定义上述尖峰序列的两相邻尖峰的位置的参数变量包括下列参数变量：对每一曲线段等于该曲线段持续期（持续时间）的量化值的第一参数变量（d）;对每一曲线段等于上述曲线段的上述第一极值的量化值的第二参数变量（A₁）;对每一曲线段等于该曲线段的上述第二极值的量化值的第三参数变量（A₂）;对每一曲线段位于上述第一极值和第二极值之间并与上述第一和第二极值相反类型的等于该曲线段的第三极值的量化值的第四参数变量（A₃）;以及对每一曲线段等于一上述第一极值的出现和第三极值的出现之间的持续时间的量化值的第五参数变量（A₄），该量化值由一对上述曲线段的持续期的百分比值表示。这样也改善于重允许构（译码后）的语言信号的真实性，并且允许信号的高度压缩。

根据本发明的第三方面，代表一组典型语音模式（简明的解释见下）的曲线段数据库包括对单个说话或许多组说话或许多类说话人的语音信号是其特征是相同的子集，而组成一译码语音信号的过程是根据限于一种或一种以上的上述子集的代表性信号曲线来进行的。由此，该方法改善后适应发出待编码的语音信号的说话者的具体特征。本发明的这一方面导致增强信号压缩。

根据本发明的第四方面，该方法并不仅局限于人的语音信号。每个信号的结合体都可使用;例如钢琴的声音。在这种情况下“自然信号源”意味着一真正的钢琴或类似的声音发生器。

本发明及优点和进一步目标现使用下面的实施例进行示例。

图1是应用本发明的方法的数字通信系统的方框电路图;

图2是应用本发明的方法的数字语音存储和检索系统的方框电路图;

图3是使用本发明的方法进行编码的语音信号的一个例子的波形图;

图4是图3的语音信号的更详细的图形。

图1是应用本发明的方法的数字通信系统的方框图。数字通信系统可用在电话系统中。发送（器）单元1通过线路3与一接收（器）单元2相连。发送单元1包括一麦克风4或类似物作为输入的模拟电语音信号23的源，其输入端与上述麦克风4相连的前置放大器5，与上述前置放大器5的输出端相连用来将上述前置放大器5提供的放大后的输入模拟语音信号23转换成一相应的输入数字语音信号24的模/数转换器或A/D转换器6以及具有一能读出由上述A/D转换器6产生的数字信号24的第一接口单元8的第一微机单元7。

接收器单元2包括一扬声器9或类似物作为重构有声语音信号27的源、其输出端与上述扬声器9相连的输出放大器10、一与上述输出放大器10的输入端相连并用来将由第二微机单元13驱动的第二接口单元12提供的一重构数字语音信号26进行转换的数/模转换器或D/A转换器11。

第一和第二微机单元7，13每一个包括一用来在相应的微机单元的部件之间分配数据信号、地址信号和控制信号的系统总线14，15，并且除了上述第一和第二接口单元8，12之外还有一中央处理单元（CPU）16，17，存储装置18，19，以及通讯通道接口20，21，第一微机单元7的通讯通道接口20与在第一和第二微机单元7，13之间起连接作用的通讯线路3的第一端相连。第二微机单元13的通讯通道接口21与通讯线路3的第二端相连。

注意，上述微机单元7，13的每一个上述部件都与相应的系统总线14，15之一相连。上述第一和第二微机单元也可包括其它没在图1中示出的部件，例如显示单元、键盘和其它类似的部件。

当上述数字通讯系统工作时，一输入有声语音信号22由上述麦克风4转换成相应的输入模拟电语音信号23。由上述麦克风4产生的上述输入模拟电信号23然后由上述前置放大器5放大并由上述A/D转换器6转换成输入数字语音信号24，然后通过上述第一接口单元8输入到上述第一微机单元7中。输入给上述A/D转换器6的输入模拟电语音信号23被周期性采样。采样率满足SHANNON的著名的与对一有预定最大带宽的信号进行取样的最小的取样率确定有关的规则。如果对频率成分达到4KHz的电话质量语音信号进行处理，那么上述输入模拟语音信号23的数字样本得至少每1/8000秒取一次。第一微机单元7处理时间上等间隔的数字样本流，且根据下面将要描述的方法对它们进行编码。编码处理的结果是符号流通过通讯线路3与第二微机单元13进行通信，上述通讯线路3也可是电话线路。第二微机单元13接收上述符号流并根据下面要进一步描述的本发明的方法对它们进行译码。上述译码过程的结果是得到一重构数字语音信号的重构数字样本流。这些在时间上等间隔的数字样本值26然后通过上述第二接口单元12加入到上述D/A转换器11中。这样，上述D/A转换器11根据上述重构的模拟语音信号25提供一重构的模拟语音信号25。最后，利用上述输出放大器10和上述扬声器9将重构的模拟语音信号25变成声音。

图2是应用本发明的方法的数字语音存储和检索系统的方框图。该系统可用于飞机座舱的录音机中数字语音和存储检索系统包括麦克风104或类似物作为输入电语音信号123的源，其输入端与上述麦克风104相连的前置放大器105、与上述前置放大器105的输出端相连、用来将上述前置放大器105的输入模拟语音信号123转换成相应的输入数字语音信号124的模/数转换器或A/D转换器106以及具有第一接口单元108和第二接口112的微机单元107。上述第一接口单元108用来读出由上述A/D转换器106产生的上述输入数字语音信号124，上述第二接口单元112用来提供重构的数字语言信号给数/模转换器或D/A转换器111，该D/A转换器111给其输出端与扬声器109或类似的发声设备相连的输出放大器110的输入端馈送一相应的重构模拟语音信号125。

微机单元107包括在上述微机单元107的部件之间分配数据信号、地址信号和控制信号的系统总线114以及中央处理单元（CPU）116、存储装置118和海量存储装置150。

注意，上述微机单元107的每一上述部件与系统总线114相连。上述微机单元也可包括其它图2中未示出的部件，例如显示单元、键盘等其它装置。

当上述数字语音存储和检索系统工作时，输入有声语音信号122由上述麦克风104转换成相应的输入模拟电语音信号123。由上述麦克风104产生的输入模拟电信号123然后由上述前置放大器105放大并由上述A/D转换器106转换成输入数字语音信号124，再利用上述第一接口单元108送给上述第一微机单元107。加到上述A/D转换器106的输入模拟电语音信号123以满足SHANNON的有名的涉及对有一预定的最大带宽的信号进行采样的最小采样率的确定的规则采样率进行周期性采样。如果频率成分达到4KHz的电话质量的语音信号被处理时，上述输入模拟语音信号123的数字样本至少每1/800秒取一次。微机107处理时间间隔相同的数字样本流，并且根据下面将进一步描述的本发明方法对它们进行编码。编码处理的结果，一符号流被写进上述海量存储装置150，该存储装置可以是光盘或磁盘。当储存的已编码语音信号将要检索、译码和再现时，上述微机单元107从上述海量存储装置150中读出（信号）并根据下面要进一步描述的本发明的方法对储存的符号流进行译码处理。上述译码处理的结果得到一重构的数字语音信号126的重构数字样本流。数字样本值126的时间间隔相同。它们然后通过上述第二接口单元112输入到D/A转换器111中。这样，上述D/A转换器111从上述重构后的数字语音信号12中提供一重构的模拟语音信号125。最后，重构的模拟语音信号125通过上述输出放大器110和上述扬声器109变成声音。

本发明的由图1-2所描述的装置完成的对人的语音信号进行编码和译码的方法现在参照图3-4来说明。

对语音信号编码和译码的方法第一步（S1）产生一存储同一定数量的第一类的语音信号的曲线段类型有关的曲线段数据库，上述曲线段类型的数量基本上足够覆盖所有的可观察的语音信号曲线段。一“曲线段”是一代表在上述第一类语音信号在上述语音信号的一个间隔上的一段实体，对预定的一个或多个参数变量的集合中的每一参数变量，上述曲线段由离散的参数类值描述。一曲线段类型是由相同的参数值来描述的一类曲线段。为了语音信号目的，上述曲线段数据库的每一个上述曲线段类型被赋予同一符号。上述第一步骤（S1）通常使用一包含足够大量区段的很长的语音信号来完成，上述每一区段代表单个说话者的语音。第一类语音信号最好取自由M.I.T.编辑并由T.I.记录为DARPA，“TIMIT语音数据库”中的大量语言采样。

本发明所述的上述预定的参数变量集描述了相邻的同类型（局部极大值对局部极小值，见下面）的第一局部极值和第二局部极值之间的曲线段，并且定义了尖顶序列的两个相邻的尖峰的位置，它包括下列参数变量：

-对每一曲线段都等于该曲线段的持续期的量化值的第一参数变量（d）;

-对每一曲线段都等于该曲线段的第一极值的量化值的第二参数变量（A₁）;

-对每一曲线段都等于该曲线段的第二极值的量化值的第三参数变量（A₂）;

-对每一曲线段都等于位于上述第一局部极值和上述第二局部极值之间并与上述第一和第二极值不同类型的第三局部极值的量化值的第四参数变量（A₃）;

-对每一曲线段都等于位于上述第一极值的发生点与上述第三极值的发生点之间的持续时间的量化值的第五参数量（A4），该参数变化量由相对上述曲线段的持续期的百分比来表示。

上述曲线段数据库产生以后，则进行第二步骤（S2）。它的任务是对第二类实际上要编码的语音信号进行编码，把它编码成一上述符号序列。为此，上述第二类语音信号被划分成一系列曲线段，上述第二类语音信号的每一曲线段被指定成某符号，该符号本身被指定为上述曲线段数据库内的某曲线段类型，且上述第二类语音信号的上述曲线段属于上述曲线段类型，且上述被指定的各符号按照上述第二类语音信号内的曲线段的次序构成已编码的语音信号。

在第三步骤（S₃）中，根据已编码的第二类语音信号的符号顺序用一系列来自一组代表性信号曲线的链接的代表性信号曲线组成相应于上述第二类语音信号的译码的语音信号，每一代表上述符号的代表性信号曲线表现为一被指定为上述符号的单个曲线段。

在本发明的佳较实施例中，用来构成上述译码的语音信号的代表性信号曲线的集合从人的自然语音中取得。

图3表示一电语音信号电压S＝S（t）对时间t的曲线图。调S（t）＝｛S^（0），S^（1），S^（2），…，S^（n）｝是通过将一随时间变化的模拟语音信号以相等取样间隔△t分布的数字化来得到的数字样本序列。序列D＝｛d^（0），d^（1），d^（2），…，d^（m）｝定义了区间序列。例如，原始信号S（t）的局部最大值E^（0），E^（1），E^（2），…E^（m+1）之间的区间序列。

根据本发明，将语音信号划分成曲线段的程序可参照图3来说明。离散时间语音信号S（t）被划分成一系列曲线段C^（0），C^（1），C^（2），…，C^（i），……，C^m，每一个C^（i）则代表上述曲线段C^（i）的初始时间t（i）_s和结束时间t（i）_E之间的时间间隔上的上述语音信号S（t）的信号曲线。上述曲线段C^（i）的初始时间t^（i）s是上述语音信号S（t）的第一局部极值E^（i）（例如第一局部最大值）的时间，上述曲线段C^（i）的结束时间t（i）_E是上述语音信号S（t）的第二局部极值E^（i+1）（例如第二局部最大值）的时间，上述第二局部极值E^（i+1）是与第一根值E^（i）相同类型的局部极值。即，如果上述第一局部极值E^（i）假定为一局部最大值，那么第二局部极值E^（i+1）也是一局部最大值，并且如果上述第一局部极值E^（i）假定为一局部最小值，那么第二局部极值也是一局部最小值。既然两个极值E^（i）、E^（i+1）是相邻的，那么在它们之间再也没有同类型的局部极值发生。然而，相反类型的局部极值E^（i）一般会发生在上述第一和第二局部极值E^（i）和E^（i+1）之间。即，如果上述第一和第二局部极值E^（i）、E^（i+1）考虑为局部最大值，那么第三局部极值E^（i）将是局部最小值，反之亦然。

参照图4来描述上述曲线段描述参数d，A₁，A₂，A₃和A₄。上述第一参数变量有与上述曲线段C^（i）的持续期相等的值d^（i）。上述第二参数变量A₁有一对每一曲线段C^（i）都与曲线段C^（i）的上述第一极值E^（i）的量化值相等的值a（i）₁。上述第三参数变量A₂有一对每一曲线段C^（i）都与曲线段C^（i）的上述第二极值E^（+1）相等的值a（i）₂。上述第四参数变量A₃有一对每一曲线段都等于位于曲线段C^（i）的上述第一局部极值和第二局部极值之间的且与上述第一和第二极值相反类型的第三局部极值E^（i）相等的值a（i）₃。上述第五参数值A₄有一对每一曲线段都等于位于第一局部极值E^（i）的发生和第三局部极值E^（i）的发生之间的持续时间的量化值的a（i）₄，它以相对上述C^（i）期d^（i）的百分比值表示。

在此上下文中，“量化”概念意味着一个单个值与一值的范围相关联。例如，假定一由下表描述的值的范围：

表1

范围低限高限

0 0 16

1 16 32

2 32 64

3 64 96

4 96 128

例如，如果数44使用量化映照表1量化，那么该数映照成2。这样，128个的质范围能用带有相应的量化误差的5个值表示。量化映照是一特定值与它落入的范围相对应的表。

在本发明所述的对语音信号进行编码和译码的方法的上下文中，最好对每一变量参数利用著名的对取样数据的大集合应用到每一参数变量建立一量化表。

在本发明的较佳实施例中，包含五个索引的表被设计成使索引1代表具有范围从2到128的量化值的上述第一参数;索引2代表具有范围从0到8的量化值a（i）₁的上述第二参数A₁;索引3代表具有范围从0到8的量化值a（i）₂的上述第三参数变量A₂;索引4代表具有范围从0到8的量化值a（i）₃的上述第四参数变量A₃;索引5代表范围从0到16的量化百分比值a（i）₄的上述第五参数变量A₄。然而，本发明所述的方法并不只局限于这些设定。

当利用本发明的较佳实施例来分析大量的人的语音，例如来自上述TIMIT语音数据库时，上述曲线段数据库的容量收敛到接近64000个能区别的曲线段类型项。这样，必须接近64000个符号的字母（表）以便对这些曲线段类型进行编码，然而，最好的方法是通过上述曲线段数据库的索引号来简化对曲线段类型的编码。因为索引的最大值是大约64000，那么对每一曲线段进行编码由16位（“16位一量”）代表的量是足够的。在非静默时，第一参数变量的平均值对讲话者反在16和32之间的范围变化。这样在非静默期间得到从8∶1到16∶1的压缩比。而静默压缩比大约为128∶1。而且曲线段数据库可根据先前的峰值再细分类，因为重构算法知道这一点。因此，可用12-位量来代替16-位量对一曲线段进行编码。

如果曲线段数据库被限定为一单个的讲话者，一组讲话者（例如一组共用一条电话线的人）或人类人（例如女性语音对男性语音），那么可得到进一步的压缩。实验研究表明：由于相似的声管和发音特征，由一位讲话者发出的语音信号或多或少地与另一位讲话者的有点相类似如果有测量两句语音之间的距离的依据，那么这种相似性能被量化。这样的依据通常指度量或参数空间。给定这样的依据，产生类似的语音模式的讲话者能被分成一组。在一组内的讲话者仅产生所有通常的讲话者所产生的所有可能的语音模式的一小部分。这样，如果一讲话者被辩认为属于这样一组，那么将语音模式发送给储存语音模式的装置的通道仅需有能力去传输由再分组产生的模式。这些通道然后分别有带宽储存容量要求，该要求与讲话人有关并取决于是谁在讲话。事实上，任何一个讲话者平均仅要求8000种曲线段以便代表任何可能发生的语音。因此，一13-位量值足够用作为一索引。

因此，本发明通过提供曲线段数据库的预定义子集而增强效果。这些子集对讲话者特定的，且可由讲话者通过在语音编码开始之前将个人指定码输入编码器来激发。电话终端可装有卡的接口单元（IC-卡是包含一集成电路器件和一组电连接器的小卡片）。在编码过程开始前，讲话者插入一有指定一预定曲线段数据库的子集的码的个人IC-卡。编码器发送该指定码给译码器，这样能保证：编码器和译码器能使用同样较小的曲线段数据库的子集。然而，由单个讲话者明显地提供指定一子集的码不是必要的。编码程序可以在前面加上一估计程序，对一未知的讲话者使用的曲线段类型的子集作出的估计被采用。在这种情况下，编码器通知译码器根据上述估计结果将总的曲线段数据库切换到小组。

用来实现一独立于讲话者的一般方法是根据对讲话者的辩认调整表示预想的语音模式所必需的位数，它包括下列步骤：

（a）将发送全体讲话者必须的所有参数值分解成有代表性的讲话者小组的子集（这些子集比原有的空间所包含的元素要少）;

（b）估计一给定的讲话者将使用哪一个子集;

（c）根据较小的子集对语音数据进行编码和译码。

例如，在电话应用中，这种方法可如下工作。讲话者1（sp①），呼叫讲话者2（sp②）。通话开始。当SPI讲话时，代表他的语音的曲线段类型可从所有可能的讲话者的曲线段数据库中选择。当数据段类型被选择和发送时，保持记录它们属于哪一个曲线段数据库子集。记录的结果是，一子空间被选中以便中选择语音曲线段类型（这些可能的曲线段数据库子集事先加以标识）。然后，译码器接到通知使用该子集。这时，用来表示SP1的语音的位数被缩减。然而如果SP1产生一属于上述预料的子空间以外的曲线段类型的曲线段，那第译码器被通知切换回到所有可能的语音模式的原始曲线数据库直到预言一新的子空间，对讲话者SP2也使用同样的方法。

更具体地，在本发明的较佳实施例中对曲线段数据库的子划分步骤如下：

（1）从TIMIT数据库中任意选择一讲话者;

（2）构成一该讲话者使用的所有线段类型的集合;

（3）构成一由“讲话者小组”，它由所有讲话者组成的曲线段至少有百分之八十与原始讲话者的曲线段相同的由所有讲话者组成;

（4）构成一由整个“讲话者小组”使用的所有曲线段类型的新的集合;

（5）仅对剩下的未分组的讲话者重复步骤1到4;

（6）重复步骤5直到所有的讲话者都被分组。

这一程序的结果是产生若干包含曲线段类型的子集。这些集合中的每一个都包含由那些带有“类似”的发音特征的讲话者所产生的曲线段类型。而且，这些集合中的每一个包含的成员比整个曲线段数据库要少。

在本发明的一较佳实施例中，对未知的讲话者使用的的曲线段数据库的子集的估计如下：

（1）从未知讲话者的给定的语音信号中进行采样并对曲线段进行参数化;

（2）当每曲线段被参数化且与一曲线段类型相关联时，跟踪曲线段类型所属的小组;

（3）当属于某相同子集的边疆的曲线段的数目达到预定数n时，该未知的讲话者被估计为使用曲线数据库的该特定子集。

本发明所使用的选择局部极值的方法并不是所需的唯一可行方法。带有各种有关极值的“局部性”的限制的局部最大值也可使用。而且有可能使用左手或右手零交叉作为间隔标志来代替局部最大值。

通过将常用的编码技术应用到代表已编码的语音信号的符号序列可得到进一步的压缩，例如，符号对整个符号链可被超编码。如果使用索引作为符号代表，它们可以求差。存在多种可能的超一编码技术。

本发明的方法可扩大为自适应的。如果一要被编码的曲线段被辩认为不属于该曲线段数据库的曲线段类型，那么参数变量的实际值被传送到译码器而不传送符号或索引。这些曲线段可存储在该曲线数据库中，且量化空间可被更新。

以上描述的本发明是对人的语音信号进行编码和译码的方法。然而，根据本发明，该方法并不只局限于人的语音信号。如果其它声音或非声音信号能有一足够表示特征的信号模式（的有限集合）则它们也可被编码。其中，乐器的声音信号就是一个例子。

更准确地说，对使用本发明的方法，信号的一结合体是必需的且足够的。信号的结合体是由许多类似的装置产生的信号的集合，这些信号的频率是落在一有限的或一定的范围之内或一组频率范围之内。

Claims

1、一种对人的语音信号进行编码和译码的方法，它包括下列步骤：

(a)产生一存储与有限数量的第一类人的语音信号的曲线段类型有关的数据的曲线段数据库，上述曲线段类型足够基本上复盖所有的可觉察到的人的语音信号的曲线段；其中

(a1)一曲线段是在上述语音信号的一个区间上代表上述第一类人的语音信号的一段；

(a2)对预定的一个或多个参数变量的集合中的每一参数变量，上述曲线段可由离散参数值来描述；

(a3)一曲线段类型是由相同的参数值来表示的一类曲线段；

(a4)上述曲线数据库的上述每一曲线段型被赋予唯一符号；

(b)将第二类人的语音信号(实际上要编码的)进行编码，编码成一系列上述符号；其中

(b1)上述第二类语音信号被细分成一系列曲线段；

(b2)上述第二语音信号的每一曲线段被指定成一符号，该符号本身被指定为上述曲线段数据库内的某曲线段类型，而上述第二语音信号的上述曲线段属于该曲线段类型；

(b3)上述被指定的符号按照上述第二语音信号内的曲线段的次序构成已编码语音信号；

(c)根据已编码的第二语音信号中符号顺序，从一组代表性信号曲线中取得一系列链接的代表性信号曲线，组成一与上述第二语音信号相对应的译码后的语音信号。每一代表上述符号的代表性信号曲线表现为一被指定为上述符号的单个线段；其特征在于上述有用来组成上述译码语音信号的一组代表性信号曲线来自自然人的语音。

2、如权利要求1所述的方法，上述语音信号在编码后存储在信息存储装置中，并且在译码前从上述信息存储装置中读出。

3、如权利要求1所述的方法，上述人的语音信号在编码后和译码前通过一通讯通道来传送。

4、一种对由一系列符号编码的人的语音信号进行译码的方法，每一符号被指定给一种曲线段类型;一曲线段代表上述译码后语音信号一区间上的一段上述译码后的人的语音信号，预定的一组一个或多个参数变量的每一参数变量，上述曲线段由离散参数值来描述，一曲线段类型是一类由同一参数值表示的曲线段;唯一个符号指派给每一种上述曲线段类型，它包括一步骤，即根据编码后的第二语音信号的符号顺序从一组代表性信号曲线中取得一系列链化的代表性语音曲线组成相应于上述编码的人的语音信号的上述译码后的人的语音信号，每一代表上述符号的代表性信号曲线表现为被指定上述符号的单个曲线段，其特征在于用来构成上述译码的语音信号的一组代表性信号曲线来自自然的人的语音。

5、根据权利要求4所述的方法，其特征在于上述人的语音信号在编码后和译码前通过一通讯通道来传输。

6、如权利要求4所述的方法，其特征在于上述人的语音信号在编码后存储在信息存储装置中，而在译码前从上述信息存储装置中读出。

7、一种对人的语音信号进行编码和译码的方法，它包括下列步骤：

（a）产生一存储与有限数量的第一语音信号的曲线段类型有关的数据的曲线段数据库，上述曲线段类型足够基本上复盖所有的可觉察到的人的语音信号的曲线段;其中

（a1）一曲线段代表在上述语音信号的尖峰序列的两个相邻尖峰之间的间隔上一段上述第一类语音信号;

（a2）对预定的一个或多个参数变量的集合中的每一参数变量，上述曲线段可由离散参数值来描述;

（a3）一曲线段类型是由相同的参数值来描述的一类曲线段;

（a4）上述曲线段数据库的每一上述曲线段类型被指定为唯一符号;

（b）将第二语音信号（实际上要编码的）编码为一系列上述符号;其中

（b1）根据相应的尖峰序列，上述第二语音信号被组分成一系列曲线段;

（b2）上述第二语音信号的每一曲线段被指定成上述本身被指定为上述曲线段数据库内的曲线段型的上述符号，而上述第二语音信号的上述曲线段属于上述曲线段库;

（b3）上述被指定的符号按照上述第二语音信号内的曲线段的次序构成编码的人的语音信号;

（c）根据编码后的第二语音信号，从一组代表性信号曲线中得到一系列链接的代表性信号，组成一与上述第二语音信号相对应的译码后的语音信号。每一代表上述符号的上述代表性信号曲线表现为一被指定为上述符号的信号曲线段;其特征在于一组预定的参数变量描述两个相邻的且同类型的第一局部极值和第二局部极值之间的曲线段并定义上述尖峰序列的两个相邻的尖峰的位置。它包括下列参数变量：

-有一对每一曲线段都等于上述曲线段的持续期的量化值的第一参数变量（d）;

-有一对每一曲线段都等于上述曲线段的第一极值的量化值的第二参数变量（A₁）;

-有一对每一曲线段都等于上述曲线段的第二极值的量化值的第三参数变量（A₂）;

-有一对每一曲线段都等于位于上述曲线段的第一局部极值和上述第二局部极值之间的并与上述第一和第二极值不同类型的第三局部极值的量化值的第四参数变量（A₃）;

-有一对每一曲线段都等于位于上述第一极值的发生点与上述第三极值的发生点之间的持续时间的量化值的第五参数变量（A₄），该参数变量由相对于上述曲线段的持续期的百分比值来表示。

8、如权利要求7所述的方法，其特征在于上述人的语音信号在编码后和在译码前在一通讯通道上传输。

9、如权利要求7所述的方法，其特征在于上述人的语音信号在编码后储存在信息存储装置中，而在译码前从上述信息存储装置中读出。

10、一种对人的语音信号进行编码和译码的方法，它包括下列步骤：

（a）产生一存储与一定数量的第一语音信号的曲线段类型有关的数据的曲线段数据库，上述曲线段类型足够基本上覆盖所有的可觉察到的人的语音信号的曲线段;其中

（a1）一曲线段是代表在相应于上述语音信号的一波峰（尖顶）序列的两个相邻波峰之间的间隔内的上述第一类人的语音信号的一段;

（a3）一曲线段类型是由相同的参数值来描述的一类曲线段;

（a4）上述曲线段数据库的每一上述曲线段类型被赋予同一符号;

（b）将第二类语音信号实际上编码成一系列上述符号;其中

（b1）根据相应的尖峰序列，上述第二类语音信号被组分成一系列曲线段;

（b2）上述第二类语音信号的每一曲线段被指定成上述本身被指定为上述曲线段数据库内的曲线段型的上述符号，而上述第二类语音信号的上述曲线段属于上述曲线段数据库;

（b3）上述被指定的符号按照上述第二类语音信号内的曲线段的次序构成的已编码的人的语音信号;

其特征在于预定的一组参数变量描述两个相邻的且同类型的第一局部极值和第二局部极值之间的曲线段并定义上述尖峰序列的两个相邻的尖峰的位置。它包括下列参数变量：

-有一对每一曲线段都等于位于上述第一极值的发生点与上述第三极值的发生点之间的持续时间的量化值的第五参数（A₄）变量，该参数变量由相对于上述曲线段的持续期的百分比来表示。

11、如权利要求10所述的方法，其特征在于上述人的语音信号在编码后和在译码前在一通讯通道上传输。

12、如权利要求7所述的方法，其特征在于上述人的语音信号在编码后储存在信息存储装置中，而在译码前从上述信息存储装置中读出。

13、一种对由一系列序号编码的人的语音信号进行译码的方法，每一符号被指定给一种曲线段类型;一曲线段代表上述译码后语音信号一区间上的一段上述译码后的人的语音信号，预定的一组一个或多个参数变量的每一参数变量的参数值，上述曲线段由离散参数值来描述，一曲线段类型是一类由同一参数值表示的曲线段;唯一个符号指派给每一种上述曲线段类型，它包括一步骤，即根据编码后的第二类语音信号的符号顺序从一组代表性信号曲线中得到一系列链化的代表性语音曲线组成相应于上述编码的人的语音信号的上述译码后的人的语音信号，每一代表上述符号的代表性信号曲线表现为被指定上述符号的单个曲线段，其特征在于描述两个相邻的且同类型的第一局部极值和第二局部极值之间的曲线段并限定上述波峰序列的两个相邻的波峰的位置的预定的一组参数变量包括下列参数变量：

-有一对每一曲线段都等于位于上述第一极值的发生点与上述第三极值的发生点之间的持续时间的量化值的第五参数变量（A₄），该参数变量由相对于上述曲线段的持续期的百分比来表示。

14、如权利要求13所述的方法，其特征在于上述人的语音信号在编码后和在译码前在一通讯通道上传输。

15、如权利要求13所述的方法，其特征在于上述人的语音信号在编码后储存在信息存储装置中，而在译码前从上述信息存储装置中读出。

16、一种用来对人的语音信号进行编码和译码的方法，它包括下列步骤：

（a）产生一储存与一定数量的第一语音信号的曲线段类型有关的数据的曲线段数据库，上述曲线段类型足够基本上覆盖所有的可觉察到的人的语音信号的曲线段;其中

（a1）一曲线段代表在上述语音信号的一波峰（尖顶）序列的两个相邻尖峰之间的间隔上内一段上述第一类语音信号;

（a3）一曲线段类型是由相同的参数值来表示的一组曲线段;

（a4）上述曲线段数据库的每一上述曲线段类型被指定用同一符号;

（b）将第二语音信号实际上编码成一系列上述符号;其中

（b1）根据相应的矢峰序列，上述第二语音信号被再分成一系列曲线段;

（b2）上述第二语音信号的每一曲线段被指定成上述本身被指定为上述曲线段数据库内的曲线段型的上述符号，而上述第二语音信号的上述曲线段属于上述曲线段数据;

（c）根据编码后的第二语音信号，当一系列链化的代表性信号被从一组代表性信号曲线段中得到时，组成一与上述第二语音信号相对应的译码后的语音信号，每一代表上述符号的上述代表性信号曲线表示了一被指定为上述符号的信号曲线段;其特征在于上述曲线段数据库包括许多子集，这些子集被确认是对单个讲话者或讲话者小组或一类讲话者的语音信号的特有的，并且构成上述译码和语音信号是根据上述被限定到一个或多个上述子集的代表性信号曲线业完成的。

17、如权利要求16所述的方法，其特征在于在上述编码和译码步骤进行之前，上述曲线曲线段库的子集根据要被编码和译码的第二语音信号的实际特征被确认。

18、根据权利要求16提出的方法，其特征在于在上述编码和译码步骤进行之前，上述曲线段数据库的子集被预先在一曲线段子集数据库中定义。

19、根据权利要求18提出的方法，其特征在于在上述编码和译码步骤进行之前，上述曲线段数据库的上述子集根据要被编码和译码的第二语音信号的实际特征被确认。

20、一种对来自一信号结合体的信号进行编码和译码的方法，它包括下列步骤：

（a）产生一储存涉及一定数量的第一语音信号的曲线段类型有关的数据的曲线段数据库，上述曲线段类型足够基本上覆盖所有的可觉察到的人的语音信号的曲线段;其中

（a1）一曲线段代表相应于上述语音信号的一尖峰（尖顶）序列的两个相邻尖峰之间的间隔内的一段上述第一语音信号;

（a3）一曲线段类型是由相同的参数值来描述的一类曲线段;

（a4）上述曲线段数据库的每一上述曲线段类型被指定赋予用同一符号;

（b）将来自上述信号的结合体的第二语音信号实际上要编码成一系列上述符号;其中

（b1）上述第二语音信号被细分成一系列曲线段;

（b3）上述被指定的符号按照上述第二语音信号内的曲线段的次序构成来自上述信号的结合体的编码的人的语音信号;

（c）根据编码后的第二语音信号，从一系列链接的代表性信号被从一组代表性信号曲线中得到时，组成一与上述第二语音信号相对应的译码后的语音信号，每一代表上述符号的上述代表性信号曲线表示为一被指定为上述符号的信号曲线段;其特征在于用来构成上述译码的信号的上述一组代表性信号曲线是来自自然的信号源。

21、如权利要求20所述的方法，其特征在于来自上述信号结合体的上述信号在编码后存储在信息存储装置中，而在译码之前从上述信息存储装置中读出。

22、如权利要求20所述的方法，其特征在于来自上述信号结合体的上述信号在编码后和译码前在一通信通道中传输。

23、一种对由一系列符号编码的来自信号的结合体的信号进行译码的方法，每一符号被指定给一种曲线段类型;一曲线段代表上述译码后信号一间隔段上的上述译码后的人的语音信号，对预定的一组一个或多个参数变量的每一参数变量，上述曲线段由离散参数值来表示，一曲线段类型是一组由同一参数值表示的曲线段;唯一一种符号指派给每一种上述曲线段类型，它包括一步骤，即根据编码后的第二语音信号的符号顺序从一组代表性信号曲线中到得当一系列链化的代表性信号曲线得到时组成相应于上述编码的信号的上述来自上述信号分成体的译码后的信号，每一代表上述符号的代表性信号曲线表示被指定为上述符号的单一个曲线段，其特征在于用来构成上述译码的信号的一组代表性信号曲线是来自自然的信号源。

24、如权利要求23所述的方法，其特征在于来自上述信号合成体（结合体）的信号在编码后和译码前在通信通道中传输。

25、如权利要求23所述的方法，其特征在于来自上述信号合成体的信中在编码后存储在信息存储装置并且在译码前从上述信息存储装置中读出。

26、一种用来对来自信号合成体的信号进行编码和译码的方法，包括下列步骤：

（a）产生一储存涉及一定数量的来自上述信号合成体的第一信号的曲线段类型的数据的曲率段数据库，上述曲线段类型足够基本上覆盖所有的可觉察到的来自上述信号合成体的信号的曲线段;其中

（a1）一曲线段代表相应于上述来自信号合成体的信号的一尖峰序列的两个相邻波峰之间的间隔内的一部分上述第一（类）信号;

（a3）一曲线段类型是由相同的参数值来表示的一类曲线段;

（b）将来自上述信号合成体的第二信号实际上编码成一系列上述符号;其中

（b1）根据相应的尖峰序列，上述第二信号被再细分成一系列曲线段;

（b2）上述第二（类）信号的每一曲线段被指定成一符号，该符号本身被指定为上述曲线段数据基内的曲线段类型，而上述第二信号的上述曲线段属于该曲线段数据库;

（b3）上述被指定的符号按照上述第二信号内的曲线段的次序构成已编码的信号;

（c）根据已编码的第二信号且从一组代表性信号曲线中得到当一系列链接的代表性信号，组成一与上述第二信号相对应的译码后的信号，每一代表上述符号的上述代表性信号曲线表现为一被指定为上述符号的信号曲线段;其特征在于描述两个相邻的且同类型的第一局部极值和第二局部极值之间的曲线段并限定上述尖峰序列的两个相邻的尖峰的位置的预定的一组参数变量包括下列参数变量：

-有一对每一曲线段都等于位于上述曲线段第一局部极值和上述第二局部极值之间的并与上述第一和第二极值不同类型的第三局部极值的量化值的第四参数变量（A₃）;

-有一对每一曲线段都等于位于上述第一极值的发生点与上述第三极值的发生点之间的持续时间的量化值的第五参数（A₄），该参数变量由相对于上述曲线段的持续期的百分比来表示。

27、如权利要求26所述的方法，其特征在于上述来自信号合成体的信号在被编码后和在被译码前在一通信通道上传输。

28、如权利要求26所述的方法，其特征在于上述来自信号合成体的信号在编码后存储在信息存储装置中，而在译码前从上述信息存储装置中读出。

29、一种用来来自信号合成体的信号进行编码和译码的方法，它包括下列步骤：

（a）产生一储存涉及一定数量的来自上述信号合成体的第一信号的曲线段类型的数据的曲率段数据库，上述曲线段类型足够基本上覆盖所有的可觉察到可从上述信号合成体中得到的信号曲线段;其中

（a1）一曲线段是代表在相应于上述信号的一尖峰序列的两个相邻尖峰之间的间隔内的上述第一（类）信号的一段;

（a3）一曲线段类型是由相同的参数值来描述的一类曲线段;

（b1）根据相应的波峰序列，上述来自上述信号合成体的第二信号被细分成一系列曲线段;

（b2）上述第二（类）信号的每一曲线段被指定成上述本身被指定为上述曲线段数据库内的曲线段型的上述符号，而上述第二信号的上述曲线段属于上述曲线段数据库;

其特征在于描述两个相邻的且同类型的第一局部极值和第二局部极值之间的曲线段并限定上述波峰序列的两个相邻的波峰的位置的预定的一组参数变量包括下列参数变量：

-有一对每一曲线段都等于上述曲线段的波期的量化值的第一参数变量（d）;

-有一对每一曲线段都等于位于曲线段的上述第一局部极值和上述第二局部极值之间的并与上述第一和第二极值不同类型的第三局部极值的量化值的第四参数变量（A₃）;

30、如权利要求29所述的方法，其特征在于上述来自信号合成体的信号在被编码后和在被译码前在一通信通道上传输。

31、如权利要求7所述的方法，其特征在于上述来自信号合成体的信号在编码后存储在信息存储装置中，而在被译码前从上述信息存储装置中读出。

32、一种对由一系列序号编码的来自信号合成体的信号进行译码的方法，与一符号被指定给一种曲线段类型;一曲线段代表上述译码后的信号区间上的一段上述译码后的信号;对预定的一组一个或多个参数变量的每一参数变量的参数值，上述曲线段由离散的参数值来描述;一曲线段类型是一类由同一参数值表示的曲线段;唯一一个符号指派给一种上述曲线段类型，它包括一步骤，即根据编码后的第二信号的符号的顺序从一组代表性信号曲线中取得当一系列链化的代表性信号曲线组成相应于上述编码的信号的上述译码后的信号，每一代表上述符号的代表性信号曲线表现为被指定为上述符号的单一个曲线段，其特征在于描述两个相邻的且同类型的第一局部极值和第二局部极值之间的曲线段并且定义上述尖峰序列的两个相邻的波峰的位置的预定的一组参数变量包括下列参数变量：

33、如权利要求32所述的方法，其特征在于上述来自信号合成体的信号在被编码后和在被译码前在一通信通道上传输。

34、如权利要求32所述的方法，其特征在于上述来自信号合成体的信号在编码后存储在信息存储装置中，而在被译码前从上述信息存储装置中读出。

35、一种对来自信号合成体的信号进行编码和译码的方法，它包括下列步骤：

（a）产生一存储与一定数量的第一信号的曲线段类型有关的数据的曲线段数据库，上述曲线段类型足够基本上覆盖所有的可觉察到的来自信号合成体的信号的曲线段;其中

（a1）一曲线段代表上述相应于上述语音信号的一波峰序列的两个相邻尖峰之间的间隔上的上述第一（类）信号的一段;

（a3）一曲线段类型（或曲线段型）是由相同的参数值来表示的一类曲线段;

（a4）上述曲线段数据库的上述每一曲线段类型被赋予同一符号;

（b）将来自上述信号合成体的信号进行编码，并将它实际编码成一系列上述符号;其中

（b1）根据相应的波峰序列将上述第二信号细分成一系列曲线段;

（b2）上述第二信号的每一曲线段被指定成一符号，符号本身被指定为上述曲线段数据基内的曲线段型，而上述第二语音信号的上述曲线段属于该线段数据库;

（c）根据已编码的第二信号中符号顺序，从一组代表性信号曲线中取得一系列链接的代表性信号曲线，组成一与上述第二信号相对应的译码后的信号;每一代表上述符号的代表性信号曲线表现为一被指定为上述符号单个曲线段;其特征在于上述曲线段数据基包括许多子集，这些子集被确认是对单个讲话者或几组讲话者或一群讲话者的语音信号的特征，并且在这一点上，组成上述译码的语音信号是根据上述被定义为一个多个上述子集的代表性信号曲线来完成的。

36、如权利要求35所述的方法，其特征在于在上述编码和译码步骤被完成之前，根据要被编码和译码的来自上述信号合成体的第二信号的实际特征去确认上述曲率段数据库的子集。

37、如权利要求35所述的方法，其特征在于在上述编码和译码步骤进行之前，上述曲线段数据库的子集被预告定义在曲线段子集数据库中。

38、如权利要求37所述的方法，其特征在于在上述编码和译码步骤进行之前，根据要编码和译码的来自上述信号合成体的第二信号的实际特征确认上述曲线段数据库的子集。

39、一种对语音信号进行编码和译码的方法，它包括：

（1）产生一包含与来自至少一个人的实际语音信号的片段有关的数据的数据库，这样的每一片段包含一部分语音信号相继的局部最大值（或相继的局部最小值）之间的实际语音信号;

（2）给每一不同片段指定一不同的类型标识符;

（3）从至少一个另外的人的语音信号来构成一编码的人的语音信号，该步骤包括：

（a）形成实际的人的语音信号到各片段，其中一片段包括信号的相继的局部最大值（或局部最小值）之间的一部分该另外的人的语音信号;

（b）将从额外的人的语音信号中得到的片段与数据库中的片段进行比较以便定痊一最接近的匹配;以及

（c）通过数据库中的最近匹配的片段的类型标识符辩认实际的人的语音信号的每一片段以便构成组成编码的人的语音信号的一系列类型标识符以及

（4）通过将一系列类型标识符转换成它们的实际语音信号的相应片段来从上述编码的人的语音信号产生一重构的人的语音信号。

40、如权利要求39所述的对语音信号进行编码和译码的方法，其特征在于产生一数据库的步骤包括将每一片段离散的一组参数值相关联的步骤，它们表示为：

a）上述片段的持续期;

b）上述片段的第一局部最大值（或局部最小值）;

c）上述片段的第二局部最大值（或局部最小值）;以及

d）发生在该片段第一和第二局部最大值（或局部最小值）之间的第三值。

41、如权利要求39所述的进一步的对语音信号进行编码和译码的方法，其特征在于它包括下列步骤：

监控已构成类型标识符系列并减少包含在上述数据库中的数据以便至少去掉在形成的类型标识符系列中未发现的一些数据。

42、一种对音频频信号进行编码和译码的方法，其特征在于它包括：

（1）产生一包含与可能的音频信号各片段有关的数据的数据库。这样的每一片段包含一部分信号相继局部最大值（或相继的局部最小值）之间的可能的音频信号;

（2）给每一不同片段指定一不同类型的标识符;

（3）从至少另外一人的语音信号来构成编码的音频信号，该步骤包括：

（a）构成实际的音频信号为各片段，其中每一片段包括另外一人的相继的局部最大值（或局部最小值）之间的一部分音频信号;

（b）将从另外一人的音频信号中得到的片段与数据库中的片段进行比较以便定位一最接近的匹配;以及

（c）通过数据库中的最近匹配的片段的类型标识符辨别实际的音频信号的每一片段，以便构成组成编码的音频信号的类型标识符，以及，

（4）通过将一系列类型标识符转换成它们的实际音频信号的相应部分来从上述编码的音频信号产生一重构的音频信号。