CN1302513A

CN1302513A - 用于发送多媒体信号的传输系统

Info

Publication number: CN1302513A
Application number: CN99805668A
Authority: CN
Inventors: R·陶里; W·R·T·滕卡特
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Pendragon wireless limited liability company
Priority date: 1999-01-06
Filing date: 1999-12-21
Publication date: 2001-07-04
Anticipated expiration: 2019-12-21
Also published as: WO2000041400A3; WO2000041400A2; KR20010083780A; JP2002534922A; EP1058997A1; US20030179757A1; KR100722707B1; JP4485690B2; CN1127857C

Abstract

在一个通讯系统中,多媒体信号在编码器(1)中编码,并通过包开关网络(4)传送到终端(6)。终端(6)包括一接收器(8),接收器的输出连接到接收缓冲器(210)。接收缓冲器(210)的输出施加到包含解码器(216)和演示器(218)的演示装置(214)。为了处理包开关网络(4)的延迟变化,建议根据多媒体信号的传输延迟改变多媒体信号的演示速度。这通过控制器(212)完成,它确定缓冲器(210)中包的数量并相应地调节多媒体信号的解码速率和回放速率。

Description

用于发送多媒体信号的传输系统

本发明涉及到一套用于复制多媒体信号、包括向用户演示多媒体信号的演示设备的装置。本发明也涉及到一种复制多媒体信号的方法。

从V.Hardman等人于1995年5月4日发表在URL为http://www.isoc.org/HMP/PAPER/2070/hrml/paper.html的ISOC网站中的文章“通过互联网使用的可靠音频”中可以知道这样一套系统。

在上述文章中描述的系统都用于通过诸如，举例来说，互联网，ATM网络或MPEG-2传输流的包交换网传输多媒体信号，如音频和视频信息。

通过包交换网实时传输多媒体信号涉及到的主要问题是会发生包丢失，包延迟和包延迟扩散。包丢失可使用用于将包的不完整序列在演示给用户之前完整化的重构技术来解决。

包延迟扩散的解决方法是使用大的接收缓冲器以便能够一直有可演示给用户的包。为使之成为可能，接收缓冲器应足够大，以便可以应付可能发生的最大延迟扩散。由此得到多媒体信号在演示给用户之前有相当大的延迟。

多媒体信号的大的延迟在完全双工通信系统，如网络电话系统和类似于电视会议系统和网络游戏的多方系统中尤其是个问题。

本发明的目的是提供一套根据前述的传输系统，其中总的端到端延迟被基本消除了。

为实现上述目的，依照本发明的传输系统的特征在于其中的第二平台包括用于确定携带有多媒体信号的包的到达延迟的延迟确定设备，而且其中的演示设备能够根据携带有多媒体信号的包的上述到达延迟改变演示速度。

通过确定包延迟并根据上述包延迟确定演示速度，在第二平台中可以使用较小尺寸的缓冲器来解决延迟扩散问题。由于第二平台中的缓冲器尺寸较小，因而可以基本消除总的端到端延迟。

实验显示，大约240％的演示速度变化都几乎不被用户注意到。

可以看到，在H.Sanneck等人提供给IEEE Globecom 219296Conference,London,November 218-222,219296并发表在GlobalInternet‘296Conference Record,pp.248-252的文章“一种新的音频包丢失掩盖技术”中，提供了一种通过对原始信号的时间拉伸来重构丢失的包的方法。不过可以看到，上述文章并没有提及将时间拉伸作为一种工具用来消除用于传输多媒体信号的通信系统中的端到端延迟。

可以看到，本发明构想不仅仅适用于可将抖动引入多媒体信号中的多媒体信号通过网络的传输，而且也适用于其中多媒体信号显示有抖动的所有情形。

这个情况的第一个例子是需要在可编程处理器中计算多媒体信号中的内容。计算时间取决于多媒体的实际内容，所以在精确的时间间隔之后不一定都有可利用的多媒体信号。这是，举例来说，在运行多任务操作系统的计算机中和在现在所有的计算机游戏中常常遇到的多媒体信号计算涉及渲染精美的3D图像时的情形。第二个例子是从存储器件，比如CD-ROM或硬盘中提取多媒体信号。

访问时间随读出头的实际位置的不同而发生变化，因此会将抖动引入多媒体信号中。

如果演示速度取决于多媒体信号的可利用性，就可更平稳地演示多媒体信号。

本发明的一个具体实施例的特征在于多媒体信号中包括一个音频信号，其中的演示设备用于改变音频信号的演示速度，而基本不会改变音频信号的可觉察语调。

改变音频信号的演示速度且不改变其语调，会降低改变了演示速度的可听度。从以前的技术中可以知道改变音频信号演示速度且不改变音频信号语调的一些方法。在上述Globecom的文章中给出了这样一个例子。

依据本发明的通信系统的一个推荐具体实施例的特征在于其中的音频信号由多个包括多个至少用其振幅和频率描述的音频信号的节表征，而且其中的演示设备用于根据包的上述可利用性来改变上述节的持续时间。

音频信号的这种表征方法的使用使得很容易地改变演示速度，并且不改变音频信号的语调。在这种表征方法中，音频信号的基频是由表征该信号的信号的属性决定的，重构音频信号时用到的节的长度决定了演示速度。

当重构装置中用到的节的长度大于节的标称长度时，回放演示速度要低于原始的演示速度。

当重构装置中用到的节的长度小于节的标称长度时，回放演示速度要高于原始的演示速度。

本发明的一个更进一步的具体实施例的特征在于其中的演示设备包括具有用于确定表征延迟测量结果和参考值之间差值的差分信号的比较设备，而且其中的演示设备包括用于根据该差值调节演示速度的调节设备。

这个具体实施例提供了一种由延迟测量结果确定演示速度的容易而有效的方法。

本发明的一个更进一步的具体实施例的特征在于其中的演示设备包括用于根据差值变化适应性调节参考值的适应设备。

通过根据差值的变化改变参考值，可以根据多媒体信号中出现的抖动的实际总量确定平均缓冲器尺寸。如果抖动高，参考值就会有一个高的值，因此在缓冲器中就会有大量的包。如果抖动低，参考值就会有一个低的值，因此在缓冲器中就会有少量的包。

在此方法中，缓冲器中实际尺寸永远不会大于应付多媒体信号中出现的抖动的实际总量所需的尺寸。

本发明的一个更进一步的具体实施例可用于多媒体信号包括视频信号的情况，其特征在于该视频信号由至少一个对象表征，而且其中的演示设备可通过调节视频信号中至少一个对象的运动速度来改变演示速度。

本发明的这个具体实施例可用于就像MPEG-4视频信号那样由数个分立对象表征的视频信号。在此类视频信号中，通过调节一个或多个对象的运动速度可以轻易地改变演示速度。这种改变演示速度的方法几乎不会被该装置的用户察觉到。

本发明的一个更进一步的具体实施例的特征在于其中的多媒体信号包括至少两个分量，其中的延迟测量结果表征了上述至少两个分量之间的时序差，而且其中的演示设备用于改变演示速度，以消除上述时序差。

本发明也适用于同步一个多媒体信号的两个或多个分量。延迟测量结果表征了两个分量之间的时序差。该时序差可以，举例来说，从与每个分量一起包含在多媒体信号中的时间标记中推出。

现在结合附图解释本发明。

图1是依据本发明的一个通信系统的方框图。

图2是如图1所示的通信系统的控制器212。

图3是如图1所示的通信系统中使用的控制器212的一个替代具体实施例。

图4是如图1所示的通信系统中使用的编码器1的方框图。

图5是如图1所示的通信系统中使用的解码器216的方框图。

图6更详细地显示出解码器216中使用的谐波语音合成器294。

图7是合成帧长是常数时，谐波语音合成器294中的不同波形。

图8是当两个相邻合成帧之间的合成帧长变化时，谐波语音合成器294中的不同波形。

图9更详细地显示出解码器216中使用的无声语音合成器296。

图10是如图1所示的系统中用于视频信号解码的编码器216的方框图。

在如图1所示的通信系统中，一个需要发送的多媒体信号被加在第一平台3中的编码器1上。编码器1用于从输入信号中推出编码多媒体信号。编码器1的输出与发送器2的一个输入相连接。发送器2用于推出适合于发送的发送信号。发送器的输出构成了第一平台的输出，而且它与包交换传输网4相连接。

第二平台6也与包交换网4相连接。第二平台6包括用于从网络4接收包含有编码多媒体信号的包的接收器8。接收器4将包含有编码多媒体信号的包传递给缓冲存储器10。一般地，缓冲存储器10是一个FIFO存储器，在该存储器中可以按照与将包写入缓冲存储器10时的相同次序从缓冲存储器10中读出包。携带有暂时保存在缓冲存储器10中的缓冲包的缓冲存储器10的第一输出与演示设备14相连接。

携带有表征携带多媒体信号的包的到达延迟测量结果的缓冲存储器10的第二输出，与控制器件12的第一输入相连接。表征到达延迟的测量结果可以包括当前在缓冲器中的包的数目。如果延迟增加，当前在缓冲存储器10中的包数目将减少，当延迟减小，当前缓冲器中的包数目将增加。通过计算读出指针和写入指针的位置之间的差值，便可容易地确定当前在缓冲器中的包的数目。

如果多媒体信号中包括时间标记，也可以通过比较与多媒体信号中预先确定的部分相关联的时间标记和多媒体信号中上述预先确定的部分的实际到达时间来推出延迟测量结果。

携带有读出控制信号的控制器件12的第一输出与缓冲存储器10的第二输出相连接。读出控制信号指令缓冲存储器10将下一个包提供给它的输出。携带有表征演示速度的信号的控制器件12的第二输出与演示设备14中的解码器16的控制输入相连接。根据本发明的发明理念，控制器件12根据表征传输延迟的测量结果确定演示速度。这里传输延迟的这个测量结果是当前缓冲存储器10中的包的数目。节长指标向编码器16提供将要合成的节的实际长度。

解码器16从接收自缓冲存储器10的编码信号中推出多媒体信号采样的节。节的延续时间不需要是恒定的，可以根据节长指标而变化，以便改变多媒体信息的演示速度。解码器16的输出与演示器件18相连接，在多媒体信号只包括音频信号的情况下，演示器件18可以是一个扬声器，而当多媒体信号包括视频信号时，演示器件18可以是一个显示器件。

在如图2所示的控制器件12中，一个表征传输延迟的输入信号被加在比较器20的第一输入上。在本具体实施例中，这个输入信号表征的是在缓冲器中的包的数目。比较器20将在缓冲器中的包的数目与参考值REF作比较。比较器20的输出通过低通滤波器22耦合到时钟信号发生器24的控制输入中。时钟信号发生器24产生缓冲器10的读出控制信号和解码器16的帧长指标。

如果在缓冲器中的包的数目小于参考值，则意味着传输延迟已经增加了。因此比较器20产生一个输出信号，该信号可使时钟信号发生器减小读出控制信号的频率，并增加由帧长指标标记的帧长。这将降低演示速度。由于演示速度降低，从缓冲器读出的内容便少了，因而有机会将缓冲器用包充满。因此，在一定时间后缓冲器中的包的数目将增加。

如果在缓冲器中的包的数目超过了参考值REF，比较器将产生一个输出信号，该信号可使时钟信号发生器增加控制信号的频率，并减小由帧长指标标记的帧长。超出参考值，举例来说，可能是由传输延迟的突然减小引起的。读出控制信号频率的降低将导致演示速度的增加。由于演示速度增加，在一定时间后在缓冲器中的包的数目将减小。

在这种方法中，可以得到一个通过相应地改变演示速度来补偿延迟变化的控制循环。位于比较器20和时钟信号发生器之间的滤波器22可以在将比较器的输出信号加在时钟信号发生器上之前对其作一些平滑。去掉滤波器22也是可行的。

为了实现用缓冲器10中最小的延迟来补偿延迟变化，参考值REF可以作为(平均)延迟扩展的函数而变化。

如果由于传输通道显示几乎没有延迟扩展而使演示速度几乎是恒定的，缓冲器的尺寸可以非常小。在这种情况下，可以将参考值设置为一个低的值。

如果由于传输通道显示出显著的延迟扩展而使演示速度出现大的变化，缓冲器的尺寸应该大一些，以防止缓冲器变空。在这种情况下，参考值应该设置为明显高一些的值。

使参考值依赖于演示速度的变化，便可使用与延迟扩展相对应的缓冲器尺寸。这些措施可以得到低的端到端延迟，并且在多媒体信号中不会有可察觉的呃嗝。

通过计算延迟测量结果的最大值和最小值之间的差值，就可以容易地确定延迟扩展。该最大和最小延迟值都是在一个给定测量时间段内确定的。

也可以在多媒体信号回放的开始阶段将参考值设置为一个低的值，以便得到快速响应。在这种方法中，可以减少响应时间到几十个包的延续时间，其值相当于±200ms。

在如图3所示的控制器12的另一个具体实施例中，假定每个包都包含有一个时间标记。使用计数器353可以从由时钟谐振器352产生、也决定了演示速度的时钟信号中推出模拟时间标记。加法器350确定包的实际时间标记和可从计数器353输出得到的模拟时间标记之间的差值。根据本发明的发明理念，该差值就是延迟测量结果。

如果实际时间标记大于模拟时间标记，则演示速度低于新包的到达速度。为了防止缓冲器溢出，应增加演示速度。如果实际时间标记小于模拟时间标记，则演示速度高于新包的到达速度。为了防止缓冲器变空，应降低演示速度。低通滤波器351用来平滑演示速度的变化。下面给出由接收速率f_r推出演示速率f_P的另一种算法。接收速率f_r由1/(T_receive[k]-T_receive[k-1])确定，其中T_receive[k]-T_receive[k-1]是两个相邻包的到达时间之差。演示速率fP由1/(T_presentation[k]-T_presentation[k-1])确定，其中T_presentation[k]-T_presentation[k-1]是两个相邻包的演示时间之差。

以下假定，两个相邻包的到达时间差分值永不大于前两个到达时间差分值之和。这可写作：

&ForAll; i : \frac{1}{f_{r} [i]} < \frac{1}{f_{r} [i - 1]} + \frac{1}{f_{r} [i - 2]} (1)

该算法的目的是在缓冲器中保持有3个包。该算法的运算如下：

A．如果在T_P[i-2]时刻，在缓冲器中有三个包(包i-2，包i-1和包i)，包i-2被从缓冲器中取出并按照前一个包i-3的接收速率演示给用户。这可以表示为f_P[i-2]=f_r[i-3]。

B．在T_P[i-1]时刻，包i-2的演示已经完成。T_P[i-1]可写作：

T_{p} [i - 1] = t_{p} [i - 2] + \frac{1}{f_{p} [i - 2]} = t_{p} [i - 2] + \frac{1}{f_{r} [i - 3]} (2)

现在可以区分两种情况。如果在T_P[i-1]时刻包i+1已经到达，缓冲器中又有了三个包，因此下一个包i-1的演示速率由A确定。在包i+1还没有到达，因而后续的f_r[i]尚未知的情况下，约束包i+1到达时刻T_R[i+1]的假定(1)至少满足：

T_{R} [i - 1] = T_{R} [i] + \frac{1}{f_{R} [i]} \leq T_{P} [i - 2] + \frac{1}{f_{R} [i]} < T_{P} [i - 2] + \frac{1}{f_{r} [i - 1]} + \frac{1}{f_{r} [i - 2]} (3)

在此情况下，包i-1被从缓冲器中取出，并按照以下速率演示：

\frac{1}{f_{p} [i - 1]} = \frac{1}{f_{r} [i - 2]} + (\frac{1}{f_{r} [i - 1]} + \frac{1}{f_{r} [i - 3]}) (4)

包i-1的演示速率为由一个拉伸项进行延伸了的前一个包的接收速率。

C．在T_P[i]时刻，包i-1的演示已经完成。T_P[i]等于：

T_{P} [i] = T_{P} [i - 1] + \frac{1}{f_{p} [i - 1]}

= (T_{P} [i - 2] + \frac{1}{f_{r} [i - 3]}) + (\frac{1}{f_{r} [i - 2]} + \frac{1}{f_{r} [i - 1]} + \frac{1}{f_{r} [i - 3]}) (5)

= T_{P} [i - 2] + \frac{1}{f_{r} [i - 2]} + \frac{1}{f_{r} [i - 1]}

包i依旧在缓冲器中等待。根据(3)，在T_P[i]时刻至少包i+1也已到达。根据在缓冲器中是否还有两个或更多的包，下一个包的演示速率由A(三个包或更多)或B(两个包)确定。

如果假定(1)成立，该算法保证了缓冲器永远不会下溢。它不能约束缓冲器溢出。可以设想几种替代方法。

推导缓冲器中有三个包时的规律。假定平均而言，包以恒定的速率到达，缓冲器将会稳定，而f_P就等于f_r。

f_P[i]=f_r[i]，也就是说，ΔTBUF=常数。当接收速率下降时，缓冲器将会变空；否则它将保持恒定。

f_P[i]=max{f_P[i-1]f_r[i]f_r[i+1],……}

其中f_P[i]是缓冲器内所有包的所有f_r的平均值，它将输出速率稳定到一个恒定的比特速率。

在缓冲器中的包数目增加时，使用一个收缩项提高演示速率。

如图4所示的语音编码器1的输入信号S_s[n]由DC陷波滤波器210进行滤波，以消除来自输入的不希望的DC残留误差。上述DC陷波滤波器210具有15Hz的截止频率(-3dB)。DC陷波滤波器210的输出信号被加在缓冲器211的输入上。根据本发明，缓冲器211将由400个已经过DC滤波的语音采样构成的块提供给有声语音编码器216。上述由400个采样构成的块包含5个由10ms语音构成的帧(每帧包括80个采样)。它包括当前要被编码的帧，两个前面的帧和两个后续帧。在每个帧间隔中，缓冲器211将包括80个采样的最新接收到的帧提供给200Hz高通滤波器212的输入。高通滤波器212的输出与无声语音编码器214的一个输入和有声/无声探测器228相连接。高通滤波器212将包括360个采样的块提供给有声/无声探测器228，并将包括160个采样(如果语音合成器4在5.2Kbit/sec模式下运行)或240个采样(如果语音合成器4在3.2Kbit/sec模式下运行)的块提供给无声语音编码器214。在下表中列出了以上给出的包括多个采样的不同的块和缓冲器211的输出之间的关系。

元件	5.2kbit/sec		3.2kbit/sec
元件	5.2kbit/sec		3.2kbit/sec			采样数	开始位置	采样数	开始位置
高通滤波器212	80	320	80	320		采样数	开始位置	采样数	开始位置
高通滤波器212	80	320	80	320	有声/无声探测器228	360	0…40	360	0…40
有声语音编码器216	400	0	400	0	有声/无声探测器228	360	0…40	360	0…40
有声语音编码器216	400	0	400	0	无声语音合成编码器214	160	120	240	120
当前要编码的帧	80	160	80	160	无声语音合成编码器214	160	120	240	120

有声/无声探测器228判断当前帧是否包括有声或无声语音，并且将判断结果表征为有声/无声标志。这个标志被传递给多路复用器222，无声语音编码器214和有声语音编码器216。根据有声/无声标志的值，激活有声语音编码器216或无声语音编码器214。

在有声语音编码器216中，输入信号被表征为多个调和相关正弦信号。有声语音编码器的输出提供了基调值，增益值和216个预测参数的一种表述。基调值和增益值被分别加在多路复用器222的对应输入上。

在5.2kbit/sec模式下，每10ms进行一次LPC计算。在3.2kbit/sec模式下，除了发生无声语音到有声语音或相反方向的转换之外，每20ms进行一次LPC计算。如果发生这种转换，在3.2kbit/sec模式下，也是每10ms进行一次LPC计算。

有声语音编码器输出中的LPC参数被传递给多路复用器222的对应输入中。

在无声语音编码器14中，增益值和6个预测参数被确定用来表征无声语音信号。该增益值和6个预测参数被传递到多路复用器222的对应输入中。多路复用器222根据有声-无声探测器226的判定选择编码有声语音信号或编码无声语音信号。在多路复用器222的输出中，可得到编码语音信号。

在如图5所示的语音解码器216中，被编码的LPC码和有声/无声标志被传递给多路分用器92。增益值和接收到的精细基调值也被传递给多路分用器92。

如果有声/无声标志显示的是一个有声语音帧，多路分用器92将把精细基调值、增益和16个LPC码传递给谐波语音合成器94。如果有声/无声标志显示的是一个无声语音帧，多路分用器92将把增益和16个LPC码传递给无声语音合成器96。谐波语音合成器94输出的合成有声语音信号

[n]和无声语音合成器96输出的合成无声语音信号

[n]都被加在多路复用器98对应的输入上。

在有声模式中，多路复用器98将谐波语音合成器94的输出信号

[n]传递给重叠和加法合成块100的输入。在无声模式中，多路复用器98将无声语音合成器96的输出信号

[n]传递给重叠和加法合成块100的输入。在重叠和加法合成块100中，部分重叠的有声和无声语音的节被相加。重叠和加法合成决100的输出信号可写为：

其中0＜n＜N_s

在(6)中，N_s是语音帧的长度，V_k-1是前一个语音帧的有声/无声标志，而V_k是当前帧的有声/无声标志。可以看出，长度N_s可根据希望的演示速度而改变。如果帧k-1的长度等于N_k-1，则(6)变为：

其中0＜n＜N_s

重叠和加法合成块100的输出信号 [n]被加在后置滤波器102上。后置滤波器102用于通过抑制共振峰区以外的噪声来提高可觉察语音质量。

在如图6所示的有声语音解码器94中，接收自多路分用器92的编码基调由基调解码器104解码并转换为基调频率。由基调解码器104确定的基调频率被加在相位合成器106的一个输入、谐振器存储体108的一个输入和LPC谱包络采样器110的第一输入上。

接收自多路分用器92的LPC参数由LPC解码器112解码。LPC参数的解码方法取决于当前的语音帧中是否包含有声或无声语音。因此有声/无声标志被加在LPC解码器112的第二输入上。LPC解码器将重构的a-参数传递给LPC谱包络采样器110。由于在精细基调计算器32中也要执行相同的操作，所以LPC谱包络采样器112的运行由(13)(14)和(15)描述。

相位合成器106用于计算表征语音信号的L信号的第i个正弦信号的相位φ_k[i]。φ_k[i]的选取要求从一个帧到下一个帧第i个正弦信号保持连续。有声语音信号是通过将互相重叠的帧结合在一起的方法合成的，每个都包含有N_s个窗口采样。从图7中的曲线219和曲线223可以看出，两个相邻帧之间有50％的重叠。曲线219和曲线223中使用的窗口用点划线标示。现在相位合成器用于在重叠的相互影响最大的位置处提供一个连续相位。对于这里使用的窗口函数，这个位置位于采样119处。当前帧的相位φ_k[i]可以写作：

{φ_{k} [i] = φ}_{k - 1} [i] + i \cdot ω_{0, k - 1} \frac{3 N_{S}}{4} - i \cdot ω_{0, k - 1} \frac{N_{S}}{R}; 1 \leq i \leq 100 (8)

在现在描述的语音编码器中，N_s的值等于160。对于最初第一个有声语音帧，φ_k[i]的值被始化为一个预先确定的值。

谐波振荡器存储体108产生表征语音信号的多个调和相关信号

[n]。该计算是使用谐波振幅

[i]，频率

和合成相位 [i]根据下式执

{\underset{S}{^}}_{v, k} [n] = Σ_{i = 1}^{L} \hat{m} [i] \cos {i \cdot 2 π \cdot f_{0}} \cdot n + \hat{φ} [i]; 0 < n < N_{s} (9)

在时域窗口化块114中使用Hanning窗口将信号

[n]窗口化。该窗口信号显示在图7的曲线221中。使用具有在时间上有Ns/2采样移动的Hanning窗口将信号

[n]窗口化。该窗口信号显示在图7的曲线225中。将上述窗口信号相加，便得到时域窗口化块114的输出信号。该输出信号显示在图7的曲线227中。增益解码器118从其输入信号推出增益值g_v，而时域窗口化块114的输出信号由信号标定块116用上述增益因子g_v标定，以便得到重构的有声语音信号 [n]。

根据本发明的发明理念，如果改变了多媒体的演示速度，则应对上述合成过程作一些变化。以下假定帧长指标由数个采样Ni表征，其中i是帧的数目。首先，需要由在要合成的当前帧之前的帧的采样数目N_i-1和N_i-2确定相位φ_k[i]。根据下式计算这些相位：

φ_{k} [i] = φ_{k - 1} [i] + i \cdot 2 π \cdot f_{0, k - 1} [\frac{N_{K - 2}}{2} - \frac{N_{K - 1}}{4}] - i \cdot 2 π \cdot f_{0, k} \frac{N_{K - 1}}{4}; 1 f \leq i \leq 100 (10)

随后根据下式合成信号 [n]：

{\underset{S}{^}'}_{V, K} [n] = Σ_{i = 1}^{L} \hat{m} [i] \cos {i \cdot 2 π \cdot f_{0}} \cdot n + \hat{φ} [i]; 0 < n < N_{s} (11)

当帧中的采样数目与标称值N_s不同时，时域窗口化块114的操作也稍有改变。用于将信号 [n]窗口化的Hanning窗口的长度等于N_k，而不是N_s。

在图8中显示有与图7相同的信号，但是现在两个节的边界处的演示速度改变了。曲线418表征的节明显短于曲线422表征的节。将曲线420和424所示的窗口信号窗口化并相加后，得到曲线426所示的信号。

在如图9所示的无声语音合成器96中，LPC码和有声/无声标志被加在LPC解码器130上。LPC解码器130向LPC合成滤波器134提供多组6个a-参数。高斯白噪声发生器132的输出与LPC合成滤波器134的一个输入相连接。LPC合成滤波器134的输出信号在时域窗口化块140中由Hanning窗口窗口化。

无声增益解码器136推出表征当前无声帧的希望的能量的增益值。从该增益和窗口信号的能量可确定窗口化语音信号增益的标定因子

，以得到具有正确能量的语音信号。该标定因子可写为：

{\hat{g}}_{uv}^{'} = \sqrt{\frac{{\hat{g}}_{uv}}{\frac{1}{N_{s}} Σ_{n = 0}^{N_{g} - 1} ({\hat{s}}_{uv, k}^{'} [n] \cdot w [n])^{2}}} - - - - (12)

信号标定块142通过将时域窗口块140的输出信号乘以标定因子

来确定输出信号

[n]。

可改动当前描述的语音编码系统，以使之需要较低的比特率或较高的语音质量。需要较低比特率的语音编码系统的一个例子是2kbit/sec编码系统。将用于有声语音的预测参数的数目从16减少到12，并使用预测参数，增益和精细基调的差分编码方法，便可得到这样一个系统。差分编码意味着不单独对需要编码的数据进行编码，而是只发送连续帧对应数据之间的差值。在从有声到无声的语音转换或相反方向的转换中，在第一个新的帧中，所有参数都被单独编码以便为解码提供初始值。

也可以得到能够在6kbit/s比特率下提高语音质量的语音编码器。这里的改动是多个调和相关正弦信号的前8个谐波的相位确定。相位φ[i]按照下式计算：

φ [i] = \arctan \frac{I (θ_{i})}{R (θ_{i})} (13)

这里θ_i=2πf₀·i,R(θ_i)和I(θ_i)等于

R (θ_{i}) = Σ_{n = 0}^{N - 1} S_{W} [n] \cdot \cos (θ_{i} \cdot n) (14)

和

I (θ_{i}) = - Σ_{n = 0}^{N - 1} S_{W} [n] \cdot \sin (θ_{i} \cdot n) (15)

如此得到的8个相位值φ[i]统一量化到6比特，并包括在输出比特流中。

6kbit/sec编码器的更进一步的改动是无声模式中额外增益值的传输。通常每2ms传输一个增益值，而不是每帧传输一次。在转换后的第一帧中，要传输10个增益值，其中5个表征当前无声帧，而另5个表征由无声语音编码器处理的前一个有声帧。增益是从4ms的重叠窗口中确定的。

在如图10所示的视频编码器16中，携带有由多个视频帧组成的视频信号耦合到插入器304的第一输入和帧存储器302的输入中。帧存储器302用于存储先前接收自缓冲器10的视频帧。帧存储器302的输出与插入器304的第二输入相连接。

插入器304用于内插接收自缓冲器10的前一个视频帧和当前的视频帧。插入器向自己的输出提供具有恒定帧速率的视频信号，供演示器件18使用。

根据本发明的发明理念，演示速度取决于延迟测量结果。在此情况下，这意味着接收自缓冲器10的视频帧并不一直以相等间隔显示。两帧之间的间隔取决于延迟测量结果。

为了能够以大体恒定的帧速率演示视频信号，插入器304确定了取决于接收自缓冲器10的视频帧之间间隔的数个内插帧。

计算设备306根据由图2中的时钟发生器24提供的演示速度计算出需要内插的帧的数目。在视频信号中使用了时间标记的情况下，当前帧和前一个帧的时间标记之间的差值Δ被提供给计算设备306。这使计算设备306在一个或多个视频帧丢失时也可以确定需要内插的帧的正确数目。

在1998年3月在奥兰多举行的Winhec98大会上，G.De Haan在文章“个人电脑中的无抖动视频”中描述了一款适用的内插器304。

Claims

1．用于复制多媒体信号并包含有用于向用户演示多媒体信号的演示设备的装置，其特征在于其中的装置平台包括用于确定表征携带有多媒体信号的包的到达延迟的延迟测量结果的延迟确定设备，并且其中的演示设备根据上述延迟测量结果改变演示速度。

2．权利要求1所述的装置，其特征在于其中的多媒体信号包括音频信号，而且其中的演示设备可改变音频信号的演示速度，并且基本上不改变音频信号的可觉察语调。

3．权利要求2所述的装置，其特征在于其中的音频信号由多个包括至少由其振幅和频率描述的多个信号的节表征，并且其中的演示设备可根据上述延迟测量结果改变上述节的延续时间。

4．权利要求1所述的装置，其特征在于其中的演示设备包括具有用于确定表征延迟测量结果和参考值之差的差分信号的比较设备的控制设备，而且其中的演示设备包括用于根据差分值调节演示速度的调节设备。

5．权利要求4所述的装置，其特征在于其中的演示设备包括用于根据差分值的变化而适应性调节参考值的适应设备。

6．权利要求1所述的装置，其特征在于其中的多媒体信号包括视频信号。

7．权利要求6所述的装置，其特征在于其中的视频信号由至少一个对象表征，而且其中的演示设备通过调节视频信号中至少一个对象的移动速度来改变演示速度。

8．权利要求1所述的装置，其特征在于其中的多媒体信号包括至少两个分量，其中的延迟测量结果表征上述至少两个分量之间的时序差，而且其中的演示设备可改变演示速度以减小上述时序差。

9．用于复制多媒体信号的方法，上述方法包括向用户演示多媒体信号，其特征在于该方法进一步包括确定表征携带有多媒体信号的包的到达延迟的延迟测量结果，而且该方法包括根据上述延迟测量结果改变演示速度。

10．权利要求9所述的方法，其特征在于其中的多媒体信号包括音频信号，而且该方法包括改变音频信号的演示速度，并且基本上不改变音频信号的可觉察语调。

11．权利要求10所述的方法，其特征在于其中的音频信号由多个包括多个至少由其振幅和频率描述的波形的节表征，而且该方法包括根据上述延迟测量结果改变上述节的延续时间。

12．权利要求9所述的方法，其特征在于其中的多媒体信号包括视频信号。

13．权利要求12所述的方法，其特征在于其中的视频信号由至少一个对象表征，而且该方法包括通过调节视频信号中至少一个对象的移动速度来改变演示速度。