CN1666255A

CN1666255A - 根据有优选次序的像素传输方法传输音频信号的方法

Info

Publication number: CN1666255A
Application number: CN038160870A
Authority: CN
Inventors: 格尔德·莫萨科夫斯基
Original assignee: T Mobile Deutschland GmbH
Current assignee: Telekom Deutschland GmbH
Priority date: 2002-07-08
Filing date: 2003-07-07
Publication date: 2005-09-07
Anticipated expiration: 2023-07-07
Also published as: WO2004006224A1; CY1109952T1; DE50312330D1; PT1579426E; ES2339237T3; JP4637577B2; PL207103B1; RU2005102935A; JP2005532580A; HK1081714A1; DE10230809B4; US20060015346A1; CN1323385C; RU2322706C2; EP1579426A1; AU2003250775A1; US7603270B2; SI1579426T1; EP1579426B1; DK1579426T3

Abstract

本发明涉及一种用于在一个发送方和至少一个接收方之间根据有优选次序的像素传输方法传输音频信号的方法。首先将音频信号拆分成n个频谱分量。将拆分后的音频信号存储在一个带有多个域的二维矩阵中，该矩阵以频率和时间作为维度，并且以振幅作为分别记入域中的值。然后由矩阵中每个单个的域和至少两个与这个域相邻的域构成组，为每个组分配一个优先权，其中组值的幅值越大，和/或一个组的值的幅值差别越大，和/或该组距离当前时间越近，则为该组选择的优先权越高。最后按照其优先权的顺序将组传输到接收方。

Description

根据有优选次序的像素传输方法传输音频信号的方法

如权利要求1的前序部分所述，本发明涉及一种用于根据有优选次序的像素传输方法传输音频信号的方法。

目前已有多种不同的用于压缩传输音频信号的方法。主要存在下述方法：

-降低采样率，例如用3kHz来代替44kHz，

-非线性传输采样值，例如在ISDN传输中，

-利用事先所存储的声音序列，例如MIDI或音调模拟，

-使用马尔可夫模型来校正传输错误。

已知方法的共同之处在于，在较低的采样率下仍然可以提供令人满意的语音理解度。这主要是通过形成均值来实现的。但是来自声源的不同音调在低音区产生了听起来很类似的音调，这使得例如在正常说话时可识别出的语调升降不再被传输。从而明显限制了通信质量。

用于借助于有优先次序的像素传输对图像或视频数据进行压缩和解压的方法在德国专利申请DE10113880.6(对应于PCT/DE02/00987)和DE10152612.1(对应于PCT/DE02/00995)中进行了描述。在这种方法中，例如由单个像点(像素)的矩阵组成的数字图像或视频数据被处理，其中每个像素具有一个随时间变化的像素值，这个像素值表示该像素的颜色信息或亮度信息。根据本发明，为每个像素或每个像素组分配一个优先权，对应于其优先权的像素被记录在一个优先权阵列中。这个阵列在每一时刻包含根据优先权排序的像素值。对应于优先权，这些像素以及为计算优先权所使用的像素值被传输或存储。当一个像素与其相邻的像素差别很大时，这个像素得到一个高优先权。为了进行重建，当前的像素值分别被显示在显示器上。还未传输的像素由已经传输的像素计算得到。这种方法在原理上也可以用于传输音频信号。

本发明的任务在于给出一种用于传输音频信号的方法，该方法在低传输带宽的情况也可以尽可能无损地工作。

根据本发明该任务通过权利要求1所述的特征来解决。

根据本发明，音频信号首先被拆分成n个频谱分量。拆分后的音频信号被存储在一个带有多个域的二维矩阵中，该矩阵以频率和时间作为维度，并且以振幅作为分别要记入各个域中的值。然后由矩阵中每个单个的域以及至少两个与这个域相邻的域构成组，并为每个组分配一个优先权，其中组值的幅值越大，和/或一个组中的值的幅值差别越大，和/或该组距离当前时间越近，则为该组选择的优先权越高。最好将组按照其优先权的顺序传输给接收方。

这种新的方法主要是基于香农(Shannon)定理。根据该定理，当人们用两倍的频率来采样时，信号可以无损耗地传输。这意味着，声波可以分成不同振幅和频率的正弦振荡。在此之后，可以通过传输各个频率分量，包括振幅和相位，唯一地、无损耗地重新生成声音信号。其中还特别利用了下述原理：经常所采用的声源，例如乐器、人的语调，是由谐振体构成的，其谐振频率不变或者仅很缓慢地改变。

本发明具有优点的实施例和改进由从属权利要求给出。

下面将说明本发明的一个实施例。其中还特别参考在先的专利申请DE10113880.6和DE10152612.1的说明书和附图。

首先记录声波，将其转换成电信号，并拆分为其频率分量。这可以通过FFT(快速傅立叶变换)或者通过n个选频滤波器来实现。如果采用n个滤波器，则每个滤波器只选取一个频率或一个很窄的频带(类似于人耳中的绒毛)。这样人们在每个时刻得到了频率和该频率下的幅值。其中数目n可以根据终端设备特性来选取不同的值。数目n越大，则音频信号就能够越好地重现。因此n是能够衡量音频传输质量的一个参数。

幅值被中间存储在一个二维矩阵的域中。其中该矩阵的第一个维度对应于时间轴，第二个维度对应于频率。这样每个采样值通过其各自的振幅和相位被唯一地确定，并且可以作为虚数存储到该矩阵相应的域中。语音信号从而在矩阵中用三个声音维度(参数)来表示：时间，例如以毫秒(ms)为单位，代表周期，作为矩阵的第一个维度；频率，以赫兹(Hz)为单位，代表音高，作为矩阵的第二个维度；信号能量(或强度)，代表声强或密度，作为矩阵相应域中的计数值被存储。

与申请DE10113880.6和DE10152612.1相比较，例如频率对应于图像高度，时间对应于图像宽度，音频信号的振幅(强度)对应于颜色值。

与在图像/视频编码中对像素组分配优先次序的方法相类似，所述组由相邻的值构成，并对其分配优先权。每个域本身与至少一个、但最好是多个相邻的域共同构成了一个组。组是由通过时间和频率限定的位置值、在该位置值处的幅值、以及对应于事先已确定的形状的周围的值的幅值构成的(参见申请DE10113880.6和DE10152612.1的图2)。其中特别是距离当前时间很近的组，和/或其幅值相对于其他组非常高的组，和/或其中该组内的幅值相互差别很大的组，得到一个非常高的优先权。像素组的值降序排列，并且按照该顺序被存储或传输。矩阵的宽度(时间轴)最好只具有有限的大小(例如5秒)，即始终只处理例如5秒时间长度内的信号段。在这段时间(例如5秒)之后，用后面的信号段的值来填充矩阵。

对应于上面所述的优先级参数(幅值，靠近时间的位置，以及与相邻值的幅值差别)，在接收方接收各个组的值。

在接收方，组被再次记入到相应的矩阵中。对应于专利申请DE10113880.6和DE10152612.1，然后可以由所传输的组再次产生三维的频谱表示。接收到的组越多，则重建过程越精确。还未被传输的矩阵值借助于内插方法由已经传输的矩阵值计算得到。然后在接收方由如此产生的矩阵可以生成相应的音频信号，它可以转换为声音。为了对音频信号进行综合，例如可以使用n个频率发生器，其信号被加到一个输出信号上。通过这种并联设置n个频率发生器的结构，得到了非常好的可量化性(Skalierbarkeit)。因此通过并行处理能够大大降低采样率，从而用较少的能量消耗就能改善移动终端设备的再现时间。为了采用并行处理，例如可以使用FPGA或ASIC的简单构造形式。

所述方法并不局限在音频信号。该方法特别能够普遍地有效用在采用多种传感器(声音传感器、光传感器、触摸传感器等)测量连续信号的场合下，所测量的信号然后可以在一个(n阶)矩阵中表示。

相对于现有系统的优点在于，可以在提高压缩率的前提下灵活地应用。通过采用一个由不同源馈送的矩阵，人们自动得到了不同源的同步。在常规方法中相应的同步必须通过特殊的协议或措施来保证。特别是在需要很长传输时间的视频传输中，例如卫星连接，其中通过不同信道来传输语音和图像，嘴唇与语音的同步经常出现错误。这在某种程度上可以通过所述的方法来克服。

由于具有优先次序的像素组传输的相同原理可以用在语音、图像和视频传输中，可以在实际应用中利用强大的协同作用的效果。此外，以这种方式可以在语音和图像之间实现简单的同步。另外可以在图像和音频分辨率之间进行任意的调节。

当人们根据新的方法进行一次音频传输时，在语音方面得到了自然的再现，因为每个人的典型的频率分量(频率组)具有最高的优先权，因此被无损耗地传输。

Claims

1.用于在一个发送方和至少一个接收方之间根据有优选次序的像素传输方法传输音频信号的方法，其特征在于下列步骤：

a)将音频信号拆分成n个频谱分量，

b)将拆分后的音频信号存储在一个带有多个域的二维矩阵中，该矩阵以频率和时间作为维度，并且以振幅作为分别记入域中的值，

c)由矩阵中每个单个的域和至少两个与这个域相邻的域构成组，

d)为每个组分配一个优先权，其中组值的幅值越大，和/或一个组的值的幅值差别越大，和/或该组距离当前时间越近，则为该组选择的优先权越高，并且

e)按照其优先权的顺序将组传输到接收方。

2.根据权利要求1所述的方法，其特征在于，整个音频信号被设置为音频文件，并作为一个整体被处理和传输。

3.根据权利要求1所述的方法，其特征在于，音频信号分别只有一个部分被处理和传输。

4.根据权利要求1至3中任一项所述的方法，其特征在于，音频信号借助于FFT被拆分为其频谱分量。

5.根据权利要求1至3中任一项所述的方法，其特征在于，音频信号通过n个选频滤波器被拆分为其频谱分量。

6.根据权利要求1至5中任一项所述的方法，其特征在于，在接收方，根据其优先权被传输的组对应于一个相应的矩阵，其中矩阵中还未被传输的值通过内插方法由已有的值计算得到。

7.根据权利要求1至6中任一项所述的方法，其特征在于，由接收方中已提供的值和计算出的值生成一个电信号，并将其转换为音频信号。