CN117561688A - 用于在ip网络上接收语音内容期间进行抖动补偿的方法和接收器,以及用于发送和接收具有抖动补偿的语音内容的方法和设备 - Google Patents
用于在ip网络上接收语音内容期间进行抖动补偿的方法和接收器,以及用于发送和接收具有抖动补偿的语音内容的方法和设备 Download PDFInfo
- Publication number
- CN117561688A CN117561688A CN202280045604.0A CN202280045604A CN117561688A CN 117561688 A CN117561688 A CN 117561688A CN 202280045604 A CN202280045604 A CN 202280045604A CN 117561688 A CN117561688 A CN 117561688A
- Authority
- CN
- China
- Prior art keywords
- voice
- time
- receiver
- voice data
- data packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 78
- 230000005540 biological transmission Effects 0.000 claims abstract description 238
- 239000000872 buffer Substances 0.000 claims abstract description 105
- 238000012545 processing Methods 0.000 claims description 55
- 238000004891 communication Methods 0.000 claims description 48
- 238000012937 correction Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 16
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 11
- 230000001934 delay Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000003068 static effect Effects 0.000 description 9
- 230000003111 delayed effect Effects 0.000 description 8
- 238000002592 echocardiography Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 8
- 230000001360 synchronised effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000003139 buffering effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- ZOKIJEBQDZFGMW-PSXMRANNSA-N [(2R)-2-[12-(4-azido-2-nitroanilino)dodecanoyloxy]-3-tetradecanoyloxypropyl] 2-(trimethylazaniumyl)ethyl phosphate Chemical compound CCCCCCCCCCCCCC(=O)OC[C@H](COP([O-])(=O)OCC[N+](C)(C)C)OC(=O)CCCCCCCCCCCNc1ccc(cc1[N+]([O-])=O)N=[N+]=[N-] ZOKIJEBQDZFGMW-PSXMRANNSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005293 physical law Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/70—Media network packetisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/006—Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
- H04M7/0081—Network operation, administration, maintenance, or provisioning
- H04M7/0084—Network monitoring; Error detection; Error recovery; Network testing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04J—MULTIPLEX COMMUNICATION
- H04J3/00—Time-division multiplex systems
- H04J3/02—Details
- H04J3/06—Synchronising arrangements
- H04J3/062—Synchronisation of signals having the same nominal but fluctuating bit rates, e.g. using buffers
- H04J3/0632—Synchronisation of packets and cells, e.g. transmission of voice via a packet network, circuit emulation service [CES]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04J—MULTIPLEX COMMUNICATION
- H04J3/00—Time-division multiplex systems
- H04J3/02—Details
- H04J3/06—Synchronising arrangements
- H04J3/0635—Clock or time synchronisation in a network
- H04J3/0638—Clock or time synchronisation among nodes; Internode synchronisation
- H04J3/0658—Clock or time synchronisation among packet nodes
- H04J3/0661—Clock or time synchronisation among packet nodes using timestamps
- H04J3/0664—Clock or time synchronisation among packet nodes using timestamps unidirectional timestamps
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0852—Delays
- H04L43/087—Jitter
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2416—Real-time traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/28—Flow control; Congestion control in relation to timing considerations
- H04L47/283—Flow control; Congestion control in relation to timing considerations in response to processing delays, e.g. caused by jitter or round trip time [RTT]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/90—Buffering arrangements
- H04L49/9023—Buffering arrangements for implementing a jitter-buffer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/10—Architectures or entities
- H04L65/1059—End-user terminal functionalities specially adapted for real-time communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/764—Media network packet handling at the destination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Hardware Design (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Communication Control (AREA)
- Telephonic Communication Services (AREA)
Abstract
描述了在具有报头(H)和有效载荷(PL)的语音数据包(110、120;210)中通过IP网络接收语音内容(1、2、3、4)期间的抖动补偿,其中语音数据包(110、120;210)中包含了发射器的发射器时间的一条时间信息,该时间信息指示了语音数据包(110、120;210)的发送时刻。提供了接收器通过初始数据包中的时间信息使用发射器时间来初始化接收器时钟,在接收器时钟的初始化之后,接收器确定最短相对数据包传输持续时间(delta),根据最短相对数据包传输持续时间(delta)调整接收器时间,在接收到具有语音内容的第一个语音数据包(111)期间,确定该语音数据包的实际接收时间,并根据实际接收时间确定缓冲区(DJB)(图4)。
Description
这涉及一种用于在通过IP网络接收语音内容时,对语音数据包的接收时间之间的随机时间波动(称为抖动)进行抖动补偿的方法,也就是说,特别用于以数字语音数据包(也称为IP语音或VoIP)中传输语音内容(在模拟语音内容的情况下被数字化为语音数据)的方法(例如在电话或无线电连接的情况下)中使用,以及一种用于执行该方法的接收器。此外,本发明涉及一种用于发送和接收语音内容的方法和设备,其中使用了所描述的抖动补偿。
在该方法中,按照VoIP的惯例,包含或不包含语音内容的数字化语音数据包序列由接收器接收,以处理包含在语音数据包中的语音内容,特别是输出、通过无线电链路发送或以其它方式使用语音数据。包含语音内容的数字语音数据包具有被称为报头的部分和被称为有效载荷的部分,报头包含用于通信控制的数据(例如,对应于通信协议或通信标准),语音数据包的有效载荷由数字化语音数据形式的部分(全部)语音内容组成。因此,(整个)语音内容的传输被划分为含有连续数字语音数据(有效载荷PL)的语音数据包序列,即,(直接或间接)包含在连续语音数据包中的数字语音数据代表连接在一起时的(整个)语音内容。
不包含语音内容的语音数据包具有报头而不具有有效载荷,因此它通常相应地更短。然而,也可能是这样的情况,即不包含语音数据的语音数据包也具有零数据的有效载荷,从而与包含数据内容(语音数据)的语音数据包一样长。零数据是指具有任意或随机内容的数据,即与有用的语音内容不相关。
由于在这种情况下有效载荷不包含任何信息,因此在本申请的上下文中,这种语音数据包也被称为没有有效载荷的语音数据包。然而,原则上,如果不包含语音内容的语音数据包更短,且有效载荷部分被简单地省去而不是用零数据填充,则会更有利。然而,根据不同的通信标准,也可能要求所有语音数据包的长度相同,无论是否有语音数据。例如,使用不包含语音内容的语音数据包来长期保持发射器和接收器之间的现有通信连接,从而可以监控通信连接。使用IP语音的一个例子可以是在空中交通中地对空业务通信传输(通过无线电连接分段)。这代表了本发明的一个特别优选的应用。
每个语音数据包都包含至少一条发射器的发射器时间的时间信息,尤其是在语音数据包的报头中,表示语音数据包的发送时刻。对于包含和不包含语音内容的语音数据包都是如此。
在接收到包含语音内容的第一个语音数据包之后,接收器等待处理语音内容的等待时间被称为缓冲区(抖动缓冲区),即缓冲时间。这使得接收器在缓冲区期间(即,在等待时间期间)可以接收包含语音内容的后续语音数据包,以便补偿后续语音数据包的接收之间的抖动,并实现对语音内容的连续处理,而不会由于抖动导致的接收延迟而中断语音输出。该处理可以是将语音内容直接播放为可听语音(即模拟输出)。然而,接收器也可以通过无线电发射器来广播接收到的语音内容。然后,仅在无线电接收器中播放语音内容。在这种情况下,接收器仅间接地播放数字语音数据包,因为接收到的语音数据包被处理,并且所包含的语音内容被无线电发射器作为无线电信息发送出去。在这种情况下,生成的语音内容(无线电信息),例如空中交通管制(作为发射器),通过IP网络作为IP语音通信被发送到地面站的无线电发射器(作为接收器)。无线电发射器然后发送无线电信息,该无线电信息由无线电接收器输出(例如,用于空中交通管制与航空器之间的通信)。在反向通信的情况下(例如,从航空器到空中交通管制),无线电发射器位于航空器中,无线电接收器位于地面站中。相应地,无线电接收器成为了IP语音通信的发射器。本文中的术语发射器和接收器是指通过IP网络传输语音内容。
下面简要解释语音数据包的物理传输过程,以解释IP语音通信的背景。更详细的解释将在示例性实施例的上下文描述中进行。
语音数据包的总时延(数据包传输持续时间)从发射器发出的时间开始,由语音数据包通过传输信道的延迟(也称为迟延)和抖动(接收时间的随机波动)之和产生,语音数据包本身的长度也属于传输信道。在处理(如输出或其他处理)语音数据包中包含的语音内容之前,会产生进一步的等待时间,如缓冲区(抖动缓冲区)。
因此,从发送语音数据包到处理语音内容的时间取决于实际数据包传输持续时间(延迟和抖动)和缓冲区(以及在接收到语音数据包之后直到输出语音内容的进一步酌情增加的等待时间)。
等待时间越长,可以接收和临时存储(缓冲)更多的后续语音数据包,从而在处理前一语音数据包的语音内容之后,后续语音数据包的声音内容已经可用于进一步处理,即使后续语音数据包的抖动时间特别长,也能确保连续处理,例如语音播放,因为缓冲的语音数据包的语音内容最初是额外处理过的。较长的缓冲时间导致相应较长的延迟,这对于具有高实时通信要求的IP语音应用来说是不可取的。因此,缓冲时间越短,通信速度越快,但语音数据包丢失的风险也越高,这可能会中断语音内容的连续处理。
这种众所周知的带有缓冲区的解决方案的另一个缺点是,由数据包传输持续时间和必要时附加的等待时间(例如缓冲区)组成的总时间仍然取决于语音数据包传输过程中抖动的随机持续时间,因此不能准确地预测。这在某些通信应用中可能会带来不利影响,例如在具有多个并行传输信道的无线电应用中(例如通过不同地面站的多个无线电发射器并行发送无线电信息),不同传输信道上不同长度的抖动会导致回音。
因此,本发明的目的是提出抖动补偿和使用这种抖动补偿的语音传输,其在确保语音内容的连续处理(例如无线电发送或输出)的同时,在传输语音数据包的情况下,使从发射器输出语音数据包到发射器处理语音信息的总时间(至少在预定的时间段内)有一个确定的持续时间。
根据权利要求1、9、11和15的特征,本发明可以实现这一目标。
在根据本发明提出的抖动补偿中,特别提供了在接收到第一个语音数据包(包含或不包含语音内容或语音数据)(称为初始数据包)后,在与语音数据包发射器建立的或存在于接收器和发射器之间的传输信道的连接期间,接收器通过初始数据包中的时间信息用发射器时间初始化接收器时钟,以便在发送语音数据包时接收器时间与发射器时间相关联。因此,接收器时钟显示的时间取决于连接期间发送第一个语音数据包的时间、语音数据包通过传输信道的延迟以及时间随机抖动。根据本发明的一个实施例,将接收器时间与来自语音数据包的时间信息同步很简单,其中时间信息由数据包有效载荷的采样时间校正(如果适用),以便接收器时间与不含数据内容的语音数据包的发射器时间以及当前传输的语音数据包的随机抖动相对应。因此,相对于在整个系统中恒定不变的绝对时间,在发射器时间和接收器时间之间存在一个时间偏移,这个时间偏移正好与连接期间的第一个语音数据包(不含语音内容)的数据包传输时间相对应。
一个连接期间(也称会话)可以从发射器和接收器之间建立传输信道开始,到传输信道中断结束,即与实际连接持续时间相对应。不过,也可以在实际连接期间内选择一个较短的连接期间,例如指定一个固定持续时间和/或根据接收器和/或发射器中的事件而定。因此,一个连接期间对应于传输信道中物理连接持续时间内的一个确定或可确定的时间段,即整个连接持续时间的一部分,但最多是整个连接持续时间。
对于接收器以完全相同的抖动(假设延迟不变)接收到的后续语音数据包,接收器时间与发送数据包的发射器的发射器时间相关。因此,在先前描述的相关类型中,如果抖动相同,则发射器时间和接收器时间相同。相关性的偏差是由不同的抖动引起的。
这样,接收器就能在接收器时钟初始化后确定最短相对数据包传输持续时间,即在每种情况下接收后续语音数据包的过程中
·在发送语音数据包的发射器时间中,将接收器时间与后续语音数据包报头中包含的时间信息进行比较,并相对于接收器时间确定相对数据包传输持续时间。例如,这可以通过发射器时间和接收器时间的差值来实现。如果接收器时间和发射器时间如前一实施例中所述的同步,“接收器时间减去发射器时间”之差为零,则意味着在初始化或后续调整(详见下文)期间,后续传输的语音数据包与基于其来确定接收器时间的语音数据包一样快。如果差值小于零,则表示接收器时间早于发射器时间;语音数据包比基于其来确定接收器时间的语音数据包快(数据包传输持续时间相对较短)。相反,如果差值大于零,则表示接收器时间晚于发射器时间;语音数据包比基于其来确定接收器时间的语音数据包慢(数据包传输持续时间相对较长)。
·在连接期间内或连接期间内的某个时间间隔内,临时存储所产生的最短相对数据包传输持续时间。如果当前确定的相对数据包传输持续时间短于迄今为止的最短(临时存储的)相对数据包传输持续时间,则在连接期间(或作为检查依据的连接期间内的时间间隔)内,将相对数据包传输持续时间作为最短相对数据包传输持续时间重新存储。
·在规定的评估时间(例如,在连接期间内的时间间隔结束时),临时存储的与最短相对数据包传输持续时间相关的接收器时间进行调整,使接收器时间与发送具有最短相对数据包传输持续时间的语音数据包时的发射器时间相关(尤其是同步)。在一个实施例中,可以这样做:
从当前接收器时间中减去在评估时间存储的最短相对数据包传输持续时间值,以便为该方法的剩余部分确定新的接收器时间。因此,接收器时钟和发射器时钟之间的时间差,例如由于所使用的定时器的时钟差异造成的时间差,也会连续自动校正。
在前面的一般性说明中指定的实际实施方案用于解释。本发明不一定局限于这些实施例。
每当在收到至少一个不含语音内容的语音数据包之后,又收到一个含语音内容的语音数据包(或含语音内容的语音数据包序列)时,接收器就会认为应该传输新的语音内容(如连接期间内的新无线电信息)。新语音内容的开始和结束也可以(附加地或替代地)通过在报头中的编码来识别。
因此,当接收器在接收到至少一个不含语音内容的语音数据包后,又接收到含语音内容的第一个语音数据包时,接收器会通过比较接收到的语音数据包中的时间信息和接收器在接收时的接收器时间,来确定实际收到该语音数据包的时间,这样,实际接收时间就会相对于接收器时间显示出来。因此,该实际接收时间表示接收到具有语音内容的第一个语音数据包时的实际抖动。然后,根据/取决于实际接收时间,即根据当接收到含语音内容的第一个语音数据包的实际抖动,接收器确定缓冲区,即缓冲时间或处理语音内容前的等待时间。原则上,当接收到无抖动或抖动最短的语音数据包作为含数据内容的第一个语音数据包时,可以通过从预定义的最大缓冲区中减去实际抖动来形成缓冲区。如果实际抖动与最短抖动一致或无抖动,则使用预定义的最大缓冲区作为缓冲区。
根据本发明,确定缓冲区的一个优选实施方案是形成语音数据包中的时间信息与实际接收时间的差值。该差值就表示当前语音数据包的抖动,从而根据本发明将缓冲区确定为带有语音内容的第一个语音数据包。如果“语音数据包中的时间信息减去实际接收时间”的差值小于零,则差值的(正值)表示实际抖动。然后从预定义的最大缓冲区中减去该实际抖动。否则,如果“语音数据包中的时间信息减去实际接收时间”的差值大于或等于零,则使用最大缓冲区作为缓冲区。如果接收器时间等于连接期间内具有最短数据包传输时间的不含语音内容的语音数据包中的时间信息(发送时刻),则适用这一简单的实施方式。对于在连接期间内具有最短数据包传输时间的语音内容的语音数据包,相应地使用有效载荷的时间长度作为校正,以便具有相同的标准化。如果发射器时间和接收器时间根据不同的依赖关系而相关(即如果这两个时间对于具有最短数据包传输时间的语音数据包来说不同步),则相应地使用根据该相关关系的依赖关系。
因此,根据本发明,通过抖动补偿确定动态缓冲区(抖动缓冲区),其时间长度取决于语音数据包实际抖动长度,在收到语音数据包后确定缓冲区。这是在至少一个不含语音内容的语音数据包之后的包含语音内容的第一个语音数据包。优选地,根据本发明,缓冲区的确定方式是:对于数据包传输时间无实际抖动或实际抖动最短的语音数据包(即接收时间最早的语音数据包)使用最大缓冲区,并从最大缓冲区中减去实际抖动。换言之,因此根据本发明来确定缓冲区,使得(用于确定动态缓冲区的语音数据包的)实际抖动与动态缓冲区的总和是恒定的。选择的长度最好能保证该总和的恒定值能确保连续处理(例如,音频播放和/或无线电发送),即使接收到抖动差异最大的连续语音数据包。因此,实际抖动和动态缓冲区的总和的这个恒定值应该至少大于语音数据包的接收时间中出现的最大差值。较小的临时干扰也可以通过进一步的安全范围来捕获,例如预期抖动的两倍。
因此,从发送带有语音内容的语音数据包到处理该语音内容(例如连续输出包含连续语音内容的语音数据包序列),不仅可以在最短时间内完成,而且从发送包含语音内容的语音数据包到处理该语音数据包之间的时间总是相同的,即使并行使用各种传输信道或由于其他原因必须知道绝对传输时间。
本发明的另一个优选实施例可以提供在接收器时钟的初始化期间和在相对数据包传输持续时间的确定期间考虑包含语音内容的语音数据包和不包含语音内容语音数据包的不同长度,特别是在接收时间被标准化为发送不包含语音内容的语音数据包的情况下,例如,在处理接收时间时,可以减去数据报文的有效载荷的额外已知长度。因此,在每种情况下,可以针对不含数据内容的较短语音数据包来计算有效传输持续时间(数据包传输时间)。根据本发明,根据一个特别优选的实施例,接收器时钟可以在初始化期间与语音数据包中的时间信息同步,该语音数据包被标准化为不含语音内容的语音数据包。因此,对于具有最短数据包传输时间的语音数据包(即,没有抖动或发生抖动的时间最短)来说,这实际上相当于传输信道上的语音数据包的延迟。因此,语音数据包中的时间信息与接收器时间之间的偏差(如差值)表明了当前接收语音数据包时的抖动。因此,该方法可以在包含和不包含语音数据的语音数据包上没有差异的情况下使用,例如用于初始化和/或调整接收器时间。
根据本发明的另一个方面,最短数据包传输持续时间的确定可以在连接持续时间或连接期间的多个时间间隔内进行,这些时间间隔优选地彼此直接相连,根据本发明,其结果是将接收器时间调整为临时存储的最短数据包传输时间。因此,即使在连接期间,接收器时间也会根据传输信道的可能变化而不断调整。在每种情况下,这优选地发生在间隔结束时。与连续接收到的带语音内容的语音数据包相对应的模拟语音内容的持续输出最好不受接收器时间调整的影响,而是继续输出。如果在至少一个没有语音内容的语音接收数据包之后,再次接收到包含语音内容的第一个语音数据包(在接收器时间调整之后),则接收器时间的调整只影响缓冲区的确定(根据本发明,缓冲区是动态的)。
时间间隔的长度可以由时间长度(持续时间)或接收到的包含和/或不包含语音内容的语音数据包的指定数量来定义。
根据本发明,接收器与发射器的连接期间,或者更一般地发射器与接收器之间的连接期间,也可以限制在最大连接持续时间内。发射器和/或接收器可以被配置为在已经达到最大连接时间之后中断连接,因此,必须重新建立连接,至少在需要再次传输语音内容的情况下是这样。这就需要重新初始化接收器时钟,并重复上述方法。因此,传输信道中传输条件的变化可以自动考虑在内。
在本发明的另一个实际的实施方案中,根据临时存储的最短相对数据包传输持续时间对接收器时间的调整可以这样进行:如果相对于当前接收器时间,接收器时间提前了最短相对数据包传输持续时间,则表明接收到了数据包传输时长较短的语音数据包。通过将接收器时钟提前,使其与抖动最短或数据包传输持续时间最短的语音数据包的传输时间同步。
此外,根据本发明,根据临时存储的最短相对数据包传输持续时间对接收器时间的调整可以以这样的方式进行:如果临时存储的最短相对数据包传输持续时间表明,只接收到相对于当前接收时间具有较长数据包传输时间的语音数据包,则接收器时间回拨,其中接收器时间回拨一个确定或可确定的持续时间。如果在所考虑的时间段内,特别是在连接期间内,在没有接收到数据包的情况下,在前一次接收过程中又达到了迄今为止最短的数据包传输持续时间(即较小或最短的抖动值),则设置接收器时间会考虑到所有语音数据包较长的传输时间,并纠正使用不切实际的较短抖动值的情况。这可能表明传输条件正在发生变化。根据本发明的一个特别优选的实施例,可定义的时间段可以通过相对于接收器时间的最短相对数据包传输持续时间来实现,特别是接收语音数据包时与接收器时间的时间偏差,并用加权因子加权。例如,合理的加权因子可以是例如1/3,但本发明的实施例并不限于此。因此,接收器时钟和发射器时钟之间的时间差,例如由于所使用的定时器的时钟差异造成的时间差,也会连续自动校正。
如前所述,在本发明的一个特别优选的实施例中,确定不含语音内容的语音数据包和含语音内容的语音数据包的最短相对数据包传输持续时间可以采用相同的方式,甚至可以在输出或处理语音内容时进行,即独立地进行。在这种情况下,可以采用前面解释过的不包含语音内容的语音数据包的标准化方法。可选的,对含有语音内容的语音数据包进行标准化也是可能的。这样就可以在连接期间连续确定最短相对数据包传输持续时间。
根据本发明,按照本发明的一个优选实施例,缓冲区可以从最大缓冲区开始,根据含有语音内容的第一个语音数据包中的时间信息和接收到第一个语音数据包时的接收器时间(即根据实际抖动)的比较所产生的接收延迟,来调整要考虑的最大抖动。要考虑的最大抖动应理解为由于接收器中语音数据包的接收时间的随机波动而导致的最大接收延迟。因此,最大缓冲区的调整可以通过缩短实际抖动的最大缓冲区来实现。如果接收延迟为负值,即接收到的第一个语音数据包的语音内容快于之前用于调整接收器时间的语音数据包(包括初始数据包),根据本发明,也可以不调整最大缓冲区。
根据本发明的一个优选实施例,接收器可通过多个不同的传输信道接收具有相同语音内容的语音数据包,其中接收器可对通过不同传输信道接收的具有相同语音内容的语音数据包的延迟进行校正。例如,可以通过对不同传输信道的延迟校正来相互比较语音数据包的延迟,其中每个传输信道的延迟校正由传输时间最长的传输信道的延迟差值构成。这种延迟校正也被称为动态延迟补偿(DDC)。每个传输信道的延迟校正可能是已知的并且也可以被推导出来,例如可以从传输信道的物理条件中推导出来本领域技术人员知道与此相关的物理定律,以及这种延迟校正(动态延迟补偿DDC)的基本过程。
除了缓冲区(抖动缓冲区)之外,这种类型的延迟校正还表示从接收语音数据包到处理来自语音数据包的语音内容之间的进一步等待时间。如果这样的延迟校正是已知的或者已经可以由发射器确定,则该延迟校正也可以在语音数据包中发送,例如在语音数据包的报头中发送。因此,特别是在根据本发明提出的抖动补偿方面,即使这些具有相同语音内容的语音数据包在不同传输信道(通过IP网络)中的延迟不同,从在不同传输信道上发送具有相同语音内容的语音数据包到接收器处理语音内容(通过无线电发送和/或输出)的时间也是相同的。这避免了例如在特别优选使用IP语音传输用于空中交通中的地对空业务通信的情况下的无线电通信中的回声,其中(IP语音通信的)几个接收器作为不同地面站(以空间分布的方式布置)的无线电发射器同时发送语音信息。这意味着,即使在无线电范围有限的情况下,也可以覆盖大片空域。
根据本发明,这种延迟校正也可以由根据本发明的接收器通过应用抖动补偿的方法来确定,即在连接期间,以上述方式对每个传输信道分别初始化接收器时钟,在接收器时钟初始化之后,以上述方式确定每个传输信道的最短相对数据包传输持续时间,并通过上述接收器时钟的调整来完成。由于具有相同语音内容的语音数据包分别在不同的传输信道上传输,且接收器时钟分别与在各自传输信道上以最短相对数据包传输持续时间发送语音数据包时的发射器时间相关,因此,可以通过比较接收器时间得出不同传输信道上的延迟差异,而接收器时间在每种情况下都与抖动最小的数据包传输持续时间相关,因此可以得出每个传输信道的相应延迟校正(动态延迟补偿DDC)。
例如,根据一个优选的实施方案,这可以通过多个传输信道中的一个信道的每个接收器在接收到语音数据包(带有该语音数据包和接收器的标识符)后,将其接收器时间(往返延迟)发送回发射器来实现。因此,发射器可以(通过类似于前面描述的方法)确定发射器和相应接收器之间的最短数据包传输持续时间。由此,发射器可为每个接收器确定相应的延迟校正(动态延迟补偿DDC),并在必要时将其传送给该接收器,或者将其包含在每个语音数据包报头所含的发射器时间信息中。从而可以相应地进行自动动态延迟补偿DDC。
本发明还涉及一种接收器,用于通过IP网络接收数字化语音数据包,并根据权利要求9处理语音数据包中包含的模拟语音内容,该接收器具有一个接收单元,可连接(适于连接)到IP网络,并被配置为(适于)接收通过IP网络传输的语音数据包,该接收器具有一个带接收器时钟的算术逻辑单元,用于处理接收到的语音数据包,例如,从语音数据包中提取语音数据包中传输的数字语音数据的有效载荷并进一步处理。例如,进一步的处理可包括将从语音数据包序列中提取的语音数据转换为语音内容,并通过无线电(例如通过调制器的数字HF调制)发送和/或通过语音输出装置(尤其是扬声器)直接输出。根据本发明,当接收和输出语音内容时,算术逻辑单元被配置为(适于)执行根据权利要求1至8中任意一项所述的抖动补偿方法或其部分内容。
根据一个优选的实施例,接收器可被配置为通过多个不同的传输信道接收具有相同语音内容的语音数据包,并在处理过程中应用根据权利要求8所述的方法,其中算术逻辑单元被配置为处理从多个不同传输信道接收到的具有相同语音内容的语音数据包中的语音内容。特别地,相同的语音内容可以分别从通过不同传输信道传输的多个(甚至全部)语音数据包中输出(例如通过无线电传输)。根据本发明的方法,具有相同语音内容的语音数据包的输出时间在不同的传输信道上是同步的,既包括通过不同传输信道对语音数据包的延迟进行校正(动态延迟补偿(DDC)),也包括对接收时间之间的随机时间波动(抖动)进行校正。在地对空通信的首选情况下,接收器尤其可以由多个无线电发射器组成,这些发射器分布在不同空间的地面站,通过上述方法以时间同步的方式通过无线电发送相同的语音信息。
本发明还涉及一种根据权利要求11的特征发送和接收语音内容的方法,其中发射器将语音内容转换成包含或不包含语音内容的数字或数字化语音数据包序列,其中包含语音内容的语音数据包具有被称为报头的部分,包含用于通信控制的数据,还有被称为有效载荷的部分,包含从部分语音内容数字化而来的语音数据。不包含语音内容的语音数据包具有报头,但不具有有效载荷。每个语音数据包,特别是语音数据包的报头,都包含发射器时间的至少一条时间信息,表示语音数据包的发送时刻。发射器通过IP网络的至少一个传输信道发送语音数据包序列。在该方法中,接收器接收包含或不包含语音内容的数字化语音数据包序列,并处理语音内容,其中在接收器中采用前文所述的抖动补偿方法,特别是根据权利要求1至8中任意一项所述的方法。
根据该方法的一个优选实施例,可在IP网络中通过至少一个通信信道在发射器和接收器之间的连接期间内建立永久通信连接,其中,在连接期间内,在不需要传输语音内容时,交换不包含语音内容的语音数据包,最好以指定的常规传输时钟速率交换,以保持发射器和接收器之间的连接;在连接期间内,在需要传输语音内容时,从发射器向接收器传输包含语音内容的数字或数字化语音数据包序列。
因此,根据本发明提出的抖动补偿方法可以长期(连续)进行,这样在传输语音内容时,动态调整的缓冲区就可以根据传输信道的当前情况随时使用。
根据本发明,在双向语音连接的情况下,通信双方都充当发射器和接收器,也可以使用组合式发射器/接收器设备,在这种情况下,发射器和接收器的功能分别由一个设备实现。从这个意义上说,为清晰起见,本文分别描述的发射器和接收器功能也分别适用于组合式发射器/接收器设备。在这些设备中,如果合适的话,某些功能不是唯一地分配给发射器或接收器的。本发明还涉及这样一个实施例,其中所有描述的功能都分配给一个组合式发射器-接收器设备,而没有明确地将功能和特性(其中有些是重叠的)分配给发射器或接收器。例如,在建立永久通信连接时,原则上可由发射器和接收器同时发起。在通信设置方面,语音内容的(纯)接收器也可以具有通信设置的发射功能,语音内容的(纯)发射器也可以具有通信设置的接收功能,特别是在IP网络的通用通信技术中提供的功能。在组合式发射器/接收器设备的情况下,两个通信参与者可同时作为接收器和发射器运行,并在两个通信方向上交换不含语音内容的语音数据包,以保持通信连接等。这可以在两个通信方向的共同传输信道或分别在每个通信方向的一个传输信道中进行。如果一个通信方向有多个不同的传输信道,情况也是如此。
就用于实现本发明而言,本领域技术人员已知的通信技术也属于本发明的主题,即使这里没有对其进行全面描述,因为可以假定该专业知识。
根据本发明的一个实施例,发射器可通过多个不同的传输信道发送语音数据包,接收器可接收通过不同传输信道发送的语音数据包。优选地,接收器同时接收通过不同传输信道传输的语音信道并对其进行处理,例如,由于本发明的提出,可以避免输出中的回声。接收器可由多个空间分布的无线电发射器组成,它们通过无线电同时发送语音信息
因此,根据本发明,该方法可以特别优选地用于无线电通信,尤其是CLIMAX运行中的地对空业务通信的传输,在这种情况下,多个不同的无线电信道(作为或在传输信道的意义上)被用于传输无线电信息(作为语音内容)。
为此,本发明还涉及一种通过IP网络发送和接收数字或数字化语音数据包的设备,语音数据包中包含语音内容,该设备具有发射器和接收器,其中发射器具有用于记录模拟语音内容的语音记录单元(尤其是麦克风),以及具有发射器时钟的算术逻辑单元,该算术逻辑单元被配置为(适于)根据前文描述的方法或其一部分处理所记录的语音内容,特别是根据权利要求11至14中的任意一项,其中接收器是根据前面描述的特征,特别是根据权利要求9或10中的一项构造的,因此发射器和接收器被配置为(作为)一个整体,以应用发送和接收语音内容的方法的特征或其部分特征,特别是根据权利要求11至14中的任意一项。
本发明的更多优点、特征和使用的可能性还来自于以下对示例性实施例和图纸的描述。对本领域技术人员而言,所有描述的和/或图示的特征都属于本发明的主题内容,甚至与描述的或图示的示例性实施例或权利要求书中的概述无关。
在图中:
图1示例性地示出了通过IP网络(IP语音–VoIP)传输模拟语音内容的时间序列;
图2示例性地示出了在没有延迟校正的情况下在两个不同的传输信道上发送具有相同语音内容的语音数据包的时间序列;
图3示例性地示出了在与图2相对应的两个不同传输信道上发送具有相同语音内容的语音数据包的时间序列,并通过延迟校正进行了扩展;
图4示例性地示出了根据本发明的在具有动态抖动补偿的情况下,在与图3相对应的两个不同传输信道上发送具有相同语音内容的语音数据包的时间序列;
图5示例性地示出了根据本发明的在具有动态抖动补偿的情况下,在与图4相对应的两个不同传输信道上发送具有相同语音内容的语音数据包的时间序列,其中,在不同的语音数据包序列中连续发送多个不同的语音内容;
图6示例性地示出了发射器和接收器之间的连接期间,其中接收器接收到包含和不包含语音信息的语音数据包;
图7示出了根据本发明的接收器时钟的初始化和根据本发明确定最短相对数据包传输持续时间的流程图;
图8示出了用于执行根据图7的方法的日志文件的摘录;
图9示出了通过动态调整缓冲区来延迟无线电信息的第一个语音数据包的流程图;
图10示出了用于执行根据图9的方法的日志文件的摘录;
在描述本发明的实际实施例之前,应先解释一下已知的通过IP网络传输语音的原理(IP语音或VoIP应用)以及本文中使用的术语。
图1示例性地示出了用于发送和接收模拟和/或数字语音内容的方法的时间序列,这在现有技术中原则上是已知的,并且原则上也应用于根据本发明的方法的上下文中。需要注意的是,时间刻度只是示意性的,并不说明实际的时间比例。特别地,语音数据包的实际传输时间比示意图中所示的要短得多。
在通过IP网络(IP语音/VoIP)传输语音时,模拟语音内容1(例如录制的口语文本)会按照已知的方式(例如通过脉冲编码调制(PCM))进行数字化,这样语音内容1最迟在数字化后会以数字语音数据的形式出现。数字语音数据也被称为语音内容1。
数字语音数据被组合在数据包(语音数据包110)中,其中在一个语音数据包110中仅包含整个语音内容1的一部分。这通过语音内容1中的垂直线来阐明。每个数字语音数据包110也被称为语音样本。
因此,语音内容1通常被划分为由几个连续的语音数据包110组成的序列119。图1中以示例的方式示出了具有四个语音数据包的序列119。
每个语音数据包110包含数字语音数据,数字语音数据包括语音内容1的一部分,例如几毫秒(也就是说语音内容1中的一部分)。包含在语音数据包110中的(数字或数字化模拟)语音数据的这种部分也被称为有效载荷PL。语音数据包110还包含作为重要组成部分的报头H,报头H包含用于通信控制的数据。例如,在报头H中输入第一语音样本的采样时刻作为时间戳(在指定发送时刻ts的时间信息的意义上)。这被采用作为语音数据包110的发送时刻ts。语音内容1的采样可以理解为以采样频率(例如8kHz)对模拟语音内容1进行采样,在采样过程中,分别为语音内容1分配一个数字值,也就是说,将语音内容数字化为语音数据并分成数据包(有效载荷PL)。
语音数据包110由发射器创建,发射器在技术语言中也称为(语音数据包的)源,然后被发送到接收器,接收器在技术语言中将也称为(声音数据包的)数据接收端。发射器将发送时刻ts插入报头中,并发送语音数据包110。如果发送的是不包含语音内容1的语音数据包120(图1中未示出,下文将进一步解释),其中省略了有效载荷PL,则发送时刻ts与语音数据包120的发送时刻ta相对应。如果发送了包含语音内容1(如图1所示)的语音数据包110,则发送的时间因语音数据包110的采样而延迟。这占用时间段TPS,使得语音数据包110的实际发送时刻(实际发送时刻ta)偏移时间段TPS,即ta=ts+TPS。采样有效载荷PL所需的时间段TPS也被称为有效载荷的长度,可以认为是恒定的(下文将进一步解释对此的修正)。发送语音数据包110是参照时间轴50示出的,并且通过发射器(从语音数据包的源的意义上)进行发送。
如图1所示,在传输之后直到收到语音数据包110有一段时间,在接收时间te时,并且原则上可以从有效载荷PL的输出开始。图1示出了在四个语音数据包110的IP网络的传输信道10中,其中每个语音数据包110在一条线上一个接一个地示出,参考时间轴51。
语音数据包110的延迟DEL和网络的抖动JIT表示在通过传输信道10传输语音数据包110期间的两个重要影响变量。
延迟DEL或延迟本质上是指传输信道上的(物理)信号延迟的总和。通过IP网络传输语音时,由于要进行临时存储,必要时还要进行数据缩减、压缩和解压缩,因此会造成进一步的延迟。由于这些延迟在短时间内可以被认为是恒定的(在本发明的应用中可以这样假设),因此在此不再进一步考虑。在本文中,这些恒定延迟也应包括在延迟DEL中。
接收两个语音数据包110之间的随机时间波动在技术上是不可避免的,被称为抖动JIT。这种抖动JIT造成的后果是,长度相同的语音数据包110虽然在发送时彼此的时间间隔完全相同,但到达接收器时的时间间隔却不同。图1中用不同宽度的方框JIT表示每个语音数据包110,其中只说明了有效载荷PL(对本发明至关重要),为清楚起见省略了报头H。
需要再次指出的是,图中各个部分(H、PL、DEL、JIT、SBJ)的时间长度既没有再现各部分相对于彼此的实际持续时间,也没有说明时间轴在整个长度上的持续时间是一致的。图示仅用于理解根据本发明所述方法在本发明背景下的顺序,而不使用统一的(绝对的或相对的)时间刻度。
连续语音数据包110的接收时间间隔不同,可能导致在进一步处理(例如播放或使用)传输的语音信息1时,无法将单个语音数据包110的有效载荷PL连接到连续的输出流,如图1中语音输出90的第一变体(作为处理接收到的语音数据的一个示例)所示。在这里,在接收时间te1接收到第一个语音数据包110的有效载荷PL后,立即开始输出语音信息。在来自第一个语音数据包的有效载荷PL的语音信息的处理(例如播放)完成之前,在时刻te2接收第二个语音数据包的有效载荷PL。因此,第二个语音数据包110的有效载荷PL被临时存储在接收器中,直到完成对第一个语音数据包110有效载荷PL的处理为止。因此,对第二个语音数据包110的有效载荷PL的处理可以直接跟进对第一个语音数据包110中的有效载荷PL的处理。对于第三个语音数据包110的有效载荷PL也是如此,使得例如到目前为止,语音信息的连续输出(从有效载荷PL的可能处理的意义上)是可能的。
然而,由于抖动JIT特别长,第四个语音数据包110的有效载荷PL仅在接收时刻te4接收到,而此时第三个语音数据包110的有效载荷PL的处理已经完成。
因此,任何可能需要的播放(或其他处理)都必须等到接收时刻te4,这将导致语音输出(处理有效载荷)暂停或中断92。因此,连续处理是不可能的。
现有技术中使用所谓的“缓冲区”(抖动缓冲区)来补偿接收连续语音数据包110时的这些不同时间间隔(抖动JIT),并实现连续语音输出。因此,在语音传输方面,在接收时刻te1接收到语音数据包110的序列119中第一个语音数据包110的有效载荷PL之后,需要等待规定的时间(等待时间),才能进一步处理或输出语音。在图1中,语音输出的第二变体91举例说明了这一点,其中,在第一个语音数据包110的有效载荷PL的语音信息输出之前,在时刻tw,即在时刻te1接收到该信息之后,有一个静态的、固定的等待时间的等待,该等待被称为(静态)缓冲区SJB(静态抖动缓冲区)。因此,在第一语音数据包110的接收时刻te1之后,在语音消息的播放/处理开始之前,存在对静态缓冲区SJB的等待(在时间段的意义上)。在缓冲区SJB期间,后续的语音数据包110继续被临时接收和存储。这意味着,在播放完第一个语音数据包110的语音信息(有效载荷PL)后,在接收时刻te2已经接收到后续语音数据包110的有效载荷(PL),并将其临时存储起来,以便在播放完第一个语音数据包110的有效载荷PL后直接播放后续语音数据包。接下来的语音数据包110也是如此,这样接收器就可以连续播放整个传输的语音内容1。术语“播放”应理解为与本发明意义上的“处理”同义,还应包括对语音数据包110中接收到的有效载荷PL进行其他处理,作为可听的播放。这方面的例子如下所述。
因此,(静态)缓冲区SJB对处理过程产生了额外的有意延迟(在所述示例中:语音输出)以便随后同步地输出语音数据。晚于静态缓冲区SJB的延迟时间到达的语音数据包110不能再被合并到输出数据流中。缓冲区SJB的大小被添加到延迟DEL。因此,缓冲区SJB的大小允许在更多延迟(和更低的数据包丢失速率)或更少延迟(和更高的数据包丢失速率)之间进行选择。如果在处理/输出前一个语音数据包的有效载荷PL之后,后一个语音数据包110丢失,即其有效载荷PL尚未被处理/输出,那么连续处理/语音输出就会中断。
因此,以下方法是现有技术中已知的:
在发射器(数据源)中创建包含整个语音内容1(数字或数字化语音内容)的确定部分作为有效载荷PL的语音数据包110(在实践中,例如有效载荷的长度为10ms),并且以相同的时间间隔,即以相同的传输频率发送。在时间轴50中,发送时刻ts1至ts4相等。由于传输信道10上的延迟DEL和抖动(JIT),语音数据包110会延迟到达接收器(数据接收端)。传输信道10上的延迟DEL在所考虑的短周期内被认为是恒定的,这在本发明中被应用于连续的语音数据包110(例如,数字无线电连接中的无线电信息),而每个语音数据包110的抖动JIT可以不同,通常也在一定的抖动带宽内。这导致语音数据包110到达接收器的时间间隔不再恒定。这在时间轴51中以非等距接收时间te表示。
为了在数据包的进一步处理中消除这些时间差异,音频输出(语音输出90)不是在接收时刻te1处第一个语音数据包110到达之后立即发生。语音输出90还被缓冲区SJB(抖动缓冲区的时间)进一步延迟到时刻tw。
如果不这样做,而是在第一个语音数据包到达后立即开始进一步处理,在根据图1的上述示例中,这将导致连续的第三个和第四个语音数据包110之间的语音间隙(语音输出期间的中断92),因为第四个语音数据包110在第三个语音数据包110的有效载荷PL的语音输出之后还没有到达。
从图1中可以清楚地看出,语音输出tw的开始取决于第一个语音数据包110何时到达接收器(时刻te1)以及缓冲区SJB有多大。因此,语音输出的开始取决于延迟DEL、语音数据包110的序列的第一个语音数据包的抖动JIT以及缓冲区SJB(抖动缓冲区)的长度。延迟DEL和缓冲区SJB可以被认为在正常语音传输(例如作为无线电信息)的上下文中是恒定的。抖动JIT仍然是一个影响变量。
关于使用IP语音来传输例如航空器和空中交通管制之间的地对空通信业务,存在与语音数据包的抖动JIT和延迟DEL直接相关的附加因素:回声。
不管具体的例子如何,如果无线电信息(例如来自空中交通管制)应该发送给在空域中移动的航空器,例如来自监视相关空域的空中交通管制,则总是如此。单个无线电发射器的单条无线电传输线路不可能始终覆盖实际受影响的空域相反,在许多情况下,以空间分布的方式设置了几个无线电发射器(作为地面站),这些发射器从不同的位置向空域中的航空器发送无线电信息,使得航空器中的无线电接收器可以在整个空域中接收无线电信息。因此,可以实现与安全相关的通信,这是必要的,例如在无线电操作中的地对空通信的情况下。
地面上的无线电发射器到航空器上的无线电接收器的无线电传输基本上以光速进行。在这里讨论的无线电链路的情况下,可以忽略传输期间的延迟差异。无线电接收器接收到的无线电信息(由所发送的语音内容1形成)通常由无线电接收器直接输出。这是常见的做法,并不是本发明的主题。通常,无线电发射器和无线电接收器之间的这种无线电链路也不是通过IP语音传输来实现的。关于此处描述的地对空通信的特别优选实施例,本发明涉及通过IP网络进行抖动补偿,该网络用于将语音信息从中央信号源(本文中IP语音传输中发射器意义上的“发射器”)传输到无线电发射器(本文中IP语音传输中接收器意义上的“接收器”)。然后,几个无线电发射器通过无线电将语音信息发送到空域,供航空器上的无线电接收器接收。
因此,无线电发射器通过IP语音连接接收数字语音数据包110,组合其有效载荷PL以形成语音消息1,然后通过无线电以使用传统无线电技术的调制方式发送语音消息1。这就是对包含在语音数据包中的语音内容的“处理”并最终输出语音内容的含义。
此外,如果在无线电发射器和无线电接收器之间的实际无线电传输过程中,通常不会出现同一无线电信息的各种传输的相关延迟波动,从而导致通过各种无线电发射器(CLIMAX操作)播放同一无线电信息时出现回声,那么通过IP语音经由IP网络从发射器(无线电信息源)到接收器(IP语音传输的无线电信息接收端,即通过无线电发送无线电信息的无线电发射器)之间的无线电信息延迟是不同的。这导致不同的无线电发射器发送同一无线电信息的时间不同,并在接收器中播放无线电信息的过程中产生回声。从无线电信息源(例如,空中交通管制)到无线电接收器接收到无线电传输后的播放的无线电信息的整个传输路径被称为无线电信道,其中,通常导致回声的延迟差异发生在IP网络的IP语音传输期间,并导致回声。在这方面,本发明意义上的无线电信道总是指一般意义上的传输信道。在所描述的示例中,连续语音内容1的接收(和发送)也被称为无线电信息。因此,无线电信息也总是意味着一般意义上的语音内容。
如果具有相同语音内容1的语音数据包110由发射器通过两个或更多个无线电信道成功地发送,则语音数据包110被发射器作为语音数据包110通过第一信道10发送,并且作为语音数据包210通过第二无线电信道20发送。因此,接收器还通过包含相同语音内容1的相应无线电信道10、20接收第一语音数据包110和第二语音数据包210(图2)。语音数据包110和210的结构以及时间序列对应于前面关于图1对语音数据包110的描述。语音数据包110和210的有效载荷是相同的。
在无线电信道10和无线电信道20上传输具有相同语音内容1的语音数据包110、210(为区分无线电信道10、20,也称为语音数据包110、210)也称为CLIMAX操作。这不限于10、20两个无线电信道,而是普遍适用于多个无线电信道。
CLIMAX操作(德语“überdeckung”/英语“overlap”)指发射器在相同频率上从多个传输位置(无线电发射器)并行且基本上同时发送(广播)语音数据包110、210。因此,发射器(作为无线电信息的源)利用位于不同位置的几个不同的无线电发射器,这些发射器尽可能同时在相同的射频上发送相同的语音数据包110、210,使得语音内容在无线电接收器处重叠,只要由各种无线电发射器通过无线电发送的无线电信息在(同一)接收器处被接收。这种使用情况是本发明的一个特别优选的应用。
因此,这种类型的CLIMAX操作可用于地对空通信,以便使用一个传输频率覆盖非常大的空域或空间覆盖困难的区域,例如山区。在接收到无线电信息1(即,所发送的语音内容)时,飞行员可以位于一个区域中,在该区域中,他们从一个以上的无线电发射器位置接收到具有相同语音内容1的语音数据包110、210。
因此,必须通过适当的技术方法确保在所有无线电发射器上尽可能同时发送无线电信息(根据ED-137规定,在10ms内),以防止飞行员收到无线电信息的回声。
图2实际示出了这样一种情况:从中央发射器(作为无线电信息源)开始发送无线电信息,在第一无线电信道10上发送四个语音数据包110,在第二无线电信道20上发送四个语音数据包210,在每种情况下都通过IP语音连接发送,其中四个语音数据包110和四个语音数据包210具有相同的语音内容1。这些语音数据包应该在接收器中同时处理。在这里描述的CLIMAX操作的特别优选的用例中,这意味着设置了多个接收器,这些接收器分别有一个无线电发射器,该无线电发射器经由IP语音连接通过无线电广播接收到的语音数据包110、210,以供一个无线电接收器接收。为了在无线电接收器处不发生回声,通过IP语音连接接收的语音数据包110、120应当由各个无线电发射器位置处的每个无线电发射器(在每种情况下对应于IP语音连接的一个接收器)同时发送。
在这个例子中可以看出,从无线电信道20上的发射器到接收器的延迟DEL比到无线电信道10上的接收器的延迟更长。延迟的差异是由于无线电信道10、20(或更一般地,传输信道10、20)中的不同干扰或特性而产生的。各无线电信道10、20中的(不同)延迟DEL在无线电信息的给定短周期内是恒定的,因此这些延迟差异可称为静态延迟差异。原则上,也可以根据发射器和接收器在各自无线电信道10、20上的当前位置(不同距离导致的延迟差异)或通过确定干扰来确定,例如在无线电信道10、20上设置连接时。
因此,仅仅由于语音数据包110、210在不同无线电信道10、20上的延迟DEL不同,通过不同无线电信道10、20传输相同语音数据包110、210在接收器上相同语音内容1的输出时刻tw也不同,即在无线电信道10上的输出时刻tw(10)和在无线电信道20上的输出时刻tw(20)。
在优选的使用情况下,接收器处的输出时刻ta是指无线电发射器发出语音内容的时刻。语音内容1然后仅在无线电接收器处作为模拟语音输出。通过无线电发送语音内容会导致无线电接收器在(模拟)播放语音信息时产生不希望的回声。因此,用于在通过IP网络连接(IP语音)接收期间和之后处理语音数据包的整个系统可以被理解为本发明意义上的接收器。因此,在所描述的示例情况中,这是由无线电发射器(作为通过IP语音连接的语音数据包的接收器)和输出(在进一步处理的意义上)组成的系统,这里通过无线电发送语音信息,由无线电接收器接收,然后无线电接收器以可听的方式输出语音内容。接收器下游的无线电链路(在对接收到的语音数据包进行进一步处理以在无线电链路末端输出的意义上)实际上不再导致各种无线电信道上的(新的或进一步的)延迟差异。在下文中,仅考虑通过IP网络的IP语音传输期间的行为,而不考虑直接(模拟)语音输出是直接在IP语音传输之后发生,还是仅在无线电发射器和无线电接收器之间的后续无线电传输之后发生。
在ED-137标准中描述了一个名为“动态延迟补偿(DDC)”的功能,以补偿通过各种传输信道或无线电信道10、20从发射器到接收器的静态延迟差异。在这里,延迟DEL的不同值通过附加的延迟校正DDC对不同的信道10、20进行调整,“快速”无线电信道10上的发送被延迟校正DDC延迟,直到与“慢速”无线电信道20上的延迟DEL一致。这种由延迟校正DDC引起的延迟被称为动态延迟补偿。这种延迟校正可以通过在“较快的”无线电信道10的发射器位置,即发射器区域中的延迟发送来实现,或者通过类似于缓冲区的接收器处理语音信息期间的等待时间来实现。延迟差异可以是已知的和/或可计算的,并且相应地应用于发射器或接收器中。延迟差异甚至可以由接收器以前述方式在连接期间确定和应用。
对于根据图2的情况,应用延迟校正的结果如图3所示。因此,结果,对于每个无线电信道10、20,语音数据包110、210的实际延迟和(如果存在的话)延迟校正DDC的总和是相同的。这样,回声的出现就不再取决于不同的延迟DEL。
然而,图3清楚地表明,即使抖动JIT,即语音数据包110、210的到达时间也会因每个无线电信道(传输信道)10、20而异。不难看出,在无线电信道10和20的CLIMAX运行期间,由于延迟不同,也会出现回音问题,而这只是抖动JIT不同造成的。对于相同的语音内容1,这也导致通过无线电信道10的输出时刻tw(10)和通过无线电信道20的输出时刻tw(20)的不同。
如前所述,从序列119接收第一个语音数据包110、210的时刻te1(参见图1)确定了语音输出开始时间tw。如果第一个语音数据包210相对于语音数据包110而言到达的时间较早(即该语音数据包210的当前抖动较小),则语音播放开始的时间较早。如果相对而言,第一个语音数据包110到达的时间较晚(即该语音数据包110当前的抖动较大),则语音播放开始的时间较晚,这里的“语音播放”或“语音输出”也指通过无线电重新发送。
在使用多个无线电或传输信道时,ED-137标准的延迟校正并未考虑这一问题。
然而,通过所提出的通过动态缓冲区进行动态抖动补偿的方法克服了这个问题。这样,无线电信息(或语音数据包110、210的序列119)的语音输出开始时刻tw就不再取决于语音数据包序列119中第一个语音数据包110、210的抖动。
根据本发明,实际接收时间(与实际抖动同义)在代表语音信息(即语音信息1)的语音数据包110、210序列119中的第一个语音数据包110、210中确定,并根据实际接收时间(与实际抖动同义)将缓冲区固定为动态缓冲区DJB(在确定或指定的意义上)。动态缓冲区的时间长度根据实际抖动的情况而定,这样由抖动JIT和动态缓冲区DJB组成的时间段是恒定的。
对于图2和图3中描述的时间序列,如图4所示。与图2或图3所示的固定缓冲区SJB不同,本发明采用动态缓冲区DJB,它根据无线电信息或语音内容1的第一个语音数据包110、210的抖动(抖动值、实际接收时间)动态定向。如果第一个语音数据包110、210相对较早(抖动值较低),则会导致缓冲区DJB在时间上较长。因此,根据本发明,实际抖动JIT(相对于没有抖动或发生的最短抖动而言的随机接收时间意义上的抖动值)和动态缓冲区DJB的总和是恒定的。这里的接收是指IP语音传输中的接收。
如果再考虑不同无线电信道10、20上的多个无线电信息1、2、3、4,我们可以从图5中看到,每个无线电信息1、2、3、4和每个无线电信道10、20的实际抖动JIT都是不同的。
不过,对于无线电信道10、20内的所有无线电信息1、2、3、4,以及所有无线电信道10、20上的所有无线电信息1、2、3、4,语音输出开始时刻tw都是相同的。因此,对所有无线电信息和所有传输信道同时进行语音数据包的进一步处理。
当语音数据包110、210的序列119中的第一个语音数据包111、211(例如无线电信息1、2、3、4中的一个)到达时,实施本发明的难点在于检测第一个语音数据包111、211的实际抖动程度,或者换一种说法,在通过IP网络接收语音内容期间,相对于语音数据包的接收时间之间出现的随机时间波动(抖动),第一个语音数据包111、211的相对数据包传输持续时间有多长。因此,必须定量地确定,相对而言,确定缓冲区DJB长度的第一个语音数据包111、211是提前还是延迟到达。
此功能在“普通”的IP语音应用程序中是未知的,ED-137标准中也没有对此进行描述。在IP语音连接(即通过IP网络传输模拟语音内容1、2、3、4)中,源(发射器)和接收端(接收器)之间的IP语音连接并不是在第一次广播包含语音内容的语音数据包110、210的序列119代表数字化语音数据(有效载荷PL)时建立的,而是在一定的连接期间内存在连接,在该连接期间内要传输多个(单独的)语音内容(无线电信息)1、2、3、4,因此可以确定语音数据包110、210序列119中第一个语音数据包111、211的实际抖动。例如,在通过IP语音连接拨打电话的情况下,如果在电话通话期间(永久)建立了连接,但在通话暂停时,传输的不是包含语音内容的语音数据包110、210,而是用于维持连接的不包含语音内容的语音数据包120,是可能的。一旦发送了新的语音内容1、2、3、4,就建立了本发明意义上的新的动态缓冲区DJB。
另一种使用情况是无线电连接,例如在地对空通信中,连接永久存在很重要,因为消息必须快速传输。为每个无线电信息1、2、3、4建立新的连接将花费太长时间并且具有太多风险。例如,可以根据ED-137标准来开发这种类型的无线电连接。下面详细描述这种类型的应用。然而,本发明不限于此,而是可以用于语音通信连接存在较长时间(永久)的所有应用中。
在根据ED-137标准使用的情况下,IP网络中存在一个永久性的IP语音连接,在此期间,语音数据包110、120、210以RTP格式持续传输给每个无线电信道10、20,这些信道既用于语音传输,也用于维持连接。图6举例说明了连接期间30和无线电信道10的情况,图中示出了三个无线电信息1、2、3(包含数字化形式的语音内容,即语音数据),其中三个点表示并非所有无线电信息1、2、3、4和语音数据包110、111、120都显示出来了。无线电信息1,2,3在每种情况下都包含具有语音内容的语音数据包110,即具有报头H和有效载荷PL,并且形成语音数据包的序列119。这同样适用于其它无线电信道20。
如果当前没有发送无线电信息1,2,3,则发送不包含语音内容的“空”语音数据包120,其不具有任何语音数据(有效载荷PL)而仅具有报头H。语音数据包110、120的发送最好以预定的发送时钟速率进行。
构成无线电信息1、2、3的语音数据包110的序列中的第一个语音数据包111在每种情况下都是一个不同的语音数据包111,其区别在于该语音数据包是第一个包含语音内容的语音数据包110,它位于一个或多个不包含语音内容的语音数据包120之后,因此表示新的无线电信息1、2、3的开始。对于包含语音内容的语音数据包序列的第一个语音数据包111,通过比较接收到的语音数据包111中的时间信息和接收器在接收时的接收器时间来确定该语音数据包111的实际接收时间(即实际抖动)。根据实际接收时间确定本发明的缓冲区DJB(动态缓冲区/抖动缓冲区)。
借助于连接期间30期间的这种永久连接和在连接期间30中交换的语音数据包110、120,可以简单地确定相对而言最短的数据包延迟,从而计算出接收器的实际抖动。如果在语音数据包110的序列119的要播放的第一个语音数据包111到达时,知道该第一个语音数据包111的实际抖动(抖动值)或接收时间,则可以相应地动态调整语音数据包播放开始前的延迟时间(即,根据本发明的缓冲区DJB)。
因此,根据本发明的过程由两个功能部分组成:
·A部分:
在通过IP网络(IP语音)进行传输期间,确定发射器(数据源)和接收器(数据接收端)之间的最短数据包延迟
·B部分:
通过动态调整缓冲区DJB(在缓冲区的大小的意义上)来延迟无线电信息1、2、3(语音数据包的序列119)的第一个语音数据包111这两个部分彼此独立地运行,都是不断执行的。该程序详细介绍如下:
A部分
语音数据包110、120由发射器(数据源)根据ED-137标准创建并标记为RTP数据包。在RTP报头H中输入第一语音样本的采样时刻作为时间戳(TRTP)。这就是语音数据包110(也是RTP数据包)的发送时刻ts。语音内容1的采样可以理解为以采样频率(例如8kHz)对模拟语音内容1进行采样,在采样过程中,分别为语音内容1分配一个数字值,也就是说,将语音内容数字化为语音数据并分成数据包(有效载荷PL)。
在采样之后,语音数据包110通过IP网络通过IP语音被发送到数据接收端,其中有效载荷PL也被附加到报头H。因此,语音数据包110在发射器的相对或实际发送时间由时间戳TRTP(发送时刻ts)和有效载荷PL的长度或持续时间TPS(即所含语音数据的时间长度或大小)之和给出。对于RTP数据包,有效载荷PL的长度或持续时间也可以被称为RTPPL,实际上可以是例如10ms。
对于不包含语音内容的语音数据包120(也称为R2S数据包),省略采样的持续时间,即R2S数据包短于有效载荷PL的长度或持续时间TPS(对于RTP数据包称为RTPPL)。在不包含语音内容的语音数据包120中,时间戳TRTP因此直接对应于发送时刻(发送时刻ta)。两种类型的语音数据包110、120中的这种差异实际上被考虑在内,因为接收器时间被标准化为不包含语音内容的语音数据包120,或与之相关,而预期接收时间则相应地通过有效载荷RTPPL的持续时间进行校正。
接收器(数据接收端)中的定时器(接收器时钟TRECEIVER,下文中称为TSINK)与发射器(数据源的发射器时钟)中的定时器具有相同的标称频率。换句话说,在本发明所考虑的无线电信息数量级的时间段内,发射器和接收器的时钟(定时器)以相同的速度运行。在较长的时间内,数据接收端和接收器的定时器会出现设计上的偏差,根据本发明的优选实施例,这些偏差会被自动纠正。这一点已经进行了描述,并在下面描述的图7和图9的算法中再次示出。
会话建立后(即发射器和接收器的连接,在连接期间30内保持连接),定时器TSINK设置了第一个到达的包含语音内容的语音数据包110(RTP数据包)或第一个到达的不包含语音内容的语音数据包120(R2S数据包)的时间值TRTP+RTPPL,其中RTPPL=0适用于不包含语音内容的语音数据包120。因此,对语音数据包110的有效载荷PL进行采样所需的时间,即持续时间RTPPL包括在内。这实际上相当于在不包含语音内容的语音数据包120的延迟方面,将接收器时钟与发射器时钟标准化。
因此,在接收到被称为初始数据包的第一个语音数据包后,在语音数据包传输信道的连接期间,接收器通过初始数据包中的时间信息,使用发射器时间初始化接收器时钟,以便在发送语音数据包时,接收器时间与发射器时间相关联。
从那时起,到达的RTP和R2S数据包的时间(定时器值)TRTP+RTPPL,即语音数据包110、120的时间戳TRTP(如包含语音内容的语音数据包110,可根据有效载荷RTPPL的持续时间进行适当修正)与收到语音数据包时的接收器时间(数据接收端接收器中定时器的定时器值)进行比较,以确定最短相对数据包传输持续时间。
从算法上讲,这可以通过以下方式实现:
图7所示算法的开始300开始于会话建立301之后,以及在具有接收器时间TSINK=TRTP+RTPPL的设置303的会话建立之后第一语音数据包110、120的接收302之后。因此,接收器时间TSINK与语音数据包110、120发送时刻ts时的发射器时间TSOURCE相关联,发射器时间TSOURCE已输入语音数据包110、120的报头H,即ts时的TSOURCE为TRTP。对包含语音内容1的语音数据包110的有效载荷RTPPL的可能持续时间进行校正。
在连接期间30内的可调节时间间隔Ti(例如imax等于100或200个语音数据包)内,每当一个语音数据包110、120(RTP或R2S数据包)接收304后,都要进行以下处理。
在每个时间间隔Ti开始时,变量TMIN被设置为值-MAXJITTER,例如-200,其中MAXJITTER规定了必须考虑的接收时间的最大延迟。这相当于发生的最大抖动。在这种情况下,时间被指定为不带度量单位的数值。例如,测量单位可能是125μs(1/8kHz),即采样时间。不过,本发明也可用于任何所需的其他取样时间。
第一步305:
在时间间隔Ti内,计算每个语音数据包110、120(RTP数据包、R2S数据包)在接收器(接收端)的实际接收时间偏差。这原则上通过形成实际传输时间的差delta(对于不包含语音内容的语音数据包120,R2S数据包:时间戳TRTP,RTPPL=0;对于不包含语音内容的语音数据包110,RTP数据包:时间戳TRTP+RTPPL)和接收器时间来实现(定时器TSINK):
delta=TRTP+RTPPL–TSINK
其中RTPPL=0适用于不包含语音内容的语音数据包120(R2S数据包)。
这是基于以下想法。在接收器时间初始化之后,如果接收到用于初始化接收器时间的语音数据包110、120时的抖动与接收到当前语音数据包110、120时的抖动相等,则差值delta等于零,因为接收器时间的相关性与发射器时间加上延迟和抖动完全一致。
如果delta大于零,则当前语音数据包110、120的速度快于迄今为止最快的语音数据包,这形成了接收器时间的初始化或稍后调整的基础。另一方面,如果delta小于零,则表示当前的语音数据包110、120比构成接收器时间基础的语音数据包慢。
因此,接收器时间(此处:TSINK)在每种情况下都与包含在后续语音数据包110、120的报头H中的时间信息进行比较,用于发送语音数据包110、120的发射器时间(此处:如果合适的话,TRTP+RTPPL),并确定相对于接收器时间的相对数据包传输持续时间,该持续时间与delta值相对应。
第二步306:
因此,原则上可以由此确定连接期间30的最快相对语音数据包110、120。
根据一个实际的实施例,还建议在每个时间间隔Ti中,通过比较变量TMIN和delta,找到相对延迟最短(即相对抖动最小)的语音数据包110、120。为此,如果在时间间隔Ti中发现相对延迟更短的语音数据包110、120,即TMIN<delta,则将在每个时间间隔Ti开始时原则上设置为最高相对抖动值(TMIN=-MAXJITTER)的变量TMIN设置为delta值,这是绝对可以想象的或者在实践中从未达到的。
因此,当测量间隔Ti结束时,TMIN将指定在测量时间间隔Ti中发生的语音数据包110、120的最短相对延迟。
由此产生的最短相对数据包传输持续时间将临时存储为TMIN,直到时间间隔Ti结束。
第三步308:
在时间间隔Ti结束307后,根据临时存储的最短相对数据包传输持续时间TMIN调整接收器时间TSINK,以便在以最短相对数据包传输持续时间发送语音数据包时,接收器时间TSINK与发射器时间TSOURCE相互关联。
这可以通过以下步骤的算法来实现:
如果请求309TMIN大于零,这意味着在上一个时间间隔Ti内,至少有一个比之前更短的抖动JIT(即较短的数据包传输时间、延迟)的语音数据包110、120已到达。在这种情况下,接收器时间(数据接收端的定时器,TSINK)被校正如下(接收器时间的校正312):TSINK=TSINK+TMIN。
因此,接收器时间提前了TMIN。此处所述的时间或定时器校正用于将接收器时钟(数据接收端接收器的定时器)同步到时间间隔Ti或整个连接期间30内最快的语音数据包110、120,即对于抖动JIT最短的语音数据包,发射器时间和接收器时间在发送时间和接收时间上相等,即从数据包发送到接收的时间最短。
因此,在本示例中,接收器时间的调整与临时存储的最短相对数据包传输持续时间有关,如果这表明接收到的语音数据包传输时长较短,则接收器时间按最短相对数据包传输持续时间回拨。通过此处描述的实施方式,可以简单可靠地实现这一目标。不过,也可以有其他实现方式,例如,在对接收器时间进行校正之前,测量时间间隔内必须至少出现一定数量的较快的数据包。因此,随机测量误差可以得到补偿。
如果TMIN等于0,则表示在上一个测量时间间隔Ti内,至少有一个语音数据包110、120已到达,其抖动JIT(即最短数据包传输时间、延迟)与之前相同(最短)。在这种情况下,接收器时间(数据接收端的计时器,TSINK)不会被修正,而是保持不变。
如果请求310TMIN小于0,则表示在上一次测量时间间隔Ti内,连接期间30没有到达抖动(数据包传输时间、延迟)更短或相同的语音数据包。在这种情况下,接收器时间(数据接收端的定时器,TSINK)被校正如下:
TSINK=TSINK+(TMIN/G),
其中G是加权因子。
由于TMIN的加权311,根据临时存储的最短相对数据包传输持续时间TMIN校正接收器时间,如果临时存储的最短相对数据包传输持续时间表明只接收到数据包传输持续时间较长的语音数据包,则接收时间回拨,其中接收时间回拨的持续时间是确定的或可定义的。此处所述的接收器时间或定时器校正的使用,使得接收器时钟不完全朝着速度更快的语音数据包110、102(抖动JIT更短)的方向进行校正。对于相反的方向(在相对较长的时间内只接收较慢的语音数据包110、102),校正也是合理的。因此,可以考虑这样一个事实,例如,源时钟和接收端时钟的运行速度并不完全相同(尤其是在连接期间30相对较长的情况下)。
此外,由于传输路线的改变(即,尤其是传输信道10的改变),所有语音数据包110、120都会晚到,因此之前达到的最快语音数据包110、120(抖动JIT最短)的值不再有效。
这里介绍的校正方法考虑到了这一点,即如果“较慢”的数据包只出现在测量时间间隔内,则接收器时间将通过加权因子(例如设置加权因子3)进行校正。其他实施例也是可以想象和可能的,例如通过一个固定值或不同的加权因子进行校正,加权因子的范围最好在1到10之间,必要时也可以超出这个范围。
这种最短相对数据包传输持续时间的确定适用于不含语音内容的语音数据包和含语音内容的语音数据包,其中各种语音数据包的不同长度最好根据本发明进行校正。
在执行了这些前面的步骤之后,测量时间间隔Ti的数字“i”和TMIN=-MAXJITTER在时间间隔Ti的重新初始化313中被复位。
利用所述方法和算法,可以通过接收器时间TSINK确定语音数据包的相对最短数据包延迟。这可以完全在接收器中执行。
根据图7,也可以在接收器时钟初始化和确定最短相对数据包传输持续时间的流程图的基础上读取前面描述的各种步骤。所描述的方法过程的各个步骤可以在示例日志文件的基础上理解,其摘录如图8所示。为了清楚起见,该日志文件的时间间隔Ti具有10个语音数据包,在实际实践中会多得多,例如100个或200个语音数据包,并且可以由本领域技术人员以适当的方式固定。作为示例,在日志文件的第二部分中应用的加权因子是3。根据图8的“测量时间间隔”与前面描述的时间间隔Ti同义。
B部分
通过确定发射器(数据源)和接收器(数据接收端)之间的最短数据包延迟来初始化和调整接收器时间(根据图7通过评估接收到的包含语音内容和不包含语音内容的语音数据包110、120来建立发射器和接收器之间的连接后,最好在连接期间30内持续进行),然后根据ED-137标准永久交换语音数据包110、120,直到发射器和接收器之间的连接结束。
根据图9所述的方法(该方法的开始400也与会话建立401同时进行,而且根据本发明,该方法原则上可与图7所示的方法并行运行),根据本发明提出的缓冲区DJB根据语音数据包实际接收时间确定为动态抖动缓冲区。
通常情况下,在连接期间30,如果要发送无线电信息1、2、3、4,就会发送包含语音内容的语音数据包110。不包含语音内容的语音数据包120用于无线电信道10、20的线路监控,在连接期间30内,没有发生活动的无线传输(参见图6)。指示语音数据包110、120的类型的字段PT(有效载荷类型)位于包含语音内容的语音数据包110(RTP数据包)和不包含语音内容的语音数据包120(R2S数据包)的报头H中,在ED-137标准中被定义为报头扩展还有一个PTT类型字段决定是否通过飞行无线电发射器播放语音内容。如果设置为PTT≠0,则接收器将收到通知,语音内容已随语音数据包110一起传送。相反,如果PTT类型字段设置为PTT=0,则接收器将收到通知,该语音数据包120是在不包含语音内容的情况下发送的。因此,在正常操作期间,不包含语音内容的语音数据包120通过PTToff(PTT=0)发送,而包含语音内容的语音数据包110通过PTTon(PTT≠0)发送。因此,从PTToff到PTTon的变化表示无线电信息1、2、3、4的开始。因此,从PTTon到PTToff的变化表示无线电信息1、2、3、4的结束。
为了检测这种变化,根据图9,每次都要对两个连续语音数据包110、120的PTT类型字段进行评估,其中变量PTTOLD表示前一个语音数据包110、120的PPT类型,而变量PTT表示当前语音数据包110、120(或者换句话说,前一个语音数据包之后的语音数据包)的PTT类型。
因此,如果最初接收到具有PTToff的语音数据包120,并且一次接收到具有PTTon的语音数据包110,则该语音数据包是新无线电信息1、2、3、4的第一个语音数据包111。然后,该语音数据包111通过动态缓冲区DJB,根据接收器收到语音数据包111时的时间与语音数据包111的报头H中的时间信息的相对时间,延迟发送语音数据包111,直到接收器开始播放语音内容1、2、3、4(或无线电信息)。
开始400后,在会话建立401的情况下,首先将变量PTTOLD初始化402为PTTOLD=PTToff值。根据本发明,接收器在403:接收每个语音数据包110、120时,将变量PTT的值确定为PTToff或PTTon。通过404:查询变量PTTOLD和PTT,例如通过查询PTT=PPTon&&PTTOLD=PPToff,可以确定语音数据包是否是在至少一个不包含语音内容的语音数据包120之后的第一个有语音内容的语音数据包111。如果不是这种情况,则将变量PTTOLD的值设置为变量PTT的值(步骤410),并且预计会接收到新的语音数据包110、120。
如果这实际上是在前一个不包含语音内容的语音数据包120之后的第一个有语音内容的语音数据包111,则通过比较接收到的语音数据包111中的时间信息和接收器在接收时的接收器时间,确定接收到这个第一个语音数据包111的时间。随后,根据实际接收时间确定根据本发明的(动态)缓冲区DJB。
根据一个优选的实施例,该功能可通过下面描述的过程实现:
在语音数据包111的情况下,405:确定实际接收时间TRTP+RTPPL与接收器时间TSINK的差值deltaJB,该差值表示包含语音内容的语音数据包110的预期接收时间,其抖动是迄今为止最短的:
deltaJB=TRTP+RTPPL–TSINK
如果是不包含语音内容的语音数据包120(在此方法步骤中根本不应该出现),则有效载荷的持续时间为RTPPL=0。
这与图7中通过差值delta确定相对数据包传输持续时间305的方法一致。
随后,对差值deltaJB进行查询406。如果deltaJB大于零(deltaJB>0;查询406“j”),这意味着语音数据包111的相对数据包传输时间(即抖动较小)比根据A部分调整接收器时间时发现的时间要短。然后,语音内容1、2、3、4(无线电信息)的播放应延迟预定义的最大缓冲区(Defaultjitterbuffersize;例如160),本领域技术人员事先已通过适当方式(407:将缓冲区DJB设置为最大尺寸MAX=Defaultjitterbuffersize)为具有最短抖动JIT的语音数据包固定了最大缓冲区的长度:
DJB=最大值
DJB在这种情况下描述的是缓冲区,即缓冲区的尺寸或时间长度。
如果deltaJB小于零(也就是说deltaJB<0;查询406“n”),这意味着语音数据包111的相对数据包传输时间比根据A部分调整接收器时间时发现的时间更长(即抖动更高)。那么,语音内容1、2、3、4(无线电信息)的播放不应延迟预定义最大缓冲区(Defaultjitterbuffersize=MAX)的全部长度。根据本发明,动态缓冲区DJB通过最短延迟的偏差(即deltaJB)来减少:408:将缓冲区DJB设置为较小的RED):
DJB=Defaultjitterbuffersize–|deltaJB|
|deltaJB|这里描述的是本质上为负的变量deltaJB的(正)值。
如果缓冲区DJB的大小小于零,则设置JBSIZE=0(409:将缓冲区DJB归零。
此外,在此之后,变量PTTOLD=PPT的值被设置为变量PTT的值(步骤410),预计将收到新的语音数据包110、120。
根据图9所示,通过动态调整缓冲区DJB来延迟无线电信息1、2、3、4(语音数据包序列119)的第一个语音数据包111的流程图,也可以读出前面描述的各种步骤。从图10所示的日志文件示例中可以了解所述方法程序的各个步骤。所示的第三个语音数据包是包含语音内容(PTTon=1)的第一个语音数据包110。由于该数据包晚了7个时间单位,如果相对考虑(deltaJB=delta=-7),预定义的最大缓冲区(Defaultjitterbuffersize=160)将根据计算结果160-7=153减少到153。
参考列表:
1 语音内容,无线电信息
2 语音内容,无线电信息
3 语音内容,无线电信息
4语音内容,无线电信息
10 IP网络的第一传输信道
20 IP网络的第二传输信道
30 连接期间
50 发送期间的时间轴
51 传输信道上的时间轴
90 语音输出的第一变体
91 语音输出的第二变体
92 语音输出期间的中断
110 第一传输信道上包含语音内容的语音数据包
111 包含语音内容的第一个语音数据包
119 语音数据包序列
120 不包含语音内容的语音数据包
210 在第二传输信道上包含语音内容的语音数据包
211 包含语音内容的第一个语音数据包
230 数据包传输时间或持续时间
300 用于确定最短数据包延迟的算法的开始
301 会话建立
302 在会话建立之后接收第一个语音数据包
303 设置接收器时间
304 语音数据包的接收
305 第一步:确定相对数据包传输持续时间
306 第二步:确定具有最短相对数据包传输持续时间的语音数据包
307 检查时间间隔的结束
308 第三步:调整接收器时间
309 查询TMIN是否大于零
310 查询TMIN是否小于零
311 TMIN的加权
312 接收器时间的校正
313 重新初始化时间间隔
400 修复动态缓冲区的算法的开始
401 会话建立
402 初始化变量PTTOLD
403 语音数据包的接收
404 查询变量PTTOLD和PTT
407 将缓冲区DJB设置为最大大小
408 将缓冲区DJB设置为减小的大小
409 将缓冲区DJB归零
H 语音数据包的报头(通信控制)
PL 有效载荷(作为数字化语音数据的语音内容)
DEL 传输信道上语音数据包的延迟(迟延)
JIT 抖动(语音数据包接收时间之间的随机时间波动)
SJB 静态缓冲区(抖动缓冲区)(现有技术)
DJB 动态缓冲区(抖动缓冲区)(本发明)
TPS 有效载荷的长度(发送有效载荷的持续时间)
DDC 各种传输信道的附加延迟校正
TWD 从发送第一个语音数据包到处理开始的时间段
PTT 当前语音数据包的PTT字段
PTTOLD 前一语音数据包的PPT
TSINK 接收器时间
TSOURCE 发射器时间
delta 实际接收时间与接收器时间的差值
deltaJB 实际接收时间与接收器时间的差值
ts 语音数据包的发送时刻
ta 实际发送时刻(发送时刻)
te 收到语音数据包的时刻
tw 语音输出的开始(输出时间或处理时间)
Claims (15)
1.一种在通过IP网络接收语音内容(1、2、3、4)时,对语音数据包(110、120;210)接收时间(te)之间的随机时间波动,进行抖动补偿的方法,这种随机时间波动被称为抖动(JIT),其中,包含或不包含所述语音内容(1、2、3、4)的数字语音数据包(110、120;210)序列由用于处理包含在所述语音数据包(110,120,210)中的语音内容(1、2、3、4)的接收器接收,
包含语音内容的语音数据包(110;210)具有被称为报头(H)的部分,报头包含用于通信控制的数据,以及具有被称为有效载荷(PL)的部分,有效载荷包含来自部分所述语音内容(1、2、3、4)的数字语音数据,
不包含语音内容的语音数据包(120),具有报头(H)但不具有有效载荷,
所述语音数据包(110、120;210)包括至少一条发射器的发射器时间的时间信息,所述时间信息表示所述语音数据包(110、120;210)的发送时刻(ts),以及,
所述接收器在接收到具有语音内容(1、2、3、4)的第一个语音数据包(111)之后,等待一段被称为缓冲区(DJB)的等待时间,然后处理所述语音内容(1、2、3、4)
其特征在于,
在所述语音数据包(110、120;210)的传输信道(10、20)上的连接期间(30),在接收到被称为初始数据包的第一个语音数据包(110、120;210)之后,所述接收器利用所述初始数据包中的所述时间信息使用发射器时间来初始化接收器时钟,使得所述接收器时间与发送所述语音数据包(110、120;210)时的所述发射器时间相关联,
在所述接收器时钟已经被初始化之后,所述接收器确定最短相对数据包传输持续时间(delta),在每种情况下,在后续语音数据包(110、120;210)的接收期间,
·在所述语音数据包被发送出去的所述发射器时间中,将所述接收器时间与包含在后续语音数据包(110、120;210)的所述报头(H)中的所述时间信息进行比较,并确定相对于所述接收器时间的相对数据包传输持续时间(delta),
·临时存储由此产生的最短相对数据包传输持续时间(delta),以及
·所述接收器时间取决于临时存储的最短相对数据包传输持续时间(delta),以这样的方式调整所述接收器时间,当发送具有所述最短相对数据包传输持续时间的所述语音数据包(110、120;210)时,使所述接收器时间与所述发射器时间相关联,
当在不包含所述语音内容的至少一个语音数据包(120)之后接收到包含所述语音内容的第一个语音数据包(111)时,所述接收器通过将接收到的所述语音数据包(111)中的所述时间信息与接收到的所述接收器时间进行比较(deltaJB)来确定该语音数据包的实际接收时间,并且根据所述实际接收时间来确定所述缓冲区(DJB)。
2.根据权利要求1所述的方法,其特征在于,在所述接收器时钟的初始化期间以及在确定所述相对数据包传输持续时间(delta)的期间,考虑包含语音内容的语音数据包(110;210)和不包含语音内容的语音数据包(120)的不同长度。
3.根据权利要求1或2所述的方法,其特征在于,所述最短相对数据包传输持续时间(delta)的确定在所述连接期间(30)的多个时间间隔内进行。
4.根据前述权利要求任意一项所述的方法,其特征在于,如果接收到的语音数据包(110、120;210)的数据包传输时间较短,则根据临时存储的最短相对数据包传输持续时间(delta)调整所述接收器时间,使所述接收器时间提前最短相对数据包传输时间(delta)。
5.根据前述权利要求所述的方法,其特征在于,根据临时存储的最短相对数据包传输持续时间(delta)调整所述接收器时间的方法是,如果所述临时存储的最短相对数据包传输持续时间(delta)表明只接收到具有较长的数据包传输持续时间的语音数据包,所述接收器时间回拨,其中,所述接收器时间通过定义的或可定义的持续时间来回拨。
6.根据前述权利要求任意一项所述的方法,其特征在于,针对不包含语音内容的语音数据包(120)和包含语音内容的语音数据包(110;210),进行所述最短相对数据包传输持续时间(delta)的确定。
7.根据前述权利要求中任一项所述的方法,其特征在于,所述缓冲区(DJB),从最大缓冲区开始,基于含有语音内容的第一个语音数据包(111)中的时间信息与接收该第一个语音数据包(111)时的接收器时间的比较结果所产生的接收延迟(deltaJB),调整需考虑的最大抖动。
8.根据前述权利要求任意一项所述的方法,其特征在于,包含相同语音内容的所述语音数据包(110,210)由所述接收器通过多个不同的传输信道(10、20)接收,其中,所述接收器对多个所述传输信道上包含相同语音内容的所述语音数据包(110;210)进行延迟(DDC)校正。
9.一种接收器,用于通过IP网络接收数字语音数据包(110、120;210)并且处理所述语音数据包(110;210)中所含语音内容(1、2、3、4),
具有接收单元,所述接收单元能够连接到所述IP网络,并且被配置为接收通过所述IP网络发送的语音数据包(110、120;210),以及
具有包含接收器时钟的算术逻辑单元,所述算术逻辑单元被配置为处理接收到的语音数据包(110、120;210),
其特征在于,所述算术逻辑单元被配置为在接收和处理所述语音内容(1、2、3、4)时执行权利要求1至8中任意一项所述的抖动补偿的方法。
10.根据权利要求9所述的接收器,其特征在于,所述接收器被配置为通过多个不同的传输信道(10、20)接收具有相同语音内容的所述语音数据包(110,210),并且在所述处理的过程中应用权利要求8所述的方法,其中,所述算术逻辑单元被配置为处理接收到的来自多个不同的传输信道(10、20)的具有相同语音内容的语音数据包(110、120)(110、120;210)的语音内容(1、2、3、4)。
11.一种用于发送和接收语音内容的方法,
其中,发射器将语音内容(1、2、3、4)转换成包含或不包含语音内容的数字语音数据包(110、120;210)序列,包含语音内容的语音数据包(110;210)具有被称为报头(H)的部分,所述报头包含用于通信控制的数据,以及具有被称为有效载荷(PL)的部分,所述有效载荷包含从部分语音内容(1、2、3、4)数字化的语音数据,不包含语音内容的语音数据包(120)具有报头(H)而不具有有效载荷,每个语音数据包(110、120;210),特别是所述语音数据包(110、120;210)的报头(H),包含发射器时间的至少一条时间信息,其指示所述语音数据包(110、120;210)的发送时刻(ts),并且通过IP网络的至少一个传输信道(10、20)发送所述语音数据包(110、120;210)序列,以及
其中,接收器接收包含或不包含语音内容的数字语音数据包(110、120;210)序列,并处理所述语音内容(1、2、3、4),
其特征在于,在所述接收器中应用权利要求1至8中任意一项所述的方法。
12.根据权利要求11所述的方法,其特征在于,在所述IP网络中,通过至少一个通信信道(10、20)在所述发射器和所述接收器之间的连接期间(30)内建立永久通信连接,其中,在连接期间(10)内,在不应当发送语音内容(1、2、3、4)的时候,交换没有语音内容的语音数据包(120)以维持所述发射器和所述接收器之间的连接,并且其中,在所述连接期间(30)内应当发送语音内容(1、2、3、4)的时候,将包含语音内容的数字语音数据包(110;210)序列从所述发射器发送到所述接收器。
13.根据权利要求11或12所述的方法,其特征在于,所述发射器通过多个不同的传输信道(10、20)发送语音数据包(110、120;210),所述接收器接收通过各种传输信道(10,20)发送的所述语音数据包(110、120;210)。
14.根据权利要求11至13中任意一项所述的方法,其特征在于,所述方法用于无线电通信,特别是用于CLIMAX操作中进行地对空业务通信传输,其中,多个不同的传输信道(10、20)用于传输作为语音内容(1、2、3、4)的无线电信息。
15.一种用于通过IP网络发送和接收数字语音数据包(110、120;210)的设备,所述数字语音数据包具有包含在所述语音数据包(110;210)中的语音内容(1、2、3、4),所述设备具有发射器和接收器,
所述发射器具有用于记录所述语音内容(1、2、3、4)的语音记录单元,以及具有发射器时钟的算术逻辑单元,所述算术逻辑单元被配置为根据权利要求11至14中任意一项所述的方法来处理所述语音内容(1、2、3、4),以及
所述接收器根据权利要求9或10中的任意一项所述的特征来制造。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102021117762.6 | 2021-07-09 | ||
DE102021117762.6A DE102021117762B3 (de) | 2021-07-09 | 2021-07-09 | Verfahren zur Jitter-Kompensation bei einem Empfangen von Sprachinhalt über IP basierte Netzwerke und Empfänger hierfür sowie Verfahren und Vorrichtung zum Senden und Empfangen von Sprachinhalt mit Jitter-Kompensation |
PCT/EP2022/069098 WO2023281068A1 (en) | 2021-07-09 | 2022-07-08 | Method for jitter compensation during receipt of voice content over ip-based networks and receiver for that and method and device for sending and receiving voice content with jitter compensation |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117561688A true CN117561688A (zh) | 2024-02-13 |
Family
ID=82610584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280045604.0A Pending CN117561688A (zh) | 2021-07-09 | 2022-07-08 | 用于在ip网络上接收语音内容期间进行抖动补偿的方法和接收器,以及用于发送和接收具有抖动补偿的语音内容的方法和设备 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20240314244A1 (zh) |
EP (1) | EP4367813A1 (zh) |
JP (1) | JP2024525299A (zh) |
KR (1) | KR20240032051A (zh) |
CN (1) | CN117561688A (zh) |
AU (1) | AU2022309125A1 (zh) |
CA (1) | CA3222052A1 (zh) |
DE (1) | DE102021117762B3 (zh) |
WO (1) | WO2023281068A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7630409B2 (en) | 2002-10-21 | 2009-12-08 | Lsi Corporation | Method and apparatus for improved play-out packet control algorithm |
ATE488838T1 (de) * | 2004-08-30 | 2010-12-15 | Qualcomm Inc | Verfahren und vorrichtung für einen adaptiven de- jitter-puffer |
US20090016333A1 (en) | 2006-06-14 | 2009-01-15 | Derek Wang | Content-based adaptive jitter handling |
EP2215785A4 (en) | 2007-11-30 | 2016-12-07 | ERICSSON TELEFON AB L M (publ) | ESTIMATED READING TIME |
GB2476116A (en) | 2009-12-14 | 2011-06-15 | Dublin Inst Of Technology | Real-time VoIP transmission quality predictor and quality-driven de jitter buffer |
US10554704B2 (en) * | 2014-02-21 | 2020-02-04 | Telefonaktiebolaget Lm Ericsson (Publ) | Low latency media mixing in packet networks |
FR3059186A1 (fr) | 2016-11-24 | 2018-05-25 | Belledonne Communications | Tampon de gigue adaptatif |
-
2021
- 2021-07-09 DE DE102021117762.6A patent/DE102021117762B3/de active Active
-
2022
- 2022-07-08 WO PCT/EP2022/069098 patent/WO2023281068A1/en active Application Filing
- 2022-07-08 AU AU2022309125A patent/AU2022309125A1/en active Pending
- 2022-07-08 JP JP2023574861A patent/JP2024525299A/ja active Pending
- 2022-07-08 KR KR1020247002875A patent/KR20240032051A/ko active Search and Examination
- 2022-07-08 CN CN202280045604.0A patent/CN117561688A/zh active Pending
- 2022-07-08 CA CA3222052A patent/CA3222052A1/en active Pending
- 2022-07-08 EP EP22750666.4A patent/EP4367813A1/en active Pending
- 2022-07-08 US US18/571,224 patent/US20240314244A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
AU2022309125A1 (en) | 2023-12-14 |
WO2023281068A1 (en) | 2023-01-12 |
DE102021117762B3 (de) | 2022-08-18 |
US20240314244A1 (en) | 2024-09-19 |
JP2024525299A (ja) | 2024-07-12 |
EP4367813A1 (en) | 2024-05-15 |
KR20240032051A (ko) | 2024-03-08 |
CA3222052A1 (en) | 2023-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8396159B2 (en) | Message synchronization over a stochastic network | |
US7243150B2 (en) | Reducing the access delay for transmitting processed data over transmission data | |
US7359324B1 (en) | Adaptive jitter buffer control | |
US7450601B2 (en) | Method and communication apparatus for controlling a jitter buffer | |
US10735120B1 (en) | Reducing end-to-end delay for audio communication | |
US10212622B2 (en) | Systems and methods for push-to-talk voice communication over voice over internet protocol networks | |
CN101682562B (zh) | 用于修改句子内的话音突峰的回放时序而不影响可懂度的方法和设备 | |
KR101590972B1 (ko) | 통신 네트워크에서의 전송 스케줄링 방법, 해당 통신 노드 및 컴퓨터 프로그램 생성물 | |
WO1995022233A1 (en) | Method of dynamically compensating for variable transmission delays in packet networks | |
JPH09504935A (ja) | 通信システム内でパケット整合を行う方法および装置 | |
JPH0411059B2 (zh) | ||
US6775301B1 (en) | System and method for compensating for channel jitter | |
CN117561688A (zh) | 用于在ip网络上接收语音内容期间进行抖动补偿的方法和接收器,以及用于发送和接收具有抖动补偿的语音内容的方法和设备 | |
EP3444974A1 (en) | System and method for delay compensation for air traffic control | |
US20230269155A1 (en) | A wireless conference system with early packet loss detection | |
US10701716B2 (en) | Base station apparatus, transmission method, and recording medium for transmitting speech information | |
US20070201491A1 (en) | System and method for synchronizing serial digital interfaces over packet data networks | |
US20190214034A1 (en) | Stream adaptation for latency | |
JPH05207063A (ja) | 音声パケット遅延制御方式 | |
WO2016129281A1 (ja) | パケット列送・受信装置、ネットワーク状態推定システムおよび制御方法 | |
JP2001345840A (ja) | 音声パケット通信システム、音声パケット通信方法及びルータ | |
JP2012209851A (ja) | ゲートウェイ装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |