JP2005107283A - Method, device and program of packet loss concealment in voip voice communication - Google Patents

Method, device and program of packet loss concealment in voip voice communication Download PDF

Info

Publication number
JP2005107283A
JP2005107283A JP2003341918A JP2003341918A JP2005107283A JP 2005107283 A JP2005107283 A JP 2005107283A JP 2003341918 A JP2003341918 A JP 2003341918A JP 2003341918 A JP2003341918 A JP 2003341918A JP 2005107283 A JP2005107283 A JP 2005107283A
Authority
JP
Japan
Prior art keywords
pitch
lost
packet
fluctuation rate
pwr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003341918A
Other languages
Japanese (ja)
Inventor
Tadashi Aoki
直史 青木
Takashi Nakano
隆司 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2003341918A priority Critical patent/JP2005107283A/en
Publication of JP2005107283A publication Critical patent/JP2005107283A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method and a device of packet loss concealment in VoIP communication which can effectively perform error concealment by waveform duplication of a packet lost in the VoIP voice communication with high accuracy in order to suppress deterioration of call quality in VoIP as much as possible. <P>SOLUTION: When the device detects the packet lost in reception of packets transmitted via an IP network, calculates pitches of frames before and after a lost part in the lost packet (steps S17, S19), calculates pitch fluctuation rate from the pitches of the frames before and after the lost part (a step S21), compares the pitch fluctuation rate with a predetermined threshold (a step S23), when the pitch fluctuation rate is larger than the predetermined threshold as a result of this comparison, executes a regular 2-side PWR(Pitch Waveform Replication) method (a step S25) and when the pitch fluctuation rate is smaller than the predetermined threshold, executes a 2-side PWR method in consideration of the pitch fluctuation rate (a step S27). <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、IPネットワークを利用したVoIP(Voice over Internet Protocol)音声通信において損失したパケットを波形複製により隠蔽するVoIP音声通信におけるパケット損失隠蔽方法、装置およびプログラムに関する。   The present invention relates to a packet loss concealment method, apparatus, and program in VoIP voice communication that conceals a packet lost in VoIP (Voice over Internet Protocol) voice communication using an IP network by waveform duplication.

IPネットワークを利用して音声通信を行うVoIP技術が近年注目を集めている(例えば、非特許文献1参照)。VoIPによる電話サービスは、距離や時間に比例した通話料金を設定している従来の電話サービスに比較して、安価な通信料金を実現できることから近年急速に普及が進んでおり、次世代の電話サービスとして期待されている(例えば、非特許文献2)。   In recent years, VoIP technology that performs voice communication using an IP network has attracted attention (see, for example, Non-Patent Document 1). The VoIP telephone service has been rapidly spreading in recent years because it can realize an inexpensive communication charge compared to the conventional telephone service that sets a call charge proportional to distance and time. (For example, Non-Patent Document 2).

しかしながら、従来の電話サービスがギャランティ型のネットワークにより音声通信を実現しているのに対して、VoIPは本来リアルタイム通信に不向きなベストエフォート型のIPネットワークにより音声通信を実現しているため、パケットの消失や遅延といった通信上のエラーが不可避であり、通話品質の低下を招きやすいという原理的な問題を抱えている(例えば、非特許文献3、4)。   However, while the conventional telephone service realizes voice communication using a guarantee type network, VoIP realizes voice communication using a best effort type IP network that is inherently unsuitable for real-time communication. Communication errors such as disappearance and delay are unavoidable, and there is a problem in principle that the call quality is likely to deteriorate (for example, Non-Patent Documents 3 and 4).

VoIPによる音声通信を実現するにあたっては、上述したようなエラーをできる限り生じさせないようにするため、一定時間のうちに確実にパケットが受信されるようにネットワークを整備することが重要である(例えば、非特許文献5)。しかしながら、ベストエフォート型のネットワークを完全に制御することは不可能であり、エラーを皆無にすることは困難である。そのため、ある程度のエラーが生じることを想定して、そのような場合でも通話品質の低下をできる限り小さく抑えるための対策を講じておくことが必要となる。通常、非リアルタイム通信では、エラーが生じた場合、当該パケットを再送することでエラーに対処するが、リアルタイム性が要求されるVoIPではパケットを再送する時間的余裕がほとんどないため、パケットの再送を必要としないエラー隠蔽処理を施す必要がある。   In realizing voice communication by VoIP, it is important to prepare a network so that packets are received reliably within a certain period of time in order to prevent the above-described errors as much as possible (for example, Non-patent document 5). However, it is impossible to completely control a best effort network, and it is difficult to eliminate all errors. For this reason, it is necessary to take measures for minimizing the deterioration of the call quality as much as possible even in such a case, assuming that a certain degree of error occurs. Normally, in non-real-time communication, when an error occurs, the error is dealt with by retransmitting the packet. However, in VoIP that requires real-time performance, there is almost no time to retransmit the packet. It is necessary to perform error concealment processing that is not necessary.

このようなエラー隠蔽処理として、従来、様々な方法が提案されているが、大別すると、送信側で対処するsender-basedの手法と受信側で対処するreceiver-basedの手法の2種類に分類される(非特許文献6、7)。また、エラーの状況としては、単独パケットの損失による瞬断、受信バッファのオーバーフローによるオーバーラン、受信バッファのアンダーフローによるアンダーランの3種類が考えられる。   Various methods have been proposed for error concealment processing in the past, but can be broadly classified into two types: a sender-based method for dealing with the transmitting side and a receiver-based method for dealing with the receiving side. (Non-Patent Documents 6 and 7). There are three types of error situations: instantaneous interruption due to loss of a single packet, overrun due to reception buffer overflow, and underrun due to reception buffer underflow.

VoIP音声通信では、音声通話の際、送信側においてアナログ音声をAD変換し、デジタル化した音声データをフレームに分割した後、圧縮処理を行う。それから、圧縮音声データをペイロードに搭載することでIPパケットを作成し、IPネットワークを経由して受信側に伝送する。受信側では、IPパケットを受信すると、このIPパケットの分解、圧縮音声データの伸張、DA変換によりアナログ音声を再生する。   In VoIP voice communication, analog voice is AD-converted on the transmission side during voice call, and digitized voice data is divided into frames, and then compression processing is performed. Then, an IP packet is created by mounting the compressed audio data in the payload and transmitted to the receiving side via the IP network. When receiving the IP packet, the receiving side reproduces the analog voice by decomposing the IP packet, decompressing the compressed voice data, and DA conversion.

VoIPでは、リアルタイム通信を実現するため、トランスポート層のプロトコルとしてUDP(User Datagram Protocol)を使用している。そのため、パケットの損失や遅延といった通信上のエラーが生じても当該パケットの再送を行わない。なお、ペイロードに搭載する圧縮音声データのフレーム長は一般に20msに設定されることが多い。また、システムによって対応するコーデックの種類は異なるが、コーデックはネットワークのブロードバンド化に伴い、ITU勧告のG.711が一般的に利用されるようになってきている。G.711は標本化周波数8kHz でデジタル化した音声データを量子化精度8ビットに対数量子化するコーデックであり、他のコーデックと比較して圧縮効率が低いが、通話品質の劣化を小さく抑えることができる。なお、G.711にはμ−1awとA−1awの2種類がある。   In VoIP, UDP (User Datagram Protocol) is used as a transport layer protocol to realize real-time communication. Therefore, even if a communication error such as packet loss or delay occurs, the packet is not retransmitted. In general, the frame length of the compressed audio data mounted on the payload is generally set to 20 ms. In addition, although the types of codecs supported differ depending on the system, the codecs have become G. 711 is generally used. G. Reference numeral 711 denotes a codec that logarithmically quantizes voice data digitized at a sampling frequency of 8 kHz to a quantization accuracy of 8 bits. Although the compression efficiency is lower than that of other codecs, it is possible to suppress deterioration in speech quality. . In addition, G. There are two types of 711, μ-1aw and A-1aw.

従来のreceiver-basedのエラー隠蔽処理である波形複製法では、正常に受信された音声データから損失フレームの代理となる置換ブロックを推定し、これを損失フレームにコピーすることによりエラー隠蔽を行う。また、波形複製法は、置換ブロックの定義の違いによりWR(Wave Replication)法とPWR(Pitch Waveform Replication)法に分類される。   In the waveform replication method, which is a conventional receiver-based error concealment process, error concealment is performed by estimating a replacement block serving as a substitute for a lost frame from normally received speech data and copying this to the lost frame. The waveform replication method is classified into a WR (Wave Replication) method and a PWR (Pitch Waveform Replication) method depending on the definition of the replacement block.

WR法は、図9(a)に示すように、テンプレートマッチングにより最も相関の大きい部分を同定し、この直後の音声データを置換ブロックとし、この置換ブロックを複製ブロックとして損失フレームに一括してコピーすることでエラー隠蔽を行う。また、PWR法は、図9(b)に示すように、テンプレートマッチングにより1ピッチ波形を同定し、これを置換ブロックとし、この置換ブロックを複製ブロックとして周期的に繰り返し損失フレームにコピーすることでエラー隠蔽を行う。   In the WR method, as shown in FIG. 9 (a), a portion having the highest correlation is identified by template matching, and the voice data immediately after this is used as a replacement block, and this replacement block is copied as a duplicate block to the lost frame at once. Error concealment. In the PWR method, as shown in FIG. 9B, a one-pitch waveform is identified by template matching, this is used as a replacement block, and this replacement block is periodically copied as a duplicate block to a lost frame. Perform error concealment.

なお、図9に示すように、フレーム長をL、探索窓長をM、テンプレート長をN、受信した音声データをs(n)とし、このとき、k(≧0)番目のパケットが瞬断したと仮定すると、WR法におけるテンプレートマッチングは、式(1)で定義される相互相関関数C(m)の最大値を与える時刻mを求めることになる。   As shown in FIG. 9, the frame length is L, the search window length is M, the template length is N, and the received voice data is s (n). At this time, the kth (≧ 0) th packet is momentarily interrupted. Assuming that the template matching in the WR method is performed, the time m giving the maximum value of the cross-correlation function C (m) defined by the equation (1) is obtained.

Figure 2005107283
Figure 2005107283

一方、PWR法におけるテンプレートマッチングは、式(2)で定義される相互相関関数C(m)の最大値を与える時刻mを求めることになる。   On the other hand, in the template matching in the PWR method, the time m giving the maximum value of the cross-correlation function C (m) defined by the equation (2) is obtained.

Figure 2005107283
Figure 2005107283

WR法では、処理に必要となる音声データの長さはL+M+Nとなるので、少なくとも損失フレーム直前の2パケットが正常に受信される必要がある。一方、PWR法では、処理に必要となる音声データの長さはM+Nとなり、抽出できる最大のピッチ長は探索窓長Mに等しくなる。一般に、男声のピッチ長は5msから12ms、女声のピッチ長は2msから7msに分布していることから、フレーム長をL=20msとした場合、テンプレート長をN≦8msとすると、損失フレーム直前に受信された1パケットのみでピッチ長12msまでのピッチ波形を抽出することができる。   In the WR method, the length of audio data necessary for processing is L + M + N, and at least two packets immediately before the lost frame need to be normally received. On the other hand, in the PWR method, the length of audio data necessary for processing is M + N, and the maximum pitch length that can be extracted is equal to the search window length M. In general, the pitch length of male voices is distributed from 5 ms to 12 ms, and the pitch length of female voices is distributed from 2 ms to 7 ms. Therefore, if the frame length is L = 20 ms and the template length is N ≦ 8 ms, the pitch length is just before the loss frame. A pitch waveform up to a pitch length of 12 ms can be extracted with only one received packet.

フレーム長が短い場合は、WR法でも効果的にエラー隠蔽を行うことができるが、WR法では処理に必要となる音声データが長くなると、音声データの定常性を十分に保証できなくなるので、フレーム長が長い場合は、PWR法を適用した方が効果的である。   When the frame length is short, error concealment can be effectively performed even with the WR method. However, with the WR method, if the audio data required for processing becomes long, the steadiness of the audio data cannot be sufficiently guaranteed, so the frame When the length is long, it is more effective to apply the PWR method.

なお、基本的にWR法およびPWR法は、損失フレーム直前の音声データを利用してエラー隠蔽を行うが、VoIPでは遅延ジッタを吸収するため3パケット程度の受信バッファを設定することから、損失フレームの前後の音声データを利用する2-sideの処理に拡張することで、より精度の高いエラー隠蔽を実現することができる。特に、PWR法では、処理に必要となる音声データの長さを1パケットに抑えることができるため、2-sideの処理に拡張してもルックアヘッド遅延を1パケットに抑えることが可能であり、実用性が高い。   Basically, in the WR method and the PWR method, error concealment is performed using voice data immediately before the lost frame. However, since VoIP absorbs delay jitter, a reception buffer of about 3 packets is set. The error concealment with higher accuracy can be realized by extending the processing to 2-side processing using the audio data before and after. In particular, in the PWR method, the length of voice data required for processing can be suppressed to one packet, so that the look-ahead delay can be suppressed to one packet even when the processing is expanded to 2-side processing. High practicality.

2-sidePWR法は、図10に示すように、損失フレームの前後をそれぞれ1パケットを利用してPWR法を実行し、両者のオーバーラップによりエラー隠蔽を行い、これにより音声波形の開始部分や終了部分といった非定常性の顕著な部分でのエラー隠蔽の精度を向上することができる(非特許文献8)。   In the 2-side PWR method, as shown in FIG. 10, the PWR method is executed by using one packet before and after the lost frame, and error concealment is performed by overlapping both of them, thereby starting and ending the speech waveform. It is possible to improve the accuracy of error concealment in a portion where the non-stationary property such as the portion is remarkable (Non-patent Document 8).

図10を参照して、従来の2-sidePWR法について詳しく説明する。図10(a)に示すような原音声を受信側で受信した結果、k番目のフレームが受信できず、図10(b)に示すように損失したとすると、この損失フレームに対して図10(c)に示すように前側のk−1番号のフレームの方から置換ブロックを推定し、損失フレームにコピーするというbackwardPWRを行い、更に図10(d)に示すように後側のk+1番号のフレームの方から置換ブロックを推定し、損失フレームにコピーするというforwardPWRを行う。   The conventional 2-side PWR method will be described in detail with reference to FIG. As a result of receiving the original voice as shown in FIG. 10A on the receiving side, if the k-th frame cannot be received and is lost as shown in FIG. As shown in FIG. 10C, a backward PWR is performed in which a replacement block is estimated from the front k-1 number frame and copied to the lost frame. Further, as shown in FIG. A forward PWR is performed in which a replacement block is estimated from the frame and copied to the lost frame.

それから、図10(e)に示すように、図10(c)の前側からの置換ブロックと図10(d)の後側からの置換ブロックとを比例配分によりオーバーラップ&アド(overlap and add)して、エラー隠蔽音声を生成する。この結果、損失フレームは、前側のフレームと後側のフレーム間で連続し、損失のない連続した音声として再生される。   Then, as shown in FIG. 10 (e), the replacement block from the front side of FIG. 10 (c) and the replacement block from the rear side of FIG. 10 (d) are overlapped and added by proportional distribution. Then, error concealment speech is generated. As a result, the lost frame is reproduced between the front frame and the rear frame, and is reproduced as a continuous sound with no loss.

図10(e)に示す再生されたエラー隠蔽音声は、図10(a)に示す原音声と比較すると、図10(f)に示すような差分波形が生成されるように、原音声とかなりの相違があることが分かるが、これは前側のフレームから生成した置換ブロックの波形の位相と後側のフレームから生成した置換ブロックの波形の位相とがずれていて、両波形のピッチがずれているからである。
藤原洋著、マルチメディア情報圧縮、共立出版,2000 G,Held,音声&データ統合技術ガイド,インプレス,2000 今井恵一,“VoIP実現上の課題”信学会誌、vol.83,no.4,pp.295-301,2001 長渕裕実,“VoIP品質上の諸問題”,信学技報,vol.IN2000-128,2000 戸田巌、詳解ネットワークQoS技術,オーム社,2001 C.Perkins,O.Hodson and V.Hardman,“A survey of packet loss recovery techniques for streaming audio”,IEEE Network Magazine,pp.40-48,September/October 1998 H.Sanneck,“Packet Loss Recovery and Control for Voice Transmission over the Internet”,Ph.D.thesis,Technical University Berlin,2000 小牧憲子、青木直史、山本強、“波形置換に基づくVoIPにおけるパケット損失の一隠蔽法”信学技報、vol.CQ2002-59,2002
The reproduced error concealed speech shown in FIG. 10 (e) is considerably different from the original speech so that a differential waveform as shown in FIG. 10 (f) is generated when compared with the original speech shown in FIG. 10 (a). The waveform of the replacement block generated from the previous frame is out of phase with the waveform of the replacement block generated from the rear frame, and the pitch of both waveforms is shifted. Because.
Hiroshi Fujiwara, multimedia information compression, Kyoritsu Publishing, 2000 G, Held, Voice & Data Integration Technology Guide, Impress, 2000 Keiichi Imai, “Problems in Realizing VoIP”, IEICE Journal, vol.83, no.4, pp.295-301, 2001 Hiromi Nagahama, “Problems on VoIP Quality”, IEICE Technical Report, vol.IN2000-128,2000 Satoshi Toda, Detailed Network QoS Technology, Ohmsha, 2001 C. Perkins, O. Hodson and V. Hardman, “A survey of packet loss recovery techniques for streaming audio”, IEEE Network Magazine, pp. 40-48, September / October 1998 H. Sanneck, “Packet Loss Recovery and Control for Voice Transmission over the Internet”, Ph.D. thesis, Technical University Berlin, 2000 Nobuko Komaki, Naofumi Aoki, Tsuyoshi Yamamoto, “A Method for Concealing Packet Loss in VoIP Based on Waveform Replacement”, IEICE Tech. Bulletin, vol.CQ2002-59,2002

上述したように、VoIPは本来リアルタイム通信に不向きなベストエフォート型のIPネットワークにより音声通信を実現しているため、パケットの損失や遅延といった通信上のエラーが不可避であり、通話品質の低下を招きやすいという問題があるが、このようなパケット損失を隠蔽する波形複製による従来のエラー隠蔽方法である2−sidePWR法は、前後のフレームから生成した波形に位相ずれが発生するため、損失フレームを複製したエラー隠蔽音声が原音声に対して図10(f)に示すような比較的大きな差分波形を生じるというように原音声とかなりの相違があり、エラー隠蔽を効果的に行うことができないという問題がある。   As described above, since VoIP realizes voice communication using a best-effort IP network that is inherently unsuitable for real-time communication, communication errors such as packet loss and delay are unavoidable, leading to a decrease in call quality. The 2-side PWR method, which is a conventional error concealment method using waveform duplication that conceals such packet loss, causes a phase shift in the waveform generated from the previous and subsequent frames. The error concealed speech is considerably different from the original speech such that a relatively large difference waveform as shown in FIG. 10 (f) is generated with respect to the original speech, and the error concealment cannot be performed effectively. There is.

本発明は、上記に鑑みてなされたもので、その目的とするところは、VoIPにおける通話品質の低下を極力抑えるためにVoIP音声通信において損失したパケットの波形複製によるエラー隠蔽を高い精度で効果的に行い得るVoIP音声通信におけるパケット損失隠蔽方法、装置およびプログラムを提供することにある。   The present invention has been made in view of the above, and an object thereof is to effectively conceal an error by duplicating a waveform of a packet lost in VoIP voice communication with high accuracy in order to suppress a decrease in call quality in VoIP as much as possible. It is an object to provide a packet loss concealment method, apparatus, and program for VoIP voice communication that can be performed in the following manner.

請求項1記載の本発明のVoIP音声通信におけるパケット損失隠蔽方法は、IPネットワークを利用したVoIP音声通信において損失したパケットを波形複製により隠蔽するVoIP音声通信におけるパケット損失隠蔽方法であって、IPネットワークを介して送信されてくるパケットの受信において損失したパケットを検知し、この検知した損失パケット中の損失部分の前後のフレームのピッチを計算し、この計算した前後のフレームのピッチに基づいて当該前後のフレーム間におけるピッチ変動率を計算し、この計算したピッチ変動率を所定の閾値と比較し、この比較の結果、ピッチ変動率が所定の閾値より大きい場合、通常の2-sideRWR(Pitch Waveform Replication)法を実施し、ピッチ変動率が所定の閾値より小さい場合、前記ピッチ変動率を考慮した2-sidePWR法を実施することを要旨とする。   A packet loss concealment method in VoIP voice communication according to claim 1 of the present invention is a packet loss concealment method in VoIP voice communication that conceals a lost packet in VoIP voice communication using an IP network by waveform duplication. Detects a lost packet in the reception of a packet transmitted through the network, calculates the frame pitch before and after the lost part in the detected lost packet, and based on the calculated previous and next frame pitch The pitch fluctuation rate between frames is calculated, and the calculated pitch fluctuation rate is compared with a predetermined threshold. If the pitch fluctuation rate is larger than the predetermined threshold as a result of this comparison, a normal 2-side RWR (Pitch Waveform Replication ) Method, and when the pitch variation rate is smaller than a predetermined threshold, the pitch The gist is to implement the 2-side PWR method considering the fluctuation rate.

また、請求項2記載の本発明のVoIP音声通信におけるパケット損失隠蔽装置は、IPネットワークを利用したVoIP音声通信において損失したパケットを波形複製により隠蔽するVoIP音声通信におけるパケット損失隠蔽装置であって、IPネットワークを介して送信されてくるパケットの受信において損失したパケットを検知する損失パケット検知手段と、この検知した損失パケット中の損失部分の前後のフレームのピッチを計算するピッチ計算手段と、この計算した前後のフレームのピッチに基づき当該前後のフレーム間におけるピッチ変動率を計算するピッチ変動率計算手段と、この計算したピッチ変動率を所定の閾値と比較する比較手段と、この比較の結果、ピッチ変動率が所定の閾値より大きい場合、通常の2-sidePWR(Pitch Waveform Replication)法を実施し、ピッチ変動率が所定の閾値より小さい場合、前記ピッチ変動率を考慮した2-sidePWR法を実施することを要旨とする。   The packet loss concealment device in VoIP voice communication of the present invention according to claim 2 is a packet loss concealment device in VoIP voice communication that conceals a lost packet in VoIP voice communication using an IP network by waveform duplication. Lost packet detection means for detecting a lost packet in reception of a packet transmitted via the IP network, pitch calculation means for calculating the pitch of frames before and after the lost portion in the detected lost packet, and this calculation A pitch fluctuation rate calculating means for calculating a pitch fluctuation rate between the preceding and succeeding frames based on the pitches of the preceding and following frames, a comparing means for comparing the calculated pitch fluctuation rate with a predetermined threshold, and as a result of this comparison, the pitch When the rate of change is greater than a predetermined threshold, normal 2-side PWR Pitch Waveform Replication) technique carried out, when the pitch variation rate is smaller than a predetermined threshold value, and summarized in that to implement the 2-sidePWR method considering the pitch variation rate.

請求項3記載の本発明のVoIP音声通信におけるパケット損失隠蔽プログラムは、IPネットワークを利用したVoIP音声通信において損失したパケットを波形複製により隠蔽するためのコンピュータが実行可能なVoIP音声通信におけるパケット損失隠蔽プログラムであって、前記コンピュータをIPネットワークを介して送信されてくるパケットの受信において損失したパケットを検知する損失パケット検知手段と、この検知した損失パケット中の損失部分の前後のフレームのピッチを計算するピッチ計算手段と、この計算した前後のフレームのピッチに基づき当該前後のフレーム間におけるピッチ変動率を計算するピッチ変動率計算手段と、この計算したピッチ変動率を所定の閾値と比較する比較手段と、この比較の結果、ピッチ変動率が所定の閾値より大きい場合、通常の2-sidePWR(Pitch Waveform Replication)法を実施し、ピッチ変動率が所定の閾値より小さい場合、前記ピッチ変動率を考慮した2-sidePWR法を実施するPWR実施手段として機能させることを要旨とする。   A packet loss concealment program in VoIP voice communication according to claim 3 of the present invention is a packet loss concealment in VoIP voice communication that can be executed by a computer for concealing a lost packet in VoIP voice communication using an IP network by waveform duplication. A program for calculating lost packet detection means for detecting a lost packet in receiving a packet transmitted from the computer via the IP network, and calculating a pitch of frames before and after the lost portion in the detected lost packet A pitch calculating means for calculating the pitch fluctuation rate between the preceding and following frames based on the calculated pitch of the preceding and following frames, and a comparing means for comparing the calculated pitch fluctuation rate with a predetermined threshold value As a result of this comparison, When the fluctuation rate is larger than a predetermined threshold, a normal 2-side PWR (Pitch Waveform Replication) method is performed. When the pitch fluctuation rate is smaller than the predetermined threshold, the 2-side PWR method considering the pitch fluctuation rate is performed. The gist is to function as PWR implementation means.

本発明によれば、パケットの受信において検知した損失パケット中の損失部分の前後のフレームのピッチを計算し、この前後のフレームのピッチに基づいてピッチ変動率を計算し、このピッチ変動率を所定の閾値と比較し、この比較の結果、ピッチ変動率が所定の閾値より大きい場合、通常の2−sidePWR法を実施し、ピッチ変動率が所定の閾値より小さい場合、前記ピッチ変動率を考慮した2−sidePWR法を実施するので、位相ずれを抑え、高い精度で効果的にエラー隠蔽を行うことができる。   According to the present invention, the pitch of the frames before and after the lost part in the lost packet detected in the reception of the packet is calculated, the pitch variation rate is calculated based on the pitch of the preceding and following frames, and this pitch variation rate is determined in advance. When the pitch fluctuation rate is larger than the predetermined threshold value, the normal 2-side PWR method is performed. When the pitch fluctuation rate is smaller than the predetermined threshold value, the pitch fluctuation rate is considered. Since the 2-side PWR method is implemented, phase shift can be suppressed and error concealment can be effectively performed with high accuracy.

本発明のVoIP音声通信におけるパケット損失隠蔽方法は、IPネットワークを介して送信されてくるパケットの受信において損失したパケットを検知すると、この検知した損失パケット中の損失部分の前後のフレームのピッチを計算し、この前後のフレームのピッチに基づいてピッチ変動率を計算し、このピッチ変動率を所定の閾値と比較し、この比較の結果、ピッチ変動率が所定の閾値より大きい場合、通常の2-sidePWR法を実施し、ピッチ変動率が所定の閾値より小さい場合、ピッチ変動率を考慮した2-sidePWR法を実施する。    The packet loss concealment method in the VoIP voice communication according to the present invention calculates the pitch of frames before and after the lost portion in the detected lost packet when detecting the lost packet in receiving the packet transmitted through the IP network. Then, the pitch fluctuation rate is calculated based on the pitches of the preceding and following frames, the pitch fluctuation rate is compared with a predetermined threshold value, and if the pitch fluctuation rate is larger than the predetermined threshold value as a result of this comparison, the normal 2- When the side PWR method is performed and the pitch variation rate is smaller than a predetermined threshold, the 2-side PWR method is performed in consideration of the pitch variation rate.

図1は、本発明の一実施例に係わるVoIP音声通信におけるパケット損失隠蔽方法の処理手順を示すフローチャートである。
本実施例のVoIP音声通信におけるパケット損失隠蔽方法は、図10で説明した従来の2-sidePWR法を利用するも、この2-sidePWR法において損失フレームの前後のピッチの変動を考慮して位相ずれを低減させて、複製したエラー隠蔽音声と原音声との差分を低減し、これにより損失パケットの波形複製による隠蔽を高い精度で効果的に行い得るものである。
FIG. 1 is a flowchart showing a processing procedure of a packet loss concealment method in VoIP voice communication according to an embodiment of the present invention.
The packet loss concealment method in the VoIP voice communication of the present embodiment uses the conventional 2-side PWR method described in FIG. 10, but in this 2-side PWR method, the phase shift is considered in consideration of the pitch variation before and after the lost frame. Thus, the difference between the copied error concealed speech and the original speech is reduced, so that concealment by waveform duplication of the lost packet can be effectively performed with high accuracy.

更に詳しくは、本実施例のVoIP音声通信におけるパケット損失隠蔽方法は、VoIP音声通信においてパケットの消失や遅延といった通信上のエラーによる通信品質の低下を極力抑えるために波形複製によるエラー隠蔽処理を効果的に行うものであるが、本実施例では、エラー隠蔽処理として受信側で対処するreceiver−basedの手法を利用し、このreceiver−basedの手法において比較的簡単な処理にも関わらず精度の高いエラー隠蔽が可能である波形複製法を基本として利用し、この波形複製によるエラー隠蔽手法でより効果的にエラー隠蔽を行うために、損失フレームの前後の音声データを利用する2-sideの処理に拡張した2-sidePWR法を利用するとともに、この2-sideからのエラー隠蔽を行う際に抽出するピッチの変動を考慮して位相ずれを低減させるように前後からのエラー隠蔽処理を高い精度をもって行うものである。   More specifically, the packet loss concealment method in VoIP voice communication according to the present embodiment is effective in error concealment processing by waveform duplication in order to suppress the deterioration of communication quality due to communication errors such as packet loss and delay in VoIP voice communication as much as possible. However, in this embodiment, a receiver-based method to be dealt with on the receiving side is used as an error concealment process, and the receiver-based method is highly accurate despite relatively simple processing. In order to perform error concealment more effectively with this method of error concealment using waveform duplication, which is based on the waveform duplication method capable of error concealment, in 2-side processing using audio data before and after the lost frame Using the extended 2-side PWR method and taking into account fluctuations in pitch extracted when performing error concealment from the 2-side, phase shift To reduce and performs error concealment processing from the front and rear with high accuracy.

図1を参照して、本発明の一実施例に関わるVoIP音声通信におけるパケット損失隠蔽方法について詳しく説明する。
本実施例では、2-sidePWR法を利用するも、この2-sidePWR法の精度を更に向上させるために、損失フレームの前後の音声データのピッチ変動を考慮した補間を行っている。なお、本実施例では、2-sidePWR法におけるテンプレート長をN=8msとし、ピッチ長の最小値が2ms、最大値が12msとなるように探索窓長をM=10msと設定した。
With reference to FIG. 1, a packet loss concealment method in VoIP voice communication according to an embodiment of the present invention will be described in detail.
In this embodiment, although the 2-side PWR method is used, in order to further improve the accuracy of the 2-side PWR method, interpolation is performed in consideration of the pitch variation of the audio data before and after the lost frame. In this embodiment, the template length in the 2-side PWR method is set to N = 8 ms, the search window length is set to M = 10 ms so that the minimum value of the pitch length is 2 ms and the maximum value is 12 ms.

図1では、VoIP音声通信においてIPネットワークを介して送信されてくるパケットを受信する受信側において、k+1番目のパケットを取得し(ステップS11)、k+1番目のフレームの音声データを取得すると(ステップS13)、ここでk番目のパケットの損失の有無のチェック、すなわち損失パケット検知手段によりk番目のパケットが損失されていて、正常に受信されていないか否かのチェック(損失パケットの検知)を行う(ステップS15)。   In FIG. 1, the receiving side that receives a packet transmitted via the IP network in VoIP voice communication acquires the k + 1th packet (step S11), and acquires the voice data of the k + 1th frame (step S13). ) Here, a check is made to determine whether or not the k-th packet has been lost, that is, whether the k-th packet has been lost by the lost packet detection means and has not been received normally (detection of a lost packet). (Step S15).

k番目のパケットが損失され正常に受信されていない場合には、まずピッチ計算手段により、1つ前のフレームであるk−1番目のフレームのピッチPbを抽出し(ステップS17)、更に1つ後のフレームであるk+1番目のフレームのピッチPfを抽出する(ステップS19)。そして、次にピッチ変動率計算手段により、この抽出したk−1番目とk+1番目のフレームの両ピッチからピッチ変動率αを次式により計算する(ステップS21)。   When the k-th packet is lost and is not normally received, the pitch calculation means first extracts the pitch Pb of the k-1th frame, which is the previous frame (step S17), and one more The pitch Pf of the (k + 1) th frame that is the subsequent frame is extracted (step S19). Next, the pitch fluctuation rate calculating means calculates the pitch fluctuation rate α from the extracted pitches of the (k−1) th and k + 1th frames according to the following equation (step S21).

α=(Pf −Pb )/L (3)
ここで、Lはフレーム長である。
図2を参照して、ピッチ変動率αについて説明する。図2において、フレーム長がLであり、k番目のフレームが損失フレームであるとし、この損失フレームのピッチ変動率を計算する。k−1番目のフレームのピッチがPb であり、k+1番目のフレームのピッチがPf であるとすると、両フレームの間のk番目のフレームにおけるピッチ変動率αは、式(3)のように計算され、これは両ピッチPb 、Pf で定義される線分の傾きを表すことになる。従って、このピッチ変動率αからk番目のフレームの各時点におけるピッチ長を計算することができる。すなわち、k番目のフレームのピッチ長は、k番目のフレームの開始時刻n=0からの時間nをピッチ変動率αに掛けた値にk番目のフレームの開始時刻n=0におけるピッチ長Pb を加算することにより算出することができる。
α = (P f −P b ) / L (3)
Here, L is the frame length.
The pitch variation rate α will be described with reference to FIG. In FIG. 2, it is assumed that the frame length is L and the kth frame is a lost frame, and the pitch variation rate of the lost frame is calculated. The pitch of the (k-1) th frame is Pb And the pitch of the (k + 1) th frame is Pf , The pitch variation rate α in the k-th frame between the two frames is calculated as shown in the equation (3), which is calculated by using both pitches Pb. , Pf This represents the slope of the line segment defined by. Therefore, the pitch length at each time point of the kth frame can be calculated from the pitch variation rate α. In other words, the pitch length of the kth frame is obtained by multiplying the pitch variation rate α by the time n from the start time n = 0 of the kth frame and the pitch length Pb at the start time n = 0 of the kth frame. It can be calculated by adding.

なお、有声音の定常区間では、損失フレームの前後のフレームのピッチ長は似通った値をとることが期待され、この場合には、ピッチ変動率αの絶対値は小さい値となる。しかしながら、無音または無声音から有声音への遷移またはその逆の場合には、非定常性が強く、ピッチ変動率の絶対値は必ずしも小さい値を取るとは限らない。   In the steady section of the voiced sound, it is expected that the pitch lengths of the frames before and after the loss frame take similar values. In this case, the absolute value of the pitch variation rate α is a small value. However, in the case of transition from silent sound or unvoiced sound to voiced sound or vice versa, non-stationarity is strong, and the absolute value of the pitch fluctuation rate does not always take a small value.

図3は、男声女声各10個の音声データから抽出したピッチ変動率αの絶対値のヒストグラムである。縦軸にパケット数を示し、横軸にピッチ変動率αの絶対値を示している。なお、音声データは、日本音響学会の音声データベースからランダムに選択した音声資料を標本化周波数8kHz 、量子化精度16ビットで再サンプリングしたものである。音声データの合計の時間長は89.92s 、パケット数にして4496個であった。図3に示すように、通常の音声データにおけるピッチ変動率αの絶対値は0付近に集中する可能性があり、大きな変動がないことが分かる。   FIG. 3 is a histogram of absolute values of the pitch fluctuation rate α extracted from the voice data of 10 male and female voices. The vertical axis represents the number of packets, and the horizontal axis represents the absolute value of the pitch variation rate α. Note that the audio data is obtained by re-sampling audio material randomly selected from the audio database of the Acoustical Society of Japan with a sampling frequency of 8 kHz and a quantization accuracy of 16 bits. The total time length of the voice data was 89.92 s, and the number of packets was 4496. As shown in FIG. 3, it can be seen that the absolute value of the pitch fluctuation rate α in normal audio data may be concentrated near 0 and there is no significant fluctuation.

図1に示すフローチャートに戻って、本実施例では、比較手段は、ピッチ変動率αの絶対値に対して閾値Tを設定し、ピッチ変動率αの絶対値が閾値Tよりも小さいか否かを判定する(ステップS23)。そして、ピッチ変動率αの絶対値が閾値Tよりも大きい場合には、従来の2-sidePWR法を実施し、図10で説明したようにピッチ長を変更せずに前側からの置換ブロックと後側からの置換ブロックとをオーバーラップ&アド(overlap and add)した外挿を行う(ステップS25)。   Returning to the flowchart shown in FIG. 1, in this embodiment, the comparison means sets a threshold value T for the absolute value of the pitch fluctuation rate α, and whether or not the absolute value of the pitch fluctuation rate α is smaller than the threshold value T. Is determined (step S23). When the absolute value of the pitch fluctuation rate α is larger than the threshold value T, the conventional 2-side PWR method is performed, and the replacement block from the front side and the rear side are changed without changing the pitch length as described in FIG. Extrapolation is performed by overlapping and adding the replacement block from the side (step S25).

それ以外、すなわちピッチ変動率αの絶対値が閾値Tよりも小さい場合には、損失フレームを有声音の定常区間と見なし、ピッチ変動を考慮した2-sidePWR法を実施し、損失フレームに置換ブロックのピッチ波形をコピーする毎に、このピッチ波形のコピー開始時刻n(損失フレームの開始時刻ではn=0)におけるピッチ長を前側フレームからの置換のbackwardPWRでは式(4)で計算し、また後側フレームからの置換のforwardPWRでは式(5)で計算し、各ピッチ波形のピッチ長を更新する(ステップS27)。   In other cases, that is, when the absolute value of the pitch fluctuation rate α is smaller than the threshold T, the lost frame is regarded as a steady section of voiced sound, and the 2-side PWR method is performed in consideration of the pitch fluctuation, and the replacement block is replaced with the lost frame. Each time the pitch waveform is copied, the pitch length of the pitch waveform at the copy start time n (n = 0 at the start time of the lost frame) is calculated by equation (4) in the backward PWR of the replacement from the previous frame, and later In the forward PWR for replacement from the side frame, the pitch length of each pitch waveform is updated by calculation using equation (5) (step S27).

Figure 2005107283
Figure 2005107283

図4は、このステップS27におけるピッチ変動率αを考慮した2-sidePWR法について図4に示す波形図を参照して説明する。
図4(a)に示すような原音声を受信側で受信した結果、k番目のフレームが受信できず、図4(b)に示すように損失したとすると、この損失フレームに対して図4(c)に示すように前側のk−1番号のフレームからの置換ブロックを推定し、損失フレームにコピーするというbackwardPWRを行い、更に図4(d)に示すように後側のk+1番号のフレームの方から置換ブロックを推定し、損失フレームにコピーするというforwardPWRを行うが、このbackwardPWRおよびforwardPWRは、それぞれ前記式(4)および(5)で各コピー毎にピッチ長を計算し、この計算したピッチ長を有するように行われる。この結果、図4(c)、(d)をまたがって縦線で示すように両波形に位相のずれがなく、位相がほぼ一致するようにコピーが行われる。
FIG. 4 explains the 2-side PWR method in consideration of the pitch variation rate α in step S27 with reference to the waveform diagram shown in FIG.
As a result of receiving the original speech as shown in FIG. 4A on the receiving side, if the k-th frame cannot be received and is lost as shown in FIG. As shown in FIG. 4C, a backward PWR is performed in which a replacement block from the frame of the k-1 number on the front side is estimated and copied to the lost frame. Further, as shown in FIG. The forward PWR in which the replacement block is estimated from the side and copied to the lost frame is performed. The backward PWR and the forward PWR are calculated by calculating the pitch length for each copy by the equations (4) and (5), respectively. It is performed so as to have a pitch length. As a result, as shown by the vertical lines across FIGS. 4C and 4D, copying is performed so that there is no phase shift between the two waveforms and the phases almost coincide.

このようにピッチ長が調整され位相がほぼ一致するように生成されて損失フレームへのコピーされるbackwardPWRおよびforwardPWRの両者は、図4(e)に示すように、コピー開始時刻からの時間を考慮した比例配分によりオーバーラップ&アド(overlap and add)され、エラー隠蔽音声を生成する。この結果、損失フレームは、前側のフレームと後側のフレーム間で連続し、損失のない音声としてピッチ変動も考慮して再生される。   As shown in FIG. 4 (e), both the backward PWR and the forward PWR that are generated in such a manner that the pitch length is adjusted and the phases are substantially matched and copied to the lost frame take into account the time from the copy start time. Overlap and add by the proportional distribution, error concealment speech is generated. As a result, the lost frame is continuous between the front frame and the rear frame, and is reproduced as a lossless sound in consideration of pitch fluctuation.

図4(e)に示すように再生されたエラー隠蔽音声は、図4(a)に示す原音声と比較すると、図4(f)に示すような差分波形が生成される。この差分波形は、図10(e)に示した従来の差分波形に比較して、かなり小さく低減し、エラー隠蔽音声は原音声にかなり近いことが分かる。これは、ピッチ変動を考慮して2-sidePWRを実施した結果、従来の2-sidePWR法では無視されていた有声音の定常区間におけるピッチ変動により生じる位相のずれを低減しているためである。   When the error concealed speech reproduced as shown in FIG. 4 (e) is compared with the original speech shown in FIG. 4 (a), a differential waveform as shown in FIG. 4 (f) is generated. This difference waveform is considerably reduced compared to the conventional difference waveform shown in FIG. 10E, and it can be seen that the error concealed speech is much closer to the original speech. This is because, as a result of performing the 2-side PWR in consideration of the pitch variation, the phase shift caused by the pitch variation in the steady section of the voiced sound that has been ignored in the conventional 2-side PWR method is reduced.

上述したように、ピッチ変動率αが閾値よりも大きい場合には、比較手段は、従来の2-sidePWR法を実施し、小さい場合には、ピッチ変動を考慮した2-sidePWR法を実施することにより、損失ブロックに対する置換波形を生成し(ステップS29)、この置換波形の音声データをk−1とk+1の前後のフレーム間に挿入してフレームを連結し(ステップS31)、音声データを再生する(ステップS33)。   As described above, when the pitch fluctuation rate α is larger than the threshold value, the comparison unit performs the conventional 2-side PWR method, and when it is smaller, the comparison unit performs the 2-side PWR method considering the pitch variation. Thus, a replacement waveform for the lost block is generated (step S29), the audio data of this replacement waveform is inserted between frames before and after k-1 and k + 1, and the frames are connected (step S31) to reproduce the audio data. (Step S33).

図5および図6は、図1のステップS23でピッチ変動率αと比較される閾値Tと品質の関係を示すグラフである。両図は、上述した音声データにおける全フレームに対して本発明のパケット損失隠蔽方法を適用した場合のエラー隠蔽音声のSNR(Signal-to-Noise Ratio)とPESQ(Perceptual Evaluation of Speech Quality)を閾値Tに対する品質として示すグラフである。両図に示すように、閾値Tは比較的小さな、例えば0.4〜0.15程度が好ましく、大き過ぎると、SNRやPESQなどの品質は悪くなることが分かる。   5 and 6 are graphs showing the relationship between the threshold value T and the quality compared with the pitch variation rate α in step S23 of FIG. Both figures show threshold values of SNR (Signal-to-Noise Ratio) and PESQ (Perceptual Evaluation of Speech Quality) of error concealed speech when the packet loss concealment method of the present invention is applied to all frames in the speech data described above. It is a graph shown as quality with respect to T. As shown in both figures, it is understood that the threshold value T is relatively small, for example, about 0.4 to 0.15, and if it is too large, the quality of SNR, PESQ, etc. deteriorates.

なお、PESQは、ピニオンモデルを考慮した指標であり、主観評価との相関が高く、VoIPにおける音声データの品質評価に適用されている。PESQの値は、4.5から−0.5までの範囲に分布し、値が大きい程、品質がよいとされる。結果として、閾値を大きくし過ぎると、逆に品質が低下する可能性があり、閾値を適切に設定することが重要である。   PESQ is an index that takes into account the pinion model, has a high correlation with subjective evaluation, and is applied to voice data quality evaluation in VoIP. The value of PESQ is distributed in the range from 4.5 to -0.5, and the larger the value, the better the quality. As a result, if the threshold value is increased too much, the quality may be lowered, and it is important to set the threshold value appropriately.

図7および図8は、それぞれ上述した本発明のパケット損失隠蔽方法の有効性を確認するために行った評価実験結果のパケット損失率の変化に対するSNRおよびPESQを従来法の場合と比較して示すグラフである。なお、パケット損失率は、0.5から10%まで変化させた。また、SNRおよびPESQはすべての音声データから得られた平均値を最終的な評価値としている。   FIGS. 7 and 8 show the SNR and PESQ with respect to changes in the packet loss rate as a result of evaluation experiments performed to confirm the effectiveness of the packet loss concealment method of the present invention described above in comparison with the conventional method. It is a graph. Note that the packet loss rate was varied from 0.5 to 10%. In addition, SNR and PESQ use the average values obtained from all audio data as final evaluation values.

この評価実験で使用した音声データは、日本音響学会の音声データベースからランダムに選択した男性話者4名、女性話者4名の音声資料を標本化周波数8kHz 、量子化精度16ビットで再サンプリングしたものである。但し、評価実験のパラメータであるパケット損失率の最小値を考慮して、時間長にして20s、パケット数にして1000個以上となるように話者毎に音声資料をランダムに連結したものを1個の音声データとし、各話者5個で合計40個の音声データを用意した。結果として、音声データの合計の時間長は898.16s、パケット数にして44908となった。   The audio data used in this evaluation experiment was resampled with audio data of 4 male speakers and 4 female speakers randomly selected from the audio database of the Acoustical Society of Japan at a sampling frequency of 8 kHz and a quantization accuracy of 16 bits. Is. However, in consideration of the minimum value of the packet loss rate that is a parameter of the evaluation experiment, 1 is obtained by randomly connecting audio materials for each speaker so that the time length is 20 s and the number of packets is 1000 or more. A total of 40 voice data was prepared for each of five speakers. As a result, the total time length of the voice data was 898.16 s, and the number of packets was 44908.

そして、評価実験では、これらの音声データに対して擬似的にエラーを生じさせ、(a)本発明のパケット損失隠蔽方法、(b)従来の2-sidePWR法、(c)G.711PWR法のそれぞれについてSNRおよびPESQを指標とした客観的な品質評価を行った。なお、本発明のパケット損失隠蔽方法における前記閾値は、T=0.1とした。また、評価実験では、ランダムに生じる単独パケットの損失による瞬断のみを対象とした。更に、パケット損失率が同一であっても、損失フレームの本来のゲインの大小により評価が異なることを考慮して、それぞれの音声データ毎にゲインの大きいフレームから順番にエラーを生じさせた。   In the evaluation experiment, a pseudo error is generated in the voice data, and (a) the packet loss concealment method of the present invention, (b) the conventional 2-side PWR method, (c) G.G. For each of the 711PWR methods, an objective quality evaluation was performed using SNR and PESQ as indices. Note that the threshold in the packet loss concealment method of the present invention is T = 0.1. In the evaluation experiment, only the instantaneous interruption due to the loss of a single packet generated randomly was targeted. Furthermore, even if the packet loss rate is the same, errors are generated in order from the frame with the largest gain for each audio data in consideration of the fact that the evaluation varies depending on the magnitude of the original gain of the lost frame.

図7および図8において、(a)で示す本発明のパケット損失隠蔽方法によるSNRおよびPESQは、(b)および(c)で示す従来の2-sidePWR法およびG.711PLC(Packet Loss Concealment)法によるものに比較して、値が大きく、従来の他の方法よりもエラー隠蔽を効果的に行えることが分かった。   7 and 8, the SNR and PESQ according to the packet loss concealment method of the present invention shown in (a) are the same as the conventional 2-side PWR method shown in (b) and (c). It was found that the value was larger than that according to the 711 PLC (Packet Loss Concealment) method, and error concealment was more effective than other conventional methods.

なお、上記実施形態のVoIP音声通信におけるパケット損失隠蔽方法の処理手順をプログラムとして例えばCDやFDなどの記録媒体に記録して、この記録媒体をコンピュータシステムに組み込んだり、または記録媒体に記録されたプログラムを通信回線を介してコンピュータシステムにダウンロードしたり、または記録媒体からインストールし、該プログラムでコンピュータシステムを作動させることにより、パケット損失隠蔽方法を実施するパケット損失隠蔽装置として機能させることができることは勿論であり、このような記録媒体を用いることにより、その流通性を高めることができるものである。   The processing procedure of the packet loss concealment method in the VoIP voice communication of the above embodiment is recorded as a program on a recording medium such as a CD or FD, and this recording medium is incorporated in a computer system or recorded on a recording medium. It is possible to function as a packet loss concealment device that implements a packet loss concealment method by downloading a program to a computer system via a communication line or installing it from a recording medium and operating the computer system with the program. Of course, the use of such a recording medium can improve the distribution.

本発明の一実施例に係わるVoIP音声通信におけるパケット損失隠蔽方法の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the packet loss concealment method in the VoIP voice communication concerning one Example of this invention. 図1に示す実施例のパケット損失隠蔽方法におけるピッチ長の更新を説明するための図である。It is a figure for demonstrating the update of the pitch length in the packet loss concealment method of the Example shown in FIG. ピッチ変動率αの絶対値に対するパケット数を示すヒストグラムである。It is a histogram which shows the number of packets with respect to the absolute value of pitch variation rate (alpha). 図1に示す実施例のパケット損失隠蔽方法におけるピッチ変動を考慮した2-sidePWR法を説明するための波形図である。It is a wave form diagram for demonstrating the 2-sidePWR method in consideration of the pitch fluctuation | variation in the packet loss concealment method of the Example shown in FIG. ピッチ変動率と比較される閾値に対するSNRを示す図である。It is a figure which shows SNR with respect to the threshold value compared with a pitch fluctuation rate. ピッチ変動率と比較される閾値に対するPESQを示す図である。It is a figure which shows PESQ with respect to the threshold value compared with a pitch fluctuation rate. 本発明のパケット損失隠蔽方法の有効性を確認するために行った評価実験結果のパケット損失率の変化に対するSNRを従来法の場合と比較して示すグラフである。It is a graph which shows SNR with respect to the change of the packet loss rate of the evaluation experiment result performed in order to confirm the effectiveness of the packet loss concealment method of this invention compared with the case of a conventional method. 本発明のパケット損失隠蔽方法の有効性を確認するために行った評価実験結果のパケット損失率の変化に対するPESQを従来法の場合と比較して示すグラフである。It is a graph which shows PESQ with respect to the change of the packet loss rate of the evaluation experiment result performed in order to confirm the effectiveness of the packet loss concealment method of this invention compared with the case of a conventional method. 従来のWR法およびPWR法を説明するための図である。It is a figure for demonstrating the conventional WR method and PWR method. 従来の2-sidePWR法を説明するための図である。It is a figure for demonstrating the conventional 2-sidePWR method.

Claims (3)

IPネットワークを利用したVoIP音声通信において損失したパケットを波形複製により隠蔽するVoIP音声通信におけるパケット損失隠蔽方法であって、
IPネットワークを介して送信されてくるパケットの受信において損失したパケットを検知し、
この検知した損失パケット中の損失部分の前後のフレームのピッチを計算し、
この計算した前後のフレームのピッチに基づいて当該前後のフレーム間におけるピッチ変動率を計算し、
この計算したピッチ変動率を所定の閾値と比較し、
この比較の結果、ピッチ変動率が所定の閾値より大きい場合、通常の2-sideRWR法を実施し、ピッチ変動率が所定の閾値より小さい場合、前記ピッチ変動率を考慮した2-sidePWR法を実施する
ことを特徴とするVoIP音声通信におけるパケット損失隠蔽方法。
A packet loss concealment method in VoIP voice communication for concealing a lost packet in VoIP voice communication using an IP network by waveform duplication,
Detect lost packets in receiving packets sent over the IP network,
Calculate the frame pitch before and after the lost part in the detected lost packet,
Based on the calculated pitch of the previous and next frames, the pitch fluctuation rate between the previous and next frames is calculated,
Compare this calculated pitch fluctuation rate with a predetermined threshold,
As a result of this comparison, when the pitch fluctuation rate is larger than a predetermined threshold, the normal 2-side RWR method is executed, and when the pitch fluctuation rate is lower than the predetermined threshold, the 2-side PWR method considering the pitch fluctuation rate is executed. A packet loss concealment method in VoIP voice communication.
IPネットワークを利用したVoIP音声通信において損失したパケットを波形複製により隠蔽するVoIP音声通信におけるパケット損失隠蔽装置であって、
IPネットワークを介して送信されてくるパケットの受信において損失したパケットを検知する損失パケット検知手段と、
この検知した損失パケット中の損失部分の前後のフレームのピッチを計算するピッチ計算手段と、
この計算した前後のフレームのピッチに基づき当該前後のフレーム間におけるピッチ変動率を計算するピッチ変動率計算手段と、
この計算したピッチ変動率を所定の閾値と比較する比較手段と、
この比較の結果、ピッチ変動率が所定の閾値より大きい場合、通常の2-sidePWR法を実施し、ピッチ変動率が所定の閾値より小さい場合、前記ピッチ変動率を考慮した2-sidePWR法を実施する
ことを特徴とするVoIP音声通信におけるパケット損失隠蔽装置。
A packet loss concealment device in VoIP voice communication that conceals a lost packet in VoIP voice communication using an IP network by waveform duplication,
A lost packet detecting means for detecting a lost packet in receiving a packet transmitted via the IP network;
A pitch calculating means for calculating the pitch of the frames before and after the lost portion in the detected lost packet;
A pitch variation rate calculating means for calculating a pitch variation rate between the preceding and following frames based on the calculated preceding and following frame pitches;
A comparison means for comparing the calculated pitch fluctuation rate with a predetermined threshold;
As a result of this comparison, when the pitch fluctuation rate is larger than a predetermined threshold, the normal 2-side PWR method is executed, and when the pitch fluctuation rate is lower than the predetermined threshold, the 2-side PWR method considering the pitch fluctuation rate is executed. A packet loss concealment device for VoIP voice communication.
IPネットワークを利用したVoIP音声通信において損失したパケットを波形複製により隠蔽するためのコンピュータが実行可能なVoIP音声通信におけるパケット損失隠蔽プログラムであって、
前記コンピュータを
IPネットワークを介して送信されてくるパケットの受信において損失したパケットを検知する損失パケット検知手段と、
この検知した損失パケット中の損失部分の前後のフレームのピッチを計算するピッチ計算手段と、
この計算した前後のフレームのピッチに基づき当該前後のフレーム間におけるピッチ変動率を計算するピッチ変動率計算手段と、
この計算したピッチ変動率を所定の閾値と比較する比較手段と、
この比較の結果、ピッチ変動率が所定の閾値より大きい場合、通常の2-sidePWR法を実施し、ピッチ変動率が所定の閾値より小さい場合、前記ピッチ変動率を考慮した2-sidePWR法を実施する2-sidePWR実施手段と
して機能させることを特徴とするVoIP音声通信におけるパケット損失隠蔽プログラム。
A packet loss concealment program in VoIP voice communication that can be executed by a computer for concealing a lost packet in VoIP voice communication using an IP network by waveform duplication,
Lost packet detection means for detecting lost packets in receiving packets transmitted from the computer via the IP network;
A pitch calculating means for calculating the pitch of the frames before and after the lost portion in the detected lost packet;
A pitch variation rate calculating means for calculating a pitch variation rate between the preceding and following frames based on the calculated preceding and following frame pitches;
A comparison means for comparing the calculated pitch fluctuation rate with a predetermined threshold;
As a result of this comparison, when the pitch fluctuation rate is larger than a predetermined threshold, the normal 2-side PWR method is executed, and when the pitch fluctuation rate is lower than the predetermined threshold, the 2-side PWR method considering the pitch fluctuation rate is executed. A packet loss concealment program in VoIP voice communication, which functions as 2-side PWR implementation means.
JP2003341918A 2003-09-30 2003-09-30 Method, device and program of packet loss concealment in voip voice communication Pending JP2005107283A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003341918A JP2005107283A (en) 2003-09-30 2003-09-30 Method, device and program of packet loss concealment in voip voice communication

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003341918A JP2005107283A (en) 2003-09-30 2003-09-30 Method, device and program of packet loss concealment in voip voice communication

Publications (1)

Publication Number Publication Date
JP2005107283A true JP2005107283A (en) 2005-04-21

Family

ID=34536358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003341918A Pending JP2005107283A (en) 2003-09-30 2003-09-30 Method, device and program of packet loss concealment in voip voice communication

Country Status (1)

Country Link
JP (1) JP2005107283A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008542838A (en) * 2005-05-31 2008-11-27 マイクロソフト コーポレーション Robust decoder
JP2009063928A (en) * 2007-09-07 2009-03-26 Fujitsu Ltd Interpolation method and information processing apparatus
JP2011095378A (en) * 2009-10-28 2011-05-12 Nikon Corp Sound recording device, imaging device and program
JP2013519920A (en) * 2010-02-11 2013-05-30 クゥアルコム・インコーポレイテッド Concealment of lost packets in subband coded decoder
US8698911B2 (en) 2009-10-28 2014-04-15 Nikon Corporation Sound recording device, imaging device, photographing device, optical device, and program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008542838A (en) * 2005-05-31 2008-11-27 マイクロソフト コーポレーション Robust decoder
JP2009063928A (en) * 2007-09-07 2009-03-26 Fujitsu Ltd Interpolation method and information processing apparatus
JP2011095378A (en) * 2009-10-28 2011-05-12 Nikon Corp Sound recording device, imaging device and program
US8698911B2 (en) 2009-10-28 2014-04-15 Nikon Corporation Sound recording device, imaging device, photographing device, optical device, and program
JP2013519920A (en) * 2010-02-11 2013-05-30 クゥアルコム・インコーポレイテッド Concealment of lost packets in subband coded decoder

Similar Documents

Publication Publication Date Title
JP4504429B2 (en) Method and apparatus for managing media latency of voice over internet protocol between terminals
US7590531B2 (en) Robust decoder
US7324444B1 (en) Adaptive playout scheduling for multimedia communication
US8320391B2 (en) Acoustic signal packet communication method, transmission method, reception method, and device and program thereof
US8165128B2 (en) Method and system for lost packet concealment in high quality audio streaming applications
JP4303687B2 (en) Voice packet loss concealment device, voice packet loss concealment method, receiving terminal, and voice communication system
KR101038964B1 (en) Packet based echo cancellation and suppression
JP2017529565A (en) Encoder, decoder and method for encoding and decoding audio content using parameters for enhancing concealment
US20070150262A1 (en) Sound packet transmitting method, sound packet transmitting apparatus, sound packet transmitting program, and recording medium in which that program has been recorded
US20090326950A1 (en) Voice waveform interpolating apparatus and method
JP2011158906A (en) Audio packet loss concealment by transform interpolation
CN1302513A (en) Transmission system for transmitting multimedia signal
JP5012897B2 (en) Voice packet receiving apparatus, voice packet receiving method, and program
JP4022427B2 (en) Error concealment method, error concealment program, transmission device, reception device, and error concealment device
JP2005107283A (en) Method, device and program of packet loss concealment in voip voice communication
Lindblom et al. Packet loss concealment based on sinusoidal extrapolation
KR100594599B1 (en) Apparatus and method for restoring packet loss based on receiving part
JP2008139661A (en) Speech signal receiving device, speech packet loss compensating method used therefor, program implementing the method, and recording medium with the recorded program
Aoki A VoIP packet loss concealment technique taking account of pitch variation in pitch waveform replication
Le Development of a loss-resilient internet speech transmission method
US11025552B2 (en) Method and device for regulating playing delay and method and device for modifying time scale
Montminy A study of speech compression algorithms for Voice over IP.
Lee et al. A forward-backward voice packet loss concealment algorithm for multimedia over IP network services
KR101551236B1 (en) Adaptive muting method on packet loss concealment
Lecomte et al. Packet loss and concealment