JP3240832B2 - Packet voice decoding method - Google Patents

Packet voice decoding method

Info

Publication number
JP3240832B2
JP3240832B2 JP12371294A JP12371294A JP3240832B2 JP 3240832 B2 JP3240832 B2 JP 3240832B2 JP 12371294 A JP12371294 A JP 12371294A JP 12371294 A JP12371294 A JP 12371294A JP 3240832 B2 JP3240832 B2 JP 3240832B2
Authority
JP
Japan
Prior art keywords
packet
audio signal
signal
decoded
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP12371294A
Other languages
Japanese (ja)
Other versions
JPH07334191A (en
Inventor
一則 間野
宏志 小西
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP12371294A priority Critical patent/JP3240832B2/en
Publication of JPH07334191A publication Critical patent/JPH07334191A/en
Application granted granted Critical
Publication of JP3240832B2 publication Critical patent/JP3240832B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Error Detection And Correction (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】この発明は、音声信号が符号化さ
れ、その符号化情報がパケット化して伝送されてきたパ
ケットを受信復号して音声信号を出力するパケット音声
復号方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a packet speech decoding method for encoding a speech signal, receiving and decoding a packet in which the encoded information is packetized and transmitted, and outputting a speech signal.

【0002】[0002]

【従来の技術】まず、パケットによる音声の送受につい
て説明する。図10に示すように、端子1より入力した
音声信号は、入力バッファ2に格納されたのち、符号化
部3で音声符号化される。その符号化音声は、送信バッ
ファ4に一時的に蓄えられたのち、パケットとして端子
5からパケット網11に送出される。送出パケットは、
受信器の入力端子6で受信し、受信バッファ7に一時的
に蓄えられたのち、復号部8で復号される。その復号音
声は出力バッファ9に送られ、端子10より音声出力さ
れる。ここで使用する音声符号化方式としては、サンプ
ルごとの符号化方式あるいは、複数サンプルのブロック
符号化方式のいずれでもよい。例えば、線形PCM,I
TU−T勧告G.711(μ則PCM)やG.726
(ADPCM),G.728(LD−CELP)といった方式やCE
LP(Code Excited Linear Prediction:符号励振線形
予測)符号化方式でもよい。
2. Description of the Related Art First, transmission and reception of voice by packet will be described. As shown in FIG. 10, an audio signal input from a terminal 1 is stored in an input buffer 2 and then audio-encoded by an encoding unit 3. The encoded voice is temporarily stored in the transmission buffer 4 and then transmitted from the terminal 5 to the packet network 11 as a packet. The outgoing packet is
The signal is received at the input terminal 6 of the receiver, temporarily stored in the reception buffer 7, and then decoded by the decoding unit 8. The decoded sound is sent to the output buffer 9 and output from the terminal 10 as sound. The speech coding method used here may be either a coding method for each sample or a block coding method for a plurality of samples. For example, linear PCM, I
TU-T Recommendation G. 711 (μ-law PCM) and G. 726
(ADPCM), G.M. 728 (LD-CELP) and CE
An LP (Code Excited Linear Prediction) coding scheme may be used.

【0003】パケット送受のタイミングを図11に示
す。図10中の端子5から送信される10個の送信パケ
ットP1 〜P10(a)に対し、端子6で受信される受信
パケット(b)は時間的に遅れるが、この図では全ての
パケットP1 〜P10が同一遅れで到着し、つまり最初の
受信パケットP1 の到達時刻から予期される到着時刻に
それぞれ遅れることなく到着した場合を示している。こ
の受信パケットを復号した端子10からの音声出力は図
11(c)のようになる。このように全ての受信パケッ
トが遅れないで到着した場合には、出力音声信号(c)
に切断等の劣化は生じない。
FIG. 11 shows the timing of packet transmission / reception. The received packet (b) received at the terminal 6 is delayed in time from the ten transmitted packets P 1 to P 10 (a) transmitted from the terminal 5 in FIG. This shows a case where P 1 to P 10 arrive with the same delay, that is, arrive at the expected arrival time from the arrival time of the first received packet P 1 without delay. The audio output from the terminal 10 obtained by decoding the received packet is as shown in FIG. When all the received packets arrive without delay, the output audio signal (c)
No deterioration such as cutting occurs.

【0004】ところが、図12(a)に示すように、受
信パケットP4 ,P8 が到着予定時刻t4 ,t8 よりも
遅延して到着した場合には、復号出力音声信号は図12
(b)に示すように、パケットP3 の復号音声信号V3
とパケットP4 の復号音声信号V4 との間に切断が生
じ、同様に復号音声信号V7 とV8 との間に切断が生じ
る。
However, as shown in FIG. 12A, when the received packets P 4 and P 8 arrive later than the estimated arrival times t 4 and t 8 , the decoded output audio signal is output as shown in FIG.
(B), the decoded voice signal V 3 of the packet P 3
And cutting occurs between the decoded speech signal V 4 of the packet P 4, is cut between the decoded speech signal V 7 and V 8 similarly occurs.

【0005】この従来のパケット受信復号処理は図13
に示すように、音声パケットを受信し(S1 ),その各
音声パケットを復号し(S2 ),その復号音声信号をバ
ッファリングし(S3 ),そのバッファに復号音声信号
があるかを調べ(S4 ),音声信号があればその音声信
号を出力し(S5 ),音声信号がなければ無音が出力さ
れる(S6 )。このように受信パケットから音声を復号
して出力するが、音声出力時点で出力する音声がない場
合には、遅れてきたパケットが出力されるまでは、零
(無音)出力とし、図12(b)に示すようになり、か
つパケットP4 ,P8 の遅延により、出力音声に切断区
間ができ、また、その切断区間の累積時間がそのまま出
力音声の累積遅延時間となってしまう。
[0005] This conventional packet reception / decoding process is shown in FIG.
As shown in ( 1 ), a voice packet is received (S 1 ), each voice packet is decoded (S 2 ), the decoded voice signal is buffered (S 3 ), and it is determined whether there is a decoded voice signal in the buffer. It examined (S 4), if there is audio signal to output the audio signal (S 5), silence is output if there is no audio signal (S 6). As described above, the voice is decoded from the received packet and output. If there is no voice to be output at the time of outputting the voice, the output is zero (silence) until the delayed packet is output. ) And the delay of the packets P 4 and P 8 causes a cut section in the output voice, and the cumulative time of the cut section becomes the cumulative delay time of the output voice as it is.

【0006】このような音声切断を防ぐため従来におい
ては、初期音声出力時刻を遅くし、想定されるパケット
の遅れを吸収し、連続的に音声出力が可能となる程度に
十分大きな出力バッファを用意することが提案されてい
る。この場合には、例えば図12(c)に示すように初
期復号音声信号V1 を出力する時刻を十分な時間T3
らせて、切断がなくなる。しかし、音声出力の遅延が大
きくなり、会話を想定した低遅延の音声通信としては不
適合である。
Conventionally, in order to prevent such audio disconnection, an output buffer large enough to delay the initial audio output time, absorb an expected packet delay, and continuously output audio is prepared. It has been proposed to. In this case, the time for outputting the initial decoded voice signal V 1 as example shown in FIG. 12 (c) is delayed for sufficient time T 3, the cutting is eliminated. However, the delay of the voice output becomes large, which is unsuitable for low-latency voice communication assuming conversation.

【0007】従来において出力遅延のない復号方法とし
ては、図14に示す処理が提案されている。つまり音声
パケットを受信し(S1 ),その音声パケットが予定時
刻より遅れた遅延パケットであるか否かを判定し
(S2)、遅延パケットでなければそのパケットを復号処
理し(S3 ),バッファリングし(S4 ),その復号音
声出力する(S5 )。遅延パケットの場合は、そのパケ
ットを欠落したものとみなして、無音を出力する
(S6 )。この場合は図12(d)に示すように、出力
遅延はないが、遅れて復号ができないパケットP4 の音
声信号V4 と、パケットP8の音声信号V8 と相当する
区間は、それぞれ切断区間T4 ,T5 となってしまう。
Conventionally, a processing shown in FIG. 14 has been proposed as a decoding method without output delay. That is, a voice packet is received (S 1 ), and it is determined whether or not the voice packet is a delay packet delayed from the scheduled time (S 2 ). If not, the packet is decoded (S 3 ). , Buffering (S 4 ) and outputting the decoded voice (S 5 ). If the packet is a delay packet, the packet is regarded as being lost, and silence is output (S 6 ). As shown in this case FIG. 12 (d), the the output delay is not a voice signal V 4 of the packet P 4 can not delayed decoding, a section corresponding with the voice signal V 8 of the packet P 8 are each cut Sections T 4 and T 5 will result.

【0008】そこで、従来において図15にブロック構
成を示し、その処理手順を図16に示すように、現在フ
レームの復号に間に合わないパケットは欠落したものと
して扱い、現フレームより先に到着したパケットのフレ
ーム音声から外挿補間によって、現在フレームの復号音
声とする方法が提案されている。つまり制御部20で現
在フレームの復号すべき情報パケットの到達の有無を受
信バッファ7について監視し、必要なパケットが遅れて
いる場合には、制御部20は、スイッチ22を切り換え
る出力バッファ9の入力側を復号部8の出力側から補間
部21の出力側に接続して、補間部21では既に得られ
ている復号音声情報を用いて補間音声を生成する。図1
6に示すように、音声パケットを受信し(S1 ),それ
が予定時刻より遅れた遅延パケットか否かを調べ
(S2 ),遅延パケットでなければ音声復号化し
(S3 ),バッファリングし(S4 ),その後、音声信
号を出力する(S5 )。遅延パケットであれば既に受信
されている復号音声信号による補間処理を行って
(S7 ),バッファリングする(S4 )。
[0008] Therefore, conventionally, a block configuration is shown in FIG. 15, and the processing procedure is treated as shown in FIG. 16, where a packet that cannot be decoded in time for the current frame is treated as a lost packet, and a packet that arrives earlier than the current frame is processed. A method has been proposed in which the current frame is decoded by extrapolation from the frame voice. That is, the control unit 20 monitors the arrival of the information packet to be decoded in the current frame with respect to the reception buffer 7, and when a necessary packet is delayed, the control unit 20 switches the input of the output buffer 9 for switching the switch 22. The side is connected from the output side of the decoding unit 8 to the output side of the interpolation unit 21, and the interpolation unit 21 generates an interpolated speech using the decoded speech information already obtained. FIG.
As shown in FIG. 6, a voice packet is received (S 1 ), and it is checked whether or not it is a delayed packet that is later than the scheduled time (S 2 ). If it is not a delayed packet, voice decoding is performed (S 3 ) and buffering is performed. and (S 4), and then outputs the audio signal (S 5). Performing interpolation processing by the decoded speech signal that has already been received if the delay packet (S 7), buffers (S 4).

【0009】音声の補間方法としては、例えば特公昭6
1−7779号「音声瞬断時補間受信装置」に示す手法
を用いることができる。この手法は受信音声信号の周期
を測定するピッチ周期検出手段をもち、補間が必要な場
合には、得られたピッチ周期に基づいて補間の開始時点
から必要な時間だけピッチ周期前の信号を繰り返す。ま
た、R.V.Coxらの“Robust CELP coders for noisy
backgrounds and noisy channels",IEEE Proc. ICASSP
-89, pp.739-742(1989) にCELP系の音声符号化方式
での補間方法が述べられている。つまり、CELP系の
音声符号化方式では、音声符号化情報として線形予測係
数、ピッチ周期、利得、励振符号が伝送される。あるフ
レームを補間する場合には、前のフレームの各パラメー
タを繰り返して使用すればよい。さらに、補間区間が長
い場合には、少しずつ利得を小さくしてもよい。
As a method of interpolating speech, for example,
A method described in No. 1-7779 “Interpolation receiving device at the time of instantaneous interruption of voice” can be used. This method has a pitch period detecting means for measuring the period of the received voice signal. If interpolation is necessary, the signal before the pitch period is repeated for a necessary time from the start time of the interpolation based on the obtained pitch period. . In addition, R. V. Cox et al. “Robust CELP coders for noisy
backgrounds and noisy channels ", IEEE Proc. ICASSP
-89, pp. 739-742 (1989) describes an interpolation method in a CELP speech coding system. That is, in the CELP speech coding scheme, a linear prediction coefficient, a pitch period, a gain, and an excitation code are transmitted as speech coding information. When interpolating a certain frame, the parameters of the previous frame may be used repeatedly. Further, when the interpolation section is long, the gain may be gradually reduced.

【0010】図15,図16に示す補間をする場合の出
力音声の様子を図12(e)に示す。つまり図12
(d)中のパケットP4 の遅延に基づく切断区間T4
その直前の復号音声信号V3 を利用した補間音声信号V
3 ′で補間され、同様にパケットP8 の遅延に基づく切
断区間T5 は直前の復号音声信号V7 から作られた補間
信号V7 ′で補間される。この方法では、先に到着した
フレームだけから欠落したパケットを補間している。従
って、現在フレームの音声内容がその直前のフレームの
内容と変わらずに、同じ音韻が継続する場合には問題は
ない。しかし、欠落したパケットの中だけに含まれてい
た音韻があった場合には、その内容を補間によって復元
することはできない。
FIG. 12 (e) shows the state of the output sound when the interpolation shown in FIGS. 15 and 16 is performed. That is, FIG.
(D) in the cutting zone T 4 based on the delay of the packet P 4 of the interpolated sound signal V using a decoded audio signal V 3 and the preceding
'Is interpolated, the cutting interval T 5 based on the same delay of the packet P 8 immediately before the decoded speech signal V 7 interpolation signal V 7 made of' 3 are interpolated. In this method, a missing packet is interpolated only from a previously arrived frame. Therefore, there is no problem if the same phoneme continues without changing the voice content of the current frame from the content of the immediately preceding frame. However, if there is a phoneme included only in the missing packet, its contents cannot be restored by interpolation.

【0011】また従来において音声補間の場合、図17
(a)に示すようにパケットPK による復号音声信号V
K が終わった時刻t0 にはパケットPK+1 の遅延のた
め、その遅延時間と対応する区間Ti はパケットPK
らの補間音声信号VK ′が補間され、その補間区間Ti
の終了時点t1 に遅延パケットPK+1 の復号音声信号V
K+1 (図17(b))をそのまま接続するとt0 とt1
には何らの制約がないので、その接続した信号は図17
(c)に示すように、接続点t1 の前後で不連続にな
り、ピッチの周期性も乱れてしまう。また補間時間Ti
だけ遅れた音声出力となる。さらに復号に既に受信され
た信号を利用する場合は、補間音声VK ′を利用して遅
延パケットPK+1 を復号することになり、送信側では補
間音声のことを考慮して符号化して送信することは不可
能であるから、送信側(符号器側)と受信側(復号器
側)とで復号過程が異なり、送信側と同じ音声を復号す
ることができなくなってしまう。
Conventionally, in the case of voice interpolation, FIG.
As shown in FIG.KVoice signal V
KTime t ends0Has a packet PK + 1Of delay
The delay T and the corresponding section TiIs the packet PKOr
Interpolation sound signal VK′ Are interpolated, and the interpolation section Ti
End time t1Delay packet PK + 1Of the decoded audio signal V
K + 1If (FIG. 17B) is directly connected, t0And t1
Has no restrictions, the connected signal is
As shown in FIG.1Before and after
In addition, the pitch periodicity is disturbed. The interpolation time Ti
The audio output is delayed only by. Already decrypted already received
To use the interpolated voice VK′ To delay
Total packet PK + 1Will be decoded, and
It is not possible to encode and transmit in consideration of inter-voice
The transmission side (encoder side) and the reception side (decoder
Side), the decoding process is different, and the same audio as the transmitting side is decoded.
Can not be done.

【0012】[0012]

【発明が解決しようとする課題】先に説明したように、
従来のパケット音声復号方法において、音声補間しない
切断区間のある復号音声とする場合は、ぶつぶつととぎ
れた聴感的に非常に劣化した音声となってしまう。ま
た、バッファリングによる方法により、切断を少なくす
る場合は大きな時間遅れが必要となり、実時間の音声対
話が不自由になる。さらに、遅延パケットを欠落パケッ
トとして補間する場合は、その遅延パケット中にだけあ
った音韻は補間できず、正しい音声内容を復元できな
い。
As described above, as described above,
In the conventional packet voice decoding method, when a decoded voice having a cut section in which voice interpolation is not performed is used, the voice is degraded in terms of audibility. In addition, when the disconnection is reduced by the buffering method, a large time delay is required, and real-time speech dialogue becomes inconvenient. Further, when a delayed packet is interpolated as a missing packet, phonemes that exist only in the delayed packet cannot be interpolated, and correct voice content cannot be restored.

【0013】この発明の目的は、上記の欠点を解決する
ためのもので、ある制限時間内のパケット遅延であれ
ば、遅延したフレーム音韻の欠落をなくし、スムーズな
補間音声を出力して切断区間をなくし、かつ、時間遅延
が大きくならないパケット音声復号方法を提供すること
にある。
An object of the present invention is to solve the above-mentioned drawbacks. If a packet is delayed within a certain time limit, a lost frame phoneme is eliminated, a smooth interpolated voice is output, and a cut section is output. Another object of the present invention is to provide a packet voice decoding method which eliminates the problem and does not increase the time delay.

【0014】[0014]

【課題を解決するための手段】この発明では、パケット
が遅れた場合には、まず補間によって得た補間音声信号
を、その前の音声信号に続けて出力し、その後、予め定
めた制限時間内に遅れたパケットが到着した場合には、
それを復号し、その復号音声信号を補間音声信号の後に
接続させるが、請求項1の発明では、遅れたパケット
が、遅れないで到着した場合にその復号音声信号の終了
まで、遅れた音声パケットの復号音声を時間軸圧縮して
接続させ、請求項2の発明では、遅れたパケットの全て
を復号し、その復号音声信号以後における無音区間を、
補間音声に用いた時間分だけ圧縮して時間調整を行い、
請求項3の発明では、請求項2の発明においてさらに遅
れたパケットの有音区間も時間圧縮して、これと無音区
間での圧縮との両者で補間音声区間分の時間調整を行
う。
According to the present invention, when a packet is delayed, an interpolated audio signal obtained by interpolation is first output following the previous audio signal, and thereafter, within a predetermined time limit. If a packet arrives late to
The decoded audio signal is connected after the interpolated audio signal. In the invention according to claim 1, when the delayed packet arrives without delay, the delayed audio packet is output until the end of the decoded audio signal. In the invention of claim 2, all the delayed packets are decoded, and a silent section after the decoded audio signal is
The time is adjusted by compressing only the time used for the interpolation sound,
According to the third aspect of the present invention, the voiced section of the packet which is further delayed in the second aspect is time-compressed, and the time adjustment for the interpolated voice section is performed by both the compression and the compression in the silent section.

【0015】請求項1,請求項2あるいは請求項3のい
ずれかに記載されるパケット音声復号方法において、補
間音声にピッチ周期性があるときに、遅延パケットの音
声を接続する場合には、補間音声の開始時刻からピッチ
周期の整数倍の時刻までを補間音声区間とし(請求項4
の発明)、パケットの復号に過去の復号音声が必要な場
合には、遅れたパケットの復号に補間音声信号の直前の
音声情報を用い(請求項5の発明)、補間音声信号と遅
延パケットの復号音声信号との接続を、これら両信号に
補間用の窓関数をそれぞれ乗じて加算して行う(請求項
6の発明)。
In the packet speech decoding method according to any one of claims 1, 2 and 3, when the speech of the delay packet is connected when the interpolation speech has a pitch periodicity, the interpolation An interpolated voice section is defined from a voice start time to a time that is an integral multiple of the pitch period.
Invention), when a past decoded speech is required for decoding a packet, the speech information immediately before the interpolation speech signal is used for decoding the delayed packet (the invention of claim 5), and the interpolation speech signal and the delayed packet are decoded. The connection with the decoded audio signal is performed by multiplying both of these signals by the window function for interpolation and adding them (the invention of claim 6).

【0016】[0016]

【作 用】請求項1の発明では、パケットが遅れるとそ
のパケットが到着して、復号されるまでの間、先に到着
したパケットの符号化音声情報から補間音声が出力さ
れ、音声の切断がなくなり、切断による品質劣化が防げ
る。また遅れた音声パケットが到着して、復号音声信号
を接続することにより、音韻を失うことなく、音声内容
を確実に再生することができる。しかも、この遅れたパ
ケットの復号音声信号は時間軸圧縮されているから、音
声遅延の累積がない。
According to the present invention, when a packet is delayed, the interpolated speech is output from the encoded speech information of the previously arrived packet until the packet arrives and is decoded. And quality degradation due to cutting can be prevented. Also, by connecting the decoded audio signal when a delayed audio packet arrives, the audio content can be reliably reproduced without losing the phoneme. Moreover, since the decoded audio signal of the delayed packet is compressed on the time axis, there is no accumulation of audio delay.

【0017】請求項2の発明では、パケットが遅れると
そのパケットが到着して、復号されるまでの間、先に到
着したパケットの符号化音声情報から補間音声が出力さ
れ、音声の切断がなくなり、切断による品質劣化を防ぐ
ことができる。また遅れた音声パケットが到着して、復
号音声信号が接続されるため、そのパケットに存在する
音声内容を確実に再生することができる。さらに、この
復号音声信号以後の音声信号の無音区間が時間軸圧縮さ
れるため、音声の遅延が累積していくということがな
い。
According to the second aspect of the present invention, if a packet is delayed, the interpolated speech is output from the encoded speech information of the previously arrived packet until the packet arrives and is decoded. In addition, quality degradation due to cutting can be prevented. Further, since a delayed voice packet arrives and a decoded voice signal is connected, the voice content existing in the packet can be reliably reproduced. Furthermore, since the silent section of the audio signal after the decoded audio signal is compressed on the time axis, the delay of the audio does not accumulate.

【0018】請求項3の発明では、パケットが遅れると
そのパケットが到着して、復号されるまでの間、先に到
着したパケットの符号化音声情報から補間音声が出力さ
れ、音声の切断がなくなり、切断による品質劣化を防ぐ
ことができる。遅れた音声パケットが到着して、その復
号音声信号が接続されることにより、そのパケットに存
在する音声内容を確実に再生することができる。さら
に、この復号音声信号以後の音声信号の無音区間および
有音区間において、時間軸圧縮が行われることにより、
音声の遅延が累積していくということがない。
According to the third aspect of the present invention, if a packet is delayed, the interpolated speech is output from the encoded speech information of the previously arrived packet until the packet arrives and is decoded. In addition, quality degradation due to cutting can be prevented. When the delayed voice packet arrives and the decoded voice signal is connected, the voice content existing in the packet can be reliably reproduced. Further, by performing time axis compression in a silent section and a sound section of the audio signal after the decoded audio signal,
Voice delays do not accumulate.

【0019】請求項1,請求項2あるいは請求項3のい
ずれかに記載されるパケット音声復号方法において、請
求項4の発明では、補間音声にピッチ周期性があるとき
に、遅延パケットの音声を接続する場合には、補間音声
の開始時刻からピッチ周期の整数倍の時刻までを補間音
声とされるため、補間音声の開始時刻の波形と補間終了
時刻の波形とが1ピッチの同じ位置になるので、それ以
後に遅延パケットの復号音声を接続しても接続境界で不
連続となることがない。請求項5の発明では遅延パケッ
トの復号に過去の復号音声が必要な場合には、補間する
直前の音声情報を用いて復号されるため、音声補間処理
は受信側のみであるが、後続の音声復号処理に影響を与
えることがなく、後続の復号音声としては送信側と同じ
波形が生成される。請求項6の発明では、補間音声と遅
延パケット復号音声を補間用の窓関数を乗じて接続する
ことにより、補間途中で音声が変化した場合でも、連続
的に重み付け加算されるので、接続境界の不連続性が弱
まる。
In the packet speech decoding method according to any one of the first, second and third aspects, according to the fourth aspect of the invention, when the interpolated speech has a pitch periodicity, the speech of the delayed packet is reproduced. In the case of connection, since the interpolation sound is from the start time of the interpolation sound to the time that is an integral multiple of the pitch period, the waveform of the interpolation sound start time and the waveform of the interpolation end time are at the same position of one pitch. Therefore, even if the decoded voice of the delayed packet is connected after that, no discontinuity occurs at the connection boundary. According to the fifth aspect of the present invention, when a past decoded voice is required for decoding a delayed packet, the decoded voice is decoded by using the voice information immediately before the interpolation. Therefore, the voice interpolation process is performed only on the receiving side. The same waveform as that on the transmitting side is generated as the subsequent decoded voice without affecting the decoding process. According to the invention of claim 6, by interpolating the interpolated voice and the delayed packet decoded voice by multiplying them by a window function for interpolation, even if the voice changes during the interpolation, the weights are continuously added. Discontinuity weakens.

【0020】[0020]

【実施例】請求項1の実施例 図1に、請求項1の発明の実施例が適用された音声パケ
ット通信の受信側ブロック構成を、図15と対応する部
分に同一符号を付けて示す。図1において、端子6より
受信したパケットは、受信バッファ7に蓄えられ、送信
パケット順に並べ変えられる。制御部30では、図2に
示す流れ図に示すように、音声パケットを受信すると
(S1 ),復号しようとする音声パケットが遅れている
かどうかを判断する(S2 ),受信バッファ7よりのパ
ケットは復号部8で、順番に符号化情報を復号して復号
音声信号を生成する。遅延パケットでない場合には、そ
の復号音声信号は切換え器33,34の各接点N側を通
じて出力バッファ9に送られ、出力バッファ9を経て端
子10より音声信号が出力される。図2の流れ図では、
遅れていないパケットが音声復号処理され(S3 ),さ
らにバッファリングされた後(S4 ),音声は出力され
る(S5 )。
Example Figure 1 EXAMPLES claim 1, shows claims reception block configuration of a voice packet communication according to the embodiments of the first aspect of the invention, with the parts corresponding to those in FIG. 15. In FIG. 1, packets received from a terminal 6 are stored in a reception buffer 7 and rearranged in the order of transmission packets. As shown in the flow chart of FIG. 2, when the control unit 30 receives a voice packet (S 1 ), it determines whether or not the voice packet to be decoded is delayed (S 2 ). Is a decoding unit 8 for sequentially decoding the encoded information to generate a decoded audio signal. If the packet is not a delay packet, the decoded audio signal is sent to the output buffer 9 through the contacts N of the switches 33 and 34, and the audio signal is output from the terminal 10 via the output buffer 9. In the flowchart of FIG.
A packet that has not been delayed is subjected to voice decoding processing (S 3 ), and after being further buffered (S 4 ), voice is output (S 5 ).

【0021】制御部30が遅延パケットであると判断し
た場合には、図2に示すように、補間部31でその遅延
パケットが到着し、復号するまで音声補間処理を行う
(S6)。この場合の補間処理は、〔従来の技術〕の項
で述べた波形のピッチ周期抽出に基づく繰り返し処理、
またはCELP系の場合には前の伝送パラメータを繰り
返して使用する。
If the control unit 30 determines that the packet is a delay packet, as shown in FIG. 2, the interpolation unit 31 performs voice interpolation processing until the delay packet arrives and is decoded (S 6 ). The interpolation process in this case is a repetition process based on the extraction of the pitch period of the waveform described in the section of [Prior Art],
Alternatively, in the case of the CELP system, the previous transmission parameters are used repeatedly.

【0022】この音声補間は遅延パケットが到来するま
で行われ(S7 ),遅延パケットが到来すると、その遅
延パケットが音声復号処理され(S8 ),その復号音声
信号は時間軸圧縮部32で時間軸圧縮され、その圧縮さ
れた信号は、その遅延パケットが遅れることなく到来し
たときのその復号音声信号の終了時刻まで、切換え器3
3,34の各接点A側を通じて出力バッファ9に出力さ
れ(S4 ),補間音声に続けて端子10より出力される
(S5 )。
This voice interpolation is performed until a delay packet arrives (S 7 ). When the delay packet arrives, the delay packet is subjected to voice decoding processing (S 8 ), and the decoded voice signal is processed by the time axis compression unit 32. The time axis compressed and the compressed signal is output to the switch 3 until the end time of the decoded audio signal when the delayed packet arrives without delay.
The signals are output to the output buffer 9 through the contacts A of the terminals 3 and 34 (S 4 ), and output from the terminal 10 following the interpolation sound (S 5 ).

【0023】ここで使用する時間軸圧縮方法としては、
例えばD.Malah氏の論文:" Time-Domain Algorithms
for Harmonic Bandwidth Reduction and Time Scaling
ofSpeech Signals", IEEE Trans. on Asouctics, Spee
ch, and Signal Processing,vol. ASSP-27, No.2, pp.1
21-133,(1979)にある時間領域調波構造伸縮(TDHS :Tim
e Domain Harmonic Scaling) アルゴリズム、または同
様な手法である森田・板倉氏の研究会資料:“自己相関
法による音声の時間軸での伸縮方式とその評価”,電子
情報通信学会電気音響研究会技術報告EA86−5(1
986)のアルゴリズムを利用する。これらは、ピッチ
周期単位で前後の波形に重み付け窓をかけ、その区間を
重ね合わせることによって時間軸圧縮する。図3にTD
HSアルゴリズムによる2:1の圧縮の様子を示す。ま
ず、図3(a)に示す音声信号からピッチ周期Tp を求
め、次に例えば同図(b)に示すように時刻t1 からそ
れぞれ1ピッチ周期Tp 前後の各時刻t0 ,t1 に直線
的に0より1になる重み付け窓関数を同図(a)の2ピ
ッチ周期の音声信号に乗じて、時刻t0 〜t1 ,t 1
2 の各音声波形を同図(c)の波形とし、これら両波
形を重ね合わせ加算して、同図(d)に示す1ピッチ周
期Tp の時間軸圧縮音声信号を得る。またピッチ周期が
ない区間に対しても、適当な周期で重ね合わせを行うこ
とにより時間軸圧縮を行う。
The time axis compression method used here is as follows.
For example, D. Malah's dissertation: "Time-Domain Algorithms
 for Harmonic Bandwidth Reduction and Time Scaling
 ofSpeech Signals ", IEEE Trans. on Asouctics, Spee
ch, and Signal Processing, vol.ASSP-27, No.2, pp.1
21-133, (1979) Time domain harmonic structure stretching (TDHS: Tim
e Domain Harmonic Scaling) algorithm, or
Morita and Itakura's Study Group Materials: “Autocorrelation
Method of speech expansion and contraction on the time axis by the method ",
IEICE Technical Report EA86-5 (1
986). These are pitch
A weight window is applied to the preceding and following waveforms in cycle units, and the section
The time axis is compressed by overlapping. FIG. 3 shows TD
The state of 2: 1 compression by the HS algorithm is shown. Ma
Instead, the pitch period Tp is obtained from the audio signal shown in FIG.
Next, for example, as shown in FIG.1Karaso
Each time t before and after one pitch period Tp0, T1To a straight line
The weighted window function that becomes 1 from 0 is shown in FIG.
At the time t0~ T1, T 1~
tTwo(C) of FIG.
The shape is superimposed and added, and a one-pitch circumference shown in FIG.
A time axis compressed audio signal of the period Tp is obtained. Also, the pitch period
It is necessary to perform superposition at appropriate intervals
Then, the time axis is compressed.

【0024】図4(a)に示すように、図12(a)と
同様にパケットP4 ,P8 が遅れた場合は、図1,図2
による処理により出力される出力音声信号は図4(b)
に示すようになる。パケットP4 が遅れたため、パケッ
トP3 の復号音声信号V3 が終了した時点t3eにパケッ
トP4 の復号音声信号V4 が間に合わず、それまでの音
声信号から生成された補間音声信号V3 ′が復号音声信
号V3 に連続して出力され、その後、この例では時刻t
5 にパケットP4 の復号音声信号V4 が得られ、その時
間圧縮音声信号V4 * が補間音声信号V3 ′と連続して
出力され、遅れたパケットP4 が予期された正しい時刻
に到着したとした時のその復号音声信号V4 の終了時刻
4eになると圧縮音声信号V4 * の送出を停止して、次
のパケットP4 の復号音声信号V5 を時点t4eから出力
する。つまり、この例ではパケットP4 が到着予定時刻
より所定時間以上遅れると、パケットP3 の復号音声信
号V3 が終了してしまい、その終了時刻t3eにパケット
4 の復号音声信号V4 が間に合わなくなり、補間音声
信号を出力し、遅れたパケットP4 の復号音声信号V4
が、パケットP4 が遅れないときの復号音声信号V4
終了時刻t4e前に得られると、復号音声信号V4 の圧縮
音声信号V4 * を、これが得られてから時刻t4eまで出
力する。
As shown in FIG. 4A, when the packets P 4 and P 8 are delayed as in FIG.
The output audio signal output by the processing according to FIG.
It becomes as shown in. Since packet P 4 is delayed, the packet P 3 of the decoded decoded voice signal V 4 of the audio signal V 3 packet P 4 at a time t 3e ended is too late, the interpolation sound signal V 3 generated from the audio signal to it ′ Is output continuously to the decoded voice signal V 3 , and thereafter, in this example, at time t
5 decoded voice signal V 4 of the packet P 4 is obtained, arrives at which time compressed audio signal V 4 * is continuously output the interpolated sound signal V 3 ', the correct time of late packets P 4 is expected When the end time t 4e of the decoded audio signal V 4 is reached , the transmission of the compressed audio signal V 4 * is stopped, and the decoded audio signal V 5 of the next packet P 4 is output from the time t 4e . That is, when a packet P 4 in this example lags estimated arrival time for a predetermined time or more, would exit the decoded speech signal V 3 of the packet P 3, the decoded speech signal V 4 of the packet P 4 to the end time t 3e In time, an interpolated audio signal is output, and the decoded audio signal V 4 of the delayed packet P 4 is output.
Is obtained before the end time t 4e of the decoded audio signal V 4 when the packet P 4 is not delayed, the compressed audio signal V 4 * of the decoded audio signal V 4 is output until the time t 4 e after this is obtained. I do.

【0025】この場合、圧縮音声信号V4 * の挿入区間
5 〜t4eは1ピッチ周期TP の圧縮音声信号V4 *
始めをt5 に合わせ、または1ピッチ周期TP の圧縮音
声信号V4 * の終わりをt4eに合わせるようにするとよ
い。同様にしてパケットP7の復号音声信号V7 が終了
した時刻t7eに、パケットP8 の復号音声信号が間に合
わず、補間音声信号V7 ′で補間され、遅延パケットP
8 の受信で、この例では時刻t9 過ぎから遅れないで受
信された場合のパケットP8 の復号音声信号の終了時刻
8eまで復号音声信号V8 の圧縮音声信号V8 * が出力
される。このようにして補間音声によって切断区間がな
く、また圧縮音声信号V4 * ,V8 * が出力されるので
復号音声信号V4 ,V8 の各音韻内容が失われることは
ない。また補間音声信号V3 ′と圧縮音声信号V4 *
の合計の時間長が1つのパケットの復号音声信号長に一
致するので最終的な出力音声の遅延はないので、音声対
話通信が可能である。
[0025] In this case, the compressed audio signal V 4 * insertion interval t 5 ~t 4e is combined compressed audio signal V 4 * at the beginning of one pitch period T P in t 5, or compressed voice of one pitch period T P The end of the signal V 4 * may be adjusted to t 4e . At time t 7e decoded audio signal V 7 of the packet P 7 is completed in the same manner, the decoded audio signal packet P 8 is too late, it is interpolated by the interpolation sound signal V 7 ', delayed packets P
In this example, the compressed audio signal V 8 * of the decoded audio signal V 8 is output until the end time t 8 e of the decoded audio signal of the packet P 8 when the packet P 8 is received without delay after the time t 9. . In this way, there is no cut section due to the interpolated speech, and the compressed speech signals V 4 * , V 8 * are output, so that the phoneme contents of the decoded speech signals V 4 , V 8 are not lost. Also, since the total time length of the interpolated voice signal V 3 ′ and the compressed voice signal V 4 * matches the decoded voice signal length of one packet, there is no delay in the final output voice, so that voice interactive communication is possible. is there.

【0026】請求項2の実施例 図5に、請求項2の発明の実施例が適用された音声パケ
ット通信の受信側ブロック構成図を示す。この場合は復
号部8の出力側は補間部41と、無音区間検出部42
と、無音区間時間軸圧縮部44と、スイッチの接点Nと
に接続され、無音区間時間軸圧縮部44の出力側はスイ
ッチ44の接点Aに接続される。制御部40では、図6
のフロー図に示すように、音声パケットを受信し
(S1 ),その後、これから復号しようとする音声パケ
ットが遅れているかどうかを判断する(S 2 )。遅延パ
ケットでない場合には、復号化処理をし(S3 ),その
復号音声信号に無音区間があるかを調べ(S4 ),無音
区間でなければ出力バッファ9に復号音声信号を送り
(S5 ),無音区間があれば圧縮処理が必要かを調べ
(S6 ),圧縮処理が必要でなければ復号音声信号を切
換え器43,45の各接点Nを通じて出力バッファ9へ
送り(S5 ),出力端子10へ出力される(S7 )。
[0026]Embodiment of Claim 2 FIG. 5 shows a voice packet to which the embodiment of the second aspect of the present invention is applied.
FIG. 2 shows a block diagram of a receiving side of packet communication. In this case,
The output side of the signal section 8 includes an interpolation section 41 and a silent section detection section 42.
And the silent section time axis compression unit 44 and the contact N of the switch.
The output side of the silence section time axis compression section 44 is connected to a switch.
Switch 44 is connected to the contact A. In the control unit 40, FIG.
As shown in the flow diagram of
(S1), After that, the voice packet to be decoded
It is determined whether the cost is late (S Two). Delay
If it is not a packet, a decryption process is performed (SThree),That
It is checked whether there is a silent section in the decoded audio signal (SFour), Silence
If not, send decoded audio signal to output buffer 9
(SFive), If there is a silent section, check if compression processing is necessary
(S6), If the compression processing is not necessary,
To the output buffer 9 through the respective contacts N of the changers 43 and 45
Send (SFive) And output to the output terminal 10 (S7).

【0027】ステップS2 において遅延パケットであっ
た場合には、遅延パケットが到着し、復号するまで音声
補間処理を行う(S8 ,S9 )。この場合の補間処理
は、従来の技術の項で述べた波形のピッチ周期抽出に基
づく繰り返し処理、またはCELP系の場合には前の伝
送パラメータを繰り返して使用して行う。その補間中
に、遅延パケットが得られると音声復号処理を行い(S
10),補間音声信号に続けて出力バッファ9を経て、端
子10より出力する。このままでは出力音声に切断区間
はできないが、補間に要した時間だけ出力が遅れてく
る。そこで、無音区間検出部42で、復号音声信号の無
音区間検出を行い、無音区間が検出され(S4 ),かつ
圧縮処理を必要とする場合(S6 )は、無音区間時間軸
圧縮部44で無音復号音声信号を補間に要した時間だけ
圧縮する(S11)。これにより、出力遅延をなくすこと
ができる。
[0027] In the case was delayed packets in step S 2, the delay packet arrives, performs speech interpolation process until decoding (S 8, S 9). In this case, the interpolation processing is performed by repeating the processing based on the extraction of the pitch period of the waveform described in the section of the related art, or repeatedly using the previous transmission parameter in the case of the CELP system. If a delayed packet is obtained during the interpolation, a speech decoding process is performed (S
10 ) After the interpolated audio signal, the signal is output from the terminal 10 via the output buffer 9. In this state, a cut section cannot be formed in the output voice, but the output is delayed by the time required for interpolation. Therefore, the silent section detecting section 42 detects the silent section of the decoded audio signal, and if the silent section is detected (S 4 ) and the compression processing is required (S 6 ), the silent section time axis compressing section 44 in compressed amount of time required silence decoded audio signal to the interpolator (S 11). Thereby, output delay can be eliminated.

【0028】無音区間検出に関しては、送信パケットに
予め無音か無音でないかの識別子が付与してある場合に
はその識別子を使用する。識別子がない場合には、受信
側で例えば現在フレームのパワPC と有音区間の平均パ
ワPV とのパワ比(PC /P V )が一定しきい値以下で
あれば無音区間であると判断する。無音区間の時間軸圧
縮法としては、圧縮に必要な時間分をそのまま復号音声
信号から切断して切断前後の無音区間を接続させるだけ
でよい。無音区間に、背景雑音等が含まれている場合に
は、図3に示した時間軸圧縮において、ピッチ周期TP
のかわりに、予め決めた特定の周期をとり、重み付け窓
をかけて重ね合わせてもよい。1パケットの無音区間が
補間音声の時間に比較して短ければ、複数区間に分けて
無音区間圧縮を適用することにより、各区間での圧縮率
が低くなり、音声劣化も少ない。
Regarding the silent section detection, the transmission packet
If an identifier of silence or not is given in advance
Uses that identifier. If there is no identifier, receive
On the side, for example, the power P of the current frameCAnd the average
WaPVPower ratio (PC/ P V) Is below a certain threshold
If there is, it is determined that it is a silent section. Time axis pressure in silent section
As the compression method, the time required for compression is
Just disconnect from signal and connect silence section before and after disconnection
Is fine. When background noise is included in the silent section
Is the pitch period T in the time axis compression shown in FIG.P
Instead of taking a predetermined period, a weighting window
May be superimposed. One packet silence section
If it is shorter than the time of the interpolated voice, divide it into multiple sections
By applying silence section compression, the compression ratio in each section
And sound degradation is small.

【0029】図4(c)に、図4(a)の受信パケット
に対する本実施例の出力音声タイミングを示す。ここ
で、パケットP4 の遅れにより時刻t3eから補間音声信
号V3′を補間し、時刻t5 に遅れたパケットP4 の復
号音声信号V4 が得られると、これを直ちに補間音声信
号V3 ′に続け、その全ての復号音声信号V4 を出力
し、その後の復号音声信号中のV5 とV6 との無音区間
を圧縮し、V5 ,V6 より短い信号V5 ♯,V6 ♯とし
て補間音声信号V3 ′の長さ分を吸収している。同様に
パケットP8 の遅れにより、補間信号V7 ′を補間し、
パケットP8 の復号信号V8 が得られると、そのV8
全体を補間信号V7 ′に続けさせ、その直後の復号音声
信号V9 には無音区間がなく、さらにその後の復号音声
信号V10中の無音区間を補間信号V7 ′の長さだけ圧縮
し、圧縮音声信号V10♯とした場合である。このように
して補間音声信号によって切断区間がなく、また遅延パ
ケットP4 とP8 の各復号音声信号V4 ,V8 がそのま
ま出力されるので音韻内容が失われることはない。ま
た、補間音声信号V3 ′,V7 ′に要した時間長を音声
信号V5 ♯,V6 ♯,V10♯の無音区間圧縮時間と同じ
にしているので、最終的な出力音声の遅延はなく、実時
間での音声対話通信が可能である。
FIG. 4 (c) shows the output voice timing of the present embodiment with respect to the received packet of FIG. 4 (a). Here, by interpolating the interpolated sound signal V 3 'from the time t 3e due to the delay of the packet P 4, the decoded voice signal V 4 of the packet P 4, which is delayed in time t 5 is obtained which immediately interpolated audio signal V Following the 3 ', all of the decoded audio signal V 4 and outputs a later decryption compress the silent interval between V 5 and V 6 in the speech signal, V 5, V 6 from the short signal V 5 ♯, V 6 ♯ absorbs the length of the interpolated voice signal V 3 ′. Similarly, the interpolation signal V 7 ′ is interpolated by the delay of the packet P 8 ,
When the decoding signal V 8 of the packet P 8 is obtained, it allowed to continue in its entirety V 8 to the interpolated signal V 7 ', there is no silent section in the decoded audio signal V 9 of immediately, further followed decoded speech signal V In this case , a silent section in 10 is compressed by the length of the interpolation signal V 7 ′ to obtain a compressed audio signal V 10 #. Thus no cut section by interpolation sound signal, also is not because each decoded voice signal V 4, V 8 of delayed packets P 4 and P 8 is output as the phoneme content is lost. Further, since the time length required for the interpolated audio signals V 3 ′ and V 7 ′ is the same as the silent section compression time of the audio signals V 5 ♯, V 6 ♯ and V 10 、, the final output audio delay However, real-time voice conversation communication is possible.

【0030】請求項3の実施例 図7に、請求項3の発明の実施例を適用した音声パケッ
ト通信の受信側ブロック構成図を示す。図7において、
復号部8の出力側は無音/有音区間判定部52と、無音
区間時間軸圧縮部54と、有音区間時間軸圧縮部55
と、切換え器53の接点Nとに接続され、無音区間時間
軸圧縮部54の出力側、有音区間時間軸圧縮部55の出
力側にそれぞれ切換え器53の接点A1 ,A2 に接続さ
れている。制御部50は図8に示す流れ図に示すよう
に、パケットを受信すると(S1 ),これから復号しよ
うとする音声パケットが遅れているかどうかを判断し
(S2 ),遅延パケットでない場合は音声復号処理して
復号音声信号を生成し(S3 ),その復号音声信号が無
音区間かの判定がされ(S4 ),無音区間でも、有音区
間のいずれでもそれぞれ圧縮処理を必要とするかが調べ
られ(S5 ,S6 ),いずれも圧縮処理を必要としない
場合は出力バッファ9に復号音声信号が送出され
(S7 ),出力バッファ9を経て端子10より音声信号
が出力される(S8 )。
Third Embodiment FIG. 7 is a block diagram showing the receiving side of voice packet communication to which the third embodiment of the present invention is applied. In FIG.
The output side of the decoding unit 8 is a silent / sound section determination unit 52, a silent section time axis compression unit 54, and a sound section time axis compression unit 55.
And the contact N of the switch 53, and connected to the contacts A 1 and A 2 of the switch 53 on the output side of the silent section time axis compression section 54 and the output side of the sound section time axis compression section 55, respectively. ing. As shown in the flow chart shown in FIG. 8, when the control unit 50 receives a packet (S 1 ), it determines whether or not a voice packet to be decoded is delayed (S 2 ). The decoded speech signal is generated by processing (S 3 ), it is determined whether the decoded speech signal is a silent section (S 4 ), and it is determined whether a compression process is required for both a silent section and a sound section. examined (S 5, S 6), one may not need the compression processing decoded speech signal is sent to the output buffer 9 (S 7), the audio signal is output from the terminal 10 through the output buffer 9 ( S 8).

【0031】ステップS2 で遅延パケットであった場合
には、遅延パケットが到着し、音声信号を復号するま
で、音声補間処理が行われる(S9 ,S10),この場合
の補間処理は、従来の技術の項で述べた波形のピッチ周
期抽出に基づく繰り返し処理、またはCELP系の場合
には前の伝送パラメータを繰り返して使用する。その補
間中に、遅延パケットが到来し、その音声復号処理がな
されると(S11),補間音声信号に続けて出力バッファ
9を経て、端子10より復号音声信号が出力される。こ
の処理だけでは、出力音声に切断区間はできないが、補
間に要した時間だけ出力が遅れてくる。そこで、無音/
有音区間判定部52で復号音声の無音/有音の判定が行
われ、無音と判定された音声信号に対しては(S4 ),
圧縮処理を必要とする場合は(S6 ),無音区間時間軸
圧縮部54で補間に要した時間を圧縮する(S12)。ま
たステップS4 で有音と判定された音声信号に対して
は、圧縮処理を必要とする場合は(S5 ),有音区間時
間軸圧縮部55で補間に要した時間を圧縮する
(S13)。これにより出力遅延をなくすことができる。
[0031] if it was delayed packets in step S 2, the delay a packet arrives until the decoded audio signal, the audio interpolation processing is carried out (S 9, S 10), the interpolation process in this case, The repetition processing based on the pitch period extraction of the waveform described in the section of the related art, or the previous transmission parameter is repeatedly used in the case of the CELP system. During the interpolation, arrives delayed packet, when the audio decoding process is executed (S 11), through the output buffer 9 following the interpolated sound signal, the decoded audio signal is output from the pin 10. With this processing alone, a cut section cannot be formed in the output voice, but the output is delayed by the time required for interpolation. So silence /
The voiced section determination unit 52 determines whether or not the decoded voice is silent or non-voiced. For the voice signal determined to be silent, (S 4 )
If you need a compression process compresses (S 6), the time required for interpolation in the silent section time-base compression unit 54 (S 12). Also for the voiced and determined audio signal in step S 4, the case that requires compression process compresses (S 5), the time required for interpolation in the sound interval time-base compression unit 55 (S 13 ). As a result, output delay can be eliminated.

【0032】無音/有音区間判定部52では、送信パケ
ットに予め無音か有音かの識別子が付与してある場合に
はその識別子を使用する。識別子がない場合には、受信
側で例えば現在区間のパワPC と有音区間の平均パワP
V との比(PC /PV )が一定しきい値以下であれば無
音区間であるとし、そうでなければ有音区間とする。無
音区間の時間軸圧縮法としては、圧縮に必要な時間分を
そのまま復号音声信号から切断して切断前後の無音区間
を接続させるだけでよい。無音区間に、背景雑音等が含
まれている場合には、図3に示した時間軸圧縮におい
て、ピッチ周期T P のかわりに予め決めた特定の周期を
とり、重み付け窓をかけて重ね合わせてもよい。有音区
間の圧縮法は、ここでは請求項1の発明の実施例で述べ
た図3に示したTDHSによる時間軸圧縮法を用いる。
The silent / voiced section determination section 52 transmits the transmission packet.
When a silent or sound identifier is assigned to the
Uses that identifier. If there is no identifier, receive
On the side, for example, the power P of the current sectionCAnd average power P of sound section
VAnd the ratio (PC/ PV) Is below a certain threshold
It is assumed to be a sound section, and otherwise, a sound section. Nothing
As the time axis compression method for the sound section, the time required for compression is
Silence section before and after cutting by cutting directly from the decoded audio signal
Only need to be connected. Silence periods include background noise, etc.
If it is rare, the time axis compression shown in FIG.
And the pitch period T PInstead of a specific cycle
Alternatively, a weighting window may be applied and superimposed. Aru-ku
The compression method is described in the embodiment of the first aspect of the present invention.
The time axis compression method by TDHS shown in FIG. 3 is used.

【0033】補間時間が長く、後続の一区間(1パケッ
トの復号音声信号期間)での圧縮時間が補間音声の時間
に比較して短時間しかとれない場合には、複数区間に分
けて無音/有音区間圧縮を適用することにより、各区間
での時間軸圧縮すべき時間の割合すなわち、圧縮率が低
くなり、音声劣化も少ない処理が可能である。図4
(d)に、図4(a)の受信パケットに対する本実施例
の出力音声タイミングを示す。ここで図4(c)と対応
する部分に同一符号をつけてあり、補間音声信号V3
にパケットP4 の復号音声信号V4 を接続するが、この
例では復号音声信号V4 の有音信号が時間軸圧縮され、
圧縮信号V4 * が接続される。ただし、図4(b)と異
なり、復号音声信号V4 の圧縮信号を途中で断にするこ
となく、全てを用いる。この圧縮時間だけでは補間信号
3 ′の時間長には不足で、その後の復号音声信号
5 ,V6 中の各無音区間が圧縮され、無音圧縮信号V
5♯,V6 ♯として順次接続され、有音圧縮信号V4 *
と無音圧縮信号V5 ♯,V 6 ♯との各圧縮時間の合計が
補間信号V3 ′の時間長と等しくされている。同様に補
間信号V7 ′以後の復号音声信号V8 ,V9 ,V10中の
8 ,V9 についてはそれぞれ有音時間軸圧縮した信号
8 * ,V9 * として、V10については無音区間を圧縮
した信号V10♯とし、これら3つの復号音声信号の圧縮
時間の合計が補間信号V7 ′の長さと等しくされてい
る。この場合も、有音圧縮信号V8 * ,V9 * はそれぞ
れ復号音声信号V8 ,V9 のそれぞれの圧縮信号を切断
することなく、全てが用いられる。
The interpolation time is long, and the succeeding section (one packet)
Compression time in the decoded audio signal period)
If it takes only a short time compared to
By applying silence / voice interval compression,
Of the time to compress on the time axis, ie the compression ratio is low
This makes it possible to perform processing with less sound degradation. FIG.
FIG. 4D shows the present embodiment for the received packet of FIG.
3 shows the output audio timing. Here, corresponding to FIG.
Are assigned the same reference numerals, and the interpolated audio signal VThree
Packet PFourOf the decoded audio signal VFourTo connect this
In the example, the decoded audio signal VFourIs compressed in the time axis,
Compressed signal VFour *Is connected. However, it differs from FIG.
And the decoded audio signal VFourOf the compressed signal
Use all. With this compression time alone, the interpolation signal
VThree′ Is not enough for the time length,
VFive, V6Each silent section is compressed and the silent compressed signal V
Five♯, V6順次 are sequentially connected, and the sound compression signal VFour *
And silence compression signal VFive♯, V 6The sum of each compression time with ♯
Interpolation signal VThree′. Similarly
Signal V7'The decoded voice signal V8, V9, VTenIn
V8, V9For each is a signal that has been compressed with a sound time axis
V8 *, V9 *As VTenAbout silence section compression
Signal VTen圧 縮 and compression of these three decoded audio signals
The total time is the interpolation signal V7'Is equal to the length
You. Also in this case, the sound compression signal V8 *, V9 *Each
Decoded audio signal V8, V9Disconnect each compressed signal
Everything is used without doing.

【0034】このようにして補間音声信号によって切断
区間がなく、また遅延パケットV4 * とV8 * が出力さ
れているので音韻内容が失われることはない。また補間
音声信号V3 ′とV7 ′に要した時間長が信号V5 ♯,
6 ♯,V10♯とV4 * ,V 8 * ,V9 * との無音/有
音区間圧縮時間の合計と同じにするので、最終的な出力
音声の遅延はなく、実時間での音声対話通信が可能であ
る。
In this manner, cutting is performed by the interpolated audio signal.
No section and delayed packet VFour *And V8 *Is output
The phonetic content is not lost. Also interpolation
Audio signal VThree'And V7'Is the signal VFive♯,
V6♯, VTen♯ and VFour *, V 8 *, V9 *Silence with / Yes
The same as the total sound section compression time, so the final output
There is no delay in voice and real-time voice dialogue communication is possible.
You.

【0035】他の請求項の実施例 図1,図5,図7におけるそれぞれの切り換え/接続部
34,45,56としては単なる切換えスイッチを示し
たが、補間音声信号と遅延パケットの復号音声信号との
接続は次のようにすることもできる。即ち、請求項4の
発明では補間音声信号にピッチ周期性があるときは、例
えば図9(a),(b)に示すように補間音声信号
K ′の開始時刻t0 からピッチ周期TP の整数倍(T
i =nxTP,例ではn=2)の時刻t1 までを補間音
声信号VK ′とする。すると、補間音声信号VK ′の開
始時刻t0 の波形と、補間終了時刻t1 の波形とが1ピ
ッチの同じ位置に対応するので、それ以後に、遅延パケ
ットの復号音声信号VK+1 を接続しても接続境界t1
図10(c)に示すように大きな不連続にならない。
[0035] Example Figure 1 of another aspect, FIG. 5 shows a simple changeover switch as each of the switching / connecting portion 34,45,56 in Figure 7, the interpolation sound signal and a decoded audio signal delayed packets The connection with can also be as follows. That is, in the invention of claim 4, when the interpolated speech signal has a pitch periodicity, for example, as shown in FIGS. 9 (a) and 9 (b), the pitch period T P starts from the start time t 0 of the interpolated speech signal V K ′. Integer multiple of (T
The interpolated audio signal V K ′ up to time t 1 of i = nxT P (in the example, n = 2) is used. Then, the waveform at the start time t 0 of the interpolated audio signal V K ′ and the waveform at the interpolation end time t 1 correspond to the same position of one pitch, and thereafter, the decoded audio signal V K + 1 of the delayed packet Are not greatly discontinuous at the connection boundary t 1 as shown in FIG.

【0036】遅延パケットの復号音声信号VK+1 を生成
する際に、過去の復号音声が必要な場合には、補間信号
K ′は使用せずに、遅延がなかったと仮定して補間開
始時点t0 に続くとして、その直前の音声情報、つまり
復号音声信号VK を用いて復号する(請求項5の発
明)。こうすることにより、受信側で遅延パケットが生
じても後続の音声復号に補間音声信号による影響がな
く、送信側と同じ音声を出力することができる。
When the decoded speech signal V K + 1 of the delayed packet is required, if the decoded speech in the past is necessary, the interpolation signal V K ′ is not used and the interpolation is started on the assumption that there is no delay. Assuming that it follows the time point t 0 , decoding is performed using the immediately preceding audio information, that is, the decoded audio signal V K (the invention of claim 5). By doing so, even if a delay packet is generated on the receiving side, the subsequent voice decoding is not affected by the interpolated voice signal, and the same voice as on the transmitting side can be output.

【0037】さらに、補間音声信号VK ′と遅延パケッ
ト復号音声VK+1 とを図9(a),(b)に示すように
補間用の窓関数、つまり被接続信号である補間音声信号
Kは接続の時刻t1 から漸次減少し、逆に接続信号で
ある復号音声信号VK+1 は接続時刻t1 から漸次1にな
るような各窓関数をそれぞれに乗じて加算して接続する
ことにより、補間途中で音声信号が変化した場合でも、
連続的に重み付け加算されるので、接続境界t1 の不連
続性を弱めることが可能となり、接続による品質劣化を
抑制できる(請求項6の発明)。
Further, as shown in FIGS. 9A and 9B, the interpolated speech signal V K ′ and the delayed packet decoded speech V K + 1 are interpolated as a window function, that is, the interpolated speech signal which is a connected signal. V K gradually decreases from the connection time t 1 , and conversely, the decoded voice signal V K + 1, which is the connection signal, is multiplied by each window function that gradually becomes 1 from the connection time t 1 , added and connected. By doing so, even if the audio signal changes during interpolation,
Since weighting and addition are continuously performed, it is possible to reduce the discontinuity of the connection boundary t 1 , and it is possible to suppress quality deterioration due to connection (the invention of claim 6).

【0038】[0038]

【発明の効果】以上説明したように、この発明ではある
制限時間内のパケット遅延であれば、遅延分の間だけ、
前に到着したパケットの復号音声信号により音声信号を
補間し、そのあとで遅延パケットの復号音声信号を接続
し、その際にその復号音声信号自体またはそれ以後の無
音区間、あるいは無音および有音区間で、時間軸圧縮を
行うので、遅延したフレーム音韻の欠落をなくし、円滑
な補間音声信号を出力し、かつ、時間遅延が大きくなら
ないパケット音声復号方法を実現でき、その効果は極め
て大きい。
As described above, according to the present invention, if a packet is delayed within a certain time limit, only the delay time is used.
The audio signal is interpolated by the decoded audio signal of the packet that arrived earlier, and then the decoded audio signal of the delayed packet is connected. At that time, the decoded audio signal itself or a silent section thereafter, or a silent and voiced section. Since the time axis compression is performed, it is possible to realize a packet speech decoding method that eliminates the loss of delayed frame phonemes, outputs a smooth interpolated speech signal, and does not increase the time delay.

【図面の簡単な説明】[Brief description of the drawings]

【図1】請求項1の発明を適用した受信装置の例を示す
ブロック図。
FIG. 1 is a block diagram showing an example of a receiving apparatus to which the invention of claim 1 is applied.

【図2】その受信復号処理手順の例を示す流れ図。FIG. 2 is a flowchart showing an example of the reception decoding processing procedure.

【図3】時間軸圧縮処理を説明するための波形図。FIG. 3 is a waveform chart for explaining time axis compression processing.

【図4】受信パケット例(a)に対する請求項1,2,
3の各発明による音声信号の出力例(b),(c),
(d)を示す図。
FIG. 4 is a block diagram showing an example of received packets (a).
Output examples (b), (c), and
FIG.

【図5】請求項2の発明を適用した受信装置の例を示す
ブロック図。
FIG. 5 is a block diagram showing an example of a receiving apparatus to which the invention of claim 2 is applied.

【図6】その受信復号処理手順の例を示す流れ図。FIG. 6 is a flowchart showing an example of the reception decoding processing procedure.

【図7】請求項3の発明を適用した受信装置の例を示す
ブロック図。
FIG. 7 is a block diagram showing an example of a receiving apparatus to which the invention of claim 3 is applied.

【図8】その受信復号処理手順の例を示す流れ図。FIG. 8 is a flowchart showing an example of the reception decoding processing procedure.

【図9】補間音声信号と遅延パケットの復号音声信号と
の接続方法である請求項4乃至6の発明を説明するため
の波形図。
FIG. 9 is a waveform chart for explaining the invention according to claims 4 to 6, which is a method for connecting an interpolation audio signal and a decoded audio signal of a delay packet.

【図10】音声信号のパケット送受信伝送系の一般的構
成を示すブロック図。
FIG. 10 is a block diagram showing a general configuration of an audio signal packet transmission / reception transmission system.

【図11】その送信パケットと、受信パケットと、復号
音声信号との関係を示す図。
FIG. 11 is a diagram showing a relationship among a transmission packet, a reception packet, and a decoded audio signal.

【図12】遅延パケットと、これに対する従来の各種復
号音声信号との関係を示す図。
FIG. 12 is a diagram showing a relationship between a delay packet and various conventional decoded audio signals corresponding thereto.

【図13】従来の受信パケット復号処理手順を示す流れ
図。
FIG. 13 is a flowchart showing a conventional received packet decoding processing procedure.

【図14】従来の遅延パケットを含む復号処理手順を示
す流れ図。
FIG. 14 is a flowchart showing a conventional decoding processing procedure including a delay packet.

【図15】従来の遅延パケットに対する音声補間をする
復号装置を示すブロック図。
FIG. 15 is a block diagram showing a conventional decoding device that performs voice interpolation on a delayed packet.

【図16】その従来の処理手順を示す流れ図。FIG. 16 is a flowchart showing a conventional processing procedure.

【図17】従来の補間音声信号と遅延パケット復号音声
信号との接続を説明するための波形図。
FIG. 17 is a waveform diagram for explaining connection between a conventional interpolated audio signal and a delayed packet decoded audio signal.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭54−139417(JP,A) 特開 平2−183648(JP,A) 特開 平5−88697(JP,A) 特開 平4−219797(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 ──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-54-139417 (JP, A) JP-A-2-183648 (JP, A) JP-A-5-88697 (JP, A) JP-A-4- 219797 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G10L 19/00

Claims (6)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 到着予定時刻よりも所定時間以上パケッ
トが遅れると、先に到着したパケットの符号化情報から
補間処理によって音声信号を生成してそれまでの出力音
声信号と連続させて出力し、 上記遅れたパケットが、その次のパケットの到着予定時
刻前に受信されると、その遅れたパケットの復号音声を
時間軸圧縮して、それが本来の到着予定時刻に到着した
場合の復号音声出力の最終時刻まで、上記補間音声信号
に続けて出力することを特徴とするパケット音声復号方
法。
When a packet is delayed by a predetermined time or more from an estimated arrival time, a speech signal is generated by interpolation processing from encoded information of a previously arrived packet, and is output continuously with the output speech signal up to that time. When the delayed packet is received before the scheduled arrival time of the next packet, the decoded speech of the delayed packet is compressed on the time axis, and the decoded speech output when it arrives at the original scheduled arrival time is output. And outputting the interpolated audio signal continuously until the last time.
【請求項2】 到着予定時刻よりも所定時間以上パケッ
トが遅れると、先に到着したパケットの符号化情報から
補間処理によって音声信号を生成して、それまでの出力
音声信号と連続させて出力し、 上記遅れたパケットが予め決められた時間以内に受信さ
れると、その遅れたパケットの復号音声信号を上記補間
音声信号に続けて出力させ、 その復号音声信号以後におけるパケットの復号音声信号
中の無音区間を、上記補間音声信号の時間長分圧縮する
ことを特徴とするパケット音声復号方法。
2. When a packet is delayed by a predetermined time or more from an estimated arrival time, an audio signal is generated by interpolation processing from encoded information of a previously arrived packet, and output as a continuous output audio signal. When the delayed packet is received within a predetermined time, the decoded audio signal of the delayed packet is output following the interpolated audio signal, and the decoded audio signal of the packet after the decoded audio signal is output. A packet voice decoding method comprising compressing a silent section by a time length of the interpolation voice signal.
【請求項3】 上記遅延パケットの復号音声信号を上記
補間音声信号に続けて出力した以後のパケットの復号音
声信号中の有音区間も時間圧縮して上記無音区間の圧縮
との合計で上記補間音声信号の時間長分とすることを特
徴とする請求項2記載のパケット音声復号方法。
3. A speech section in a decoded speech signal of a packet after outputting the decoded speech signal of the delayed packet following the interpolation speech signal is time-compressed, and the interpolation is performed by summing the compression with the compression of the silence section. 3. The packet audio decoding method according to claim 2, wherein the packet audio decoding time is equal to a time length of the audio signal.
【請求項4】 上記補間音声信号にピッチ周期性がある
ときは、上記補間音声信号の区間を、上記ピッチ周期の
整数倍とすることを特徴とする請求項1乃至3のいずれ
かに記載のパケット音声復号方法。
4. The apparatus according to claim 1, wherein when the interpolated audio signal has a pitch periodicity, a section of the interpolated audio signal is set to an integral multiple of the pitch period. Packet voice decoding method.
【請求項5】 パケットの復号にその過去の音声情報を
必要とする場合は、上記遅れたパケットの復号に、上記
補間音声信号の直前の音声情報を用いることを特徴とす
る請求項1乃至3のいずれかに記載のパケット音声復号
方法。
5. The method according to claim 1, wherein when decoding of a packet requires past speech information, speech information immediately before said interpolation speech signal is used for decoding of said delayed packet. The packet audio decoding method according to any one of the above.
【請求項6】 上記補間音声信号と、上記遅れたパケッ
トの復号音声信号との上記接続を、補間用窓関数を上記
補間音声信号および上記復号音声信号とに乗算して互い
に加算して行うことを特徴とする請求項1乃至3のいず
れかに記載のパケット音声復号方法。
6. The connection between the interpolated audio signal and the decoded audio signal of the delayed packet by multiplying an interpolation window function by the interpolated audio signal and the decoded audio signal and adding them together. 4. The packet audio decoding method according to claim 1, wherein:
JP12371294A 1994-06-06 1994-06-06 Packet voice decoding method Expired - Lifetime JP3240832B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12371294A JP3240832B2 (en) 1994-06-06 1994-06-06 Packet voice decoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12371294A JP3240832B2 (en) 1994-06-06 1994-06-06 Packet voice decoding method

Publications (2)

Publication Number Publication Date
JPH07334191A JPH07334191A (en) 1995-12-22
JP3240832B2 true JP3240832B2 (en) 2001-12-25

Family

ID=14867497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12371294A Expired - Lifetime JP3240832B2 (en) 1994-06-06 1994-06-06 Packet voice decoding method

Country Status (1)

Country Link
JP (1) JP3240832B2 (en)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE513520C2 (en) * 1998-05-14 2000-09-25 Ericsson Telefon Ab L M Method and apparatus for masking delayed packages
US7047190B1 (en) 1999-04-19 2006-05-16 At&Tcorp. Method and apparatus for performing packet loss or frame erasure concealment
US7117156B1 (en) 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
EP1088303B1 (en) * 1999-04-19 2006-08-02 AT & T Corp. Method and apparatus for performing frame erasure concealment
JP3891755B2 (en) 2000-03-27 2007-03-14 沖電気工業株式会社 Packet receiver
JP4597360B2 (en) * 2000-12-26 2010-12-15 パナソニック株式会社 Speech decoding apparatus and speech decoding method
JP4426186B2 (en) * 2001-05-22 2010-03-03 富士通株式会社 Audio signal processing device
JP2005274917A (en) * 2004-03-24 2005-10-06 Mitsubishi Electric Corp Voice decoding device
JP5046661B2 (en) * 2007-01-23 2012-10-10 アルパイン株式会社 Audio equipment
JP4726088B2 (en) * 2008-01-31 2011-07-20 富士通テン株式会社 Digital data processing apparatus and sound reproduction apparatus
CN101588341B (en) * 2008-05-22 2012-07-04 华为技术有限公司 Lost frame hiding method and device thereof
JP5664291B2 (en) 2011-02-01 2015-02-04 沖電気工業株式会社 Voice quality observation apparatus, method and program

Also Published As

Publication number Publication date
JPH07334191A (en) 1995-12-22

Similar Documents

Publication Publication Date Title
EP0544101B1 (en) Method and apparatus for the transmission of speech signals
EP1382143B1 (en) Methods for changing the size of a jitter buffer and for time alignment, communications system, receiving end, and transcoder
US7577565B2 (en) Adaptive voice playout in VOP
US8423358B2 (en) Method and apparatus for performing packet loss or frame erasure concealment
AU755258B2 (en) Improved lost frame recovery techniques for parametric, LPC-based speech coding systems
US7319703B2 (en) Method and apparatus for reducing synchronization delay in packet-based voice terminals by resynchronizing during talk spurts
US7246057B1 (en) System for handling variations in the reception of a speech signal consisting of packets
US6389006B1 (en) Systems and methods for encoding and decoding speech for lossy transmission networks
US6496794B1 (en) Method and apparatus for seamless multi-rate speech coding
JP3240832B2 (en) Packet voice decoding method
JP2002534922A (en) Transmission system for transmitting multimedia signals
PT1554717E (en) Preprocessing of digital audio data for mobile audio codecs
US7302385B2 (en) Speech restoration system and method for concealing packet losses
KR100792209B1 (en) Method and apparatus for restoring digital audio packet loss
JP3722366B2 (en) Packet configuration method and apparatus, packet configuration program, packet decomposition method and apparatus, and packet decomposition program
JPH1049199A (en) Silence compressed voice coding and decoding device
KR100594599B1 (en) Apparatus and method for restoring packet loss based on receiving part
JP2760810B2 (en) Voice packet processing method
KR100591544B1 (en) METHOD AND APPARATUS FOR FRAME LOSS CONCEALMENT FOR VoIP SYSTEMS
JP3487158B2 (en) Audio coding transmission system
JPH07334197A (en) Voice encoding device
JP2002099299A (en) Silent compressed voice coding and decoding device
Morinaga et al. The forward-backward recovery sub-codec (FB-RSC) method: A robust form of packet-loss concealment for use in broadband IP networks
Ho et al. Improved lost frame recovery techniques for ITU-T G. 723.1 speech coding system
JPH08154080A (en) Voice signal processing method and voice signal processor

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071019

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081019

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091019

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131019

Year of fee payment: 12

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term