JP4510742B2 - Voice packet receiving and reproducing method and apparatus, and program recording medium therefor - Google Patents

Voice packet receiving and reproducing method and apparatus, and program recording medium therefor Download PDF

Info

Publication number
JP4510742B2
JP4510742B2 JP2005298691A JP2005298691A JP4510742B2 JP 4510742 B2 JP4510742 B2 JP 4510742B2 JP 2005298691 A JP2005298691 A JP 2005298691A JP 2005298691 A JP2005298691 A JP 2005298691A JP 4510742 B2 JP4510742 B2 JP 4510742B2
Authority
JP
Japan
Prior art keywords
packet
frame number
voice
signal
voice packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005298691A
Other languages
Japanese (ja)
Other versions
JP2007108388A (en
Inventor
仲 大室
岳至 森
祐介 日和▲崎▼
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005298691A priority Critical patent/JP4510742B2/en
Publication of JP2007108388A publication Critical patent/JP2007108388A/en
Application granted granted Critical
Publication of JP4510742B2 publication Critical patent/JP4510742B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、ディジタル化された音声信号、音楽信号などの音響信号(この出願書類においては、総称して音声信号)をインターネットをはじめとするパケット通信網を介して送信する際に、受信側において、安定した品質で、音声信号を再生するために用いる音声パケット受信再生方法及びその装置、そのプログラム記録媒体に関する。 In the present invention, when a digital audio signal, an audio signal such as a music signal (in this application document, the audio signal is generically) is transmitted through a packet communication network such as the Internet, the receiving side The present invention relates to an audio packet reception and reproduction method and apparatus used for reproducing an audio signal with stable quality, and a program recording medium thereof.

近年、音声信号をVoice over IP(VoIP)技術を利用して、より品質の高い音声信号を送受信する技術が望まれている。
図8は音声信号を音声パケットに変換してIP通信網をはじめとするパケット通信網によってリアルタイムで通信する構成例である。音声信号送信部70に入力された入力音声信号はフレームと呼ばれる一定の時間毎にフレーム分割部71で区切られ、音声符号化部72により、音声信号は符号化される。ここで、フレームの長さは、一般に10ミリ秒から20ミリ秒が用いられることが多い。符号化された音声信号は、音声パケット変換部73により、音声パケットに変換される。このように入力音声は音声信号送信部70内で、音声パケットに変換されて、IP通信網74に送信される。
In recent years, there has been a demand for a technology for transmitting and receiving a higher quality audio signal by using a Voice over IP (VoIP) technology.
FIG. 8 shows a configuration example in which voice signals are converted into voice packets and communicated in real time through a packet communication network such as an IP communication network. The input audio signal input to the audio signal transmitting unit 70 is divided by a frame dividing unit 71 at regular intervals called frames, and the audio encoding unit 72 encodes the audio signal. Here, the frame length is generally 10 to 20 milliseconds in many cases. The encoded audio signal is converted into an audio packet by the audio packet converter 73. In this way, the input voice is converted into voice packets in the voice signal transmission unit 70 and transmitted to the IP communication network 74.

音声パケットには、フレームに区切った音声信号を音声符号化の手法によって変換した音声符号と、パケットの時間順序を示すタイムスタンプまたはフレーム番号が含まれている。代表的な音声符号化手法としては、ITU−T(国際電気通信連合)の標準であるG.711方式があるが、その他の任意の方式でも良い。タイムスタンプとフレーム番号は相互に変換可能であるため、以下タイムスタンプまたはフレーム番号を単にフレーム番号と呼ぶことにする。
IP通信網74よりの音声パケットは音声信号受信部75で受信され、音声信号受信部75に受信された音声パケットは、音声信号に変換されて出力される。
The voice packet includes a voice code obtained by converting a voice signal divided into frames by a voice coding method, and a time stamp or a frame number indicating the time order of the packet. As a typical speech coding method, G.I. which is a standard of ITU-T (International Telecommunication Union). There are 711 methods, but any other method may be used. Since the time stamp and the frame number can be converted to each other, the time stamp or the frame number is hereinafter simply referred to as a frame number.
Voice packets from the IP communication network 74 are received by the voice signal receiver 75, and the voice packets received by the voice signal receiver 75 are converted into voice signals and output.

図9に音声信号受信部75の具体的な構成例を示す。IP通信網からの音声パケットは、パケット受信部80によって受信され、更に、受信バッファ81に蓄積される。音声パケット復号部82は受信バッファ81から音声パケットを取り出し、音声信号に復号して、音声信号を切替スイッチ89を通じて、出力端子88に出力する。
ここで受信バッファ81は、ゆらぎ吸収バッファとも呼ばれ、IP通信網の状態によってパケットの到着時間にゆらぎが生じた時にゆらぎを吸収し、再生音声信号が途切れることを防止する。また通信網において、パケットロス(パケット損失)が発生した場合や、受信バッファ81のゆらぎ吸収量を超えるゆらぎが発生して、受信バッファ81が一時的に空になった場合には、音声パケット復号部82は受信バッファ81から復号すべき音声パケットを取り出すことができない。これらの場合、制御部84は、損失補償処理部(パケットロスコンシールメント部)83を作動させ、損失補償処理部83は補償音声信号を生成して切替スイッチ89を通じて、出力端子88に出力する。なお損失補償処理部83とは、パケットロスが発生した際に、再生音声の劣化が目立たないような音声信号を、既に受信した音声信号から、生成する方法で、代表的な方法として、ITU−T(国際電気通信連合)の標準として定められているG.711 Appendix I(ジードット711アペンディックスワン)または非特許文献1に示す方法が知られている。
FIG. 9 shows a specific configuration example of the audio signal receiving unit 75. Voice packets from the IP communication network are received by the packet receiver 80 and further stored in the reception buffer 81. The voice packet decoding unit 82 takes out the voice packet from the reception buffer 81, decodes it into a voice signal, and outputs the voice signal to the output terminal 88 through the changeover switch 89.
Here, the reception buffer 81 is also called a fluctuation absorbing buffer, and absorbs fluctuation when the arrival time of the packet is fluctuated depending on the state of the IP communication network, and prevents the reproduced audio signal from being interrupted. Also, when packet loss (packet loss) occurs in the communication network or when fluctuation exceeding the fluctuation absorption amount of the reception buffer 81 occurs and the reception buffer 81 is temporarily emptied, the voice packet decoding is performed. The unit 82 cannot extract the voice packet to be decoded from the reception buffer 81. In these cases, the control unit 84 operates the loss compensation processing unit (packet loss concealment unit) 83, and the loss compensation processing unit 83 generates a compensation audio signal and outputs it to the output terminal 88 through the changeover switch 89. Note that the loss compensation processing unit 83 is a method of generating an audio signal from which the deterioration of the reproduced audio is not noticeable from the already received audio signal when packet loss occurs. G. has been established as a standard of T (International Telecommunication Union). 711 Appendix I (Gee Dot 711 Appendix One) or the method shown in Non-Patent Document 1 is known.

切替スイッチ89は、音声パケット復号部82から、又は損失補償処理部83から、音声信号を出力するかに応じて、制御部84により、切替を行う。
図10は1つの装置内に、音声信号受信部91、音声信号送信部92、音声信号受信部91よりの音声信号を再生するスピーカ93、送話信号を受音するマイクロホン94、マイクロホン94に収音された音声信号から反響信号を抑圧して、音声信号送信部92へ送信するエコーキャンセラ95を備えた装置の構成例を示す。スピーカ93とマイクロホン94はそれぞれ、一般的な音響スピーカ、一般的なマイクロホンであり、音声信号受信部91と音声信号送信部92の両方を備えた、電話通信のように双方向に通話する装置の構成例である。また音声信号受信部91よりの受話音声信号(受話信号)x(k)はスピーカ93から再生放音され、この再生音声は反響経路96を通じて、マイクロホン94にも収音され、これが音響エコーとして送信される。そこで、スピーカ93へ供給される音声信号x(k)がエコーキャンセラ95にも入力され、エコーキャンセラ95内で擬似反響経路に通され、擬似音響エコーが生成され、これが、マイクロホン94よりの収音信号y(k)からエコーキャンセラ95内で差し引かれ、反響信号が抑圧された送話信号が、音声信号送信部92に入力される。
The changeover switch 89 is switched by the control unit 84 depending on whether the audio signal is output from the audio packet decoding unit 82 or the loss compensation processing unit 83.
FIG. 10 shows an audio signal receiving unit 91, an audio signal transmitting unit 92, a speaker 93 for reproducing an audio signal from the audio signal receiving unit 91, a microphone 94 for receiving a transmission signal, and a microphone 94. A configuration example of an apparatus including an echo canceller 95 that suppresses an echo signal from a sound signal that has been sounded and transmits the signal to the sound signal transmission unit 92 will be described. The speaker 93 and the microphone 94 are a general acoustic speaker and a general microphone, respectively, which are equipped with both the audio signal receiving unit 91 and the audio signal transmitting unit 92, and are used for two-way communication like telephone communication. It is a structural example. In addition, the received voice signal (received signal) x (k) from the voice signal receiving unit 91 is reproduced and emitted from the speaker 93, and the reproduced voice is also collected by the microphone 94 through the echo path 96 and transmitted as an acoustic echo. Is done. Therefore, the audio signal x (k) supplied to the speaker 93 is also input to the echo canceller 95 and is passed through the pseudo echo path in the echo canceller 95 to generate a pseudo acoustic echo, which is collected by the microphone 94. A speech signal which is subtracted from the signal y (k) in the echo canceller 95 and the echo signal is suppressed is input to the audio signal transmission unit 92.

なお、エコーキャンセラ95内の擬似反響経路は真の反響経路の特性に、近づくように適応的に制御されている。このように、エコーキャンセラ95は受信信号x(k)と、収音信号y(k)とが正しく同期するように入力されて、正常に作動している。受信信号x(k)が入力されない状態が発生したり、同期がずれると、正常に作動しなくなる。すなわち、正しく反響抑圧されなくなる。
音声信号送信部92としては、入力音声信号が無音のとき、すなわち呼は接続されているが、送信側の話者が発声していない時に音声パケットを全く送らない送信方法もある。この方法を無音圧縮またはDiscontinuous Transmission(以下DTX)と呼び、パケット通信網の帯域を効率的に使用している方法として使われている。
大室仲、他“音声特徴量並行送信によるバーストパケットロス耐性の向上”,信学技報(電子情報学会)学会)通信,SP2004−77,pp.35−40,2004
The pseudo echo path in the echo canceller 95 is adaptively controlled so as to approach the characteristics of the true echo path. In this way, the echo canceller 95 is operating normally, with the received signal x (k) and the collected sound signal y (k) being input so as to be correctly synchronized. If a state in which the reception signal x (k) is not input occurs or the synchronization is lost, it does not operate normally. That is, the echo is not correctly suppressed.
The voice signal transmission unit 92 includes a transmission method in which a voice packet is not transmitted at all when an input voice signal is silent, that is, a call is connected but a transmitter speaker is not speaking. This method is called silence compression or Discontinuous Transmission (hereinafter referred to as DTX), and is used as a method of efficiently using the bandwidth of the packet communication network.
Omuro Naka, et al. “Improvement of burst packet loss tolerance by parallel transmission of voice features”, IEICE Technical Report (Japan Society for Electronics and Information Engineers) Communication, SP2004-77, pp. 35-40, 2004

この発明が解決しようとする課題を2点挙げる。
1つ目は、前記のようにパケットのゆらぎが受信バッファのゆらぎ吸収量よりも大きくなった場合に、受信バッファは一時的に空になる。この現象を防ぐために、受信バッファのゆらぎ吸収量を大きくする、すなわち受信バッファに蓄積するパケットの量を多くすることは可能であるが、受信バッファに蓄積するパケットの量を多くすると、パケットを受信してから音声信号が再生されるまでの遅延が大きくなり、双方向通話の場合には話しづらくなる。このため、ゆらぎが変動した際に受信バッファが一時的に空になる状態はある程度許容することが一般的である。
There are two problems to be solved by the present invention.
First, when the fluctuation of the packet becomes larger than the fluctuation absorption amount of the reception buffer as described above, the reception buffer is temporarily emptied. In order to prevent this phenomenon, it is possible to increase the amount of fluctuation absorbed in the reception buffer, that is, to increase the amount of packets stored in the reception buffer, but if the amount of packets stored in the reception buffer is increased, packets are received. After that, the delay until the audio signal is reproduced increases, and it becomes difficult to speak in the case of a two-way call. For this reason, it is common to tolerate a state in which the reception buffer is temporarily emptied when fluctuations fluctuate.

受信バッファが空になった場合は、前記のように、損失補償処理部が作動され、パケット損失補償処理を行う。しかし、この処理を、何秒も連続して適用すると、パケット到着再開時の受信バッファの状態が不安定になる問題である。つまり、一般に受信バッファに、蓄積する量があらかじめ定められた適当量になるように、プログラム制御していることがあるが、その場合、前述したように何秒も連続してパケット損失補償処理を行う状態になると、蓄積量を適量にする動作がうまく作動しなくなり、遅延が不適切になったり、それを回復する処理によって再生音が劣化する。またこのように長い間、パケット損失補償処理による再生音声は、音質が悪いものとなる。   When the reception buffer becomes empty, the loss compensation processing unit is operated as described above to perform packet loss compensation processing. However, if this process is applied continuously for many seconds, there is a problem that the state of the reception buffer becomes unstable when resuming packet arrival. In other words, in general, program control may be performed so that the amount stored in the reception buffer becomes a predetermined appropriate amount. In this case, as described above, packet loss compensation processing is continuously performed for many seconds. When it is in a state to perform, the operation for setting the accumulation amount to an appropriate amount does not work well, the delay becomes inappropriate, or the reproduced sound deteriorates due to the process of recovering it. In addition, for a long time, the sound reproduced by the packet loss compensation process has a poor sound quality.

2つ目は、前記の受信バッファが不安定になるという問題を防ぐため、損失補償処理を行わず、パケットが受信バッファに溜まるまで、音声パケットを復号する処理を停止することにすると、エコーキャンセラの作動に不具合が生じるという問題である。即ち、図10において、エコーキャンセラ95に入力される受話信号x(k)が停止すると、収音信号y(k)のみがエコーキャンセラ95に入力されることになり、エコーキャンセラ95が正しく動作せず、この場合は、送信音すなわち、相手側の再生音が劣化するという現象が生じる。   Second, in order to prevent the problem that the reception buffer becomes unstable, loss compensation processing is not performed, and the process of decoding voice packets is stopped until packets accumulate in the reception buffer. It is a problem that malfunction occurs in the operation. That is, in FIG. 10, when the reception signal x (k) input to the echo canceller 95 is stopped, only the collected sound signal y (k) is input to the echo canceller 95, and the echo canceller 95 operates correctly. However, in this case, a phenomenon occurs in which the transmission sound, that is, the reproduction sound of the other party is deteriorated.

フレームごとに、上記受信バッファから取り出す音声パケットがあるか否かを第1判定過程で判定し、音声パケットがないと判断された場合に、パケット損失補償処理を行うか、無音生成処理を行うか第2判定過程で判定し、音声パケットがないと判定された場合に、上記第2判定過程の判定に基づいて、パケット損失補償処理または無音生成処理のいずれかを行って信号を生成する。つまり音声パケットがないと判定される状態がNフレーム(Nは0以上の整数)連続するまでは、上記第2判定過程でパケット損失補償処理を行うと判定し、音声パケットがないと判定される状態がNフレーム(Nは0以上の整数)を超えて連続した場合は、上記第2判定過程で無音生成処理を行うと判定する。   Whether or not there is a voice packet to be extracted from the reception buffer for each frame is determined in the first determination process, and if it is determined that there is no voice packet, whether to perform packet loss compensation processing or silence generation processing When it is determined in the second determination process and it is determined that there is no voice packet, a signal is generated by performing either the packet loss compensation process or the silence generation process based on the determination in the second determination process. That is, until N frames (N is an integer equal to or greater than 0) continue to be determined that there is no voice packet, it is determined that the packet loss compensation process is performed in the second determination process, and it is determined that there is no voice packet. When the state continues beyond N frames (N is an integer of 0 or more), it is determined that the silence generation process is performed in the second determination process.

必要に応じて、受信される一連の音声パケットを観測して、受信した音声パケットが無音圧縮を利用したものであるか否かをDTX検出過程で推定し、無音圧縮を利用したものでないと、推定される場合には、N≧1とし、無音圧縮を利用したものであると、推定される場合には、N=0とする。
更に必要に応じて、上記受信バッファより音声パケットを取り出して復号するごとに、対応するフレーム番号をフレーム番号カウンタに記憶させ、上記パケット損失補償処理を1フレーム分行うごとに、上記フレーム番号カウンタの計数値を1増加させ、上記無音生成処理を行うごとに、上記フレーム番号カウンタの計数値は増加させないでそのまま維持し、上記第1判定過程で取り出す音声パケットがあると判定され、取り出された音声パケットのフレーム番号が上記フレーム番号カウンタが示すフレーム番号以下か否かをフレーム番号判定過程で判定し、その判定結果が以下であれば、上記受信した音声パケットを破棄し、上記判定結果が以下でなければ、上記取り出した音声パケットを復号して、音声信号を出力する。
If necessary, observe a series of received voice packets, estimate whether the received voice packets use silence compression in the DTX detection process, and if not use silence compression, If it is estimated, N ≧ 1, and if it is estimated that silence compression is used, N = 0.
If necessary, every time an audio packet is extracted from the reception buffer and decoded, the corresponding frame number is stored in the frame number counter, and each time the packet loss compensation process is performed for one frame, the frame number counter Every time the count value is incremented by 1 and the silence generation process is performed, the count value of the frame number counter is maintained as it is without being increased, and it is determined that there is an audio packet to be extracted in the first determination process. In the frame number determination process, it is determined whether or not the frame number of the packet is equal to or less than the frame number indicated by the frame number counter. If the determination result is the following, the received voice packet is discarded, and the determination result is If not, the extracted voice packet is decoded and a voice signal is output.

[実施例1]
図1にこの発明を実施するための最良な形態の音声パケット受信再生装置の機能構成例を示す。この図には図9と対応する部分に同じ符号を付け、重複説明を省略する。パケット受信部80は、IP通信網から音声パケットを受け取り、受信バッファ81へ送る。
受信バッファ81に音声パケットが蓄積されている時は、音声パケット復号部82は受信バッファ81内の音声パケットの中から、フレーム番号の最も小さいものを1つ(1フレーム分)取り出し、音声パケットに含まれる音声符号を復号すると同時に、取り出されたパケットのフレーム番号をフレーム番号カウンタ85にカウント値として設定する。復号された音声信号は出力端子88に送られ、出力される。
[Example 1]
FIG. 1 shows a functional configuration example of a voice packet reception / playback apparatus according to the best mode for carrying out the present invention. In this figure, parts corresponding to those in FIG. The packet receiving unit 80 receives a voice packet from the IP communication network and sends it to the reception buffer 81.
When the voice packet is stored in the reception buffer 81, the voice packet decoding unit 82 extracts one (one frame) having the smallest frame number from the voice packets in the reception buffer 81 and converts it into the voice packet. At the same time as decoding the included speech code, the frame number of the extracted packet is set in the frame number counter 85 as a count value. The decoded audio signal is sent to the output terminal 88 and output.

受信バッファ81が空で、音声パケット復号部82が受信バッファ81から音声パケットを取り出そうとした際に、取り出す音声パケットが蓄積されていない場合は、制御部84により、損失補償処理部83を作動させ、補償音声信号が出力端子88に送られ、出力される。パケット損失補償処理を1フレーム分行うごとに、フレーム番号カウンタ85のカウント値を「1」増加(「1」インクリメント)させる。パケット損失補償処理が終わると、再度受信バッファ81から音声パケットを取出せるか否かを調べる。取り出す音声パケットがなく損失補償処理部83を作動させることがN回連続的に行われ、その後も、受信バッファ81から取り出せる音声パケットがない場合は、無音生成部87を作動させ、無音信号を生成し、出力端子88に送られ、出力される。ただしNは0以上の整数とする。これにより、1つ目の課題を解決できる。また、出力端子88へ供給される信号はエコーキャンセラへも供給される。従って、エコーキャンセラには受信信号側からも常時、信号が入力されるため、エコーキャンセラを正しく動作させることができ、これにより、2つ目の課題を解決できる。   When the reception buffer 81 is empty and the voice packet decoding unit 82 tries to extract the voice packet from the reception buffer 81 and the extracted voice packet is not accumulated, the control unit 84 causes the loss compensation processing unit 83 to operate. The compensation audio signal is sent to the output terminal 88 and output. Every time packet loss compensation processing is performed for one frame, the count value of the frame number counter 85 is incremented by “1” (incremented by “1”). When the packet loss compensation processing is completed, it is checked again whether or not the voice packet can be taken out from the reception buffer 81. When there is no voice packet to be extracted and the loss compensation processing unit 83 is operated N times continuously, and thereafter there is no voice packet that can be extracted from the reception buffer 81, the silence generating unit 87 is operated to generate a silence signal. Then, it is sent to the output terminal 88 and outputted. N is an integer of 0 or more. Thereby, the first problem can be solved. The signal supplied to the output terminal 88 is also supplied to the echo canceller. Therefore, since the signal is always input to the echo canceller also from the reception signal side, the echo canceller can be operated correctly, thereby solving the second problem.

なお、フレーム長が20ミリ秒の場合は、Nの値は2フレーム〜5フレームがよく、フレーム長が10ミリ秒の場合は、Nの値は4フレーム〜10フレームがよく、つまり、Nは40〜100ミリ秒に相当するフレーム数とするとよく、好ましくは、40〜60ミリ秒に相当するフレーム数とするとよいことが実験的に確認されている。なお、Nが小さすぎると直ぐ無音信号となり、音声として、好ましくなく、逆に、Nが大きすぎても、音声品質が劣化する。
[実施例2]
送信側でDTXを利用する場合に対するこの発明装置の実施例を説明する。
この場合は、図1中に一点鎖線枠で示されているDTX検出部86が設けられる。DTX検出部86は、パケット受信部80におけるパケット受信状態を監視して、送信側がDTXを利用して音声パケットを送っているか否かの推定を継続的に行う。DTXが利用されているかどうかは、例えば、パケットのヘッダ情報を参照することにより、推定可能である。
When the frame length is 20 milliseconds, the value of N is preferably 2 to 5 frames, and when the frame length is 10 milliseconds, the value of N is preferably 4 to 10 frames. It has been experimentally confirmed that the number of frames corresponds to 40 to 100 milliseconds, and preferably the number of frames corresponding to 40 to 60 milliseconds. Note that if N is too small, it becomes a silent signal immediately, which is not preferable as voice, and conversely, if N is too large, voice quality deteriorates.
[Example 2]
An embodiment of the inventive device for the case of using DTX on the transmission side will be described.
In this case, a DTX detector 86 indicated by a one-dot chain line in FIG. 1 is provided. The DTX detection unit 86 monitors the packet reception state in the packet reception unit 80, and continuously estimates whether or not the transmission side transmits a voice packet using DTX. Whether or not DTX is used can be estimated, for example, by referring to the header information of the packet.

DTXを利用して送信側が音声パケットを送信している場合、受信側の受信バッファ81内が空になり、音声パケット復号部82が音声パケットを取り出せない場合、それが想定したゆらぎよりも大きなゆらぎによる場合なのか、DTXを利用している場合なのかの判断がその時点ではできない。もしDTXの利用により、発生した受信バッファ81内が空になる現象をパケットロスと見なして(間違った判断をして)、損失補償処理を行うと、再生音が劣化する。
そこで、受信バッファ81内が空になった場合、送信側がDTXを利用していなかったら、前述したように、パケット損失補償処理、更に必要に応じて無音信号生成を行い、受信パケットがDTXを利用していた場合は直ちに無音信号の生成を行う。
制御部の具体例
次に、図1中の制御部84の具体的機能の構成例を図2に示す。音声パケット復号部82が受信バッファ81から取り出せる音声パケットがあるか否かの信号が受信バッファ81内の音声パケット蓄積状態からパケット取出し可否信号生成部20で生成される。パケット取出し可否信号生成部20は、取り出せる音声パケットがあれば図2では、「1」を出力し、取り出せる音声パケットがなければ、「0」を出力する。パケット取り出し可否信号は音声パケット復号指示部22、損失補償指示部24、無音生成指示部26へそれぞれ送られる。パケット取り出し可否信号が「1」であれば、音声パケット復号指示部22は、音声パケット復号部82に復号処理を指示する。
When the transmission side is transmitting voice packets using DTX, the reception buffer 81 on the reception side is emptied, and when the voice packet decoding unit 82 cannot extract the voice packets, the fluctuation is larger than the expected fluctuation. It is not possible to determine at this time whether it is a case of using DTX or a case of using DTX. If the phenomenon that the reception buffer 81 is emptied due to the use of DTX is regarded as packet loss (incorrect determination) and loss compensation processing is performed, reproduced sound deteriorates.
Therefore, when the reception buffer 81 becomes empty, if the transmission side does not use DTX, as described above, the packet loss compensation processing and, if necessary, silence signal generation are performed, and the reception packet uses DTX. If so, a silence signal is immediately generated.
Specific Example of Control Unit Next, a configuration example of specific functions of the control unit 84 in FIG. 1 is shown in FIG. A signal indicating whether or not there is a voice packet that the voice packet decoding unit 82 can extract from the reception buffer 81 is generated by the packet extraction enable / disable signal generation unit 20 from the voice packet accumulation state in the reception buffer 81. The packet extraction enable / disable signal generation unit 20 outputs “1” in FIG. 2 if there is an audio packet that can be extracted, and outputs “0” if there is no audio packet that can be extracted. The packet extraction enable / disable signal is sent to the voice packet decoding instruction unit 22, the loss compensation instruction unit 24, and the silence generation instruction unit 26, respectively. If the packet extraction enable / disable signal is “1”, the voice packet decoding instruction unit 22 instructs the voice packet decoding unit 82 to perform decoding processing.

DTX検出部86からの検出信号はDTXフラグレジスタ28に送られる。この例では、DTXフラグレジスタ28内のDTXフラグを、DTXを利用している場合は「1」に、DTXを利用していない場合はDTXフラグを「0」に設定する。DTXフラグ信号は、損失補償指示部24及び無音生成指示部26に送られる。
パケット損失補償処理は連続してNフレーム(Nは0以上の整数)までしか行わせないため、補償継続可否信号生成部34が設けられる。これよりの補償継続可否信号は損失補償指示部24および、無音生成指示部26へ送られる。
A detection signal from the DTX detection unit 86 is sent to the DTX flag register 28. In this example, the DTX flag in the DTX flag register 28 is set to “1” when DTX is used, and the DTX flag is set to “0” when DTX is not used. The DTX flag signal is sent to the loss compensation instruction unit 24 and the silence generation instruction unit 26.
Since the packet loss compensation processing can be performed continuously up to N frames (N is an integer of 0 or more), a compensation continuation enable / disable signal generation unit 34 is provided. The further compensation continuation enable / disable signal is sent to the loss compensation instruction unit 24 and the silence generation instruction unit 26.

補償継続可否信号生成部34は例えば、図3に示すように、ゼロにリセットされているnカウンタ34eが、パケット損失補償処理を1フレーム分行うように指示する毎に、1増加され、nカウンタ34eの計数値nはレジスタ34cの値Nと比較部34dで比較され、その比較結果に応じて、計数値nがN未満であれば、補償継続可否信号を「1」とし、N以上であれば、補償継続可否信号を「0」として出力する。nカウンタは音声パケット復号指示部22よりの復号指示信号により0にリセットされる。
あるいは、損失補償処理部83がパケット損失補償処理の開始時のフレーム番号カウンタ85のカウント値Fを記憶し、パケット損失補償処理を1フレーム分行うごとに、フレーム番号カウンタ85のカウント値FからFを減算して、その減算結果がN未満か否かの判定をしてもよい。
For example, as shown in FIG. 3, the compensation continuation enable / disable signal generator 34 is incremented by 1 every time the n counter 34e reset to zero instructs to perform the packet loss compensation process for one frame. The count value n of 34e is compared with the value N of the register 34c by the comparison unit 34d. If the count value n is less than N according to the comparison result, the compensation continuation enable / disable signal is set to “1”, and it is greater than or equal to N. In this case, the compensation continuation enable / disable signal is output as “0”. The n counter is reset to 0 by a decoding instruction signal from the voice packet decoding instruction unit 22.
Alternatively, the loss compensation processing unit 83 stores the count value F 1 of the frame number counter 85 at the start of the packet loss compensation process, and every time the packet loss compensation process is performed for one frame, the count value F c of the frame number counter 85 F 1 may be subtracted from and a determination may be made as to whether or not the subtraction result is less than N.

これらの構成は、いずれも連続的に行うパケット損失補償処理のフレームの数を計数しているから、損失補償処理カウンタともいう。
受信バッファ81から音声パケット復号部82が音声パケットを取り出せず、かつDTXフラグの値が「0」であり、かつ損失補償処理の連続回数がN回未満であれば、つまり補償継続可否信号が「1」であれば、損失補償指示部24は、損失補償指示を出し、損失補償処理部83を作動させ、つまり、損失補償指示部24は例えば、図中で示すように、AND回路38で構成され、AND回路38の出力が「1」となると、損失補償指示が発生する。
These configurations are also referred to as loss compensation processing counters because they count the number of frames of packet loss compensation processing that are continuously performed.
If the voice packet decoding unit 82 does not extract a voice packet from the reception buffer 81, the value of the DTX flag is “0”, and the number of consecutive loss compensation processes is less than N, that is, the compensation continuation permission signal is “ 1 ”, the loss compensation instruction unit 24 issues a loss compensation instruction and operates the loss compensation processing unit 83. That is, the loss compensation instruction unit 24 is configured by an AND circuit 38, for example, as shown in FIG. When the output of the AND circuit 38 becomes “1”, a loss compensation instruction is generated.

また、受信バッファ81から音声パケット復号部82が音声パケットを取り出せず、かつDTXフラグの値が0であり、かつ損失補償処理の連続回数がN回以上であれば、つまり補償継続可否信号が「0」であれば、(条件1とする)、無音生成指示部26が無音生成指示を無音生成部87に出し、無音生成部87を作動させる。また、受信バッファ81から音声パケット復号部82が音声パケットを取り出せず、かつDTXフラグの値が1であれば、つまり送信側が無音区間は音声パケットを送信しなければ(条件2とする)、無音生成指示部26が無音生成指示を無音生成部87に出し、無音生成部87を作動させる。つまり、無音生成指示部26は、例えば、図中に示すように、条件1はAND回路40で検出され、条件2はAND回路42で検出され、AND回路40、42のいずれかの出力が「1」であれば、OR回路46を通じて、無音生成指示部26が無音生成指示を出力することになる。   Further, if the voice packet decoding unit 82 does not extract a voice packet from the reception buffer 81, the value of the DTX flag is 0, and the number of consecutive loss compensation processes is N or more, that is, the compensation continuation enable / disable signal is “ If it is “0” (condition 1), the silence generation instruction unit 26 issues a silence generation instruction to the silence generation unit 87 and activates the silence generation unit 87. Further, if the voice packet decoding unit 82 cannot extract the voice packet from the reception buffer 81 and the value of the DTX flag is 1, that is, if the transmission side does not transmit the voice packet in the silent period (condition 2), there is no sound. The generation instruction unit 26 issues a silence generation instruction to the silence generation unit 87 and activates the silence generation unit 87. That is, for example, as shown in the drawing, the silence generation instruction unit 26 detects the condition 1 with the AND circuit 40, the condition 2 with the AND circuit 42, and the output of either of the AND circuits 40 and 42 is “ If “1”, the silence generation instruction unit 26 outputs a silence generation instruction through the OR circuit 46.

制御部84は、音声パケット復号指示部22から復号指示が出力されると、図1中のスイッチ89を切り替えて、音声パケット復号部82の出力側を出力端子88に接続し、損失補償指示部24から、損失補償指示が出力されると、スイッチ89を切り替え、損失補償処理部83の出力側を出力端子88に接続し、無音生成指示部46から無音生成指示が出力されると、スイッチ89を切り替えて、無音生成部87の出力側を出力端子88に接続する。
先にも述べたように、受信バッファ81から音声パケット復号部82が取り出した音声パケットのフレーム番号をフレーム番号カウンタ85にカウント値として設定し、かつパケット損失補償処理を1フレーム分行うごとにフレーム番号カウンタ85のカウント値を「1」増加させるが、無音信号を生成した場合は、フレーム番号カウンタ85のカウント値の増加は行わせず、そのカウント値はそのままとする。
When the decoding instruction is output from the voice packet decoding instruction unit 22, the control unit 84 switches the switch 89 in FIG. 1 to connect the output side of the voice packet decoding unit 82 to the output terminal 88, and the loss compensation instruction unit 24, when the loss compensation instruction is output, the switch 89 is switched, the output side of the loss compensation processing unit 83 is connected to the output terminal 88, and when the silence generation instruction unit 46 outputs the silence generation instruction, the switch 89 And the output side of the silence generator 87 is connected to the output terminal 88.
As described above, the frame number of the voice packet taken out by the voice packet decoding unit 82 from the reception buffer 81 is set as the count value in the frame number counter 85, and every time the packet loss compensation process is performed for one frame, The count value of the number counter 85 is increased by “1”, but when a silence signal is generated, the count value of the frame number counter 85 is not increased and the count value is left as it is.

パケット受信部80は音声パケットを受信したときに、例えば図4に示すように一旦受信パケットレジスタ80aに格納し、パケット受信部80内において、その受信音声パケットのフレーム番号と、フレーム番号カウンタ85のカウント値とを整合判定部80bが比較し、受信音声パケットのフレーム番号がフレーム番号カウンタのカウント値以下であれば、当該パケットを受信バッファ52で蓄積せずに、整合判定部80bがパケット破棄部80cを作動させ、受信音声パケットを破棄する。受信音声パケットのフレーム番号がフレーム番号カウンタのカウント値より大きければ、整合判定部80bは、ゲート80dを開き、ゲート80d通じて、当該受信音声パケットを受信バッファ81に蓄積する。   When receiving a voice packet, the packet receiver 80 temporarily stores it in the received packet register 80a as shown in FIG. 4, for example, and within the packet receiver 80, the frame number of the received voice packet and the frame number counter 85 The match determination unit 80b compares the count value, and if the frame number of the received voice packet is equal to or less than the count value of the frame number counter, the match determination unit 80b does not store the packet in the reception buffer 52 and the packet determination unit 80b 80c is activated and the received voice packet is discarded. If the frame number of the received voice packet is larger than the count value of the frame number counter, the matching determination unit 80b opens the gate 80d and stores the received voice packet in the reception buffer 81 through the gate 80d.

このような受信パケットと既に受信したパケットとフレーム番号の整合性の処理は、受信音声パケットではなく、受信バッファ81から取り出した音声パケットについて行ってもよい。この場合は、図4中に示すように、括弧内に示すように受信バッファ81内にこのための機能構成が設けられる。受信バッファ81から取り出した音声パケットは取り出しパケットレジスタ81aに格納され、その音声パケットの整合判定部81bに入力し、フレーム番号カウンタ85のカウント値との整合性が判定される。この場合は、取り出した音声パケットをパケット破棄部81cでするか、ゲート81dを通じて、音声パケット復号部82へ送り、復号処理するかのいずれかになる。   Such a process of consistency between the received packet and the already received packet and the frame number may be performed not on the received voice packet but on the voice packet extracted from the reception buffer 81. In this case, as shown in FIG. 4, a functional configuration for this purpose is provided in the reception buffer 81 as shown in parentheses. The voice packet taken out from the reception buffer 81 is stored in the taken-out packet register 81a, and is input to the voice packet matching determination unit 81b, where consistency with the count value of the frame number counter 85 is determined. In this case, either the packet discarding unit 81c or the sent voice packet is sent to the voice packet decoding unit 82 through the gate 81d to be decoded.

またこの構成例はDTX検出部86を設けた場合であるので、DTX検出部86を設けない場合は、DTXフラグレジスタ28及び無音生成指示部26内のAND回路42およびOR回路46は省略される。
[実施例3]
図5、図6を参照して、DTX検出部86を設けた場合のこの発明方法の実施例を説明する。音声パケットの受信バッファ81への蓄積と、受信バッファ81からの取り出しは非同期に作動する。図5は受信バッファへの蓄積作動の流れを示す。まずDTXフラグレジスタ28を0にリセットし(S201)、パケット受信部80が音声パケットを受信すると(S203)、DTX検出部86がパケットヘッダを観測する(S205)。その結果、受信音声パケットがDTXを利用しているか否かを判別し(S207)、DTXを利用していれば、DTXフラグレジスタ28を1にセットし(S209)、DTXを利用していなければ、DTXフラグレジスタ28をそのままにする。整合判定部80bが、フレーム番号カウンタ85のカウント値を参照して(S211)、受信音声パケットのフレーム番号と比較し(S213)、既に、再生されたフレームでなければ、つまり受信音声パケットのフレーム番号の方が大きければ、受信バッファ81へ当該パケットを蓄積し(S215)、既に再生されたフレーム、つまり受信音声パケットのフレーム番号がフレーム番号カウンタ85のカウント値以下であれば、パケット破棄部80cにより、その受信音声パケットを破棄する(S217)。その後、通話終了したか否かを調べ、終了していなければ、ステップS203のパケットを受信するステップに戻り、通話終了であれば、受信バッファへの蓄積処理を終了する(S219)。
Since this configuration example is provided with the DTX detection unit 86, the DTX flag register 28 and the AND circuit 42 and the OR circuit 46 in the silence generation instruction unit 26 are omitted when the DTX detection unit 86 is not provided. .
[Example 3]
With reference to FIG. 5 and FIG. 6, an embodiment of the method of the present invention in the case where the DTX detector 86 is provided will be described. Accumulation of voice packets in the reception buffer 81 and extraction from the reception buffer 81 operate asynchronously. FIG. 5 shows a flow of accumulation operation in the reception buffer. First, the DTX flag register 28 is reset to 0 (S201), and when the packet receiver 80 receives a voice packet (S203), the DTX detector 86 observes the packet header (S205). As a result, it is determined whether or not the received voice packet uses DTX (S207). If DTX is used, the DTX flag register 28 is set to 1 (S209), and if DTX is not used. The DTX flag register 28 is left as it is. The matching determination unit 80b refers to the count value of the frame number counter 85 (S211) and compares it with the frame number of the received voice packet (S213). If the frame is not already reproduced, that is, the frame of the received voice packet. If the number is larger, the packet is stored in the reception buffer 81 (S215). If the frame that has already been reproduced, that is, the frame number of the received voice packet is less than or equal to the count value of the frame number counter 85, the packet discarding unit 80c. Accordingly, the received voice packet is discarded (S217). Thereafter, it is checked whether or not the call is finished. If not finished, the process returns to the step of receiving the packet in step S203. If the call is finished, the storing process in the reception buffer is finished (S219).

次に受信バッファ81から音声パケットの取り出しとその後の処理の流れを図6参照して説明する。補償継続可否信号生成部34内の損失補償処理カウンタを0にリセットし(S301)、音声パケット復号部82が、受信バッファ81から音声パケットを取り出す操作を行う(S303)。取り出せる音声パケットが受信バッファ81にあるか否かを判別し(S305)、取り出せる音声パケットがあれば、フレーム番号最小の音声パケットを取り出す(S307)。その取り出した音声パケットを音声パケット復号部82で復号し(S309)、フレーム番号カウンタ85に復号した音声パケットのフレーム番号をカウント値として設定する(S311)。この復号した音声信号を出力端子88に出力し、音声信号送信部も備えている場合は、復号音声信号をエコーキャンセラへも送る(S313)。次に、通話が終了か否かを判定し(S315)、通話が終了でなければ、ステップS303の受信バッファ81から音声パケットを取り出すステップに戻る。   Next, the extraction of voice packets from the reception buffer 81 and the subsequent processing flow will be described with reference to FIG. The loss compensation processing counter in the compensation continuation permission / prohibition signal generation unit 34 is reset to 0 (S301), and the voice packet decoding unit 82 performs an operation of taking out a voice packet from the reception buffer 81 (S303). It is determined whether there is a voice packet that can be taken out in the reception buffer 81 (S305). If there is a voice packet that can be taken out, the voice packet with the smallest frame number is taken out (S307). The extracted voice packet is decoded by the voice packet decoding unit 82 (S309), and the frame number of the decoded voice packet is set as a count value in the frame number counter 85 (S311). When the decoded audio signal is output to the output terminal 88 and the audio signal transmission unit is also provided, the decoded audio signal is also sent to the echo canceller (S313). Next, it is determined whether or not the call is ended (S315). If the call is not ended, the process returns to the step of taking out the voice packet from the reception buffer 81 in step S303.

一方、ステップS305で、受信バッファ81から取り出す音声パケットがない場合は、DTXフラグの値を判別し(S317)、もしDTXフラグの値が「0」の場合、すなわち、DTXが利用されていなければ、パケット損失補償処理の連続回数がN回未満であるかどうかを判別する(S319)。もし、パケット損失補償処理の連続回数がN回未満であると、損失補償処理部83を作動させ、1フレーム分の損失補償信号を生成し(S321)、かつフレーム番号カウンタ85のカウント値を「1」増加させ(S323)、生成した補償信号を出力端子88に出力する(S313)。またステップS317で、DTXフラグの値が1の場合、すなわち、DTXが利用されている場合は、無音生成部87を作動させ(S325)、出力端子88に無音信号を出力する(S313)。またステップS319で、パケット損失補償処理の連続回数がN回以上と判断されると、無音生成部87を作動させて(S325)、出力端子88に無音信号を出力する(S313)。ステップS315で通話終了と判定されると、以上述べた音声パケットの取り出し、これに伴う処理を終了する。
[実施例4]
次に、図5、7を参照して、受信音声パケットのフレーム番号の整合性を、受信バッファから取り出す際に行う実施例を説明する。この場合、音声パケットの受信バッファ81への蓄積処理は図5中に破線で示すように、ステップS211、S213、S217が省略され、ステップS209からステップS215に直ちに移る。
On the other hand, if there is no voice packet to be extracted from the reception buffer 81 in step S305, the value of the DTX flag is determined (S317). If the value of the DTX flag is “0”, that is, if DTX is not used. Then, it is determined whether the number of consecutive packet loss compensation processes is less than N (S319). If the number of consecutive packet loss compensation processes is less than N, the loss compensation processing unit 83 is activated to generate a loss compensation signal for one frame (S321), and the count value of the frame number counter 85 is set to “ 1 "is increased (S323), and the generated compensation signal is output to the output terminal 88 (S313). In step S317, if the value of the DTX flag is 1, that is, if DTX is used, the silence generator 87 is activated (S325), and a silence signal is output to the output terminal 88 (S313). If it is determined in step S319 that the number of consecutive packet loss compensation processes is N or more, the silence generator 87 is activated (S325), and a silence signal is output to the output terminal 88 (S313). If it is determined in step S315 that the call has ended, the voice packet described above is extracted, and the process associated therewith is terminated.
[Example 4]
Next, with reference to FIGS. 5 and 7, an embodiment will be described which is performed when the consistency of the frame number of the received voice packet is taken out from the reception buffer. In this case, the process of accumulating voice packets in the reception buffer 81 omits steps S211, S213, and S217 as shown by the broken line in FIG. 5 and immediately moves from step S209 to step S215.

一方、受信バッファ81から音声パケットの取り出し処理は、図7に図6と対応するステップには、同一番号を示し、異なる部分では、音声パケット復号部82が最小のフレーム番号の音声パケットを取り出した後は、フレーム番号カウンタ85のカウント値を参照し(S601)、このカウント値と取り出した音声パケットのフレーム番号を比較し、後者の方が大きければ、再生済みでないと判断して(S603)、ステップS309に移り、取り出した音声パケットの復号処理を行う。ステップS603で取り出した音声パケットのフレーム番号がフレーム番号カウンタのカウント値以下であれば、再生済みと判断して、その取り出した音声パケットを破棄し(S605)、ステップS315に移る。   On the other hand, in the process of extracting the voice packet from the reception buffer 81, the step corresponding to FIG. 6 in FIG. 7 indicates the same number, and in a different part, the voice packet decoding unit 82 extracts the voice packet having the smallest frame number. After that, the count value of the frame number counter 85 is referred to (S601), the count value is compared with the frame number of the extracted voice packet, and if the latter is larger, it is determined that it has not been reproduced (S603). In step S309, the extracted voice packet is decoded. If the frame number of the voice packet extracted in step S603 is less than or equal to the count value of the frame number counter, it is determined that the voice packet has been reproduced, and the extracted voice packet is discarded (S605), and the process proceeds to step S315.

上述において、無音信号は完全な無音信号ではなく、受話者に影響を与えない小さな振幅の信号でもよい。
図1及び図2に示した装置をコンピュータにより機能させてもよい。この場合は、これら図1及び図2に示した装置として、コンピュータを機能させるためのプログラムを、CD−ROM、磁気ディスク、など記録媒体に実装して、あるいは、通信回線を介して、コンピュータにダウンロードして、実現することも可能である。
この発明の構成により、ネットワークから音声パケットが到着せず、受信バッファが空の場合、損失補償処理を行い、再生音の劣化を防ぐ。しかし、損失補償処理を何秒も行うと、再生音の劣化などを招きやすくなるので、あらかじめ設定しておいたNフレーム分、損失補償処理を行うと、無音信号を生成出力し、エコーキャンセラにその無音信号も入力されるため、エコーキャンセラを正しく作動させることができる。更に、DTX検出部を設け、受信バッファが空になった現象が、DTX機能を利用しているものなのか、想定以上のゆらぎによるものなのかを検出し、それに適した処理を行うことにより、音質を劣化させない効果を得ることができる。
In the above description, the silence signal is not a complete silence signal, and may be a small amplitude signal that does not affect the receiver.
The apparatus shown in FIGS. 1 and 2 may be operated by a computer. In this case, a program for causing the computer to function as the apparatus shown in FIGS. 1 and 2 is mounted on a recording medium such as a CD-ROM, a magnetic disk, or the computer via a communication line. It can also be downloaded and realized.
With the configuration of the present invention, when a voice packet does not arrive from the network and the reception buffer is empty, loss compensation processing is performed to prevent deterioration of reproduced sound. However, if the loss compensation process is performed for many seconds, it will be easy to cause deterioration of the reproduced sound. Therefore, if the loss compensation process is performed for N frames set in advance, a silence signal is generated and output to the echo canceller. Since the silent signal is also input, the echo canceller can be operated correctly. Furthermore, by providing a DTX detector, detecting whether the phenomenon that the reception buffer is emptied is due to the use of the DTX function or due to fluctuations more than expected, and performing processing suitable for it, An effect that does not deteriorate the sound quality can be obtained.

この発明の実施例1の機能構成例を示すブロック図。The block diagram which shows the function structural example of Example 1 of this invention. 図1中の制御部84の具体的機能構成例を示す図。The figure which shows the specific functional structural example of the control part 84 in FIG. 図2中の補償継続可否信号生成部34の具体的構成例の各特性を表すブロック図。The block diagram showing each characteristic of the specific structural example of the compensation continuation permission signal generation part 34 in FIG. 受信パケット又は取出しパケットのフレーム番号とフレーム番号カウンタ85の整合性を判定する機能構成を示すブロック図。The block diagram which shows the function structure which determines the consistency of the frame number of a received packet or an extraction packet, and the frame number counter 85. FIG. この発明の実施例3及び実施例4の受信バッファ81への蓄積処理の例を示すフローチャート図。The flowchart figure which shows the example of the accumulation | storage process to the reception buffer 81 of Example 3 and Example 4 of this invention. この発明の実施例3の受信バッファ81からの取り出し処理の例を示すフローチャート図。The flowchart figure which shows the example of the extraction process from the reception buffer 81 of Example 3 of this invention. この発明の実施例4の受信バッファ81からの取り出し処理の例を示すフローチャート図。The flowchart figure which shows the example of the extraction process from the reception buffer 81 of Example 4 of this invention. 従来技術の音声信号を音声パケットに変換してパケット通信網によって通信するシステム構成例を示すブロック図。1 is a block diagram showing an example of a system configuration for converting a voice signal of a prior art into a voice packet and communicating via a packet communication network. 従来技術の音声信号受信部の構成例を示すブロック図。The block diagram which shows the structural example of the audio | voice signal receiving part of a prior art. 従来技術の図8のエコーキャンセラを備えた送受信装置の構成例を示すブロック図。The block diagram which shows the structural example of the transmitter / receiver provided with the echo canceller of FIG. 8 of a prior art.

Claims (6)

受信した音声パケットを受信バッファへ蓄積し、その受信バッファよりフレーム番号順に、音声パケットを順次取り出し、その取り出した音声パケットを復号して、音声信号を出力する音声パケット受信再生方法において、
フレームごとに、上記受信バッファから取り出す音声パケットがあるか否かを判定する第1判定過程と、
上記第1判定過程において、音声パケットがないと判断された場合に、パケット損失補償処理を行うか、無音生成処理を行うか判定する第2判定過程と、
上記第1判定過程において、音声パケットがないと判定された場合に、上記第2判定過程の判定に基づいて、パケット損失補償処理または無音生成処理のいずれかを行って信号を生成し、出力する過程と、
上記受信バッファより音声パケットを取り出して復号するごとに、対応するフレーム番号をフレーム番号カウンタに記憶させる過程と、
上記パケット損失補償処理を1フレーム分行うごとに、上記フレーム番号カウンタの計数値を1増加させる過程と、
上記無音生成処理を行うごとに、上記フレーム番号カウンタの計数値は増加させないでそのまま維持する過程と、
上記第1判定過程で取り出す音声パケットがあると判定され、取り出された音声パケットのフレーム番号が上記フレーム番号カウンタが示すフレーム番号以下か否かを判定するフレーム番号判定過程と、
上記フレーム番号判定過程の判定結果が以下であれば、上記受信した音声パケットを破棄し、上記判定結果が以下でなければ、上記取り出した音声パケットを復号して、音声信号を出力する過程とを有し、
前記第2判定過程は、上記第1判定過程において、音声パケットがないと判定される状態がNフレーム(Nは0以上の整数)連続するまでは、パケット損失補償処理を行う判定を行い、音声パケットがないと判定される状態がNフレームを超えて連続した場合は、無音生成処理を行う判定を行う
ことを特徴とする音声パケット受信再生方法。
In the audio packet receiving and reproducing method for accumulating received audio packets in a reception buffer, sequentially extracting audio packets from the reception buffer in order of frame number, decoding the extracted audio packets, and outputting an audio signal.
A first determination step for determining whether there is an audio packet to be extracted from the reception buffer for each frame;
A second determination process for determining whether to perform a packet loss compensation process or a silence generation process when it is determined in the first determination process that there is no voice packet;
When it is determined in the first determination process that there is no voice packet, a signal is generated by performing either the packet loss compensation process or the silence generation process based on the determination in the second determination process, and is output. Process ,
Each time a voice packet is extracted from the reception buffer and decoded, a corresponding frame number is stored in a frame number counter;
Each time the packet loss compensation process is performed for one frame, the count value of the frame number counter is incremented by 1,
Each time the silence generation process is performed, the process of maintaining the count value of the frame number counter without increasing it,
It is determined that there is a voice packet to be extracted in the first determination process, and a frame number determination process for determining whether or not the frame number of the extracted voice packet is equal to or less than the frame number indicated by the frame number counter;
If the determination result of the frame number determination process is the following, the received voice packet is discarded, and if the determination result is not the following, the extracted voice packet is decoded and an audio signal is output. Have
The second determination process, in the upper Symbol first determination process until a state where it is determined that there is no voice packet (the N 0 or an integer) N frames consecutive, it is determined to perform packet loss compensation processing , when the condition of judging not voice packets are continuously beyond the N frames, the voice packet receiving and reproducing method characterized in that a determination to perform a no-sound generation processing.
請求項1記載の方法において、
受信される一連の音声パケットを観測して、受信した音声パケットが無音圧縮を利用したものであるか否かを推定するDTX検出過程を有し、
上記DTX検出過程において、無音圧縮を利用したものでないと、推定される場合には、N≧1とし、
上記DTX検出過程において、無音圧縮を利用したものであると、推定される場合には、N=0とする
ことを特徴とする音声パケット受信再生方法。
The method of claim 1, wherein
Having a DTX detection process of observing a series of received voice packets and estimating whether the received voice packets utilize silence compression;
In the above DTX detection process, if it is estimated that silence compression is not used, N ≧ 1,
In the DTX detection process, if it is estimated that silence compression is used, N = 0 is set.
請求項2記載の方法において、
上記DTX検出過程において、無音圧縮を利用したものではないと推定される場合には、上記Nを40〜100ミリ秒に相当するフレーム数とする
ことを特徴とする音声パケット受信再生方法。
In claim 2 Symbol placement methods,
In the DTX detection process, when it is estimated that silence compression is not used, the N is set to the number of frames corresponding to 40 to 100 milliseconds.
請求項1〜3の何れかに記載した音声パケット受信再生方法の各過程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。 A computer-readable recording medium storing a program for causing a computer to execute each step of the voice packet receiving and reproducing method according to any one of claims 1 to 3 . 受信した音声パケットを受信バッファへ蓄積し、その受信バッファより、フレーム番号順に、音声パケットを順次取り出し、その取り出した音声パケットを復号して、音声信号を出力端子へ出力すると共に、そのフレーム番号をフレーム番号カウンタに記憶する音声パケット受信再生装置において、
フレームごとに上記受信バッファから取り出す音声パケットがあるか否かを示すパケット取出し可否信号を生成するパケット取出し可否信号生成部と、
上記パケット取出し可否信号生成部よりパケット取出し可否信号が入力され、パケット取出し可否信号が取出し不可を示すことが、Nフレーム(Nは0以上の整数)連続したか否かを示す補償継続可否信号を生成する補償継続可否信号生成部と、
フレームごとに、上記パケット取出し可否信号と上記補償継続可否信号とが入力され、上記パケット取出し可否信号が取出し不可であり、上記補償継続可否信号が補償継続可であれば、パケット損失補償処理を1フレーム分実行して、音声信号を生成し、その音声信号を上記出力端子に出力すると共に上記フレーム番号カウンタの計数値を1増加させる損失補償部と、
フレームごとに、上記パケット取出し可否信号と上記補償継続可否信号とが入力され、上記パケット取出し可否信号が取出し不可であり、上記補償継続可否信号が補償継続不可であれば、無音信号を生成して、上記出力端子に出力するが、上記フレーム番号カウンタの計数値の増加は行わない無音生成部と
受信した音声パケットのフレーム番号と、フレーム番号カウンタが示すフレーム番号とを比較し、当該音声パケットのフレーム番号が上記フレーム番号カウンタが示すフレーム番号以下か否かを判定する整合判定部と、
上記整合判定部の判定結果が以下であれば、受信した音声パケットを破棄するパケット破棄部と、
上記判定結果が以下でなければ、受信した音声パケットを、受信バッファに蓄積するゲートと、
上記パケット取出し可否信号生成部よりパケット取出し可否信号が入力され、パケット取出し可否信号が取出し可を示す場合に、受信バッファに蓄積された音声パケットを取り出して、復号し、音声信号を上記出力端子に出力する音声パケット復号部と、
を具備することを特徴とする音声パケット受信再生装置。
Accumulating received voice packets to the receive buffer, from the reception buffer, the frame number order, sequentially extracts a voice packet, the extracted voice packets decrypt, and outputs the audio signal to the output terminal, the frame number Is stored in the frame number counter,
A packet extraction enable / disable signal generator for generating a packet extraction enable / disable signal indicating whether or not there is a voice packet to be extracted from the reception buffer for each frame;
The packet extraction permission signal generation unit by lipase packet extraction availability signal is input, the packet extraction permission signal to exhibit not taken out, N frames (N is an integer of 0 or more) compensated continuation permission indicating whether continuous A compensation continuation enable / disable signal generator for generating a signal;
For each frame, the packet extraction enable / disable signal and the compensation continuation enable / disable signal are input. If the packet extraction enable / disable signal cannot be extracted, and the compensation continuation enable / disable signal can continue to be compensated, a packet loss compensation process is performed. A loss compensator that executes the frame, generates an audio signal, outputs the audio signal to the output terminal, and increases the count value of the frame number counter by 1;
For each frame, the packet extraction enable / disable signal and the compensation continuation enable / disable signal are input. If the packet extraction enable / disable signal cannot be extracted and the compensation continuation enable / disable signal cannot be compensated, a silence signal is generated. A silence generator that outputs to the output terminal but does not increase the count value of the frame number counter ;
A matching determination unit that compares the frame number of the received voice packet with the frame number indicated by the frame number counter and determines whether the frame number of the voice packet is equal to or less than the frame number indicated by the frame number counter;
If the determination result of the matching determination unit is as follows, a packet discard unit that discards the received voice packet;
If the determination result is not below, a gate for storing the received voice packet in the reception buffer;
When a packet takeout enable / disable signal is input from the packet takeout enable / disable signal generator, and the packet takeout enable / disable signal indicates that it can be taken out, the voice packet stored in the reception buffer is taken out and decoded, and the voice signal is sent to the output terminal. An output voice packet decoding unit;
An audio packet receiving / reproducing apparatus comprising:
請求項5記載の装置において、
上記受信した音声パケットが入力され、送信側が無音圧縮を利用しているか否かを検出するDTX検出部と、
上記DTX検出部の検出出力が入力され、その検出出力が、無音圧縮を利用していないことを表せば、上記Nを1以上に設定し、利用していることを表せば、上記Nを0に設定する手段とを備えることを特徴とする音声パケット受信再生装置。
Apparatus according to claim 5 Symbol mounting,
A DTX detector that receives the received voice packet and detects whether the transmission side uses silence compression;
If the detection output of the DTX detection unit is input and the detection output indicates that silence compression is not used, the N is set to 1 or more, and if the detection output indicates that the NTX is used, the N is set to 0. voice packet receiving and reproducing apparatus, characterized in that it comprises a means for setting the.
JP2005298691A 2005-10-13 2005-10-13 Voice packet receiving and reproducing method and apparatus, and program recording medium therefor Active JP4510742B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005298691A JP4510742B2 (en) 2005-10-13 2005-10-13 Voice packet receiving and reproducing method and apparatus, and program recording medium therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005298691A JP4510742B2 (en) 2005-10-13 2005-10-13 Voice packet receiving and reproducing method and apparatus, and program recording medium therefor

Publications (2)

Publication Number Publication Date
JP2007108388A JP2007108388A (en) 2007-04-26
JP4510742B2 true JP4510742B2 (en) 2010-07-28

Family

ID=38034297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005298691A Active JP4510742B2 (en) 2005-10-13 2005-10-13 Voice packet receiving and reproducing method and apparatus, and program recording medium therefor

Country Status (1)

Country Link
JP (1) JP4510742B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01296739A (en) * 1988-05-25 1989-11-30 Hitachi Ltd Voice packet transmission control system
JP2002542521A (en) * 1999-04-19 2002-12-10 エイ・ティ・アンド・ティ・コーポレーション Method and apparatus for performing packet loss or frame erasure concealment
JP2003218957A (en) * 2002-01-28 2003-07-31 Matsushita Electric Ind Co Ltd Reception apparatus and reception method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01296739A (en) * 1988-05-25 1989-11-30 Hitachi Ltd Voice packet transmission control system
JP2002542521A (en) * 1999-04-19 2002-12-10 エイ・ティ・アンド・ティ・コーポレーション Method and apparatus for performing packet loss or frame erasure concealment
JP2003218957A (en) * 2002-01-28 2003-07-31 Matsushita Electric Ind Co Ltd Reception apparatus and reception method

Also Published As

Publication number Publication date
JP2007108388A (en) 2007-04-26

Similar Documents

Publication Publication Date Title
US7539615B2 (en) Audio signal quality enhancement in a digital network
EP2130203B1 (en) Method of transmitting data in a communication system
US7773511B2 (en) Generic on-chip homing and resident, real-time bit exact tests
CN103748865B (en) Utilize the clock deskew of the acoustic echo arrester of not audible tone
WO2012141486A2 (en) Frame erasure concealment for a multi-rate speech and audio codec
Milner et al. Robust speech recognition over IP networks
JPH0944193A (en) Device for recovering fault in time in communications system
EP2245826A1 (en) Method and apparatus for detecting and suppressing echo in packet networks
CN108076239B (en) Method for improving IP telephone echo
Ogunfunmi et al. Speech over VoIP networks: Advanced signal processing and system implementation
JP4510742B2 (en) Voice packet receiving and reproducing method and apparatus, and program recording medium therefor
JP2006033789A (en) Method, device, and program for estimating amount of echo path coupling; method, device, and program for controlling echoes; method for suppressing echoes; echo suppressor; echo suppressor program; method and device for controlling amount of losses on transmission lines; program for controlling losses on transmission lines; method, device, and program for suppressing multichannel echoes; and recording medium
KR100594599B1 (en) Apparatus and method for restoring packet loss based on receiving part
JP4403103B2 (en) Voice signal packet communication method, multipoint mixing method, and system and apparatus using them
JP4093174B2 (en) Receiving apparatus and method
US20060072576A1 (en) Selecting discard packets in receiver for voice over packet network
JP4597360B2 (en) Speech decoding apparatus and speech decoding method
JP3473647B2 (en) Echo suppressor circuit
GB2356537A (en) Silence suppression/insertion buffer management
JP2005142757A (en) Receiving apparatus and method
JP3460783B2 (en) Voice switch for talker
JP2002099299A (en) Silent compressed voice coding and decoding device
JP2002032095A (en) Voice encoding/decoding device, voice encoder and encoding method
JPH09200213A (en) Audio information transmission system
AU2012200349A1 (en) Method of transmitting data in a communication system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100420

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100430

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4510742

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350