JP2004080625A - パケット型音声通信端末 - Google Patents

パケット型音声通信端末 Download PDF

Info

Publication number
JP2004080625A
JP2004080625A JP2002240821A JP2002240821A JP2004080625A JP 2004080625 A JP2004080625 A JP 2004080625A JP 2002240821 A JP2002240821 A JP 2002240821A JP 2002240821 A JP2002240821 A JP 2002240821A JP 2004080625 A JP2004080625 A JP 2004080625A
Authority
JP
Japan
Prior art keywords
encoded data
multiplexing
unit
voice
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002240821A
Other languages
English (en)
Other versions
JP4050961B2 (ja
Inventor
Takuya Kawashima
河嶋 拓也
Koji Yoshida
吉田 幸司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2002240821A priority Critical patent/JP4050961B2/ja
Publication of JP2004080625A publication Critical patent/JP2004080625A/ja
Application granted granted Critical
Publication of JP4050961B2 publication Critical patent/JP4050961B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Detection And Prevention Of Errors In Transmission (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】回線状態に応じて、音質劣化を抑制しかつ音声の遅延をスムーズに動的制御すること。
【解決手段】送信側では、有音無音判定部103にて、入力音声を分析して有音か無音かが判定される。音声符号化部104では、入力音声を有音無音判定部103の判定結果に従って符号化する。多重化部106では、送信バッファ部105に蓄積された符号化データから多重化する符号化データを選択する際に、回線状態と有音無音判定部103の判定結果と従って多重化数と多重化深度を切り替える。受信側では、IP網から受信されたパケットから取り出された符号化データが受信バッファ部114に蓄積される。遅延調整フレーム選択部115では、受信バッファに蓄積された符号化データに含まれている有音無音情報を利用して最適な遅延を与える符号化データを選択し、音声復号化部116に渡す。
【選択図】   図1

Description

【0001】
【発明の属する技術分野】
本発明は,音声を圧縮し、圧縮した符号化データをパケット化してインターネット網を伝送し、インターネット網から受信された符号化データを復号して音声通話を行うパケット型音声通信端末に関する。
【0002】
【従来の技術】
近年、インターネット技術の急速な発展/普及により、インターネットによるデータ伝送コストが急速に低下してきている。その一方で有線電話網は、通話品質(音質、安定性、低遅延)では勝るものの、高コスト性及び他サービスとの融合性の低さが問題となっている。そのため、電話サービスもインターネット上でサービスを行おうという機運が高まってきており、VoIP(Voice over Internet Protocol)の研究が盛んになってきている。既に音声等のリアルタイムサービス向けのプロトコル(RTP、RTCP、RSVP等)がIETF(The Internet Engineering Task Force)のRFC(Request for Comments)として規定されている。また、ITU−Tの規格としても、H.323という規格があり、徐々に普及してきている。
【0003】
ところが、インターネット網(以下「IP網」という)は、QoS(Quality of Service:サービス品質)が保証されないシステムであり、伝送パケットの到着時間の揺らぎや、伝送パケットの消失等の問題が頻繁に起こる。通常のデータであれば、パケットの到着時間の揺らぎは問題とはならない。その理由は、パケットの消失に関してもTCP(Transmission Control Protocol )やアプリケーションレベルでの再送制御を用いれば目的のデータを受信することができるからである。
【0004】
しかしながら、音声通話やテレビ電話等のサービスは、大幅な遅延が許されないサービスである。これらのサービスには、通常、再送制御は遅延が大きすぎるために用いることはない。これらのサービス実現に向けてIP網に対してQoSを確保する手法に対する取り組みがなされ、また現状のIP網を用いた場合のパケット消失対策として、FEC(Feed−forword Error Correction)手法が研究されている。
【0005】
以下に、図7を参照して、FEC手法を用いた従来のVoIPについて簡単に説明する。なお、図7は、従来のパケット型音声通信端末の構成を示すブロック図である。図7に示す従来のパケット型音声通信端末701は、符号化送信部702と復号化受信部709とを備えている。
【0006】
符号化送信部702は、音声を圧縮符号化する音声符号化部703と、音声符号化部703にて符号化されたデータや正規の符号化データを受信できなかったときに補間に使用する補間用データを蓄積する送信バッファ部704と、回線状態に合わせて送信バッファ部704から送信する符号化データを選択し多重化する多重化部705と、多重化データをIPパケット化するパケット化部706と、パケット化部706にてパケット化されたデータをIP網に送信する送信部707と、復号化受信部709にて生成された回線品質を多重化部705に通知する回線状態通知部708とを備えている。
【0007】
復号化受信部709は、IP網からIPパケットを受信する受信部710と、受信部710にて受信されたIPパケットを展開するパケット展開部711と、パケット展開部711から多重化音声情報を受け取り、各フレーム毎に音声符号化データを分離する分離化部712と、分離化部712にて分離化された音声符号化データを蓄積する受信バッファ部713と、受信バッファ部713に蓄積された音声符号化データから復号に使用する音声符号化データを選択するフレーム選択部714と、フレーム選択部714にて選択された音声符号化データを復号する音声復号化部715と、受信されたIPパケットの連続性等を分離化部712にて分離化された音声符号化データに基づき確認等することによって回線品質を分析し送信側に通知する回線状態分析部716とを備えている。
【0008】
以上のように構成される従来のパケット型音声通信端末701の主な動作について説明する。符号化送信部702の音声符号化部703では、G.726,G.728,G.729,AMRといった音声圧縮アルゴリズムを用いて圧縮を行い、符号化データf(n)を生成する。なお、f(n)は、時刻Nにおける第nフレームの符号化データを表している。この符号化データf(n)は、送信バッファ部704に蓄積される。
【0009】
送信バッファ部704では、このように生成された符号化データが、過去Mフレーム分蓄積されるとする。送信バッファ部704に蓄積される符号化データのうち、f(n)を除く過去の符号化データ[f(n−1)、f(n−2)、・・、f(n−M+1)]は、FECデータとして用いられる。
【0010】
つまり、次の動作ブロックである多重化部705では、ある時刻Nでは、処理中の符号化データf(n)と例えば1つ前の符号化データf(n−1)とがg(n)=f(n)+f(n−1)と多重化され、次の時刻N+1では、処理中の符号化データf(n)と次の符号化データf(n+1)とがg(n+1)=f(n+1)+f(n)と多重化される。送信側がこのように多重化することによって、受信側では、多重化された符号化データg(n)が受信できなかった時でも、次の符号化データg(n+1)が受信できれば、送信側での符号化データf(n)を得ることができるので、第nフレームを補間することなく再生することができる。
【0011】
ここで、送信バッファ部704及び受信バッファ部713に蓄積されFECデータとして用いられる過去の符号化データは、音声符号化部703にて符号化されたデータそのものである必要はなく、伝送帯域を節約するため、例えば、さらに高圧縮した符号化データを用いたり、重要なデータだけにしたりすることができる。つまり、過去の符号化データは、単なるコピーでない可能性がある。
【0012】
そのため、図7では、現在処理中のフレーム(第nフレーム)の1つ前のフレームのデータは、f(n−1)と表している。また、現フレームを含めてMフレーム分を蓄積する場合は、一番古い符号化データは、f(n−M+1)と表している。
【0013】
過去の符号化データが単なるコピーでない場合は、当然、受信側では、受信された符号化データに対応した動作をすることが必要となる。但し、以後の説明においては、理解を容易にするため、過去のFEC用の符号化データは、符号化データのコピーであるものとして説明する。
【0014】
さて、3GPP TS26.235では、f(n)とf(n−1)とで多重化する方法が示されている。しかしながら、この方法では、IP網でのパケット消失状況が一定でなく、例えば2パケット連続で消失することが多いような場合には、対策効果が非常に薄い。
【0015】
そのため、例えば文献「A New Adaptive FEC Loss Control Algorithm for Voice Over IP Applications(Padhye C.;Christensen K.J.;Moreno W.;Performance,Computing,and Communications Conference,2000.IPCCC,’00.Conference Proceeding of the IEEE International,2000;Page(s):307−313)」では、IP網の状態に合わせて動的にFEC用符号化データを多重化制御を行う方法が提案されている。この方法に従えば、IP網に対する帯域負荷と音声品質に与える影響とのバランスを配慮したサービスが可能となる。
【0016】
すなわち、図7において、回線状態通知部708は、受信側の回線状態分析部716を通じて回線の状態を取得し、または、制御用コマンドを通じてIP網から直接回線の状態を取得し、その取得した回線状態を多重化部705に通知する。多重化部705では、通知された回線状態に応じて多重化数と多重化深度(ここでは、何フレーム前のデータを多重化するかという意味で用いる)を動的に制御する。以下に、動的制御を行う際の一例を示す。
【0017】
(A)連続パケット消失が多く、回線に帯域上余裕がない場合には、式(1)のように、多重化深度を増加する。
g(n)=f(n)+f(n−1)→g(n)=f(n)+f(n−2)        ・・(1)
【0018】
(B)連続パケット消失は多いが、回線に帯域上余裕がある場合には、式(2)のように、多重化数と多重化深度を共に増加する。
g(n)=f(n)+f(n−1)→g(n)=f(n)+f(n−1)+f(n−2)    ・・(2)
【0019】
(C)連続パケット消失からランダム性消失に変化し、回線の帯域上余裕がさらに低下した場合は、式(3)に示すように、多重化数と多重化深度を共に減少する。
g(n)=f(n)+f(n−1)+f(n−2)→g(n)=f(n)+f(n−1)    ・・(3)
【0020】
(D)パケット消失が殆ど発生しない場合は、式(4)に示すように、多重化数と多重化深度を共に減少する。
g(n)=f(n)+f(n−1)+f(n−2)→g(n)=f(n)+f(n−1)    ・・(4)
【0021】
【発明が解決しようとする課題】
しかしながら、従来のパケット型音声通信端末では、多重化数や多重化深度の動的制御はできるが、再生における遅延を制御することができない。つまり、そのシステムにおいて、多重化深度を最大Mとしたならば、常に受信側では最初の符号化データf(n)を受け取ってから、その最初の符号化データf(n)含むM個分のパケットを受信した後でなければ、符号化データf(n)を復号することができず、遅延が固定されてしまう、つまり設計自由度が小さいという問題がある。
【0022】
図8を参照して説明する。なお、図8は、図7に示す従来のパケット型音声通信端末において実施される多重化数と多重化深度の動的制御を説明する図である。図8において、横軸は時間軸であり、縦軸は多重化するパケットを表しおり、図8(1)の四角内の数字は、フレーム番号を表している。また、図8では、最大深度P=4とし、パケット番号p=0からp=6までが、多重化数=4、多重化深度=4となっている。パケット番号p=7からp=12までが、多重化数=2、多重化深度=2となっている。パケット番号p=13からp=20までが、多重化数=2、多重化深度=4となっている。
【0023】
パケット番号p=0からp=6までは、パケット番号p=3の時、フレーム番号3,2,1,0の符号化データがg(3)=f(3)+f(2)+f(1)+f(0)というように多重化されて伝送される。パケット番号p=0からp=6までは、多重化数が4、多重化深度が4であるので、符号化データf(3)を復号するためには、最後の符号化データf(3)が受信されるパケット番号p=6まで待つ必要がある。
【0024】
次に、パケット番号p=7からp=12までは、多重化数が2、多重化深度が2である。符号化データf(9)を復号するためには、本来最後の符号化データf(9)が受信されるパケット番号p=10において復号が可能である。しかしながら、その場合にはそれ以前のフレームを廃棄しなければならず、不自然な再生音声となってしまう。そのため、最大深度P=4にしたがってパケット番号p=12で符号化データf(9)を再生しなければならない。
【0025】
かりに、最大深度を無視し、送信してきた多重化深度に合わせて復号した場合には、多重化深度が大きくなると、今度はその差分の分だけフレーム補間が必要であるので、この場合も不自然な再生音声となってしまう。
【0026】
以上のことから、パケットの消失が少なく、回線状態が良好な場合であっても、遅延を少なくすると、回線の劣化に十分に対応できないので、回線が劣化するワーストケースを考慮して遅延を多めに取らなければならない。したがって、上記のように、設計上多重化する一番過去の符号化データによって遅延が決定されるという問題がある。
【0027】
本発明は、かかる点に鑑みてなされたものであり、回線状態に応じて動的に制御する多重化深度に合わせて、復号する音声の遅延をスムーズに制御することができるパケット型音声通信端末を提供することを目的とする。
【0028】
【課題を解決するための手段】
本発明のパケット型音声通信端末は、入力音声を分析して有音か無音かを判定する有音無音判定手段と、前記入力音声を前記有音無音判定手段の判定結果に従って符号化する音声符号化手段と、前記音声符号化手段が出力する符号化データを蓄積する送信バッファと、IP網に送出する多重化した符号化データを前記送信バッファに蓄積された符号化データを用いて生成する多重化手段であって、回線状態と前記有音無音判定手段の判定結果とに従って多重化数と多重化深度を切り替える多重化手段と、を具備する構成を採る。
【0029】
この構成によれば、送信側において、回線状態に加えて、無音時や有音と無音の切替時に多重化数と多重化深度を変更することができる。
【0030】
本発明のパケット型音声通信端末は、IP網から受信されたパケットから取り出された符号化データの多重化数と多重化深度が回線状態の他に有音時と無音時とで切替制御されている場合において、前記多重化数と多重化深度が切替制御されている符号化データを蓄積する受信バッファと、前記受信バッファに蓄積された符号化データから復号化する符号化データを選択するフレーム選択手段であって、前記受信バッファに蓄積された符号化データに含まれている有音無音情報を利用して最適な遅延を与える符号化データを選択するフレーム選択手段と、を具備する構成を採る。
【0031】
この構成によれば、受信側において、無音期間に多重化数・多重化深度の変化を検知し、有音が始まる際に無音フレームの廃棄、補間を行い、送信側が指定する多重化深度に復号する音声の遅延を合わせることができる。
【0032】
本発明のパケット型音声通信端末は、IP網から受信されたパケットから取り出された符号化データの多重化数と多重化深度が回線状態に応じて切替制御されている場合において、前記多重化数と多重化深度が切替制御されている符号化データを蓄積する受信バッファと、復号化する符号化データを選択するフレーム選択手段であって、運用遅延と連続フレーム消失数を使って最適な遅延を与える符号化データを選択するフレーム選択手段と、を具備する構成を採る。
【0033】
この構成によれば、送信側において、任意のタイミングで多重化数・多重化深度の変更を行っている場合に、受信側では、多重化数・多重化深度の変更を検知し、現在の運用遅延と多重化深度の差以上連続でパケットの受信に失敗した場合に、補間フレームの廃棄・追加を行うことで多重化深度に合わせてスムーズに復号する音声の遅延を制御することができる。
【0034】
【発明の実施の形態】
本発明の骨子は、回線状態に応じて動的に多重化数と多重化深度を変更制御する場合に、多重化深度に合わせて復号する音声の遅延を制御することにより、パケットの消失が少ないときは、極力遅延を減らすことで通話のインタラクティブ性を高め、また回線状態が悪くパケットが消失しやすい回線状態のときは、遅延を増やすというデメリットを受け入れることでパケット消失によるフレーム補間を回避して復号音声の劣化を抑え、通話内容を極力確実に伝えることができるようにすることである。
【0035】
以下、本発明の実施の形態を図面を参照して詳細に説明する。
【0036】
(実施の形態1)
図1は、本発明の実施の形態1に係るパケット型音声通信端末の構成を示すブロック図である。図1に示すパケット型音声通信端末101は、符号化送信部102と復号化受信部110とを備えている。
【0037】
符号化送信部102は、有音無音判定部103と、音声符号化部104と、送信バッファ部105と、多重化部106と、パケット化部107と、送信部108とを備えている。復号化受信部110は、受信部111と、パケット展開部112と、分離化部113と、受信バッファ部114と、遅延調整フレーム選択部115と、音声復号化部116と回線状態分析部117とを備えている。
【0038】
まず、符号化送信部102の動作について説明する。マイクロホン等によって入力された音声信号は、A/D変換され、フレーム単位で有音無音判定部103と音声符号化部104とに入力される。
【0039】
有音無音判定部103では、例えば、LPC(線形予測係数)分析やピッチ分析、振幅の変化等を用いて入力されたフレームが有音フレームか、無音フレームであるかを判定を行い、その判定結果を音声符号化部104と多重化部106とに出力する。
【0040】
音声符号化部104では、入力されたフレームを、有音無音判定部103からの判定結果が無音フレームであれば無音用に符号化を行い、有音無音判定部103からの判定結果が有音フレームであれば有音用に符号化を行い、圧縮した符号化データf(n)を送信バッファ部105に出力する。
【0041】
符号化データf(n)は、送信バッファ部105に蓄積される。ここで、多重化深度を最大Mとすると、送信バッファ部105には、f(n−M+1)までの符号化データが蓄積される。但し、前述したように、あるフレームnの時に送信バッファ部105に蓄積されている過去の符号化データf(n−1)、f(n−2)、…f(n−M+1)は、符号化データの完全なコピーである必要はない。
【0042】
回線状態通知部109は、復号化受信部110から例えばパケット消失数等の回線状況を受け取ると、その回線状況を多重化部106に通知する。
【0043】
多重化部106は、回線状態通知部109から通知されるIP網の劣化具合に関する情報に基づき送信バッファ部105に蓄積されている、現フレームの符号化データf(n)に対し、FEC用のデータとして過去の符号化データを選択して多重化した符号化データg(n)を出力する処理を行う。その際に多重化情報も併せて例えばヘッダ情報としてパッキングする。
【0044】
ここで、前述したように、有音時に単に多重化数や多重化深度を変化させたのでは、伝送帯域の無駄や遅延を大きくさせてしまう。そこで、多重化部106では、有音無音判定部103からの判定結果に従い、フレームが無音フレームである時もしくは無音フレームから有音フレームになった時に多重化数と多重化深度を変更するようになっている。
【0045】
パケット化部107では、多重化部106にて多重化されたデータを例えばRTP(Real Time Protocol)にパケット化し、さらにUDP(User Diagram Protocol)/IP(Internet Protocol)に変換する。このようにIPパケット化されたデータは、送信部108からIP網に送信される。
【0046】
次に、復号化受信部110の動作について説明する。受信部111は、IP網から関係するIPパケットを受信し、パケット展開部112に送る。パケット展開部112は、受信されたIPパケットを展開して多重化された符号化データを取り出し、分離化部113に渡す。
【0047】
分離化部113は、パケット展開部112から受け取った多重化音声情報を各フレーム毎の符号化データに分離し、受信バッファ部114と回線状態分析部117とに渡す。なお、復号時間に間に合わないデータ等は、この分離化部113にて廃棄される。回線状態分析部117は、例えばRTPを用いて消失パケット数等の回線状態を分析し、送信側の回線状態通知部109に渡す。
【0048】
受信バッファ部114では、分離化部113から受け取った符号化データが蓄積される。遅延調整フレーム選択部115は、例えば図2と図3に示す手順で、受信バッファ部114に蓄積された符号化データの中から有音フレームと無音フレームの情報を利用して最適な遅延調整フレームの符号化データを選択する。音声復号化部116は、遅延調整フレーム選択部115から受け取った符号化データを再生し、復号音声を出力する。
【0049】
図2と図3を参照して、遅延調整フレーム選択部115の動作を具体的に説明する。なお、図2は、多重化数と多重化深度がそれぞれ「4」から「2」に減少する場合の動作例を示し、図3は、多重化数と多重化深度がそれぞれ「2」から「4」に増加する場合の動作例を示している。
【0050】
まず、多重化深度が減少する場合の動作を説明する。図2において、図2(4):パケット番号pは、「0」〜「23」までが示されている。そのうち、パケット番号p=0〜p=9までが、多重化数および多重化深度が4のフレームであり、パケット番号p=14〜p=23までが、多重化数および多重化深度が2のフレームである。
【0051】
図2(1):送信側で生成される各符号化フレームf(n)は、識別情報としてフレーム番号の他に、有音フレームであるか無音フレームであるかを示す有音無音情報を持っている。ここでは、符号化フレームf(0)からf(6)までが有音フレームで、符号化フレームf(7)からf(13)までが無音フレームで、符号化フレームf(14)からf(23)までが有音フレームであるとしている。
【0052】
なお、無音フレームの区間に関しては、音声符号化方式により符号化データを送り続けるものや、無音区間を補間するのに十分な情報を間欠的に送り無音時に全く情報を送らないものもある。図2(1)では、無音情報を送り続けるようにしているが、もちろん間欠的に送るものでも構わない。
【0053】
図2(2):受信バッファ114には、多重化深度に応じた符号化データg(n)が受信蓄積されることが示されている。すなわち、受信バッファ114には、パケット番号p=0〜p=9まで多重化深度=4の符号化データg(n)が受信蓄積され、パケット番号p=10〜p=13まで無音フレームのデータが格納され、パケット番号p=14以降は、多重化深度=2の符号化データg(n)が受信蓄積される。また、無音時には、多重化していないことが示されている。勿論、有音時の多重化情報のまま多重化していても構わない。
【0054】
図2(3):遅延制御フレーム選択部115のフレーム選択動作を説明している。すなわち、パケット番号p=0からp=9までは、多重化深度が4であるので、最低でも4つのフレームを受信しなければ復号することができない。そのため、パケット番号p=0,1,2では音声を復号せず、パケット番号p=3で初めて符号化データf(0)を全部受信できたため、その中から最も状態のいいものを選択して次の音声復号化部116に符号化データf(0)を送ることができる。以降パケット番号p=9で符号化データf(6)が再生されるまでは同様に動作する。
【0055】
パケット番号p=10からp=13までの無音時では、受信した無音フレームを復号したり、もしくは、それ以前に受けたデータを元に補間動作を行う。パケット番号p=14からp=23までは、多重化深度が4から2に減少する。従来例であれば、多重化深度は最高値4に固定しなければならないため、符号化データf(14)を復号するためには、パケット番号p=17まで待たなければならなかったが、今の例ではパケット番号p=15で受信が完了しているので、パケット番号p=15で復号が可能である。
【0056】
これを実現するためには、従来例ではパケット番号p=15で再生するはずだった符号化データf(12)を復号せずに廃棄する必要がある。ところが、この符号化データf(12)は、今の例では無音フレームであるので、復号せずに廃棄しても聴感上の劣化は無い。この例では、多重化深度が4から2へと変化したため、パケット番号p=16のときに符号化データf(13)も廃棄され、代わりに有音フレームf(15)が選択される。以後そのままの遅延で復号されていく。
【0057】
次に、多重化深度が増加する場合の動作を説明する。図3において、図3(4):パケット番号pは、図2(4)と同様に「0」〜「23」までが示されている。そのうち、パケット番号p=0〜p=7までが、多重化数および多重化深度が2のフレームであり、パケット番号p=14〜p=23までが、多重化数および多重化深度が4のフレームである。図3(1):符号化フレームf(n)は、図2(1)と同内容である。
【0058】
図3(2):受信バッファ114には、パケット番号p=0〜p=7まで多重化深度=2の符号化データg(n)が受信蓄積され、パケット番号p=8〜p=13まで無音フレームのデータが格納され、パケット番号p=14以降多重化深度=4の符号化データg(n)が受信蓄積される。
【0059】
図3(3):遅延調整フレーム選択部115のフレーム選択動作を説明している。すなわち、今度は、パケット番号p=0〜p=7までは、多重化深度が2であるので、パケット番号p=0では復号されず、パケット番号p=1で符号化データf(0)が復号される。以後、パケット番号p=7のときに符号化データf(6)が復号されるまで同様である。パケット番号p=8からp=13までは、無音フレームであり、図2(3)と同様の動作を行う。
【0060】
次のパケット番号p=14で多重化深度が2から4に変化する。パケット番号p=14では、変化以前の多重化深度2であれば、パケット番号p=15で符号化データf(14)が再生されるはずであるが、多重化深度が4であるため、この段階では後2フレーム待たねば符号化データf(14)を受信することができない。
【0061】
そのため、パケット番号p=15、16では、無音フレームを補間することで多重化深度に遅延を合わせる。このように有音フレームが始まる前に無音フレームを補間してもほとんど劣化を感じることはないため、スムーズに運用遅延を変化させることができる。
【0062】
以上のように,実施の形態1では、多重化深度をIP網の状態に合わせて過去の符号化データをFEC用に多重化して伝送するパケット型音声通信端末において、パケット消失対策として、符号化データを多重化して送信する場合に、有音無音情報を利用して多重化数、多重化深度を変更し、受信側で無音から有音へと変化する際に多重化方法に合わせて無音フレームの廃棄、補間を行うことによって復号する音声の遅延を切替制御できるようにしたので、異音を発生することなくスムーズに遅延を切り替えることができる。
【0063】
これにより、パケット消失が少ない時は低遅延で、パケット消失が多い場合は、多重化深度を深くすることで遅延を増やして即時性を犠牲にしてでも確実に話の内容が伝わるようにするといった幅広い運用ができるようになる。
【0064】
(実施の形態2)
図4は、本発明の実施の形態2に係るパケット型音声通信端末の構成を示すブロック図である。図4に示すパケット型音声通信端末401は、符号化送信部402と復号化受信部409とを備えている。
【0065】
符号化送信部402は、音声符号化部403と、送信バッファ部404と、多重化部405と、パケット化部406と、送信部407と、回線状態通知部408とを備えている。復号化受信部409は、受信部410と、パケット展開部411と、分離化部412と、受信バッファ部413と、フレーム選択部414と、音声復号化部415と回線状態分析部416とを備えている。ここで、フレーム選択部414は、運用遅延記憶部417と、連続フレーム消失カウント部418と、遅延制御判定部419と、遅延調整フレーム選択部420とで構成されている。
【0066】
まず、符号化送信部402の動作について説明する。マイクロホン等によって入力された音声信号は、A/D変換され、フレーム単位で音声符号化部403に入力される。
【0067】
音声符号化部403では、入力されたフレームを符号化し、圧縮した符号化データf(n)を送信バッファ部404に出力する。符号化データf(n)は、送信バッファ部404に蓄積される。ここで、多重化深度を最大Mとすると、送信バッファ部404には、f(n−M+1)までの符号化データが蓄積される。但し、前述したように、あるフレームnの時に送信バッファ部404に蓄積されている過去の符号化データf(n−1)、f(n−2)、…f(n−M+1)は、符号化データの完全なコピーである必要はない。
【0068】
回線状態通知部408は、復号化受信部409から例えばパケット消失数等の回線状況を受け取ると、その回線状況を多重化部405に通知する。
【0069】
多重化部405は、回線状態通知部408から通知されるIP網の劣化具合に関する情報に基づき送信バッファ部404に蓄積されている、現フレームの符号化データf(n)に対し、FEC用のデータとして過去の符号化データを選択して多重化した符号化データg(n)を出力する処理を行う。その際に多重化情報も併せて例えばヘッダ情報としてパッキングする。
【0070】
パケット化部406では、多重化部405にて多重化されたデータを例えばRTP(Real Time Protocol)にパケット化し、さらにUDP(User Diagram Protocol)/IP(Internet Protocol)に変換する。このようにIPパケット化されたデータは、送信部407からIP網に送信される。
【0071】
次に、復号化受信部409の動作について説明する。受信部410は、IP網から関係するIPパケットを受信し、パケット展開部411に送る。パケット展開部411は、受信されたIPパケットを展開して多重化された符号化データg(n)を取り出し、分離化部412に渡す。
【0072】
分離化部412は、パケット展開部411から受け取った多重化音声情報を各フレーム毎の符号化データに分離し、受信バッファ部413と回線状態分析部416とに渡す。なお、復号時間に間に合わないデータ等は、この分離化部412にて廃棄される。回線状態分析部416は、例えばRTPを用いて消失パケット数等の回線状態を分析し、送信側の回線状態通知部408に渡す。
【0073】
受信バッファ部413では、分離化部412から受け取った符号化データが蓄積される。フレーム選択部414は、運用遅延と連続フレーム消失数と使って遅延制御を行い、受信バッファ部413に蓄積された符号化データの中から最適な遅延調整フレームの符号化データを選択する。音声復号化部415は、フレーム選択部414から受け取った符号化データf(n)を再生し、復号音声を出力する。
【0074】
ここで、フレーム選択部414では、運用遅延記憶部417が、現在運用している遅延を記憶している。但し、この運用遅延は、送信側から送られてくる多重化深度とは必ずしも一致しない。連続フレーム消失カウント部418は、運用遅延と多重化深度が違う場合に機能し、受信フレームが連続で何フレーム消失したかをカウントする。このカウント値は、音声復号化部415において何フレーム連続フレーム消失補償するかと同値である。遅延制御判定部419は、運用遅延、受信フレームの多重化深度及び連続フレーム消失カウントを受取り、フレーム消失が連続で発生した時を利用してスムーズに運用遅延を変更できるように判定を行い、遅延調整フレーム選択部420に遅延制御の可否を伝える。遅延調整フレーム選択部420は、遅延制御を行うという判定を受けると、フレーム消失補償フレームの廃棄もしくは追加を行ったうえで、運用遅延を多重化深度にあわせるように動作する。
【0075】
以下、図5と図6を参照して、フレーム選択部414の動作を具体的に説明する。なお、図5は、多重化数、多重化深度及び運用遅延がそれぞれ「4」から「2」に減少する場合の動作例を示し、図6は、多重化数、多重化深度及び運用遅延がそれぞれ「2」から「4」に増加する場合の動作例を示している。
【0076】
まず、運用遅延が減少する場合の動作を説明する。図5において、図5(4):パケット番号pは、「0」〜「23」までが示されている。そのうち、パケット番号p=0〜p=7までが、多重化数、多重化深度及び運用遅延がそれぞれ「4」のフレームであり、パケット番号p=8〜p=23までが、多重化数、多重化深度及び運用遅延が「2」のフレームである。
【0077】
図5(1):受信パケットg(n)の受信状態(正常に受信できたか消失したかの状態)を示している。図5(1)では、受信パケットg(0)からg(9)までは正常に受信できたことを示している。受信パケットg(10)からg(13)まではフレーム消失による受信失敗を示している。受信パケットg(14)からg(23)までは正常に受信できたことを示している。
【0078】
図5(2):受信バッファ部413には、多重化深度に応じた符号化データg(n)が受信蓄積されることが示されている。すなわち、受信バッファ部413には、パケット番号p=0〜p=7まで多重化深度=4の符号化データg(n)が受信蓄積され、パケット番号p=8以降多重化深度=2の符号化データg(n)が受信蓄積される。
【0079】
図5(3):フレーム選択部414のフレーム選択動作を説明している。すなわち、最初に受信したフレームの多重化深度で運用遅延を決めるとすると、運用遅延は4となる。従来例であればこのまま運用遅延は変更できない。今の例では、多重化深度が4から2に変更になった後に、パケット番号p=10からp=13のパケットを消失している。従来例であれば、符号化データf(10),f(11),f(12)に相当するフレームについて音声復号化部415にてフレーム消失補償が行われ、パケット番号p=16から符号化データf(13)が運用遅延4のまま再生される。
【0080】
それに対し、本発明によるフレーム選択部414では、次のようにして運用遅延の切り替えを行うようになっている。すなわち、符号化データf(10)からf(12)は、受信できなかったためフレーム消失補償を行う。このとき、多重化深度は2であるので、パケット番号p=14の段階で、符号化データf(13)のデータを再生することが可能である。そして、パケット番号p=14、15では、符号化データf(11),f(12)に相当する補償フレームを廃棄することで、パケット番号p=14で符号化データf(13)を復号することが可能となり、以後運用遅延を2に切り替えて運用することができる。この場合、少なくとも、パケット番号p=13でフレーム消失補償が行われているので、運用遅延の変更が音質に大きな影響を与えことはない。
【0081】
但し、連続フレーム消失数が多重化深度の変化数よりも短いと、フレーム廃棄が行われると、フレーム消失補償フレームが間に入らない状態となるので、復号音声は不自然になってしまう。また、間にフレーム消失補償フレームがあったとしても、ある程度以上の長さの補償フレームがあった方が自然に聞こえる可能性があるので、実運用にあたっては、システムに合わせて遅延制御判定部419の判定アルゴリズムやパラメータを調整する必要がある。
【0082】
次に、運用遅延が増加する場合の動作を説明する。図6において、図6(4):パケット番号pは、「0」〜「23」までが示されている。そのうち、パケット番号p=0〜p=7までが、多重化数、多重化深度及び運用遅延がそれぞれ「2」のフレームであり、パケット番号p=8〜p=23までが、多重化数、多重化深度及び運用遅延が「4」のフレームである。
【0083】
図6(1):受信パケットg(n)の受信状態は、図5(1)と同様に、受信パケットg(0)からg(9)までは正常に受信できたことを示している。受信パケットg(10)からg(13)まではフレーム消失による受信失敗を示している。受信パケットg(14)からg(23)までは正常に受信できたことを示している。
【0084】
図6(2):受信バッファ部413には、多重化深度に応じた符号化データg(n)が受信蓄積されることが示されている。すなわち、受信バッファ部413には、パケット番号p=0〜p=7まで多重化深度=2の符号化データg(n)が受信蓄積され、パケット番号p=8以降多重化深度=4の符号化データg(n)が受信蓄積される。
【0085】
図6(3):フレーム選択部414のフレーム選択動作を説明している。すなわち、最初に受信したフレームの多重化深度で運用遅延を決めるとすると、運用遅延は2となる。従来例であればこのまま運用遅延は変更できないので、パケット番号p=8以降では、多重化深度が増えたにもかかわらず、全ての符号化データが到着するのを待つことなく復号を開始している。今の例では、多重化深度が2から4に変更になった後に、パケット番号p=10からp=13のパケットを消失している。従来例であれば、符号化データf(10),f(11),f(12)に相当するフレームについて音声復号化部415にてフレーム消失補償が行われ、パケット番号p=14から符号化データf(13)が運用遅延2のまま再生される。
【0086】
それに対し、本発明によるフレーム選択部414では、次のようにして運用遅延の切り替えを行うようになっている。すなわち、符号化データf(10)に関しては、完全に受信できなかったため、フレーム消失補償しなければならないが、符号化データf(11)、f(12)に関しては、パケット番号p=14で受信できているため運用遅延を4に変更すれば復号が可能である。そこで、パケット番号p=12、13では、符号化データf(11)、f(12)に相当するフレーム消失補償を行いつつ、パケット番号p=14から符号化データf(11)を復号するようにしている。このようにすれば、スムーズに運用遅延を増やすことができる。
【0087】
以上のように、実施の形態2では,多重化深度をIP網の状態に合わせて過去の符号化データをFEC用に多重化して伝送するパケット型音声通信端末において、パケット消失対策として、多重化された符号化データを受信する場合に、多重化深度の動的な変化に合わせて運用遅延を、連続フレーム消失期間を利用して切替制御するようにしたので、パケット消失が少ない時は低遅延で、パケット消失が多い場合は、多重化深度を深くすることで遅延を増やして即時性を犠牲にしてでも確実に話の内容が伝わるようにするといった幅広い運用ができるようになる。
【0088】
【発明の効果】
以上説明したように、本発明によれば、IP網の状態に合わせて過去の符号化データをFEC用に多重化して伝送するパケット型音声通信端末において、有音無音情報や連続フレーム消失情報を使用して復号する音声の遅延をスムーズに切り替えることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係るパケット型音声通信端末の構成を示すブロック図
【図2】図1に示す遅延調整フレーム選択部が有音フレームと無音フレームの情報を利用して最適な遅延調整フレームを選択する動作を説明する図(多重化深度が減少する場合)
【図3】図1に示す遅延調整フレーム選択部が有音フレームと無音フレームの情報を利用して最適な遅延調整フレームを選択する動作を説明する図(多重化深度が増加する場合)
【図4】本発明の実施の形態2に係るパケット型音声通信端末の構成を示すブロック図
【図5】図4に示すフレーム選択部が連続フレーム消失を利用して最適な遅延調整フレームを選択する動作を説明する図(運用遅延が減少する場合)
【図6】図4に示すフレーム選択部が連続フレーム消失を利用して最適な遅延調整フレームを選択する動作を説明する図(運用遅延が増加する場合)
【図7】従来のパケット型音声通信端末の構成を示すブロック図
【図8】図7に示す従来のパケット型音声通信端末において実施される多重化数と多重化深度の動的制御を説明する図
【符号の説明】
101、401 パケット型音声通信端末
102、402 符号化送信部
103 有音無音判定部
104、403 音声符号化部
105、404 送信バッファ部
106、405 多重化部
107、406 パケット化部
108、407 送信部
109、408 回線状態通知部
110、409 復号化受信部
111、410 受信部
112、411 パケット展開部
113、412 分離化部
114、413 受信バッファ部
115 遅延調整フレーム選択部
116、415 音声復号化部
117、416 回線状態分析部
414 フレーム選択部
417 運用遅延記憶部
418 連続フレーム消失カウント部
419 遅延制御判定部
420 遅延調整フレーム選択部

Claims (3)

  1. 入力音声を分析して有音か無音かを判定する有音無音判定手段と、前記入力音声を前記有音無音判定手段の判定結果に従って符号化する音声符号化手段と、前記音声符号化手段が出力する符号化データを蓄積する送信バッファと、IP網に送出する多重化した符号化データを前記送信バッファに蓄積された符号化データを用いて生成する多重化手段であって、回線状態と前記有音無音判定手段の判定結果とに従って多重化数と多重化深度を切り替える多重化手段と、を具備することを特徴とするパケット型音声通信端末。
  2. IP網から受信されたパケットから取り出された符号化データの多重化数と多重化深度が回線状態の他に有音時と無音時とで切替制御されている場合において、前記多重化数と多重化深度が切替制御されている符号化データを蓄積する受信バッファと、前記受信バッファに蓄積された符号化データから復号化する符号化データを選択するフレーム選択手段であって、前記受信バッファに蓄積された符号化データに含まれている有音無音情報を利用して最適な遅延を与える符号化データを選択するフレーム選択手段と、を具備することを特徴とするパケット型音声通信端末。
  3. IP網から受信されたパケットから取り出された符号化データの多重化数と多重化深度が回線状態に応じて切替制御されている場合において、前記多重化数と多重化深度が切替制御されている符号化データを蓄積する受信バッファと、復号化する符号化データを選択するフレーム選択手段であって、運用遅延と連続フレーム消失数を使って最適な遅延を与える符号化データを選択するフレーム選択手段と、を具備することを特徴とするパケット型音声通信端末。
JP2002240821A 2002-08-21 2002-08-21 パケット型音声通信端末 Expired - Fee Related JP4050961B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002240821A JP4050961B2 (ja) 2002-08-21 2002-08-21 パケット型音声通信端末

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002240821A JP4050961B2 (ja) 2002-08-21 2002-08-21 パケット型音声通信端末

Publications (2)

Publication Number Publication Date
JP2004080625A true JP2004080625A (ja) 2004-03-11
JP4050961B2 JP4050961B2 (ja) 2008-02-20

Family

ID=32023505

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002240821A Expired - Fee Related JP4050961B2 (ja) 2002-08-21 2002-08-21 パケット型音声通信端末

Country Status (1)

Country Link
JP (1) JP4050961B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005109401A1 (ja) * 2004-05-10 2005-11-17 Nippon Telegraph And Telephone Corporation 音響信号のパケット通信方法、送信方法、受信方法、これらの装置およびプログラム
JP2007114471A (ja) * 2005-10-20 2007-05-10 Nec Corp 通話音声録音装置及びプログラム
US7711554B2 (en) 2004-05-11 2010-05-04 Nippon Telegraph And Telephone Corporation Sound packet transmitting method, sound packet transmitting apparatus, sound packet transmitting program, and recording medium in which that program has been recorded
WO2010150767A1 (ja) * 2009-06-23 2010-12-29 日本電信電話株式会社 符号化方法、復号方法、それらの方法を用いた装置、プログラム
US7881284B2 (en) 2006-03-10 2011-02-01 Industrial Technology Research Institute Method and apparatus for dynamically adjusting the playout delay of audio signals

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005109401A1 (ja) * 2004-05-10 2005-11-17 Nippon Telegraph And Telephone Corporation 音響信号のパケット通信方法、送信方法、受信方法、これらの装置およびプログラム
EP1746580A1 (en) * 2004-05-10 2007-01-24 Nippon Telegraph and Telephone Corporation Acoustic signal packet communication method, transmission method, reception method, and device and program thereof
EP1746580A4 (en) * 2004-05-10 2008-05-28 Nippon Telegraph & Telephone ACOUSTIC SIGNAL PACKET COMMUNICATION METHOD, TRANSMISSION METHOD, RECEIVING METHOD, AND DEVICE AND PROGRAM THEREOF
US8320391B2 (en) 2004-05-10 2012-11-27 Nippon Telegraph And Telephone Corporation Acoustic signal packet communication method, transmission method, reception method, and device and program thereof
US7711554B2 (en) 2004-05-11 2010-05-04 Nippon Telegraph And Telephone Corporation Sound packet transmitting method, sound packet transmitting apparatus, sound packet transmitting program, and recording medium in which that program has been recorded
JP2007114471A (ja) * 2005-10-20 2007-05-10 Nec Corp 通話音声録音装置及びプログラム
US7881284B2 (en) 2006-03-10 2011-02-01 Industrial Technology Research Institute Method and apparatus for dynamically adjusting the playout delay of audio signals
WO2010150767A1 (ja) * 2009-06-23 2010-12-29 日本電信電話株式会社 符号化方法、復号方法、それらの方法を用いた装置、プログラム
JP5400880B2 (ja) * 2009-06-23 2014-01-29 日本電信電話株式会社 符号化方法、復号方法、それらの方法を用いた装置、プログラム、記録媒体

Also Published As

Publication number Publication date
JP4050961B2 (ja) 2008-02-20

Similar Documents

Publication Publication Date Title
JP4367657B2 (ja) 音声通信方法及び装置
JP4426454B2 (ja) 通信リンク間の遅延トレードオフ
US7680099B2 (en) Jitter buffer adjustment
JP4504429B2 (ja) 端末間のボイスオーバインターネットプロトコルのメディアの待ち時間を管理する方法および装置
JP5442771B2 (ja) 通信システムにおけるデータ送信方法
US7283585B2 (en) Multiple data rate communication system
EP1696628A2 (en) A system and method for modifying speech playout to compensate for transmission delay jitter in a voice over Internet Protocol (VolP) network
EP1845691B1 (en) Media stream relay device and method
US8457182B2 (en) Multiple data rate communication system
JP3734946B2 (ja) データ送出装置、データ受信装置及びデータ伝送装置
JP2009076952A (ja) Tv会議装置およびtv会議方法
JPWO2005122455A1 (ja) 双方向通信方法と装置、システムならびにプログラム
JP4050961B2 (ja) パケット型音声通信端末
US7606330B2 (en) Dual-rate single band communication system
JP4218456B2 (ja) 通話装置、通話方法及び通話システム
JP4400571B2 (ja) 異種通信網間接続における符号化データの処理方法及びゲートウェイ装置
JP4454255B2 (ja) 音声/fax通信システム、音声/fax受信装置および揺らぎ吸収バッファ量制御方法
JP2005045739A (ja) 通話装置、通話方法及び通話システム
JP2001308919A (ja) 通信装置
JP2004194232A (ja) パケット通信装置
JP2005045740A (ja) 通話装置、通話方法及び通話システム
JP2005321548A (ja) 音声ストリーム再生装置及び音声ストリーム再生方法
JP2005151082A (ja) 音声データ通信装置および音声データ伝送システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071130

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131207

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees