JP2004356898A

JP2004356898A - 音声パケット送信装置とその方法並びに音声パケット受信装置及び音声パケット通信システム

Info

Publication number: JP2004356898A
Application number: JP2003151462A
Authority: JP
Inventors: Noboru Harada; 登原田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-05-28
Filing date: 2003-05-28
Publication date: 2004-12-16
Anticipated expiration: 2023-05-28
Also published as: JP4364555B2

Abstract

【課題】有音状態と無音状態との境界における音声再生品質の向上を図った音声パケット送信装置とその方法並びに音声パケット受信装置及び音声パケット通信システムを提供する。
【解決手段】入力した音声信号４のレベルが所定の閾値レベルＳｔｈ以下の無音から閾値レベルＳｔｈよりも大きい有音になったときに有音となる前の無音の音声データフレームの音声データのレベルを徐々に増加させた音声データに変換した音声データフレームを生成すると共に、有音から無音になったときに有音の後の無音の音声データフレームの音声データのレベルを徐々に減少させた音声データに変換した音声データフレームを生成してパケット化する。これにより、フェードイン・フェードアウト処理が施され音声波形が不連続となることがないので、この遷移部分で異音が生じることがなく、音声品質の劣化が低減される。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、有音状態と無音状態との境界における音声再生品質の向上、送信機能ボタン利用時の音声送信状態と、音声送信休止状態の境界における音声再生品質の向上を図った音声パケット送信装置とその方法並びに音声パケット受信装置及び音声パケット通信システムに関するものである。
【０００２】
【従来の技術】
従来、電子機器のディジタル化に伴い、情報通信においては転送対象となる情報をパケット化して転送することが一般的に行われている。例えば、音声信号を転送する場合には、送信側では、所定のサンプリング周波数にてサンプリングした音声データを所定量ずつ別個のパケットに分散して収納し、パケット単位で転送を行っている。受信側においては、受信したパケットから音声データを取りだし、取り出した音声データを繋ぎ合わせて再生する。
【０００３】
即ち、上記のようなパケット通信を行う電子機器では、送信側においては１パケット分のデータが得られた段階でパケットを形成して送信する処理を行い、受信側では受け取ったパケットに収納されているデータの再生に要する時間毎にパケット内のデータを読み出す処理を行っている。これにより、受信側では、例えば音声データのリアルタイム転送の場合、分割して受け取った複数のパケットから連続した音声を再生することができる。
【０００４】
このとき、送信する音声データのデータ通信量を削減するために、送信側で、サンプリングして得られた音声データのうち、無音と判定された部分の送信を実際には行わない無音圧縮の技術が利用されている。
【０００５】
同様に、無音を自動で判定する変わりに、明示的にユーザの発話意志を機能ボタン等を用いて取得し、発話機能ボタンが押下されている間だけ、音声データを送信し、発話機能ボタンが押下されていない間は、音声データの送信を行わないようにしてデータ通信量を削減する技術が利用されている。
【０００６】
この様なパケット通信は、ほとんどの場合コンピュータ装置を使用して行っており、例えば、無線通信を利用した携帯型電話機やインターネット等の通信網を利用した周知のＩＰ電話、配信サーバから音楽などのコンテンツをユーザ端末装置に配信するシステム、及び遠隔会議システムなどに用いられている。
【０００７】
【特許文献１】
特開２０００−８３０５０号公報
【非特許文献１】
ＩＴＵ−ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＧ．７２９ＡｎｎｅｘＢ
【０００８】
【発明が解決しようとする課題】
しかしながら、前述したようなパケットを用いた音声データの転送においては、有音状態から無音状態に遷移する部分で波形が不連続となるため、この遷移部分で異音が生じ、音声品質が劣化することがある。この様な音声品質の劣化を低減するために、送信側において無音と判定された部分の背景音に関する情報を送信し、受信側で受け取った有音部分の情報と背景音に関する情報から、無音部分の背景音を生成するＣＮＧという技術が知られているが、送信側、受信側で行うには演算処理負荷が高くなるという問題がある。
【０００９】
また、有音状態から無音状態に遷移したと同時に受信側で周知のパケット消失補償処理（ＰＬＣ：ＰａｕｑｔｔｅＬｏｓｓＣｏｎｃｅａｌｍｅｎｔ）を行う場合には、パケットが消失して無いのか或いは無音状態のためにパケットが無いのかを判別できないため、送信側が無音と判断して送信を打ち切った場合にも、受信側でパケット消失補償処理が適用され、受け取った最後のパケットから擬似音声を生成してしまうという問題がある。
【００１０】
尚、パケット消失補償処理の一例としてはＧ．７１１Ａｐｐｅｎｄｉｘ１等が知られている。
【００１１】
また、無音圧縮を行っている場合に、有音状態から無音状態への遷移部分では、判定にヒステリシス特性を用いて話尾が切れないように安全側に調整することが可能であるが、無音状態から有音状態への復帰時に話頭が消失してしまうという問題がある。このような話頭切れに対して安全余裕を設けるためには、常に先読みをして遅延を許容しておく必要があり、現時点ではほとんどのシステムにおいて実現されていない。
【００１２】
本発明の目的は上記の問題点に鑑み、有音状態と無音状態との境界における音声再生品質の向上を図った音声パケット送信装置とその方法並びに音声パケット受信装置及び音声パケット通信システムを提供することである。
【００１３】
【課題を解決するための手段】
本発明は上記の目的を達成するために、連続して入力した音声に基づく音声データを所定時間間隔で切り取った音声データフレームを生成する音声データフレーム生成手段を備え、該生成した音声データフレームを含んだパケットを生成し、該パケットを通信網を介して送信する音声パケット送信装置において、前記入力した音声が無音であるか否かを判定する無音判定手段と、前記無音判定手段によって入力された音声データフレームが無音と判定された状態が一定時間以上連続する場合にパケットの送信を停止する手段と、送信を停止するにあたって、送信する最後の音声データフレームの音声レベルを、先頭サンプルから末尾サンプルに向けて徐々に減少させた音声データに変換し、該変換された音声データフレームを最終パケットとして送信する手段を備えた音声パケット送信装置を提案する。
【００１４】
本発明の音声パケット送信装置によれば、入力された音声データフレームが無音と判定された状態が一定時間以上連続するとパケットの送信が停止される。このとき、送信する最後の音声データフレームの音声レベルは先頭サンプルから末尾サンプルに向けて徐々に減少され、最後に送信される音声データフレームにはフェードアウト処理が施される。
【００１５】
これにより、有音状態から無音状態になって最後に送信される音声データ部分すなわち話尾部分の音声レベルが徐々に減少されるフェードアウト処理が施されるため、受信側において有音状態から無音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることがなく、音声品質の劣化が低減される。
【００１６】
また、本発明は上記の音声パケット送信装置において、前記無音判定手段によって入力された音声データフレームが無音と判定された状態が一定時間以上連続する場合にパケットの送信を停止する手段と、送信を停止するにあたって、無音状態になったと判定された後に入力された音声フレームを少なくとも１つ以上送信する手段と、送信する最後の音声データフレームの音声レベルを、先頭サンプルから末尾サンプルに向かって徐々に減少させた音声データに変換し、該変換された音声データフレームを最終パケットとして送信する手段を備えた音声パケット送信装置を提案する。
【００１７】
本発明の音声パケット送信装置によれば、入力された音声データフレームが無音と判定された状態が一定時間以上連続するとパケットの送信が停止される。このとき、無音状態になったと判定された後に入力された音声フレームのうちの１つ以上の音声フレームが送信されると共に、最後に送信される音声データフレームにはその音声レベルが先頭サンプルから末尾サンプルに向かって徐々に減少されるフェードアウト処理が施される。
【００１８】
これにより、有音状態から無音状態になったと判定されてから１つ以上の音声データフレームが送信されるので、話尾部分が突然切れることがなくなると共に音声レベルが徐々に減少されるフェードアウト処理が施されるため、受信側において有音状態から無音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることがなく、音声品質の劣化が低減される。
【００１９】
また、本発明は上記の音声パケット送信装置において、前記音声レベルを先頭サンプルから末尾サンプルに向けて徐々に減少させた音声データフレームを含むパケットを送信した後に、さらに１つの無音音声データフレームを生成し、該無音音声データフレームを含むパケットを送信する手段を備えた音声パケット送信装置を提案する。
【００２０】
本発明の音声パケット送信装置によれば、音声レベルが先頭サンプルから末尾サンプルに向けて徐々に減少された音声データフレームを含むパケットを送信した後に、さらに１つの無音音声データフレームを含むパケットが送信されるので、有音状態から無音状態になり、送信が停止されたことを受信側において確実に認識することができる。
【００２１】
また、本発明は上記の音声パケット送信装置において、前記入力した音声が有音であるか否かを判定する有音判定手段と、前記入力された音声データフレームが無音であると判定された状態が一定時間以上連続し、パケットの送信を停止している状態で、前記入力された音声データフレームが前記有音判定手段で有音状態であると判定されたときに、パケットの送信を再開する手段と、パケットの送信を再開するにあたって、送信する最初の音声データフレームを、末尾サンプルから先頭サンプルに向かって音声レベルを徐々に減少させた音声データに変換し、有音状態の先頭として該変換された音声データフレームを含むパケットを送信する手段を備えた音声パケット送信装置を提案する。
【００２２】
本発明の音声パケット送信装置によれば、入力された音声データフレームが無音であると判定された状態が一定時間以上連続してパケットの送信が停止されている状態で、入力された音声データが有音状態に変わったときに、パケットの送信が再開される。また、このとき、パケットの送信を再開するにあたって、送信する最初の音声データフレームは、先頭サンプルから末尾サンプルに向かって音声レベルが徐々に増加させた音声データに変換され、有音状態の先頭として該変換された音声データフレームを含むパケットが送信される。
【００２３】
これにより、無音状態から有音状態になる音声データ部分すなわち話頭部分の音声レベルが徐々に増大されるフェードイン処理が施されるため、受信側において無音状態から有音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることが無く、音声品質の劣化が低減される。
【００２４】
また、本発明は上記の音声パケット送信装置において、前記パケットの送信を再開するにあたって、有音と判定された音声データフレームの少なくとも１つ前の無音データフレームを、末尾から先頭に向かって音声レベルを徐々に減少させた音声データに変換し、有音状態の先頭として該変換された音声データフレームを含むパケットを送信し、次に前記有音状態であると判定された音声データフレームを送信する手段を備えた音声パケット送信装置を提案する。
【００２５】
本発明の音声パケット送信装置によれば、無音状態の後に、入力した音声レベルが有音状態になったときに、有音状態であると判定された音声データフレームの少なくとも１つ前の音声データフレームが有音状態であるとされ、該音声データフレームを含むパケットから送信が開始される。これにより、無音状態から有音状態への復帰時に話頭が消失してしまうことがなくなる。さらに、話頭部分の音声レベルが徐々に増大されるフェードイン処理が施されるため、受信側において無音状態から有音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることが無く、音声品質の劣化が低減される。
【００２６】
また、本発明は上記の音声パケット送信装置において、前記入力された音声データフレームを保持する手段と、前記パケットの送信を再開するにあたって、有音と判定された音声データフレームの少なくとも１つ前の無音データフレームを再分析フレームとして、有音と判定された音声フレームの情報と前記再分析フレームまでの無音と判定された音声データフレームの情報とを用いて再分析する手段と、前記再分析の結果、前記再分析フレームが有音に近いと判定された場合には、前記再分析フレームの１つ前の音声データフレームを、末尾から先頭に向かって音声レベルを徐々に減少させた音声データに変換し、有音状態の先頭として該変換された音声データフレームを含むパケットを送信し、次に前記有音状態であると判定された音声データフレームと前記再分析フレームの１つ前のフレームとの間の無音データフレームを送信し、次に前記有音状態であると判定された音声データフレームを送信する手段と、前記再分析の結果、前記再分析フレームが無音に近いと判定された場合には、該再分析フレームを、末尾から先頭に向かって音声レベルを徐々に減少させた音声データに変換し、有音状態の先頭として該変換された音声データフレームを含むパケットを送信し、次に前記有音であると判定された音声データフレームを送信する手段とを備えた音声パケット送信装置を提案する。
【００２７】
本発明の音声パケット送信装置によれば、無音状態から有音状態に変化してパケットの送信が再開されるとき、有音と判定された音声データフレームの少なくとも１つ前の無音データフレームが再分析フレームとされ、有音と判定された音声フレームの情報と再分析フレームまでの無音と判定された音声データフレームの情報とを用いて再分析される。この再分析の結果、前記再分析フレームが有音に近いと判定された場合には、前記再分析フレームの１つ前の音声データフレームが、末尾から先頭に向かって音声レベルを徐々に減少させたフェードイン処理が施された音声データに変換される。さらに、このフェードイン処理が施された音声データフレームが有音状態の先頭とされて、該音声データフレームを含むパケットが送信される。この後、前記有音状態であると判定された音声データフレームまでの無音データフレームを含むパケットが送信され、次に前記有音状態であると判定された音声データフレームを含むパケットが送信される。
【００２８】
また、前記再分析の結果、前記再分析フレームが無音に近いと判定された場合には、該無音データフレームが、末尾から先頭に向かって音声レベルを徐々に減少させた音声データに変換され、有音状態の先頭として該変換された音声データフレームを含むパケットが送信された後に、前記有音であると判定された音声データフレームが送信される。
【００２９】
また、本発明は上記の音声パケット送信装置において、前記パケットの送信を再開するにあたって、有音と判定された音声データフレームの少なくとも１つ前のフレームを、有音状態の先頭として送信した場合に、余分に送信した無音フレームによって増加した遅延に相当するサンプル数だけ後続のサンプルを短縮する手段を有する音声パケット送信装置を提案する。
【００３０】
本発明の音声パケット送信装置によれば、パケットの送信を再開するにあたって、有音と判定された音声データフレームの少なくとも１つ前のフレームから有音状態として送信した場合に、余分に送信した無音フレームによって増加した遅延に相当するサンプル数だけ後続のサンプルが短縮される。これにより、遅延量が調整され、リアルタイムのデータ送信が保持される。
【００３１】
また、本発明は上記の音声パケット送信装置において、前記無音判定手段は、入力された音声フレームの音声レベルが所定の閾値レベル以下であるときに無音状態であると判定する手段を備えた音声パケット送信装置を提案する。
【００３２】
本発明の音声パケット送信装置によれば、無音判定手段によって、入力された音声フレームの音声レベルが所定の閾値レベル以下であるときに無音状態であると判定される。
【００３３】
また、本発明は上記の音声パケット送信装置において、前記有音判定手段は、入力された音声フレームの音声レベルが所定の閾値レベル以上であるときに有音状態であると判定する手段を備えた音声パケット送信装置を提案する。
【００３４】
本発明の音声パケット送信装置によれば、有音判定手段によって、入力された音声フレームの音声レベルが所定の閾値レベル以上であるときに有音状態であると判定される。
【００３５】
また、本発明は上記の音声パケット送信装置において、無音状態でパケット送信停止状態となっていて、有音により発話開始状態としてパケットを送信するに際して、送信する最初の音声フレームを符号化する場合に、音声符号化器の内部状態を初期化した後に音声フレームを符号化処理する手段と、最初のフレームをパケット化して送信するにあたって、パケット内に無音から復帰した最初のフレームであることを表す情報を含めて送信する手段とを有する音声パケット送信装置を提案する。
【００３６】
本発明の音声パケット送信装置によれば、送信休止状態から送信状態に移る際に音声符号化器の内部状態が初期化されてから音声データフレームが符号化処理される。これにより、送信休止前の符号化処理に用いられたデータ等の内部状態が初期化されるので、最適な符号化処理を行うことができる。さらに、送信休止状態から送信状態に移り、最初のフレームをパケット化して送信するにあたって、パケット内に無音から復帰した最初のフレームであることを表す情報を含めて送信されるため、該情報を受信側において参照することにより、最適な復号化処理を行うことができる。
【００３７】
また、本発明は上記の音声パケット送信装置において、前記符号化処理手段は、当該フレームを符号化処理するにあたって、符号化器の内部状態を初期化せずに前のフレームに続けて当該フレームを符号化した場合の符号化誤差と、符号化器の内部状態を初期化した後に当該フレームを符号化した場合の符号化誤差とを比較し、誤差の少ない方の符号化結果を送信する手段と、内部状態をリセットした後に当該フレームを符号化した結果を選択した場合には、無音から復帰した最初のフレームであるという情報を送信パケット内に含めて送信する手段とを有する音声パケット送信装置を提案する。
【００３８】
本発明の音声パケット送信装置によれば、前記符号化誤差が小さい方の符号化音声データフレームが用いられて、該符号化音声データフレームを含むパケットが送信される。さらに、符号化器の内部状態がリセットされた状態で符号化された符号化音声データフレームが用いられるときには、無音から復帰した最初のフレームであることを表す情報がパケットに含められて送信されるので、受信側において的確な復号化処理を行うことができる。
【００３９】
また、本発明は上記の目的を達成するために、連続して入力した音声に基づく音声データを所定時間間隔で切り取った音声データフレームを生成する音声データフレーム生成手段と、ユーザの発話の意志を取得する発話機能ボタンとを供え、該生成した音声データフレームを含んだパケットを生成し、該発話機能ボタンが押されている間だけ音声データフレームを含んだパケットを、通信網を介して送信する音声パケット送信装置において、前記発話機能ボタンが押されている状態か否かを判定する発話機能ボタン押下判定手段と、前記発話機能ボタン押下判定手段によって発話機能ボタンが押されている状態から、押されていない発話休止状態になったと判定された場合にパケットの送信を停止する手段と、送信を停止するにあたって、送信する最後の音声データフレームの音声レベルを、先頭サンプルから末尾サンプルに向かって徐々に減少させた音声データに変換し、該変換された音声データフレームを最終パケットとして送信する手段とを備えた音声パケット送信装置を提案する。
【００４０】
本発明の音声パケット送信装置によれば、発話機能ボタンが押されている状態から発話機能ボタンが押されていない発話休止状態になるとパケットの送信が停止される。このとき、送信する最後の音声データフレームの音声レベルは先頭サンプルから末尾サンプルに向けて徐々に減少され、最後に送信される音声データフレームにはフェードアウト処理が施される。
【００４１】
これにより、有音状態から無音状態になって最後に送信される音声データ部分すなわち話尾部分の音声レベルが徐々に減少されるフェードアウト処理が施されるため、受信側において有音状態から無音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることがなく、音声品質の劣化が低減される。
【００４２】
また、本発明は上記の音声パケット送信装置において、前記発話機能ボタン押下判定手段によって発話機能ボタンが押されている状態から押されていない発話休止状態になったと判定された場合にパケットの送信を停止する手段と、送信を停止するにあたって、発話休止状態になったと判定された後に入力された音声フレームを少なくとも１つ以上送信する手段と、送信する最後の音声データフレームの音声レベルを、先頭サンプルから末尾サンプルに向かって徐々に減少させた音声データに変換し、該変換された音声データフレームを最終パケットとして送信する手段とを備えた音声パケット送信装置を提案する。
【００４３】
本発明の音声パケット送信装置によれば、発話機能ボタンが押されている状態から押されていない発話休止状態になるとパケットの送信が停止される。このとき、発話機能ボタンが押されていない状態になったと判定された後に入力された音声フレームのうちの１つ以上の音声フレームが送信されると共に、最後に送信される音声データフレームにはその音声レベルが先頭サンプルから末尾サンプルに向かって徐々に減少されるフェードアウト処理が施される。
【００４４】
これにより、発話機能ボタンが押されていない状態になったと判定されてから１つ以上の音声データフレームが送信されるので、話尾部分が突然切れることがなくなると共に音声レベルが徐々に減少されるフェードアウト処理が施されるため、受信側において有音状態から無音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることがなく、音声品質の劣化が低減される。
【００４５】
また、本発明は上記の音声パケット送信装置において、前記音声レベルを先頭サンプルから末尾サンプルに向けて徐々に減少させた音声データフレームを含むパケットを送信した後に、さらに１つの無音音声データフレームを生成し、該無音音声データフレームを含むパケットを送信する手段を備えた音声パケット送信装置を提案する。
【００４６】
本発明の音声パケット送信装置によれば、音声レベルが先頭サンプルから末尾サンプルに向けて徐々に減少された音声データフレームを含むパケットを送信した後に、さらに１つの無音音声データフレームを含むパケットが送信されるので、有音状態から無音状態になり、送信が停止されたことを受信側において確実に認識することができる。
【００４７】
また、本発明は上記の音声パケット送信装置において、前記発話機能ボタン押下判定手段によって発話機能ボタンが押されていない状態から押されている状態になったと判定された場合に、発話開始状態として、前記停止していたパケットの送信を再開する手段と、パケットの送信を再開するにあたって、送信する最初の音声データフレームを、末尾サンプルから先頭サンプルに向かって音声レベルを徐々に減少させた音声データに変換し、発話状態の先頭として該変換された音声データフレームを含むパケットを送信する手段とを備えた音声パケット送信装置を提案する。
【００４８】
本発明の音声パケット送信装置によれば、発話機能ボタンが押されずにパケットの送信が停止されている状態で、発話機能ボタンが押された状態に変わったときに、パケットの送信が再開される。また、このとき、パケットの送信を再開するにあたって、送信する最初の音声データフレームは、先頭サンプルから末尾サンプルに向かって音声レベルが徐々に増加させた音声データに変換され、有音状態の先頭として該変換された音声データフレームを含むパケットが送信される。
【００４９】
これにより、発話機能ボタンが押されていない状態から押された状態になったときの音声データ部分すなわち話頭部分の音声レベルが徐々に増大されるフェードイン処理が施されるため、受信側において無音状態から有音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることが無く、音声品質の劣化が低減される。
【００５０】
また、本発明は上記の音声パケット送信装置において、前記発話機能ボタン押下判定手段によって発話機能ボタンが押されていない状態から押されている状態になったと判定された場合に、発話開始状態として、前記停止していたパケットの送信を再開する手段と、パケットの送信を再開するにあたって、発話機能ボタンが押された状態になった後に入力された最初の音声データフレームより前の音声データフレームを少なくとも１つ以上送信し、次に前記発話機能ボタンが押された状態になった後に入力された最初の音声データフレームを送信する手段とを備えた音声パケット送信装置を提案する。
【００５１】
本発明の音声パケット送信装置によれば、発話機能ボタンが押されていない状態から押されている状態になり、停止していたパケットの送信が再開されるとき、発話機能ボタンが押された状態になった後に入力された最初の音声データフレームより前の音声データフレームが少なくとも１つ以上送信され、次に前記発話機能ボタンが押された状態になった後に入力された最初の音声データフレームが送信される。これにより、話頭切れが防止される。
【００５２】
また、本発明は上記の音声パケット送信装置において、前記発話開始状態になった場合にパケットの送信を再開するにあたって、発話開始状態と判定された音声データフレームの少なくとも１つ前のフレームを、送信フレームの先頭として送信した場合に、余分に送信した音声データフレームによって増加した遅延に相当するサンプル数だけ後続のサンプルを短縮する手段を有する音声パケット送信装置を提案する。
【００５３】
本発明の音声パケット送信装置によれば、パケットの送信を再開するにあたって、発話開始状態と判定された音声データフレームの少なくとも１つ前のフレームから送信した場合に、余分に送信した音声データフレームによって増加した遅延に相当するサンプル数だけ後続のサンプルが短縮される。これにより、遅延量が調整され、リアルタイムのデータ送信が保持される。
【００５４】
また、本発明は上記の音声パケット送信装置において、発話機能ボタンを押下されない状態で、パケット送信停止状態となっていて、発話機能ボタン押下により発話開始状態としてパケットを送信するに際して、送信する最初の音声フレームを符号化する場合に、音声符号化器の内部状態を初期化した後に音声フレームを符号化処理する手段と、最初のフレームをパケット化して送信するにあたって、パケット内に無音から復帰した最初のフレームであることを表す情報を含めて送信する手段とを有する音声パケット送信装置を提案する。
【００５５】
本発明の音声パケット送信装置によれば、送信停止状態から送信状態に移る際に音声符号化器の内部状態が初期化されてから音声データフレームが符号化処理される。これにより、送信停止前の符号化処理に用いられたデータ等の内部状態が初期化されるので、最適な符号化処理を行うことができる。
【００５６】
さらに、送信停止状態から送信状態に移り、最初のフレームをパケット化して送信するにあたって、パケット内に無音から復帰した最初のフレームであることを表す情報を含めて送信されるため、該情報を受信側において参照することにより、最適な復号化処理を行うことができる。
【００５７】
また、本発明は上記の音声パケット送信装置において、前記符号化処理手段は、当該フレームを符号化処理するにあたって、符号化器の内部状態を初期化せずに前のフレームに続けて当該フレームを符号化した場合の符号化誤差と、符号化器の内部状態を初期化した後に当該フレームを符号化した場合の符号化誤差とを比較し、誤差の少ない方の符号化結果を送信する手段と、内部状態をリセットした後に当該フレームを符号化した結果を選択した場合には、無音から復帰した最初のフレームであるという情報を送信パケット内に含めて送信する手段とを有する音声パケット送信装置を提案する。
【００５８】
本発明の音声パケット送信装置によれば、前記符号化誤差が小さい方の符号化音声データフレームが用いられて、該符号化音声データフレームを含むパケットが送信される。さらに、符号化器の内部状態がリセットされた状態で符号化された符号化音声データフレームが用いられるときには、無音から復帰した最初のフレームであることを表す情報がパケットに含められて送信されるので、受信側において的確な復号化処理を行うことができる。
【００５９】
また、本発明は上記の目的を達成するために、音声入力手段によって入力した音声を音声データに変換する手段を有するコンピュータ装置を用いて、連続して入力した音声に基づく音声データを所定時間間隔で切り取った音声データフレームを生成すると共に該音声データフレームを含んだパケットを生成し、該パケットを通信網を介して送信する音声パケット送信方法において、前記コンピュータ装置は、前記入力した音声が無音であるか否かを判定し、前記入力された音声データフレームが無音と判定された状態が一定時間以上連続する場合にパケットの送信を停止し、送信を停止するにあたって、送信する最後の音声データフレームの音声レベルを、先頭サンプルから末尾サンプルに向けて徐々に減少させた音声データに変換し、前記変換した音声データフレームを最終パケットとして送信する音声パケット送信方法を提案する。
【００６０】
本発明の音声パケット送信方法によれば、入力された音声データフレームが無音と判定された状態が一定時間以上連続するとパケットの送信が停止される。このとき、送信する最後の音声データフレームの音声レベルは先頭サンプルから末尾サンプルに向けて徐々に減少され、最後に送信される音声データフレームにはフェードアウト処理が施される。
【００６１】
これにより、有音状態から無音状態になって最後に送信される音声データ部分すなわち話尾部分の音声レベルが徐々に減少されるフェードアウト処理が施されるため、受信側において有音状態から無音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることがなく、音声品質の劣化が低減される。
【００６２】
また、本発明は上記の音声パケット送信方法において、前記コンピュータ装置は、前記入力された音声データフレームが無音であると判定された状態が一定時間以上連続し、パケットの送信を停止している状態で、前記入力された音声データフレームが前記有音判定手段で有音状態であると判定されたときに、パケットの送信を再開し、パケットの送信を再開するにあたって、送信する最初の音声データフレームを、末尾サンプルから先頭サンプルに向かって音声レベルを徐々に減少させた音声データに変換し、有音状態の先頭として前記変換した音声データフレームを含むパケットを送信する音声パケット送信方法を提案する。
【００６３】
本発明の音声パケット送信方法置によれば、入力された音声データフレームが無音と判定された状態が一定時間以上連続するとパケットの送信が停止される。このとき、無音状態になったと判定された後に入力された音声フレームのうちの１つ以上の音声フレームが送信されると共に、最後に送信される音声データフレームにはその音声レベルが先頭サンプルから末尾サンプルに向かって徐々に減少されるフェードアウト処理が施される。
【００６４】
これにより、有音状態から無音状態になったと判定されてから１つ以上の音声データフレームが送信されるので、話尾部分が突然切れることがなくなると共に音声レベルが徐々に減少されるフェードアウト処理が施されるため、受信側において有音状態から無音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることがなく、音声品質の劣化が低減される。
【００６５】
また、本発明は上記の目的を達成するために、音声入力手段によって入力した音声を音声データに変換する手段を有するコンピュータ装置を用いて、連続して入力した音声に基づく音声データを所定時間間隔で切り取った音声データフレームを生成すると共に、該生成した音声データフレームを含んだパケットを生成し、ユーザの発話の意志を取得する発話機能ボタンが押されている間だけ音声データフレームを含んだパケットを、通信網を介して送信する音声パケット送信方法において、前記コンピュータ装置は、前記発話機能ボタンが押されている状態か否かを判定し、前記発話機能ボタンが押されている状態から、押されていない発話休止状態になったと判定された場合にパケットの送信を停止し、送信を停止するにあたって、送信する最後の音声データフレームの音声レベルを、先頭サンプルから末尾サンプルに向かって徐々に減少させた音声データに変換し、前記変換した音声データフレームを最終パケットとして送信する音声パケット送信方法を提案する。
【００６６】
本発明の音声パケット送信方法によれば、発話機能ボタンが押されている状態から発話機能ボタンが押されていない発話休止状態になるとパケットの送信が停止される。このとき、送信する最後の音声データフレームの音声レベルは先頭サンプルから末尾サンプルに向けて徐々に減少され、最後に送信される音声データフレームにはフェードアウト処理が施される。
【００６７】
これにより、有音状態から無音状態になって最後に送信される音声データ部分すなわち話尾部分の音声レベルが徐々に減少されるフェードアウト処理が施されるため、受信側において有音状態から無音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることがなく、音声品質の劣化が低減される。
【００６８】
また、本発明は上記の音声パケット送信方法において、前記コンピュータ装置は、前記発話機能ボタンが押されていない状態から押されている状態になったと判定された場合に、発話開始状態として、前記停止していたパケットの送信を再開し、パケットの送信を再開するにあたって、送信する最初の音声データフレームを、末尾サンプルから先頭サンプルに向かって音声レベルを徐々に減少させた音声データに変換し、発話状態の先頭として前記変換した音声データフレームを含むパケットを送信する音声パケット送信方法を提案する。
【００６９】
本発明の音声パケット送信方法によれば、発話機能ボタンが押されずにパケットの送信が停止されている状態で、発話機能ボタンが押された状態に変わったときに、パケットの送信が再開される。また、このとき、パケットの送信を再開するにあたって、送信する最初の音声データフレームは、先頭サンプルから末尾サンプルに向かって音声レベルが徐々に増加させた音声データに変換され、有音状態の先頭として該変換された音声データフレームを含むパケットが送信される。
【００７０】
これにより、発話機能ボタンが押されていない状態から押された状態になったときの音声データ部分すなわち話頭部分の音声レベルが徐々に増大されるフェードイン処理が施されるため、受信側において無音状態から有音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることが無く、音声品質の劣化が低減される。
【００７１】
また、本発明は上記の目的を達成するために、受信したパケット内に無音から復帰した最初のフレームであることを表す情報が含まれていた場合に、音声復号化器の内部状態を初期化した後に、フレームの復号処理を行う手段を有する音声パケット受信装置を提案する。
【００７２】
本発明の音声パケット受信装置によれば、上記のような音声パケット送信装置から受信したパケットに無音から復帰した最初のフレームであることを意味する情報が含まれているときは、該パケットの音声データフレームから音声再生が開始される。
【００７３】
また、本発明は上記の目的を達成するために、音声パケットを生成して該音声パケットを送信する音声パケット送信装置と、前記送信された音声パケットを通信網を介して受信する音声パケット受信装置とからなる音声パケット通信システムにおいて、上記音声パケット送信装置と、上記音声パケット受信装置とからなる音声パケット通信システムを提案する。
【００７４】
本発明の音声パケット通信システムによれば、上記のような非常に単純な方法を用いて無音状態と有音状態との間の遷移部分における音声再生品質の向上を図ることができると同時に、受信装置側で非同期にパケット消失補償を行う場合にも影響を与えない。
【００７５】
【発明の実施の形態】
以下、図面に基づいて本発明の一実施形態を説明する。
【００７６】
図１は本発明の第１実施形態における音声パケット通信システムの機能構成を示すブロック図、図２は本発明の第１実施形態における音声パケット送信装置による音声信号のパケット化を説明する図、図３は本発明の第１実施形態において用いているリアルタイム転送プロトコル（以下、ＲＴＰと称する）ヘッダを説明する図である。図において１は音声パケット送信装置（以下、単に送信装置と称する）、２は音声パケット受信装置（以下、単に受信装置と称する）、３はインターネット等の通信網である。本実施形態では、一例として、通信網３を介して送信装置１からＵＤＰ／ＩＰを用いて音声パケットをリアルタイムで受信装置２に転送するシステムに関して説明する。
【００７７】
送信装置１は、周知のコンピュータ装置から構成され、予め設定されているプログラムよって動作し、音声入力部１１と、アナログ／ディジタル（Ａ／Ｄ）変換部１２、有音無音判定部１３、スイッチ部１４、フェードイン・フェードアウト処理部１５、符号化処理部１６、パケット生成部１７、送信部１８とから構成されている。これらの送信装置１を構成する各部分は、ハードウェア及びソフトウェアの両方によって構成されている。
【００７８】
受信装置２は、周知のコンピュータ装置から構成され、予め設定されているプログラムよって動作し、受信部２１と、パケット解析部２２、復号化処理部２３、ディジタル／アナログ（Ｄ／Ａ）変換部２４、音声出力部２５とから構成されている。これらの受信装置２を構成する各部分は、ハードウェア及びソフトウェアの両方によって構成されている。
【００７９】
音声入力部１１は音声信号を図２に示すようなアナログ電気信号４に変換してＡ／Ｄ変換部１２に出力し、Ａ／Ｄ変換部１２によって所定のサンプリングタイムでディジタル信号に変換された音声データ（サンプル）が有音無音判定部１３に備わるバッファに順次格納される。
【００８０】
また、図２に示すように、バッファに格納された音声データは、有音無音判定部１３によって、所定周期Ｔ毎に切り取られ音声データフレームとして先頭から順に１フレームずつ順送りに有音状態であるか無音状態であるかが判定される。
【００８１】
さらに、有音無音判定部１３は、上記有音状態であるか無音状態であるかの判定結果に基づいて、無音状態から有音状態に変わったときにフェードイン処理を行うためにスイッチ部１４を切り替えることによって出力信号をフェードイン・フェードアウト処理部１５に出力すると共に、有音状態から無音状態に変わったときにフェードアウト処理を行うためにスイッチ部１４を切り替えることによって出力信号をフェードイン・フェードアウト処理部１５に出力する。また、有音状態が続いているときは、有音無音判定部１３は、スイッチ部１４を切り替えることによって出力信号を符号化処理部１６に出力する。このとき、図２に示すように所定のしきい値Ｓｔｈを越えたときに有音状態と判定される。
【００８２】
フェードイン・フェードアウト処理部１５は、音声入力が無音状態であって送信休止状態にあるときから、音声入力が有音状態になり、送信を開始するときに、音声データフレームの音声レベルを末尾サンプルから先頭サンプルに向けて徐々に減少させるフェードイン処理と、音声入力が有音状態であって送信状態にあるときから、音声入力が無音状態になり、送信を休止するときに、音声データフレームの音声レベルを先頭サンプルから末尾サンプルに向けて徐々に減少させるフェードアウト処理を行う。
【００８３】
符号化処理部１６は、有音無音判定部１３或いはフェードイン・フェードアウト処理部から入力した符号化対象となる音声データフレームの符号化処理を行うが、符号化処理を行うに際して前のフレームを符号化した結果の内部状態を保持し、過去からの予測を行うことで符号化利得を向上させている。
【００８４】
本実施例においては、パケット消失により送信元と受信側での符号化器、復号化器の内部状態不一致による品質劣化を低減するために、無音状態から有音状態に変化した場合に、符号化器の内部状態をリセットし初期値を用いることにより伝送誤りによる品質低下の発生を低減している。
【００８５】
さらに、符号化処理１６は、分析結果に基づいて符号化対象となる音声データフレームを符号化してパケット生成部１７に送出する。
【００８６】
これにより生成された音声データフレームは、図２に示すように、無音状態の次の有音状態とされた音声データフレームは音声レベルが徐々に増加されるフェードイン処理が施された音声データ３１となる。さらに、有音状態の次に無音状態とされた音声データフレームは音声レベルが徐々に減少されるフェードアウト処理が施された音声データ３１となる。
【００８７】
パケット生成部１７は、符号化処理部１６から入力した符号化された音声データを含むＲＴＰパケットを生成して送信部１８へ送出する。このときのＲＴＰパケットには図３に示すようなＲＴＰヘッダが付加される。
【００８８】
ＲＴＰヘッダには、周知のように、２ビットのＶｅｒｓｉｏｎ情報Ｖと、１ビットのＰａｄｄｉｎｇ情報Ｐ、１ビットのＥｘｔｅｎｓｉｏｎ情報Ｘ、３ビットのＣＳＲＣ−Ｃｏｕｎｔ情報ＣＣ、１ビットのＭａｒｋｅｒ情報（以下、マーカービットと称する）Ｍ、７ビットのＰａｙｌｏａｄ−Ｔｙｐｅ情報ＰＴ、１６ビットのシーケンス番号（順序番号：ＳｅｑｕｅｎｃｅＮｕｍｂｅｒ）、３２ビットのタイムスタンプ（Ｔｉｍｅｓｔａｍｐ）、３２ビットの同期信号元（ＳＳＲＣ）識別子、３２ビットの寄与送信元（ＣＳＲＣ）識別子等が含まれている。
【００８９】
また、本実施形態では、無音状態であってパケット送信を停止していた後に有音状態になって最初に送信するパケットのマーカービットＭを「１」に設定し、その他のパケットのマーカービットＭを「０」に設定する。
【００９０】
送信部１８は、パケット生成部１７から入力したＲＴＰパケットを通信網３を介して受信装置２に送信する。
【００９１】
一方、受信装置２の受信部２１は、通信網３を介して送信装置１から送信されたＲＴＰパケットを受信しパケット解析部２２に送出する。
【００９２】
パケット解析部２２は、受信部２１から入力したＲＴＰパケットを解析してヘッダ部と符号化された音声データフレームに分離すると共に、ヘッダ部の内容を解析し、ＲＴＰタイムスタンプに基づいて、送信された順番に符号化された音声データフレームを復号化処理部２３に出力する。さらに、パケット解析部２２は、ＲＴＰヘッダのマーカービットＭの値を復号化処理部２３に通知する。
【００９３】
復号化処理部２３は、パケット解析部２２から入力した符号化された音声データフレームを復号してディジタル音声データに変換しこのディジタル音声データをＤ／Ａ変換部２３に出力する。また、復号化処理部２３は、復号化を行う際に、符号化された音声データフレームを分析しその分析結果を一時記憶すると共に、データ分析を行う際に、一時記憶されている分析結果或いは分析初期値を参照してデータ分析を行う。ここで、一時記憶されている１フレーム前の分析結果を用いることにより前後のフレーム間の相関を考慮した最適な分析及び復号を行えるようにしている。
【００９４】
また、復号化処理部２３は、パケット解析部２２から入力したマーカービットＭの値が「１」であるときに、復号化器の内部状態をリセットして初期化する。この初期化により、復号化対象となる音声データフレームが無音状態にあった後に有音状態の音声データフレームを分析するときは内部状態を初期化して復号処理を行うこととなるので、パケット消失等の伝送誤りが発生した場合にも、送信側の符号化器、受信側の復号化器の内部状態が不一致となる状態から復帰することができ、音声品質の劣化を低減することができる。
【００９５】
Ｄ／Ａ変換部２３は、復号化処理部２３によって復号して得られたディジタル音声データを入力してアナログ音声信号に変換して音声出力部２４に出力する。
【００９６】
音声出力部２４は、Ｄ／Ａ変換部２３から入力したアナログ音声データを音声に変換して出力する。
【００９７】
次に、上記構成よりなる音声パケット通信システムの動作に関して、主に送信装置の動作に関する処理フローチャートを図４乃至図６に示して説明する。
【００９８】
送信装置１においては、駆動開始直後に初期化処理を行う（ＳＡ１）。この初期化処理では、変数である無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値を「０」に設定すると共にＲＴＰＴｉｍｅＳｔａｍｐの値を「０」に設定する。
【００９９】
次に、送信装置１は、処理を開始すると、音声入力部１１を介して入力した音声信号は順次Ａ／Ｄ変換部１２を介して有音無音判定部１３のバッファに格納する（ＳＡ２）。
【０１００】
次いで、送信装置１は、有音無音判定部１３のバッファに格納されている先頭の音声データから順に、判定対象となる音声データフレームのパワーが閾値以下であるか否かすなわち無音状態であるか有音状態であるかを判定し（ＳＡ３）、音声データフレームのパワーが閾値よりも大きい有音状態のときは後述する前記ＳＡ１９の処理に移行する。
【０１０１】
また、音声データフレームのパワーが閾値以下の無音状態のときは、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔを「１」増加し（ＳＡ４）、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きい送信休止状態であるか否かを判定する（ＳＡ５）。
【０１０２】
この判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きい送信休止状態であるときは後述するＳＡ１２の処理に移行し、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ以下のときは、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓに等しいか否かすなわち送信休止状態が開始されたか否かを判定する（ＳＡ６）。
【０１０３】
この判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓに等しくないときは後述するＳＡ７の処理に移行し、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓに等しいときは現在の音声データフレームをフェードアウト処理する（ＳＡ７）。
【０１０４】
次に、フェードアウト処理した音声データフレームを符号化処理し（ＳＡ８）、この符号化処理した音声データフレームとこれに対応するＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐとを含むパケットを生成して、このパケットを送信する（ＳＡ９）。
【０１０５】
この後、ＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐをフレーム長分増加する（ＳＡ１０）。即ち、ＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐの値にフレーム長ＦｒａｍｅＬｅｎの値を加算した値を新たなＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐの値とする。
【０１０６】
次いで、現在の音声データフレームをバッファに保持して（ＳＡ１１）、前記ＳＡ２の処理に移行する。
【０１０７】
一方、前記ＳＡ５の判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きい送信休止状態であるときは、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ＋１に等しく送信休止状態になったばかりであるか否かを判定する（ＳＡ１２）。
【０１０８】
この判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ＋１に等しくないときは後述するＳＡ１６の処理に移行し、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ＋１に等しいときは理想的な無音音声データフレームを生成して（ＳＡ１３）、この無音音声データフレームを符号化し（ＳＡ１４）、この符号化した理想的な無音音声データフレームとこれに対応するＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐとを含むパケットを生成して、このパケットを送信する（ＳＡ１５）。この後、前記ＳＡ１０の処理に移行する。
【０１０９】
また、前記ＳＡ１２の判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ＋１に等しくないときは、遅延カウントＤｅｌａｙＣｏｕｎｔの値からフレーム長ＦｒａｍｅＬｅｎの値を減算した値を新たな遅延カウントＤｅｌａｙＣｏｕｎｔの値とし（ＳＡ１６）、遅延カウントＤｅｌａｙＣｏｕｎｔの値が０以下であるか否かを判定する（ＳＡ１７）。
【０１１０】
この判定の結果、遅延カウントＤｅｌａｙＣｏｕｎｔの値が０よりも大きいときは前記ＳＡ１０の処理に移行し、遅延カウントＤｅｌａｙＣｏｕｎｔの値が０以下であるときは遅延カウントＤｅｌａｙＣｏｕｎｔの値を０に設定して（ＳＡ１８）、前記ＳＡ１０の処理に移行する。
【０１１１】
一方、前記ＳＡ３の判定の結果、音声データフレームのパワーが閾値よりも大きい有音状態のときは、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きいか否かすなわち１つ前のフレームは送信休止状態であるか否かを判定する（ＳＡ１９）。
【０１１２】
この判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ以下のときは後述するＳＡ２７の処理に移行する。また、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きいときは、バッファに保持されている１つ前の音声データフレームをフェードイン処理し（ＳＡ２０）、さらにこのフェードイン処理した音声データフレームを符号化処理する（ＳＡ２１）。
【０１１３】
次に、フェードイン処理した音声データフレームと該音声データフレームに対応するＲＴＰタイムスタンプ（ＲＴＰＴｉｍｅＳｔａｍｐ−ＦｒａｍｅＬｅｎ）とを含むパケットを生成して該パケットを送信する（ＳＡ２２）。このとき、ＲＴＰヘッダのマーカービットＭを「１」に設定しておく。
【０１１４】
この後、現在の音声データフレームすなわちフェードイン処理した音声データフレームの次の音声データフレームを符号化処理し（ＳＡ２３）、該符号化処理した音声データフレームと現在のＲＴＰタイムスタンプＲＴＰＴｉｍｅｓｔａｍｐとを含むパケットを生成してこれを送信する（ＳＡ２４）。
【０１１５】
次に、遅延増加量カウンタＤｅｌａｙＣｏｕｎｔの値をフレーム長ＦｒａｍｅＬｅｎの値分だけ増加させる（ＳＡ２５）と共に、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値を「０」に初期化する（ＳＡ２６）。この後、前記ＳＡ１０の処理に移行する。
【０１１６】
一方、前記ＳＡ１９の判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ以下のときは現在の音声データフレームを符号化処理し（ＳＡ２７）、この符号化処理した音声データフレームとこれに対応する現在のＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐとを含むパケットを生成してこれを送信する（ＳＡ２８）。この後、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値を「０」に設定して初期化した後（ＳＡ２９）、前記ＳＡ１０の処理に移行する。
【０１１７】
上記実施形態によれば、無音状態から有音状態に遷移するときに有音状態になる１つ前のフレームをフェードイン処理して得られた音声データフレームを含むパケットを送信するので、無音状態から有音状態への復帰時に話頭が消失してしまうことがなくなる。
【０１１８】
さらに、送信装置１は、音声レベルが先頭サンプルから末尾サンプルに向けて徐々に減少された音声データフレームを含むパケットを送信した後に、さらに１つの理想的な無音音声データフレームを含むパケットが送信されるので、有音状態から無音状態になり、送信が停止されたことを受信側において確実に認識することができる。
【０１１９】
また、有音状態から無音状態になったときの音声データフレームすなわち話尾部分の音声レベルが徐々に減少されるフェードアウト処理が施されるため、受信側において有音状態から無音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることがなく、音声品質の劣化が低減される。
【０１２０】
さらに、上記実施形態によれば、有音状態から無音状態になったと判定されてから１つ以上の音声データフレームが送信されるので、話尾部分が突然切れることがなくなると共に音声レベルが徐々に減少されるフェードアウト処理が施されるため、受信側において有音状態から無音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることがなく、音声品質の劣化が低減される。
【０１２１】
また、上記実施形態によれば、送信休止状態から送信状態に移り、最初の音声データフレームをパケット化して送信するときに、ＲＴＰヘッダのマーカービットＭを「１」に設定することによって、無音から復帰した最初の音声データフレームであることを表しているので、このマーカービットＭを受信側において参照し、復号化器の内部状態をリセットすることにより、伝送誤りに対する耐性を向上することができる。
【０１２２】
尚、上記フェードイン処理及びフェードアウト処理を複数の音声データフレームにまたがって施しても良い。また、複数の無音状態の音声データフレームが連続した後に有音状態の音声データフレームが存在したときに上記フェードイン処理を行うようにしても良い。
【０１２３】
次に、本発明の第２実施形態を説明する。
【０１２４】
図７は第２実施形態における音声パケット通信システムの機能構成を示すブロック図である。図において、前述した第１実施形態と同一構成部分は同一符号を持って表しその説明を省略する。
【０１２５】
また、第２実施形態と第１実施形態との相違点は、第２実施形態では前述した第１実施形態における有音無音判定部１３に代えて発話機能ボタン制御情報を入力してこの発話機能ボタン制御情報に基づいて有音無音の判定を行う送信判定処理部１９を設けたことである。
【０１２６】
第２実施形態における送信判定処理部１９は、第１実施形態における有音無音判定部１３が有する機能に加えて、発話者が発話するときに押下する発話機能ボタン（図示せず）から入力した発話機能ボタン制御情報に基づいて、発話制御ボタンが押下されている（オンされている）ことを認識すると共に、発話制御ボタンが押下された時点から数フレーム過去にさかのぼった音声データフレームから送信を開始する機能を備えている。このときもフェードイン処理を行うことは第１実施形態と同様である。ここで、発話者が発話中であるときは発話機能ボタンは押下され続ける。
【０１２７】
以下に、第２実施形態における処理の詳細を図８乃至図１０のフローチャートを参照して説明する。
【０１２８】
送信装置１においては、駆動開始直後に初期化処理を行う（ＳＢ１）。この初期化処理では、変数である無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値を「０」に設定すると共にＲＴＰＴｉｍｅＳｔａｍｐの値を「０」に設定する。
【０１２９】
次に、送信装置１は、処理を開始すると、音声入力部１１を介して入力した音声信号は順次Ａ／Ｄ変換部１２を介して有音無音判定部１３のバッファに格納する（ＳＢ２）。
【０１３０】
次いで、送信装置１は、発話機能ボタンが押下されているか否かを判定し（ＳＢ３）、発話機能ボタンが押下中であるときは後述する前記ＳＢ１９の処理に移行する。
【０１３１】
また、発話機能ボタンが押下されていないときは、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値を「１」増加し（ＳＢ４）、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きい送信休止状態であるか否かを判定する（ＳＢ５）。
【０１３２】
この判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きい送信休止状態であるときは後述するＳＢ１２の処理に移行し、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ以下のときは、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓに等しいか否かすなわち送信休止状態が開始されたか否かを判定する（ＳＢ６）。
【０１３３】
この判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓに等しくないときは後述するＳＢ７の処理に移行し、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓに等しいときは現在の音声データフレームをフェードアウト処理する（ＳＢ７）。
【０１３４】
次に、フェードアウト処理した音声データフレームを符号化処理し（ＳＢ８）、この符号化処理した音声データフレームとこれに対応するＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐとを含むパケットを生成して、このパケットを送信する（ＳＢ９）。
【０１３５】
この後、ＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐをフレーム長分増加する（ＳＢ１０）。即ち、ＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐの値にフレーム長ＦｒａｍｅＬｅｎの値を加算した値を新たなＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐの値とする。
【０１３６】
次いで、現在の音声データフレームをバッファに保持して（ＳＢ１１）、前記ＳＢ２の処理に移行する。
【０１３７】
一方、前記ＳＢ５の判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きい送信休止状態であるときは、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ＋１に等しく送信休止状態になったばかりであるか否かを判定する（ＳＢ１２）。
【０１３８】
この判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ＋１に等しくないときは後述するＳＢ１６の処理に移行し、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ＋１に等しいときは理想的な無音音声データフレームを生成して（ＳＢ１３）、この無音音声データフレームを符号化し（ＳＢ１４）、この符号化した理想的な無音音声データフレームとこれに対応するＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐとを含むパケットを生成して、このパケットを送信する（ＳＢ１５）。この後、前記ＳＢ１０の処理に移行する。
【０１３９】
また、前記ＳＢ１２の判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ＋１に等しくないときは、遅延カウントＤｅｌａｙＣｏｕｎｔの値からフレーム長ＦｒａｍｅＬｅｎの値を減算した値を新たな遅延カウントＤｅｌａｙＣｏｕｎｔの値とし（ＳＢ１６）、遅延カウントＤｅｌａｙＣｏｕｎｔの値が０以下であるか否かを判定する（ＳＢ１７）。
【０１４０】
この判定の結果、遅延カウントＤｅｌａｙＣｏｕｎｔの値が０よりも大きいときは前記ＳＢ１０の処理に移行し、遅延カウントＤｅｌａｙＣｏｕｎｔの値が０以下であるときは遅延カウントＤｅｌａｙＣｏｕｎｔの値を０に設定して（ＳＢ１８）、前記ＳＢ１０の処理に移行する。
【０１４１】
一方、前記ＳＢ３の判定の結果、音声データフレームのパワーが閾値よりも大きい有音状態のときは、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きいか否かすなわち１つ前のフレームは送信休止状態であるか否かを判定する（ＳＢ１９）。
【０１４２】
この判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ以下のときは後述するＳＢ２２の処理に移行する。また、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きいときは、後述する送信再開処理を実行し（ＳＢ２０）、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値を「０」に初期化する（ＳＢ２６）。この後、前記ＳＢ１０の処理に移行する。
【０１４３】
一方、前記ＳＢ１９の判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ以下のときは現在の音声データフレームを符号化処理し（ＳＢ２２）、この符号化処理した音声データフレームとこれに対応する現在のＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐとを含むパケットを生成してこれを送信する（ＳＢ２３）。この後、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値を「０」に設定して初期化した後（ＳＢ２４）、前記ＳＢ１０の処理に移行する。
【０１４４】
（送信再開処理の第１実施例）
図１１は第１実施例の送信再開処理における音声信号のパケット化を説明する図、図１２は第１実施例の送信再開処理を説明するフローチャートである。
【０１４５】
第１実施例の送信再開処理では、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値が定数ＳｔａｒｔＦｒａｍｅｓの値よりも大きいか否か、すなわち送信停止時間が十分長いか否かを判定し（ＳＣ１）、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値が定数ＳｔａｒｔＦｒａｍｅｓの値よりも大きいときは送信再開時に時間をさかのぼって送信する音声データフレームの数を設定する（ＳＣ２）。このとき、さかのぼる数Ｎの値を上記定数ＳｔａｒｔＦｒａｍｅｓの値に設定する。また、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値が定数ＳｔａｒｔＦｒａｍｅｓの値以下のときは数Ｎの値を無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値よりも２だけ小さい数（Ｎ＝ＳｉｌｅｎｔＣｏｕｎｔ − ２）に設定する（ＳＣ３）。
【０１４６】
次に、バッファに保持されているＮ個前の音声データフレームをフェードイン処理し（ＳＣ４）、さらにこのフェードイン処理した音声データフレームを符号化処理する（ＳＣ５）。
【０１４７】
この後、フェードイン処理した音声データフレームとこれに対応するＮ個前のＲＴＰタイムスタンプ（ＲＴＰＴｉｍｅＳｔａｍｐ − ＦｒａｍｅＬｅｎ＊Ｎ）（ここで、＊は乗算を表す）とを含むパケットを生成してこれを送信する（ＳＣ６）。このとき、ＲＴＰヘッダにおけるマーカービットＭを「１」に設定して送信する。
【０１４８】
次いで、バッファに保持したＮ−１個前から現在までの音声データフレームを順次符号化処理し、この符号化処理した音声データフレームと、これに対応するＲＴＰタイムスタンプ（ＲＴＰＴｉｍｅＳｔａｍｐ − （Ｎ−１−ｉ）＊ＦｒａｍｅＬｅｎ）とを含むパケットを生成して順次送信する（ＳＣ７）。ここで、ｉは１以上（Ｎ−１）以下の整数である。
【０１４９】
この後、遅延増加量カウンタＤｅｌａｙＣｏｕｎｔの値をＮ個のフレーム長分（ＦｒａｍｅＬｅｎ＊Ｎ）だけ増加させて（ＤｅｌａｙＣｏｕｎｔ＋＝ＦｒａｍｅＬｅｎ＊Ｎ）（ＳＣ８）、送信再開処理を終了する。
【０１５０】
このとき、Ｎ個のフレームうち、無音音声データフレームや定常部分を信号処理により間引いたり、ＤｅｌａｙＣｏｕｎｔが正の間だけ将来のフレームについても間引くことによって遅延の増加を抑えるようにすることもできる。その場合には、間引いた分だけＤｅｌａｙＣｏｕｎｔを減少させる。
【０１５１】
上記第２実施形態の第１実施例によれば、発話機能ボタンが押下されて発話が開始され、無音状態から有音状態に遷移するときに、発話機能ボタンが押下された瞬間のフレームからＮ個前のフレームにさかのぼって、フェードイン処理して得られた音声データフレームを含むパケットから送信するので、無音状態から有音状態への復帰時に話頭が消失してしまうことがなくなる。
【０１５２】
さらに、有音状態から無音状態になったときの音声データフレームすなわち話尾部分の音声レベルが徐々に減少されるフェードアウト処理も第１実施形態と同様に施されるため、受信側において有音状態から無音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることがなく、音声品質の劣化が低減される。
【０１５３】
（送信再開処理の第２実施例）
図１３は第２実施例の送信再開処理における音声信号のパケット化を説明する図、図１４は第２実施例の送信再開処理を説明するフローチャートである。
【０１５４】
第２実施例の送信再開処理では、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値が定数ＳｔａｒｔＦｒａｍｅｓの値よりも大きいか否か、すなわち送信停止時間が十分長いか否かを判定し（ＳＤ１）、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値が定数ＳｔａｒｔＦｒａｍｅｓの値よりも大きいときは送信再開時に時間をさかのぼって送信する音声データフレームの数を設定する（ＳＤ２）。このとき、さかのぼる数Ｎの値を上記定数ＳｔａｒｔＦｒａｍｅｓの値に設定する。また、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値が定数ＳｔａｒｔＦｒａｍｅｓの値以下のときは数Ｎの値を無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値よりも２だけ小さい数（Ｎ＝ＳｉｌｅｎｔＣｏｕｎｔ − ２）に設定する（ＳＤ３）。
【０１５５】
次に、変数ｉを１に設定（ｉ＝１）し（ＳＤ４）、バッファに保持されている音声データフレームのうち、現時点の音声データフレームからｉ個前の音声データフレームのパワーｐ（ｉ）を計算し（ＳＤ５）、パワーｐ（ｉ）が所定の閾値以下であるか否か、又は変数ｉの値が（Ｎ−１）以上であるか否かを判定する。
【０１５６】
この判定の結果、パワーｐ（ｉ）が閾値よりも大きいとき又は変数ｉの値が（Ｎ−１）よりも小さいときは、変数ｉの値を１だけ増加して（ＳＤ７）前記ＳＤ５の処理に移行する。また、パワーｐ（ｉ）が閾値以下であるか又は変数ｉの値が（Ｎ−１）以上であるときは、現時点の音声データフレームよりｉ個前の音声データフレームの１つ前のフレームをフェードイン処理し（ＳＤ８）、さらにこのフェードイン処理した音声データフレームを符号化処理する（ＳＤ９）。
【０１５７】
この後、フェードイン処理した音声データフレームとこれに対応するｉ個前のＲＴＰタイムスタンプ（ＲＴＰＴｉｍｅＳｔａｍｐ − ＦｒａｍｅＬｅｎ＊ｉ）（ここで、＊は乗算を表す）とを含むパケットを生成してこれを送信する（ＳＤ１０）。このとき、ＲＴＰヘッダにおけるマーカービットＭを「１」に設定して送信する。
【０１５８】
次いで、バッファに保持したｉ個前から現在までの音声データフレームを順次符号化処理し、この符号化処理した音声データフレームと、これに対応するＲＴＰタイムスタンプ（ＲＴＰＴｉｍｅＳｔａｍｐ − （ｉ−ｊ）＊ＦｒａｍｅＬｅｎ）とを含むパケットを生成して順次送信する（ＳＤ１１）。ここで、無音音声データフレームや定常部分を信号処理により間引くことにより、遅延の増加を抑えるようにすることもできる。また、ｊは１以上ｉ以下の整数である。
【０１５９】
さらに、遅延増加量カウンタＤｅｌａｙＣｏｕｎｔの値をＮ個のフレーム長分（ＦｒａｍｅＬｅｎ＊Ｎ）だけ増加させて（ＤｅｌａｙＣｏｕｎｔ＋＝ＦｒａｍｅＬｅｎ＊ｉ）（ＳＤ１２）、送信再開処理を終了する。
【０１６０】
上記第２実施形態の第２実施例によれば、発話機能ボタンが押下されて発話が開始され、無音状態から有音状態に遷移するときに、発話機能ボタンが押下された瞬間のフレームから音声データのパワーが閾値以上になる１つまえのフレーム、すなわち現時点のフレームからｉ個前のフレームにさかのぼって、フェードイン処理して得られた音声データフレームを含むパケットから送信するので、無音状態から有音状態への復帰時に話頭が消失してしまうことがなくなる。
【０１６１】
さらに、有音状態から無音状態になったときの音声データフレームすなわち話尾部分の音声レベルが徐々に減少されるフェードアウト処理も第１実施形態と同様に施されるため、受信側において有音状態から無音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることがなく、音声品質の劣化が低減される。
【０１６２】
上記第１実施例、第２実施例において、受信側で背景雑音を推定し、パケットを受信しない無音区間に受信側で生成した擬似背景雑音を出力するようなＣＮＧと組み合わせて利用することもできる。この場合には、受信側で受け取った最後のフェードアウト処理を行ったフレームに対して、擬似背景雑音をフェードインしながら足し合わせることで、有音区間から擬似背景雑音区間に連続的に遷移させることができる。また、有音として受信した最初のパケットに対して、擬似背景雑音をフェードアウトしながら足し合わせることで、擬似背景雑音区間から有音区間に連続的に遷移させることができる。
【０１６３】
次に、本発明の第３実施形態を説明する。
【０１６４】
図１５は本発明の第３実施形態における音声パケット通信システムの機能構成を示すブロック図である。図において、前述した第１実施形態と同一構成部分は同一符号を持って表しその説明を省略する。
【０１６５】
また、第３実施形態と第１実施形態との相違点は、第３実施形態では前述した第１実施形態における符号化処理部１６に代えて符号化処理部１６’を備えると共に、パケット解析部２２及び復号化処理部２３に代えてパケット解析部２２’及び復号化処理部２３’を設けたことである。
【０１６６】
符号化処理部１６’は後述するように、無音状態から有音状態に遷移したときに用いる分析結果として、分析初期値を参照してデータ分析及び符号化を行った場合のＳ／Ｎ（信号雑音比）と、前記一時記憶されている分析結果を参照してデータ分析及び符号化を行った場合のＳ／Ｎとを比較して、良好なＳ／Ｎをもつ符号化音声データフレームを使用する。
【０１６７】
パケット解析部２２’は、パケット解析部２２が有する機能に加えて、受信パケットを解析してＲＴＰヘッダのマーカービットＭが「１」のときにリセット情報を復号化処理部２３’に送出する機能を備えている。
【０１６８】
復号化処理部２３’は、復号化処理部２３が有する機能に加えて、パケット解析部２２’からリセット情報を受けたときにだけ一時記憶されている分析結果ではなく分析初期値を参照してデータ分析を行い、データの復号化処理を行う機能を備えている。
【０１６９】
図１６は符号化処理部１６’を示す機能ブロック図である。図に示すように、符号化処理部１６’は、入力音声データ保持部１６１と、符号化部１６２，１６３、内部データ保持部１６４、符号化音声データ保持部１６５，１６６、ローカル復号化部１６７，１６８、第１誤差計算部１６９、第２誤差計算部１７０、誤差比較部１７１、スイッチ部１７２とから構成されている。
【０１７０】
入力音声データ保持部１６１は、入力した音声データフレームを保持し、この音声データフレームを符号化部１６２，１６３と、第１誤差計算部１６９及び第２誤差計算部１７０に供給する。
【０１７１】
符号化部１６２は、内部データ保持部１６４に保持されているデータに基づいて、入力音声データ保持部１６１から供給された音声データフレームを符号化し、これを符号化音声データ保持部１６５に出力する。
【０１７２】
符号化部１６３は、入力音声データ保持部１６１から供給された音声データフレームを符号化し、これを符号化音声データ保持部１６６に出力する。ここで、符号化するときは、常に内部状態がリセットされた状態、すなわち前のデータ符号化の状態を参照しないで符号化を行う。
【０１７３】
内部データ保持部１６４は、符号化部１６２において音声データフレームを符号化した符号化音声データを保持し、次の音声データフレームが符号化部１６２において符号化される際に保持している符号化音声データを符号化部１６２に供給する。
【０１７４】
符号化音声データ保持部１６５は、符号化部１６２によって符号化された符号化音声データを一時的に保持すると共に、この符号化音声データをローカル復号化部１６７とスイッチ部１７２に出力する。
【０１７５】
符号化音声データ保持部１６６は、符号化部１６３によって符号化された符号化音声データを一時的に保持すると共に、この符号化音声データをローカル復号化部１６８とスイッチ部１７２に出力する。
【０１７６】
ローカル復号化部１６７は、符号化音声データ保持部１６５から供給された符号化音声データを復号して得られた音声データを第１誤差計算部１６９に出力する。
【０１７７】
ローカル復号化部１６８は、符号化音声データ保持部１６６から供給された符号化音声データを復号して得られた音声データを第２誤差計算部１７０に出力する。
【０１７８】
第１誤差計算部１６９は、入力音声データ保持部１６１から供給される音声データとローカル復号化部１６７から入力した音声データとの誤差分（符号化誤差（Ｓ／Ｎ））を求めて、これを誤差比較部１７１に出力する。さらに、第１誤差計算部１６９は、無音状態から有音状態に遷移したときに内部データ保持部１６４に保持されているデータを消去して初期化する。
【０１７９】
第２誤差計算部１７０は、入力音声データ保持部１６１から供給される音声データとローカル復号化部１６８から入力した音声データとの誤差分（符号化誤差（Ｓ／Ｎ））を求めて、これを誤差比較部１７１に出力する。
【０１８０】
誤差比較部１７１は、第１誤差計算部１６９から入力した誤差分（符号化誤差（Ｓ／Ｎ））と第２誤差計算部１７０から入力した誤差分（符号化誤差（Ｓ／Ｎ））とを比較して、この比較結果に基づいて、符号化誤差（Ｓ／Ｎ）が良好な（小さい）方の符号化音声データフレームをパケット生成部１７に出力するようにスイッチ部１７２を切り替える。さらに、誤差比較部１７１は、前述したように無音状態から有音状態になったときにＲＴＰヘッダのマーカービットＭを「１」に設定するようにパケット生成部１７に通知する。
【０１８１】
次に、上記構成よりなる第３実施形態における送信装置１及び受信装置２の動作を図１７乃至図２０に示すフローチャートを参照して詳細に説明する。
【０１８２】
送信装置１においては、駆動開始直後に初期化処理を行う（ＳＥ１）。この初期化処理では、変数である無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値を「０」に設定すると共にＲＴＰＴｉｍｅＳｔａｍｐの値を「０」に設定する。
【０１８３】
次に、送信装置１は、処理を開始すると、音声入力部１１を介して入力した音声信号は順次Ａ／Ｄ変換部１２を介して有音無音判定部１３のバッファに格納する（ＳＥ２）。
【０１８４】
次いで、送信装置１は、有音無音判定部１３のバッファに格納されている先頭の音声データから順に、判定対象となる音声データフレームのパワーが閾値以下であるか否かすなわち無音状態であるか有音状態であるかを判定し（ＳＥ３）、音声データフレームのパワーが閾値よりも大きい有音状態のときは後述する前記ＳＥ１９の処理に移行する。
【０１８５】
また、音声データフレームのパワーが閾値以下の無音状態のときは、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔを「１」増加し（ＳＥ４）、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きい送信休止状態であるか否かを判定する（ＳＥ５）。
【０１８６】
この判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きい送信休止状態であるときは後述するＳＥ１２の処理に移行し、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ以下のときは、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓに等しいか否かすなわち送信休止状態が開始されたか否かを判定する（ＳＥ６）。
【０１８７】
この判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓに等しくないときは後述するＳＥ７の処理に移行し、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓに等しいときは現在の音声データフレームをフェードアウト処理する（ＳＥ７）。
【０１８８】
次に、フェードアウト処理した音声データフレームを符号化処理し（ＳＥ８）、この符号化処理した音声データフレームとこれに対応するＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐとを含むパケットを生成して、このパケットを送信する（ＳＥ９）。
【０１８９】
この後、ＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐをフレーム長分増加する（ＳＥ１０）。即ち、ＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐの値にフレーム長ＦｒａｍｅＬｅｎの値を加算した値を新たなＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐの値とする。
【０１９０】
次いで、現在の音声データフレームをバッファに保持して（ＳＥ１１）、前記ＳＥ２の処理に移行する。
【０１９１】
一方、前記ＳＥ５の判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きい送信休止状態であるときは、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ＋１に等しいか否か、すなわち送信休止状態になったばかりであるか否かを判定する（ＳＥ１２）。
【０１９２】
この判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ＋１に等しくないときは後述するＳＥ１６の処理に移行し、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ＋１に等しいときは理想的な無音音声データフレームを生成して（ＳＥ１３）、この無音音声データフレームを符号化し（ＳＥ１４）、この符号化した理想的な無音音声データフレームとこれに対応するＲＴＰタイムスタンプＲＴＰＴｉｍｅＳｔａｍｐとを含むパケットを生成して、このパケットを送信する（ＳＥ１５）。この後、前記ＳＥ１０の処理に移行する。
【０１９３】
また、前記ＳＥ１２の判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ＋１に等しくないときは、遅延カウントＤｅｌａｙＣｏｕｎｔの値からフレーム長ＦｒａｍｅＬｅｎの値を減算した値を新たな遅延カウントＤｅｌａｙＣｏｕｎｔの値とし（ＳＥ１６）、遅延カウントＤｅｌａｙＣｏｕｎｔの値が０以下であるか否かを判定する（ＳＥ１７）。
【０１９４】
この判定の結果、遅延カウントＤｅｌａｙＣｏｕｎｔの値が０よりも大きいときは前記ＳＥ１０の処理に移行し、遅延カウントＤｅｌａｙＣｏｕｎｔの値が０以下であるときは遅延カウントＤｅｌａｙＣｏｕｎｔの値を０に設定して（ＳＥ１８）、前記ＳＥ１０の処理に移行する。
【０１９５】
一方、前記ＳＥ３の判定の結果、音声データフレームのパワーが閾値よりも大きい有音状態のときは、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きいか否かすなわち１つ前のフレームは送信休止状態であるか否かを判定する（ＳＥ１９）。
【０１９６】
この判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ以下のときは後述するＳＥ２８の処理に移行する。また、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓよりも大きいときは、バッファに保持されている１つ前の音声データフレームをフェードイン処理する（ＳＥ２０）と共に、符号化処理部１６’を初期化し（ＳＥ２１）、さらに前記フェードイン処理した音声データフレームを符号化処理する（ＳＥ２２）。
【０１９７】
次に、フェードイン処理した音声データフレームと該音声データフレームに対応するＲＴＰタイムスタンプ（ＲＴＰＴｉｍｅＳｔａｍｐ−ＦｒａｍｅＬｅｎ）とを含むパケットを生成して該パケットを送信する（ＳＥ２３）。このとき、ＲＴＰヘッダのマーカービットＭを「１」に設定しておく。
【０１９８】
この後、現在の音声データフレームすなわちフェードイン処理した音声データフレームの次の音声データフレームを符号化処理し（ＳＥ２４）、該符号化処理した音声データフレームと現在のＲＴＰタイムスタンプＲＴＰＴｉｍｅｓｔａｍｐとを含むパケットを生成してこれを送信する（ＳＥ２５）。
【０１９９】
次に、遅延増加量カウンタＤｅｌａｙＣｏｕｎｔの値をフレーム長ＦｒａｍｅＬｅｎの値分だけ増加させる（ＳＥ２６）と共に、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値を「０」に初期化する（ＳＥ２７）。この後、前記ＳＥ１０の処理に移行する。
【０２００】
一方、前記ＳＥ１９の判定の結果、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値がカウント閾値ＳｉｌｅｎｔＴｈｒｅｓ以下のときは現在の音声データフレームを符号化部１６２によって符号化処理する（ＳＥ２８）、と共に現在の音声データフレームを符号化部１６３によって符号化処理する。ここで、符号化部１６３では内部状態がリセットされているので前回の符号化処理における符号化データは参照されずに符号化処理が行われる。
【０２０１】
次に、符号化部１６２によって符号化された符号化音声データフレームのＳ／Ｎと、符号化部１６３によって符号化された符号化音声データフレームのＳ／Ｎとを比較し（ＳＥ３０）、Ｓ／Ｎの良い方の符号化音声データフレームとこれに対応するＲＴＰタイムスタンプとを含むパケットを生成してこれを送信する（ＳＥ３１）。このとき、符号化部１６３によって符号化した音声データフレームを用いる場合は、ＲＴＰヘッダのマーカービットＭを「１」に設定して無音復帰フラグを立てる。
【０２０２】
この後、無音判定カウントＳｉｌｅｎｔＣｏｕｎｔの値を「０」に設定して初期化した後（ＳＥ３２）、前記ＳＥ１０の処理に移行する。
【０２０３】
上記実施形態の送信装置によれば、保持されている分析結果に基づいて符号化した音声データフレームにおける音声データのＳ／Ｎ（信号雑音比）と、前記分析結果の初期値に基づいて符号化した音声データフレームにおける音声データの信号雑音比とが比較され、Ｓ／Ｎが大きい方の音声データフレームがパケット生成用の音声データフレームとして採用されるため、符号化対象となる音声データフレームと、この１つ前の音声データフレームとの間の相関関係が良好となるように符号化処理を行うことができるので、受信側において再生時に自然な状態の音声データを得ることができる。
【０２０４】
次に、受信装置２の動作を図２０に示すフローチャートを参照して説明する。
【０２０５】
受信装置２は、受信処理を開始すると、受信したパケットを解析処理して（ＳＦ１）、ＲＴＰヘッダと音声データフレームとを分離すると共にＲＴＰヘッダの情報を解析する。
【０２０６】
上記解析によってＲＴＰヘッダのマーカービットＭ（無音復帰フラグ）が「１」に設定されフラグがオンになっているか否かを判定し（ＳＦ２）、マーカービットＭが「０」のときは後述するＳＦ４の処理に移行し、マーカービットＭが「１」のときはパケット解析部２２’から復号化処理部２３’にリセット情報を通知して復号化処理部の内部状態を初期化（リセット）する（ＳＦ３）。
【０２０７】
この後、受信した符号化音声データフレームを復号化処理し（ＳＦ４）、復号化処理された音声データフレームの音声再生処理を行う（ＳＦ５）。
【０２０８】
上記受信処理によれば、無音状態から有音状態に遷移した音声データ箇所に加えて、符号化器の内部状態をリセットしても符号化利得に影響を与えない音声データ箇所での送信側符号化器の内部状態リセットをマーカービットＭによって認識することができるので、送信側符号化器の内部状態と、受信側の復号化器の内部状態の同期を保つことが可能となる。リセット処理を行うことで、パケット消失等の伝送誤りに際して送信側と受信側の内部状態の不一致を回復することが可能であり、品質の低下を低減できる。
【０２０９】
尚、上記各実施形態は本発明の一具体例であって本発明が上記実施形態の構成のみに限定されることはない。
【０２１０】
【発明の効果】
以上説明したように本発明によれば、無音状態になる直前の音声データ部分の音声レベルが徐々に減少されるフェードアウト処理が施されるため、受信側において有音状態から無音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることがなく、音声品質の劣化が低減される。
【０２１１】
さらに、本発明によれば、無音状態であると判定された音声データフレームの少なくとも１つ前のフレームに対応する音声データのレベルが徐々に減少された音声データに変換されて音声データフレームが生成され、該音声データフレームを含むパケットが送信された後に１つの無音データフレームを含むパケットが送信されるので、受信側においては有音状態から無音状態になったことを確実に認識可能になる。
【０２１２】
また、本発明によれば、無音データフレームを含むパケットを送信した後、入力した音声のレベルが所定のしきい値レベルを越えたときに有音状態であると判定されたときに、有音状態であると判定された音声データフレームの少なくとも１つ前の音声データフレームが有音状態であるとされ、該音声データフレームを含むパケットから送信が開始される。これにより、無音状態から有音状態への復帰時に話頭が消失してしまうことがなくなる。
【０２１３】
また、本発明によれば、有音状態になる音声データ部分の音声レベルが徐々に増大されるフェードイン処理が施されるため、受信側において無音状態から有音状態に遷移する部分で音声波形が不連続となることがないので、この遷移部分で異音が生じることが無く、音声品質の劣化を低減することができる。
【０２１４】
また、本発明によれば、無音状態でパケット送信を停止していた後にパケット送信を開始するときの最初のパケットに有音開始状態を意味する情報を含めるので、この情報によって、受信側においては無音状態から有音状態に復帰したことを認識することができる。
【０２１５】
また、本発明によれば、音声データフレームを符号化処理するにあたって、符号化器の内部状態を初期化せずに前のフレームに続けて当該フレームを符号化した場合の符号化誤差と、符号化器の内部状態を初期化した後に当該フレームを符号化した場合の符号化誤差とを比較し、誤差の少ない方の符号化結果を送信し、内部状態をリセットした後に当該フレームを符号化した結果を選択した場合には、無音から復帰した最初のフレームであるという情報を送信パケット内に含めて送信するので、前記符号化誤差が小さい方の符号化音声データフレームが用いられ、再生時に自然な状態の音声データを得ることができる。さらに、符号化器の内部状態がリセットされた状態で符号化された符号化音声データフレームが用いられるときには、無音から復帰した最初のフレームであることを表す情報がパケットに含められて送信されるので、受信側において的確な復号化処理を行うことができる。
【０２１６】
また、本発明によれば、前記有音開始状態を意味する情報が送信パケットに含められるので、受信側において有音状態の開始を容易に認識することができる。
【図面の簡単な説明】
【図１】本発明の第１実施形態における音声パケット通信システムの機能構成を示すブロック図
【図２】本発明の第１実施形態における音声パケット送信装置による音声信号のパケット化を説明する図
【図３】本発明の第１実施形態において用いているリアルタイム転送プロトコルヘッダを説明する図
【図４】本発明の第１実施形態における送信装置のパケット送信処理を説明するフローチャート
【図５】本発明の第１実施形態における送信装置のパケット送信処理を説明するフローチャート
【図６】本発明の第１実施形態における送信装置のパケット送信処理を説明するフローチャート
【図７】本発明の第２実施形態における音声パケット通信システムの機能構成を示すブロック図
【図８】本発明の第２実施形態における送信装置のパケット送信処理を説明するフローチャート
【図９】本発明の第２実施形態における送信装置のパケット送信処理を説明するフローチャート
【図１０】本発明の第２実施形態における送信装置のパケット送信処理を説明するフローチャート
【図１１】本発明の第２実施形態の第１実施例の送信再開処理における音声信号のパケット化を説明する図
【図１２】本発明の第２実施形態の第１実施例の送信再開処理を説明するフローチャート
【図１３】本発明の第２実施形態の第２実施例の送信再開処理における音声信号のパケット化を説明する図
【図１４】本発明の第２実施形態の第２実施例の送信再開処理を説明するフローチャート
【図１５】本発明の第３実施形態における音声パケット通信システムの機能構成を示すブロック図
【図１６】本発明の第３実施形態における符号化処理部を示す機能ブロック図
【図１７】本発明の第３実施形態における送信装置の動作を説明するフローチャート
【図１８】本発明の第３実施形態における送信装置の動作を説明するフローチャート
【図１９】本発明の第３実施形態における送信装置の動作を説明するフローチャート
【図２０】本発明の第３実施形態における受信装置の動作を説明するフローチャート
【符号の説明】
１…音声パケット送信装置、２…音声パケット受信装置、３…通信網、１１…音声入力部、１２…アナログ／ディジタル（Ａ／Ｄ）変換部、１３……有音無音判定部、１４…スイッチ部、１５…フェードイン・フェードアウト処理部、１６，１６’…符号化処理部、１７…パケット生成部、１８…送信部、１９…送信判定処理部、２１…受信部、２２，２２’…パケット解析部、２３，２３’…復号化処理部、２４…アナログ／ディジタル（Ａ／Ｄ）変換部、２５…音声出力部、１６１…入力音声データ保持部、１６２，１６３…符号化部、１６４…内部データ保持部、１６５，１６６…符号化音声データ保持部、１６７，１６８…ローカル復号化部、１６９…第１誤差計算部、１７０…第２誤差計算部、１７１…誤差比較部、１７２…スイッチ部。

Claims

連続して入力した音声に基づく音声データを所定時間間隔で切り取った音声データフレームを生成する音声データフレーム生成手段を備え、該生成した音声データフレームを含んだパケットを生成し、該パケットを通信網を介して送信する音声パケット送信装置において、
前記入力した音声が無音であるか否かを判定する無音判定手段と、
前記無音判定手段によって入力された音声データフレームが無音と判定された状態が一定時間以上連続する場合にパケットの送信を停止する手段と、
送信を停止するにあたって、送信する最後の音声データフレームの音声レベルを、先頭サンプルから末尾サンプルに向けて徐々に減少させた音声データに変換し、該変換された音声データフレームを最終パケットとして送信する手段を備えた
ことを特徴とする音声パケット送信装置。
前記無音判定手段によって入力された音声データフレームが無音と判定された状態が一定時間以上連続する場合にパケットの送信を停止する手段と、
送信を停止するにあたって、無音状態になったと判定された後に入力された音声フレームを少なくとも１つ以上送信する手段と、
送信する最後の音声データフレームの音声レベルを、先頭サンプルから末尾サンプルに向かって徐々に減少させた音声データに変換し、該変換された音声データフレームを最終パケットとして送信する手段を備えた
ことを特徴とする請求項１に記載の音声パケット送信装置。
前記音声レベルを先頭サンプルから末尾サンプルに向けて徐々に減少させた音声データフレームを含むパケットを送信した後に、さらに１つの無音音声データフレームを生成し、該無音音声データフレームを含むパケットを送信する手段を備えた
ことを特徴とする請求項１又は請求項２に記載の音声パケット送信装置。
前記入力した音声が有音であるか否かを判定する有音判定手段と、
前記入力された音声データフレームが無音であると判定された状態が一定時間以上連続し、パケットの送信を停止している状態で、前記入力された音声データフレームが前記有音判定手段で有音状態であると判定されたときに、パケットの送信を再開する手段と、
パケットの送信を再開するにあたって、送信する最初の音声データフレームを、末尾サンプルから先頭サンプルに向かって音声レベルを徐々に減少させた音声データに変換し、有音状態の先頭として該変換された音声データフレームを含むパケットを送信する手段を備えた
ことを特徴とする請求項１乃至請求項３の何れかに記載の音声パケット送信装置。
前記パケットの送信を再開するにあたって、有音と判定された音声データフレームの少なくとも１つ前の無音データフレームを、末尾から先頭に向かって音声レベルを徐々に減少させた音声データに変換し、有音状態の先頭として該変換された音声データフレームを含むパケットを送信し、次に前記有音状態であると判定された音声データフレームを送信する手段を備えた
ことを特徴とする請求項１乃至請求項４の何れかに記載の音声パケット送信装置。
前記入力された音声データフレームを保持する手段と、
前記パケットの送信を再開するにあたって、有音と判定された音声データフレームの少なくとも１つ前の無音データフレームを再分析フレームとして、有音と判定された音声フレームの情報と前記再分析フレームまでの無音と判定された音声データフレームの情報とを用いて再分析する手段と、
前記再分析の結果、前記再分析フレームが有音に近いと判定された場合には、前記再分析フレームの１つ前の音声データフレームを、末尾から先頭に向かって音声レベルを徐々に減少させた音声データに変換し、有音状態の先頭として該変換された音声データフレームを含むパケットを送信し、次に前記有音状態であると判定された音声データフレームと前記再分析フレームの１つ前のフレームとの間の無音データフレームを送信し、次に前記有音状態であると判定された音声データフレームを送信する手段と、
前記再分析の結果、前記再分析フレームが無音に近いと判定された場合には、該再分析フレームを、末尾から先頭に向かって音声レベルを徐々に減少させた音声データに変換し、有音状態の先頭として該変換された音声データフレームを含むパケットを送信し、次に前記有音であると判定された音声データフレームを送信する手段とを備えた
こと特徴とする請求項１乃至請求項４の何れかに記載の音声パケット送信装置。
前記パケットの送信を再開するにあたって、有音と判定された音声データフレームの少なくとも１つ前のフレームを、有音状態の先頭として送信した場合に、余分に送信した無音フレームによって増加した遅延に相当するサンプル数だけ後続のサンプルを短縮する手段を有する
ことを特徴とする請求項５又は請求項６に記載の音声パケット送信装置。
前記無音判定手段は、入力された音声フレームの音声レベルが所定の閾値レベル以下であるときに無音状態であると判定する手段を備えた
ことを特徴とする請求項１乃至請求項７の何れかに記載の音声パケット送信装置。
前記有音判定手段は、入力された音声フレームの音声レベルが所定の閾値レベル以上であるときに有音状態であると判定する手段を備えた
ことを特徴とする請求項１乃至請求項７の何れかに記載の音声パケット送信装置。
無音状態でパケット送信停止状態となっていて、有音により発話開始状態としてパケットを送信するに際して、送信する最初の音声フレームを符号化する場合に、音声符号化器の内部状態を初期化した後に音声フレームを符号化処理する手段と、
最初のフレームをパケット化して送信するにあたって、パケット内に無音から復帰した最初のフレームであることを表す情報を含めて送信する手段とを有することを特徴とする請求項１乃至請求項７の何れかに記載の音声パケット送信装置。
前記符号化処理手段は、
当該フレームを符号化処理するにあたって、符号化器の内部状態を初期化せずに前のフレームに続けて当該フレームを符号化した場合の符号化誤差と、符号化器の内部状態を初期化した後に当該フレームを符号化した場合の符号化誤差とを比較し、誤差の少ない方の符号化結果を送信する手段と、
内部状態をリセットした後に当該フレームを符号化した結果を選択した場合には、無音から復帰した最初のフレームであるという情報を送信パケット内に含めて送信する手段とを有する
ことを特徴とする請求項１０に記載の音声パケット送信装置。
連続して入力した音声に基づく音声データを所定時間間隔で切り取った音声データフレームを生成する音声データフレーム生成手段と、ユーザの発話の意志を取得する発話機能ボタンとを供え、該生成した音声データフレームを含んだパケットを生成し、該発話機能ボタンが押されている間だけ音声データフレームを含んだパケットを、通信網を介して送信する音声パケット送信装置において、
前記発話機能ボタンが押されている状態か否かを判定する発話機能ボタン押下判定手段と、
前記発話機能ボタン押下判定手段によって発話機能ボタンが押されている状態から、押されていない発話休止状態になったと判定された場合にパケットの送信を停止する手段と、
送信を停止するにあたって、送信する最後の音声データフレームの音声レベルを、先頭サンプルから末尾サンプルに向かって徐々に減少させた音声データに変換し、該変換された音声データフレームを最終パケットとして送信する手段とを備えた
ことを特徴とする音声パケット送信装置。
前記発話機能ボタン押下判定手段によって発話機能ボタンが押されている状態から押されていない発話休止状態になったと判定された場合にパケットの送信を停止する手段と、
送信を停止するにあたって、発話休止状態になったと判定された後に入力された音声フレームを少なくとも１つ以上送信する手段と、
送信する最後の音声データフレームの音声レベルを、先頭サンプルから末尾サンプルに向かって徐々に減少させた音声データに変換し、該変換された音声データフレームを最終パケットとして送信する手段とを備えた
こと特徴とする請求項１２に記載の音声パケット送信装置。
前記音声レベルを先頭サンプルから末尾サンプルに向けて徐々に減少させた音声データフレームを含むパケットを送信した後に、さらに１つの無音音声データフレームを生成し、該無音音声データフレームを含むパケットを送信する手段を備えた
ことを特徴とする請求項１２又は請求項１３に記載の音声パケット送信装置。
前記発話機能ボタン押下判定手段によって発話機能ボタンが押されていない状態から押されている状態になったと判定された場合に、発話開始状態として、前記停止していたパケットの送信を再開する手段と、
パケットの送信を再開するにあたって、送信する最初の音声データフレームを、末尾サンプルから先頭サンプルに向かって音声レベルを徐々に減少させた音声データに変換し、発話状態の先頭として該変換された音声データフレームを含むパケットを送信する手段とを備えた
ことを特徴とする請求項１２乃至請求項１４の何れかに記載の音声パケット送信装置。
前記発話機能ボタン押下判定手段によって発話機能ボタンが押されていない状態から押されている状態になったと判定された場合に、発話開始状態として、前記停止していたパケットの送信を再開する手段と、
パケットの送信を再開するにあたって、発話機能ボタンが押された状態になった後に入力された最初の音声データフレームより前の音声データフレームを少なくとも１つ以上送信し、次に前記発話機能ボタンが押された状態になった後に入力された最初の音声データフレームを送信する手段とを備えた
ことを特徴とする請求項１２乃至請求項１５の何れかに記載の音声パケット送信装置。
前記発話開始状態になった場合にパケットの送信を再開するにあたって、発話開始状態と判定された音声データフレームの少なくとも１つ前のフレームを、送信フレームの先頭として送信した場合に、余分に送信した音声データフレームによって増加した遅延に相当するサンプル数だけ後続のサンプルを短縮する手段を有する
ことを特徴とする請求項１５又は請求項１６に記載の音声パケット送信装置。
発話機能ボタンを押下されない状態で、パケット送信停止状態となっていて、発話機能ボタン押下により発話開始状態としてパケットを送信するに際して、送信する最初の音声フレームを符号化する場合に、音声符号化器の内部状態を初期化した後に音声フレームを符号化処理する手段と、
最初のフレームをパケット化して送信するにあたって、パケット内に無音から復帰した最初のフレームであることを表す情報を含めて送信する手段とを有することを特徴とする請求項１２乃至請求項１５に記載の音声パケット送信装置。
前記符号化処理手段は、
当該フレームを符号化処理するにあたって、符号化器の内部状態を初期化せずに前のフレームに続けて当該フレームを符号化した場合の符号化誤差と、符号化器の内部状態を初期化した後に当該フレームを符号化した場合の符号化誤差とを比較し、誤差の少ない方の符号化結果を送信する手段と、
内部状態をリセットした後に当該フレームを符号化した結果を選択した場合には、無音から復帰した最初のフレームであるという情報を送信パケット内に含めて送信する手段とを有する
ことを特徴とする請求項１８に記載の音声パケット送信装置。
音声入力手段によって入力した音声を音声データに変換する手段を有するコンピュータ装置を用いて、連続して入力した音声に基づく音声データを所定時間間隔で切り取った音声データフレームを生成すると共に該音声データフレームを含んだパケットを生成し、該パケットを通信網を介して送信する音声パケット送信方法において、
前記コンピュータ装置は、
前記入力した音声が無音であるか否かを判定し、
前記入力された音声データフレームが無音と判定された状態が一定時間以上連続する場合にパケットの送信を停止し、
送信を停止するにあたって、送信する最後の音声データフレームの音声レベルを、先頭サンプルから末尾サンプルに向けて徐々に減少させた音声データに変換し、
前記変換した音声データフレームを最終パケットとして送信する
ことを特徴とする音声パケット送信方法。
前記コンピュータ装置は、
前記入力された音声データフレームが無音であると判定された状態が一定時間以上連続し、パケットの送信を停止している状態で、前記入力された音声データフレームが前記有音判定手段で有音状態であると判定されたときに、パケットの送信を再開し、
パケットの送信を再開するにあたって、送信する最初の音声データフレームを、末尾サンプルから先頭サンプルに向かって音声レベルを徐々に減少させた音声データに変換し、
有音状態の先頭として前記変換した音声データフレームを含むパケットを送信する
ことを特徴とする請求項２０に記載の音声パケット送信方法。
音声入力手段によって入力した音声を音声データに変換する手段を有するコンピュータ装置を用いて、連続して入力した音声に基づく音声データを所定時間間隔で切り取った音声データフレームを生成すると共に、該生成した音声データフレームを含んだパケットを生成し、ユーザの発話の意志を取得する発話機能ボタンが押されている間だけ音声データフレームを含んだパケットを、通信網を介して送信する音声パケット送信方法において、
前記コンピュータ装置は、
前記発話機能ボタンが押されている状態か否かを判定し、
前記発話機能ボタンが押されている状態から、押されていない発話休止状態になったと判定された場合にパケットの送信を停止し、
送信を停止するにあたって、送信する最後の音声データフレームの音声レベルを、先頭サンプルから末尾サンプルに向かって徐々に減少させた音声データに変換し、
前記変換した音声データフレームを最終パケットとして送信する
ことを特徴とする音声パケット送信方法。
前記コンピュータ装置は、
前記発話機能ボタンが押されていない状態から押されている状態になったと判定された場合に、発話開始状態として、前記停止していたパケットの送信を再開し、
パケットの送信を再開するにあたって、送信する最初の音声データフレームを、末尾サンプルから先頭サンプルに向かって音声レベルを徐々に減少させた音声データに変換し、
発話状態の先頭として前記変換した音声データフレームを含むパケットを送信する
ことを特徴とする請求項２２に記載の音声パケット送信方法。
受信したパケット内に無音から復帰した最初のフレームであることを表す情報が含まれていた場合に、音声復号化器の内部状態を初期化した後に、フレームの復号処理を行う手段を有する
ことを特徴とする音声パケット受信装置。
音声パケットを生成して該音声パケットを送信する音声パケット送信装置と、前記送信された音声パケットを通信網を介して受信する音声パケット受信装置とからなる音声パケット通信システムにおいて、
前記請求項１０又は請求項１８に記載の音声パケット送信装置と、
前記請求項２４に記載の音声パケット受信装置とからなる
ことを特徴とする音声パケット通信システム。