JP4758687B2

JP4758687B2 - 音声パケット送信方法、音声パケット受信方法、それらの方法を用いた装置、プログラム、および記録媒体

Info

Publication number: JP4758687B2
Application number: JP2005177481A
Authority: JP
Inventors: 仲大室; 岳至森; 祐介日和▲崎▼; 章俊片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-06-17
Filing date: 2005-06-17
Publication date: 2011-08-31
Anticipated expiration: 2025-06-17
Also published as: JP2006352616A

Description

この発明は、ディジタル化された音声、音楽などの音響信号（以下、総称して「音声信号」という。）をインターネットをはじめとするパケット通信網を介して送信する際に、受信側において、良好な品質で音声信号を再生するための音声パケット送信方法、音声パケット受信方法、それらの方法を用いた装置、プログラム、および記録媒体に関する。

音声信号をボイスオーバ（Voice over）ＩＰ（インターネットプロトコル）技術を利用して送信するサービスが普及しつつある。図１に示すように入力音声を音声信号送信装置８０で音声パケットに変換してＩＰ通信網９６によって音声信号受信装置９５へ送信し、音声信号受信装置９５により音声パケットを復号して再生音声を出力する。これをリアルタイム通信する場合、通信網９６の状態によっては通信網の途中においてパケットロス（紛失）が生じ、それによって再生音声が途切れるといった品質劣化が問題となっている。特に、インターネットなどのベストエフォートと呼ばれる通信サービスの場合には、パケットロスを許容しているため通信網の混雑時に特にこの問題が顕著である。

そこで、音声信号をパケット通信網で通信する場合には、パケットロスコンシールメントと呼ばれる手法を用いて、パケットが通信路の途中で消失あるいは通信路の遅延によって制限時間内に受信側に届かなかった場合（以下、「パケットロスの場合」という。）に、消失または届かなかったパケット（以下、「ロスパケット」という。）に対応する区間の音声信号を受信側で推定して補償する方法が用いられる。パケットロス率が高い場合、または、一定時間連続してパケットロスが発生するバーストパケットロスの場合でも、十分な再生音品質を維持できる方法として非特許文献１がある。非特許文献１では、図２に示すように、入力音声は入力バッファ８１に蓄えられ、音声信号をフレームと呼ばれる一定の時間ごとに区切って音声波形符号化部８２に送る。１フレームの時間長は一般には、１０ミリ秒から２０ミリ秒程度とすることが多い。音声波形符号化部８２では、例えば、ＩＴＵ−Ｔの標準符号化方式であるＧ．７１１（μ則PCMまたはA則PCM方式）を適用して入力音声を音声符号に変換する。なお、Ｇ．７１１以外の音声符号化方式が用いられる場合もある。音声符号は、パケット構成部８３に送られる。音声特徴量計算部８５では、入カバッファ８１に蓄えられた音声信号を用いて、当該フレームにおける音声特徴量を計算する。

音声特徴量とは、ピッチ周期（音声の基本周波数に相当）、パワなどを指し、これらの特徴量のいずれかのみを利用することもあるし、全部を利用することもある。ピッチ周期は、音声波形または音声波形にスペクトル包絡の逆特性を持つフィルタをかけた信号の自己相関係数を計算することによって得られる。パワは、フレーム内の全サンプルの二乗和により得られる。音声特徴量符号化部８６では、前記音声特徴量を決められたビット数（またはバイト数）で表すことができるように量子化した後、符号に変換する。決められたビット数とは、例えば、ピッチ周期に７ビット、パワに７ビットなどである。符号化された音声特徴量は、シフトバッファ８７に送られる。シフトバッファ８７では、あらかじめ指定された数のフレームにわたって音声特徴量の符号を保持し、指定されるフレーム数だけ前（過去）の音声特徴量の符号をパケット構成部８３に送る。例えば、現在のフレームをｎ、指定されるフレーム数を３とすると、フレームｎ−３の音声特徴量符号がパケット構成部８３に送られる。パケット構成部８３では、前記音声波形を符号化した符号と、音声特徴量の符号を用いてパケットを構成する。パケット送出部８４は、パケット構成部８３で作成されたパケットの情報を受け取り、音声パケットとしてパケット通信網に送出する。

図３は、パケット構成部８３でパケットを構成する際の、パケットの構成例である。一般にパケットはヘッダ領域とデータ領域からなり、ヘッダ領域の中でも必須領域とオプション領域がある。パケットの宛先やフレーム番号などのタイムスタンプはヘッダ領域に格納される。音声波形を符号化した符号データはデータ領域に格納される。音声特徴量の符号は、波形データに比べてサイズ（バイト数）が少ないため、ヘッダ領域のオプション領域ＨＯＰに格納する方法と、データ領域の先頭Ｄ１または末尾ＤＥに格納する方法があるが、オプション領域に格納するほうが当該技術を適用しない従来の方法や既存設備との互換性を維持しやすい。

非特許文献１の音声特徴量をヘッダ領域のオプション領域に格納する方法は、非特許文献1の方法を適用しない従来の方法や既存設備、例えば既存のＩＰ電話機やＩＰ−ＰＢＸシステムの大半とは互換性や相互接続性の点で問題はないと考えられる。しかしながら、オプション領域利用に関するルールがＩＥＴＦ（Internet Engineering Task Force）で規定されているにもかかわらず、数多い市中製品の中にはヘッダ領域のオプション領域利用を想定していない製品が出回っており、すべての既存製品との互換性が保証されないという問題がある。

これに対して特許文献１では、図４に示すように音声波形符号化部８２にＩＴＵ−ＴＧ．７１１方式を用い、入力バッファ８１に蓄えられた音声信号から並行して送信したい情報（高能率圧縮符号）を計算して、音声波形符号化部８２の出力であるＧ．７１１符号列の最下位ビットを並行して送信したい情報のビット系列でそれぞれ置換することによって、音声符号に別の情報を埋め込んでいる。これらの方法を用いれば、既存設備との完全な互換性が保証される。（情報を埋め込んだパケットを既存設備の端末で受信しても、音声が再生できる。）
大室仲，他"音声特徴量並行送信によるバーストパケットロス耐性の向上", 信学技報（電子情報通信学会）, SP2004-77, pp.35-40, 2004. 特許第２６７６０４６号明細書

特許文献１の方法を用いることにより、当該方法を実装しない既存のシステムとの完全な互換性は保証される。しかし、音声符号の最下位１ビットを強制的に別の情報に書き換えてしまうことから、埋め込みビット数を増やすと、再生音声にノイズが発生する問題があった。

送信装置側では、ビット列解析部で並行送信データをビット列に分解し、コード探索部で、あらかじめ定めた前記ビット列の各ビットに対応するサンプル点では、当該ビットの値が０ならば、あらかじめ定めたＧ．７１１の１２８コードを探索し、当該ビットの値が１ならば、Ｇ．７１１の他の１２８コードを探索し、前記各ビットに対応するサンプル点以外では、Ｇ．７１１の２５６コードを探索し、探索結果に従ってＧ．７１１の音声符号を出力する。
受信装置では、受信したＧ．７１１音声符号を、Ｇ．７１１規格にしたがって復号するとともに、あらかじめ定めた並行送信データのビットが格納されるサンプル点から、並行送信データの情報を抽出し、並行送信データを復号する。

本発明では、音声波形符号化部で、ＩＴＵ−ＴＧ．７１１符号化方式が利用される場合に、特許文献１と同様に、音声符号列の中に音声特徴量を埋め込んでいる。しかし、特許文献１のように、生成された後の音声符号の特定ビットを置換するのではなく、Ｇ．７１１の音声符号化処理自体に、音声特徴量が音声符号にデコーダ互換で埋め込まれる処理を組み込んでいる。したがって、当該方法を実装していない既存のシステムとの完全な互換性を保証した情報の埋め込みを行いつつ、情報の埋め込みに起因する音質の劣化（再生音声中のノイズの増加）を抑えることが可能となる。

以下、本発明を、図面を参照しながら説明する。重複説明を避けるため、同じ機能の構成部や同じ処理のステップには同じ番号を付して、重複説明を省略する。また、本明細書中の「音声」とは、音声や音楽などの音の信号の総称として用いる。
［第１実施形態］
図５は、本発明の音声信号送信装置１０の機能構成例である。また、図６に音声信号送信装置１０の処理フローを示す。入力音声は、入カバッファ８１に蓄えられ（Ｓ１１）、音声信号をフレームと呼ばれる一定の時間ごとに区切って音声符号化部１１と音声特徴量計算部８５に送る（Ｓ１２）。１フレームの時間長は一般には、１０ミリ秒から２０ミリ秒程度とすることが多い。音声特徴量計算部８５では、入力バッファ８１に蓄えられた音声信号を用いて、当該フレームの音声特徴量を計算する（Ｓ１３）。音声特徴量とは、ピッチ周期（音声の基本周波数に相当）、パワなどを指し、これらの特徴量のいずれかのみを利用することもあるし、全部を利用することもある。ピッチ周期は、音声波形または音声波形にスペクトル包絡の逆特性を持つフィルタをかけた信号の自己相関係数を計算することによって得られる。パワは、フレーム内の全サンプルの二乗和により得られる。

音声特徴量符号化部８６では、前記音声特徴量を決められたビット数（またはバイト数）で表すことができるように量子化した後、符号に変換する。決められたビット数とは、例えば、ピッチ周期に７ビット、パワに７ビットなどである。符号化された音声特徴量は、シフトバッファ８７に送られる（Ｓ１４）。シフトバッファ８７では、あらかじめ指定された数のフレームにわたって音声特徴量の符号を保持し、指定されるフレーム数だけ前（過去）の音声特徴量の符号を音声符号化部１１に送る（Ｓ１５）。例えば、現在のフレームをｎ、指定されるフレーム数を３とすると、フレームｎ−３の音声特徴量符号が音声符号化部１１に送られる。
音声符号化部１１では、フレーム化された音声と音声特徴量符号から、Ｇ．７１１方式とデコーダ互換の符号を生成し、パケット構成部１２に送る（Ｓ１６）。パケット構成部１２では、音声特徴量符号の含まれた音声符号からパケットを構成する（Ｓ１７）。パケット送出部８４は、パケット構成部１２で作成されたパケットの情報を受け取り、パケット通信網に送出する（Ｓ１８）。

図７に本発明の音声符号化部１１の機能構成例を、図８にステップＳ１６の詳細な処理フローを、図９に本発明の音声符号化の概念例を示す。フレーム化された音声信号は、音声信号バッファ２１に入力され、蓄積される（Ｓ２１）。音声信号バッファ２１は、例えば、２０ミリ秒の音声信号、例えば、サンプリング周波数が８ｋＨｚであれば、１６０サンプルの音声信号をサンプル単位に分解して、サンプル毎にＳＷ２３に送る（Ｓ２２）。ＳＷ２３の先には、Ｇ．７１１全コード探索部２４、Ｇ．７１１偶数コード探索部２５、Ｇ．７１１奇数コード探索部２６が接続されており、サンプル毎にＳＷ２３がこれらの探索部を切り替える。ビット解析・ＳＷ制御部２２は、入力される音声特徴量符号をもとに、音声信号バッファ２１から出力されるサンプルごとにＳＷ２３を、次に説明するように切り替える。この動作を、図９を用いて説明する。図９は、音声信号のサンプリング周波数が８ｋＨｚ、フレーム長が２０ミリ秒、Ｇ．７１１ビットストリームの一部に埋め込む音声特徴量が３２ビットの場合を示したものである。サンプリング周波数が８ｋＨｚ、フレーム長が２０ミリ秒であるから、１フレーム内のサンプル数は１６０サンプルである。また、Ｇ．７１１音声符号は１サンプルあたり８ビットであるから、１フレーム分の音声符号は、８ビット×１６０サンプルとなる。音声符号欄の横軸は時刻を表し、Ｐ１〜Ｐ１６０はサンプル番号を示す。縦軸方向にはそれぞれのサンプル点に対応する８ビットのＧ．７１１符号を、ＬＳＢ（Least Significant Bit）を下に、ＭＳＢ（Most Significant Bit）を上にビット単位で表現している。音声特徴量符号のビットは、これらのＧ．７１１符号のうち、特定のサンプル点に対応するＧ．７１１符号のＬＳＢが音声特徴量符号のビットを表すようにＧ．７１１符号を決めることとする。また、Ｇ．７１１符号に音声特徴量符号が埋め込まれているかいないか（単なるＧ．７１１符号か）を判別するために、音声特徴量符号のチェックサム（１ビット）を計算しておく。図９の例では、音声特徴量符号の３２ビットのうち、１が１９個であるから、チェックサムビットは１とする。もし１が偶数個であればチェックサムビットは０とする。この例でＧ．７１１符号のＬＳＢに埋め込むビット数は、音声特徴量符号の３２ビットと、チェックサム１ビットの合計３３ビットである。１６０箇所のＬＳＢに３３ビットを埋め込むには、例えば、１６０を３３で除すると、４．８となることから、４サンプル点ごと、すなわちＰ４，Ｐ８，Ｐ１２，…，Ｐ１２８，Ｐ１３２の３３箇所に埋め込むとよい。なお、前記例は等間隔になっているが、規則が決まっていれば、例えばＰ４，Ｐ９，Ｐ１３，Ｐ１８，…のように、不等間隔でもよい。ここで、前記の「Ｇ．７１１符号のＬＳＢに１または０のビットを埋め込む」とは、Ｇ．７１１符号のＬＳＢを指定された１または０に固定することをいう。つまり、Ｇ．７１１のコードは本来８ビットあり、パターンの数は２５６通りであるが、パターンを探索する前にＬＳＢを１または０のいずれかに固定してしまい、選択肢を７ビットの１２８通りに限定する。これは、ＬＳＢを１に固定した場合には、Ｇ．７１１の符号探索時に、奇数符号しか探索しないことを、ＬＳＢを０に固定した場合には、Ｇ．７１１の符号探索時に、偶数符号しか探索しないことを意味する。音声特徴量符号のビットが埋め込まれないサンプル点では、従来と同様に全符号２５６通りを探索して最適な符号を出力できる。図９の上部に、各サンプル点に全探索、奇数探索（Ｐ４，Ｐｃ）、偶数探索（Ｐ８，Ｐ１２）と記載しているのがこれにあたる。

本処理の概念を図７のブロック図にあてはめると、ビット解析・ＳＷ制御部２２は、音声特徴量符号をビット列に分解して（Ｓ２３−１）、チェックサムビットを計算する（Ｓ２３−２）。順に各ビットが０か１かを判定し（Ｓ２３−３）、Ｇ．７１１符号のＬＳＢにビットを埋め込むサンプル点では、音声特徴量符号をビット列に分解して得たビットまたはチェックサムビットが０であれば、ＳＷ２３をＧ．７１１偶数コード探索部２５にセットし、音声特徴量符号をビット列に分解して得たビットまたはチェックサムビットが１であれば、ＳＷ２３をＧ．７１１奇数コード探索部２６にセットし、ＬＳＢにビットを埋め込まないサンプル点では、ＳＷ２３をＧ．７１１全コード探索部２４にセットする（Ｓ２３−４）。

Ｇ．７１１全コード探索部２４は、図９での説明のように、Ｇ．７１１の全２５６パターンの中から、入力された音声サンプル値に量子化値の近い符号を決定し、出力する（Ｓ２４）。Ｇ．７１１偶数コード探索部２５は、同じく図９での説明のように、Ｇ．７１１の偶数符号に対応する１２８パターンの中から、入力された音声サンプル値に量子化値の近い符号を決定し、出力する（Ｓ２５）。Ｇ．７１１奇数コード探索部２６は、Ｇ．７１１の奇数符号に対応する１２８パターンの中から、入力された音声サンプル値に量子化値の近い符号を決定し、出力する（Ｓ２６）。

なお、全コードを探索する場合に比べて、奇数コードのみ、または偶数コードのみしか探索しない場合には、Ｇ．７１１で符号化したときの波形歪みが大きくなり（ＳＮ比が悪くなり）、ノイズの増加原因となる。例えば、１６０サンプル点すべてのＬＳＢに、ビットの情報を埋め込むと（つまり、１６０ビット分を埋め込むと）、再生音のノイズが耳障りになって実用的ではない。一方、１６０サンプル点のごく一部だけに情報を埋め込むのであれば、波形全体を見たときの歪みは小さく、再生音のノイズは気にならない。１６０サンプルあたり何ビット埋め込むと、人間が聴いたときにノイズがどれくらい気になるかについては後述する。

従来の方法では、全２５６パターンの中から、入力された音声サンプル値に量子化値の近い符号を決定し、決定した符号の最下位ビットを別の情報で置き換える。本発明の方法では、最初から探索できるコードを１２８パターンに制限し、量子化歪みが小さくなるような符号を決定する。２つの方法は、ある特定条件では結果が一致するが、一般には結果が異なり、本発明の方法の方が再生時の歪みを小さくできる。
Ｇ．７１１全コード探索部２４、Ｇ．７１１偶数コード探索部２５、Ｇ．７１１奇数コード探索部２６から出力された１サンプル分のＧ．７１１符号は、音声符号バッファ２７において１フレーム分蓄えられたのち、１フレーム分の音声符号として出力される（Ｓ２７）。
［第２実施形態］
図９のようなＧ．７１１符号のＬＳＢに別のビット情報を埋め込む方法は、１６０サンプル点の一部のサンプル点であれば、音質劣化が目立たずに情報を確実に埋め込むことができるが、ときに問題点が存在する。問題が生じる例として、図７のフレーム化入力音声に、静かな部屋で録音された音声を入力した場合がある。ＩＴＵ−ＴＧ．７１１方式のうち日本や米国で主に使われるμ則の場合、Ｇ．７１１符号のコード２５５（１６進数表現でＦＦ）は量子化値０を表し、コード２５４（１６進数表現でＦＥ）は量子化値８を表す。これに前述の偶数コード探索、奇数コード探索の手法を適用してみる。無音区間のLSBに1を埋め込み、奇数コードのみを探索した場合には、Ｇ．７１１符号を復号したときの音声信号のサンプル値（量子化値）が０となる。しかし、ＬＳＢに０を埋め込み、偶数コードのみを探索した場合には、Ｇ．７１１符号を復号したときの音声信号のサンプル値（量子化値）は８となる。つまり、無音区間のＬＳＢに０を埋め込まれた場合に、復号値が８となるので、プーンというノイズが耳につきやすい。ただし、無音区間でなければ、聴覚特性上、ノイズは目立たない。この問題を回避するためには、振幅の小さい音声区間、例えば、振幅値が±４以内のサンプル点では、埋め込まれる値が０の場合でも１の場合でも、再生音声は０のサンプル値であることが望ましい。そこで、μ則のＧ．７１１符号のコードと量子化値の対応関係を調べてみると、コード２５５は量子化値＋０（正の値としてのゼロ）、コード１２７が量子化値−０（負の値としてのゼロ）を表す構造となっている。再生すればどちらも０のサンプル値を表す０に対して、二重のコードが割り当てられていることになる。この冗長性を利用して、例えば入カサンプル値が±４以内のサンプル点では、ＬＳＢに１、０の値を埋め込むのではなく、例えば埋め込む値が１のときはコード２５５、埋め込む値が０のときはコード１２７（もしくは、逆の対応関係）を使うことにすれば、無音区間でプーンという耳障りなノイズが発生することなく、受信側で埋め込まれたビットの１、０を判定することが可能である。言い換えれば、入カサンプル値が±４以内のサンプル点では、ＬＳＢに情報ビットを埋め込むのではなく、ＭＳＢに情報ビットを埋め込むことに等しい。

このように、μ則のＧ．７１１方式を利用するときに限って（欧州で主に使われるＡ則でないときは）、振幅が０に近い区間ではＭＳＢに、それ以外ではＬＳＢに情報ビットを埋め込む方法が有効である。本実施形態の音声符号化部１１’の構成例を図１０に示す。また、処理フローを図１１に示す。図１０と図７との違いは、入力サンプル値が±４以内かを判定するサンプル値判定部２８、コード２５５を出力するコード２５５出力部２９、コード１２７を出力するコード１２７出力部３０が追加され、サンプル値判定部２８の判定結果も入力としてＳＷ２３を制御するビット解析・ＳＷ制御部３１に変更したことである。サンプル値判定部２８が、入カサンプル値が±４以内のサンプル点であるかどうかの判定を行う（Ｓ２８）。ビット解析・ＳＷ制御部３１は、サンプル値が±４以内であった場合に、埋め込むビットが１のときはＳＷ２３をコード２５５出力部２９に切り替え、埋め込むビットが０のときはＳＷ２３をコード１２７出力部３０に切り替える（Ｓ２３’、Ｓ２３−４’）。また、コード２５５出力部２９は、２５５を出力し（Ｓ２９）、コード１２７出力部３０は、１２７を出力する（Ｓ３０）。それ以外は、図８の処理フローと同じである。
［第３実施形態］
図１２は、本発明を適用した受信装置４０の機能構成例である。図１３に、本発明の受信装置４０の処理フローを示す。パケット受信部４１は、ネットワークから音声パケットを受信し、受信バッファ４２に音声パケットに含まれる音声符号を蓄積するとともに、チェックサム検出部５２にも音声符号を送る（Ｓ４１）。受信バッファ４２はゆらぎ吸収バッファとも呼ばれる。受信した音声符号は、第１実施形態で示したように、音声特徴量符号が組み込まれていても、Ｇ．７１１符号と完全な互換性を有している。

受信バッファ４２は、蓄えた音声符号をフレームの順番に従って音声波形復号部４３に送る（Ｓ４２）。音声波形復号部４３は、音声符号を音声波形に復号する（Ｓ４３）。パケットロスが発生していないフレームでは音声波形復号部４３の出力信号が再生音声として出力される。
チェックサム検出部５２では、音声符号に音声特徴量符号およびチェックサムビットが組み込まれているものとして、音声特徴量符号およびチェックサムビットを抽出する（Ｓ５２−１）。たとえば、図１２が図１０の構成に対応する音声信号受信部であるとすると、次のように処理される。音声特徴量符号またはチェックサムビットが組み込まれているサンプル点（どのサンプル点に組み込まれているかは、事前に決められているものとする）のコードが２５５あるいは１２７であるかを判定する（Ｓ５２−２）。２５５または１２７の場合は、図１０の送信部の定義にしたがって１または０のビットの判定を行う（Ｓ５２−３）。コードが２５５または１２７でない場合は、ＬＳＢのビットが１か０かによって、組み込まれているビットの１または０を判定する（Ｓ５２−４）。音声特徴量符号の全ビットとチェックサムビットが抽出できたら、音声特徴量符号のチェックサムを計算しなおし、抽出したチェックサムビットと一致するかどうかを判断する（Ｓ５２−５）。チェックサムが一致しない場合には、音声特徴量符号は組み込まれていなかったと判断する。本実施形態では、通信路の途中でビット誤りは発生していないものとしている。チェックサムが一致すれば、この音声符号には、音声特徴量符号が正しく組み込まれていた可能性が高い。ここで、「可能性が高い」とは、１００％の確実性ではないことを示す。すなわち、音声特徴量符号が音声符号に組み込まれている場合には、チェックサムは一致することは送信時の定義により確実であるが、チェックサムが一致した場合でも、それが音声特徴量符号とチェックサムビットが音声符号に組み込まれた結果であるのか、符号化された音声符号が、たまたまチェックサムビットの一致条件に合致したにすぎないのかの判断ができないためである。そこで、チェックサム検出部５２では、あらかじめ決められた連続する複数のフレームにわたってチェックサムが一致するかどうかの判定を行う（Ｓ５２−６）。1フレームでもチェックサムが一致しない場合には、一連の受信した音声符号には音声特徴量符号が組み込まれていないと判断する。判定を行ったすべてのフレームでチェックサムが一致すれば、一連の受信した音声符号には音声特徴量符号が組み込まれていると判断する。なお、あらかじめ決められた連続する複数のフレーム全部のチェックサムの判定が終了するまでは、受信した音声符号には音声特徴量符号が組み込まれていたかどうかの確実な判断ができない。したがって、フェールセーフの観点から、判定開始初期段階では、音声特徴量符号は組み込まれていなかったものとして処理しておく。チェックサム検出部５２の判定結果によって、ＳＷ４９が制御され、一連の受信した音声符号に音声特徴量符号が組み込まれている場合には、ＳＷ４９は音声特徴量復号部４８側にセットされ（Ｓ４９−１）、組み込まれていない場合には、ＳＷ４９は音声特徴量なし側にセットされる（Ｓ４９−２）。

ＳＷ５０は、通常時は音声波形復号部４３側にセットされており、音声波形復号部４３で復号された音声信号が受信装置４０から出力される（Ｓ５０−１）。パケットロス検出部５３は、受信バッファ４２の状態から、これから音声を復号しようとするフレーム（フレームｎとする）でパケットロスが発生しているかどうか、すなわち受信バッファ４２に復号すべき音声符号が正しく格納されているかどうかを検出する（Ｓ５３）。フレームｎでパケットロスが発生している場合には、ＳＷ５０をパケットロスコンシールメント４４側に切り替える（Ｓ５０−２）。
パケットロスが発生した場合のパケットロスコンシールメントの手法は、本発明の特徴である音声特徴量がＧ．７１１互換の音声符号に組み込まれていることを除いて非特許文献１と同様である。なお、非特許文献１では、音声特徴量は、パケットヘッダに組み込むか、データ領域に格納する。たとえば、フレームnにおいて、パケットロスが発生したとする。パケットロスが発生した場合は、受信バッファ探索部４６は、受信バッファ４２に蓄積された音声符号を探索し、フレームｎ＋１以降で受信されている音声符号のうち、フレームｎに時間の近い（タイムスタンプが直近の）音声符号を探索する（Ｓ４６−１）。探索の結果、フレームｎ＋ｉの音声符号が得られたとする。例えば、フレームｎ＋１がロスしていないときはｉ＝１、フレームｎ＋１、フレームｎ＋２とも連続してロスしてフレームｎ＋３がロスでない場合はｉ＝３となる。フレームｎ＋ｉの音声符号は、先読み音声波形復号部４７でフレームｎ＋ｉの音声波形に復号され、パケットロスコンシールメント部４４に送られる（Ｓ４７）。

受信バッファ探索部４６では、さらに受信バッファ４２に蓄積された音声符号の中から、フレームｎの音声特徴量が組み込まれた音声符号を探索する（Ｓ４６−２）。前述のように、音声特徴量符号はフレームｎと相対的に何フレームかずれてつけられており、例えばフレームｎ＋３の音声符号に組み込まれている。音声特徴量復号部４８は、フレームｎに対応する音声特徴量をフレームｎのピッチ情報とパワ情報に復号し、パケットロスコンシールメント部４４に送る（Ｓ４８）。ここで、音声特徴量符号は、図９に示すようにあらかじめ定めたサンプルに組み込まれている。また図１０に示したように、無音区間のノイズ対策としてコード１２７とコード２５５を用いている場合がある。したがって、ステップＳ４８での音声特徴量符号の抽出では、次のように音声特徴量符号が抽出される。音声特徴量符号が組み込まれたサンプルを探す。サンプルの値がＧ．７１１のコード１２７かコード２５５に一致する場合は、あらかじめ定めた規則にしたがって、音声特徴量符号のビットを０または１とする。サンプルの値がＧ．７１１のコード１２７またはコード２５５ではない場合は、あらかじめ定めたサンプルのビット（例えばＬＳＢ）から音声特徴量符号のビットを抽出する。ステップＳ４８では、このように抽出された音声特徴量符号から音声特徴量を復号する。なお、前述のように、チェックサム検出部５２で音声特徴量符号が音声符号に組み込まれていると判断されなかった場合には、フレームｎに対応する音声特徴量は、パケットロスコンシールメント部４４に送らない。

出力音声バッファ５１は、受信装置４０の出力音声を常に一定時間蓄える（Ｓ５１−１）。出力音声バッファ５１は、蓄積された出力音声の中から、直前フレームｎ−１に対応する出力波形をパケットロスコンシールメント部４４に送る（Ｓ５１−２）。また、ピッチ抽出部４５は、出力音声バッファ５１に蓄えられた出力音声波形を用いて、直前フレームｎ−１に対応するピッチ周期を分析する。なお、ピッチ抽出は、常時行ってもよいし、パケットロスが発生したときだけ行ってもよい。また、ピッチ抽出部４５は、分析により得られた直前フレームｎ−１に対応するピッチを、パケットロスコンシールメント部４４に送る（Ｓ４５）。パケットロスコンシールメント４４では、ロスしたパケットを以下のように生成し（Ｓ４４）、出力音声として出力する。

パケットロスコンシールメント４４の機能構成例を図１４に示す。また、パケットロスコンシールメント４４の処理フローを図１５に示す。前向き波形外挿部４４１は、出力音声バッファ５１内の直前のフレームの音声波形からピッチ周期に相当する長さまたはピッチ周期よりも少し長い区間の波形を切り出し、ピッチ周期で並べて、あるいは一部を重ね合わせながら並べて波形を生成する（Ｓ４４１）。後ろ向き波形外挿部４４２は、先読み音声波形復号部４７の出力である先読み音声波形、例えば、受信バッファ内からフレームｎ＋２の波形が得られればフレームｎ＋２の波形からピッチ周期に相当する長さまたはピッチ周期よりも少し長い区間の波形を切り出し、ピッチ周期で時間軸の逆方向に並べて、あるいは一部を重ね合わせながら並べて、波形を生成する（Ｓ４４２）。なお、受信バッファ内を探索しても先読み音声波形が得られなかった場合には、後ろ向き波形外挿部４４２は波形を生成しない。

前向き波形外挿部４４１と後ろ向き波形外挿部４４２の動作概念を図１６に示す。図１６の例は、フレームｎがパケットロス、フレームｎ＋１もパケットロス、フレームｎ＋２が正しく受信されて受信バッファ内に蓄積されている場合である。前向き波形外挿部４４１と後ろ向き波形外挿部４４２で用いるピッチ周期は、音声特徴量復号部４８で得たフレームｎに対応する音声特徴量に含まれるピッチ周期である（Ｓ４４７−２）。フレームｎに対応する音声特徴量が得られていない場合、すなわち、前述のようにチェックサムビットが一致せず音声特徴量が音声符号に組み込まれていないと判断される場合や、他のフレームでは音声特徴量が音声符号に組み込まれているものの、パケットロスによってフレームｎの音声特徴量が組み込まれたパケットがロスしてしまった場合などには（Ｓ４４７−１）、ＳＷ４４７をピッチ抽出部４８側に切り替え、出力音声波形を分析して得られたフレームｎ−１のピッチ周期を用いる（Ｓ４４７−３）。前向き波形外挿部４４１と後ろ向き波形外挿部４４２の出力であるそれぞれの波形は、乗算部４４３、４４４でそれぞれ決められた重みを乗じた後（Ｓ４４３、Ｓ４４４）、加算部４４５で加算される（Ｓ４４５）。なお、受信バッファ内を探索しても先読み音声波形が得られなかった場合には、後ろ向き波形外挿部４４２は波形を生成しないので、乗算部４４４側の重みは０とする。加算部４４５の出力波形は、パワ補正部４４６で信号のパワが補正される（Ｓ４４６）。「パワを補正する」とは、加算部４４５の出力波形のパワがフレームｎに対応する音声特徴量から得られるパワの値と同等になるように波形にゲインを乗じる操作である。なお、フレームｎに対応する音声特徴量が得られていない場合には、パワ補正は行わないか、パワ補正のゲインを１とする。パワ補正部４４６の出力は、パケットロスコンシールメント部の出力となる。
［第４実施形態］
第１実施形態から第３実施形態は、パケットロスコンシールメントに本発明を適用した例であったが、Ｇ．７１１の音声符号のＬＳＢまたはＭＳＢに組み込まれる符号情報は、他の用途の符号であってもよい。図１７に本発明を帯域分割符号化の送信装置６０に適用した例を、図１８に本発明を帯域分割符号化の受信装置７０に適用した例を示す。また、図１９に送信側の処理フローを、図２０に受信側の処理フローを示す。

入力音声は入力バッファ６１に蓄えられ、１０ミリ秒〜２０ミリ秒程度の長さのフレームに区切って帯域分割フィルタ６２に送られる（Ｓ６１）。入力音声は広帯域音声で、サンプリング周波数が１６ｋＨｚとすると、帯域分割フィルタ６２によって、サンプリング周波数がそれぞれ８ｋＨｚの低域音声と高域音声に分けられる（Ｓ６２）。高域音声符号化部６６は、高域音声を符号化し、出力である高域音声符号を低域音声符号化部６３に送る（Ｓ６６）。本実施形態では、図５の音声特徴量の代わりが高域音声符号である。したがって、低域音声符号化部６３は、図７〜図１１の音声符号化部１１（または１１’）と同様の方法で高域音声符号を低域音声符号のＬＳＢまたはＭＳＢに組み込む（Ｓ６３）。低域音声符号化部６３の出力は、パケット構成部６４でパケットに構成され（Ｓ６４）、パケット送出部６５によってネットワークに送出される（Ｓ６５）。このとき、低域音声符号化部６３の出力である音声符号は、Ｇ．７１１と完全な互換性を有することから、既存のＧ．７１１用のシステムに接続して利用することができる。また、受信側が従来の（本発明に対応していない）端末であった場合でも、問題なくＧ．７１１で符号化された音声として低域音声のみが再生される。

本発明を適用した受信装置７０では、パケット受信部７１がネットワークから音声パケットを受信し（Ｓ７１）、受信バッファ７２に音声符号を蓄える（Ｓ７２）。受信バッファ７２から出力された音声符号は低域音声復号部７３で復号される（Ｓ７３）。また、高域符号抽出部７４は音声符号から高域符号を抽出する（Ｓ７４）。高域音声復号部７６は、抽出された高域符号から高域音声成分を復号する（Ｓ７６）。チェックサム検出部７８は、受信バッファ７２から出力された音声符号を、高域符号が低域符号のＬＳＢまたはＭＳＢに組み込まれているかどうかの判定を行い（Ｓ７８−１）、組み込まれている場合には、ＳＷ７７を高域音声復号部７６側にセットし、ステップＳ７６で得た高域音声成分を帯域合成フィルタ７５に送る（Ｓ７８−２）。なお、チェックサム検出部７８での判定の結果、高域符号が低域符号のＬＳＢまたはＭＳＢに組み込まれていないと判定された場合には、ＳＷ７７を高域なし側にセットする（Ｓ７８−３）。つまり、高域音声成分は生成されない。帯域合成フィルタ７５は、低域音声復号部７３の出力と、高域音声復号部７６の出力を広帯域の音声信号に合成して出力する（Ｓ７５）。

第１実施形態から第３実施形態ではパケットロスコンシールメントに利用する音声特徴量符号を、第４実施形態では帯域分割符号化の高域音声符号を、Ｇ．７１１符号に組み込んで並行送信している。このほかにも、多地点音声通信会議を行うための制御情報や、チャットなどの文字情報を同様にＧ．７１１符号に組み込むことも可能である。
なお、本発明は、コンピュータ本体とコンピュータプログラムとして実行することが可能であるし、デジタルシグナルプロセッサや専用LSIに実装して実現することも可能である。
［実験例］
上記のように、Ｇ．７１１の符号化アルゴリズムとして符号のＬＳＢまたはＭＳＢに別の符号を埋め込む方法ならば、音質の劣化を抑えつつ、従来のＧ．７１１の符号と完全な互換性を保証することができる。したがって、既存のすべてのシステムやネットワークに、本発明を適用した端末をつないで使用することができる。しかし、あまり多くの情報を埋め込みすぎると、Ｇ．７１１で符号化された音声自体の品質が劣化し、耳障りなノイズが発生してしまう。そこで、Ｇ．７１１符号化の１フレームを１６０サンプル（２０ミリ秒）として、１６０サンプルあたりに何ビット埋め込むと、人間が聴いたときの品質がどれくらい劣化するかの主観評価試験を実施した。図２１はその結果を示したものである。並行して送信したい情報の符号としてそれぞれ０、８、１６、３２、４８ビットと、チェックサムビットとして１ビットを埋め込んだ音声を作成した。図２１は、ヘッドフォン受聴により、１（非常に悪い）〜５（非常に良い）の５段階評価を行った結果である。この結果、音声特徴量８ビット（チェックサムビットを加えると９ビット）までは、全く劣化が検知されていない。また、音声特徴量１６ビット（チェックサムビットを加えると１７ビット）でも、ほとんど劣化が検知されていないことがわかる。３２ビットになると劣化が検知され始め、４８ビットでは０．２５ポイント評価値が低下した。「０．２５ポイント評価値が低下」とは、平均して４人に１人は１段階評価値を下げたことを意味する。したがって、１６０サンプルあたりに埋め込むビットは、１６ビットまでであれば品質劣化の影響がなく、３２ビットまでであれば平均して１０人に１人が１段階評価値を下げる程度であり、実用上の影響ないと判断できる。

ＩＰ通信網上で音声通信を行う利用形態が普及してきており、本発明を適用することによって、既存システムと完全な互換性を有し、安価で信頼性の高い音声通信が実現できる。

ＩＰ通信網を介した１対１の音声通信の構成を示す図。非特許文献１の音声信号送信装置の構成を示す図。パケット構成部８３でパケットを構成する際の、パケットの構成例を示す図。符号の最下位ビットを置換する従来技術を用いた音声信号送信部の構成を示す図。第１実施形態の音声信号送信装置１０の機能構成例を示す図。第１実施形態の音声信号送信装置１０の処理フローを示す図。第１実施形態の音声符号化部１１の機能構成例を示す図。第１実施形態の音声符号化部１１の処理フローを示す図。本発明の音声符号化の概念例を示す図。第２実施形態の音声符号化部１１’の構成例を示す図。第２実施形態の音声符号化部１１’の処理フローを示す図。第３実施形態の受信装置４０の機能構成例を示す図。第３実施形態の受信装置４０の処理フローを示す図。パケットロスコンシールメント４４の機能構成例を示す図。パケットロスコンシールメント４４の処理フローを示す図。前向き波形外挿部４４１と後ろ向き波形外挿部４４２の動作概念を示す図。本発明を帯域分割符号化の送信装置６０に適用した例を示す図。本発明を帯域分割符号化の受信装置７０に適用した例を示す図。本発明を帯域分割符号化の送信装置６０に適用した場合の処理フローを示す図。本発明を帯域分割符号化の受信装置７０に適用した場合の処理フローを示す図。主観評価試験の結果を示す図。

Claims

音声および音楽を含む音の信号である音声信号を、音声パケットとして送信する音声パケット送信方法であって、
入力バッファが、音声信号をフレームと呼ばれる一定時間ごとに区切って出力するステップと、
ビット列解析部が、前記フレームごとに、音声信号の情報とともに送信したいデータ（以下、「並行送信データ」という。）をビット列に分解するビット列分解ステップと、
偶数コード探索部が、前記フレーム内の各サンプル点のうち、あらかじめ定めた前記ビット列の各ビットに対応するサンプル点では、当該ビットの値が０ならば、Ｇ．７１１の偶数符号に対応する１２８コードから、入力された音声サンプル値に量子化値の近いコードを探索し、探索結果に従ってＬＳＢが当該ビットの値を表すＧ．７１１の音声符号を出力する偶数コード探索ステップと、
奇数コード探索部が、前記各ビットに対応するサンプル点において、当該ビットの値が１ならば、Ｇ．７１１の奇数符号に対応する１２８コードから、入力された音声サンプル値に量子化値の近いコードを探索し、探索結果に従ってＬＳＢが当該ビットの値を表すＧ．７１１の音声符号を出力する奇数コード探索ステップと、
全コード探索部が、前記各ビットに対応するサンプル点以外では、Ｇ．７１１の全２５６コードから、入力された音声サンプル値に量子化値の近いコードを探索し、探索結果に従ってＧ．７１１の音声符号を出力する全コード探索ステップと、
を有する音声パケット送信方法。
請求項１記載の音声パケット送信方法であって、
前記各ビットに対応するサンプル点での入力音声の値が、あらかじめ定めた０に近い範囲内の場合であって、当該ビットの値が１ならば、コード２５５出力部が、Ｇ．７１１のコード２５５番を探索結果として出力するコード２５５出力ステップと、
前記各ビットに対応するサンプル点での入力音声の値が、あらかじめ定めた０に近い範囲内の場合であって、当該ビットの値が０ならば、コード１２７出力部が、Ｇ．７１１のコード１２７番を探索結果として出力するコード１２７出力ステップと、をさらに備える、
ことを特徴とする音声パケット送信方法。
請求項１または２記載の音声パケット送信方法であって、
前記並行送信データのビット列には、当該並行送信データから計算されるチェックサムビットが含まれる、
ことを特徴とする音声パケット送信方法。
音声および音楽を含む音の信号である音声信号を、音声パケットとして受信する音声パケット受信方法であって、
音声波形復号部が、受信したＧ．７１１音声符号を、Ｇ．７１１規格にしたがって復号する音声符号復号ステップと、
並行送信データ復号部が、並行送信データのビットが組み込まれているあらかじめ定められたサンプル点のコードがＧ．７１１のコード１２７番または２５５番であるかを判定し、Ｇ．７１１のコード１２７番または２５５番の場合には対応する送信部の定義に従って並行送信データのビットが０か１かを求め、Ｇ．７１１のコード１２７番または２５５番でない場合にはそのサンプル点のＬＳＢから並行送信データのビットが０か１かを抽出し、並行送信データを復号する並行送信データ復号ステップと
を有する音声パケット受信方法。
請求項４記載の音声パケット受信方法であって、
チェックサム検出部が、チェックサムビットの値が、並行送信データのビット列から計算したチェックサムと一致するかを確認する第１のチェックサム確認ステップと、
前記チェックサム検出部が、前記第１のチェックサム確認ステップでの確認結果が正しいことを、あらかじめ定めた連続するフレーム数確認する第２のチェックサム確認ステップと、
前記第１のチェックサム確認ステップまたは前記第２のチェックサム確認ステップのいずれかの確認結果が正しくなかった場合には、前記並行送信データ復号部が、並行送信データを復号しないことを特徴とする前記並行送信データ復号ステップと
を有する音声パケット受信方法。
音声および音楽を含む音の信号である音声信号を、音声パケットとして送信する音声パケット送信装置であって、
音声信号をフレームと呼ばれる一定時間ごとに区切って出力する入力バッファと、
前記フレームごとに、音声信号の情報とともに送信したいデータ（以下、「並行送信データ」という。）をビット列に分解するビット列解析部と、
前記フレームの各サンプル点のうち、あらかじめ定めた前記ビット列の各ビットに対応するサンプル点では、当該ビットの値が０ならば、Ｇ．７１１の偶数符号に対応する１２８コードから、入力された音声サンプル値に量子化値の近いコードを探索し、探索結果に従ってＬＳＢが当該ビットの値を表すＧ．７１１の音声符号を出力する偶数コード探索部と、
前記各ビットに対応するサンプル点において、当該ビットの値が１ならば、Ｇ．７１１の奇数符号に対応する１２８コードから、入力された音声サンプル値に量子化値の近いコードを探索し、探索結果に従ってＬＳＢが当該ビットの値を表すＧ．７１１の音声符号を出力する奇数コード探索部と、
前記各ビットに対応するサンプル点以外では、Ｇ．７１１の全２５６コードから、入力された音声サンプル値に量子化値の近いコードを探索し、探索結果に従ってＧ．７１１の音声符号を出力する全コード探索部と、
を備える音声パケット送信装置。
音声および音楽を含む音の信号である音声信号を、音声パケットとして受信する音声パケット受信装置であって、
受信したＧ．７１１音声符号を、Ｇ．７１１規格にしたがって復号する音声符号復号部と、
並行送信データのビットが組み込まれているあらかじめ定められたサンプル点のコードがＧ．７１１のコード１２７番または２５５番であるかを判定し、Ｇ．７１１のコード１２７番または２５５番の場合には対応する送信部の定義に従って並行送信データのビットが０か１かを求め、Ｇ．７１１のコード１２７番または２５５番でない場合にはそのサンプル点のＬＳＢから並行送信データのビットが０か１かを抽出し、並行送信データを復号する並行送信データ復号部と
を有する音声パケット受信装置。
請求項１から５のいずれかに記載の方法の各ステップを、コンピュータにより実行するプログラム。
請求項８記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。