JP4022427B2

JP4022427B2 - エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置

Info

Publication number: JP4022427B2
Application number: JP2002117829A
Authority: JP
Inventors: 直史青木; 強山本; 由直青木
Original assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Priority date: 2002-04-19
Filing date: 2002-04-19
Publication date: 2007-12-19
Anticipated expiration: 2022-04-19
Also published as: JP2003316670A

Description

【０００１】
【発明の属する技術分野】
本発明は、エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置に係り、特に、ステガノグラフィを用いたＶｏＩＰ（ＶｏｉｃｅＯｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）におけるパケット消失又は遅延等のエラーを除去するためのエラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置に関する。
【０００２】
【従来の技術】
従来の電話サービスが距離や時間に比例した通話料金体系になっていることに対して、定額制のＩＰネットワーク網を利用するＶｏＩＰは、特に国際電話のような長距離通話の場合、より安い通話料金を実現できるため、近年急速に実用化が進んでいる（文献７参照）。
図１４に、ＶｏＩＰによる音声通話とデータ通信の統合の背景についての説明図を示す。
【０００３】
ＶｏＩＰ普及の背景には、ＩＰネットワーク網のブロードバンド化に伴い、データ通信のトラフィックが音声通話のそれを上回りつつあるという事情がある。図示のように、２０００年にはデータ通信のトラフィックが音声通話のそれを上回り、２００３年には１：４の割合になると電気通信審議会では予想している（文献３，８参照）。ＩＰネットワーク網によって伝送される大量のテキストや画像データと同時に、ＶｏＩＰによるリアルタイムの音声通話を可能とすることでマルチメディアを駆使したコミュニケーションが可能となり、コールセンター等において新たなサービスを提供することができるようになると期待されている（文献１７参照）。
つぎに、ＶｏＩＰによる音声通話について説明する。
図１５に、ＶｏＩＰにおける音声通話の手順の説明図を示す。
【０００４】
ＶｏＩＰは、図のような手順で音声通話を実現する（文献７参照）。すなわち、送信側では、アナログ音声をＡＤ変換し、ディジタル化した音声データに対して圧縮処理をおこなう。次に、圧縮音声データをペイロードに搭載したＩＰパケットを一定時間ごとに作成し、ＩＰネットワーク網により受信側に伝送する。ＩＰネットワーク網では、ルータを適宜介してデータが宛先の装置へ伝送される。受信側では、ＩＰパケットの分解（デパケット）、圧縮音声データの伸張、ＤＡ変換によりアナログ音声を再生する。
つぎに、図１６及び図１７に、ＶｏＩＰにおけるＩＰデータグラムの構造についての説明図（１）及び（２）を示す。
【０００５】
ＶｏＩＰではＩＰネットワーク網を利用して音声通話を実現するが、パケットの消失や遅延といったエラーが生じても当該パケットの再送を行わないリアルタイム通信を実現するため、図１６に示すように、トランスポート層のプロトコルとしてＵＤＰ（User Datagram Protocol）を使用する。さらにパケットを順序どおりに処理するために必要なタイムスタンプを伝送するためにセッション層のプロトコルとしてＲＴＰ（Real Time Protocol）プロトコルを使用する。このようなＩＰデータグラムにおけるペイロードには図１７のように圧縮音声データが格納されることになるが、ＶｏＩＰでは様々な音声圧縮フォーマットに対応しており、代表的なコーデックとしてＩＴＵ（International Telecommunication Union）勧告のＧ．７１１、Ｇ．７２３、Ｇ．７２９が使用される（文献５，１６参照）。なお、圧縮音声データの標準的なフレーム長は２０ｍｓとされている。
【０００６】
【発明が解決しようとする課題】
近年、ＩＰネットワーク網を利用して音声通話を実現するＶｏＩＰ（Voice over IP）が注目を集めており、次世代の電話サービスとして期待されているが、ＶｏＩＰは本来リアルタイム通信に不向きなベストエフォート型のパケット通信により音声通話を実現するため、パケットの消失や遅延といったエラーが通話品質を低下させる場合があるという原理的な課題を抱えている（文献７，８，１２参照）。こうしたエラーが生じると、受信側で再生される音声が途切れるため、ＶｏＩＰによる音声通話を実現するにあたっては一定時間のうちに確実にパケットが受信されるようにネットワークを整備する必要がある（文献１８参照）。また、エラーが生じてもできるだけ通話品質の低下を抑制するための対策を講じておくことも必要である。通常、非リアルタイム通信ではパケットが消失した場合、当該パケットを再送することでエラーに対応するが、リアルタイム性が要求されるＶｏＩＰではパケットを再送する時間的余裕はないため、他の方法でエラーを隠蔽する必要がある。
【０００７】
本発明では、以上の点に鑑み、送信側（sender-based）および受信側（receiver-based）のエラー隠蔽手法をハイブリッド化することでより効果的にエラー隠蔽を行う方法を提供することを目的とする。例えば、本発明では、データ隠蔽技術として近年注目を集めているステガノグラフィ技術を用いた補助情報の伝送を採用している。
【０００８】
従来の送信側のエラー隠蔽手法では、音声データ以外に別途エラー隠蔽のための補助情報を伝送することになるため伝送量が増加してしまい、できるだけ伝送量を抑えたいリアルタイム通信を実現する上で不利であった。また、従来の受信側のエラー隠蔽手法では、正常に受信された音声データのみから補助情報を推定してエラー隠蔽処理を行うため、その精度が十分ではなかった。
【０００９】
本発明はＶｏＩＰ方式によって音声通信を行うシステムに適用でき、ＶｏＩＰの原理的な課題であるパケットの消失や遅延等といったエラーによる通話品質の低下を抑制できるエラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置を提供することを目的とする。また、通常、送信側のエラー隠蔽手法では補助情報の伝送により全体の伝送量が増加してしまうという課題があるが、本発明は、送信側のエラー隠蔽手法でありながら補助情報を別途伝送する必要をなくし、より効果的にエラー隠蔽を行うことを目的とする。
【００１０】
さらに、従来でも位置情報だけであれば、本発明よりも性能は劣るとはいえ、受信側において得ることが可能であるが、振幅情報は受信側で推定することが非常に困難である。もし、振幅情報が適切でないと、音声の開始部や終了部でのエラーが起きた場合、エコー感がつくような補間処理がなされてしまうという課題がこれまでにも指摘されている。そこで、本発明は、あらかじめ送信側でフレーム単位の振幅情報を抽出した後、これを補助情報として受信側に伝送することで、こうした課題にも対処し、補完処理（隠蔽処理）によるエコー感を排除することを目的とする。
【００１１】
【課題を解決するための手段】
上述のようなエラーの隠蔽に関して、これまでにも様々な方法が提案されている。大別すると、送信側でエラー隠蔽に関する対策を行う方法と、受信側でエラー隠蔽に関する対策を行う方法の２種類がある。両者はこれまで個々に研究されてきたが、本発明では両者のハイブリッド化によって効果的にエラー隠蔽を行う方法を提供する。
【００１２】
本発明では、送信側で類似の音声データの位置を検出して、その位置情報ｎを補助情報として埋め込む処理を実行する。このように、送信側においてあらかじめ置換に用いる音声データを検出しておくと、受信側で推定するよりも正確な置換が可能になる。従来の波形置換法（ＷＳ（Waveform Substitution）法）は、あくまでも受信側における方法であるが、本発明は、特に補助情報を送信してこれを利用する点で異なり、この意味では、送信側の方法の要素を兼ね備えた手法であるといえる。
【００１３】
後述のように、位置情報ｎは相互相関関数Ｃ（ｎ）の最大値を与える位置であるが、本発明では、これを送信側で計算する。従来ではこれを受信側で推定するが、送信側ではパケット消失以前の全ての音声データが使えるため、位置情報ｎの正確さが受信側よりも向上する。
【００１４】
また、本発明では、一例として、データ隠蔽技術として近年注目を集めているステガノグラフィ技術を用いた補助情報の伝送を採用している（文献１１，１３参照）。すなわち、送信側は、得られた位置情報ｎを聴覚的には問題のないレベルで音声データとミキシングして伝送する。これがステガノグラフィ処理である。受信側では、まず音声データと位置情報ｎとを分離し、もしパケットが消失していたら、直前のパケットから得られた位置情報ｎを利用して音声データの置換個所を取り出し置換処理を行う。
【００１５】
なお、実施の形態では、一例として、音声データは８ｂｉｔ量子化されたものを想定しているが、本実施の形態では６ビットで表現される位置情報ｎを、音声データの最下位の１ｂｉｔにそのまま書き込んでいる。聴覚的には最下位ｂｉｔが多少変更してもまったく違いがわからないので、本発明のようなデータ伝送に利用することができる。これがステガノグラフィ、あるいは用途は異なるが、電子透かし技術の本質であって、これまでの音声通信ではこうしたステガノグラフィを積極的に利用するという発想はなかったが、特に、ＶｏＩＰのように伝送時に細かいパケットに分割して伝送するようなシステムの場合、なんらかのエラー対策が必要となり、そのために必要な補助情報の伝送量をできるだけ少なく抑えることができると、リアルタイム通信には大変好都合である。
【００１６】
したがって、音声データと補助情報を分離して伝送するよりも、両者をまとめて伝送するといった技術がこれからいろいろと提案される可能性がある。本実施の形態は、あくまでもエラー対策のための補助情報の埋め込みに留まっているが、目的に応じて、テキストによるチャットや画像通信など、補助情報のかわりに別のデータを埋め込むことも可能である。
【００１７】
さらに、本発明では、振幅情報も送信側で計算し、これを受信側に伝送するようにしてもよい。一般に、音声波形の開始部分や終了部分では、波形置換法によりエコー感が生じるという課題があるが、本発明では、あらかじめ送信側でフレーム単位の振幅情報を抽出した後、これを補助情報として受信側に伝送することで対処している。通常の送信側のエラー隠蔽手法では、こうした補助情報を別途伝送することでエラー隠蔽を行うが、伝送量の増加を伴う伝送フォーマットの変更が必要となり汎用性を欠く。本発明では音声データに別のデータを知覚できないようにして埋め込むステガノグラフィを適用することで、通話品質をほぼ同等に保ちつつ音声データと同時に補助情報の伝送を行う方法について検討した（文献２参照）。
【００１８】
【課題を解決するための手段】
本発明の第１の解決手段によると、
送信装置で、データの欠損又は遅延を含むエラーを隠蔽するための置換波形の位置情報と振幅情報を含む補助情報を音声データに埋め込み送信し、受信装置で、受信した音声データに埋め込まれた補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、補助情報に含まれる振幅情報に従い、振幅情報が第２の値であることによりエラーの音声データが有音区間であるときは置換波形をそのまま用い、振幅情報が第１の値であることによりエラーの音声データが無音・準無音区間であるときは置換波形のパワーを小さく処理を行うことで該置換波形のパワーを調整し、複数の該置換波形をフレームに組み込んで該エラーを隠蔽するためのエラー隠蔽方法であって、前記送信装置において、
送信すべき音声データを伝送フレームに分割し、且つ、各フレームを複数のサブフレームに分割するステップと、
第１のフレーム中の各サブフレームと予め定められたサーチ範囲における音声データとの相互相関を計算し、相関度の高い音声データである置換波形の位置情報であって、サブフレームに対する該置換波形の相対的位置を示す前記位置情報又は置換波形の絶対的位置を示す前記位置情報を各サブフレーム毎に得るステップと、
前記第１のフレームの音声データが無音・準無音区間のとき前記第１の値、有音区間のとき前記第２の値としてフレームの振幅情報を求めるステップと、
第１のフレーム中の複数のサブフレームについての位置情報及び得られた振幅情報を含む補助情報をその後の第２のフレームの音声データに、知覚されない又は知覚されにくいように埋め込むステップと、
補助情報が埋め込まれた音声データをフレーム毎にパケット化して伝送するステップと、
を含む処理を実行する前記エラー隠蔽方法が提供される。
【００１９】
本発明の第２の解決手段によると、
送信装置で、第１のフレーム中の各サブフレームと予め定められたサーチ範囲における音声データとの相互相関を計算し、相関度の高い音声データである置換波形の位置情報であって、サブフレームに対する該置換波形の相対的位置を示す前記位置情報又は置換波形の絶対的位置を示す前記位置情報を各サブフレーム毎に得て、前記第１のフレームの音声データが無音・準無音区間のとき第１の値、有音区間のとき第２の値としてフレームの振幅情報を求め、第１のフレーム中の複数のサブフレームについての位置情報及び得られた振幅情報を含む補助情報をその後の第２のフレームの音声データに、知覚されない又は知覚されにくいように埋め込み送信し、受信装置で、受信した音声データに埋め込まれた補助情報に従い該エラーを隠蔽するためのエラー隠蔽方法であって、前記受信装置において、
送信側で補助情報が知覚されない又は知覚されにくいように埋め込まれた音声データから、埋め込まれた位置情報及び振幅情報を含む補助情報を抽出するステップと、
音声データを監視し、第１のフレームの音声データに損失又は遅延を含むエラーがあるか否か判定するステップと、
エラーがあると判定される場合、第１のフレームの後に受信した第２のフレームの補助情報を用いて、第１のフレーム中の各サブフレームについて、抽出された補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、抽出された補助情報に含まれる振幅情報に従い、振幅情報が前記第２の値であることによりエラーの音声データが有音区間であるときは置換波形をそのまま用い、振幅情報が前記第１の値であることによりエラーの音声データが無音・準無音区間であるときは置換波形のパワーを小さく処理を行うことで該置換波形のパワーを調整し、複数の該置換波形を第１のフレームに組み込み、複数のサブフレーム及び隣接するフレームの音声データを連結するステップと、
一方、前記判定するステップでエラーがあると判定されない場合、隣接するフレームの音声データを連結するステップと、
連結された音声データにより音声を再生して出力するステップと
を含む処理を実行する前記エラー隠蔽方法が提供される。
【００２０】
本発明の第３の解決手段によると、
送信装置で、データの欠損又は遅延を含むエラーを隠蔽するための補助情報を音声データに埋め込み送信し、受信装置で、受信した音声データに埋め込まれた補助情報に従い該エラーを隠蔽するためのエラー隠蔽方法であって、
前記送信装置において、
送信すべき音声データを伝送フレームに分割し、且つ、各フレームを複数のサブフレームに分割するステップと、
第１のフレーム中の各サブフレームと予め定められたサーチ範囲における音声データとの相互相関を計算し、相関度の高い音声データである置換波形の位置情報であって、サブフレームに対する該置換波形の相対的位置を示す前記位置情報又は置換波形の絶対的位置を示す前記位置情報を各サブフレーム毎に得るステップと、
前記第１のフレームの音声データが無音・準無音区間のとき第１の値、有音区間のとき第２の値としてフレームの振幅情報を求めるステップと、
第１のフレーム中の複数のサブフレームについての位置情報及び得られた振幅情報を含む補助情報をその後の第２のフレームの音声データに、知覚されない又は知覚されにくいように埋め込むステップと、
補助情報が埋め込まれた音声データをフレーム毎にパケット化して伝送するステップと、
を含む処理を実行し、
前記受信装置において、
送信側で補助情報が知覚されない又は知覚されにくいように埋め込まれた音声データから、埋め込まれた位置情報及び振幅情報を含む補助情報を抽出するステップと、
音声データを監視し、第１のフレームの音声データに損失又は遅延を含むエラーがあるか否か判定するステップと、
エラーがあると判定される場合、第１のフレームの後に受信した第２のフレームの補助情報を用いて、第１のフレーム中の各サブフレームについて、抽出された補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、抽出された補助情報に含まれる振幅情報に従い、振幅情報が前記第２の値であることによりエラーの音声データが有音区間であるときは置換波形をそのまま用い、振幅情報が前記第１の値であることによりエラーの音声データが無音・準無音区間であるときは置換波形のパワーを小さく処理を行うことで該置換波形のパワーを調整し、複数の該置換波形を第１のフレームに組み込み、複数のサブフレーム及び隣接するフレームの音声データを連結するステップと、
一方、前記判定するステップでエラーがあると判定されない場合、隣接するフレームの音声データを連結するステップと、
連結された音声データにより音声を再生して出力するステップと
を含む処理を実行する前記エラー隠蔽方法が提供される。
【００２１】
本発明の第４の解決手段によると、
送信処理部で、データの欠損又は遅延を含むエラーを隠蔽するための置換波形の位置情報と振幅情報を含む補助情報を音声データに埋め込み送信し、受信処理部で、受信した音声データに埋め込まれた補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、補助情報に含まれる振幅情報に従い該置換波形のパワーを調整し、複数の該置換波形をフレームに組み込んで該エラーを隠蔽するためのエラー隠蔽プログラムであって、
前記送信処理部に、
送信すべき音声データを伝送フレームに分割し、且つ、各フレームを複数のサブフレームに分割するステップと、
第１のフレーム中の各サブフレームと予め定められたサーチ範囲における音声データとの相互相関を計算し、相関度の高い音声データである置換波形の位置情報であって、サブフレームに対する該置換波形の相対的位置を示す前記位置情報又は置換波形の絶対的位置を示す前記位置情報を各サブフレーム毎に得るステップと、
前記第１のフレームの音声データが無音・準無音区間のとき第１の値、有音区間のとき第２の値としてフレームの振幅情報を求めるステップと、
第１のフレーム中の複数のサブフレームについての位置情報及び得られた振幅情報を含む補助情報をその後の第２のフレームの音声データに、知覚されない又は知覚されにくいように埋め込むステップと、
補助情報が埋め込まれた音声データをフレーム毎にパケット化して伝送するステップと、
を含む処理を実行させ、
前記受信処理部に、
送信側で補助情報が知覚されない又は知覚されにくいように埋め込まれた音声データから、埋め込まれた位置情報及び振幅情報を含む補助情報を抽出するステップと、
音声データを監視し、第１のフレームの音声データに損失又は遅延を含むエラーがあるか否か判定するステップと、
エラーがあると判定される場合、第１のフレームの後に受信した第２のフレームの補助情報を用いて、第１のフレーム中の各サブフレームについて、抽出された補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、抽出された補助情報に含まれる振幅情報に従い、振幅情報が前記第２の値であることによりエラーの音声データが有音区間であるときは置換波形をそのまま用い、振幅情報が前記第１の値であることによりエラーの音声データが無音・準無音区間であるときは置換波形のパワーを小さく処理を行うことで該置換波形のパワーを調整し、複数の該置換波形を第１のフレームに組み込み、複数のサブフレーム及び隣接するフレームの音声データを連結するステップと、
一方、前記判定するステップでエラーがあると判定されない場合、隣接するフレームの音声データを連結するステップと、
連結された音声データにより音声を再生して出力するステップと
を含む処理を実行させるための前記エラー隠蔽プログラムが提供される。
【００２２】
本発明の第５の解決手段によると、
送信装置が、データの欠損又は遅延を含むエラーを隠蔽するための置換波形の位置情報と振幅情報を含む補助情報を音声データに埋め込み送信し、受信装置が、受信した音声データに埋め込まれた補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、補助情報に含まれる振幅情報に従い、振幅情報が第２の値であることによりエラーの音声データが有音区間であるときは置換波形をそのまま用い、振幅情報が第１の値であることによりエラーの音声データが無音・準無音区間であるときは置換波形のパワーを小さく処理を行うことで該置換波形のパワーを調整し、複数の該置換波形をフレームに組み込んで該エラーを隠蔽するためのエラー隠蔽装置における前記送信装置であって、
前記送信装置は、
入力された音声を音声データに変換するＡ／Ｄ変換部と、
前記Ａ／Ｄ変換部からの音声データに、エラー隠蔽のための補助情報を隠蔽処理により埋め込むための送信処理部と、
前記送信処理部からの音声データをパケット化して出力するパケット部と
を備え、
前記送信処理部は、
前記Ａ／Ｄ変換部からの送信すべき音声データを伝送フレームに分割し、且つ、各フレームを複数のサブフレームに分割する手段と、
第１のフレーム中の各サブフレームと予め定められたサーチ範囲における音声データとの相互相関を計算し、相関度の高い音声データである置換波形の位置情報であって、サブフレームに対する該置換波形の相対的位置を示す前記位置情報又は置換波形の絶対的位置を示す前記位置情報を各サブフレーム毎に得る手段と、
前記第１のフレームの音声データが無音・準無音区間のとき前記第１の値、有音区間のとき前記第２の値としてフレームの振幅情報を求める手段と、
第１のフレーム中の複数のサブフレームについての位置情報及び得られた振幅情報を含む補助情報をその後の第２のフレームの音声データに、知覚されない又は知覚されにくいように埋め込む手段と
を有し、
前記パケット部が、補助情報が埋め込まれた音声データをフレーム毎にパケット化して伝送する
前記送信装置が提供される。
【００２３】
本発明の第６の解決手段によると、
送信装置が、第１のフレーム中の各サブフレームと予め定められたサーチ範囲における音声データとの相互相関を計算し、相関度の高い音声データである置換波形の位置情報であって、サブフレームに対する該置換波形の相対的位置を示す前記位置情報又は置換波形の絶対的位置を示す前記位置情報を各サブフレーム毎に得て、前記第１のフレームの音声データが無音・準無音区間のとき第１の値、有音区間のとき第２の値としてフレームの振幅情報を求め、第１のフレーム中の複数のサブフレームについての位置情報及び得られた振幅情報を含む補助情報をその後の第２のフレームの音声データに、知覚されない又は知覚されにくいように埋め込み送信し、受信装置が、受信した音声データに埋め込まれた補助情報に従い該エラーを隠蔽するためのエラー隠蔽装置における前記受信装置であって、
前記受信装置は、
パケットを受信し、デパケット化して音声データを取得するデパケット部と、
前記デパケット部からの音声データに埋め込まれたエラー隠蔽のための補助情報を抽出するための受信処理部と、
前記受信処理部からの音声データを再生して音声を出力するＤ／Ａ変換部と
を備え、
前記受信処理部は、
前記デパケット部から受信した、送信側で補助情報が知覚されない又は知覚されにくいように埋め込まれた音声データから、埋め込まれた位置情報及び振幅情報を含む補助情報を抽出する手段と、
音声データを監視し、第１のフレームの音声データに損失又は遅延を含むエラーがあるか否か判定する手段と、
エラーがあると判定される場合、第１のフレームの後に受信した第２のフレームの補助情報を用いて、第１のフレーム中の各サブフレームについて、抽出された補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、抽出された補助情報に含まれる振幅情報に従い、振幅情報が前記第２の値であることによりエラーの音声データが有音区間であるときは置換波形をそのまま用い、振幅情報が前記第１の値であることによりエラーの音声データが無音・準無音区間であるときは置換波形のパワーを小さく処理を行うことで該置換波形のパワーを調整し、複数の該置換波形を第１のフレームに組み込み、複数のサブフレーム及び隣接するフレームの音声データを連結する手段と、
一方、前記判定する手段でエラーがあると判定されない場合、隣接するフレームの音声データを連結する手段と、
連結された音声データにより音声を再生して出力する手段と
を有する前記受信装置が提供される。
【００２４】
本発明の第７の解決手段によると、
送信装置が、データの欠損又は遅延を含むエラーを隠蔽するための補助情報を音声データに埋め込み送信し、受信装置が、受信した音声データに埋め込まれた補助情報に従い該エラーを隠蔽するためのエラー隠蔽装置であって、
前記送信装置は、
入力された音声を音声データに変換するＡ／Ｄ変換部と、
前記Ａ／Ｄ変換部からの音声データに、エラー隠蔽のための補助情報を隠蔽処理により埋め込むための送信処理部と、
前記送信処理部からの音声データをパケット化して出力するパケット部と
を備え、
前記送信処理部は、さらに、
前記Ａ／Ｄ変換部からの送信すべき音声データを伝送フレームに分割し、且つ、各フレームを複数のサブフレームに分割する手段と、
第１のフレーム中の各サブフレームと予め定められたサーチ範囲における音声データとの相互相関を計算し、相関度の高い音声データである置換波形の位置情報であって、サブフレームに対する該置換波形の相対的位置を示す前記位置情報又は置換波形の絶対的位置を示す前記位置情報を各サブフレーム毎に得る手段と、
前記第１のフレームの音声データが無音・準無音区間のとき第１の値、有音区間のとき第２の値としてフレームの振幅情報を求める手段と、
第１のフレーム中の複数のサブフレームについての位置情報及び得られた振幅情報を含む補助情報をその後の第２のフレームの音声データに、知覚されない又は知覚されにくいように埋め込む手段と
を有し、
前記パケット部が、補助情報が埋め込まれた音声データをフレーム毎にパケット化して伝送し、
前記受信装置は、
パケットを受信し、デパケット化して音声データを取得するデパケット部と、
前記デパケット部からの音声データに埋め込まれたエラー隠蔽のための補助情報を抽出するための受信処理部と、
前記受信処理部からの音声データを再生して音声を出力するＤ／Ａ変換部と
を備え、
前記受信処理部は、さらに、
前記デパケット部から受信した、送信側で補助情報が知覚されない又は知覚されにくいように埋め込まれた音声データから、埋め込まれた位置情報及び振幅情報を含む補助情報を抽出する手段と、
音声データを監視し、第１のフレームの音声データに損失又は遅延を含むエラーがあるか否か判定する手段と、
エラーがあると判定される場合、第１のフレームの後に受信した第２のフレームの補助情報を用いて、第１のフレーム中の各サブフレームについて、抽出された補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、抽出された補助情報に含まれる振幅情報に従い、振幅情報が前記第２の値であることによりエラーの音声データが有音区間であるときは置換波形をそのまま用い、振幅情報が前記第１の値であることによりエラーの音声データが無音・準無音区間であるときは置換波形のパワーを小さく処理を行うことで該置換波形のパワーを調整し、複数の該置換波形を第１のフレームに組み込み、複数のサブフレーム及び隣接するフレームの音声データを連結する手段と、
一方、前記判定する手段でエラーがあると判定されない場合、隣接するフレームの音声データを連結する手段と、
連結された音声データにより音声を再生して出力する手段と
を有する前記エラー隠蔽装置が提供される。
【００２５】
【発明の実施の形態】
１．能動的・受動的なエラー隠蔽手法
ＶｏＩＰはパケットの消失、欠損、遅延等といったエラーが通話品質を低下させるという原理的な課題を抱えているため、これまでにもエラーを隠蔽する方法が種々提案されてきている（文献７，８参照）。これまでに提案された手法は、送信側の方法と受信側の方法の２種類に大別できる（文献１４参照）。それぞれ、送信側あるいは受信側のみでエラー隠蔽に関する対策を行う。
【００２６】
１．１送信側のエラー隠蔽手法
図１に、送信側のエラー隠蔽手法の説明図を示す。
図に示すように、送信側のエラー隠蔽手法はアクティブな方法（能動的方法）とパッシブな方法（受動的方法）の２種類に分類できる。アクティブな方法としてはパケットの再送が挙げられる。しかしながら、この方法はリアルタイム通信にとっては実用的ではない。パッシブな方法としては、一つのパケットに格納されるはずの圧縮音声データをインターリーブにより複数のパケットに分散して伝送する方法や、エラー隠蔽のための補助情報を別途伝送する、あらかじめエラーを想定したエラー訂正の方法（Forward Error Correction）がある。そのなかで、例えば伝送するデータの特性によらない方法（Media Independentな方法）は、エラー訂正符号をエンコードしたパケットを伝送することでエラー隠蔽を行う。この方法はペイロードに格納されるデータの性質によらず適用できるという利点がある。一方、伝送するデータの特性に基いた方法（Media Specificな方法）はペイロードに格納されるデータの性質を利用する。音声データを扱うＶｏＩＰの場合、ペイロードに格納される圧縮音声データよりもさらに圧縮率を高くした圧縮音声データを他のパケットのペイロードに格納しておくことで、エラーが生じた際の当該パケットにおける音声データの復元に利用している。
【００２７】
１．２受信側のエラー隠蔽手法
図２に、受信側のエラー隠蔽手法の説明図を示す。
この図はＶｏＩＰにおける受信側のエラー隠蔽手法をまとめている。図示されているように、受信側のエラー隠蔽手法はデータの挿入（Insertion）、データの補間（Interpolation）、再合成（Regeneration）の３種類に分類できる。データの挿入には、直前のフレームを繰り返すことで欠損したフレームのエラー隠蔽を行う繰り返し法（Repetition）や、単純に雑音を挿入することでエラー隠蔽を行う雑音挿入法（Noise Substitution）が含まれる。
【００２８】
図３に、受信側の各エラー隠蔽手法を適用した際の計算コストと得られる音声品質の関係図を示す。
この図はエラー隠蔽手法の計算コストと得られる音声品質を示したものであるが、データの挿入のアルゴリズムは計算コストの観点からは非常に有利であることがわかる。しかしながら、特にスプライシング（Splicing）、無音挿入（Silence Substitution）、雑音挿入（Noise Substitution）の各方法では得られる音声品質が低いためエラー隠蔽の方法としては必ずしも有効とはいえないことが見て取れる。一方、データの補間には、欠損したフレームをその前後の音声データを用いて補間することでエラー隠蔽を行う波形置換法（Waveform Substitution）や、補間処理をピッチ同期で行うピッチ波形の波形置換法（Pitch Waveform Substitution）が含まれる（文献６，１５参照）。これらのアルゴリズムは計算コストがそれほど大きくないわりに、比較的高い音声品質を実現できるという特徴がある。再合成（Regeneration）は音声データを単純な補間によらず復元する方法であるが、例えば線形予測に基づく音声合成を行って欠損したフレームのエラー隠蔽を行うモデルベースの音声合成法（Model-Based Recovery）が提案されている。再合成法（Regeneration）は最も高い音声品質を実現できるが、反面計算コストが大きくなるという課題がある。
【００２９】
１．３本発明のエラー隠蔽処理
本発明では、これまでに提案された受信側のエラー隠蔽手法のうち、波形置換法（以下ＷＳ法と略記）に着目した（文献１，２参照）。短時間の音声データはおおよそ定常と見なせるため、１０ｍｓ程度のフレームを仮定すると、隣接する区間中に当該フレームとの相関が大きい部分を見つけることができる。したがって、当該フレームが消失しても、隣接する区間中の相関が大きい部分と置き換えることでエラー隠蔽を行うことができる。これがＷＳ法の原理である。まず、本発明に関連して、比較のために従来のＷＳ法について説明する。
【００３０】
図４に、従来法の波形置換法によるエラー隠蔽方法の説明図を示す。ＷＳ法では、図（ａ）に示すように、受信装置は、消失フレームの直前の音声データをテンプレートとして、正常に受信された音声データから適切な置換部分を見つけ、さらに、図（ｂ）に示すように、これを欠損した等のエラーのフレームと置き換えることでエラー隠蔽処理を行っている。このとき、テンプレートｘ（ｍ），（１≦ｍ≦Ｍ）と探索部分（サーチウィンドウ）における音声データｙ（ｍ），（１≦ｍ≦Ｍ）の相互相関関数を計算し、最大値を与える位置（又は、時刻、サンプル番号等）ｎを求めることで置換部分を決定する。相互相関関数は以下のように定義される（文献１０参照）。相互相関関数は、これ以外にも、適宜の関数を用いることができる。
【数１】

【００３１】
一般に、ＷＳ法ではフレームが短いほど良好な結果が得られるため、一般に２０ｍｓのフレームが使用されるＶｏＩＰでは、ＷＳ法をそのまま適用することで品質上の問題が生じる可能性がある。そこで、本実施の形態では、送信側においてあらかじめ２０ｍｓよりも短いサブフレームでＷＳ法を行うための位置情報を推定した後、これを補助情報として受信側に伝送する送信側の手法を組み合わせたハイブリッド型のＷＳ法を提供する。従来のＷＳ法ではあくまでも正常に受信された音声データから推定により置換部分を決定することになるが、本実施の形態では消失前の音声データを利用できるため、より精度良く置換部分を決定できるという利点がある。
【００３２】
図５に、本発明の波形置換法によるエラー隠蔽方法の説明図を示す。本実施の形態では、図（ａ）のように、送信側において各サブフレームの音声データをテンプレートとして置換部分を決定する。一方、図（ｂ）のように、受信側では、ベストマッチのデータを欠損した等のエラーのサブフレームと置き換えてエラー隠蔽処理を行う。
【００３３】
２．振幅情報によるエコー対策処理
さらに、本発明では、波形置換法によりエコー感が生じる場合に対処するため、振幅情報も送信側で計算して音声データに埋め込み、これを受信側に伝送するようにしてもよい。振幅情報についての具体的な処理については、次の通りである。
【００３４】
たとえば、本来は音声のパワーがほとんどない区間（ｂ）が、有音区間（ａ）（すなわちパワーがある区間）に後続している場合を考える。このとき、区間（ｂ）の音声データを格納したパケットが消失すると、本実施の形態では区間（ａ）から最も形状が似ている波形を置換することで区間（ｂ）のエラー隠蔽をおこなうことになる。しかし、その結果、区間（ｂ）のパワーが大きくなってしまい、（なぜなら区間（ａ）のパワーは本来の区間（ｂ）のパワーよりも大きいから）主観的には区間（ａ）がエコーしているような効果が生じる場合がある。
【００３５】
こうした場合については振幅情報を使うことで対処することができる。すなわち、本実施の形態では、一例として、区間（ｂ）のパワーがほとんどない無音区間（あるいはパワーが設定した閾値よりも小さい準無音区間）のとき０、有音区間のとき１として振幅情報を定義している。送信側では、これを位置情報と同様に当該パケットの一つ前のパケットの音声データに埋め込んで伝送する。受信側では、損失パケットの音声データが有音区間であるときは、波形置換をそのまま実行し、一方、損失パケットの音声データが無音区間であるならば、波形置換をおこなった後にパワーを小さくする処理をおこなう。ここでは、一例として、瞬間的なパワーの減少が音質の劣化につながることをふまえ、指数関数的にパワーの減少をおこなうようにしている。
【００３６】
なお、本実施の形態では、一例としてＧ．７１１により符号化された音声データに対して、最下位ビット置換法により補助情報の埋め込みを行っている。ここで、振幅情報はフレームあたり１ｂｉｔとした。
【００３７】
３．ステガノグラフィによる情報伝送
通常の送信側のエラー隠蔽手法と同様、置換部分の位置情報を補助情報として別途伝送することでエラー隠蔽を行うことは可能である。しかしながら、これでは伝送量が増加してしまうため、できるだけ伝送量を抑えたいリアルタイム通信を実現する上で不利である。そこで、本実施の形態では音声データに別のデータを知覚できないようにして埋め込むステガノグラフィを適用することで、通話品質をほぼ同等に保ちつつ音声データと同時に補助情報の伝送を行う方法について検討した（文献１１，１３参照）。このような方法で補助情報の伝送を行うと、重複伝送方式における冗長データの伝送を行う必要がなく（文献４参照）、さらに、従来方式の伝送フォーマットとの互換性を保てるという利点がある。
図６に、ステガノグラフィによる補助情報の伝送についての説明図を示す。また、図７に、最下位ビット置換法による補助情報のステガノグラフィ処理についての説明図を示す。
【００３８】
本実施の形態ではコーデックとして、一例として、ＶｏＩＰでは最も基本的なＧ．７１１を採用している。Ｇ．７１１は圧縮率が低いため、冗長度が高く、ステガノグラフィによる補助情報の伝送が容易に行える。図６に示すように、それぞれのパケットごとに、エラー隠蔽のための補助情報を計算し、これを直後の隣接するパケット（フレーム）に埋め込む。なお、本実施の形態では図７に示す最下位ビット置換法により、８ビットで表現される音声データの最下位ビットに補助情報を埋め込んでいる（文献１３参照）。図（ａ）は、０を埋め込む場合、図（ｂ）は、１を埋め込む場合をそれぞれ示す。このような処理を施すと、当該パケット（フレーム）が消失した場合であっても、直前のパケット（フレーム）から補助情報を取り出すことで、エラー隠蔽処理を行うことができる。例えば、図６のように、受信側では、第３フレームの損失等のエラーを検出すると、第４フレームに埋め込まれた補助情報を用いて、第３フレームに含まれる４つのサブフレームの各々の置換波形を求め、４つのサブフレームの置換波形と第２及び第４フレームとを連結する。
【００３９】
なお、送信側では、補助情報を隣接するパケット以外にも、予め定められたフレーム又はサブフレーム数離れたパケットに埋め込むようにしても良い。その場合、受信側では、予め定められた位置のパケットに埋め込まれた補助情報を読み込み、その補助情報に従い、同様のエラー隠蔽処理を実行することができる。
【００４０】
補助情報は、現行方式では、全部で２４ビットの位置情報と１ビットの振幅情報、あわせて２５ビットの情報を２０ｍｓの音声サンプル（すなわち８ｋＨｚサンプリングでは１６０サンプル）の中から任意に選んだ２５サンプルの最下位ビットに埋め込んでいる。どのサンプルに埋め込むかについては、送信側も受信側もあらかじめわかっているものとする。例えば、１６０サンプルのはじめの２５サンプルの最下位ビットに位置情報と振幅情報を埋め込むとか、又は、１６０サンプルのなかからランダムに選んだ２５サンプルの最下位ビットに位置情報と振幅情報を埋め込むようにすればよい。
【００４１】
４．システム構成
図８に、送受信システムに関する構成図を示す。
この送受信システムは、送信装置１０、受信装置２０、ネットワーク３０を備える。送信装置１０は、音声入力部１１、Ａ／Ｄ変換部１２、送信処理部１３、パケット部１４、送信補助情報メモリ１５を備える。受信装置２０は、デパケット部２１、受信処理部２２、Ｄ／Ａ変換部２３、音声出力部２４、受信補助情報メモリ２５、音声データメモリ２６を備える。ネットワーク３０は、例えば、有線及び／又は無線の適宜の通信回線又は通信網を用いることができる。
【００４２】
５．動作
図９に、送信装置の処理についてのフローチャートを示す。送信装置１０では、次のように音声データが処理される。
【００４３】
送信装置１０の音声入力部１１から入力された音声は、Ａ／Ｄ変換部１２により音声データに変換され、送信処理部１３は、その音声データを取得する（Ｓ１０１）。つぎに、送信処理部１３は、取得した音声データのフレーム分割処理を実行する（Ｓ１０３）。送信処理部１３は、例えば、２０ｍｓのフレームを４分割したサブフレームを形成する。送信処理部１３は、上述の（１）式等の相関関数に従い、サブフレームとサーチ範囲の音声データとの相互相関関数を計算し、計算結果に従い、置換波形の位置情報を得る（Ｓ１０５）。送信処理部１３は、例えば、２０ｍｓのフレームを４分割した各サブフレームについて、サーチ範囲の音声データとの相互相関関数を計算し、相互相関関数の最大値を与える位置を補助情報とする。ここでは、一例として、位置情報は６ｂｉｔで表現する。４個のサブフレームがあるため位置情報を表現するには２４ｂｉｔ必要になる。位置情報は、ここでは、置換波形が何サンプル数前であるかの相対的位置を示すものとすることができるが、それ以外にも、サブフレーム数、フレーム数、時刻等の相対的位置を示す情報、又は、それらの絶対的位置を識別するための情報を適宜用いることができる。
【００４４】
さらに、送信処理部１３は、処理対象のフレームの音声データの最大値を前のフレームの音声データの最大値と比較して、フレームの振幅情報を得る（Ｓ１０７）。送信処理部１３は、例えば、当該フレームの音声データの最大値を調べ、前のフレームの音声データの最大値と比較し、設定した閾値よりも当該フレームの音声データの最大値が小さい場合は０、それよりも大きい場合は１とする振幅情報を、もうひとつの補助情報とする。あるいは、無音区間（又は準無音区間）のとき０、有音区間のとき１として振幅情報を定義してもよい。振幅情報は１ｂｉｔで表現することができる。送信処理部１３は、ステップＳ１０５及びＳ１０７で得られた位置情報及び振幅情報を補助情報として、フレームの識別情報に対応して送信補助情報メモリ１５に蓄積する（Ｓ１０９）。
【００４５】
また、送信処理部１３は、音声データを圧縮する（Ｓ１１１）。送信処理部１３は、送信補助情報メモリ１５から１フレーム前のフレームの補助情報を読み出し（Ｓ１１３）、圧縮された音声データに読み出した補助情報を、音声データに影響のない又は少ないようなデータ隠蔽手法により埋め込む（Ｓ１１５）。この際、送信処理部１３は、補助情報をステガノグラフィ処理により音声データに埋め込むことができる。送信処理部１３は、例えば、８ｂｉｔで量子化された音声データの最下位ｂｉｔに直接補助情報を書き込む。標本化周波数が８ｋＨｚでは２０ｍｓの音声データのサンプル数は１６０となり、したがって埋め込むことが可能な最下位ｂｉｔの数は１６０となり、ここに上述のように２５ｂｉｔの補助情報を埋め込んでいる。パケット部１４は、圧縮音声データをパケット化し（Ｓ１１７）、ネットワーク３０によりそのパケットを伝送する（Ｓ１１９）。
【００４６】
図１０に、ペイロードのフレーム構成図を示す。ひとつのパケット（フレーム）について、サブフレーム毎の置換波形の位置情報（この例では、サブフレーム１〜４に対応して、４つの位置情報）及び振幅情報を含む。２５ビットの補助情報は、予め定められた各サンプル１〜１６０の適宜の最下位ビットの位置に含まれ、それに用いられない最下位ビットは、音声データ又は他の情報のために用いられる。この例では、２５ビットは、６ビットのサブフレーム１〜４の位置情報と、１ビットの振幅情報から構成される。
【００４７】
図１１に、受信装置の処理についてのフローチャートを示す。受信装置２０では、次のように音声データが処理される。
【００４８】
受信装置２０のデパケット部２１は、ネットワーク３０を経てパケットを受信し（Ｓ２０１）、デパケット化して、圧縮音声データを取得する（Ｓ２０３）。受信処理部２２は、圧縮音声データから、送信側で音声データに影響のない又は少ないようなデータ隠蔽手法により埋め込まれた補助情報を抽出する（Ｓ２０５）。ここで、受信処理部２２は、例えば、最下位ｂｉｔから補助情報をそのまま読み取るだけでよい。受信処理部２２は、抽出された補助情報をフレームを特定する識別情報に対応して受信補助情報メモリ２５に記憶する（Ｓ２０７）。
【００４９】
また、受信処理部２２は、圧縮音声データを伸張処理し、求めた音声データを音声データメモリ２６に記憶する（Ｓ２０９）。なお、音声データメモリ２６は、エラー隠蔽に必要とされる予め定められた所定期間の音声データを先入れ先出し（ＦＩＦＯ）で記憶（バッファ）することができる。受信処理部２２は、処理対象フレームの音声データを監視し、直前のパケットが損失又は遅延等のエラーがあるか否か判定する（Ｓ２１１）。受信処理部２２は、直前又は前のパケットに損失等のエラーがあると判断すると、受信補助情報メモリ２５から対応するフレームの補助情報を読み出し、補助情報が指示する位置情報と振幅情報を使って、音声データ２６を参照して、エラーの音声データに替わる置換波形を生成する（Ｓ２１３）。さらに、受信処理部２２は、生成された置換波形を音声データに組み込み、音声データのサブフレーム及びフレームの連結処理を実行する（Ｓ２１５）。例えば、図６のように、受信処理部２２は、エラーフレームの直後のフレームに埋め込まれた補助情報を用いて、エラーフレームに含まれる４つのサブフレームの各々の置換波形の位置情報からその置換波形を求め、さらに、４つのサブフレームの置換波形と第２及び第４フレームとを連結する。
【００５０】
一方、受信処理部２２は、ステップＳ２１１で直前のパケットに損失等のエラーがあると判断されない場合、ステップＳ２０９で得られた音声データのフレーム連結処理を実行する（Ｓ２１７）。Ｄ／Ａ変換部２３は、連結されたデータにより音声データを再生して、音声出力部２４は再生された音声を出力する（Ｓ２１９）。
【００５１】
なお、以上の説明では、補助情報として、位置情報と振幅情報の両方を用いたが、位置情報のみを用いるようにしてもよい。また、音声データを圧縮した後に（Ｓ１１１）、補助情報を埋め込むようにしたが（Ｓ１１５）、逆に、ステップＳ１１５による補助情報の埋め込み処理後に、ステップＳ１１１の圧縮処理を実行するようにしてもよい。この場合、受信側では、ステップＳ２０９の音声データの伸張処理を実行した後に、ステップＳ２０５の補助情報の抽出処理が実行されるようにすることができる。
【００５２】
また、送信側では、ステップＳ１１３、Ｓ１１５において、補助情報を隣接するパケット以外にも、予め定められたフレーム又はサブフレーム数離れたパケットに埋め込むようにしても良い。その場合、受信側では、ステップＳ２１３、Ｓ２１５において、予め定められた位置のパケットに埋め込まれた補助情報を読み込み、その補助情報に従い、同様のエラー隠蔽処理を実行することができる。
【００５３】
また、本実施の形態では、例えば、フレームを４分割した５ｍｓのサブフレームに対し、置換部分の探索区間をそれよりも過去の８ｍｓとすることができる。受信側ではオーバーラップによる線形ブレンディング処理を行うことで、なめらかな波形接続を行っている（文献９参照）。この例で、８ｍｓと定めたのは、８ｋＨｚのサンプリングでは８ｍｓは６４サンプルに相当するため位置情報ｎを６ビットで表現することができるからである。これらの値は一例であり、ビット数、サンプリング周波数、探索区間は、必要に応じて適宜設定することができる。
【００５４】
６．評価実験
本発明の有効性を確認するために評価実験を行った。
図１２に、補助情報として位置情報のみを使用した場合（振幅情報を使用せず）の評価実験の結果の図を示す。横軸はフレーム消失の連続数（パケット損失率）、縦軸はＳＮ比を示す。
【００５５】
ここでは、擬似的にエラーを生じさせた音声資料を作成し、（１）本発明、（２）従来法のそれぞれによりエラー隠蔽を行った場合と、（３）エラー隠蔽を行わなかった場合について、それぞれＳＮ比による客観的な品質評価を行った。図示されているように、エラー隠蔽を行った場合であっても、パケット消失確率の増加に伴いＳＮ比は低下していく。ただし、本発明のこの例では、パケット消失確率が０の場合はステガノグラフィによるＳＮ比の低下が不可避であるが、それ以外では従来法と比較してＳＮ比の低下量を小さく抑えることができることがわかった。なお、従来法と比較して、本発明では主観的にも歪を低減できることが試聴の結果わかった。
【００５６】
図１３に、補助情報として位置情報と振幅情報の両方を使用した場合と位置情報のみを使用した場合の評価実験の結果の図を示す。
【００５７】
この例では、８ｋＨｚ、１６ｂｉｔの音声データをＧ．７１１により符号化し，復号時に擬似的にエラーを生じさせ、（１）従来例、（２）本発明１（振幅情報あり）、（３）本発明２（振幅情報なし）について、符号化前の音声データとのＳＮ比による客観的評価を行った。図示のように、位置情報と振幅情報のどちらも利用した場合（本発明１）では、パケット消失率が０％の場合，ステガノグラフィによるＳＮ比の低下が見られるが、それ以外では、従来のＷＳ法を適用した場合（従来）および位置情報のみを利用した場合（本発明２）と比較してＳＮ比の低下量を低減できることがわかった。
【００５８】
７．補足
本実施の形態では、最下位ビット置換法という最も簡単なデータ埋め込みの方法を用いたが、マスキング効果等の音声信号の特徴を利用したさらに高度な方法等の他のデータ埋め込み方法を適宜用いてもよい。また、
本実施の形態ではＧ．７１１をコーデックとした場合のエラー隠蔽の可能性について検討したが、本発明は適切なステガノグラフィ手法を適用することで、Ｇ．７２９等のさらに高度なコーデックやその他のコーディクを利用した際のエラー隠蔽についても適用することができる。ＶｏＩＰではＧ．７２３やＧ．７２９といった高能率なコーデックが採用されることが多いが、ＶｏＩＰを規定しているＨ．３２３ではＧ．７１１を必須コーデックとしている。評価実験の結果として、ＶｏＩＰのコーデックとしてＧ．７１１を採用した場合、本発明を適用することで、従来法と同じ伝送フォーマットにもかかわらず、より精度の高いエラー隠蔽処理を実現できる可能性があることが推察される。
【００５９】
本発明のエラー隠蔽方法又はエラー隠蔽装置・システムは、その各手順をコンピュータに実行させるためのエラー隠蔽プログラム、エラー隠蔽プログラムを記録したコンピュータ読み取り可能な記録媒体、エラー隠蔽プログラムを含みコンピュータの内部メモリにロード可能なプログラム製品、そのプログラムを含むサーバ等のコンピュータ、等により提供されることができる。
【００６０】
８．参考文献
・文献1: 青木直史, 山本強, 青木由直, “ステガノグラフィを用いた音声データのフレーム消失隠蔽法,” 信学ソ大, September 2001.
・文献2: 青木直史, 山本強, 青木由直, “ステガノグラフィを用いたVoIPにおけるパケット消失隠蔽に関する一考察” 信学技報, vol.IN2001-107, 2001.
・文献3: 池田信夫, ブロードバンド戦略勝敗の分かれ目, 日本経済新聞社, 2001.
・文献4: 伊藤博紀, 芹沢昌宏 “AMR音声データのRTP伝送におけるパケット損失対策法の性能評価” 信学ソ大, September 2001.
・文献5: J. Davidson and J. Peters, VoIP基本ガイド, ソフトバンク, 2001.
・文献6: D.J. Goodman, G.B. Lockhart, O.J. Wasem, and W.-C. Wong, “Waveform substitution techniques for recovering missing speech segments in packet voice communications,” IEEE Trans. Acoustics, Speech, and Signal Processing, vol.ASSP-34, pp.1440--1448, 1986.
・文献7: G. Held, 音声＆データ統合技術ガイド, インプレス, 2000.
・文献8: 今井恵一, “VoIP実現上の課題” 信学会誌, vol.83, no.4, pp.295--301, 2001.
・文献9: D.L. Jones and T.W. Parks, “Generation and combination of grains for music synthesis,” Computer Music Journal, vol.12, no.2, 1988.
・文献10: ISO/IEC14496, Information Technology, Coding of Audio-Visual Objects, 1999.
・文献11: 松井甲子雄, 電子透かしの基礎, 森北出版, 1998.
・文献12: 長渕裕実,“VoIP品質上の諸問題,” 信学技報, vol.IN2000-128, 2000.
・文献13: 小野束, 電子透かしとコンテンツ保護, オーム社, 2001.
・文献14: C. Perkins, O. Hodson, V. Hardman, “A survey of packet loss recovery techniques for streaming audio”, IEEE Network Magazine, pp.40--48, September/October 1998.
・文献15: H. Sanneck, A. Stenger, K.B. Younes, and B. Girod, “A new technique for audio packet loss concealment”, IEEE Global Internet, pp.48--52, 1996.
・文献16: 佐々木良一, 吉浦裕, 手塚悟, 三島久典, インターネット時代の情報セキュリティ, 共立出版, 2000.
・文献17: ソフトフロント, http://www.softfront.co.jp
・文献18: 戸田巌, 詳解ネットワークQoS技術, オーム社, 2001.
【００６１】
【発明の効果】
本発明は音声データの特性を利用した送信側のエラー隠蔽手法であり、メディアスペシフィック（Media Specific）な方法の一つであると考えられる。ただし、本発明はステガノグラフィ技術を適用しているため、送信側のエラー隠蔽手法でありながら、音声データ以外の補助情報を別途伝送する必要はなく、従来のフォーマットとの互換性を保てるという利点がある。通常、送信側のエラー隠蔽手法では伝送量が増加してしまうことによってネットワークに負荷をかけることになるが、ステガノグラフィ技術を用いた本発明では通話品質をほぼ同等に保ちつつ音声データと同時に補助情報の伝送を行うことが可能となるため、効率的に送信側のエラー隠蔽手法を実現することができるという効果がある。
また、通常のＷＳ法では、正常に受信された音声データのみからエラー隠蔽処理を行うため、置換部分の推定はあくまでも消失フレーム以外の音声データによって行われる。一方、本発明では送信側において消失する前の全ての音声データを利用して置換部分を計算しておくことが可能であるため、より高精度に波形置換法を実行することができるという効果がある。
【図面の簡単な説明】
【図１】送信側のエラー隠蔽手法の説明図。
【図２】受信側のエラー隠蔽手法の説明図。
【図３】受信側の各エラー隠蔽手法を適用した際の計算コストと得られる音声品質の関係図。
【図４】従来法の波形置換法によるエラー隠蔽方法の説明図。
【図５】本発明の波形置換法によるエラー隠蔽方法の説明図。
【図６】ステガノグラフィによる補助情報の伝送についての説明図。
【図７】最下位ビット置換法による補助情報のステガノグラフィ処理についての説明図。
【図８】送受信システムに関する構成図。
【図９】送信装置の処理についてのフローチャート。
【図１０】ペイロードのフレーム構成図。
【図１１】受信装置の処理についてのフローチャート。
【図１２】情報として位置情報のみを使用した場合（振幅情報を使用せず）の評価実験の結果の図。
【図１３】補助情報として位置情報と振幅情報の両方を使用した場合と位置情報のみを使用した場合の評価実験の結果の図。
【図１４】ＶｏＩＰによる音声通話とデータ通信の統合の背景についての説明図。
【図１５】ＶｏＩＰにおける音声通話の手順の説明図。
【図１６】ＶｏＩＰにおけるＩＰデータグラムの構造についての説明図（１）。
【図１７】ＶｏＩＰにおけるＩＰデータグラムの構造についての説明図（２）。
【符号の説明】
１１音声入力部
１２Ａ／Ｄ変換部
１３送信処理部
１４パケット部
１５送信補助情報メモリ
２１デパッケト部
２２受信処理部
２３Ｄ／Ａ変換部
２４音声出口部
２５
２６音声データメモリ

Claims

送信装置で、データの欠損又は遅延を含むエラーを隠蔽するための置換波形の位置情報と振幅情報を含む補助情報を音声データに埋め込み送信し、受信装置で、受信した音声データに埋め込まれた補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、補助情報に含まれる振幅情報に従い、振幅情報が第２の値であることによりエラーの音声データが有音区間であるときは置換波形をそのまま用い、振幅情報が第１の値であることによりエラーの音声データが無音・準無音区間であるときは置換波形のパワーを小さく処理を行うことで該置換波形のパワーを調整し、複数の該置換波形をフレームに組み込んで該エラーを隠蔽するためのエラー隠蔽方法であって、前記送信装置において、
送信すべき音声データを伝送フレームに分割し、且つ、各フレームを複数のサブフレームに分割するステップと、
第１のフレーム中の各サブフレームと予め定められたサーチ範囲における音声データとの相互相関を計算し、相関度の高い音声データである置換波形の位置情報であって、サブフレームに対する該置換波形の相対的位置を示す前記位置情報又は置換波形の絶対的位置を示す前記位置情報を各サブフレーム毎に得るステップと、
前記第１のフレームの音声データが無音・準無音区間のとき前記第１の値、有音区間のとき前記第２の値としてフレームの振幅情報を求めるステップと、
第１のフレーム中の複数のサブフレームについての位置情報及び得られた振幅情報を含む補助情報をその後の第２のフレームの音声データに、知覚されない又は知覚されにくいように埋め込むステップと、
補助情報が埋め込まれた音声データをフレーム毎にパケット化して伝送するステップと、
を含む処理を実行する前記エラー隠蔽方法。
送信装置で、第１のフレーム中の各サブフレームと予め定められたサーチ範囲における音声データとの相互相関を計算し、相関度の高い音声データである置換波形の位置情報であって、サブフレームに対する該置換波形の相対的位置を示す前記位置情報又は置換波形の絶対的位置を示す前記位置情報を各サブフレーム毎に得て、前記第１のフレームの音声データが無音・準無音区間のとき第１の値、有音区間のとき第２の値としてフレームの振幅情報を求め、第１のフレーム中の複数のサブフレームについての位置情報及び得られた振幅情報を含む補助情報をその後の第２のフレームの音声データに、知覚されない又は知覚されにくいように埋め込み送信し、受信装置で、受信した音声データに埋め込まれた補助情報に従い該エラーを隠蔽するためのエラー隠蔽方法であって、前記受信装置において、
送信側で補助情報が知覚されない又は知覚されにくいように埋め込まれた音声データから、埋め込まれた位置情報及び振幅情報を含む補助情報を抽出するステップと、
音声データを監視し、第１のフレームの音声データに損失又は遅延を含むエラーがあるか否か判定するステップと、
エラーがあると判定される場合、第１のフレームの後に受信した第２のフレームの補助情報を用いて、第１のフレーム中の各サブフレームについて、抽出された補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、抽出された補助情報に含まれる振幅情報に従い、振幅情報が前記第２の値であることによりエラーの音声データが有音区間であるときは置換波形をそのまま用い、振幅情報が前記第１の値であることによりエラーの音声データが無音・準無音区間であるときは置換波形のパワーを小さく処理を行うことで該置換波形のパワーを調整し、複数の該置換波形を第１のフレームに組み込み、複数のサブフレーム及び隣接するフレームの音声データを連結するステップと、
一方、前記判定するステップでエラーがあると判定されない場合、隣接するフレームの音声データを連結するステップと、
連結された音声データにより音声を再生して出力するステップと
を含む処理を実行する前記エラー隠蔽方法。
送信装置で、データの欠損又は遅延を含むエラーを隠蔽するための補助情報を音声データに埋め込み送信し、受信装置で、受信した音声データに埋め込まれた補助情報に従い該エラーを隠蔽するためのエラー隠蔽方法であって、
前記送信装置において、
送信すべき音声データを伝送フレームに分割し、且つ、各フレームを複数のサブフレームに分割するステップと、
第１のフレーム中の各サブフレームと予め定められたサーチ範囲における音声データとの相互相関を計算し、相関度の高い音声データである置換波形の位置情報であって、サブフレームに対する該置換波形の相対的位置を示す前記位置情報又は置換波形の絶対的位置を示す前記位置情報を各サブフレーム毎に得るステップと、
前記第１のフレームの音声データが無音・準無音区間のとき第１の値、有音区間のとき第２の値としてフレームの振幅情報を求めるステップと、
第１のフレーム中の複数のサブフレームについての位置情報及び得られた振幅情報を含む補助情報をその後の第２のフレームの音声データに、知覚されない又は知覚されにくいように埋め込むステップと、
補助情報が埋め込まれた音声データをフレーム毎にパケット化して伝送するステップと、
を含む処理を実行し、
前記受信装置において、
送信側で補助情報が知覚されない又は知覚されにくいように埋め込まれた音声データから、埋め込まれた位置情報及び振幅情報を含む補助情報を抽出するステップと、
音声データを監視し、第１のフレームの音声データに損失又は遅延を含むエラーがあるか否か判定するステップと、
エラーがあると判定される場合、第１のフレームの後に受信した第２のフレームの補助情報を用いて、第１のフレーム中の各サブフレームについて、抽出された補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、抽出された補助情報に含まれる振幅情報に従い、振幅情報が前記第２の値であることによりエラーの音声データが有音区間であるときは置換波形をそのまま用い、振幅情報が前記第１の値であることによりエラーの音声データが無音・準無音区間であるときは置換波形のパワーを小さく処理を行うことで該置換波形のパワーを調整し、複数の該置換波形を第１のフレームに組み込み、複数のサブフレーム及び隣接するフレームの音声データを連結するステップと、
一方、前記判定するステップでエラーがあると判定されない場合、隣接するフレームの音声データを連結するステップと、
連結された音声データにより音声を再生して出力するステップと
を含む処理を実行する前記エラー隠蔽方法。
前記補助情報は各サンプルの最下位ビットに埋め込まれることを特徴とする請求項１乃至３のいずれかに記載のエラー隠蔽方法。
前記補助情報は、前記第1のフレームの直後のフレーム又は予め定められたフレーム数、サブフレーム数若しくはサンプル数離れたパケットに埋め込まれることを特徴とする請求項１乃至４のいずれかに記載のエラー隠蔽方法。
送信装置において、
補助情報を求めた後に、音声データを圧縮するステップと、
圧縮された音声データに対して、前記補助情報を埋め込むステップと
さらに含み、
受信装置において、
補助情報を抽出した後に、圧縮された音声データを伸張するステップと、
伸張された音声データに対して、前記補助情報に従い波形置換を実行するステップと
さらに含む請求項３乃至５のいずれかに記載のエラー隠蔽方法。
送信処理部で、データの欠損又は遅延を含むエラーを隠蔽するための置換波形の位置情報と振幅情報を含む補助情報を音声データに埋め込み送信し、受信処理部で、受信した音声データに埋め込まれた補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、補助情報に含まれる振幅情報に従い該置換波形のパワーを調整し、複数の該置換波形をフレームに組み込んで該エラーを隠蔽するためのエラー隠蔽プログラムであって、
前記送信処理部に、
送信すべき音声データを伝送フレームに分割し、且つ、各フレームを複数のサブフレームに分割するステップと、
第１のフレーム中の各サブフレームと予め定められたサーチ範囲における音声データとの相互相関を計算し、相関度の高い音声データである置換波形の位置情報であって、サブフレームに対する該置換波形の相対的位置を示す前記位置情報又は置換波形の絶対的位置を示す前記位置情報を各サブフレーム毎に得るステップと、
前記第１のフレームの音声データが無音・準無音区間のとき第１の値、有音区間のとき第２の値としてフレームの振幅情報を求めるステップと、
第１のフレーム中の複数のサブフレームについての位置情報及び得られた振幅情報を含む補助情報をその後の第２のフレームの音声データに、知覚されない又は知覚されにくいように埋め込むステップと、
補助情報が埋め込まれた音声データをフレーム毎にパケット化して伝送するステップと、
を含む処理を実行させ、
前記受信処理部に、
送信側で補助情報が知覚されない又は知覚されにくいように埋め込まれた音声データから、埋め込まれた位置情報及び振幅情報を含む補助情報を抽出するステップと、
音声データを監視し、第１のフレームの音声データに損失又は遅延を含むエラーがあるか否か判定するステップと、
エラーがあると判定される場合、第１のフレームの後に受信した第２のフレームの補助情報を用いて、第１のフレーム中の各サブフレームについて、抽出された補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、抽出された補助情報に含まれる振幅情報に従い、振幅情報が前記第２の値であることによりエラーの音声データが有音区間であるときは置換波形をそのまま用い、振幅情報が前記第１の値であることによりエラーの音声データが無音・準無音区間であるときは置換波形のパワーを小さく処理を行うことで該置換波形のパワーを調整し、複数の該置換波形を第１のフレームに組み込み、複数のサブフレーム及び隣接するフレームの音声データを連結するステップと、
一方、前記判定するステップでエラーがあると判定されない場合、隣接するフレームの音声データを連結するステップと、
連結された音声データにより音声を再生して出力するステップと
を含む処理を実行させるための前記エラー隠蔽プログラム。
送信装置が、データの欠損又は遅延を含むエラーを隠蔽するための置換波形の位置情報と振幅情報を含む補助情報を音声データに埋め込み送信し、受信装置が、受信した音声データに埋め込まれた補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、補助情報に含まれる振幅情報に従い、振幅情報が第２の値であることによりエラーの音声データが有音区間であるときは置換波形をそのまま用い、振幅情報が第１の値であることによりエラーの音声データが無音・準無音区間であるときは置換波形のパワーを小さく処理を行うことで該置換波形のパワーを調整し、複数の該置換波形をフレームに組み込んで該エラーを隠蔽するためのエラー隠蔽装置における前記送信装置であって、
前記送信装置は、
入力された音声を音声データに変換するＡ／Ｄ変換部と、
前記Ａ／Ｄ変換部からの音声データに、エラー隠蔽のための補助情報を隠蔽処理により埋め込むための送信処理部と、
前記送信処理部からの音声データをパケット化して出力するパケット部と
を備え、
前記送信処理部は、
前記Ａ／Ｄ変換部からの送信すべき音声データを伝送フレームに分割し、且つ、各フレームを複数のサブフレームに分割する手段と、
第１のフレーム中の各サブフレームと予め定められたサーチ範囲における音声データとの相互相関を計算し、相関度の高い音声データである置換波形の位置情報であって、サブフレームに対する該置換波形の相対的位置を示す前記位置情報又は置換波形の絶対的位置を示す前記位置情報を各サブフレーム毎に得る手段と、
前記第１のフレームの音声データが無音・準無音区間のとき前記第１の値、有音区間のとき前記第２の値としてフレームの振幅情報を求める手段と、
第１のフレーム中の複数のサブフレームについての位置情報及び得られた振幅情報を含む補助情報をその後の第２のフレームの音声データに、知覚されない又は知覚されにくいように埋め込む手段と
を有し、
前記パケット部が、補助情報が埋め込まれた音声データをフレーム毎にパケット化して伝送する
前記送信装置。
送信装置が、第１のフレーム中の各サブフレームと予め定められたサーチ範囲における音声データとの相互相関を計算し、相関度の高い音声データである置換波形の位置情報であって、サブフレームに対する該置換波形の相対的位置を示す前記位置情報又は置換波形の絶対的位置を示す前記位置情報を各サブフレーム毎に得て、前記第１のフレームの音声データが無音・準無音区間のとき第１の値、有音区間のとき第２の値としてフレームの振幅情報を求め、第１のフレーム中の複数のサブフレームについての位置情報及び得られた振幅情報を含む補助情報をその後の第２のフレームの音声データに、知覚されない又は知覚されにくいように埋め込み送信し、受信装置が、受信した音声データに埋め込まれた補助情報に従い該エラーを隠蔽するためのエラー隠蔽装置における前記受信装置であって、
前記受信装置は、
パケットを受信し、デパケット化して音声データを取得するデパケット部と、
前記デパケット部からの音声データに埋め込まれたエラー隠蔽のための補助情報を抽出するための受信処理部と、
前記受信処理部からの音声データを再生して音声を出力するＤ／Ａ変換部と
を備え、
前記受信処理部は、
前記デパケット部から受信した、送信側で補助情報が知覚されない又は知覚されにくいように埋め込まれた音声データから、埋め込まれた位置情報及び振幅情報を含む補助情報を抽出する手段と、
音声データを監視し、第１のフレームの音声データに損失又は遅延を含むエラーがあるか否か判定する手段と、
エラーがあると判定される場合、第１のフレームの後に受信した第２のフレームの補助情報を用いて、第１のフレーム中の各サブフレームについて、抽出された補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、抽出された補助情報に含まれる振幅情報に従い、振幅情報が前記第２の値であることによりエラーの音声データが有音区間であるときは置換波形をそのまま用い、振幅情報が前記第１の値であることによりエラーの音声データが無音・準無音区間であるときは置換波形のパワーを小さく処理を行うことで該置換波形のパワーを調整し、複数の該置換波形を第１のフレームに組み込み、複数のサブフレーム及び隣接するフレームの音声データを連結する手段と、
一方、前記判定する手段でエラーがあると判定されない場合、隣接するフレームの音声データを連結する手段と、
連結された音声データにより音声を再生して出力する手段と
を有する前記受信装置。
送信装置が、データの欠損又は遅延を含むエラーを隠蔽するための補助情報を音声データに埋め込み送信し、受信装置が、受信した音声データに埋め込まれた補助情報に従い該エラーを隠蔽するためのエラー隠蔽装置であって、
前記送信装置は、
入力された音声を音声データに変換するＡ／Ｄ変換部と、
前記Ａ／Ｄ変換部からの音声データに、エラー隠蔽のための補助情報を隠蔽処理により埋め込むための送信処理部と、
前記送信処理部からの音声データをパケット化して出力するパケット部と
を備え、
前記送信処理部は、さらに、
前記Ａ／Ｄ変換部からの送信すべき音声データを伝送フレームに分割し、且つ、各フレームを複数のサブフレームに分割する手段と、
第１のフレーム中の各サブフレームと予め定められたサーチ範囲における音声データとの相互相関を計算し、相関度の高い音声データである置換波形の位置情報であって、サブフレームに対する該置換波形の相対的位置を示す前記位置情報又は置換波形の絶対的位置を示す前記位置情報を各サブフレーム毎に得る手段と、
前記第１のフレームの音声データが無音・準無音区間のとき第１の値、有音区間のとき第２の値としてフレームの振幅情報を求める手段と、
第１のフレーム中の複数のサブフレームについての位置情報及び得られた振幅情報を含む補助情報をその後の第２のフレームの音声データに、知覚されない又は知覚されにくいように埋め込む手段と
を有し、
前記パケット部が、補助情報が埋め込まれた音声データをフレーム毎にパケット化して伝送し、
前記受信装置は、
パケットを受信し、デパケット化して音声データを取得するデパケット部と、
前記デパケット部からの音声データに埋め込まれたエラー隠蔽のための補助情報を抽出するための受信処理部と、
前記受信処理部からの音声データを再生して音声を出力するＤ／Ａ変換部と
を備え、
前記受信処理部は、さらに、
前記デパケット部から受信した、送信側で補助情報が知覚されない又は知覚されにくいように埋め込まれた音声データから、埋め込まれた位置情報及び振幅情報を含む補助情報を抽出する手段と、
音声データを監視し、第１のフレームの音声データに損失又は遅延を含むエラーがあるか否か判定する手段と、
エラーがあると判定される場合、第１のフレームの後に受信した第２のフレームの補助情報を用いて、第１のフレーム中の各サブフレームについて、抽出された補助情報に含まれる位置情報に従いエラーの音声データと相関度の高い置換波形を生成し、抽出された補助情報に含まれる振幅情報に従い、振幅情報が前記第２の値であることによりエラーの音声データが有音区間であるときは置換波形をそのまま用い、振幅情報が前記第１の値であることによりエラーの音声データが無音・準無音区間であるときは置換波形のパワーを小さく処理を行うことで該置換波形のパワーを調整し、複数の該置換波形を第１のフレームに組み込み、複数のサブフレーム及び隣接するフレームの音声データを連結する手段と、
一方、前記判定する手段でエラーがあると判定されない場合、隣接するフレームの音声データを連結する手段と、
連結された音声データにより音声を再生して出力する手段と
を有する前記エラー隠蔽装置。