JP5210212B2

JP5210212B2 - 画像処理装置、画像処理方法

Info

Publication number: JP5210212B2
Application number: JP2009063228A
Authority: JP
Inventors: 明裕高村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-03-16
Filing date: 2009-03-16
Publication date: 2013-06-12
Anticipated expiration: 2029-03-16
Also published as: JP2010219786A

Description

本発明は、入力された画像を圧縮してから出力するための技術に関するものである。

映像データの伝送は、可能な限り高い画質で行うことが望まれている。しかしながら、伝送帯域は限られているので、非可逆な圧縮を行うことでその伝送量を減らし、伝送帯域内での伝送を行うことが一般的に行われているのであるが、一方でその画質は低下してしまう。

係る問題に対処するために、次のような技術がある。即ち、非可逆な圧縮を行う際に、視聴者の注目領域を検出、若しくは推定する。そして、注目領域については高い画質（低圧縮率）で非可逆圧縮を行い、それ以外の領域については低い画質（高圧縮率）で非可逆圧縮を行う。これにより、限られた伝送帯域内で視覚的な画質を高めることができる。視覚的な画質を高めるために視聴者の注目領域を検出、若しくは推定する方法には、これまでに様々な手法が提案されている。

例えば、特許文献１には、画像を複数のブロックに分割してブロック毎に圧縮符号化を行う際、操作者の注視点を検出し、検出した注視点の位置に応じてブロック毎に重み付けを行って圧縮する方法が開示されている。

また、特許文献２には、表示画面のサイズに応じて人間の注視領域が変化することに着目し、画像符号化時の符号量制御を、表示画面のサイズに応じて変化させる方法が開示されている。

また、特許文献３には、テレビ電話では通話相手の顔領域に視点が集中することに着目し、顔面領域を検出し、検出された顔面領域に多くの符号量を許可する方法が開示されている。

視聴者の注目領域の検出・推定は様々な用途で有用である。例えば、エラーが起きる可能性がある伝送路を用いて伝送を行う際、視聴者の注目領域を検出もしくは推定し、注目領域についてはエラー耐性の高い誤り訂正符号を用いて符号化を行い、それ以外の領域についてはエラー耐性の低い訂正符号を用いて符号化を行う。これにより、伝送エラーによる視覚的な画質低下を押さえることができる。

また、画像処理を行う装置の処理性能が限られている。従って、画像処理を行う際、視聴者の注目領域を検出もしくは推定し、注目領域については高い画質を実現するために画像処理で多くの処理を行い、それ以外の領域については、少ない処理を行うことで、限られた処理性能内で視覚的な画質を高めることができる。これらの手法を使う上で、視聴者の注目領域の検出・推定の精度を高めることは重要である。

特開平8-331561号公報特開平8-140088号公報特開平1-80185号公報

しかしながら、特許文献１に開示の技術では、重み付けを行う際に人の視点を計測する必要があるため、機械だけでは実現できない、という問題がある。また、注視点位置には個人差があるため、操作者によって画質が変わってしまうという問題がある。また、特許文献２に開示の技術では、圧縮時には、表示画面の大きさが必要となるので、表示画面の大きさが分からない時、あるいは大きさが異なる複数の画面に映像伝送を行う際には、特許文献２に開示の技術は使うことができない。また、特許文献３に開示の技術では、注視領域が顔以外の場合には適切な符号量の割り当てが行うことができないという問題がある。

本発明は以上の問題に鑑みて成されたものであり、画像を符号化して伝送する場合、人が注視するであろう箇所についてはより優先的な処理を行うことで、伝送する画像の視覚的な画質を高める為の技術を提供することを目的とする。

本発明の目的を達成するために、例えば、本発明の画像処理装置は以下の構成を備える。即ち、画像データを取得する手段と、
前記画像データが示す画像を複数の画素ブロックに分割する手段と、
複数チャネルを含む音声データを取得する手段と、
前記音声データを用いて音源の３次元空間における３次元座標位置を求め、該３次元空間中に仮想スクリーンを設定して該仮想スクリーン上に前記画像を配置した場合における該仮想スクリーン上のそれぞれの画素ブロックの前記３次元空間における３次元座標位置と、該求めた音源の３次元座標位置と、の間の距離を求める計算手段と、
前記複数の画素ブロックのそれぞれに対し、該画素ブロックについて求めた距離の大小に応じた重要度を示す重要度情報を割り当てる割り当て手段と、
前記複数の画素ブロックのそれぞれを圧縮する際、より高い重要度を示す重要度情報が割り当てられた画素ブロックは、より高い画質で復号されるように圧縮し、より低い重要度を示す重要度情報が割り当てられた画素ブロックは、より低い画質で復号されるように圧縮する手段と、
圧縮されたそれぞれの画素ブロックと、前記音声データと、を出力する出力手段と
を備えることを特徴とする。

本発明の構成によれば、画像を符号化して伝送する場合、人が注視するであろう箇所についてはより優先的な処理を行うことで、伝送する画像の視覚的な画質を高めることができる。

本発明の第１の実施形態に係るシステムの機能構成例を示すブロック図である。１枚の画像を複数の画素ブロックに分割する処理を説明するための図である。音声分割部５１６の詳細な機能構成例を示すブロック図である。重要度算出部５１７が行う処理を説明する為の図である。本発明の第２の実施形態に係るシステムの機能構成例を示すブロック図である。画像処理装置１００が、１フレーム分のストリームデータを生成して出力するために行う処理のフローチャートである。画像処理装置５００が、１フレーム分のパケット群を生成して出力するために行う処理のフローチャートである。ストリーム生成部１０６によって生成されるストリームデータの構成例を示す図である。図１，５に示した画像処理装置に適用可能なハードウェアの構成例を示す図である。選択音源からそれぞれの画素ブロックまでの距離を求める方法を説明する図である。部分映像を表示する座標によって線形に左右のスピーカの音量の割合を変化させて合成する方法を説明する図である。

以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施例の１つである。

［第１の実施形態］
本実施形態に係る画像処理装置は、各フレームの映像データ（画像データ）と、各フレームに対応する音声データとを、外部から若しくは自身が有するメモリから取得し、取得したこれらのデータを順次符号化してから出力する。出力先は特に限定するものではないが、本実施形態では、ある受信装置に対して出力するものとして説明する。

図１は、本実施形態に係るシステムの機能構成例を示すブロック図である。図１に示す如く、本実施形態に係るシステムは、画像処理装置１００と受信装置１９９とで構成されており、それぞれはＬＡＮやインターネットなどのネットワーク１０８を介して接続されている。これにより、画像処理装置１００と受信装置１９９とは、このネットワーク１０８を介して互いにデータ通信を行うことができる。なお、このネットワーク１０８は、無線、有線の何れであっても良いし、それぞれを適宜組み合わせたものであっても良い。

先ず、画像処理装置１００について説明する。画像処理装置１００は、例えば、映像と音声とを放送する機器であったりする。もちろん、画像処理装置１００には、一般のＰＣ（パーソナルコンピュータ）などのコンピュータを適用することもできる。画像処理装置１００は、各フレームの映像データと、各フレームに対応する音声データとを取得し、取得したこれらのデータを順次符号化してから受信装置１９９に対して送信する。

映像データＤＢ（データベース）１７８には、動画像のデータが格納されている。係る動画像のデータは、動画像を構成する各フレームの画像を示す映像データにより構成されている。

音声データＤＢ１７９には、上記動画像を構成する各フレームに対応する音声データが格納されている。係る音声データは、複数チャネルの音声データにより構成されているものとする。

ここで、映像データＤＢ１７８と音声データＤＢ１７９は常に同期を取ってデータを出力するものとする。即ち映像データＤＢ１７８からＸフレーム目の映像データが出力された場合には、音声データＤＢ１７９からはこのＸフレーム目の映像データに対応する音声データが出力されているものとする。

映像分割部１０１は、映像データＤＢ１７８から各フレームの映像データを順次取得し、取得した映像データが示す画像を複数の画素ブロックに分割する。例えば、１枚の画像を、３２画素×２４画素のサイズの画素ブロック単位に分割する。そして映像分割部１０１は、１枚の画像を構成する各画素ブロックのデータを映像圧縮部１０４に出力すると共に、１枚の画像における各画素ブロックの位置データを重要度算出部１１７に出力する処理を、映像データＤＢ１７８から取得した映像データ毎に行う。ここで、「１枚の画像中における各画素ブロックの位置データ」とは、例えば、１枚の画像中におけるそれぞれの画素ブロックの中央部の座標位置を示すデータである。しかし、位置データが示すものは画素ブロック中のどの位置を示すものであっても良い。

図２は、１枚の画像を複数の画素ブロックに分割する処理を説明するための図である。図２において１２１は１枚の画像を示している。映像分割部１０１は係る画像１２１を取得すると、係る画像１２１を複数の画素ブロック１２３に分割する。

一方、音声座標算出部１１６は、音声データＤＢ１７９から音声データを取得すると、係る音声データを用いて、視聴者の位置を（０，０，０）としたときの各音源の位置データ（Ｘｏ，Ｙｏ，Ｚｏ）を求める処理を行う。係る処理は、後述する各音声チャネルの情報のみを用いて音源分離を行うブラインド信号分離処理を用いることで行うことができる。

＜参考文献１＞ Anthony J. Bell and Terrence J. Sejnowski, An Information-Maximization Approach to Blind Separation and Blind Deconvolution, Neural Computation, Vol. 7, No. 6, pp 1129-1159, 1995.
＜参考文献２＞ L. Molgedey and H. G. Schuster, Separation of a mixture of independent signals using time delayed correlations, Physical Review Letter, 72, pp 3634-3637, 1994.
＜参考文献３＞ J.-F. Cardoso and A. Souloumiac, Jacobi angles for simultaneous diagonalization, SIAM Journal on Matrix Analysis and Applications, Vol.17, No.1, 161-164, 1996.
重要度算出部１１７には、音声座標算出部１１６が求めた各音源の位置データが入力されると共に、映像分割部１０１からは各画素ブロックの位置データが入力される。もちろん、音声座標算出部１１６からのデータと映像分割部１０１からのデータは何れも同じフレームにおけるものである。

重要度算出部１１７は先ず、音声座標算出部１１６から取得した複数音源の位置データのうち１つの音源の位置データ（Ｘｏ，Ｙｏ，Ｚｏ）を選択する。そして、重要度算出部１１７は、選択音源の位置データと、映像分割部１０１から取得した各画素ブロックの位置データとを用いて、選択音源からそれぞれの画素ブロックまでの距離を求める。距離を求める方法のひとつとして、図１０に示すように、視聴者の位置を（０，０，０）とし、仮想スクリーンまでの距離をＺｉ、仮想スクリーン上の画素ブロックの位置を（Ｘｉ，Ｙｉ）、選択した１つの音源の位置を（Ｘｏ，Ｙｏ，Ｚｏ）とする。この時、仮想スクリーン上の音源の位置は（Ｘｏ‘，Ｙｏ’）＝（Ｘｏ×（Ｚｉ／Ｚｏ），Ｙｏ×（Ｚｉ／Ｚｏ））となる。従って、選択した音源と画素ブロックまでの距離は、（（Ｘｉ−Ｘｏ’）^２＋（Ｙｉ−Ｙｏ’）^２）^０．５を計算することで求めることができる。あるいは、選択した音源から画素ブロックまでの距離を、（（Ｘｉ−Ｘｏ）^２＋（Ｙｉ−Ｙｏ）^２＋（Ｚｉ−Ｚｏ）^２）^０．５を計算することで求める方法もある。

そして、重要度算出部１１７は、求めた距離がより大きい画素ブロックほどより小さい重要度を示す重要度データ（重要度情報）を割り当て、求めた距離がより小さい画素ブロックほどより大きい重要度を示す重要度データを割り当てる。係る処理は、それぞれの音源について行われる。そして、１つの画素ブロックについて音源毎に求めた重要度データは合計し（重要度データが示す重要度を合計し）、合計した重要度データを改めてこの画素ブロックに割り当てるものとする。即ち、結果として、複数の画素ブロックのそれぞれに対して、求めた距離の大小に応じた重要度を示す重要度情報を割り当てることになる。

なお、重要度算出部１１７は、選択音源の位置データに対応する各画素ブロックの位置データのみに、他の各画素ブロックの位置データよりも大きい重要度を示す重要度データを割り当ててもよい。そして重要度算出部１１７は、画素ブロック毎に求めた重要度データを映像圧縮部１０４に送出する。

映像圧縮部１０４は、映像分割部１０１から入力された各画素ブロックのデータを圧縮符号化（圧縮処理）するのであるが、圧縮符号化を行う際には、それぞれの画素ブロックについて重要度算出部１１７が求めた重要度データを参照する。即ち、映像圧縮部１０４が着目画素ブロックについて圧縮符号化を行う場合、この着目画素ブロックについて重要度算出部１１７が求めた重要度データが示す重要度が高いほど、より小さい量子化ステップを用いて圧縮符号化を行う。一方で、着目画素ブロックについて重要度算出部１１７が求めた重要度データが示す重要度が低いほど、より大きい量子化ステップを用いて圧縮符号化を行う。なお、重要度データが示す重要度に応じて変化させる圧縮パラメータは量子化ステップに限定するものではなく、画質に関するものであれば、他の圧縮パラメータであっても良い。即ち本質的には、映像圧縮部１０４は、より高い重要度を示す重要度データが割り当てられた画素ブロックをより高い画質で復号されるように圧縮し、より低い重要度を示す重要度データが割り当てられた画素ブロックをより低い画質で復号されるように圧縮する。

このようにして、映像圧縮部１０４は、各画素ブロックを、対応する重要度データに基づいて圧縮パラメータを変化させながら、圧縮符号化する。そして映像圧縮部１０４は、圧縮符号化したそれぞれの画素ブロックのデータを、対応する重要度データと共に、並び替え部１０５に送出する。

並び替え部１０５は、映像圧縮部１０４から圧縮符号化済みの画素ブロックのデータを受け取ると、それぞれの画素ブロックのデータを並び替える。並び替えは、それぞれの画素ブロックの重要度データを参照し、より高い重要度を示す重要度データが割り当てられた画素ブロックをより先頭（ヘッダ情報側）に位置させる。以下では、このようにして並び替えた画素ブロックの集合を「画素ブロック列」と呼称する。そして並び替え部１０５は、このようにして生成した画素ブロック列を後段のストリーム生成部１０６に送出する。

ストリーム生成部１０６には、並び替え部１０５からの画素ブロック列のデータが入力されると共に、画素ブロック列と同じフレームにおける音声データが音声データＤＢ１７９から入力される。従って、ストリーム生成部１０６は、並び替え部１０５からの画素ブロック列のデータ、音声データＤＢ１７９からの音声データ、各画素ブロックに対する重要度データを含むヘッダ情報、を含むストリームデータを生成する。

図８は、ストリーム生成部１０６によって生成されるストリームデータの構成例を示す図である。図８に示す如く、ストリームデータは、ヘッダ情報と、各画素ブロックの符号化データと、音声データとが含まれている。なお、本実施形態では音声データについては圧縮符号化を行っていないが、必要に応じて圧縮符号化を行っても良い。

図８の場合、画素ブロック１の符号化データは、画素ブロック２の符号化データよりもヘッダ側に位置しているので、画素ブロック１に割り当てられている重要度データは、画素ブロック２に割り当てられている重要度データよりも高い重要度を示すことになる。また、画素ブロック２の符号化データは、画素ブロック３の符号化データよりもヘッダ側に位置しているので、画素ブロック２に割り当てられている重要度データは、画素ブロック３に割り当てられている重要度データよりも高い重要度を示すことになる。即ち、画素ブロック１に割り当てられている重要度データが示す重要度は、何れの画素ブロック（画素ブロック１〜画素ブロックＮ）よりも高いし、画素ブロックＮ割り当てられている重要度データが示す重要度は、何れの画素ブロックよりも低い。そしてストリーム生成部１０６は、このようにして生成したストリームデータを、ネットワーク１０８を介して受信装置１９９に送信する。

次に、受信装置１９９について説明する。データ再送信制御部１０９は、ストリーム生成部１０６からネットワーク１０８を介して送信されたストリームデータを受信すると、係る受信において欠損した画素ブロックの符号化データがあるか否かをチェックする。係るチェックは一般のパリティチェックなどにより実現可能である。従ってこのためにも、ストリームデータには、通信障害チェック用のデータが含められることが好ましい。

そしてデータ再送信制御部１０９は、欠損した画素ブロックの符号化データがあると判断した場合、係る画素ブロックに対応する重要度データをヘッダ情報から取得し、取得した重要度データが示す重要度を参照する。そして参照した重要度が閾値以上であれば、この欠損した画素ブロックの符号化データは重要であると判断し、係る画素ブロックの符号化データの再送要求を画像処理装置１００に対して送出する。そしてデータ再送信制御部１０９は、係る再送要求に応じてストリーム生成部１０６から送信されたこの画素ブロックの符号化データを受信すると、この受信した符号化データを、この画素ブロックの欠損符号化データに上書きする。なお、参照した重要度が閾値よりも小さい場合には、この欠損した画素ブロックの符号化データに対する再送の要求は行わなくても良いし、処理に余裕があれば行っても良い。

そしてデータ再送信制御部１０９は、ストリーム生成部１０６からストリームデータの受信を行った後、少なくとも重要度が閾値以上の画素ブロックの符号化データが全て揃ったことを検知した場合には、このストリームデータを後段の分離部１１１に送出する。

分離部１１１は、データ再送信制御部１０９から受けたストリームデータから、画素ブロック列の符号化データと音声データとを抽出し、画素ブロック列の符号化データについては映像伸張部１１２に送出し、音声データについては音声出力部１１５に送出する。

映像伸張部１１２は、分離部１１１から受けた画素ブロック列のデータを先頭から順次伸張し、伸張した画素ブロックのデータに基づく画像（タイル）を、モニタ１１４の表示画面上に表示する。なお、各タイルの表示位置は、ストリーム生成部１０６から受けたストリームデータ中のヘッダ情報に含められているものとする。

音声出力部１１５は、Ｄ／Ａ変換器とスピーカとで構成されており、分離部１１１から受けた音声データをＤ／Ａ変換器によってＤ／Ａ変換することでアナログ信号を得、そしてこのアナログ信号をスピーカに送出する。これにより、スピーカからは、係るアナログ信号に基づいた音声が出力されることになる。即ち、モニタ１１４に表示されている画像と同じフレームにおける音声が音声出力部１１５から出力されることになる。なお、画像処理装置１００側で音声データを圧縮符号化する場合、音声出力部１１５は、この音声データを伸張してからＤ／Ａ変換し、音声として出力する。

図６は、画像処理装置１００が、１フレーム分のストリームデータを生成して出力するために行う処理のフローチャートである。従って、複数フレームの各フレームについてストリームデータを生成して出力する場合には、図６に示したフローチャートに従った処理を、各フレームについて行えばよい。なお、以下の説明は、既に上述したとおりであるので、ここでは簡単に説明する。

先ず、ステップＳ６０１では、映像分割部１０１は、映像データＤＢ１７８から１フレーム分の映像データを取得する。次に、ステップＳ６０２では、映像分割部１０１は、ステップＳ６０１において取得した映像データが示す画像を複数の画素ブロックに分割する。そして映像分割部１０１は、１枚の画像を構成する各画素ブロックのデータを映像圧縮部１０４に出力すると共に、１枚の画像中における各画素ブロックの位置データを重要度算出部１１７に出力する。

一方、ステップＳ６０３において、音声座標算出部１１６は、音声データＤＢ１７９から音声データを取得する。次に、ステップＳ６０４では、音声座標算出部１１６は、ステップＳ６０１において取得した音声データを用いて、各音源の位置データを求める。

次に、ステップＳ６０５では、重要度算出部１１７は先ず、ステップＳ６０４において音声座標算出部１１６が求めた複数音源の位置データのうち１つの音源の位置データを選択する。そして、重要度算出部１１７は、選択音源の位置データと、ステップＳ６０２において映像分割部１０１が求めた各画素ブロックの位置データとを用いて、選択音源からそれぞれの画素ブロックまでの距離を求める。そして、重要度算出部１１７は、求めた距離がより大きい画素ブロックほどより小さい重要度を示す重要度データを割り当て、求めた距離がより小さい画素ブロックほどより大きい重要度を示す重要度データを割り当てる。係る処理は、それぞれの音源について行われる。

次に、ステップＳ６０６では、映像圧縮部１０４は、映像分割部１０１から入力された各画素ブロックのデータを、対応する重要度データが示す重要度に基づいて圧縮符号化する。即ち、映像圧縮部１０４が着目画素ブロックについて圧縮符号化を行う場合、この着目画素ブロックについて重要度算出部１１７が求めた重要度データが示す重要度が高いほど、より小さい量子化ステップを用いて圧縮符号化を行う。一方で、着目画素ブロックについて重要度算出部１１７が求めた重要度データが示す重要度が低いほど、より大きい量子化ステップを用いて圧縮符号化を行う。

次に、ステップＳ６０７では、並び替え部１０５は、ステップＳ６０６において求めた圧縮符号化済みの画素ブロックのデータを、対応する重要度データに基づいて並び替えることで、画素ブロック列のデータを生成する。即ち、より高い重要度を示す重要度データが割り当てられた画素ブロックをより先頭（ヘッダ情報側）に位置させる。

次にステップＳ６０８ではストリーム生成部１０６は、ステップＳ６０７において生成した画素ブロック列のデータ、ステップＳ６０３において取得した音声データ、各画素ブロックに対する重要度データを含むヘッダ情報、を含むストリームデータを生成する。

そして最後にステップＳ６０９では、ストリーム生成部１０６は、ステップＳ６０８において生成したストリームデータを、ネットワーク１０８を介して受信装置１９９に送信する。

なお、本実施形態では、各画素ブロックをストリームデータに含める場合には、それぞれの画素ブロックを、対応する重要度データに基づいて並び替えていたが、係る並び替えの処理は必須なものではなく、適宜行えば良い。

［第２の実施形態］
図５は、本実施形態に係るシステムの機能構成例を示すブロック図である。図５において、図１と同じ部分については同じ参照番号を付けており、その説明は省略する。音声分割部５１６は、音声データＤＢ１７９から音声データを取得すると共に、この音声データと同じフレームの画像中における各画素ブロックの位置データが映像分割部１０１から入力される。そして音声分割部５１６は、取得した各画素ブロックの位置データと音声データとを用いて、各画素ブロックに対する音量を示す音量情報を求める処理を行う。

図３は、音声分割部５１６の詳細な機能構成例を示すブロック図である。以下では、図３を用いて、音声分割部５１６について説明する。図３に示す如く、音声分割部５１６は、音源分離部１４１と座標生成部１４３と座標毎音声合成部１４２とで構成されている。

音源分離部１４１は、音声データＤＢ１７９から音声データ１２２を取得すると、係る音声データ１２２を用いて、係る音声データ１２２を構成する音源毎の音のデータ（図３ではｃｈ１，ｃｈ２，ｃｈ３）と、それぞれの音源の位置データと、を取得する。位置データの取得方法は、上述したブラインド信号分離処理等があげられる。

一方、座標生成部１４３には、音声データ１２２と同じフレームにおける各画素ブロックの位置データが映像分割部１０１から入力されるので、これをそのまま座標毎音声合成部１４２に出力する。

座標毎音声合成部１４２は先ず、音源分離部１４１から取得した複数音源の位置データのうち１つの音源について、位置データと、音のデータとを選択する。そして、選択音源の位置データと、座標生成部１４３から取得した各画素ブロックの位置データとを用いて、選択音源からそれぞれの画素ブロックまでの距離を求める。そして、求めた距離と、選択音源の音のデータと、を用いて、「選択音源から発せられる音の、それぞれの画素ブロックにおける音量」を示す音量情報を含む部分音声情報を求める。係る音量情報は、音源との距離がより大きい画素ブロックについてはより小さい音量を示すものとなるし、音源との距離がより小さい画素ブロックについてはより大きい音量を示すものとなる。座標毎音声合成部１４２は、係る処理を、それぞれの音源について行う。そして、１つの画素ブロックについて音源毎に求めた部分音声情報を用いて、音源毎の音量や位相を調整することで、この画素ブロックに最終的に割り当てる部分音声情報を求める。即ち、結果として、複数の画素ブロックのそれぞれに、対応する音量情報が示す音量の大小に応じた重要度を示す重要度情報を割り当てることになる。これにより、座標毎音声合成部１４２からは、各画素ブロックに対応する部分音声情報が、部分音声データ群１２４として出力される。

座標毎音声合成部１４２は、このような各画素ブロックに対応する部分音声情報を、ストリーム生成部５０６と、重要度算出部５１７とに送出する。重要度算出部５１７は、それぞれの画素ブロックに対する部分音声情報内の音量情報を参照する。そして、音量情報が示す音量がより大きい画素ブロックほどより大きい重要度を示す重要度データ（重要度情報）を割り当て、音量情報が示す音量がより小さい画素ブロックほどより小さい重要度を示す重要度データを割り当てる。

図４は、重要度算出部５１７が行う処理を説明する為の図である。重要度算出部５１７は、部分音声データ群１２４が入力されると、それぞれの部分音声情報内の音量情報を参照する。そして、音量情報が０の画素ブロックについては、重要度が「０」の重要度データを割り当て、音量情報が１の画素ブロックについては、重要度が「１００」の重要度データを割り当てる。これにより、それぞれの画素ブロックに対する重要度データの集合である重要度データ群１２６を生成する。

そして重要度算出部５１７は、画素ブロック毎に求めた重要度データを映像圧縮部１０４に送出する。ストリーム生成部５０６には、映像圧縮部１０４から、各画素ブロックの符号化データが入力されると共に、音声分割部５１６からは、各画素ブロックに対応する部分音声情報が入力される。

ストリーム生成部５０６は、各画素ブロックについて、符号化データ、部分音声情報、重要度データを含むヘッダ情報、を含むパケットを生成する。そして、各画素ブロックについて生成したパケットを、より高い重要度を示す重要度データを含むパケットから順にネットワーク１０８を介して受信装置１９９に対して送信する。従って、最も高い重要度を示す重要度データを含むパケットは最も最初に送信されるし、最も低い重要度を示す重要度データを含むパケットは最も最後に送信されることになる。

一方、データ再送信制御部５０９は、ストリーム生成部５０６からネットワーク１０８を介して送信されたパケットを受信すると、受信したパケットに欠損があるか否かをチェックする。係るチェックは一般のパリティチェックなどにより実現可能である。従ってこのためにも、パケットには、通信障害チェック用のデータが含められることが好ましい。

そしてデータ再送信制御部５０９は、パケットに欠損があると判断した場合、このパケット内の重要度データをヘッダ情報から取得し、取得した重要度データが示す重要度を参照する。そして参照した重要度が閾値以上であれば、この欠損したパケットは重要であると判断し、係るパケットの再送要求を画像処理装置５００に対して送出する。そしてデータ再送信制御部５０９は、係る再送要求に応じてストリーム生成部５０６から送信されたパケットを受信すると、このパケットを分離部５１１に送出する。なお、参照した重要度が閾値よりも小さい場合には、このパケットに対する再送の要求は行わなくても良いし、処理に余裕があれば行っても良い。

分離部５１１は、データ再送信制御部１０９から受けたパケットから、画素ブロックの符号化データと部分音声情報とを抽出し、画素ブロックの符号化データについては映像伸張部５１２に送出し、部分音声情報については音声出力部５１５に送出する。

映像伸張部５１２は、分離部５１１から受けた符号化データを伸張し、伸張した画素ブロックのデータに基づく画像（タイル）を、モニタ１１４の表示画面上に表示する。なお、各画素ブロックの表示位置は、ストリーム生成部５０６から受けたストリームデータ中のヘッダ情報に含められているものとする。

音声出力部５１５は、Ｄ／Ａ変換器とスピーカとで構成されており、それぞれのパケット内の部分音声情報に基づいて出力すべき音声のデータを生成し、生成したデータをＤ／Ａ変換器によってＤ／Ａ変換することでアナログ信号を得る。そして、そしてこのアナログ信号をスピーカに送出する。これにより、スピーカからは、係るアナログ信号に基づいた音声が出力されることになる。

図７は、画像処理装置５００が、１フレーム分のパケット群を生成して出力するために行う処理のフローチャートである。従って、複数フレームの各フレームについてパケット群を生成して出力する場合には、図７に示したフローチャートに従った処理を、各フレームについて行えばよい。なお、以下の説明は、既に上述したとおりであるので、ここでは簡単に説明する。また、図７において、図６と同じ処理ステップには同じ参照番号を付しており、その説明は省略する。

ステップＳ７０１では、座標毎音声合成部１４２は先ず、音源分離部１４１から取得した複数音源の位置データのうち１つの音源について、位置データと、音のデータとを選択する。そして、選択音源の位置データと、座標生成部１４３から取得した各画素ブロックの位置データとを用いて、選択音源からそれぞれの画素ブロックまでの距離を求める。そして、求めた距離と、選択音源の音のデータと、を用いて、「選択音源から発せられる音の、それぞれの画素ブロックにおける音量」を示す音量情報を含む部分音声情報を求める。座標毎音声合成部１４２は、係る処理を、それぞれの音源について行う。そして、１つの画素ブロックについて音源毎に求めた部分音声情報を用いて、音源毎の音量や位相を調整することで、この画素ブロックに最終的に割り当てる部分音声情報を求める。

次に、ステップＳ７０２では、重要度算出部５１７は、それぞれの画素ブロックに対する部分音声情報内の音量情報を参照する。そして、音量情報が示す音量がより大きい画素ブロックほどより大きい重要度を示す重要度データ（重要度情報）を割り当て、音量情報が示す音量がより小さい画素ブロックほどより小さい重要度を示す重要度データを割り当てる。

例えば、Ｘ軸上に配置された２チャンネルのスピーカを用いて部分映像の座標に対応した部分音声を出力する方法として、部分映像を表示する座標によって線形に左右のスピーカの音量の割合を変化させて合成する方法を図１１に示す。

２チャンネルのスピーカの場所を左をｘ＝−１．０、右をｘ＝＋１．０とし、更に、部分映像が表示されるｘ座標をｘｉ、そのときの部分音声の音量をｖｉとする。このとき、左スピーカの音量は１／２×（１−ｘｉ）×ｖｉ、右スピーカの音量は１／２× （１＋ｘｉ）×ｖｉとすることで、部分映像の座標に対応した部分音声を出力することができる。

次に、ステップＳ７０３では、ストリーム生成部５０６は、各画素ブロックについて、符号化データ、部分音声情報、重要度データを含むヘッダ情報、を含むパケットを生成する。

次に、ステップＳ７０４では、ストリーム生成部５０６は、各画素ブロックについて生成したパケットを、より高い重要度を示す重要度データを含むパケットから順にネットワーク１０８を介して受信装置１９９に対して送信する。

［第３の実施形態］
各画素ブロックに対する重要度を決定する場合、第１の実施形態では、音源と画素ブロックとの間の距離に基づいてこの画素ブロックに対する重要度を決定していた。また、第２の実施形態では、音源と画素ブロックとの間の距離を一旦計算し、この計算した距離に基づいてこの画素ブロックに対する音量情報を求め、求めた音量情報に基づいてこの画素ブロックに対する重要度を決定していた。

しかし、画素ブロックに対する重要度を決定するための処理はこれ以外にも考えられる。例えば、第２の実施形態で説明した部分音声情報が示す音声が人の声であるのか否かを、バンドパスフィルタなどを用いて判断する。そして、人の声を示す部分音声情報が割り当てられている画素ブロックに対する重要度を、人の声を示していない部分音声情報が割り当てられている画素ブロックに対する重要度よりも高く設定する。係る処理では、例えば、部分音声情報がバックグラウンドミュージックを示すのか、それとも人間の声を示すのかを判定するために、それぞれの画素ブロックに対する部分音声情報同士の相関を算出する。そして、係る相関の計算結果、部分音声情報同士で相関が高い場合には、即ち、それぞれの部分音声情報がほぼ同じ音を示すと判断する。更に、ほぼ同じ音を示す部分音声情報のそれぞれに対してバンドパスフィルタを適用し、その結果、ほぼ同じ音を示す部分音声情報のそれぞれが音楽を示すと判断された場合、これらの部分音声情報に対応する画素ブロックにはより低い重要度を設定する。

なお、上述した第１から３の実施形態は適宜組み合わせても良い。例えば、第２の実施形態のように、画素ブロック毎に生成した部分音声情報に基づいてそれぞれの画素ブロックの圧縮率を制御するものの、受信装置１９９に送信するものは第１の実施形態のようなストリームデータであっても良い。

このように、それぞれの実施形態で説明した様々な技術要素は、当業者であれば適宜組み合わせることは可能である。即ち、本明細書では、これらの組み合わせの全てについて言及していないものの、それらの組み合わせは当業者であれば適宜可能であるので、それら全ての組み合わせは、本明細書の範疇であるといえる。

［第４の実施形態］
図９は、図１，５に示した画像処理装置に適用可能なハードウェアの構成例を示す図である。ＣＰＵ８０１は、ＲＯＭ８０３やＲＡＭ８０２に格納されているコンピュータプログラムやデータを用いて、装置全体の制御を行うと共に、画像処理装置１００（５００）が行うものとして上述した各処理を実行する。

ＲＡＭ８０２は、外部記憶装置８０４からロードされたコンピュータプログラムやデータ、Ｉ／Ｆ（インターフェース）８０５を介して外部から受信したデータなどを一時的に記憶するためのエリアを有する。また、ＲＡＭ８０２は、ＣＰＵ８０１が各種の処理を実行する際に用いるワークエリアも有する。即ち、ＲＡＭ８０２は、各種のエリアを適宜提供することができる。

ＲＯＭ８０３には、画像処理装置１００（５００）が行うものとして上述した各処理をＣＰＵ８０１に実行させるためのコンピュータプログラムやデータが格納されている。係るコンピュータプログラムには、下記の各部のそれぞれの機能をＣＰＵ８０１に実行させるためのコンピュータプログラムが含まれている。

・映像分割部１０１
・映像圧縮部１０４
・並び替え部１０５
・ストリーム生成部１０６（５０６）
・音声座標算出部１１６
・重要度算出部１１７（５１７）
・音声分割部５１６
なお、映像圧縮部１０４等、一部については専用のハードウェアでもって構成しても良い。外部記憶装置８０４は、ハードディスクドライブ装置に代表される大容量情報記憶装置である。外部記憶装置８０４には、上記映像データＤＢ１７８や、上記音声データＤＢ１７９等が設けられている。外部記憶装置８０４に保存されているコンピュータプログラムやデータは、ＣＰＵ８０１による制御に従って適宜ＲＡＭ８０２にロードされ、ＣＰＵ８０１による処理対象となる。しかし、映像データＤＢ１７８や音声データＤＢ１７９については、外部記憶装置８０４内に設けることに限定するものではなく、ネットワーク１０８を介して他の装置内に設けられても良い。

Ｉ／Ｆ８０５は、本装置を上記ネットワーク１０８に接続する為のもので、本装置はこのＩ／Ｆ８０５を介してネットワーク１０８上の受信装置１９９とのデータ通信を行う。８０６は上述の各部を繋ぐバスである。

なお、本発明は、前述した実施形態の機能を実現するプログラムを、ネットワーク又は各種のコンピュータ読み取り可能な記憶媒体を介して取得し、コンピュータ等の処理装置にて実行することでも実現できる。

Claims

画像データを取得する手段と、
前記画像データが示す画像を複数の画素ブロックに分割する手段と、
複数チャネルを含む音声データを取得する手段と、
前記音声データを用いて音源の３次元空間における３次元座標位置を求め、該３次元空間中に仮想スクリーンを設定して該仮想スクリーン上に前記画像を配置した場合における該仮想スクリーン上のそれぞれの画素ブロックの前記３次元空間における３次元座標位置と、該求めた音源の３次元座標位置と、の間の距離を求める計算手段と、
前記複数の画素ブロックのそれぞれに対し、該画素ブロックについて求めた距離の大小に応じた重要度を示す重要度情報を割り当てる割り当て手段と、
前記複数の画素ブロックのそれぞれを圧縮する際、より高い重要度を示す重要度情報が割り当てられた画素ブロックは、より高い画質で復号されるように圧縮し、より低い重要度を示す重要度情報が割り当てられた画素ブロックは、より低い画質で復号されるように圧縮する手段と、
圧縮されたそれぞれの画素ブロックと、前記音声データと、を出力する出力手段と
を備えることを特徴とする画像処理装置。
前記割り当て手段は、前記複数の画素ブロックのそれぞれに対し、該画素ブロックについて求めた距離が小さいほど高い重要度を示す重要度情報を割り当てることを特徴とする請求項１に記載の画像処理装置。
前記計算手段は、
前記音声データを用いて、前記３次元空間における複数の音源のそれぞれの３次元座標位置を求め、該音源の３次元座標位置と、前記仮想スクリーン上のそれぞれの画素ブロックの３次元座標位置と、の間の距離を求め、
前記割り当て手段は、
前記音源ごとに、前記複数の画素ブロックのそれぞれに対して該画素ブロックと該音源との間の距離の大小に応じた重要度を求める手段と、
前記複数の画素ブロックのそれぞれに対し、該画素ブロックに対して求めた前記音源ごとの重要度の合計値を求め、該求めた合計値を示す情報を前記重要度情報として該画素ブロックに割り当てる手段と
を備える
ことを特徴とする請求項１又は２に記載の画像処理装置。
前記計算手段は、前記３次元空間における視聴者の位置と前記音源の位置との間の位置に仮想スクリーンを設定して該仮想スクリーン上に前記画像を配置した場合における該仮想スクリーン上のそれぞれの画素ブロックの前記３次元空間における３次元座標位置と、前記音源の３次元座標位置と、の間の距離を求めることを特徴とする請求項１乃至３の何れか１項に記載の画像処理装置。
前記出力手段は、前記音声データを圧縮してから出力することを特徴とする請求項１に記載の画像処理装置。
前記出力手段は、圧縮されたそれぞれの画素ブロックを、対応する重要度情報が示す重要度が高い順に並び替え、並び替えた画素ブロックの集合と、前記音声データと、を含むストリームを出力することを特徴とする請求項１に記載の画像処理装置。
画像処理装置が行う画像処理方法であって、
前記画像処理装置の画像データ取得手段が、画像データを取得する工程と、
前記画像処理装置の分割手段が、前記画像データが示す画像を複数の画素ブロックに分割する工程と、
前記画像処理装置の音声データ取得手段が、複数チャネルを含む音声データを取得する工程と、
前記画像処理装置の計算手段が、前記音声データを用いて音源の３次元空間における３次元座標位置を求め、該３次元空間中に仮想スクリーンを設定して該仮想スクリーン上に前記画像を配置した場合における該仮想スクリーン上のそれぞれの画素ブロックの前記３次元空間における３次元座標位置と、該求めた音源の３次元座標位置と、の間の距離を求める計算工程と、
前記画像処理装置の割り当て手段が、前記複数の画素ブロックのそれぞれに対し、該画素ブロックについて求めた距離の大小に応じた重要度を示す重要度情報を割り当てる割り当て工程と、
前記画像処理装置の圧縮手段が、前記複数の画素ブロックのそれぞれを圧縮する際、より高い重要度を示す重要度情報が割り当てられた画素ブロックは、より高い画質で復号されるように圧縮し、より低い重要度を示す重要度情報が割り当てられた画素ブロックは、より低い画質で復号されるように圧縮する工程と、
前記画像処理装置の出力手段が、圧縮されたそれぞれの画素ブロックと、前記音声データと、を出力する出力工程と
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１乃至６の何れか１項に記載の画像処理装置が有する各手段として機能させるためのコンピュータプログラム。