JP5210212B2 - 画像処理装置、画像処理方法 - Google Patents

画像処理装置、画像処理方法 Download PDF

Info

Publication number
JP5210212B2
JP5210212B2 JP2009063228A JP2009063228A JP5210212B2 JP 5210212 B2 JP5210212 B2 JP 5210212B2 JP 2009063228 A JP2009063228 A JP 2009063228A JP 2009063228 A JP2009063228 A JP 2009063228A JP 5210212 B2 JP5210212 B2 JP 5210212B2
Authority
JP
Japan
Prior art keywords
pixel block
data
importance
image processing
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009063228A
Other languages
English (en)
Other versions
JP2010219786A (ja
JP2010219786A5 (ja
Inventor
明裕 高村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2009063228A priority Critical patent/JP5210212B2/ja
Publication of JP2010219786A publication Critical patent/JP2010219786A/ja
Publication of JP2010219786A5 publication Critical patent/JP2010219786A5/ja
Application granted granted Critical
Publication of JP5210212B2 publication Critical patent/JP5210212B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、入力された画像を圧縮してから出力するための技術に関するものである。
映像データの伝送は、可能な限り高い画質で行うことが望まれている。しかしながら、伝送帯域は限られているので、非可逆な圧縮を行うことでその伝送量を減らし、伝送帯域内での伝送を行うことが一般的に行われているのであるが、一方でその画質は低下してしまう。
係る問題に対処するために、次のような技術がある。即ち、非可逆な圧縮を行う際に、視聴者の注目領域を検出、若しくは推定する。そして、注目領域については高い画質(低圧縮率)で非可逆圧縮を行い、それ以外の領域については低い画質(高圧縮率)で非可逆圧縮を行う。これにより、限られた伝送帯域内で視覚的な画質を高めることができる。視覚的な画質を高めるために視聴者の注目領域を検出、若しくは推定する方法には、これまでに様々な手法が提案されている。
例えば、特許文献1には、画像を複数のブロックに分割してブロック毎に圧縮符号化を行う際、操作者の注視点を検出し、検出した注視点の位置に応じてブロック毎に重み付けを行って圧縮する方法が開示されている。
また、特許文献2には、表示画面のサイズに応じて人間の注視領域が変化することに着目し、画像符号化時の符号量制御を、表示画面のサイズに応じて変化させる方法が開示されている。
また、特許文献3には、テレビ電話では通話相手の顔領域に視点が集中することに着目し、顔面領域を検出し、検出された顔面領域に多くの符号量を許可する方法が開示されている。
視聴者の注目領域の検出・推定は様々な用途で有用である。例えば、エラーが起きる可能性がある伝送路を用いて伝送を行う際、視聴者の注目領域を検出もしくは推定し、注目領域についてはエラー耐性の高い誤り訂正符号を用いて符号化を行い、それ以外の領域についてはエラー耐性の低い訂正符号を用いて符号化を行う。これにより、伝送エラーによる視覚的な画質低下を押さえることができる。
また、画像処理を行う装置の処理性能が限られている。従って、画像処理を行う際、視聴者の注目領域を検出もしくは推定し、注目領域については高い画質を実現するために画像処理で多くの処理を行い、それ以外の領域については、少ない処理を行うことで、限られた処理性能内で視覚的な画質を高めることができる。これらの手法を使う上で、視聴者の注目領域の検出・推定の精度を高めることは重要である。
特開平8-331561号公報 特開平8-140088号公報 特開平1-80185号公報
しかしながら、特許文献1に開示の技術では、重み付けを行う際に人の視点を計測する必要があるため、機械だけでは実現できない、という問題がある。また、注視点位置には個人差があるため、操作者によって画質が変わってしまうという問題がある。また、特許文献2に開示の技術では、圧縮時には、表示画面の大きさが必要となるので、表示画面の大きさが分からない時、あるいは大きさが異なる複数の画面に映像伝送を行う際には、特許文献2に開示の技術は使うことができない。また、特許文献3に開示の技術では、注視領域が顔以外の場合には適切な符号量の割り当てが行うことができないという問題がある。
本発明は以上の問題に鑑みて成されたものであり、画像を符号化して伝送する場合、人が注視するであろう箇所についてはより優先的な処理を行うことで、伝送する画像の視覚的な画質を高める為の技術を提供することを目的とする。
本発明の目的を達成するために、例えば、本発明の画像処理装置は以下の構成を備える。即ち、画像データを取得する手段と、
前記画像データが示す画像を複数の画素ブロックに分割する手段と、
複数チャネルを含む音声データを取得する手段と、
前記音声データを用いて音源の3次元空間における3次元座標位置を求め、該3次元空間中に仮想スクリーンを設定して該仮想スクリーン上に前記画像を配置した場合における該仮想スクリーン上のそれぞれの画素ブロックの前記3次元空間における3次元座標位置と、該求めた音源の3次元座標位置と、の間の距離を求める計算手段と、
前記複数の画素ブロックのそれぞれに対し、該画素ブロックについて求めた距離の大小に応じた重要度を示す重要度情報を割り当てる割り当て手段と、
前記複数の画素ブロックのそれぞれを圧縮する際、より高い重要度を示す重要度情報が割り当てられた画素ブロックは、より高い画質で復号されるように圧縮し、より低い重要度を示す重要度情報が割り当てられた画素ブロックは、より低い画質で復号されるように圧縮する手段と、
圧縮されたそれぞれの画素ブロックと、前記音声データと、を出力する出力手段と
を備えることを特徴とする。
本発明の構成によれば、画像を符号化して伝送する場合、人が注視するであろう箇所についてはより優先的な処理を行うことで、伝送する画像の視覚的な画質を高めることができる。
本発明の第1の実施形態に係るシステムの機能構成例を示すブロック図である。 1枚の画像を複数の画素ブロックに分割する処理を説明するための図である。 音声分割部516の詳細な機能構成例を示すブロック図である。 重要度算出部517が行う処理を説明する為の図である。 本発明の第2の実施形態に係るシステムの機能構成例を示すブロック図である。 画像処理装置100が、1フレーム分のストリームデータを生成して出力するために行う処理のフローチャートである。 画像処理装置500が、1フレーム分のパケット群を生成して出力するために行う処理のフローチャートである。 ストリーム生成部106によって生成されるストリームデータの構成例を示す図である。 図1,5に示した画像処理装置に適用可能なハードウェアの構成例を示す図である。 選択音源からそれぞれの画素ブロックまでの距離を求める方法を説明する図である。 部分映像を表示する座標によって線形に左右のスピーカの音量の割合を変化させて合成する方法を説明する図である。
以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施例の1つである。
[第1の実施形態]
本実施形態に係る画像処理装置は、各フレームの映像データ(画像データ)と、各フレームに対応する音声データとを、外部から若しくは自身が有するメモリから取得し、取得したこれらのデータを順次符号化してから出力する。出力先は特に限定するものではないが、本実施形態では、ある受信装置に対して出力するものとして説明する。
図1は、本実施形態に係るシステムの機能構成例を示すブロック図である。図1に示す如く、本実施形態に係るシステムは、画像処理装置100と受信装置199とで構成されており、それぞれはLANやインターネットなどのネットワーク108を介して接続されている。これにより、画像処理装置100と受信装置199とは、このネットワーク108を介して互いにデータ通信を行うことができる。なお、このネットワーク108は、無線、有線の何れであっても良いし、それぞれを適宜組み合わせたものであっても良い。
先ず、画像処理装置100について説明する。画像処理装置100は、例えば、映像と音声とを放送する機器であったりする。もちろん、画像処理装置100には、一般のPC(パーソナルコンピュータ)などのコンピュータを適用することもできる。画像処理装置100は、各フレームの映像データと、各フレームに対応する音声データとを取得し、取得したこれらのデータを順次符号化してから受信装置199に対して送信する。
映像データDB(データベース)178には、動画像のデータが格納されている。係る動画像のデータは、動画像を構成する各フレームの画像を示す映像データにより構成されている。
音声データDB179には、上記動画像を構成する各フレームに対応する音声データが格納されている。係る音声データは、複数チャネルの音声データにより構成されているものとする。
ここで、映像データDB178と音声データDB179は常に同期を取ってデータを出力するものとする。即ち映像データDB178からXフレーム目の映像データが出力された場合には、音声データDB179からはこのXフレーム目の映像データに対応する音声データが出力されているものとする。
映像分割部101は、映像データDB178から各フレームの映像データを順次取得し、取得した映像データが示す画像を複数の画素ブロックに分割する。例えば、1枚の画像を、32画素×24画素のサイズの画素ブロック単位に分割する。そして映像分割部101は、1枚の画像を構成する各画素ブロックのデータを映像圧縮部104に出力すると共に、1枚の画像における各画素ブロックの位置データを重要度算出部117に出力する処理を、映像データDB178から取得した映像データ毎に行う。ここで、「1枚の画像中における各画素ブロックの位置データ」とは、例えば、1枚の画像中におけるそれぞれの画素ブロックの中央部の座標位置を示すデータである。しかし、位置データが示すものは画素ブロック中のどの位置を示すものであっても良い。
図2は、1枚の画像を複数の画素ブロックに分割する処理を説明するための図である。図2において121は1枚の画像を示している。映像分割部101は係る画像121を取得すると、係る画像121を複数の画素ブロック123に分割する。
一方、音声座標算出部116は、音声データDB179から音声データを取得すると、係る音声データを用いて、視聴者の位置を(0,0,0)としたときの各音源の位置データ(Xo,Yo,Zo)を求める処理を行う。係る処理は、後述する各音声チャネルの情報のみを用いて音源分離を行うブラインド信号分離処理を用いることで行うことができる。
<参考文献1> Anthony J. Bell and Terrence J. Sejnowski, An Information-Maximization Approach to Blind Separation and Blind Deconvolution, Neural Computation, Vol. 7, No. 6, pp 1129-1159, 1995.
<参考文献2> L. Molgedey and H. G. Schuster, Separation of a mixture of independent signals using time delayed correlations, Physical Review Letter, 72, pp 3634-3637, 1994.
<参考文献3> J.-F. Cardoso and A. Souloumiac, Jacobi angles for simultaneous diagonalization, SIAM Journal on Matrix Analysis and Applications, Vol.17, No.1, 161-164, 1996.
重要度算出部117には、音声座標算出部116が求めた各音源の位置データが入力されると共に、映像分割部101からは各画素ブロックの位置データが入力される。もちろん、音声座標算出部116からのデータと映像分割部101からのデータは何れも同じフレームにおけるものである。
重要度算出部117は先ず、音声座標算出部116から取得した複数音源の位置データのうち1つの音源の位置データ(Xo,Yo,Zo)を選択する。そして、重要度算出部117は、選択音源の位置データと、映像分割部101から取得した各画素ブロックの位置データとを用いて、選択音源からそれぞれの画素ブロックまでの距離を求める。距離を求める方法のひとつとして、図10に示すように、視聴者の位置を(0,0,0)とし、仮想スクリーンまでの距離をZi、仮想スクリーン上の画素ブロックの位置を(Xi,Yi)、選択した1つの音源の位置を(Xo,Yo,Zo)とする。この時、仮想スクリーン上の音源の位置は(Xo‘,Yo’)=(Xo×(Zi/Zo),Yo×(Zi/Zo))となる。従って、選択した音源と画素ブロックまでの距離は、((Xi−Xo’)+(Yi−Yo’)0.5を計算することで求めることができる。あるいは、選択した音源から画素ブロックまでの距離を、((Xi−Xo)+(Yi−Yo)+(Zi−Zo)0.5を計算することで求める方法もある。
そして、重要度算出部117は、求めた距離がより大きい画素ブロックほどより小さい重要度を示す重要度データ(重要度情報)を割り当て、求めた距離がより小さい画素ブロックほどより大きい重要度を示す重要度データを割り当てる。係る処理は、それぞれの音源について行われる。そして、1つの画素ブロックについて音源毎に求めた重要度データは合計し(重要度データが示す重要度を合計し)、合計した重要度データを改めてこの画素ブロックに割り当てるものとする。即ち、結果として、複数の画素ブロックのそれぞれに対して、求めた距離の大小に応じた重要度を示す重要度情報を割り当てることになる。
なお、重要度算出部117は、選択音源の位置データに対応する各画素ブロックの位置データのみに、他の各画素ブロックの位置データよりも大きい重要度を示す重要度データを割り当ててもよい。そして重要度算出部117は、画素ブロック毎に求めた重要度データを映像圧縮部104に送出する。
映像圧縮部104は、映像分割部101から入力された各画素ブロックのデータを圧縮符号化(圧縮処理)するのであるが、圧縮符号化を行う際には、それぞれの画素ブロックについて重要度算出部117が求めた重要度データを参照する。即ち、映像圧縮部104が着目画素ブロックについて圧縮符号化を行う場合、この着目画素ブロックについて重要度算出部117が求めた重要度データが示す重要度が高いほど、より小さい量子化ステップを用いて圧縮符号化を行う。一方で、着目画素ブロックについて重要度算出部117が求めた重要度データが示す重要度が低いほど、より大きい量子化ステップを用いて圧縮符号化を行う。なお、重要度データが示す重要度に応じて変化させる圧縮パラメータは量子化ステップに限定するものではなく、画質に関するものであれば、他の圧縮パラメータであっても良い。即ち本質的には、映像圧縮部104は、より高い重要度を示す重要度データが割り当てられた画素ブロックをより高い画質で復号されるように圧縮し、より低い重要度を示す重要度データが割り当てられた画素ブロックをより低い画質で復号されるように圧縮する。
このようにして、映像圧縮部104は、各画素ブロックを、対応する重要度データに基づいて圧縮パラメータを変化させながら、圧縮符号化する。そして映像圧縮部104は、圧縮符号化したそれぞれの画素ブロックのデータを、対応する重要度データと共に、並び替え部105に送出する。
並び替え部105は、映像圧縮部104から圧縮符号化済みの画素ブロックのデータを受け取ると、それぞれの画素ブロックのデータを並び替える。並び替えは、それぞれの画素ブロックの重要度データを参照し、より高い重要度を示す重要度データが割り当てられた画素ブロックをより先頭(ヘッダ情報側)に位置させる。以下では、このようにして並び替えた画素ブロックの集合を「画素ブロック列」と呼称する。そして並び替え部105は、このようにして生成した画素ブロック列を後段のストリーム生成部106に送出する。
ストリーム生成部106には、並び替え部105からの画素ブロック列のデータが入力されると共に、画素ブロック列と同じフレームにおける音声データが音声データDB179から入力される。従って、ストリーム生成部106は、並び替え部105からの画素ブロック列のデータ、音声データDB179からの音声データ、各画素ブロックに対する重要度データを含むヘッダ情報、を含むストリームデータを生成する。
図8は、ストリーム生成部106によって生成されるストリームデータの構成例を示す図である。図8に示す如く、ストリームデータは、ヘッダ情報と、各画素ブロックの符号化データと、音声データとが含まれている。なお、本実施形態では音声データについては圧縮符号化を行っていないが、必要に応じて圧縮符号化を行っても良い。
図8の場合、画素ブロック1の符号化データは、画素ブロック2の符号化データよりもヘッダ側に位置しているので、画素ブロック1に割り当てられている重要度データは、画素ブロック2に割り当てられている重要度データよりも高い重要度を示すことになる。また、画素ブロック2の符号化データは、画素ブロック3の符号化データよりもヘッダ側に位置しているので、画素ブロック2に割り当てられている重要度データは、画素ブロック3に割り当てられている重要度データよりも高い重要度を示すことになる。即ち、画素ブロック1に割り当てられている重要度データが示す重要度は、何れの画素ブロック(画素ブロック1〜画素ブロックN)よりも高いし、画素ブロックN割り当てられている重要度データが示す重要度は、何れの画素ブロックよりも低い。そしてストリーム生成部106は、このようにして生成したストリームデータを、ネットワーク108を介して受信装置199に送信する。
次に、受信装置199について説明する。データ再送信制御部109は、ストリーム生成部106からネットワーク108を介して送信されたストリームデータを受信すると、係る受信において欠損した画素ブロックの符号化データがあるか否かをチェックする。係るチェックは一般のパリティチェックなどにより実現可能である。従ってこのためにも、ストリームデータには、通信障害チェック用のデータが含められることが好ましい。
そしてデータ再送信制御部109は、欠損した画素ブロックの符号化データがあると判断した場合、係る画素ブロックに対応する重要度データをヘッダ情報から取得し、取得した重要度データが示す重要度を参照する。そして参照した重要度が閾値以上であれば、この欠損した画素ブロックの符号化データは重要であると判断し、係る画素ブロックの符号化データの再送要求を画像処理装置100に対して送出する。そしてデータ再送信制御部109は、係る再送要求に応じてストリーム生成部106から送信されたこの画素ブロックの符号化データを受信すると、この受信した符号化データを、この画素ブロックの欠損符号化データに上書きする。なお、参照した重要度が閾値よりも小さい場合には、この欠損した画素ブロックの符号化データに対する再送の要求は行わなくても良いし、処理に余裕があれば行っても良い。
そしてデータ再送信制御部109は、ストリーム生成部106からストリームデータの受信を行った後、少なくとも重要度が閾値以上の画素ブロックの符号化データが全て揃ったことを検知した場合には、このストリームデータを後段の分離部111に送出する。
分離部111は、データ再送信制御部109から受けたストリームデータから、画素ブロック列の符号化データと音声データとを抽出し、画素ブロック列の符号化データについては映像伸張部112に送出し、音声データについては音声出力部115に送出する。
映像伸張部112は、分離部111から受けた画素ブロック列のデータを先頭から順次伸張し、伸張した画素ブロックのデータに基づく画像(タイル)を、モニタ114の表示画面上に表示する。なお、各タイルの表示位置は、ストリーム生成部106から受けたストリームデータ中のヘッダ情報に含められているものとする。
音声出力部115は、D/A変換器とスピーカとで構成されており、分離部111から受けた音声データをD/A変換器によってD/A変換することでアナログ信号を得、そしてこのアナログ信号をスピーカに送出する。これにより、スピーカからは、係るアナログ信号に基づいた音声が出力されることになる。即ち、モニタ114に表示されている画像と同じフレームにおける音声が音声出力部115から出力されることになる。なお、画像処理装置100側で音声データを圧縮符号化する場合、音声出力部115は、この音声データを伸張してからD/A変換し、音声として出力する。
図6は、画像処理装置100が、1フレーム分のストリームデータを生成して出力するために行う処理のフローチャートである。従って、複数フレームの各フレームについてストリームデータを生成して出力する場合には、図6に示したフローチャートに従った処理を、各フレームについて行えばよい。なお、以下の説明は、既に上述したとおりであるので、ここでは簡単に説明する。
先ず、ステップS601では、映像分割部101は、映像データDB178から1フレーム分の映像データを取得する。次に、ステップS602では、映像分割部101は、ステップS601において取得した映像データが示す画像を複数の画素ブロックに分割する。そして映像分割部101は、1枚の画像を構成する各画素ブロックのデータを映像圧縮部104に出力すると共に、1枚の画像中における各画素ブロックの位置データを重要度算出部117に出力する。
一方、ステップS603において、音声座標算出部116は、音声データDB179から音声データを取得する。次に、ステップS604では、音声座標算出部116は、ステップS601において取得した音声データを用いて、各音源の位置データを求める。
次に、ステップS605では、重要度算出部117は先ず、ステップS604において音声座標算出部116が求めた複数音源の位置データのうち1つの音源の位置データを選択する。そして、重要度算出部117は、選択音源の位置データと、ステップS602において映像分割部101が求めた各画素ブロックの位置データとを用いて、選択音源からそれぞれの画素ブロックまでの距離を求める。そして、重要度算出部117は、求めた距離がより大きい画素ブロックほどより小さい重要度を示す重要度データを割り当て、求めた距離がより小さい画素ブロックほどより大きい重要度を示す重要度データを割り当てる。係る処理は、それぞれの音源について行われる。
次に、ステップS606では、映像圧縮部104は、映像分割部101から入力された各画素ブロックのデータを、対応する重要度データが示す重要度に基づいて圧縮符号化する。即ち、映像圧縮部104が着目画素ブロックについて圧縮符号化を行う場合、この着目画素ブロックについて重要度算出部117が求めた重要度データが示す重要度が高いほど、より小さい量子化ステップを用いて圧縮符号化を行う。一方で、着目画素ブロックについて重要度算出部117が求めた重要度データが示す重要度が低いほど、より大きい量子化ステップを用いて圧縮符号化を行う。
次に、ステップS607では、並び替え部105は、ステップS606において求めた圧縮符号化済みの画素ブロックのデータを、対応する重要度データに基づいて並び替えることで、画素ブロック列のデータを生成する。即ち、より高い重要度を示す重要度データが割り当てられた画素ブロックをより先頭(ヘッダ情報側)に位置させる。
次にステップS608ではストリーム生成部106は、ステップS607において生成した画素ブロック列のデータ、ステップS603において取得した音声データ、各画素ブロックに対する重要度データを含むヘッダ情報、を含むストリームデータを生成する。
そして最後にステップS609では、ストリーム生成部106は、ステップS608において生成したストリームデータを、ネットワーク108を介して受信装置199に送信する。
なお、本実施形態では、各画素ブロックをストリームデータに含める場合には、それぞれの画素ブロックを、対応する重要度データに基づいて並び替えていたが、係る並び替えの処理は必須なものではなく、適宜行えば良い。
[第2の実施形態]
図5は、本実施形態に係るシステムの機能構成例を示すブロック図である。図5において、図1と同じ部分については同じ参照番号を付けており、その説明は省略する。音声分割部516は、音声データDB179から音声データを取得すると共に、この音声データと同じフレームの画像中における各画素ブロックの位置データが映像分割部101から入力される。そして音声分割部516は、取得した各画素ブロックの位置データと音声データとを用いて、各画素ブロックに対する音量を示す音量情報を求める処理を行う。
図3は、音声分割部516の詳細な機能構成例を示すブロック図である。以下では、図3を用いて、音声分割部516について説明する。図3に示す如く、音声分割部516は、音源分離部141と座標生成部143と座標毎音声合成部142とで構成されている。
音源分離部141は、音声データDB179から音声データ122を取得すると、係る音声データ122を用いて、係る音声データ122を構成する音源毎の音のデータ(図3ではch1,ch2,ch3)と、それぞれの音源の位置データと、を取得する。位置データの取得方法は、上述したブラインド信号分離処理等があげられる。
一方、座標生成部143には、音声データ122と同じフレームにおける各画素ブロックの位置データが映像分割部101から入力されるので、これをそのまま座標毎音声合成部142に出力する。
座標毎音声合成部142は先ず、音源分離部141から取得した複数音源の位置データのうち1つの音源について、位置データと、音のデータとを選択する。そして、選択音源の位置データと、座標生成部143から取得した各画素ブロックの位置データとを用いて、選択音源からそれぞれの画素ブロックまでの距離を求める。そして、求めた距離と、選択音源の音のデータと、を用いて、「選択音源から発せられる音の、それぞれの画素ブロックにおける音量」を示す音量情報を含む部分音声情報を求める。係る音量情報は、音源との距離がより大きい画素ブロックについてはより小さい音量を示すものとなるし、音源との距離がより小さい画素ブロックについてはより大きい音量を示すものとなる。座標毎音声合成部142は、係る処理を、それぞれの音源について行う。そして、1つの画素ブロックについて音源毎に求めた部分音声情報を用いて、音源毎の音量や位相を調整することで、この画素ブロックに最終的に割り当てる部分音声情報を求める。即ち、結果として、複数の画素ブロックのそれぞれに、対応する音量情報が示す音量の大小に応じた重要度を示す重要度情報を割り当てることになる。これにより、座標毎音声合成部142からは、各画素ブロックに対応する部分音声情報が、部分音声データ群124として出力される。
座標毎音声合成部142は、このような各画素ブロックに対応する部分音声情報を、ストリーム生成部506と、重要度算出部517とに送出する。重要度算出部517は、それぞれの画素ブロックに対する部分音声情報内の音量情報を参照する。そして、音量情報が示す音量がより大きい画素ブロックほどより大きい重要度を示す重要度データ(重要度情報)を割り当て、音量情報が示す音量がより小さい画素ブロックほどより小さい重要度を示す重要度データを割り当てる。
図4は、重要度算出部517が行う処理を説明する為の図である。重要度算出部517は、部分音声データ群124が入力されると、それぞれの部分音声情報内の音量情報を参照する。そして、音量情報が0の画素ブロックについては、重要度が「0」の重要度データを割り当て、音量情報が1の画素ブロックについては、重要度が「100」の重要度データを割り当てる。これにより、それぞれの画素ブロックに対する重要度データの集合である重要度データ群126を生成する。
そして重要度算出部517は、画素ブロック毎に求めた重要度データを映像圧縮部104に送出する。ストリーム生成部506には、映像圧縮部104から、各画素ブロックの符号化データが入力されると共に、音声分割部516からは、各画素ブロックに対応する部分音声情報が入力される。
ストリーム生成部506は、各画素ブロックについて、符号化データ、部分音声情報、重要度データを含むヘッダ情報、を含むパケットを生成する。そして、各画素ブロックについて生成したパケットを、より高い重要度を示す重要度データを含むパケットから順にネットワーク108を介して受信装置199に対して送信する。従って、最も高い重要度を示す重要度データを含むパケットは最も最初に送信されるし、最も低い重要度を示す重要度データを含むパケットは最も最後に送信されることになる。
一方、データ再送信制御部509は、ストリーム生成部506からネットワーク108を介して送信されたパケットを受信すると、受信したパケットに欠損があるか否かをチェックする。係るチェックは一般のパリティチェックなどにより実現可能である。従ってこのためにも、パケットには、通信障害チェック用のデータが含められることが好ましい。
そしてデータ再送信制御部509は、パケットに欠損があると判断した場合、このパケット内の重要度データをヘッダ情報から取得し、取得した重要度データが示す重要度を参照する。そして参照した重要度が閾値以上であれば、この欠損したパケットは重要であると判断し、係るパケットの再送要求を画像処理装置500に対して送出する。そしてデータ再送信制御部509は、係る再送要求に応じてストリーム生成部506から送信されたパケットを受信すると、このパケットを分離部511に送出する。なお、参照した重要度が閾値よりも小さい場合には、このパケットに対する再送の要求は行わなくても良いし、処理に余裕があれば行っても良い。
分離部511は、データ再送信制御部109から受けたパケットから、画素ブロックの符号化データと部分音声情報とを抽出し、画素ブロックの符号化データについては映像伸張部512に送出し、部分音声情報については音声出力部515に送出する。
映像伸張部512は、分離部511から受けた符号化データを伸張し、伸張した画素ブロックのデータに基づく画像(タイル)を、モニタ114の表示画面上に表示する。なお、各画素ブロックの表示位置は、ストリーム生成部506から受けたストリームデータ中のヘッダ情報に含められているものとする。
音声出力部515は、D/A変換器とスピーカとで構成されており、それぞれのパケット内の部分音声情報に基づいて出力すべき音声のデータを生成し、生成したデータをD/A変換器によってD/A変換することでアナログ信号を得る。そして、そしてこのアナログ信号をスピーカに送出する。これにより、スピーカからは、係るアナログ信号に基づいた音声が出力されることになる。
図7は、画像処理装置500が、1フレーム分のパケット群を生成して出力するために行う処理のフローチャートである。従って、複数フレームの各フレームについてパケット群を生成して出力する場合には、図7に示したフローチャートに従った処理を、各フレームについて行えばよい。なお、以下の説明は、既に上述したとおりであるので、ここでは簡単に説明する。また、図7において、図6と同じ処理ステップには同じ参照番号を付しており、その説明は省略する。
ステップS701では、座標毎音声合成部142は先ず、音源分離部141から取得した複数音源の位置データのうち1つの音源について、位置データと、音のデータとを選択する。そして、選択音源の位置データと、座標生成部143から取得した各画素ブロックの位置データとを用いて、選択音源からそれぞれの画素ブロックまでの距離を求める。そして、求めた距離と、選択音源の音のデータと、を用いて、「選択音源から発せられる音の、それぞれの画素ブロックにおける音量」を示す音量情報を含む部分音声情報を求める。座標毎音声合成部142は、係る処理を、それぞれの音源について行う。そして、1つの画素ブロックについて音源毎に求めた部分音声情報を用いて、音源毎の音量や位相を調整することで、この画素ブロックに最終的に割り当てる部分音声情報を求める。
次に、ステップS702では、重要度算出部517は、それぞれの画素ブロックに対する部分音声情報内の音量情報を参照する。そして、音量情報が示す音量がより大きい画素ブロックほどより大きい重要度を示す重要度データ(重要度情報)を割り当て、音量情報が示す音量がより小さい画素ブロックほどより小さい重要度を示す重要度データを割り当てる。
例えば、X軸上に配置された2チャンネルのスピーカを用いて部分映像の座標に対応した部分音声を出力する方法として、部分映像を表示する座標によって線形に左右のスピーカの音量の割合を変化させて合成する方法を図11に示す。
2チャンネルのスピーカの場所を左をx=−1.0、右をx=+1.0とし、更に、部分映像が表示されるx座標をxi、そのときの部分音声の音量をviとする。このとき、左スピーカの音量は1/2×(1−xi)×vi、右スピーカの音量は1/2× (1+xi)×viとすることで、部分映像の座標に対応した部分音声を出力することができる。
次に、ステップS703では、ストリーム生成部506は、各画素ブロックについて、符号化データ、部分音声情報、重要度データを含むヘッダ情報、を含むパケットを生成する。
次に、ステップS704では、ストリーム生成部506は、各画素ブロックについて生成したパケットを、より高い重要度を示す重要度データを含むパケットから順にネットワーク108を介して受信装置199に対して送信する。
[第3の実施形態]
各画素ブロックに対する重要度を決定する場合、第1の実施形態では、音源と画素ブロックとの間の距離に基づいてこの画素ブロックに対する重要度を決定していた。また、第2の実施形態では、音源と画素ブロックとの間の距離を一旦計算し、この計算した距離に基づいてこの画素ブロックに対する音量情報を求め、求めた音量情報に基づいてこの画素ブロックに対する重要度を決定していた。
しかし、画素ブロックに対する重要度を決定するための処理はこれ以外にも考えられる。例えば、第2の実施形態で説明した部分音声情報が示す音声が人の声であるのか否かを、バンドパスフィルタなどを用いて判断する。そして、人の声を示す部分音声情報が割り当てられている画素ブロックに対する重要度を、人の声を示していない部分音声情報が割り当てられている画素ブロックに対する重要度よりも高く設定する。係る処理では、例えば、部分音声情報がバックグラウンドミュージックを示すのか、それとも人間の声を示すのかを判定するために、それぞれの画素ブロックに対する部分音声情報同士の相関を算出する。そして、係る相関の計算結果、部分音声情報同士で相関が高い場合には、即ち、それぞれの部分音声情報がほぼ同じ音を示すと判断する。更に、ほぼ同じ音を示す部分音声情報のそれぞれに対してバンドパスフィルタを適用し、その結果、ほぼ同じ音を示す部分音声情報のそれぞれが音楽を示すと判断された場合、これらの部分音声情報に対応する画素ブロックにはより低い重要度を設定する。
なお、上述した第1から3の実施形態は適宜組み合わせても良い。例えば、第2の実施形態のように、画素ブロック毎に生成した部分音声情報に基づいてそれぞれの画素ブロックの圧縮率を制御するものの、受信装置199に送信するものは第1の実施形態のようなストリームデータであっても良い。
このように、それぞれの実施形態で説明した様々な技術要素は、当業者であれば適宜組み合わせることは可能である。即ち、本明細書では、これらの組み合わせの全てについて言及していないものの、それらの組み合わせは当業者であれば適宜可能であるので、それら全ての組み合わせは、本明細書の範疇であるといえる。
[第4の実施形態]
図9は、図1,5に示した画像処理装置に適用可能なハードウェアの構成例を示す図である。CPU801は、ROM803やRAM802に格納されているコンピュータプログラムやデータを用いて、装置全体の制御を行うと共に、画像処理装置100(500)が行うものとして上述した各処理を実行する。
RAM802は、外部記憶装置804からロードされたコンピュータプログラムやデータ、I/F(インターフェース)805を介して外部から受信したデータなどを一時的に記憶するためのエリアを有する。また、RAM802は、CPU801が各種の処理を実行する際に用いるワークエリアも有する。即ち、RAM802は、各種のエリアを適宜提供することができる。
ROM803には、画像処理装置100(500)が行うものとして上述した各処理をCPU801に実行させるためのコンピュータプログラムやデータが格納されている。係るコンピュータプログラムには、下記の各部のそれぞれの機能をCPU801に実行させるためのコンピュータプログラムが含まれている。
・ 映像分割部101
・ 映像圧縮部104
・ 並び替え部105
・ ストリーム生成部106(506)
・ 音声座標算出部116
・ 重要度算出部117(517)
・ 音声分割部516
なお、映像圧縮部104等、一部については専用のハードウェアでもって構成しても良い。外部記憶装置804は、ハードディスクドライブ装置に代表される大容量情報記憶装置である。外部記憶装置804には、上記映像データDB178や、上記音声データDB179等が設けられている。外部記憶装置804に保存されているコンピュータプログラムやデータは、CPU801による制御に従って適宜RAM802にロードされ、CPU801による処理対象となる。しかし、映像データDB178や音声データDB179については、外部記憶装置804内に設けることに限定するものではなく、ネットワーク108を介して他の装置内に設けられても良い。
I/F805は、本装置を上記ネットワーク108に接続する為のもので、本装置はこのI/F805を介してネットワーク108上の受信装置199とのデータ通信を行う。806は上述の各部を繋ぐバスである。
なお、本発明は、前述した実施形態の機能を実現するプログラムを、ネットワーク又は各種のコンピュータ読み取り可能な記憶媒体を介して取得し、コンピュータ等の処理装置にて実行することでも実現できる。

Claims (8)

  1. 画像データを取得する手段と、
    前記画像データが示す画像を複数の画素ブロックに分割する手段と、
    複数チャネルを含む音声データを取得する手段と、
    前記音声データを用いて音源の3次元空間における3次元座標位置を求め、該3次元空間中に仮想スクリーンを設定して該仮想スクリーン上に前記画像を配置した場合における該仮想スクリーン上のそれぞれの画素ブロックの前記3次元空間における3次元座標位置と、該求めた音源の3次元座標位置と、の間の距離を求める計算手段と、
    前記複数の画素ブロックのそれぞれに対し、該画素ブロックについて求めた距離の大小に応じた重要度を示す重要度情報を割り当てる割り当て手段と、
    前記複数の画素ブロックのそれぞれを圧縮する際、より高い重要度を示す重要度情報が割り当てられた画素ブロックは、より高い画質で復号されるように圧縮し、より低い重要度を示す重要度情報が割り当てられた画素ブロックは、より低い画質で復号されるように圧縮する手段と、
    圧縮されたそれぞれの画素ブロックと、前記音声データと、を出力する出力手段と
    を備えることを特徴とする画像処理装置。
  2. 前記割り当て手段は、前記複数の画素ブロックのそれぞれに対し、該画素ブロックについて求めた距離が小さいほど高い重要度を示す重要度情報を割り当てることを特徴とする請求項1に記載の画像処理装置。
  3. 前記計算手段は、
    前記音声データを用いて、前記3次元空間における複数の音源のそれぞれの3次元座標位置を求め、該音源の3次元座標位置と、前記仮想スクリーン上のそれぞれの画素ブロックの3次元座標位置と、の間の距離を求め、
    前記割り当て手段は、
    前記音源ごとに、前記複数の画素ブロックのそれぞれに対して該画素ブロックと該音源との間の距離の大小に応じた重要度を求める手段と、
    前記複数の画素ブロックのそれぞれに対し、該画素ブロックに対して求めた前記音源ごとの重要度の合計値を求め、該求めた合計値を示す情報を前記重要度情報として該画素ブロックに割り当てる手段と
    を備える
    ことを特徴とする請求項1又は2に記載の画像処理装置。
  4. 前記計算手段は、前記3次元空間における視聴者の位置と前記音源の位置との間の位置に仮想スクリーンを設定して該仮想スクリーン上に前記画像を配置した場合における該仮想スクリーン上のそれぞれの画素ブロックの前記3次元空間における3次元座標位置と、前記音源の3次元座標位置と、の間の距離を求めることを特徴とする請求項1乃至3の何れか1項に記載の画像処理装置。
  5. 前記出力手段は、前記音声データを圧縮してから出力することを特徴とする請求項1に記載の画像処理装置。
  6. 前記出力手段は、圧縮されたそれぞれの画素ブロックを、対応する重要度情報が示す重要度が高い順に並び替え、並び替えた画素ブロックの集合と、前記音声データと、を含むストリームを出力することを特徴とする請求項1に記載の画像処理装置。
  7. 画像処理装置が行う画像処理方法であって、
    前記画像処理装置の画像データ取得手段が、画像データを取得する工程と、
    前記画像処理装置の分割手段が、前記画像データが示す画像を複数の画素ブロックに分割する工程と、
    前記画像処理装置の音声データ取得手段が、複数チャネルを含む音声データを取得する工程と、
    前記画像処理装置の計算手段が、前記音声データを用いて音源の3次元空間における3次元座標位置を求め、該3次元空間中に仮想スクリーンを設定して該仮想スクリーン上に前記画像を配置した場合における該仮想スクリーン上のそれぞれの画素ブロックの前記3次元空間における3次元座標位置と、該求めた音源の3次元座標位置と、の間の距離を求める計算工程と、
    前記画像処理装置の割り当て手段が、前記複数の画素ブロックのそれぞれに対し、該画素ブロックについて求めた距離の大小に応じた重要度を示す重要度情報を割り当てる割り当て工程と、
    前記画像処理装置の圧縮手段が、前記複数の画素ブロックのそれぞれを圧縮する際、より高い重要度を示す重要度情報が割り当てられた画素ブロックは、より高い画質で復号されるように圧縮し、より低い重要度を示す重要度情報が割り当てられた画素ブロックは、より低い画質で復号されるように圧縮する工程と、
    前記画像処理装置の出力手段が、圧縮されたそれぞれの画素ブロックと、前記音声データと、を出力する出力工程と
    を備えることを特徴とする画像処理方法。
  8. コンピュータを、請求項1乃至6の何れか1項に記載の画像処理装置が有する各手段として機能させるためのコンピュータプログラム。
JP2009063228A 2009-03-16 2009-03-16 画像処理装置、画像処理方法 Active JP5210212B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009063228A JP5210212B2 (ja) 2009-03-16 2009-03-16 画像処理装置、画像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009063228A JP5210212B2 (ja) 2009-03-16 2009-03-16 画像処理装置、画像処理方法

Publications (3)

Publication Number Publication Date
JP2010219786A JP2010219786A (ja) 2010-09-30
JP2010219786A5 JP2010219786A5 (ja) 2012-04-26
JP5210212B2 true JP5210212B2 (ja) 2013-06-12

Family

ID=42978157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009063228A Active JP5210212B2 (ja) 2009-03-16 2009-03-16 画像処理装置、画像処理方法

Country Status (1)

Country Link
JP (1) JP5210212B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10121337B2 (en) * 2016-12-30 2018-11-06 Axis Ab Gaze controlled bit rate
US11501532B2 (en) * 2019-04-25 2022-11-15 International Business Machines Corporation Audiovisual source separation and localization using generative adversarial networks
JP2023042323A (ja) * 2021-09-14 2023-03-27 株式会社Jvcケンウッド 利用者端末、データ処理方法、及びデータ処理プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06217276A (ja) * 1992-08-27 1994-08-05 Toshiba Corp 動画像符号化装置

Also Published As

Publication number Publication date
JP2010219786A (ja) 2010-09-30

Similar Documents

Publication Publication Date Title
US11343186B2 (en) Apparatus, systems and methods for packet based transmission of multiple data signals
JP7174810B2 (ja) 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
JP2019036987A (ja) スクリーン関連オーディオオブジェクトリマッピングのための装置および方法
JP5340296B2 (ja) 復号化装置、符号化復号化装置および復号化方法
KR102429841B1 (ko) 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
JP4568363B2 (ja) オーディオ信号デコーディング方法及びその装置
KR102201961B1 (ko) 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
JP5210212B2 (ja) 画像処理装置、画像処理方法
EP2732622B1 (en) Multipoint connection apparatus and communication system
JP5308376B2 (ja) 音信号擬似定位システム、方法、音信号擬似定位復号装置及びプログラム
US7292709B2 (en) System for transmitting patient information
JP2013192139A (ja) 多地点ビデオ会議システム及び画面配置割当て方法
JP2001069502A (ja) 映像送信端末、及び映像受信端末
JP2010219786A5 (ja)
JP6807527B2 (ja) 番組分割装置及び番組分割方法
JP2009089156A (ja) 配信システムおよび配信方法
JP2007124253A (ja) 情報処理装置および制御方法
JP6468739B2 (ja) 映像音声信号送信装置及び方法
US20220246158A1 (en) Apparatus and method for processing audio
WO2022242483A1 (zh) 三维音频信号编码方法、装置和编码器
JP5866575B1 (ja) 音声信号の線形予測装置、音声信号の線形予測方法
KR101016199B1 (ko) 복수의 참조프레임을 이용하여 중간 영상을 생성하는 장치 및 그 방법
JP2022067849A (ja) 映像符号化装置及びプログラム
CN117676071A (zh) 音视频增强方法、装置、计算机设备和存储介质
WO2024083520A1 (en) Parametric spatial audio encoding

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120308

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121102

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160301

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5210212

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160301

Year of fee payment: 3