JP2011139261A

JP2011139261A - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: JP2011139261A
Application number: JP2009297546A
Authority: JP
Inventors: Toshiya Hamada; 俊也浜田; Tatsumi Sakaguchi; 竜己坂口; Naohisa Kitazato; 直久北里; Mitsuru Katsumata; 充勝股; Hiroyuki Suzuki; 博之鈴木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-12-28
Filing date: 2009-12-28
Publication date: 2011-07-14
Also published as: US8922622B2; US20110157307A1; CN102111631B; CN102111631A

Abstract

【課題】３Ｄの字幕等の副画像をより効果的に表示させる。
【解決手段】ビデオデコーダ１１は、３Ｄ表示用の主画像のビデオデータをデコードする。オーディオデコーダ１５は、３Ｄの主画像のビデオデータに対応する音声データに基づいて、音声データに対応する音声の音量を表す情報である音量情報を計測する。字幕デコーダ１２は、音量情報に基づいて、３Ｄの主画像に合成される３Ｄの字幕画像の表示状態を変更する。本発明は、例えば、３Ｄ画像を合成する画像処理装置に適用することができる。
【選択図】図４

Description

本発明は、画像処理装置、画像処理方法、およびプログラムに関し、特に、３Ｄの字幕等の副画像をより効果的に表示させることができるようにした画像処理装置、画像処理方法、およびプログラムに関する。

映画等のコンテンツとしては２Ｄ画像が主流であるが、最近では、３Ｄ画像が注目を集めている。

３Ｄコンテンツを再生する再生装置としては、３Ｄの映画等の主画像に３Ｄの字幕画像を合成して表示する装置がある。なお、ここでは、字幕画像は、１画面に表示される全字幕を含む矩形領域の画像であるものとする。

このような再生装置は、左目用の主画像に左目用の字幕画像を合成して左目用の画面に表示し、右目用の主画像に右目用の字幕画像を合成して右目用の画面に表示する。

具体的には、左目用の字幕画像の画像データとその字幕画像の左上の画面上のxy座標における表示位置（Lx,Ly）からなる左目用字幕データ、および、右目用の字幕画像の画像データとその字幕画像の左上の画面上のxy座標における表示位置（Rx,Ry）からなる右目用字幕データが入力される場合、再生装置は、図１に示すように、左目用字幕データに基づいて表示位置（Lx,Ly）に左目用の字幕画像が配置された画面の画像データである左目用字幕プレーンを生成するとともに、右目用字幕データに基づいて表示位置（Rx,Ry）に右目用の字幕画像が配置された画面の画像データである右目用字幕プレーンを生成する。

そして、再生装置は、図１に示すように、左目用の主画像の画面の画像データである左目用ビデオプレーンに左目用字幕プレーンを重畳して、左目用の画面の画像データである左目用プレーンを生成する。また、再生装置は、図１に示すように、右目用の主画像の画面の画像データである右目用ビデオプレーンに右目用字幕プレーンを重畳し、右目用の画面の画像データである右目用プレーンを生成する。

一方、２Ｄ表示用の字幕画像の画像データとその字幕画像の左上の画面上のxy座標における表示位置（x,y）からなる２Ｄ表示用字幕データが入力される場合、再生装置は、図２に示すように、まず、その表示位置（x,y）をｘ座標の正の方向にオフセット量offsetだけずらした位置(x+offset,y)に２Ｄ表示用の字幕画像の左上が配置される画面の画像データを左目用字幕プレーンとして生成する。そして、再生装置は、左目用ビデオプレーンに左目用字幕プレーンを重畳し、左目用プレーンを生成する。

また、再生装置は、表示位置(x,y)をｘ座標の負の方向にオフセット量offsetだけずらした位置(x-offset,y)に字幕画像の左上が配置される画面の画像データを右目用字幕プレーンとして生成する。そして、再生装置は、右目用ビデオプレーンに右目用字幕プレーンを重畳し、右目用プレーンを生成する。

なお、図１および図２の左目用字幕プレーンに対応する画面および右目用字幕プレーンに対応する画面において、字幕画像が配置されない領域は、透明の画像となっており、左目用プレーンおよび右目用プレーンに対応する画面の、その領域には主画像が配置される。

以上のようにして左目用プレーンおよび右目用プレーンが生成されると、左目用プレーンに基づいて左目用の画面が表示デバイスに表示され、ユーザの左目に見せられるとともに、右目用プレーンに基づいて右目用の画面が表示デバイスに表示され、ユーザの右目に見せられる。これにより、ユーザは、３Ｄの字幕が合成された３Ｄの主画像を見ることができる。

例えば、図３Ａに示すように、左目用の字幕画像がオフセット量offsetだけ右方向にずらされ、右目用の字幕画像がオフセット量offsetだけ左方向にずらされている場合には、焦点位置が表示デバイス面より手前側（ユーザ側）になり、字幕画像が飛び出て見える。

一方、図３Ｂに示すように、左目用の字幕画像がオフセット量offsetだけ左方向にずらされ、右目用の字幕画像がオフセット量offsetだけ右方向にずらされている場合には、焦点位置が表示デバイス面より奥側になり、字幕画像が引っ込んで見える。なお、図３は、表示デバイスに表示された画像を見ているユーザを頭上から見た図である。

３Ｄコンテンツを再生する再生装置としては、３Ｄの主画像に対してテロップを合成して表示する装置もある（例えば、特許文献１参照）。

特開平１０−３２７４３０号公報

上述したような再生装置において、字幕の色、透明度、画面に垂直な方向である奥行き方向の位置等の字幕画像の表示状態は、その字幕画像が合成される主画像に対応する音声の大きさや変化に応じて変化されなかった。

従って、主画像に対応する音声の大きさや変化に応じて、その主画像に合成される字幕画像の表示状態を変化させることにより、字幕をより効果的に表示させたいという要望がある。

本発明は、このような状況に鑑みてなされたものであり、３Ｄの字幕等の副画像をより効果的に表示させることができるようにするものである。

本発明の一側面の画像処理装置は、３Ｄの主画像の画像データに対応する音声データに基づいて、前記音声データに対応する音声の音量を表す情報である音量情報を計測する計測手段と、前記音量情報に基づいて、前記３Ｄの主画像に合成される３Ｄの副画像の表示状態を変更する変更手段とを備える画像処理装置である。

本発明の一側面の画像処理方法およびプログラムは、本発明の一側面の画像処理装置に対応する。

本発明の一側面においては、３Ｄの主画像の画像データに対応する音声データに基づいて、前記音声データに対応する音声の音量を表す情報である音量情報が計測され、前記音量情報に基づいて、前記３Ｄの主画像に合成される３Ｄの副画像の表示状態が変更される。

本発明の一側面の画像処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

本発明の一側面によれば、３Ｄの字幕等の副画像をより効果的に表示させることができる。

左目用プレーンと右目用プレーンの生成方法について説明する図である。左目用プレーンと右目用プレーンの他の生成方法について説明する図である。３Ｄの字幕画像の見え方を説明する図である。本発明を適用した画像処理装置の第１実施の形態の構成例を示すブロック図である。図４の画像処理装置による字幕変換処理を説明するフローチャートである。本発明を適用した画像処理装置の第２実施の形態の構成例を示すブロック図である。図６の画像処理装置による字幕変換処理を説明するフローチャートである。コンピュータの一実施の形態の構成例を示す図である。

＜第１実施の形態＞
［画像処理装置の第１実施の形態の構成例］
図４は、本発明を適用した画像処理装置の第１実施の形態の構成例を示すブロック図である。

図４の画像処理装置１０は、ビデオデコーダ１１、字幕デコーダ１２、重畳部１３、表示部１４、オーディオデコーダ１５、およびスピーカ１６により構成される。

画像処理装置１０には、ＢＤ（Blu-Ray（登録商標） Disc ）などの記録媒体から読み出されたり、ネットワークなどを介して外部の装置から受信された３Ｄ表示用の主画像のビデオデータ、３Ｄ表示用の字幕データ、および音声データが３Ｄコンテンツデータとして入力される。画像処理装置１０は、この３Ｄコンテンツデータを用いて、字幕画像が合成された主画像の３Ｄ表示を行うとともに、その主画像に対応する音声を出力する。

具体的には、画像処理装置１０のビデオデコーダ１１は、入力された３Ｄ表示用の主画像のビデオデータをデコードし、その結果得られる左目用ビデオプレーンと右目用ビデオプレーンを重畳部１３に供給する。

字幕デコーダ１２は、入力された３Ｄ表示用の字幕データに対してデコード処理を行う。なお、３Ｄ表示用の字幕データは、右目用の字幕データと左目用の字幕データにより構成され、各目用の字幕データは、各目用の字幕画像の各画素の画素値からなる画像データ（例えば、ビットマップ画像データなど）、各目用の字幕画像の画面上の表示位置、各目用の字幕画像の主画像との合成比率を表すアルファブレンド量等により構成される。

なお、各目用の字幕データには、各目用の字幕画像の画像データではなく、各目用の字幕の文字コードを記述した文字列とパレット番号などの色情報が含まれるようにしてもよい。この場合、字幕デコーダ１２では、各目用の文字列および色情報から各目用の字幕画像の画像データを生成する処理も行われる。

字幕デコーダ１２は、オーディオデコーダ１５から供給される、入力された音声データに対応する音声の音量を表す情報である音量情報に基づいて、デコード処理の結果得られる３Ｄ表示用の字幕データを変更する。そして、字幕デコーダ１２は、その結果得られる３Ｄ表示用の字幕データに基づいて、左目用字幕プレーンと右目用字幕プレーンを生成し、重畳部１３に供給する。また、字幕デコーダ１２は、左目用の字幕データに含まれる左目用のアルファブレンド量と右目用の字幕データに含まれる右目用のアルファブレンド量を重畳部１３に供給する。

重畳部１３は、ビデオデコーダ１１からの左目用ビデオプレーンに字幕デコーダ１２からの左目用字幕プレーンを左目用のアルファブレンド量で重畳し、左目用プレーンを生成する。また、重畳部１３は、ビデオデコーダ１１からの右目用ビデオプレーンに字幕デコーダ１２からの右目用字幕プレーンを右目用のアルファブレンド量で重畳し、右目用プレーンを生成する。そして、重畳部１３は、左目用プレーンと右目用プレーンを表示部１４に供給する。

表示部１４は、例えば、重畳部１３から供給される左目用プレーンと右目用プレーンに基づいて、左目用の画面と右目用の画面を時分割で表示する。このとき、ユーザは、例えば、左目用の画面と右目用の画面の切り替えに同期したシャッタ付き眼鏡を装着し、左目用の画面を左目だけで見て、右目用の画面を右目だけで見る。これにより、ユーザは、３Ｄの字幕が合成された３Ｄの主画像を見ることができる。

オーディオデコーダ１５は、入力された音声データに対してデコード処理を行い、その結果得られる音声データのビット数を音量情報として字幕デコーダ１２に供給する。また、オーディオデコーダ１５は、デコード処理の結果得られる音声データをスピーカ１６に供給する。

スピーカ１６は、オーディオデコーダ１５から供給される音声データに対応する音声を出力する。これにより、ユーザは、表示部１４に表示されている画像に対応する音声を聴くことができる。

［画像処理装置の処理の説明］
図５は、図４の画像処理装置１０による字幕変換処理を説明するフローチャートである。この字幕変換処理は、例えば、３Ｄコンテンツデータが画像処理装置１０に入力されたとき開始される。

ステップＳ１１において、オーディオデコーダ１５は、入力された音声データに対してデコード処理を行い、その結果得られる音声データのビット数を音量情報Ｖとして計測し、その音量情報Ｖを字幕デコーダ１２に供給する。

ステップＳ１２において、字幕デコーダ１２は、オーディオデコーダ１５から供給される音量情報Ｖが、閾値Ｖｔｈより大きいかどうかを判定する。この閾値Ｖｔｈは、例えば、字幕データに含まれており、字幕デコーダ１２は、３Ｄ表示用の字幕データに対してデコード処理を行い、その結果得られる左目用の字幕データまたは右目用の字幕データから閾値Ｖｔｈを取得する。

ステップＳ１２で音量情報Ｖが閾値Ｖｔｈより大きいと判定された場合、処理はステップＳ１３に進む。ステップＳ１３において、字幕デコーダ１２は、デコード処理の結果得られる左目用の字幕データと右目用の字幕データに含まれる字幕画像の画像データのうちの字幕の画像データを赤色の画像データに変更する。具体的には、字幕デコーダ１２は、字幕の画像データとしてのパレット番号、RGB値、YCbCr値、またはYPbPr値を赤色の値に変更する。なお、表示可能な色の数が256色である場合、パレット番号は８ビットの値である。また、RGB値、YCbCr値、およびYPbPr値は、例えば、２４（＝８×３）ビットの値である。

このように、ステップＳ１３では字幕の色が赤色に変更されるので、字幕の視覚的な印象が強くなる。

ステップＳ１４において、字幕デコーダ１２は、デコード処理の結果得られる左目用の字幕データと右目用の字幕データに含まれるアルファブレンド量を大きくする。

なお、アルファブレンド量は０以上１以下の値をとるものであり、アルファブレンド量が大きいほど透明度が低く、アルファブレンド量が小さいほど透明度が高い。例えば、アルファブレンド量が１である場合、そのアルファブレンド量に対応する画像データは完全不透過で合成される。また、アルファブレンド量が０である場合、そのアルファブレンド量に対応する画像データは完全透明で合成される。

従って、ステップＳ１４の処理の結果、左目用字幕プレーンおよび右目用字幕プレーンの透明度は低くなる。これにより、字幕が主画像に対して明瞭に見えるようになり、視覚的な印象が強くなる。

ステップＳ１５において、字幕デコーダ１２は、デコード処理の結果得られる左目用の字幕データに含まれる表示位置（Lx,Ly）を、音量情報Ｖに対応するシフト量shiftだけ水平方向にずらして表示位置（Lx+shift,Ly）とし、右目用の字幕データに含まれる表示位置（Rx,Ry）をシフト量-shiftだけ水平方向にずらして表示位置（Rx-shift,Ry）とする。即ち、字幕デコーダ１２は、左目用の字幕画像の表示位置と右目用の字幕画像の表示位置をより引き離す。これにより、ユーザは、よりユーザ側に飛び出た３Ｄの字幕を見ることができる。ステップＳ１５の処理後、処理はステップＳ１６に進む。

一方、ステップＳ１１で音量情報Ｖが閾値Ｖｔｈより大きくはないと判定された場合、処理はステップＳ１６に進む。即ち、この場合、ステップＳ１３乃至Ｓ１５の処理は行われず、デコード処理の結果得られる左目用の字幕データと右目用の字幕データは変更されない。

ステップＳ１６において、字幕デコーダ１２は、ステップＳ１３乃至Ｓ１５で変更された左目用の字幕データ、または、デコード処理の結果得られる字幕データに基づいて左目用字幕プレーンを生成するとともに、ステップＳ１３乃至Ｓ１５で変更された右目用の字幕データ、または、デコード処理の結果得られる字幕データに基づいて右目用字幕プレーンを生成する。

ステップＳ１７において、オーディオデコーダ１５は、３Ｄコンテンツデータの入力が終了したかどうか、例えば、音声データが入力されなくなったかどうかを判定する。ステップＳ１７で３Ｄコンテンツデータの入力が終了していないと判定された場合、処理はステップＳ１１に戻り、以降の処理が行われる。

一方、ステップＳ１７で３Ｄコンテンツデータの入力が終了したと判定された場合、処理は終了する。

以上のように図５の字幕変換処理が行われることにより、音声の音量が大きい場合に、その音声と同時に表示される字幕がより透明度の低い赤色に変更され、ユーザ側に飛び出して表示される。即ち、音声の音量が大きくなると、字幕が強調して表示される。従って、ユーザは、音量の変化をより楽しむことができる。よって、画像処理装置１０では、３Ｄの字幕をより効果的に表示させることができるといえる。

＜第２実施の形態＞
［画像処理装置の第２実施の形態の構成例］
図６は、本発明を適用した画像処理装置の第２実施の形態の構成例を示すブロック図である。

図６に示す構成のうち、図４の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図６の画像処理装置５０の構成は、主に、字幕デコーダ１２の代わりに字幕デコーダ５１が設けられている点、および、新たにバッファ５２および３Ｄ字幕生成部５３が設けられている点が図４の構成と異なる。

図６の画像処理装置５０には、３Ｄ表示用の字幕データではなく、オフセット量offset並びに左目用および右目用のオフセット方向がオフセット情報として付加された２Ｄ表示用の字幕データが入力される。なお、オフセット方向とは、水平方向（左右方向）の一方向であり、左目用のオフセット方向と、右目用のオフセット方向は反対の方向である。また、２Ｄ表示用の字幕データは、２Ｄ表示用の字幕画像の画像データ、２Ｄ表示用の字幕画像の画面上の表示位置、２Ｄ表示用の字幕画像のアルファブレンド量等により構成される。

字幕デコーダ５１は、入力された２Ｄ表示用の字幕データに対してデコード処理を行う。字幕デコーダ５１は、オーディオデコーダ１５から供給される音量情報に基づいて、デコード処理の結果得られる２Ｄ表示用の字幕データ、および、その２Ｄ表示用の字幕データに付加されているオフセット情報を変更する。そして、字幕デコーダ５１は、変更後の２Ｄ表示用の字幕データとオフセット情報を対応付けてバッファ５２に供給する。バッファ５２は、字幕デコーダ５１から供給される２Ｄ表示用の字幕データとオフセット情報を対応付けて一時的に保持する。

３Ｄ字幕生成部５３は、バッファ５２から２Ｄ表示用の字幕データとオフセット情報を読み出す。３Ｄ字幕生成部５３は、読み出された２Ｄ表示用の字幕データに含まれる表示位置を、オフセット情報に含まれる左目用のオフセット方向と右目用のオフセット方向にそれぞれオフセット量だけずらす。３Ｄ字幕生成部５３は、その結果得られる表示位置に２Ｄ表示用の字幕画像を配置した画面の画像データを、左目用字幕プレーンおよび右目用字幕プレーンとして生成する。そして、３Ｄ字幕生成部５３は、左目用字幕プレーンと右目用字幕プレーンを重畳部１３に供給する。また、３Ｄ字幕生成部５３は、２Ｄ表示用の字幕データに含まれるアルファブレンド量を、左目用および右目用のアルファブレンド量として重畳部１３に供給する。

以上のように、画像処理装置５０は、２Ｄ表示用の字幕データを用いて字幕の３Ｄ表示を行うので、字幕の３Ｄ表示に対応していない従来の装置と互換性がある。

なお、画像処理装置５０においてバッファ５２は設けられなくてもよい。

［画像処理装置の処理の説明］
図７は、図６の画像処理装置５０による字幕変換処理を説明するフローチャートである。この字幕変換処理は、例えば、３Ｄコンテンツデータが画像処理装置５０に入力されたとき開始される。

図７のステップＳ３１およびＳ３２の処理は、図５のステップＳ１１およびＳ１２の処理と同様であるので、説明は省略する。

ステップＳ３２で音量情報Ｖが閾値Ｖｔｈより大きいと判定された場合、ステップＳ３３において、字幕デコーダ５１は、デコード処理の結果得られる２Ｄ表示用の字幕データに含まれる字幕画像の画像データのうちの字幕の画像データを赤色の画像データに変更する。

ステップＳ３４において、字幕デコーダ５１は、デコード処理の結果得られる２Ｄ表示用の字幕データに含まれるアルファブレンド量を大きくする。

ステップＳ３５において、字幕デコーダ５１は、２Ｄ表示用の字幕データに付加されているオフセット情報に含まれるオフセット量offsetを、音量情報Ｖに対応するシフト量shiftだけ加算してオフセット量offset+shiftにする。即ち、字幕デコーダ５１は、左目用の字幕画像の表示位置と右目用の字幕画像の表示位置をシフト量shiftだけ各目用のオフセット方向にずらす。そして、字幕デコーダ５１は、ステップＳ３３およびＳ３４で変更された２Ｄ表示用の字幕データとオフセット量offsetがオフセット量offset+shiftに変更されたオフセット情報をバッファ５２に供給して、保持させる。

ステップＳ３６において、３Ｄ字幕生成部５３は、バッファ５２から２Ｄ表示用の字幕データとオフセット情報を読み出し、その２Ｄ表示用の字幕データに含まれる表示位置(x,y)を、オフセット情報に含まれるオフセット量offset+shiftだけオフセット方向にずらした表示位置（x+(offset+shift),y）に字幕画像を配置した画面の画像データを、左目用字幕プレーンとして生成する。

また、３Ｄ字幕生成部５３は、表示位置(x,y)をオフセット情報に含まれるオフセット量offset+shiftだけオフセット方向にずらした表示位置（x-(offset+shift),y）に字幕画像を配置した画面の画像データを、右目用字幕プレーンとして生成する。そして、３Ｄ字幕生成部５３は、左目用字幕プレーンと右目用字幕プレーンを重畳部１３に供給するとともに、２Ｄ表示用の字幕データに含まれ、ステップＳ３４で変更されたアルファブレンド量を左目用および右目用のアルファブレンド量として重畳部１３に供給する。

一方、ステップＳ３２で音量情報Ｖが閾値Ｖｔｈより大きくはないと判定された場合、ステップＳ３７において、３Ｄ字幕生成部５３は、バッファ５２から２Ｄ表示用の字幕データとオフセット情報を読み出し、その２Ｄ表示用の字幕データに含まれる表示位置(x,y)を、オフセット情報に含まれるオフセット量offsetだけオフセット方向にずらした表示位置（x+offset,y）に字幕画像を配置した画面の画像データを、左目用字幕プレーンとして生成する。

また、３Ｄ字幕生成部５３は、表示位置(x,y)をオフセット情報に含まれるオフセット量offsetだけオフセット方向にずらした表示位置（x-offset,y）に字幕画像を配置した画面の画像データを、右目用字幕プレーンとして生成する。そして、３Ｄ字幕生成部５３は、左目用字幕プレーンと右目用字幕プレーンを重畳部１３に供給するとともに、２Ｄ表示用の字幕データに含まれるアルファブレンド量を左目用および右目用のアルファブレンド量として重畳部１３に供給する。

ステップＳ３６の処理後、または、ステップＳ３２で音量情報Ｖが閾値Ｖｔｈより大きくはないと判定された場合、処理はステップＳ３７に進む。ステップＳ３７の処理は、図５のステップＳ１７の処理と同様であるので説明は省略する。

以上のように図７の字幕変換処理が行われることにより、音声の音量が大きい場合に、その音声と同時に表示される字幕がより透明度の低い赤色に変更され、ユーザ側に飛び出して表示される。即ち、音声の音量が大きくなると、字幕が強調して表示される。従って、ユーザは、音量の変化をより楽しむことができる。よって、画像処理装置５０では、３Ｄの字幕をより効果的に表示させることができるといえる。

なお、上述した図５や図７の字幕変換処理では、音声の音量が大きい場合に、字幕の色、透明度、および奥行き方向の位置の全てが変更されたが、そのうちの少なくとも１つが変更されるようにしてもよい。また、変更後の字幕の色、透明度、および奥行き方向の位置は、上述したものに限定されない。

さらに、音声の音量が大きい場合に変更されるものは、字幕画像の表示状態であれば、字幕の色、透明度、および奥行き方向の位置に限定されない。例えば、音声の音量が大きい場合に、３Ｄの字幕の水平方向の位置が変更されるようにしてもよい。

また、上述した図５や図７の字幕変換処理では、音量情報Ｖの閾値が１つだけ設けられたが、複数設けられるようにしてもよい。この場合、音量情報Ｖの大きさに応じて変更後の字幕の色や透明度の変更度合いを変えることができる。例えば、音量情報Ｖの大きさに応じての変更後の字幕の色や透明度を段階的に変更することができる。なお、シフト量shiftは、音量情報Ｖに応じて設定されず、常に一定量であってもよい。

さらに、上述した説明では、音量情報Ｖの大きさに応じて字幕画像の表示状態が変更されたが、音量情報Ｖの大きさの変化に応じて字幕画像の表示状態が変更されるようにしてもよい。例えば、音量が極端に大きくなったり小さくなったりした場合に、字幕画像の表示状態が変更されるようにしてもよい。

また、字幕画像は、１画面に表示される全字幕を含む矩形領域の画像ではなく、1文字単位の字幕の画像であってもよい。

さらに、上述した説明では、オフセット情報は、２Ｄ表示用の字幕データに付加されて供給されるようにしたが、画像処理装置１０（５０）内の図示せぬ記憶部に予め記憶されているようにしてもよい。この場合、３Ｄの字幕の奥行き方向の位置は常に一定になる。

本発明は、主画像に字幕画像を合成する場合だけでなく、主画像に字幕画像以外の副画像（例えば、メニュー画像）を合成する場合にも適用できる。

[本発明を適用したコンピュータの説明]
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図８は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としての記憶部２０８やROM（Read Only Memory）２０２に予め記録しておくことができる。

あるいはまた、プログラムは、リムーバブルメディア２１１に格納（記録）しておくことができる。このようなリムーバブルメディア２１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブルメディア２１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブルメディア２１１からドライブ２１０を介してコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵する記憶部２０８にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)２０１を内蔵しており、CPU２０１には、バス２０４を介して、入出力インタフェース２０５が接続されている。

CPU２０１は、入出力インタフェース２０５を介して、ユーザによって、入力部２０６が操作等されることにより指令が入力されると、それに従って、ROM２０２に格納されているプログラムを実行する。あるいは、CPU２０１は、記憶部２０８に格納されたプログラムを、RAM(Random Access Memory)２０３にロードして実行する。

これにより、CPU２０１は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU２０１は、その処理結果を、必要に応じて、例えば、入出力インタフェース２０５を介して、出力部２０７から出力、あるいは、通信部２０９から送信、さらには、記憶部２０８に記録等させる。

なお、入力部２０６は、キーボードや、マウス、マイク等で構成される。また、出力部２０７は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

さらに、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１０画像処理装置，１２字幕デコーダ, １５オーディオデコーダ, ５０画像処理装置，５１字幕デコーダ

Claims

３Ｄの主画像の画像データに対応する音声データに基づいて、前記音声データに対応する音声の音量を表す情報である音量情報を計測する計測手段と、
前記音量情報に基づいて、前記３Ｄの主画像に合成される３Ｄの副画像の表示状態を変更する変更手段と
を備える画像処理装置。
前記変更手段は、前記音量情報に基づいて、前記３Ｄの副画像を構成する左目用の副画像と右目用の副画像の画面上の表示位置を変更することにより、前記３Ｄの副画像の前記画面に垂直な方向である奥行き方向の位置を変更する
請求項１に記載の画像処理装置。
前記変更手段は、前記音量情報に基づいて前記３Ｄの副画像の色を変更する
請求項１に記載の画像処理装置。
前記変更手段は、前記音量情報に基づいて、前記３Ｄの副画像の画像データの前記３Ｄの主画像の画像データとの合成比率を表すアルファブレンド量を変更することにより、前記３Ｄの副画像の透明度を変更する
請求項１に記載の画像処理装置。
前記変更手段は、前記音量が所定の閾値より大きい場合、前記３Ｄの副画像の表示状態を変更する
請求項１に記載の画像処理装置。
画像処理装置が、
３Ｄの主画像の画像データに対応する音声データに基づいて、前記音声データに対応する音声の音量を表す情報である音量情報を計測する計測ステップと、
前記音量情報に基づいて、前記３Ｄの主画像に合成される３Ｄの副画像の表示状態を変更する変更ステップと
を含む画像処理方法。
コンピュータに、
３Ｄの主画像の画像データに対応する音声データに基づいて、前記音声データに対応する音声の音量を表す情報である音量情報を計測する計測ステップと、
前記音量情報に基づいて、前記３Ｄの主画像に合成される３Ｄの副画像の表示状態を変更する変更ステップと
を含む処理を実行させるためのプログラム。