JP2015073156A

JP2015073156A - 画像処理装置、情報処理装置、撮像装置、制御方法、及びプログラム

Info

Publication number: JP2015073156A
Application number: JP2013206807A
Authority: JP
Inventors: 成記望月; Shigeki Mochizuki
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-10-01
Filing date: 2013-10-01
Publication date: 2015-04-16

Abstract

【課題】再生装置において遷移効果を変更可能な動画像を生成する。
【解決手段】画像処理装置は、複数の画像を取得し、取得した複数の画像を順次切り替えながら進行する第１及び第２の動画像を含む１つの動画像であって、再生方式に応じて第１及び第２の動画像のいずれかを再生可能な１つの動画像を生成する。このとき、第２の動画像の再生において再生されるフレームには、第１の動画像のフレームが含まれる。
【選択図】図１

Description

本発明は、画像処理装置、情報処理装置、撮像装置、制御方法、及びプログラムに関し、特に階層符号化技術に関する。

デジタルカメラ等のデジタルデータとして撮像画像を記録する撮像装置の普及により、撮像した画像の管理はＰＣ等の情報処理装置で行われることが増えてきている。このような情報処理装置では、画像の閲覧を行う際に画像送り等の操作をユーザに課さずに自動で画像が切り替わりながら提示される、所謂スライドショーによる閲覧が従来可能である。

近年、スライドショーによる画像閲覧の際には、画像の切り替わりにディゾルブやフェードイン／アウト等の使用するトランジション（遷移効果）を設定してスライドショー再生することが可能である。遷移効果における遷移効果の選択は、装置による自動設定だけでなく、ユーザが任意に選択することも可能である。従って、ユーザはスライドショー再生する画像のシーンに合わせて好みの遷移効果を選択し、スライドショー再生することができる。

ところで、遷移効果の付加は画像閲覧をより魅力的あるいはより印象的にする効果をもたらす。故に、ユーザは閲覧対象の画像群に対して所望の背に効果設定を行ったスライドショーを、例えば他のユーザの使用するＰＣ等の他の情報処理装置においても再生可能とすることを望むことがある。しかしながら、スライドショーは通常１つの装置内でのみ使用されるものであるため、他の装置において同一の画像群に対してスライドショー再生を行ったとしても、所望の遷移効果設定が反映されたものとならないことがあった。特許文献１は、このような異なる装置の間でも同一の画像群に対して同様のスライドショー再生が行われるよう、２次元コードを用いて設定された遷移効果を他の装置に伝送する装置が開示されている。

特開２０１１−９９９９２号公報

しかしながら、特許文献１のような遷移効果の授受により複数の装置で同様のスライドショー再生を行う方法は、装置が遷移効果を反映したスライドショー再生を行えることが前提となっている。遷移効果は、上述したディゾルブやフェードイン／アウトのような簡素なものだけでなく、３次元効果のような、その生成に一定の演算能力やハードウェアを必要とするものも含まれる。従って、複数の装置が同一のハードウェア構成や演算能力を有さない場合、遷移効果の授受だけでは装置間で同様のスライドショー再生を行えない可能性がある。

一方、符号化された動画像データは、符号化に係るコーデックさえ有する装置であれば、通常再生することができる。つまり、スライドショーを動画像データとして記録することで同一のスライドショーを様々な装置において再生可能とすることができる。しかしながら、スライドショーを動画像として構成する場合、通常、遷移効果は作成した段階で決定した１種類に限定されてしまうため、再生を行う装置において異なる遷移効果が付加されたスライドショーとして再生することはできなかった。

本発明は、上述の問題点に鑑みてなされたものであり、再生装置において遷移効果を変更可能な動画像を生成可能な画像処理装置、情報処理装置、撮像装置、制御方法、及びプログラムを提供することを目的とする。

前述の目的を達成するために、本発明の画像処理装置は、以下の構成を備えることを特徴とする。具体的には画像処理装置は、複数の画像を取得する取得手段と、取得手段により取得された複数の画像を互いに異なる遷移方式で順次切り替えながら進行する第１及び第２の動画像を含む１つの動画像であって、再生方式に応じて第１及び第２の動画像のいずれかを再生可能な１つの動画像を生成する生成手段と、を有し、第２の動画像の再生において再生されるフレームには、第１の動画像のフレームが含まれることを特徴とする。

このような構成により本発明によれば、再生装置において遷移効果を変更可能な動画像を生成することが可能となる。

本発明の実施形態に係るエンコーダ１００の機能構成を示したブロック図本発明の実施形態に係る動画像化処理部１０１において生成されるベース画像及びトランジション画像を説明するための図本発明の実施形態に係る予測方法決定部１０２において実行される予測方法決定処理を例示したフローチャート本発明の実施形態に係るエンコーダ１００で生成される符号化動画像の階層配置及びフレーム間の参照関係を示した図本発明の実施形態に係るエンコーダ１００で生成される符号化動画像の再生を例示した図本発明の実施形態に係るエンコーダ１００で生成される符号化動画像のデータ構成を例示した図本発明の変形例に係るエンコーダ１００の機能構成を示したブロック図本発明の変形例に係る再生補助情報のシンタクス定義を例示した図本発明の変形例に係る再生補助情報により定義される保持する画面領域を例示した図本発明の変形例に係るエンコーダ１００で生成される符号化動画像の再生を例示した図

［実施形態］
以下、本発明の例示的な実施形態について、図面を参照して詳細に説明する。なお、以下に説明する一実施形態は、画像処理装置の一例としての、階層符号化した符号化動画像を生成可能なエンコーダに、本発明を適用した例を説明する。しかし、本発明は、ＰＣやデジタルカメラ等、階層符号化した符号化動画像を生成することが可能な任意の機器に適用可能である。

《エンコーダ１００の構成》
図１は、本発明の実施形態に係るエンコーダ１００の機能構成を示したブロック図である。本実施形態ではエンコーダ１００は、例えばＰＣ等の情報処理装置に外部ハードウェアとして接続される、動画像の符号化に係る処理のみを行う装置として説明する。エンコーダ１００は、入力としてスライドショーの生成に係る静止画像（対象画像群）を順次受信し、スライドショーに係る１つの符号化動画像を生成し、出力する。

なお、図１に示されるエンコーダ１００が有する各ブロックは、不図示の制御部により制御されるものとする。具体的には制御部は、同じく不図示のＲＯＭに記憶された制御プログラムをＲＡＭに展開して実行することにより、各ブロックの動作を制御する。本実施形態ではエンコーダ１００は、Ｈ．２６５（ITU‐T Rec. H.265）方式で符号化を行いスライドショーに係る動画像を生成するものとして説明する。しかしながら、本発明の実施はこれに限られるものではなく、特に時間方向の階層符号化方式を採用する符号化方式（例えばＨ．２６４ＳＶＣ）が使用されてよい。

動画像化処理部１０１は、入力された複数の静止画像（以下、単に画像）を用いてスライドショーに係る動画像（スライドショー動画像）のフレームを生成する。スライドショー動画像では入力された複数の画像が順次切り替わりながら進行するように各フレームが構成されている。動画像化処理部１０１は、入力された複数の画像から、複数の画像の切り替えに係る遷移方式（トランジション）が異なる２種類のスライドショー動画像のフレームを生成する。

本実施形態では簡単のため、動画像化処理部１０１は２種類のスライドショー動画像を生成するものとして説明するが、動画像化処理部１０１において生成されるスライドショー動画像は遷移方式が異なっていれば３種類以上生成されてもよい。また簡単のため２種類のスライドショー動画像にはそれぞれ、スライドイン／アウトやフェードイン／アウト等の特殊な遷移効果が付加される遷移方式と、単に画像が連続するフレーム間で特殊な遷移効果なく切り替わる遷移方式が採用されるものとする。また遷移方式が異なるスライドショー動画像とは、切り替えが発生する同一の画像ペアに対して付加される遷移効果が異なっていればよい。即ち、スライドショー動画像に含まれる遷移効果が１種類に制限される必要はなく、同一の遷移効果が含まれていたとしても、複数の画像の切り替えにおいていずれかの遷移効果が異なっていれば２つのスライドショー動画像は遷移方式が異なる動画像に相当する。

また本実施形態ではスライドショー動画像のフレームは、図２に示されるような入力された画像そのもの（ベース画像）、あるいは入力された２つのベース画像間を遷移している経過を示すトランジション画像のいずれかで構成されるものとして説明する。即ち、本実施形態で動画像化処理部１０１が生成するスライドショー動画像は、全フレームがベース画像で構成される特殊な遷移効果を含まない動画像と、ベース画像及びトランジション画像で構成される特殊な遷移効果を含む動画像の２種類である。これらの動画像は最終的に後述する多重化処理部１０９において１つの符号化動画像に統合されるため、データ量の削減を考慮して後者の動画像はベース画像そのもので構成されるフレームを含まずに構成されてよい。なお、本発明の実施はこれに限られるものではなく、フレーム内に複数の画像（ベース画像またはトランジション画像）が配置される、フレームにおいて背景画像の一部の領域に画像が重畳される等でフレームは構成されてよい。またさらに動画像化処理部１０１は、フレームの生成において所定のフォントデータやアイコンデータ、あるいは音声データを多重化させてもよい。

動画像化処理部１０１は、このようにして生成したスライドショー動画像のフレーム、即ちベース画像とトランジション画像とを、各々を識別する識別情報を関連付けて予測方法決定部１０２及び予測符号化処理部１０３に出力する。

予測方法決定部１０２は、入力されたベース画像及びトランジション画像に基づいて、符号化対象であるこれらの画像内に設定されたブロックごとに、符号化において使用する予測方法を決定し、予測符号化用パラメータに含めて出力する。予測方法の決定において予測方法決定部１０２は、メモリ１０４から読み出した先行して符号化されたフレームの復号画像あるいは入力された他の画像を用いて、簡易的な画面内予測あるいは動き検出を含む画面間予測処理を行い符号化効率を示す評価値を算出する。そして予測方法決定部１０２は、該評価値に基づき、符号化効率を最適とする予測方式を決定する。なお、これらの符号化効率に応じた予測方法の決定は、符号化を行う対象画像（フレーム）がＰスライスまたはＢスライスである場合の処理である。このとき予測方法決定部１０２は、画面内予測を行う場合は画面内予測画素ブロックサイズ及び画面内予測モード等の画面内予測符号化用パラメータを決定して予測符号化処理部１０３に出力する。また画面間予測を行う場合には、参照画像フレーム、画素ブロック分割パターン、動きベクトル等の画面間予測符号化用パラメータを決定して予測符号化処理部１０３に出力する。なお、符号化を行う対象画像がＩスライスである場合は、予測方法決定部１０２は画面内予測画素ブロックサイズ及び予測モードを決定し、予測符号化処理部１０３に出力する。

〈予測方法決定処理〉
ここで、本実施形態の予測方法決定部１０２で実行される予測方法決定処理について、図３のフローチャートを用いてその詳細を説明する。

Ｓ３０１で、予測方法決定部１０２は、予測方法を決定する対象である対象画像がベース画像であるか否かを判断する。具体的には予測方法決定部１０２は、対象画像に関連付けられた識別情報を参照し、本ステップの判断を行う。予測方法決定部１０２は、対象画像がベース画像であると判断した場合は処理をＳ３０２に移し、ベース画像ではない、即ちトランジション画像であると判断した場合は処理をＳ３０３に移す。

Ｓ３０２で、予測方法決定部１０２は、予測方法の決定に参照する画像（参照画像）として、メモリ１０４に記憶されたベース画像に対応する復号画像の中から、対応する画像を設定する。

一方、対象画像がトランジション画像である場合は、予測方法決定部１０２はＳ３０３で、予測方法の決定に参照画像を設定する。具体的には予測方法決定部１０２は、メモリ１０４に格納されたベース画像及びトランジション画像の復号画像のうちの対応する画像、あるいは入力された対象画像以外の画像のうちの対応する画像を、参照画像として設定する。

本実施形態では、図４に示されるようにベース画像はベース画像のみ、トランジション画像はベース画像あるいはトランジション画像を用いて復号が可能なように、符号化で参照される参照画像が制御される。このようにして生成された各スライドショー動画像のフレームを各々異なる階層に符号化することで、ベース画像のみで構成された動画像は、符号化動画像から他の階層に符号化されたトランジション画像を参照することなく再生することが可能となる。この場合、ベース画像のみで構成された動画像が下位の階層に符号化され、トランジション画像のみで構成された動画像が上位の階層に符号化されていることが前提となる。

Ｓ３０４で、予測方法決定部１０２は、Ｓ３０２またはＳ３０３において設定された参照画像と対応画像とを用いて予測方法を決定する。このとき、予測方法決定部１０２は、対応画像がＩ、Ｐ、Ｂスライスのいずれであるか等の情報と算出した評価値を参照して、対応画像について採用する予測方法を決定する。なお、上述の復号に係る観点から、ベース画像に対しては、画面内予測符号化のみが行われるように予測方法が決定されてもよい。

予測符号化処理部１０３は、予測方法決定部１０２から受信した予測符号化用パラメータを参照し、参照画像として設定された復号画像あるいは符号化対象画素ブロックの周辺に位置する復号画像を用いて予測画像を生成する。具体的には予測符号化処理部１０３は、復号画像の各ブロックに対応する復号データ、あるいは子符号化対象ブロックに隣接する復号画素を用いて、ブロックごとに予測画像を生成する。そして予測符号化処理部１０３は、対象画像のブロックごとに、予測画像との差分となる予測残差信号を生成し、直交変換・量子化部１０５に出力する。

メモリ１０４は、例えば揮発性メモリである。メモリ１０４は、後述する局所復号部１０６において復号された復号画像を一時的に格納する格納領域として用いられる。

直交変換・量子化部１０５は、対象画像のブロックごとの予測残差信号に対して直交変換処理した後、後述する符号量制御部１０７から入力された量子化パラメータに応じた量子化ステップで量子化処理する。直交変換・量子化部１０５は、処理の結果得られた量子化データをエントロピー符号化部１０８及び局所復号部１０６に出力する。

局所復号部１０６は、入力された量子化データに対して逆量子化処理、逆直交変換処理を適用し、対応する対象画像について予測符号化処理部１０３で使用された予測画像を加算することでブロックごとに復号データを生成する。局所復号部１０６は、復号データをメモリ１０４に出力し、格納させる。また局所復号部１０６は、対象画像に対応する複合データに対してデブロッキングフィルタ処理を適用し、復号画像を生成してメモリ１０４に格納させる。

エントロピー符号化部１０８は、入力された量子化データに対してスライス単位にＣＡＢＡＣ（コンテキスト適応型２値算術符号化）によるエントロピー符号化処理を行う。エントロピー符号化部１０８は、２値化部、２値化データメモリ、コンテキスト計算部、算術符号下部で構成される。ここで、２値化部は、入力された多値データを２値化し、２値化データを生成し、２値化データメモリは、２値化部により生成された２値化データを格納する。またコンテキスト計算部は２値化データの発生確率をコンテキストに応じて計算して保持し、算術符号下部は、コンテキスト計算部により供給される発生確率に応じて算術符号化を行う。これらの構成を用いて符号化されたデータはスライス単位に多重化処理部１０９に伝送される。一方でエントロピー符号化部１０８は、エントロピー符号化により発生した符号量の情報を符号量制御部１０７に出力する。

符号量制御部１０７は、符号化ピクチャバッファをオーバーフローまたはアンダーフローさせないように符号化データの符号量を制御する。符号量制御部１０７は、エントロピー符号化部１０８から入力されたエントロピー符号化後の発生符号量の情報に基づいて量子化パラメータを生成し、直交変換・量子化部１０５に伝送する。

多重化処理部１０９は、エントロピー符号化部１０８から出力された符号化データを階層符号化し、１つの符号化動画像に係る所定単位の情報を生成する。また多重化処理部１０９は、必要に応じてシステム情報、再生補助情報等を多重化して符号化動画像を生成する。

本実施形態では多重化処理部１０９は、時間方向階層化符号化方式を用い、基準層にベース画像のみで構成された動画像に対応する符号化データ、その上位層にトランジション画像のみで構成された動画像に対応する符号化データを含めて符号化動画像を生成する。このとき、階層は時間方向のアップサンプリングを可能にする、即ち時間分解能を拡張するように構成される。図２及び図４に示したように、ベース画像のみで構成されたスライドショー動画像に対し、トランジション画像のみで構成されたスライドショー動画像のフレームレートは高く設定され、前者の動画像のフレーム間を補間するフレームを有している。従って、多重化処理部１０９は、下位の層である基準層（ベースレイヤ）に対しフレームレートの低いベース画像のみの動画像を配置し、上位の層であるエンハンスドレイヤに対し、フレームレートの高いトランジション画像のみの動画像を配置する。これにより、図５（ａ）に示されるように、ベースレイヤのみを復号した場合は、ベース画像のみで構成された動画像が再生される。また図５（ｂ）に示されるように、ベースレイヤに加えてエンハンスドレイヤを復号した場合は、（より高いフレームレートの）ベース及びトランジション画像で構成された動画像が再生される動画像を生成することができる。即ち、多重化処理部１０９において生成された符号化動画像は、復号に用いる階層の設定により、遷移方式が異なる動画像を再生することが可能である。

〈データ構成〉
ここで、本実施形態のエンコーダ１００において生成される符号化動画像のデータ構成について、図６を参照して詳細を説明する。

ベース画像のみで構成された動画像の符号化データとトランジション画像のみで構成された動画像の符号化データとを異なる階層に配置する構成は、図６に示されるように時間階層を特定する識別子Temporal ID（ＴＩＤ）により実現される。図の例では下位の層に配置されるベース画像のみで構成された動画像に対してはＴＩＤ０が割り当てられ、上位の層に配置されるトランジション画像のみで構成された動画像に対してはＴＩＤ１が割り当てられる。

Ｈ．２６５では、映像符号化処理を扱うビデオ符号化層（ＶＣＬ：Video Coding Layer）と実際の伝送・蓄積のシステムとの間にネットワーク抽象化層（ＮＡＬ：Network Abstraction Layer）が規定されている。またＮＡＬは、ＮＡＬヘッダとＲＢＳＰ（Row Byte Sequence Payload）から構成されるＮＡＬユニットと呼ばれる単位でパケット化されている。ＮＡＬヘッダによりＮＡＬユニットの種類は識別できるようになっており、続くＲＢＳＰに実際の符号化データが格納される。ＮＡＬユニットの種類には、主に映像符号化データ全体に関する情報であるＶＰＳ（Video Parameter Set）、映像符号化データのシーケンスに関する情報であるＳＰＳ（Sequence Parameter Set）、映像符号化データのピクチャに関する情報であるＰＰＳ（Picture Parameter Set）、映像符号化データ（ここでは総称してＶＣＬと呼ぶ）がある。ここで、ＶＣＬは、ＡＵ（Access Unit）と呼ばれる単位で格納される。ＡＵは、ＡＵの先頭である事を示すＡＵＤ（Access Unit Delimter）、映像符号化データの付加情報であるＳＥＩ（Supplemental Enhancement Information）とＶＣＬ等で構成される。

図６に示された例では、ＡＵ（ＴＩＤ０）がベース画像のみの動画像に対応するＶＣＬを含むＡＵであり、ＡＵ（ＴＩＤ１）がトランジション画像のみの動画像に対応するＶＣＬを含むＡＵである。即ち、このように構成された符号化動画像について、ＴＩＤ０のＡＵのみを復号することで、図５（ａ）のようなベース画像のみで構成された動画像を生成することができる。またＴＩＤ０のＡＵとＴＩＤ１のＡＵとを復号することで、図５（ｂ）のようなベース画像とトランジション画像で構成された動画像を生成することができる。

なお、本実施形態ではハードウェアとしてエンコーダ１００が備える各ブロックにおいて処理が実現されるものとして説明したが、本発明の実施はこれに限らず、各ブロックの処理は該各ブロックと同様の処理を行うプログラムで実現されてもよい。また、例えばＰＣ等の情報処理装置において本発明に係るアプリケーション等が実行される場合に、ユーザによる所望の遷移方式を選択を受け付けた上で、該方式に従い符号化動画像の生成を行うようにしてもよい。このとき、生成された符号化動画像は例えばＤＶＤ等の記録媒体に記録されることで、任意の再生装置における読み出しにより、該再生装置において設定されたスライドショー動画像の再生が可能となる。また、例えばデジタルカメラ等の撮像装置において、本発明に係る符号化処理が実行される場合に、ユーザは撮像により取得されて撮像装置の記録手段に記録されている画像から、複数の遷移方式を用いる動画像が符号化された符号化動画像を生成可能であってもよい。この場合も同様に、メモリカード等の記録媒体に記録されることで、他の再生装置において同様の効果が得られる。

また、本実施形態では特殊な遷移効果が付加されたスライドショー動画像と付加されていないスライドショー動画像の２種類を１つの符号化動画像に階層符号化するものとして説明したが、本発明の実施はこれに限られるものではない。即ち、設けられるエンハンスドレイヤは１種類に限定されるものではないため、異なる遷移方式を用いる動画像がさらに異なるエンハンスドレイヤに配置された構成としてもよい。また本実施形態では時間分解能を拡張する階層符号化方式を採用して説明したが、本発明の実施はこれに限られるものではない。即ち、本発明は、異なる遷移方式を用いる動画像を、復号時に各々復号の有無を選択可能な複数の階層それぞれに符号化した符号化動画像を生成するものであればよい。この場合、上位の層の復号の際に下位の層の符号化データを含む２以上のフレームを参照して復号が行われることが好ましい。

以上説明したように、本実施形態の画像処理装置は、再生装置において遷移効果を変更可能な動画像を生成することができる。具体的には画像処理装置は、複数の画像を取得し、取得した複数の画像を順次切り替えながら進行する第１及び第２の動画像を含む１つの動画像であって、再生方式に応じて第１及び第２の動画像のいずれかを再生可能な１つの動画像を生成する。このとき、第２の動画像の再生において再生されるフレームには、第１の動画像のフレームが含まれる。

［変形例］
上述した実施形態では多重化処理部１０９において２種類のスライドショー動画像が階層符号化された符号化動画像の構成についてのみ説明した。本変形例では、符号化動画像に対して、さらに再生補助情報が多重化される場合の態様について説明する。

《エンコーダ１００の構成》
図７は、本変形例に係るエンコーダ１００の機能構成を示したブロック図である。図示されるように、本変形例のエンコーダ１００は上述した実施形態のエンコーダ１００と同一の構成を有するため、該構成については同一の参照番号を付して説明を省略する。以下、本変形例のエンコーダ１００にのみ存在する再生補助情報生成部７０１について説明する。

再生補助情報生成部７０１は、符号化動画像が再生された場合に、再生された動画像の画面内に設定した特定の領域に予め定められた情報を所定の期間保持して重畳表示させるための再生補助情報（ＳＥＩ）を生成する。ＳＥＩには、ユーザ定義のシンタクスを使用可能なuser data SEIが用意されており、user data unregistered SEIを利用してユーザ定義の再生補助情報を生成することが可能である。

図８（ａ）に、user data unregistered SEIのシンタクスを例示する。シンタクス要素の内、user_data_payload_byte領域にユーザ定義情報を格納することが可能である。またuser data unregistered SEIにユーザ定義情報が格納されていることをuuid_iso_iec_11578によりＵＵＩＤとして識別可能にしておくことで、ユーザ定義情報を再生装置に認識させ、利用させることが可能となる。

再生補助情報生成部７０１は、動画像化処理部１０１から入力された領域情報及び時間情報に基づく画像領域保持情報をＳＥＩとして生成する。ここでは、user_data_payload_byte領域に格納するための画像領域保持情報を「area_hold_info」、そのＳＥＩを「area_hold_info SEI」と呼ぶものとし、そのシンタクスの定義例を図８（ｂ）に示す。

図８（ｂ）において「area_num」は、画面内に幾つの画像保持領域があるかを示す領域であり、その個数を示している。「area_x」、「area_y」は、それぞれ画面内に対する各画像保持領域の左上の水平座標、垂直座標を画素単位で示し、「area_width」、「area_height」は、それぞれ各画像保持領域の水平画素数、垂直画素数を示す。また「area_hold_time」は、画面領域を保持する時間情報を示す領域であり、単位は実時間（ｍｓ）であるものとするが、フレーム数等で表現してもよい。

ここで、図９に示されるような、座標（ｘ０，ｙ０）を起点とする画像領域と座標（ｘ１，ｙ１）を起点とする画面領域内の２つの画面保持領域について具体例を示す。２つの画面保持領域に対する画像領域保持情報は、「area_num」に「２」が格納され、それぞれの画像領域情報は、以下のように格納される。なお、画面領域を保持する時間は共通に３秒（３０００ｍｓ）であるものとする。
・座標（ｘ０，ｙ０）を起点とする画像領域は、
area_x[0]=50
area_y[0]=50
area_width[0]=480
area_height[0]=160
area_hold_time[0]=3000
・座標（ｘ１，ｙ１）を起点とする画像領域は、
area_x[1]=1230
area_y[1]=910
area_width[1]=640
area_height[1]=120
area_hold_time[1]=3000

このように生成した「area_hold_info SEI」を再生補助情報として符号化データに多重化しておくことで、図１０に示すように再生装置側で「area_hold_info SEI」に基づき画面内の所定領域を所定時間保持して表示する事が可能となる。図１０の例では、画像の切り替えに係る遷移を示すフレームについて、上述の２つの領域に例えば画像名及び撮影日の情報が表示される例を締めしている。

以上のようにベース画像とトランジション画像を異なる時間階層で符号化することにより、１つの符号化データで異なる２つのスライドショー効果を実現可能とし、再生補助情報により更に異なるスライドショー効果を実現することが可能となる。

［その他の実施形態］
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

複数の画像を取得する取得手段と、
前記取得手段により取得された前記複数の画像を互いに異なる遷移方式で順次切り替えながら進行する第１及び第２の動画像を含む１つの動画像であって、再生方式に応じて前記第１及び第２の動画像のいずれかを再生可能な１つの動画像を生成する生成手段と、を有し、
前記第２の動画像の再生において再生されるフレームには、前記第１の動画像のフレームが含まれる
ことを特徴とする画像処理装置。
前記生成手段は、前記第１の動画像を再生可能な再生方式及び前記第２の動画像を再生可能な再生方式のいずれでも再生可能なように符号化することで前記１つの動画像を生成することを特徴とする請求項１に記載の画像処理装置。
前記１つの動画像において前記第１及び第２の動画像は、それぞれの動画像を再生可能な再生方式に対応した識別子により識別されることを特徴とする請求項２に記載の画像処理装置。
前記生成手段は、前記第１の動画像の他のフレームのみを参照して前記第１の動画像のフレームを符号化し、前記第１の動画像のフレーム及び前記第２の動画像の他のフレームを参照して前記第２の動画像のフレームを符号化することを特徴とする請求項２または３に記載の画像処理装置。
前記第１及び第２の動画像は、各々異なる階層に符号化され、
前記第２の動画像は、前記第１の動画像よりもフレームレートが高く、前記第１の動画像の時間分解能を拡張する動画像であることを特徴とする請求項３乃至４のいずれか１項に記載の画像処理装置。
前記第２の動画像は、前記第１の動画像と同一のフレームを含まずに符号化されることを特徴とする請求項５に記載の画像処理装置。
前記生成手段は、前記１つの動画像を再生した場合に前記複数の画像の切り替えに係る遷移を示すフレームについては、特定の領域に重畳表示する予め定められた情報を付加して生成することを特徴とする請求項１乃至６のいずれか１項に記載の画像処理装置。
前記第１の動画像のフレームには、前記複数の画像のうちの２以上の画像に基づく画像が含まれず、
前記第２の動画像のフレームには、前記複数の画像のうちの２以上の画像に基づく画像が含まれる
ことを特徴とする請求項１乃至７のいずれか１項に記載の画像処理装置。
前記第１の動画像は、前記複数の画像の切り替えに特殊な遷移効果を使用しない遷移方式を用いた動画像であることを特徴とする請求項１乃至８のいずれか１項に記載の画像処理装置。
複数の画像を取得する取得手段と、
前記取得手段により取得された前記複数の画像を互いに異なる遷移方式で順次切り替えながら進行する第１及び第２の動画像の各々について切り替えに係る遷移方式を決定する決定手段と、
前記第１及び第２の動画像を含む１つの動画像であって、再生方式に応じて前記第１及び第２の動画像のいずれかを再生可能な１つの動画像を生成する生成手段と、
前記生成手段により生成された前記１つの動画像を記録手段に記録する制御手段と、を有し、
前記第２の動画像の再生において再生されるフレームには、前記第１の動画像のフレームが含まれる
ことを特徴とする情報処理装置。
撮像により得られた画像を記録手段に記録する撮像手段と、
前記記録手段に記録されている複数の画像を取得する取得手段と、
前記取得手段により取得された前記複数の画像を互いに異なる遷移方式で順次切り替えながら進行する第１及び第２の動画像を含む１つの動画像であって、再生方式に応じて前記第１及び第２の動画像のいずれかを再生可能な１つの動画像を生成する生成手段と、
前記生成手段により生成された前記１つの動画像を前記記録手段に記録する制御手段と、を有し、
前記第２の動画像の再生において再生されるフレームには、前記第１の動画像のフレームが含まれる
ことを特徴とする撮像装置。
画像処理装置の取得手段が、複数の画像を取得する取得工程と、
前記画像処理装置の生成手段が、前記取得工程において取得された前記複数の画像を互いに異なる遷移方式で順次切り替えながら進行する第１及び第２の動画像を含む１つの動画像であって、再生方式に応じて前記第１及び第２の動画像のいずれかを再生可能な１つの動画像を生成する生成工程と、を有し、
前記第２の動画像の再生において再生されるフレームには、前記第１の動画像のフレームが含まれる
ことを特徴とする画像処理装置の制御方法。
情報処理装置の取得手段が、複数の画像を取得する取得工程と、
前記情報処理装置の決定手段が、前記取得工程において取得された前記複数の画像を互いに異なる遷移方式で順次切り替えながら進行する第１及び第２の動画像の各々について切り替えに係る遷移方式を決定する決定工程と、
前記情報処理装置の生成手段が、前記第１及び第２の動画像を含む１つの動画像であって、再生方式に応じて前記第１及び第２の動画像のいずれかを再生可能な１つの動画像を生成する生成工程と、
前記情報処理装置の制御手段が、前記生成工程において生成された前記１つの動画像を記録手段に記録する制御工程と、を有し、
前記第２の動画像の再生において再生されるフレームには、前記第１の動画像のフレームが含まれる
ことを特徴とする情報処理装置の制御方法。
撮像により得られた画像を記録手段に記録する撮像手段を有する撮像装置の制御方法であって、
前記撮像装置の取得手段が、前記記録手段に記録されている複数の画像を取得する取得工程と、
前記撮像装置の生成手段が、前記取得工程において取得された前記複数の画像を互いに異なる遷移方式で順次切り替えながら進行する第１及び第２の動画像を含む１つの動画像であって、再生方式に応じて前記第１及び第２の動画像のいずれかを再生可能な１つの動画像を生成する生成工程と、
前記撮像装置の制御手段が、前記生成工程において生成された前記１つの動画像を前記記録手段に記録する制御工程と、を有し、
前記第２の動画像の再生において再生されるフレームには、前記第１の動画像のフレームが含まれる
ことを特徴とする撮像装置の制御方法。
コンピュータを、請求項１乃至９のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。