JP7272356B2

JP7272356B2 - 画像処理装置、画像処理方法、プログラム

Info

Publication number: JP7272356B2
Application number: JP2020521777A
Authority: JP
Inventors: 正宏高橋; 隆弘柘植; 聡浅井; 陽野々山
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-05-29
Filing date: 2019-04-15
Publication date: 2023-05-12
Anticipated expiration: 2039-04-15
Also published as: CN112154658A; EP3787285A4; JPWO2019230225A1; US11450352B2; EP3787285B1; WO2019230225A1; EP3787285A1; US20210201953A1

Description

本技術は動画に対する画像編集を行うための画像処理装置、画像処理方法、プログラムに関する。

各種の画像編集を行う画像処理技術が知られている。
特許文献１には、複数の画像を配置して合成する際に位置関係を考慮してレイアウトを決める処理を行うことが記載されている。

特開２０１０－７９５７０号公報

映画やドラマなどのコンテンツとしての動画において、背景を変更したり画像エフェクトを加えるのは一般的であるが、これら処理は特殊な撮像手法であったり編集ソフトを駆使して実現することが通常である。そしてこのような動画編集作業は、複雑で時間を要するだけでなく作業者にも高度なスキルを必要とする。
またスポーツ映像などにも画像エフェクトは有効である。そして画像エフェクトをリアルタイムに実現する上ではモーションキャプチャを応用することが主流だが、マーカーを使用するなど高度な処理が必要であり容易ではない。
そこで本開示では、奥行情報を活用することで簡易且つ有効な動画編集を実現することを目的とする。

本技術に係る画像処理装置は、動画データに付加する付加画像を生成する付加画像生成部と、付加画像を付加する対象とした動画データにおける画素の深度情報を用いて、動画データに付加画像を付加する画像編集処理を行う画像編集処理部と、を備える。
この場合、動画としての複数フレームの画像データとして、画素について被写体までの距離（奥行き）の値となる深度情報を有する画像データを処理対象とする。なお、深度情報は、画像データを構成する１画素毎に付加されていても良いし、カラー画素としての画素ブロック毎（例えばＲ画素、Ｇ画素、Ｂ画素の３画素の単位）などでもよいに付加されていても良い。或いは４画素、９画素など、画素ブロック毎に深度情報が付加されていても良い。
画像処理装置は、このような画素（画素ブロック）毎に、深度情報を用いて付加画像を動画に付加する画像編集を行う。

上記した本技術に係る画像処理装置においては、前記画像編集処理部は、動画データの被写体の深度情報と前記付加画像に設定された深度情報とを用いて被写体と付加画像の前後関係を反映した画像編集を行うことが考えられる。
即ち付加画像について設定された深度情報と被写体（動画データの各フレームの画素）の深度情報により、付加画像と被写体の前後関係が規定される。

上記した本技術に係る画像処理装置においては、前記付加画像は、動画データにおける当該付加画像の挿入位置における深度情報に応じてサイズ調整されて動画データに合成されることが考えられる。
即ち付加画像生成部もしくは画像編集処理部は、付加画像を深度情報に基づいてサイズ調整する。これにより付加画像自体が挿入位置の遠近に応じたサイズ（遠近法に沿った状態）で表現されるようにする。

上記した本技術に係る画像処理装置においては、前記付加画像は、動画データにおける動体検出結果を用いて生成されるエフェクト画像であることが考えられる。
例えば動画内で動きのある被写体の動きの追尾や動きの軌跡などを表現するエフェクト画像を付加画像として生成し、動画に合成する。

上記した本技術に係る画像処理装置においては、前記エフェクト画像には動体に応じた深度情報が設定され、前記画像編集処理部は、動画データの被写体の深度情報と前記エフェクト画像に設定された深度情報とを用いて被写体と付加画像の前後関係を反映した画像編集を行うことが考えられる。
エフェクト画像について、動体の動きに応じた深度情報を設定し、エフェクト画像が動体の深度に対応した画像となるようにする。

上記した本技術に係る画像処理装置においては、前記エフェクト画像は、動体に応じた深度情報が設定され、深度情報に応じてサイズ調整されて動画データに合成されることが考えられる。
即ち付加画像生成部もしくは画像編集処理部は、エフェクト画像を深度情報に基づいてサイズ調整する。これによりエフェクト画像自体が挿入位置（つまり各フレームにおける動体の位置）の遠近に応じたサイズ（遠近法に沿った状態）で表現されるようにする。

上記した本技術に係る画像処理装置においては、前記付加画像は、動画データにおける動体の軌跡を表すエフェクト画像であることが考えられる。
例えば動画内で動きのある被写体の動き軌跡を表現するエフェクト画像を付加画像として生成し、動画に合成する。

上記した本技術に係る画像処理装置においては、前記付加画像は、動画データにおける動体の動作態様又は動作種別を表すエフェクト画像であることが考えられる。
動画内で動体の動作として各種の態様や種別があるが、それらを表現するエフェクト画像を付加画像として生成し、動画に合成する。

上記した本技術に係る画像処理装置においては、前記付加画像は、動画データにおける音声検出結果を用いて生成されるテロップ画像であることが考えられる。
動画内の人物の発話などを検出し、そのテロップ画像を付加画像として生成し、動画に合成する。

上記した本技術に係る画像処理装置においては、前記テロップ画像は、動画データからの音声認識に基づいてテキストデータを表示する画像であることが考えられる。
動画内で発話される音声を認識しテキストデータを取得する。そしてそのテキストデータをテロップ表示する。

上記した本技術に係る画像処理装置においては、前記テロップ画像は、動画データから認識される音声の音量に応じて異なる態様の画像とされることが考えられる。
例えばテロップ画像は、認識した音声の音量、声量に応じてサイズ、フォントなどが異なるなど、異なる表示態様とする。

上記した本技術に係る画像処理装置においては、前記テロップ画像は、動画データにおける発話者の感情情報に応じて異なる態様の画像とされることが考えられる。
例えば認識した音声から発話者の感情を推定する。そして感情（怒り、喜び、驚き）などにより、サイズ、フォントなどが異なるなど、異なる表示態様とする。

上記した本技術に係る画像処理装置においては、前記付加画像は、取得情報を用いて生成される情報提示画像であることが考えられる。
動画に関して情報ソースから情報を取得し、その情報を提示する画像を付加画像として生成する。そして深度情報を用いて動画に合成する。

上記した本技術に係る画像処理装置においては、動画データに付加した前記付加画像を編集するためのユーザインタフェース画像として、動画の時間軸と深度軸が表現される編集画像を生成する編集操作画像生成部を備えることが考えられる。
付加画像の合成状態を編集したい場合に、ユーザが編集に用いる編集操作画像を生成し、表示されるようにする。この場合に編集画像は、動画の時間軸と深度軸が表現されるものとする。

上記した本技術に係る画像処理装置においては、前記編集操作画像は、一方の軸が時間軸で他方の軸が深度軸とされる表示領域を有することが考えられる。
例えば１つの領域として、例えば横方向が時間軸、縦方向が深度軸となるような領域を設けて編集用の画面が形成されるようにする。

上記した本技術に係る画像処理装置においては、前記編集操作画像は、時間軸方向の情報と、ある時点の画像が同時に表示される画像であることが考えられる。
例えば時間軸方向の情報がタイムラインとして表示されつつ、その一部の時点の画像が同時に表示されるようにする。

上記した本技術に係る画像処理装置においては、前記編集操作画像は、時間軸方向の情報を示す画像上で、ある時点を指定することで、当該時点の画像が時間軸方向の情報と同時に表示される画像であることが考えられる。
例えば時間軸方向の情報がタイムラインとして表示されつつ、或る時点を指定することで、タイムラインの情報が提示されたまま、当該時点の画像が表示されるようにする。

上記した本技術に係る画像処理装置においては、前記編集操作画像は、時間軸方向のある時点の画像を立体画像として表示する画像であることが考えられる。
例えば時間軸方向の情報がタイムラインとして表示されつつ、タイムライン上で指定した或る時点の画像が立体画像として表示されるようにする。

本技術に係る画像処理方法は、動画データに付加する付加画像を生成する手順と、付加画像を付加する対象とした動画データにおける画素の深度情報を用いて、動画データに付加画像を付加する画像編集処理を行う手順とを情報処理装置が実行する画像処理方法である。
本技術に係るプログラムは、これらの各手順に相当する処理ステップを情報処理装置に実行させるプログラムである。
これらの方法又はプログラムにより、多様な画像編集を容易に実現できる画像処理装置を実現できる。

本技術によれば深度情報を用いることで、動画に対する画像合成や画像エフェクトとしての付加画像が、動画内において自然に加えられる状態となり、品質の高い編集動画を容易に生成できる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術の実施の形態の画像処理装置のブロック図である。実施の形態の処理対象の画像の深度情報の説明図である。実施の形態の画像処理装置を実現する情報処理装置のブロック図である。第１の実施の形態の動体に対するエフェクト画像の説明図である。第１の実施の形態の動体に対するエフェクト画像の説明図である。第１の実施の形態の動体に対するエフェクト処理例のフローチャートである。第１の実施の形態のエフェクト画像設定処理のフローチャートである。第１の実施の形態の動体に対する他のエフェクト処理例のフローチャートである。第１の実施の形態のエフェクト画像設定処理のフローチャートである。第２の実施の形態のテロップ画像の説明図である。第２の実施の形態の音声認識に基づく編集処理例のフローチャートである。第２の実施の形態のテロップ画像生成処理のフローチャートである。第３の実施の形態の情報提示画像の説明図である。第３の実施の形態の情報提示画像生成処理のフローチャートである。第４の実施の形態のタッチパネルを想定した操作インタフェースの説明図である。第５の実施の形態の三面図によるプレビューの説明図である。第６の実施の形態の操作インタフェースの説明図である。第７の実施の形態のタイムライン表示の説明図である。第７の実施の形態のプレビュー表示の説明図である。第７の実施の形態の縮小表示の説明図である。第７の実施の形態の複数プレビュー表示の説明図である。第７の実施の形態の正面画表示の説明図である。第７の実施の形態の立体画表示の説明図である。第７の実施の形態の操作インタフェースで編集するエフェクト画像例の説明図である。第７の実施の形態の編集インタフェースの画面遷移の説明図である。第７の実施の形態の画像例に対応するタイムライン表示の説明図である。第７の実施の形態の画像例に対応するプレビュー表示の説明図である。第７の実施の形態の画像例に対応する縮小表示の説明図である。第７の実施の形態の画像例に対応する複数プレビュー表示の説明図である。第７の実施の形態の画像例に対応する正面画表示の説明図である。第７の実施の形態の画像例に対応する立体画表示の説明図である。第７の実施の形態の操作インタフェース表示処理のフローチャートである。

以下、実施の形態を次の順序で説明する。
＜１．画像処理装置の構成＞
＜２．第１の実施の形態：動体に対する画像エフェクト＞
＜３．第２の実施の形態：音声認識に基づくテロップ＞
＜４．第３の実施の形態：情報提示画像の付加＞
＜５．第４の実施の形態の：編集インタフェース＞
＜６．第５の実施の形態の：編集インタフェース＞
＜７．第６の実施の形態の：編集インタフェース＞
＜８．第７の実施の形態の：編集インタフェース＞
＜９．まとめ及び変形例＞

＜１．画像処理装置の構成＞
図１は本開示の画像処理装置１の機能構成と画像処理装置１の周辺構成を示している。画像処理装置１は、画像取得部２、深度取得部３、画像解析部４Ａ、音声認識部４Ｂ、情報取得部４Ｃ、付加画像生成部５、画像編集処理部６、画像出力部７、編集操作画像生成部８を有している。
また画像処理装置１の周辺構成の一例として、操作部１０、表示部１１、通信部１２、記憶部１３、画像ソース１４、情報ソース１５を示している。
操作部１０、表示部１１、通信部１２、記憶部１３、画像ソース１４、情報ソース１５のそれぞれは画像処理装置１と一体の機器内に設けられてもよいし、別体の機器とされて画像処理装置１と有線又は無線通信により接続されるものであっても良い。

まず画像処理装置１の周辺構成について説明する。
操作部１０は画像編集のためのユーザの各種操作を検知する。この操作部１０は、実際のキー、スイッチ等の操作子の操作を検知する構成でもよいし、コンピュータ装置におけるマウスやキーボードであったり、音声入力、ジェスチャ入力、非接触入力等の操作を検知する構成でもよい。また操作部１０は、例えばタブレット、スマートフォン等の情報処理装置において画面上或いはパッド上でのタッチ操作、タップ操作等を検知する構成などでもよい。

表示部１１は、ユーザ（画像処理装置１の使用者等）に対して各種表示を行う表示部であり、例えば画像処理装置１を含む装置の筐体に設けられたＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electro-Luminescence）ディスプレイ等のディスプレイデバイスとされる。或いは表示部１１は画像処理装置１を有する装置とは別体の表示デバイスとされてもよい。
この表示部１１ではユーザインタフェースのための各種表示を行う。例えば画像処理装置１が編集処理により生成した画像の表示、編集前の動画の表示、上記の操作部１０として機能する操作アイコン等の操作子画像の表示、その他必要な表示を行う。

通信部１２は他の機器との間での有線又は無線接続による通信を行う。例えばＷＩＦＩ（Wireless Fidelity：登録商標）やブルートゥース（登録商標）等の無線通信規格等の通信方式による通信を行う。或いは通信部１２は、外部の表示装置、記録装置、再生装置等の間で画像データ（静止画ファイルや動画ファイル）の通信を行うようにしたり、ネットワーク通信部として、例えばインターネット、ホームネットワーク、ＬＡＮ（Local Area Network）等の各種のネットワークによる通信を行い、ネットワーク上のサーバ、端末等との間で各種データ送受信を行うものでもよい。
この通信部１２は、例えば画像処理装置１が編集処理により生成した画像を外部機器に送信する。また通信部１２が、編集処理に用いる画像データを外部から受信するようにしてもよい。

記憶部１３は例えば不揮発性メモリからなり、元の動画データや動画データを編集（特には付加画像の付加）した編集画像データを記憶する。記憶部５の実際の形態は多様に考えられる。例えば記憶部１３は、装置筐体に内蔵されるフラッシュメモリ等の固体メモリでもよいし、装置に着脱できるメモリカード（例えば可搬型のフラッシュメモリ）と該メモリカードに対して記録再生アクセスを行うカード記録再生部による形態でもよい。またＨＤＤ（Hard Disk Drive）、光ディスク及びディスクドライブなどとして実現されることもある。
この記憶部１３は画像処理装置１が生成した編集画像データを記憶する。また画像処理装置１が編集処理に用いる画像データを記憶部１３から読み出すようにしてもよい。
なお、記憶部１３には、画像処理装置１としての処理をコンピュータ装置に実行させるためのプログラムが記憶されてもよい。

画像ソース１４は、画像処理装置１が編集処理に用いる画像データの供給元という意味で示している。処理対象の動画としての画像データが画像ソース１４から画像処理装置１に供給される。
例えば画像ソース１４は動画撮像を行う撮像装置であったり、記憶媒体から動画を読み出して出力する再生装置であったりする。或いは通信部１２や記憶部１３が画像ソース１４に相当する場合もある。
画像ソース１４によって供給される画像データは、例えばスポーツ等のリアルタイム放送としての撮像動作であってもよいし、過去に撮像又は生成された動画であってもよい。例えば映画、ドラマ等として制作された動画、一般ユーザが制作・投稿した動画、アニメーション動画、コンピュータグラフィックス等で生成された動画など、あらゆる動画が想定される。即ちあらゆる動画が画像処理装置１の編集処理対象として考えられる。

情報ソース１５は、画像処理装置１に対して何らかの情報の供給元という意味で示している。情報とは、例えば編集対象の動画に対して関連する情報、編集により動画上に付加する情報などが想定される。例えばスポーツ中継の動画における、選手やチームの情報、タイムの情報、技や得点などの情報などがある。
この情報ソース１５は例えば情報サーバとしてネットワークを介して情報を提供する情報処理装置であってもよいし、各種のセンサ装置であってもよい。

続いて画像処理装置１の機能構成を説明する。
画像処理装置１における画像取得部２は編集処理の対象とする画像データを画像ソース１４から取得する。例えばリアルタイム放送する動画であったり、動画コンテンツとして画像ソース１４が提供可能な動画の中でユーザが選択した動画などが処理対象となる。

深度取得部３は、処理対象とした画像について画素の深度情報を検出する。本実施の形態では、画像処理装置１が編集処理の対象とする動画としての画像データには、各フレームの画素毎に深度情報ＤＰが付加されている。この深度情報ＤＰは、画像の撮像時の被写体の奥行き位置の情報である。
例えば１フレームの画像データが図２のように、０行～ｎ行、０列～ｍ列の画素（ピクセル）配置で構成され、｛（ｍ＋１）×（ｎ＋１）｝個の画素ＰＸ０－０、ＰＸ０－１・・・ＰＸｎ－ｍで形成されているとする。
各画素ＰＸ０－０、ＰＸ０－１・・・ＰＸｎ－ｍには、深度情報ＤＰ０－０、ＤＰ０－１・・・ＤＰｎ－ｍが付加されている。それぞれ、その画素の被写体の撮像時の奥行き情報である。深度取得部３は、処理対象とした画像から深度情報ＤＰ０－０、ＤＰ０－１・・・ＤＰｎ－ｍを検出する。
なお、この図２に示す各画素ＰＸ０－０～ＰＸｎ－ｍは、それぞれがＲ画素、Ｇ画素、Ｂ画素のような色別の１つの画素と考えても良いし、Ｒ画素、Ｇ画素、Ｂ画素をまとめた１つのカラー画素と考えてもよい。つまり深度情報ＤＰ（ＤＰ０－０～ＤＰｎ－ｍ）は、個々の画素単位で付されても良いし、カラー画素ユニット単位で付加されていても良い。さらに、図示しないが、複数の画素（又は複数のカラー画素）をまとめた画素ブロック毎に深度情報ＤＰが付加されていても良い。
撮像画像に被写体の深度情報が付加されるようにする技術は既知であるため詳細は省略する。
なお、深度取得部３は、処理対象の画像データについて他の機器やセンサで検出された深度情報や、あらかじめ登録された深度情報などを受信取得してもよい。また深度取得部３はユーザが任意に設定した深度情報を検出するものでもよい。
深度取得部３が検出した画素の深度情報は画像編集処理部６や付加画像生成部５の処理で用いられる。

図１の画像解析部４Ａは、画像取得部２が取得した画像データの解析を行い、画像内の被写体の認識、動体の認識、背景の認識、動体の動作種別や動作態様の判定、人物の識別、人物の表情、感情の推定、動体の動きの推定など、付加画像生成部５での付加画像生成に必要な解析処理を行う。付加画像とは画像編集処理によって動画に付加する画像のことである。

音声認識部４Ｂは、画像取得部２が取得した処理対象の動画としての画像データにおける音声データを入力し、音声認識・解析を行う。そして音声内容に関する情報を付加情報生成のために付加画像生成部５に出力する。また音声認識部４Ｂは検出した発話のタイミングや音声認識に基づく付加画像表示を行う期間（フレーム期間）等の情報を画像編集処理部６に出力する。
後述の第２の実施の形態の処理で説明するが、例えば音声認識部４は例えば動画とともに収録された音声内で、被写体人物が発話した音声を判別、解析して、発話内容をテキストデータとすることなどを行う。もちろん、人の発話でない周囲の音に応じた擬音データを生成することも考えられる。例えば風の音を認識して「ヒュー」などと擬音のテキストデータを生成するなどである。

情報取得部４Ｃは情報ソース１５から情報を取得する。取得する情報とは付加画像生成部５での付加画像生成に用いる情報である。
例えば情報取得部４Ｃは、スポーツ中継の動画に対しては、上述した選手やチームの情報、タイム情報、試合のスコア情報などを取得し、付加画像生成部５や画像編集処理部６に供給する。

付加画像生成部５は、画像編集処理により動画に付加する付加画像を生成する。実施の形態では、付加画像として、エフェクト画像、テロップ画像、情報提示画像を生成する例を述べる。
例えば第１の実施の形態の場合、付加画像生成部５は、画像解析部４Ａによる動体認識に応じたエフェクト画像を生成する。
第２の実施の形態の場合、付加画像生成部５は、音声認識部４Ｂによる音声認識結果に応じたテロップ画像を生成する。
第３の実施の形態の場合、付加画像生成部５は、情報取得部４Ｃによって取得した情報を示す情報提示画像を生成する。

画像編集処理部６は、画像取得部２が取得した画像データに対する編集処理を行う。本実施の形態の場合、特に画像編集処理部６は、元の動画上に、付加画像生成部８が生成した付加画像（エフェクト画像、テロップ画像、情報提示画像等）を付加する画像編集を行う。またこの画像編集に際して画像編集処理部６は、深度取得部３からの各フレームの画素の深度情報ＤＰ０－０～ＤＰｎ－ｍを用いる。

画像出力部７は、画像編集処理部６が作成した編集画像としての画像データを出力する。すなわち画像出力部７は、編集処理により作成された編集後の動画を表示部１１に出力して表示させる。
また画像出力部７は、編集後の画像データを通信部１２に出力して外部機器に送信させることもできる。
また画像出力部７は、編集後の画像データを記憶部１３に出力して記憶媒体に記憶させることもできる。

編集操作画像生成部８は、ユーザの手動編集を可能とするインタフェース画像を生成する。
本実施の形態では、画像編集処理部６は、画像取得部２が取得した動画について、ユーザの付加画像の選択などに応じて、リアルタイムで自動的に編集と行い、編集結果の動画が画像出力部７から出力される。
但し、付加画像の合成は必ずしもリアルタイムに限らないし、付加画像の合成編集内容もユーザが調整したり変更してもよい。
そこで編集操作用の画像が用意される。編集操作画像生成部８は、このユーザの操作のための画像を生成して、例えば画像出力部７を介して表示部１１で表示されるようにしている。
編集操作画像上でのユーザの操作は、操作部１０の機能（例えば画面上のタッチ操作）として画像編集処理部６に認識されて、編集処理に反映される。また編集操作画像生成部８はユーザ操作に応じて編集操作画像の切替等を行う。

例えば以上の図１のような機能構成を備えることで、実施の形態の画像処理装置１は、後述する各種の画像編集を行い、編集画像を生成することができる。
このような画像処理装置１は、例えば図３のようなハードウエア構成の情報処理装置１００で実現される。

図３に示すように情報処理装置１００は、ＣＰＵ（Central Processing Unit）１５１、ＲＯＭ（Read Only Memory）１５２、ＲＡＭ（Random Access Memory）１５３を有して構成される。
ＣＰＵ１５１は、ＲＯＭ１５２に記憶されているプログラム、または記憶部１５９からＲＡＭ１５３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ１５３にはまた、ＣＰＵ１５１が各種の処理を実行する上において必要なデータなども適宜記憶される。
ＣＰＵ１５１、ＲＯＭ１５２、およびＲＡＭ１５３は、バス１５４を介して相互に接続されている。このバス１５４にはまた、入出力インタフェース１５５も接続されている。

入出力インタフェース１５５には、液晶パネル或いは有機ＥＬパネルなどよりなるディスプレイ１５６、キーボード、マウスなどよりなる入力部１５７、スピーカ１５８、ＨＤＤなどより構成される記憶部１５９、通信部１６０などが接続可能である。

図１の表示部１１が情報処理装置１００と一体機器の場合、ディスプレイ１５６は表示部１１を意味する。もちろん表示部１１は情報処理装置１００とは別体機器とされてもよく、その場合、ディスプレイ１５６は入出力インタフェース１５５に接続される別体機器とされればよい。

図３の入力部１５７は、情報処理装置１００を使用するユーザが用いる入力デバイスを意味するが、例えば図１の操作部１０としての機能も含む。
通信部１６０は、インターネットを含むネットワークを介しての通信処理や、周辺各部の機器との間の通信を行うもので、例えば図１の通信部１２としての機能も含む。

入出力インタフェース１５５にはまた、必要に応じてドライブ１６１が接続され、メモリカード１６２が装着され、メモリカード１６２から読み出されたコンピュータプログラムが、必要に応じて記憶部１５９にインストールされたり、ＣＰＵ１５１で処理したデータが記憶される。もちろんドライブ１６１は、磁気ディスク、光ディスク、光磁気ディスク等のリムーバブル記憶媒体に対する記録再生ドライブとされてもよい。
ドライブ１６１及びメモリカード１６２は図１の記憶部１３としての機能も持つ。

この図３のようなハードウエア構成において実施の形態の画像処理装置１としての処理、即ち図１の画像取得部２、深度取得部３、画像解析部４Ａ、音声認識部４Ｂ、情報取得部４Ｃ、付加画像生成部５、画像編集処理部６、画像出力部７、編集操作画像生成部８としての処理を行うことができる。
即ちこれらの処理はＣＰＵ１５１で起動されるソフトウエアにより実現される。そのソフトウエアを構成するプログラムは、ネットワークからダウンロードされたり、リムーバブル記憶媒体から読み出されたりして図３の情報処理装置１００にインストールされる。或いはそのプログラムが記憶部１５９としてのＨＤＤ等に予め記憶されていてもよい。
そしてＣＰＵ１５１において当該プログラムが起動されることで、詳しくは後述するように各種の画像編集処理を行うことができるようにされる。

なお、実施の形態の画像処理装置１は、図３のようなハードウエア構成の情報処理装置（コンピュータ装置）１００が単一で構成されることに限らず、複数のコンピュータ装置がシステム化されて構成されてもよい。複数のコンピュータ装置は、ＬＡＮ等によりシステム化されていてもよいし、インターネット等を利用したＶＰＮ（Virtual Private Network）等により遠隔地に配置されたものでもよい。複数のコンピュータ装置には、クラウドコンピューティングサービスによって利用可能なコンピュータ装置が含まれてもよい。
またこの図３の情報処理装置１００は、据え置き型、ノート型等のパーソナルコンピュータ、タブレット端末やスマートフォン等の携帯端末として実現できる。さらには情報処理装置１００としての機能を有するテレビジョン装置、モニタ装置、画像編集機器、撮像装置等の電子機器でも、本実施の形態の画像処理装置１を搭載することができる。

＜２．第１の実施の形態：動体に対する画像エフェクト＞
画像処理装置１による動画に対して付加画像を付加する編集処理の第１の実施の形態として、動体についてのエフェクト画像を付加する処理について説明する。
動体についてのエフェクト画像とは、例えば、
・動画に表れる動体についての動きを強調する画像
・動画に表れる動体の動きの軌跡を示す画像
・動画に表れる動体の動きの種別を表現する画像
・動画に表れる動体の動きの態様を表現する画像
・動画に表れる動体の動きの予測を表示する画像
・動画に表れる複数の動体の別を表現する画像
・これらの複合的な画像
などが考えられる。もちろん以上は例示で、エフェクト画像がこれらに限られるものではない。
また動体とは、動画上で動きの或る被写体オブジェクトであり、人、動物、物、これらの一部（例えば人の手など）などが想定される。

このような動体についてのエフェクト画像を加えた画像の例を図４，図５に示す。
図４Ａから図４Ｆはフィギュアスケートの動画のシーンを示している。
図４Ａは演技開始前の画像である。動体８０としてスケート選手を対象とする。
図４Ｂは演技開始前に、選手の動き出しを予測させるエフェクト画像ＥＦを付加した画像である。
図４Ｃは演技中において、選手の身体の移動の軌跡を示すとともに動作を強調するようなエフェクト画像ＥＦを付加した画像である。
図４Ｄは演技中において、スピンを表現するエフェクト画像ＥＦを付加した画像である。スピンを表す画像として渦巻き状のラインを表示しているが、この場合、選手の後ろ側の部分（選手より奥側となる部分）は、選手の体に遮られて見えない状態となっている。
図４Ｅは、例えば演技終了のポーズに至る動きを示すエフェクト画像ＥＦを付加した画像である。エフェクト画像ＥＦは直前からの身体の位置に応じた画像となっており、それは奥行き方向の位置（深度）に応じた大きさとなっている。
図４Ｆはエフェクト画像ＥＦを付加していない画像である。

例えばスケート競技の動画において、このようなエフェクト画像ＥＦを付加する編集を行うことで、より迫力のある動画、美観が向上する動画、選手の動きがわかりやすくなる動画などを実現できる。

図５Ａはサッカーのフリーキックのシーンを示している。
この場合、攻撃側選手が蹴ったボールを動体８０とし、そのボールの軌跡を表現するエフェクト画像ＥＦが付加されている。
このエフェクト画像ＥＦは、各時点での他の選手等との前後関係が反映されている、例えばボールの軌跡において、守備側選手よりも後方となっている部分は、選手の頭部に隠れて見えていない状態となっている。各時点（各フレーム）での各被写体（ボールや選手）の深度情報を用いることで、このようにボールの軌跡を示すエフェクト画像ＥＦを、実際の被写体との間での正しい前後関係で表示されるようにしている。
またボールの位置に従って、軌跡を表示するエフェクト画像ＥＦの幅が小さくなっている。これは、深度情報に基づいて、撮像位置からの各時点でのボールの距離（遠近）を表現するものとなる。
またボールの軌跡のエフェクト画像ＥＦは、色或いは濃さなどが徐々に変化するようにされる。これは例えばボールの回転数の解析結果に応じた色や濃さとすることで、ボールの動作態様を示すものとしている。

図５Ｂは剣道の試合のシーンを示している。
この場合、両選手の竹刀を動体８０とし、竹刀の動きを表現し、かつ強調するエフェクト画像ＥＦを付加している。
各エフェクト画像ＥＦは、右側の選手の竹刀と左側の選手の竹刀とで、色や表示態様を変化させる。これにより、両者の竹刀の動きを、視聴者が、より明確にわかるようにしている。
各竹刀の軌跡を示すエフェクト画像ＥＦは、各時点（各フレーム）の竹刀や選手の深度情報により前後関係を反映した状態となるようにする。これにより撮像装置の存在する位置からみた前後関係がエフェクト画像ＥＦにも反映される。

以上のようなエフェクト画像ＥＦを付加する画像処理装置１の処理例を説明する。
なお、以下説明する各実施の形態の処理例は、図１に示した各機能により画像処理装置１において実行される。

図６の処理例は、例えば画像ソースに記録された動画コンテンツを取得して、動画編集を行う場合の例としている。なお、リアルタイム中継の際などに適用できる、入力された動画に対してリアルタイムで編集処理を行う例は後に図８で述べる。

図６のステップＳ１０１で画像処理装置１は、処理対象の動画について被写体の識別を行う。即ち画像内の情報をデプスマップで展開し、被写体である人や物の位置関係を把握する。ここでいうデブスマップとは、例えば図２のような画素毎の深度情報のマップである。デプスマップにより、各被写体の前後関係が把握できる。ここでいう「前後」の「前」とは、撮像装置に近い側、「後」は撮像装置から遠い側（奥側）となる。
なお、各被写体が写っている画素範囲は、輝度情報、色情報、エッジ検出等の解析から判定できるが、各画素の深度情報を用いることで、各被写体が写されている画素範囲をより精度良く判定できる。１つの被写体が写っている画素範囲では、深度の値が、大きくは異ならないためである。

ステップＳ１０２で画像処理装置１は、動体の状態を把握する。即ち画像データに含まれる被写体について、動体、静体の認識を行い、例えば背景と人物などのように各被写体の内容を把握する。

ステップＳ１０３で画像処理装置１は、エフェクトの選定を行う。即ち動体８０に対して付加するエフェクト画像ＥＦとしてどのようなものを付加するかを選択する。例えば回転を表現するエフェクト画像ＥＦ、軌跡を表現するエフェクト画像ＥＦなどを選択する。またそのエフェクト画像ＥＦの色や形、効果継続時間などの詳細を決定する。
以上のエフェクトの選定は、画像処理装置１が自動設定してもよいし、ユーザ入力に応じて設定してもよい。或いはある程度は自動設定されて、一部をユーザが設定項目を修正できるようなものとしてもよい。

ステップＳ１０４で画像処理装置１は、表示位置の決定を行う。これは画像内の動体８０に対するエフェクト画像ＥＦの表示位置（動体８０を基準とした相対的な位置）を決定する処理となる。各フレーム単位でのエフェクト画像ＥＦの表示位置は、ここで決めた相対位置に応じてステップＳ１０７で決定される。
ステップＳ１０５で画像処理装置１は、エフェクト対象のフレームの特定を行う。例えば動画内で画像効果を開始するフレームを特定する。或いはフレーム範囲（開始フレームと終了フレーム）を特定しても良い。
これは、ユーザが動画のシーンのうちでフレームを指定入力し、それを画像処理装置１が開始フレーム、終了フレームとすることが考えられる。
或いは、画像処理装置１が画像データ内から、エフェクト画像ＥＦを付加する動体８０を検出し、その動体８０が表れているシーンを自動選択し、そのシーンの開始フレーム、終了フレームを特定するものとしてもよい。
さらには、画像処理装置１が、動体８０が表れており、かつ動体８０が動いているフレーム区間を自動的に特定するものとしてもよい。

以上のステップＳ１０５までで、動画のどの区間でどのようなエフェクト画像ＥＦの合成が行われるかが決定される。ここまでの処理は、動画に関しては主に図１の画像取得部２、深度取得部３、画像解析部４Ａの機能により実行される。ユーザ指定に関する設定は操作部１０からの入力に応じた画像編集処理部６の機能による処理となる。
以降、画像処理装置１は、動画を構成する各フレーム毎に、ステップＳ１０６～Ｓ１１６の処理を行っていく。

ステップＳ１０６で画像処理装置１は、処理対象のフレーム画像データを取得（特定）する。例えば最初は、ステップＳ１０５で特定したエフェクト対象の区間の最初のフレームの画像データを処理対象とする。
ステップＳ１０７で画像処理装置１は付加画像生成部５の機能により、取得したフレーム画像データに対する付加画像となるエフェクト画像ＥＦを設定する。

このエフェクト画像ＥＦの設定処理を図７に例示する。
まずステップＳ２０１で画像処理装置１はエフェクトとして付加する画像の選択又は生成を行う。これはステップＳ１０３で選定したエフェクトの選定に応じた画像を、当該フレームに付加するエフェクト画像ＥＦとして用意する処理である。用意する画像は、エフェクトの種別毎等について予め用意された画像のうちから当該フレームに用いる画像を選択することとしても良いし、当該フレームの画像内容に応じて生成してもよい。

ステップＳ２０２で画像処理装置１は、エフェクトとして付加するものとして用意した画像について、画像サイズ、形状、色等の画像態様を設定する。例えば画像における動体８０の当該フレームでのサイズや動作態様に応じてこれらを設定する。
これらの画像態様が設定された状態で、当該フレームに付加されるエフェクト画像ＥＦが決定されることになる。
なお、１フレームの画像に付加されるエフェクト画像ＥＦは、画素が連続した１つの画像に限らず、複数の画像の場合も当然ある。

ステップＳ２０３で画像処理装置１は、エフェクト画像ＥＦ自体を構成する各画素の深度情報ＤＰｅを設定する。例えば、当該フレームでの動体８０の深度に基づいて深度情報ＤＰｅを設定する。
ステップＳ２０４で画像処理装置１は、エフェクト画像ＥＦについての当該フレーム内での挿入領域を設定する。つまり画面上のどこにエフェクト画像ＥＦを付加するかを決定する処理である。これは例えば当該フレームでの動体８０の位置や、前のフレームでのエフェクト画像ＥＦの位置などに基づいて設定する。
なお、エフェクト画像ＥＦが複数の場合は、それぞれのエフェクト画像ＥＦに対して挿入領域が設定される。

以上のようにエフェクト画像ＥＦの設定を行ったら、画像処理装置１は画像編集処理部６の機能により図６のステップＳ１０８以降の処理を行う。
画像処理装置１はステップＳ１０８以降で、当該フレームの画像データ上で、設定した挿入領域に含まれる各画素ＰＸを、順次エフェクト画像ＥＦの各画素について設定した深度情報ＤＰｅと比較していく。

まずステップＳ１０８で画像処理装置１は、フレーム画像データにおいて挿入領域とされた領域内の１つの画素ＰＸを特定し、ステップＳ１０９でその画素ＰＸの深度情報ＤＰを特定する。
なお、ここでは、設定された挿入領域が１つであれば、当然、その挿入領域内の画素の１つを処理対象として特定する。
設定された挿入領域が複数であれば、例えば最初の挿入領域内の画素の１つを処理対象として特定する。

ステップＳ１１０で画像処理装置１は、対象としている画素ＰＸの深度情報ＤＰと、その画素ＰＸの位置に挿入するとされた、エフェクト画像ＥＦにおける画素の深度情報ＤＰｅを比較する。
ＤＰ＜ＤＰｅであれば、フレーム画像データにおける当該画素ＰＸは、エフェクト画像ＥＦよりも手前側の被写体の画素である。そこで画像処理装置１はステップＳ１１２に進んで、当該画素ＰＸを編集後の画像データ上でそのまま表示する画素に設定する。
ＤＰ＜ＤＰｅでなければ、フレーム画像データにおける当該画素ＰＸは、エフェクト画像ＥＦの深度以降の奥側の被写体の画素である。そこでこの場合、画像処理装置１はステップＳ１１１に進んで、画像データ上で、当該画像ＰＸの画素データ値をエフェクト画像ＥＦ（付加画像）における、その画素位置に対応する画素データ値に置換する。つまりエフェクト画像ＥＦの画素データを表示する画素とする。

ステップＳ１１３で画像処理装置１は、現在処理対象としている挿入領域内の全ての画素について、以上の処理を終えたか否かを確認する。終えていなければステップＳ１０８に戻り、次に現在処理している挿入領域内で処理対象とする画素ＰＸを特定して、同様にステップＳ１０９～Ｓ１１２の処理を行う。
ステップＳ１１３で、１つの挿入領域の全画素についてステップＳ１０９～Ｓ１１２の処理を終了したと判断したら、画像処理装置１はステップＳ１１４で、他に設定された挿入領域があるか否かを確認する。
図７のステップＳ２０４で設定された挿入領域が１つである場合は、以上で当該フレームについての処理を終える。
複数の挿入領域が設定されている場合であって、未処理の挿入領域がある場合は、ステップＳ１１５で次の挿入領域を選択し、その挿入領域についてステップＳ１０８～Ｓ１１３の処理を行う。

画像処理装置１はステップＳ１１４で全ての挿入領域について処理が終了したことを確認した時点で、現在のフレームについての処理を終え、ステップＳ１１６に進む。
エフェクトを行う区間としての全フレームについての処理を完了していなければ、画像処理装置１はステップＳ１０６に戻り、処理対象として次のフレームのフレーム画像データを取得し、そのフレームについて同様にステップＳ１０７～Ｓ１１５の処理を行う。
エフェクト画像ＥＦを付加する全てのフレームについて以上の処理を終えることで、図６の画像処理を終える。

この図６の処理を終えた時点で、動画上で例えば図４Ｂ～図４Ｅで説明したようにエフェクト画像ＥＦが付加された編集後の画像データが生成されていることになる。
このように生成された編集画像データは、画像出力部７が出力することで、表示部１１に表示されたり、通信部１２により外部機器に転送されたり、記憶部１３で記憶媒体に記憶される。

以上の図６の処理では、深度情報ＤＰ、ＤＰｅを用いてエフェクト画像ＥＦを元のフレーム画像データに合成したり、深度情報ＤＰ、ＤＰｅに応じてサイズ等の表示態様を設定しているため、元の動画のシーンの動体８０に対して違和感のないエフェクト画像ＥＦを実現できる。これはグラフィカルな効果を被写体空間に自然になじませるような画像表現ができることにもなる。

ところで、以上の図６の処理は、予め撮像等により生成された動画に対して行う処理例として述べたが、例えば放送等において、撮像した動画に対して、ほぼリアルタイムでエフェクト画像ＥＦを付加したい場合もある。そのようなリアルタイム性をもった処理例を図８に示す。
例えば放送スタッフとしてのオペレータが、ある時点からエフェクト開始を指示する操作を行うことで、画像処理装置１が、その時点以降にリアルタイムでエフェクト画像ＥＦを付加していく処理である。
なお、図８の場合、図６のステップＳ１０３、Ｓ１０４で説明したエフェクトの選定や表示位置の決定は予め行われており、そのエフェクトの開始／終了タイミングがオペレータによって指示（或いは何らかの自動制御による指示）されるものとする。例えば図５Ａや図５Ｂのような動体８０の軌跡を表現するエフェクト画像ＥＦを、動体の移動軌跡上の位置に表示することなどが決定されているとする。

ステップＳ１５１で画像処理装置１はエフェクト開始の指示を認識したら、ステップＳ１５２以降に進む。
その後は、ステップＳ１５５でエフェクト終了の指示を検知するまで、画像処理装置１は、撮像されて供給されてくる各フレームについて、ステップＳ１５２～Ｓ１５４及びＳ１０７～Ｓ１１５の処理を行う。

ステップＳ１５２で画像処理装置１は、フレーム画像データを取得する。つまり画像ソース１４（例えば撮像装置）からリアルタイムに入力されてくる１フレームを取得する。
なおこのことから、１フレーム期間内に、ステップＳ１５２～Ｓ１５４及びＳ１０７～Ｓ１１５の処理が行われるようにすることが想定される。

ステップＳ１５３で画像処理装置１は、フレーム画像データにおける被写体の識別を行う。即ち画像内の情報をデプスマップで展開し、被写体である人や物の位置関係を把握する。
ステップＳ１５４で画像処理装置１は、動体の状態を把握する。即ちフレーム画像データに含まれる被写体について、動体、静体の認識を行い、例えば背景と人物などのように各オブジェクトの内容を把握する。

ステップＳ１０７でエフェクト画像ＥＦの設定を行う。
動体の軌跡を表現するエフェクト画像ＥＦの設定の例を図９Ａに示す。

図９Ａの処理例の場合、ステップＳ２１０で画像処理装置１は、前フレームに付加したエフェクト画像ＥＦを取得する。もちろんエフェクト開始から最初のフレームであれば、前フレームに付加したエフェクト画像ＥＦは存在しないため、不要である。
ステップＳ２１１で画像処理装置１は、現フレームでの動体８０の位置を取得する。ここでいう動体８０の位置とは現フレームの画面内の位置、つまり動体８０が写されている画素範囲のことである。

ステップＳ２１２で画像処理装置１は、今回のフレームのエフェクト画像ＥＦとなる軌跡画像を生成する。具体的には、前フレームのエフェクト画像ＥＦ、つまり前フレームの時点までの軌跡画像に、現フレームの動体８０の位置に応じて画像を追加（軌跡を表現する画像を延長）することで、現フレームの軌跡画像（エフェクト画像ＥＦ）を生成する。エフェクト開始からの最初のフレームの場合は、現フレームの動体８０の位置に応じて軌跡画像を生成する。

ステップＳ２０３Ａで画像処理装置１は、各フレームでの動体８０の位置を反映して、軌跡画像（エフェクト画像ＥＦ）自体を構成する各画素の深度情報ＤＰｅを設定する。
なお、前フレームまでの軌跡部分は、前フレームまでのエフェクト画像をそのまま利用することで、既に画素位置や深度は設定されているものとすることができる。ここでは、今回軌跡として延長した部分の画素について、現フレームの動体８０の画素に付与された深度情報ＤＰを用いて、エフェクト画像ＥＦの深度情報ＤＰｅを設定すればよい。フレームによっては動体が他の被写体に隠れている場合もあるが、その場合は、前フレームまでの動体８０の軌跡から、現フレームでの動体の位置や深度を推定すればよい。

ステップＳ２０４で画像処理装置１は、エフェクト画像ＥＦについての当該フレーム内での挿入領域を設定する。つまり画面上のどこにエフェクト画像ＥＦを付加するかを決定する処理である。これは例えば当該フレームでの動体８０の位置や、前のフレームでのエフェクト画像ＥＦの位置などに基づいて設定する。

以上のようにエフェクト画像ＥＦの設定を行ったら、画像処理装置１は図８のステップＳ１０８以降に進む。ステップＳ１０８～Ｓ１１５は、図６のステップＳ１０８～Ｓ１１５と同様である。即ち画像処理装置１は、当該フレームの画像データ上で、設定した挿入領域に含まれる各画素ＰＸを、順次エフェクト画像ＥＦの各画素について設定した深度情報ＤＰｅと比較していき、前後関係を反映して、当該フレームの元の画像データとエフェクト画像ＥＦのいずれを表示画素とするかを決定していく。

以上の処理を１フレームについて行い、次のフレームでは、再び図８の処理をステップＳ１５２から実行する。
これにより、動画の進行に従って動体の移動軌跡を描くようなエフェクト画像ＥＦが動画に付加される。

ところで、ステップＳ１０７のエフェクト画像ＥＦの設定は図９Ｂのように行ってもよい。
図９ＢのステップＳ２１０，Ｓ２１１は図９Ａと同様であり、前フレームのエフェクト画像ＥＦを取得し、また現フレームの動体８０の位置を取得する。

ステップＳ２２２で画像処理装置１は、現フレームの動体８０の情報を取得する。これは動作態様であったり、動作の種別などの情報である。
動作態様とは、動体８０の速度、挙動、移動方向、移動姿勢、移動時の状態などである。
例えば図５Ａのボールの場合、ボールの移動速度、回転速度、移動方向なども動作態様の一つとなる。野球のピッチャーの投げる球種も動作態様の情報として想定される。
動作の種別は、動体の移動に関しての種別であったり、動体自体の種別や動体を動かす人などの種別が想定される。例えばサッカーのＡチームとＢチームの試合でボールを蹴った人がいずれのチームであるかとか、剣道の選手の別というのは動体を動かす人の種別の一つである。また例えば人や動物を動体８０としたときに、動体８０としての男女の別、年齢層の別、動物の別（例えば犬や猫の別、飛んでいる鳥の種別など）などもここでいう動体８０の種別の例となる。

ステップＳ２２３で画像処理装置１は、取得した動体８０の情報（態様・種別）に応じて、エフェクト画像ＥＦの画像態様を設定する。例えば情報に応じて表示するエフェクト画像ＥＦの色、輝度、濃度、グラデーションなどを設定する。
そしてステップＳ２１２で、画像態様の設定を反映して軌跡画像、即ち現フレームに付加するエフェクト画像ＥＦを生成する。
ステップＳ２０３Ａ、Ｓ２０４は図９Ａと同様である。

例えばこの図９Ｂのように、動体８０の態様や種別の情報を反映させるようにした軌跡画像（エフェクト画像ＥＦ）を生成することで、視聴者がより動作を把握し易かったり、或いは面白みのある動画を提供できることになる。
例えば図５Ａのボールの軌跡においてグラデーション的に色や濃度が変化することで、ボールの回転数を表現する画像とすることができる。
また図５Ｂの場合、剣道の選手毎に竹刀の動きの軌跡を違う色で表示することで、各選手の竹刀の動きを把握しやすい動画が実現できる。
図示しないが、サッカーの試合でボールの軌跡をつねに最後にタッチした選手のチームに応じた色などとすることで、チーム毎のボールの支配率を表現するような動画も実現できる。

以上、第１の実施の形態としては、動体８０に対する画像エフェクトに関して処理例を説明したが、動体８０に応じた画像エフェクトは更に多様に考えられる。
動体８０の情報としては、動体８０が人間の場合、さらに個人識別の情報、表情の情報、表情や音声等から推定される感情の情報などを用いて、エフェクト画像ＥＦの態様を変化させることも考えられる。
また動体８０についてのエフェクト画像ＥＦは、軌跡画像に限らず、動体追尾を示す画像、動体の移動予測を示す画像、動体の種別や動作態様のみを示す画像なども想定される。

＜３．第２の実施の形態：音声認識に基づくテロップ＞
第２の実施の形態として、動画に対する付加画像として音声認識に基づくテロップを表示する例を説明する。
例えば音声認識技術を用いることで、動画に対してリアルタイムもしくは非リアルタイムの編集でテロップを入れることができる。発話した人物とテロップの前後関係も厳密に再現することで、画一的でなく、発話者がわかりやすいテロップ表示、シーンに違和感を与えにくいテロップ表示、より表現力の高いテロップ表示等が実現できる。

図１０Ａは、多数の人が登場するシーンで、それぞれの発話内容を、それぞれの発話者８１の近辺にテロップ画像ＴＰとして示している例である。
なお、これは説明上の極端な例であり、動画では実際に多数の人が一斉に同時に発話するシーンは多くなく、時間的にずれて発話されることが多いため、図示の状態のように多数のテロップが１フレームに付加されることは少ない。
各テロップ画像ＴＰは、その発話者８１の深度に応じて表示されることで、他の被写体との前後関係が反映された状態で画像に合成されることになる。
また、テロップ画像ＴＰとは、その表示態様、表示タイミングなどにかかわらず、動画内で発生した音を文字で表す画像のことを言う。

このようなテロップ画像ＴＰを付加する処理例を図１１に示す。
ステップＳ１７１で画像処理装置１は動画内での音声データから発話検出を行う。
ステップＳ１７２で画像処理装置１は音声認識及び発話者の特定を行う。
ステップＳ１７３で画像処理装置１は、発話内容をテキストデータ化する。
ステップＳ１７４で画像処理装置１は、検出した発話内容をテロップ画像ＴＰとして表示するフレーム区間を設定する。
即ち画像処理装置１は、音声認識部４Ｂが動画における発話を検出し、その解析を行って、発話者８１や発話内容を特定し、また発話内容をテキストデータ化する。テロップ画像ＴＰを表示するフレーム区間は、例えば発話開始のタイミングのフレームから、発話が終了したタイミングのフレームよりも１～２秒程度後のフレームなどとして設定する。これらの情報を付加画像生成部５と画像編集処理部６が受け取ることになる。
なお発話者８１の特定には、画像解析部４Ａの画像解析により、口が動いている被写体を検出し、その口が動いている区間と発話音声の区間と比較して、略一致した場合に、その被写体を発話者８１とすることなどが考えられる。また、発話音声の周波数解析などにより、男性／女性の推定や年齢層の推定などを行い、画像解析結果と照合して発話者を推定することも考えられる。
動画に登場する人物の声紋情報などがあれば、音声解析により、動画内での発話者を正確に特定できる。

ステップＳ１７５で画像処理装置１は付加画像生成部５の機能によりテロップ画像ＴＰを生成する。
テロップ画像ＴＰの生成処理を図１２Ａに示す。
ステップＳ２５０で画像処理装置１は音声解析により生成したテキスト情報を処理対象として取得する。
ステップＳ２５１で画像処理装置１は、テキスト情報をテロップ画像化する。例えば所定の吹き出し、フォント、色等の設定に基づいてテロップ画像ＴＰを生成する。

テロップ画像を生成したら、その検出した発話についてテロップ表示を行う区間の各フレームについて、主に画像編集処理部６の機能によりステップＳ１７６～Ｓ１７８及びＳ１０８～Ｓ１１３の処理を行う。
ステップＳ１７６で画像処理装置１は、テロップ表示を行うフレーム区間における１フレームの画像データを処理対象として取得する。
ステップＳ１７７で画像処理装置１は、取得したフレームが、それまでのフレームからシーンチェンジしているか否かを判定する。例えば前フレームとの各画素データの差分などからシーンチェンジ判定を行い、もしシーンチェンジと判定した場合は図１１の処理を終える。シーンチェンジと判定されなければ画像処理装置１はステップＳ１７８に進む。

ステップＳ１７８で画像処理装置１は、当該フレームでのテロップ画像ＴＰのテロップ画像サイズ及びそのテロップ画像ＴＰの挿入領域を設定する。またテロップ画像ＴＰにおける各画素の深度情報ＤＰｅを設定する。
例えばテロップ画像ＴＰの各画素の深度情報ＤＰｅは、発話者８１としての被写体の頭部が写った画素の深度情報ＤＰ、また頭部の深度情報ＤＰから所定のオフセット量を与えた深度などとすることが考えられる。
テロップ画像ＴＰ内の各画素の深度情報ＤＰｅは同じ値でよいが、特に徐々に深度の値を変化させるなどしてもよい。テロップの最初と最後で奥行き位置が変化するようなものとする場合である。
また、テロップ画像ＴＰのサイズは、その深度情報ＤＰｅに応じたサイズとすることが考えられる。例えば深度情報ＤＰｅの値が小さい（浅い）場合はサイズを大きく、深度情報ＤＰｅの値が大きい（深い）場合はサイズを小さくすることで、遠近法に従って、近くの発話者８１の場合は大きなテロップ、遠くの発話者８１の場合は小さなテロップとすることができる。
挿入領域については、例えば発話者８１の頭部近辺などにおいて、設定したテロップ画像ＴＰのサイズに応じた領域を設定する。

現フレームについて以上の設定を行ったら、ステップＳ１０８～Ｓ１１３で、設定したテロップ画像ＴＰを現フレームの画像に合成していく。これは図６のステップＳ１０８～Ｓ１１３と同様である。即ち画像処理装置１は、当該フレームの画像データ上で、設定した挿入領域に含まれる各画素ＰＸを、順次テロップ画像ＴＰの各画素について設定した深度情報ＤＰｅと比較していき、前後関係を反映して、当該フレームの元の画像データとテロップ画像ＴＰのいずれを表示画素とするかを決定していく。

以上の処理を１フレームについて行い、ステップＳ１７９でテロップ画像ＴＰを表示するフレーム区間までの処理が終了したと判定されるまで、再び処理をステップＳ１７６から次のフレームについて実行する。
これにより、動画内の発話者８１に対してテロップ画像ＴＰが表示される図１０Ａのような動画が実現される。
特にテロップ画像ＴＰは、深度情報ＤＰｅと周囲の被写体の深度情報ＤＰの比較により画素単位で表示有無が設定されることで、手前側の画像を隠してしまうことがなく、画像内の前後関係を反映した状態で表示される。これにより発話者８１の状況（位置）を適切に表現したテロップ画像ＴＰとなっている。
また発話者８１に近い位置にテロップ画像ＴＰが表示されることで、画像（発話者８１等）と文字を同時に見やすくなり、映画等の字幕として応用しても、より動画の内容をわかりやすくできるものとなる。

なお非リアルタイムでテロップ付加編集を行う場合は、動画内で検出される発話毎に図１１の処理が行われるようにすればよい。
リアルタイムでテロップ画像ＴＰを付加していくには、動画を数秒程度遅延させて出力するようにすることが考えられる。例えば動画データについて数秒のバッファリングを行い、各フレームが数秒の遅延をもって読み出されるようにする。そのバッファリングの間に、当該バッファリングしている数秒間のフレームの音声認識を行う。
そして音声認識に応じた１又は複数のテロップ画像ＴＰを用意したうえで、バッファリングから読み出した各フレームについて、ステップＳ１７６以降の処理を行っていくようにすればよい。

また図１１の処理例では、ステップＳ１７４で設定されてフレーム区間としてテロップ画像ＴＰが表示される。これは、例えば発話タイミングから、発話が終了して１～２秒程度経過するまでの区間などとしたが、このように発話終了後も多少の時間はテロップ画像ＴＰを表示させることで、テキスト内容を読みやすくするものである。
但し、ステップＳ１７７でシーンチェンジと判定された場合は、テロップ画像ＴＰの合成を行わないことになるため、そのフレームでは、前フレームまでのテロップは表示されない。これはシーンチェンジがあってもテロップが続くことで不自然な画像となることを防止するものとなる。
つまり、シーンチェンジとならない限り、発話から発話終了から若干後のタイミングまでの期間、テロップ画像ＴＰの表示が行われるが、シーンチェンジがあったら、その期間内でもテロップ画像ＴＰの表示は終了されることになる。これによってテロップの読みやすさと、不自然なテロップ表示の防止とを両立する。

ところで、テロップ画像ＴＰについては、画一的な画像ではなく、より表現力の高い画像とすることが考えられる。
例えば図１０Ｂは発話者８１が笑っている場合、図１０Ｃは発話者８１が怒っている場合、図１０Ｄは発話者８１が驚いている場合を示している。ここで、笑っている状況、怒っている状況、驚いている状況に応じて、テロップ画像ＴＰの表示態様を変えている。例えば吹き出しの形状や色、テキストのフォントなどを変えることで、発話者の感情等に応じた画像とする。
このようにすることでテロップ画像ＴＰは、より表現力が高いものとなる。

そこで例えば図１１のステップＳ１７５におけるテロップ画像ＴＰの生成処理について、図１２Ｂのような処理を行うことが考えられる。
ステップＳ２５０で画像処理装置１は音声解析により生成したテキスト情報を処理対象として取得する。
ステップＳ２６１で画像処理装置１は、発話者の感情推定を行う。例えば発話音声の音量や周波数特性等の解析を行い、平静状態、興奮状態などを推定する。また画像解析により発話者８１の表情や動作等から感情を推定する。
ステップＳ２６２で画像処理装置１は、推定した発話者８１の感情に応じて、テロップ画像ＴＰとしての吹き出しの形状、テキストサイズ、フォント、色等を設定する。
ステップＳ２６３で画像処理装置１は、ステップＳ２６２での設定に基づいてテキスト情報をテロップ画像化する。

このようにすることで、推定した発話者８１の感情に応じてテロップ画像ＴＰの画像態様を設定し、動画に付加することが可能となる。

また感情推定よりも簡易な処理としては、音量に応じてテロップ画像ＴＰの画像態様を変化させることが考えられる。例えば図１１のステップＳ１７５におけるテロップ画像ＴＰの生成処理について、図１２Ｃのような処理を行う。

ステップＳ２５０で画像処理装置１は音声解析により生成したテキスト情報を処理対象として取得する。
ステップＳ２７１で画像処理装置１は、発話音声の音量情報を取得する。
ステップＳ２７２で画像処理装置１は、取得した音量情報に応じて、テロップ画像ＴＰとしての吹き出しの形状、テキストサイズ、フォント、色等を設定する。
ステップＳ２７３で画像処理装置１は、ステップＳ２７２での設定に基づいてテキスト情報をテロップ画像化する。
このようにすることで、発話音声の音量が表現されたテロップ画像ＴＰを動画に付加することが可能となる。

なお以上の例では動画内の人物の発話をテロップ画像ＴＰとすることを述べたが、人物の発話音声に限らず、動物の鳴き声、周囲の音（環境音）を文字を用いて表すテロップ画像を付加することも考えられる。その場合も、音源の画像内の位置や深度に応じてテロップ画像ＴＰの表示を行うことが適切となる。

＜４．第３の実施の形態：情報提示画像の付加＞
第３の実施の形態として、動画に対する付加画像として情報提示画像ＩＳを表示する例を説明する。
例えば情報ソース１５から取得した情報を用いて、動画に対してリアルタイムもしくは非リアルタイムの編集で情報提示画像ＩＳを入れることができる。このときに、画像内の挿入領域に応じて、他の被写体との前後関係を再現したり、情報提示画像自体に奥行きを与えたりすることで、視聴者がみやすい情報提示、シーンに違和感を与えにくい情報提示等が実現できる。

図１３Ａは、陸上競技（短距離走）のタイムの情報を取得し、そのタイムを情報提示画像ＩＳとして表示している例である。
例えばゴールラインに沿ってタイム表示を行うことで、視聴者に対し、わかりやすく、かつ臨場感があり高揚するような動画を提供できる。この場合に、情報提示画像ＩＳ自体に深度情報ＤＰｅを与え、遠近法に沿って、遠くなる程小さくなる表示とすることで、画面上の違和感もないようにすることができる。

図１３Ｂは例えばスケート演技の軌跡をエフェクト画像ＥＦとして表示するとともに、その演技内の情報（例えば各技の名称や得点等）を情報提示画像ＩＳとして表示させた例である。このような表示をリアルタイムで行ったり、演技後に俯瞰状態で表示できるようにすることで、視聴者が演技内容を理解しやすいものとなる。また情報提示画像ＩＳに深度を設定し、深度の関係性をもって他の被写体と合成することで、例えば画面上でスケート選手の手前には来ない状態で情報表示が行われるなどすることができる。つまり本来の選手の画像の邪魔にならないような情報提示画像ＩＳを表示できる。

リアルタイム処理として情報提示画像ＩＳを表示させる場合の処理例を図１４に示す。なお図８と同様の処理については同じステップ番号を付し、重複説明を避ける。
エフェクト開始後において、画像処理装置１は、フレームタイミング毎に、ステップＳ１５２～Ｓ１６０及びＳ１０７Ａ～Ｓ１１５の処理を行う。

画像処理装置１はステップＳ１５２でフレーム画像データを取得し、ステップＳ１５３で被写体の識別を行い、ステップＳ１５４で動体の状態を把握する処理を、図８で説明したように行ったら、ステップＳ１６０で外部情報を取得する。例えば図１３Ａの場合の短距離走のタイム（当該フレームのタイミングにおけるタイム）の情報を取得する。

そしてステップＳ１０７Ａで画像処理装置１は情報提示画像ＩＳを設定する。
情報提示画像ＩＳの設定（生成）については、概略図７と同様に行えば良い（図７の「エフェクト画像ＥＦ」を「情報提示画像ＩＳ」に読み替える）。
まずステップＳ２０１で情報提示画像ＩＳとしての画像を生成する。これは、例えば取得したタイムの情報を示す画像を生成すればよい。

ステップＳ２０２で画像処理装置１は、情報提示画像ＩＳの画像サイズ、形状、色等の表示態様を設定する。ここで、画像サイズや形状は、動画の他の被写体に合わせることが考えられる。例えば図１３Ａのゴールラインに沿って表示する場合には、その遠近を考慮して形状やサイズを設定する。その意味では、フレーム画像データへの挿入領域の設定（Ｓ２０４）も、この時点で同時に行うようにすることが考えられる。
ステップＳ２０３で画像処理装置１は、情報提示画像ＩＳの各画素の深度情報ＤＰｅを設定する。例えばこのときに、合成する被写体の遠近法に従って徐々に変化させるようにする。即ち情報提示画像ＩＳにおける各画素の深度情報ＤＰｅより１つ手前となる値を、挿入領域の各画素の深度情報ＤＰとする。

このように情報提示画像ＩＳを生成したら、画像処理装置１はステップＳ１０８～Ｓ１１５の処理を図８で説明したように行う。
即ち画像処理装置１は、当該フレームの画像データ上で、設定した挿入領域に含まれる各画素ＰＸを、順次情報提示画像ＩＳの各画素について設定した深度情報ＤＰｅと比較していき、前後関係を反映して、当該フレームの元の画像データと情報提示画像ＩＳのいずれを表示画素とするかを決定していく。

以上の処理を１フレームについて行い、ステップＳ１５５でエフェクト終了とされるまでは、再び図１４の処理をステップＳ１５２から実行する。
これにより、動画とともに例えばタイム等の情報を示す情報提示画像ＩＳが表示される。しかも情報提示画像ＩＳは、表示される位置に応じた遠近法に沿ったサイズや形状とされて、違和感がない。
また情報提示画像ＩＳを構成する画素は、元の画素の深度情報ＤＰに沿った深度情報ＤＰｅとされる。例えば図１３Ａのような動画である場合、その後、ランナーがタイム表示の部分を駆け抜けていくことになるが、その際もランナーの位置と情報提示画像ＩＳの各部の前後関係が反映された状態となる。これは、あたかもタイムを示す数値の物体が実際にゴールラインに沿って置かれているような画像表現となり、視覚効果の高い情報提示を実現できる。

なお、非リアルタイムでの合成処理としても情報提示画像ＩＳの付加が可能であることは言うまでもない。
また提示する情報は、多様に考えられる。例えばスポーツの動画であれば、競技のスコア、解説のためのテキスト、選手情報などが想定される。
撮像しているカメラに設けたセンサ、競技場に設けたセンサなどの検出データに基づく情報を提示することもできる。

＜５．第４の実施の形態の：編集インタフェース＞
以上の実施の形態では、動画に対する付加画像（エフェクト画像ＥＦ、テロップ画像ＴＰ、情報提示画像ＩＳ）を自動的に付加する例を述べたが、以下では、ユーザが付加画像の編集（例えば付加画像の表示の修正や付加画像自体の追加など）を手動で行うためのインタフェースについて説明する。

図１５により第４の実施の形態としての編集インタフェースの例を示す。図１５Ａ、図１５Ｂは、それぞれ例えばスマートフォン、タブレット、パーソナルコンピュータ等の情報処理装置の表示画面を示している。
この表示画面上には、編集操作のための画像モニタ領域６０、操作領域６１が設けられる。

画像モニタ領域６０には編集対象の動画が表示される。動画は通常表示、一時停止表示、変速再生表示などが可能とされる。図では被写体８２，８３としての人物と、エフェクト画像ＥＦが表示されている例としている。
ここで、エフェクト画像ＥＦは半透明の壁状とされた仮想的な物体としている。そして被写体８２はエフェクト画像ＥＦより手前側に、被写体８３はエフェクト画像ＥＦより奥側に居る状態の画像となっている。

操作領域６１には、台形状のデプスマップ画像６１ｃが表示される。このデプスマップ画像６１ｃは前端辺が画像の左右を表し、側辺は深度軸６１ｂに沿ったものとして奥行き方向を表している。即ちデプスマップ画像６１ｃとしての台形は遠近法で奥行きを表す画像とされている。
そして、そのデプスマップ画像６１ｃ内に、操作アイコン画像６１ａが表示される。

操作アイコン画像６１ａは、画像モニタ領域６０に表示されている画像内でのエフェクト画像ＥＦの奥行き位置及び水平位置に応じた状態でデプスマップ画像６１ｃ内に表示される。
そしてユーザは、タッチパネル操作により操作アイコン画像６１ａのドラッグ等を行うことで、デプスマップ画像６１ｃ内での操作アイコン画像６１ａの位置を移動させることができる。
例えば図１５Ｂは、操作アイコン画像６１ａを手前側に移動させた状態である。
このような操作により、実際の動画内でのエフェクト画像ＥＦの位置（深度方向及び水平方向の位置）を変化させることができる。図１５Ｂにおける画像モニタ領域６０では、エフェクト画像ＥＦが、右手前側に移動され、被写体８２もエフェクト画像ＥＦよりも奥側になった状態が示されている。

例えば以上のようにすることで、エフェクト画像ＥＦ等の画面内の位置、深度をタッチパネルを用いた直観的操作により変更することができる。
なお、エフェクト画像ＥＦに限らず、テロップ画像ＴＰや情報提示画像ＩＳについても同様の操作で表示位置（深度方向及び水平方向の位置）を調整することができる。

なお、ここでは壁状のエフェクト画像ＥＦを示したが、画面全体の不透明の壁状のエフェクト画像ＥＦを用いれば、特定の被写体のみを表示させ、他の被写体を壁で隠すといった画像効果が可能である。例えば被写体８２だけを表示させ、他をエフェクト画像ＥＦで隠す画像である。
その場合、当該操作により、壁を前後させて、隠す領域を調整することもできる。

＜６．第５の実施の形態の：編集インタフェース＞
第５の実施の形態の編集インタフェース例を図１６に示す。これは三面図によるプレビューを行うようにした例である。

図１６は情報処理装置において表示される編集画面であるが、この画面は主に５つの領域に分割されて表示が行われている。
即ちフロントビュー領域６２、トップビュー領域６３、サイドビュー領域６４、設定領域６５、タイムライン領域６６である。

フロントビュー領域６２は通常の動画モニタ画面とされ、動画内容が再生状態、一時停止状態、変速再生状態などで表示される。ここでは先の図１５と同様に、被写体８２，８３及び半透明の壁状のエフェクト画像ＥＦが表示される例を示している。

トップビュー領域６３は、上側から見た状態のデプスマップとして画像を示している。例えばトップビュー領域６３の上下方向に深度軸６３ａが表示され、画像の深度が表現される。そして画像内の被写体８２，８３及びエフェクト画像ＥＦが、上方からみた状態として、それらに設定された深度の位置に示される。

サイドビュー領域６４は、側方から見た状態のデプスマップとして画像を示している。例えばサイドビュー領域６４の左右方向に深度軸６４ａが表示され、画像の深度が表現される。そして画像内の被写体８２，８３及びエフェクト画像ＥＦが、側方からみた状態として、それらに設定された深度の位置に示される。

設定領域６５には、エフェクト画像ＥＦの画像及び設定情報が表示される。設定情報とはサイズ、角度、位置、色、深度などの設定についての情報である。設定領域６５の各設定値はユーザ操作により変更可能である。

タイムライン領域６６は、時間軸６６ａに沿って動画のタイムラインを表している。特にタイムライン上において、被写体８２，８３やエフェクト画像ＥＦの出現ポイント、終了ポイントやプレビューされている現在の位置が表示される。
例えば「human1」「human2」は被写体８２，８３を、「moll」はエフェクト画像ＥＦを表し、○で登場タイミング、●で終了（画面からいなくなる）タイミングを示している。またバー６６ｂにより、フロントビュー領域６２、トップビュー領域６３、サイドビュー領域６４に示される動画内のプレビューされている時点（フレーム）が示される。

このような編集インタフェースによれば、ユーザは、フロントビュー領域６２のプレビュー画像をみながら、トップビュー領域６３やサイドビュー領域６４により前後関係を確認することができる。そして、これらをみながら、設定領域６５での操作によりエフェクト画像ＥＦの設定を任意に変更することができる。
エフェクト画像ＥＦの深度の設定に関しては、トップビュー領域６３やサイドビュー領域６４におけるエフェクト画像ＥＦのタッチ操作、ドラッグ操作で変更可能としてもよい。

またタイムライン領域６６における操作により、エフェクト画像ＥＦの登場タイミング、終了位タイミングも調整可能である。つまり動画内でのエフェクト画像ＥＦの登場区間（エフェクト実行フレーム区間）を、タイムライン領域６６での登場タイミングや終了タイミングのマーク（例えば「○」「●」）をドラッグ操作等により移動させることで変更可能とするとよい。
これらにより、ユーザは、実際の動画の中で、エフェクト画像ＥＦのサイズ、色、深度や、エフェクト画像ＥＦの登場区間を容易に調整できる。

＜７．第６の実施の形態の：編集インタフェース＞
第６の実施の形態としての編集インタフェースの例を図１７で説明する。これは深度軸と時間軸を表したタイムラインを表示する例である。
図１７に示す編集インタフェース画面では、画像モニタ領域６０、レイヤー表示領域６７、二軸マップ領域６８が設けられている。

画像モニタ領域６０として、動画のプレビュー表示が行われる。即ち動画内容が再生状態、一時停止状態、変速再生状態などで表示される。ここでは被写体としての５人の人物（被写体人物ＯＢ１，ＯＢ２，ＯＢ３，ＯＢ４，ＯＢ５）と、３つのエフェクト画像ＥＦ（ＥＦ１，ＥＦ２，ＥＦ３）が表示されている例としている。

レイヤー表示領域６７では、被写体人物ＯＢ１，ＯＢ２，ＯＢ３，ＯＢ４，ＯＢ５の各レイヤーＬＯＢ１，ＬＯＢ２，ＬＯＢ３，ＬＯＢ４，ＬＯＢ５と、エフェクト画像ＥＦ１，ＥＦ２，ＥＦ３のレイヤーが斜視的に示されている。これによって被写体人物ＯＢ１～ＯＢ５とエフェクト画像ＥＦ１，ＥＦ２，ＥＦ３の前後関係が明確にわかるようにされる。

二軸マップ領域６８は、横方向が時間軸、縦方向が深度軸とされる領域である。この二軸マップ領域６８では、被写体人物ＯＢ１，ＯＢ２，ＯＢ３，ＯＢ４，ＯＢ５の深度に対して、エフェクト画像ＥＦ１，ＥＦ２，ＥＦ３の深度が各時間において示されている。

このようなインタフェース画面において、例えば二軸マップ領域６８上で、エフェクト画像ＥＦの深度を時間軸で示すラインを任意に変更できるようにする。これにより、動画内でのエフェクト画像ＥＦの深度変化を容易に編集できることになる。
また、各エフェクト画像ＥＦ１，ＥＦ２，ＥＦ３の深度変化と被写体人物ＯＢ１，ＯＢ２，ＯＢ３，ＯＢ４，ＯＢ５の深度位置関係が明確であり、画像効果もわかりやすいものとなる。

＜８．第７の実施の形態の：編集インタフェース＞
第７の実施の形態としての編集インタフェースの例を図１８から図３２を用いて説明する。これも時間軸と深度軸を有する二軸マップを表示する例であるが、さらに二軸マップを活用しながら多様なプレビューを実現する例である。

図１８から図２３は、編集操作画像７０としての各種の表示態様を示している。
本例では、編集操作画像７０として図１８の二軸マップ領域７１を表示させながら、多様な画像態様の切替が行われる。

まず図１８は二軸マップ領域７１としてタイムライン表示を行っている状態である。
二軸マップ領域７１は、左右方向が時間軸とされてタイムラインとしての機能を持つ。さらに上下方向が深度軸とされることで、時間と深度の二軸のマップとなる。

なお編集操作画像７０には、ツールアイコン７２、画面切替アイコン７３、現在時間表示７４、動画操作アイコン７５、拡大縮小操作子７６、プレビュー操作子７７等も表示される。
ツールアイコン７２としてはタイムライン操作、エフェクト画像ＥＦの配置などに用いる操作子が用意されている。
画面切替アイコン７３としては、後述する俯瞰、正面、斜視などのプレビュー画面の切替のための操作子が用意されている。
現在時間表示７４として、タイムラインでの現在時間（プレビューされている画像（フレーム）についての動画内での時刻（タイムコード）が表示される。
動画操作アイコン７５として、タイムラインによる再生／停止／コマ送り／早送りなどの操作のための操作子が用意される。
拡大縮小操作子７６により、画像の拡大や縮小の操作が可能とされる。

プレビュー操作子７７は、二軸マップ領域７１の時間軸方向のタイミングを指定して、そのタイミングでのプレビュー表示を指示する操作子である。
例えば再生タイミング（再生時間位置）がプレビュー操作子７７により示され、プレビュー操作子７７を操作すると図１９のように、その時点でのプレビュー画像７８の表示が行われる。
また、プレビュー操作子７７の時間方向の位置を任意に指定して、その時点でのプレビューを要求する操作ができるようにしてもよい。
図１９のようにプレビュー画像７８が表示された状態では、閉じ操作子７９が表示され、この操作によりプレビュー画像７８の表示を終了させる操作ができるようにされる。

以下では各画面内容について説明するが、ここでは、例えば図１５，図１６で示したような被写体８２，８３とエフェクト画像ＥＦが画像内に存在するとして説明する。
図１８に示すように、二軸マップ領域７１には、エフェクト画像ＥＦや被写体８２，８３の深度の時間軸方向の遷移が、深度表示ラインＨＬ１，ＨＬ２，ＨＬ３として示される。
例えば深度表示ラインＨＬ１は、エフェクト画像ＥＦの深度の時間軸での変化を示すものとされる。深度表示ラインＨＬ２、ＨＬ３は、被写体８２，８３についての深度の時間軸での変化を示すものとされる。
このように深度表示ラインＨＬ１，ＨＬ２，ＨＬ３が示されることで、ユーザは動画内での時間進行に伴う被写体８２，８３とエフェクト画像ＥＦの前後位置関係の変化が明確に把握できることとなる。

この二軸マップ領域６８におけるあるタイミングにおけるプレビュー操作子７７が操作されることで、図１９のようにプレビュー表示が行われる。
この場合、プレビュー画像７８の表示は画像内容である被写体８２，８３とエフェクト画像ＥＦを上方からみた状態とされる。そして二軸マップ領域６８の指定されたタイミングを左右に広げて割り込むように行われる。
つまり二軸マップ領域６８における縦方向の深度軸はプレビュー画像７８についても適用され、被写体８２，８３とエフェクト画像ＥＦの深度関係が表現される。
時間軸については、破線部分（プレビュー画像７８の部分）は時間の進行が停止された状態となる。換言すれば時間軸が寸断されてプレビュー画像７８が挿入される。
時間軸が寸断されるため、プレビュー画像７８の左右では、被写体８２，８３とエフェクト画像ＥＦの深度変化はない。このためプレビュー画像７８における被写体８２，８３とエフェクト画像ＥＦは、それぞれ左右の深度表示ラインＨＬ１，ＨＬ２，ＨＬ３をつなぐ破線上に位置することになる。
このようなプレビュー画像７８により、ユーザは任意のタイミングでの被写体８２，８３とエフェクト画像ＥＦの深度関係が明確に把握できる。

プレビュー画像７８に対して操作を行うことで、エフェクト画像ＥＦの深度位置を変化させることができる。例えばユーザはエフェクト画像ＥＦを画面上下（即ち深度軸方向）に移動させるように操作を行うことで、エフェクト画像ＥＦの深度を調整する。これにより当該プレビュー画像７８のフレームにおいてエフェクト画像ＥＦの深度が変更される。この場合に、画面上で左右に連続する深度表示ラインＨＬ１も連動して変化するようにしてもよい。
またエフェクト画像ＥＦの設定（サイズ、位置、種別等）を変化させることができるようにしてもよい。

図２０は縮小表示した状態を示している。拡大縮小操作子７６を操作することで、画面の拡大縮小を行うことができ、例えば縮小することで、ユーザはより長い時間範囲のタイムラインを見ることができる。
特に図１９のようにプレビュー画像７８を表示されると、タイムラインとして深度表示ラインＨＬ１，ＨＬ２，ＨＬ３が表示される時間範囲が短くなる。その場合、図２０のように縮小表示させることで、長い時間範囲でプレビュー画像７８の前後の時点の深度関係の変化を確認できるようになる。
なお、ユーザはタイムバー７１ａを移動させることにより、タイムライン上の各タイミングを指定できる。

図２１は複数のタイミングにおけるプレビュー画像７８、７８Ａを表示させた状態である。ユーザは例えばタイムバー７１ａにより時間軸上での任意のタイミングを指定してプレビュー操作を行うことで、追加のプレビュー画像７８Ａを表示させることができる。つまり複数のタイミングでのプレビュー画像７８，７８Ａを同時に確認できる。
これにより時間軸上での被写体８２，８３とエフェクト画像ＥＦの前後関係を確認したり、エフェクト画像ＥＦの深度を複数の時間位置で調整していくことが容易となる。

図２２は正面画表示を行っている状態である。図１９のようなプレビュー画像７８は、二軸マップ領域６８の深度軸に合わせて表示されるため、実際の動画内容ではない。ユーザは画面切替アイコン７３の操作により、プレビュー画像７８の態様を切り替えることができる。図２２の正面プレビュー画像７８Ｆは、動画の元々のフレーム画像の表示となる。この場合、深度軸は画面奥行き方向となるため、タイムライン表示は一時的に消去される。但し、図１９のように左右にタイムライン表示を残しながら、プレビュー画像７８を正面プレビュー画像７８Ｆに切り替えるようにしてもよい。

図２３は立体プレビュー画像７８Ｒとして立体画表示を行っている状態である。動画のフレーム画像に対して奥行き方向の表現を加えた画像となる。ユーザは画面切替アイコン７３の操作により、この立体プレビュー画像７８Ｒにも切り替えることができる。
この場合、時間軸方向と深度方向が斜視的に表現可能となるため、立体プレビュー画像７８Ｒとともに、タイムライン表示（深度表示ラインＨＬ１，ＨＬ２，ＨＬ３の表示）も行われている。
これにより画像の前後関係のイメージや、被写体８２，８３とエフェクト画像ＥＦの深度の時間方向の遷移がわかりやすいものとなる。

以上のように画面態様を切替ながら編集が可能とされる。以下では、図２４の動画イメージを用いて、図２５から図３１により編集インタフェースの利用例を説明する。

図２４Ａ，図２４Ｂ，図２４Ｃ、図２４Ｄ、図２４Ｅ，図２４Ｆは、動画を構成する各フレームの画像例を示している。これは被写体８２としての人物の周囲に、エフェクト画像ＥＦとしての光源ＥＦ１が回っている動画であるとする。エフェクト画像ＥＦとしては、光源ＥＦ１に少し遅れて回っているテキストＥＦ３と、光源ＥＦ１の軌跡ＥＦ２が表示されているとする。

このような動画においてエフェクト画像の編集を行う。編集のための画面は上述のように各種表示状態の間で遷移可能である。図２５は表示状態の遷移を示している。
図２５Ａはタイムライン表示（図１８参照）である。
タイムライン表示からは図２５Ｂのプレビュー表示（図１９参照）に遷移できる。
図２５Ｂのプレビュー表示からは、図２５Ａのタイムライン表示、図２５Ｃの縮小表示（図２０参照）、図２５Ｄの複数プレビュー表示（図２１参照）、図２５Ｅの正面画表示（図２２参照）、図２５Ｆの立体画表示（図２３参照）に遷移できる。これらのそれぞれからプレビュー表示に戻ることもできる。
縮小表示と、複数プレビュー表示は相互に遷移可能である。
立体画表示と、複数プレビュー表示は相互に遷移可能である。
立体画表示と、正面画表示は相互に遷移可能である。
もちろん以上は一例であり、遷移経路は多様に考えられる。

図２４の動画の場合、タイムライン表示は図２６のようになる。ここでは深度表示ラインＨＬ１，ＨＬ２，ＨＬ３が表示される。深度表示ラインＨＬ１は光源ＥＦ１の深度の遷移を表している。光源ＥＦ１は被写体８２の周囲を回る移動を行っているため、時間軸方向には正弦波的な遷移となる。深度表示ラインＨＬ２は被写体８２の深度の遷移を表している。動画内で被写体８２は立ち止まって移動していないことから深度表示ラインＨＬ２は或る深度を保った直線となっている。
深度表示ラインＨＬ３はテキストＥＦ３の深度の遷移を表している。テキストＥＦ３は光源ＥＦ１の後について被写体８２の周囲を回る移動を行っているため、これも時間軸方向には、深度表示ラインＨＬ１より少し遅れた正弦波的な遷移となる。

或るタイミングでのプレビュー画像７８が表示されると図２７のようになる。
プレビュー画像７８では被写体８２の周囲に光源ＥＦ１、テキストＥＦ３、光源の軌跡ＥＦ２が示される。この画面上で、光源ＥＦ１やテキストＥＦ３の深度を調整することができる。また光源ＥＦ１、軌跡ＥＦ２、テキストＥＦ３の設定（サイズ、色、形状その他）を変更可能としても良い。

縮小表示が行われると図２８のようになる。これによりプレビュー画像７８の前後の時間における深度表示ラインＨＬ１，ＨＬ２，ＨＬ３により、光源ＥＦ１、被写体８２、テキストＥＦ３について長い時間範囲での深度遷移が明確に表示される。

さらに他のある時点のプレビュー画像７８Ａが表示された状態が図２９である。このように複数時点のプレビュー画像７８，７８Ａを開くことで、タイムラインでの関係を確認しながら、光源ＥＦ１やテキストＥＦ３の深度や、光源ＥＦ１、軌跡ＥＦ２、テキストＥＦ３の設定を変更することができる。

動画における画像を確認するには図３０のように正面プレビュー画像７８Ｆを表示させる。これによりユーザは実際の動画のフレーム画像を確認できる。特にユーザは、例えばプレビュー画像７８で深度等の調整操作を行いながら正面プレビュー画像７８を確認することで、より望むような調整ができているか否かを確認しやすい。
さらに図３１の立体プレビュー画像７８Ｒを表示することで、さらに動画内容と奥行きを同時に確認できる。これによりユーザは各種調整操作を行いながら、立体空間でのエフェクト画像ＥＦの動きを確認でき、編集作業が容易となる。

以上のような編集インタフェースでは、二軸マップ領域７１を基本として編集操作画像７０としての各種画面を遷移しながら、ユーザに容易な編集環境を提供するものとなる。
この各種編集操作画像７０は、図１の編集操作画像生成部８の機能により画像処理装置１が生成し、表示部１１等に表示させる。
画像処理装置１は、ユーザの操作に応じた画面遷移を行うために、図３２の処理を行うことになる。

編集操作画像７０の表示がユーザに指示されると、画像処理装置１はステップＳ３０１からＳ３０２に進み、時間軸と深度軸による二軸マップ領域７１を備えた編集操作画像、即ち図１８のタイムライン表示を行う。
その状態で画像処理装置１は、ユーザによる操作として、終了操作（Ｓ３０３）、プレビュー操作（Ｓ３０４）、拡大縮小操作（Ｓ３０５）、プレビュー閉じ操作（Ｓ３０６）、正面画操作（Ｓ３０７）、立体画操作（Ｓ３０８）を監視する。

終了操作が検知されたら、画像処理装置１はステップＳ３１７で編集操作画像７０の表示を終了する。

例えばプレビュー操作子７７等によるプレビュー操作を検知したら、画像処理装置１はステップＳ３０４からＳ３１０に進み、プレビュー可能な状態か否かを確認し、可能であればステップＳ３１１で、指定された時点のフレーム画像によるプレビュー画像７８の表示を行う。
即ち画像処理装置１は、該当時点のフレーム画像における各画素の深度を確認し、各被写体やエフェクト画像ＥＦの深度をトップビューとして表現した画像を生成し、それを二軸マップ領域７１の当該タイミングの部分に挿入して表示画像データを生成する。そしてその表示画像データを表示部１１に供給して表示させる。
なお、プレビュー不能な場合、例えば有効な画像が存在しない時点に対するプレビュー操作などの場合は、画像処理装置１は、検知したプレビュー操作は無効操作としてステップＳ３０３～Ｓ３０８の監視ループに戻る。

例えば拡大縮小操作子７６による拡大縮小操作を検知したら、画像処理装置１はステップＳ３０５からＳ３１２に進み、指示された拡大又は縮小が可能か否かを確認し、可能であればステップＳ３１３で拡大表示又は縮小表示を行う。
即ち画像処理装置１は、二軸マップ領域７１の縮尺を変更して、その拡大又は縮小した二軸マップ領域７１内でプレビュー画像７８が配置されるような表示画像データを生成する。そしてその表示画像データを表示部１１に供給して表示させる。
なお、拡大又は縮小が不能な場合、例えば最大拡大率又は最小縮小率の状態にあるときなどは、画像処理装置１は、検知した拡大縮小操作は無効操作としてステップＳ３０３～Ｓ３０８の監視ループに戻る。

例えば閉じ操作子７９によるプレビュー閉じ操作を検知したら、画像処理装置１はステップＳ３０６からＳ３１４に進み、指定されたプレビュー画像７８の表示を終了させ、その部分は二軸マップ領域７１の表示に戻すようにする。

例えば画面切替アイコン７３を用いた正面画表示の操作を検知したら、画像処理装置１はステップＳ３０７からＳ３１５に進み、指定されたプレビュー画像７８を正面プレビュー画像７８Ｆに変更する。つまりこの場合画像処理装置１は、指定されたプレビュー画像７８の元のフレーム画像を表示させる。またこの場合は、二軸マップ領域７１の表示を停止させる。

例えば画面切替アイコン７３を用いた立体画表示の操作を検知したら、画像処理装置１はステップＳ３０８から３１６に進み、指定されたプレビュー画像７８を立体プレビュー画像７８Ｒに変更する。つまりこの場合画像処理装置１は、指定されたプレビュー画像７８の元のフレーム画像についての立体画を生成し、斜視的な二軸マップ領域７１に挿入した状態の表示画像データを生成して、表示部１１で表示させる。

画像処理装置１は以上の処理により各種の画面状態を遷移させながら、ユーザに二軸マップ領域７１を基本とした編集インタフェースを提供することになる。

＜９．まとめ及び変形例＞
以上の第１～第７の実施の形態によれば次のような効果が得られる。
各実施の形態では、画像処理装置１は、動画データに付加する付加画像を生成する付加画像生成部５と、付加画像を付加する対象とした動画データにおける画素の深度情報を用いて、動画データに付加画像を付加する画像編集処理を行う画像編集処理部６を備える。
これにより被写体の深度に応じた各種の画像編集処理、例えば被写体へのエフェクト画像ＥＦ等の付加画像の重ね合わせ、付加画像としてのグラフィックスや文字等の合成、光学的効果の付与等の処理を行うことができる。特にはこれらの動画編集において、奥行きのある被写体画像の空間に自然になじむような画像表現が可能になる。
特に自動的に深度に応じた付加画像の合成が行われることで、例えば動画放送のための効果的な動画編集が容易に実行でき、例えばリアルタイム中継で視覚効果の高い放送コンテンツを提供できる。もちろん録画放送において容易に画像エフェクトを施した動画を提供できることにもなる。
そして本技術による多彩な画像表現、処理の容易性は、より広いユーザ層に受け入れられ易いと考えられる。映画やドラマは勿論、パーソナルコンテンツやソーシャルメディアのさらなる発展に貢献できる。特にスポーツなどは新たな楽しみ方が増えることでよりファン層の拡大が期待できる。
また自動的に深度に応じた合成が行われることで、一般ユーザにとっても多様かつ高度な画像処理を容易かつ気軽に実行できるものとなる。特にユーザに高度なスキルを要求せずに、より自然な編集動画を生成できる。これによりユーザにとっては画像表現の拡大がもたらされる。
通常、画像表現はユーザのスキルやツールの機能や性能に制約を大きく受けていたが、本実施の形態の技術により表現の幅が大幅に広がることが期待される。ユーザはより容易に自らのイメージに近い表現をすることができるし、一般的なエフェクトと異なり組み合わせで使うことによる効果が期待できるため表現のバリエーションも大きく広がる。
また本実施の形態は、ソーシャルメディアの発展にも寄与できる。
実施の形態の技術は、表現の多彩さ、容易さにより広いユーザ層に受け入れられることが想定される。これによりソーシャルメディアでの表現が多彩となり、おもしろみのある動画によるコミュニケーション環境を提供できる。
なお付加画像としてエフェクト画像ＥＦ、情報提示画像ＩＳ、テロップ画像ＴＰを例に挙げたが、付加画像はこれらに限定されるものではない。これらに含まれない態様であっても、動画に画像効果や情報提示のために付加される画像が本開示で言う付加画像に相当する。
例えば動画内の被写体をコピーした画像を追加したり、他の動画の被写体を追加するなどの態様の付加画像も想定される。
またエフェクト画像ＥＦ、情報提示画像ＩＳ、テロップ画像ＴＰなどを複合して動画に合成することも当然考えられる。

第１，第２，第３の実施の形態では、動画データの被写体の深度情報と付加画像に設定された深度情報とを用いて被写体と付加画像の前後関係を反映した画像編集を行う例を述べた。
即ち付加画像について設定された深度情報と被写体（動画データの各フレームの画素）の深度情報により、付加画像と被写体の前後関係が規定されるようにする。
この前後関係を反映して、付加画像（エフェクト画像ＥＦ、情報提示画像ＩＳ、テロップ画像ＴＰ等）を動画の元々の被写体に合成することで、立体空間上での正しい位置関係で付加画像を挿入できる。つまり動画編集として付加画像を付加する際に、被写体の空間に対して違和感のない付加画像の合成が実現できる。

第１，第２，第３の実施の形態では、付加画像は、動画データにおける当該付加画像の挿入位置における深度情報に応じてサイズ調整されて動画データに合成されることを述べた。
例えば付加画像生成部５もしくは画像編集処理部６は、付加画像を深度情報に基づいてサイズ調整する。これにより付加画像自体が挿入位置の遠近に応じたサイズ（遠近法に沿った状態）で表現されるようにする。
付加画像自体が、その遠近によってサイズ調整されることで、元々の被写体と違和感の無い状態で合成される。これにより高品位な付加画像を合成することができる。例えば図５Ａのエフェクト画像ＥＦ、図１０Ａのテロップ画像ＴＰや図１３Ａの情報提示画像ＩＳは、遠近を反映した画像となっていることで、自然に動画にマッチしている。

第１の実施の形態では、付加画像は、動画データにおける動体検出結果を用いて生成されるエフェクト画像ＥＦである例を述べた。
即ち動画内で動きのある被写体の動きの追尾や動きの軌跡などを表現するエフェクト画像ＥＦを付加画像として生成し、動画に合成する（図６、図７、図８、図９参照）。
これにより動画における動体の動きに応じた多様な画像表現を実現できる。例えば図４Ｃ、図４Ｄ、図４Ｅ、図５Ａ、図５Ｂに例示したように迫力のある動画、動きのわかりやすい動画などを提供できる。
なおエフェクト画像ＥＦとしては動体に応じたものに限られない。例えば図１５Ａ、図１５Ｂに例示したように、動体とは特に無関係のエフェクト画像ＥＦも考えられる。動画内の被写体の一部を隠す効果、被写体の一部を強調する効果、特に画像内容とは無関係のグラフィックの挿入、複数の動画の重ね合わせなど、多様な例のエフェクト画像ＥＦが想定される。

第１の実施の形態では、エフェクト画像ＥＦには動体に応じた深度情報が設定され、動画データの被写体の深度情報と、エフェクト画像に設定された深度情報とを用いて被写体と付加画像の前後関係を反映した画像編集を行う例を述べた。
例えばエフェクト画像ＥＦについて、動体の動きに応じた深度情報を設定し、エフェクト画像が動体の深度に対応した画像となるようにする（図６、図７、図８、図９参照）。
これにより動体に対応するエフェクト画像ＥＦは、周囲の被写体との前後関係が規定される。この前後関係を反映して、エフェクト画像ＥＦを動画の元々の被写体に合成することで、立体空間内での正しい位置関係で動体に応じた効果画像を表現するような画像が実現される。従って動画内の被写体の空間に対して違和感のないエフェクト画像ＥＦとして動体軌跡や動体の動きに応じた画像が表現できる。

第１の実施の形態では、エフェクト画像ＥＦは、動体に応じた深度情報が設定され、深度情報に応じてサイズ調整されて動画データに合成される例を述べた。
つまり付加画像生成部５もしくは画像編集処理部６は、エフェクト画像ＥＦを深度情報に基づいてサイズ調整する。これによりエフェクト画像ＥＦ自体が挿入位置（つまり各フレームにおける動体の位置）の遠近に応じたサイズ（遠近法に沿った状態）で表現されるようにする（図６、図７、図８、図９参照）。
エフェクト画像ＥＦが、その遠近によってサイズ調整されることで、元々の動画の中で動体が視認される大きさに応じたサイズ感で軌跡等が表現される。例えば図５Ａのエフェクト画像ＥＦとして表現される動体８０の軌跡は、各時点（フレーム）の動体位置に応じてサイズ（この場合は軌跡の横幅）が変化する。このように遠近を反映した画像とすることで、自然に動画にマッチしつつ、時間経過に伴う動体８０の変位をわかりやすく表現できることになる。

第１の実施の形態では、付加画像は、動画データにおける動体の軌跡を表すエフェクト画像ＥＦである例を述べた。
即ち動画内で動きのある被写体の動き軌跡を表現するエフェクト画像を付加画像として生成し、動画に合成する（図９Ａ、図９Ｂ参照）。
これにより動画における動体の動きの軌跡をわかりやすく提示する画像表現を実現できる（図４Ｃ、図４Ｄ、図４Ｅ、図５Ａ、図５Ｂ参照）。

第１の実施の形態では、付加画像は、動画データにおける動体の動作態様又は動作種別を表すエフェクト画像ＥＦである例を述べた。
即ち動画内で動体の動作として各種の態様や種別があるが、それらを表現するエフェクト画像を付加画像として生成し、動画に合成する（図９Ｂ参照）。
これにより動画における動体の動きの態様や種別をわかりやすく提示する画像表現を実現できる。例えば図４Ｃ、図４Ｅは略水平方向の移動を表し、図４Ｄはスピンを表している。図５Ａの例では、動体８０としてのボールの回転数によって色や濃度が変化する画像とした。図５Ｂの場合、一方の人物の竹刀の軌跡と他方の人物の竹刀の軌跡を異なる色で表現する画像とした。
これらにより、迫力のある画像であるだけでなく、動きの態様や種別がわかりやすい画像を提供できることになる。

第２の実施の形態では、付加画像は、動画データにおける音声検出結果を用いて生成されるテロップ画像ＴＰである例を述べた。
つまり動画内で人物の発話などを検出し、そのテロップ画像を付加画像として生成し、動画に合成する（図１１、図１２Ａ、図１２Ｂ、図１２Ｃ参照）。
これにより動画において音声テロップを含む画像表現を実現できる。例えば図１０Ａ、図１０Ｂ、図１０Ｃ、図１０Ｄに例示したように音声を表現する動画を提供できる。そしてこのテロップ画像ＴＰが、深度情報を用いて合成されることで、音源（発話者）の深度を反映した画像表現となる。

第２の実施の形態では、テロップ画像ＴＰは、動画データからの音声認識に基づいてテキストデータを表示する画像であるとした。
即ち動画内で発話される音声を認識しテキストデータを取得する。そしてそのテキストデータをテロップ表示する（図１１、図１２Ａ、図１２Ｂ、図１２Ｃ参照）。
これにより動画における被写体人物の発話を明示するとともに、そのテロップは例えば発話した被写体人物の深度に対応した状態で表示されるように合成される。従って発話した被写体人物に応じたテロップとして合成され、発話者がわかりやすい画像表現が実現できる。

第２の実施の形態では、テロップ画像ＴＰは、動画データから認識される音声の音量に応じて異なる態様の画像とされる例を述べた。
テロップ画像ＴＰは、例えば認識した音声の音量、声量に応じてサイズ、フォントなどが異なるなど、異なる表示態様とする（図１２Ｃ参照）。
これにより動画における被写体人物の発話などの音量によって、表示態様が異なるテロップ画像ＴＰを、その発話した被写体人物の深度に対応した状態で表示されるようにすることができ、面白みのある、或いは表現力の高いテロップ表示が実現できる。

第２の実施の形態では、テロップ画像ＴＰは、動画データにおける発話者の感情情報に応じて異なる態様の画像とされる例を述べた。
例えば認識した音声や画像から発話者の感情を推定する。そして感情（怒り、喜び、驚き）などにより、サイズ、フォントなどが異なるなど、異なる表示態様とする（図１２Ｂ参照）。
例えば図１０Ｂ、図１０Ｃ、図１０Ｄに例示したように吹き出しの態様や文字サイズ、フォント等を変えることで感情を表現するテロップ画像ＴＰとなる。
これにより動画における被写体人物の感情等を反映し、面白みのある、或いは表現力の高いテロップ表示が実現できる。

第３の実施の形態では、付加画像は、取得情報を用いて生成される情報提示画像であるとした。
即ち動画に関して情報ソースから情報を取得し、その情報を提示する画像を付加画像として生成する。そして深度情報を用いて動画に合成する（図１４参照）。
これにより動画に関連した情報を、適切な前後関係や遠近状態であって違和感ない状態で画面上に提示することができる。例えば図１３Ａのようにタイム表示を行う場合でも、ゴールライン近辺に合成する場合に、その遠近が表現されることで、違和感のない動画を視聴者に提供できることになる。

第５，第６，第７の実施の形態では、画像処理装置１において、動画データに付加した付加画像を編集するためのユーザインタフェース画像として、動画の時間軸と深度軸が表現される編集操作画像を生成する編集操作画像生成部８を備えるものとした。
即ち付加画像の合成状態を編集したい場合に、ユーザが編集に用いる編集画像を生成し、表示されるようにする。この場合に編集画像は、動画の時間軸と深度軸が表現されるものとする。
図１６の例、図１７の例、図１８～図３１で説明した例では、タイムラインとしての動画の時間軸が存在し、また被写体や付加情報の深度を示す軸が存在する。これによりユーザは、動画の進行とともに深度の状態を把握し易い。これによって付加画像の編集作業が容易化される。
なお、第４の実施の形態（図１５）では、編集インタフェース画面上で深度軸を備えるようにして、付加画像の深度を直感的に調整できるようにしている。これによってもユーザの簡易な編集が実現できる。

第６，第７の実施の形態では、編集画面として一方の軸が時間軸で他方の軸が深度軸とされる表示領域を有するものとした。
例えば１つの領域として、例えば横方向が時間軸、縦方向が深度軸となるような領域を設けて編集用の画面が形成されるようにする。
図１７の例や、図１８～図３１で説明した例では、二軸マップ領域６８，７１がこのような領域である。時間軸と深度軸から成る領域を設けることで、動画の進行と被写体や付加画像の深度の関係や変動が極めて認識し易くなり、編集作業の効率化、容易化が実現できる。

第７の実施の形態の編集操作画像７０は、時間軸方向の情報と、ある時点の画像（プレビュー画像７８）が同時に表示される画像とした。
例えば時間軸方向の情報がタイムラインとして表示されつつ、その一部の時点のプレビュー画像７８や立体プレビュー画像７８Ｒが同時に表示されるようにする。
例えば図１９や図２３のように表示が行われることで、タイムライン上での或る時点の画像を容易に確認でき、しかも被写体等の前後関係の変化がわかりやすいものとなる。これによって編集作業の効率化、容易化が促進される。

第７の実施の形態では、編集操作画像７０は、時間軸方向の情報を示す画像上で、ある時点を指定することで、当該時点の画像が時間軸方向の情報と同時に表示される画像であるとした。
例えば時間軸方向の情報がタイムラインとして表示されつつ、或る時点を指定することで、タイムラインの情報が提示されたまま、当該時点のプレビュー画像７８が図１９のように表示されるようにした。
これにより、タイムライン上でユーザが指定した或る時点の画像を容易に確認できる。しかも、その前後での被写体等の前後関係の変化がわかりやすい。これによって編集作業の効率化、容易化が促進される。

第７の実施の形態では、編集操作画像７０は、時間軸方向のある時点のプレビュー画像を立体画像として表示する画像である例を述べた。
例えば時間軸方向の情報がタイムラインとして表示されつつ、タイムライン上で指定した或る時点の画像が立体プレビュー画像７８Ｒとして図２２のように表示される。
これにより被写体や付加画像の深度の関係がわかりやすくなり、これによっても編集作業の効率化、容易化が促進される。

実施の形態のプログラムは、情報処理装置に、動画データに付加する付加画像を生成するステップと、付加画像を付加する対象とした動画データにおける画素の深度情報を用いて、動画データに付加画像を付加する画像編集処理を行うステップとを実行させるプログラムである。
即ち図６、図７、図８、図９、図１１、図１２、図１４の処理を情報処理装置に実行させるプログラムである。

このようなプログラムにより本実施の形態の画像処理装置１の実現が容易となる。
そしてこのようなプログラムはコンピュータ装置等の機器に内蔵されている記録媒体や、ＣＰＵを有するマイクロコンピュータ内のＲＯＭ等に予め記憶しておくことができる。あるいはまた、半導体メモリ、メモリカード、光ディスク、光磁気ディスク、磁気ディスクなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記憶）しておくことができる。またこのようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、ＬＡＮ、インターネットなどのネットワークを介してダウンロードすることもできる。

なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。

なお本技術は以下のような構成も採ることができる。
（１）
動画データに付加する付加画像を生成する付加画像生成部と、
付加画像を付加する対象とした動画データにおける画素の深度情報を用いて、動画データに付加画像を付加する画像編集処理を行う画像編集処理部と、を備えた
画像処理装置。
（２）
前記画像編集処理部は、動画データの被写体の深度情報と前記付加画像に設定された深度情報とを用いて被写体と付加画像の前後関係を反映した画像編集を行う
上記（１）に記載の画像処理装置。
（３）
前記付加画像は、動画データにおける当該付加画像の挿入位置における深度情報に応じてサイズ調整されて動画データに合成される
上記（１）又は（２）に記載の画像処理装置。
（４）
前記付加画像は、動画データにおける動体検出結果を用いて生成されるエフェクト画像である
上記（１）乃至（３）のいずれかに記載の画像処理装置。
（５）
前記エフェクト画像には動体に応じた深度情報が設定され、
前記画像編集処理部は、動画データの被写体の深度情報と前記エフェクト画像に設定された深度情報とを用いて被写体と付加画像の前後関係を反映した画像編集を行う
上記（４）に記載の画像処理装置。
（６）
前記エフェクト画像は、動体に応じた深度情報が設定され、深度情報に応じてサイズ調整されて動画データに合成される
上記（４）又は（５）に記載の画像処理装置。
（７）
前記付加画像は、動画データにおける動体の軌跡を表すエフェクト画像である
上記（１）乃至（６）のいずれかに記載の画像処理装置。
（８）
前記付加画像は、動画データにおける動体の動作態様又は動作種別を表すエフェクト画像である
上記（１）乃至（７）のいずれかに記載の画像処理装置。
（９）
前記付加画像は、動画データにおける音声検出結果を用いて生成されるテロップ画像である
上記（１）乃至（３）のいずれかに記載の画像処理装置。
（１０）
前記テロップ画像は、動画データからの音声認識に基づいてテキストデータを表示する画像である
上記（９）に記載の画像処理装置。
（１１）
前記テロップ画像は、動画データから認識される音声の音量に応じて異なる態様の画像とされる
上記（９）又は（１０）に記載の画像処理装置。
（１２）
前記テロップ画像は、動画データにおける発話者の感情情報に応じて異なる態様の画像とされる
上記（９）乃至（１１）のいずれかに記載の画像処理装置。
（１３）
前記付加画像は、取得情報を用いて生成される情報提示画像である
上記（１）乃至（３）のいずれかに記載の画像処理装置。
（１４）
動画データに付加した前記付加画像を編集するためのユーザインタフェース画像として、動画の時間軸と深度軸が表現される編集操作画像を生成する編集操作画像生成部を備えた
上記（１）乃至（１３）のいずれかに記載の画像処理装置。
（１５）
前記編集操作画像は、一方の軸が時間軸で他方の軸が深度軸とされる表示領域を有する
上記（１４）に記載の画像処理装置。
（１６）
前記編集操作画像は、時間軸方向の情報と、ある時点の画像が同時に表示される画像である
上記（１４）又は（１５）に記載の画像処理装置。
（１７）
前記編集操作画像は、時間軸方向の情報を示す画像上で、ある時点を指定することで、当該時点の画像が時間軸方向の情報と同時に表示される画像である
上記（１４）乃至（１６）のいずれかに記載の画像処理装置。
（１８）
前記編集操作画像は、時間軸方向のある時点の画像を立体画像として表示する画像である
上記（１４）乃至（１７）のいずれかに記載の画像処理装置。
（１９）
動画データに付加する付加画像を生成する手順と、
付加画像を付加する対象とした動画データにおける画素の深度情報を用いて、動画データに付加画像を付加する画像編集処理を行う手順と、
を情報処理装置が実行する画像処理方法。
（２０）
動画データに付加する付加画像を生成するステップと、
付加画像を付加する対象とした動画データにおける画素の深度情報を用いて、動画データに付加画像を付加する画像編集処理を行うステップと、
を情報処理装置に実行させるプログラム。

１…画像処理装置、２…画像取得部、３…深度取得部、４Ａ…画像解析部、４Ｂ…音声認識部、４Ｃ…情報取得部、５…付加画像生成部、６…画像編集処理部、７…画像出力部、８…編集操作画像生成部、１０…操作部、１１…表示部、１２…通信部、１３…記憶部、１４…画像ソース、１５…情報ソース、６０…画像モニタ領域、６１…操作領域、６１ａ…操作アイコン画像、６１ｂ…深度軸、６１ｃ…デプスマップ画像、６２…フロントビュー領域、６３…トップビュー領域、６３ａ…深度軸、６４…サイドビュー領域、６４ａ…深度軸、６５…設定領域、６６…タイムライン領域、６７…レイヤー表示領域、６８…二軸マップ領域、７０…編集操作画像、７１…二軸マップ領域、７２…ツールアイコン、７３…画面切替アイコン、７４…現在時間表示、７５…動画操作アイコン、７６…拡大縮小操作子、７７…プレビュー操作子、７８，７８Ａ…プレビュー画像、７８Ｒ…立体プレビュー画像、７８Ｆ…正面プレビュー画像、７９…閉じ操作子、８０…動体、８１…発話者、８２，８３…被写体、１００…情報処理装置、ＥＦ…エフェクト画像、ＴＰ…テロップ画像、ＩＳ…情報提示画像、ＨＬ１，ＨＬ２，ＨＬ３…深度表示ライン

Claims

動画データに付加する付加画像を生成する付加画像生成部と、
付加画像を付加する対象とした動画データにおける画素の深度情報を用いて、動画データに付加画像を付加する画像編集処理を行う画像編集処理部と、
動画データに付加した前記付加画像を編集するためのユーザインタフェース画像として、動画の時間軸と深度軸が表現され、かつ時間軸方向の情報と、ある時点の画像が同時に表示される画像である編集操作画像を生成する編集操作画像生成部と、を備えた
画像処理装置。
前記画像編集処理部は、動画データの被写体の深度情報と前記付加画像に設定された深度情報とを用いて被写体と付加画像の前後関係を反映した画像編集を行う
請求項１に記載の画像処理装置。
前記付加画像は、動画データにおける当該付加画像の挿入位置における深度情報に応じてサイズ調整されて動画データに合成される
請求項１に記載の画像処理装置。
前記付加画像は、動画データにおける動体検出結果を用いて生成されるエフェクト画像である
請求項１に記載の画像処理装置。
前記エフェクト画像には動体に応じた深度情報が設定され、
前記画像編集処理部は、動画データの被写体の深度情報と前記エフェクト画像に設定された深度情報とを用いて被写体と付加画像の前後関係を反映した画像編集を行う
請求項４に記載の画像処理装置。
前記エフェクト画像は、動体に応じた深度情報が設定され、深度情報に応じてサイズ調整されて動画データに合成される
請求項４に記載の画像処理装置。
前記付加画像は、動画データにおける動体の軌跡を表すエフェクト画像である
請求項１に記載の画像処理装置。
前記付加画像は、動画データにおける動体の動作態様又は動作種別を表すエフェクト画像である
請求項１に記載の画像処理装置。
前記付加画像は、動画データにおける音声検出結果を用いて生成されるテロップ画像である
請求項１に記載の画像処理装置。
前記テロップ画像は、動画データからの音声認識に基づいてテキストデータを表示する画像である
請求項９に記載の画像処理装置。
前記テロップ画像は、動画データから認識される音声の音量に応じて異なる態様の画像とされる
請求項９に記載の画像処理装置。
前記テロップ画像は、動画データにおける発話者の感情情報に応じて異なる態様の画像とされる
請求項９に記載の画像処理装置。
前記付加画像は、取得情報を用いて生成される情報提示画像である
請求項１に記載の画像処理装置。
前記編集操作画像は、一方の軸が時間軸で他方の軸が深度軸とされる表示領域を有する
請求項１に記載の画像処理装置。
前記編集操作画像は、時間軸方向の情報を示す画像上で、ある時点を指定することで、当該時点の画像が時間軸方向の情報と同時に表示される画像である
請求項１に記載の画像処理装置。
前記編集操作画像は、時間軸方向のある時点の画像を立体画像として表示する画像である
請求項１に記載の画像処理装置。
動画データに付加する付加画像を生成する手順と、
付加画像を付加する対象とした動画データにおける画素の深度情報を用いて、動画データに付加画像を付加する画像編集処理を行う手順と、
動画データに付加した前記付加画像を編集するためのユーザインタフェース画像として、動画の時間軸と深度軸が表現され、かつ時間軸方向の情報と、ある時点の画像が同時に表示される画像である編集操作画像を生成する手順と、
を情報処理装置が実行する画像処理方法。
動画データに付加する付加画像を生成するステップと、
付加画像を付加する対象とした動画データにおける画素の深度情報を用いて、動画データに付加画像を付加する画像編集処理を行うステップと、
動画データに付加した前記付加画像を編集するためのユーザインタフェース画像として、動画の時間軸と深度軸が表現され、かつ時間軸方向の情報と、ある時点の画像が同時に表示される画像である編集操作画像を生成するステップと、
を情報処理装置に実行させるプログラム。