JP2011071813A - 3次元に表示された動画コンテンツ編集プログラム、装置及び方法 - Google Patents

3次元に表示された動画コンテンツ編集プログラム、装置及び方法 Download PDF

Info

Publication number
JP2011071813A
JP2011071813A JP2009222023A JP2009222023A JP2011071813A JP 2011071813 A JP2011071813 A JP 2011071813A JP 2009222023 A JP2009222023 A JP 2009222023A JP 2009222023 A JP2009222023 A JP 2009222023A JP 2011071813 A JP2011071813 A JP 2011071813A
Authority
JP
Japan
Prior art keywords
content
axis
tag information
content object
user interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009222023A
Other languages
English (en)
Inventor
Reiko Takizuka
令子 瀧塚
Koichi Takagi
幸一 高木
Ryoichi Yagi
良一 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009222023A priority Critical patent/JP2011071813A/ja
Publication of JP2011071813A publication Critical patent/JP2011071813A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

【課題】多数のコンテンツオブジェクトを編集する際に、各コンテンツオブジェクトの内容に応じて、ユーザの視覚的な編集操作を容易にすることができる動画コンテンツ編集プログラム、装置及び方法を提供する。
【解決手段】コンテンツオブジェクトは、時刻と、その内容に関係する1つ以上のタグ情報とを含んでおり、コンテンツオブジェクトを、3次元空間に並べて表示する。x軸は、所定時間範囲に区分され、y軸は、タグ情報の組み合わせに応じて異なるタイムラインに区分され、コンテンツオブジェクト毎に当該時刻及びタグ情報に応じてx軸及びy軸の空間に配置される。また、同一の所定時間範囲に含まれ且つ同一のタグ情報を有する複数のコンテンツオブジェクトは、z軸に並べて表示される。
【選択図】図2

Description

本発明は、動画コンテンツ編集プログラム、サーバ、装置及び方法に関する。特に、CGM(Customer Generation Media)に対する簡易な動画編集におけるユーザインタフェースに関する。
従来、映像や音声を含む動画コンテンツを、ハードディスクのような記憶装置に蓄積し、編集(例えばトリミングやクリッピング)することができる装置がある。例えば、家庭用AV(Audio-Visual)機器やパーソナルコンピュータが用いられる。このような装置は、コンテンツを再生すると同時に、ユーザからの編集操作を受け付け、その操作に応じてコンテンツを編集する。
動画コンテンツを編集するためにディスプレイに表示されるユーザインタフェースとして、通常、「タイムライン編集」が用いられる。タイムライン編集によれば、動画コンテンツの時系列の流れの中で、ストーリーを構成する画像が並ぶユーザインタフェースを有する。これによって、ユーザは、視覚的に編集しやすくなる。ユーザは、タイムラインに表示されている画像の位置(時刻)を、別の位置に移動させたり、その位置に別の画像を上書きすることもできる。また、画像の加工に限られず、BGM(Back Ground Music)や効果音を挿入することもできる。
近年、タイムライン編集技術によれば、「ストーリーボード(Storyboard)」が注目されている。ストーリーボードとは、動画を構成するコンテンツオブジェクト(Contents Object)毎に1コマのサムネイルを割り当て、複数のサムネイルを時系列に並べたもの(タイムライン)である。これによって、ユーザは、視覚的に簡単に、コンテンツオブジェクト単位での追加、削除、挿入等をすることができる。ストーリーボードによれば、動画コンテンツは、複数のコンテンツオブジェクトから構成される。コンテンツオブジェクトは、TimelineGroupクラスから派生したコンテナタイムラインの型であり、任意の型のTimelineを格納することができる。
図1は、従来技術におけるストーリーボードの表示画面である。
図1によれば、指定されたコンテンツオブジェクトを再生するプレイビューと、コンテンツオブジェクトリストと、ストーリーボードとが表示されている。
ストーリーボードにおける基本的な編集操作は、ドラッグ&ドロップであり、トリミングしたコンテンツオブジェクト(カットオブジェクト)を移動させる。これによって、コンテンツオブジェクトが時系列に結合され、再生順序が変更される。
また、他の編集操作として、シーン切替効果(トランジション(transition))を設定することもできる。トランジション操作は、ストーリーボードの中に、マウスでトランジションを置いていく感じで、直感的に操作することができる。
他の技術として、サーバに保存された画像コンテンツを、端末で編集する技術がある(例えば特許文献1参照)。この技術によれば、端末は、サーバから、画像コンテンツにおけるサムネイル画像を受信し、そのサムネイル画像の再生手順を示すプレイリストデータを生成し且つ編集する。プレイリストデータは、ユーザの操作に基づいて、サムネイル画像を自由に配置することができる。
また、動画コンテンツを自動編集する技術もある(例えば特許文献2参照)。この技術によれば、編集シナリオを予め作成し、その後、映像が撮影される。編集シナリオと、撮影データとが1対1に関連付けられる。これによって、その編集シナリオに応じて、動画コンテンツが自動的に編集される。
特開2004−336343号公報 特開2005−039685号公報 特開2008−147726号公報 特開2009−123095号公報
特許文献1に記載された技術によれば、ユーザインタフェースには、コンテンツオブジェクトを表す複数のサムネイルが、単一のタイムラインに配置されている。この場合、編集すべきコンテンツオブジェクトの数が多いと、単一のタイムラインに多数のサムネイル画像が並ぶ。従って、コンテンツ全体の多数のサムネイルを同時に表示することが難しく、ユーザは、部分的な編集操作を繰り返さなければならず、編集操作性が低下する。また、ディスプレイサイズが小さい携帯端末になるほど、その編集操作性も著しく低下する。
そこで、本発明は、多数のコンテンツオブジェクトを編集する際に、各コンテンツオブジェクトの内容に応じて、ユーザの視覚的な編集操作を容易にすることができる動画コンテンツ編集プログラム、装置及び方法を提供することを目的とする。
本発明によれば、時刻を含む複数のコンテンツオブジェクトをユーザに編集させるためのユーザインタフェースを表示する装置について、その装置に搭載されたコンピュータを機能させる動画コンテンツ編集プログラムにおいて、
コンテンツオブジェクトは、その内容に関係する1つ以上のタグ情報を更に含んでおり、
コンテンツオブジェクトを、3次元空間に並べて表示するものであって、x軸を所定時間範囲に区分し、y軸をタグ情報の組み合わせに応じて異なるタイムラインに区分し、コンテンツオブジェクト毎に当該時刻及びタグ情報に応じてx軸及びy軸の空間に配置すると共に、同一の所定時間範囲に含まれ且つ同一のタグ情報を有する複数のコンテンツオブジェクトをz軸に並べて表示するユーザインタフェース制御手段を有するようにコンピュータを機能させることを特徴とする。
本発明のコンテンツ編集プログラムにおける他の実施形態によれば、
ユーザインタフェース制御手段は、当該コンテンツオブジェクトの時間長に基づいて、z軸における位置、及び/又は、当該コンテンツオブジェクトの表示サイズを、可変するようにコンピュータを機能させることも好ましい。
本発明のコンテンツ編集プログラムにおける他の実施形態によれば、
コンテンツオブジェクト毎に、全フレーム数に対して所定閾値以上のノイズを含むフレーム数の割合、及び/又は、ノイズ量を算出するノイズ検出手段を更に有し、
ユーザインタフェース制御手段は、当該コンテンツオブジェクトにおけるノイズを含むフレーム数の割合、及び/又は、ノイズ量に基づいて、z軸における位置、及び/又は、当該コンテンツオブジェクトの表示サイズを、可変するようにコンピュータを機能させることも好ましい。
本発明のコンテンツ編集プログラムにおける他の実施形態によれば、
コンテンツオブジェクト毎に、全フレーム数に対して、人物領域を含むフレーム数の割合、並びに/又は、顔領域の大きさ及び/若しくは顔の向きを算出する人物領域検出手段を更に有し、
ユーザインタフェース制御手段は、当該コンテンツオブジェクトにおける人物領域を含むフレーム数の割合、並びに/又は、顔領域の大きさ及び/若しくは顔の向きに基づいて、z軸における位置、及び/又は、当該コンテンツオブジェクトの表示サイズを、可変するようにコンピュータを機能させることも好ましい。
本発明のコンテンツ編集プログラムにおける他の実施形態によれば、
コンテンツオブジェクト毎に、全フレーム数に対して、特定の特徴量の割合を算出する特徴量検出手段を更に有し、
ユーザインタフェース制御手段は、当該コンテンツオブジェクトにおける特定の特徴量の割合に基づいて、z軸における位置、及び/又は、当該コンテンツオブジェクトの表示サイズを、可変するようにコンピュータを機能させることも好ましい。
本発明のコンテンツ編集プログラムにおける他の実施形態によれば、
コンテンツオブジェクトは、その内容に関係する第1のタグ情報及び第2のタグ情報を含んでおり、
ユーザインタフェース制御手段は、y軸を第1のタグ情報の組み合わせに応じて異なるタイムラインに区分すると共に、z軸方向に並ぶ複数のコンテンツオブジェクトに対して、第2のタグ情報が異なるコンテンツオブジェクトをx軸方向に並べて表示することも好ましい。
本発明のコンテンツ編集プログラムにおける他の実施形態によれば、ユーザインタフェース制御手段は、3次元空間の座標軸を、所定角度、回転させることができるようにコンピュータを機能させることも好ましい。
本発明のコンテンツ編集プログラムにおける他の実施形態によれば、ユーザインタフェース制御手段は、表示すべきコンテンツオブジェクトを、いずれか1つのフレームに基づくサムネイルとするようにコンピュータを機能させることも好ましい。
本発明によれば、時刻を含む複数のコンテンツオブジェクトをユーザに編集させるためのユーザインタフェースを表示する動画コンテンツ編集装置において、
コンテンツオブジェクトは、その内容に関係する1つ以上のタグ情報を更に含んでおり、
コンテンツオブジェクトを、3次元空間に並べて表示するものであって、x軸を所定時間範囲に区分し、y軸をタグ情報の組み合わせに応じて異なるタイムラインに区分し、コンテンツオブジェクト毎に当該時刻及びタグ情報に応じてx軸及びy軸の空間に配置すると共に、同一の所定時間範囲に含まれ且つ同一のタグ情報を有する複数のコンテンツオブジェクトをz軸に並べて表示するユーザインタフェース制御手段を有することを特徴とする。
本発明によれば、時刻を含む複数のコンテンツオブジェクトをユーザに編集させるためのユーザインタフェースを表示する装置における動画コンテンツ編集方法において、
コンテンツオブジェクトは、その内容に関係する1つ以上のタグ情報を更に含んでおり、
コンテンツオブジェクトを、3次元空間に並べて表示するものであって、x軸を所定時間範囲に区分し、y軸をタグ情報の組み合わせに応じて異なるタイムラインに区分し、コンテンツオブジェクト毎に当該時刻及びタグ情報に応じてx軸及びy軸の空間に配置すると共に、同一の所定時間範囲に含まれ且つ同一のタグ情報を有する複数のコンテンツオブジェクトをz軸に並べて表示することを特徴とする。
本発明の動画コンテンツ編集プログラム、サーバ、装置及び方法によれば、多数のコンテンツオブジェクトを編集する際に、各コンテンツオブジェクトの内容に応じて、ユーザの視覚的な編集操作を容易にすることができる。
従来技術におけるストーリーボードの表示画面である。 本発明における動画コンテンツ編集用のユーザインタフェースである。 本発明における端末の機能構成図である。 コンテンツオブジェクトリストの表示画面である。 図4に対する第1のユーザインタフェースの表示画面である。 図4に対する第2のユーザインタフェースの表示画面である。 図4に対する第3のユーザインタフェースの表示画面である。 第4のユーザインタフェースの表示画面である。 本発明を適用可能なシステムの構成図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
本発明によれば、編集対象となるコンテンツオブジェクトは、動画であって、時間的に分割されたものである。コンテンツオブジェクトは、例えば家庭用ビデオカメラで撮影されたような映像及び音声であってもよい。コンテンツオブジェクト毎に、撮影された「時刻」が付加されており、複数のコンテンツオブジェクトを時系列に並べることができる。例えば、子供の運動会を撮影した場合、その運動会のシーンの中で撮影された時刻に応じて、複数のコンテンツオブジェクトを時系列に並べることができる。
また、本発明におけるコンテンツオブジェクトは、その内容に関係する複数の「タグ情報」を含む。タグ情報とは、編集操作の際にユーザが想定するキーワードであって、例えば当該コンテンツオブジェクトの映像に映る「人物名」であってもよいし、その映像のシーンを表す「シーンイベント名」であってもよい。例えば、子供の運動会を撮影した場合、その映像に映る「子供の名前」又は「競技種目名」等の「タグ情報」が付加される。
図2は、本発明における動画コンテンツ編集用のユーザインタフェースである。
図2によれば、複数のコンテンツオブジェクトが、3次元空間に並べて表示されている。各コンテンツオブジェクトは、そのコンテンツが撮影された「時刻」と、その内容に関係する1つ以上の「タグ情報」とを含む。図2によれば、x軸は時間軸であり、所定時間範囲に区分される。また、y軸は、タグ情報軸であり、タグ情報の組み合わせに応じて異なるタイムラインに区分される。そして、各コンテンツオブジェクトは、当該時刻及びタグ情報に応じてx軸及びy軸の空間に配置される。
ここで、本発明によれば、同一の所定時間範囲に含まれ且つ同一のタグ情報を有する複数のコンテンツオブジェクトは、z軸に並べて表示される。また、表示されるコンテンツオブジェクトは、いずれか1つのフレームに基づくサムネイルであってもよい。そのサムネイルが、z軸に重畳的に並べて表示される。
図2によれば、x軸は、15分毎の時間範囲で区切られている。また、y軸は、タグ情報A及びBの両方を含むタイムラインと、タグ情報Aのみを含むタイムラインと、タグ情報Bのみを含むタイムラインとに区切られている。例えば、「11:17」「11:20」及び「11:23」に撮影され且つタグ情報A及びBを有する3つのコンテンツオブジェクトは、x軸における「11:15〜11:29」の時間範囲であって、y軸における「タグ情報AandB」のタイムラインに、z軸に並べて表示される。
図2のように、3次元インタフェースは、2次元インタフェースと比較して、ユーザは、多数のコンテンツオブジェクトを1枚のディスプレイで視認することができる。尚、ユーザが、z軸方向から見て、複数のコンテンツオブジェクトが完全に重ならないように、少しずらして表示することも好ましい。これによって、狭い表示範囲に、多数のコンテンツオブジェクトを重畳的に表示することができる。
図3は、本発明における端末の機能構成図である。
ユーザは、端末1を用いて、動画コンテンツに対して編集操作をする。端末1は、例えばパーソナルコンピュータであってもよいし、携帯端末又は携帯電話機であってもよい。
端末1は、アクセスネットワーク及びインターネットを介して、コンテンツサーバ2から、コンテンツオブジェクトを受信することができる。コンテンツサーバ2は、家庭用のオンラインストレージのようなサイトである。コンテンツサーバ2は、撮影された動画コンテンツをビデオカメラ3から受信し、その動画コンテンツを蓄積する。
また、端末1は、ビデオカメラ3から、ネットワークを介して又はケーブルを介して直接的に、コンテンツオブジェクトを受信するものであってもよい。
端末1は、ディスプレイ部101と、ユーザ操作部102と、通信インタフェース部103と、コンテンツ蓄積部104とを有する。ディスプレイ部101は、ユーザに対して、動画コンテンツを編集するための視覚的なユーザインタフェースの画面を表示する。ユーザ操作部102は、ユーザの編集操作を受け付ける。通信インタフェース部103は、コンテンツサーバ2又はビデオカメラ3からコンテンツオブジェクトを受信する。コンテンツ蓄積部104は、編集すべきコンテンツオブジェクトを蓄積する。
また、端末1は、ユーザインタフェース制御部111と、コンテンツ受信部112と、コンテンツ生成部113と、顔画像登録部121と、顔画像認証部122と、タグ情報付加部123と、ノイズ検出部124と、人物領域検出部125と、特徴量検出部126とを有する。これら機能構成部は、端末に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
ユーザインタフェース制御部111は、前述した図2のようなユーザインタフェースを、ディスプレイ部101に表示するべく制御する。ここで、複数のコンテンツオブジェクトが、3次元空間に自動的に並べられる。ユーザインタフェース制御部111は、表示すべきコンテンツオブジェクトとして、いずれか1つのフレームに基づくサムネイルを表示する。
コンテンツ受信部112は、通信インタフェース部103を介して、コンテンツオブジェクトを受信する。受信されたコンテンツオブジェクトは、コンテンツ蓄積部104へ出力される。
コンテンツ生成部113は、タイムライン毎に、コンテンツオブジェクトを結合する。例えば、時間経過(x軸)に伴って、タグ情報(y軸)毎のタイムラインに沿って、複数のコンテンツオブジェクトを結合することができる。また、同一時間範囲(z軸)の複数のコンテンツオブジェクトを結合することもできる。
顔画像登録部121は、人物の名前と、その人物の顔画像とを予め登録する。また、顔画像認証部122は、コンテンツオブジェクトの映像から、顔画像登録部121に蓄積された顔画像を認証し、人物の名前を導出する。顔認識システム(Facial Recognition System)は、デジタルカメラでは一般的に搭載されている機能である。
タグ情報付加部123は、コンテンツオブジェクトに、顔認証部122から出力された人物の名前を、タグ情報として付加する。また、タグ情報付加部123は、シーン、場面転換及び/又は無音状態をタグ情報として、コンテンツオブジェクトに自動的に付加するものであってもよい。勿論、タグ情報付加部123は、ユーザがユーザ操作部102を介して、特定のタグ情報を入力するものであってもよい。例えば運動会の競技種目のようなイベント名称を、タグ情報として付加する場合である。
ノイズ検出部124は、コンテンツオブジェクト毎に、全フレーム数に対して、所定閾値以上のノイズを含むフレーム数の割合、及び/又は、ノイズ量を算出する。それら数値が、コンテンツオブジェクトに付加される。
人物領域検出部125は、コンテンツオブジェクト毎に、全フレーム数に対して、人物領域を含むフレーム数の割合、並びに/又は、顔領域の大きさ及び/若しくは顔の向きを算出する。それら数値が、コンテンツオブジェクトに付加される。
特徴量検出部126は、コンテンツオブジェクト毎に、全フレーム数に対して、特定の特徴量の割合を算出する。その割合が、コンテンツオブジェクトに付加される。
尚、コンテンツサーバ2又はビデオカメラ3が、顔画像登録部と、顔画像認証部と、タグ情報付加部と、ノイズ検出部と、人物領域検出部と、特徴量検出部とを有することも好ましい。この場合、端末1にこれら機能を搭載する必要がない。近年のデジタルビデオカメラには、顔認識システムを既に搭載したものも多い。そのために、ビデオカメラ3から出力される動画コンテンツには、各コンテンツオブジェクトに既にタグ情報が含まれていることも好ましい。これによって、端末1が、携帯電話機のように処理能力が低い端末であっても、ユーザインタフェース制御部111のみを実行すればよい。
また、端末1は、コンテンツサーバ2へ、タグ情報をキーとして送信することによって、ダウンロードすべきコンテンツオブジェクトを絞り込むこともできる。端末1は、編集操作に不要なコンテンツオブジェクトをダウンロードする必要がなくなる。
図4は、コンテンツオブジェクトリストの表示画面である。
図4によれば、例えば、編集対象となる動画コンテンツは、兄弟2人「令子」「幸一」の子供のいる家庭で、2人が通っている小学校の運動会をホームビデオカメラで撮影したものであるとする。動画コンテンツは、時間的に分割された複数のコンテンツオブジェクトである。
図4のコンテンツオブジェクトリストによれば、複数のコンテンツオブジェクトには、撮影日時と、タグ情報とが含まれている。各コンテンツオブジェクトには、その映像に映る子供の名前が、タグ情報として含まれる。例えば、予め子供の顔を登録し、顔認証によって自動的に子供の名前を導出することができる。
「令子」及び「幸一」の両方が映るコンテンツオブジェクト
:(CO1、 CO6)
「令子」が映るコンテンツオブジェクト
:(CO1、CO2、 CO6)
「令子」のみが映るコンテンツオブジェクト
:( CO2、 )
「幸一」が映るコンテンツオブジェクト
:(CO1、 CO3、CO4、CO5、CO6)
「幸一」のみが映るコンテンツオブジェクト
:( CO3、CO4、CO5 )
図5は、図4に対する第1のユーザインタフェースの表示画面である。
図5(a)によれば、x軸は、3つの時間範囲、例えば「13:00〜13:14」「13:15〜13:29」「13:30〜13:44」に区切られている。x軸について、「13:00〜13:14」にはCO1が並び、「13:15〜13:29」にはCO2〜5が並び、「13:30〜13:45」にはCO6が並んでいる。
また、y軸は、3つのタイムライン、例えばタグ情報「令子及び幸一」「令子」「幸一」に流れている。y軸について、第1のタイムラインには「令子及び幸一」を含むCO1及びCO6が並び、第2のタイムラインには「令子」のみを含むCO2が並び、第3のタイムラインには「幸一」のみを含むCO3〜5が並んでいる。
図5(a)によれば、複数のコンテンツオブジェクトにおける時系列は常に維持される。ここで、タイムラインに応じて、コンテンツを生成し又は再生することができる。
「令子」及び「幸一」が映るコンテンツオブジェクトの第1のタイムライン
:(CO1、 CO6)
「令子」が映るコンテンツオブジェクトの第2のタイムライン
:(CO1、CO2、 CO6)
第2のタイムラインは、タグ情報「令子」及び「幸一」を含むCO1から、「令子」のみを含むCO2へ遷移し、次に、タグ情報「令子」及び「幸一」を含むCO6へ遷移する。
「幸一」が映るコンテンツオブジェクトの第3のタイムライン
:(CO1、 CO3、CO4、CO5、CO6)
第3のタイムラインは、タグ情報「令子」及び「幸一」を含むCO1から、「幸一」のみを含むCO3、4及び5へ遷移し、次に、タグ情報「令子」及び「幸一」を含むCO6へ遷移する。このような表示は、ユーザインタフェース制御部によって制御される。
図5(a)によれば、例えば1つのタイムラインを、不要であるとして、視覚的に削除することもできる。ユーザが、「幸一」に関するタイムラインを不要と操作した場合、第3のタイムラインを表示せず、第1及び第2のタイムラインのみを表示すればよい。これによって、ユーザにとっては、視覚的に編集操作が容易になる。
図5(a)によれば、運動会を想定した場合、同一の所定時間範囲に且つ同一の子供が撮影された複数のコンテンツオブジェクトが、z軸に並ぶ。コンテンツを編集するユーザにとっては、その瞬間に撮影される子供のコンテンツオブジェクトは、1つで十分である場合がある。そのために、ユーザは、z軸に並列に並ぶコンテンツオブジェクトの中で、いずれか1つを選択することもできる。
図5(b)によれば、z軸に並列に表示されるコンテンツオブジェクトCO3、4及び5について、ユーザから見て、手前のコンテンツオブジェクトを大きく表示し、奥のコンテンツオブジェクトを小さく表示する。人間の視覚的な遠近感覚を利用する。
図6は、図4に対する第2のユーザインタフェースの表示画面である。
図6(a)によれば、「時間長」「ノイズ」「人物領域」「特徴量」によって、コンテンツオブジェクトにおけるz軸の位置が可変されている。
第1に、z軸のコンテンツオブジェクトは、「時間長」によって重畳的に並べられてもよい。z軸に並べて表示すべき複数のコンテンツオブジェクトについて、時間長が長いコンテンツオブジェクトほど、z軸におけるユーザ側手前から順に表示される。これによって、ユーザは、時間長を意識しながら、コンテンツオブジェクトを編集することができる。
第2に、z軸のコンテンツオブジェクトは、「ノイズ」によって重畳的に並べられてもよい。コンテンツオブジェクト毎に、全フレーム数に対する、所定閾値以上のノイズを含むフレーム数の割合、及び/又は、ノイズ量を算出する技術がある(例えば特許文献3参照)。この技術を用いることによって、ノイズフレームの割合の百分率、及び/又は、ノイズ量自体を、z軸に割り当てることができる。z軸に並べて表示すべき複数のコンテンツオブジェクトについて、ノイズが低いコンテンツオブジェクトほど、z軸におけるユーザ側手前から順に表示する。これによって、ユーザは、ノイズを意識しながら、コンテンツオブジェクトを編集することができる。
第3に、z軸のコンテンツオブジェクトは、「人物領域」によって重畳的に並べられてもよい。コンテンツオブジェクト毎に、全フレーム数に対する、所定閾値以上の人物領域を含むフレーム数の割合を算出する技術がある(例えば特許文献4参照)。また、この技術によれば、顔領域の大きさ及び/若しくは顔の向きも、数値として算出することができる。この技術を用いることによって、人物領域に関するこれら数値をz軸に割り当てることができる。z軸に並べて表示すべき複数のコンテンツオブジェクトについて、人物領域に関する数値が高いコンテンツオブジェクトほど、z軸におけるユーザ側手前から順に表示する。例えば、人物領域が広く、顔領域も広く且つ顔が正面を向いているコンテンツオブジェクトを、ユーザ側手前に表示することもできる。これによって、ユーザは、人物領域を意識しながら、コンテンツオブジェクトを編集することができる。
第4に、z軸のコンテンツオブジェクトは、「特徴量」によって重畳的に並べられてもよい。コンテンツオブジェクト毎に、全フレーム数に対する、特定の特徴量の割合を算出する。特徴量とは、コンテンツオブジェクトの画像フレームについて、例えば、色、形状、模様等の特徴を数値化し、そのスカラー値を組にして特徴ベクトルとしたものである。この技術を用いることによって、特定の特徴量の割合の百分率をz軸に割り当てることができる。これによって、ユーザは、特定の特徴量の割合を意識しながら、コンテンツオブジェクトを編集することができる。
図6(b)によれば、「時間長」「ノイズ」「人物領域」「特徴量」によって、コンテンツオブジェクトの表示サイズが可変されている。図6(b)によれば、時間長が長く、ノイズの割合が少なく、人物領域の割合が大きく、又は、特定の特徴量が大きい、コンテンツオブジェクトほど、大きい表示サイズで表示される。
尚、「時間長」「ノイズ」「人物領域」「特徴量」が所定閾値範囲外となるコンテンツオブジェクトは、編集対象とならないものとして、自動的に表示しないようにすることもできる。
図7は、図4に対する第3のユーザインタフェースの表示画面である。
3次元空間の座標軸は、ユーザの操作に応じて、所定角度、回転させることができる。例えば、ポインティングデバイス(例えばマウス)又はタッチパネルによって、座標軸を回転させることができる。ここで、端末が、加速度センサ(又は6軸センサ)を搭載している場合、その端末自体を、傾斜させたり前後左右に振ることによって、座標軸の傾きを変えることもできる。
図7(b)によれば、図7(a)の座標軸について、x軸をユーザ側正面に向けたものである。このとき、全てのサムネイルを側面から見ることになり、ユーザからサムネイルの画像を視認できない。このとき、ユーザの操作に応じて、ユーザインタフェースの特定点を、タッチ(ポインティングデバイスによるボタンの押下)することによって、図7(c)のように視点を変更することもできる。これによって、ユーザは、z軸に並ぶサムネイルの画像を、シーケンス的に並べて表示させることができる。z軸に並ぶ複数のコンテンツオブジェクトを、プレイビュー的に再生することもできる。
図5〜図7で説明したユーザインタフェースに表示されるコンテンツオブジェクトは、ユーザによる条件情報によって絞り込まれていることも好ましい。例えば、ユーザが、以下の条件情報を設定する。
[ケース1]
タグ情報:「令子」「幸一」
時間長 :「3分以下」
ノイズ :「10%以下」
人物領域:「50%以上」
特徴量 :「・・・」
[ケース2]
タグ情報:「令子」「幸一」
時間長 :「3分以下」
ノイズ :ANY
人物領域:ANY
特徴量 :ANY
個々のコンテンツオブジェクトの尺の長さを短時間に統一して、編集をしやすくする。
[ケース3]
タグ情報:「令子」「幸一」
時間長 :ANY
ノイズ :「10%以下」
人物領域:ANY
特徴量 :ANY
個々のコンテンツオブジェクトのノイズの量を均等にすることにより、視聴者にとって見やすい動画を作成する場合に適する。
[ケース4]
タグ情報:「令子」「幸一」
時間長 :ANY
ノイズ :ANY
人物領域(全体):50%以上
特徴量 :ANY
景色等を省いた、人物主体の動画を作成する場合に適する。
[ケース5]
タグ情報:「令子」「幸一」
時間長 :ANY
ノイズ :ANY
人物領域(顔):50%以上
特徴量 :ANY
顔が大きく写っているコンテンツだけを使用したアルバム的な動画を作成する場合に適する
[ケース6]
タグ情報:「令子」「幸一」
時間長 :ANY
ノイズ :ANY
人物領域(顔 正面):50%以上
特徴量 :ANY
卒業アルバム/名簿的な動画を作成するのに適する
このような条件情報に該当するコンテンツオブジェクトのみを、ユーザインタフェースに表示することによって、ユーザは、コンテンツオブジェクトの編集操作が容易になる。
また、図5〜図7で説明したユーザインタフェースは、ズームイン及びズームアウトの機能も有し、ユーザの視点を更に変更することができる。また、コンテンツオブジェクトに対して、ユーザのドラッグ&ドロップの操作をすることもでき、コンテンツオブジェクトを移動させることによって、タイムラインの遷移を更新することもできる。更に、例えば、ユーザが、マウスに対して逆クリック操作をすることによって、メニュー画面を表示し、コンテンツオブジェクトの「追加」「削除」「並べ替え」「分離」等の操作をすることもできる。更に、タイムラインにおけるコンテンツオブジェクト間のトランジションを追加することもできる。例えば、例えば「フェードイン」「フェードアウト」「クロスフェード」がある。
図8は、第4のユーザインタフェースである。
図8(a)によれば、図4と比較して、第1のタグ情報及び第2のタグ情報が付与されている。例えば、第1のタグ情報は「人物名」を表しているのに対し、第2のタグ情報は「シーンイベント」を表している。
図8(b)は、図8(a)のコンテンツオブジェクトを座標軸に並べたものである。ここで、時刻[13:15〜13:30]に、コンテンツオブジェクトCO2〜CO5が配置される。図5〜7によれば、コンテンツオブジェクトCO3〜CO5は、z軸方向に並べられる。これに対し、図8(b)によれば、更に第2のタグ情報に基づいて、その時間範囲の中で、x軸方向に並べられる。ここでは、第2のタグ情報「かけっこ」のCO3と、第2のタグ情報「転倒」のCO4及びCO5は、x軸方向に並べられる。また、第1のタグ情報及び第2のタグ情報が同一となるCO4及びCO5は、z軸に並行に並べられる。
運動会を想定した場合、「同一の所定時間範囲」に且つ「同一の子供」が、「同一の競技」(シーンイベント)で撮影された複数のコンテンツオブジェクトが、z軸方向に並ぶ。コンテンツを編集するユーザにとっては、その瞬間に撮影される子供のコンテンツオブジェクトは、1つで十分である場合がある。この場合、ユーザは、z軸に並ぶコンテンツオブジェクトの中で、いずれか1つを選択することが容易になる。また、z軸方向へのコンテンツオブジェクトの並ぶ順番については、前述した図5〜図7の実施形態によって実現することができる。
図9は、本発明を適用可能なシステムの構成図である。尚、図9によれば、本発明に関係する機能部にのみ、図3と同様の符号が表記されている。
図9によれば、撮影者によって操作されるビデオカメラ3が、撮影した原コンテンツを、コンテンツサーバ2へアップロードする。コンテンツサーバ2は、その原コンテンツをコンテンツ蓄積部に蓄積する。
これに対し、コンテンツサーバ2は、原コンテンツとは別に、携帯端末向けの編集用コンテンツを作成する。編集用コンテンツは、携帯端末の編集処理負荷を軽減するために、原コンテンツよりもフレームレート及び/又は解像度を低下させたものである。この編集用コンテンツにも、タグ情報が付加される。
次に、編集者の操作によって、端末1は、コンテンツサーバ2へアクセスし、タグ情報が付加された編集用コンテンツを受信する。
端末1は、ユーザインタフェース制御部111を通して編集用コンテンツをディスプレイ部101に表示し、編集者にプロキシ編集(メタ編集)を操作させる。即ち、編集者は、動画コンテンツを直接的に編集することなく、編集用コンテンツに対して編集操作をする。端末1は、編集者の操作に応じて、編集用コンテンツに対する仮編集情報(例えば編集メタ情報)を生成する。仮編集情報(EDL(Edit Decision List))とは、例えばコンテンツのどの時刻からどの時刻までを抽出し、どのようなトランジションエフェクトを付けて断片をくっつけるかの情報を含む。そして、端末1は、その仮編集情報を、コンテンツサーバ2へアップロードする。
コンテンツサーバ2は、コンテンツ生成部によって、仮編集情報に対応するコンテンツオブジェクトを組み合わせて、実編集を実行する。
図9によれば、端末1が、携帯電話機のように処理能力が低い装置であっても、ユーザによってコンテンツを編集することができる。携帯電話機は、ユーザインタフェース制御部のみ機能させることによって実現できる。
以上、詳細に説明したように、本発明の動画コンテンツ編集プログラム、装置及び方法によれば、多数のコンテンツオブジェクトを編集する際に、各コンテンツオブジェクトの内容に応じて、ユーザの視覚的な編集操作を容易にすることができる。
本発明によれば、単一タイムラインの既存のストーリーボード編集と比較して、コンテンツオブジェクトが3次元空間に配置される。x軸の時刻経過と、y軸のタイムラインと、z軸の並列化とによって、例えば携帯電話機のような小さいディスプレイであっても、多数のコンテンツオブジェクトを、ユーザに直感的に理解させるように可視化することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 端末
101 ディスプレイ部
102 ユーザ操作部
103 通信インタフェース部
104 コンテンツ蓄積部
111 ユーザインタフェース制御部
112 コンテンツ受信部
113 コンテンツ生成部
121 顔画像登録部
122 顔画像認証部
123 タグ情報付加部
124 ノイズ検出部
125 人物領域検出部
126 特徴量検出部
2 コンテンツサーバ
3 ビデオカメラ

Claims (10)

  1. 時刻を含む複数のコンテンツオブジェクトをユーザに編集させるためのユーザインタフェースを表示する装置について、その装置に搭載されたコンピュータを機能させる動画コンテンツ編集プログラムにおいて、
    前記コンテンツオブジェクトは、その内容に関係する1つ以上のタグ情報を更に含んでおり、
    前記コンテンツオブジェクトを、3次元空間に並べて表示するものであって、x軸を所定時間範囲に区分し、y軸を前記タグ情報の組み合わせに応じて異なるタイムラインに区分し、前記コンテンツオブジェクト毎に当該時刻及びタグ情報に応じてx軸及びy軸の空間に配置すると共に、同一の所定時間範囲に含まれ且つ同一のタグ情報を有する複数の前記コンテンツオブジェクトをz軸に並べて表示するユーザインタフェース制御手段を有するようにコンピュータを機能させることを特徴とするコンテンツ編集プログラム。
  2. 前記ユーザインタフェース制御手段は、当該コンテンツオブジェクトの時間長に基づいて、前記z軸における位置、及び/又は、当該コンテンツオブジェクトの表示サイズを、可変するようにコンピュータを機能させることを特徴とする請求項1に記載のコンテンツ編集プログラム。
  3. 前記コンテンツオブジェクト毎に、全フレーム数に対して所定閾値以上のノイズを含むフレーム数の割合、及び/又は、ノイズ量を算出するノイズ検出手段を更に有し、
    前記ユーザインタフェース制御手段は、当該コンテンツオブジェクトにおけるノイズを含むフレーム数の割合、及び/又は、ノイズ量に基づいて、前記z軸における位置、及び/又は、当該コンテンツオブジェクトの表示サイズを、可変するようにコンピュータを機能させることを特徴とする請求項1に記載のコンテンツ編集プログラム。
  4. 前記コンテンツオブジェクト毎に、全フレーム数に対して、人物領域を含むフレーム数の割合、並びに/又は、顔領域の大きさ及び/若しくは顔の向きを算出する人物領域検出手段を更に有し、
    前記ユーザインタフェース制御手段は、当該コンテンツオブジェクトにおける人物領域を含むフレーム数の割合、並びに/又は、顔領域の大きさ及び/若しくは顔の向きに基づいて、前記z軸における位置、及び/又は、当該コンテンツオブジェクトの表示サイズを、可変するようにコンピュータを機能させることを特徴とする請求項1に記載のコンテンツ編集プログラム。
  5. 前記コンテンツオブジェクト毎に、全フレーム数に対して、特定の特徴量の割合を算出する特徴量検出手段を更に有し、
    前記ユーザインタフェース制御手段は、当該コンテンツオブジェクトにおける特定の特徴量の割合に基づいて、前記z軸における位置、及び/又は、当該コンテンツオブジェクトの表示サイズを、可変するようにコンピュータを機能させることを特徴とする請求項1に記載のコンテンツ編集プログラム。
  6. 前記コンテンツオブジェクトは、その内容に関係する第1のタグ情報及び第2のタグ情報を含んでおり、
    前記ユーザインタフェース制御手段は、y軸を第1のタグ情報の組み合わせに応じて異なるタイムラインに区分すると共に、z軸方向に並ぶ複数のコンテンツオブジェクトに対して、第2のタグ情報が異なるコンテンツオブジェクトをx軸方向に並べて表示する
    ことを特徴とする請求項1から5のいずれか1項に記載のコンテンツ編集プログラム。
  7. 前記ユーザインタフェース制御手段は、3次元空間の座標軸を、所定角度、回転させることができるようにコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載のコンテンツ編集プログラム。
  8. 前記ユーザインタフェース制御手段は、表示すべきコンテンツオブジェクトを、いずれか1つのフレームに基づくサムネイルとするようにコンピュータを機能させることを特徴とする請求項1から7のいずれか1項に記載のコンテンツ編集プログラム。
  9. 時刻を含む複数のコンテンツオブジェクトをユーザに編集させるためのユーザインタフェースを表示する動画コンテンツ編集装置において、
    前記コンテンツオブジェクトは、その内容に関係する1つ以上のタグ情報を更に含んでおり、
    前記コンテンツオブジェクトを、3次元空間に並べて表示するものであって、x軸を所定時間範囲に区分し、y軸を前記タグ情報の組み合わせに応じて異なるタイムラインに区分し、前記コンテンツオブジェクト毎に当該時刻及びタグ情報に応じてx軸及びy軸の空間に配置すると共に、同一の所定時間範囲に含まれ且つ同一のタグ情報を有する複数の前記コンテンツオブジェクトをz軸に並べて表示するユーザインタフェース制御手段を有することを特徴とする動画コンテンツ編集装置。
  10. 時刻を含む複数のコンテンツオブジェクトをユーザに編集させるためのユーザインタフェースを表示する装置における動画コンテンツ編集方法において、
    前記コンテンツオブジェクトは、その内容に関係する1つ以上のタグ情報を更に含んでおり、
    前記コンテンツオブジェクトを、3次元空間に並べて表示するものであって、x軸を所定時間範囲に区分し、y軸を前記タグ情報の組み合わせに応じて異なるタイムラインに区分し、前記コンテンツオブジェクト毎に当該時刻及びタグ情報に応じてx軸及びy軸の空間に配置すると共に、同一の所定時間範囲に含まれ且つ同一のタグ情報を有する複数の前記コンテンツオブジェクトをz軸に並べて表示することを特徴とする動画コンテンツ編集方法。
JP2009222023A 2009-09-28 2009-09-28 3次元に表示された動画コンテンツ編集プログラム、装置及び方法 Pending JP2011071813A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009222023A JP2011071813A (ja) 2009-09-28 2009-09-28 3次元に表示された動画コンテンツ編集プログラム、装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009222023A JP2011071813A (ja) 2009-09-28 2009-09-28 3次元に表示された動画コンテンツ編集プログラム、装置及び方法

Publications (1)

Publication Number Publication Date
JP2011071813A true JP2011071813A (ja) 2011-04-07

Family

ID=44016634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009222023A Pending JP2011071813A (ja) 2009-09-28 2009-09-28 3次元に表示された動画コンテンツ編集プログラム、装置及び方法

Country Status (1)

Country Link
JP (1) JP2011071813A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013021480A (ja) * 2011-07-11 2013-01-31 Canon Inc 情報処理装置及びその制御方法、プログラム、コンピュータが読み取り可能なプログラム記憶媒体
JP2019201314A (ja) * 2018-05-16 2019-11-21 キヤノン株式会社 画像処理システム、および画像処理装置、制御方法、プログラム
JP2020102821A (ja) * 2018-12-25 2020-07-02 キヤノン株式会社 電子機器
US11451712B2 (en) 2018-12-25 2022-09-20 Canon Kabushiki Kaisha Electronic device

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013021480A (ja) * 2011-07-11 2013-01-31 Canon Inc 情報処理装置及びその制御方法、プログラム、コンピュータが読み取り可能なプログラム記憶媒体
JP2019201314A (ja) * 2018-05-16 2019-11-21 キヤノン株式会社 画像処理システム、および画像処理装置、制御方法、プログラム
JP7039385B2 (ja) 2018-05-16 2022-03-22 キヤノン株式会社 画像処理システム、および画像処理装置、制御方法、プログラム
JP2020102821A (ja) * 2018-12-25 2020-07-02 キヤノン株式会社 電子機器
US11451712B2 (en) 2018-12-25 2022-09-20 Canon Kabushiki Kaisha Electronic device
JP7150590B2 (ja) 2018-12-25 2022-10-11 キヤノン株式会社 電子機器

Similar Documents

Publication Publication Date Title
EP3526964B1 (en) Masking in video stream
JP5552769B2 (ja) 画像編集装置、画像編集方法及びプログラム
Nguyen et al. Vremiere: In-headset virtual reality video editing
US20140096002A1 (en) Video clip editing system
US20100110082A1 (en) Web-Based Real-Time Animation Visualization, Creation, And Distribution
US9021357B2 (en) System and method for enabling collaborative media stream editing
US20200296317A1 (en) Media content presentation
US20100220197A1 (en) Assisted Video Creation Utilizing a Camera
US20180160194A1 (en) Methods, systems, and media for enhancing two-dimensional video content items with spherical video content
EP1926103A2 (en) System, method and medium playing moving images
JP6787394B2 (ja) 情報処理装置、情報処理方法、プログラム
US20170243611A1 (en) Method and system for video editing
CN105210379A (zh) 显示控制装置、显示控制方法和程序
US9843823B2 (en) Systems and methods involving creation of information modules, including server, media searching, user interface and/or other features
US9564177B1 (en) Intelligent video navigation techniques
JP2010268195A (ja) 動画コンテンツ編集プログラム、サーバ、装置及び方法
JP2005301693A (ja) 動画編集システム
CN114466232B (zh) 视频处理方法、装置、电子设备和介质
JP2011071813A (ja) 3次元に表示された動画コンテンツ編集プログラム、装置及び方法
AU2021325471B2 (en) Information processing device, information processing program, and recording medium
WO2017055684A1 (en) Accessing a video segment
US20220239987A1 (en) Systems and methods for creating and modifying event-centric media content
US10474743B2 (en) Method for presenting notifications when annotations are received from a remote device
KR102083997B1 (ko) 오브젝트 기반 모션 이미지를 제공하는 방법 및 그를 이용한 서버
JP4934066B2 (ja) 情報生成装置、情報生成方法及び情報生成プログラム