JP2004363831A - Apparatus and method for moving picture processing - Google Patents

Apparatus and method for moving picture processing Download PDF

Info

Publication number
JP2004363831A
JP2004363831A JP2003158600A JP2003158600A JP2004363831A JP 2004363831 A JP2004363831 A JP 2004363831A JP 2003158600 A JP2003158600 A JP 2003158600A JP 2003158600 A JP2003158600 A JP 2003158600A JP 2004363831 A JP2004363831 A JP 2004363831A
Authority
JP
Japan
Prior art keywords
moving image
division
information
metadata
user interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003158600A
Other languages
Japanese (ja)
Inventor
Hiroshi Tojo
洋 東條
Koji Takahashi
宏爾 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003158600A priority Critical patent/JP2004363831A/en
Publication of JP2004363831A publication Critical patent/JP2004363831A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To solve the problem that when a moving picture is divided by using its attached information, it has not been possible to select the attached information used for division. <P>SOLUTION: Attached information which is usable for division is made selectable and relations between division results based upon selected attached information and the attached information used for the division are displayed in two dimensional array. A user while adding, changing, or deleting division conditions through a user interface of the two-dimensional array display is able to determine final division conditions. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、動画像を動画像の付帯情報の変化点等を利用して分割する技術に関する。
【0002】
【従来の技術】
一般に、特許文献1や特許文献2に見られるように、
【0003】
・動画の撮像装置の操作(パン、チルト、ズームなど)
・撮像装置の状態(フォーカス、ホワイトバランスなど)
・ユーザにより付与されたテキストデータ(タイトル、人名、場所名など)
・画像を解析して得られる特徴量(色、輝度など)
(これら付帯情報を総称して以下、メタデータと呼ぶ)を用い、メタデータの変化点や、メタデータが所定の条件を満たす点で動画像を自動分割する技術が開発されている。動画像を自動分割することによって、所望の場所からの再生や、動画編集、自動的な動画像の要約を可能としている。
メタデータに基づく動画像の自動分割の概念を図1を用いて説明する。
【0004】
図1(a)は、ある動画についてのメタデータ項目例として、日付、Zoom、フレーム内の色の分布、場所名を、区間単位にまとめたものである。日付は日付の変化点により分けてその前後を区間としている。Zoomは操作ごとに区間としている。色分布はフレーム単位に色の分布を求め、フレーム間で大きく変化した点で分け、その前後を区間としている。場所名はユーザが付与した区間がそのまま区間となっている。以上のようにメタデータの変化点や付与対象区間などをもとにメタデータを区間単位にまとめる。
【0005】
図1(b)は、これら区間単位にまとめられたメタデータ、日付、Zoom、色分布、場所名の区分点(変化点)を用いて動画像の分割を行った結果を示している。図1に示したように、複数種類のメタデータ項目について、いずれかのメタデータ項目において区分点が出現した時点で動画を分割したものが分割結果となる。図1(b)におけるThumb−AからThumb−Jは、動画の最初及び最後の画像フレーム及び、各分割点の画像フレームを縮小して形成したサムネイル画像である。
【0006】
分割結果は、例えばGUI(Graphical User Interface)によって図15のように表示される。図15において、5000は分割結果ウィンドウである。タイトルバー5001は、「分割結果ウィンドウ」であることをユーザに知らせるものである。5002は、この列が分割点であることを示したものである。5003は分割点に相当するサムネイルである。時間は上から下に進むものとして表示されている。なお、Thumb−Aは動画像の開始点、Thumb−Jは動画像の終了点に相当するサムネイルである。5004は、この列が分割長であることを示したものである。5005は、各分割部分について分割長を時間で示したものである。なお、Thumb−Jは動画像の終了点のサムネイルであり、分割長は存在しないため、「−−:−−:−−」と表示されている。
【0007】
【特許文献1】
特開平08−163488号公報
【特許文献2】
特許第3192663号公報
【0008】
【発明が解決しようとする課題】
上述した従来技術においては、様々なメタデータ項目の区分点を用いて動画像を自動分割可能であるが、例えば図1に示す例では、4つのメタデータ項目のいずれかにおける区分点で動画が自動分割され、任意のメタデータ項目についての区分点を用いての自動分割は実現されていなかった。すなわち、自動分割に使用するメタデータ項目は選択できず、固定であったために、所望の区間に分割することは非常に困難であった。
【0009】
ここで、メタデータ項目を選択する重要性について述べる。
まず、動画の内容によって、自動分割に用いるメタデータ項目の重要度が変化することがある。例として、メタデータ項目として、場所名、人名が付与されている場合について述べる。まず、結婚披露宴を撮影した場合について考える。基本的に披露宴会場の中で起こるイベントを撮影しているために、場所名が変化してもあまり意味がない。一方、新郎、新婦、友人、親戚、会社の上司など、様々な人が撮影対象となるので、人名は変化に富んでいる。よって、人名で分割した方が適切な区間を得ることが期待できる。次に、家族旅行での撮影の場合について考える。観光地をいくつも訪れるので場所名でまとまった区間は重要となる。一方、撮影される人は大抵の場合、家族の人に限られるので、人名も家族の人数分しか存在しない。よって、人名で分割するよりも、場所名で分割した方が適切な区間を得ることが期待できる。
【0010】
また、編集の際の意図によって、同じ動画を対象としていても、自動分割に用いるメタデータ項目の重要度が変化することがある。例えば、前述の家族旅行の撮影の場合、通常は前述した通り観光地(場所)ごとに動画をまとめていくが、家族の特定の人物(例えば子供)についてのみの動画を作りたい場合は、人物名で分割する必要がでてくる。
【0011】
また、撮影者の違いによっても、同じ内容の動画であっても、重要となるメタデータが異なってくる。例えば、ズーム操作を多用する撮影者もいれば、パン操作を多用する撮影者もいる。それぞれで、ズーム、パンの重要度が異なってくる。
【0012】
よって、動画編集などを行うユーザが、対象となる動画像の内容をよく知っている場合(ユーザ自身で撮影した場合など)、ユーザによるメタデータ項目の選択が重要である。しかしながら、従来の方法ではこの手段が与えられておらず、自動分割されても意図通りの分割結果が得られないため、結合やさらに分割するなどの手間が生じていた。
【0013】
また、動画像の内容を知らない場合であっても、やはり同様の問題が生じる。この場合は、メタデータ項目の重要度を確認するために、それぞれのメタデータと対応する分割点を、一覧する手段が更に必要となる。しかし当然のことながら、従来の方法ではこのような手段は提供されておらず、このような場合に、適切な分割結果を得ることは、なおさら困難であった。
【0014】
本発明は、上記の問題に鑑みてなされたものであり、自動分割に使用するメタデータ項目の選択を適切に行える手段を提供することにより、再生や編集作業を容易に行えるようにすることを目的とする。
【0015】
【課題を解決するための手段】
上述の目的を達成するため、本発明による動画像処理装置は、動画像に関する付帯情報を取得する付帯情報収集手段と、付帯情報を選択可能なユーザインタフェースを提示する表示手段と、付帯情報のうち、ユーザインタフェースを介して選択された選択付帯情報に基づいて動画像を複数の区間に分割するための分割情報を生成する分割情報生成手段とを有することを特徴とする。
【0016】
また、本発明の目的は、動画像に関する付帯情報を取得する付帯情報収集ステップと、付帯情報を選択可能なユーザインタフェースを提示する表示ステップと、付帯情報のうち、ユーザインタフェースを介して選択された選択付帯情報に基づいて動画像を複数の区間に分割するための分割情報を生成する分割情報生成ステップとを有することを特徴とする動画像処理方法によっても達成される。
【0017】
さらに、本発明の目的は、コンピュータ装置を、本発明の動画像処理装置として機能させるコンピュータプログラム及び、このコンピュータプログラムを格納したコンピュータ装置読み取り可能な記録媒体によっても達成される。
【0018】
【発明の実施の形態】
以下、本発明の好適な実施形態について、添付の図面を用いて説明する。なお、本実施形態では、メタデータを用いて自動分割するための分割情報を生成し、その結果を用いて動画再生リストを作成する処理に関して説明するが、動画再生リストの作成は分割情報を利用する処理の一例であって、分割情報が他の処理に対しても利用可能であることは言うまでもない。
【0019】
図2は、本実施形態における動画像処理装置の制御構成を示すブロック図である。図2において、CPU201は、本実施形態の動画像管理装置における各種制御を実行する。ROM202は、本装置の立ち上げ時に実行されるブートプログラムや各種データを格納する。RAM203は、CPU201が処理するための制御プログラムを格納するとともに、CPU201が各種制御を実行する際の作業領域を提供する。キーボード204、マウス205は、ユーザによる各種入力操作環境を提供する。
【0020】
外部記憶装置206は、例えばハードディスクやフロッピディスク、光ディスク、磁気ディスク、光磁気ディスク、磁気テープ、不揮発性の半導体メモリ等の少なくとも1つで構成される。表示器207は、ディスプレイなどで構成され、動画像管理装置の処理結果やGUI画面等をユーザに対して表示する。ネットワークインタフェース(NIC)208は、USB,IEEE1394、イーサネット(登録商標)、モデム等、外部機器との通信インタフェースであり、ローカル接続又はネットワーク接続された他の機器との通信を可能とする。また、バス211は動画像管理装置を構成する各ブロック間を接続する。
【0021】
なお、図2の構成において、外部記憶装置206は動画像管理装置に内蔵されている必要はなく、ネットワークインタフェースを介してアクセス可能に接続されたものであってもよい。
【0022】
図3は、本実施形態における動画像処理装置の機能構成を示すブロック図である。蓄積部300は、外部記憶装置206で構成され、動画像・メタデータ・分割情報・動画再生リストを蓄積する。動画像はビデオカメラやデジタルカメラ等、他の撮像機器で撮像され、撮像された画像が記録された記録媒体、例えば半導体メモリや光ディスク等のリムーバブル記録媒体を読み取り可能な装置を外部記憶装置206として利用したり、NIC208よりネットワークを経由して他の機器より蓄積部300に読み込んだりしてもよい。
【0023】
メタデータも他の機器によって予め付与されていたものを、動画像と同様な方法で取り込むことができる。なお、このときのメタデータは後述する形式で格納されているものとする。更に、メタデータは本動画像処理装置で付与することもできる。分割情報、動画再生リストは本動画像処理装置で生成されて蓄積される。
【0024】
分割情報決定部301は、蓄積部300より読み込んだメタデータや、メタデータ抽出部304より得たメタデータをもとに分割情報を生成し、所望の分割を決定するものである。ユーザ操作部302は、ユーザによる指示や入力を、キーボード204及びマウス205などを介して、取得するものである。表示部303は表示器207によって構成され、分割情報決定部301によって生成された分割結果などを、ユーザに表示するものである。メタデータ抽出部304は、蓄積部300に蓄積された動画像やメタデータを解析して、新たにメタデータを抽出するものであり、ユーザ操作部302の操作に応じ、必要な際に起動される。再生順序指定部305は、分割情報決定部301で決定された分割区間について、その順序を指定することで、再生順序を指定するものである。再生部306は、分割情報決定部301で分割情報を決定するまでの確認時の再生や、再生順序指定部305で指定された再生順序に応じて、蓄積部300から動画像を読み出して再生し、表示部303に表示するものである。
【0025】
メタデータを動画像に付与する方法としては大きく分けると次の3つがあげられる。本実施形態においてはいずれの方法を用いても良い。また、他の方法で付与されても構わない。
【0026】
(方法1)動画像を撮像する撮像機器において付与する方法
撮像機器のズームボタンなどの操作ボタンなどから、また、撮像機器が有する時計や各種センサなどから、撮影中の、撮像機器の操作や撮影機器の状態などの情報を得て付与することができる。項目としては、撮影日時、ズーム、フォーカス、ホワイトバランス、ゲイン、シャッタースピード、パン、チルト、AEモードなどが上げられる。また、撮像機器に外付けされる機器から得られる情報(例えばGPSセンサから得られる座標情報など)が付加されることもある。
【0027】
(方法2)ユーザが付与する方法
撮影後に、動画像を再生させながら、ユーザが動画像中の区間を指定して、撮影されている人物の名前、場所などに関する情報を入力していくことで付与することができる。
【0028】
(方法3)動画像を解析して付与する方法
撮影された動画像の解析を行い、特徴量を抽出し、これをメタデータとして付与することができる。項目としては、動画フレーム内の色の分布、輝度、顔領域の存在などがあげられる。
【0029】
例えば、色の分布については、夫々のフレームを図16に示すように縦横に複数のブロックに分割し、それぞれのブロックに関してRGB各チャンネルの平均値を算出して、この特徴量をフレーム単位の色の分布のメタデータとする。更に、前のフレームと現在のフレームの対応するブロック同士のRGB各チャンネルの差の二乗和を求めこれをフレーム間類似性距離とする。その計算式の一例を以下に示す。
【0030】
Σ(i=1からkまで){(P1iR−P2iR+(P1iG−P2iG+(P1iB−P2iB} 式1
但し、
i :処理中のブロックをあらわす
K :分割ブロック数
P1iR :直前のフレームのi番目のブロックのRチャンネルの平均値
P1iG :直前のフレームのi番目のブロックのGチャンネルの平均値
P1iB :直前のフレームのi番目のブロックのBチャンネルの平均値
P2iR :現在のフレームのi番目のブロックのRチャンネルの平均値
P2iG :現在のフレームのi番目のブロックのGチャンネルの平均値
P2iB :現在のフレームのi番目のブロックのBチャンネルの平均値
【0031】
式1で求められるフレーム間類似性距離が小さいほど、2つのフレームの色の分布が類似しており、大きいほど類似していない。そして、例えば、ある閾値以上のフレーム間類似性距離を持つフレーム、すなわち前フレームとの類似性が低いフレームを変化点と見なす。そして、変化点の前後を区間とし、これを区間単位のメタデータとする。
【0032】
各フレームの輝度についても同様に図16に示すようなブロック分割を行い、ブロック内の平均輝度などを求め、この特徴量をフレーム単位のメタデータとすることが可能である。
【0033】
顔領域の存在についても、フレームの中央付近の色成分を解析し、肌色の成分が所定の閾値よりも多い時に顔が存在すると推定し、存在すると推定される最初のフレームと最後のフレームを変化点としてメタデータを付加する方法などが上げられる。また、テンプレートマッチング等によって顔の存在を検出するなど、他の方法を用いても良い。
【0034】
本実施形態では、メタデータのみを集め1つのファイルにし、蓄積部300に記憶するものとする。
【0035】
図11は、蓄積部300に記憶されるメタデータの記述の一例を示す図である。図11に示す例において、メタデータは、XML(eXtensive Markup Language)形式で記述されている。1401はXML文書に関するヘッダ部で、XMLのバージョンや文字エンコード方式などのXML宣言が記述されている。1402は文書本体の部分である。文書本体は、1403のような、”<”と”>”で挟まれる開始タグと、1404のような”</”と”>”で挟まれ、開始タグと対応する終了タグとの間で挟まれている、内容1405のからなる要素から構成される。
【0036】
開始タグと終了タグには、タグの間にどのような内容が記述されるかが示される。各要素は階層的に記述することが可能である。この例では、ルート要素(最上位の階層)である「メタデータ集合」の下に「メタデータ」が存在し、「メタデータ」の下に「対象動画」、「区間」、とメタデータ項目(本例では「Zoom」)の要素が存在し、「対象動画」の下には「パス」が存在し、「区間」の下に「開始点」、「長さ」の要素が存在し、「Zoom」の下に「方向」、「開始倍率」、「終了倍率」が存在している。このように「メタデータ」は「メタデータ集合」の下に羅列して記述される。
【0037】
そして、まず、各「メタデータ」の対象となっている動画ファイルの位置を記述する。これは「対象動画」の要素として「パス」をもっており、例えば蓄積部300に記憶された対象動画ファイルのファイルパスが記述される。次に、各「メタデータ」の「区間」が記述され、これは「開始点」と「長さ」で記述される。「開始点」にはタイムコードで、「長さ」には開始点から終了点までの時間で記述されている。この際、フレーム単位のメタデータを記述したい場合は、「長さ」に0と記述する。「区間」に対応するメタデータの具体的な内容はその次に記述され、本例では「Zoom」が記述されている。「Zoom」は「方向」と「開始倍率」と「終了倍率」の要素をもっており、「方向」はズーム操作の方向でズームインのときはイン、ズームアウトの時はアウトと記述される。「開始倍率」は操作開始におけるズーム倍率であり、本例では1倍を示す1が記述されている。「終了倍率」は操作終了におけるズーム倍率であり、本例では2.5倍となっている。
【0038】
図4A〜図4Cは、本実施形態における動画像処理装置の動画分割処理手順を示したフローチャートである。動画分割処理は、例えばユーザ操作部302から分割対象動画の選択と、分割処理の指示があった場合に実行される。
【0039】
まず、ステップS401において、分割情報決定部301は蓄積部300を参照し、メタデータファイルから、対象動画について付与されているメタデータの項目をチェックし、自動分割に利用できるメタデータ項目のリストを作成する。この際、メタデータファイルに存在せず、かつ動画像処理装置によって新たに付加可能なメタデータ項目についてもリスト中に含ませる。
【0040】
次に、ステップS402において、ステップS401で作成した、自動分割に利用可能なメタデータ項目を表示部303に一覧表示する。次に、ステップS403において、ユーザがユーザ操作部302を介して、利用するメタデータ項目の選択が完了したかどうかを判定する。完了するまで、待ちつづける。
【0041】
ここで、ステップS402において、利用可能なメタデータ項目の表示及び選択を行うために表示するユーザインタフェースの一例を図5を用いて説明する。500は利用可能メタデータ選択ウィンドウである。タイトルバー501は、表示中の画面が「利用可能メタデータ選択ウィンドウ」であることをユーザに知らせるものである。メタデータ項目表示領域502には、利用可能(選択可能)なメタデータ項目のリストが表示されている。
【0042】
本実施形態においては、メタデータ項目表示領域で下線付きで表示されているものが、既に選択されたメタデータである。項目の選択は通常GUIにおいて採用されている任意の方法により行うことが可能であり、例えばポインタ504をマウス205で操作し、所望の項目をポインタ504で示してクリックすることにより選択動作とすることができる。また、後述する分割決定ウィンドウで表示する際の順番を指定するために、項目をドラッグする等によって表示順序を変更可能に構成しても良い。なお、図に例示したように複数の項目を指定することが可能である。また、イタリック体で表示されているのは、本動画像処理装置によって付与可能なメタデータ項目であることを示している。これにより、予め付与されていない場合でも、本リストにある項目については、メタデータを抽出することができる。OKボタン503は、マウス205でクリックするか、キーボード204の対応するキーを押下することにより操作可能であり、OKボタン503の操作によって利用可能なメタデータ項目の選択を完了する。ポインタ504は、例えばマウス205のポインタであり、これを操作することによってユーザは動画像処理装置に各種の指示を与えることができる。
【0043】
OKボタン503の操作により分割に使用するメタデータ項目が設定されると(ステップS403においてYES)、選択された項目の中に抽出が必要な項目(前述のイタリック体で表示された項目)があるかどうかをチェックする(ステップS404)。なければ、ステップS405とS406をスキップしてステップS407へ進む。あれば、ステップS405において、メタデータ抽出部304によって動画像を解析し、該当メタデータ項目の抽出を行う。抽出は例えば前述の方法3として説明した方法を用いることができる。そして、ステップS406において、蓄積部300のメタデータファイルに所定の形式(本実施形態においては上述のXML形式)で追加する。これは、抽出したメタデータを、他の装置でも利用可能なようにするためである。
【0044】
次に、ステップS407において、分割情報決定部301は蓄積部300から読み込んだメタデータ及び、メタデータ抽出部304で抽出したメタデータ(ただし、これはステップS404でYESのときのみ存在)を読み込んで、分割情報を生成する。
【0045】
ここで、分割情報について説明する。
本実施形態では、分割情報は、これを一つのファイルにし、蓄積部300に記憶するものとする。なお、記憶に際し、分割情報であることが識別可能なよう、専用の拡張子をつけるか、専用のディレクトリを用意することが好ましい。分割情報は、動画再生リストを作るための作業ファイルである。よって例えば、他のユーザへの配布用に動画ファイルのダビングを行う時には、コピーする必要の無いファイルである。こういった場合には、拡張子やディレクトリで判断して、分割情報のファイルだけをコピーしないようにすることができる。
【0046】
図12は、蓄積部300に記憶される分割情報の記述の一例を示す図である。本実施形態において、分割情報は図11に示したメタデータと同様、XML形式で記述される。データ構造に関しての基本的な説明は図11と同じなので、ここでは省略し、各要素についての説明を行う。「分割情報集合」には、分割された区間ごとの情報である、「分割情報」という要素が存在し、例示したように分割情報の数分並べて記述される。「分割情報」には「対象画像」、「区間」、「サムネイル」、「項目行」という要素が存在する。「対象動画」は、分割情報の対象となる動画の情報である。中身の説明は図11のメタデータの場合と同様なので省略する。
【0047】
「区間」は、分割された区間の情報である。中身の説明は図11のメタデータの場合と同様なので省略する。「サムネイル」は、区間を代表するサムネイルに関する情報である。「対象動画」と同様に「パス」という要素を持ち、後述するステップS408の処理で生成されるサムネイルのファイルが格納されているファイルパスが記述される。「項目行」には、区間内での各項目に対応する情報である、「区間内項目情報」という要素がある。「区間内項目情報」は、項目数分存在し、分割決定ウィンドウ図6(後述)で表示する順番に項目行内に並べて記述される。
【0048】
「区間内項目情報」には、「項目名」、「付与対象」、「分割基準」と必要に応じてメタデータの内容に相当する要素を記述することができる。「項目名」は、メタデータ項目名が記述される。「付与対象」はTRUEであれば、「項目名」にあるメタデータが、区間内に存在することを示し、FALSEであれば、存在しないことを示す。「分割基準」はTRUEであれば区間の分割基準となったメタデータ項目であり、FASLEであれば、分割基準ではないことを示す。メタデータの内容に相当する要素は、本例では、「項目名」が場所名のところで、メタデータの要素である「場所名」が、メタデータファイルよりコピーされている。このとき、メタデータファイルには、「場所名」の要素として「国」、「県」、「市」、「町」、「丁目」、「番地」などが存在していても、図6の分割決定ウィンドウ(後述)上で表示したい要素だけコピーしておけばよい。この例では、「市」のみがコピーされている。
【0049】
ここで、図4AにおけるステップS407で行う、分割情報の生成処理の詳細について、図13のフローチャートを用いて説明する。
まず、ステップS1601において、対象となるメタデータ項目の中でフレーム単位となっているもの(「区間」の「長さ」が0に設定されているもの)があれば、区間単位とする。例えば、前述の色の分布が、フレーム単位に付与されていた場合は、前述の方法で特徴量同士の距離を求め、所定値以上の距離となったところを変化点として、その前後を区間とする。
【0050】
次に、ステップS1602において、区間単位のメタデータを参照して、所定の条件に基いて項目ごとの分割区間を決定する。所定の条件の例をいくつかあげる。例えば、前述の日付の場合であれば、メタデータの付与区間をそのまま日付の分割区間とする。また例えば、Zoomの場合に、ズームインの区間のみという条件であれば、「方向」を参照し、インの区間のみを採用する。また例えば、Zoomの場合に、操作終了点を変化点とするという条件であれば、操作終了点の前後を区間とする、というものがある。
【0051】
次に、ステップS1603において、項目ごとの分割区間の論理和を取り、これを最終的な分割区間とする(すなわち、いずれかの項目において変化点(区分点)が現れる毎に分割される)。次に、ステップS1604において、まず先頭の分割区間に着目する。次に、ステップS1605において、図6の分割決定ウィンドウ(後述)上で表示する順番のはじめの項目に着目する。分割決定ウィンドウ(後述)上で表示する順番は、予め定められた順番であっても、利用可能メタデータ選択ウィンドウ(図5)にて指定した順番であっても構わない。
【0052】
次に、ステップS1606において、着目している分割区間内で、着目しているメタデータ項目が付与されているかどうかを判定する。これは、図11の各「メタデータ」内の要素である「区間」とメタデータの内容を示すタグ(「Zoom」)などを、着目している分割区間のタイムコード等を用いて参照すれば判定できる。付与されていれば、ステップS1607で「分割情報」内の「付与対象」をTRUEに設定する。付与されていなければステップS1608でFALSEに設定する。次に、ステップS1609で、分割の基準となった項目であるかを判定する。これは、「付与対象」がTRUEだったときに、「メタデータ」内の「区間」の「開始点」と「分割情報」内の「区間」の「開始点」が一致しているかどうかで判定できる。一致していれば、ステップS1610において「分割基準」をTRUEに設定する。一致していないときと、当然ながらそもそも付与対象区間でなかったときは、ステップS1611で「分割基準」をFALSEに設定する。
【0053】
次に、ステップS1612において、表示可能なメタデータ内容があるかをチェックする。これは処理装置の能力などに応じて表示可能なメタデータ項目の内容を予め決めておき、これに該当するものであるかどうかをチェックすることにより実現できる。図12の例では、「場所名」については、「市」のみを表示可能としている。表示可能なものがあれば、ステップS1613において、「メタデータ」より該当する要素のみ(例では「市」)を分割情報にコピーする。
【0054】
次に、ステップS1614において、次のメタデータ項目に着目し、次のメタデータ項目があれば、ステップS1606からステップS1613までを繰り返す。表示すべきメタデータ項目の最後の項目まで行っていたならば、次に、ステップS1615へ進む。ステップS1615では、次の分割区間に着目する。次の分割区間が存在するならば、ステップS1605からステップS1614までを繰り返す。存在しないならば、分割情報を作り終えているので、本処理を終了する。
【0055】
図4Aに戻って、ステップS408において、分割情報決定部301はサムネイルを作成する。蓄積部300を参照し、動画像から「分割情報」の「開始点」に相当するフレームを抜き出して、これを縮小することでサムネイルを作成する。作成したサムネイルは、JPEGやビットマップなどの形式で別ファイルとして蓄積部300に蓄積し、上述の通り分割情報にファイルのパスを格納する。
【0056】
次に、ステップS409において、分割結果を時間軸とメタデータ項目の軸の2次元の配列で表示部303に表示を行う。次に、ステップS410において、RAM203上に作成した分割情報を、上述のように専用の拡張子を付与する等して蓄積部300に保存する。これは、他の機器で分割情報を使用することを可能とするためと、後述するように図6の分割決定ウィンドウを初期状態に戻すためである。そして、図4Bに示すステップS411からステップS427の処理により、ユーザ操作部302を介したユーザ操作に従った分割点の決定を行う。
【0057】
ここで、ステップS409において、分割結果を表示し、分割点の決定を行う際のユーザインタフェースの一例である分割決定ウィンドウについて、図6を用いて説明する。
【0058】
600は分割決定ウィンドウである。タイトルバー601は、表示中のウィンドウが「分割決定ウィンドウ」であることをユーザに知らせるものである。602で示すような、「Thumb−A」等は分割点のフレーム(分割区間の先頭フレーム)のサムネイルである。このようなサムネイルが、縦軸を分割された区間(時間は上から下に進む)、横軸をメタデータ項目にしたときに該当するところに配置されて表示される(以降、横軸方向のひとまとまりを区間行、縦軸方向のひとまとまりを項目列と呼ぶ)。
【0059】
603の行の日付から場所名までは、各項目列に対応するメタデータ項目の名称を表示するものである。602のThumb−Aは、動画像の先頭フレームに位置し、また、日付項目の変化点で区切られているので、この位置に表示されている。なお、区間の先頭が複数のメタデータ項目で分割されている場合は、区間行上に複数のサムネイルが配置されることになる。例えば、動画像の先頭フレームは色項目によっても分割されているため、Thumb−Aは色項目においても表示されている。Thumb−Jについても同様である。
【0060】
そして、604のように空白となっているところは、分割区間に該当する項目のメタデータは存在するものの、分割基準でない場合である。そして、605のように斜線で表示されているところは、該当する分割区間内に該当する項目のメタデータが付与されていないことを示している。このようにサムネイルが配置された位置で、分割された区間の時間上の位置と、分割の基となったメタデータ項目を把握することができ、項目後とに分割した時の区間も把握しやすくなる。
【0061】
さらに、日付や場所名などのように容易に表示が可能なもの(テキストデータなど)は、606のようにサムネイル上にオーバーレイ表示する。これによって、分割の基準をより詳細に把握できる。607は、この列が分割長であることを示したものである。608は該当する時間行の分割の長さを時間で示したものである。これは分割長の長さを把握することができれば、どのようなものでもよく、例えば、始点と終点のタイムコードであっても、長さに対応したアイコンを作成し、これを表示するようにしても構わない。以上のような表示をすることにより、分割すべき動画中の範囲と、分割を決定する際に必要なメタデータ項目を、ユーザは把握しやすくなる。
【0062】
609の縦方向に並んだボタンは、各区間行の選択を指示するための区間選択ボタンである。黒に反転しているボタンの区間が選択されていることを示している。610は横方向に並んだボタンは、各項目列の選択を指示するための項目選択ボタンである。項目選択ボタンは、区間選択ボタン609において選択されている区間で分割基準となっているメタデータ項目が黒に反転表示される。逆に、項目選択ボタン610で選択された項目で分割される区間をボタン609の反転表示によって示しても良い。例えば、区間選択ボタン609と項目選択ボタン610のどちらか先に押された方に対応して、もう一方のボタンの表示状態が変化するようにすることができる。
【0063】
削除ボタン612は、区間選択ボタン609、項目選択ボタン610で選択された区間行や項目列の削除を指示するボタンである。これにより分割の範囲としない区間行を削除したり、不要な分割の基になったメタデータ項目の項目行を削除したりすることができる。OKボタン612は、区間選択ボタン609、項目選択ボタン610で選択された区間を、最終分割として決定することを指示するボタンである。リセットボタン613は、やり直しを行いたい場合に、削除等をおこなった状態を初期の状態に戻すためのボタンである。ポインタ614は、GUIの操作を行うためのポインタであり、通常はマウス205で操作することで装置に各種の指示を与えることができる。
【0064】
また、602などのサムネイルをポインタ614で示し、マウス205をダブルクリックする等の操作を行うことで該当区間を再生し、確認することができる。このときは、図7に例示する再生ウィンドウが別に開き、この画面上で再生される。図7において、700は再生ウィンドウである。タイトルバー701は、このウィンドウが「再生ウィンドウ」であることをユーザに知らせるものである。動画再生領域702は、再生された動画が表示される領域である。
【0065】
このようにボタン等を操作することで、ユーザは分割の決定を試行錯誤しながら行うことができる。
なお、GUIの表示やユーザ操作の検出、操作に応じた各種処理は、分割情報決定部301が行う。実際には、CPU201がキーボード204やマウス205の動作を検出しながら、適切な処理を行うことで実現される。
【0066】
次に、図4Bに移って、ステップS411において、メタデータ抽出指定があったどうかをチェックする。メタデータ抽出指定は、図5を用いて説明した利用可能メタデータ選択ウィンドウにおける指定とは別に、特定の区間について更に詳細な分割を行うためのメタデータ項目を指定するものである。
【0067】
メタデータ抽出指定は、図6における区間選択ボタン609で範囲を指示し、反転表示(黒表示)されている区間選択ボタン609上で、例えばマウス205の右ボタンをクリックをして抽出可能メタデータ選択ウィンドウを表示させ、この中から選択することによって可能となる。
【0068】
ここで、抽出可能なメタデータを選択する際のユーザインタフェースの一例を図8を用いて説明する。800は抽出可能メタデータ選択ウィンドウである。タイトルバー801は、「抽出可能メタデータ選択ウィンドウ」であることをユーザに知らせるものである。802は、指定された区間で抽出可能なメタデータ項目のリストを表示する領域である。具体的には、指定された区間に存在するメタデータ項目をメタデータファイルを参照して取得し、分割決定ウィンドウに表示されていない項目を表示する。この中で、下線付きで表示されているものが、選択されたメタデータである。OKボタン803は、押下することにより抽出可能なメタデータ項目の選択を完了する。ポインタ803は、これを操作することによって各種の指示を与えることができる。
【0069】
抽出可能メタデータ選択ウィンドウ800を操作することにより、分割結果を確認した結果、他のメタデータ項目により更に細かく分割することができる。また、部分的にしかメタデータが付与されていない場合に、付与されていない区間(605など)に対してメタデータを抽出し、分割することができる。
【0070】
ステップS411において、メタデータ抽出指示が無ければ、ステップS412に進み、分割条件の設定が行われたかどうかをチェックする。分割条件の指定は、例えば色による分割など、所定の閾値によって分割がなされるメタデータ項目について、ステップS407において用いられた条件を変更して再度分割を行いたい場合に実行することができる。例えば、ユーザが条件を指定したいメタデータ項目の名称が表示されている領域603をポインタ614で示した状態でマウス205の右ボタンをクリックすると、分割条件設定ウィンドウが表示され、このウィンドウ中で設定を行うことによって条件設定が可能となる。なお、更に、区間選択ボタン609にて、分割させる範囲を指定可能に構成してもよい。
【0071】
ここで、分割条件の設定をする際のユーザインタフェースの一例を図9を用いて説明する。900は分割条件設定ウィンドウである。タイトルバー901は、「分割条件設定ウィンドウ」であることをユーザに知らせるものである。902は、条件設定をしているメタデータ項目の名称などを表示する領域である。、条検値の設定903は、閾値などの条件をユーザ操作部302を構成するキーボード204を操作して設定する。OKボタン904は、押下することにより条件設定を完了する。ポインタ905は、これを操作することによって各種の指示を与えることができる。設定できる条件としては、メタデータを抽出する時の条件、フレーム単位のメタデータを区間単位のメタデータとする時の条件、区間単位のメタデータから分割区間を採用するときの条件がある。
【0072】
分割条件設定ウィンドウ900を操作することにより、分割結果を確認した結果、特定のメタデータ項目の分割結果が期待通りで無かった場合に、分割に関する条件を変更して再度分割させることができる。
【0073】
次に、ステップS411にて指定が有った場合か、ステップS412にて条件設定が行われた場合は、ステップS413に進み適用範囲の確認を行う。これは区間選択ボタン609にて選択された区間を検出し、それに対応する区間を分割情報より読み出すことにより行う。
【0074】
次に、ステップS414において、ステップS413で確認された適用範囲内について、ステップS411にて選択されたメタデータ項目か、ステップS412で条件設定されたメタデータ項目についてメタデータの抽出を行う。もちろん、ステップS412で設定された条件がメタデータ抽出に関するものである場合は、設定された条件をもとにメタデータ抽出を行う。例えば、Zoom項目において、「IN」の区間のみが条件設定された場合には、その条件にあうメタデータを抽出する。次に、ステップS415において、抽出されたメタデータに基いて分割情報の生成をステップS407と同様にして行う。もちろん、ステップS412で設定された条件が分割情報生成に関するものである場合は、設定された条件をもとに分割情報の生成をステップS407と同様にして行う。
【0075】
次に、ステップS417において、生成された分割情報のサムネイルをステップS408と同様にして作成する。次に、ステップS417において、生成された分割情報を追加してステップS409と同様に2次元配列表示を行う。次に、ステップS418において、生成された分を追加した分割情報を蓄積部300に保存する。理由はステップS410と同様である。
【0076】
次に、ステップS412にて条件設定が行われていなかったときか、ステップS418の処理を終えたら、ステップS419へ進み、項目選択ボタン610にて削除指示がなかったかどうかをチェックする。指示がなければ、ステップS420とステップS421はスキップする。指示があれば、ステップS420に進み、削除範囲の確認を行う。
【0077】
ここで、項目選択ボタン610のみが選択されていれば、選択された項目行全体を削除の範囲とする。また、区間選択ボタン609のみが選択されていれば、選択された項目行全体を削除の範囲とする。例えば、図6に示すような、両方のボタンが反転表示されているような場合、削除したくない行または列において反転表示されてるボタンをクリックすることによりその反転表示を解除することが可能である。
【0078】
次にステップS421に進み、削除範囲について分割決定ウィンドウ600について削除を行う。そして、RAM203上の分割情報から削除する。次に、ステップS422へ進み、削除されたことにより変化した分割長を再計算し、表示を行う。
【0079】
次に、ステップS423において602などのサムネイルがダブルクリックされ、再生指示されたかどうかをチェックする。再生指示されていなければ、次のステップS424はスキップされる。再生指示されていれば、ステップS424へ進み、再生ウィンドウ700にて、指定されたサムネイルに対応する区間を再生する。これにより、区間の内容を確認することができる。
【0080】
次に、ステップ425において、リセットボタン613によってリセット指示があったかどうかを判定する。指示されていれば、ステップ427において、蓄積部300より分割情報を読み出して、再表示を行う。これにより、分割決定の操作をはじめからやり直すことができる。
【0081】
次に、ステップ423において、OKボタン612が押され、区間選択ボタン609や項目選択ボタン610で選択された区間を、最終分割として決定したかどうかを判定する。OKボタン612が押されていなければ、まだ分割決定が完了していないので、ステップS411へ戻る。押されていれば、次のステップS428へ進み、再生順序の指定を行う。
以上、ステップS411からステップS427によって、ユーザは所望の分割点を得られるまで、試行錯誤することが可能である。
【0082】
ここで、ステップS428で表示される、再生順序を指定する際のユーザインタフェースの一例を図10を用いて説明する。1000は再生順序指定ウィンドウである。タイトルバー1001は、このウィンドウが「再生順序指定ウィンドウ」であることをユーザに知らせるものである。1002はこの列が再生順序であることを示したものである。1003のように再生順序が表示されている。1004はこの列が決定された分割点の最初のフレームのサムネイルの表示領域であることを示している。1004は図15の5002と、1005は5003と、1006は5004と、1007は5005と同様であるので説明は省略する。1008の太枠は2行目が選択されていることを示す。これを選択されている枠を上下にドラッグすることで再生順序の入れ替えを設定することができる。OKボタン1009はその押下により、順序の入れ替えの終了を指示するボタンである。ポインタ1010は、これを操作することによって各種の指示を与えることができる。
【0083】
次に、ステップS428において、図10の再生順序指定ウィンドウで、順序の指定が行われたかどうかを判定する。これは、ポインタ1010により選択及びドラッグが行われたかどうかで判定できる。入れ替え指示があれば、ステップS429において、ドラッグ後の位置に応じて順序の入れ替えをして、表示内容を更新する。
【0084】
次に、ステップS430において、再生順序の決定がなされたかを判定する。これは、1009のOKボタンが押下されたかどうかで判定できる。決定されていなければ、ステップS428へ戻りステップS429までの処理を繰り返す。決定されていれば、ステップS431に移り再生リストを生成する。再生リストは、分割情報中の対象動画と区間を指定された順序にコピーすることで生成できる。そして、ステップS432において動画再生リストを蓄積部300に保存する。これは、他の再生機器でも利用できるようにするためである。そして、ステップS433において、図7の再生ウィンドウにおいて、指定された再生順序通りに動画が再生される。
【0085】
ここで、動画再生リストについて説明する。
本実施形態では、動画再生リストは、これを一つのファイルにし、蓄積部300に記憶するものとする。
【0086】
図14は動画再生リストの記述例を示す図である。本実施形態において、動画再生リストは、図11のメタデータと同様にXML形式で記述される。データ構造に関しての基本的な説明は図11と同じなので、ここでは省略し、各要素についての説明を行う。「再生順序」には、再生する順番に「対象動画」、「区間」のペアで、記述されている。「対象動画」、「区間」は「分割情報」中のものをコピーしたものである。再生部306は、順序通りに対象となる動画の区間を再生していくことで、ユーザが所望する内容の動画を再生することができる。
【0087】
以上のようにして、自動分割に用いるメタデータ項目を適切に選択し、また、その条件の設定を行うことによって、ユーザが所望する分割区間を得て、動画再生リストを作成することができる。
【0088】
【他の実施形態】
上述の実施形態では生成した分割情報を動画再生リストの生成に利用する場合を例に挙げたが、分割情報は他の様々な用途に用いることも可能である。例えば、分割情報に基いて一つの動画ファイルを分割し、複数の動画ファイルを生成する。分割情報に指定された区間が、動画像ファイルの一部のときは、指定区間のみを抜き出して、新たな一つの動画ファイルを生成する。分割情報に指定された区間の一部(例えば先頭の2秒間)のみを再生し、ダイジェスト再生を行う。以上のような用途が考えられる。
【0089】
本実施形態では、動画像と一部のメタデータは他の機器で撮像及び、付与されているものとしたが、ひとつの機器として構成しても、もちろん構わない。
【0090】
本実施形態では、分割情報と動画像中の区間との関連付けは、分割情報中に記述したが、関連付けの情報のみをまとめて、管理ファイルとして、例えばXMLの形式で作成しておいても構わない。
【0091】
本実施形態では、メタデータ、分割情報を、XMLの形式(テキストデータ)で記述したが、1例であって、もちろん、バイナリで表現しても構わない。
【0092】
本実施形態では、動画像処理装置において付与可能なメタデータとして色の分布を用いたが、これに限定されるものではなく、例えば、輝度、共起行列、コントラスト、エントロピ、Gabor変換等で表現されるテクスチャ特徴量、エッジ、フーリエ記述子等の形状特徴量、顔認識など複数挙げられる。
【0093】
本実施形態で、分割情報には、メタデータの内容を表示可能なものだけコピーすることにしたが、もちろん、容量などの制限がなければ、全てコピーしておいて、表示するときに、表示可能なものだけ表示するようにしても構わない。
【0094】
本実施形態では、図6に示す2次元配列表示において、区間を行、メタデータ項目を列としたが、もちろん、メタデータ項目を行、メタデータ項目を列とするように表示しても構わない。
【0095】
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムを、記録媒体から直接、或いは有線/無線通信を用いて当該プログラムを実行可能なコンピュータを有するシステム又は装置に供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムを実行することによって同等の機能が達成される場合も本発明に含む。
【0096】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータに供給、インストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の機能処理を実現するためのコンピュータプログラム自体も本発明に含まれる。
【0097】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
【0098】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、磁気テープ等の磁気記録媒体、MO、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−R、DVD−RW等の光/光磁気記憶媒体、不揮発性の半導体メモリなどがある。
【0099】
有線/無線通信を用いたプログラムの供給方法としては、コンピュータネットワーク上のサーバに本発明を形成するコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイル等、クライアントコンピュータ上で本発明を形成するコンピュータプログラムとなりうるデータファイル(プログラムデータファイル)を記憶し、接続のあったクライアントコンピュータにプログラムデータファイルをダウンロードする方法などが挙げられる。この場合、プログラムデータファイルを複数のセグメントファイルに分割し、セグメントファイルを異なるサーバに配置することも可能である。
【0100】
つまり、本発明の機能処理をコンピュータで実現するためのプログラムデータファイルを複数のユーザに対してダウンロードさせるサーバ装置も本発明に含む。
【0101】
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件を満たしたユーザに対して暗号化を解く鍵情報を、例えばインターネットを介してホームページからダウンロードさせることによって供給し、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【0102】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
【0103】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
【0104】
【発明の効果】
以上説明したように、本発明によれば、動画像の内容や、動画編集の意図に応じて、ユーザがメタデータ項目やその条件を設定が可能となる。また、分割情報は汎用的な形式で記述することにより、装置依存性が小さく、広く利用することが可能である。
【図面の簡単な説明】
【図1】メタデータによる動画像の自動分割の概念を示す図である
【図2】本発明の実施形態における動画像処理装置の制御構成を示すブロック図である
【図3】本発明の実施形態における動画像処理装置の機能構成を示すブロック図である
【図4A】
【図4B】
【図4C】本発明の実施形態における動画像処理装置の処理手順を示したフローチャートである
【図5】本実施形態おける、分割に利用可能なメタデータ項目を選択する際のユーザインタフェースの一例を示す図である。
【図6】本実施形態おける、分割点の決定を行う際のユーザインタフェースの一例を示す図である。
【図7】本実施形態おける、再生ウィンドウの一例を示した図を示す図である。
【図8】本実施形態おける、抽出可能なメタデータを選択する際のユーザインタフェースの一例を示す図である。
【図9】本実施形態おける、分割条件の設定をする際のユーザインタフェースの一例を示す図である。
【図10】本実施形態おける、再生順序を指定する際のユーザインタフェースの一例を示す図である。
【図11】本実施形態おける、メタデータの記述の一例を示す図である。
【図12】本実施形態おける、分割情報の記述の一例を示す図である。
【図13】本実施形態における動画像処理装置の分割情報生成処理の詳細を示したフローチャートである。
【図14】本実施形態おける、分割情報の記述の一例を示す図である。
【図15】従来技術による分割結果の表示の例を示す図である。
【図16】ブロック分割の一例を示す図である。
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a technique for dividing a moving image by using a change point of supplementary information of the moving image.
[0002]
[Prior art]
Generally, as seen in Patent Documents 1 and 2,
[0003]
-Operation of the video imaging device (pan, tilt, zoom, etc.)
・ Imaging device status (focus, white balance, etc.)
-Text data given by the user (title, person name, place name, etc.)
・ Features obtained by analyzing images (color, brightness, etc.)
Techniques have been developed for automatically dividing a moving image at a change point of metadata or a point at which the metadata satisfies a predetermined condition by using (hereinafter, these supplementary information is collectively referred to as metadata). By automatically dividing a moving image, playback from a desired location, editing of a moving image, and automatic summarization of the moving image are enabled.
The concept of automatic division of a moving image based on metadata will be described with reference to FIG.
[0004]
FIG. 1A shows, as an example of a metadata item for a certain moving image, a date, a zoom, a color distribution in a frame, and a place name, which are grouped in section units. The date is divided by the change point of the date, and the section before and after is set. Zoom is a section for each operation. The color distribution is obtained by calculating the color distribution in units of frames, dividing the color distribution at points that greatly change between frames, and setting the preceding and subsequent sections as sections. The section name provided by the user is the section name as it is. As described above, the metadata is grouped into sections based on the change points of the metadata, the sections to be added, and the like.
[0005]
FIG. 1B shows a result of dividing a moving image using the metadata, date, Zoom, color distribution, and place name division points (change points) arranged in units of sections. As shown in FIG. 1, for a plurality of types of metadata items, a result obtained by dividing a moving image when a segmentation point appears in any one of the metadata items is a division result. Thumb-A to Thumb-J in FIG. 1B are thumbnail images formed by reducing the first and last image frames of the moving image and the image frame at each division point.
[0006]
The division result is displayed by, for example, a GUI (Graphical User Interface) as shown in FIG. In FIG. 15, reference numeral 5000 denotes a division result window. Title bar 5001 informs the user that it is a “split result window”. Numeral 5002 indicates that this column is a division point. Reference numeral 5003 denotes a thumbnail corresponding to a division point. Time is displayed as going from top to bottom. Note that Thumb-A is a thumbnail corresponding to the start point of the moving image, and Thumb-J is a thumbnail corresponding to the end point of the moving image. Reference numeral 5004 indicates that this column has a division length. Numeral 5005 indicates the division length in time for each division. Note that Thumb-J is a thumbnail at the end point of the moving image, and has no division length, and thus is displayed as “−−−−−−−−”.
[0007]
[Patent Document 1]
JP-A-08-163488
[Patent Document 2]
Japanese Patent No. 3192666
[0008]
[Problems to be solved by the invention]
In the above-described conventional technique, a moving image can be automatically divided using the segment points of various metadata items. For example, in the example shown in FIG. 1, a moving image is divided at any of the four metadata items. Automatic division has not been realized by using a dividing point for an arbitrary metadata item. That is, since the metadata item used for the automatic division cannot be selected and is fixed, it is very difficult to divide it into a desired section.
[0009]
Here, the importance of selecting a metadata item will be described.
First, the importance of a metadata item used for automatic division may change depending on the content of a moving image. As an example, a case where a place name and a person name are given as metadata items will be described. First, consider a case where a wedding reception is photographed. Basically, we are shooting events that take place in the reception hall, so it does not make much sense to change the place name. On the other hand, various people, such as grooms, brides, friends, relatives, and company bosses, can be photographed. Therefore, it is expected that an appropriate section can be obtained by dividing by a person's name. Next, consider the case of shooting on a family trip. Since many sightseeing spots are visited, sections organized by place names are important. On the other hand, the photographed person is usually limited to family members, and therefore, only the name of the person is equal to the number of family members. Therefore, it is expected that an appropriate section can be obtained by dividing by a place name, rather than by a person name.
[0010]
Also, depending on the intention at the time of editing, the importance of the metadata item used for automatic division may change even if the same moving image is targeted. For example, in the case of the above-mentioned family trip shooting, moving pictures are usually grouped for each sightseeing spot (place) as described above, but if you want to make a moving picture only for a specific family member (for example, a child), You need to split by name.
[0011]
In addition, important metadata is different depending on a photographer's difference, even for a moving image having the same content. For example, some photographers make heavy use of the zoom operation, and some photographers make heavy use of the pan operation. In each case, the importance of zoom and pan differs.
[0012]
Therefore, when a user who edits a moving image knows the contents of a target moving image well (for example, when the user himself shoots), it is important for the user to select a metadata item. However, in the conventional method, this means is not provided, and the intended division result cannot be obtained even if the automatic division is performed, so that time and labor such as combining and further dividing occur.
[0013]
Further, even when the contents of the moving image are not known, the same problem occurs. In this case, in order to confirm the importance of the metadata item, a means for listing the division points corresponding to the respective metadata is further required. However, it is a matter of course that the conventional method does not provide such means, and in such a case, it is even more difficult to obtain an appropriate division result.
[0014]
The present invention has been made in view of the above problems, and provides a means for appropriately selecting a metadata item to be used for automatic division so that reproduction and editing operations can be easily performed. Aim.
[0015]
[Means for Solving the Problems]
In order to achieve the above object, a moving image processing apparatus according to the present invention includes an additional information collecting unit that obtains additional information regarding a moving image, a display unit that presents a user interface capable of selecting additional information, And division information generating means for generating division information for dividing a moving image into a plurality of sections based on selected supplementary information selected via a user interface.
[0016]
Further, an object of the present invention is to provide an additional information collecting step of acquiring additional information on a moving image, a display step of presenting a user interface capable of selecting additional information, and a step of selecting additional information through the user interface. A division information generating step of generating division information for dividing a moving image into a plurality of sections based on the selected incidental information.
[0017]
Furthermore, the object of the present invention is also achieved by a computer program that causes a computer device to function as the moving image processing device of the present invention, and a computer-readable recording medium that stores the computer program.
[0018]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, preferred embodiments of the present invention will be described with reference to the accompanying drawings. In this embodiment, a description will be given of a process of generating division information for automatic division using metadata and creating a moving image playlist using the result. This is an example of the processing to be performed, and it goes without saying that the division information can be used for other processing.
[0019]
FIG. 2 is a block diagram illustrating a control configuration of the moving image processing device according to the present embodiment. 2, a CPU 201 executes various controls in the moving image management device of the present embodiment. The ROM 202 stores a boot program executed when the apparatus is started and various data. The RAM 203 stores a control program to be processed by the CPU 201 and provides a work area when the CPU 201 executes various controls. The keyboard 204 and the mouse 205 provide various input operation environments for the user.
[0020]
The external storage device 206 includes, for example, at least one of a hard disk, a floppy disk, an optical disk, a magnetic disk, a magneto-optical disk, a magnetic tape, and a nonvolatile semiconductor memory. The display 207 includes a display or the like, and displays a processing result of the moving image management device, a GUI screen, and the like to a user. A network interface (NIC) 208 is a communication interface with an external device such as a USB, IEEE 1394, Ethernet (registered trademark), or modem, and enables communication with another device that is locally or network-connected. Further, the bus 211 connects the respective blocks constituting the moving image management apparatus.
[0021]
In the configuration of FIG. 2, the external storage device 206 does not need to be built in the moving image management device, and may be connected so as to be accessible via a network interface.
[0022]
FIG. 3 is a block diagram illustrating a functional configuration of the moving image processing device according to the present embodiment. The storage unit 300 is configured by the external storage device 206 and stores moving images, metadata, division information, and a moving image playback list. The moving image is captured by another imaging device such as a video camera or a digital camera, and a device capable of reading a recording medium on which the captured image is recorded, for example, a removable recording medium such as a semiconductor memory or an optical disk is used as the external storage device 206. It may be used or read from the NIC 208 into the storage unit 300 from another device via a network.
[0023]
Metadata that has been given in advance by another device can be captured in the same manner as a moving image. Note that the metadata at this time is stored in a format described later. Further, the metadata can be provided by the main moving image processing apparatus. The division information and the moving image reproduction list are generated and stored in the main moving image processing apparatus.
[0024]
The division information determination unit 301 generates division information based on the metadata read from the storage unit 300 and the metadata obtained from the metadata extraction unit 304, and determines a desired division. The user operation unit 302 acquires an instruction or input from a user via the keyboard 204, the mouse 205, or the like. The display unit 303 includes a display unit 207, and displays a division result or the like generated by the division information determination unit 301 to a user. The metadata extraction unit 304 analyzes moving images and metadata stored in the storage unit 300 and extracts new metadata. The metadata extraction unit 304 is activated when necessary according to the operation of the user operation unit 302. You. The reproduction order specification unit 305 specifies the reproduction order of the divided sections determined by the division information determination unit 301 by specifying the order. The reproduction unit 306 reads and reproduces a moving image from the storage unit 300 in accordance with the reproduction at the time of confirmation until the division information is determined by the division information determination unit 301 and the reproduction order specified by the reproduction order specification unit 305. , On the display unit 303.
[0025]
There are three main methods for adding metadata to a moving image. In this embodiment, any method may be used. Also, it may be provided by another method.
[0026]
(Method 1) Method to be applied to an imaging device that captures a moving image
Information such as the operation of the imaging device and the state of the imaging device during shooting can be obtained and provided from operation buttons such as a zoom button of the imaging device, and a clock and various sensors included in the imaging device. Items include shooting date and time, zoom, focus, white balance, gain, shutter speed, pan, tilt, AE mode, and the like. Further, information obtained from a device external to the imaging device (for example, coordinate information obtained from a GPS sensor) may be added.
[0027]
(Method 2) Method to be given by the user
After the shooting, the user can designate the section in the moving image while playing back the moving image, and input the information on the name, location, and the like of the person being shot, thereby giving the information.
[0028]
(Method 3) A method of analyzing and adding moving images
The captured moving image can be analyzed to extract a feature amount, and this can be added as metadata. Items include color distribution, luminance, presence of a face area, and the like in a moving image frame.
[0029]
For example, as for the color distribution, each frame is divided into a plurality of blocks vertically and horizontally as shown in FIG. 16, and the average value of each of the RGB channels is calculated for each block. Metadata of the distribution. Further, the sum of squares of the difference between each of the RGB channels between the corresponding blocks of the previous frame and the current frame is obtained, and this is set as the inter-frame similarity distance. An example of the calculation formula is shown below.
[0030]
Σ (i = 1 to k) {(P1 iR -P2 iR ) 2 + (P1 iG -P2 iG ) 2 + (P1 iB -P2 iB ) 2Equation 1
However,
i: Indicates the block being processed
K: number of divided blocks
P1 iR : Average value of the R channel of the i-th block of the previous frame
P1 iG : Average value of G channel of the i-th block of the previous frame
P1 iB : Average value of the B channel of the ith block of the previous frame
P2 iR : Average value of the R channel of the i-th block of the current frame
P2 iG : Average value of G channel of i-th block of current frame
P2 iB : Average value of B channel of the i-th block of the current frame
[0031]
The smaller the inter-frame similarity distance obtained by Equation 1, the more similar the color distribution of the two frames, and the larger the distance, the less similar. Then, for example, a frame having an inter-frame similarity distance equal to or greater than a certain threshold, that is, a frame having low similarity to the previous frame is regarded as a change point. A section before and after the change point is defined as a section, and this is defined as metadata in section units.
[0032]
Similarly, the luminance of each frame is divided into blocks as shown in FIG. 16, an average luminance in the block is obtained, and this feature amount can be used as metadata in frame units.
[0033]
For the presence of the face region, the color components near the center of the frame are analyzed, and when the skin color component is larger than a predetermined threshold, the face is estimated to be present, and the first frame and the last frame that are estimated to be present are changed. A method of adding metadata as a point can be cited. Another method may be used, such as detecting the presence of a face by template matching or the like.
[0034]
In the present embodiment, it is assumed that only metadata is collected into one file and stored in the storage unit 300.
[0035]
FIG. 11 is a diagram illustrating an example of a description of metadata stored in the storage unit 300. In the example shown in FIG. 11, the metadata is described in an XML (extensive Markup Language) format. Reference numeral 1401 denotes a header portion relating to the XML document, in which an XML declaration such as an XML version and a character encoding method is described. Reference numeral 1402 denotes a document body. The document body is formed between a start tag such as "<" and ">", such as 1403, and a "<//" and ">", such as 1404, between the start tag and the corresponding end tag. It is composed of elements composed of contents 1405 sandwiched.
[0036]
The start tag and the end tag indicate what content is described between the tags. Each element can be described hierarchically. In this example, “metadata” exists under the “metadata set” that is the root element (the highest level), and “target video”, “section”, and (In this example, “Zoom”), a “path” exists under “target video”, and a “start point” and a “length” exist under “section”. Under “Zoom”, “direction”, “start magnification”, and “end magnification” exist. As described above, the “metadata” is listed and described under the “metadata set”.
[0037]
Then, first, the position of the moving image file targeted for each “metadata” is described. This has “path” as an element of “target moving image”, and describes, for example, the file path of the target moving image file stored in the storage unit 300. Next, a “section” of each “metadata” is described, which is described by a “start point” and a “length”. The “start point” is described by a time code, and the “length” is described by a time from a start point to an end point. At this time, if it is desired to describe metadata on a frame basis, 0 is described in “length”. The specific content of the metadata corresponding to “section” is described next, and in this example, “Zoom” is described. “Zoom” has elements of “direction”, “start magnification”, and “end magnification”, and “direction” is described as in when zooming in and out when zooming out. “Start magnification” is the zoom magnification at the start of the operation, and in this example, 1 indicating 1 × is described. “End magnification” is the zoom magnification at the end of the operation, and is 2.5 times in this example.
[0038]
FIGS. 4A to 4C are flowcharts illustrating a moving image division processing procedure of the moving image processing apparatus according to the present embodiment. The moving image dividing process is executed, for example, when a user selects a moving image to be divided from the user operation unit 302 and instructs the dividing process.
[0039]
First, in step S401, the division information determination unit 301 refers to the storage unit 300, checks metadata items assigned to the target moving image from the metadata file, and generates a list of metadata items that can be used for automatic division. create. At this time, metadata items that do not exist in the metadata file and can be newly added by the moving image processing device are also included in the list.
[0040]
Next, in step S402, a list of metadata items created in step S401 and usable for automatic division is displayed on the display unit 303. Next, in step S403, it is determined whether or not the user has completed selection of the metadata item to be used via the user operation unit 302. Keep waiting until done.
[0041]
Here, an example of a user interface displayed to display and select available metadata items in step S402 will be described with reference to FIG. Reference numeral 500 denotes an available metadata selection window. The title bar 501 informs the user that the screen being displayed is an “available metadata selection window”. In the metadata item display area 502, a list of available (selectable) metadata items is displayed.
[0042]
In the present embodiment, what is underlined in the metadata item display area is the already selected metadata. The selection of an item can be performed by an arbitrary method usually employed in a GUI. For example, the pointer 504 is operated by the mouse 205, and a desired item is indicated by the pointer 504 and clicked to perform a selection operation. Can be. Further, in order to specify the order of display in the division determination window described later, the display order may be changed by dragging an item or the like. Note that a plurality of items can be specified as illustrated in the figure. Also, what is displayed in italics indicates metadata items that can be added by the main moving image processing apparatus. As a result, metadata can be extracted for items in this list even if they are not assigned in advance. The OK button 503 can be operated by clicking with the mouse 205 or pressing the corresponding key of the keyboard 204, and the selection of the available metadata item is completed by operating the OK button 503. The pointer 504 is, for example, a pointer of the mouse 205, and the user can give various instructions to the moving image processing apparatus by operating the pointer.
[0043]
When the metadata item to be used for division is set by operating the OK button 503 (YES in step S403), the selected items include items that need to be extracted (the above-described items displayed in italics). It is checked whether it is (Step S404). If not, skip steps S405 and S406 and proceed to step S407. If there is, in step S405, the moving image is analyzed by the metadata extracting unit 304, and the corresponding metadata item is extracted. For the extraction, for example, the method described as the above-described method 3 can be used. Then, in step S406, it is added to the metadata file of the storage unit 300 in a predetermined format (in the present embodiment, the XML format described above). This is to make the extracted metadata usable by other devices.
[0044]
Next, in step S407, the division information determination unit 301 reads the metadata read from the storage unit 300 and the metadata extracted by the metadata extraction unit 304 (however, this exists only when YES in step S404). And generate division information.
[0045]
Here, the division information will be described.
In the present embodiment, the division information is assumed to be one file and stored in the storage unit 300. In storing, it is preferable to attach a special extension or prepare a special directory so that the information can be identified as division information. The division information is a work file for creating a moving image playlist. Therefore, for example, when dubbing a moving image file for distribution to another user, the file does not need to be copied. In such a case, it is possible to avoid copying only the file of the division information by judging the extension or the directory.
[0046]
FIG. 12 is a diagram illustrating an example of the description of the division information stored in the storage unit 300. In the present embodiment, the division information is described in an XML format, similarly to the metadata shown in FIG. Since the basic description of the data structure is the same as that of FIG. 11, the description is omitted here and each element is described. The “divided information set” includes an element called “divided information”, which is information for each divided section, and is described by arranging a number of pieces of divided information as illustrated. The “split information” includes elements such as “target image”, “section”, “thumbnail”, and “item row”. The “target moving image” is information on a moving image that is a target of the division information. The description of the contents is omitted because it is the same as that of the metadata in FIG.
[0047]
“Section” is information on a divided section. The description of the contents is omitted because it is the same as that of the metadata in FIG. “Thumbnail” is information on a thumbnail representing a section. Like the “target moving image”, the file path has an element “path”, and describes a file path in which a thumbnail file generated in the process of step S408 described below is stored. The “item row” includes an element “in-section item information” which is information corresponding to each item in the section. The “item information in section” exists for the number of items, and is described in the item line in the order of display in the division determination window FIG. 6 (described later).
[0048]
In the “item information within section”, “item name”, “grant target”, “division criterion”, and elements corresponding to the contents of the metadata can be described as necessary. The “item name” describes a metadata item name. If the “grant target” is TRUE, it indicates that the metadata in the “item name” exists in the section, and if it is FALSE, it indicates that it does not exist. If the "division criterion" is TRUE, it is a metadata item that has become the division criterion of the section, and if it is FASLE, it indicates that the division criterion is not. In this example, in the element corresponding to the content of the metadata, the “item name” is the place name, and the “place name” which is the metadata element is copied from the metadata file. At this time, even if the metadata file includes “country”, “prefecture”, “city”, “town”, “chome”, “street number”, etc. as elements of “place name”, FIG. Only the elements to be displayed on the division determination window (described later) need to be copied. In this example, only "city" is copied.
[0049]
Here, the details of the division information generation processing performed in step S407 in FIG. 4A will be described with reference to the flowchart in FIG.
First, in step S1601, if any of the target metadata items is a frame unit (the “length” of the “section” is set to 0), it is determined as the section unit. For example, when the above-described color distribution is provided in units of frames, the distance between the feature amounts is obtained by the above-described method, and a point where the distance equal to or more than a predetermined value is a change point, and the preceding and following points are defined as a section. I do.
[0050]
Next, in step S1602, the division section for each item is determined based on a predetermined condition with reference to the metadata of the section unit. Some examples of the predetermined condition are given below. For example, in the case of the date described above, the section to which the metadata is added is used as a date division section as it is. For example, in the case of Zoom, if only the zoom-in section is set, the “direction” is referred to and only the IN section is adopted. Further, for example, in the case of Zoom, if there is a condition that an operation end point is set as a change point, there is a case where a section before and after the operation end point is set as a section.
[0051]
Next, in step S1603, the logical sum of the divided sections for each item is calculated, and this is set as the final divided section (that is, the division is performed each time a change point (section point) appears in any item). Next, in step S1604, attention is first paid to the leading divided section. Next, in step S1605, attention is paid to the first item in the order of display on the division determination window (described later) in FIG. The display order on the division determination window (described later) may be a predetermined order or an order specified in the available metadata selection window (FIG. 5).
[0052]
Next, in step S1606, it is determined whether or not the metadata item of interest is added in the division section of interest. This is done by referring to the “section”, which is an element in each “metadata” in FIG. 11, and a tag (“Zoom”) indicating the content of the metadata using the time code of the divided section of interest. Can be determined. If so, in step S1607, “grant target” in “division information” is set to TRUE. If it has not been assigned, it is set to FALSE in step S1608. Next, in step S1609, it is determined whether the item is a reference for division. This is based on whether the “start point” of the “section” in the “metadata” matches the “start point” of the “section” in the “split information” when the “grant target” is TRUE. Can be determined. If they match, in step S1610 the “division criterion” is set to TRUE. If they do not coincide with each other and, of course, if the section is not a target section in the first place, the “division reference” is set to FALSE in step S1611.
[0053]
Next, in step S1612, it is checked whether there is any metadata content that can be displayed. This can be realized by previously determining the contents of the metadata items that can be displayed according to the capabilities of the processing device and checking whether the metadata items correspond to the metadata items. In the example of FIG. 12, only "city" can be displayed for "place name". If there is one that can be displayed, in step S1613, only the corresponding element (“city” in the example) is copied from the “metadata” to the division information.
[0054]
Next, in step S1614, attention is paid to the next metadata item, and if there is the next metadata item, steps S1606 to S1613 are repeated. If the last metadata item to be displayed has been reached, the process advances to step S1615. In step S1615, attention is paid to the next divided section. If the next divided section exists, steps S1605 to S1614 are repeated. If not, the division information has been created, and this processing ends.
[0055]
Returning to FIG. 4A, in step S408, the division information determination unit 301 creates a thumbnail. Referring to the storage unit 300, a frame corresponding to the “start point” of the “split information” is extracted from the moving image, and reduced to create a thumbnail. The created thumbnail is stored in the storage unit 300 as a separate file in a format such as JPEG or bitmap, and the file path is stored in the division information as described above.
[0056]
Next, in step S409, the division result is displayed on the display unit 303 in a two-dimensional array of the time axis and the metadata item axis. Next, in step S410, the division information created on the RAM 203 is stored in the storage unit 300 by, for example, adding a dedicated extension as described above. This is to allow other devices to use the division information and to return the division determination window of FIG. 6 to the initial state as described later. Then, by the processes of steps S411 to S427 shown in FIG. 4B, the division point is determined according to the user operation via the user operation unit 302.
[0057]
Here, a division determination window, which is an example of a user interface for displaying a division result and determining a division point in step S409, will be described with reference to FIG.
[0058]
Reference numeral 600 denotes a division determination window. The title bar 601 informs the user that the window being displayed is a “division determination window”. “Thumb-A” or the like as indicated by 602 is a thumbnail of the frame of the division point (the top frame of the division section). Such a thumbnail is arranged and displayed at a corresponding section when the vertical axis is divided into sections (time progresses from top to bottom) and when the horizontal axis is a metadata item (hereinafter, the horizontal axis direction) A group is called a section row, and a group in the vertical axis direction is called an item column.)
[0059]
From the date of the line 603 to the place name, the name of the metadata item corresponding to each item column is displayed. Thumb-A 602 is displayed at this position because it is located at the first frame of the moving image and is delimited by the change point of the date item. When the head of the section is divided by a plurality of metadata items, a plurality of thumbnails are arranged on the section line. For example, since the first frame of a moving image is also divided by color items, Thumb-A is also displayed in color items. The same applies to Thumb-J.
[0060]
A blank area such as 604 indicates that the metadata of the item corresponding to the divided section exists but is not the division criterion. The hatched portion such as 605 indicates that the metadata of the corresponding item is not added in the corresponding divided section. At the position where the thumbnails are arranged in this manner, the time position of the divided section and the metadata item that is the basis of the division can be grasped, and the section at the time of the division after the item can also be grasped. It will be easier.
[0061]
Items that can be easily displayed (text data and the like) such as dates and place names are displayed as overlays on the thumbnails like 606. As a result, the division criterion can be grasped in more detail. Reference numeral 607 indicates that this column has a division length. Reference numeral 608 indicates the length of the division of the corresponding time line in time. This can be any type as long as the length of the division length can be grasped.For example, even for the time code of the start point and the end point, an icon corresponding to the length is created and displayed. It does not matter. By performing the display as described above, the user can easily grasp the range in the moving image to be divided and the metadata items necessary for determining the division.
[0062]
The buttons 609 arranged in the vertical direction are section selection buttons for instructing selection of each section row. This indicates that the section of the button that is inverted to black is selected. Buttons 610 arranged in the horizontal direction are item selection buttons for instructing selection of each item column. In the item selection button, the metadata item serving as the division reference in the section selected by the section selection button 609 is displayed in black and inverted. Conversely, the section divided by the item selected by the item selection button 610 may be indicated by the reverse display of the button 609. For example, the display state of the other button can be changed according to which of the section selection button 609 and the item selection button 610 is pressed first.
[0063]
The delete button 612 is a button for instructing deletion of the section row or the item column selected by the section selection button 609 and the item selection button 610. As a result, it is possible to delete a section line that is not a division range or delete an item line of a metadata item that is a source of unnecessary division. The OK button 612 is a button for instructing to determine the section selected by the section selection button 609 and the item selection button 610 as the final division. The reset button 613 is a button for returning the state in which deletion or the like has been performed to the initial state when it is desired to start over. The pointer 614 is a pointer for performing a GUI operation, and can normally give various instructions to the apparatus by operating the mouse 205.
[0064]
In addition, a thumbnail such as 602 is indicated by the pointer 614, and by performing an operation such as double-clicking the mouse 205, the corresponding section can be reproduced and confirmed. At this time, a reproduction window illustrated in FIG. 7 is separately opened, and the reproduction is performed on this screen. In FIG. 7, reference numeral 700 denotes a reproduction window. Title bar 701 informs the user that this window is a “playback window”. The moving image reproduction area 702 is an area where the reproduced moving image is displayed.
[0065]
By operating the buttons and the like in this manner, the user can determine the division while performing trial and error.
The display of the GUI, the detection of the user operation, and various processes according to the operation are performed by the division information determination unit 301. In practice, this is realized by the CPU 201 performing appropriate processing while detecting operations of the keyboard 204 and the mouse 205.
[0066]
Next, moving to FIG. 4B, in step S411, it is checked whether or not there is a metadata extraction designation. The metadata extraction designation designates a metadata item for performing more detailed division for a specific section, in addition to the designation in the available metadata selection window described with reference to FIG.
[0067]
For the metadata extraction designation, the range is designated by the section selection button 609 in FIG. 6, and, for example, by clicking the right button of the mouse 205 on the highlighted section selection button 609 (black display), the extractable metadata can be extracted. This is made possible by displaying a selection window and selecting one of them.
[0068]
Here, an example of a user interface when selecting extractable metadata will be described with reference to FIG. Reference numeral 800 denotes an extractable metadata selection window. Title bar 801 informs the user that it is an “extractable metadata selection window”. An area 802 displays a list of metadata items that can be extracted in a specified section. Specifically, the metadata item existing in the designated section is acquired by referring to the metadata file, and the items not displayed in the division determination window are displayed. Among them, the underlined items are the selected metadata. An OK button 803 completes selection of a metadata item that can be extracted by pressing it. The pointer 803 can give various instructions by operating this.
[0069]
By operating the extractable metadata selection window 800, as a result of confirming the division result, it is possible to further divide the data into other metadata items. Further, when the metadata is only partially provided, the metadata can be extracted and divided for a section (such as 605) to which the metadata is not provided.
[0070]
If there is no metadata extraction instruction in step S411, the process proceeds to step S412, and it is checked whether division conditions have been set. The designation of the division condition can be executed when it is desired to perform the division again by changing the condition used in step S407 for a metadata item to be divided by a predetermined threshold, such as division by color. For example, when the user clicks the right button of the mouse 205 with the pointer 614 indicating the area 603 in which the name of the metadata item whose condition is desired to be specified is displayed, a split condition setting window is displayed, and the setting in this window is performed. , The condition can be set. It should be noted that the section to be divided may be designated by the section selection button 609.
[0071]
Here, an example of a user interface for setting the division condition will be described with reference to FIG. Reference numeral 900 denotes a division condition setting window. The title bar 901 informs the user that it is a “division condition setting window”. An area 902 displays the names and the like of metadata items for which conditions are set. In the setting 903 of the threshold value, conditions such as a threshold value are set by operating the keyboard 204 included in the user operation unit 302. Pressing the OK button 904 completes the condition setting. The pointer 905 can give various instructions by operating this. Conditions that can be set include conditions for extracting metadata, conditions for converting frame-based metadata to section-based metadata, and conditions for employing a divided section based on section-based metadata.
[0072]
By operating the division condition setting window 900, as a result of checking the division result, if the division result of the specific metadata item is not as expected, it is possible to change the condition relating to division and perform division again.
[0073]
Next, if there is a designation in step S411 or if conditions are set in step S412, the process proceeds to step S413 to check the applicable range. This is performed by detecting the section selected by the section selection button 609 and reading the corresponding section from the division information.
[0074]
Next, in step S414, within the applicable range confirmed in step S413, metadata is extracted for the metadata item selected in step S411 or the metadata item set as a condition in step S412. Of course, if the condition set in step S412 relates to metadata extraction, metadata extraction is performed based on the set condition. For example, when only the section “IN” is set as a condition in the Zoom item, metadata that meets the condition is extracted. Next, in step S415, generation of division information is performed in the same manner as in step S407 based on the extracted metadata. Of course, if the condition set in step S412 is related to generation of division information, generation of division information is performed based on the set conditions in the same manner as in step S407.
[0075]
Next, in step S417, a thumbnail of the generated division information is created in the same manner as in step S408. Next, in step S417, the generated division information is added, and a two-dimensional array display is performed as in step S409. Next, in step S418, the division information to which the generated information has been added is stored in the storage unit 300. The reason is the same as in step S410.
[0076]
Next, when the condition has not been set in step S412, or when the processing in step S418 has been completed, the process proceeds to step S419, and it is checked whether or not a deletion instruction has been issued with the item selection button 610. If there is no instruction, steps S420 and S421 are skipped. If there is an instruction, the process proceeds to step S420, where the deletion range is confirmed.
[0077]
Here, if only the item selection button 610 is selected, the entire selected item line is set as a deletion range. If only the section selection button 609 has been selected, the entire selected item line is set as a deletion range. For example, when both buttons are highlighted as shown in FIG. 6, it is possible to cancel the highlighted display by clicking the highlighted button in the row or column not to be deleted. is there.
[0078]
Next, the process proceeds to step S421 to delete the deletion determination window 600 for the deletion range. Then, it is deleted from the division information on the RAM 203. Next, the process proceeds to step S422, where the division length changed by the deletion is recalculated and displayed.
[0079]
Next, in step S423, it is checked whether a thumbnail such as 602 has been double-clicked and a reproduction instruction has been given. If the reproduction instruction has not been issued, the next step S424 is skipped. If a reproduction instruction has been given, the process proceeds to step S424, and the section corresponding to the specified thumbnail is reproduced in the reproduction window 700. Thereby, the contents of the section can be confirmed.
[0080]
Next, in step 425, it is determined whether or not a reset instruction has been issued by the reset button 613. If so, in step 427, the division information is read from the storage unit 300 and redisplayed. Thereby, the operation of the division determination can be redone from the beginning.
[0081]
Next, in step 423, it is determined whether the OK button 612 is pressed and the section selected by the section selection button 609 or the item selection button 610 is determined as the last division. If the OK button 612 has not been pressed, the process returns to step S411 because the division determination has not been completed. If it has been pressed, the flow advances to the next step S428, where the reproduction order is designated.
As described above, through steps S411 to S427, the user can perform trial and error until a desired division point is obtained.
[0082]
Here, an example of the user interface displayed in step S428 when specifying the reproduction order will be described with reference to FIG. Reference numeral 1000 denotes a reproduction order designation window. Title bar 1001 informs the user that this window is a “playback order designation window”. 1002 indicates that this column is in the reproduction order. A reproduction order is displayed as in 1003. Numeral 1004 indicates that this column is a thumbnail display area of the first frame of the determined division point. 1004 is the same as 5002 in FIG. 15, 1005 is the same as 5003, 1006 is the same as 5004, and 1007 is the same as 5005. A bold frame of 1008 indicates that the second row is selected. By dragging the selected frame up and down, the order of the reproduction order can be set. An OK button 1009 is a button for instructing the end of the order change by pressing the button. The pointer 1010 can give various instructions by operating this.
[0083]
Next, in step S428, it is determined whether or not the order has been designated in the playback order designation window of FIG. This can be determined based on whether the pointer 1010 has been selected and dragged. If there is a change instruction, in step S429, the order is changed according to the position after dragging, and the display content is updated.
[0084]
Next, in step S430, it is determined whether the reproduction order has been determined. This can be determined based on whether the OK button 1009 has been pressed. If not, the process returns to step S428 and repeats the processing up to step S429. If it is determined, the process moves to step S431 to generate a play list. The play list can be generated by copying the target moving image and the section in the division information in a specified order. Then, in step S432, the moving image reproduction list is stored in the storage unit 300. This is to make it available to other playback devices. Then, in step S433, the moving image is reproduced in the reproduction window shown in FIG. 7 in the specified reproduction order.
[0085]
Here, the moving image playlist will be described.
In the present embodiment, it is assumed that the moving image reproduction list is converted into one file and stored in the storage unit 300.
[0086]
FIG. 14 is a diagram illustrating a description example of a moving image playlist. In the present embodiment, the moving image reproduction list is described in the XML format, similarly to the metadata in FIG. Since the basic description of the data structure is the same as that of FIG. 11, the description is omitted here and each element is described. The “reproduction order” is described as a pair of “target moving image” and “section” in the order of reproduction. The “target moving image” and the “section” are copies of those in the “split information”. The reproduction unit 306 can reproduce a moving image having a content desired by the user by reproducing the target moving image section in the order.
[0087]
As described above, by appropriately selecting the metadata item used for the automatic division and setting the conditions, it is possible to obtain a desired division section and create a moving image reproduction list by the user.
[0088]
[Other embodiments]
In the above-described embodiment, the case where the generated division information is used for generating a moving image play list has been described as an example, but the division information can be used for various other purposes. For example, one moving image file is divided based on the division information to generate a plurality of moving image files. When the section specified in the division information is a part of the moving image file, only the specified section is extracted and one new moving image file is generated. Only a part (for example, the first two seconds) of the section specified in the division information is reproduced, and the digest reproduction is performed. The above applications are conceivable.
[0089]
In the present embodiment, the moving image and a part of the metadata are captured and added by another device, but may be configured as a single device.
[0090]
In the present embodiment, the association between the division information and the section in the moving image is described in the division information. However, only the association information may be put together and created as a management file, for example, in an XML format. Absent.
[0091]
In the present embodiment, the metadata and the division information are described in the XML format (text data). However, this is merely an example, and may be expressed in a binary format.
[0092]
In the present embodiment, the color distribution is used as metadata that can be added in the moving image processing apparatus. However, the present invention is not limited to this. For example, it is represented by luminance, co-occurrence matrix, contrast, entropy, Gabor transform, and the like. Texture features, edges, shape features such as Fourier descriptors, face recognition, and the like.
[0093]
In the present embodiment, only the information that can display the content of the metadata is copied as the division information. However, if there is no limit such as the capacity, all the information is copied and displayed. Only possible items may be displayed.
[0094]
In the present embodiment, in the two-dimensional array display shown in FIG. 6, the section is set to the row and the metadata item is set to the column. However, the metadata item may be set to the row and the metadata item is set to the column. Absent.
[0095]
An object of the present invention is to supply a software program for realizing the functions of the above-described embodiments to a system or an apparatus having a computer capable of executing the program directly from a recording medium or using wired / wireless communication. The present invention also includes a case where equivalent functions are achieved by a computer of the system or the apparatus executing the supplied program.
[0096]
Therefore, the program code itself supplied and installed in the computer to implement the functional processing of the present invention by the computer also implements the present invention. That is, the present invention includes the computer program itself for implementing the functional processing of the present invention.
[0097]
In this case, any form of the program, such as an object code, a program executed by an interpreter, and script data supplied to the OS, is applicable as long as the program has the function of the program.
[0098]
As a recording medium for supplying the program, for example, a magnetic recording medium such as a flexible disk, a hard disk, a magnetic tape, an MO, a CD-ROM, a CD-R, a CD-RW, a DVD-ROM, a DVD-R, a DVD- There are optical / magneto-optical storage media such as RW, and nonvolatile semiconductor memories.
[0099]
As a method of supplying the program using wired / wireless communication, a computer program itself forming the present invention on a server on a computer network, or a computer forming the present invention on a client computer, such as a compressed file including an automatic installation function, is used. A method of storing a data file (program data file) that can be a program and downloading the program data file to a connected client computer may be used. In this case, the program data file can be divided into a plurality of segment files, and the segment files can be arranged on different servers.
[0100]
That is, the present invention also includes a server device that allows a plurality of users to download a program data file for implementing the functional processing of the present invention on a computer.
[0101]
Further, the program of the present invention is encrypted, stored in a storage medium such as a CD-ROM and distributed to users, and key information for decrypting the encryption for a user who satisfies predetermined conditions is transmitted to, for example, a homepage via the Internet. It is also possible to realize the program by supplying it by downloading it from, and using the key information to execute an encrypted program and install it on a computer.
[0102]
The functions of the above-described embodiments are implemented when the computer executes the read program, and an OS or the like running on the computer executes a part of the actual processing based on the instructions of the program. Alternatively, all the operations are performed, and the functions of the above-described embodiments can be realized by the processing.
[0103]
Further, after the program read from the recording medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion board or the The CPU or the like provided in the function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments can also be realized by the processing.
[0104]
【The invention's effect】
As described above, according to the present invention, a user can set a metadata item and its condition according to the content of a moving image and the intention of editing a moving image. In addition, since the division information is described in a general-purpose format, it has a small device dependency and can be widely used.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating a concept of automatic division of a moving image by metadata.
FIG. 2 is a block diagram illustrating a control configuration of the moving image processing device according to the embodiment of the present invention.
FIG. 3 is a block diagram illustrating a functional configuration of a moving image processing device according to an embodiment of the present invention.
FIG. 4A
FIG. 4B
FIG. 4C is a flowchart illustrating a processing procedure of the moving image processing apparatus according to the embodiment of the present invention.
FIG. 5 is a diagram illustrating an example of a user interface when selecting a metadata item that can be used for division in the embodiment.
FIG. 6 is a diagram illustrating an example of a user interface when a division point is determined in the embodiment.
FIG. 7 is a diagram showing an example of a playback window in the embodiment.
FIG. 8 is a diagram illustrating an example of a user interface when selecting extractable metadata in the present embodiment.
FIG. 9 is a diagram illustrating an example of a user interface when setting a division condition in the present embodiment.
FIG. 10 is a diagram illustrating an example of a user interface when a reproduction order is specified in the embodiment.
FIG. 11 is a diagram illustrating an example of description of metadata in the present embodiment.
FIG. 12 is a diagram illustrating an example of description of division information according to the present embodiment.
FIG. 13 is a flowchart illustrating details of division information generation processing of the moving image processing apparatus according to the present embodiment.
FIG. 14 is a diagram illustrating an example of description of division information in the present embodiment.
FIG. 15 is a diagram illustrating an example of display of a division result according to the related art.
FIG. 16 is a diagram illustrating an example of block division.

Claims (12)

動画像に関する付帯情報を取得する付帯情報収集手段と、
前記付帯情報を選択可能なユーザインタフェースを提示する表示手段と、
前記付帯情報のうち、前記ユーザインタフェースを介して選択された選択付帯情報に基づいて前記動画像を複数の区間に分割するための分割情報を生成する分割情報生成手段とを有することを特徴とする動画像処理装置。
Supplementary information collecting means for acquiring supplementary information on a moving image;
Display means for presenting a user interface capable of selecting the incidental information,
Division information generating means for generating division information for dividing the moving image into a plurality of sections based on selected additional information selected via the user interface among the additional information. Moving image processing device.
前記表示手段が、前記分割情報に基づいて前記動画像を分割した場合に得られるであろう結果を、時間と前記選択付帯情報の種別を軸とした2次元配列表示したユーザインタフェースを提示することを特徴とする請求項1記載の動画像処理装置。Presenting a user interface in which the display means displays a result that would be obtained when the moving image is divided based on the division information in a two-dimensional array with time and a type of the selected incidental information as axes; The moving image processing apparatus according to claim 1, wherein: 前記2次元配列表示は、前記分割情報に基づいて分割された動画像の各区間を代表するサムネイル画像を、当該各区間が対応する時間区分と、当該各区間の分割に用いられた前記付帯情報の種別に対応する区分とが交差する位置に配置してなることを特徴とする請求項2記載の動画像処理装置。The two-dimensional array display includes a thumbnail image representing each section of the moving image divided based on the division information, a time section corresponding to each section, and the supplementary information used for dividing each section. 3. The moving image processing apparatus according to claim 2, wherein the moving image processing apparatus is arranged at a position where a section corresponding to the type intersects. 前記表示手段が、前記2次元配列表示したユーザインタフェースを介した指示に応じ、前記付帯情報のうち、前記選択付帯情報以外の付帯情報を選択するためのユーザインタフェースを表示することを特徴とする請求項2又は請求項3記載の動画像処理装置。The display means displays a user interface for selecting additional information other than the selected additional information from the additional information in response to an instruction via the user interface displaying the two-dimensional array. The moving image processing device according to claim 2 or 3. 前記分割情報生成手段が、前記選択付帯情報以外の付帯情報の選択に応じて前記分割情報を更新し、
前記表示手段が、前記更新された分割情報に基づいて前記2次元配列表示したユーザインタフェースを更新することを特徴とする請求項4記載の動画像処理装置。
The division information generating means updates the division information according to selection of additional information other than the selected additional information,
The moving image processing apparatus according to claim 4, wherein the display unit updates the user interface displaying the two-dimensional array based on the updated division information.
前記2次元配列表示したユーザインタフェースを介して削除指示があった場合、前記分割情報生成手段が、前記2次元配列表示したユーザインタフェースにおいて選択されている動画像の区間が削除されるように前記分割情報を更新し、
前記表示手段が、前記更新された分割情報に基づいて前記2次元配列表示したユーザインタフェースを更新することを特徴とする請求項4又は請求項5記載の動画像処理装置。
When a deletion instruction is issued through the user interface displaying the two-dimensional array, the division information generating unit performs the division so that the section of the moving image selected in the user interface displaying the two-dimensional array is deleted. Update information,
The moving image processing apparatus according to claim 4, wherein the display unit updates the user interface displaying the two-dimensional array based on the updated division information.
前記2次元配列表示したユーザインタフェースを介し、前記2次元配列表示されている付帯情報項目のいずれかに対する分割条件設定があった場合、前記分割情報生成手段が、前記分割条件設定に従って前記分割情報を更新し、
前記表示手段が、前記更新された分割情報に基づいて前記2次元配列表示したユーザインタフェースを更新することを特徴とする請求項4乃至請求項6のいずれか1項に記載の動画像処理装置。
When there is a division condition setting for any of the supplementary information items displayed in the two-dimensional array via the user interface in which the two-dimensional array is displayed, the division information generating unit generates the division information in accordance with the division condition setting. Updated,
The moving image processing apparatus according to claim 4, wherein the display unit updates the two-dimensionally arranged user interface based on the updated division information.
前記2次元配列表示したユーザインタフェースを最初に提示した際に用いた分割情報を記憶する記憶手段を更に有し、
前記2次元配列表示したユーザインタフェースを介して初期状態への復帰が指示された場合、前記分割情報生成手段が、前記記憶手段に記憶された分割情報によって前記分割情報を更新し、
前記表示手段が、前記更新された分割情報に基づいて前記2次元配列表示したユーザインタフェースを更新することを特徴とする請求項4乃至請求項7のいずれか1項に記載の動画像処理装置。
A storage unit that stores division information used when the user interface displayed in a two-dimensional array is first presented;
When a return to the initial state is instructed via the user interface displaying the two-dimensional array, the division information generation unit updates the division information with the division information stored in the storage unit,
8. The moving image processing apparatus according to claim 4, wherein the display unit updates the two-dimensionally displayed user interface based on the updated division information.
前記付帯情報収集手段が前記動画像から取得する付帯情報には、前記動画像に予め付与されている付帯情報と、前記動画像の解析により取得される付帯情報とが含まれることを特徴とする請求項1乃至請求項8のいずれか1項に記載の動画像処理装置。The supplementary information acquired from the moving image by the supplementary information collecting unit includes supplementary information previously given to the moving image and supplementary information acquired by analyzing the moving image. The moving image processing device according to claim 1. 動画像に関する付帯情報を取得する付帯情報収集ステップと、
前記付帯情報を選択可能なユーザインタフェースを提示する表示ステップと、前記付帯情報のうち、前記ユーザインタフェースを介して選択された選択付帯情報に基づいて前記動画像を複数の区間に分割するための分割情報を生成する分割情報生成ステップとを有することを特徴とする動画像処理方法。
An additional information collecting step of obtaining additional information on a moving image;
A display step of presenting a user interface capable of selecting the supplementary information; and a division for dividing the moving image into a plurality of sections based on the selected supplementary information selected via the user interface among the supplementary information. A divided information generating step of generating information.
コンピュータ装置を、請求項1乃至請求項9のいずれか1項に記載の動画像処理装置として機能させるコンピュータプログラム。A computer program that causes a computer device to function as the moving image processing device according to claim 1. 請求項11記載のコンピュータプログラムを格納したコンピュータ装置読み取り可能な記録媒体。A computer-readable recording medium storing the computer program according to claim 11.
JP2003158600A 2003-06-03 2003-06-03 Apparatus and method for moving picture processing Withdrawn JP2004363831A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003158600A JP2004363831A (en) 2003-06-03 2003-06-03 Apparatus and method for moving picture processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003158600A JP2004363831A (en) 2003-06-03 2003-06-03 Apparatus and method for moving picture processing

Publications (1)

Publication Number Publication Date
JP2004363831A true JP2004363831A (en) 2004-12-24

Family

ID=34051947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003158600A Withdrawn JP2004363831A (en) 2003-06-03 2003-06-03 Apparatus and method for moving picture processing

Country Status (1)

Country Link
JP (1) JP2004363831A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006196086A (en) * 2005-01-13 2006-07-27 Ulead Systems Inc Play list preparation method
JP2010226251A (en) * 2009-03-19 2010-10-07 Canon Inc Video data display apparatus and method thereof
JP2010278783A (en) * 2009-05-28 2010-12-09 Funai Electric Co Ltd Television broadcast recorder
JP2011505715A (en) * 2007-11-05 2011-02-24 サムスン エレクトロニクス カンパニー リミテッド Video display device and control method thereof
JP2013150122A (en) * 2012-01-18 2013-08-01 Toshiba Corp Image processing device, method, and program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006196086A (en) * 2005-01-13 2006-07-27 Ulead Systems Inc Play list preparation method
JP2011505715A (en) * 2007-11-05 2011-02-24 サムスン エレクトロニクス カンパニー リミテッド Video display device and control method thereof
JP2010226251A (en) * 2009-03-19 2010-10-07 Canon Inc Video data display apparatus and method thereof
US8792778B2 (en) 2009-03-19 2014-07-29 Canon Kabushiki Kaisha Video data display apparatus and method thereof
JP2010278783A (en) * 2009-05-28 2010-12-09 Funai Electric Co Ltd Television broadcast recorder
JP2013150122A (en) * 2012-01-18 2013-08-01 Toshiba Corp Image processing device, method, and program

Similar Documents

Publication Publication Date Title
US20060039674A1 (en) Image editing apparatus, method, and program
EP2297940B1 (en) Method to control image processing apparatus, image processing apparatus, and image file
JP5289151B2 (en) Data management apparatus, control method thereof, and program
US20060126963A1 (en) Frame classification information providing device and program
JP2012004739A (en) Information processor, information processing method and program
JP2010206718A (en) Device, method, and program for managing image, and recording medium
US20060050166A1 (en) Digital still camera
JP2011078008A (en) Content sharing apparatus, content editing apparatus, content sharing program, and content editing program
US20110261244A1 (en) Image processing apparatus, image reproducing apparatus, imaging apparatus and program recording medium
JP5473478B2 (en) Image display apparatus, control method thereof, and program
JP2004246454A (en) Image forming program, and image forming device
US7844163B2 (en) Information editing device, information editing method, and computer product
JPH1013773A (en) Digital image management retrieval system and digital camera system
JP2004363831A (en) Apparatus and method for moving picture processing
JP4233362B2 (en) Information distribution apparatus, information distribution method, and information distribution program
US9122923B2 (en) Image generation apparatus and control method
JPH113346A (en) Moving image file managing device
JP4288896B2 (en) Image recording apparatus, image recording method, program, and storage medium
JP2008090526A (en) Conference information storage device, system, conference information display device, and program
JP5282632B2 (en) Display control apparatus, display control method, and program
US20230137452A1 (en) Information processing device, inforamtion processing method, and program
JP2004187275A (en) Picture program production assistance system, planning device, processing device, processing method of video program and program and data structure
JP4323172B2 (en) Information editing system, information editing apparatus, and information editing program
JP2003274332A (en) Device and program for extracting frame from moving picture
JP2006157825A (en) Image selection method and image selection apparatus

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060905