JP2015032905A

JP2015032905A - 情報処理装置、情報処理方法、プログラム

Info

Publication number: JP2015032905A
Application number: JP2013159672A
Authority: JP
Inventors: 建志入江; Kenji Irie
Original assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc; Canon MJ IT Group Holdings Inc
Current assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc; Canon MJ IT Group Holdings Inc
Priority date: 2013-07-31
Filing date: 2013-07-31
Publication date: 2015-02-16

Abstract

【課題】動画編集時に素材となる動画を検索する際の利便性を向上させる仕組みを提供する。【解決手段】複数の要約対象動画をもとに、要約動画を生成する情報処理装置であって、要約対象動画を取得し、要約対象動画の動画フレームから、当該動画フレームに含まれる物体を特定するための物体特徴量を抽出する。抽出された物体特徴量に基づき、当該動画フレームに含まれる物体を特定する。【選択図】図１

Description

本発明は、動画編集装置、及びその制御方法、プログラムに関する。

近年、撮影デバイスの普及に伴って、大量の動画が撮影、保存されるようになってきており、複数の動画を編集し、つなぎあわせ、内容を要約した動画を作成する作業が広く一般的に行われるようになってきている。しかし、動画編集時において、素材となる動画を検索する作業は、日付や動画ファイル名などのメタデータにもとづいて行う場合がほとんどであり、利用者にとって非常に煩雑な作業となっている。

このような課題を解決するために、特許文献１では、キーワードを利用した検索時に複数の素材動画が候補となる場合、素材同士の画像特徴量から算出した類似度を用いることで、編集後の動画における、所定のシーンと隣接シーンとの類似度が高いシーンを持つ素材動画により高い優先度を与え、優先度順に表示することで利用者が動画を決定する効率を上げる手法が示されている。

また、特許文献２では、動画中の画像に物体認識や文字認識を行い、認識結果を文字情報として記録しておくことで、検索・編集時における利用者の効率を上げる手法が示されている。

特開２００５−３０３８４０特開２００７−０８２０８８

上記特許文献１では、検索時に利用される動画の内容を表すキーワードに関しては、あらかじめ利用者が登録しておく必要があり、登録作業は利用者にとって非常に負担となる作業である。

また、上記特許文献２では、特定物体認識の精度によっては利用者にとって利用しづらいものであり、物体認識した名称について利用者が記憶していなければ検索することができない。さらに、利用者が間違った認識結果を訂正する機能については提供されていない。

そこで、本発明は、動画編集時に素材となる動画を検索する際の利便性を向上させる仕組みを提供することを目的とする。

本発明は、複数の要約対象動画をもとに、要約動画を生成する情報処理装置であって、前記要約対象動画を取得する取得手段と、前記取得手段により取得した要約対象動画の動画フレームから、当該動画フレームに含まれる物体を特定するための物体特徴量を抽出する物体特徴量抽出手段と、前記物体特徴量抽出手段より抽出された物体特徴量に基づき、当該動画フレームに含まれる物体を特定する物体特定手段と、を備えることを特徴とする。

また、本発明は、複数の要約対象動画をもとに、要約動画を生成する情報処理装置における情報処理方法であって、前記情報処理装置の取得手段が、前記要約対象動画を取得する取得工程と、前記情報処理装置の物体特徴量抽出手段が、前記取得工程により取得した要約対象動画の動画フレームから、当該動画フレームに含まれる物体を特定するための物体特徴量を抽出する物体特徴量抽出工程と、前記情報処理装置の物体特定手段が、前記物体特徴量抽出工程より抽出された物体特徴量に基づき、当該動画フレームに含まれる物体を特定する物体特定工程と、を備えることを特徴とする。

また、本発明は、複数の要約対象動画をもとに、要約動画を生成する情報処理装置において実行可能なプログラムであって、前記情報処理装置を、前記要約対象動画を取得する取得手段と、前記取得手段により取得した要約対象動画の動画フレームから、当該動画フレームに含まれる物体を特定するための物体特徴量を抽出する物体特徴量抽出手段と、前記物体特徴量抽出手段より抽出された物体特徴量に基づき、当該動画フレームに含まれる物体を特定する物体特定手段として機能させることを特徴とする。

本発明によれば、動画編集時に素材となる動画を検索する際の利便性を向上させる仕組みを提供することが可能となる。

本発明の実施形態における動画編集システムの構成を示す図である本発明の実施形態における利用者端末１０１，要約生成装置１０２に適用可能な情報処理装置のハードウェア構成を示すブロック図である本発明の実施形態における動画編集システムの機能ブロックの構成を示す図である。本発明の実施形態における画像検索システムにおける検索対象画像の登録手順の一例を示すフローチャートである本発明の実施形態における、動画編集システムにおける動画解析処理の詳細処理を示すフローチャートである本発明の実施形態における、動画編集システムにおける物体認識処理の詳細処理を示すフローチャートである本発明の実施形態における、動画編集システムにおける物体推定処理の詳細処理を示すフローチャートであるＳ７０９における推定対象動画フレームと推定用動画フレーム間の経過時間を計算するための式の一例であるＳ７１２における推定対象動画フレームと推定用動画フレーム間の経過時間を計算するための式の一例であるＳ７１５における推定対象動画フレームと推定用動画フレーム間の経過時間を計算するための式の一例である本発明の実施形態における動画編集システムにおける要約生成処理の手順を示すフローチャートである本発明の実施形態における、動画編集システムにおける要約候補生成処理の詳細処理を示すフローチャートである本発明の実施形態における、動画編集システムにおける要約重みベクトル生成処理の詳細処理を示すフローチャートであるＳ１３０２において初期要約重みベクトルを算出するための式の一例である本発明の実施形態における動画データベースの一例を示す図である本発明の実施形態における物体認識データベースの一例を示す図である本発明における動画編集システムの利用者端末の要約生成指定・要約対象表示部における表示画面の一例を示す図である利用者が要約動画生成の条件を設定するための表示画面の一例を示す図である動画編集システムの利用者端末の要約候補表示・編集部における表示画面の一例を示す図である利用者が要約候補動画の編集を行うための表示画面の一例を示す図である

＜第１の実施形態＞
以下、図面を参照して、本発明の実施形態を詳細に説明する。

まず、図１を参照して、本発明の実施形態における動画編集システムの構成について説明する。図１は、本発明の実施形態における動画編集システムの構成を示す図である。図１は、ひとつ又は複数の利用者端末１０１と、ひとつの要約生成装置１０２がローカルエリアネットワーク（ＬＡＮ）１０３を介して接続される構成となっている。

利用者端末１０１は、動画の編集を行う利用者が使用する情報処理装置であって、動画検索・要約生成・要約編集要求を発信する機能と結果を受信して表示する機能を有する。

要約生成装置１０２は、対象となる複数の動画を記憶しており、利用者端末１０１からの検索要求を受け付け、動画の検索処理を行い、検索結果を応答する機能、利用者端末１０１からの要約生成要求を受け付け、動画の要約生成処理を行い、結果を応答する機能、利用者端末１０１からの要約編集要求を受け付け、処理を行い、編集結果を応答する機能を有する。また、外部から対象とする動画を入力する機能を備えている。以上が図１の、本発明の実施形態における動画編集システムの構成についての説明である。

以下、図２を用いて、本発明の実施形態における利用者端末１０１，要約生成装置１０２に適用可能な情報処理装置のハードウェア構成を示すブロック図の構成の一例について説明する。図２は、本発明の実施形態における利用者端末１０１，要約生成装置１０２に適用可能な情報処理装置のハードウェア構成を示すブロック図である。

図２において、２０１はＣＰＵで、システムバス２０４に接続される各デバイスやコントローラを統括的に制御する。また、ＲＯＭ２０２あるいは外部メモリ２１１には、ＣＰＵ２０１の制御プログラムであるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）やオペレーティングシステムプログラム（以下、ＯＳ）や、各サーバ或いは各ＰＣの実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。

２０３はＲＡＭで、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。ＣＰＵ２０１は、処理の実行に際して必要なプログラム等をＲＯＭ２０２あるいは外部メモリ２１１からＲＡＭ２０３にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。

また、２０５は入力コントローラで、キーボード（ＫＢ）２０９や不図示のマウス等のポインティングデバイス等からの入力を制御する。２０６はビデオコントローラで、ＣＲＴディスプレイ（ＣＲＴ）２１０等の表示器への表示を制御する。なお、図２では、ＣＲＴ２１０と記載しているが、表示器はＣＲＴだけでなく、液晶ディスプレイ等の他の表示器であってもよい。これらは必要に応じて管理者が使用するものである。

２０７はメモリコントローラで、ブートプログラム，各種のアプリケーション，フォントデータ，ユーザファイル，編集ファイル，各種データ等を記憶する外部記憶装置（ハードディスク（ＨＤ））や、フレキシブルディスク（ＦＤ）、或いはＰＣＭＣＩＡカードスロットにアダプタを介して接続されるコンパクトフラッシュ（登録商標）メモリ等の外部メモリ２１１へのアクセスを制御する。

２０８は通信Ｉ／Ｆコントローラで、ネットワーク（例えば、図１に示したＬＡＮ１０３）を介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、ＴＣＰ／ＩＰを用いた通信等が可能である。

なお、ＣＰＵ２０１は、例えばＲＡＭ２０３内の表示情報用領域へアウトラインフォントの展開（ラスタライズ）処理を実行することにより、ＣＲＴ２１０上での表示を可能としている。また、ＣＰＵ２０１は、ＣＲＴ２１０上の不図示のマウスカーソル等でのユーザ指示を可能とする。

本発明を実現するための後述する各種プログラムは、外部メモリ２１１に記録されており、必要に応じてＲＡＭ２０３にロードされることによりＣＰＵ２０１によって実行されるものである。さらに、上記プログラムの実行時に用いられる定義ファイル及び各種情報テーブル等も、外部メモリ２１１に格納されており、これらについての詳細な説明も後述する。以上が図２の、本発明の実施形態における利用者端末１０１、要約生成装置１０２に適用可能な情報処理装置のハードウェア構成を示すブロック図の構成の一例についての説明である。

次に、図３を用いて、本発明の実施形態における動画編集システムの機能ブロックの構成について説明する。図３は、本発明の実施形態における動画編集システムの機能ブロックの構成を示す図である。

図１の説明にて前述したように、本発明の実施形態における動画編集システムは、利用者端末１０１と要約生成装置１０２と画像ソース５００から構成される。利用者端末１０１と要約生成装置１０２と画像ソース５００とはそれぞれネットワークを介して相互に通信可能に接続されている。なお、本実施形態においては図１や図３に示すように利用者端末と要約生成装置を別々の端末として説明しているが、利用者端末と要約生成装置の両方の機能を備えた一つの端末により、本実施形態の処理が実行されても良い。

利用者端末１０１は、要約生成装置１０２に対して、動画検索要求を送り、検索結果を受信し表示し、要約対象の動画を指示し、要約生成の指示を送るための情報処理装置である。利用者端末１０１は、要約生成指定・要約対象表示部３０１と、要約候補表示・編集部３０２と、から構成される。

要約生成指定・要約対象表示部３０１は、利用者から、検索要求としてのクエリーと、要約対象動画の指示と、動画メタデータ訂正の指示と、要約生成条件の指示と、要約生成の指示を受け付ける入力機能を有し、当該クエリーや当該指示を、ネットワークを通じて、要約生成装置１０２の要約候補生成部４０６へ送信する機能と、要約生成装置１０２から応答される動画検索結果を受信する機能と、該検索結果を表示する機能と、を有する機能処理部である。

要約候補表示・編集部３０２は、要約生成装置１０２から応答される要約候補結果を受信する機能と、該要約候補結果を表示する機能と、該要約候補結果の編集を指示する機能と、要約動画の出力を指示する機能と、を有する機能処理部である。

要約生成装置１０２は、利用者端末１０１から、動画の検索要求を受信し、蓄積された動画に対して要求された検索処理を実行し、要約生成の指示を受信し、要約候補を生成し、要約動画の出力指示を受信し、要約動画を出力し、検索結果情報と生成した要約候補を利用者端末１０１へ送信する情報処理装置である。要約生成装置１０２は、動画登録部４０１と、動画解析部４０２と、特徴量抽出部４０３と、物体認識部４０４と、物体推定部４０５と、要約候補生成部４０６と、動画検索部４０７と、メタデータ訂正部４０８と、要約重みベクトル生成部４０９と、要約候補結果出力部４１０と、動画推薦部４１１と、動画データベース４１２と、物体認識データベース４１３と、から構成される。

動画登録部４０１は、処理対象となる動画を本システムへ登録する機能処理部である。動画ソース５００で指示されるシステムの外部のアクターから、対象とする動画データ（群）を受信または取得し、当該動画データ（群）を動画解析部４０２へ渡し、当該動画データ群をそれぞれ動画データベース４１２へ保存する機能を有する。

動画解析部４０２は、動画登録部４０１から動画データ群を受け取り、受け取った各動画に付帯する位置情報および日付情報を動画データベース４１２へ保存する機能と、各動画データから、全ての動画フレームデータ、つまり画像データを取得する機能と、当該各画像データを特徴量抽出部４０３へ渡し、画像特徴量の抽出処理を指示する機能と、当該各画像データを物体認識部４０４へ渡し、物体認識処理を指示する機能と、受け取った動画データ群を物体推定部に渡し、物体推定処理を指示する機能と、を有する機能処理部である。

特徴量抽出部４０３は、動画解析部４０２から画像データを受け取り、該画像データの特徴量（例えばＲＧＢヒストグラム）を抽出し、該特徴量データを動画データベース４１２へ保存する機能処理部である。

物体認識部４０４は、動画解析部４０２から画像データを受け取り、該画像データから特定物体認識を行うための特徴量データ、例えば、ＳＩＦＴ（ＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）特徴量（局所的な領域の濃度変化特徴を表す特徴量）などの局所特徴量から計算されるＢａｇＯｆＦｅａｔｕｒｅｓ特徴量（例えば、あらかじめ局所特徴量の集合をＫｍｅａｎｓ法によりクラスタリングしておき、代表的な局所特徴量を任意の個数見つけ出し、画像１枚における求めた代表的な局所特徴量の出現度合いを表した特徴量）を抽出する機能と、該特徴量データと、物体認識データベース４１３の中に保存されている物体特徴量とを比較して特定物体認識処理を行う機能と、該特定物体認識結果と特定物体の位置情報を、動画データベース４１２に保存する機能と、該画像データと物体認識データベース４１３の中に保存されている一般物体認識器と一般物体名称から一般物体認識処理を行う機能と、該一般物体認識結果を動画データベース４１２に保存する機能と、を有する機能処理部である。

物体推定部４０５は、動画解析部４０２から動画データ群を受け取り、動画データベース４１２の中に一般物体認識結果が保存されている各動画について、該動画データと、動画データベース４１２の中に保存されている特定物体認識結果と動画撮影日時と動画位置情報を利用して、該一般物体認識結果の、特定物体名称を推定する機能と、該推定結果を動画データベース４１２に保存する機能と、を有する機能処理部である。

要約候補生成部４０６は、動画検索要求として検索クエリーを受け取り、該検索クエリーを動画検索部４０７へ渡し、動画検索処理を指示する機能と、該動画検索結果を利用者端末１０１の要約生成指定・要約対象表示部３０１に送信する機能と、要約生成指示を受け取り、要約対象動画と該要約対象動画のメタデータを要約重みベクトル生成部４０９へ渡し、要約重みベクトル生成処理を指示する機能と、該要約重みベクトルと該要約対象動画から要約候補を生成する機能と、メタデータ訂正要求として文字列クエリーを受け取り、該文字列クエリーをメタデータ訂正部４０８へ渡し、メタデータ訂正を指示する機能と、要約候補出力要求を受け取り、要約候補結果出力部４１０に生成した要約候補の出力を指示する機能と、を有する機能処理部である。

動画検索部４０７は、要約候補生成部４０６、要約重みベクトル生成部４０９、および要約候補結果出力部４１０から動画検索クエリーを受け取り、動画データベース４１２の中に保存されている各動画について、当該検索クエリーの条件に合致する動画の動画データおよび付帯する動画メタデータを取得し、当該検索結果を応答する機能処理部である。

メタデータ訂正部４０８は、要約候補生成部４０６からメタデータ訂正要求として文字列クエリーを受け取り、当該クエリーから動画データベース４１２の中に保存されている動画メタデータの訂正処理機能を有する、機能処理部である。

要約重みベクトル生成部４０９は、要約候補生成部４０６から要約対象動画と該要約対象動画のメタデータを受け取り、要約生成の際に、当該要約対象動画の時間を設定するために用いる要約重みベクトルを生成する機能を有する、機能処理部である。

要約候補結果出力部４１０は、要約候補生成部４０６から要約候補結果を受け取り、当該要約候補結果を、利用者端末１０１の要約候補表示・編集部３０２へ送信する機能と、要約候補表示・編集部３０２から要約候補結果の編集要求を受け取り、該当編集結果を要約候補表示・編集部３０２に送信する機能と、要約候補表示・編集部３０２から推薦動画の表示要求を受け取り、該当要求を動画推薦部４１１に渡し、推薦動画の計算を指示する機能と、を有する機能処理部である。

動画推薦部４１１は、要約候補結果出力部４１０から、推薦動画表示要求を受け取り、該当要求に合致する動画を動画データベース４１２から検索し、検索結果を該当推薦動画として要約候補結果出力部４１０へ応答する機能を有する機能処理部である。

動画データベース４１２は、要約対象動画となる動画データ群、および図１５で例示される、各動画のメタデータおよび各動画の、各フレームのメタデータを保存する記憶領域である。
（図１５の説明）

ここで図１５を用いて、本発明の実施形態における動画データベース４１２の一例について説明する。

図１５の動画メタデータ保存テーブルは、１行が動画データベース４１２に蓄えられている１つの動画データを表し、動画データのＩＤ（識別子）（動画ＮＯとも言う）とともに、ｆｐｓカラムに動画のＦＰＳ（フレームパーセカンド）が、フレーム数カラムに動画のフレーム数が、撮影日時カラムに、動画の撮影開始日時を示す時間情報が、動画位置情報カラムに、動画の撮影開始時の緯度・経度を示す位置情報が、それぞれ保存されていることを表している。

図１５の動画フレームメタデータ保存テーブルは、１行が動画データベース４１２に蓄えられている１つの動画中の１つのフレームを表し、動画フレームのＩＤ（識別子）とともに、フレームＮｏカラムに動画の何フレーム目であるかを示すフレームＮｏが保存される。また、動画ＩＤカラムにはフレームがどの動画のものであるかを示す動画ＩＤ（上記動画メタデータ保存テーブルの動画ＩＤ）が保存される。また、画像特徴量カラムにはフレームから取得した画像特徴量（例えば、色の分布情報を表し、多次元数値ベクトルで表現されるＲＧＢヒストグラム）が保存される。また、特定物体名称カラムには、フレームに特定物体認識処理を行って取得されるフレーム中に存在する特定物体の名称が保存される。また、一般物体名称カラムには、フレームに一般物体認識処理を行って取得されるフレーム中に存在する一般物体の名称が保存される。また、物体推定結果カラムには、フレームに物体推定処理を行って取得されるフレーム中に存在する特定物体の名称が保存される。また、フレーム位置情報カラムには、フレームの特定物体名称カラムの値から取得されるフレーム撮影時の位置情報を示す緯度・経度が保存される。また、特定物体説明情報カラムには、フレームの特定物体名称カラムの値から取得される特定物体に付帯する該当特定物体を説明する情報が保存される。また、曖昧検索インデックスカラムには、フレームの特定物体説明情報カラムの値から生成される動画検索時に利用者が特定物体名称を記憶していない場合でも検索可能にするための単語列が保存される。

物体認識データベース４１３は、図１６で例示される、特定物体認識、一般物体認識および物体推定を行う際に利用するための特定物体名称や物体位置情報などを保存する記憶領域である。
（図１６の説明）

ここで図１６を用いて、本発明の実施形態における物体認識データベース４１３の一例について説明する。

図１６の特定物体管理テーブルは、１行が物体認識データベース４１３に蓄えられている１つの特定物体のデータを表し、特定物体データのＩＤ（識別子）（特定物体ＮＯとも言う）とともに、物体特徴量カラムには、該当特定物体であることを特定するための多次元数値ベクトルで表現される特徴量が保存される。また、特定物体名称カラムには、特定物体の名称を表現する値が保存される。また、特定物体位置情報カラムには、特定物体の存在する緯度・経度が、それぞれ保存されていることを表している。

ここで、物体特徴量カラムには、例えば、ＳＩＦＴ（ＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）特徴量（局所的な領域の濃度変化特徴を表す特徴量）などの局所特徴量から計算されるＢａｇＯｆＦｅａｔｕｒｅｓ特徴量（例えば、局所特徴量の集合をＫｍｅａｎｓ法によりクラスタリングし、代表的な局所特徴量を任意の個数見つけ出し、画像１枚における求めた代表的な局所特徴量の出現度合いを表した特徴量）が当てはめられる。

図１６の一般物体管理テーブルは、１行が物体認識データベース４１３に蓄えられている１つの一般物体のデータを表し、一般物体データのＩＤ（識別子）（一般物体ＮＯとも言う）とともに、一般物体検出器出力ラベルカラムには、各一般物体検出器が物体を識別した際に出力する数値が保存される。また、一般物体名称カラムには、一般物体の名称を表現する値が、それぞれ保存されていることを表している。

ここで、一般物体検出器とは、例えば、前記したＢａｇＯｆＦｅａｔｕｒｅｓ特徴量と、サポートベクターマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、ＳＶＭ）と呼ばれる機械学習手法を利用して構成されるものである。サポートベクターマシンとは、教師あり学習手法の１つであり、あらかじめ正解データと非正解データ（学習データ）を用いて、正解データを識別するパターンを学習することができるものである。したがって、当該検出器は、あらかじめ各一般物体の学習データを用意し、用意した学習データより抽出したＢａｇＯｆＦｅａｔｕｒｅｓ特徴量を学習することで、当該物体であるかどうかを識別するパターンを学習し、画像から抽出したＢａｇＯｆＦｅａｔｕｒｅｓ特徴量を入力として与えると、物体が識別できた場合には、識別物体ごとにひもづけられたラベルＩＤを出力するものであり、物体認識データベース４１３に保存されているものである。

図１６の物体推定用テーブルは、１行が、物体認識データベース４１３に蓄えられている１つの物体推定データを表し、物体推定データのＩＤ（識別子）（物体推定ＮＯとも言う）とともに、一般物体名称カラムに、一般物体の名称を表現する値が、特定物体名称カラムに、推定結果を表す特定物体の名称を表現する値が、特定物体位置情報カラムに、特定物体の存在する緯度・経度が、それぞれ保存されていることを表している。
図３の説明に戻る。

動画ソース５００は、本動画編集システムにおける、要約対象となる動画の出所（入力ソース）を表す外部アクターである。例えば、直接動画データを提供する利用者そのもの、各種ビデオカメラ等の映像入力機器なども考えられる。以上が図３の、本発明の実施形態における動画編集システムの機能ブロックの構成についての説明である。

次に図４を参照して、本発明の実施形態における画像検索システムにおける検索対象画像の登録手順について説明する。図４は、本発明の実施形態における画像検索システムにおける検索対象画像の登録手順の一例を示すフローチャートである。

尚、以下で説明する動画ソース５００（外部装置）は、上記で説明したようにいくつも種類が考えられるが、ここではシステムの利用者が操作する、要約を行いたい動画群が保存されている利用者端末とした場合の例で説明する。

ステップＳ４０１では、動画登録部４０１は、動画ソース５００で表わされるシステム利用者が操作する利用者端末から要約対象となる動画データ群を取得し、取得した動画データ群を動画データベース４１２に保存して、当該動画データ群を動画解析部４０２へ入力する。

ステップＳ４０２では、動画解析部４０２は、前記取得した動画データ群それぞれに動画解析処理を行い、動画検索時に利用される動画メタデータと動画フレームメタデータを、動画データベース４１２へ登録する。前記動画メタデータと動画フレームメタデータは、前述した通り、図１５で例示されるようなテーブル構造で保存される。動画解析部４０２は、該動画データ群を、物体推定部４０５へ入力する。ステップＳ４０２の動画解析の詳細処理は、図５を用いて後述する。

ステップＳ４０３では、物体推定部４０５は、前記取得した動画データ群それぞれについて物体推定処理を行い、推定した結果を動画データベース４１２の動画フレームメタデータ保存テーブルへ登録する。ステップＳ４０３の物体推定の詳細処理は、図７を用いて後述する。

ステップＳ４０４では、動画解析部４０２は、動画データベース４１２の動画フレームメタデータ保存テーブルより特定物体名称を持っている動画フレームを取得し、取得した動画フレームに対する繰り返し処理を開始する。

ステップＳ４０５では、動画解析部４０２は、処理中の動画フレームに対して、取得した特定物体名称より、該特定物体を説明する情報を取得し、動画データベース４１２の動画フレームメタデータ保存テーブルへ登録する。前記特定物体を説明する情報は、例えば、インターネット上にあるデータや、予め構築したデータベースから取得することが可能である。

ステップＳ４０６では、動画解析部４０２は、利用者が当該特定物体の名称を記憶していなくても、該フレームを持つ動画を検索可能にするために、ステップＳ４０５で取得した特定物体説明情報に対して、例えば、形態素解析処理を行い、名詞情報だけを、曖昧検索インデックスとして、動画データベース４１２の動画フレームメタデータ保存テーブルへ登録する。

ステップＳ４０７では、未処理の動画フレームがある場合は、ステップＳ４０５に戻る。未処理の動画フレームがない場合は、処理を終了する。

以上の図４に示す処理により、要約対象動画について、当該要約対象動画に含まれる特定物体に関する情報を含むデータとして登録することが可能となる。具体的には、図１５に示す動画フレームメタデータ保存テーブルに示す情報を登録することが可能となる。

次に、図５を用いて、本発明の実施形態における、動画編集システムにおける動画解析処理の詳細処理について説明する。図５は、本発明の実施形態における、動画編集システムにおける動画解析処理の詳細処理を示すフローチャートである。

ステップＳ５０１では、動画解析部４０２は、ステップＳ４０１で取得した動画データ群に対する繰り返し処理を開始する。

ステップＳ５０２では、動画解析部４０２は、動画に付帯するメタデータとして、撮影日時、位置情報（緯度・経度情報）を抽出し、動画データベース４１２の動画メタデータ保存テーブルへ登録する。

ステップＳ５０３では、動画解析部４０２は、処理中の動画の各フレームに対する繰り返し処理を開始する。

ステップＳ５０４では、動画解析部４０２は、処理中の動画フレームを特徴量抽出部４０３へ入力する。特徴量抽出部４０３は、前記取得した動画フレームに対し、画像特徴量の抽出処理を行い、抽出した特徴量を動画データベース４１２の動画フレームメタデータ保存テーブルへ登録する。ここで、画像特徴量とは、前述したように、例えば、各色の分布を表現するＲＧＢヒストグラムなどの、多次元数値ベクトルで表現される特徴量である。

ステップＳ５０５では、動画解析部４０２は、処理中の動画フレームを、物体認識部４０４へ入力する。物体認識部４０４は、前記取得した動画フレームに対し、物体認識処理を行い、該認識結果を動画データベース４１２の動画フレームメタデータ保存テーブルへ登録する。ステップＳ５０５の物体認識の詳細処理は、図６を用いて後述する。

ステップＳ５０６では、動画解析部４０２は、未処理の動画フレームがある場合は、ステップＳ５０４へ戻る。未処理の動画フレームがない場合は、ステップＳ５０７へ進む。

ステップＳ５０７では、動画解析部４０２は、未処理の動画がある場合は、ステップＳ５０２へ戻る。未処理の動画がない場合は、処理を終了する。

次に、図６を用いて、本発明の実施形態における、動画編集システムにおける物体認識処理の詳細処理について説明する。図６は、本発明の実施形態における、動画編集システムにおける物体認識処理の詳細処理を示すフローチャートである。

ステップＳ６０１では、物体認識部４０４は、前記取得した動画フレームより、前述した物体特徴量、ＢａｇＯｆＦｅａｔｕｒｅｓ特徴量を抽出する。物体認識部４０４は、前記抽出した物体特徴量と、前述した物体認識データベース４１３の特定物体管理テーブルに保存されている各物体特徴量とを比較し、各特定物体との類似度を計算する。類似度は、例えば、多次元数値ベクトル同士のユークリッド距離で計算される。物体認識部４０４は、前記計算した各類似度のうち、最も小さい類似度が十分小さい場合（例えば０．０１未満である場合。なお当該判断基準となる値は、予め設定されている値であっても、その都度設定する値であってもいずれでも良い。）、該当する特定物体を認識したと判断し、該認識結果を、特定物体名称として動画データベース４１２の動画フレームメタデータ保存テーブルへ登録する。

認識しない場合は、登録処理を実行せず、次の処理（ステップＳ６０２）に移行する。

ステップＳ６０２では、物体認識部４０４は、ステップＳ６０１の処理で取得した特定物体認識結果より、前述した物体認識データベース４１３の特定物体管理テーブルに保存されている特定物体位置情報を取得し、該位置情報を動画データベース４１２の動画フレームメタデータ保存テーブルへ登録する。

ステップＳ６０３では、物体認識部４０４は、ステップＳ６０１で動画フレームより抽出した物体特徴量を、前述した物体認識データベース４１３に保存されている一般物体検出器に入力する。物体認識部４０４は、前記一般物体検出器の出力と、物体認識データベース４１３の一般物体管理テーブルの各一般物体検出器出力ラベルとを比較し、該動画フレームに一般物体が存在するかを認識する。物体認識部４０４は、該認識結果を動画データベース４１２の動画フレームメタデータ保存テーブルへ登録する。

以上の図５、図６のフローチャートに示す処理により、予め登録された情報に基づき、要約対象動画の各フレームに含まれる物体の名称等を特定することが可能となる。

次に、図７を用いて、本発明の実施形態における、動画編集システムにおける物体推定処理の詳細処理について説明する。図７は、本発明の実施形態における、動画編集システムにおける物体推定処理の詳細処理を示すフローチャートである。

ステップＳ７０１では、物体推定部４０５は、取得した動画データ群に対する、物体推定の繰り返し処理を開始する。

ステップＳ７０２では、物体推定部４０５は、当該動画（推定対象動画と呼ぶ）について、動画データベース４１２の、動画フレームメタデータ保存テーブルの一般物体名称が登録されているか否かを判断する。一般物体名称が登録されている場合は、ステップＳ７０３へ進む。登録されていない場合は、ステップＳ７１７へ進む。

ステップＳ７０３では、物体推定部４０５は、動画データベース４１２の、動画メタデータ保存テーブルに保存されている、推定対象動画のメタデータを取得する。

ステップＳ７０４では、物体推定部４０５は、ステップＳ７０３で取得した推定対象動画のメタデータの撮影日時について、当該撮影日時と同日に撮影された動画群を、動画データベース４１２より取得する。物体推定部４０５は、前記取得した動画群の中に、動画データベース４１２の、動画フレームメタデータ保存テーブルの、特定物体名称が登録されている動画が存在するか否かを判断する。特定物体名称が登録されている動画が存在する場合は、前記取得した動画群のうち、特定物体名称が登録されている動画群のみを一時記憶領域に保存し、ステップＳ７０５へ進む。存在しない場合は、ステップＳ７１７へ進む。

ステップＳ７０５では、物体推定部４０５は、推定対象動画について、動画データベース４１２の、動画フレームメタデータ保存テーブルの一般物体名称が格納されている動画フレーム（推定対象動画フレームと呼ぶ）のメタデータを取得する。

ステップＳ７０６では、物体推定部４０５は、ステップＳ７０４で一時記憶領域に保存した特定物体名称が登録されている動画群について、動画データベース４１２の動画メタデータ保存テーブルに保存されている撮影日時とｆｐｓとフレーム数を取得し、動画フレームメタデータ保存テーブルに保存されている、特定物体名称が登録されているフレームのフレームＮｏを取得する。物体推定部４０５は、取得した該動画群の撮影日時とｆｐｓとフレーム数、該動画群の特定物体名称が登録されているフレームのフレームＮｏ群、ステップＳ７０３で取得した推定対象動画メタデータの撮影日時とｆｐｓとフレーム数、ステップＳ７０５で取得した推定対象動画フレームメタデータのフレームＮｏと、を利用し、推定対象動画フレームの撮影時間と最も近い時間に撮影された、特定物体名称が登録されている動画フレーム（推定用動画フレームと呼ぶ）を決定する。

ステップＳ７０７では、物体推定部４０５は、動画データベース４１２の動画メタデータ保存テーブルから、ステップＳ７０６で決定した推定用動画フレームが属する動画（推定用動画と呼ぶ）の、動画メタデータを取得し、動画フレームメタデータ保存テーブルから、推定用動画フレームのメタデータを取得する。

ステップＳ７０８では、物体推定部４０５は、ステップＳ７０３で取得した推定対象動画メタデータに、動画位置情報が登録されているか否かを判断する。動画位置情報が登録されている場合は、ステップＳ７１１へ進む。登録されていない場合は、ステップＳ７０９へ進む。

ステップＳ７０９では、物体推定部４０５は、ステップＳ７０３で取得した推定対象動画の撮影日時とｆｐｓと、ステップＳ７０５で取得した推定対象動画フレームのフレームＮｏと、ステップＳ７０７で取得した推定用動画の撮影日時とｆｐｓと、推定用動画フレームのフレームＮｏと、図８で示される式を用いて、推定対象動画フレームと推定用動画フレーム間の経過時間を計算する。

ステップＳ７１０では、物体推定部４０５は、ステップＳ７０７で取得した推定用動画フレームのフレーム位置情報が示す位置から、例えば、一般的な成人男性の歩行速度の時速４ｋｍで、ステップＳ７０９で計算した推定対象動画フレームと推定用動画フレーム間の経過時間を移動した場合の位置から、誤差１ｋｍ範囲内に存在する、物体認識データベース４１３の、物体推定用テーブルに保存されているレコードを取得する。（ただし、移動速度は、時速４ｋｍに限定されるものではなく、また、複数の移動速度について計算しても良い。また、誤差も、１ｋｍに限るものではなく、実施例に合わせて設定すれば良い。）物体推定部４０５は、前記取得したレコード群のうち、該レコードの一般物体名称と、ステップＳ７０５で取得した推定対象動画フレームの一般物体名称とが合致するレコードの特定物体名称を、物体推定結果として、推定対象動画フレームが示す動画データベース４１２の動画フレームメタデータ保存テーブルのレコードの、物体推定結果に登録する。

ステップＳ７１１では、物体推定部４０５は、ステップＳ７０３で取得した推定対象動画の動画ＩＤと、ステップＳ７０７で取得した推定用動画の動画ＩＤが同じであるか否かを判断する。同じである場合は、ステップＳ７１４へ進む。同じでない場合は、ステップＳ７１２へ進む。

ステップＳ７１２では、物体推定部４０５は、ステップＳ７０３で取得した推定対象動画のｆｐｓと、ステップＳ７０５で取得した推定対象動画フレームのフレームＮｏと、図９で示される式を用いて、推定対象動画の開始フレームと推定対象動画フレーム間の経過時間を計算する。

ステップＳ７１３では、物体推定部４０５は、ステップＳ７０３で取得した推定対象動画の動画位置情報が示す位置から、例えば、一般的な成人男性の歩行速度の時速４ｋｍで、ステップＳ７１１で計算した推定対象動画フレームと推定用動画フレーム間の経過時間を移動した場合の位置から、誤差１ｋｍ範囲内に存在する、物体認識データベース４１３の、物体推定用テーブルに保存されているレコードを取得する。（ただし、移動速度は、時速４ｋｍに限定されるものではなく、また、複数の移動速度について計算しても良い。また、誤差も、１ｋｍに限るものではなく、実施例に合わせて設定すれば良い。）物体推定部４０５は、前記取得したレコード群のうち、該レコードの一般物体名称と、ステップＳ７０５で取得した推定対象動画フレームの一般物体名称とが合致するレコードの特定物体名称を、物体推定結果として、推定対象動画フレームが示す動画データベース４１２の動画フレームメタデータ保存テーブルのレコードの、物体推定結果に登録する。

ステップＳ７１４では、物体推定部４０５は、ステップＳ７０３で取得した推定対象動画の動画位置情報とｆｐｓと、ステップＳ７０７で取得した推定用動画フレームのフレーム位置情報とフレームＮｏと、を利用して、推定対象動画の撮影時の推定移動速度を計算する。

ステップＳ７１５では、物体推定部４０５は、ステップＳ７０５で取得した推定対象動画フレームのフレームＮｏと、ステップＳ７０７で取得した推定用動画フレームのフレームＮｏと、図１０に示される式を用いて、推定対象動画の開始フレームと推定対象動画フレーム間の経過時間と、推定用動画フレームと推定対象動画フレーム間の経過時間をそれぞれ計算し、経過時間の小さい方の経過時間および位置情報（推定対象動画の開始フレームと推定対象動画フレーム間の経過時間の方が小さければ、推定対象動画の動画位置情報、推定用動画フレームと推定対象動画フレーム間の経過時間の方が小さければ、推定用動画フレームのフレーム位置情報）を一時記憶領域に保存する。

ステップＳ７１６では、物体推定部４０５は、ステップＳ７１５で一時記憶領域に保存した位置情報が示す位置から、ステップＳ７１４で計算した移動速度で、ステップＳ７１５で一時記憶領域に保存した経過時間を移動した場合の位置から、誤差１ｋｍ範囲内に存在する、物体認識データベース４１３の、物体推定用テーブルに保存されているレコードを取得する。（ただし、誤差は、１ｋｍに限るものではなく、実施例に合わせて設定すれば良い。）物体推定部４０５は、前記取得したレコード群のうち、該レコードの一般物体名称と、ステップＳ７０５で取得した推定対象動画フレームの一般物体名称とが合致するレコードの特定物体名称を、物体推定結果として、推定対象動画フレームが示す動画データベース４１２の動画フレームメタデータ保存テーブルのレコードの、物体推定結果に登録する。

ステップＳ７１６では、物体推定部４０５は、ステップＳ７１５で一時記憶領域に保存した位置情報から、ステップＳ７１５で一時記憶領域に保存した経過時間で、ステップＳ７１４で計算した移動速度によって移動可能な範囲内にある、物体認識データベース４１３の、物体推定用テーブルに保存されているレコードを取得する。物体推定部４０５は、前記取得したレコード群のうち、該レコードの一般物体名称と、ステップＳ７０５で取得した推定対象動画フレームの一般物体名称とが合致するレコードの特定物体名称を、物体推定結果として、推定対象動画フレームが示す動画データベース４１２の動画フレームメタデータ保存テーブルのレコードの、物体推定結果に登録する。

ステップＳ７１７では、物体推定部４０５は、未処理の動画がある場合は、ステップＳ７０２へ戻る。未処理の動画がない場合は、処理を終了する。

以上の図７のフローチャートで示す処理により、動画中に一般物体名称は特定されたものの、特定物体としては認識できなかった場合であっても、他の動画の情報に基づき、当該一般物体の具体的な名称等を特定することが可能となる。

例えば、図６に示す処理により、「建物」や「改札」として認識された物体について、他の動画の情報を用いることで、当該建物が「増上寺」であると推定したり、当該改札が「東京駅」の改札であると推定することが可能となる。

次に、図１１を用いて、本発明の実施形態における動画編集システムにおける要約生成処理の手順について説明する。図１１は、本発明の実施形態における動画編集システムにおける要約生成処理の手順を示すフローチャートである。

ステップＳ１１０１では、要約生成指定・要約対象表示部３０１は、利用者による要約候補生成指示を検知した場合はステップＳ１１１０へ進み、検知していない場合はステップＳ１１０２へ進む。
（図１７の説明）

ここで図１７を参照して、本発明における動画編集システムの利用者端末１０１の要約生成指定・要約対象表示部３０１における表示画面の一例について説明する。

１７０１は、利用者が要約動画の生成指示を、要約生成装置１０２に送信するためのボタンを表している。

１７０２で指示される表示領域は、要約生成指示を送信する際の、要約の対象動画とする動画の一覧を、各動画の代表的な静止画像１枚で表示するための領域である。各動画の代表的な静止画像とは、例えば、動画の先頭フレームで表される画像であっても良いし、動画データベース４１２の動画フレームメタデータ保存テーブルから、利用者が一目見て動画の内容がわかるように、特定物体名称を持つフレームを選択しても良い。

１７０３は、利用者が要約の対象とする動画候補を、撮影期間やキーワードの条件に基いて検索する指示を、要約生成装置１０２に送信するためのボタンを表している。

１７０４は、利用者が動画検索のために、動画の撮影時間を検索の条件として設定するための入力フィールドである。

１７０５は、利用者が、動画に付帯するキーワード、例えば、動画データベース４１２の動画フレームメタデータ管理テーブルに保存されている、特定物体名称に合致する動画を、検索の条件として設定するための入力フィールドである。

１７０６で指示される表示領域は、利用者が１７０３のボタンを押下して動画検索を指示した時の、検索結果に含まれる各動画を、各動画の代表的な静止画像１枚で表示するための領域である。

１７０７は、検索結果の動画フレームが、動画データベース４１２の動画フレームメタデータ管理テーブルに保存されている、特定物体名称または物体推定結果を持つ場合、該特定物体名称または該物体推定結果を、該動画フレーム上に表示することで、利用者が、該動画の内容を一目見て把握できるようにしていることを表している。ここで、物体推定結果として、複数の推定結果を持っている場合、該推定結果を全て表示することで、利用者が、後述するメタデータ訂正処理を行うことにより、効率的に物体推定結果の訂正を行うことができる。

１７０８は、動画フレームが、動画データベース４１２の動画フレームメタデータ管理テーブルに保存されている、特定物体説明情報を持つ場合、該特定物体説明情報を、該動画フレーム上に表示することで、利用者が、該動画の内容と、該動画フレームに紐付けられている特定物体の内容を把握できるようにしていることを表している。

１７０７と１７０８により、利用者は、動画フレームに紐付けられている特定物体の内容をひと目で把握できるとともに、該特定物体が実際の該動画フレームに映っている物体と異なる場合には、即座に訂正しやすくなる。

１７０９は、利用者が、上述したように、メタデータを訂正、例えば、マウスで１７０７で示された領域をクリックして、正しい特定物体名称を入力するなどした後に、該訂正結果を要約生成装置１０２に送信するためのボタンである。

１７１０は、利用者が、１７０６の表示領域に示されている動画を１つ、あるいは複数、マウスで選択し、該選択動画を、要約対象動画に追加するためのボタンである。利用者が、動画を選択し、１７１０を押下すると、該動画は１７０２で指示される表示領域に追加される。

なお、要約対象動画に追加する方法については、ボタン１７１０の押下に限らず、１７０６の表示領域に示されている動画を選択し、当該動画をドラッグし、１７０２の表示領域にドロップすることで追加するよう構成しても良い。

１７１１は、利用者が、要約を生成する際の条件を設定する際に押下するボタンである。当該ボタンを押下すると、図１８に示されるような画面が表示される。
（図１８の説明）

ここで図１８を参照して、前述した、１７１１のボタンを押下した際に表示される、利用者が要約動画生成の条件を設定するための表示画面の一例について説明する。

１８０１は、利用者が、要約動画に、優先して含まれてほしい動画を設定するために、動画フレームの持つ特定物体名称を指定するための入力フィールドである。

１８０２は、利用者が、生成される要約動画の再生時間を設定するための、入力フィールドである。

１８０３は、利用者が、要約動画生成の条件の設定を終了するためのボタンである。

以上、説明したように、利用者は、図１７に示される画面を利用して、動画の検索指示、要約対象動画の指定、メタデータの訂正指示、要約候補の生成指示を行うことができる。
図１１の説明に戻る。

ステップＳ１１０２では、要約生成指定・要約対象表示部３０１は、利用者による動画検索指示を検知した場合は、ステップＳ１１０３に進み、検知していない場合は、ステップＳ１１０７へ進む。

ステップＳ１１０３では、要約生成指定・要約対象表示部３０１は、前述した動画の撮影期間と動画に付帯するキーワードを、検索クエリーとして要約生成装置１０２へ送信する。

ステップＳ１１０４では、要約生成装置１０２の、要約候補生成部４０６は、ステップＳ１１０３で送信された検索クエリーを受信し、該検索クエリーを動画検索部４０７へ入力し、動画検索処理を指示する。動画検索部４０７は、当該検索クエリーの、動画撮影期間に、動画データベース４１２の動画メタデータ保存テーブルの撮影日時が合致する動画と、当該検索クエリーのキーワードを、動画データベース４１２の動画フレームメタデータ保存テーブルの、特定物体名称または物体推定結果または曖昧検索インデックスに持つ動画を、動画検索結果として、要約候補生成部４０６へ応答する。

ステップＳ１１０５では、要約候補生成部４０６は、ステップＳ１１０４で動画検索部４０７より応答された動画検索結果を、利用者端末１０１の、要約生成指定・要約対象表示部３０１へ送信する。

ステップＳ１１０６では、要約生成指定・要約対象表示部３０１は、受信した動画検索結果を表示する。利用者は、表示された検索結果から、要約対象として追加したい動画を選択し、要約対象動画に追加する。要約生成指定・要約対象表示部３０１は、追加された要約対象動画を、一時記憶領域に記録する。

ステップＳ１１０７では、要約生成指定・要約対象表示部３０１は、利用者によるメタデータ訂正指示を検知した場合は、ステップＳ１１０８に進み、検知していない場合は、ステップＳ１１０１へ戻る。

ステップＳ１１０８では、要約生成指定・要約対象表示部３０１は、動画フレームＩＤと、前述した１７０７に入力されたメタデータ訂正結果を、メタデータ訂正クエリーとして要約生成装置１０２へ送信する。

ステップＳ１１０９では、要約生成装置１０２の要約候補生成部４０６は、ステップＳ１１０８で送信されたメタデータ訂正クエリーを受信し、該メタデータ訂正クエリーを、メタデータ訂正部４０８へ入力し、メタデータ訂正を指示する。メタデータ訂正部４０８は、当該メタデータ訂正クエリーの動画フレームＩＤが示す動画フレームに対して、動画データベース４１２の動画フレームメタデータ保存テーブルの特定物体名称に、当該メタデータ訂正クエリーのメタデータ訂正結果を登録する。

ステップＳ１１１０では、要約生成指定・要約対象表示部３０１は、前述した１７０２で指示される表示領域の、対象動画群と、図１８で示される画面により設定された要約生成の条件を、要約生成クエリーとして、要約生成装置１０２へ送信する。

ステップＳ１１１１では、要約生成装置１０２の、要約候補生成部４０６は、ステップＳ１１１０で送信された要約生成クエリーより、要約候補を生成する。要約候補生成部４０６は、当該要約候補結果を要約候補結果出力部４１０へ入力し、要約候補結果の送信を指示する。ステップＳ１１１１の要約候補生成の詳細処理は、図１２を用いて後述する。

ステップＳ１１１２では、要約候補結果出力部４１０は、要約候補結果を利用者端末１０１の、要約候補表示・編集部３０２へ送信する。

ステップＳ１１１３では、要約候補表示・編集部３０２は、受信した要約候補結果を表示する。利用者は、表示された当該要約候補結果を確認する。
（図１９の説明）

ここで図１９を参照して、本発明における動画編集システムの利用者端末１０１の要約候補表示・編集部３０２における表示画面の一例について説明する。

１９０１で指示される表示領域は、要約候補結果を、当該要約候補を構成する各動画の代表的な静止画像を、要約動画の時系列となるようにつなげて（タイムラインと呼ぶ）表示するための領域である。

１９０２は、利用者が、１９０１に表示される要約候補の編集を行うためのボタンである。

１９０３は、利用者が、１９０１に表示される要約候補を、最終的な要約動画として出力するためのボタンである。
（図２０の説明）

ここで図２０を参照して、前述した、１９０２のボタンを押下した際に表示される、利用者が要約候補動画の編集を行うための表示画面の一例について説明する。

２００１は、編集中の要約候補を表示しているタイムラインである。

２００２は、利用者が、最終的な要約動画を出力するためのボタンである。

２００３で指示される表示領域は、利用者が新たに要約動画に追加したい動画を、動画検索を行って表示するための領域である。利用者は、例えば、本領域に表示された動画を代表する静止画像を、マウスを利用してドラッグアンドドロップの操作を行い、２００１で指示されるタイムライン上の、動画を追加したい箇所へ移動することで、要約候補の編集処理を行うことができる。

２００４は、利用者が、例えば、２００１で指示されるタイムライン上の静止画像をマウスでクリックした後に、その次の動画として、より自然につながるような素材動画の推薦結果の表示を指示するためのボタンである。推薦動画は、例えば、要約生成装置１０２が、動画の各フレームの画像特徴量を平均し（動画特徴量と呼ぶ）、利用者が選択した動画の動画特徴量との類似度（特徴量同士のユークリッド距離などにより計算される）を計算することによって行われる。要約生成装置１０２は、計算した類似度が小さい順に、例えば５個の動画を推薦結果として利用者端末１０１に送信する。

２００５は、利用者が２００２のボタンを押下して、動画推薦結果の表示を指示した時の、推薦結果に含まれる動画を、各動画の代表的な静止画像１枚で表示するための領域である。

以上、説明したように、利用者は、図２０に示される画面を利用して、要約動画の素材となる動画の入れ替えや再生時間の変更、新たに検索した動画を追加するなどの操作により、要約候補動画の編集処理と要約動画の出力指示を行うことができる。
図１１の説明に戻る。

ステップＳ１１１４では、要約候補表示・編集部３０２は、利用者による要約候補の修正を検知した場合は、ステップＳ１１１５へ進み、検知していない場合はステップＳ１１１６へ進む。

ステップＳ１１１５では、要約候補表示・編集部３０２は、前述したように、利用者による図２０で示される画面を利用した要約候補動画の編集処理を行う。

ステップＳ１１１６では、要約候補表示・編集部３０２は、利用者による要約動画出力指示を検知し、要約動画出力指示を要約生成装置１０２の要約候補結果出力部に送信する。

ステップＳ１１１７では、要約候補結果出力部４１０は、ステップＳ１１１７で送信された要約動画出力指示により、最終的な要約動画を作成し、出力する。出力先は、例えば、要約生成装置１０２が備える外部記憶装置や、利用者端末１０１が備える外部記憶装置であってもよい。

以上、図１１を用いて、本発明の実施形態における動画編集システムにおける要約生成処理の手順について説明した。

次に、図１２を用いて、本発明の実施形態における、動画編集システムにおける要約候補生成処理の詳細処理について説明する。図１２は、本発明の実施形態における、動画編集システムにおける要約候補生成処理の詳細処理を示すフローチャートである。

ステップＳ１２０１では、要約候補生成部４０６は、動画データベース４１２の動画メタデータ保存テーブルから、受信した要約対象動画群の動画メタデータを取得する。

ステップＳ１２０２では、要約候補生成部４０６は、受信した要約生成クエリーより、要約生成の条件を取得する。

ステップＳ１２０３では、要約候補生成部４０６は、ステップＳ１２０１で取得した要約対象動画群の動画メタデータと、ステップＳ１２０２で取得した要約生成の条件と、を要約重みベクトル生成部４０９へ入力し、要約候補を構成する、各要約対象動画の再生フレーム数を決定するための、要約重みベクトル生成処理を指示する。ステップＳ１２０３の要約重みベクトル生成の詳細処理は、図１３を用いて後述する。

ステップＳ１２０４では、要約候補生成部４０６は、要約対象動画データ群に対する繰り返し処理を開始する。

ステップＳ１２０５では、要約候補生成部４０６は、ステップＳ１２０１で取得した要約対象動画のフレーム数と、ステップＳ１２０３で生成した要約重みベクトルの、要約対象動画に対応する重みより、当該要約動画の再生フレーム数を計算する。

ステップＳ１２０６では、要約候補生成部４０６は、動画データベース４１２の動画フレームメタデータから、要約対象動画に該当する動画フレームのメタデータ群を取得する。要約候補生成部４０６は、前記取得した動画フレームメタデータ群のうち、特定物体名称または物体推定結果に、ステップＳ１２０２で取得した要約生成の条件の優先キーワードと合致する動画フレームが存在する場合、当該動画フレームを中間フレームとし、ステップＳ１２０５で計算した再生フレーム数を満たすように、当該要約動画の再生フレームＮｏ群を決定する。要約候補生成部４０６は、前記取得した動画フレームメタデータ群のうち、特定物体名称または物体推定結果に、ステップＳ１２０２で取得した要約生成の条件の優先キーワードと合致する動画フレームが存在しない場合、当該要約対象動画の開始フレームからステップＳ１２０５で計算した再生フレーム数を、当該要約動画の再生フレームＮｏ群として決定する。

ステップＳ１２０７では、要約候補生成部４０６は、未処理の動画がある場合は、ステップＳ１２０５へ戻る。未処理の動画がない場合は、ステップＳ１２０８へ進む。

ステップＳ１２０８では、要約候補生成部４０６は、ステップＳ１２０７で決定した各要約対象動画の再生フレームＮｏ群で構成される、要約候補を生成し、該要約候補結果を要約候補結果出力部４１０へ入力し、要約候補結果の送信を指示する。

次に、図１３を用いて、本発明の実施形態における、動画編集システムにおける要約重みベクトル生成処理の詳細処理について説明する。図１３は、本発明の実施形態における、動画編集システムにおける要約重みベクトル生成処理の詳細処理を示すフローチャートである。

ステップＳ１３０１では、要約重みベクトル生成部４０９は、受信した要約生成の条件の、出力動画時間が設定されていれば、当該出力動画時間を再生フレーム数に変換し、ｘに代入する。設定されていなければ、受信した要約対象動画群の動画メタデータのフレーム数を合算し、合算したフレーム数を例えば１０で割ったフレーム数をｘに代入する。

ステップＳ１３０２では、要約重みベクトル生成部４０９は、受信した各要約対象動画群の動画メタデータの各フレーム数と、要約対象動画の数と、図１４で示される式を用いて、各要約対象動画に対応する重みからなる、初期要約重みベクトルを生成する。

ステップＳ１３０３では、要約重みベクトル生成部４０９は、動画データベース４１２の動画フレームメタデータから、受信した要約対象動画群に該当する動画フレームのメタデータ群を取得する。

ステップＳ１３０４では、要約重みベクトル生成部４０９は、受信した要約生成の条件の、優先キーワードに対する繰り返し処理を開始する。

ステップＳ１３０５では、要約重みベクトル生成部４０９は、ステップＳ１３０３で取得した要約対象動画群のフレームメタデータの特定物体名称または物体推定結果に、優先キーワードと合致するフレームが存在しない動画群のなかで、要約重みベクトルの重みが最大の動画を選び、ｔとする。

ステップＳ１３０６では、要約重みベクトル生成部４０９は、ステップＳ１３０５で選択した動画ｔの重みを１／２に更新し、更新した当該重みをｔｗとする。

ステップＳ１３０７では、要約重みベクトル生成部４０９は、ステップＳ１３０３で取得した要約対象動画群のフレームメタデータの特定物体名称または物体推定結果に、優先キーワードと合致するフレームが存在する動画の数を、ｎとする。

ステップＳ１３０８では、要約重みベクトル生成部４０９は、ステップＳ１３０３で取得した要約対象動画群のフレームメタデータの特定物体名称または物体推定結果に、優先キーワードと合致するフレームが存在する動画に対する繰り返し処理を開始する。

ステップＳ１３０９では、要約重みベクトル生成部４０９は、対象動画の重みにｔｗ／ｎを足して対象動画の重みを更新し、更新した重みをｕｗとする。

ステップＳ１３１０では、要約重みベクトル生成部４０９は、対象動画の動画メタデータのフレーム数をｍとする。

ステップＳ１３１１では、要約重みベクトル生成部４０９は、ｕｗがｍ／ｘより大きければ、ステップＳ１３１２へ進む。そうでない場合、ステップＳ１３１５へ進む。

ステップＳ１３１２では、要約重みベクトル生成部４０９は、ｕｗからｍ／ｘを引いた値を、ｕｗ’とする。

ステップＳ１３１３では、要約重みベクトル生成部４０９は、ｕｗ’を動画ｔの重みに足し、動画ｔの重みを更新する。

ステップＳ１３１４では、要約重みベクトル生成部４０９は、対象動画の重みをｍ／ｘに更新する。

ステップＳ１３１５では、要約重みベクトル生成部４０９は、未処理の動画がある場合は、ステップＳ１３０９へ戻る。未処理の動画がない場合は、ステップＳ１３１６へ進む。

ステップＳ１３１６では、要約重みベクトル生成部４０９は、未処理の優先キーワードがある場合は、ステップＳ１３０５へ戻る。未処理の優先キーワードがない場合は、処理を終了する。

以上、図１３を用いて説明したように、各要約対象動画の再生フレーム数を、優先キーワードが合致するフレームが存在する動画ほど再生フレーム数が大きくなるように、要約重みベクトルを生成することができる。

以上説明したように、本発明によれば、動画に含まれる物体が何であるかを特定し、特定された結果とともに動画データを保存しておくことが可能となる（例えば、動画中に「建物」が写っている。そしてその建物は「増上寺」である。といった情報とともに動画データを保存することが可能となる）。このように動画データを保存することで、要約動画を作成する際に、ユーザはキーワードを入力することで、当該キーワードが示す物体が写っているシーンを含む要約動画を作成することが可能となる（例えば、ユーザが「増上寺」というキーワードを指定して要約動画の生成指示をした場合には、「増上寺」が写っているシーンを含む要約動画が生成される）。

このように、図４〜図７に示す処理により、要約した動画を作成する等の動画編集時において、その素材となる動画を検索する際の利便性を向上することが可能となる。

さらに、図１１〜図１３に示す処理により、ユーザが望む要約動画を生成することが可能となる。

なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。

また、本発明におけるプログラムは、図１１〜図１３、図１７の処理をコンピュータに実行させるプログラムである。なお、本発明におけるプログラムは、図１１〜図１３、図１７の各処理ごとのプログラムであってもよい。

以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。

この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ−ＲＯＭ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＥＥＰＲＯＭ、シリコンディスク等を用いることが出来る。

また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。

さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。

利用者端末１０１
要約生成装置１０２

Claims

複数の要約対象動画をもとに、要約動画を生成する情報処理装置であって、
前記要約対象動画を取得する取得手段と、
前記取得手段により取得した要約対象動画の動画フレームから、当該動画フレームに含まれる物体を特定するための物体特徴量を抽出する物体特徴量抽出手段と、
前記物体特徴量抽出手段より抽出された物体特徴量に基づき、当該動画フレームに含まれる物体を特定する物体特定手段と、
を備えることを特徴とする情報処理装置。
特定物体の名称と、当該特定物体の物体特徴量とを対応付けて管理する特定物体管理手段をさらに備え、
前記物体特定手段は、前記物体特徴量抽出手段により抽出された物体特徴量と、前記特定物体管理手段により管理された物体特徴量とを比較することで、前記動画フレームに含まれる特定物体を特定することを特徴とする請求項１に記載の情報処理装置。
前記物体特定手段は、さらに、前記特徴量抽出手段により抽出された特徴量と、あらかじめ記憶された学習データとを用いて、当該動画フレームに含まれる一般物体を特定することを特徴とする請求項１または２に記載の情報処理装置。
前記物体特定手段により特定物体が特定された動画フレームが撮影された時間情報と、当該特定物体の位置情報と、前記物体特定手段により一般物体が特定された動画フレームが撮影された時間情報とを用いて、当該特定された一般物体を推定する物体推定手段をさらに備えることを特徴とする請求項３に記載の情報処理装置。
要約動画を生成する要約動画生成手段をさらに備え、
前記要約動画生成手段は、前記物体特定手段により特定された特定物体の名称を、当該特定物体が含まれる動画フレームとともに表示する要約動画を生成することを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
前記物体特定手段により特定された物体に関する情報を取得する第２の取得手段と、
前記第２の取得手段により取得した情報を形態素解析する解析手段と、
前記第２の取得手段で取得した情報および前記解析手段で解析した結果を前記動画フレームと対応付けて管理する物体説明情報管理手段と、
をさらに備えることを特徴とする請求項１乃至５のいずれか１項に記載の情報処理装置。
前記要約対象動画を検索するための検索キーワードを受け付ける検索ワード受付手段と、
前記検索ワード受付手段で受け付けた検索キーワードにより、前記特定物体の名称および前記第２の取得手段により取得した情報および前記解析手段により解析された結果を検索することで、要約対象動画を検索する検索手段と、をさらに備えることを特徴とする請求項６に記載の情報処理装置。
前記特定物体の名称に対してユーザによる訂正指示を受け付ける訂正受付手段と、
前記訂正受付手段により受け付けた訂正指示に従い、当該特定物体の名称を訂正する訂正手段と、
をさらに備えることを特徴とする請求項５乃至７のいずれか１項に記載の情報処理装置。
複数の要約対象動画をもとに、要約動画を生成する情報処理装置における情報処理方法であって、
前記情報処理装置の取得手段が、前記要約対象動画を取得する取得工程と、
前記情報処理装置の物体特徴量抽出手段が、前記取得工程により取得した要約対象動画の動画フレームから、当該動画フレームに含まれる物体を特定するための物体特徴量を抽出する物体特徴量抽出工程と、
前記情報処理装置の物体特定手段が、前記物体特徴量抽出工程より抽出された物体特徴量に基づき、当該動画フレームに含まれる物体を特定する物体特定工程と、
を備えることを特徴とする情報処理方法。
複数の要約対象動画をもとに、要約動画を生成する情報処理装置において実行可能なプログラムであって、
前記情報処理装置を、
前記要約対象動画を取得する取得手段と、
前記取得手段により取得した要約対象動画の動画フレームから、当該動画フレームに含まれる物体を特定するための物体特徴量を抽出する物体特徴量抽出手段と、
前記物体特徴量抽出手段より抽出された物体特徴量に基づき、当該動画フレームに含まれる物体を特定する物体特定手段として機能させることを特徴とするプログラム。