JP2006048405A - 映像処理方法及び装置及びプログラム - Google Patents

映像処理方法及び装置及びプログラム Download PDF

Info

Publication number
JP2006048405A
JP2006048405A JP2004229078A JP2004229078A JP2006048405A JP 2006048405 A JP2006048405 A JP 2006048405A JP 2004229078 A JP2004229078 A JP 2004229078A JP 2004229078 A JP2004229078 A JP 2004229078A JP 2006048405 A JP2006048405 A JP 2006048405A
Authority
JP
Japan
Prior art keywords
video
unit boundary
teaching
attribute
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004229078A
Other languages
English (en)
Inventor
Koichi Tanaka
弘一 田中
Akiko Mizuguchi
明子 水口
Mineo Masamitsu
峰夫 正満
Shigemi Fusano
成実 房野
Eriko Sano
恵利子 佐野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004229078A priority Critical patent/JP2006048405A/ja
Publication of JP2006048405A publication Critical patent/JP2006048405A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】 映像構成単位の抽出のためにシステムが検出ロジックを自動生成し、映像のカテゴリや映像コンテンツの変化に柔軟に対応可能な映像構成単位の自動抽出を行う。
【解決手段】 本発明は、教示・学習処理において、実例教示によって利用者の意図を学習し、検出ロジック(単位境界判定基準)を生成し、判定処理において、検出ロジックを用いて検出対象映像から単位境界を判定する。
【選択図】 図1

Description

本発明は、映像処理方法及び装置及びプログラムに係り、特に、利用者が望む映像構成単位での、映像構成単位境界を検出するための映像処理方法及び装置及びプログラムに関する。
近年、小型ビデオカメラの普及により一般の人々による映像撮影が進んできている。また、放送や映像の歴史において過去撮影された膨大な映像を映像アーカイブとしてディジタル的に整理・保存し、公開する活動も盛んである。これら撮影された映像は、映像をディジタル化し、ハードディスクに編集中の作業を記録することで、ランダムアクセスを可能にするノンリニア編集装置を利用して編集が施され、ローカルストレージ上やネットワーク上で視聴可能な形態で保存される。さらに、映像の内容に関する情報が映像メタデータとし、オーサリングツールを用いて作成され、映像のブラウジングや検索等に利用されることも多い。
映像メタデータには、テキスト検索のためのタイトルや概要、キーワード等のテキスト情報の他に、映像中の構成単位(話題、トピックス、コーナー等)毎の視聴のための情報として、構成単位による映像の構成が記述されることも多い。この映像構成単位の抽出は通常人手で行なうが、映像全体の中から映像構成単位を選び出すことは手間及び熟練を要する作業であり、簡易に行なえる技術が望まれている。この作業を補助するために、映像シーンの切り替わり点(カット点)を自動で検出し、そのカット点間の映像をショット映像として分解する機能を持ったオーサリングツールもあるが、これら自動カット点検出付きオーサリングツールを用いて編集を行なう場合でも、一般にカット点は数秒単位で対象映像中に多数検出されることから、映像全体の中からショットを併合しながら利用者が望む映像構成単位を見つけ出すことは、相変わらず労力のかかる作業となる。
映像を特定のカテゴリに固定して、人手ではなく自動で映像構成単位を検出する技術として、ニュース映像において、アンカーショットを先頭とする複数ショットをまとめ、記事単位の視聴ポイントを検出する技術が提案されている(例えば、特許文献1参照)。
しかしながら、カテゴリとして「ニュース映像」、検出単位として「アンカーショットと先頭とする記事単位」のように映像カテゴリ(この場合、ニュース映像)や検出単位(この場合、アンカーショットを先頭とする記事単位)が固定されており、他の構成単位で検出を行うためには、それ毎に新たに検出のロジックをヒューリスティックに考え直す必要がある。また、ニュース映像という同じカテゴリの映像に対しても、ニュース番組毎に異なる特徴量と検出ロジックを必要とすることも多く、それぞれに対して人がヒューリスティックに検出ロジックを見つけることは困難である。
特開2003−32583「ニュースビデオブラウジングシステムでアンカーショットの自動検出方法」
上記のように、従来の技術においては、以下のような問題がある。
・現状人手により映像構成単位が抽出されている。映像アーカイブ等の膨大な映像に対して行なうためには莫大なコストが掛かる。
・カット点検出で検出されるショットは、利用者が話題と見做す単位やブラウジングする単位としては小さく、これをもとにさらに人手で併合等を行い、利用者が望む構成単位にする必要がある。
・ニュース映像に対するアンカーショット検出のような特定映像カテゴリ、特定映像構成単位のための検出技術はあるが、他のカテゴリや構成単位の検出をするためには、それ毎の検出のロジックをヒューリスティックに考案する必要がある。また、同じカテゴリの映像に対しても通常番組が違うと異なる検出ロジックを必要とする。これらにそれぞれ人手で検出ロジックを考案して対処するのは大変である。
本発明は、上記の点に鑑みなされたもので、映像構成単位の抽出のためにシステムが検出ロジック(単位境界判定基準)を自動生成することで、映像のカテゴリや映像コンテンツの変化に柔軟に対応可能な映像構成単位の自動抽出を行うことが可能な映像処理方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、利用者が望む映像構成単位での、単位境界を検出する教示処理及び学習処理を行う装置における映像処理方法において、
教示により利用者の端末から単位境界情報と教示情報を獲得し、教示データベースに格納する教示処理過程(ステップ10)と、
教示データベースに格納されている教示に使用する教示映像の解析結果と、教示情報との間の関連を学習することにより単位境界判定基準を生成し、単位境界判定基準記憶手段に格納する学習処理過程(ステップ20)と、を行なう。
本発明(請求項2)は、教示処理過程(ステップ10)において、
利用者が意図する境界が含まれている単位境界候補を利用者の端末に提示する単位境界候補提示過程(ステップ11)と、
単位境界候補から単位境界もしくは非単位境界の実例を、利用者の端末で選択させることにより、境界情報を獲得する単位境界指定過程(ステップ12)と、を行なう。
本発明(請求項3)は、学習処理過程(ステップ20)において、
教示映像の単位境界候補に対して、該単位境界候補に相対的にサンプリング位置を設け、該サンプリング位置での映像・音声特徴から計算する点属性と、該単位境界候補に相対的に領域を設け、該領域での映像・音声特徴から計算する領域属性をそれぞれ1つもしくは複数計算して、それらを単位境界かどうかの判定に使用する条件属性とし、教示サンプルとして利用者の端末で選択された各境界候補に対して、教示情報から単位境界であるか、非単位境界であるかを示す目的属性を計算し、教示サンプルとして該利用者の端末で選択された各境界候補に対して該条件属性と該目的属性を並べたものを行とする教示属性テーブルを作成する属性算出過程(ステップ21)と、
教示属性テーブルを統計的もしくは情報論的に最適に表現する単位境界判定基準を学習により獲得し、単位境界判定基準記憶手段に格納する単位境界判定基準生成過程(ステップ22)と、を行なう。
本発明(請求項4)は、単位境界候補提示過程(ステップ11)において、
教示データベースに蓄積されている教示対象とする映像から単位境界候補の検出を行う単位境界候補検出過程と、
検出された単位境界候補の連続する単位境界候補で挟まれた映像区間の代表画像を選択する代表画像選択過程と、
選択された代表画像をサムネイルとして映像の時間順に2次元に配置し、利用者が利用者の端末の該サムネイルもしくは該サムネイル近隣のボタンをクリックした場合に該当区間の初めから再生されるようにすることで、該利用者が映像を確認できるようにし、該サムネイルの近隣にその区間の開始境界を学習サンプルと指定することを可能とする入力欄を設けた教示画面を表示する教示画面表示過程と、を行なう。
本発明(請求項5)は、単位境界判定基準生成過程(ステップ22)において、
教示属性テーブルを情報論的に最適に表現する単位境界判定基準の獲得を、該教示属性テーブルを用いて学習することにより単位境界判定基準の決定木を生成することで行う。
本発明(請求項6)は、属性算出過程(ステップ21)において、
教示映像の単位境界候補に対して計算される1つもしくは複数の点属性は、
・その映像位置でシーンの切り替わりがあるかどうかを示す2値属性;
・その映像位置にテロップが出ているかどうかの2値属性;
・その映像位置でパン・チルト・ズーム等のカメラワークが行なわれているかどうかの2値属性;
・その映像位置で音楽が鳴っているかどうかを示す2値属性;
・その映像位置で人の音声があるかどうかを示す2値属性;
・その映像位置のフレーム画像の分類値を示す多値属性;
である。
本発明(請求項7)は、属性算出過程(ステップ21)において、
教示映像の単位境界候補に対して計算される1つもしくは複数の領域属性は、
・その領域内でのカット点の頻度を示す多値属性;
・その領域内でのテロップ開始、終了、継続等のイベントの生起パターンを示す多値属性;
・その領域内でのカメラワーク開始、終了、継続等イベントの生起パターンを示す多値属性;
・その領域内での音声開始、終了、継続等イベントの生起パターンを示す多値属性;
・その領域内での音楽開始、終了、継続等イベントの生起パターンを示す多値属性;
である。
本発明(請求項8)は、利用者が望む映像構成単位での、単位境界を検出する判定処理を行う装置における映像処理方法において、
検出対象映像を検出対象映像データベースから読み込み、解析した解析結果と、教示処理及び学習処理を行う装置で生成され、単位境界判定基準記憶手段に格納されている単位境界判定基準から単位境界を検出する判定処理過程(ステップ30)を行う。
本発明(請求項9)は、判定処理過程(ステップ30)において、
検出対象映像データベースから読み込まれた検出対象映像の単位境界候補を検出する単位境界候補検出過程(ステップ31)と、
単位境界候補に対して、該単位境界候補に相対的にサンプリング位置を設け、該サンプリング位置での映像・音声特徴から計算する点属性と、該単位境界候補に相対的に領域を設け、該領域での映像・音声特徴から計算する領域属性をそれぞれ1つもしくは複数計算して、それらを単位境界かどうかの判定に使用する条件属性とする属性算出過程(ステップ32)と、
条件属性と単位境界判定基準から、該単位境界候補が単位境界であるかどうかを判定する単位境界判定処理過程(ステップ33)と、を行なう。
本発明(請求項10)は、属性算出過程(ステップ32)において、
教示映像の単位境界候補に対して計算される1つもしくは複数の点属性は、
・その映像位置でシーンの切り替わりがあるかどうかを示す2値属性;
・その映像位置にテロップが出ているかどうかの2値属性;
・その映像位置でパン・チルト・ズーム等のカメラワークが行なわれているかどうかの2値属性;
・その映像位置で音楽が鳴っているかどうかを示す2値属性;
・その映像位置で人の音声があるかどうかを示す2値属性;
・その映像位置のフレーム画像の分類値を示す多値属性;
である。
本発明(請求項11)は、属性算出過程(ステップ32)において、
教示映像の単位境界候補に対して計算される1つもしくは複数の領域属性は、
・その領域内でのカット点の頻度を示す多値属性;
・その領域内でのテロップ開始、終了、継続等のイベントの生起パターンを示す多値属性;
・その領域内でのカメラワーク開始、終了、継続等イベントの生起パターンを示す多値属性;
・その領域内での音声開始、終了、継続等イベントの生起パターンを示す多値属性;
・その領域内での音楽開始、終了、継続等イベントの生起パターンを示す多値属性;
である。
図2は、本発明の原理構成図である。
本発明(請求項12)は、利用者が望む映像構成単位での、映像構成単位境界(以下、「単位境界」と記す)を検出する教示処理及び学習処理を行う映像処理装置であって、
教示により利用者の端末から単位境界情報と教示情報を獲得し、教示データベース40に格納する教示処理手段10と、
教示データベース40に格納されている教示に使用する映像(以下、「教示映像」と記す)の解析結果と、教示情報との間の関連を学習することにより単位境界判定基準を生成し、単位境界判定基準記憶手段60に格納する学習処理手段20と、を有する。
本発明(請求項13)は、教示処理手段10において、
利用者が意図する境界が含まれている単位境界候補を利用者の端末に提示する単位境界候補提示手段12と、
単位境界候補から単位境界もしくは非単位境界の実例を、利用者の端末で選択させることにより、境界情報を獲得する単位境界指定手段13と、を含む。
本発明(請求項14)は、学習処理手段20において、教示映像の単位境界候補に対して、該単位境界候補に相対的にサンプリング位置を設け、該サンプリング位置での映像・音声特徴から計算する点属性と、該単位境界候補に相対的に領域を設け、該領域での映像・音声特徴から計算する領域属性をそれぞれ1つもしくは複数計算して、それらを単位境界かどうかの判定に使用する条件属性とし、教示サンプルとして利用者の端末で選択された各境界候補に対して、教示情報から単位境界であるか、非単位境界であるかを示す目的属性を計算し、教示サンプルとして該利用者の端末で選択された各境界候補に対して該条件属性と該目的属性を並べたものを行とする教示属性テーブル50を作成する属性算出手段21と、
教示属性テーブル50を統計的もしくは情報論的に最適に表現する単位境界判定基準を学習により獲得し、単位境界判定基準記憶手段60に格納する単位境界判定基準生成手段22と、を含む。
本発明(請求項15)は、単位境界候補提示手段12において、
教示データベースに蓄積されている教示対象とする映像から単位境界候補の検出を行う単位境界候補検出手段11と、
検出された単位境界候補の連続する単位境界候補で挟まれた映像区間の代表画像を選択する代表画像選択手段と、
選択された代表画像をサムネイルとして映像の時間順に2次元に配置し、利用者が利用者の端末の該サムネイルもしくは該サムネイル近隣のボタンをクリックした場合に該当区間の初めから再生されるようにすることで、該利用者が映像を確認できるようにし、該サムネイルの近隣にその区間の開始境界を学習サンプルと指定することを可能とする入力欄を設けた教示画面を表示する教示画面表示手段と、を含む。
本発明(請求項16)は、単位境界判定基準生成手段22において、
教示属性テーブル50を情報論的に最適に表現する単位境界判定基準の獲得を、該教示属性テーブルを用いて学習することにより単位境界判定基準の決定木を生成することで行う手段を含む。
本発明(請求項17)は、属性算出手段21において、
教示映像の単位境界候補に対して計算される1つもしくは複数の点属性を、
・その映像位置でシーンの切り替わりがあるかどうかを示す2値属性;
・その映像位置にテロップが出ているかどうかの2値属性;
・その映像位置でパン・チルト・ズーム等のカメラワークが行なわれているかどうかの2値属性;
・その映像位置で音楽が鳴っているかどうかを示す2値属性;
・その映像位置で人の音声があるかどうかを示す2値属性;
・その映像位置のフレーム画像の分類値を示す多値属性;
とする。
本発明(請求項18)は、属性算出手段21において、
教示映像の単位境界候補に対して計算される1つもしくは複数の領域属性を、
・その領域内でのカット点の頻度を示す多値属性;
・その領域内でのテロップ開始、終了、継続等のイベントの生起パターンを示す多値属性;
・その領域内でのカメラワーク開始、終了、継続等イベントの生起パターンを示す多値属性;
・その領域内での音声開始、終了、継続等イベントの生起パターンを示す多値属性;
・その領域内での音楽開始、終了、継続等イベントの生起パターンを示す多値属性;
とする。
本発明(請求項19)は、利用者が望む映像構成単位での、映像構成単位境界(以下、「単位境界」と記す)を検出する判定処理を行う映像処理装置であって、
検出対象映像を検出対象映像データベース70から読み込み、解析した解析結果と、教示処理及び学習処理を行う装置で生成され、単位境界判定基準記憶手段60に格納されている単位境界判定基準から単位境界を検出する判定処理手段30を有する。
本発明(請求項20)は、判定処理手段30において、
検出対象映像データベース70から読み込まれた検出対象映像の単位境界候補を検出する単位境界候補検出手段31と、
単位境界候補に対して、該単位境界候補に相対的にサンプリング位置を設け、該サンプリング位置での映像・音声特徴から計算する点属性と、該単位境界候補に相対的に領域を設け、該領域での映像・音声特徴から計算する領域属性をそれぞれ1つもしくは複数計算して、それらを単位境界かどうかの判定に使用する条件属性として判定属性テーブル80に格納する属性算出手段32と、
判定属性テーブル80に格納されている条件属性と、単位境界判定基準記憶手段60に格納されている単位境界判定基準から、該単位境界候補が単位境界であるかどうかを判定する単位境界判定処理手段33と、を含む。
本発明(請求項21)は、属性算出手段32において、
教示映像の単位境界候補に対して計算される1つもしくは複数の点属性を、
・その映像位置でシーンの切り替わりがあるかどうかを示す2値属性;
・その映像位置にテロップが出ているかどうかの2値属性;
・その映像位置でパン・チルト・ズーム等のカメラワークが行なわれているかどうかの2値属性;
・その映像位置で音楽が鳴っているかどうかを示す2値属性;
・その映像位置で人の音声があるかどうかを示す2値属性;
・その映像位置のフレーム画像の分類値を示す多値属性;
とする。
本発明(請求項22)は、属性算出手段32において、
教示映像の単位境界候補に対して計算される1つもしくは複数の領域属性を、
・その領域内でのカット点の頻度を示す多値属性;
・その領域内でのテロップ開始、終了、継続等のイベントの生起パターンを示す多値属性;
・その領域内でのカメラワーク開始、終了、継続等イベントの生起パターンを示す多値属性;
・その領域内での音声開始、終了、継続等イベントの生起パターンを示す多値属性;
・その領域内での音楽開始、終了、継続等イベントの生起パターンを示す多値属性;
とする。
本発明(請求項23)は、利用者が望む映像構成単位での、単位境界を検出する教示処理及び学習処理を行う映像処理プログラムであって、請求項1乃至7記載の映像処理方法の実現に用いられる処理をコンピュータに実行させる映像処理プログラムである。
本発明(請求項24)は、利用者が望む映像構成単位での、単位境界を検出する判定処理を行う映像処理プログラムであって、請求項8乃至11記載の映像処理方法の実現に用いられる処理をコンピュータに実行させる映像処理プログラムである。
上記のように、本発明によれば、利用者が映像構成単位境界を実例で示すことにより、単位境界を教示し、その教示箇所や教示内容と解析した映像コンテンツとの関係を学習し、そのように学習した知識を用いて利用者の定義する映像構成単位での抽出を自動で可能とする。利用者が考える構成単位は、利用者の検出目的毎に、また、映像コンテンツのカテゴリ毎に、さらには、番組シリーズ毎に検出ロジックが変わる可能性があるが、本発明では、その検出ロジックをシステム設計者が個々に考え出す必要はなく、利用者が境界の実例を教示で示すことにより自動生成するため、利用者の意図に応じた柔軟な検出が可能となる。
以下、図面と共に本発明の実施の形態を説明する。
最初に本発明の動作の概要を説明する。
図3は、本発明の一実施の形態における教示・学習処理の概要を説明するための図である。まず、利用者による実例教示、教示データを用いた映像構成単位検出ロジックの学習処理を行う。
より詳細には、利用者が望む映像構成単位での、映像構成単位境界(以下、「単位境界」と記す)を検出するために、映像構成単位境界候補を検出する。
映像構成単位境界候補の検出処理としては、
(1)シーンの切り替わりのカット点で区切られる映像上の点を単位境界候補として検出
する;
(2)一定の短い時間間隔で区切られる映像上の点を単位境界候補として検出する;
等の方法がある。
次に、教示処理として、利用者にサムネイル等で映像構成単位境界の情報を境界候補一覧として提示し、教示により利用者から単位境界の情報を獲得する。
このために、単位境界候補の検出を行い、その連続する単位境界候補で挟まれた映像区間の代表画像を選択し、その代表画像をサムネイルとして映像の時間順に、2次元に配置し、利用者がサムネイルもしくはサムネイル近隣のボタンをクリックした場合に、該当区間の初めから再生されるようにすることで、利用者が映像を確認できるようにし、サムネイルの近隣にその区間の開始境界を学習サンプルとして指定することを可能とする入力欄を設けた教示画面を利用者に対して表示する。これにより、利用者は、表示された境界候補一覧の単位境界もしくは非単位境界の実例について、入力欄に学習のサンプルとしてチェックを入れる等の操作を行なう。
上記の映像区間の代表画像を選択する処理としては、
(1)単位境界候補で挟まれた映像区間の代表画像として、区間の最初のフレーム画像を選択する;
(2)単位境界候補で挟まれた映像区間の代表画像として、区間の最初から一定期間後のフレーム画像を選択する;
等の方法がある。
上記の教示処理における学習サンプルを取得する方法としては、
(1)単位境界候補の中から利用者に単位境界を指定してもらい、学習の単位境界サンプルとし、さらに、利用者が指定していない単位境界候補から確率的にサンプリングして学習の非単位境界サンプルとする;
(2)単位境界候補の中から利用者に非単位境界を指定してもらい、学習の非単位境界サンプルとし、さらに、利用者が指定していない単位境界候補から確率的にサンプリングして学習の単位境界サンプルとする;
(3)単位境界候補の中から利用者に単位境界と非単位境界を指定してもらい、それぞれを学習の単位境界サンプル、非単位境界サンプルとする;
等の方法がある。
このようにして利用者により選択された境界情報を取得する。
次に、学習処理として、教示にしようする映像(以下「教示映像」と記す)の解析結果と教示情報との間の関連を学習することにより、単位境界判定基準を自動生成する。
詳しくは、教示映像の単位境界候補に対して、単位境界候補に相対的にサンプリング位置を設け、その場所での映像・音声特徴から計算する属性(以下「点属性」と記す)と、単位境界候補に相対的に領域を設け、その領域での映像・音声特徴から計算する属性(以下、「領域属性」と記す)をそれぞれ1つもしくは複数計算して、それらを単位境界かどうかの判定に使用する属性(以下「条件属性」と記す)とし、教示サンプルとして選択された各境界候補に対して、教示情報から単位境界であるか、非単位境界であるかを示す属性(以下「目的属性」と記す)を計算し、教示サンプルとして選択された各境界候補に対して条件属性と目的属性を並べたものを行とする教示属性テーブルを作成し、その教示属性テーブルを統計的もしくは情報論的に最適に表現する単位境界判定基準を学習により獲得する。教示属性テーブルを情報論的に最適に表現する単位境界判定基準の獲得を、教示属性テーブルからの学習により単位境界判定基準の決定木を生成することにより行う。
次に、図4に示すように、学習により自動生成された検出ロジックを用いて映像から構成単位検出を行う。
構成単位検出のための判定処理は、単位境界検出を行う映像(以下、「検出対象映像」と記す)の解析結果と、単位境界判定基準から単位境界を検出する。検出後の単位境界候補に対して、点属性、領域属性をそれぞれ一つもしくは、複数計算して、それらを条件属性とし、判定属性テーブルに書き込む。この条件属性と学習により獲得された単位境界判定基準からその候補が単位境界であるかどうかを判定し、判定した結果を判定属性テーブルに書き込む。
図5は、本発明の一実施の形態における装置構成を示す。
同図に示す装置は、利用者による実例教示を行なう教示処理部10、教示情報を用いた単位境界抽出ロジックの学習を行なう学習処理部20、学習により自動生成された単位境界検出ロジックを用いて映像から単位境界検出を行う判定処理部30、教示映像情報、単位境界候補位置情報、境界/非境界指定情報等が格納される教示データベース40、教示属性(学習サンプルに対する条件属性と目的属性)が格納されるメモリや記憶媒体上の教示属性テーブル50、決定木情報が格納される決定木記憶部60、検出対象映像情報データベース70、属性及び判定結果が格納されるメモリや記憶媒体上の判定属性テーブル80から構成される。
同図に示す装置において、教示処理、学習処理、判定処理を行うことで、図6に示すように映像構成単位aは単位境界b−cで挟まれた映像区間であるので、映像構成単位の検出と、映像構成単位境界の検出は同等である。
以下に、教示処理部10の各処理部の個々の機能と動作を説明する。
教示処理部10は、学習処理部20において必要とする単位境界サンプルと非単位境界サンプルを獲得するものであり、単位境界候補検出部11、単位境界候補一覧作成部12、単位境界指定部13から構成される。また、単位境界候補一覧作成部12には、利用者の端末の一覧表示手段が接続され、単位境界指定部13には、指定情報入力手段が接続されている。
単位境界候補検出部11は、教示データベース40から教示対象とする映像を読み込んで、図7に示すような単位境界候補を検出する。単位境界候補には、比較的容易に検出が可能で、その中に利用者が意図する境界が含まれているものであれば利用可能である。例えば、同図(a)に示すようなシーンの切り替わりのカット点や、同図(b)に示すような一定の短い時間間隔を単位境界候補とすることができる。
単位境界候補一覧作成部12は、単位境界候補検出部11で検出された単位境界候補を一覧表示手段を介して利用者に一覧表示する。
単位境界指定部13は、単位境界一覧作成部12で一覧表示した単位境界候補について、利用者が利用する指定情報入力手段から、当該利用者が検出を望む単位境界もしくは、非単位境界の指定を受け付ける。利用者の指定情報入力手段からの指定方法としては、図8に示すように以下の3通りが考えられ、対象映像のカテゴリや、操作性等を考慮して利用者もしくはシステム設計者が選択する。
図8(a)に示す境界教示による指定は、単位境界候補の中から単位境界を指定してもらい、学習の単位境界サンプルとする。さらに、利用者が指定していない単位境界候補から確立的にサンプリングして学習の非単位境界サンプルとする。
図8(b)に示す非境界教示による指定は、単位境界候補の中から単位境界でない境界候補を指定してもらい、学習の非単位境界サンプルとする。利用者が指定していない単位境界候補から確率的にサンプリングして学習の単位境界サンプルとする。
図8(c)に示す両面教示による指定は、単位境界候補の中から非単位境界を指定してもらい、それぞれ学習の単位境界サンプル、非単位境界サンプルとする。
この教示のための利用者とのやり取りのインタフェースとして、図9に示すように、各単位境界候補の代表画像(例えば、単位境界候補位置のフレーム画像や、候補位置から一定時間後のフレーム画像等)をサムネイル画像として映像の時間順に2次元に配置し、そのサムネイルをクリックすることで該当映像構成単位境界から再生されるようにすることで、利用者が映像の単位境界の映像中での位置及び内容を確認できるようにし、サムネイルの上部に学習サンプル指定のためのチェックボックスを設ける。利用者による指定が終了したタイミングで利用者が指定情報入力手段の教示ボタンを押すことで、単位境界指定部13は、上記の3つの指定法のそれぞれの場合に従い、どれを教示映像とし、そのどの映像位置を単位境界サンプル、非単位境界サンプルとしたかの情報を教示データベース40に登録する。
図10は、本発明の一実施の形態における教示処理のフローチャートである。
ステップ101) 単位境界候補検出部11において、教示データベース40から教示映像を読み込んで、シーンの切り替わりのカット点や、一定の短い時間間隔を単位境界候補として検出する。
ステップ102) 単位境界候補一覧作成部12において、単位境界候補検出部11で検出された単位境界候補を一覧表示手段を介して利用者に一覧表示する。一覧表示する際に、連続する単位境界候補で挟まれた映像区間の代表画像を選択し、その代表画像をサムネイルとして映像の時間順に2次元に配置し、利用者がサムネイルもしくは、サムネイル近隣のボタンをクリックした場合に該当区間の初めから再生されるようにすることで、利用者が映像を確認できるようにし、サムネイルの近隣にその区間の開始境界を学習サンプルと指定することを可能にする入力欄を設けた一覧画面として一覧表示手段に表示する。
ステップ103) 単位境界指定部13において、単位境界一覧作成部12で一覧表示した単位境界候補について、利用者が指定情報入力手段から、当該利用者が検出を望む単位境界もしくは、非単位境界の指定を受け付け、「境界教示」、「非境界教示」、「両面教示」のいずれであるか判定する。「境界教示」の場合には、ステップ104に移行し、「非境界教示」の場合にはステップ106に移行し、「両面教示」である場合にはステップ108に移行する。
ステップ104) 「境界教示」である場合には、単位境界候補の中から単位境界を指定してもらい、学習の単位境界サンプルとする。
ステップ105) さらに、利用者が指定していない単位境界候補から確立的にサンプリングして学習の非単位境界サンプルとし、ステップ109に移行する。
ステップ106) 「非境界教示」である場合には、単位境界候補の中から単位境界でない境界候補を指定してもらい、学習の非単位境界サンプルとする。
ステップ107) 利用者が指定していない単位境界候補から確率的にサンプリングして学習の単位境界サンプルとし、ステップ109に移行する。
ステップ108) 「両面教示」である場合には、単位境界候補の中から非単位境界を指定してもらい、それぞれ学習の単位境界サンプル、非単位境界サンプルとする。
ステップ109) 単位境界指定部13において、虚時映像情報と境界サンプル、非境界サンプルの映像中の位置情報を教示データベース40に登録する。
次に、学習処理部20の各機能と動作を説明する。
学習処理部20は、教示データベース40に格納されている教示データを用いて映像構成単位検出ロジックの学習を行うものであり、属性算出部21と決定木生成部22とを有する。
学習処理部20が学習を行なうタイミングは、利用者が指定情報入力手段の教示ボタンを押したタイミングで教示データベース40に登録された全ての教示映像に対して自動的に行われる方法と、教示データベース40から学習対象とする教示映像を1つもしくは複数選択した後に明示的に行う方法とが考えられ、利用者やシステムの設計者が選ぶことができる。
属性算出部21は、教示データベース40の各教示映像の単位境界候補毎にその位置での映像・音声の特徴を示す属性値を複数計算し、教示属性テーブル50に格納する。属性値には、点属性、領域属性、条件属性、目的属性がある。
点属性は、教示映像の単位境界候補に対して、単位境界候補に相対的にサンプリング位置を設け、その場所での映像・音声特徴から計算する。
領域属性は、単位境界候補に相対的に領域を設け、その領域での領域・音声特徴から1つもしくは複数計算する。
条件属性は、点属性・領域属性を単位境界かどうかの判定に使用する。
目的属性は、教示サンプルとして選択された各境界候補に対して、教示情報から単位境界であるか、非単位境界であるかを示す。
教示サンプルとして選択された各境界候補に対して条件属性と目的属性を並べたものを行とする教示属性テーブル50を生成する。教示属性テーブル50の詳細については後述する。
決定木生成部22は、教示属性テーブル50を統計的もしくは情報論的に最適に表現する単位境界判定基準を学習により獲得する。具体的には、その教示属性テーブル50を情報論的に最適に表現する単位境界判定基準の獲得を、教示属性テーブル50からの学習により単位境界判定基準の決定木を生成する。決定木の詳細については後述する。
図11は、本発明の一実施の形態における学習処理のフローチャートである。
ステップ201) 属性算出部21が、教示データベース40から学習対象となる教示データを獲得する。
ステップ202) 属性算出部21において、取得した学習サンプル毎に属性値を計算する。属性は、単位境界候補に相対的にサンプリング位置を設け、その場所での映像・音声特徴から属性値を計算する点属性と、単位境界候補に相対的に領域を設け、その領域での映像・音声特徴から属性値を計算する領域属性がある。図12は、単位境界候補に相対的に設定された点属性のサンプリング位置の例を示す。サンプリング位置で計算される点属性としては、
PF1)その映像位置でシーンの切り替わり(カット点)があるかどうかを示す2値属性;
PF2)その映像位置にテロップが出ているかどうかの2値属性;
PF3)その映像位置でパン・チルト・ズーム等のカメラワークが行なわれているかどうかの2値属性;
PF4)その映像位置で音楽が鳴っているかどうかを示す2値属性;
PF5)その映像位置で人の音声があるかどうかを示す2値属性;
PF6)その映像位置のフレーム画像の分類値を示す多値属性;
等があげられるが、これらに限定されるものではない。
図13は、単位境界候補に相対的に設定された領域属性の計算領域を示す。領域の設定は、
R1)単位境界候補周りに、境界の前、境界付近、境界の後の3領域を設定する;
R2)連続する単位境界候補で挟まれる領域を計算領域とする;
等があげられる。R1)は、図13(a)に示すように、単位境界候補の付近の前後関係を積極的に用いる点に特徴があり、R2)は、図13(b)に示すように、シーンの切り替わりのような単位境界候補で囲まれた不自然に途切れることのない領域を用いる点に特徴がある。勿論、属性値の計算領域の設定は、これらに限定されるものではない。
領域属性としては、
RF1)その領域内でのカット点の頻度を示す多値属性;
RF2)その領域内でのテロップ開始、終了、継続等のイベントの生起パターンを示す多値属性;
RF3)その領域内でのカメラワーク開始、終了、継続等イベントの生起パターンを示す多値属性;
RF4)その領域内での音声開始、終了、継続等イベントの生起パターンを示す多値属性;
RF5)その領域内での音楽開始、終了、継続等イベントの生起パターンを示す多値属性;
等があげられるが、これらに限定されるものではない。RF1)の頻度は、頻度閾値を設定することで多値属性化できる。例えば、S1,S2,S3,S4を、
S1<S2<S3<S4
なる頻度閾値とする。このとき、
頻度=0 →頻度属性値=0
0<頻度<=S1 →頻度属性値=1
S1<頻度<=S2 →頻度属性値=2
S2<頻度<=S3 →頻度属性値=3
S3<頻度<=S4 →頻度属性値=4
S4<頻度 →頻度属性値=5
なる条件で頻度属性値を計算し、設定することが可能である。また、RF2)〜RF5)の開始・終了・継続等イベントの生起パターンは、図14のように値を定めることで領域内での映像・音声のイベントの出現パターンを多値属性化できる。
ステップ202) 学習の境界サンプル、非境界サンプル毎に点属性、領域属性を計算し、教示属性テーブル50の条件属性とする。
ステップ203) 学習の境界サンプル、非境界サンプル毎にそれが境界サンプルならば値1を、非境界サンプルならば値0を目的属性として教示属性テーブル50に設定する。
上記のステップ202,203において、学習サンプルの単位境界サンプル、非単位境界サンプルに対して、教示属性テーブル50をメモリまたは、記憶手段上に作成する。図15にあるように、教示属性テーブル50の各行が学習の単位境界サンプル、もしくは、非単位境界サンプルに対応し、サンプルの映像・音声状況を表す条件属性と、そのサンプルが境界か非境界かを示す目的属性からなる。条件属性には、その学習サンプルの点属性を含む全サンプリング位置を全てに対して並べ、さらに、領域属性を全ての領域に渡って並べる。目的属性にはそれが、単位境界サンプルならば値1を、非単位境界サンプルならば値0を設定する。ある映像の境界候補に対しての条件属性が与えられたときに単位境界であるか、非単位境界であるかを決定する判定基準をこの教示属性テーブル50の条件属性と目的属性の対応を反映するように決定することが学習である。
ステップ204) 条件属性と目的属性の対応の学習法に決定木学習法を用いることができる。決定木とは、条件属性が与えられた時に、目的属性値がどの値になるかを木構造のルールの形で表現したものである(例えば、福田、森本、徳山「データマイニング」共立出版株式会社)。図16に、単位境界かどうかの判定のための決定木の例を模式的に示す。教示属性テーブル50が与えられたときに、決定木を計算する方法として、例えば、相互情報量に基づく目的関数を最適化するように分割テストを構成し、学習サンプルデータを木の頂点からこの最適分割テストにより分割していく「貪欲アルゴリズム」を用いることができる。この決定木学習法の詳細は、上記の文献(「データマイニング」)に述べられている。
決定木学習方法を以下に述べる。
決定木を作るとき、どの条件属性に対するどのような分割テストをどのような順番で適用するかで、木の大きさや形が大きく変わる。一般的には、判定するためのテストが少なくて済むように、木をできるだけ小さくしたい。しかし、外部パスの合計長(根から葉へのパス長を全ての葉について合計したもの)を最小とする決定木を作る問題はNP困難であることが知られている。木の大きさを測る基準を木のノードの数とした場合でも、NP困難であろうと考えられている。
この理論的な困難さにもかかわらず、以下に示すアルゴリズムのように、データを木の頂点から再帰的に相互情報量などに基づいた最適分割テストにより(バックトラックせずに)分割していく貪欲アルゴリズム(greedy algorithm)を用いると、実用的には小さい木構造を構築することができる。
以下に、決定木構築のアルゴリズムを示す。
主ルーチン MAIN()
(1)データベース中の全学習データDを読み出す。
(2)SPLIT(D)
サブルーチン SPLIT(データ集合D)
(1)IF (Dが分割終了条件を満たす)THEN 終了
(2)各カテゴリ型属性に対し最適な分割テストを探す。
(3)(2)で見つかった全ての最適分割テストのうち、最も目的関数値のよいテストでデータ集合DをDとDに分割する。
(4)SPLIT(D1)
(5)SPLIT(D2)
上記アルゴリズムの分割の終了条件としては、以下のようなものがあげられる。
1.決定木の場合、データ集合Dの目的属性値がすべて同じ値か、一つの目的属性値の存在比率が他の値と比べて十分大きい。
2.条件属性上で定義可能な分割ルールでは、データ集合Dをこれ以上分割できない。
3.データ数|D|が全学習データ数に対して十分小さい。
上記のアルゴリズムは2分木構造の決定木を構築する。
次に、判定処理部30の各処理部の個々の機能と動作を説明する。
図5に示す判定処理部30は、単位境界検出を行う映像(検出対象映像)の解析結果と、単位境界判定基準から単位境界を検出するものであり、単位境界候補検出部31、属性算出部32、単位境界判定部33を有する。
単位境界候補検出部31は、対象映像情報データベース70から検出対象の映像を読み込み、単位境界候補を検出する。検出の方法は、教示処理部10の単位境界候補検出部11の動作と同様である。
属性算出部32は、単位境界候補検出部31で検出された単位境界候補に対して、点属性、領域属性をそれぞれ1つもしくは複数計算して、それらを条件属性として判定属性テーブル80に格納する。属性の計算方法は、学習処理部20の属性算出部21の動作と同様である。
単位境界判定部33は、決定木記憶部60に格納されている決定木(単位境界判定基準)と、判定属性テーブル80に格納されている条件属性から、単位境界候補検出部31で得られた単位境界候補が単位境界であるかを判定し、判定結果を判定属性テーブル80に格納する。
次に、上記の構成における動作を説明する。
図17は、本発明の一実施の形態における判定処理のフローチャートである。
ステップ301) 利用者が単位境界検出を行う映像(検出対象映像)が与えられたとする。その検出対象映像を利用者が教示で実例指示したような基準で映像構成単位で分けるために、まず、単位境界候補検出部31において、検出対象映像情報データベース70から検出対象映像を読み込んで、前述のステップ101と同様の方法で単位境界候補の検出を行う。
ステップ302) そして、得られた単位境界候補のそれぞれに対して、属性算出部32において、前述のステップ202の方法と同様の方法で点属性、領域属性を検出し、条件属性とし、判定属性テーブル80に格納する。判定属性テーブル80は、図18に示すような構成を有し、各単位境界候補に対応付けて、条件属性及び目的属性の他に、映像中の位置情報を記憶している点が、教示属性テーブル50と異なる。これは、判定結果である目的属性をそれに対応する位置情報と共に出力するためである。
ステップ303) 学習処理により決定木記憶部60に格納されている決定木を用いて、図16にあるように、それらの候補が単位境界か非単位境界かを、木の頂点から木構造に沿って条件属性と決定木のノードにある条件式とを比べながら逐次判断することで最終的に末端の葉の部分で決定する。
ステップ304) 決定木の末端の葉の判定が単位境界候補である場合には、ステップ305に移行し、非単位境界候補である場合にはステップ306に移行する。
ステップ305) 単位境界候補である場合には、「単位境界」を結果として判定属性テーブル80の目的属性の欄に書き込み、また、当該候補の位置情報を判定属性テーブル80の位置情報の欄に書き込む。
ステップ306) 非単位境界候補である場合には、「非単位境界」を結果として判定属性テーブル80の目的属性の欄に書き込み、また、当該候補の位置情報を判定属性テーブル80の位置情報の欄に書き込む。
なお、本実施の形態では、一例として、決定木学習法を用いて学習処理及び判定処理を行うようにしたが、学習の手法として、ニューラルネットワークや、統計的に学習を行なうその他の手法を適用することも可能である。
なお、上記の実施の形態では、図5に示す教示処理部10、学習処理部20、判定処理部30を1つの装置として記載しているが、教示処理部10と学習処理部20からなる装置と、判定処理部30を有する装置とに分けて構成してもよい。
また、図10、図11、図17に示されるフローチャートの動作をプログラムとして構築し、コンピュータにインストールする、または、ネットワーク介して流通させることも可能である。
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、映像中から映像構成単位を抽出するための技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態における教示・学習処理の概要を説明するための図である。 本発明の一実施の形態における判定処理の概要を説明するための図である。 本発明の一実施の形態における装置構成図である。 本発明の一実施の形態における映像構成単位と映像構成単位境界を示す図である。 本発明の一実施の形態における単位境界候補の検出処理を示す図である。 本発明の一実施の形態における教示における単位境界指定法を説明するための図である。 本発明の一実施の形態における教示画面の例である。 本発明の一実施の形態における教示処理のフローチャートである。 本発明の一実施の形態における学習処理のフローチャートである。 本発明の一実施の形態における点属性のサンプリング位置を示す図である。 本発明の一実施の形態における領域属性の計算領域を示す図である。 本発明の一実施の形態における映像・音声イベントの出現パターンの多値属性化を示す図である。 本発明の一実施の形態における教示属性テーブルの構成例である。 本発明の一実施の形態における決定木の例である。 本発明の一実施の形態における判定処理のフローチャートである。 本発明の一実施の形態における判定属性テーブルの構成例である。
符号の説明
10 教示処理手段、教示処理部
11 単位境界候補検出手段、単位境界候補検出部
12 単位境界候補提示手段、単位境界候補一覧作成部
13 単位境界指定手段、単位境界指定部
20 学習手段、学習部
21 属性算出手段、属性算出部
22 単位境界判定基準生成手段、決定木生成部
30 判定処理手段、判定処理部
31 単位境界候補検出手段、単位境界候補検出部
32 属性算出手段、属性算出部
33 単位境界判定手段、単位境界判定部
40 教示データベース
50 教示属性テーブル
60 単位境界判定基準記憶手段、決定木記憶部
70 検出対象映像情報データベース
80 判定属性テーブル

Claims (24)

  1. 利用者が望む映像構成単位での、映像構成単位境界(以下、「単位境界」と記す)を検出する教示処理及び学習処理を行う装置における映像処理方法において、
    教示により利用者の端末から単位境界情報と教示情報を獲得し、教示データベースに格納する教示処理過程と、
    前記教示データベースに格納されている教示に使用する映像(以下、「教示映像」と記す)の解析結果と、前記教示情報との間の関連を学習することにより単位境界判定基準を生成し、単位境界判定基準記憶手段に格納する学習処理過程と、
    を行なうことを特徴とする映像処理方法。
  2. 前記教示処理過程において、
    前記利用者が意図する境界が含まれている単位境界候補を前記利用者の端末に提示する単位境界候補提示過程と、
    前記単位境界候補から単位境界もしくは非単位境界の実例を、前記利用者の端末で選択させることにより、境界情報を獲得する単位境界指定過程と、
    を行なう請求項1記載の映像処理方法。
  3. 前記学習処理過程において、
    前記教示映像の単位境界候補に対して、該単位境界候補に相対的にサンプリング位置を設け、該サンプリング位置での映像・音声特徴から計算する属性(以下、「点属性」と記す)と、該単位境界候補に相対的に領域を設け、該領域での映像・音声特徴から計算する属性(以下、「領域属性」と記す)をそれぞれ1つもしくは複数計算して、それらを単位境界かどうかの判定に使用する属性(以下、「条件属性」と記す)とし、教示サンプルとして前記利用者の端末で選択された各境界候補に対して、前記教示情報から単位境界であるか、非単位境界であるかを示す属性(以下、「目的属性」と記す)を計算し、教示サンプルとして該利用者の端末で選択された各境界候補に対して該条件属性と該目的属性を並べたものを行とする教示属性テーブルを作成する属性算出過程と、
    前記教示属性テーブルを統計的もしくは情報論的に最適に表現する前記単位境界判定基準を学習により獲得し、前記単位境界判定基準記憶手段に格納する単位境界判定基準生成過程と、
    を行なう請求項1記載の映像処理方法。
  4. 前記単位境界候補提示過程において、
    前記教示データベースに蓄積されている教示対象とする映像から単位境界候補の検出を行う単位境界候補検出過程と、
    検出された単位境界候補の連続する単位境界候補で挟まれた映像区間の代表画像を選択する代表画像選択過程と、
    選択された代表画像をサムネイルとして映像の時間順に2次元に配置し、前記利用者が前記利用者の端末の該サムネイルもしくは該サムネイル近隣のボタンをクリックした場合に該当区間の初めから再生されるようにすることで、該利用者が映像を確認できるようにし、該サムネイルの近隣にその区間の開始境界を学習サンプルと指定することを可能とする入力欄を設けた教示画面を表示する教示画面表示過程と、
    を行なう請求項2記載の映像処理方法。
  5. 前記単位境界判定基準生成過程において、
    前記教示属性テーブルを情報論的に最適に表現する前記単位境界判定基準の獲得を、該教示属性テーブルを用いて学習することにより単位境界判定基準の決定木を生成することで行う請求項3記載の映像処理方法。
  6. 前記属性算出過程において、
    前記教示映像の単位境界候補に対して計算される1つもしくは複数の点属性は、
    ・その映像位置でシーンの切り替わりがあるかどうかを示す2値属性;
    ・その映像位置にテロップが出ているかどうかの2値属性;
    ・その映像位置でパン・チルト・ズーム等のカメラワークが行なわれているかどうかの2値属性;
    ・その映像位置で音楽が鳴っているかどうかを示す2値属性;
    ・その映像位置で人の音声があるかどうかを示す2値属性;
    ・その映像位置のフレーム画像の分類値を示す多値属性;
    である請求項3記載の映像処理方法。
  7. 前記属性算出過程において、
    前記教示映像の単位境界候補に対して計算される1つもしくは複数の領域属性は、
    ・その領域内でのカット点の頻度を示す多値属性;
    ・その領域内でのテロップ開始、終了、継続等のイベントの生起パターンを示す多値属性;
    ・その領域内でのカメラワーク開始、終了、継続等イベントの生起パターンを示す多値属性;
    ・その領域内での音声開始、終了、継続等イベントの生起パターンを示す多値属性;
    ・その領域内での音楽開始、終了、継続等イベントの生起パターンを示す多値属性;
    である請求項3記載の映像処理方法。
  8. 利用者が望む映像構成単位での、映像構成単位境界(以下、「単位境界」と記す)を検出する判定処理を行う装置における映像処理方法において、
    単位境界検出を行う映像(以下「検出対象映像」と記す)を検出対象映像データベースから読み込み、解析した解析結果と、教示処理及び学習処理を行う装置で生成された単位境界判定基準記憶手段に格納されている単位境界判定基準から単位境界を検出する判定処理過程を行うことを特徴とする映像処理方法。
  9. 前記判定処理過程において、
    前記検出対象映像データベースから読み込まれた前記検出対象映像の単位境界候補を検出する単位境界候補検出過程と、
    前記単位境界候補に対して、該単位境界候補に相対的にサンプリング位置を設け、該サンプリング位置での映像・音声特徴から計算する点属性と、該単位境界候補に相対的に領域を設け、該領域での映像・音声特徴から計算する領域属性をそれぞれ1つもしくは複数計算して、それらを単位境界かどうかの判定に使用する条件属性として判定属性テーブルに格納する属性算出過程と、
    前記判定属性テーブルに格納されている前記条件属性と、前記単位境界判定基準記憶手段に格納されている前記単位境界判定基準から、該単位境界候補が単位境界であるかどうかを判定する単位境界判定処理過程と、
    を行なう請求項8記載の映像処理方法。
  10. 前記属性算出過程において、
    前記教示映像の単位境界候補に対して計算される1つもしくは複数の点属性は、
    ・その映像位置でシーンの切り替わりがあるかどうかを示す2値属性;
    ・その映像位置にテロップが出ているかどうかの2値属性;
    ・その映像位置でパン・チルト・ズーム等のカメラワークが行なわれているかどうかの2値属性;
    ・その映像位置で音楽が鳴っているかどうかを示す2値属性;
    ・その映像位置で人の音声があるかどうかを示す2値属性;
    ・その映像位置のフレーム画像の分類値を示す多値属性;
    である請求項9記載の映像処理方法。
  11. 前記属性算出過程において、
    前記教示映像の単位境界候補に対して計算される1つもしくは複数の領域属性は、
    ・その領域内でのカット点の頻度を示す多値属性;
    ・その領域内でのテロップ開始、終了、継続等のイベントの生起パターンを示す多値属性;
    ・その領域内でのカメラワーク開始、終了、継続等イベントの生起パターンを示す多値属性;
    ・その領域内での音声開始、終了、継続等イベントの生起パターンを示す多値属性;
    ・その領域内での音楽開始、終了、継続等イベントの生起パターンを示す多値属性;
    である請求項9記載の映像処理方法。
  12. 利用者が望む映像構成単位での、映像構成単位境界(以下、「単位境界」と記す)を検出する教示処理及び学習処理を行う映像処理装置であって、
    教示により利用者の端末から単位境界情報と教示情報を獲得し、教示データベースに格納する教示処理手段と、
    前記教示データベースに格納されている教示に使用する映像(以下、「教示映像」と記す)の解析結果と、前記教示情報との間の関連を学習することにより単位境界判定基準を生成し、単位境界判定基準記憶手段に格納する学習処理手段と、
    を有することを特徴とする映像処理装置。
  13. 前記教示処理手段は、
    前記利用者が意図する境界が含まれている単位境界候補を前記利用者の端末に提示する単位境界候補提示手段と、
    前記単位境界候補から単位境界もしくは非単位境界の実例を、前記利用者の端末で選択させることにより、境界情報を獲得する単位境界指定手段と、
    を含む請求項12記載の映像処理装置。
  14. 前記学習処理手段は、
    前記教示映像の単位境界候補に対して、該単位境界候補に相対的にサンプリング位置を設け、該サンプリング位置での映像・音声特徴から計算する属性(以下、「点属性」と記す)と、該単位境界候補に相対的に領域を設け、該領域での映像・音声特徴から計算する属性(以下、「領域属性」と記す)をそれぞれ1つもしくは複数計算して、それらを単位境界かどうかの判定に使用する属性(以下、「条件属性」と記す)とし、教示サンプルとして前記利用者の端末で選択された各境界候補に対して、前記教示情報から単位境界であるか、非単位境界であるかを示す属性(以下、「目的属性」とする)を計算し、教示サンプルとして該利用者の端末で選択された各境界候補に対して該条件属性と該目的属性を並べたものを行とする教示属性テーブルを作成する属性算出手段と、
    前記教示属性テーブルを統計的もしくは情報論的に最適に表現する前記単位境界判定基準を学習により獲得し、前記単位境界判定基準記憶手段に格納する単位境界判定基準生成手段と、
    を含む請求項12記載の映像処理装置。
  15. 前記単位境界候補提示手段は、
    前記教示データベースに蓄積されている教示対象とする映像から単位境界候補の検出を行う単位境界候補検出手段と、
    検出された単位境界候補の連続する単位境界候補で挟まれた映像区間の代表画像を選択する代表画像選択手段と、
    選択された代表画像をサムネイルとして映像の時間順に2次元に配置し、前記利用者が前記利用者の端末の該サムネイルもしくは該サムネイル近隣のボタンをクリックした場合に該当区間の初めから再生されるようにすることで、該利用者が映像を確認できるようにし、該サムネイルの近隣にその区間の開始境界を学習サンプルと指定することを可能とする入力欄を設けた教示画面を表示する教示画面表示手段と、
    を含む請求項13記載の映像処理装置。
  16. 前記単位境界判定基準生成手段は、
    前記教示属性テーブルを情報論的に最適に表現する前記単位境界判定基準の獲得を、該教示属性テーブルを用いて学習することにより単位境界判定基準の決定木を生成することで行う手段を含む請求項14記載の映像処理装置。
  17. 前記属性算出手段は、
    前記教示映像の単位境界候補に対して計算される1つもしくは複数の点属性を、
    ・その映像位置でシーンの切り替わりがあるかどうかを示す2値属性;
    ・その映像位置にテロップが出ているかどうかの2値属性;
    ・その映像位置でパン・チルト・ズーム等のカメラワークが行なわれているかどうかの2値属性;
    ・その映像位置で音楽が鳴っているかどうかを示す2値属性;
    ・その映像位置で人の音声があるかどうかを示す2値属性;
    ・その映像位置のフレーム画像の分類値を示す多値属性;
    とする請求項14記載の映像処理装置。
  18. 前記属性算出手段は、
    前記教示映像の単位境界候補に対して計算される1つもしくは複数の領域属性を、
    ・その領域内でのカット点の頻度を示す多値属性;
    ・その領域内でのテロップ開始、終了、継続等のイベントの生起パターンを示す多値属性;
    ・その領域内でのカメラワーク開始、終了、継続等イベントの生起パターンを示す多値属性;
    ・その領域内での音声開始、終了、継続等イベントの生起パターンを示す多値属性;
    ・その領域内での音楽開始、終了、継続等イベントの生起パターンを示す多値属性;
    とする請求項14記載の映像処理装置。
  19. 利用者が望む映像構成単位での、映像構成単位境界(以下、「単位境界」と記す)を検出する判定処理を行う映像処理装置であって、
    単位境界検出を行う映像(以下「検出対象映像」と記す)を検出対象映像データベースから読み込み、解析した解析結果と、教示処理及び学習処理を行う装置で生成され、単位境界判定基準記憶手段に格納されている単位境界判定基準から単位境界を検出する判定処理手段を有することを特徴とする映像処理装置。
  20. 前記判定処理手段は、
    前記検出対象映像データベースから読み込まれた前記検出対象映像の単位境界候補を検出する単位境界候補検出手段と、
    前記単位境界候補に対して、該単位境界候補に相対的にサンプリング位置を設け、該サンプリング位置での映像・音声特徴から計算する点属性と、該単位境界候補に相対的に領域を設け、該領域での映像・音声特徴から計算する領域属性をそれぞれ1つもしくは複数計算して、それらを単位境界かどうかの判定に使用する条件属性として判定属性テーブルに格納する属性算出手段と、
    前記判定属性テーブルに格納されている前記条件属性と、前記単位境界判定基準記憶手段に格納されている前記単位境界判定基準から、該単位境界候補が単位境界であるかどうかを判定する単位境界判定処理手段と、
    を含む請求項19記載の映像処理装置。
  21. 前記属性算出手段は、
    前記教示映像の単位境界候補に対して計算される1つもしくは複数の点属性を、
    ・その映像位置でシーンの切り替わりがあるかどうかを示す2値属性;
    ・その映像位置にテロップが出ているかどうかの2値属性;
    ・その映像位置でパン・チルト・ズーム等のカメラワークが行なわれているかどうかの2値属性;
    ・その映像位置で音楽が鳴っているかどうかを示す2値属性;
    ・その映像位置で人の音声があるかどうかを示す2値属性;
    ・その映像位置のフレーム画像の分類値を示す多値属性;
    とする請求項20記載の映像処理装置。
  22. 前記属性算出手段は、
    前記教示映像の単位境界候補に対して計算される1つもしくは複数の領域属性を、
    ・その領域内でのカット点の頻度を示す多値属性;
    ・その領域内でのテロップ開始、終了、継続等のイベントの生起パターンを示す多値属性;
    ・その領域内でのカメラワーク開始、終了、継続等イベントの生起パターンを示す多値属性;
    ・その領域内での音声開始、終了、継続等イベントの生起パターンを示す多値属性;
    ・その領域内での音楽開始、終了、継続等イベントの生起パターンを示す多値属性;
    とする請求項20記載の映像処理装置。
  23. 利用者が望む映像構成単位での、映像構成単位境界(以下、「単位境界」と記す)を検出する教示処理及び学習処理を行う映像処理プログラムであって、
    前記請求項1乃至7記載の映像処理方法の実現に用いられる処理をコンピュータに実行させることを特徴とする映像処理プログラム。
  24. 利用者が望む映像構成単位での、映像構成単位境界(以下、「単位境界」と記す)を検出する判定処理を行う映像処理プログラムであって、
    前記請求項8乃至11記載の映像処理方法の実現に用いられる処理をコンピュータに実行させることを特徴とする映像処理プログラム。
JP2004229078A 2004-08-05 2004-08-05 映像処理方法及び装置及びプログラム Pending JP2006048405A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004229078A JP2006048405A (ja) 2004-08-05 2004-08-05 映像処理方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004229078A JP2006048405A (ja) 2004-08-05 2004-08-05 映像処理方法及び装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2006048405A true JP2006048405A (ja) 2006-02-16

Family

ID=36026884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004229078A Pending JP2006048405A (ja) 2004-08-05 2004-08-05 映像処理方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2006048405A (ja)

Similar Documents

Publication Publication Date Title
Boreczky et al. An interactive comic book presentation for exploring video
CN103702039B (zh) 图像编辑装置和图像编辑方法
US7945142B2 (en) Audio/visual editing tool
JP5091086B2 (ja) ビデオの短いセグメントを表示するための方法及びグラフィカルユーザインタフェース
Girgensohn et al. A semi-automatic approach to home video editing
CN112740713B (zh) 用于提供多媒体内容中的关键时刻的方法及其电子设备
JP2994177B2 (ja) ビデオ・セグメント間の境界部の位置を特定するためのシステム及び方法
JP3185505B2 (ja) 会議録作成支援装置
US20200314482A1 (en) Control method and apparatus
US6807361B1 (en) Interactive custom video creation system
US7181757B1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
US7487524B2 (en) Method and apparatus for presenting content of images
CN113709561A (zh) 视频剪辑方法、装置、设备及存储介质
EP2426917A1 (en) Display control device, display control method, and program
US9535991B2 (en) Video display for displaying a series of representative images for video
US20030117428A1 (en) Visual summary of audio-visual program features
JP2011217209A (ja) 電子機器、コンテンツ推薦方法及びプログラム
US8634708B2 (en) Method for creating a new summary of an audiovisual document that already includes a summary and reports and a receiver that can implement said method
JP4555214B2 (ja) 情報提示装置、情報提示方法、情報提示プログラム及び情報記録媒体
JP3579111B2 (ja) 情報処理装置
JP2001306579A (ja) 情報検索装置、情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006048405A (ja) 映像処理方法及び装置及びプログラム
JP4329603B2 (ja) 動画編集装置及び動画編集方法
Coimbra et al. The shape of the game
TWI823018B (zh) 建立影片圖譜的方法