JP2009201144A - ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法 - Google Patents
ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法 Download PDFInfo
- Publication number
- JP2009201144A JP2009201144A JP2009112979A JP2009112979A JP2009201144A JP 2009201144 A JP2009201144 A JP 2009201144A JP 2009112979 A JP2009112979 A JP 2009112979A JP 2009112979 A JP2009112979 A JP 2009112979A JP 2009201144 A JP2009201144 A JP 2009201144A
- Authority
- JP
- Japan
- Prior art keywords
- video
- importance
- shot
- svm
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/105—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
【課題】与えられたビデオで重要なビデオセグメントを抽出し、これから一連のキーフレームを抽出することによってビデオの内容を一目で把握して所望のビデオ場面を直ちにアクセスすることができるビデオ要約生成技術を提供する。
【解決手段】ファジー基盤One-Class SVMを利用することにより、効果的なビデオ要約生成のために人間の主観的な判断を反映し、使用者の環境や要求条件に合う柔軟な形態のビデオ要約情報を生成するための方案を提示し、さらに与えられたビデオで重要なビデオセグメントを抽出し、これから一連のキーフレームを抽出することによって、ビデオの内容を一目で把握して所望のビデオ場面を直ちにアクセスすることができる。
【選択図】図2
【解決手段】ファジー基盤One-Class SVMを利用することにより、効果的なビデオ要約生成のために人間の主観的な判断を反映し、使用者の環境や要求条件に合う柔軟な形態のビデオ要約情報を生成するための方案を提示し、さらに与えられたビデオで重要なビデオセグメントを抽出し、これから一連のキーフレームを抽出することによって、ビデオの内容を一目で把握して所望のビデオ場面を直ちにアクセスすることができる。
【選択図】図2
Description
本発明はビデオ要約技術に関し、特に、ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法に関するものである。
大容量マルチメディアデータベースの増加と通信及びデジタルメディア処理技術の発達に伴って幾多の動画ビデオが出現し、縮約された動画ビデオの要約情報を基盤とした検索サービスを通じて使用者の便宜と満足を満たすための努力が増大している。
しかし、現在まで大部分のビデオ縮約は人が直接介入して適切な場面やイメージを選び出す過程によって行われた。
最近、動画ビデオに関する多様な形態の事業が展開されながら、大量の動画ビデオを自動的に分析しようとする必要性が増大しており、その結果、このような問題を解決するための多くの研究が活発に行われている。
動画ビデオを縮約する方法には、ビデオスキミング(Video skimming)、ハイライト(highlight)とビデオ要約(summary)法がある。
ビデオスキミングは、ビデオとオーディオデータから抽出された重要な意味を持つ部分を連続的に連結し短いビデオシノプシスを生成する方法である。
ハイライトは、主に特定イベント中心に動画の興味深い一部分のみを選び出して縮約したものである。ビデオ要約は動画ビデオに関する意味のある内容と構造的な情報を抽出するためのもので、ビデオ要約の結果は一般に主要停止映像(キーフレーム)の連続した形態(sequence of key frames)で表現されるが、現在まで大部分の動画縮約に対する研究は主に動画要約情報生成をその目標としている。
キーフレームで表現されたビデオ要約はビデオ全体の内容を一目で把握できるようにするだけでなく、そのキーフレームを含んでいる場面(scenes または shot)の窓口(entries)役割を果たす。そのためビデオ要約作業を最適のキーフレーム選定、或いは最適のキーフレームが位置したセグメント選定の作業であると言え、普通色、動きなど視覚的に目立つ特徴がキーフレームを選択するのに重要な要件として利用される。
一方、ビデオ要約はその応用範囲によってショット水準(Shot-Based)の要約とセグメント水準(Segment-Based)の要約に分けることができる。
ショット基盤要約は比較的に少ない量のビデオ、つまり、ビデオクリップ(videoclip)を少数のキーフレームで示す方法であり、セグメント基盤要約は長いビデオ全体を要約する技術である。
セグメント基盤要約技術の応用範囲がさらに広い理由から、最近始まったセグメント基盤要約に対する研究がさらに活発に進められている。提案された本発明もセグメント基盤要約を目標としている。
分割されたビデオをセグメント単位で要約する方法は(a)時間窓内でショット間の相互関連性を分析して、相互関連性の高いショットを一つのストーリー単位(Story Unit、あるいはScene)として括るショットグルーピング(Shot Grouping)法と、(b)伝統的なクラスタリング法から得られたクラスタの性質を分析して、重要なクラスタを選択する方法がある。
これらの方法はどのような視覚特徴を使用するか、あるいはどのようなショットを代表として選択するかによってさらに細分化できる。
しかし、これらの方法が共通的に内包している重要な問題点があるが、それは代表性判断時に過剰に臨界値に依存するということである。つまり、特定臨界値を定めて、これに基づいてショットの代表性を判断している。例えば、ショットの重要度が臨界値以上であるもの、あるいは重要度が上位10%順位に入るものでショットを選定する。さらに、このような臨界値は実験的に決めている。しかし、ビデオ要約アルゴリズムが実験的臨界値に過剰に依存するようになることによって引き起こされる問題点は、ビデオ要約システムがいくつかの特定ビデオには非常に効果的であり得るが、多様なジャンルのビデオに適用するのは難しいということである。
また、このような問題は多様な種類のビデオ情報を扱う応用分野では致命的な欠陥となることがあり、また、実験的に最適の臨界値を定める作業もまた相当な費用を発生させる。
一方、動画ビデオ要約のためにキーフレームを選択するのには、可視的な視覚的特徴だけでなく、人間の判断に基づいた主観的な判断が重要な要素として作用することがある。
実際に、人が手動でビデオ縮約を行う場合、このような主観的判断を移入することによって、さらに共感できる動画要約を作り出せる。したがって、効果的なビデオ要約生成のためにはこのような主観的判断を動画縮約過程に反映できる研究が必要である。
また、より効率的にビデオ要約を生成するためには、使用者の環境を考慮して拡張可能なビデオ要約情報を生成する方案も工夫しなければならない。
そこで、本発明が目的とする技術的課題は、与えられたビデオから重要なビデオセグメントを抽出し、これから一連のキーフレームを抽出することによってビデオの内容を一目で把握して所望のビデオ場面を直ちにアクセスできるビデオ要約生成技術を提供することにある。
このために本発明では従来の方法で提起された様々な問題を解決するために、(a)画一化された臨界値に依存する方法から脱皮し、(b)人間の主観的は判断を反映することができ、(c)使用者の環境や要求条件に合う柔軟な形態のビデオ要約情報を生成するためのファジー基盤One-Class SVMを利用した動画自動要約装置及び方法を提供する。
このような課題を解決するための本発明の一つの特徴による動画自動要約装置は、使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れるための入力部と;動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する重要度測定モジュールと;ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成するビデオ要約生成モジュールとを含んで成る。
本発明の一つの特徴による動画自動要約装置において、特性支援ベクターアルゴリズムはOC-SVM(one-class support vector machines)アルゴリズムを利用することができ、さらにファジー基盤のOC-SVMアルゴリズムを利用することができる。
本発明の一つの特徴による動画自動要約装置では、全体ビデオソースをショット単位で抽出するショット検出モジュールをさらに含む。
本発明の一つの特徴による動画自動要約装置では、生成されたビデオ要約を画面上に出力する出力部と;生成されたビデオ要約を保存する保存部とをさらに含む。
本発明の一つの特徴による動画自動要約装置において、前記ビデオ要約生成モジュールは、前記ショット情報と前記重要度値に前記特性支援ベクターアルゴリズムを適用してビデオ要約を生成する特性支援ベクターモジュール;使用者から受け入れた要約時間情報に基づいて拡張性(scalability)処理を繰り返し行って、使用者が望む時間範囲に合致するビデオ要約を生成する拡張性処理モジュールとを含む。
本発明の一つの特徴による動画自動要約装置において、前記ショット検出モジュールは要約しようとする動画ビデオソースからショットを検出してショットリストを構成し、これを前記ビデオ要約生成モジュールへ送る。
本発明の一つの特徴による動画自動要約方法は、使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第1段階と;前記ビデオソースをショット単位で抽出する第2段階と;動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第3段階と;ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成する第4段階とを含んで成る。
本発明の他の特徴による動画自動要約方法は、使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第1段階と;動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第2段階と;ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成する第3段階と;生成されたビデオ要約を画面上に出力する第4段階と;生成されたビデオ要約を保存する第5段階とをさらに含んで成る。
本発明の一つの特徴による記録媒体は動画自動要約方法を記録した記録媒体であって、前記動画自動要約方法は、使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第1段階と;前記ビデオソースをショット単位で抽出する第2段階と;動画ビデオのジャンル別特性及び所望要約の目的に応じて重要度を算出する第3段階と;ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成する第4段階とを含んで成る。
本発明の実施例が応用分野に及ぼす効果は次の通りに説明できる。
ウェッブ文書検索における検索エンジンがウェッブページの要約情報を提供する。これは検索されたすべての結果に、いちいち訪問しなくても、その内容を推測できるから、情報を探す時間を減らすためである。
これと同様に、ビデオ要約の根本的な目的は、ビデオ全体を見なくてもその内容を把握できるようにして、情報アクセスの効率を極大化することにある。ビデオ情報量を考慮する時、ビデオ要約を自動的に生成する技術はテキストを要約する技術よりその重要性がさらに大きくなる。
さらに、帯域幅が制限されている無線環境では、少量のデータで主要情報を伝達できるビデオ要約技術は無線ビデオコンテンツ産業の核心技術として活用される。
本発明はまず、画一化された臨界値に依存する方法から抜け出して、ビデオ要約を“新規性検出(Novelty Detection)”問題として解釈する概念から出発する。つまり、与えられたビデオにおける視覚的特徴の異なるフレームと区別されるフレームをそのビデオを代表するフレームとして定義することである。
新規性検出(Novelty Detection)問題にはOC-SVMが優れた性能を示している。元来、SVM(Support Vector Machine)はラベル化したデータを利用してマシン(machine)を学習させた後、ラベル化されていない新たなデータが入ってきた時、正しい答を導き出す確率的学習理論(statistical learning theory)に基づいた学習方法の一種である。
伝統的な学習方法と異なって、構造的リスクを最少化することによって、ベクター空間における最適の決定境界領域を探し出す方法を使用し、主にパターン認識のような二進分類の問題で最近良い結果を示している。この中でもOC-SVM(One-class SVM)はSVMの決定境界領域に基づいたポジティブ/ネガティブ(positive/negative)の二つのクラスの中で、ラベル化されたポジティブクラスのデータ、つまり、目的とすることを最もよく表現できるデータを対象とする。例えば、テキスト検索やイメージ検索のような場合、全体検索対象データの中で、使用者が関心を持つ対象データの量はきわめて少ない。このような場合、重要なことは全体データでなく、関連した一部ポジティブサンプルである。
このようなOC-SVMは与えられたデータの分布を予測することでなく、与えられたデータを最もよく説明できる最適のサポートベクターを予測する技術である。
このようにOC-SVMは一般的な特性ベクター空間において、一層特異な特性ベクターを探し出すことに有用であるので、動画ビデオの幾多のフレームの中で独特な特徴を有するキーフレームを効果的に探知することができる。
しかし、OC-SVMによって所望のビデオ要約を得ることには限界がある。OC-SVMは単純な視覚的特性を反映したサポートベクターをその対象とするので、人間が判断できる主観的な要素-例えば、短く処理されたものよりは長く処理された場面がさらに重要な意味を伝達するとか、ニュースの場合にはアンカーマンが入っているセグメントは除いて要約情報を生成することが良いというなど-を反映することが難しく、たとえこれを反映する特性ベクターを定義しても、これを既存の視覚的特徴ベクターと結合する課題が残る。
本発明ではファジー理論のメンバーシップ関数定義によって、これら使用者の主観的重要性を反映しながら、統計的に特徴的なベクターを結合したファジー基盤OC-SVMを通じて全体的なサポートベクターを求める。
一方、ファジーOC-SVMは与えられたデータを囲む最小球(minimum sphere)を探す性質を利用すれば、使用者の環境を考慮した柔軟な形態の拡張可能なビデオ要約を生成することができる。つまり、最も外側にある表面上のベクターを先に抽出し、これを最上位要約として生成する。次に、この表面を剥離し、その後現在のデータを囲む球を探す。このようにして得られたベクターを先に求めたベクター集合と合わせることにより、詳細なビデオ要約を生成することができる。使用者の環境に応じてこのような過程を適切に繰り返すことによって、拡張可能なビデオ要約を生成することができる。このような拡張性は階層的クラスタリングアルゴリズムでも可能である。
しかし、本発明で提案された方法で各レベルで必要なベクターの数が最適に求められる反面、階層的クラスタリングアルゴリズムではクラスタリングの条件によって拡張作業が行われる差がある。
以下では添付した図面を参照して本発明の実施例について本発明が属する技術分野における通常の知識を有する者が容易に実施できるように詳しく説明する。しかし、本発明は様々で相異なる形態で実現することができ、ここで説明する実施例に限られない。図面で本発明を明確に説明するために説明に関係しない部分は省略した。明細書全体にわたって類似な部分については同一図面符号を付けた。
図1は本発明の実施例によるファジー基盤OC-SVMを利用した動画自動要約装置の構成図である。
図1に示すように、入力部40、ショット検出モジュール10、重要度測定モジュール20、ビデオ要約生成モジュール30、保存部60、出力部50を含む。入力部40はまず、使用者から二種の情報、つまり、1.要約しようとする動画ビデオソースと、2.所望の要約時間を受け入れる。ショット検出モジュール10は映画のような長い分量のビデオは主にセグメント水準の要約をするので、そのための先行作業として全体ビデオをショット単位で抽出する作業をショット検出モジュールで行う。万一、ビデオクリップ(video clip)のような少量のビデオを主な対象とする場合には、ショット検出モジュールを経なくてもよい。ショット検出モジュールは1.の要約しようとする動画ビデオソースからショットを検出してショットリストを構成し、これをビデオ要約生成モジュール30に送る。重要度測定モジュール20は動画ビデオのジャンル別特性、あるいは所望の要約目的によって重要度βjを算出する。この作業は人が手動でデータを入力したり、必要なDBから資料を持ってくるなど、その目的によって多様な方式で行うことができる。ビデオ要約生成モジュール30はショット情報と重要度値にファジーOC-SVMアルゴリズムを適用してビデオ要約VSを生成する。この時、使用者から入力を受けた要約時間情報に基づいて拡張性(scalability)処理を行うかどうかを決める。必要である場合、拡張性処理モジュール32を繰り返して行うことによって使用者が望む時間範囲に合致するビデオ要約を生成する。出力部50は生成されたビデオ要約を画面上に出力し、保存部60はその情報を保存する。
このような構成を有する本発明の実施例によるファジー基盤OC-SVMを利用した動画自動要約装置の動作について、以下に詳しく説明する。
図2は本発明の実施例によるファジー基盤OC-SVMを利用した動画自動要約装置の動作流れ図であって、ファジー(Fuzzy)基盤OC-SVMを利用した動画自動要約技法”を適用して要約作業を行う全過程を記している。
図2を参照しながら各作業別に動作を詳しく説明する。
(0) 先行作業
ビデオ要約の前に先行しなければならない作業は、一連のビデオフレームを分析してショット単位で抽出する作業であり、これはショット検出モジュール10によって行われる。これはビデオコンテンツを構成する定形化された個別フレームイメージから、視覚的特性を抽出し、これに基づいてそれぞれのフレーム間の類似度を比較することによって、時間上あるいは空間上に連続的な動作を表現するショットという単位に分割する作業である。しかし、このようなショット境界線検出(Shot Boundary Detection)が完全ではないためにビデオ分割せずにフレーム単位から伝統的なHAC(Hierarchical Agglomerative Clustering)やK-Means Clustering法を使用することもある。以下で説明する要約作業はこのように分割された一連のセグメントを基盤とする。
ビデオ要約の前に先行しなければならない作業は、一連のビデオフレームを分析してショット単位で抽出する作業であり、これはショット検出モジュール10によって行われる。これはビデオコンテンツを構成する定形化された個別フレームイメージから、視覚的特性を抽出し、これに基づいてそれぞれのフレーム間の類似度を比較することによって、時間上あるいは空間上に連続的な動作を表現するショットという単位に分割する作業である。しかし、このようなショット境界線検出(Shot Boundary Detection)が完全ではないためにビデオ分割せずにフレーム単位から伝統的なHAC(Hierarchical Agglomerative Clustering)やK-Means Clustering法を使用することもある。以下で説明する要約作業はこのように分割された一連のセグメントを基盤とする。
(1) 重要度測定
重要度検出モジュール20は重要度を検出し、重要度はビデオセグメントに対する使用者の主観的観点を反映して使用者に応じて多様に定義できる。本発明で定義された重要度βjは当該セグメントに対する重要度を示し、その範囲はβ∈(0,1)にする。ここではより容易に理解するために、いくつかの例を挙げてこれを説明する。
重要度検出モジュール20は重要度を検出し、重要度はビデオセグメントに対する使用者の主観的観点を反映して使用者に応じて多様に定義できる。本発明で定義された重要度βjは当該セグメントに対する重要度を示し、その範囲はβ∈(0,1)にする。ここではより容易に理解するために、いくつかの例を挙げてこれを説明する。
ここで、durationはセグメントjの長さを示す。一方、βjが0より小さいか同一であれば、非常に小さい値に(例えば0.001)、βjが1より大きければ1に調整する。
(1-2)使用者の選好度に応じて指定された場合
例えば、使用者がビデオセグメントの中で特定セグメントを指定するか、そうでなければ、他のビデオソースで既に保存されたビデオセグメントを指定した後、指定されたセグメントと同じセグメントがビデオ要約に含まれていないことを望む場合の重要度は次の数式2のように決定できる。
例えば、使用者がビデオセグメントの中で特定セグメントを指定するか、そうでなければ、他のビデオソースで既に保存されたビデオセグメントを指定した後、指定されたセグメントと同じセグメントがビデオ要約に含まれていないことを望む場合の重要度は次の数式2のように決定できる。
ここで、sim(x,y)は特徴ベクターx、yで表される二つのセグメント間の類似度であり、uは使用者が指定したセグメントの特徴ベクターである。
ここで、xは支援ベクター(support vector)である。数式6のように一般的なQuadratic Programmingで簡単にaの値が求められる。Quadratic Programmingで得られた結果値aの中で、その値が0より大きければ、我々はそれに相当する特徴ベクターxを支援ベクターと呼ぶ。
を満足しなければならない。
ここで、xは支援ベクターであり、βは当該支援ベクターxの重要度である。
(3)ビデオ要約への適用
ファジーOC-SVMアルゴリズム数式11において、定数値で表現されたCの値を調整して支援ベクターの数を調節することができる。万一、C=1である場合、OC-SVMではアウトライアー(outlier)を許容しないので、すべての特徴ベクターを含む最小球を探す。したがって、ビデオ要約では与えられた全ての特徴ベクターを含む最小球を得るためにCを1と仮定する。ここで、求められた最小球は球の中心ベクターaと半径Rで示される。この時、0より大きい値を有するaに対する特徴ベクターのサポートベクターは球の表面積に置かれる。このように表面積に置かれた特徴ベクターのセグメントからキーフレームを抽出してOC-SVMモジュール31はビデオ要約に使用する。
ファジーOC-SVMアルゴリズム数式11において、定数値で表現されたCの値を調整して支援ベクターの数を調節することができる。万一、C=1である場合、OC-SVMではアウトライアー(outlier)を許容しないので、すべての特徴ベクターを含む最小球を探す。したがって、ビデオ要約では与えられた全ての特徴ベクターを含む最小球を得るためにCを1と仮定する。ここで、求められた最小球は球の中心ベクターaと半径Rで示される。この時、0より大きい値を有するaに対する特徴ベクターのサポートベクターは球の表面積に置かれる。このように表面積に置かれた特徴ベクターのセグメントからキーフレームを抽出してOC-SVMモジュール31はビデオ要約に使用する。
(4)拡張可能なビデオ要約
ファジーOC-SVMの目的が最小球を探すことにあるという点を利用する。図3の概念図はこれをよく説明している。
ファジーOC-SVMの目的が最小球を探すことにあるという点を利用する。図3の概念図はこれをよく説明している。
図3を参照すれば、まず、OC-SVMモジュール31が最初の表面積に置かれたサポートベクターを収集してビデオ要約を構成する。万一、このように収集されたビデオ要約で十分でなければ、図3の概念図でのように拡張性モジュール32が最外層を構成している球を除去する(玉ねぎの皮を剥ぐように)。残っている特徴ベクターに再びファジーOC-SVMを適用すれば、図3における最外側から一層だけ内側に位置している球が得られる。
この新たな球から新たなサポートベクターを得ることができる。この新たなサポートベクターに相当するセグメントを最初に求めたビデオ要約に追加すれば、さらに詳細な要約情報も得ることができる。この時、最初段階のビデオセグメントと第2番目に追加されたセグメントとの間で視覚的に重複感を与えることがあるので、これを検証した後に追加させる。このように拡張性モジュール32が最外層に位置している球から一つずつ除去する作業を原本ビデオセグメントが完全に消耗するまで、あるいは特定条件が満足されるまで繰り返し続けることによって拡張可能なビデオ要約を生成することができる。このような過程を整理すれば、次の通りである。
入力:重要度情報であるβ値と特徴ベクターで構成されたセグメントデータ
段階1:入力データに対して式(4’)のC=1としてQuadratic Programmingでaを求める。
段階1:入力データに対して式(4’)のC=1としてQuadratic Programmingでaを求める。
段階2:段階1における0<aの条件を満足するビデオセグメントのキーフレーム集合を求める。この時、それに相当する特徴ベクターを入力データから除去する。
段階3:
Case1:現在ループ(loop)に最初に入ってきた場合
段階2で得られたキーフレームでビデオ要約(VS:Video Summary)を構成して段階4へ行く。
Case1:現在ループ(loop)に最初に入ってきた場合
段階2で得られたキーフレームでビデオ要約(VS:Video Summary)を構成して段階4へ行く。
Case2:最初でなければ、セグメントの重要度βによって非昇冪順に整列した連続したキーフレームのシークエンスTSが完全に除去されるまで次を繰り返す。
TSから一つを除去した後、当該キーフレームが属したセグメントと隣接するセグメントが(隣接するセグメントは分割された原本ビデオから求める)現在のVSに属しているかどうかを確認する。
1.属していない場合、直前にTSから除去されたキーフレームをVSに追加する。
2.属している場合、最少類似度が臨界値以下である場合にのみ追加する。
段階4:段階2で支援ベクターが除去されたデータを入力データとして段階1へ行く(あるいは、既に考慮された任意の特定終了条件が満足されない場合、段階1に戻ってキーフレーム抽出を継続し、満足する場合、過程を終了することもできる)。
前記のような流れによってビデオ要約を生成するFuzzy OC-SVMシステムをそれぞれ映画とミュージックビデオに適用して本実験結果を図4及び図5に示した。
図4及び図5の図表に示すように、任意の臨界値によって一定に固定された長さの主要場面を生成するものではなく、何回かの反復作業を通じて動画ビデオに現れる主要イベントを90%以上含む主要場面を構成しビデオ要約を生成することができる。
本発明に記されたfuzzy one-class SVMを利用したビデオ要約生成技術は、ビデオ要約においてセグメントに対する使用者の主観的重要度とセグメントの視覚的特徴を同時に考慮して与えられたビデオの内容を描写することができる最適のセグメントを抽出する技術であって、従来の臨界値に過剰に依存したビデオ要約方式を画期的に改善して、多様なビデオ特性に合う最適の臨界値を探し出し、それによって適切なビデオ要約を生成する。
このように生成されたビデオ要約は出力部50によって画面上に表示し、保存部60はその出力情報を保存する。
一方、本発明は上述した実施例にのみ限られるものではなく、本発明の要旨から逸脱しない範囲内で修正または変形して実施することができる。以上に説明した内容を通じて当業者であれば、本発明の技術思想を逸脱しない範囲内で多様な変更と修正実施が可能であることが分かる。
Claims (14)
- 使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れるための入力部と;
動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する重要度測定モジュールと;
ショット情報と重要度から特性ベクターを得て、これを利用してビデオ要約を生成するビデオ要約生成モジュールとを含み、
前記特性ベクターはOC-SVM(one-class support vector machines)により探知される、動画自動要約装置。 - 前記特性ベクターはファジー基盤のOC-SVMにより探知される、請求項1に記載の動画自動要約装置。
- 全体ビデオソースをショット単位で抽出するショット検出モジュールをさらに含む、請求項1に記載の動画自動要約装置。
- 生成されたビデオ要約を画面上に出力する出力部と;
生成されたビデオ要約を保存する保存部とを含む、請求項1乃至3のいずれか1項に記載の動画自動要約装置。 - 前記ビデオ要約生成モジュールは、
前記ショット情報と前記重要度に前記特性ベクターを適用してビデオ要約を生成する特性ベクターモジュールと;
使用者から受け入れた要約時間情報に基づいて拡張性処理を繰り返して行って、使用者が望む時間範囲に合致するビデオ要約を生成する拡張性処理モジュールを含む、請求項4に記載の動画自動要約装置。 - 前記ショット検出モジュールは要約しようとする動画ビデオソースからショットを検出してショットリストを構成し、これを前記ビデオ要約生成モジュールへ送ることを特徴とする、請求項5に記載の動画自動要約装置。
- 使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第1段階と;
前記ビデオソースをショット単位で抽出する第2段階と;
動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第3段階と;
ショット情報と重要度から特性ベクターを得て、これを利用してビデオ要約を生成する第4段階とを含み、
前記特性ベクターはOC-SVM(one-class support vector machines) により探知される、動画自動要約方法。 - 前記特性ベクターはファジー基盤のOC-SVMにより探知される、請求項7に記載の動画自動要約方法。
- 生成されたビデオ要約を画面上に出力する第5段階と;
生成されたビデオ要約を保存する第6段階とをさらに含む、請求項7または8に記載の動画自動要約方法。 - 前記第4段階は前記ショット情報と前記重要度に前記特性ベクターを適用してビデオ要約を生成し、使用者から受け入れた要約時間情報に基づいて拡張性処理を繰り返して行って、使用者が望む時間範囲を有するビデオ要約を生成することを特徴とする、請求項9に記載の動画自動要約方法。
- 使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第1段階と;
動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第2段階と;
ショット情報と重要度から特性ベクターを得て、これを利用してビデオ要約を生成する第3段階と;
生成されたビデオ要約を画面上に出力する第4段階と;
生成されたビデオ要約を保存する第5段階とを含み、
前記特性ベクターはOC-SVM(one-class support vector machines) により探知される、動画自動要約方法。 - 前記特性ベクターはファジー基盤のOC-SVMにより探知される、請求項11に記載の動画自動要約方法。
- 動画自動要約方法を記録した記録媒体であって、
使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第1段階と;
前記ビデオソースをショット単位で抽出する第2段階と;
動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第3段階と;
ショット情報と重要度から特性ベクターを得て、これを利用してビデオ要約を生成する第4段階とを含む機能が実現され、
前記特性ベクターはOC-SVM(one-class support vector machines) により探知されるプログラムを保存した記録媒体。 - 前記特性ベクターはファジー基盤のOC-SVMにより探知される、請求項13に記載のプログラムを保存した記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030042613A KR100708337B1 (ko) | 2003-06-27 | 2003-06-27 | 퍼지 기반 oc―svm을 이용한 동영상 자동 요약 장치및 방법 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006516954A Division JP4965250B2 (ja) | 2003-06-27 | 2004-06-28 | ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009201144A true JP2009201144A (ja) | 2009-09-03 |
Family
ID=33550203
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006516954A Expired - Fee Related JP4965250B2 (ja) | 2003-06-27 | 2004-06-28 | ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法 |
JP2009112979A Pending JP2009201144A (ja) | 2003-06-27 | 2009-05-07 | ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006516954A Expired - Fee Related JP4965250B2 (ja) | 2003-06-27 | 2004-06-28 | ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8238672B2 (ja) |
JP (2) | JP4965250B2 (ja) |
KR (1) | KR100708337B1 (ja) |
CN (1) | CN1842867B (ja) |
HK (1) | HK1097645A1 (ja) |
WO (1) | WO2005001838A1 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8458754B2 (en) | 2001-01-22 | 2013-06-04 | Sony Computer Entertainment Inc. | Method and system for providing instant start multimedia content |
CN100360901C (zh) * | 2005-09-19 | 2008-01-09 | 西安理工大学 | 基于模糊核函数支持向量机的空气预热器热点检测方法 |
KR100718351B1 (ko) | 2005-09-28 | 2007-05-14 | 주식회사 팬택 | 동영상 파일의 요약 재생 시스템 및 이를 탑재한 이동통신단말기 |
WO2007127695A2 (en) | 2006-04-25 | 2007-11-08 | Elmo Weber Frank | Prefernce based automatic media summarization |
US8000533B2 (en) | 2006-11-14 | 2011-08-16 | Microsoft Corporation | Space-time video montage |
US8503523B2 (en) * | 2007-06-29 | 2013-08-06 | Microsoft Corporation | Forming a representation of a video item and use thereof |
US9483405B2 (en) | 2007-09-20 | 2016-11-01 | Sony Interactive Entertainment Inc. | Simplified run-time program translation for emulating complex processor pipelines |
US20090150784A1 (en) * | 2007-12-07 | 2009-06-11 | Microsoft Corporation | User interface for previewing video items |
US20100293072A1 (en) * | 2009-05-13 | 2010-11-18 | David Murrant | Preserving the Integrity of Segments of Audio Streams |
US8370288B2 (en) | 2009-07-20 | 2013-02-05 | Sony Computer Entertainment America Llc | Summarizing a body of media by assembling selected summaries |
JP5436367B2 (ja) * | 2009-09-29 | 2014-03-05 | 富士フイルム株式会社 | グラフィック配置決定方法ならびにそのプログラムおよび情報処理装置 |
US8126987B2 (en) | 2009-11-16 | 2012-02-28 | Sony Computer Entertainment Inc. | Mediation of content-related services |
US8433759B2 (en) | 2010-05-24 | 2013-04-30 | Sony Computer Entertainment America Llc | Direction-conscious information sharing |
US8520088B2 (en) * | 2010-05-25 | 2013-08-27 | Intellectual Ventures Fund 83 Llc | Storing a video summary as metadata |
US8786597B2 (en) | 2010-06-30 | 2014-07-22 | International Business Machines Corporation | Management of a history of a meeting |
US8687941B2 (en) | 2010-10-29 | 2014-04-01 | International Business Machines Corporation | Automatic static video summarization |
US20120197630A1 (en) * | 2011-01-28 | 2012-08-02 | Lyons Kenton M | Methods and systems to summarize a source text as a function of contextual information |
JP6023058B2 (ja) * | 2011-08-29 | 2016-11-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 画像処理装置、画像処理方法、プログラム、集積回路 |
US8914452B2 (en) | 2012-05-31 | 2014-12-16 | International Business Machines Corporation | Automatically generating a personalized digest of meetings |
CN102902756B (zh) * | 2012-09-24 | 2016-02-03 | 南京邮电大学 | 一种基于故事情节的视频摘要提取方法 |
US9639762B2 (en) * | 2014-09-04 | 2017-05-02 | Intel Corporation | Real time video summarization |
US10462519B2 (en) | 2015-06-19 | 2019-10-29 | Disney Enterprises, Inc. | Generating dynamic temporal versions of content |
CN106469315B (zh) * | 2016-09-05 | 2019-12-27 | 南京理工大学 | 基于改进One-Class SVM算法的多模复合探测目标识别方法 |
AU2018271424A1 (en) | 2017-12-13 | 2019-06-27 | Playable Pty Ltd | System and Method for Algorithmic Editing of Video Content |
CN110366050A (zh) * | 2018-04-10 | 2019-10-22 | 北京搜狗科技发展有限公司 | 视频数据的处理方法、装置、电子设备及存储介质 |
CN110753269B (zh) * | 2018-07-24 | 2022-05-03 | Tcl科技集团股份有限公司 | 视频摘要生成方法、智能终端及存储介质 |
US11200425B2 (en) | 2018-09-21 | 2021-12-14 | Samsung Electronics Co., Ltd. | Method for providing key moments in multimedia content and electronic device thereof |
CN110418191A (zh) * | 2019-06-24 | 2019-11-05 | 华为技术有限公司 | 一种短视频的生成方法及装置 |
CN113099128B (zh) * | 2021-04-08 | 2022-09-13 | 杭州竖品文化创意有限公司 | 一种视频处理方法与视频处理系统 |
JP2022169009A (ja) * | 2021-04-27 | 2022-11-09 | 国立大学法人 東京大学 | プログラム、情報処理方法及び情報処理装置 |
CN114697761B (zh) * | 2022-04-07 | 2024-02-13 | 脸萌有限公司 | 一种处理方法、装置、终端设备及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002251197A (ja) * | 2000-12-12 | 2002-09-06 | Nec Corp | オーディオビジュアルサマリ作成方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5664227A (en) * | 1994-10-14 | 1997-09-02 | Carnegie Mellon University | System and method for skimming digital audio/video data |
US6134344A (en) * | 1997-06-26 | 2000-10-17 | Lucent Technologies Inc. | Method and apparatus for improving the efficiency of support vector machines |
US6535639B1 (en) * | 1999-03-12 | 2003-03-18 | Fuji Xerox Co., Ltd. | Automatic video summarization using a measure of shot importance and a frame-packing method |
US6331859B1 (en) * | 1999-04-06 | 2001-12-18 | Sharp Laboratories Of America, Inc. | Video skimming system utilizing the vector rank filter |
SE9902328A0 (sv) * | 1999-06-18 | 2000-12-19 | Ericsson Telefon Ab L M | Förfarande och system för att alstra sammanfattad video |
US7028325B1 (en) * | 1999-09-13 | 2006-04-11 | Microsoft Corporation | Annotating programs for automatic summary generation |
US6964021B2 (en) * | 2000-08-19 | 2005-11-08 | Lg Electronics Inc. | Method and apparatus for skimming video data |
KR100403238B1 (ko) * | 2000-09-30 | 2003-10-30 | 엘지전자 주식회사 | 비디오의 지능형 빨리 보기 시스템 |
US20020083471A1 (en) * | 2000-12-21 | 2002-06-27 | Philips Electronics North America Corporation | System and method for providing a multimedia summary of a video program |
KR100492093B1 (ko) * | 2001-07-13 | 2005-06-01 | 삼성전자주식회사 | 영상데이터의 요약정보 제공시스템 및 방법 |
US7069259B2 (en) * | 2002-06-28 | 2006-06-27 | Microsoft Corporation | Multi-attribute specification of preferences about people, priorities and privacy for guiding messaging and communications |
GB0221925D0 (en) * | 2002-09-20 | 2002-10-30 | Neural Technologies Ltd | A system for the retrospective classification of archived events |
US20040088723A1 (en) * | 2002-11-01 | 2004-05-06 | Yu-Fei Ma | Systems and methods for generating a video summary |
US7636479B2 (en) * | 2004-02-24 | 2009-12-22 | Trw Automotive U.S. Llc | Method and apparatus for controlling classification and classification switching in a vision system |
-
2003
- 2003-06-27 KR KR1020030042613A patent/KR100708337B1/ko not_active IP Right Cessation
-
2004
- 2004-06-28 WO PCT/KR2004/001568 patent/WO2005001838A1/en active Application Filing
- 2004-06-28 JP JP2006516954A patent/JP4965250B2/ja not_active Expired - Fee Related
- 2004-06-28 CN CN2004800244388A patent/CN1842867B/zh not_active Expired - Fee Related
- 2004-06-28 US US10/562,606 patent/US8238672B2/en active Active
-
2007
- 2007-04-04 HK HK07103656.2A patent/HK1097645A1/xx not_active IP Right Cessation
-
2009
- 2009-05-07 JP JP2009112979A patent/JP2009201144A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002251197A (ja) * | 2000-12-12 | 2002-09-06 | Nec Corp | オーディオビジュアルサマリ作成方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4965250B2 (ja) | 2012-07-04 |
US8238672B2 (en) | 2012-08-07 |
CN1842867A (zh) | 2006-10-04 |
HK1097645A1 (en) | 2007-06-29 |
KR20050000483A (ko) | 2005-01-05 |
JP2007528622A (ja) | 2007-10-11 |
US20070046669A1 (en) | 2007-03-01 |
WO2005001838A1 (en) | 2005-01-06 |
KR100708337B1 (ko) | 2007-04-17 |
CN1842867B (zh) | 2010-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4965250B2 (ja) | ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法 | |
Kumar et al. | Eratosthenes sieve based key-frame extraction technique for event summarization in videos | |
CN112163122B (zh) | 确定目标视频的标签的方法、装置、计算设备及存储介质 | |
EP1999753B1 (en) | Video abstraction | |
US9432702B2 (en) | System and method for video program recognition | |
Mussel Cirne et al. | VISCOM: A robust video summarization approach using color co-occurrence matrices | |
US20070030391A1 (en) | Apparatus, medium, and method segmenting video sequences based on topic | |
Sreeja et al. | Towards genre-specific frameworks for video summarisation: A survey | |
Wang et al. | A multimodal scheme for program segmentation and representation in broadcast video streams | |
CN111314732A (zh) | 确定视频标签的方法、服务器及存储介质 | |
Rimaz et al. | Exploring the power of visual features for the recommendation of movies | |
KR20090020005A (ko) | 영상 정보 기반의 동영상 연관 검색 시스템 및 방법 | |
Wang et al. | Real-time summarization of user-generated videos based on semantic recognition | |
Jin et al. | Network video summarization based on key frame extraction via superpixel segmentation | |
Narasimha et al. | Key frame extraction using MPEG-7 motion descriptors | |
Lu et al. | Semantic video summarization using mutual reinforcement principle and shot arrangement patterns | |
Zhu et al. | Automatic scene detection for advanced story retrieval | |
Koźbiał et al. | Collection, analysis and summarization of video content | |
Choi et al. | A framework for automatic static and dynamic video thumbnail extraction | |
Tapu et al. | TV news retrieval based on story segmentation and concept association | |
Niu et al. | Real-time generation of personalized home video summaries on mobile devices | |
Sousa e Santos et al. | Video temporal segmentation based on color histograms and cross-correlation | |
Dong et al. | Advanced news video parsing via visual characteristics of anchorperson scenes | |
Shambharkar et al. | Automatic classification of movie trailers using data mining techniques: A review | |
Dhanushree et al. | Static video summarization with multi-objective constrained optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090608 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111220 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120522 |