JP2007528622A - ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法 - Google Patents

ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法 Download PDF

Info

Publication number
JP2007528622A
JP2007528622A JP2006516954A JP2006516954A JP2007528622A JP 2007528622 A JP2007528622 A JP 2007528622A JP 2006516954 A JP2006516954 A JP 2006516954A JP 2006516954 A JP2006516954 A JP 2006516954A JP 2007528622 A JP2007528622 A JP 2007528622A
Authority
JP
Japan
Prior art keywords
video
support vector
algorithm
shot
automatic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006516954A
Other languages
English (en)
Other versions
JP4965250B2 (ja
Inventor
チョイ、ユン−シク
リ、サン−ユン
キム、スン−ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KT Corp
Original Assignee
KT Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KT Corp filed Critical KT Corp
Publication of JP2007528622A publication Critical patent/JP2007528622A/ja
Application granted granted Critical
Publication of JP4965250B2 publication Critical patent/JP4965250B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】与えられたビデオで重要なビデオセグメントを抽出し、これから一連のキーフレームを抽出することによってビデオの内容を一目で把握して所望のビデオ場面を直ちにアクセスすることができるビデオ要約生成技術を提供する。
このために、従来の方法で提起された様々な問題を解決するために、(a)画一化された臨界値に依存する方法から脱皮し、(b)人間の主観的は判断を反映することができ、(c)使用者の環境や要求条件に合う柔軟な形態のビデオ要約情報を生成するためのファジー基盤One-Class SVMを利用した動画自動要約装置及び方法を提供する。
【解決手段】本発明はファジー基盤OC-SVMを利用した動画自動要約装置及び方法に関するものである。本願によれば、効果的なビデオ要約生成のために人間の主観的な判断を反映し、使用者の環境や要求条件に合う柔軟な形態のビデオ要約情報を生成するための方案を提示し、さらに与えられたビデオで重要なビデオセグメントを抽出し、これから一連のキーフレームを抽出することによって、ビデオの内容を一目で把握して所望のビデオ場面を直ちにアクセスすることができる。
【選択図】 図2

Description

本発明はビデオ要約技術に関し、特に、ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法に関するものである。
大容量マルチメディアデータベースの増加と通信及びデジタルメディア処理技術の発達に伴って幾多の動画ビデオが出現し、縮約された動画ビデオの要約情報を基盤とした検索サービスを通じて使用者の便宜と満足を満たすための努力が増大している。
しかし、現在まで大部分のビデオ縮約は人が直接介入して適切な場面やイメージを選び出す過程によって行われた。
最近、動画ビデオに関する多様な形態の事業が展開されながら、大量の動画ビデオを自動的に分析しようとする必要性が増大しており、その結果、このような問題を解決するための多くの研究が活発に行われている。
動画ビデオを縮約する方法には、ビデオスキミング(Video skimming)、ハイライト(highlight)とビデオ要約(summary)法がある。
ビデオスキミングは、ビデオとオーディオデータから抽出された重要な意味を持つ部分を連続的に連結し短いビデオシノプシスを生成する方法である。
ハイライトは、主に特定イベント中心に動画の興味深い一部分のみを選び出して縮約したものである。ビデオ要約は動画ビデオに関する意味のある内容と構造的な情報を抽出するためのもので、ビデオ要約の結果は一般に主要停止映像(キーフレーム)の連続した形態(sequence of key frames)で表現されるが、現在まで大部分の動画縮約に対する研究は主に動画要約情報生成をその目標としている。
キーフレームで表現されたビデオ要約はビデオ全体の内容を一目で把握できるようにするだけでなく、そのキーフレームを含んでいる場面(scenes または shot)の窓口(entries)役割を果たす。そのためビデオ要約作業を最適のキーフレーム選定、或いは最適のキーフレームが位置したセグメント選定の作業であると言え、普通色、動きなど視覚的に目立つ特徴がキーフレームを選択するのに重要な要件として利用される。
一方、ビデオ要約はその応用範囲によってショット水準(Shot-Based)の要約とセグメント水準(Segment-Based)の要約に分けることができる。
ショット基盤要約は比較的に少ない量のビデオ、つまり、ビデオクリップ(videoclip)を少数のキーフレームで示す方法であり、セグメント基盤要約は長いビデオ全体を要約する技術である。
セグメント基盤要約技術の応用範囲がさらに広い理由から、最近始まったセグメント基盤要約に対する研究がさらに活発に進められている。提案された本発明もセグメント基盤要約を目標としている。
分割されたビデオをセグメント単位で要約する方法は(a)時間窓内でショット間の相互関連性を分析して、相互関連性の高いショットを一つのストーリー単位(Story Unit、あるいはScene)として括るショットグルーピング(Shot Grouping)法と、(b)伝統的なクラスタリング法から得られたクラスタの性質を分析して、重要なクラスタを選択する方法がある。
これらの方法はどのような視覚特徴を使用するか、あるいはどのようなショットを代表として選択するかによってさらに細分化できる。
しかし、これらの方法が共通的に内包している重要な問題点があるが、それは代表性判断時に過剰に臨界値に依存するということである。つまり、特定臨界値を定めて、これに基づいてショットの代表性を判断している。例えば、ショットの重要度が臨界値以上であるもの、あるいは重要度が上位10%順位に入るものでショットを選定する。さらに、このような臨界値は実験的に決めている。しかし、ビデオ要約アルゴリズムが実験的臨界値に過剰に依存するようになることによって引き起こされる問題点は、ビデオ要約システムがいくつかの特定ビデオには非常に効果的であり得るが、多様なジャンルのビデオに適用するのは難しいということである。
また、このような問題は多様な種類のビデオ情報を扱う応用分野では致命的な欠陥となることがあり、また、実験的に最適の臨界値を定める作業もまた相当な費用を発生させる。
一方、動画ビデオ要約のためにキーフレームを選択するのには、可視的な視覚的特徴だけでなく、人間の判断に基づいた主観的な判断が重要な要素として作用することがある。
実際に、人が手動でビデオ縮約を行う場合、このような主観的判断を移入することによって、さらに共感できる動画要約を作り出せる。したがって、効果的なビデオ要約生成のためにはこのような主観的判断を動画縮約過程に反映できる研究が必要である。
また、より効率的にビデオ要約を生成するためには、使用者の環境を考慮して拡張可能なビデオ要約情報を生成する方案も工夫しなければならない。
そこで、本発明が目的とする技術的課題は、与えられたビデオから重要なビデオセグメントを抽出し、これから一連のキーフレームを抽出することによってビデオの内容を一目で把握して所望のビデオ場面を直ちにアクセスできるビデオ要約生成技術を提供することにある。
このために本発明では従来の方法で提起された様々な問題を解決するために、(a)画一化された臨界値に依存する方法から脱皮し、(b)人間の主観的は判断を反映することができ、(c)使用者の環境や要求条件に合う柔軟な形態のビデオ要約情報を生成するためのファジー基盤One-Class SVMを利用した動画自動要約装置及び方法を提供する。
このような課題を解決するための本発明の一つの特徴による動画自動要約装置は、使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れるための入力部と;動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する重要度測定モジュールと;ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成するビデオ要約生成モジュールとを含んで成る。
本発明の一つの特徴による動画自動要約装置において、特性支援ベクターアルゴリズムはOC-SVM(one-class support vector machines)アルゴリズムを利用することができ、さらにファジー基盤のOC-SVMアルゴリズムを利用することができる。
本発明の一つの特徴による動画自動要約装置では、全体ビデオソースをショット単位で抽出するショット検出モジュールをさらに含む。
本発明の一つの特徴による動画自動要約装置では、生成されたビデオ要約を画面上に出力する出力部と;生成されたビデオ要約を保存する保存部とをさらに含む。
本発明の一つの特徴による動画自動要約装置において、前記ビデオ要約生成モジュールは、前記ショット情報と前記重要度値に前記特性支援ベクターアルゴリズムを適用してビデオ要約を生成する特性支援ベクターモジュール;使用者から受け入れた要約時間情報に基づいて拡張性(scalability)処理を繰り返し行って、使用者が望む時間範囲に合致するビデオ要約を生成する拡張性処理モジュールとを含む。
本発明の一つの特徴による動画自動要約装置において、前記ショット検出モジュールは要約しようとする動画ビデオソースからショットを検出してショットリストを構成し、これを前記ビデオ要約生成モジュールへ送る。
本発明の一つの特徴による動画自動要約方法は、使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第1段階と;前記ビデオソースをショット単位で抽出する第2段階と;動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第3段階と;ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成する第4段階とを含んで成る。
本発明の他の特徴による動画自動要約方法は、使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第1段階と;動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第2段階と;ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成する第3段階と;生成されたビデオ要約を画面上に出力する第4段階と;生成されたビデオ要約を保存する第5段階とをさらに含んで成る。
本発明の一つの特徴による記録媒体は動画自動要約方法を記録した記録媒体であって、前記動画自動要約方法は、使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第1段階と;前記ビデオソースをショット単位で抽出する第2段階と;動画ビデオのジャンル別特性及び所望要約の目的に応じて重要度を算出する第3段階と;ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成する第4段階とを含んで成る。
本発明の実施例が応用分野に及ぼす効果は次の通りに説明できる。
ウェッブ文書検索における検索エンジンがウェッブページの要約情報を提供する。これは検索されたすべての結果に、いちいち訪問しなくても、その内容を推測できるから、情報を探す時間を減らすためである。
これと同様に、ビデオ要約の根本的な目的は、ビデオ全体を見なくてもその内容を把握できるようにして、情報アクセスの効率を極大化することにある。ビデオ情報量を考慮する時、ビデオ要約を自動的に生成する技術はテキストを要約する技術よりその重要性がさらに大きくなる。
さらに、帯域幅が制限されている無線環境では、少量のデータで主要情報を伝達できるビデオ要約技術は無線ビデオコンテンツ産業の核心技術として活用される。
本発明はまず、画一化された臨界値に依存する方法から抜け出して、ビデオ要約を“新規性検出(Novelty Detection)”問題として解釈する概念から出発する。つまり、与えられたビデオにおける視覚的特徴の異なるフレームと区別されるフレームをそのビデオを代表するフレームとして定義することである。
新規性検出(Novelty Detection)問題にはOC-SVMが優れた性能を示している。元来、SVM(Support Vector Machine)はラベル化したデータを利用してマシン(machine)を学習させた後、ラベル化されていない新たなデータが入ってきた時、正しい答を導き出す確率的学習理論(statistical learning theory)に基づいた学習方法の一種である。
伝統的な学習方法と異なって、構造的リスクを最少化することによって、ベクター空間における最適の決定境界領域を探し出す方法を使用し、主にパターン認識のような二進分類の問題で最近良い結果を示している。この中でもOC-SVM(One-class SVM)はSVMの決定境界領域に基づいたポジティブ/ネガティブ(positive/negative)の二つのクラスの中で、ラベル化されたポジティブクラスのデータ、つまり、目的とすることを最もよく表現できるデータを対象とする。例えば、テキスト検索やイメージ検索のような場合、全体検索対象データの中で、使用者が関心を持つ対象データの量はきわめて少ない。このような場合、重要なことは全体データでなく、関連した一部ポジティブサンプルである。
このようなOC-SVMは与えられたデータの分布を予測することでなく、与えられたデータを最もよく説明できる最適のサポートベクターを予測する技術である。
このようにOC-SVMは一般的な特性ベクター空間において、一層特異な特性ベクターを探し出すことに有用であるので、動画ビデオの幾多のフレームの中で独特な特徴を有するキーフレームを効果的に探知することができる。
しかし、OC-SVMによって所望のビデオ要約を得ることには限界がある。OC-SVMは単純な視覚的特性を反映したサポートベクターをその対象とするので、人間が判断できる主観的な要素-例えば、短く処理されたものよりは長く処理された場面がさらに重要な意味を伝達するとか、ニュースの場合にはアンカーマンが入っているセグメントは除いて要約情報を生成することが良いというなど-を反映することが難しく、たとえこれを反映する特性ベクターを定義しても、これを既存の視覚的特徴ベクターと結合する課題が残る。
本発明ではファジー理論のメンバーシップ関数定義によって、これら使用者の主観的重要性を反映しながら、統計的に特徴的なベクターを結合したファジー基盤OC-SVMを通じて全体的なサポートベクターを求める。
一方、ファジーOC-SVMは与えられたデータを囲む最小球(minimum sphere)を探す性質を利用すれば、使用者の環境を考慮した柔軟な形態の拡張可能なビデオ要約を生成することができる。つまり、最も外側にある表面上のベクターを先に抽出し、これを最上位要約として生成する。次に、この表面を剥離し、その後現在のデータを囲む球を探す。このようにして得られたベクターを先に求めたベクター集合と合わせることにより、詳細なビデオ要約を生成することができる。使用者の環境に応じてこのような過程を適切に繰り返すことによって、拡張可能なビデオ要約を生成することができる。このような拡張性は階層的クラスタリングアルゴリズムでも可能である。
しかし、本発明で提案された方法で各レベルで必要なベクターの数が最適に求められる反面、階層的クラスタリングアルゴリズムではクラスタリングの条件によって拡張作業が行われる差がある。
以下では添付した図面を参照して本発明の実施例について本発明が属する技術分野における通常の知識を有する者が容易に実施できるように詳しく説明する。しかし、本発明は様々で相異なる形態で実現することができ、ここで説明する実施例に限られない。図面で本発明を明確に説明するために説明に関係しない部分は省略した。明細書全体にわたって類似な部分については同一図面符号を付けた。
図1は本発明の実施例によるファジー基盤OC-SVMを利用した動画自動要約装置の構成図である。
図1に示すように、入力部40、ショット検出モジュール10、重要度測定モジュール20、ビデオ要約生成モジュール30、保存部60、出力部50を含む。入力部40はまず、使用者から二種の情報、つまり、1.要約しようとする動画ビデオソースと、2.所望の要約時間を受け入れる。ショット検出モジュール10は映画のような長い分量のビデオは主にセグメント水準の要約をするので、そのための先行作業として全体ビデオをショット単位で抽出する作業をショット検出モジュールで行う。万一、ビデオクリップ(video clip)のような少量のビデオを主な対象とする場合には、ショット検出モジュールを経なくてもよい。ショット検出モジュールは1.の要約しようとする動画ビデオソースからショットを検出してショットリストを構成し、これをビデオ要約生成モジュール30に送る。重要度測定モジュール20は動画ビデオのジャンル別特性、あるいは所望の要約目的によって重要度βjを算出する。この作業は人が手動でデータを入力したり、必要なDBから資料を持ってくるなど、その目的によって多様な方式で行うことができる。ビデオ要約生成モジュール30はショット情報と重要度値にファジーOC-SVMアルゴリズムを適用してビデオ要約VSを生成する。この時、使用者から入力を受けた要約時間情報に基づいて拡張性(scalability)処理を行うかどうかを決める。必要である場合、拡張性処理モジュール32を繰り返して行うことによって使用者が望む時間範囲に合致するビデオ要約を生成する。出力部50は生成されたビデオ要約を画面上に出力し、保存部60はその情報を保存する。
このような構成を有する本発明の実施例によるファジー基盤OC-SVMを利用した動画自動要約装置の動作について、以下に詳しく説明する。
図2は本発明の実施例によるファジー基盤OC-SVMを利用した動画自動要約装置の動作流れ図であって、ファジー(Fuzzy)基盤OC-SVMを利用した動画自動要約技法”を適用して要約作業を行う全過程を記している。
図2を参照しながら各作業別に動作を詳しく説明する。
(0) 先行作業
ビデオ要約の前に先行しなければならない作業は、一連のビデオフレームを分析してショット単位で抽出する作業であり、これはショット検出モジュール10によって行われる。これはビデオコンテンツを構成する定形化された個別フレームイメージから、視覚的特性を抽出し、これに基づいてそれぞれのフレーム間の類似度を比較することによって、時間上あるいは空間上に連続的な動作を表現するショットという単位に分割する作業である。しかし、このようなショット境界線検出(Shot Boundary Detection)が完全ではないためにビデオ分割せずにフレーム単位から伝統的なHAC(Hierarchical Agglomerative Clustering)やK-Means Clustering法を使用することもある。以下で説明する要約作業はこのように分割された一連のセグメントを基盤とする。
(1) 重要度測定
重要度検出モジュール20は重要度を検出し、重要度はビデオセグメントに対する使用者の主観的観点を反映して使用者に応じて多様に定義できる。本発明で定義された重要度βjは当該セグメントに対する重要度を示し、その範囲はβ∈(0,1)にする。ここではより容易に理解するために、いくつかの例を挙げてこれを説明する。
(1-1)セグメント長さを考慮した場合
ビデオセグメントの平均長さをm、そして標準偏差をσとする時、次の数式1のようにセグメントに対する重要度を示すことができる。
Figure 2007528622
ここで、durationはセグメントjの長さを示す。一方、βjが0より小さいか同一であれば、非常に小さい値に(例えば0.001)、βjが1より大きければ1に調整する。
(1-2)使用者の選好度に応じて指定された場合
例えば、使用者がビデオセグメントの中で特定セグメントを指定するか、そうでなければ、他のビデオソースで既に保存されたビデオセグメントを指定した後、指定されたセグメントと同じセグメントがビデオ要約に含まれていないことを望む場合の重要度は次の数式2のように決定できる。
Figure 2007528622
ここで、sim(x,y)は特徴ベクターx、yで表される二つのセグメント間の類似度であり、uは使用者が指定したセグメントの特徴ベクターである。
(2)Fuzzy One-Class Support Vector Machineアルゴリズム
(2-1)既存のOC-SVMアルゴリズム
OC-SVMアルゴリズムは次の通りである。
Figure 2007528622
この時、OC-SVMは次のような目的関数を最少化するためのものである。つまり、全てのfeature vectorΦ(xj)を含む最小球を探すことである。
Figure 2007528622
Figure 2007528622
Figure 2007528622
数式7のようなKKT条件を利用して最小球の半径Rは数式8のように求められる。
Figure 2007528622
Figure 2007528622
ここで、xは支援ベクター(support vector)である。数式6のように一般的なQuadratic Programmingで簡単にaの値が求められる。Quadratic Programmingで得られた結果値aの中で、その値が0より大きければ、我々はそれに相当する特徴ベクターxを支援ベクターと呼ぶ。
(2-2)fuzzy OC-SVMアルゴリズム
(2-1)のOC-SVMアルゴリズムに対して(1)の重要度を結合したfuzzy OC-SVMアルゴリズムでは次のように最小球を探すことができる。
Figure 2007528622
Figure 2007528622
Lを微分した結果を利用して次のようなdual problemでも、
Figure 2007528622
を満足しなければならない。
また、KKT条件は、数式12の通りである。
Figure 2007528622
このような過程によってファジーOC-SVMを適用した時、最小球の半径Rは次のように求められる。
Figure 2007528622
ここで、xは支援ベクターであり、βは当該支援ベクターxの重要度である。
(3)ビデオ要約への適用
ファジーOC-SVMアルゴリズム数式11において、定数値で表現されたCの値を調整して支援ベクターの数を調節することができる。万一、C=1である場合、OC-SVMではアウトライアー(outlier)を許容しないので、すべての特徴ベクターを含む最小球を探す。したがって、ビデオ要約では与えられた全ての特徴ベクターを含む最小球を得るためにCを1と仮定する。ここで、求められた最小球は球の中心ベクターaと半径Rで示される。この時、0より大きい値を有するaに対する特徴ベクターのサポートベクターは球の表面積に置かれる。このように表面積に置かれた特徴ベクターのセグメントからキーフレームを抽出してOC-SVMモジュール31はビデオ要約に使用する。
(4)拡張可能なビデオ要約
ファジーOC-SVMの目的が最小球を探すことにあるという点を利用する。図3の概念図はこれをよく説明している。
図3を参照すれば、まず、OC-SVMモジュール31が最初の表面積に置かれたサポートベクターを収集してビデオ要約を構成する。万一、このように収集されたビデオ要約で十分でなければ、図3の概念図でのように拡張性モジュール32が最外層を構成している球を除去する(玉ねぎの皮を剥ぐように)。残っている特徴ベクターに再びファジーOC-SVMを適用すれば、図3における最外側から一層だけ内側に位置している球が得られる。
この新たな球から新たなサポートベクターを得ることができる。この新たなサポートベクターに相当するセグメントを最初に求めたビデオ要約に追加すれば、さらに詳細な要約情報も得ることができる。この時、最初段階のビデオセグメントと第2番目に追加されたセグメントとの間で視覚的に重複感を与えることがあるので、これを検証した後に追加させる。このように拡張性モジュール32が最外層に位置している球から一つずつ除去する作業を原本ビデオセグメントが完全に消耗するまで、あるいは特定条件が満足されるまで繰り返し続けることによって拡張可能なビデオ要約を生成することができる。このような過程を整理すれば、次の通りである。
入力:重要度情報であるβ値と特徴ベクターで構成されたセグメントデータ
段階1:入力データに対して式(4’)のC=1としてQuadratic Programmingでaを求める。
段階2:段階1における0<aの条件を満足するビデオセグメントのキーフレーム集合を求める。この時、それに相当する特徴ベクターを入力データから除去する。
段階3:
Case1:現在ループ(loop)に最初に入ってきた場合
段階2で得られたキーフレームでビデオ要約(VS:Video Summary)を構成して段階4へ行く。
Case2:最初でなければ、セグメントの重要度βによって非昇冪順に整列した連続したキーフレームのシークエンスTSが完全に除去されるまで次を繰り返す。
TSから一つを除去した後、当該キーフレームが属したセグメントと隣接するセグメントが(隣接するセグメントは分割された原本ビデオから求める)現在のVSに属しているかどうかを確認する。
1. 属していない場合、直前にTSから除去されたキーフレームをVSに追加する。
2. 属している場合、最少類似度が臨界値以下である場合にのみ追加する。
段階4:段階2で支援ベクターが除去されたデータを入力データとして段階1へ行く(あるいは、既に考慮された任意の特定終了条件が満足されない場合、段階1に戻ってキーフレーム抽出を継続し、満足する場合、過程を終了することもできる)。
前記のような流れによってビデオ要約を生成するFuzzy OC-SVMシステムをそれぞれ映画とミュージックビデオに適用して本実験結果を図4及び図5に示した。
図4及び図5の図表に示すように、任意の臨界値によって一定に固定された長さの主要場面を生成するものではなく、何回かの反復作業を通じて動画ビデオに現れる主要イベントを90%以上含む主要場面を構成しビデオ要約を生成することができる。
本発明に記されたfuzzy one-class SVMを利用したビデオ要約生成技術は、ビデオ要約においてセグメントに対する使用者の主観的重要度とセグメントの視覚的特徴を同時に考慮して与えられたビデオの内容を描写することができる最適のセグメントを抽出する技術であって、従来の臨界値に過剰に依存したビデオ要約方式を画期的に改善して、多様なビデオ特性に合う最適の臨界値を探し出し、それによって適切なビデオ要約を生成する。
このように生成されたビデオ要約は出力部50によって画面上に表示し、保存部60はその出力情報を保存する。
一方、本発明は上述した実施例にのみ限られるものではなく、本発明の要旨から逸脱しない範囲内で修正または変形して実施することができる。以上に説明した内容を通じて当業者であれば、本発明の技術思想を逸脱しない範囲内で多様な変更と修正実施が可能であることが分かる。
本発明の実施例によるファジー基盤OC-SVMを利用した動画自動要約装置の構成図である。 本発明の実施例によるファジー基盤OC-SVMを利用した動画自動要約装置の動作流れ図である。 拡張可能な要約情報生成に適用するための拡張可能な新規性検出(scalable Novelty Detection)を説明するための概念図である。 映画に対する実験結果であって、主要セグメント抽出の反復による(全体セグメント対比)増加する主要セグメントの比率とこれらセグメントが全体ビデオイベントを占める比率に対する図表である。 ミュージックビデオに対する実験結果であって、主要セグメント抽出の反復による(全体セグメント対比)増加する主要セグメントの比率とこれらセグメントが全体ビデオイベントを占める比率に対する図表である。

Claims (18)

  1. 使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れるための入力部と;
    動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する重要度測定モジュールと;
    ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成するビデオ要約生成モジュールを含む動画自動要約装置。
  2. 前記特性支援ベクターアルゴリズムはOC-SVM(one-class support vector machines)アルゴリズムである、請求項1に記載の動画自動要約装置。
  3. 前記特性支援ベクターアルゴリズムはファジー基盤のOC-SVMアルゴリズムである、請求項1に記載の動画自動要約装置。
  4. 全体ビデオソースをショット単位で抽出するショット検出モジュールをさらに含む、請求項1に記載の動画自動要約装置。
  5. 生成されたビデオ要約を画面上に出力する出力部と;
    生成されたビデオ要約を保存する保存部とを含む、請求項1乃至4のいずれか1項に記載の動画自動要約装置。
  6. 前記ビデオ要約生成モジュールは、
    前記ショット情報と前記重要度値に前記特性支援ベクターアルゴリズムを適用してビデオ要約を生成する特性支援ベクターモジュールと;
    使用者から受け入れた要約時間情報に基づいて拡張性処理を繰り返して行って、使用者が望む時間範囲に合致するビデオ要約を生成する拡張性処理モジュールを含む、請求項5に記載の動画自動要約装置。
  7. 前記ショット検出モジュールは要約しようとする動画ビデオソースからショットを検出してショットリストを構成し、これを前記ビデオ要約生成モジュールへ送ることを特徴とする、請求項6に記載の動画自動要約装置。
  8. 使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第1段階と;
    前記ビデオソースをショット単位で抽出する第2段階と;
    動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第3段階と;
    ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成する第4段階とを含む動画自動要約方法。
  9. 前記特性支援ベクターアルゴリズムはOC-SVM(one-class support vector machines)アルゴリズムである、請求項8に記載の動画自動要約方法。
  10. 前記特性支援ベクターアルゴリズムはファジー基盤のOC-SVMアルゴリズムである、請求項8に記載の動画自動要約方法。
  11. 生成されたビデオ要約を画面上に出力する第5段階と;
    生成されたビデオ要約を保存する第6段階とをさらに含む、請求項8乃至10のいずれか1項に記載の動画自動要約方法。
  12. 前記第4段階は前記ショット情報と前記重要度値に前記特性支援ベクターアルゴリズムを適用してビデオ要約を生成し、使用者から受け入れた要約時間情報に基づいて拡張性処理を繰り返して行って、使用者が望む時間範囲を有するビデオ要約を生成することを特徴とする、請求項11に記載の動画自動要約方法。
  13. 使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第1段階と;
    動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第2段階と;
    ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成する第3段階と;
    生成されたビデオ要約を画面上に出力する第4段階と;
    生成されたビデオ要約を保存する第5段階をさらに含む動画自動要約方法。
  14. 前記特性支援ベクターアルゴリズムはOC-SVM(one-class support vector machines)アルゴリズムである、請求項13に記載の動画自動要約方法。
  15. 前記特性支援ベクターアルゴリズムはファジー基盤のOC-SVMアルゴリズムである、請求項13に記載の動画自動要約方法。
  16. 動画自動要約方法を記録した記録媒体であって、
    使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第1段階と;
    前記ビデオソースをショット単位で抽出する第2段階と;
    動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第3段階と;
    ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成する第4段階とを含む機能が実現されたプログラムを保存した記録媒体。
  17. 前記特性支援ベクターアルゴリズムはOC-SVM(one-class support vector machines)アルゴリズムである、請求項16に記載のプログラムを保存した記録媒体。
  18. 前記特性支援ベクターアルゴリズムはファジー基盤のOC-SVMアルゴリズムである、請求項16に記載のプログラムを保存した記録媒体。
JP2006516954A 2003-06-27 2004-06-28 ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法 Expired - Fee Related JP4965250B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020030042613A KR100708337B1 (ko) 2003-06-27 2003-06-27 퍼지 기반 oc―svm을 이용한 동영상 자동 요약 장치및 방법
KR10-2003-0042613 2003-06-27
PCT/KR2004/001568 WO2005001838A1 (en) 2003-06-27 2004-06-28 Apparatus and method for automatic video summarization using fuzzy one-class support vector machines

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009112979A Division JP2009201144A (ja) 2003-06-27 2009-05-07 ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法

Publications (2)

Publication Number Publication Date
JP2007528622A true JP2007528622A (ja) 2007-10-11
JP4965250B2 JP4965250B2 (ja) 2012-07-04

Family

ID=33550203

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2006516954A Expired - Fee Related JP4965250B2 (ja) 2003-06-27 2004-06-28 ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法
JP2009112979A Pending JP2009201144A (ja) 2003-06-27 2009-05-07 ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2009112979A Pending JP2009201144A (ja) 2003-06-27 2009-05-07 ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法

Country Status (6)

Country Link
US (1) US8238672B2 (ja)
JP (2) JP4965250B2 (ja)
KR (1) KR100708337B1 (ja)
CN (1) CN1842867B (ja)
HK (1) HK1097645A1 (ja)
WO (1) WO2005001838A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017526086A (ja) * 2014-09-04 2017-09-07 インテル コーポレイション リアル・タイム・ビデオ要約
WO2022230777A1 (ja) * 2021-04-27 2022-11-03 国立大学法人東京大学 情報処理方法、コンピュータ読み取り可能な非一時的な記憶媒体及び情報処理装置

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8458754B2 (en) 2001-01-22 2013-06-04 Sony Computer Entertainment Inc. Method and system for providing instant start multimedia content
CN100360901C (zh) * 2005-09-19 2008-01-09 西安理工大学 基于模糊核函数支持向量机的空气预热器热点检测方法
KR100718351B1 (ko) 2005-09-28 2007-05-14 주식회사 팬택 동영상 파일의 요약 재생 시스템 및 이를 탑재한 이동통신단말기
WO2007127695A2 (en) 2006-04-25 2007-11-08 Elmo Weber Frank Prefernce based automatic media summarization
US8000533B2 (en) 2006-11-14 2011-08-16 Microsoft Corporation Space-time video montage
US8503523B2 (en) * 2007-06-29 2013-08-06 Microsoft Corporation Forming a representation of a video item and use thereof
US9483405B2 (en) 2007-09-20 2016-11-01 Sony Interactive Entertainment Inc. Simplified run-time program translation for emulating complex processor pipelines
US20090150784A1 (en) * 2007-12-07 2009-06-11 Microsoft Corporation User interface for previewing video items
US20100293072A1 (en) * 2009-05-13 2010-11-18 David Murrant Preserving the Integrity of Segments of Audio Streams
US8370288B2 (en) 2009-07-20 2013-02-05 Sony Computer Entertainment America Llc Summarizing a body of media by assembling selected summaries
JP5436367B2 (ja) * 2009-09-29 2014-03-05 富士フイルム株式会社 グラフィック配置決定方法ならびにそのプログラムおよび情報処理装置
US8126987B2 (en) 2009-11-16 2012-02-28 Sony Computer Entertainment Inc. Mediation of content-related services
US8433759B2 (en) 2010-05-24 2013-04-30 Sony Computer Entertainment America Llc Direction-conscious information sharing
US8520088B2 (en) * 2010-05-25 2013-08-27 Intellectual Ventures Fund 83 Llc Storing a video summary as metadata
US8786597B2 (en) 2010-06-30 2014-07-22 International Business Machines Corporation Management of a history of a meeting
US8687941B2 (en) 2010-10-29 2014-04-01 International Business Machines Corporation Automatic static video summarization
US20120197630A1 (en) * 2011-01-28 2012-08-02 Lyons Kenton M Methods and systems to summarize a source text as a function of contextual information
JP6023058B2 (ja) * 2011-08-29 2016-11-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像処理装置、画像処理方法、プログラム、集積回路
US8914452B2 (en) 2012-05-31 2014-12-16 International Business Machines Corporation Automatically generating a personalized digest of meetings
CN102902756B (zh) * 2012-09-24 2016-02-03 南京邮电大学 一种基于故事情节的视频摘要提取方法
US10462519B2 (en) 2015-06-19 2019-10-29 Disney Enterprises, Inc. Generating dynamic temporal versions of content
CN106469315B (zh) * 2016-09-05 2019-12-27 南京理工大学 基于改进One-Class SVM算法的多模复合探测目标识别方法
AU2018271424A1 (en) 2017-12-13 2019-06-27 Playable Pty Ltd System and Method for Algorithmic Editing of Video Content
CN110366050A (zh) * 2018-04-10 2019-10-22 北京搜狗科技发展有限公司 视频数据的处理方法、装置、电子设备及存储介质
CN110753269B (zh) * 2018-07-24 2022-05-03 Tcl科技集团股份有限公司 视频摘要生成方法、智能终端及存储介质
US11200425B2 (en) 2018-09-21 2021-12-14 Samsung Electronics Co., Ltd. Method for providing key moments in multimedia content and electronic device thereof
CN110418191A (zh) * 2019-06-24 2019-11-05 华为技术有限公司 一种短视频的生成方法及装置
CN113099128B (zh) * 2021-04-08 2022-09-13 杭州竖品文化创意有限公司 一种视频处理方法与视频处理系统
CN114697761B (zh) * 2022-04-07 2024-02-13 脸萌有限公司 一种处理方法、装置、终端设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1173406A (ja) * 1997-06-26 1999-03-16 Lucent Technol Inc サポートベクトル機械を使用する方法
JP2000293543A (ja) * 1999-04-06 2000-10-20 Sharp Corp 動画要約生成方法及び動画要約生成装置
JP2000308008A (ja) * 1999-03-12 2000-11-02 Fuji Xerox Co Ltd ビデオのセグメント重要度を決定する方法及びフレーム・セットを限定領域にパックする方法
JP2002251197A (ja) * 2000-12-12 2002-09-06 Nec Corp オーディオビジュアルサマリ作成方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664227A (en) * 1994-10-14 1997-09-02 Carnegie Mellon University System and method for skimming digital audio/video data
SE9902328A0 (sv) * 1999-06-18 2000-12-19 Ericsson Telefon Ab L M Förfarande och system för att alstra sammanfattad video
US7028325B1 (en) * 1999-09-13 2006-04-11 Microsoft Corporation Annotating programs for automatic summary generation
US6964021B2 (en) * 2000-08-19 2005-11-08 Lg Electronics Inc. Method and apparatus for skimming video data
KR100403238B1 (ko) * 2000-09-30 2003-10-30 엘지전자 주식회사 비디오의 지능형 빨리 보기 시스템
US20020083471A1 (en) * 2000-12-21 2002-06-27 Philips Electronics North America Corporation System and method for providing a multimedia summary of a video program
KR100492093B1 (ko) * 2001-07-13 2005-06-01 삼성전자주식회사 영상데이터의 요약정보 제공시스템 및 방법
US7069259B2 (en) * 2002-06-28 2006-06-27 Microsoft Corporation Multi-attribute specification of preferences about people, priorities and privacy for guiding messaging and communications
GB0221925D0 (en) * 2002-09-20 2002-10-30 Neural Technologies Ltd A system for the retrospective classification of archived events
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
US7636479B2 (en) * 2004-02-24 2009-12-22 Trw Automotive U.S. Llc Method and apparatus for controlling classification and classification switching in a vision system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1173406A (ja) * 1997-06-26 1999-03-16 Lucent Technol Inc サポートベクトル機械を使用する方法
JP2000308008A (ja) * 1999-03-12 2000-11-02 Fuji Xerox Co Ltd ビデオのセグメント重要度を決定する方法及びフレーム・セットを限定領域にパックする方法
JP2000293543A (ja) * 1999-04-06 2000-10-20 Sharp Corp 動画要約生成方法及び動画要約生成装置
JP2002251197A (ja) * 2000-12-12 2002-09-06 Nec Corp オーディオビジュアルサマリ作成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017526086A (ja) * 2014-09-04 2017-09-07 インテル コーポレイション リアル・タイム・ビデオ要約
WO2022230777A1 (ja) * 2021-04-27 2022-11-03 国立大学法人東京大学 情報処理方法、コンピュータ読み取り可能な非一時的な記憶媒体及び情報処理装置

Also Published As

Publication number Publication date
JP4965250B2 (ja) 2012-07-04
US8238672B2 (en) 2012-08-07
CN1842867A (zh) 2006-10-04
HK1097645A1 (en) 2007-06-29
KR20050000483A (ko) 2005-01-05
US20070046669A1 (en) 2007-03-01
WO2005001838A1 (en) 2005-01-06
JP2009201144A (ja) 2009-09-03
KR100708337B1 (ko) 2007-04-17
CN1842867B (zh) 2010-06-16

Similar Documents

Publication Publication Date Title
JP4965250B2 (ja) ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法
Kumar et al. Eratosthenes sieve based key-frame extraction technique for event summarization in videos
US10528821B2 (en) Video segmentation techniques
CN112163122B (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
EP1999753B1 (en) Video abstraction
US8316301B2 (en) Apparatus, medium, and method segmenting video sequences based on topic
US9432702B2 (en) System and method for video program recognition
US7986842B2 (en) Collective media annotation using undirected random field models
Mei et al. Probabilistic multimodality fusion for event based home photo clustering
Sreeja et al. Towards genre-specific frameworks for video summarisation: A survey
Rimaz et al. Exploring the power of visual features for the recommendation of movies
Kuzovkin et al. Context in photo albums: Understanding and modeling user behavior in clustering and selection
Lu et al. Semantic video summarization using mutual reinforcement principle and shot arrangement patterns
Barbieri et al. Content selection criteria for news multi-video summarization based on human strategies
Koźbiał et al. Collection, analysis and summarization of video content
Zhu et al. Automatic scene detection for advanced story retrieval
Gao et al. Cast2face: assigning character names onto faces in movie with actor-character correspondence
Sousa e Santos et al. Video temporal segmentation based on color histograms and cross-correlation
Rozsa et al. TV News Database Indexing System with Video Structure Analysis, Representative Images Extractions and OCR for News Titles
KR100642888B1 (ko) 스토리 이해 가능한 서사 구조 중심의 비디오 요약생성방법 및 그 방법을 구현하기 위한 프로그램이 저장된기록매체
Dhanushree et al. Static video summarization with multi-objective constrained optimization
Manzato et al. An enhanced content selection mechanism for personalization of video news programmes
Park et al. Key frame extraction based on shot coverage and distortion
Yang et al. Improved quality keyframe selection method for hd video
Zhang et al. Aesthetics-guided graph clustering with absent modalities imputation

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080826

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081126

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120329

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees