JP2009201144A

JP2009201144A - ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法

Info

Publication number: JP2009201144A
Application number: JP2009112979A
Authority: JP
Inventors: Young-Sik Choi; ユン−シク・チョイ; Sang Youn Lee; サン−ユン・リ; Sun Jeong Kim; スン−ジョン・キム
Original assignee: KT Corp
Current assignee: KT Corp
Priority date: 2003-06-27
Filing date: 2009-05-07
Publication date: 2009-09-03
Also published as: JP4965250B2; US8238672B2; CN1842867A; HK1097645A1; KR20050000483A; JP2007528622A; US20070046669A1; WO2005001838A1; KR100708337B1; CN1842867B

Abstract

【課題】与えられたビデオで重要なビデオセグメントを抽出し、これから一連のキーフレームを抽出することによってビデオの内容を一目で把握して所望のビデオ場面を直ちにアクセスすることができるビデオ要約生成技術を提供する。
【解決手段】ファジー基盤Ｏｎｅ-ＣｌａｓｓＳＶＭを利用することにより、効果的なビデオ要約生成のために人間の主観的な判断を反映し、使用者の環境や要求条件に合う柔軟な形態のビデオ要約情報を生成するための方案を提示し、さらに与えられたビデオで重要なビデオセグメントを抽出し、これから一連のキーフレームを抽出することによって、ビデオの内容を一目で把握して所望のビデオ場面を直ちにアクセスすることができる。
【選択図】図２

Description

本発明はビデオ要約技術に関し、特に、ファジー基盤特性支援ベクターを利用した動画自動要約装置及び方法に関するものである。

大容量マルチメディアデータベースの増加と通信及びデジタルメディア処理技術の発達に伴って幾多の動画ビデオが出現し、縮約された動画ビデオの要約情報を基盤とした検索サービスを通じて使用者の便宜と満足を満たすための努力が増大している。

しかし、現在まで大部分のビデオ縮約は人が直接介入して適切な場面やイメージを選び出す過程によって行われた。

最近、動画ビデオに関する多様な形態の事業が展開されながら、大量の動画ビデオを自動的に分析しようとする必要性が増大しており、その結果、このような問題を解決するための多くの研究が活発に行われている。

動画ビデオを縮約する方法には、ビデオスキミング（Ｖｉｄｅｏｓｋｉｍｍｉｎｇ）、ハイライト（ｈｉｇｈｌｉｇｈｔ）とビデオ要約（ｓｕｍｍａｒｙ）法がある。

ビデオスキミングは、ビデオとオーディオデータから抽出された重要な意味を持つ部分を連続的に連結し短いビデオシノプシスを生成する方法である。

ハイライトは、主に特定イベント中心に動画の興味深い一部分のみを選び出して縮約したものである。ビデオ要約は動画ビデオに関する意味のある内容と構造的な情報を抽出するためのもので、ビデオ要約の結果は一般に主要停止映像（キーフレーム）の連続した形態（ｓｅｑｕｅｎｃｅｏｆｋｅｙｆｒａｍｅｓ）で表現されるが、現在まで大部分の動画縮約に対する研究は主に動画要約情報生成をその目標としている。

キーフレームで表現されたビデオ要約はビデオ全体の内容を一目で把握できるようにするだけでなく、そのキーフレームを含んでいる場面（scenes または shot）の窓口（ｅｎｔｒｉｅｓ）役割を果たす。そのためビデオ要約作業を最適のキーフレーム選定、或いは最適のキーフレームが位置したセグメント選定の作業であると言え、普通色、動きなど視覚的に目立つ特徴がキーフレームを選択するのに重要な要件として利用される。

一方、ビデオ要約はその応用範囲によってショット水準（Ｓｈｏｔ-Ｂａｓｅｄ）の要約とセグメント水準（Ｓｅｇｍｅｎｔ-Ｂａｓｅｄ）の要約に分けることができる。

ショット基盤要約は比較的に少ない量のビデオ、つまり、ビデオクリップ（ｖｉｄｅｏｃｌｉｐ）を少数のキーフレームで示す方法であり、セグメント基盤要約は長いビデオ全体を要約する技術である。

セグメント基盤要約技術の応用範囲がさらに広い理由から、最近始まったセグメント基盤要約に対する研究がさらに活発に進められている。提案された本発明もセグメント基盤要約を目標としている。

分割されたビデオをセグメント単位で要約する方法は（ａ）時間窓内でショット間の相互関連性を分析して、相互関連性の高いショットを一つのストーリー単位（ＳｔｏｒｙＵｎｉｔ、あるいはＳｃｅｎｅ）として括るショットグルーピング（ＳｈｏｔＧｒｏｕｐｉｎｇ）法と、（ｂ）伝統的なクラスタリング法から得られたクラスタの性質を分析して、重要なクラスタを選択する方法がある。

これらの方法はどのような視覚特徴を使用するか、あるいはどのようなショットを代表として選択するかによってさらに細分化できる。

しかし、これらの方法が共通的に内包している重要な問題点があるが、それは代表性判断時に過剰に臨界値に依存するということである。つまり、特定臨界値を定めて、これに基づいてショットの代表性を判断している。例えば、ショットの重要度が臨界値以上であるもの、あるいは重要度が上位１０％順位に入るものでショットを選定する。さらに、このような臨界値は実験的に決めている。しかし、ビデオ要約アルゴリズムが実験的臨界値に過剰に依存するようになることによって引き起こされる問題点は、ビデオ要約システムがいくつかの特定ビデオには非常に効果的であり得るが、多様なジャンルのビデオに適用するのは難しいということである。

また、このような問題は多様な種類のビデオ情報を扱う応用分野では致命的な欠陥となることがあり、また、実験的に最適の臨界値を定める作業もまた相当な費用を発生させる。

一方、動画ビデオ要約のためにキーフレームを選択するのには、可視的な視覚的特徴だけでなく、人間の判断に基づいた主観的な判断が重要な要素として作用することがある。

実際に、人が手動でビデオ縮約を行う場合、このような主観的判断を移入することによって、さらに共感できる動画要約を作り出せる。したがって、効果的なビデオ要約生成のためにはこのような主観的判断を動画縮約過程に反映できる研究が必要である。

また、より効率的にビデオ要約を生成するためには、使用者の環境を考慮して拡張可能なビデオ要約情報を生成する方案も工夫しなければならない。

そこで、本発明が目的とする技術的課題は、与えられたビデオから重要なビデオセグメントを抽出し、これから一連のキーフレームを抽出することによってビデオの内容を一目で把握して所望のビデオ場面を直ちにアクセスできるビデオ要約生成技術を提供することにある。

このために本発明では従来の方法で提起された様々な問題を解決するために、（ａ）画一化された臨界値に依存する方法から脱皮し、（ｂ）人間の主観的は判断を反映することができ、（ｃ）使用者の環境や要求条件に合う柔軟な形態のビデオ要約情報を生成するためのファジー基盤Ｏｎｅ-ＣｌａｓｓＳＶＭを利用した動画自動要約装置及び方法を提供する。

このような課題を解決するための本発明の一つの特徴による動画自動要約装置は、使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れるための入力部と；動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する重要度測定モジュールと；ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成するビデオ要約生成モジュールとを含んで成る。

本発明の一つの特徴による動画自動要約装置において、特性支援ベクターアルゴリズムはＯＣ-ＳＶＭ（ｏｎｅ-ｃｌａｓｓｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ）アルゴリズムを利用することができ、さらにファジー基盤のＯＣ-ＳＶＭアルゴリズムを利用することができる。

本発明の一つの特徴による動画自動要約装置では、全体ビデオソースをショット単位で抽出するショット検出モジュールをさらに含む。

本発明の一つの特徴による動画自動要約装置では、生成されたビデオ要約を画面上に出力する出力部と；生成されたビデオ要約を保存する保存部とをさらに含む。

本発明の一つの特徴による動画自動要約装置において、前記ビデオ要約生成モジュールは、前記ショット情報と前記重要度値に前記特性支援ベクターアルゴリズムを適用してビデオ要約を生成する特性支援ベクターモジュール；使用者から受け入れた要約時間情報に基づいて拡張性(scalability)処理を繰り返し行って、使用者が望む時間範囲に合致するビデオ要約を生成する拡張性処理モジュールとを含む。

本発明の一つの特徴による動画自動要約装置において、前記ショット検出モジュールは要約しようとする動画ビデオソースからショットを検出してショットリストを構成し、これを前記ビデオ要約生成モジュールへ送る。

本発明の一つの特徴による動画自動要約方法は、使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第１段階と；前記ビデオソースをショット単位で抽出する第２段階と；動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第３段階と；ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成する第４段階とを含んで成る。

本発明の他の特徴による動画自動要約方法は、使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第１段階と；動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第２段階と；ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成する第３段階と；生成されたビデオ要約を画面上に出力する第４段階と；生成されたビデオ要約を保存する第５段階とをさらに含んで成る。

本発明の一つの特徴による記録媒体は動画自動要約方法を記録した記録媒体であって、前記動画自動要約方法は、使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第１段階と；前記ビデオソースをショット単位で抽出する第２段階と；動画ビデオのジャンル別特性及び所望要約の目的に応じて重要度を算出する第３段階と；ショット情報と重要度値に特性支援ベクターアルゴリズムを適用してビデオ要約を生成する第４段階とを含んで成る。

本発明の実施例が応用分野に及ぼす効果は次の通りに説明できる。

ウェッブ文書検索における検索エンジンがウェッブページの要約情報を提供する。これは検索されたすべての結果に、いちいち訪問しなくても、その内容を推測できるから、情報を探す時間を減らすためである。

これと同様に、ビデオ要約の根本的な目的は、ビデオ全体を見なくてもその内容を把握できるようにして、情報アクセスの効率を極大化することにある。ビデオ情報量を考慮する時、ビデオ要約を自動的に生成する技術はテキストを要約する技術よりその重要性がさらに大きくなる。

さらに、帯域幅が制限されている無線環境では、少量のデータで主要情報を伝達できるビデオ要約技術は無線ビデオコンテンツ産業の核心技術として活用される。

本発明の実施例によるファジー基盤ＯＣ-ＳＶＭを利用した動画自動要約装置の構成図である。本発明の実施例によるファジー基盤ＯＣ-ＳＶＭを利用した動画自動要約装置の動作流れ図である。拡張可能な要約情報生成に適用するための拡張可能な新規性検出（ｓｃａｌａｂｌｅＮｏｖｅｌｔｙＤｅｔｅｃｔｉｏｎ）を説明するための概念図である。映画に対する実験結果であって、主要セグメント抽出の反復による（全体セグメント対比）増加する主要セグメントの比率とこれらセグメントが全体ビデオイベントを占める比率に対する図表である。ミュージックビデオに対する実験結果であって、主要セグメント抽出の反復による（全体セグメント対比）増加する主要セグメントの比率とこれらセグメントが全体ビデオイベントを占める比率に対する図表である。

本発明はまず、画一化された臨界値に依存する方法から抜け出して、ビデオ要約を“新規性検出（Novelty Detection）”問題として解釈する概念から出発する。つまり、与えられたビデオにおける視覚的特徴の異なるフレームと区別されるフレームをそのビデオを代表するフレームとして定義することである。

新規性検出（ＮｏｖｅｌｔｙＤｅｔｅｃｔｉｏｎ）問題にはＯＣ-ＳＶＭが優れた性能を示している。元来、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）はラベル化したデータを利用してマシン（ｍａｃｈｉｎｅ）を学習させた後、ラベル化されていない新たなデータが入ってきた時、正しい答を導き出す確率的学習理論（ｓｔａｔｉｓｔｉｃａｌｌｅａｒｎｉｎｇｔｈｅｏｒｙ）に基づいた学習方法の一種である。

伝統的な学習方法と異なって、構造的リスクを最少化することによって、ベクター空間における最適の決定境界領域を探し出す方法を使用し、主にパターン認識のような二進分類の問題で最近良い結果を示している。この中でもＯＣ-ＳＶＭ（Ｏｎｅ-ｃｌａｓｓＳＶＭ）はＳＶＭの決定境界領域に基づいたポジティブ/ネガティブ（ｐｏｓｉｔｉｖｅ/ｎｅｇａｔｉｖｅ）の二つのクラスの中で、ラベル化されたポジティブクラスのデータ、つまり、目的とすることを最もよく表現できるデータを対象とする。例えば、テキスト検索やイメージ検索のような場合、全体検索対象データの中で、使用者が関心を持つ対象データの量はきわめて少ない。このような場合、重要なことは全体データでなく、関連した一部ポジティブサンプルである。

このようなＯＣ-ＳＶＭは与えられたデータの分布を予測することでなく、与えられたデータを最もよく説明できる最適のサポートベクターを予測する技術である。

このようにＯＣ-ＳＶＭは一般的な特性ベクター空間において、一層特異な特性ベクターを探し出すことに有用であるので、動画ビデオの幾多のフレームの中で独特な特徴を有するキーフレームを効果的に探知することができる。

しかし、ＯＣ-ＳＶＭによって所望のビデオ要約を得ることには限界がある。ＯＣ-ＳＶＭは単純な視覚的特性を反映したサポートベクターをその対象とするので、人間が判断できる主観的な要素-例えば、短く処理されたものよりは長く処理された場面がさらに重要な意味を伝達するとか、ニュースの場合にはアンカーマンが入っているセグメントは除いて要約情報を生成することが良いというなど-を反映することが難しく、たとえこれを反映する特性ベクターを定義しても、これを既存の視覚的特徴ベクターと結合する課題が残る。

本発明ではファジー理論のメンバーシップ関数定義によって、これら使用者の主観的重要性を反映しながら、統計的に特徴的なベクターを結合したファジー基盤ＯＣ-ＳＶＭを通じて全体的なサポートベクターを求める。

一方、ファジーＯＣ-ＳＶＭは与えられたデータを囲む最小球（ｍｉｎｉｍｕｍｓｐｈｅｒｅ）を探す性質を利用すれば、使用者の環境を考慮した柔軟な形態の拡張可能なビデオ要約を生成することができる。つまり、最も外側にある表面上のベクターを先に抽出し、これを最上位要約として生成する。次に、この表面を剥離し、その後現在のデータを囲む球を探す。このようにして得られたベクターを先に求めたベクター集合と合わせることにより、詳細なビデオ要約を生成することができる。使用者の環境に応じてこのような過程を適切に繰り返すことによって、拡張可能なビデオ要約を生成することができる。このような拡張性は階層的クラスタリングアルゴリズムでも可能である。

しかし、本発明で提案された方法で各レベルで必要なベクターの数が最適に求められる反面、階層的クラスタリングアルゴリズムではクラスタリングの条件によって拡張作業が行われる差がある。

以下では添付した図面を参照して本発明の実施例について本発明が属する技術分野における通常の知識を有する者が容易に実施できるように詳しく説明する。しかし、本発明は様々で相異なる形態で実現することができ、ここで説明する実施例に限られない。図面で本発明を明確に説明するために説明に関係しない部分は省略した。明細書全体にわたって類似な部分については同一図面符号を付けた。

図１は本発明の実施例によるファジー基盤ＯＣ-ＳＶＭを利用した動画自動要約装置の構成図である。

図１に示すように、入力部４０、ショット検出モジュール１０、重要度測定モジュール２０、ビデオ要約生成モジュール３０、保存部６０、出力部５０を含む。入力部４０はまず、使用者から二種の情報、つまり、１．要約しようとする動画ビデオソースと、２．所望の要約時間を受け入れる。ショット検出モジュール１０は映画のような長い分量のビデオは主にセグメント水準の要約をするので、そのための先行作業として全体ビデオをショット単位で抽出する作業をショット検出モジュールで行う。万一、ビデオクリップ(video clip)のような少量のビデオを主な対象とする場合には、ショット検出モジュールを経なくてもよい。ショット検出モジュールは１．の要約しようとする動画ビデオソースからショットを検出してショットリストを構成し、これをビデオ要約生成モジュール３０に送る。重要度測定モジュール２０は動画ビデオのジャンル別特性、あるいは所望の要約目的によって重要度β_jを算出する。この作業は人が手動でデータを入力したり、必要なＤＢから資料を持ってくるなど、その目的によって多様な方式で行うことができる。ビデオ要約生成モジュール３０はショット情報と重要度値にファジーＯＣ-ＳＶＭアルゴリズムを適用してビデオ要約ＶＳを生成する。この時、使用者から入力を受けた要約時間情報に基づいて拡張性(scalability)処理を行うかどうかを決める。必要である場合、拡張性処理モジュール３２を繰り返して行うことによって使用者が望む時間範囲に合致するビデオ要約を生成する。出力部５０は生成されたビデオ要約を画面上に出力し、保存部６０はその情報を保存する。

このような構成を有する本発明の実施例によるファジー基盤ＯＣ-ＳＶＭを利用した動画自動要約装置の動作について、以下に詳しく説明する。

図２は本発明の実施例によるファジー基盤ＯＣ-ＳＶＭを利用した動画自動要約装置の動作流れ図であって、ファジー(Fuzzy)基盤ＯＣ-ＳＶＭを利用した動画自動要約技法”を適用して要約作業を行う全過程を記している。

図２を参照しながら各作業別に動作を詳しく説明する。

（０）先行作業
ビデオ要約の前に先行しなければならない作業は、一連のビデオフレームを分析してショット単位で抽出する作業であり、これはショット検出モジュール１０によって行われる。これはビデオコンテンツを構成する定形化された個別フレームイメージから、視覚的特性を抽出し、これに基づいてそれぞれのフレーム間の類似度を比較することによって、時間上あるいは空間上に連続的な動作を表現するショットという単位に分割する作業である。しかし、このようなショット境界線検出(Shot Boundary Detection)が完全ではないためにビデオ分割せずにフレーム単位から伝統的なＨＡＣ（ＨｉｅｒａｒｃｈｉｃａｌＡｇｇｌｏｍｅｒａｔｉｖｅＣｌｕｓｔｅｒｉｎｇ）やＫ-ＭｅａｎｓＣｌｕｓｔｅｒｉｎｇ法を使用することもある。以下で説明する要約作業はこのように分割された一連のセグメントを基盤とする。

（１）重要度測定
重要度検出モジュール２０は重要度を検出し、重要度はビデオセグメントに対する使用者の主観的観点を反映して使用者に応じて多様に定義できる。本発明で定義された重要度β_jは当該セグメントに対する重要度を示し、その範囲はβ∈（０，１）にする。ここではより容易に理解するために、いくつかの例を挙げてこれを説明する。

（１-１）セグメント長さを考慮した場合
ビデオセグメントの平均長さをｍ、そして標準偏差をσとする時、次の数式１のようにセグメントに対する重要度を示すことができる。

ここで、ｄｕｒａｔｉｏｎはセグメントｊの長さを示す。一方、β_jが０より小さいか同一であれば、非常に小さい値に（例えば０．００１）、β_jが１より大きければ１に調整する。

（１-２）使用者の選好度に応じて指定された場合
例えば、使用者がビデオセグメントの中で特定セグメントを指定するか、そうでなければ、他のビデオソースで既に保存されたビデオセグメントを指定した後、指定されたセグメントと同じセグメントがビデオ要約に含まれていないことを望む場合の重要度は次の数式２のように決定できる。

ここで、ｓｉｍ（ｘ，ｙ）は特徴ベクターｘ、ｙで表される二つのセグメント間の類似度であり、ｕは使用者が指定したセグメントの特徴ベクターである。

（２）ＦｕｚｚｙＯｎｅ-ＣｌａｓｓＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅアルゴリズム
（２-１）既存のＯＣ-ＳＶＭアルゴリズム
ＯＣ-ＳＶＭアルゴリズムは次の通りである。

この時、ＯＣ-ＳＶＭは次のような目的関数を最少化するためのものである。つまり、全てのｆｅａｔｕｒｅｖｅｃｔｏｒΦ（ｘｊ）を含む最小球を探すことである。

数式７のようなＫＫＴ条件を利用して最小球の半径Ｒは数式８のように求められる。

ここで、ｘは支援ベクター（ｓｕｐｐｏｒｔｖｅｃｔｏｒ）である。数式６のように一般的なＱｕａｄｒａｔｉｃＰｒｏｇｒａｍｍｉｎｇで簡単にａの値が求められる。ＱｕａｄｒａｔｉｃＰｒｏｇｒａｍｍｉｎｇで得られた結果値ａの中で、その値が０より大きければ、我々はそれに相当する特徴ベクターｘを支援ベクターと呼ぶ。

（２-２）ｆｕｚｚｙＯＣ-ＳＶＭアルゴリズム
（２-１）のＯＣ-ＳＶＭアルゴリズムに対して（１）の重要度を結合したｆｕｚｚｙＯＣ-ＳＶＭアルゴリズムでは次のように最小球を探すことができる。

Ｌを微分した結果を利用して次のようなｄｕａｌｐｒｏｂｌｅｍでも、

を満足しなければならない。

また、ＫＫＴ条件は、数式１２の通りである。

このような過程によってファジーＯＣ-ＳＶＭを適用した時、最小球の半径Ｒは次のように求められる。

ここで、ｘは支援ベクターであり、βは当該支援ベクターｘの重要度である。

（３）ビデオ要約への適用
ファジーＯＣ-ＳＶＭアルゴリズム数式１１において、定数値で表現されたＣの値を調整して支援ベクターの数を調節することができる。万一、Ｃ=１である場合、ＯＣ-ＳＶＭではアウトライアー（ｏｕｔｌｉｅｒ）を許容しないので、すべての特徴ベクターを含む最小球を探す。したがって、ビデオ要約では与えられた全ての特徴ベクターを含む最小球を得るためにＣを１と仮定する。ここで、求められた最小球は球の中心ベクターａと半径Ｒで示される。この時、０より大きい値を有するａに対する特徴ベクターのサポートベクターは球の表面積に置かれる。このように表面積に置かれた特徴ベクターのセグメントからキーフレームを抽出してＯＣ-ＳＶＭモジュール３１はビデオ要約に使用する。

（４）拡張可能なビデオ要約
ファジーＯＣ-ＳＶＭの目的が最小球を探すことにあるという点を利用する。図３の概念図はこれをよく説明している。

図３を参照すれば、まず、ＯＣ-ＳＶＭモジュール３１が最初の表面積に置かれたサポートベクターを収集してビデオ要約を構成する。万一、このように収集されたビデオ要約で十分でなければ、図３の概念図でのように拡張性モジュール３２が最外層を構成している球を除去する（玉ねぎの皮を剥ぐように）。残っている特徴ベクターに再びファジーＯＣ-ＳＶＭを適用すれば、図３における最外側から一層だけ内側に位置している球が得られる。

この新たな球から新たなサポートベクターを得ることができる。この新たなサポートベクターに相当するセグメントを最初に求めたビデオ要約に追加すれば、さらに詳細な要約情報も得ることができる。この時、最初段階のビデオセグメントと第２番目に追加されたセグメントとの間で視覚的に重複感を与えることがあるので、これを検証した後に追加させる。このように拡張性モジュール３２が最外層に位置している球から一つずつ除去する作業を原本ビデオセグメントが完全に消耗するまで、あるいは特定条件が満足されるまで繰り返し続けることによって拡張可能なビデオ要約を生成することができる。このような過程を整理すれば、次の通りである。

入力:重要度情報であるβ値と特徴ベクターで構成されたセグメントデータ
段階１:入力データに対して式（４’）のＣ=１としてＱｕａｄｒａｔｉｃＰｒｏｇｒａｍｍｉｎｇでａを求める。

段階２:段階１における０<ａの条件を満足するビデオセグメントのキーフレーム集合を求める。この時、それに相当する特徴ベクターを入力データから除去する。

段階３:
Ｃａｓｅ１:現在ループ（ｌｏｏｐ）に最初に入ってきた場合
段階２で得られたキーフレームでビデオ要約（ＶＳ:ＶｉｄｅｏＳｕｍｍａｒｙ）を構成して段階４へ行く。

Ｃａｓｅ２:最初でなければ、セグメントの重要度βによって非昇冪順に整列した連続したキーフレームのシークエンスＴＳが完全に除去されるまで次を繰り返す。

ＴＳから一つを除去した後、当該キーフレームが属したセグメントと隣接するセグメントが（隣接するセグメントは分割された原本ビデオから求める）現在のＶＳに属しているかどうかを確認する。

１．属していない場合、直前にＴＳから除去されたキーフレームをＶＳに追加する。

２．属している場合、最少類似度が臨界値以下である場合にのみ追加する。

段階４:段階２で支援ベクターが除去されたデータを入力データとして段階１へ行く（あるいは、既に考慮された任意の特定終了条件が満足されない場合、段階１に戻ってキーフレーム抽出を継続し、満足する場合、過程を終了することもできる）。

前記のような流れによってビデオ要約を生成するＦｕｚｚｙＯＣ-ＳＶＭシステムをそれぞれ映画とミュージックビデオに適用して本実験結果を図４及び図５に示した。

図４及び図５の図表に示すように、任意の臨界値によって一定に固定された長さの主要場面を生成するものではなく、何回かの反復作業を通じて動画ビデオに現れる主要イベントを９０％以上含む主要場面を構成しビデオ要約を生成することができる。

本発明に記されたｆｕｚｚｙｏｎｅ-ｃｌａｓｓＳＶＭを利用したビデオ要約生成技術は、ビデオ要約においてセグメントに対する使用者の主観的重要度とセグメントの視覚的特徴を同時に考慮して与えられたビデオの内容を描写することができる最適のセグメントを抽出する技術であって、従来の臨界値に過剰に依存したビデオ要約方式を画期的に改善して、多様なビデオ特性に合う最適の臨界値を探し出し、それによって適切なビデオ要約を生成する。

このように生成されたビデオ要約は出力部５０によって画面上に表示し、保存部６０はその出力情報を保存する。

一方、本発明は上述した実施例にのみ限られるものではなく、本発明の要旨から逸脱しない範囲内で修正または変形して実施することができる。以上に説明した内容を通じて当業者であれば、本発明の技術思想を逸脱しない範囲内で多様な変更と修正実施が可能であることが分かる。

Claims

使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れるための入力部と;
動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する重要度測定モジュールと;
ショット情報と重要度から特性ベクターを得て、これを利用してビデオ要約を生成するビデオ要約生成モジュールとを含み、
前記特性ベクターはＯＣ-ＳＶＭ(one-class support vector machines)により探知される、動画自動要約装置。
前記特性ベクターはファジー基盤のＯＣ-ＳＶＭにより探知される、請求項１に記載の動画自動要約装置。
全体ビデオソースをショット単位で抽出するショット検出モジュールをさらに含む、請求項１に記載の動画自動要約装置。
生成されたビデオ要約を画面上に出力する出力部と;
生成されたビデオ要約を保存する保存部とを含む、請求項１乃至３のいずれか1項に記載の動画自動要約装置。
前記ビデオ要約生成モジュールは、
前記ショット情報と前記重要度に前記特性ベクターを適用してビデオ要約を生成する特性ベクターモジュールと;
使用者から受け入れた要約時間情報に基づいて拡張性処理を繰り返して行って、使用者が望む時間範囲に合致するビデオ要約を生成する拡張性処理モジュールを含む、請求項４に記載の動画自動要約装置。
前記ショット検出モジュールは要約しようとする動画ビデオソースからショットを検出してショットリストを構成し、これを前記ビデオ要約生成モジュールへ送ることを特徴とする、請求項５に記載の動画自動要約装置。
使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第１段階と;
前記ビデオソースをショット単位で抽出する第２段階と;
動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第３段階と;
ショット情報と重要度から特性ベクターを得て、これを利用してビデオ要約を生成する第４段階とを含み、
前記特性ベクターはＯＣ-ＳＶＭ(one-class support vector machines) により探知される、動画自動要約方法。
前記特性ベクターはファジー基盤のＯＣ-ＳＶＭにより探知される、請求項７に記載の動画自動要約方法。
生成されたビデオ要約を画面上に出力する第５段階と;
生成されたビデオ要約を保存する第６段階とをさらに含む、請求項７または８に記載の動画自動要約方法。
前記第４段階は前記ショット情報と前記重要度に前記特性ベクターを適用してビデオ要約を生成し、使用者から受け入れた要約時間情報に基づいて拡張性処理を繰り返して行って、使用者が望む時間範囲を有するビデオ要約を生成することを特徴とする、請求項９に記載の動画自動要約方法。
使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第１段階と;
動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第２段階と;
ショット情報と重要度から特性ベクターを得て、これを利用してビデオ要約を生成する第３段階と;
生成されたビデオ要約を画面上に出力する第４段階と;
生成されたビデオ要約を保存する第５段階とを含み、
前記特性ベクターはＯＣ-ＳＶＭ(one-class support vector machines) により探知される、動画自動要約方法。
前記特性ベクターはファジー基盤のＯＣ-ＳＶＭにより探知される、請求項１１に記載の動画自動要約方法。
動画自動要約方法を記録した記録媒体であって、
使用者から要約しようとする動画ビデオソースと所望の要約時間を受け入れる第１段階と;
前記ビデオソースをショット単位で抽出する第２段階と;
動画ビデオのジャンル別特性及び所望の要約目的に応じて重要度を算出する第３段階と;
ショット情報と重要度から特性ベクターを得て、これを利用してビデオ要約を生成する第４段階とを含む機能が実現され、
前記特性ベクターはＯＣ-ＳＶＭ(one-class support vector machines) により探知されるプログラムを保存した記録媒体。
前記特性ベクターはファジー基盤のＯＣ-ＳＶＭにより探知される、請求項１３に記載のプログラムを保存した記録媒体。