JP2002251197A

JP2002251197A - オーディオビジュアルサマリ作成方法

Info

Publication number: JP2002251197A
Application number: JP2001376561A
Authority: JP
Inventors: Kyou Ikou; キョウイコウ; Xin Liu; リュウシン
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2000-12-12
Filing date: 2001-12-11
Publication date: 2002-09-06
Anticipated expiration: 2021-12-11
Also published as: JP3705429B2; JP4340907B2; JP2005309427A; US6925455B2; US20020093591A1

Abstract

(57)【要約】【課題】入力ビデオから抽出された画像、オーディ
オ、およびテキスト特徴をシームレスに統合することに
より、オーディオ中心型、画像中心型、およびオーディ
オビジュアル統合型の高品質のサマリを作成する。【解決手段】オーディオと画像の内容の厳密な同期が
要求されないときには、統合型サマリ作成が用いられ
る。オーディオ内容と画像内容の同期を要求するビデオ
番組の場合、オーディオ中心型または画像中心型のいず
れかの方法を用いてサマリが作成される。機械学習によ
る方法と、代替法である発見的方法が使用可能である。
ナイーブベイズ法、決定木法、ニューラルネットワーク
法、および最大エントロピー法のようなさまざまな確率
論的方法が、機械学習による方法で使用可能である。代
替法である発見的方法を用いてオーディオビジュアル統
合型サマリを作成するには、最大２部マッチング法が用
いられる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、ビデオサ
マリ作成技術に関し、特に、入力ビデオから抽出した画
像、オーディオ、およびテキスト特徴をシームレスに統
合することによりビデオサマリを作成する方法およびシ
ステムに関する。

【０００２】

【従来の技術】長い論説や学術論文などのテキスト文書
の多くには要約がある。要約の助けにより、読者は、文
書全体を詳細に分析せずに、その文書の内容が関心のあ
るものかどうかをすばやく確かめることができる。テキ
スト文書の場合もそうであるが、ビデオ番組の内容およ
び性質は一目では捉えられないことが多い。同様にして
一般的に全体の内容を示すために、長いビデオ番組の要
約すなわちサマリを提供することが一般に望まれる。

【０００３】最近、ワールドワイドウェブ（ＷＷＷある
いはウェブ）の爆発的な成長により、オンラインテキス
トおよびマルチメディアデータコレクションの数が急激
に増大している。オンラインマルチメディアコンテンツ
の増大というこの傾向が続くと、ユーザが大量のデータ
から最も関連性のある情報をすばやく識別することを支
援する自動データサマリ作成技術はますます重要にな
る。

【０００４】この状況において、ビデオサマリ作成が、
困難な課題を提示する。その作業が困難であるのは、ビ
デオ番組の画像トラックおよびオーディオトラックの両
方のサマリ作成をまず必要とするからである。２つのサ
マリを自然なやりかたで有効に統合することが、もう１
つの課題となる。

【０００５】一般に、ほとんどの種類のビデオサマリ作
成は、オーディオ中心型サマリ作成(audio-centric sum
marization)、画像中心型サマリ作成(image-centric su
mmarization)、およびオーディオビジュアル統合型サマ
リ作成(integrated audio-visual summarization)とい
う３つのカテゴリに分類することができる。ビデオ番組
のうちには、例えばニュース放送、ドキュメンタリー、
ビデオセミナーのように、対応するオーディオトラック
と画像トラックの間に強い相関のないタイプのものがあ
る。このようなビデオカテゴリについては、オーディオ
と画像をゆるく整列（整合）させながら、オーディオと
画像の両方の内容のカバレジを最大にするオーディオビ
ジュアル統合型サマリ作成アプローチを使用するのが適
当である。他方、映画、ドラマ、トークショーなどのよ
うな他のタイプのビデオ番組は、オーディオトラックと
画像トラックの間に強い相関を有することがある。この
種のビデオ番組については、オーディオ提示とビデオ画
像の間の同期が重要である。このような状況では、オー
ディオ中心型または画像中心型のいずれかのサマリ作成
方法を使用するのが適当である。

【０００６】

【発明が解決しようとする課題】従来のシステムは、こ
のようなさまざまなタイプのビデオ番組に対する有効で
効率的なサマリ作成という課題に対し、包括的な解決法
を提供していない。現在使用されている多くのビデオサ
マリ作成システム・方法は、あるタイプのビデオ内容を
発見的に重要であるとみなし、これらのあらかじめ指定
した内容を入力ビデオから抽出することによってサマリ
を作成している。その結果、これらのビデオサマリ作成
システム・方法は、非常に領域特異的（領域固有）かつ
アプリケーション特異的であり、ユーザの個々の需要に
基づいてサマリを作成することや、さまざまな種類のビ
デオ番組を処理することができない。

【０００７】

【課題を解決するための手段】本発明は、機械学習フレ
ームワークに基づくビデオサマリ作成のシステムおよび
方法を提供することによって、従来のビデオサマリ作成
技術の前記およびその他の欠点を克服する。また、本発
明はさらに、機械学習フレームワークによって要求され
るトレーニングデータを得ることが困難な状況に対処す
るためのシステムおよび方法も提供する。これらのシス
テムおよび方法は、入力ビデオから抽出される画像、オ
ーディオ、およびテキスト特徴をシームレスに統合する
ことによって、高品質のオーディオおよび画像のサマリ
を作成することができる。

【０００８】オーディオトラックと画像トラックの間の
強い同期に依存しないビデオ番組の具体例として、オー
ディオセグメントが最近の地震による犠牲者の数に関す
る情報を提示しているテレビニュース番組を考える。対
応する画像セグメントは、現場のレポーターの接写であ
ったり、崩壊した建物の現場で作業する救助隊の接写で
あったり、地震の震央を示す地域地図の接写であったり
する。このような場合、オーディオ内容は、必ずしも、
対応する画像内容に言及している必要がないことが多
い。前述のように、このようなビデオ番組のその他の例
には、ドキュメンタリー、セミナーなどがある。

【０００９】本発明の一実施例によれば、厳密な同期が
要求されないときには、ビデオ番組のサマリを作成する
ために、オーディオビジュアル統合型サマリ作成技術が
用いられる。このようなビデオ番組のサマリを作成する
際には、オーディオおよび画像のサマリを別個に作成す
ることが好ましい。その後、２つのサマリが、ゆるく整
列して統合される。このアプローチでは、オーディオ内
容と画像内容の両方のカバレジを、サマリにおいて最大
化することが可能である。

【００１０】逆に、オーディオ内容と画像内容の間の強
い同期を要求するビデオ番組は、一般に、特定の瞬間に
おけるオーディオトラックがその瞬間に提示される画像
と直接関係しており、その逆も同様であるということに
よって特徴づけられる。このようなビデオ番組のサマリ
を作成する際には、オーディオと画像の間の同期が重要
である。したがって、同期はオーディオ中心型または画
像中心型のいずれかであることが好ましい。

【００１１】一実施例によれば、オーディオ中心型サマ
リ作成技術は、ビデオ番組に関連するオーディオ内容の
重要な側面を確認する。必要な程度の同期を達成するた
め、画像サマリは、オーディオサマリを構成するオーデ
ィオセグメントに対応するビデオフレームを選択するこ
とによってのみ、生成される。画像中心サマリ作成技術
は、まず、ビデオ番組の重要な画像セグメントを識別す
ることによって画像トラックのサマリを作成する。その
後、これらの重要なあるいは代表的な画像セグメントに
対応するオーディオセグメントを、全体のビデオサマリ
に含める。

【００１２】サマリを作成するプロセスは、画像、オー
ディオ信号、音声トランスクリプト、および字幕（クロ
ーズドキャプション）テキストからの手がかりおよび特
徴を利用することによって容易化される。画像特徴、音
声トランスクリプト、および字幕テキストは、オーディ
オサマリ作成を改善するために、対応するオーディオ特
徴と組み合わされ、一方、オーディオ特徴、音声トラン
スクリプト、および字幕テキストは、よりよい画像サマ
リ作成を容易にするために、関連する画像特徴と組み合
わされる。

【００１３】オーディオ中心型、画像中心型、あるいは
オーディオビジュアル統合型のサマリ作成を実現するた
め、以下では２つの実施例について説明する。１つの技
術によれば、与えられたアプリケーションに対していず
れのサマリ作成技術が好ましいかに応じて、あらかじめ
サマリ作成の選択（プレファレンス）を例示することが
可能なトレーニングデータを用いて、機械学習が、ビデ
オ番組のオーディオあるいは画像トラックに適用され
る。この技術では、システムは、既知のアルゴリズム方
式のうちの任意のものを用いて、サンプルビデオサマリ
に示される挙動を模倣し、このサンプルから、および、
サンプルの固有のインプリメンテーションから、学習を
行うことが可能である。必要な命令をシステムに提供す
るために、トレーニングデータが直ちに入手可能でない
場合や容易に適用可能でない場合には、以下で説明する
もう１つの実施例が、本発明の代替方法として、適用可
能である。

【００１４】本発明の上記および関連するその他の利点
は、添付図面を参照して、以下の好ましい実施例の詳細
な説明を検討すれば、さらに明らかとなる。

【００１５】

【発明の実施の形態】図面を参照すると、図１は、機械
学習によるビデオサマリ作成システム・方法に関する、
本発明の一実施例の動作を示す流れ図である。図１を参
照して、以下では、使用される数学的モデルのタイプ、
オーディオおよびビジュアルサマリ作成に用いられる特
徴、ならびに、オーディオおよびビジュアルサマリを整
列させる方法について説明する。

【００１６】［機械学習フレームワーク］通常のビデオ
番組は、オーディオトラックおよび画像トラックの両方
を含み、これらはいずれも長く連続することがある。こ
のようなビデオ番組のサマリを作成するには、そのビデ
オを構成するオーディオトラックおよび画像トラックの
両方を、有意味かつ管理可能な操作ユニットに分節化し
なければならない。例えば、有意味なオーディオ操作ユ
ニットとしては、１個の単語、１個の句、１個の文、あ
るいはその他のコヒーレントな音響プロファイルを有す
るオーディオセグメントの発声がある。同様に、可能な
画像操作ユニットの例には、単一のカメラショット、一
連の連続するカメラショット、ある判断基準によってグ
ループ分けされた画像フレームのクラスタなどがある。

【００１７】このような状況において、あるベクトルす
なわち特徴セットＸで、オーディオまたは画像操作ユニ
ットを表すことが可能である。さらに、Ｘは、いくつか
の特徴ｘを含む。特徴ｘは、オーディオまたは画像操作
ユニットに関連する画像特徴、オーディオ特徴、テキス
ト特徴（例えば、音声トランスクリプトや字幕からの重
要なキーワード）とすることが可能である。ｎ個の特徴
ｘが特定のベクトルすなわち特徴セットＸに存在する場
合、Ｘ＝［ｘ₁，ｘ₂，...，ｘ_n］である。サマリ作成作
業は、与えられた特徴セットＸに対して、確率Ｐ（ｙ｜
Ｘ）を計算する二分分類問題に変換される。ここでｙは
２進（バイナリ）変数であり、その値１および０は、Ｘ
がサマリに含まれるか否かのそれぞれの状態を表す。こ
の確率Ｐ（ｙ｜Ｘ）は、ルール（規則）によるアプロー
チを用いて決定することも可能であり、あるいは、機械
学習法を用いて評価することも可能である。後者の場
合、トレーニングデータが機械学習システムに提供さ
れ、システムは、提供されたトレーニングデータに従っ
て、確率Ｐ（ｙ｜Ｘ）を予測するモデルを学習すること
になる。

【００１８】確率Ｐ（ｙ｜Ｘ）を評価するために、ナイ
ーブベイズ法、決定木法、ニューラルネットワーク法、
最大エントロピー法（これらには限定されない）などの
ような、既知のさまざまな機械学習技術のうちの任意の
ものを使用可能である。このような技術は、この技術分
野の当業者に周知であるため、ここで詳細に説明する必
要はない。

【００１９】［システム構成］上記のように、図１は、
機械学習によるビデオサマリ要約作成システム・方法の
一実施例の動作を示す概略流れ図である。システムは、
ビデオ入力の画像トラックおよびオーディオトラックを
検査する。さらに、システムは、入力ビデオに関連する
字幕があればそれも検査することが可能である。ビデオ
サマリ作成システム・方法は、これらの３つの入力コン
ポーネント、すなわち、字幕、オーディオトラック、お
よび画像トラックの間の整列を実行することが可能であ
る。各入力コンポーネントに対する特徴抽出および特殊
な操作も実行可能である。抽出された特徴および各コン
ポーネント操作の出力はその後、オーディオビジュアル
統合型サマリ、または、オーディオ中心型サマリもしく
は画像中心型サマリのいずれかを作成するために、機械
学習によるサマリ作成モジュールに入力される。以下の
操作が一般に、入力コンポーネントのそれぞれに関して
実行される。

【００２０】サウンド（音）の検出と分類：音楽、拍
手、叫び声、爆発、雷鳴、銃声などのような非音声サウ
ンドからなるオーディオセグメントを検出する。それら
を、それぞれがコヒーレントな音響プロファイルを有す
るサウンドユニットに分節化する。これらのユニット
を、それらの内容に従って分類する。各サウンドユニッ
トに対して、以下のデータ、すなわち、オーディオトラ
ック内でのそのサウンドユニットの開始時刻コード、そ
のサウンドユニットの継続時間、およびサウンドユニッ
トのカテゴリあるいはタイプを出力する。

【００２１】音声認識：サウンド検出・分類モジュー
ルによって検出された非音声オーディオセグメントを取
り除く。残りのオーディオセグメントに対して音声認識
を実行して音声トランスクリプトを生成する。それぞれ
の認識語、オーディオトラック内でのその開始時刻コー
ド、およびその継続時間を出力する。

【００２２】字幕と音声トランスクリプトの整列：字
幕と、音声認識器からの音声トランスクリプトとの間の
整列を実行する。字幕は、タイピングミスを含むことが
あり、音声認識器からの音声トランスクリプトは認識エ
ラーを含むことがある。字幕と音声トランスクリプトの
間の整列は、音声トランスクリプトの精度を改善するた
めに有効である。

【００２３】音声ユニットと特徴ベクトル生成：整列
した音声トランスクリプトに基づいて音声操作ユニット
を生成し、各音声ユニットに対して特徴ベクトルを生成
する。例えば、有意味な音声ユニットとしては、１個の
単語、１個の句、１個の文、あるいはその他の有意味な
音声内容を有するセグメントがある。

【００２４】音声ユニット重要度ランク付け：各音声
ユニットの重要度ランクを計算する。この重要度ランク
付けは、例えば、米国特許仮出願第６０／２５４，５３
５号（出願日：２０００年１２月１２日、発明の名
称："Text Summarization UsingIR Technique And Sing
ular Value Decomposition"）、および、米国特許出願
第０９／８１７，５９１号（出願日：２００１年３月２
６日、発明の名称："Generic Text Summarization Usin
g Relevance Measure and Latent Semantic Analysi
s"）に記載されているような、当業者に知られた方法を
利用することが可能である（本出願人による特願２００
１−３５６８１３号を参照）。

【００２５】話者ＩＤ検出：音声ユニット・特徴ベク
トル生成モジュールから音声ユニットを受け取る。それ
ぞれの音声ユニットに対して、話者の識別を決定する
（すなわち、話者識別検出）。

【００２６】画像セグメント分節化：画像トラック
を、それぞれがコヒーレントな画像プロファイルおよび
動きプロファイルを有する個々の画像セグメントに分節
化する。得られた画像セグメントは、画像操作ユニット
として使用可能である。

【００２７】画像特徴ベクトル生成：画像特徴を抽出
し、各画像セグメントに対して特徴ベクトルを形成す
る。特徴ベクトルを形成するためには、画像セグメント
内容の何らかの側面を捕捉する任意の画像特徴が使用可
能である。

【００２８】顔ＩＤ検出：それぞれの画像セグメント
に人間の顔が含まれていれば、それを検出し識別する。

【００２９】上記の操作が実行された後、出力は、機械
学習によるサマリ作成モジュールに供給され、そこで、
オーディオおよびビジュアルサマリが、前述のような機
械学習フレームワークを用いて作成される。オーディオ
サマリ作成プロセスには、それぞれの音声あるいはサウ
ンドユニットＸに対して、そのユニットがオーディオサ
マリに含まれるのに十分な重要性を有する確率Ｐ（ｙ｜
Ｘ）を計算することが含まれる。上記のように、それぞ
れの音声あるいはサウンドユニットに関連する以下の特
徴が、機械学習フレームワークで使用可能である。すな
わち、その特徴とは、音声ユニットの開始時刻コード、
継続時間、および重要度ランク、サウンドユニットの開
始時刻コード、継続時間、およびカテゴリ、ならびに、
対応する画像の顔識別、および画像特徴ベクトルであ
る。それぞれの音声あるいはサウンドユニットＸに対す
る確率Ｐ（ｙ｜Ｘ）が計算された後、オーディオサマリ
がユーザ指定の長さＬ_sumに達するまで、確率Ｐ（ｙ｜
Ｘ）の降順に音声ユニットあるいはサウンドユニットを
選択することによって、オーディオサマリが作成され
る。

【００３０】他方、ビジュアルサマリ作成は、上記の操
作で作成された画像セグメントを操作ユニットとして使
用する。ビジュアルサマリ作成プロセスは、同様に、機
械学習フレームワークを用いて、例えば各画像セグメン
トＳに対して、その画像セグメントがビジュアルサマリ
に含まれるのに十分な重要性を有する確率Ｐ（ｙ｜Ｓ）
を計算する。上記のように、例えば、各画像セグメント
Ｓに関連する以下の特徴が考えられる。すなわち、その
特徴とは、長さ（すなわち、連続する、順次的な、ある
いはその他の関連するフレームの個数）、画像特徴ベク
トル、その画像セグメントに描画された人物あるいは顔
の識別、黒フレームや画像ロゴなどのような特殊なフレ
ームの存在、人間および物体（オブジェクト）の動き、
ズームやパンなどのようなカメラの動き、対応する音声
ユニットおよびサウンドユニット、ならびに、対応する
音声ユニットに関連する話者の識別である。各画像セグ
メントＳに対する確率Ｐ（ｙ｜Ｓ）が計算された後、ビ
ジュアルサマリがユーザ指定の長さＬ_sumに達するま
で、確率Ｐ（ｙ｜Ｓ）の降順に画像ユニットを選択する
ことによって、ビジュアルサマリが作成される。

【００３１】ビジュアルサマリは、必ずしも、それぞれ
の選択された画像セグメントを最初から最後まで含むこ
とは必要でない。もとのビデオ番組を構成する画像セグ
メントの平均時間長は長いが、ユーザ指定のサマリ長Ｌ
_sumは短い場合、ビジュアルサマリはほんの２、３個の
画像セグメントによって構成されることになるため、も
とのビジュアル内容の大幅な喪失につながる可能性があ
る。ユーザがビジュアルサマリ作成結果に影響を及ぼす
ことを可能にするため、ユーザは、サマリ長Ｌ _sumのみ
ならず、最小再生時間Ｌ_minをも指定するように要求さ
れることも可能である。Ｌ_sumは、全体のビジュアル内
容を理解するためにユーザがどのくらいの長さの時間を
使いたいかを示す一方、Ｌ_minは、幅指向ビジュアルサ
マリと深さ指向ビジュアルサマリの間の選択権をユーザ
に提供する。例えば、小さいＬ_minの値は、多数の短い
画像セグメントからなる幅指向のビジュアルサマリを生
成するために用いられる。他方、大きいＬ_minの値は、
少数の長い画像セグメントからなる深さ指向のビジュア
ルサマリを生成するために用いられる。

【００３２】ユーザがＬ_sumおよびＬ_minを指定した後、
ビジュアルサマリ内に含まれることが可能な画像セグメ
ントの総数は、Ｃ＝ｍｉｎ（Ｌ_sum／Ｌ_min，｜Ω｜）に
等しい。ただし、｜Ω｜は、もとのビデオ内の画像セグ
メントの総数を表す。さらに、それぞれの選択された画
像セグメントに割り当てられることが可能な時間長は、
Ｌ＝Ｌ_sum／Ｃに等しい。この状況において、ビジュア
ルサマリは、確率Ｐ（ｙ｜Ｓ）の降順にＣ個の画像セグ
メントを選択し、そのＣ個の画像セグメントのそれぞれ
の最初のＬ秒間をとり、それらを時間の昇順に連結する
ことによって作成される。

【００３３】［オーディオサマリとビジュアルサマリの
間の整列］オーディオおよびビジュアルサマリが作成さ
れた後、解決すべき最後の問題は、どのようにしてこれ
らの２つのサマリを同期するかである。オーディオトラ
ックＡおよび画像トラックＩからなるビデオシーケンス
をＶ＝（Ｉ，Ａ）とする。Ｖのオーディオサマリは、Ａ
_sum＝｛Ａ（ｔ_i，τ_i）∈Ａ｜ｉ＝１，...，Ｎ
（Ａ _sum）｝と表される。ただし、Ａ（ｔ_i，τ_i）は、
時刻ｔ_iに開始し時間τ_iだけ継続するオーディオセグメ
ントを表し、Ｎ（Ａ_sum）は、Ａ_sumを構成するオーディ
オセグメントの個数を表す。Ａ_sum内のすべてのオーデ
ィオセグメントは、それらの開始時刻ｔ_iの昇順に配列
される。同様に、Ｖのビジュアルサマリは、Ｉ_s _um＝
｛Ｉ（ｔ_j，τ_j）∈Ｉ｜ｊ＝１，...，Ｎ（Ｉ_sum）｝と
表され、すべてのコンポーネントはそれらの開始時刻の
昇順にソートされる。

【００３４】上記のように、オーディオ中心型および画
像中心型サマリは、同期の問題を最小にする。すなわ
ち、同期は、単に、もとのビデオ番組から、画像または
オーディオのそれぞれの対応部分をとることによって実
現可能である。オーディオ中心型サマリについては、Ａ
（ｔ_j，τ_j）∈Ａ_sumの場合、Ｉ（ｔ_j，τ_j）∈Ｉ_sumで
ある。画像中心型サマリについては、Ｉ（ｔ_j，τ_j）∈
Ｉ_sumの場合、Ａ（ｔ_j，τ_j）∈Ａ_sumである。オーディ
オビジュアル統合型サマリを作成するためには、オーデ
ィオサマリとビジュアルサマリが機械学習フレームワー
クを用いて別個に作成されるため、それぞれのオーディ
オセグメントＡ（ｔ_j，τ_j）∈Ａ_sumに対して、対応す
る画像セグメントＩ（ｔ_j，τ_j）は必ずしもＩ_sumに属
するとは限らず、逆も同様である。したがって、画像お
よびオーディオの両方の内容のカバレジを、それらのい
ずれをも犠牲にせずに最大化するため、オーディオサマ
リとビジュアルサマリの間でゆるい整列が実行される。

【００３５】オーディオビジュアル統合型サマリについ
ては、どのオーディオ内容がどの画像内容と同期しなけ
ればならないか、およびその逆はどうかについての、シ
ステム設計者の、またはユーザの要求すなわちプレファ
レンスが、あらかじめ規定された整列指定として、サマ
リ作成システムに提供される。例えば、同期は、以下の
場合に所望され、あるいは要求される。（１）ビジュア
ルサマリ内の画像セグメントが人物を示しており、対応
するオーディオセグメント画素の人物の音声を含む場
合、画像セグメントをそのオーディオ対応部分に、また
はその逆に、同期することが所望される。（２）オーデ
ィオサマリ内のオーディオセグメントが爆発からなり、
対応する画像セグメントが爆発を示している場合、オー
ディオセグメントをその画像対応部分に、またはその逆
に、同期することが所望される。（３）オーディオセグ
メントが、ある有名人の名前に言及する音声を含み、そ
の有名人の写真が、そのオーディオセグメントの小さい
時間ウィンドウ内の画像セグメントに示されている場
合、オーディオセグメントを、その有名人の写真を示す
画像セグメントに、またはその逆に、同期することが所
望される。

【００３６】一実施例によれば、オーディオビジュアル
統合型サマリ作成は以下のように実行される。

【００３７】上記のビジュアルサマリ作成プロセスと同
様に、オーディオビジュアル統合型サマリ作成は、２つ
のパラメータ、すなわち、ビジュアルサマリを構成する
各画像セグメントに対するサマリ長Ｌ_sum、および最小
再生時間Ｌ_minを指定することをユーザに要求すること
によって開始される。ユーザが深さ指向ビジュアルサマ
リと幅指向ビジュアルサマリとの間の選択をすることを
可能にすることとは別に、パラメータＬ_minを導入する
もう１つの目的は、オーディオサマリとビジュアルサマ
リの間の部分的整列を実現することである。整列の主な
目標は、オーディオビジュアル統合型サマリがなめらか
で自然に見えるようにし、もとのビデオのオーディオよ
びビジュアルの両方の内容のカバレジを、それらのいず
れをも犠牲にすることなく、最大化することである。

【００３８】例えば、ニュース番組では、アナウンサー
やレポーターによって話される文章は、ニュース記事の
重要な内容を伝えている可能性が高く、オーディオサマ
リに含まれる高い確率が与えられる。このような文章の
対応する画像部分は、スタジオのアナウンサーや現場の
レポーターの接写である。オーディオサマリ内のそれぞ
れの話された文が、対応する画像部分とよく整列してい
る場合、結果は、ほとんどアナウンサーやレポーターか
らなる画像部分を有するビデオサマリとなる。このよう
にして作成されるサマリは、自然でなめらかなものに見
えるかもしれないが、このような自然さおよびなめらか
さは、画像内容の相当な犠牲によりもたらされたもので
ある。完全な整列により引き起こされるこの問題を解決
するため、オーディオサマリとビジュアルサマリの間
で、以下の部分的整列操作が代わりに実行される。

【００３９】１．上記のように、オーディオサマリは、
確率の降順で、音声またはサウンドユニットを選択する
ことによって作成される。

【００４０】２．オーディオサマリ内の各コンポーネン
トＡ（ｔ_i，τ_i）に対して、対応する画像セグメントＩ
（ｔ_i，τ_i）の内容をチェックする。Ａ（ｔ_i，τ_i）、
Ｉ（ｔ_i，τ_i）のペアが、システムに提供されたあらか
じめ規定された整列要件を満たす場合、時刻ｔ_iからＬ
_min秒間、Ａ（ｔ_i，τ_i）をＩ（ｔ_i，τ_i）と整列させ
る。そうでない場合は、Ａ（ｔ_i，τ_i）に対して整列操
作を実行しない。以下の記述において、時刻ｔ_iを整列
点という。

【００４１】３．ステップ２で整列点が識別された後、
ビデオサマリ全体は、いくつかの時間パーティションに
分割される。２つの隣り合う整列点ｔ_i，ｔ_i+1に対し
て、期間（ｔ_i，ｔ_i+1）に対するビジュアルサマリを作
成するために、以下の操作を実行する。

【００４２】ａ．期間（ｔ_i，ｔ_i＋Ｌ_min）をＩ（ｔ_i，
Ｌ_min）∈Ｉ（ｔ_i，τ_i）で満たす。これは、Ａ（ｔ_i，
τ_i）とＩ（ｔ_i，τ_i）の間の部分的整列を行う。

【００４３】ｂ．期間（ｔ_i＋Ｌ_min，ｔ_i+1）に対する
ビジュアルサマリを作成するため、この期間に入る画像
セグメントの集合Θを求める。この期間に含まれること
が可能な画像セグメントの総数は、Ｃ＝ｍｉｎ（（ｔ
_i+1−ｔ_i−Ｌ_min）／Ｌ_min，｜Θ｜）に等しい。ただ
し、｜Θ｜は、集合Θ内の画像セグメントの個数を表
す。さらに、それぞれの画像セグメントに割り当てられ
ることが可能な時間長は、Ｌ＝（ｔ_i+1−ｔ_i−Ｌ_min）
／Ｃに等しい。Θから、最も高い確率を有するＣ個の画
像セグメントを選択し、そのＣ個の画像セグメントのそ
れぞれの最初のＬ秒間をとり、それらを時間の昇順に連
結することによって、この期間に対するビジュアルサマ
リを作成する。

【００４４】［ビデオサマリ作成の代替システム・方
法］上記のように、機械学習フレームワークに基づくビ
デオサマリ作成のシステムおよび方法は、人間の専門家
が前もって作成した十分な数のサンプルビデオサマリか
らなるトレーニングデータを必要とする。機械学習によ
るサマリ作成のシステムおよび方法は、専門家のサンプ
ルビデオサマリから学習すること、および、サンプルビ
デオサマリに示される挙動を模倣することによってビデ
オサマリを作成することが可能である。しかし、場合に
よっては、専門家により作られたサンプルビデオサマリ
を得ることが高価すぎることや非常に困難なことがあ
る。このような場合、トレーニングデータを必要としな
いシステムおよび方法を提供することが好ましい。

【００４５】図２は、トレーニングサンプルを必要とし
ない代替的なビデオサマリ作成システム・方法の一実施
例の動作を示す概略流れ図である。図２からわかるよう
に、この代替システムは、前述の機械学習によるシステ
ムのものと非常に類似した流れ図を有する。したがっ
て、これから説明する代替システム・方法でも、第１実
施例の場合と同様に、オーディオ中心型、画像中心型、
またはオーディオビジュアル統合型のサマリを得ること
が可能である。図２の流れ図において、この代替システ
ムの、以下のモジュール以外はすべて、図１に示した対
応するモジュールと同一である。

【００４６】ビジュアル内容による画像セグメントクラ
スタ化：第１実施例と同様の画像セグメント分節化に
加えて、画像セグメントを、それらのビジュアル類似度
および動的レベルに基づいてクラスタ化する。このクラ
スタ化は、例えば、Y. Gongand X. Liu, "Video Summar
ization Using Singular Value Decomposition", inPro
ceedings of IEEE International Conference of Compu
ter Vision and Pattern Recognition (CVPR'00)、に記
載されているものや、Y. Gong and X. Liu,"Summarizin
g Video By Minimizing Visual Content Redundancie
s", in Proceedings of IEEE International Conferenc
e of Multimedia and Expo (ICME'01)、に記載されてい
るもののような方法を使用可能である。各フレームクラ
スタは、同じクラスタ内のすべての画像セグメントが互
いに視覚的に類似しているような１個以上の画像セグメ
ントからなる。

【００４７】すべての特徴抽出操作がそれぞれのモジュ
ールによって実行された後、出力は、オーディオビジュ
アルサマリ作成モジュールに供給され、そこで、オーデ
ィオサマリもしくはビジュアルサマリのいずれか、また
はオーディオビジュアル統合型サマリが以下で説明する
ように作成される。

【００４８】前述のシステムにおける機械学習によるビ
デオサマリ作成モジュールとは異なり、この場合のオー
ディオビジュアルサマリ作成モジュールは、それぞれの
音声またはサウンドユニットＸに対する確率Ｐ（ｙ｜
Ｘ）も、それぞれのフレームクラスタＳに対する確率Ｐ
（ｙ｜Ｓ）も計算しない。代わりに、オーディオサマリ
がユーザ指定の長さＬ_sumに達するまで、音声ユニット
を（音声ユニット重要度ランク付けモジュールから受け
取った）その重要度ランクの降順に選択することによっ
て、オーディオサマリを作成する。サウンドユニット
は、例えば発見的ルールを用いて、ランク付けされ、オ
ーディオサマリに含めるかどうか選択される。前述のよ
うに、音声ユニットの重要度ランク付けは、例えば、米
国特許仮出願第６０／２５４，５３５号（出願日：２０
００年１２月１２日、発明の名称："Text Summarizatio
n Using IR Technique And Singular Value Decomposit
ion"）、および、米国特許出願第０９／８１７，５９１
号（出願日：２００１年３月２６日、発明の名称："Gen
eric Text Summarization Using Relevance Measure an
d Latent Semantic Analysis"）に記載されているよう
な、当業者に知られた方法を利用することが可能である
（本出願人による特願２００１−３５６８１３号を参
照）。さらに、重要度ランク付けは、発見的ルールと上
記の方法との組合せを用いて決定することも可能であ
る。例えば、このような発見的ルールは、重要な人物に
よって話された特定の語句や、爆発、自然災害、暴行な
どのような特別の事件を含む重要な画像セグメントに対
応する音声ユニットに、より高いランクを与える。

【００４９】ビジュアルサマリを作成するため、代替シ
ステムもまた、２個のパラメータＬ _sum、Ｌ_minのユーザ
による指定を必要とする。ここでも、各フレームクラス
タＳの重要度をランク付けするために、発見的ルールが
使用可能である。一般に、ビジュアル内容サマリ作成に
対するシステム設計者の、またはユーザの知識、要望、
あるいはプレファレンスを反映する任意のルールが、発
見的ルールとして使用可能である。例えば、このような
発見的ルールは、特定の画像特徴や、有名人や、会社ロ
ゴなどのような特別のフレームを含むフレームクラス
タ、人間や物体の動きや、ズーム、パンなどのようなカ
メラの動きを有するフレームクラスタ、あるいは、対応
する音声ユニットが重要であるか、重要な人物によって
話されているフレームクラスタに、より高いランクを与
える。

【００５０】さらに、各フレームクラスタの全時間長
（構成する各画像セグメントの継続時間の和）もまた、
ランク決定の過程で使用可能である。各フレームクラス
タは複数の画像セグメントからなることがあるため、１
つのフレームクラスタが選択された後、ビジュアルサマ
リを作成するためには、そのクラスタ内のどの画像セグ
メントを使用すべきかを決定することが依然として必要
である。画像セグメント選択の助けとなる情報が他にな
い場合、最も直接的な選択方法は、クラスタ内で最長の
画像セグメントを選択することとなるであろう。この理
由は、同じクラスタ内の画像セグメントはすべて視覚的
に類似しているため、最長の画像セグメントは、最も完
全なものであり、最もよくクラスタ全体を代表するから
である。この状況において、ビジュアルサマリ内に含ま
れることが可能な画像セグメントの総数Ｃと、それぞれ
の選択された画像セグメントに割り当てられることが可
能な時間長Ｌは、２個のパラメータＬ_sum、Ｌ_minを利用
した前述のと同じ式を用いて計算可能である。ビジュア
ルサマリは、Ｃ個のフレームクラスタをそれらの重要度
ランクの降順に選択し、そのＣ個のフレームクラスタの
それぞれから最長の画像セグメントの最初のＬ秒間をと
った後、それらを時間の昇順に連結することによって、
作成することができる。

【００５１】オーディオビジュアル統合型サマリについ
ては、前述の機械学習によるシステムと同様に、代替シ
ステムもまた、どのオーディオ内容がどの画像内容と同
期しなければならないかを示す整列指定と、パラメータ
Ｌ_sum、Ｌ_minのユーザによる入力とを必要とする。オー
ディオサマリが作成された後、オーディオサマリ内の各
コンポーネントＡ（ｔ_i，τ_i）は、その画像対応部分Ｉ
（ｔ_i，τ_i）とともに検査され、Ａ（ｔ_i，τ_i）、Ｉ
（ｔ_i，τ_i）のペアがあらかじめ規定された整列要件を
満たすかどうか調べられる。この検査は、ビデオサマリ
全体をいくつかの時間パーティションに分割する整列点
の集合を識別する。どのフレームクラスタが、および、
選択されたフレームクラスタ内のどの画像セグメント
が、どの時間パーティションを満たすために使用される
べきかを決定しなければならない。この整列操作は、以
下の２つの主なステップからなる。

【００５２】１．オーディオサマリ内の各コンポーネン
トＡ（ｔ_i，τ_i）に対して、対応する画像セグメントＩ
（ｔ_i，τ_i）の内容をチェックする。Ａ（ｔ_i，τ_i）、
Ｉ（ｔ_i，τ_i）のペアが、あらかじめ規定された整列要
件を満たす場合、時刻ｔ_iからＬ_min秒間、Ａ（ｔ_i，
τ_i）をＩ（ｔ_i，τ_i）と整列させる。そうでない場合
は、Ａ（ｔ_i，τ_i）に対して整列操作を実行しない。こ
こで、時刻ｔ_iを整列点という。

【００５３】２．ステップ１ですべての整列点が識別さ
れた後、ビデオサマリ全体は、いくつかの時間パーティ
ションに分割される。（ビジュアル内容によるフレーム
クラスタ化モジュールから得られる）クラスタ集合から
のフレームクラスタを割り当てることによって、それぞ
れのパーティションを満たす。この割当ては、以下の２
つの制約に適応しなければならない。

【００５４】ａ．単一割当て制約：各フレームクラス
タは、ただ１つの時間スロット割当てを受け取ることが
できる。

【００５５】ｂ．時間順序制約：ビジュアルサマリを
構成するすべての画像セグメントの時間順序は維持され
なければならない。

【００５６】以下で、上記の整列操作のステップ２の実
現法について説明する。ビデオサマリの全時間長Ｌ_sum
が整列点によってＰ個のパーティションに分割され、パ
ーティションｉの時間長がＴ_i（図３Ａ参照）であると
仮定した場合、各時間スロットは少なくともＬ_min秒間
の長さでなければならないため、パーティションｉは、

【数１】個の時間スロットを提供することが可能であり、したが
って利用可能な時間スロットの総数はＳ_total＝Σ_i=1 ^P
Ｓ_iとなる。ここで、問題は次のようになる。ビデオサ
マリの全部でＯ個のフレームクラスタとＳ_total個の時
間スロットが与えられた場合に、上記の２つの制約を満
たすように、フレームクラスタと時間スロットの間の最
適なマッチングを決定せよ。

【００５７】若干の再定式化によって、今述べた問題
を、最大２部マッチング問題に変換することができる。
頂点の有限集合をＶとし、Ｖ上の辺集合をＥとする無向
グラフをＧ＝（Ｖ，Ｅ）で表す。２部グラフとは、無向
グラフＧ＝（Ｖ，Ｅ）であって、Ｖが、（ｕ，ｖ）∈Ｅ
ならばｕ∈Ｌかつｖ∈Ｒかｕ∈Ｒかつｖ∈Ｌかのいずれ
かが成り立つような２つの集合ＬおよびＲに分割可能で
あるようなもののことである。すなわち、すべての辺
は、２つの集合ＬとＲの間をつなぐ。マッチングとは、
辺の部分集合Ｍ∈Ｅであって、ｕ∈Ｌかつｖ∈Ｒである
任意の頂点対（ｕ，ｖ）に対して、Ｍの高々１つの辺が
ｕとｖの間を連結するようなもののことである。

【００５８】最大マッチングとは、マッチングＭであっ
て、任意のマッチングＭ′に対して、｜Ｍ｜≧｜Ｍ′｜
となるようなもののことである。この問題に最大２部マ
ッチングを適用するため、各頂点ｕ∈Ｌを用いてフレー
ムクラスタを表し、各頂点ｖ∈Ｒを用いて時間スロット
を表す。辺（ｕ，ｖ）が存在するのは、フレームクラス
タｕが、時間順序制約に違反せずに時間スロットｖをと
ることができる場合である。フレームクラスタが、もと
のビデオの前半からのものと、もとのビデオの後半から
のものという複数の画像セグメントからなる場合、この
フレームクラスタは、それから出てＲ内の相異なる頂点
に至る複数の辺を有することになる。

【００５９】最大２部マッチング解は、すべてのフレー
ムクラスタと時間スロットの間の最適割当てである。な
お、最適割当ては必ずしも一意的であるとは限らない。

【００６０】図３Ａに、オーディオサマリとビジュアル
サマリの間の整列プロセスを示す。この図において、も
とのビデオ番組は７０秒間の長さであり、その画像トラ
ックは、それぞれ１０秒間継続する７個の画像セグメン
トからなり、オーディオトラックは、それぞれ長さ１０
秒間の７個の話された文からなる。ユーザは、Ｌ_sum＝
２０秒、およびＬ_min＝３秒と設定している。オーディ
オサマリ作成は、２個の話された文Ａ（０，１０）およ
びＡ（３０，１０）を選択し、ビジュアル内容によるク
ラスタ化は、次の５個のクラスタを生成したと仮定す
る：Ｉ（０，１０）からなるクラスタ１、Ｉ（１０，１０）およびＩ（５０，１０）からなるクラ
スタ２、Ｉ（３０，１０）からなるクラスタ３、Ｉ（２０，１０）およびＩ（４０，１０）からなるクラ
スタ４、Ｉ（６０，１０）からなるクラスタ５。

【００６１】オーディオサマリがＡ（０，１０）および
Ａ（３０，１０）から形成されているので、対応する画
像セグメントＩ（０，１０）およびＩ（３０，１０）の
内容を検査し、Ａ（０，１０）およびＡ（３０，１０）
に対して整列操作が要求されるかどうかを判定する必要
がある。Ｉ（０，１０）およびＩ（３０，１０）は話さ
れた文Ａ（０，１０）、Ａ（３０，１０）のそれぞれの
話者を表示していると仮定する。その場合、整列ルール
により、Ｌ_min（３）秒間、Ｉ（０，１０）はＡ（０，
１０）と整列し、Ｉ（３０，１０）はＡ（３０，１０）
と整列することになる。Ｉ（０，１０）およびＩ（３
０，１０）は、一度使用されたため、これらはビジュア
ルサマリの他の部分で使用されることはない。

【００６２】これらの２つの整列点により、ビジュアル
サマリの残りの期間は２つのパーティションに分割され
る。各パーティションは、高々２個の時間スロットを提
供することが可能な７秒間継続する。整列のために３個
のフレームクラスタおよび４個の時間スロットが残って
いるため、この整列作業に対して、図３Ｂに示す２部グ
ラフがある。フレームクラスタ２は、２個の画像セグメ
ントＩ（１０，１０）およびＩ（５０，１０）からなる
ため、パーティション１またはパーティション２のいず
れに時間スロットをとることも可能である。Ｉ（１０，
１０）がフレームクラスタ２から選択される場合、これ
はパーティション１に時間スロット２または３のいずれ
かをとることができる。他方、Ｉ（５０，１０）が選択
される場合、これはパーティション２に時間スロット５
または６のいずれかをとることができる。したがって、
クラスタ２から出る４本の辺、すなわち、時間スロット
２への辺、時間スロット３への辺、時間スロット５への
辺、および時間スロット６への辺が存在する。同様に、
クラスタ４から出る４本の辺、すなわち、時間スロット
２への辺、時間スロット３への辺、時間スロット５への
辺、および時間スロット６への辺が存在する。

【００６３】他方、フレームクラスタ５は、ただ１つの
画像セグメントＩ（６０，１０）からなり、パーティシ
ョン２に時間スロット５または６のいずれかをとること
ができる。したがって、フレームクラスタ５から出る２
本の辺が存在する。

【００６４】図３Ｂの２部グラフに対してはいくつかの
可能な最大マッチング解が存在する。図４Ａおよび図４
Ｂは２つのそれぞれの解を示す。図４Ａに示す解（ｉ）
では、時間スロット３が未割当てのままである。図４Ｂ
に示す解（ｉｉ）では、時間スロット５が未割当てのま
まである。この場合、すべてのフレームクラスタが使用
されているため、複数の画像セグメントを有するフレー
ムクラスタを用いて、空き時間スロットを満たす必要が
ある。解（ｉ）（図４Ａ）の場合、フレームクラスタ４
の画像セグメントＩ（２０，１０）が、空き時間スロッ
トを満たすために使用されなければならない。解（ｉ
ｉ）（図４Ｂ）の場合、フレームクラスタ２の画像セグ
メントＩ（５０，１０）が、空き時間スロットを満たす
ために使用されなければならない。

【００６５】上記の例は次のことを例示している。すな
わち、最大２部マッチングは、利用可能なフレームクラ
スタと時間スロットの間の最適なマッチングを求める
が、特に、利用可能なフレームクラスタの数より多くの
利用可能な時間スロットがあるときには、一部の時間ス
ロットを未割当てのまま残すことがある。これらの未割
当て時間スロットを満たすために、単一割当て制約をゆ
るめ、複数の画像セグメントを有するフレームクラスタ
を検査し、まだ使用されていない適当なセグメントを選
択することが可能である。このようにして、時間順序制
約は満たされる。ゆるめられた単一割当て制約に対する
それぞれの解を図５Ａおよび図５Ｂに示す。

【００６６】なお、最大２部マッチング操作は、不正な
解を生成することがある。図６Ａおよび図６Ｂは、これ
の２つの例を示す。例（ｉ）（図６Ａ）では、画像セグ
メントＩ（６０，１０）が画像セグメントＩ（５０，１
０）の前に置かれているため、時間順序制約に違反して
いる。例（ｉｉ）（図６Ｂ）では、割当てはいずれの制
約にも違反していないが、Ｉ（２０，１０）を時間スロ
ット２に割り当てることが、時間スロット３の割当てを
不可能にしている。しかし、これらの不正な解は、これ
らを２つの制約に照らして検査することによって容易に
検出され、各パーティションにおいて時間スロットに割
り当てられる画像セグメントを並べ替えることによって
補正することができる。例（ｉ）（図６Ａ）の場合、問
題は、パーティション２に割り当てられた２個の画像セ
グメントを時間の昇順にソートすることによって補正す
ることができる。例（ｉｉ）（図６Ｂ）の場合、まず、
フレームクラスタ２からの画像セグメントＩ（１０，１
０）（これは、パーティション１に割り当てられること
が可能な唯一の残りの画像セグメントである）を用いて
空き時間スロットを満たした後に、そのパーティション
内の２個の画像セグメントをソートすることによって、
最終的な解に達することができる。

【００６７】まとめると、整列操作のステップ２は、次
のように記述することができる。

【００６８】１．整列点が識別された後、割当てのため
に残っているフレームクラスタおよび時間スロットの個
数を決定し、それに応じて２部グラフを作る。

【００６９】２．最大２部マッチングアルゴリズムを適
用して可能な解を求める。

【００７０】３．解を２つの制約について検査し、各パ
ーティション内の画像セグメントをソートすることによ
って違反を補正する。

【００７１】４．未割当て時間スロットが存在する場
合、単一割当て制約をゆるめ、複数の画像セグメントを
有するフレームクラスタを検査し、まだ使用されていな
いセグメントで時間順序制約を満たす適当なセグメント
を選択する。

【００７２】以上、好ましい実施例を参照して、本発明
について詳細に説明したが、本発明の技術的範囲および
技術思想の範囲内のさまざまな変形は、この技術分野の
当業者には明らかである。したがって、本発明は、特許
請求の範囲の技術的範囲によってのみ限定されるとみな
されるべきである。

【００７３】

【発明の効果】以上詳細に説明したように、本発明によ
れば、オーディオと画像の内容の厳密な同期が要求され
ないときには、オーディオビジュアル統合型サマリ作成
技術を用い、オーディオ内容と画像内容の同期を要求す
るビデオ番組の場合には、オーディオ中心型または画像
中心型のいずれかの方法を用いてサマリが作成される。
これにより、入力ビデオから抽出された画像、オーディ
オ、およびテキスト特徴をシームレスに統合し、オーデ
ィオ中心型、画像中心型、およびオーディオビジュアル
統合型の高品質のサマリを作成することができる。

【図面の簡単な説明】

【図１】本発明のオーディオビジュアルサマリ作成シス
テム・方法の一実施例の動作を示す流れ図である。

【図２】本発明のオーディオビジュアルサマリ作成シス
テム・方法の代替実施例の動作を説明する流れ図であ
る。

【図３】Ａは、オーディオサマリとビジュアルサマリの
間の整列プロセスを示す図である。Ｂは、その整列のた
めのフレームワークを示す図である。

【図４】時間順序制約を満たす代替解を示す図である。

【図５】時間順序制約を満たす代替解を示す図である。

【図６】本発明の方法から得られる不正な解を示す図で
ある。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｎ 5/91 Ｈ０４Ｎ 5/91 ＮＣ (72)発明者シンリュウアメリカ合衆国，ニュージャージー 08540 プリンストン，４インディペンデンスウエイ，エヌ・イー・シー・ユー・エス・エーインク内Ｆターム(参考） 5C053 FA14 GA16 GB05 JA01 5D015 AA03 AA06 FF00 GG00 HH00 KK02 LL11

Claims

【特許請求の範囲】

【請求項１】オーディオトラックおよび画像トラック
を有するビデオ番組のオーディオ中心型オーディオビジ
ュアルサマリを作成する方法において、前記オーディオビジュアルサマリの時間長Ｌ_sumを選択
するステップと、前記オーディオトラックおよび画像トラックを検査する
ステップと、前記オーディオビジュアルサマリの所望される内容に関
連する１個以上の所定のオーディオ、画像、およびテキ
スト特性に基づいて、前記オーディオトラックから１個
以上のオーディオセグメントを識別し、当該識別が、前
記ビデオ番組内のオーディオセグメントのそれぞれにつ
いて、与えられたオーディオセグメントが前記オーディ
オビジュアルサマリに含められるのに適している確率を
与える、前もって生成された経験に基づく学習データに
依拠する機械学習法に従って実行される識別ステップ
と、前記オーディオセグメントを前記オーディオビジュアル
サマリに追加するステップと、時間長Ｌ_sumに達するまで、前記確率の降順に前記識別
および追加を実行するステップと、１個以上の識別されたオーディオセグメントに対応する
１個以上の画像セグメントのみを、前記１個以上のオー
ディオセグメントと前記１個以上の画像セグメントの間
の同期の程度が高くなるように、選択するステップとを
有することを特徴とするオーディオビジュアルサマリ作
成方法。
【請求項２】前記識別するステップは、非音声サウンドを含むオーディオセグメントを検出する
ステップと、内容に従って前記非音声サウンドを分類するステップ
と、前記非音声サウンドのそれぞれについて、開始時刻コー
ド、長さ、およびカテゴリを出力するステップとを有す
ることを特徴とする請求項１記載の方法。
【請求項３】前記オーディオセグメントが音声を含む
とき、前記識別するステップは、前記オーディオセグメントに対する音声認識を実行して
音声トランスクリプトを生成するステップと、前記音声トランスクリプトのそれぞれについて、開始時
刻コードおよび長さを出力するステップとを有すること
を特徴とする請求項２記載の方法。
【請求項４】字幕が存在するとき、前記方法は、字幕
と音声トランスクリプトを整列させるステップをさらに
有することを特徴とする請求項３記載の方法。
【請求項５】前記識別するステップは、前記字幕が存在する場合には前記整列に基づいて、ま
た、前記字幕が存在しない場合には前記音声トランスク
リプトに基づいて、音声ユニットを生成するステップ
と、前記音声ユニットのそれぞれについて、特徴ベクトルを
生成するステップとを有することを特徴とする請求項４
記載の方法。
【請求項６】前記音声ユニットのそれぞれについて、
重要度ランクを計算するステップをさらに有することを
特徴とする請求項５記載の方法。
【請求項７】前記音声ユニットを受け取るステップ
と、１以上の話者の識別を決定するステップとをさらに有す
ることを特徴とする請求項６記載の方法。
【請求項８】前記識別するステップは、前記画像トラ
ックを個々の画像セグメントに分節化するステップを有
することを特徴とする請求項１記載の方法。
【請求項９】画像特徴を抽出するステップと、前記画像セグメントのそれぞれについて、画像特徴ベク
トルを形成するステップとをさらに有することを特徴と
する請求項８記載の方法。
【請求項１０】前記画像セグメントのそれぞれについ
て、１個以上の顔の識別を決定するステップをさらに有
することを特徴とする請求項９記載の方法。
【請求項１１】前記確率は、ナイーブベイズ法、決定
木法、ニューラルネットワーク法、および最大エントロ
ピー法からなる群から選択される方法に従って計算され
ることを特徴とする請求項１記載の方法。
【請求項１２】オーディオトラックおよび画像トラッ
クを有するビデオ番組の画像中心型オーディオビジュア
ルサマリを作成する方法において、前記オーディオビジュアルサマリの時間長Ｌ_sumを選択
するステップと、前記ビデオ番組の前記画像トラックおよびオーディオト
ラックを検査するステップと、前記オーディオビジュアルサマリの所望される内容に関
連する１個以上の所定の画像、オーディオ、およびテキ
スト特性に基づいて、前記画像トラックから１個以上の
画像セグメントを識別し、当該識別が、前記ビデオ番組
内の前記画像セグメントのそれぞれについて、与えられ
た画像セグメントが前記オーディオビジュアルサマリに
含められるのに適している確率を与える、前もって生成
された経験に基づく学習データに依拠する機械学習法に
従って実行される識別ステップと、前記１個以上の画像セグメントを前記オーディオビジュ
アルサマリに追加するステップと、時間長Ｌ_sumに達するまで、前記確率の降順に前記識別
および追加を実行するステップと、１個以上の識別された画像セグメントに対応する１個以
上のオーディオセグメントのみを、前記１個以上の画像
セグメントと前記１個以上のオーディオセグメントの間
の同期の程度が高くなるように、選択するステップとを
有することを特徴とするオーディオビジュアルサマリ作
成方法。
【請求項１３】前記識別するステップは、前記画像ト
ラックを個々の画像セグメントに分節化するステップを
有することを特徴とする請求項１２記載の方法。
【請求項１４】画像特徴を抽出するステップと、前記画像セグメントのそれぞれについて、画像特徴ベク
トルを形成するステップとをさらに有することを特徴と
する請求項１３記載の方法。
【請求項１５】前記画像セグメントのそれぞれについ
て、１個以上の顔の識別を決定するステップをさらに有
することを特徴とする請求項１０記載の方法。
【請求項１６】前記オーディオビジュアルサマリ内の
前記画像セグメントのそれぞれについて、最小再生時間
Ｌ_minを選択するステップをさらに有することを特徴と
する請求項１２記載の方法。
【請求項１７】比較的多数のオーディオセグメントお
よび画像セグメントが前記オーディオビジュアルサマリ
に提供されて、幅指向のオーディオビジュアルサマリを
提供するように、Ｌ_minはＬ_sumに比べて十分に小さいこ
とを特徴とする請求項１６記載の方法。
【請求項１８】比較的少数のオーディオセグメントお
よび画像セグメントが前記オーディオビジュアルサマリ
に提供されて、深さ指向のオーディオビジュアルサマリ
を提供するように、Ｌ_minはＬ_sumに比べて十分に大きい
ことを特徴とする請求項１６記載の方法。
【請求項１９】前記識別するステップは、非音声サウンドを含むオーディオセグメントを検出する
ステップと、内容に従って前記非音声サウンドを分類するステップ
と、前記非音声サウンドのそれぞれについて、開始時刻コー
ド、長さ、およびカテゴリを出力するステップとを有す
ることを特徴とする請求項１２記載の方法。
【請求項２０】前記オーディオセグメントが音声を含
むとき、前記識別するステップは、前記オーディオセグメントに対する音声認識を実行して
音声トランスクリプトを生成するステップと、前記音声トランスクリプトのそれぞれについて、開始時
刻コードおよび長さを出力するステップとを有すること
を特徴とする請求項１９記載の方法。
【請求項２１】字幕が存在するとき、前記方法は、字
幕と音声トランスクリプトを整列させるステップをさら
に有することを特徴とする請求項２０記載の方法。
【請求項２２】前記識別するステップは、前記字幕が存在する場合には前記整列に基づいて、ま
た、前記字幕が存在しない場合には前記音声トランスク
リプトに基づいて、音声ユニットを生成するステップ
と、前記音声ユニットのそれぞれについて、特徴ベクトルを
生成するステップとを有することを特徴とする請求項２
１記載の方法。
【請求項２３】前記音声ユニットのそれぞれについ
て、重要度ランクを計算するステップをさらに有するこ
とを特徴とする請求項２２記載の方法。
【請求項２４】前記音声ユニットを受け取るステップ
と、１以上の話者の識別を決定するステップとをさらに有す
ることを特徴とする請求項２３記載の方法。
【請求項２５】前記確率は、ナイーブベイズ法、決定
木法、ニューラルネットワーク法、および最大エントロ
ピー法からなる群から選択される方法に従って計算され
ることを特徴とする請求項１２記載の方法。
【請求項２６】オーディオトラックおよびビデオトラ
ックを有するビデオ番組の統合オーディオビジュアルサ
マリを作成する方法において、前記オーディオビジュアルサマリの時間長Ｌ_sumを選択
するステップと、オーディオビジュアルサマリに含まれるべき前記画像セ
グメントのそれぞれについて、最小再生時間Ｌ_minを選
択するステップと、前記オーディオビジュアルサマリの長さＬ_sumに達する
まで１個以上の所望されるオーディオセグメントを選択
し、当該選択が、前記ビデオ番組内の前記オーディオセ
グメントのそれぞれについて、与えられたオーディオセ
グメントが前記オーディオビジュアルサマリに含められ
るのに適している確率を与える、前もって生成された経
験に基づく学習データに依拠する機械学習法に従って実
行されることによりオーディオサマリを作成するステッ
プと、前記画像セグメントのそれぞれについて、前記機械学習
法に従って、与えられた画像セグメントが前記オーディ
オビジュアルサマリに含められるのに適している確率を
計算するステップと、選択された前記オーディオセグメントのそれぞれについ
て、対応する画像セグメントに関して、得られるオーデ
ィオセグメントと画像セグメントのペアが、あらかじめ
規定された整列要件を満たすかどうかを検査するステッ
プと、得られるオーディオセグメントと画像セグメントのペア
が、あらかじめ規定された整列要件を満たす場合、ペア
のオーディオセグメントと画像セグメントをそれぞれの
最初から前記最小再生時間Ｌ_minだけ整列させて第１の
整列点を規定するステップと、前記検査および識別を繰り返して前記整列点をすべて識
別するステップと、前記オーディオビジュアルサマリの全長を、前記オーディオビジュアルサマリの最初から開始し第１
の整列点で終了するか、ある整列点における画像セグメントの最後から開始し次
の整列点で終了するか、最後の整列点における画像セグメントの最後から開始し
前記オーディオビジュアルサマリの最後で終了するかの
いずれかの期間をそれぞれ有する複数のパーティション
に分割するステップと、前記パーティションのそれぞれについて、以下のステッ
プ、すなわち、該パーティションの期間に入る画像セグメントの集合を
識別するステップと、前記パーティションに挿入されることが可能な画像セグ
メントの個数を決定するステップと、挿入されるべきと識別された画像セグメントの長さを決
定するステップと、与えられた画像セグメントが前記オーディオビジュアル
サマリに含められるのに適している前記確率の降順に、
識別された画像セグメントを前記個数だけ選択するステ
ップと、選択された画像セグメントのそれぞれについて、それぞ
れの最初から前記時間長だけのセクションを収集し、す
べての収集されたセクションを時間の降順に前記パーテ
ィションに追加するステップとに従って、さらに画像セ
グメントを追加するステップとを有することを特徴とす
るオーディオビジュアルサマリ作成方法。
【請求項２７】前記識別するステップは、非音声サウンドを含むオーディオセグメントを検出する
ステップと、内容に従って前記非音声サウンドを分類するステップ
と、前記非音声サウンドのそれぞれについて、開始時刻コー
ド、長さ、およびカテゴリを出力するステップとを有す
ることを特徴とする請求項２６記載の方法。
【請求項２８】前記オーディオセグメントが音声を含
むとき、前記識別するステップは、前記オーディオセグメントに対する音声認識を実行して
音声トランスクリプトを生成するステップと、前記音声トランスクリプトのそれぞれについて、開始時
刻コードおよび長さを出力するステップとを有すること
を特徴とする請求項２７記載の方法。
【請求項２９】字幕が存在するとき、前記方法は、字
幕と音声トランスクリプトを整列させるステップをさら
に有することを特徴とする請求項２８記載の方法。
【請求項３０】前記字幕が存在する場合には前記整列
に基づいて、また、前記字幕が存在しない場合には前記
音声トランスクリプトに基づいて、音声ユニットを生成
するステップと、前記音声ユニットのそれぞれについて、特徴ベクトルを
生成するステップとをさらに有することを特徴とする請
求項２９記載の方法。
【請求項３１】前記音声ユニットのそれぞれについ
て、重要度ランクを計算するステップをさらに有するこ
とを特徴とする請求項３０記載の方法。
【請求項３２】前記音声ユニットを受け取るステップ
と、１以上の話者の識別を決定するステップとをさらに有す
ることを特徴とする請求項３１記載の方法。
【請求項３３】比較的多数の画像セグメントが前記オ
ーディオビジュアルサマリに提供されて、幅指向のオー
ディオビジュアルサマリを提供するように、Ｌ_minはＬ
_sumに比べて十分に小さいことを特徴とする請求項２６
記載の方法。
【請求項３４】比較的少数の画像セグメントが前記オ
ーディオビジュアルサマリに提供されて、深さ指向のオ
ーディオビジュアルサマリを提供するように、Ｌ_minは
Ｌ_sumに比べて十分に大きいことを特徴とする請求項２
６記載の方法。
【請求項３５】前記与えられたオーディオセグメント
が前記オーディオビジュアルサマリに含められるのに適
している確率は、ナイーブベイズ法、決定木法、ニュー
ラルネットワーク法、および最大エントロピー法からな
る群から選択される方法に従って計算されることを特徴
とする請求項２６記載の方法。
【請求項３６】前記与えられた画像セグメントが前記
オーディオビジュアルサマリに含められるのに適してい
る確率は、ナイーブベイズ法、決定木法、ニューラルネ
ットワーク法、および最大エントロピー法からなる群か
ら選択される方法に従って計算されることを特徴とする
請求項２６記載の方法。
【請求項３７】前記識別するステップは、前記画像ト
ラックを個々の画像セグメントに分節化するステップを
有することを特徴とする請求項２６記載の方法。
【請求項３８】画像特徴を抽出するステップと、前記画像セグメントのそれぞれについて、画像特徴ベク
トルを形成するステップとをさらに有することを特徴と
する請求項３７記載の方法。
【請求項３９】前記画像セグメントのそれぞれについ
て、１個以上の顔の識別を決定するステップをさらに有
することを特徴とする請求項３８記載の方法。
【請求項４０】オーディオトラックおよび画像トラッ
クを有するビデオ番組のオーディオ中心型オーディオビ
ジュアルサマリを作成する方法において、前記オーディオビジュアルサマリの時間長Ｌ_sumを選択
するステップと、前記オーディオトラックおよび画像トラックを検査する
ステップと、前記オーディオビジュアルサマリの所望される内容に関
連する１個以上の所定のオーディオ、画像、およびテキ
スト特性に基づいて、前記オーディオトラックから１個
以上のオーディオセグメントを識別し、当該識別が、前
記ビデオ番組内の前記オーディオセグメントのそれぞれ
について、与えられたオーディオセグメントが前記オー
ディオビジュアルサマリに含められるのに適しているか
どうかを決定するランク付けを与える、所定の発見的ル
ールの集合に従って実行される識別ステップと、前記オーディオセグメントを前記オーディオビジュアル
サマリに追加するステップと、時間長Ｌ_sumに達するまで、前記オーディオセグメント
のランク付けの降順に前記識別および追加を実行するス
テップと、１個以上の識別されたオーディオセグメントに対応する
１個以上の画像セグメントのみを、前記１個以上のオー
ディオセグメントと前記１個以上の画像セグメントの間
の同期の程度が高くなるように、選択するステップとを
有することを特徴とするオーディオビジュアルサマリ作
成方法。
【請求項４１】前記識別するステップは、非音声サウンドを含むオーディオセグメントを検出する
ステップと、内容に従って前記非音声サウンドを分類するステップ
と、前記非音声サウンドのそれぞれについて、開始時刻コー
ド、長さ、およびカテゴリを出力するステップとを有す
ることを特徴とする請求項４０記載の方法。
【請求項４２】前記オーディオセグメントが音声を含
むとき、前記識別するステップは、前記オーディオセグメントに対する音声認識を実行して
音声トランスクリプトを生成するステップと、前記音声トランスクリプトのそれぞれについて、開始時
刻コードおよび長さを出力するステップとを有すること
を特徴とする請求項４１記載の方法。
【請求項４３】字幕が存在するとき、前記方法は、字
幕と音声トランスクリプトを整列させるステップをさら
に有することを特徴とする請求項４２記載の方法。
【請求項４４】前記字幕が存在する場合には前記整列
に基づいて、また、前記字幕が存在しない場合には前記
音声トランスクリプトに基づいて、音声ユニットを生成
するステップと、前記音声ユニットのそれぞれについて、特徴ベクトルを
生成するステップとをさらに有することを特徴とする請
求項４３記載の方法。
【請求項４５】前記音声ユニットを受け取るステップ
と、１以上の話者の識別を決定するステップとをさらに有す
ることを特徴とする請求項４４記載の方法。
【請求項４６】前記識別するステップは、前記画像ト
ラックを個々の画像セグメントに分節化するステップを
有することを特徴とする請求項４０記載の方法。
【請求項４７】画像特徴を抽出するステップと、前記画像セグメントのそれぞれについて、画像特徴ベク
トルを形成するステップとをさらに有することを特徴と
する請求項４６記載の方法。
【請求項４８】前記画像セグメントのそれぞれについ
て、１個以上の顔の識別を決定するステップをさらに有
することを特徴とする請求項４７記載の方法。
【請求項４９】前記音声ユニットのそれぞれについて
前記ランク付けを計算するステップをさらに有すること
を特徴とする請求項４０記載の方法。
【請求項５０】オーディオトラックおよび画像トラッ
クを有するビデオ番組の画像中心型オーディオビジュア
ルサマリを作成する方法において、前記サマリの時間長Ｌ_sumを選択するステップと、前記画像トラックおよびオーディオトラックを検査する
ステップと、前記オーディオビジュアルサマリの所望される内容に関
連する１個以上の所定の画像、オーディオ、およびテキ
スト特性に基づいて、前記画像トラックから１個以上の
画像セグメントを識別し、当該識別が、前記ビデオ番組
内の前記画像セグメントのそれぞれについて、与えられ
た画像セグメントが前記オーディオビジュアルサマリに
含められるのに適しているかどうかを決定するランク付
けを与える、所定の発見的ルールの集合に従って実行さ
れる識別ステップと、前記１個以上の画像セグメントを前記オーディオビジュ
アルサマリに追加するステップと、時間長Ｌ_sumに達するまで、前記ランク付けの降順に前
記識別および追加を実行するステップと、１個以上の識別された画像セグメントに対応する１個以
上のオーディオセグメントのみを、前記１個以上の画像
セグメントと前記１個以上のオーディオセグメントの間
の同期の程度が高くなるように、選択するステップとを
有することを特徴とするオーディオビジュアルサマリ作
成方法。
【請求項５１】前記識別するステップは、所定の視覚
的類似性および動的特性に基づいて、前記ビデオ番組の
画像セグメントをクラスタ化するステップを有すること
を特徴とする請求項５０記載の方法。
【請求項５２】前記識別するステップは、前記画像ト
ラックを個々の画像セグメントに分節化するステップを
有することを特徴とする請求項５１記載の方法。
【請求項５３】画像特徴を抽出するステップと、前記フレームクラスタのそれぞれについて、画像特徴ベ
クトルを形成するステップとをさらに有することを特徴
とする請求項５２記載の方法。
【請求項５４】前記フレームクラスタのそれぞれにつ
いて、１個以上の顔の識別を決定するステップをさらに
有することを特徴とする請求項５３記載の方法。
【請求項５５】前記識別するステップは、非音声サウンドを含むオーディオセグメントを検出する
ステップと、内容に従って前記非音声サウンドを分類するステップ
と、前記非音声サウンドのそれぞれについて、開始時刻コー
ド、長さ、およびカテゴリを出力するステップとを有す
ることを特徴とする請求項５０記載の方法。
【請求項５６】前記オーディオセグメントが音声を含
むとき、前記識別するステップは、前記オーディオセグメントに対する音声認識を実行して
音声トランスクリプトを生成するステップと、前記音声トランスクリプトのそれぞれについて、開始時
刻コードおよび長さを出力するステップとを有すること
を特徴とする請求項５５記載の方法。
【請求項５７】字幕が存在するとき、前記方法は、字
幕と音声トランスクリプトを整列させるステップをさら
に有することを特徴とする請求項５６記載の方法。
【請求項５８】前記字幕が存在する場合には前記整列
に基づいて、また、前記字幕が存在しない場合には前記
音声トランスクリプトに基づいて、音声ユニットを生成
するステップと、前記音声ユニットのそれぞれについて、特徴ベクトルを
生成するステップとをさらに有することを特徴とする請
求項５７記載の方法。
【請求項５９】前記音声ユニットのそれぞれについ
て、重要度ランクを計算するステップをさらに有するこ
とを特徴とする請求項５８記載の方法。
【請求項６０】前記音声ユニットを受け取るステップ
と、１以上の話者の識別を決定するステップとをさらに有す
ることを特徴とする請求項５９記載の方法。
【請求項６１】前記オーディオビジュアルサマリ内の
前記画像セグメントのそれぞれについて、最小再生時間
Ｌ_minを選択するステップをさらに有することを特徴と
する請求項５０記載の方法。
【請求項６２】比較的多数のオーディオセグメントお
よび画像セグメントが前記オーディオビジュアルサマリ
に提供されて、幅指向のオーディオビジュアルサマリを
提供するように、Ｌ_minはＬ_sumに比べて十分に小さいこ
とを特徴とする請求項６１記載の方法。
【請求項６３】比較的少数のオーディオセグメントお
よび画像セグメントが前記オーディオビジュアルサマリ
に提供されて、深さ指向のオーディオビジュアルサマリ
を提供するように、Ｌ_minはＬ_sumに比べて十分に大きい
ことを特徴とする請求項６１記載の方法。
【請求項６４】オーディオトラックおよびビデオトラ
ックを有するビデオ番組の統合オーディオビジュアルサ
マリを作成する方法において、前記オーディオビジュアルサマリの長さＬ_sumを選択す
るステップと、オーディオビジュアルサマリに含まれるべき複数の画像
セグメントのそれぞれについて、最小再生時間Ｌ_minを
選択するステップと、前記ビデオ番組内の前記オーディオセグメントのそれぞ
れについて、与えられたオーディオセグメントが前記オ
ーディオビジュアルサマリに含められるのに適している
かどうかを決定するランク付けを与える、所定の発見的
ルールの集合に従って、１個以上の所望されるオーディ
オセグメントを選択することによって、オーディオサマ
リを作成するステップと、前記オーディオビジュアルサマリの長さに達するまで、
前記オーディオセグメントのランク付けの降順に、前記
選択を実行するステップと、各フレームクラスタが少なくとも１つの前記画像セグメ
ントを含み、与えられたフレームクラスタ内のすべての
画像セグメントが互いに視覚的に類似しているように、
前記画像セグメントの視覚的類似性および動的特性に基
づいて、前記ビデオ番組の前記画像セグメントを複数の
フレームクラスタへとグループ分けするステップと、選択された前記オーディオセグメントのそれぞれについ
て、対応する画像セグメントに関して、得られるオーデ
ィオセグメントと画像セグメントのペアが、あらかじめ
規定された整列要件を満たすかどうかを検査するステッ
プと、得られるオーディオセグメントと画像セグメントのペア
が、あらかじめ規定された整列要件を満たす場合、ペア
のオーディオセグメントと画像セグメントをそれぞれの
最初から前記最小再生時間Ｌ_minだけ整列させて第１の
整列点を規定するステップと、前記検査および識別を繰り返して前記整列点をすべて識
別するステップと、前記オーディオビジュアルサマリの全長を、前記オーディオビジュアルサマリの最初から開始し第１
の整列点で終了するか、ある整列点における画像セグメントの最後から開始し次
の整列点で終了するか、最後の整列点における画像セグメントの最後から開始し
前記オーディオビジュアルサマリの最後で終了するかの
いずれかの期間をそれぞれ有する複数のパーティション
に分割するステップと、各時間スロットが前記最小再生時間Ｌ_minに等しい長さ
を有するように、前記パーティションのそれぞれを複数
の時間スロットに分割するステップと、前記フレームクラスタと前記時間スロットの間の最適マ
ッチングに従って、以下のこと、すなわち、各フレームクラスタをただ１つの時間スロットに割り当
てること、および、オーディオビジュアルサマリ内のす
べての画像セグメントの時間順序を維持することに基づ
いて、前記パーティションのそれぞれの前記時間スロッ
トを満たすように前記フレームクラスタを割り当てるス
テップとを有することを特徴とするオーディオビジュア
ルサマリ作成方法。
【請求項６５】前記最適マッチングは、最大２部マッ
チング法によって計算されることを特徴とする請求項６
４記載の方法。
【請求項６６】フレームクラスタより多くの時間スロ
ットがある場合、複数の画像セグメントを含むフレーム
クラスタを識別し、前記オーディオビジュアルサマリ内
の前記画像セグメントの時間順序を維持しながら、すべ
ての前記時間スロットが満たされるまで、前記識別され
たフレームクラスタからの画像セグメントを時間スロッ
トに割り当てることを特徴とする請求項６５記載の方
法。
【請求項６７】前記時間順序が維持されていることを
確認するために前記オーディオビジュアルサマリを検査
するステップと、前記時間順序が維持されていない場合、前記時間順序が
維持されるように、各パーティションに追加された前記
画像セグメントを並べ替えるステップとをさらに有する
ことを特徴とする請求項６６記載の方法。
【請求項６８】前記識別するステップは、非音声サウンドを含むオーディオセグメントを検出する
ステップと、内容に従って前記非音声サウンドを分類するステップ
と、前記非音声サウンドのそれぞれについて、開始時刻コー
ド、長さ、およびカテゴリを出力するステップとを有す
ることを特徴とする請求項６４記載の方法。
【請求項６９】前記オーディオセグメントが音声を含
むとき、前記識別するステップは、前記オーディオセグメントに対する音声認識を実行して
音声トランスクリプトを生成するステップと、前記音声トランスクリプトのそれぞれについて、開始時
刻コードおよび長さを出力するステップとを有すること
を特徴とする請求項６８記載の方法。
【請求項７０】字幕が存在するとき、前記方法は、字
幕と音声トランスクリプトを整列させるステップをさら
に有することを特徴とする請求項６９記載の方法。
【請求項７１】前記字幕が存在する場合には前記整列
に基づいて、また、前記字幕が存在しない場合には前記
音声トランスクリプトに基づいて、音声ユニットを生成
するステップと、前記音声ユニットのそれぞれについて、特徴ベクトルを
生成するステップとをさらに有することを特徴とする請
求項７０記載の方法。
【請求項７２】前記音声ユニットのそれぞれについ
て、重要度ランクを計算するステップをさらに有するこ
とを特徴とする請求項７１記載の方法。
【請求項７３】前記音声ユニットを受け取るステップ
と、１以上の話者の識別を決定するステップとをさらに有す
ることを特徴とする請求項７２記載の方法。
【請求項７４】比較的多数の画像セグメントが前記オ
ーディオビジュアルサマリに提供されて、幅指向のオー
ディオビジュアルサマリを提供するように、Ｌ_minはＬ
_sumに比べて十分に小さいことを特徴とする請求項６４
記載の方法。
【請求項７５】比較的少数の画像セグメントが前記オ
ーディオビジュアルサマリに提供されて、深さ指向のオ
ーディオビジュアルサマリを提供するように、Ｌ_minは
Ｌ_sumに比べて十分に大きいことを特徴とする請求項６
４記載の方法。
【請求項７６】前記識別するステップは、前記画像ト
ラックを個々の画像セグメントに分節化するステップを
有することを特徴とする請求項６４記載の方法。
【請求項７７】画像特徴を抽出するステップと、前記フレームクラスタのそれぞれについて、画像特徴ベ
クトルを形成するステップとをさらに有することを特徴
とする請求項７６記載の方法。
【請求項７８】前記画像セグメントのそれぞれについ
て、１個以上の顔の識別を決定するステップをさらに有
することを特徴とする請求項７７記載の方法。
【請求項７９】オーディオビジュアルコンテンツから
なるビデオ番組のビデオサマリを作成する装置におい
て、前記オーディオビジュアルコンテンツのオーディオトラ
ックおよび画像トラックを検査する検査手段と、前記ビデオサマリの所望されるコンテンツに関連する所
定のオーディオ、画像、およびテキスト特性のうちの少
なくとも１つに基づき、前記オーディオトラックから１
個以上のオーディオセグメントを、前記画像トラックか
ら１個以上の画像セグメントを、前記ビデオサマリに含
められるのに適しているかどうかを決定する順位を与え
る所定の基準に従って、それぞれ識別する手段と、前記順位に従って、前記１個以上のオーディオセグメン
トおよび前記１個以上の画像セグメントをそれぞれ時間
軸上に配置して前記ビデオサマリを生成する手段と、を有することを特徴とするビデオサマリ作成装置。
【請求項８０】前記識別する手段は、前記ビデオサマリの所望される内容に関連する１個以上
の所定のオーディオ、画像、およびテキスト特性に基づ
いて、前記オーディオトラックから１個以上のオーディ
オセグメントを識別する際に、当該識別を、前記ビデオ
番組内のオーディオセグメントのそれぞれについて、与
えられたオーディオセグメントが前記オーディオビジュ
アルサマリに含められるのに適している確率を与える、
前もって生成された経験に基づく学習データに依拠する
機械学習法に従って実行する、ことを特徴とする請求項
７９記載のビデオサマリ作成装置。
【請求項８１】前記識別する手段は、前記オーディオ
セグメントをカテゴリ化することを特徴とする請求項８
０記載のビデオサマリ作成装置。
【請求項８２】前記オーディオセグメントは、音声と
非音声とにカテゴリ化されることを特徴とする請求項８
１記載のビデオサマリ作成装置。
【請求項８３】前記識別する手段は、非音声サウンドを含むオーディオセグメントを検出し、
内容に従って前記非音声サウンドを分類し、前記非音声
サウンドのそれぞれについて、オーディオ情報を出力す
ることを特徴とする請求項８２記載のビデオサマリ作成
装置。
【請求項８４】前記オーディオ情報は、開始時刻コー
ド、長さ、およびカテゴリであることを特徴とする請求
項８３記載のビデオサマリ作成装置。
【請求項８５】前記識別する手段は、前記オーディオビジュアルサマリの所望される内容に関
連する１個以上の所定の画像、オーディオ、およびテキ
スト特性に基づいて、前記画像トラックから１個以上の
画像セグメントを識別し、当該識別が、前記ビデオ番組
内の前記画像セグメントのそれぞれについて、与えられ
た画像セグメントが前記オーディオビジュアルサマリに
含められるのに適している確率を与える、前もって生成
された経験に基づく学習データに依拠する機械学習法に
従って実行する、ことを特徴とする請求項７９記載のビ
デオサマリ作成装置。
【請求項８６】前記識別する手段は、１個以上の所望されるオーディオセグメントを選択し、
当該選択が、前記ビデオ番組内の前記オーディオセグメ
ントのそれぞれについて、与えられたオーディオセグメ
ントが前記オーディオビジュアルサマリに含められるの
に適している確率を与える、前もって生成された経験に
基づく学習データに依拠する機械学習法に従って実行す
る、ことを特徴とする請求項７９記載のビデオサマリ作
成装置。
【請求項８７】前記識別する手段は、前記オーディオビジュアルサマリの所望される内容に関
連する１個以上の所定のオーディオ、画像、およびテキ
スト特性に基づいて、前記オーディオトラックから１個
以上のオーディオセグメントを識別し、当該識別が、前
記ビデオ番組内の前記オーディオセグメントのそれぞれ
について、与えられたオーディオセグメントが前記オー
ディオビジュアルサマリに含められるのに適しているか
どうかを決定するランク付けを与える、所定の発見的ル
ールの集合に従って実行する、ことを特徴とする請求項
７９記載のビデオサマリ作成装置。
【請求項８８】前記識別する手段は、前記オーディオ
セグメントをカテゴリ化することを特徴とする請求項８
７記載のビデオサマリ作成装置。
【請求項８９】前記オーディオセグメントは、音声と
非音声とにカテゴリ化されることを特徴とする請求項８
８記載のビデオサマリ作成装置。
【請求項９０】前記識別する手段は、非音声サウンドを含むオーディオセグメントを検出し、
内容に従って前記非音声サウンドを分類し、前記非音声
サウンドのそれぞれについて、オーディオ情報を出力す
ることを特徴とする請求項８９記載のビデオサマリ作成
装置。
【請求項９１】前記オーディオ情報は、開始時刻コー
ド、長さ、およびカテゴリであることを特徴とする請求
項９０記載のビデオサマリ作成装置。
【請求項９２】前記識別する手段は、前記オーディオビジュアルサマリの所望される内容に関
連する１個以上の所定の画像、オーディオ、およびテキ
スト特性に基づいて、前記画像トラックから１個以上の
画像セグメントを識別し、当該識別が、前記ビデオ番組
内の前記画像セグメントのそれぞれについて、与えられ
た画像セグメントが前記オーディオビジュアルサマリに
含められるのに適しているかどうかを決定するランク付
けを与える、所定の発見的ルールの集合に従って実行す
る、ことを特徴とする請求項７９記載のビデオサマリ作
成装置。
【請求項９３】オーディオビジュアルコンテンツから
なるビデオ番組のビデオサマリを作成する方法におい
て、前記オーディオビジュアルコンテンツのオーディオトラ
ックおよび画像トラックを検査し、前記ビデオサマリの所望されるコンテンツに関連する所
定のオーディオ、画像、およびテキスト特性のうちの少
なくとも１つに基づき、前記オーディオトラックから１
個以上のオーディオセグメントを、前記画像トラックか
ら１個以上の画像セグメントを、前記ビデオサマリに含
められるのに適しているかどうかを決定する順位を与え
る所定の基準に従って、それぞれ識別し、前記順位に従って、前記１個以上のオーディオセグメン
トおよび前記１個以上の画像セグメントをそれぞれ時間
軸上に配置して前記ビデオサマリを生成する、ステップを有することを特徴とするビデオサマリ作成方
法。
【請求項９４】前記識別するステップは、前記ビデオサマリの所望される内容に関連する１個以上
の所定のオーディオ、画像、およびテキスト特性に基づ
いて、前記オーディオトラックから１個以上のオーディ
オセグメントを識別する際に、当該識別を、前記ビデオ
番組内のオーディオセグメントのそれぞれについて、与
えられたオーディオセグメントが前記オーディオビジュ
アルサマリに含められるのに適している確率を与える、
前もって生成された経験に基づく学習データに依拠する
機械学習法に従って実行する、ことを特徴とする請求項
９３記載のビデオサマリ作成方法。
【請求項９５】前記識別するステップは、前記オーデ
ィオセグメントをカテゴリ化することを特徴とする請求
項９４記載のビデオサマリ作成方法。
【請求項９６】前記オーディオセグメントは、音声と
非音声とにカテゴリ化されることを特徴とする請求項９
５記載のビデオサマリ作成方法。
【請求項９７】前記識別するステップは、非音声サウンドを含むオーディオセグメントを検出し、
内容に従って前記非音声サウンドを分類し、前記非音声
サウンドのそれぞれについて、オーディオ情報を出力す
ることを特徴とする請求項９７記載のビデオサマリ作成
方法。
【請求項９８】前記オーディオ情報は、開始時刻コー
ド、長さ、およびカテゴリであることを特徴とする請求
項９７記載のビデオサマリ作成方法。
【請求項９９】前記識別するステップは、前記オーディオビジュアルサマリの所望される内容に関
連する１個以上の所定の画像、オーディオ、およびテキ
スト特性に基づいて、前記画像トラックから１個以上の
画像セグメントを識別し、当該識別が、前記ビデオ番組
内の前記画像セグメントのそれぞれについて、与えられ
た画像セグメントが前記オーディオビジュアルサマリに
含められるのに適している確率を与える、前もって生成
された経験に基づく学習データに依拠する機械学習法に
従って実行する、ことを特徴とする請求項９３記載のビ
デオサマリ作成方法。
【請求項１００】前記識別するステップは、１個以上の所望されるオーディオセグメントを選択し、
当該選択が、前記ビデオ番組内の前記オーディオセグメ
ントのそれぞれについて、与えられたオーディオセグメ
ントが前記オーディオビジュアルサマリに含められるの
に適している確率を与える、前もって生成された経験に
基づく学習データに依拠する機械学習法に従って実行す
る、ことを特徴とする請求項９３記載のビデオサマリ作
成方法。
【請求項１０１】前記識別するステップは、前記オーディオビジュアルサマリの所望される内容に関
連する１個以上の所定のオーディオ、画像、およびテキ
スト特性に基づいて、前記オーディオトラックから１個
以上のオーディオセグメントを識別し、当該識別が、前
記ビデオ番組内の前記オーディオセグメントのそれぞれ
について、与えられたオーディオセグメントが前記オー
ディオビジュアルサマリに含められるのに適しているか
どうかを決定するランク付けを与える、所定の発見的ル
ールの集合に従って実行する、ことを特徴とする請求項
９３記載のビデオサマリ作成方法。
【請求項１０２】前記識別するステップは、前記オー
ディオセグメントをカテゴリ化することを特徴とする請
求項１０１記載のビデオサマリ作成方法。
【請求項１０３】前記オーディオセグメントは、音声
と非音声とにカテゴリ化されることを特徴とする請求項
１０２記載のビデオサマリ作成方法。
【請求項１０４】前記識別するステップは、非音声サウンドを含むオーディオセグメントを検出し、
内容に従って前記非音声サウンドを分類し、前記非音声
サウンドのそれぞれについて、オーディオ情報を出力す
ることを特徴とする請求項１０３記載のビデオサマリ作
成方法。
【請求項１０５】前記オーディオ情報は、開始時刻コ
ード、長さ、およびカテゴリであることを特徴とする請
求項１０４記載のビデオサマリ作成方法。
【請求項１０６】前記識別するステップは、前記オーディオビジュアルサマリの所望される内容に関
連する１個以上の所定の画像、オーディオ、およびテキ
スト特性に基づいて、前記画像トラックから１個以上の
画像セグメントを識別し、当該識別が、前記ビデオ番組
内の前記画像セグメントのそれぞれについて、与えられ
た画像セグメントが前記オーディオビジュアルサマリに
含められるのに適しているかどうかを決定するランク付
けを与える、所定の発見的ルールの集合に従って実行す
る、ことを特徴とする請求項９３記載のビデオサマリ作
成方法。