JP2007519053A

JP2007519053A - マルチメディアストリームのマルチメディア要約を生成するシステムおよび方法

Info

Publication number: JP2007519053A
Application number: JP2006518426A
Authority: JP
Inventors: アグニホトリ，ラリサ; ディミトロワ，ネヴェンカ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-06-30
Filing date: 2004-06-28
Publication date: 2007-07-12
Also published as: EP1642212B1; KR20060027377A; DE602004003497T2; ATE347143T1; US7738778B2; WO2005001715A1; EP1642212A1; US20060165379A1; ES2277260T3; DE602004003497D1; KR101150748B1

Abstract

映像、音声、テキスト情報の何らかの組み合わせを含む一つまたは複数のマルチメディア入力ストリームの閲覧を容易にし、改善するシステムが、マルチメディア要約を生成することでユーザーがマルチメディア入力ストリームをブラウズし、あるいは全体を視聴することを決め、あるいはその両方を行いやすくする。前記マルチメディア要約は、システム指定、ユーザー指定ならびにネットワークおよび機器上の制約に基づいて自動的に構築される。本発明の特定の用途においては、前記入力マルチメディアストリームはニュース放送（たとえばテレビのニュース番組、ビデオ保存庫の映像）を表す。そのような特定の用途においては、本発明によって、ユーザーは、事前に与えられたユーザーの好み設定ならびに支配的なネットワークおよびユーザー機器の制約に基づくニュースストリームの要約を自動的に受け取ることができる。

Description

本発明は、一般にビデオまたは動画の要約に、またニュース放送のマルチメディア要約（映像／音声／テキスト）を提供することでユーザーが該放送をブラウズし、視聴を決めやすくするシステムおよび方法に関するものである。

ビデオコンテンツの量は増加の一途をたどっている。同時に、視聴者が所望のビデオコンテンツのすべてを消費する、あるいは他の仕方で視聴するのに使える時間は減っている。ビデオコンテンツ量の増大がビデオコンテンツ視聴に使える時間の減少と相俟って、視聴者にとって潜在的に望ましいコンテンツすべての全体を視聴することはますます困難になってきている。よって、視聴者は、視聴するビデオコンテンツの選択に関してますます厳しくなってきている。視聴者の需要に対応するため、ビデオ全体を何らかの形で表すビデオ要約を提供する諸技術が開発されてきた。ビデオ要約を生成する典型的な目的は、のちの視聴のために原ビデオのコンパクトな表現を得ることである。

自動化されたストーリーのセグメント化および識別の分野では進歩が続けられている。その証左が、ＭＩＴＲＥ社のＢＮＥ（Broadcast News Editor［放送ニュースエディタ］）およびＢＮＮ（Broadcast News Navigator［放送ニュースナビゲータ］）である（米国マサチューセッツ州ベッドフォード、ＭＩＴＲＥ社のアンドルー・マーリーノ、ダリル・モーリー、マーク・メイベリー「ストーリーのセグメント化を使った放送ニュースナビゲーション」ＡＣＭマルチメディア会議集録、1997年、pp.381〜389）。ＢＮＥを使うと、ニュース放送は自動的に個々のストーリーセグメントに分割され、該セグメントに対応するクローズドキャプションテキストの最初の行が各ストーリーの要約として使われる。各ストーリーセグメントについてクローズドキャプションテキストや音声からキーワードが決定される。これが検索語と一致すべきものである。一致キーワードの出現頻度に基づいて、ユーザーは興味のあるストーリーを選択する。同様の検索・取得技術は当業界では一般的なものになりつつある。たとえば、従来式のテキスト検索技術はコンピュータベースのテレビ番組表に応用でき、人が特定の番組タイトル、特定の出演者、特定の種類の番組などを検索することができるようになる。

伝統的な検索・取得技術の不都合な点は、明示的な検索タスクおよび該明示的検索に基づく選択肢からの対応する選択が必要であることである。しかし、明示的な検索トピックがユーザーの念頭にないこともしばしばである。典型的なチャンネルサーフィンの場面では、ユーザーには明示的な検索トピックはない。チャンネルサーフィンをするユーザーはあてもなくさまざまなチャンネルを試しており、特定のトピックを指定して探しているというよりは、興味があるかもしれないいくつかのトピックのどれでもいい。すなわち、たとえばユーザーは特定のトピックを念頭におくことなく漫然とチャンネルを切り換えていき、試した多くのチャンネルのうちから、試した時点でそのチャンネルでやっていたトピックに基づいて一つを選択するといった具合である。別の場面では、ユーザーは読書や料理など別の仕事をしながらバックグラウンドでテレビをつけているということもありうる。興味のあるトピックが現れたらユーザーはテレビに注意を向け、より興味の薄いトピックになったら元の仕事に戻るのである。

したがって、ユーザーが特定のキーワードを使ってニューストピックを検索する必要なしに、ビデオストリーム（ニュース放送）の映像、音声、テキスト部分を要約するマルチメディア要約を自動的に生成する技術が大いに望まれている。

本発明は従来技術の欠点を克服する。一般に、本発明は、一つまたは複数の入力ビデオシーケンスのマルチメディア要約を生成することでユーザーが該ビデオシーケンスをブラウズし、あるいは全体を視聴することを決め、あるいはその両方を行いやすくするシステムおよび方法に向けられている。前記マルチメディア要約は、システム指定、ユーザー指定ならびにネットワークおよび機器上の制約に基づいて自動的に構築される。本発明の特定の用途においては、前記入力ビデオシーケンスはニュース放送を表す。

本発明の一つの特徴は、ＰＤＡや携帯電話のような通信帯域に制約のある機器からパソコンやマルチメディアワークステーションのような帯域の制約のない機器まで幅広い機器で使うのに好適な入力ビデオストリームのマルチメディア要約を生成することである。

本発明のもう一つの特徴は、前記マルチメディア要約が構築される仕方における柔軟性を提供することである。すなわち、本発明では、ユーザーはその特定のユーザーの視聴上の好みに合うように該マルチメディア要約をカスタマイズできる。より具体的には、ユーザーは、たとえば該マルチメディア要約を包括的なものとするか簡潔なものとするか、該マルチメディア要約が単一のトップニュースの要約のみを含むべきか複数のトップニュースの要約を含むべきか、該要約が含むのがテキストのみか、音声のみか、映像のみか、あるいはそれらの組み合わせとすべきか、などといったことを指定する一つまたは複数のパラメータを与えることができる。ユーザーはまた、一つまたは複数のキーワードパラメータを与え、要約システムがそれを利用して入力ビデオストリームからのテキスト、音声、ビデオの適切な部分を選択してマルチメディア要約に含めるのでもよい。

本発明のある側面によれば、ニュース放送のマルチメディア要約を生成する方法は：映像、音声、テキスト情報を有するマルチメディアストリームの受信および検索の一方を行い、該マルチメディアストリームを映像サブストリーム、音声サブストリーム、テキストサブストリームに分割し、前記映像、音声、テキストのサブストリームのそれぞれから映像、音声、テキストのキーとなる要素を識別し、前記識別ステップで識別された映像、音声、テキストのキー要素について重要度を計算し、前記識別された映像、音声、テキストのキー要素を第一のフィルタ処理にかけて対応する重要度がそれぞれ所定の映像、音声、テキストの重要度閾値より小さいキー要素を排除し、前記フィルタ処理ステップで残ったキー要素をユーザープロファイルに基づく第二のフィルタ処理にかけ、前記第二のフィルタ処理ステップで残ったキー要素をネットワークおよびユーザー機器の制約に基づく第三のフィルタ処理にかけて前記第三のフィルタ処理ステップで残ったキー要素からのマルチメディア要約を出力する、作業を有する。

本発明はニュース放送にとりわけ好適であるが、本発明の原理を使えば、ユーザーは他の種類の放送のマルチメディア要約も受信できるようになる。たとえば、本発明は映画のマルチメディア要約にも適用可能で、ユーザーが映画をブラウズし、全体を見ることを決めやすくする。

本発明はまた、前記方法を実行するための製造物をも含む。本発明のその他の特徴および利点は以下の詳細な説明、図面、付属の請求項を添付の図面とともに参照することで明らかとなるであろう。

本発明は、一つまたは複数の３種別の（映像、音声、テキスト）入力マルチメディアストリームを要約するシステムおよび方法に向けられたものである。

ここで記載される代表例としてのシステムモジュールおよび方法はハードウェア、ソフトウェア、ファームウェア、専用プロセッサあるいはそれらの組み合わせといったさまざまな形態で実装しうることを理解しておく必要がある。好ましくは、本発明は、一つまたは複数のプログラム記憶デバイス上に目に見える形で具現されるアプリケーションプログラムとしてソフトウェア的に実装される。そのアプリケーションプログラムは好適なアーキテクチャを有するいかなる機械、装置またはプラットフォームによって実行されてもよい。さらに、付属の図面に描かれている構成システムモジュールや方法のいくつかは好ましくはソフトウェア的に実装されるため、システム構成要素（または処理作業）の間の実際のつながりは本発明がプログラムされる仕方によって変わりうることも理解しておくべきである。ここに開示される思想を与えられれば、通常の技量を有する当業者は、本発明のこれらの、そして同様の実装または構成を考え、実施することができるであろう。

本発明は、本発明のプロセスのいずれかを実行するようコンピュータをプログラムするのに使われうる命令を保存している記憶媒体（メディア）であるコンピュータプログラムプロダクトを含んでいる。該コンピュータプログラムプロダクトはまた、本発明のプロセスのいずれかに対応するデータ、たとえば入力データをも含んでいる可能性がある。前記記憶媒体は、フロッピーディスク、光ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、マイクロドライブ、光磁気ディスクを含むいかなる種類のディスクも、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＤＲＡＭ、ＶＲＡＭ、フラッシュメモリ素子、磁気もしくは光カード、ナノシステム（分子記憶ＩＣを含む）なども、あるいは命令もしくはデータまたはその両方を記憶するために好適ないかなる種類の媒体もしくはデバイスも含みうるが、これらに限られるものではない。

前記コンピュータ可読媒体（メディア）上に記憶された形で、本発明は、汎用／専用どちらのコンピュータまたはマイクロプロセッサのハードウェアをも制御し、該コンピュータまたはマイクロプロセッサが本発明の結果を利用する人間のユーザーまたはその他の機構と対話できるようにするためのソフトウェアを含んでいる。そのようなソフトウェアは、デバイスドライバ、ＯＳ、ユーザーアプリケーションを含みうるが、これらに限られるものではない。最後に、そのようなコンピュータ可読媒体はさらに前述した本発明を実行するためのソフトウェアを含む。
システムアーキテクチャ：
図１を参照すると、本発明に基づくマルチメディア要約システム１００の一つの実施形態の概略的な概観が示されている。限定的な意味のない例として、当該マルチメディア要約システム１００はニュースストーリーを要約するための要約システム１００の場合について提示されるが、ここに提示される原理を他のマルチメディアアプリケーションに拡張することは通常の技術を有する当業者には明らかであろう。

図１に示した実施形態では、マルチメディア要約システム１００は放送チャンネル選択器１１０（たとえばテレビのチューナーや衛星放送受信機）から入力としてマルチメディアストリーム１０１を受信する。システム１００はまた、ビデオ保存庫１１２からあらかじめ保存されているマルチメディアストリーム１０２も受信してもよい。システム１００はまた、ネットワーク上のサーバーからなどのビデオストリームの形で入力を受信してもよい。マルチメディア入力ストリーム１０１、１０２はデジタル形式でもアナログ形式でもよく、放送はストリーム１０１、１０２を伝達するのに使われる、ポイントツーポイント通信を含むいかなる形式のメディアであってもよい。図１に示した実施形態では、入力マルチメディアストリーム１０１、１０２は、限定的な意味のない例として挙げるが、ニュース放送に対応しており、広告やコマーシャルを随所に含む複数のニュースストーリーを含む。ニュース放送はたとえば、ＣＮＮヘッドラインニュース、ＮＢＣナイトリーニュースなどのような特定のニュース番組を表していることもできる。

図１に示した実施形態では、マルチメディア要約システム１００は、入力マルチメディアストリーム１０１、１０２を３つの種別に分割する種別認識・分割（MRAD: modality recognition and division）モジュール１０３を有する。３つの種別を以下では映像サブストリーム３０３、音声サブストリーム３０５、テキストサブストリーム３０７と称する。ＭＲＡＤモジュール１０３はストーリーセグメント識別器（SSI: story segment identifier）モジュール１０３ａ、音声識別器（AI: audio identifier）モジュール１０３ｂ、テキスト識別器（TI: text identifier）モジュール１０３ｃを有しており、これらが入力マルチメディアストリーム１０１、１０２を処理してそれぞれ映像サブストリーム３０３、音声サブストリーム３０５、テキストサブストリーム３０７を出力する。サブストリーム３０３、３０５、３０７はＭＲＡＤモジュール１０３から、各サブストリーム３０３、３０５、３０７に含まれるキーとなる要素を識別するキー要素識別器（KEI: key element identifier）モジュール１０５に出力される。ＫＥＩモジュール１０５は特徴抽出（FE: feature extraction）モジュール１０７および重要度（IV: importance value）モジュール１０９を有している。ＫＥＩモジュール１０５の機能はのちに図４〜図７との関連でさらに詳細に説明する。ＫＥＩモジュール１０５の出力はキー要素フィルタ（KEF: key element filter）モジュール１１１の入力に結合され、これがＫＥＩモジュール１０５によって識別されたキー要素をフィルタ処理するのであるが、その仕方についてはのちに説明する。ＫＥＦ１１１から出力された残ったキー要素はユーザープロファイルフィルタ（UPF: user profile filter）１１３への入力として与えられ、ここで残ったキー要素がさらに所定のユーザーの好み設定に基づいてフィルタ処理される。図にあるように、ＵＰＦモジュール１１３は所定のユーザーの好み設定を記憶するための一つまたは複数の記憶装置（すなわち、ユーザーの好み設定データベース１１７）に結合されている。ＵＰＦモジュール１１３の出力はネットワーク・機器制約（NADC: network and device constraint）モジュール１１５の入力に結合されており、これがＵＰＦモジュール１１３からの残ったキー要素をさらに、支配的なネットワーク条件およびユーザー機器制約条件に基づいてフィルタ処理することができる。ＮＡＤＣモジュール１１５は本発明のマルチメディア要約１２０を出力する。典型的には、マルチメディア要約は遠隔のユーザーから、クライアント機器１２４を通じて要求される。クライアント機器１２４はインターネット、イントラネットあるいはその他いかなる好適なネットワークであってもよいネットワーク１２２を通じて要約システム１００とのインターフェースがある。クライアント機器１２４はネットワーク１２２に接続してデータを送信するよう動作できるいかなる電子機器でもよい。たとえば、クライアント機器１２４は有線機器（たとえば、パソコン、ワークステーション、ファクシミリ機）または無線機器（たとえば、ノートパソコン、携帯情報端末（ＰＤＡ）、携帯電話、ポケットベル、スマートフォン、ウェアラブルな計算・通信機器またはコミュニケータ）を含みうる。
動作：
本発明のマルチメディア要約方法の一つの実施形態の概括的な議論をこれから図１〜図３を参照しつつ述べる。その後、記載される方法に関連するさまざまな作業のより詳細な説明が与えられる。

図２は本発明の一つの実施形態に基づく要約の方法を示すフローチャートである。

作業２０５において、プロセスが開始される。

作業２１０において、マルチメディア要約システム１００は一つまたは複数のマルチメディアストリーム１０１、１０２（たとえばニュース放送）を入力として検索および／または受信する。

作業２１５において、検索／受信された入力マルチメディアストリーム１０１は３つの種別（すなわち、映像、音声、テキスト）に従って分割される。

図３のＡ〜Ｄは例として、入力マルチメディアストリーム（たとえばストリーム１０１）がどのようにして３つの種別に従って分割されうるかを示している。

図３のＡは、全体を通じて分布した映像、音声、テキスト成分を有する入力マルチメディアストリーム１０１（たとえばニュース放送１０１）の一般的な図解である。前述したように、ニュース放送はたとえば、ＣＮＮヘッドラインニュース、ＮＢＣナイトリーニュースなどのような特定のニュース番組を表していることもできる。

図３のＢ〜Ｄは入力ビデオストリーム１０１がどのようにして３つの種別に従って分割されうるかを示している。

まず図３のＢを参照すれば、映像種別に対応する映像サブストリーム３０３が示されている。これは、ニュースストーリーのセグメント化をわかりやすくするため、処理される入力マルチメディアストリーム１０１を代表するものである。図３のＢの映像サブストリーム３０３は、ＭＲＡＤモジュール１０３のストーリーセグメント識別器（ＳＳＩ）サブモジュール１０３ａから出力されるものとして示されている。例に挙げた映像サブストリーム３０３は、ＳＳＩサブモジュール１０３ａによって複数のビデオフレーム（たとえば、フレーム１〜２５０００）に分割される。図では説明の便宜上、４０フレームだけが示されている。前記分割はニュース放送の典型的な構成に基づいている。すなわち、典型的なニュース放送は、ストーリーセグメント化に特に好適な共通フォーマットに従っているのである。たとえば、第一のストーリー、すなわちトップニュースはワシントン政界の動きに、第二のニュースストーリーは労働者のストライキやビル火災に関係したものでありうるなどである。たとえば、図３のＢに示したように、オープニングフレーム３０１（フレーム１）の後、典型的にはキャスターまたはアンカーが現れ３１１（アンカーフレーム２〜４）、第一のリポート３２１を導入する（フレーム５〜２４）。アンカーフレーム２〜４およびニュースストーリーセグメントフレーム５〜２４はまとめて第一のニュースストーリー（３１１、３２１）と称される。このニュースストーリーの後、再びアンカーが現れて３１２（アンカーフレーム２５〜２９）第二のリポート３２２を導入し（フレーム３０〜３９）、これらはまとめて第二のニュースストーリー（３１２、３２２）と称される。アンカー−ストーリー−アンカーのシーケンスの随所にコマーシャルがはさまれたものがニュース放送の終わり（たとえばフレーム２５００）まで繰り返される。アンカーが典型的には同じスタジオ設定において繰り返し登場すること（３１１、３１２…）が各リポートセグメントの開始および前のニュースセグメントまたはコマーシャルの終了を明確に識別するのに役立つ。また、ＭＰＥＧ−７のような規格がビデオコンテンツを記述するために開発されているため、ビデオストリームがストリーム内の独立したセグメントの開始と終了を識別する明示的なマーカーを含んでいることが期待できることもある。

ニュースストーリーセグメントを識別する一つの方法が欧州特許第1057129A1号「パーソナル化したビデオの分類・検索システム」（2000年12月6日にＪ・Ｈ・エレンバース、Ｎ・ディミトロヴァ、Ｔ・マクジー、Ｍ・シンプソン、Ｊ・マルティーノ、Ｍ・アブデル＝モッタレブ、Ｍ・ガレット、Ｃ・ラムジー、Ｒ・デサイに発行）において提供されている。その開示全体がここに参照により組み込まれる。

ここで図３のＣを参照すると、音声サブストリーム３０５が示されている。入力マルチメディアストリーム１０１における音声識別は比較的ストレートなもので、音声識別サブモジュール１０３ｂが事前に音声境界（たとえばこの代表例としての実施形態では２０ｍｓ）を選択しており、入力マルチメディアストリーム１０１を最初から最後までの複数の２０ｍｓ時間フレーム３０６に分割して音声サブストリーム３０５を構築する。

再び図１を参照すると、入力マルチメディアストリーム１０１がＭＲＡＤモジュール１０３によって受信され、音声識別器（ＡＩ）サブモジュール１０３ｂによって処理されて音声サブストリーム３０５が出力される。

今度は図３のＤを参照すると、テキストサブストリーム３０７が示されている。テキスト識別は比較的ストレートなもので、テキスト識別器はテキストサブストリーム３０７内で識別される単語の境界でフレーム３０８を定義する。

再び図１を参照すると、入力マルチメディアストリーム１０１がＭＲＡＤモジュール１０３によって受信され、テキスト識別器（ＴＩ）サブモジュール１０３ｃによって処理されてテキストサブストリーム３０７が出力される。ＭＲＡＤモジュール１０３から出力される映像サブストリーム３０３、音声サブストリーム３０５、テキストサブストリーム３０７は、その後、キー要素識別ＫＥＩモジュール１０５への入力ストリームとして与えられる。

作業２２０において、ＫＥＩモジュール１０５によってキー要素識別分析が入力サブストリーム３０３、３０５、３０７に対して実行されて、それぞれのサブストリーム内でキー要素が識別される。キー要素は一般に、サブストリーム３０３、３０５、３０７の「セグメント」で所定の基準を満たすか超えるものとして定義されうる。これについてはのちにさらに説明する。

作業２２５では、作業２２０で識別されたこれらのキー要素がさらにフィルタ処理される。そこでは、作業２２０で計算された重要度が所定の基準を満たすか超えるかするキー要素のみが保持される。図１のキー要素フィルタ（ＫＥＦ）モジュール１１１がこのフィルタ処理工程を実行する。

作業２３０では、図１のユーザープロファイルフィルタ（ＵＰＦ）モジュール１１３がまず、ユーザーが先にユーザープロファイルを提供しているかどうかを判別する。ユーザープロファイルはいくつかのユーザーカスタマイズパラメータからなっており、それらは好ましくはユーザー好み設定データベース１１７に保存されている。ユーザープロファイルが存在していれば、作業２３２でそれを使って作業２２５から残ったキー要素をさらにフィルタ処理する。

ユーザープロファイルはユーザーから提供されるいくつかのカスタマイズ（好み設定）パラメータから構成されうる。そのパラメータは、実行時に与えられるのでもよいが、好ましくはユーザー好み設定データベース１１７からＵＰＦ１１３に与えられ、マルチメディア要約１２０をどのように提示するかについてユーザーの具体的なカスタマイズの好みを示す。そのシステムのユーザーは典型的には、システム１００についてのその好み設定を初期構成段階の間に保存する。カスタマイズパラメータは、マルチメディア要約１２０がユーザーの具体的な視聴嗜好に適合するようどのようにカスタマイズされるべきかをある程度まで決定する。

ユーザーによって提供されるカスタマイズパラメータは、たとえば次のようなものを含みうる。
・マルチメディア要約１２０を包括的なものとするか簡潔なものとするか。
・マルチメディア要約１２０が含むのが、テキストのみ、音声のみ、静止画のみ、映像のみあるいはそれらの組み合わせとするべきか。
・新たな映像を求めてブラウズするかすでに見た映画を呼び出すかなどといった実行すべきタスク。
・要約１２０を見る予定の環境（すなわち、コンテキスト）。
・マルチメディア要約１２０を見ている時刻、週、月、年。
・ユーザーから「キーワード」カスタマイズパラメータが一つまたは複数与えられてそのユーザーにとって興味のある特定の項目（たとえば、人物、場所、事物）を識別するのに使われてもよい。一例として、ユーザーが「政治」および「野球」というキーワードを指定し、ビデオ要約システム１００がそれを使って、選択されたキーワードを大きく扱っているニュースストーリーセグメントを特定するなどである。

単なる例として挙げると、ユーザーがマルチメディア要約１２０を音声要約だけに限定したい場合、音声サブストリーム３０５からランクが最高の音声セグメントが選ばれて、ユーザーに提示されるようにできる。さらなる例として、ユーザーが簡潔なマルチメディア要約１２０（たとえば２分のニュース要約）を見たい場合、ユーザーが興味をもつニュースストーリーがユーザープロファイルの好み設定に従って選ばれ、選択された各ニュースストーリーのうちからランクが最高の映像、音声、テキストのセグメントだけがそれぞれ映像サブストリーム３０３、音声サブストリーム３０５、テキストサブストリーム３０７から選択され、時間的に短縮されたマルチメディア要約１２０を構築する。

作業２３５では、その前のユーザープロファイルフィルタ処理の作業で残ったキー要素が今度はネットワークおよび機器制約条件を考慮することによってさらにフィルタ処理される。具体的には、ネットワーク・機器制約（ＮＡＤＣ）モジュール１１５は、マルチメディア要約１２０が伝送されるネットワークの通信帯域のいかなる制約をも考慮し、追加的にユーザーの視聴機器に関連する制約をも考慮する。ステップ２３０で残ったキー要素はいかなる既知のネットワークおよび機器制約条件に従って修正されてもよい。これについては後述する。

マルチメディア要約１２０がインターネットのようなネットワークを通じて伝送される典型的な場合には、機器の制約条件と利用可能な伝送通信帯域がある程度まで伝送されるマルチメディア要約１２０の質と量を決定する。映像特有の通信帯域需要のため、マルチメディア要約１２０は典型的には該マルチメディア要約１２０の映像部分の質もしくは量またはその両方によって制限される。これに対し、マルチメディア要約１２０の音声およびテキスト部分はそのような制約は受けない。

無線ネットワークは典型的な限定通信帯域の用途の代表である。そのような限定的な通信帯域条件が存在するのは、狭い通信帯域のデータチャンネルを使うために強いられる直接的な技術的制約条件による場合もあれば、比較的広帯域のチャンネル上で同時ユーザー負荷が高いために課される間接的な制約条件である場合もある。ネットワークの通信帯域を透明な仕方でリアルタイムで監視し、ネットワークの現在の状況を決定することも考えられる。マルチメディア要約は支配的なネットワーク条件に従って修正されうる。たとえば、輻輳ネットワーク条件下では、マルチメディア要約１２０は、作業２３５で残る各キー要素の映像品質を制限する形で制約を受けることがありうる。

機器制約条件の考慮に関し、携帯電話網に接続されたＰＤＡやウェブホンは、処理能力、表示能力、メモリ、ＯＳなどが限定されているのが特徴的である機器の例である。これらの限定の結果、こうした機器は映像データを受信し、処理し、表示する能力が異なっている。マルチメディア要約１２０は映像の解像度、ビットレートなどを制限することによって機器の制約に対応するよう調整できる。

ユーザー機器がテキスト表示しかできなければ、各ニュースストーリーに対してランクが最高のテキストセグメントが選ばれて当該機器に送られる。

作業２４０では、作業２３５で残ったこうしたキー要素からなるマルチメディア要約１２０がユーザーに出力される。

この議論をもってマルチメディアビデオ要約のシステムおよび方法の概観を締めくくる。本方法のさまざまな側面の動作について、これからより詳細に説明する。

本発明のある実施形態の最も大きなレベルでの説明が上記で図２のフローチャートを参照しつつ与えられた。そこには、なかんづく、映像サブストリーム３０３、音声サブストリーム３０５、テキストサブストリーム３０７のそれぞれからのキー要素の識別に向けられている作業２２０が含まれている。作業２２０、すなわちキー要素識別について、これから図３〜図６を参照しつつより詳細に説明する。

ここで、図２のフローチャートの作業２２０を構成する諸作業の詳細なフローチャートである図４を参照し、また、限定的な意味のない単なる例として特徴抽出の過程をさらに図解するフローチャートである図５も参照しながら、サブストリーム３０３、３０５、３０７からの３つの成分のそれぞれにおける特徴の抽出と導出を有する特徴抽出過程を説明する。
作業２２０．ａ―特徴抽出
作業２２０．ａにおいて、特徴抽出が実行される。ここで、映像サブストリーム３０３、音声サブストリーム３０５、テキストサブストリーム３０７のそれぞれにおける各フレームから低レベル特徴５１０、中レベル特徴７１０、高レベル特徴９１０が抽出される。代表例として映像サブストリーム３０３に関し、映像サブストリーム３０３をなす２５００の映像フレーム（説明の便宜上４０フレームしか示していない）のそれぞれにおいて特徴抽出が実行される。同様に、音声サブストリーム３０５に関し、該音声サブストリーム３０５をなす８０００の音声フレーム３０６（図３のＣ）（説明の便宜上１２フレームしか示していない）のそれぞれにおいて特徴抽出が実行される。同様にして、テキストサブストリーム３０７に関し、該テキストサブストリーム３０７をなす６５００のテキストフレーム３０８（図３のＤ）（説明の便宜上一部しか示していない）のそれぞれにおいて特徴抽出が実行される。

各サブストリーム（映像、音声、テキスト）におけるフレームから抽出されうる低レベル特徴、中レベル特徴、高レベル特徴のいくつかの例をこれから説明する。

限定的な意味のない単なる例として挙げると、映像サブストリームは次のような低レベル５０３、中レベル７０３、高レベル９０３の映像モード特徴を含みうる。

低レベル映像モード特徴５０３は、なかんづく、動き値（そのフレームまたは映像セグメントについてのグローバルな動き）、フレーム内でのエッジの総数、支配的な色を含みうる。

中レベル映像モード特徴７０３は，前記抽出された低レベル映像モード特徴５０３から導出されるものであり、なかんづく、同族ヒストグラム、カメラの動き、フレーム詳細、顔、文字多重テキストの有無その他オブジェクト検出器を含みうる。

高レベル映像モード特徴９０３は、前記導出された中レベル映像モード特徴から導出されるものであり、なかんづく、アンカーフレーム、リポートフレーム、屋内フレーム、屋外フレーム、自然フレーム、図形フレーム、風景フレーム、街中フレームなどといったさまざまな映像フレーム分類を含みうる。

限定的な意味のない単なる例として挙げると、音声サブストリーム３０５は次のような低レベル５０５、中レベル７０５、高レベル９０５の音声モード特徴を含みうる。

低レベル音声モード特徴５０５は、たとえば、ＭＦＣＣ、ＬＰＣ、平均エネルギー、帯域幅、ピッチなどを含みうる。

中レベル音声モード特徴７０５は、前記抽出された低レベル音声モード特徴５０５から導出されるものであり、たとえば、当該音声の声、音楽、無音、雑音、声＋声、声＋雑音、声＋音楽への分類を含みうる。

高レベル音声モード特徴９０５は、前記導出された中レベル音声モード特徴７０５から導出されるものであり、なかんづく、群集の歓声、発話、笑い、爆発、サイレンなどを含みうる。また、発話のテキストへの転写も含むことができる。

限定的な意味のない単なる例として挙げると、テキストサブストリーム３０７は次のような低レベル５０７、中レベル７０７、高レベル９０７のテキストモード特徴を含みうる。

低レベルテキストモード特徴５０７はたとえば、キーワード、合図、名前、地名などの存在を含みうる。

中レベルテキストモード特徴７０７は、前記低レベルテキストモード特徴５０７から導出されるもので、たとえば、トピック、カテゴリー、重要な名詞を含みうる。

高レベルテキストモード特徴９０７は、前記中レベルテキストモード特徴７０７から導出されるもので、なかんづく、問答、発話者の推定（すなわちニュースリポーターかアンカーかゲストかなど）を含みうる。

図５は、限定的な意味のない単なる例として、３つの種別のそれぞれにおけるそれぞれサブストリーム３０３、３０５、３０７からの特徴の抽出および導出からなる特徴抽出の過程をさらに説明する図である。図示したように、低レベル特徴５１０として、エッジ、形、色といった低レベル映像特徴５０３が映像サブストリーム３０３から抽出される。次いで、前記抽出された低レベル映像特徴５０３の一つまたは複数を使って、ビデオテックス、顔、同族ヒストグラムといった一つまたは複数の中レベル特徴７０３が導出されうる。次にその中レベル特徴７０３を使って、今度はアンカーフレーム、リポートフレーム、屋内フレームなどといった一つまたは複数の高レベル映像特徴９０３が導出されうる。

中レベル映像特徴７０３の一つの要素である「同族ヒストグラム（family histogram）」に関していうと、のちにさらに説明するように、映像サブストリーム３０３を「セグメント」に分割するのに使われるという意味で、この特徴の導出および使用はとりわけ重要である。映像において色は主要な特徴であり、映像を知覚的な観点からセグメント化する助けとなる。さらに、同族ヒストグラムの継続時間もまた、のちに説明するように映像セグメントの計算された「重要度」に直接対応する。

映像サブストリーム３０３の抽出された低レベル映像特徴から同族ヒストグラムを導出する過程は、映像サブストリーム３０３の各映像フレームの解析に関わっている。この解析は、各映像フレームの色情報を量子化して色量子化ビンに分け入れるために実行される。実験的に、ビンが９つの簡単な量子化色ヒストグラムがキー要素を識別するには十分であると判定された。この手法のある変形では、用途に応じてより複雑な２５６ビンの色ヒストグラムを使うこともできる。簡単な９ビン量子化色ヒストグラム法は、あるニュースストーリーセグメント内に含まれる各同族セグメントについてはフレームとフレームとの間で色の変化はわずかしかないであろうという想定をしている。これは、キー要素についてはフレームとフレームとの間でかなりのフレーム類似性があると想定されるので成り立つ。一方、場面が変わるときにはフレームと次のフレームとの間でかなりの色の変化が起こり、一つの同族セグメントの終わりと別の同族セグメントの開始が示される。色ヒストグラム法は著しい色変化（すなわち低レベル特徴）を、あるフレームから次のフレームにかけての色ヒストグラム値の鋭いコントラストによって検出する。

映像フレーム間の類似性の度合いを見出すため、ヒストグラムの相違の尺度のいくつかの場合について実験を行った。同族ヒストグラム計算作業において、各映像フレームについてヒストグラムが計算され、次いで以前に計算された同族ヒストグラムが検索され、最も近い同族ヒストグラムの一致が見出される。現在の（current）ヒストグラムH_Cと以前の（previous）同族ヒストグラムH_Pとの比較は、ヒストグラム差Dを計算するための以下の諸方法の一つを使って計算することができる
（１）Ｌ１距離尺度を使ったヒストグラム差は次の式を使って計算される。

ここで、Nは使用する色ビンの総数（今の場合は９）である。この式を使って得られる値は、０から、それぞれの画像における最大ピクセル数の２倍までの間である。ここでは類似性の割合を得ようとしているのであるから、前記の値をピクセル総数で割って規格化する。規格化された値は０と１の間である。ここで、０に近い値は画像が似ていることを表し、１に近い値は画像が似ていないことを表す。
（２）Ｌ２距離尺度を使ったヒストグラム差は次の式を使って計算される。

Dの値は（１）の場合と同様に規格化する。
（３）ヒストグラムの交わりは次の式を使って計算される。

この式を使って得られる値は０と１の間にはいる。０に近い値は画像が似ていないことを意味し、１に近い値は画像が似ていることを意味する。同じ類似性の解釈でヒストグラムどうしを比較するため、D＝I−1を距離尺度として使う。
（４）２つの画像ヒストグラムについてのカイ二乗検定は次の式を使って計算される。

この場合、値は０から色ビン数Nの間にはいるので、Nで規格化してD＝χ²/Nとする。
（５）ビンごとのヒストグラムの交わりは次の式を使って計算される。

ヒストグラムの交わりと同様に、値が小さいほど差が大きく、大きいほど両画像が似ていることを意味している。上記の尺度との一貫性のため、距離はD＝1−B/Nを使って計算される。

ヒストグラム情報を使って色を指標化する方法は当業界で既知のものである（たとえば、Ｍ・ストリッカー、Ｍ・オレンゴによる「カラー画像の類似性」と題する画像およびビデオデータベースの保存と検索に関するＩＳ＆Ｔ／ＳＰＩＥ会議ＩＩの講演集録、Vol. SPIE 2420、１９９５年、所収の解説を参照）。
作業２２０．ｂ―特徴重要度の割り当て
作業２２０．ｂでは、作業２２０．ａで各サブストリーム３０３、３０５、３０７からの各フレームにおいて抽出された中レベル特徴７１０および高レベル特徴９１０に、対応する特徴重要度が割り当てられる。そのような重要度を割り当てるために使う特徴解析方法は、離散的でも、連続的でも、その両方でもよい。離散的な場合、特徴解析方法はある特徴が存在するか否かを示す離散的な重要度を出力する（すなわち、存在すれば重要度＝１で、存在しなければ重要度＝０）。あるいは、マルチメディア要約１２０に含めるのが望ましい場合は重要度＝１、要約１２０に含めるのが望ましくなければ０、どちらでもなければ０．５でもよい。一例として、マルチメディア要約１２０に「顔」が含まれるのが望ましい場合、顔が１ないし２存在する場合には特徴重要度の値として１が割り当てられ、顔が存在しなければ値０が割り当てられ、顔が３つ以上存在する場合には値０．５が割り当てられるようにしてもよい。離散的な例をもう一つ挙げると、アンカーが存在すれば０を割り当て、リポート部分が存在すれば１を割り当ててもよい。離散的な例をもう一つ挙げると、ニュースストーリーの全継続時間のｎ％未満の継続時間である同族ヒストグラムに属するフレームには０を割り当て、それ以外の場合には値１を割り当てるというようにしてもよい。ここで、ｎは１０などに設定することができる。

音声サブストリーム３０５に関しては、マルチメディア要約１２０に声が含まれることが望ましい可能性がある。よって、重要度は声が存在すれば１に、雑音および無音には０に、｛音楽、声＋音楽、声＋声、声＋雑音｝には０．５に設定することができる。

テキストサブストリーム３０７に関しては、名前または重要なキーワードが存在すれば、重要度は１に設定し、そうでなければ０に設定するようにできる。

連続的な場合、同族ヒストグラムの場合をとってみると、重要度はあるフレームが属するセグメントの継続時間をそのニュースストーリーの全継続時間で割ったものとすることができる。

あるいはまた、連続的な場合で、特徴解析方法は確率分布を使って抽出された特徴に重要度を割り当ててもよい。確率分布は、その特徴が存在する確率を与える。この手法とともに使われる特徴解析方法は０から１の範囲の確率の値を出力しうるが、それはある特徴の存在に関する信頼性の度合いを示している。

連続的な場合において重要度を導出するための確率分布は正規分布から導出されうる。あるいはまた、重要度はポワソン分布、レイリー分布、ベルヌーイ分布としてマッピングされてもよい。式（６）は、例として、フレームについて特徴値を正規分布として計算する一つの方法を示している。

ここで、Sはその特徴が要約に存在する確率、
θは一般に何らかの特徴、
θ₁は特徴値の平均、
θ₂は期待される偏差、である。

一例として、考慮すべき中レベル映像特徴、すなわち式（６）でθとして表されているものが「顔」であるとすると、非常に小さな顔や非常に大きな顔はめったに現れない。たいていの場合、ビデオストリームに「顔」が現れる場合、典型的には画面の高さの実質５０％の高さで存在する。この場合、たとえばθ₁は０．５に等しく（平均）、θ₂は０．２に等しい。パラメータθ₁およびθ₂を決定するためには最尤推定法を使うことができることを注意しておく。

それぞれの特徴は潜在的にはマルチメディア要約１２０への潜在的選択のためのキー要素の重要度を上げることもあれば下げることもあることを注意しておく。
２２０．ｃ―各種別におけるフレームごとの重要度の計算
作業２２０．ｃでは、作業２２０．ｂで計算された特徴重要度に基づいて、フレーム重要度が計算される。フレーム重要度を決定するためには、重み付き総和法を使うこともできるし、抽出された特徴の重要度のポーリング（polling）を使うこともできる。これらについて説明する。

表１、表２、表３は、あくまでも限定的な意味のない例として、それぞれの種別（映像、音声、テキスト）において作業２２０．ａで識別された抽出特徴のそれぞれについて作業２２０．ｂで計算された特徴重要度を示している。この重要度がフレームごとに重要度を計算するのに使われる。表の列見出しは以前に抽出・導出された、エッジ、色、顔、無音、屋内などといった低レベル特徴、中レベル特徴、高レベル特徴を表している。

表の値が後述の仕方で組み合わされてフレームがどのくらい「価値」があるかの尺度を与える。フレームの「価値」は、マルチメディア要約１２０に取り入れる可能性に関してそのフレームの意義の尺度である。フレームの「価値」を計算する方法はいくらでもあるが、決定論的方法、統計的方法、条件付確率を使う方法が含まれる。

フレームの「価値」の決定論的計算
ある実施形態では、フレームの「価値」は、低レベル、中レベル、高レベルの映像特徴の決定論的な線形関数で次式によって計算されうる。

ここで、f_iは特徴ベクトルにおけるある特定の低レベル、中レベルまたは高レベルの特徴であり、
w_iはその特徴の重みである。

特徴f_iは動き値（そのフレームまたは映像セグメントについてのグローバルな動き）、エッジの総数、支配的な色といった低レベル特徴、同族重要度、カメラの動き、フレーム詳細、顔、文字多重テキストボックスサイズといった中レベル特徴でありうる。高レベル特徴は、アンカー／リポート、屋内場面／屋外場面、自然／図形、風景／街中といった分類でありうる。この特徴リストは網羅的ではなく、重要度の計算に取り入れられる可能性のある特徴の種類を例示するために挙げてあるだけである。

各特長に付随する重みw_iは要約システム１００によって事前に決定することもできるし、あるいはユーザーの好みに従って決定することもできる。たとえば、ユーザーがマルチメディア要約１２０で音楽を聴きたければ、音楽に対する重みの値は１に設定できる。別の例では、ユーザーが要約ではビデオテックスを見たくなければ、フレーム中にビデオテックスが存在しない場合に重要度１が与えられるなどとすることができる。

各種別に対して、特徴重要度が何らかの仕方で組み合わされて、フレームごとのキー要素重要度を出力するものと想定されている。それには単一の確率的または決定論的関数を使う。その結果、限定的な意味のない単なる例として表４に示したリストのようなリストが得られる。

さらに別の実施形態では、フレームの「価値」はベイズ推論ネットワークパターン分類を使って条件的確率を見出すことによって計算しうる。ベイズ推論ネットワークパターン分類は当業界で既知のものである。たとえば、リチャード・Ｏ・ドゥーダ、ピーター・Ｅ・ハート、デーヴィッド・Ｇ・ストークによる『ベイズ推論ネットワークパターン分類』（第２版）を参照されたい。その開示全体は参照によってここに組み込まれる。
２２０．ｄ―セグメント生成
作業２２０．ｄでは、各種別における各フレームについてのフレーム重要度を２２０．ｃでまとめたので、そのフレーム重要度を使って各種別においてフレームを組み合わせ、すなわちグループ化してセグメントとする。

映像セグメントの生成
映像サブストリーム３０３をなす各ビデオフレーム（すなわち、フレーム１、フレーム２、…フレームＮ）からの映像セグメントの生成は、同族ヒストグラム計算を実行するか、あるいはカット変化検出（shot change detection）を通じて行われる。フレームを組み合わせてセグメントにする一つの方法は、カット変化検出を使うことである。カット変化検出はよく知られており、Ｎ・ディミトロヴァ、Ｔ・マクジー、Ｊ・Ｈ・エレンバースに対して発行された米国特許US6125229,26-Sep-00（欧州特許EP0916120A2,19-May-99としても発行された）「映像指標化システム」において開示されており、その開示の全体はここに参照によって組み込まれる。映像サブストリーム３０３のそれぞれの映像フレームから映像セグメントを生成するもう一つの方法は、前述したように同族ヒストグラムを使うことである。

音声セグメントの生成
音声サブストリーム３０５をなす各時間フレーム（すなわち、時間１、時間２など）からの音声セグメントの生成のためには、セグメント境界は異なる分類の境界でよい。すなわち、音声分類器は音声を、声（１）、音楽（２）、無音（３）、雑音（４）、声＋声（５）、声＋雑音（６）、声＋音楽（７）に分類する。図６は、例として、図３の音声サブストリーム３０５をなす時間要素がどのようにグループ化されてセグメントを形成するかを示すものである。このグラフは、音声分類と時間フレーム（時間フレーム［ｘ］）との対応をプロットしている。示されているように、最初のフレーム（フレーム１〜２００００）はほとんど音楽（２）フレームとして分類されている。その後に続くフレームはほとんど雑音フレーム（４）として分類されており、さらに声＋音楽フレーム（７）が続く。

音声分類のさらなる詳細は、ドンゲ・リー、イシュワル・Ｋ・セティ、ネヴァンカ・ディミトロヴァ「コンテンツベースの検索のための一般音声データの分類」、パターン認識レターズ第２２巻第５号、pp.533〜544（2001年）に記載されており、ここにその全体が参照によって組み込まれる。

テキストセグメントの生成
テキストセグメントを生成するためには、セグメント境界はセンテンス境界として定義することができる。センテンス境界は入力ビデオストリーム１０１、１０２のクローズドキャプションの部分に与えられている句読点に基づいて決める。
２２０．ｅ―セグメント重要度の決定
セグメント重要度の決定は、一つの方法では、各セグメントをなすフレームのフレーム重要度を平均して単一のランクまたはスコアを生成することによって実行しうる。セグメント重要度決定を計算するもう一つの方法は、セグメント内で最高のフレーム重要度をとってそれをセグメント全体に割り当てることである。
２２０．ｆ―セグメントの順位付け
各種別においてステップ２２０．ｄで識別された各セグメントについて作業２２０．ｅにおいてセグメントランク（スコア）が計算されている。そのランクのついたセグメントがさらにその計算されたランクまたはスコアに基づいて重要度の順に並べ替えられる。

表６は、例として、映像セグメント（列１）とそれに割り当てられたセグメント重要度（列２）がどのように順位付けられるかを示している。表７および表８は、それぞれ音声種別およびテキスト種別について同様の構成を示すものである。

２２０．ｇ―キー要素識別
作業２２０．ｇでは、作業２２０．ｅのセグメントランクに基づいてキー要素が識別される。

図７のＡ〜Ｃは、例として、キー要素を識別するいくつかの方法を示している。例として、図７のＡ〜Ｃは、フレーム重要度とセグメントとの関係のグラフであり、先に議論した種別、すなわち表６、７、８のいずれを表しているものでもよい。

図７Ａは、キー要素を識別する第一の方法を示すグラフである。キー要素は、所定の閾値を超えているあらゆるセグメントを選択することによって識別される。

図７Ｂは、キー要素を識別する第二の方法を示すグラフである。キー要素は、所定の閾値Ｔｈを超えている極大、すなわち「Ａ」「Ｂ」「Ｃ」を選択することによって識別される。

図７Ｃは、キー要素を識別する第三の方法を示すグラフである。キー要素は、閾値基準は考慮することなく最初のＮ個の極大を選択することによって識別される。

上記の図７のＡ〜Ｃを参照しつつ示したキー要素識別工程は、ユーザーの視聴プロファイルに基づいてさらに修正しうることを注意しておく。推薦システムが一般に、特定のユーザーについて既知の情報に基づいてそのユーザーに項目を推薦することによって機能することはよく知られている。典型的には、そのようなシステムは、顧客の以前の視聴または購入動向に基づく顧客のプロファイルを構築する。今の場合では、ユーザーの視聴プロファイルを作成し、好ましくは先に議論した他のユーザープロファイルとともにユーザー好み設定データベース１１７に保存することができる。そうすれば、ユーザーの視聴プロファイルを、図７Ａ〜Ｃにおいて示されているような先述の重要度−セグメント関係のグラフを顧客の視聴嗜好を考慮に入れた第二の関数に変換する変換関数を作成するために使うことができる。このプロセスは任意的であり、種別のうちのどれに対してでも、またすべてに対してでも実装しうる。

明らかに、本発明の数多くの修正および変形が上記の思想に照らして可能である。したがって、本発明は、付属の特許請求の範囲内において、ここで明示的に記載された以外の仕方でも実施されうることを理解しておくものとする。

本発明に基づくマルチメディア要約システムの代表例としての実施形態を概観する概略図である。本発明に基づく要約の方法のフローチャートである。Ａ〜Ｄは典型的なニュース放送の代表例としてのビデオストリームを示す図である。本発明に基づいてキーとなる要素を識別する方法のフローチャートである。入力マルチメディアストリームからの特徴抽出の過程および特徴の導出の例となるブロック図である。音声サブストリームをなす時間要素がどのようにグループ化されてセグメントを形成しうるかを示すグラフである。Ａ〜Ｃはキーとなる要素を識別するさまざまな方法を示すグラフである。

Claims

少なくとも一つのマルチメディアストリームを要約する方法であって：
ａ）映像、音声、テキスト情報を有する前記少なくとも一つのマルチメディアストリームの受信および検索の一方を行い、
ｂ）前記少なくとも一つのマルチメディアストリームを映像サブストリーム、音声サブストリーム、テキストサブストリームに分割し、
ｃ）前記映像、音声、テキストのサブストリームのそれぞれから映像、音声、テキストのキー要素を識別し、
ｄ）前記ステップ（ｃ）で識別された映像、音声、テキストのキー要素について重要度を計算し、
ｅ）前記識別された映像、音声、テキストのキー要素を第一のフィルタ処理にかけて対応する重要度がそれぞれ所定の映像、音声、テキストの重要度閾値より小さいキー要素を排除し、
ｆ）前記ステップ（ｅ）で残ったキー要素をユーザープロファイルに基づく第二のフィルタ処理にかけ、
ｇ）前記ステップ（ｆ）で残ったキー要素をネットワークおよびユーザー機器の制約に基づく第三のフィルタ処理にかけ、
ｈ）前記ステップ（ｇ）で残ったキー要素からのマルチメディア要約を出力する、
ことを有することを特徴とする方法。
前記少なくとも一つのマルチメディアストリームがアナログマルチメディアストリームおよびデジタルマルチメディアストリームのうちの一つであることを特徴とする、請求項１記載の方法。
前記少なくとも一つのマルチメディアストリームを分割して映像サブストリームを得るステップがさらに、前記少なくとも一つのマルチメディアストリームを識別して複数のニュースストーリーにグループ化するステップを有しており、各識別されたニュースストーリーがアンカー部分とリポート部分からなることを特徴とする、請求項１記載の方法。
前記少なくとも一つのマルチメディアストリームを分割して音声サブストリームを得るステップがさらに、前記少なくとも一つのマルチメディアストリームを一定の継続時間の複数の同じ長さのフレームに分解することを有することを特徴とする、請求項１記載の方法。
前記少なくとも一つのマルチメディアストリームを分割してテキストサブストリームを得るステップがさらに、前記少なくとも一つのマルチメディアストリームを複数のフレームに分割することを有しており、該複数のフレームの各フレームが単語の境界によって定義されることを特徴とする、請求項１記載の方法。
前記映像、音声、テキストのサブストリームから映像、音声、テキストのキー要素を識別する前記作業がさらに、
１）前記映像、音声、テキストのサブストリームをなす複数のフレームから低レベル特徴、中レベル特徴、高レベル特徴を識別し、
２）前記識別作業から抽出された前記低レベル特徴、中レベル特徴、高レベル特徴のそれぞれに対する重要度を決定し、
３）前記映像、音声、テキストのサブストリームをなす前記複数のフレームのそれぞれについて、フレーム重要度を、前記決定作業において決定された特徴重要度の重要度の関数として計算し、
４）前記映像、音声、テキストのサブストリームのそれぞれにおいてフレームを組み合わせてセグメントを形成し、
５）前記組み合わせ作業からの各セグメントについて、セグメントに対する重要度を計算し、
６）前記計算ステップでの前記計算された重要度に基づいてセグメントを順位付けし、
７）前記順位付けされたセグメントに基づいてキー要素を識別する、
作業を有することを特徴とする、請求項１記載の方法。
前記抽出された低レベル特徴、中レベル特徴、高レベル特徴のそれぞれについてフレーム重要度を計算する前記作業（３）がさらに、該重要度を決定論的方法、統計的方法および条件付確率方法のうちの一つによって計算することを有することを特徴とする、請求項６記載の方法。
前記確率的方法が、前記フレーム重要度を、ガウス分布、ポワソン分布、レイリー分布およびベルヌーイ分布のうちの一つとして計算することを有することを特徴とする、請求項７記載の方法。
前記フレーム重要度を計算するための前記ガウス分布が、

として計算され、ここで：
θは何らかの特徴、
θ₁は特徴値の平均、
θ₂は期待される偏差、であることを特徴とする、請求項８記載の方法。
前記決定論的方法が前記フレーム重要度を

として計算することを有し、ここで、
f_iは低レベル、中レベルおよび高レベルの特徴を表し、
w_iは該特徴に重みをかけるための重み因子を表す、ことを特徴とする、請求項７記載の方法。
フレームを組み合わせて映像セグメントを形成する前記ステップ（４）がさらに、同族ヒストグラム計算方法およびカット変化検出方法のうちの一つによって前記フレームを組み合わせることを有することを特徴とする、請求項６記載の方法。
フレームを組み合わせて音声セグメントを形成する前記ステップ（４）がさらに：
当該音声サブストリームからの各フレームを声フレーム、音楽フレーム、静寂フレーム、雑音フレーム、声＋声フレーム、声＋雑音フレームおよび声＋音楽フレームの一つとして類別し、
前記類別が同じである一連のフレームをグループ化する、
ステップを有することを特徴とする、請求項６記載の方法。
フレームを組み合わせてテキストセグメントを形成する前記ステップ（４）がさらに、当該テキストサブストリームに含まれる句読点に基づいてフレームを組み合わせることを有することを特徴とする、請求項６記載の方法。
セグメントに対する重要度を計算する前記ステップ（５）がさらに、当該セグメントをなすフレームについてフレーム重要度を平均することを有することを特徴とする、請求項６記載の方法。
セグメントに対する重要度を計算する前記ステップ（５）がさらに、当該セグメントにおける最高のフレーム重要度を使うことを有することを特徴とする、請求項６記載の方法。
前記順位付けに基づいてキー要素を識別する前記ステップ（７）がさらに、セグメント順位が所定のセグメント順位閾値を超えるキー要素を識別することを有することを特徴とする、請求項６記載の方法。
前記順位付けに基づいてキー要素を識別する前記ステップ（７）がさらに、セグメント順位が所定のセグメント順位閾値を超えかつ極大をなしているキー要素を識別することを有することを特徴とする、請求項６記載の方法。
前記順位付けに基づいてキー要素を識別する前記ステップ（７）がさらに、セグメント順位が極大をなしているキー要素を識別することを有することを特徴とする、請求項６記載の方法。
少なくとも一つのマルチメディアストリームを要約するシステムであって：ストーリーセグメント識別器モジュール、音声識別器モジュールおよびテキスト識別器モジュールを有する種別認識・分割（ＭＲＡＤ）モジュールを有しており、該ＭＲＡＤモジュールは前記少なくとも一つのマルチメディアストリームを受信するための第一の外部ソースと通信できるよう結合されており、該ＭＲＡＤモジュールは前記少なくとも一つのマルチメディアストリームを受信するための第二の外部ソースと通信できるよう結合されており、該ＭＲＡＤモジュールは前記少なくとも一つのマルチメディアストリームを映像サブストリーム、音声サブストリーム、テキストサブストリームに分割して該映像サブストリーム、音声サブストリーム、テキストサブストリームをＫＥＩモジュールに出力し、該ＫＥＩモジュールは該映像サブストリーム、音声サブストリーム、テキストサブストリームに含まれるキー要素を識別してそれに重要度を割り当てるための特徴抽出モジュールおよび重要度モジュールを有しており、該ＫＥＩモジュールは前記識別されたキー要素を受信して該キー要素をフィルタ処理して所定の閾値基準を超えるものを取り出すためのキー要素フィルタ（ＫＥＦ）と通信できるよう結合されており、前記ＫＥＦモジュールは前記フィルタ処理されたキー要素を受信して該フィルタ処理されたキー要素をユーザープロファイルに基づいてさらにフィルタ処理するためのユーザープロファイルフィルタ（ＵＰＦ）と通信できるよう結合されており、該ＵＰＦモジュールはネットワークおよび機器制約（ＮＡＤＣ）モジュールと通信できるよう結合されており、該ＮＡＤＣモジュールは前記さらにフィルタ処理されたキー要素を受信して前記さらにフィルタ処理されたキー要素をネットワークおよび／またはユーザー機器の制約に基づいてさらにフィルタ処理し、前記ＮＡＤＣモジュールは前記少なくとも一つのマルチメディアストリームのマルチメディア要約を出力する、ことを特徴とするシステム。
ユーザープロファイルを保存するため前記ＵＰＦモジュールと通信できるよう結合されているユーザー好み設定データベースをさらに有することを特徴とする、請求項１９記載のシステム。
前記第一の外部ソースが放送チャンネル選択器であることを特徴とする、請求項１９記載のシステム。
前記第一の外部ソースがビデオストリームソースであることを特徴とする、請求項１９記載のシステム。
前記少なくとも一つのマルチメディアストリームがアナログマルチメディアストリームおよびデジタルマルチメディアストリームのうちの一つであることを特徴とする、請求項１９記載のシステム。
前記ＮＡＤＣモジュールがユーザー機器に結合している外部ネットワークと通信できるよう接続されていることを特徴とする、請求項１９記載のシステム。
前記ネットワークがインターネットであることを特徴とする、請求項１９記載のシステム。
少なくとも一つのマルチメディアストリームを要約するための製造物であって：コンピュータ可読媒体を有し、該コンピュータ可読媒体にはコンピュータ可読コード手段が具現化されており、該コンピュータ可読プログラムコード手段が、
映像、音声、テキスト情報を有する前記少なくとも一つのマルチメディアストリームの受信および検索の一方を行う作業と、
前記少なくとも一つのマルチメディアストリームを映像サブストリーム、音声サブストリーム、テキストサブストリームに分割する作業と、
前記映像、音声、テキストのサブストリームのそれぞれから映像、音声、テキストのキー要素を識別する作業と、
前記識別作業で識別された前記識別された映像、音声、テキストのキー要素について重要度を計算する作業と、
前記識別された映像、音声、テキストのキー要素を第一のフィルタ処理にかけて対応する重要度がそれぞれ所定の映像、音声、テキストの重要度閾値より小さいキー要素を排除する作業と、
前記第一のフィルタ処理作業で残ったキー要素をユーザープロファイルに基づく第二のフィルタ処理にかける作業と、
前記第二のフィルタ処理作業で残ったキー要素をネットワークおよびユーザー機器の制約に基づく第三のフィルタ処理にかける作業と、
前記第三のフィルタ処理作業で残ったキー要素からのマルチメディア要約を出力する作業、
とを有することを特徴とする製造物。
前記映像、音声、テキストのサブストリームからそれぞれ映像、音声、テキストのキー要素を識別する前記作業がさらに、
前記映像、音声、テキストのサブストリームをなす前記複数のフレームから低レベル特徴、中レベル特徴、高レベル特徴を識別する作業と、
前記識別作業から抽出された前記低レベル特徴、中レベル特徴、高レベル特徴のそれぞれに対する重要度を決定する作業と、
前記映像、音声、テキストのサブストリームをなす前記複数のフレームのそれぞれについて、フレーム重要度を、前記決定ステップにおいて決定された特徴重要度の重要度の関数として計算する作業と、
前記映像、音声、テキストのサブストリームのそれぞれにおいてフレームを組み合わせてセグメントを形成する作業と、
前記組み合わせ作業からの各セグメントについて、セグメントに対する重要度を計算する作業と、
前記計算作業での前記計算された重要度に基づいてセグメントを順位付けする作業と、
前記順位付けされたセグメントに基づいてキー要素を識別する作業、
とを有することを特徴とする、請求項２６記載の製造物。