JP2008287698A

JP2008287698A - 索引付けシステム及び索引付けプログラム

Info

Publication number: JP2008287698A
Application number: JP2007333334A
Authority: JP
Inventors: Gene Golovchinsky; ゴロブチンスキージーン; Jeremy Pickens; ピケンズジェレミー; Laurent Denoue; ドゥヌローラン
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2007-05-16
Filing date: 2007-12-25
Publication date: 2008-11-27
Also published as: US20080288537A1

Abstract

【課題】視覚情報やテキスト情報を含むメディア・ストリームのセグメントについて、セグメント間の多次元内容の類似性に基づいて索引付けを行うことができる、索引付けシステム及び索引付けプログラムを提供する。
【解決手段】認識モジュール１０１は、メディア・ストリームの複数のセグメントから複数の索引タームを抽出する。各々のセグメントについて、重みモジュール１０２は、特定セグメントとその近隣セグメントとの間の視覚、テキスト、時間、及び音声の類似性に基づいて、重みベクトルを計算する。次に、インデクサ１０３は、特定セグメントの索引ターム、及び重みベクトルによって調整された重みを有する近隣セグメントからの索引タームの双方を含めることによって、特定セグメントの索引を構築する。
【選択図】図１

Description

本発明は、索引付けシステム及び索引付けプログラムに関し、特に、ストリーミング・メディア（stream media）の分野でストリーム類似性に基づいてメディア・ストリームを索引付けする索引付けシステム及び索引付けプログラムに関する。

メディアのストリーム、例えば、キャプチャされたプレゼンテーションのスライドは、索引付け及び後続のフルテキスト検索を目的として、セグメントに分ける必要がある。従来、この索引付けは、視覚的な類似性に基づいて行われてきた。スライドがセグメントに分けられると、光学式文字認識（ＯＣＲ）により各々のスライドからテキストが抽出され、各々のスライドのためにフルテキストの索引項目（文書）が構築された。

BOGURAEV, B et al., Lexical Cohesion, Discourse Segmentation and Document Summarization, Proceedings of the RIAO 2000 Conference on Content-Based Multimedia Information Access, 2000, pp. 962-979, Paris. URL: citeseer.ist.psu.edu/407600.html

BREUEL, T.M., Character Recognition by Adaptive Statistical Similarity, Proceedings of the 7th International Conference for Document Analysis and Recognition (ICDAR), 2003, pp. 158-162, Edinburgh.

DENOUE, L., et al., ProjectorBox: Seamless presentation capture for classrooms, Proceedings of World Conference on E-Learning in Corporate, Government, Healthcare, and Higher Education, ("E-Learn 2005"in Vancouver, B.C.), 2005, pp. 1986-1991, Chesapeake, VA: AACE

HEARST, M.A., et al., Subtopic structuring for full-length document access. SIGIR '93 proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, June 27-July 1, 1993, pages 59-68, Pjttsburgh, PA

従来の索引付けの手法は、かなり良好に機能したが、少なくとも２つの点で限界を有していた。第１に、ＯＣＲは認識エラーを取り込んで、後続のフルテキスト・クエリ（query：検索質問）のパフォーマンスを低下させ、スライド当り比較的少量のテキストは、効果的なクエリ・パフォーマンスを可能にするタームの共起出現（co-occurrence）を識別することを困難にした。

第２に、セグメントに分けられたデータ・ストリームは、各々のセグメントに関連付けられたテキスト情報が制限されて雑音に近い場合には、索引付けが困難である。データ・ストリームのセグメントをアドホック検索(ad-hoc retrieval)するには、正確なテキスト情報が重要となる。

本発明は、上記事情に鑑み成されたもので、本発明の目的は、視覚情報やテキスト情報を含むメディア・ストリームのセグメントについて、セグメント間の多次元内容の類似性に基づいて索引付けを行うことができる、索引付けシステム及び索引付けプログラムを提供することにある。

上記目的を達成するために請求項１に記載の発明は、類似性に基づいてメディア・ストリームを索引付けする索引付けシステムであって、メディア・ストリームの複数のセグメントの各々から複数の索引タームを抽出するように動作可能な認識モジュールと、メディア・ストリーム内の特定セグメントと当該特定セグメントの近隣にある近隣セグメントとの間の類似性に基づいて、少なくとも１つの特定セグメントについて重みベクトルを計算するように動作可能な重みモジュールと、少なくとも、特定セグメント上で検出された複数の索引ターム、及び前記重みベクトルによって調整された重みを有する前記近隣セグメント由来の複数の索引タームを組み入れて、特定セグメントの索引を作成するように動作可能なインデクサと、を含むことを特徴としている。

請求項２に記載の発明は、請求項１に記載の発明において、前記特定セグメントと前記近隣セグメントとの間の類似性が、視覚類似性、テキスト類似性、時間類似性、及び音声類似性からなる群から選択された１つ又は複数を含むことを特徴としている。

請求項３に記載の発明は、請求項２に記載の発明において、前記認識モジュールが、以下の（１）〜（３）の少なくとも１つのテキスト分割手法を用いて、複数のセグメントの各々からテキストによる索引タームを生成し、前記テキスト類似性を評価するように動作可能であることを特徴としている。
（１）セグメントのテキスト上に配置された固定長窓の上で首尾一貫性の尺度を測定し、測定結果として得られた値を閾値として使用する手法
（２）段落又は文である語彙単位を利用する手法、
（３）セグメントのテキストを固定語数の一節へ分割する手法

請求項４に記載の発明は、請求項３に記載の発明において、前記首尾一貫性の尺度が、記号的尺度又は確率的尺度であることを特徴としている。

請求項５に記載の発明は、請求項１に記載の発明において、前記特定セグメントと前記近隣セグメントとの間の類似性が、以下の（１）〜（４）からなる群から選択された１つ又は複数を含むことを特徴としている。
（１）セグメント上で検出された複数の索引タームの重なり
（２）セグメントの時間近接性、セグメントの順序近接性
（３）セグメントの視覚類似性
（４）セグメントの音響特徴の類似性

請求項６に記載の発明は、請求項１に記載の発明において、前記重みベクトルが、ユークリッド空間及び統計空間の少なくとも一方である特徴空間内の距離に基づいて計算されることを特徴としている。

請求項７に記載の発明は、請求項１に記載の発明において、前記重みモジュールが、以下の（１）〜（５）からなる群から選択された少なくとも１つに基づいて、前記重みベクトルを計算するように動作可能であることを特徴としている。
（１）セグメント上にあるセグメント特有の索引タームの類似性の程度
（２）セグメントを分ける時間
（３）セグメントの順序
（４）セグメントの視覚的特徴
（５）セグメントの音声・音色・韻律的類似性

請求項８に記載の発明は、請求項７に記載の発明において、前記セグメントの視覚的特徴が、以下の（１）〜（４）からなる群から選択された１つ又は複数を含むことを特徴としている。
（１）共通の見出し又はフッタ
（２）共通の視覚要素
（３）共通の色彩及び／又は色彩配合
（４）中点付きリストにおけるテキスト階層のパターン

請求項９に記載の発明は、請求項１に記載の発明において、前記インデクサが、更に、前記重みベクトル及び検索時ユーザ指定クエリの双方によって調整された重みを有する近隣セグメント由来の複数の索引タームを索引の中に組み入れて、特定セグメントの索引を作成するように動作可能であることを特徴としている。

請求項１０に記載の発明は、請求項１に記載の発明において、前記インデクサは、類似性に基づいて計算された重みベクトルを、類似するセグメントをグループ化して索引付けする索引付け時グループ化、及びセグメント毎に索引付けし類似するセグメントをグループ化して検索する検索時グループ化の少なくとも一方を介して、索引に反映させることを特徴としている。

上記目的を達成するために請求項１１に記載の発明は、類似性に基づいてメディア・ストリームを索引付けする索引付けプログラムであって、コンピュータを、メディア・ストリームの複数のセグメントの各々から複数の索引タームを抽出する手段と、メディア・ストリーム内の特定セグメントと当該特定セグメントの近隣にある近隣セグメントとの間の類似性に基づいて、少なくとも１つの特定セグメントについて重みベクトルを計算する手段と、少なくとも、特定セグメントから上で検出された複数の索引ターム、及び前記重みベクトルによって調整された重みを有する前記近隣セグメント由来の複数の索引タームを組み入れて、特定セグメントの索引を作成する手段と、として機能させるための索引付けプログラムであることを特徴としている。

以上説明したように本発明によれば、以下の効果がある。

請求項１、請求項１１に係る発明によれば、視覚情報やテキスト情報を含むメディア・ストリームのセグメントについて、セグメント間の多次元内容の類似性に基づいて索引付けを行うことができる、という効果がある。

特定セグメントの索引ターム、及びその近隣セグメントの重みを調整された索引タームの双方を「索引」に含めることによって、特定セグメントの索引を「カーネル（kernel）」又は「重みづけられたプロファイル（weighted profile）」として構築することができる。簡単に言えば、重み付けの手法によって、同じメディア・ストリームの近隣セグメントは、特定セグメントに関連付けられた索引タームに影響を与えることができる。

例えば、セグメントの視覚的特徴、テキスト的特徴、聴覚的特徴、及び時間的特徴の組み合わせを用いて、トピックとなる文脈に対応する複数のセグメントを論理グループにグループ化することによって、視覚情報やテキスト情報を含むメディア・ストリームのセグメントを索引付けするアプローチを可能にする。

請求項２に係る発明によれば、各々のセグメントについて、その近隣セグメントに対するセグメント間での視覚、テキスト、時間、及び音声の類似性に基づいて、重みベクトルが計算される。

請求項３、請求項４に係る発明によれば、従来、文書を複数の断片に分割するため使用されていたテキスト分割手法を、逆に使用して、近隣セグメントに関連付けられたテキストを、単一の重みベクトルへ結び付けることができる。

請求項５に係る発明によれば、特定セグメントと近隣セグメントとの間の類似性に基づいて計算され、拡張され且つ再重み付けされたタームベクトルは、各々のセグメントを索引付けするために使用される。これによって近隣セグメント間に分散された概念の検索（the retrieval of concepts）を可能にする。また、複数セグメントの上でタームの出現頻度に基づくメトリクス（term frequency-based metrics）を平滑化することによって、それを改善する。

請求項６、請求項７、請求項８に係る発明によれば、種々の因子から得られた特徴を有する或る特徴空間内の距離に基づいて、重みベクトルを計算することができる。

請求項９に係る発明によれば、検索時に、類似性の尺度及びユーザによって指定されたクエリの双方に基づいて調整された重みを有する近隣セグメント由来の複数の索引タームを含めることができる。

請求項１０に係る発明によれば、一度、索引タームの重みベクトルが計算されると、それを索引の中へ組み入れることができる。

索引付け時グループ化では、十分な類似性を有する近隣セグメントのグループに基づいて、首尾一貫した文書（coherent documents）を作成することを含むので、２つ以上の近隣セグメントを単一の文書へグループ化することができる。それらのセグメントは、それらに含められた索引タームの全部によって索引付けされ、１つの単位として検索される。

一方、検索時グループ化においては、セグメントは個々に索引付けされ、クエリ評価の後にグループ化されて、クエリ偏向グループ化（query-biased grouping）が達成される。クエリ偏向グループ化では、グループ化の計算においてクエリ用語又は他の関連用語の重みが考慮される。

本発明の様々な実施形態は、セグメントの視覚的特徴、テキスト的特徴、聴覚的特徴、及び時間的特徴の組み合わせを用いて、トピックとなる文脈に対応する複数のセグメントを論理グループにグループ化することによって、視覚情報やテキスト情報を含むメディア・ストリームのセグメントを索引付けするアプローチを可能にする。

視覚的／時間的／聴覚的／テキスト的な重み付けの手法が採用される。この手法によって、同じプレゼンテーションのどこかにあるセグメントは、特定セグメントに関連付けられた索引タームに影響を与えることができる。

本発明の好ましい実施形態は、下記の図面に基づいて詳細に説明される。本発明は、添付の図面において、限定ではなく一例として説明される。図面における同様の符番は、類似の要素を示す。この開示における「１つ」又は「幾つかの」実施形態への参照は、必ずしも同じ実施形態への参照ではなく、そのような参照は少なくとも１つを意味することに注意すべきである。

図１は、本発明の１つの実施形態において、類似性に基づいてメディア・ストリームを索引付けするシステムの一例を示す図である。この図は、構成要素を機能的に分別して示しているが、それは単に例示を目的とするためである。この図に示される構成要素は任意的に組み合わせられてよく、又は別個のソフトウェア、ファームウェア、及び／又はハードウェア構成要素へ分割されてよいことが、当業者には明らかであろう。更に、そのような構成要素は、どのように組み合わされ又は分割されるかに関係なく、同一のコンピューティング・デバイス又は複数のコンピューティング・デバイスの上で実行可能であり、複数のコンピューティング・デバイスは１つ又は複数のネットワークによって接続可能であることが、当業者には明らかであろう。

図１を参照すると、認識モジュール１０１は、入力されたメディア・ストリームの複数のセグメントから複数の索引ターム（terms）を抽出するように動作することができる。ここで、メディア・ストリームは、これに限定される訳ではないが、キャプチャされたパワーポイント・プレゼンテーション内のスライドであってもよい。

各々のセグメントについて、重みモジュール１０２は、特定セグメントとその近隣セグメントとの間の、視覚、テキスト、時間、及び音声の類似性に基づいて、重みベクトル（weight vector）を計算するように動作することができる。特定セグメントに対する近隣セグメントは、時間に連続したセグメントには限られない。理論的には、メディア・ストリーム内の任意のセグメントが、特定セグメントの近隣セグメントである。

次に、インデクサ１０３は、特定セグメントの索引ターム、及びその近隣セグメントの重みを調整された索引タームの双方を含めることによって、特定セグメントの索引（カーネル（kernel）又は重みづけられたプロファイル（weighted profile））を構築することができる。

図２は、本発明の１つの実施形態において、類似性に基づきメディア・ストリームを索引付けるフローチャートの一例を示す。この図は、例示を目的として特定の順序の機能ステップを示すが、プロセスは、ステップの特定の順序又は配列へ限定されない。この図で示された様々なステップは、様々なやり方で省略、再配列、結合、及び／又は適合化されてよいことを、当業者は理解するであろう。

図２を参照すると、ステップ２０１において、キャプチャされたプレゼンテーションの各々のセグメントは、複数の索引ターム及び特徴（features）を抽出するように処理される。ステップ２０２では、各々のセグメントについて、その近隣セグメントに対するセグメント間での視覚、テキスト、時間、及び音声の類似性に基づいて、重みベクトルが計算される。

次に、ステップ２０３では、特定セグメントの索引が構築される。索引は、そのセグメントの表現（representation）の中に、セグメント内で検出された全部の索引タームを含む。索引付け時には、ステップ２０４において、索引は、更に、セグメント間の類似性に基づいて調整された重みを有する近隣セグメント由来の索引タームを含む。検索時には、ステップ２０５において、類似性の尺度及びユーザによって指定されたクエリの双方に基づいて調整された重みを有する近隣セグメント由来の複数の索引タームを含めることができる。

幾つかの実施形態において、索引付けされた特定セグメントとその近隣セグメントとの間の類似性は、これに限定される訳ではないが、近隣セグメント上で検出された索引ターム間の重なり（overlap）、セグメントの時間及び順序近接性、及びセグメントの視覚特徴の類似性を含む。索引ターム間の重なりは、これに限定される訳ではないが、統語論的、意味論的、言語的、又は統計的類似性であってもよい。

この拡張され且つ再重み付けされたタームベクトルは、各々のセグメントを索引付けするために使用される。これによって近隣セグメント間に分散された概念の検索（the retrieval of concepts）を可能にする。また、複数セグメントの上でタームの出現頻度に基づくメトリクス（term frequency-based metrics）を平滑化することによって、それを改善する。

幾つかの実施形態において、セグメント内のテキストによる索引ターム（textual terms）を生成して、多くのやり方で、近隣セグメントとのテキスト類似性を評価することができる。１つの標準的テキスト分割手法は、テキストの上で固定長の窓を走らせ、窓の上で首尾一貫性（coherence；内容的な連関性）の尺度を計算し、計算結果の値を閾値として首尾一貫した一節（passage）を生成することである。首尾一貫性の尺度は、これに限定される訳ではないが、統計的、記号的、確率的、その他であってよい。

上記手法に代えて、例えば、段落（paragraphs）または文（sentences）などの語彙単位（lexical units）を使用して、一節を生成することができる。最後に、固定された語数の一節へテキストを分割してもよい。従来、これらのテキスト分割手法は、文書を複数の断片に分割するため使用されていたが、これらの手法を逆に使用して、近隣セグメントに関連付けられたテキストを、単一の重みベクトルへ結び付けることができる。

幾つかの実施形態では、以下に列挙する因子（１）〜（５）の１つ又は複数から得られた特徴を有する或る特徴空間内の距離に基づいて、重みベクトルを計算することができる。なお、特徴空間は、これに限定される訳ではないが、ユークリッド空間及び統計空間であってもよい。因子は次のとおりである。

（１）セグメント特有の索引タームの類似性の程度
２つのセグメントの語彙（vocabulary）が近似するほど、それだけ大きい尤度で、近隣セグメント由来の索引タームが使用されて、ターゲットが検索される。正確な関数は経験的に決定可能である。

（２）２つのセグメントを分ける時間
比較的に近接して一緒にプレゼンテーションされたセグメントは、関連している尤度が大きいと考えられる。機械学習アルゴリズムをトレーニングして、各々のセグメントが表示された時間量に基づいて近隣セグメント間の関連性を推定することができる。この得点（score）を使用して、上記で計算された類似性の程度を調整することができる。

（３）セグメントの順序
他の因子（例えば、テキスト類似性又は視覚類似性）が関係する場合を除いて、近隣セグメントが有意味的にグループ化される尤度が大きい。従って、セグメント間の距離が増加するときのテキスト類似性の割引（discounting：低い見積り）は、索引タームの重み因子にしなければならない。

（４）視覚類似性の特徴
これに限定される訳ではないが、共通の見出し（headings）又はフッタ（footers）、共通の視覚要素（例えば、アイコン（icons）又は画像（images））、共通の色彩（colors）及び／又は色彩配合（color schemes）、及び中点付きリスト（bulleted lists）におけるテキスト階層パターンを含む特徴は、視覚的特徴の全ての例であり、それらに基づいてセグメント間の類似性を測定することができる。セグメント間で計算された類似性の得点を使用して、近隣セグメントに由来する索引タームの出現頻度情報を調整することができる。

（５）記録されたスピーカの声（voice）の音声（audio）／音色（timbre）／韻律（prosodic）の類似性の使用
換言すれば、もしセグメントに対応する音声が記録されていたならば、その音声から得られた音響的特徴（acoustic features）を使用して、類似性を評価することができる。

索引タームの重みを決定する他のスキームも可能である。非限定的な例として、複数の特徴次元に順応するベイズ統計に基づく類似性メトリクス（Bayesian statistically-based similarity metric）を採用することができる。これに代えて、最大エントロピ・アプローチを使用して、前述した特徴を組み合わせることができる。

幾つかの実施形態において、一度、索引タームの重みベクトルが計算されると、それを索引の中へ組み入れることができる。索引タームの重みベクトルを組み入れる２つの例示的な手順は、索引付け時グループ化（index-time grouping）及び検索時グループ化（query-time grouping）である。

索引付け時グループ化は、十分な類似性を有する近隣セグメントのグループに基づいて、首尾一貫した文書（coherent documents）を作成することを含む。２つ以上の近隣セグメントを単一の文書へグループ化することができる。それらのセグメントは、それらに含められた索引タームの全部によって索引付けされ、１つの単位として検索される。

検索時グループ化においては、セグメントは個々に索引付けされ、クエリ評価の後にグループ化されて、クエリ偏向グループ化（query-biased grouping）が達成される。クエリ偏向グループ化では、グループ化の計算においてクエリ用語又は他の関連用語の重みが考慮される。

幾つかの実施形態において、セグメント・グループ・アプローチは、正しく認識された索引タームがセグメントのグループに関連付けられる尤度を増加させることによって、ＯＣＲエラーを埋め合わせすることができる。非限定的な例として、１つの索引ターム（特徴）が３つの連続したセグメントで出現し、３つの場合の２つで誤った認識を生じると仮定する。セグメントがグループ化されていないと、正しく認識された語（word）を含むセグメントのみが検索される。セグメントがグループ化されていると、正しい綴りの変形（variant）が近隣セグメントへ伝搬され、検索尤度を増加させる。

コンピュータ技術の当業者には明らかなように、この開示の教示に従ってプログラムされた従来の汎用又は特殊ディジタル・コンピュータ又はマイクロプロセッサを使用して、１つの実施形態が実現されてもよい。ソフトウェア技術の当業者に明らかであるように、適切なソフトウェア・コーディングは、この開示の教示に基づいて、熟練したプログラマによって容易に準備可能である。当業者に容易に分かるように、本発明は、更に、集積回路を準備することによって、又は従来の部品回路網を適切に相互接続することによって実現されてもよい。

１つの実施形態は、命令を記憶された機械読み取り可能メディアであるコンピュータ・プログラムプロダクトを含む。このプログラムプロダクトを使用して、１つ又は複数のコンピューティング・デバイスをプログラムし、本明細書で呈示された特徴の任意のものを達成することができる。

機械読み取り可能メディアは、これに限定される訳ではないが、フロッピー（登録商標）ディスク、光ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、マイクロ・ドライブ、及び光磁気ディスクを含む１つ又は複数のタイプのディスク、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＤＲＡＭ、ＶＲＡＭ、フラッシュ・メモリ・デバイス、磁気又は光学カード、ナノシステム（分子メモリＩＣを含む）、又は命令及び／又はデータを記憶するのに適した任意のタイプのメディア又はデバイスを含むことができる。

コンピュータ読み取り可能メディアの任意の１つに記憶されることで、本発明はソフトウェアを含む。このソフトウェアは、汎用／特殊コンピュータのハードウェア又はマイクロプロセッサを制御し、コンピュータ又はマイクロプロセッサが、本発明の結果を利用する人間のユーザ又は他の機構と対話できるようにする。そのようなソフトウェアは、これに限定される訳ではないが、デバイス・ドライバ、オペレーティング・システム、実行環境／コンテナ、及びアプリケーションを含んでよい。

本発明の好ましい実施形態の記述は、例示及び説明を目的として提供された。本発明が、開示された形態によって包括されていること、又は限定されていることは意図されない。多くの修正及び変形が、実施する当業者には明らかであろう。特に、前述したシステム及び方法の実施形態では「モジュール（module）」の概念が使用されたが、そのような概念は、同等の概念、例えば、ビーン（bean）、クラス（class）、メソッド（method）、タイプ（type）、コンポーネント（component）、インタフェース（interface）、オブジェクト・モデル（object model）、及び他の適切な概念と互換的に使用可能であることが明らかである。

本発明の原理及びその実用的応用を最良に説明し、それによって本発明、様々な実施形態、及び想定される特定の使用に適した様々な修正を他の当業者に理解させるため、実施形態が選択及び説明された。本発明の範囲は、特許請求の範囲及びその同等物によって定められることが意図される。

本発明の実施の形態に係る、類似性に基づいてメディア・ストリームを索引付けするシステムの一例を示す図である。本発明の実施の形態に係る、類似性に基づきメディア・ストリームを索引付けするフローチャートの一例を示す図である。

Claims

類似性に基づいてメディア・ストリームを索引付けする索引付けシステムであって、
メディア・ストリームの複数のセグメントの各々から複数の索引タームを抽出するように動作可能な認識モジュールと、
メディア・ストリーム内の特定セグメントと当該特定セグメントの近隣にある近隣セグメントとの間の類似性に基づいて、少なくとも１つの特定セグメントについて重みベクトルを計算するように動作可能な重みモジュールと、
少なくとも、特定セグメント上で検出された複数の索引ターム、及び前記重みベクトルによって調整された重みを有する前記近隣セグメント由来の複数の索引タームを組み入れて、特定セグメントの索引を作成するように動作可能なインデクサと、
を含む索引付けシステム。
前記特定セグメントと前記近隣セグメントとの間の類似性が、視覚類似性、テキスト類似性、時間類似性、及び音声類似性からなる群から選択された１つ又は複数を含む、請求項１に記載の索引付けシステム。
前記認識モジュールが、以下の（１）〜（３）の少なくとも１つのテキスト分割手法を用いて、複数のセグメントの各々からテキストによる索引タームを生成し、前記テキスト類似性を評価するように動作可能である、請求項２に記載の索引付けシステム。
（１）セグメントのテキスト上に配置された固定長窓の上で首尾一貫性の尺度を測定し、測定結果として得られた値を閾値として使用する手法
（２）段落又は文である語彙単位を利用する手法、
（３）セグメントのテキストを固定語数の一節へ分割する手法
前記首尾一貫性の尺度が、記号的尺度又は確率的尺度である、請求項３に記載のシステム。
前記特定セグメントと前記近隣セグメントとの間の類似性が、以下の（１）〜（４）からなる群から選択された１つ又は複数を含む、請求項１に記載の索引付けシステム。
（１）セグメント上で検出された複数の索引タームの重なり
（２）セグメントの時間近接性、セグメントの順序近接性
（３）セグメントの視覚類似性
（４）セグメントの音響特徴の類似性
前記重みベクトルが、ユークリッド空間及び統計空間の少なくとも一方である特徴空間内の距離に基づいて計算される、請求項１に記載の索引付けシステム。
前記重みモジュールが、以下の（１）〜（５）からなる群から選択された少なくとも１つに基づいて、前記重みベクトルを計算するように動作可能である、請求項１に記載の索引付けシステム。
（１）セグメント上にあるセグメント特有の索引タームの類似性の程度
（２）セグメントを分ける時間
（３）セグメントの順序
（４）セグメントの視覚的特徴
（５）セグメントの音声・音色・韻律的類似性
前記セグメントの視覚的特徴が、以下の（１）〜（４）からなる群から選択された１つ又は複数を含む、請求項７に記載の索引付けシステム。
（１）共通の見出し又はフッタ
（２）共通の視覚要素
（３）共通の色彩及び／又は色彩配合
（４）中点付きリストにおけるテキスト階層のパターン
前記インデクサが、更に、前記重みベクトル及び検索時ユーザ指定クエリの双方によって調整された重みを有する近隣セグメント由来の複数の索引タームを索引の中に組み入れて、特定セグメントの索引を作成するように動作可能である、請求項１に記載の索引付けシステム。
前記インデクサは、類似性に基づいて計算された重みベクトルを、類似するセグメントをグループ化して索引付けする索引付け時グループ化、及びセグメント毎に索引付けし類似するセグメントをグループ化して検索する検索時グループ化の少なくとも一方を介して、索引に反映させる、請求項１に記載の索引付けシステム。
類似性に基づいてメディア・ストリームを索引付けする索引付けプログラムであって、
コンピュータを、
メディア・ストリームの複数のセグメントの各々から複数の索引タームを抽出する手段と、
メディア・ストリーム内の特定セグメントと当該特定セグメントの近隣にある近隣セグメントとの間の類似性に基づいて、少なくとも１つの特定セグメントについて重みベクトルを計算する手段と、
少なくとも、特定セグメントから上で検出された複数の索引ターム、及び前記重みベクトルによって調整された重みを有する前記近隣セグメント由来の複数の索引タームを組み入れて、特定セグメントの索引を作成する手段と、
として機能させるための索引付けプログラム。