JPH11316768A

JPH11316768A - 任意のコ―パスサブセットをほぼ一定時間でクラスタ化するための方法および装置

Info

Publication number: JPH11316768A
Application number: JP11017644A
Authority: JP
Inventors: D Silverstein Craig; デーシルバーステインクレイグ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1998-01-26
Filing date: 1999-01-26
Publication date: 1999-11-16
Anticipated expiration: 2019-01-26
Also published as: US6038557A; JP4243376B2

Abstract

(57)【要約】【課題】任意のコーパスサブセットをほぼ一定時間で
クラスタ化する。【解決手段】ユーザは、最初に、コーパス全体のメタ
ドキュメントへのクラスタ化を提示され、そのクラスタ
化から最悪メタドキュメントが選択され、その子によっ
て置換される。関心のあるドキュメントを包含しない子
は除去され、残りのメタドキュメントは、所定数の子メ
タドキュメントが得られるまで、さらに拡張される。次
に、得られるメタドキュメントは、再クラスタ化され
る。この処理は、ユーザが所望の程度の特異性を得るま
で反復される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、電子ドキュメント
をほぼ一定時間でクラスタ化するための方法および装置
に関する。特に、本発明は、電子ドキュメントの大きな
コーパス（記録されたテキストの集合）をほとんど一定
時間で、それに比べて非常に小さなクラスタのセットに
分割することを目的とする。

【０００２】

【従来の技術】ドキュメントブラウジングは、大きなテ
キストコレクションにアクセスするために使用される有
力なツールである。ブラウジングは、クエリー（質問）
がないため検索と識別され、余りにも一般的であるかま
たは余りにも漠然としているためのいずれかによって、
幾つかの検索言語によって有効に表現できない情報ニー
ズに対して、都合よく作動する。たとえば、ユーザが、
関心のある話題を適切な言語で記述することに不慣れで
ある場合、またはワードの特定の選択にコミットする
（明言する）ことを希望しない場合がある。実際、ユー
ザは、特定のものは何も要求しないが、コレクションの
一般的な（全般的な）情報コンテンツ（内容）を探求し
たい場合がある。

【０００３】この状況において、情報アクセスシステム
は有用である。情報アクセスシステムは、コレクション
のコンテンツを提示すること、および、ユーザがコンテ
ンツの幾つかの話題に固有のサブセットに関心を集中す
ることの両者をナビゲーションできるコレクションのア
ウトラインを含む。このようなブラウジングシステム
は、Ｐｅｄｅｒｓｅｎらによる米国特許第５，４４２，
７７８号（分散／集合：Scatter/Gather）および米国特
許第５，４８３，６５０号に開示されており、これらの
各特許は引用により本願に援用する。

【０００４】分散／集合においては、注意は、常に、ド
キュメントのフォーカスセット、特にユーザの関心を引
く可能性のあるサブセットに向けられる。最初に、フォ
ーカスセットは、ドキュメントコレクション全体である
かもしれない。フォーカスセット内のドキュメントは、
ドキュメントの少数の話題固有の（トピックに密着した
topic-coherent）サブセット、またはドキュメントのク
ラスタにクラスタ化される。用語「クラスタ化（cluste
ring）」および「分散（scattering）」は、同義語とし
て使用される。したがって、フォーカスセット内のドキ
ュメントは、クラスタに分散される、ということができ
る。

【０００５】分散／集合においては、クラスタ要約（サ
マリー）が作成（develop）され、ユーザに提示され
る。クラスタ要約は、通常、フォーカスセットのドキュ
メントの輪郭（アウトライン）を示すコンテンツの表
（テーブル）である。クラスタ要約は、各クラスタ内の
ドキュメントから自動的に決定される示唆に富むテキス
トを含む。各クラスタ要約は、２種類の情報を含む。す
なわち、クラスタのドキュメントに最も頻繁に出現する
話題の（topical）ワード、およびクラスタ内の数個の
典型的なドキュメントの名称である。要約は、クラスタ
プロファイルに基づく。このクラスタプロファイルはク
ラスタのドキュメントに出現するワードを反映する。

【０００６】そこで、ユーザは、最も関心を持たせるよ
うに見える複数のクラスタを識別し、選択する。選択さ
れたクラスタは、一緒に集合され、新しい小さいフォー
カスセットを形成する。すなわち、新しいフォーカスセ
ットは、選択されたクラスタ内のドキュメントの合併
（ユニオン：union）である。ユーザがドキュメントに
個別にアクセスすること、またはクエリーに基づく探索
方法を使用することを求めるまで、この処理が所望の回
数反復される。

【０００７】分散／集合は、必ずしも独立型情報アクセ
スツールである必要はない。むしろ、分散／集合は、論
理探索または類似性探索などの探索方法と連携して使用
することができる。類似する例は、リファレンスブック
（reference book）であり、リファレンスブックは二つ
のアクセス方法を提供する。一つは、ブラウジングのた
めの前にある目次（a table of contents）であり、他
は、さらに直接的な探索のための最後にある索引（inde
x）である。分類／集合は、必ずしも特定のドキュメン
トを探索するために使用されるとは限らない。むしろ、
クラスタ要約に存在する用語（ボキャブラリー）を公開
することによって、分散／集合は、相補的な探索方法を
補助する。たとえば、クラスタプロファイルを、類似性
探索においてコレクション全体に対するクエリーとして
使用することができる。逆に言えば、分散／集合を使用
し、過剰の多数のドキュメントを検索するワードを基礎
とするクエリーの結果を編成することができる。

【０００８】図９は、１９９０年８月のＮｅｗＹｏｒ
ｋＴｉｍｅｓＮｅｗｓＳｅｒｖｉｃｅに掲載され
た約５，０００記事のテキストコレクションに適用され
る分散／集合方法を示す図である。図９においては、分
散／集合方法を一層簡単に提示するために、実際のクラ
スタ要約の代わりに単独のワード文字（ラベル）が示さ
れている。

【０００９】図９に示す例においては、ユーザの情報ニ
ーズは、１９９０年に発生したことを一般的に決定する
ことである。特定の話題記述は全く存在しないため、こ
の情報ニーズを効果的に表現するワードに基づくクエリ
ーを構成することは困難である。ユーザは、一般的な話
題、たとえば、「国際的事件」を考えるが、この話題記
述は、国際事件に関する記事は、通常、これらのワード
を使用しないため、有効ではない。

【００１０】分散／集合によって、ある用語を提供する
ことが強制されるのではなく、ユーザは、クラスタ要約
のセット、すなわちコレクションの輪郭を提供される。
ユーザニーズは、関心のある話題に関連する可能性があ
ると考えられるクラスタを選択する。図９に示す分散／
集合処理においては、その月の主要な新聞記事は、最初
の分散からすぐに明らかになり、イラクのクエート侵入
およびドイツ再統合問題である。これによって、ユーザ
は、国際問題に焦点を絞るようになり、「イラク」、
「ドイツ」、および「石油」クラスタを選択する。これ
らの３クラスタは一緒に集合され、より小さなフォーカ
スセットを形成する。

【００１１】次に、この比較的小さなフォーカスセット
は、クラスタ化、すなわち分散され、減少されたコレク
ションを包含する８個の新しいクラスタを形成する。減
少されたコレクションは、記事のサブセットのみを含む
ので、これらの新クラスタによって、元の８個のクラス
タより細かいレベルの詳細が明らかになる。イラク侵入
に関する記事および石油記事の一部は、米国軍展開、石
油市場に対するイラク侵入の影響、およびクエートにお
ける人質についてのクラスタに分離される。

【００１２】ユーザが、これらの主要な新聞記事を適切
に理解するが、世界の他の部分で何が発生したかを見つ
けたいと思う場合、ユーザは、たとえば、「パキスタ
ン」クラスタを選択、−このクラスタも他の外国政治新
聞記事を含む−およびアフリカに関する記事を含むクラ
スタを選択することができる。これらのクラスタを分散
することによって、多数の特定の国際状況ならびに多方
面にわたる国際記事の小さなコレクションが明らかにな
る。このようにして、ユーザは、パキスタンにおける政
変およびトリニダードで発生した人質について知る。こ
れらの記事は、別の状態では、その月の一層重要な記事
の中に埋没してしまうものである。

【００１３】図１０は、分散／集合の操作を示す図であ
る。図１０に示す例においては、テキストコレクション
（またはフォーカスセット）２０は、グロリエ（Ｇｒｏ
ｌｉｅｒ）の百科事典のオンライン版である。フォーカ
スセット内の２，７００，０００記事は、それぞれ、独
立のドキュメントとして処理される。図１０に示す例に
おいては、ユーザは、宇宙開発における女性の役割を調
査することに関心がある。この情報ニーズを正式の（fo
rmal）クーリエによって表現しようとするのでなく、ユ
ーザは、代わりに、クラスタの記述から、関心のある話
題に関連すると考えられる多数のトップレベルのクラス
タ２２Ａ〜２２Ｉを提供される。次に、ユーザは、軍事
経過（ヒストリー）クラスタ２２Ａ、科学および産業検
出子２２Ｃおよびアメリカ社会クラスタ２２Ｈを選択
し、グロリエの事典から得られる記事の指示されたサブ
セットの減少されたコーパス（またはフォーカスセッ
ト）２４を形成する。

【００１４】次に、減少されたコーパスは、浮動によっ
て（on the fly）もう一度クラスタ化され、減少された
コーパス２４を対象にする新しいクラスタのセット２６
Ａ〜２６Ｊを生成する。減少されたコーパスはグロリエ
の事典の記事のサブセットを含むため、これらの新クラ
スタは、トップレベルクラスタ２２Ａ〜２２Ｉより細か
いレベルの詳細である。ユーザは、再度、関心のあるク
ラスタを選択する。この場合、選択されたクラスタは、
軍用機クラスタ２６Ｅ、工業技術クラスタ２６Ｇ、およ
び物理クラスタ２６Ｈである。再度、さらに減少された
コーパス２８が形成され、再クラスタ化される。最終セ
ットのクラスタ３０Ａ〜３０Ｆは、軍用機クラスタ３０
Ａ、アポロ計画クラスタ３０Ｂ、航空宇宙産業クラスタ
３０Ｃ、天候クラスタ３０Ｄ、天文学クラスタ３０Ｅ、
および民間航空機クラスタ３０Ｆを含む。この段階にお
いて、クラスタは、十分に小さく、記事名称の網羅的な
リストを通じて直接に精読することができる。関心のあ
る少なくとも一つの記事が見出されると仮定すると、ユ
ーザは、同じくラスタ内に類似の特性の記事をさらに見
出すこと、またはことによると探し当てた記事またはク
ラスタ記述の用語集（ボキャブラリー）に基づいて方向
を持った（directed）探索方法を使用して追加記事を見
出すことができる。

【００１５】

【発明が解決しようとする課題】ドキュメントクラスタ
化に関する以前の成果は、線形時間(linear-time)法、
たとえば、分散／集合および米国特許第５，４８３，６
５０号に記載の線形時間法を含み、この方法によれば、
クラスタ化のために要する時間は僅か数分に減少され
る。これは、広範囲のワードに基づくクエリーを使用
し、中程度の大きさのコレクションを探索するのに十分
な速さである。たとえば、毎秒およそ３０００ドキュメ
ントの速度を、分散／集合を使用し、サンマイクロシス
テムズ（ＳｕｎＭｉｃｒｏｓｙｓｙｔｅｍｓ）のＳＰＡ
ＲＣＳＴＡＴＩＯＮ２上において、実現できる。しか
し、線形時間クラスタ化でさえも、非常に大きなドキュ
メントコレクションの対話型ブラウジングを支援するた
めには遅すぎる。このことは、約７５０，０００のドキ
ュメントを含むテキスト検索評価のために、分散／集合
をＴＩＰＳＴＥＲコレクション、ＤＡＲＰＡ標準に適用
する場合を考慮すれば、特に、明らかである。毎秒３０
００ドキュメントの速度において、これは、分散するた
めに４時間以上を必要とし、対話型にとっては長すぎる
と考えられる。したがって、ドキュメントをクラスタ化
するために、一層迅速なさらに効率的な方法を見出すこ
とが必要とされる。

【００１６】本発明は、顧客対応可能な時間／精度トレ
ードオフを持つコーパスサブセットをほぼ一定時間でク
ラスタ化するための方法および装置を提供するものであ
る。

【００１７】本発明は、基礎的なブラウジング方法、た
とえば、分散／集合に使用することが可能であり、大き
なドキュメントコレクションを関連のあるドキュメント
のクラスタに効率的に分割するほぼ一定時間でクラスタ
化するための方法も提供するものである。

【００１８】

【課題を解決するための手段】本発明による再クラスタ
化方法および装置においては、入力は、全体のドキュメ
ントの複数のメタドキュメントへのクラスタ化であり、
複数のメタドキュメントから「最悪」メタドキュメント
が選択される。「最悪」メタドキュメントは、その子の
メタドキュメントによって置換され、関心のあるドキュ
メントを含まないこれらの子は除去される（pruned）。
次に、残りのメタドキュメントは一緒に集合され再クラ
スタ化される。ユーザが所望の程度の特定性を得るま
で、この処理が反復される。

【００１９】このクラスタ化方法は従来の方法より速
く、この方法においては、クラスタは本来の資質（in t
heir own right）でドキュメントとして処理され、既存
の階層（hierarchy）を使用しクラスタの新しいセット
を生成する。すなわち、本発明による再クラスタ化方法
および装置においては、クラスタは、大きな個別ドキュ
メントであるかのように、クラスタ化する必要があるメ
タドキュメントして処理され、クラスタ化される。した
がって、ファンアウトｋを有するクラスタ階層の場合、
本発明による再クラスタ化方法および装置は、最小のク
ラスタから開始し、各クラスタをそのｋ個の子によって
置換する。親クラスタは検査され、最悪クラスタが除去
される。すなわち、「最悪」親クラスタは、そのｋ個の
子によって置換される。

【００２０】本発明のこれらおよび他の特徴および利益
は、以下の好適な実施形態に関する詳細記述に記載さ
れ、明らかとなる。

【００２１】以下、本発明を添付図面を参照して詳細に
述べる。図面において、同じ符号は、同じ構成要素を示
す。

【００２２】

【発明の実施の形態】図１は、本発明による再クラスタ
化システム１０の一実施形態を示すブロック図である。
システム１０は、プロセッサ１１、ＲＯＭ１２、ＲＡＭ
１３、不揮発性メモリ１４、コーパス入力１５、ユーザ
入力装置１６、ディスプレイ装置１７、および出力装置
１８を備える。

【００２３】ブラウジング手順を実行する前に、ドキュ
メントコーパスがコーパス入力１５から入力される。次
に、ドキュメントコーパスは、プロセッサ１１によって
分割される。分割手順の結果は、ディスプレイ装置１７
に表示される。操作者は、ユーザ入力装置１６、たとえ
ば、マウス、キーボード、タッチスクリーン、スタイラ
ス、またはこれらの要素の組合せなどを使用し、コマン
ドおよびデータを入力することができる。ユーザは、ド
キュメントのハードコピーのみでなくクラスタダイジェ
スト要約（サマリー）のプリント出力も出力装置１８、
たとえばプリンタに出力することができる。

【００２４】従来は、プロセッサ１１によって、ドキュ
メントの初期順序付け（initial ordering）が準備され
る。初期順序付けは、たとえば、分散／集合に記載の分
別法を使用して準備される。プロセッサ１１によって、
コーパスの最初の順序付けの要約も決定され、この要約
はディスプレイ装置１７に表示、または出力装置１８に
よってユーザに出力することができる。この要約は、た
とえば、分散／集合に記載されているクラスタダイジェ
スト法を使用し、決定することができる。

【００２５】ユーザからユーザ入力装置１６を経由して
適切な命令を受領後、プロセッサ１１は、コーパスのさ
らに進んだ順序付けを実行することができる。このさら
に進んだ順序付けは、たとえば、分散／集合に記載され
ているバックショット(buckshot：大きめの散弾)法を使
用し、形成される。次に、このステップの所望の数の反
復が実行され、コーパスがさらに狭くされる。結局、個
別のドキュメントが検査され、または幾つかの有向探索
ツールが限定コーパスに適用される場合がある。

【００２６】図２は、本発明による再クラスタ化の一実
施形態の輪郭（アウトライン）を示す図である。処理
は、ステップＳ１００において開始され、ステップＳ２
００に続く。ステップＳ２００において、ユーザは、全
ドキュメントコレクションの一部またはコーパスの一部
を表現するドキュメントセットを選択する。後のステッ
プにおける反復のために、フォーカスセットはメタドキ
ュメントを含み、メタドキュメントは、それぞれ、コレ
クションの一部のみを表現する（代表する）。メタドキ
ュメントセット中のメタドキュメントの数は、ほぼ所定
の最大数に等しく、最大数は、たとえば、５００または
１０００とすることができる。次に、ステップＳ３００
において、最初のメタドキュメントセットは、プロセッ
サ１１によって選択され、クラスタ化される。好適に
は、メタドキュメントクラスタの所定数は、１０であ
る。一般に、必要とされることは、新メタドキュメント
の所定数は、その後のメタドキュメントの所定最大数よ
り小さいことが必要であるということのみである。メタ
ドキュメントを選択し、クラスタ化する処理は、図３お
よび図４に関連して、以下に述べる。次に、制御はステ
ップＳ４００に続く。

【００２７】ステップＳ４００において、新メタドキュ
メントは、要約されて利用できる形式になる。次に、ス
テップＳ５００において、たとえば、ディスプレイ装置
１７または出力装置１８を使用し、ユーザに提示され
る。次に、処理は、ステップＳ６００に続き、ステップ
Ｓ６００において、処理は停止する。

【００２８】メタドキュメントセットはクラスタ階層Ｈ
を有し、クラスタ階層Ｈは、ｋ個の子のファンアウト
（fan-out）およびルートノードｒを有する。階層は、
クラスタのツリー構造であり、クラスタはノードと呼ば
れ、ノード１のｋ個の子の合併はノード１自体と同じド
キュメントを有するように、ノードはメタドキュメント
を表現する。ドキュメントのセットＳは、クラスタ化ル
ーチンに入力される。この処理の結果、ｋ個のクラスタ
のセットとなり、このクラスタはＳ中のドキュメントを
正確に含む。

【００２９】図３は、図２のメタドキュメント選択およ
びクラスタ化ステップＳ３００の第１実施形態のさらに
詳細な輪郭を示す図である。ステップＳ３００から始ま
り、制御はステップＳ３２０に進む。ステップＳ３２０
において、収集する必要があるノードの最大数Ｍが設定
される。次に、ステップＳ３３０において、初期フォー
カスセットＴが、階層Ｈのルートノードｒとして設定さ
れる。次に、ルートノードは、そのｋ個の子によって直
ちに置換される。次に、制御はステップＳ３４０に進
む。

【００３０】ステップＳ３４０〜Ｓ３６０において、あ
る方法において「良好」である関心のあるノードがクラ
スタ階層中に見出される。ノードの良好度を決定する方
法について、以下に詳細に述べる。

【００３１】ステップＳ３４０において、フォーカスセ
ットＴのｋ個のノードは検査され、「最悪」ノードがピ
ックされる。「最悪」ノードは、以下の述べる「良好
度」検査によって決定される。次に、ステップＳ３５０
において、「最悪」ノードは除去され、そのｋ個の子の
ノードによって置換され、子は関心のあるドキュメント
を含む。関心のあるドキュメントを含まない子は含まれ
ず、効果的に除去される(pruned)。

【００３２】次に、ステップＳ３６０において、制御ル
ーチンは、フォーカスセットＴが収集する必要があるノ
ードの最大数Ｍに等しいノード数またはそれより大きい
ノード数を有するかを決定する。フォーカスセットＴの
ノード数が収集する必要がある最大ノード数Ｍ未満であ
る場合、制御はステップＳ３４０に跳び戻る。そうでは
なく、フォーカスセットのノード数が少なくともＭに等
しい場合、制御は、ステップＳ３７０に続く。

【００３３】ステップＳ３７０において、フォーカスセ
ットＴはクラスタ化され、クラスタＰのセットが得られ
る。次に、ステップＳ３８０において、クラスタＰのこ
のセットの各ノードは、クラスタ内の、Ｓにおいては存
在しなかったドキュメントを削除するために、関心のあ
るドキュメントＩ_S（ｎ）によって置換される。次に、
制御はステップＳ３９０に続き、ここで制御はステップ
Ｓ４００に戻る。

【００３４】前述したクラスタ化ステップにおいて、見
出されたＭ個のノードは、線形時間クラスタ化方法を使
用し、クラスタ化される。選択されるノード数が限定さ
れる限り、これによって、一定時間（constant-time）
のクラスタ化が与えられる。

【００３５】クラスタ階層のノードの数は大きい場合が
あるため、すべてのノードを検査して「良好」ノードを
見出すことはできない。その代わり、クラスタ階層は、
トップからファンアウトする。階層Ｈのルートノードか
ら始まり、ルートノードは、直ちにその子によって置換
される。得られるセットのｋ個のノードは検査され、
「最悪」ノードがピックされる。「最悪」ノードは除去
され、そのｋ個の子によって置換される。この処理は、
今、検討中の２ｋ−１のノードについて反復される。実
際は、すべてのｋ個の子ノードは、必ずしも含まれな
い。むしろ、子ノードのサブセットのみが、検討され
る。Ｍ個のノードが収集されると、処理は停止される。

【００３６】この時点において、共通集合（積集合）テ
ーブルＩ_Sが生成される。任意のノードｎに対して、そ
のノードの共通集合Ｉ_S（ｎ）は、Ｓ∩ｎにおけるドキ
ュメントのセットである。すなわち、Ｉ_S（ｎ）は、ド
キュメントセットＳとノードｎに含まれるドキュメント
間の共通集合である。したがって、共通集合テーブルＩ
_Sによって、ドキュメントセットＳおよびノードｎの両
者に含まれる関心のあるドキュメントのみが、提供され
る。Ｉ_Sは、｜Ｓ｜ｌｏｇ（ｎ）時間内に作成される。
共通集合テーブルＩ_Sを使用し、結果として得られる各
ノードが、共通集合Ｉ_S（ｎ）によって置換され、ドキ
ュメントセットＳに存在しない、クラスタ中のドキュメ
ントが削除される。得られるノードは、クラスタ化さ
れ、ｋ個のクラスタとなり、各ノードはなお単独の実体
（エンティティ：entity）として処理される。

【００３７】任意のノードｎに対するＳおよびｎの共通
集合を求めるために、ドキュメントを処理し、ドキュメ
ントを含む階層Ｈのすべてのノードを戻す関数が使用さ
れる。この関数は、ドキュメントセットＳに従属せず、
階層Ｈが決定されると同時に決定されることができる。
階層Ｈは、一定のｋのファンアウトを有するので、階層
Ｈは深度ｌｏｇｎを有し、したがって、各ドキュメント
は、ｌｏｇｎノードにある。

【００３８】Ｉ_Sを求めるために、テーブルが構成さ
れ、ノードによって索引される。テーブルの各項目は、
原始状態においては、空である。ドキュメントセットＳ
の各ドキュメントに対して、事前に計算された前述した
関数を使用し、どのノードがドキュメントを包含するか
を見出す。次に、ドキュメントセットをこのような各ノ
ードに対するテーブル項目に追加する。理論上は、一定
時間内に任意のサイズの空テーブルを構成することが可
能であるが、実際には、明白な線形時間（リニアー・タ
イム）アルゴリズムは極めて迅速である。テーブル更新
は、ドキュメント当たり時間ｌｏｇｎ、または全体で時
間｜Ｓ｜ｌｏｇｎを要する。得られるテーブルは、
Ｉ_S、すなわち必要とされる共通集合計算ツールであ
る。

【００３９】図４は、図２のメタドキュメント選択およ
びクラスタ化ステップＳ３００の第２実施形態のさらに
詳細な輪郭を示す図であり、如何にして、追加されるカ
ットオフ値を有する任意のデータセットに対するノード
が決定されるかを示す。ステップＳ３００において開始
され、制御はステップＳ１３０５に続く。次に、ステッ
プＳ１３０５において、カットオフ値が、ｃに設定さ
れ、その結果、ｃ未満のドキュメントを含むノードは単
独のドキュメントノードによって置換されることができ
る。再度、収集する必要があるノードの最大数Ｍも、設
定される。次に、ステップＳ１３１５において、初期フ
ォーカスセットＴが、階層Ｈのルートノードとして設定
される。次に、制御はステップＳ１３２０に続く。

【００４０】ステップＳ１３２０において、小さいドキ
ュメントセットＥは、ゼロに設定される。次に、ステッ
プ１３２５において、フォーカスセットのｋノードが検
査され、「最悪」ノードがピックされる。次に、ステッ
プＳ１３３０において、「最悪」ノードは、照合され、
そのノードが、カットオフ値ｃ未満の数のドキュメント
を含むかまたはそれに等しい数のドキュメントを含むか
が、決定される。ノードのドキュメントの数がカットオ
フ値ｃ未満である場合、制御は、ステップＳ１３３５に
続く。そうではなく、選択されるノードがカットオフ値
ｃ未満の数のドキュメントを含まない場合、制御は、ス
テップＳ１３４０に跳ぶ。

【００４１】ステップ１３３５において、ノード内のそ
の数のドキュメントが、小さなドキュメントセットＥに
加えられる。次に、制御は、ステップＳ１３４５に跳
ぶ。ステップＳ１３４０において、関心のあるドキュメ
ントを含むノードの子がフォーカスセットＴに加えられ
る。関心のあるドキュメントを含まない子は包含され
ず、効果的に、「除去される：pruned」。次に、制御
は、ステップＳ１３４５に続く。

【００４２】ステップＳ１３４５において、フォーカス
セットは、照合され、フォーカスセットが収集する必要
がある最大数Ｍに達しているかが決定される。収集する
必要があるノードの最大数Ｍに達している場合、制御
は、ステップＡ１３５０に続く。その他の場合は、制御
は、ステップＳ１３２５に跳び戻り、次の最悪ノードを
見出す。

【００４３】次に、ステップＳ１３５０において、小さ
いドキュメントセットＥがフォーカスセットＴに加えら
れる。次に、ステップＳ１３５５において、フォーカス
セットＴは、クラスタ化され、クラスタＰのセットが得
られる。次に、ステップＳ１３６０において、各ノード
Ｐは、関心のあるドキュメントＩ_S（ｎ）によって、置
換される。次に、制御は、ステップＳ１３６５に続く。
ステップＳ１３６５において、制御は、図２のステップ
Ｓ４００に戻る。

【００４４】このように、追加されるカットオフ値を有
する任意のデータセットに対して、ノードがドキュメン
トセットＳから得られる数個のドキュメントのみを含む
場合、これらのドキュメントは、ノードを拡張する時間
を消費する代わりに別のセットＥに追加される。

【００４５】ノードをその子によって置換する場合、
「空」の子、すなわちドキュメントセットＳにいかなる
ドキュメントも含まない子は、明白に回避することがで
きる。「単集合（シングルトン：Singleton）」子、す
なわち、ドキュメントＳから得られる一つのドキュメン
トのみしか包含しない子も、特別に取り扱うことができ
る。ノード内に一つのドキュメントしか存在しない場合
は、ノード全体が包含されない。ドキュメントが簡単に
取り出され、それ自体がノードとして処理される。これ
は、適切な終端子孫（リーフディセンデント：leaf des
cendent）によって子ノードを置換することと等価であ
る。一般に、カットオフ値ｃ未満のドキュメントを包含
するノードは、ｃ個の単独ドキュメントノードによって
置換することができる。一定の数のノードのみが検査さ
れるため、この方法によって生成される新しいノードの
数も一定である。

【００４６】如何にして多数のノードが拡張されるかに
ｃの値が影響を及ぼすようにすることは望ましくないの
で、単独のドキュメントノードは、通常のノードと別に
数えられる。すなわち、単独のドキュメントノードをフ
ォーカスセットＴ内に保持するのではなく、単独のドキ
ュメントノードは、別のセットＥに移動される。この処
理は、フォーカスセットＴが所定のサイズに達するまで
続く。｜Ｅ｜は、定数によって限定されるので、この値
は実行時間の解析に影響を及ぼさない。

【００４７】たとえば、図３のステップＳ３４０および
図４のステップＳ１３２５において、「最悪」ノードを
決定するために使用される幾つかの「良好度」検査があ
る。使用することができる一つの「良好度」検査は、適
合度検査または割合（ＲＡＴＩＯ）検査である。ノード
が包含する大部分のドキュメントもドキュメントセット
Ｓから得られる関心のあるドキュメントである場合、ノ
ードは、「良好」である。

【００４８】たとえば、ｎは、ｄドキュメントを有する
場合、ｎの良好度は、下式によって表される。

【００４９】

【数１】ｇ＝｜Ｉ_S（ｎ）｜／ｄ関数ｆ（Ｓ，Ｔ）によって、フォーカスセットＴ内の最
低の良好度を有するノードは返される。この関数は、僅
かしか一致しないノード、すなわち一致しない子を有す
る可能性のあるノードに有利であるので、この良好度検
査は、結果として、広い範囲の除去（pruned）となり、
結果が改善される。他方、かなり良好な割合を有する大
きなノードは、絶対値の項に多数の非一致ドキュメント
を含む場合でも、フォーカスセットＴ内にそのままで留
まる。

【００５０】一つの大きなノードが、ドキュメントセッ
トＳ内に多数のドキュメントを包含する場合、割合検査
は、このノードに有利である。このことはクラスタ化の
場合に問題となる場合があり、その理由は、クラスタ化
方法は、ノード内のドキュメントすべてを単独の実体と
して処理し、不均衡なクラスタサイズとなる可能性があ
るためである。このような大きなノードの拡張は、良好
度値に重みを付けることによって促進される。たとえ
ば、ノードｎは、ｄドキュメントを有する場合、ノード
ｎの加重良好度ｇ′は、下式によって表される。

【００５１】

【数２】ｇ’＝√｜Ｉ_S（ｎ）｜／ｄこの場合、ドキュメントセットＳ内に多数のドキュメン
トを有することは、良好な割合の保証にはならない。実
際に、比較的少数のドキュメントｄを有することが、一
層有利である。このことによって、出力ノードは、すべ
て、ドキュメントセットＳから得られるほぼ等しい数の
ドキュメントを有することを保証することが容易にな
る。

【００５２】良好度を決定する他の手法は、情報理論に
よる測定を使用する。ノードの子がノード自体より多く
のドキュメントセットＳに関する情報をコード化する場
合、そのノードは、その子によって置換される良い候補
である。このことは、親における一致は、子の間に不均
一に分散され、その結果、劣悪な子は除去され、良好な
子が維持されることを暗に示す。

【００５３】たとえば、ノードｎが、サイズｄを有する
場合、ノードｎ_iは、ノードｎの子であり、サイズｄ_iを
有する。ノードｎ内の情報Ｉ（ｎ）は、下式で表され
る。

【００５４】

【数３】Ｉ（ｎ）＝−（｜Ｉ_s（ｎ）｜／ｄ）・ｌｏｇ₂
（｜Ｉ_s（ｎ）｜／ｄ）ノードｎに対する情報ゲインＧ（ｎ）は、下式で表され
る。

【００５５】

【数４】Ｇ（ｎ）＝Ｉ（ｎ）−Σ｛（｜ｄ_i｜／｜ｄ
｜）・Ｉ（ｎ_i）｝ここで、Σは、ｉについてのサメンションである。

【００５６】ノードｎに対する適切な良好度測定は、Ｇ
（ｎ）によって与えられる。関数ｆ（Ｓ，Ｔ）によっ
て、フォーカスセットＴ内の最高の情報ゲインを有する
ノードは返される。このことは、その子によって置換さ
れることにより最も利益が得られるノードがピックされ
るという利点を有する。不都合なことに、これらの一致
が子の間に均一に分散される場合、このことは、僅かな
一致しか有しない大きなノードを無視することになる。

【００５７】本発明においては、非所定数の個別ドキュ
メントの代わりに、所定数のメタドキュメントが、クラ
スタ化または分散のための手順において使用される。メ
タドキュメントは、ツリー、たとえば、図５から図８ま
でのツリーなどのメタドキュメントから得られる降順の
複数の個別ドキュメントを表現する。

【００５８】図５から図８までの以下の討議の場合、本
発明に従って、たとえば前述した割合検査などの幾つか
の「良好度」検査の一つを使用し、「最悪」メタドキュ
メントを選択することができる。しかし、討議を容易に
するために、図５から図８までにおいて、「最悪」メタ
ドキュメントは、最低数の関心のあるドキュメントを有
するメタドキュメントを選択することによって簡単に選
択されるものとする。

【００５９】図５において、ツリー８１のノード８２〜
８６は、個別ドキュメント、たとえば、ドキュメント８
８などのコレクションを表現するメタドキュメントであ
る。たとえば、図５において、ノード８９は３個の子、
ドキュメント８８ａ、８８ｂ、８８ｃを有する内部ノー
ドである。内部ノード８９も、内部ノード８４の子であ
り、内部ノード８４自体はルートノード８２の子であ
る。ルートノード８２は、ドキュメントコレクション全
体を表現するメタドキュメントである。メタドキュメン
ト８３〜８６はメタドキュメント８２から直接に得られ
る子である。さらに、メタドキュメント８９のレベル８
７は、メタドキュメント８３〜８６から直接に得られる
子である。最後に、個別ドキュメント８８、すなわちツ
リーの葉は、メタドキュメント８７から直接に得られる
子である。ツリー８１は、説明上、非常に簡単にしてあ
る。実際には、大きなコーパスは非常に多数の個別ドキ
ュメントおよび便利に示す必要があるメタドキュメント
のレベルを有する。

【００６０】一例として、１０，０００のドキュメント
をクラスタ化し、１０の話題に関連するグループ、すな
わちクラスタとする場合を考える。この例の場合、同じ
１０，０００ドキュメントの、たとえば５００クラスタ
への原型のクラスタ化は、既に利用可能である。互いに
極端に類似しているドキュメントは、通常、同じクラス
タに現れるので、５００のクラスタの内の所定のクラス
タのすべてのドキュメントは、所望の１０のクラスタの
内の同じクラスタに同様に出現するものとする。言い換
えれば、細粒度クラスタ化において一緒にクラスタ化さ
れるほど十分に類似しているドキュメントは、粗粒度ク
ラスタ化において、一緒にクラスタ化されることにな
る。これは、米国特許第５，４８３，６５０号に開示さ
れているクラスタリファインメント（refinement）仮説
である。

【００６１】本発明は、既存のクラスタをメタドキュメ
ントとして処理し、このメタドキュメントは全体として
コーパス全体の圧縮表現を形成する。すべての個別ドキ
ュメントを直接にクラスタ化する代わりに、本発明は、
すべての個別ドキュメントを表現するメタドキュメント
をクラスタ化する。前述した例において、１０，０００
の個別ドキュメントをクラスタ化する代わりに、本発明
によれば、５００のメタドキュメントをクラスタ化する
ことができる。クラスタ洗練仮説によれば、メタドキュ
メントクラスタ化および個別ドキュメントクラスタ化
は、同様な結果を生成する。

【００６２】たとえば、ステップＳ３４０からＳ３６０
までの第１反復の場合、図５のフォーカスセット１００
は、ドキュメントコレクション全体を表現するルートノ
ードすなわちメタドキュメント８２のみを含む。当然、
第１反復中は、このメタドキュメント８２は、フォーカ
スセットＴの唯一のメタドキュメントであるので、ステ
ップＳ３４０において選択される。ステップＳ３５０に
おいて、メタドキュメント８２は、その直接の子孫、す
なわち子であるメタドキュメント８３〜８６に拡張され
る。次に、これらの子メタドキュメント８３〜８６を使
用し、図６に示すように、フォーカスセット１００にお
いて、メタドキュメント８２を置換する。このようにし
て、フォーカスセット１００は、子孫のメタドキュメン
ト８３〜８６を含む。

【００６３】次に、ステップＳ３４０が、図６のフォー
カスセット１００に関して反復される。フォーカスセッ
ト１００内のメタドキュメントの数がステップＳ３６０
における所定の最大数未満である限り、クラスタ化処理
はステップＳ３４０〜Ｓ３６０を経由して循環を継続す
る。メタドキュメント８３〜８６の内、メタドキュメン
ト８４は、最低数の個別ドキュメント８８を表現する。
すなわち、メタドキュメント８４は、６個の個別ドキュ
メントを表現し、一方、メタドキュメント８３、８５、
および８６は、それぞれ、７、８、および９個の個別ド
キュメントを表現する。したがって、メタドキュメント
８４は、図７に示すように、選択され、その子孫、すな
わち孫、メタドキュメント８９〜９２に拡張される。し
かし、孫メタドキュメント９０および９１は、関心のあ
るドキュメントを含まないので除去される。したがっ
て、フォーカスセット１００は、今度は、メタドキュメ
ント８３、８５〜８６、８９、および９２を含む。

【００６４】所定の最大数のメタドキュメントが、ステ
ップＳ３６０において、まだ実現されない場合、ステッ
プＳ３４０が、図７に示すフォーカスセット１００に関
して反復される。最低数の個別ドキュメントを表現する
子メタドキュメント８３が、ステップＳ３５０において
選択され、図８に示すように、その子孫、すなわち孫、
メタドキュメント８７、および９３〜９５に拡張され
る。しかし、メタドキュメント９５は、関心のあるドキ
ュメントを包含しないので、メタドキュメント９５は除
去される。したがって、フォーカスセット１００は、こ
こで、子孫メタドキュメント８５〜８７、８９、および
９２〜９４を包含する。

【００６５】図２、図３または図４、および図５に輪郭
を示す処理は、フォーカスセット内のメタドキュメント
の数が所定の最大数未満である限り継続される。所定の
最大数が充分に高い場合、フォーカスセットは、実質
上、個別ドキュメントを含む。その場合、ステップＳ３
６０によって、メタドキュメントおよび個別ドキュメン
トの全数が所定の最大数未満であるかが決定される。し
かし、この状況は、通常発生せず、特に、処理の僅かし
かない第１反復中には発生しない。

【００６６】図１に示すように、再クラスタ化システム
１０は、好適には、プログラム式汎用コンピュータ上に
おいて実現される。しかし、再クラスタ化システム１０
は、専用コンピュータ、プログラム式マイクロプロセッ
サまたはマイクロコントローラおよび周辺一体型回路構
成要素、ＡＳＩＣまたは他の一体型回路、ディジタル信
号プロセッサ、有線（ハードワイヤード：hardwired）
電子または論理回路たとえば個別要素(ディスクリート
エレメント：discrete element)回路、ＰＬＤ、ＰＬ
Ａ、ＦＰＧＡ、ＰＡＬなどのプログラマブル論理装置、
などによっても実現することができる。一般に、図２か
ら図５に示す流れ図を実行することができる有限状態機
械(finite state machine)を実現できるいかなる装置を
使用しても、再クラスタ化システム１０を実現すること
ができる。

【００６７】以上、本発明を、輪郭を前述した特定の実
施形態について述べたが、多数の代替方法、変形、およ
び異形は当業者には明らかであることは、明白である。
したがって、前述した本発明の好適な実施形態は、説明
を目的とするものであり、これに限定されるものではな
い。特許請求の範囲によって規定される本発明の思想お
よび範囲を離脱することなく、種々の変化を実施し得
る。

【図面の簡単な説明】

【図１】本発明による装置の一実施形態を示すブロッ
ク図である。

【図２】本発明による再クラスタ化方法の一実施形態
の輪郭を示す流れ図である。

【図３】図２のメタドキュメント拡張ステップの第１
実施形態の輪郭をより詳細に示す流れ図である。

【図４】図２のメタドキュメント拡張ステップの第２
実施形態の輪郭をより詳細に示す流れ図である。

【図５】本発明の好適な実施形態によるフォーカスセ
ットのツリーおよび変化するコンテンツを示す図であ
る。

【図６】本発明の好適な実施形態によるフォーカスセ
ットのツリーおよび変化するコンテンツを示す図であ
る。

【図７】本発明の好適な実施形態によるフォーカスセ
ットのツリーおよび変化するコンテンツを示す図であ
る。

【図８】本発明の好適な実施形態によるフォーカスセ
ットのツリーおよび変化するコンテンツを示す図であ
る。

【図９】分散／集合手順を広く示す図である。

【図１０】従来の分散／集合ドキュメントブラウジン
グ法を、ドキュメントの特定のコーパスに適用する場合
を示す図である。

【符号の説明】

１０再クラスタ化システム、１１プロセッサ、１２
ＲＯＭ、１３ＲＡＭ、１４不揮発性メモリ、１５
コーパス入力、１６ユーザ入力装置、１７ディスプ
レイ装置、１８出力装置、８１ツリー、８２ルー
トノード（メタドキュメント）、８３〜８７，８９〜９
５ノード（メタドキュメント）、８８ドキュメン
ト、１００フォーカスセット。

Claims

【特許請求の範囲】

【請求項１】電子的に記憶されるドキュメントのコー
パスを処理し、一つ以上の事前に識別された関心のある
ドキュメントをクラスタ化する方法であって、複数のドキュメントを代表する少なくとも一つの初期メ
タドキュメントを含むフォーカスセットを拡張し、複数
の次のメタドキュメントとするステップであって、それ
ぞれの次のメタドキュメントは前記初期メタドキュメン
トのサブセットであるステップと、前記フォーカスセット内のメタドキュメントを選択する
ステップと、前記選択されたメタドキュメントを子孫のメタドキュメ
ントに拡張するステップと、少なくとも一つの関心のあるドキュメントを含まない子
孫のメタドキュメントを除去するステップと、前記次のメタドキュメントの数が少なくとも所定の最大
数に等しくなるまで、前記選択および拡張ステップを反
復するステップと、を含む拡張ステップと、前記次のメタドキュメントをクラスタ化し、所定数のク
ラスタとするステップと、を含むことを特徴とする方
法。
【請求項２】請求項１に記載の方法において、クラス
タの前記所定数は、前記所定最大数未満であることを特
徴とする方法。
【請求項３】請求項１に記載の方法において、前記少
なくとも一つの初期メタドキュメントは、ドキュメント
のコーパス全体を代表する単独のメタドキュメントであ
ることを特徴とする方法。
【請求項４】請求項１に記載の方法において、前記所
定最大数は、前記拡張および選択ステップが、共に、時
間制約内に完了するように決定されることを特徴とする
方法。
【請求項５】請求項１に記載の方法において、さら
に、前記新メタドキュメントの要約を確定するステップと、前記要約をユーザに提示するステップと、を含むことを
特徴とする方法。
【請求項６】請求項５に記載の方法において、前記要
約は、各新メタドキュメントにおいて最も頻繁に現れる固定数
の話題のワードと、各新メタドキュメント内の少なくとも一つの典型的なド
キュメントの名称と、を含むことを特徴とする方法。
【請求項７】請求項１に記載の方法において、前記ク
ラスタ化ステップは、各メタドキュメントによって表現
されるドキュメントの数に関係なく、多くても、所定量
の時間を要することを特徴とする方法。
【請求項８】請求項１に記載の方法において、前記拡
張ステップは、さらに、選択されたメタドキュメント内
の関心のあるドキュメントの数がカットオフ値を超える
かを決定するステップを含むことを特徴とする方法。
【請求項９】請求項８に記載の方法において、前記選
択されたメタドキュメント内の関心のあるドキュメント
の数がカットオフ値未満である場合、前記ドキュメント
は別のドキュメントセットに加えられることを特徴とす
る方法。
【請求項１０】請求項９に記載の方法において、前記
拡張ステップは、さらに、前記クラスタ化ステップにお
いてクラスタ化するために、前記別のドキュメントセッ
トを前記次のメタドキュメントに加えるステップを含む
ことを特徴とする方法。
【請求項１１】電子的に記憶されるドキュメントのコ
ーパスを処理し、少なくとも一つの事前に識別された関
心のあるドキュメントをクラスタ化する装置であって、複数のドキュメントを代表する少なくとも一つの初期メ
タドキュメントを含むフォーカスセットを拡張し、複数
の次のメタドキュメントとする拡張手段であって、それ
ぞれの次のメタドキュメントは前記少なくとも一つの初
期メタドキュメントのサブセットである拡張手段と、前記フォーカスセット内のメタドキュメントを選択する
ための選択手段であって、選択されたメタドキュメント
は拡張手段によってその子孫のメタドキュメントに拡張
される選択手段と、少なくとも一つの関心のあるドキュメントを含まない子
孫のメタドキュメントを除去するための除去手段と、を
含む拡張手段と、前記次のメタドキュメントをクラスタ化し、所定数のク
ラスタとするためのクラスタ化手段と、を備え、前記拡張手段は、前記次のメタドキュメントの数が所定
の最大数に少なくとも等しくなるまで、前記フォーカス
セットを拡張することを特徴とする装置。
【請求項１２】請求項１１に記載の装置において、新
メタドキュメントの前記所定数は、前記所定最大数未満
であることを特徴とする装置。
【請求項１３】請求項１１に記載の装置において、前
記少なくとも一つの初期メタドキュメントは、ドキュメ
ントのコーパス全体を代表する単独のメタドキュメント
であることを特徴とする装置。
【請求項１４】請求項１１に記載の装置において、前
記所定最大数は、前記クラスタ化手段が前記次のメタド
キュメントのクラスタ化を時間制約内に完了するように
決定されることを特徴とする装置。
【請求項１５】請求項１１に記載の装置において、さ
らに、新メタドキュメントの要約を確定し、前記要約をユーザ
に提示する要約手段を備えることを特徴とする装置。
【請求項１６】請求項１５に記載の装置において、前
記要約は、各新メタドキュメントにおいて最も頻繁に現れる固定数
の話題のワードと、各新メタドキュメント内の少なくとも一つの典型的なド
キュメントの名称と、を含むことを特徴とする装置。
【請求項１７】請求項１１に記載の装置において、前
記クラスタ化手段は、各メタドキュメントによって表現
されるドキュメントの数に関係なく、多くても、所定量
の時間を要することを特徴とする方法。
【請求項１８】請求項１１に記載の装置において、前
記拡張手段は、前記メタドキュメント内の関心のあるド
キュメントの数がカットオフ値を超えるかを決定するこ
とを特徴とする装置。
【請求項１９】請求項１８に記載の装置において、前
記メタドキュメント内の関心のあるドキュメントの数が
カットオフ値未満である場合、前記ドキュメントは別の
ドキュメントセットに加えられることを特徴とする装
置。
【請求項２０】請求項１９に記載の装置において、前
記拡張手段は、クラスタ化手段によってクラスタ化する
ために、前記別のドキュメントセットを前記次のメタド
キュメントに加えることを特徴とする装置。