JPH11316768A - 任意のコ―パスサブセットをほぼ一定時間でクラスタ化するための方法および装置 - Google Patents

任意のコ―パスサブセットをほぼ一定時間でクラスタ化するための方法および装置

Info

Publication number
JPH11316768A
JPH11316768A JP11017644A JP1764499A JPH11316768A JP H11316768 A JPH11316768 A JP H11316768A JP 11017644 A JP11017644 A JP 11017644A JP 1764499 A JP1764499 A JP 1764499A JP H11316768 A JPH11316768 A JP H11316768A
Authority
JP
Japan
Prior art keywords
document
meta
documents
clustering
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11017644A
Other languages
English (en)
Other versions
JP4243376B2 (ja
Inventor
D Silverstein Craig
デー シルバーステイン クレイグ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH11316768A publication Critical patent/JPH11316768A/ja
Application granted granted Critical
Publication of JP4243376B2 publication Critical patent/JP4243376B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 任意のコーパスサブセットをほぼ一定時間で
クラスタ化する。 【解決手段】 ユーザは、最初に、コーパス全体のメタ
ドキュメントへのクラスタ化を提示され、そのクラスタ
化から最悪メタドキュメントが選択され、その子によっ
て置換される。関心のあるドキュメントを包含しない子
は除去され、残りのメタドキュメントは、所定数の子メ
タドキュメントが得られるまで、さらに拡張される。次
に、得られるメタドキュメントは、再クラスタ化され
る。この処理は、ユーザが所望の程度の特異性を得るま
で反復される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子ドキュメント
をほぼ一定時間でクラスタ化するための方法および装置
に関する。特に、本発明は、電子ドキュメントの大きな
コーパス(記録されたテキストの集合)をほとんど一定
時間で、それに比べて非常に小さなクラスタのセットに
分割することを目的とする。
【0002】
【従来の技術】ドキュメントブラウジングは、大きなテ
キストコレクションにアクセスするために使用される有
力なツールである。ブラウジングは、クエリー(質問)
がないため検索と識別され、余りにも一般的であるかま
たは余りにも漠然としているためのいずれかによって、
幾つかの検索言語によって有効に表現できない情報ニー
ズに対して、都合よく作動する。たとえば、ユーザが、
関心のある話題を適切な言語で記述することに不慣れで
ある場合、またはワードの特定の選択にコミットする
(明言する)ことを希望しない場合がある。実際、ユー
ザは、特定のものは何も要求しないが、コレクションの
一般的な(全般的な)情報コンテンツ(内容)を探求し
たい場合がある。
【0003】この状況において、情報アクセスシステム
は有用である。情報アクセスシステムは、コレクション
のコンテンツを提示すること、および、ユーザがコンテ
ンツの幾つかの話題に固有のサブセットに関心を集中す
ることの両者をナビゲーションできるコレクションのア
ウトラインを含む。このようなブラウジングシステム
は、Pedersenらによる米国特許第5,442,
778号(分散/集合:Scatter/Gather)および米国特
許第5,483,650号に開示されており、これらの
各特許は引用により本願に援用する。
【0004】分散/集合においては、注意は、常に、ド
キュメントのフォーカスセット、特にユーザの関心を引
く可能性のあるサブセットに向けられる。最初に、フォ
ーカスセットは、ドキュメントコレクション全体である
かもしれない。フォーカスセット内のドキュメントは、
ドキュメントの少数の話題固有の(トピックに密着した
topic-coherent)サブセット、またはドキュメントのク
ラスタにクラスタ化される。用語「クラスタ化(cluste
ring)」および「分散(scattering)」は、同義語とし
て使用される。したがって、フォーカスセット内のドキ
ュメントは、クラスタに分散される、ということができ
る。
【0005】分散/集合においては、クラスタ要約(サ
マリー)が作成(develop)され、ユーザに提示され
る。クラスタ要約は、通常、フォーカスセットのドキュ
メントの輪郭(アウトライン)を示すコンテンツの表
(テーブル)である。クラスタ要約は、各クラスタ内の
ドキュメントから自動的に決定される示唆に富むテキス
トを含む。各クラスタ要約は、2種類の情報を含む。す
なわち、クラスタのドキュメントに最も頻繁に出現する
話題の(topical)ワード、およびクラスタ内の数個の
典型的なドキュメントの名称である。要約は、クラスタ
プロファイルに基づく。このクラスタプロファイルはク
ラスタのドキュメントに出現するワードを反映する。
【0006】そこで、ユーザは、最も関心を持たせるよ
うに見える複数のクラスタを識別し、選択する。選択さ
れたクラスタは、一緒に集合され、新しい小さいフォー
カスセットを形成する。すなわち、新しいフォーカスセ
ットは、選択されたクラスタ内のドキュメントの合併
(ユニオン:union)である。ユーザがドキュメントに
個別にアクセスすること、またはクエリーに基づく探索
方法を使用することを求めるまで、この処理が所望の回
数反復される。
【0007】分散/集合は、必ずしも独立型情報アクセ
スツールである必要はない。むしろ、分散/集合は、論
理探索または類似性探索などの探索方法と連携して使用
することができる。類似する例は、リファレンスブック
(reference book)であり、リファレンスブックは二つ
のアクセス方法を提供する。一つは、ブラウジングのた
めの前にある目次(a table of contents)であり、他
は、さらに直接的な探索のための最後にある索引(inde
x)である。分類/集合は、必ずしも特定のドキュメン
トを探索するために使用されるとは限らない。むしろ、
クラスタ要約に存在する用語(ボキャブラリー)を公開
することによって、分散/集合は、相補的な探索方法を
補助する。たとえば、クラスタプロファイルを、類似性
探索においてコレクション全体に対するクエリーとして
使用することができる。逆に言えば、分散/集合を使用
し、過剰の多数のドキュメントを検索するワードを基礎
とするクエリーの結果を編成することができる。
【0008】図9は、1990年8月のNew Yor
k Times News Serviceに掲載され
た約5,000記事のテキストコレクションに適用され
る分散/集合方法を示す図である。図9においては、分
散/集合方法を一層簡単に提示するために、実際のクラ
スタ要約の代わりに単独のワード文字(ラベル)が示さ
れている。
【0009】図9に示す例においては、ユーザの情報ニ
ーズは、1990年に発生したことを一般的に決定する
ことである。特定の話題記述は全く存在しないため、こ
の情報ニーズを効果的に表現するワードに基づくクエリ
ーを構成することは困難である。ユーザは、一般的な話
題、たとえば、「国際的事件」を考えるが、この話題記
述は、国際事件に関する記事は、通常、これらのワード
を使用しないため、有効ではない。
【0010】分散/集合によって、ある用語を提供する
ことが強制されるのではなく、ユーザは、クラスタ要約
のセット、すなわちコレクションの輪郭を提供される。
ユーザニーズは、関心のある話題に関連する可能性があ
ると考えられるクラスタを選択する。図9に示す分散/
集合処理においては、その月の主要な新聞記事は、最初
の分散からすぐに明らかになり、イラクのクエート侵入
およびドイツ再統合問題である。これによって、ユーザ
は、国際問題に焦点を絞るようになり、「イラク」、
「ドイツ」、および「石油」クラスタを選択する。これ
らの3クラスタは一緒に集合され、より小さなフォーカ
スセットを形成する。
【0011】次に、この比較的小さなフォーカスセット
は、クラスタ化、すなわち分散され、減少されたコレク
ションを包含する8個の新しいクラスタを形成する。減
少されたコレクションは、記事のサブセットのみを含む
ので、これらの新クラスタによって、元の8個のクラス
タより細かいレベルの詳細が明らかになる。イラク侵入
に関する記事および石油記事の一部は、米国軍展開、石
油市場に対するイラク侵入の影響、およびクエートにお
ける人質についてのクラスタに分離される。
【0012】ユーザが、これらの主要な新聞記事を適切
に理解するが、世界の他の部分で何が発生したかを見つ
けたいと思う場合、ユーザは、たとえば、「パキスタ
ン」クラスタを選択、−このクラスタも他の外国政治新
聞記事を含む−およびアフリカに関する記事を含むクラ
スタを選択することができる。これらのクラスタを分散
することによって、多数の特定の国際状況ならびに多方
面にわたる国際記事の小さなコレクションが明らかにな
る。このようにして、ユーザは、パキスタンにおける政
変およびトリニダードで発生した人質について知る。こ
れらの記事は、別の状態では、その月の一層重要な記事
の中に埋没してしまうものである。
【0013】図10は、分散/集合の操作を示す図であ
る。図10に示す例においては、テキストコレクション
(またはフォーカスセット)20は、グロリエ(Gro
lier)の百科事典のオンライン版である。フォーカ
スセット内の2,700,000記事は、それぞれ、独
立のドキュメントとして処理される。図10に示す例に
おいては、ユーザは、宇宙開発における女性の役割を調
査することに関心がある。この情報ニーズを正式の(fo
rmal)クーリエによって表現しようとするのでなく、ユ
ーザは、代わりに、クラスタの記述から、関心のある話
題に関連すると考えられる多数のトップレベルのクラス
タ22A〜22Iを提供される。次に、ユーザは、軍事
経過(ヒストリー)クラスタ22A、科学および産業検
出子22Cおよびアメリカ社会クラスタ22Hを選択
し、グロリエの事典から得られる記事の指示されたサブ
セットの減少されたコーパス(またはフォーカスセッ
ト)24を形成する。
【0014】次に、減少されたコーパスは、浮動によっ
て(on the fly)もう一度クラスタ化され、減少された
コーパス24を対象にする新しいクラスタのセット26
A〜26Jを生成する。減少されたコーパスはグロリエ
の事典の記事のサブセットを含むため、これらの新クラ
スタは、トップレベルクラスタ22A〜22Iより細か
いレベルの詳細である。ユーザは、再度、関心のあるク
ラスタを選択する。この場合、選択されたクラスタは、
軍用機クラスタ26E、工業技術クラスタ26G、およ
び物理クラスタ26Hである。再度、さらに減少された
コーパス28が形成され、再クラスタ化される。最終セ
ットのクラスタ30A〜30Fは、軍用機クラスタ30
A、アポロ計画クラスタ30B、航空宇宙産業クラスタ
30C、天候クラスタ30D、天文学クラスタ30E、
および民間航空機クラスタ30Fを含む。この段階にお
いて、クラスタは、十分に小さく、記事名称の網羅的な
リストを通じて直接に精読することができる。関心のあ
る少なくとも一つの記事が見出されると仮定すると、ユ
ーザは、同じくラスタ内に類似の特性の記事をさらに見
出すこと、またはことによると探し当てた記事またはク
ラスタ記述の用語集(ボキャブラリー)に基づいて方向
を持った(directed)探索方法を使用して追加記事を見
出すことができる。
【0015】
【発明が解決しようとする課題】ドキュメントクラスタ
化に関する以前の成果は、線形時間(linear-time)法、
たとえば、分散/集合および米国特許第5,483,6
50号に記載の線形時間法を含み、この方法によれば、
クラスタ化のために要する時間は僅か数分に減少され
る。これは、広範囲のワードに基づくクエリーを使用
し、中程度の大きさのコレクションを探索するのに十分
な速さである。たとえば、毎秒およそ3000ドキュメ
ントの速度を、分散/集合を使用し、サンマイクロシス
テムズ(SunMicrosysytems)のSPA
RCSTATION2上において、実現できる。しか
し、線形時間クラスタ化でさえも、非常に大きなドキュ
メントコレクションの対話型ブラウジングを支援するた
めには遅すぎる。このことは、約750,000のドキ
ュメントを含むテキスト検索評価のために、分散/集合
をTIPSTERコレクション、DARPA標準に適用
する場合を考慮すれば、特に、明らかである。毎秒30
00ドキュメントの速度において、これは、分散するた
めに4時間以上を必要とし、対話型にとっては長すぎる
と考えられる。したがって、ドキュメントをクラスタ化
するために、一層迅速なさらに効率的な方法を見出すこ
とが必要とされる。
【0016】本発明は、顧客対応可能な時間/精度トレ
ードオフを持つコーパスサブセットをほぼ一定時間でク
ラスタ化するための方法および装置を提供するものであ
る。
【0017】本発明は、基礎的なブラウジング方法、た
とえば、分散/集合に使用することが可能であり、大き
なドキュメントコレクションを関連のあるドキュメント
のクラスタに効率的に分割するほぼ一定時間でクラスタ
化するための方法も提供するものである。
【0018】
【課題を解決するための手段】本発明による再クラスタ
化方法および装置においては、入力は、全体のドキュメ
ントの複数のメタドキュメントへのクラスタ化であり、
複数のメタドキュメントから「最悪」メタドキュメント
が選択される。「最悪」メタドキュメントは、その子の
メタドキュメントによって置換され、関心のあるドキュ
メントを含まないこれらの子は除去される(pruned)。
次に、残りのメタドキュメントは一緒に集合され再クラ
スタ化される。ユーザが所望の程度の特定性を得るま
で、この処理が反復される。
【0019】このクラスタ化方法は従来の方法より速
く、この方法においては、クラスタは本来の資質(in t
heir own right)でドキュメントとして処理され、既存
の階層(hierarchy)を使用しクラスタの新しいセット
を生成する。すなわち、本発明による再クラスタ化方法
および装置においては、クラスタは、大きな個別ドキュ
メントであるかのように、クラスタ化する必要があるメ
タドキュメントして処理され、クラスタ化される。した
がって、ファンアウトkを有するクラスタ階層の場合、
本発明による再クラスタ化方法および装置は、最小のク
ラスタから開始し、各クラスタをそのk個の子によって
置換する。親クラスタは検査され、最悪クラスタが除去
される。すなわち、「最悪」親クラスタは、そのk個の
子によって置換される。
【0020】本発明のこれらおよび他の特徴および利益
は、以下の好適な実施形態に関する詳細記述に記載さ
れ、明らかとなる。
【0021】以下、本発明を添付図面を参照して詳細に
述べる。図面において、同じ符号は、同じ構成要素を示
す。
【0022】
【発明の実施の形態】図1は、本発明による再クラスタ
化システム10の一実施形態を示すブロック図である。
システム10は、プロセッサ11、ROM12、RAM
13、不揮発性メモリ14、コーパス入力15、ユーザ
入力装置16、ディスプレイ装置17、および出力装置
18を備える。
【0023】ブラウジング手順を実行する前に、ドキュ
メントコーパスがコーパス入力15から入力される。次
に、ドキュメントコーパスは、プロセッサ11によって
分割される。分割手順の結果は、ディスプレイ装置17
に表示される。操作者は、ユーザ入力装置16、たとえ
ば、マウス、キーボード、タッチスクリーン、スタイラ
ス、またはこれらの要素の組合せなどを使用し、コマン
ドおよびデータを入力することができる。ユーザは、ド
キュメントのハードコピーのみでなくクラスタダイジェ
スト要約(サマリー)のプリント出力も出力装置18、
たとえばプリンタに出力することができる。
【0024】従来は、プロセッサ11によって、ドキュ
メントの初期順序付け(initial ordering)が準備され
る。初期順序付けは、たとえば、分散/集合に記載の分
別法を使用して準備される。プロセッサ11によって、
コーパスの最初の順序付けの要約も決定され、この要約
はディスプレイ装置17に表示、または出力装置18に
よってユーザに出力することができる。この要約は、た
とえば、分散/集合に記載されているクラスタダイジェ
スト法を使用し、決定することができる。
【0025】ユーザからユーザ入力装置16を経由して
適切な命令を受領後、プロセッサ11は、コーパスのさ
らに進んだ順序付けを実行することができる。このさら
に進んだ順序付けは、たとえば、分散/集合に記載され
ているバックショット(buckshot:大きめの散弾)法を使
用し、形成される。次に、このステップの所望の数の反
復が実行され、コーパスがさらに狭くされる。結局、個
別のドキュメントが検査され、または幾つかの有向探索
ツールが限定コーパスに適用される場合がある。
【0026】図2は、本発明による再クラスタ化の一実
施形態の輪郭(アウトライン)を示す図である。処理
は、ステップS100において開始され、ステップS2
00に続く。ステップS200において、ユーザは、全
ドキュメントコレクションの一部またはコーパスの一部
を表現するドキュメントセットを選択する。後のステッ
プにおける反復のために、フォーカスセットはメタドキ
ュメントを含み、メタドキュメントは、それぞれ、コレ
クションの一部のみを表現する(代表する)。メタドキ
ュメントセット中のメタドキュメントの数は、ほぼ所定
の最大数に等しく、最大数は、たとえば、500または
1000とすることができる。次に、ステップS300
において、最初のメタドキュメントセットは、プロセッ
サ11によって選択され、クラスタ化される。好適に
は、メタドキュメントクラスタの所定数は、10であ
る。一般に、必要とされることは、新メタドキュメント
の所定数は、その後のメタドキュメントの所定最大数よ
り小さいことが必要であるということのみである。メタ
ドキュメントを選択し、クラスタ化する処理は、図3お
よび図4に関連して、以下に述べる。次に、制御はステ
ップS400に続く。
【0027】ステップS400において、新メタドキュ
メントは、要約されて利用できる形式になる。次に、ス
テップS500において、たとえば、ディスプレイ装置
17または出力装置18を使用し、ユーザに提示され
る。次に、処理は、ステップS600に続き、ステップ
S600において、処理は停止する。
【0028】メタドキュメントセットはクラスタ階層H
を有し、クラスタ階層Hは、k個の子のファンアウト
(fan-out)およびルートノードrを有する。階層は、
クラスタのツリー構造であり、クラスタはノードと呼ば
れ、ノード1のk個の子の合併はノード1自体と同じド
キュメントを有するように、ノードはメタドキュメント
を表現する。ドキュメントのセットSは、クラスタ化ル
ーチンに入力される。この処理の結果、k個のクラスタ
のセットとなり、このクラスタはS中のドキュメントを
正確に含む。
【0029】図3は、図2のメタドキュメント選択およ
びクラスタ化ステップS300の第1実施形態のさらに
詳細な輪郭を示す図である。ステップS300から始ま
り、制御はステップS320に進む。ステップS320
において、収集する必要があるノードの最大数Mが設定
される。次に、ステップS330において、初期フォー
カスセットTが、階層Hのルートノードrとして設定さ
れる。次に、ルートノードは、そのk個の子によって直
ちに置換される。次に、制御はステップS340に進
む。
【0030】ステップS340〜S360において、あ
る方法において「良好」である関心のあるノードがクラ
スタ階層中に見出される。ノードの良好度を決定する方
法について、以下に詳細に述べる。
【0031】ステップS340において、フォーカスセ
ットTのk個のノードは検査され、「最悪」ノードがピ
ックされる。「最悪」ノードは、以下の述べる「良好
度」検査によって決定される。次に、ステップS350
において、「最悪」ノードは除去され、そのk個の子の
ノードによって置換され、子は関心のあるドキュメント
を含む。関心のあるドキュメントを含まない子は含まれ
ず、効果的に除去される(pruned)。
【0032】次に、ステップS360において、制御ル
ーチンは、フォーカスセットTが収集する必要があるノ
ードの最大数Mに等しいノード数またはそれより大きい
ノード数を有するかを決定する。フォーカスセットTの
ノード数が収集する必要がある最大ノード数M未満であ
る場合、制御はステップS340に跳び戻る。そうでは
なく、フォーカスセットのノード数が少なくともMに等
しい場合、制御は、ステップS370に続く。
【0033】ステップS370において、フォーカスセ
ットTはクラスタ化され、クラスタPのセットが得られ
る。次に、ステップS380において、クラスタPのこ
のセットの各ノードは、クラスタ内の、Sにおいては存
在しなかったドキュメントを削除するために、関心のあ
るドキュメントIS(n)によって置換される。次に、
制御はステップS390に続き、ここで制御はステップ
S400に戻る。
【0034】前述したクラスタ化ステップにおいて、見
出されたM個のノードは、線形時間クラスタ化方法を使
用し、クラスタ化される。選択されるノード数が限定さ
れる限り、これによって、一定時間(constant-time)
のクラスタ化が与えられる。
【0035】クラスタ階層のノードの数は大きい場合が
あるため、すべてのノードを検査して「良好」ノードを
見出すことはできない。その代わり、クラスタ階層は、
トップからファンアウトする。階層Hのルートノードか
ら始まり、ルートノードは、直ちにその子によって置換
される。得られるセットのk個のノードは検査され、
「最悪」ノードがピックされる。「最悪」ノードは除去
され、そのk個の子によって置換される。この処理は、
今、検討中の2k−1のノードについて反復される。実
際は、すべてのk個の子ノードは、必ずしも含まれな
い。むしろ、子ノードのサブセットのみが、検討され
る。M個のノードが収集されると、処理は停止される。
【0036】この時点において、共通集合(積集合)テ
ーブルISが生成される。任意のノードnに対して、そ
のノードの共通集合IS(n)は、S∩nにおけるドキ
ュメントのセットである。すなわち、IS(n)は、ド
キュメントセットSとノードnに含まれるドキュメント
間の共通集合である。したがって、共通集合テーブルI
Sによって、ドキュメントセットSおよびノードnの両
者に含まれる関心のあるドキュメントのみが、提供され
る。ISは、|S|log(n)時間内に作成される。
共通集合テーブルISを使用し、結果として得られる各
ノードが、共通集合IS(n)によって置換され、ドキ
ュメントセットSに存在しない、クラスタ中のドキュメ
ントが削除される。得られるノードは、クラスタ化さ
れ、k個のクラスタとなり、各ノードはなお単独の実体
(エンティティ:entity)として処理される。
【0037】任意のノードnに対するSおよびnの共通
集合を求めるために、ドキュメントを処理し、ドキュメ
ントを含む階層Hのすべてのノードを戻す関数が使用さ
れる。この関数は、ドキュメントセットSに従属せず、
階層Hが決定されると同時に決定されることができる。
階層Hは、一定のkのファンアウトを有するので、階層
Hは深度lognを有し、したがって、各ドキュメント
は、lognノードにある。
【0038】ISを求めるために、テーブルが構成さ
れ、ノードによって索引される。テーブルの各項目は、
原始状態においては、空である。ドキュメントセットS
の各ドキュメントに対して、事前に計算された前述した
関数を使用し、どのノードがドキュメントを包含するか
を見出す。次に、ドキュメントセットをこのような各ノ
ードに対するテーブル項目に追加する。理論上は、一定
時間内に任意のサイズの空テーブルを構成することが可
能であるが、実際には、明白な線形時間(リニアー・タ
イム)アルゴリズムは極めて迅速である。テーブル更新
は、ドキュメント当たり時間logn、または全体で時
間|S|lognを要する。得られるテーブルは、
S、すなわち必要とされる共通集合計算ツールであ
る。
【0039】図4は、図2のメタドキュメント選択およ
びクラスタ化ステップS300の第2実施形態のさらに
詳細な輪郭を示す図であり、如何にして、追加されるカ
ットオフ値を有する任意のデータセットに対するノード
が決定されるかを示す。ステップS300において開始
され、制御はステップS1305に続く。次に、ステッ
プS1305において、カットオフ値が、cに設定さ
れ、その結果、c未満のドキュメントを含むノードは単
独のドキュメントノードによって置換されることができ
る。再度、収集する必要があるノードの最大数Mも、設
定される。次に、ステップS1315において、初期フ
ォーカスセットTが、階層Hのルートノードとして設定
される。次に、制御はステップS1320に続く。
【0040】ステップS1320において、小さいドキ
ュメントセットEは、ゼロに設定される。次に、ステッ
プ1325において、フォーカスセットのkノードが検
査され、「最悪」ノードがピックされる。次に、ステッ
プS1330において、「最悪」ノードは、照合され、
そのノードが、カットオフ値c未満の数のドキュメント
を含むかまたはそれに等しい数のドキュメントを含むか
が、決定される。ノードのドキュメントの数がカットオ
フ値c未満である場合、制御は、ステップS1335に
続く。そうではなく、選択されるノードがカットオフ値
c未満の数のドキュメントを含まない場合、制御は、ス
テップS1340に跳ぶ。
【0041】ステップ1335において、ノード内のそ
の数のドキュメントが、小さなドキュメントセットEに
加えられる。次に、制御は、ステップS1345に跳
ぶ。ステップS1340において、関心のあるドキュメ
ントを含むノードの子がフォーカスセットTに加えられ
る。関心のあるドキュメントを含まない子は包含され
ず、効果的に、「除去される:pruned」。次に、制御
は、ステップS1345に続く。
【0042】ステップS1345において、フォーカス
セットは、照合され、フォーカスセットが収集する必要
がある最大数Mに達しているかが決定される。収集する
必要があるノードの最大数Mに達している場合、制御
は、ステップA1350に続く。その他の場合は、制御
は、ステップS1325に跳び戻り、次の最悪ノードを
見出す。
【0043】次に、ステップS1350において、小さ
いドキュメントセットEがフォーカスセットTに加えら
れる。次に、ステップS1355において、フォーカス
セットTは、クラスタ化され、クラスタPのセットが得
られる。次に、ステップS1360において、各ノード
Pは、関心のあるドキュメントIS(n)によって、置
換される。次に、制御は、ステップS1365に続く。
ステップS1365において、制御は、図2のステップ
S400に戻る。
【0044】このように、追加されるカットオフ値を有
する任意のデータセットに対して、ノードがドキュメン
トセットSから得られる数個のドキュメントのみを含む
場合、これらのドキュメントは、ノードを拡張する時間
を消費する代わりに別のセットEに追加される。
【0045】ノードをその子によって置換する場合、
「空」の子、すなわちドキュメントセットSにいかなる
ドキュメントも含まない子は、明白に回避することがで
きる。「単集合(シングルトン:Singleton)」子、す
なわち、ドキュメントSから得られる一つのドキュメン
トのみしか包含しない子も、特別に取り扱うことができ
る。ノード内に一つのドキュメントしか存在しない場合
は、ノード全体が包含されない。ドキュメントが簡単に
取り出され、それ自体がノードとして処理される。これ
は、適切な終端子孫(リーフディセンデント:leaf des
cendent)によって子ノードを置換することと等価であ
る。一般に、カットオフ値c未満のドキュメントを包含
するノードは、c個の単独ドキュメントノードによって
置換することができる。一定の数のノードのみが検査さ
れるため、この方法によって生成される新しいノードの
数も一定である。
【0046】如何にして多数のノードが拡張されるかに
cの値が影響を及ぼすようにすることは望ましくないの
で、単独のドキュメントノードは、通常のノードと別に
数えられる。すなわち、単独のドキュメントノードをフ
ォーカスセットT内に保持するのではなく、単独のドキ
ュメントノードは、別のセットEに移動される。この処
理は、フォーカスセットTが所定のサイズに達するまで
続く。|E|は、定数によって限定されるので、この値
は実行時間の解析に影響を及ぼさない。
【0047】たとえば、図3のステップS340および
図4のステップS1325において、「最悪」ノードを
決定するために使用される幾つかの「良好度」検査があ
る。使用することができる一つの「良好度」検査は、適
合度検査または割合(RATIO)検査である。ノード
が包含する大部分のドキュメントもドキュメントセット
Sから得られる関心のあるドキュメントである場合、ノ
ードは、「良好」である。
【0048】たとえば、nは、dドキュメントを有する
場合、nの良好度は、下式によって表される。
【0049】
【数1】g=|IS(n)|/d 関数f(S,T)によって、フォーカスセットT内の最
低の良好度を有するノードは返される。この関数は、僅
かしか一致しないノード、すなわち一致しない子を有す
る可能性のあるノードに有利であるので、この良好度検
査は、結果として、広い範囲の除去(pruned)となり、
結果が改善される。他方、かなり良好な割合を有する大
きなノードは、絶対値の項に多数の非一致ドキュメント
を含む場合でも、フォーカスセットT内にそのままで留
まる。
【0050】一つの大きなノードが、ドキュメントセッ
トS内に多数のドキュメントを包含する場合、割合検査
は、このノードに有利である。このことはクラスタ化の
場合に問題となる場合があり、その理由は、クラスタ化
方法は、ノード内のドキュメントすべてを単独の実体と
して処理し、不均衡なクラスタサイズとなる可能性があ
るためである。このような大きなノードの拡張は、良好
度値に重みを付けることによって促進される。たとえ
ば、ノードnは、dドキュメントを有する場合、ノード
nの加重良好度g′は、下式によって表される。
【0051】
【数2】g’=√|IS(n)|/d この場合、ドキュメントセットS内に多数のドキュメン
トを有することは、良好な割合の保証にはならない。実
際に、比較的少数のドキュメントdを有することが、一
層有利である。このことによって、出力ノードは、すべ
て、ドキュメントセットSから得られるほぼ等しい数の
ドキュメントを有することを保証することが容易にな
る。
【0052】良好度を決定する他の手法は、情報理論に
よる測定を使用する。ノードの子がノード自体より多く
のドキュメントセットSに関する情報をコード化する場
合、そのノードは、その子によって置換される良い候補
である。このことは、親における一致は、子の間に不均
一に分散され、その結果、劣悪な子は除去され、良好な
子が維持されることを暗に示す。
【0053】たとえば、ノードnが、サイズdを有する
場合、ノードniは、ノードnの子であり、サイズdi
有する。ノードn内の情報I(n)は、下式で表され
る。
【0054】
【数3】I(n)=−(|Is(n)|/d)・log2
(|Is(n)|/d) ノードnに対する情報ゲインG(n)は、下式で表され
る。
【0055】
【数4】G(n)=I(n)−Σ{(|di|/|d
|)・I(ni)} ここで、Σは、iについてのサメンションである。
【0056】ノードnに対する適切な良好度測定は、G
(n)によって与えられる。関数f(S,T)によっ
て、フォーカスセットT内の最高の情報ゲインを有する
ノードは返される。このことは、その子によって置換さ
れることにより最も利益が得られるノードがピックされ
るという利点を有する。不都合なことに、これらの一致
が子の間に均一に分散される場合、このことは、僅かな
一致しか有しない大きなノードを無視することになる。
【0057】本発明においては、非所定数の個別ドキュ
メントの代わりに、所定数のメタドキュメントが、クラ
スタ化または分散のための手順において使用される。メ
タドキュメントは、ツリー、たとえば、図5から図8ま
でのツリーなどのメタドキュメントから得られる降順の
複数の個別ドキュメントを表現する。
【0058】図5から図8までの以下の討議の場合、本
発明に従って、たとえば前述した割合検査などの幾つか
の「良好度」検査の一つを使用し、「最悪」メタドキュ
メントを選択することができる。しかし、討議を容易に
するために、図5から図8までにおいて、「最悪」メタ
ドキュメントは、最低数の関心のあるドキュメントを有
するメタドキュメントを選択することによって簡単に選
択されるものとする。
【0059】図5において、ツリー81のノード82〜
86は、個別ドキュメント、たとえば、ドキュメント8
8などのコレクションを表現するメタドキュメントであ
る。たとえば、図5において、ノード89は3個の子、
ドキュメント88a、88b、88cを有する内部ノー
ドである。内部ノード89も、内部ノード84の子であ
り、内部ノード84自体はルートノード82の子であ
る。ルートノード82は、ドキュメントコレクション全
体を表現するメタドキュメントである。メタドキュメン
ト83〜86はメタドキュメント82から直接に得られ
る子である。さらに、メタドキュメント89のレベル8
7は、メタドキュメント83〜86から直接に得られる
子である。最後に、個別ドキュメント88、すなわちツ
リーの葉は、メタドキュメント87から直接に得られる
子である。ツリー81は、説明上、非常に簡単にしてあ
る。実際には、大きなコーパスは非常に多数の個別ドキ
ュメントおよび便利に示す必要があるメタドキュメント
のレベルを有する。
【0060】一例として、10,000のドキュメント
をクラスタ化し、10の話題に関連するグループ、すな
わちクラスタとする場合を考える。この例の場合、同じ
10,000ドキュメントの、たとえば500クラスタ
への原型のクラスタ化は、既に利用可能である。互いに
極端に類似しているドキュメントは、通常、同じクラス
タに現れるので、500のクラスタの内の所定のクラス
タのすべてのドキュメントは、所望の10のクラスタの
内の同じクラスタに同様に出現するものとする。言い換
えれば、細粒度クラスタ化において一緒にクラスタ化さ
れるほど十分に類似しているドキュメントは、粗粒度ク
ラスタ化において、一緒にクラスタ化されることにな
る。これは、米国特許第5,483,650号に開示さ
れているクラスタリファインメント(refinement)仮説
である。
【0061】本発明は、既存のクラスタをメタドキュメ
ントとして処理し、このメタドキュメントは全体として
コーパス全体の圧縮表現を形成する。すべての個別ドキ
ュメントを直接にクラスタ化する代わりに、本発明は、
すべての個別ドキュメントを表現するメタドキュメント
をクラスタ化する。前述した例において、10,000
の個別ドキュメントをクラスタ化する代わりに、本発明
によれば、500のメタドキュメントをクラスタ化する
ことができる。クラスタ洗練仮説によれば、メタドキュ
メントクラスタ化および個別ドキュメントクラスタ化
は、同様な結果を生成する。
【0062】たとえば、ステップS340からS360
までの第1反復の場合、図5のフォーカスセット100
は、ドキュメントコレクション全体を表現するルートノ
ードすなわちメタドキュメント82のみを含む。当然、
第1反復中は、このメタドキュメント82は、フォーカ
スセットTの唯一のメタドキュメントであるので、ステ
ップS340において選択される。ステップS350に
おいて、メタドキュメント82は、その直接の子孫、す
なわち子であるメタドキュメント83〜86に拡張され
る。次に、これらの子メタドキュメント83〜86を使
用し、図6に示すように、フォーカスセット100にお
いて、メタドキュメント82を置換する。このようにし
て、フォーカスセット100は、子孫のメタドキュメン
ト83〜86を含む。
【0063】次に、ステップS340が、図6のフォー
カスセット100に関して反復される。フォーカスセッ
ト100内のメタドキュメントの数がステップS360
における所定の最大数未満である限り、クラスタ化処理
はステップS340〜S360を経由して循環を継続す
る。メタドキュメント83〜86の内、メタドキュメン
ト84は、最低数の個別ドキュメント88を表現する。
すなわち、メタドキュメント84は、6個の個別ドキュ
メントを表現し、一方、メタドキュメント83、85、
および86は、それぞれ、7、8、および9個の個別ド
キュメントを表現する。したがって、メタドキュメント
84は、図7に示すように、選択され、その子孫、すな
わち孫、メタドキュメント89〜92に拡張される。し
かし、孫メタドキュメント90および91は、関心のあ
るドキュメントを含まないので除去される。したがっ
て、フォーカスセット100は、今度は、メタドキュメ
ント83、85〜86、89、および92を含む。
【0064】所定の最大数のメタドキュメントが、ステ
ップS360において、まだ実現されない場合、ステッ
プS340が、図7に示すフォーカスセット100に関
して反復される。最低数の個別ドキュメントを表現する
子メタドキュメント83が、ステップS350において
選択され、図8に示すように、その子孫、すなわち孫、
メタドキュメント87、および93〜95に拡張され
る。しかし、メタドキュメント95は、関心のあるドキ
ュメントを包含しないので、メタドキュメント95は除
去される。したがって、フォーカスセット100は、こ
こで、子孫メタドキュメント85〜87、89、および
92〜94を包含する。
【0065】図2、図3または図4、および図5に輪郭
を示す処理は、フォーカスセット内のメタドキュメント
の数が所定の最大数未満である限り継続される。所定の
最大数が充分に高い場合、フォーカスセットは、実質
上、個別ドキュメントを含む。その場合、ステップS3
60によって、メタドキュメントおよび個別ドキュメン
トの全数が所定の最大数未満であるかが決定される。し
かし、この状況は、通常発生せず、特に、処理の僅かし
かない第1反復中には発生しない。
【0066】図1に示すように、再クラスタ化システム
10は、好適には、プログラム式汎用コンピュータ上に
おいて実現される。しかし、再クラスタ化システム10
は、専用コンピュータ、プログラム式マイクロプロセッ
サまたはマイクロコントローラおよび周辺一体型回路構
成要素、ASICまたは他の一体型回路、ディジタル信
号プロセッサ、有線(ハードワイヤード:hardwired)
電子または論理回路たとえば個別要素(ディスクリート
エレメント:discrete element)回路、PLD、PL
A、FPGA、PALなどのプログラマブル論理装置、
などによっても実現することができる。一般に、図2か
ら図5に示す流れ図を実行することができる有限状態機
械(finite state machine)を実現できるいかなる装置を
使用しても、再クラスタ化システム10を実現すること
ができる。
【0067】以上、本発明を、輪郭を前述した特定の実
施形態について述べたが、多数の代替方法、変形、およ
び異形は当業者には明らかであることは、明白である。
したがって、前述した本発明の好適な実施形態は、説明
を目的とするものであり、これに限定されるものではな
い。特許請求の範囲によって規定される本発明の思想お
よび範囲を離脱することなく、種々の変化を実施し得
る。
【図面の簡単な説明】
【図1】 本発明による装置の一実施形態を示すブロッ
ク図である。
【図2】 本発明による再クラスタ化方法の一実施形態
の輪郭を示す流れ図である。
【図3】 図2のメタドキュメント拡張ステップの第1
実施形態の輪郭をより詳細に示す流れ図である。
【図4】 図2のメタドキュメント拡張ステップの第2
実施形態の輪郭をより詳細に示す流れ図である。
【図5】 本発明の好適な実施形態によるフォーカスセ
ットのツリーおよび変化するコンテンツを示す図であ
る。
【図6】 本発明の好適な実施形態によるフォーカスセ
ットのツリーおよび変化するコンテンツを示す図であ
る。
【図7】 本発明の好適な実施形態によるフォーカスセ
ットのツリーおよび変化するコンテンツを示す図であ
る。
【図8】 本発明の好適な実施形態によるフォーカスセ
ットのツリーおよび変化するコンテンツを示す図であ
る。
【図9】 分散/集合手順を広く示す図である。
【図10】 従来の分散/集合ドキュメントブラウジン
グ法を、ドキュメントの特定のコーパスに適用する場合
を示す図である。
【符号の説明】
10 再クラスタ化システム、11 プロセッサ、12
ROM、13 RAM、14 不揮発性メモリ、15
コーパス入力、16 ユーザ入力装置、17ディスプ
レイ装置、18 出力装置、81 ツリー、82 ルー
トノード(メタドキュメント)、83〜87,89〜9
5 ノード(メタドキュメント)、88 ドキュメン
ト、100 フォーカスセット。

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 電子的に記憶されるドキュメントのコー
    パスを処理し、一つ以上の事前に識別された関心のある
    ドキュメントをクラスタ化する方法であって、 複数のドキュメントを代表する少なくとも一つの初期メ
    タドキュメントを含むフォーカスセットを拡張し、複数
    の次のメタドキュメントとするステップであって、それ
    ぞれの次のメタドキュメントは前記初期メタドキュメン
    トのサブセットであるステップと、 前記フォーカスセット内のメタドキュメントを選択する
    ステップと、 前記選択されたメタドキュメントを子孫のメタドキュメ
    ントに拡張するステップと、 少なくとも一つの関心のあるドキュメントを含まない子
    孫のメタドキュメントを除去するステップと、 前記次のメタドキュメントの数が少なくとも所定の最大
    数に等しくなるまで、前記選択および拡張ステップを反
    復するステップと、を含む拡張ステップと、 前記次のメタドキュメントをクラスタ化し、所定数のク
    ラスタとするステップと、を含むことを特徴とする方
    法。
  2. 【請求項2】 請求項1に記載の方法において、クラス
    タの前記所定数は、前記所定最大数未満であることを特
    徴とする方法。
  3. 【請求項3】 請求項1に記載の方法において、前記少
    なくとも一つの初期メタドキュメントは、ドキュメント
    のコーパス全体を代表する単独のメタドキュメントであ
    ることを特徴とする方法。
  4. 【請求項4】 請求項1に記載の方法において、前記所
    定最大数は、前記拡張および選択ステップが、共に、時
    間制約内に完了するように決定されることを特徴とする
    方法。
  5. 【請求項5】 請求項1に記載の方法において、さら
    に、 前記新メタドキュメントの要約を確定するステップと、 前記要約をユーザに提示するステップと、を含むことを
    特徴とする方法。
  6. 【請求項6】 請求項5に記載の方法において、前記要
    約は、 各新メタドキュメントにおいて最も頻繁に現れる固定数
    の話題のワードと、 各新メタドキュメント内の少なくとも一つの典型的なド
    キュメントの名称と、を含むことを特徴とする方法。
  7. 【請求項7】 請求項1に記載の方法において、前記ク
    ラスタ化ステップは、各メタドキュメントによって表現
    されるドキュメントの数に関係なく、多くても、所定量
    の時間を要することを特徴とする方法。
  8. 【請求項8】 請求項1に記載の方法において、前記拡
    張ステップは、さらに、選択されたメタドキュメント内
    の関心のあるドキュメントの数がカットオフ値を超える
    かを決定するステップを含むことを特徴とする方法。
  9. 【請求項9】 請求項8に記載の方法において、前記選
    択されたメタドキュメント内の関心のあるドキュメント
    の数がカットオフ値未満である場合、前記ドキュメント
    は別のドキュメントセットに加えられることを特徴とす
    る方法。
  10. 【請求項10】 請求項9に記載の方法において、前記
    拡張ステップは、さらに、前記クラスタ化ステップにお
    いてクラスタ化するために、前記別のドキュメントセッ
    トを前記次のメタドキュメントに加えるステップを含む
    ことを特徴とする方法。
  11. 【請求項11】 電子的に記憶されるドキュメントのコ
    ーパスを処理し、少なくとも一つの事前に識別された関
    心のあるドキュメントをクラスタ化する装置であって、 複数のドキュメントを代表する少なくとも一つの初期メ
    タドキュメントを含むフォーカスセットを拡張し、複数
    の次のメタドキュメントとする拡張手段であって、それ
    ぞれの次のメタドキュメントは前記少なくとも一つの初
    期メタドキュメントのサブセットである拡張手段と、 前記フォーカスセット内のメタドキュメントを選択する
    ための選択手段であって、選択されたメタドキュメント
    は拡張手段によってその子孫のメタドキュメントに拡張
    される選択手段と、 少なくとも一つの関心のあるドキュメントを含まない子
    孫のメタドキュメントを除去するための除去手段と、を
    含む拡張手段と、 前記次のメタドキュメントをクラスタ化し、所定数のク
    ラスタとするためのクラスタ化手段と、を備え、 前記拡張手段は、前記次のメタドキュメントの数が所定
    の最大数に少なくとも等しくなるまで、前記フォーカス
    セットを拡張することを特徴とする装置。
  12. 【請求項12】 請求項11に記載の装置において、新
    メタドキュメントの前記所定数は、前記所定最大数未満
    であることを特徴とする装置。
  13. 【請求項13】 請求項11に記載の装置において、前
    記少なくとも一つの初期メタドキュメントは、ドキュメ
    ントのコーパス全体を代表する単独のメタドキュメント
    であることを特徴とする装置。
  14. 【請求項14】 請求項11に記載の装置において、前
    記所定最大数は、前記クラスタ化手段が前記次のメタド
    キュメントのクラスタ化を時間制約内に完了するように
    決定されることを特徴とする装置。
  15. 【請求項15】 請求項11に記載の装置において、さ
    らに、 新メタドキュメントの要約を確定し、前記要約をユーザ
    に提示する要約手段を備えることを特徴とする装置。
  16. 【請求項16】 請求項15に記載の装置において、前
    記要約は、 各新メタドキュメントにおいて最も頻繁に現れる固定数
    の話題のワードと、 各新メタドキュメント内の少なくとも一つの典型的なド
    キュメントの名称と、を含むことを特徴とする装置。
  17. 【請求項17】 請求項11に記載の装置において、前
    記クラスタ化手段は、各メタドキュメントによって表現
    されるドキュメントの数に関係なく、多くても、所定量
    の時間を要することを特徴とする方法。
  18. 【請求項18】 請求項11に記載の装置において、前
    記拡張手段は、前記メタドキュメント内の関心のあるド
    キュメントの数がカットオフ値を超えるかを決定するこ
    とを特徴とする装置。
  19. 【請求項19】 請求項18に記載の装置において、前
    記メタドキュメント内の関心のあるドキュメントの数が
    カットオフ値未満である場合、前記ドキュメントは別の
    ドキュメントセットに加えられることを特徴とする装
    置。
  20. 【請求項20】 請求項19に記載の装置において、前
    記拡張手段は、クラスタ化手段によってクラスタ化する
    ために、前記別のドキュメントセットを前記次のメタド
    キュメントに加えることを特徴とする装置。
JP01764499A 1998-01-26 1999-01-26 任意のコーパスサブセットをほぼ一定時間でクラスタ化するための方法および装置 Expired - Lifetime JP4243376B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/013,668 1998-01-26
US09/013,668 US6038557A (en) 1998-01-26 1998-01-26 Method and apparatus for almost-constant-time clustering of arbitrary corpus subsets

Publications (2)

Publication Number Publication Date
JPH11316768A true JPH11316768A (ja) 1999-11-16
JP4243376B2 JP4243376B2 (ja) 2009-03-25

Family

ID=21761098

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01764499A Expired - Lifetime JP4243376B2 (ja) 1998-01-26 1999-01-26 任意のコーパスサブセットをほぼ一定時間でクラスタ化するための方法および装置

Country Status (2)

Country Link
US (1) US6038557A (ja)
JP (1) JP4243376B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013038774A1 (ja) * 2011-09-15 2013-03-21 株式会社東芝 文書分類装置、方法およびプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004025490A1 (en) * 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization
US7523117B2 (en) * 2005-05-04 2009-04-21 West Virginia University Research Corporation Method for data clustering and classification by a graph theory model—network partition into high density subgraphs
CN1940915B (zh) * 2005-09-29 2010-05-05 国际商业机器公司 训练语料扩充系统和方法
US10289802B2 (en) 2010-12-27 2019-05-14 The Board Of Trustees Of The Leland Stanford Junior University Spanning-tree progression analysis of density-normalized events (SPADE)
WO2014210387A2 (en) * 2013-06-28 2014-12-31 Iac Search & Media, Inc. Concept extraction
US11036764B1 (en) * 2017-01-12 2021-06-15 Parallels International Gmbh Document classification filter for search queries

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317507A (en) * 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
US5442778A (en) * 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
US5483650A (en) * 1991-11-12 1996-01-09 Xerox Corporation Method of constant interaction-time clustering applied to document browsing
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013038774A1 (ja) * 2011-09-15 2013-03-21 株式会社東芝 文書分類装置、方法およびプログラム
JP2013065097A (ja) * 2011-09-15 2013-04-11 Toshiba Corp 文書分類装置、方法およびプログラム
US9507857B2 (en) 2011-09-15 2016-11-29 Kabushiki Kaisha Toshiba Apparatus and method for classifying document, and computer program product

Also Published As

Publication number Publication date
US6038557A (en) 2000-03-14
JP4243376B2 (ja) 2009-03-25

Similar Documents

Publication Publication Date Title
US11275774B2 (en) Systems and methods for generating and using aggregated search indices and non-aggregated value storage
EP0631245B1 (en) Method of processing a corpus of electronically stored documents
CN1653448B (zh) 搜索数据源的系统和方法
JP3577819B2 (ja) 情報探索装置及び情報探索方法
US10387469B1 (en) System and methods for discovering, presenting, and accessing information in a collection of text contents
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
JP2005202974A (ja) 情報資源をサーチしかつ情報資源から情報を検索するコンピュータ化されたシステム及び方法
JP2008542951A (ja) 関連性ネットワーク
US20030145014A1 (en) Method and apparatus for ordering electronic data
JP2010039593A (ja) テーブル分類装置、テーブル分類方法及びテーブル分類プログラム
US20050149473A1 (en) Dynamic grouping of content including captive data
US20090112845A1 (en) System and method for language sensitive contextual searching
Risch et al. Text visualization for visual text analytics
US20050038805A1 (en) Knowledge Discovery Appartus and Method
JP4243376B2 (ja) 任意のコーパスサブセットをほぼ一定時間でクラスタ化するための方法および装置
JPH07192020A (ja) 文書情報検索装置
KR102371224B1 (ko) 공항 및 항공 기술의 트렌드 분석 장치 및 방법
Irshad et al. SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data.
EP3289491A1 (en) Conceptual document analysis and characterization
Lauw et al. TUBE (Text-cUBE) for discovering documentary evidence of associations among entities
JP4525224B2 (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JP2006501545A (ja) オブジェクト分類のための顕著な特徴を自動的に判定する方法および装置
US20020065794A1 (en) Phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element
JP4010711B2 (ja) ターム評価プログラムを記憶した記憶媒体
JP2000105769A (ja) 文書表示方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060123

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060123

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090105

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term