JP2010191962A

JP2010191962A - オントロジーの類似性行列の効率的な計算

Info

Publication number: JP2010191962A
Application number: JP2010030410A
Authority: JP
Inventors: Stergios Stergiou; ステルギオウステリオス; Yannis Labrou; ラブロウヤニス; Jawahar Jain; ジャインジャワハー
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-02-13
Filing date: 2010-02-15
Publication date: 2010-09-02
Anticipated expiration: 2030-02-15
Also published as: CN101807201A; US8554696B2; EP2219121A1; JP5440235B2; US20100211534A1

Abstract

【課題】本発明は、オントロジーの類似性行列の効率的な計算を提供する。
【解決手段】一実施形態では、オントロジーを生成する段階は、複数の逆索引リストを有する逆索引にアクセスする段階を有する。逆索引リストは言語の言葉に対応してよい。各逆索引リストは、言葉の言葉識別子及び言葉が現れる文書セットの１又は複数の文書を示す１又は複数の文書識別子を有してよい。実施形態は、逆索引に従って言葉識別子索引を生成する段階も有する。言葉識別子索引は、複数のセクションを有し、各セクションは１つの文書に対応する。各セクションは、文書内に現れる１又は複数の言葉の１又は複数の言葉識別子を有してよい。
【選択図】図１

Description

本発明は概して語彙分析に関し、より詳細にはオントロジーの類似性行列の効率的な計算に関する。

文書セット内のデータは大量の情報を保持しており、必要な情報を発見するのが困難である。キーワード検索は情報発見のための主要な技術である。しかしながら、ある状況では、キーワード検索は情報を発見する際に効率的でない。

本発明は、オントロジーの類似性行列の効率的な計算を提供する。

一実施形態では、オントロジーを生成する段階は、言語の言葉の逆索引リストを有する逆索引にアクセスする段階を有する。言葉に対応する逆索引リストは、文書セットのうちのどの文書が言葉を有するかを示す。オントロジーの類似性行列は逆索引に従って生成される。オントロジーの類似性行列は、言葉の対の類似性を有する複数のエントリを有する。

特定の実施形態では、ドメイン・オントロジーを生成し問い合わせる段階は以下を含む。

１．ドメイン内文書の収集
特定の実施形態では、文書は言葉の集合である。従って、文書は多くの形式をとってよく、他の文書を有するサブセットを有してもよい。例えば、百科事典セット、百科事典セットの「Ａ」巻、その「Ａ」巻の中の「Aardvark」に関する記事及びその記事の中のある段落は全て、この用途において言葉が用いられているので、文書である。文書は読める文字を有し、例えば「Aardvark」に関する記事である。文書は物語形式の文字を有する必要はない。文書は、個々に集合的に心象の内容を記述するユーザにより入力された一式の文法標識を有してよい。文書の集合は文書セットとして参照される。従って、百科事典のセットは、文書セット及び／又は文書と見なされてよい。

２．領域内の関心のある言葉（「辞書の言葉」）の識別
一実施形態では、「言葉」は「辞書の言葉」と置き換え可能であってよい。

言葉の例として、単語（例えば「tree（木）」）、句（例えば「graph algorithm（グラフの理論）」）、名詞（例えば「New York（ニュー・ヨーク）」）等がある。言葉（又は概念）は異なる形式を有してよい。ある場合には、異なる単語が同一の概念に用いられる。例えば「kidney stones（腎臓結石）」と「kidney calculi（腎結石）」は同一の概念である「kidney stones（腎臓結石）」を表す。別の場合には、語幹は多くの変異形を有する。例えば、語幹「tree（木）」は「tree（木）」と「trees（木々）」を有する。ある実施例では、同一の言葉の形式は同一の言葉にマップされるとして扱われてよい。他の実施形態では、同じ言葉の形式が別個の言葉として取り扱われてよい。辞書の言葉の適切な形式は文書内に現れてもよいが、特定の辞書の言葉は如何なる文書にも現れなくてもよい。

辞書の言葉を識別する方法の例は、人間により作成された特定領域の辞書、例えば医学辞典を用いる段階を有する。特定の実施形態では、辞書の言葉のリストは文書セット内の一式の文字列から自動的に生成される。文字列は頻度により索引付けされソートされ、閾値より高い頻度の文字列が選択されてよい。他の適切な統計的方法は、言葉を定めるために用いられてよい。

３．所与の共起文脈内の辞書の単語の共起数の計算
２つの言葉が同一の共起文脈、例えば文書内でそれぞれ少なくとも１回現れた場合、当該２つの言葉は同時に起こる。

４．領域オントロジーを有する方向重み付けグラフの作成
方向重み付けグラフは、辞書の言葉をノードとして及び類似性を端の重みとして有する。「方向重み付けグラフ」は、如何なる適切なデータ構造、例えば行列、二分決定グラフ又は二分決定グラフの集合によっても表現される同一情報の実際の表現として用いられてよい。

５．方向重み付けグラフの問い合わせ手順の適用
１又は複数の辞書の言葉が入力として与えられると、当該手順は当該入力された辞書の言葉と関連した１又は複数の辞書の言葉を出力する。例えば、当該手順は、１又は複数の入力された言葉に対し最も大きな差異がある方向類似性を持つ「１又は複数の」ソートされたリストを出力してよい。この場合、出力は、オントロジーが解決する領域と関連して、入力された言葉に一層緊密に関連した言葉を含む。

如何なる適切な類似性の定義が用いられてもよい。類似性の種類の幾つかの例は、以下に説明される。

言語の単語間の類似性から言語のオントロジーを生成するシステムの一実施形態を示す。基本類似性を記録する類似性行列の例を示す。方向類似性を記録する類似性行列の例を示す。平均類似性を記録する類似性行列の例を示す。図１のシステムにより実行されうる、言語のオントロジーを生成する方法の一実施形態を示す。逆索引の例を示す。図６の逆索引から形成されうるデータ構造及び言葉の識別子の索引の例を示す。

図１は、言語の言葉間の類似性から言語のオントロジーを生成するシステム１０の一実施形態を示す。言語のオントロジーは、言語の言葉及び言葉の間の関係を表す。言葉の間の類似性は、言葉の間の関係を記述する。一実施形態では、システム１０は類似性を定量値として計算する。これらの値は、類似性行列及び言語のオントロジーとして機能するグラフを生成するために用いられてよい。

図示された実施例では、システム１０はクライアント２０、サーバ２２及びメモリ２４を有する。クライアント２０は、ユーザがサーバと通信し、言語のオントロジーを生成することを可能にする。クライアント２０は、ユーザ入力をサーバ２２へ送信し、サーバ出力（例えば、表示又は印刷）をユーザへ提供してよい。サーバ・システム２２は、言語のオントロジーを生成するアプリケーションを管理する。メモリ２４は、サーバ・システム２２により用いられるデータを格納する。

メモリ２４は、ページ５０及び記録５４を格納する。文書５０は言葉及び／又は画像の集合を参照してよい。言葉は、１又は複数の特定の意味を有する１又は複数のキャラクタ（例えば、文字、数字、空白又は句読点）を有してよい。言葉の例は、「San Francisco（サンフランシスコ）」、「plants（植物）」、「non-stop（直行の）」及び「Nine（９）」を有する。画像を有する文書は、タグ又は該画像に関連付けられた他のメタデータを用いて分析されてよい。

文書５０の例には、文書の１又は複数の単語、１又は複数の段落、１又は複数のページ、１又は複数の章、１又は複数の節、１又は複数の従来の文書、１又は複数の書籍、１又は複数のウェブ・ページ、１又は複数の書簡（例えば、電子メール又はインスタント・メッセージ）及び／又は他の言葉の集合がある。つまり、文書は単語、段落、章、画像、ページ、従来の文書、節、ページ・セクション、書籍、ウェブ・ページ、電子メール、メッセージ、ウェブログ等であってよい。文書５０は、文書識別子により識別されてよい。ある実施形態では複数の文書５０は文書セットに属してよい。文書セットは、特定の主題、コミュニティ、組織又は他のエンティティと関連付けられてよい。

記録５４は、文書５０を記述する。ある実施形態では、記録５４は、索引５８、逆索引６２及びオントロジー６６を有する。索引５８は、文書５０内で見付かった言葉を示す、文書５０の索引リストを有する。逆索引６２は、逆索引リストを有する。言葉の逆索引リストは、単語を含む文書５０を示す。ある例では、リストＴ_iは言葉ｔ_ｉを含む文書５０の文書識別子を含む。リストＴ_i&Ｔ_jは言葉ｔ_ｉ及びｔ_jの両方を含む連結文書５０の文書識別子を有してよい。リストＴ_i&Ｔ_jは言葉ｔ_ｉ又はｔ_jの何れかを含む離接文書５０の文書識別子を有してよい。Ｄ(Ｔ_i)は、Ｔ_iの文書５０の数、つまり言葉ｔ_ｉを含む文書５０の数である。

ある実施形態では、リスト（例えば、索引リスト又は逆索引リスト）は二分決定グラフ（BDD）として格納されてよい。ある例では、セットＴ_iの二分決定グラフBDD（Ｔ_i）は、言葉ｔ_ｉを有する文書５０を表す。

サーバ２２は、決定グラフ・エンジン２６を有する。ある実施形態では、決定グラフ・エンジン２６は、リスト（例えば、索引リスト及び／又は逆索引リスト）をＢＤＤとして格納する。

ある実施形態では、リストは圧縮され二分決定グラフ（BDD）として格納されてよい。リストは、如何なる適切な方法で圧縮されてもよい。決定グラフ・エンジン２６は、如何なる適切な方法で、索引をＢＤＤとして格納してよい。ある実施形態では、索引リストはブール関数により表され、そしてブール関数はＢＤＤにより表される。リストは、如何なる適切な方法でブール関数として表されてもよい。

決定グラフ・エンジン２６は、如何なる適切な方法で、ブール関数をＢＤにより表してもよい。図１に戻ると、決定グラフ・エンジン２６は如何なる適切なＢＤＤを用いてリストを格納してもよい。ＢＤＤの例には、既約順序付ＢＤＤ（ＲＯＢＤＤ）、分割ＢＤＤ（ＰＯＢＤＤ）、ゼロサプレス型決定グラフ（ＺＤＤ）、ナノ二分決定グラフ（ｎａｎｏＤＤ）、ゼロサプレス・ナノ二分決定グラフ（ｎａｎｏＺＤＤ）、他の適切な二分決定グラフ及び／又はこれらの如何なる組み合わせも含まれる。

特定の実施形態では、決定グラフ・エンジン２６は、グラフが大きくなると、決定グラフを格納するために決定グラフを小型化し適切にテーブルのサイズを変更する（そして節点あたりにより多くのビットを割り当てる）。特定の実施形態では、決定グラフ・エンジン２６は、決定グラフを小型決定グラフとして構築し始める。サイズを変更する代わりに、決定グラフ・エンジン２６は、グラフの構造に分解／組立を直接適用し、小型決定グラフを縮小されていないグラフに直接変換する。

特定の実施形態では、小型決定グラフは、並列プラットフォーム間の通信を実現する。ある例では、第１のプラットフォームは第２のプラットフォームと並列に動作する。第１のプラットフォームは、決定グラフを生成し、第２のプラットフォームへ通信するために該決定グラフを小型化し、該小型決定グラフを第２のプラットフォームへ通信してよい。第２のプラットフォームは、第２のプラットフォームで処理するために小型決定グラフから決定グラフを再構成してよい。

サーバ２２は、類似性計算機３４を有する。類似性計算機３４は、言葉ｔ_ｉの又は第１の言葉ｔ_ｉ及び第２の言葉ｔ_jを有する言葉の対の適切な種類の類似性を計算する。類似性の例には、基本、方向、平均、差分及び／又は他の類似性がある。類似性計算機３４は、類似性行列７０又は類似性グラフ７４のような言語のオントロジー６６を生成してもよい。オントロジーは、基本、方向、平均、差分及び／又は他の類似性のような如何なる適切な類似性から生成されてもよい。オントロジー６６は、如何なる適切な方法で言語から選択された言葉から生成されてもよい。例えば、言語の一般的に用いられる部分からの言葉又は１又は複数の特定の主題の分野に関連する言葉が選択されてよい。類似性行列計算機３４は、言葉間の類似性を記録する類似性行列７０を生成してよい。

図２は、基本類似性を記録する類似性行列１１０の例を示す。基本類似性は、言葉ｔ_ｉ及びｔ_jを含む文書５０の量（例えば、数）から計算されてよい。連結文書量は言葉ｔ_ｉ及び言葉ｔ_jの両方を含む文書５０の量を表す。また、離接文書量は言葉ｔ_ｉ又は言葉ｔ_jの一方を含む文書５０の量を表す。基本類似性は、離接文書量により除算された連結文書量により与えられてよい。ある例では、連結文書数は言葉ｔ_ｉ及び言葉ｔ_jを含む文書の数を有する。また、離接文書数は言葉ｔ_i又は言葉ｔ_jの一方を含む文書の数を有する。基本類似性は、離接文書数により除算された連結文書数により与えられてよい。
Affinity(ｔ_ｉ,ｔ_j)=D(Ｔ_i&Ｔ_j)/D(Ｔ_i+Ｔ_j)
別の実施形態では、基本類似性は、言葉ｔ_ｉを含む文書の量又は言葉ｔ_jを含む文書の量の最大値に対する言葉ｔ_ｉ及び言葉ｔ_jの両方を含む文書の量として定められてよい。例えば：
Affinity(ｔ_ｉ,ｔ_j)=D(Ｔ_i&Ｔ_j)/max(D(Ｔ_i),D(Ｔ_j))
図２の図示された例では、類似性行列１１０は言葉ｔ１．．．ｔ５の対の基本類似性を記録する。類似性行列１１０によると、基本類似性は、言葉ｔ０とｔ１の間では０．００３であり、言葉ｔ０とｔ２の間では０．００５であり、以下同様である。

図３は、言葉ｔ０．．．ｔ５の方向類似性を記録する類似性行列１２０の例を示す。言葉ｔ_ｉとｔ_jとの間の方向類似性ＤＡは、ｔ_ｉが現れた場合にｔ_jが現れる条件付き確率として定義されてよい。言葉ｔ_ｉとｔ_jとの間の方向類似性は、言葉の対ｔ_ｉとｔ_jとの方向類似性又はｔ_ｉからｔ_jへの方向類似性としても表されてよい。

方向類似性は、言葉ｔ_ｉに関する言葉ｔ_jの重要性を測定するために用いられてよい。類似性計算機３４は、言葉ｔ_ｉ及びｔ_jを含む文書５０の量（例えば、数）から、言葉の対ｔ_ｉ及びｔ_jの方向類似性を計算する。D(Ｔ_i)はｔ_ｉを含む文書５０の量を表す。言葉の対ｔ_ｉ及びｔ_jの方向類似性は、連結文書量D(Ｔ_i&Ｔ_j)により求められる。
DAffinity(ｔ_ｉ,ｔ_j)=D(Ｔ_i&Ｔ_j)/D(Ｔ_i)
DAffinity(ｔ_ｉ,ｔ_j)はD(Ｔ_i)=D(Ｔ_j)でない限りDAffinity(ｔ_j,ｔ_ｉ)と等価ではない。言葉ｔ_ｉからｔ_jへの方向類似性DAffinity(ｔ_ｉ,ｔ_j)が高いことは、文書５０が言葉ｔ_ｉを含む場合に文書５０が言葉ｔ_jを含む可能性が高いことを示す。ある例では、文書［１２３４５６］は言葉ｔ_ｉを含み、文書［４２］は言葉ｔ_jを含む。この例の言葉ｔ_jを含む文書は言葉ｔ_ｉも含む。従って言葉ｔ_jの観点からは、言葉ｔ_ｉは重要性が高い。言葉ｔ_ｉを含む文書の３分の１のみが言葉ｔ_jも含む。従って言葉ｔ_ｉの観点からは、言葉ｔ_jは重要性が比較的低い。

図３の例では、言葉１２４はAの言葉であり、言葉１２８はBの言葉である。行列１２０の行はAの言葉が与えられた場合のB言葉の類似性を記録し、行列１２０の列はBの言葉が与えられた場合のAの言葉の類似性を記録する。

図４は、平均類似性を記録する類似性行列１４０の例を示す。言葉ｔ_ｉの平均類似性は、他の言葉ｔ_jに関して計算されてよい。ある実施形態では、平均方向類似性は言葉ｔ_ｉと他の各言葉ｔ_jとの間の類似性の平均であってよい。別の実施形態では、平均類似性は、ｔ_ｉからｔ_jへの方向類似性から決定されてよい。N個の言葉のうちの言葉ｔ_ｉの平均方向類似性は次式で与えられる。

つまり、平均類似性は、言葉ｔ_ｉの、共起文脈内の他の言葉に対する方向類似性の平均であってよい。行列１４０の行１４２は言葉１乃至言葉５００００の基本類似性を記録する。行１４４は言葉１乃至言葉５００００の平均類似性を記録する。ある実施形態では、平均類似性（又は平均方向類似性）は、方向類似性から計算されてよい。ある実施形態では、平均類似性ＡＡベクトルは、特定方向類似性ＤＡから計算されてよい。ある実施例では、DAは行方向に格納されてよい。従って、AA内のエントリに対して並列に計算が進められてよい。特に、AAは、ディスクから読み出されるときにDAの行を加算し、最後に辞書の言葉のエントリの数により正規化することにより生成されてよい。

言葉ｔ_ｉとｔ_jとの間の差分類似性又は差分方向類似性（DiffDAff）は、言葉ｔ_ｉとｔ_jとの間の方向類似性から文書セット内の言葉ｔ_jの共通性を示す要素を差し引いたものとして定められてよい。文書セット内の言葉ｔ_jの共通性は、言葉ｔ_jの基本類似性又は文書セット内の他の言葉に対する方向類似性の値に対する統計値であってよい。特定の実施形態では、文書セット内の言葉ｔ_jの共通性は、言葉ｔ_jの平均類似性（AA）であってよく、差分方向類似性の次の定義に従う。
DiffAff(ｔ_ｉ,ｔ_j)=DAffinity(ｔ_ｉ,ｔ_j)-AveAff(ｔ_j)
差分類似性は、文書５０内に生じる、言葉ｔ_jの一般的傾向により引き起こされる偏向を除去する。特定の条件では、差分類似性は、文書が言葉ｔ_jを含む場合に、該文書が言葉ｔ_ｉを含む確率のより高い精度を提供しうる。

差分類似性は種々の用途で用いられてよい。ある例では、人の名前の間の差分類似性は社会的ネットワークを調査するために用いられてよい。別の例では、言語要素の間の差分類似性は自然言語処理を調査するために用いられてよい。別の例では、製品の間の差分類似性はマーケティングを調査するために用いられてよい。

上述のように、言葉間の種々の類似性が存在する。例である実施形態は、言葉間の１又は複数の種類の類似性を記録する類似性行列を生成してよい。ある実施形態では、言語の言葉はオントロジーのために選択される。言葉は、如何なる適切な方法で選択されてもよい。例えば、特定の主題に関連して共通に用いられる１又は複数の言葉が選択されてよい。再び図１を参照すると、類似性計算機３４は選択された言葉の記録５４にアクセスする。類似性計算機３４は、逆索引６２にアクセスし、選択された言葉を有する文書のリストを検索してよい。逆索引６２は、ＢＤＤとして又は如何なる他の適切な形式で表現されてよい。類似性計算機３４は、選択された言葉の言葉対の類似性を計算し、それらをオントロジー類似性行列に格納する。如何なる適切な類似性が計算されてもよい。例えば基本、方向、平均、差分及び／又は他の類似性が計算されてもよい。オントロジー類似性行列は、言語のオントロジーを表現するために用いられてよい。

類似性計算機３４は、逆索引リストを検索し類似性を計算するために如何なる適切な技術を用いてもよい。ある実施形態では、類似性計算機は、言葉のセット（例えば辞書）から得られた逆索引に働くアルゴリズムを用い、辞書の言葉の類似性の行列を計算してよい。比較的大きい文書セットでは、類似性行列計算の実行時間は、極めて長くなりうる。本願明細書の幾つかの実施形態は、従来の手法と比べて実行時間を有意に向上させる。

図５は、逆索引から類似性行列を生成する方法の一実施形態を示す。一実施形態は、逆索引にアクセスする段階、逆索引に従って言葉の識別子の索引を生成する段階、及びオントロジー類似性行列を生成する段階、を有する。

方法は段階２１０で開始する。段階２１０で、逆索引がアクセスされる。例えば、類似性計算機３４又はサーバ２２の他の要素は、逆索引６２が格納されているメモリ２４にアクセスしてよい。逆索引は、文書セット内のどこで言葉が見付かるかを示し、複数の逆索引を比較してよい。各逆索引リストは、言語の言葉に対応し、該言葉の言葉識別子を有する。

言葉識別子は言葉を識別する。概して、識別子は、数字、文字、単語、記号、信号、他の適切な表現又はこれらの組み合わせのような如何なる適切な表現であってもよく、電子媒体内に格納されてもよい。例として、逆索引が、各行が逆索引リストを有する行列内に格納されている場合、言葉の言葉識別子は、対応する単語の逆索引を有する行列の表の番号であってよい。一実施形態では、言葉識別子は、電子媒体内に格納されてもよい。

逆索引リストは、文書識別子のセットを有してもよい。各文書識別子は、逆索引リストに対応する言葉が現れる文書セット内の文書を表す。例えば、文書セットが書籍であり該書籍のページが文書である場合、文書識別子は、対象の言葉を有するページの番号であってよい。

文書識別子は、如何なる適切な方法で順序付けられてもよい。また、該順序は、最も低い順位から最も高い順位へ向かう順序付けられたセットとして表されてよい。例えば、文書識別子１、２、３及び４により表された文書は（１、２、３、４）、（４、３、２、１）、（２、４、３、１）又は他の適切な順序で順序付けられてよい。同様に、言葉識別子は、如何なる適切な方法で順序付けられてもよい。逆索引の例は、図６を参照して更に詳細に記載される。

図６は例である逆索引３１０を示す。逆索引３１０は、それぞれ言語の言葉に対応する４個の逆索引リスト３１４を有する。各逆索引リストは、言葉に対応する言葉識別子を有する。例えば、言葉識別子ａ、ｂ、ｃ及びｄは、それぞれ言葉ａｐｐｌｅ、ｂｏｙ、ｃａｔ及びｄｏｇに対応してよい。各逆索引リストは、どの文書内に対応する言葉が現れるかを示す１又は複数の文書識別子も有する。例えば、逆索引リストのうちの１つは言葉識別子ｄ及びｄｏｇが現れる文書の文書識別子２、４及び５を有する。

ある実施形態では、言葉識別子は、逆索引に従って生成されてよい。言葉識別子索引はセクションで構成され、各セクションは文書セットのうちの異なる文書に対応する。言葉識別子索引の各セクションは、セクションに対応する文書内で見付かった言葉の言葉識別子を有してよい。ある実施形態では、言葉識別子索引は次のように生成されてよい。

再び図５を参照する。段階２１４−２４２は、複数の順序付けられた対を編成する段階、及び逆索引に従って言葉識別子索引を生成する段階に対応する。これらの段階は図７を参照して説明される。図７は、例であるデータ構造の内容及び図６の逆索引３１０から生成された例である言葉識別子索引を示す。

段階２１４で、順序付けられた対のセットは逆索引から生成される。順序付けられた対は、言葉識別子及び文書識別子を有する。一実施形態では、順序付けられた対は各逆索引リストから生成される。各順序付けられた対は、逆索引リストの言葉識別子及び逆索引リストのうちの最も低く順位付けられた文書識別子を有してよい。

順序付けられた対は、各順序付けられた対の文書識別子の順序付けに基づき編成されてよい。同一の文書識別子を有する順序付けられた対は、各順序付けられた対の言葉識別子の順序付けに基づき更に編成されてよい。従って、順序付けられた対の文書識別子が順序付けられた対のグループのうちの最も低く順序付けられた文書識別子であり、順序付けられた対の言葉識別子が同一の文書識別子を有するグループの順序付けられた対のうちの最も低く順序付けられた言葉識別子である場合、順序付けられた対は、順序付けられた対のグループのうちの最も低く順序付けられた対と考えられてよい。

例えば、順序付けられた対の最初のセットは図６の逆索引から生成されてよい。この最初のセットは、各逆索引リストからの順序付けられた対３１８を有する。順序付けられた対は、第一に文書識別子に基づき、第二に言葉識別子に基づき順序付けられてよい。この例の目的のため、順序付けられた対は（文書識別子、言葉識別子）のように表される。最初に順序付けられた対は、言葉識別子及び各逆索引リストの最も低く順位付けられた文書識別子を有する。従って、順序付けられた対の最初のセットは（１、Ａ）、（４、Ｂ）、（１、Ｃ）及び（２、Ｄ）である。本例は、文書識別子の大きさが増大するにつれ文書識別子の順位が増大し、言葉識別子の順位が標準的な英語のアルファベットの連続する文字毎に増大する順序付け方式を想定する。

段階２１８で、データ構造が生成され、各逆索引リストから生成された順序付けられた対のセットで初期化される。データ構造は、複数の順序付けられた対を格納することができる。幾つかの実施形態では、データ構造は、データ構造の最も低く順序付けられた対を最も早く削除させるよう編成される。例えば、データ構造はヒープを有してよい。一実施形態では、ヒープの各ツリー節点の値は、該ツリー節点の子節点の値より低いか等しい。従って、最も低く順序付けられた対はヒープの頂点から出ているので、容易にアクセス可能である。一実施形態では、ヒープは各逆索引リスト毎に最大１個の節点を有する。図７は、逆索引３１０から生成された順序付けられた対の最初のセットを有するデータ構造を示す。

段階２２２で、言葉識別子索引が生成される。言葉識別子索引は、文書に対応する複数のセクション内で編成された言葉識別子を有してよい。例えば、言葉識別子索引のセクションは、セクションに対応する文書内で見付かった言葉の言葉識別子のリストを有してよい。幾つかの実施形態では、言葉識別子のリストは順序付けられたリストであってよい。ある実施形態では、言葉識別子索引はベクトルを有してよい。言葉識別子は、データ構造から順序付けられた対を削除することにより及び削除した順序付けられた対を言葉識別子索引の目的のセクションに置くことにより、言葉識別子に追加されてよい。目的のセクションは、言葉識別子が置かれる、言葉識別子索引のセクションである。

段階２２６で、データ構造は、少なくとも１つの順序付けられた対を有するか否かを決定するために調べられる。有しない場合、言葉識別子索引は完了したと考えられ、方法は段階２４６へ進む。データ構造が空でない場合、段階２３０で最も低く順序付けられた対はデータ構造から削除される。一実施形態では、最も低く順序付けられた対はデータ構造から「出ている」（つまりデータ構造の頂点から取れる）。

図７を参照する。段階２２６の第１の反復中、データ構造は空でなく、従って最も低い順位の対（１、Ａ）が削除される。第２の反復中、（１、Ｃ）が削除される。第３の反復中、（２、Ｄ）が削除され、以下データ構造が如何なる順序付けられた対も有さなくなるまで続けられる。

段階２３４で、削除された順序付けられた対の文書識別子は、データ構造から最も最近に削除された順序付けられた対の文書識別子と比較される。これらの文書識別子が異なる場合、言葉識別子索引の目的のセクションが変更される。例えば、目的のセクションは、順序付けられた対の言葉識別子が置かれている言葉識別子索引の第１のセクションであってよい。削除された順序付けられた対の文書識別子が前に削除された順序付けられた対の文書識別子と異なる場合、削除された順序付けられた対の言葉識別子索引は第２のセクション内に置かれる。第２のセクションは、第１のセクションから区別されてよい。例えば、第１のセクションはメモリ内の場所を有してよく、第２のセクションはメモリ内の重複しない場所を有してよい。目的のセクションの変更は、如何なる適切な方法で示されてもよい。例えば、区切り文字が言葉識別子索引内に置かれ、セクションの終わりにマークを付けてもよい。

図７を参照する。段階２３４の最初の反復では、削除された順序付けられた対（１、Ａ）の文書識別子は、前に削除された順序付けられた対の文書識別子に対して調べることができない。従って、言葉識別子索引の目的のセクションは、言葉識別子索引の第１のセクションに設定されたままである。第２の反復では、データ構造から順序付けられた対を削除した後、前に削除された順序付けられた対の文書識別子は１のままであるので、目的のセクションは同一のままである。第３の反復では、異なる文書識別子を有する順序付けられた対（２、Ｄ）を削除した後、言葉識別子索引の目的のセクションは、第２のセクションに変更される。反復は、段階２３４の最後の反復まで同様に続く。

段階２３８で、削除された順序付けられた対の言葉識別子は、言葉識別子索引の目的のセクションに置かれる。一実施形態では、言葉識別子は、セクション内の順位を保存する方法で目的のセクション内に置かれてよい。図７を参照する。段階２３８の最初の反復では、削除された対（１、Ａ）の言葉識別子Ａは、言葉識別子索引の第１のセクションに置かれる。第２の反復では、Ｃは言葉識別子索引の第１のセクション内に置かれる。第３の反復では、Ｄは言葉識別子索引の第２のセクション内に置かれる。以下同様である。

段階２４２で、言葉識別子索引内に最近置かれた言葉識別子索引の逆索引リストは、データ構造内に置かれた順序付けられた次いで用いられていない文書識別子を有するか否かを決定するために調べられる。逆索引リスト内に少なくとも１つの未使用文書識別子がある場合、言葉識別子及び逆索引リストの最も低く順序付けられた未使用文書識別子を有する次の順序付けられた対が生成される。この次の順序付けられた対は、データ構造内に置かれる。一実施形態では、該対はデータ構造に「プッシュ」される。逆索引リスト内に如何なる未使用文書識別子もない場合、如何なる次の順序付けられた対もデータ構造内に置かれない。

図７を参照する。第１の反復では、言葉識別子Ａを有する逆索引リストは、未使用文書識別子を有するか否かを調べられる。本例では、１が使用されているが３は使用されていない。３はこの逆索引リストの中で最も低く順序付けられた未使用文書識別子なので、言葉識別子４と共に新たに順序付けられた対の中に含まれる。この新たに生成された対（３、Ａ）は、データ構造内に置かれる。反復２及び３では、順序付けられた対（３、Ｃ）及び（４、Ｄ）は、それぞれ生成されデータ構造内に置かれる。反復４では、言葉識別子Ａに対応する逆索引リストは、如何なる未使用文書識別子も有さない。従って、如何なる新たな順序付けられた対も、この反復中にデータ構造内に置かれない。反復は、段階２４２の最後の反復まで同様に続く。

一実施形態では、上述の段階の反復は、言葉識別子索引の生成が完了するまで続いてよい。図７に示されるように、結果として生じる言葉識別子索引は、第１のセクション内にＡ及びＣを有し、第２のセクション内にＤを有し、第３のセクション内にＡ及びＣを有し、第４のセクション内にＢ、Ｃ及びＤを有し、第５のセクション内にＣ及びＤを有する。
一実施形態では、データ構造が空の場合、段階２４６−２５８で言葉識別子索引はオントロジー類似性行列（ＡＭ）を生成するために用いられてよい。一実施形態では、言葉識別子索引の各セクションは、全てのセクションが生成された後ではなく、該セクションが生成された後に処理されてよい。従って、段階２４６−２５８のうちの幾つか又は全ては、データ構造が未だからでなくても実行されてよい。

オントロジー類似性行列は、言葉対の類似性（つまり、言葉対の第１の言葉と第２の言葉との間の類似性）に対応する複数のエントリを有してよい。類似性行列のエントリは、ＡＭ（ｉ，ｊ）として表されてよい。ここで、ｉは第１の言葉の言葉識別子であり、ｊは第２の言葉の言葉識別子である。オントロジー類似性行列の各エントリは、言葉対が文書内で一緒に見付かる度にインクリメントされるカウント値を有してよい。

段階２４６で、行列が生成され、各エントリのカウント値はゼロに初期化される。段階２５０で、言葉対の類似性に対応するエントリのカウント値は、言葉対が文書内で一緒に見付かる度にインクリメントされる。一実施形態では、言葉識別子索引のセクションは、言葉識別子の対（ｉ，ｊ）を決定するためにアクセスされてよい。上述のように、言葉識別子索引のセクションは文書セット内の文書に対応し、言葉識別子索引のセクション内の言葉識別子は個々の文書内で見付かった言葉に対応する。各セクションの言葉識別子の対毎に、ＡＭ（ｉ，ｊ）のカウント値はインクリメントされる。カウント値は、２つの言葉間の類似性を計算するために用いられてよい。

一実施形態では、言葉識別子索引のセクションの言葉識別子は、順番に編成される。セクションの最も低く順序付けられた言葉は、第１の言葉識別子ｉとして選択される。第１の言葉識別子より高い順位を有するセクションの言葉識別子を有する言葉識別子のセットが識別される。このセットの各言葉識別子は、ｊとして表されてよい。第１の言葉識別子ｉ及びセットの各言葉識別子ｊにより表された言葉間の類似性に対応する行列のエントリのカウント値は、インクリメントされる。つまり、ＡＭ（ｉ，ｊ）のカウント値は、セット内の各ｊ毎にインクリメントされる。次に、セクションの２番目に低い言葉識別子は、第１の言葉識別子ｉとして選択される。第１の言葉識別子より高い順位を有するセクションの言葉識別子の全てを有する言葉識別子ｊのセットが識別される。第１の言葉ｉ及びセットの各言葉識別子ｊの類似性に対応する行列のエントリのカウント値は、インクリメントされる。この処理は、セクションの全ての言葉識別子対が処理されるまで繰り返される。

例として、数値２、４、５及び８を有する言葉識別子のセットを有する言葉識別子索引のセクションを考える。関連する言葉識別子対は、（２、４）、（２、５）、（２、８）、（４、５）、（４、８）及び（５、８）である。従って、段階２５０で、ＡＭ（２、４）、ＡＭ（２、５）、ＡＭ（２、８）、ＡＭ（４、５）、ＡＭ（４、８）及びＡＭ（５、８）のカウント値はインクリメントされる。

他の実施形態では、言葉識別子対は、他の方法で言葉識別子索引から識別されてもよい。例えば、上述の処理は、セクションの最も高い順位の言葉識別子、最も高い順位の言葉識別子より低い順位を有するセクションの言葉識別子を有する第１のセットを識別することにより、実行されてもよい。他の実施形態では、言葉識別子対は、他の方法で識別されてもよい。

幾つかの実施形態では、オントロジー類似性行列のエントリは、言葉対の方向類似性に対応してよい。前述のように、方向類似性は、言葉対の第１の言葉ｔ_ｉが文書内に現れた場合に、言葉対の第２の言葉ｔ_jが文書セットの該文書内に現れる可能性である。方向類似性により、言葉対の順位を入れ替えることは、方向類似性の値を変更しうる。例えば、言葉対（ｔ_ｉ，ｔ_j）の方向類似性は、言葉対（ｔ_j，ｔ_ｉ）の方向類似性と必ずしも同一でない。

幾つかの実施形態では、行列のカウント値の約半分は、各セクションが処理された後に計算されてよい。何故なら、言葉識別子対は、第１の言葉識別子が第２の言葉識別子より低い順位を有する場合に（例えばｉ＜ｊ）、これらの対に対して処理されるだけだからである。従って、ＡＭ（ｉ，ｊ）のカウント値は、ｉ＞ｊの場合に、言葉識別子索引を処理した後にも計算されないままである。従って、オントロジー類似性行列は上三角行列であってよい。エントリのカウント値は対応する言葉対が文書セット内に一緒に現れる階数に対応するので、ＡＭ（ｉ，ｊ）の如何なる所与のカウント値も、ＡＭ（ｊ，ｉ）の最後のカウント値と等しい。従って、ｉ＜ｊのとき、ＡＭ（ｉ，ｊ）のカウント値は、行列ＡＭの残りのエントリのカウント値を得るためにＡＭ（ｊ，ｉ）内にコピーされてよい。一実施形態では、行列ＡＭの下三角部分は、上三角行列の転置から得られてよい。

［関連出願］
本出願は、Ｕ．Ｓ．Ｃ§１１９（ｅ）３５に基づき、米国仮出願番号６１／１５２,３７５、発明の名称「Efficient Computation of Automated Ontology Affinity Matrices」、代理人管理番号０７３３３８．０６７４、出願日２００９年２月１３日、発明者Stergios Stergiou他の権利を主張する。上記出願は参照することにより本願明細書に組み込まれる。

幾つかの実施形態では、方向類似性行列は、類似性行列ＡＭのカウント値を得ることにより、次に各エントリＡＭ（ｉ，ｊ）のカウント値をＤ（Ｔ_i）、つまり言葉識別子ｉを有する逆索引リストの文書識別子の数で除算することにより形成される。換言すると、第１の言葉と第２の言葉との間の類似性に対応するＡＭのエントリのカウント値は、第１の言葉が現れる文書セットの文書の数で除算される。カウント値毎にこの処理を実行し、結果をＡＭの適切なエントリに格納した後に、類似性行列のエントリは、それぞれｉに対応する言葉が文書内で見付かった場合に、ｊに対応する言葉が文書セットの該文書内で見付かる可能性と共に方向類似性を有するだろう。

一実施形態では、カウント値は方向類似性の結果により上書きされてよい。別の実施形態では、方向類似性の結果はカウント値とは別個に記録されてよい。結果は、如何なる適切な方法で格納されてもよい。オントロジー類似性行列は、言葉のエントリ、離接文書量、連結文書量、リスト内の文書の量等も有してよい。

他の実施形態では、行列のカウント値は異なる値で除算されてよい。例えば、基本類似性を有する行列は、基本類似性のために選択された定義に基づき、各エントリＡＭ（ｉ，ｊ）のカウント値をＤ（Ｔ_i＋Ｔ_j）、つまり言葉ｔ_ｉ若しくはｔ_jの何れかを有する文書の数又はＤ（Ｔ_i）とＤ（Ｔ_j）の大きい方で除算することにより得られてよい。基本類似性行列ＢＡＭが計算されるとき、BAM(i,j)=BAM(j,i)なので、半分（１つの三角領域）だけが計算されればよい。

本願明細書に開示されたシステム及び装置の構成要素は、インタフェース、ロジック、メモリ及び／又は他の適切な構成要素を有してよい。インタフェースは入力を受信し、出力を送信し、入力及び／又は出力を処理し及び／又は他の適切な動作を実行する。インタフェースはハードウェア及び／又はソフトウェアを有してよい。

ロジックは、構成要素の動作を実行し、例えば命令を実行して入力から出力を生成する。ロジックはハードウェア、ソフトウェア及び／又は他のロジックを有してよい。ロジックは、１又は複数の有形媒体内に符号化されてよく、コンピュータにより実行されたときに動作を実行してよい。プロセッサのような特定のロジックは、構成要素の動作を管理してよい。プロセッサの例には、１又は複数のコンピュータ、１又は複数のマイクロプロセッサ、１又は複数のアプリケーション及び／又は他のロジックがある。

メモリは情報を格納する。メモリは１又は複数の有形のコンピュータ可読媒な及び／又はコンピュータにより実行可能な記憶媒体を有してよい。メモリは、一時的又は非一時的なコンピュータ可読媒体を有してよい。メモリの例には、コンピュータ・メモリ（例えば、ランダム・アクセス・メモリ（ＲＡＭ）又は読み出し専用メモリ（ＲＯＭ）、大容量媒体（例えば、ハードディスク）、着脱可能記憶媒体（例えば、コンパクト・ディスク（ＣＤ）又はデジタル・ビデオ・ディスク（ＤＶＤ）、データベース及び／又はネットワーク記憶装置（例えば、サーバ）、及び／又は他のコンピュータ可読媒体））がある。

本発明の範囲から逸脱することなく記載された例であるシステム及び装置の変更、追加又は省略が行われてよい。システム及び装置の構成要素は統合されてよく又は分離されてよい。更に、システム及び装置の動作は更に多くの、更に少ない又は他の構成要素により実行されてよい。更に、類似性計算機３４の動作は、より多くの、より少ない又は１より多い構成要素により実行されてよい。更に、システム及び装置の動作は、ソフトウェア、ハードウェア及び／又は他のロジックを有する如何なる適切なロジックを用い実行されてよい。本願明細書で用いられるように、「各」の語はセットの各構成要素、又はセットの下位セットの各構成要素を表す。

本発明の範囲から逸脱することなく行列の例に対し変更、追加又は省略が行われてよい。行列は、より多くの、より少ない又は他の値を有して良い。更に、行列の値は如何なる適切な順序に配置されてもよい。

本発明の範囲から逸脱することなく本願明細書に開示された方法の変更、追加又は省略が行われてよい。方法は、より多くの、より少ない又は他の段階を有してよい。更に、段階は如何なる適切な方法で実行されてもよい。

本発明の特定の実施例は、１つ以上の技術的利点を提供し得る。実施形態の技術的利点は、言語の言葉間の類似性が定量値として表現できることであってよい。類似性は、言語のオントロジーとして機能する行列を生成するために用いられてよい。本発明の特定の実施例は、上述の技術的利点の何れも有さないか又はいくつか若しくは全てを有してよい。１つ以上の他の技術的利点は、本願明細書に含まれる図、説明、及び請求項から当業者に直ちに明らかであろう。

本開示は特定の実施例の観点から記載されたが、これら実施例の変更及び置換は当業者に明らかであろう。従って、実施例の上述の記載は、本開示を制限するものではない。他の変化、代替、及び変更も特許請求の範囲に定められたように本開示の精神及び範囲から逸脱することなく可能である。

以上の実施形態に関し、更に以下の付記を開示する。
（付記１）各逆索引リストは１つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの１又は複数の文書を示す１又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引にアクセスする段階；
各順序付けられた対は１つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成する段階；
各セクションは１つの文書に対応し、各セクションは該文書内に現れる１又は複数の言葉の１又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成する段階；
を有し、
前記言葉識別子索引を前記逆索引に従って生成する段階は、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成する段階、を有する、
ことを特徴とする方法。
（付記２）前記複数の順序付けられた対を編成する段階は：
第二に前記順序付けられた対の言葉識別子に基づき前記順序付けられた対を編成する段階；
を更に有する、
ことを特徴とする付記１記載の方法。
（付記３）前記言葉識別子索引を前記逆索引に従って生成する段階は：
順序付けられた対をデータ構造から順番に選択する段階；及び
該選択した順序付けられた対の言葉識別子を文書に対応する言葉識別子索引のセクションに置き、該文書に従って逆索引の言葉識別子を編成する段階；
を更に有する、
ことを特徴とする付記１記載の方法。
（付記４）前記言葉識別子索引を前記逆索引に従って生成する段階は：
選択した順序付けられた対をデータ構造から削除する段階；
該選択した順序付けられた対の言葉識別子に等しい言葉識別子を有する次の順序付けられた対を前記逆索引から生成する段階；及び
該次の順序付けられた対を前記データ構造に置く段階；
を更に有する、
ことを特徴とする付記１記載の方法。
（付記５）前記言葉識別子索引を前記逆索引に従って生成する段階は：
選択した順序付けられた対が、第１のセクション内に置かれた言葉識別子を有する前に選択した順序付けられた対の文書識別子に等しくない文書識別子を有すると決定する段階；及び
選択した順序付けられた対の言葉識別子を前記第１のセクションと異なる第２のセクション内に置く段階；
を更に有する、
ことを特徴とする付記１記載の方法。
（付記６）各エントリは１つのカウント値を有し、各該エントリは第１の言葉及び第２の言葉を有する言葉対の類似性に対応し、複数の該エントリを有するオントロジー類似性行列を初期化する段階；及び
選択した言葉対の言葉識別子を有する言葉識別子索引のセクション毎に、該選択した言葉対の類似性に対応するエントリのカウント値をインクリメントする段階；
を更に有する付記１記載の方法。
（付記７）各エントリは第１の言葉及び第２の言葉を有する言葉対の類似性に対応し、各該エントリは文書セットの文書内に該言葉対が一緒に現れる回数を示すカウント値を有し、複数の該エントリを有するオントロジー類似性行列を生成する段階；及び
前記第１の言葉が現れる文書の数、前記第２の言葉が現れる文書の数、前記第１の言葉が現れる文書の数と前記第２の言葉が現れる文書の数との和を有するグループの１つにより、該オントロジー類似性行列の各カウント値を除算する段階；
を更に有する付記１記載の方法。
（付記８）各エントリは第１の言葉及び第２の言葉を有する言葉対の方向類似性に対応し、該方向類似性は該第１の言葉が文書内に現れた場合に該第２の言葉が文書セットの該文書内に現れる可能性を有し、複数の該エントリを有するオントロジー類似性行列を生成する段階；
を更に有する付記１記載の方法。
（付記９）各逆索引リストは１つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの１又は複数の文書を示す１又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引を格納するメモリ；並びに
各順序付けられた対は１つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成し；
各セクションは１つの文書に対応し、各セクションは該文書内に現れる１又は複数の言葉の１又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成する；
ロジックを実行するプロセッサ；
を有し、
前記言葉識別子索引を前記逆索引に従って生成することは、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成することを有する、
ことを特徴とする装置。
（付記１０）前記複数の順序付けられた対を編成することは：
第二に前記順序付けられた対の言葉識別子に基づき前記順序付けられた対を編成すること；
を有する、
ことを特徴とする付記９記載の装置。
（付記１１）前記言葉識別子索引を前記逆索引に従って生成することは：
順序付けられた対をデータ構造から順番に選択すること；及び
該選択した順序付けられた対の言葉識別子を文書に対応する言葉識別子索引のセクションに置き、該文書に従って逆索引の言葉識別子を編成すること；
を有する、
ことを特徴とする付記９記載の装置。
（付記１２）前記言葉識別子索引を前記逆索引に従って生成することは：
選択した順序付けられた対をデータ構造から削除すること；
該選択した順序付けられた対の言葉識別子に等しい言葉識別子を有する次の順序付けられた対を前記逆索引から生成すること；及び
該次の順序付けられた対を前記データ構造に置くこと；
を有する、
ことを特徴とする付記９記載の装置。
（付記１３）前記言葉識別子索引を前記逆索引に従って生成することは：
選択した順序付けられた対が、第１のセクション内に置かれた言葉識別子を有する前に選択した順序付けられた対の文書識別子に等しくない文書識別子を有すると決定すること；及び
選択した順序付けられた対の言葉識別子を前記第１のセクションと異なる第２のセクション内に置くこと；
を更に有する、
ことを特徴とする付記９記載の装置。
（付記１４）前記プロセッサは更に：
各エントリは１つのカウント値を有し、各該エントリは第１の言葉及び第２の言葉を有する言葉対の類似性に対応し、複数の該エントリを有するオントロジー類似性行列を初期化し；及び
選択した言葉対の言葉識別子を有する言葉識別子索引のセクション毎に、該選択した言葉対の類似性に対応するエントリのカウント値をインクリメントする；
ことを特徴とする付記９記載の装置。
（付記１５）前記プロセッサは更に：
各エントリは第９の言葉及び第２の言葉を有する言葉対の類似性に対応し、各該エントリは文書セットの文書内に該言葉対が一緒に現れる回数を示すカウント値を有し、複数の該エントリを有するオントロジー類似性行列を生成し；及び
前記第１の言葉が現れる文書の数、前記第２の言葉が現れる文書の数、前記第１の言葉が現れる文書の数と前記第２の言葉が現れる文書の数との和を有するグループの１つにより、該オントロジー類似性行列の各カウント値を除算する；
ことを特徴とする付記９記載の装置。
（付記１６）前記プロセッサは更に：
各エントリは第１の言葉及び第２の言葉を有する言葉対の方向類似性に対応し、該方向類似性は該第１の言葉が文書内に現れた場合に該第２の言葉が文書セットの該文書内に現れる可能性を有し、複数の該エントリを有するオントロジー類似性行列を生成する；
ことを特徴とする付記９記載の装置。
（付記１７）コンピュータにより実行可能なコードを有する有体コンピュータ可読媒体であって、コンピュータにより実行されると、
各逆索引リストは１つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの１又は複数の文書を示す１又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引にアクセスし；
各順序付けられた対は１つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成する段階；
各セクションは１つの文書に対応し、各セクションは該文書内に現れる１又は複数の言葉の１又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成し；
前記言葉識別子索引を前記逆索引に従って生成することは、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成することを有する、
ことを特徴とする媒体。
（付記１８）前記複数の順序付けられた対を編成することは：
第二に前記順序付けられた対の言葉識別子に基づき前記順序付けられた対を編成すること；
を有する、
ことを特徴とする付記１７記載の媒体。
（付記１９）前記言葉識別子索引を前記逆索引に従って生成することは：
順序付けられた対をデータ構造から順番に選択すること；及び
該選択した順序付けられた対の言葉識別子を文書に対応する言葉識別子索引のセクションに置き、該文書に従って逆索引の言葉識別子を編成すること；
を有する、
ことを特徴とする付記１７記載の媒体。
（付記２０）前記言葉識別子索引を前記逆索引に従って生成することは：
選択した順序付けられた対をデータ構造から削除すること；
該選択した順序付けられた対の言葉識別子に等しい言葉識別子を有する次の順序付けられた対を前記逆索引から生成すること；及び
該次の順序付けられた対を前記データ構造に置くこと；
を有する、
ことを特徴とする付記１７記載の媒体。
（付記２１）前記言葉識別子索引を前記逆索引に従って生成することは：
選択した順序付けられた対が、第１のセクション内に置かれた言葉識別子を有する前に選択した順序付けられた対の文書識別子に等しくない文書識別子を有すると決定する段階；及び
選択した順序付けられた対の言葉識別子を前記第１のセクションと異なる第２のセクション内に置くこと；
を更に有する、
ことを特徴とする付記１７記載の媒体。
（付記２２）各エントリは１つのカウント値を有し、各該エントリは第１の言葉及び第２の言葉を有する言葉対の類似性に対応し、複数の該エントリを有するオントロジー類似性行列を初期化し；及び
選択した言葉対の言葉識別子を有する言葉識別子索引のセクション毎に、該選択した言葉対の類似性に対応するエントリのカウント値をインクリメントする；
ことを特徴とする付記１７記載の媒体。
（付記２３）各エントリは第１７の言葉及び第２の言葉を有する言葉対の類似性に対応し、各該エントリは文書セットの文書内に該言葉対が一緒に現れる回数を示すカウント値を有し、複数の該エントリを有するオントロジー類似性行列を生成し；及び
前記第１の言葉が現れる文書の数、前記第２の言葉が現れる文書の数、前記第１の言葉が現れる文書の数と前記第２の言葉が現れる文書の数との和を有するグループの１つにより、該オントロジー類似性行列の各カウント値を除算する；
ことを特徴とする付記１７記載の媒体。
（付記２４）各エントリは第１の言葉及び第２の言葉を有する言葉対の方向類似性に対応し、該方向類似性は該第１の言葉が文書内に現れた場合に該第２の言葉が文書セットの該文書内に現れる可能性を有し、複数の該エントリを有するオントロジー類似性行列を生成する；
ことを特徴とする付記１７記載の媒体。

２０クライアント
２２サーバ
２６決定グラフ・エンジン
３４類似性計算機
２４メモリ
５０文書
５４記録
５８索引
６２逆索引
６６オントロジー
７０類似性行列
７４類似性グラフ

Claims

各逆索引リストは１つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの１又は複数の文書を示す１又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引にアクセスする段階；
各順序付けられた対は１つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成する段階；
各セクションは１つの文書に対応し、各セクションは該文書内に現れる１又は複数の言葉の１又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成する段階；
を有し、
前記言葉識別子索引を前記逆索引に従って生成する段階は、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成する段階、を有する、
ことを特徴とする方法。
前記複数の順序付けられた対を編成する段階は：
第二に前記順序付けられた対の言葉識別子に基づき前記順序付けられた対を編成する段階；
を更に有する、
ことを特徴とする請求項１記載の方法。
前記言葉識別子索引を前記逆索引に従って生成する段階は：
順序付けられた対をデータ構造から順番に選択する段階；及び
該選択した順序付けられた対の言葉識別子を文書に対応する言葉識別子索引のセクションに置き、該文書に従って逆索引の言葉識別子を編成する段階；
を更に有する、
ことを特徴とする請求項１記載の方法。
前記言葉識別子索引を前記逆索引に従って生成する段階は：
選択した順序付けられた対をデータ構造から削除する段階；
該選択した順序付けられた対の言葉識別子に等しい言葉識別子を有する次の順序付けられた対を前記逆索引から生成する段階；及び
該次の順序付けられた対を前記データ構造に置く段階；
を更に有する、
ことを特徴とする請求項１記載の方法。
前記言葉識別子索引を前記逆索引に従って生成する段階は：
選択した順序付けられた対が、第１のセクション内に置かれた言葉識別子を有する前に選択した順序付けられた対の文書識別子に等しくない文書識別子を有すると決定する段階；及び
選択した順序付けられた対の言葉識別子を前記第１のセクションと異なる第２のセクション内に置く段階；
を更に有する、
ことを特徴とする請求項１記載の方法。
各逆索引リストは１つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの１又は複数の文書を示す１又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引を格納するメモリ；並びに
各順序付けられた対は１つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成し；
各セクションは１つの文書に対応し、各セクションは該文書内に現れる１又は複数の言葉の１又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成する；
ロジックを実行するプロセッサ；
を有し、
前記言葉識別子索引を前記逆索引に従って生成することは、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成することを有する、
ことを特徴とする装置。
コンピュータにより実行可能なコードを有する有体コンピュータ可読媒体であって、コンピュータにより実行されると、
各逆索引リストは１つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの１又は複数の文書を示す１又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引にアクセスし；
各順序付けられた対は１つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成する段階；
各セクションは１つの文書に対応し、各セクションは該文書内に現れる１又は複数の言葉の１又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成し；
前記言葉識別子索引を前記逆索引に従って生成することは、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成することを有する、
ことを特徴とする媒体。