JP2010191962A - オントロジーの類似性行列の効率的な計算 - Google Patents

オントロジーの類似性行列の効率的な計算 Download PDF

Info

Publication number
JP2010191962A
JP2010191962A JP2010030410A JP2010030410A JP2010191962A JP 2010191962 A JP2010191962 A JP 2010191962A JP 2010030410 A JP2010030410 A JP 2010030410A JP 2010030410 A JP2010030410 A JP 2010030410A JP 2010191962 A JP2010191962 A JP 2010191962A
Authority
JP
Japan
Prior art keywords
word
document
index
identifier
ordered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010030410A
Other languages
English (en)
Other versions
JP5440235B2 (ja
Inventor
Stergios Stergiou
ステルギオウ ステリオス
Yannis Labrou
ラブロウ ヤニス
Jawahar Jain
ジャイン ジャワハー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2010191962A publication Critical patent/JP2010191962A/ja
Application granted granted Critical
Publication of JP5440235B2 publication Critical patent/JP5440235B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 本発明は、オントロジーの類似性行列の効率的な計算を提供する。
【解決手段】 一実施形態では、オントロジーを生成する段階は、複数の逆索引リストを有する逆索引にアクセスする段階を有する。逆索引リストは言語の言葉に対応してよい。各逆索引リストは、言葉の言葉識別子及び言葉が現れる文書セットの1又は複数の文書を示す1又は複数の文書識別子を有してよい。実施形態は、逆索引に従って言葉識別子索引を生成する段階も有する。言葉識別子索引は、複数のセクションを有し、各セクションは1つの文書に対応する。各セクションは、文書内に現れる1又は複数の言葉の1又は複数の言葉識別子を有してよい。
【選択図】 図1

Description

本発明は概して語彙分析に関し、より詳細にはオントロジーの類似性行列の効率的な計算に関する。
文書セット内のデータは大量の情報を保持しており、必要な情報を発見するのが困難である。キーワード検索は情報発見のための主要な技術である。しかしながら、ある状況では、キーワード検索は情報を発見する際に効率的でない。
本発明は、オントロジーの類似性行列の効率的な計算を提供する。
一実施形態では、オントロジーを生成する段階は、言語の言葉の逆索引リストを有する逆索引にアクセスする段階を有する。言葉に対応する逆索引リストは、文書セットのうちのどの文書が言葉を有するかを示す。オントロジーの類似性行列は逆索引に従って生成される。オントロジーの類似性行列は、言葉の対の類似性を有する複数のエントリを有する。
特定の実施形態では、ドメイン・オントロジーを生成し問い合わせる段階は以下を含む。
1.ドメイン内文書の収集
特定の実施形態では、文書は言葉の集合である。従って、文書は多くの形式をとってよく、他の文書を有するサブセットを有してもよい。例えば、百科事典セット、百科事典セットの「A」巻、その「A」巻の中の「Aardvark」に関する記事及びその記事の中のある段落は全て、この用途において言葉が用いられているので、文書である。文書は読める文字を有し、例えば「Aardvark」に関する記事である。文書は物語形式の文字を有する必要はない。文書は、個々に集合的に心象の内容を記述するユーザにより入力された一式の文法標識を有してよい。文書の集合は文書セットとして参照される。従って、百科事典のセットは、文書セット及び/又は文書と見なされてよい。
2.領域内の関心のある言葉(「辞書の言葉」)の識別
一実施形態では、「言葉」は「辞書の言葉」と置き換え可能であってよい。
言葉の例として、単語(例えば「tree(木)」)、句(例えば「graph algorithm(グラフの理論)」)、名詞(例えば「New York(ニュー・ヨーク)」)等がある。言葉(又は概念)は異なる形式を有してよい。ある場合には、異なる単語が同一の概念に用いられる。例えば「kidney stones(腎臓結石)」と「kidney calculi(腎結石)」は同一の概念である「kidney stones(腎臓結石)」を表す。別の場合には、語幹は多くの変異形を有する。例えば、語幹「tree(木)」は「tree(木)」と「trees(木々)」を有する。ある実施例では、同一の言葉の形式は同一の言葉にマップされるとして扱われてよい。他の実施形態では、同じ言葉の形式が別個の言葉として取り扱われてよい。辞書の言葉の適切な形式は文書内に現れてもよいが、特定の辞書の言葉は如何なる文書にも現れなくてもよい。
辞書の言葉を識別する方法の例は、人間により作成された特定領域の辞書、例えば医学辞典を用いる段階を有する。特定の実施形態では、辞書の言葉のリストは文書セット内の一式の文字列から自動的に生成される。文字列は頻度により索引付けされソートされ、閾値より高い頻度の文字列が選択されてよい。他の適切な統計的方法は、言葉を定めるために用いられてよい。
3.所与の共起文脈内の辞書の単語の共起数の計算
2つの言葉が同一の共起文脈、例えば文書内でそれぞれ少なくとも1回現れた場合、当該2つの言葉は同時に起こる。
4.領域オントロジーを有する方向重み付けグラフの作成
方向重み付けグラフは、辞書の言葉をノードとして及び類似性を端の重みとして有する。「方向重み付けグラフ」は、如何なる適切なデータ構造、例えば行列、二分決定グラフ又は二分決定グラフの集合によっても表現される同一情報の実際の表現として用いられてよい。
5.方向重み付けグラフの問い合わせ手順の適用
1又は複数の辞書の言葉が入力として与えられると、当該手順は当該入力された辞書の言葉と関連した1又は複数の辞書の言葉を出力する。例えば、当該手順は、1又は複数の入力された言葉に対し最も大きな差異がある方向類似性を持つ「1又は複数の」ソートされたリストを出力してよい。この場合、出力は、オントロジーが解決する領域と関連して、入力された言葉に一層緊密に関連した言葉を含む。
如何なる適切な類似性の定義が用いられてもよい。類似性の種類の幾つかの例は、以下に説明される。
言語の単語間の類似性から言語のオントロジーを生成するシステムの一実施形態を示す。 基本類似性を記録する類似性行列の例を示す。 方向類似性を記録する類似性行列の例を示す。 平均類似性を記録する類似性行列の例を示す。 図1のシステムにより実行されうる、言語のオントロジーを生成する方法の一実施形態を示す。 逆索引の例を示す。 図6の逆索引から形成されうるデータ構造及び言葉の識別子の索引の例を示す。
図1は、言語の言葉間の類似性から言語のオントロジーを生成するシステム10の一実施形態を示す。言語のオントロジーは、言語の言葉及び言葉の間の関係を表す。言葉の間の類似性は、言葉の間の関係を記述する。一実施形態では、システム10は類似性を定量値として計算する。これらの値は、類似性行列及び言語のオントロジーとして機能するグラフを生成するために用いられてよい。
図示された実施例では、システム10はクライアント20、サーバ22及びメモリ24を有する。クライアント20は、ユーザがサーバと通信し、言語のオントロジーを生成することを可能にする。クライアント20は、ユーザ入力をサーバ22へ送信し、サーバ出力(例えば、表示又は印刷)をユーザへ提供してよい。サーバ・システム22は、言語のオントロジーを生成するアプリケーションを管理する。メモリ24は、サーバ・システム22により用いられるデータを格納する。
メモリ24は、ページ50及び記録54を格納する。文書50は言葉及び/又は画像の集合を参照してよい。言葉は、1又は複数の特定の意味を有する1又は複数のキャラクタ(例えば、文字、数字、空白又は句読点)を有してよい。言葉の例は、「San Francisco(サンフランシスコ)」、「plants(植物)」、「non-stop(直行の)」及び「Nine(9)」を有する。画像を有する文書は、タグ又は該画像に関連付けられた他のメタデータを用いて分析されてよい。
文書50の例には、文書の1又は複数の単語、1又は複数の段落、1又は複数のページ、1又は複数の章、1又は複数の節、1又は複数の従来の文書、1又は複数の書籍、1又は複数のウェブ・ページ、1又は複数の書簡(例えば、電子メール又はインスタント・メッセージ)及び/又は他の言葉の集合がある。つまり、文書は単語、段落、章、画像、ページ、従来の文書、節、ページ・セクション、書籍、ウェブ・ページ、電子メール、メッセージ、ウェブログ等であってよい。文書50は、文書識別子により識別されてよい。ある実施形態では複数の文書50は文書セットに属してよい。文書セットは、特定の主題、コミュニティ、組織又は他のエンティティと関連付けられてよい。
記録54は、文書50を記述する。ある実施形態では、記録54は、索引58、逆索引62及びオントロジー66を有する。索引58は、文書50内で見付かった言葉を示す、文書50の索引リストを有する。逆索引62は、逆索引リストを有する。言葉の逆索引リストは、単語を含む文書50を示す。ある例では、リストTiは言葉tを含む文書50の文書識別子を含む。リストTi&Tjは言葉t及びtjの両方を含む連結文書50の文書識別子を有してよい。リストTi&Tjは言葉t又はtjの何れかを含む離接文書50の文書識別子を有してよい。D(Ti)は、Tiの文書50の数、つまり言葉tを含む文書50の数である。
ある実施形態では、リスト(例えば、索引リスト又は逆索引リスト)は二分決定グラフ(BDD)として格納されてよい。ある例では、セットTiの二分決定グラフBDD(Ti)は、言葉tを有する文書50を表す。
サーバ22は、決定グラフ・エンジン26を有する。ある実施形態では、決定グラフ・エンジン26は、リスト(例えば、索引リスト及び/又は逆索引リスト)をBDDとして格納する。
ある実施形態では、リストは圧縮され二分決定グラフ(BDD)として格納されてよい。リストは、如何なる適切な方法で圧縮されてもよい。決定グラフ・エンジン26は、如何なる適切な方法で、索引をBDDとして格納してよい。ある実施形態では、索引リストはブール関数により表され、そしてブール関数はBDDにより表される。リストは、如何なる適切な方法でブール関数として表されてもよい。
決定グラフ・エンジン26は、如何なる適切な方法で、ブール関数をBDにより表してもよい。図1に戻ると、決定グラフ・エンジン26は如何なる適切なBDDを用いてリストを格納してもよい。BDDの例には、既約順序付BDD(ROBDD)、分割BDD(POBDD)、ゼロサプレス型決定グラフ(ZDD)、ナノ二分決定グラフ(nanoDD)、ゼロサプレス・ナノ二分決定グラフ(nanoZDD)、他の適切な二分決定グラフ及び/又はこれらの如何なる組み合わせも含まれる。
特定の実施形態では、決定グラフ・エンジン26は、グラフが大きくなると、決定グラフを格納するために決定グラフを小型化し適切にテーブルのサイズを変更する(そして節点あたりにより多くのビットを割り当てる)。特定の実施形態では、決定グラフ・エンジン26は、決定グラフを小型決定グラフとして構築し始める。サイズを変更する代わりに、決定グラフ・エンジン26は、グラフの構造に分解/組立を直接適用し、小型決定グラフを縮小されていないグラフに直接変換する。
特定の実施形態では、小型決定グラフは、並列プラットフォーム間の通信を実現する。ある例では、第1のプラットフォームは第2のプラットフォームと並列に動作する。第1のプラットフォームは、決定グラフを生成し、第2のプラットフォームへ通信するために該決定グラフを小型化し、該小型決定グラフを第2のプラットフォームへ通信してよい。第2のプラットフォームは、第2のプラットフォームで処理するために小型決定グラフから決定グラフを再構成してよい。
サーバ22は、類似性計算機34を有する。類似性計算機34は、言葉tの又は第1の言葉t及び第2の言葉tjを有する言葉の対の適切な種類の類似性を計算する。類似性の例には、基本、方向、平均、差分及び/又は他の類似性がある。類似性計算機34は、類似性行列70又は類似性グラフ74のような言語のオントロジー66を生成してもよい。オントロジーは、基本、方向、平均、差分及び/又は他の類似性のような如何なる適切な類似性から生成されてもよい。オントロジー66は、如何なる適切な方法で言語から選択された言葉から生成されてもよい。例えば、言語の一般的に用いられる部分からの言葉又は1又は複数の特定の主題の分野に関連する言葉が選択されてよい。類似性行列計算機34は、言葉間の類似性を記録する類似性行列70を生成してよい。
図2は、基本類似性を記録する類似性行列110の例を示す。基本類似性は、言葉t及びtjを含む文書50の量(例えば、数)から計算されてよい。連結文書量は言葉t及び言葉tjの両方を含む文書50の量を表す。また、離接文書量は言葉t又は言葉tjの一方を含む文書50の量を表す。基本類似性は、離接文書量により除算された連結文書量により与えられてよい。ある例では、連結文書数は言葉t及び言葉tjを含む文書の数を有する。また、離接文書数は言葉ti又は言葉tjの一方を含む文書の数を有する。基本類似性は、離接文書数により除算された連結文書数により与えられてよい。
Affinity(t,tj)=D(Ti&Tj)/D(Ti+Tj)
別の実施形態では、基本類似性は、言葉tを含む文書の量又は言葉tjを含む文書の量の最大値に対する言葉t及び言葉tjの両方を含む文書の量として定められてよい。例えば:
Affinity(t,tj)=D(Ti&Tj)/max(D(Ti),D(Tj))
図2の図示された例では、類似性行列110は言葉t1...t5の対の基本類似性を記録する。類似性行列110によると、基本類似性は、言葉t0とt1の間では0.003であり、言葉t0とt2の間では0.005であり、以下同様である。
図3は、言葉t0...t5の方向類似性を記録する類似性行列120の例を示す。言葉tとtjとの間の方向類似性DAは、tが現れた場合にtjが現れる条件付き確率として定義されてよい。言葉tとtjとの間の方向類似性は、言葉の対tとtjとの方向類似性又はtからtjへの方向類似性としても表されてよい。
方向類似性は、言葉tに関する言葉tjの重要性を測定するために用いられてよい。類似性計算機34は、言葉t及びtjを含む文書50の量(例えば、数)から、言葉の対t及びtjの方向類似性を計算する。D(Ti)はtを含む文書50の量を表す。言葉の対t及びtjの方向類似性は、連結文書量D(Ti&Tj)により求められる。
DAffinity(t,tj)=D(Ti&Tj)/D(Ti)
DAffinity(t,tj)はD(Ti)=D(Tj)でない限りDAffinity(tj,t)と等価ではない。言葉tからtjへの方向類似性DAffinity(t,tj)が高いことは、文書50が言葉tを含む場合に文書50が言葉tjを含む可能性が高いことを示す。ある例では、文書[123456]は言葉tを含み、文書[42]は言葉tjを含む。この例の言葉tjを含む文書は言葉tも含む。従って言葉tjの観点からは、言葉tは重要性が高い。言葉tを含む文書の3分の1のみが言葉tjも含む。従って言葉tの観点からは、言葉tjは重要性が比較的低い。
図3の例では、言葉124はAの言葉であり、言葉128はBの言葉である。行列120の行はAの言葉が与えられた場合のB言葉の類似性を記録し、行列120の列はBの言葉が与えられた場合のAの言葉の類似性を記録する。
図4は、平均類似性を記録する類似性行列140の例を示す。言葉tの平均類似性は、他の言葉tjに関して計算されてよい。ある実施形態では、平均方向類似性は言葉tと他の各言葉tjとの間の類似性の平均であってよい。別の実施形態では、平均類似性は、tからtjへの方向類似性から決定されてよい。N個の言葉のうちの言葉tの平均方向類似性は次式で与えられる。
Figure 2010191962
つまり、平均類似性は、言葉tの、共起文脈内の他の言葉に対する方向類似性の平均であってよい。行列140の行142は言葉1乃至言葉50000の基本類似性を記録する。行144は言葉1乃至言葉50000の平均類似性を記録する。ある実施形態では、平均類似性(又は平均方向類似性)は、方向類似性から計算されてよい。ある実施形態では、平均類似性AAベクトルは、特定方向類似性DAから計算されてよい。ある実施例では、DAは行方向に格納されてよい。従って、AA内のエントリに対して並列に計算が進められてよい。特に、AAは、ディスクから読み出されるときにDAの行を加算し、最後に辞書の言葉のエントリの数により正規化することにより生成されてよい。
言葉tとtjとの間の差分類似性又は差分方向類似性(DiffDAff)は、言葉tとtjとの間の方向類似性から文書セット内の言葉tjの共通性を示す要素を差し引いたものとして定められてよい。文書セット内の言葉tjの共通性は、言葉tjの基本類似性又は文書セット内の他の言葉に対する方向類似性の値に対する統計値であってよい。特定の実施形態では、文書セット内の言葉tjの共通性は、言葉tjの平均類似性(AA)であってよく、差分方向類似性の次の定義に従う。
DiffAff(t,tj)=DAffinity(t,tj)-AveAff(tj)
差分類似性は、文書50内に生じる、言葉tjの一般的傾向により引き起こされる偏向を除去する。特定の条件では、差分類似性は、文書が言葉tjを含む場合に、該文書が言葉tを含む確率のより高い精度を提供しうる。
差分類似性は種々の用途で用いられてよい。ある例では、人の名前の間の差分類似性は社会的ネットワークを調査するために用いられてよい。別の例では、言語要素の間の差分類似性は自然言語処理を調査するために用いられてよい。別の例では、製品の間の差分類似性はマーケティングを調査するために用いられてよい。
上述のように、言葉間の種々の類似性が存在する。例である実施形態は、言葉間の1又は複数の種類の類似性を記録する類似性行列を生成してよい。ある実施形態では、言語の言葉はオントロジーのために選択される。言葉は、如何なる適切な方法で選択されてもよい。例えば、特定の主題に関連して共通に用いられる1又は複数の言葉が選択されてよい。再び図1を参照すると、類似性計算機34は選択された言葉の記録54にアクセスする。類似性計算機34は、逆索引62にアクセスし、選択された言葉を有する文書のリストを検索してよい。逆索引62は、BDDとして又は如何なる他の適切な形式で表現されてよい。類似性計算機34は、選択された言葉の言葉対の類似性を計算し、それらをオントロジー類似性行列に格納する。如何なる適切な類似性が計算されてもよい。例えば基本、方向、平均、差分及び/又は他の類似性が計算されてもよい。オントロジー類似性行列は、言語のオントロジーを表現するために用いられてよい。
類似性計算機34は、逆索引リストを検索し類似性を計算するために如何なる適切な技術を用いてもよい。ある実施形態では、類似性計算機は、言葉のセット(例えば辞書)から得られた逆索引に働くアルゴリズムを用い、辞書の言葉の類似性の行列を計算してよい。比較的大きい文書セットでは、類似性行列計算の実行時間は、極めて長くなりうる。本願明細書の幾つかの実施形態は、従来の手法と比べて実行時間を有意に向上させる。
図5は、逆索引から類似性行列を生成する方法の一実施形態を示す。一実施形態は、逆索引にアクセスする段階、逆索引に従って言葉の識別子の索引を生成する段階、及びオントロジー類似性行列を生成する段階、を有する。
方法は段階210で開始する。段階210で、逆索引がアクセスされる。例えば、類似性計算機34又はサーバ22の他の要素は、逆索引62が格納されているメモリ24にアクセスしてよい。逆索引は、文書セット内のどこで言葉が見付かるかを示し、複数の逆索引を比較してよい。各逆索引リストは、言語の言葉に対応し、該言葉の言葉識別子を有する。
言葉識別子は言葉を識別する。概して、識別子は、数字、文字、単語、記号、信号、他の適切な表現又はこれらの組み合わせのような如何なる適切な表現であってもよく、電子媒体内に格納されてもよい。例として、逆索引が、各行が逆索引リストを有する行列内に格納されている場合、言葉の言葉識別子は、対応する単語の逆索引を有する行列の表の番号であってよい。一実施形態では、言葉識別子は、電子媒体内に格納されてもよい。
逆索引リストは、文書識別子のセットを有してもよい。各文書識別子は、逆索引リストに対応する言葉が現れる文書セット内の文書を表す。例えば、文書セットが書籍であり該書籍のページが文書である場合、文書識別子は、対象の言葉を有するページの番号であってよい。
文書識別子は、如何なる適切な方法で順序付けられてもよい。また、該順序は、最も低い順位から最も高い順位へ向かう順序付けられたセットとして表されてよい。例えば、文書識別子1、2、3及び4により表された文書は(1、2、3、4)、(4、3、2、1)、(2、4、3、1)又は他の適切な順序で順序付けられてよい。同様に、言葉識別子は、如何なる適切な方法で順序付けられてもよい。逆索引の例は、図6を参照して更に詳細に記載される。
図6は例である逆索引310を示す。逆索引310は、それぞれ言語の言葉に対応する4個の逆索引リスト314を有する。各逆索引リストは、言葉に対応する言葉識別子を有する。例えば、言葉識別子a、b、c及びdは、それぞれ言葉apple、boy、cat及びdogに対応してよい。各逆索引リストは、どの文書内に対応する言葉が現れるかを示す1又は複数の文書識別子も有する。例えば、逆索引リストのうちの1つは言葉識別子d及びdogが現れる文書の文書識別子2、4及び5を有する。
ある実施形態では、言葉識別子は、逆索引に従って生成されてよい。言葉識別子索引はセクションで構成され、各セクションは文書セットのうちの異なる文書に対応する。言葉識別子索引の各セクションは、セクションに対応する文書内で見付かった言葉の言葉識別子を有してよい。 ある実施形態では、言葉識別子索引は次のように生成されてよい。
再び図5を参照する。段階214−242は、複数の順序付けられた対を編成する段階、及び逆索引に従って言葉識別子索引を生成する段階に対応する。これらの段階は図7を参照して説明される。図7は、例であるデータ構造の内容及び図6の逆索引310から生成された例である言葉識別子索引を示す。
段階214で、順序付けられた対のセットは逆索引から生成される。順序付けられた対は、言葉識別子及び文書識別子を有する。一実施形態では、順序付けられた対は各逆索引リストから生成される。各順序付けられた対は、逆索引リストの言葉識別子及び逆索引リストのうちの最も低く順位付けられた文書識別子を有してよい。
順序付けられた対は、各順序付けられた対の文書識別子の順序付けに基づき編成されてよい。同一の文書識別子を有する順序付けられた対は、各順序付けられた対の言葉識別子の順序付けに基づき更に編成されてよい。従って、順序付けられた対の文書識別子が順序付けられた対のグループのうちの最も低く順序付けられた文書識別子であり、順序付けられた対の言葉識別子が同一の文書識別子を有するグループの順序付けられた対のうちの最も低く順序付けられた言葉識別子である場合、順序付けられた対は、順序付けられた対のグループのうちの最も低く順序付けられた対と考えられてよい。
例えば、順序付けられた対の最初のセットは図6の逆索引から生成されてよい。この最初のセットは、各逆索引リストからの順序付けられた対318を有する。順序付けられた対は、第一に文書識別子に基づき、第二に言葉識別子に基づき順序付けられてよい。この例の目的のため、順序付けられた対は(文書識別子、言葉識別子)のように表される。最初に順序付けられた対は、言葉識別子及び各逆索引リストの最も低く順位付けられた文書識別子を有する。従って、順序付けられた対の最初のセットは(1、A)、(4、B)、(1、C)及び(2、D)である。本例は、文書識別子の大きさが増大するにつれ文書識別子の順位が増大し、言葉識別子の順位が標準的な英語のアルファベットの連続する文字毎に増大する順序付け方式を想定する。
段階218で、データ構造が生成され、各逆索引リストから生成された順序付けられた対のセットで初期化される。データ構造は、複数の順序付けられた対を格納することができる。幾つかの実施形態では、データ構造は、データ構造の最も低く順序付けられた対を最も早く削除させるよう編成される。例えば、データ構造はヒープを有してよい。一実施形態では、ヒープの各ツリー節点の値は、該ツリー節点の子節点の値より低いか等しい。従って、最も低く順序付けられた対はヒープの頂点から出ているので、容易にアクセス可能である。一実施形態では、ヒープは各逆索引リスト毎に最大1個の節点を有する。図7は、逆索引310から生成された順序付けられた対の最初のセットを有するデータ構造を示す。
段階222で、言葉識別子索引が生成される。言葉識別子索引は、文書に対応する複数のセクション内で編成された言葉識別子を有してよい。例えば、言葉識別子索引のセクションは、セクションに対応する文書内で見付かった言葉の言葉識別子のリストを有してよい。幾つかの実施形態では、言葉識別子のリストは順序付けられたリストであってよい。 ある実施形態では、言葉識別子索引はベクトルを有してよい。言葉識別子は、データ構造から順序付けられた対を削除することにより及び削除した順序付けられた対を言葉識別子索引の目的のセクションに置くことにより、言葉識別子に追加されてよい。目的のセクションは、言葉識別子が置かれる、言葉識別子索引のセクションである。
段階226で、データ構造は、少なくとも1つの順序付けられた対を有するか否かを決定するために調べられる。有しない場合、言葉識別子索引は完了したと考えられ、方法は段階246へ進む。データ構造が空でない場合、段階230で最も低く順序付けられた対はデータ構造から削除される。一実施形態では、最も低く順序付けられた対はデータ構造から「出ている」(つまりデータ構造の頂点から取れる)。
図7を参照する。段階226の第1の反復中、データ構造は空でなく、従って最も低い順位の対(1、A)が削除される。第2の反復中、(1、C)が削除される。第3の反復中、(2、D)が削除され、以下データ構造が如何なる順序付けられた対も有さなくなるまで続けられる。
段階234で、削除された順序付けられた対の文書識別子は、データ構造から最も最近に削除された順序付けられた対の文書識別子と比較される。これらの文書識別子が異なる場合、言葉識別子索引の目的のセクションが変更される。例えば、目的のセクションは、順序付けられた対の言葉識別子が置かれている言葉識別子索引の第1のセクションであってよい。削除された順序付けられた対の文書識別子が前に削除された順序付けられた対の文書識別子と異なる場合、削除された順序付けられた対の言葉識別子索引は第2のセクション内に置かれる。第2のセクションは、第1のセクションから区別されてよい。例えば、第1のセクションはメモリ内の場所を有してよく、第2のセクションはメモリ内の重複しない場所を有してよい。目的のセクションの変更は、如何なる適切な方法で示されてもよい。例えば、区切り文字が言葉識別子索引内に置かれ、セクションの終わりにマークを付けてもよい。
図7を参照する。段階234の最初の反復では、削除された順序付けられた対(1、A)の文書識別子は、前に削除された順序付けられた対の文書識別子に対して調べることができない。従って、言葉識別子索引の目的のセクションは、言葉識別子索引の第1のセクションに設定されたままである。第2の反復では、データ構造から順序付けられた対を削除した後、前に削除された順序付けられた対の文書識別子は1のままであるので、目的のセクションは同一のままである。第3の反復では、異なる文書識別子を有する順序付けられた対(2、D)を削除した後、言葉識別子索引の目的のセクションは、第2のセクションに変更される。反復は、段階234の最後の反復まで同様に続く。
段階238で、削除された順序付けられた対の言葉識別子は、言葉識別子索引の目的のセクションに置かれる。一実施形態では、言葉識別子は、セクション内の順位を保存する方法で目的のセクション内に置かれてよい。 図7を参照する。段階238の最初の反復では、削除された対(1、A)の言葉識別子Aは、言葉識別子索引の第1のセクションに置かれる。第2の反復では、Cは言葉識別子索引の第1のセクション内に置かれる。第3の反復では、Dは言葉識別子索引の第2のセクション内に置かれる。以下同様である。
段階242で、言葉識別子索引内に最近置かれた言葉識別子索引の逆索引リストは、データ構造内に置かれた順序付けられた次いで用いられていない文書識別子を有するか否かを決定するために調べられる。逆索引リスト内に少なくとも1つの未使用文書識別子がある場合、言葉識別子及び逆索引リストの最も低く順序付けられた未使用文書識別子を有する次の順序付けられた対が生成される。この次の順序付けられた対は、データ構造内に置かれる。一実施形態では、該対はデータ構造に「プッシュ」される。逆索引リスト内に如何なる未使用文書識別子もない場合、如何なる次の順序付けられた対もデータ構造内に置かれない。
図7を参照する。第1の反復では、言葉識別子Aを有する逆索引リストは、未使用文書識別子を有するか否かを調べられる。本例では、1が使用されているが3は使用されていない。3はこの逆索引リストの中で最も低く順序付けられた未使用文書識別子なので、言葉識別子4と共に新たに順序付けられた対の中に含まれる。この新たに生成された対(3、A)は、データ構造内に置かれる。反復2及び3では、順序付けられた対(3、C)及び(4、D)は、それぞれ生成されデータ構造内に置かれる。反復4では、言葉識別子Aに対応する逆索引リストは、如何なる未使用文書識別子も有さない。従って、如何なる新たな順序付けられた対も、この反復中にデータ構造内に置かれない。反復は、段階242の最後の反復まで同様に続く。
一実施形態では、上述の段階の反復は、言葉識別子索引の生成が完了するまで続いてよい。図7に示されるように、結果として生じる言葉識別子索引は、第1のセクション内にA及びCを有し、第2のセクション内にDを有し、第3のセクション内にA及びCを有し、第4のセクション内にB、C及びDを有し、第5のセクション内にC及びDを有する。
一実施形態では、データ構造が空の場合、段階246−258で言葉識別子索引はオントロジー類似性行列(AM)を生成するために用いられてよい。一実施形態では、言葉識別子索引の各セクションは、全てのセクションが生成された後ではなく、該セクションが生成された後に処理されてよい。従って、段階246−258のうちの幾つか又は全ては、データ構造が未だからでなくても実行されてよい。
オントロジー類似性行列は、言葉対の類似性(つまり、言葉対の第1の言葉と第2の言葉との間の類似性)に対応する複数のエントリを有してよい。類似性行列のエントリは、AM(i,j)として表されてよい。ここで、iは第1の言葉の言葉識別子であり、jは第2の言葉の言葉識別子である。オントロジー類似性行列の各エントリは、言葉対が文書内で一緒に見付かる度にインクリメントされるカウント値を有してよい。
段階246で、行列が生成され、各エントリのカウント値はゼロに初期化される。段階250で、言葉対の類似性に対応するエントリのカウント値は、言葉対が文書内で一緒に見付かる度にインクリメントされる。一実施形態では、言葉識別子索引のセクションは、言葉識別子の対(i,j)を決定するためにアクセスされてよい。上述のように、言葉識別子索引のセクションは文書セット内の文書に対応し、言葉識別子索引のセクション内の言葉識別子は個々の文書内で見付かった言葉に対応する。各セクションの言葉識別子の対毎に、AM(i,j)のカウント値はインクリメントされる。カウント値は、2つの言葉間の類似性を計算するために用いられてよい。
一実施形態では、言葉識別子索引のセクションの言葉識別子は、順番に編成される。セクションの最も低く順序付けられた言葉は、第1の言葉識別子iとして選択される。第1の言葉識別子より高い順位を有するセクションの言葉識別子を有する言葉識別子のセットが識別される。このセットの各言葉識別子は、jとして表されてよい。第1の言葉識別子i及びセットの各言葉識別子jにより表された言葉間の類似性に対応する行列のエントリのカウント値は、インクリメントされる。つまり、AM(i,j)のカウント値は、セット内の各j毎にインクリメントされる。次に、セクションの2番目に低い言葉識別子は、第1の言葉識別子iとして選択される。第1の言葉識別子より高い順位を有するセクションの言葉識別子の全てを有する言葉識別子jのセットが識別される。第1の言葉i及びセットの各言葉識別子jの類似性に対応する行列のエントリのカウント値は、インクリメントされる。この処理は、セクションの全ての言葉識別子対が処理されるまで繰り返される。
例として、数値2、4、5及び8を有する言葉識別子のセットを有する言葉識別子索引のセクションを考える。関連する言葉識別子対は、(2、4)、(2、5)、(2、8)、(4、5)、(4、8)及び(5、8)である。従って、段階250で、AM(2、4)、AM(2、5)、AM(2、8)、AM(4、5)、AM(4、8)及びAM(5、8)のカウント値はインクリメントされる。
他の実施形態では、言葉識別子対は、他の方法で言葉識別子索引から識別されてもよい。例えば、上述の処理は、セクションの最も高い順位の言葉識別子、最も高い順位の言葉識別子より低い順位を有するセクションの言葉識別子を有する第1のセットを識別することにより、実行されてもよい。他の実施形態では、言葉識別子対は、他の方法で識別されてもよい。
幾つかの実施形態では、オントロジー類似性行列のエントリは、言葉対の方向類似性に対応してよい。前述のように、方向類似性は、言葉対の第1の言葉tが文書内に現れた場合に、言葉対の第2の言葉tjが文書セットの該文書内に現れる可能性である。方向類似性により、言葉対の順位を入れ替えることは、方向類似性の値を変更しうる。例えば、言葉対(t,tj)の方向類似性は、言葉対(tj,t)の方向類似性と必ずしも同一でない。
幾つかの実施形態では、行列のカウント値の約半分は、各セクションが処理された後に計算されてよい。何故なら、言葉識別子対は、第1の言葉識別子が第2の言葉識別子より低い順位を有する場合に(例えばi<j)、これらの対に対して処理されるだけだからである。従って、AM(i,j)のカウント値は、i>jの場合に、言葉識別子索引を処理した後にも計算されないままである。従って、オントロジー類似性行列は上三角行列であってよい。エントリのカウント値は対応する言葉対が文書セット内に一緒に現れる階数に対応するので、AM(i,j)の如何なる所与のカウント値も、AM(j,i)の最後のカウント値と等しい。従って、i<jのとき、AM(i,j)のカウント値は、行列AMの残りのエントリのカウント値を得るためにAM(j,i)内にコピーされてよい。一実施形態では、行列AMの下三角部分は、上三角行列の転置から得られてよい。
[関連出願]
本出願は、U.S.C§119(e)35に基づき、米国仮出願番号61/152,375、発明の名称「Efficient Computation of Automated Ontology Affinity Matrices」、代理人管理番号073338.0674、出願日2009年2月13日、発明者Stergios Stergiou他の権利を主張する。上記出願は参照することにより本願明細書に組み込まれる。
幾つかの実施形態では、方向類似性行列は、類似性行列AMのカウント値を得ることにより、次に各エントリAM(i,j)のカウント値をD(Ti)、つまり言葉識別子iを有する逆索引リストの文書識別子の数で除算することにより形成される。換言すると、第1の言葉と第2の言葉との間の類似性に対応するAMのエントリのカウント値は、第1の言葉が現れる文書セットの文書の数で除算される。カウント値毎にこの処理を実行し、結果をAMの適切なエントリに格納した後に、類似性行列のエントリは、それぞれiに対応する言葉が文書内で見付かった場合に、jに対応する言葉が文書セットの該文書内で見付かる可能性と共に方向類似性を有するだろう。
一実施形態では、カウント値は方向類似性の結果により上書きされてよい。別の実施形態では、方向類似性の結果はカウント値とは別個に記録されてよい。結果は、如何なる適切な方法で格納されてもよい。オントロジー類似性行列は、言葉のエントリ、離接文書量、連結文書量、リスト内の文書の量等も有してよい。
他の実施形態では、行列のカウント値は異なる値で除算されてよい。例えば、基本類似性を有する行列は、基本類似性のために選択された定義に基づき、各エントリAM(i,j)のカウント値をD(Ti+Tj)、つまり言葉t若しくはtjの何れかを有する文書の数又はD(Ti)とD(Tj)の大きい方で除算することにより得られてよい。基本類似性行列BAMが計算されるとき、BAM(i,j)=BAM(j,i)なので、半分(1つの三角領域)だけが計算されればよい。
本願明細書に開示されたシステム及び装置の構成要素は、インタフェース、ロジック、メモリ及び/又は他の適切な構成要素を有してよい。インタフェースは入力を受信し、出力を送信し、入力及び/又は出力を処理し及び/又は他の適切な動作を実行する。インタフェースはハードウェア及び/又はソフトウェアを有してよい。
ロジックは、構成要素の動作を実行し、例えば命令を実行して入力から出力を生成する。ロジックはハードウェア、ソフトウェア及び/又は他のロジックを有してよい。ロジックは、1又は複数の有形媒体内に符号化されてよく、コンピュータにより実行されたときに動作を実行してよい。プロセッサのような特定のロジックは、構成要素の動作を管理してよい。プロセッサの例には、1又は複数のコンピュータ、1又は複数のマイクロプロセッサ、1又は複数のアプリケーション及び/又は他のロジックがある。
メモリは情報を格納する。メモリは1又は複数の有形のコンピュータ可読媒な及び/又はコンピュータにより実行可能な記憶媒体を有してよい。メモリは、一時的又は非一時的なコンピュータ可読媒体を有してよい。メモリの例には、コンピュータ・メモリ(例えば、ランダム・アクセス・メモリ(RAM)又は読み出し専用メモリ(ROM)、大容量媒体(例えば、ハードディスク)、着脱可能記憶媒体(例えば、コンパクト・ディスク(CD)又はデジタル・ビデオ・ディスク(DVD)、データベース及び/又はネットワーク記憶装置(例えば、サーバ)、及び/又は他のコンピュータ可読媒体))がある。
本発明の範囲から逸脱することなく記載された例であるシステム及び装置の変更、追加又は省略が行われてよい。システム及び装置の構成要素は統合されてよく又は分離されてよい。更に、システム及び装置の動作は更に多くの、更に少ない又は他の構成要素により実行されてよい。更に、類似性計算機34の動作は、より多くの、より少ない又は1より多い構成要素により実行されてよい。更に、システム及び装置の動作は、ソフトウェア、ハードウェア及び/又は他のロジックを有する如何なる適切なロジックを用い実行されてよい。本願明細書で用いられるように、「各」の語はセットの各構成要素、又はセットの下位セットの各構成要素を表す。
本発明の範囲から逸脱することなく行列の例に対し変更、追加又は省略が行われてよい。行列は、より多くの、より少ない又は他の値を有して良い。更に、行列の値は如何なる適切な順序に配置されてもよい。
本発明の範囲から逸脱することなく本願明細書に開示された方法の変更、追加又は省略が行われてよい。方法は、より多くの、より少ない又は他の段階を有してよい。更に、段階は如何なる適切な方法で実行されてもよい。
本発明の特定の実施例は、1つ以上の技術的利点を提供し得る。実施形態の技術的利点は、言語の言葉間の類似性が定量値として表現できることであってよい。類似性は、言語のオントロジーとして機能する行列を生成するために用いられてよい。 本発明の特定の実施例は、上述の技術的利点の何れも有さないか又はいくつか若しくは全てを有してよい。1つ以上の他の技術的利点は、本願明細書に含まれる図、説明、及び請求項から当業者に直ちに明らかであろう。
本開示は特定の実施例の観点から記載されたが、これら実施例の変更及び置換は当業者に明らかであろう。従って、実施例の上述の記載は、本開示を制限するものではない。他の変化、代替、及び変更も特許請求の範囲に定められたように本開示の精神及び範囲から逸脱することなく可能である。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1) 各逆索引リストは1つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの1又は複数の文書を示す1又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引にアクセスする段階;
各順序付けられた対は1つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成する段階;
各セクションは1つの文書に対応し、各セクションは該文書内に現れる1又は複数の言葉の1又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成する段階;
を有し、
前記言葉識別子索引を前記逆索引に従って生成する段階は、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成する段階、を有する、
ことを特徴とする方法。
(付記2) 前記複数の順序付けられた対を編成する段階は:
第二に前記順序付けられた対の言葉識別子に基づき前記順序付けられた対を編成する段階;
を更に有する、
ことを特徴とする付記1記載の方法。
(付記3) 前記言葉識別子索引を前記逆索引に従って生成する段階は:
順序付けられた対をデータ構造から順番に選択する段階;及び
該選択した順序付けられた対の言葉識別子を文書に対応する言葉識別子索引のセクションに置き、該文書に従って逆索引の言葉識別子を編成する段階;
を更に有する、
ことを特徴とする付記1記載の方法。
(付記4) 前記言葉識別子索引を前記逆索引に従って生成する段階は:
選択した順序付けられた対をデータ構造から削除する段階;
該選択した順序付けられた対の言葉識別子に等しい言葉識別子を有する次の順序付けられた対を前記逆索引から生成する段階;及び
該次の順序付けられた対を前記データ構造に置く段階;
を更に有する、
ことを特徴とする付記1記載の方法。
(付記5) 前記言葉識別子索引を前記逆索引に従って生成する段階は:
選択した順序付けられた対が、第1のセクション内に置かれた言葉識別子を有する前に選択した順序付けられた対の文書識別子に等しくない文書識別子を有すると決定する段階;及び
選択した順序付けられた対の言葉識別子を前記第1のセクションと異なる第2のセクション内に置く段階;
を更に有する、
ことを特徴とする付記1記載の方法。
(付記6) 各エントリは1つのカウント値を有し、各該エントリは第1の言葉及び第2の言葉を有する言葉対の類似性に対応し、複数の該エントリを有するオントロジー類似性行列を初期化する段階;及び
選択した言葉対の言葉識別子を有する言葉識別子索引のセクション毎に、該選択した言葉対の類似性に対応するエントリのカウント値をインクリメントする段階;
を更に有する付記1記載の方法。
(付記7) 各エントリは第1の言葉及び第2の言葉を有する言葉対の類似性に対応し、各該エントリは文書セットの文書内に該言葉対が一緒に現れる回数を示すカウント値を有し、複数の該エントリを有するオントロジー類似性行列を生成する段階;及び
前記第1の言葉が現れる文書の数、前記第2の言葉が現れる文書の数、前記第1の言葉が現れる文書の数と前記第2の言葉が現れる文書の数との和を有するグループの1つにより、該オントロジー類似性行列の各カウント値を除算する段階;
を更に有する付記1記載の方法。
(付記8) 各エントリは第1の言葉及び第2の言葉を有する言葉対の方向類似性に対応し、該方向類似性は該第1の言葉が文書内に現れた場合に該第2の言葉が文書セットの該文書内に現れる可能性を有し、複数の該エントリを有するオントロジー類似性行列を生成する段階;
を更に有する付記1記載の方法。
(付記9) 各逆索引リストは1つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの1又は複数の文書を示す1又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引を格納するメモリ;並びに
各順序付けられた対は1つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成し;
各セクションは1つの文書に対応し、各セクションは該文書内に現れる1又は複数の言葉の1又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成する;
ロジックを実行するプロセッサ;
を有し、
前記言葉識別子索引を前記逆索引に従って生成することは、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成することを有する、
ことを特徴とする装置。
(付記10) 前記複数の順序付けられた対を編成することは:
第二に前記順序付けられた対の言葉識別子に基づき前記順序付けられた対を編成すること;
を有する、
ことを特徴とする付記9記載の装置。
(付記11) 前記言葉識別子索引を前記逆索引に従って生成することは:
順序付けられた対をデータ構造から順番に選択すること;及び
該選択した順序付けられた対の言葉識別子を文書に対応する言葉識別子索引のセクションに置き、該文書に従って逆索引の言葉識別子を編成すること;
を有する、
ことを特徴とする付記9記載の装置。
(付記12) 前記言葉識別子索引を前記逆索引に従って生成することは:
選択した順序付けられた対をデータ構造から削除すること;
該選択した順序付けられた対の言葉識別子に等しい言葉識別子を有する次の順序付けられた対を前記逆索引から生成すること;及び
該次の順序付けられた対を前記データ構造に置くこと;
を有する、
ことを特徴とする付記9記載の装置。
(付記13) 前記言葉識別子索引を前記逆索引に従って生成することは:
選択した順序付けられた対が、第1のセクション内に置かれた言葉識別子を有する前に選択した順序付けられた対の文書識別子に等しくない文書識別子を有すると決定すること;及び
選択した順序付けられた対の言葉識別子を前記第1のセクションと異なる第2のセクション内に置くこと;
を更に有する、
ことを特徴とする付記9記載の装置。
(付記14) 前記プロセッサは更に:
各エントリは1つのカウント値を有し、各該エントリは第1の言葉及び第2の言葉を有する言葉対の類似性に対応し、複数の該エントリを有するオントロジー類似性行列を初期化し;及び
選択した言葉対の言葉識別子を有する言葉識別子索引のセクション毎に、該選択した言葉対の類似性に対応するエントリのカウント値をインクリメントする;
ことを特徴とする付記9記載の装置。
(付記15) 前記プロセッサは更に:
各エントリは第9の言葉及び第2の言葉を有する言葉対の類似性に対応し、各該エントリは文書セットの文書内に該言葉対が一緒に現れる回数を示すカウント値を有し、複数の該エントリを有するオントロジー類似性行列を生成し;及び
前記第1の言葉が現れる文書の数、前記第2の言葉が現れる文書の数、前記第1の言葉が現れる文書の数と前記第2の言葉が現れる文書の数との和を有するグループの1つにより、該オントロジー類似性行列の各カウント値を除算する;
ことを特徴とする付記9記載の装置。
(付記16) 前記プロセッサは更に:
各エントリは第1の言葉及び第2の言葉を有する言葉対の方向類似性に対応し、該方向類似性は該第1の言葉が文書内に現れた場合に該第2の言葉が文書セットの該文書内に現れる可能性を有し、複数の該エントリを有するオントロジー類似性行列を生成する;
ことを特徴とする付記9記載の装置。
(付記17) コンピュータにより実行可能なコードを有する有体コンピュータ可読媒体であって、コンピュータにより実行されると、
各逆索引リストは1つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの1又は複数の文書を示す1又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引にアクセスし;
各順序付けられた対は1つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成する段階;
各セクションは1つの文書に対応し、各セクションは該文書内に現れる1又は複数の言葉の1又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成し;
前記言葉識別子索引を前記逆索引に従って生成することは、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成することを有する、
ことを特徴とする媒体。
(付記18) 前記複数の順序付けられた対を編成することは:
第二に前記順序付けられた対の言葉識別子に基づき前記順序付けられた対を編成すること;
を有する、
ことを特徴とする付記17記載の媒体。
(付記19) 前記言葉識別子索引を前記逆索引に従って生成することは:
順序付けられた対をデータ構造から順番に選択すること;及び
該選択した順序付けられた対の言葉識別子を文書に対応する言葉識別子索引のセクションに置き、該文書に従って逆索引の言葉識別子を編成すること;
を有する、
ことを特徴とする付記17記載の媒体。
(付記20) 前記言葉識別子索引を前記逆索引に従って生成することは:
選択した順序付けられた対をデータ構造から削除すること;
該選択した順序付けられた対の言葉識別子に等しい言葉識別子を有する次の順序付けられた対を前記逆索引から生成すること;及び
該次の順序付けられた対を前記データ構造に置くこと;
を有する、
ことを特徴とする付記17記載の媒体。
(付記21) 前記言葉識別子索引を前記逆索引に従って生成することは:
選択した順序付けられた対が、第1のセクション内に置かれた言葉識別子を有する前に選択した順序付けられた対の文書識別子に等しくない文書識別子を有すると決定する段階;及び
選択した順序付けられた対の言葉識別子を前記第1のセクションと異なる第2のセクション内に置くこと;
を更に有する、
ことを特徴とする付記17記載の媒体。
(付記22) 各エントリは1つのカウント値を有し、各該エントリは第1の言葉及び第2の言葉を有する言葉対の類似性に対応し、複数の該エントリを有するオントロジー類似性行列を初期化し;及び
選択した言葉対の言葉識別子を有する言葉識別子索引のセクション毎に、該選択した言葉対の類似性に対応するエントリのカウント値をインクリメントする;
ことを特徴とする付記17記載の媒体。
(付記23) 各エントリは第17の言葉及び第2の言葉を有する言葉対の類似性に対応し、各該エントリは文書セットの文書内に該言葉対が一緒に現れる回数を示すカウント値を有し、複数の該エントリを有するオントロジー類似性行列を生成し;及び
前記第1の言葉が現れる文書の数、前記第2の言葉が現れる文書の数、前記第1の言葉が現れる文書の数と前記第2の言葉が現れる文書の数との和を有するグループの1つにより、該オントロジー類似性行列の各カウント値を除算する;
ことを特徴とする付記17記載の媒体。
(付記24) 各エントリは第1の言葉及び第2の言葉を有する言葉対の方向類似性に対応し、該方向類似性は該第1の言葉が文書内に現れた場合に該第2の言葉が文書セットの該文書内に現れる可能性を有し、複数の該エントリを有するオントロジー類似性行列を生成する;
ことを特徴とする付記17記載の媒体。
20 クライアント
22 サーバ
26 決定グラフ・エンジン
34 類似性計算機
24 メモリ
50 文書
54 記録
58 索引
62 逆索引
66 オントロジー
70 類似性行列
74 類似性グラフ

Claims (7)

  1. 各逆索引リストは1つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの1又は複数の文書を示す1又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引にアクセスする段階;
    各順序付けられた対は1つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成する段階;
    各セクションは1つの文書に対応し、各セクションは該文書内に現れる1又は複数の言葉の1又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成する段階;
    を有し、
    前記言葉識別子索引を前記逆索引に従って生成する段階は、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成する段階、を有する、
    ことを特徴とする方法。
  2. 前記複数の順序付けられた対を編成する段階は:
    第二に前記順序付けられた対の言葉識別子に基づき前記順序付けられた対を編成する段階;
    を更に有する、
    ことを特徴とする請求項1記載の方法。
  3. 前記言葉識別子索引を前記逆索引に従って生成する段階は:
    順序付けられた対をデータ構造から順番に選択する段階;及び
    該選択した順序付けられた対の言葉識別子を文書に対応する言葉識別子索引のセクションに置き、該文書に従って逆索引の言葉識別子を編成する段階;
    を更に有する、
    ことを特徴とする請求項1記載の方法。
  4. 前記言葉識別子索引を前記逆索引に従って生成する段階は:
    選択した順序付けられた対をデータ構造から削除する段階;
    該選択した順序付けられた対の言葉識別子に等しい言葉識別子を有する次の順序付けられた対を前記逆索引から生成する段階;及び
    該次の順序付けられた対を前記データ構造に置く段階;
    を更に有する、
    ことを特徴とする請求項1記載の方法。
  5. 前記言葉識別子索引を前記逆索引に従って生成する段階は:
    選択した順序付けられた対が、第1のセクション内に置かれた言葉識別子を有する前に選択した順序付けられた対の文書識別子に等しくない文書識別子を有すると決定する段階;及び
    選択した順序付けられた対の言葉識別子を前記第1のセクションと異なる第2のセクション内に置く段階;
    を更に有する、
    ことを特徴とする請求項1記載の方法。
  6. 各逆索引リストは1つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの1又は複数の文書を示す1又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引を格納するメモリ;並びに
    各順序付けられた対は1つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成し;
    各セクションは1つの文書に対応し、各セクションは該文書内に現れる1又は複数の言葉の1又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成する;
    ロジックを実行するプロセッサ;
    を有し、
    前記言葉識別子索引を前記逆索引に従って生成することは、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成することを有する、
    ことを特徴とする装置。
  7. コンピュータにより実行可能なコードを有する有体コンピュータ可読媒体であって、コンピュータにより実行されると、
    各逆索引リストは1つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの1又は複数の文書を示す1又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引にアクセスし;
    各順序付けられた対は1つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成する段階;
    各セクションは1つの文書に対応し、各セクションは該文書内に現れる1又は複数の言葉の1又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成し;
    前記言葉識別子索引を前記逆索引に従って生成することは、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成することを有する、
    ことを特徴とする媒体。
JP2010030410A 2009-02-13 2010-02-15 オントロジーの類似性行列の効率的な計算 Expired - Fee Related JP5440235B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US15237509P 2009-02-13 2009-02-13
US61/152,375 2009-02-13
US12/658,531 2010-02-10
US12/658,531 US8554696B2 (en) 2009-02-13 2010-02-10 Efficient computation of ontology affinity matrices

Publications (2)

Publication Number Publication Date
JP2010191962A true JP2010191962A (ja) 2010-09-02
JP5440235B2 JP5440235B2 (ja) 2014-03-12

Family

ID=42199639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010030410A Expired - Fee Related JP5440235B2 (ja) 2009-02-13 2010-02-15 オントロジーの類似性行列の効率的な計算

Country Status (4)

Country Link
US (1) US8554696B2 (ja)
EP (1) EP2219121A1 (ja)
JP (1) JP5440235B2 (ja)
CN (1) CN101807201A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2423866A1 (en) * 2010-08-30 2012-02-29 ETH Zurich Method and devices for targeted distribution of data
US8719214B2 (en) * 2011-09-23 2014-05-06 Fujitsu Limited Combining medical binary decision diagrams for analysis optimization
IN2013MU02217A (ja) * 2013-07-01 2015-06-12 Tata Consultancy Services Ltd
US11151171B2 (en) * 2018-04-27 2021-10-19 International Business Machines Corporation Accessing faceted information using ontologies

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0496177A (ja) * 1990-08-08 1992-03-27 Ricoh Co Ltd 文書検索方法及びそのキーワード関連度表作成装置
JPH10334106A (ja) * 1997-05-27 1998-12-18 Fuji Xerox Co Ltd 関連語提示装置及び関連語提示用プログラムを記録した媒体
US20060184521A1 (en) * 1999-07-30 2006-08-17 Ponte Jay M Compressed document surrogates
US20080059466A1 (en) * 2006-08-31 2008-03-06 Gang Luo System and method for resource-adaptive, real-time new event detection
US20080154938A1 (en) * 2006-12-22 2008-06-26 Cheslow Robert D System and method for generation of computer index files
JP2008192157A (ja) * 2007-02-07 2008-08-21 Fujitsu Ltd コンパクトデシジョンダイアグラムを用いた効率的インデックス付け
JP2009003541A (ja) * 2007-06-19 2009-01-08 Internatl Business Mach Corp <Ibm> データベースのインデックス作成システム、方法及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6996572B1 (en) * 1997-10-08 2006-02-07 International Business Machines Corporation Method and system for filtering of information entities
US6651096B1 (en) * 1999-04-20 2003-11-18 Cisco Technology, Inc. Method and apparatus for organizing, storing and evaluating access control lists
US6587848B1 (en) * 2000-03-08 2003-07-01 International Business Machines Corporation Methods and apparatus for performing an affinity based similarity search
US6925460B2 (en) * 2001-03-23 2005-08-02 International Business Machines Corporation Clustering data including those with asymmetric relationships
US7165024B2 (en) * 2002-02-22 2007-01-16 Nec Laboratories America, Inc. Inferring hierarchical descriptions of a set of documents
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
US7016914B2 (en) * 2002-06-05 2006-03-21 Microsoft Corporation Performant and scalable merge strategy for text indexing
US8676830B2 (en) 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
EP1817693A1 (en) * 2004-09-29 2007-08-15 Panscient Pty Ltd. Machine learning system
WO2006125271A1 (en) 2005-05-27 2006-11-30 Damit Australia Pty Ltd A digital asset management system
US7562074B2 (en) * 2005-09-28 2009-07-14 Epacris Inc. Search engine determining results based on probabilistic scoring of relevance
US7657507B2 (en) * 2007-03-02 2010-02-02 Microsoft Corporation Pseudo-anchor text extraction for vertical search
US8171030B2 (en) * 2007-06-18 2012-05-01 Zeitera, Llc Method and apparatus for multi-dimensional content search and video identification
US8171029B2 (en) * 2007-10-05 2012-05-01 Fujitsu Limited Automatic generation of ontologies using word affinities

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0496177A (ja) * 1990-08-08 1992-03-27 Ricoh Co Ltd 文書検索方法及びそのキーワード関連度表作成装置
JPH10334106A (ja) * 1997-05-27 1998-12-18 Fuji Xerox Co Ltd 関連語提示装置及び関連語提示用プログラムを記録した媒体
US20060184521A1 (en) * 1999-07-30 2006-08-17 Ponte Jay M Compressed document surrogates
US20080059466A1 (en) * 2006-08-31 2008-03-06 Gang Luo System and method for resource-adaptive, real-time new event detection
US20080154938A1 (en) * 2006-12-22 2008-06-26 Cheslow Robert D System and method for generation of computer index files
JP2008192157A (ja) * 2007-02-07 2008-08-21 Fujitsu Ltd コンパクトデシジョンダイアグラムを用いた効率的インデックス付け
JP2009003541A (ja) * 2007-06-19 2009-01-08 Internatl Business Mach Corp <Ibm> データベースのインデックス作成システム、方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNG200000945036; 下村秀樹、外1名: '転置ファイルとビット配列を用いた高速文字列あいまい照合アルゴリズム' 情報処理学会論文誌 第40巻,第4号, 19990415, p.1816-1830, 社団法人情報処理学会 *
JPN6013056617; 下村秀樹、外1名: '転置ファイルとビット配列を用いた高速文字列あいまい照合アルゴリズム' 情報処理学会論文誌 第40巻,第4号, 19990415, p.1816-1830, 社団法人情報処理学会 *
JPN6013056619; Raymie Stata、外2名: 'The Term Vector Database: fast access to indexing terms for Web pages' Computer Networks [ONLINE] 第33巻,第1-6号, 200006, p.247-255, Elsevier Science B.V. *

Also Published As

Publication number Publication date
CN101807201A (zh) 2010-08-18
US8554696B2 (en) 2013-10-08
EP2219121A1 (en) 2010-08-18
JP5440235B2 (ja) 2014-03-12
US20100211534A1 (en) 2010-08-19

Similar Documents

Publication Publication Date Title
JP5531395B2 (ja) 単語親和度による単語クラスタの識別
JP5338238B2 (ja) ワードの類似性を用いたオントロジーの自動生成
US8543380B2 (en) Determining a document specificity
JP5544924B2 (ja) 自動オントロジーのためのドメインコーパス及び辞書の生成
EP2045734A2 (en) Automatically generating a hierarchy of terms
JP5391632B2 (ja) ワードと文書の深さの決定
US20100217764A1 (en) Generating A Dictionary And Determining A Co-Occurrence Context For An Automated Ontology
WO2013133985A1 (en) Entity augmentation service from latent relational data
US20090024616A1 (en) Content retrieving device and retrieving method
JP5235918B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
US7587407B2 (en) System and method for creation, representation, and delivery of document corpus entity co-occurrence information
WO2014047214A1 (en) Hierarchical ordering of strings
KR20180129001A (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
JP5440235B2 (ja) オントロジーの類似性行列の効率的な計算
US20120124060A1 (en) Method and system of identifying adjacency data, method and system of generating a dataset for mapping adjacency data, and an adjacency data set
JP2010507857A (ja) 高速データベースマッチング
Khan et al. Metadata for Efficient Management of Digital News Articles in Multilingual News Archives
KR20120079968A (ko) 바이소스 토픽모델을 이용한 이미지 연관 검색 방법 및 그 시스템
CN115129850A (zh) 基于学术异质网络表示学习的参考文献引荐方法及设备
CN110598209A (zh) 用于提取关键词的方法、系统及存储介质
CN114579601A (zh) 数据生成方法、装置、计算设备及介质
CN112990465A (zh) 佛学知识萃取方法、装置、设备及存储介质
CN112906378A (zh) 用于辅助文本生成的方法和设备与存储介质
CN115221264A (zh) 一种文本处理方法、装置及可读存储介质
Vidhya et al. Language Independent Document Retrieval Using Unicode Standard

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131202

R150 Certificate of patent or registration of utility model

Ref document number: 5440235

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees