JP5440235B2 - オントロジーの類似性行列の効率的な計算 - Google Patents
オントロジーの類似性行列の効率的な計算 Download PDFInfo
- Publication number
- JP5440235B2 JP5440235B2 JP2010030410A JP2010030410A JP5440235B2 JP 5440235 B2 JP5440235 B2 JP 5440235B2 JP 2010030410 A JP2010030410 A JP 2010030410A JP 2010030410 A JP2010030410 A JP 2010030410A JP 5440235 B2 JP5440235 B2 JP 5440235B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- index
- identifier
- ordered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
特定の実施形態では、文書は言葉の集合である。従って、文書は多くの形式をとってよく、他の文書を有するサブセットを有してもよい。例えば、百科事典セット、百科事典セットの「A」巻、その「A」巻の中の「Aardvark」に関する記事及びその記事の中のある段落は全て、この用途において言葉が用いられているので、文書である。文書は読める文字を有し、例えば「Aardvark」に関する記事である。文書は物語形式の文字を有する必要はない。文書は、個々に集合的に心象の内容を記述するユーザにより入力された一式の文法標識を有してよい。文書の集合は文書セットとして参照される。従って、百科事典のセットは、文書セット及び/又は文書と見なされてよい。
一実施形態では、「言葉」は「辞書の言葉」と置き換え可能であってよい。
2つの言葉が同一の共起文脈、例えば文書内でそれぞれ少なくとも1回現れた場合、当該2つの言葉は同時に起こる。
方向重み付けグラフは、辞書の言葉をノードとして及び類似性を端の重みとして有する。「方向重み付けグラフ」は、如何なる適切なデータ構造、例えば行列、二分決定グラフ又は二分決定グラフの集合によっても表現される同一情報の実際の表現として用いられてよい。
1又は複数の辞書の言葉が入力として与えられると、当該手順は当該入力された辞書の言葉と関連した1又は複数の辞書の言葉を出力する。例えば、当該手順は、1又は複数の入力された言葉に対し最も大きな差異がある方向類似性を持つ「1又は複数の」ソートされたリストを出力してよい。この場合、出力は、オントロジーが解決する領域と関連して、入力された言葉に一層緊密に関連した言葉を含む。
Affinity(ti,tj)=D(Ti&Tj)/D(Ti+Tj)
別の実施形態では、基本類似性は、言葉tiを含む文書の量又は言葉tjを含む文書の量の最大値に対する言葉ti及び言葉tjの両方を含む文書の量として定められてよい。例えば:
Affinity(ti,tj)=D(Ti&Tj)/max(D(Ti),D(Tj))
図2の図示された例では、類似性行列110は言葉t1...t5の対の基本類似性を記録する。類似性行列110によると、基本類似性は、言葉t0とt1の間では0.003であり、言葉t0とt2の間では0.005であり、以下同様である。
DAffinity(ti,tj)=D(Ti&Tj)/D(Ti)
DAffinity(ti,tj)はD(Ti)=D(Tj)でない限りDAffinity(tj,ti)と等価ではない。言葉tiからtjへの方向類似性DAffinity(ti,tj)が高いことは、文書50が言葉tiを含む場合に文書50が言葉tjを含む可能性が高いことを示す。ある例では、文書[123456]は言葉tiを含み、文書[42]は言葉tjを含む。この例の言葉tjを含む文書は言葉tiも含む。従って言葉tjの観点からは、言葉tiは重要性が高い。言葉tiを含む文書の3分の1のみが言葉tjも含む。従って言葉tiの観点からは、言葉tjは重要性が比較的低い。
DiffAff(ti,tj)=DAffinity(ti,tj)-AveAff(tj)
差分類似性は、文書50内に生じる、言葉tjの一般的傾向により引き起こされる偏向を除去する。特定の条件では、差分類似性は、文書が言葉tjを含む場合に、該文書が言葉tiを含む確率のより高い精度を提供しうる。
一実施形態では、データ構造が空の場合、段階246−258で言葉識別子索引はオントロジー類似性行列(AM)を生成するために用いられてよい。一実施形態では、言葉識別子索引の各セクションは、全てのセクションが生成された後ではなく、該セクションが生成された後に処理されてよい。従って、段階246−258のうちの幾つか又は全ては、データ構造が未だからでなくても実行されてよい。
本出願は、U.S.C§119(e)35に基づき、米国仮出願番号61/152,375、発明の名称「Efficient Computation of Automated Ontology Affinity Matrices」、代理人管理番号073338.0674、出願日2009年2月13日、発明者Stergios Stergiou他の権利を主張する。上記出願は参照することにより本願明細書に組み込まれる。
(付記1) 各逆索引リストは1つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの1又は複数の文書を示す1又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引にアクセスする段階;
各順序付けられた対は1つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成する段階;
各セクションは1つの文書に対応し、各セクションは該文書内に現れる1又は複数の言葉の1又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成する段階;
を有し、
前記言葉識別子索引を前記逆索引に従って生成する段階は、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成する段階、を有する、
ことを特徴とする方法。
(付記2) 前記複数の順序付けられた対を編成する段階は:
第二に前記順序付けられた対の言葉識別子に基づき前記順序付けられた対を編成する段階;
を更に有する、
ことを特徴とする付記1記載の方法。
(付記3) 前記言葉識別子索引を前記逆索引に従って生成する段階は:
順序付けられた対をデータ構造から順番に選択する段階;及び
該選択した順序付けられた対の言葉識別子を文書に対応する言葉識別子索引のセクションに置き、該文書に従って逆索引の言葉識別子を編成する段階;
を更に有する、
ことを特徴とする付記1記載の方法。
(付記4) 前記言葉識別子索引を前記逆索引に従って生成する段階は:
選択した順序付けられた対をデータ構造から削除する段階;
該選択した順序付けられた対の言葉識別子に等しい言葉識別子を有する次の順序付けられた対を前記逆索引から生成する段階;及び
該次の順序付けられた対を前記データ構造に置く段階;
を更に有する、
ことを特徴とする付記1記載の方法。
(付記5) 前記言葉識別子索引を前記逆索引に従って生成する段階は:
選択した順序付けられた対が、第1のセクション内に置かれた言葉識別子を有する前に選択した順序付けられた対の文書識別子に等しくない文書識別子を有すると決定する段階;及び
選択した順序付けられた対の言葉識別子を前記第1のセクションと異なる第2のセクション内に置く段階;
を更に有する、
ことを特徴とする付記1記載の方法。
(付記6) 各エントリは1つのカウント値を有し、各該エントリは第1の言葉及び第2の言葉を有する言葉対の類似性に対応し、複数の該エントリを有するオントロジー類似性行列を初期化する段階;及び
選択した言葉対の言葉識別子を有する言葉識別子索引のセクション毎に、該選択した言葉対の類似性に対応するエントリのカウント値をインクリメントする段階;
を更に有する付記1記載の方法。
(付記7) 各エントリは第1の言葉及び第2の言葉を有する言葉対の類似性に対応し、各該エントリは文書セットの文書内に該言葉対が一緒に現れる回数を示すカウント値を有し、複数の該エントリを有するオントロジー類似性行列を生成する段階;及び
前記第1の言葉が現れる文書の数、前記第2の言葉が現れる文書の数、前記第1の言葉が現れる文書の数と前記第2の言葉が現れる文書の数との和を有するグループの1つにより、該オントロジー類似性行列の各カウント値を除算する段階;
を更に有する付記1記載の方法。
(付記8) 各エントリは第1の言葉及び第2の言葉を有する言葉対の方向類似性に対応し、該方向類似性は該第1の言葉が文書内に現れた場合に該第2の言葉が文書セットの該文書内に現れる可能性を有し、複数の該エントリを有するオントロジー類似性行列を生成する段階;
を更に有する付記1記載の方法。
(付記9) 各逆索引リストは1つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの1又は複数の文書を示す1又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引を格納するメモリ;並びに
各順序付けられた対は1つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成し;
各セクションは1つの文書に対応し、各セクションは該文書内に現れる1又は複数の言葉の1又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成する;
ロジックを実行するプロセッサ;
を有し、
前記言葉識別子索引を前記逆索引に従って生成することは、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成することを有する、
ことを特徴とする装置。
(付記10) 前記複数の順序付けられた対を編成することは:
第二に前記順序付けられた対の言葉識別子に基づき前記順序付けられた対を編成すること;
を有する、
ことを特徴とする付記9記載の装置。
(付記11) 前記言葉識別子索引を前記逆索引に従って生成することは:
順序付けられた対をデータ構造から順番に選択すること;及び
該選択した順序付けられた対の言葉識別子を文書に対応する言葉識別子索引のセクションに置き、該文書に従って逆索引の言葉識別子を編成すること;
を有する、
ことを特徴とする付記9記載の装置。
(付記12) 前記言葉識別子索引を前記逆索引に従って生成することは:
選択した順序付けられた対をデータ構造から削除すること;
該選択した順序付けられた対の言葉識別子に等しい言葉識別子を有する次の順序付けられた対を前記逆索引から生成すること;及び
該次の順序付けられた対を前記データ構造に置くこと;
を有する、
ことを特徴とする付記9記載の装置。
(付記13) 前記言葉識別子索引を前記逆索引に従って生成することは:
選択した順序付けられた対が、第1のセクション内に置かれた言葉識別子を有する前に選択した順序付けられた対の文書識別子に等しくない文書識別子を有すると決定すること;及び
選択した順序付けられた対の言葉識別子を前記第1のセクションと異なる第2のセクション内に置くこと;
を更に有する、
ことを特徴とする付記9記載の装置。
(付記14) 前記プロセッサは更に:
各エントリは1つのカウント値を有し、各該エントリは第1の言葉及び第2の言葉を有する言葉対の類似性に対応し、複数の該エントリを有するオントロジー類似性行列を初期化し;及び
選択した言葉対の言葉識別子を有する言葉識別子索引のセクション毎に、該選択した言葉対の類似性に対応するエントリのカウント値をインクリメントする;
ことを特徴とする付記9記載の装置。
(付記15) 前記プロセッサは更に:
各エントリは第9の言葉及び第2の言葉を有する言葉対の類似性に対応し、各該エントリは文書セットの文書内に該言葉対が一緒に現れる回数を示すカウント値を有し、複数の該エントリを有するオントロジー類似性行列を生成し;及び
前記第1の言葉が現れる文書の数、前記第2の言葉が現れる文書の数、前記第1の言葉が現れる文書の数と前記第2の言葉が現れる文書の数との和を有するグループの1つにより、該オントロジー類似性行列の各カウント値を除算する;
ことを特徴とする付記9記載の装置。
(付記16) 前記プロセッサは更に:
各エントリは第1の言葉及び第2の言葉を有する言葉対の方向類似性に対応し、該方向類似性は該第1の言葉が文書内に現れた場合に該第2の言葉が文書セットの該文書内に現れる可能性を有し、複数の該エントリを有するオントロジー類似性行列を生成する;
ことを特徴とする付記9記載の装置。
(付記17) コンピュータにより実行可能なコードを有する有体コンピュータ可読媒体であって、コンピュータにより実行されると、
各逆索引リストは1つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの1又は複数の文書を示す1又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引にアクセスし;
各順序付けられた対は1つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成する段階;
各セクションは1つの文書に対応し、各セクションは該文書内に現れる1又は複数の言葉の1又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成し;
前記言葉識別子索引を前記逆索引に従って生成することは、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成することを有する、
ことを特徴とする媒体。
(付記18) 前記複数の順序付けられた対を編成することは:
第二に前記順序付けられた対の言葉識別子に基づき前記順序付けられた対を編成すること;
を有する、
ことを特徴とする付記17記載の媒体。
(付記19) 前記言葉識別子索引を前記逆索引に従って生成することは:
順序付けられた対をデータ構造から順番に選択すること;及び
該選択した順序付けられた対の言葉識別子を文書に対応する言葉識別子索引のセクションに置き、該文書に従って逆索引の言葉識別子を編成すること;
を有する、
ことを特徴とする付記17記載の媒体。
(付記20) 前記言葉識別子索引を前記逆索引に従って生成することは:
選択した順序付けられた対をデータ構造から削除すること;
該選択した順序付けられた対の言葉識別子に等しい言葉識別子を有する次の順序付けられた対を前記逆索引から生成すること;及び
該次の順序付けられた対を前記データ構造に置くこと;
を有する、
ことを特徴とする付記17記載の媒体。
(付記21) 前記言葉識別子索引を前記逆索引に従って生成することは:
選択した順序付けられた対が、第1のセクション内に置かれた言葉識別子を有する前に選択した順序付けられた対の文書識別子に等しくない文書識別子を有すると決定する段階;及び
選択した順序付けられた対の言葉識別子を前記第1のセクションと異なる第2のセクション内に置くこと;
を更に有する、
ことを特徴とする付記17記載の媒体。
(付記22) 各エントリは1つのカウント値を有し、各該エントリは第1の言葉及び第2の言葉を有する言葉対の類似性に対応し、複数の該エントリを有するオントロジー類似性行列を初期化し;及び
選択した言葉対の言葉識別子を有する言葉識別子索引のセクション毎に、該選択した言葉対の類似性に対応するエントリのカウント値をインクリメントする;
ことを特徴とする付記17記載の媒体。
(付記23) 各エントリは第17の言葉及び第2の言葉を有する言葉対の類似性に対応し、各該エントリは文書セットの文書内に該言葉対が一緒に現れる回数を示すカウント値を有し、複数の該エントリを有するオントロジー類似性行列を生成し;及び
前記第1の言葉が現れる文書の数、前記第2の言葉が現れる文書の数、前記第1の言葉が現れる文書の数と前記第2の言葉が現れる文書の数との和を有するグループの1つにより、該オントロジー類似性行列の各カウント値を除算する;
ことを特徴とする付記17記載の媒体。
(付記24) 各エントリは第1の言葉及び第2の言葉を有する言葉対の方向類似性に対応し、該方向類似性は該第1の言葉が文書内に現れた場合に該第2の言葉が文書セットの該文書内に現れる可能性を有し、複数の該エントリを有するオントロジー類似性行列を生成する;
ことを特徴とする付記17記載の媒体。
22 サーバ
26 決定グラフ・エンジン
34 類似性計算機
24 メモリ
50 文書
54 記録
58 索引
62 逆索引
66 オントロジー
70 類似性行列
74 類似性グラフ
Claims (7)
- 各逆索引リストは1つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの1又は複数の文書を示す1又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引にアクセスする段階;
各順序付けられた対は1つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成する段階;
各セクションは1つの文書に対応し、各セクションは該文書内に現れる1又は複数の言葉の1又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成する段階;
を有し、
前記言葉識別子索引を前記逆索引に従って生成する段階は、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成する段階、を有する、
ことを特徴とする方法。 - 前記複数の順序付けられた対を編成する段階は:
第二に前記順序付けられた対の言葉識別子に基づき前記順序付けられた対を編成する段階;
を更に有する、
ことを特徴とする請求項1記載の方法。 - 前記言葉識別子索引を前記逆索引に従って生成する段階は:
順序付けられた対をデータ構造から順番に選択する段階;及び
該選択した順序付けられた対の言葉識別子を文書に対応する言葉識別子索引のセクションに置き、該文書に従って逆索引の言葉識別子を編成する段階;
を更に有する、
ことを特徴とする請求項1記載の方法。 - 前記言葉識別子索引を前記逆索引に従って生成する段階は:
選択した順序付けられた対をデータ構造から削除する段階;
該選択した順序付けられた対の言葉識別子に等しい言葉識別子を有する次の順序付けられた対を前記逆索引から生成する段階;及び
該次の順序付けられた対を前記データ構造に置く段階;
を更に有する、
ことを特徴とする請求項1記載の方法。 - 前記言葉識別子索引を前記逆索引に従って生成する段階は:
選択した順序付けられた対が、第1のセクション内に置かれた言葉識別子を有する前に選択した順序付けられた対の文書識別子に等しくない文書識別子を有すると決定する段階;及び
選択した順序付けられた対の言葉識別子を前記第1のセクションと異なる第2のセクション内に置く段階;
を更に有する、
ことを特徴とする請求項1記載の方法。 - 各逆索引リストは1つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの1又は複数の文書を示す1又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引を格納するメモリ;並びに
各順序付けられた対は1つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成し;
各セクションは1つの文書に対応し、各セクションは該文書内に現れる1又は複数の言葉の1又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成する;
ロジックを実行するプロセッサ;
を有し、
前記言葉識別子索引を前記逆索引に従って生成することは、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成することを有する、
ことを特徴とする装置。 - コンピュータにより実行可能なコードを有する有体コンピュータ可読媒体であって、コンピュータにより実行されると、
各逆索引リストは1つの言葉に対応し、各逆索引リストは該言葉の言葉識別子及び該言葉が現れる文書セットの1又は複数の文書を示す1又は複数の文書識別子を有し、複数の該逆索引リストを有する逆索引にアクセスし;
各順序付けられた対は1つの言葉識別子及び逆索引リストの文書識別子を有し、第一に該順序付けられた対の該文書識別子に基づき、複数の該順序付けられた対を編成する段階;
各セクションは1つの文書に対応し、各セクションは該文書内に現れる1又は複数の言葉の1又は複数の言葉識別子を有する、複数の該セクションを有する言葉識別子索引を前記逆索引に従って生成し;
前記言葉識別子索引を前記逆索引に従って生成することは、前記言葉識別子索引のセクション内の順序付けられた対の言葉識別子を編成することを有する、
ことを特徴とする媒体。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15237509P | 2009-02-13 | 2009-02-13 | |
US61/152,375 | 2009-02-13 | ||
US12/658,531 US8554696B2 (en) | 2009-02-13 | 2010-02-10 | Efficient computation of ontology affinity matrices |
US12/658,531 | 2010-02-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010191962A JP2010191962A (ja) | 2010-09-02 |
JP5440235B2 true JP5440235B2 (ja) | 2014-03-12 |
Family
ID=42199639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010030410A Expired - Fee Related JP5440235B2 (ja) | 2009-02-13 | 2010-02-15 | オントロジーの類似性行列の効率的な計算 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8554696B2 (ja) |
EP (1) | EP2219121A1 (ja) |
JP (1) | JP5440235B2 (ja) |
CN (1) | CN101807201A (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2423866A1 (en) * | 2010-08-30 | 2012-02-29 | ETH Zurich | Method and devices for targeted distribution of data |
US8719214B2 (en) * | 2011-09-23 | 2014-05-06 | Fujitsu Limited | Combining medical binary decision diagrams for analysis optimization |
IN2013MU02217A (ja) * | 2013-07-01 | 2015-06-12 | Tata Consultancy Services Ltd | |
US11151171B2 (en) * | 2018-04-27 | 2021-10-19 | International Business Machines Corporation | Accessing faceted information using ontologies |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0496177A (ja) * | 1990-08-08 | 1992-03-27 | Ricoh Co Ltd | 文書検索方法及びそのキーワード関連度表作成装置 |
JP3427674B2 (ja) * | 1997-05-27 | 2003-07-22 | 富士ゼロックス株式会社 | 関連語提示装置及び関連語提示用プログラムを記録した媒体 |
US6996572B1 (en) * | 1997-10-08 | 2006-02-07 | International Business Machines Corporation | Method and system for filtering of information entities |
US6651096B1 (en) * | 1999-04-20 | 2003-11-18 | Cisco Technology, Inc. | Method and apparatus for organizing, storing and evaluating access control lists |
US6665665B1 (en) * | 1999-07-30 | 2003-12-16 | Verizon Laboratories Inc. | Compressed document surrogates |
US6587848B1 (en) * | 2000-03-08 | 2003-07-01 | International Business Machines Corporation | Methods and apparatus for performing an affinity based similarity search |
US6925460B2 (en) * | 2001-03-23 | 2005-08-02 | International Business Machines Corporation | Clustering data including those with asymmetric relationships |
US7165024B2 (en) * | 2002-02-22 | 2007-01-16 | Nec Laboratories America, Inc. | Inferring hierarchical descriptions of a set of documents |
US6847966B1 (en) * | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
US7016914B2 (en) * | 2002-06-05 | 2006-03-21 | Microsoft Corporation | Performant and scalable merge strategy for text indexing |
US8676830B2 (en) | 2004-03-04 | 2014-03-18 | Yahoo! Inc. | Keyword recommendation for internet search engines |
EP1817693A1 (en) * | 2004-09-29 | 2007-08-15 | Panscient Pty Ltd. | Machine learning system |
WO2006125271A1 (en) | 2005-05-27 | 2006-11-30 | Damit Australia Pty Ltd | A digital asset management system |
WO2007038713A2 (en) * | 2005-09-28 | 2007-04-05 | Epacris Inc. | Search engine determining results based on probabilistic scoring of relevance |
US9015569B2 (en) * | 2006-08-31 | 2015-04-21 | International Business Machines Corporation | System and method for resource-adaptive, real-time new event detection |
US8250075B2 (en) * | 2006-12-22 | 2012-08-21 | Palo Alto Research Center Incorporated | System and method for generation of computer index files |
JP5194856B2 (ja) * | 2007-02-07 | 2013-05-08 | 富士通株式会社 | コンパクトな決定図を用いた効率的インデックス付け |
US7657507B2 (en) * | 2007-03-02 | 2010-02-02 | Microsoft Corporation | Pseudo-anchor text extraction for vertical search |
US8171030B2 (en) * | 2007-06-18 | 2012-05-01 | Zeitera, Llc | Method and apparatus for multi-dimensional content search and video identification |
JP4848317B2 (ja) * | 2007-06-19 | 2011-12-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データベースのインデックス作成システム、方法及びプログラム |
US8171029B2 (en) * | 2007-10-05 | 2012-05-01 | Fujitsu Limited | Automatic generation of ontologies using word affinities |
-
2010
- 2010-02-10 US US12/658,531 patent/US8554696B2/en not_active Expired - Fee Related
- 2010-02-11 EP EP10153368A patent/EP2219121A1/en not_active Ceased
- 2010-02-12 CN CN201010117358A patent/CN101807201A/zh active Pending
- 2010-02-15 JP JP2010030410A patent/JP5440235B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101807201A (zh) | 2010-08-18 |
EP2219121A1 (en) | 2010-08-18 |
JP2010191962A (ja) | 2010-09-02 |
US8554696B2 (en) | 2013-10-08 |
US20100211534A1 (en) | 2010-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5531395B2 (ja) | 単語親和度による単語クラスタの識別 | |
US8171029B2 (en) | Automatic generation of ontologies using word affinities | |
JP5423030B2 (ja) | ワードセットに関係するワードの決定 | |
US8533203B2 (en) | Identifying synonyms of entities using a document collection | |
JP5353173B2 (ja) | 文書の具体性の決定 | |
EP2045734A2 (en) | Automatically generating a hierarchy of terms | |
US20100217742A1 (en) | Generating A Domain Corpus And A Dictionary For An Automated Ontology | |
US20100217764A1 (en) | Generating A Dictionary And Determining A Co-Occurrence Context For An Automated Ontology | |
WO2013133985A1 (en) | Entity augmentation service from latent relational data | |
US20090094209A1 (en) | Determining The Depths Of Words And Documents | |
US20090024616A1 (en) | Content retrieving device and retrieving method | |
JP5235918B2 (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
WO2014047214A1 (en) | Hierarchical ordering of strings | |
US7587407B2 (en) | System and method for creation, representation, and delivery of document corpus entity co-occurrence information | |
KR20180129001A (ko) | 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템 | |
JP5440235B2 (ja) | オントロジーの類似性行列の効率的な計算 | |
CN115129850A (zh) | 基于学术异质网络表示学习的参考文献引荐方法及设备 | |
JP2010507857A (ja) | 高速データベースマッチング | |
Khan et al. | Metadata for Efficient Management of Digital News Articles in Multilingual News Archives | |
KR20120079968A (ko) | 바이소스 토픽모델을 이용한 이미지 연관 검색 방법 및 그 시스템 | |
CN112906378A (zh) | 用于辅助文本生成的方法和设备与存储介质 | |
EP2638481A1 (en) | Seed set expansion | |
De Vine et al. | Efficient analogy completion with word embedding clusters | |
EP2090992A2 (en) | Determining words related to a given set of words | |
US11860876B1 (en) | Systems and methods for integrating datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5440235 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |