JP5338238B2 - ワードの類似性を用いたオントロジーの自動生成 - Google Patents
ワードの類似性を用いたオントロジーの自動生成 Download PDFInfo
- Publication number
- JP5338238B2 JP5338238B2 JP2008259624A JP2008259624A JP5338238B2 JP 5338238 B2 JP5338238 B2 JP 5338238B2 JP 2008259624 A JP2008259624 A JP 2008259624A JP 2008259624 A JP2008259624 A JP 2008259624A JP 5338238 B2 JP5338238 B2 JP 5338238B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- similarity
- index list
- calculating
- reverse index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
[関連出願]
本願は、デイビッド・マービットらにより2007年10月5日に出願された米国仮出願第60/977,770号、発明の名称「ワードの類似性を用いたオントロジーの自動生成」、代理人管理番号第073338.0544号の米国特許法第119条(e)項の利益を主張するものである。
1. ドメイン内の文書の収集
実施形態では、文書はターム(collection of terms)の集まりである。文書とは、例えば新約聖書などの可読テキストである。文書は、必ずしも物語形式のテキストでなくてもよく、例えば画像コンテンツを個別かつ集合的に記述する一組のユーザ入力タグであってもよい。文書の集まりを「ドメイン・コーパス(domain corpus)」と呼ぶ。
2. ドメイン内の関心ターム(「辞書ターム」)の特定
ターム(terms)の例には、ワード(「木」など)、フレーズ(「グラフ・アルゴリズム」など)、ネームド・エンティティ(named entity)(「ニューヨーク」など)が含まれる。ターム(または概念)は違った形式を取りうる。場合によっては、同じ概念を表すのに異なるワード(words)を使用する。例えば、「kidney stones」と「kidney calculi」は両方とも同じ概念、すなわち「腎臓結石」を指す。また、場合によっては、語幹から多数の派生語(inflected variants)が生じる。例えば、語幹「tree」からは「木」や「木々」などの派生語がある。実施形態によっては、同じターム(term)の複数の形態(forms)を、同じタームにマッピングしたものとして取り扱う。適切な形態の辞書タームが文書に出てくるかも知れないが、その辞書タームがどの文書にも出てこなくてもよい。
3. 共起コンテキストにおける辞書タームの共起数を計算する。
4. ドメイン・オントロジーとなる有向重みつきグラフを作成する。
5. 有向重みつきグラフを問い合わせる手順を適用する。
1. 基本類似性
a) タームAとタームBとの間の基本類似性を、そのタームAまたはBのいずれかを含むコンテキスト数に対する、タームA及びBを両方とも含むコンテキスト数の比として定義する。
タームAとタームBとの間の有向類似性(DAff)を、コンテキスト中にタームAが出現することを条件として、タームBが出現する条件付き確率として定義してもよい。
タームAとタームBとの間の差分有向類似性(DiffDAff)は、タームAとBとの間の有向類似性から、コーパスにおけるタームBの一般性(common-ness)を示すファクタを引いたものとして定義してもよい。コーパスにおけるタームBの一般性は、そのコーパス中の他のタームに対するタームBの基本類似性または有向類似性の統計値である。一実施形態では、コーパスにおけるタームBの一般性(common-ness)は、タームBの平均類似性(AA)である。その場合、差分有向類似性の定義は次のようになる:
一実施形態では、ワード推奨器48は、シード・ワード(seed word)を受け取り、そのシード・ワードとの類似性が閾値より高いワードを特定する。類似性閾値は任意の適切な値であり、0.25、0.5、0.75、0.95やこれらより大きな値であってもよい。類似性閾値は予めプログラムしても、ユーザが指定してもよい。
(付記1) 有体記憶媒体に記憶された逆インデックスにアクセスする段階であって、前記逆インデックスは言語の複数のワードの複数の逆インデックスリストを含み、逆インデックスリストは前記ワードを含むページを示すワードに対応する段階と、
第1のワードと第2のワードを含む、前記複数のワードの各ワードペアに対して、
第1の逆インデックスリストと第2の逆インデックスリストとを検索する段階であって、前記第1の逆インデックスリストは前記第1のワードに対応し、前記第2の逆インデックスリストは前記第2のワードに対応する段階と、
前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の、前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階とを含む方法。
(付記2) 前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
前記第1のワードまたは前記第2のワードを含むページ数を示す選言ページ数を求める段階と、
前記連言ページ数を前記選言ページ数で割る段階と
により前記第1のワードと前記第2のワードとの間の基本類似性を計算する段階を含む、付記1に記載の方法。
(付記3) 前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
前記第1のワードを含むページ数を示す第1のワードページ数を求める段階と、
前記連言ページ数を前記第1のワードページ数で割る段階と
により前記第2のワードがあるときの前記第1のワードの有向類似性を計算する段階を含む、付記1に記載の方法。
(付記4) 前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
前記複数のワードの各ワードペアに対して、前記各ワードペアのワード間の有向類似性を計算して複数の有向類似性を求める段階と、
前記有向類似性の平均を計算する段階と
により前記第1のワードの平均類似性を計算する段階を含む、付記1に記載の方法。
(付記5) 前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
前記第2のワードに対する前記第1のワードの有向類似性を計算する段階と、
前記第2のワードの平均類似性を計算する段階と、
前記第2のワードに対する前記第1のワードの有向類似性から前記第2のワードの前記平均類似性を引く段階と
により前記第2のワードに対する前記第1のワードの差分類似性を計算する段階を含む、付記1に記載の方法。
(付記6) ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する段階をさらに有する、付記1に記載の方法。
(付記7) 前記逆インデックスリストの各要素に対して
前記各要素を複数のビット値を含むバイナリ値として表す段階と、
前記ブーリアン関数の変数で各ビット値を表す段階と、
前記各要素から最小項を構成する段階と、
前記最小項のOR演算により前記ブーリアン関数を構成する段階と
を実行することにより、ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する段階をさらに有する、付記1に記載の方法。
(付記8) 前記逆インデックスリストの各要素に対して
複数の2k進桁を有する2k進値として前記各要素を表す段階と、
各2k進桁をエンコードして複数のビット値を有するエンコードされた2k進桁を求める段階と、
前記ブーリアン関数の変数で各ビット値を表す段階と
を実行することにより、ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する段階をさらに有する、付記1に記載の方法。
(付記9) ブーリアン関数により前記逆インデックスリストを表す段階と、
前記バイナリ・ディシジョン・ダイアグラムの複数のノードを求める段階と、
各ノードのノード構成を決定する段階と
により前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する段階をさらに有する、付記1に記載の方法。
(付記10) 前記第1の逆インデックスリストと前記第2の逆インデックスリストを探索する段階は、さらに、
前記第1の逆インデックスリストを表す第1のバイナリ・ディシジョン・ダイアグラムを探索する段階と、
前記第2の逆インデックスリストを表す第2のバイナリ・ディシジョン・ダイアグラムを探索する段階と
を含む、付記1に記載の方法。
(付記11) 前記第1の逆インデックスリストと前記第2の逆インデックスリストを探索する段階は、さらに、前記第1の逆インでクスリストまたは前記第2の逆インデックスリストの終わりに到達するまで、
前記第1の逆インデックスリストまたは前記第2の逆インデックスリストを含むカレント逆インデックスリストのカレント要素を求める段階と、
他の逆インデックスリストから次に大きい要素を読み出す段階と、
前記次に大きい要素と前記カレント要素とを比較する段階と、
前記次に大きい要素が前記カレント要素と一致した場合、共通の要素を記録する段階と
を繰り返すことにより、前記第1の逆インデックスリストを表す第1のバイナリ・ディシジョン・ダイアグラムと、前記第2の逆インデックスリストを表す第2のバイナリ・ディシジョン・ダイアグラムを探索する段階を含む、付記1に記載の方法。
(付記12) 実行したとき、
有体記憶媒体に記憶された逆インデックスにアクセスする段階であって、前記逆インデックスは言語の複数のワードの複数の逆インデックスリストを含み、逆インデックスリストは前記ワードを含むページを示すワードに対応する段階と、
第1のワードと第2のワードを含む、前記複数のワードの各ワードペアに対して、
第1の逆インデックスリストと第2の逆インデックスリストとを検索する段階であって、前記第1の逆インデックスリストは前記第1のワードに対応し、前記第2の逆インデックスリストは前記第2のワードに対応する段階と、
前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の、前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階と
を実行するソフトウェアをエンコードしたコンピュータ読み取り可能媒体。
(付記13) 前記ソフトウェアは、さらに、
前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
前記第1のワードまたは前記第2のワードを含むページ数を示す選言ページ数を求める段階と、
前記連言ページ数を前記選言ページ数で割る段階と
により前記第1のワードと前記第2のワードとの間の基本類似性を計算することにより、前記第1のワードと前記第2のワードとの間の前記類似性を計算する、付記12に記載のコンピュータ読み取り可能媒体。
(付記14) 前記ソフトウェアは、さらに、
前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
前記第1のワードを含むページ数を示す第1のワードページ数を求める段階と、
前記連言ページ数を前記第1のワードページ数で割る段階と
により前記第2のワードが与えられたときの前記第1のワードの有向類似性を計算することにより、前記第1のワードと前記第2のワードとの間の前記類似性を計算する、付記12に記載のコンピュータ読み取り可能媒体。
(付記15) 前記ソフトウェアは、さらに、
前記複数のワードの各ワードに対して、前記各ワードペアのワード間の有向類似性を計算して複数の有向類似性を求める段階と、
前記有向類似性の平均を計算する段階と
により前記第1のワードの平均類似性を計算することにより、前記第1のワードと前記第2のワードとの間の前記類似性を計算する、付記12に記載のコンピュータ読み取り可能媒体。
(付記16) 前記ソフトウェアは、さらに、
前記第2のワードに対する前記第1のワードの有向類似性を計算する段階と、
前記第2のワードの平均類似性を計算する段階と、
前記第2のワードに対する前記第1のワードの有向類似性から前記第2のワードの前記平均類似性を引く段階と
により前記第2のワードに対する前記第1のワードの差分類似性を計算することにより、前記第1のワードと前記第2のワードとの間の前記類似性を計算する、付記12に記載のコンピュータ読み取り可能媒体。
(付記17) 前記ソフトウェアは、
ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する、付記12に記載のコンピュータ読み取り可能媒体。
(付記18) 前記ソフトウェアは、
前記逆インデックスリストの各要素に対して
前記各要素を複数のビット値を含むバイナリ値として表す段階と、
前記ブーリアン関数の変数で各ビット値を表す段階と、
前記各要素から最小項を構成する段階と、
前記最小項のOR演算により前記ブーリアン関数を構成する段階と
を実行することにより、ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する、付記12に記載のコンピュータ読み取り可能媒体。
(付記19) 前記ソフトウェアは、
前記逆インデックスリストの各要素に対して
複数の2k進桁を有する2k進値として前記各要素を表す段階と、
各2k進桁をエンコードして複数のビット値を有するエンコードされた2k進桁を求める段階と、
前記ブーリアン関数の変数で各ビット値を表す段階と
を実行することにより、ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する、付記12に記載のコンピュータ読み取り可能媒体。
(付記20) 前記ソフトウェアは、
ブーリアン関数により前記逆インデックスリストを表す段階と、
前記バイナリ・ディシジョン・ダイアグラムの複数のノードを求める段階と、
各ノードのノード構成を決定する段階と
により前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する、付記12に記載のコンピュータ読み取り可能媒体。
(付記21) 前記ソフトウェアは、
前記第1の逆インデックスリストを表す第1のバイナリ・ディシジョン・ダイアグラムを探索する段階と、
前記第2の逆インデックスリストを表す第2のバイナリ・ディシジョン・ダイアグラムを探索する段階と
により前記第1の逆インデックスリストと前記第2の逆インデックスリストを探索する、付記12に記載のコンピュータ読み取り可能媒体。
(付記22) 前記ソフトウェアは、さらに、前記第1の逆インでクスリストまたは前記第2の逆インデックスリストの終わりに到達するまで、
前記第1の逆インデックスリストまたは前記第2の逆インデックスリストを含むカレント逆インデックスリストのカレント要素を求める段階と、
他の逆インデックスリストから次に大きい要素を読み出す段階と、
前記次に大きい要素と前記カレント要素とを比較する段階と、
前記次に大きい要素が前記カレント要素と一致した場合、共通の要素を記録する段階と
を繰り返すことにより、前記第1の逆インデックスリストを表す第1のバイナリ・ディシジョン・ダイアグラムと、前記第2の逆インデックスリストを表す第2のバイナリ・ディシジョン・ダイアグラムを探索することにより、前記第1の逆インデックスリストと前記第2の逆インデックスリストを探索する、付記12に記載のコンピュータ読み取り可能媒体。
(付記23) 有体記憶媒体に記憶された逆インデックスにアクセスする手段であって、前記逆インデックスは言語の複数のワードの複数の逆インデックスリストを含み、逆インデックスリストは前記ワードを含むページを示すワードに対応する手段と、
第1のワードと第2のワードを含む、前記複数のワードの各ワードペアに対して、
第1の逆インデックスリストと第2の逆インデックスリストとを検索し、前記第1の逆インデックスリストは前記第1のワードに対応し、前記第2の逆インデックスリストは前記第2のワードに対応し、
前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の、前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算し、
前記類似性を類似性マトリックスに記録する手段と、
前記類似性マトリックスをレポートする手段と
を有するシステム。
22 サーバ
24 メモリ
26 ディシジョン・ダイアグラム・エンジン
30 類似性モジュール
34 類似性計算器
38 オントロジー生成器
42 類似性マトリックス生成器
46 類似性グラフ生成器
48 ワード推奨器
50 ページ
54 レコード
58 インデックス
62 逆インデックス
66 オントロジー
70 類似性マトリックス
74 類似性グラフ
Claims (12)
- 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
前記第1のワードまたは前記第2のワードを含むページ数を示す選言ページ数を求める段階と、
前記連言ページ数を前記選言ページ数で割る段階と
により前記第1のワードと前記第2のワードとの間の基本類似性を計算する段階を含む、方法。 - 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
前記第1のワードを含むページ数を示す第1のワードページ数を求める段階と、
前記連言ページ数を前記第1のワードページ数で割る段階と
により前記第2のワードがあるときの前記第1のワードの有向類似性を計算する段階を含む、方法。 - 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
前記複数のワードから選択された各ワードペアに対して、前記各ワードペアのワード間の有向類似性を計算して複数の有向類似性を求める段階と、
前記有向類似性の平均を計算する段階と
により前記第1のワードの平均類似性を計算する段階を含む、方法。 - 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
前記第2のワードに対する前記第1のワードの有向類似性を計算する段階と、
前記第2のワードの平均類似性を計算する段階と、
前記第2のワードに対する前記第1のワードの有向類似性から前記第2のワードの前記平均類似性を引く段階と
により前記第2のワードに対する前記第1のワードの差分類似性を計算する段階を含む、方法。 - 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により逆インデックスリストを記憶する段階をさらにコンピュータが実行する、方法。 - 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
前記逆インデックスリストの各要素に対して
前記各要素を複数のビット値を含むバイナリ値として表す段階と、
前記ブーリアン関数の変数で各ビット値を表す段階と、
前記各要素から最小項を構成する段階と、
前記最小項のOR演算により前記ブーリアン関数を構成する段階と
を実行することにより、ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により逆インデックスリストを記憶する段階をさらにコンピュータが実行する、方法。 - 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
前記逆インデックスリストの各要素に対して
複数の2k進桁を有する2k進値として前記各要素を表す段階と、
各2k進桁をエンコードして複数のビット値を有するエンコードされた2k進桁を求める段階と、
前記ブーリアン関数の変数で各ビット値を表す段階と
を実行することにより、ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により逆インデックスリストを記憶する段階をさらにコンピュータが実行する、方法。 - 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
ブーリアン関数により前記逆インデックスリストを表す段階と、
前記バイナリ・ディシジョン・ダイアグラムの複数のノードを求める段階と、
各ノードのノード構成を決定する段階と
により前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により逆インデックスリストを記憶する段階をさらにコンピュータが実行する、方法。 - 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
前記第1の逆インデックスリストと前記第2の逆インデックスリストとを検索する段階は、さらに、
前記第1の逆インデックスリストを表す第1のバイナリ・ディシジョン・ダイアグラムを探索する段階と、
前記第2の逆インデックスリストを表す第2のバイナリ・ディシジョン・ダイアグラムを探索する段階と
を含む、方法。 - 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
前記第1の逆インデックスリストと前記第2の逆インデックスリストとを検索する段階は、さらに、前記第1の逆インデックスリストまたは前記第2の逆インデックスリストの終わりに到達するまで、
前記第1の逆インデックスリストまたは前記第2の逆インデックスリストを含むカレント逆インデックスリストのカレント要素を求める段階と、
他の逆インデックスリストから次に大きい要素を読み出す段階と、
前記次に大きい要素と前記カレント要素とを比較する段階と、
前記次に大きい要素が前記カレント要素と一致した場合、共通の要素を記録する段階と
を繰り返すことにより、前記第1の逆インデックスリストを表す第1のバイナリ・ディシジョン・ダイアグラムと、前記第2の逆インデックスリストを表す第2のバイナリ・ディシジョン・ダイアグラムを探索する段階を含む、方法。 - コンピュータに、
有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階と
を実行させるためのソフトウェアを記憶したコンピュータ読み取り可能な記憶媒体であって、
前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
(i)前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
前記第1のワードまたは前記第2のワードを含むページ数を示す選言ページ数を求める段階と、
前記連言ページ数を前記選言ページ数で割る段階と
により前記第1のワードと前記第2のワードとの間の基本類似性を計算する段階;
(ii)前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
前記第1のワードを含むページ数を示す第1のワードページ数を求める段階と、
前記連言ページ数を前記第1のワードページ数で割る段階と
により前記第2のワードがあるときの前記第1のワードの有向類似性を計算する段階;
(iii)前記複数のワードから選択された各ワードペアに対して、前記各ワードペアのワード間の有向類似性を計算して複数の有向類似性を求める段階と、
前記有向類似性の平均を計算する段階と
により前記第1のワードの平均類似性を計算する段階;
(iv)前記第2のワードに対する前記第1のワードの有向類似性を計算する段階と、
前記第2のワードの平均類似性を計算する段階と、
前記第2のワードに対する前記第1のワードの有向類似性から前記第2のワードの前記平均類似性を引く段階と
により前記第2のワードに対する前記第1のワードの差分類似性を計算する段階、
のうちのいずれか一つを含む、コンピュータ読み取り可能な記憶媒体。 - 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索し、検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算し、
前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する手段と、
前記類似性マトリックスをレポートする手段と
を有するシステムであって、
前記第1のワードと前記第2のワードとの間の前記類似性を計算する処理は、
(i)前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
前記第1のワードまたは前記第2のワードを含むページ数を示す選言ページ数を求める段階と、
前記連言ページ数を前記選言ページ数で割る段階と
により前記第1のワードと前記第2のワードとの間の基本類似性を計算する段階;
(ii)前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
前記第1のワードを含むページ数を示す第1のワードページ数を求める段階と、
前記連言ページ数を前記第1のワードページ数で割る段階と
により前記第2のワードがあるときの前記第1のワードの有向類似性を計算する段階;
(iii)前記複数のワードから選択された各ワードペアに対して、前記各ワードペアのワード間の有向類似性を計算して複数の有向類似性を求める段階と、
前記有向類似性の平均を計算する段階と
により前記第1のワードの平均類似性を計算する段階;
(iv)前記第2のワードに対する前記第1のワードの有向類似性を計算する段階と、
前記第2のワードの平均類似性を計算する段階と、
前記第2のワードに対する前記第1のワードの有向類似性から前記第2のワードの前記平均類似性を引く段階と
により前記第2のワードに対する前記第1のワードの差分類似性を計算する段階、
のうちのいずれか一つを含む、システム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US97777007P | 2007-10-05 | 2007-10-05 | |
US60/977,770 | 2007-10-05 | ||
US12/242,950 | 2008-10-01 | ||
US12/242,950 US8171029B2 (en) | 2007-10-05 | 2008-10-01 | Automatic generation of ontologies using word affinities |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009110513A JP2009110513A (ja) | 2009-05-21 |
JP5338238B2 true JP5338238B2 (ja) | 2013-11-13 |
Family
ID=40219500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008259624A Expired - Fee Related JP5338238B2 (ja) | 2007-10-05 | 2008-10-06 | ワードの類似性を用いたオントロジーの自動生成 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8171029B2 (ja) |
EP (1) | EP2045731A1 (ja) |
JP (1) | JP5338238B2 (ja) |
CN (1) | CN101430695B (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8171029B2 (en) | 2007-10-05 | 2012-05-01 | Fujitsu Limited | Automatic generation of ontologies using word affinities |
US8306987B2 (en) * | 2008-04-03 | 2012-11-06 | Ofer Ber | System and method for matching search requests and relevant data |
US8150829B2 (en) * | 2008-04-11 | 2012-04-03 | Fujitsu Limited | Facilitating display of an interactive and dynamic cloud of terms related to one or more input terms |
US8554696B2 (en) * | 2009-02-13 | 2013-10-08 | Fujitsu Limited | Efficient computation of ontology affinity matrices |
US8332434B2 (en) * | 2009-09-30 | 2012-12-11 | Business Objects Software Limited | Method and system for finding appropriate semantic web ontology terms from words |
US8762375B2 (en) * | 2010-04-15 | 2014-06-24 | Palo Alto Research Center Incorporated | Method for calculating entity similarities |
US9138143B2 (en) | 2010-08-17 | 2015-09-22 | Fujitsu Limited | Annotating medical data represented by characteristic functions |
US8874607B2 (en) * | 2010-08-17 | 2014-10-28 | Fujitsu Limited | Representing sensor data as binary decision diagrams |
US8930394B2 (en) * | 2010-08-17 | 2015-01-06 | Fujitsu Limited | Querying sensor data stored as binary decision diagrams |
US9002781B2 (en) | 2010-08-17 | 2015-04-07 | Fujitsu Limited | Annotating environmental data represented by characteristic functions |
US8527518B2 (en) * | 2010-12-16 | 2013-09-03 | Sap Ag | Inverted indexes with multiple language support |
US8498972B2 (en) * | 2010-12-16 | 2013-07-30 | Sap Ag | String and sub-string searching using inverted indexes |
US8719214B2 (en) * | 2011-09-23 | 2014-05-06 | Fujitsu Limited | Combining medical binary decision diagrams for analysis optimization |
US9176819B2 (en) | 2011-09-23 | 2015-11-03 | Fujitsu Limited | Detecting sensor malfunctions using compression analysis of binary decision diagrams |
US8620854B2 (en) * | 2011-09-23 | 2013-12-31 | Fujitsu Limited | Annotating medical binary decision diagrams with health state information |
US9075908B2 (en) | 2011-09-23 | 2015-07-07 | Fujitsu Limited | Partitioning medical binary decision diagrams for size optimization |
JP5113936B1 (ja) * | 2011-11-24 | 2013-01-09 | 楽天株式会社 | 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体 |
JP5595426B2 (ja) * | 2012-01-05 | 2014-09-24 | 日本電信電話株式会社 | 単語抽出方法及び装置及びプログラム |
WO2013121810A1 (ja) * | 2012-02-16 | 2013-08-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキストの文書を解析する装置、プログラムおよび方法 |
CN103714096B (zh) | 2012-10-09 | 2018-02-13 | 阿里巴巴集团控股有限公司 | 基于Lucene的倒排索引系统构建、数据处理方法及装置 |
US8914416B2 (en) * | 2013-01-31 | 2014-12-16 | Hewlett-Packard Development Company, L.P. | Semantics graphs for enterprise communication networks |
IN2013MU02217A (ja) * | 2013-07-01 | 2015-06-12 | Tata Consultancy Services Ltd | |
KR101910491B1 (ko) * | 2016-12-07 | 2018-10-22 | 전북대학교 산학협력단 | 가변길이 그램의 역리스트 동적 생성을 이용한 유사 문자열 검색 방법 및 장치 |
US20220318284A1 (en) * | 2020-12-31 | 2022-10-06 | Proofpoint, Inc. | Systems and methods for query term analytics |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6996572B1 (en) * | 1997-10-08 | 2006-02-07 | International Business Machines Corporation | Method and system for filtering of information entities |
US6654731B1 (en) * | 1999-03-01 | 2003-11-25 | Oracle Corporation | Automated integration of terminological information into a knowledge base |
US6651096B1 (en) * | 1999-04-20 | 2003-11-18 | Cisco Technology, Inc. | Method and apparatus for organizing, storing and evaluating access control lists |
US6587848B1 (en) * | 2000-03-08 | 2003-07-01 | International Business Machines Corporation | Methods and apparatus for performing an affinity based similarity search |
US6925460B2 (en) * | 2001-03-23 | 2005-08-02 | International Business Machines Corporation | Clustering data including those with asymmetric relationships |
JP2003288352A (ja) * | 2002-01-23 | 2003-10-10 | Matsushita Electric Ind Co Ltd | 情報分析表示装置及び情報分析表示プログラム |
US7225183B2 (en) * | 2002-01-28 | 2007-05-29 | Ipxl, Inc. | Ontology-based information management system and method |
AU2003210795A1 (en) * | 2002-02-01 | 2003-09-02 | John Fairweather | System and method for analyzing data |
US7165024B2 (en) * | 2002-02-22 | 2007-01-16 | Nec Laboratories America, Inc. | Inferring hierarchical descriptions of a set of documents |
US6847966B1 (en) * | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
US7231379B2 (en) * | 2002-11-19 | 2007-06-12 | Noema, Inc. | Navigation in a hierarchical structured transaction processing system |
US7149748B1 (en) * | 2003-05-06 | 2006-12-12 | Sap Ag | Expanded inverted index |
US8676830B2 (en) | 2004-03-04 | 2014-03-18 | Yahoo! Inc. | Keyword recommendation for internet search engines |
US7266548B2 (en) * | 2004-06-30 | 2007-09-04 | Microsoft Corporation | Automated taxonomy generation |
CN100535895C (zh) * | 2004-08-23 | 2009-09-02 | 富士施乐株式会社 | 文本检索装置及方法 |
US7698270B2 (en) * | 2004-12-29 | 2010-04-13 | Baynote, Inc. | Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge |
JP2006215850A (ja) * | 2005-02-04 | 2006-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体 |
US7805300B2 (en) * | 2005-03-21 | 2010-09-28 | At&T Intellectual Property Ii, L.P. | Apparatus and method for analysis of language model changes |
WO2006125271A1 (en) | 2005-05-27 | 2006-11-30 | Damit Australia Pty Ltd | A digital asset management system |
US7856446B2 (en) * | 2005-12-27 | 2010-12-21 | Baynote, Inc. | Method and apparatus for determining usefulness of a digital asset |
US8171029B2 (en) | 2007-10-05 | 2012-05-01 | Fujitsu Limited | Automatic generation of ontologies using word affinities |
US8041702B2 (en) * | 2007-10-25 | 2011-10-18 | International Business Machines Corporation | Ontology-based network search engine |
-
2008
- 2008-10-01 US US12/242,950 patent/US8171029B2/en not_active Expired - Fee Related
- 2008-10-02 EP EP08165760A patent/EP2045731A1/en not_active Ceased
- 2008-10-06 CN CN200810165999XA patent/CN101430695B/zh not_active Expired - Fee Related
- 2008-10-06 JP JP2008259624A patent/JP5338238B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101430695B (zh) | 2012-06-06 |
JP2009110513A (ja) | 2009-05-21 |
EP2045731A1 (en) | 2009-04-08 |
US8171029B2 (en) | 2012-05-01 |
US20090094262A1 (en) | 2009-04-09 |
CN101430695A (zh) | 2009-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5338238B2 (ja) | ワードの類似性を用いたオントロジーの自動生成 | |
JP5531395B2 (ja) | 単語親和度による単語クラスタの識別 | |
US9317593B2 (en) | Modeling topics using statistical distributions | |
US8533203B2 (en) | Identifying synonyms of entities using a document collection | |
JP5391633B2 (ja) | オントロジー空間を規定するタームの推奨 | |
US8332439B2 (en) | Automatically generating a hierarchy of terms | |
JP5353173B2 (ja) | 文書の具体性の決定 | |
US8560485B2 (en) | Generating a domain corpus and a dictionary for an automated ontology | |
JP5621773B2 (ja) | 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム | |
US8200671B2 (en) | Generating a dictionary and determining a co-occurrence context for an automated ontology | |
JP5391632B2 (ja) | ワードと文書の深さの決定 | |
WO2014210387A2 (en) | Concept extraction | |
CN115374781A (zh) | 文本数据信息挖掘方法、装置、设备 | |
Zaware et al. | Text summarization using tf-idf and textrank algorithm | |
JP5440235B2 (ja) | オントロジーの類似性行列の効率的な計算 | |
CN117972025B (zh) | 一种基于语义分析的海量文本检索匹配方法 | |
D'Aniello et al. | Decoding Knowledge Claims: The Evaluation of Scientific Publication Contributions through Semantic Analysis | |
CN112990465A (zh) | 佛学知识萃取方法、装置、设备及存储介质 | |
Crane | Improved Indexing & Searching Throughput. | |
Font Corbera et al. | Folksonomy-based tag recommendation for collaborative tagging systems | |
EP2045736A1 (en) | Identifying clusters of words according to word affinities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110708 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130416 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130722 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |