JP5338238B2 - ワードの類似性を用いたオントロジーの自動生成 - Google Patents

ワードの類似性を用いたオントロジーの自動生成 Download PDF

Info

Publication number
JP5338238B2
JP5338238B2 JP2008259624A JP2008259624A JP5338238B2 JP 5338238 B2 JP5338238 B2 JP 5338238B2 JP 2008259624 A JP2008259624 A JP 2008259624A JP 2008259624 A JP2008259624 A JP 2008259624A JP 5338238 B2 JP5338238 B2 JP 5338238B2
Authority
JP
Japan
Prior art keywords
word
similarity
index list
calculating
reverse index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008259624A
Other languages
English (en)
Other versions
JP2009110513A (ja
Inventor
マーヴィット デイヴィド
ジャイン ジャワハー
ステルギオウ ステリオス
ラブロウ ヤニス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2009110513A publication Critical patent/JP2009110513A/ja
Application granted granted Critical
Publication of JP5338238B2 publication Critical patent/JP5338238B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は辞書分析に関し、より具体的にはワードの類似性を用いたオントロジーの自動生成に関する。
データのコーパス(corpus)は大量の情報を保持し、関連する情報を見つけるのは困難である。キーワード検索が情報を見つける主な方法である。しかし、場合によっては、キーワード検索は情報を見つける効果的な方法ではない。
[関連出願]
本願は、デイビッド・マービットらにより2007年10月5日に出願された米国仮出願第60/977,770号、発明の名称「ワードの類似性を用いたオントロジーの自動生成」、代理人管理番号第073338.0544号の米国特許法第119条(e)項の利益を主張するものである。
一実施形態では、オントロジーの生成には、言語のワードの逆インデックスリストを含む逆インデックスへのアクセスを含む。あるワードに対応する逆インデックスリストは、そのワードを含むページを示すものである。ワードペアは第1のワードと第2のワードとを含む。第1の逆インデックスリストと第2の逆インデックスリストとを検索する。第1の逆インデックスリストは第1のワードに対応し、第2の逆インデックスリストは第2のワードに対応する。第1のワードと第2のワードの間の類似性(affinity)を第1の逆インデックスリストと第2の逆インデックスリストとにより計算する。類似性は第1のワードと第2のワードとの間の関係を数量的に記述する。類似性を類似性マトリックスに記録し、その類似性マトリックスをレポートする。
実施形態では、ドメイン・オントロジー(domain ontology)の生成と問い合わせには次のものを含む:
1. ドメイン内の文書の収集
実施形態では、文書はターム(collection of terms)の集まりである。文書とは、例えば新約聖書などの可読テキストである。文書は、必ずしも物語形式のテキストでなくてもよく、例えば画像コンテンツを個別かつ集合的に記述する一組のユーザ入力タグであってもよい。文書の集まりを「ドメイン・コーパス(domain corpus)」と呼ぶ。
2. ドメイン内の関心ターム(「辞書ターム」)の特定
ターム(terms)の例には、ワード(「木」など)、フレーズ(「グラフ・アルゴリズム」など)、ネームド・エンティティ(named entity)(「ニューヨーク」など)が含まれる。ターム(または概念)は違った形式を取りうる。場合によっては、同じ概念を表すのに異なるワード(words)を使用する。例えば、「kidney stones」と「kidney calculi」は両方とも同じ概念、すなわち「腎臓結石」を指す。また、場合によっては、語幹から多数の派生語(inflected variants)が生じる。例えば、語幹「tree」からは「木」や「木々」などの派生語がある。実施形態によっては、同じターム(term)の複数の形態(forms)を、同じタームにマッピングしたものとして取り扱う。適切な形態の辞書タームが文書に出てくるかも知れないが、その辞書タームがどの文書にも出てこなくてもよい。
辞書タームの特定方法の例には、例えば、医学用語辞典等である人が作成した特定分野の辞書を用いる段階が含まれる。実施形態によっては、辞書タームのリストをコーパス(corpus)中のテキスト(a set of strings of text)から自動的に作成してもよい。テキストを頻度によりインデックスしてもソートしてもよいし、ある閾値より頻度が高いテキストを選択してもよい。その他の適切な統計的方法を用いてターム(terms)を決定してもよい。実施形態によっては、「ワード(word)」は「ターム(term)」や「辞書ターム(dictionary term)」と読み替えてもよい。
3. 共起コンテキストにおける辞書タームの共起数を計算する。
2つのタームは、各ターム語が同じ共起コンテキスト内に少なくとも1回出現するとき、共起(co-occur)したものとする。共起コンテキストの例としては文書や段落がある。
4. ドメイン・オントロジーとなる有向重みつきグラフを作成する。
その有向重みつきグラフは、ノードとして辞書タームを含み、エッジ(edges)の重みとして類似性(affinities)を含む。マトリックス、バイナリ・ディシジョン・ダイアグラム、またはバイナリ・ディシジョン・ダイアグラムの集合等の適切なデータ構造で表しうる情報を、実際的な表示として「有向重みつきグラフ」を用いて表すことができる。
5. 有向重みつきグラフを問い合わせる手順を適用する。
辞書タームを入力すると、その入力した辞書タームに関係する辞書タームがその手順により出力される。例えば、この手順により、入力されたタームに対して、差分有向類似性(以下に説明する)(differential directional affinity)を有するタームがソートされたリストとして出力される。この場合、その出力には、オントロジーが取り扱う領域に関して、より密接に入力されたタームに関係するタームが含まれている。
任意の適切な類似性の定義を用いることができる。実施形態によっては、次の定義を用いてもよい:
1. 基本類似性
a) タームAとタームBとの間の基本類似性を、そのタームAまたはBのいずれかを含むコンテキスト数に対する、タームA及びBを両方とも含むコンテキスト数の比として定義する。
Figure 0005338238
b) タームAとタームBとの間の基本類似性(A)を、タームAまたはBのいずれかを含むコンテキスト数の大きい方に対する、タームA及びBを両方とも含むコンテキスト数の比として定義してもよい。
Figure 0005338238
2. 有向類似性
タームAとタームBとの間の有向類似性(DAff)を、コンテキスト中にタームAが出現することを条件として、タームBが出現する条件付き確率として定義してもよい。
Figure 0005338238
すなわち、有向類似性は、タームAを含むコンテキストに対する、タームAとBを両方とも含む共起コンテキストの数である。一般的にDAff(A,B)とDAff(B,A)とは異なる。
3. 差分有向類似性
タームAとタームBとの間の差分有向類似性(DiffDAff)は、タームAとBとの間の有向類似性から、コーパスにおけるタームBの一般性(common-ness)を示すファクタを引いたものとして定義してもよい。コーパスにおけるタームBの一般性は、そのコーパス中の他のタームに対するタームBの基本類似性または有向類似性の統計値である。一実施形態では、コーパスにおけるタームBの一般性(common-ness)は、タームBの平均類似性(AA)である。その場合、差分有向類似性の定義は次のようになる:
Figure 0005338238
タームBの平均類似性(AA)すなわち平均有向類似性は次式で定義される:
Figure 0005338238
すなわち、平均類似性は共起コンテキストにおける他のタームに対するタームBの有向類似性の平均である。
図1は、言語のワード間の類似性からその言語のオントロジーを生成するシステム10の一実施形態を示す図である。言語のオントロジーはその言語のワードと、そのワード間の関係とを表す。ワード間の類似性はそのワード間の関係を示す。一実施形態では、システム10は類似性を数量値として計算する。その数量値を用いて類似性マトリックスと類似性グラフを生成する。これらは言語のオントロジーとして機能する。
類似性の例には基本類似性、有向類似性、平均類似性、差分類似性、その他の類似性が含まれる。実施形態では、ワードAとBとの間の有向類似性DAを、Aがあるときの、Bがある条件付き確率として定義する。すなわち、
Figure 0005338238
実施形態によっては、有向類似性はワードのサブセット(subset)が与えられた時にその逆インデックスIIに対して計算することもできる。ここで、インデックスIIには例えばワードwとwのエントリーI(w)とI(w)が含まれる。D中のワードwとwの各ペアに対して、DA(i,j)は、II中のエントリーI(w)、I(w)を結合し、I(w)中の値の数で割った値として定義される。一般的に、DA(i,j)はDA(j,i)に必ずしも等しいとは限らない。その結果は任意の適切な方法で格納できる。例えば、D(1,i)を格納し、次にD(2,j)を格納し、以下同様に格納するように行ごとに格納できる。各行iについて、|I(w)|を格納し、その後にwとの結合(conjunction)の濃度を格納する。
実施形態によっては、有向類似性は3段階で計算できる。段階0では、Dに対応するIIのエントリーを読み出す。パラメータ(s,o)に対して、その形式がks+oである要素を保存する。この段階により逆インデックスの非常に大きなDAテーブルの計算も可能となる。段階1では、DA(i,j)のみに対して行ごとに結合を計算する。段階2では、計算された上部三角領域のUT DA配列を読み出す。下部三角領域は、上記三角領域からその転置として求められる。実施形態では、同じ次元の複数のDA配列をひとつの配列に結合してもよい。大きなIIのDA配列は、パラメータを(s,i)としてi=0..(s−1)にわたるDAの和として計算できる。
実施形態では、平均類似性(または平均有向類似性)を有向類似性から計算できる。ある実施形態では、平均類似性AAベクトルを特定の有向類似性DA配列に基づいて計算できる。
Figure 0005338238
ある実施形態では、DAを行ごとに記憶し、AAのエントリーに対する計算を並行して進めてもよい。具体的に、DAの行をディスクから読み出しつつ加算し、最後に辞書エントリーの数で規格化することによってAAを生成する。
ある実施形態では、ワードwとwとの間の差分類似性DiffAff(または差分有向類似性DiffDAff)を次式で定義する:
Figure 0005338238
図示した実施形態において、システム10はクライアント20、サーバ22、及びメモリ24を含む。ユーザは、クライアント20によりサーバ22と通信して、言語のオントロジーを生成する。クライアント20は、ユーザ入力をサーバ22に送信し、サーバ出力をユーザに提供(例えば、表示や印刷)する。サーバシステム24は言語のオントロジーを生成するアプリケーションを管理する。メモリ24はサーバシステム24が使うデータを記憶する。
メモリ24はページ50とレコード54を記憶する。ページ50(または文書)はワード(word)及び/または画像の集まりである。ワードは、具体的な意味を有するキャラクタ(例えば、文字、数字、スペース、句読点)を含む。ワードの例には「サンフランシスコ」、「植物」、「ノンストップ」、「N9ne」などがある。画像のあるページは、その画像に付随するタグその他のメタデータを用いて分析してもよい。
ページ50の例としては、ワード、パラグラフ、ページ、セクション、チャプター、文書、ブック、ウェブページ、通信(例えば電子メールやインスタントメッセージ)その他のワードの集まりが含まれる。すなわち、文書はワード、パラグラフ、セクション、画像、ページ、従来の文書、チャプター、ページセクション、ブック、ウェブページ、電子メール、メッセージ、ウェブログ等である。ページ50はページ識別子により識別できる。ある実施形態では、一組のページ50がコーパス(corpus)に属している。コーパスは特定の主題、コミュニティ、組織、エンティティ(entity)に関連している。
レコード54はページ50を記述する。本実施形態では、レコード54は、インデックス58、逆インデックス62、オントロジー66を含む。インデックス58はインデックスリストを含み、ページ50のインデックスリストはページ50のワードを示す。逆インデックス62は逆インデックスリストを含み、あるワード(または一組のワード)の逆インデックスリストはそのワード(または一組のワード)を含むページ50を示す。一実施例では、リストWはワードwを含むページ50のページ識別子を含む。リストW&Wはワードwとwを両方とも含む連言ページ(conjunction pages)50のページ識別子を含む。リストW+Wはワードwまたはwのいずれかを含む選言ページ(disjunction pages)50のページ識別子を含む。P(W)はWのページ50の数、すなわちワードwを含むページ50の数である。
一実施形態では、リスト(インデックスリスト、逆インデックスリスト等)はバイナリ・ディシジョン・ダイアグラム(BDD)として記憶される。一実施例では、集合Wのバイナリ・ディシジョン・ダイアグラムBDD(W)はワードwを有するページ50を表す。BDD(W)の十分割当カウント(satisfying assignment count)Satisf(BDD(W))によりワードwを有するページ50の数P(W)が求まる。
Figure 0005338238
したがって、
Figure 0005338238
BDDとしてのリストの記憶は、後でより詳しく説明する。
オントロジー66は言語のワードとそのワード間の関係を表すものである。一実施形態では、オントロジー66はワード間の類似性(affinities)を表す。図示した実施例では、オントロジー66は類似性マトリックス70と類似性グラフ74を含む。類似性マトリックス70の例を図3乃至図5を参照して説明する。類似性グラフ74の例を、図6を参照して説明する。
サーバ22はディシジョン・ダイアグラム・エンジン26を含む。ある実施形態では、ディシジョン・ダイアグラム・エンジン26はリスト(インデックスリストや逆インデックスリスト)をBDDとして記憶する。一実施形態では、リストを圧縮して、バイナリ・ディシジョン・ダイアグラム(BDD)として記憶する。リストは任意の適切な方法で圧縮することができる。一実施形態では、リストの要素をサイズに応じてソートして、ソート済みリストを作成し、そのソート済みリストの要素のペアごとの差異を計算して、ペアごとの差異リストを作成する。ペアごとの差異リストの要素をγ符号化し、γ符号化済みリストを作成する。例えば、リスト[23,125,37,54,86,33]について、ソート済みリストは[23,33,37,54,86,125]となり、ペアごとの差異リストは[23,10,4,17,32,39]となる。
ペアごとの差異リストの要素xを符号化するため、各要素x>0を2+mに分解(factor)する。ここで、
Figure 0005338238
である。xのγコードは、単項式の(e+1)に2進数mを連続したもの(concatenation of (e+1) in unary with m in binary)である。例えば、x=13=2+5の場合、e=3かつm=5である。(e+1)の単項式表示(unary representation)は1110であり、mの2進表示は101であるから、xのγコードは1110101である。上記のリスト例のγコード化リストは、
Figure 0005338238
ディシジョン・ダイアグラム・エンジン26は任意の適切な方法でインデックスをBDDとして記憶する。一実施形態では、インデックスリストをブーリアン関数で表し、ブーリアン関数をBDDで表す。リストは任意の適切な方法でブーリアン関数として表すことができる。リストを表す方法の一例では、そのリストの各要素を、ビット値b...b...bを有するバイナリ値として表す。各バイナリ値を変数x...x...xで表す。各変数xはビット値bを表す。例えば、リスト[23,33,37,54]はバイナリで[010111,100001,100101,110110]と表せる。上記リストはブーリアン関数で表せる:
Figure 0005338238
他の例として、リスト[8,11,12,15]はバイナリで[1000,1011,1100,1111]と表せる。上記リストはブーリアン関数で表せる:
Figure 0005338238
リストを表す方法の他の一例では、そのリストの各要素を、2進桁の値として2進で表す。各2進桁をワン・ホット・エンコーディング(one-hot encoded)し、ビット値bを求める。次いで、ビット値を変数xで表す。例えば、2進では、要素54は312であり、2進桁は3,1,2である。各2進桁をワン・ホット・エンコーディング(one-hot encoded)し、ビット値1000:0010:0100を求める。要素54はブーリアン関数でエンコードできる:
Figure 0005338238
この方法で使用する変数の数は大きいが、この方法により特に、負のリテラルをより効率的に保存するZDDでは、共有が向上し(improved sharing)表示がよりコンパクトになる。実施形態では、ブーリアン関数の構成には、各要素から最小項(minterm)を構成し、その最小項のORをとる。
ディシジョン・ダイアグラム・エンジン26は任意の適切な方法でBDDによりブーリアン関数を表す。BDDの一例を、図2を参照してより詳細に説明する。
図2はBDDの一例80を示す図である。図示した実施形態において、BDD80はブール関数fを表すルートを有する有向非巡回グラフ(rooted directed acyclic graph)(DAG)である。BDD80はターミナルノード82とディシジョンノード84(1つのディシジョンノードはルートノードである)とを含む。ターミナルノード82は0ターミナルと1ターミナルとを含み、それぞれブーリアン関数0と1を表している。ディシジョンノード84は副関数(sub-function)fに対応し、ブール変数v=xでラベルされている。非ターミナルノード84は、それから出て子ノードに向かう1エッジ86と0エッジ88を有する。1エッジ86は関数v・fを表すサブBDD(sub-BDD)を指し、0エッジ88は関数
Figure 0005338238
を表すサブBDDを指している。言い換えると、1エッジは1にvを割当ることを表し、0エッジは0にvを割り当てることを表す。
ルートノードから1ターミナルまでのパスは、ブーリアン関数を1に設定する一組の変数割当を表す。ルートノードから0ターミナルまでのパスは、ブーリアン関数を0に設定する一組の変数割当を表す。
図示した例では、BDD80はxノード84から、1のターミナルノード82までの、パス90(90a,b)により示された関数fを表す。上記の例では、パス90aと90bにより関数
Figure 0005338238
が得られる。これは上記の通りリスト[8,11,12,15]を表している。
図1に戻り、ディシジョン・ダイアグラム・エンジン26は任意の適切なBDDを用いてリストを記憶する。BDDの例としては、縮小順序付きBDD(ROBDD、reduced ordered BDD)、パーティションされた順序付きBDD(POBDD、partitioned ordered BDD)、ゼロ削除ディシジョン・ダイアグラム(ZDD、zero-suppressed decision diagrams)、ナノBDD(nanoBDD)、ゼロ削除ナノBDD(nanoZDD、zero-suppressed nano BDD)、その他の好適なバイナリ・ディシジョン・ダイアグラム、及び/またはこれらの組み合わせがある。ROBDDでは、同型のサブグラフはなく、BDDのルートノードからターミナルノードまでの変数の順序はすべてのパスで同じである。ZDDでは、ノードが負のリテラル(negative literal)であるとき、そのノードは除外される。他のBDDでは、ノードのエッジが両方とも同じノードを指しているとき、そのノードは除外される。他のタイプのBDDの例は以下により詳しく説明する。
実施形態では、ディシジョン・ダイアグラム・エンジン26はBDDをコンパクト化してBDDを生成する。一実施形態では、ディシジョン・ダイアグラム・エンジン26は、変数の順序を破棄し、ポインタが示す位置をそのポインタの値と親ノードの位置の両方と相関させることによりBDDをコンパクト化する。実施形態では、ノードの構造には変数識別子(ID)、THEN/ELSEポインタ、0エッジポインタが含まれる。変数IDはノードのラベルである。実施形態では、S個のノードのラベルには少なくともnビット(2=S)が必要である。一例として、BDDがS=32個のノードを有するとする。ここで、Sはノード数を表す。この例では、2=32であるから、32個のノードのラベルとして少なくとも5ビットが必要である。THEN/ELSEポインタは子ノードを指す。一部の実施形態では、THENポインタは1エッジポインタであり、ELSEポインタは0エッジポインタである。実施形態では、ノード構造には、0削除によりそのノードがネゲートされるかどうかを示す0エッジネゲートフラグ(0-edge negated flag)を含む。ディシジョン・ダイアグラムがZDDであるとき、ノード構造は0エッジネゲートフラグを含む必要はない。
上記の例では、BDDの各子ノードで使用する最小情報は次の通りである:
Figure 0005338238
ディシジョン・ダイアグラム・エンジン26はBDDの各ノードが利用するバイト数を示す。上記の例では、各ノードは
Figure 0005338238
バイトを必要とする。
実施形態では、ディシジョン・ダイアグラム・エンジン26はBDDをさらにコンパクト化する。BDDをさらにコンパクト化するために、ディシジョン・ダイアグラム・エンジン26は、THEN/ELSEポインタ用のlog(S)ビットをドロップし、各ポインタの値と親ノードの値(または位置)を、そのポインタが指す位置に相関させる。かかる条件の下、各ポインタに1または2バイトのみを割り当てることにより、ノードごとのメモリ必要量を削減する。
実施形態では、ディシジョン・ダイアグラム・エンジン26は、ディシジョン・ダイアグラムをコンパクト化し、ダイアグラムが大きくなるのに合わせて、ディシジョン・ダイアグラムを記憶するテーブルの大きさを適宜調節する(及びノードごとにより多くのビットを割り当てる)。ある実施形態では、ディシジョン・ダイアグラム・エンジン26は、コンパクト・デシジョン・ダイアグラムとしてディシジョン・ダイアグラムの構成を開始する。ディシジョン・ダイアグラム・エンジン26は、大きさを変えるのではなく、グラフ構成に直接的に分割・合成を行って、コンパクト・デシジョン・ダイアグラムを縮小されていないダイアグラムに直接的に変換することもできる。
一部の実施形態では、コンパクト・デシジョン・ダイアグラムにより並列プラットフォーム間の通信が容易になる。一例では、第1のプラットフォームは第2のプラットフォームと並行して動作する。第1のプラットフォームはディシジョン・ダイアグラムを生成して、第2のプラットフォームに送信するためにそのディシジョン・ダイアグラムをコンパクト化して、コンパクト化したディシジョン・ダイアグラムを第2のプラットフォームに送信する。第2のプラットフォームは、そのコンパクト化したディシジョン・ダイアグラムから、第2のプラットフォームで処理するディシジョン・ダイアグラムを再構成できる。
ある実施形態では、ナノディシジョン・ダイアグラム(nanoDD)を使用する。変数とBDDのノードの位置を記述するノード構造を用いてそのBDDを記憶する。nを変数の数とし、dをノードの数とすると、
Figure 0005338238
ビットあればノードのラベルとなる変数をインデックスするのに十分である。さらに、メモリにノードを連続して格納する場合、
Figure 0005338238
ビットあればノードの位置を特定するのに十分である。
ナノDDのノードは次のように構成される:
Figure 0005338238
したがって、1つのナノDDノードだけで2s+sビットを使う。
ノードは深さ優先探索(depth-first traversal)の順序で連続的に格納される。深さ優先探索は、ルートノードで始まりターミナルノード1で終わり、0エッジの後に1エッジに行く。従って、depth-first traversalの時は、情報をナノDDから追加的に抽出できる。ターミナルノードは、固定的な仮想的位置が割り当てられるので、明示的に格納する必要はない。
ナノDDは、実施形態によってはBDDの任意の適切な適用において有用である。適切な適用例としては、集積回路(IC)の合成やICの形式的検証等がある。実施形態によっては、ナノDDは任意の適切なBDD演算をサポートする。
実施形態により、より効率的なBDDの記憶が容易になる。実施形態によっては、より効率的なBDDの記憶により、中央処理装置(CPU、central processing unit)のキャッシュがBDDのより多くのノードを記憶でき、そのCPUによるBDDの処理が容易になる。一部の実施形態により、BDDを表すグラフの各ノードが必要とするバイト数を削減でき、BDDのサイズを縮小できる。一部の実施形態により、BDDのノード数を削減することなく、そのBDDのサイズを削減することが容易になる。一部の実施形態により、BDDのサイズの低減が容易になるが、BDDを機能的な処理はしやすい。一部の実施形態により、モバイルタイプの消費者向けアプリケーション(かかるアプリケーションでは、データ圧縮が必要になる場合が多い)におけるBDDの使用が容易になる。
サーバ22は類似性モジュール30を含む。類似性モジュール30はワードのペアの類似性を計算し、その類似性を類似性マトリックス70に記録し、その類似性マトリックス70をレポートする。類似性モジュール30は類似性グラフ74も生成できる。
類似性モジュール30は類似性計算器34、オントロジー生成器38、及びワード推奨器48を含む。類似性計算器34は、ワードwの、または第1のワードwと第2のワードwを含むワードペアの任意の適切なタイプの類似性を計算する。類似性の例には基本類似性、有向類似性、平均類似性、差分類似性、その他の類似性が含まれる。
一実施形態では、ワード推奨器48は、シード・ワード(seed word)を受け取り、そのシード・ワードとの類似性が閾値より高いワードを特定する。類似性閾値は任意の適切な値であり、0.25、0.5、0.75、0.95やこれらより大きな値であってもよい。類似性閾値は予めプログラムしても、ユーザが指定してもよい。
基本類似性はワードw及び/またはwを含むページ50の量(例えば数)に基づき計算できる。連言ページ量(conjunction page amount)はワードwとwを両方とも含むページ50の量を表し、選言ページ量(disjunction page amount)はワードwまたはwのいずれか一方を含むが両方は含まないページ50の量を表す。基本類似性は連言ページ量を選言ページ量で割って求められる。一実施例では、連言ページ数はワードwとワードwを含むページ数を示し、選言ページ数はワードwまたはワードwのいずれかを含むページ数を示す。基本類似性は連言(conjunction)ページ数を選言(disjunction)ページ数で割って求めることができる。
Figure 0005338238
図3は、基本類似性を記録した類似性マトリックス110の一例を示す図である。図示した例では、類似性マトリックス110はワードw,...,wのペアごとの類似性を記録している。類似性マトリックス110によると、ワードwとwの間の類似性は0.003であり、ワードwとwの間の類似性は0.005であり、以下同様である。
図1に戻り、類似性グループは相互に類似性が高いワードのペアを含み、この類似性グループを用いてページのコンテンツに対するワードw、w間の関係を捉える。類似性が類似性グループ閾値よりも高いことを、類似性が高いという。閾値は任意の適切な値であり、0.50、0.60、0.75、0.90、0.95より大きな値であってもよい。1つのワードは2つ以上の類似性グループに属してもよい。一実施形態では、類似性グループはBDDとして表すことができる。逆インデックス62に、BDDのポインタをそのグループの各ワードとともに格納してもよい。
有向類似性を用いてワードwに対するワードwの重要性を測ることができる。類似性計算器34は、ワードwが与えられたときのワードwの有向類似性を、ワードwとwを含むページ50の量(例えば数)から計算する。ワードwページ量は、ワードwを含むページ50の量を表す。ワードwが与えられたときのワードwの有向類似性は、連言ページ量をワードwページ量で割ったものである。例えば、ワードwページの数はワードwを含むページ50の数を示す。ワードwが与えられたときのワードwの有向類似性は、連言ページ50の数をワードwページ50の数で割ったものである。
Figure 0005338238
DAffinity(w,w)はDAffinity(w,w)と同じではない。ワードwとwの間の有向類似性DAffinity(w,w)が高いということは、ページ50がワードwを含むときにそのページ50がワードwを含む確率が高いということを示す。一例では、ページ[1 2 3 4 5 6]がワードwを含み、ページ[4 2]がワードwを含む。ワードwを含むページがワードwも含むということは、ワードwの観点からは、ワードwの重要性が高いということである。ワードwを含むページの1/3のみがワードwを含むということは、ワードwの観点からは、ワードwの重要性が低いということである。
図4は、ワードw,...wの基本類似性を記録した類似性マトリックス120の一例を示す図である。上記の例では、ワード124はAワード、ワード128はBワードである。マトリックス120の行はAワードが与えられたときのBワードの類似性を記録し、類似性マトリックス120の列はBワードが与えられたときの類似性を記録する。
図1に戻り、他のワードwに対するワードwの平均類似性を計算する。一実施形態では、平均類似性は、ワードwとその他のすべてのワードwとの間の類似性の平均である。他の実施形態では、ワードwがあるときのワードwの条件付き確率P(w|w)から平均類似性を決定する。N個のワードに対するワードwの平均類似性は次式で表される。
Figure 0005338238
図5は、平均類似性を記録した類似性マトリックス140の一例を示す図である。行142はワード1乃至ワード50,000の基本類似性を記録している。行144はワード1乃至ワード50,000の平均類似性を記録している。
図1に戻り、ワードの平均類似性はそのワードの深さを示す。平均類似性が低いワードは深いワードであると考えられ、平均類似性が高いワードは浅いワードであると考えられる。深いワードは技術的であり、具体的であり、精密であるという傾向がある。深いワードの割合が高いページ50は深いページであると考えられ、深いワードの割合が低いページ50は浅いページであると考えられる。一実施形態では、ユーザは検索するワード及び/またはページ50の深さを指定することができる。
ページ50の深いワードは関係性が高いワードのクラスターを形成する。クラスターは共通のアイデアやテーマを表す。ページ50のテーマ数はそのページ50の具体性(specificity)を示す。テーマが少ないページ50はより具体的であると考えられ、テーマが多いページ50はあまり具体的でないと考えられる。
ワードwに対するワードwの差分類似性は、ワードwとwの間の有向類似性からワードwのその他すべてのワードとの平均類似性を引いたものである。差分類似性は次式で表せる:
Figure 0005338238
差分類似性は、ページ50にワードwが出現する一般的な傾向によるバイアスを除去したものである。場合によっては、差分類似性は、ページがワードwを含むときにそのページがワードwを含む確率をより正確に示すものである。
差分類似性は様々な応用ができる。一例では、人の名前の間の差分類似性を用いて社会的ネットワークを研究できる。他の例では、言語要素間の差分類似性を用いて自然言語処理を研究できる。他の例では、製品間の差分類似性を用いてマーケティングを研究できる。
類似性計算器34は、任意の適切な方法を用いて逆インデックスリストを検索し類似性を計算する。例えば、ワードwとワードwを両方とも含むページを特定するため、類似性計算器34は、ワードwのリストWとワードwのリストWを検索して共通の要素(すなわち共通のページ識別子)を探す。一実施形態では、リストの最初から始めて、共通の要素を見つけるまで、一度に複数の要素を読み出す。一例として、リストWとWは次の要素を含む:
Figure 0005338238
ポインタp,pは最初に要素10,16をそれぞれ指している。ポインタpは、pが指している要素より小さい要素を指しているので、pは次の要素20に進む。今度はポインタpが小さい方の要素を指しているので、pは18に進む。要素18は20より小さいので、pは23に進む。ポインタpが23に進むと、共通な要素なので、その要素を出力する。この段階で、両方のポインタp,pはそれぞれ要素47,47に進むと、共通な要素である。したがって、要素47を出力する。ポインタpはリストWの終わりに到達し、これ以上共通の要素は見つからないので、プロセスを終了する。
類似性計算器34は、ポインタをリストの要素にわたって動かす要素読み出し動作を行ってもよい。要素読み出し動作は、例えば、リストLの要素E以上の次の要素を読み出す要素読み出し動作get_next_element_greq(L,E)である。上記の動作は検索上重要でない要素はスキップし、検索の効率を上げる。
一例では、ナノDDを検索する(traverse)する。ナノDDを検索する(traverse)間、配列Aにその時の変数割当を記録する。深さ優先探索(depth-first traversal)を行い最初の要素を求める。深さ優先探索は、ルートノードから始めて、ターミナルノード1に到達するまで0エッジをたどる。
演算get_next_element_greq(L,E)をコールして次の要素を読み出す。この演算により要素Eと配列Aに共通の変数割当を決定する。この演算は、トップから始めて最初の共通でない変数に到達するまでバックトラック(backtrack)する。共通の割当がなければルートノードを読み出す。この演算は、要素Eにより指定された残りの変数割当にしたがってナノDDを探索する。
一例では、BDD80に対してget_next_element_greq(L,要素)演算を行ってもよい。上記の通り、BDD80はリスト[8,11,12,15]をエンコードした関数
Figure 0005338238
を表す。パス90aは(x,x,x,x)=(1,0,0,0)となり、これは最初の要素8である。演算get_next_element_greq(L,9)により8より大きい次の要素を探索する。(1,0,0,0)と(1,0,0,1)とで最初の3つの変数割当は同じであり、この演算はパス90bに沿って変数xにバックトラック(backtrack)する。探索により(1,0,1,1)が得られ、これは要素11である。
一実施形態では、get_next_element_greq(L,E)を用いてワードペアを形成する両方のワードを含むページを特定する。上記演算によりワードの逆インデックスリストの共通要素を特定する。ここで、ワードの逆インデックスリストはそのワードを含むページを示す。
一例として、第1のリストが[8,11,12,15]を含み、第2のリストが[7,13,15]を含むとする。リストの最初の要素8と7を取得する。要素8は7より大きいので、get_next_element_greq(L,8)により第2のリストを探索して、要素13を取得する。要素13は8より大きいので、get_next_element_greq(L,13)により第1のリストを探索する。この演算により、(1,1,0,1)(これは13に対応する)は(1,0,0,0)(これは8に対応する)と最初の変数のみが共通であることが分かる。この演算は変数x1にバックトラック(backtrack)し、(1,1,0,1)にしたがってBDD80を探索し、最終的に(1,1,1,1)で終わる。
ある実施形態では、類似性計算器34はその他の任意の適切な類似性を計算する。一例として、目的のワードに関する文書の類似性を、その目的のワードとの有向類似性が閾値より高い、その文書中のワードの絶対数から決定する。他の例として、類似性がある値より低い場合はスレッショルド(threshold)される。
ある実施形態では、類似性計算器34は文書間の類似性を計算する。一例として、ある文書の深いワードと他の文書の深いワードとの間の類似性を計算できる。深いワード(deeper words)間の類似性をヒストグラムにまとめて、文書間の類似性を求めるのに利用する。同様に、文書と文書の集まりとの間の類似性を求めることもできる。
オントロジー生成器38は、類似性マトリックス70や類似性グラフ74などの、言語のオントロジー66を生成する。オントロジーは、基本類似性、有向類似性、平均類似性、差分類似性その他の任意の適切な類似性から生成できる。オントロジー66は、任意の適切な方法で、言語から選択されたワードから生成できる。例えば、その言語の一般的に使用されている部分のワードや、主題領域に関係するワードを選択する。
オントロジー生成器38は類似性マトリックス生成器42と類似性グラフ生成器46を含む。類似性マトリックス生成器42は、ワード間の類似性を記録する類似性マトリックス70を生成する。類似性グラフ生成器46は、ワード間の類似性を表す類似性グラフ74を生成する。類似性グラフ74では、ノードはワードを表し、ノード間の距離はそのノードが表すワード間の類似性を表す。類似性グラフ74は任意の適切な次元数を有する。
図6は、類似性グラフ150の一例を示す図である。類似性グラフ150はノード154とリンク158を含む。ノード154はワードを表す。この例では、ノード154aはワード「バイナリ(binary)」を表している。ノード154間の距離はノード154が表すワード間の類似性を表す。例えば、距離が大きければ類似性が大きい。ノード間のリンク158は、そのノード154が表すワード間の類似性がある類似性閾値より大きいことを示している。類似性閾値は任意の適切な値であり、例えば、0.25、0.5、0.75、0.95であっても、これらより大きな値であってもよい。
図1に戻り、システム10の構成要素は、インターフェース、ロジック、メモリ、その他の適切な要素を含む。インターフェースは入力を受信し、出力を送信し、入力や出力を処理し、その他の適当な動作を行う。インターフェースはハードウェア及び/またはソフトウェアを含む。
ロジックは、これらの構成要素の動作を行い、例えば、入力から出力を生成する命令を実行する。ロジックはハードウェア、ソフトウェア及び/またはその他のロジックを含む。ロジックは有体媒体にエンコードされ、コンピュータにより実行された時に動作するものであってもよい。プロセッサ等のある種のロジックが構成要素の動作を管理してもよい。プロセッサの例としては、例えば、コンピュータ、マイクロプロセッサ、アプリケーションその他のロジックがある。
メモリは情報を記憶する。メモリは有体の、コンピュータ読み取り可能な、及び/またはコンピュータ実行可能な記憶媒体である。メモリの例には、コンピュータのメモリ(RAM、ROM等)、大規模記憶媒体(ハードディスク等)、リムーバブル記憶媒体(CD、DVD等)、データベースやネットワーク記憶装置(サーバ等)、その他のコンピュータ読み取り可能な媒体が含まれる。
本発明の範囲から逸脱することなく、システム10に修正、追加、または削除をすることができる。システム10の構成要素は一体であっても分かれていてもよい。さらに、システム10の動作を実行する構成要素は、これより多くても少なくてもよいし、他の構成要素であってもよい。例えば、生成器42、46の動作を1つの構成要素により行ってもよいし、類似性計算器34の動作を2つ以上の構成要素でおこなってもよい。また、システム10の動作の実行は、ソフトウェア、ハードウェア、及び/またはその他のロジックを含む任意の適切なロジックを用いて行ってもよい。本明細書では、「各」とは、集合の各要素、または集合の部分集合の各要素を指す。
本発明の範囲から逸脱することなく、マトリックスの例に修正、追加、または削除をすることができる。マトリックスに含まれる値はこれより多くても少なくてもよく、他の値が含まれてもよい。また、マトリックスの値を任意の適切な順序で構成してもよい。
図7は言語のオントロジーを生成する方法の一実施形態を示す。この方法はステップ210で始まり、オントロジー用に言語のワードを選択する。ワードは任意の適切な方法で選択することができる。例えば、一般的に使用されるワードや、ある主題に関係するワードを選択する。
ステップ214において、類似性計算器34が選択されたワードのレコード54にアクセスする。類似性計算器34が逆インデックス62にアクセスして、選択されたワードを含むページのリストを読み出す。逆インデックス62はBDDで表されている。
ステップ218において、類似性計算器34が選択されたワードのワードペアの類似性を計算する。任意の適切な類似性を計算してよく、例えば、基本類似性、有向類似性、平均類似性、差分類似性、及び/またはその他の類似性を計算する。ステップ222において、類似性計算器34が類似性マトリックスに計算した類似性を記録する。ステップ218と222を、選択されたワードのワードペアに対して繰り返す。ステップ226において次のワードがあれば、ステップ218に戻り、次のワードペアの類似性を計算する。ステップ226において次のワードが無ければ、ステップ230に進む。
ステップ230において、類似性マトリックス生成器42が類似性マトリックスをレポートする。類似性マトリックスを用いて言語のオントロジーを表現できる。ステップ234において、類似性グラフ生成器46が類似性グラフを生成する。類似性グラフもその言語のオントロジーとして使える。ステップ238において、類似性グラフをレポートする。そして、本方法は終了する。
本発明の範囲から逸脱することなく、本方法に修正、追加、または削除をすることができる。本方法に含まれるステップはこれより多くても少なくてもよく、他のステップが含まれてもよい。また、ステップを好適な任意の順序で実行してもよい。
本発明の実施形態により以下の技術的有利性がもたらされる。一実施形態の技術的優位性は、言語のワード間の類似性を数量的に表せることである。類似性を用いて言語のオントロジーとして機能するマトリックスを生成できる。 本発明の実施形態には、上記の技術的な有利性を含まないもの、一部を含むもの、すべてを含むものがある。図面、詳細な説明、及び特許請求の範囲に基づき、当業者には容易に1つ以上の技術的な優位性が明らかとなるであろう。
本開示を実施形態に関して説明したが、これらの実施形態の変形や置き換えは当業者には明らかであろう。従って、上記の実施形態の説明は本開示を限定するものではない。特許請求の範囲に記載した本開示の精神と範囲から逸脱せずに、その他の変更、置き換え、改変も可能である。
上記の実施形態について以下の付記を記載する。
(付記1) 有体記憶媒体に記憶された逆インデックスにアクセスする段階であって、前記逆インデックスは言語の複数のワードの複数の逆インデックスリストを含み、逆インデックスリストは前記ワードを含むページを示すワードに対応する段階と、
第1のワードと第2のワードを含む、前記複数のワードの各ワードペアに対して、
第1の逆インデックスリストと第2の逆インデックスリストとを検索する段階であって、前記第1の逆インデックスリストは前記第1のワードに対応し、前記第2の逆インデックスリストは前記第2のワードに対応する段階と、
前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の、前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階とを含む方法。
(付記2) 前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
前記第1のワードまたは前記第2のワードを含むページ数を示す選言ページ数を求める段階と、
前記連言ページ数を前記選言ページ数で割る段階と
により前記第1のワードと前記第2のワードとの間の基本類似性を計算する段階を含む、付記1に記載の方法。
(付記3) 前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
前記第1のワードを含むページ数を示す第1のワードページ数を求める段階と、
前記連言ページ数を前記第1のワードページ数で割る段階と
により前記第2のワードがあるときの前記第1のワードの有向類似性を計算する段階を含む、付記1に記載の方法。
(付記4) 前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
前記複数のワードの各ワードペアに対して、前記各ワードペアのワード間の有向類似性を計算して複数の有向類似性を求める段階と、
前記有向類似性の平均を計算する段階と
により前記第1のワードの平均類似性を計算する段階を含む、付記1に記載の方法。
(付記5) 前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
前記第2のワードに対する前記第1のワードの有向類似性を計算する段階と、
前記第2のワードの平均類似性を計算する段階と、
前記第2のワードに対する前記第1のワードの有向類似性から前記第2のワードの前記平均類似性を引く段階と
により前記第2のワードに対する前記第1のワードの差分類似性を計算する段階を含む、付記1に記載の方法。
(付記6) ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する段階をさらに有する、付記1に記載の方法。
(付記7) 前記逆インデックスリストの各要素に対して
前記各要素を複数のビット値を含むバイナリ値として表す段階と、
前記ブーリアン関数の変数で各ビット値を表す段階と、
前記各要素から最小項を構成する段階と、
前記最小項のOR演算により前記ブーリアン関数を構成する段階と
を実行することにより、ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する段階をさらに有する、付記1に記載の方法。
(付記8) 前記逆インデックスリストの各要素に対して
複数の2進桁を有する2進値として前記各要素を表す段階と、
各2進桁をエンコードして複数のビット値を有するエンコードされた2進桁を求める段階と、
前記ブーリアン関数の変数で各ビット値を表す段階と
を実行することにより、ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する段階をさらに有する、付記1に記載の方法。
(付記9) ブーリアン関数により前記逆インデックスリストを表す段階と、
前記バイナリ・ディシジョン・ダイアグラムの複数のノードを求める段階と、
各ノードのノード構成を決定する段階と
により前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する段階をさらに有する、付記1に記載の方法。
(付記10) 前記第1の逆インデックスリストと前記第2の逆インデックスリストを探索する段階は、さらに、
前記第1の逆インデックスリストを表す第1のバイナリ・ディシジョン・ダイアグラムを探索する段階と、
前記第2の逆インデックスリストを表す第2のバイナリ・ディシジョン・ダイアグラムを探索する段階と
を含む、付記1に記載の方法。
(付記11) 前記第1の逆インデックスリストと前記第2の逆インデックスリストを探索する段階は、さらに、前記第1の逆インでクスリストまたは前記第2の逆インデックスリストの終わりに到達するまで、
前記第1の逆インデックスリストまたは前記第2の逆インデックスリストを含むカレント逆インデックスリストのカレント要素を求める段階と、
他の逆インデックスリストから次に大きい要素を読み出す段階と、
前記次に大きい要素と前記カレント要素とを比較する段階と、
前記次に大きい要素が前記カレント要素と一致した場合、共通の要素を記録する段階と
を繰り返すことにより、前記第1の逆インデックスリストを表す第1のバイナリ・ディシジョン・ダイアグラムと、前記第2の逆インデックスリストを表す第2のバイナリ・ディシジョン・ダイアグラムを探索する段階を含む、付記1に記載の方法。
(付記12) 実行したとき、
有体記憶媒体に記憶された逆インデックスにアクセスする段階であって、前記逆インデックスは言語の複数のワードの複数の逆インデックスリストを含み、逆インデックスリストは前記ワードを含むページを示すワードに対応する段階と、
第1のワードと第2のワードを含む、前記複数のワードの各ワードペアに対して、
第1の逆インデックスリストと第2の逆インデックスリストとを検索する段階であって、前記第1の逆インデックスリストは前記第1のワードに対応し、前記第2の逆インデックスリストは前記第2のワードに対応する段階と、
前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の、前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
前記類似性を類似性マトリックスに記録する段階と、
前記類似性マトリックスをレポートする段階と
を実行するソフトウェアをエンコードしたコンピュータ読み取り可能媒体。
(付記13) 前記ソフトウェアは、さらに、
前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
前記第1のワードまたは前記第2のワードを含むページ数を示す選言ページ数を求める段階と、
前記連言ページ数を前記選言ページ数で割る段階と
により前記第1のワードと前記第2のワードとの間の基本類似性を計算することにより、前記第1のワードと前記第2のワードとの間の前記類似性を計算する、付記12に記載のコンピュータ読み取り可能媒体。
(付記14) 前記ソフトウェアは、さらに、
前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
前記第1のワードを含むページ数を示す第1のワードページ数を求める段階と、
前記連言ページ数を前記第1のワードページ数で割る段階と
により前記第2のワードが与えられたときの前記第1のワードの有向類似性を計算することにより、前記第1のワードと前記第2のワードとの間の前記類似性を計算する、付記12に記載のコンピュータ読み取り可能媒体。
(付記15) 前記ソフトウェアは、さらに、
前記複数のワードの各ワードに対して、前記各ワードペアのワード間の有向類似性を計算して複数の有向類似性を求める段階と、
前記有向類似性の平均を計算する段階と
により前記第1のワードの平均類似性を計算することにより、前記第1のワードと前記第2のワードとの間の前記類似性を計算する、付記12に記載のコンピュータ読み取り可能媒体。
(付記16) 前記ソフトウェアは、さらに、
前記第2のワードに対する前記第1のワードの有向類似性を計算する段階と、
前記第2のワードの平均類似性を計算する段階と、
前記第2のワードに対する前記第1のワードの有向類似性から前記第2のワードの前記平均類似性を引く段階と
により前記第2のワードに対する前記第1のワードの差分類似性を計算することにより、前記第1のワードと前記第2のワードとの間の前記類似性を計算する、付記12に記載のコンピュータ読み取り可能媒体。
(付記17) 前記ソフトウェアは、
ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する、付記12に記載のコンピュータ読み取り可能媒体。
(付記18) 前記ソフトウェアは、
前記逆インデックスリストの各要素に対して
前記各要素を複数のビット値を含むバイナリ値として表す段階と、
前記ブーリアン関数の変数で各ビット値を表す段階と、
前記各要素から最小項を構成する段階と、
前記最小項のOR演算により前記ブーリアン関数を構成する段階と
を実行することにより、ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する、付記12に記載のコンピュータ読み取り可能媒体。
(付記19) 前記ソフトウェアは、
前記逆インデックスリストの各要素に対して
複数の2進桁を有する2進値として前記各要素を表す段階と、
各2進桁をエンコードして複数のビット値を有するエンコードされた2進桁を求める段階と、
前記ブーリアン関数の変数で各ビット値を表す段階と
を実行することにより、ブーリアン関数により前記逆インデックスリストを表す段階と、
前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する、付記12に記載のコンピュータ読み取り可能媒体。
(付記20) 前記ソフトウェアは、
ブーリアン関数により前記逆インデックスリストを表す段階と、
前記バイナリ・ディシジョン・ダイアグラムの複数のノードを求める段階と、
各ノードのノード構成を決定する段階と
により前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
により前記複数の逆インデックスの逆インデックスリストを記憶する、付記12に記載のコンピュータ読み取り可能媒体。
(付記21) 前記ソフトウェアは、
前記第1の逆インデックスリストを表す第1のバイナリ・ディシジョン・ダイアグラムを探索する段階と、
前記第2の逆インデックスリストを表す第2のバイナリ・ディシジョン・ダイアグラムを探索する段階と
により前記第1の逆インデックスリストと前記第2の逆インデックスリストを探索する、付記12に記載のコンピュータ読み取り可能媒体。
(付記22) 前記ソフトウェアは、さらに、前記第1の逆インでクスリストまたは前記第2の逆インデックスリストの終わりに到達するまで、
前記第1の逆インデックスリストまたは前記第2の逆インデックスリストを含むカレント逆インデックスリストのカレント要素を求める段階と、
他の逆インデックスリストから次に大きい要素を読み出す段階と、
前記次に大きい要素と前記カレント要素とを比較する段階と、
前記次に大きい要素が前記カレント要素と一致した場合、共通の要素を記録する段階と
を繰り返すことにより、前記第1の逆インデックスリストを表す第1のバイナリ・ディシジョン・ダイアグラムと、前記第2の逆インデックスリストを表す第2のバイナリ・ディシジョン・ダイアグラムを探索することにより、前記第1の逆インデックスリストと前記第2の逆インデックスリストを探索する、付記12に記載のコンピュータ読み取り可能媒体。
(付記23) 有体記憶媒体に記憶された逆インデックスにアクセスする手段であって、前記逆インデックスは言語の複数のワードの複数の逆インデックスリストを含み、逆インデックスリストは前記ワードを含むページを示すワードに対応する手段と、
第1のワードと第2のワードを含む、前記複数のワードの各ワードペアに対して、
第1の逆インデックスリストと第2の逆インデックスリストとを検索し、前記第1の逆インデックスリストは前記第1のワードに対応し、前記第2の逆インデックスリストは前記第2のワードに対応し、
前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の、前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算し、
前記類似性を類似性マトリックスに記録する手段と、
前記類似性マトリックスをレポートする手段と
を有するシステム。
言語のワード間の類似性からその言語のオントロジーを生成するシステムの一実施形態を示す図である。 バイナリ・ディシジョン・ダイアグラムの一例を示す図である。 基本類似性を記録した類似性マトリックスの一例を示す図である。 有向類似性を記録した類似性マトリックスの一例を示す図である。 平均類似性を記録した類似性マトリックスの一例を示す図である。 類似性グラフの一例を示す図である。 図1のシステムにより実行できる、言語のオントロジーの生成方法の一実施形態を示す図である。
符号の説明
20 クライアント
22 サーバ
24 メモリ
26 ディシジョン・ダイアグラム・エンジン
30 類似性モジュール
34 類似性計算器
38 オントロジー生成器
42 類似性マトリックス生成器
46 類似性グラフ生成器
48 ワード推奨器
50 ページ
54 レコード
58 インデックス
62 逆インデックス
66 オントロジー
70 類似性マトリックス
74 類似性グラフ

Claims (12)

  1. 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
    検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
    前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
    前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
    前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
    前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
    前記第1のワードまたは前記第2のワードを含むページ数を示す選言ページ数を求める段階と、
    前記連言ページ数を前記選言ページ数で割る段階と
    により前記第1のワードと前記第2のワードとの間の基本類似性を計算する段階を含む、方法。
  2. 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
    検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
    前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
    前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
    前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
    前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
    前記第1のワードを含むページ数を示す第1のワードページ数を求める段階と、
    前記連言ページ数を前記第1のワードページ数で割る段階と
    により前記第2のワードがあるときの前記第1のワードの有向類似性を計算する段階を含む、方法。
  3. 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
    検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
    前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
    前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
    前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
    前記複数のワードから選択された各ワードペアに対して、前記各ワードペアのワード間の有向類似性を計算して複数の有向類似性を求める段階と、
    前記有向類似性の平均を計算する段階と
    により前記第1のワードの平均類似性を計算する段階を含む、方法。
  4. 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
    検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
    前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
    前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
    前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
    前記第2のワードに対する前記第1のワードの有向類似性を計算する段階と、
    前記第2のワードの平均類似性を計算する段階と、
    前記第2のワードに対する前記第1のワードの有向類似性から前記第2のワードの前記平均類似性を引く段階と
    により前記第2のワードに対する前記第1のワードの差分類似性を計算する段階を含む、方法。
  5. 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
    検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
    前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
    前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
    ブーリアン関数により前記逆インデックスリストを表す段階と、
    前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
    により逆インデックスリストを記憶する段階をさらにコンピュータが実行する、方法。
  6. 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
    検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
    前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
    前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
    前記逆インデックスリストの各要素に対して
    前記各要素を複数のビット値を含むバイナリ値として表す段階と、
    前記ブーリアン関数の変数で各ビット値を表す段階と、
    前記各要素から最小項を構成する段階と、
    前記最小項のOR演算により前記ブーリアン関数を構成する段階と
    を実行することにより、ブーリアン関数により前記逆インデックスリストを表す段階と、
    前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
    により逆インデックスリストを記憶する段階をさらにコンピュータが実行する、方法。
  7. 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
    検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
    前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
    前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
    前記逆インデックスリストの各要素に対して
    複数の2進桁を有する2進値として前記各要素を表す段階と、
    各2進桁をエンコードして複数のビット値を有するエンコードされた2進桁を求める段階と、
    前記ブーリアン関数の変数で各ビット値を表す段階と
    を実行することにより、ブーリアン関数により前記逆インデックスリストを表す段階と、
    前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
    により逆インデックスリストを記憶する段階をさらにコンピュータが実行する、方法。
  8. 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
    検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
    前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
    前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
    ブーリアン関数により前記逆インデックスリストを表す段階と、
    前記バイナリ・ディシジョン・ダイアグラムの複数のノードを求める段階と、
    各ノードのノード構成を決定する段階と
    により前記ブーリアン関数に対応するバイナリ・ディシジョン・ダイアグラムを生成する段階と
    により逆インデックスリストを記憶する段階をさらにコンピュータが実行する、方法。
  9. 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
    検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
    前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
    前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
    前記第1の逆インデックスリストと前記第2の逆インデックスリストとを検索する段階は、さらに、
    前記第1の逆インデックスリストを表す第1のバイナリ・ディシジョン・ダイアグラムを探索する段階と、
    前記第2の逆インデックスリストを表す第2のバイナリ・ディシジョン・ダイアグラムを探索する段階と
    を含む、方法。
  10. 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
    検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
    前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
    前記類似性マトリックスをレポートする段階とをコンピュータが実行する方法であって、
    前記第1の逆インデックスリストと前記第2の逆インデックスリストとを検索する段階は、さらに、前記第1の逆インデックスリストまたは前記第2の逆インデックスリストの終わりに到達するまで、
    前記第1の逆インデックスリストまたは前記第2の逆インデックスリストを含むカレント逆インデックスリストのカレント要素を求める段階と、
    他の逆インデックスリストから次に大きい要素を読み出す段階と、
    前記次に大きい要素と前記カレント要素とを比較する段階と、
    前記次に大きい要素が前記カレント要素と一致した場合、共通の要素を記録する段階と
    を繰り返すことにより、前記第1の逆インデックスリストを表す第1のバイナリ・ディシジョン・ダイアグラムと、前記第2の逆インデックスリストを表す第2のバイナリ・ディシジョン・ダイアグラムを探索する段階を含む、方法。
  11. コンピュータに
    有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索する段階と、
    検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算する段階と、
    前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する段階と、
    前記類似性マトリックスをレポートする段階と
    を実行させるためのソフトウェアを記憶したコンピュータ読み取り可能な記憶媒体であって、
    前記第1のワードと前記第2のワードとの間の前記類似性を計算する段階は、
    (i)前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
    前記第1のワードまたは前記第2のワードを含むページ数を示す選言ページ数を求める段階と、
    前記連言ページ数を前記選言ページ数で割る段階と
    により前記第1のワードと前記第2のワードとの間の基本類似性を計算する段階;
    (ii)前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
    前記第1のワードを含むページ数を示す第1のワードページ数を求める段階と、
    前記連言ページ数を前記第1のワードページ数で割る段階と
    により前記第2のワードがあるときの前記第1のワードの有向類似性を計算する段階;
    (iii)前記複数のワードから選択された各ワードペアに対して、前記各ワードペアのワード間の有向類似性を計算して複数の有向類似性を求める段階と、
    前記有向類似性の平均を計算する段階と
    により前記第1のワードの平均類似性を計算する段階;
    (iv)前記第2のワードに対する前記第1のワードの有向類似性を計算する段階と、
    前記第2のワードの平均類似性を計算する段階と、
    前記第2のワードに対する前記第1のワードの有向類似性から前記第2のワードの前記平均類似性を引く段階と
    により前記第2のワードに対する前記第1のワードの差分類似性を計算する段階、
    のうちのいずれか一つを含む、コンピュータ読み取り可能な記憶媒体
  12. 有体記憶媒体に記憶され、言語のワードを含むページを示す逆インデックスリストを各ワードごとに複数含む逆インデックスにアクセスし、第1のワードに対応する第1の逆インデックスリストと、第2のワードに対応する第2の逆インデックスリストとを検索し、検索された前記第1の逆インデックスリストと前記第2の逆インデックスリストとにより前記第1のワードと前記第2のワードとの間の定量的関係を記述する類似性を計算し、
    前記検索する段階と類似性を計算する段階を、複数のワードから選択されたワードペアごとに処理し、前記類似性を類似性マトリックスに記録する手段と、
    前記類似性マトリックスをレポートする手段と
    を有するシステムであって、
    前記第1のワードと前記第2のワードとの間の前記類似性を計算する処理は、
    (i)前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
    前記第1のワードまたは前記第2のワードを含むページ数を示す選言ページ数を求める段階と、
    前記連言ページ数を前記選言ページ数で割る段階と
    により前記第1のワードと前記第2のワードとの間の基本類似性を計算する段階;
    (ii)前記第1のワードと前記第2のワードとを含むページ数を示す連言ページ数を求める段階と、
    前記第1のワードを含むページ数を示す第1のワードページ数を求める段階と、
    前記連言ページ数を前記第1のワードページ数で割る段階と
    により前記第2のワードがあるときの前記第1のワードの有向類似性を計算する段階;
    (iii)前記複数のワードから選択された各ワードペアに対して、前記各ワードペアのワード間の有向類似性を計算して複数の有向類似性を求める段階と、
    前記有向類似性の平均を計算する段階と
    により前記第1のワードの平均類似性を計算する段階;
    (iv)前記第2のワードに対する前記第1のワードの有向類似性を計算する段階と、
    前記第2のワードの平均類似性を計算する段階と、
    前記第2のワードに対する前記第1のワードの有向類似性から前記第2のワードの前記平均類似性を引く段階と
    により前記第2のワードに対する前記第1のワードの差分類似性を計算する段階、
    のうちのいずれか一つを含む、システム
JP2008259624A 2007-10-05 2008-10-06 ワードの類似性を用いたオントロジーの自動生成 Expired - Fee Related JP5338238B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US97777007P 2007-10-05 2007-10-05
US60/977,770 2007-10-05
US12/242,950 2008-10-01
US12/242,950 US8171029B2 (en) 2007-10-05 2008-10-01 Automatic generation of ontologies using word affinities

Publications (2)

Publication Number Publication Date
JP2009110513A JP2009110513A (ja) 2009-05-21
JP5338238B2 true JP5338238B2 (ja) 2013-11-13

Family

ID=40219500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008259624A Expired - Fee Related JP5338238B2 (ja) 2007-10-05 2008-10-06 ワードの類似性を用いたオントロジーの自動生成

Country Status (4)

Country Link
US (1) US8171029B2 (ja)
EP (1) EP2045731A1 (ja)
JP (1) JP5338238B2 (ja)
CN (1) CN101430695B (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8171029B2 (en) 2007-10-05 2012-05-01 Fujitsu Limited Automatic generation of ontologies using word affinities
US8306987B2 (en) * 2008-04-03 2012-11-06 Ofer Ber System and method for matching search requests and relevant data
US8150829B2 (en) * 2008-04-11 2012-04-03 Fujitsu Limited Facilitating display of an interactive and dynamic cloud of terms related to one or more input terms
US8554696B2 (en) * 2009-02-13 2013-10-08 Fujitsu Limited Efficient computation of ontology affinity matrices
US8332434B2 (en) * 2009-09-30 2012-12-11 Business Objects Software Limited Method and system for finding appropriate semantic web ontology terms from words
US8762375B2 (en) * 2010-04-15 2014-06-24 Palo Alto Research Center Incorporated Method for calculating entity similarities
US9138143B2 (en) 2010-08-17 2015-09-22 Fujitsu Limited Annotating medical data represented by characteristic functions
US8874607B2 (en) * 2010-08-17 2014-10-28 Fujitsu Limited Representing sensor data as binary decision diagrams
US8930394B2 (en) * 2010-08-17 2015-01-06 Fujitsu Limited Querying sensor data stored as binary decision diagrams
US9002781B2 (en) 2010-08-17 2015-04-07 Fujitsu Limited Annotating environmental data represented by characteristic functions
US8527518B2 (en) * 2010-12-16 2013-09-03 Sap Ag Inverted indexes with multiple language support
US8498972B2 (en) * 2010-12-16 2013-07-30 Sap Ag String and sub-string searching using inverted indexes
US8719214B2 (en) * 2011-09-23 2014-05-06 Fujitsu Limited Combining medical binary decision diagrams for analysis optimization
US9176819B2 (en) 2011-09-23 2015-11-03 Fujitsu Limited Detecting sensor malfunctions using compression analysis of binary decision diagrams
US8620854B2 (en) * 2011-09-23 2013-12-31 Fujitsu Limited Annotating medical binary decision diagrams with health state information
US9075908B2 (en) 2011-09-23 2015-07-07 Fujitsu Limited Partitioning medical binary decision diagrams for size optimization
JP5113936B1 (ja) * 2011-11-24 2013-01-09 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
JP5595426B2 (ja) * 2012-01-05 2014-09-24 日本電信電話株式会社 単語抽出方法及び装置及びプログラム
WO2013121810A1 (ja) * 2012-02-16 2013-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストの文書を解析する装置、プログラムおよび方法
CN103714096B (zh) 2012-10-09 2018-02-13 阿里巴巴集团控股有限公司 基于Lucene的倒排索引系统构建、数据处理方法及装置
US8914416B2 (en) * 2013-01-31 2014-12-16 Hewlett-Packard Development Company, L.P. Semantics graphs for enterprise communication networks
IN2013MU02217A (ja) * 2013-07-01 2015-06-12 Tata Consultancy Services Ltd
KR101910491B1 (ko) * 2016-12-07 2018-10-22 전북대학교 산학협력단 가변길이 그램의 역리스트 동적 생성을 이용한 유사 문자열 검색 방법 및 장치
US20220318284A1 (en) * 2020-12-31 2022-10-06 Proofpoint, Inc. Systems and methods for query term analytics

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6996572B1 (en) * 1997-10-08 2006-02-07 International Business Machines Corporation Method and system for filtering of information entities
US6654731B1 (en) * 1999-03-01 2003-11-25 Oracle Corporation Automated integration of terminological information into a knowledge base
US6651096B1 (en) * 1999-04-20 2003-11-18 Cisco Technology, Inc. Method and apparatus for organizing, storing and evaluating access control lists
US6587848B1 (en) * 2000-03-08 2003-07-01 International Business Machines Corporation Methods and apparatus for performing an affinity based similarity search
US6925460B2 (en) * 2001-03-23 2005-08-02 International Business Machines Corporation Clustering data including those with asymmetric relationships
JP2003288352A (ja) * 2002-01-23 2003-10-10 Matsushita Electric Ind Co Ltd 情報分析表示装置及び情報分析表示プログラム
US7225183B2 (en) * 2002-01-28 2007-05-29 Ipxl, Inc. Ontology-based information management system and method
AU2003210795A1 (en) * 2002-02-01 2003-09-02 John Fairweather System and method for analyzing data
US7165024B2 (en) * 2002-02-22 2007-01-16 Nec Laboratories America, Inc. Inferring hierarchical descriptions of a set of documents
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
US7231379B2 (en) * 2002-11-19 2007-06-12 Noema, Inc. Navigation in a hierarchical structured transaction processing system
US7149748B1 (en) * 2003-05-06 2006-12-12 Sap Ag Expanded inverted index
US8676830B2 (en) 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
US7266548B2 (en) * 2004-06-30 2007-09-04 Microsoft Corporation Automated taxonomy generation
CN100535895C (zh) * 2004-08-23 2009-09-02 富士施乐株式会社 文本检索装置及方法
US7698270B2 (en) * 2004-12-29 2010-04-13 Baynote, Inc. Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge
JP2006215850A (ja) * 2005-02-04 2006-08-17 Nippon Telegr & Teleph Corp <Ntt> 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体
US7805300B2 (en) * 2005-03-21 2010-09-28 At&T Intellectual Property Ii, L.P. Apparatus and method for analysis of language model changes
WO2006125271A1 (en) 2005-05-27 2006-11-30 Damit Australia Pty Ltd A digital asset management system
US7856446B2 (en) * 2005-12-27 2010-12-21 Baynote, Inc. Method and apparatus for determining usefulness of a digital asset
US8171029B2 (en) 2007-10-05 2012-05-01 Fujitsu Limited Automatic generation of ontologies using word affinities
US8041702B2 (en) * 2007-10-25 2011-10-18 International Business Machines Corporation Ontology-based network search engine

Also Published As

Publication number Publication date
CN101430695B (zh) 2012-06-06
JP2009110513A (ja) 2009-05-21
EP2045731A1 (en) 2009-04-08
US8171029B2 (en) 2012-05-01
US20090094262A1 (en) 2009-04-09
CN101430695A (zh) 2009-05-13

Similar Documents

Publication Publication Date Title
JP5338238B2 (ja) ワードの類似性を用いたオントロジーの自動生成
JP5531395B2 (ja) 単語親和度による単語クラスタの識別
US9317593B2 (en) Modeling topics using statistical distributions
US8533203B2 (en) Identifying synonyms of entities using a document collection
JP5391633B2 (ja) オントロジー空間を規定するタームの推奨
US8332439B2 (en) Automatically generating a hierarchy of terms
JP5353173B2 (ja) 文書の具体性の決定
US8560485B2 (en) Generating a domain corpus and a dictionary for an automated ontology
JP5621773B2 (ja) 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム
US8200671B2 (en) Generating a dictionary and determining a co-occurrence context for an automated ontology
JP5391632B2 (ja) ワードと文書の深さの決定
WO2014210387A2 (en) Concept extraction
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
Zaware et al. Text summarization using tf-idf and textrank algorithm
JP5440235B2 (ja) オントロジーの類似性行列の効率的な計算
CN117972025B (zh) 一种基于语义分析的海量文本检索匹配方法
D'Aniello et al. Decoding Knowledge Claims: The Evaluation of Scientific Publication Contributions through Semantic Analysis
CN112990465A (zh) 佛学知识萃取方法、装置、设备及存储介质
Crane Improved Indexing & Searching Throughput.
Font Corbera et al. Folksonomy-based tag recommendation for collaborative tagging systems
EP2045736A1 (en) Identifying clusters of words according to word affinities

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110708

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130416

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130722

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees