JP2008538016A - 概念または項目を用いて知識相関を構成することによる知識発見技術 - Google Patents

概念または項目を用いて知識相関を構成することによる知識発見技術 Download PDF

Info

Publication number
JP2008538016A
JP2008538016A JP2007541415A JP2007541415A JP2008538016A JP 2008538016 A JP2008538016 A JP 2008538016A JP 2007541415 A JP2007541415 A JP 2007541415A JP 2007541415 A JP2007541415 A JP 2007541415A JP 2008538016 A JP2008538016 A JP 2008538016A
Authority
JP
Japan
Prior art keywords
node
item
nodes
correlation
token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007541415A
Other languages
English (en)
Inventor
マーク ボビック
カール ウィマー
Original Assignee
メイク センス インコーポレイテッド
マーク ボビック
カール ウィマー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by メイク センス インコーポレイテッド, マーク ボビック, カール ウィマー filed Critical メイク センス インコーポレイテッド
Publication of JP2008538016A publication Critical patent/JP2008538016A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

知識を識別する技術が、追加的な知識のために検討する1つ以上の項目を入力するためのグラフィカル・ユーザインタフェースを使用する。そして、情報の1つ以上のソースにわたる検索を実行して、この項目についての情報またはこの項目に関連する情報を含むリソースを識別する。これらのリソースを情報の要素単位に分解して、ノードと称するデータ構造中に格納する。ノードのグループをノードプール中に格納し、このノードプールから、知識を表現するノードの相関を構成する。

Description

本明細書の開示の一部は著作権保護を受ける題材を含む。著作権所有者は、米国特許商標局の特許ファイル記録に見られる部分については、何人による複写に対しても異議を唱えないが、それ以外の部分についてはいかなる場合も著作権を有する。
(関連出願へのクロスリファレンス)
本願は、米国特許暫定出願第60/627,772号、2004年11月12日出願、発明の名称”Techniques and Apparatus for Information Correlation”に基づいて優先権を主張し、その全内容を参考文献として本明細書に含める。
また本願は、米国特許暫定出願第60/637,936号、2004年12月21日出願、発明の名称”Techniques and Apparatus for Information Correlation”に基づいて優先権を主張し、その全文を参考文献として本明細書に含める。
また本願は、米国特許暫定出願第60/694,331号、2005年6月27日出願、発明の名称”A Knowledge Correlation Search Engine”に基づいて優先権を主張し、その全内容を参考文献として本明細書に含める。
(プログラム・シーケンス・リスト(CD−ROM)の参照)
本願は、CD−ROM上のコンピュータ・プログラムリストを含み、このプログラムリストはその全体を参考文献として本明細書に含む。
(発明の背景)
発明の分野
本発明は、情報技術の分野に指向したものであり、より詳細には、概念または項目を用いて知識相関を構成することによる知識発見の技術に指向したものである。
従来技術の説明
種々の項目についての情報を識別する多くの検索技術が、従来技術において知られている。これらの技術は、検索(サーチ)エンジン、検索ロボット、等を含む。一般に、検索エンジンは、テキストの本体の各項目に、その位置に関してインデックス(索引)付けし、これにより、質問項目が提出されると、これらの項目の位置を識別することができる。検索エンジンの検索の結果を、ブール論理を用いて他の項目の検索の結果と組み合わせて、所望のものに至る結果に、より正確に焦点を合わせることができる。
1979年版Websters New Collegiate Dictionary
(発明の概要)
1979年版の”Websters New Collegiate Dictionary”は、次の「知識」の定義を含む:
知識...
(a)...(2) 経験または交わりを通して得たものを、よく知っているという事実または状態;
(b)...(2) 人の情報または理解の範囲
本発明は、個別項目または項目のグループに関する知識を識別する技術を記述する。ユーザは、追加的な知識のために検討する1つ以上の項目を入力する。そして、入力した項目についての情報、あるいは入力項目に関連する情報を含む情報源上の検索を行う。こうしたリソース(情報源)を見つけると、このリソースが含む情報をノードに分解し、これらのノードは、情報の基本単位を格納する特定データ構造である。結果的なノードはノードプールに格納される。そしてノードプールを用いて、ノードを連結して知識ブリッジにするノードのチェーン(連鎖)または相関(相互関係)を構成し、ノードのチェーンまたは相関は、(追加的な知識を)探っている項目についての結果的な情報、あるいはこうした項目に関連する結果的な情報を文書化したものである。
本発明によれば、情報連鎖(リンケージ)についての人の情報及び理解の範囲を、さもなければ明らかにならない所まで拡大することによって知識を獲得する。この知識は、ノードをリンク(連結)して相関にすることによる形式的な方法で表現される。
(実施例の詳細な説明)
図1A及び図1Bは、本発明の好適な実施例による知識相関を構成するプロセスのフローチャートである。図2A〜2Eは、本発明用のGUI(Graphical User Interface:グラフィカル・ユーザインタフェース)のスクリーン・キャプチャ(スクリーン表示例)を示す。
図1Aに示す品発明の実施例では、ユーザはGUIインタフェースを用いることによって、少なくとも1つの項目を入力する。図2Aは、ユーザ入力を受け付けることを意図したGUI構成要素のスクリーン・キャプチャである。インタフェース中の重要なフィールドは”X Term(X項目)”、”Y Term(Y項目)”及び”Tangent(展開)”である。以下でより詳細に説明するように、1つ〜5つの項目または語句(フレーズ)のユーザ入力が、本発明の挙動に対する有意な効果を有する。図2Aに示す好適な実施例では、ユーザは少なくとも2つの入力項目または語句を提供することを求められる。図1Aを参照すれば、ユーザ入力100”Gold(金)”は、図2Aの”X Term(X項目)”データ入力フィールドに入力されることによって、検索可能な項目または語句110として獲得される。ユーザ入力100”INFLATION(インフレーション、膨張)”は、図2Aの”Y Term(Y項目)”データ入力フィールドに入力されることによって、検索可能な項目または語句110として獲得される。一旦、ユーザによって起動されると、検索120が行われて、対象の項目または語句についての情報の実際及び潜在的なソース(情報源)を識別する。実際及び潜在的なソースの各々は、対象の項目または語句との関連性についてテストされる。検索されるソースの中には、コンピュータ・ファイルシステム、インターネット、リレーショナル(関係型)データベース、e−メール・リポジトリ(保存所)、分類法の例、及びオントロジー(存在論)の例である。関係すると見られるソースをリソース128と称する。関係するリソース128の検索120を「発見」と称する。各リソース128からの情報は、ノードと称するディジタル情報オブジェクト138に分解(130)される。図1Cを参照すれば、ノード180A及び180Bは、意味を含んで伝えるデータ構造である。各ノードは自己完結型である。ノードは、意味を伝えること以外は求めない。再び図1Aを参照すれば、リソース128からの良好に分解(130)されたノード180A及び180Bはノードプール140内に置かれる。ノードプール140は、データアクセス及び検索用の論理構造である。リソース128の及びノード180A、180Bへの分解を「獲得」と称する。そしてノードプール140内のメンバーノードと称するノード180A及び180Bを用いて、相関155を構成する。図1Bを参照すれば、相関はノードプール中のノードのうち、対象の項目または語句を明示的に含む1つのノードから開始される。こうしたノードを項目(ターム)ノードと称する。相関中の第1ノードとして用いる際には、この項目ノードを原点152(ソース)と称する。相関はノードのチェーン(連鎖)(またはパス(経路))の形で構成する。この経路は原点ノード152(同義的にパスルート(経路の根)と称する)から始まる。パスは、ノードプール140のノードメンバー151の中から、原点ノード152に関連し得るノードメンバー151を検索することによって拡張される。こうしたノード(有資格メンバー151H)が見つかれば、この有資格メンバーのノードは原点ノード152に連結され、そして現在のパスの末端として指定される。このパスはさらに、ノードプールの有資格ノードの相互作用的な関連付け及び逐次的な連結によって、現在のパスの末端に関連しこれに追加される有資格メンバーノードが最終の末端ノード(デスティネーションノード159)と見られるか、あるいは、ノードプール中にさらなる有資格メンバーノードが存在しなくなるまで、逐次的に指定される現在のパスの末端に拡張される。デスティネーションノード159の、最終的なパスの末端としての関連付け及び連結を成功の結果(ゴール(目標)状態)と称し、この場合には、パスをその後に相関155と称し、そしてこうした相関155を保存する。ノードプール中にさらなる有資格メンバーノードが存在しない状態、従って許容可能なデスティネーションノードが存在しない状態は不成功の結果(完全な消耗)と見られ、そしてパスは棄却され相関とは称さない。完成した相関155は、原点ノード152を相関中の他の各ノード、特にこの相関のデスティネーションノード159に関連付ける。このプロセスの名称は「相関」である。これにより相関155は、検索中に識別されたすべてのソースからの情報間にまたがりこれらの情報を結び付ける知識ブリッジを形成する。知識ブリッジは発見された知識である。
図2Bに、”Discovery(発見)”、”Acquisition(獲得)”、及び”Correlation(相関)”の3段階すべてが完了した瞬時におけるGUI構成要素”Ask the Question(質問をする)”を示す。本発明では、処理の段階毎の進行インジケータ(指標)が提供される。
図2Cを参照すれば、本発明の実施例において相関が見出され、タブ付きウィンドウ枠のフォーマットで表示される。スクリーンの左側にあるタブは原点152であり、これらはスクリーンの右側に示すデスティネーションノード159との間に成功の相関が存在する。各成功の相関155は個別に表示される。
図2Dを参照すれば、本発明では、ユーザはあらゆる相関を特別な利点を伴ってディスクに保存することができる。付録A:報告は本発明のこうした実行によって生成された完全な報告を含む。
図2Eを参照すれば、追加的な報告”RankXY(XYのランク)”が提供され、そのリソース128が、本発明のこうした実行によって生成された相関155に最も大きく寄与したかをユーザに助言する。
好適な一実施例では、ユーザは1つから5つまでの項目を入力することができ、そして入力した項目の数は、生成することのできる知識相関の種類、並びに以下でさらに説明する、生成することのできる相関の「品質」を決定付けるかまたはこれに影響する。項目は1単語、または2単語の句とすることができる。本発明によってサポートされる、次の2種類の相関が存在する:
1.「自由な関連付け」、ユーザによって入力された単一の項目が与えられると、この項目から複数の原点がノードの形に展開され、そして本発明は、各原点から、デスティネーションノードの形で見出すことのできる任意数の潜在的なデスティネーションのありとあらゆるものへの知識ブリッジを構築しようとする。これらのデスティネーションは、少なくとも2つの「停止相関」のシナリオで選択し、これについては以下でさらに説明する。この種の相関では、デスティネーションは先験的には知られず、ユーザが求める利益は第1に、原点と事実、思想、概念、あるいはデスティネーションによって指名または示唆される単純な項目との予期しない新規の関連付けであり、原点からデスティネーションまでの関連付けが、新規または革新的な解決法、予期しない影響、及び問題または題目について前には考えなかった態様を示唆するという第2の利益を伴う。
2.「点を接続する」、ユーザによって入力された2つの項目が与えられると、第1の項目から複数の原点が展開され、第2の項目から複数のデスティネーションが展開され、そして本発明は、ありとあらゆる原点からありとあらゆるデスティネーションへの知識ブリッジを構築しようとする。相関の動作は、少なくとも1つの原点を関連のチェーンによって少なくとも1つのデスティネーションにリンクすることのできる場合のみに成功と考える。この例では、ユーザが求める利益は第1に、原点からデスティネーションへのこうした関連が確立され、これにより、「存在する」が解決されることであり、そしてすべての相関に伴い、知識相関において明らかにされる原点からデスティネーションまでのパスから知識及び識見が伝えられる。
第3、第4、または第5の項目がユーザによって入力される際には、求める利益は、ノードを取り出して相関を構成する「源泉」であるノードプールの形の「検索空間」を豊富化または整形することである。本発明の好適な実施例では、第3、第4及び第5の概念または項目が提供されると、追加的なリソースの獲得が検索空間としてのノードプールのサイズ及び不均一性を増加させ、これにより、与えられたあらゆる原点を用いた相関が成功である可能性を増加させる点で、最小の利益が提供される。本発明の好適な利用では、第3、第4、及び/または第5の項目を提供した結果として獲得されるリソースは、検索空間及び知識領域としてのノードプールを直交的に拡張する。例えば、「エネルギー消費」の原点、及び「ラップ音楽」のデスティネーションが与えられると、第3、第4、及び第5の入力であるそれぞれ「電子工学(エレクトロニクス)」、「著作権」、及び「文化」は、結果的に新たな相関を生成するものと想定される情報をノードプール中に持ち込む。この好適な利用では、この拡張を「豊富化」と称し、そして第3、第4及び第5の項目を「展開」と称する。本発明の他の好適な利用では、良好に選定した第3、第4及び第5の項目は、検索空間及び知識領域としてのノードプールを、第1及び/または第2の項目の使用により生成された検索空間及び知識領域と並列させて、話題または意味のデカルト(カーテシアン)次元を用いて既定することを可能にする。例えば、原点「通信産業」及びデスティネーション「将来の収益性」が与えられると、第3、第4及び第5の入力であるそれぞれ「経済学」、「政治学」及び「規制」が、問題に関係するすべての題材の態様を有効に網羅するものと想定される情報をノードプール中に持ち込む。ノードプール中に作成される検索空間と知識領域との間に和集合、積集合、または隣接の特性が存在しない場合でも、相関の成功は可能である
ユーザが、第1、第2、第3、第4及び第5の対象の項目または語句用に入力する項目毎に、当該項目または語句についての情報源の独立した検索が行われる。このことは、次の1つ以上のトラバース(横断検索)を含む:
(i) コンピュータ・ファイルシステム
(ii) インターネットを含むコンピュータネットワーク
(iii) e−メール・リポジトリ
(iv) リレーショナル・データベース
(v) 分類法
(vi) オントロジー
簡単に言えば、コンピュータがアクセスすることのできるあらゆる情報のリポジトリである。
検索はリポジトリ毎に異なる。1つ以上のコンピュータ・ファイルシステムの検索に指向した一実施例では、ファイルシステムのディレクトリを辿ることによって検索を行う。ファイルシステムのディレクトリは、コンピュータ・ファイルシステム内のすべてのサブディレクトリ及びファイルを位置検出すべく使用される階層構造である。ファイルシステムのディレクトリは、ツリー(木)として構成され表現され、このツリーはある種のグラフ(結線図)であり、グラフの頂点(ノード)はサブディレクトリまたはファイルであり、そしてグラフのエッジは、ディレクトリのルート(根)からすべてのサブディレクトリのファイルまでのパス(経路)である。このように検索することのできるコンピュータは、個別のパーソナルコンピュータ、ネットワーク上の個別のコンピュータ、ネットワークのサーバーコンピュータ、及びネットワーク・ファイルサーバーのコンピュータである。ネットワーク・ファイルサーバーは一般に高性能の特別なコンピュータであり、大きなユーザグループ用のファイルの存続及び検索機能をサポート(支援)するタスク向けに専用化されている。
コンピュータのファイルシステムは、対象の項目または語句についての情報の実際及び潜在的なソースを保持することができ、これらのソースは次のものとして記憶される:
(i) テキスト(プレーン(普通、標準)テキスト)ファイル。
(ii) リッチテキスト・フォーマット(RTF:Rich Text Format、マイクロソフト社によって開発された規格)ファイル。
(iii) エクステンデッド・マークアップ・ランゲージ(XML:Extended Markup Language、ワールドワイド・ウェブ・コンソーシャム(World Wide Web Consortium)のプロジェクト(企画))ファイル。
(iv) マークアップ・ランゲージ・ファイルのあらゆる「方言」ファイル、これらの方言はハイパーテキスト・マークアップ・ランゲージ(HTML:HyperText Markup Language)及びエクステンシブル・ハイパーテキスト・マークアップ・ランゲージ(XHTML(登録商標):Extensible HTML)(ワールドワイド・ウェブ・コンソーシャムのプロジェクト)、RuleML(RuleMLイニシアティブのプロジェクト)、スタンダード・ジェネラライズド・マークアップ・ランゲージ(SGML:Standard Generalized Markup Language、国際規格の1つ)、及びエクステンシブル・スタイルシート・ランゲージ(XSL:Extensible Stylesheet Language、ワールドワイド・ウェブ・コンソーシャムのプロジェクト)を含むが、これらに限定されない。
(v) ポータブル・ドキュメント・フォーマット(PDF:Portable Document Format、Adobe社の独自フォーマット)ファイル。
(vi) スプレッドシート・ファイル、例えばExcel(エクセル(登録商標)、マイクロソフト社のスプレッドシート(表計算)ソフトウェア製品)によるデータを格納するために使用するXLSファイル。
(vii) MSワード(登録商標)(WORD)ファイル、例えば、MS WORD(マイクロソフト社によるワードプロセッサ・ソフトウェア製品)による文書を格納するために使用するDOCファイル。
(viii) プレゼンテーション(スライド)ファイル、例えばパワーポイント(PowerPoint、マイクロソフト社のスライドショー・スタジオ・ソフトウェア製品)によるデータを格納するために使用するPPTファイル。
(ix) イベント情報獲得ログ(記録)ファイル、トランザクション・ログ、電話発呼記録、従業員のタイムシート(勤務時間記録表)、及びコンピュータシステムのイベントログを含むが、これらに限定されない。
コンピュータのファイルシステムを検索する際には、時としてスパイダーと称されるソフトウェア・ロボット(例えばGoogle社の製品であるGoogle Desktop Crawler(登録商標))または検索(サーチ)ロボットを「派遣」して、対象の項目または語句についての情報の実際または潜在的なソースを識別することができる。スパイダー及びロボットは、ファイルシステムのディレクトリのようなあらゆるグラフ的構造をなすリンクに従って、ディレクトリからディレクトリへ、そしてファイルからファイルへと進むソフトウェア・プログラムである。この方法は次のステップを含む:(a) 対象の項目または語句をロボットに提供するステップ;(b) ロボットが検索を開始するファイルシステム・ディレクトリ上の出発点(通常はルート)を提供するステップ;(c) ロボットが訪ねた潜在的なソース毎に、ロボットが、以下でさらに説明する関連性テストを実行するステップ;(d) 当該ソースが関連性がある場合に、ロボットが当該ソースのURI(Uniform Resource Identifier:ユニフォーム・リソース・アイデンティファイア)またはURL(Uniform Resource Locator:ユニフォーム・リソース・ロケータ)を作成または獲得するステップ;及び、(e) ロボットが、このロボットを派遣した方法(プログラム)に戻り、獲得したリソースのURIまたはURLを、派遣した方法に送り届けるステップ。
一部の利用にとって好適な代案の実施例では、ロボットが自分自身を第1ロボットとして指名し、そして第1ロボットが自分自身のコピーをクローン化(複製)する際に、これにより、追加的な独立したクローンロボットを作製する。第1ロボットはクローンロボットに、関連リソースのURIまたはURLを授け、そしてクローンロボットに、第1ロボットを派遣した方法に(結果を)戻すことを指示する。クローンロボットは、獲得したリソースのURIまたはURLを派遣した方法に送り届け、その間に第1ロボットは追加的なURIまたはURLの獲得を進める。関連ソースのURIまたはURLに加えた、関連ソースに特有の情報はロボットによって獲得することができ、これらの情報は、ロボットが関連リソースを選択するために使用した関連性テストに基づき、かつその結果である詳細報告、この関連ソースのサイズのバイト数、及び関連ソースの内容のフォーマットを含む。
意図がインターネットを検索することにあれば、ウェブ・クローラ・ロボット(web crawler robot、例えばJava(登録商標)Coding.comのプロジェクトであるJSpider)を使用することができる。こうしたロボットは、インターネット上のリンクに従ってウェブサイトからウェブサイトへ、そしてウェブページからウェブページへと進む。一実施例では、本発明はワールド・ワイド・ウェブ(インターネット)を検索して、対象の項目または語句についての情報の実際及び潜在的なソースを識別し、これらのソースはウェブページとして公開され、次のものを含む:
(i) テキスト(プレーンテキスト)ファイル。
(ii) リッチテキスト・フォーマット(RTF、マイクロソフト社によって開発された規格)ファイル。
(iii) エクステンデッド・マークアップ・ランゲージ(XML、ワールドワイド・ウェブ・コンソーシャムのプロジェクト)ファイル。
(iv) マークアップ・ランゲージ・ファイルのあらゆる「方言」ファイル、これらの方言は、ハイパーテキスト・マークアップ・ランゲージ(HTML)及びエクステンシブル・ハイパーテキスト・マークアップ・ランゲージ(XHTML(登録商標))(ワールドワイド・ウェブ・コンソーシャムのプロジェクト)、RuleML(RuleMLイニシアティブのプロジェクト)、スタンダード・ジェネラライズド・マークアップ・ランゲージ(SGML、国際規格の1つ)、及びエクステンシブル・スタイルシート・ランゲージ(XSL、ワールドワイド・ウェブ・コンソーシャムのプロジェクト)を含むが、これらに限定されない。
(v) ポータブル・ドキュメント・フォーマット(PDF、Adobe社の独自フォーマット)ファイル。
(vi) スプレッドシート・ファイル、例えばExcel(エクセル、マイクロソフト社のスプレッドシート(表計算)ソフトウェア製品)によるデータを格納するために使用するXLSファイル。
(vii) MSワード(WORD)ファイル、例えば、MS WORD(マイクロソフト社によるワードプロセッサ・ソフトウェア製品)による文書を格納するために使用するDOCファイル。
(viii) プレゼンテーション(スライド)ファイル、例えばパワーポイント(マイクロソフト社のスライドショー・スタジオ・ソフトウェア製品)によるデータを格納するために使用するPPTファイル。
(ix) イベント情報獲得ログ(記録)ファイル、トランザクション・ログ、電話発呼記録、従業員のタイムシート(勤務時間記録表)、及びコンピュータシステムのイベントログを含むが、これらに限定されない。
(x) ブログページ(ウェブログのページ)
検索エンジンは、本発明において、対象の項目または語句についての情報の実際及び潜在的なソースを識別するために使用する好適な代案である。検索エンジンはサーバーベースのソフトウェア製品であり、特定の、時として独自の手段を用いて、ユーザの質問に関連するウェブページを識別する。検索エンジンは一般に、識別したウェブページへのHTMLリンクのリストをユーザに戻す。本発明のこの実施例では、検索エンジンがプログラムで起動される。対象の項目または語句は検索エンジン・ソフトウェアへの入力としてプログラムで入力される。検索エンジンによって戻されるHTMLリンクのリストは、対象の項目または語句についての情報の実際のソースと考えられるウェブページの事前認定されたリストを提供する。
検索エンジンの1つの種類は、インデックス(索引)エンジンの機能に限定される。インデックスエンジンは、インターネットを検索するサーバーベースのソフトウェアであり、発見したすべてのウェブページを個別の単語または句に分解する。インデックスエンジン用のサーバー上では、インデックスと称する単語のデータベースが維持される。ウェブページ上で発見されたインデックス中にない単語はインデックスに追加される。インデックス上の単語または句毎に、当該単語または句を見出すことのできるウェブページのリストが当該単語または句に関連付けられる。単語または句はキーとして作用し、そして当該単語または句を見出すことのできるウェブページのリストは、このキーに関連する一組の値である。インデックスエンジンによって戻されるHTMLリンクのリストは、対象の項目または語句についての情報の実際のソース(リソース)と考えることのできるウェブページのリストを提供する。ウェブページ中での対象の項目または語句の発生は、最小限信頼できる関連性テストである。各ソースに適用される追加的な関連性テストは非常に好ましい。
例えば、インデックスエンジンをスパイダーと組み合わせ、インデックスエンジンが1つ以上のスパイダーを、対象の各項目または概念を有するインデックス・データベース中の関連するウェブページの1つ以上に派遣する。スパイダーは、以下でさらに説明するより強固な関連性テストを各ウェブページに適用する。スパイダーが関連性のあるものと見たウェブページへのHTMLリンクは戻され、そして対象の項目または語句についての情報の実際のソース(リソース)と考えられる。
検索エンジンの改善された実現は、対象の項目または語句のすべてを質問として利用する。検索エンジンに質問が提出されると、検索エンジンはこの質問を捉え、この質問をデータベース・インデックス中に保存する。質問に対するインデックスは検索エンジンによって追加的なインデックスとして維持される。ロボットが関連性のあるものと見たウェブページが検索エンジンに報告されると、検索エンジンはこのウェブページへのHTMLリンクを報告するだけでなく、質問全体をキーとして用いて、関連性のあるウェブページへのHTMLリンクを、この質問に関連する値として記憶する。質問に関連性のあるものと見られたすべてのページへのHTMLリンクは獲得され、そして検索エンジンのデータベース中で質問と関連付けられる。検索エンジンが次の質問を受け取り、そしてこの質問が検索エンジンの質問インデックス中に既に存在する質問と正確に、あるいはおよそ一致する際には、検索エンジンは、質問データベース中の質問に関連するHTMLリンクのリストを戻す。改良された検索エンジンは即時の結果を戻すことができ、ウェブページに関連性テストを施すべくロボットを派遣する必要はない。
検索エンジンの他の有用な形態はメタクローラ(meta-crawler)である。メタクローラはサーバーベースのソフトウェア製品であり、独自の手段を用いてユーザの質問に関連するウェブページを識別する。メタクローラは一般に複数の検索エンジンをプログラムで起動し、そして各検索エンジンが関連性のあるものとして識別したウェブページへのHTMLリンクのリストを検索する。そしてメタクローラは、特別な、時として独自の手段を適用して、寄与した検索エンジンが定めた各ページの明示的または暗示的な関連性スコアに基づいて、個々のウェブページについての関連性のスコア(得点)を計算する。そしてメタクローラは一般に、関連性の順にランク付けした最も関連性のあるウェブページへのHTMLリンクのリストをユーザに戻す。一実施例では、メタクローラをプログラムで起動する。対象の項目または語句は、メタクローラ・ソフトウェアへの入力としてプログラムで入力する。そしてメタクローラ・ソフトウェアは、対象の項目または語句を、このメタクローラが起動した各検索エンジンにプログラムで入力する。メタクローラによって戻されるリンクのリストは、事前認定されたウェブページのリストであり、対象の項目または語句についての情報の実際のソースと考えられる。
個別のパーソナルコンピュータ上、ネットワーク上の各個別コンピュータ上、ネットワークのサーバーコンピュータ上、及びネットワークのe−メール・サーバーコンピュータ上にあるe−メール・リポジトリには、構造化されていない重要なデータが大量に記憶されている。ネットワークのe−メール・サーバーは、一般に高性能の特別なコンピュータであり、大きなユーザグループ用のe−メール機能をサポートするタスク向けに専用化されている。知識相関を構成するに当たり、本発明の1つの態様によれば、対象の項目または語句に関連するe−メールのメッセージ及びe−メールの添付ファイルを置くことが望ましい。
e−メールのリポジトリは一般に、e−メール・サーバーソフトウェアまたはe−メール・クライアントソフトウェアと称されるe−メール管理ソフトウェアによってカプセル化及びアクセスされ、サーバーソフトウェアは複数のユーザをサポートすべく設計され、そしてクライアントソフトウェアは、パーソナルコンピュータまたはラップトップコンピュータ上の個別ユーザをサポートすべく設計されている。本発明の一実施例は、JavaMail(登録商標、サン・マイクロシステム社のe−メール・クライアントAPI(Application Programming Interface:アプリケーションプログラム用インタフェース))を、http://jmbox.dev.java.net/のプロジェクトであるjmbox(登録商標)のようなLocal Store Provider for JavaMail(登録商標)と共に使用し、Outlook Express(登録商標、マイクロソフト社の製品)、Mozilla(登録商標、mozilla.orgの製品)、Netscape(登録商標、ネットスケープ社の製品)、等のようなローカル(個別コンピュータ内の)リポジトリ中のe−メール・メッセージを検索する。本実施例では、アクセスしたe−メール・メッセージをテキストとして、Java String(ジャバ・ストリング、登録商標)比較機能を用いて対象の項目または語句を検索する。
一部の使用にとって好適な代案の実施例はe−メール・パーサー(構文解析ツール)を利用する。本実施例では、e−メールのヘッダを棄却し、送信者、宛先、件名(題目)、及びメッセージの各フィールド中で対象の項目または語句を検索する。
e−メール・サーバー上のリポジトリは独自形式であることが多いが、一部は、プログラムでのe−メール・メッセージへのアクセス及びe−メール・メッセージの検索を可能にする。こうしたe−メールサーバーの一例は、Apache Japes(登録商標、Apache.orgの製品)である。他の例はOracle e-mail Server API(登録商標、オラクル社の製品)である。e−メール・サーバーのリポジトリ管理ソフトウェアAPIによってアクセスされ、対象の項目または語句を含むことが判明しているe−メール・メッセージはリソースであると考えられる。
プログラムでのe−メール・メッセージへのアクセスにより、本発明の大部分の実施例はe−メール・メッセージの添付ファイルへのアクセスを行う。添付ファイルが独自のフォーマットで存在すれば、次のような構文解析ユーティリティ:
(i) PDF−テキスト・変換ユーティリティ(例えばEtymon Systems社の製品であるPJ(登録商標))
(ii) RTF−テキスト・変換ユーティリティ(例えばPete Sergeant社の製品であるRTF-Parser-1.09(登録商標))
(iii) MS Word(登録商標)−テキスト・パーサー(例えばApache.orgの製品であるApache POI project(登録商標))
をリンクし起動して、添付ファイルを検索可能な形式にすることができる。APIを提供するe−メール・サーバーについては、一部はさらに添付ファイル用のネイティブ(元の)フォーマット検索ユーティリティを内蔵している。e−メール・メッセージ及びe−メール添付ファイルは次のものを含む多数のファイルフォーマットで存在し得る:
(i) テキスト(プレーンテキスト)ファイルのe−メール添付ファイル。
(ii) エクステンデッド・マークアップ・ランゲージ(XML)のe−メール添付ファイル。
(iii) マークアップ・ランゲージ・ファイルのあらゆる「方言」ファイルのe−メール添付ファイル、これらの方言はハイパーテキスト・マークアップ・ランゲージ(HTML)及びエクステンシブル・ハイパーテキスト・マークアップ・ランゲージ(XHTML(登録商標))(ワールドワイド・ウェブ・コンソーシャムのプロジェクト)、RuleML(RuleMLイニシアティブのプロジェクト)、スタンダード・ジェネラライズド・マークアップ・ランゲージ(SGML、国際規格の1つ)、及びエクステンシブル・スタイルシート・ランゲージ(XSL、ワールドワイド・ウェブ・コンソーシャムのプロジェクト)を含むが、これらに限定されない。
(iv) ポータブル・ドキュメント・フォーマット(PDF、Adobe社の独自フォーマット)ファイルのe−メール添付ファイル。
(v) リッチテキスト・フォーマット(RTF、マイクロソフト社によって開発された規格)ファイルのe−メール添付ファイル。
(vi) スプレッドシート・ファイルのe−メール添付ファイル、例えばExcel(エクセル、マイクロソフト社のスプレッドシート(表計算)ソフトウェア製品)によるデータを格納するために使用するXLSファイルのe−メール添付ファイル。
(vii) MS DOCファイルのe−メール添付ファイル、例えば、MS WORD(マイクロソフト社によるワードプロセッサ・ソフトウェア製品)による文書を格納するために使用するDOCファイルのe−メール添付ファイル。
(viii) イベント情報獲得ログファイルのe−メール添付ファイル、これらのログファイルは例えば、トランザクション・ログ、電話発呼記録、従業員のタイムシート(勤務時間記録表)、及びコンピュータシステムのイベントログを含むが、これらに限定されない。
リレーショナル・データベース(RDB)は、データを記憶し検索する良く知られた手段であり、Codd及びDateによって発明されたリレーショナル代数に基づく。リレーショナル・データベースは一般に、インデックス、テーブル(表)及びビュー(視覚)によって実現され、インデックスはデータキーを含み、テーブルはデータ値の列及び行または組で構成され、ビューは仮想的なテーブルとして作用し、これにより複数テーブルの特定の列及び行を、これらの列及び行のデータがあたかも実際の物理的テーブル中に統合されているように操作することができる。テーブル及び列の配置は、データを参照するための論理構造を実現し、この論理構造はスキーマと称される。リレーショナル・データベース・マネージメントシステム(RDBMS:Relational Database Management System)と称されるソフトウェア層は一般に、アクセス、セキュリティ、エラー処理、完全性(インテグリティ)、テーブルの作成及び除去、及びRDBの適正な動作及び利用に必要な他のすべての機能を処理するために使用される。これに加えて、RDBMSは一般に、RDBと外部ソフトウェアプログラム及び/またはユーザとのインタフェースを提供する。RDBMSと外部ソフトウェアプログラム及び/またはユーザとのインタフェースがアクティブ(活性)である各瞬時を接続と称する。RDBMSは、RDBMSと接続された外部ソフトウェアプログラム及び/またはユーザとの間で使用するための2つの特別な言語を提供する。第1の言語であるData Definition Language(DDL:データ定義言語)は、外部ソフトウェアプログラム及びユーザがデータベースの構成要素及び構造を調べて管理することを可能にし、そしてインデックス、テーブル及びビューの作成、消去、及び修正のような機能を可能にする。スキーマはDDLを用いてのみ修正することができる。他の言語であるData Manipulation Language(DML:データ操作言語)と称される質問言語(Query Language)は、データベース・テーブル中に含まれるデータ値の行の選択、検索、記憶、挿入及び消去を可能にする。最も一般に知られているリレーショナル・データベース用のDDL及びDMLはStructured Query
Language(SQL:構造化質問言語、ANSI/ISO規格)である。SQLのステートメント(文)は、RDBMSに接続したソフトウェアプログラム及び/またはユーザによって構成され、質問として提出される。RDBMSは質問を処理し、結果セットと称する回答を返す。結果セットは、質問に合った(質問に満足に答える)データベース中の行及び列の組である。質問に満足に答える行及び列がデータベース中にない場合には、この質問からは行及び列を戻さず、この場合には、結果セットは空である(NULL SET)と称する。本発明の実施例では、対象の項目または語句についての情報の潜在的及び実際のソースはRDB内のテーブル中のデータ行である。RDBテーブル中の各行は同等に、対象の項目または語句についての情報のソースになる資格があると考えられる。本発明の方法は次のステップを含む:
(a) データベースへの接続を生成するステップ;
(b) SQLで質問を形成するステップであって、この質問は、
(b1) SQLのWHERE節を含み、
(b2) このWHERE節は、RDB内の少なくとも1つのテーブルを指定し、
(b3) このWHERE節は、このテーブル中の少なくとも1つの列を指定し、
(b4) このWHERE節は、EQUALSのような少なくとも1つのSQLの比較演算子を含み、
(b5) このWHERE節は、対象の項目または語句を少なくとも1つ、パラメータとして含む;
(c) RDBMSに質問を提出するステップ;
(d) RDBMSによって戻されるデータの行(があれば)受け取るステップ、このデータの行は、対象の項目または語句についての情報の実際のソースであると考えられる。
検索するデータベース・テーブル中の列の数が2以上であれば、本発明の方法は次のステップを含む:
(a) データベースへの接続を生成するステップ;
(b) SQLで質問を形成するステップであって、この質問は、
(b1) SQLのWHERE節を含み、
(b2) このWHERE節は、RDB内の少なくとも1つのテーブルを指定し、
(b3) このWHERE節は、このテーブル中の少なくとも1つの列を指定し、
(b4) このWHERE節は、EQUALSのような少なくとも1つのSQLの比較演算子を含み、
(b5) このWHERE節は、対象の項目または語句を少なくとも1つ、パラメータとして含み、
(b6) 検索するテーブル中の列毎に、追加的なWHERE節が(b1)、(b2)、(b3)で構成され、検索する各列は、(b4)及び(b5)を個別に識別され、
(b7) 追加的なWHERE節の各々はSQLの’OR’演算子によって結合される;
(c) RDBMSに質問を提出するステップ;
(d) RDBMSによって戻されるデータの行(があれば)受け取るステップ、このデータの行は、対象の項目または語句についての情報の実際のソースであると考えられる。
検索するデータベース・テーブルの数が2以上であれば、本発明の方法は次のステップを含む:
(a) データベースへの接続を生成するステップ;
(b) SQLで質問を形成するステップであって、この質問は、
(b1) SQLのWHERE節を含み、
(b2) このWHERE節は、RDB内の少なくとも1つのテーブルを指定し、
(b3) このWHERE節は、このテーブル中の少なくとも1つの列を指定し、
(b4) このWHERE節は、EQUALSのような少なくとも1つのSQLの比較演算子を含み、
(b5) このWHERE節は、対象の項目または語句を少なくとも1つ、パラメータとして含む;
(b8) 検索するテーブル毎に、追加的なWHERE節が(b1)、(b2)で構成され、検索する各テーブルは、(b3)、(b4)及び(b5)を個別に識別され、
(b7) 追加的なWHERE節の各々はSQLの’OR’演算子によって結合される;
(c) RDBMSに質問を提出するステップ;
(d) RDBMSによって戻されるデータの行(があれば)受け取るステップ、このデータの行は、対象の項目または語句についての情報の実際のソースであると考えられる。
これらの実施例では、質問から戻されるあらゆるデータの行が、対象の項目または語句についての情報のリソースであると考えられる。リレーショナル・データベースのリソースのスキーマも、対象の項目または語句についての情報の実際のソースであると考えられる。本発明の一部の利用にとって好適なリレーショナル・データベースは、個別のパーソナルコンピュータ上、コンピュータネットワークの各コンピュータ上、ネットワークのサーバーコンピュータ上、及びネットワークのデータベース・サーバーコンピュータ上に展開される。ネットワークのデータベース・サーバーは、一般に高性能の特別なコンピュータであり、大きなユーザグループ用のデータベース機能をサポートするタスク向けに専用化されている。
データベースのビューは、データベース・テーブルの代わりにデータベースのビューを指定するWHERE節によって、実際のデータベース・テーブルと本質的に同じ手順を用いて、読取り用及び結果セットの検索用にアクセスすることができる。他の実施例は、SQLを用いてデータのウェアハウス(倉庫)をアクセス及び検索して、対象の項目または語句についての情報の潜在的なソースを識別する。データのウェアハウスはリレーショナル・データベースの特別な形である。SQLは大部分のデータ・ウェアハウス用にDML及びDDLとして使用されるが、データ・ウェアハウス内のデータは複雑かつ大局的なインデックス構造によってインデックス付けされる。
分類法は最初は、生物体の分類に使用されていた。分類法は分類の科学であるが、分類法の例は、説明、分析、あるいは情報検索の枠組み(フレームワーク)を提供するために使用されるカタログである。分類法は、事物を明確な階層構成に分類することによって生み出される。分類法は通常、ある種のグラフであるツリーとして表現される。グラフは、エッジまたはリンク(連結線)によって接続された頂点(またはノード)を有する。ツリーの「ルート」または最上の頂点(例えば生物体)から、明らかに一意的なグループ(例えば哺乳類、魚類、鳥類)毎に「ブランチ(枝)」(エッジ)が分岐する。ブランチは、サブグループ毎に次のブランチに分岐し続け(例えば哺乳類からのブランチは有袋類及びサピエンスであり得る)、外向きのエッジを有しないリーフ(葉)の頂点に行き当たるまで分岐し続ける(例えばサピエンスのサブグループからは、リーフの頂点はホモサピエンス(人)において見出される)。一実施例では、グラフ・トラバース(横断検索)機能と称するソフトウェア機能を用いて、分類中で対象の項目または語句を検索する。分類については、グラフは一般に、出現(インシデンス)リストと称される形式で記憶し、グラフのエッジは、各エッジを接続する複数対の頂点を含むアレイによって表現される。分類法は有向グラフ(ダイグラフ)であるので、このアレイは順序付けられている。分類法用の出現リストの例は次の表のように現われる:
Figure 2008538016
こうしたリストのトラバースは、ほとんど任意のコンピュータ・プログラミング言語において単純である。分類用の出現リストがRDBテーブル内に記憶されている場合には、RDB内を検索する方法を用いる。対象の項目または語句が見出された場合には、分類全体が、対象の項目または語句についての情報のソースであると考えられる。特定の使用において関係する種類の分類の例は、個別のパーソナルコンピュータ上、コンピュータネットワーク上の個別のコンピュータ上、ネットワークのサーバーコンピュータ上、及びネットワークの分類サーバーコンピュータ上に存在する。ネットワークの分類サーバーは一般に高性能の特別なコンピュータであり、大きなユーザグループ用の分類検索機能をサポートするタスク向けに専用化されている。
本発明の一実施例は、参照構造としての分類の例に関係し、この理由で、分類は、対象の項目または語句が当該分類中にない場合でも、その全体がリソースであると考えられる。
オントロジーは、概念及び事物、及びこれらどうしの関係を形式的に記述する語彙であり、語彙の用語を用いて、指定した関係領域内で意味あるものを表現するパターンを有する。この語彙を用いて質問及び表明を行う。存在論は一般にグラフとして表現される。本実施例では、グラフ・トラバース機能と称されるソフトウェア機能を用いて、対象の項目または語句を含むオントロジー中の、対象の頂点と称する頂点を検索する。オントロジーは、オントロジーの開始頂点から「関係」(リンク)を、対象の項目または語句が見つかるまで、あるいはオントロジー中のすべての頂点を訪ね尽くすまで辿ることによって検索する。オントロジーを検索するために用いるグラフ・トラバース機能は、分類を検索するために用いるグラフ・トラバース機能とは次の理由で異なる:第1に、オントロジー中のエッジはラベル付けされている;第2に、頂点a、エッジe、頂点bの各三つ組の因果関係は、頂点aと頂点bとの反転関係を捉えるために、頂点b、エッジe^、頂点aでなければならないことが多い。例えば次の表の通りである:
Figure 2008538016
トラバースは単純であるが、大きなオントロジーについては時間を要し得る。可能であれば、本発明の実施例は、RDBMS機能に基づく意味的(セマンティック)アクセス及び検索を伴うインデックス付きのオントロジーを用いる。対象の項目または語句が見つかった場合には、オントロジー全体を、対象の項目または語句についての情報の実際のソースであると考える。オントロジーの例は、個別のパーソナルコンピュータ上、コンピュータネットワーク上の各コンピュータ上、ネットワークのサーバーコンピュータ上、及びネットワークのオントロジー・サーバーコンピュータ上に存在する。ネットワークのオントロジー・サーバーは一般に高性能の特別なコンピュータであり、大きなユーザグループ用の意味的検索機能をサポートするタスク向けに専用化されている。
分類の例に当てはまるように、本発明の一実施例は参照構造としてのオントロジーに関係し、この理由で、オントロジーは、対象の項目または語句が当該オントロジー中にない場合でも、その全体が実際のソースであると考えられる。
あらゆる潜在的なソースを位置検出した後に、各潜在的なソースを、対象の項目または語句との関連性についてテストしなければならない。項目または語句に関連する文献を検索する際には、特定レベルの識別検索が可能である。例えば、当該文書が蓄積されているファイル名は記述的(説明的)なテキストを含み得る。より深いレベルでは、リソース識別によって識別される文書はそのタイトル(表題)を検索することができ、あるいはその要約を通してより深く検索することができ、あるいは、文書のテキスト全体を通してさらに深く検索することができる。これらの検索のいずれもが、質問中で利用される項目または語句にある文書が関連することを見出す結果を生じさせ得る。広範囲のテキストに検索を拡げる場合には、近接関係(近さの関係)を起動して、関連性のあるものとして識別されるリソースの数を制限することもできる。関連性用のテキストは、潜在的なソースが対象の項目または語句との正確な一致を含むことを確立するのと同じくらい単純かつ狭い。改善された高度な知識により、関連性のテストは、検査した潜在的なソースの中からより価値のあるリソースを、より一層正確に識別する。本発明によるこれらの関連性のテストは次のものを含むことができるが、これらに限定されない:
(i) 潜在的なソースが、対象の項目または語句の単数形または複数形との一致を含むこと;
(ii) 潜在的なソースが、対象の項目または語句の同義語との一致を含むこと;
(iii) 潜在的なソースが、対象の項目またが語句に関係する単語との一致を含むこと(シソーラス(語彙辞典)によって提供され得るものに関係する);
(iv) 潜在的なソースが、対象の項目または語句に関係する単語との一致を含み、潜在的なソースの内容と対象の項目または語句との関係が権威ある参照ソースによって確立されること;
(v) Merrian-Webster’s Thesaurus(メリアン・ウェブスター社の刊行物)のようなシソーラスを使用して、検索中に存在する潜在的なソースの何らかの内容が、対象の項目または語句の同義語か、またはこれに関係するものであるか否かを判定すること;
(vi) 潜在的なソースが、対象の項目及び/または語句の1つの、権威ある参照ソース中の定義に現われる単語との一致を含むこと;
(vii) Merrian-Webster’s Dictionary(メリアン・ウェブスター社の刊行物)のような辞典を使用して、検索中に存在する潜在的なソースの何らかの内容が、対象の項目または語句の、この辞典の定義であるか否か、従って関係するか否かを判定すること;
(viii) 潜在的なソースが、権威ある参照ソースにおける対象の項目または語句についての説明中に出現する単語との一致を含むこと;
(ix) Encyclopedia Britannica(Encyclopedia Britannica社の刊行物)のような百科辞典を使用して、検索中に存在する潜在的なソースの何らかの内容が、対象の項目または語句についての百科事典の説明中にあるか否か、従って関係するか否かを判定すること;
(x) 潜在的なソース中にある項目が、対象の項目または語句と「親」、「子」、または「兄弟」の関係を有すること;
(xi) 分類を使用して、潜在的なソースに含まれる項目が、対象の項目または語句と「親」、「子」、または「兄弟」の関係を有することを判定すること。本実施例では、対象の項目または語句を含む頂点が分類中にある。これが対象の頂点である。潜在的なソースの内容中にある単語毎に、分類における「親」、「兄弟」及び「子」の頂点を、対象の頂点から、この対象の頂点の「親」、「兄弟」及び「子」の頂点までの関係(リンク)を辿ることによって検索する。「親」、「兄弟」または「子」の頂点のいずれかが、潜在的なソースの内容からの単語を含む場合には、一致を宣言し、このソースは対象の項目または語句についての情報の実際のソースであると考える。本実施例では、グラフ・トラバース機能と称するソフトウェア機能を用いて、対象の項目または語句の「親」、「兄弟」及び「子」の頂点を位置検出して検査する;
(xii) 対象の項目または語句が、潜在的なソースに含まれる項目から1(単位)の意味的度合い(長さ)のものであること;
(xiii) 対象の項目または語句が、潜在的なソースに含まれる項目から2(単位)の意味的度合い(長さ)のものであること;
(xiv) オントロジーを使用して、ソースが、対象の項目または語句から1(単位)の意味的度合い(長さ)だけ離れていることを判定すること。本実施例では、対象の項目または語句を含む頂点はオントロジー中に位置する。これが対象の頂点である。潜在的なソースの内容中にある単語毎に、対象の頂点から隣接するすべての頂点までの関係(リンク)を辿ることによって、オントロジーを検索する。隣接する頂点のいずれかが潜在的なソースの内容からの単語を含む場合には、一致を宣言し、このソースは対象の項目または語句についての情報の実際のソースであると考える;
(xv) オントロジーを使用して、ソースが、対象の項目または語句から2(単位)の意味的度合い(長さ)だけ離れていることを判定すること。本実施例では、対象の項目または語句を含む頂点はオントロジー中に位置する。これが対象の頂点である。潜在的なソースの内容中にある単語毎に、意味的度合い1の関連性テストを実行する。このテストが不合格であれば、対象の頂点に隣接する頂点からそれぞれの隣接する頂点のすべてまでの関係(リンク)を辿ることによって、オントロジーを検索する。こうした頂点は、対象の頂点から意味的度合い2である。意味的度合い2の頂点のいずれかが、潜在的なソースの内容からの単語を含む場合には、一致を宣言し、このソースは対象の項目または語句についての情報の実際のソースであると考える;
(xvi) CYC Ontology(Cycorp社の製品)のような汎用的なオントロジーを使用して、対象の項目及び/または語句の1つから、検索中に存在する潜在的なソースのあらゆる内容までの意味的距離の度合い(長さ)を測定すること;
(xvii) Gene Ontology(Gene Ontology Consortiumのプロジェクト)のような特化したオントロジーを使用して、対象の項目及び/または語句から、検索中に存在する潜在的なソースのあらゆる内容までの意味的距離の度合い(長さ)を測定すること;
(xviii) オントロジーを使用し、テストのために、オントロジー言語(例えばWeb Ontology Language(OWL))を用いてオントロジーにアクセスしてオントロジー内を進むこと。
潜在的なソースを位置検出し、関連性テストに合格し、そしてリソースに進んだ後に、本発明の好適な実施例は、リソースをノードに分解することを求める。本発明のこの実施例に適用されるリソース分解の2つの方法は、単語分類及び中間フォーマットである。単語分類は、単語を品詞(例えば名詞、動詞、形容詞)の例として識別する。適正な単語分類は、コーパス(言語資料)と称されるテキストを必要とすることが多い、というのは、単語分類は、その単語が何であるかではなく、その単語をどのように使用するかに依存するからである。単語分類の作業は人間の言語(人間語)毎に一意的であるが、すべての人間語は品詞に分解することができる。本発明の好適な実施例における、単語分類によって分解される人間語は英語であり、単語分類の手段は自然言語パーサー(NLP:natural Language Parser)(例えば英国のシェフィールド大学の製品であるGATE(登録商標))である。一実施例では、次のことを実行する:
(a) テキストをNLPに入力する;
(b) NLPはテキストを「文章(センテンス)の文書(ドキュメント)」に再編成する;
(c) 「文章」毎に、
(c1) NLPは一連のトークンを符号化し、各トークンは、文章中の(このトークンに)対応する単語の品詞に対するコードである;
リソースが、プレーンテキスト中で許されない書式設定、処理、または特殊文字を少なくとも1つ含むならば、次のことを実行する:
(a) テキストをNLPに入力する;
(b) NLPはテキストを「文章の文書」に再編成する;
(c) 「文章」毎に、
(c1) NLPはトークンの列を符号化し、各トークンは、文章中の(このトークンに)対応する単語の品詞に対するコードである;
(c2) NLPにとって認識可能でない文字を含む文字列または単語列を、文章及び上記トークンの列の両方から取り除く
この第2の方法を用いることによって、任意の英語テキストを含むリソースをノードに分解することができ、次のように書式設定したリソースを含む:
(i) テキスト(プレーンテキスト)ファイル。
(ii) リッチテキスト・フォーマット(RTF、マイクロソフト社によって開発された規格)ファイル。代案の方法は、まずRTF−テキスト変換ユーティリティ(例えばPete Sergeant社の製品であるRTF-Parser-1.09)の中間的な使用によってRTFからクリーンテキストを得ることである。
(iii) エクステンデッド・マークアップ・ランゲージ(XML、ワールドワイド・ウェブ・コンソーシャムのプロジェクト)ファイル。
(iv) マークアップ・ランゲージ・ファイルのあらゆる「方言」ファイル、これらの方言は、ハイパーテキスト・マークアップ・ランゲージ(HTML)及びエクステンシブル・ハイパーテキスト・マークアップ・ランゲージ(XHTML)(ワールドワイド・ウェブ・コンソーシャムのプロジェクト)、RuleML(RuleMLイニシアティブのプロジェクト)、スタンダード・ジェネラライズド・マークアップ・ランゲージ(SGML、国際規格の1つ)、及びエクステンシブル・スタイルシート・ランゲージ(XSL、ワールドワイド・ウェブ・コンソーシャムのプロジェクト)を含むが、これらに限定されない。
(v) ポータブル・ドキュメント・フォーマット(PDF、Adobe社の独自フォーマット)ファイル。
(vi) MS WOED(MSワード(登録商標)ファイル、例えば、MS WORD(マイクロソフト社によるワードプロセッサ・ソフトウェア製品)による文書を格納するために使用するDOCファイル。本実施例は、MSワード−テキスト・パーサー(例えばApache.orgの製品であるApache POIプロジェクト)をプログラムで利用する。POIプロジェクトのAPIは、Microsoft Excel(マイクロソフト・エクセル(登録商標))のスプレッドシート(表計算ソフト)ファイル(XLS)からのプログラムで起動されるテキスト抽出も可能にする。MSワード・ファイルはNLPによっても、特殊文字を含むプレーンテキストファイルとして処理することができるが、XLSファイルは処理できない。
(vii) イベント情報獲得ログ(記録)ファイル、トランザクション・ログ、電話発呼記録、従業員のタイムシート(勤務時間記録表)、及びコンピュータシステムのイベントログを含むが、これらに限定されない。
(viii) ウェブページ。
(ix) ブログページ。
単語分類によるXMLファイルの分解のために、XML要素のオープン(開く)タグとクローズ(閉じる)タグとによって囲まれた英語の内容のみに分解を適用し、その代案は、XML要素のオープンタグとクローズタグとによって囲まれた英語の内容、及びXML要素のオープンタグ及びクローズタグのあらゆる英語タグ値に分解を適用する。本実施例は、本発明における、メタデータ・ラベル値を内容と共に獲得し、そしてこれらのラベル値を、要素内容から成るノード中に伝播させることを追求する場合に有用である。この能力がなければ、本実施例は、NLPによって特殊文字を含むプレーンテキストファイルとして処理したXMLファイルに頼る。マークアップ・ランゲージのあらゆる「方言」は、参照した実施例による方法と本質的に同一の方法で処理され、これらの方言は次のものを含むがこれらに限定されない:ハイパーテキスト・マークアップ・ランゲージ(HTML:HyperText Markup Language)及びエクステンシブル・ハイパーテキスト・マークアップ・ランゲージ(XHTML(登録商標):Extensible HTML)(ワールドワイド・ウェブ・コンソーシャムのプロジェクト)、RuleML(RuleMLイニシアティブのプロジェクト)、スタンダード・ジェネラライズド・マークアップ・ランゲージ(SGML:Standard Generalized Markup Language、国際規格の1つ)、及びエクステンシブル・スタイルシート・ランゲージ(XSL:Extensible Stylesheet Language、ワールドワイド・ウェブ・コンソーシャムのプロジェクト)
本発明の好適な実施例では、単語分類を用いてe−メール・メッセージ及びe−メール・メッセージの添付ファイルを分解する。前述したように、個別コンピュータ及びサーバー上のe−メール・リポジトリをアクセス及び検索するために使用するのと同じ、プログラムで起動されるユーティリティを、e−メール・メッセージ及びe−メールの添付ファイルからの英語テキストの抽出に指向させる。結果的に抽出された英語テキストを「クリーン」にできる程度に依存して、本発明が使用するNLPは抽出したテキストを、(単なる)プレーンテキストまたは特殊文字を含むプレーンテキストとして処理する。e−メールの添付ファイルは前述したように、それぞれのファイルフォーマット毎に分解される。
単語分類による分解は、本発明によってサポートされる分解の2つの方法の1つであり、分解の他の手段は、中間フォーマットを用いたリソースからの情報の分解である。中間フォーマットは、第2の項目または語句と対をなす第1の項目または語句である。好適な実施例では、第1の項目または語句は第2の項目または語句と関係を有する。この関係は暗示的な関係または明示的な関係のいずれかであり、そしてこの関係はコンテクスト(文脈)によって規定される。一実施例では、このコンテクストがスキーマである。他の実施例では、このコンテクストがツリーグラフである。第3の実施例では、このコンテクストが有向グラフ(ダイグラフとも称される)である。これらの実施例では、コンテクストは、上記一対の項目または語句を抽出したリソースから提供される。他の実施例では、コンテクストは外部リソースによって提供される。本発明の一実施例によれば、上記関係はコンテクストによって規定される明示的な関係であり、この関係は当該コンテクストによって指定される。
一実施例では、コンテクストがスキーマであり、そしてリソースはリレーショナル・データベース(RDB)である。第1の項目または語句から第2の項目または語句までの関係は暗示的な関係であり、この暗示的な関係はRDBにおいて規定されている。本発明の分解方法は、一対の概念または項目で関係を提供し、これによりノードを作成する。第1の項目は句であり、このことは、第1の項目が2つ以上の部分(2単語、単語と数値、3単語)を有することを意味し、そして第2の項目は句であり、このことは、第2の項目が2つ以上の部分(2単語、単語と数値、3単語)を有することを意味する。
分解機能はRDBスキーマを入力として解釈する。この方法は次のステップを含む:
(A) 第1段階では、
(a) 第1の項目または語句がデータベース名であり、第2の項目または語句がデータベース・テーブル(データベース内のテーブル)名である。例:データベース名が”ACCOUNTING(会計)”であり、データベース・テーブル名が”Invoice(送り状、納品書、請求書)”である;
(b) 第1の項目または語句(”ACCOUNTING(会計)”)と第2の項目または語句(”Invoice”)との関係(例えば”has”(有する))は、RDBスキーマの意味論(セマンティックス)により暗示的であると認識する。
(c) これら一対の概念または項目の関係(”has”)を提供することによってノード(”Accounting−has−Invoice”)を生成する;
(d) RDB内のテーブル毎に、データベース名を固定するステップ(a)、関係を固定するステップ(b)、個別のテーブル名を反復的に用いてノードを生成するステップ(c)を実行する。
(B) 第2段階では、
(a) 第1の項目または語句がデータベース・テーブル名であり、第2の項目または語句がデータベース・テーブルの列名である。例:データベース・テーブル名が”Invoice”であり、列名が”Amount Due(未払額、精算額)”である;
(b) 第1の項目または語句(”Invoice”)と第2の項目または語句(”Amount Due”)との関係(例えば”has”)は、DBスキーマの意味論(セマンティックス)により暗示的であると認識する。
(c) これら一対の概念または項目の関係(”has”)を提供することによってノード(”Invoice−has−Amount Due”)を生成する;
(d) データベース・テーブル中の列毎に、データベース・テーブル名を固定するステップ(a)、関係を固定するステップ(b)、個別の列名を反復的に用いてノードを生成するステップ(c)を実行する。
(e) RDB内のテーブル毎に、ステップ(d)に続いて、データベース・テーブル名を反復的に使用するステップ(a)、関係を固定するステップ(b)、個別の列名を反復的に用いてノードを生成するステップ(c)を実行する。
本実施例では、RDBのスキーマ全体を分解し、上記暗示的な関係はRDBの意味論によって直ちに知られるので、RDBのスキーマ全体は、中間フォーマットの一対の概念または項目を追加的に処理することなしにノードに分解することができる。
他の実施例では、分解機能は、RDBスキーマに加えて、テーブル中のある行からの少なくとも2つの値を入力として解釈する。この方法は次のステップを含む:
(a) 第1の項目または語句が複合項目であり;
(b) この複合項目の第1部分はデータベース・テーブルの列名であり、これは、このテーブルの”キー”列の名前である(例えば、テーブル”Invoice”に対しては、キー列は”Invoice No.(送り状番号)”である。);
(c) 上記複合項目の第2部分は、テーブルの第1行からのキー列に対する値である(例えば、”Invoice”テーブルの列”Invoice No.”に対しては、行1の”Invoice No.”の値が”500024”であり、この行を「現在行」と称する);
(d) 上記複合の第3部分は、テーブル中の第2列の列名である(例”Status(状態)”);
(e) 第1の項目または語句は”Invoice No. 500024 Status(送り状番号500024の状態)”となる;
(f) 第2の項目または語句は、第2列、現在行からの値である。例:第2列の名前が”Status”であり、行1の値が”Overdue(期限切れ)”である;
(g) 第1の項目または語句(”Invoice No. 500024 Status”)と第2の項目または語句(”Overdue”)との関係(例えば”is(である)”)を、RDBスキーマの意味論により暗示的であると認識する;
(h) 上記一対の概念または項目の関係(”is”)を提供することによって、ノードを生成する(”Invoice No. 500024 Status−is−Overdue”);
(i) テーブル中の行毎に、キー列名を固定するステップ(b)、行と共に変化するステップ(c)、第2列名を固定するステップ(d)、行毎の第2列の値と共に変化するステップ(f)、固定された関係(”is”)(g)でノードを生成するステップ(h)を実行する;
(j) テーブル中の列毎に、ステップ(i)を実行する;
(k) データベース内のテーブル毎に、ステップ(j)を実行する。
RDBの全体の内容を分解することができ、上記暗示的な関係はRDBの意味論によって直ちに知られるので、RDBの全体の内容は、中間フォーマットの一対の概念または項目を追加的に処理することなしにノードに分解することができる。
コンテクストがツリーグラフであり、リソースが分類であれば、第1の項目または語句から第2の項目または語句までの関係は暗示的な関係であり、この暗示的な関係は分類によって規定される。
分解機能は、分類中のすべての階層関係を獲得する。分解方法はグラフ・トラバース機能であり、このことは、この方法が分類グラフのすべての頂点を訪ねることを意味する。ツリーグラフでは、(ルート以外の)頂点は、親は1つだけ有するが、多くの兄弟及び子を有する。この方法は次のステップを含む:
(a) グラフのルートの頂点から開始する;
(b) 頂点を訪ねる(現在の頂点と称する);
(c) 現在の頂点に至る子の頂点が存在する場合には;
(d) 子の頂点の値は第1の項目または語句(例えば”mammal(哺乳類)”)である;
(e) 現在の頂点の値は第2の項目または語句(例えば”living organism(生物体)”)である;
(f) 第1の項目または語句(子の頂点の値)と第2の項目または語句(現在の頂点の値)との関係(例えば”is「である」”)を、分類の意味論により暗示的であると認識する;
(g) これら一対の概念または項目の関係(”is”)を提供することによって、ノード(”mammal−is−living organism(哺乳類は生物体である)”)を生成する;
(h) 分類グラフ中の頂点毎に、ステップ(b)、(c)、(d)、(e)、(f)、(g)を実行する。
分類ツリー全体の親/子関係は分解することができ、上記暗示的な関係は分類の意味論によって直ちに知られるので、分類の全体の内容は、中間フォーマットの一対の概念または項目を追加的に処理することなしにノードに分解することができる。
他の実施例では、分解機能は分類中のすべての兄弟関係を獲得する。この方法は次のステップを含む:
(a) グラフのルートの頂点から開始する;
(b) 頂点を訪ねる(現在の頂点と称する);
(c) 現在の頂点に至る子の頂点が2つ以上存在する場合には;
(d) 左から右への参照フレームを用いる;
(e) 第1の子の頂点の値は、第1の項目または語句である(例えば”humans(人間)”)
(f) これに最も近い兄弟の(近接した)頂点は第2の項目または語句(例えば”aeps(類人猿)”)である;
(g) 第1の項目または語句(第1の子の頂点の値)と第2の項目または語句(他の子の頂点の値)との関係(例えば”related(関係があった)”)を、分類の意味論(即ち兄弟関係)により暗示的であると認識する;
(h) これら一対の概念または項目の関係(”related”)を提供することによって、ノード(”humans−related−apes(人間は類人猿と関係があった)”)を生成する;
(i) 現在の頂点の(第1の子より先の)他の子の頂点毎に、ステップ(e)、(f)、(g)、(h)を実行する;
(j) 分類グラフ中の頂点毎に、ステップ(b)、(c)、(d)、(i)を実行する。
分類ツリー全体中のすべての兄弟関係は分解することができ、上記暗示的な関係は分類の意味論によって直ちに知られるので、分類の全体の内容は、中間フォーマットの一対の概念または項目を追加的に処理することなしにノードに分解することができる。
コンテクストが有向グラフであり、リソースがオントロジーであれば、第1の項目または語句から第2の項目または語句までの関係は暗示的な関係であり、この暗示的な関係はオントロジーによって規定される。
分解機能は、オントロジー中の意味的度合い1のすべての意味的関係を獲得する。分解方法はグラフ・トラバース機能であり、このことは、この方法はオントロジーグラフのすべての頂点を訪ねることを意味する。オントロジーグラフ中では、度合い1の意味的関係は、与えられた頂点からちょうど1リンク(1「ホップ」)移動したすべての頂点によって表わされる。各リンクには、頂点間の関係をラベル付けしなければならない。この方法は次のステップを含む:
(a) グラフのルートの頂点から開始する;
(b) 頂点を訪ねる(現在の頂点と称する);
(c) 現在の頂点から他の頂点へのリンクが存在する場合には;
(d) 時計回りの参照フレームを用いて;
(e) 現在の頂点の値は第1の項目または語句(例えば”husband(夫)”)である;
(f) 最初にリンクされる頂点の値は第2の項目または語句(例えば”wife(妻)”)である;
(g) 第1の項目または語句(現在の頂点の値)と第2の項目または語句(リンクされた頂点の値)との関係(例えば”spouse(配偶者)”)は、オントロジーの意味論により明示的に提供される;
(h) これら一対の概念または項目の関係(”spouse”)を提供することによって、ノード(”husband−spouse−wife(夫−配偶者−妻)”)(正式には「妻との配偶者関係を有する夫が存在する」ことを意味する)を生成する;
(i) オントロジーグラフ中の頂点毎に、ステップ(b)、(c)、(d)、(e)、(f)、(g)、(h)を実行する;
オントロジーツリーにおける度合い1の関係は分解することができ、上記明示的な関係は、オントロジーのラベル付けされた関係の意味論によって直ちに知られるので、オントロジーの全体の内容は、中間フォーマットの一対の概念または項目を追加的に処理することなしにノードに分解することができる。
ノードは相関の基礎的要素(ビルディングブロック)である。ノードは、与えられた原点から発見されたデスティネーション(行先)までの関連のチェーン(連鎖)中のリンクである。本発明の好適な実施例及び/または好適な方法は、ノードを用いて相関を構成することによって知識を発見するための改善されたシステム及び方法を提供することに指向したものである。ノードプールにノードが置かれ次第、相関を開始することができる。本発明のすべての実施例において、ノードはデータ構造である。ノードの各部分は、テキスト、数字、数学記号、論理記号、URL、URI、及びデータオブジェクトを含むデータ形式(データタイプ)を保持することができるが、これらに限定されない。ノードデータ構造は、独立して意味を伝えるのに十分であり、そしてノードデータ構造は関係を含むので、独立して意味を伝えることができる。ノードによって明らかになる関係には方向性があり、このことは、関係項どうしの間の関係は単方向性でも双方向性でもあり得ることを意味する。単方向性の関係は単一方向のみに存在し、1つの部分から他の部分へのトラバース(横断)は許容するが逆方向のトラバースは許容しない。双方向性の関係は両方向のトラバースを許容する。
一実施例では、ノードは3つの部分で構成されるデータ構造であり、これら3つの部分は、関係及び2つの関係項を含む。これらの部分の構成は次の通りである:
(a) 第1部分は第1の関係項を含む;
(b) 第2部分は関係を含む;
(c) 第3部分は第2の関係項を含む。
これらの部分に次の名称を与える:
(a) 第1の関係項を含む第1部分を主部と称する;
(b) 関係を含む第2の関係項を結合部と称する;
(c) 第2の関係項を含む第3部分を属性と称する。
他の好適な実施例では、ノードはデータ構造であり、4つの部分で構成される。これら4つの部分は、関係、2つの関係項、及びソースを含む。4つの部分の1つはソースであり、ソースは、ノードを抽出したリソースを識別するURL、URIを含む。代案の実施例では、ソースは、ノード中に含まれる関係についてのコンテクストを提供する外部リソースを識別するURLまたはURIを含む。これらの実施例では、これら4つの部分は関係、2つの関係項、及びソースを含み、これらの部分の構成は次の通りである:
(a) 第1部分は第1の関係項を含む;
(b) 第2部分は関係を含む;
(c) 第3部分は第2の関係項を含む;
(d) 第4部分はソースを含む。
これらの部分に次の名称を与える:
(a) 第1の関係項を含む第1部分を主部と称する;
(b) 関係を含む第2部分を結合部と称する;
(c) 第2の関係項を含む第3部分を属性と称する;
(d) ソースを含む第4部分をシーケンス(列)と称する。
図4Aを参照すれば、ノード180A及び180Bの生成は、自然言語プロセッサ(NLP)410によって、分解の生成物を用いて達成され、少なくとも1つの単語文及びトークンの列を含み、この文とトークンの列とは一対一の対応415を有しなければならない。少なくとも1つの構文(シンタックス)パターン420に一致するすべてのノード180A、180Bを構成することができる。その方法は次の通りである:
(a) トークンの構文パターン420を選択する(例:<noun(名詞)><preposition(前置詞)><noun(名詞)>);
(b) 左から右に移動する;
(c) トークンの列中の、このパターンの中央のトークン(<preposition>)を検索する;
(d) 正しいトークン(<preposition>)がトークン列中に位置検出された場合には;
(e) <preposition>のトークンを現在トークンと称する;
(f) 現在トークンの左側のトークン(左トークンと称する)を調べる;
(g) 左トークンが上記パターンに一致しない場合には;
a.この試みを失敗と考える;
b.トークンの列の検索を、現在トークンの位置から継続する;
c.次に一致する<preposition>トークンを位置検出するまで行う;
d.あるいは、トークンの列の終点に行き着く;
(h) 左トークンが上記パターンに一致する場合には;
(i) 現在トークンの右側のトークン(右トークンと称する)を調べる;
(j) 右トークンが上記パターンに一致しない場合には;
a.この試みを失敗と考える;
b.トークンの列の検索を、現在トークンの位置から継続する;
c.次に一致する<preposition>トークンを位置検出するまで行う;
d.あるいは、トークンの列の終点に行き着く;
(k) 左トークンが上記パターンに一致する場合には;
(l) ノード180A及び180Bを作成する;
(m) <noun><preposition><noun>のパターン、例えば”action regarding inflation(膨張に関する作用)”に相当する単語リストからの単語を使用する;
(n) トークンの列の検索を、現在トークン位置から継続する;
(o) 次に一致する<preposition>トークンを位置検出するまで行う;
(p) あるいは、トークンの列の終点に行き着く;
ノードの生成は、自然言語プロセッサ(NLP)による分解の生成物を用いて達成され、少なくとも1つの単語文及びトークンの列を含み、この文とトークンの列とは一対一の対応を有しなければならない。少なくとも1つの構文パターンに一致するすべてのノードを組み立てることができる。その方法は次の通りである:
(q) トークンの構文パターン420を選択する(例:<noun(名詞)><preposition(前置詞)><noun(名詞)>);
(r) 左から右に移動する;
(s) トークンの列中の、このパターンの中央のトークン(<preposition>)を検索する;
(t) 正しいトークン(<preposition>)がトークン列中に位置検出された場合には;
(u) <preposition>のトークンを現在トークンと称する;
(v) 現在トークンの左側のトークン(左トークンと称する)を調べる;
(w) 左トークンが上記パターンに一致しない場合には;
a.この試みを失敗と考える;
b.トークンの列の検索を、現在トークンの位置から継続する;
c.次に一致する<preposition>トークンを位置検出するまで行う;
d.あるいは、トークンの列の終点に行き着く;
(x) 左トークンが上記パターンに一致する場合には;
(y) 現在トークンの右側のトークン(右トークンと称する)を調べる;
(z) 右トークンが上記パターンに一致しない場合には;
a.この試みを失敗と考える;
b.トークンの列の検索を、現在トークンの位置から継続する;
c.次に一致する<preposition>トークンを位置検出するまで行う;
d.あるいは、トークンの列の終点に行き着く;
(aa) 左トークンが上記パターンに一致する場合には;
(bb) ノードを作成する;
(cc) <noun><preposition><noun>のパターン、例えば”prince among men(男の中の王子)”に相当する単語リストからの単語を使用する;
(dd) トークンの列の検索を、現在トークンの位置から継続する;
(ee) 次に一致する<preposition>トークンを位置検出するまで行う;
(ff) あるいは、トークンの列の終点に行き着く;
本発明の好適な実施例は、リソースの分解の生成物であるすべての文を用いたノードの生成に指向したものである。本実施例の方法は、NLPの分解機能によって生成されたすべての文についてステップ(a)〜(p)を実行する挿入ステップ(q)を含む。
ノードは、2つ以上のパターンを用いて組み立てることができる本実施例の方法は:
(1) 挿入ステップ(a1)は、パターンのリストの用意である。このリストは2つのパターンから始めることができ、そして本質的に、ノードを作成するに当たり使用可能なすべてのパターンに拡張することができ、次のものを含むがこれらに限定されない:
(i) <noun(名詞)><verb(動詞)><noun>、例:”man bites dog(人が犬を噛む)”,
(ii) <noun><adverb(副詞)><verb>、例:”horse quickly runs(馬が速く走る)”,
(iii) <verb><adjective(形容詞)><noun>、例:”join big company(大きい会社に入る)”,
(iv) <adjective><noun><noun>、例:”silent night song(静かな夜の歌)”,
(v) <noun><preposition(前置詞)><noun>、例:”voters around country(国中の有権者)”;
(2) ステップ(a)〜ステップ(p)の挿入ステップ(p1)を、パターンのリスト中のパターン毎に実行する;
改善された方法では、2つ以上のパターンを用いてノードを組み立て、ノードを組み立てる方法は、記憶しているパターンのリストを用いる。本実施例では、
挿入ステップ(a2)は、中央のトークン、次に左側のトークン、次に右側のトークン(例:<adjective>の前に<noun>、その前に<preposition>)の順によってパターンのリストをソートし(並べ替え)、このことは、パターン(i)〜(v)の組に対する検索順序が(iii), (ii), (iv), (v), (i)となること、及び同じ中央トークンを有するパターンがグループとなることを意味する。
(b), (c) 各トークン列中の、パターンリスト中の第1中央トークン、即ち<adjective>を検索する;
(d) 適正なトークン(<adjective>)がトークン列中に位置検出された場合には;
(e) 位置検出された<adjective>トークンを現在トークンと称する;
(e1) 現在トークンを用いて;
(e2) 同じ中央トークンを有するリスト中の各パターン(即ち、パターンリスト中のグループの各メンバー)を、現在トークンの点において、トークン列中の右側のトークン、現在トークン、及び左側のトークンと比較する。
(e3) 検索リスト中のグループ毎に、ステップ(b)〜(e2)を実行する;
(q) リソースから分解されたすべての文について、ステップ(b)〜(e3)を実行する。
2トークンのみのパターンを用いて、追加的な挿入ノードをトークンの列から抽出することができる。この方法は、パターン中の右側のトークンを検索し、そして組み立てたノードの結合部(ボンド)値はノード構成器によって提供される。他の変形例では、単数形または複数形の主部(左側のトークンに相当する)値をテストすることによって結合値を決定する。本実施例では、
(a) パターンは<noun><adjective>である;
(b) 左から右に移動する;
(c) トークンの列中の、トークン<adjective>を検索する;
(d) 適正なトークン(<adjective>)がトークン列中に位置検出された場合には;
(e) <adjective>トークンを現在トークンと称する;
(f) 現在トークンの左側にあるトークン(左トークンと称する)を検査する;
(g) 中央トークン(<noun>)が上記パターンに一致しない場合には、
a.この試みを失敗と考える;
b.トークンの列の検索を、現在トークンの位置から継続する;
c.次に一致する<adjective>トークンを位置検出するまで行う;
d.あるいは、トークンの列の終点に行き着く;
(h) 左トークンが上記パターンに一致する場合には;
(i) ノードを作成する;
(j) <noun><adjective>のパターン、例えば”mountain big(山 大きい)”に相当する単語リストからの単語を使用する;
(k) ノードの主部(上記パターン中の<noun>位置に相当する)の値を、単数形または複数形についてテストする;
(l) このテストに基づいて、ノード用の結合値(例えば”is” “are”(である))を挿入する;
(m) ノード”mountain is big(山は大きい)”が生じる;
(n) トークンの列の検索を、現在トークン位置から継続する;
(o) 次に一致する<adjective>トークンを位置検出するまで行う;
(p) あるいは、トークンの列の終点に行き着く;
(q) リソースから分解したすべての文について、ステップ(a)〜(p)を実行する。
3つのトークンの特定パターンを用いて、ノードを組み立てる方法はパターン中の左トークンを検索し、組み立てたノードの結合値はノード構成器によって提供され、そして結合値は、単数形または複数形の主部(左トークンに相当する)値をテストすることによって決定する。本実施例では、
(a) パターンは<adjective><noun><noun>である;
(b) 左から右に移動する;
(c) トークンの列中の、トークン<adjective>を検索する;
(d) 適正なトークン(<adjective>)がトークン列中に位置検出された場合には;
(e) <adjective>トークンを現在トークンと称する;
(f) 現在トークンの左側にあるトークン(左トークンと称する)を検査する;
(g) 左トークン(<noun>)が上記パターンに一致しない場合には、
a.この試みを失敗と考える;
b.トークンの列の検索を、現在トークンの位置から継続する;
c.次に一致する<adjective>トークンを位置検出するまで行う;
d.あるいは、トークンの列の終点に行き着く;
(h) 中央トークンが上記パターンに一致する場合には;
(i) 中央トークンの右側にあるトークン(右トークンと称する)を検査する;
(j) 右トークン(<noun>)が上記パターンに一致しない場合には、
a.この試みを失敗と考える;
b.トークンの列の検索を、現在トークンの位置から継続する;
c.次に一致する<adjective>トークンを位置検出するまで行う;
d.あるいは、トークンの列の終点に行き着く;
(k) 中央トークンが上記パターンに一致する場合には;
(l) ノードを作成する;
(m) <adjective><noun><noun>のパターン、例えば”silent night song(静かな夜の歌)”に相当する単語リストからの単語を使用する;
(n) ノード(上記パターン中の右トークン<noun>位置に相当する)の属性値を、単数形または複数形についてテストする;
(o) ノードに対する結合値(例:”is” ”are”)をテストに基づいて挿入する;
(p) ノード”silent night song”が生じる;
(q) トークンの列の検索を、現在トークン位置から継続する;
(r) 次に一致する<adjective>トークンを位置検出するまで行う;
(s) あるいは、トークンの列の終点に行き着く;
(t) リソースから分解したすべての文について、ステップ(a)〜(s)を実行する
ノードはパターンを用いて組み立てられ、ここで左トークンは2つ以上のトークンを含む左パターンに進展し、中央トークンは2つだけのトークンを含む中央パターンに進展し、そして右トークンは2つ以上のトークンを含む右パターンに進展する。左、中央、及び右トークンをパターンに進展させることによって、より複雑かつ精巧なノードを生成することができる。本実施例では、NLPが文字”to”を表現するためにトークン”TO”を用いることができる。例えば:
(i) <adjective><noun> <verb> <adjective><noun>、”large contributions fight word hunger(大きな寄付が世界的な飢餓と戦う)”,
(ii) <noun> <TO><verb> <noun>、”legislature to consider bill(法案を考えるための立法府)”,
(iii) <noun> <adverb><verb> <adjective><noun>、”people quickly read local news(人々はローカルニュースを速読する)”。
例えば、<noun> <TO><verb> <noun>、”legislature to consider bill(法案を考えるための立法府)”を用いて、次のことを行う:
(a) 左パターン、中央パターン、及び右パターン用に別個のパターンのリストを作成し参照する;
(b) 中央パターンからの最も左のトークンを検索として用いる;
(c) 適正なトークン<TO>がトークン列中に位置検出された場合には;
(d) <TO>トークンを現在トークンと称する;
(e) 現在トークンの右側にあるトークン(中央パターンの関係で右トークンと称する)を検査する;
(f) このトークンがいずれの中央パターンの右トークンとも一致しない場合には、
a.この試みを失敗と考える;
b.トークンの列の検索を、現在トークンの位置から継続する;
c.次に一致する<TO>トークンを位置検出するまで行う;
d.あるいは、トークンの列の終点に行き着く;
(g) 右トークンが中央パターンのパターン(<TO><verb>)に一致する場合には;
(h) 現在トークンの左側にあるトークン(左パターンとの関係で右トークンと称する)を検査する;
(i) 右トークンがいずれの左パターンの右トークンとも一致しない場合には、
a.この試みを失敗と考える;
b.トークンの列の検索を、現在トークンの位置から継続する;
c.次に一致する<TO>トークンを位置検出するまで行う;
d.あるいは、トークンの列の終点に行き着く;
(j) 右トークンが上記パターンに一致する場合には、
(k) 現在トークンの右側にあるトークン(中央パターンとの関係で右トークンと称する)が現在トークンとなる;
(l) 現在トークンの右側にあるトークン(右パターンとの関係で左トークンと称する)が現在トークンとなる;
(m) このトークンがいずれの右パターンの左トークンとも一致しない場合には、
a.この試みを失敗と考える;
b.トークンの列の検索を、現在トークンの位置から継続する;
c.次に一致する<TO>トークンを位置検出するまで行う;
d.あるいは、トークンの列の終点に行き着く;
(n) 左トークンが右パターンのパターン(<noun>)に一致する場合には;
(o) ノードを作成する;
(p) <noun> <TO><verb> <noun>、例えば”legislature to consider bill”に相当する単語リストからの単語を使用する;
(q) トークンの列の検索を、現在トークン位置から継続する;
(r) 次に一致する<preposition>トークンを位置検出するまで行う;
(s) あるいは、トークンの列の終点に行き着く;
特定条件の下で、あり得る特定のノード構成をフィルタで除去することが望ましい。これらのフィルタは次のものを含むがこれらに限定されない:
(i) 主部、結合部、及び属性中のすべての単語が大文字化される;
(ii) 主部、結合部、または属性が、ハイフンまたはアポストロフィで始まるか、これらで終わる;
(iii) 主部、結合部、または属性が、それぞれの値のいずれかに、ハイフンとスペース(空白)(”- ”)、またはスペースとハイフン(” -”)、あるいはハイフンとハイフン(”--”)を埋め込まれる;
(iv) 主部、結合部、及び属性が、同じ文字の長さ4以上(例:”FFFF”)を含む;
(v) 主部、結合部、及び属性が多語値を含み、この多語値の第1語または最終語は単一文字のみ(例:”a big”(ある1つの大きい))である;
(vi) 主部及び属性が、互いの単数形または複数形である;
(vii) 主部と属性とが同一であるか、あるいは互いの値を埋め込まれている(例:”dog” ”sees” “big dog”(犬、見る、大きい犬));
(viii) 主部、結合部、または属性がそれぞれ、2つの同一単語を含む(例:”Texas Texas” “is” “state”(テキサス テキサス、である、州));
ノードが4つの部分で構成される場合には、第4部分は、ノードを抽出したリソースのURLまたはURIを含む。本実施例では、文(単語の列、トークンの列に相当する)に加えて、文を抽出したURLまたはURIをノード生成機能に渡す。ノード生成機能によって文から作成されたすべてのノードについて、URLまたはURIを、ノードデータ構造の、シーケンスと称する第4部分中にロードする。
上記第4部分のノードがRDBの分解機能を用いて生成される場合には、RDBの分解機能は、ノードの上記第4(シーケンス)部分中に、このノードを抽出したRDBリソースのURLまたはURIを置き、これは一般に、RDBの分解機能自体が当該URLによってデータベースへの接続を生成したURLである。一例は、Java(登録商標)言語の企業向け版(バージョン)を用い、そしてMySQLと称される周知のRDBMS、及び”mydb”:”jdbc:mysql://localhost/mydb”と称するデータベースを用いる。RDBMSがMicrosoft Access database(登録商標)であれば、URLは例えば”c:\anydatabase.mdb”のファイルパスであり得る。本実施例はこれらのRDBMS実現に制約され、ここでRDB用のURLはRDBの分解機能にとってアクセス可能である。なお、データベース・リソースのURLは通常は、リソースにプログラムでアクセスするために十分ではない。
ノードが分類の分解機能を用いて生成される場合には、分類の分解機能は、ノードの第4(シーケンス)部分中に、このノードを抽出した分類リソースのURLまたはURIを置き、これは一般に、当該URLによって分類の分解機能自体がリソースの位置を見出したURLである。
ノードがオントロジーの分解機能を用いて生成される場合には、オントロジーの分解機能は、ノードの第4(シーケンス)部分中に、このノードを抽出したリソースのURLまたはURIを置き、これは一般に、当該URLによってオントロジーの分解機能自体がリソースの位置を見出したURLである。
本発明の好適な実施例はノードの生成に指向したものであり、これらのノードはノードプールに追加され、そしてノードが二重にノードプールに追加されることを阻止するための規則(ルール)が存在する。本実施例では、(a) 候補ノードを、Java言語の特徴機能”toString()”を用いてストリング値に変換し、(b) ノードプールの検索機能を用いて、キーとしてのストリングの検索を実行する。(c) 既にノードプール中に存在し、かつ全く一致することが判明した候補ノードを棄却する。さもなければ、(d) このノードをノードプールに追加する。
ノードプール中のノードは、過渡的に計算装置上、コンピュータネットワーク接続装置上、あるいは個人用(パーソナル)計算装置上に駐在するか、または保持される。周知の計算装置は、スーパーコンピュータ、メインフレーム(大型)コンピュータ、企業規模のコンピュータ、サーバー、ファイルサーバー、ブレード(小型)サーバー、ウェブサーバー、部門サーバー、及びデータベースサーバーを含むがこれらに限定されない。周知のコンピュータネットワーク接続装置は、インターネット・ゲートウェイ装置、データ記憶装置、家庭用インターネット機器、セットトップボックス、及び車載用計算プラットフォームを含むが、これらに限定されない。周知の個人用計算装置は、デスクトップ型パーソナルコンピュータ、ラップトップ型パーソナルコンピュータ、パーソナル・ディジタル・亜アシスタント(PDA)、高性能表示のセルラー電話機、高性能表示のページャ(ポケットベル)、及び高性能表示のテキストメッセージ装置を含むが、これらに限定されない。
ノードプールの記憶組織及びメカニズムは、ノードの1つ以上の部分の直接的な、あるいは計算された内容(値)の検査による個別ノードの効率的な選択及び検索を可能にする。こうした組織及びメカニズムを許容し可能にする周知のコンピュータ・ソフトウェア及びデータ構造は、リレーショナル・データベースシステム、オブジェクト・データベースシステム、ファイルシステム、コンピュータのオペレーティングシステム、コレクション、ハッシュマップ、マップ(連想配列)、及びテーブルを含むが、これらに限定されない。
ノードプール中に記憶されたノードはメンバーノードと称する。相関に対し、ノードプールは検索空間と称される。ノードプールは、少なくとも、対象の項目または語句を明示的に含むノードメンバーを含まなければならない。本実施例では、対象の項目または語句を含むノードを原点ノードと称し、同義語としてソースノードと称し、同義語としてパスルートと称する。
相関はチェーン(連鎖)(同義語としてパス(経路)と称する)の形で構成される。チェーンは、ノードプールのノードメンバー(候補ノードと称する)から構成され、候補ノードを選択してチェーンに追加する方法は、候補ノードをチェーンの現在の末端ノードに関連付けることができるかをテストすることである。関連性についてのテストは次のとおりである:
(i) 候補ノードの(最も左の)主部の値が、現在の末端ノードの(最も右の)属性部分との正確な一致を含むこと。
(ii) 候補ノードの主部の値が、現在の末端ノードの属性部分の単数形または複数形との一致を含むこと。
(iii) 候補ノードの主部の値が、現在の末端ノードの属性部分に関係する(例えばシソーラスのように)単語との一致を含むこと。
(iv) 候補ノードの主部の値が、現在の末端ノードの属性部分に関係する単語との一致を含み、候補ノードの主部と末端ノードの属性部分との関係は権威的な参照ソースによって確立されること。
(v) 候補ノードの主部の値が、現在の末端ノードの属性部分に関係する単語との一致を含み、候補ノードの主部と末端ノードの属性部分との関係は権威的な参照ソースによって確立され、関連性のテストは、Merrian-Webster’s Thesaurus (Merrian-Webster社の刊行物)のようなシソーラスを用いて、候補ノードの主部の値が現在の末端ノードの属性部分の同義語、または属性部分に関連するか否かを判定すること。
(vi) 候補ノードの主部の値が、権威的な参考文献における現在の末端ノードの属性部分の定義中に見られる単語との一致を含むこと。
(vii) 候補ノードの主部の値が、現在の末端ノードの属性部分に関係する単語との一致を含み、候補ノードの主部と末端ノードの属性部分との関係は権威的な参照ソースによって確立され、関連性のテストは、Merrian-Webster’s Dictionaty(Merrian-Webster社の刊行物)のような辞書を用いて、候補ノードの主部が辞書の定義中に出現し、従って現在の末端ノードの属性部分に関係するか否かを判定すること。
(viii) 候補ノードの主部の値が、現在の末端ノードの属性部分についての説明中に出現する単語との一致を含むこと。
(ix) 候補ノードの主部の値が、現在の末端ノードの属性部分に関係する単語との一致を含み、候補ノードの主部と末端ノードの属性部分との関係は権威的な参照ソースによって確立され、関連性のテストは、Encyclopedia Britannica(Encyclopedia Britannica社の刊行物)のような百科事典を用いて、検索中に存在する潜在的なソースの内容が、対象の項目または語句の百科事典中の説明中に出現し、従って現在の末端ノードの属性部分に関連するか否かを判定すること。
(x) 候補ノードの主部の値が、現在の末端ノードの属性部分と親、子、または兄弟の関係を有すること。
(xi) 候補ノードの主部の値が、現在の末端ノードの属性部分に関係する単語との一致を含み、候補ノードの主部と末端ノードの属性部分との関係は権威的な参照ソースによって確立され、関連性のテストは分類を用いて、候補ノードの主部に含まれる項目が、現在の末端ノードの属性部分と親、子、または兄弟の関係を有すること。現在の末端ノードの属性部分の値を含む頂点は分類中に位置する。これが対象の頂点である。候補ノードの主部に位置する単語毎に、対象の頂点の親、兄弟、及び子の頂点を、対象の頂点から、この対象の頂点の親、兄弟、及び子の頂点までの関係(リンク)を辿ることによって検索する。親、兄弟、または子の頂点のいずれかが、末端ノードの属性部分からの単語を含む場合には、一致を宣言し、候補ノードを現在の末端ノードに関連するものと考える。本実施例では、グラフ・トラバース機能と称するソフトウェア機能を用いて、現在の末端ノードの親、兄弟、及び子の頂点を位置検出して検査する。
(xii) 候補ノードの主部に含まれる項目が、現在の末端ノードの属性部分に含まれる項目から度合い(長さ)1の意味的距離を有すること。
(xiii) 候補ノードの主部に含まれる項目が、現在の末端ノードの属性部分に含まれる項目から度合い(長さ)2の意味的距離を有すること。
(xiv) 候補ノードの主部を現在の末端ノードの属性部分と比較し、関連性のテストは、オントロジーを用いて、候補ノードの主部が度合い(長さ)1の意味的距離だけ、現在の末端ノードの属性部分から離れていることを判定する。現在の末端ノードの属性部分を含む頂点は上記オントロジー中に位置する。これが対象の頂点である。候補ノードの主部に位置する単語毎に、対象の頂点からすべての隣接頂点までの関係(リンク)を辿ることによってオントロジーを検索する。いずれかの隣接頂点が候補ノードの主部からの単語を含む場合には、一致を宣言し、候補ノードを現在の末端ノードに関連するものと考える。
(xv) 候補ノードの主部を現在の末端ノードの属性部分と比較し、関連性のテストは、オントロジーを用いて、候補ノードの主部が度合い(長さ)2の意味的距離だけ、現在の末端ノードの属性部分から離れていることを判定する。現在の末端ノードの属性部分を含む頂点は上記オントロジー中に位置する。これが対象の頂点である。候補ノードの主部に位置する単語毎に、意味的度合い1の関連性テストを実行する。このテストが不合格である場合に、対象の頂点からすべての隣接頂点までの関係(リンク)を辿ることによってオントロジーを検索する。こうした頂点は対象の頂点から意味的度合い2である。意味的度合い2の頂点のいずれかが候補ノードの主部からの単語を含む場合には、一致を宣言し、候補ノードを現在の末端ノードに関連するものと考える。
(xvi) 候補ノードの主部を現在の末端ノードの属性部分と比較し、関連性のテストは、CYC Ontology(Cycorp社の製品)のような汎用的オントロジーを用いて、現在の末端ノードの属性部分から候補ノードの主部までの意味的距離の度合い(長さ)を測定する。
(xvii) 候補ノードの主部を現在の末端ノードの属性部分と比較し、関連性のテストは、Gene Ontology(Gene Ontology Consortiumの製品)のような特化したオントロジーを用いて、現在の末端ノードの属性部分から候補ノードの主部までの意味的距離の度合い(長さ)を測定する。
(xviii) 候補ノードの主部を現在の末端ノードの属性部分と比較し、関連性のテストはオントロジーを使用し、このテストのために、Ontology Language(オントロジー言語)(例えばWorld Wide Web Consortiumの製品であるWeb Ontology Language(OWL))を用いてオントロジーにアクセスし、オントロジー中を進む。
本発明の改善された実施例はノードプールに指向したものであり、ノードプールは、主部によって一旦インデックス(索引)付けされ、これに加えて属性によってインデックス付けされたノードの集団(クラスタ)として構成される。本実施例は相関の速度について改善されている、というのは、すべての関連するノードを相関に加えることができるための関連性のテストを、上記集団に対して1回しか必要としないからである。
相関プロセスは、パス(経路)の現在の末端を逐次的に指定するための、ノードプールの有資格ノードメンバーの反復的関連付け及び逐次的変更から成る。成功または失敗が決まるまでは、このプロセスを試行または試みと称する。ターゲット(目標)またはデスティネーション(目的地)ノードと称する所望ノードの、パスにおける現在の末端への関連付け及び変更が発生すると、上記試行は良好な結果(目標状態)を達成したと称し、この場合には、上記パスをその後に相関と称してこうした相関を保存し、一方、ノードプール中にさらなる有資格メンバーのノードが存在しない状態は、失敗の結果(消耗)と考え、上記パスは棄却して相関とは称さない。
デスティネーションノードの指定は相関の中止を生じさせる。相関を中止する手段は複数存在する。好適な実施例では、ソフトウェアのユーザは、相関の終端に最新に追加したノードをデスティネーションノードとして指定することを意のままに選び、これにより、さらなる相関を中止する。ユーザは、相関方法の各ステップ後に、最新に追加したノードの表現を提供され、そして、グラフィカル・ユーザインタフェース(GUI)のようなユーザインタフェースによって相関を中止するか継続するかを促される。相関を中止する他の方法は次の通りである:
(i) 相関方法を継続して、設定時間間隔が経過するまで相関を延長し、この時点で相関方法は、相関の終端に最新に追加したノードをデスティネーションノードとして指定し、これにより更なる相関を中止する。
(ii) 相関方法を継続して、相関が事前設定した特定の度合い(即ち、ノード数で測った「長さ」)を達成するまで相関を延長し、この時点で相関方法は、相関の終端に最新に追加したノードをデスティネーションノードとして指定し、これにより更なる相関を中止する。
(iii) 相関方法を継続して、ノードプール中で利用可能なノードがなくなり相関をさらに延長することができなくなるまで相関を延長し、この時点で相関方法は、相関の終端に最新に追加したノードをデスティネーションノードとして指定し、これにより更なる相関を中止する。
(iv) 相関方法を継続して、事前選択した特定のターゲットノードまたは事前指定した項目を主部に有するターゲットノードが相関に追加されるまで相関を延長し、この時点でイベントの成功を宣言して相関を中止する。本実施例では、事前選択したノードまたは事前指定した項目を有するノードを相関に関連付けることができず、かつノードプール中のすべてのノードを検査し尽した場合には、失敗を宣言して相関を中止する。
(v) 相関方法は、試行相関の回数を、事前設定した試行相関の制限(回数)と比較し、この制限に達すれば相関を中止する。
(vi) 相関方法は、現在の相関の経過時間を事前設定した時間制限と比較し、この時間制限に達すれば相関を中止する。
本発明の好適な実施例では、相関方法はグラフ理論の技法を利用する。その結果、相関における試みは、試行相関の有向グラフ(ダイグラフとも称する)としてまとめてモデル化される。
本発明の好適な実施例は相関方法に指向したものであり、相関における試みはグラフ理論の技法を利用し、その結果、相関における試みは、試行相関の有向グラフ(ダイグラフとも称する)としてまとめてモデル化される。相関方法によって構成した1つの種類のダイグラフはパスの振れであり、パスの振れ中の各パスが試行相関である。この好適な実施例は、ノードプールによる一連の通過路を用いてパスの振れを構成し、次のステップを含む:
(a) 最初の通過路では、次のことのみ行う:
a.原点ノードから開始し、
b.原点ノードと良好に関連する候補ノード毎に、
c.新たな試行相関(パス)を開始する;
(b) これに続くすべての通過路については、
a.試行相関パス毎に、
i 現在の試行相関パスが対象の試行である;
ii パスの末端(最も右)のノードが対象のノードとなる;
iii ノードプール中の、対象のノードと関連付けることのできる候補ノードを検索し、これにより、試行相関を度合い1だけ延長する;
iv 対象のノードに関連付けることのできるノードを見出した場合に、このノードを試行相関パスに追加する。こうしたノードの使用は排他的でない;
v 試行相関パスに追加されたノードをターゲットまたはデスティネーションノードに指定した場合には、次のことを行う:
1.この試行を相関と称する;
2.この相関をパスの振れから取り除く;
3.この相関を成功の相関として別個に記憶する;
4.相関方法は成功を宣言する;
5.次の試行相関パスが対象の試行となる;
vi 対象のノードに関連付けることのできるノードを2つ以上見出すことのできる場合には;
vii こうしたノード毎に;
viii 現在のパスを複製し、当該ノードによって延長する;
ix 現在の対象のノードに関連付けるべき候補ノードを見出すことができない場合には;
x 対象の経路を棄却する;
b.すべての試行相関パスについてステップ”a.”を実行する;
(c) 相関を中止するまで、ステップ(b)を逐次的な通過路として実行する;
(d) 成功の相関が構成されなかった場合には、相関方法は失敗を宣言する。
1つの好適な実施例では、相関方法によって生成された成功の相関は、相関の有向グラフ(ダイグラフとも称する)としてまとめてモデル化される。あるいはまた、相関方法によって生成された成功の相関は、成功の相関のパスの振れとしてまとめてモデル化される。相関方法によって生成された成功の相関をまとめて、1つの相関に対して、回答空間と称する。相関方法がパスの振れを構成し、パスの振れ中の各パスが成功の相関であるならば、すべての成功の相関は原点ノードを始点として共有し、原点ノードからのすべての可能な相関が構成される。同じ原点の項目ノードから始まり、同じターゲット項目ノードまたは関連するターゲット項目ノードの同じ組で終わるすべての相関(パス)は、相関の組から成る。ターゲット項目ノードどうしは、相関方法がノードプールからの候補ノードによって試行相関を延長するために使用する同じ関連性テストを通過することによって、(互いに)関連するものと考えられる。
相関の特別な場合は、2つの項目及び/または語句を用いて知識相関を構成することであり、次のことを含む:
(a) 次の1つ以上をトラバース(検索)する:
(vii) コンピュータファイルシステム
(viii) インターネットを含むコンピュータネットワーク
(ix) リレーショナル・データベース
(x) 分類
(xi) オントロジー
(b) 第1の対象の項目または語句についての情報の実際及び潜在的なソースを識別する。
(c) そして、第2の独立した検索を実行して、第2の対象の項目または語句についての情報の実際及び潜在的なソースを識別する。
(d) いずれかの検索において発見された情報の実際及び潜在的なソースのすべてに、関連性についてのテストを適用する。
(e) 上記両方の検索において発見されたリソースをノードに分解する。
(f) そしてノードプールに追加する。
(g) 第1の項目または語句を明示的に含むノードプール中のノードを原点ノードとして用いる。
(h) 第2の対象の項目または語句を明示的に含む有資格メンバーの項目ノードが、少なくとも1つの成功の相関におけるパスの現在の末端に関連付けられて追加され、デスティネーションノードとして指定された際に、相関が成功であることを宣言する。
ノード抑制は、ユーザが個別のノードを相関方法から隠すことによって相関を「操縦」することを可能にする。ノードプール中の個別のノードは抑制されたものとして指定することができる。本実施例では、抑制はノードを相関にとって無資格にするが、このノードをノードプールから削除はしない。好適な使用では、ノードは、ノードプール・エディタ(編集ソフト)のようなGUI構成要素におけるユーザ操作によって抑制される。任意の瞬時において、あらゆるデータ記憶装置の内容は当該データ記憶装置についての状態を明示する。抑制は、検索空間及び知識領域としてのノードプールの状態を変化させる。抑制は、ユーザが相関方法に影響を与えることを可能にする。
特定条件下では、あり得る特定の相関構成をフィルタで除去することが望ましい。これらのフィルタは次のものを含むが、これらに限定されない:
(i) 相関中に既にある二重のノード;
(ii) 相関中に既にあるノード中の二重の主部;
(iii) 抑制されたノード;
好適な統計に基づく本発明の改善された実施例は、相関方法が、相関パスに追加されたすべてのノード中のすべての項目を記録しておくことを必要とし、いずれかの項目の発生の頻度が統計的有意性に近づくと、相関方法は、有意な項目についての情報のソースの独立した検索を追加する。本実施例では、相関を中断せずに、この検索によって獲得したリソースからのノードをノードプールに追加する。その代わりに、ノードが生成され次第これらのノードを追加し、これにより、後に続く相関の試行を改善することを追求する。
一実施例では、相関方法は、ファイルとして、あるいはユーザ入力によって提供される項目のリスト中のすべての項目についての情報のソースの独立した検索を追加する。5番目のこうした項目の先にあるすべての項目を用いて、検索空間及び知識領域としてのノードプールを直交的に拡張する。変形例では、相関方法は、第3、第4、または第5の項目についての情報、あるいはファイルとして、またはユーザ入力によって提供される項目のリスト中のすべての項目についての情報のソースの検索を追加するが、相関方法は、こうした項目の検索の範囲を、第1及び/または第2の概念及び/または項目を相関方法が検索する範囲に比べて制限する。本実施例では、相関方法は、項目の重要性を、入力ストリーム中の当該項目の通常の位置に拘束する規則を適用する。
本発明の他の好適な実施例及び/または好適な方法は相関方法に指向したものであり、この相関方法によれば、相関によって発見される知識は、以前には未発見の知識(即ち新しい知識)であるか、あるいは、産業特有または学術的な出版物においても以前には知られていないか文書化されていない知識である。
相関の生成物のユーザに対する表現は次のものを含むことができる:
(i) 完成した相関を図形的に表示する。
(ii) 完成した相関を図形的に表示する、完成した相関の提示であって、提示用の図形的構造はメニューツリーの構造である。
(iii) 完成した相関を図形的に表示する、完成した相関の提示であって、提示用の図形的構造はグラフの構造である。
(iv) 完成した相関を図形的に表示する、完成した相関の提示であって、提示用の図形的構造はテーブル(表)の構造である。
図2A〜2Dは、入力項目”Gold is standard(金が標準である)”から生じた相関を示すおよそ222ページの出力の最初の4頁を示す。
本明細書では、本発明の種々の実施例を詳細に説明してきたが、当業者は、請求項に記載の本発明の範囲を逸脱することなしに、これらの実施例に変形及び適応を生じさせ得ることは明らかである。
本発明におけるユーザ入力、発見、及び獲得段階を示すフローチャートである。 相関の方法を示すフローチャートである。 3部分及び4部分のノードのブロック図である。 最初にユーザが対面するGUI構成要素のスクリーン・キャプチャであり、相関用の対象フィールドを示す。 「発見」、「獲得」、及び「相関」の3段階すべての瞬時におけるGUI構成要素「質問をする」のスクリーン・キャプチャである。 本発明の実施例において発見された相関を示す図であり、タブ付きウィンドウ枠のフォーマットで表示する。これを”Get The Answers(答を得る)”ページと称する。 ユーザがディスクに保存することを可能にするGUI構成要素を示す図である。 処理の検索段階において発見されたすべてのリソースについての関連性尺度を提供する”RanXY”報告のGUIを示す図である。 インデックス型の検索エンジンを示す図である。 自然言語の英文からのノードの生成を示す図である。

Claims (36)

  1. 知識を識別する方法において:
    a.追加的な知識のために検討する1つ以上の項目を入力するステップと;
    b.1つ以上の情報のソースを検索して、前記項目についての情報または前記項目に関連する情報を含むリソースを識別するステップと;
    c.検索中に識別したリソースをノードに分解するステップと;
    d.前記ノードをノードプールに格納するステップと;
    e.前記ノードプールから、知識を表現するノードの相関を構成するステップと
    を具えていることを特徴とする知識識別方法。
  2. 前記入力するステップが、
    a.1つ以上の項目をコマンドライン中にキーで打ち込むステップ;または、
    b.1つ以上の項目をグラフィカル・ユーザインタフェース中に入力するステップ;または、
    c.概念の自然言語記述を入力するステップ
    のうちいずれか1つのステップを具えていることを特徴とする請求項1に記載の方法。
  3. 前記概念の自然言語記述を入力するステップが、前記自然言語記述を構文解析して、追加的な知識のために検討するトークンにする追加的ステップを具えていることを特徴とする請求項2に記載の方法。
  4. 前記検索するステップが、次のステップ:
    a.パーソナルコンピュータ上のファイルを検索するステップ;
    b.ネットワーク上の1つ以上のコンピュータを検索するステップ;
    c.ネットワークサーバー上のファイルを検索するステップ
    の少なくとも1つから成ることを特徴とする請求項1に記載の方法。
  5. 前記ファイルを、テキストを含むファイルに変換することを特徴とする請求項4に記載の方法。
  6. 前記検索するステップが、1つ以上のスパイダーを用いてファイルを調べるステップから成ることを特徴とする請求項4に記載の方法。
  7. 前記スパイダーが、検索を促進するための他のスパイダーを複製することを特徴とする請求項6に記載の方法。
  8. 前記1つ以上のスパイダーの少なくとも1つが、リソースの前記項目への関連性についての情報を獲得することを特徴とする請求項6に記載の方法。
  9. 前記1つ以上のスパイダーの少なくとも1つが、メタクローラを具えていることを特徴とする請求項6に記載の方法。
  10. 前記1つ以上の情報のソースが:
    a.ファイルシステム;
    b.ワールドワイド・ウェブ;
    c.e−メール・リポジトリ;
    d.e−メール・リポジトリ中のe−メールの添付ファイル;
    e.リレーショナル・データベース管理システム;
    f.データ・ウェアハウス;
    g.分類;
    h.オントロジー;
    i.意味ネットワーク;
    j.ニューラルネット
    k.検索エンジン、及び
    l.インデックスエンジン
    の少なくとも1つを含むことを特徴とする請求項1に記載の方法。
  11. 前記1つ以上の情報のソースを検索して、前記項目についての情報または前記項目に関連する情報を含むリソースを識別するステップが、
    a.ファイル名;
    b.文書の題目;
    c.文書の要約;
    d.文書の全文;
    e.ノードのプール
    の少なくとも1つを検索することを含むことを特徴とする請求項1に記載の方法。
  12. 前記リソースが:
    a.ポータブル・ドキュメント・フォーマット(PDF)ファイル;
    b.リッチテキスト(RTF)ファイル;
    c.ワードプロセッサのファイル;
    d.マイクロソフト・パワーポイント(登録商標)(PPT)ファイル;
    e.ハイパーテキスト・マークアップ・ランゲージ(HTML)ファイル;
    f.e−メールを含むファイル;
    g.e−メールの添付ファイルを含むファイル
    の1つ以上であることを特徴とする請求項1に記載の方法。
  13. 前記項目についての情報を含むリソースを識別するステップが、
    a.情報のソースの内容と前記検討する項目との正確な一致を見出すこと;
    b.前記検討する項目の単数形または複数形を、ソースの内容中に見出すこと;
    c.前記検討する項目の同義語を、ソースの内容中に見出すこと;
    d.前記検討する項目の辞書における定義に含まれる項目を、ソースの内容中に見出すこと;
    e.前記検討する項目の、権威的ソースにおける説明に含まれる項目を、ソースの内容中に見出すこと;
    f.前記検討する項目を説明する百科事典中の見出しに含まれる項目を、ソースの内容中に見出すこと;
    g.前記検討する項目に非常に近い項目を、分類、オントロジー、または意味ネットワークを用いて、ソースの内容中に見出すこと;
    の少なくとも1つを含むことを特徴とする請求項11に記載の方法。
  14. ノードが、第1関係項、結合部、及び第2関係項の各部分から成るデータ構造を具えていることを特徴とする請求項1に記載の方法。
  15. 前記ノードが追加的に、ソースまたはシーケンスのエントリを具えていることを特徴とする請求項14に記載の方法。
  16. 前記項目についての情報を含むリソースをノードに分解するステップが、テキストを構文解析して言語単位にすることを含むことを特徴とする請求項14に記載の方法。
  17. 前記言語単位がXMLの文であることを特徴とする請求項16に記載の方法。
  18. XMLヘッダを棄却することを特徴とする請求項17に記載の方法。
  19. 前記言語単位が文であることを特徴とする請求項16に記載の方法。
  20. 前記リソースを分解するステップが、自然言語パーサーを用いて言語単位を解析することを含むことを特徴とする請求項16に記載の方法。
  21. 前記自然言語パーサーは、言語単位を言語の単語またはトークンに分離して、各単語またはトークンにカテゴリを割り当てることを特徴とする請求項20に記載の方法。
  22. 前記自然言語パーサーは、言語における単語またはトークンを組み立てるに当たり使用を許されない文字を棄却することを特徴とする請求項21に記載の方法。
  23. 前記単語またはトークンを、当該単語またはトークンに割り当てられたカテゴリに基づいて、1つ以上の前記ノードのデータ構造の前記部分中に置くことを特徴とする請求項21に記載の方法。
  24. 前記ノードのデータ構造をノードプールに格納することを特徴とする請求項23に記載の方法。
  25. 前記ノードプールが、前記ノードにおける1つ以上の前記部分の内容に基づく個別のノードの選択及び検索を可能にすることを特徴とする請求項24に記載の方法。
  26. 前記ノードプールが、ハッシュマップを用いた選択及び検索を可能にすることを特徴とする請求項25に記載の方法。
  27. 前記ノードプールがデータベースであることを特徴とする請求項25に記載の方法。
  28. 前記項目についての知識を表現する前記ノードの相関を、前記ノードプールからのノードをリンクすることによって構成することを特徴とする請求項1に記載の方法。
  29. 前記ノードをリンクして、ノードのチェーンを1つ以上作ることを特徴とする請求項28に記載の方法。
  30. 前記ノードのチェーンが、対象の項目を明示的に含む原点ノードから始まることを特徴とする請求項29に記載の方法。
  31. 前記原点ノード、または前記原点ノードから始まる前記ノードのチェーンの終端にある末端ノードの前記第2関係項が、候補ノードの関係項との関連性を有する際に、前記候補ノードを、前記原点ノードまたは前記末端ノードに追加することを特徴とする請求項30に記載の方法。
  32. 前記関連性についてのテストが、
    a.前記候補ノードの関係項と前記原点ノードまたは前記末端ノードの前記第2関係項との正確な一致を見出すこと;
    b.前記候補ノードの関係項の単数形または複数形と、前記原点ノードまたは前記末端ノードの前記第2関係項との一致を見出すこと;
    c.前記候補ノードの関係項と、前記原点ノードまたは前記末端ノードの前記第2関係項との一致を見出すこと;
    d.前記候補ノードの関係項の辞書における定義に含まれる重要項目と、前記原点ノードまたは前記末端ノードの前記第2関係項との一致を見出すこと;
    e.前記候補ノードの関係項の、権威的ソースにおける説明中に含まれる重要項目と、前記原点ノードまたは前記末端ノードの前記第2関係項との一致を見出すこと;
    f.前記候補ノードの関係項を説明する百科事典中の見出しに含まれる重要項目と、前記原点ノードまたは前記末端ノードの前記第2関係項との一致を見出すこと;
    g.前記原点ノードまたは前記末端ノードの前記第2関係項と一致する、前記候補ノードの関係項に非常に近い項目を、分類、オントロジー、または意味ネットワークを用いて見出すこと;
    の1つ以上を含むことを特徴とする請求項31に記載の方法。
  33. a.ユーザが前記相関を中止させること;
    b.設定時間が満了すること;
    c.前記チェーンが、指定数より大きい数のノードを具えること;
    d.前記チェーンの前記原点ノードまたは前記末端ノードに関連付けることのできるノードが、前記ノードプール中からなくなること;
    e.ターゲットノードから事前選択した項目が、前記相関に追加されること;
    f.事前選択したターゲットノードが、前記相関に追加されること
    の1つが生じるまで、前記候補ノードを追加して前記チェーンを形成することを特徴とする請求項31に記載の方法。
  34. a.メモリー媒体と;
    b.前記メモリー媒体上に記憶され、コンピュータを制御して:
    b1.追加的な知識のために検討する1つ以上の項目を入力する機能と;
    b2.1つ以上の情報のソースを検索して、前記についての情報または前記項目に関連する情報を含むリソースを識別する機能と;
    b3.前記検索中に識別した前記リソースをノードに分解する機能と;
    b4.前記ノードをノードプールに格納する機能と;
    b5.前記ノードプールから、知識を表現するノードの相関を構成する機能と
    を実行するプログラミング文と
    を具えていることを特徴とするコンピュータプログラム製品。
  35. a.追加的な知識のために検討する1つ以上の項目を入力する入力メカニズムと;
    b.1つ以上の情報のソースを検索して、前記項目についての情報または前記項目に関連する情報を含むリソースを識別する検索メカニズムと;
    c.検索中に識別した前記リソースをノードに分解する解析メカニズムと;
    d.前記ノードをノードプールに格納する格納メカニズムと;
    e.前記ノードプールから、知識を表現するノードの相関を構成する相関メカニズムと
    を具えていることを特徴とする知識識別装置。
  36. a.ネットワークと;
    b.前記ネットワークに接続された1つ以上のコンピュータとを具え、
    c.前記ネットワークに接続された前記コンピュータの少なくとも1つが:
    c1.追加的な知識のために検討する1つ以上の項目を入力する入力メカニズムと;
    c2.1つ以上の情報のソースを検索して、前記項目についての情報または前記項目に関連する情報を含むリソースを識別する検索メカニズムと;
    c3.検索中に識別した前記リソースをノードに分解する解析メカニズムと;
    c4.前記ノードをノードプールに格納する格納メカニズムと;
    c5.前記ノードプールから、知識を表現するノードの相関を構成する相関メカニズムと
    を具えていることを特徴とするシステム。
JP2007541415A 2004-11-12 2005-11-14 概念または項目を用いて知識相関を構成することによる知識発見技術 Pending JP2008538016A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US62777204P 2004-11-12 2004-11-12
US63793504P 2004-12-21 2004-12-21
US69433105P 2005-06-27 2005-06-27
PCT/US2005/041233 WO2006053306A2 (en) 2004-11-12 2005-11-14 Knowledge discovery by constructing correlations using concepts or terms

Publications (1)

Publication Number Publication Date
JP2008538016A true JP2008538016A (ja) 2008-10-02

Family

ID=36337305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007541415A Pending JP2008538016A (ja) 2004-11-12 2005-11-14 概念または項目を用いて知識相関を構成することによる知識発見技術

Country Status (5)

Country Link
US (3) US8108389B2 (ja)
EP (1) EP1825355A4 (ja)
JP (1) JP2008538016A (ja)
CN (1) CN101124537B (ja)
WO (1) WO2006053306A2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008065543A (ja) * 2006-09-06 2008-03-21 Toshiba Corp 構造化文書検索装置及び構造化文書検索方法
JP2008225997A (ja) * 2007-03-14 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> メタデータ管理方法、メタデータ管理システム、及び、メタデータ管理プログラム
JP2009528581A (ja) * 2005-11-14 2009-08-06 メイク センス インコーポレイテッド 知識相関サーチエンジン
JP2012511773A (ja) * 2008-12-10 2012-05-24 アリババ・グループ・ホールディング・リミテッド 効率的なデータ同期化のための方法及びシステム
KR20160088579A (ko) * 2015-01-16 2016-07-26 한국과학기술정보연구원 에너지 관련 기술 분류 프레임 구축 시스템 및 방법
JP2017215999A (ja) * 2011-09-07 2017-12-07 マイクロソフト テクノロジー ライセンシング,エルエルシー 変換コンテンツ・アウェア・データー・ソース管理

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7013308B1 (en) 2000-11-28 2006-03-14 Semscript Ltd. Knowledge storage and retrieval system and method
US8108389B2 (en) 2004-11-12 2012-01-31 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US9330175B2 (en) 2004-11-12 2016-05-03 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US8126890B2 (en) * 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
JP4797380B2 (ja) * 2004-12-28 2011-10-19 コニカミノルタホールディングス株式会社 医療支援システム
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
US8898134B2 (en) 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
US8140559B2 (en) 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine
US8666928B2 (en) 2005-08-01 2014-03-04 Evi Technologies Limited Knowledge repository
US8024653B2 (en) 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
US7941433B2 (en) 2006-01-20 2011-05-10 Glenbrook Associates, Inc. System and method for managing context-rich database
WO2008153566A1 (en) 2007-06-12 2008-12-18 Make Sence, Inc Techniques for creating computer generated notes
EP2035962A4 (en) * 2006-06-12 2009-11-04 Make Sence Inc METHOD OF GENERATING COMPUTER MANUFACTURER NOTES
US7761395B2 (en) * 2006-08-28 2010-07-20 Oracle America, Inc. System and method for scalable processing of collected knowledge by creating knowledge generation nodes
US8140493B2 (en) * 2007-06-15 2012-03-20 Oracle International Corporation Changing metadata without invalidating cursors
US20080313167A1 (en) * 2007-06-15 2008-12-18 Jim Anderson System And Method For Intelligently Indexing Internet Resources
US8356014B2 (en) * 2007-06-15 2013-01-15 Oracle International Corporation Referring to partitions with for (values) clause
US8135688B2 (en) * 2007-06-15 2012-03-13 Oracle International Corporation Partition/table allocation on demand
US8209294B2 (en) * 2007-06-15 2012-06-26 Oracle International Corporation Dynamic creation of database partitions
US8209214B2 (en) 2007-06-26 2012-06-26 Richrelevance, Inc. System and method for providing targeted content
US8612972B2 (en) 2007-06-27 2013-12-17 Microsoft Corporation Running add-on components in virtual environments
US8862590B2 (en) * 2007-06-29 2014-10-14 Microsoft Corporation Flexible namespace prioritization
JP2009025968A (ja) * 2007-07-18 2009-02-05 Fujifilm Corp 関連語辞書作成装置、方法、及びプログラム、並びにコンテンツ検索装置
US8838659B2 (en) * 2007-10-04 2014-09-16 Amazon Technologies, Inc. Enhanced knowledge repository
WO2009068072A1 (en) * 2007-11-30 2009-06-04 Kinkadee Systems Gmbh Scalable associative text mining network and method
US20090187581A1 (en) * 2008-01-22 2009-07-23 Vincent Delisle Consolidation and association of structured and unstructured data on a computer file system
US8296279B1 (en) * 2008-06-03 2012-10-23 Google Inc. Identifying results through substring searching
US8745018B1 (en) 2008-07-10 2014-06-03 Google Inc. Search application and web browser interaction
US20140142920A1 (en) * 2008-08-13 2014-05-22 International Business Machines Corporation Method and apparatus for Utilizing Structural Information in Semi-Structured Documents to Generate Candidates for Question Answering Systems
EP2329406A1 (en) * 2008-08-29 2011-06-08 Primal Fusion Inc. Systems and methods for semantic concept definition and semantic concept relationship synthesis utilizing existing domain definitions
WO2010031081A2 (en) * 2008-09-15 2010-03-18 Erik Thomsen Extracting semantics from data
US9805089B2 (en) 2009-02-10 2017-10-31 Amazon Technologies, Inc. Local business and product search system and method
US8392896B2 (en) * 2009-03-06 2013-03-05 Microsoft Corporation Software test bed generation
WO2010148127A2 (en) 2009-06-16 2010-12-23 Medicomp Systems, Inc. Caregiver interface for electronic medical records
US20120221589A1 (en) * 2009-08-25 2012-08-30 Yuval Shahar Method and system for selecting, retrieving, visualizing and exploring time-oriented data in multiple subject records
US9355402B2 (en) * 2009-09-15 2016-05-31 International Business Machines Corporation System, method and computer program product for improving messages content using user'S tagging feedback
US8700652B2 (en) * 2009-12-15 2014-04-15 Ebay, Inc. Systems and methods to generate and utilize a synonym dictionary
US20110154376A1 (en) * 2009-12-17 2011-06-23 Microsoft Corporation Use of Web Services API to Identify Responsive Content Items
WO2011081096A1 (ja) * 2009-12-28 2011-07-07 楽天株式会社 情報検索装置、件数決定方法、情報検索プログラム、情報検索システム及び記録媒体
US20110173236A1 (en) * 2010-01-13 2011-07-14 E-Profile Method and system for generating a virtual profile of an entity
US8543381B2 (en) 2010-01-25 2013-09-24 Holovisions LLC Morphing text by splicing end-compatible segments
US8868569B2 (en) * 2010-02-24 2014-10-21 Yahoo! Inc. Methods for detecting and removing duplicates in video search results
US8694304B2 (en) 2010-03-26 2014-04-08 Virtuoz Sa Semantic clustering and user interfaces
US9378202B2 (en) 2010-03-26 2016-06-28 Virtuoz Sa Semantic clustering
US8935339B2 (en) 2010-04-28 2015-01-13 Microsoft Corporation News feed techniques
US9110882B2 (en) 2010-05-14 2015-08-18 Amazon Technologies, Inc. Extracting structured knowledge from unstructured text
US9177057B2 (en) * 2010-06-08 2015-11-03 Microsoft Technology Licensing, Llc Re-ranking search results based on lexical and ontological concepts
US11068657B2 (en) * 2010-06-28 2021-07-20 Skyscanner Limited Natural language question answering system and method based on deep semantics
US8655805B2 (en) * 2010-08-30 2014-02-18 International Business Machines Corporation Method for classification of objects in a graph data stream
US9524291B2 (en) * 2010-10-06 2016-12-20 Virtuoz Sa Visual display of semantic information
US10185477B1 (en) 2013-03-15 2019-01-22 Narrative Science Inc. Method and system for configuring automatic generation of narratives from data
EP2678785A4 (en) * 2011-02-24 2016-08-17 Ericsson Telefon Ab L M METHOD AND SERVER FOR CLASSIFYING MULTIMEDIA DATA
US8996359B2 (en) * 2011-05-18 2015-03-31 Dw Associates, Llc Taxonomy and application of language analysis and processing
US9335885B1 (en) 2011-10-01 2016-05-10 BioFortis, Inc. Generating user interface for viewing data records
US10319466B2 (en) * 2012-02-20 2019-06-11 Medicomp Systems, Inc Intelligent filtering of health-related information
US9519631B2 (en) * 2012-03-30 2016-12-13 Microsoft Technology Licensing, Llc Semantic diff and automerge
US8938412B2 (en) * 2012-05-04 2015-01-20 Infotech Soft, Inc. Resource community topic modeling with spreading activation
CN103389988A (zh) * 2012-05-10 2013-11-13 腾讯科技(深圳)有限公司 一种引导用户进行信息搜索的方法及装置
CN103049532A (zh) * 2012-12-21 2013-04-17 东莞中国科学院云计算产业技术创新与育成中心 基于突发事件应急管理的知识库引擎构建及其查询方法
US10430906B2 (en) 2013-03-15 2019-10-01 Medicomp Systems, Inc. Filtering medical information
US11837340B2 (en) 2013-03-15 2023-12-05 Medicomp Systems, Inc. Electronic medical records system utilizing genetic information
WO2014144490A1 (en) 2013-03-15 2014-09-18 Mark Bobick Method for resource decomposition and related devices
US9342854B2 (en) * 2013-05-08 2016-05-17 Yahoo! Inc. Identifying communities within a social network based on information propagation data
WO2014188290A2 (en) * 2013-05-23 2014-11-27 Koninklijke Philips N.V. Fast and secure retrieval of dna sequences
US9959285B2 (en) 2014-08-08 2018-05-01 International Business Machines Corporation Restricting sensitive query results in information management platforms
US20160092595A1 (en) * 2014-09-30 2016-03-31 Alcatel-Lucent Usa Inc. Systems And Methods For Processing Graphs
US9715488B2 (en) 2014-10-06 2017-07-25 International Business Machines Corporation Natural language processing utilizing transaction based knowledge representation
US11475076B2 (en) 2014-10-22 2022-10-18 Narrative Science Inc. Interactive and conversational data exploration
US9912553B1 (en) * 2015-06-08 2018-03-06 Parallels IP Holdings GmbH Method for provisioning domain model of applications resources using semantic analysis of links
US20170060831A1 (en) * 2015-08-26 2017-03-02 International Business Machines Corporation Deriving Logical Justification in an Extensible Logical Reasoning System
WO2018004556A1 (en) * 2016-06-29 2018-01-04 Intel Corporation Natural language indexer for virtual assistants
US10891326B2 (en) * 2017-01-05 2021-01-12 International Business Machines Corporation Representation of a data analysis using a flow graph
US11568148B1 (en) 2017-02-17 2023-01-31 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on explanation communication goals
US11954445B2 (en) 2017-02-17 2024-04-09 Narrative Science Llc Applied artificial intelligence technology for narrative generation based on explanation communication goals
US10943069B1 (en) 2017-02-17 2021-03-09 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on a conditional outcome framework
US10333868B2 (en) * 2017-04-14 2019-06-25 Facebook, Inc. Techniques to automate bot creation for web pages
US20180316637A1 (en) * 2017-05-01 2018-11-01 Microsoft Technology Licensing, Llc Conversation lens for context
US10229195B2 (en) 2017-06-22 2019-03-12 International Business Machines Corporation Relation extraction using co-training with distant supervision
US10223639B2 (en) 2017-06-22 2019-03-05 International Business Machines Corporation Relation extraction using co-training with distant supervision
CN107491554B (zh) * 2017-09-01 2018-12-04 北京神州泰岳软件股份有限公司 文本分类器的构建方法、构建装置及文本分类方法
US11561986B1 (en) 2018-01-17 2023-01-24 Narrative Science Inc. Applied artificial intelligence technology for narrative generation using an invocable analysis service
US11030408B1 (en) 2018-02-19 2021-06-08 Narrative Science Inc. Applied artificial intelligence technology for conversational inferencing using named entity reduction
US11361076B2 (en) * 2018-10-26 2022-06-14 ThreatWatch Inc. Vulnerability-detection crawler
US10990767B1 (en) * 2019-01-28 2021-04-27 Narrative Science Inc. Applied artificial intelligence technology for adaptive natural language understanding
CN111797631A (zh) * 2019-04-04 2020-10-20 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
US20200341977A1 (en) * 2019-04-25 2020-10-29 Mycelebs Co., Ltd. Method and apparatus for managing attribute language
CN111178771B (zh) * 2019-12-31 2022-03-29 中国石油天然气股份有限公司 体系构建方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0644074A (ja) * 1991-09-06 1994-02-18 Hitachi Ltd 知識ベースおよび推論方法および説明文生成方法
JP2001282811A (ja) * 2000-03-29 2001-10-12 Computer Consultant Kk 知識データ検索装置、知識データ検索方法及び知識データを検索するプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002259429A (ja) * 2001-01-17 2002-09-13 Internatl Business Mach Corp <Ibm> コンピュータベースの適合テキスト検索システムおよび方法
JP2003228580A (ja) * 2002-02-04 2003-08-15 Celestar Lexico-Sciences Inc 文献知識管理装置、文献知識管理方法、プログラム、および、記録媒体
US20030163302A1 (en) * 2002-02-27 2003-08-28 Hongfeng Yin Method and system of knowledge based search engine using text mining

Family Cites Families (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3446286A1 (de) 1984-12-19 1986-06-19 Sigri GmbH, 8901 Meitingen Verfahren zum beschichten von kohlenstoff- und graphitkoerpern
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
JPH04252375A (ja) 1991-01-28 1992-09-08 Nippon Telegr & Teleph Corp <Ntt> 情報提供方法
US5632480A (en) * 1994-11-14 1997-05-27 Huffy Corporation Basketball goal support having removable ballast and continuously adjustable pole
US5432118A (en) 1994-06-28 1995-07-11 Motorola, Inc. Process for forming field isolation
JP2855409B2 (ja) * 1994-11-17 1999-02-10 日本アイ・ビー・エム株式会社 自然言語処理方法及びシステム
US5684985A (en) 1994-12-15 1997-11-04 Ufil Unified Data Technologies Ltd. Method and apparatus utilizing bond identifiers executed upon accessing of an endo-dynamic information node (EDIN)
GB2297179B (en) * 1995-01-17 1997-01-08 Nippon Telegraph & Telephone Information navigation system using clusterized information resource topology
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
JP3981170B2 (ja) 1996-10-22 2007-09-26 富士通株式会社 情報検索装置
US6505150B2 (en) * 1997-07-02 2003-01-07 Xerox Corporation Article and method of automatically filtering information retrieval results using test genre
US6529934B1 (en) * 1998-05-06 2003-03-04 Kabushiki Kaisha Toshiba Information processing system and method for same
ATE300834T1 (de) * 1998-05-07 2005-08-15 Samsung Electronics Co Ltd Verfahren und vorrichtung für universellen zugriffsbefehl und kontrollinformation in einem netzwerk
US6141010A (en) 1998-07-17 2000-10-31 B. E. Technology, Llc Computer interface method and apparatus with targeted advertising
GB9821969D0 (en) 1998-10-08 1998-12-02 Canon Kk Apparatus and method for processing natural language
CA2366057C (en) * 1999-03-05 2009-03-24 Canon Kabushiki Kaisha Database annotation and retrieval
US6836768B1 (en) 1999-04-27 2004-12-28 Surfnotes Method and apparatus for improved information representation
JP2001043221A (ja) * 1999-07-29 2001-02-16 Matsushita Electric Ind Co Ltd 中国語単語分割装置
US6278987B1 (en) * 1999-07-30 2001-08-21 Unisys Corporation Data processing method for a semiotic decision making system used for responding to natural language queries and other purposes
US6615253B1 (en) 1999-08-31 2003-09-02 Accenture Llp Efficient server side data retrieval for execution of client side applications
CA2360571A1 (en) * 1999-11-16 2001-05-25 01,Inc. Method and system for executing financial transactions via a communication medium
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
US6366907B1 (en) 1999-12-15 2002-04-02 Napster, Inc. Real-time search engine
CN1411586A (zh) * 2000-03-06 2003-04-16 埃阿凯福斯公司 包括指定文档位置处字的多个译码的用于创建扫描文档搜索字索引的系统和方法
AU2001239950B2 (en) 2000-03-08 2005-03-10 Accenture Global Services Limited Method for a knowledge model
US6941513B2 (en) * 2000-06-15 2005-09-06 Cognisphere, Inc. System and method for text structuring and text generation
WO2002001401A1 (en) * 2000-06-26 2002-01-03 Onerealm Inc. Method and apparatus for normalizing and converting structured content
US8396859B2 (en) 2000-06-26 2013-03-12 Oracle International Corporation Subject matter context search engine
US7865358B2 (en) * 2000-06-26 2011-01-04 Oracle International Corporation Multi-user functionality for converting data from a first form to a second form
US6618717B1 (en) 2000-07-31 2003-09-09 Eliyon Technologies Corporation Computer method and apparatus for determining content owner of a website
US6766320B1 (en) 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
US20020152202A1 (en) * 2000-08-30 2002-10-17 Perro David J. Method and system for retrieving information using natural language queries
US7752214B2 (en) 2000-09-01 2010-07-06 Op40, Inc. Extended environment data structure for distributed digital assets over a multi-tier computer network
US20020059220A1 (en) * 2000-10-16 2002-05-16 Little Edwin Colby Intelligent computerized search engine
US20020083170A1 (en) * 2000-10-26 2002-06-27 Metilinx System-wide optimization integration model
US8176563B2 (en) * 2000-11-13 2012-05-08 DigitalDoors, Inc. Data security system and method with editor
US20030028564A1 (en) 2000-12-19 2003-02-06 Lingomotors, Inc. Natural language method and system for matching and ranking documents in terms of semantic relatedness
US7644057B2 (en) * 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
WO2002063493A1 (en) * 2001-02-08 2002-08-15 2028, Inc. Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication
US20040030741A1 (en) * 2001-04-02 2004-02-12 Wolton Richard Ernest Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery
US6654740B2 (en) 2001-05-08 2003-11-25 Sunflare Co., Ltd. Probabilistic information retrieval based on differential latent semantic space
US6633742B1 (en) 2001-05-15 2003-10-14 Siemens Medical Solutions Usa, Inc. System and method for adaptive knowledge access and presentation
AU2002321795A1 (en) 2001-07-27 2003-02-17 Quigo Technologies Inc. System and method for automated tracking and analysis of document usage
US7284191B2 (en) 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
US7526425B2 (en) 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
NO316480B1 (no) 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US7072883B2 (en) 2001-12-21 2006-07-04 Ut-Battelle Llc System for gathering and summarizing internet information
US6978264B2 (en) * 2002-01-03 2005-12-20 Microsoft Corporation System and method for performing a search and a browse on a query
EP1473639A1 (en) * 2002-02-04 2004-11-03 Celestar Lexico-Sciences, Inc. Document knowledge management apparatus and method
US7249117B2 (en) * 2002-05-22 2007-07-24 Estes Timothy W Knowledge discovery agent system and method
JP3960530B2 (ja) 2002-06-19 2007-08-15 株式会社日立製作所 テキストマイニングプログラム、方法、及び装置
US7277879B2 (en) 2002-12-17 2007-10-02 Electronic Data Systems Corporation Concept navigation in data storage systems
US20040123233A1 (en) * 2002-12-23 2004-06-24 Cleary Daniel Joseph System and method for automatic tagging of ducuments
US7174507B2 (en) 2003-02-10 2007-02-06 Kaidara S.A. System method and computer program product for obtaining structured data from text
JP4001283B2 (ja) * 2003-02-12 2007-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析装置および自然言語処理装置
US7730407B2 (en) 2003-02-28 2010-06-01 Fuji Xerox Co., Ltd. Systems and methods for bookmarking live and recorded multimedia documents
JP2004280488A (ja) * 2003-03-17 2004-10-07 Hitachi Ltd 文書管理方法及び文書管理装置
US20040193520A1 (en) * 2003-03-27 2004-09-30 Lacomb Christina Automated understanding and decomposition of table-structured electronic documents
JP2004310691A (ja) * 2003-04-10 2004-11-04 Mitsubishi Electric Corp 文章情報処理装置
GB2406399A (en) 2003-09-23 2005-03-30 Ibm Seaching within a computer network by entering a search term and optional URI into a web browser
TWI369616B (en) 2004-02-27 2012-08-01 Eplus Capital Inc System and method for user creation and direction of a rich-content life-cycle
JP4242794B2 (ja) 2004-03-10 2009-03-25 日本電信電話株式会社 メタデータ生成装置
US20050234894A1 (en) * 2004-04-05 2005-10-20 Rene Tenazas Techniques for maintaining collections of generated web forms that are hyperlinked by subject
US20050246358A1 (en) 2004-04-29 2005-11-03 Gross John N System & method of identifying and predicting innovation dissemination
US7275049B2 (en) 2004-06-16 2007-09-25 The Boeing Company Method for speech-based data retrieval on portable devices
WO2006038924A2 (en) 2004-06-18 2006-04-13 Sap Ag Consistent set of interfaces derived from a business object model
US20060062470A1 (en) * 2004-09-22 2006-03-23 Microsoft Corporation Graphical user interface for expression recognition
US7599930B1 (en) * 2004-10-19 2009-10-06 Trovix, Inc. Concept synonym matching engine
US8108389B2 (en) 2004-11-12 2012-01-31 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US8126890B2 (en) 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
WO2006057956A2 (en) 2004-11-23 2006-06-01 Core Relations Development Corporation Techniques for magazine like presentation of advertisement using computers
US7447683B2 (en) * 2005-03-31 2008-11-04 Jiles, Inc. Natural language based search engine and methods of use therefor
US20060242130A1 (en) * 2005-04-23 2006-10-26 Clenova, Llc Information retrieval using conjunctive search and link discovery
US8140559B2 (en) 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine
US8024653B2 (en) 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
US8775224B2 (en) 2006-01-04 2014-07-08 International Business Machines Corporation Method and apparatus for dynamic specification of a business value by a discovered resource
US20070192319A1 (en) 2006-01-27 2007-08-16 William Derek Finley Search engine application with ranking of results based on correlated data pertaining to the searcher

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0644074A (ja) * 1991-09-06 1994-02-18 Hitachi Ltd 知識ベースおよび推論方法および説明文生成方法
JP2001282811A (ja) * 2000-03-29 2001-10-12 Computer Consultant Kk 知識データ検索装置、知識データ検索方法及び知識データを検索するプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002259429A (ja) * 2001-01-17 2002-09-13 Internatl Business Mach Corp <Ibm> コンピュータベースの適合テキスト検索システムおよび方法
JP2003228580A (ja) * 2002-02-04 2003-08-15 Celestar Lexico-Sciences Inc 文献知識管理装置、文献知識管理方法、プログラム、および、記録媒体
US20030163302A1 (en) * 2002-02-27 2003-08-28 Hongfeng Yin Method and system of knowledge based search engine using text mining

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009528581A (ja) * 2005-11-14 2009-08-06 メイク センス インコーポレイテッド 知識相関サーチエンジン
JP4864095B2 (ja) * 2005-11-14 2012-01-25 メイク センス インコーポレイテッド 知識相関サーチエンジン
JP2008065543A (ja) * 2006-09-06 2008-03-21 Toshiba Corp 構造化文書検索装置及び構造化文書検索方法
JP2008225997A (ja) * 2007-03-14 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> メタデータ管理方法、メタデータ管理システム、及び、メタデータ管理プログラム
JP4689635B2 (ja) * 2007-03-14 2011-05-25 日本電信電話株式会社 メタデータ管理方法、メタデータ管理システム、及び、メタデータ管理プログラム
JP2012511773A (ja) * 2008-12-10 2012-05-24 アリババ・グループ・ホールディング・リミテッド 効率的なデータ同期化のための方法及びシステム
JP2017215999A (ja) * 2011-09-07 2017-12-07 マイクロソフト テクノロジー ライセンシング,エルエルシー 変換コンテンツ・アウェア・データー・ソース管理
KR20160088579A (ko) * 2015-01-16 2016-07-26 한국과학기술정보연구원 에너지 관련 기술 분류 프레임 구축 시스템 및 방법
KR101683856B1 (ko) * 2015-01-16 2016-12-09 한국과학기술정보연구원 에너지 관련 기술 분류 프레임 구축 시스템 및 방법

Also Published As

Publication number Publication date
US8108389B2 (en) 2012-01-31
US20120117053A1 (en) 2012-05-10
WO2006053306A2 (en) 2006-05-18
EP1825355A4 (en) 2009-11-25
US20060253431A1 (en) 2006-11-09
CN101124537A (zh) 2008-02-13
US9311601B2 (en) 2016-04-12
US10467297B2 (en) 2019-11-05
WO2006053306A3 (en) 2007-04-26
CN101124537B (zh) 2011-01-26
EP1825355A2 (en) 2007-08-29
US20160224669A1 (en) 2016-08-04

Similar Documents

Publication Publication Date Title
US10467297B2 (en) Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US8126890B2 (en) Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US9330175B2 (en) Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US10496722B2 (en) Knowledge correlation search engine
US8140559B2 (en) Knowledge correlation search engine
US20140279971A1 (en) Method for resource decomposition and related devices
US20200065344A1 (en) Knowledge correlation search engine
Freitas et al. A Semantic Best-Effort Approach for Extracting Structured Discourse Graphs from Wikipedia.
Yang et al. Ontology-supported FAQ processing and ranking techniques
JP4864095B2 (ja) 知識相関サーチエンジン
WO2007075157A1 (en) Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
Ulusoy Rule based entity-relationship diagram modelling
Vijayalakshmi et al. Information Retrieval in Kannada using Ontology
Thos Zoonosis Text Mining: Scraping infection data of rabies from scientific articles and integrating them into the Open Research Knowledge Graph
Nogueira Identifying References to Legal Literature in Portuguese Superior Court Decisions
Aravind An Integrated Set of Web Mining Tools for Research
Rheinländer Scalable and Declarative Information Extraction in a Parallel Data Analytics System
Shah et al. Context aware ontology based information extraction
Siau A teachable semi-automatic web information extraction system based on evolved regular expression patterns
Stadler Community-Driven Engineering of the DBpedia Infobox Ontology and DBpedia Live Extraction
Helešic Extrakce znalostních grafů z projektové dokumentace
Tran et al. Context-Aware Timeline for Entity Exploration
Kundin et al. Bilingual Corpus Exploratory Workbench
Gupta Web services query matchmaking with automated knowledge acquisition
Kozuka et al. Design and implementation of a filter engine for semantic web documents

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080728

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100609

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110621