JP2009528581A - 知識相関サーチエンジン - Google Patents

知識相関サーチエンジン Download PDF

Info

Publication number
JP2009528581A
JP2009528581A JP2008541146A JP2008541146A JP2009528581A JP 2009528581 A JP2009528581 A JP 2009528581A JP 2008541146 A JP2008541146 A JP 2008541146A JP 2008541146 A JP2008541146 A JP 2008541146A JP 2009528581 A JP2009528581 A JP 2009528581A
Authority
JP
Japan
Prior art keywords
search engine
input
function
search
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008541146A
Other languages
English (en)
Other versions
JP4864095B2 (ja
Inventor
ボビック,マーク
ウィマー,カール
Original Assignee
メイク センス インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/273,568 external-priority patent/US8108389B2/en
Priority claimed from US11/314,835 external-priority patent/US8126890B2/en
Application filed by メイク センス インコーポレイテッド filed Critical メイク センス インコーポレイテッド
Publication of JP2009528581A publication Critical patent/JP2009528581A/ja
Application granted granted Critical
Publication of JP4864095B2 publication Critical patent/JP4864095B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

テキスト・発話合成における予測構文解析及び機械翻訳のためのテキスト配列の推測などの各種NLPタスクについてクローズは重要である(Ejerhed 1988,Leffa 1998,Papageorgiou 1997)。Computational Natural Language Learning2001共有タスク(Sang&Dejean 2001)は、機械学習メソッドを利用してテキストのクローズ氷塊を特定することを目的とする。このタスクのため生成されたシステムは、クローズタイプ間の区別なくセンテンスのポジションにおいてスタート及びエンドするクローズの個数を指定するラベルを各ワードについて予測した。この作業は、複数の方法により共有されたタスクのものを拡張する。(1)パフォーマンス境界が利用される。(2)“メイン”及び“サブ”クローズを区別することが試みられる。(3)タスクについて上述されていないが、類似するドメインにおいて有効であると判明した選別最大エントロピーモデルクラスが、上記問題に適用される。

Description

発明の詳細な説明
[関連出願の相互参照]
本出願は、(1)発明者Mark Bobick及びCarl Wimmerにより2005年11月14日に出願された米国出願第11/273,568号“Techniques For Knowledge Discovery By Constructing Knowledge Correlations Using Concepts or Terms”(代理人整理番号83071)と、(2)発明者Mark Bobick及びCarl Wimmerにより2005年12月21日に出願された米国出願第11/314,835号“Techniques For Knowledge Discovery By Constructing Knowledge Correlations Using Concepts or Terms”(代理人整理番号83071_CIP)の一部継続出願であり、それらについて優先権を主張するものであり、上記出願の内容は、参照することによりその全てが本出願に含まれる。
[発明の背景]
発明の分野
本発明は、情報技術に関し、より詳細には、知識相関の結果を利用して、デジタル情報オブジェクトの何れか所与のユーザ問い合わせ、主題又はトピックスに重要なネットワーク及び/又はインターネットリソースを特定するサーチエンジンに関する。
関連技術の説明
サーチエンジンは、知識の情報抽出(IR)領域の一部として広く認識されている。IRメソッドは、クエリと呼ばれる問い合わせに関連するリソース(典型的には、文書)を特定することに関する。このクエリは、単一の検索条件から英語などの自然言語により構成された複雑なセンテンスに至る各形式をとりうる。検索される可能性のあるリソースの集合体はコーパス(ボディ)と呼ばれ、各タイプのコーパスを検索するための各種技術が開発されてきた。例えば、デジタル化された百科事典に含まれる記事群を検索するのに利用される技術は、ウェブサーチエンジンにより利用される技術と異なっている。利用される技術に関係なく、IRにおける中核的な問題は関連性、すなわち、オリジナルクエリについて抽出される文書の関連性である。各種IRメソッドの有効性を比較するため、形式的なメトリックが適用される。通常のIR有効性メトリックは、抽出されたすべての文書に対する抽出された関連する文書の比率である精度、コーパスのすべての関連する文書に対する抽出された関連する文書の比率であるリコール、及びコーパスのすべての関連しない文書に対する抽出された関連しない文書の比率であるフォールアウト(fall−out)を含む。関連するとみなされる抽出後の文書には、(大部分のIRシステムでは)再び各種技術を利用してある関連性ランクが割り当てられ、結果が返される。クエリはユーザと呼ばれる人間により最も通常は提供されるが(結果が返される)、ユーザは他のソフトウェアプロセスでありうる。
テキスト抽出は、テキストから構成される関連する文書を特定することに典型的に関するIRタイプであり、文書抽出は、特に非構造化(又は“フリー”)テキストから構成される文書などのテキスト文書の特定部分を特定することに関する。
データ抽出の関連する知識ドメインは、データ抽出がSQLデータベースからのレコードなどの具体的なデータアイテムの迅速で正確な抽出に関するものであるという点で、IRと異なっている。
情報抽出(IE)は、名前/値ペアのテンプレートなどのデータ構造への非構造化(通常はテキスト)文書からの情報の自動抽出を目的とする他のタイプのIRである。このようなテンプレートから、以降において、情報はリレーショナルデータベースを正しく更新するか、又はそれに挿入することが可能である。
ソフトウェアプロダクトとしてリリースされ、又は文献に記載されたサーチエンジンは、各キーワードからフレーズ、センテンス、パラグラフ、コンセプト及びデータオブジェクトに至る多数の入力形式を使用する。キーワード、センテンス及びパラグラフの意味はこれらの用語の一般的な理解に従うが、フレーズ、コンセプト及びデータオブジェクトの意味は実現形態毎に異なる。ときには、フレーズという用語はそれの伝統的な意味を文法的に利用して定義される。この使用では、フレーズのタイプには、前置詞句(PP)、名詞句(NP)、動詞句(VP)、形容詞句及び副詞句がある。他の実現形態では、フレーズという用語は、何れか適切な名前(ニューヨーク市など)として定義されるかもしれない。大部分の定義は、少なくとも1つの定義が単一の単語がフレーズとみなされることを許容するが、フレーズが複数の単語を含むことを要求する。いくつかのサーチエンジン実現形態は、フレーズの用語集(予め記録されたリスト)を利用する。WordNet Lexical Databaseは、一般的なフレーズソースである。
サーチエンジンに関連して使用されるとき、コンセプトという用語は一般に2つのコンストラクトの1つを表す。第1のコンストラクトは、キーワードに関連するシソーラスに類似した関連する単語のクラスとしてのコンセプトである。いくつかの実現形態では、このクラスタは、関連付け及びカスタマイズ化のためGUI(Graphic User Interface)を介しユーザに利用可能とされる。ユーザは、結果として得られるコンセプトがユーザの理解及び意図を最も良く表すまで、単語のクラスタをカスタマイズすることが可能である。第2コンストラクトは、キーワードの周辺の関連する単語のローカライズされたセマティックネットとしてのコンセプトである。ここで、ローカル又はパブリックなオントロジー(ontology)及びタクソノミー(taxonomy)が、キーワードの周辺のセマティックネットを生成するのに照会される。コンセプトの一部の実現形態は、イメージ及び他の非テキスト要素を含む。
トピックスは、一般的な実用では、テキストのボディに対して特定の処理群を適用することから特定又は“検出”される必要がある。トピックスの特定及び/又は検出のための各種方法が文献に記載されている。サーチエンジンへの入力としてのトピックスの使用は、通常はテキストのボディが入力されることを意味し、必要とされるトピックス特定又はトピックス検出機能が呼び出される。結果として得られるトピックスのフォーマット及び長さに応じて、適切な関連性機能がサーチエンジンにより呼び出すことが可能である。
サーチエンジンへの入力としてのデータオブジェクトは、可変長フリー形式センテンス群、フルレングステキスト文書、XML文書などのメタデータ文書を含む各種形式をとりうる。オブジェクト指向(OO)パラダイムは、OOシステムが入力としてオブジェクトを受け付けることを規定する。ソフトウェア関数は、ほとんど常に入力されるオブジェクトを処理するよう要求され、これにより、サーチエンジンの以降の関連性機能が進捗可能となる。
ランク付けされた結果セットは、サーチエンジンの市場での成功にとってキーとなっている。Googleサーチエンジン(Google,Inc.の製品)の現在の優勢は、所与の文書の人気が結果ランクを(実質的に)規定するGoogleに使用されるPageRankシステムによるものである。Googleの例における人気は、リンク数と、所与の検索用語又はフレーズを入力したGoogleユーザの嗜好とに適用される。これらのランキングは、Googleが特定の閾値(kと呼ぶ)を超えたランクの文書のみを返すことによって検索を最適化することを可能にする。結果をランク付けするためのウェブサーチエンジンにより使用される他の方法は、所与のウェブページ又は文書に対するインリンクとアウトリンクとをカウントする“Hubs&Authorities”、マルコフチェーン及びランダムウォークを含む。
[発明の概要]
本発明は、コンピュータにより実現される方法を利用して、デジタル情報オブジェクトの何れか所与のユーザ問い合わせ、主題又はトピックスに重要となるリソースの一意的なURI(Uniform Resource Identifier)又はURL(Uniform Resource Locator)により参照される少なくとも1つのリソースを特定するサーチエンジンの新規な形態を開示する。本発明では、ユーザの問い合わせ、主題又はトピックスが入力として機能する。この入力は、データオブジェクトの集合内の論理構造を構築又は検出しようとするソフトウェア関数により利用され、各データオブジェクトは、当該データオブジェクトに寄与したリソースに関連付けされ、構築又は検出された論理構造は、入力に強く関連付けされる。好適な実施例について、上記ソフトウェア関数は、出願第11/273,568号に記載されるような知識相関関数であり、上記論理構造は、パスのクイーバ(quiver)と呼ばれる有向非循環グラフの形態である。入力に強く関連付けされた上記論理構造が実際に構築又は検出された場合、このようなデータ構造のデータオブジェクトメンバーは、アンサースペースとなる。このアンサースペースを使用して、他のソフトウェア関数は、アンサースペースに寄与したリソースの何れがアンサースペースに最も重要な寄与をしたか高い信頼度により決定し、これにより、入力された問い合わせ、主題又はトピックスに最も重要なURL及びURIを特定することができる。最終的に、データオブジェクトをアンサースペースに寄与したURL及びURIにより参照された各リソースを入力に対する重要度によりランク付けするのに利用される。
本発明は、既存のサーチエンジンと異なっている。なぜなら、本発明で使用される出願第11/273,568号に記載されるような知識相関プロセスは、X(又は“オリジン”)と呼ばれる1つの用語、フレーズ又はコンセプトと、Y(又は“デスティネーション”)と呼ばれる少なくとも第2の用語、フレーズ又はコンセプトとの間の相関と呼ばれるすべての接続を記述したパスの包括的な集合を構築しようとするためである。このような1以上の相関が実際に構築可能である場合、本発明は、相関の構築に寄与したすべてのリソースを関連するものとして特定する。既存のサーチエンジンと異なり、本発明の関連性は、各用語、フレーズ又はコンセプトに別々に適用されるのでなく、X及びYだけでなく相関を構築するのに直面するすべての用語、フレーズ及びコンセプトに適用される。これら新規な特徴のため、本発明は、1つのウェブページ又は文書のコンテンツを利用しては回答できないユーザクエリを特に充足することができる。
本発明に対する入力は、現在の使用とは異なっている。なぜなら、本発明のすべての入力モードは、少なくとも2つの同一でない用語、フレーズ又はコンセプトを提供しなければならないためである。この使用における“同一でない”とは、語彙的又は意味的な重複又は分離が要求されることを意味する。出願第11/273,568号に記載されるように、少なくとも2つの用語、フレーズ又はコンセプトはX及びY(又は“オリジン”及び“デスティネーション”)と呼ばれる。何れの入力プロセスも同義、アイデンティティ又は同一の(idempotent)X及びYの用語、フレーズ若しくはコンセプトを生じさせる可能性がある。既存の技術に関して、テキストオブジェクト及びデータオブジェクトが受入可能であり(本発明では、X又はYとして)、トピックス及び/又はコンセプトが、知識相関プロセスに提供される前に抽出可能である。しかしながら、大部分の(すべてではないが)既存のサーチエンジンと異なり、入力の形式(用語、フレーズ、コンセプト又はオブジェクト)は本発明では制約されない。これは、関連性関数(知識相関)が関連性を確立するため類似性の指標を使用しない理由から、可能である。この特性は、本発明が多くの既存のIRアプリケーションとシームレスに統合されるのを可能にする。
入力の形式又は方法に関係なく、本発明の知識相関の目的は文書関連性を確立することである。現在、関連性は、集合により文書を表現する集合理論モデル、ベクトル若しくはマトリックスとして文書を表現する代数モデル、及び文書属性(トピックスなど)を学習するため確率理論を利用する確率モデルの3つの一般的なアプローチを利用してIRにおいて確立される。各モデルは、1以上の文書が類似するか、これにより、所与の入力に関連するか判断する手段を提供する。例えば、最も基本的な集合理論モデルは、「入力された単語が文書に出現するか?」という標準的な関連性に対するブールアプローチを利用する。出現する場合、文書は関連性がある。出現しない場合、文書は関連性がない。代数モデルは、項のベクトルとして表現される文書が項のベクトルとして表現される入力クエリと比較されるベクトル空間モデルなどの技術を利用する。ベクトルの類似性は、文書の関連性を意味する。確率モデルでは、関連性は、入力と文書の比較された確率により決定される。
上述されるように、本発明は、既存の何れのサーチエンジンとも全く異なる基準を使用して、全く異なるプロセスにより関連性を確立している。しかしながら、本発明は、コーパス内の“関連する”ソースの検出及び取得に依存する(特にコーパスがWWWである場合)。このため、既存の技術の何れの形式も、出願第11/273,568号に記載されるような検出段階中の制限なく、知識相関プロセスへの入力のついて候補リソースの特定を支援するため利用可能である。
すべてのサーチエンジンについて、所与の文書の所与の入力に対する単なる関連性の決定は、必要ではあるが十分ではない。“コンピュータ”という単語を含むWWWに対する何れかのクエリについて、例えば、関連性に対する標準的なブールアプリーチを利用して、数千万の文書が関連性があると判断されるであろう。ユーザは実際には“コンピュータ”の特定のアプリケーションを記載した文書のみに興味があった場合、このような膨大な結果セットは利用できないとわかるであろう。実際問題として、ユーザは、サーチエンジンが最も関連性の高いものから低いものに結果をランク付けすることを要求する。典型的には、ユーザは、最も関連性の高い結果から始めて、関連性の降順に提示された関連する文書を有することを所望する。大部分の関連性関数は実数値を生成するため、サーチエンジンの結果セットをランク付けする自然な方法は、各自の関連性のスコアにより結果セットのメンバーをランク付けすることである。
本発明は、新規なランク付け方法を利用する。なぜなら、それは、所与の文書又はリソースが相関“アンサースペース”に寄与する程度の関数となるためである。出願第11/273,568号に記載されるように、このアンサースペースはノードと呼ばれるデータ構造から構築され、さらにノードは関連するリソースの分解により生成される。アンサースペースにおけるノードの出現頻度をカウントする本発明の最も直接的なランク付け関数でさえ、もとのユーザクエリに一意的に又は強く関連する文書を特定することが可能である。以降に記載されるような本発明のより高度なランク付け機構は、この結果を向上させる。
[発明の説明]
図1は、相関関数110により受付される入力の3つの例のブロック図である。主題200は、主題評価関数220により評価される。デジタル情報オブジェクト230が、トピック検出モジュール240のアダプタ235によりトピックについて調べられる。標準形式問い合わせ生成関数250は、入力としての問い合わせ260を生成する。
好適な実施例では、後述されるような何れかの形式による及び何れかのソースからの少なくとも2つの入力が、相関関数110に提供される必要がある。X又は“オリジン”入力と呼ばれる第1の入力と、Y又は“デスティネーション”入力と呼ばれる第2の入力がある。このため、受付可能な入力は、2つの主題200、デジタル情報オブジェクト230又は問い合わせ260の何れかの組み合わせを含むかもしれない。
後述されるような他の実施例では、主題200、デジタル情報オブジェクト230又は問い合わせ260である少なくとも1つのX入力が相関関数110に提供される。停止相関条件と呼ばれる第2入力が、相関関数110にわたされる。停止相関条件が相関関数110により充足されるまで、相関デスティネーションである要求されるYの実際の値は未知とされる。実際のY入力の何れも入力として処理される必要はないが、相関デスティネーションの要求は充足される。
図1に示される第1の例が、図1Aにより詳細に示される。一実施例では、主題200は個別のキーワード、フレーズ、センテンス又はコンセプトであるかもしれない。主題200が個別のキーワードであるとき、主題200は主題評価関数220によって、さらなる処理なく相関関数110に直接転送される。同様に、主題200がフレーズであるとき、主題200は主題評価関数220によって、さらなる処理なく相関関数110に直接転送される。主題200がセンテンスであるとき、ワード及び/又はフレーズの形式によりセンテンスの実際の主題200を抽出するため、センテンスの構文解析を実行するために自然言語パーサ(NLP)133が呼び出される。その後、このようなワード又はフレーズは相関関数110に転送される。センテンスからさらなるワード又はフレーズが抽出され、コンテクストとして相関関数110に提供されてもよい。出願第11/273,568号に記載されるように、X又はYに加えて、ワード又はフレーズである任意数のコンテクストワード又はフレーズが、向上させるため相関関数110に提供することが可能である。何れのワード又はフレーズ(存在する場合)がセンテンスから抽出されるかに関する選択は、NLP133の用語集のワード又はフレーズのメンバーシップと共通の停止ワードリストからのワードの欠如に基づく。停止ワードはIRにおいて周知である。このようなワードは、IRの集合理論モデルにおける関連性を確立するのに利用することはできず、このため、このようなモデルについて構築されるインデックスに追加されることはない。
センテンスが標準形式にマッチする問い合わせ250である場合、主題評価関数220は、センテンスからXとYのワード又はフレーズを抽出し、相関関数110に提供する。主題200がコンセプトであるとき、コンセプトワード又はフレーズがX又はYとして相関関数110に提供され、コンセプトクラスタ又はマップの残りの項は、コンテクストワード又はフレーズとして相関関数110に提供される。
好適な実施例では、主題は、出願第11/273,568号の図2Aなどのグラフィカルユーザインタフェースを利用してユーザにより提供される。他の実施例では、何れか周知の入力インタフェースが利用される(テキスト入力フィールド、発話による入力など)。
一実施例では、図1Aを参照するに、主題200はコンプレックス主題(complex subject)、すなわち、1つの独立節と1以上の従属節とから構成される主題の形式をとる。例えば、“regulation of pollution,given the effects of automobile pollution”などである。他の実施例では、主題200は、コンパウンド主題(compound subject)、すなわち、“and”、“or”、“not”などの論理演算子を利用して接続された2以上の独立節から構成される主題の形式をとる。例えば、“the Trilateral Commission and international NGOs not World Bank”などである。あるいは、主題200は、マルチパートオーソゴナル主題(multi−part orthogonal subject)、すなわち、接続されておらず、互いにオーソゴナルである2以上の独立節から構成される主題の形式をとる。例えば、“poaching,endangered species,men‘s health,government intervention”などである。これらの実施例では、節又はクローズ認識のための高度なNLPメソッド(Hachey,B.C.2002.Thesis:Recongnising Clauses Using Symbolic and Machine Learning Approaches.University of Edinburgh)が、主題200に適用され、まず主題200をクローズに分解し、それから構文解析によりキーワード及びフレーズに分解する。クローズ認識技術が、X、Y及び相関関数110へのコンテクスト入力を区別するのに利用される。
一実施例では、主題評価関数220は、ユーザにより提供された主題200が本発明からのレスポンスとして、最も適切なレスポンスとしてのリストを生成する。例えば、図1Bを参照するに、ユーザにより提供された主題が“Italian restaurants Dover DE”である場合、主題評価関数220は、DelawareのDoverにあるイタリアンレストランのリストを求められていることを認識するであろう。この場合、主題評価関数220は、ユーザにGoogle(Google,Inc.の製品)又はYahoo(Yahoo,Inc.の製品)などの周知のシンプルなウェブサーチエンジンの1つを使用するよう指示するか、又はこれらのシンプルなサーチエンジンの1つを直接呼び出す。あるいは、主題評価関数220は、ユーザにより提供された主題がレスポンスとして最も適切なレスポンスとして1つのウェブページを生成するか判断する。例えば、ユーザにより提供された主題が“show times rialto theatre”である場合、主題評価関数220は、Rialto Theatreのウェブサイトが求められていることを認識するであろう。この場合、主題評価関数220は、ユーザにGoogle又はYahooなどの周知のシンプルなウェブサーチエンジンの1つを利用するよう指示するか、又は上述されたシンプルなサーチエンジンの1つを直接呼び出すであろう。これは、ちょうど2つの完全なフレーズが主題220を構成し、フレーズの1つが適切な地理的名称(ニューヨーク市など)又は適切な名前(Rialto Theatreなど)であり、他方が形容詞+名詞のフレーズ(“show times”又は“Italian restaurants”)であるとき、シンプルなウェブサーチエンジンが呼び出されるというルールを利用して、自動フレーズ認識技術(Kelledy,F.Smeaton,A.F.1997.Automatic Phrase Recognition and Extraction from Text.Proceedings of the 19th Annual BCS−IRSG Colloquium on IR Researchを参照)により実現される。より高度なルールが、大部分の状況をカバーするのに容易に定義可能である。
図1に示される第3の入力モードは、特許出願第11/273,568号の図2Aにより十分に示されており、そこでは、相関関数110への入力がユーザの問い合わせであり、このユーザの問い合わせは標準形式により不完全な問い合わせと、当該問い合わせを完全にする1以上のキーワードとから構成される(“ブランクに記入せよ”の周知なパラダイムと比較可能である)。あるいは、この不完全な問い合わせは、ユーザにより明示的に選択される。一実施例では、不完全な問い合わせは、サポートされている標準形式の問い合わせのリスト又はメニューからユーザにより明示的に選択される。他の実施例では、サポートされている不完全な標準形式の問い合わせのリスト又はメニューは、“スタティック又は静的”である。すなわち、リストは各呼び出し毎に変化しない。あるいは、サポートされている不完全な標準形式の問い合わせのリスト又はメニューは、“ダイナミック又は動的”である。すなわち、リストは各呼び出し毎に変化する。図1を参照するに、サポートされている不完全な標準形式の問い合わせのダイナミックなリスト又はメニューが、コンピュータプログラムミング言語(Sun Microsystems,Inc.の製品であるJava(登録商標)など)により記述されたソフトウェア関数、標準形式問い合わせ生成関数250、ソフトウェアプログラムコンポーネントにより各呼び出し毎に生成される。あるいは、不完全な問い合わせは非明示的なものであり、ソフトウェアプログラムコンポーネント、標準形式問い合わせ生成関数250により選択される。あるいは、標準形式問い合わせ生成関数250により選択される不完全な非明示的な問い合わせは、“スタティック”なものであり、すなわち、各呼び出し毎に変化しない。
現在の好適な実施例では、スタティックで非明示的な選択された問い合わせは、“キーワード1とキーワード2との間の接続は何か?”というものである。あるいは、スタティックで非明示的な選択された問い合わせは、“キーワード3、キーワード4及び/又はキーワード5のコンテクストには、キーワード1とキーワード2との間の接続は何か?”というものである。あるいは、標準形式問い合わせ生成関数250により選択される不完全な非明示的問い合わせは、“ダイナミック”であり、すなわち、各呼び出し毎に変更される。
一実施例では、デジタル情報オブジェクト230がユーザにより提供される。デジタル情報オブジェクト230は、限定されるものではないが以下を含む。
(i)テキスト(平文)ファイル
(ii)Rich Text Format(RTF)(Microsoft,Inc.により開発された規格) 他の方法は、まずRTF/テキスト変換ユーティリティ(Pete Sergeantの製品であるRTF−Parser−1.09など)の中間的な利用によりRTFからクリアテキストを取得することである。
(iii)Extended Markup Language(XML)(ワールド・ワイド・ウェブコンソーシアムの製品)ファイル
(iv)限定されるものではないが、HyperText Markup Language(HTML)、Extensible HyperText Markup Language(XHTML(登録商標))(ワールド・ワイド・ウェブコンソーシアムのプロジェクト)、RuleML(RuleML Initiative のプロジェクト)、Standard Generalized Markup Language(SGML))国際規格)、Extensible Stylesheet Language(XSL)ワールド・ワイド・ウェブコンソーシアムのプロジェクト)を含むマークアップ言語ファイルの何れかの変形
(v)Portable Document Format(PDF)ファイル(Adobe,Inc.の専用フォーマット)(PDF・テキスト変換ユーティリティの中間的利用による)
(vi)MS WORD(Microsoft,Inc.のワープロソフトウェア製品)による文書を格納するのに使用されるDOCファイルなどのMS WORDファイル 本実施例は、MS Word・テキストパーサ(Apache.orgの製品であるApache POIプロジェクトなど)をプログラム的に利用する。POIプロジェクトAPIはまた、プログラム的に呼び出されたMicrosoft Excelスプレッドシートファイル(XLS)からのテキスト抽出を可能にする。MS Wordファイルはまた、XLSファイルは可能でないが、特殊文字を含むプレインテキストファイルとしてNLPにより処理可能である。
(vii)以下に限定されるものでないが、トランザクションログ、電話番号レコード、従業員タイムシート、コンピュータシステムイベントログを含むイベント情報キャプチャログファイル
(viii)ウェブページ
(ix)ブログページ
(x)リレーショナルデータベース行
(xi)リレーショナルデータベースビュー
(xii)リレーショナルデータベーステーブル
(xiii)リレーショナルデータベースアンサーシート(すなわち、関係代数演算から得られる行セット)
デジタル情報オブジェクト230のトピックは、ソフトウェア関数、トピック検出関数240、ソフトウェアプログラムコンポーネントにより決定される。このようなトピック検出ソフトウェアの具体例は、文献に十分に記載されている。(Chen,K.1995.Topic Identification in Disclosure.Morgan Kaufmanを参照されたい。)トピック検出関数240は、デジタル情報オブジェクト230の各形式を処理するソフトウェアアダプタ235により実現される。このようなソフトウェアアダプタ235は周知である。(例えば、http://www−306.ibm.com/software/integration/wbiadapters/frameworkなどを参照されたい。)トピック検出関数の出力は、その後に相関関数110に提供されるキーワード及び/又はフレーズである。
図8は、図1に記載されるような入力に応答して知識相関関数110により開始され、本発明の一特徴に従ってユーザに結果を提示し続けるサーチエンジンプロセスのフローチャートである。相関関数110は、関連するデータ構造オブジェクト830、トリプル835及び関連するオブジェクト837をアンサースペース885に提供する。アンサースペース885におけるオブジェクトの重要性は、ランキング関数845が重要度によりランク付けするためデータをセットアップする重要性計算関数840により決定される。その後、出力がユーザに表示される。相関関数が何れかのタイプの有向非循環グラフを生成すると、階層的レイアウト関数850によりレイアウトが構成された後、グラフがユーザに表示可能となる。
本発明は、相関関数110の成功に依存する。特許出願第11/273,568号からの以下のテキストは、本発明で使用される相関関数110を要約している。以下の引用における図に対するすべての参照は、特許出願第11/278,568号の図面にのみ適用される。
『図1Aに表示されるような本発明の実施例では、ユーザは、GUIインタフェースを利用して少なくとも1つの項を入力する。図2Aは、ユーザ入力を受け付けるためのGUIコンポーネントのスクリーンキャプチャである。当該インタフェースにおける重要度フィールドは、“X項”、“Y項”及び“タンジェント”である。後述されるように、1〜5個の項又はフレーズのユーザのエントリは、本発明の動作に対して重要な効果を有している。図2Aに示されるような好適な実施例では、ユーザは、少なくとも2つの入力項又はフレーズを提供することが要求される。図1Aを参照するに、図2Aの“X項”データエントリフィールドに入力することによって、ユーザ入力100の“GOLD”がサーチ可能な項又はフレーズ110としてキャプチャされる。ユーザ入力100の“INFLATION”は、図2Aの“Y項”データエントリフィールドに入力されることにより、サーチ可能な項又はフレーズ110としてキャプチャされる。ユーザにより起動されると、関心のある項又はフレーズに関する情報の実際の及び可能性のあるソースを特定するため、サーチ120が実行される。実際の及び可能性のある各ソースが、関心のある項又はフレーズとの関連性125についてテストされる。サーチされるソースには、コンピュータファイルシステム、インターネット、リレーショナルデータベース、電子メールレポジトリ、タクソノミーのインスタンス、オントロジーのインスタンスがある。関連すると判明した上記ソースは、リソース128と呼ばれる。関連するリソース128のサーチ120は、“発見”と呼ばれる。各リソース128からの情報は、ノードと呼ばれるデジタル情報オブジェクト138に分解される(130)。図1Cを参照するに、ノード180A及び180Bは、意味を含み伝達するデータ構造である。各ノードは自己完結している。ノードは、意味を伝達するための他の何れも必要としない。図1Aを再び参照するに、良好に分解された(130)リソース128からのノード180A,180Bがノードプール140に配置される。ノードプール140は、データアクセス及び抽出のための論理構造である。リソース128のキャプチャ及びノード180A,180Bへの分解は、“取得”と呼ばれる。その後、相関155がノードプール140のメンバーノードと呼ばれるノード180A,180Bを利用して構築される。図1Bを参照するに、相関は、関心のある項又はフレーズを明示的に含むノードプールのノードの1つからスタートする。このようなノードは項ノードと呼ばれる。相関における第1ノードとして使用されるとき、項ノードはオリジン(ソース)152と呼ばれる。相関は、ノードのチェーン(パス)の形式で構築される。パスは、オリジンノード152(同義的にはパスルートと呼ばれる)においてスタートする。パスは、オリジンノードに関連付け可能なメンバーノード151をノードプール140のノードメンバー151から検索することによって拡張される。このようなノード(適格なメンバー151H)が検出された場合、この適格なメンバーノードはオリジンノード152にリンクされ、パスの現在の終点として指定される。パスはさらに、パスの現在の終点に関連付けされ及び追加される適格なメンバーノードが最終的な終点ノード(デスティネーションノード159)とみなされるまで、又はノードプールにさらなる適格なメンバーノードが存在しなくなるまで、パスの連続的に指定された現在の終点にノードプールの適格なメンバーノードの繰り返しの関連付け及び連続的なリンクにより拡張される。パスの最終的な終点としてデスティネーションノード159の関連付け及びリンクは、成功結果(ゴール状態)と呼ばれ、この場合、パスは以降に相関155と呼ばれ、このような相関155は保存される。ノードプールにさらなる適格なメンバーノードが存在せず、このため受入可能なデスティネーションノードが存在しない状態は、不成功結果(消耗)とみなされ、パスは破棄され、相関とは呼ばれない。完成した相関155は、オリジンノード152と相関のその他の各ノードと関連付けし、特に相関のデスティネーションノード159と関連付けされる。このプロセスの名前は“相関”である。相関155は、サーチにおいて特定されたすべてのソースからの情報を結び付ける知識ブリッジを形成する。知識ブリッジは、発見された知識である。』
本発明は上述されるような相関関数535の成功に依存するため、可能性のあるソースに適用される関連性テスト(出願第11/278,568号の図1Aのアイテム125)が興味がある。上述されるような相関関数110の発見段階は、関連性テストを利用して(出願第11/278,568号の図1Aのアイテム125)、以降の取得のためのリソース(出願第11/278,568号の図1Aのアイテム128)を特定する。これらの関連性テスト(出願第11/278,568号の図1Aのアイテム125)は、関連技術に記載される関連性アプローチと類似し、共通部分を有する。リソース(出願第11/278,568号の図1Aのアイテム128)が相関関数110による取得を保証するのに十分な関連性を有しているとみなされる事実は、リソース(出願第11/278,568号の図1Aのアイテム128)がアンサースペース800に重要な方法により寄与することがわかることを意味するものでなく、また保証するものでもない。出願第11/278,568号に列記される関連性テスト(出願第11/278,568号の図1Aのアイテム125)が以下に列記される。本発明の一実施例では、出願第11/278,568号に列記されるすべての関連性テスト(出願第11/278,568号の図1Aのアイテム125)と共に、関連技術に記載されるすべての関連性アプローチが、相関関数110による取得のためのリソース(出願第11/278,568号の図1Aのアイテム128)を選択するのに利用される。
出願第11/278,568号による関連性テストは、限定されるものでないが以下を含むことが可能である。
(i)可能性のあるソースが、関心のある項又はフレーズの単数形又は複数形とのマッチを含むこと。
(ii)可能性のあるソースが、関心のある項又はフレーズの同義語とのマッチを含むこと。
(iii)可能性のあるソースが、関心のある項又はフレーズに関連するワードとのマッチを含むこと(シソーラスにより提供されるように関連する)。
(iv)可能性のあるソースが、可能性のあるソースのコンテンツと関心のある項又はフレーズとの間の関係が信頼できるリファレンスソースにより確立されている関心のある項又はフレーズに関連するワードとのマッチを含むこと。
(v)サーチ中に特定された可能性のあるソースの何れかのコンテンツが関心のある項又はフレーズの同義語又は関連するか判断するため、Merriam−Webster’s Thesauraus(Merriam−Webster,Inc.の製品)などのシソーラスの利用。
(vi)可能性のあるソースが、関心のある項及び/又はフレーズの1つの信頼できるリファレンスの定義に現れるワードとのマッチを含むこと。
(vii)サーチ中に特定される可能性のあるソースの何れかのコンテンツが、関心のある項又はフレーズの辞書の定義に出現し、このため関連性があるか判断するため、Merriam−Webster’s Dictionary(Merriam−Webster,Inc.の製品)などの辞書の利用。
(viii)可能性のあるソースが、信頼できるリファレンスソースの関心のある項又はフレーズに関する説明に出現するワードとのマッチを含むこと。
(ix)サーチ中に特定された可能性のあるソースの何れかのコンテンツが、関心のある項又はフレーズの百科事典の説明に出現し、このため関心のある項又はフレーズに関連するか判断するため、the Encyclopedia Britannica(Encyclopedia Britannica,Inc.の製品)などの百科事典の利用。
(x)可能性のあるソースに含まれる項が、関心のある項又はフレーズと親子又は兄弟関係を有すること。
(xi)可能性のあるソースに含まれる項が、関心のある項又はフレーズと親子関係又は兄弟関係を有することを判断するためのタクソノミーの利用。本実施例では、関心のある項又はフレーズを含む頂点がタクソノミーに配置される。これが、関心のある頂点である。可能性のあるソースのコンテンツで特定された各ワードについて、タクソノミーの親、兄弟又は子供の頂点が、関心のある頂点から当該関心のある頂点の親、兄弟及び子供の頂点への関係(リンク)を追跡することによってサーチされる。親、兄弟又は子供の頂点の何れかが可能性のあるソースのコンテンツからのワードを含む場合、マッチが宣言され、ソースは関心のある項又はフレーズに関する情報の実際のソースとみなされる。本実施例では、グラフ探索関数と呼ばれるソフトウェア関数が、関心のある項又はフレーズの親、兄弟及び子供の頂点を特定及び検証するのに利用される。
(xii)関心のある項又はフレーズが、可能性のあるソースに含まれる項から次数(長さ)1の意味的距離を有すること。
(xiii)関心のある項又はフレーズが、可能性のあるソースに含まれる項から次数(長さ)2の意味的距離を有すること。
(xiv)次数(長さ)1の意味的距離が関心のある項又はフレーズからソースを分離することを判断するためのオントロジーの利用。本実施例では、関心のある項又はフレーズを含む頂点がオントロジーで特定される。これが、関心のある頂点である。可能性のあるソースのコンテンツにおいて特定された各ワードについて、オントロジーが、関心のある頂点から隣接するすべての頂点への関係(リンク)を追跡することによりサーチされる。隣接する頂点の何れかが可能性のあるソースのコンテンツからのワードを含む場合、マッチが宣言され、ソースが関心のある項又はフレーズに関する情報の実際のソースとみなされる。
(xv)次数(長さ)2の意味的距離が関心のある項又はフレーズからソースを分離することを判断するためのオントロジーの利用。本実施例では、関心のある項又はフレーズを含む頂点がオントロジーにおいて特定される。これが、関心のある頂点である。可能性のあるソースのコンテンツにおいて特定された各ワードについて、意味的に次数1の関連性テストが実行される。これが不成功であった場合、オントロジーが、関心のある頂点に隣接する頂点から各自のすべての隣接する頂点への関係(リンク)を追跡することによって、サーチされる。このような頂点は、関心のある頂点から意味的に次数2となる。意味的に次数2の頂点の何れかが可能性のあるソースのコンテンツからのワードを含む場合、マッチが宣言され、ソースが関心のある項又はフレーズに関する情報の実際のソースとみなされる。
(xvi)関心のある項及び/又はフレーズの1つからサーチ中に特定された可能性のあるソースの何れかのコンテンツへの意味的距離の次数(長さ)を決定するため、CYC Ontology(Cycorp,Inc.の製品)などの一般的なオントロジーの利用。
(xvii)関心のある項及び/又はフレーズの1つからサーチ中に特定された化膿し絵のあるソースの何れかのコンテンツへの意味的距離の次数(長さ)を決定するため、Gene Ontology(Gene Ontology Consortiumのプロジェクト)などの特殊なオントロジーの利用。
オントロジーを利用し、テストについて、オントロジーがOntology Language(Web Ontology Languageなど)(OWL)(World Wide Web Consortiumのプロジェクト)を利用してアクセス及びナビゲートされる。
このようにサーチされるコンピュータは、個人のパーソナルコンピュータ、ネットワーク上の各コンピュータ、ネットワークサーバコンピュータ、ネットワークオントロジーサーバコンピュータ、ネットワークタクソノミーサーバコンピュータ、ネットワークデータベースサーバコンピュータ、ネットワーク電子メールサーバコンピュータ、ネットワークファイルサーバコンピュータを含む。ネットワークオントロジーサーバは、典型的には、大きなユーザグループに対する意味的サーチ機能をサポートするタスクに専用の特殊なハイパフォーマンスコンピュータである。ネットワークタクソノミーサーバは、典型的には、大きなユーザグループに対する分類サーチ機能をサポートするタスクに専用の特殊なハイパフォーマンスコンピュータである。ネットワークデータベースサーバは、典型的には、大きなユーザグループに対するデータベース機能をサポートするタスクに専用の特殊なハイパフォーマンスコンピュータである。ネットワーク電子メールサーバは、典型的には、大きなユーザグループに対する電子メール機能をサポートするタスクに専用の特殊なハイパフォーマンスコンピュータである。ネットワークファイルサーバは、大きなユーザグループに対するファイル維持及び抽出機能をサポートするタスクに専用の特殊なハイパフォーマンスコンピュータである。コンピュータネットワークは、少なくとも2つのネットワークノードを有し、ネットワークノードの最大数は無限である。コンピュータファイルシステムは、少なくとも2つのファイルを有し、ファイルの最大数は無限となる。
相関関数110が良好に完了すると、アンサースペース800が存在する。出願第11/273,568号に記載され、本出願の図8に示されるように、アンサースペース800はいくつかの相関(出願第11/273,568号の図1Bのアイテム155)から構成される。これらの相関(出願第11/273,568号の図1Bのアイテム155)は、さらに図5においていくつかのノード(出願第11/273,568号の図1Cのアイテム180A及び180B)から構成される。相関関数110により生成される図4の良好な相関(出願第11/273,568号の図1Bのアイテム155)は、好適な一実施例では、相関の有向グラフ(ダイグラフとも呼ばれる)として一緒にモデル化される。あるいは、相関関数110により生成される図4の良好な相関(出願第11/273,568号の図1Bのアイテム155)は、良好な相関のパスのクイーバ(quiver)として一緒にモデル化される。相関関数110により生成される図4の良好な相関(出願第11/273,568号の図1Bのアイテム155)は、相関に関してアンサースペース800と呼ばれる。相関関数110がパスのクイーバの各パスが良好な相関であるパスのクイーバを構築した場合、すべての良好な相関はスタートポイントとしてオリジンノード(出願第11/273,568号の図1Bのアイテム152)を共有し、オリジンノードからのすべての可能な相関(出願第11/273,568号の図1Bのアイテム155)が構築される。同一のオリジン項ノード(出願第11/273,568号の図1Bのアイテム152)からスタートし、同一のターゲット項ノード(出願第11/273,568号の図1Bのアイテム159)又は同一の関連するターゲット項ノード(出願第11/273,568号の図1Bのアイテム159)で終わるすべての相関(出願第11/273,568号の図1Bのアイテム155)(パス)は、相関セットを構成する。
現在好適な実施例では、アンサースペース800がコンピュータデジタルメモリに格納されるか、又はコンピュータデジタル記憶媒体(ハードドライブなど)に格納される。このようなデジタルメモリ及びデジタル記憶装置は周知である。アンサースペース800は、計算装置、コンピュータネットワーク接続装置又はパーソナル計算装置に一時的あるか、又は常駐する。周知の計算装置は、限定されるものでないが、スーパーコンピュータ、メインフレームコンピュータ、企業クラスコンピュータ、サーバ、ファイルサーバ、ブレードサーバ、ウェブサーバ、部門サーバ及びデータベースサーバを含む。周知のコンピュータネットワーク接続装置は、限定されるものでないが、インターネットゲートウェイ装置、データ記憶装置、ホームインターネット装置、セットトップボックス及び車載計算プラットフォームを含む。周知のパーソナル計算装置は、限定されるものでないが、デスクトップパーソナルコンピュータ、ラップトップパーソナルコンピュータ、携帯情報端末(PDA)、先進的なディスプレイ携帯電話、先進的なディスプレイページャ、及び先進的なディスプレイテキストメッセージ処理装置を含む。アンサースペース800は、最小で2つのノード(出願第11/273,568号の図1Cのアイテム180A及び180B)を有し又は関連付け、ノード(出願第11/273,568号の図1Cのアイテム180A及び180B)の最大数は無限となる。
ノード(出願第11/273,568号の図1Cのアイテム180A及び180B)は相関関数110の発見段階により特定されたリソース(出願第11/273,568号の図1Aのアイテム128)に対して適用された分解関数(出願第11/273,568号の図1Bのアイテム130)のプロダクトであるため、これらのノード(出願第11/273,568号の図1Cのアイテム180A及び180B)は、当該ノード(出願第11/273,568号の図1Cのアイテム180A及び180B)が導出されるリソース(出願第11/273,568号の図1Aのアイテム128)に強く関連付けされる。このようなリソース(出願第11/273,568号の図1Aのアイテム128)は、ここでは貢献リソースと呼ばれる。さらに、アンサースペース800は、ユーザクエリ(入力される主題200、デジタル情報オブジェクト230又は問い合わせ250として示される)に強く関連付けされる。なぜなら、良好な相関(出願第11/273,568号の図1Bのアイテム155)は、ユーザクエリがコーパスのコンテンツから充足可能な実在するプルーフ(実在する数量化)であるためである。本発明は、ユーザクエリとアンサースペース800との強い関連付けがアンサースペースにノード(出願第11/273,568号の図1Cのアイテム180A及び180B)を貢献させたリソース(出願第11/273,568号の図1Aのアイテム128)に推移的なものであるという事実に基づき、これにより、知識相関サーチエンジンの本発明がユーザクエリに関連するリソース(出願第11/273,568号の図1Aのアイテム128)の正確なリンクを提供することを可能にする。
本発明の要件は、アンサースペース185にノード(出願第11/273,568号の図1Cのアイテム180A及び180B)を貢献させたリソース(出願第11/273,568号の図1Aのアイテム128)が特定される必要があるということである(すなわち、貢献リソース000が何れか?)。出願第11/273,568号の図1Cのアイテム180Bに示すことができるように、出願第11/273,568号の図1Cのアイテム180Bのノードのメンバーはシーケンス(ソース)(出願第11/273,568号の図1Cのアイテム188)である。シーケンス(出願第11/273,568号の図1Cのアイテム188)は、ノード(出願第11/273,568号の図1Cのアイテム180B)が導出されるリソース(出願第11/273,568号の図1Aのアイテム128)(出願第11/273,568号の図1Cのアイテム188のノードに対する貢献リソース128)のURIを含む。このため、本発明は、アンサースペース185のすべてのノード(出願第11/273,568号の図1Cのアイテム188)において検出されるすべてのリソース(出願第11/273,568号の図1Aのアイテム128)を単に数え上げることによって、ユーザクエリに関連する貢献リソース128を特定することができる。
改良されているが依然として基本的な実施例では、各相関(出願第11/273,568号の図1Bのアイテム155)を調べることが可能であり、相関(出願第11/273,568号の図1Bのアイテム155)における貢献リソース128の出現頻度がヒストグラムにおいてキャプチャすることができる。その後、すべての貢献リソース128の出現の累積的なカウントがソートすることができる。その後、すべての貢献リソース000のURIが、出現頻度の降順によりユーザに提示可能である。本実施例について、図2を参照して、相関(出願第11/273,568号の図1Bのアイテム155)の検証、貢献リソース128の出現頻度のキャプチャ及び貢献リソース128のキャプチャされた出現頻度のヒストグラムへの配置が、重要度計算関数540により実行される。すべての貢献リソース128の出現に対する累積的なカウントのソートがランキング関数545により実行され、ソートされた結果のユーザへの提示が、階層的レイアウト関数550により実行される。
他の基本的な例では、重要度計算関数842は、重要度計算関数842は、各貢献リソース128によりアンサースペース885に寄与する一意的なノード(出願第11/273,568号の図1Cのアイテム180B)の個数に基づく統計関数である。本実施例では、アンサースペース885における相関(出願第11/273,568号の図1Bのアイテム155)は考慮されない。重要度計算関数842はまず、各ノード(出願第11/273,568号の図1Cのアイテム180B)についてリストの1つのエントリを有するアンサースペース885の一意的なノード(出願第11/273,568号の図1Cのアイテム180B)をリストする。その後、各貢献リソース128への参照頻度がカウントされる。統計的な重要度を測るため標準的で周知な統計基準及び方法を利用して、ランキング関数845により使用されるk閾値が確定され、最も重要度の高い貢献リソース128が特定され、ユーザに提示可能となる。
他の例として、重要度計算関数842は、シンプルな出現頻度とシンプルな貢献頻度値とを相関させ、基本的な重要度スコアを生成する。スキャッタプロットがこのデータを表示するのに使用される場合、最も高い出現頻度と最も高い貢献頻度とを有する重要なリソース128が、右から最も遠く上部に最も近く配置される。再び、後述される重要度計算関数842のすべての変形された実施例について、標準的で周知な統計的な重要度の指標が、ランキング関数845に適したk閾値情報を提供するのに利用される。必要に応じて、重要度計算関数842により利用可能な他の統計技術は、限定されるものでないが、出現頻度とシンプルな貢献との間のリニア(周知のピアソンr)相関、プロットデータの非リニア相関、ケンダールの一致係数などの非パラメトリック統計アプローチ、互いに対数的関係を有するデータの幾何平均の計算及び変数間の関係を測定するための他の周知な技術を含む。
一実施例では、ノード重要度スコアは、当該特定のノード(出願第11/273,568号の図1Cのアイテム180B)の貢献リソース128による貢献を受けるノード(出願第11/273,568号の図1Cのアイテム180B)の個数に対する出現頻度の比率、又はすべての貢献リソース128による貢献を受けるノード(出願第11/273,568号の図1Cのアイテム180B)の平均数に対する出現頻度の比率などの指標を使用することにより計算可能である。重要度計算関数842のスピードを向上させるため、ノード重要度スコアは確率により(0,1)又は(−1,1)で正規化することが可能であり、これにより、所与の貢献リソース128がアンサースペースに重要か否か迅速に判断できる。
他の実施例では、重要度計算関数842は、入力として相関(出願第11/273,568号の図1Bのアイテム155)をとるリンク解析関数842である。これは、ウェブグラフと比較して、相関関数110により生成される相関(出願第11/273,568号の図1Bのアイテム155)の間の差分を利用する。リンク解析関数としての重要度計算関数842は、アンサースペース128における各ノード(出願第11/273,568号の図1Cのアイテム180B)に対するリンクポピュラリティスコアを確定する。リンクポピュラリティスコアは、アンサースペース885の各ノード(出願第11/273,568号の図1Cのアイテム180B)との入りリンクの次数により決定される。その後、貢献リソース128による貢献を受けるすべてのノード(出願第11/273,568号の図1Cのアイテム180B)のポピュラリティスコア値が集計される。本実施例では、貢献リソース128による貢献を受けたすべてのノード(出願第11/273,568号の図1Cのアイテム180B)の集計されたポピュラリティスコアが、貢献リソース128に送信される。
一実施例では、リンク解析関数としての重要度計算関数842は、各ノード(出願第11/273,568号の図1Cのアイテム180B)に対する重要度スコアを確定する。この重要度スコアは、周知のKleinberg Hubs and Authorityアルゴリズムにより決定される。貢献リソース128による貢献を受けるすべてのノード(出願第11/273,568号の図1Cのアイテム180B)に対するHub又はAuthorityスコアがその後に集計される。本実施例では、貢献リソース128による貢献を受けたすべてのノード(出願第11/273,568号の図1Cのアイテム180B)の集計されたHub and Authorityスコアが貢献リソース128に送信される。一実施例では、重要度スコアは、PageRankアルゴリズムの周知のセカンドバージョンにより決定される。その後、貢献リソース128による貢献を受けるすべてのノード(出願第11/273,568号の図1Cのアイテム180B)のPageRankスコアが集計される。本実施例では、貢献リソース128による貢献を受けた全てのノード(出願第11/273,568号の図1Cのアイテム180B)の集計されたPageRankスコアが、貢献リソース128に送信される。
リソース重要度計算関数842の結果が、ソフトウェア関数、ランキング関数845、ソフトウェアプログラムコンポーネントによりランク付けされる。一実施例では、ランキング関数845は、ランキング関数845によりナンバー1のランクを与えられた重要度計算関数842により最も高い値を与えられた貢献リソース128によりシンプルな降順ソートを実現する。その他の貢献リソース128の通常のランクは、ソートされた重要度のリストにおける各自の相対的なポジションに基づき割り当てられる。重要度計算関数842が各貢献リソース128によりアンサースペース885について貢献を受けた各ノード(出願第11/273,568号の図1Cのアイテム180B)の個数に基づく統計関数であるとき、またランキング関数845がシンプルな降順ソートを実現するとき、ランキング関数は貢献によるランクと呼ばれる。重要度計算関数842が、各貢献リソース128によりアンサースペース885に対して貢献を受けたすべてのノード(出願第11/273,568号の図1Cのアイテム180B)の関連性スコアの合計を計算する統計関数であるとき、またランキング関数845がシンプルな降順ソートを実現するとき、ランキング関数は関連性によるランクと呼ばれる。重要度計算関数842が、各貢献リソース128によりアンサースペース885に対して貢献を受けたすべてのノード(出願第11/273,568号の図1Cのアイテム180B)のポピュラリティスコア、Hub and Authorityスコア又はPageRankスコアの合計を計算する統計関数であるとき、またランキング関数845がシンプルな降順ソートを実現するとき、ランキング関数は重要度によるランクと呼ばれる。
現在好適な実施例では、貢献リソース128の少なくとも2つのカテゴリがアンサースペース885に対してノード(出願第11/273,568号の図1Cのアイテム180B)に貢献する。貢献リソースの2つのカテゴリは、ここではトピックリソース及びリファレンスリソースと指定される。トピックリソースは、ノード(出願第11/273,568号の図1Cのアイテム180B)に、例えば、トリプルGLOBAL WARMING−AFFECTS−GLACIERSなどのトピックに対する明示的な参照を提供する。リファレンスリソースは、例えば、トリプルGLOBAL WARMING−IS−CLIMATE CHANGE又はGLOBAL WARMING−FROM−EMISSIONSなどのトピックリソースノード(出願第11/273,568号の図1Cのアイテム180B)をサポートする知識の基礎を提供するノード(出願第11/273,568号の図1Cのアイテム180B)を提供する。
一実施例では、サポートベクターマシーン(SVM)が、貢献リソースを分類及びランク付けするのに生成される。貢献リソース125の各分類の個数及び特性に応じて、SVM−RFE(SVM−Recursive Feature Elimination)及びR−SVM(Reduced−SVM)を含むSVMの変形が利用される。現在好適な実施例では、トピックリソース及びリファレンスリソースへの貢献リソース128の分類が要求される場合、貢献リソース128を分類及びランク付けするためのSVM処理のアプリケーションは、ガン細胞サンプルから健全な組織サンプルを特定するため診断分類手段として利用されるSVM処理と実質的に同一である。
現在好適な実施例では、相関関数110により構築又は発見された相関(出願第11/273,568号の図1Bのアイテム155)がユーザに表示可能である。この表示は、プレゼンテーションと呼ばれる。現在好適な実施例では、アンサースペース128のプレゼンテーションは、階層的ライアウト890を利用して実現される。現在好適な実施例では、階層的レイアウト890は、ソフトウェア関数、階層的レイアウト関数850、ソフトウェアプログラムコンポーネントを利用して生成される。階層的レイアウト関数850は、交差するエッジの個数と同一方向のグラフフローの大部分のエッジが最小化されるように、異なるレイヤのグラフのノードを割り当てる。現在好適な実施例では、階層的レイアウト関数850はSugiyamaレイアウトアルゴリズムを利用する。
本発明の各種実施例が詳細に説明されたが、以下の請求項に与えられるような本発明の範囲から逸脱することなく、上記実施例の改良及び適応が当業者に想到することは明らかである。
図1は、本発明の一特徴によるサーチエンジンの機能コンポーネントを示すブロック図である。 図2は、図1のプレサーチブロックのクロック図である。 図2Aは、本発明の一特徴によるキーワード、フレーズ、センテンス及びコンセプトに対する一例となる主題評価関数の一部のブロック図である。 図2Bは、本発明の一特徴によるシンプルなウェブクエリとコンパウンド、コンプレックス又はオーソゴナル主題の一例となる主題評価関数の残りの部分のブロック図である。 図2Cは、本発明の一特徴による一例となるトピック検出モジュールと関連するアダプタのブロック図である。 図2Dは、本発明の一特徴による問い合わせ生成関数のブロック図である。 図3は、出願第11/273,568号の図1Aのコピーである。 図4は、出願第11/273,568号の図1Bのコピーである。 図5は、出願第11/273,568号の図1Cのコピーである。 図6は、出願第11/273,568号の図2Aのコピーである。 図7は、出願第11/273,568号の図2Eのコピーである。 図8は、図1のポストサーチブロック120のブロック図である。

Claims (20)

  1. a.相関を利用するサーチプロセスと、
    b.ユーザにより提供された入力から前記サーチプロセスの入力を抽出し、前記サーチのための入力を前記サーチプロセスに提供する入力評価関数と、
    を有するサーチエンジン。
  2. 前記入力評価関数は、キーワード、フレーズ、センテンス、コンセプト、コンパウンド、コンプレックス若しくはオーソゴナル入力又はシンプルなウェブクエリから主題情報を抽出し、前記主題情報を前記サーチプロセスに転送する主題評価関数を有する、請求項1記載のサーチエンジン。
  3. 前記キーワード及びフレーズに対する主題評価関数は、パススルー関数から構成される、請求項2記載のサーチエンジン。
  4. 前記センテンスに対する主題評価関数は、自然言語パーサから構成される、請求項2記載のサーチエンジン。
  5. 前記コンセプトに対する主題評価関数は、主題、オブジェクト及び任意的にコンテクスト情報を有する、請求項2記載のサーチエンジン。
  6. 前記コンパウンド、コンプレックス又はオーソゴナル入力に対する主題評価関数は、クローズ認識関数と自然言語パーサとから構成される、請求項2記載のサーチエンジン。
  7. 前記シンプルなウェブクエリに対する主題評価関数は、フレーズ認識プロセスから構成される、請求項2記載のサーチエンジン。
  8. 前記入力は、デジタル情報オブジェクトから構成され、
    前記入力評価関数は、トピック検出モジュールアダプタとトピック検出モジュールとから構成される、請求項1記載のサーチエンジン。
  9. 前記トピック検出モジュールの出力を受け付ける自然言語パーサをさらに有する、請求項8記載のサーチエンジン。
  10. 前記入力は、クエリを定義する問い合わせ生成関数から構成される、請求項1記載のサーチエンジン。
  11. 前記問い合わせ生成関数は、問い合わせの静的なメニューを生成する、請求項10記載のサーチエンジン。
  12. 前記問い合わせ生成関数は、問い合わせの動的なメニューを生成する、請求項10記載のサーチエンジン。
  13. 前記クエリは、標準形式により提示される、請求項10記載のサーチエンジン。
  14. 前記サーチプロセスの出力は、アンサースペースに基づく、請求項1記載のサーチエンジン。
  15. 前記サーチプロセスの出力は、前記アンサースペースから特定されるリソースに強く関連付けされる、請求項14記載のサーチエンジン。
  16. 前記出力は、前記アンサースペースを生成するのに使用されるリソースにに強く関連付けされる、請求項14記載のサーチエンジン。
  17. 前記出力は、前記アンサースペースを生成するのに使用されるリソースを介しユーザ入力に一時的に関連付けされる、請求項14記載のサーチエンジン。
  18. 前記リソースの前記ユーザ入力に対する関連性は、アンサースペースの存在により保証される、請求項14記載のサーチエンジン。
  19. 関連性を確立するのに類似性指標を使用しない、請求項14記載のサーチエンジン。
  20. 前記サーチプロセスの出力は、ユーザへの提示順序を決定するため、ポストサーチプロセスに適用される、請求項1記載のサーチエンジン。
JP2008541146A 2005-11-14 2006-06-28 知識相関サーチエンジン Expired - Fee Related JP4864095B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US11/273,568 US8108389B2 (en) 2004-11-12 2005-11-14 Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US11/273,568 2005-11-14
US11/314,835 US8126890B2 (en) 2004-12-21 2005-12-21 Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US11/314,835 2005-12-21
PCT/US2006/025101 WO2007061451A1 (en) 2005-11-14 2006-06-28 A knowledge correlation search engine

Publications (2)

Publication Number Publication Date
JP2009528581A true JP2009528581A (ja) 2009-08-06
JP4864095B2 JP4864095B2 (ja) 2012-01-25

Family

ID=38067518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008541146A Expired - Fee Related JP4864095B2 (ja) 2005-11-14 2006-06-28 知識相関サーチエンジン

Country Status (4)

Country Link
EP (1) EP1974292A4 (ja)
JP (1) JP4864095B2 (ja)
CN (1) CN101310274B (ja)
WO (1) WO2007061451A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9104779B2 (en) * 2005-03-30 2015-08-11 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
CN102662923A (zh) * 2012-04-23 2012-09-12 天津大学 一种基于机器学习的本体实例学习方法
CN112650838B (zh) * 2020-12-31 2023-07-14 南京视察者智能科技有限公司 一种基于历史案件大数据的智能问答方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04252375A (ja) * 1991-01-28 1992-09-08 Nippon Telegr & Teleph Corp <Ntt> 情報提供方法
JPH10124522A (ja) * 1996-10-22 1998-05-15 Fujitsu Ltd 情報検索装置
JP2000112938A (ja) * 1998-10-08 2000-04-21 Canon Inc 自然言語処理装置及びその方法、及び自然言語認識装置
US20020059220A1 (en) * 2000-10-16 2002-05-16 Little Edwin Colby Intelligent computerized search engine
US20020152202A1 (en) * 2000-08-30 2002-10-17 Perro David J. Method and system for retrieving information using natural language queries
US20030050921A1 (en) * 2001-05-08 2003-03-13 Naoyuki Tokuda Probabilistic information retrieval based on differential latent semantic space
JP2003228580A (ja) * 2002-02-04 2003-08-15 Celestar Lexico-Sciences Inc 文献知識管理装置、文献知識管理方法、プログラム、および、記録媒体
US20030163302A1 (en) * 2002-02-27 2003-08-28 Hongfeng Yin Method and system of knowledge based search engine using text mining
JP2004021763A (ja) * 2002-06-19 2004-01-22 Hitachi Ltd テキストマイニングプログラム、方法、及び装置
US20050086212A1 (en) * 2003-09-23 2005-04-21 International Business Machines Corporation Method, apparatus and computer program for key word searching
JP2005258659A (ja) * 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> メタデータ生成装置
WO2006053306A2 (en) * 2004-11-12 2006-05-18 Make Sence, Inc Knowledge discovery by constructing correlations using concepts or terms
US20060167931A1 (en) * 2004-12-21 2006-07-27 Make Sense, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04252375A (ja) * 1991-01-28 1992-09-08 Nippon Telegr & Teleph Corp <Ntt> 情報提供方法
JPH10124522A (ja) * 1996-10-22 1998-05-15 Fujitsu Ltd 情報検索装置
JP2000112938A (ja) * 1998-10-08 2000-04-21 Canon Inc 自然言語処理装置及びその方法、及び自然言語認識装置
US20020152202A1 (en) * 2000-08-30 2002-10-17 Perro David J. Method and system for retrieving information using natural language queries
US20020059220A1 (en) * 2000-10-16 2002-05-16 Little Edwin Colby Intelligent computerized search engine
US20030050921A1 (en) * 2001-05-08 2003-03-13 Naoyuki Tokuda Probabilistic information retrieval based on differential latent semantic space
JP2003228580A (ja) * 2002-02-04 2003-08-15 Celestar Lexico-Sciences Inc 文献知識管理装置、文献知識管理方法、プログラム、および、記録媒体
US20030163302A1 (en) * 2002-02-27 2003-08-28 Hongfeng Yin Method and system of knowledge based search engine using text mining
JP2004021763A (ja) * 2002-06-19 2004-01-22 Hitachi Ltd テキストマイニングプログラム、方法、及び装置
US20050086212A1 (en) * 2003-09-23 2005-04-21 International Business Machines Corporation Method, apparatus and computer program for key word searching
JP2005258659A (ja) * 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> メタデータ生成装置
WO2006053306A2 (en) * 2004-11-12 2006-05-18 Make Sence, Inc Knowledge discovery by constructing correlations using concepts or terms
US20060253431A1 (en) * 2004-11-12 2006-11-09 Sense, Inc. Techniques for knowledge discovery by constructing knowledge correlations using terms
JP2008538016A (ja) * 2004-11-12 2008-10-02 メイク センス インコーポレイテッド 概念または項目を用いて知識相関を構成することによる知識発見技術
US20060167931A1 (en) * 2004-12-21 2006-07-27 Make Sense, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms

Also Published As

Publication number Publication date
JP4864095B2 (ja) 2012-01-25
EP1974292A4 (en) 2009-04-01
EP1974292A1 (en) 2008-10-01
CN101310274A (zh) 2008-11-19
WO2007061451A1 (en) 2007-05-31
CN101310274B (zh) 2013-04-17

Similar Documents

Publication Publication Date Title
US10496722B2 (en) Knowledge correlation search engine
US8140559B2 (en) Knowledge correlation search engine
Varma et al. IIIT Hyderabad at TAC 2009.
JP2013543172A (ja) 質問に対する解答を自動的に生成するための方法、システム、およびコンピュータ・プログラム
WO2007038713A2 (en) Search engine determining results based on probabilistic scoring of relevance
Dima Intui2: A Prototype System for Question Answering over Linked Data.
US11216520B2 (en) Knowledge correlation search engine
Karpagam et al. A framework for intelligent question answering system using semantic context-specific document clustering and Wordnet
Juan An effective similarity measurement for FAQ question answering system
JP4864095B2 (ja) 知識相関サーチエンジン
Zhang et al. An approach for named entity disambiguation with knowledge graph
Kalender et al. THINKER-entity linking system for Turkish language
Gelbukh et al. Multiword expressions in nlp: General survey and a special case of verb-noun constructions
Lin et al. A rule based open information extraction method using cascaded finite-state transducer
Vickers Ontology-based free-form query processing for the semantic web
Keyvanpour et al. A Useful Framework for Identification and Analysis of Different Query Expansion Approaches based on the Candidate Expansion Terms Extraction Methods.
Alashti et al. Parsisanj: an automatic component-based approach toward search engine evaluation
Zhang et al. Topic level disambiguation for weak queries
Maree et al. Coupling semantic and statistical techniques for dynamically enriching web ontologies
Vargas-Vera et al. AQUA: hybrid architecture for question answering services
Rajpal et al. A Novel Techinque For Ranking of Documents Using Semantic Similarity
Makker et al. Natural language to SQL
Kleb et al. Disambiguating entity references within an ontological model
Liu et al. Automatic short text annotation for question answering system
Nethravathi et al. Multisource keyword extraction and graph construction for privacy preservation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090528

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110126

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4864095

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees