JP2013077333A

JP2013077333A - 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア

Info

Publication number: JP2013077333A
Application number: JP2013011827A
Authority: JP
Inventors: Custis Tonya; カスティストーニャ; Al-Kofahi Khalid; アル−コファーヒハーリド
Original assignee: Thomson Reuters Global Resources ULC
Current assignee: Thomson Reuters Global Resources ULC
Priority date: 2006-12-29
Filing date: 2013-01-25
Publication date: 2013-04-25
Also published as: CA2674294A1; BRPI0720718A2; NZ578672A; JP2010515171A; CN101622618A; CA2674294C; EP2115638A1; US20090198674A1; WO2008083211A1; CN101622618B; AU2007339839A1; US8321425B2; AR064694A1; JP5379696B2

Abstract

【課題】概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェアの提供。
【解決手段】伝統的なキーワードに基づく検索エンジンを改善するために、本発明の発明者は、システム、方法、および単語共起確率を、ユーザクェリーに概念的に関係する文書を識別することのみでなく、検索結果の得点を算出しランク付けすることにも用いるソフトウェアを考案した。一つの例示的システムは、所与のクェリーを用いて、単語共起確率に基づいて、逆文書頻度検索を、そうでなければ見つけられないままであろう文書の発見に利用するために概念検索に結びつける。例示的システムは、また、キーワードマッチングおよび概念の存在の両方に基づく検索結果のランク付けを可能にし、検索結果のより効率的な組織化とレビューを推進する。
【選択図】図１

Description

（著作権告知と許可）
本願の一部は、著作権保護の対象となる資料を含んでいる。版権所有者は、米国特許庁の特許ファイルあるいは記録に現れる限りにおいて、特許出願文書あるいは特許開示のなにびとによるファクシミリ複製に異議は唱えないが、そうでない場合は版権等を留保する。以下の通知は、本文書にも適用する。
Ｃｏｐｙｒｉｇｈｔ（Ｃ）２００６、ＴｈｏｍｓｏｎＧｌｏｂａｌＲｅｓｏｕｃｅｓ（アイルランドの法律に基づいて設立された法人）
（関連出願の参照）
本願は、２００６年１２月２９日に出願された米国仮出願番号第６０／８７８，０１４号に基づく優先権を主張するものであり、全体として参照により本明細書中に援用される。
（技術分野）
本発明の種々の実施形態は、情報検索システムおよび関連するクエリー処理コンポーネントと方法に関するものである。

インターネットおよび他のコンピュータネットワークの人気の成長は、可用性の増加のみでなくコンピュータユーザ間のデジタル情報に対する欲求を活気づけた。ユーザは一般的に、オンライン情報検索システムと通信するために、コンピュータのようなアクセス装置を使用してこの情報へのアクセスを求める。情報検索システムは、一般に、情報に対するリクェストを入力し、クェリーとしてリモート検索エンジンへ登録するためのグラフィカルユーザインターフェイスを含む。検索エンジンは、一般には電子文書の形で関連ある情報を識別し、ユーザのアクセス装置に結果リストを返す。

本願の発明者により認識されている一つの問題は、クェリーとマッチング語を含む文書とを要求する典型的な検索エンジンの操作に関するものである。これは、少なくとも３つの理由に対して問題の多いものである。第一は、ユーザが、用語マッチングが区別に失敗する、そのクェリーとは異なる意味（あるいは意義）を意図したので、検索結果はクェリー用語を含むが意味のない文書を含む可能性がある。これは、最終的にユーザが、手動で最も関連する文書を求めて、意味のない結果をフィルタすることになる。

第二は、文書へのクェリー用語のマッチングに関する信頼が、ユーザによって入力された正確なクェリー用語を含んでいないので概念的に関連する文書を落とす結果になることもあり得る。伝統的な検索エンジンを使用するこれらの関連する文書の情報検索は、ユーザが、所与の概念に対する単語選択の多様性を尊重しよりよいクェリーを構築することを要求する。代わりとして、ユーザがこれらの価値のある文書なしで、検索を単純に実行してもよい。

そして、第三に、伝統的なキーワード検索エンジンは、関連する文書にクェリー用語の存在に基づいてこれらの文書の得点とランク付けを行う。これは、一致するクェリー用語を有する一部の文書や、一致しないが概念的に関連する用語が存在する一部の文書が所与のクェリーに対する実際の概念的関連性に与えられた望ましいランクよりも低くランクされる可能性があることを意味する。これらのエラー的な低いランク付けは、より関連のある文書への途中に、より低位の関連する文書を通してユーザを苦労させ、または、これらの文書のいくつかを完全に見渡すような苦労をさせる。

従って、発明者は、いかに情報検索システムがユーザクェリーを処理する方法をさらに改善する必要性を認識している。

このおよび／または他の必要性に取り組むために、本発明の発明者は、他の事項と共に、システム、方法、および単語共起確率を、ユーザクェリーに概念的に関係する文書を識別するのみでなく、検索結果の得点を算出しランク付けすることを用いるソフトウェアを発明した。一つの例示的システムは、所与のクェリーを用いて、単語共起確率に基づいて、逆文書頻度検索を、そうでなければ見つけられないままであろう文書の発見に利用するために概念検索に結びつける。例示システムは、また、より効率的な組織と検索結果のレビューを喚起しながら、キーワードマッチングおよび概念の存在の両方に基づく検索結果のランク付けを可能にする。
例えば、本願発明は以下の項目を提供する。
（項目１）
目的文書の組と、
該目的文書の一つ以上の組を、ユーザクェリーに基づいて結果文書として検索し、識別する手段であって、
検索し、識別するの該手段は、一つ以上の第一の文書を、単語共起確率の組に基づいて認識する手段を含み、該単語共起確率の組は、該目的文書の組とは異なる文書の組から抽出される、手段と
を含むシステム。
（項目２）
前記目的文書の一つ以上の組を検索し識別する前記手段は、一つ以上の第二の文書を、結果文書として、逆文書頻度情報に基づいて識別する手段と、該結果文書を、該逆文書頻度情報と前記単語共起確率の組とに基づいてランク付けする手段と
を含む、項目１に記載のシステム。
（項目３）
前記目的文書の組は、判例を含む、項目１に記載のシステム。
（項目４）
前記目的文書の組は、法人の電子メールを含む、項目１に記載のシステム。
（項目５）
クェリーを処理する方法であって、
逆文書頻度型の第一の検索エンジンを用いて、文書の第一の組を、クェリーに基づいて識別し、ランク付けすることと、
該文書の第一の組を含む文書の結果の組の関連性を、該第一の組とは異なる文書の第二の組から得られる単語共起確率に基づいてランク付けすることと、
該文書の結果の組の少なくとも一部分のリストを、関連性のランクの順に表示することと
を含む方法。
（項目６）
前記文書の結果の組は、単語共起確率に基づいて識別された文書を含む、項目５に記載の方法。
（項目７）
クェリーに応答して検索エンジンによって識別された検索結果の文書のランク付けされた組を提供することと、
単語共起確率に基づいて、検索結果の文書の該ランク付けされた一つ以上の組のランキングを調整することと、
検索結果の文書の該調整されたランク付けされた組を表示することと
を含む方法。
（項目８）
前記検索エンジンは、逆文書頻度型の検索エンジンである、項目７に記載の方法。

図１は、本発明の一つ以上の実施形態に対応する情報検索システム１００の例示である。図２は、本発明の一つ以上の実施形態に対応するオペレーティングシステム１００の例示的方法のフローチャートの図である。

本明細書は、発明の一つ以上の特定の実施形態を開示する。限定するためではなく本発明の例示と教示のために提供されるこれらの実施形態が、当業者が本発明を実装あるいは実施できるように十分な詳細として示されそして記述される。従って、本発明があいまいになるのを適切に避けるために、当業者に公知のいくつかの情報は省くことがある。
（概念）
例示のシステムでは、ユーザクェリーに概念的に関連する文書を識別するベースとして単語の対の間の「翻訳」確率を用いる。「翻訳」確率は、一つの単語が他の単語に翻訳され得る確率である。これは、一つの言語から他の言語に翻訳するとき、把握するのが容易である。例えば、フランス語の「ｐｏｍｍｅ」が英語の「ａｐｐｌｅ」に翻訳される確率は高く、「ｐｏｍｍｅ」が「ｓｏｃｋ」に翻訳される確率はほぼゼロである。

例示の実施形態では、「翻訳」確率は、単一言語であり、同義語および他の単語間の関連語義を捕らえることができる。２つの単語がこれらの意味において関連が強いほど、翻訳確率はより高くなる。例えば、「ｌａｗｙｅｒ」と「ａｔｔｏｒｎｅｙ」は互換性のある同義語であり、従って、それらの翻訳確率は高い。他の例として、ｆｏｏｔｂａｌｌ、ＮＦＬ、ｑｕａｒｔｅｒｂａｃｋ、ｃｏａｃｈ等の単語間の相関が考えられる。これらは、同義語ではないが、語義において関連しており、従って、ある種の測定可能な翻訳確率を有する。

例示の実施形態において、翻訳確率は単語の共起性データから得られる。共起単語の対に対する情報は、語義（概念的）関係を統計的に捉えることに使用される。例示の実装では、特定の単語（単語Ｘ）を表す「概念」は、共起性データの単語Ｘと共起する全ての単語と同等であるとして扱われる。単語Ｘと対になるより多くの単語が文書内にあればあるほど、より多くの証拠が単語Ｘの概念が文書中で議論されているとの認識に与えられる。そのような証拠は、さらに、単語Ｘがクェリー用語であるときに（単語Ｘが文書に現れるかどうかによらずに）より高い文書得点につながる。

共起性データから得られる翻訳確率の使用は、検索アルゴリズムが語義的にユーザのクェリー用語に関連する単語（例えば、高い翻訳確率）を含む文書を返すことを可能にする。このため、実際のクェリー単語は、関連ある結果として返される文書としての文書中にある必要はない。例えば、ｌａｗｙｅｒの検索において、単語ｌａｗｙｅｒを含まないが単語ａｔｔｏｒｎｅｙ、ｔｒｉａｌ、ｆｅｅｓ、および／またはｊｕｄｇｅを含む文書が関連する文書として検索され得る。

他の例では、キーワードベースの検索においてクェリー「ホットコーヒー」が用語「ホット」は含むが用語「コーヒー」が省かれているような文書を見つけることに失敗する。しかしながら、例示の実施形態はこのクェリーを効率的に個別のクェリー用語の周囲のウィンドウの中で共起する全ての単語を網羅するように幅広く概念化する。これは、「ホット」（下線付き）、「コーヒー」（太字）、または、「ホット」と「コーヒー」の双方共に（太字かつ下線付き）に統計的に関連する他の示された用語の存在に基づいて、文書の検索を可能にする。クェリー用語「ホット」は二重下線で示されている。

共起性データからの概念の導出よりも、ドメイン専門家に手作業によって概念を構築させることを考えるかも知れない。手作業による概念の構築は難しく、時間の浪費であり、主観的作業である。さらに、一つのドメインのための手仕上げの概念は、他へは持ち越せない可能性がある。共起性を通して概念を統計的に獲得することにより、主観を作業外に押しやりながら、ドメインが自動的に獲得され得る。

この新規な形態の概念検索のアプリケーションは、数値的なものである。法律のドメインでは、概念検索は電子証拠開示手続で、訴訟事件に関連する全ての文書を見出すことが重要な場合に有益な道具である。一般には、概念検索は、ユーザが探している領域で専門家でない場合と同様に、ユーザが何かに対する技術的なあるいは特定の用語を知らない場合に有益であろう。
（情報検索システムの例）
図１は、例示的なオンライン情報検索システム１００を示している。システム１００は、一つ以上のデータベース１１０、一つ以上のサーバ１２０と一つ以上のアクセス装置１３０を含む。

（データベースの例）
データベース１１０は、一つ以上のデータベースの組を含む。例示的な法律データベースは、判例データベースと法規データベースを含み、それぞれ、判決の見解と一つ以上の地方、州、連邦および／または国際裁判からの法令を含む。例示の法律データベースは、また、法律分類データベースと法律レビューとを含む。他の例示データベースは、弁護士、判事、法律事務所、製品および会社プロファイルを含む。いくつかの実施形態では、判例文書がデータ構造を介して、他のデータベースの文書またはプロファイルに論理的に関連付けられる。他の実施形態は、財務的、科学的、あるいはヘルスケア情報を含む非法律データベースを含み得る。さらに、他の実施形態は、ＩＮＦＯＴＲＡＣを通じて利用可能になるような公的なあるいは民間のデータベースを提供する。いくつかの実施形態では、インターネット検索を可能にし、従って、ウェブサイトおよびウェブページを包含し、他の実施形態は、ユーザが、例えば、電子メール文書や電子証拠開示手続に準ずる文書データベースのような、自身のデータベースを定めることを可能にする。

一つ以上の電子的、磁気的または光学的データ格納装置の例の形を取るデータベース１１０は、それぞれの指標（示されない）を含むか、そうでなければ、指標に関連付けられている。それぞれの指標は、対応する文書アドレスに関連付けられた用語およびフレーズ、識別子および他の従来の情報を含む。データベース１１０は、ローカル、ワイド、プライベートあるいは擬似プライベートネットワークのような無線あるいは有線の通信ネットワークを介して、サーバ１２０に結合されるか、または、結合可能である。

（サーバの例）
一般に、ウェブページあるいは他のマークアップ言語の形式のデータに役立つ一つ以上のサーバを表すサーバ１２０は、関連するアプレット、ＡｃｔｉｖｅＸ制御、遠隔起動オブジェクト、あるいは他の関連するソフトウェアおよび種々の「厚さ」のサービスクライアントに対するデータ構造と共に構成する。より詳しくは、サーバ１２０は、プロセッサモジュール１２１、メモリモジュール１２２、契約者データベース１２３、一次検索モジュール１２４、概念検索モジュール１２５およびユーザインターフェイスモジュール１２６を含む。

プロセッサモジュール１２１は、一つ以上のローカルなあるいは分散されたプロセッサ、コントローラあるいは仮想マシンを含む。例示的実施形態では、プロセッサモジュール１２１は、任意の便利なあるいは望ましい形式をとる。

一つ以上の電子的、磁気的または光学的データ格納装置の例の形を取るメモリモジュール１２２は、契約者データベース１２３、一次検索モジュール１２４、概念検索モジュール１２５およびユーザインターフェイス１２６を格納する。

契約者データベース１２３は、制御し、運営することおよび従量制あるいは会費制のデータベース１１０のアクセスを管理するのための契約者関連データベースを含む。例示の実施形態では、契約者データベース１２３は一つ以上の選択優先性データ構造を含み、そのデータ構造１２３１は、代表である。データ構造１２２１は、顧客あるいはユーザ識別子部分１２３１Ａを含み、論理的に選択優先性１２３１Ｂ、１２３１Ｃおよび１２３１Ｄのような一つ以上の概念検索あるいは表示の選択優先性に関連付けられている。選択優先性１２３１Ｂは、概念検索が有効になっているか無効になっているかを統制するデフォルト値を含む。選択優先性１２３１Ｃは、概念検索がなかったら検索されなかったであろう文書が、フラッグされているか、あるいは別のタブまたはフォルダに表示されているような検索結果の表示を統制するデフォルト値を含む。選択優先性１２３１Ｄは、概念検索が検索結果の関連性計算に影響を与えることが可能か否か、あるいはどの程度影響するかを統制するデフォルト値を含む。（例えば、特定のクェリーあるいはセッションの間のオーバーライドのような、一時的なユーザのオーバーライドがなければ、概念検索のデフォルト値が統制する。）
一次検索モジュール１２４は、一つ以上の検索エンジンと、一つ以上のデータベース１１０に対するユーザクェリーを受信しかつ処理するための関連するユーザインターフェイスコンポーネントを含む。例示の実施形態では、検索モジュール１２４に関連する一つ以上の検索エンジンが、Ｂｏｏｌｅａｎ、ｔｒ−ｉｄｆ、自然言語検索性能を提供する。

概念検索モジュール１２５は、一つ以上の概念検索エンジンを含む。本明細書に記述されている一つ以上のデータベースモジュール１１０に対する概念検索技術を用いてクェリーを受信し処理する。いくつかの実施形態は、概念検索による文書検索および／またはのアクセスに対して、別のあるいは追加の料金を賦課する。特に、概念検索モジュール１２５は、概念検索データ１２５１と概念検索エンジン１２５２とを含む。

概念検索データ１２５１は、語義の（概念の）関係をインプリシットに獲得するために、文書中の共起単語の対に関する一つ以上の組の統計データを含む。共起対についての統計は、例示の情報検索アルゴリズムの中で直接使用される例示の実施形態における、既存のスタンドアロンの概念を既存の検索機構と結びつけるいかなる必要も回避する。

より詳細には、概念検索データ１２５１は、文書のコーパス（「母集団」）からの単語の共起確率１２５１Ａと、標的の文書集団（データベース１１０）に対する共起確率の指標１２５１Ａとを含む。

例示の実施形態において、共起確率１２５１Ａは、目的文書集団に依存しない概念安定性を推進するために、目的文書集団でなく個別のソースから決定される。例えば、法律ドメインにおいて、この母集団は２千万の頭書文書を含む。頭書は、例示の実施形態においては、判例文書に対して人的編集者によって手動で決められるが、いくつかの実施形態は機械文書概要、百科事典の参照等を使用する。例示のニュースドメインに対しては、別個の母集団つまりコーパスが９００，０００の文書を網羅する。（一般に、共起性データのベースとして使用されるコーパスは、文書の用語数において目的データベースよりも大きいと現在は信じられている。しかしながら、例えば、まれな単語の密度に基づく、文書のより小さいより情報的に高密度の組もまた有益であると推測される。）
単語の対は、次のような方法でコーパスから構築される。
停止単語が除かれ、その後、各単語は、その両側で５単語の距離までの他の全ての単語（それ自身を含む）と対にされ、単語当り１１単語対をもたらす。単語対は、例示実施形態では順不問（すなわち、Ｘ＿Ｙ＝Ｙ＿Ｘ）である。（しかしながら、いくつかの実施形態は順序付けられた単語対を使用し得る。）さらに、例示の実施形態は、８文字で単語対の単語の頭を切り、単語対データに対するある量の平滑化を提供する。

各単語対は一つ以上の頻度計数に関連付けられる。各単語は、また、それ自身と対にされるので、計数は単一用語に対しても維持される。コーパスの単語対に対するこれらの頻度計数を使用して、例示実施形態は共起確率を決定する。特に、これは、次の最尤値（ＭＬＥ）の計算を必要とする。

これらは、言語モデルの概念検索コンポーネントで使用される（非平滑化の）確率推定値であり、式中では、Ｐ（ｑ｜ｄ）として示される。これらの確率は、ｑおよびｄが共起しそうな程度を定量化することを可能にする。全ての要素ｄ∈Ｄを集計して、特定の文書中の用語とｑとの間の全ての共起は、ｑと共起関係に入る全ての単語によって表されるような、その文書中の概念ｑの証拠を提供する。関連用語（つまり、単語対）は、常に専門家が手作業で概念を定義するときに取り上げるような単語とは限らないので、単語対（より一般には、単語ｎ−ｇｒａｍ）は統計の共起性を通して暗黙のうちに「概念」を獲得する。

指標１２５１Ｂは、コーパスに対して決定される共起確率に基づいている。例えばデータベース１１０の一つ以上の部分のように、目的文書集団は、確率Ｐ（ｗ｜Ｄ）によって指標化される。希薄さと戦うために、これらの確率は全体の集団に対して、次式で計算されるＪｅｌｉｎｅｋ−Ｍｅｒｃｅｒ平滑化を用いて平滑化される。

平滑化に対するラムダλの値は、各集団に対して経験的に設定され、集団中の文書の長さと集団のサイズのような要因に影響される。

概念検索エンジン１２５２は、ユーザクェリー用語との概念関係に基づいて、データベース１１０からの文書を識別する。例示実施形態では、これは、キーワード検索を概念検索データ１２４１中の共起確率と結合することを必要とし、情報検索のためと統計的機械翻訳とからの言語モデリング技術を使用する。キーワードベースの言語モデリングの情報検索へのアプローチにおいて、各文書は、クェリー単語（ｑ）が文書（Ｄ）に現れる確率（Ｐ）に基づいて得点される。Ｐ（ｑ｜Ｄ）≒Ｄでｑが起きる回数をＤの長さで除した値。このキーワードモデルでは、文書は次の式に従って得点される。

ここで、Ｑは全体のクェリーを表す。検索結果は一般に、最高得点を最初にした順でユーザに返される。一方、統計的機械翻訳の言語モデリング技術では、得点は「翻訳」確率Ｐ（ｑ｜ｄ）、つまり、文書中の単語がクェリー単語であると解釈され得る確率に基づく。しかしながら、文書中の単語を文字通りに「翻訳」する代わりに、例示実施形態は、幅広い目的に関して翻訳するために概念的な近さの測度として、単語対共起確率を用いる。

これらの２つの方法を新規な混成モデルに結合して、例示実施形態は次式に従って文書の得点を算出する。

ここで、

は、情報検索に対するキーワード型の言語モデルを表す。

は、Ｂｅｒｇｅｒ＆Ｌａｆｆｅｒｔｙの言語翻訳モデル（１９９９年）を表し、λ_１およびλ_２は、２つの検索コンポーネント上の重み付け因子を表す。例示実施形態は、キーワード検索および概念検索コンポーネントを等しく０．５に重み付けする。しかしながら、λ_１およびλ_２の値を変更することによって（λ_１＋λ_２＝１の制約の下で）、いずれかのコンポーネントが大きい重み付けを与えられることができる。

つまり、例示的概念検索は、キーワード検索を共起確率に結び付け、キーワード的にも概念的にもユーザのクェリーに意味のある文書の検索を可能にする。このアプローチにおいて、以下のことを理解し得る：
共起対の使用はリコールを強化し、より関連ある文書が、全ての関連ある文書に対する関係で検索されることを可能にする；
キーワード型の言語モデルの使用は、高い正確さを有している；
モデルは、リコールと正確さを最大にするように、コンポーネントを異なる「重み付け」することを可能にするので、柔軟性がある。

いくつかの実施形態は、クェリー依存性を活用し、クェリー自体がユーザが捜している概念を表すことを認識する。特に、このアプローチのある実施形態は、単語対を使用するクェリー単語間の依存性をモデル化し、それによって、概念的情報を獲得する。従って、クェリーを単一のクェリー用語にする代わりに、例示実施形態は、クエリーをクェリーの中に含まれる全ての可能な単語対として表す。例えば、クェリー「大きな赤い風船」は、次のクェリー単語対をもたらす：大きい＿大きい、赤い＿赤い、風船＿風船、大きい＿赤い、大きい＿風船、赤い＿風船。
単語対に対して、文書得点は、次のように定義される。

ここで、Ｐ（ｑ１｜ｄ）＋Ｐ（ｑ２｜ｄ）は、Ｐ（ｑ１｜ｄ）およびＰ（ｑ２｜ｄ）の両方がゼロでない場合に限り評価される。例示実施形態は１文書用語に２用語対が与えられる（Ｐ（ｗ１＿ｗ２｜ｄ））に対する確率を欠いているので、これらをオンザフライで、その文書用語に対する２用語中の両方の単語の共起確率に依存する得点式の概念検索部分を作成することによって、概算する。クェリー単語の２用語ｑ１＿ｑ２に対して、例示実施形態は共起確率Ｐ（ｑ１｜ｄ）およびＰ（ｑ２｜ｄ）を一緒に加えて、その後、Ｐ（ｑ１｜ｄ）およびＰ（ｑ２｜ｄ）の両方が存在する各文書用語に対してＰ（ｄ｜Ｄ）を乗ずる。Ｐ（ｑ１｜ｄ）あるいはＰ（ｑ２｜ｄ）のいずれかが存在しない場合、Ｐ（ｑ１｜ｄ）＋Ｐ（ｑ２｜ｄ）はゼロに等しく設定される。ユ二グラム（ｕｎｉｇｒａｍ）の概念検索言語モデルとして、λ１およびλ２の両方が０．５に設定され、それによって、キーワード検索および概念検索のコンポーネントを等しく重み付ける。

いくつかの実施形態は、概念コンポーネントを他の形式の関連性指標で置き換えるか補う式４あるいは式６の修正版を用いる。例えば、一つのそのような実施形態は、文書に対する利用統計に基づく関連性因子を追加する。そのような統計は、同様なクェリーに対する、文書に対する印刷、電子メール、あるいはクリックスルーの頻度；文書に対するユーザの探求あるいは評価の日；および／または文書に対する引用統計に基づく。これらの因子は、ラムダ因子の合計が１であるという制限の下で、ラムダ因子によって重み付けされ得る。

ユーザインターフェイスモジュール１２６は、アクセス装置１３０のような一つ以上のアクセス装置の無線あるいは有線通信ネットワーク上で、検索インターフェイス１２６１および結果インターフェイス１２６２のような、機械読み取り可能な、および／または、ウェブ型のユーザインターフェイスを全体的にまたは部分的に規定実行可能な命令セットを含む。

（アクセス装置の例）
アクセス装置１３０は、一般に一つ以上のアクセス装置を表す。例示の実施形態では、アクセス装置１３０は、パーソナルコンピュータ、ワークステーション、パーソナルデジタルアシスタント、携帯電話、あるいは、サーバまたはデータベースとの効果的なユーザインターフェイスを提供できる他の任意の装置の形式を取る。特に、アクセス装置１３０は、プロセッサモジュール１３１（一つ以上のプロセッサ（あるいは処理回路）１３１）、メモリ１３２、ディスプレイ１３３、キーボード１３４、およびグラフィカルポインタまたはセレクタ１３５を含む。

プロセッサモジュール１３１は、一つ以上のプロセッサ、処理回路あるいはコントローラを含む。例示実施形態では、プロセッサモジュール１３１は任意の便利なあるいは望ましい形式を取る。プロセッサモジュール１３１には、メモリ１３２が結合される。

メモリ１３２は、オペレーティングシステム１３６、ブラウザ１３７、およびグラフィカルユーザインターフェイス（ＧＵＩ）１３８に対するコード（機械読み取り可能あるいは実行可能な命令）を格納する。例示実施形態では、オペレーティングシステム１３６は、マイクロソフトＷｉｎｄｏｗｓ（登録商標）オペレーティングシステムのあるバージョンの形式を取り、そして、ブラウザ１３７は、マイクロソフトＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒのあるバージョンの形式を取る。オペレーティングシステム１３６およびブラウザ１３７はキーボード１３４およびセレクタ１３５からの入力を受けるだけでなく、ディスプレイ１３３上へのＧＵＩ１３８の表示をサポートする。表示の際、ＧＵＩ１３８は一つ以上の対話式制御機構（つまり、ユーザインターフェイス要素）に関連するデータを例示する。（例示実施形態は、サーバ１２０からのアプレットや他のプログラム可能なオブジェクトあるいは構造を用いて、上に示したあるいは本明細書の他の部分に記載したインターフェイスを実装するために、インターフェイス１３８の一つ以上の部分を定義する。）
例示実施形態では、これらの制御機構は、ハイパーリンクまたは他のブラウザ互換のコマンド入力の形式を取り、クェリー領域１３８１および検索結果領域１３８２へのアクセスと制御を提供する。領域１３８２での制御機構のユーザの選択、特に、テキスト形式のクェリーの入力フィールド１３８１Ａへの入力および、サブミットボタン１３８１Ｂの始動を介してのサーバ１２０へのクェリーのサブミットは、結果領域１３８２内の検索結果リスト１３８２Ａの表示をもたらす。リスト１３８２Ａからのリストされた文書の選択は、インターフェイス１３８（図には示されない）の領域内で、対応する文書の少なくとも一部分の検索と表示の結果をもたらす。図１は領域１３８１および１３８２を同時に表示されているとして示すが、いくつかの実施形態は別々の時刻にそれらを表示する。インターフェイスの他の機能的な局面は、以下に記述される。

（操作方法の例）
図２は、システム１００のようなシステムを操作する一つ以上の例示的方法のフローチャート２００を示す。フローチャート２００は、例示実施形態の中で逐次実行シーケンスに編成され記載される複数のブロック２１０〜２４０を含む。しかしながら、他の実施形態が、マルチプロセッサあるいはプロセッサ様のデバイスあるいは、２つ以上の仮想マシンまたはサブプロセッサとして構成された単一のプロセッサを用いて、２つ以上のブロックを平行して実行する。他の実施形態もまた、類似の結果を達成するために、処理シーケンスを変更するか、あるいは異なる機能の区分を提供する。例えば、いくつかの実施形態はサーバ側に示されてかつ記述された機能を全体としてあるいは一部としてクライアント側に、およびその逆に実装されるように、機能のクライアント−サーバ割当てを変更する。さらに、他の実施形態は、ブロックをモジュール間あるいはモジュールを通じて通信される関連制御信号およびデータ信号を伴う、２つ以上の接続されたハードウェアモジュールとして実装する。このように、例示的処理フローは、ソフトウェア、ハードウェアおよびファームウェアの実装に適用する。

方法は、ブロック２１０でクェリーをユーザから受け取ることで始まる。例示実施形態では、これは、ユーザがアクセス装置１３０のブラウザ性能を用いてオンラインの情報検索システム１００にアクセスすること、具体的にはサーバ１２０が従来のログイン処理を用いること、を必要とする。ひとたびログインされると、ユーザインターフェイス１３８のようなユーザインターフェイスが表示され、ユーザがクェリーを定義し、サーバ１２０にサブミットすることを可能にする。実行はブロック２２０に進む。

ブロック２２０は、従来のキーワードあるいは自然言語の検索エンジンにおいて、受信されたクェリーを使用して、文書の組からの１つ以上の文書のランク付けられた結果の組を定義することを必要とする。例示実施形態では、これは検索データベース１１０、例えば、法律、科学あるいは特許データベース、が文書の組を、ｔｆ−ｉｄｆ型の検索エンジンを用いて、受信されたクェリーへの関連性に基づいて識別し、ランク付けすることを必要とする。実行はブロック２３０に進む。

ブロック２３０は、受信されたクェリーとの概念的なあるいは語義的な関係に基づいて、結果の組を修正することを必要とする。最初の実施形態では、これは、受信されたクェリーの全てのあるいは１つ以上の部分との概念的関係に排他的に基づいて文書の組を識別することを必要とする。これは、クェリーを全ての可能なｎ−ｇｒａｍ、例えば、１−ｇｒａｍあるいは２−ｇｒａｍ（２用語）に構文解析することと、クェリーの用語と共起する用語とを含む十分に高い確率を有する文書の組を識別するために、これらのｎ−ｇｒａｍを使用することとを必要とする。この実施形態では、２用語内の各用語は、８文字に頭切りされる。これらの識別された文書は、その後、修正された結果の組を定義するために、ランク付けられた結果の組と結合される。修正された結果の組は、その後、単一のクェリー用語あるいは２用語が使われているかに依存して、式４あるいは式６に従って得点計算されランク付けされる。

第二の実施形態では、概念あるいは語義的な関係に基づく更なる検索は行われず、式４あるいは式６に従って結果の組は単純に得点計算され再ランク付けされる。いくつかの実施形態は、単にクェリーと、サードパーティからの結果の組とを受信して、式２および／または式５を用いて用語を再ランク付けする場合がある。実行はその後ブロック２４０に進む。

ブロック２４０では、修正された検索結果がユーザに表示される。例示の実施形態では、これは、ハイパーリンクのリストを定めることと、例えば、システム１００のアクセス装置１３０のディスプレイのような、ユーザに関連するディスプレイに表示することとを必要とする。いくつかの実施形態では、概念検索のみで識別される文書、つまり、クェリー用語のどれかを欠いている文書は、関連する文書のリコールの改善において、概念検索の値を強調するために、フォントの違いおよび／または隣接シンボルによりフラグされる。他の実施形態は、マッチングキーワードおよび概念を含む文書に対するフラグを提供し、あるいは、改善されたリコールを推進する手段として文書との関連性を表示する。さらに、他の実施形態は、例えば、個別のフォルダあるいはタブを提供することによって、キーワード検索に基づくだけで発見された文書から、マッチングキーワードに基づき発見された文書の分離を可能にする制御機能を備えたリストを表示し得る。別の実施形態は、ユーザが、無関係の可能性のある文書、つまり、逐語的にはクェリー用語を満たしているにも拘わらずクェリーに対する概念的な関連性の低い確率を有する文書を遮断するあるいはフラグを立てる制御機構を選択的に呼び出すことを可能にする。これらの文書は、統計的にクェリー用語と高い確率で共起する用語の欠落を基に識別される。

（結論）
上で記述された実施形態は、本発明の一つ以上の実施あるいは実装を例示することと教示することとのみを意図しており、その幅あるいは範囲を制限することを意図するものではない。本発明の教示を実施するあるいは実装する全ての方法を包含する本発明の実際の範囲は、公表される特許請求の範囲およびそれらの均等物によってのみ定義される。

Claims

本願明細書に記載された発明。