JP2013077333A - 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア - Google Patents

概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア Download PDF

Info

Publication number
JP2013077333A
JP2013077333A JP2013011827A JP2013011827A JP2013077333A JP 2013077333 A JP2013077333 A JP 2013077333A JP 2013011827 A JP2013011827 A JP 2013011827A JP 2013011827 A JP2013011827 A JP 2013011827A JP 2013077333 A JP2013077333 A JP 2013077333A
Authority
JP
Japan
Prior art keywords
concept
retrieval
document
query
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2013011827A
Other languages
English (en)
Inventor
Custis Tonya
カスティス トーニャ
Al-Kofahi Khalid
アル−コファーヒ ハーリド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Reuters Global Resources ULC
Original Assignee
Thomson Reuters Global Resources ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Reuters Global Resources ULC filed Critical Thomson Reuters Global Resources ULC
Publication of JP2013077333A publication Critical patent/JP2013077333A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェアの提供。
【解決手段】伝統的なキーワードに基づく検索エンジンを改善するために、本発明の発明者は、システム、方法、および単語共起確率を、ユーザクェリーに概念的に関係する文書を識別することのみでなく、検索結果の得点を算出しランク付けすることにも用いるソフトウェアを考案した。一つの例示的システムは、所与のクェリーを用いて、単語共起確率に基づいて、逆文書頻度検索を、そうでなければ見つけられないままであろう文書の発見に利用するために概念検索に結びつける。例示的システムは、また、キーワードマッチングおよび概念の存在の両方に基づく検索結果のランク付けを可能にし、検索結果のより効率的な組織化とレビューを推進する。
【選択図】図1

Description

(著作権告知と許可)
本願の一部は、著作権保護の対象となる資料を含んでいる。版権所有者は、米国特許庁の特許ファイルあるいは記録に現れる限りにおいて、特許出願文書あるいは特許開示のなにびとによるファクシミリ複製に異議は唱えないが、そうでない場合は版権等を留保する。以下の通知は、本文書にも適用する。
Copyright(C)2006、Thomson Global Resouces(アイルランドの法律に基づいて設立された法人)
(関連出願の参照)
本願は、2006年12月29日に出願された米国仮出願番号第60/878,014号に基づく優先権を主張するものであり、全体として参照により本明細書中に援用される。
(技術分野)
本発明の種々の実施形態は、情報検索システムおよび関連するクエリー処理コンポーネントと方法に関するものである。
インターネットおよび他のコンピュータネットワークの人気の成長は、可用性の増加のみでなくコンピュータユーザ間のデジタル情報に対する欲求を活気づけた。ユーザは一般的に、オンライン情報検索システムと通信するために、コンピュータのようなアクセス装置を使用してこの情報へのアクセスを求める。情報検索システムは、一般に、情報に対するリクェストを入力し、クェリーとしてリモート検索エンジンへ登録するためのグラフィカルユーザインターフェイスを含む。検索エンジンは、一般には電子文書の形で関連ある情報を識別し、ユーザのアクセス装置に結果リストを返す。
本願の発明者により認識されている一つの問題は、クェリーとマッチング語を含む文書とを要求する典型的な検索エンジンの操作に関するものである。これは、少なくとも3つの理由に対して問題の多いものである。第一は、ユーザが、用語マッチングが区別に失敗する、そのクェリーとは異なる意味(あるいは意義)を意図したので、検索結果はクェリー用語を含むが意味のない文書を含む可能性がある。これは、最終的にユーザが、手動で最も関連する文書を求めて、意味のない結果をフィルタすることになる。
第二は、文書へのクェリー用語のマッチングに関する信頼が、ユーザによって入力された正確なクェリー用語を含んでいないので概念的に関連する文書を落とす結果になることもあり得る。伝統的な検索エンジンを使用するこれらの関連する文書の情報検索は、ユーザが、所与の概念に対する単語選択の多様性を尊重しよりよいクェリーを構築することを要求する。代わりとして、ユーザがこれらの価値のある文書なしで、検索を単純に実行してもよい。
そして、第三に、伝統的なキーワード検索エンジンは、関連する文書にクェリー用語の存在に基づいてこれらの文書の得点とランク付けを行う。これは、一致するクェリー用語を有する一部の文書や、一致しないが概念的に関連する用語が存在する一部の文書が所与のクェリーに対する実際の概念的関連性に与えられた望ましいランクよりも低くランクされる可能性があることを意味する。これらのエラー的な低いランク付けは、より関連のある文書への途中に、より低位の関連する文書を通してユーザを苦労させ、または、これらの文書のいくつかを完全に見渡すような苦労をさせる。
従って、発明者は、いかに情報検索システムがユーザクェリーを処理する方法をさらに改善する必要性を認識している。
このおよび/または他の必要性に取り組むために、本発明の発明者は、他の事項と共に、システム、方法、および単語共起確率を、ユーザクェリーに概念的に関係する文書を識別するのみでなく、検索結果の得点を算出しランク付けすることを用いるソフトウェアを発明した。一つの例示的システムは、所与のクェリーを用いて、単語共起確率に基づいて、逆文書頻度検索を、そうでなければ見つけられないままであろう文書の発見に利用するために概念検索に結びつける。例示システムは、また、より効率的な組織と検索結果のレビューを喚起しながら、キーワードマッチングおよび概念の存在の両方に基づく検索結果のランク付けを可能にする。
例えば、本願発明は以下の項目を提供する。
(項目1)
目的文書の組と、
該目的文書の一つ以上の組を、ユーザクェリーに基づいて結果文書として検索し、識別する手段であって、
検索し、識別するの該手段は、一つ以上の第一の文書を、単語共起確率の組に基づいて認識する手段を含み、該単語共起確率の組は、該目的文書の組とは異なる文書の組から抽出される、手段と
を含むシステム。
(項目2)
前記目的文書の一つ以上の組を検索し識別する前記手段は、一つ以上の第二の文書を、結果文書として、逆文書頻度情報に基づいて識別する手段と、該結果文書を、該逆文書頻度情報と前記単語共起確率の組とに基づいてランク付けする手段と
を含む、項目1に記載のシステム。
(項目3)
前記目的文書の組は、判例を含む、項目1に記載のシステム。
(項目4)
前記目的文書の組は、法人の電子メールを含む、項目1に記載のシステム。
(項目5)
クェリーを処理する方法であって、
逆文書頻度型の第一の検索エンジンを用いて、文書の第一の組を、クェリーに基づいて識別し、ランク付けすることと、
該文書の第一の組を含む文書の結果の組の関連性を、該第一の組とは異なる文書の第二の組から得られる単語共起確率に基づいてランク付けすることと、
該文書の結果の組の少なくとも一部分のリストを、関連性のランクの順に表示することと
を含む方法。
(項目6)
前記文書の結果の組は、単語共起確率に基づいて識別された文書を含む、項目5に記載の方法。
(項目7)
クェリーに応答して検索エンジンによって識別された検索結果の文書のランク付けされた組を提供することと、
単語共起確率に基づいて、検索結果の文書の該ランク付けされた一つ以上の組のランキングを調整することと、
検索結果の文書の該調整されたランク付けされた組を表示することと
を含む方法。
(項目8)
前記検索エンジンは、逆文書頻度型の検索エンジンである、項目7に記載の方法。
図1は、本発明の一つ以上の実施形態に対応する情報検索システム100の例示である。 図2は、本発明の一つ以上の実施形態に対応するオペレーティングシステム100の例示的方法のフローチャートの図である。
本明細書は、発明の一つ以上の特定の実施形態を開示する。限定するためではなく本発明の例示と教示のために提供されるこれらの実施形態が、当業者が本発明を実装あるいは実施できるように十分な詳細として示されそして記述される。従って、本発明があいまいになるのを適切に避けるために、当業者に公知のいくつかの情報は省くことがある。
(概念)
例示のシステムでは、ユーザクェリーに概念的に関連する文書を識別するベースとして単語の対の間の「翻訳」確率を用いる。「翻訳」確率は、一つの単語が他の単語に翻訳され得る確率である。これは、一つの言語から他の言語に翻訳するとき、把握するのが容易である。例えば、フランス語の「pomme」が英語の「apple」に翻訳される確率は高く、「pomme」が「sock」に翻訳される確率はほぼゼロである。
例示の実施形態では、「翻訳」確率は、単一言語であり、同義語および他の単語間の関連語義を捕らえることができる。2つの単語がこれらの意味において関連が強いほど、翻訳確率はより高くなる。例えば、「lawyer」と「attorney」は互換性のある同義語であり、従って、それらの翻訳確率は高い。他の例として、football、NFL、quarterback、coach等の単語間の相関が考えられる。これらは、同義語ではないが、語義において関連しており、従って、ある種の測定可能な翻訳確率を有する。
例示の実施形態において、翻訳確率は単語の共起性データから得られる。共起単語の対に対する情報は、語義(概念的)関係を統計的に捉えることに使用される。例示の実装では、特定の単語(単語X)を表す「概念」は、共起性データの単語Xと共起する全ての単語と同等であるとして扱われる。単語Xと対になるより多くの単語が文書内にあればあるほど、より多くの証拠が単語Xの概念が文書中で議論されているとの認識に与えられる。そのような証拠は、さらに、単語Xがクェリー用語であるときに(単語Xが文書に現れるかどうかによらずに)より高い文書得点につながる。
共起性データから得られる翻訳確率の使用は、検索アルゴリズムが語義的にユーザのクェリー用語に関連する単語(例えば、高い翻訳確率)を含む文書を返すことを可能にする。このため、実際のクェリー単語は、関連ある結果として返される文書としての文書中にある必要はない。例えば、lawyerの検索において、単語lawyerを含まないが単語attorney、trial、fees、および/またはjudgeを含む文書が関連する文書として検索され得る。
他の例では、キーワードベースの検索においてクェリー「ホット コーヒー」が用語「ホット」は含むが用語「コーヒー」が省かれているような文書を見つけることに失敗する。しかしながら、例示の実施形態はこのクェリーを効率的に個別のクェリー用語の周囲のウィンドウの中で共起する全ての単語を網羅するように幅広く概念化する。これは、「ホット」(下線付き)、「コーヒー」(太字)、または、「ホット」と「コーヒー」の双方共に(太字かつ下線付き)に統計的に関連する他の示された用語の存在に基づいて、文書の検索を可能にする。クェリー用語「ホット」は二重下線で示されている。
Figure 2013077333
共起性データからの概念の導出よりも、ドメイン専門家に手作業によって概念を構築させることを考えるかも知れない。手作業による概念の構築は難しく、時間の浪費であり、主観的作業である。さらに、一つのドメインのための手仕上げの概念は、他へは持ち越せない可能性がある。共起性を通して概念を統計的に獲得することにより、主観を作業外に押しやりながら、ドメインが自動的に獲得され得る。
この新規な形態の概念検索のアプリケーションは、数値的なものである。法律のドメインでは、概念検索は電子証拠開示手続で、訴訟事件に関連する全ての文書を見出すことが重要な場合に有益な道具である。一般には、概念検索は、ユーザが探している領域で専門家でない場合と同様に、ユーザが何かに対する技術的なあるいは特定の用語を知らない場合に有益であろう。
(情報検索システムの例)
図1は、例示的なオンライン情報検索システム100を示している。システム100は、一つ以上のデータベース110、一つ以上のサーバ120と一つ以上のアクセス装置130を含む。
(データベースの例)
データベース110は、一つ以上のデータベースの組を含む。例示的な法律データベースは、判例データベースと法規データベースを含み、それぞれ、判決の見解と一つ以上の地方、州、連邦および/または国際裁判からの法令を含む。例示の法律データベースは、また、法律分類データベースと法律レビューとを含む。他の例示データベースは、弁護士、判事、法律事務所、製品および会社プロファイルを含む。いくつかの実施形態では、判例文書がデータ構造を介して、他のデータベースの文書またはプロファイルに論理的に関連付けられる。他の実施形態は、財務的、科学的、あるいはヘルスケア情報を含む非法律データベースを含み得る。さらに、他の実施形態は、INFOTRACを通じて利用可能になるような公的なあるいは民間のデータベースを提供する。いくつかの実施形態では、インターネット検索を可能にし、従って、ウェブサイトおよびウェブページを包含し、他の実施形態は、ユーザが、例えば、電子メール文書や電子証拠開示手続に準ずる文書データベースのような、自身のデータベースを定めることを可能にする。
一つ以上の電子的、磁気的または光学的データ格納装置の例の形を取るデータベース110は、それぞれの指標(示されない)を含むか、そうでなければ、指標に関連付けられている。それぞれの指標は、対応する文書アドレスに関連付けられた用語およびフレーズ、識別子および他の従来の情報を含む。データベース110は、ローカル、ワイド、プライベートあるいは擬似プライベートネットワークのような無線あるいは有線の通信ネットワークを介して、サーバ120に結合されるか、または、結合可能である。
(サーバの例)
一般に、ウェブページあるいは他のマークアップ言語の形式のデータに役立つ一つ以上のサーバを表すサーバ120は、関連するアプレット、ActiveX制御、遠隔起動オブジェクト、あるいは他の関連するソフトウェアおよび種々の「厚さ」のサービスクライアントに対するデータ構造と共に構成する。より詳しくは、サーバ120は、プロセッサモジュール121、メモリモジュール122、契約者データベース123、一次検索モジュール124、概念検索モジュール125およびユーザインターフェイスモジュール126を含む。
プロセッサモジュール121は、一つ以上のローカルなあるいは分散されたプロセッサ、コントローラあるいは仮想マシンを含む。例示的実施形態では、プロセッサモジュール121は、任意の便利なあるいは望ましい形式をとる。
一つ以上の電子的、磁気的または光学的データ格納装置の例の形を取るメモリモジュール122は、契約者データベース123、一次検索モジュール124、概念検索モジュール125およびユーザインターフェイス126を格納する。
契約者データベース123は、制御し、運営することおよび従量制あるいは会費制のデータベース110のアクセスを管理するのための契約者関連データベースを含む。例示の実施形態では、契約者データベース123は一つ以上の選択優先性データ構造を含み、そのデータ構造1231は、代表である。データ構造1221は、顧客あるいはユーザ識別子部分1231Aを含み、論理的に選択優先性1231B、1231Cおよび1231Dのような一つ以上の概念検索あるいは表示の選択優先性に関連付けられている。選択優先性1231Bは、概念検索が有効になっているか無効になっているかを統制するデフォルト値を含む。選択優先性1231Cは、概念検索がなかったら検索されなかったであろう文書が、フラッグされているか、あるいは別のタブまたはフォルダに表示されているような検索結果の表示を統制するデフォルト値を含む。選択優先性1231Dは、概念検索が検索結果の関連性計算に影響を与えることが可能か否か、あるいはどの程度影響するかを統制するデフォルト値を含む。(例えば、特定のクェリーあるいはセッションの間のオーバーライドのような、一時的なユーザのオーバーライドがなければ、概念検索のデフォルト値が統制する。)
一次検索モジュール124は、一つ以上の検索エンジンと、一つ以上のデータベース110に対するユーザクェリーを受信しかつ処理するための関連するユーザインターフェイスコンポーネントを含む。例示の実施形態では、検索モジュール124に関連する一つ以上の検索エンジンが、Boolean、tr−idf、自然言語検索性能を提供する。
概念検索モジュール125は、一つ以上の概念検索エンジンを含む。 本明細書に記述されている一つ以上のデータベースモジュール110に対する概念検索技術を用いてクェリーを受信し処理する。いくつかの実施形態は、概念検索による文書検索および/またはのアクセスに対して、別のあるいは追加の料金を賦課する。特に、概念検索モジュール125は、概念検索データ1251と概念検索エンジン1252とを含む。
概念検索データ1251は、語義の(概念の)関係をインプリシットに獲得するために、文書中の共起単語の対に関する一つ以上の組の統計データを含む。共起対についての統計は、例示の情報検索アルゴリズムの中で直接使用される例示の実施形態における、既存のスタンドアロンの概念を既存の検索機構と結びつけるいかなる必要も回避する。
より詳細には、概念検索データ1251は、文書のコーパス(「母集団」)からの単語の共起確率1251Aと、標的の文書集団(データベース110)に対する共起確率の指標1251Aとを含む。
例示の実施形態において、共起確率1251Aは、目的文書集団に依存しない概念安定性を推進するために、目的文書集団でなく個別のソースから決定される。例えば、法律ドメインにおいて、この母集団は2千万の頭書文書を含む。頭書は、例示の実施形態においては、判例文書に対して人的編集者によって手動で決められるが、いくつかの実施形態は機械文書概要、百科事典の参照等を使用する。例示のニュースドメインに対しては、別個の母集団つまりコーパスが900,000の文書を網羅する。(一般に、共起性データのベースとして使用されるコーパスは、文書の用語数において目的データベースよりも大きいと現在は信じられている。しかしながら、例えば、まれな単語の密度に基づく、文書のより小さいより情報的に高密度の組もまた有益であると推測される。)
単語の対は、次のような方法でコーパスから構築される。
停止単語が除かれ、その後、各単語は、その両側で5単語の距離までの他の全ての単語(それ自身を含む)と対にされ、単語当り11単語対をもたらす。単語対は、例示実施形態では順不問(すなわち、X_Y=Y_X)である。(しかしながら、いくつかの実施形態は順序付けられた単語対を使用し得る。)さらに、例示の実施形態は、8文字で単語対の単語の頭を切り、単語対データに対するある量の平滑化を提供する。
各単語対は一つ以上の頻度計数に関連付けられる。各単語は、また、それ自身と対にされるので、計数は単一用語に対しても維持される。コーパスの単語対に対するこれらの頻度計数を使用して、例示実施形態は共起確率を決定する。特に、これは、次の最尤値(MLE)の計算を必要とする。
Figure 2013077333
これらは、言語モデルの概念検索コンポーネントで使用される(非平滑化の)確率推定値であり、式中では、P(q|d)として示される。これらの確率は、qおよびdが共起しそうな程度を定量化することを可能にする。全ての要素d∈Dを集計して、特定の文書中の用語とqとの間の全ての共起は、qと共起関係に入る全ての単語によって表されるような、その文書中の概念qの証拠を提供する。関連用語(つまり、単語対)は、常に専門家が手作業で概念を定義するときに取り上げるような単語とは限らないので、単語対(より一般には、単語n−gram)は統計の共起性を通して暗黙のうちに「概念」を獲得する。
指標1251Bは、コーパスに対して決定される共起確率に基づいている。例えばデータベース110の一つ以上の部分のように、目的文書集団は、確率P(w|D)によって指標化される。希薄さと戦うために、これらの確率は全体の集団に対して、次式で計算されるJelinek−Mercer平滑化を用いて平滑化される。
Figure 2013077333
平滑化に対するラムダλの値は、各集団に対して経験的に設定され、集団中の文書の長さと集団のサイズのような要因に影響される。
概念検索エンジン1252は、ユーザクェリー用語との概念関係に基づいて、データベース110からの文書を識別する。例示実施形態では、これは、キーワード検索を概念検索データ1241中の共起確率と結合することを必要とし、情報検索のためと統計的機械翻訳とからの言語モデリング技術を使用する。キーワードベースの言語モデリングの情報検索へのアプローチにおいて、各文書は、クェリー単語(q)が文書(D)に現れる確率(P)に基づいて得点される。P(q|D)≒Dでqが起きる回数をDの長さで除した値。このキーワードモデルでは、文書は次の式に従って得点される。
Figure 2013077333
ここで、Qは全体のクェリーを表す。検索結果は一般に、最高得点を最初にした順でユーザに返される。一方、統計的機械翻訳の言語モデリング技術では、得点は「翻訳」確率P(q|d)、つまり、文書中の単語がクェリー単語であると解釈され得る確率に基づく。しかしながら、文書中の単語を文字通りに「翻訳」する代わりに、例示実施形態は、幅広い目的に関して翻訳するために概念的な近さの測度として、単語対共起確率を用いる。
これらの2つの方法を新規な混成モデルに結合して、例示実施形態は次式に従って文書の得点を算出する。
Figure 2013077333
ここで、
Figure 2013077333
は、情報検索に対するキーワード型の言語モデルを表す。
Figure 2013077333
は、Berger&Laffertyの言語翻訳モデル(1999年)を表し、λおよびλは、2つの検索コンポーネント上の重み付け因子を表す。例示実施形態は、キーワード検索および概念検索コンポーネントを等しく0.5に重み付けする。しかしながら、λおよびλの値を変更することによって(λ+λ=1の制約の下で)、いずれかのコンポーネントが大きい重み付けを与えられることができる。
つまり、例示的概念検索は、キーワード検索を共起確率に結び付け、キーワード的にも概念的にもユーザのクェリーに意味のある文書の検索を可能にする。このアプローチにおいて、以下のことを理解し得る:
共起対の使用はリコールを強化し、より関連ある文書が、全ての関連ある文書に対する関係で検索されることを可能にする;
キーワード型の言語モデルの使用は、高い正確さを有している;
モデルは、リコールと正確さを最大にするように、コンポーネントを異なる「重み付け」することを可能にするので、柔軟性がある。
いくつかの実施形態は、クェリー依存性を活用し、クェリー自体がユーザが捜している概念を表すことを認識する。特に、このアプローチのある実施形態は、単語対を使用するクェリー単語間の依存性をモデル化し、それによって、概念的情報を獲得する。従って、クェリーを単一のクェリー用語にする代わりに、例示実施形態は、クエリーをクェリーの中に含まれる全ての可能な単語対として表す。例えば、クェリー「大きな赤い風船」は、次のクェリー単語対をもたらす:大きい_大きい、赤い_赤い、風船_風船、大きい_赤い、大きい_風船、赤い_風船。
単語対に対して、文書得点は、次のように定義される。
Figure 2013077333
ここで、P(q1|d)+P(q2|d)は、P(q1|d)およびP(q2|d)の両方がゼロでない場合に限り評価される。例示実施形態は1文書用語に2用語対が与えられる(P(w1_w2|d))に対する確率を欠いているので、これらをオンザフライで、その文書用語に対する2用語中の両方の単語の共起確率に依存する得点式の概念検索部分を作成することによって、概算する。クェリー単語の2用語q1_q2に対して、例示実施形態は共起確率P(q1|d)およびP(q2|d)を一緒に加えて、その後、P(q1|d)およびP(q2|d)の両方が存在する各文書用語に対してP(d|D)を乗ずる。P(q1|d)あるいはP(q2|d)のいずれかが存在しない場合、P(q1|d)+P(q2|d)はゼロに等しく設定される。ユ二グラム(unigram)の概念検索言語モデルとして、λ1およびλ2の両方が0.5に設定され、それによって、キーワード検索および概念検索のコンポーネントを等しく重み付ける。
いくつかの実施形態は、概念コンポーネントを他の形式の関連性指標で置き換えるか補う式4あるいは式6の修正版を用いる。例えば、一つのそのような実施形態は、文書に対する利用統計に基づく関連性因子を追加する。そのような統計は、同様なクェリーに対する、文書に対する印刷、電子メール、あるいはクリックスルーの頻度;文書に対するユーザの探求あるいは評価の日;および/または文書に対する引用統計に基づく。これらの因子は、ラムダ因子の合計が1であるという制限の下で、ラムダ因子によって重み付けされ得る。
ユーザインターフェイスモジュール126は、アクセス装置130のような一つ以上のアクセス装置の無線あるいは有線通信ネットワーク上で、検索インターフェイス1261および結果インターフェイス1262のような、機械読み取り可能な、および/または、ウェブ型のユーザインターフェイスを全体的にまたは部分的に規定実行可能な命令セットを含む。
(アクセス装置の例)
アクセス装置130は、一般に一つ以上のアクセス装置を表す。例示の実施形態では、アクセス装置130は、パーソナルコンピュータ、ワークステーション、パーソナルデジタルアシスタント、携帯電話、あるいは、サーバまたはデータベースとの効果的なユーザインターフェイスを提供できる他の任意の装置の形式を取る。特に、アクセス装置130は、プロセッサモジュール131(一つ以上のプロセッサ(あるいは処理回路)131)、メモリ132、ディスプレイ133、キーボード134、およびグラフィカルポインタまたはセレクタ135を含む。
プロセッサモジュール131は、一つ以上のプロセッサ、処理回路あるいはコントローラを含む。例示実施形態では、プロセッサモジュール131は任意の便利なあるいは望ましい形式を取る。プロセッサモジュール131には、メモリ132が結合される。
メモリ132は、オペレーティングシステム136、ブラウザ137、およびグラフィカルユーザインターフェイス(GUI)138に対するコード(機械読み取り可能あるいは実行可能な命令)を格納する。例示実施形態では、オペレーティングシステム136は、マイクロソフトWindows(登録商標)オペレーティングシステムのあるバージョンの形式を取り、そして、ブラウザ137は、マイクロソフトInternet Explorerのあるバージョンの形式を取る。オペレーティングシステム136およびブラウザ137はキーボード134およびセレクタ135からの入力を受けるだけでなく、ディスプレイ133上へのGUI138の表示をサポートする。表示の際、GUI138は一つ以上の対話式制御機構(つまり、ユーザインターフェイス要素)に関連するデータを例示する。(例示実施形態は、サーバ120からのアプレットや他のプログラム可能なオブジェクトあるいは構造を用いて、上に示したあるいは本明細書の他の部分に記載したインターフェイスを実装するために、インターフェイス138の一つ以上の部分を定義する。)
例示実施形態では、これらの制御機構は、ハイパーリンクまたは他のブラウザ互換のコマンド入力の形式を取り、クェリー領域1381および検索結果領域1382へのアクセスと制御を提供する。領域1382での制御機構のユーザの選択、特に、テキスト形式のクェリーの入力フィールド1381Aへの入力および、サブミットボタン1381Bの始動を介してのサーバ120へのクェリーのサブミットは、結果領域1382内の検索結果リスト1382Aの表示をもたらす。リスト1382Aからのリストされた文書の選択は、インターフェイス138(図には示されない)の領域内で、対応する文書の少なくとも一部分の検索と表示の結果をもたらす。図1は領域1381および1382を同時に表示されているとして示すが、いくつかの実施形態は別々の時刻にそれらを表示する。インターフェイスの他の機能的な局面は、以下に記述される。
(操作方法の例)
図2は、システム100のようなシステムを操作する一つ以上の例示的方法のフローチャート200を示す。フローチャート200は、例示実施形態の中で逐次実行シーケンスに編成され記載される複数のブロック210〜240を含む。しかしながら、他の実施形態が、マルチプロセッサあるいはプロセッサ様のデバイスあるいは、2つ以上の仮想マシンまたはサブプロセッサとして構成された単一のプロセッサを用いて、2つ以上のブロックを平行して実行する。他の実施形態もまた、類似の結果を達成するために、処理シーケンスを変更するか、あるいは異なる機能の区分を提供する。例えば、いくつかの実施形態はサーバ側に示されてかつ記述された機能を全体としてあるいは一部としてクライアント側に、およびその逆に実装されるように、機能のクライアント−サーバ割当てを変更する。さらに、他の実施形態は、ブロックをモジュール間あるいはモジュールを通じて通信される関連制御信号およびデータ信号を伴う、2つ以上の接続されたハードウェアモジュールとして実装する。このように、例示的処理フローは、ソフトウェア、ハードウェアおよびファームウェアの実装に適用する。
方法は、ブロック210でクェリーをユーザから受け取ることで始まる。例示実施形態では、これは、ユーザがアクセス装置130のブラウザ性能を用いてオンラインの情報検索システム100にアクセスすること、具体的にはサーバ120が従来のログイン処理を用いること、を必要とする。ひとたびログインされると、ユーザインターフェイス138のようなユーザインターフェイスが表示され、ユーザがクェリーを定義し、サーバ120にサブミットすることを可能にする。実行はブロック220に進む。
ブロック220は、従来のキーワードあるいは自然言語の検索エンジンにおいて、受信されたクェリーを使用して、文書の組からの1つ以上の文書のランク付けられた結果の組を定義することを必要とする。例示実施形態では、これは検索データベース110、例えば、法律、科学あるいは特許データベース、が文書の組を、tf−idf型の検索エンジンを用いて、受信されたクェリーへの関連性に基づいて識別し、ランク付けすることを必要とする。実行はブロック230に進む。
ブロック230は、受信されたクェリーとの概念的なあるいは語義的な関係に基づいて、結果の組を修正することを必要とする。最初の実施形態では、これは、受信されたクェリーの全てのあるいは1つ以上の部分との概念的関係に排他的に基づいて文書の組を識別することを必要とする。これは、クェリーを全ての可能なn−gram、例えば、1−gramあるいは2−gram(2用語)に構文解析することと、クェリーの用語と共起する用語とを含む十分に高い確率を有する文書の組を識別するために、これらのn−gramを使用することとを必要とする。この実施形態では、2用語内の各用語は、8文字に頭切りされる。これらの識別された文書は、その後、修正された結果の組を定義するために、ランク付けられた結果の組と結合される。修正された結果の組は、その後、単一のクェリー用語あるいは2用語が使われているかに依存して、式4あるいは式6に従って得点計算されランク付けされる。
第二の実施形態では、概念あるいは語義的な関係に基づく更なる検索は行われず、式4あるいは式6に従って結果の組は単純に得点計算され再ランク付けされる。いくつかの実施形態は、単にクェリーと、サードパーティからの結果の組とを受信して、式2および/または式5を用いて用語を再ランク付けする場合がある。実行はその後ブロック240に進む。
ブロック240では、修正された検索結果がユーザに表示される。例示の実施形態では、これは、ハイパーリンクのリストを定めることと、例えば、システム100のアクセス装置130のディスプレイのような、ユーザに関連するディスプレイに表示することとを必要とする。いくつかの実施形態では、概念検索のみで識別される文書、つまり、クェリー用語のどれかを欠いている文書は、関連する文書のリコールの改善において、概念検索の値を強調するために、フォントの違いおよび/または隣接シンボルによりフラグされる。他の実施形態は、マッチングキーワードおよび概念を含む文書に対するフラグを提供し、あるいは、改善されたリコールを推進する手段として文書との関連性を表示する。さらに、他の実施形態は、例えば、個別のフォルダあるいはタブを提供することによって、キーワード検索に基づくだけで発見された文書から、マッチングキーワードに基づき発見された文書の分離を可能にする制御機能を備えたリストを表示し得る。別の実施形態は、ユーザが、無関係の可能性のある文書、つまり、逐語的にはクェリー用語を満たしているにも拘わらずクェリーに対する概念的な関連性の低い確率を有する文書を遮断するあるいはフラグを立てる制御機構を選択的に呼び出すことを可能にする。これらの文書は、統計的にクェリー用語と高い確率で共起する用語の欠落を基に識別される。
(結論)
上で記述された実施形態は、本発明の一つ以上の実施あるいは実装を例示することと教示することとのみを意図しており、その幅あるいは範囲を制限することを意図するものではない。本発明の教示を実施するあるいは実装する全ての方法を包含する本発明の実際の範囲は、公表される特許請求の範囲およびそれらの均等物によってのみ定義される。

Claims (1)

  1. 本願明細書に記載された発明。
JP2013011827A 2006-12-29 2013-01-25 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア Withdrawn JP2013077333A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US87801406P 2006-12-29 2006-12-29
US60/878,014 2006-12-29

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009544261A Division JP5379696B2 (ja) 2006-12-29 2007-12-27 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア

Publications (1)

Publication Number Publication Date
JP2013077333A true JP2013077333A (ja) 2013-04-25

Family

ID=39276259

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009544261A Expired - Fee Related JP5379696B2 (ja) 2006-12-29 2007-12-27 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア
JP2013011827A Withdrawn JP2013077333A (ja) 2006-12-29 2013-01-25 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2009544261A Expired - Fee Related JP5379696B2 (ja) 2006-12-29 2007-12-27 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア

Country Status (10)

Country Link
US (1) US8321425B2 (ja)
EP (1) EP2115638A1 (ja)
JP (2) JP5379696B2 (ja)
CN (1) CN101622618B (ja)
AR (1) AR064694A1 (ja)
AU (1) AU2007339839A1 (ja)
BR (1) BRPI0720718A2 (ja)
CA (1) CA2674294C (ja)
NZ (1) NZ578672A (ja)
WO (1) WO2008083211A1 (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2674294C (en) 2006-12-29 2017-03-07 Thomson Reuters Global Resources Information-retrieval systems, methods, and software with concept-based searching and ranking
CN101286150B (zh) 2007-04-10 2010-09-15 阿里巴巴集团控股有限公司 生成更新参数的方法和装置、展示相关关键词的方法和装置
US8037086B1 (en) * 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
US20090058820A1 (en) 2007-09-04 2009-03-05 Microsoft Corporation Flick-based in situ search from ink, text, or an empty selection region
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
US20100191746A1 (en) * 2009-01-26 2010-07-29 Microsoft Corporation Competitor Analysis to Facilitate Keyword Bidding
CN101957828B (zh) * 2009-07-20 2013-03-06 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
US8180755B2 (en) * 2009-09-04 2012-05-15 Yahoo! Inc. Matching reviews to objects using a language model
US8949248B2 (en) 2009-10-29 2015-02-03 At&T Intellectual Property I, L.P. Method and apparatus for generating a web page
US8515972B1 (en) 2010-02-10 2013-08-20 Python 4 Fun, Inc. Finding relevant documents
US11386510B2 (en) * 2010-08-05 2022-07-12 Thomson Reuters Enterprise Centre Gmbh Method and system for integrating web-based systems with local document processing applications
CN102419755B (zh) 2010-09-28 2013-04-24 阿里巴巴集团控股有限公司 一种搜索结果的排序方法和装置
US9589053B1 (en) * 2010-12-17 2017-03-07 The Boeing Company Method and apparatus for constructing a query based upon concepts associated with one or more search terms
US9519714B2 (en) * 2010-12-22 2016-12-13 Microsoft Technology Licensing, Llc Presenting list previews among search results
US8396871B2 (en) 2011-01-26 2013-03-12 DiscoverReady LLC Document classification and characterization
US8868567B2 (en) 2011-02-02 2014-10-21 Microsoft Corporation Information retrieval using subject-aware document ranker
US9633012B1 (en) 2011-08-25 2017-04-25 Infotech International Llc Construction permit processing system and method
US9785638B1 (en) 2011-08-25 2017-10-10 Infotech International Llc Document display system and method
US9116895B1 (en) 2011-08-25 2015-08-25 Infotech International Llc Document processing system and method
US9817898B2 (en) 2011-11-14 2017-11-14 Microsoft Technology Licensing, Llc Locating relevant content items across multiple disparate content sources
US10467252B1 (en) 2012-01-30 2019-11-05 DiscoverReady LLC Document classification and characterization using human judgment, tiered similarity analysis and language/concept analysis
US9667514B1 (en) 2012-01-30 2017-05-30 DiscoverReady LLC Electronic discovery system with statistical sampling
US9218344B2 (en) 2012-06-29 2015-12-22 Thomson Reuters Global Resources Systems, methods, and software for processing, presenting, and recommending citations
US20140025687A1 (en) * 2012-07-17 2014-01-23 Koninklijke Philips N.V Analyzing a report
US8898154B2 (en) * 2012-09-19 2014-11-25 International Business Machines Corporation Ranking answers to a conceptual query
US10152538B2 (en) 2013-05-06 2018-12-11 Dropbox, Inc. Suggested search based on a content item
US10242090B1 (en) * 2014-03-06 2019-03-26 The United States Of America As Represented By The Director, National Security Agency Method and device for measuring relevancy of a document to a keyword(s)
US9754020B1 (en) 2014-03-06 2017-09-05 National Security Agency Method and device for measuring word pair relevancy
US9971771B2 (en) 2014-03-29 2018-05-15 Camelot Uk Bidco Limited Method, system and software for searching, identifying, retrieving and presenting electronic documents
US11144555B2 (en) * 2015-05-06 2021-10-12 App Annie Inc. Keyword reporting for mobile applications
US9904916B2 (en) * 2015-07-01 2018-02-27 Klarna Ab Incremental login and authentication to user portal without username/password
US10387882B2 (en) 2015-07-01 2019-08-20 Klarna Ab Method for using supervised model with physical store
US20170116194A1 (en) * 2015-10-23 2017-04-27 International Business Machines Corporation Ingestion planning for complex tables
US10474704B2 (en) 2016-06-27 2019-11-12 International Business Machines Corporation Recommending documents sets based on a similar set of correlated features
US20180018333A1 (en) 2016-07-18 2018-01-18 Bioz, Inc. Continuous evaluation and adjustment of search engine results
US11934465B2 (en) 2016-11-28 2024-03-19 Thomson Reuters Enterprise Centre Gmbh System and method for finding similar documents based on semantic factual similarity
CN108628906B (zh) * 2017-03-24 2021-01-26 北京京东尚科信息技术有限公司 短文本模板挖掘方法、装置、电子设备和可读存储介质
CN110785754B (zh) * 2017-08-30 2023-11-21 深圳市欢太科技有限公司 应用资源处理方法及相关产品
WO2024059593A1 (en) * 2022-09-12 2024-03-21 Thomson Reuters Enterprise Centre Gmbh Interactive tool for determining a headnote report

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02116242A (ja) * 1988-10-26 1990-04-27 Fuji Xerox Co Ltd 電子メールシステム
JPH04130839A (ja) * 1990-09-21 1992-05-01 Nec Corp 電子メールのキーワード検索方式
EP0597630A1 (en) * 1992-11-04 1994-05-18 Conquest Software Inc. Method for resolution of natural-language queries against full-text databases
JP2000010986A (ja) * 1998-06-18 2000-01-14 Trendy:Kk ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
JP2002108914A (ja) * 2000-10-03 2002-04-12 Canon Inc 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体
WO2006023542A2 (en) * 2004-08-23 2006-03-02 Lexisnexis, A Division Of Reed Elsevier Inc. Point of law search system and method

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US6728695B1 (en) * 2000-05-26 2004-04-27 Burning Glass Technologies, Llc Method and apparatus for making predictions about entities represented in documents
US6684202B1 (en) * 2000-05-31 2004-01-27 Lexis Nexis Computer-based system and method for finding rules of law in text
AUPR082400A0 (en) * 2000-10-17 2000-11-09 Telstra R & D Management Pty Ltd An information retrieval system
US6970881B1 (en) * 2001-05-07 2005-11-29 Intelligenxia, Inc. Concept-based method and system for dynamically analyzing unstructured information
EP1288794A1 (en) * 2001-08-29 2003-03-05 Tarchon BV Methods of ordering and of retrieving information from a corpus of documents and database system for the same
US7085771B2 (en) * 2002-05-17 2006-08-01 Verity, Inc System and method for automatically discovering a hierarchy of concepts from a corpus of documents
JP4163524B2 (ja) * 2003-02-03 2008-10-08 日本電信電話株式会社 共起シソーラス間類似度測定装置、共起シソーラス間類似度測定プログラム及び共起シソーラス間類似度測定プログラム記録媒体
US7406459B2 (en) * 2003-05-01 2008-07-29 Microsoft Corporation Concept network
US7051014B2 (en) * 2003-06-18 2006-05-23 Microsoft Corporation Utilizing information redundancy to improve text searches
WO2005066849A2 (en) * 2003-12-31 2005-07-21 Thomson Global Resources Systems, methods, interfaces and software for extending search results beyond initial query-defined boundaries
US7765178B1 (en) * 2004-10-06 2010-07-27 Shopzilla, Inc. Search ranking estimation
US20060179051A1 (en) * 2005-02-09 2006-08-10 Battelle Memorial Institute Methods and apparatus for steering the analyses of collections of documents
JP2006227823A (ja) * 2005-02-16 2006-08-31 Canon Inc 情報処理装置及びその制御方法
US7519588B2 (en) * 2005-06-20 2009-04-14 Efficient Frontier Keyword characterization and application
US7716226B2 (en) * 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US20100153107A1 (en) * 2005-09-30 2010-06-17 Nec Corporation Trend evaluation device, its method, and program
US7814102B2 (en) * 2005-12-07 2010-10-12 Lexisnexis, A Division Of Reed Elsevier Inc. Method and system for linking documents with multiple topics to related documents
US7590626B2 (en) * 2006-10-30 2009-09-15 Microsoft Corporation Distributional similarity-based models for query correction
CA2674294C (en) 2006-12-29 2017-03-07 Thomson Reuters Global Resources Information-retrieval systems, methods, and software with concept-based searching and ranking

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02116242A (ja) * 1988-10-26 1990-04-27 Fuji Xerox Co Ltd 電子メールシステム
JPH04130839A (ja) * 1990-09-21 1992-05-01 Nec Corp 電子メールのキーワード検索方式
EP0597630A1 (en) * 1992-11-04 1994-05-18 Conquest Software Inc. Method for resolution of natural-language queries against full-text databases
JP2000010986A (ja) * 1998-06-18 2000-01-14 Trendy:Kk ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
JP2002108914A (ja) * 2000-10-03 2002-04-12 Canon Inc 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体
WO2006023542A2 (en) * 2004-08-23 2006-03-02 Lexisnexis, A Division Of Reed Elsevier Inc. Point of law search system and method

Also Published As

Publication number Publication date
CA2674294A1 (en) 2008-07-10
BRPI0720718A2 (pt) 2014-04-01
NZ578672A (en) 2012-08-31
JP2010515171A (ja) 2010-05-06
CN101622618A (zh) 2010-01-06
CA2674294C (en) 2017-03-07
EP2115638A1 (en) 2009-11-11
US20090198674A1 (en) 2009-08-06
WO2008083211A1 (en) 2008-07-10
CN101622618B (zh) 2017-06-20
AU2007339839A1 (en) 2008-07-10
US8321425B2 (en) 2012-11-27
AR064694A1 (es) 2009-04-22
JP5379696B2 (ja) 2013-12-25

Similar Documents

Publication Publication Date Title
JP5379696B2 (ja) 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア
CN107993724B (zh) 一种医学智能问答数据处理的方法及装置
US10650058B2 (en) Information retrieval systems with database-selection aids
JP6095621B2 (ja) 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置
Balog et al. Formal models for expert finding in enterprise corpora
US9715493B2 (en) Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
US8478749B2 (en) Method and apparatus for determining relevant search results using a matrix framework
US8819047B2 (en) Fact verification engine
US9881037B2 (en) Method for systematic mass normalization of titles
JP5168961B2 (ja) 最新評判情報通知プログラム、記録媒体、装置及び方法
CN109522465A (zh) 基于知识图谱的语义搜索方法及装置
JP2008537225A (ja) クエリについての検索システムおよび方法
AU2005330021A1 (en) Integration of multiple query revision models
WO2007002820A2 (en) Search engine with augmented relevance ranking by community participation
Lossio Ventura et al. Biomedical terminology extraction: A new combination of statistical and web mining approaches
Kolthoff et al. Data-driven prototyping via natural-language-based GUI retrieval
RU2473119C1 (ru) Способ и система семантического поиска электронных документов
Wu et al. Exploring noise control strategies for UMLS-based query expansion in health and biomedical information retrieval
JP2012104051A (ja) 文書インデックス作成装置
JP2010282403A (ja) 文書検索方法
Liu et al. Medical query generation by term–category correlation
CN115905577B (zh) 知识图谱的构建方法及装置、法规检索方法和装置
CN111709226B (zh) 一种文本处理方法及装置
Znaidi et al. Aggregating semantic information nuggets for answering clinical queries
AU2013205851B2 (en) Information-retrieval systems, methods, and software with concept-based searching and ranking

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140502

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140509

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140605

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140610

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140704

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140709

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20140806