JP2008052732A - 類似性計算方法、文脈モデル導出方法、類似性計算プログラム、文脈モデル導出プログラム - Google Patents

類似性計算方法、文脈モデル導出方法、類似性計算プログラム、文脈モデル導出プログラム Download PDF

Info

Publication number
JP2008052732A
JP2008052732A JP2007212218A JP2007212218A JP2008052732A JP 2008052732 A JP2008052732 A JP 2008052732A JP 2007212218 A JP2007212218 A JP 2007212218A JP 2007212218 A JP2007212218 A JP 2007212218A JP 2008052732 A JP2008052732 A JP 2008052732A
Authority
JP
Japan
Prior art keywords
text object
context model
term
calculation method
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007212218A
Other languages
English (en)
Other versions
JP5157314B2 (ja
Inventor
Jeremy Pickens
ピケンズ ジェレミー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2008052732A publication Critical patent/JP2008052732A/ja
Application granted granted Critical
Publication of JP5157314B2 publication Critical patent/JP5157314B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/917Text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】キーワードの比較によってではなく、第1テキストオブジェクトと第2テキストオブジェクトとの間の類似性を計算する。
【解決手段】第1テキストオブジェクトを使用して、該第1テキストオブジェクトに関連する文脈モデルを導出する。導出された前記文脈モデルを使用して、前記第1テキストオブジェクトと前記第2テキストオブジェクトとの間の類似性を計算する。前記第1テキストオブジェクトは少なくとも1つのキーワードを含んでいてもよいし、少なくとも1つの熟語を含んでいてもよい。
【選択図】図5

Description

本発明は、情報検索の技術、詳細には文脈ベースの類似性アルゴリズムに関する。さらに詳細には、本発明は、第1テキストオブジェクトと第2テキストオブジェクトとの間の類似性を計算する方法、用語に対する文脈モデルを自動的に導出する方法、第1テキストオブジェクトと第2テキストオブジェクトとの間の類似性を計算する機能をコンピュータに実行させるプログラム、用語に対する文脈モデルを自動的に導出する機能をコンピュータに実行させるプログラムに関する。
情報検索における最近の開発は機械学習および統計モデル化における進歩を利用してきた。非構造化テキスト内における関係を分析および発見するための技術が向上するに伴い、情報を組織化および検索する問題にこれらの技術が利用されている。
最も初期の時代から、情報検索はバイナリ分類の問題と見られてきており、その中では、文書はクエリに関連するまたは関連しない程度によりランク付けされた。関連性は文書内の対象用語の有無により決定される。しかし、当業者には明らかなとおり、このような方法は極めて重大な欠点を有する。
フォーブス(Forbes)誌によると、「旅行鞄販売者の広告バナーが、スーツケース内で発見された死体に関するニュース記事の隣に提供された (banner ad for luggage sellers served up next to a news article about a dead body found in a suitcase)」という信じられない話がある。広告プログラムが可観測の広告用語の出現に依存しているため、このような事態が出現し、さらに出現し続けるであろう。このように、既存の技術によると、用語「文脈」は、広告主が広告の表示を「起動」するためにトリガとして設定したフィルタが、文書内の特定の内容に多少とも「一致」していることを意味する。一致は用語の頻度および近似性のような条件を含むが、一般に広告は広告用語の実際の観測を基本として表示される。例えば、広告フィルタが用語「旅行鞄(luggage)」により定義されると、この広告を記載している文書は「旅行鞄(luggage)」の14回の出現を含み、その後、おそらくは優れた一致であると見なされる。
したがって、類似性スコアを基準として用語の頻度を用いる既存の技術は、テキストのエンティティ間の類似性を求める文脈ベースの方法を提供する能力に欠けている。詳細には、キーワードの比較によってではなく、これらのキーワードに対応する文脈を比較することにより、テキストの類似性を決定するアルゴリズムが必要とされる。
A. L. バーガー(A. L. Berger)、S. A. デラ ピエトラ(S. A. Della Pietra)およびV. J. デラ ピエトラ(V. J. Della Pietra)、「自然言語処理への最大エントロピーアプローチ(A maximum entropy approach to natural language processing)」、コンピュータ言語学(Computational Linguistics)、1996年、22(1)、頁39〜71 S. デラ ピエトラ(S. Della Pietra)、V. デラ ピエトラ(V. Della Pietra)およびJ.ラファーティ(J. Lafferty)、「確率場の特徴の導出(Inducing features of random fields)」、パターン解析および人工知能に関するIEEEトランザクション(IEEE Transaction on Pattern Analysis and Machine Intelligence)、1997年、19、頁380〜393 D. ビーファーマン(D. Beeferman)、A. バーガー(A. Berger)およびJ. ラファーティ(J. Lafferty)、「指数モデルを使用するテキストセグメント化(Text segmentation using exponential models)」、自然言語処理における経験的方法に関する第2回会議抄録(Proceedings of the Second Conference on Empirical Methods in Natural Language Processing) R. ローゼンフェルド(R. Rosenfeld)、「適応統計言語モデルへの最大エントロピーアプローチ(A maximum entropy approach to adaptive statistical language modeling)」、コンピュータ、スピーチおよび言語(Computer, Speech, and Language)、1996年、10、頁187〜228 A. マクカルム(A. McCallum)およびN. ガムラヴィ(N. Ghamrawi)、「収集多重レベルテキスト分類(Collective multi−label text classification)」、CIKM抄録(Proceedings of CIKM)、独、ブレーメン(Bremen、Germany)、2005年、頁195〜200 M. ポーター(M. Porter)、「接尾子の除去アルゴリズム(An algorithm for suffix stripping)」、プログラム(Program)、1980年、14、頁130〜137 S. ロバートソン(S. Robertson)、S. ウォーカー(S. Walker)、S. ジョーンズ(S. Jones)、M. ハンコック−ビューリュー(M. Hancock−Beaulieu)およびM. ガットフォード(M. Gatford)、「TREC−3におけるOkapi(Okapi at TREC−3)」、第三回テキスト検索年次会議(3rd annual Text Retrieval Conference)、NIST、米、メリーランド(MD)、1994年 E. ヴーアヒーズ(E. Voorhees)およびD. ハーマン(D. Harman)、「第6回テキスト検索会議(TREC−6)の概要(Overview of the sixth text retrieval conference(TREC−6))」、情報処理および管理(Information Processing and Management)、2000年、36(1)、頁3〜35
本発明の方法は、テキストエンティティ間の類似性を求めるための従来技術に関連する1つまたは複数の前述および他の問題点を実質的に回避する方法およびシステムに関する。
本発明の概念の一態様によれば、第1テキストオブジェクトと第2テキストオブジェクト間の類似性を求める方法、コンピュータプログラムプロダクトおよびコンピュータ化システムが提供される。本発明の概念のこの本態様は、第1テキストオブジェクトを用いて第1テキストオブジェクトに関する文脈モデルを導出すること、および上記導き出された文脈モデルを用いて第1テキストオブジェクトと第2テキストオブジェクトとの間の類似性を求めることを含む。
本発明の概念の別の態様によれば、用語に対する文脈モデルを自動的に導出する方法、コンピュータプログラムプロダクトおよびコンピュータ化システムが提供される。本発明のこの態様は、文脈のない用語の特徴のみを含む特徴セットを選択すること、特徴に対して初期重み1を設定すること、特徴に対して重みを更新すること、および特徴の導出を実行することを含む。
本発明の第1の態様は、第1テキストオブジェクトと第2テキストオブジェクトとの間の類似性を計算する方法であって、a.前記第1テキストオブジェクトを使用して、該第1テキストオブジェクトに関する文脈モデルを導出し、b.導出された前記文脈モデルを使用して、前記第1テキストオブジェクトと前記第2テキストオブジェクトとの間の類似性を計算する。
本発明の第2の態様は、第1の態様の類似性計算方法であって、前記第1テキストオブジェクトは少なくとも1つのキーワードを含む。
本発明の第3の態様は、第1の態様の類似性計算方法であって、前記第1テキストオブジェクトは少なくとも1つの熟語を含む。
本発明の第4の態様は、第1の態様の類似性計算方法であって、前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つの用語を含む。
本発明の第5の態様は、第1の態様の類似性計算方法であって、前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する複数の用語を含む。
本発明の第6の態様は、第1の態様の類似性計算方法であって、前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つの熟語を含む。
本発明の第7の態様は、第1の態様の類似性計算方法であって、前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する複数の熟語を含む。
本発明の第8の態様は、第1の態様の類似性計算方法であって、前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つのキーワードおよび少なくとも1つの熟語を含む。
本発明の第9の態様は、第1の態様の類似性計算方法であって、前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つの用語近似条件を含む。
本発明の第10の態様は、第1の態様の類似性計算方法であって、前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つの用語関係条件を備える。
本発明の第11の態様は、第1の態様の類似性計算方法であって、前記第1テキストオブジェクトと前記第2テキストオブジェクトとの間の前記類似性は確率スコアの計算を用いて求められる。
本発明の第12の態様は、第1の態様の類似性計算方法であって、計算された前記類似性に基づいて少なくとも1つの文書を検索することをさらに含む。
本発明の第13の態様は、第12の態様の類似性計算方法であって、計算された前記類似性に基づいて検索された文書をランク付けすることをさらに含む。
本発明の第14の態様は、第1の態様の類似性計算方法であって、前記第1テキストオブジェクトはモデル用語を含み、前記文脈モデルは前記モデル用語の予測を支援するサポート特徴を含む。
本発明の第15の態様は、第14の態様の類似性計算方法であって、前記文脈モデルはさらに前記サポート特徴に割り当てられる重みを含む。
本発明の第16の態様は、第1の態様の類似性計算方法であって、テキストの本体を使用して前記文脈モデルのトレーニングを行うことをさらに含む。
本発明の第17の態様は、用語に対する文脈モデルを自動的に導出する方法であって、a.文脈のない用語の特徴のみを含む特徴セットを選択し、b.前記特徴に対して初期重みを1に設定し、c.前記特徴に対する前記重みを更新し、d.特徴の導出を実行する。
本発明の第18の態様は、第17の態様の文脈モデル導出方法であって、cは、i.勾配を計算し、初期重みを前記勾配の方向に小さなステップで調整し、ii.所定の条件に適合するまでaを繰返す。
本発明の第19の態様は、第17の態様の文脈モデル導出方法であって、dは、i.候補の特徴セットを数え、ii.前記候補の特徴セットのそれぞれに対して最適な重みを計算し、iii.前記候補の特徴セットのそれぞれに対して、前記特徴セットへの前記候補の特徴セットのそれぞれを追加することにより情報利得を計算し、iv.最も高い利得を生じる、前記候補の特徴セットの候補特徴を選び、前記特徴セットに前記候補特徴を加え、v.所定の条件に適合するまで、cに戻る。
本発明の第20の態様は、第1テキストオブジェクトと第2テキストオブジェクトとの間の類似性を計算する機能をコンピュータに実行させるプログラムであって、該機能は、a.前記第1テキストオブジェクトを使用して、該第1テキストオブジェクトに関する文脈モデルを導出し、b.導出された前記文脈モデルを使用して、前記第1テキストオブジェクトと前記第2テキストオブジェクトとの間の類似性を計算する。
本発明の第21の態様は、用語に対する文脈モデルを自動的に導出する機能をコンピュータに実行させるプログラムであって、該機能は、a.文脈のない用語の特徴のみを含む特徴セットを選択し、b.前記特徴の初期重みを1に設定し、c.前記特徴の重みを更新し、d.特徴の導出を実行する。
本発明に関する追加の別の態様は、一部は以下の説明に記載され、一部は上記説明から明らかであり、あるいは本発明の実施により確認できる。本発明の態様は、詳細には以下の詳細な説明および添付クレームに詳細に示される、各要素ならびに様々な要素と態様の組み合わせにより、実現および達成される。
本発明は、a.第1テキストオブジェクトを使用して、該第1テキストオブジェクトに関する文脈モデルを導出し、b.導出された前記文脈モデルを使用して、前記第1テキストオブジェクトと第2テキストオブジェクトとの間の類似性を計算する。これにより、キーワードの比較によってではなく、第1テキストオブジェクトと第2テキストオブジェクトとの間の類似性を計算することができる。
前述および以下の説明は、単に例示および説明のためのものであり、いかなる形であっても発明の請求の範囲または本発明の適用を限定することを目的とするものではない。
本明細書の一部に組み込まれかつ本明細書を構成する添付図面は、本発明の実施形態を例示し、説明と併せて、本発明の技術の原理を説明および示す役割を果たす。
以下の詳細な説明では、添付図面を参照する。図面では、同一機能要素は同一参照符号で表される。前述の添付図面は説明の目的で示したものであり、限定を意味しない。特定の実施形態および実施方法は本発明の原理に一致する。これらの実施方法は、当業者が本発明を実行できるように十分に詳細に説明される。なお、別の実施方法も使用可能であり、構造変更、様々な要素の置換などが本発明の範囲および精神を逸脱することなく実施できる。以下の詳細な説明は、したがって、限定的な意味に解釈されるべきではない。加えて、記載される本発明の様々な実施形態は、汎用コンピュータで実行するソフトウェアの形で、特化されたハードウェアの形で、またはソフトウェアおよびハードウェアの組み合わせで実現できる。
用語の頻度に焦点を当てるのではなく、本発明の技術の実施形態は、対象文書内のその用語の統計値を単に観測する他の技術を利用して、対象の用語がその文書に適合した用語であるかどうかを決定する。言い換えると、本発明の技術の一態様は、大量の収集テキストを利用してアルゴリズムをトレーニングすることにより、文脈のみから用語の存在を予測することを含む。文書内の用語の出現を観測する代わりに、本発明の技術は、文書の残余分により与えられる文脈を基にして、その用語が存在するかどうかを予測する。このため、本発明の技術の一実施形態は用語文脈モデルの構築を含む。
先に述べたとおり、上術の用語文脈モデルは対象の文書内の対象用語の出現を量的に予測する。本発明の様々な実施形態においては、このモデルは、単語、熟語または文全体さえも使用して構築される。当業者には明らかなとおり、他の方法を用いて文脈モデルを構築することも可能である。言い換えると、本発明の概念の実施形態によるシステムは対象用語以外に熟語の単語について対象文書を調べるが、文書内の対象用語の出現または非出現を予測する。
本発明の概念の実施形態によれば、広告単語のモデルはより広範な単語の収集または用語セットを使用して最初に生成される。詳細には、本発明のシステムは、どの文脈内にこれらの単語が多く発見されるか、どの文脈内にこれらの単語が発見されないかを、全体として単語の収集全体にわたり決定する。このように、特定の文書が、広告誘因文内に確信を裏付ける文脈を含まない場合、すべての広告単語が「一致」する場合でさえ、システムはこの文をトリガしない。すなわち、特定のニュースストーリーが14回を超えて用語「旅行鞄」を含む場合でさえ、「旅行鞄」についての文脈モデルは、記事からの「死体」および「警察」および多くの他のこのような用語のような特徴を含まない。したがって、旅行鞄の広告は本発明のシステムによりトリガされない。
「技術の詳細」
本発明の方法の実施形態は、少なくとも一部は、「0次」条件の確率場として特徴付けられる、最大エントロピー計算を基礎とする。このモデルは、非特許文献1、非特許文献2、非特許文献3、非特許文献4、非特許文献5に記載されており、これらすべては参照により本明細書に引用するものとする。
本発明の情報検索技術は以下の例を参照してここに示される。関心対象の特定のコーパスから抽出されるk個の用語の用語セットが提供されていると仮定する。本発明の技術によれば、2つのバイナリのランダム変数xiおよびyiが用語セットのそれぞれi番目の用語に対して生成される。詳細には、xiはこの用語の観測される値に対して生成され、yiは無観測または隠された値に対して生成される。前述のコーパスから実際の文書dが与えられると、観測される変数セットx1...xkは、用語の頻度がこの文書内でゼロであると、値「0」を割り当て、頻度がゼロより大きい場合、値「1」を割り当てることにより、インスタンス化される。現在、すべての無観測の用語yiに対して、文脈Hiはi番目の用語自体以外の用語セット内のすべての用語に対する観測可能な変数セットとして定義される。
Figure 2008052732
本発明の概念の実施形態によれば、Hi内の用語は、yiに関する予測がなされるときに試験される用語だけである。言い換えると、d内に出現する用語yiの確率は前述のモデルにおけるHiにより完全に決定されると仮定できる。これはまた、変数x1...xkが与えられると、各用語yiが他のすべての用語yjiから条件付で独立していることを意味する。すなわち、「用語文脈モデルの鞄」が作られる。しかし、条件付き変数がすべて独立であることが仮定されず、さらにHi文脈内の任意従属性が可能である、ことを強調することは重要である。
確率場のフレームワークの公知の利点は、対象yiとその文脈Hiとの間の任意従属性を可能にすることである。文脈を形成する特徴は、用語の頻度からハイパーリンクされたテキスト、コンマの位置に至るすべてに基づいて、単純であるかもしれないし複雑であるかもしれない。したがって、当業者には、本発明は任意の特定の種類の特徴を限定しないことは明らかであろう。したがって、本発明のモデルは様々な種類の特徴を許容する。しかし、例示目的のため、許可された従属性のみは、2要素の質問形式「用語xjはこの文書内に出現するか?」に作為的に限定される。
本発明の方法の別の実施形態によれば、質問はHi内の用語の特定のサブセットSについて質問してもよい。この形式の質問に対する回答は特徴関数fsと呼ばれ、Sはfのサポートと称される。所定のサポートS∈Hiに対して、特徴関数fsはxj∈S内の個々の用語についての回答の論理積と定義される。
Figure 2008052732
このように定義されると、特徴関数は、Sにより定義される用語のすべてが文書内に出現する場合、常にブーリアンであり、1に等しい。特徴関数は常に対象用語yiを含む。yiは実際にそれ自体の文脈の一部と見なされないため、これは虚偽ではない。特徴におけるyiの存在はS内の用語の出現を用語yiに結び付けるためのみに役立つ。
図1は単一用語yiに対する用語文脈モデルの例を示している。ノード100−1から100−kは観測可能な変数である。ノード101は、文脈がモデル化されている用語yiに対する隠れ変数である。点線の範囲102の内部の変数は文脈Hiである。例示的な弧103のセットが示される。孤103は、接続されるノードがサポートSである単一特徴関数fsを表す。
「パラメータ形式」
確率P(yi|Hi)を計算するために選択される多数の様々な形式が存在する。本発明の実施形態は、最大エントロピーフレームワークにより与えられる、確率場に対する分散の一般公式を使用する。場の構造を定義する特徴関数セットFが提供されると仮定する。最大エントロピーの原理は、(i)Fにより課せられる構造と一致する、および(ii)最小量の保証されない仮定を行う――すなわち、Fに一致するすべての分散の最大の均一性である、パラメータの形式が選択されなければならないことを示している。これら2つの基準を満たす関数グループは指数関数(または対数線形)グループであり、下記の式で表される。
Figure 2008052732
上記の式では、一連のスカラーΛ={λf:f∈F}は一連の構造的制限Fに対するラグランジュの乗算である。Ziは、yiのすべての可能な値全体に対する分散和が1となることを保証する正規化定数である。
Figure 2008052732
当業者には明らかなとおり、一般確率場に対して、Ziは、隠れ変数の数の指数関数である、システムのすべての可能な構成の総和を含むため、計算が極めて困難である。しかし、ここに記載される本発明の実施形態では、隠れ変数yi...yk間の非従属性の推定を制御することにより、部分関数の計算を極めて単純にすることができる。Ziはyi=0およびyi=1について計算する必要があるだけである。
「目的関数」
以下の説明は、文書内の用語yiの存在を正確に予測する確率分布P(yi|Hi)を求める方法を示している。予測の品質を示す多数の様々な評価基準が存在する。以下の説明は最も簡単なものの1つであるトレーニングデータの対数尤度に焦点を当てる。当業者には明らかなとおり、他の適切な評価基準も同様に使用できる。文書dのトレーニングデータセットTが与えられると、対数尤度は単にT内における用語iの発生確率の平均対数である。
Figure 2008052732
「特徴の導出」
本発明の実施形態による記載のモデルは2つの推定値に依存することに注意しなければならない。第1および最も重要なものは、一連の制限または特徴関数f∈Fとして表される場Fの構造である。これらの制限は、場の変数間の最も重要な従属性を表す。決定される第2要素は、各特徴f∈Fに対しての重みのセットΛ={λf}である。ΛおよびFは密接に関連し、同時に学習する必要があるが、明瞭化のために、説明は2つのセクションに分割される。このセクションは、場の構造Fが徐々に導き出され、極めて均一の無意味な構造で開始し、より関心のある関係に一般化する方法を説明する。
場を導出する手順は、参照によりその全内容が本明細書に引用されている、非特許文献2に記載されているアルゴリズムに厳密に従う。ここに開示されている本発明の実施形態は条件付の場を扱うのに対して、前述のデラ ピエトラ(Della Pietra)らは結合モデルを使用することが主な違いである。したがって、任意の従属性を持たずにこの用語のみを含む場から開始する。すなわち、F0={yi}である。特徴gを追加して対象関数の最大の改善をもたらすことによって、徐々にFを更新する。
k={fs}は現在の場の構造であると仮定する。また、対応する重みΛkがFkに対して最適化されると仮定する。トレーニングデータの尤度をさらに増加する、新しい特徴gをFkに追加する。これを行うために、最初に、加えられる候補特徴セットGを形成する必要がある。Gを現在の構造Fのすべての単一用語拡張のセットであると定義する。
Figure 2008052732
言い換えると、既存の特徴fを使用し、単一の観測可能な用語xiを添付して、新しい候補特徴gを形成する。当然、すでにFの要素であるいずれの特徴も候補として含まない。デラ ピエトラ(Della Pietra)の理論にしたがって、目的関数における最大の改善をもたらす候補を得る。
最初に、下記(1)はgの経験的または対象期待値を示し、この期待値は、単に、どのくらいの頻度で(すなわち、どれほど多くの様々な文書内に)、特徴がトレーニングデータT内に実際に出現するかを表すものとする。同様に、推定値である下記(2)は関数gに対して予測される期待値である下記(3)を生じる。予測される期待値は、どのぐらいの頻度で、gがトレーニングセットにおいて出現すべきであると、単にモデルが「考える」ものである。次に、Fkのみに基づく以前の対数尤度は下記(4)であると仮定する。乗数αにより重み付けされる特徴gを加える場合、トレーニングデータの新しい尤度は下記(5)のとおりである。
Figure 2008052732
ここに記載される特徴関数がバイナリであるため、重みαは、αに関する新しい対数尤度である下記(6)を微分し、微分の平方根を見出すことにより閉形式(7)で決定される。
Figure 2008052732
また、αを知ることにより、閉形式の対数尤度における結果として得られる改善または利得を計算できる。
Figure 2008052732
「パラメータ推定」
前のセクションでは、最も見込みのある候補特徴g∈Gを除々に追加することにより、自動的に確率場の構造を導出する方法を説明した。場における他の特徴の重みにgを追加する効果は以前には説明していない。特徴f∈Fは互いに独立していないため、新しい特徴の追加は既存の特徴の均衡、すなわち対象関数に影響を与える。現在場に存在するすべての関数に対する重みを再最適化することにより目的をさらに改善できる。
構造Fは所望の特徴のすべてを含むと仮定する。重みセットΛを調整することにより、これらの導関数をゼロにする目的で、目的関数である上記(4)が各重みλfに関して上記(4)の偏導関数を計算することで最大化されるようにする。重みをそれら重みの最適値に設定するための閉形式の解は存在しないため、勾配降下法などの反復法を利用する。学習手順はかなりの費用がかかる。しかし、学習は全体最適化に収束することを保証する。目的関数は重みλfに関して∩−凸関数である。
「場を導出するアルゴリズム」
先のサブセクションの構成要素は、用語yiに対する文脈モデルを自動的に導出するための1つのアルゴリズムを生成する。
(I)初期化
a.非文脈を用いて、用語自体の特徴のみを含むように特徴セットF0を選択する:F0={yi}。
b.この特徴に対して初期重みλf=1を設定する。
(II)重みの更新
a.勾配を計算し、勾配の方向における小さなステップでλfを調整する。
b.所定の条件に一致するまで(a)を繰返す(例えば、n回の反復に対して、または尤度における顕著な変化がなくなるまで、およびその他)。
(III)特徴の導出
a.候補特徴セットを数える。
b.すべての候補gに対して最適重みαgを求める。
c.すべての候補gに対して、gが特徴セットFに加えられている場合に得られる、情報の利得を求める。
d.最も高い利得を生じる候補gを選び、Fに加え、λf=αに設定する。
e.(例えば、n回の反復に対して、または尤度における顕著な変化がなくなるまで、その他)所定の条件に一致するまで、手順(II)に戻る。この条件が一致すれば、モデルとしてFおよびΛを戻す。
「最終詳細」
汎用モデル生成アルゴリズムは先に述べているが、評価については、要求される強力な計算リソースに起因して、いくつかの制限が課せられる。第1の制限は、ステップ(IIb)が12回実行され、ステップ(IIIe)が30回実行されて、合計30の特徴を導出することである。
第2の制限は、候補特徴用語セットx1...xkにある。用語セット全体を使用するのでなく、対象用語yiが少なくとも1回出現する、最も高い頻度の文書における500の用語を使用する。言うまでもなく、このサブセットはすべてのyiに対して異なる。30の最良特徴が候補セットから学習される。
課せられる最終的な制限は特徴サポートの許容サイズである。前述のとおり、特徴は任意の数の観測可能な用語xjを含む。2および3のサポート用語を許容するいくつかの予備的稼動を実行すると同時に、後のセクションに示される検索結果は単一サポート用語を備える特徴に制限されるモデルを使用して実行した。汎用モデルはさらに多くを可能にする。
なお、本発明の方法の実施形態はポーターステマー(Porter stemmer)を使用して用語をステミングし合成して、同一の根を共有するすべての用語(すなわち、car/cars)に対して単一変数xi(ならびに単一変数yi)が存在するようにする。前述のポーターステマー(Porter stemmer)は、非特許文献6に詳細に記載されており、その全内容は本明細書に引用するものとする。なお、優れた汎用文脈モデルの学習目的を幾分無効にするため、「cars」を「car」の用語文脈モデル内のサポート特徴にすることは望ましくない。
「モデルの例」
用語文脈モデルの2つの例は、それぞれ図2および3に示されている表200および300に示されている。これらのモデルは、ほぼ131,000個のロサンジェルスタイムズ(Los Angeles Times)の新聞記事でトレーニングされた。表200および300の左側の列には、対応する特徴に割当てられるλ重みがある。中間の列はモデル用語の予測に役立つサポート特徴を含む。比較のために、右側の列は、サポート特徴とモデル用語との標準的同時出現値を含む。負の特徴重みは、この特徴の存在が、モデル用語が文書内に存在してはならないことの適当な表示であることを意味する。図3から分かるとおり、本発明のモデルは、モデル用語homeの1つだけの意味ではなく、2つの意味:「house」および「baseball」を取得する。
「方法の一般的特性」
前述の技術では、導出される特徴の数、導出される特徴のサイズ、ブーリアン用語の存在に基づく特徴、情報利得による強引に導出される特徴、単集合の単語と定義される「用語」等、のような複数の方法でパラメータ化された、ある特定のタイプの用語文脈モデルを説明した。
最初に、モデルの有効性を実証するために、いくつかの特性を選択する必要がある。しかし、本発明の方法はこれよりさらに一般的である。例えば、本発明の方法は、ブーリアンサポート用語の存在ではなく、文脈の任意の実数値関数を含む特徴にも対応する。特徴は情報利得以外の方法により導出することができる。1反復当たり1つより多い特徴が追加される。実際には、第1反復の間にモデルにn個の特徴のすべてさえ追加でき、その後、重みを学習および再度均衡させるために残りの時間を費やす。本発明の方法の実施形態は、前述の特徴を使用してテキストの類似性を求めることを特徴とする。
自己トリガは、ラベル付けされたトレーニングデータとして使用されない限り許可される。例えば、「キリン」が予測しようとする用語であり「キリンがこの文書内に出現する」がサポート関数である場合、用語の第1出現がサポート機能により「受け入れられ」なければならないため、「キリン」に対してこのサポート関数を正のデータ点にするために、文書は少なくとも2回の「キリン」の出現を含まなければならない。同様に、サポート関数が「キリンはこの文書に4回出現する」である場合、最初の4つがサポート特徴により受け入れられるため、このサポート関数を正のトレーニングインスタンスにするために少なくとも5回の「キリン」の出現を必要とする。
本発明の方法の様々な実施形態は、30を超えるまたは下回る特徴を使用できる。しかし、説明された方法の新規性は、すべての可能な特徴(例えば、収集からの用語の用語セット全体)が使用されるとは限らないということである。説明された方法の新規性を形成する部分は、データに対する本発明のモデルを過剰適合しないことにより、他の方法に比べて、文脈的により「中心」である用語の出現を取り込むことが可能なことである。
「文脈」は、文書全体よりむしろ文書内の節として定義されることに注意されなければならない。または、アプリケーションが回線からのストリーミングニュースである場合、文脈は前のn個のニュース記事または前のn日間におけるニュース記事すべてとして定義される。これは文書の境界を制限しない。本発明の文脈モデルはまた、任意の適切な基準を使用してユーザによりパーソナライズされるデータセットを使用して、トレーニングされる。
「用語」は必ずしも単一単語ではない。例えば、熟語は1用語として考えられ、例えば「ニューヨーク」は単一用語であり、2つの用語ではない。この意味では、用語は実際には、任意の単独形の、索引付け可能なエンティティであり、文書内に発見されるまたは発見されないかのいずれかである。したがって、ブーリアンの一致を生じる、任意の用語または用語の組み合わせまたは用語の否定は、文脈モデルに対する予測値として使用できる。
例えば、2つの単語の結合{book AND binding}に対してモデルをトレーニングする。これは用語「本(book)」および「製本(binding)」が両方同一文書内で発見される場合は常に一致する。また、単一句の用語{「book binding」}に対してモデルを訓練する。これは、両方の単語が、隣接して同一順序で発見される場合は常に一致する。{unix OR linux OR MacOS}のような、分離した用語についてもモデルをトレーニングできる。{「operating
systems」AND NOT Windows(登録商標)}のような、否定用語を含むモデルをトレーニングできる。
したがって、用語文脈モデルは「テキストベースのブーリアン文」文脈モデルを記述する。本発明の方法は、あらゆる任意テキストのブーリアン文の文脈の発見、モデル化および利用に対するメカニズムを提供する。
以下のセクションでは、アドホック(ad hoc)な文書検索に適用することにより、その有用性を示す用語文脈モデルの評価方法が提供される。ただし、本発明の用語文脈モデルは、通常の用語の出現の方法が使用される、任意の場所におけるテキストの類似性を決定するための方法として適用される。これは、アドホックな検索だけではなく、文書のルーティングおよびフィルタリングおよびトピックの検出およびごく僅かのものを指定するためのトラッキングのようなことを含む。推奨システム(例えば、パルバー(Palbar))は、これが使用されることができる別の領域である。また、テキストの類似性を決定する本発明の方法は、グーグル(Google)のアドセンス(AdSense)、ヤフー(Yahoo)のアドセントラル(Ad Central)およびマイクロソフト(Microsoft)のアドセンター(AdCenter)のような、オンライン広告に組み込みできることを、特に言及しておかなければならない。
「評価」
用語についての文脈モデルを生成するフレームワークが構成された後に、これをアドホックな情報検索タスクに適用することによって評価がされる。これは、このフレームワークの適用だけではなく、本発明の方法の実施形態の価値を実証できるものである。
「文脈モデルを利用した文書−クエリスコアリング」
アドホックな検索は以下のように機能する。本発明のシステムは、ユーザのクエリと収集内のすべての文書との間の類似性の評価基準を求める。文書はその後このスコアにより分類されユーザに提示される。システムは、ユーザの情報の必要性に関連する文書のランクを調べることにより比較される。1つのシステムが、別のシステムより高いランクのより関連する文書を有する場合、そのシステムがより優れていると考えられる。
本発明の方法の実施形態による用語文脈モデルは、クエリ文書の類似性スコアを推定するための技術として使用され、その後検索プロセスを強化するために使用される。収集内の各クエリ用語および各文書に対して、クエリ用語の文脈モデルが、文書内に存在すると確信する度合いが計算される。文脈モデルが互いに独立していると仮定されるため、これらの確率は乗算によって結合される。したがって、クエリ用語qに対する文書dに関する確率のスコアは下記のとおりである。
Figure 2008052732
これらの計算は、モデルがトレーニングされる全く同一の収集について実行される。これは虚偽ではない。モデルは用語セット全体についての特徴を含んでいないため、モデルは収集に対して過適合ではない。上位30の特徴のみを使用することにより(モデルを構築する間、これらの特徴は最高の情報利得を生じる)、本発明の方法の実施形態は事実上用語の30の最も突出する態様を取得する。
全体として収集に関してトレーニングされる際、不規則または「文脈外」である用語の出現が存在する。このような出現は、より文脈的に標準である出現より低い確率を有する。この結果、モデルは、この用語の用語頻度が高い場合であっても、文書内の用語に対して低い確率を割当てる。また、用語の頻度が低い他の文書も存在するが、その文書内の文脈ベースの確率は高くなる。理想的には、文脈ベースの確率ならびに実際のtfが高い文書は、ユーザの情報の必要性に正確に一致する文書である。
「文脈モデルスコアと既存の方法との統合」
スタンドアロンのランキング機能として、本発明の概念の実施形態によるモデルは適正な検索には十分ではない。用語の頻度および文書の頻度は依然として必要である。しかし、前述のとおり、用語の高頻度および文脈の低スコアを備える文書は、用語の高頻度および文脈の高スコアを備える文書と同様には扱えない。文脈モデルのスコアは、今では優れた検索結果を強化する方法として役立つ。
この目的のために、非特許文献7に詳細に説明されており、その全内容は本明細書に引用されている、Okapi BM25として公知である検索アルゴリズムから開始する。これは、TRECのような標準の評価セットにおける最良の結果の中でも一貫性を備える、公知であり高性能なアルゴリズムである。前述のTREC評価セットは、非特許文献8に詳細に説明されており、その全内容は本明細書に引用されている。本発明の方法の実施形態がBM25において向上することが示されるならば、本発明の技術の価値が確立されるだろう。
本発明の目的は、文脈モデルにより提供される幾分直交する情報を用いてBM25を強化することである。この発想は、本質的にtfベースであるBM25の方法が、文脈ベースのTCM方法より幾分異なるランキングを与えるであろうことである。BM25で生じる「間違い」はTCMで生じるものと同一ではなく、この逆も言える。両方の方法により提供されるスコアが融合されると、関連文書は上位に移動され、偽の一致は落とされなければならない。多くの融合技術が利用されると同時に、スコアの単純な線形結合が実行された。ここで、TCM(q,d)およびBM25(q,d)は、用語文脈モデルおよびBM25に対するスコアであり、それぞれ文書dのクエリ用語qを使用する。
Figure 2008052732
「主な実験」
当業者には公知の、標準のTRECデータセットを用いて、モデルを評価した。実験は150のクエリから成り、TRECのアドホックなトピック301〜450に対する表題のみ使用する。モデルは、TRECのボリューム(volume)5において、ロサンジェルスタイムズ(LA Times)からの略131,000個の文書を使用して、クエリ用語のそれぞれに対して構築した。150のクエリはこの同一コーパス上で実行した。(このコーパスにおいて、150のクエリのうちの143のみが関連性文書を有し、したがって、実際には前述の実験に対して143のクエリのみ使用した、ことを注記しておく。しかし、これはなお、統計的有意性を確立するために使用される標準の量である50のクエリよりはるかに多い)。
賢明な観測者は、試験コーパスおよびトレーニングコーパスの間の区分の不足の欠点を見出すであろう。この容態は、検索する同一のコーパスにおいて計算(トレーニング)されるidf重み、または検索する同一の文書において計算(トレーニング)されるtf重みを使用するより問題が少ないと思われる。これらのモデルは普遍の真理を表すように作られていない。検索するために使用されるコーパスのある特定の際立った特性を取り込むために作られているだけである。別の方法では、モデルの予測品質は評価されない。このような場合、実験は試験およびトレーニングに区分される必要はない。代わりに、モデルは検索を向上するために使用される。したがって、検索されるものと同一コーパスの統計が使用されなければならない。
図4の表400に、λが0.5に設定されている結果が示されている。精度における最高の利得はランク付けリストの上部にある。これらの利得は5〜6%であり、統計的に有意である。この増加は、文脈モデルが、文脈的「中心」の用語の使用により重みを与え、文脈がその用語をサポートしない、より高い用語の頻度の文書の一部を除くために起こると考えられる。詳細な分析が必要とされるが、これは予測された結果であり、本発明の方法が正しいことを実証している。
また、得られた結果は混合パラメータλに対して極めて堅牢であることが言及されなければならない。0.0〜1.0にわたって段階的に0.1の間隔で変化させた混合重みが試験された。ほとんどすべてのレベルの予測および再現にわたる統計的に有意な改善は、0.7で最良の混合を備える、0.3〜0.8の範囲のλを使用して得られた。実際には、最良の混合重みを使用して、0.0の補間再現、+4.08%の平均精度、および+5.05%の検索|関連で+7.1%を得た。したがって、混合パラメータを調製するのではなく、λ=0.5の「最大エントロピー」の値を選択して、図4に示されている表400に見られるとおり、本発明の方法の堅牢性を実証した。
実際には、これは、BM25が上位10における略2.5の関連文書を提供することを意味する。TCM混合では、この数字は2.7に達する。ユーザによりなされる5つのクエリ毎に、上位10に追加の関連文書が存在するだろう。これらの結果は大きくないが、それにも関わらず、統計的には有意である。多くのユーザが毎日数十の検索を実行すると仮定すると、5回のクエリ中の1回を著しく向上することは大きなことである。検索エンジン会社グーグル(Google)は、課題(project)または特徴がこれらのユーザベースの5%に影響を与える場合、それらをグーグル(Google)の検索エンジンに加える(または一体化する)、という経験則を有する。他方では、本発明の方法の実施形態はユーザの20%に影響を与える。発行される5回のクエリにおける1回はすべて、結果において顕著な改善を有する。
「追加実験」
本発明の方法の価値に対する証拠の最終的な1つとして、クエリ用語が存在しない関連文書のみが見られる、補足実験を用いて評価した。ロサンジェルスタイムズ(LA Times)は、クエリに共通する用語を有さない、66のクエリにわたる489の関連文書を含む。tfベースの方法の使用は機能せず、489の関連文書の1つのみがBM25を使用して上位1000にランクされる。さらに、脱落したクエリ用語の正規化された収集頻度を使用して平滑化された言語モデルを試験した。クエリ用語を含まないすべての文書は、文書の相対ランキングに影響しない文脈に無関係に、等しく円滑化されるため、これは同様に(また上位1000の内の489の関連文書のまさに1つ)無効である。
しかし、単にTCM方法だけを使用すると、489の関連文書の内の82を上位1000内に引き込み、24を上位30に、および7を上位10に引き込むことが可能であった。残りの文書の78%もまた、60,000台におけるランクから1000台に向上される。これらの改善は、スタンドアロンのランキングアルゴリズムとしてTCMを使用して正当化するには極端に小さく極めて小数である。しかし、それらは、本発明のモデルが、tfベースの方法とは文書のランキングに関して異なる方法を提供することを示している。
「例示的なコンピュータ化システム」
図5は、本発明の方法の実施形態を実現できるコンピュータ/サーバシステム500の実施形態を示したブロック図である。システム500はコンピュータ/サーバプラットフォーム501、周辺装置502およびネットワークリソース503を含む。
コンピュータプラットフォーム501は、データバス504もしくはコンピュータプラットフォーム501の様々な部分にわたって、および、様々な部分の間で情報を通信するための他の通信メカニズムと、情報を処理し、他の計算および制御タスクを実行するための、データバス504に連結されているプロセッサ505と、を含む。コンピュータプラットフォーム501はまた、プロセッサ505により実行される様々な情報ならびに命令を格納する、データバス504に結合されている、ランダムアクセスメモリ(RAM)または他の動的記憶装置のような揮発性記憶装置506を含む。揮発性記憶装置506はまた、プロセッサ505による命令の実行中に一時的変数または他の中間情報を格納するために使用される。コンピュータプラットフォーム501はさらに、BIOS(basic input−output system)ならびに様々なシステム設定パラメータのようなプロセッサ505のための静的情報および命令を格納するためにバス504に結合されている、読み出し専用メモリ(ROMまたはEPROM)507または他の静的記憶装置を含む。コンピュータプラットフォーム501には、磁気ディスク、光ディスクまたは半導体フラッシュメモリ装置のような、固定記憶装置508が備えられ、情報および命令を格納するためにバス504に結合される。
コンピュータプラットフォーム501は、コンピュータプラットフォーム501のシステム管理者またはユーザに情報を表示するために、陰極線管(CRT)、プラズマディスプレイまたは液晶ディスプレイ(LCD)のような表示装置509にデータバス504を介して結合される。文字数字および他のキーを含む入力装置510は、プロセッサ505に情報およびコマンドの選択を通信するために、データバス504に結合される。別の種類のユーザ入力装置は、プロセッサ505に指示情報およびコマンドの選択を通信するため、および表示装置509上でカーソルの動きを制御するための、マウス、トラックボールまたはカーソル方向キーのような、カーソル制御装置511である。この入力装置は、一般に、該装置が平面における位置を指定することができる、2つの軸、第1軸(例えばx)および第2軸(例えばy)における2つの自由度を有する。
外部記憶装置512がデータバス504を介してコンピュータプラットフォーム501に接続され、コンピュータプラットフォーム501に外部または着脱可能な記憶容量を提供する。コンピュータシステム500の一実施形態では、外部の着脱可能な記憶装置512は他のコンピュータシステムとデータの交換を促進するために使用される。
本発明は、ここに記載される技術を実現するコンピュータシステム500の利用に関する。一実施形態では、本発明のシステムはコンピュータプラットフォーム501のようなマシン上に存在する。本発明の一実施形態によれば、ここに説明されている技術は、揮発性記憶装置506に含まれる1つまたは複数の命令の1つまたは複数のシーケンスを実行するプロセッサ505に対応してコンピュータシステム500により実行される。このような命令は、固定記憶装置508などの、別のコンピュータ可読媒体から揮発性メモリ506に読み込まれる。揮発性メモリ506に含まれる命令シーケンスの実行により、プロセッサ505はここに説明されている処理ステップを実行する。代替の実施形態では、本発明を実現するために、配線接続の回路がソフトウェア命令の代わりに、またはそれと組み合わせて使用される。したがって、本発明の実施形態はハードウェア回路およびソフトウェアのあらゆる特定の組み合わせに限定されない。
ここで使用される用語「コンピュータ可読媒体」は、実行のためにプロセッサ505に命令を提供することに関与するすべての媒体を指す。コンピュータ可読媒体は、ここに説明される方法、技術などのいずれかを実現するための命令を保持する、マシン可読媒体の一例である。このような媒体は、多くの形式を採り、不揮発性媒体、揮発性媒体および伝達媒体を含むがこれに限定されない。不揮発性媒体は、例えば、記憶装置508のような、光または磁気ディスクを含む。揮発性媒体は、揮発性記憶装置506などの、動的記憶装置を含む。伝達媒体は、データバス504を備えるワイヤを含む、同軸ケーブル、銅線および光ファイバを含む。伝達媒体はまた、例えば電波および赤外線データ通信の間に生成される、音波または光波の形を採ることもできる。
コンピュータ可読媒体の一般的な形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープまたは任意の他の磁気媒体、CD−ROM、任意の他の光媒体、パンチカード、紙テープ、穴のパターンを備える任意の他の物理的な媒体、RAM、PROM、EPROM、フラッシュEPROM、フラッシュドライブ、メモリカード、任意の他のメモリチップまたはカートリッジ、以下に説明される搬送波、またはコンピュータ読み取り可能な任意の他の媒体を含む。
様々な形態のコンピュータ可読媒体は、実行のためにプロセッサ505に対する1つまたは複数の命令の1つまたは複数のシーケンスの保持に関与する。例えば、命令は最初に、リモートコンピュータから磁気ディスクに移される。代替として、リモートコンピュータは動的メモリに命令をロードし、モデムを使用して電話線を介して命令を送る。コンピュータシステム500に配置されているモデムは電話線上でデータを受信し、赤外線送信機を使用してデータを赤外線信号に変換できる。赤外線検出器は、赤外線信号で搬送されるデータを受信でき、適切な回路素子はデータバス504上にデータを配置できる。データバス504は、プロセッサ505が命令を検索し実行する、揮発性記憶装置506にデータを移す。揮発性記憶装置506から受け取られる命令は、プロセッサ505による実行の前または後のどちらかに、固定記憶装置508上に随意に格納される。命令はまた、技術的に公知の様々なネットワークデータ通信プロトコルを使用してインターネットを介してコンピュータプラットフォーム501にダウンロードされる。
コンピュータプラットフォーム501はまた、データバス504に結合されるネットワークインターフェースカード513のような、通信インターフェースを含む。通信インターフェース513は、ローカルエリアネットワーク515に接続されるネットワークリンク514に結合する、双方向のデータ通信を提供する。例えば、通信インターフェース513は総合ディジタル通信網(ISDN)カードまたはモデムであり、対応する種類の電話線を介してデータ通信接続を提供する。別の例として、通信インターフェース513はローカルエリアネットワークインターフェースカード(LAN NIC)であり互換性のあるLANにデータ通信接続を提供する。公知の802.11a、802.11b、802.11gおよびブルートゥースのような、無線リンクもまた、ネットワークの実装に対して使用される。任意のこのような実現形態では、通信インターフェース513は様々な種類の情報を表す、ディジタルデータストリームを搬送する、電気的、電磁気的または光信号を送信および受信する。
ネットワークリンク514は一般に、他のネットワークリソースに1つまたは複数のネットワークを介してデータ通信を提供する。例えば、ネットワークリンク514は、ホストコンピュータまたはネットワーク記憶装置/サーバ522への、ローカルエリアネットワーク515を介する接続を提供する。追加または代替的に、ネットワークリンク514は、インターネットのような、広域または世界規模のネットワーク518にゲートウェイ/ファイアウォール517を介して接続する。その結果、コンピュータプラットフォーム501は、リモートネットワーク記憶装置/サーバ519のような、インターネット518上の任意の場所に配置されるネットワークリソースにアクセスできる。他方では、コンピュータプラットフォーム501はまた、ローカルエリアネットワーク515、インターネット518上の任意の場所に配置されるクライアントによりアクセスされることができる。ネットワーククライアント520および521はこれら自体が、プラットフォーム501と同様のコンピュータプラットフォームに基づいて実現される。
ローカルエリアネットワーク515およびインターネット518の両方は、ディジタルデータストリームを搬送する、電気、電磁気または光信号を使用する。様々なネットワークを介する信号およびネットワークリンク514上のおよび通信インターフェース513を介する信号(コンピュータプラットフォーム501との間でディジタル信号を搬送する)は、情報を移動する搬送波の一般的な形態である。
コンピュータプラットフォーム501は、インターネット518およびLAN515、ネットワークリンク514および通信インターフェース513を含む様々なネットワークを介して、メッセージを送信し、およびプログラムコードを含むデータを受信できる。インターネットの例では、システム500がネットワークサーバとして動作する場合、インターネット518、ゲートウェイ/ファイアウォール517、ローカルエリアネットワーク515および通信インターフェース513を介して、クライアント520、521上などで実行するアプリケーションプログラムに対して必要なコードまたはデータを送信する。同様に、他のネットワークリソースからコードを受信する。
受信されたコードは、受信されるとプロセッサ505により実行されたり、後の実行のために、固定または揮発性記憶装置508および506にそれぞれ格納されたり、または他の非揮発性記憶装置に格納されたりする。この方法では、コンピュータシステム500は搬送波の形でアプリケーションコードを取得する。
最後に、ここに説明されている方法および技術はあらゆる特定の装置に固有に関連せず、構成要素の任意の適切な組み合わせにより実現可能であるとされることは、理解されなければならない。さらに、様々な種類の汎用装置がここに説明されている技術により使用できる。また、ここに説明されている方法のステップを実行するために特化された装置を構成することが有利であることも立証できる。本発明は、すべての点において、制限ではなく説明することを目的とする特定の例に対して説明されている。当業者には、ハードウェア、ソフトウェアおよびファームウェアの多くの様々な組み合わせが本発明の実行に適していることが明らかであろう。例えば、説明されているソフトウェアは、アセンブラ(Assembler)、C/C++、パール(perl)、シェル(shell)、PHP、ジャバ(Java(登録商標))、他のような、広範な種類のプログラミングまたはスクリプト言語で実現できる。
さらに、本発明の他の実現形態は、本明細書に開示される本発明の明細および実施から当業者には明らかであろう。記載された実施形態の様々な態様、構成要素などは、データ反復機能を備えるコンピュータ化記憶システムにおいて、単一でまたは任意の組み合わせで使用できる。特許請求の範囲により示される本発明の真の範囲および精神により、明細および例は単に例示と考えるものとする。
単一用語に対する用語文脈モデルの例示的な実施形態を示している。 用語文脈モデルの別の例示的実施形態を示している。 用語文脈モデルの別の例示的実施形態を示している。 本発明のモデルの実施形態の実験テストの結果を示している。 本発明のシステムを実装できるコンピュータプラットフォームの例示的な実施形態を示している。
符号の説明
500 コンピュータ/サーバシステム
501 コンピュータ/サーバプラットフォーム
502 周辺装置
503 ネットワークリソース

Claims (21)

  1. 第1テキストオブジェクトと第2テキストオブジェクトとの間の類似性を計算する方法であって、
    a.前記第1テキストオブジェクトを使用して、該第1テキストオブジェクトに関する文脈モデルを導出し、
    b.導出された前記文脈モデルを使用して、前記第1テキストオブジェクトと前記第2テキストオブジェクトとの間の類似性を計算する、
    類似性計算方法。
  2. 前記第1テキストオブジェクトは少なくとも1つのキーワードを含む、請求項1に記載の類似性計算方法。
  3. 前記第1テキストオブジェクトは少なくとも1つの熟語を含む、請求項1に記載の類似性計算方法。
  4. 前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つの用語を含む、請求項1に記載の類似性計算方法。
  5. 前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する複数の用語を含む、請求項1に記載の類似性計算方法。
  6. 前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つの熟語を含む、請求項1に記載の類似性計算方法。
  7. 前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する複数の熟語を含む、請求項1に記載の類似性計算方法。
  8. 前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つのキーワードおよび少なくとも1つの熟語を含む、請求項1に記載の類似性計算方法。
  9. 前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つの用語近似条件を含む、請求項1に記載の類似性計算方法。
  10. 前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つの用語関係条件を備える、請求項1に記載の類似性計算方法。
  11. 前記第1テキストオブジェクトと前記第2テキストオブジェクトとの間の前記類似性は確率スコアの計算を用いて求められる、請求項1に記載の類似性計算方法。
  12. 計算された前記類似性に基づいて少なくとも1つの文書を検索することをさらに含む、請求項1に記載の類似性計算方法。
  13. 計算された前記類似性に基づいて検索された文書をランク付けすることをさらに含む、請求項12に記載の類似性計算方法。
  14. 前記第1テキストオブジェクトはモデル用語を含み、
    前記文脈モデルは前記モデル用語の予測を支援するサポート特徴を含む、
    請求項1に記載の類似性計算方法。
  15. 前記文脈モデルはさらに前記サポート特徴に割り当てられる重みを含む、請求項14に記載の類似性計算方法。
  16. テキストの本体を使用して前記文脈モデルのトレーニングを行うことをさらに含む、請求項1に記載の類似性計算方法。
  17. 用語に対する文脈モデルを自動的に導出する方法であって、
    a.文脈のない用語の特徴のみを含む特徴セットを選択し、
    b.前記特徴に対して初期重みを1に設定し、
    c.前記特徴に対する前記重みを更新し、
    d.特徴の導出を実行する、
    文脈モデル導出方法。
  18. cは、
    i.勾配を計算し、初期重みを前記勾配の方向に小さなステップで調整し、
    ii.所定の条件に適合するまでaを繰返す、
    請求項17に記載の文脈モデル導出方法。
  19. dは、
    i.候補の特徴セットを数え、
    ii.前記候補の特徴セットのそれぞれに対して最適な重みを計算し、
    iii.前記候補の特徴セットのそれぞれに対して、前記特徴セットへの前記候補の特徴セットのそれぞれを追加することにより情報利得を計算し、
    iv.最も高い利得を生じる、前記候補の特徴セットの候補特徴を選び、前記特徴セットに前記候補特徴を加え、
    v.所定の条件に適合するまで、cに戻る、
    請求項17に記載の文脈モデル導出方法。
  20. 第1テキストオブジェクトと第2テキストオブジェクトとの間の類似性を計算する機能をコンピュータに実行させるためのコンピュータプログラムであって、
    a.前記第1テキストオブジェクトを使用して、該第1テキストオブジェクトに関する文脈モデルを導出する機能と、
    b.導出された前記文脈モデルを使用して、前記第1テキストオブジェクトと前記第2テキストオブジェクトとの間の類似性を計算する機能と、
    を実行させるためのコンピュータプログラム。
  21. 用語に対する文脈モデルを自動的に導出する機能をコンピュータに実行させるためのコンピュータプログラムであって、
    a.文脈のない用語の特徴のみを含む特徴セットを選択する機能と、
    b.前記特徴の初期重みを1に設定する機能と、
    c.前記特徴の重みを更新する機能と、
    d.特徴の導出を実行する機能と、
    を実行させるためのコンピュータプログラム。
JP2007212218A 2006-08-22 2007-08-16 類似性計算方法、文脈モデル導出方法、類似性計算プログラム、文脈モデル導出プログラム Expired - Fee Related JP5157314B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/508476 2006-08-22
US11/508,476 US7937397B2 (en) 2006-08-22 2006-08-22 Apparatus and method for term context modeling for information retrieval

Publications (2)

Publication Number Publication Date
JP2008052732A true JP2008052732A (ja) 2008-03-06
JP5157314B2 JP5157314B2 (ja) 2013-03-06

Family

ID=39197883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007212218A Expired - Fee Related JP5157314B2 (ja) 2006-08-22 2007-08-16 類似性計算方法、文脈モデル導出方法、類似性計算プログラム、文脈モデル導出プログラム

Country Status (2)

Country Link
US (1) US7937397B2 (ja)
JP (1) JP5157314B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100986404B1 (ko) 2008-06-30 2010-10-08 한양대학교 산학협력단 블로그 환경에서 중복포스트의 검출 방법 및 그 장치
KR101212795B1 (ko) 2009-12-28 2012-12-14 주식회사 케이티 다중 목적 영역의 통계적 대화 정책 추론 방법
WO2020060161A1 (ko) * 2018-09-17 2020-03-26 유진바이오소프트 주식회사 대화형 인터페이스를 이용한 통계 분석 시스템과 통계분석 방법

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7505964B2 (en) 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US9110975B1 (en) 2006-11-02 2015-08-18 Google Inc. Search result inputs using variant generalized queries
US20080114750A1 (en) * 2006-11-14 2008-05-15 Microsoft Corporation Retrieval and ranking of items utilizing similarity
US20080147579A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Discriminative training using boosted lasso
US8280877B2 (en) * 2007-02-22 2012-10-02 Microsoft Corporation Diverse topic phrase extraction
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US8694374B1 (en) 2007-03-14 2014-04-08 Google Inc. Detecting click spam
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
US8542748B2 (en) 2008-03-28 2013-09-24 Sharp Laboratories Of America, Inc. Methods and systems for parallel video encoding and decoding
US20100076978A1 (en) * 2008-09-09 2010-03-25 Microsoft Corporation Summarizing online forums into question-context-answer triples
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US8175388B1 (en) * 2009-01-30 2012-05-08 Adobe Systems Incorporated Recognizing text at multiple orientations
US8527500B2 (en) * 2009-02-27 2013-09-03 Red Hat, Inc. Preprocessing text to enhance statistical features
US8396850B2 (en) * 2009-02-27 2013-03-12 Red Hat, Inc. Discriminating search results by phrase analysis
US9009146B1 (en) 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US10891659B2 (en) 2009-05-29 2021-01-12 Red Hat, Inc. Placing resources in displayed web pages via context modeling
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
KR101089450B1 (ko) 2009-11-03 2011-12-07 포항공과대학교 산학협력단 사용자 시뮬레이션 시스템 및 방법
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
US8671040B2 (en) * 2010-07-23 2014-03-11 Thomson Reuters Global Resources Credit risk mining
US8344917B2 (en) * 2010-09-30 2013-01-01 Sharp Laboratories Of America, Inc. Methods and systems for context initialization in video coding and decoding
US9313514B2 (en) 2010-10-01 2016-04-12 Sharp Kabushiki Kaisha Methods and systems for entropy coder initialization
US8645364B2 (en) 2010-12-13 2014-02-04 Google Inc. Providing definitions that are sensitive to the context of a text
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
US20130212095A1 (en) * 2012-01-16 2013-08-15 Haim BARAD System and method for mark-up language document rank analysis
US9122681B2 (en) 2013-03-15 2015-09-01 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques
US9183499B1 (en) 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
JP6468364B2 (ja) * 2015-04-24 2019-02-13 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
US10229117B2 (en) 2015-06-19 2019-03-12 Gordon V. Cormack Systems and methods for conducting a highly autonomous technology-assisted review classification
US10706048B2 (en) * 2017-02-13 2020-07-07 International Business Machines Corporation Weighting and expanding query terms based on language model favoring surprising words
JP2019204246A (ja) * 2018-05-23 2019-11-28 株式会社日立製作所 学習データ作成方法及び学習データ作成装置
EP3665543A1 (en) * 2018-10-18 2020-06-17 Google LLC. Contextual estimation of link information gain
CN110413878B (zh) * 2019-07-04 2022-04-15 五五海淘(上海)科技股份有限公司 基于自适应弹性网络的用户-商品偏好的预测装置和方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005302042A (ja) * 2004-04-15 2005-10-27 Microsoft Corp マルチセンスクエリについての関連語提案
JP2006072787A (ja) * 2004-09-03 2006-03-16 Advanced Telecommunication Research Institute International 自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US7392174B2 (en) * 2000-03-20 2008-06-24 Freeman Robert J Natural-language processing system using a large corpus
US7295965B2 (en) * 2001-06-29 2007-11-13 Honeywell International Inc. Method and apparatus for determining a measure of similarity between natural language sentences
US7720675B2 (en) * 2003-10-27 2010-05-18 Educational Testing Service Method and system for determining text coherence

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005302042A (ja) * 2004-04-15 2005-10-27 Microsoft Corp マルチセンスクエリについての関連語提案
JP2006072787A (ja) * 2004-09-03 2006-03-16 Advanced Telecommunication Research Institute International 自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100986404B1 (ko) 2008-06-30 2010-10-08 한양대학교 산학협력단 블로그 환경에서 중복포스트의 검출 방법 및 그 장치
KR101212795B1 (ko) 2009-12-28 2012-12-14 주식회사 케이티 다중 목적 영역의 통계적 대화 정책 추론 방법
WO2020060161A1 (ko) * 2018-09-17 2020-03-26 유진바이오소프트 주식회사 대화형 인터페이스를 이용한 통계 분석 시스템과 통계분석 방법

Also Published As

Publication number Publication date
US7937397B2 (en) 2011-05-03
JP5157314B2 (ja) 2013-03-06
US20080052273A1 (en) 2008-02-28

Similar Documents

Publication Publication Date Title
JP5157314B2 (ja) 類似性計算方法、文脈モデル導出方法、類似性計算プログラム、文脈モデル導出プログラム
TWI732271B (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
Yan et al. Building task-oriented dialogue systems for online shopping
CN107832414B (zh) 用于推送信息的方法和装置
Tang et al. Sentiment embeddings with applications to sentiment analysis
Liu et al. Exploring the context of locations for personalized location recommendations.
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和系统
US20230111582A1 (en) Text mining method based on artificial intelligence, related apparatus and device
US9239875B2 (en) Method for disambiguated features in unstructured text
US9110985B2 (en) Generating a conceptual association graph from large-scale loosely-grouped content
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
US20150052098A1 (en) Contextually propagating semantic knowledge over large datasets
KR102685008B1 (ko) 검색 모델의 훈련 방법, 목표 대상의 검색 방법 및 그 장치
KR20160149978A (ko) 검색 엔진 및 그의 구현 방법
CN104471568A (zh) 对自然语言问题的基于学习的处理
He et al. Efficient collective entity linking with stacking
CN112000776B (zh) 基于语音语义的话题匹配方法、装置、设备及存储介质
JP6729095B2 (ja) 情報処理装置及びプログラム
CN110147494A (zh) 信息搜索方法、装置,存储介质及电子设备
CN109977292A (zh) 搜索方法、装置、计算设备和计算机可读存储介质
CN112989208A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
CN117494815A (zh) 面向档案的可信大语言模型训练、推理方法和装置
US20170124090A1 (en) Method of discovering and exploring feature knowledge
CN112330387B (zh) 一种应用于看房软件的虚拟经纪人

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100713

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121126

R150 Certificate of patent or registration of utility model

Ref document number: 5157314

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees