JP4861961B2 - 情報アクセスおよび検索におけるレレバンス重み付けナビゲーション - Google Patents

情報アクセスおよび検索におけるレレバンス重み付けナビゲーション Download PDF

Info

Publication number
JP4861961B2
JP4861961B2 JP2007288256A JP2007288256A JP4861961B2 JP 4861961 B2 JP4861961 B2 JP 4861961B2 JP 2007288256 A JP2007288256 A JP 2007288256A JP 2007288256 A JP2007288256 A JP 2007288256A JP 4861961 B2 JP4861961 B2 JP 4861961B2
Authority
JP
Japan
Prior art keywords
document
query
search
aggregation
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007288256A
Other languages
English (en)
Other versions
JP2008135023A (ja
Inventor
ハウク オルセン オイスタイン
Original Assignee
マイクロソフト インターナショナル ホールディングス ビー.ブイ.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マイクロソフト インターナショナル ホールディングス ビー.ブイ. filed Critical マイクロソフト インターナショナル ホールディングス ビー.ブイ.
Publication of JP2008135023A publication Critical patent/JP2008135023A/ja
Application granted granted Critical
Publication of JP4861961B2 publication Critical patent/JP4861961B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明はスコープ(scope:範囲)および値(value)間の複数のアソシエーションまたはスコープと値−重み対(value−weight pair)間の複数のアソシエーション(associations)を含む階層型指定スコープ(hierarchical named scopes)を含む文書(documents)の要約情報(summary information)を計算する方法に関し、この方法は文書セット(文書集合)(a set of documents)にクエリーを適用し、一致する文書のリザルトセット(aresult set of matching documents)および一致する文書のクエリー依存サブセクション(query−dependent subsections of the matching documents)を識別するステップを含んでいる。
本発明は本発明の方法をサポートし実現する検索エンジン(search engine)にも関連している。
本発明の方法は通信システム一般、すなわち、エクストラネット(extranets)およびイントラネット(intranets)の両方にわたって情報アクセスおよび検索(information access,search,and retrieval)に応用する付加ツールまたは改良と見なすことができる。
情報検索(Information retrieval)は従来エンドユーザがクエリー言語を使用するかあるいはグラフィカルユーザインターフェイスを介してブール演算子を使用してクエリーを生成することを伴う。クエリーの実行により一致する文書セットである検索結果(search result)が提供される。このリザルトセット(result set)は一般的にその特定の文書がメンバーであるかメンバーではない従来のきちんとした集合又はセット(classical crisp set)である。
本発明全体を通して我々は任意の検索可能(searchable)なオブジェクトに対して「文書」(document)の用語を使用し、したがって、それはたとえばテキスト文書(textual document)、XML,HTML,SGML,またはオフィスフォーマットで表される文書、レコード、テーブル、ビュー、またはクエリー等のデータベースオブジェクト、またはマルチメディアオブジェクトを意味することができる。
クエリーQはDの或るサブセット(subset)、すなわちP、がクエリーQに対する適切な結果であるという仮定の元で文書セット(document set)D(サーチスペース)に適用される。再現率(recall)はリザルトセットRに戻されたPのフラクション(何分の1か:the fraction of P returned)、すなわち、|R∩P|/|P|である。適合率(precision)は適切であるRの何分の1かである、すなわち、|R∩P|/|R|。典型的な検索システム(search system)は図1にグラフで示すような適合率および再現率のトレードオフを示す適合率−再現率曲線を有し、それは適合率が高まると再現率がどのように低下するかおよびその逆を示している。大きな適合率は低い再現率でしか達成されず、その逆も言える。検索システムはアクセス可能な適合率および再現率を提供するように調整される。
しかしながら、多くの文書が同じキーワードを共有する膨大なコンテンツ量の場合、リザルトセットは人間ユーザに効率的に提供するのに大きすぎるものとなる。最近、情報検索システム(information retrieval systems)は、文書が任意のクエリー(たとえば、Google(登録商標)からのページランク(page rank))に対して有効である事前確率(priori probabilities)を含むだけでなく、クエリーおよび文書間の一致品質(quality of match)の関数としてレレバンススコア(relevance score:適合性得点)を計算する。検索結果はこのレレバンススコアに従ってランク付けして提示され、通常は10−20文書のハイパーリンクページ内に、最高レレバンススコアを有する文書の詳細を最初に示す。再現率および適合率の概念は前記したきちんとしたリザルトセットに対するほど明確(clear−cut)ではないが、それでも適用される。再現率は検索結果内に好ましくは第1リザルトページ(first result page)の上部に含まれる適切な文書を得ることに関連する。適合率は第1リザルトページ上に不適切な文書が無いことを意味する。
ユーザは検索結果を解析し、リザルト文書(result documents)を調べ、クエリーを再生成することにより情報検索システム(検索エンジン)とインタラクトする。ユーザはシステム内の文書の収集範囲を一般的に知らずクエリーを十分に特定的なものとはしないため(すなわち、適合率が低い)、検索結果はしばしば一般的すぎる(too general)ものとなる。一般的なクエリー再生成はクエリー改良を行う、すなわち、適合率を改善するためにオリジナル検索リザルトセット(search result set)のサブセット(subset:一部分)を選出することである。
つい最近になって、情報検索システムはリザルトセットナビゲーションの概念を含んできている。刊行された従来技術の例として、たとえば、Endeca technologies,Inc.に譲渡された米国特許第7,035,864号と7,062,483号、およびFast Search & Transfer ASAに譲渡されたノルウェー国特許出願第20052215号を参照されたい。文書は多数の属性(たとえば、価格、重み、キーワード)と関連付けられ、各属性はゼロ、一つ、または一般的に多数の値を有する。属性値は頻度または値でソートされた頻度ヒストグラムとして提示される。ナビゲータは定められた属性に対する頻度ヒストグラムを提示するグラフィカルユーザインターフェイス・オブジェクトであり、ユーザはシングルクリックで属性値対をクエリー改良として選出するだけでなく、リザルトセットを解析することができる。改良は瞬時に実行され、新しいリザルトセットがその上の新しいナビゲータと共に提示される。たとえば、“skiing”に対する検索は“Country”文書属性(メタデータ)上の“Country”ナビゲータを含むことができる。このナビゲータはノルウェーに関連付けられる“skiing”に対するリザルトセット内にかなりの数の文書があることを示唆する値“Norway”を含んでいる。ユーザがナビゲータ内の“Norway”オプションを選出すると、システムはノルウェーに関連付けられた文書にさらに限定される“skiing”リザルトセットのサブセットを提示する。
図2において、クエリー201は文書レベル・メタデータ203−205上のナビゲータと共にリザルトセット202を与える。例において、姓“Thorsen”および名“Torstein”に対する検索(serch)201によりユーザはリザルトセット(204)の中から名を改良し国(203)の一部の検索を抑制することができる。各改良に対して、改良を適用する場合のリザルトセットのサイズが示される。
ナビゲーションはデータマイニングの多くの概念を含んでいる。従来のデータマイニングは静的データセット上である。ナビゲーションにより、データマイニングは動的パー・クエリー・リザルトセット(per−query result set)上で利用される。各文書属性はデータマイニング術語に関するディメンジョン/ファセットを表す。
正式に、クエリーQが与えられると、文書セットDを横切って値{ν}を有する属性a上のナビゲータNは値νのN(Q,a,ν)インスタンスを有する。文書d内の属性aに対する値のセットはd(a)である。
N(Q,a,ν)=|{d in D:Q matches d,ν in d(a)}|
属性値νと文書ヒットカウントN(Q,a,ν)の両方が提示され、典型的には値または文書ヒットカウント上でソートされる。
ナビゲーションはクエリーの文脈のリザルト・セットアグリゲーション(aggregation:集約)の適用であり、ユーザが要約内の特定のオブジェクトを選出する時にクエリー内に内蔵されるクエリー変更子だけでなくリザルトセット要約(result set summary)がユーザに提示される。プレゼンテーションは属性ディメンジョンに沿ったリザルトセットのビュー(view)であり属性値の他に品質インジケータを含むことができ、品質は通常定められた属性値または属性値範囲に対する文書数である。
後述するアイデアは一般的ケースにおけるアグリゲーションおよび特定的なナビゲーションへの適用の両方を包含している。アグリゲーションは必ずしもそれをクエリー改良とリンクしないで提示することができ、あるいは提示すらされない統計的解析に対する基礎とすることができる。また、情報検索システムはクエリーの解析、リザルトセット、リザルトセットに関連付けられたナビゲータ/アグリゲーションに基づいてこのようなクエリー改良を自動的に選出するように選択することができる。
文書−グローバル属性(メタデータ)は文書または構造化データベース・レコード(structured database records)内で明白であるか、あるいは情報抽出分野からの技術を使用して自動的に発見される文書の非構造化コンテンツ内の属性である。階層構造化コンテンツ(たとえば、XMLからの)内で、サブ文書要素は明白に属性と関連付けることができる。自動的に抽出された情報はグローバル・文書レベルおよび文脈(サブ文書)レベル(contextual(sub−document)level)、たとえば、文要素(sentence element)において関連付けることができる。サブ文書要素はコンテンツ(たとえば、HTMLの文節)内で明白であるか、あるいは自動的に検出することができる(たとえば、文検出)。属性と要素の区別は可視コンテンツフロー(visible content flow)に関するものであり、要素のコンテンツは見えるが属性はエレメント上の見えないメタデータである。たとえば、文要素のコンテンツは見えてエンティティ・サブ要素(たとえば、人名)を含むが、文要素上の感情属性はコンテンツフロー、たとえば、文を横切る句検索(phrase search)、と干渉してはならない。同様に、エンティティ要素はオリジナルコンテンツを含むが属性は検索および解析に使用されるコンテンツの正規化バージョンを含む。たとえば、テキスト“yesterday”はコンテキストから引き出されるISO8601標準に正規化された実際のデータ値を含む属性を有するデータエンティティ内に包まれる。
本出願人、すなわち、Fast Search & Transfer ASAは最近サブ文書要素、たとえば、ノルウェー国特許出願第20052215号に開示されているように文節および文上に文脈(paragraphs and sentences)ナビゲーション(contextual navigation)を導入している。エンティティはたとえば文から抽出され文要素のサブ要素または文要素上の属性としてマークアップされる。検索システムにより、たとえば、特定の文をクエリーおよび文サブ要素/属性上のナビゲーションにより選出することができる。たとえば、クエリーは“person_name”サブ要素内の“Bill Clinton”を含む文を選択してこれらの文の“date”サブ要素上にナビゲータを提示することができる。このようなナビゲータは非構造化自然言語コンテンツから抽出されるエンティティ上の等価文書−レベル・ナビゲータよりも遥かに適切である。
図3は文書X01、文節X02、および文レベルX03においてクエリー“soccer”に関連付けられた人々のアグリゲーションであり、明らかに文書レベルにおけるよりも意味的により正確な文節および文コンテキストにおけるアグリゲーションを明確に示している。
時々ユーザは詳細クエリーの指定を要求し、リザルトセットは特定すぎる文書を有する(too specific documents)(またはなにも有しない)(すなわち、再現率が低い)。ある検索システムによりユーザは、たとえば、代替の表層形式の一致(matching of alternative surface forms)、すなわち、動詞、名詞の単数/複数、等の異なる時制の一致を可能にするレマティゼーション(lemmatization)またはステミング(stemming)を可能とすることにより再現率を簡単に高めることができる。他の再現率向上策は類義性を可能とし、句検索から「全語」(all words)検索へ行き、「全語」検索から「m中n」(n of m)(または「任意」)検索へ行くことである。スペルチェックはどちらの方法でも有効に働いて再現率または適合率を改善する。
ハイボリューム・アプリケーションに対してスケーリングするために、検索ソリューションは1台のマシン上で実行している単一アプリケーションにリンクされた検索の全面を処理するソフトウェアライブラリから、しばしば数千の多数のマシンが外部クライアントから受信したクエリーを実行している分散検索エンジンソリューションまで開発されている。この開発により検索エンジンは個別の環境内で実行してアプリケーションにより外部制約を課されることなく最適方法で問題を分散することができる。
性能、スケーラビリティ、およびフォールトトレランスに対する基礎はスケーラブル文書を個別のマシン上で処理されるパーティションへ分割し、これらのパーティションを他のマシン上に複写することである。検索エンジン内で、クエリーは解析され次にパーティションのいくつかまたは全てに発送され、各パーティションからの結果がマージされ、最終リザルトセットは後処理された後で検索クライアントへ通される。性能およびフォールトトレランスはデータを新しいマシン上に複写することにより高められる。検索エンジンは新しいパーティションを付加することによりより多くのコンテンツに対してスケーリングする。
文書−レベル属性上の従来のナビゲーションにおいて、レレバンススコアの低い文書は最高レレバンススコアを有する文書に等しくカウントされる。レレバンススコアは一般的にリザルトセットリストに沿って指数関数的に減衰し、かつ文書はリザルトセット内にファジーメンバシップを有するため、ナビゲータは文書カウントの大部分が低レレバンスヒットからであるクエリー改良を含むことができる。
図4はサンプルコンテンツ収集上のサンプルクエリーに対するレレバンスプロファイルを示す。非正規化レレバンススコアはテールレベル(tail level)へ向かう指数関数降下プロファイルを有する。この特定のクエリーに対して、テールレベルはヒット数100付近に達する。ヒット100の先からの文書はリザルトセット内に含まれるが有効メンバシップは非常に低い。
特に、再現率改善検索機能がイネーブルされると検索適合率は降下するが、一般的に、検索エンジン内のレレバンス機構によりレザルトリスト(result list)の上部には非常に高品質の新しい文書しか含まれないことが保証される。しかしながら、リザルトセット内に含まれる新しい各文書はナビゲータ内に含まれるため、ナビゲータ内の適合率はさらに降下する。カレントナビゲータのコンテンツは適合率ではなく再現率へバイアスされているので、品質の測度として文書・ヒットカウントしか提供しないため潜在的にユーザを低クエリー改良へ誘引する。
特にモバイル装置において、クライアントの画面の物理的エリア(real estate)は制限されているが、目に見えるエリア内に多すぎる情報が詰め込まれるためデスクトップであっても情報過負荷に苦しむ。思わしくない結果を与えるナビゲータクエリー改良によりユーザは情報過負荷および他の目的であればより良く使用できるであろう画面スペースの浪費による悪化を経験する。
パーティションを横切るナビゲータデータのアグリゲーションはネットワーク帯域幅を失わせる。パーティションはどの値が最終ナビゲータ内に現われるか知らないため、パーティションはナビゲータ内の各値に対して頻度カウントを戻さなければならない。リザルトセット内に大きな値のスペースを有するナビゲータに対して、ユーザへのトップNクエリー改良を選出する前に、分散されたアグリゲーションに対するネットワーク帯域幅は高い検索スループットを得るための隘路となる。特に、ナビゲータ内に提示されない不適切な(低頻度)値を含むためネットワーク帯域幅が浪費される。
図5は分散アグリゲーションのプロセス略図を示す。コンテンツパーティションX01はクエリーと一致するパーティション内の文書上で作動するプロセスX02によりアグリゲート(aggregated)される。アグリゲートされた結果はネットワークX03を介してグローバルアグリゲーションプロセスX04へ通される。グローバルアグリゲーションプロセスは多数のアグリゲーションサブプロセスにわたって分散された階層型アグリゲーションを含むことができる。最後に、プロセスX05はナビゲータを提示する。多くの一意的値を有するナビゲータはネットワークX03上に十分な帯域幅を必要とする。
ナビゲーションデータのアグリゲーションは典型的に全リザルトセットを横切る。CPUだけでなくネットワーク帯域幅も前記したように節減するより高い性能に対して、それはトップNランクヒット上で実施することができ、Nはコンフィギュレーションすなわちパー・クエリーパラメータ(いわゆるシャローアグリゲーション)である。一般的に、「超レレバンス(super−relevant)」文書しか含まれないように(図4内のヒット100の先からのテールレベル参照)Nはクエリーの広いセット(wide set of queries)の適切なスコアプロファイルに一致しない。Nに対する一般的な値を見つけたりクエリーだけから値を推定することはできない。たとえこのようなNが見つかっても、適切な文書内に十分な範囲のレレバンススコアがあり全文書がレレバンススコアに無関係に同等にカウントされる。
しかしながら、前記したことから判るようにナビゲーションおよびナビゲーションツールにはいくつかの欠点があり、特に、検索結果の品質改善を保証し品質の不適切な測度を使用して引き出される問題に取り組むアプリケーションすなわちクエリーの改良に関して、明白な例は再現率が適合率よりも優先されるケースである。
したがって、本発明の第1の主要な目的はクエリー改良にナビゲーション方法が適用される時に検索結果の品質を改善することである。
本発明の第2の目的は、ナビゲーションが使用されるか否かにかかわらず、クエリーに応答して戻される事実(facts)間の関係の信頼性を改善することである。
本発明のもう1つの目的は再現率が高くて適合率が低すぎるために生じて、たとえば、利用可能な画面ディスプレイ容量のオーバフローを生じ、それはディスプレイ容量が制約された装置、たとえば、モバイル装置を情報検索に使用する時に特に問題となる情報過負荷を回避することである。
本発明のさらなる目的は利用可能なネットワーク帯域幅の利用を最適化し、思わしくないアグリゲーションによる輻輳を回避することである。
本発明の最後の目的は本発明の方法をサポートし実現できる検索エンジンを提供することである。
前記した目的およびさらなる特徴および利点は本発明に従った方法により実現され、それは文書スコープ、それらの値、およびリザルトセットを横切る関連する重みの要約情報を計算し、値を要約値メトリック(SVM:Summary Value metric)により重み付けすることにより特徴づけられ、前記要約値メトリックは属性値の重み付けされた統計的および動的性質の結合であり、属性値の確率の測度を提供する。
前記した目的およびさらなる特徴および利点は、また、本発明に従った検索エンジンにより実現され、それは階層型スコープ(hierarchical scopes)への要約値メトリクス(SVM)を指定する第1のモジュールであって、前記第1のモジュールはコンテンツAPIまたはコンテンツ解析段階内に含まれる第1のモジュールと、コンテンツ内の明白なフォーマット構造認識からスコープを生成する第2のモジュールおよび、コンテンツの解析からスコープを生成する第3のモジュールであって、前記第2および第3のモジュールはコンテンツ解析段階内に含まれて前記生成されたスコープへ要約値メトリクスを割当てるようにされている前記第2および第3のモジュールと、スコープ、値およびSVMをインデクシング(indexing)する第4のモジュールであって、前記第4のモジュールはコア検索エンジンのインデックスサブシステム(indexing subsystem)内に含まれる第4のモジュールとを含むことにより特徴づけられる。
本発明のさらなる特徴および利点は添付された従属請求項から明らかである。
本発明はその一般的概念および特徴の下記の検討およびそれらを実際の応用に関連付け添付図と共に読み出してその実施例を例示する検討からより良く理解される。本発明は文書レベルおよびサブ文書レベル(文脈ナビゲーション)で関連付けられた属性の要約化の両方に応用される。文書レベルアグリゲーションおよびナビゲーションはサブ文書レベルにおけるアグリゲーションおよびナビゲーションの特殊なケースである。以下において、文書レベル・ナビゲーションの特殊なケースについて最初に検討する。
リザルトセット内の各文書をカウントするのではなく、本発明は属性値に関連付けられたいくつかの静的および動的性質を重み付けし、これらを結合して要約値メトリクス(SVM)とし、これらのSVMをリザルトセットを横切ってアグリゲートする方法およびシステムを教示する。典型的に、SVMはその値を有する属性に対する確率または確信スコア(belief score)である。
本発明において、重みという用語は入力値xの任意の変換f(x)に対して使用され、線型スケーリングは特殊なケースf(x)=axである。多数の入力(x,x,x,...)に対して、変換f(x,x,x,...)は一般的に入力の非線形結合である。
個別の属性−値対(attribute−value pairs)に対するSVMは、たとえば、確率を合計することによりリザルトセットを横切ってアグリゲートされる。任意のこのようなアグリゲーションの決定的な性質(crucial property)は定められた属性に対して最もレレバントな値がアグリゲーション内を支配するように最高確率へ向かうバイアスがなければならないことである。
多くの情報検索システムにおいてレレバンススコアは正規化されない。レレバンススコアの主要な目的は、プレゼンテーション内のレレバンシーを示すだけでなく最もレレバントなヒットを提示する前に文書をランク付け(ソーティング)することである。図4のレレバンススコアに対して、アグリゲーションはテールレベルを推定しこのレベルよりも上の値を全体で一意値当り累積する。合計に対する割り合い又は比率(fraction with regard to the total)は、前に使用したカウントと同じであるが最もレレバントな文書へ向かうバイアスを有する、その属性−値対の有意性の測度である。
正式に、クエリーQの文脈内の文書dに対する正規化されたレレバンススコアはp(d)である。クエリーQが文書と一致しなければ確率は0である。正規化されたレレバンススコアは属性a上のナビゲータ内の値νに対する文書の累積を評価する(weigh the accumulation of documents)のに使用される。
R(a,ν)=Σp(d)if ν in d(a)[sum over all d in D]
コンテンツが分割されて(partitioned)部分リザルト(partial result)を計算する各パーティション上に自律的検索システムがあれば、この部分リザルトは他のパーティションからの他の部分結果とマージされる(図5)。部分リザルトはアグリゲーションを含むが、特に、非線形性が含まれる場合は前記正規化およびアグリゲーションはグローバル同期化(global synchronization)を必要とすることがある。この場合、パーティションが最初にリザルトセットとパーティションが最終アグリゲーションを計算する前に中央処理されるあるアグリゲーションパラメータとを計算するツーパスプロトコル(two−pass protocol)を必要とすることがある。
テールレベル(tail level)よりも上のレレバンススコアを累積する特殊なケースでは、(値、レレバンススコア合計、カウントの)三つ組みが各一意的属性−値対に対して戻されるワンパスプロトコルで十分である。グローバルレレバンススコアテールレベルは部分リザルトセット(partial result sets)をマージする時に推定される。属性アグリゲーションがマージされると、グローバルテールレベル倍したヒットカウント(global tail level times the hit count)がレレバンススコア合計から減じられる。アグリゲーションを正規化するために、部分リザルトセットはそれを横切って属性当り(レレバンススコア合計、カウント)を含むこともできる。それによりグローバルテールレベルよりも上のグローバルレレバンススコアを計算して正規化に使用することができる。従来の正確なヒットカウントは依然としてプロトコル内で得られる。
正確なカウントを期すためには、非常に小さなカウントを有する属性値がグローバルにはトップランク値となることがあるため、全属性値をグローバルマージ内に含めなければならない。グローバルマージャーが特定の属性−値対の統計を要求するマルチパスプロトコルは幾分レーテンシを増加はさせるがアグリゲーション帯域幅を低減する。
アグリゲーション内の値はレレバンススコアに従ってランク付けされ、値は本質的にファジーである。正確なカウントとは対照的に、値は容易に検証することはできず、エラーの余地がある。エラー制約を満足させる必要があるアグリゲートされた値の数が正確なカウントに対するものよりも少なくなるように、アグリゲーションをあるエラー制約と関連付けることができる。特に、最大エラーeが定められると、各パーティションはe/Nよりも少ないレレバンススコアを有する属性値をドロップすることができ、Nはパーティション数である。グローバルレレバンススコア上の属性アグリゲーションを切り捨てるために、グローバルレレバンススコアが第1のパス(たとえば、テール推定)で計算されグローバルレレバンススコアに依存して局所アグリゲーションが実施されるツーパスプロトコルが必要とされることがある。アグリゲーション(すなわち、シャローアグリゲーション)に対して使用される最高ランク文書数を指定する時は、同じ方法を使用してアグリゲータ当りのエラー(error per aggregator)を推定することができる。アグリゲーションのプレゼンテーションはエラーを示したり高すぎるエラーを有するアグリゲーションを単純にドロップすることができる。
文書は定められた属性に対して1つ以上の値としか関連付けられないだけでなく、ファジーメンバシップ得点、たとえば、その特定値p(d,a,ν)を有する確率と関連付けることもできる。これは文書を検索できるようにする前に、文書前処理中またはコンテンツをプッシュするクライアントを介して割当てられる事前重み(priori weight)である。アグリゲーションは関数f、たとえば和(sum)を介したアグリゲート、を介した全体(正規化)文書レレバンススコアだけでなくこの属性値重み(attribute value weight)も考慮する。
R(a,ν)=Σf(p(d),p(d,a,ν))if ν in d(a)[sum over all d in D]
関数fはリザルトセットの他のオブジェクト、他の属性、付加演算子、または前記したシステムおよび方法が階層型文書およびクエリーに応用されるように一般化される次節に記載される他のアグリゲータも考慮する。
重みp(d,a,ν)は、たとえば、文書dの言語を属性aに割当てることにより、たとえば、分類プロセスから引き出すことができる。表1は4サンプル文書上での言語検出に対する非正規化確率得点(probability score)を示す。2つのノルウェー語“nb”および“nn”、スエーデン語(“sv”)、デンマーク語(“da”)の検出には明らかにあいまいさがある。困難な演繹的分類を行うのではなく、検索およびアグリゲーション品質は不確かさを一致プロセスおよびアグリゲーションまで持ってくることにより改善する。
文書に関連付けられる各言語はその言語の確率と共に値ν内にp(d,a,ν)として入れられる。多言語またはあいまいな文書には、たとえば、「言語“language”」属性内の下記の値{(“en”,0.9),(“ja”,0.2)}を割当てることができ、もう1つの文書は値{(“en”,1.0)}を有する。「言語“language”」属性にわたるこれら2つのアグリゲーション(和を介した)は{(“en”,1.9),(“ja”,0.2)}となる。ユーザが言語、たとえば、“en”を選出すると、リザルトセットは言語フィルタにかけられて、ある閾値よりも上の“en”得点を有するリザルトセットのサブセットを選出するか、あるいはそれらの“en”得点に従って文書をブーストする。“en”のブーストの相対的重みはリザルトセットおよび言語ナビゲータのレレバンス統計の解析から決定することができる。
任意の特徴抽出が不確かさおよび確率と関連付けられる。本発明はハード2進判断(hard binary decision)を行ってこれらの2進値をアグリゲートするのではなく、確率をアグリゲートしてユーザにアグリゲーションを提示することによりこれらの確率を処理する。情報検索に対する特徴抽出は、たとえば、言語検出、トピック分類、画像解析、音響解析(たとえば、音声からテキスト)、および映像解析を含む。
特定のクエリーに関連付けられた文書スコープの概観を得ることは、クエリーに関連付けられた事実を推論できるようにするだけでなく、欲しい情報があるリテラル文脈を調べる検索を改良するために非常に貴重である。これは文脈ナビゲーションに頼って、すなわち、最初に戻された情報の文脈を使用して行うことができる。このような文脈情報の品質は、下記の検討から明らかなように、サブ文書コンテンツ要素に適用される時により高くなる。
本発明は階層型コンテンツ(たとえば、一般的にHTML,XHTML,およびXMLで表される)およびクエリー(たとえば、全文拡張を含むXPathおよびXQuery)にも応用される。このケースにおける文書の表現はXMLデータモデル[http://www.w3.org/XML/Datamodel.html],すなわち、階層型指定要素(hierarchical named elements)とすることができ、要素はリテラルコンテンツ、サブ要素、指定スコープ(named scopes)を有することができる。前に参照した文書モデルは文書が指定要素のセット(典型的にはフリーテキスト検索に使用される)および検索、およびアグリゲートに使用される指定スコープのセットを有する特殊なケースである。
要素とスコープとの間の区別はむしろ偶然の一致による。本発明において属性値、属性アグリゲーション、および属性ナビゲーションを参照する時は、文書スコープを有する両方のトップレベル属性、サブ文書要素上の属性、およびサブ文書要素を含める。たとえば、人名は文要素のリテラルコンテンツ内の要素である、文内の人名上にアグリゲートすることは完全に可能である。本発明は要素および属性の両方へのアグリゲートを教示し、下記の任意特定の言葉使いは両方を示唆する。スコープという用語はここでは要素および要素属性の両方を含む。
情報検索システムはストリングスコープ(string scopes)のリテラルコンテンツをトークン化する、すなわち、コンテンツを人間ユーザにより知覚される検索可能なアトミックユニット(atomic units)、トークン、へ分割する。西洋の言語(western languages)に対して、これらのユニットはほぼワードレベルであり、コンテンツ一致(content matching)を句読点(punctuation)等に対して鈍感にする。ある言語はこのようなトークンの明白な分離がなく文脈依存方法を必要とする。構造全体を通してコンテンツは要素属性コンテンツに影響されない単調増加位置(たとえば、文字位置およびトークン位置)を有する。
トークンを選出する述語またはスコープ発生の形の多数の制約を含むクエリーは一致間の距離(distance between the matches)を含むレレバンススコアを計算することができる。この距離はコンテンツ内の直接の位置距離(straight−forward positional distance)に関して定義することができる、例えばトークン距離である。近接レレバンススコア(proximity relevance score)は、たとえば、ANDまたはOR演算子(operators)に対して暗黙(implicitly)に含めることができ、あるいは、たとえば、“to”NEAR“be”を検索する明示な近接演算子(explicit proximity operators)内に含めることができる。明示な近接演算子は引数の順序では鈍感にしか一致することができないが、それでもレレバンススコアを順序で区別できる、すなわち、相対距離については否定的(negative)である。暗黙近接レレバンスも引数順序(argument order)(たとえば、AND演算子)に依存することができる。
クエリーは術語のセット(a set of predicates)が評価される構造的文書スコープを指定する。レレバンススコア、位置情報、要素意味論(element semantics)、要素統計(element statistics)(たとえば、グローバルでのおよび文書当り(per document)のこのような要素数)、要素サイズ、文脈内に適用される述語/演算子(the predicates/operators applied in the context)を含む各一致するこのようなスコープに対するクエリー評価文脈があり、特に、文脈内の述語というターム(the term predicates in the context)はレレバンス統計−たとえば、この文書内で、文脈内にグローバルに存在するターム数等を含む。クエリー文脈は文書スコープと関連付けられる、すなわち、その文脈内の述語が適用される文書スコープに関連付けられる。たとえば、文内に述語を有するクエリーは文に関して他のスコープ(たとえば、XPath仕様内の軸)を参照できる文クエリー文脈を有する。各スコープ値はそれをアグリゲートする時に使用される事前レレバンススコア(priori relevance score)(重み(weight))と関連付けられる。クエリー文脈はクエリー内で指定される祖先クエリー文脈(ancestor query contexts)も含んでいる。特に、グローバル文書属性を含むグローバルクエリー文脈は各クエリー評価文脈から入手可能である。
クエリーは選出基準を定義するものの他にアグリゲートだけのためのソフト関連述語(soft relevance predicates)を定義することができる。たとえば、“said”および会社スコープを含む全文スコープ(all sentence scopes)の選出、これら2つの制約の位置近似を含むレレバンススコアの算出、レレバンススコアにより重み付けされた会社値のアグリゲートおよび“Inc”を含む会社値への追加ブーストの付与。
文脈ナビゲーション、特に、事実発見(fact finding)中に情報の位置近似はしばしば意味関連度(degree of semantic association)に対応する。近似概念(proximal concepts)は通常より高い意味関連度を有する。しかしながら、絶対的距離限界(absolute distance limit)は決定するのが困難である。それはコンテンツおよびクエリーの両方の性質に依存する。ある概念は冗長な談話(verbose discourse)(広い文脈)内に存在し他は簡潔なリスト(terse lists)(狭い文脈)内に存在する。挑戦(challenge)は著しく適切な関連を含むのに十分狭い場合に統計的証拠を得るのに十分なデータを得るのに十分広い最適文脈を選択することである。したがって、リザルトセットに対して元々考慮された適合率−再現率トレードオフは良品質文脈ナビゲータに対して極めて重大となる。どんなエンティティおよびエンティティ値がある他の述語に関連付けられるかに関心を持っている場合、ユーザは文脈を指定しない。このような適切な関連を見つけるための適切な文脈を選出するのは情報検索システムまでである。
一致のために特定のトークン距離近接述語およびアグリゲーションのための重みを付与する時(When imposing specific token distance proximity predicates for matching and weights for aggregation)は、文字またはトークン/語に関して距離を予測するのが困難になることがある。多くの場合、文書スコープに関して距離を指定することは手元のタスクによりぴったり適合し、より正確な結果を与えるだけでなく一致および重み付けの指定(to specify the match and weighing)をより容易にする。たとえば、クエリーは5つの文内の2つの述語を検索して一方の述語のアグリゲーション重み(weights)を述語がどれだけ多くの文から離れているかの関数として指定することができる。もう1つの例は、中間の名詞句の数により重み付けされる場所“Oslo”の3つの文内の名詞句をアグリゲートする(aggregate noun phrases within three sentences of the location “Oslo”weighed by the number of in−between noun phrases)。
2つの述語間のもう1つの距離測度はもう1つの述語により選出されたスコープのアグリゲーションである。この距離測度は名詞句が文内に“Oslo”の後で現われる名詞句のアグリゲーションの重み付け(weighing of the aggregation of a noun phrase)に使用することができ、重み(weight)は中間形容詞スコープの感情属性の関数(function of the sentiment attribute of the in−between adjective scopes)である。
高品質連関(high quality associations)を見つけるために、たとえば、文レベルにおける、最初に狭い文脈を検索しアグリゲートする(すなわち、ナビゲータを計算する)ことができる。そこに十分な証拠(evidence)があればそれをユーザに提示し、そうでなければ、たとえば文節レベルにおいて、幾分広い文脈を試みる。まだ十分一致する文節がなければ、全文書を横断しクエリーを適用することに頼りグローバル文書−レベル属性を使用する。
もう1つの方法はトークン位置に関して(context width)を指定する、たとえば、最初に述語およびアグリゲートされるべきスコープ間の5トークンの間隙で試み、次に、十分なデータがアグリゲートされまで間隙を増加しそれをユーザに提示する。
接近(proximity)がレレバンススコアに著しく寄与する時は、広い文脈を第1の試みにおいて使用することができ、近接距離がアグリゲートされた値を変調して(the proximity distance modulating the aggregated values)最もレレバントな関連に向かうバイアスを達成する。このスキームにおいて、引き続くより広い検索が必要となることはありそうにない。しかしながら、文脈が段階的に増加して、構造要素に関してまたは位置距離に関して十分なデータを得ると、アグリゲーションはさまざまなレベルにおけるデータを結合してより狭い文脈をより広いものよりも高く評価することができる。この種のアグリゲーションは各レベルにおける結果の性質を解析してアグリゲートされた値を結合する適切な方法を決定しなければならない。これに基づいたデータの結合、すなわちデータの階層およびレベルを考慮した結合はメタアグリゲーション(metaaggregation)と呼ばれ後述する。
スコープ値の重み付け(weighing of scope values)は関係(relation)がクエリー内に指定される他のスコープに依存することができる。たとえば、人名のアグリゲーションは、他のレレバンスメトリクスの他に、親文上の感情により重み付けされ(weighted by sentiment on the parent sentence)ポジティブな文脈内の人名がより高く重み付けされる(感情上の数値を仮定して)。重み付け(weighing)は文脈コンテンツが、たとえば、各名前に関連付けられたタイトルにより人名を重み評価するのに使用できるように値のマッピングを含む。このようなアグリゲーションはスコープ値に関連付けられたインデクシング時間算出重み(indexing−time calculated weights)上で行うことができる。この方法はより高い性能を提供できるがクエリー時間に(at query time)このようなアグリゲーションを定義することに関する柔軟性の欠如の問題がある。
概念的に、他のナビゲータから推論されたレレバンスによりスコープ値の重み付けをする(weigh scope values)こともできる(クエリー改良オプションは必要とされないため、実際はアグリゲーションである)。たとえば、価格範囲は、低価格であればいかなる色であろうとより適切であるが、高価格に対しては人は正確な色を欲しがるように、価格範囲は色の重み付けをすることができる。前と同様に、同じ述語を文脈レベル、たとえば、文またはトークン近接に適用できるが重み付けされた色アグリゲーションに対する適切な証拠を集めるのに不十分なデータであれば、価格アグリゲーションは価格のリザルトセット距離に従って色を重みを評価する(weighs)(価格アグリゲーションも評価できる)。
従来、ナビゲーション中のクエリー改良は任意のレレバンススコアを適用せず、異なるセット(different set)を使用して暗黙的にのみ、クエリー内のフィルタ制約を本質的に変えるリザルトサブセットの選出および非選出(selection and de−selection)である。本発明により、アグリゲーションおよびナビゲーション経験はきちんとした(crisp:クリスプ)フィルタリング演算子ではなくクエリーへソフト制約(soft constraints)を加える(または除去する)クエリー改良を使用して「よりソフトに(softer)」することができる。たとえば、クエリー改良はオリジナルクエリーのアンドライク演算子(and−like operator)および推論ネットワークまたはファジー論理内のソフトナビゲーション述語を加えることができる。オリジナルクエリーおよび加えられたナビゲーション述語はリザルトセットおよびナビゲータの解析に従って重み付けされる(weighted)。たとえば、ナビゲーション述語の重みは小さなリザルトセットよりも巨大なリザルトセットに対してより高くより制約的となる。小さなリザルトセットに対しては、ヒットリストの再ランク付けが有効となることがある。本発明により、リザルトセットのレレバンスを変えるクエリー改良は従来のきちんとしたフィルタリングと同じ効果をナビゲータ内に達成することができる。
要約値メトリクス(SVM)は、たとえば、Java(登録商標)コードに関して、クエリー内に定義されたカスタムコード(custom code)に基づいて計算することができる。たとえば、Java(登録商標)コードはアグリゲーションが小文字値(lower case values)上にあり、値内に大文字(upper case characters)が存在すれば値当たりSVMは増加したと指定することができる。クエリーは値上のカスタムアグリゲーションおよびSVMも指定することができる。たとえば、カスタムコードは文書内の一意的値をアグリゲートすることができ、一意的値当たりの最大SVMを選出する。XQuery全文またはオントロジー言語を含む、他の言語、たとえば、XPatchまたはXqueryを使用することができる。
コンテンツは様々なものとして多数のスキーマ(schemas)に付着することができる。ある情報検索システムにより特定の検索スキーマへ正規化する必要なしにコンテンツを受け入れる(ingested)ことができる。各コンテンツスキーマの特定の検索スキーマへのマッピングを定義するタスクは巨大で決して終わらない。検索スキーマおよびマッピングは検索アプリケーションが発展するにつれ変化する。クエリー時間において(at query−time)マッピングを定義すればより柔軟性が与えられる。本発明により多数のスキーマを横切るアグリゲーションは検索スキーマに含まれマッピングされる指定されたスコープ間の意味距離を考慮することができる。マッピングは予め行って値を意味距離(重みとしての)と関連付けるか、あるいはクエリー時間に行うことができる。たとえば、コンテンツ内の下記のスコープは意味距離(“customer”,0.5),(“person name”,1.0),(“accountholder”,0.8),(“owner”,0.7)により重み付けされる検索スキーマ内の“name”内へアグリゲートすることができる。
図6はコンテンツスキーマ“Contacts”X01および“Customers”X02の検索スキーマ“SearchSchema”X03へのプリ・インデクシングまたはクエリー時間における(pre−indexing or at query time)−マッピングを示す。“Contacts”スキーマX01内で、“WorkPhone”,“Homephone”,および“MobilePhone”フィールドは全て検索スキーマX03(赤線)内の“PhoneNumber”へマッピングされるが、プライベートコンタクトであるかビジネスコンタクトであるかに応じて、たとえば、家または仕事で人とコンタクトするペナルティを考慮する異なる重みでマッピングされる。図6は“Contacts”X01内の“EmailName”の検索スキームX03(緑線)内の多数のフィールドへのマッピングも示しており、各々が異なる重みを有する。双方向マッピングのあいまいさに(bi−directional mapping ambiguities)関連する重みが、値をアグリゲートする時だけでなく、検索結果リスト内のヒットの一致およびランク付けの両方に使用される。検索およびアグリゲートは使用ケースに対して適切な検索スキーマに関するものである。多数の使用ケースに一致するいくつかの検索スキーマがあることがある。検索スキーマX03はクエリーが情報検索システム内に存在する、たとえば、XML表現の物理的スキーマX01およびX02をカバーするように拡張される点で論理1となることがある。あるいは、システム内の情報はプリ・インデクシング時間(pre−indexing time)に正規化されてスキーマX03を検索しその表現(representation)内に格納されることがある。2つの代替策の混合により検索スキーマ内にフィールド当たり柔軟性対性能の交換が提供される。
事実および知識を発見する時、すなわち、情報検索システム内の選出された文書のコンテンツ内の強い関連(strong associations)を探す時は、全スコープを横切る(スコープ、値)関連をマージして減少するレレバンスメトリクスをソートするのが興味深いかもしれない。マージするスコープの集合は、恐らくは全アグリゲーションを横切って、クエリー内に定義することができる。
本発明は、たとえば、人名および「誕生」を含む文内のデータの同時発生マイニングにも応用できる。この場合、評価の利点は人と誕生日間のより良い関連を与えることである。たとえば、人と「誕生」間の名詞句は「ビルクリントンの妻は1947−10−26に生まれた」という形の文が「ビルクリントン」と日付間の強い関連を作らないように関連の重みを下げることができる(could weight the association down)。
図7は会社名が緑でハイライトされ、食料雑貨店(すなわち言語変形(linguistic variants))が赤でハイライトされ、形容詞が黄色でハイライトされた2つの文X01およびX02を示す。文X01は会社名X03、形容詞X04、および基本形式「食料雑貨店(grocery)」に関連付けられる「食料雑貨店(groceries)」X05を含んでいる。文X02は「食料雑貨店(grocery)」X06および会社名X07を含んでいる。クエリーは“Inc”を含む会社をブーストしながら「食料雑貨店(grocery)」と同じ文内の会社名のアグリゲーションを指定する。このようにして、SVMはクエリー内の述語間の文書内の近くでトークンまたは語位置またはヴィジュアル(visual)に応答するようにされ、あるいは、同様にクエリー内の述語間の文書内の文字位置近接に応答するようにされる。トークン距離による近接の測定は必ずしもトークン間の視覚距離を表す必要はない。あるトークンは他よりも長く、句読点、文字は一列に生じレイアウトは、たとえば、トークンを分離するテーブルを含むことがある。たとえば、トークンとエンティティスコープ間の視覚距離は要約値メトリクスSVM内に含まれることがある。「誕生」と同時に発生する人をアグリゲートする時は、視覚的に「誕生」近くに現われる「人」スコープが好ましい。たとえば、2つの文節において、
...in 1953,the house was taken over by John Smith.
Born in 1965,Julia Smith...
第1の文節は人スコープで終り、後続文節はトークン「誕生」で始り、人スコープおよびトークン「誕生」はトークン近接に関して隣接しているが、視覚的には意味的にさらに離れている。このケースにおいてSVMに簡約を与えるために、文節スコープに暗黙的トークン分離を関連付けることができる。より進んだ方法は、たとえば、HTMLを解釈することにより文書フォーマット内の視覚レイアウトからトークン分離を引き出すことである。もう1つの方法はクエリーが評価されるとコンテンツ内の一致間の視覚距離を計算できるように視覚位置をトークン位置に平行に関連付けることである。文X02内の会社名X07はより良いトークン近接得点および正確な言語学的一致により文X01内の会社名X03より高い重みを得る。言語学的変形は意味的あいまいさが導入されるケースではより低い重みを有することがある。一方、クエリー内に指定されているように、会社名X03は“Inc”を含むための追加ブーストを得る。さらに、クエリーは形容詞「良い(good)」X04が会社名X03にブーストを与えるように中間形容詞上の感情にわたってアグリゲーションを指定することができる。
アグリゲーションは文書レベル上の文脈にも感応することができる。階層型分類法における同じノード内の支配的文書数はより広範な文書からの証拠のために幾分軽く重み付けされる(down−weighted)。分類法は重みと関連付けてアグリゲーションが、たとえば、「ニュース(News)」カテゴリ内の文書からのスコープ値が「旅行(Travel)」カテゴリ内の文書からの値よりも高いと評価することができる。このような分類法の例はURL(ドメイン、ウェブサイト、ディレクトリ等のレベルを有する)、概念的カテゴリ、プロダクト階層等の明白な分類、等である。
このような分類法に対するサポートは、たとえば、OWL,RDF/RDFS,OIL,DAML,DAML+OIL,KIF,OCML,LOOM,KM,F−Logic,OKBC,およびCycL(その他)等のオントロジー言語内に定義されたオントロジーに一般化することができる。本発明において適用されるオントロジーについては後述する。
オントロジー内のいくつかのオブジェクトに部分的に関連付けられることがある文書が与えられると、スコープ値のレレバンス重みを推論する推論ルールを定義することができる(たとえば、前記言語内に)。概念的分類に関して、文書は「旅行(Travel)」および「ニュース(News)」の両方に属することができるが、確率は異なる。これらの演繹的確率も前記したスコープ値重みに寄与する。
また、オントロジーはアグリゲートされる値を各々が重みに関連付けられた多数の候補値へマッピングすることができる。“foodkind”スコープは値“Granny Smith”を有することがあり「りんご(apple)」または「果物(fruit)」へマッピングされる。重みはやはり文書およびリザルトセット性質を考慮することができるオントロジーに対する推論ルールにより決定することができる。最も単純なケースでは、重みはオントロジー内の“is−a”関係内の意味的距離から決定される。このようにして、値“Granny Smith”は文書内に事前重み0.9を運び、“Granny Smith is an apple”関係は重み0.9を有し、“apple is a fruit”関係は重み0.8を有する。重みの単純なアグリゲートにより、“foodkind”ナビゲータは3つの(値、重み)対、(“Granny Smith”,0.9),(“apple”,0.81),および(“fruit”,0.648)を与えられる。
図8はオントロジーX01に関連付けられた文書X06内の概念のアグリゲーションを示す。文書X06は異なる強度でノードX02,X04,およびX05に関連付けられる。オントロジー内で、ノードX05はたとえばユーザプロファイルに基づいてX04がノードX03に関連付けられるよりも強力にノードX03に関連付けられる。Americanコンテンツに興味のあるユーザからのより頻繁な訪問がある。文書X06からの重みは全着信パス(破線で示す)のアグリゲートされた重みを有するようにノードX03へパスX04−X03およびX05−X03を介して伝搬する。したがって、文書X06に一致する時に全ノードX02,X03,X04,およびX05がアグリゲーション内に含まれる。
要約情報は多数のスコープに基づいて監視または非監視クラスタリングにより計算することができる。監視クラスタリングは分類、すなわち、さまざまな文書レベルに対するスコープ値を考慮した分類法の使用に近いと見なすことができる。前記したように、分類法はオントロジー内に一般化することができ、文書を異なるレベルしたがってさまざまな値に対する異なる確率に関連付けることができる概念的分類に対するルールを定義することができる。多数のスコープに基づいてクラスタリングを実施すると、各スコープに関連付けられた重みはクラスタリングプロセス内に含まれる。たとえば、“title”スコープは“body”スコープよりも高い重みを有することがあり、“title”内のトークンは、たとえば、文書ベクトルに一層寄与しなければならない。また、エンティティサブスコープ(entity subscopes)は“title”および“body”の各々のスコープ内でさらにブースティングを提供することがある。クラスタリングプロセスにおいて、各文書は各々がクラスタメンバシップ得点、たとえば、文書ベクトルおよびクラスタ中心ベクトル間のベクトル類似性測度に関連付けられた1つ以上のクラスタで作られることがある。この得点はスコープ名およびスコープ値のアグリゲートに関して要約値メトリクスとして使用することができる。次に、本発明のいくつかの典型的な実施例をその特定の応用に関して与える。
例1
本発明の第1の実施例はインターネット検索アプリケーション内の、たとえば、垂直検索、局所検索、およびグローバルインターネット検索である。このようなアプリケーションの圧倒的なコンテンツボリュームおよび、サービスが一般大衆により使用されるために生じる、ユーザの検索専門技術の典型的な欠如により関連情報を戻すための補助手段をシステムに設ける必要がある。新考案によりウェブページ解析は、たとえば、良く見えるフォント内の情報に焦点を合わせて視覚表現により概念およびメタデータを評価し、逆文書頻度(inverse document frequency)に基づくターム(terms)のレレバンス計算と同様な多くのページ上で見つかったメニュー内のテキストからの寄与を低減する。文脈のハイパーリンク構造の解析は、たとえば、アンカーテキスト・ナビゲータ内のページの参照しているアンカーテキストを評価することができる。クエリーの結果としてのページビューを使用してクエリーを見られたページと関連付けることができる。このクエリートラフィックの解析は、たとえば、時間経過に伴う人気、現在のトレンド、ユーザを評価できる他のユーザのグループ内の人気に基づいて重み付けされた関連を提供することができる。一般的なページビューに対するユーザトラフィックの解析は全メタデータに適用する演繹的文書レレバンスを提供することができる。概念ナビゲータは前例を含むいくつかのソースから重み付けされた入力を取り出すことができる。
例2
本考案の第2の実施例はe−行列(tailing)およびインターネット・ショッピングを含むe−コマース・アプリケーションの検索分野内にある。たとえば、クエリー“mp3”は多くのバッテリではなく多くのプレーヤを有するメーカへ向かってバイアスされるメーカ・ナビゲータを与えるように、mp3プレーヤはそのmp3プレーヤに対するバッテリよりも強くメーカと関連付けられる。重みは単純に価格とすることができるが、検索からのだけではなく全体的な販売数を含むように改良することができる。製品ナビゲータ内の値に対する重みもレビューから引き出してビシセネスルール−たとえば、製品満了日付、製品収益性、およびキャンペーンにより設定することができる。製品およびクエリー内のテキストから引き出された概念間の重み付けされた関連を、前記したインターネット検索アプリケーションと同様に、これらのデータから確立することができる。示唆された製品カテゴリ、メーカ、モデル、および色およびサイズ等の特徴の重みはユーザトラフィックから推論することができる。異なる製品タイプは異なる特性を有するため、検索に関して異なるコンテンツスキーマを有する。これらのスキーマはエンドユーザに対して一般的な検索スキーマを提供するように正規化されるため、特定製品分野を検索スキーマ分野へマッピングすることはファジーとなることがある。このファジーさは検索スキーマ分野上のナビゲーションへ持続することができる。意味的に良好なマッピングに対する値は明確ではない意味的相関があるマッピングに対するよりも高く重み付けされる。
表2はクエリー“mp3”に一致する5製品を載せたe−コマース設定において使用されるサンプル製品データベースを示す。メーカの従来のナビゲータは“Sanyo”に対する3ヒットおよび“Creative”に対する2ヒットを返し、“Sanyo”エントリを“Creative”エントリよりも高くランク付けする。本考案によりベンダは“Creative”が“Sanyo”よりも高くランク付けされるように、たとえば、価格でメーカ・ナビゲータを評価することができ、これはより良いユーザ経験を作りベンダの収益性を改善すると思われる。
例3
本発明の第3の実施例は知識発見およびテキストマイニング、たとえば、特許検索のエリア内にある。ユーザは典型的に対象エリアのエキスパートであり検索結果に極端な精度が要求される。挑戦はより精密な情報を提供するクエリー改良を提供するだけでなく、クエリーをナビゲータと関連付けてクエリーおよびリザルトセットの定性的測度を与えることである。文書をメタデータと関連付ける技術、およびクエリーをそのリザルトセット内の文書のメタデータ上のナビゲータと関連付ける技術は既にある。本出願人が譲り受けた国際特許出願PCT/NO06/000165はクエリー時間選出サブ文書エンティティと関連付けられたメタデータ上のナビゲータを計算し、ナビゲータ内により高い精度を与えるように示されている。両方のケースにおいて、ナビゲータはメタデータの頻度に基づいている。本発明はクエリーおよびメタデータ間の関連を2進関係からクエリー時間で重みを評価できる重み付け関係に変える。特許検索に応用された本実施例では、独立項、特に請求項1の概念は、たとえば、発明の背景の概念よりも高く重み付けされるように重みを、たとえば、請求項構造に基づくものとして特許の中の発明的ステップの識別により良い精度を与えることができる。たとえば、述語の形の知識の抽出は本来確率的であり、本考案によりこの不確かさは要約化へ流すことができる。これらの確率を閾値でフィルタリングすると要約の品質が低減する。
例4
本発明の第4の実施例はファイルおよび音楽、ビデオ、音声、および写真を含むストリーミングブロードキャストを含むマルチメディアオブジェクトへの応用である。たとえば、社会的ネットワーク内の人気測度は過去の活動および現在のトレンドの概要がこれらの重みを含むようにジャンル、アーチスト、およびソングに重みを与えることができる。オブジェクトにグローバルおよび特定文脈メタデータ(たとえば、ビデオストリーム内のスクリーン当たり)を付加するために、特徴抽出がしばしばマルチメディアに適用される。抽出された特徴は本発明が要約化において考慮する確率と関連付けられる。たとえば、音声からテキストへの変換はメディアストリーム内で検出された音素および語へ確率を割り当て、顔検出システムが検出された各顔へ確率を割り当てる。
本発明のある望ましい有用な応用例の他に、当業者ならば本発明は検索システム上の従来の情報アクセスにおいて実施される情報アクセスおよび検索を超えた応用において実施できることを容易に実感すると思われ、たとえば、企業検索システムでは要約値メトリクスにビジネス企業内の特定の経営目標を達成する意図を設定することができる。要約値メトリクスSVMを宣伝入札に応答させることもでき、これらは特に入札値および/または期待宣伝収益を含むことができる。
本発明に従った方法を応用すべき情報アクセスおよび検索のための一般的システムは本発明に従った検索エンジン内に有利に実施することができる。
以下において、本発明の方法をサポートし実現するようにされた検索エンジンについてより詳細に検討する。本発明の方法をサポートし実現するために、さらにコンポーネントおよびモジュールが設けられ、図9について説明する。
本発明の検索エンジン100は、従来技術で知られているように、さまざまなサブシステム101−107を含まなければならない。検索エンジンはそこからコンテンツを検索エンジン内にアクティブに押込む、またはデータコネクタを介して押込むことができるコンテンツドメインまたはスペース内に配置された文書やコンテンツ・レポジットリにアクセスすることができる。典型的なレポジットリはデータベース、Informatica等のETL(Extract−Transform−Load)ツールを介して利用可能とされたソース、XMLフォーマット化レポジットリ、ファイルサーバからのファイル、ウェブサーバからのファイル、文書管理システム、コンテンツ管理システム、電子メールシステム、通信システム、コラボレーションシステム、およびオーディオ、イメージおよびビデオ等のリッチメディアを含んでいる。検索された文書はコンテンツAPI(Application Programming Interface)102を介して検索エンジン100へ提出される。その後、改善された検索および発見操作に対するコンテンツを準備するために、文書はコンテンツ処理サブシステムとも呼ばれるコンテンツ解析段階103で解析される。典型的に、この段階の出力は入力文書のXML表現である。コンテンツ解析の出力はコア検索エンジン101へ供給するのに使用される。大きな文書セットおよび高いクエリー負荷が処理されることを考慮するために、コア検索エンジン101は典型的にサーバのファームを横切って分散展開される。コア検索エンジン101はユーザ要求を受け入れて一致する文書のリストを作り出すことができる。文書順序付け(document ordering)は通常クエリーに関する定められた文書の確からしい重要度を測定するレレバンスモデルに従って決定される。さらに、コア検索エンジン103は文書属性に対する要約情報等のリザルトセットに関する追加メタデータを作り出すことができる。
コア検索エンジン101自体がさらにサブシステム、すなわち、コンテンツ文書をクローリング(crawling)およびインデクシングする索引(indexing)サブシステム101aおよび検索を適切に実施するための検索サブシステム101bを含んでいる。あるいは、コンテンツ解析段階103の出力はオプショナル・アラートエンジン104内に供給することができる。アラートエンジン104はクエリーのセットを格納していて、定められた文書入力をどのクエリーが受け入れているか決定することができる。検索エンジンは典型的にはモバイルでコンピュータ−ベース・クライアント・アプリケーションとすることができる多くの異なるクライアントまたはアプリケーションからアクセスすることができる。他のクライアントはPDAおよびゲーム装置を含む。クライアントスペースすなわちドメイン内に配置されたこれらのクライアントは検索エンジンクエリーまたはクライアントAPI107に要求を提出する。典型的に、検索エンジン100は、さらに、クエリー解析段階105の形のサブシステムを備え、より有意の情報を抽出できる導クエリー(derived query)を構成するためにクエリーを解析し改良する。最後に、クライアントにより使用される情報または視覚化を作り出すために、コア検索エンジン103からの出力は典型的にもう1つのサブシステム、すなわち、リザルト解析段階106内でさらに解析される。両方の段階105および106がコア検索エンジン101およびクライアントAPI107間に接続され、アラートエンジン104が存在する場合、それはコンテンツ解析段階103およびクエリーおよびリザルト解析段階105,106間でコア検索エンジン101に並列接続される。
本発明をサポートし実現するために、従来技術で既知の検索エンジン100にはあるモジュール108−111を設けなければならない。第1のモジュールは階層型スコープに要約値メトリクスを指定するために通常コンテンツAPI102内に設けられる。あるいは、この第1のモジュールはコンテンツ解析段階内に含めることができる。少なくとも、コンテンツ解析段階103はコンテンツ内の明白なフォーマット構造を認識することによりスコープを生成する第2のモジュール109を含み、それに基づいてこのように生成されたスコープへ要約値メトリクス(SVM)を割り当てる。さらに、第3のモジュールにはコンテンツの解析からスコープを生成し、それに基づいてこのように生成されたスコープへ要約値メトリクス(SVM)を割り当てるするコンテンツ解析段階102が設けられ。前記したように、実際上ここではマルチ分散コア検索エンジンの表現と見なすことができるコア検索エンジン101は、事実、さらに2つのサブシステム、すなわち、インデクシングサブシステム101aおよび検索サブシステム101bを含んでいる。本発明に従った方法を実現するために、インデクシングサブシステム101aはスコープ、値およびSVMをインデクシングするための第4のモジュール111を含まなければならない。最後に、クエリーおよびリザルトの両方を処理するクライアントAPIは、当業者ならばお判りのように、クエリー、アグリゲーションおよびナビゲータを指定するための手段すなわちモジュールを含み、これらは本発明に従った方法をサポートするように適切に適合される。
本発明はこのような要約情報をクエリー改良のためのインタラクティブ・オブジェクトとどのように関連付けられるかを開示しており、前にリザルトセットだけに適用された、レレバンスの概念も要約情報に適用されデータ通信システム一般、すなわち、エクストラネットとイントラネットの両方にわたって情報検索に応用することができる検索エンジンまたは検索システムの知覚された品質を改善する。さらに、本発明は所要ネットワーク帯域幅を低減することにより分散検索エンジン内のクエリー・スループットをどのように高めるかをも開示している。したがって、詳細に説明したように、本発明は広く応用される情報アクセスおよび検索方法の著しい改善を表している。
典型的な適合率−再現率グラフを示す図である。 文書レベルリザルトセットナビゲータを示す図である。 クエリー“soccer”に対する文脈ナビゲーションを示す図である。 クエリーに対するレレバンスプロファイルを示す図である。 分散されたアグリゲーションの略図である。 重みを有するマッピングの略図である。 要約値メトリクスの文脈重み付けを示す図である。 オントロジーを介したアグリゲーションを示す図である。 本発明に従った検索エンジンのアーキテクチュアの略図である。
符号の説明
201 クエリー
202 リザルトセット
203,204,205 文書・レベル・メタデータ
X01 文書(図3)
X02 文節(図3)
X03 文レベル(図3)
X01 コンテンツ・パーティション(図5)
X02 局所アグリゲーション(図5)
X03 ネットワーク(図5)
X04 グローバルアグリゲーション(図5)
X05 プロセス(図5)
X01 Contacts(図6)
X02 Customers(図6)
X03 SearchSchema(図6)
X01 文(図7)
X02 文(図7)
X03 会社名(図7)
X04 形容詞(図7)
X05 食料雑貨店(図7)
X01 オントロジー(図8)
X01,X02,X03,X04,X05 ノード(図8)
X06 文書(図8)
100 検索エンジン
101 コア検索エンジン
101a インデクシングサブシステム
101b 検索サブシステム
102,107 アプリケーション・プログラミング・インターフェイス
103 コンテンツ解析段階
104 アラートエンジン
105 クエリー解析段階
106 リザルト解析段階
108,109,110,111 モジュール

Claims (1)

  1. コンピュータが文書の要約情報を計算する方法であって、
    属性(A)および前記属性(A)に対応する属性値(V )を含むクエリー情報に基づき、前記コンピュータがアクセス可能な記憶装置に格納された文書集合にクエリーを実行し、一致した文書(d )を識別するステップと、
    前記一致した文書(d )の各々に関して、前記属性(A)を有するトークンの第1の数(N1 (A))を抽出するステップと、
    前記一致した文書(d )の各々に関して、前記属性値(V )を有するトークンの第2の数(N2 (V ))を抽出するステップと、
    前記第2の数(N2 (V ))を前記第1の数(N1 (A))で割った値であるスコア(S ij )について前記一致した文書(d )全体で和をとり、前記属性値(V )に対するアグリゲートされた要約値メトリックス(SVM )を算出するステップと、
    複数の前記属性値(V )および前記アグリゲートされた要約値メトリックス(SVM )からなる前記要約情報を作成してユーザーに提示するステップと
    を有することを特徴とする方法。
JP2007288256A 2006-11-07 2007-11-06 情報アクセスおよび検索におけるレレバンス重み付けナビゲーション Expired - Fee Related JP4861961B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NO20065133A NO325864B1 (no) 2006-11-07 2006-11-07 Fremgangsmåte ved beregning av sammendragsinformasjon og en søkemotor for å støtte og implementere fremgangsmåten
NO20065133 2006-11-07

Publications (2)

Publication Number Publication Date
JP2008135023A JP2008135023A (ja) 2008-06-12
JP4861961B2 true JP4861961B2 (ja) 2012-01-25

Family

ID=39301121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007288256A Expired - Fee Related JP4861961B2 (ja) 2006-11-07 2007-11-06 情報アクセスおよび検索におけるレレバンス重み付けナビゲーション

Country Status (4)

Country Link
US (1) US7966305B2 (ja)
EP (1) EP1930816A1 (ja)
JP (1) JP4861961B2 (ja)
NO (1) NO325864B1 (ja)

Families Citing this family (109)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7505964B2 (en) 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US7610255B2 (en) 2006-03-31 2009-10-27 Imagini Holdings Limited Method and system for computerized searching and matching multimedia objects using emotional preference
US8856105B2 (en) * 2006-04-28 2014-10-07 Hewlett-Packard Development Company, L.P. Dynamic data navigation
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US9110975B1 (en) 2006-11-02 2015-08-18 Google Inc. Search result inputs using variant generalized queries
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US8694374B1 (en) 2007-03-14 2014-04-08 Google Inc. Detecting click spam
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
US8126877B2 (en) * 2008-01-23 2012-02-28 Globalspec, Inc. Arranging search engine results
US8290975B2 (en) * 2008-03-12 2012-10-16 Microsoft Corporation Graph-based keyword expansion
US20100100562A1 (en) * 2008-10-01 2010-04-22 Jerry Millsap Fully Parameterized Structured Query Language
US8756219B2 (en) * 2008-11-04 2014-06-17 Microsoft Corporation Relevant navigation with deep links into query
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US8639682B2 (en) * 2008-12-29 2014-01-28 Accenture Global Services Limited Entity assessment and ranking
US8386502B2 (en) * 2009-03-12 2013-02-26 Bank Of America Corporation Market identification system
US8930350B1 (en) 2009-03-23 2015-01-06 Google Inc. Autocompletion using previously submitted query data
US9009146B1 (en) 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
WO2010119379A1 (en) * 2009-04-15 2010-10-21 Imagini Holdings Limited A method and system for providing customized content using emotional preference
US8244749B1 (en) * 2009-06-05 2012-08-14 Google Inc. Generating sibling query refinements
US8756229B2 (en) * 2009-06-26 2014-06-17 Quantifind, Inc. System and methods for units-based numeric information retrieval
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8583675B1 (en) 2009-08-28 2013-11-12 Google Inc. Providing result-based query suggestions
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8694505B2 (en) 2009-09-04 2014-04-08 Microsoft Corporation Table of contents for search query refinement
US8364679B2 (en) 2009-09-17 2013-01-29 Cpa Global Patent Research Limited Method, system, and apparatus for delivering query results from an electronic document collection
US20110078188A1 (en) * 2009-09-28 2011-03-31 Microsoft Corporation Mining and Conveying Social Relationships
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US8706717B2 (en) 2009-11-13 2014-04-22 Oracle International Corporation Method and system for enterprise search navigation
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
US8271479B2 (en) 2009-11-23 2012-09-18 International Business Machines Corporation Analyzing XML data
US8886650B2 (en) * 2009-11-25 2014-11-11 Yahoo! Inc. Algorithmically choosing when to use branded content versus aggregated content
US8793208B2 (en) * 2009-12-17 2014-07-29 International Business Machines Corporation Identifying common data objects representing solutions to a problem in different disciplines
US8645377B2 (en) * 2010-01-15 2014-02-04 Microsoft Corporation Aggregating data from a work queue
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US8903794B2 (en) 2010-02-05 2014-12-02 Microsoft Corporation Generating and presenting lateral concepts
US8983989B2 (en) 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries
US8650172B2 (en) * 2010-03-01 2014-02-11 Microsoft Corporation Searchable web site discovery and recommendation
US20110219030A1 (en) * 2010-03-03 2011-09-08 Daniel-Alexander Billsus Document presentation using retrieval path data
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8972397B2 (en) * 2010-03-11 2015-03-03 Microsoft Corporation Auto-detection of historical search context
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US9183292B2 (en) * 2010-03-24 2015-11-10 Taykey Ltd. System and methods thereof for real-time detection of an hidden connection between phrases
US9613139B2 (en) 2010-03-24 2017-04-04 Taykey Ltd. System and methods thereof for real-time monitoring of a sentiment trend with respect of a desired phrase
US10600073B2 (en) 2010-03-24 2020-03-24 Innovid Inc. System and method for tracking the performance of advertisements and predicting future behavior of the advertisement
US8782046B2 (en) 2010-03-24 2014-07-15 Taykey Ltd. System and methods for predicting future trends of term taxonomies usage
US9946775B2 (en) 2010-03-24 2018-04-17 Taykey Ltd. System and methods thereof for detection of user demographic information
US9460232B2 (en) * 2010-04-07 2016-10-04 Oracle International Corporation Searching document object model elements by attribute order priority
US9298818B1 (en) * 2010-05-28 2016-03-29 Sri International Method and apparatus for performing semantic-based data analysis
US20110302149A1 (en) * 2010-06-07 2011-12-08 Microsoft Corporation Identifying dominant concepts across multiple sources
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
US8548989B2 (en) * 2010-07-30 2013-10-01 International Business Machines Corporation Querying documents using search terms
US9015244B2 (en) * 2010-08-20 2015-04-21 Bitvore Corp. Bulletin board data mapping and presentation
US8595240B1 (en) 2010-09-24 2013-11-26 Google Inc. Labeling objects by propagating scores in a graph
US9396492B2 (en) 2010-10-15 2016-07-19 Opentable, Inc. Computer system and method for analyzing data sets and providing personalized recommendations
US20120095862A1 (en) 2010-10-15 2012-04-19 Ness Computing, Inc. (a Delaware Corportaion) Computer system and method for analyzing data sets and generating personalized recommendations
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
US20120239681A1 (en) 2011-03-14 2012-09-20 Splunk Inc. Scalable interactive display of distributed data
US8688696B2 (en) 2011-06-27 2014-04-01 Microsoft Corporation Multi-part search result ranking
US9195769B2 (en) 2011-07-20 2015-11-24 Opentable, Inc. Method and apparatus for quickly evaluating entities
CA2842215A1 (en) * 2011-07-20 2013-01-24 Ness Computing, Inc. Method and apparatus for allowing users to augment searches
US20130024464A1 (en) 2011-07-20 2013-01-24 Ness Computing, Inc. Recommendation engine that processes data including user data to provide recommendations and explanations for the recommendations to a user
US8930340B1 (en) * 2011-09-20 2015-01-06 Google Inc. Blending content in an output
CN103136262B (zh) * 2011-11-30 2016-08-24 阿里巴巴集团控股有限公司 信息检索方法及装置
US9183511B2 (en) * 2012-02-24 2015-11-10 Ming Li System and method for universal translating from natural language questions to structured queries
US8747115B2 (en) 2012-03-28 2014-06-10 International Business Machines Corporation Building an ontology by transforming complex triples
US9754585B2 (en) * 2012-04-03 2017-09-05 Microsoft Technology Licensing, Llc Crowdsourced, grounded language for intent modeling in conversational interfaces
WO2013154947A1 (en) 2012-04-09 2013-10-17 Vivek Ventures, LLC Clustered information processing and searching with structured-unstructured database bridge
US9262469B1 (en) * 2012-04-23 2016-02-16 Monsanto Technology Llc Intelligent data integration system
US9372903B1 (en) 2012-06-05 2016-06-21 Monsanto Technology Llc Data lineage in an intelligent data integration system
CN102750375B (zh) * 2012-06-21 2014-04-02 武汉大学 一种基于随机游走的服务和标签推荐方法
US8539001B1 (en) 2012-08-20 2013-09-17 International Business Machines Corporation Determining the value of an association between ontologies
US9396179B2 (en) * 2012-08-30 2016-07-19 Xerox Corporation Methods and systems for acquiring user related information using natural language processing techniques
WO2014036441A2 (en) * 2012-08-31 2014-03-06 The Dun & Bradstreet Corporation System and process for discovering relationships between entities based on common areas of interest
AU2013335231B2 (en) 2012-10-22 2018-08-09 Ab Initio Technology Llc Profiling data with location information
US8874569B2 (en) 2012-11-29 2014-10-28 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for identifying and visualizing elements of query results
US10733182B2 (en) * 2012-12-10 2020-08-04 Healthagen International Limited Method and system for aggregate banding
US9753986B2 (en) * 2012-12-17 2017-09-05 International Business Machines Corporation Multi-dimensional feature merging for supporting evidence in a question and answering system
US9297918B2 (en) * 2012-12-28 2016-03-29 General Electric Company Seismic data analysis
US9892026B2 (en) 2013-02-01 2018-02-13 Ab Initio Technology Llc Data records selection
WO2014138689A2 (en) 2013-03-08 2014-09-12 Ness Computing, Llc Context-based queryless presentation of recommendations
US10671629B1 (en) 2013-03-14 2020-06-02 Monsanto Technology Llc Intelligent data integration system with data lineage and visual rendering
US9183499B1 (en) 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
US9268770B1 (en) 2013-06-25 2016-02-23 Jpmorgan Chase Bank, N.A. System and method for research report guided proactive news analytics for streaming news and social media
US9514133B1 (en) 2013-06-25 2016-12-06 Jpmorgan Chase Bank, N.A. System and method for customized sentiment signal generation through machine learning based streaming text analytics
US9298785B2 (en) * 2013-07-19 2016-03-29 Paypal, Inc. Methods, systems, and apparatus for generating search results
US11487732B2 (en) 2014-01-16 2022-11-01 Ab Initio Technology Llc Database key identification
EP3594821B1 (en) * 2014-03-07 2023-08-16 AB Initio Technology LLC Managing data profiling operations related to data type
US10102274B2 (en) * 2014-03-17 2018-10-16 NLPCore LLC Corpus search systems and methods
US10372739B2 (en) * 2014-03-17 2019-08-06 NLPCore LLC Corpus search systems and methods
JP2017513138A (ja) * 2014-03-31 2017-05-25 コファックス, インコーポレイテッド スケーラブルなビジネスプロセスインテリジェンスおよび分散アーキテクチャのための予測的分析
US10839441B2 (en) * 2014-06-09 2020-11-17 Ebay Inc. Systems and methods to seed a search
US20160063095A1 (en) * 2014-08-27 2016-03-03 International Business Machines Corporation Unstructured data guided query modification
US10019523B2 (en) * 2014-11-21 2018-07-10 Ebay Inc. Diversifying search results
US9971760B2 (en) 2014-12-22 2018-05-15 International Business Machines Corporation Parallelizing semantically split documents for processing
US10019442B2 (en) * 2015-05-31 2018-07-10 Thomson Reuters Global Resources Unlimited Company Method and system for peer detection
JP6680126B2 (ja) 2016-07-25 2020-04-15 富士通株式会社 符号化プログラム、符号化装置、符号化方法、及び検索方法
US11023553B2 (en) * 2017-04-04 2021-06-01 Microsoft Technology Licensing, Llc Identifying and managing trusted sources in online and networked content for professional knowledge exchange
CN107480199B (zh) * 2017-07-17 2020-06-12 深圳先进技术研究院 数据库的查询重构方法、装置、设备及存储介质
US11068540B2 (en) 2018-01-25 2021-07-20 Ab Initio Technology Llc Techniques for integrating validation results in data profiling and related systems and methods
US10963273B2 (en) 2018-04-20 2021-03-30 Facebook, Inc. Generating personalized content summaries for users
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US20200409982A1 (en) * 2019-06-25 2020-12-31 i2k Connect, LLC. Method And System For Hierarchical Classification Of Documents Using Class Scoring
CN114584574B (zh) * 2022-04-28 2022-08-02 武汉四通信息服务有限公司 数据同步方法、装置、计算机设备及存储介质
US20230385556A1 (en) * 2022-05-24 2023-11-30 Verizon Patent And Licensing Inc. Systems and methods for reducing input to and increasing processing speeds of natural language processing models

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073130A (en) * 1997-09-23 2000-06-06 At&T Corp. Method for improving the results of a search in a structured database
CA2371244A1 (en) 1999-02-25 2000-08-31 Focusengine Software Ltd. Method and apparatus for dynamically displaying a set of documents organized by a hierarchy of indexing concepts
JP2001249943A (ja) 2000-03-03 2001-09-14 Ricoh Co Ltd 文書検索システム、文書検索方法およびその方法を実施するためのプログラムを記憶した記憶媒体
US7062483B2 (en) 2000-05-18 2006-06-13 Endeca Technologies, Inc. Hierarchical data-driven search and navigation system and method for information retrieval
US7035864B1 (en) 2000-05-18 2006-04-25 Endeca Technologies, Inc. Hierarchical data-driven navigation system and method for information retrieval
JP2002024144A (ja) 2000-07-05 2002-01-25 Nippon Telegr & Teleph Corp <Ntt> 電子メール転送方法及び装置及び電子メール転送プログラムを格納した記憶媒体
US6633868B1 (en) 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
GB0026353D0 (en) 2000-10-27 2000-12-13 Canon Kk Apparatus and a method for facilitating searching
US7526425B2 (en) 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US6886010B2 (en) 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
US7035884B2 (en) * 2002-11-05 2006-04-25 Sun Microsystems, Inc. Placement of allocation trains in the train algorithm
JP4200834B2 (ja) * 2003-07-02 2008-12-24 沖電気工業株式会社 情報検索システム、情報検索方法及び情報検索プログラム
JP4446715B2 (ja) * 2003-11-04 2010-04-07 株式会社ジャストシステム 文書検索装置、文書検索方法、および文書検索プログラム
JP2006072844A (ja) * 2004-09-03 2006-03-16 Oki Electric Ind Co Ltd キーワード特定装置、キーワード特定方法及びキーワード特定プログラム
US7685136B2 (en) * 2005-01-12 2010-03-23 International Business Machines Corporation Method, system and program product for managing document summary information
US20060200464A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation Method and system for generating a document summary
NO20052215L (no) 2005-05-06 2006-11-07 Fast Search & Transfer Asa Fremgangsmate til bestemmelse av kontekstuell sammendragsinformasjon over dokumenter

Also Published As

Publication number Publication date
JP2008135023A (ja) 2008-06-12
EP1930816A1 (en) 2008-06-11
NO325864B1 (no) 2008-08-04
US7966305B2 (en) 2011-06-21
NO20065133L (no) 2008-05-08
US20080189269A1 (en) 2008-08-07

Similar Documents

Publication Publication Date Title
JP4861961B2 (ja) 情報アクセスおよび検索におけるレレバンス重み付けナビゲーション
US10223439B1 (en) Systems and methods for providing search query refinements
US8051084B2 (en) System and method for measuring the quality of document sets
US8386469B2 (en) Method and system for determining relevant sources, querying and merging results from multiple content sources
JP5377829B2 (ja) 関連性のある情報源を決定し、クエリし、複数のコンテンツ情報源からの結果をマージするための方法とシステム
US20060155751A1 (en) System and method for document analysis, processing and information extraction
US20070214133A1 (en) Methods for filtering data and filling in missing data using nonlinear inference
JP2007234008A5 (ja)
Setia et al. HPM: A Hybrid Model for User’s Behavior Prediction Based on N‐Gram Parsing and Access Logs
Ko et al. Semantically-based recommendation by using semantic clusters of users' viewing history
Veningston et al. Semantic association ranking schemes for information retrieval applications using term association graph representation
Li et al. Hierarchical user interest modeling for Chinese web pages
Selvan et al. ASE: Automatic search engine for dynamic information retrieval
Dias Reverse engineering static content and dynamic behaviour of e-commerce websites for fun and profit
WO2006034222A2 (en) System and method for document analysis, processing and information extraction
Nikravesh et al. Web Intelligence: Concept-Based Web Search

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100709

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20100922

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101008

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100922

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101015

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101109

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101112

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101207

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110106

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110207

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110711

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20110712

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110712

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111028

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111107

R150 Certificate of patent or registration of utility model

Ref document number: 4861961

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees