JP2004005668A - 膨大な異種ドキュメント集合内のドキュメントについて信頼度の等級付け、推定、分類を行うシステムおよび方法 - Google Patents

膨大な異種ドキュメント集合内のドキュメントについて信頼度の等級付け、推定、分類を行うシステムおよび方法 Download PDF

Info

Publication number
JP2004005668A
JP2004005668A JP2003139781A JP2003139781A JP2004005668A JP 2004005668 A JP2004005668 A JP 2004005668A JP 2003139781 A JP2003139781 A JP 2003139781A JP 2003139781 A JP2003139781 A JP 2003139781A JP 2004005668 A JP2004005668 A JP 2004005668A
Authority
JP
Japan
Prior art keywords
document
group
documents
reliability
trust
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003139781A
Other languages
English (en)
Inventor
Ayman O Farahat
アイマン オー ファラハット
Francine R Chen
フランシン アール チェン
Charles R Mathis
チャールズ アール マテス
Geoffrey D Nunberg
ジオフライ ディー ナンバーグ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2004005668A publication Critical patent/JP2004005668A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】話題ではなく、本文による手がかりに基づいて、ドキュメントの信頼度を決定するシステムおよび方法を提供する。
【解決手段】複数のドキュメント内容特性を備えるドキュメントの信頼度を決定する方法であって、ドキュメント内容特性値群を決定するステップS240と、練達されたドキュメント本文信頼モデルを利用し、決定済みのドキュメント内容特性値群に基づいてドキュメントの信頼度を決定するステップS260とを含むドキュメントの信頼度決定方法によって上記課題を解決できる。
【選択図】    図7

Description

【0001】
【発明の属する技術分野】
本発明は、情報のランキング及び検索に関する。
【0002】
【従来の技術】
膨大な異種ドキュメント集合、たとえば、World Wide Web(「ウェブ」)の利用に関してよく知られた難しい問題は、対象案件について信頼できる認証された信頼ある情報を提供しているドキュメント、たとえば、ウェブページ、ウェブドキュメントなどがどれであるかを簡単には判別できないことである。この問題は、特に、「高い価値の」情報を必要とする場合、たとえば、医学情報の取得など、誤謬の対価が高くつく可能性がある場合に非常に深刻である。
【0003】
ウェブページまたはウェブドキュメントの信頼度は、一般に、ウェブのリンク構造で表される社会的ネットワークに基づいて測定される。
【0004】
【発明が解決しようとする課題】
たとえば、HITS(登録商標)などのアルゴリズム、およびPageRank(登録商標)検索エンジンに採用されているアルゴリズムは、ウェブページの信頼度をそのリンク構造に基づいて決定する。ただし、ドキュメントの信頼度についての非常に有用な指標となるのはその内容であり、内容の信頼度はリンク構造のみで推論できるものではないにも関わらず、これらの技術には、ドキュメントの内容が考慮されていない。
【0005】
「信頼度」という概念は、2通りに解釈される。1つ目の解釈は、社会的ネットワークに根拠を置くもので、本質的にはグラフ理論的な概念である。社会的信頼性信頼の例として、新聞記事を挙げることができる。新聞に「大統領は議案を否決するだろうと信頼ある情報筋が発表した。」と、書かれている場合、通常「信頼ある」とは、その情報筋が問題の件に社会的な権限を持つ人物に比較的近い存在であるという意味に解釈される。この場合の問題の人物は、恐らく、大統領または大統領顧問に近い社会的地位にある誰かであると考えられる。これは、引用索引などのツールの用途に潜在的に含まれる信頼度の概念であり、この意味において「信頼ある」情報筋は、所定の科学文献または学術文献の引用文献ネットワークにおいて比較的中心的な存在である。また、「信頼度」は、Google(登録商標)のような検索エンジンを実装するための各種リンク解析手法に運用される概念でもあり、この意味における「信頼ある」ページは、通常、他の多数のページにリンクされ、各種の技術的改善が行われるページである。
【0006】
本発明は、広く「本文による」として定義される信頼度の2つ目の概念を利用したシステムおよび方法を提供する。たとえば、「ジョーンズ教授はルーズベルトの対外政策についての信頼(権威)ある本を書いた。」と言う場合、ジョーンズ教授が当面の題材に対する直接的な知識を持つ人物と親しい関係にあることは、必ずしも暗示されてはいない。また、実際には、そのような事実が存在することもあるが、ジョーンズ教授の本は学者またはジャーナリストによって引用されることが多いということを暗示するものでもない。前述の発言が意味するのは、前述の本は、内的根拠に基づいて信頼(権威)あるものであるということである。この内的根拠としては、調査が行き届いていることを思わせる本であるということ、熟練した適切な方法で言葉が選ばれている本であること、正しく分類された多数の参考文献を含むことなどを挙げることができる。
【0007】
社会全般には、ウェブで証明されているように、異種の知識および観点が非常に多く存在する。ある文章が広く参照されるということ、そのこと自体は、広い意味でその本文が信頼あるものであることを保障するものではない。この点が特に重要であるのは、随所に存在する多数の誤った情報が大きな問題になる場合、たとえば、医学的情報を取得する場合などである。
【0008】
ネットワークの信頼度しか考慮しない場合、誤分類は避けられない。密集した社会の小集団を本流のサイトと区別するのに、リンクパターンの純粋な数量的解析では不十分であることがしばしばであるが、誤分類もそれと同程度の頻度で生じる。同様に、ジオシティ(Geocities)サイトに登録された政府の健康協会の報告のように、内的根拠に基づいた信頼ある文章が広くリンクされていないサイトに存在していることもしばしば生じる。
【0009】
本発明は、内容的な手掛かりでなく本文による手掛かりに基づいて、ドキュメントの信頼度を推定するシステムおよび方法を提供する。
【0010】
【課題を解決するための手段】
本発明は、ドキュメントの信頼度を決定するシステムおよび方法であって、リンク構造に基づいてドキュメントの信頼度を推定する目的で採用されたシステムおよび方法を補完するシステムおよび方法を提供する。
【0011】
本発明に係るシステムおよび方法は、各ドキュメントに含まれるドキュメント内容特性群を評価し、練達されたドキュメント本文信頼モデルを用いてドキュメント内容特性群を処理することによってドキュメント内容特性値群を求め、評価済み各ドキュメントに関する本文信頼度値と本文信頼クラスの少なくとも一方を出力して、ドキュメントの本文の信頼を決定する。
【0012】
本発明に係るシステムおよび方法は、言語的内容と描写的内容の両方を表すドキュメント内容特性を選択して評価する。本発明のシステムおよび方法で考慮するドキュメント内容特性には、たとえばプレーンテキスト内の特定文字の使用、たとえば学術的接頭語を持つ語のような語クラス、各種の書式的要素、HTML特性などを含めることができる。
【0013】
本発明に係るシステムおよび方法は、練達されたドキュメント本文信頼モデルを用いてドキュメント内容特性群を処理することによって、ドキュメントの本文信頼を決定する。練達されたドキュメント本文信頼モデルは、本文信頼の程度を手動でラベル付けしたドキュメント群、ドキュメントの信頼度を表す適切な予測変数であると判断されたドキュメント内容特性群、およびラベル付きドキュメントデータ上で整形した予測モデルを基準にしたものである。
【0014】
本発明に係るシステムおよび方法は、各ドキュメントに関する本文信頼度値であって、練達されたドキュメント本文信頼モデルが包含するドキュメント本文信頼構造モデルを用いて決定する本文信頼度値を出力する。ドキュメント本文信頼構造モデルには、各種のドキュメント分類属性、たとえば、作者の経歴、ドキュメントが対象とする相手、作者の所属団体、そのドキュメントが他者によって校閲または検査されたかどうかなどが考慮される。
【0015】
本発明に係るシステムおよび方法は、各ドキュメントに関する信頼クラスであって、練達されたドキュメント本文信頼モデルが包含するドキュメント本文信頼構造モデルを用いて決定する信頼クラスを出力する。ドキュメント信頼クラス構造モデルには、各種のドキュメント分類属性、たとえば、作者の経歴、ドキュメントが対象とする相手、作者の所属団体、ドキュメントが他者によって校閲または検査されたかどうかなどが考慮される。
【0016】
【発明の実施の形態】
図1は、本発明のシステムおよび方法で利用できるネットワーク環境100を示す図である。図1に示すように、大規模な異種ネットワーク110、たとえば、World Wide Webなどは、通常、数百万のウェブサイトを含んでいる。これら数百万のウェブサイトのいくつかを、図にウェブサイトサーバ120,130,140として模式的に示す。また、各ウェブサイトサーバ120,130,140は、更に、膨大な数のウェブページ122〜128,132〜138,142〜148、すなわち、本発明のシステムおよび方法で本文を処理するのに適した他のウェブ基準の情報資源またはドキュメントをそれぞれ含む。ウェブページまたはドキュメント122〜128,132〜138,142〜148は、それぞれ、たとえば、ウェブサイトデータベース、または他の適切なウェブアプリケーション等の各種のウェブアプリケーション150,160,170に適合させられている。ユーザは、適切なウェブブラウザと通信ソフトウェアを装備したパソコンまたはウェブを利用できる他の装置を使用し、通信リンク214を通じてネットワーク110に接続でき、ネットワーク110上で利用可能なドキュメントにアクセスできる。
【0017】
ネットワーク110で利用できる大量の情報は、特定の分野または話題に最も関連の深いドキュメントを検索するユーザに多大な困難をもたらす。例示する各種実施形態では、ネットワークまたはウェブに接続された本発明の信頼度決定システム200では、ウェブドキュメント122〜128,132〜138,142〜148に対して検索、等級付け、推定、分類の少なくとも1つを実行できる。
【0018】
図2に、信頼度決定システム200を示す。信頼度決定システム200は、リンク214を介してネットワーク110に接続する。図2に示すように、信頼度決定システム200は、ユーザに情報を表示できるようにする1つ以上の表示装置280と、ユーザが信頼度決定システム200にデータを入力できるようにする1つ以上のユーザ入力装置290を含む。1つ以上の表示装置280と、1つ以上の入力装置290は、ぞれぞれ、1つ以上の通信リンク282,292から入出力インタフェース210を介して信頼度決定システム200と接続する。
【0019】
例示する各種実施形態において、信頼度決定システム200は、コントローラ220と、メモリ230と、練達されたドキュメント本文信頼モデル232と、ドキュメント内容特性値決定回路または決定ルーチン240と、ドキュメント本文信頼度値決定回路または決定ルーチン250と、ドキュメント本文信頼クラス決定回路または決定ルーチン260と、ドキュメントの結合信頼度決定回路または決定ルーチン270とを1つ以上含み、そのすべてが1つ以上のデータバスもしくは制御バスおよび/またはアプリケーションプログラミングインタフェース295を通じて相互に接続される。例示する各種実施形態において、信頼度決定システム200は、更に、ドキュメント分類精度改善回路または改善ルーチン275を任意に含んでもよい。この改善回路または改善ルーチン275も、1つ以上のデータバスもしくは制御バスおよび/またはアプリケーションプログラミングインタフェース295を通じて接続される。例示する各種実施形態では、練達されたドキュメント本文信頼モデル232を、信頼度決定システム200のメモリ230に格納する。
【0020】
コントローラ220は、信頼度決定システム200における他の構成部品の動作を制御する。コントローラ220は、また、信頼度決定システム200の構成部品間のデータフローも必要に応じて制御する。メモリ230は、信頼度決定システム200に入出力する情報を格納できる。また、信頼度決定システム200の機能を実装している必要なプログラムおよび/またはデータを格納してもよく、更に、各種の処理段階におけるデータおよび/またはドキュメント信頼度情報を格納してもよい。
【0021】
例示する各種実施形態において、信頼度決定システム200は、練達されたドキュメント本文信頼モデル232を含み、該練達されたドキュメント本文信頼モデル232を利用して信頼度決定システム200がドキュメントの1群を処理する。この処理において、信頼度決定システム200は、各種の回路またはルーチン240,250,260,270,275のいずれか、またはそのすべてを用いて、ドキュメントに関する本文信頼度値および/または本文信頼クラスを推定する。練達されたドキュメント本文信頼モデル232は、本文信頼の程度について手動で評価およびラベル付けされた多数のサンプルドキュメントを用いて学習される。練達されたドキュメント本文信頼モデル232については後に説明する。
【0022】
ドキュメント内容特性値決定回路または決定ルーチン240は、ドキュメントに関するドキュメント内容特性値を決定する。例示する各種実施形態では、ドキュメント内容特性値決定回路またはルーチン240は、たとえば、図3に示すような特定のドキュメント内容特性310、たとえば、1つ以上の疑問符、数字、学術的接頭語または学術的接尾語を持つ語、ハイパーリンク、ドキュメントの長さ、省略形、名詞句の数など、ウェブドキュメント、たとえば、ウェブページに存在する可能性のある特性を評価、たとえば特定及び選択するために用いることができる。図3には、また、ドキュメントの本文の信頼を決定するために用いることができるドキュメント内容特性も記載してある。
【0023】
ドキュメント内容特性値決定回路または決定ルーチン240が評価および/または抽出を行う対象は部分集合のみである。この部分集合は、多数の潜在特性310から得られるドキュメント内容特性、たとえば、疑問符、数字、学術的接頭語または学術的接尾語を持つ語、ハイパーリンク、ドキュメントの長さ、省略形、名詞句の数などの一部であり、たとえば、図3に示した数字320と、学術的接頭語または学術的接尾語を持つ語321と、ハイパーリンク322と、省略形323と、名詞句の数324とで構成される。これらの特性は、決定された信頼度レベルを基準にしたドキュメントのランク付けに利用できる。ドキュメント内容特性の部分集合、たとえば、数字320、学術的接頭語または学術的接尾語を持つ語321、ハイパーリンク322、省略形323、および名詞句の数324など、ドキュメント内容特性決定回路または決定ルーチン240によって選択または抽出、あるいは選択および抽出された部分集合は、ドキュメント内容特性の所定の部分集合に対応する。このドキュメント内容特性の部分集合は、練達されたドキュメント本文信頼モデル232によって事前に決定され、該モデル232内に包含される。
【0024】
ドキュメント内容特性値決定回路または決定ルーチン240は、選択された1つ以上のドキュメント内容特性310を処理して、ドキュメントに関するドキュメント内容特性値群を決定する。例示する各種実施形態において、ドキュメント内容特性値決定回路またはルーチン240は、図14に示すように、1つ以上のドキュメント内容特性値の1群340を決定する。この1群340は、構文解析と数値演算の1つ以上の処理または方法を用いて、ドキュメント内容特性の部分集合を処理して求める。実施形態の一例では、取得したドキュメント内容特性値群340は、ドキュメント内の特定タイプのドキュメント特性値に応じて指定される個別のドキュメント内容特性値341,342,343,344の1つ以上の組み合わせでもよい。実施形態の一例において、ドキュメント内容特性値群340は、図14に示すように整数以外の数値を持つ。
【0025】
ドキュメント本文信頼度値決定回路または決定ルーチン250は、ドキュメント内容特性値決定回路または決定ルーチン240で決定したドキュメント内容特性値に基づいて、ドキュメントの本文信頼度値を決定する。ドキュメント本文信頼度値決定回路または決定ルーチン250は、ドキュメント内容特性値群340に指定された1つ以上のドキュメント内容特性値341,342,343,344を利用してドキュメントの本文信頼度値を求める。
【0026】
ドキュメント本文信頼度値決定回路またはルーチン250は、図13に示すように、ドキュメントの本文信頼度値350〜360を決定する。この本文信頼度値350〜360は、1つ以上の統計処理または統計技術、たとえば、回帰処理または分類処理を用いてドキュメント内容特性値群340を処理して求められる。また、ドキュメント本文信頼度値決定回路または決定ルーチン250は、1つ以上の計量回帰アルゴリズムまたは計量回帰方法でドキュメント内容特性値群340を処理して、ドキュメントの本文信頼度値350を決定する。
【0027】
ドキュメント本文信頼度値決定回路または決定ルーチン250は、ドキュメント本文信頼度値360を決定する。このドキュメント本文信頼度値360は、1個以上の強化判断ツリーアルゴリズムまたは強化判断ツリー方法を用いてドキュメント内容特性値群340を処理して求める。ドキュメント本文信頼度値決定回路または決定ルーチン250が決定するドキュメントの本文信頼度値360は、AdaBoostアルゴリズムモデル、たとえば、フロイント(Y.Freund)他、の「新しい強化アルゴリズムによる実験」国際機械学習協議会148〜156頁,1996年刊行(“Experiments with a newboosting algorithm”,International Conference on Machine Learning,pp.148−156,1996)に概説されているアルゴリズムを用いてドキュメント内容特性値群340を処理して求める。
【0028】
ドキュメント本文信頼クラス決定回路または決定ルーチン260は、少なくとも特定のドキュメントに指定された本文信頼度値350〜360に基づいて、ドキュメントの本文信頼クラスを決定する。例示する各種実施形態において、ドキュメント本文信頼クラス決定回路または決定ルーチン260は、練達されたドキュメント本文信頼モデル232を利用して、特定のドキュメント本文信頼クラス430、たとえば、図6に示す本文信頼クラス「1」に対して本文信頼度値350〜360の数値のマッピングまたは割り当てを行う。
【0029】
ドキュメント本文信頼クラス決定回路または決定ルーチン260はドキュメントの本文信頼クラス430を決定する。この本文信頼クラス430は、回帰モデルと同様に、回路またはルーチン250で算出された本文信頼度値350を対応するクラス割り当て構造440にマッピングするか、または、分類モデルと同様に、回路250で計算されたクラスラベル値を直接出力することによって求められる。
【0030】
図13に示すように、特定のドキュメントの本文信頼クラス430は、少なくとも本文信頼度値350の数値を基づき、最も近似する整数値に丸めたものである。また、AdaBoostアルゴリズムモデルを利用すると、整数値のドキュメントの本文信頼クラスが得られることを付記しておく。ドキュメントに関連付けられた結合信頼度決定回路または決定ルーチン270は、ドキュメントに対して決定された本文信頼度値および/または本文信頼クラスを部分的な基準として、各種の情報検索アプリケーション内においてドキュメントの総括的な信頼度を決定する。
【0031】
ドキュメント分類精度改善回路または改善ルーチン275は、整形した本文信頼モデル232に含まれるドキュメントの本文信頼推定値を改善して、ドキュメント信頼の分類とランキング処理を改善する。例示する各種実施形態では、ドキュメント分類精度改善回路または改善ルーチン275は、ユーザからのフィードバックを取り込んで、自動的にシステム性能へ適合させる。
【0032】
図4に、練達されたドキュメント本文信頼モデル232を示す。練達されたドキュメント本文信頼モデル232は、図4に示すように、ドキュメント属性モデル2322と、ドキュメントクラスラベル付けモデル2324と、ドキュメント内容特性部分集合選択モデル2326と、予測モデル2328と、を含む。それぞれは、本文信頼および/または本文信頼クラスに対するドキュメント内容特性値群の割り当てに用いることができる。
【0033】
ドキュメント属性モデル2322は、例示したドキュメント属性群を人または機械が評価および分類するための基準を形成する。図5に示すように、例示したドキュメント属性410は、(1)ドキュメントが第三者によって校閲または検査されたかどうか、(2)作者の経歴、(3)ドキュメントの対象者、(4)作者の所属団体を含む。評価される各ドキュメント属性410に対して、ドキュメント属性分類モデル2322は可能性のある定量値420を提供する。また、図5に示したドキュメント分類属性410と属性値420は、実施形態の一例として示したにすぎないことを注記しておく。本発明の範囲を逸脱しない別の実施形態のドキュメント属性分類モデルは、これらの属性を考慮してよく、追加されたまたは代替のドキュメント分類属性410および/または属性値420を考慮してもよい。たとえば、特定の新聞社のウェブサイトというような公開場所、ドキュメント内の参考文献の数と種類、またはグラフの有無なども考慮する。
【0034】
ドキュメントクラスラベル付けモデル2324は、練達されたドキュメント本文信頼モデル232によって解析される各ドキュメントに信頼クラスを割り当てる。このドキュメント本文信頼モデル232において、クラスは、図6に例示したドキュメント信頼割り当て構造構造を基準とするものである。例示したドキュメントの信頼クラス群は、インターネットで入手可能なドキュメントの大部分を対象として含み、特に、医療情報および学術情報などの高い価値を有する情報分野に関連するものである。ドキュメント信頼クラス430は、最も信頼あるドキュメント、すなわち、学術知識を有する人物が学術知識を持つ読み手を対象として記述したドキュメントから市井の人物がただ快く読んでくれる相手を対象として書いたドキュメントまでを網羅する。
【0035】
ドキュメント内容特性部分集合選択モデル2326は、ドキュメント内に存在すると想定される多数の内容特性の中からドキュメント内容特性部分集合を評価して選択し、信頼度レベルに基づくドキュメントのランク付けおよび分類に得られた部分集合を用いる。ウェブ検索で通常遭遇するドキュメントを完全に取り込んで正確に表現するためには、言語内容たとえば、数字、学術的接頭語または学術的接尾語を持つ語、ハイパーリンク、省略形、名詞句の数などや、描写的内容、たとえば、色と、ウェブドキュメントまたはウェブページの表を取り込んだ多数のドキュメント内容特性310が考慮される。ただし、潜在的なドキュメント内容特性310すべてを用いてドキュメントの信頼度を決定した場合、信頼度に対して情報性が少ない特性が決定にノイズを与えることも多い。また、ドキュメントの信頼度の決定する際にこのような特性を加えると、信頼度を決定する速度が低下することになる。部分集合選択モデル2326が利用するドキュメント整形群は、ドキュメント属性分類モデル2322およびドキュメントクラスラベル付けモデル2324を用いて、ドキュメントの信頼を基準に手動でラベル付けしたものである。
【0036】
ドキュメント内容特性部分集合選択モデル2326は、回帰技法、たとえば「エフロイムソン(Efroymson)」方法を用いた段階的回帰などを実行して、ドキュメント特性の部分集合を選択する。エフロイムソン方法は反復方法である。この方法では、選択したドキュメント内容特性群に対して、繰り返しを行うごとに新しいドキュメント内容特性変数を追加する。その後、現在部分集合内に存在する内容特性のいずれかを排除する必要があるかどうかを、新しい特性群と選択した特性群の部分的相関関係に基づいて検討する。また、他の変数選択技法、たとえば、相互情報量、AdaBoostなどを用いて、内容特性部分集合を選択することもできる。
【0037】
予測モデル2328は、本文信頼および/または本文信頼クラスに対するドキュメント内容特性値の割り当てに利用できるモデルであり、選択されたドキュメント内容特性の部分集合を特性ベクトルxに変換する。予測モデル2328は、次に、特性ベクトルxを信頼ランクatextにマッピングする予測モデルを創出する。
【0038】
予測モデル2328は、1次回帰アルゴリズムモデルまたは強化判断ツリーアルゴリズムモデルを予測モデルとして利用して、ドキュメントを分類する。予測モデル2328は、前述の方法で限定したドキュメント内容特性群と手動でラベル付けしたドキュメント整形群を利用する。予測モデル2328は、距離関数回帰技法または強化判断ツリー技法を用いて、整形群から分離したテスト群内の各ドキュメントの信頼を推定する。予測モデル2328は、他の技法、たとえば、順序回帰、多クラス分類技法などを採用し、ドキュメントの信頼をそのドキュメントの評価済みドキュメント内容特性に基づいて推定してもよい。
【0039】
次に、練達モデル232によって創出され、その練達モデル232に登録されるドキュメント信頼クラス群430の一例を説明する。たとえば、「信頼クラス1」のドキュメントは、専門家によって、あるいは専門家のために作成され、かつ他の専門家に向けて書かれた学術ドキュメントを含み、「信頼クラス2」のドキュメントは、学術機関が提供する、一般大衆に向けて書かれた一般的な学術情報ドキュメントを含むものとする。そして、「信頼クラス3」のドキュメントは、評判のよいサイトから提供された情報を有するドキュメントを含む。
【0040】
「信頼クラス4」のドキュメントは、報道機関が一般大衆に提供する一般的な時事情報ドキュメントを含み、「信頼クラス5」のドキュメントは、商業活動を行う機関が提供するドキュメントを含む。「信頼クラス6」のドキュメントは、メールグループおよび討議リストによって提供されるドキュメント、並びに新聞社の意見および社説ドキュメントを含む。「信頼クラス7」のドキュメントは、ウェブのホームページから提供されるドキュメントを含む。
【0041】
これらのクラスの信頼度には暗黙の序列が存在することは理解されるであろう。条件が同じだとすると、学術ドキュメントは報道機関の報告よりも信頼があり、報道機関の報告はニュースグループで見つける情報よりも信頼があると見なされる。図6に示す序列関係を利用すると、異なるドキュメントの信頼のランク付けおよび比較が可能になる。図6に示すように、各クラスの信頼は、順序設定された正の整数群にマッピングされる。一般に、クラス群から実数群への単調マップを利用して、信頼クラス/ランク430を割り当てることができる。たとえば、ボックス−コックス(Box−Cox)変換を用いて、これらの整数特性を連続的な特性にマッピングする。図6に示す実施形態の例では、マップ440が、ドキュメントのクラスから図6に示すリストに対応する正の整数に定義される。
【0042】
前述した信頼クラス430は、このようなドキュメント信頼クラスの実施形態として例示したにすぎないことも理解されるであろう。本発明のシステムおよび方法の少なくとも一方の各種実施形態の例を実施するにあたって、他のドキュメント信頼クラスと他のクラス割り当て構造構造のいずれかまたは両方を利用してもよい。たとえば、そのページ内に存在する各リンクを説明する短い文節を含むウェブリンクページに信頼クラス430を割り当てたいと考えるユーザも想定される。これらのページは、信頼クラス値「8」に割り当ててもよい。これは、このようなページから信頼あるドキュメントにたどり着く可能性があるとしても、そのページ自体には信頼ある情報が含まれていないためである。
【0043】
図7は、ドキュメント本文信頼モデルを作成し、または「学習させる」方法のフローチャートである。この方法では、ラベル付けしたドキュメント群を利用して、本発明に係る練達されたドキュメント本文信頼モデルを作成する。図7に示すように、本方法はステップS200から始まり、ステップS210に続く。ステップS210では、手動でラベル付けした各ドキュメントに関するドキュメント分類属性群の一例を、所定の構造に従って定義および評価する。この構造は、各種のドキュメント分類属性、たとえば、ドキュメントが第三者によって校閲されたかどうか、作成者が専門家であるのか、あるいは一般大衆の一人であるのか、ドキュメントに想定されている読み手、あるいはドキュメントの対象となる読み手が専門家であるのか、あるいは一般大衆の一人であるのか、作成者が知的専門機関、メディア、商業活動を行う機関のいずれかに属しているのか、などの属性のすべてまたはいずれかを含むドキュメント分類属性を検討および評価する。
【0044】
次に、ステップS220において、図5および図6に示すドキュメント属性評価構造とその結果を適用して、調整モデルの作成に使用する各ドキュメントに信頼クラスを割り当てる。割り当て可能なドキュメント信頼クラス群は、インターネットで入手可能なドキュメントの大部分を包含し、特に、医学情報および学術情報のような高価な情報分野に関するものを含むように選択できる。図6に示すように、適切なドキュメント信頼クラスは、最も信頼あるドキュメント、すなわち、学術知識を有する人物が学術知識を持つ読み手を対象として記述したドキュメントから一意の人物がただ快く読んでくれる相手を対象として書いたドキュメントまでを網羅する。
【0045】
次に、ステップS230において、反復段階的回帰技法を用いて、ドキュメントの本文信頼度についての優れた予測変数であるドキュメント内容特性の部分集合を選択する。次のステップS240では、選択したドキュメント内容特性の部分集合を利用して、ドキュメント内容特性値群を求める。このドキュメント内容特性群は、1個以上のドキュメント内容特性値を包含してよい。ステップS250において、ドキュメント内容特性値群は特性ベクトルxに変換される。次に、ステップS260で、特性ベクトルxから信頼ランクatextへのマッピングを可能にする予測モデルを創出する。更に、処理はステップS270まで続き、そこで、ドキュメントの信頼度整形方法の処理が終了する。
【0046】
特性ベクトルxで表されるドキュメントの本文信頼を予測することは、コストに影響する多クラス分類の問題として捉えることができる。クラス間の関係には相対的なランクが設定されているため、誤分類のコストは、クラスの各組みの間で同一ではない。たとえば、あるホームページを学術ドキュメントとする誤分類のコストは、学術機関による一般情報ドキュメントを学術ドキュメントとする誤分類のコストよりもはるかに高い。本発明者は、距離回帰アルゴリズムと強化判断ツリーが、モデルと整形の複雑さの間における優れた妥協、あるいは品質の高い妥協をもたらす一方で、一般化と予測の間における優れた妥協、あるいは品質の高い妥協を達成することを発見した。
【0047】
ステップS260において、1次回帰モデルまたは強化判断ツリーを利用してドキュメントを分類してもよい。予測モデルは、ステップ230で選択したドキュメント内容特性の部分集合と手動でラベル付けした整形群とを少なくとも用いて創出される。その後で、回帰モデルまたは強化判断ツリーモデルを用いて、整形群から分離したテスト群に属する各ドキュメントの本文信頼度値を推定する。
【0048】
ステップS230では、エフロイムソン(Efroymson)の段階的回帰技法を利用して、ドキュメント内容特性の部分集合を選択できる。エフロイムソンの方法では、まず、空のドキュメント内容特性群から処理を始める。続く反復処理ごとに、前述のドキュメント内容特性群内に存在しない各ドキュメント内容特性を1つずつ評価して、信頼度の予測に最も適した内容特性をテスト内容特性群から選択する。現在のステップで選択した内容特性と、既に選択されている内容特性の間の部分的相関を利用して、選択したドキュメント内容特性の部分集合内に現時点で存在している変数のいずれかを排除する必要があるかどうかを決定する。
【0049】
図8は、1つ以上のドキュメントの第1群に属する各ドキュメントの本文信頼度を決定する本発明に係る方法のフローチャートである。図8に示すように、本方法はステップS300から始まり、ステップS310に続く。ステップS310において、関連ドキュメントの第1群を識別する。ドキュメントの第1群は、ウェブ基準の最初の検索を実行して識別される。この検索には、特定の話題または対象領域に関するドキュメントを求めるクエリを発行して検索を実行する既知または今後開発される任意のウェブ検索技術が利用される。
【0050】
次に、ステップS320において、関連ドキュメントの第1群に属する各ドキュメントに対して、ドキュメント内容特性値群を決定する。次のステップS330では、練達されたドキュメント本文信頼モデルを用いて指定したドキュメント内容特性値群を処理して、各ドキュメントの本文信頼度値を決定する。処理は、更に、ステップS340に進む。
【0051】
ステップS340では、関連ドキュメントの第1群に属する各ドキュメントの本文信頼クラスを決定する。本文信頼クラスは、特定のドキュメントそれぞれに指定された本文信頼度値と、練達されたドキュメント本文信頼モデル内の本文信頼クラス割り当て構造と、に基づいて求められる。各ドキュメントは、そのドキュメントの本文信頼度値、本文信頼クラス、他の定量測定値のすべてまたはいずれかに基づいて、更に順序付け、分類、ランク付けしてもよい。基準となる本文信頼度値、本文信頼クラス、他の定量測定値は、ドキュメントのドキュメント内容特性値に関連したものであっても、あるいはドキュメントのドキュメント内容特性値を基準にしたものであってもよい。処理は、次に、ステップS350に進み、そこで本方法の処理が完了する。
【0052】
ステップS320では、関連ドキュメントの第1群に属する各ドキュメントのドキュメント内容特性値群に1つ以上のドキュメント内容特性値を挿入する。1つ以上のドキュメント内容特性値は、ドキュメント内容特性の所定の部分集合を処理して決定する。このドキュメント内容特性の部分集合は、練達されたドキュメント内容信頼モデルを用いて、特定のドキュメント内で検出する。各ドキュメントの1つ以上のドキュメント内容特性値は、構文解析と数値演算の1つ以上の処理または方法を利用して、ドキュメント内容特性の所定の部分集合を処理することによって求める。
【0053】
ステップS330では、練達されたドキュメント内容属性モデルに、評価を行っているドキュメントのドキュメント内容特性値群を入力する。ドキュメント内容信頼モデルは、ドキュメント内容特性値を用いて、ドキュメントの本文信頼度値を推定する。この値には、図6に示す440のクラスラベルの値範囲内に存在する実数を利用してよい。
【0054】
ステップS330において、1つ以上の距離回帰アルゴリズムまたは分類方法を用いてドキュメント内容特性値群を処理し、各ドキュメントの本文信頼度値を決定する。1次回帰モデルを利用して、各ドキュメントの特徴付けに利用できるドキュメント内容特性値群を処理できる。あるいは別の方法として、強化判断ツリー方法を利用して、各ドキュメントの特徴付けに利用できるドキュメント内容特性値群を処理することもできる。他の回帰方法または分類方法、たとえば、順序回帰処理、多クラス分類技法などを採用し、ドキュメントの特徴付けに利用できるドキュメント内容特性値群を処理してもよい。
【0055】
ステップS340では、いずれかの方法で最も近い値に近似化した値、たとえば、下限値、上限値、まるめ値に関連のあるクラスを、そのドキュメントに対するドキュメント本文信頼クラスとして選択してもよい。
【0056】
図9は、本発明における検索エンジンで取り出したドキュメントのランクを再設定する方法を決定するために、本文信頼度を適用する方法のフローチャートである。大規模で異質な集合であり、常に変化している集合、たとえば、WWWでは、特定のクエリに応じて検索エンジンから戻される結果は、多くの場合、あらゆる範囲の信頼度が存在する広範囲のドキュメントを含んでいる。このことは状況によっては好ましい特性となることもあるが、ユーザは、特定クラスのドキュメント、たとえば、学術ドキュメントなどに興味を持つ可能性が高い。本文信頼判別方法の可能な用途の1つとして、本文信頼に応じて検索結果を再順序付けして選別し、その後で、特定の信頼範囲、たとえば、学術ドキュメントなどの範疇に入るすべてのドキュメントを戻すという用途がある。
【0057】
図9に示すように、本方法はステップS400から始まり、ステップS410に続く。ステップS410において、関連ドキュメント、たとえばウェブドキュメントの第1群を識別する。ドキュメントの第1群は、ウェブ基準の最初の検索を実行して識別するが、この検索には、特定の話題または対象領域に関するドキュメントを求めるクエリを発行して検索を実行する既知または今後開発される任意のウェブ検索技術を利用する。
【0058】
次に、ステップS420において、高い社会的信頼にランク付けされた所定数のドキュメント、たとえば、ウェブ検索エンジンで識別された、最高位ランクのドキュメントのいくつかをドキュメントの第1群から選択する。次のステップS430では、選択された高い社会的信頼にランク付けされたドキュメントそれぞれについて、そのドキュメントの本文信頼度値を決定する。この本文信頼度は、本発明に従って本文信頼度値を求める方法として例示した実施形態の1つを用いて算出する。また、ステップS430の一部として、ドキュメント本文信頼クラスを決定する本発明に係る方法の実施形態の一例を用いて、ドキュメント本文信頼クラスを決定してもよい。次に、ステップS440に進む。
【0059】
ステップS440では、高い社会的信頼にランク付けされたドキュメントについて、取得した本文信頼度値および本文信頼クラスの1つ以上に基づいてその順序を再設定する。各ドキュメントの順序設定、分類、またはランク付けは、そのドキュメントの本文信頼度値、または本文信頼クラスに基づいて実行しても、あるいは他の既知、または今後開発されるランク再設定スキーマに基づいて実行してもよい。
【0060】
次のステップS450において、本文信頼度値および/または本文信頼クラスの少なくとも一方に基づいて順序またはランクが再設定されているドキュメントを、新たに決定したランクに従って表示する。処理は、次に、ステップS460に進み、そこで本方法の処理が完了する。
【0061】
ステップS420では、最上位の順序として選択するドキュメントの数は、約10〜200の範囲内の数に指定してよい。ただし、最上位の順序に位置付けるドキュメント数の範囲は、たとえば、ユーザの希望、アプリケーションのタイプ、計算能力などに基づいて選択してもよいことは理解されるであろう。
【0062】
ステップS430では、ドキュメントの本文信頼度値を決定する処理が、たとえば、関連ドキュメントの第1郡に属する各ドキュメントのドキュメント内容特性値群を決定する処理を含む。ドキュメント内容特性値群は、特定のドキュメント内に存在するドキュメント内容特性の所定の部分集合を、練達されたドキュメント本文信頼モデルを用いて処理て得られる。更に、1つ以上の距離回帰アルゴリズムまたは分類方法を用いてドキュメント内容特性値群を処理する。ステップS430において、ドキュメントの本文信頼クラスを決定する処理は、更に、特定の各ドキュメントに対して決定された本文信頼度値を利用した比較処理を含む。この比較処理では、練達されたドキュメント本文信頼モデル内の本文信頼クラス割り当て構造を用いて、本文信頼度値と本文信頼クラス値群とを比較する。
【0063】
図10は、本文信頼度を社会的信頼と組み合わせることによって、ドキュメントの信頼度の推定を改善する本発明の方法のフローチャートである。図10に示すように、本方法の処理はステップS500から始まり、ステップS510に続く。ステップS510において、関連ドキュメントの第1群、たとえば、ウェブドキュメント群を識別する。ドキュメントの第1群は、ウェブ基準の最初の検索を実行して識別するが、この検索には、特定の話題または対象領域に関するドキュメントを求めるクエリを構築して検索を実行する既知または今後開発される任意のウェブ検索技術を利用する。識別したウェブドキュメントの第1群のサイズによっては、既知または今後開発される絞込み検索技法、たとえば、ブール技法、検索エンジンにキーワードやパラメータを追加指定する方法などを利用して、関連ドキュメントの第1群を更に縮小してもよい。
【0064】
次に、ステップS520において、関連ドキュメント群内に残した各関連ウェブドキュメントの社会的信頼またはリンク構造を評価する。最上位の順序に位置付けされた各ドキュメントの社会的信頼またはリンク構造は、そのドキュメントからリンクを設定しているリンク先ドキュメント集合内の他のドキュメント、またはそのドキュメントにリンクを設定されているリンク元ドキュメント集合内の他のドキュメントを決定することによって評価する。次のステップS530では、選択した各ドキュメントに対して、本文信頼度値を設定する本発明の方法として例示したいずれかの実施形態を用いて、本文信頼度値を決定する。ここで、ステップS530の一部として、ドキュメント本文信頼クラスを決定する本発明に係る方法の実施形態の1つを用いて、ドキュメント本文信頼クラスを決定してもよい。
【0065】
ステップS540では、各関連ドキュメントに関して、その特定のドキュメントに対して推定された本文信頼に基づいて、加重社会的信頼ランクを推定する。次のステップS550において、本文信頼を社会的信頼の推定と組み合わせて決定した加重信頼ランクに従ってランクまたは順序を設定したドキュメントを表示する。次に、ステップS560に進み、そこで本方法の処理が完了する。
【0066】
ステップS530では、ドキュメントの本文信頼度値を決定する処理が、たとえば、関連ドキュメントの第1郡に属する各ドキュメントのドキュメント内容特性値群を決定する処理を含む。ドキュメント内容特性値群は、特定のドキュメント内に存在するドキュメント内容特性の所定の部分集合を、練達されたドキュメント本文信頼モデルを用いて処理して得られる。更に、1つ以上の距離回帰アルゴリズムまたは分類方法を用いてドキュメント内容特性値群を処理して指定する。ステップS430において、ドキュメントの本文信頼クラスを決定する処理は、更に、特定の各ドキュメントに対して決定された本文信頼度値を利用した比較処理を含む。この比較処理では、練達されたドキュメント本文信頼モデル内の本文信頼クラス割り当て構造を用いて、本文信頼度値を本文信頼クラス値群と比較する。
【0067】
ステップS540では、後述する方法を用いて、ドキュメントの本文信頼推定と社会的信頼/リンク構造の解析とが組み合わされる。
【0068】
ネットワーク構造内のページの社会的信頼には、構造内の他のメンバがそのページをどのように見ているかが反映されている。一般に、特定のページを支持する集団の構成員数が増えるにしたがって、そのページの信頼も高くなる。ただし、そのページを推薦するすべてのページが、同等の選択基準でそのページを指定しているわけではない。たとえば、本来のHITSアルゴリズムは、「ハブ」という概念を定めている。ハブは、信頼の高いページを指し示す特定のページである。逆に言うと、信頼あるページは、品質の高いハブによって指向されるということである。
【0069】
本文信頼と社会的信頼とを組み合わせる本発明に係る方法は、有向グラフG=(V,E)を備えたパイパーリンクページ群Vをそのページに対応するノードと関連付ける。有向エッジ(p,q)∈Eは、pからqのエッジが存在することを表す。このグラフ構造は、ノードiからノードjへのリンクが存在する場合にエントリa[i][j]を持つ隣接行列Aで表してよく、そうでない場合には0に設定する。
【0070】
本方法では、ページpの信頼加重auth(p)とハブ加重hub(p)を次のように定義する。
【0071】
【数1】
Figure 2004005668
【0072】
【数2】
Figure 2004005668
【0073】
信頼加重は、行列AAの主固有ベクトルのエントリに対応し、ハブ加重は、行列AAΤの主固有ベクトルのエントリに対応する。PageRank(登録商標)検索エンジンが利用するアルゴリズムは、隣接行列Aを行列Mと入れ替える。行列Mでは、合計が1になるように行列Aの各行が正規化される。
【0074】
【数3】
Figure 2004005668
【0075】
Uは、均等遷移確率の遷移マトリックスであり、任意のページへの無作為遷移を表し、
【0076】
αは、ユーザが無作為のページに移動する確率を表す。
【0077】
一実施形態において、αは約0.1〜0.2の範囲の値を持つ。
【0078】
現在の形式では、隣接行列がすべてのリンクに同一の加重を割り当てる。あるページの本文信頼は、そのページ固有の品質の推定量を提供するため、そのページの本文信頼は、ドキュメントによってリンクされたリンク先ページの品質の指標となる。
【0079】
加重社会的信頼ランクは、特定のドキュメントに対して推定された本文信頼度値を用いて、ページjに対応する隣接行列のエントリをページjの本文信頼に置き換えることによって決定する。つまり、本文信頼は、ページiがページjを指向している場合に、ページiの正規化した本文信頼をm[i][j]に、そうでない場合にゼロに設定することによって、社会的信頼と組み合わせることができる。
【0080】
【数4】
Figure 2004005668
【0081】
上式において、|i|はページiの出次数である。隣接行列Mは、i番目とj番目のエントリをm[i][j]に設定した行列である。
【0082】
加重信頼ランクは、HITSと同様のアルゴリズムまたは方法を使用している場合に、行列
Figure 2004005668
の主固有ベクトルのエントリとして推定する。あるいは、PageRank(登録商標)と同様のアルゴリズムまたは方法を使用している場合、加重信頼ランクは、Pの主右固有ベクトル(principal right eigenvector)として推定する。
【0083】
いくつかのキーワードを追加したり、あるいは優れたハブへのリンクを設定したりしても、本文信頼はそれほど変化しないことは理解されるであろう。一般に、ドキュメントの本文信頼は、そのページの信頼ある書き直しのみによって変化する。この精神において、本文信頼は、簡単にはかく乱されない、より堅固な加重付けを提供する。
【0084】
図11は、本文信頼度の推定を適用して、ドキュメントクエリ検索を拡張および改良する方法を示したフローチャートである。
【0085】
一般に、クエリの拡張は、2段階の手続を含んでよい。まず、検索エンジンを利用して、関連ドキュメントの第1群を取得する。次に、取得した第1群または第1群の部分集合内で最も頻出する表現を利用して、クエリ拡張表現の候補群を指定する。実際のクエリ拡張表現は、統計的検査を用いてこの候補群から抽出する。新しく設定した実際のクエリ拡張表現と元のクエリ表現を連結したものが新しいクエリとして形成され、検索エンジンに渡される。新しいクエリの検索結果は、元のクエリよりも優れたドキュメント群を提供する。
【0086】
図11に示すように、本方法は、ステップS600から始まり、ステップS610に続く。ステップS610において、関連ドキュメント、たとえばウェブドキュメントの第1群を識別する。関連ドキュメントの第1群は、ウェブ基準の最初の検索を実行して識別してよい。この検索には、特定の話題または対象領域に関するドキュメントを取得するクエリを発行して検索を実行する既知または今後開発される任意のウェブ検索技術を利用する。次に、ステップS620では、選択した各ドキュメントについて、本文信頼度値を決定する本発明の方法を用いて、本文信頼度値を決定する。また、ステップS620の一部として、ドキュメント本文信頼クラスを決定する本発明に係る方法を用いて、ドキュメント本文信頼クラスを決定してもよい。
【0087】
信頼度の高いドキュメントが確実に戻されるようにするため、拡張したクエリの中に、本文に信頼があるドキュメントと関連した表現を挿入する。クエリ拡張表現の候補は、関連ドキュメントの第1群に属するドキュメントすべての中から抽出されるのではなく、本文に信頼があるドキュメントのうち、本文信頼が所定の閾値を超えるものの中から抽出される。
【0088】
ステップS630では、クエリ拡張表現の候補を抽出する前に、関連ドキュメントの第2の部分集合を選択する。関連ドキュメントの第2部分集合は、本文信頼度値が所定の本文信頼度値を超えるドキュメントを含む。次に、ステップS640において、関連ドキュメントの第2の部分集合内に最も頻出する表現を評価および抽出して、クエリ拡張表現の候補群を指定する。その後、ステップS650において、統計的検査を利用して、クエリ拡張表現の候補群から実際のクエリ拡張表現を選択する。処理は、次に、S660に続く。
【0089】
ステップS660では、本文信頼を社会的信頼と組み合わせて選択した実際のクエリ拡張表現を検索エンジンに渡して、結果を表示する。次に、ステップS670に進み、そこで本方法の処理が完了する。
【0090】
ステップS620では、ドキュメントの本文信頼度値を決定する処理が、たとえば、関連ドキュメントの第1群に属する各ドキュメントのドキュメント内容特性値群を決定する処理を含む。ドキュメント内容特性値群は、特定のドキュメント内に存在するドキュメント内容特性の所定の部分集合を、練達されたドキュメント本文信頼モデルを用いて処理して得られる。更に、1つ以上の距離回帰アルゴリズムまたは分類方法を用いて、ドキュメント内容特性値群を処理する。また、ステップS620において、ドキュメントの本文信頼クラスを決定する処理は、更に、特定の各ドキュメントに対して決定された本文信頼度値を利用した比較処理を含む。この比較処理では、練達されたドキュメント本文信頼モデル内の本文信頼クラス割り当て構造を用いて、本文信頼度値を本文信頼クラス値群と比較する。
【0091】
ステップS650において、実際のクエリ拡張表現は、1つ以上の統計的検査、たとえば、ログ尤度比検査、フィッシャの完全比、相互情報量などを用いて、クエリ拡張表現の候補から選択できる。まず、ログ尤度比検査を用いて、関連ドキュメント内の各候補表現の分布が、一般のドキュメント集合内の分布と大きく異なるかどうかを検査する。次に、特定の表現の分布が一般のドキュメント集合のそれと非常に異なる場合は、この表現を実際のクエリ拡張表現群に含める。
【0092】
ログ尤度比(LLR)検査は、一般に、下記の表1に示すような形に整理できる。表1において、T(t,R)は、関連ドキュメント内に表現「t」が出現する回数を表し、T(〜t,R)は、関連ドキュメント内に「t」の表現以外の1つ以上の表現〜tが出現する回数を表し、T(〜t,N)は、関連のないドキュメント内に「t」の表現以外の1つ以上の表現〜tが出現する回数を表す。T(t,N)およびT(〜t,N)の個数は、一般的な文献から選択する。
【0093】
【表1】
Figure 2004005668
ログ尤度は、仮説試験を実行する。帰無仮説は、単一のモデルが観察データを生成したとするもので、代替仮説は、2つのモデルが観察データを生成したとするものである。帰無仮説H_0は、表現「t」の分布が、関連ドキュメントと関連のないドキュメントの間で同一であるとし、「t」から表現を観察する確率を次の式で求める。
【0094】
【数5】
Figure 2004005668
【0095】
帰無仮説に従ってデータを観察する確率は、次の式で求める。
【0096】
【数6】
Figure 2004005668
【0097】
代替仮説は、表現「t」の分布が、関連ドキュメントと関連のないドキュメントの間で異なるものとし、関連ドキュメントにおいて表現「t」を観察する確率を次の式で求める。
【0098】
【数7】
Figure 2004005668
【0099】
関連のないドキュメントにおいて表現「t」を観察する確率は、次の式で求める。
【0100】
【数8】
Figure 2004005668
【0101】
代替仮説に従ってデータを観察する確率は、次の式で求める。
【0102】
【数9】
Figure 2004005668
【0103】
ログ尤度比は、2つの仮説H_0とH_1を比較したものである。ここでは、特に、次のように定義する。
【0104】
【数10】
Figure 2004005668
【0105】
数量λは、1度の自由度で漸近的に
Figure 2004005668
分散する。これにより、検査に信頼性の測定を加えることができるため、関連ドキュメントと関連のないドキュメントの間で分布が大きく異なる表現のみを受け入れることができる。
【0106】
ログ尤度比検査は、相互情報量の概念と密接な関係にある。実際には、次の式を用いる。
【0107】
【数11】
Figure 2004005668
【0108】
上式において、I(t,d)は、表現とドキュメントの間の相互情報量を表す。
【0109】
新規のクエリ表現と古いクエリ表現を結合したものが新しいクエリを形成し、形成された新規クエリが検索エンジンに渡される。この新規クエリの検索結果は、元のクエリより豊富なドキュメント群を提供する。
【0110】
図12は、各種のアルゴリズムで生成した2つ以上のドキュメント序列またはドキュメントリストを組み合わせる方法のフローチャートであり、この組み合わせを行うことによって、順序が設定された各リストにある程度の距離において最も近いドキュメント集計序列またはドキュメント集計リストを作成する。本方法は、ランク順に並べたリストと数字順に並べたリストの両方を含む集計ランクまたは集計リストを作成する場合に特に有利な方法である。
【0111】
図12に示すように、本方法は、ステップS700から始まり、ステップS710に続く。ステップS710において、関連ドキュメント、たとえばウェブドキュメントの第1群ランク序列または第1群ランクリストを識別する。関連ドキュメントの第1群ランク序列は、ウェブ基準の最初の検索を実行して識別してよい。この検索には、特定の話題または対象領域に関するドキュメントを取得するクエリを発行して検索を実行する既知または今後開発される任意のウェブ検索技術を利用する。
【0112】
次に、ステップS720では、選択した各ドキュメントについて、本文信頼度値を決定する本発明の方法として例示したいずれかの実施形態を用いて本文信頼度値を求める。ここで、ステップS720の一部として、ドキュメント本文信頼クラスを決定する本発明に係る方法の実施形態の1つを用いて、ドキュメント本文信頼クラスを決定してもよい。
【0113】
ステップS730において、関連ドキュメントの第2リスト序列を決定する。この序列は、第1群のランク付け、順序設定、選択のすべてまたはそのいずれかを実行するか、あるいは、決定済みの本文信頼度値に基づいて関連ドキュメントを順序付けすることによって求める。次のステップS740では、検索エンジンが識別した関連ドキュメントの第1群または第1序列と、本文信頼度値を用いて識別した関連ドキュメントの第2群または第2序列とを採用し、その両方をランク集計アルゴリズムモデルまたは方法を用いて組み合わせることによって、集計序列または集計リストを得る。次に、ステップS750において、集計順序または集計リストの結果を表示する。処理は、次に、ステップS760に進み、そこで本方法の処理が完了する。
【0114】
ステップS720では、ドキュメントの本文信頼度値を決定する処理が、たとえば、関連ドキュメントの第1群に属する各ドキュメントのドキュメント内容特性値群を決定する処理を含む。ドキュメント内容特性値群は、特定のドキュメント内に存在するドキュメント内容特性の所定の部分集合を、練達されたドキュメント本文信頼モデルを用いて処理して得られる。更に、1つ以上の距離回帰アルゴリズムまたは分類方法を用いてドキュメント内容特性値群を処理する。ステップS620において、ドキュメントの本文信頼クラスを決定する処理は、更に、特定の各ドキュメントに対して決定された本文信頼度値を利用した比較処理を含む。この比較処理では、練達されたドキュメント本文信頼モデル内の本文信頼クラス割り当て構造を用いて、本文信頼度値を本文信頼クラス値群と比較する。
【0115】
ステップS740では、集計ランクの設定に、少なくともMCアルゴリズムモデルとマルコフ連鎖方法とを基準としたランク集計アルゴリズムモデルまたは方法を採用する。一般に、マルコフ連鎖方法を基準とするようなMCアルゴリズムモデルにおいて現行状態がページ「P」である場合、次の状態は、まず、序列アルゴリズムによってランク付けされた全ページの和から平等にページ「Q」を抜き出して選択される。次に、序列リストの大部分によってページ「Q」がページ「P」より高いランクに設定されている場合、状態は「Q」に移行し、そうでない場合、状態は「P」に留まる。
【0116】
MCは、状態遷移マトリックスTを導入して、λ>λ>...λを推測する。このλは、Tの「a番目」の固有値である。ここで、求めるページ序列が、マルコフ連鎖の安定分布である「a,b,...k」によって与えられる。
【0117】
MCアルゴリズムは、PageRank(登録商標)アルゴリズムとよく似ており、状態遷移マトリックスTによって遷移が支配されたサーファ(surfer)の動作を記述する。前述したMCランク集計アルゴリズムでは、多数決の原理を用いて状態遷移マトリックスTを計算する。
【0118】
ランク集計アルゴリズムモデルは、MCアルゴリズムモデルを一部変更して得られ、より大きな重み付けを「優良」リストに割り当てる。優良リストは、バランスリスト、たとえば、全体的一致に近いリストである。この場合の全体的一致は、リストの集計序列である。集計リストは、評価担当者の加重ランクとリストの集計ランクを使用して算出される。
【0119】
例示した各種実施形態において、専門家の一人がページ「P」のランクをページ「Q」より高く設定する限り、ページ「P」からページ「Q」への遷移が許可される。状態遷移マトリックスのエントリは、次の式によって計算する。
【0120】
【数12】
Figure 2004005668
【0121】
【数13】
Figure 2004005668
【0122】
【数14】
Figure 2004005668
【0123】
【数15】
Figure 2004005668
【0124】
【数16】
Figure 2004005668
【0125】
上式において、p(x|x,e)は、ページ「i」からページ「j」への遷移についてのリスト「k」の推薦に基づく確率を表し、p=p(x|x)=p(x|x)は、任意のページがランダムに選択される確率を表す。
【図面の簡単な説明】
【図1】大規模な異種ネットワーク環境を示す図である。
【図2】本発明に係る、信頼度の等級付け、推定、分類を行うシステムの機能ブロック図である。
【図3】本発明に係る、ドキュメント本文信頼の決定に利用できるドキュメント内容特性の図である。
【図4】本発明に係る図2における練達されたドキュメント本文信頼モデルの実施形態を示す図である。
【図5】本発明に従ってドキュメントの信頼を分類する時に考慮される属性群および値群を示す図である。
【図6】図5の設定例に示した属性群および値群に基づいて、ドキュメント属性を分類する本発明に係るクラス割り当て構造を示す図である。
【図7】ドキュメントの本文信頼度値及び/又は本文信頼クラスの決定に利用可能なモデルを整形する、本発明に係る方法のフローチャートである。
【図8】ドキュメントの本文信頼度値及び/又は本文信頼クラスを決定する本発明に係る方法のフローチャートである。
【図9】本文信頼度推定値を適用してドキュメントのランク再設定を行う本発明に係る方法のフローチャートである。
【図10】本文信頼度を社会的信頼と組み合わせる本発明に係る方法のフローチャートである。
【図11】本文信頼度推定値を適用して、ドキュメントのクエリ検索を拡張する本発明に係る方法のフローチャートである。
【図12】本文信頼度に基づくランク配列とリンクに基づくランク配列をそれぞれ少なくとも1つずつ含む2組以上のランク配列の組み合わせまたは集計を行う本発明に係る方法のフローチャートである。
【図13】図1のネットワーク環境から取得したドキュメントに対して決定された本発明に係る本文信頼度値と本文信頼クラスを示す図である。
【図14】図1のネットワーク環境から取得したドキュメントについてドキュメント内容特性値を求める本発明の処理を示す図である。
【符号の説明】
210 入出力インタフェース、214,282,292 通信リンク、220 コントローラ、230 メモリ、232 練達されたドキュメント本文信頼モデル、240 ドキュメント内容特性値決定回路または決定ルーチン、250ドキュメント本文信頼度値決定回路または決定ルーチン、270 ドキュメント結合信頼度決定回路または決定ルーチン、275 ドキュメント分類精度改善回路または改善ルーチン、280 表示装置、290 入力装置。

Claims (8)

  1. 検索によって識別された関連文書群のランクを再設定する方法であって、
    識別された各関連文書の文書内容特性値群を決定するステップと、
    練達された文書本文信頼モデルを用いて、前記決定された文書内容特性値群に基づいて、各関連文書の本文信頼度値または本文信頼クラスを少なくとも1つ決定するステップと、
    前記関連文書群のランクを再設定するために、選択された順に並んでいる前記関連文書群を、当該文書群に設定された本文信頼度値または本文信頼クラスの少なくとも1つを用いて並び替えるステップと、
    を含むことを特徴とする文書のランク再設定方法。
  2. 請求項1に記載の方法であって、
    各関連文書に対する文書内容特性値群を決定する前に、前記識別された関連文書群の中から関連文書の部分集合を選択するステップを有することを特徴とする方法。
  3. 複数の文書内容特性を備える文書の信頼度を決定する方法であって、
    大規模な文書集合の話題検索によって識別され、最上位に位置付けられた所定数の文書を選択するステップと、
    最上位に位置付けられた各文書のリンク構造を評価するステップと、
    最上位に位置付けられた各文書の本文信頼度値または本文信頼クラスを1つ以上決定するステップと、
    最上位に位置付けられた各文書の1つ以上の本文信頼度値または本文信頼クラスに基づいて、最上位に位置付けられた各文書の加重社会的信頼ランクを決定するステップと、
    を含むことを特徴とする文書の信頼度決定方法。
  4. 請求項3に記載の方法であって、前記最上位に位置付けられた各文書のリンク構造を評価するステップは、前記文書集合内の他の文書へのリンクまたは指定が該文書に設定されているのか、または、該文書へのリンクまたは指定が前記文書集合内の他の文書に設定されているのか、を判断するステップを含むことを特徴とする記載の方法。
  5. 請求項3に記載の方法であって、
    前記最上位に位置付けられた各文書のリンク構造を評価するステップは、
    最上位に位置付けられた文書群に属する文書に、その群内の他の文書への指定が設定されているか否かを判断するステップと、
    隣接行列内の該当するエントリを、該文書に別の文書への指定が設定されている場合に「1」、該文書に別の文書への指定が設定されていない場合に「0」、に設定するステップと、
    を含むことを特徴とする方法。
  6. 文書の本文信頼度に基づいて検索クエリを拡張する方法であって、
    クエリ表現の当初群を使用して、関連文書の第1群を識別するステップと、
    前記関連文書の第1群に属する各文書に本文信頼度値を決定するステップと、前記関連文書の第1群の少なくとも一部に決定した本文信頼度値に基づいて、前記関連文書の第1群から関連文書の第2群を識別するステップと、
    前記関連文書の第2群からクエリ拡張表現の候補群を定義するステップと、
    前記クエリ拡張表現の候補群から少なくとも1つのクエリ拡張表現を選択するステップと、
    を含むことを特徴とする検索クエリの拡張方法。
  7. 少なくとも2組のランク序列群を組み合わせて、ある程度の距離において前記少なくとも2組のランク序列群の各々に最も近い集計群序列を生成する方法であって、
    関連文書の第1群ランク序列を決定するステップと、
    前記関連文書の第1群ランク序列内に存在する各文書の本文信頼度を決定するステップと、
    前記関連文書の第1群の少なくとも一部に決定した本文信頼度に基づいて、前記関連文書の第1群ランク序列から関連文書の第2群ランク序列を決定するステップと、
    前記関連文書の第1群ランク序列と、前記関連文書の第2群ランク序列と、をランク集計アルゴリズムモデルまたはランク集計アルゴリズム方法を用いて組み合わせるステップと、
    を含むことを特徴とする方法。
  8. 2つ以上のランク付き文書リストまたは文書ランク序列に割り当てる集計ランクと集計加重とを同時に推定する方法であって、
    関連文書の第1群ランク序列を決定するステップと、
    前記関連文書の第1群ランク序列内に存在する各文書の本文信頼度値を決定するステップと、
    前記関連文書の第一群の少なくとも一部に決定した本文信頼度値に基づいて、前記関連文書の第1群ランク序列から関連文書の第2群ランク序列を決定するステップと、
    前記関連文書の第1群ランク序列と、前記関連文書の第2群ランク序列と、をランク集計アルゴリズムモデルまたはランク集計アルゴリズム方法を用いて組み合わせるステップと、
    を含むことを特徴とする方法。
JP2003139781A 2002-05-17 2003-05-19 膨大な異種ドキュメント集合内のドキュメントについて信頼度の等級付け、推定、分類を行うシステムおよび方法 Pending JP2004005668A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US38087602P 2002-05-17 2002-05-17
US10/232,709 US7188117B2 (en) 2002-05-17 2002-09-03 Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections

Publications (1)

Publication Number Publication Date
JP2004005668A true JP2004005668A (ja) 2004-01-08

Family

ID=29272839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003139781A Pending JP2004005668A (ja) 2002-05-17 2003-05-19 膨大な異種ドキュメント集合内のドキュメントについて信頼度の等級付け、推定、分類を行うシステムおよび方法

Country Status (3)

Country Link
US (1) US7188117B2 (ja)
EP (1) EP1363207A3 (ja)
JP (1) JP2004005668A (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6888548B1 (en) 2001-08-31 2005-05-03 Attenex Corporation System and method for generating a visualized data representation preserving independent variable geometric relationships
US20050171948A1 (en) * 2002-12-11 2005-08-04 Knight William C. System and method for identifying critical features in an ordered scale space within a multi-dimensional feature space
US7401072B2 (en) * 2003-06-10 2008-07-15 Google Inc. Named URL entry
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
WO2005048184A1 (ja) * 2003-11-17 2005-05-26 Nec Corporation 能動学習方法およびシステム
US8166039B1 (en) * 2003-11-17 2012-04-24 The Board Of Trustees Of The Leland Stanford Junior University System and method for encoding document ranking vectors
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
US9058388B2 (en) 2004-06-22 2015-06-16 Digimarc Corporation Internet and database searching with handheld devices
US20060184464A1 (en) * 2004-11-22 2006-08-17 Nec Laboratories America, Inc. System and methods for data analysis and trend prediction
US7356777B2 (en) 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7404151B2 (en) 2005-01-26 2008-07-22 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7689615B2 (en) * 2005-02-25 2010-03-30 Microsoft Corporation Ranking results using multiple nested ranking
US9092523B2 (en) 2005-02-28 2015-07-28 Search Engine Technologies, Llc Methods of and systems for searching by incorporating user-entered information
CN101523338B (zh) 2005-03-18 2016-10-19 搜索引擎科技有限责任公司 应用来自用户的反馈来改进搜索结果的搜索引擎
US20060259462A1 (en) 2005-05-12 2006-11-16 Sybase, Inc. System and Methodology for Real-time Content Aggregation and Syndication
US9715542B2 (en) 2005-08-03 2017-07-25 Search Engine Technologies, Llc Systems for and methods of finding relevant documents by analyzing tags
US7783642B1 (en) * 2005-10-31 2010-08-24 At&T Intellectual Property Ii, L.P. System and method of identifying web page semantic structures
US7890502B2 (en) * 2005-11-14 2011-02-15 Microsoft Corporation Hierarchy-based propagation of contribution of documents
US7457801B2 (en) * 2005-11-14 2008-11-25 Microsoft Corporation Augmenting a training set for document categorization
US7509299B2 (en) * 2006-03-13 2009-03-24 Microsoft Corporation Calculating web page importance based on a conditional Markov random walk
US7735010B2 (en) * 2006-04-05 2010-06-08 Lexisnexis, A Division Of Reed Elsevier Inc. Citation network viewer and method
US20080005067A1 (en) * 2006-06-28 2008-01-03 Microsoft Corporation Context-based search, retrieval, and awareness
US20080016061A1 (en) * 2006-07-14 2008-01-17 Bea Systems, Inc. Using a Core Data Structure to Calculate Document Ranks
US7873641B2 (en) * 2006-07-14 2011-01-18 Bea Systems, Inc. Using tags in an enterprise search system
US20080016052A1 (en) * 2006-07-14 2008-01-17 Bea Systems, Inc. Using Connections Between Users and Documents to Rank Documents in an Enterprise Search System
US20080114750A1 (en) * 2006-11-14 2008-05-15 Microsoft Corporation Retrieval and ranking of items utilizing similarity
US20080168045A1 (en) * 2007-01-10 2008-07-10 Microsoft Corporation Content rank
US7840522B2 (en) * 2007-03-07 2010-11-23 Microsoft Corporation Supervised rank aggregation based on rankings
US20080229828A1 (en) * 2007-03-20 2008-09-25 Microsoft Corporation Establishing reputation factors for publishing entities
US8793264B2 (en) * 2007-07-18 2014-07-29 Hewlett-Packard Development Company, L. P. Determining a subset of documents from which a particular document was derived
US20090037401A1 (en) * 2007-07-31 2009-02-05 Microsoft Corporation Information Retrieval and Ranking
US8255412B2 (en) * 2008-12-17 2012-08-28 Microsoft Corporation Boosting algorithm for ranking model adaptation
US20100262550A1 (en) * 2009-04-08 2010-10-14 Avaya Inc. Inter-corporate collaboration overlay solution for professional social networks
US8661030B2 (en) 2009-04-09 2014-02-25 Microsoft Corporation Re-ranking top search results
US8572084B2 (en) 2009-07-28 2013-10-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor
CA3026879A1 (en) 2009-08-24 2011-03-10 Nuix North America, Inc. Generating a reference set for use during document review
US8296292B2 (en) * 2009-11-25 2012-10-23 Microsoft Corporation Internal ranking model representation schema
US8775437B2 (en) * 2010-04-01 2014-07-08 Microsoft Corporation Dynamic reranking of search results based upon source authority
US8671384B2 (en) 2010-06-11 2014-03-11 Microsoft Corporation Web application pinning including task bar pinning
US9164671B2 (en) * 2010-06-11 2015-10-20 Microsoft Technology Licensing, Llc Web application navigation domains
US8793650B2 (en) 2010-06-11 2014-07-29 Microsoft Corporation Dynamic web application notifications including task bar overlays
US8434135B2 (en) 2010-06-11 2013-04-30 Microsoft Corporation Creating and launching a web application with credentials
US8595551B2 (en) 2010-06-11 2013-11-26 Microsoft Corporation Web application transitioning and transient web applications
US8863001B2 (en) 2010-06-11 2014-10-14 Microsoft Corporation Web application home button
US8429546B2 (en) 2010-06-11 2013-04-23 Microsoft Corporation Creating task sessions
US8626682B2 (en) * 2011-02-22 2014-01-07 Thomson Reuters Global Resources Automatic data cleaning for machine learning classifiers
US8626791B1 (en) * 2011-06-14 2014-01-07 Google Inc. Predictive model caching
US8782042B1 (en) * 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
KR101545559B1 (ko) 2013-09-16 2015-08-19 에스케이텔레콤 주식회사 통화 로그 정보에 근거한 중심도 점수 산출방법 및 장치
SG11201703834SA (en) 2014-11-14 2017-06-29 Fujitsu Ltd Recording medium, data verification method, and data verification device
WO2016118156A1 (en) * 2015-01-23 2016-07-28 Hewlett-Packard Development Company, L.P. Visually interactive identification of a cohort of data objects similar to a query object based on domain knowledge
US11803918B2 (en) 2015-07-07 2023-10-31 Oracle International Corporation System and method for identifying experts on arbitrary topics in an enterprise social network
US10380157B2 (en) 2016-05-04 2019-08-13 International Business Machines Corporation Ranking proximity of data sources with authoritative entities in social networks
AU2017274558B2 (en) 2016-06-02 2021-11-11 Nuix North America Inc. Analyzing clusters of coded documents
US11586654B2 (en) * 2017-09-08 2023-02-21 Open Text Sa Ulc System and method for recommendation of terms, including recommendation of search terms in a search system
CN111753167B (zh) * 2020-06-22 2024-01-12 北京百度网讯科技有限公司 搜索处理方法、装置、计算机设备和介质
JP2023537388A (ja) * 2020-08-10 2023-08-31 ライブランプ インコーポレーテッド エンティティ表現システムのためのソース・スコアリング
CN111966946A (zh) * 2020-09-10 2020-11-20 北京百度网讯科技有限公司 一种页面权威值的识别方法、装置、设备和存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5278980A (en) 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5442778A (en) 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
US5687364A (en) * 1994-09-16 1997-11-11 Xerox Corporation Method for learning to infer the topical content of documents based upon their lexical content
US5870770A (en) 1995-06-07 1999-02-09 Wolfe; Mark A. Document research system and method for displaying citing documents
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US6112202A (en) 1997-03-07 2000-08-29 International Business Machines Corporation Method and system for identifying authoritative information resources in an environment with content-based links between information resources
US5884305A (en) 1997-06-13 1999-03-16 International Business Machines Corporation System and method for data mining from relational data by sieving through iterated relational reinforcement
US6269368B1 (en) * 1997-10-17 2001-07-31 Textwise Llc Information retrieval using dynamic evidence combination
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US6453307B1 (en) * 1998-03-03 2002-09-17 At&T Corp. Method and apparatus for multi-class, multi-label information categorization
US6112203A (en) 1998-04-09 2000-08-29 Altavista Company Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis
US6178417B1 (en) 1998-06-29 2001-01-23 Xerox Corporation Method and means of matching documents based on text genre
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
US6405188B1 (en) * 1998-07-31 2002-06-11 Genuity Inc. Information retrieval system
US6334131B2 (en) 1998-08-29 2001-12-25 International Business Machines Corporation Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures
US6862710B1 (en) * 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
WO2001011559A1 (en) * 1999-08-06 2001-02-15 Lexis-Nexis System and method for classifying legal concepts using legal topic scheme
US7000194B1 (en) * 1999-09-22 2006-02-14 International Business Machines Corporation Method and system for profiling users based on their relationships with content topics
US6246351B1 (en) * 1999-10-07 2001-06-12 Burr-Brown Corporation LSB interpolation circuit and method for segmented digital-to-analog converter
US6751600B1 (en) * 2000-05-30 2004-06-15 Commerce One Operations, Inc. Method for automatic categorization of items
US6606620B1 (en) * 2000-07-24 2003-08-12 International Business Machines Corporation Method and system for classifying semi-structured documents
US6601075B1 (en) * 2000-07-27 2003-07-29 International Business Machines Corporation System and method of ranking and retrieving documents based on authority scores of schemas and documents
US7133862B2 (en) * 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
US6928425B2 (en) * 2001-08-13 2005-08-09 Xerox Corporation System for propagating enrichment between documents
US6910843B2 (en) * 2001-11-26 2005-06-28 Hewlett-Packard Development Company, L.P. Cover authoring systems and methods and bookbinding systems incorporating the same
US20030101166A1 (en) * 2001-11-26 2003-05-29 Fujitsu Limited Information analyzing method and system

Also Published As

Publication number Publication date
EP1363207A3 (en) 2006-07-26
US7188117B2 (en) 2007-03-06
EP1363207A2 (en) 2003-11-19
US20030225750A1 (en) 2003-12-04

Similar Documents

Publication Publication Date Title
JP2004005668A (ja) 膨大な異種ドキュメント集合内のドキュメントについて信頼度の等級付け、推定、分類を行うシステムおよび方法
JP2004005667A (ja) 膨大な異種ドキュメント集合内のドキュメントについて信頼度の等級付け、推定、分類を行うシステムおよび方法
JP4160578B2 (ja) ウェブデータベースのスキーママッチングの方法およびシステム
US20030225763A1 (en) Self-improving system and method for classifying pages on the world wide web
RU2393533C2 (ru) Предложение родственных терминов для многосмыслового запроса
US20040049499A1 (en) Document retrieval system and question answering system
US20090265338A1 (en) Contextual ranking of keywords using click data
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
JPH07295989A (ja) データを解析するためのインタプリタを形成する装置
JP2006524869A (ja) ドキュメントの関連性ファンクションをマシン学習する方法及び装置
JP2003345812A (ja) 膨大な異種ドキュメント集合内のドキュメントについて信頼度の等級付け、推定、分類を行うシステムおよび方法
KR20100107610A (ko) 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
US20110295776A1 (en) Research mission identification
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
Zhu et al. Exploiting link structure for web page genre identification
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
KR20080017686A (ko) 검색엔진의 주제 생성 및 문서 분류방법, 이를 수행할 수있는 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체
Fogarolli Word sense disambiguation based on wikipedia link structure
CN112527985A (zh) 未知问题处理方法、装置、设备及介质
CN111612658B (zh) 法律数据检索的评价方法、评价装置和电子设备
Lu et al. A feature-partition and under-sampling based ensemble classifier for web spam detection
CN113468410A (zh) 一种智能化对搜索结果和搜索引擎进行优化的系统
KR101057075B1 (ko) 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체
Plansangket New weighting schemes for document ranking and ranked query suggestion
Potey et al. Personalization approaches for ranking: A review and research experiments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090605

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091006