JP2004005668A

JP2004005668A - 膨大な異種ドキュメント集合内のドキュメントについて信頼度の等級付け、推定、分類を行うシステムおよび方法

Info

Publication number: JP2004005668A
Application number: JP2003139781A
Authority: JP
Inventors: Ayman O Farahat; アイマン　オー　ファラハット; Francine R Chen; フランシン　アール　チェン; Charles R Mathis; チャールズ　アール　マテス; Geoffrey D Nunberg; ジオフライ　ディー　ナンバーグ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2002-05-17
Filing date: 2003-05-19
Publication date: 2004-01-08
Also published as: EP1363207A3; US7188117B2; EP1363207A2; US20030225750A1

Abstract

【課題】話題ではなく、本文による手がかりに基づいて、ドキュメントの信頼度を決定するシステムおよび方法を提供する。
【解決手段】複数のドキュメント内容特性を備えるドキュメントの信頼度を決定する方法であって、ドキュメント内容特性値群を決定するステップＳ２４０と、練達されたドキュメント本文信頼モデルを利用し、決定済みのドキュメント内容特性値群に基づいてドキュメントの信頼度を決定するステップＳ２６０とを含むドキュメントの信頼度決定方法によって上記課題を解決できる。
【選択図】　　　　図７

Description

【０００１】
【発明の属する技術分野】
本発明は、情報のランキング及び検索に関する。
【０００２】
【従来の技術】
膨大な異種ドキュメント集合、たとえば、Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ（「ウェブ」）の利用に関してよく知られた難しい問題は、対象案件について信頼できる認証された信頼ある情報を提供しているドキュメント、たとえば、ウェブページ、ウェブドキュメントなどがどれであるかを簡単には判別できないことである。この問題は、特に、「高い価値の」情報を必要とする場合、たとえば、医学情報の取得など、誤謬の対価が高くつく可能性がある場合に非常に深刻である。
【０００３】
ウェブページまたはウェブドキュメントの信頼度は、一般に、ウェブのリンク構造で表される社会的ネットワークに基づいて測定される。
【０００４】
【発明が解決しようとする課題】
たとえば、ＨＩＴＳ（登録商標）などのアルゴリズム、およびＰａｇｅＲａｎｋ（登録商標）検索エンジンに採用されているアルゴリズムは、ウェブページの信頼度をそのリンク構造に基づいて決定する。ただし、ドキュメントの信頼度についての非常に有用な指標となるのはその内容であり、内容の信頼度はリンク構造のみで推論できるものではないにも関わらず、これらの技術には、ドキュメントの内容が考慮されていない。
【０００５】
「信頼度」という概念は、２通りに解釈される。１つ目の解釈は、社会的ネットワークに根拠を置くもので、本質的にはグラフ理論的な概念である。社会的信頼性信頼の例として、新聞記事を挙げることができる。新聞に「大統領は議案を否決するだろうと信頼ある情報筋が発表した。」と、書かれている場合、通常「信頼ある」とは、その情報筋が問題の件に社会的な権限を持つ人物に比較的近い存在であるという意味に解釈される。この場合の問題の人物は、恐らく、大統領または大統領顧問に近い社会的地位にある誰かであると考えられる。これは、引用索引などのツールの用途に潜在的に含まれる信頼度の概念であり、この意味において「信頼ある」情報筋は、所定の科学文献または学術文献の引用文献ネットワークにおいて比較的中心的な存在である。また、「信頼度」は、Ｇｏｏｇｌｅ（登録商標）のような検索エンジンを実装するための各種リンク解析手法に運用される概念でもあり、この意味における「信頼ある」ページは、通常、他の多数のページにリンクされ、各種の技術的改善が行われるページである。
【０００６】
本発明は、広く「本文による」として定義される信頼度の２つ目の概念を利用したシステムおよび方法を提供する。たとえば、「ジョーンズ教授はルーズベルトの対外政策についての信頼（権威）ある本を書いた。」と言う場合、ジョーンズ教授が当面の題材に対する直接的な知識を持つ人物と親しい関係にあることは、必ずしも暗示されてはいない。また、実際には、そのような事実が存在することもあるが、ジョーンズ教授の本は学者またはジャーナリストによって引用されることが多いということを暗示するものでもない。前述の発言が意味するのは、前述の本は、内的根拠に基づいて信頼（権威）あるものであるということである。この内的根拠としては、調査が行き届いていることを思わせる本であるということ、熟練した適切な方法で言葉が選ばれている本であること、正しく分類された多数の参考文献を含むことなどを挙げることができる。
【０００７】
社会全般には、ウェブで証明されているように、異種の知識および観点が非常に多く存在する。ある文章が広く参照されるということ、そのこと自体は、広い意味でその本文が信頼あるものであることを保障するものではない。この点が特に重要であるのは、随所に存在する多数の誤った情報が大きな問題になる場合、たとえば、医学的情報を取得する場合などである。
【０００８】
ネットワークの信頼度しか考慮しない場合、誤分類は避けられない。密集した社会の小集団を本流のサイトと区別するのに、リンクパターンの純粋な数量的解析では不十分であることがしばしばであるが、誤分類もそれと同程度の頻度で生じる。同様に、ジオシティ（Ｇｅｏｃｉｔｉｅｓ）サイトに登録された政府の健康協会の報告のように、内的根拠に基づいた信頼ある文章が広くリンクされていないサイトに存在していることもしばしば生じる。
【０００９】
本発明は、内容的な手掛かりでなく本文による手掛かりに基づいて、ドキュメントの信頼度を推定するシステムおよび方法を提供する。
【００１０】
【課題を解決するための手段】
本発明は、ドキュメントの信頼度を決定するシステムおよび方法であって、リンク構造に基づいてドキュメントの信頼度を推定する目的で採用されたシステムおよび方法を補完するシステムおよび方法を提供する。
【００１１】
本発明に係るシステムおよび方法は、各ドキュメントに含まれるドキュメント内容特性群を評価し、練達されたドキュメント本文信頼モデルを用いてドキュメント内容特性群を処理することによってドキュメント内容特性値群を求め、評価済み各ドキュメントに関する本文信頼度値と本文信頼クラスの少なくとも一方を出力して、ドキュメントの本文の信頼を決定する。
【００１２】
本発明に係るシステムおよび方法は、言語的内容と描写的内容の両方を表すドキュメント内容特性を選択して評価する。本発明のシステムおよび方法で考慮するドキュメント内容特性には、たとえばプレーンテキスト内の特定文字の使用、たとえば学術的接頭語を持つ語のような語クラス、各種の書式的要素、ＨＴＭＬ特性などを含めることができる。
【００１３】
本発明に係るシステムおよび方法は、練達されたドキュメント本文信頼モデルを用いてドキュメント内容特性群を処理することによって、ドキュメントの本文信頼を決定する。練達されたドキュメント本文信頼モデルは、本文信頼の程度を手動でラベル付けしたドキュメント群、ドキュメントの信頼度を表す適切な予測変数であると判断されたドキュメント内容特性群、およびラベル付きドキュメントデータ上で整形した予測モデルを基準にしたものである。
【００１４】
本発明に係るシステムおよび方法は、各ドキュメントに関する本文信頼度値であって、練達されたドキュメント本文信頼モデルが包含するドキュメント本文信頼構造モデルを用いて決定する本文信頼度値を出力する。ドキュメント本文信頼構造モデルには、各種のドキュメント分類属性、たとえば、作者の経歴、ドキュメントが対象とする相手、作者の所属団体、そのドキュメントが他者によって校閲または検査されたかどうかなどが考慮される。
【００１５】
本発明に係るシステムおよび方法は、各ドキュメントに関する信頼クラスであって、練達されたドキュメント本文信頼モデルが包含するドキュメント本文信頼構造モデルを用いて決定する信頼クラスを出力する。ドキュメント信頼クラス構造モデルには、各種のドキュメント分類属性、たとえば、作者の経歴、ドキュメントが対象とする相手、作者の所属団体、ドキュメントが他者によって校閲または検査されたかどうかなどが考慮される。
【００１６】
【発明の実施の形態】
図１は、本発明のシステムおよび方法で利用できるネットワーク環境１００を示す図である。図１に示すように、大規模な異種ネットワーク１１０、たとえば、Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂなどは、通常、数百万のウェブサイトを含んでいる。これら数百万のウェブサイトのいくつかを、図にウェブサイトサーバ１２０，１３０，１４０として模式的に示す。また、各ウェブサイトサーバ１２０，１３０，１４０は、更に、膨大な数のウェブページ１２２〜１２８，１３２〜１３８，１４２〜１４８、すなわち、本発明のシステムおよび方法で本文を処理するのに適した他のウェブ基準の情報資源またはドキュメントをそれぞれ含む。ウェブページまたはドキュメント１２２〜１２８，１３２〜１３８，１４２〜１４８は、それぞれ、たとえば、ウェブサイトデータベース、または他の適切なウェブアプリケーション等の各種のウェブアプリケーション１５０，１６０，１７０に適合させられている。ユーザは、適切なウェブブラウザと通信ソフトウェアを装備したパソコンまたはウェブを利用できる他の装置を使用し、通信リンク２１４を通じてネットワーク１１０に接続でき、ネットワーク１１０上で利用可能なドキュメントにアクセスできる。
【００１７】
ネットワーク１１０で利用できる大量の情報は、特定の分野または話題に最も関連の深いドキュメントを検索するユーザに多大な困難をもたらす。例示する各種実施形態では、ネットワークまたはウェブに接続された本発明の信頼度決定システム２００では、ウェブドキュメント１２２〜１２８，１３２〜１３８，１４２〜１４８に対して検索、等級付け、推定、分類の少なくとも１つを実行できる。
【００１８】
図２に、信頼度決定システム２００を示す。信頼度決定システム２００は、リンク２１４を介してネットワーク１１０に接続する。図２に示すように、信頼度決定システム２００は、ユーザに情報を表示できるようにする１つ以上の表示装置２８０と、ユーザが信頼度決定システム２００にデータを入力できるようにする１つ以上のユーザ入力装置２９０を含む。１つ以上の表示装置２８０と、１つ以上の入力装置２９０は、ぞれぞれ、１つ以上の通信リンク２８２，２９２から入出力インタフェース２１０を介して信頼度決定システム２００と接続する。
【００１９】
例示する各種実施形態において、信頼度決定システム２００は、コントローラ２２０と、メモリ２３０と、練達されたドキュメント本文信頼モデル２３２と、ドキュメント内容特性値決定回路または決定ルーチン２４０と、ドキュメント本文信頼度値決定回路または決定ルーチン２５０と、ドキュメント本文信頼クラス決定回路または決定ルーチン２６０と、ドキュメントの結合信頼度決定回路または決定ルーチン２７０とを１つ以上含み、そのすべてが１つ以上のデータバスもしくは制御バスおよび／またはアプリケーションプログラミングインタフェース２９５を通じて相互に接続される。例示する各種実施形態において、信頼度決定システム２００は、更に、ドキュメント分類精度改善回路または改善ルーチン２７５を任意に含んでもよい。この改善回路または改善ルーチン２７５も、１つ以上のデータバスもしくは制御バスおよび／またはアプリケーションプログラミングインタフェース２９５を通じて接続される。例示する各種実施形態では、練達されたドキュメント本文信頼モデル２３２を、信頼度決定システム２００のメモリ２３０に格納する。
【００２０】
コントローラ２２０は、信頼度決定システム２００における他の構成部品の動作を制御する。コントローラ２２０は、また、信頼度決定システム２００の構成部品間のデータフローも必要に応じて制御する。メモリ２３０は、信頼度決定システム２００に入出力する情報を格納できる。また、信頼度決定システム２００の機能を実装している必要なプログラムおよび／またはデータを格納してもよく、更に、各種の処理段階におけるデータおよび／またはドキュメント信頼度情報を格納してもよい。
【００２１】
例示する各種実施形態において、信頼度決定システム２００は、練達されたドキュメント本文信頼モデル２３２を含み、該練達されたドキュメント本文信頼モデル２３２を利用して信頼度決定システム２００がドキュメントの１群を処理する。この処理において、信頼度決定システム２００は、各種の回路またはルーチン２４０，２５０，２６０，２７０，２７５のいずれか、またはそのすべてを用いて、ドキュメントに関する本文信頼度値および／または本文信頼クラスを推定する。練達されたドキュメント本文信頼モデル２３２は、本文信頼の程度について手動で評価およびラベル付けされた多数のサンプルドキュメントを用いて学習される。練達されたドキュメント本文信頼モデル２３２については後に説明する。
【００２２】
ドキュメント内容特性値決定回路または決定ルーチン２４０は、ドキュメントに関するドキュメント内容特性値を決定する。例示する各種実施形態では、ドキュメント内容特性値決定回路またはルーチン２４０は、たとえば、図３に示すような特定のドキュメント内容特性３１０、たとえば、１つ以上の疑問符、数字、学術的接頭語または学術的接尾語を持つ語、ハイパーリンク、ドキュメントの長さ、省略形、名詞句の数など、ウェブドキュメント、たとえば、ウェブページに存在する可能性のある特性を評価、たとえば特定及び選択するために用いることができる。図３には、また、ドキュメントの本文の信頼を決定するために用いることができるドキュメント内容特性も記載してある。
【００２３】
ドキュメント内容特性値決定回路または決定ルーチン２４０が評価および／または抽出を行う対象は部分集合のみである。この部分集合は、多数の潜在特性３１０から得られるドキュメント内容特性、たとえば、疑問符、数字、学術的接頭語または学術的接尾語を持つ語、ハイパーリンク、ドキュメントの長さ、省略形、名詞句の数などの一部であり、たとえば、図３に示した数字３２０と、学術的接頭語または学術的接尾語を持つ語３２１と、ハイパーリンク３２２と、省略形３２３と、名詞句の数３２４とで構成される。これらの特性は、決定された信頼度レベルを基準にしたドキュメントのランク付けに利用できる。ドキュメント内容特性の部分集合、たとえば、数字３２０、学術的接頭語または学術的接尾語を持つ語３２１、ハイパーリンク３２２、省略形３２３、および名詞句の数３２４など、ドキュメント内容特性決定回路または決定ルーチン２４０によって選択または抽出、あるいは選択および抽出された部分集合は、ドキュメント内容特性の所定の部分集合に対応する。このドキュメント内容特性の部分集合は、練達されたドキュメント本文信頼モデル２３２によって事前に決定され、該モデル２３２内に包含される。
【００２４】
ドキュメント内容特性値決定回路または決定ルーチン２４０は、選択された１つ以上のドキュメント内容特性３１０を処理して、ドキュメントに関するドキュメント内容特性値群を決定する。例示する各種実施形態において、ドキュメント内容特性値決定回路またはルーチン２４０は、図１４に示すように、１つ以上のドキュメント内容特性値の１群３４０を決定する。この１群３４０は、構文解析と数値演算の１つ以上の処理または方法を用いて、ドキュメント内容特性の部分集合を処理して求める。実施形態の一例では、取得したドキュメント内容特性値群３４０は、ドキュメント内の特定タイプのドキュメント特性値に応じて指定される個別のドキュメント内容特性値３４１，３４２，３４３，３４４の１つ以上の組み合わせでもよい。実施形態の一例において、ドキュメント内容特性値群３４０は、図１４に示すように整数以外の数値を持つ。
【００２５】
ドキュメント本文信頼度値決定回路または決定ルーチン２５０は、ドキュメント内容特性値決定回路または決定ルーチン２４０で決定したドキュメント内容特性値に基づいて、ドキュメントの本文信頼度値を決定する。ドキュメント本文信頼度値決定回路または決定ルーチン２５０は、ドキュメント内容特性値群３４０に指定された１つ以上のドキュメント内容特性値３４１，３４２，３４３，３４４を利用してドキュメントの本文信頼度値を求める。
【００２６】
ドキュメント本文信頼度値決定回路またはルーチン２５０は、図１３に示すように、ドキュメントの本文信頼度値３５０〜３６０を決定する。この本文信頼度値３５０〜３６０は、１つ以上の統計処理または統計技術、たとえば、回帰処理または分類処理を用いてドキュメント内容特性値群３４０を処理して求められる。また、ドキュメント本文信頼度値決定回路または決定ルーチン２５０は、１つ以上の計量回帰アルゴリズムまたは計量回帰方法でドキュメント内容特性値群３４０を処理して、ドキュメントの本文信頼度値３５０を決定する。
【００２７】
ドキュメント本文信頼度値決定回路または決定ルーチン２５０は、ドキュメント本文信頼度値３６０を決定する。このドキュメント本文信頼度値３６０は、１個以上の強化判断ツリーアルゴリズムまたは強化判断ツリー方法を用いてドキュメント内容特性値群３４０を処理して求める。ドキュメント本文信頼度値決定回路または決定ルーチン２５０が決定するドキュメントの本文信頼度値３６０は、ＡｄａＢｏｏｓｔアルゴリズムモデル、たとえば、フロイント（Ｙ．Ｆｒｅｕｎｄ）他、の「新しい強化アルゴリズムによる実験」国際機械学習協議会１４８〜１５６頁，１９９６年刊行（“Ｅｘｐｅｒｉｍｅｎｔｓ　ｗｉｔｈ　ａ　ｎｅｗｂｏｏｓｔｉｎｇ　ａｌｇｏｒｉｔｈｍ”，Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ，ｐｐ．１４８−１５６，１９９６）に概説されているアルゴリズムを用いてドキュメント内容特性値群３４０を処理して求める。
【００２８】
ドキュメント本文信頼クラス決定回路または決定ルーチン２６０は、少なくとも特定のドキュメントに指定された本文信頼度値３５０〜３６０に基づいて、ドキュメントの本文信頼クラスを決定する。例示する各種実施形態において、ドキュメント本文信頼クラス決定回路または決定ルーチン２６０は、練達されたドキュメント本文信頼モデル２３２を利用して、特定のドキュメント本文信頼クラス４３０、たとえば、図６に示す本文信頼クラス「１」に対して本文信頼度値３５０〜３６０の数値のマッピングまたは割り当てを行う。
【００２９】
ドキュメント本文信頼クラス決定回路または決定ルーチン２６０はドキュメントの本文信頼クラス４３０を決定する。この本文信頼クラス４３０は、回帰モデルと同様に、回路またはルーチン２５０で算出された本文信頼度値３５０を対応するクラス割り当て構造４４０にマッピングするか、または、分類モデルと同様に、回路２５０で計算されたクラスラベル値を直接出力することによって求められる。
【００３０】
図１３に示すように、特定のドキュメントの本文信頼クラス４３０は、少なくとも本文信頼度値３５０の数値を基づき、最も近似する整数値に丸めたものである。また、ＡｄａＢｏｏｓｔアルゴリズムモデルを利用すると、整数値のドキュメントの本文信頼クラスが得られることを付記しておく。ドキュメントに関連付けられた結合信頼度決定回路または決定ルーチン２７０は、ドキュメントに対して決定された本文信頼度値および／または本文信頼クラスを部分的な基準として、各種の情報検索アプリケーション内においてドキュメントの総括的な信頼度を決定する。
【００３１】
ドキュメント分類精度改善回路または改善ルーチン２７５は、整形した本文信頼モデル２３２に含まれるドキュメントの本文信頼推定値を改善して、ドキュメント信頼の分類とランキング処理を改善する。例示する各種実施形態では、ドキュメント分類精度改善回路または改善ルーチン２７５は、ユーザからのフィードバックを取り込んで、自動的にシステム性能へ適合させる。
【００３２】
図４に、練達されたドキュメント本文信頼モデル２３２を示す。練達されたドキュメント本文信頼モデル２３２は、図４に示すように、ドキュメント属性モデル２３２２と、ドキュメントクラスラベル付けモデル２３２４と、ドキュメント内容特性部分集合選択モデル２３２６と、予測モデル２３２８と、を含む。それぞれは、本文信頼および／または本文信頼クラスに対するドキュメント内容特性値群の割り当てに用いることができる。
【００３３】
ドキュメント属性モデル２３２２は、例示したドキュメント属性群を人または機械が評価および分類するための基準を形成する。図５に示すように、例示したドキュメント属性４１０は、（１）ドキュメントが第三者によって校閲または検査されたかどうか、（２）作者の経歴、（３）ドキュメントの対象者、（４）作者の所属団体を含む。評価される各ドキュメント属性４１０に対して、ドキュメント属性分類モデル２３２２は可能性のある定量値４２０を提供する。また、図５に示したドキュメント分類属性４１０と属性値４２０は、実施形態の一例として示したにすぎないことを注記しておく。本発明の範囲を逸脱しない別の実施形態のドキュメント属性分類モデルは、これらの属性を考慮してよく、追加されたまたは代替のドキュメント分類属性４１０および／または属性値４２０を考慮してもよい。たとえば、特定の新聞社のウェブサイトというような公開場所、ドキュメント内の参考文献の数と種類、またはグラフの有無なども考慮する。
【００３４】
ドキュメントクラスラベル付けモデル２３２４は、練達されたドキュメント本文信頼モデル２３２によって解析される各ドキュメントに信頼クラスを割り当てる。このドキュメント本文信頼モデル２３２において、クラスは、図６に例示したドキュメント信頼割り当て構造構造を基準とするものである。例示したドキュメントの信頼クラス群は、インターネットで入手可能なドキュメントの大部分を対象として含み、特に、医療情報および学術情報などの高い価値を有する情報分野に関連するものである。ドキュメント信頼クラス４３０は、最も信頼あるドキュメント、すなわち、学術知識を有する人物が学術知識を持つ読み手を対象として記述したドキュメントから市井の人物がただ快く読んでくれる相手を対象として書いたドキュメントまでを網羅する。
【００３５】
ドキュメント内容特性部分集合選択モデル２３２６は、ドキュメント内に存在すると想定される多数の内容特性の中からドキュメント内容特性部分集合を評価して選択し、信頼度レベルに基づくドキュメントのランク付けおよび分類に得られた部分集合を用いる。ウェブ検索で通常遭遇するドキュメントを完全に取り込んで正確に表現するためには、言語内容たとえば、数字、学術的接頭語または学術的接尾語を持つ語、ハイパーリンク、省略形、名詞句の数などや、描写的内容、たとえば、色と、ウェブドキュメントまたはウェブページの表を取り込んだ多数のドキュメント内容特性３１０が考慮される。ただし、潜在的なドキュメント内容特性３１０すべてを用いてドキュメントの信頼度を決定した場合、信頼度に対して情報性が少ない特性が決定にノイズを与えることも多い。また、ドキュメントの信頼度の決定する際にこのような特性を加えると、信頼度を決定する速度が低下することになる。部分集合選択モデル２３２６が利用するドキュメント整形群は、ドキュメント属性分類モデル２３２２およびドキュメントクラスラベル付けモデル２３２４を用いて、ドキュメントの信頼を基準に手動でラベル付けしたものである。
【００３６】
ドキュメント内容特性部分集合選択モデル２３２６は、回帰技法、たとえば「エフロイムソン（Ｅｆｒｏｙｍｓｏｎ）」方法を用いた段階的回帰などを実行して、ドキュメント特性の部分集合を選択する。エフロイムソン方法は反復方法である。この方法では、選択したドキュメント内容特性群に対して、繰り返しを行うごとに新しいドキュメント内容特性変数を追加する。その後、現在部分集合内に存在する内容特性のいずれかを排除する必要があるかどうかを、新しい特性群と選択した特性群の部分的相関関係に基づいて検討する。また、他の変数選択技法、たとえば、相互情報量、ＡｄａＢｏｏｓｔなどを用いて、内容特性部分集合を選択することもできる。
【００３７】
予測モデル２３２８は、本文信頼および／または本文信頼クラスに対するドキュメント内容特性値の割り当てに利用できるモデルであり、選択されたドキュメント内容特性の部分集合を特性ベクトルｘに変換する。予測モデル２３２８は、次に、特性ベクトルｘを信頼ランクａ_ｔｅｘｔにマッピングする予測モデルを創出する。
【００３８】
予測モデル２３２８は、１次回帰アルゴリズムモデルまたは強化判断ツリーアルゴリズムモデルを予測モデルとして利用して、ドキュメントを分類する。予測モデル２３２８は、前述の方法で限定したドキュメント内容特性群と手動でラベル付けしたドキュメント整形群を利用する。予測モデル２３２８は、距離関数回帰技法または強化判断ツリー技法を用いて、整形群から分離したテスト群内の各ドキュメントの信頼を推定する。予測モデル２３２８は、他の技法、たとえば、順序回帰、多クラス分類技法などを採用し、ドキュメントの信頼をそのドキュメントの評価済みドキュメント内容特性に基づいて推定してもよい。
【００３９】
次に、練達モデル２３２によって創出され、その練達モデル２３２に登録されるドキュメント信頼クラス群４３０の一例を説明する。たとえば、「信頼クラス１」のドキュメントは、専門家によって、あるいは専門家のために作成され、かつ他の専門家に向けて書かれた学術ドキュメントを含み、「信頼クラス２」のドキュメントは、学術機関が提供する、一般大衆に向けて書かれた一般的な学術情報ドキュメントを含むものとする。そして、「信頼クラス３」のドキュメントは、評判のよいサイトから提供された情報を有するドキュメントを含む。
【００４０】
「信頼クラス４」のドキュメントは、報道機関が一般大衆に提供する一般的な時事情報ドキュメントを含み、「信頼クラス５」のドキュメントは、商業活動を行う機関が提供するドキュメントを含む。「信頼クラス６」のドキュメントは、メールグループおよび討議リストによって提供されるドキュメント、並びに新聞社の意見および社説ドキュメントを含む。「信頼クラス７」のドキュメントは、ウェブのホームページから提供されるドキュメントを含む。
【００４１】
これらのクラスの信頼度には暗黙の序列が存在することは理解されるであろう。条件が同じだとすると、学術ドキュメントは報道機関の報告よりも信頼があり、報道機関の報告はニュースグループで見つける情報よりも信頼があると見なされる。図６に示す序列関係を利用すると、異なるドキュメントの信頼のランク付けおよび比較が可能になる。図６に示すように、各クラスの信頼は、順序設定された正の整数群にマッピングされる。一般に、クラス群から実数群への単調マップを利用して、信頼クラス／ランク４３０を割り当てることができる。たとえば、ボックス−コックス（Ｂｏｘ−Ｃｏｘ）変換を用いて、これらの整数特性を連続的な特性にマッピングする。図６に示す実施形態の例では、マップ４４０が、ドキュメントのクラスから図６に示すリストに対応する正の整数に定義される。
【００４２】
前述した信頼クラス４３０は、このようなドキュメント信頼クラスの実施形態として例示したにすぎないことも理解されるであろう。本発明のシステムおよび方法の少なくとも一方の各種実施形態の例を実施するにあたって、他のドキュメント信頼クラスと他のクラス割り当て構造構造のいずれかまたは両方を利用してもよい。たとえば、そのページ内に存在する各リンクを説明する短い文節を含むウェブリンクページに信頼クラス４３０を割り当てたいと考えるユーザも想定される。これらのページは、信頼クラス値「８」に割り当ててもよい。これは、このようなページから信頼あるドキュメントにたどり着く可能性があるとしても、そのページ自体には信頼ある情報が含まれていないためである。
【００４３】
図７は、ドキュメント本文信頼モデルを作成し、または「学習させる」方法のフローチャートである。この方法では、ラベル付けしたドキュメント群を利用して、本発明に係る練達されたドキュメント本文信頼モデルを作成する。図７に示すように、本方法はステップＳ２００から始まり、ステップＳ２１０に続く。ステップＳ２１０では、手動でラベル付けした各ドキュメントに関するドキュメント分類属性群の一例を、所定の構造に従って定義および評価する。この構造は、各種のドキュメント分類属性、たとえば、ドキュメントが第三者によって校閲されたかどうか、作成者が専門家であるのか、あるいは一般大衆の一人であるのか、ドキュメントに想定されている読み手、あるいはドキュメントの対象となる読み手が専門家であるのか、あるいは一般大衆の一人であるのか、作成者が知的専門機関、メディア、商業活動を行う機関のいずれかに属しているのか、などの属性のすべてまたはいずれかを含むドキュメント分類属性を検討および評価する。
【００４４】
次に、ステップＳ２２０において、図５および図６に示すドキュメント属性評価構造とその結果を適用して、調整モデルの作成に使用する各ドキュメントに信頼クラスを割り当てる。割り当て可能なドキュメント信頼クラス群は、インターネットで入手可能なドキュメントの大部分を包含し、特に、医学情報および学術情報のような高価な情報分野に関するものを含むように選択できる。図６に示すように、適切なドキュメント信頼クラスは、最も信頼あるドキュメント、すなわち、学術知識を有する人物が学術知識を持つ読み手を対象として記述したドキュメントから一意の人物がただ快く読んでくれる相手を対象として書いたドキュメントまでを網羅する。
【００４５】
次に、ステップＳ２３０において、反復段階的回帰技法を用いて、ドキュメントの本文信頼度についての優れた予測変数であるドキュメント内容特性の部分集合を選択する。次のステップＳ２４０では、選択したドキュメント内容特性の部分集合を利用して、ドキュメント内容特性値群を求める。このドキュメント内容特性群は、１個以上のドキュメント内容特性値を包含してよい。ステップＳ２５０において、ドキュメント内容特性値群は特性ベクトルｘに変換される。次に、ステップＳ２６０で、特性ベクトルｘから信頼ランクａ_ｔｅｘｔへのマッピングを可能にする予測モデルを創出する。更に、処理はステップＳ２７０まで続き、そこで、ドキュメントの信頼度整形方法の処理が終了する。
【００４６】
特性ベクトルｘで表されるドキュメントの本文信頼を予測することは、コストに影響する多クラス分類の問題として捉えることができる。クラス間の関係には相対的なランクが設定されているため、誤分類のコストは、クラスの各組みの間で同一ではない。たとえば、あるホームページを学術ドキュメントとする誤分類のコストは、学術機関による一般情報ドキュメントを学術ドキュメントとする誤分類のコストよりもはるかに高い。本発明者は、距離回帰アルゴリズムと強化判断ツリーが、モデルと整形の複雑さの間における優れた妥協、あるいは品質の高い妥協をもたらす一方で、一般化と予測の間における優れた妥協、あるいは品質の高い妥協を達成することを発見した。
【００４７】
ステップＳ２６０において、１次回帰モデルまたは強化判断ツリーを利用してドキュメントを分類してもよい。予測モデルは、ステップ２３０で選択したドキュメント内容特性の部分集合と手動でラベル付けした整形群とを少なくとも用いて創出される。その後で、回帰モデルまたは強化判断ツリーモデルを用いて、整形群から分離したテスト群に属する各ドキュメントの本文信頼度値を推定する。
【００４８】
ステップＳ２３０では、エフロイムソン（Ｅｆｒｏｙｍｓｏｎ）の段階的回帰技法を利用して、ドキュメント内容特性の部分集合を選択できる。エフロイムソンの方法では、まず、空のドキュメント内容特性群から処理を始める。続く反復処理ごとに、前述のドキュメント内容特性群内に存在しない各ドキュメント内容特性を１つずつ評価して、信頼度の予測に最も適した内容特性をテスト内容特性群から選択する。現在のステップで選択した内容特性と、既に選択されている内容特性の間の部分的相関を利用して、選択したドキュメント内容特性の部分集合内に現時点で存在している変数のいずれかを排除する必要があるかどうかを決定する。
【００４９】
図８は、１つ以上のドキュメントの第１群に属する各ドキュメントの本文信頼度を決定する本発明に係る方法のフローチャートである。図８に示すように、本方法はステップＳ３００から始まり、ステップＳ３１０に続く。ステップＳ３１０において、関連ドキュメントの第１群を識別する。ドキュメントの第１群は、ウェブ基準の最初の検索を実行して識別される。この検索には、特定の話題または対象領域に関するドキュメントを求めるクエリを発行して検索を実行する既知または今後開発される任意のウェブ検索技術が利用される。
【００５０】
次に、ステップＳ３２０において、関連ドキュメントの第１群に属する各ドキュメントに対して、ドキュメント内容特性値群を決定する。次のステップＳ３３０では、練達されたドキュメント本文信頼モデルを用いて指定したドキュメント内容特性値群を処理して、各ドキュメントの本文信頼度値を決定する。処理は、更に、ステップＳ３４０に進む。
【００５１】
ステップＳ３４０では、関連ドキュメントの第１群に属する各ドキュメントの本文信頼クラスを決定する。本文信頼クラスは、特定のドキュメントそれぞれに指定された本文信頼度値と、練達されたドキュメント本文信頼モデル内の本文信頼クラス割り当て構造と、に基づいて求められる。各ドキュメントは、そのドキュメントの本文信頼度値、本文信頼クラス、他の定量測定値のすべてまたはいずれかに基づいて、更に順序付け、分類、ランク付けしてもよい。基準となる本文信頼度値、本文信頼クラス、他の定量測定値は、ドキュメントのドキュメント内容特性値に関連したものであっても、あるいはドキュメントのドキュメント内容特性値を基準にしたものであってもよい。処理は、次に、ステップＳ３５０に進み、そこで本方法の処理が完了する。
【００５２】
ステップＳ３２０では、関連ドキュメントの第１群に属する各ドキュメントのドキュメント内容特性値群に１つ以上のドキュメント内容特性値を挿入する。１つ以上のドキュメント内容特性値は、ドキュメント内容特性の所定の部分集合を処理して決定する。このドキュメント内容特性の部分集合は、練達されたドキュメント内容信頼モデルを用いて、特定のドキュメント内で検出する。各ドキュメントの１つ以上のドキュメント内容特性値は、構文解析と数値演算の１つ以上の処理または方法を利用して、ドキュメント内容特性の所定の部分集合を処理することによって求める。
【００５３】
ステップＳ３３０では、練達されたドキュメント内容属性モデルに、評価を行っているドキュメントのドキュメント内容特性値群を入力する。ドキュメント内容信頼モデルは、ドキュメント内容特性値を用いて、ドキュメントの本文信頼度値を推定する。この値には、図６に示す４４０のクラスラベルの値範囲内に存在する実数を利用してよい。
【００５４】
ステップＳ３３０において、１つ以上の距離回帰アルゴリズムまたは分類方法を用いてドキュメント内容特性値群を処理し、各ドキュメントの本文信頼度値を決定する。１次回帰モデルを利用して、各ドキュメントの特徴付けに利用できるドキュメント内容特性値群を処理できる。あるいは別の方法として、強化判断ツリー方法を利用して、各ドキュメントの特徴付けに利用できるドキュメント内容特性値群を処理することもできる。他の回帰方法または分類方法、たとえば、順序回帰処理、多クラス分類技法などを採用し、ドキュメントの特徴付けに利用できるドキュメント内容特性値群を処理してもよい。
【００５５】
ステップＳ３４０では、いずれかの方法で最も近い値に近似化した値、たとえば、下限値、上限値、まるめ値に関連のあるクラスを、そのドキュメントに対するドキュメント本文信頼クラスとして選択してもよい。
【００５６】
図９は、本発明における検索エンジンで取り出したドキュメントのランクを再設定する方法を決定するために、本文信頼度を適用する方法のフローチャートである。大規模で異質な集合であり、常に変化している集合、たとえば、ＷＷＷでは、特定のクエリに応じて検索エンジンから戻される結果は、多くの場合、あらゆる範囲の信頼度が存在する広範囲のドキュメントを含んでいる。このことは状況によっては好ましい特性となることもあるが、ユーザは、特定クラスのドキュメント、たとえば、学術ドキュメントなどに興味を持つ可能性が高い。本文信頼判別方法の可能な用途の１つとして、本文信頼に応じて検索結果を再順序付けして選別し、その後で、特定の信頼範囲、たとえば、学術ドキュメントなどの範疇に入るすべてのドキュメントを戻すという用途がある。
【００５７】
図９に示すように、本方法はステップＳ４００から始まり、ステップＳ４１０に続く。ステップＳ４１０において、関連ドキュメント、たとえばウェブドキュメントの第１群を識別する。ドキュメントの第１群は、ウェブ基準の最初の検索を実行して識別するが、この検索には、特定の話題または対象領域に関するドキュメントを求めるクエリを発行して検索を実行する既知または今後開発される任意のウェブ検索技術を利用する。
【００５８】
次に、ステップＳ４２０において、高い社会的信頼にランク付けされた所定数のドキュメント、たとえば、ウェブ検索エンジンで識別された、最高位ランクのドキュメントのいくつかをドキュメントの第１群から選択する。次のステップＳ４３０では、選択された高い社会的信頼にランク付けされたドキュメントそれぞれについて、そのドキュメントの本文信頼度値を決定する。この本文信頼度は、本発明に従って本文信頼度値を求める方法として例示した実施形態の１つを用いて算出する。また、ステップＳ４３０の一部として、ドキュメント本文信頼クラスを決定する本発明に係る方法の実施形態の一例を用いて、ドキュメント本文信頼クラスを決定してもよい。次に、ステップＳ４４０に進む。
【００５９】
ステップＳ４４０では、高い社会的信頼にランク付けされたドキュメントについて、取得した本文信頼度値および本文信頼クラスの１つ以上に基づいてその順序を再設定する。各ドキュメントの順序設定、分類、またはランク付けは、そのドキュメントの本文信頼度値、または本文信頼クラスに基づいて実行しても、あるいは他の既知、または今後開発されるランク再設定スキーマに基づいて実行してもよい。
【００６０】
次のステップＳ４５０において、本文信頼度値および／または本文信頼クラスの少なくとも一方に基づいて順序またはランクが再設定されているドキュメントを、新たに決定したランクに従って表示する。処理は、次に、ステップＳ４６０に進み、そこで本方法の処理が完了する。
【００６１】
ステップＳ４２０では、最上位の順序として選択するドキュメントの数は、約１０〜２００の範囲内の数に指定してよい。ただし、最上位の順序に位置付けるドキュメント数の範囲は、たとえば、ユーザの希望、アプリケーションのタイプ、計算能力などに基づいて選択してもよいことは理解されるであろう。
【００６２】
ステップＳ４３０では、ドキュメントの本文信頼度値を決定する処理が、たとえば、関連ドキュメントの第１郡に属する各ドキュメントのドキュメント内容特性値群を決定する処理を含む。ドキュメント内容特性値群は、特定のドキュメント内に存在するドキュメント内容特性の所定の部分集合を、練達されたドキュメント本文信頼モデルを用いて処理て得られる。更に、１つ以上の距離回帰アルゴリズムまたは分類方法を用いてドキュメント内容特性値群を処理する。ステップＳ４３０において、ドキュメントの本文信頼クラスを決定する処理は、更に、特定の各ドキュメントに対して決定された本文信頼度値を利用した比較処理を含む。この比較処理では、練達されたドキュメント本文信頼モデル内の本文信頼クラス割り当て構造を用いて、本文信頼度値と本文信頼クラス値群とを比較する。
【００６３】
図１０は、本文信頼度を社会的信頼と組み合わせることによって、ドキュメントの信頼度の推定を改善する本発明の方法のフローチャートである。図１０に示すように、本方法の処理はステップＳ５００から始まり、ステップＳ５１０に続く。ステップＳ５１０において、関連ドキュメントの第１群、たとえば、ウェブドキュメント群を識別する。ドキュメントの第１群は、ウェブ基準の最初の検索を実行して識別するが、この検索には、特定の話題または対象領域に関するドキュメントを求めるクエリを構築して検索を実行する既知または今後開発される任意のウェブ検索技術を利用する。識別したウェブドキュメントの第１群のサイズによっては、既知または今後開発される絞込み検索技法、たとえば、ブール技法、検索エンジンにキーワードやパラメータを追加指定する方法などを利用して、関連ドキュメントの第１群を更に縮小してもよい。
【００６４】
次に、ステップＳ５２０において、関連ドキュメント群内に残した各関連ウェブドキュメントの社会的信頼またはリンク構造を評価する。最上位の順序に位置付けされた各ドキュメントの社会的信頼またはリンク構造は、そのドキュメントからリンクを設定しているリンク先ドキュメント集合内の他のドキュメント、またはそのドキュメントにリンクを設定されているリンク元ドキュメント集合内の他のドキュメントを決定することによって評価する。次のステップＳ５３０では、選択した各ドキュメントに対して、本文信頼度値を設定する本発明の方法として例示したいずれかの実施形態を用いて、本文信頼度値を決定する。ここで、ステップＳ５３０の一部として、ドキュメント本文信頼クラスを決定する本発明に係る方法の実施形態の１つを用いて、ドキュメント本文信頼クラスを決定してもよい。
【００６５】
ステップＳ５４０では、各関連ドキュメントに関して、その特定のドキュメントに対して推定された本文信頼に基づいて、加重社会的信頼ランクを推定する。次のステップＳ５５０において、本文信頼を社会的信頼の推定と組み合わせて決定した加重信頼ランクに従ってランクまたは順序を設定したドキュメントを表示する。次に、ステップＳ５６０に進み、そこで本方法の処理が完了する。
【００６６】
ステップＳ５３０では、ドキュメントの本文信頼度値を決定する処理が、たとえば、関連ドキュメントの第１郡に属する各ドキュメントのドキュメント内容特性値群を決定する処理を含む。ドキュメント内容特性値群は、特定のドキュメント内に存在するドキュメント内容特性の所定の部分集合を、練達されたドキュメント本文信頼モデルを用いて処理して得られる。更に、１つ以上の距離回帰アルゴリズムまたは分類方法を用いてドキュメント内容特性値群を処理して指定する。ステップＳ４３０において、ドキュメントの本文信頼クラスを決定する処理は、更に、特定の各ドキュメントに対して決定された本文信頼度値を利用した比較処理を含む。この比較処理では、練達されたドキュメント本文信頼モデル内の本文信頼クラス割り当て構造を用いて、本文信頼度値を本文信頼クラス値群と比較する。
【００６７】
ステップＳ５４０では、後述する方法を用いて、ドキュメントの本文信頼推定と社会的信頼／リンク構造の解析とが組み合わされる。
【００６８】
ネットワーク構造内のページの社会的信頼には、構造内の他のメンバがそのページをどのように見ているかが反映されている。一般に、特定のページを支持する集団の構成員数が増えるにしたがって、そのページの信頼も高くなる。ただし、そのページを推薦するすべてのページが、同等の選択基準でそのページを指定しているわけではない。たとえば、本来のＨＩＴＳアルゴリズムは、「ハブ」という概念を定めている。ハブは、信頼の高いページを指し示す特定のページである。逆に言うと、信頼あるページは、品質の高いハブによって指向されるということである。
【００６９】
本文信頼と社会的信頼とを組み合わせる本発明に係る方法は、有向グラフＧ＝（Ｖ，Ｅ）を備えたパイパーリンクページ群Ｖをそのページに対応するノードと関連付ける。有向エッジ（ｐ，ｑ）∈Ｅは、ｐからｑのエッジが存在することを表す。このグラフ構造は、ノードｉからノードｊへのリンクが存在する場合にエントリａ［ｉ］［ｊ］を持つ隣接行列Ａで表してよく、そうでない場合には０に設定する。
【００７０】
本方法では、ページｐの信頼加重ａｕｔｈ（ｐ）とハブ加重ｈｕｂ（ｐ）を次のように定義する。
【００７１】
【数１】

【００７２】
【数２】

【００７３】
信頼加重は、行列Ａ^ＴＡの主固有ベクトルのエントリに対応し、ハブ加重は、行列ＡＡ^Τの主固有ベクトルのエントリに対応する。ＰａｇｅＲａｎｋ（登録商標）検索エンジンが利用するアルゴリズムは、隣接行列Ａを行列Ｍと入れ替える。行列Ｍでは、合計が１になるように行列Ａの各行が正規化される。
【００７４】
【数３】

【００７５】
Ｕは、均等遷移確率の遷移マトリックスであり、任意のページへの無作為遷移を表し、
【００７６】
αは、ユーザが無作為のページに移動する確率を表す。
【００７７】
一実施形態において、αは約０．１〜０．２の範囲の値を持つ。
【００７８】
現在の形式では、隣接行列がすべてのリンクに同一の加重を割り当てる。あるページの本文信頼は、そのページ固有の品質の推定量を提供するため、そのページの本文信頼は、ドキュメントによってリンクされたリンク先ページの品質の指標となる。
【００７９】
加重社会的信頼ランクは、特定のドキュメントに対して推定された本文信頼度値を用いて、ページｊに対応する隣接行列のエントリをページｊの本文信頼に置き換えることによって決定する。つまり、本文信頼は、ページｉがページｊを指向している場合に、ページｉの正規化した本文信頼をｍ［ｉ］［ｊ］に、そうでない場合にゼロに設定することによって、社会的信頼と組み合わせることができる。
【００８０】
【数４】

【００８１】
上式において、｜ｉ｜はページｉの出次数である。隣接行列Ｍは、ｉ番目とｊ番目のエントリをｍ_Ｗ［ｉ］［ｊ］に設定した行列である。
【００８２】
加重信頼ランクは、ＨＩＴＳと同様のアルゴリズムまたは方法を使用している場合に、行列

の主固有ベクトルのエントリとして推定する。あるいは、ＰａｇｅＲａｎｋ（登録商標）と同様のアルゴリズムまたは方法を使用している場合、加重信頼ランクは、Ｐの主右固有ベクトル（ｐｒｉｎｃｉｐａｌ　ｒｉｇｈｔ　ｅｉｇｅｎｖｅｃｔｏｒ）として推定する。
【００８３】
いくつかのキーワードを追加したり、あるいは優れたハブへのリンクを設定したりしても、本文信頼はそれほど変化しないことは理解されるであろう。一般に、ドキュメントの本文信頼は、そのページの信頼ある書き直しのみによって変化する。この精神において、本文信頼は、簡単にはかく乱されない、より堅固な加重付けを提供する。
【００８４】
図１１は、本文信頼度の推定を適用して、ドキュメントクエリ検索を拡張および改良する方法を示したフローチャートである。
【００８５】
一般に、クエリの拡張は、２段階の手続を含んでよい。まず、検索エンジンを利用して、関連ドキュメントの第１群を取得する。次に、取得した第１群または第１群の部分集合内で最も頻出する表現を利用して、クエリ拡張表現の候補群を指定する。実際のクエリ拡張表現は、統計的検査を用いてこの候補群から抽出する。新しく設定した実際のクエリ拡張表現と元のクエリ表現を連結したものが新しいクエリとして形成され、検索エンジンに渡される。新しいクエリの検索結果は、元のクエリよりも優れたドキュメント群を提供する。
【００８６】
図１１に示すように、本方法は、ステップＳ６００から始まり、ステップＳ６１０に続く。ステップＳ６１０において、関連ドキュメント、たとえばウェブドキュメントの第１群を識別する。関連ドキュメントの第１群は、ウェブ基準の最初の検索を実行して識別してよい。この検索には、特定の話題または対象領域に関するドキュメントを取得するクエリを発行して検索を実行する既知または今後開発される任意のウェブ検索技術を利用する。次に、ステップＳ６２０では、選択した各ドキュメントについて、本文信頼度値を決定する本発明の方法を用いて、本文信頼度値を決定する。また、ステップＳ６２０の一部として、ドキュメント本文信頼クラスを決定する本発明に係る方法を用いて、ドキュメント本文信頼クラスを決定してもよい。
【００８７】
信頼度の高いドキュメントが確実に戻されるようにするため、拡張したクエリの中に、本文に信頼があるドキュメントと関連した表現を挿入する。クエリ拡張表現の候補は、関連ドキュメントの第１群に属するドキュメントすべての中から抽出されるのではなく、本文に信頼があるドキュメントのうち、本文信頼が所定の閾値を超えるものの中から抽出される。
【００８８】
ステップＳ６３０では、クエリ拡張表現の候補を抽出する前に、関連ドキュメントの第２の部分集合を選択する。関連ドキュメントの第２部分集合は、本文信頼度値が所定の本文信頼度値を超えるドキュメントを含む。次に、ステップＳ６４０において、関連ドキュメントの第２の部分集合内に最も頻出する表現を評価および抽出して、クエリ拡張表現の候補群を指定する。その後、ステップＳ６５０において、統計的検査を利用して、クエリ拡張表現の候補群から実際のクエリ拡張表現を選択する。処理は、次に、Ｓ６６０に続く。
【００８９】
ステップＳ６６０では、本文信頼を社会的信頼と組み合わせて選択した実際のクエリ拡張表現を検索エンジンに渡して、結果を表示する。次に、ステップＳ６７０に進み、そこで本方法の処理が完了する。
【００９０】
ステップＳ６２０では、ドキュメントの本文信頼度値を決定する処理が、たとえば、関連ドキュメントの第１群に属する各ドキュメントのドキュメント内容特性値群を決定する処理を含む。ドキュメント内容特性値群は、特定のドキュメント内に存在するドキュメント内容特性の所定の部分集合を、練達されたドキュメント本文信頼モデルを用いて処理して得られる。更に、１つ以上の距離回帰アルゴリズムまたは分類方法を用いて、ドキュメント内容特性値群を処理する。また、ステップＳ６２０において、ドキュメントの本文信頼クラスを決定する処理は、更に、特定の各ドキュメントに対して決定された本文信頼度値を利用した比較処理を含む。この比較処理では、練達されたドキュメント本文信頼モデル内の本文信頼クラス割り当て構造を用いて、本文信頼度値を本文信頼クラス値群と比較する。
【００９１】
ステップＳ６５０において、実際のクエリ拡張表現は、１つ以上の統計的検査、たとえば、ログ尤度比検査、フィッシャの完全比、相互情報量などを用いて、クエリ拡張表現の候補から選択できる。まず、ログ尤度比検査を用いて、関連ドキュメント内の各候補表現の分布が、一般のドキュメント集合内の分布と大きく異なるかどうかを検査する。次に、特定の表現の分布が一般のドキュメント集合のそれと非常に異なる場合は、この表現を実際のクエリ拡張表現群に含める。
【００９２】
ログ尤度比（ＬＬＲ）検査は、一般に、下記の表１に示すような形に整理できる。表１において、Ｔ（ｔ，Ｒ）は、関連ドキュメント内に表現「ｔ」が出現する回数を表し、Ｔ（〜ｔ，Ｒ）は、関連ドキュメント内に「ｔ」の表現以外の１つ以上の表現〜ｔが出現する回数を表し、Ｔ（〜ｔ，Ｎ）は、関連のないドキュメント内に「ｔ」の表現以外の１つ以上の表現〜ｔが出現する回数を表す。Ｔ（ｔ，Ｎ）およびＴ（〜ｔ，Ｎ）の個数は、一般的な文献から選択する。
【００９３】
【表１】

ログ尤度は、仮説試験を実行する。帰無仮説は、単一のモデルが観察データを生成したとするもので、代替仮説は、２つのモデルが観察データを生成したとするものである。帰無仮説Ｈ＿０は、表現「ｔ」の分布が、関連ドキュメントと関連のないドキュメントの間で同一であるとし、「ｔ」から表現を観察する確率を次の式で求める。
【００９４】
【数５】

【００９５】
帰無仮説に従ってデータを観察する確率は、次の式で求める。
【００９６】
【数６】

【００９７】
代替仮説は、表現「ｔ」の分布が、関連ドキュメントと関連のないドキュメントの間で異なるものとし、関連ドキュメントにおいて表現「ｔ」を観察する確率を次の式で求める。
【００９８】
【数７】

【００９９】
関連のないドキュメントにおいて表現「ｔ」を観察する確率は、次の式で求める。
【０１００】
【数８】

【０１０１】
代替仮説に従ってデータを観察する確率は、次の式で求める。
【０１０２】
【数９】

【０１０３】
ログ尤度比は、２つの仮説Ｈ＿０とＨ＿１を比較したものである。ここでは、特に、次のように定義する。
【０１０４】
【数１０】

【０１０５】
数量λは、１度の自由度で漸近的に

分散する。これにより、検査に信頼性の測定を加えることができるため、関連ドキュメントと関連のないドキュメントの間で分布が大きく異なる表現のみを受け入れることができる。
【０１０６】
ログ尤度比検査は、相互情報量の概念と密接な関係にある。実際には、次の式を用いる。
【０１０７】
【数１１】

【０１０８】
上式において、Ｉ（ｔ，ｄ）は、表現とドキュメントの間の相互情報量を表す。
【０１０９】
新規のクエリ表現と古いクエリ表現を結合したものが新しいクエリを形成し、形成された新規クエリが検索エンジンに渡される。この新規クエリの検索結果は、元のクエリより豊富なドキュメント群を提供する。
【０１１０】
図１２は、各種のアルゴリズムで生成した２つ以上のドキュメント序列またはドキュメントリストを組み合わせる方法のフローチャートであり、この組み合わせを行うことによって、順序が設定された各リストにある程度の距離において最も近いドキュメント集計序列またはドキュメント集計リストを作成する。本方法は、ランク順に並べたリストと数字順に並べたリストの両方を含む集計ランクまたは集計リストを作成する場合に特に有利な方法である。
【０１１１】
図１２に示すように、本方法は、ステップＳ７００から始まり、ステップＳ７１０に続く。ステップＳ７１０において、関連ドキュメント、たとえばウェブドキュメントの第１群ランク序列または第１群ランクリストを識別する。関連ドキュメントの第１群ランク序列は、ウェブ基準の最初の検索を実行して識別してよい。この検索には、特定の話題または対象領域に関するドキュメントを取得するクエリを発行して検索を実行する既知または今後開発される任意のウェブ検索技術を利用する。
【０１１２】
次に、ステップＳ７２０では、選択した各ドキュメントについて、本文信頼度値を決定する本発明の方法として例示したいずれかの実施形態を用いて本文信頼度値を求める。ここで、ステップＳ７２０の一部として、ドキュメント本文信頼クラスを決定する本発明に係る方法の実施形態の１つを用いて、ドキュメント本文信頼クラスを決定してもよい。
【０１１３】
ステップＳ７３０において、関連ドキュメントの第２リスト序列を決定する。この序列は、第１群のランク付け、順序設定、選択のすべてまたはそのいずれかを実行するか、あるいは、決定済みの本文信頼度値に基づいて関連ドキュメントを順序付けすることによって求める。次のステップＳ７４０では、検索エンジンが識別した関連ドキュメントの第１群または第１序列と、本文信頼度値を用いて識別した関連ドキュメントの第２群または第２序列とを採用し、その両方をランク集計アルゴリズムモデルまたは方法を用いて組み合わせることによって、集計序列または集計リストを得る。次に、ステップＳ７５０において、集計順序または集計リストの結果を表示する。処理は、次に、ステップＳ７６０に進み、そこで本方法の処理が完了する。
【０１１４】
ステップＳ７２０では、ドキュメントの本文信頼度値を決定する処理が、たとえば、関連ドキュメントの第１群に属する各ドキュメントのドキュメント内容特性値群を決定する処理を含む。ドキュメント内容特性値群は、特定のドキュメント内に存在するドキュメント内容特性の所定の部分集合を、練達されたドキュメント本文信頼モデルを用いて処理して得られる。更に、１つ以上の距離回帰アルゴリズムまたは分類方法を用いてドキュメント内容特性値群を処理する。ステップＳ６２０において、ドキュメントの本文信頼クラスを決定する処理は、更に、特定の各ドキュメントに対して決定された本文信頼度値を利用した比較処理を含む。この比較処理では、練達されたドキュメント本文信頼モデル内の本文信頼クラス割り当て構造を用いて、本文信頼度値を本文信頼クラス値群と比較する。
【０１１５】
ステップＳ７４０では、集計ランクの設定に、少なくともＭＣ_４アルゴリズムモデルとマルコフ連鎖方法とを基準としたランク集計アルゴリズムモデルまたは方法を採用する。一般に、マルコフ連鎖方法を基準とするようなＭＣ_４アルゴリズムモデルにおいて現行状態がページ「Ｐ」である場合、次の状態は、まず、序列アルゴリズムによってランク付けされた全ページの和から平等にページ「Ｑ」を抜き出して選択される。次に、序列リストの大部分によってページ「Ｑ」がページ「Ｐ」より高いランクに設定されている場合、状態は「Ｑ」に移行し、そうでない場合、状態は「Ｐ」に留まる。
【０１１６】
ＭＣ_４は、状態遷移マトリックスＴを導入して、λ_ａ＞λ_ｂ＞．．．λ_ｋを推測する。このλ_ａは、Ｔの「ａ番目」の固有値である。ここで、求めるページ序列が、マルコフ連鎖の安定分布である「ａ，ｂ，．．．ｋ」によって与えられる。
【０１１７】
ＭＣ_４アルゴリズムは、ＰａｇｅＲａｎｋ（登録商標）アルゴリズムとよく似ており、状態遷移マトリックスＴによって遷移が支配されたサーファ（ｓｕｒｆｅｒ）の動作を記述する。前述したＭＣ_４ランク集計アルゴリズムでは、多数決の原理を用いて状態遷移マトリックスＴを計算する。
【０１１８】
ランク集計アルゴリズムモデルは、ＭＣ_４アルゴリズムモデルを一部変更して得られ、より大きな重み付けを「優良」リストに割り当てる。優良リストは、バランスリスト、たとえば、全体的一致に近いリストである。この場合の全体的一致は、リストの集計序列である。集計リストは、評価担当者の加重ランクとリストの集計ランクを使用して算出される。
【０１１９】
例示した各種実施形態において、専門家の一人がページ「Ｐ」のランクをページ「Ｑ」より高く設定する限り、ページ「Ｐ」からページ「Ｑ」への遷移が許可される。状態遷移マトリックスのエントリは、次の式によって計算する。
【０１２０】
【数１２】

【０１２１】
【数１３】

【０１２２】
【数１４】

【０１２３】
【数１５】

【０１２４】
【数１６】

【０１２５】
上式において、ｐ_ｔ（ｘ_ｊ｜ｘ_ｉ，ｅ_ｋ）は、ページ「ｉ」からページ「ｊ」への遷移についてのリスト「ｋ」の推薦に基づく確率を表し、ｐ_０＝ｐ_ｃ（ｘ_ｊ｜ｘ_ｉ）＝ｐ_ｃ（ｘ_ｉ｜ｘ_ｉ）は、任意のページがランダムに選択される確率を表す。
【図面の簡単な説明】
【図１】大規模な異種ネットワーク環境を示す図である。
【図２】本発明に係る、信頼度の等級付け、推定、分類を行うシステムの機能ブロック図である。
【図３】本発明に係る、ドキュメント本文信頼の決定に利用できるドキュメント内容特性の図である。
【図４】本発明に係る図２における練達されたドキュメント本文信頼モデルの実施形態を示す図である。
【図５】本発明に従ってドキュメントの信頼を分類する時に考慮される属性群および値群を示す図である。
【図６】図５の設定例に示した属性群および値群に基づいて、ドキュメント属性を分類する本発明に係るクラス割り当て構造を示す図である。
【図７】ドキュメントの本文信頼度値及び／又は本文信頼クラスの決定に利用可能なモデルを整形する、本発明に係る方法のフローチャートである。
【図８】ドキュメントの本文信頼度値及び／又は本文信頼クラスを決定する本発明に係る方法のフローチャートである。
【図９】本文信頼度推定値を適用してドキュメントのランク再設定を行う本発明に係る方法のフローチャートである。
【図１０】本文信頼度を社会的信頼と組み合わせる本発明に係る方法のフローチャートである。
【図１１】本文信頼度推定値を適用して、ドキュメントのクエリ検索を拡張する本発明に係る方法のフローチャートである。
【図１２】本文信頼度に基づくランク配列とリンクに基づくランク配列をそれぞれ少なくとも１つずつ含む２組以上のランク配列の組み合わせまたは集計を行う本発明に係る方法のフローチャートである。
【図１３】図１のネットワーク環境から取得したドキュメントに対して決定された本発明に係る本文信頼度値と本文信頼クラスを示す図である。
【図１４】図１のネットワーク環境から取得したドキュメントについてドキュメント内容特性値を求める本発明の処理を示す図である。
【符号の説明】
２１０　入出力インタフェース、２１４，２８２，２９２　通信リンク、２２０　コントローラ、２３０　メモリ、２３２　練達されたドキュメント本文信頼モデル、２４０　ドキュメント内容特性値決定回路または決定ルーチン、２５０ドキュメント本文信頼度値決定回路または決定ルーチン、２７０　ドキュメント結合信頼度決定回路または決定ルーチン、２７５　ドキュメント分類精度改善回路または改善ルーチン、２８０　表示装置、２９０　入力装置。

Claims

検索によって識別された関連文書群のランクを再設定する方法であって、
識別された各関連文書の文書内容特性値群を決定するステップと、
練達された文書本文信頼モデルを用いて、前記決定された文書内容特性値群に基づいて、各関連文書の本文信頼度値または本文信頼クラスを少なくとも１つ決定するステップと、
前記関連文書群のランクを再設定するために、選択された順に並んでいる前記関連文書群を、当該文書群に設定された本文信頼度値または本文信頼クラスの少なくとも１つを用いて並び替えるステップと、
を含むことを特徴とする文書のランク再設定方法。
請求項１に記載の方法であって、
各関連文書に対する文書内容特性値群を決定する前に、前記識別された関連文書群の中から関連文書の部分集合を選択するステップを有することを特徴とする方法。
複数の文書内容特性を備える文書の信頼度を決定する方法であって、
大規模な文書集合の話題検索によって識別され、最上位に位置付けられた所定数の文書を選択するステップと、
最上位に位置付けられた各文書のリンク構造を評価するステップと、
最上位に位置付けられた各文書の本文信頼度値または本文信頼クラスを１つ以上決定するステップと、
最上位に位置付けられた各文書の１つ以上の本文信頼度値または本文信頼クラスに基づいて、最上位に位置付けられた各文書の加重社会的信頼ランクを決定するステップと、
を含むことを特徴とする文書の信頼度決定方法。
請求項３に記載の方法であって、前記最上位に位置付けられた各文書のリンク構造を評価するステップは、前記文書集合内の他の文書へのリンクまたは指定が該文書に設定されているのか、または、該文書へのリンクまたは指定が前記文書集合内の他の文書に設定されているのか、を判断するステップを含むことを特徴とする記載の方法。
請求項３に記載の方法であって、
前記最上位に位置付けられた各文書のリンク構造を評価するステップは、
最上位に位置付けられた文書群に属する文書に、その群内の他の文書への指定が設定されているか否かを判断するステップと、
隣接行列内の該当するエントリを、該文書に別の文書への指定が設定されている場合に「１」、該文書に別の文書への指定が設定されていない場合に「０」、に設定するステップと、
を含むことを特徴とする方法。
文書の本文信頼度に基づいて検索クエリを拡張する方法であって、
クエリ表現の当初群を使用して、関連文書の第１群を識別するステップと、
前記関連文書の第１群に属する各文書に本文信頼度値を決定するステップと、前記関連文書の第１群の少なくとも一部に決定した本文信頼度値に基づいて、前記関連文書の第１群から関連文書の第２群を識別するステップと、
前記関連文書の第２群からクエリ拡張表現の候補群を定義するステップと、
前記クエリ拡張表現の候補群から少なくとも１つのクエリ拡張表現を選択するステップと、
を含むことを特徴とする検索クエリの拡張方法。
少なくとも２組のランク序列群を組み合わせて、ある程度の距離において前記少なくとも２組のランク序列群の各々に最も近い集計群序列を生成する方法であって、
関連文書の第１群ランク序列を決定するステップと、
前記関連文書の第１群ランク序列内に存在する各文書の本文信頼度を決定するステップと、
前記関連文書の第１群の少なくとも一部に決定した本文信頼度に基づいて、前記関連文書の第１群ランク序列から関連文書の第２群ランク序列を決定するステップと、
前記関連文書の第１群ランク序列と、前記関連文書の第２群ランク序列と、をランク集計アルゴリズムモデルまたはランク集計アルゴリズム方法を用いて組み合わせるステップと、
を含むことを特徴とする方法。
２つ以上のランク付き文書リストまたは文書ランク序列に割り当てる集計ランクと集計加重とを同時に推定する方法であって、
関連文書の第１群ランク序列を決定するステップと、
前記関連文書の第１群ランク序列内に存在する各文書の本文信頼度値を決定するステップと、
前記関連文書の第一群の少なくとも一部に決定した本文信頼度値に基づいて、前記関連文書の第１群ランク序列から関連文書の第２群ランク序列を決定するステップと、
前記関連文書の第１群ランク序列と、前記関連文書の第２群ランク序列と、をランク集計アルゴリズムモデルまたはランク集計アルゴリズム方法を用いて組み合わせるステップと、
を含むことを特徴とする方法。