JP2008537264A - 非常に大きいダイナミック文書スペース中のコンテンツを効率的に追跡および年代決定するためのシステムおよび方法 - Google Patents

非常に大きいダイナミック文書スペース中のコンテンツを効率的に追跡および年代決定するためのシステムおよび方法 Download PDF

Info

Publication number
JP2008537264A
JP2008537264A JP2008507781A JP2008507781A JP2008537264A JP 2008537264 A JP2008537264 A JP 2008537264A JP 2008507781 A JP2008507781 A JP 2008507781A JP 2008507781 A JP2008507781 A JP 2008507781A JP 2008537264 A JP2008537264 A JP 2008537264A
Authority
JP
Japan
Prior art keywords
collage
document
content
search
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008507781A
Other languages
English (en)
Other versions
JP2008537264A5 (ja
Inventor
ゴルドン、ラズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Collage Analytics LLC
Original Assignee
Collage Analytics LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Collage Analytics LLC filed Critical Collage Analytics LLC
Publication of JP2008537264A publication Critical patent/JP2008537264A/ja
Publication of JP2008537264A5 publication Critical patent/JP2008537264A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

インデックスに記憶されている類似するまたは正確に整合する文書またはコンテンツのピースを発見することによって文書またはコンテンツのピースの起点および日付を追跡するシステムおよび方法が提供される。インデックスは各文書の関連される情報と共に現在および現在のものではない文書を含むことができる。種々の方式を使用して各文書をパーズすることにより、類似するまたは整合する文書を相関することが可能である。このような文書の相関を使用して、特定の文書の起点および早期の日付を決定することができる。
【選択図】なし

Description

本発明は情報検索およびサーチエンジンの分野に関する。
2005年4月18日出願の米国特許暫定出願第60/672,256号明細書(発明の名称“System and method for efficiently tracking and dating content in very large dynamic document spaces”)の出願日に対して特典を主張している。この特許出願はその全体がここで参考文献とされている。
過去10年間、ワールド・ワイド・ウェブ(“web”)が世界中の数百万のサーバおよびコンピュータに記憶されている10億のウェブページおよび文書を含む巨大な情報リソースへと進化を遂げた。ウェブはマイクロソフト社のインターネットエクスプローラ(商標名)のようなウェブブラウザ(“ブラウザ”)を使用することにより、インターネットに接続されているパーソナルコンピュータのユーザにアクセス可能である。特定のウェブページにアクセスするために、ユーザは自分のブラウザをユニフォームリソースロケータ(“URL”)としても知られているウェブページのウェブアドレスに指向し、ウェブページのダウンロードと観察を開始する。ユーザはウェブページ上のハイパーリンクをクリック(即ち選択)することもでき、それによってブラウザはハイパーリンクによりアドレスされるウェブページをダウンロードし表示する。ウェブを通してアクセス可能な文書タイプはハイパーテキストマーク付け言語(“HTML”)で書かれた通常のウェブページと、アドベPDFファイルファイルおよびマイクロソフトワード(商標名)ファイルのようなその他の文書を含んでいる(種々の文書タイプは集合的にここで「文書」と呼ぶ)。
サーチエンジンはユーザがウェブ上の所望の情報の位置を突き止めるのを助ける。ユーザはサーチエンジンに対して検索の問合せを依頼し、これは1以上の検索用語またはキーワードを含んでおり、検索の問合せに応答して文書のリストが返送される。サーチエンジンはスマート索引技術のトップに配備され、高速で効率的なサーチおよび検索を可能にする。サーチエンジンは通常ウェブを横断し、それらが遭遇する各ウェブページをダウンロードする1以上のロボットまたはスパイダを使用する。ロボットはそれらが発見する各ウェブページに含まれる多くのハイパーリンクを開くことによって、巨大なウェブを深く探す。検索結果リストで戻される文書はしばしば数千または数百万の数である。それ故サーチエンジンは重要度に基づいて検索結果リスト中に文書をランキングし順序付けするためのインテリジェントなランキング技術を使用する。検索の問合せに対する文書の比較的な人気と関連性とは検索結果リスト中のその相対的なランキングに影響する。
サーチエンジンはインデックス中に含まれる文書を再ロードすることによってそのインデックスを常に新しくする。インデックスは結果として文書の変化または文書全体の除去を反映し、ユーザに対して実質的に現在の入手可能なデータだけを返送する。さらに、新しく出版された文書およびサーチエンジンにより以前に発見されなかった文書も常にインデックスに加えられる。
サーチエンジンは通常インデックスに含まれる各文書の日付情報を記憶する。このような日付情報は、文書が最初にサーチエンジンにより発見された日付、文書が記憶されているサーバから検索された日付情報、サーチエンジンにより最後にインデックスされた日付および/または文書が最後に変更された日付を含むことができる。ほとんどのサーチエンジンはユーザが進歩した検索選択肢を使用して検索することを可能にし、これは他の特性の中で特に検索の問合せを先月、過去3ヶ月または過去一年のような所定の時間期間内に更新された文書に限定することを可能にする。
ウェブページおよび他の文書はしばしばウェブサイト上の異なる位置へ、または1つのウェブサイトから別のウェブサイトへ移動される。完全なウェブサイトはまたそれらのURLも変更し、例えばそれに続いて所有する企業名を変更する。ウェブページの一部は時にはコピーされ、またはそうでなければ他のウェブページへ移転され、(例えばウェブマニュアルからフォーラムポストへ実例プログラムコードをコピーするとき)これらは完全に異なるコンテンツにより包囲される可能性がある。インターネットは制御されず、分配される媒体であり、ウェブページとウェブサイトは常に更新され、他のウェブサイトへ移転され、またはコピーされる。このように、過去3ヶ月内に更新された文書に狭めた検索の問合せはその検索の問合せに応答するウェブページ全体の50%程度になる可能性がある。
現在利用可能なサーチエンジン技術を使用して、ウェブページまたは文書またはその一部(「コンテンツのピース」)のおおよその起点および日付を追跡することは不可能であるか、不適切な結果を招く。したがって文書が最初に発見されまたはウェブサイトへポストされたのは何時であるかにかかわりなく、文書またはコンテンツのピースの起点および早期の日付を決定する手段を含む機能を備えたサーチエンジンが必要とされている。
本発明の原理にしたがったシステムおよび方法は、インデックス中に記憶されている類似するまたは正確に整合する文書またはコンテンツのピースを発見することによって文書またはコンテンツのピースの起点および日付を追跡することができる。インデックス中の文書についての起点および早い日付を追跡する能力はさらに検索装置により与えられる特別な日付範囲に基づいた文書の検索を容易にする。
本発明の原理に一致する1特徴によれば、整合する文書またはコンテンツのピースを発見する目的に対して、冗長であると考えられる情報を除去するために文書を前処理するためのシステムおよび方法が提供される。
本発明の原理にしたがった別の特徴によれば、サーチエンジンのインデックスを維持するシステムおよび方法が提供される。そのインデックスはこれらの文書に関連されるURLに基づいて検索時にウェブでアクセス可能な文書と、ウェブから除去され、したがってこれらの文書に関連されるURLによりアクセス可能ではない古い文書の両者についての情報を含んでいることが好ましい。さらに、インデックスは文書が時間にわたって変化するので、このような所定の文書の種々のバージョンを含んでいる。
本発明の原理に一致するさらに別の特徴によれば、文書内で特有に識別可能なコンテンツエレメントを決定するため文書をパーズするためのシステムおよび方法が提供される。
本発明の原理にしたがったさらに別の特徴によれば、類似性しきい値に基づいて、所定の文書またはコンテンツのピースに整合する1以上の文書またはコンテンツのピースのインデックスを検索するためのシステムおよび方法が提供される。
本発明の原理に一致するさらに別の特徴によれば、ここで特定された原理にしたがってこれらの文書に属するデータに基づいて、文書、特にサーチエンジンの問合せに応答して返送された文書を濾波するシステムおよび方法が提供される。
付加的な優れた特徴および特性を以下の説明の部分で説明され、これはその説明から部分的に固有および/または明白である。ここで説明する優れた技術は種々のよく知られたソフトウェアおよびハードウェア技術を使用して行われることができる。
ここで説明する原理と整合するシステムおよび方法はユーザに対して、より大きな検索のフレキシブル性と、特別なウェブコンテンツに関連されるおおよその最初の日付を決定する効率的な手段を提供する。本発明の好ましい実施形態についての以下の説明は、独立型の年代決定および追跡サーチエンジンを実行するために使用されることができ、或いはこれらの能力を既存のインターネットサーチエンジンに付加するためのデータ構造およびアルゴリズムを特定する。
本発明は(年代決定および追跡問題がそのサーバで記憶されている膨大な情報のためにインターネットではさらに悪化するが)インターネットに限定されない。ここで説明する解決策は、これがウェブまたは別のタイプの分配または非分配の文書記憶システムであるかにかかわりなく、任意の文書スペース内で扱うことができる。
[セクション1:導入部]
サーチエンジンはロボット/スパイダを使用するウェブのようなダイナミック文書スペースから情報を検索し、即ち連続的に文書スペースを走査し、文書を検索し、文書中で発見されたコンテンツを処理し、ユーザ特定の検索規準に整合する文書の高速度な検索を可能にするためにサーチエンジンのインデックスを更新するソフトウェアエージェントである。
サーチエンジンのインデックスは特定のタイプの検索の問合せをサービスするために構築される。最も汎用のタイプの問合せは、サーチエンジンが整合する文書を発見してランク付けしようとするキーワードのセットである。
インデックスの構築と、日付情報の迅速な検索と、ダイナミック文書スペースにおける文書およびコンテンツのピースの情報の追跡のための特別なデータ構造とアルゴリズムについてここで説明する。コンテンツ処理は好ましくは(理論的に最小の複雑性であるO(n)複雑性の)高速度であり、空間効率のよいインデックスを発生する。データ構造およびアルゴリズムは好ましくはインデックスに必要とされるスペースと、サーチエンジンによってサポートされる機能のレベル(サーチ結果の品質)との妥協を最適にするためにサーチエンジンにより構成可能である。
通常の文書のインデックス化技術と好ましい実施形態のインデックス化技術との大きな相違について以下説明する。通常の文書のインデックス化技術は文書スペースの基本的な構築ブロックとして文書を観察する。結果として、それらは文書間の進化から生じる多くの文書ダイナミックスを検出しない。ここで説明するように、異なる方法が示唆される。単一のエンティティとして文書を観察する代わりに、文書はコンテンツのピースのパッチワークとして観察される。サーチエンジンにより特有に識別される各文書のコンテンツのピースをここでは「コラージュエレメント」と呼ぶ。このコラージュエレメントを含む文書自体をここでは「コラージュ」と呼ぶ。好ましい実施形態の技術を使用するサーチエンジンは各コラージュのコラージュエレメントの進化と、それらの親文書の関連を追跡することができる。文書は単にコラージュのコンテナであり、コラージュエレメントを文書アドレススペースに連結するオブジェクトである。
多くの検索機能はここで説明されるインデックスの上部においてサーチエンジンにより行われることができる。以下の一般的な検索機能についてさらに十分にここで説明する。
1.サーチエンジンが2つの同一ではない文書またはコンテンツのピースが基本的に同じ(即ち類似)であるか否かを決定することを助ける類似性しきい値を規定する能力。
2.文書またはコンテンツのピースについて、(類似の文書またはコンテンツのピースのアドレスにかかわりなく)類似の文書またはコンテンツのピースの最も早期の日付を発見する。
3.文書またはコンテンツのピースについて、各アドレスにおける文書の最も早期および最新の日付と、文書/コンテンツのピースに対して変更が行われた日付とを含む文書またはコンテンツのピースが存在するかまたは過去に存在したときそれらの全てのアドレスを得る。
[セクション2:コンテンツの前処理]
前処理は随意選択的であるが好ましく、「文書雑音」を減少することによって検索結果を改良するために使用される。サーチエンジンは文書のインデックス化の時に前処理を行ってもよく、また前処理は後の時間に行われてもよい。前処理は検索の問合せがサーチエンジンにより処理されている間に、随意選択的に実時間でも行われることができる。
「文書雑音」を減少する任意の前処理は本発明により使用されることができる。好ましくは以下説明する各クラスの少なくとも1つのプリプロセッサが使用される。スペース効率のよいインデックスを維持することが好ましいので、それ故、「冗長な」情報を除去し、および/またはコンテンツをまとまったコンパクトな表示に変換するために、その後のコンテンツの前処理を行うことが推奨される。
[セクション2.1:静的な前処理]
仮想的に全てのフォーマットされた(およびほとんどのフォーマットされていない)文書はコンテンツの2つのピースが基本的に同じであるか否かについて決定する目的に対して冗長である情報を含んでいる。このような情報の例は、HTMLタグの見えない部分、タグ、画像、入力フィールド、メタ情報、スクリプト、ダイナミックコンテンツ、コメント、ハイパーリンク、大文字/小文字設定、フォントタイプ、スタイルおよびサイズ、冗長の余白等である。
問題を証言する最良の方法は、幾つかの許可ツールを使用して異なる許可ツールへ作成されたHTMLページをロードし、何等の変更なしにこれを新しいファイルに保存することである。通常、文書はウェブブラウザを使用して観察するときは同一であるが、新しいファイルはオリジナルファイルとは異なっている。
静的な前処理の簡単な例は文字不感性検索を可能にするために、全ての大文字テキストを小文字に変換することである。
サーチエンジンはさらに説明する「コラージュ方式」と題する方法の1つのようなコラージュエレメントの決定に使用する方法にしたがって前処理を行うことができる。例えば構造的/階層的コラージュ方式では、別の方法では「冗長」と考えられる可能性のある幾つかの情報が保存される。例えば構造的/階層的方式はコンテンツの異なるセクションを識別するために文書の構造情報を使用する。プリプロセッサはこのようなケースを知り、関連情報をいじらない状態にすべきである。結果として同じコンテンツの前処理は異なるコラージュ方式では異なる結果を生む可能性がある。
「冗長」情報の特別な区別は主観的であり、トレードオフを有する可能性がある。例えば太字/イタリック体のフォーマット特性は(太字/イタリック体特性が異なる場合)同じテキストの識別において誤りにつながる。他方で、サーチエンジンはテキストの長い太字フォーマットのセクションが太字フォーマットのない同じテキストと比較して本当に異なると考えられるべきであるかを決定できる。サーチエンジンは前述のトレードオフを克服する最適な実行を使用する技術を用いることもできる。
[セクション2.2:ダイナミックな前処理]
フォーマット言語はしばしば同じコンテンツが幾つかの方法で特定されることを可能にする。コンテンツの本質と適切に整合するサーチエンジンの能力を改良するため、「ダイナミック」な前処理が使用されることができる。このタイプの前処理はコンテンツのピースの種々の可能な表示を幾つかの予め定められた「標準」表示へ変換することによって曖昧性を解決する。
例えばHTMLはそれぞれテーブルヘッダ、フッタ、本文を宣言するために次のタグ、即ち<thead>、<tfoot>、<tbody>を提供する。これらのエレメントが<table>エレメント内で現れる順序は問題ではなく、ヘッダは常にトップに現れ、次に本文、最後にフッタである。それ故HTMLの同じテーブルで多数の可能な表示が存在する。ダイナミックなプリプロセッサは例えば最初にヘッダ、次に本文、最後にフッタの単一の「標準」テーブル表示を選択し、2以上のこれらのタグを含んでいる任意のHTMLテーブル規定を「標準」表示へ変換しなければならない。
[セクション2.3:トランスフォーマット前処理]
同じコンテンツは異なるフォーマット言語を使用して特定されることができる。例えばリッチテキストフォーマット文書のコンテンツはHTML文書のコンテンツと同じである可能性がある。フォーマット言語間の違いのために生のファイルは異なっている。トランスフォーマット前処理がなければ、検索はクロスフォーマット検索では効率が低い可能性がある。
トランスフォーマット前処理は任意のサポートされるフォーマットを「標準」フォーマットへ変換することによって異なるフォーマット標準間の差を解決する。例えばトランスフォーマットプリプロセッサは、マイクロソフトワードとワードパーフェクトとリッチテキストフォーマットとHTML文書を、これらの最初の3つのフォーマットをHTMLへ変換することによってサポートすることができる。この場合、HTMLは選択された「標準」フォーマットである。
[セクション3:コラージュの生成]
1つの重要な概念はコンテンツのピースのセットまたはより正確には処理されたコンテンツのピースのセット(「コラージュエレメント」)として文書を観察することである。異なるビューが存在し、それ故同じ文書に対してコラージュの異なる方式が存在する可能性がある。異なるコラージュ方式から得られた情報は(単独でまたは共に)異なるサーチエンジン機能の要求を実現する。
文書およびコンテンツのピースの効率的なインデックスおよび/または検索を行うためにコラージュが生成される。コラージュは随意選択的な文書およびコラージュ属性に加えて1以上の「コラージュ方式情報」オブジェクトを含んでいる。好ましい実施形態は文書を処理するためのコラージュ方式の3つの示唆されたタイプのうち少なくとも1つを実行することができる。各コラージュ方式は文書に属することが可能でコラージュに含まれる特有のコラージュ方式情報を生成する。コラージュ方式情報は方式の属性に加えてコラージュエレメントおよび/またはサブコラージュを含んでいる。
以下のセクションではコラージュのデータ構造、コラージュ方式情報、コラージュエレメント、基礎をなす基本的なアルゴリズムの「ボトムアップ」説明を行う。
[セクション3.1:コラージュエレメント]
コラージュエレメントはコンテンツの一部を表すために使用されるデータ構造である。コラージュエレメントはこのようなコンテンツの一部についての同一物の整合を発見するために使用される。
コラージュエレメントはコンテンツのピースまたは完全な文書を処理しながら、種々のコラージュ方式により生成される。コラージュエレメントは非常に小さいスペースを消費するように設計され、スペースが効率的なインデックスが生成されることを可能にする。
コラージュエレメントは以下説明する高速度の参照と検索アルゴリズムの問合せ処理のための「アンカー」として作用する。
コラージュエレメントは、コンテンツの要約と、親コラージュ方式リンクとを含んでおり、
I.コンテンツの要約について:この値はインデックスおよび検索のためのコラージュエレメントキーである。これは仮想的に任意のインデックス化方法(ハッシュテーブル、B-ツリー等)を使用してインデックスされることができる。
コンテンツスペースCを幾つかの要約スペースSへマップする任意の決定性機能CSが与えられた文書またはコンテンツのピースに対するコンテンツ要約を計算するために使用されることができる。決定論要求はCSが全ての実行において同じコンテンツで同じ結果を生じることを意味している。
好ましくは、CSの結果はSで均一に分配され、これは誤−正のエラーの確率を最小にまで減少する。
好ましくは、Sの選択は以下の考察を考慮する。
a)コンテンツスペースの予測されるサイズ、
b)Sのメンバーが少ない数のビットにより表されることができるようにSは好ましくは小さくあるべきであり、
c)要約スペースのサイズが減少するとき、誤−正のエラーの確率が増加するので、Sは非常に小さくあるべきではない。
ハッシュ機能がコンテンツの要約値を計算するために使用されることができる。コンテンツ要約機能の値サイズおよび方法選択についての以下の解析セクションを参照する。
別の可能なコンテンツの要約機能は辞書ベースであり、コンテンツのピースはアーカイブされ、特有のIDを得る。コンテンツの要約機能はコンテンツのピースの全ての重複をその特有のIDにマップする。
好ましくは、スライディングウィンドウ方法(以下を参照)を使用する検索方法の性能を改良するために、コンテンツの要約値はスライディングウィンドウが移動するとき、一定時間に計算し直されることのできるコンテンツの要約機能を使用して計算される必要がある(即ち再計算の複雑性はステップサイズの関数であってもよいが、スライディングウィンドウのサイズとは独立である)。
II.親コラージュ方式リンクについて、技術的に種々の方法で表され実行されることのできるこのリンクは、コラージュエレメントの親コラージュ方式情報オブジェクトへアクセスを行う。これは随意選択的(直接的または間接的)に行うことができる。
a.コラージュ方式情報内のコラージュエレメントの相対的な位置。例えば頁の第2段落の最後の表の第5欄3行のセルとしてこれを識別する。
b.方式における他のコラージュエレメントに対するアクセス。

この例は構造的/階層的コラージュ方式のコラージュエレメントについての可能な親コラージュ方式情報リンク表示を示している(以下を参照)。即ち階層のK番目のレベルにあるコラージュエレメントに対しては形態‘<parent Collage Scheme InformatIon Unique ID>.<Level 0 Element ordinal number>…<Level K element ordinal number>’の値のストリングである。順序数は同じレベルの他のエレメントから弁別するエレメントの特有の通し番号である。
a.コラージュ方式情報の特有のIDはコラージュエレメントの親コラージュ方式情報にアクセスを行う。
b.ストリングはコラージュ方式内のコラージュエレメントの相対位置を規定する。
c.これらの親コラージュ方式情報リンクストリングのインデックスはその方式の他のコラージュエレメント、即ち全てのエレメント、近傍エレメント、同じまたは他のブランチ上の階層の他のレベルのエレメント等の簡単な検索を可能にする。
典型的なHTML文書では、この表示は(コラージュ方式情報IDを除いて)他のフィールドのビット消費が低く、典型的なHTMLでは文書階層のレベルが少ないのでコンパクトでなければならない。
随意選択的に、コンテンツの要約値との誤−正の整合のリスクを減少させるために、コラージュエレメントはコンテンツ属性とランダムマスクハッシュを含んでいる。
III.コンテンツ属性について、バイトにおけるコンテンツサイズのような簡単な属性を比較することは、誤−正の整合のリスクを劇的に減少することができる。コンテンツサイズは整合のカバー(以下説明する)を計算するために必要とされる可能性があり、それは類似性しきい値特性(以下説明する)を行うために必要とされる。
IV.ランダムマスクハッシュについて、選択されたコンテンツ要約機能の幾つかの体系的問題から生じる誤−正の結果を防止するために、ダブルチェックハッシュコードをコラージュエレメントに付加することが可能である。ハッシュの均一な分配の実現を助けるために、(例えばXOR機能を使用して)コンテンツを擬似ランダムデータによってマスクし、結果的なデータのハッシュを計算することが可能である。擬似ランダムシリーズのシードと結果的なハッシュ値をセーブすることだけが必要とされる。
[コラージュエレメントサイズの例]
1.コンテンツの要約:128ビット、
2.親コラージュ方式情報リンク:64ビットのコラージュ方式ID、
3.コンテンツサイズ:32ビット。
総サイズは224ビット=28バイトである。このサイズは選択されたインデックス方法にしたがうインデックスデータ構造サイズを除外している。
[セクション3.1.1:コンテンツの要約の解析]
コンテンツの要約機能の慎重な選択は、検索の効率と計算の複雑性と誤−正エラーのレベルに影響するので、コラージュの良好な構成にとって重要である。
[セクション3.1.2:要約値サイズの決定]
(ビットによる)要約値サイズはコラージュエレメントのスペースのサイズにより決定されなければならない。均一な分配コンテンツの要約機能を仮定すると、誤−正エラーの確率は(文書スペースに対して生成されたコラージュエレメントの総数)/(コンテンツの要約スペースのサイズ)である。
これを随意選択的なコンテンツ属性および/またはランダムマスクハッシュと組み合わせることによってさらに一層この確率を減少させることができる。
例えば現在のインターネットサーチエンジンは100億未満の文書の文書スペースをインデックスする。(経歴バージョンを含めた)単位文書当り1000個以下のコラージュエレメントの平均を仮定すると、全部で244個以下のコラージュエレメントが存在する。O(n)複雑性を有する128ビットのハッシュ関数は誤−正エラーの実際上ゼロの確率(2−84または10−25未満)を有する。
[セクション3.2:コラージュ方式]
コラージュ方式はコンテンツ処理の方法であり、これは文書またはコンテンツのピースをコラージュ方式情報へコンパイルする。コラージュ方式情報はコラージュエレメント、サブコラージュ、ならびに他の方式およびコラージュ関連情報を含むことができる。
1よりも多くのコラージュ方式が文書またはコンテンツのピースを処理するために使用されることができる。
文書内の異なるコラージュ方式により処理されるコンテンツの範囲はオーバーラップされおよび/または入れ子にされることができる。以下のことが可能である。
1.異なるコラージュ方式を使用して、同じコンテンツのピースまたは文書全体を処理すること、
2.異なるコラージュ方式を使用して、異なるコンテンツのピースまたは文書の異なるセクションを処理すること、
3.別のコラージュ方式のサブコラージュ内のコラージュ方式を使用すること。コラージュ方式Aはそれが処理しているコンテンツのピース/文書の一部を処理するためにコラージュ方式Bを使用することができる。コラージュ方式Bにより生成されるコラージュ方式情報はコラージュ方式Aにより生成されるコラージュ方式情報のサブコラージュにリンクされる。
任意のコラージュ方式は処理方法を規定する。他の方法で特定されないならば、その方式は文書の任意のレベル/範囲で使用されることができる。例えば文書全体を処理するだけでなく、特別なテーブルエレメントまたは特別な段落を処理するためにも有用であろう。
ここで使用されているように、一般用語「コンテンツ」は種々のコラージュ方式により処理されるコンテンツの任意のピースまたは文書全体を意味している。
コラージュ方式情報は任意のコラージュ方式により生成された主要データである。コラージュ方式情報は技術的に種々の方法で表されることができ、別々のデータ構造として記憶されるか、他のデータ構造、例えばコラージュ情報データ構造中に組み込まれることができる。簡潔にするために、この説明では別々のデータ構造として観察する。
以下の情報はコラージュ方式により生成されることができる。
1.コラージュ方式属性:これらはコラージュ方式、例えばコラージュ方式のタイプについての任意の関連情報を含んでいる。
2.コラージュエレメントおよびサブコラージュ:これらはコラージュ方式により生成されるコラージュエレメントおよびサブコラージュ情報(またはこのようなエレメント/サブコラージュ情報へのリンク)である。
3.親コラージュ情報リンク:これは親コラージュ情報のアクセスを可能にする。
[セクション3.2.1:構造的/階層的コラージュ方式]
構造的/階層的(SH)コラージュ方式はその文書構造に基づいてコンテンツに対するコラージュ情報を作成するために使用される。この方式の背景にある動機はそのフォーマットされた構造に基づいてコンテンツを意味のあるピースに解体することである。
SHコラージュ方式により作成されるコラージュエレメントによって、文書の種々のエレメントは、文書内を移動するときまたはこれらが異なる文書で再度現れるときでさえも、それらが含む文書のアドレスにかかわりなく迅速に観察されることが可能になる。
仮想的に任意の文書フォーマット言語は文書構造を規定するための種々の構造を有している。例えば、以下のHTMLタグ/エレメントは構造的意味を有する。
・<body>−HTML文書の本文はこのエレメントに含まれる。
・<hl>..<h6>−ヘッダタグ、
・<p>−段落エレメント、
・<br>−行の区切り
・<hr>−水平の規則
・フレームタグ、
・リストタグ、
・テーブルタグ、
・<div>と<span>−文書中のセクションの規定。
SHコラージュ方式はコンテンツのピースとサブピースを識別するためのこのような文書構造の構成を使用する再帰的方式である。再帰的プロセスは簡単である。文書エレメントにおいて、新しいコラージュエレメントが文書エレメントを表すために生成され、その種々のパラメータはポピュレートされる(以下のセクション3.2.3の簡単なコラージュ方式を参照)。さらに、または単一のコラージュエレメントの生成の代わりに、文書エレメントのサブコラージュ情報を生成するために1以上の異なるコラージュ方式(例えばフラットコラージュ方式)を使用して文書エレメントを処理することが可能である。文書および文書エレメント特性に基づいて、文書エレメントを処理する方法(例えばサイズが幾つかのしきい値を超えるエレメントにのみフラットコラージュ方式を使用する)をダイナミックに決定することさえも可能である。文書エレメントはSH方式を使用して構造的なサブエレメントを検出するためにパーズ(parse)されることもできる。このパーズはプロセスの速度を高めるために前もって(例えば文書全体で一度)行われることができる。サブエレメントは再帰的に処理される。
結果的なコラージュエレメントはツリー構造(同型−再帰ツリー)を形成するので観察されることができる。前述したように、情報はその親コラージュ方式情報と方式の他のコラージュエレメントへのアクセスを促すために、およびルートからコラージュエレメントまでのツリーパスを決定するためにコラージュエレメントに記憶されることができる。
好ましくは、サーチエンジンは例えば小さいサイズのエレメント等の種々の規準に基づいて、再帰の深さを限定し、および/またはエレメントへの再帰を防止すべきである。好ましくは、サーチエンジンは種々の規準に基づいて異なる方法を使用して異なる文書エレメントを処理することができ、例えば短いエレメントは単一のコラージュエレメントを生成するように処理されることができ、長いエレメントはフラットコラージュ方式を使用して処理されることができる。
[セクション3.2.2:フラットコラージュ方式]
大きいコンテンツは時間の経過と共に僅かな変化を受けやすい。このような変化には比較的小さい挿入、消去、コンテンツの一部の置換が含まれている。
フラットコラージュ方式により、所定の幾つかのコンテンツがコンテンツの類似のピースを迅速に参照できることを可能にするインデックスを生成できる。
フラットコラージュ方式はインデックス化と、セクション5の検索および整合のための基本的に異なる手順(即ちスライディングウィンドウ機構)を使用する。これはここではインデックス化および検索プロセスが文書構造をパーズするための類似の手順であるSHコラージュ方式と対照的である。
以下は、フラットコラージュ方式のデータベース情報を生成するための手順についてである(検索手順について以下を参照)。
1.コラージュ方式情報がフラットコラージュについて生成される。
2.コンテンツのピースが決定論プロセスを使用してブロックに分割される(例えば固定されたサイズのブロック)。
3.コラージュエレメントが前述のコンテンツ要約機能の1つを使用して各ブロックに対して作成される。
[セクション3.2.3:簡単なコラージュ方式]
この方式は全体的なコンテンツのピースまたは文書に対する簡単なコラージュエレメントを生成する。
短いコンテンツのピースに対しては有用であり、他のコラージュ方式がコンテンツについて計算されないときにデフォルト方式として使用されることができる。
[セクション3.3:コラージュ]
コラージュ情報は文書またはコンテンツのピースについてのコラージュ生成データを含んでいる。コラージュ情報は便宜性のために別々のデータ構造であることが好ましいが、これは種々の方法で表され構成されることができ、例えば情報はコラージュ方式情報および/またはコラージュエレメントと共に記憶されることができる。さらに、例えば検索プロセスの速度を上げるためにこの情報を他の場所に記憶する利点も存在しうる。
コラージュ情報データ構造エレメントは以下のカテゴリに入る。即ち、
1.処理された文書の属性、
2.文書に対するコラージュ処理結果。
必要とされる年代決定と追跡機能をサポートするために、コラージュ情報は以下の処理された文書属性を含むべきである。
I.データ属性(文書レベルのコラージュのみ):処理時に知られる処理された文書の日付。この値はインデックスおよび検索のためのキーである。1以上の方法が文書の日付を決定するために使用されることができる。さらにこの属性は例えば文書作成日、文書変更日、最後にアクセスした日、サーチエンジンにより最後にビジットした日等の多数のデータ値からなることができる。
II.文書アドレス(文書レベルのコラージュのみ):処理されたときの文書のアドレス(即ちウェブのコンテキスト中のそのURL)。この値はインデックスおよび検索のためのキーである。
III.コラージュ方式:(文書の一部を処理するために使用されたコラージュ方式の場合)随意選択的にそれらのそれぞれの処理範囲を有する文書の処理に使用される全てのコラージュ方式情報オブジェクト(またはこのようなオブジェクトへのリンク)。
新しいコラージュ情報オブジェクトの生成は率直である。
1.文書またはコンテンツのピースを考慮して、新しいコラージュ情報オブジェクトを生成する。文書に対して、文書情報によりコラージュ情報文書属性をポピュレートする。
2.文書を処理し、結果的なコラージュ方式情報オブジェクトをコラージュ情報へ付加/リンクするために1以上のコラージュ方式を使用する。使用するコラージュ方式の決定はコンテンツ特性に基づいて、任意にまたはダイナミックに行われることができる。
[セクション4.1:文書のインデックス化−新しいコラージュの記憶]
文書の処理の結果はコラージュ情報である。コラージュ情報は1以上のコラージュ方式情報オブジェクトにリンクするかそれらを含むことができ、それらはそれぞれコラージュエレメントおよび/またはサブコラージュにリンクするかそれらを含んでいる。
コラージュ情報は関連情報アイテムに高速度でアクセスするためにインデックス化される必要がある。これは特定の構成を選択するための多くの手段および方法で技術的に行われることができ、構成により維持される実際のデータ構造にしたがう。
ここで説明するような好ましい抽象を使用して、インデックス化は以下の手順を用いて行われることができる。
A.新しいコラージュのURLにより既存のコラージュをサーチおよび検索する。これはインデックスが既に現在インデックスされているコラージュの同じURLによりアドレスされた1以上のコラージュを含んでいるか否かを決定する。2以上が発見されたならば、新しいコラージュを(検索されたコラージュの日付情報に基づいて)最も最近インデックスされたコラージュと比較する。新しいコラージュと以前のコラージュが(日付を除いて)同じならば、以下の事項のいずれかを行う(いずれを選択するかの決定は構成に依存している)。
1.(ビジット日が問題ではなく、変更日だけを思い出すことが必要である場合)新しいコラージュを記憶およびインデックス化しないで、終了し、または、
2.(例えば最後のビジット日を保存するため)既存のコラージュの日付を更新し終了し、または、
3.(サーチエンジンの新しいビジット日として)既存のコラージュに新しい日付を付加し、終了し、または、
4.インデックスから既存のコラージュを消去し、ステップBへ継続する。
B.同じURLにアドレスされた新しいコラージュと以前のコラージュが同じではないならば(または前述の選択肢4が選択されたならば)新しいコラージュ構造に対する参照をインデックスに付加する。全ての記憶されたコラージュオブジェクトはオブジェクト参照を使用して高速度の検索を可能にするためにインデックス化される必要がある。さらに、それらを含んでいるオブジェクトを高速度で検索するために以下のデータアイテムをインデックス化することが推奨される。
1.文書属性:
i.文書アドレス
ii.文書データ情報
2.コラージュエレメント:
iii.コンテンツの要約
サーチエンジンは基本的に文書が時間の経過と共に進化するので単一の文書の種々のバージョンのコラージュ情報を記憶しインデックス化する(文書の異なるバージョンは単一のURLアドレスに関連されることができるが、文書の最も最近のバージョンだけがウェブをブラウズするユーザにアクセス可能である)。さらに、サーチエンジンは文書のURLが依然としてアクチブであるか否かにかかわりなく、所定の文書に対するコラージュ情報を記憶しインデックス化し続ける。これは、以前にインデックス化されたコンテンツのピースが現在その経歴URLを使用してウェブ上でアクセス可能であるか否かにかかわりなく、特定のコンテンツのピースがウェブ上に以前に存在したか否か(したがって早期のデータは関連される)を決定する能力を提供する意味で有効である。
[セクション4.2:インデックスからコラージュを消去する]
コラージュおよびコラージュ方式情報と、コラージュエレメントとは小さいサイズであるように設計されることが好ましく、したがってそれを非常に多数記憶することを可能にし、それ故仮想的に限定されない年代決定および追跡能力を提供する。
これらの小さいサイズにかかわらず、コラージュアイテムは好ましくは永遠に累積されるべきではない。それ故、幾つかの段階で、アイテムをインデックスから消去することが必要とされる。
明らかに、それぞれのこのような消去は情報を失う。それ故消去プロセスは好ましくはコラージュエレメント、コラージュ方式情報オブジェクト、コラージュ情報オブジェクトを作成日ではなくそれらの重要度により優先順位付けする。重要度評価の決定方法は構成により特定される。
消去プロセス自体は簡単であり、単に重要性の少ないコラージュ情報オブジェクトと、全てのそのコラージュ方式情報オブジェクトと、コラージュエレメントおよびサブコラージュをデータベースから消去することである。
例えば作成日を発見することが構成の主な使用であるならば、文書アドレスの最初の日付のコラージュを消去しないことが好ましい。
[セクション5:コラージュの検索および整合方法]
このセクションは基本的なコンテンツの整合手順を特定する。典型的に、このセクションで説明する手順はインデックス中に含まれる文書とコンテンツのピース間の類似性を決定するために使用される。例えばサーチエンジンは新しいURLで今日最初に発見された文書が実際に(現在、ウェブ上でもはやアクセス可能ではない可能性がある)経歴文書で最初に発見された幾つかのエレメントを含んでいることを決定できる。経歴的文書は異なるURLによりアクセスされることもできる。整合するエレメントが新しい文書の実質的な部分であるならば、サーチエンジンは経歴文書の日付を新しい文書に含めることができる。検索および整合の計算は好ましくはインデックス中の各文書に対して行われ、サーチエンジンは結果としてインデックス中の各文書の最初の日付情報を発生する。この発生されたデータは他の文書情報と共にインデックスデータベース中に記憶されることができる。その代わりに、サーチエンジンは文書について実時間の検索および整合の計算を行うことができ、これらの文書は検索の問合せに応答して返送される。
[セクション5.1:簡単な検索]
この検索技術は単一のコラージュエレメントの整合のみを発見する。
1.所定の文書またはコンテンツのピースを随意選択的に前処理する(このような文書またはコンテンツが以前に前処理されておらず、サーチエンジンによりインデックス化されていない場合)。
2.全体的なコンテンツに対する単一のコラージュエレメントを計算する。
3.(等しいコンテンツの要約と、随意選択的に等しいコンテンツ長と他の整合属性を有する)全ての整合するコラージュエレメントを検索する。
[セクション5.2:構造ベースの検索]
構造ベースの検索はSHコラージュ方式(前述の説明を参照)により行われるものと同じ文書走査動作を行う。文書構造階層の各レベルで、SHコラージュ方式により発生されている可能性のあるコラージュエレメントの全ての可能性について検索する。
1.所定の文書またはコンテンツのピースを随意選択的に前処理する(このような文書またはコンテンツが以前に前処理されておらず、サーチエンジンによりインデックス化されていない場合)。
2.(セクション3.2.1で前述したように)コンテンツをその上位構造エレメントに分割する。
3.このような構造エレメントが2より少なければ、空の結果セットと共に戻る(このレベルでは文書の構造的な区画化はない)。
4.各構造エレメント(「コンテンツのピース」)について、
a.簡単な検索(前述のセクション5.1参照)を使用してコンテンツのピースの整合するコラージュエレメントを検索し、結果セットへ付加する。
b.スライディングウィンドウ検索(以下のセクション5.3参照)を使用してコンテンツのピースの整合するコラージュエレメントを検索し、結果セットへ付加する。
c.コンテンツのピースについて反復的に構造ベースの検索を行い、戻された結果を結果セットへ付加する。
5.結果セットを戻す。
[セクション5.3:スライディングウィンドウ検索]
スライディングウィンドウ検索は整合するサブセクションについて長い文書またはコンテンツのピース(「コンテンツ」)を走査するために使用される。
固定されたサイズのウィンドウはコンテンツに沿って移動される。ウィンドウサイズはフラットコラージュ方式のブロックサイズを決定する方法と同じ方法により決定される。
可能な各ウィンドウ位置では、コンテンツの要約はウィンドウ境界内のコンテンツのセクションについて計算され、フラットコラージュ方式により発生された整合するコラージュエレメントが検索される。
[セクション5.4:整合カバー計算]
幾つかの検索方法は類似性検索をサポートする。整合カバーは特定の文書またはコンテンツのピースまたはインデックス中の他のコンテンツ間の類似の程度を計量する手段を提供する。
整合カバーは特定のコンテンツ(即ち整合を発見するため検索がインデックス内で行われるコンテンツであり、ここでは「検索されるコンテンツ」と呼ぶ)とインデックス中の他のコンテンツとの間の類似性を表している。コンテンツの各ピースはインデックス化されたコラージュオブジェクト(コラージュ情報オブジェクト、コラージュ方式情報オブジェクトまたはコラージュエレメント)のような「ルートオブジェクト」により表される。整合カバーが計算されるコンテンツはコラージュオブジェクトのルートオブジェクトのサブツリーの範囲のコンテンツである。
整合カバーを計算するため、整合するコラージュエレメント(そのコンテンツが検索されたコンテンツとインデックス化されたコンテンツの両者に存在するエレメント)のセットは検索機能により発見されなければならない。整合カバーは単一のコラージュと関連されるインデックス中に含まれる整合するコラージュエレメントのセットに対して、検索されたコンテンツについて行われる。換言すると、整合カバーは別のコンテンツのピース/文書に対して、コンテンツのピース/文書の類似性または非類似性を評価する。
整合カバーは類似するコンテンツに対して高いスコアを与える任意の合理的な方法で計算されることができる。
例えば整合カバーは次の方法で計算されることができる。
1.整合サイズをインデックスされた内容に含まれる整合エレメントのサイズの合計にする。
2.合計の集合セットを検索されるコンテンツとインデックス化されるコンテンツの合計集合とする。合計集合セットのサイズは検索されるコンテンツのサイズ+インデックスされるコンテンツのサイズ−(両セットのオーバーラップするサブセットである)整合サイズである。
3.整合カバーは合計集合セットのサイズにより割算された整合サイズである。
[セクション5.5:最良の親整合カバー]
各異なる検索方法(前述のセクション5.1−5.3参照)は整合するコラージュエレメント、即ち検索されるコンテンツと1以上のインデックスされた文書の両者に存在するコンテンツのピースを集める、
文書の最良の親整合カバーはその任意の連続的なセクションが有する最高の整合カバーとして規定される。
最良の親整合カバーアルゴリズムは特定の整合するコラージュエレメント(「アンカーエレメント」)を含む最良の整合する連続的セクションを発見する。それ故、整合するコラージュエレメントを含んだ全ての文書の整合カバーを発見するために全ての整合するコラージュエレメントについて多数回実行されてもよい。
最良の親整合カバーアルゴリズムは、コラージュツリールートまで、所定のアンカーエレメントから「ズームアウト」し、その親ツリーエレメントのそれぞれの整合カバーを計算するために前述のセクション3で説明した方法により生成されるコラージュツリーを使用する。コラージュツリーを上ることにより、「検索されるコンテンツ」に対して評価されているコンテンツのサイズは増加する。このサイズの増加は整合カバー値の増加または減少に影響しうる。それ故、これは各親(即ちツリーレベルまたはノード)の整合カバーを計算し直すためのオブジェクトであり、最良の適合(即ち整合カバー値が最高である親ツリーオブジェクト)が選択される。
最良の親整合カバーアルゴリズムは:
整合するコラージュエレメントとアンカーエレメントの集収について、アンカーエレメントとその親文書レベルコラージュ間のコラージュツリーパスを通ってループする。パス上の各コラージュオブジェクトはルートオブジェクトとしてパスオブジェクトを使用して整合カバーを計算する。最高の計算された整合カバーを戻す。
[セクション6:コラージュ検索および整合方法に基づく機能]
以下のセクションは有用な機能を与えるために前述した基本的な検索および整合方法の使用方法を示す。
[セクション6.1:文書またはコンテンツのピースのもとの日付の検索]
以下のセクションは所定のコンテンツのピースの最も早期の日付を検索する方法を説明している。
1.ここでは文書またはコンテンツのピースを「コンテンツ」と呼ぶ。
2.整合するコラージュエレメント、即ち全てのコラージュ検索および整合方法(前述のセクション5を参照)を使用してコンテンツまたはそのピースのコラージュエレメントに整合するコラージュエレメントを検索する。
3.各整合するコラージュエレメントについては:
a.コラージュエレメントの最良の親整合カバー(前述のセクション5.5を参照)が所定の類似性しきい値を超えたならば、
i.コラージュエレメントの親文書レベルのコラージュを検索する。
ii.文書レベルのコラージュからの文書属性(文書の日付およびアドレス)を検索する。
4.最も早期の文書の日付を有する文書属性を返送する。
前述したように、文書の作成日を決定するための手順はインデックス中の各文書について行われることができ、このような日付情報は他の文書情報と共にインデックスデータベース中に記憶されることができる。
[セクション6.2:文書またはコンテンツのピースの追跡]
これは文書またはコンテンツのピースの経歴を追跡する。結果セットは文書またはコンテンツのピース(または類似する文書またはコンテンツのピース)が存在した日付とアドレスを含んでいる。
1.ここでは文書またはコンテンツのピースを「コンテンツ」と呼ぶ。
2.整合するコラージュエレメント、即ち全てのコラージュ検索と整合方法(前述のセクション5を参照)を使用してコンテンツのコラージュエレメントと整合するコラージュエレメントを検索する。
3.各整合するコラージュエレメントに対しては:
a.コラージュエレメントの最良の親整合カバー(先の説明を参照)が所定の類似性しきい値を超えたならば、
i.コラージュエレメントの親文書レベルのコラージュを検索する。
ii.文書レベルのコラージュからの文書属性(文書の日付およびアドレス)を検索し、結果セットへ付加する。
4.重複文書属性を結果セットから除去する。
5.結果セットを返送する。
[セクション6.3:作成日を使用する文書のセットの濾波]
ユーザが検索の問合せをサーチエンジンに依頼するとき、サーチエンジンはその検索の問合せに応答して文書のリスト(検索結果のリスト)を返送する。検索の問合せに応答する文書数は多数である可能性があり、その文書に属する種々の日付は多年間に及ぶ可能性がある。早期の日付を所定の文書に含ませる先に説明した方法(前述のセクション6.1参照)では、サーチエンジンは特定の日付範囲内にある日付を有する文書を濾波するための新しい機能を付加することができる。文書が最初に検索された日付または最後に更新された日付に基づいて日付を文書に含ませる既存のサーチエンジンとは異なり、本発明のサーチエンジンは日付を文書に含ませるのにより効率的であり、このようにして文書が最初に許可されたおおよその日付にしたがって文書を濾波することに対してより信頼性がある。
ユーザが検索の問合せをサーチエンジンに依頼するとき、その検索の問合せは日付濾波パラメータも含むことができる。サーチエンジンは最初に検索の問合せのキーワードおよび/または検索タームに応答する全ての文書の位置を突き止める。その後、サーチエンジンはセクション6.1で前述した技術を使用して、これが突き止める各文書に含まれる「早期の」日付を識別する。各文書の「早期の」日付は、文書のコラージュ情報に関連して以前に前処理され、決定され、インデックスされることができ、またはその代わりにサーチエンジンにより突き止められた各文書の日付決定は検索の問合せに応答して実時間で実行されることができる。
その後、サーチエンジンは検索結果リストを検索の問合せで特定された日付範囲内の日付に含まれる文書のみに濾波する。結果的な検索結果のリストはその後ユーザへ送信され、各文書に帰属された日付にしたがって、昇順または降順でユーザのブラウザで表示されることができる。その代わりに、サーチエンジンは濾波された検索結果リストの順序付けをするための他のランキングアルゴリズムを使用することができる。
[セクション6.4:検索用語を含むコンテンツのピースに基づいた類似性の発見]
この方法は任意のサーチエンジン結果リストのポストプロセッサとしての役目を行う。
最初に、サーチエンジンは検索の問合せに整合する文書を検索する。整合する文書について考慮すると、
1.検索されるサブ文書を、整合する検索用語を含んでいるコンテンツのピース(例えば検索の問合せで発見されたワードを含んでいるコンテンツのピース)のセットとする。
2.検索されたサブ文書に類似する文書またはコンテンツのピースを検索するためにコンテンツ追跡方法(前述のセクション6.2)を使用する。
[セクション6.5:最も類似する文書またはコンテンツのピースの発見]
これは同様にコンテンツの追跡を行うが、類似性しきい値を超過する整合カバーを有する全てのコンテンツに対する参照を返送する代わりに、最高の整合カバーを有する単一の参照コンテンツ(最も類似するコンテンツ)が戻される。
その代わりに、それらの整合カバー値に基づいて全ての整合コンテンツアイテムをランクし、そのアイテムをこのような順序で戻すことが可能である。
[セクション6.6:文書のブラウザの強化]
前述の機能は次の方法で(ソフトウェア売主によって、またはプラグインを通して)文書ブラウザ中に一体化されることができる。
文書ブラウザが文書をロードするとき、コンテンツの異なるピースおよびサブピースを識別するためにこの明細書で特定化されている1以上の解析を行う。これらのピースの全てまたは幾つかは(静的にまたはダイナミックに)(例えばマウスがその上を移動されるとき、コンテンツのピースの周辺に現れる可視の境界方形によって)マークされる。ブラウザは選択された/強調されたコンテンツのピースに対する日付情報を表示するために強化されることができる。ブラウザは整合するコンテンツのピースを有する類似文書のリストを表示するような(例えばコンテンツのピースを右クリックするときに現れるポップアップメニューを通して)選択されたコンテンツのピースに対する他の機能を実行するために強化されることができる。
[セクション7:多様]
前述したように、本発明の特徴が前述のように多くの異なる形態のソフトウェア、ファームウェア、およびハードウェアで実行されることができることが当業者に明白であろう。本発明の原理にしたがった特徴を行うために使用される実際のソフトウェアコードまたは特定化された制御ハードウェアは本発明を限定しない。したがってこの特徴の動作および態様は特定のソフトウェアコードを参照せずに説明され、当業者はここでの説明に基づいて特徴を実行するためにソフトウェアを設計しハードウェアを制御することができることが理解されよう。
この明細書に添付されている請求項は独立請求項を含んでいる。
本発明はその好ましい実施形態で説明され、本発明の種々の新規な特徴が容易に認識されたであろう。好ましい実施形態に対する種々の変形が考えられ、これは本発明の技術的範囲を逸脱せずに、ここで説明されている1以上の新規の特徴を含むことができる。
[セクション8:擬似コード]
以下の擬似コードは前述の物と実質的に類似しているアルゴリズムおよびデータ構造を示している。
Figure 2008537264
Figure 2008537264
Figure 2008537264
Figure 2008537264
Figure 2008537264
Figure 2008537264
Figure 2008537264
Figure 2008537264

Claims (1)

  1. 特有のウェブベースのアドレスを有する特定の文書の日付を決定するためにコンピュータシステムで実行される方法において、
    それぞれ特有のウェブアドレスに関連されている複数の文書に関連する情報のデータベースをコンピュータシステム中で維持し、複数の文書は対応する特有のウェブアドレスによりアクセス可能な文書と、それらの対応する特有のウェブアドレスによりアクセス可能ではない文書とを含んでおり、
    類似性しきい値に基づいて特定の文書に整合する1以上の文書に対するデータベースを検索し、整合する各文書は類似性しきい値に等しいかそれを超過し、
    検索により1以上の整合する文書が生じた場合には、
    コンピュータシステムにおいて、日付を任意の整合する文書に関連される最も早期の日付と一致する特定の文書に所属させるステップを含んでいる方法。
JP2008507781A 2005-04-18 2006-04-18 非常に大きいダイナミック文書スペース中のコンテンツを効率的に追跡および年代決定するためのシステムおよび方法 Pending JP2008537264A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US67225605P 2005-04-18 2005-04-18
PCT/US2006/014441 WO2006113644A2 (en) 2005-04-18 2006-04-18 System and method for efficiently tracking and dating content in very large dynamic document spaces

Publications (2)

Publication Number Publication Date
JP2008537264A true JP2008537264A (ja) 2008-09-11
JP2008537264A5 JP2008537264A5 (ja) 2009-06-18

Family

ID=37115828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008507781A Pending JP2008537264A (ja) 2005-04-18 2006-04-18 非常に大きいダイナミック文書スペース中のコンテンツを効率的に追跡および年代決定するためのシステムおよび方法

Country Status (8)

Country Link
US (1) US20060248063A1 (ja)
EP (1) EP1899861A4 (ja)
JP (1) JP2008537264A (ja)
AU (1) AU2006236418A1 (ja)
BR (1) BRPI0610286A2 (ja)
CA (1) CA2605252A1 (ja)
MX (1) MX2007013020A (ja)
WO (1) WO2006113644A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014038650A (ja) * 2008-10-02 2014-02-27 Naver Corp ウェブ文書原本判別方法およびウェブ文書原本判別システム、並びにウェブ文書履歴情報提供方法およびウェブ文書履歴情報提供方法システム

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8190625B1 (en) * 2006-03-29 2012-05-29 A9.Com, Inc. Method and system for robust hyperlinking
US7711786B2 (en) * 2007-08-06 2010-05-04 Zhu Yunzhou Systems and methods for preventing spam
US8775953B2 (en) 2007-12-05 2014-07-08 Apple Inc. Collage display of image projects
US7890480B2 (en) * 2008-02-11 2011-02-15 International Business Machines Corporation Processing of deterministic user-defined functions using multiple corresponding hash tables
US8326829B2 (en) * 2008-10-17 2012-12-04 Centurylink Intellectual Property Llc System and method for displaying publication dates for search results
US8874564B2 (en) * 2008-10-17 2014-10-28 Centurylink Intellectual Property Llc System and method for communicating search results to one or more other parties
US8156130B2 (en) 2008-10-17 2012-04-10 Embarq Holdings Company Llc System and method for collapsing search results
US20110320452A1 (en) * 2008-12-26 2011-12-29 Nec Corpration Information estimation apparatus, information estimation method, and computer-readable recording medium
US8001462B1 (en) 2009-01-30 2011-08-16 Google Inc. Updating search engine document index based on calculated age of changed portions in a document
US8332408B1 (en) 2010-08-23 2012-12-11 Google Inc. Date-based web page annotation
US8499073B1 (en) 2010-10-07 2013-07-30 Google Inc. Tracking content across the internet
US9298778B2 (en) * 2013-05-14 2016-03-29 Google Inc. Presenting related content in a stream of content
US9805113B2 (en) * 2013-05-15 2017-10-31 International Business Machines Corporation Intelligent indexing
US9367568B2 (en) * 2013-05-15 2016-06-14 Facebook, Inc. Aggregating tags in images
US9996629B2 (en) 2015-02-10 2018-06-12 Researchgate Gmbh Online publication system and method
EP3096277A1 (en) 2015-05-19 2016-11-23 ResearchGate GmbH Enhanced online user-interaction tracking
US10331752B2 (en) * 2015-07-21 2019-06-25 Oath Inc. Methods and systems for determining query date ranges
CN107092689A (zh) * 2017-04-24 2017-08-25 深圳市茁壮网络股份有限公司 元数据生成方法及系统
CN113204579B (zh) * 2021-04-29 2024-06-07 北京金山数字娱乐科技有限公司 内容关联方法、系统、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10228469A (ja) * 1997-02-17 1998-08-25 Canon Inc 情報処理装置及びその制御方法
JPH11250037A (ja) * 1998-02-26 1999-09-17 Sumitomo Metal Ind Ltd コンテンツ編集装置および記録媒体
JP2001306732A (ja) * 2000-04-27 2001-11-02 Toshiba Corp 原本性保証文書管理方法及び記憶媒体
JP2002182956A (ja) * 2000-12-19 2002-06-28 Hitachi Ltd 文書管理方法および装置
JP2004005075A (ja) * 2002-05-31 2004-01-08 Hitachi Ltd 電子証跡保存方法および電子証跡保存システム
JP2004086841A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 情報処理装置および方法
JP2004259296A (ja) * 2001-11-08 2004-09-16 Tatsuhiko Miyagawa 文書管理システム及び方法
WO2005004386A1 (ja) * 2003-07-07 2005-01-13 Fujitsu Limited 認証装置
US20050038787A1 (en) * 2003-08-16 2005-02-17 International Business Machines Corporation Document authentication

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4899299A (en) * 1987-12-23 1990-02-06 International Business Machines Corporation Method for managing the retention of electronic documents in an interactive information handling system
US5909677A (en) * 1996-06-18 1999-06-01 Digital Equipment Corporation Method for determining the resemblance of documents
US6182066B1 (en) * 1997-11-26 2001-01-30 International Business Machines Corp. Category processing of query topics and electronic document content topics
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6119124A (en) * 1998-03-26 2000-09-12 Digital Equipment Corporation Method for clustering closely resembling data objects
EP1006462A3 (en) * 1998-12-01 2005-03-30 Lucent Technologies Inc. A method and apparatus for persistent storage of web resources
US8001118B2 (en) * 2001-03-02 2011-08-16 Google Inc. Methods and apparatus for employing usage statistics in document retrieval
US7158961B1 (en) * 2001-12-31 2007-01-02 Google, Inc. Methods and apparatus for estimating similarity
US20050149507A1 (en) * 2003-02-05 2005-07-07 Nye Timothy G. Systems and methods for identifying an internet resource address
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US7797316B2 (en) * 2003-09-30 2010-09-14 Google Inc. Systems and methods for determining document freshness
US7689601B2 (en) * 2004-05-06 2010-03-30 Oracle International Corporation Achieving web documents using unique document locators
US8386453B2 (en) * 2004-09-30 2013-02-26 Google Inc. Providing search information relating to a document

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10228469A (ja) * 1997-02-17 1998-08-25 Canon Inc 情報処理装置及びその制御方法
JPH11250037A (ja) * 1998-02-26 1999-09-17 Sumitomo Metal Ind Ltd コンテンツ編集装置および記録媒体
JP2001306732A (ja) * 2000-04-27 2001-11-02 Toshiba Corp 原本性保証文書管理方法及び記憶媒体
JP2002182956A (ja) * 2000-12-19 2002-06-28 Hitachi Ltd 文書管理方法および装置
JP2004259296A (ja) * 2001-11-08 2004-09-16 Tatsuhiko Miyagawa 文書管理システム及び方法
JP2004005075A (ja) * 2002-05-31 2004-01-08 Hitachi Ltd 電子証跡保存方法および電子証跡保存システム
JP2004086841A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 情報処理装置および方法
WO2005004386A1 (ja) * 2003-07-07 2005-01-13 Fujitsu Limited 認証装置
US20050038787A1 (en) * 2003-08-16 2005-02-17 International Business Machines Corporation Document authentication

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014038650A (ja) * 2008-10-02 2014-02-27 Naver Corp ウェブ文書原本判別方法およびウェブ文書原本判別システム、並びにウェブ文書履歴情報提供方法およびウェブ文書履歴情報提供方法システム
US9477769B2 (en) 2008-10-02 2016-10-25 Nhn Corporation Method and system for detecting original document of web document, method and system for providing history information of web document for the same

Also Published As

Publication number Publication date
WO2006113644A3 (en) 2007-11-15
MX2007013020A (es) 2008-03-18
CA2605252A1 (en) 2006-10-26
EP1899861A2 (en) 2008-03-19
US20060248063A1 (en) 2006-11-02
BRPI0610286A2 (pt) 2010-06-08
AU2006236418A1 (en) 2006-10-26
EP1899861A4 (en) 2010-09-22
WO2006113644A2 (en) 2006-10-26

Similar Documents

Publication Publication Date Title
JP2008537264A (ja) 非常に大きいダイナミック文書スペース中のコンテンツを効率的に追跡および年代決定するためのシステムおよび方法
US20110093771A1 (en) System and method for superimposing a document with date information
JP4944406B2 (ja) フレーズに基づく文書説明の生成方法
JP5175005B2 (ja) 情報検索システムにおけるフレーズに基づく検索方法
US7370061B2 (en) Method for querying XML documents using a weighted navigational index
US6615209B1 (en) Detecting query-specific duplicate documents
US8606778B1 (en) Document ranking based on semantic distance between terms in a document
JP4944405B2 (ja) 情報検索システムにおけるフレーズに基づくインデックス化方法
US8682891B2 (en) Automatic object reference identification and linking in a browseable fact repository
JP4976666B2 (ja) 情報検索システムにおけるフレーズ識別方法
EP1934823B1 (en) Click distance determination
US20160098405A1 (en) Document Curation System
US20130232157A1 (en) Systems and methods for processing unstructured numerical data
US20070067304A1 (en) Search using changes in prevalence of content items on the web
US20110119262A1 (en) Method and System for Grouping Chunks Extracted from A Document, Highlighting the Location of A Document Chunk Within A Document, and Ranking Hyperlinks Within A Document
US20090187550A1 (en) Specifying relevance ranking preferences utilizing search scopes
US20080313178A1 (en) Determining searchable criteria of network resources based on commonality of content
JP5187313B2 (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
WO2007143666A2 (en) Element query method and system
US8423885B1 (en) Updating search engine document index based on calculated age of changed portions in a document
JP2004054588A (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
US20110252313A1 (en) Document information selection method and computer program product
US20110022591A1 (en) Pre-computed ranking using proximity terms
Long et al. Crawling Deep Web Data Based on Three-stage Template
Keyaki et al. Fast incremental indexing with effective and efficient searching in XML element retrieval

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090420

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111102

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120327