JP2008537264A - 非常に大きいダイナミック文書スペース中のコンテンツを効率的に追跡および年代決定するためのシステムおよび方法 - Google Patents
非常に大きいダイナミック文書スペース中のコンテンツを効率的に追跡および年代決定するためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2008537264A JP2008537264A JP2008507781A JP2008507781A JP2008537264A JP 2008537264 A JP2008537264 A JP 2008537264A JP 2008507781 A JP2008507781 A JP 2008507781A JP 2008507781 A JP2008507781 A JP 2008507781A JP 2008537264 A JP2008537264 A JP 2008537264A
- Authority
- JP
- Japan
- Prior art keywords
- collage
- document
- content
- search
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
【選択図】なし
Description
サーチエンジンはロボット/スパイダを使用するウェブのようなダイナミック文書スペースから情報を検索し、即ち連続的に文書スペースを走査し、文書を検索し、文書中で発見されたコンテンツを処理し、ユーザ特定の検索規準に整合する文書の高速度な検索を可能にするためにサーチエンジンのインデックスを更新するソフトウェアエージェントである。
1.サーチエンジンが2つの同一ではない文書またはコンテンツのピースが基本的に同じ(即ち類似)であるか否かを決定することを助ける類似性しきい値を規定する能力。
2.文書またはコンテンツのピースについて、(類似の文書またはコンテンツのピースのアドレスにかかわりなく)類似の文書またはコンテンツのピースの最も早期の日付を発見する。
3.文書またはコンテンツのピースについて、各アドレスにおける文書の最も早期および最新の日付と、文書/コンテンツのピースに対して変更が行われた日付とを含む文書またはコンテンツのピースが存在するかまたは過去に存在したときそれらの全てのアドレスを得る。
前処理は随意選択的であるが好ましく、「文書雑音」を減少することによって検索結果を改良するために使用される。サーチエンジンは文書のインデックス化の時に前処理を行ってもよく、また前処理は後の時間に行われてもよい。前処理は検索の問合せがサーチエンジンにより処理されている間に、随意選択的に実時間でも行われることができる。
仮想的に全てのフォーマットされた(およびほとんどのフォーマットされていない)文書はコンテンツの2つのピースが基本的に同じであるか否かについて決定する目的に対して冗長である情報を含んでいる。このような情報の例は、HTMLタグの見えない部分、タグ、画像、入力フィールド、メタ情報、スクリプト、ダイナミックコンテンツ、コメント、ハイパーリンク、大文字/小文字設定、フォントタイプ、スタイルおよびサイズ、冗長の余白等である。
フォーマット言語はしばしば同じコンテンツが幾つかの方法で特定されることを可能にする。コンテンツの本質と適切に整合するサーチエンジンの能力を改良するため、「ダイナミック」な前処理が使用されることができる。このタイプの前処理はコンテンツのピースの種々の可能な表示を幾つかの予め定められた「標準」表示へ変換することによって曖昧性を解決する。
同じコンテンツは異なるフォーマット言語を使用して特定されることができる。例えばリッチテキストフォーマット文書のコンテンツはHTML文書のコンテンツと同じである可能性がある。フォーマット言語間の違いのために生のファイルは異なっている。トランスフォーマット前処理がなければ、検索はクロスフォーマット検索では効率が低い可能性がある。
1つの重要な概念はコンテンツのピースのセットまたはより正確には処理されたコンテンツのピースのセット(「コラージュエレメント」)として文書を観察することである。異なるビューが存在し、それ故同じ文書に対してコラージュの異なる方式が存在する可能性がある。異なるコラージュ方式から得られた情報は(単独でまたは共に)異なるサーチエンジン機能の要求を実現する。
コラージュエレメントはコンテンツの一部を表すために使用されるデータ構造である。コラージュエレメントはこのようなコンテンツの一部についての同一物の整合を発見するために使用される。
I.コンテンツの要約について:この値はインデックスおよび検索のためのコラージュエレメントキーである。これは仮想的に任意のインデックス化方法(ハッシュテーブル、B-ツリー等)を使用してインデックスされることができる。
a)コンテンツスペースの予測されるサイズ、
b)Sのメンバーが少ない数のビットにより表されることができるようにSは好ましくは小さくあるべきであり、
c)要約スペースのサイズが減少するとき、誤−正のエラーの確率が増加するので、Sは非常に小さくあるべきではない。
a.コラージュ方式情報内のコラージュエレメントの相対的な位置。例えば頁の第2段落の最後の表の第5欄3行のセルとしてこれを識別する。
b.方式における他のコラージュエレメントに対するアクセス。
この例は構造的/階層的コラージュ方式のコラージュエレメントについての可能な親コラージュ方式情報リンク表示を示している(以下を参照)。即ち階層のK番目のレベルにあるコラージュエレメントに対しては形態‘<parent Collage Scheme InformatIon Unique ID>.<Level 0 Element ordinal number>…<Level K element ordinal number>’の値のストリングである。順序数は同じレベルの他のエレメントから弁別するエレメントの特有の通し番号である。
a.コラージュ方式情報の特有のIDはコラージュエレメントの親コラージュ方式情報にアクセスを行う。
b.ストリングはコラージュ方式内のコラージュエレメントの相対位置を規定する。
c.これらの親コラージュ方式情報リンクストリングのインデックスはその方式の他のコラージュエレメント、即ち全てのエレメント、近傍エレメント、同じまたは他のブランチ上の階層の他のレベルのエレメント等の簡単な検索を可能にする。
III.コンテンツ属性について、バイトにおけるコンテンツサイズのような簡単な属性を比較することは、誤−正の整合のリスクを劇的に減少することができる。コンテンツサイズは整合のカバー(以下説明する)を計算するために必要とされる可能性があり、それは類似性しきい値特性(以下説明する)を行うために必要とされる。
1.コンテンツの要約:128ビット、
2.親コラージュ方式情報リンク:64ビットのコラージュ方式ID、
3.コンテンツサイズ:32ビット。
総サイズは224ビット=28バイトである。このサイズは選択されたインデックス方法にしたがうインデックスデータ構造サイズを除外している。
コンテンツの要約機能の慎重な選択は、検索の効率と計算の複雑性と誤−正エラーのレベルに影響するので、コラージュの良好な構成にとって重要である。
(ビットによる)要約値サイズはコラージュエレメントのスペースのサイズにより決定されなければならない。均一な分配コンテンツの要約機能を仮定すると、誤−正エラーの確率は(文書スペースに対して生成されたコラージュエレメントの総数)/(コンテンツの要約スペースのサイズ)である。
コラージュ方式はコンテンツ処理の方法であり、これは文書またはコンテンツのピースをコラージュ方式情報へコンパイルする。コラージュ方式情報はコラージュエレメント、サブコラージュ、ならびに他の方式およびコラージュ関連情報を含むことができる。
1.異なるコラージュ方式を使用して、同じコンテンツのピースまたは文書全体を処理すること、
2.異なるコラージュ方式を使用して、異なるコンテンツのピースまたは文書の異なるセクションを処理すること、
3.別のコラージュ方式のサブコラージュ内のコラージュ方式を使用すること。コラージュ方式Aはそれが処理しているコンテンツのピース/文書の一部を処理するためにコラージュ方式Bを使用することができる。コラージュ方式Bにより生成されるコラージュ方式情報はコラージュ方式Aにより生成されるコラージュ方式情報のサブコラージュにリンクされる。
1.コラージュ方式属性:これらはコラージュ方式、例えばコラージュ方式のタイプについての任意の関連情報を含んでいる。
2.コラージュエレメントおよびサブコラージュ:これらはコラージュ方式により生成されるコラージュエレメントおよびサブコラージュ情報(またはこのようなエレメント/サブコラージュ情報へのリンク)である。
3.親コラージュ情報リンク:これは親コラージュ情報のアクセスを可能にする。
構造的/階層的(SH)コラージュ方式はその文書構造に基づいてコンテンツに対するコラージュ情報を作成するために使用される。この方式の背景にある動機はそのフォーマットされた構造に基づいてコンテンツを意味のあるピースに解体することである。
・<body>−HTML文書の本文はこのエレメントに含まれる。
・<hl>..<h6>−ヘッダタグ、
・<p>−段落エレメント、
・<br>−行の区切り
・<hr>−水平の規則
・フレームタグ、
・リストタグ、
・テーブルタグ、
・<div>と<span>−文書中のセクションの規定。
大きいコンテンツは時間の経過と共に僅かな変化を受けやすい。このような変化には比較的小さい挿入、消去、コンテンツの一部の置換が含まれている。
2.コンテンツのピースが決定論プロセスを使用してブロックに分割される(例えば固定されたサイズのブロック)。
3.コラージュエレメントが前述のコンテンツ要約機能の1つを使用して各ブロックに対して作成される。
この方式は全体的なコンテンツのピースまたは文書に対する簡単なコラージュエレメントを生成する。
コラージュ情報は文書またはコンテンツのピースについてのコラージュ生成データを含んでいる。コラージュ情報は便宜性のために別々のデータ構造であることが好ましいが、これは種々の方法で表され構成されることができ、例えば情報はコラージュ方式情報および/またはコラージュエレメントと共に記憶されることができる。さらに、例えば検索プロセスの速度を上げるためにこの情報を他の場所に記憶する利点も存在しうる。
1.処理された文書の属性、
2.文書に対するコラージュ処理結果。
1.文書またはコンテンツのピースを考慮して、新しいコラージュ情報オブジェクトを生成する。文書に対して、文書情報によりコラージュ情報文書属性をポピュレートする。
2.文書を処理し、結果的なコラージュ方式情報オブジェクトをコラージュ情報へ付加/リンクするために1以上のコラージュ方式を使用する。使用するコラージュ方式の決定はコンテンツ特性に基づいて、任意にまたはダイナミックに行われることができる。
文書の処理の結果はコラージュ情報である。コラージュ情報は1以上のコラージュ方式情報オブジェクトにリンクするかそれらを含むことができ、それらはそれぞれコラージュエレメントおよび/またはサブコラージュにリンクするかそれらを含んでいる。
2.(例えば最後のビジット日を保存するため)既存のコラージュの日付を更新し終了し、または、
3.(サーチエンジンの新しいビジット日として)既存のコラージュに新しい日付を付加し、終了し、または、
4.インデックスから既存のコラージュを消去し、ステップBへ継続する。
i.文書アドレス
ii.文書データ情報
2.コラージュエレメント:
iii.コンテンツの要約
サーチエンジンは基本的に文書が時間の経過と共に進化するので単一の文書の種々のバージョンのコラージュ情報を記憶しインデックス化する(文書の異なるバージョンは単一のURLアドレスに関連されることができるが、文書の最も最近のバージョンだけがウェブをブラウズするユーザにアクセス可能である)。さらに、サーチエンジンは文書のURLが依然としてアクチブであるか否かにかかわりなく、所定の文書に対するコラージュ情報を記憶しインデックス化し続ける。これは、以前にインデックス化されたコンテンツのピースが現在その経歴URLを使用してウェブ上でアクセス可能であるか否かにかかわりなく、特定のコンテンツのピースがウェブ上に以前に存在したか否か(したがって早期のデータは関連される)を決定する能力を提供する意味で有効である。
コラージュおよびコラージュ方式情報と、コラージュエレメントとは小さいサイズであるように設計されることが好ましく、したがってそれを非常に多数記憶することを可能にし、それ故仮想的に限定されない年代決定および追跡能力を提供する。
このセクションは基本的なコンテンツの整合手順を特定する。典型的に、このセクションで説明する手順はインデックス中に含まれる文書とコンテンツのピース間の類似性を決定するために使用される。例えばサーチエンジンは新しいURLで今日最初に発見された文書が実際に(現在、ウェブ上でもはやアクセス可能ではない可能性がある)経歴文書で最初に発見された幾つかのエレメントを含んでいることを決定できる。経歴的文書は異なるURLによりアクセスされることもできる。整合するエレメントが新しい文書の実質的な部分であるならば、サーチエンジンは経歴文書の日付を新しい文書に含めることができる。検索および整合の計算は好ましくはインデックス中の各文書に対して行われ、サーチエンジンは結果としてインデックス中の各文書の最初の日付情報を発生する。この発生されたデータは他の文書情報と共にインデックスデータベース中に記憶されることができる。その代わりに、サーチエンジンは文書について実時間の検索および整合の計算を行うことができ、これらの文書は検索の問合せに応答して返送される。
この検索技術は単一のコラージュエレメントの整合のみを発見する。
1.所定の文書またはコンテンツのピースを随意選択的に前処理する(このような文書またはコンテンツが以前に前処理されておらず、サーチエンジンによりインデックス化されていない場合)。
2.全体的なコンテンツに対する単一のコラージュエレメントを計算する。
3.(等しいコンテンツの要約と、随意選択的に等しいコンテンツ長と他の整合属性を有する)全ての整合するコラージュエレメントを検索する。
構造ベースの検索はSHコラージュ方式(前述の説明を参照)により行われるものと同じ文書走査動作を行う。文書構造階層の各レベルで、SHコラージュ方式により発生されている可能性のあるコラージュエレメントの全ての可能性について検索する。
1.所定の文書またはコンテンツのピースを随意選択的に前処理する(このような文書またはコンテンツが以前に前処理されておらず、サーチエンジンによりインデックス化されていない場合)。
2.(セクション3.2.1で前述したように)コンテンツをその上位構造エレメントに分割する。
3.このような構造エレメントが2より少なければ、空の結果セットと共に戻る(このレベルでは文書の構造的な区画化はない)。
a.簡単な検索(前述のセクション5.1参照)を使用してコンテンツのピースの整合するコラージュエレメントを検索し、結果セットへ付加する。
b.スライディングウィンドウ検索(以下のセクション5.3参照)を使用してコンテンツのピースの整合するコラージュエレメントを検索し、結果セットへ付加する。
c.コンテンツのピースについて反復的に構造ベースの検索を行い、戻された結果を結果セットへ付加する。
5.結果セットを戻す。
スライディングウィンドウ検索は整合するサブセクションについて長い文書またはコンテンツのピース(「コンテンツ」)を走査するために使用される。
幾つかの検索方法は類似性検索をサポートする。整合カバーは特定の文書またはコンテンツのピースまたはインデックス中の他のコンテンツ間の類似の程度を計量する手段を提供する。
1.整合サイズをインデックスされた内容に含まれる整合エレメントのサイズの合計にする。
2.合計の集合セットを検索されるコンテンツとインデックス化されるコンテンツの合計集合とする。合計集合セットのサイズは検索されるコンテンツのサイズ+インデックスされるコンテンツのサイズ−(両セットのオーバーラップするサブセットである)整合サイズである。
各異なる検索方法(前述のセクション5.1−5.3参照)は整合するコラージュエレメント、即ち検索されるコンテンツと1以上のインデックスされた文書の両者に存在するコンテンツのピースを集める、
文書の最良の親整合カバーはその任意の連続的なセクションが有する最高の整合カバーとして規定される。
整合するコラージュエレメントとアンカーエレメントの集収について、アンカーエレメントとその親文書レベルコラージュ間のコラージュツリーパスを通ってループする。パス上の各コラージュオブジェクトはルートオブジェクトとしてパスオブジェクトを使用して整合カバーを計算する。最高の計算された整合カバーを戻す。
以下のセクションは有用な機能を与えるために前述した基本的な検索および整合方法の使用方法を示す。
以下のセクションは所定のコンテンツのピースの最も早期の日付を検索する方法を説明している。
2.整合するコラージュエレメント、即ち全てのコラージュ検索および整合方法(前述のセクション5を参照)を使用してコンテンツまたはそのピースのコラージュエレメントに整合するコラージュエレメントを検索する。
3.各整合するコラージュエレメントについては:
a.コラージュエレメントの最良の親整合カバー(前述のセクション5.5を参照)が所定の類似性しきい値を超えたならば、
i.コラージュエレメントの親文書レベルのコラージュを検索する。
ii.文書レベルのコラージュからの文書属性(文書の日付およびアドレス)を検索する。
4.最も早期の文書の日付を有する文書属性を返送する。
これは文書またはコンテンツのピースの経歴を追跡する。結果セットは文書またはコンテンツのピース(または類似する文書またはコンテンツのピース)が存在した日付とアドレスを含んでいる。
1.ここでは文書またはコンテンツのピースを「コンテンツ」と呼ぶ。
2.整合するコラージュエレメント、即ち全てのコラージュ検索と整合方法(前述のセクション5を参照)を使用してコンテンツのコラージュエレメントと整合するコラージュエレメントを検索する。
3.各整合するコラージュエレメントに対しては:
a.コラージュエレメントの最良の親整合カバー(先の説明を参照)が所定の類似性しきい値を超えたならば、
i.コラージュエレメントの親文書レベルのコラージュを検索する。
ii.文書レベルのコラージュからの文書属性(文書の日付およびアドレス)を検索し、結果セットへ付加する。
4.重複文書属性を結果セットから除去する。
5.結果セットを返送する。
ユーザが検索の問合せをサーチエンジンに依頼するとき、サーチエンジンはその検索の問合せに応答して文書のリスト(検索結果のリスト)を返送する。検索の問合せに応答する文書数は多数である可能性があり、その文書に属する種々の日付は多年間に及ぶ可能性がある。早期の日付を所定の文書に含ませる先に説明した方法(前述のセクション6.1参照)では、サーチエンジンは特定の日付範囲内にある日付を有する文書を濾波するための新しい機能を付加することができる。文書が最初に検索された日付または最後に更新された日付に基づいて日付を文書に含ませる既存のサーチエンジンとは異なり、本発明のサーチエンジンは日付を文書に含ませるのにより効率的であり、このようにして文書が最初に許可されたおおよその日付にしたがって文書を濾波することに対してより信頼性がある。
この方法は任意のサーチエンジン結果リストのポストプロセッサとしての役目を行う。
1.検索されるサブ文書を、整合する検索用語を含んでいるコンテンツのピース(例えば検索の問合せで発見されたワードを含んでいるコンテンツのピース)のセットとする。
2.検索されたサブ文書に類似する文書またはコンテンツのピースを検索するためにコンテンツ追跡方法(前述のセクション6.2)を使用する。
これは同様にコンテンツの追跡を行うが、類似性しきい値を超過する整合カバーを有する全てのコンテンツに対する参照を返送する代わりに、最高の整合カバーを有する単一の参照コンテンツ(最も類似するコンテンツ)が戻される。
前述の機能は次の方法で(ソフトウェア売主によって、またはプラグインを通して)文書ブラウザ中に一体化されることができる。
前述したように、本発明の特徴が前述のように多くの異なる形態のソフトウェア、ファームウェア、およびハードウェアで実行されることができることが当業者に明白であろう。本発明の原理にしたがった特徴を行うために使用される実際のソフトウェアコードまたは特定化された制御ハードウェアは本発明を限定しない。したがってこの特徴の動作および態様は特定のソフトウェアコードを参照せずに説明され、当業者はここでの説明に基づいて特徴を実行するためにソフトウェアを設計しハードウェアを制御することができることが理解されよう。
Claims (1)
- 特有のウェブベースのアドレスを有する特定の文書の日付を決定するためにコンピュータシステムで実行される方法において、
それぞれ特有のウェブアドレスに関連されている複数の文書に関連する情報のデータベースをコンピュータシステム中で維持し、複数の文書は対応する特有のウェブアドレスによりアクセス可能な文書と、それらの対応する特有のウェブアドレスによりアクセス可能ではない文書とを含んでおり、
類似性しきい値に基づいて特定の文書に整合する1以上の文書に対するデータベースを検索し、整合する各文書は類似性しきい値に等しいかそれを超過し、
検索により1以上の整合する文書が生じた場合には、
コンピュータシステムにおいて、日付を任意の整合する文書に関連される最も早期の日付と一致する特定の文書に所属させるステップを含んでいる方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US67225605P | 2005-04-18 | 2005-04-18 | |
PCT/US2006/014441 WO2006113644A2 (en) | 2005-04-18 | 2006-04-18 | System and method for efficiently tracking and dating content in very large dynamic document spaces |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008537264A true JP2008537264A (ja) | 2008-09-11 |
JP2008537264A5 JP2008537264A5 (ja) | 2009-06-18 |
Family
ID=37115828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008507781A Pending JP2008537264A (ja) | 2005-04-18 | 2006-04-18 | 非常に大きいダイナミック文書スペース中のコンテンツを効率的に追跡および年代決定するためのシステムおよび方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20060248063A1 (ja) |
EP (1) | EP1899861A4 (ja) |
JP (1) | JP2008537264A (ja) |
AU (1) | AU2006236418A1 (ja) |
BR (1) | BRPI0610286A2 (ja) |
CA (1) | CA2605252A1 (ja) |
MX (1) | MX2007013020A (ja) |
WO (1) | WO2006113644A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014038650A (ja) * | 2008-10-02 | 2014-02-27 | Naver Corp | ウェブ文書原本判別方法およびウェブ文書原本判別システム、並びにウェブ文書履歴情報提供方法およびウェブ文書履歴情報提供方法システム |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8190625B1 (en) * | 2006-03-29 | 2012-05-29 | A9.Com, Inc. | Method and system for robust hyperlinking |
US7711786B2 (en) * | 2007-08-06 | 2010-05-04 | Zhu Yunzhou | Systems and methods for preventing spam |
US8775953B2 (en) | 2007-12-05 | 2014-07-08 | Apple Inc. | Collage display of image projects |
US7890480B2 (en) * | 2008-02-11 | 2011-02-15 | International Business Machines Corporation | Processing of deterministic user-defined functions using multiple corresponding hash tables |
US8326829B2 (en) * | 2008-10-17 | 2012-12-04 | Centurylink Intellectual Property Llc | System and method for displaying publication dates for search results |
US8874564B2 (en) * | 2008-10-17 | 2014-10-28 | Centurylink Intellectual Property Llc | System and method for communicating search results to one or more other parties |
US8156130B2 (en) | 2008-10-17 | 2012-04-10 | Embarq Holdings Company Llc | System and method for collapsing search results |
US20110320452A1 (en) * | 2008-12-26 | 2011-12-29 | Nec Corpration | Information estimation apparatus, information estimation method, and computer-readable recording medium |
US8001462B1 (en) | 2009-01-30 | 2011-08-16 | Google Inc. | Updating search engine document index based on calculated age of changed portions in a document |
US8332408B1 (en) | 2010-08-23 | 2012-12-11 | Google Inc. | Date-based web page annotation |
US8499073B1 (en) | 2010-10-07 | 2013-07-30 | Google Inc. | Tracking content across the internet |
US9298778B2 (en) * | 2013-05-14 | 2016-03-29 | Google Inc. | Presenting related content in a stream of content |
US9805113B2 (en) * | 2013-05-15 | 2017-10-31 | International Business Machines Corporation | Intelligent indexing |
US9367568B2 (en) * | 2013-05-15 | 2016-06-14 | Facebook, Inc. | Aggregating tags in images |
US9996629B2 (en) | 2015-02-10 | 2018-06-12 | Researchgate Gmbh | Online publication system and method |
EP3096277A1 (en) | 2015-05-19 | 2016-11-23 | ResearchGate GmbH | Enhanced online user-interaction tracking |
US10331752B2 (en) * | 2015-07-21 | 2019-06-25 | Oath Inc. | Methods and systems for determining query date ranges |
CN107092689A (zh) * | 2017-04-24 | 2017-08-25 | 深圳市茁壮网络股份有限公司 | 元数据生成方法及系统 |
CN113204579B (zh) * | 2021-04-29 | 2024-06-07 | 北京金山数字娱乐科技有限公司 | 内容关联方法、系统、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10228469A (ja) * | 1997-02-17 | 1998-08-25 | Canon Inc | 情報処理装置及びその制御方法 |
JPH11250037A (ja) * | 1998-02-26 | 1999-09-17 | Sumitomo Metal Ind Ltd | コンテンツ編集装置および記録媒体 |
JP2001306732A (ja) * | 2000-04-27 | 2001-11-02 | Toshiba Corp | 原本性保証文書管理方法及び記憶媒体 |
JP2002182956A (ja) * | 2000-12-19 | 2002-06-28 | Hitachi Ltd | 文書管理方法および装置 |
JP2004005075A (ja) * | 2002-05-31 | 2004-01-08 | Hitachi Ltd | 電子証跡保存方法および電子証跡保存システム |
JP2004086841A (ja) * | 2002-06-27 | 2004-03-18 | Oki Electric Ind Co Ltd | 情報処理装置および方法 |
JP2004259296A (ja) * | 2001-11-08 | 2004-09-16 | Tatsuhiko Miyagawa | 文書管理システム及び方法 |
WO2005004386A1 (ja) * | 2003-07-07 | 2005-01-13 | Fujitsu Limited | 認証装置 |
US20050038787A1 (en) * | 2003-08-16 | 2005-02-17 | International Business Machines Corporation | Document authentication |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4899299A (en) * | 1987-12-23 | 1990-02-06 | International Business Machines Corporation | Method for managing the retention of electronic documents in an interactive information handling system |
US5909677A (en) * | 1996-06-18 | 1999-06-01 | Digital Equipment Corporation | Method for determining the resemblance of documents |
US6182066B1 (en) * | 1997-11-26 | 2001-01-30 | International Business Machines Corp. | Category processing of query topics and electronic document content topics |
US6421675B1 (en) * | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
US6119124A (en) * | 1998-03-26 | 2000-09-12 | Digital Equipment Corporation | Method for clustering closely resembling data objects |
EP1006462A3 (en) * | 1998-12-01 | 2005-03-30 | Lucent Technologies Inc. | A method and apparatus for persistent storage of web resources |
US8001118B2 (en) * | 2001-03-02 | 2011-08-16 | Google Inc. | Methods and apparatus for employing usage statistics in document retrieval |
US7158961B1 (en) * | 2001-12-31 | 2007-01-02 | Google, Inc. | Methods and apparatus for estimating similarity |
US20050149507A1 (en) * | 2003-02-05 | 2005-07-07 | Nye Timothy G. | Systems and methods for identifying an internet resource address |
US7346839B2 (en) * | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US7797316B2 (en) * | 2003-09-30 | 2010-09-14 | Google Inc. | Systems and methods for determining document freshness |
US7689601B2 (en) * | 2004-05-06 | 2010-03-30 | Oracle International Corporation | Achieving web documents using unique document locators |
US8386453B2 (en) * | 2004-09-30 | 2013-02-26 | Google Inc. | Providing search information relating to a document |
-
2006
- 2006-04-18 JP JP2008507781A patent/JP2008537264A/ja active Pending
- 2006-04-18 WO PCT/US2006/014441 patent/WO2006113644A2/en active Application Filing
- 2006-04-18 EP EP06750469A patent/EP1899861A4/en not_active Withdrawn
- 2006-04-18 AU AU2006236418A patent/AU2006236418A1/en not_active Abandoned
- 2006-04-18 BR BRPI0610286-7A patent/BRPI0610286A2/pt not_active IP Right Cessation
- 2006-04-18 US US11/379,094 patent/US20060248063A1/en not_active Abandoned
- 2006-04-18 MX MX2007013020A patent/MX2007013020A/es not_active Application Discontinuation
- 2006-04-18 CA CA002605252A patent/CA2605252A1/en not_active Abandoned
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10228469A (ja) * | 1997-02-17 | 1998-08-25 | Canon Inc | 情報処理装置及びその制御方法 |
JPH11250037A (ja) * | 1998-02-26 | 1999-09-17 | Sumitomo Metal Ind Ltd | コンテンツ編集装置および記録媒体 |
JP2001306732A (ja) * | 2000-04-27 | 2001-11-02 | Toshiba Corp | 原本性保証文書管理方法及び記憶媒体 |
JP2002182956A (ja) * | 2000-12-19 | 2002-06-28 | Hitachi Ltd | 文書管理方法および装置 |
JP2004259296A (ja) * | 2001-11-08 | 2004-09-16 | Tatsuhiko Miyagawa | 文書管理システム及び方法 |
JP2004005075A (ja) * | 2002-05-31 | 2004-01-08 | Hitachi Ltd | 電子証跡保存方法および電子証跡保存システム |
JP2004086841A (ja) * | 2002-06-27 | 2004-03-18 | Oki Electric Ind Co Ltd | 情報処理装置および方法 |
WO2005004386A1 (ja) * | 2003-07-07 | 2005-01-13 | Fujitsu Limited | 認証装置 |
US20050038787A1 (en) * | 2003-08-16 | 2005-02-17 | International Business Machines Corporation | Document authentication |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014038650A (ja) * | 2008-10-02 | 2014-02-27 | Naver Corp | ウェブ文書原本判別方法およびウェブ文書原本判別システム、並びにウェブ文書履歴情報提供方法およびウェブ文書履歴情報提供方法システム |
US9477769B2 (en) | 2008-10-02 | 2016-10-25 | Nhn Corporation | Method and system for detecting original document of web document, method and system for providing history information of web document for the same |
Also Published As
Publication number | Publication date |
---|---|
WO2006113644A3 (en) | 2007-11-15 |
MX2007013020A (es) | 2008-03-18 |
CA2605252A1 (en) | 2006-10-26 |
EP1899861A2 (en) | 2008-03-19 |
US20060248063A1 (en) | 2006-11-02 |
BRPI0610286A2 (pt) | 2010-06-08 |
AU2006236418A1 (en) | 2006-10-26 |
EP1899861A4 (en) | 2010-09-22 |
WO2006113644A2 (en) | 2006-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008537264A (ja) | 非常に大きいダイナミック文書スペース中のコンテンツを効率的に追跡および年代決定するためのシステムおよび方法 | |
US20110093771A1 (en) | System and method for superimposing a document with date information | |
JP4944406B2 (ja) | フレーズに基づく文書説明の生成方法 | |
JP5175005B2 (ja) | 情報検索システムにおけるフレーズに基づく検索方法 | |
US7370061B2 (en) | Method for querying XML documents using a weighted navigational index | |
US6615209B1 (en) | Detecting query-specific duplicate documents | |
US8606778B1 (en) | Document ranking based on semantic distance between terms in a document | |
JP4944405B2 (ja) | 情報検索システムにおけるフレーズに基づくインデックス化方法 | |
US8682891B2 (en) | Automatic object reference identification and linking in a browseable fact repository | |
JP4976666B2 (ja) | 情報検索システムにおけるフレーズ識別方法 | |
EP1934823B1 (en) | Click distance determination | |
US20160098405A1 (en) | Document Curation System | |
US20130232157A1 (en) | Systems and methods for processing unstructured numerical data | |
US20070067304A1 (en) | Search using changes in prevalence of content items on the web | |
US20110119262A1 (en) | Method and System for Grouping Chunks Extracted from A Document, Highlighting the Location of A Document Chunk Within A Document, and Ranking Hyperlinks Within A Document | |
US20090187550A1 (en) | Specifying relevance ranking preferences utilizing search scopes | |
US20080313178A1 (en) | Determining searchable criteria of network resources based on commonality of content | |
JP5187313B2 (ja) | 文書重要度算出システム、文書重要度算出方法およびプログラム | |
WO2007143666A2 (en) | Element query method and system | |
US8423885B1 (en) | Updating search engine document index based on calculated age of changed portions in a document | |
JP2004054588A (ja) | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム | |
US20110252313A1 (en) | Document information selection method and computer program product | |
US20110022591A1 (en) | Pre-computed ranking using proximity terms | |
Long et al. | Crawling Deep Web Data Based on Three-stage Template | |
Keyaki et al. | Fast incremental indexing with effective and efficient searching in XML element retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090420 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20111102 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20111110 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120327 |