JP2006107446A - ネットワーク・ドキュメントのバッチ索引付けのためのシステムおよび方法 - Google Patents

ネットワーク・ドキュメントのバッチ索引付けのためのシステムおよび方法 Download PDF

Info

Publication number
JP2006107446A
JP2006107446A JP2005187816A JP2005187816A JP2006107446A JP 2006107446 A JP2006107446 A JP 2006107446A JP 2005187816 A JP2005187816 A JP 2005187816A JP 2005187816 A JP2005187816 A JP 2005187816A JP 2006107446 A JP2006107446 A JP 2006107446A
Authority
JP
Japan
Prior art keywords
documents
batch
document
repository
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005187816A
Other languages
English (en)
Other versions
JP2006107446A5 (ja
Inventor
David James Lee
ジェームズ リー デビッド
Dmitriy Meyerzon
メイヤーゾン ドミトリー
Kyle Peltonen
ペルトネン カイル
Mircea Neagovici-Negoescu
ネアゴビッチ−ネゴエスク ミルチア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006107446A publication Critical patent/JP2006107446A/ja
Publication of JP2006107446A5 publication Critical patent/JP2006107446A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 データベースに格納されている変更ログを含むネットワーク・サイトをホスティングするサーバの構造を利用して、検索クエリのためにドキュメントをバッチ索引付けするプロセスを提供すること。
【解決手段】 サイトのコンテンツはバッチ処理され、サーバからインデクサに一括して転送される。変更ログは、サイトのコンテンツへの変更を追跡する。インデクサは、変更ログを使用して索引への更新を増分的(incrementally)に要求し、変更をバッチ処理して、帯域幅使用率(bandwidth usage)およびプロセッサ・オーバーヘッド・コストが軽減されるようにする。
【選択図】 図3

Description

本発明は、ネットワークをクロールしてドキュメントを取り出すことに関し、より詳細には、ネットワーク・ドキュメントのバッチ索引付け(batch indexing)のためのシステムおよび方法に関する。
ネットワークおよびファイル・システムでコンテンツを検索する方法は、多くの形態で提供されてきたが、検索エンジンの変形による方法が最も一般的である。検索エンジンは、指定されたキーワードを求めてネットワーク上のドキュメントを検索し、キーワードが見つかったドキュメントのリストを返すプログラムである。多くの場合、ネットワーク上のドキュメントは、ネットワークを「クロールすること(crawling)」によって最初に識別される。
ネットワークをクロールすることは、ネットワーク・クローリング・プログラム、つまりクローラ(crawler)を使用して、ネットワーク上にあるドキュメントを識別することを示している。クローラは、ネットワーク・クロールの実行中に、1つまたは複数のネットワーク・ロケーションからドキュメントを自動的に見つけ出して収集するコンピュータ・プログラムである。クロールは、クロールのシードとして機能するドキュメント・アドレスのセットおよびクロールの範囲を定義するクロール制限規則のセット、をクローラに提供することによって開始する。クローラは、クロール中に取り出したドキュメントに参照されているリンク先ドキュメントのネットワーク・アドレスを再帰的に収集する。クローラは、Webサイトからドキュメントを取り出し、ドキュメントから受け取ったドキュメント・データを処理して、そのデータが引き続き他のプログラムによって処理されるように準備を整える。たとえば、クローラは、取り出されたデータを使用して、インターネットまたはイントラネット上で使用可能なドキュメントの索引を作成することもできる。「検索エンジン」はその後、索引を使用して、指定された基準を満たすドキュメントを探し出すことができる。
クロールにおいてドキュメントを取り出す際に、ネットワーク上の各ドキュメントに操作が実行され、ドキュメントを取得して、そのドキュメントのレコードを索引に取り込むことが行われる。ドキュメントに対するこれらの往復クエリは、帯域幅およびプロセッサ使用率に関して大量のオーバーヘッドを消費する可能性がある。さらに、検索エンジンによって正確な結果が提供されるために、索引はまたネットワーク上のドキュメントに関して正確である必要もある。ドキュメントの修正、ドキュメントの追加、ドキュメントの削除、または他の操作によって、ネットワーク上のドキュメントに変更があった場合、索引はこれらの変更を反映するように更新される必要がある。ただし、ネットワークのクロールは、高価な操作になる可能性がある。ネットワークをあちこち往復しなければならないために、インデクサおよびネットワーク間で使用可能な帯域幅を過度に使用してしまうおそれもある。
本発明の実施形態は、ドキュメントを求めてネットワークをクロールする場合に使用される帯域幅を軽減するWebサイトのバッチ索引付けのためのシステムおよび方法に関する。本発明は、ネットワーク・サイトをホスティングするサーバの構造を利用し、これは、データベースまたは他のリポジトリに格納されている変更ログを含む。本発明は、サイトのコンテンツをバッチ処理し、サーバからインデクサにそのコンテンツを一括して転送する。
本発明の1つの態様によれば、バッチ・サイズ制限は、ドキュメントのバッチをインデクサに送信するために設定される。各々のドキュメントに対応するメタデータは検査され、ドキュメントは選択され、バッチ内に含められる。ドキュメントのバッチは次に、インデクサに転送される。
本発明の1つの態様によれば、ネットワーク内のすべての変更は変更ログに記録される。変更ログは、追加、削除、修正、移動、名前変更、および他のドキュメント変更処理を記録する。変更ログは、どのドキュメントに変更が加えられたかを示している。一般に、ネットワーク上のほとんどのドキュメントは2つのクロール間では変更されない、しかし、変更ログがなければ、クローラはが各ドキュメントを往復して最終更新時間を取得することが必要になる。次に変更は、指定された数の変更をバッチ処理するサービス呼び出しを使用して、変更ログからインデクサによって取り出される。サービス呼び出しは、操作を繰り返して変更済みの各ドキュメントを取り出すことを防ぎ、代わりに多数の変更が一度にインデクサに転送されるようにする。したがって、ネットワークに送信する必要のあるデータベースクエリの数は軽減され、索引を更新するオーバーヘッドが効果的に減少することになる。
これ以降、本発明について、本明細書の一部を形成し、例示により本発明を実施するための特定の例示的な実施形態を示す添付の図を参照してさらに詳細に説明される。ただし、本発明は、多くのさまざまな形態で実施することができ、本明細書に示されている実施形態に限定されるものとして解釈すべきではない。むしろ、これらの実施形態は、本開示が十分かつ完全なものになるよう、また本発明の範囲を当業者に十分に伝えられるように提供されている。特に、本発明は、方法または装置として実施することができる。したがって、本発明は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、またはソフトウェアおよびハードウェアの態様を組み合わせた実施形態をとることができる。したがって、以下の詳細な説明は、限定的な意味で解釈すべきではない。
例示的なオペレーティング環境
図1を参照すると、本発明を実装するための1つの例示的なシステムは、コンピュータ装置100のようなコンピュータ装置を含んでいる。コンピュータ装置100は、クライアント、サーバ、モバイル装置、または任意の他のコンピュータ装置として構成することができる。極めて基本的な構成において、コンピュータ装置100は通常、少なくとも1つの処理装置102およびシステム・メモリ104を含んでいる。コンピュータ装置の正確な構成および種類に応じて、システム・メモリ104は揮発性(RAMなど)、不揮発性(ROM、フラッシュ・メモリなど)、またはこの2つの組み合わせであってもよい。システム・メモリ104は通常、オペレーティング・システム105、1つまたは複数のアプリケーション106を含み、プログラム・データ107を含むこともできる。1つの実施形態において、アプリケーション106は、本発明の機能を実装するためのバッチ索引付けアプリケーション120を含んでいる。この基本構成は、図1において、破線108内のコンポーネントにより表されている。
コンピュータ装置100は、追加の特徴または機能性を備えることもできる。たとえば、コンピュータ装置100は、たとえば磁気ディスク、光ディスク、またはテープなどの追加のデータ記憶装置(取り外し可能および/または固定)を含むこともできる。そのような追加のストレージは、取り外し可能ストレージ109および固定ストレージ110によって図1に示されている。コンピュータ・ストレージ媒体は、コンピュータ可読命令、データ構造、プログラム・モジュール、または他のデータなどの情報のストレージのための任意の方法または技術において実装された揮発性および不揮発性の、取り外し可能および固定の媒体を含むことができる。システム・メモリ104、取り外し可能ストレージ109および固定ストレージ110はすべて、コンピュータ・ストレージ媒体の例である。コンピュータ・ストレージ媒体は、RAM、ROM、EEPROM、フラッシュ・メモリその他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光ストレージ、磁気カセット、磁気テープ、磁気ディスク・ストレージまたはその他の磁気ストレージ装置、あるいは望ましい情報を格納するために使用することができ、コンピュータ装置100によってアクセスすることができる他の媒体を含んでいるが、これらに限定されることはない。そのようなコンピュータ・ストレージ媒体は、装置100の一部にすることができる。コンピュータ装置100はさらに、キーボード、マウス、ペン、音声入力装置、タッチ入力装置などの入力装置112を備えることもできる。ディスプレイ、スピーカ、プリンタなどの出力装置114も含めることができる。
コンピュータ装置100は、装置がネットワークなどを介して他のコンピュータ装置118と通信できるようにする通信接続116も含んでいる。通信接続116は、通信媒体の一例である。通信媒体は通常、搬送波またはその他の搬送機構などの、変調されたデータ信号の形態で、コンピュータ可読命令、データ構造、プログラム・モジュール、または他のデータによって具現化、任意の情報伝達媒体を含んでいる。「変調データ信号」という用語は、1つまたは複数の特性セットを備える信号、または信号の情報をコード化するような方法で変更された信号を意味する。たとえば、通信媒体は、有線ネットワークまたは直接配線接続のような有線媒体、および音響、RF、赤外線など無線媒体およびその他の無線媒体を含んでいるが、これらに限定されることはない。本明細書で使用されているコンピュータ可読媒体という用語は、ストレージ媒体および通信媒体を共に含んでいる。
バッチ索引付けの例示的な実施形態
以下の説明および特許請求の範囲全体を通じて、「ドキュメント」という用語は、ネットワーク・ドキュメント、ファイル、フォルダ、Webページ、およびその他のリソースなど、ネットワークの検索クエリまたはクロールの結果として返されるあらゆる可能なリソースを示している。
図2は、本発明が操作するネットワーク化システムの例示的なアーキテクチャを示している。サーバ204は、その上で実行するクローラ206を含んでいる。クローラ206は、図2に示されているリモート・サーバ218のような、ネットワーク216に接続された1つまたは複数のコンピュータ装置上に配布されているドキュメントを検索する。ネットワーク216は、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、またはサーバ204がリモート・サーバ218のようなリモート・コンピュータ装置と直接または間接的に通信できるようにするネットワークの組み合わせであってもよい。
クローラ206は、ネットワーク216に接続されたリモート・サーバ218でドキュメント222および224を検索する(「クロールする」)。クローラ206は、ドキュメント・データとしてドキュメントを取り出す。ドキュメント222および224からのドキュメント・データは、さまざまな方法で使用することができる。たとえば、クローラ206は、ドキュメント・データをインデクサ208に渡すことができる。インデクサ208は、ドキュメントの索引210を保持するコンピュータ・プログラムである。索引210に格納される情報のタイプは、インデクサ208の複雑さによって決まる。
本発明によれば、インデクサ208およびリモート・サーバ218は、Webサービス250に従って動作するように構成することができる。たとえば、リモート・サーバ218は、ワシントン州レドモンドのMicrosoft Corporationによって製造されたWindows(登録商標)SharePoint Servicesテクノロジに従って、Webサービス250を含むように構成することもできる。したがって、Webサービス呼び出しは、リモート・サーバ218上に位置するドキュメントについてWebサービス250にクエリを実行するために使用することができる。次にWebサービス250は、リモート・サーバ218上のドキュメントに関連付けられているデータベースによって公開されるアプリケーション・プログラミング・インターフェース(API)と通信する。アプリケーション・プログラミング・インターフェースは、データベース内に存在するドキュメントを列挙し、ドキュメントに対応するドキュメント・データが返されてインデクサ208によって索引付けされるようにする。したがって、単一のWebサービス呼び出しに基づいてドキュメント・データの複数のセットが返されるために、リモート・サーバ218との間で往復するやりとりは大幅に軽減される。結果としての戻りは、効果的にまとめて「バッチ処理」される。他の実施形態では、ネットワーク・ドキュメントのバッチ索引付けを提供する際に、リモート・サーバ218上で他の常駐コードを使用したり、またはWebサービス呼び出し以外の通信プロトコルを使用したりすることもできる。インデクサおよびWebサービスとの間の通信については、以下の図3の説明で詳細に述べる。
パーソナル・コンピュータなどのクライアント・コンピュータ214は、ネットワーク212によってサーバに接続されている。ネットワーク212は、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、またはネットワークの組み合わせであってもよい。ネットワーク212は、ネットワーク216と同じか、または異なるネットワークであってもよい。クライアント・コンピュータ214は、ドキュメントを見つけてユーザに表示する「ブラウザ」215のような、コンピュータ・プログラムを含んでいる。
クライアント・コンピュータ214においてユーザが1つまたは複数のドキュメントを検索したい場合、クライアント・コンピュータ214は検索要求を検索エンジン230に送信する。検索エンジン230は、その関連付けられた索引210を調べて、検索要求に関連する可能性のあるドキュメントを見つける。検索エンジン230は、次に、それらのドキュメントのリストをクライアント・コンピュータ214のブラウザ215に返す。ユーザは、ドキュメントのリストを調べ、リモート・サーバ218などのリモート・コンピュータ装置から1つまたは複数のドキュメントを取り出すことができる。
さらにもう1つの実施形態において、サーバ204自身は、クローラ206によってアクセスされるドキュメント232および234を含むことができる。さらにクローラ206、インデクサ208、および検索エンジン230は、異なるコンピュータ上に常駐することができる。加えて、ブラウザ215およびクローラ206は、単一のコンピュータ上に常駐することができる。
図3は、本発明によるネットワーク・ドキュメントのバッチ索引付けのためのインデクサおよびサーバ間の例示的な通信システムの機能ブロック図を示している。システム300は、インデクサ302およびサーバ310を含んでいる。サーバ310は、フロント・エンド312およびデータベース314を含んでいる。フロント・エンド312は、Webサービス320およびオブジェクト・モデル322を含んでいる。
インデクサ302は、ネットワーク上に位置するドキュメントの索引を保持する。インデクサはサーバ310と通信するために示されているが、他の中間機能ブロックがインデクサ302およびサーバ310間の通信を容易にすることもできる。たとえば、図2では、ネットワーク216にわたってインデクサ208およびリモート・サーバ218間の通信を提供するクローラ206を示している。少なくとも1つの実施形態において、中間機能ブロックは、本発明の機能に影響を与えていないため図示されていない。
インデクサ302は、Webサービス320と通信して、索引を取り込むためのドキュメント・データを取得する。次にWebサービス320は、オブジェクト・モデル322と通信して、データベース314にドキュメント・データを要求する。1つの実施形態において、データベース314は、示されている階層330に従って編成される。階層330は、サブ・サイトを含むサイトとして構造化される。各サブ・サイトは、他のコンテナまたはドキュメントをさらに含むことができる1つまたは複数のコンテナを含んでいる。1つの実施形態において、階層330は、コンピュータ装置のファイル・システムと同様に構造化される。
初期クロールに対して、インデクサ302はサーバ310に関連付けられているサイトを認識し、インデクサ302は、Webサービス320に、サイトに関する情報を要求するWebサービス呼び出しを提供する。この要求は、Webサービス320によってオブジェクト・モデル322に転送される。オブジェクト・モデル322は、データベース314に含まれているドキュメント、コンテナ、およびサイトのサブ・サイトの各々に対するオブジェクトを提供する。他の実施形態において、データベース314内の他の構造はさらに、オブジェクト・モデル322によって提供されたオブジェクトを有することもできる(たとえば、リスト、リスト項目、ドキュメント・ライブラリなど)。オブジェクト・モデル322は、サブサイト・オブジェクトのリストをWebサービス320に返すが、これがそのリストをURL(Uniform Resource Locator)のリストとしてインデクサ302に伝搬する。1つの実施形態において、サブ・サイトのリストは、そのサブ・サイトの数が指定された数に満たない場合は、本発明のバッチ処理機能により、インデクサに提供されない。
サブ・サイトのリストを使用して、インデクサ302は、サイトに関する情報を要求する前述のWebサービス呼び出しと同様に、各サブ・サイトに関する情報を要求するWebサービス呼び出しを提供する。この場合も同様に、要求は、Webサービス320によってオブジェクト・モデル322に転送される。オブジェクト・モデル322は次に、要求が行われたサブ・サイト内のコンテナのリストをインデクサ302に返す。1つの実施形態において、サブ・サイトのリストは、そのサブ・サイトの数が指定された数に満たない場合は、本発明のバッチ処理機能により、インデクサに提供されない。データベース階層内のコンテナ、ドキュメント、または他のオブジェクト関連構造のバッチ処理は、オブジェクト関連構造に関するメタデータを調べること、インデクサ302に送信するために構造を一括して収集すること、を含む。サイトのバッチ索引付けのための例示的なプロセスについては、以下で図4を参照して説明される。
図4は、本発明による初期クロール中のバッチ索引付けについての例示的なプロセスの論理的流れ図を示している。プロセス400は、ブロック402で開始する。ここでは、索引付けのためにドキュメント・データを要求するWebサービス呼び出しは、インデクサによって、ネットワーク・サイトをホスティングするサーバに送信されている。処理は、ブロック404に続く。
ブロック404において、Webサービスは、最大N個のドキュメントのドキュメント・メタデータを取得する。ここでNは、指定されている制限(たとえば1000項目)に従って設定される。ドキュメント・メタデータは、Webサービスによってデータベースから取り出される。他の実施例において、項目の制限は、別の制限に設定することもでき、また関連する制限を備えなくてもよい。メタデータは、インデクサに送信するためにドキュメントの効率的なバッチ処理を支援するドキュメント拡張子、ドキュメントサイズ、および他のメタデータ、を含んでいる。もう1つの実施形態において、コンテナはN項目よりも大きくすることができる。コンテナがN個以上の項目を含んでいる場合、Webサービスはさらに、Webサービスがデータベースから次のN個のドキュメントを取得することを知っているので、次のWebサービス呼び出しで渡されるcookieを返す。Webサービスがドキュメント・メタデータを取得してしまうと、処理はブロック406に続く。
ブロック406において、クローラは、Webサービスによって取り出されたメタデータを処理し、メタデータに関連するドキュメントをバッチ・サイズ制限に従ってバッチにグループ化する。1つの実施形態において、バッチ・サイズ制限は、バイトによって(たとえば50MB)バッチのサイズに関連付けられている。もう1つの実施形態において、バッチ・サイズ制限は、バッチに含まれているドキュメントの数に関連付けられている。さらにもう1つの実施形態において、インデクサは最大サイズ制限を設定し、次にWebサービスがドキュメントをバッチ処理するために最大値よりも少ない効率的なサイズを決定する。1つの効率的なサイズの決定は、データベースへのクエリの数が最小化されて、しかもインデクサおよびサーバ間の帯域幅使用率を最小化する場合のバッチ・サイズに対応する。
1つの実施形態において、特定のタイプであるドキュメントは、その拡張子(たとえばmpgなど)に従ってバッチから除外することができる。たとえば、意味のある結果を検索クエリに提供するためには先ずレンダリングされなければならない特定のドキュメントは、バッチ索引付けの恩恵を受けることはなく、そのためドキュメントがレンダリングされた後に他の手段を通じて取得される。ムービーなどの他のドキュメントもまた、検索エンジンを使用してキーワード検索に意味のある結果を提供しない場合があり、そのためバッチからも除外される。もう1つの実施形態において、ドキュメントのサイズは、バッチ索引付けからこれを除外することができる。たとえば、ドキュメントのサイズがバッチ・サイズ制限を超える(たとえば50Kよりも大きい)場合、そのドキュメントは他の手段(たとえば別の「get document」操作)によって取り出される。ドキュメントがバッチ処理されると、処理はブロック408に進む。
ブロック408において、ドキュメントのバッチは、クローラによってWebサービスに要求される。Webサービスは、データベースからドキュメントのバッチを取得し、ドキュメントをクローラに返す。クローラがドキュメントのバッチを受け取ると、処理は決定ブロック410に移動する。
決定ブロック410において、取り出されたドキュメント・メタデータに対応して、さらに多くのバッチがクローラによって取り出される必要があるかどうかの決定が行われる。さらに多くのバッチが取り出される必要がある場合、処理はブロック408に戻る。ただし、バッチがさらに取り出される必要がない場合、処理はブロック412に続く。
ブロック412において、取り出されたバッチに対応するドキュメントは、ドキュメントが索引になるようにクローラからインデクサに転送される。そのため、索引はドキュメントの変更に従って更新される。ドキュメントが転送されると、処理は決定ブロック414に続く。
決定ブロック414において、N個のドキュメントのメタデータを要求したWebサービス呼び出しに、cookieが関連付けられているかどうかの決定が行われる。cookie、コンテナ内のドキュメントの数がNよりも大きい場合に、特定のコンテナのドキュメントが、索引付けする同じコンテナの他のドキュメントに関連付けられていることを、確実にする。ドキュメントに関連付けられているcookieがある場合、処理はブロック404に戻り、そこでcookieに関連付けられているN個のドキュメントの次のセットについてプロセス400が繰り返される。ただし、ドキュメントに関連付けられているcookieがない場合、処理は、プロセス400が終了するブロック416に進む。
プロセス400は、ドキュメントの単一のコンテナに関連する、本発明の初期バッチ索引付けプロセスを説明している。ネットワーク上には複数のドキュメントからなる多くのコンテナが存在する場合もあり、プロセス400は、ネットワーク上のすべてのドキュメントをバッチ索引付けするために必要に応じて繰り返すことができる。
図5は、本発明による変更ログの機能ブロック図を示している。変更ログ500は、ネットワーク上のドキュメントに変更が発生するに連れて、変更ログが変更レコードで効果的に「満たされる」ように、構造化された複数の変更レコード(たとえば502)を含んでいる。特定のポイント(たとえば504および506)において、新しいクロールが発生して索引が更新され、更新済み索引に反映された最終変更レコードに関連付けられている変更ID(たとえば514)が記録される。1つの実施形態において、変更ログ500は、サーバのデータベースに格納される(たとえば、図3のデータベース314)。
変更レコード(たとえば502)は、イベント・タイプ510、オブジェクト識別512、および変更ID(つまりトークン)514を含んでいる。イベント・タイプ510は、変更レコードに対応して発生した変更イベントのタイプを参照する。一部のイベント・タイプは、イベントの追加、削除、修正、移動、名前変更を含んでいる。これらのイベントは、オブジェクト識別512に従って特定のドキュメントに関連付けられている。オブジェクト識別512は、変更済みドキュメントに関連付けられている特定のオブジェクトを識別するのに十分な識別情報を参照する。オブジェクト識別512に含まれる一部の例示的な情報は、ドキュメントID、コンテナID、オブジェクトID、および/または変更済みドキュメントに対応してオブジェクトを識別するための他の識別子情報、を含んでいる。変更ID514は、変更レコード自体を識別し、更新プロセスが現在変更ログ500内のどこにあるかのインディケーションを提供する。
最終更新が発生した変更ログ内のポイント(たとえば504および506)は、最終変更IDまたは現行の変更IDに関して識別することができる。最終変更IDは、索引に反映されている最終変更の変更ログにおける位置の識別を参照する。現行の変更IDは、変更ログのその位置に対してクエリが行われた時点の変更ログにおける現行位置の識別を参照する。インデクサによって要求された場合、最終変更ID(たとえば504)および現行の変更ID(たとえば506)の間に発生した変更のバッチは、解決されて索引を更新する。バッチ索引付けに変更ログを使用するためのプロセスについては、以下で図6および図7を参照して説明される。
図6は、本発明による初期クロール中の変更ログの使用を初期化するための例示的なプロセスの論理流れ図を示している。プロセス600はブロック602において開始し、そこで、インデクサが初期クロールを開始する。処理は、ブロック604に続く。
ブロック604において、Webサービスは、変更ログ内の現行位置を求める要求をインデクサから受け取る。処理は、ブロック606に続く。
ブロック606において、Webサービスは、変更ログ内の現行位置を求める要求をデータベースに転送する。ここで、要求は変更ログ内の最終変更IDを求める要求に対応している。要求がWebサービスによって転送されると、処理はブロック608に移動する。
ブロック608において、変更ログからの最終変更IDは、Webサービスによってインデクサに転送される。インデクサは、その後の増分クロール(incremental crawls)で使用できるように最終変更IDを格納する。増分クロール・プロセスについては、以下で図7を参照して説明される。最終変更IDがインデクサによって格納されると、処理は、プロセス600が終了するブロック610に進む。
1つの実施形態において、複数の変更ログは、複数のデータベースに対応するサーバ上にあってもよい。複数の変更ログの場合、最終変更IDは、インデクサに返される前に集約される。
図7は、本発明による増分クロールのための例示的なプロセスの論理流れ図を示している。プロセス700はブロック702において開始し、そこで、インデクサが増分クロールを開始する。処理は、ブロック704に続く。
ブロック704において、変更されたコンテンツを求める要求がインデクサからWebサービスによって受け取られる。この要求は、インデクサによって以前格納された最終変更IDを含んでいる(前述の図6を参照)。要求がWebサービスによって受け取られると、処理はブロック706に続く。
ブロック706において、この要求は、最終変更IDに対応する変更ログ内の位置以降に変更ログ内で発生した変更を求める要求として、データベースに転送される。この要求がデータベースによって受け取られると、処理はブロック708に続く。
ブロック708において、Webサービスは、最終変更ID以降に発生した変更の最初のバッチを取り出す。1つの実施形態において、この変更のバッチは、最終変更ID後に出現した最初の千個の変更レコードに対応する。Webサービスはさらに、現行の変更IDを取り出す。変更のバッチおよび現行の変更IDが取り出されると、処理はブロック710に続く。
ブロック710において、変更レコードのバッチは、変更済みのコンテンツを取り出すためにソートされる。たとえば、同じコンテナ内のドキュメントに発生した変更は、まとめてグループ化されるようにソートされる。変更済みコンテンツを取り出すために変更レコードをソートすることで、オブジェクト・モデルによってデータベースに行うクエリの数が減少する。変更レコードがソートされ、変更済みコンテンツが取り出されると、処理はブロック712に移動する。
ブロック712において、変更ログから取り出された変更レコードのバッチに対応するドキュメント内のバッチ処理された変更は、インデクサに転送される。さらにインデクサに転送されるのは、インデクサによって格納される現行の変更IDである。インデクサは、次の増分クロールの最終変更IDとして現行の変更IDを使用する。現行の変更IDがインデクサによって格納され、索引が転送された変更済みコンテンツに従って更新されると、処理はブロック714に進み、そこで、プロセス700が終了する。
1つの実施形態において、複数の変更ログは、複数のデータベースに対応するサーバ上にあってもよい。複数の変更ログの場合、現行の変更IDおよび変更済みコンテンツは、インデクサに返される前に集約される。
前述の仕様、例およびデータは、本発明の構造の製造および使用について詳細に説明している。本発明の多くの実施例は、本発明の精神および範囲を逸脱することなく実行することができるため、本発明は添付されている特許請求の範囲に属している。
本発明の1つの例示的な実施形態において使用することができる例示的なコンピュータ装置を示す図である。 本発明が操作するネットワーク化システムの例示的なアーキテクチャを示す図である。 本発明によるネットワーク・ドキュメントのバッチ索引付けのためのインデクサおよびサーバ間の例示的な通信システムを示す機能ブロック図である。 本発明による初期クロール中のバッチ索引付けの例示的なプロセスを示す論理流れ図である。 本発明による変更ログを示す機能ブロック図である。 本発明による初期クロール中の変更ログの使用を初期化するための例示的なプロセスを示す論理流れ図である。 本発明による増分クロールのための例示的なプロセスを示す論理流れ図である。
符号の説明
100 コンピュータ装置
102 処理装置
104 システム・メモリ
105 オペレーティング・システム
106 アプリケーション
107 プログラム・データ
109 取り外し可能ストレージ
110 固定ストレージ
112 入力装置
114 出力装置
116 通信接続
118 他のコンピュータ装置
120 バッチ索引付け(BACHED INDEXING)
200 ネットワーク化システムの例示的なアーキテクチャ
204 サーバ
206 クローラ(CRAWLER)
208 インデクサ(INDEXER)
210 索引
212 ネットワーク
214 クライアント
215 ブラウザ
216 ネットワーク
218 リモート・サーバ
222、224 ドキュメント
230 検索エンジン
232、234 ドキュメント
250 Webサービス
300 システム
302 インデクサ(INDEXER)
310 サーバ
312 フロント・エンド
314 データベース
320 Webサービス
322 オブジェクト・モデル

Claims (25)

  1. リポジトリ内のドキュメントのバッチ索引付けのためのコンピュータ実装方法であって、
    前記リポジトリからドキュメントの第1のバッチを取得すること、
    ドキュメントの前記第1のバッチを索引付けすること、
    変更ログから、当該変更ログの以前のアクセス以降に変更されているドキュメントのリストを取得すること、
    前記リストに対応する前記リポジトリからドキュメントの第2のバッチを取得すること、および
    ドキュメントの前記第2のバッチを索引付けすること
    を備えることを特徴とする方法。
  2. 前記変更ログ内の最終更新位置を記録することをさらに備え、前記変更ログはドキュメントの前記第2のバッチの変更に対応するレコードを含むことを特徴とする請求項1に記載のコンピュータ実装の方法。
  3. 前記変更に対応する前記レコードはそれぞれ、イベント・タイプ、変更識別子、およびドキュメント識別ののうちの少なくとも1つを含むことを特徴とする請求項2に記載のコンピュータ実装の方法。
  4. 前記第1のバッチドキュメントのサイズを制限するバッチ・サイズ制限を設定することをさらに備えることを特徴とする請求項1に記載のコンピュータ実装の方法。
  5. ドキュメントの第1のバッチを取得することは、前記リポジトリ内の各ドキュメントに対応するメタデータを取得して、前記リポジトリ内のどのドキュメントをドキュメントの前記第1のバッチに含めるか否かを決定することをさらに備えることを特徴とする請求項1に記載のコンピュータ実装の方法。
  6. 前記メタデータは、前記ドキュメントのサイズおよび前記ドキュメントの拡張子のうちの少なくとも1つに対応することを特徴とする請求項5に記載のコンピュータ実装の方法。
  7. ドキュメントの第1のバッチを取得することは、ドキュメントの前記第1のバッチがドキュメントの前記第1のバッチよりも大きい数のドキュメントを含むドキュメント・コンテナに対応する場合、ドキュメントの前記第1のバッチにcookieを関連付けることをさらに備えることを特徴とする請求項1に記載のコンピュータ実装の方法。
  8. 変更されているドキュメントのリストを変更ログから取得する前に変更の要求を受け取ることをさらに備えることを特徴とする請求項1に記載のコンピュータ実装の方法。
  9. ドキュメントの前記第2のバッチを取得することが前記リポジトリへのより少ない要求しか必要としないように、前記リポジトリに関連付けられている階層に従って変更されたドキュメントの前記リストをソートすることをさらに備えることを特徴とする請求項1に記載のコンピュータ実装の方法。
  10. リポジトリ内のドキュメントのバッチ索引付けのためのシステムであって、
    検索クエリのためにドキュメントを索引付けするためのインデクサと、
    コンピュータ実行可能命令であって、
    前記リポジトリからドキュメントの第1のバッチを取得すること、
    ドキュメントの前記第1のバッチを前記インデクサに転送すること、
    変更ログから、前記変更ログの以前のアクセス以降に変更されているドキュメントのリストを取得すること、
    前記リストに対応する前記リポジトリからドキュメントの第2のバッチを取得すること、および
    ドキュメントの前記第2のバッチを前記インデクサに転送すること
    を備えるコンピュータ実行可能命令を実行するように構成されたサーバとして配置されたコンピュータ装置と
    を備えることを特徴とするシステム。
  11. 前記変更ログ内の最終更新位置を記録することをさらに備え、前記変更ログはドキュメントの前記第2のバッチの変更に対応するレコードを含むことを特徴とする請求項10に記載のシステム。
  12. 前記変更に対応する前記レコードはそれぞれ、イベント・タイプ、変更識別子、およびドキュメント識別のうちの少なくとも1つを含むことを特徴とする請求項11に記載のシステム。
  13. 前記第1のバッチドキュメントのサイズを制限するバッチ・サイズ制限を設定することをさらに備えることを特徴とする請求項10に記載のシステム。
  14. ドキュメントの第1のバッチを取得することは、前記リポジトリ内の各ドキュメントに対応するメタデータを取得して、前記リポジトリ内のどのドキュメントをドキュメントの前記第1のバッチに含めるか否かを決定することをさらに備えることを特徴とする請求項10に記載のシステム。
  15. 前記メタデータは、前記ドキュメントのサイズおよび前記ドキュメントの拡張子のうちの少なくとも1つに対応することを特徴とする請求項14に記載のシステム。
  16. ドキュメントの第1のバッチを取得することは、ドキュメントの前記第1のバッチがドキュメントの前記第1のバッチよりも大きい数のドキュメントを含むドキュメント・コンテナに対応する場合、ドキュメントの前記第1のバッチにcookieを関連付けることをさらに備えることを特徴とする請求項10に記載のシステム。
  17. 変更されているドキュメントのリストを変更ログから取得する前に変更の要求を受け取ることをさらに備えることを特徴とする請求項10に記載のシステム。
  18. ドキュメントの前記第2のバッチを取得することが前記リポジトリへのより少ない要求を必要とするように、前記リポジトリに関連付けられている階層に従って変更されたドキュメントの前記リストをソートすることをさらに備えることを特徴とする請求項10に記載のシステム。
  19. リポジトリ内のドキュメントのバッチ索引付けのためのコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記命令は、
    前記リポジトリからドキュメントの第1のバッチを取得すること、
    ドキュメントの前記第1のバッチをインデクサに転送すること、
    ドキュメントの第2のバッチの変更に対応するレコードを含む変更ログ内の最終更新位置を記録すること、
    前記最終更新位置を前記インデクサに転送すること、
    前記最終更新位置以降に変更されているドキュメントのリストを変更ログから取得すること、
    現在の更新位置を前記変更ログに記録すること、
    前記リストに対応する前記リポジトリからドキュメントの前記第2のバッチを取得すること、および
    ドキュメントの前記第2のバッチおよび前記現行の更新位置を前記インデクサに転送すること
    を備えるコンピュータ可読媒体。
  20. 前記変更に対応する前記レコードはそれぞれ、イベント・タイプ、変更識別子、およびドキュメント識別ののうちの少なくとも1つを含むことを特徴とする請求項19に記載のコンピュータ可読媒体。
  21. ドキュメントの第1のバッチを取得することは、前記リポジトリ内の各ドキュメントに対応するメタデータを取得して、前記リポジトリ内のどのドキュメントをドキュメントの前記第1のバッチに含めるか否かを決定することをさらに備えることを特徴とする請求項19に記載のコンピュータ可読媒体。
  22. 前記メタデータは、前記ドキュメントのサイズおよび前記ドキュメントの拡張子のうちの少なくとも1つに対応することを特徴とする請求項21に記載のコンピュータ可読媒体。
  23. ドキュメントの第1のバッチを取得することは、ドキュメントの前記第1のバッチがドキュメントの前記第1のバッチよりも大きい数のドキュメントを含むドキュメント・コンテナに対応する場合、ドキュメントの前記第1のバッチにcookieを関連付けることをさらに備えることを特徴とする請求項19に記載のコンピュータ可読媒体。
  24. ドキュメントの前記第2のバッチを取得することが前記リポジトリへのより少ない要求を必要とするように、前記リポジトリに関連付けられている階層に従って変更されたドキュメントの前記リストをソートすることをさらに備えることを特徴とする請求項19に記載のコンピュータ可読媒体。
  25. 前記最終更新位置を他の最終更新位置と集約すること、および
    ドキュメントを前記インデクサに提供するために追加のリポジトリが使用された場合に前記最終更新位置および前記現行の更新位置をインデクサに転送する前に、前記現行の更新位置を他の更新位置と集約すること
    をさらに備えることを特徴とする請求項19に記載のコンピュータ可読媒体。

JP2005187816A 2004-09-30 2005-06-28 ネットワーク・ドキュメントのバッチ索引付けのためのシステムおよび方法 Pending JP2006107446A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/956,891 US7644107B2 (en) 2004-09-30 2004-09-30 System and method for batched indexing of network documents

Publications (2)

Publication Number Publication Date
JP2006107446A true JP2006107446A (ja) 2006-04-20
JP2006107446A5 JP2006107446A5 (ja) 2008-08-14

Family

ID=35613902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005187816A Pending JP2006107446A (ja) 2004-09-30 2005-06-28 ネットワーク・ドキュメントのバッチ索引付けのためのシステムおよび方法

Country Status (5)

Country Link
US (1) US7644107B2 (ja)
EP (1) EP1643388A1 (ja)
JP (1) JP2006107446A (ja)
KR (1) KR100971863B1 (ja)
CN (1) CN1755676B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063447A (ja) * 2012-09-24 2014-04-10 Hitachi Solutions Ltd 業務文書処理装置、業務文書処理方法及び業務文書処理プログラム
JP2017526041A (ja) * 2014-06-26 2017-09-07 グーグル インコーポレイテッド バッチ最適化レンダリング及びフェッチアーキテクチャ
JP2020095434A (ja) * 2018-12-12 2020-06-18 富士通株式会社 通信装置、通信方法、および通信プログラム

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606793B2 (en) * 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
WO2007109249A2 (en) * 2006-03-20 2007-09-27 American Express Travel Related Services Company, Inc. System and method for an improved merge utility
KR100790991B1 (ko) * 2006-03-22 2008-01-03 삼성전자주식회사 데이터베이스 관리 시스템을 이용하여 파일시스템의메타데이터를 관리하는 방법
US8108388B2 (en) * 2006-04-26 2012-01-31 Microsoft Corporation Significant change search alerts
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US9348912B2 (en) * 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US8458727B2 (en) * 2007-11-05 2013-06-04 Microsoft Corporation Asynchronous client to server updates
US20090193406A1 (en) * 2008-01-29 2009-07-30 James Charles Williams Bulk Search Index Updates
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US20090327295A1 (en) * 2008-06-25 2009-12-31 Microsoft Corporation Maintenance of exo-file system metadata on removable storage device
US8001462B1 (en) * 2009-01-30 2011-08-16 Google Inc. Updating search engine document index based on calculated age of changed portions in a document
CN101510217B (zh) * 2009-03-09 2013-06-05 阿里巴巴集团控股有限公司 图像数据库中的图像更新方法、服务器及系统
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8332408B1 (en) 2010-08-23 2012-12-11 Google Inc. Date-based web page annotation
US9235620B2 (en) 2012-08-14 2016-01-12 Amadeus S.A.S. Updating cached database query results
EP2541473A1 (en) 2011-06-27 2013-01-02 Amadeus S.A.S. Method and system for a pre-shopping reservation system with increased search efficiency
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
JP6138915B2 (ja) * 2012-04-26 2017-05-31 アマデウス エス.アー.エス.Amadeus S.A.S. バッチ指向型の計算を用いるデータベースシステム
US9229960B2 (en) 2013-02-11 2016-01-05 International Business Machines Corporation Database management delete efficiency
US20140244516A1 (en) 2013-02-25 2014-08-28 Carrier Iq, Inc. Mobile Wireless Customer Micro-Care Apparatus and Method
US20140244517A1 (en) * 2013-02-25 2014-08-28 Carrier Iq, Inc. Incremental Batch Method for Transforming Event-driven Metrics and Measures within a Map/Reduce Data Center
US9378234B2 (en) 2013-03-11 2016-06-28 International Business Machines Corporation Management of updates in a database system
US9229968B2 (en) 2013-03-11 2016-01-05 Intenational Business Machines Corporation Management of searches in a database system
WO2015196410A1 (en) 2014-06-26 2015-12-30 Google Inc. Optimized browser render process
EP3161610B1 (en) 2014-06-26 2020-08-05 Google LLC Optimized browser rendering process
US10742764B2 (en) 2015-07-27 2020-08-11 Adp, Llc Web page generation system
US10324600B2 (en) 2015-07-27 2019-06-18 Adp, Llc Web page generation system
US10417317B2 (en) 2015-07-27 2019-09-17 Adp, Llc Web page profiler
CN107784009A (zh) * 2016-08-29 2018-03-09 中兴通讯股份有限公司 数据查询、数据查询处理方法及装置
CN106484840A (zh) * 2016-09-30 2017-03-08 上海聚力传媒技术有限公司 自动更新垂直检索索引的方法和装置
US10652309B2 (en) * 2017-09-19 2020-05-12 FinancialForce.com, Inc. Mechanism to allow a messaging system to automatically switch to asynchronous operation due to high demand
US11163792B2 (en) * 2019-05-29 2021-11-02 International Business Machines Corporation Work assignment in parallelized database synchronization
US11507786B2 (en) 2019-11-04 2022-11-22 FinancialForce.com, Inc. Dynamic generation of client-specific feature maps
CN111930702A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 日志处理方法、装置、系统及介质
US11803518B2 (en) 2020-10-01 2023-10-31 Hewlett Packard Enterprise Development Lp Journals to record metadata changes in a storage system
CN112860649A (zh) * 2021-02-03 2021-05-28 深圳市木浪云数据有限公司 增量生成索引的方法、装置及系统
CN113434509B (zh) * 2021-07-02 2023-07-18 挂号网(杭州)科技有限公司 一种增量索引的更新方法、装置、存储介质及电子设备
US12061581B2 (en) 2022-07-26 2024-08-13 Hewlett Packard Enterprise Development Lp Matching operation for a deduplication storage system

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62297950A (ja) * 1986-06-13 1987-12-25 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション デ−タ・システムのジャ−ナリング方法
JPH04274533A (ja) * 1991-02-28 1992-09-30 Nec Corp データベース更新装置
JPH10240757A (ja) * 1997-02-27 1998-09-11 Hitachi Ltd 協調分散検索システム
JP2001117934A (ja) * 1999-10-19 2001-04-27 Hitachi Ltd 電子文書管理方法及びシステム並びに記録媒体
US6418452B1 (en) * 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service directory for efficient web crawling
JP2003208434A (ja) * 2001-11-07 2003-07-25 Nec Corp 情報検索システム及びそれに用いる情報検索方法
US6638314B1 (en) * 1998-06-26 2003-10-28 Microsoft Corporation Method of web crawling utilizing crawl numbers
JP2004265015A (ja) * 2003-02-28 2004-09-24 Toyota Motor Corp コンテンツ検索用インデックス生成装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5855020A (en) * 1996-02-21 1998-12-29 Infoseek Corporation Web scan process
US6038610A (en) * 1996-07-17 2000-03-14 Microsoft Corporation Storage of sitemaps at server sites for holding information regarding content
US6415319B1 (en) * 1997-02-07 2002-07-02 Sun Microsystems, Inc. Intelligent network browser using incremental conceptual indexer
US5956722A (en) * 1997-09-23 1999-09-21 At&T Corp. Method for effective indexing of partially dynamic documents
US7010532B1 (en) * 1997-12-31 2006-03-07 International Business Machines Corporation Low overhead methods and apparatus for shared access storage devices
US6424966B1 (en) * 1998-06-30 2002-07-23 Microsoft Corporation Synchronizing crawler with notification source
US6631369B1 (en) * 1999-06-30 2003-10-07 Microsoft Corporation Method and system for incremental web crawling
CA2279119C (en) 1999-07-29 2004-10-19 Ibm Canada Limited-Ibm Canada Limitee Heuristic-based conditional data indexing
US6687698B1 (en) * 1999-10-18 2004-02-03 Fisher Rosemount Systems, Inc. Accessing and updating a configuration database from distributed physical locations within a process control system
US6418453B1 (en) * 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service for efficient web crawling
US6842761B2 (en) 2000-11-21 2005-01-11 America Online, Inc. Full-text relevancy ranking
US20040064442A1 (en) * 2002-09-27 2004-04-01 Popovitch Steven Gregory Incremental search engine
US7085755B2 (en) * 2002-11-07 2006-08-01 Thomson Global Resources Ag Electronic document repository management and access system
US7552109B2 (en) * 2003-10-15 2009-06-23 International Business Machines Corporation System, method, and service for collaborative focused crawling of documents on a network
US8131674B2 (en) * 2004-06-25 2012-03-06 Apple Inc. Methods and systems for managing data
US7730012B2 (en) * 2004-06-25 2010-06-01 Apple Inc. Methods and systems for managing data
US7653617B2 (en) * 2005-08-29 2010-01-26 Google Inc. Mobile sitemaps

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62297950A (ja) * 1986-06-13 1987-12-25 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション デ−タ・システムのジャ−ナリング方法
JPH04274533A (ja) * 1991-02-28 1992-09-30 Nec Corp データベース更新装置
JPH10240757A (ja) * 1997-02-27 1998-09-11 Hitachi Ltd 協調分散検索システム
US6638314B1 (en) * 1998-06-26 2003-10-28 Microsoft Corporation Method of web crawling utilizing crawl numbers
JP2001117934A (ja) * 1999-10-19 2001-04-27 Hitachi Ltd 電子文書管理方法及びシステム並びに記録媒体
US6418452B1 (en) * 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service directory for efficient web crawling
JP2003208434A (ja) * 2001-11-07 2003-07-25 Nec Corp 情報検索システム及びそれに用いる情報検索方法
JP2004265015A (ja) * 2003-02-28 2004-09-24 Toyota Motor Corp コンテンツ検索用インデックス生成装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063447A (ja) * 2012-09-24 2014-04-10 Hitachi Solutions Ltd 業務文書処理装置、業務文書処理方法及び業務文書処理プログラム
JP2017526041A (ja) * 2014-06-26 2017-09-07 グーグル インコーポレイテッド バッチ最適化レンダリング及びフェッチアーキテクチャ
JP2020095434A (ja) * 2018-12-12 2020-06-18 富士通株式会社 通信装置、通信方法、および通信プログラム
JP7131357B2 (ja) 2018-12-12 2022-09-06 富士通株式会社 通信装置、通信方法、および通信プログラム

Also Published As

Publication number Publication date
US20060074911A1 (en) 2006-04-06
KR100971863B1 (ko) 2010-07-22
CN1755676B (zh) 2013-01-23
KR20060048655A (ko) 2006-05-18
US7644107B2 (en) 2010-01-05
CN1755676A (zh) 2006-04-05
EP1643388A1 (en) 2006-04-05

Similar Documents

Publication Publication Date Title
JP2006107446A (ja) ネットワーク・ドキュメントのバッチ索引付けのためのシステムおよび方法
JP6006267B2 (ja) 索引キーを使用して検索を絞込むシステムおよび方法
US11860874B2 (en) Multi-partitioning data for combination operations
US11151137B2 (en) Multi-partition operation in combination operations
JP6669892B2 (ja) 分散型データストアのバージョン化された階層型データ構造
US9805079B2 (en) Executing constant time relational queries against structured and semi-structured data
US7836056B2 (en) Location management of off-premise resources
JP5373846B2 (ja) リレーショナルシステムにおける階層的に編成された情報にアクセスするための階層的インデックス付け
JP4406609B2 (ja) 単一のインターフェイスからのデータの多重階層を管理するための手法
JP5710851B2 (ja) 影響分析のためのシステムおよび方法
US20080082490A1 (en) Rich index to cloud-based resources
US20080140606A1 (en) Searching Descendant Pages for Persistent Keywords
US20050165718A1 (en) Pipelined architecture for global analysis and index building
US20140046928A1 (en) Query plans with parameter markers in place of object identifiers
US11574025B2 (en) Systems and methods for managed asset distribution in a distributed heterogeneous storage environment
US8661069B1 (en) Predictive-based clustering with representative redirect targets
US7627547B2 (en) Processing path-based database operations
KR102253841B1 (ko) 대용량 분산 파일 시스템에서 데이터의 수정을 포함하는 트랜잭션 처리 장치 및 컴퓨터로 읽을 수 있는 기록매체

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080630

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110819

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120316