JP2009535691A - 有意な変更検索アラート - Google Patents

有意な変更検索アラート Download PDF

Info

Publication number
JP2009535691A
JP2009535691A JP2009507686A JP2009507686A JP2009535691A JP 2009535691 A JP2009535691 A JP 2009535691A JP 2009507686 A JP2009507686 A JP 2009507686A JP 2009507686 A JP2009507686 A JP 2009507686A JP 2009535691 A JP2009535691 A JP 2009535691A
Authority
JP
Japan
Prior art keywords
search
document
time
identified
digital signature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009507686A
Other languages
English (en)
Other versions
JP5265523B2 (ja
Inventor
ギデオニ マイケル
メイヤーソン ドミトリー
ジェイ.フラブル マントン
ニーゴビチ−ニーゴエスク ミルチア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2009535691A publication Critical patent/JP2009535691A/ja
Application granted granted Critical
Publication of JP5265523B2 publication Critical patent/JP5265523B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

アラート検索機構が、所望のドキュメントおよび/またはリソースを検索するためにクローラなどの検索エンジンと共に使用される。特定のドキュメントが検索クエリを使用することにより見つけられる。検索機構は、クエリにおける関連プロパティのセットの値を追跡する。システムによってドキュメントが検索される度に、これらのプロパティのセットの値が、古い値と突き合わせられる。一致がない場合、これが、ドキュメントが変更していることを示す。

Description

検索アラートは、システムに保持される永続的なクエリ(queries)である。システムが、永続的なクエリに適合する新たなクエリ結果(たとえばドキュメント、リストアイテム、フォルダなど)を識別する度に、アラートユーザはその結果について通知される。アラートユーザは一般的に、自身に送信されるアラートの頻度を選択することができる。たとえば、アラートを送信する頻度を日次とすることができる。
ところが、無関係な結果を(あまりにも頻繁に)送信することによって、検索アラートユーザのための検索アラート結果がユーザにとって煩わしいものになることがある。具体的には、無関係な結果は、ユーザにとって関心のない、ドキュメントの検索における変更によって生成される。
たとえば、あるユーザが「特許」という用語を検索したいと思い、システム(インターネットを介してネットワーク化されたコンピュータなど)において、この検索のための日次のアラートを作成する。ユーザは、典型的に、その前日に発見されたすべての結果を含んだ日次の通知を受け取ることになる。システムは、その前日中にシステムにより発見された、または修正された「特許」という用語を含むすべてのドキュメントをリスト化した結果を返す。多くの場合、特定の変更は、それを通知されるユーザにとって十分に関心のあるものではなく、煩わしいものとみなされることがある。ドキュメントが、ユーザには認識できないセキュリティ記述子の変更、または他のプロパティに対する変更を有し得る場合、ユーザはその結果を煩わしいものとみなすことがある。
本概要は、一揃いの概念を簡略化した形で導入するために示されるものであり、その概念は下記の詳細な説明においてさらに説明される。本概要は、特許請求される主題の重要な特徴または本質的な特徴を特定することも、特許請求される主題の範囲を決定する一助となることも意図していない。
本開示は、クエリにおいて関連プロパティのセットのみの値を追跡するアラート検索機構を対象とする。システムによってドキュメントがクロール(crawl)される度に、このプロパティのセットの値(「コンテンツ署名」と呼ばれる)が古い値(「旧コンテンツ署名」と呼ばれる)と突き合わせられる。一致がない場合、これが、ドキュメントが変更していることを示す。非関心のプロパティ(セキュリティ記述子など)のみが変更した場合、このプロパティの値は旧コンテンツ署名にも新コンテンツ署名にも追跡されなかったため、したがって尚も一致があるために、ドキュメントは変更しているように見えないことになる。
さらに、ドキュメントについての関連プロパティのセット(たとえばスキーマ(schema))は管理者が変更することができる。たとえば、「関連セット」にプロパティが追加されることによりプロパティのセットが変更される場合、ドキュメントは変更しているように見えることになる。ドキュメントが変更しているように見えるのは、旧コンテンツ署名が、新コンテンツ署名とは異なるプロパティのセットを含み、それにより異なるコンテンツが突き合わせられ得るからである。こうして、システムは、ドキュメントそのものではなく、ドキュメントについてのスキーマが変更していると判定することができる。一実施形態では、システムはこの状況を、チェックサムなどの「スキーマバージョン(schema version)」デジタル署名を追跡することによって検出することができる。新コンテンツ署名が旧コンテンツ署名と一致せず、かつ「スキーマバージョン」が変更していない場合、ドキュメントは変更されている。「スキーマバージョン」も変更している場合は、ドキュメントは変更されていないとみなすことができる(なぜなら、実際には変更されていないドキュメントについての通知を送信することによってユーザを煩わせる可能性のあるアラートの送信は避けた方がよいことがあるからである)。
これらおよび他の特徴ならびに利点は、下記の詳細な説明を読むこと、および関連する図面を検討することによって明らかになるであろう。上記の一般的な説明および下記の詳細な説明のいずれも、単に説明的なものであり、特許請求される本発明を限定するものではないことを理解されたい。
本明細書の一部を成し、特定の実施形態を例示によって示す添付の図面を参照して、実施形態が以下でさらに詳しく説明される。とりわけ、本明細書で説明されるさまざまな実施形態が、方法、デバイス、またはそれらの組合せとして具体化されてよい。同様に、さまざまな実施形態は、完全にハードウエアによる実施形態、完全にソフトウエアによる実施形態、またはソフトウエアとハードウエアの態様を組み合わせる実施形態の形をとってよい。したがって、以下の詳細な説明は、限定する意味において捉えられるべきではない。
図1を参照すると、本発明を実装するための1つの例示的なシステムは、コンピューティングデバイス100などのコンピューティングデバイスを含む。コンピューティングデバイス100は、クライアント、サーバ、モバイルデバイス、またはネットワークベースの共同システムにおいてデータをやり取りする他の任意のコンピューティングデバイスとして構成することができる。極めて基本的な構成では、コンピューティングデバイス100は、典型的に少なくとも1つの処理ユニット102およびシステムメモリ104を含む。厳密な構成およびコンピューティングデバイスのタイプによって、システムメモリ104は、揮発性(RAMなど)、不揮発性(ROM、フラッシュメモリ、他など)またはそれら2つの何らかの組合せであってよい。システムメモリ104は、典型的にはオペレーティングシステム105と、1つまたは複数のアプリケーション106とを含み、プログラムデータ107を含んでもよい。図2〜4を参照して以下で詳細に説明されるアラート通知サービス108は、システムメモリ104内に実装される。
コンピューティングデバイス100は、追加の特徴または機能を有することができる。たとえばコンピューティングデバイス100は、たとえば、磁気ディスク、光学ディスク、またはテープなどの追加の(着脱可能および/または着脱不可能な)データ記憶デバイスを含むこともできる。こうした追加の記憶装置は、着脱可能な記憶装置109および着脱不可能な記憶装置110により、図1に示されている。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術において実装される、揮発性および不揮発性、着脱可能および着脱不可能な媒体を含むことができる。システムメモリ104、着脱可能な記憶装置109、および着脱不可能な記憶装置110は、すべてコンピュータ記憶媒体の例である。コンピュータ記憶媒体には、以下に限らないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタルバーサタイルディスク(DVD)または他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは所望の情報を記憶するために使用でき、コンピューティングデバイス100によってアクセスできる他の任意の媒体が含まれる。こうした任意のコンピュータ記憶媒体は、デバイス100の部分であってよい。コンピューティングデバイス100はまた、キーボード、マウス、ペン、音声入力デバイス、タッチ入力デバイスなどの1つまたは複数の入力デバイス112を有することができる。ディスプレイ、スピーカ、プリンタなどの1つまたは複数の出力デバイス114も含まれてよい。
コンピューティングデバイス100はまた、ネットワークなどを介して他のコンピューティングデバイス118と通信することを可能にする通信接続部116を含む。ネットワークには、ローカルエリアネットワーク、ワイドエリアネットワーク、ならびにそれだけに限らないが、イントラネットおよびエクストラネットを含む他の大規模ネットワークが含まれる。通信接続部116は、通信媒体の一例である。通信媒体は、典型的には、コンピュータ可読命令、データ構造、プログラムモジュール、またはモジュール化されたデータ信号における他のデータ(たとえば搬送波または他の搬送機構)によって具体化されることができ、任意の情報伝達媒体を含む。用語「モジュール化されたデータ信号」とは、信号中の情報を符号化するように設定または変更された1つまたは複数の信号特性を有する信号を意味する。限定ではなく例示として、通信媒体には、有線ネットワークまたは直接有線接続などの有線媒体と、音響、RF、赤外線および他の無線媒体などの無線媒体とが含まれる。本明細書で使用される用語「コンピュータ可読媒体」には、記憶媒体と通信媒体との両方が含まれる。
本開示は、クエリにおいて関連プロパティのセットの値を追跡するアラート検索機構を対象とする。体系的なやり方でワールドワイドウェブをブラウズする自動化プログラムであるウェブクローラは、ドキュメントを検索するために使用できる。たとえばシステムによってドキュメントが「クロール」される度に、これらのプロパティのセットの値(「コンテンツ署名」と呼ばれる)が、古い値(「旧コンテンツ署名」と呼ばれる)と突き合わせられる。(ドキュメントは、ドキュメントプロパティそのものの値を比較することによって突き合わせることもできるが、これは通常、たとえばその後比較され得る署名を生成するためにMD5ハッシュ関数を使用することほどには効率的ではない)。一致がない場合、これが、変更している関心のあるコンテンツをドキュメントが有することを示す。非関心のプロパティ(セキュリティ記述子など)のみが変更している場合、このプロパティの値は旧コンテンツ署名にも新コンテンツ署名にも追跡されなかったため、ドキュメントには通常、変更されたものとしてのフラグは立てられない。
ドキュメントについての関連プロパティのセット(たとえばスキーマ)は管理者が変更することができる。たとえば「関連セット」にプロパティが追加されることによりこのセットが変更される場合、ドキュメントは変更しているように見えることになる。ドキュメントが変更しているように見えるのは、旧コンテンツ署名が、新コンテンツ署名とは異なるプロパティのセットを含み、それにより異なるコンテンツが突き合わせられ得るからである。したがって、システムは、ドキュメントそのものではなく、ドキュメントについてのスキーマが変更していると判定することができる。
たとえば、関連プロパティのセットがプロパティAおよびプロパティBである場合、(旧)コンテンツ署名はプロパティAの値とプロパティBの値とを含む。管理者が、関連プロパティのセットにプロパティCを追加するとき、スキーマが変更する。新コンテンツ署名は、典型的にすべてのプロパティの値(A、BおよびC)を含むことになる。((A+B+C)を含む)新コンテンツ署名が、旧コンテンツ署名(A+B)と比較されるとき、値は一致しない。値が一致しないとき、AとBのプロパティ値そのものは変更していないにもかかわらず、こうしてドキュメントは変更しているように見える。
システムはこの状況を、チェックサムなどの「スキーマバージョン」デジタル署名を追跡することによって検出することができる。たとえば、プロパティ値を含まないプロパティ識別子のチェックサムを追跡できる。プロパティ識別子のチェックサムの追跡は、典型的にドキュメント中の関連プロパティの存在を取り込むことになる。新コンテンツ署名が旧コンテンツ署名と一致せず、かつ「スキーマバージョン」が変更していない場合、ドキュメントは変更されている。「スキーマバージョン」も変更している場合は、ドキュメントは変更されていないとみなされることができる。
図2は、本発明の態様による有意な変更検索アラートのためのシステムのブロック図を示す。ギャザラアプリケーション(Gatherer application)210は、複数の記憶装置、さまざまなフォーマットおよび言語からのドキュメントなどの検索対象アイテムを集めるための包括的な機構を提供する。ギャザラアプリケーション210は、ドキュメントのコンテンツを、主にドキュメント全体にわたるフルテキストインデックスを構築するのに適した統一化されたフォーマットに体系化する。ギャザラパイプライン(Gatherer pipeline)220は、集められたドキュメントへのアクセスを複数のコンシューマ(consumer)に提供する。ギャザラアプリケーション210は、典型的に、ドキュメントを一度フェッチし、複数のコンシューマによる同一データを処理することを可能にする。
ARPI(アーカイバルプラグイン(archival plugin))は、ギャザラパイプラインのコンシューマである。ドキュメントがギャザラアプリケーション210によってクロールされるとき、デジタル署名(MD5ハッシュ関数など)が、クロールされるドキュメントのコンテンツについて計算される。ARPIは、残りのプロパティに加えてMD5ハッシュをプロパティストア(Property Store)(SQLデータベース240に記憶されるものなど)に書き込む。さらに、ARPIは、ドキュメント中のすべての関連プロパティの(たとえば)チェックサムであり得るスキーマ署名を書き込むこともできる。
図3は、本発明の態様によるシステム検索アラートクエリ処理機構のブロック図を示す。ユーザが検索アラートを作成すると、結果としてのアラートクエリが検索アラートハンドラ310に記憶される。次いでアラートは、たとえば日次または週次などの特定量(たとえば所定の期間であってよい)で、トリガされる。アラートがトリガされると、検索アラートハンドラ310が、アラートのユーザに通知すべき新しい結果があるかどうかを調べるために、検索クエリを実行する。オブジェクトモデル320はクエリを受信し、そのクエリをクエリプロセッサ330に転送する。クエリプロセッサ330は、プロパティストア340およびフルテキストインデックス350に対し、クエリコマンドを発行する。下記で説明するように、クエリは、たとえば、検索クエリに適合し、前回の通知時刻よりも後に追加されている新しいドキュメントがあるかどうか、または前回の通知時刻以降変更している何らかの関連ドキュメントがあるかどうかを判定するために使用される。
前回の通知時刻よりも後に作成/変更され、ランク順に並べられた上位10件の結果をフェッチする例示的なクエリが以下である。
Figure 2009535691
上記で説明したように、ユーザは、アラートユーザにとって関係のない変更を有するドキュメントを含む検索結果を示されることが多い。その主な理由の1つが、デジタル署名(MD5ハッシュなど)が、任意の追跡可能なスキーマセットのプロパティを基に計算されることである。管理者がプロパティを追加しているかまたはこのセットからプロパティを除去している場合、それだけで、アラートは誤ってトリガされ得るであろう。
フルテキストインデックスが作成されると、ドキュメントについての新しいプロパティが計算され、(ARPIによって)プロパティストアに追加される。新しいプロパティは、検索対象ドキュメントの「DiscoveryTime」および「ModificationTime」などのプロパティを設定するために使用される。DiscoveryTimeは、クロールを実行するギャザラアプリケーションによってドキュメントが発見された最初の時刻である。ModificationTimeは、以前のクロール以降にドキュメントになされた何らかの有意な修正があった時を示す。
「ModificationTime」プロパティを決定するために、「UrlSignature」プロパティ、ContentSignatureプロパティ、SchemaSignatureプロパティ、およびSchemaModificationTimeプロパティが追跡される。SQLテーブルのMSSAlertDocHistoryは、システムによって処理されているすべてのドキュメントおよびリソースについてのプロパティを追跡するのに使用することができる。
たとえば、UrlSignatureプロパティは、URLのMD5ハッシュであり、ContentSignatureは、アラートによって追跡されるプロパティ上のMD5ハッシュであり、SchemaSignatureプロパティは、アラートによって追跡されるプロパティのセットのチェックサム(またはMD5ハッシュを含む他の適切なデジタル署名)であり、SchemaModifcationTimeプロパティは、アラートによって追跡されるプロパティのセットが変更された前回の時刻である。「ModificationTime」プロパティはまた、ドキュメントが前回変更された時を特定するために使用することができる。
プロパティのセットに対して変更が行われるとき、変更はアラート通知システムのギャザラアプリケーションによって検出される。アラート通知システムは、典型的に、実際に変更されたものが「関連プロパティ」のセットであったときには、ドキュメントが変更したことをユーザに通知することを選択しない。なぜなら、新しいプロパティが関連プロパティのセットに単に追加されるとき、またはプロパティが関連プロパティのセットから単に除去されるときには、一般的にユーザは関心がないからである。
図4は、本発明の態様によるアラート通知をトリガするかどうかを決定するプロセスの流れ図である。ドキュメント410が発見されているまたは修正されているかどうかを判定するために、動作420で、プロセス(ギャザラアプリケーション210など)はドキュメント410に関連づけられたURLのデジタル署名が変更されているかどうかを判定する。プロセスが、デジタル署名について一致がないと判定する場合、プロセスは動作430に進み、そこでアラートシステムが、新しい関心のあるドキュメントが最近作成されていることを報告する。プロセスがURL署名について一致があると判定する場合、プロセスは動作440に進む。
2つのドキュメントが同一のUrlSignatureプロパティを示す場合、問題になる可能性がある。2つのドキュメントが同一のUrlSignatureプロパティを示し、かつ完全なクロールが行われているとき、システムは、関連のある変更が実際にはない可能性のときに、関連のある変更があると報告することがある。64ビットのMD5ハッシュを実行し保存することにより、コーパス(たとえばドキュメントのテキスト本文)が非常に大きい場合でも、この問題は極めて起こりにくくなる。この問題をさらに起こりにくくするために、UrlSignatureを保存することに加えて、そのURL全体を保存することができる。
動作440で、プロセスは、ドキュメント410に関連づけられたコンテンツのデジタル署名が変更されているかどうかを判定する。プロセスがコンテンツ署名について一致がないと判定する場合、プロセスは動作450に進む。プロセスがコンテンツ署名について一致があると判定する場合、プロセスは動作470に進む。
動作450で、プロセスは、ドキュメント410に関連づけられたスキーマが変更されているかどうかを判定する。プロセスが、スキーマが変更されていると判定する場合、スキーマ署名およびスキーマ修正時刻のプロパティが更新される。(プロセスが、スキーマは変更されていないと判定する場合は、ドキュメント410に関連づけられたプロパティは、通常更新される必要はない)。
動作470で、プロセスは、スキーマ署名が変更されているかどうかを判定する。プロセスが、スキーマが変更されていると判定した場合、プロセスは動作490に進み、ここでスキーマ署名プロパティおよびスキーマ修正時刻プロパティが更新される(ドキュメント修正時刻プロパティは、通常更新されない)。プロセスが、スキーマは変更されていないと判定する場合、プロセスは動作480に進む。動作480で、アラートシステムにより、関心のあるドキュメントが最近修正されているという通知が送信される。修正時刻プロパティもまた更新される。
表1は、既存のドキュメントに対して変更が行われるときに起こる、よくあるシナリオを示す。
Figure 2009535691
時刻T0で、既存のドキュメントプロパティの状態によるアラート通知が行われており、コンテンツ署名、スキーマ署名、発見時刻、スキーマ修正時刻および修正時刻が、それぞれX、Y、T、TおよびTとして記録される。
時刻T1で、ドキュメントに対する最初の変更が行われる。クロールが行われていないため、ドキュメントに対する変更はドキュメントプロパティには影響せず、変更はシステムによって通知されていない。
時刻T2で、クロールが行われる。コンテンツ署名中の変更が検出され、コンテンツ署名の状態がX1に更新される。修正時刻の状態がT2に更新される。(クロールは通常継続ベースで行われるために、この時点でのアラート通知は行われないが、一方で、表中に示されるように、時刻T0およびT5で発生するアラート通知など、アラート通知が所定の間隔で行われることがある)。
時刻T3で、ドキュメントに対する2回目の変更が行われる。ドキュメントに対する変更は、クロールが行われるまでドキュメントプロパティに影響しない。
時刻T4で、2回目のクロールが行われる。コンテンツ署名中の変更が検出され、コンテンツ署名の状態がX2に更新され、修正時刻がT4に更新される。
時刻T5で、アラート通知が行われる。アラート通知システムのユーザは、既存のドキュメントに対する第1および第2の変更を通知される。
表2は、既存のドキュメントに対して、および既存のドキュメントに関連づけられたスキーマに対して変更が行われる時を示す。
Figure 2009535691
時刻T0で、既存のドキュメントプロパティの状態によるアラート通知が行われており、コンテンツ署名、スキーマ署名、発見時刻、スキーマ修正時刻および修正時刻が、それぞれX、Y、T、TおよびTとして記録される。
時刻T1でクロールが行われ、ここではドキュメントまたはスキーマに対する変更は検出されていない。
時刻T2で、スキーマ変更が行われる。(クロールは通常継続ベースで行われるために、この時点でのアラート通知は行われないが、一方で、表中に示されるように、時刻T0およびT5で発生するアラート通知など、アラート通知が所定の間隔で行われることがある)。
時刻T3で、ドキュメントに対する変更が行われる。ドキュメントに対する変更は、クロールが行われるまでドキュメントプロパティに影響しない。
時刻T4で、2回目のクロールが行われる。コンテンツ署名中の変更が検出され、コンテンツ署名の状態がX2に更新され、スキーマ署名の状態がY1に更新され、スキーマ修正時刻がT4に更新される。スキーマ修正時刻の状態も変更されているために、コンテンツ署名の状態はX1からX2に変更されているにもかかわらず、修正時刻の状態は更新されない。コンテンツ署名に対する変更がドキュメントの関心のあるプロパティのうちの1つにおける実際の変更による結果であるべきかどうか、またはこの変更が追跡されているプロパティのセットにおける変更による結果であるべきかどうかは、必ずしも明らかではない。
時刻T5で、アラート通知時刻が発生する。スキーマが変更されているために、アラート通知システムのユーザは、既存のドキュメントに対する変更を通知されない。
代替の実施形態では、「関連プロパティ」のセットにあるプロパティのリストがバージョン情報と共に追跡されてよい。プロパティのセットに対して変更が行われる度に、バージョンレベルを上げることができる。またバージョンレベルを、(図3に関して上述した)SQLテーブルのMSSAlertDocHistoryに記憶することができる。クロールが行われ、現行のバージョンが記憶されているバージョンと異なると、テーブルの中のバージョン値およびスキーマ署名プロパティの値が更新され、一方でスキーマ修正時刻は更新されず、同じままである。したがって、前回のアラート通知よりも後(しかし、関連プロパティのセットに対する変更よりも前)に既存のドキュメントに対して行われるすべての変更は、通常、ユーザに送信される。また、関連プロパティのセットに対して行われる変更よりも後に行われる既存のドキュメントに対するすべての変更は、ユーザに送信されない。
代替の実施形態では、実際に行われたいくつかの変更をユーザに報告しないことにすることも可能である。この実施形態は、過多の無関係な通知を優先して、いくつかの有効な通知を使用するポリシーに従って使用することができる。
別の実施形態では、基本プロパティの署名が、所定のプロパティのセットに対して行われる変更を追跡するのに使用されてよい。追跡可能なプロパティのバージョンが、SQLテーブルのMSSAlertDocHistoryに保持されているバージョンと一致しないとき、基本プロパティの署名を調べることができる。基本的なプロパティの署名が一致しない場合、ユーザはその変更を通知されてよい。したがって、ユーザが逃す通知は、単に追跡可能なプロパティに対する変更に基づいてなされた通知と比較して、より少ない数の通知となる。
さらに別の実施形態では、クローラが実際に同一のドキュメントを複数回再発見したときの確認を助けるために、URL署名が追跡されてよい。たとえば、管理者が、クロール中に使用されるルールを修正するとき、またはアカウント証明書を修正するとき、多くのドキュメントがクローラにアクセスできなくなることがある。問題の修正にあたり、度々多くのドキュメントがまずインデックスから削除され、その後再追加される。この問題に対処するために、目録からのコンテンツの除去に関するクローラの挙動にかかわらず、URL署名が維持される(かつ削除されない)。したがって、維持されるURL署名を、再追加されたコンテンツに起因する誤った通知を避けるために調べることができる。
図5は、検索アラート結果を送信するプロセスを示す流れ図である。プロセス500の動作510で、第1の検索エンジンから第1のクエリ結果が受信され、このクエリ結果は、リソースを特定するための第1の検索値を含む第1のクエリに応答して得られる。動作520で、第1の検索クエリ結果によって識別されるリソースの第1の関連部分から第1のデジタル署名が形成され、第1の関連部分は第1の検索値によって識別されるコンテンツを含む。動作530で、第2の検索エンジンから第2のクエリ結果が受信され、このクエリ結果は、第1の検索クエリを含む第2のクエリに応答して得られ、第2の検索エンジンは第1の検索エンジンと同一、または異なるエンジンである。動作540で、第2の検索クエリ結果によって識別されるリソースの第2の関連部分から第2のデジタル署名が形成され、第2の関連部分は第1の検索値によって識別されるコンテンツを含む。動作550で、異なる第1のデジタル署名と第2のデジタル署名との比較に応答して、ユーザに通知が送信される。
上述した詳細、例示およびデータは、本発明の構成における製造および使用の完全な説明を示す。本発明の精神および範囲を逸脱することなく、本発明の多くの実施形態が可能であることから、本発明は添付の特許請求の範囲に帰するものである。
本発明の例示的な実施形態に従って使用できるコンピューティングデバイスを示す図である。 有意な変更検索アラートのためのシステムのブロック図である。 システム検索アラートクエリ処理機構のブロック図である。 アラート通知をトリガするかどうかを決定するプロセスの流れ図である。 検索アラート結果を送信するプロセスを示す流れ図である。

Claims (20)

  1. 検索アラート結果を送信するためにコンピュータに実装される方法であって、
    第1の検索エンジンから第1のクエリ結果を受信するステップであって、前記クエリ結果はリソースを特定するための第1の検索値を含む第1のクエリに応答して得られる、受信するステップと、
    前記第1の検索クエリ結果によって識別される前記リソースの第1の関連部分の第1のデジタル署名を形成するステップであって、前記第1の関連部分は、前記第1の検索値によって識別されるコンテンツを含む、形成するステップと、
    第2の検索エンジンから第2のクエリ結果を受信するステップであって、前記クエリ結果は前記第1の検索クエリを含む第2のクエリに応答して得られ、前記第2の検索エンジンは前記第1の検索エンジンと同一または異なる、受信するステップと、
    前記第2の検索クエリ結果によって識別される前記リソースの第2の関連部分の第2のデジタル署名を形成するステップであって、前記第2の関連部分は、前記第1の検索値によって識別されるコンテンツを含む、形成するステップと、
    異なる前記第1のデジタル署名と前記第2のデジタル署名との比較に応答して、ユーザに通知を送信するステップと
    を含むことを特徴とする方法。
  2. 前記第1の検索クエリ結果によって識別される前記リソースの第3の関連部分の第3のデジタル署名を形成するステップであって、前記第3の関連部分は、第2の検索値によって識別されるコンテンツを含む、形成するステップと、
    前記第2の検索クエリ結果によって識別される前記リソースの第4の関連部分の第4のデジタル署名を形成するステップであって、前記第4の関連部分は、前記第1のデジタル署名と前記第2のデジタル署名とを比較する前記第2の検索値によって識別されるコンテンツを含む、形成するステップと、
    異なる前記第3のデジタル署名と第4のデジタル署名との比較に応答して、ユーザに通知を送信するステップとをさらに含むことを特徴とする請求項1に記載の方法。
  3. 前記第1の検索値は関連プロパティのセットを含むことを特徴とする請求項1に記載の方法。
  4. 前記第1の検索クエリ結果によって識別される前記リソースのURLのデジタル署名を形成するステップをさらに含むことを特徴とする請求項3に記載の方法。
  5. 前記第1の検索エンジンおよび第2の検索エンジンはクローラであることを特徴とする請求項1に記載の方法。
  6. 前記通知は、所定の時間間隔で前記ユーザに送信されることを特徴とする請求項1に記載の方法。
  7. 前記第1の検索クエリ結果によって識別される前記リソースのURLのデジタル署名を形成するステップをさらに含むことを特徴とする請求項1に記載の方法。
  8. 前記第1の検索クエリ結果によって識別される前記リソースのスキーマの第5のデジタル署名を形成するステップと、
    前記第2の検索クエリ結果によって識別される前記リソースのスキーマの第6のデジタル署名を形成するステップと
    をさらに含むことを特徴とする請求項1に記載の方法。
  9. 異なる前記第5のデジタル署名と第6のデジタル署名との比較に応答して、前記通知をユーザに送信しないことを特徴とする請求項8に記載の方法。
  10. 前記第1の検索クエリ結果によって識別される前記リソースのフルテキストインデックスを形成するステップをさらに含むことを特徴とする請求項1に記載の方法。
  11. 検索アラート結果を送信するためのシステムであって、
    ドキュメントを検索するための検索値を含むアラートクエリを記憶し、発行するための検索アラートハンドラと、
    アラートクエリによって識別されるドキュメントからの検索値のプロパティのプロパティセットを記憶するためのプロパティストアと、
    プロパティの前記セットに対して変更が行われる時を検出するためのギャザラとを含み、前記ギャザラは、第1の時刻に検索値によって識別されるドキュメント中の検索値のプロパティの第1のプロパティセットと、第2の時刻に前記検索値によって識別される前記ドキュメント中の前記検索値のプロパティの第2のプロパティセットとを比較することによって前記変更を検出し、かつ前記ギャザラは、前記検出された変更に関連づけられた前記ドキュメントをユーザに通知することを特徴とするシステム。
  12. 前記ドキュメントは媒体コンテンツを含むことを特徴とする請求項11に記載のシステム。
  13. 前記ギャザラは、前記第1の時刻に前記検索値によって識別される前記ドキュメントのフルテキストインデックスを構築するようにさらに構成されたことを特徴とする請求項11に記載のシステム。
  14. 前記プロパティセットは、前記第1の時刻に前記検索値によって識別される前記ドキュメントの修正時刻についてのプロパティを含むことを特徴とする請求項11に記載のシステム。
  15. 前記プロパティセットは、前記第1の時刻に前記検索値によって識別される前記ドキュメントの発見時刻についてのプロパティを含むことを特徴とする請求項14に記載のシステム。
  16. 前記プロパティセットは、前記第1の時刻に前記検索値によって識別される前記ドキュメントについてのスキーマのスキーマ修正時刻についてのプロパティを含み、かつ前記ギャザラは、前記スキーマ修正時刻よりも後の修正時刻を有するドキュメント変更をユーザに通知するようにさらに構成されたことを特徴とする請求項14に記載のシステム。
  17. 第1の時刻および第2の時刻にアラートクエリによって識別されるドキュメントについての検索値のプロパティの、前記検索値を含む前記識別されるドキュメントの部分のデジタル署名であるプロパティセットを記憶し、
    前記第1の時刻からの前記プロパティセットと、前記第2の時刻からの前記プロパティセットとを比較し、
    前記第2の時刻からの前記プロパティセットと異なる前記第1の時刻からの前記プロパティセットに応答してユーザに通知を送信するための
    コンピュータ実行可能命令を含むことを特徴とする有形な媒体。
  18. 前記第1の時刻に前記アラートクエリによって識別される前記ドキュメントに関連づけられたURLのデジタル署名を実行するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項17に記載の有形な媒体。
  19. 前記第1の時刻に前記アラートクエリによって識別される前記ドキュメントに関連づけられたスキーマのデジタル署名を実行するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項17に記載の有形な媒体。
  20. 前記記憶されたプロパティセットのリストのバージョンを追跡するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項17に記載の有形な媒体。
JP2009507686A 2006-04-26 2007-03-23 有意な変更検索アラート Active JP5265523B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/412,725 2006-04-26
US11/412,725 US8108388B2 (en) 2006-04-26 2006-04-26 Significant change search alerts
PCT/US2007/007230 WO2007126698A1 (en) 2006-04-26 2007-03-23 Significant change search alerts

Publications (2)

Publication Number Publication Date
JP2009535691A true JP2009535691A (ja) 2009-10-01
JP5265523B2 JP5265523B2 (ja) 2013-08-14

Family

ID=38649552

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009507686A Active JP5265523B2 (ja) 2006-04-26 2007-03-23 有意な変更検索アラート

Country Status (6)

Country Link
US (1) US8108388B2 (ja)
EP (1) EP2024879B1 (ja)
JP (1) JP5265523B2 (ja)
KR (1) KR101312834B1 (ja)
RU (1) RU2436152C2 (ja)
WO (1) WO2007126698A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019518270A (ja) * 2016-04-26 2019-06-27 サービスナウ, インコーポレイテッドServiceNow, Inc. 包含構造に基づくネットワークリソースのデプロイメント

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8122360B2 (en) * 2007-06-27 2012-02-21 Kosmix Corporation Automatic selection of user-oriented web content
US20090043867A1 (en) * 2007-08-06 2009-02-12 Apple Inc. Synching data
CN101393551B (zh) * 2007-09-17 2011-03-23 鸿富锦精密工业(深圳)有限公司 专利全文检索的索引建立系统及方法
US7991740B2 (en) * 2008-03-04 2011-08-02 Apple Inc. Synchronization server process
US7747784B2 (en) * 2008-03-04 2010-06-29 Apple Inc. Data synchronization protocol
US8112537B2 (en) * 2008-09-29 2012-02-07 Apple Inc. Trickle sync protocol
US8976003B2 (en) * 2009-09-23 2015-03-10 International Business Machines Corporation Large-scale document authentication and identification system
US8576049B2 (en) * 2009-09-23 2013-11-05 International Business Machines Corporation Document authentication and identification
US8751516B1 (en) * 2009-12-22 2014-06-10 Douglas Tak-Lai Wong Landing page search results
US8949184B2 (en) * 2010-04-26 2015-02-03 Microsoft Technology Licensing, Llc Data collector
US20160147830A1 (en) * 2014-07-09 2016-05-26 Splunk Inc. Managing datasets produced by alert-triggering search queries
US11822561B1 (en) 2020-09-08 2023-11-21 Ipcapital Group, Inc System and method for optimizing evidence of use analyses
US12079299B2 (en) 2021-10-29 2024-09-03 International Business Machines Corporation Content management system
US11941355B2 (en) * 2022-06-09 2024-03-26 Google Llc Using operational transforms to perform operations on parallel copies of a document model

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198614A (ja) * 1997-01-09 1998-07-31 Nec Corp ハイパーテキスト文書更新検知方法及びクライアント
JP2000222273A (ja) * 1999-02-03 2000-08-11 Nec Software Shikoku Ltd ドキュメントダウンロードシステム
JP2002197100A (ja) * 2000-12-27 2002-07-12 Nec Corp 検索サービスシステムと方法及び記録媒体並びに情報仲介方法
WO2003069510A1 (en) * 2002-02-14 2003-08-21 Infoglide Software Corporation Similarity search engine for use with relational databases
JP2004280539A (ja) * 2003-03-17 2004-10-07 Canon Inc 電子文書の更新通知システム
JP2005031867A (ja) * 2003-07-09 2005-02-03 Fujitsu Ltd ウエブ情報収集装置及びウエブ情報収集方法
US20050027742A1 (en) * 2003-06-13 2005-02-03 Matthias Eichstaedt Method and system for data collection for alert delivery
US20050033777A1 (en) * 2003-08-04 2005-02-10 Moraes Mark A. Tracking, recording and organizing changes to data in computer systems

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5717924A (en) * 1995-07-07 1998-02-10 Wall Data Incorporated Method and apparatus for modifying existing relational database schemas to reflect changes made in a corresponding object model
US5721903A (en) 1995-10-12 1998-02-24 Ncr Corporation System and method for generating reports from a computer database
US5898836A (en) * 1997-01-14 1999-04-27 Netmind Services, Inc. Change-detection tool indicating degree and location of change of internet documents by comparison of cyclic-redundancy-check(CRC) signatures
US6067541A (en) * 1997-09-17 2000-05-23 Microsoft Corporation Monitoring document changes in a file system of documents with the document change information stored in a persistent log
US6226630B1 (en) 1998-07-22 2001-05-01 Compaq Computer Corporation Method and apparatus for filtering incoming information using a search engine and stored queries defining user folders
US6493703B1 (en) 1999-05-11 2002-12-10 Prophet Financial Systems System and method for implementing intelligent online community message board
US6477565B1 (en) * 1999-06-01 2002-11-05 Yodlee.Com, Inc. Method and apparatus for restructuring of personalized data for transmission from a data network to connected and portable network appliances
US6256773B1 (en) * 1999-08-31 2001-07-03 Accenture Llp System, method and article of manufacture for configuration management in a development architecture framework
US6516337B1 (en) * 1999-10-14 2003-02-04 Arcessa, Inc. Sending to a central indexing site meta data or signatures from objects on a computer network
US6842774B1 (en) 2000-03-24 2005-01-11 Robert L. Piccioni Method and system for situation tracking and notification
US20020198946A1 (en) 2001-01-16 2002-12-26 Yi-Min Wang Personal centralized alert delivery systems and methds of use
US20040030741A1 (en) 2001-04-02 2004-02-12 Wolton Richard Ernest Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery
US7970832B2 (en) 2002-11-20 2011-06-28 Return Path, Inc. Electronic message delivery with estimation approaches and complaint, bond, and statistics panels
US20040243555A1 (en) * 2003-05-30 2004-12-02 Oracle International Corp. Methods and systems for optimizing queries through dynamic and autonomous database schema analysis
US20040249848A1 (en) 2003-06-06 2004-12-09 Carlbom Ingrid Birgitta Method and apparatus for intelligent and automatic alert management using multimedia database system
US7187988B2 (en) 2003-09-12 2007-03-06 Taiwan Semiconductor Manufacturing Company, Ltd. Web service and method for customers to define their own alert for real-time production status
US7774242B2 (en) * 2004-03-17 2010-08-10 Sap Ag Proximity sensing
US7627724B2 (en) * 2004-06-21 2009-12-01 Microsoft Corporation Persistent, real-time determination of the freshness of changeable data associated with a container
US7555532B2 (en) * 2004-09-23 2009-06-30 Orbital Data Corporation Advanced content and data distribution techniques
US7644107B2 (en) 2004-09-30 2010-01-05 Microsoft Corporation System and method for batched indexing of network documents
US7933900B2 (en) * 2005-10-23 2011-04-26 Google Inc. Search over structured data
US7925649B2 (en) * 2005-12-30 2011-04-12 Google Inc. Method, system, and graphical user interface for alerting a computer user to new results for a prior search

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198614A (ja) * 1997-01-09 1998-07-31 Nec Corp ハイパーテキスト文書更新検知方法及びクライアント
JP2000222273A (ja) * 1999-02-03 2000-08-11 Nec Software Shikoku Ltd ドキュメントダウンロードシステム
JP2002197100A (ja) * 2000-12-27 2002-07-12 Nec Corp 検索サービスシステムと方法及び記録媒体並びに情報仲介方法
WO2003069510A1 (en) * 2002-02-14 2003-08-21 Infoglide Software Corporation Similarity search engine for use with relational databases
JP2004280539A (ja) * 2003-03-17 2004-10-07 Canon Inc 電子文書の更新通知システム
US20050027742A1 (en) * 2003-06-13 2005-02-03 Matthias Eichstaedt Method and system for data collection for alert delivery
JP2005031867A (ja) * 2003-07-09 2005-02-03 Fujitsu Ltd ウエブ情報収集装置及びウエブ情報収集方法
US20050033777A1 (en) * 2003-08-04 2005-02-10 Moraes Mark A. Tracking, recording and organizing changes to data in computer systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019518270A (ja) * 2016-04-26 2019-06-27 サービスナウ, インコーポレイテッドServiceNow, Inc. 包含構造に基づくネットワークリソースのデプロイメント

Also Published As

Publication number Publication date
US20070255744A1 (en) 2007-11-01
KR20090005018A (ko) 2009-01-12
RU2008142357A (ru) 2010-04-27
EP2024879A1 (en) 2009-02-18
EP2024879B1 (en) 2020-06-10
KR101312834B1 (ko) 2013-09-27
EP2024879A4 (en) 2009-11-04
JP5265523B2 (ja) 2013-08-14
RU2436152C2 (ru) 2011-12-10
US8108388B2 (en) 2012-01-31
WO2007126698A1 (en) 2007-11-08

Similar Documents

Publication Publication Date Title
JP5265523B2 (ja) 有意な変更検索アラート
AU2021203706B2 (en) Updating a local tree for a client synchronization service
US10942982B2 (en) Employing organizational context within a collaborative tagging system
US20200125604A1 (en) System and methods for metadata management in content addressable storage
US8732127B1 (en) Method and system for managing versioned structured documents in a database
US20140046982A1 (en) Managing cross-correlated data
EP3316175B1 (en) Methods and apparatus of an immutable threat intelligence system
US20100318554A1 (en) Content mesh searching
US8527480B1 (en) Method and system for managing versioned structured documents in a database
CN112231598B (zh) 网页路径导航方法、装置、电子设备及存储介质
US20140019454A1 (en) Systems and Methods for Caching Data Object Identifiers
US20240232170A1 (en) Merging and unmerging entity representations via resolver trees
US9361198B1 (en) Detecting compromised resources
EP3347831B1 (en) Deletion of elements from a bloom filter
US20190377722A1 (en) Array structures
US8898122B1 (en) Method and system for managing versioned structured documents in a database
US9002810B1 (en) Method and system for managing versioned structured documents in a database
JP2009199356A (ja) ファイルイベント相関生成装置、管理装置、及びコンピュータプログラム
US8918379B1 (en) Method and system for managing versioned structured documents in a database
JP2010181939A (ja) 文書変更判別装置、方法、及び、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120608

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120910

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130501

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5265523

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250