JP3771822B2 - データ検索の方法、システム、およびプログラム - Google Patents

データ検索の方法、システム、およびプログラム Download PDF

Info

Publication number
JP3771822B2
JP3771822B2 JP2001254285A JP2001254285A JP3771822B2 JP 3771822 B2 JP3771822 B2 JP 3771822B2 JP 2001254285 A JP2001254285 A JP 2001254285A JP 2001254285 A JP2001254285 A JP 2001254285A JP 3771822 B2 JP3771822 B2 JP 3771822B2
Authority
JP
Japan
Prior art keywords
metadata
content
content page
data repository
validation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001254285A
Other languages
English (en)
Other versions
JP2002123528A (ja
Inventor
ドン・ルトレッジ・デイ
ラビンドラナス・デュッタ
デビッド・アレン・シェル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2002123528A publication Critical patent/JP2002123528A/ja
Application granted granted Critical
Publication of JP3771822B2 publication Critical patent/JP3771822B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Description

【0001】
【発明の属する技術分野】
本願発明は、電子データのリポジトリ(貯蔵庫)にあるコンテンツに関するインデックス可能メタデータを集める方法、システム、プログラムに関する。
【0002】
【従来の技術】
インターネット上のドキュメントの場所を探す場合、通常、ユーザーはインターネット検索エンジンを使用する。インターネットユーザーは、1のまたは複数の条件を、必要に応じて検索用ブーリアン演算子を含めて入力し、検索要求を検索エンジンを含むサーバーに対して送信する。検索エンジンはウェブサイトの情報のインデックスを管理している。このインデックスは特定ウェブアドレスまたはURLに対する検索タームを提供する。検索エンジンデータベース内のURLに対するインデックス・タームがインターネットユーザーの検索照会を満たした場合は、URLが照会の回答として返される。
【0003】
検索エンジンのプロバイダは、ユーザーに返す検索結果をより精度よく、かつ、多数のヒットを得られるようにするために継続してURLデータベースを更新する必要がある。検索エンジン提供会社は、検索されたHTMLページ内のメタ・タグとコンテンツを元にウェブページを探索し、カテゴライズ(分類)するロボットをしばしば使用する。ロボットは、HTMLページを検索することで、ウェブのハイパーテキスト構造の自動巡回を行うプログラムである。そしてその際に、検索されたページから参照されるすべてのドキュメントを再帰的に検索する。ウェブページにアクセスしインデックスするために検索エンジンによりリリースされたウェブロボットは、ウェブ・クローラもしくはウェブ・スパイダーと呼ばれる。
【0004】
ロボットにより集められたURLに対するインデックス可能タームのデータベースを有する検索エンジンは極めて一般的で有名である。しかし、ロボットが集めたURLデータベースの留意すべき短所として、ウェブサイトのURLの更新が定期的にしか行われないので、既にインデックスしたページをロボットが再度チェックするまで、URLデータベースが不正確で時代遅れのものになりかねないというものがある。その上、現在の検索エンジンロボットは、HTMLページを検索し、かつ、HTMLコンテンツを解析して、検索エンジンデータベースのインデックス検索タームを作成するように設計されている。しかし、多くのウェブページは、HTMLページを巡回するように設計された従来の検索エンジンロボットではアクセスおよび解析ができないフォーマットでコンテンツを提供している。そのようなコンテンツは、例えば、MPEG、Shockwave、ZIPファイルなどさまざまなマルチメディアフォーマットでエンコードされている。さらに、ウェブサイトのコンテンツは、CGI、Java(R)プログラム、マイクロソフト・アクティブ・サーバー・ページ(R)などのようなプログラムで使用される検索タームを提供し、データベースを照会し、検索結果を返すことによりアクセス可能となる動的なものであるかもしれない。そのように動的にアクセス可能なデータは、通常、従来技術の検索エンジンロボットでは認識できず、検索エンジンのURLデータベースにインデックスされなかった。
【0005】
さらなる短所として、ウェブロボットがウェブサーバの過負荷となり、かつ、セキュリティ上の危険となることが知られている。この理由のため、ウェブサイトのプロバイダが自己の情報を公開することを望む場合であっても、多くのウェブサイトは検索エンジンのウェブロボットによるコンテンツへのアクセスとカタログ作成を制限するファイアウォールを使用する。ウェブサイトのプロバイダは、ロボットがアクセスとインデックスの作成を許可されないサイト上のURLを記述した”robot.txt”ファイルを作成することによりウェブロボットのサイトへのアクセスを制限する。そのような検索エンジンのウェブロボットに対する制限のために、検索エンジンのユーザーにとって非常に興味あるウェブページにウェブロボットはアクセスできないかもしれない。
【0006】
中には、人手で分類を行う検索エンジンもある。例えば、ヤフー(R)はウェブページについての人手による報告を受け取り、それからウェブページをデータベースに含めるためにカテゴライズ(分類)する。このアプローチは非常に時間がかかる。その上、人手により分類を行うアプローチはロボットを使用するアプローチのように多くのページのカタログを作成できない。なぜなら、ロボットを使用するアプローチは、新しいページのためにインターネット(ワールド・ワイド・ウェブ)を継続的に巡回するものであり、また、ユーザーにより報告されるコンテンツに制限されないからである。
【0007】
【発明が解決しようとする課題】
したがって、ウェブページのカタログ作成技術を改良する必要がある。
【0008】
【課題を解決するための手段】
上記の従来技術の制限を打ち破るために、好適な実施例はデータ・リポジトリにおけるアドレス・ロケーションのコンテンツに関するインデックス可能メタデータを集めるために、コンテンツプロバイダにより管理されるデータ・リポジトリを検索する方法、システム、プログラムを開示する。コンテンツプロバイダによりカスタマイズ可能な設定(セッティング、setting)がアクセスされる。カスタマイズされた設定はコンテンツプロバイダのデータ・リポジトリの検索方法を規定する。コンテンツプロバイダのデータ・リポジトリでのコンテンツページの内容は、カスタマイズされた設定により規定される命令に従ってアクセスされる。アクセスされたコンテンツページからのメタデータが生成され、データ・リポジトリのアクセスされたアドレス可能ロケーションに対するメタデータのインデックスにそのメタデータが追加される。
【0009】
さらなる実施例においては、カスタマイズ可能な設定がコンテンツプロバイダのデータ・リポジトリにおいてアドレス可能ロケーションを規定するようにするとよい。この場合、コンテンツページへのアクセスには、規定されたアドレス可能ロケーションのコンテンツページへのアクセスが含まれ、メタデータがアクセスされたコンテンツページに対して生成される。
【0010】
さらに、カスタマイズ可能な設定は少なくとも1のアドレス可能ロケーションに対する照会タームを規定する。照会タームが存在するアドレス可能ロケーションそれぞれに対して、アドレス可能ロケーションで照会タームが照会結果を入手するために使用される。そして、データ・リポジトリのアドレス可能ロケーションに対するメタデータのインデックスを追加するため、入手した照会結果からにメタデータが生成される。
【0011】
さらに実施例では、カスタマイズ可能な設定が妥当性検証プログラムを指示する。設定で指示される妥当性検証プログラムは、アクセスされたコンテンツページそれぞれに対して実行される。それぞれのコンテンツページに対する妥当性検証結果が妥当性検証プログラムにより生成され、コンテンツページそれぞれの特徴が記述される。データ・リポジトリのアドレス可能ロケーションに対するメタデータのインデックスに追加するために、妥当性検証の出力結果からメタデータが生成される。
【0012】
さらに、コンテンツページ内で参照される埋め込みファイルの解析機能を有するパーサから決定がなされる。参照埋め込みファイルが解析され、インデックスを追加するために、解析された埋め込みファイルのコンテンツに対してメタデータが生成される。
【0013】
データ・リポジトリはその所有者にメタデータを集める方法についてより適切なコントロールを可能とし、好適な実施例はデータ・リポジトリでのURLに対するインデックス可能メタデータを集めるためにデータ・リポジトリ検索技術を提供する。例えば、好適な実施例はコンテンツプロバイダにインデックス可能メタデータを検索するためのURLを定義できるようにする。さらに、好適な実施例を使用して、動画ファイルやShockwaveファイルやZIPファイルのような従来技術の検索ロボットではアクセスできないフォーマットでエンコードされたコンテンツに対するメタデータを集められるようにするとよい。さらに、好適な実施例を使用して、データ・リポジトリの所有者は、そのURLにおけるいずれのコンテンツが一定の妥当性検証基準を満足するかどうかや、選択された認証子(qualifier)の条件を満足するかどうかを示すメタデータを生成するための妥当性検証プログラムを選択することにより、何のメタデータが供給されるかコントロールするとよい。
【0014】
これらの好適な実施例による技術は、ウェブロボットがただ単にテキストフォーマットで記述されたコンテンツを検索し、マルチメディアファイルやその他の圧縮ファイルのような非テキストエンコードの埋め込みファイルにはアクセスしない現状の技術を改良する。さらに、データ・リポジトリの所有者がどのようにURLを検索し、メタデータを集めるのかを決めることを可能とすることで、データ・リポジトリの所有者は検索結果の質を向上させるために、データ・リポジトリに利用できるインデックス可能メタデータを向上することができる。
【0015】
その上、URLサイトに密接な関係を有するメタデータ集めるために、好適な実施例のコレクションツールはURLページに関するメタデータを商業的に集めることに従事するデータウェアハウス会社により使用される。データウェアハウスは、登録者のURLに関するメタデータを集めるためにコンテンツプロバイダへの登録を提供もしくは販売をすることができ、また、興味ある団体や組織にメタデータを販売もしくはライセンスすることができる。
【0016】
【発明の実施の形態】
以下の説明では、出願書類の一部を構成する本願発明の実施例を図示した添付図面が参照される。本願発明の範囲から離れることなく、他の実施例が実現され、かつ、構成および処理の変更が行われ得ることが理解される。
【0017】
図1にはコンテンツプロバイダ2とメタデータウェアハウス4の関係が図示されている。メタデータウェアハウス4はURL上のインデックス可能メタデータを異なるコンテンツプロバイダ2から集める。URLデータベースを更新するのに使用するために、メタデータウェアハウス4はこの情報を検索エンジンプロバイダに提供する。あるいは、メタデータウェアハウス4は、検索エンジンデータベースのためのインデックス可能メタデータを集めている検索エンジンプロバイダの一部であってもよい。インターネットユーザーが検索時に自己のサイトのURLを探索できるようにするために、コンテンツプロバイダ2はメタデータウェアハウス4が事故のウェブサイトの情報を使用することを望んでいる。コンテンツプロバイダ2の閲覧可能コンテンツがリポジトリ8に保持されている。インターネットユーザーは示されたURLによりリポジトリ8内のデータにアクセスすることができる。リポジトリが動的データを含んでいる場合、インターネットユーザーは、リポジトリ8内の動的データにアクセスするために、CGIコマンドとともにパラメータを供給しなければならない。データ・リポジトリ8は、インターネットを通じてアクセス可能な非HTMLファイルコンテンツと同様にHTMLページを含んでいてもよい。データ・リポジトリ8内の非HTMLファイルコンテンツは動的データ、すなわち、動画ファイルやShockwaveファイルのような描画もしくは処理にプラグイン・アプリケーションが要求されるファイルフォーマット、もしくは、その他すべてのマルチメディアフォーマットで保持されるデータを含めることができる。
【0018】
メタデータウェアハウス4は下記に詳述する、リポジトリ8内のURLにあるコンテンツ上の情報を探すためにリポジトリ8を検索し、リポジトリ8内のアクセスされたURLにあるコンテンツに基づいてメタデータ10を生成する、コレクションツール6を提供する。好適には、メタデータ10はインターネットのようなネットワークを通じてウェアハウス4に提供される。コレクションツール6は、離れた場所からリポジトリ8を検索するためにウェアハウス4のサーバにより実行される。あるいは、コンテンツプロバイダ2が、リポジトリ8にアクセス可能な自己のコンピュータでコレクションツール6を実行してメタデータ10を集め、ウェアハウス4のサーバに返送するようにしてもよい。
【0019】
図1は、従来技術のウェブロボットがコンテンツプロバイダ2のデータ・リポジトリ8内のURL上のインデックス可能メタデータを集めるのを邪魔するアクセス障壁の存在を図示する。アクセス障壁は、通常HTMLウェブページの情報を解析し集めることしかできない従来技術のロボットがアクセスできない、例えば、MPEG(もしくは他の全てのマルチメディアファイルフォーマット)、Shockwave、ZIPファイル、CGI、XML、Java(R)プログラムなどのエンコーディング・フォーマットを含むことができる。さらに、アクセス障壁12はロボットにデータ・リポジトリ8のURLを巡回できなくするファイアウォールを含むこともできる。
【0020】
図2は、コレクションツール6のプログラム構成要素を図示する。コレクションツール6は、ウェブページ巡回技術として知られるロボット型機能を含み、インデックス可能メタデータをリポジトリ8内のURLにあるコンテンツから集めるよう設計されている。コレクションツール6は、検索命令ファイル20と呼ばれる構造化ドキュメントに基づいて検索手順を決定する。検索命令ファイル20は、コンテンツプロバイダのデータ・リポジトリ8において、コレクションツール6がアクセスするようにプログラムされているURLのところに記憶することができる。あるいは、ウェアハウス4がコンテンツプロバイダ2にコレクションツール6を提供する場合は、検索命令ファイル20をコレクションツール6のインストールパッケージに含め、コレクションツール6と一緒にインストールするようにしてもよい。
【0021】
コレクションツール6は、HTML、XML、Shockwave、MPEG、JPEG、ZIPファイルやその他のマルチメディアフォーマット、圧縮ファイルのような、さまざまなコンテンツ・エンコードのデータを解析し、集める機能を有するパーサ22a,b,…,nをさらに含む。これらのパーサ22a,b,…,nにより、コレクションツール6は、ウェブページに存在するさまざまなタイプのコンテンツから、インデックス可能メタデータを集めることができる。このようにして、好適な実施例では、インデックス可能メタデータ10は、HTMLその他のテキストフォーマットでエンコードされたコンテンツに制限されず、マルチメディアファイルフォーマットのような他のフォーマットでエンコードされたコンテンツに関する情報を含んでもよい。
【0022】
コレクションツール6は更に、ページが前もって決められた一定の条件を満たしているかどうかを決定するためにURLのページを処理するプログラムである妥当性検証プログラム24a,b,…,nを含む。そのような妥当性検証プログラム24a,b,…,nは、一定の基準にウェブページが適合しているかどうかを出力する。例えば、妥当性検証プログラム24a,b,…,nには、下記の妥当性検証プログラムのいずれでもよい。
【0023】
WWWコンソーシアム(W3C)HTML妥当性検証サービス:HTMLページがXMLの適格性とともにW3CのHTML/XHTML標準勧告に適合しているかどうかを判断する。
【0024】
XML適格性検査および妥当性検証プログラム:XMLドキュメントの適格性をチェックし、また、オプションとして妥当性もチェックする。
【0025】
ボビー(BOBBY):障害者に対するウェブページのアクセシビリティ(アクセスし易いかどうか)の解析をウェブベースで行う。ボビーによるアクセシビリティ解析はW3Cウェブコンテンツ・アクセシビリティ・ガイドラインに基づいて行われる。例えば、ボビーに認証されるためにはウェブサイトは、非テキスト要素(画像、アニメーション、音声データ、ビデオデータなど)の内容と同等のテキストを提供すること、グラフおよびチャートの要約を提供すること、すべての色付き情報が色なしでも使用できるように保証すること、ドキュメントのテキストと非テキストコンテンツと同等なテキスト(脚注など)の自然言語の変更が明確にわかるようにすること、コンテンツを論理的に構成すること、サポートされていないかもしれない特徴(アプレットやプラグインなど)に対する代替コンテンツを明確に提供すること、などが必要である。
【0026】
セキュリティ:妥当性検証プログラム24a,b,…,nは、任意ののセキュリティ設定、または、セキュリティ保証を判断し、それらセキュリティ設定に関するインデックス可能情報を返す。
【0027】
プライバシー:妥当性検証プログラム24a,b,…,nは、いずれかのプライバシーの保証、または、トラストイー(TRUSTe)プライバシープログラムの認証を受け、かつプログラムに参加していることを表すTRUSTe認証シールのようなそのURLでのプライバシー保護の程度を認証したブランドロゴもしくはしるしの有無を判断する。
【0028】
格付けまたは賞:妥当性検証プログラム24a,b,…,nは、そのサイトが特別な格付けや賞を受けているかどうかを判断する。好適な実施例では、コンテンツプロバイダ2は、ウェアハウス4に対して特定の格付けや賞を定義する。
【0029】
最適ブラウザ:妥当性検証プログラム24a,b,…,nは、当該URLのウェブページを閲覧するのに好適なブラウザが示されているかどうかを判断する。
【0030】
保証および承認:妥当性検証プログラム24a,b,…,nは、サイトがいずれかの特定の保証または承認を受けているかどうかを決定する。好適な実施例では、コンテンツプロバイダ2は、ウェアハウス4に対してチェックのためにいずれかの保証または承認を定義する。例えば、コンテンツプロバイダ2は、コレクションツール6が、承認の一定レベルを保証するために、特定の宗教団体からの支持についてページをチェックするようにリクエストする。
【0031】
警告:妥当性検証プログラム24a,b,…,nは、サイトが”18歳未満禁止”や”アダルトコンテンツ”のようないずれかの警告を有しているかどうかを判断する。好適な実施例では、コンテンツプロバイダ2はウェアハウス4に対してチェックのために何らかの特定の警告を規定する。
【0032】
妥当性検証プログラム24a,b,…,nは、ウェブページまたはページ内コンテンツの他のいかなる特徴をもチェックするようにしてもよい。その上、妥当性検証プログラム24a,b,…,nは、非HTML形式ページの特徴をレビューするために、種々のコンテンツ・エンコーディングのためのパーサ・プログラムを含んでいてもよい。例えば、妥当性検証プログラム24a,b,…,nは、アダルトコンテンツ、暴力的描写、”R”指定や”XXX”指定などのコンテンツに関する警告があるかどうかを判断するために、MPEGやアップル社QuickTime(R)ファイルのようなムービーファイルを解析する。
【0033】
妥当性検証プログラム24a,b,…,nは、コンテンツファイルを審査するためにパーサ22a,b,…,nを利用してもよいし、代わりに妥当性検証プログラム24a,b,…,nは、コンテンツファイルを審査するためにパーサを自分自身に含んでいてもよい。
【0034】
図3はリポジトリ8内のURLの処理方法をコレクションツール6に命令する検索命令ファイル20の構成要素を図示する。好適な実施例では、コンテンツプロバイダ2は、コレクションツール6がリポジトリ8をどのように検索するのかをコントロールするために、検索命令ファイル20を調整する。検索URLリスト50は、コレクションツール6が、検索命令ファイル20内の他の構成要素に従いアクセスし検索するURLを示している。照会タームリスト52は、特定URLのウェブページから動的データにアクセスするために、コレクションツール6が、その特定URLに対して適用する検索タームのリストを提供する。リポジトリ8は、アクセスされ、照会タームに対応して動的データを生成するCGIまたはJava(R)プログラムを含んでもよい。コレクションツール6は、そのURLページの照会が実行されるとき、そのページに与える検索タームを含むURLを構築する。照会ターム認証子54は、照会結果が認証述部を満足しているかどうかを判断するために、1以上の照会タームに対する照会結果に適用する述部を提供する。
【0035】
パスワード56は、コレクションツール6が特定URLに存在するデータにアクセスするためのパスワードを示している。これらのパスワードにより、コレクションツール6は保護されたサイトに進入し、また、ファイアウォールの後にあるページを検索することが可能になる。再帰的検索設定58は、検索URL50にリストされて、コレクションツール6がアクセスしたURLにおいて、どのようにコレクションツール6がURLリンクを検索するかを示す。例えば、再帰的検索設定58はコレクションツール6にURLのすべてのリンクを再帰的に検索するように命令する。あるいは、再帰的検索設定58はURL上のリンクをすべて検索しないように命令してもよいし、また検索の深さや再帰的検索の範囲を制限してもよい。
【0036】
禁止URLリスト60は、コレクションツール6のアクセス禁止URLを示している。禁止URLリスト60は、コレクションツール6に、検索URL50内にリストされたURLで、リンクを通じて再帰的にアクセスされる特定のURLをアクセスさせないようにするのに使用される。妥当性検証プログラム62は、コレクションツール6がアクセスしたページに対して実行すべき1以上の妥当性検証プログラム24a,b,…,nを表す。チェックパラメータ64は、妥当性検証プログラム24a,b,…,nが審査されるウェブページに対してチェックすべき特定の内容を示す。例えば、チェックパラメータ64は、妥当性検証プログラム24a,b,…,nが検索すべき承認、保証、警告、格付けなどののしるしを示している。妥当性検証プログラム62のためのチェックパラメータが存在しない場合には、妥当性検証プログラム62は、既定の一定の基準にページが従っているかどうかを判断するボビーやXML適格性検査および妥当性検証プログラムのようなチェックを実行するためにユーザーパラメータを要求しない。
【0037】
妥当性検証結果認証子66は、そのURLでコンテンツを検証する妥当性検証プログラム24a,b,…,nからの出力に適用する認証子を提供する。そのURLに対する妥当性検証プログラム24a,b,…,nの出力が認証述部を満足しない場合は、そのURLに対するメタデータは返されず、非認証URLはウェアハウス4に提供されたメタデータに含めるためにインデックスされない。例えば、認証子は、ボビーの規則に従って作成されていないページの検索結果を返さないように指示し得る。もし、ボビー妥当性検証プログラム24a,b,…,nが、そのURLのコンテンツが、ボビー認証子により、ボビーの規則に従っていないと判断した場合は、そのURLに対するメタデータが返されず、そのURLはインデックスされない。あるいは、チェックされたURLが規則に従っていないことを示して、あるいは規則に従っていないとのある格付けをされて、メタデータが返される。そのような規則に従わないことを示すメタデータにより、インターネットを検索する者は、規則に従っていないページの場所を突き止めることができる。それぞれの検索命令ファイル20で選択された妥当性検証プログラム62に対して分離された妥当性検証結果認証子66が存在する。妥当性検証結果認証子66が全く存在しない場合は、妥当性検証結果認証子66からの出力にかかわらずそのページに対するメタデータは返されない。妥当性検証プログラム24a,b,…,nからの出力に対する認証子が満足されないとき、コレクションツール6は、いずれの非認証URLに対するデータも提供しない。あるいは、コレクションツール6はそのURLに対するメタデータを使用した非認証動作出力を含まなくてもよいが、コレクションツールはそのURLに対する他の認証メタデータがウェアハウス4に提供され得るようにする。この方法によれば、どのようにURLがインターネットユーザーの検索照会に対応して返されるのかを調整するために、コンテンツプロバイダ2は提供されたメタデータのタイプをコントロールすることができる。
【0038】
ページ属性認証子68は、コンテンツの日付やバイトサイズなどのような、ページを認証するための属性を示している。
【0039】
ウェアハウス4は、コンテンツプロバイダ2に検索命令ファイル20内の検索設定を行うのを可能とするためのGUIを開発するとよい。例えば、コンテンツプロバイダ2がウェアハウス4とインターネットを経由して通信した場合に、コンテンツプロバイダ2は、どのようにコレクションツール6がリポジトリ8を検索するのかをコントロールする検索命令ファイル20内の検索設定を選ぶために、ウェブブラウザのGUIを使用するとよい。GUIによりコンテンツプロバイダ2は使用する妥当性検証プログラム24a,b,…,nを選択することができ、妥当性検証結果認証子66を妥当性検証プログラム24a,b,…,nのために選択することもできる。このことで、コンテンツプロバイダ2は、どのようにコレクションツール6がリポジトリ8を検索するのかをカスタマイズすることができる。
【0040】
図4は、コンテンツプロバイダ2がウェアハウス4に提出した1以上のURLページの検索処理を実行するために、コレクションツール6に実装されたプログラム論理を図示する。制御は、コレクションツールが実行されることで、ブロック100から始まる。コンテンツプロバイダ2は、リポジトリ8を含むファイアウォール内部で、内部的にコレクションツール6を実行する。あるいは、サーバ外部からリポジトリ8を含むファイアウォールに対して、ウェアハウス4がコレクションツール6を実行する。コンテンツプロバイダ2とウェアハウス4は、リポジトリ8のURLのためのインデックス可能メタデータによりウェアハウスのURLデータベースが定期的に更新されていることを保証するために、コレクションツールを実行する定期的スケジュールを決める。さらに、コンテンツプロバイダ2は、リポジトリ8のコンテンツの更新もしくは変更の後、のようにコレクションツール6をいつ実行するかを決定する。
【0041】
実行開始後に、コレクションツール6が実行されるコンテンツプロバイダ2のコンピュータ、リポジトリ8、もしくはウェアハウス4のサーバ上のディレクトリで管理されている検索命令ファイル20にコレクションツール6はアクセスする。コレクションツール6は検索URLリスト内のそれぞれのURLに対してブロック106からブロック148のステップを実行する。ブロック106で考慮すべきURLページのために提供されたパスワードがある場合は、コレクションツールは、ブロック108で、URLページにアクセスしたときにそのパスワードを使用し、それ以外の場合は、コレクションツールはブロック110でURLページにアクセスする。ブロック112で照会タームリスト52にURLページに対する照会タームがある場合、コレクションツール6はブロック114でそれぞれの提供された照会タームを検索タームに対する動的データ入手するためにURLページに送信する。ブロック116で照会結果を受け取った後、コレクションツール6はブロック118で、すべての照会タームもしくは特定の照会タームに対する認証子が、照会ターム認証子54にあるかどうかの判断をする。従って、いくつかの認証子がすべての照会タームもしくは特定の照会タームに対する照会結果のために使用される。認証子が存在する場合、コレクションツール6はブロック120で認証子を満足しない照会結果を考慮して非認証動作を実行し、認証子を満足する照会結果のために認証動作を実行する。非認証動作では、そのURLページに対するメタデータの認証されなかった照会結果を追加せず、その代わりに、もしくはそれとともに照会結果が認証されなかったという内容の情報が追加される。認証動作は、そのURLページに対するメタデータ内の認証照会結果を追加され、その代わりに、もしくはそれとともに照会結果が認証されたという内容の情報が追加される。検索タームに対する認証子がない場合は、コレクションツール6は、ブロック122でそのURLページに対するメタデータに、照会結果の情報を追加する。
【0042】
図5では、制御はブロック120または122からブロック124へ進む。ブロック124では、妥当性検証プログラム62がそれぞれの妥当性検証プログラム24a,b,…,nを実行のために選択するように指示したかどうかをコレクションツール6が判断する。選択されていれば、コレクションツール6はブロック126でそれぞれの選択された妥当性検証プログラム24a,b,…,nをURLページに対し実行し、そして妥当性検証プログラム24a,b,…,nに対して用意されたすべてのチェックパラメータ64が使用される。ブロック128でいずれかの特定の妥当性検証プログラム24a,b,…,nのための妥当性検証結果認証子66が存在する場合は、これらの認証子を有する妥当性検証プログラムのために、コレクションツール6はブロック130で妥当性検証結果が認証子を満足するかどうかを判断する。認証子が満足された場合(ブロック130の”YES”の矢印の場合)、または、妥当性検証結果認証子が存在しない場合(ブロック128の”NO”の矢印の場合)は、コレクションツール6はブロック132でそのURLページに対するメタデータに妥当性検証結果に関する情報を追加する。妥当性検証結果が認証子を満足しない場合は、コレクションツール6はブロック140で、メタデータ内の検索URLページ上にいずれの情報も追加せず、検索URL50内の次のURLページを考慮するためにブロック160へ進む非認証動作を実行する。あるいは、非認証動作はコレクションツール6が認証子が満足されなかったURLページに対するメタデータ内の指定の情報を追加し、検索命令ファイル20の命令に従い、さらにそのURLページに対するメタデータを集めるために、ブロック134へ進んでもよい。
【0043】
妥当性検証プログラム62内のすべての選択された妥当性検証プログラムを考慮し、妥当性検証プログラムの出力がすべての認証子を満足した後、制御はブロック124または132からブロック134へ進む。ブロック134でページ属性認証子68が存在する場合、コレクションツール6はブロック136でそのURLページがページ属性認証子を満足するかどうかを判断する。満足する場合は、コレクションツールはブロック138でそのURLページに対して、メタデータ内の満足する属性に情報を追加する。そうでなく、ページ属性が満足しない場合は、コレクションツール6はブロック140で、メタデータ内の検索URLページ上にいかなる情報も追加せず、検索URLリスト50のうちの次のURLページを考慮するためにブロック160へ進むステップを含む非認証動作を実行する。あるいは、非認証動作はコレクションツール6が認証子を満足しないURLページに対するメタデータ内の特定の情報を追加し、検索命令ファイル20内で命令されたようにURLページに対するメタデータを集めるためにブロック142へ進めることに関係する。
【0044】
ブロック134から枝分かれして、もしくは、ブロック138から、制御はブロック142へ進む。ブロック142では、コレクションツール6によりURLページがXML、HTML、DHTMLといったフォーマットのいずれであるかが判断され、ブロック144でそのURLページのフォーマットの解析機能を有するパーサ22a,b,…,nを選択する。
【0045】
コレクションツール6は、次に、例えば、そのURLページに対するメタデータを生成するためにブロック146で解析を行うためにパーサを呼び出し、選択したパーサ22a,b,…,nを使用する。パーサ22a,b,…,nは、インデックス可能メタデータをURLページから、従来技術として知られる方法で生成する。例えば、パーサ22a,b,…,nは、”the””and”など通常使用される単語を除いて、可視テキストデータ全体にインデックスしてもよいし、ドキュメントのスペシャル・キーワード・メタ・タグに含まれるキーワードをインデックスしてもよいし、さらに、例えば”politics(政治)”と”politician(政治家)”と”political(政治的)”のような関連語を自動的にインデックス可能メタデータとするようにしてもよい。
【0046】
もしブロック148でURLページが、埋め込み画像、Shockwaveファイル、ZIPファイルその他のエンコードファイルのような埋め込みファイルへの参照を含んでいる場合は、ブロック150で、それぞれの埋め込みファイルへの参照に対してコレクションツール6がそれぞれの埋め込みファイルの解析機能を有するパーサ22a,b,…,nを選択する。埋め込みファイルは、HTMLの”HREF”宣言を使用して生成されたハイパーテキストリンクといったハイパーリンクを通じての参照ファイルから区別される。リンクが張られたファイルはブラウザがアクセスするHTMLページである。通常、埋め込みファイルはアプレットとして、または、その埋め込みファイルをオープンもしくは表示するために使用するプラグイン・アプリケーションを定義するオブジェクト・タグ、もしくは、埋め込みファイルのコンテンツを処理可能とするオブジェクト・タグとして参照される。コレクションツール6は、そのURLページに対するメタデータに情報を追加するためにそれぞれの埋め込みファイルを解析し、インデックス可能メタデータを埋め込みファイルコンテンツから生成するのにブロック152で選択されたパーサを使用する。パーサ、もしくは、コレクションツール6は、埋め込みファイルのコンテンツを処理または表示するためにオブジェクト・タグに示された埋め込みファイル対するプラグイン・アプリケーションを使用する。ブロック148から枝分かれして、または、ブロック152から、コレクションツール6はブロック154で、そのURLページが他のURLページへのリンクを含んでいるかどうかを判断する。もし、リンクが含まれており、かつ、ブロック158で再帰的検索設定が再帰的検索を制限していない場合、コレクションツール6はそれぞれのリンクされた禁止URLとしてリストされていないURLページに対してステップ106からステップ150をブロック158で実行する。ブロック154から枝分かれして、ブロック156の”YES”の枝またはブロック158から、制御はブロック160で検索URL50にリストされた次のURLページを処理するために戻る。
【0047】
好適な実施例は、現在の検索ロボットおよび検索エージェントを改良する、コンテンツプロバイダのサイトでURLを検索するURLメタデータのコレクションツール6を提供する。好適な実施例を使用すれば、コンテンツプロバイダ2は、自己のリポジトリ8のURLに対するインデックス可能メタデータが最新のものであることを保証するために、いつリポジトリ8の検索を行うかを制御できる。さらに、コンテンツプロバイダ2に検索スケジューリングを制御可能とすることで、検索エージェントもしくは検索ロボットがコンテンツプロバイダ2のサーバに過負荷をかけるという現状技術の問題を避けることができる。例えば、コンテンツプロバイダ2はサーバが空いている時間帯にコレクションツール6が検索を行うようにスケジュールすることができる。
【0048】
その上、好適な実施例によれば、インデックス可能メタデータを検索し集めるために、コレクションツール6に対して特定のURLを定義することもできる。さらに、コレクションツール6は、マルチメディア・コンテンツやShockwaveファイルやZIPファイル、その他の非テキストマルチメディアファイルのような現在の検索エンジンではインデックスができないコンテンツ・エンコーディングに対してもインデックス可能メタデータを集めることができる。その上、好適な実施例によれば、コンテンツプロバイダ2は、妥当性検証ページや一定の基準を満足しないページからのメタデータを排除する認証子により情報がインデックスけされるかどうかを制御することができる。この場合に、好適な実施例は、ウェブサイトのURL上のインデックス可能メタデータを集めるためのより改良され、より制御可能なツールを提供する。そして、そのツールにより、コンテンツプロバイダ2はどのようにインデックス可能メタデータを集めるのかを制御できる。
【0049】
いったんウェアハウス4がメタデータ10をさまざまなコンテンツプロバイダ2から集めれば、ウェアハウス4は検索エンジンデータベースに追加するために、インデックス可能メタデータを検索エンジン会社やその他の興味ある団体に提供することができる。さらに、データウェアハウスはコレクションツールを自分のURLに関するメタデータの収集方法の制御を希望する者を登録するためのビジネスモデルの一部として使用してもよい。データウェアハウスは、商業的利用目的でURLに対するメタデータのデータベースを開発するために、コレクションツールを使用することができる。さらに、データウェアハウスは、コンテンツプロバイダがコレクションツールを使用する際、収益を得るためにコレクションツールプログラムが実行され、または、設定されるタイミングで広告を表示することもできる。
【0050】
[他の実施例と結論]
以下に、本願発明を完成するためのいくつかの他に取りうる実施例を記述する。
【0051】
好適な実施例は、ソフトウェア、ファームウェア、ハードウェア、もしくはそれらの混合を提供する標準的なプログラミングおよびエンジニアリングの技術を使用した方法、装置、プログラムとして実現される。好適な実施例の機能を定義するプログラムは、コンピュータに対してさまざな情報メディア、例えば、コンピュータ可読媒体、伝送媒体、磁性体記憶メディア、フレキシブルディスク、CD−ROMやネットワーク伝送線、無線伝送メディア、ラジオ電波、赤外線信号などを通じてプログラムへのアクセスを実現するファイルサーバなどにより配布され得る。当然、当業者は本願発明の範囲を離れることなく構成の変更がされ得ることを認識するだろう。そのような情報伝送媒体は、本願発明の機能を指示するコンピュータ可読命令を実行する場合に、別の本願発明の実施例として表現される。
【0052】
好適な実施例は、追加のメタデータインデックス機能を実現するために使用されるコレクションツールに含まれるプログラム構成要素の一態様を提供している。さらなる実施例では、コレクションツールはここに記述した以外の基準に従いページを検査するようにしてもよい。
【0053】
好適な実施例は、コンテンツプロバイダによる検索命令ファイル20内部の設定の一態様を説明している。他の実施例では、コレクションツール6がウェブページとメタデータが返ってくるのかに対する追加のレベルのコントロールを提供する、さまざまなタイプのここに説明された以外の設定をコンテンツプロバイダ2は設定してもよい。
【0054】
図4から図6の好適な論理は、一定の順番で発生する処理の一態様を説明している。別の実施例では、論理の処理が異なった順番で行われたり、変更されたり、削除されたりして、本願発明の好適な実施例が実現される。その上、ステップが上記論理に追加されることもあるが、それでもなお本願発明に準拠している。さらに、ここで説明される処理は、連続して行われてもよいし、一定の処理を並行して行ってもよい。
【0055】
まとめとして、好適な実施例は、ウェブサイトでのアドレス・ロケーションのコンテンツに関するインデックス可能メタデータを集めるために、コンテンツプロバイダにより管理されるウェブサイトを検索するための方法、システム、プログラムを提供する。コンテンツプロバイダがカスタマイズ可能な設定がアクセスされる。カスタマイズされた設定は、コンテンツプロバイダのウェブサイトの検索方法に関する命令を供給する。カスタマイズされた設定は、コンテンツプロバイダのウェブサイトにあるコンテンツページの処理をコントロールするために使用される。アクセスされたコンテンツページからのメタデータが生成され、そのウェブサイトのアドレス可能ロケーションに対するメタデータのインデックスに追加される。
【0056】
上記の本願発明の好適な実施例は、説明を目的として記述されたものあって、すべての実施態様を記述するものではなく、実施例に開示された形式に発明を限定する意図ではない。上記の開示によれば、多くの変更例とバリエーションが実現可能である。本願発明の範囲は発明の詳細な説明の記載により制限されるのではなく、特許請求の範囲により定まるものであることに留意されたい。上記の仕様、例、データにより本願発明の一態様の製造および使用を完全に説明される。本願発明の多くの実施例が本願発明の精神と範囲を離れることなく実現される。
【0057】
本願発明は、ハードウエア、ソフトウエア、またはハードウエア及びソフトウエアの組み合わせとして実現可能である。ハードウエアとソフトウエアの組み合わせによる実行において、所定のプログラムを有するコンピュータ・システムにおける実行が典型的な例として挙げられる。かかる場合、該所定プログラムが該コンピュータ・システムにロードされ実行されることにより、該プログラムは、コンピュータ・システムを制御し、本願発明にかかる処理を実行させる。このプログラムは、任意の言語・コード・表記によって表現可能な命令群から構成される。そのような命令群は、システムが特定の機能を直接、または1.他の言語・コード・表記への変換、2.他の媒体への複製、のいずれか一方もしくは双方が行われた後に、実行することを可能にするものである。もちろん、本願発明は、そのようなプログラム自体のみならず、プログラムを記録した媒体もその範囲に含むものである。本願発明の機能を実行するためのプログラムは、フロッピー(R)・ディスク、MO、CD−ROM、DVD、ハード・ディスク装置、ROM、MRAM、RAM等の任意のコンピュータ読み取り可能な記録媒体に格納することができる。かかるプログラムは、記録媒体への格納のために、通信回線で接続する他のコンピュータ・システムからダウンロードしたり、他の記録媒体から複製したりすることができる。また、かかるプログラムは、圧縮し、または複数に分割して、単一または複数の記録媒体に格納することもできる。
【図面の簡単な説明】
【図1】本願発明の好適な実施例による、コンテンツプロバイダとデータ・リポジトリのためにインデックス可能メタデータを集めるウェアハウスとの関係を図示したものである。
【図2】本願発明の好適な実施例による、URLにおけるインデックス付け可能メタデータを集めるために使用されるコレクションツールのプログラム構成要素を図示したものである。
【図3】本願発明の好適な実施例による、コレクションツールがURLを検索するために使用するファイルの構造を図示したである。
【図4】本願発明の好適な実施例による、URLからインデックス付け可能メタデータを集めるコレクションツールの実行論理を図示したものである。
【図5】本願発明の好適な実施例による、URLからインデックス付け可能メタデータを集めるコレクションツールの実行論理を図示したものである。
【図6】本願発明の好適な実施例による、URLからインデックス付け可能メタデータを集めるコレクションツールの実行論理を図示したものである。

Claims (44)

  1. データ・リポジトリのアドレス・ロケーションでコンテンツに関するインデックス可能メタデータを集めるために、前記データ・リポジトリを検索するシステム、異なるコンテンツプロバイダにより管理される前記データ・リポジトリを検索する方法であって、
    前記システムが備える、コンテンツプロバイダによりカスタマイズ可能な設定にアクセスする手段が、前記コンテンツプロバイダによりカスタマイズ可能な設定にアクセスするステップであって、前記カスタマイズ可能な設定が、前記データ・リポジトリを検索する方法に関する命令を提供し、前記設定が、前記コンテンツ・プロバイダにより提供された前記データ・リポジトリでアドレス可能なロケーションを提供する、ステップと、
    前記システムが備える、データ・リポジトリのコンテンツページにアクセスする手段が、前記データ・リポジトリのコンテンツページにアクセスするステップであって、前記アドレス可能なロケーションのコンテンツページへアクセスするステップを含むステップと、
    前記システムが備える、命令に従って前記コンテンツページのコンテンツにアクセスする手段が、前記命令に従って前記コンテンツページのコンテンツにアクセスするステップと、
    前記システムが備える、アクセスされたコンテンツページからメタデータを生成する手段が、前記データ・リポジトリにおけるアクセスされたアドレス可能ロケーションに対するメタデータのインデックスに加えるために、アクセスされた前記コンテンツページから、前記アクセスされた前記コンテンツページについてのメタデータを生成するステップと、
    前記設定が、少なくとも1つのアドレス可能なロケーションに対する照会タームを提供するステップであって、
    前記システムが備える、照会タームを使用する手段が、照会タームが存在する前記アドレス可能なロケーションそれぞれに対し、照会結果を取得するために前記アドレス可能なロケーションで前記照会タームを使用するステップと、
    前記システムが備える、取得した照会結果からメタデータを生成する手段が、前記データ・リポジトリにおけるアクセスされた前記アドレス可能なロケーションに対するメタデータのインデックスに加えるために、取得した照会結果からメタデータを生成するステップと、
    を含むステップと、
    前記設定が、少なくとも1つの検索タームに対する照会ターム認証子を提供するステップであって、
    前記システムが備える、判断する手段が、少なくとも1つの照会ターム認証子を有する照会タームそれぞれに対して、前記照会タームに対する前記照会結果が前記照会タームに対する照会ターム認証子それぞれを満足するかどうかを判断するステップであって、前記照会結果が前記照会結果を生成した照会タームに対する照会ターム認証子それぞれを満足する場合に前記照会結果に対する前記メタデータが生成される、ステップと、
    前記システムが備える、非認証動作を実行する手段が、前記照会ターム認証子を満足しない前記照会結果それぞれに対して非認証動作を実行するステップと、
    を含むステップと、
    を含む方法。
  2. 前記非認証動作においては前記インデックスの前記照会結果に対するメタデータを追加しない、請求項1に記載の方法。
  3. 前記アドレス可能ロケーションがURLアドレスを含む、請求項1に記載の方法。
  4. 前記設定が、少なくとも1つのアドレス可能ロケーションに対するパスワードを提供し、
    前記システムが備える、パスワードを使用する手段が、前記パスワードが提供された前記アドレス可能ロケーションのコンテンツページにアクセスするために前記パスワードを使用するステップを更に含む、
    請求項1に記載の方法。
  5. 前記設定が、前記コンテンツページに含まれるリンクされたアドレス可能ロケーションに対するハイパーテキストリンクを検索するかどうかを指示する再帰的検索設定をさらに含み、
    前記システムが備える、データ・リポジトリのコンテンツページにアクセスする前記手段が、再帰的検索設定がそれぞれの再帰的にリンクされたアドレス可能ロケーションを検索することを指示する場合に、リンクされたアドレス可能ロケーションそれぞれのコンテンツページにアクセスするステップであって、前記コンテンツページ内のリンクされた前記アドレス可能ロケーションで再帰的にアクセスされたそれぞれのコンテンツページ対してメタデータが生成される、ステップ、をさらに含む、
    請求項1に記載の方法。
  6. 前記設定が前記データ・リポジトリの禁止のアドレス可能ロケーションを提供し、
    リンクされたアドレス可能ロケーションが禁止のアドレス可能ロケーションである場合はそれぞれのコンテンツページに対するメタデータが生成されない、
    請求項に記載の方法。
  7. 前記システムが備える、コンテンツページのフォーマットを判断する手段が、前記コンテンツページのフォーマットを判断するステップと、
    前記システムが備える、パーサを選択する手段が、判断された前記フォーマットの解析機能を有する複数のパーサのうちの1つを選択するステップと、
    前記システムが備える、コンテンツページを解析する手段が、選択された前記パーサで前記コンテンツページを解析するステップであって、前記インデックスに加えるために、前記解析されたコンテンツページからメタデータが生成される、ステップと、
    を含む請求項1に記載の方法。
  8. 前記システムが備える、パーサを判断する手段が、前記コンテンツページで参照されている埋め込みファイルの解析機能を有するパーサを判断するステップと、
    前記システムが備える、埋め込みファイルのコンテンツを解析する手段が、前記埋め込みファイル前記のコンテンツを解析するステップと、
    前記システムが備える、埋め込みファイルの解析されたコンテンツに対するメタデータを生成する手段が、前記埋め込みファイルの解析された前記コンテンツに対するメタデータを前記インデックスに加えて生成するステップと、
    を含む請求項1に記載の方法。
  9. 前記埋め込みファイルがマルチメディア・フォーマットでエンコードされている、請求項に記載の方法。
  10. 前記システムが備える、コレクションツールをコンテンツプロバイダに配信する手段が、前記設定を使用してコンテンツプロバイダのデータ・リポジトリに対するアクセス機能およびメタデータ生成機能を有するコレクションツールをコンテンツプロバイダに配信するステップと、
    前記システムが備える、複数のコンテンツプロバイダからメタデータを集める手段が、自己のデータ・リポジトリ上にメタデータを集めるために、前記コレクションツールを使用する複数のコンテンツプロバイダからメタデータを集めるステップと、
    を含む請求項1に記載の方法。
  11. 前記システムが備える、コンテンツプロバイダから電子署名を受け取る手段が、前記コレクションツールを使用し、メタデータを提供するコンテンツプロバイダから電子署名を受け取るステップを含む、請求項10に記載の方法。
  12. データ・リポジトリのアドレス・ロケーションでコンテンツに関するインデックス可能メタデータを集めるために、前記データ・リポジトリを検索するシステム、異なるコンテンツプロバイダにより管理される前記データ・リポジトリを検索する方法であって、
    前記システムが備える、コンテンツプロバイダによりカスタマイズ可能な設定にアクセスする手段が、前記コンテンツプロバイダによりカスタマイズ可能な設定にアクセスするステップであって、前記カスタマイズ可能な設定が、前記データ・リポジトリを検索する方法に関する命令を提供し、前記設定が、前記コンテンツ・プロバイダにより提供された前記データ・リポジトリでアドレス可能なロケーションを提供する、ステップと、
    前記システムが備える、データ・リポジトリのコンテンツページにアクセスする手段が、前記データ・リポジトリのコンテンツページにアクセスするステップであって、前記アドレス可能なロケーションのコンテンツページへアクセスするステップを含むステップと、
    前記システムが備える、命令に従って前記コンテンツページのコンテンツにアクセスする手段が、前記命令に従って前記コンテンツページのコンテンツにアクセスするステップと、
    前記システムが備える、アクセスされたコンテンツページからメタデータを生成する手段が、前記データ・リポジトリにおけるアクセスされたアドレス可能ロケーションに対するメタデータのインデックスに加えるために、アクセスされた前記コンテンツページから、前記アクセスされた前記コンテンツページについてのメタデータを生成するステップと、
    前記システムが備える、妥当性検証プログラムを実行する手段が、前記設定によって示される妥当性検証プログラムを、それぞれのアクセスされたコンテンツページに対して実行するステップと、
    前記システムが備える、妥当性検証結果を生成する手段が、それぞれの前記コンテンツページの特徴を記述した前記妥当性検証プログラムにより、それぞれのアクセスされたコンテンツページに対する妥当性検証結果を生成するステップと、
    前記システムが備える、妥当性検証結果からメタデータを生成する手段が、前記データ・リポジトリにおけるアクセスされたアドレス可能ロケーションに対するメタデータの前記インデックスに加えるために、前記妥当性検証結果からメタデータを生成するステップと、
    を含む方法。
  13. 前記設定が、少なくとも1つの妥当性検証プログラムとともに使用する少なくとも1つのパラメータをさらに含み、
    前記システムが備える、妥当性検証プログラム実行時にパラメータを使用する手段が、前記妥当性検証プログラム実行時に前記パラメータを使用するステップであって、前記妥当性検証結果が、前記妥当性検証プログラムとともに使用された前記少なくとも1つのパラメータに関する前記コンテンツページの特徴を示す、ステップを含む、
    請求項12に記載の方法。
  14. 前記設定が、少なくとも1つの妥当性検証プログラムとともに使用される少なくとも1つの妥当性検証結果認証子を含み、
    前記妥当性検証結果が、前記妥当性検証結果をもたらした前記妥当性検証プログラムとともに提供された前記少なくとも1つの妥当性検証結果認証子を満足するかどうかを、前 記システムが備える、妥当性検証結果を判断する手段が、判断するステップであって、前記妥当性検証結果が前記妥当性検証結果認証子を満足する場合に前記妥当性検証結果に対するメタデータが前記インデックスに追加される、ステップを含む、
    請求項12に記載の方法。
  15. 前記妥当性検証結果が前記妥当性検証結果認証子を満足しない場合に、前記アドレス可能ロケーションの前記コンテンツページに対するメタデータが前記インデックスに追加されない、請求項14に記載の方法。
  16. データ・リポジトリのアドレス・ロケーションでコンテンツに関するインデックス可能メタデータを集めるために異なるコンテンツプロバイダにより管理される前記データ・リポジトリを検索するシステムであって、
    前記コンテンツプロバイダによりカスタマイズ可能な設定にアクセスする手段であって、前記カスタマイズ可能な設定が、前記データ・リポジトリを検索する方法に関する命令を提供し、前記設定が、前記コンテンツ・プロバイダにより提供された前記データ・リポジトリでアドレス可能なロケーションを提供する、手段と、
    前記データ・リポジトリのコンテンツページにアクセスする手段であって、前記アドレス可能なロケーションのコンテンツページへアクセスする手段を含む手段と、
    前記命令に従って前記コンテンツページのコンテンツにアクセスする手段と、
    前記データ・リポジトリにおけるアクセスされたアドレス可能ロケーションに対するメタデータのインデックスに加えるために、アクセスされた前記コンテンツページから、前記アクセスされた前記コンテンツページについてのメタデータを生成する手段と、
    前記設定が、少なくとも1つのアドレス可能なロケーションに対する照会タームを提供する手段であって、
    照会タームが存在する前記アドレス可能なロケーションそれぞれに対し、照会結果を取得するために前記アドレス可能なロケーションで前記照会タームを使用する手段と、
    前記データ・リポジトリにおけるアクセスされた前記アドレス可能なロケーションに対するメタデータのインデックスに加えるために、取得した照会結果からメタデータを生成する手段と、
    を含む手段と、
    前記設定が、少なくとも1つの検索タームに対する照会ターム認証子を提供する手段であって、
    少なくとも1つの照会ターム認証子を有する照会タームそれぞれに対して、前記照会タームに対する前記照会結果が前記照会タームに対する照会ターム認証子それぞれを満足するかどうかを判断する手段であって、前記照会結果が前記照会結果を生成した照会タームに対する照会ターム認証子それぞれを満足する場合に前記照会結果に対する前記メタデータが生成される、手段と、
    前記照会ターム認証子を満足しない前記照会結果それぞれに対して非認証動作を実行する手段と、
    を含む手段と、
    を含むシステム。
  17. 前記非認証動作においては前記インデックスの前記照会結果に対するメタデータを追加しない、請求項16に記載のシステム。
  18. 前記アドレス可能ロケーションがURLアドレスを含む、請求項16に記載のシステム。
  19. 前記設定が、少なくとも1つのアドレス可能ロケーションに対するパスワードを提供し、
    前記パスワードが提供された前記アドレス可能ロケーションのコンテンツページにアクセスするために前記パスワードを使用する手段を更に含む、
    請求項16に記載のシステム。
  20. 前記設定が、前記コンテンツページに含まれるリンクされたアドレス可能ロケーションに対するハイパーテキストリンクを検索するかどうかを指示する再帰的検索設定をさらに含み、
    再帰的検索設定がそれぞれの再帰的にリンクされたアドレス可能ロケーションを検索することを指示する場合に、リンクされたアドレス可能ロケーションそれぞれのコンテンツページにアクセスする手段であって、前記コンテンツページ内のリンクされた前記アドレス可能ロケーションで再帰的にアクセスされたそれぞれのコンテンツページ対してメタデータが生成される、手段、をさらに含む、
    請求項16に記載のシステム。
  21. 前記設定が前記データ・リポジトリの禁止のアドレス可能ロケーションを提供し、
    リンクされたアドレス可能ロケーションが禁止のアドレス可能ロケーションである場合はそれぞれのコンテンツページに対するメタデータが生成されない、
    請求項20に記載のシステム。
  22. 前記コンテンツページのフォーマットを判断する手段と、
    判断された前記フォーマットの解析機能を有する複数のパーサのうちの1つを選択する手段と、
    選択された前記パーサで前記コンテンツページを解析する手段であって、前記インデックスに加えるために、前記解析されたコンテンツページからメタデータが生成される、手段と、
    を含む請求項16に記載のシステム。
  23. 前記コンテンツページで参照されている埋め込みファイルの解析機能を有するパーサを判断する手段と、
    前記埋め込みファイル前記のコンテンツを解析する手段と、
    前記埋め込みファイルの解析された前記コンテンツに対するメタデータを前記インデックスに加えて生成する手段と、
    を含む請求項16に記載のシステム。
  24. 前記埋め込みファイルがマルチメディア・フォーマットでエンコードされている、請求項23に記載のシステム。
  25. 前記設定を使用してコンテンツプロバイダのデータ・リポジトリに対するアクセス機能およびメタデータ生成機能を有するコレクションツールをコンテンツプロバイダに配信する手段と、
    自己のデータ・リポジトリ上にメタデータを集めるために、前記コレクションツールを使用する複数のコンテンツプロバイダからメタデータを集める手段と、
    を含む請求項16に記載のシステム。
  26. データ・リポジトリのアドレス・ロケーションでコンテンツに関するインデックス可能メタデータを集めるために、異なるコンテンツプロバイダにより管理される前記データ・リポジトリを検索するシステムであって、
    前記コンテンツプロバイダによりカスタマイズ可能な設定にアクセスする手段であって、前記カスタマイズ可能な設定が、前記データ・リポジトリを検索する方法に関する命令を提供し、前記設定が、前記コンテンツ・プロバイダにより提供された前記データ・リポジトリでアドレス可能なロケーションを提供する、手段と、
    前記データ・リポジトリのコンテンツページにアクセスする手段であって、前記アドレス可能なロケーションのコンテンツページへアクセスする手段を含む手段と、
    前記命令に従って前記コンテンツページのコンテンツにアクセスする手段と、
    前記データ・リポジトリにおけるアクセスされたアドレス可能ロケーションに対するメタデータのインデックスに加えるために、アクセスされた前記コンテンツページから、前記アクセスされた前記コンテンツページについてのメタデータを生成する手段と、
    前記設定によって示される妥当性検証プログラムを、それぞれのアクセスされたコンテンツページに対して実行する手段と、
    それぞれの前記コンテンツページの特徴を記述した前記妥当性検証プログラムにより、それぞれのアクセスされたコンテンツページに対する妥当性検証結果を生成する手段と、
    前記データ・リポジトリにおけるアクセスされたアドレス可能ロケーションに対するメタデータの前記インデックスに加えるために、前記妥当性検証結果からメタデータを生成する手段と、
    を含むシステム。
  27. 前記設定が、少なくとも1つの妥当性検証プログラムとともに使用する少なくとも1つのパラメータをさらに含み、
    前記妥当性検証プログラム実行時に前記パラメータを使用する手段であって、前記妥当性検証結果が、前記妥当性検証プログラムとともに使用された前記少なくとも1つのパラメータに関する前記コンテンツページの特徴を示す、手段を含む、
    請求項26に記載のシステム。
  28. 前記設定が、少なくとも1つの妥当性検証プログラムとともに使用される少なくとも1つの妥当性検証結果認証子を含み、
    前記妥当性検証結果が、前記該妥当性検証結果をもたらした前記妥当性検証プログラムとともに提供された前記少なくとも1つの妥当性検証結果認証子を満足するかどうかを判断する手段であって、前記妥当性検証結果が前記妥当性検証結果認証子を満足する場合に前記妥当性検証結果に対するメタデータが前記インデックスに追加される、手段を含む、
    請求項26に記載のシステム。
  29. 前記妥当性検証結果が前記妥当性検証結果認証子を満足しない場合に、前記アドレス可能ロケーションの前記コンテンツページに対するメタデータが前記インデックスに追加されない、請求項28に記載のシステム。
  30. データ・リポジトリのアドレス・ロケーションでコンテンツに関するインデックス可能メタデータを集めるために異なるコンテンツプロバイダにより管理される前記データ・リポジトリを検索するプログラムであって、
    前記コンテンツプロバイダによりカスタマイズ可能な設定にアクセスするステップであって、前記カスタマイズ可能な設定が、前記データ・リポジトリを検索する方法に関する命令を提供し、前記設定が、前記コンテンツ・プロバイダにより提供された前記データ・リポジトリでアドレス可能なロケーションを提供する、ステップと、
    前記データ・リポジトリのコンテンツページにアクセスするステップであって、前記アドレス可能なロケーションのコンテンツページへアクセスするステップを含むステップと、
    前記命令に従って前記コンテンツページのコンテンツにアクセスするステップと、
    前記データ・リポジトリにおけるアクセスされたアドレス可能ロケーションに対するメタデータのインデックスに加えるために、アクセスされた前記コンテンツページから、前記アクセスされた前記コンテンツページについてのメタデータを生成するステップと、
    前記設定が、少なくとも1つのアドレス可能なロケーションに対する照会タームを提供するステップであって、
    照会タームが存在する前記アドレス可能なロケーションそれぞれに対し、照会結果を取得するために前記アドレス可能なロケーションで前記照会タームを使用するステップと、
    前記データ・リポジトリにおけるアクセスされた前記アドレス可能なロケーションに対するメタデータのインデックスに加えるために、取得した照会結果からメタデータを生成するステップと、
    を含むステップと、
    前記設定が、少なくとも1つの検索タームに対する照会ターム認証子を提供するステップであって、
    少なくとも1つの照会ターム認証子を有する照会タームそれぞれに対して、前記照会タームに対する前記照会結果が前記照会タームに対する照会ターム認証子それぞれを満足するかどうかを判断するステップであって、前記照会結果が前記照会結果を生成した照会タームに対する照会ターム認証子それぞれを満足する場合に前記照会結果に対する前記メタデータが生成される、ステップと、
    前記照会ターム認証子を満足しない前記照会結果それぞれに対して非認証動作を実行するステップと、
    を含むステップと、
    をコンピュータに実行させるためのプログラム。
  31. 前記非認証動作においては前記インデックスの前記照会結果に対するメタデータを追加しない、請求項30に記載のプログラム。
  32. 前記アドレス可能ロケーションがURLアドレスを含む、請求項30に記載のプログラム。
  33. 前記設定が、少なくとも1つの前記アドレス可能ロケーションに対するパスワードを提供し、
    前記パスワードが提供された前記アドレス可能ロケーションのコンテンツページにアクセスするために前記パスワードを使用するステップを更にコンピュータに実行させるための
    請求項30に記載のプログラム。
  34. 前記設定が、前記コンテンツページに含まれるリンクされたアドレス可能ロケーションに対するハイパーテキストリンクを検索するかどうかを指示する再帰的検索設定をさらに含み、
    再帰的検索設定がそれぞれの再帰的にリンクされたアドレス可能ロケーションを検索することを指示する場合に、リンクされたアドレス可能ロケーションそれぞれのコンテンツページにアクセスするステップであって、前記コンテンツページ内のリンクされた前記アドレス可能ロケーションで再帰的にアクセスされたそれぞれのコンテンツページ対してメタデータが生成される、ステップを更にコンピュータに実行させるための
    請求項30に記載のプログラム。
  35. 前記設定が前記データ・リポジトリの禁止のアドレス可能ロケーションを提供し、
    リンクされたアドレス可能ロケーションが禁止のアドレス可能ロケーションである場合はそれぞれのコンテンツページに対するメタデータが生成されない、
    請求項34に記載のプログラム。
  36. 前記コンテンツページのフォーマットを判断するステップと、
    判断された前記フォーマットの解析機能を有する複数のパーサのうちの1つを選択するステップと、
    選択された前記パーサで前記コンテンツページを解析するステップであって、前記インデックスに加えるために、前記解析されたコンテンツページからメタデータが生成される、ステップと
    更にコンピュータに実行させるための、請求項30に記載のプログラム。
  37. 前記コンテンツページで参照されている埋め込みファイルの解析機能を有するパーサを判断するステップと、
    前記埋め込みファイル前記のコンテンツを解析するステップと、
    前記埋め込みファイルの解析された前記コンテンツに対するメタデータを前記インデックスに加えて生成するステップと、
    更にコンピュータに実行させるための、請求項30に記載のプログラム。
  38. 前記埋め込みファイルがマルチメディア・フォーマットでエンコードされている、請求項37に記載のプログラム。
  39. 前記設定を使用してコンテンツプロバイダのデータ・リポジトリに対するアクセス機能およびメタデータ生成機能を有するコレクションツールをコンテンツプロバイダに配信するステップと、
    自己のデータ・リポジトリ上にメタデータを集めるために、前記コレクションツールを使用する複数のコンテンツプロバイダからメタデータを集めるステップと、
    を更にコンピュータに実行させるための、請求項30に記載のプログラム。
  40. 前記コレクションツールを使用し、メタデータを提供するコンテンツプロバイダから電子署名を受け取るステップを更にコンピュータに実行させるための、請求項39に記載のプログラム。
  41. データ・リポジトリのアドレス・ロケーションでコンテンツに関するインデックス可能メタデータを集めるために、異なるコンテンツプロバイダにより管理される前記データ・リポジトリを検索するプログラムであって、
    前記コンテンツプロバイダによりカスタマイズ可能な設定にアクセスするステップであって、前記カスタマイズ可能な設定が、前記データ・リポジトリを検索する方法に関する命令を提供し、前記設定が、前記コンテンツ・プロバイダにより提供された前記データ・リポジトリでアドレス可能なロケーションを提供する、ステップと、
    前記データ・リポジトリのコンテンツページにアクセスするステップであって、前記アドレス可能なロケーションのコンテンツページへアクセスするステップを含むステップと、
    前記命令に従って前記コンテンツページのコンテンツにアクセスするステップと、
    前記データ・リポジトリにおけるアクセスされたアドレス可能ロケーションに対するメタデータのインデックスに加えるために、アクセスされた前記コンテンツページから、前記アクセスされた前記コンテンツページについてのメタデータを生成するステップと、
    前記設定によって示される妥当性検証プログラムを、それぞれのアクセスされたコンテンツページに対して実行するステップと、
    それぞれの前記コンテンツページの特徴を記述した前記妥当性検証プログラムにより、それぞれのアクセスされたコンテンツページに対する妥当性検証結果を生成するステップと、
    前記データ・リポジトリにおけるアクセスされたアドレス可能ロケーションに対するメタデータの前記インデックスに加えるために、前記妥当性検証結果からメタデータを生成するステップと、
    をコンピュータに実行させるためのプログラム。
  42. 前記設定が、少なくとも1つの妥当性検証プログラムとともに使用する少なくとも1つのパラメータをさらに含み、
    前記妥当性検証プログラム実行時に前記パラメータを使用するステップであって、 前記妥当性検証結果が、前記妥当性検証プログラムとともに使用された前記少なくとも1つのパラメータに関する前記コンテンツページの特徴を示す、ステップをコンピュータに実行させるための
    請求項41に記載のプログラム。
  43. 前記設定が、少なくとも1つの妥当性検証プログラムとともに使用される少なくとも1つの妥当性検証結果認証子を含み、
    前記妥当性検証結果が、前記該妥当性検証結果をもたらした前記妥当性検証プログラムとともに提供された前記少なくとも1つの妥当性検証結果認証子を満足するかどうかを判断するステップであって、前記妥当性検証結果が前記妥当性検証結果認証子を満足する場合に前記妥当性検証結果に対するメタデータが前記インデックスに追加される、ステップをコンピュータに実行させるための
    請求項41に記載のプログラム。
  44. 前記妥当性検証結果が前記妥当性検証結果認証子を満足しない場合に、前記アドレス可能ロケーションの前記コンテンツページに対するメタデータが前記インデックスに追加されない、請求項43に記載のプログラム。
JP2001254285A 2000-08-24 2001-08-24 データ検索の方法、システム、およびプログラム Expired - Lifetime JP3771822B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/645,386 US6959326B1 (en) 2000-08-24 2000-08-24 Method, system, and program for gathering indexable metadata on content at a data repository
US09/645386 2000-08-24

Publications (2)

Publication Number Publication Date
JP2002123528A JP2002123528A (ja) 2002-04-26
JP3771822B2 true JP3771822B2 (ja) 2006-04-26

Family

ID=24588814

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001254285A Expired - Lifetime JP3771822B2 (ja) 2000-08-24 2001-08-24 データ検索の方法、システム、およびプログラム

Country Status (4)

Country Link
US (1) US6959326B1 (ja)
EP (1) EP1182590A3 (ja)
JP (1) JP3771822B2 (ja)
KR (1) KR100482479B1 (ja)

Families Citing this family (117)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711738B1 (en) * 1999-11-15 2010-05-04 West Services, Inc. Method, system and computer-readable medium for accessing and retrieving court records, items and documents
US6883135B1 (en) 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
CN1223194C (zh) 2000-10-24 2005-10-12 汤姆森许可公司 调整嵌入媒体播放器页面的大小的方法
US8122236B2 (en) 2001-10-24 2012-02-21 Aol Inc. Method of disseminating advertisements using an embedded media player page
US20020103920A1 (en) 2000-11-21 2002-08-01 Berkun Ken Alan Interpretive stream metadata extraction
FR2818848B1 (fr) * 2000-12-26 2004-05-14 France Telecom Systeme de gestion d'informations en temps reel, pour un reseau comportant un ensemble heterogene de terminaux, serveur et terminal principal pour un tel systeme
US7440953B2 (en) * 2001-01-25 2008-10-21 Content Directions, Inc. Apparatus, method and system for directory quality assurance
US20040088333A1 (en) 2002-01-25 2004-05-06 David Sidman Apparatus method and system for tracking information access
US7620622B1 (en) * 2001-03-08 2009-11-17 Yahoo! Inc. Method and system for indexing information and providing results for a search including objects having predetermined attributes
WO2002084590A1 (en) 2001-04-11 2002-10-24 Applied Minds, Inc. Knowledge web
EP1396799B1 (en) * 2001-06-11 2008-04-23 Matsushita Electric Industrial Co., Ltd. Content management system
US20020198962A1 (en) * 2001-06-21 2002-12-26 Horn Frederic A. Method, system, and computer program product for distributing a stored URL and web document set
AU2002326118A1 (en) * 2001-08-14 2003-03-03 Quigo Technologies, Inc. System and method for extracting content for submission to a search engine
KR100473163B1 (ko) * 2002-01-15 2005-03-08 주식회사 에듀미디어텍 멀티미디어 컨텐츠가 저장된 기록 매체 및 그 재생을 위한장치와 방법
JP2005520415A (ja) * 2002-03-14 2005-07-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Tvエニータイム・ウェブ・サービス発見方法の改良
US7844610B2 (en) 2003-12-12 2010-11-30 Google Inc. Delegated authority evaluation system
US8069175B2 (en) 2002-04-10 2011-11-29 Google Inc. Delegating authority to evaluate content
CA2664732C (en) * 2002-04-12 2013-07-02 Mitsubishi Denki Kabushiki Kaisha An apparatus to edit, reproduce, deliver, search and re-generate condition settings for metadata
US8090800B2 (en) * 2002-05-14 2012-01-03 Oracle International Corporation Method and system for automated web page accessibility coding standards analysis
US6983280B2 (en) * 2002-09-13 2006-01-03 Overture Services Inc. Automated processing of appropriateness determination of content for search listings in wide area network searches
US8012025B2 (en) 2002-12-13 2011-09-06 Applied Minds, Llc Video game controller hub with control input reduction and combination schemes
KR100511785B1 (ko) * 2002-12-20 2005-08-31 한국전자통신연구원 멀티미디어 컨텐츠 기술 메타데이터 저작 시스템 및 저작방법
US20060167804A1 (en) * 2003-02-25 2006-07-27 Ali Aydar Track listening and playing service for digital media files
US20060167807A1 (en) * 2003-02-25 2006-07-27 Ali Aydar Dispute resolution in an open copyright database
US8117130B2 (en) * 2003-02-25 2012-02-14 Stragent, Llc Batch loading and self-registration of digital media files
EP1602019A2 (en) * 2003-02-25 2005-12-07 Snocap, Inc. Content regulation
US20060167813A1 (en) * 2003-02-25 2006-07-27 Ali Aydar Managing digital media rights through missing masters lists
US20060167882A1 (en) * 2003-02-25 2006-07-27 Ali Aydar Digital rights management system architecture
JP4381012B2 (ja) * 2003-03-14 2009-12-09 ヒューレット・パッカード・カンパニー 万物識別子を用いたデータ検索システムおよびデータ検索方法
US9406068B2 (en) 2003-04-25 2016-08-02 Apple Inc. Method and system for submitting media for network-based purchase and distribution
CN101699505B (zh) 2003-04-25 2016-02-17 苹果公司 一种基于网络的媒体系统
JP4454251B2 (ja) * 2003-05-19 2010-04-21 日本放送協会 コンテンツ配信システム
US9678967B2 (en) * 2003-05-22 2017-06-13 Callahan Cellular L.L.C. Information source agent systems and methods for distributed data storage and management using content signatures
KR100533671B1 (ko) * 2003-06-05 2005-12-05 삼성전자주식회사 효율적인 멀티미디어 컨텐츠 관리 장치 및 방법
US7228301B2 (en) * 2003-06-27 2007-06-05 Microsoft Corporation Method for normalizing document metadata to improve search results using an alias relationship directory service
US8954509B1 (en) * 2003-09-18 2015-02-10 Microsoft Corporation System and method for broadcasting data over a computer network
US7844548B2 (en) * 2003-10-15 2010-11-30 Apple Inc. Techniques and systems for electronic submission of media for network-based distribution
US7546531B2 (en) * 2003-11-21 2009-06-09 Microsoft Corporation Accessing alternate content
US7293012B1 (en) * 2003-12-19 2007-11-06 Microsoft Corporation Friendly URLs
US7457955B2 (en) 2004-01-14 2008-11-25 Brandmail Solutions, Inc. Method and apparatus for trusted branded email
US8073910B2 (en) * 2005-03-03 2011-12-06 Iconix, Inc. User interface for email inbox to call attention differently to different classes of email
US20070162394A1 (en) 2004-02-12 2007-07-12 Iconix, Inc. Rapid identification of message authentication
US7584221B2 (en) 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US7680759B1 (en) * 2004-08-18 2010-03-16 Teradata Us, Inc. Automated metadata validation
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7827181B2 (en) 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
WO2006069394A2 (en) * 2004-12-20 2006-06-29 Snocap, Inc. Managing digital media rights through missing masters lists
US7716198B2 (en) 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US7599966B2 (en) * 2005-01-27 2009-10-06 Yahoo! Inc. System and method for improving online search engine results
US20060167854A1 (en) * 2005-01-27 2006-07-27 Dissett Daniel P System and method for improving online search engine results
US20060184517A1 (en) * 2005-02-15 2006-08-17 Microsoft Corporation Answers analytics: computing answers across discrete data
US7392253B2 (en) 2005-03-03 2008-06-24 Microsoft Corporation System and method for secure full-text indexing
US7792833B2 (en) 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
US20080256058A1 (en) * 2005-03-11 2008-10-16 Mikael Kother Highlighting of Search Terms in a Meta Search Engine
US7599917B2 (en) 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US8930402B1 (en) 2005-10-31 2015-01-06 Verizon Patent And Licensing Inc. Systems and methods for automatic collection of data over a network
US20070203898A1 (en) * 2006-02-24 2007-08-30 Jonathan Lurie Carmona Search methods and systems
US20070203956A1 (en) * 2006-02-28 2007-08-30 Microsoft Corporation Metadata Customization Using Diffgrams
US20070276920A1 (en) * 2006-05-12 2007-11-29 Daniel Buchmann Consistency of routing rules in distributed system landscapes
US7827188B2 (en) * 2006-06-09 2010-11-02 Copyright Clearance Center, Inc. Method and apparatus for converting a document universal resource locator to a standard document identifier
US9633356B2 (en) 2006-07-20 2017-04-25 Aol Inc. Targeted advertising for playlists based upon search queries
JP4130685B2 (ja) * 2006-07-25 2008-08-06 インターナショナル・ビジネス・マシーンズ・コーポレーション デジタル・コンテンツに関する問合せに対して回答することを支援するためのシステム、プログラム、および方法
US8190661B2 (en) * 2007-01-24 2012-05-29 Microsoft Corporation Using virtual repository items for customized display
US8145673B2 (en) 2007-02-16 2012-03-27 Microsoft Corporation Easily queriable software repositories
US20080201330A1 (en) * 2007-02-16 2008-08-21 Microsoft Corporation Software repositories
US20080208831A1 (en) * 2007-02-26 2008-08-28 Microsoft Corporation Controlling search indexing
US10387440B2 (en) * 2007-03-29 2019-08-20 Jda Software Group, Inc. Generic data staging and loading using enhanced metadata and associated method
US7958103B1 (en) * 2007-03-30 2011-06-07 Emc Corporation Incorporated web page content
US7831625B2 (en) 2007-05-16 2010-11-09 Microsoft Corporation Data model for a common language
US7849065B2 (en) * 2007-07-20 2010-12-07 Microsoft Corporation Heterogeneous content indexing and searching
US7725454B2 (en) * 2007-07-20 2010-05-25 Microsoft Corporation Indexing and searching of information including handler chaining
JP2009075904A (ja) * 2007-09-21 2009-04-09 Fujifilm Corp 検索可能化プログラム
US20090083336A1 (en) * 2007-09-26 2009-03-26 Microsoft Corporation Search based data management
US7840569B2 (en) 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US8521079B2 (en) * 2007-12-21 2013-08-27 Ibiquity Digital Corporation Radio service registry
WO2009120004A2 (ko) * 2008-03-24 2009-10-01 Kang Min Soo 디지털 콘텐츠 관련 메타 정보 활용 키워드 광고 방법 및 그 관련 시스템
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8095963B2 (en) 2008-04-30 2012-01-10 Microsoft Corporation Securing resource stores with claims-based security
US8449144B2 (en) * 2008-05-16 2013-05-28 Musco Corporation Apparatus, method, and system for highly controlled light distribution using multiple light sources
US20090327466A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Internal uniform resource locator formulation and testing
US8214336B2 (en) * 2009-06-16 2012-07-03 International Business Machines Corporation Preservation of digital content
US8095571B2 (en) 2009-06-22 2012-01-10 Microsoft Corporation Partitioning modeling platform data
US20110178874A1 (en) * 2010-01-18 2011-07-21 Rabih Salem Ballout Service for Providing an Interactive, Personalized Radio Network
US20110178878A1 (en) * 2010-01-18 2011-07-21 Rabih Ballout System for Providing an Interactive, Personalized Radio Network
US20110176397A1 (en) * 2010-01-18 2011-07-21 Rabih Salem Ballout Method for Providing an Interactive, Personalized Radio Network
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US9767098B2 (en) 2012-08-08 2017-09-19 Amazon Technologies, Inc. Archival data storage system
US9563681B1 (en) 2012-08-08 2017-02-07 Amazon Technologies, Inc. Archival data flow management
US8694604B2 (en) * 2011-08-25 2014-04-08 Microsoft Corporation Accurate search results while honoring content limitations
KR101210201B1 (ko) * 2011-10-04 2012-12-07 주식회사 소머스 소셜 네트워크 서비스를 이용한 인터랙티브 다국어 광고 시스템 및 그 구동 방법
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US9070010B2 (en) 2012-08-06 2015-06-30 Bank Of America Corporation Image check content estimation and use
US9830111B1 (en) 2012-08-08 2017-11-28 Amazon Technologies, Inc. Data storage space management
US10120579B1 (en) 2012-08-08 2018-11-06 Amazon Technologies, Inc. Data storage management for sequentially written media
US9904788B2 (en) 2012-08-08 2018-02-27 Amazon Technologies, Inc. Redundant key management
US8805793B2 (en) 2012-08-08 2014-08-12 Amazon Technologies, Inc. Data storage integrity validation
US9225675B2 (en) 2012-08-08 2015-12-29 Amazon Technologies, Inc. Data storage application programming interface
US8959067B1 (en) * 2012-08-08 2015-02-17 Amazon Technologies, Inc. Data storage inventory indexing
US9652487B1 (en) 2012-08-08 2017-05-16 Amazon Technologies, Inc. Programmable checksum calculations on data storage devices
US9779035B1 (en) 2012-08-08 2017-10-03 Amazon Technologies, Inc. Log-based data storage on sequentially written media
US9721236B2 (en) 2012-08-09 2017-08-01 Bank Of America Corporation Distributed processing of a check image
US8996476B2 (en) 2012-08-20 2015-03-31 Bank Of America Corporation Correction of check processing defects
US10558581B1 (en) 2013-02-19 2020-02-11 Amazon Technologies, Inc. Systems and techniques for data recovery in a keymapless data storage system
US11016946B1 (en) * 2015-03-31 2021-05-25 EMC IP Holding Company LLC Method and apparatus for processing object metadata
US10373128B2 (en) 2015-06-25 2019-08-06 Bank Of America Corporation Dynamic resource management associated with payment instrument exceptions processing
US10115081B2 (en) 2015-06-25 2018-10-30 Bank Of America Corporation Monitoring module usage in a data processing system
US10229395B2 (en) 2015-06-25 2019-03-12 Bank Of America Corporation Predictive determination and resolution of a value of indicia located in a negotiable instrument electronic image
US10049350B2 (en) 2015-06-25 2018-08-14 Bank Of America Corporation Element level presentation of elements of a payment instrument for exceptions processing
US11386060B1 (en) 2015-09-23 2022-07-12 Amazon Technologies, Inc. Techniques for verifiably processing data in distributed computing systems
US10552303B2 (en) * 2016-07-18 2020-02-04 International Business Machines Corporation Segmented accessibility testing in web-based applications
US11064013B2 (en) * 2018-05-22 2021-07-13 Netskope, Inc. Data loss prevention using category-directed parsers
US10764253B2 (en) 2018-06-28 2020-09-01 Bank Of America Corporation System for using metadata to identify and extract specific upstream data, provisioning data batches, and providing dynamic downstream data access
KR102394483B1 (ko) * 2021-09-02 2022-05-04 (주)가온아이 전자 문서에 오류가 있는지 여부를 판단하는 오류 판단 서비스를 제공하기 위한 서비스 제공 서버 및 그 동작 방법
US11503038B1 (en) 2021-10-27 2022-11-15 Netskope, Inc. Policy enforcement and visibility for IaaS and SaaS open APIs

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5493677A (en) * 1994-06-08 1996-02-20 Systems Research & Applications Corporation Generation, archiving, and retrieval of digital images with evoked suggestion-set captions and natural language interface
US5675785A (en) 1994-10-04 1997-10-07 Hewlett-Packard Company Data warehouse which is accessed by a user using a schema of virtual tables
US5873076A (en) * 1995-09-15 1999-02-16 Infonautics Corporation Architecture for processing search queries, retrieving documents identified thereby, and method for using same
US5721903A (en) 1995-10-12 1998-02-24 Ncr Corporation System and method for generating reports from a computer database
US5974455A (en) * 1995-12-13 1999-10-26 Digital Equipment Corporation System for adding new entry to web page table upon receiving web page including link to another web page not having corresponding entry in web page table
US5970482A (en) 1996-02-12 1999-10-19 Datamind Corporation System for data mining using neuroagents
US5715453A (en) * 1996-05-31 1998-02-03 International Business Machines Corporation Web server mechanism for processing function calls for dynamic data queries in a web page
US6038610A (en) * 1996-07-17 2000-03-14 Microsoft Corporation Storage of sitemaps at server sites for holding information regarding content
US5864863A (en) * 1996-08-09 1999-01-26 Digital Equipment Corporation Method for parsing, indexing and searching world-wide-web pages
US5935210A (en) * 1996-11-27 1999-08-10 Microsoft Corporation Mapping the structure of a collection of computer resources
US5999940A (en) * 1997-05-28 1999-12-07 Home Information Services, Inc. Interactive information discovery tool and methodology
US5920856A (en) * 1997-06-09 1999-07-06 Xerox Corporation System for selecting multimedia databases over networks
US5983267A (en) * 1997-09-23 1999-11-09 Information Architects Corporation System for indexing and displaying requested data having heterogeneous content and representation
KR100269258B1 (ko) * 1997-10-21 2000-10-16 정선종 프로세스 방법론을 위한 통합 case 정보저장소 메타 모델시스템 및 그 통합 지원 방법
KR19990047854A (ko) * 1997-12-05 1999-07-05 정선종 메타데이타에 의한 정보 검색의 지능형 사용자 인터페이스 방법
US6145003A (en) * 1997-12-17 2000-11-07 Microsoft Corporation Method of web crawling utilizing address mapping
US6094649A (en) * 1997-12-22 2000-07-25 Partnet, Inc. Keyword searches of structured databases
US6151624A (en) * 1998-02-03 2000-11-21 Realnames Corporation Navigating network resources based on metadata
US6167405A (en) * 1998-04-27 2000-12-26 Bull Hn Information Systems Inc. Method and apparatus for automatically populating a data warehouse system
US6192364B1 (en) * 1998-07-24 2001-02-20 Jarg Corporation Distributed computer database system and method employing intelligent agents
US6226618B1 (en) * 1998-08-13 2001-05-01 International Business Machines Corporation Electronic content delivery system
US6138157A (en) * 1998-10-12 2000-10-24 Freshwater Software, Inc. Method and apparatus for testing web sites
KR100295391B1 (ko) * 1998-12-03 2001-07-12 오길록 씨.에이.엘.에스 통합 데이터베이스를 위한 메타 데이터카탈로그 시스템
CA2256936C (en) * 1998-12-23 2002-04-02 Hamid Bacha System for electronic repository of data enforcing access control on data search and retrieval
KR20000054898A (ko) * 1999-02-01 2000-09-05 김영환 컴퓨터를 이용한 멀티미디어 정보검색 방법 및 그 장치
US6253198B1 (en) * 1999-05-11 2001-06-26 Search Mechanics, Inc. Process for maintaining ongoing registration for pages on a given search engine
US6263364B1 (en) * 1999-11-02 2001-07-17 Alta Vista Company Web crawler system using plurality of parallel priority level queues having distinct associated download priority levels for prioritizing document downloading and maintaining document freshness
US6434548B1 (en) * 1999-12-07 2002-08-13 International Business Machines Corporation Distributed metadata searching system and method
US7020679B2 (en) * 2000-05-12 2006-03-28 Taoofsearch, Inc. Two-level internet search service system

Also Published As

Publication number Publication date
US6959326B1 (en) 2005-10-25
EP1182590A2 (en) 2002-02-27
EP1182590A3 (en) 2005-11-23
KR20020016514A (ko) 2002-03-04
JP2002123528A (ja) 2002-04-26
KR100482479B1 (ko) 2005-04-14

Similar Documents

Publication Publication Date Title
JP3771822B2 (ja) データ検索の方法、システム、およびプログラム
KR101389969B1 (ko) 원격 모듈용 메시지 목록
US7536389B1 (en) Techniques for crawling dynamic web content
US8296293B2 (en) Agent rank
US6938170B1 (en) System and method for preventing automated crawler access to web-based data sources using a dynamic data transcoding scheme
AU2010201642B2 (en) Remote module incorporation into a container document
US8024313B2 (en) System and method for enhanced direction of automated content identification in a distributed environment
JP5015935B2 (ja) モバイルサイトマップ
EP2634709B1 (en) System and method for appending security information to search engine results
US20100114864A1 (en) Method and system for search engine optimization
US20070162459A1 (en) System and method for creating searchable user-created blog content
US8626757B1 (en) Systems and methods for detecting network resource interaction and improved search result reporting
US6938034B1 (en) System and method for comparing and representing similarity between documents using a drag and drop GUI within a dynamically generated list of document identifiers
US20070162524A1 (en) Network document management
US10169477B2 (en) Method and system for rendering a web page free of inappropriate URLs
KR102054020B1 (ko) 참조 웹 크롤의 도움에 의한 웹 코퍼스의 구축
US8826119B2 (en) Management of a web site that includes dynamic protected data
JP2004118415A (ja) 情報収集方法及びその方法における処理をコンピュータに行なわせるためのプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20041115

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20041210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050419

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050713

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060210

R150 Certificate of patent or registration of utility model

Ref document number: 3771822

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100217

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110217

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110217

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120217

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120217

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130217

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130217

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140217

Year of fee payment: 8

EXPY Cancellation because of completion of term