JP2004310379A - ウェブ検索装置 - Google Patents

ウェブ検索装置 Download PDF

Info

Publication number
JP2004310379A
JP2004310379A JP2003102155A JP2003102155A JP2004310379A JP 2004310379 A JP2004310379 A JP 2004310379A JP 2003102155 A JP2003102155 A JP 2003102155A JP 2003102155 A JP2003102155 A JP 2003102155A JP 2004310379 A JP2004310379 A JP 2004310379A
Authority
JP
Japan
Prior art keywords
search
page
web
identification data
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003102155A
Other languages
English (en)
Inventor
Shiro Ito
史朗 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003102155A priority Critical patent/JP2004310379A/ja
Publication of JP2004310379A publication Critical patent/JP2004310379A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索開始ページを提供するウェブサーバとは異なるウェブサーバのページを用いた検索リクエストを拒絶する。
【解決手段】検索開始ページを使用してウェブブラウザ装置から送信された検索要求を受信し(101)、これから検索開始ページの識別データを抽出する(104)。一方、正当な検索開始ページとして登録されたページの識別データを保持しておき(105)、これらの抽出識別データと保持識別データとに基づき、検索要求が、正当な検索開始ページを使用して送信されたか否かを判別する(106)。送信されたと判別された場合、検索要求中の検索条件に従って検索を行ない(107)、検索結果を表現する結果ページのHTMLデータを作成する(108)。このHTMLデータを使用して応答メッセージを作成して、前記ウェブブラウザ装置に送信する(109)。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、ウェブ検索装置に関し、特に、ネットワークを介してウェブブラウザ装置及びウェブサーバに接続されるウェブ検索装置に関する。
【0002】
【従来の技術】
インターネットを用いて情報伝達を行なう仕組みであるウェブ(あるいはWWW、ワールドワイドウェブ)において、従来、情報の実態であるウェブページを検索する機能を有したウェブ検索装置が存在する。
【0003】
ウェブ検索装置は、インターネットに散在するウェブページを収集する一方、例えばキーワードを検索条件として受理し、収集したウェブページの中から、受理した検索条件に合致するウェブページを検索し、その検索結果を検索依頼者に返信する装置である。検索条件の受理と検索結果の返信もウェブの枠組みを利用して行われる。検索対象を、インターネットに散在するウェブページ全般とするウェブ検索装置と、検索対象をウェブページの一定範囲に限定するウェブ検索装置とがある。
【0004】
図2は、ウェブ検索装置を含むウェブの第1のネットワーク構成を示すブロック図である。
【0005】
同図において、201は、ユーザの入力操作に従ってウェブページを取得して表示するウェブブラウザ機能を実現するウェブブラウザ装置である。ウェブブラウザ装置201は、ウェブブラウザアプリケーションソフトウェアを搭載したコンピュータ、またはウェブブラウザ専用のハードウェア装置であるが、いずれもHTTP(Hypertext Transfer Protocol)と呼ばれる手順に従ってページの取得動作を行なう。また、基本的には、HTML(Hypertext Makeup Language)と呼ばれるページ記述言語に従ってページを表示し、リンクやフォームと呼ばれるユーザからの入力を受理するコントロールをページ上に出力する。
【0006】
202は、ウェブブラウザ装置201からの要求に応じて、ウェブページを返信するウェブサーバである。ウェブサーバ202も、ウェブサーバソフトウェアを搭載したコンピュータ、または同様の機能を実現する専用のハードウェア装置であるが、ウェブブラウザ装置201からの要求受信とウェブブラウザ装置201への応答送信は、HTTPと呼ばれる手順に従う。
【0007】
203は、ウェブブラウザ装置201からの検索要求に応じて、ウェブサーバ202で提供されるウェブページの検索を行ない、検索結果をウェブブラウザ装置201に返信するウェブ検索装置である。ウェブ検索装置203も、ウェブ検索ソフトウェアを搭載したコンピュータ、または同様の機能を実現する専用のハードウェア装置であるが、ウェブブラウザ装置201からの要求受信とウェブブラウザ装置201への応答送信は、ウェブサーバ202と同様にHTTPと呼ばれる手順に従う。
【0008】
204は、ウェブブラウザ装置201とウェブサーバ202とウェブ検索装置203との間のHTTP通信の通信路となるインターネットである。
【0009】
なお一般的に、ウェブ検索装置203の検索対象は、1台のウェブサーバのウェブサーバが提供するウェブページに限らず、複数台のウェブサーバが提供するウェブページに亘るが、ここでは簡単のために、1台のウェブサーバ202が提供するウェブページに限定して説明する。また、ウェブサーバ202とウェブ検索装置203とを、同一のコンピュータあるいは専用ハードウェア装置で実現することも可能であるが、同様に説明を簡単にするために、別個のコンピュータあるいは専用ハードウェア装置であるとして説明する。さらに、ウェブ検索装置203に検索要求を送信するウェブブラウザ装置201も、インターネット204に接続された任意のウェブブラウザ装置であってよいが、ここでは簡単のために、1台のウェブブラウザ装置201に限定して説明する。
【0010】
また、インターネット204上で各装置を識別するために用いられるホスト名を、ここでは簡単のため、ウェブブラウザ装置201が「browser」、ウェブサーバ202が「server」、ウェブ検索装置203が「retriever」であるとする。
【0011】
図3は、ウェブページ検索を行なう際に、ウェブブラウザ装置201とウェブサーバ202とウェブ検索装置203との間で行われるHTTP通信のシーケンスを示す図である。
【0012】
まず、ウェブページ検索を行なうための検索開始ページの送信を要求するHTTPリクエスト301が、ウェブブラウザ装置201からウェブサーバ202に対して送られる。ここでは、検索開始ページの名称を「main.html」とする。
【0013】
HTTPリクエスト301を受信したウェブサーバ202は、当該検索開始ページのデータ「main.html」をページ記憶部から取り出し、このデータを含むHTTPレスポンス302をウェブブラウザ装置201に返信する。図4は、検索開始ページを表現するHTMLデータの例を示す図である。
【0014】
ウェブブラウザ装置201は、図4に示すHTMLデータを含むHTTPレスポンス302を受信すると、このHTMLデータに基づいて検索開始ページを表示する。
【0015】
図5は、検索開始ページの一例を示す図である。
【0016】
同図において、501はテキストフィールドと呼ばれるコントロールであり、ユーザの入力操作によって任意の文字列を入力できる。また、502はボタンと呼ばれるコントロールであり、このボタン502に対するユーザの入力操作によって、ウェブブラウザ装置201は、テキストフィールド501に入力された文字列を用いて作成されたHTTPリクエストをウェブ検索装置203に送信することになる。HTML規約に従えば、このHTTPリクエストは、図4の6行目に示すFORMタグのaction属性で示されるURLに従って、URLのホスト部が示す装置に送られる。この例では、ウェブブラウザ装置201からウェブ検索装置203にHTTPリクエスト303が送られる。
【0017】
図6は、HTTPリクエスト303の一例を示す図である。
【0018】
図中1行目は、検索要求を含むGETメソッドを表現したデータである。ここでは、図4の6行目に示すFORMタグのaction属性に従って、リクエストのパス部「/retrieve」が送られ、続いて図4の7行目から8行目に亘るINPUTタグに従って、パラメータ「keyword=abc」と「ok=ok」が送られる。ここで、keyword属性の値「abc」は、ユーザがテキストフィールド501(図5)に入力した文字列となる。図6の2行目以降には、HTTP規約に従ったヘッダが入る。この例では、当該HTTPリクエスト303を生成する基になったウェブページすなわち検索開始ページのURLを示すRefererヘッダが入っている。他のヘッダが付与されることが一般的であるが、ここでは簡単のため省略する。
【0019】
ウェブ検索装置203は、HTTPリクエスト303を受信すると、パラメータに応じて検索を行ない、検索結果ページのHTMLデータを作成し、当該HTMLデータを含むHTTPレスポンス304を返信する。
【0020】
図7は、ウェブ検索装置203の従来構成を示すブロック図である。
【0021】
同図において、701は、HTTPリクエストを受信するHTTPリクエスト受信部である。702は、HTTPリクエスト受信部701で受信されたHTTPリクエストから、検索に必要なパラメータを抽出するパラメータ抽出部である。図6に示すHTTPリクエストの例では、検索条件のキーワードを示すkeywordパラメータが抽出される。
【0022】
703は、パラメータ抽出部702で抽出されたパラメータに従って検索を行なう検索部である。例えば、keywordパラメータの属性値をキーワードとして、当該キーワードを含むウェブページを、ウェブサーバ202が提供するウェブページの中から検索する。上記の例では、keywordパラメータの属性値が「abc」であるので、「abc」を含むウェブページを検索する。
【0023】
704は、検索部703で検索された検索結果を表現する結果ページのHTMLデータを作成する結果ページデータ作成部である。例えば、検索結果に含まれる各ウェブページのURLを列挙した結果ページのHTMLデータを作成する。
【0024】
705はHTTPレスポンス送信部であり、結果ページデータ作成部704で作成されたHTMLデータを含むHTMLレスポンスを、HTTPリクエスト受信部701にHTTPリクエストを送信した送信元のホストに送信する。
【0025】
このように従来のウェブ検索装置203を利用すると、ウェブサーバ202が提供するウェブページの検索を、ウェブサーバ202が提供する検索開始ページから開始して、検索処理はウェブ検索装置203で行なうことができる。
【0026】
ところで、従来、ウェブ検索装置が、複数のウェブサーバのウェブページを別個に検索する機能を提供する場合もある。
【0027】
図12は、複数のウェブサーバが提供するウェブページを個別に検索する機能を提供するウェブ検索装置を含むウェブの第2のネットワーク構成を示すブロック図である。
【0028】
同図において、1201は、ユーザの入力操作に従ってウェブページを取得して表示するウェブブラウザ機能を実現するウェブブラウザ装置である。1202と1203は共に、ウェブブラウザ装置1201からの要求に応じて、ウェブページを返信するウェブサーバである。両者を区別するために、1202をウェブサーバ(A)、1023をウェブサーバ(B)と呼称する。また、インターネットでこれらを識別するホスト名は、ウェブサーバ(A)1202が「servera」、ウェブサーバ(B)1203が「serverb」とする。
【0029】
1204は、ウェブブラウザ装置1201からの検索要求に応じて、ウェブサーバ(A)1202で提供されるウェブページの検索もしくはウェブサーバ(B)1203で提供されるウェブページの検索を行ない、検索結果をウェブブラウザ装置1201に返信するウェブ検索装置である。
【0030】
1205は、ウェブブラウザ装置1201とウェブサーバ(A)1202およびウェブサーバ(B)1203とウェブ検索装置1204との間のHTTP通信の通信路となるインターネットである。
【0031】
図13は、ウェブページ検索を行なう際に、ウェブブラウザ装置201とウェブサーバ(A)1202もしくはウェブサーバ(B)1203とウェブ検索装置1204との間で行われるHTTP通信のシーケンスを示す図である。
【0032】
まず、ウェブサーバ(A)1202が提供するウェブページの検索を行なうための検索開始ページを要求するHTTPリクエスト1301が、ウェブブラウザ1201からウェブサーバ(A)1202に対して送られるものとする。ここでは、検索開始ページの名称を「main.html」とする。
【0033】
HTTPリクエスト1301を受信したウェブサーバ(A)1202は、当該検索開始ページのデータ「main.html」をページ記憶部から取り出し、このデータを含むHTTPレスポンス1302をウェブブラウザ装置1201に返信する。図14は、検索開始ページを表現するHTMLデータの例を示す図である。
【0034】
ウェブブラウザ装置1201は、図14に示すHTMLデータを含むHTTPレスポンス1302を受信すると、このHTMLデータに従って検索開始ページを表示する。この検索開始ページは図5と同様のページになる。
【0035】
次に、図5を参照して前述した場合と同様に、検索開始ページを用いて、ウェブブラウザ装置1201のユーザが検索キーワードをテキストフィールド501に入力してボタン502を操作すると、ウェブブラウザ装置1201からウェブ検索装置1204にHTTPリクエスト1303(図13)が送られる。
【0036】
図15は、HTTPリクエスト1303の一例を示す図である。
【0037】
図中1行目は、検索要求を含むGETメソッドを表現したデータである。ここでは、図14の6行目に示すFORMタグのaction属性に従って、リクエストのパス部「/retrieve」が送られ、続いて図14の7行目から9行目に亘るINPUTタグに従って、パラメータ「target=a」と「keyword=abc」と「ok=ok」が送られる。ここで、keyword属性の値「abc」は、ユーザがテキストフィールド501に入力した文字列となる。2行目以降には、HTTP規約に従ったヘッダが入る。
【0038】
図13に戻って、ウェブ検索装置1204は、HTTPリクエスト1303を受信すると、パラメータに応じて、ウェブサーバ(A)1202が提供するウェブページの検索を行ない、検索結果ページのHTMLデータを作成し、当該HTMLデータを含むHTTPレスポンス1304をウェブブラウザ装置1201に返信する。
【0039】
図16は、ウェブ検索装置1604の従来構成を示すブロック図である。
【0040】
同図において、1601は、HTTPリクエストを受信するHTTPリクエスト受信部である。1602は、HTTPリクエスト受信部1601で受信されたHTTPリクエストから、検索に必要なパラメータを抽出するパラメータ抽出部である。図15に示すHTTPリクエストの例では、検索対象を識別するtargetパラメータと検索条件のキーワードを示すkeywordパラメータとが抽出される。
【0041】
1603は、パラメータ抽出部1602で抽出されたパラメータに従って、検索対象を選定する検索対象選定部である。例えば、targetパラメータの属性値を検索対象識別子として、当該識別子で識別される範囲のウェブページを検索する。上記の例では、targetパラメータの属性値が「a」であるので、ウェブサーバ(A)1202が提供するウェブサーバを検索対象とする。
【0042】
1604は、パラメータ抽出部1602で抽出されたパラメータに従って、検索対象選定部1603で選定された検索対象に対して検索を行なう検索部である。例えば、keywordパラメータの属性値をキーワードとして、当該キーワードを含むウェブページを、検索対象から検索する。上記の例では、keywordパラメータの属性値が「abc」であるので、「abc」を含むウェブページを検索する。
【0043】
1605は、検索部1604で検索された検索結果を表現する結果ページのHTMLデータを作成する結果ページデータ作成部である。例えば、検索結果に含まれる各ウェブページのURLを列挙した結果ページのHTMLデータを作成する。1606はHTTPレスポンス送信部であり、結果ページデータ作成部1605で作成されたHTMLデータを含むHTMLレスポンスを、HTTPリクエスト受信部1601にHTTPリクエストを送信した送信元のホストに送信する。
【0044】
このようにして、ウェブサーバ(A)1202の検索開始ページを利用してウェブサーバ(A)1202が提供するウェブページに限った検索を、ウェブ検索装置1203で実現できる。
【0045】
一方、ウェブサーバ(B)1203の検索開始ページを利用してウェブサーバ(B)1203が提供するウェブページに限った検索を、ウェブ検索装置1203で実現することも、図13に示す手順1301から手順1304までの通信手順と同様の通信手順である、手順1305から手順1308までの通信手順で実現できる。これらの手順の中で、図13に示す手順1301から手順1304までの通信手順と異なる点は、ウェブサーバ(B)1203が提供する検索開始ページのHTMLデータが、FORMタグ中のhiddenタイプのINPUTタグにおけるvalue属性を「b」とする点である。また、FORMタグ以外のHTMLデータは、任意のデータであってよい。これにより、ウェブブラウザ装置1201からウェブ検索装置1204に送られるHTTPリクエスト1307においては、GETメソッドのtargetパラメータの属性値が「b」となる。これにより、ウェブ検索装置1204では、選定される検索対象が、ウェブサーバ(B)1203が提供するウェブページとなり、目的とする検索が達成される。
【0046】
このように従来のウェブ検索装置1203を利用すると、ウェブサーバ(A)1202もしくはウェブサーバ(B)1203が提供するウェブページの検索を、それぞれのウェブサーバが提供する検索開始ページから開始して、検索処理はウェブ検索装置203で行なうことができる。
【0047】
【発明が解決しようとする課題】
しかしながら、図2及び図7に示す上記従来のウェブ検索装置203では、ウェブサーバ202が提供する検索開始ページのFORMタグを模倣した検索開始ページを用意することで、別のウェブサーバにおいて、あたかもウェブサーバ202の検索機能を提供しているようにみせることができるという問題点があった。これを、図8〜図11を参照して説明する。
【0048】
図8は、別のウェブサーバが介在した場合のウェブの第3のネットワーク構成を示すブロック図である。
【0049】
同図において、801は、ユーザの入力操作に従ってウェブページを取得して表示するウェブブラウザ機能を実現するウェブブラウザ装置である。802は、ウェブブラウザ装置801からの要求に応じて、ウェブページを返信するウェブサーバである。検索開始ページもウェブブサーバ802が提供する。803は、ウェブブラウザ装置801からの検索要求に応じて、ウェブサーバ802で提供されるウェブページの検索を行ない、検索結果をウェブブラウザ装置801に返信するウェブ検索装置である。804は、ウェブブラウザ装置801とウェブサーバ802とウェブ検索装置803との間のHTTP通信の通信路となるインターネットである。以上は、図2に示す従来のネットワーク構成と同じである。ここで、このインターネット804に、検索開始ページの検索用フォームを模倣した別検索開始ページを提供する別ウェブサーバ805を接続することが可能である。
【0050】
ここで、ウェブブラウザ装置801が、別ウェブサーバ805から別検索開始ページを取得して表示したとする。図9は、別検索開始ページを表現するHTMLデータの例を示す図であり、図10は、このHTMLデータに従い表示される検索開始ページの例を示す図である。
【0051】
ウェブブラウザ装置801のユーザが、別検索開始ページから検索を行なうと、例えば図11に示すHTTPリクエストが、ウェブ検索装置803に送信される。このHTTPリクエストのGETコマンドは、ウェブサーバ802が提供する検索開始ページを用いて検索を行なった場合と同じであるので、ウェブ検索装置803は、同様な検索を行ない、同じ結果を保持したHTTPレスポンスをウェブブラウザ装置801に返信する。従って、ウェブブラウザ装置801のユーザから見ると、別ウェブサーバ805を利用しながら、本来ウェブサーバ802の検索開始ページに対して提供されるべき検索機能が提供されることになる。
【0052】
図8に示すようなネットワーク構成では、ウェブ検索装置803は、その運用者とウェブサーバ802の運用者との間の契約関係に基づいて検索機能を提供するために運用されることが一般的であり、別ウェブサーバ805があたかも同様のサービスを享受できることは好ましくない。
【0053】
また、図12及び図16に示す、複数のウェブサーバが提供するウェブページを別個に検索する機能を提供する従来のウェブ検索装置では、検索対象を選定するためのデータを誤って設定すると、正しい検索が行なわれないという問題があった。例えば、図12に示すネットワーク構成において、ウェブサーバ(A)1202の検索開始ページを表現するHTMLデータ(図14)において、7行目のINPUTタグのvalue属性を誤って「b」と設定すると、ウェブサーバ(B)1203が提供するウェブページの検索結果が誤って返信されることになる。
【0054】
本発明は上記の問題に鑑みてなされたものであって、検索開始ページを提供するウェブサーバとは異なるウェブサーバのページを用いた検索リクエストを拒絶したり、複数のウェブサーバが提供するウェブページを別個に検索する場合に、検索開始ページの設定を誤っても、誤った検索結果を返信しないで済むようにしたウェブ検索装置を提供することを目的とする。
【0055】
なお、特開2000−315170号公報には、著作権管理を目的としてリンク元を管理するリンク管理装置が開示されているが、これは静的なページに対するものであり、ウェブサーバからウェブ検索装置への通信が必要である点から、必ずしも本課題を解決できるものではない。
【0056】
【課題を解決するための手段】
上記目的を達成するために、本発明によれば、ネットワークを介してウェブブラウザ装置及びウェブサーバに接続されるウェブ検索装置において、ウェブサーバが提供する検索開始ページを使用してウェブブラウザ装置から送信された検索要求を受信する検索要求受信手段と、前記検索要求受信手段で受信された検索要求から、該検索要求を送るために前記ウェブブラウザ装置が使用した検索開始ページの識別データを抽出する識別データ抽出手段と、正当な検索開始ページとして登録されたページの識別データを保持する登録ページ識別データ保持手段と、前記識別データ抽出手段により抽出された識別データと前記登録ページ識別データ保持手段に保持されている識別データとを照合して、前記検索要求受信手段で受信された検索要求が、正当な検索開始ページを使用して送信されたか否かを判別する正当性判別手段と、前記正当性判別手段によって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索要求受信手段で受信された検索要求中の検索条件に従って検索を行なう検索手段と、前記正当性判別手段によって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索手段での検索によって得られた検索結果を表現する結果ページのHTMLデータを作成する結果ページデータ作成手段と、前記結果ページデータ作成手段で作成されたHTMLデータを使用して応答メッセージを作成して、前記検索要求受信手段に前記検索要求を送信したウェブブラウザ装置に送信する応答送信手段とを有することを特徴とするウェブ検索装置が提供される。
【0057】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を参照して説明する。
【0058】
[第1の実施の形態]
図1は、本発明に係るウェブ検索装置の第1の実施の形態の構成を示すブロック図である。
【0059】
同図において、101は、HTTPリクエストを受信するHTTPリクエスト受信部である。102は、HTTPリクエスト受信部101で受信されたHTTPリクエストから、検索に必要なパラメータを抽出するパラメータ抽出部である。103は、HTTPリクエスト受信部101で受信されたHTTPリクエストから、ヘッダを抽出するヘッダ抽出部である。
【0060】
104は開始ページ識別部であり、ヘッダ抽出部103により抽出されたヘッダの中から、Referヘッダの値を取り出して、当該HTTPリクエストを送るために使用した検索開始ページを識別する。105は登録ページ保持部であり、検索用のHTTPリクエストを送るために使用されるべき正当な検索開始ページとして登録されたページのURLを保持する。106は正当性判別部であり、開始ページ識別部104で識別された検索開始ページのURLと、登録ページ保持部105に保持されている登録ページのURLとを照合して、HTTPリクエストが正当であるか否かを判別する。
【0061】
107は検索部であり、正当性判別部106でHTTPリクエストが正当と判別された場合に、パラメータ抽出部102で抽出されたパラメータに従って検索を行なう検索部である。108は結果ページデータ作成部であり、正当性判別部106でHTTPリクエストが正当と判別された場合に、検索部107で検索された検索結果を表現する結果ページのHTMLデータを作成し、一方、正当性判別部106でHTTPリクエストが正当ではないと判別された場合に、エラーページのHTMLデータを作成する。109はHTTPレスポンス送信部であり、結果ページデータ作成部108で作成されたHTMLデータを含むHTMLレスポンスを、HTTPリクエスト受信部101にHTTPリクエストを送信した送信元のホストに送信する。
【0062】
上述した第1の実施の形態のウェブ検索装置は、図2〜図6に示す従来のウェブ検索装置203と基本的に類似の動作を行うので、以下の説明においては、図2〜図6を適宜流用して参照する。
【0063】
図17は、第1の実施の形態のウェブ検索装置で実行される検索処理の手順を示すフローチャートである。
【0064】
まず、ステップ1701では、HTTPリクエスト受信部101でHTTPリクエストを受信したか否かを判別する。受信していない場合は、ステップ1701の処理を繰り返す。受信した場合はステップ1702に移る。
【0065】
ステップ1702では、パラメータ抽出部102が、HTTPリクエスト受信部101で受信したHTTPリクエストを解析して、検索に必要なパラメータを抽出する。本実施の形態においては、HTTPリクエストからkeywordパラメータを抽出する。そして、ステップ1703に移る。
【0066】
ステップ1703では、ヘッダ抽出部103が、HTTPリクエスト受信部101で受信したHTTPリクエストを解析して、検索開始ページの識別に必要なヘッダを抽出する。本実施の形態においては、HTTPリクエストからRefererヘッダを抽出する。そして、ステップ1704に移る。
【0067】
ステップ1704では、開始ページ識別部104が、ステップ1703で抽出されたRefererヘッダの値であるURLを取り出し、検索開始ページを識別するURLとする。Refererヘッダが抽出されなかった場合は、空文字列を識別URLとする。そして、ステップ1705に移る。
【0068】
ステップ1705では、正当性判別部106が、ステップ1704で識別されたURLと、登録ページ保持部105に保持されているURLとを比較する。両者が一致する場合は、ステップ1706に移る。両者が一致しない場合はステップ1708に移る。
【0069】
ステップ1706では、検索部107が、ステップ1702で抽出されたパラメータを用いて検索を行なう。本実施の形態では、Keywordパラメータの属性値をキーワードとし、キーワードを含むウェブページを検索する。そして、ステップ1707に移る。
【0070】
ステップ1707では、結果ページデータ作成部108が、ステップ1706で検索されたウェブページの情報を保持する検索結果ページのHTMLデータを作成する。本実施の形態では、検索されたウェブページのタイトルを列挙し、タイトルの文字列に対して当該ウェブページへのリンクを張ったHTMLデータを作成する。そして、ステップ1709に移る。
【0071】
ステップ1708では、結果ページデータ作成部108が、検索依頼するHTTPリクエストが不正である旨を示すエラーページを作成する。ここでは、予め用意されているエラーメッセージを含むHTMLデータを作成する。そして、ステップ1709に移る。
【0072】
ステップ1709では、ステップ1707あるいはステップ1708で作成されたHTMLデータをボディ部に保持するHTMLレスポンスデータを作成し、これを、HTMLリクエスト受信部101に送信したHTMLリクエストの送信元に返信する。そして処理を終了する。
【0073】
第1の実施の形態のウェブ検索装置が、図2に示すネットワーク構成に組み込まれた場合、本ウェブ検索装置は、ウェブサーバ202が提供する検索開始ページを利用して送られる検索用のHTTPリクエストのみを処理するのが妥当である。そこで、ウェブ検索装置の登録ページ保持部105には、上記検索開始ページのURLである「http://server/main.html」を保持しておく。こうした保持状態でウェブ検索装置が稼動すると、ウェブサーバ202が提供する検索開始ページを利用した検索用のHTTPリクエストでは、Refererヘッダの値が上記URLとなるので、この検索用のHTTPリクエストはステップ1705において正当と判別され、ステップ1706で検索が行なわれる。それ以外の検索開始ページを利用した検索用のHTTPリクエストでは、正当と判別されないので、検索は行なわれず、ステップ1708によって作成されたエラーページが返信される。
【0074】
以上説明したように、第1の実施の形態のウェブ検索装置では、検索開始ページを識別するデータを用いて、事前に登録された検索開始ページである場合にのみ検索を実施するようにしたので、検索機能の提供先とは異なるウェブサーバのページを用いた検索用のHTTPリクエストを拒絶することができる。
【0075】
[第2の実施の形態]
上記第1の実施の形態においては、ウェブ検索装置が、一つのウェブサーバが提供するウェブページだけを検索するものであったが、第2の実施の形態では、複数のウェブサーバが提供するウェブページを別個に検索するようにする。
【0076】
図18は、ウェブ検索装置の第2の実施の形態の構成を示すブロック図である。
【0077】
同図において、1801は、HTTPリクエストを受信するHTTPリクエスト受信部である。1802は、HTTPリクエスト受信部1801で受信されたHTTPリクエストから、検索に必要なパラメータを抽出するパラメータ抽出部である。1803は、パラメータ抽出部1802で抽出されたパラメータに従って、検索対象を選定する検索対象選定部である。
【0078】
1804は、HTTPリクエスト受信部1801で受信されたHTTPリクエストから、ヘッダを抽出するヘッダ抽出部である。1805は開始ページ識別部であり、ヘッダ抽出部1806により抽出されたヘッダの中から、Referヘッダの値を取り出して、当該HTTPリクエストを送るために使用された検索開始ページを識別する。1806は登録ページ保持部であり、検索対象ごとに、検索用のHTTPリクエストを送るために使用されるべき正当な検索開始ページとして登録されたページのURLを保持する。1807は正当性判別部であり、登録ページ保持部1806に保持されている登録ページの中から検索対象選定部1803で選定された検索対象に対応する検索開始ページのURLを抽出し、該URLと、開始ページ識別部1805で識別された検索開始ページのURLとを照合して、HTTPリクエストが正当であるか否かを判別する。
【0079】
1808は検索部であり、正当性判別部1807でHTTPリクエストが正当と判別された場合に、パラメータ抽出部1802で抽出されたパラメータに従って検索を行なう。1809は結果ページデータ作成部であり、正当性判別部1807でHTTPリクエストが正当と判別された場合に、検索部1808で検索された検索結果を表現する結果ページのHTMLデータを作成し、一方、正当性判別部1807でHTTPリクエストが正当ではないと判別された場合に、エラーページのHTMLデータを作成する。1810はHTTPレスポンス送信部であり、結果ページデータ作成部1809で作成されたHTMLデータを含むHTMLレスポンスを、HTTPリクエスト受信部1801にHTTPリクエストを送信した送信元のホストに送信する。
【0080】
第2の実施の形態は、前記第1の実施の形態と比べて、検索対象選定部1803が新たに設けられ、検索部1808は、検索対象選定部1803で選定された検索対象の中からだけ検索を行なう点が異なる。検索対象が異なると、その検索対象に対して検索を開始する検索開始ページが異なる場合があるため、登録ページ保持部1806は、検索対象ごとに登録ページの識別データを保持するようになっている。より具体的には、検索対象を識別する文字列をキーとして、当該検索対象に対応する登録ページのURLを値として保持する。正当性判別部1807は、開始ページ識別部1805において識別された開始ページと、登録ページ保持部1806に保持されている登録ページとを比較する際に、検索対象選定部1803で選定された検索対象に対応する登録ページだけを用いて比較判定する点が、前記第1の実施の形態と異なる点である。
【0081】
以上説明したように、第2の実施の形態のウェブ検索装置では、事前に登録された検索開始ページから検索対象に応じた検索開始ページだけを正当性の判別に使用するようにしたので、第2の実施の形態のウェブ検索装置は、第1の実施の形態における作用効果だけでなく、複数のウェブサーバが提供するウェブページを別個に検索する機能を提供しつつ、検索開始ページの設定を誤っても、誤った検索結果を返信しないようにすることができる。
【0082】
なお、上記第2の実施の形態においては、登録ページ保持部1806に保持する検索開始ページのURLが1つである場合について説明したが、これに限定されるものではなく、検索開始ページのURLは複数保持されるようにしてもよい。
【0083】
また、上記第2の実施の形態においては、正当性判別部1807が、URLの完全一致をもってHTTPリクエストが正当であると判別するようにしているが、これに限定されるものではなく、部分一致でもよい。例えば、URLのホスト部までを比較して、一致していれば、HTTPリクエストが正当であると判別するようにしてもよい。
【0084】
[第3の実施の形態]
上記第1及び第2の実施の形態においては、検索開始ページを識別するためにHTTPリクエストのReferヘッダを利用したが、第3の実施の形態では、正当な検索開始ページの作成者だけが生成可能なキーデータを用いるようにする。
【0085】
図19は、ウェブ検索装置の第3の実施の形態の構成を示すブロック図である。
【0086】
同図において、1901は、HTTPリクエストを受信するHTTPリクエスト受信部である。1902は、HTTPリクエスト受信部1901で受信されたHTTPリクエストから、検索に必要なパラメータを抽出するパラメータ抽出部である。
【0087】
1903は、パラメータ抽出部1902により抽出されたパラメータの中から、検索開始ページのキーを識別するキー識別部である。具体的には、keyパラメータの属性値をキーとする。
【0088】
1904は、検索用のHTTPリクエストを送るために使用される正当な検索開始ページのキーを生成するキー素データを保持する登録キー素保持部である。キー素データは、具体的には、1以上9以下の整数を7個用いて作成された整数の配列である。キーは、ウェブサーバで検索開始ページを提供するたびに生成される8桁の数字であり、キーの先頭の7桁の各桁の任意の値をキー素データの各桁の値でそれぞれ除したときの剰余の和を定数(例えば10)で除した値をキーの最後の桁に付加する方法で生成される。こうして作成されたキーを、検索開始ページを提供するウェブサーバでは、検索用のHTTPリクエストのパラメータに含まれるように、検索開始ページのFORMタグに埋め込む。
【0089】
1905は正当性判別部であり、登録キー素保持部1904に保持されているキー素データを基にして、キー抽出部1903で識別されたキーが正当であるか否かを判別する。具体的には、キー抽出部1903で識別されたキーがまず8桁の整数でなければHTTPリクエストが正当でないと判別する。8桁の整数であるときは、そのキーの先頭7桁の各値をそれぞれキー素データの先頭から対応する各値で除した剰余を求め、さらにそれらの剰余の和を10で除した値を求め、該値がキーの最後の桁の値に一致する場合にのみHTTPリクエストが正当であると判別する。また、以前に使用されたキーと同一の数値のキーはHTTPリクエストが正当でないと判別する。
【0090】
1906は検索部であり、正当性判別部1905でHTTPリクエストが正当であると判別された場合に、パラメータ抽出部1902で抽出されたパラメータに従って検索を行なう。1907は結果ページデータ作成部であり、正当性判別部1905でHTTPリクエストが正当であると判別された場合に、検索部1906で検索された検索結果を表現する結果ページのHTMLデータを作成し、一方、正当性判別部1905でHTTPリクエストが正当ではないと判別された場合に、エラーページのHTMLデータを作成する。1908はHTTPレスポンス送信部であり、結果ページデータ作成部1907で作成されたHTMLデータを含むHTMLレスポンスを、HTTPリクエスト受信部1901にHTTPリクエストを送信した送信元のホストに送信する。
【0091】
このように、第3の実施の形態においては、パラメータとして送付されるキーを用いることで、検索開始ページの正当性を判別し、正当な検索開始ページを使用して送られた検索用のHTTPリクエストを受信したときのみ、ウェブ検索装置が検索を実行する。
【0092】
なお、上記第3の実施の形態においては、正当性を判別するキーとして、キーの先頭7桁の各桁の値をキー素データの各桁の値でそれぞれ除した剰余の和を定数で除した値をキーの最後の桁に付加する方法で生成されるキーを用いているが、これに限定されるものではなく、キーの生成方法を知るウェブサーバだけが実質的に生成することができ、ウェブ検索装置でその正当性を判別できるキーであれば他のものであってよい。例えば、電子署名を用いたりしてもよい。
【0093】
また、上記各実施の形態においては、HTTPリクエストが正当でないと判別された時はエラーページを返信するが、本発明はこれに限定されるものではなく、他の処理を行ってもよい。例えば、検索開始ページのウェブサーバ管理者のメールアドレスを登録しておき、正当でない検索用のHTTPリクエストがあった場合には、該ウェブサーバ管理者に電子メールによってその旨を通知するようにしてもよい。
【0094】
また、上記各実施の形態においては、検索要求のHTTPリクエストをGETメソッドとしているが、これに代わって、POSTメソッド等の任意のメソッドによるHTTPリクエストであってもよい。その場合、パラメータ等の抽出処理は、当該メソッドに合わせた方法となる。
【0095】
また、上記各実施の形態においては、検索部における検索では、検索条件をキーワードとし、キーワードを含むウェブページを検索するようにしているが、他の検索条件による検索であってもよい。例えば、自然言語文による検索条件に対し、その検索条件文に合致する内容のウェブページを検索するようにしてもよい。
【0096】
また、上記各実施の形態においては、検索結果ページに、検索されたウェブページのタイトルを列挙するようにしているが、これに代わって、検索結果を表現した別のページであってもよい。例えば、検索されたページの要約を合わせて表示するページでもよい。また、一定数ごとにページを分けて表示するようなページでもよい。
【0097】
また、上記各実施の形態においては、ウェブ検索装置の各部を同一の汎用計算機上で実現するようにしているが、その一部がネットワークで接続された他の汎用計算機や特定用途の装置に分散されていてもよい。また、登録ページ保持部や登録キー素保持部は全データを集中して保持するようにしているが、データの一部が他に分散してもよい。
【0098】
また、上記各実施の形態においては、コンピュータまたはCPUやMPUを用いて、前述した機能を実現するソウトウェアプログラムを動作させる実施形態であったが、その機能の全部または一部を実現する論理回路により達成されることは言うまでもない。
【0099】
なお、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
【0100】
プログラムコードを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CDーROM、CDーR、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0101】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行ない、その処理によって前述した実施の形態の機能が実現される場合も含まれることは言うまでもない。
【0102】
更に、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によって前述した実施の形態の機能が実現される場合も含まれることは言うまでもない。
【0103】
以上のように、本発明の各種の実施の形態を示して説明したが、以下に本発明の実施態様の例を列挙する。
【0104】
〔実施態様1〕 ネットワークを介してウェブブラウザ装置及びウェブサーバに接続されるウェブ検索装置において、
ウェブサーバが提供する検索開始ページを使用してウェブブラウザ装置から送信された検索要求を受信する検索要求受信手段と、
前記検索要求受信手段で受信された検索要求から、該検索要求を送るために前記ウェブブラウザ装置が使用した検索開始ページの識別データを抽出する識別データ抽出手段と、
正当な検索開始ページとして登録されたページの識別データを保持する登録ページ識別データ保持手段と、
前記識別データ抽出手段により抽出された識別データと前記登録ページ識別データ保持手段に保持されている識別データとを照合して、前記検索要求受信手段で受信された検索要求が、正当な検索開始ページを使用して送信されたか否かを判別する正当性判別手段と、
前記正当性判別手段によって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索要求受信手段で受信された検索要求中の検索条件に従って検索を行なう検索手段と、
前記正当性判別手段によって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索手段での検索によって得られた検索結果を表現する結果ページのHTMLデータを作成する結果ページデータ作成手段と、
前記結果ページデータ作成手段で作成されたHTMLデータを使用して応答メッセージを作成して、前記検索要求受信手段に前記検索要求を送信したウェブブラウザ装置に送信する応答送信手段と
を有することを特徴とするウェブ検索装置。
【0105】
〔実施態様2〕 ネットワークを介してウェブブラウザ装置及びウェブサーバに接続されるウェブ検索装置において、
ウェブサーバが提供する検索開始ページを使用してウェブブラウザ装置から送信された検索要求を受信する検索要求受信手段と、
前記検索要求受信手段で受信された検索要求の中の検索対象指定データに基づき、選択対象を選定する検索対象選定手段と、
前記検索要求受信手段で受信された検索要求から、該検索要求を送るために前記ウェブブラウザ装置が使用した検索開始ページの識別データを抽出する識別データ抽出手段と、
検索対象ごとに正当な検索開始ページとして登録されたページの識別データを保持する登録ページ識別データ保持手段と、
前記登録ページ識別データ保持手段に保持されている識別データの中から前記検索対象選定手段で選定された検索対象に対応する識別データを選択し、該選択された識別データと前記識別データ抽出手段で抽出された識別データとを照合して、前記検索要求受信手段で受信された検索要求が、正当な検索開始ページを使用して送信されたか否かを判別する正当性判別手段と、
前記正当性判別手段によって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索要求受信手段で受信された検索要求中の検索条件に従って、前記検索対象選定手段で選定された検索対象に対して検索を行なう検索手段と、
前記正当性判別手段によって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索手段での検索によって得られた検索結果を表現する結果ページのHTMLデータを作成する結果ページデータ作成手段と、
前記結果ページデータ作成手段で作成されたHTMLデータを使用して応答メッセージを作成して、前記検索要求受信手段に前記検索要求を送信したウェブブラウザ装置に送信する応答送信手段と
を有することを特徴とするウェブ検索装置。
【0106】
〔実施態様3〕 前記結果ページデータ作成手段は、前記正当性判別手段によって前記検索要求が正当な検索開始ページを使用して送信されていないと判別された場合、エラーページのHTMLデータを作成することを特徴とする実施態様1または実施態様2に記載のウェブ検索装置。
【0107】
〔実施態様4〕 前記識別データ抽出手段及び前記登録ページ識別データ保持手段で抽出及び保持する識別データは、検索開始ページのURL(Uniform Resource Locator)であることを特徴とする実施態様1または実施態様2に記載のウェブ検索装置。
【0108】
〔実施態様5〕 前記識別データ抽出手段は、前記検索要求受信手段で受信された検索要求からヘッダを抽出し、該ヘッダの中からReferヘッダの値を取り出し、該値を前記検索開始ページのURLとすることを特徴とする実施態様4に記載のウェブ検索装置。
【0109】
〔実施態様6〕 前記識別データ抽出手段は、
前記検索要求受信手段で受信された検索要求からパラメータを抽出するパラメータ抽出手段と、
前記パラメータ抽出手段により抽出されたパラメータの中から検索開始ページのキーを抽出するキー抽出手段とから構成され、
前記登録ページ識別データ保持手段は、
正当な検索開始ページが使用するキーを生成するための素データを保持する素データ保持手段により構成され、
前記正当性判別手段は、前記キー抽出手段で抽出されたキーが、前記素データ保持手段に保持されている素データから生成されたキーであるか否かをもって前記判別を行うことを特徴とする実施態様1または実施態様2に記載のウェブ検索装置。
【0110】
〔実施態様7〕 ネットワークを介してウェブブラウザ装置及びウェブサーバに接続されるウェブ検索装置に適用されるウェブ検索方法において、
ウェブサーバが提供する検索開始ページを使用してウェブブラウザ装置から送信された検索要求を受信する検索要求受信ステップと、
前記検索要求受信ステップにより受信された検索要求から、該検索要求を送るために前記ウェブブラウザ装置が使用した検索開始ページの識別データを抽出する識別データ抽出ステップと、
正当な検索開始ページとして登録されたページの識別データを保持する登録ページ識別データ保持ステップと、
前記識別データ抽出ステップにより抽出された識別データと前記登録ページ識別データ保持ステップによって保持された識別データとを照合して、前記検索要求受信ステップによって受信された検索要求が、正当な検索開始ページを使用して送信されたか否かを判別する正当性判別ステップと、
前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索要求受信ステップによって受信された検索要求中の検索条件に従って検索を行なう検索ステップと、
前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索ステップでの検索によって得られた検索結果を表現する結果ページのHTMLデータを作成する結果ページデータ作成ステップと、
前記結果ページデータ作成ステップで作成されたHTMLデータを使用して応答メッセージを作成して、前記検索要求を送信したウェブブラウザ装置に送信する応答送信ステップと
を有することを特徴とするウェブ検索方法。
【0111】
〔実施態様8〕 ネットワークを介してウェブブラウザ装置及びウェブサーバに接続されるウェブ検索装置に適用されるウェブ検索方法において、
ウェブサーバが提供する検索開始ページを使用してウェブブラウザ装置から送信された検索要求を受信する検索要求受信ステップと、
前記検索要求受信ステップによって受信された検索要求の中の検索対象指定データに基づき、選択対象を選定する検索対象選定ステップと、
前記検索要求受信ステップによって受信された検索要求から、該検索要求を送るために前記ウェブブラウザ装置が使用した検索開始ページの識別データを抽出する識別データ抽出ステップと、
検索対象ごとに正当な検索開始ページとして登録されたページの識別データを保持する登録ページ識別データ保持ステップと、
前記登録ページ識別データ保持ステップによって保持された識別データの中から前記検索対象選定ステップによって選定された検索対象に対応する識別データを選択し、該選択された識別データと前記識別データ抽出ステップによって抽出された識別データとを照合して、前記検索要求受信ステップによって受信された検索要求が、正当な検索開始ページを使用して送信されたか否かを判別する正当性判別ステップと、
前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索要求受信ステップによって受信された検索要求中の検索条件に従って、前記検索対象選定ステップによって選定された検索対象に対して検索を行なう検索ステップと、
前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索ステップでの検索によって得られた検索結果を表現する結果ページのHTMLデータを作成する結果ページデータ作成ステップと、
前記結果ページデータ作成ステップで作成されたHTMLデータを使用して応答メッセージを作成して、前記検索要求を送信したウェブブラウザ装置に送信する応答送信ステップと
を有することを特徴とするウェブ検索方法。
【0112】
〔実施態様9〕 前記結果ページデータ作成ステップは、前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されていないと判別された場合、エラーページのHTMLデータを作成することを特徴とする実施態様7または実施態様8に記載のウェブ検索方法。
【0113】
〔実施態様10〕 前記識別データ抽出ステップは、
前記検索要求受信ステップによって受信された検索要求からパラメータを抽出するパラメータ抽出ステップと、
前記パラメータ抽出ステップにより抽出されたパラメータの中から検索開始ページのキーを抽出するキー抽出ステップとから構成され、
前記登録ページ識別データ保持ステップは、
正当な検索開始ページが使用するキーを生成するための素データを保持する素データ保持ステップにより構成され、
前記正当性判別ステップは、前記キー抽出ステップで抽出されたキーが、前記素データ保持ステップによって保持された素データから生成されたキーであるか否かをもって前記判別を行うことを特徴とする実施態様7または実施態様8に記載のウェブ検索方法。
【0114】
〔実施態様11〕 ネットワークを介してウェブブラウザ装置及びウェブサーバに接続されるウェブ検索装置に適用されるウェブ検索方法を、コンピュータに実行させるためのプログラムにおいて、
前記ウェブ検索方法が、
ウェブサーバが提供する検索開始ページを使用してウェブブラウザ装置から送信された検索要求を受信する検索要求受信ステップと、
前記検索要求受信ステップにより受信された検索要求から、該検索要求を送るために前記ウェブブラウザ装置が使用した検索開始ページの識別データを抽出する識別データ抽出ステップと、
正当な検索開始ページとして登録されたページの識別データを保持する登録ページ識別データ保持ステップと、
前記識別データ抽出ステップにより抽出された識別データと前記登録ページ識別データ保持ステップによって保持された識別データとを照合して、前記検索要求受信ステップによって受信された検索要求が、正当な検索開始ページを使用して送信されたか否かを判別する正当性判別ステップと、
前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索要求受信ステップによって受信された検索要求中の検索条件に従って検索を行なう検索ステップと、
前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索ステップでの検索によって得られた検索結果を表現する結果ページのHTMLデータを作成する結果ページデータ作成ステップと、
前記結果ページデータ作成ステップで作成されたHTMLデータを使用して応答メッセージを作成して、前記検索要求を送信したウェブブラウザ装置に送信する応答送信ステップと
を有することを特徴とするプログラム。
【0115】
〔実施態様12〕 ネットワークを介してウェブブラウザ装置及びウェブサーバに接続されるウェブ検索装置に適用されるウェブ検索方法を、コンピュータに実行させるためのプログラムにおいて、
前記ウェブ検索方法が、
ウェブサーバが提供する検索開始ページを使用してウェブブラウザ装置から送信された検索要求を受信する検索要求受信ステップと、
前記検索要求受信ステップによって受信された検索要求の中の検索対象指定データに基づき、選択対象を選定する検索対象選定ステップと、
前記検索要求受信ステップによって受信された検索要求から、該検索要求を送るために前記ウェブブラウザ装置が使用した検索開始ページの識別データを抽出する識別データ抽出ステップと、
検索対象ごとに正当な検索開始ページとして登録されたページの識別データを保持する登録ページ識別データ保持ステップと、
前記登録ページ識別データ保持ステップによって保持された識別データの中から前記検索対象選定ステップによって選定された検索対象に対応する識別データを選択し、該選択された識別データと前記識別データ抽出ステップによって抽出された識別データとを照合して、前記検索要求受信ステップによって受信された検索要求が、正当な検索開始ページを使用して送信されたか否かを判別する正当性判別ステップと、
前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索要求受信ステップによって受信された検索要求中の検索条件に従って、前記検索対象選定ステップによって選定された検索対象に対して検索を行なう検索ステップと、
前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索ステップでの検索によって得られた検索結果を表現する結果ページのHTMLデータを作成する結果ページデータ作成ステップと、
前記結果ページデータ作成ステップで作成されたHTMLデータを使用して応答メッセージを作成して、前記検索要求を送信したウェブブラウザ装置に送信する応答送信ステップと
を有することを特徴とするプログラム。
【0116】
〔実施態様13〕 前記結果ページデータ作成ステップは、前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されていないと判別された場合、エラーページのHTMLデータを作成することを特徴とする実施態様11または実施態様12に記載のプログラム。
【0117】
〔実施態様14〕 前記識別データ抽出ステップは、
前記検索要求受信ステップによって受信された検索要求からパラメータを抽出するパラメータ抽出ステップと、
前記パラメータ抽出ステップにより抽出されたパラメータの中から検索開始ページのキーを抽出するキー抽出ステップとから構成され、
前記登録ページ識別データ保持ステップは、
正当な検索開始ページが使用するキーを生成するための素データを保持する素データ保持ステップにより構成され、
前記正当性判別ステップは、前記キー抽出ステップで抽出されたキーが、前記素データ保持ステップによって保持された素データから生成されたキーであるか否かをもって前記判別を行うことを特徴とする実施態様11または実施態様12に記載のプログラム。
【0118】
〔実施態様15〕 ネットワークを介してウェブブラウザ装置及びウェブサーバに接続されるウェブ検索装置に適用されるウェブ検索方法をプログラムとして記憶した、コンピュータにより読み出し可能な記憶媒体において、
前記ウェブ検索方法が、
ウェブサーバが提供する検索開始ページを使用してウェブブラウザ装置から送信された検索要求を受信する検索要求受信ステップと、
前記検索要求受信ステップにより受信された検索要求から、該検索要求を送るために前記ウェブブラウザ装置が使用した検索開始ページの識別データを抽出する識別データ抽出ステップと、
正当な検索開始ページとして登録されたページの識別データを保持する登録ページ識別データ保持ステップと、
前記識別データ抽出ステップにより抽出された識別データと前記登録ページ識別データ保持ステップによって保持された識別データとを照合して、前記検索要求受信ステップによって受信された検索要求が、正当な検索開始ページを使用して送信されたか否かを判別する正当性判別ステップと、
前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索要求受信ステップによって受信された検索要求中の検索条件に従って検索を行なう検索ステップと、
前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索ステップでの検索によって得られた検索結果を表現する結果ページのHTMLデータを作成する結果ページデータ作成ステップと、
前記結果ページデータ作成ステップで作成されたHTMLデータを使用して応答メッセージを作成して、前記検索要求を送信したウェブブラウザ装置に送信する応答送信ステップと
を有することを特徴とする記憶媒体。
【0119】
〔実施態様16〕 ネットワークを介してウェブブラウザ装置及びウェブサーバに接続されるウェブ検索装置に適用されるウェブ検索方法をプログラムとして記憶した、コンピュータにより読み出し可能な記憶媒体において、
前記ウェブ検索方法が、
ウェブサーバが提供する検索開始ページを使用してウェブブラウザ装置から送信された検索要求を受信する検索要求受信ステップと、
前記検索要求受信ステップによって受信された検索要求の中の検索対象指定データに基づき、選択対象を選定する検索対象選定ステップと、
前記検索要求受信ステップによって受信された検索要求から、該検索要求を送るために前記ウェブブラウザ装置が使用した検索開始ページの識別データを抽出する識別データ抽出ステップと、
検索対象ごとに正当な検索開始ページとして登録されたページの識別データを保持する登録ページ識別データ保持ステップと、
前記登録ページ識別データ保持ステップによって保持された識別データの中から前記検索対象選定ステップによって選定された検索対象に対応する識別データを選択し、該選択された識別データと前記識別データ抽出ステップによって抽出された識別データとを照合して、前記検索要求受信ステップによって受信された検索要求が、正当な検索開始ページを使用して送信されたか否かを判別する正当性判別ステップと、
前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索要求受信ステップによって受信された検索要求中の検索条件に従って、前記検索対象選定ステップによって選定された検索対象に対して検索を行なう検索ステップと、
前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索ステップでの検索によって得られた検索結果を表現する結果ページのHTMLデータを作成する結果ページデータ作成ステップと、
前記結果ページデータ作成ステップで作成されたHTMLデータを使用して応答メッセージを作成して、前記検索要求を送信したウェブブラウザ装置に送信する応答送信ステップと
を有することを特徴とする記憶媒体。
【0120】
〔実施態様17〕 前記結果ページデータ作成ステップは、前記正当性判別ステップによって前記検索要求が正当な検索開始ページを使用して送信されていないと判別された場合、エラーページのHTMLデータを作成することを特徴とする実施態様15または実施態様16に記載の記憶媒体。
【0121】
〔実施態様18〕 前記識別データ抽出ステップは、
前記検索要求受信ステップによって受信された検索要求からパラメータを抽出するパラメータ抽出ステップと、
前記パラメータ抽出ステップにより抽出されたパラメータの中から検索開始ページのキーを抽出するキー抽出ステップとから構成され、
前記登録ページ識別データ保持ステップは、
正当な検索開始ページが使用するキーを生成するための素データを保持する素データ保持ステップにより構成され、
前記正当性判別ステップは、前記キー抽出ステップで抽出されたキーが、前記素データ保持ステップによって保持された素データから生成されたキーであるか否かをもって前記判別を行うことを特徴とする実施態様15または実施態様16に記載の記憶媒体。
【0122】
【発明の効果】
以上詳述したように本発明によれば、ウェブ検索装置は、ウェブサーバが提供する検索開始ページを使用してウェブブラウザ装置から送信された検索要求を受信し、この受信された検索要求から、該検索要求を送るために前記ウェブブラウザ装置が使用した検索開始ページの識別データを抽出する。一方、正当な検索開始ページとして登録されたページの識別データを保持しておき、前記抽出された識別データと前記保持されている識別データとを照合して、前記受信された検索要求が、正当な検索開始ページを使用して送信されたか否かを判別する。前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記受信された検索要求中の検索条件に従って検索を行ない、この検索によって得られた検索結果を表現する結果ページのHTMLデータを作成する。この作成されたHTMLデータを使用して応答メッセージを作成して、前記検索要求を送信したウェブブラウザ装置に送信する。
【0123】
これにより、検索開始ページを提供するウェブサーバとは異なるウェブサーバのページを用いた検索要求を拒絶できる。
【0124】
また、本発明によれば、ウェブ検索装置は、ウェブサーバが提供する検索開始ページを使用してウェブブラウザ装置から送信された検索要求を受信し、この受信された検索要求の中の検索対象指定データに基づき、選択対象を選定する。一方、前記受信された検索要求から、該検索要求を送るために前記ウェブブラウザ装置が使用した検索開始ページの識別データを抽出する。また一方、検索対象ごとに正当な検索開始ページとして登録されたページの識別データを保持し、前記保持されている識別データの中から前記選定された検索対象に対応する識別データを選択し、該選択された識別データと前記抽出された識別データとを照合して、前記受信された検索要求が、正当な検索開始ページを使用して送信されたか否かを判別する。前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記受信された検索要求中の検索条件に従って、前記選定された検索対象に対して検索を行なう。該検索によって得られた検索結果を表現する結果ページのHTMLデータを作成し、作成されたHTMLデータを使用して応答メッセージを作成して、前記検索要求を送信したウェブブラウザ装置に送信する。
【0125】
これにより、複数のウェブサーバが提供するウェブページを別個に検索する場合に、検索開始ページの設定を誤っても、誤った検索結果を返信しないで済む。
【図面の簡単な説明】
【図1】本発明に係るウェブ検索装置の第1の実施の形態の構成を示すブロック図である。
【図2】ウェブ検索装置を含むウェブの第1のネットワーク構成を示すブロック図である。
【図3】ウェブページ検索を行なう際に、ウェブブラウザ装置とウェブサーバとウェブ検索装置との間で行われるHTTP通信のシーケンスを示す図である。
【図4】検索開始ページを表現するHTMLデータの例を示す図である。
【図5】検索開始ページの一例を示す図である。
【図6】HTTPリクエストの一例を示す図である。
【図7】ウェブ検索装置の従来構成を示すブロック図である。
【図8】別のウェブサーバが介在した場合のウェブの第3のネットワーク構成を示すブロック図である。
【図9】別検索開始ページを表現するHTMLデータの例を示す図である。
【図10】HTMLデータに従い表示される検索開始ページの例を示す図である。
【図11】ウェブ検索装置に送信されるHTTPリクエストの一例を示す図である。
【図12】複数のウェブサーバが提供するウェブページを個別に検索する機能を提供するウェブ検索装置を含むウェブの第2のネットワーク構成を示すブロック図である。
【図13】ウェブページ検索を行なう際に、ウェブブラウザ装置とウェブサーバ(A)もしくはウェブサーバ(B)とウェブ検索装置との間で行われるHTTP通信のシーケンスを示す図である。
【図14】検索開始ページを表現するHTMLデータの例を示す図である。
【図15】HTTPリクエストの一例を示す図である。
【図16】ウェブ検索装置の従来構成を示すブロック図である。
【図17】第1の実施の形態のウェブ検索装置で実行される検索処理の手順を示すフローチャートである。
【図18】ウェブ検索装置の第2の実施の形態の構成を示すブロック図である。
【図19】ウェブ検索装置の第3の実施の形態の構成を示すブロック図である。
【符号の説明】
101 HTTPリクエスト受信部(検索要求受信手段)
102 パラメータ抽出部
103 ヘッダ抽出部
104 開始ページ識別部(識別データ抽出手段)
105 登録ページ保持部(登録ページ識別データ保持手段)
106 正当性判別部(正当性判別手段)
107 検索部(検索手段)
108 結果ページデータ作成部(結果ページデータ作成手段)
109 HTTPレスポンス送信部(応答送信手段)
1801 HTTPリクエスト受信部(検索要求受信手段)
1802 パラメータ抽出部
1803 検索対象選定部(検索対象選定手段)
1804 ヘッダ抽出部
1805 開始ページ識別部(識別データ抽出手段)
1806 登録ページ保持部(登録ページ識別データ保持手段)
1807 正当性判別部(正当性判別手段)
1808 検索部(検索手段)
1809 結果ページデータ作成部(結果ページデータ作成手段)
1810 HTTPレスポンス送信部(応答送信手段)

Claims (1)

  1. ネットワークを介してウェブブラウザ装置及びウェブサーバに接続されるウェブ検索装置において、
    ウェブサーバが提供する検索開始ページを使用してウェブブラウザ装置から送信された検索要求を受信する検索要求受信手段と、
    前記検索要求受信手段で受信された検索要求から、該検索要求を送るために前記ウェブブラウザ装置が使用した検索開始ページの識別データを抽出する識別データ抽出手段と、
    正当な検索開始ページとして登録されたページの識別データを保持する登録ページ識別データ保持手段と、
    前記識別データ抽出手段により抽出された識別データと前記登録ページ識別データ保持手段に保持されている識別データとを照合して、前記検索要求受信手段で受信された検索要求が、正当な検索開始ページを使用して送信されたか否かを判別する正当性判別手段と、
    前記正当性判別手段によって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索要求受信手段で受信された検索要求中の検索条件に従って検索を行なう検索手段と、
    前記正当性判別手段によって前記検索要求が正当な検索開始ページを使用して送信されたと判別された場合、前記検索手段での検索によって得られた検索結果を表現する結果ページのHTMLデータを作成する結果ページデータ作成手段と、
    前記結果ページデータ作成手段で作成されたHTMLデータを使用して応答メッセージを作成して、前記検索要求受信手段に前記検索要求を送信したウェブブラウザ装置に送信する応答送信手段と
    を有することを特徴とするウェブ検索装置。
JP2003102155A 2003-04-04 2003-04-04 ウェブ検索装置 Pending JP2004310379A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003102155A JP2004310379A (ja) 2003-04-04 2003-04-04 ウェブ検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003102155A JP2004310379A (ja) 2003-04-04 2003-04-04 ウェブ検索装置

Publications (1)

Publication Number Publication Date
JP2004310379A true JP2004310379A (ja) 2004-11-04

Family

ID=33465727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003102155A Pending JP2004310379A (ja) 2003-04-04 2003-04-04 ウェブ検索装置

Country Status (1)

Country Link
JP (1) JP2004310379A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007066398A1 (ja) * 2005-12-08 2007-06-14 Hewlett-Packard Development Company, L.P. データ配信システムおよびその方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007066398A1 (ja) * 2005-12-08 2007-06-14 Hewlett-Packard Development Company, L.P. データ配信システムおよびその方法

Similar Documents

Publication Publication Date Title
US9158764B2 (en) Method and apparatus for utilizing user feedback to improve signifier mapping
JP4602769B2 (ja) 文書セットのコンテンツ空間のナビゲーション
EP1428139B1 (en) System and method for extracting content for submission to a search engine
CN102227725B (zh) 用于匹配实体的系统和方法
JP4470069B2 (ja) 入力補助装置、入力補助システム、入力補助方法、及び、入力補助プログラム
US20160283604A1 (en) System and method for searching a bookmark and tag database for relevant bookmarks
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
US20110125727A1 (en) Content oriented index and search method and system
US20130073536A1 (en) Indexing of urls with fragments
CN105027121A (zh) 对本机应用的应用页面建索引
KR100463208B1 (ko) 로컬 네임 서버 중심의 내부 도메인 시스템 구현 방법
KR100485321B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
KR20160124079A (ko) 인-메모리 데이터베이스 탐색을 위한 시스템 및 방법
US7376650B1 (en) Method and system for redirecting a request using redirection patterns
JP2005122493A (ja) サーバ装置、情報の提供方法、及びプログラム
JP5588845B2 (ja) 不正ドメイン検知装置、不正ドメイン検知方法、およびプログラム
JP2004310379A (ja) ウェブ検索装置
JPH11143885A (ja) 情報検索方法及び装置及び情報検索プログラムを格納した記憶媒体及び情報発信方法及び装置及び情報発信プログラムを格納した記憶媒体
KR100619179B1 (ko) 인터넷 검색 엔진에 있어서의 무효 클릭 검출 방법 및 장치
JP2002016781A (ja) コンテンツ管理方法、その装置およびそのプログラム記録媒体
JP2000148686A (ja) 認定情報提供方法及びシステム及び認定情報提供プログラムを格納した記憶媒体及び認定サーバ
JP2003058865A (ja) 映像記述情報流通方法及びそのシステム、映像記述情報流通用サーバ装置、映像記述情報流通用クライアント装置、映像記述情報流通用プログラム並びにそのプログラムを記録した記録媒体
KR100820900B1 (ko) 도서의 서지 데이터 및 본문 데이터를 통합하여 도서정보를 생성하는 방법 및 상기 방법을 수행하는 시스템
JP2009020686A (ja) 外字文字処理システム、外字文字処理方法、および外字文字処理プログラム
JP2008250690A (ja) Webサーバ