JP3732826B2 - Document output apparatus and static web page composition method used therefor - Google Patents

Document output apparatus and static web page composition method used therefor Download PDF

Info

Publication number
JP3732826B2
JP3732826B2 JP2002345034A JP2002345034A JP3732826B2 JP 3732826 B2 JP3732826 B2 JP 3732826B2 JP 2002345034 A JP2002345034 A JP 2002345034A JP 2002345034 A JP2002345034 A JP 2002345034A JP 3732826 B2 JP3732826 B2 JP 3732826B2
Authority
JP
Japan
Prior art keywords
argument
document
path name
url
delimiter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002345034A
Other languages
Japanese (ja)
Other versions
JP2003114891A (en
Inventor
範行 大内
正記 加藤
洋 安川
Original Assignee
Ecジャパン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ecジャパン株式会社 filed Critical Ecジャパン株式会社
Priority to JP2002345034A priority Critical patent/JP3732826B2/en
Publication of JP2003114891A publication Critical patent/JP2003114891A/en
Application granted granted Critical
Publication of JP3732826B2 publication Critical patent/JP3732826B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、ユーザからの要求に基づいてウェブ(Web)ページ等の文書を出力する文書出力技術に関し、とくに、巡回ロボットによりウェブページの索引を自動的に生成する検索エンジンに当該ウェブページ等が有効に登録されるようにするものである。
【0002】
【従来の技術】
近年、インターネット上で検索エンジンが提供されている。インターネットで商品を購入する場合、このような検索エンジンで検索することがよく行われる。したがって、ウェブサーバを用いて電子コマース等を行う場合には、電子コマース等のサイトのウェブページが検索エンジンの索引に登録されることが好ましい。そして、検索エンジンでは、巡回ロボットを用いてウェブサイトから当該検索エンジン用の索引情報を収集することが広く行われている。サイトのウェブページが、このような巡回ロボットにより索引情報として有効に抽出されるようにすることが望まれる。また、このような検索エンジンでは、種々の観点から検索結果のウェブページにランク(得点)を与え、そのランク順に検索結果を出力するようになっている。したがって、より良いランクを得るようにウェブサイトを構築することが望ましい。
【0003】
ところで、電子コマース等では、ウェブサーバとデータベース管理サーバとを組み合わせて2階層ないし3階層のシステムを構築することが多い。この場合、ウェブサーバのCGIプログラムやアプリケーションサーバのプログラムを利用してウェブページを動的に生成する。すなわち、HTTP要求に含まれるURLに、プログラムのパス名および引数(クエリー文字列とも言う。引数の区切り文字「?」(クエスションマーク)が先行する。)を記述し、これによりプログラムに引数を渡して、データベース管理サーバをデータベース検索を行わせ、所定の情報を取得し、この情報に基づいて所望のウェブページを動的に生成する。このように動的なページを用いることにより、商品マスタ等の電子コマースの種々の環境に即座に適合させることができる。
【0004】
しかしながら、検索エンジンの巡回ロボットが、URL中に引数の区切り文字「?」があるサイトを巡回する場合、そのサイトのページ取得総数を100、1000などと制限している。このようなサイトはCGIで動的に処理されており、ウェブサイトに何ページあるのかが判断できないからである。このため動的にウェブページを生成するサイトではすべてのページを索引情報に含ませることができない。
【0005】
【発明が解決する課題】
この発明は、以上の事情を考慮してなされたものであり、動的にウェブページ等を生成する場合でも巡回ロボットがより多くのウェブページに対して索引情報取得処理を行うようにすることを目的としている。
【0006】
【課題を解決するための手段】
この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。
【0007】
ここでは、特許請求の範囲の記載について補充的に説明を行っておく。
【0008】
一般に、ロボット型検索エンジンは、リンクされているウェブサイトの各ページを定期的に巡回し、取り込む。取り込まれたページは、検索キーワードで索引化する。この際、ウェブページが検索結果に表示される順位を決めるための評価を行う。この評価は、検索エンジンにより違いがあるが、検索キーワードの出現頻度、被リンク数、正しい構造的なHTML記述、ページのサイズなどから行われる。
【0009】
この発明では、すべてのページを索引情報に反映させるために、URLの「?」が含まれないように、URLを書き換える処理をする。その際、相互のページがリンクされるような構成、つまり、サイトマップ、カテゴリインデックス、アクセスランキングなどを採用して相互リンク(被リンク)数を増やすことで、検索エンジンはページの評価を上げる。
【0010】
ウェブページ内に使用されているキーワードの出現頻度、使用されているテキスト中のキーワードの密度を適切に調整することも好ましい。このようにして、検索エンジンはページの評価を上げる。使用頻度が多すぎる場合は、スパム(SPAM)と扱われる可能性も有るので、必要以上にキーワードをしない。
【0011】
ウェブページが他のウェブページからリンクされていると、検索エンジンはページの評価を上げる。リンクされる場合は、評価の高いサイトからリンクされると良い。また、ウェブサイトのサイトマップやカテゴリ分類ページやランキングページなどからリンクを張るのが好ましい。
【0012】
また、検索結果の上位に表示されるような評価の高いサイトのリンク集ページがあると、検索エンジンはページの評価を上げるので、このようなリンク集を設けることも好ましい。
【0013】
またHTMLのタグには、それぞれ本来の記述方法がある。例えば、<title>タグにはページタイトル、<h1>、<h2>タグなどは見出しなどである。HTMLのタグをブラウザに表示される場所を調整するために使用するのではなく、意味のある構造化するために使用すると、検索エンジンはページの評価を上げる。
【0014】
したがって、このようなページに変換して出力することも望まれる。
【0015】
ウェブページの読み込みは、人が読みやすい位置に配置されていることで、検索エンジンはページの評価を上げる。
【0016】
さらにこの発明を説明する。
【0017】
この発明の一側面によれば、上述の目的を達成するために、文書出力装置に:受け取ったHTTP要求のURLに含まれる、引数の区切り記号を用いて表記されたプログラムのパス名および引数を受け取って文書を生成してHTTP応答により出力するウェブサーバ本体と;ユーザから送られてくるHTTP要求に含まれる所定のパス名を、引数の区切り記号を用いて表記された、対応するプログラムのパス名および引数に変換してウェブサーバ本体に供給する第1の変換手段と;上記ウェブサーバ本体から出力されるHTTP応答のURLに含まれる、引数の区切り記号を用いて表記された、プログラムのパス名および引数を、引数の区切り記号を伴わないパス名に変換する第2の変換手段と;所定のURLをアンカー情報として含む文書であって、上記所定のURLは、上記ウェブサーバ本体に引き渡されることが予定されるHTTP要求のURLから、当該HTTP要求のURLに含まれる、引数の区切り記号を用いて表記されたプログラムのパス名および引数を、引数の区切り記号を伴わない対応するパス名に変換して形成したURLである、上記文書を記憶する文書記憶手段とを設け;上記文書記憶手段に記憶された文書をHTTP要求に基づいて出力するようにしている。
【0018】
この構成においては、動的にウェブページ等を生成していながら、外部的にはあたかも静的なウェブページ等を取り出すのと同様にパス名を指定してウェブページ等を取り出すことができる。そしてこれらを取り出すために用いるパス名を含むURLをリンク(アンカー情報)として含む文書(ウェブページ)を用意しこれを閲覧できるようにしている。このような文書は、サイトマップ、カテゴリ索引、アクセスランキング表として構成することができる。
【0019】
したがって、動的にウェブページを生成していながら、巡回ロボットにより収集総数の制約を受けず、しかも、リンク数が増え、この結果、より高い評価をともなって検索エンジンの索引に登録されることが期待できる。
【0020】
なお、この発明に関連する他の発明によれば、上述の目的を達成するために、動的にウェブページを生成するシステムに関連して当該動的なウェブページへのアンカー情報を含む静的ウェブページを合成する方法において:動的ウェブページを生成するために用いるデータベースまたは同等のデータベースを参照して、当該動的に生成されるウェブページの引数表記を含むURLを決定するステップと;上記URLを引数表記を含まない引数をパス名に統合したURLに変換するステップと;上記変換後のURLをアンカー情報として含むウェブページを生成するステップとを実行するようにしている。
【0021】
同等なデータベースは、例えば、元のデータベースの複製である。
【0022】
このウェブページは当該動的なウェブページを生成するシステム(ウェブサーバ)のデフォルトルート等に配置される。同一のドメイン名のウェブサーバ等に配置されてもよい。
【0023】
この構成においては、動的なウェブページへのリンクを含む静的ウェブページを公開することができ、この結果、より多くの動的ウェブページがロボットによる検索エンジンの索引情報の対象となることが期待される。
【0024】
なお、この発明は装置またはシステムとして実現できるだけでなく、方法の態様でも実現可能であり、また少なくともその一部をプログラムとして実装できる。
【0025】
この発明の上述の側面およびこの発明の他の側面は特許請求の範囲に記載され以下実施例を用いて詳細に説明される。
【0026】
【発明の実施の形態】
以下、この発明の実施例について説明する。
【0027】
図1は、この発明の実施例を電子コマースのシステムに適用した実施例を示している。もちろん種々のシステムに適用可能である。またこの実施例では、すでに運用されている電子コマースのシステムをこの発明を用いて適合化して新たなシステムとして構築するようにしている。もちろん、すべてを新たに構築するようにしても良い。
【0028】
図1において、この実施例の電子コマースサイト10は、ウェブベースのシステムであり、インターネット等の通信ネットワーク(図示しない)を介してクライアント装置40がアクセスできるようになっている。クライアント装置40からHTTP要求が送られ電子コマースサイト10から対応するHTTP応答が送られる。ユーザはクライアント装置40を用いて取引内容の閲覧や取引の実行を行える。電子コマースサイト10は、既存運用システム20と、この発明を適用して付加された変換処理部30、ウェブキャッシュサーバ31、カテゴリ索引・サイトマップ記憶部32等を含んで構成されている。
【0029】
既存運用システム20は、動的ウェブページを生成するものであり、周知のとおりのウェブサーバ21、CGI処理部22、商品データベース23等を含んで構成されている。既存運用システム20は、単独で電子コマースサイトとして運用されていたものである。既存の運用では、ウェブサーバ21がCGIプログラム(CGI処理部22)のパス名とそれに引き渡す引数とを受け取り、そのCGI処理部22に引数を引き渡す。CGI処理部22は引数に基づいて商品データベース(データベース管理システム)23に検索要求を行い、返ってきた検索結果を受け取り、さらにこの検索結果に基づいて動的にウェブページを生成してウェブサーバ21に返すようになっている。
【0030】
ウェブキャッシュサーバ31は、クライアント装置40からHTTP要求を受け取り、対応するHTTP応答をキャッシュしている場合には、当該キャッシュしているHTTP応答をクライアント装置40に返し、HTTP応答をキャッシュしていない場合には、HTTP要求を変換処理部30を介して既存運用システム20のウェブサーバ21に渡す。
【0031】
変換処理部30は図2に示すようにパス名/引数変換部301、引数/パス名変換部302、ページ変換部303の機能要素を含んでいる。ウェブキャッシュサーバ31からパス名/引数変換部301に送られたHTTP要求は、図5(a)に示すように、静的ページを要求する場合のように、URL中に引数表記を含まない。パス名/引数変換部301は、このURLを図5(b)に示すような引数表記を伴うものに変換して既存運用システム20のウェブサーバ21に引き渡す。この結果、既存運用システム20は動的ウェブページを生成してHTTP応答により変換処理部30に送る。このHTTP応答のURLは引数表記を伴うものである。
【0032】
変換処理部30の引数/パス名変換部302は、HTTP応答中のURL(図5(b)参照)の引数表記をパス名に統合し、図5(a)に示すように変換する。また、変換処理部30のページ変換部303は動的ウェブページの要素、例えばタグによりマークアップされている部分を変換する。具体的には、タイトルタグ、ヘッダータグに何も含まれていない場合にはキーワードとなる文字列(例えば商品名、商品カテゴリ、その他商品の属性等)を挿入する。また、引数表記を含むリンク(アンカー情報)が埋め込まれている場合には、パス名に統合する。さらに、商品カテゴリページやサイトマップ等へのリンク(アンカー情報)を適宜挿入する。この処理は、通常の文字列置換処理等により行うことができる。変換されたURLおよびページを含むHTTP応答はウェブキャッシュサーバ31を介してクライアント装置40に送られ、同時にウェブキャッシュサーバ31によりキャッシュされる。引数が商品IDの場合には、パス名に統合する際に、対応する文字表記(アルファベット表記)に変換することが好ましい。変換処理部30の種々の処理は例えば通常のテキスト処理プログラムで実現でき、変換規則は例えば正規表現で記述される。
【0033】
また、カテゴリ索引・サイトマップ記憶部32は、ウェブサーバ21のルートディレクトリ配下に配置されるものであり、カテゴリ索引を構成するウェブページ群やサイトマップを構成するウェブページ群からなっている。例えばカテゴリ索引は、図6に示すように商品トップページから階層的に構成されて個々の商品ページに至るようにリンクされている。カテゴリ索引やサイトマップは静的ウェブページで構成され、通常の対応するパス名を指定したHTTP要求を用いて閲覧することができる。カテゴリ索引・サイトマップ記憶部32は、アクセスランキングリストのウェブページ等を含んでも良い。
【0034】
図3および図4は、このようなカテゴリ索引・サイトマップ記憶部32に記憶する静的ウェブページの準備の仕方を示している。図3において、商品データベース33は図1の商品データベース23の複製である。もちろん、商品データベース23自体を用いても良い。商品データベース33(商品データベース23も同様)は、商品に関する種々の属性(商品ID、価格、製造元、色、商品カテゴリ等)、イメージ情報のアドレス等を管理している。静的ページ生成部35は、商品データベース33のデータレコードの構成を参照して図6に示すようなカテゴリ索引を構成するウェブページを生成する。すなわち、データレコードの構成等、静的ページを構成するための構成情報(例えばテンプレート情報を含む)はウェブページ構成情報記憶部34に記憶されており、静的ページ生成部35は、このウェブページ構成情報を参照しつつ商品データベース33にアクセスして動的に生成されることが予定されるウェブページ(例えば商品ページ)のURL(引数表記を含む)を特定し(図4のステップS10)、このURLを、引数をパス名に統合したURLに変換し(同、ステップS11)、こののち、変換したURLをアンカー情報として埋め込んだ、所定のカテゴリ階層の静的ウェブページを生成する(同、ステップS12)。この後、生成した静的ウェブページをカテゴリ索引・サイトマップ記憶部32に配置する(同、ステップS13)。この処理をカテゴリ索引のすべてのページについて実行する(同、ステップS14)。同様に、サイトマップの静的ウェブページやアクセスランキング表の静的ウェブページが生成され、同様に、カテゴリ索引・サイトマップ記憶部32に記憶される。
【0035】
管理者は、編集部36を用いて静的ウェブページを編集することが可能である。
【0036】
なお、ウェブキャッシュサーバ31においてどのパスまでキャッシュするかなどをユーザインタフェースを用いて指定することができる。
【0037】
この実施例においては、検索エンジンの巡回ロボットがカテゴリ索引やサイトマップのウェブページを取り込んだときには順次に商品のページにアクセスする。どのページでも基本的にアンカー情報には引数表記の「?」は含まれないので、すべての商品ページが取り込まれることが期待できる。また、カテゴリ索引やサイトマップのウェブページと商品ページとは直接または間接的に(商品カテゴリページを介して)リンクされるので高い順位が付与されることが期待できる。
【0038】
なお、この実施例では、電子コマースサイト10のウェブページが検索エンジンの索引に効率的に登録されるようにして検索エンジンの検索から見込み客がアクセスすることを期待するものである。この実施例では、図7に示すように、HTTP要求のログをとりアクセス履歴記憶部32に記録管理し、そのHTTP要求のリファラ情報(当該ウェブサイトにアクセスしたユーザが直前に行ったHTTP要求の情報)を利用し、当該ウェブサイトがヒットした検索キーワードについてアクセス統計情報生成部37で統計処理を行い、有効なキーワードがなにかを検証し、この結果、変換処理部30のページ変換部303の置き換え規則等を適合化させることに利用することができる。
【0039】
なお、この発明は上述の実施例に限定されるものではなく種々変更が可能である。例えば、CGI処理部に変えてアプリケーションサーバを用いても良い。変換処理部30をウェブサーバ21のクライアント側に配置したが、変換処理部30の全部または一部をウェブサーバ21に含ませたり、そのモジュールで代替させたり、またウェブサーバ21とCGI処理部22との間に配置しても良いことはもちろんである。また電子コマースサイト10のうち既存運用システム20を除いた部分を単独で構成してもよい。
【0040】
また、この実施例ではウェブサーバ21のみを用いたが、2以上のウェブサーバを用い、ウェブサーバ21以外のウェブサーバでカテゴリ索引・サイトマップ記憶部32の静的ウェブページを取り出すようにしても良い。またウェブキャッシュサーバを用いなくとも良い。
【0041】
また、この実施例では、ユーザが既存運用システム20を利用して取り出した動的ウェブページのURLをウェブ閲覧用ソフトウェアに登録して、新たに構築し直した電子コマースサイト10にアクセスすることも想定される。この場合、該当するページがないというように処理しても良いし、引数表記を伴うHTTP要求についてはこれをパス名に統合する前置処理を行うようにしても良い。
【0042】
また、この発明は、動的にウェブページを生成するシステムに広く適用でき、電子コマースのシステム以外のシステムにも適用可能なことはもちろんである。
【0043】
また、動的ウェブページの一部に選択的にこの発明を適用するようにしてもよい。一部のみを静的ウェブページとして見えるようにし、他の部分をそのまま動的ウェブページとして扱うようにしても良い。このような適用部分を例えばユーザインタフェースを用いパス名で指定しても良い。
【0044】
またこの発明は広く閲覧画面を表示する文書に適用でき、ウェブページという場合には、HTMLページのみでなく、XMLやHXML等も広く包含するものと理解されたい。
【0045】
【発明の効果】
以上説明したように、この発明によれば、動的ウェブページを生成する文書出力装置をあたかも外部からは静的ウェブページを生成する文書出力装置のように見せ、さらに、各ページのアンカー情報を埋め込んだページを保持することにより、検索エンジンの索引に効率よく登録されることが期待でき、また検索結果の順位を向上させることも期待できる。
【図面の簡単な説明】
【図1】 この発明の実施例の電子コマースサイトの構成を説明する図である。
【図2】 図1の変換処理部30の構成を機能ブロックとして説明する図である。
【図3】 図1のカテゴリ索引・サイトマップ記憶部32に記憶される静的ウェブページの合成を説明する図である。
【図4】 図3の静的ページ生成部35の動作等を説明するフローチャートである。
【図5】 図1の変換処理部30の変換態様を説明する図である。
【図6】 図1のカテゴリ索引・サイトマップ記憶部32に記憶される静的ウェブページの例を説明する図である。
【図7】 図1の電子コマースサイト10へのアクセスがどのキーワード検索により行われたかを示す統計情報を生成するアクセス統計情報生成部37を説明する図である。
【符号の説明】
10 電子コマースサイト
20 既存運用システム
21 ウェブサーバ
22 CGI処理部
23 商品データベース
30 変換処理部
31 ウェブキャッシュサーバ
32 アクセス履歴記憶部
32 カテゴリ索引・サイトマップ記憶部
33 商品データベース
34 ウェブページ構成情報記憶部
35 静的ページ生成部
36 編集部
37 アクセス統計情報生成部
40 クライアント装置
301 パス名/引数変換部
302 引数/パス名変換部
303 ページ変換部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document output technique for outputting a document such as a web (Web) page based on a request from a user. In particular, the web page is included in a search engine that automatically generates a web page index by a traveling robot. It is intended to be registered effectively.
[0002]
[Prior art]
In recent years, search engines have been provided on the Internet. When purchasing a product on the Internet, a search is often performed using such a search engine. Therefore, when electronic commerce or the like is performed using a web server, it is preferable that a web page of a site such as electronic commerce is registered in an index of a search engine. In a search engine, it is widely performed to collect index information for the search engine from a website using a patrol robot. It is desired that the web page of the site is effectively extracted as index information by such a traveling robot. Further, in such a search engine, a rank (score) is given to the web page of the search result from various viewpoints, and the search result is output in the rank order. Therefore, it is desirable to build a website to get a better rank.
[0003]
By the way, in electronic commerce and the like, a two-tier or three-tier system is often constructed by combining a web server and a database management server. In this case, the web page is dynamically generated using the CGI program of the web server or the program of the application server. That is, a path name and an argument (also referred to as a query character string, preceded by an argument delimiter “?” (Question mark)) are described in the URL included in the HTTP request. Then, the database management server performs database search, acquires predetermined information, and dynamically generates a desired web page based on this information. By using a dynamic page in this way, it is possible to immediately adapt to various electronic commerce environments such as a product master.
[0004]
However, when the patrol robot of the search engine patrols a site having an argument delimiter “?” In the URL, the total number of page acquisitions of the site is limited to 100, 1000, and the like. This is because such a site is dynamically processed by CGI, and it cannot be determined how many pages are on the website. For this reason, all pages cannot be included in the index information in a site that dynamically generates web pages.
[0005]
[Problems to be solved by the invention]
The present invention has been made in consideration of the above circumstances, and is intended to allow a traveling robot to perform index information acquisition processing for a larger number of web pages even when dynamically creating web pages and the like. It is aimed.
[0006]
[Means for Solving the Problems]
According to this invention, in order to achieve the above-mentioned object, the configuration as described in the claims is adopted.
[0007]
Here, the description of the scope of claims will be supplementarily described.
[0008]
Generally, a robot-type search engine periodically visits and fetches each page of a linked website. The captured pages are indexed with search keywords. At this time, evaluation is performed to determine the order in which web pages are displayed in search results. Although this evaluation differs depending on the search engine, it is performed based on the appearance frequency of the search keyword, the number of linked pages, the correct structural HTML description, the page size, and the like.
[0009]
In the present invention, in order to reflect all pages in the index information, the URL is rewritten so that the URL “?” Is not included. At this time, the search engine increases the evaluation of the page by increasing the number of mutual links (linked links) by adopting a configuration in which the mutual pages are linked, that is, a site map, a category index, an access ranking, and the like.
[0010]
It is also preferable to appropriately adjust the appearance frequency of the keywords used in the web page and the keyword density in the used text. In this way, the search engine increases the rating of the page. If the frequency of use is too high, there is a possibility of being treated as spam (SPAM), so do not use keywords more than necessary.
[0011]
When a web page is linked from another web page, the search engine increases the rating of the page. When linking, it is good to link from sites with high evaluation. In addition, it is preferable to link from a website site map, a category classification page, a ranking page, or the like.
[0012]
In addition, if there is a link collection page of a highly evaluated site that is displayed at the top of the search result, the search engine increases the evaluation of the page, so it is also preferable to provide such a link collection.
[0013]
Each HTML tag has an original description method. For example, the <title> tag is a page title, and the <h1> and <h2> tags are headings. Search engines increase the rating of a page when HTML tags are used for meaningful structuring rather than for adjusting where they are displayed in the browser.
[0014]
Therefore, it is also desired to convert to such a page and output it.
[0015]
Web pages are loaded in a location that is easy for humans to read, and search engines increase the rating of the page.
[0016]
The present invention will be further described.
[0017]
According to one aspect of the present invention, in order to achieve the above-described object, the document output device: the path name and the argument of the program expressed using the argument delimiter included in the URL of the received HTTP request A web server body that receives and generates a document and outputs it by an HTTP response; a path of a corresponding program in which a predetermined path name included in an HTTP request sent from a user is expressed using an argument delimiter A first conversion means that converts the name and argument into a web server main body and supplies the first and second arguments; a program path expressed using an argument delimiter included in the URL of the HTTP response output from the web server main body Article including a predetermined URL as the anchor information; name and arguments, and the second converting means for converting the pathname without argument delimiters There are, the predetermined URL, the above from the URL of the web server main body H TTP request is Ru are plan delivered, the path of the contained in the URL of the HTTP request, the program, labeled with the arguments Separator A document storage means for storing the document , which is a URL formed by converting a name and an argument into a corresponding path name without an argument delimiter; an HTTP request for the document stored in the document storage means The output is based on.
[0018]
In this configuration, while a web page or the like is dynamically generated, a web page or the like can be taken out by designating a path name as if the external web page is taken out externally. A document (web page) including a URL including a path name used to extract them as a link (anchor information) is prepared and can be browsed. Such a document can be configured as a site map, a category index, and an access ranking table.
[0019]
Therefore, while dynamically generating a web page, there is no restriction on the total number of collections by the traveling robot, and the number of links increases. As a result, it can be registered in the search engine index with higher evaluation. I can expect.
[0020]
Note that according to another invention relating to the present invention, in order to achieve the above object, dynamically statically in relation to the system to generate a web page containing the anchor information to the dynamic web pages In a method for synthesizing a web page: referencing a database used to generate a dynamic web page or an equivalent database to determine a URL including an argument representation of the dynamically generated web page; A step of converting the URL into a URL integrated with a path name including an argument not including an argument notation; and a step of generating a web page including the converted URL as anchor information are executed.
[0021]
An equivalent database is, for example, a copy of the original database.
[0022]
This web page is arranged in a default route or the like of a system (web server) that generates the dynamic web page. You may arrange | position to the web server etc. of the same domain name.
[0023]
In this configuration, a static web page including a link to a dynamic web page can be published, and as a result, more dynamic web pages can be targeted by search engine index information by a robot. Be expected.
[0024]
The present invention can be realized not only as an apparatus or a system but also as a method, and at least a part thereof can be implemented as a program.
[0025]
The foregoing aspects of the invention and other aspects of the invention are set forth in the appended claims and will be described in detail below with reference to examples.
[0026]
DETAILED DESCRIPTION OF THE INVENTION
Examples of the present invention will be described below.
[0027]
FIG. 1 shows an embodiment in which the embodiment of the present invention is applied to an electronic commerce system. Of course, it is applicable to various systems. In this embodiment, an already-operated electronic commerce system is adapted using the present invention to construct a new system. Of course, everything may be newly constructed.
[0028]
In FIG. 1, an electronic commerce site 10 of this embodiment is a web-based system, and can be accessed by a client device 40 via a communication network (not shown) such as the Internet. An HTTP request is sent from the client device 40 and a corresponding HTTP response is sent from the electronic commerce site 10. The user can browse transaction contents and execute transactions using the client device 40. The electronic commerce site 10 includes an existing operation system 20, a conversion processing unit 30, a web cache server 31, a category index / site map storage unit 32, and the like added by applying the present invention.
[0029]
The existing operation system 20 generates a dynamic web page, and includes a web server 21, a CGI processing unit 22, a product database 23, and the like as is well known. The existing operation system 20 has been operated alone as an electronic commerce site. In the existing operation, the web server 21 receives the path name of the CGI program (CGI processing unit 22) and the argument to be transferred to it, and transfers the argument to the CGI processing unit 22. The CGI processing unit 22 makes a search request to the product database (database management system) 23 based on the argument, receives the returned search result, and dynamically generates a web page based on the search result to generate the web server 21. To return to.
[0030]
When the web cache server 31 receives an HTTP request from the client device 40 and caches the corresponding HTTP response, the web cache server 31 returns the cached HTTP response to the client device 40 and does not cache the HTTP response. The HTTP request is passed to the web server 21 of the existing operation system 20 via the conversion processing unit 30.
[0031]
As shown in FIG. 2, the conversion processing unit 30 includes functional elements of a path name / argument conversion unit 301, an argument / path name conversion unit 302, and a page conversion unit 303. As shown in FIG. 5A, the HTTP request sent from the web cache server 31 to the path name / argument conversion unit 301 does not include an argument notation in the URL as in the case of requesting a static page. The path name / argument conversion unit 301 converts this URL into one with an argument notation as shown in FIG. 5B and passes it to the web server 21 of the existing operation system 20. As a result, the existing operation system 20 generates a dynamic web page and sends it to the conversion processing unit 30 by an HTTP response. The URL of this HTTP response is accompanied by argument notation.
[0032]
The argument / path name conversion unit 302 of the conversion processing unit 30 integrates the argument notation of the URL (see FIG. 5B) in the HTTP response into the path name, and converts it as shown in FIG. In addition, the page conversion unit 303 of the conversion processing unit 30 converts an element of a dynamic web page, for example, a part marked up with a tag. Specifically, when nothing is included in the title tag or header tag, a character string (for example, a product name, a product category, other product attributes, etc.) serving as a keyword is inserted. When a link (anchor information) including an argument notation is embedded, it is integrated into a path name. Furthermore, a link (anchor information) to a product category page, a site map, or the like is appropriately inserted. This process can be performed by a normal character string replacement process or the like. The HTTP response including the converted URL and page is sent to the client device 40 via the web cache server 31 and simultaneously cached by the web cache server 31. When the argument is a product ID, it is preferably converted into a corresponding character notation (alphabet notation) when integrating the path name. Various processes of the conversion processing unit 30 can be realized by, for example, an ordinary text processing program, and the conversion rules are described by regular expressions, for example.
[0033]
The category index / site map storage unit 32 is arranged under the root directory of the web server 21 and includes a web page group constituting a category index and a web page group constituting a site map. For example, the category index is hierarchically configured from the product top page as shown in FIG. 6 and is linked to reach each product page. The category index and the site map are composed of static web pages, and can be browsed using an HTTP request specifying a normal corresponding path name. The category index / site map storage unit 32 may include a web page of an access ranking list.
[0034]
3 and 4 show how to prepare a static web page to be stored in the category index / site map storage unit 32. FIG. In FIG. 3, the product database 33 is a copy of the product database 23 of FIG. Of course, the product database 23 itself may be used. The product database 33 (same for the product database 23) manages various attributes (product ID, price, manufacturer, color, product category, etc.) related to the product, addresses of image information, and the like. The static page generation unit 35 refers to the configuration of the data record in the product database 33 and generates a web page that forms a category index as shown in FIG. That is, configuration information (including template information, for example) for configuring a static page, such as the configuration of a data record, is stored in the web page configuration information storage unit 34, and the static page generation unit 35 The URL (including argument notation) of a web page (for example, a product page) that is scheduled to be dynamically generated by accessing the product database 33 while referring to the configuration information is specified (step S10 in FIG. 4). This URL is converted into a URL in which an argument is integrated with a path name (step S11), and thereafter, a static web page of a predetermined category hierarchy is generated in which the converted URL is embedded as anchor information (same as above). Step S12). Thereafter, the generated static web page is arranged in the category index / site map storage unit 32 (step S13). This process is executed for all pages of the category index (step S14). Similarly, a static web page of the site map and a static web page of the access ranking table are generated and stored in the category index / site map storage unit 32 in the same manner.
[0035]
The administrator can edit the static web page using the editing unit 36.
[0036]
Note that it is possible to specify up to which path the web cache server 31 caches using the user interface.
[0037]
In this embodiment, when the patrol robot of the search engine fetches the category index and the web page of the site map, the product page is sequentially accessed. Since any page basically does not include “?” In the argument notation in the anchor information, it can be expected that all product pages are captured. Further, since the category index or the web page of the site map and the product page are linked directly or indirectly (via the product category page), it can be expected that a high ranking is given.
[0038]
In this embodiment, the web page of the electronic commerce site 10 is expected to be accessed from a search engine search so that the web page is efficiently registered in the search engine index. In this embodiment, as shown in FIG. 7, the HTTP request log is recorded and managed in the access history storage unit 32, and the referrer information of the HTTP request (the HTTP request made immediately before by the user who accessed the website). Information), the access statistical information generation unit 37 performs statistical processing on the search keyword hit by the website and verifies what is a valid keyword. As a result, the page conversion unit 303 of the conversion processing unit 30 is replaced. It can be used to adapt rules and the like.
[0039]
In addition, this invention is not limited to the above-mentioned Example, A various change is possible. For example, an application server may be used instead of the CGI processing unit. Although the conversion processing unit 30 is arranged on the client side of the web server 21, all or part of the conversion processing unit 30 is included in the web server 21 or replaced with the module, and the web server 21 and the CGI processing unit 22 are included. Of course, it may be arranged between. Moreover, you may comprise the part except the existing operation system 20 among the electronic commerce sites 10 independently.
[0040]
In this embodiment, only the web server 21 is used, but two or more web servers are used, and a static web page in the category index / site map storage unit 32 is taken out by a web server other than the web server 21. good. Moreover, it is not necessary to use a web cache server.
[0041]
In this embodiment, the URL of the dynamic web page that the user has taken out using the existing operation system 20 is registered in the web browsing software, and the newly reconstructed electronic commerce site 10 can be accessed. is assumed. In this case, processing may be performed so that there is no corresponding page, or for an HTTP request accompanied by argument notation, a pre-processing for integrating this into a path name may be performed.
[0042]
In addition, the present invention can be widely applied to systems that dynamically generate web pages, and can be applied to systems other than electronic commerce systems.
[0043]
Moreover, you may make it apply this invention selectively to a part of dynamic web page. Only a part may be viewed as a static web page, and the other part may be handled as a dynamic web page as it is. Such an application part may be specified by a path name using a user interface, for example.
[0044]
Further, the present invention can be widely applied to a document displaying a browsing screen, and it should be understood that a web page widely includes not only an HTML page but also XML, HXML, and the like.
[0045]
【The invention's effect】
As described above, according to the present invention, a document output device that generates a dynamic web page looks as if it is a document output device that generates a static web page from the outside, and the anchor information of each page is further displayed. By holding the embedded page, it can be expected to be registered efficiently in the index of the search engine, and it can also be expected to improve the ranking of search results.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating a configuration of an electronic commerce site according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating the configuration of a conversion processing unit 30 in FIG. 1 as a functional block.
FIG. 3 is a diagram for explaining synthesis of a static web page stored in a category index / site map storage unit 32 in FIG. 1;
4 is a flowchart illustrating an operation and the like of a static page generation unit 35 in FIG.
FIG. 5 is a diagram for explaining a conversion mode of the conversion processing unit 30 in FIG. 1;
6 is a diagram illustrating an example of a static web page stored in a category index / site map storage unit 32 in FIG.
7 is a diagram for explaining an access statistical information generation unit 37 that generates statistical information indicating which keyword search is used to access the electronic commerce site 10 of FIG. 1;
[Explanation of symbols]
10 Electronic Commerce Site 20 Existing Operation System 21 Web Server 22 CGI Processing Unit 23 Product Database 30 Conversion Processing Unit 31 Web Cache Server 32 Access History Storage Unit 32 Category Index / Site Map Storage Unit 33 Product Database 34 Web Page Configuration Information Storage Unit 35 Static page generation unit 36 Editing unit 37 Access statistics information generation unit 40 Client device 301 Path name / argument conversion unit 302 Argument / path name conversion unit 303 Page conversion unit

Claims (6)

受け取ったHTTP要求のURLに含まれる、引数の区切り記号を用いて表記されたプログラムのパス名および引数を用いて文書を生成してHTTP応答により出力するウェブサーバ本体と、
ユーザから送られてくるHTTP要求に含まれる所定のパス名を、引数の区切り記号を用いて表記された、対応するプログラムのパス名および引数に変換してウェブサーバ本体に供給する第1の変換手段と、
上記ウェブサーバ本体から出力されるHTTP応答のURLに含まれる、引数の区切り記号を用いて表記された、プログラムのパス名および引数を、引数の区切り記号を伴わないパス名に変換する第2の変換手段と、
所定のURLをアンカー情報として含む文書であって、
上記所定のURLは、上記ウェブサーバ本体に引き渡されることが予定されるHTTP要求のURLから、当該HTTP要求のURLに含まれる、引数の区切り記号を用いて表記されたプログラムのパス名および引数を、引数の区切り記号を伴わない対応するパス名に変換して形成したURLである、
上記文書を記憶する文書記憶手段と有し、
上記文書記憶手段に記憶された文書をHTTP要求に基づいて出力するようにしたことを特徴とする文書出力装置。
A main body of a web server that generates a document using the path name and the argument of the program described using the argument delimiter included in the URL of the received HTTP request, and outputs the document as an HTTP response;
A first conversion that converts a predetermined path name included in an HTTP request sent from a user into a path name and an argument of a corresponding program written using an argument delimiter and supplies the converted path name and argument to the web server body Means,
A second method for converting a path name and an argument of a program, which are expressed using an argument delimiter included in an HTTP response URL output from the web server main body, into a path name without an argument delimiter. Conversion means;
A document including a predetermined URL as anchor information,
The predetermined URL, the above from the URL of the web server main body H TTP request is Ru is expected to handed over, contained in the URL of the HTTP request, the path name of the program, labeled with the arguments separator and arguments Is converted to a corresponding path name without an argument delimiter ,
And a document storage means for storing the document,
A document output apparatus characterized in that a document stored in the document storage means is output based on an HTTP request.
上記HTTP応答に含まれる文書中の所定のタグによるマークアップ部分を所定のキーワードを追加した文字列に変換する第3の変換手段をさらに有する請求項1記載の文書出力装置。The document output apparatus according to claim 1, further comprising third conversion means for converting a markup portion by a predetermined tag in the document included in the HTTP response into a character string to which a predetermined keyword is added . 上記タグは、タイトルタグおよびヘッダータグである請求項2記載の文書出力装置。  The document output apparatus according to claim 2, wherein the tags are a title tag and a header tag. 上記HTTP要求をキャッシュするキャッシュサーバをさらに有する請求項1、2または3記載の文書出力装置。  4. The document output apparatus according to claim 1, further comprising a cache server that caches the HTTP request. 受け取ったHTTP要求のURLに含まれる、引数の区切り記号を用いて表記されたプログラムのパス名および引数を受け取って文書を生成してHTTP応答により出力するウェブサーバとともに用いられる文書出力適合化装置において
ユーザから送られてくるHTTP要求に含まれる所定のパス名を、引数の区切り記号を用いて表記された、対応するプログラムのパス名および引数に変換してウェブサーバ本体に供給する変換手段と、
所定のURLをアンカー情報として含む文書であって、
上記所定のURLは、上記ウェブサーバ体に引き渡されることが予定されるHTTP要求のURLから、当該HTTP要求のURLに含まれる、引数の区切り記号を用いて表記されたプログラムのパス名および引数を、引数の区切り記号を伴わない対応するパス名に変換して形成したURLである、
上記文書を記憶する文書記憶手段と有し、
上記文書記憶手段に記憶された文書をHTTP要求に基づいて出力するようにしたことを特徴とする文書出力適合化装置。
In a document output adapting apparatus used together with a web server that receives a path name and an argument of a program expressed using an argument delimiter included in the URL of the received HTTP request, generates a document, and outputs it by an HTTP response ,
Conversion means for converting a predetermined path name included in an HTTP request sent from a user into a path name and an argument of a corresponding program expressed using an argument delimiter and supplying the converted path name to the web server body;
A document including a predetermined URL as anchor information,
The predetermined URL is the web server body URL of H TTP requests that will be scheduled to be delivered, in the URL of the HTTP request, the path name of the program, labeled with the arguments separator and arguments Is converted to a corresponding path name without an argument delimiter ,
Includes a document storage means for storing the document,
A document output adaptation device characterized in that a document stored in the document storage means is output based on an HTTP request.
上記ウェブサーバ本体から出力されるHTTP応答のURLに含まれる、引数の区切り記号を用いて表記された、プログラムのパス名および引数を、引数の区切り記号を伴わないパス名に変換する変換手段をさらに有する請求項5記載の文書出力適合化装置。  Conversion means for converting a program path name and an argument included in an HTTP response URL output from the web server body into a path name without an argument delimiter. The document output adaptation device according to claim 5, further comprising:
JP2002345034A 2002-11-28 2002-11-28 Document output apparatus and static web page composition method used therefor Expired - Fee Related JP3732826B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002345034A JP3732826B2 (en) 2002-11-28 2002-11-28 Document output apparatus and static web page composition method used therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002345034A JP3732826B2 (en) 2002-11-28 2002-11-28 Document output apparatus and static web page composition method used therefor

Publications (2)

Publication Number Publication Date
JP2003114891A JP2003114891A (en) 2003-04-18
JP3732826B2 true JP3732826B2 (en) 2006-01-11

Family

ID=19197842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002345034A Expired - Fee Related JP3732826B2 (en) 2002-11-28 2002-11-28 Document output apparatus and static web page composition method used therefor

Country Status (1)

Country Link
JP (1) JP3732826B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4496033B2 (en) * 2004-07-29 2010-07-07 ニフティ株式会社 Search support program
JP5135174B2 (en) * 2008-11-13 2013-01-30 日本電信電話株式会社 Large-scale WEB site evaluation apparatus, large-scale WEB site evaluation method, and large-scale WEB site evaluation program
JP5430128B2 (en) * 2008-11-21 2014-02-26 三菱電機株式会社 URL conversion apparatus, URL conversion method, URL conversion program, and Web information collection system

Also Published As

Publication number Publication date
JP2003114891A (en) 2003-04-18

Similar Documents

Publication Publication Date Title
US7315834B2 (en) Wish list
US7596533B2 (en) Personalized multi-service computer environment
US6625624B1 (en) Information access system and method for archiving web pages
US6718365B1 (en) Method, system, and program for ordering search results using an importance weighting
CN103685604B (en) A kind of domain name pre-parsed method and device
US20100114864A1 (en) Method and system for search engine optimization
US20060031751A1 (en) Method for creating editable web sites with increased performance &amp; stability
JP4716778B2 (en) Proxy processing system and proxy processing method
EP1446734A2 (en) Method, system, and software for transmission of information
US6931428B2 (en) Method and apparatus for handling requests for content in a network data processing system
JP4282312B2 (en) Web server, Web server having Java servlet function, and computer program
US20110153583A1 (en) Url proxy method and apparatus
EP1039396A2 (en) Information access system and method for providing a personal portal
JP3732826B2 (en) Document output apparatus and static web page composition method used therefor
US7085801B1 (en) Method and apparatus for printing web pages
Liu et al. Deployment of personalized e-catalogues: An agent-based framework integrated with XML metadata and user models
JP2000285052A (en) Url conversion method and device
US7275085B1 (en) Method and apparatus for maintaining state information for web pages using a directory server
US20060184655A1 (en) Traffic analysis
JP4259858B2 (en) WWW site history search device, method and program
JPWO2001093054A1 (en) Web page transmission system, web page transmission method, and recording medium
JP2002207655A (en) Method, program, and system for information integration
JP5088269B2 (en) Screen information management method
JP2005071319A (en) Keyword acquiring device for homepage
Qiu et al. Managing metadata over the WWW using eXtensible markup language (XML)[for electric power industry]

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050615

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051013

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091021

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101021

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101021

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101021

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101021

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111021

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees