JP2009140089A - ウェブコンテンツに検索用キーワードを付加するシステムおよび方法 - Google Patents

ウェブコンテンツに検索用キーワードを付加するシステムおよび方法 Download PDF

Info

Publication number
JP2009140089A
JP2009140089A JP2007313903A JP2007313903A JP2009140089A JP 2009140089 A JP2009140089 A JP 2009140089A JP 2007313903 A JP2007313903 A JP 2007313903A JP 2007313903 A JP2007313903 A JP 2007313903A JP 2009140089 A JP2009140089 A JP 2009140089A
Authority
JP
Japan
Prior art keywords
web content
keyword
server
web
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007313903A
Other languages
English (en)
Inventor
Kazuhisa Misono
和久 美園
Naoya Yamamoto
直哉 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2007313903A priority Critical patent/JP2009140089A/ja
Priority to US12/325,593 priority patent/US20090144231A1/en
Publication of JP2009140089A publication Critical patent/JP2009140089A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

【課題】検索キーとして有用なキーワードを自動的にウェブページに追加することで、検索システムによる検索でのウェブページの見つかりやすさ(ヒット率)を向上させる。
【解決手段】ウェブコンテンツを取得するウェブコンテンツ取得部110と、ウェブコンテンツに対して任意に関連付けられたキーワードをSBM(ソーシャル・ブックマーク)サーバ300からキーワードを取得するキーワード取得部120と、このウェブコンテンツ取得部110により取得されたウェブコンテンツに、キーワード取得部120により取得されたキーワードを付加するキーワード付加部130と、キーワードが付加されたウェブコンテンツを、ウェブコンテンツの検索サービスを提供する検索サーバ400からのウェブコンテンツの取得要求に応じて送信する送信部140と、を備える。
【選択図】図3

Description

本発明は、インターネット上の検索システムでウェブコンテンツを検索する際等に使用されるキーワードをウェブコンテンツに付加するシステムおよびその方法に関する。
インターネットで情報を検索する際には、通常、任意の単語やフレーズを検索キーとしてウェブページやコンテンツを検索できる検索システム(検索エンジン)が利用される。検索システムでは、クローラ等を用いて自動収集されたウェブページにメタ情報として記録されたキーワードやウェブページの本文に含まれる語句等が検索キーとして用いられる。そこで、ウェブページを多くの人の閲覧に供するためには、そのウェブページを閲覧しようとする人が選択すると想定されるキーワードを、できるだけ多くメタ情報に記録しておくことが効果的である。
また近年、ソーシャル・ブックマークと呼ばれるサービスがインターネット上で提供されている(例えば、非特許文献1参照)。ウェブブラウザには、何度も閲覧するウェブページのURL(Uniform Resource Locator)を記録しておく、いわゆる「ブックマーク」と呼ばれる機能がある。ソーシャル・ブックマークは、この「ブックマーク」の機能をインターネット上のウェブサイトにおいて提供し、他者との共有を可能にするサービスである。このソーシャル・ブックマークでは、登録したウェブページに対して「タグ」と呼ばれる分類用の語句を登録者が付加することができる。ソーシャル・ブックマークの利用者は、同一URLを登録している他人のブックマークを観たり、同一タグで分類されている他人のブックマークを観たりして、同じ指向のウェブページを探すことができる。
山田 聖裕、「第2回 ブラウザのお気に入りをネットで共有する「ソーシャルブックマーク」」、[online]、ITpro、日経BP社、2006/8/22、[平成19年11月16日検索]、インターネット<URL : http://itpro.nikkeibp.co.jp/article/COLUMN/20060817/245851/>
上述したように、ウェブページを多くの人の閲覧に供するためには、検索システムによる検索において様々な検索キーで見つかる(ヒットする)ようにすることが効果的である。しかし、閲覧者がウェブページの内容と関連すると考えるキーワードは多岐にわたる。そのため、そのような有用なキーワードの全てをウェブページの作成者が予め想定してウェブページに付加しておくことは不可能である。
また、上記のソーシャル・ブックマークでは、ウェブページにタグを付加することで、ウェブページの閲覧者が主体的にウェブページを分類し、他者の検索に役立てることができる。しかしこの場合、タグによるウェブページの検索は、そのタグが付加されたソーシャル・ブックマークでのみ行うことができる。すなわち、ソーシャル・ブックマークにおいて所定のウェブページに有用なタグが付加されていたとしても、その語句を検索キーとして、一般の検索システムで当該ウェブページを直接検索することはできない。
本発明は、以上の課題に鑑みて成されたものであり、その目的は、検索キーとして有用なキーワードを自動的にウェブページに追加することで、検索システムによる検索でのウェブページの見つかりやすさ(ヒット率)を向上させるシステムおよびその方法を提供することにある。
上記の目的を達成するため、本発明は、次のようなシステムとして構成される。このシステムは、ウェブコンテンツを取得するウェブコンテンツ取得部と、ウェブコンテンツに対して任意に関連付けられたキーワードを管理する管理サーバからキーワードを取得するキーワード取得部と、このウェブコンテンツ取得部により取得されたウェブコンテンツに、キーワード取得部により取得されたキーワードを付加するキーワード付加部と、キーワードが付加されたウェブコンテンツを、ウェブコンテンツの検索サービスを提供する検索サーバからのウェブコンテンツの取得要求に応じて送信する送信部と、を備える。
上記のシステムにおいて、ウェブコンテンツ取得部、キーワード取得部、キーワード付加部、送信部は、ウェブコンテンツを提供するウェブサーバの機能として実現しても良い。また、ウェブコンテンツを提供するウェブサーバと検索サーバとの間で行われるウェブコンテンツの取得要求および応答を中継する中継サーバの機能として実現しても良い。後者の場合、ウェブコンテンツ取得部は、ウェブサーバからウェブコンテンツを取得する。
より詳細には、キーワード取得部は、管理サーバであるソーシャル・ブックマーク・サーバから、ソーシャル・ブックマークにおいてウェブコンテンツに付加されているタグをキーワードとして取得する。
また、キーワード付加部は、ウェブコンテンツのヘッダに記載されるメタ情報として、キーワードを付加する。
また、本発明は、ウェブコンテンツを提供するウェブサーバとしても実現される。このウェブサーバは、ウェブコンテンツの検索サービスを提供する検索サーバからのウェブコンテンツの取得要求に応じて、この取得要求に係るウェブコンテンツを提供するウェブコンテンツ提供部と、このウェブコンテンツ提供部により提供されたウェブコンテンツを取得するウェブコンテンツ取得部と、ウェブコンテンツに対して任意に関連付けられたキーワードを管理する管理サーバからキーワードを取得するキーワード取得部と、ウェブコンテンツ取得部により取得されたウェブコンテンツに、キーワード取得部により取得されたキーワードを付加するキーワード付加部と、キーワードが付加されたウェブコンテンツを検索サーバに送信する送信部と、を備える。
さらに本発明は、ウェブコンテンツの処理方法としても実現される。この方法は、ウェブコンテンツを取得し記憶手段に格納するステップと、ウェブコンテンツに対して任意に関連付けられたキーワードを管理する管理サーバからキーワードを取得するステップと、記憶手段に格納されたウェブコンテンツに対して、このウェブコンテンツのヘッダに記載されるメタ情報として、管理サーバから取得されたキーワードを付加するステップと、キーワードが付加されたウェブコンテンツを、ウェブコンテンツの検索サービスを提供する検索サーバからのウェブコンテンツの取得要求に応じて送信するステップと、を含む。
また、本発明は、コンピュータを制御して上記のシステムの機能を実現させるプログラムや、上記の処理方法における各ステップに相当する処理をコンピュータに実行させるプログラムとしても実現される。このプログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記憶媒体に格納して配布したり、ネットワークを介して配信したりすることにより、提供することができる。
以上のように構成された本発明によれば、検索キーとして有用なキーワードを自動的にウェブページに追加することで、検索システムによる検索でのウェブページの見つかりやすさ(ヒット率)を向上させることができる。
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
<システム構成>
図1は、本実施形態によるウェブページの処理システムを概略的に示す図である。
図1において、処理サーバ100は、所定のウェブページに関連するキーワードを取得し、ウェブページに自動的に付加するサーバである。ウェブサーバ200は、ウェブコンテンツ(ウェブページを含む)を提供するサーバである。ウェブコンテンツは、ウェブサーバ200に設けられた磁気ディスク装置等の記憶手段に格納されていても良いし、アクセス要求を受け取った際に動的に生成されるものであっても良い。SBM(ソーシャル・ブックマーク)サーバ300は、インターネット上でブックマークを共有するソーシャル・ブックマーク・サービスを提供するサーバである。ソーシャル・ブックマーク・サービスにおいては、登録されたウェブコンテンツに対して登録者が任意の語句を関連付け、タグとして付加することができる。SBMサーバ300は、このタグをウェブコンテンツに関連するキーワードとして管理する。検索サーバ400は、検索エンジンにより任意の語句を検索キーとしてウェブコンテンツを検索するサービスを提供するサーバである。この検索サーバ400は、クローラ等の検索ロボットやウェブブラウザの機能によりインターネット上のサイトを巡回し、ウェブコンテンツの情報を収集している。
処理サーバ100は、ウェブサーバ200からウェブコンテンツを取得する(図中の矢印(a))。また、処理サーバ100は、取得したウェブコンテンツに関連するキーワード情報をSBMサーバ300から取得する(図中の矢印(b))。このキーワード情報は、SBMサーバ300においてウェブコンテンツに付加されているタグを含む。そして、処理サーバ100は、取得したキーワード情報に含まれるタグを、検索用キーワードとしてウェブコンテンツに付加して、検索サーバ400へ送る(図中の矢印(c))。
図2は、図1に示した処理サーバ100、ウェブサーバ200、SBMサーバ300、検索サーバ400を実現するコンピュータのハードウェア構成例を示す図である。
図2に示すコンピュータ10は、演算手段であるCPU(Central Processing Unit)10aと、記憶手段であるメイン・メモリ10cおよび磁気ディスク装置(HDD:Hard Disk Drive)10gを備える。また、ネットワークを介して外部装置に接続するためのネットワーク・インタフェース・カード10fと、表示出力を行うためのビデオ・カード10dおよび表示装置10jと、音声出力を行うための音声機構10hとを備える。さらに、キーボードやマウス等の入力デバイス10iを備える。
図2に示すように、メイン・メモリ10cおよびビデオ・カード10dは、システム・コントローラ10bを介してCPU10aに接続されている。また、ネットワーク・インタフェース・カード10f、磁気ディスク装置10g、音声機構10hおよび入力デバイス10iは、I/Oコントローラ10eを介してシステム・コントローラ10bと接続されている。各構成要素は、システム・バスや入出力バス等の各種のバスによって接続される。例えば、CPU10aとメイン・メモリ10cの間は、システム・バスやメモリ・バスにより接続される。また、CPU10aと磁気ディスク装置10g、ネットワーク・インタフェース・カード10f、ビデオ・カード10d、音声機構10h、入力デバイス10i等との間は、PCI(Peripheral Components Interconnect)、PCI Express、シリアルATA(AT Attachment)、USB(Universal Serial Bus)、AGP(Accelerated Graphics Port)等の入出力バスにより接続される。
なお、図2は、本実施形態が適用されるのに好適なPCのハードウェア構成を例示するに過ぎず、実際の各サーバが図示の構成に限定されないことは言うまでもない。例えば、ビデオ・カード10dを設ける代わりに、ビデオメモリのみを搭載し、CPU10aにてイメージ・データを処理する構成としても良い。また、音声機構10hを独立した構成とせず、システム・コントローラ10bやI/Oコントローラ10eを構成するチップセットの機能として備えるようにしても良い。また、補助記憶装置として磁気ディスク装置10gの他に、各種の光学ディスクやフレキシブル・ディスクをメディアとするドライブを設けても良い。表示装置10jとしては、主として液晶ディスプレイが用いられるが、その他、CRTディスプレイやプラズマ・ディスプレイ等、任意の方式のディスプレイを用いて良い。また、詳しくは後述するが、本実施形態の処理サーバ100は、独立のハードウェアにて実現されても良いし、ウェブサーバ200と共通のハードウェアにて実現されても良い。
<処理サーバの機能>
図3は、処理サーバ100の機能構成を示す図である。
図3に示すように、処理サーバ100は、ウェブコンテンツを取得するウェブコンテンツ取得部110と、キーワードを取得するキーワード取得部120とを備える。また、ウェブコンテンツに検索用キーワードを付加するキーワード付加部130とを備える。さらに、キーワードが埋め込まれたウェブコンテンツを検索サーバ400へ送信する送信部140と、ソーシャル・ブックマークのリストおよびキーワードを埋め込む対象のウェブコンテンツの管理情報を保持する記憶部150とを備える。記憶部150に保持されるウェブコンテンツの管理情報は、例えばウェブコンテンツのURLやウェブサーバ200のリストである。また、ウェブコンテンツ自体を蓄積しても良い。
これらの機能は、例えば、処理サーバ100が図2に示したコンピュータ10により構成される場合、プログラム制御されたCPU10aとメイン・メモリ10cとで実現される。プログラムは、磁気ディスク装置10g等に格納されており、メイン・メモリ10cに読み出され、CPU10aにより実行される。また、記憶部150は、例えば磁気ディスク装置10g等の記憶手段で実現される。
ウェブコンテンツ取得部110は、ウェブサーバ200からウェブコンテンツを取得する。ウェブコンテンツは、定期的に所定のウェブサーバ200を巡回して取得しても良いし、検索サーバ400のウェブブラウザや検索ロボットから情報収集のための要求を受け付けたタイミングで、この要求で指定されているURLを用いてウェブサーバ200にアクセスし取得しても良い。また、ウェブサーバ200から送られたウェブコンテンツを受動的に受け付けても良い。記憶部150にウェブコンテンツ自体が蓄積されている場合は、記憶部150から所望のウェブコンテンツを読み出して取得しても良い。ウェブサーバ200は、磁気ディスク装置10g等の記憶手段にウェブコンテンツを格納しておき、ウェブコンテンツ取得部110からの要求に応じて、該当するウェブコンテンツを記憶手段から読み出して提供する。また、CGI(Common Gateway Interface)やJavaサーブレット、ウェブサービスの仕組み等を利用して、ウェブコンテンツ取得部110からの要求に応じて、ウェブコンテンツを動的に生成し、提供するようにしても良い。ウェブコンテンツ取得部110が取得したウェブコンテンツは、処理サーバ100におけるメイン・メモリ10cや磁気ディスク装置10g等の記憶手段に格納される。
キーワード取得部120は、SBMサーバ300から所望のウェブコンテンツに関するキーワード(タグ)情報を取得して、ウェブコンテンツに埋め込むキーワードのリスト(キーワード・リスト)を生成する。このキーワード取得部120は、記憶部150に保持されているSBMサーバ300のリストに基づいてSBMサーバ300にアクセスし、キーワード情報を取得する。キーワード情報の取得は、定期的にリストに登録されたSBMサーバ300を巡回して行っても良いし、検索サーバ400のウェブブラウザや検索ロボットから情報収集のための要求を受け付けたタイミングで行っても良い。前者の場合は、生成されたキーワード・リストを記憶部150等の記憶手段に保持しておく。また後者の場合は、検索サーバ400から受け付けた要求において指定されているURLを用いて、SBMサーバ300から該当するウェブコンテンツのキーワード情報を取得することとなる。生成されたキーワード・リストは、処理サーバ100におけるメイン・メモリ10cや磁気ディスク装置10g等の記憶手段に格納される。
通常、SBMサーバ300は、キーワード情報の取得要求に対して、次のいずれかの情報を返す機能を備えている。

1.ブックマークを作成したユーザと、そのブックマークに付加したタグの一覧
2.取得要求で指定されたURLに対して付加されたタグの一覧と、そのタグが付加された回数

1の場合であれば、タグごとにユーザ数を集計し、2の場合であれば、取得した情報をそのまま用いることで、取得要求で指定されるURLに関して{タグ、そのタグが付けられた回数}という形式のデータが得られる。
図4は、SBMサーバ300から取得されるキーワード情報の具体例を示す図である。
図4に示す例では、キーワード情報に、所定のウェブコンテンツに対してタグが付加された回数("count")とタグの一覧("bookmarks")が含まれている。タグの一覧には、コメント("comment")、タグが付加された日時("timestamp")、タグを付加したユーザ("user")、付加されたタグの語句("tags")の各項目が記録されている。
また、キーワード取得部120は、必要に応じて、不要な語句をキーワード・リストから除外する、どのSBMサーバ300から取得したかに応じてキーワード・リスト内で語句の順序づけを行う、タグが付加された回数が少ない(一定回数以下)語句をキーワード・リストから除外する、などの加工を行う。このような加工を行うことにより、例えば、ソーシャル・ブックマークにおいてはタグとして付加されているが、ウェブコンテンツの作成者はウェブコンテンツの内容と関連付けることが好ましくないと考える語句等をキーワード・リストから除くことができる。
キーワード付加部130は、ウェブコンテンツ取得部110により取得されたウェブコンテンツに対して、キーワード取得部120により取得され必要に応じて加工されたキーワード・リストのキーワードを埋め込む。キーワードは、ウェブコンテンツのヘッダに記載されるメタ情報として付加される。これにより、上記の記憶手段に格納されているウェブコンテンツが、新たなキーワードが追加されたウェブコンテンツに書き換えられる。キーワードが追加されたウェブコンテンツは、処理サーバ100におけるメイン・メモリ10cや磁気ディスク装置10g等の記憶手段に格納される。
検索サーバ400の検索ロボットは、HTMLファイルの<HEAD>〜</HEAD>の間に記述された要素の中から、name属性が“Keywords”である<META>要素を探す。そして、見つかった<META>要素のcontent属性に指定された値をカンマ区切りのキーワードのリストとして解釈し、検索エンジンでのインデックスの作成に利用する。そこで、キーワード付加部130は、次のようにして、ウェブコンテンツにキーワードを埋め込む。
図5は、キーワード付加部130の動作を説明するフローチャートである。
図5に示すように、キーワード付加部130は、まず処理対象のウェブコンテンツ(HTML文書)を解析し、<head>要素内の<meta>要素のうちでname属性の値が“Keywords”であるものを探す(ステップ501)。そのような<meta>要素が存在する場合(ステップ502でYes)、その<meta>要素のcontent属性に、SBMサーバ300から取得し加工したキーワード・リストを追加する(ステップ503)。このとき、<meta>要素に既に記載されている元のキーワードのリストに対して、新たなキーワード・リストをどのように統合するか(先頭に追加、末尾に追加、特定の方法(例えばアイウエオ順)で並べ替える等)は任意である。
一方、name属性の値が“Keywords”である<meta>要素が存在しない場合(ステップ502でNo)、<head>要素の直後に新しく<meta>要素を追加し、name属性を“Keywords”とする(ステップ504)。そして、追加した<meta>要素のcontent属性に、SBMサーバ300から取得し加工したキーワード・リストを記載する(ステップ505)。
図6および図7は、キーワード付加部130により、ウェブコンテンツの<head>要素の<meta>要素にキーワードが追加される様子を示す図である。図6は、ウェブコンテンツの作成者が作成したオリジナルの状態の<head>要素を示す。図7は、SBMサーバ300から取得したキーワード情報に基づく新たなキーワード・リストを追加した状態を示す。
図6を参照すると、name属性の値が“Keywords”である<meta>要素が複数存在し、そのうちの一つ(破線で囲んだ<meta>要素)は、"(公序良俗違反につき、不掲載),トップページ,オンデマンド,ソリューション,製品,サービス,サポート,ショッピング,会社情報,採用情報,サイトマップ"、となっている。
一方、図7を参照すると、上記の<meta>要素の内容は、"(公序良俗違反につき、不掲載),トップページ,オンデマンド,ソリューション,製品,サービス,サポート,ショッピング,会社情報,採用情報,サイトマップ,メーカー,PC,企業,サーバー,IT,Enterprise"、となっている。すなわち、太字かつ斜体字で記載された、「メーカー」、「PC」、「企業」、「サーバー」、「IT」、「Enterprise」というキーワードが追加されている。
送信部140は、キーワード付加部130により新たなキーワードが追加されたウェブコンテンツを、検索サーバ400からのウェブコンテンツの取得要求に応じて記憶手段から読み出し、検索サーバ400に送信する。すなわち、検索サーバ400は、ウェブサーバ200により提供されるオリジナルのウェブコンテンツではなく、処理サーバ100により処理されたウェブコンテンツを取得することとなる。これにより、この後、検索サーバ400においては、追加されたキーワードを検索キーとする検索でも、このウェブコンテンツが見つかる(ヒットする)こととなる。
<実施態様>
図1においては、個々のサーバの役割を明確にするため、処理サーバ100を独立に記載した。しかし、実際のシステム構成としては、様々な態様で処理サーバ100を導入することができる。代表的な例としては、ウェブサーバ200のプラグイン機能として実現する場合と、ウェブサーバ200と検索サーバ400との間の送受信を中継するプロキシ・サーバの機能として実現する場合とがある。
図8は、処理サーバ100の機能をウェブサーバ200のプラグイン機能として実現する場合の構成例を示す図である。
図8に示す構成では、検索サーバ400のウェブブラウザや検索ロボットは、ウェブサーバ200に対して、URLを指定しウェブコンテンツを要求する。ウェブサーバ200は、ウェブコンテンツと提供するためのウェブコンテンツ提供部210を備えている。そして、検索サーバ400からの取得要求を受け付けると、ウェブコンテンツ提供部210が、取得要求において指定されたURLおよびこのURLのウェブコンテンツを処理サーバ100に渡す。このウェブコンテンツは、記憶装置から読み出しても良いし、検索サーバ400からの取得要求に応じて動的に生成しても良い。
処理サーバ100は、受け取ったウェブコンテンツにキーワードを埋め込み、取得要求の送信元である検索サーバ400に返送する。ウェブコンテンツに埋め込まれるキーワードは、URLおよびウェブコンテンツを受け取った時点で、キーワード取得部120により取得しても良いし、キーワード取得部120が予め取得し保持しておいても良い。
図9は、処理サーバ100をプロキシ・サーバの機能として実現する場合の構成例を示す図である。
図9に示す例では、検索サーバ400のウェブブラウザや検索ロボットから送信されたウェブコンテンツの取得要求は、プロキシ・サーバである処理サーバ100を介してウェブサーバ200に取得される。ウェブサーバ200は、この取得要求を受け付けると、指定されたURLおよびこのURLのウェブコンテンツを処理サーバ100へ返送する。このウェブコンテンツは、記憶装置から読み出しても良いし、動的に生成しても良い。
処理サーバ100は、ウェブサーバ200から受け取ったウェブコンテンツにキーワードを埋め込み、取得要求の送信元である検索サーバ400に返送する。ウェブコンテンツに埋め込まれるキーワードは、URLおよびウェブコンテンツを受け取った時点で、キーワード取得部120により取得しても良いし、キーワード取得部120が予め取得し保持しておいても良い。
本実施形態によるウェブページの処理システムを概略的に示す図である。 図1に示した処理サーバ、ウェブサーバ、SBMサーバ、検索サーバを実現するコンピュータのハードウェア構成例を示す図である。 本実施形態の処理サーバの機能構成を示す図である。 本実施形態においてSBMサーバから取得されるキーワード情報の具体例を示す図である。 本実施形態のキーワード付加部の動作を説明するフローチャートである。 本実施形態のキーワード付加部により、ウェブコンテンツの<head>要素の<meta>要素にキーワードが追加される様子を示す図であり、オリジナルの<head>要素を示す図である。 本実施形態のキーワード付加部により、ウェブコンテンツの<head>要素の<meta>要素にキーワードが追加される様子を示す図であり、キーワードが追加された<head>要素を示す図である。 本実施形態の処理サーバの機能をウェブサーバのプラグイン機能として実現する場合の構成例を示す図である。 本実施形態の処理サーバの機能をプロキシ・サーバの機能として実現する場合の構成例を示す図である。
符号の説明
100…処理サーバ、110…ウェブコンテンツ取得部、120…キーワード取得部、130…キーワード付加部、140…送信部、150…記憶部、200…ウェブサーバ、300…SBM(ソーシャル・ブックマーク)サーバ、400…検索サーバ

Claims (13)

  1. ウェブコンテンツを取得し記憶手段に格納するウェブコンテンツ取得部と、
    前記ウェブコンテンツに対して任意に関連付けられたキーワードを管理する管理サーバから当該キーワードを取得するキーワード取得部と、
    前記ウェブコンテンツ取得部により取得され前記記憶手段に格納された前記ウェブコンテンツに、前記キーワード取得部により取得された前記キーワードを付加するキーワード付加部と、
    前記キーワード付加部により前記キーワードが付加されたウェブコンテンツを、ウェブコンテンツの検索サービスを提供する検索サーバからのウェブコンテンツの取得要求に応じて送信する送信部と、
    を備えるシステム。
  2. 前記ウェブコンテンツ取得部、前記キーワード取得部、前記キーワード付加部、前記送信部は、前記ウェブコンテンツを提供するウェブサーバの機能として実現される、請求項1に記載のシステム。
  3. 前記ウェブコンテンツ取得部、前記キーワード取得部、前記キーワード付加部、前記送信部は、前記ウェブコンテンツを提供するウェブサーバと前記検索サーバとの間で行われるウェブコンテンツの取得要求および応答を中継する中継サーバの機能として実現され、
    前記ウェブコンテンツ取得部は、前記ウェブサーバから前記ウェブコンテンツを取得する、請求項1に記載のシステム。
  4. 前記キーワード取得部は、前記管理サーバであるソーシャル・ブックマーク・サーバから、ソーシャル・ブックマークにおいて前記ウェブコンテンツに付加されているタグを前記キーワードとして取得する、請求項1に記載のシステム。
  5. 前記キーワード付加部は、ウェブコンテンツのヘッダに記載されるメタ情報として、前記キーワードを付加する、請求項1に記載のシステム。
  6. 前記キーワード取得部は、前記検索サーバからのウェブコンテンツの取得要求を受け付けた場合に、当該取得要求において指定されているウェブページに関連付けられた前記キーワードを前記管理サーバから取得する、請求項1に記載のシステム。
  7. 前記キーワード取得部は、所定のタイミングで、特定のウェブコンテンツに関連付けられた前記キーワードを前記管理サーバから取得し、
    前記キーワード付加部は、所定のタイミングで、前記キーワード取得部により取得された前記キーワードを前記特定のウェブコンテンツに付加し、当該キーワードが付加されたウェブコンテンツを記憶手段に保持し、
    前記送信部は、前記検索サーバからのウェブコンテンツの取得要求を受け付けた場合に、前記記憶手段に保持されている前記キーワードが付加されたウェブコンテンツを当該検索サーバへ送信する、請求項1に記載のシステム。
  8. ウェブコンテンツを提供するウェブサーバにおいて、
    ウェブコンテンツの検索サービスを提供する検索サーバからのウェブコンテンツの取得要求に応じて、当該取得要求に係るウェブコンテンツを提供するウェブコンテンツ提供部と、
    前記ウェブコンテンツ提供部により提供されたウェブコンテンツを取得し記憶手段に格納するウェブコンテンツ取得部と、
    前記ウェブコンテンツに対して任意に関連付けられたキーワードを管理する管理サーバから当該キーワードを取得するキーワード取得部と、
    前記ウェブコンテンツ取得部により取得され前記記憶手段に格納された前記ウェブコンテンツに、前記キーワード取得部により取得された前記キーワードを付加するキーワード付加部と、
    前記キーワード付加部により前記キーワードが付加されたウェブコンテンツを前記検索サーバに送信する送信部と、
    を備えるウェブサーバ。
  9. 前記キーワード取得部は、前記管理サーバであるソーシャル・ブックマーク・サーバから、ソーシャル・ブックマークにおいて前記ウェブコンテンツに付加されているタグを前記キーワードとして取得する、請求項8に記載のウェブサーバ。
  10. 前記キーワード付加部は、ウェブコンテンツのヘッダに記載されるメタ情報として、前記キーワードを付加する、請求項8に記載のウェブサーバ。
  11. ウェブコンテンツの処理方法であって、
    ウェブコンテンツを取得し記憶手段に格納するステップと、
    前記ウェブコンテンツに対して任意に関連付けられたキーワードを管理する管理サーバから当該キーワードを取得するステップと、
    前記記憶手段に格納された前記ウェブコンテンツに対して、当該ウェブコンテンツのヘッダに記載されるメタ情報として、前記キーワードを付加するステップと、
    前記キーワードが付加されたウェブコンテンツを、ウェブコンテンツの検索サービスを提供する検索サーバからのウェブコンテンツの取得要求に応じて送信するステップと、
    を含む方法。
  12. 前記キーワードを取得するステップでは、前記管理サーバであるソーシャル・ブックマーク・サーバから、ソーシャル・ブックマークにおいて前記ウェブコンテンツに付加されているタグを前記キーワードとして取得する、請求項11に記載の方法。
  13. コンピュータを、
    ウェブコンテンツを取得し記憶手段に格納するウェブコンテンツ取得手段と、
    前記ウェブコンテンツに対して任意に関連付けられたキーワードを管理する管理サーバから当該キーワードを取得するキーワード取得手段と、
    前記ウェブコンテンツ取得手段により取得され前記記憶手段に格納された前記ウェブコンテンツに、前記キーワード取得手段により取得された前記キーワードを付加するキーワード付加手段と、
    前記キーワード付加手段により前記キーワードが付加されたウェブコンテンツを、ウェブコンテンツの検索サービスを提供する検索サーバからのウェブコンテンツの取得要求に応じて送信する送信手段として、
    動作させるプログラム。
JP2007313903A 2007-12-04 2007-12-04 ウェブコンテンツに検索用キーワードを付加するシステムおよび方法 Pending JP2009140089A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007313903A JP2009140089A (ja) 2007-12-04 2007-12-04 ウェブコンテンツに検索用キーワードを付加するシステムおよび方法
US12/325,593 US20090144231A1 (en) 2007-12-04 2008-12-01 System and Method for Adding Search Keywords to Web Content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007313903A JP2009140089A (ja) 2007-12-04 2007-12-04 ウェブコンテンツに検索用キーワードを付加するシステムおよび方法

Publications (1)

Publication Number Publication Date
JP2009140089A true JP2009140089A (ja) 2009-06-25

Family

ID=40676762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007313903A Pending JP2009140089A (ja) 2007-12-04 2007-12-04 ウェブコンテンツに検索用キーワードを付加するシステムおよび方法

Country Status (2)

Country Link
US (1) US20090144231A1 (ja)
JP (1) JP2009140089A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014067374A (ja) * 2012-09-27 2014-04-17 Konami Digital Entertainment Co Ltd 検索用インデックス構築装置、検索用インデックス構築方法、及び、検索用インデックス構築装置のプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005071319A (ja) * 2003-08-01 2005-03-17 Toshiyuki Yamamoto ホームページ用キーワード取得装置
JP2005209020A (ja) * 2004-01-23 2005-08-04 Sony Corp 属性情報提供システム,属性情報管理装置,利用者端末,属性情報管理方法,およびコンピュータプログラム
JP2007133809A (ja) * 2005-11-14 2007-05-31 Canon Inc 情報処理装置、コンテンツ処理方法、記憶媒体およびプログラム
JP2007272390A (ja) * 2006-03-30 2007-10-18 Sony Corp リソース管理装置、タグ候補選定方法及びタグ候補選定プログラム
JP2007286768A (ja) * 2006-04-13 2007-11-01 Shigetoshi Fumiki 情報提供システム及び情報提供プログラム、並びにサーバ装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6725227B1 (en) * 1998-10-02 2004-04-20 Nec Corporation Advanced web bookmark database system
US7747937B2 (en) * 2005-08-16 2010-06-29 Rojer Alan S Web bookmark manager
US20070124208A1 (en) * 2005-09-20 2007-05-31 Yahoo! Inc. Method and apparatus for tagging data
JP2007233856A (ja) * 2006-03-02 2007-09-13 Sony Corp 情報処理装置、情報処理システム、および方法、並びにコンピュータ・プログラム
US8112703B2 (en) * 2006-07-21 2012-02-07 Yahoo! Inc. Aggregate tag views of website information
US9858341B2 (en) * 2006-08-02 2018-01-02 Jason Frankovitz Method and apparatus for remotely monitoring a social website
US20090063265A1 (en) * 2007-09-04 2009-03-05 Yahoo! Inc. Information network for text ads
US7953731B2 (en) * 2007-11-19 2011-05-31 Cisco Technology, Inc. Enhancing and optimizing enterprise search

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005071319A (ja) * 2003-08-01 2005-03-17 Toshiyuki Yamamoto ホームページ用キーワード取得装置
JP2005209020A (ja) * 2004-01-23 2005-08-04 Sony Corp 属性情報提供システム,属性情報管理装置,利用者端末,属性情報管理方法,およびコンピュータプログラム
JP2007133809A (ja) * 2005-11-14 2007-05-31 Canon Inc 情報処理装置、コンテンツ処理方法、記憶媒体およびプログラム
JP2007272390A (ja) * 2006-03-30 2007-10-18 Sony Corp リソース管理装置、タグ候補選定方法及びタグ候補選定プログラム
JP2007286768A (ja) * 2006-04-13 2007-11-01 Shigetoshi Fumiki 情報提供システム及び情報提供プログラム、並びにサーバ装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014067374A (ja) * 2012-09-27 2014-04-17 Konami Digital Entertainment Co Ltd 検索用インデックス構築装置、検索用インデックス構築方法、及び、検索用インデックス構築装置のプログラム

Also Published As

Publication number Publication date
US20090144231A1 (en) 2009-06-04

Similar Documents

Publication Publication Date Title
US9665642B2 (en) Automatic identification of digital content related to a block of text, such as a blog entry
US8438469B1 (en) Embedded review and rating information
KR100705411B1 (ko) 로컬 컴퓨터 검색 시스템 및 이를 이용한 로컬 컴퓨터 검색방법
AU2005231112B2 (en) Methods and systems for structuring event data in a database for location and retrieval
JP6169764B2 (ja) ユーザアクションに基づく演算デバイスへの実行可能コンテンツの提供
US20160070797A1 (en) Methods and systems for prioritizing a crawl
US7707142B1 (en) Methods and systems for performing an offline search
JP4962945B2 (ja) ブックマーク・タグ設定装置
US20070094243A1 (en) System and method of searching for previously visited website information
KR102197462B1 (ko) 디바이스 상의 결합된 활동 히스토리
US20100114914A1 (en) Selective Home Page Manager
JP2006065395A (ja) ハイパーリンク生成装置、ハイパーリンク生成方法及びハイパーリンク生成プログラム
US20100077300A1 (en) Computer Method and Apparatus Providing Social Preview in Tag Selection
RU2633180C2 (ru) Система и способ управления браузерным приложением, постоянный машиночитаемый носитель и электронное устройство
JP5284064B2 (ja) 商品idサーバ装置、および商品idサーバ装置の制御方法
JP2005275488A (ja) 入力支援方法およびプログラム
US20110072045A1 (en) Creating Vertical Search Engines for Individual Search Queries
US10235459B1 (en) Creating entries in at least one of a personal cache and a personal index
US9594836B2 (en) Adjusting search level detail
JP2010231442A (ja) 情報提供装置
JP4602104B2 (ja) サイト情報収集システム
JP2009140089A (ja) ウェブコンテンツに検索用キーワードを付加するシステムおよび方法
US20110208718A1 (en) Method and system for adding anchor identifiers to search results
JP2006236221A (ja) ウエブページ検索のための管理サーバ装置
JP5386548B2 (ja) 急上昇ワード抽出装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111206

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20111207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130521