JP2009075904A

JP2009075904A - 検索可能化プログラム

Info

Publication number: JP2009075904A
Application number: JP2007244721A
Authority: JP
Inventors: Toshitsugu Fukushima; 敏貢福島; Takashi Miyamoto; 隆司宮本
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2007-09-21
Filing date: 2007-09-21
Publication date: 2009-04-09

Abstract

【課題】ロボット型検索サイトの検索にヒットしない形式のコンテンツから構成されるウェブページを、ロボット型検索サイトの種類に限定されることなく検索にヒットさせる。
【解決手段】ウェブページ用サーバ１３において、テキストが含まれてないウェブページを構成するコンテンツに対し、テキスト抽出処理部３６でテキスト抽出処理を施す。ウェブページを構成するコンテンツは分解され、コンテンツに埋め込まれていたテキストが抽出される。この分解により得られたテキストなどに対し、ＷＰ作成処理部３７でウェブページ作成処理を施し、テキストを含めた形のウェブページを作成する。
【選択図】図１０

Description

本発明は、インターネット上に公開するウェブページを格納したコンピュータに実行させる検索可能化プログラムに関する。

インターネット上には、非常に多くのウェブページ（コンテンツの集合体）が存在し、画像、音楽、その他のコンテンツが溢れている。この莫大な数のコンテンツの中から所望のコンテンツを取得するために、グーグル（Google，登録商標）、ヤフー（Yahoo，登録商標）などの検索サイトが利用されている（例えば、特許文献１参照）。検索サイトは、ウェブページが登録されたディレクトリあるいはデータベースを有しており、ユーザは、検索画面に従った操作をすることで、登録された中から検索を行うことができる。

このような検索サイトは、その構造の違いにより、ディレクトリ型とロボット型との２つに大別することができる。ディレクトリ型検索サイトは、収集されたウェブページがカテゴリーごとに分類され、ディレクトリに登録されている。この一連の処理は、人手を介して行われている。このため、質の高い検索が可能となっている。ユーザは、カテゴリーをたどることでコンテンツを検索することができる。しかしながら、爆発的なインターネットの拡大により、あらゆるコンテンツをディレクトリに反映させることが実質的に不可能となっており、目的のコンテンツが未登録で検索にヒットしないこともある。

一方、ロボット型検索サイトは、テキストとともに収集されたコンテンツが階層的に目次化され、データベースに体系的に登録されている。この一連の処理は、クローラ（ロボット）と呼ばれるプログラムの実行により、定期的に自動で行われている。このため、莫大なコンテンツをデータベースに反映させることが可能であり、ディレクトリ型に替わって主流となっている。ユーザは、テキスト（検索キーワード）を入力することでコンテンツを検索することができる。

ところで、インターネット回線のブロードバンド化とともに、動画、音楽、アドビ（Adobe，登録商標）フラッシュ（Flash，登録商標）など、様々な大容量コンテンツが普及するに至っている。このような大容量コンテンツは、それ自身にテキストなどの言語情報が埋め込まれているため、テキストとともにウェブページに公開する必要がない。埋め込まれた言語情報はクローラが認識することができるものではなく、データベースに登録されることができない。このため、ロボット型検索サイトの検索にヒットしないコンテンツが増えてきている。

そこで、このままでは検索にヒットしないコンテンツからテキストを抜き出して、検索可能とするクローラが開発されるに至っている。例えば、アドビフラッシュを検索可能とする、グーグルのクローラ「グーグルボット（Googlebot）」がある。これにより、従来は検索にヒットしなかったコンテンツであっても検索にヒットさせることができるようになった。
特開平１０−２２２５３６号公報

しかしながら、このようなコンテンツは、グーグルなど一部の検索サイトが利用される場合を除き、依然として検索にヒットしないままである。

ウェブページを公開する者は、利益や名声などを享受するためにウェブページが広く公開されることを希望することがあり、この場合、いかなる検索サイトが利用された場合であっても検索にヒットすることが望まれる。

本発明は、上記課題を鑑みてなされたものであり、このままではロボット型検索サイトの検索にヒットしないコンテンツを、ロボット型検索サイトの種類に限定されることなく検索にヒットさせることを目的とする。

上記目的を達成するために、本発明の検索可能化プログラムは、インターネット上に存在する複数のウェブページを巡回してウェブページを構成するコンテンツをテキストとともに収集し検索サイトのデータベースを構築するクローラに巡回されるウェブページ側のコンピュータに実行させるプログラムである。具体的に、検索可能化プログラムは、クローラが検知することができない形式でテキストが埋め込まれたコンテンツを分解してテキストを抽出する抽出ステップを実行させる。

請求項２記載の発明では、ウェブページに、クローラが検知することができる形式のテキストが含まれてない場合に、抽出ステップを実行させる。

請求項３記載の発明では、クローラに巡回されたことを契機に抽出ステップを実行させる。

請求項４記載の発明では、クローラに巡回される前に予め抽出ステップを実行させる。

請求項５記載の発明では、抽出ステップで抽出したテキストを含めたウェブページを作成する作成ステップを実行させる。

請求項６記載の発明では、作成ステップで作成するウェブページは、抽出ステップで分解した元のコンテンツのウェブページとのリンクが張られる。

請求項７記載の発明では、作成ステップで作成したウェブページを、インターネット上に公開する公開ステップを実行させる。

請求項８記載の発明では、抽出ステップで分解するコンテンツは、アドビフラッシュ（マクロメディア（登録商標）フラッシュ（登録商標））である。

本発明の検索可能化プログラムは、コンテンツを分解してテキストを抽出する抽出ステップを、ウェブページ側のコンピュータに実行させるので、このままではロボット型検索サイトの検索にヒットしない形式のコンテンツから構成されるウェブページを、ロボット型検索サイトの種類に限定されることなく検索にヒットさせることができる。

図１に示すように、インターネット１１は、世界規模で構築された通信ネットワークのことであり、プロバイダ１２、ウェブページ用サーバ１３、検索サイト用サーバ１４などが相互に接続されることで構成されている。このインターネット１１上には、莫大な数のウェブページ（例えば、図４参照）が公開されている。

プロバイダ１２は、通信回線を有し、インターネット１１と通信するための窓口的な役割を果たすものであり、業者などによって提供されている。プロバイダ１２に接続されたクライアント端末１５は、それぞれ、インターネット１１と通信することができる。クライアント端末１５は、例えば周知のパーソナルコンピュータやワークステーションであり、各種操作画面などを表示するモニタ１６と、操作信号を出力するマウス１７及びキーボード１８からなる操作部１９とを備えている。

図２に示すように、クライアント端末１５を構成するＣＰＵ２１は、操作部１９から入力される操作信号に従ってクライアント端末１５全体を統括的に制御する。ＣＰＵ２１には、操作部１９の他に、データバス２２を介して、ＲＡＭ２３、ハードディスクドライブ（ＨＤＤ）２４、通信インターフェース（通信Ｉ／Ｆ）２５、モニタ１６が接続されている。

ＲＡＭ２３は、ＣＰＵ２１が処理を実行するための作業用メモリである。ＨＤＤ２４には、クライアント端末１５を動作させるための各種プログラムやデータが記憶されている。ＣＰＵ２１は、ＨＤＤ２４からプログラムを読み出してＲＡＭ２３に展開し、読み出したプログラムを逐次処理する。

通信Ｉ／Ｆ２５は、例えばモデムやルータであり、インターネット１１に適合した通信プロトコルの制御を行い、ウェブページ用サーバ１３、検索サイト用サーバ１４などとのデータの遣り取りを媒介する。

インターネット１１上に公開されているウェブページ（例えば、図４参照）は、通信Ｉ／Ｆ２５を介して取得され、モニタ１６に表示される。

図３に示すウェブページ用サーバ１３は、インターネット１１上に公開するウェブページ４１（図４参照）を記録しておくためのサーバである。ウェブページ用サーバ１３を構成するＣＰＵ３１は、通信インターフェース（通信Ｉ／Ｆ）３２から入力される信号に従ってウェブページ用サーバ１３全体を統括的に制御する。ＣＰＵ３１には、通信Ｉ／Ｆ３２の他に、データバス３３を介して、ＲＡＭ３４、ハードディスクドライブ（ＨＤＤ）３５、テキスト抽出処理部３６、ウェブページ作成処理部（ＷＰ作成処理部）３７が接続されている。

通信Ｉ／Ｆ３２は、インターネット１１に適合した通信プロトコルの制御を行い、プロバイダ１２、検索サイト用サーバ１４などとのデータの遣り取りを媒介する。

ＲＡＭ３４は、ＣＰＵ３１が処理を実行するための作業用メモリである。ＨＤＤ３５には、ウェブページ用サーバ１３を動作させるための検索可能化プログラム３８などの各種プログラムが記憶されている。ＣＰＵ３１は、ＨＤＤ３５からプログラムを読み出してＲＡＭ３４に展開し、読み出したプログラムを逐次処理する。

また、ＨＤＤ３５には、ウェブページデータベース（ウェブページＤＢ）３９が設けられている。ウェブページＤＢ３９には、通信Ｉ／Ｆ３２を介して取り込まれた複数のウェブページが記録されている。ウェブページは、一つあるいは複数のコンテンツから構成されたものであり、ＨＴＭＬと呼ばれる言語で記載されることでインターネット上に公開される。例えば、図４に示すウェブページ４１は、画像４２、テキスト４３、アドビ（Adobe，登録商標）フラッシュ（Flash，登録商標）４４など複数のコンテンツから構成されている。また、図５に示すウェブページ５１は、アドビフラッシュ５２から構成されている。なお、アドビフラッシュとは、コンテンツの一つであり、アドビシステムズ株式会社が開発している動画を扱うためのソフトウェアで作成されたものである。また、アドビフラッシュには、検索サイト用サーバ１４のウェブページＤＢ８９（図８参照）を構築するクローラ８８（図８参照）が検知することができないようにテキストが埋め込まれている。

ウェブページＤＢ３９に記録されているウェブページは、通信Ｉ／Ｆ３２を介してインターネット１１上に公開される。

テキスト抽出処理部３６は、ウェブページＤＢ３９に記録されたウェブページを読み出し、そのウェブページを構成するコンテンツに対してテキスト抽出処理を施す。例えば、図５に示すウェブページ５１を構成しているアドビフラッシュ５２に対してテキスト抽出処理を施すと、アドビフラッシュ５２は、図６に示すように、それに埋め込まれていたテキスト６１、画像６２、ウェブページ５１の下層リンクのアドレス６３に分解される。すなわち、テキスト６１が抽出される。なお、テキスト抽出処理は周知技術であり、ここでの具体的な説明は省略する。

ＷＰ作成処理部３７は、テキスト抽出処理部３６で抽出されたテキストを含めたウェブページを作成するウェブページ作成処理を施す。ウェブページ作成処理では、テキスト抽出処理によるコンテンツの分解で得られたテキスト、画像、下層リンクのアドレスなどの他、テキスト抽出処理の対象となったコンテンツが構成していたウェブページのアドレスを含めたウェブページが作成される。上記のウェブページ５１（図５参照）の例で引き続き説明すると、ウェブページ作成処理では、図７に示すように、テキスト６１、画像６２、ウェブページ５１の下層リンクのアドレス６３の他、ウェブページ５１のアドレス７１を含めた形（ウェブページ５１とリンクを張る形）でウェブページ７２が作成される。なお、図７に示すウェブページ７２は、ＨＴＭＬで記述された状態を示している。

ＷＰ作成処理部３７で作成されたウェブページは、ＨＤＤ３５に送られてウェブページＤＢ３９に記録される。ＷＰ作成処理部３７で作成されたウェブページは、通信Ｉ／Ｆ３２を介して取り込まれウェブページＤＢ３９に記録されたウェブページと同様、通信Ｉ／Ｆ３２を介してインターネット１１上に公開される。

図８に示す検索サイト用サーバ１４は、インターネット１１上に公開されているウェブページ（例えば、図４参照）を検索するためのサーバである。例えばクライアント端末１５からテキスト（検索キーワード）が入力されると、そのテキストを含むウェブページを検索し、検索結果を出力する。この出力は、テキストの入力元に戻される。

検索サイト用サーバ１４を構成するＣＰＵ８１は、通信インターフェース（通信Ｉ／Ｆ）８２から入力される信号に従って検索サイト用サーバ１４全体を統括的に制御する。ＣＰＵ８１には、通信Ｉ／Ｆ８２の他に、データバス８３を介して、ＲＡＭ８４、ハードディスクドライブ（ＨＤＤ）８５、データベース構築処理部（ＤＢ構築処理部）８６、ウェブページ検索処理部（ＷＰ検索処理部）８７が接続されている。

通信Ｉ／Ｆ８２は、インターネット１１に適合した通信プロトコルの制御を行い、プロバイダ１２、ウェブページ用サーバ１３などとのデータの遣り取りを媒介する。

ＲＡＭ８４は、ＣＰＵ８１が処理を実行するための作業用メモリである。ＨＤＤ８５には、検索サイト用サーバ１４を動作させるための各種プログラムの他、インターネット１１上に公開されているウェブページ（例えば、図４参照）を定期的に巡回してウェブページを複製し、その複製（キャッシュ）を収集するクローラ（プログラム）８８が記憶されている。ＣＰＵ８１は、ＨＤＤ８５からプログラムを読み出してＲＡＭ８４に展開し、読み出したプログラムを逐次処理する。

また、ＨＤＤ８５には、ウェブページを記録するウェブページデータベース（ウェブページＤＢ）８９が設けられている。ウェブページＤＢ８９には、複数のウェブページのキャッシュが記録され、検索できる状態となっている。

クローラ８８は、例えば、図３に示すウェブページ用サーバ１３のウェブページＤＢ３９に入り込み、全てのウェブページ４１（図４参照）についてそのキャッシュを取得する。そしてそのキャッシュを検索サイト用サーバ１４に転送する。検索サイト用サーバ１４に転送されたウェブページ４１のキャッシュは、ＤＢ構築処理部８６へ送られる。

ＤＢ構築処理部８６は、クローラ８８が収集したウェブページのキャッシュからテキストを読み取って、テキストが有する情報に基づいてウェブページのキャッシュをウェブページＤＢ８９に体系的に記録する。

ウェブページ検索処理部（ＷＰ検索処理部）８７は、通信Ｉ／Ｆ８２を介してテキスト（検索キーワード）が入力されると、そのテキストを含むウェブページを検索する。例えば、テキスト「フィルムカメラ」と入力されると、テキスト「フィルムカメラ」を含むウェブページを検索し、図４に示すウェブページ４１などのキャッシュを検索にヒットさせる。また、テキスト「ファッション」と入力されると、テキスト「ファッション」を含むウェブページを検索し、図５に示すウェブページ５１などのキャッシュを検索にヒットさせる。このような検索結果は、通信Ｉ／Ｆ８２を介してテキストの入力元に送られる。

次に、上記インターネット１１（図１参照）を構成するウェブページ用サーバ１３（図３参照）の作用について、図９を参照しながら説明する。ウェブページ用サーバ１３は、検索可能化プログラム３８など各種プログラムが実行されることで逐次処理を施している。ウェブページＤＢ３９に記録されているウェブページがリクエストされると、そのリクエストが検索サイト用サーバ１４のクローラ８８（図８参照）によるものか否かを判定する。この判定は、ユーザーエージェント（user agent）やＩＰアドレスを識別することで行われる。

クローラ８８によるリクエストでない場合、リクエストされたウェブページをウェブページＤＢ３９から検索し、リクエスト元に返す。一方、クローラ８８によるリクエストである場合、ウェブページ毎に、テキストが含まれているか否かを判定する。

テキストが含まれているウェブページ（例えば、図４参照）は、そのままウェブページのキャッシュがクローラ８８に取得される。そのキャッシュは、検索サイト用サーバ１４に転送されることとなる。一方、テキストが含まれてないウェブページ（例えば、図５参照）は、まず、テキスト抽出処理部３６でテキスト抽出処理が施されることとなる。

テキスト抽出処理により、ウェブページを構成するコンテンツは分解され、コンテンツに埋め込まれていたテキストが抽出されることとなる（例えば、図６参照）。そして、テキスト抽出処理による分解で得られたテキストなどは、ＷＰ作成処理部３７でウェブページ作成処理が施される。

ウェブページ作成処理により、テキストを含めた形のウェブページ（例えば、図７参照）が作成され、ウェブページＤＢ３９に記録される。このウェブページは、インターネット１１上に公開されるとともに、クローラ８８に複製され、その複製（キャッシュ）が検索サイト用サーバ１４に転送される。このように、テキストを含まずテキスト検索不可能な形式のウェブページに対してテキスト抽出処理とウェブページ作成処理と施すことで、テキスト検索不可能な形式のウェブページを、テキスト検索可能な形式でクローラ８８に取得させることができる。

なお、上記実施形態では、ウェブページ用サーバ１３によるテキスト抽出処理とウェブページ作成処理は、検索サイト用サーバ１４のクローラ８８からのリクエストがあった場合に施される場合を例に説明したが、これに限定されるものではない。次に説明する別の実施形態では、ウェブページ用サーバ１３によるテキスト抽出処理とウェブページ作成処理は、クローラ８８によるリクエストの有無に関係なく施される。なお、上記実施形態と同一の構成を有しているので、別の実施形態の構成については説明を省略する。

以下、別の実施形態のインターネット１１（図１参照）を構成するウェブページ用サーバ１３（図３参照）の作用について図１０を参照しながら説明する。ウェブページ用サーバ１３は、検索可能化プログラム３８など各種プログラムが実行されることで逐次処理を施している。まず、ウェブページＤＢ３９に記録されているウェブページに対し、ウェブページ毎に、テキストが含まれているか否かを判定する。

テキストが含まれているウェブページ（例えば、図４参照）は、特別な処理は施されずそのままの状態が保たれる。一方、テキストが含まれてないウェブページ（例えば、図５参照）は、テキスト抽出処理部３６でテキスト抽出処理が施されることとなる。そして、テキスト抽出処理による分解で得られたテキストなどは、ＷＰ作成処理部３７でウェブページ作成処理が施される。

ウェブページ作成処理により作成されたウェブページ（例えば、図７参照）は、ウェブページＤＢ３９に記録される。このように、クローラ８８によるリクエストの有無に関係なく、テキスト検索不可能な形式のウェブページをテキスト検索可能な形式とすることができる。クローラ８８にリクエストされる前に、予めテキスト検索不可能な形式のウェブページをテキスト検索可能な形式としておくことで、検索サイト用サーバ１４のクローラ８８が巡回に要する時間を短縮することができる。

なお、上記各実施形態では、説明の都合上、相互に接続してインターネット１１を構成するプロバイダ１２、ウェブページ用サーバ１３、検索サイト用サーバ１４は、それぞれ別々に存在し、異なる役割を果たす場合を例に説明したが、プロバイダ、ウェブページ用サーバ、検索サイト用サーバを別々に存在させなくても良く、一つのサーバに、プロバイダ、ウェブページ用サーバ、検索サイト用サーバの役割全てを果たさせても良い。

また、上記各実施形態では、テキスト抽出処理とウェブページ作成処理とは、テキスト検索不可能な形式のウェブページ（例えば、図５参照）を構成するコンテンツに対して施されているが、テキスト検索可能な形式のウェブページ（例えば、図４参照）を構成するコンテンツに対して施されるものであっても良い。テキスト検索可能な形式のウェブページを構成するコンテンツに対して施した場合であっても、そのコンテンツからテキストが抽出されれば、テキスト検索にヒットする可能性が高くなる。また、当該コンテンツに関するテキストを検索キーワードとして検索にヒットさせることができる。

また、上記各実施形態では、テキスト抽出処理を施す対象がアドビフラッシュである場合を例に説明したが、クローラ８８が検知することができないようにテキストが埋め込まれているコンテンツであれば良く、例えば、ＰＤＦ（Portable Document Format）、パワーポイント（POWERPOINT，登録商標）などであっても良い。

インターネットの構成を示す概略図である。クライアント端末の内部構成を示すブロック図である。ウェブページ用サーバの内部構成を示すブロック図である。テキストを含むウェブページの構成を示す図である。テキストを含まないウェブページの構成を示す図である。テキスト抽出処理で抽出されたテキストなどを示す図である。ＨＴＭＬを示す図である。検索サイト用サーバの内部構成を示すブロック図である。検索可能化プログラムの実行手順を説明するフローチャートである。別の実施形態の検索可能化プログラムの実行手順を説明するフローチャートである。

符号の説明

１１インターネット
１３ウェブページ用サーバ（ウェブページ側のコンピュータ）
１４検索サイト用サーバ（検索サイト）
３６テキスト抽出処理部
３７ウェブページ作成処理部（ＷＰ作成処理部）
４１，５１，７２ウェブページ
４４，５２アドビフラッシュ（Adobe Flash）
６１テキスト
７１アドレス
８８クローラ
８９ウェブページデータベース（ウェブページＤＢ）

Claims

インターネット上に存在する複数のウェブページを巡回して前記ウェブページを構成するコンテンツをテキストとともに収集し検索サイトのデータベースを構築するクローラに巡回される前記ウェブページ側のコンピュータに実行させるプログラムであって、
前記クローラが検知することができない形式でテキストが埋め込まれた前記コンテンツを分解して前記テキストを抽出する抽出ステップを前記コンピュータに実行させることを特徴とする検索可能化プログラム。
前記ウェブページに、前記クローラが検知することができる形式のテキストが含まれてない場合に、前記抽出ステップを前記コンピュータに実行させることを特徴とする請求項１記載の検索可能化プログラム。
前記クローラに巡回されたことを契機に前記抽出ステップを前記コンピュータに実行させることを特徴とする請求項１又は２記載の検索可能化プログラム。
前記クローラに巡回される前に予め前記抽出ステップを前記コンピュータに実行させることを特徴とする請求項１又は２記載の検索可能化プログラム。
前記抽出ステップで抽出したテキストを含めたウェブページを作成する作成ステップを前記コンピュータに実行させることを特徴とする請求項３又は４記載の検索可能化プログラム。
前記作成ステップで作成するウェブページは、前記抽出ステップで分解した元のコンテンツのウェブページとのリンクが張られることを特徴とする請求項５記載の検索可能化プログラム。
前記作成ステップで作成したウェブページを、前記インターネット上に公開する公開ステップを前記コンピュータに実行させることを特徴とする請求項５又は６記載の検索可能化プログラム。
前記抽出ステップで分解するコンテンツは、アドビ（登録商標）フラッシュ（登録商標）であることを特徴とする請求項１ないし７いずれか記載の検索可能化プログラム。