JP2009075904A - 検索可能化プログラム - Google Patents

検索可能化プログラム Download PDF

Info

Publication number
JP2009075904A
JP2009075904A JP2007244721A JP2007244721A JP2009075904A JP 2009075904 A JP2009075904 A JP 2009075904A JP 2007244721 A JP2007244721 A JP 2007244721A JP 2007244721 A JP2007244721 A JP 2007244721A JP 2009075904 A JP2009075904 A JP 2009075904A
Authority
JP
Japan
Prior art keywords
web page
text
search
crawler
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007244721A
Other languages
English (en)
Inventor
Toshitsugu Fukushima
敏貢 福島
Takashi Miyamoto
隆司 宮本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2007244721A priority Critical patent/JP2009075904A/ja
Publication of JP2009075904A publication Critical patent/JP2009075904A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ロボット型検索サイトの検索にヒットしない形式のコンテンツから構成されるウェブページを、ロボット型検索サイトの種類に限定されることなく検索にヒットさせる。
【解決手段】ウェブページ用サーバ13において、テキストが含まれてないウェブページを構成するコンテンツに対し、テキスト抽出処理部36でテキスト抽出処理を施す。ウェブページを構成するコンテンツは分解され、コンテンツに埋め込まれていたテキストが抽出される。この分解により得られたテキストなどに対し、WP作成処理部37でウェブページ作成処理を施し、テキストを含めた形のウェブページを作成する。
【選択図】図10

Description

本発明は、インターネット上に公開するウェブページを格納したコンピュータに実行させる検索可能化プログラムに関する。
インターネット上には、非常に多くのウェブページ(コンテンツの集合体)が存在し、画像、音楽、その他のコンテンツが溢れている。この莫大な数のコンテンツの中から所望のコンテンツを取得するために、グーグル(Google,登録商標)、ヤフー(Yahoo,登録商標)などの検索サイトが利用されている(例えば、特許文献1参照)。検索サイトは、ウェブページが登録されたディレクトリあるいはデータベースを有しており、ユーザは、検索画面に従った操作をすることで、登録された中から検索を行うことができる。
このような検索サイトは、その構造の違いにより、ディレクトリ型とロボット型との2つに大別することができる。ディレクトリ型検索サイトは、収集されたウェブページがカテゴリーごとに分類され、ディレクトリに登録されている。この一連の処理は、人手を介して行われている。このため、質の高い検索が可能となっている。ユーザは、カテゴリーをたどることでコンテンツを検索することができる。しかしながら、爆発的なインターネットの拡大により、あらゆるコンテンツをディレクトリに反映させることが実質的に不可能となっており、目的のコンテンツが未登録で検索にヒットしないこともある。
一方、ロボット型検索サイトは、テキストとともに収集されたコンテンツが階層的に目次化され、データベースに体系的に登録されている。この一連の処理は、クローラ(ロボット)と呼ばれるプログラムの実行により、定期的に自動で行われている。このため、莫大なコンテンツをデータベースに反映させることが可能であり、ディレクトリ型に替わって主流となっている。ユーザは、テキスト(検索キーワード)を入力することでコンテンツを検索することができる。
ところで、インターネット回線のブロードバンド化とともに、動画、音楽、アドビ(Adobe,登録商標)フラッシュ(Flash,登録商標)など、様々な大容量コンテンツが普及するに至っている。このような大容量コンテンツは、それ自身にテキストなどの言語情報が埋め込まれているため、テキストとともにウェブページに公開する必要がない。埋め込まれた言語情報はクローラが認識することができるものではなく、データベースに登録されることができない。このため、ロボット型検索サイトの検索にヒットしないコンテンツが増えてきている。
そこで、このままでは検索にヒットしないコンテンツからテキストを抜き出して、検索可能とするクローラが開発されるに至っている。例えば、アドビフラッシュを検索可能とする、グーグルのクローラ「グーグルボット(Googlebot)」がある。これにより、従来は検索にヒットしなかったコンテンツであっても検索にヒットさせることができるようになった。
特開平10−222536号公報
しかしながら、このようなコンテンツは、グーグルなど一部の検索サイトが利用される場合を除き、依然として検索にヒットしないままである。
ウェブページを公開する者は、利益や名声などを享受するためにウェブページが広く公開されることを希望することがあり、この場合、いかなる検索サイトが利用された場合であっても検索にヒットすることが望まれる。
本発明は、上記課題を鑑みてなされたものであり、このままではロボット型検索サイトの検索にヒットしないコンテンツを、ロボット型検索サイトの種類に限定されることなく検索にヒットさせることを目的とする。
上記目的を達成するために、本発明の検索可能化プログラムは、インターネット上に存在する複数のウェブページを巡回してウェブページを構成するコンテンツをテキストとともに収集し検索サイトのデータベースを構築するクローラに巡回されるウェブページ側のコンピュータに実行させるプログラムである。具体的に、検索可能化プログラムは、クローラが検知することができない形式でテキストが埋め込まれたコンテンツを分解してテキストを抽出する抽出ステップを実行させる。
請求項2記載の発明では、ウェブページに、クローラが検知することができる形式のテキストが含まれてない場合に、抽出ステップを実行させる。
請求項3記載の発明では、クローラに巡回されたことを契機に抽出ステップを実行させる。
請求項4記載の発明では、クローラに巡回される前に予め抽出ステップを実行させる。
請求項5記載の発明では、抽出ステップで抽出したテキストを含めたウェブページを作成する作成ステップを実行させる。
請求項6記載の発明では、作成ステップで作成するウェブページは、抽出ステップで分解した元のコンテンツのウェブページとのリンクが張られる。
請求項7記載の発明では、作成ステップで作成したウェブページを、インターネット上に公開する公開ステップを実行させる。
請求項8記載の発明では、抽出ステップで分解するコンテンツは、アドビフラッシュ(マクロメディア(登録商標)フラッシュ(登録商標))である。
本発明の検索可能化プログラムは、コンテンツを分解してテキストを抽出する抽出ステップを、ウェブページ側のコンピュータに実行させるので、このままではロボット型検索サイトの検索にヒットしない形式のコンテンツから構成されるウェブページを、ロボット型検索サイトの種類に限定されることなく検索にヒットさせることができる。
図1に示すように、インターネット11は、世界規模で構築された通信ネットワークのことであり、プロバイダ12、ウェブページ用サーバ13、検索サイト用サーバ14などが相互に接続されることで構成されている。このインターネット11上には、莫大な数のウェブページ(例えば、図4参照)が公開されている。
プロバイダ12は、通信回線を有し、インターネット11と通信するための窓口的な役割を果たすものであり、業者などによって提供されている。プロバイダ12に接続されたクライアント端末15は、それぞれ、インターネット11と通信することができる。クライアント端末15は、例えば周知のパーソナルコンピュータやワークステーションであり、各種操作画面などを表示するモニタ16と、操作信号を出力するマウス17及びキーボード18からなる操作部19とを備えている。
図2に示すように、クライアント端末15を構成するCPU21は、操作部19から入力される操作信号に従ってクライアント端末15全体を統括的に制御する。CPU21には、操作部19の他に、データバス22を介して、RAM23、ハードディスクドライブ(HDD)24、通信インターフェース(通信I/F)25、モニタ16が接続されている。
RAM23は、CPU21が処理を実行するための作業用メモリである。HDD24には、クライアント端末15を動作させるための各種プログラムやデータが記憶されている。CPU21は、HDD24からプログラムを読み出してRAM23に展開し、読み出したプログラムを逐次処理する。
通信I/F25は、例えばモデムやルータであり、インターネット11に適合した通信プロトコルの制御を行い、ウェブページ用サーバ13、検索サイト用サーバ14などとのデータの遣り取りを媒介する。
インターネット11上に公開されているウェブページ(例えば、図4参照)は、通信I/F25を介して取得され、モニタ16に表示される。
図3に示すウェブページ用サーバ13は、インターネット11上に公開するウェブページ41(図4参照)を記録しておくためのサーバである。ウェブページ用サーバ13を構成するCPU31は、通信インターフェース(通信I/F)32から入力される信号に従ってウェブページ用サーバ13全体を統括的に制御する。CPU31には、通信I/F32の他に、データバス33を介して、RAM34、ハードディスクドライブ(HDD)35、テキスト抽出処理部36、ウェブページ作成処理部(WP作成処理部)37が接続されている。
通信I/F32は、インターネット11に適合した通信プロトコルの制御を行い、プロバイダ12、検索サイト用サーバ14などとのデータの遣り取りを媒介する。
RAM34は、CPU31が処理を実行するための作業用メモリである。HDD35には、ウェブページ用サーバ13を動作させるための検索可能化プログラム38などの各種プログラムが記憶されている。CPU31は、HDD35からプログラムを読み出してRAM34に展開し、読み出したプログラムを逐次処理する。
また、HDD35には、ウェブページデータベース(ウェブページDB)39が設けられている。ウェブページDB39には、通信I/F32を介して取り込まれた複数のウェブページが記録されている。ウェブページは、一つあるいは複数のコンテンツから構成されたものであり、HTMLと呼ばれる言語で記載されることでインターネット上に公開される。例えば、図4に示すウェブページ41は、画像42、テキスト43、アドビ(Adobe,登録商標)フラッシュ(Flash,登録商標)44など複数のコンテンツから構成されている。また、図5に示すウェブページ51は、アドビフラッシュ52から構成されている。なお、アドビフラッシュとは、コンテンツの一つであり、アドビシステムズ株式会社が開発している動画を扱うためのソフトウェアで作成されたものである。また、アドビフラッシュには、検索サイト用サーバ14のウェブページDB89(図8参照)を構築するクローラ88(図8参照)が検知することができないようにテキストが埋め込まれている。
ウェブページDB39に記録されているウェブページは、通信I/F32を介してインターネット11上に公開される。
テキスト抽出処理部36は、ウェブページDB39に記録されたウェブページを読み出し、そのウェブページを構成するコンテンツに対してテキスト抽出処理を施す。例えば、図5に示すウェブページ51を構成しているアドビフラッシュ52に対してテキスト抽出処理を施すと、アドビフラッシュ52は、図6に示すように、それに埋め込まれていたテキスト61、画像62、ウェブページ51の下層リンクのアドレス63に分解される。すなわち、テキスト61が抽出される。なお、テキスト抽出処理は周知技術であり、ここでの具体的な説明は省略する。
WP作成処理部37は、テキスト抽出処理部36で抽出されたテキストを含めたウェブページを作成するウェブページ作成処理を施す。ウェブページ作成処理では、テキスト抽出処理によるコンテンツの分解で得られたテキスト、画像、下層リンクのアドレスなどの他、テキスト抽出処理の対象となったコンテンツが構成していたウェブページのアドレスを含めたウェブページが作成される。上記のウェブページ51(図5参照)の例で引き続き説明すると、ウェブページ作成処理では、図7に示すように、テキスト61、画像62、ウェブページ51の下層リンクのアドレス63の他、ウェブページ51のアドレス71を含めた形(ウェブページ51とリンクを張る形)でウェブページ72が作成される。なお、図7に示すウェブページ72は、HTMLで記述された状態を示している。
WP作成処理部37で作成されたウェブページは、HDD35に送られてウェブページDB39に記録される。WP作成処理部37で作成されたウェブページは、通信I/F32を介して取り込まれウェブページDB39に記録されたウェブページと同様、通信I/F32を介してインターネット11上に公開される。
図8に示す検索サイト用サーバ14は、インターネット11上に公開されているウェブページ(例えば、図4参照)を検索するためのサーバである。例えばクライアント端末15からテキスト(検索キーワード)が入力されると、そのテキストを含むウェブページを検索し、検索結果を出力する。この出力は、テキストの入力元に戻される。
検索サイト用サーバ14を構成するCPU81は、通信インターフェース(通信I/F)82から入力される信号に従って検索サイト用サーバ14全体を統括的に制御する。CPU81には、通信I/F82の他に、データバス83を介して、RAM84、ハードディスクドライブ(HDD)85、データベース構築処理部(DB構築処理部)86、ウェブページ検索処理部(WP検索処理部)87が接続されている。
通信I/F82は、インターネット11に適合した通信プロトコルの制御を行い、プロバイダ12、ウェブページ用サーバ13などとのデータの遣り取りを媒介する。
RAM84は、CPU81が処理を実行するための作業用メモリである。HDD85には、検索サイト用サーバ14を動作させるための各種プログラムの他、インターネット11上に公開されているウェブページ(例えば、図4参照)を定期的に巡回してウェブページを複製し、その複製(キャッシュ)を収集するクローラ(プログラム)88が記憶されている。CPU81は、HDD85からプログラムを読み出してRAM84に展開し、読み出したプログラムを逐次処理する。
また、HDD85には、ウェブページを記録するウェブページデータベース(ウェブページDB)89が設けられている。ウェブページDB89には、複数のウェブページのキャッシュが記録され、検索できる状態となっている。
クローラ88は、例えば、図3に示すウェブページ用サーバ13のウェブページDB39に入り込み、全てのウェブページ41(図4参照)についてそのキャッシュを取得する。そしてそのキャッシュを検索サイト用サーバ14に転送する。検索サイト用サーバ14に転送されたウェブページ41のキャッシュは、DB構築処理部86へ送られる。
DB構築処理部86は、クローラ88が収集したウェブページのキャッシュからテキストを読み取って、テキストが有する情報に基づいてウェブページのキャッシュをウェブページDB89に体系的に記録する。
ウェブページ検索処理部(WP検索処理部)87は、通信I/F82を介してテキスト(検索キーワード)が入力されると、そのテキストを含むウェブページを検索する。例えば、テキスト「フィルムカメラ」と入力されると、テキスト「フィルムカメラ」を含むウェブページを検索し、図4に示すウェブページ41などのキャッシュを検索にヒットさせる。また、テキスト「ファッション」と入力されると、テキスト「ファッション」を含むウェブページを検索し、図5に示すウェブページ51などのキャッシュを検索にヒットさせる。このような検索結果は、通信I/F82を介してテキストの入力元に送られる。
次に、上記インターネット11(図1参照)を構成するウェブページ用サーバ13(図3参照)の作用について、図9を参照しながら説明する。ウェブページ用サーバ13は、検索可能化プログラム38など各種プログラムが実行されることで逐次処理を施している。ウェブページDB39に記録されているウェブページがリクエストされると、そのリクエストが検索サイト用サーバ14のクローラ88(図8参照)によるものか否かを判定する。この判定は、ユーザーエージェント(user agent)やIPアドレスを識別することで行われる。
クローラ88によるリクエストでない場合、リクエストされたウェブページをウェブページDB39から検索し、リクエスト元に返す。一方、クローラ88によるリクエストである場合、ウェブページ毎に、テキストが含まれているか否かを判定する。
テキストが含まれているウェブページ(例えば、図4参照)は、そのままウェブページのキャッシュがクローラ88に取得される。そのキャッシュは、検索サイト用サーバ14に転送されることとなる。一方、テキストが含まれてないウェブページ(例えば、図5参照)は、まず、テキスト抽出処理部36でテキスト抽出処理が施されることとなる。
テキスト抽出処理により、ウェブページを構成するコンテンツは分解され、コンテンツに埋め込まれていたテキストが抽出されることとなる(例えば、図6参照)。そして、テキスト抽出処理による分解で得られたテキストなどは、WP作成処理部37でウェブページ作成処理が施される。
ウェブページ作成処理により、テキストを含めた形のウェブページ(例えば、図7参照)が作成され、ウェブページDB39に記録される。このウェブページは、インターネット11上に公開されるとともに、クローラ88に複製され、その複製(キャッシュ)が検索サイト用サーバ14に転送される。このように、テキストを含まずテキスト検索不可能な形式のウェブページに対してテキスト抽出処理とウェブページ作成処理と施すことで、テキスト検索不可能な形式のウェブページを、テキスト検索可能な形式でクローラ88に取得させることができる。
なお、上記実施形態では、ウェブページ用サーバ13によるテキスト抽出処理とウェブページ作成処理は、検索サイト用サーバ14のクローラ88からのリクエストがあった場合に施される場合を例に説明したが、これに限定されるものではない。次に説明する別の実施形態では、ウェブページ用サーバ13によるテキスト抽出処理とウェブページ作成処理は、クローラ88によるリクエストの有無に関係なく施される。なお、上記実施形態と同一の構成を有しているので、別の実施形態の構成については説明を省略する。
以下、別の実施形態のインターネット11(図1参照)を構成するウェブページ用サーバ13(図3参照)の作用について図10を参照しながら説明する。ウェブページ用サーバ13は、検索可能化プログラム38など各種プログラムが実行されることで逐次処理を施している。まず、ウェブページDB39に記録されているウェブページに対し、ウェブページ毎に、テキストが含まれているか否かを判定する。
テキストが含まれているウェブページ(例えば、図4参照)は、特別な処理は施されずそのままの状態が保たれる。一方、テキストが含まれてないウェブページ(例えば、図5参照)は、テキスト抽出処理部36でテキスト抽出処理が施されることとなる。そして、テキスト抽出処理による分解で得られたテキストなどは、WP作成処理部37でウェブページ作成処理が施される。
ウェブページ作成処理により作成されたウェブページ(例えば、図7参照)は、ウェブページDB39に記録される。このように、クローラ88によるリクエストの有無に関係なく、テキスト検索不可能な形式のウェブページをテキスト検索可能な形式とすることができる。クローラ88にリクエストされる前に、予めテキスト検索不可能な形式のウェブページをテキスト検索可能な形式としておくことで、検索サイト用サーバ14のクローラ88が巡回に要する時間を短縮することができる。
なお、上記各実施形態では、説明の都合上、相互に接続してインターネット11を構成するプロバイダ12、ウェブページ用サーバ13、検索サイト用サーバ14は、それぞれ別々に存在し、異なる役割を果たす場合を例に説明したが、プロバイダ、ウェブページ用サーバ、検索サイト用サーバを別々に存在させなくても良く、一つのサーバに、プロバイダ、ウェブページ用サーバ、検索サイト用サーバの役割全てを果たさせても良い。
また、上記各実施形態では、テキスト抽出処理とウェブページ作成処理とは、テキスト検索不可能な形式のウェブページ(例えば、図5参照)を構成するコンテンツに対して施されているが、テキスト検索可能な形式のウェブページ(例えば、図4参照)を構成するコンテンツに対して施されるものであっても良い。テキスト検索可能な形式のウェブページを構成するコンテンツに対して施した場合であっても、そのコンテンツからテキストが抽出されれば、テキスト検索にヒットする可能性が高くなる。また、当該コンテンツに関するテキストを検索キーワードとして検索にヒットさせることができる。
また、上記各実施形態では、テキスト抽出処理を施す対象がアドビフラッシュである場合を例に説明したが、クローラ88が検知することができないようにテキストが埋め込まれているコンテンツであれば良く、例えば、PDF(Portable Document Format)、パワーポイント(POWERPOINT,登録商標)などであっても良い。
インターネットの構成を示す概略図である。 クライアント端末の内部構成を示すブロック図である。 ウェブページ用サーバの内部構成を示すブロック図である。 テキストを含むウェブページの構成を示す図である。 テキストを含まないウェブページの構成を示す図である。 テキスト抽出処理で抽出されたテキストなどを示す図である。 HTMLを示す図である。 検索サイト用サーバの内部構成を示すブロック図である。 検索可能化プログラムの実行手順を説明するフローチャートである。 別の実施形態の検索可能化プログラムの実行手順を説明するフローチャートである。
符号の説明
11 インターネット
13 ウェブページ用サーバ(ウェブページ側のコンピュータ)
14 検索サイト用サーバ(検索サイト)
36 テキスト抽出処理部
37 ウェブページ作成処理部(WP作成処理部)
41,51,72 ウェブページ
44,52 アドビフラッシュ(Adobe Flash)
61 テキスト
71 アドレス
88 クローラ
89 ウェブページデータベース(ウェブページDB)

Claims (8)

  1. インターネット上に存在する複数のウェブページを巡回して前記ウェブページを構成するコンテンツをテキストとともに収集し検索サイトのデータベースを構築するクローラに巡回される前記ウェブページ側のコンピュータに実行させるプログラムであって、
    前記クローラが検知することができない形式でテキストが埋め込まれた前記コンテンツを分解して前記テキストを抽出する抽出ステップを前記コンピュータに実行させることを特徴とする検索可能化プログラム。
  2. 前記ウェブページに、前記クローラが検知することができる形式のテキストが含まれてない場合に、前記抽出ステップを前記コンピュータに実行させることを特徴とする請求項1記載の検索可能化プログラム。
  3. 前記クローラに巡回されたことを契機に前記抽出ステップを前記コンピュータに実行させることを特徴とする請求項1又は2記載の検索可能化プログラム。
  4. 前記クローラに巡回される前に予め前記抽出ステップを前記コンピュータに実行させることを特徴とする請求項1又は2記載の検索可能化プログラム。
  5. 前記抽出ステップで抽出したテキストを含めたウェブページを作成する作成ステップを前記コンピュータに実行させることを特徴とする請求項3又は4記載の検索可能化プログラム。
  6. 前記作成ステップで作成するウェブページは、前記抽出ステップで分解した元のコンテンツのウェブページとのリンクが張られることを特徴とする請求項5記載の検索可能化プログラム。
  7. 前記作成ステップで作成したウェブページを、前記インターネット上に公開する公開ステップを前記コンピュータに実行させることを特徴とする請求項5又は6記載の検索可能化プログラム。
  8. 前記抽出ステップで分解するコンテンツは、アドビ(登録商標)フラッシュ(登録商標)であることを特徴とする請求項1ないし7いずれか記載の検索可能化プログラム。
JP2007244721A 2007-09-21 2007-09-21 検索可能化プログラム Pending JP2009075904A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007244721A JP2009075904A (ja) 2007-09-21 2007-09-21 検索可能化プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007244721A JP2009075904A (ja) 2007-09-21 2007-09-21 検索可能化プログラム

Publications (1)

Publication Number Publication Date
JP2009075904A true JP2009075904A (ja) 2009-04-09

Family

ID=40610800

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007244721A Pending JP2009075904A (ja) 2007-09-21 2007-09-21 検索可能化プログラム

Country Status (1)

Country Link
JP (1) JP2009075904A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293425A (ja) * 1999-04-01 2000-10-20 Nec Commun Syst Ltd インターネットWeb検索システム
JP2002123528A (ja) * 2000-08-24 2002-04-26 Internatl Business Mach Corp <Ibm> データ検索の方法、システム、およびプログラム
JP2003296350A (ja) * 2002-04-05 2003-10-17 Fujitsu Ltd 情報提供システム
JP2004318746A (ja) * 2003-04-21 2004-11-11 Toward Inc 情報収集システム、情報収集方法、及び情報収集プログラム
JP2006244102A (ja) * 2005-03-03 2006-09-14 Univ Of Tsukuba 質問応答システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293425A (ja) * 1999-04-01 2000-10-20 Nec Commun Syst Ltd インターネットWeb検索システム
JP2002123528A (ja) * 2000-08-24 2002-04-26 Internatl Business Mach Corp <Ibm> データ検索の方法、システム、およびプログラム
JP2003296350A (ja) * 2002-04-05 2003-10-17 Fujitsu Ltd 情報提供システム
JP2004318746A (ja) * 2003-04-21 2004-11-11 Toward Inc 情報収集システム、情報収集方法、及び情報収集プログラム
JP2006244102A (ja) * 2005-03-03 2006-09-14 Univ Of Tsukuba 質問応答システム

Similar Documents

Publication Publication Date Title
JP5821678B2 (ja) ウェブ・アプリケーションのブラウザに依存しない自動互換性チェックのためのウェブ・サービス
JP5340751B2 (ja) 文書処理装置および文書処理方法
US8046323B2 (en) Context based bookmark
CN107145496A (zh) 基于关键词将图像与内容项目匹配的方法
JP2000029906A (ja) 文書情報管理システム
JP4796538B2 (ja) コメントデータを関連付ける方法
KR100359233B1 (ko) 웹 정보 추출 방법 및 시스템
CN105745644A (zh) 表示在网页浏览器中的网页的状态表示的建立
US20110131211A1 (en) Methods and systems for visualizing topic location in a document redundancy graph
JP5327784B2 (ja) 計算機システム、情報収集支援装置及び情報収集支援方法
Rodrigo et al. ScienceSearch: Enabling search through automatic metadata generation
JP2011044116A (ja) 閲覧制御装置、閲覧制御方法および閲覧制御プログラム
US20140122693A1 (en) Web Navigation Tracing
JP5922640B2 (ja) 閲覧制御装置、閲覧制御方法および閲覧制御プログラム
JP2010108363A (ja) クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム
JP6727097B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US11250084B2 (en) Method and system for generating content from search results rendered by a search engine
JP2009075904A (ja) 検索可能化プログラム
JP2010257406A (ja) 適正単語取得装置、機械学習装置及び方法
Dharmarajan et al. Discovering User Pattern Analysis from Web Log Data using Weblog Expert
JP5286007B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5380874B2 (ja) 情報検索方法、プログラム及び装置
JP2008234559A (ja) ドキュメント絞り込み検索装置、方法及びプログラム
US9420052B2 (en) Web navigation using web navigation pattern histories
Khabsa et al. A Framework for Bridging the Gap Between Open Source Search Tools.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120328

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120525

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120711