JP2003030228A - 情報検索システム、情報検索方法、及びプログラム - Google Patents
情報検索システム、情報検索方法、及びプログラムInfo
- Publication number
- JP2003030228A JP2003030228A JP2001212555A JP2001212555A JP2003030228A JP 2003030228 A JP2003030228 A JP 2003030228A JP 2001212555 A JP2001212555 A JP 2001212555A JP 2001212555 A JP2001212555 A JP 2001212555A JP 2003030228 A JP2003030228 A JP 2003030228A
- Authority
- JP
- Japan
- Prior art keywords
- word
- attribute
- information
- search
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 検索エンジンが提供する情報検索の結果を情
報検索者の検索目的に対してより適切なものにする。 【解決手段】 文字強調解析部124はWebページ2
0に含まれている文字列に与えられている強調を示す属
性を取得する。索引登録部126は、該文字列から文字
列解析部125によって抽出された単語に、Webペー
ジ20の論理的な位置情報と該単語の抽出元の文字列に
ついての強調属性とを対応付けて索引ファイル310に
登録する。情報検索部210は検索対象を表す単語に対
応付けられている位置情報を取得する。検索結果管理部
220は、取得された位置情報をソートして、該位置情
報の検索の対象とした単語に強調属性の対応付けられて
いるものが優先されるようにする。ソートされた位置情
報を表すHTMLファイルがHTML作成部410で作
成されてインターネット4に送出される。
報検索者の検索目的に対してより適切なものにする。 【解決手段】 文字強調解析部124はWebページ2
0に含まれている文字列に与えられている強調を示す属
性を取得する。索引登録部126は、該文字列から文字
列解析部125によって抽出された単語に、Webペー
ジ20の論理的な位置情報と該単語の抽出元の文字列に
ついての強調属性とを対応付けて索引ファイル310に
登録する。情報検索部210は検索対象を表す単語に対
応付けられている位置情報を取得する。検索結果管理部
220は、取得された位置情報をソートして、該位置情
報の検索の対象とした単語に強調属性の対応付けられて
いるものが優先されるようにする。ソートされた位置情
報を表すHTMLファイルがHTML作成部410で作
成されてインターネット4に送出される。
Description
【0001】
【発明の属する技術分野】本発明は、情報を検索する技
術に関し、特に、検索の要求に対し、その要求により適
切に合致した情報を提供できるようにする技術に関す
る。
術に関し、特に、検索の要求に対し、その要求により適
切に合致した情報を提供できるようにする技術に関す
る。
【0002】
【従来の技術】近年、インターネットの普及により、イ
ンターネット上のWWW(World WideWeb)システムで
提供されているWebページの数は爆発的に増え続けて
いる。また、インターネット上では、この膨大な情報の
中から目的とする情報を検索するサービスを提供する検
索エンジンが多数開設されている。
ンターネット上のWWW(World WideWeb)システムで
提供されているWebページの数は爆発的に増え続けて
いる。また、インターネット上では、この膨大な情報の
中から目的とする情報を検索するサービスを提供する検
索エンジンが多数開設されている。
【0003】検索エンジンがネット上の情報を収集する
方式のひとつとしてロボット型と称されているものがあ
る。ロボット型の検索エンジンでは、スパイダあるいは
クローラなどと呼ばれるロボットプログラムが定期的に
起動されて、インターネット上で公開されているWeb
ページを表現しているHTML(HyperText Markup Lan
guage )ファイルの自動収集が行なわれる。情報検索が
行なわれるときには、検索エンジンを利用する情報検索
者が目的とする情報に関係の深いキーワードを検索サイ
トに与えることにより、収集されたファイルからそのキ
ーワードが含まれたものを抽出する処理が行なわれ、そ
のキーワードの含まれているWebページのリストが、
そのWebページについてのインターネット上における
論理的な位置を示す情報と共に、検索結果として情報検
索者に提供される。
方式のひとつとしてロボット型と称されているものがあ
る。ロボット型の検索エンジンでは、スパイダあるいは
クローラなどと呼ばれるロボットプログラムが定期的に
起動されて、インターネット上で公開されているWeb
ページを表現しているHTML(HyperText Markup Lan
guage )ファイルの自動収集が行なわれる。情報検索が
行なわれるときには、検索エンジンを利用する情報検索
者が目的とする情報に関係の深いキーワードを検索サイ
トに与えることにより、収集されたファイルからそのキ
ーワードが含まれたものを抽出する処理が行なわれ、そ
のキーワードの含まれているWebページのリストが、
そのWebページについてのインターネット上における
論理的な位置を示す情報と共に、検索結果として情報検
索者に提供される。
【0004】
【発明が解決しようとする課題】一般に、ロボット型の
検索エンジンは情報の収集から検索結果の提供に至るま
での全ての処理をコンピュータで自動的に行なってお
り、そこには人間の判断による情報の操作が介在しない
ので、収集された情報の属するジャンルやその情報の質
についての整理がなされていない。そのため、情報の検
索の際に単なるキーワードの一致による検索を行なって
いたのでは、重要な情報を含むWebページが検索結果
に埋もれてしまったり、あるいは、いわゆる検索ノイ
ズ、すなわち有用性の低い情報しか含まれていないWe
bページばかり検索結果に多く含まれてしまったりする
場合が少なくなかった。
検索エンジンは情報の収集から検索結果の提供に至るま
での全ての処理をコンピュータで自動的に行なってお
り、そこには人間の判断による情報の操作が介在しない
ので、収集された情報の属するジャンルやその情報の質
についての整理がなされていない。そのため、情報の検
索の際に単なるキーワードの一致による検索を行なって
いたのでは、重要な情報を含むWebページが検索結果
に埋もれてしまったり、あるいは、いわゆる検索ノイ
ズ、すなわち有用性の低い情報しか含まれていないWe
bページばかり検索結果に多く含まれてしまったりする
場合が少なくなかった。
【0005】以上の問題を鑑み、検索エンジンが提供す
る情報検索の結果を情報検索者の検索目的に対してより
適切なものにすることが本発明が解決しようとする課題
である。
る情報検索の結果を情報検索者の検索目的に対してより
適切なものにすることが本発明が解決しようとする課題
である。
【0006】
【課題を解決するための手段】本発明は、通信ネットワ
ーク上で公開されている文書情報に含まれている単語
と、該通信ネットワーク上の論理的な位置を示す情報で
あって該単語を含む情報が存在する文書情報位置を示す
位置情報とを対応付けてなる索引ファイルを用意し、検
索の対象を表す単語に基づいて該索引ファイルを検索し
て該検索対象を表す単語に対応している位置情報を提示
するシステムまたは方法を前提とする。
ーク上で公開されている文書情報に含まれている単語
と、該通信ネットワーク上の論理的な位置を示す情報で
あって該単語を含む情報が存在する文書情報位置を示す
位置情報とを対応付けてなる索引ファイルを用意し、検
索の対象を表す単語に基づいて該索引ファイルを検索し
て該検索対象を表す単語に対応している位置情報を提示
するシステムまたは方法を前提とする。
【0007】そして、本発明の態様のひとつである情報
検索システムは、前記文書情報に含まれている文字列に
与えられている属性であって強調を示す強調属性を取得
する強調属性取得手段と、前記文字列から単語を抽出す
る抽出手段と、前記抽出手段によって抽出された単語
に、該単語についての前記位置情報と該単語の抽出元の
文字列に与えられている前記強調属性とを対応付けて前
記索引ファイルに登録する登録手段と、前記検索対象を
表す単語に基づいて前記索引ファイルの検索を行なって
該単語に対応付けられている位置情報を該索引ファイル
から取得する検索手段と、前記検索手段によって取得さ
れた位置情報のうち、前記索引ファイルにおいて該検索
手段が該位置情報の検索の対象とした単語に前記強調属
性が対応付けられているものを優先して該位置情報を提
示する提示手段と、を有するように構成することによっ
て前述した課題を解決する。
検索システムは、前記文書情報に含まれている文字列に
与えられている属性であって強調を示す強調属性を取得
する強調属性取得手段と、前記文字列から単語を抽出す
る抽出手段と、前記抽出手段によって抽出された単語
に、該単語についての前記位置情報と該単語の抽出元の
文字列に与えられている前記強調属性とを対応付けて前
記索引ファイルに登録する登録手段と、前記検索対象を
表す単語に基づいて前記索引ファイルの検索を行なって
該単語に対応付けられている位置情報を該索引ファイル
から取得する検索手段と、前記検索手段によって取得さ
れた位置情報のうち、前記索引ファイルにおいて該検索
手段が該位置情報の検索の対象とした単語に前記強調属
性が対応付けられているものを優先して該位置情報を提
示する提示手段と、を有するように構成することによっ
て前述した課題を解決する。
【0008】ここで、前記文書情報に含まれている文字
列に与えられている属性は、例えば該文字列を表示する
ときに用いられる文字の大きさを示す属性、あるいは該
文字列を表示するために用いられる文字の色彩を示す属
性である。強調が指示されている単語を含む文書情報は
その単語に関し重要度の高い情報が含まれている可能性
が高いと考えることができる。従って、上述した構成に
よれば、検索条件を示す単語に合致する文書情報が通信
ネットワークに複数公開されているときに、その単語が
強調されているため重要度が高いと考えられる文書情報
についての位置情報が優先されるようにして提示される
ので、情報検索の結果が情報検索者の検索目的に対して
より適切なものとなる。
列に与えられている属性は、例えば該文字列を表示する
ときに用いられる文字の大きさを示す属性、あるいは該
文字列を表示するために用いられる文字の色彩を示す属
性である。強調が指示されている単語を含む文書情報は
その単語に関し重要度の高い情報が含まれている可能性
が高いと考えることができる。従って、上述した構成に
よれば、検索条件を示す単語に合致する文書情報が通信
ネットワークに複数公開されているときに、その単語が
強調されているため重要度が高いと考えられる文書情報
についての位置情報が優先されるようにして提示される
ので、情報検索の結果が情報検索者の検索目的に対して
より適切なものとなる。
【0009】なお、上述した本発明に係る情報検索シス
テムにおいて、前記強調属性取得手段は、前記文書情報
に含まれている文字列に与えられている属性についての
該文書情報における出現頻度を該属性毎に算出する出現
頻度算出手段と、前記属性が前記強調属性であるか否か
を判別する基準を該属性毎の出現頻度に基づいて設定す
る強調属性設定手段と、前記基準に基づいて、前記文書
情報に含まれている文字列に与えられている属性が前記
強調属性であるか否かを判別する強調属性判別手段と、
を有するように構成してもよい。
テムにおいて、前記強調属性取得手段は、前記文書情報
に含まれている文字列に与えられている属性についての
該文書情報における出現頻度を該属性毎に算出する出現
頻度算出手段と、前記属性が前記強調属性であるか否か
を判別する基準を該属性毎の出現頻度に基づいて設定す
る強調属性設定手段と、前記基準に基づいて、前記文書
情報に含まれている文字列に与えられている属性が前記
強調属性であるか否かを判別する強調属性判別手段と、
を有するように構成してもよい。
【0010】この構成によれば、文書情報において特異
な属性が与えられている文字列はその文書情報において
強調されていると判断することができるようになるの
で、この文字列に含まれる単語にとってこの文書情報は
重要度が高いものとして索引ファイルに登録できるよう
になる。
な属性が与えられている文字列はその文書情報において
強調されていると判断することができるようになるの
で、この文字列に含まれる単語にとってこの文書情報は
重要度が高いものとして索引ファイルに登録できるよう
になる。
【0011】また、前述した本発明に係る情報検索シス
テムにおいて、前記強調属性取得手段は、前記文書情報
に含まれている文字列に与えられている属性が該文字列
を表示するために用いられる文字を太字とする旨を示し
ているときには、該属性を前記強調属性であるとみなす
ようにしてもよい。
テムにおいて、前記強調属性取得手段は、前記文書情報
に含まれている文字列に与えられている属性が該文字列
を表示するために用いられる文字を太字とする旨を示し
ているときには、該属性を前記強調属性であるとみなす
ようにしてもよい。
【0012】この構成によれば、文書情報において文字
列の強調を示すために広く行なわれている太字による表
示を行なう旨の属性については直ちに強調属性と判定す
ることができるようになる。また、前述した本発明に係
る情報検索システムにおいて、前記提示手段は、前記検
索手段によって取得された位置情報のうち、前記検索フ
ァイルにおいて該検索手段が該位置情報の検索の対象と
した単語に対応付けられている前記強調属性の数が多い
ものほど優先して該位置情報を提示するようにしてもよ
い。
列の強調を示すために広く行なわれている太字による表
示を行なう旨の属性については直ちに強調属性と判定す
ることができるようになる。また、前述した本発明に係
る情報検索システムにおいて、前記提示手段は、前記検
索手段によって取得された位置情報のうち、前記検索フ
ァイルにおいて該検索手段が該位置情報の検索の対象と
した単語に対応付けられている前記強調属性の数が多い
ものほど優先して該位置情報を提示するようにしてもよ
い。
【0013】この構成によれば、ある文字列に与えられ
ている強調属性の数が多いものほど、この文字列に含ま
れる単語にとってこの文書情報は重要度がより高いもの
として索引ファイルに登録できるようになり、情報検索
の結果が情報検索者の検索目的に対して更に適切なもの
となる。
ている強調属性の数が多いものほど、この文字列に含ま
れる単語にとってこの文書情報は重要度がより高いもの
として索引ファイルに登録できるようになり、情報検索
の結果が情報検索者の検索目的に対して更に適切なもの
となる。
【0014】本発明の別の態様のひとつである情報検索
方法は、前記文書情報に含まれている文字列に与えられ
ている属性であって強調を示す強調属性を取得し、前記
文字列から単語を抽出し、前記文字列から抽出された単
語に、該単語についての前記位置情報と該単語の抽出元
の文字列に与えられている前記強調属性とを対応付けて
前記索引ファイルに登録し、前記検索対象を表す単語に
基づいて前記索引ファイルの検索を行なって該単語に対
応付けられている位置情報を該索引ファイルから取得
し、前記検索によって取得された位置情報のうち、前記
検索ファイルにおいて該位置情報の検索の対象とした単
語に前記強調属性が対応付けられているものを優先して
該位置情報を提示することにより、前述した本発明に係
る情報検索システムと同様の作用・効果が得られる。
方法は、前記文書情報に含まれている文字列に与えられ
ている属性であって強調を示す強調属性を取得し、前記
文字列から単語を抽出し、前記文字列から抽出された単
語に、該単語についての前記位置情報と該単語の抽出元
の文字列に与えられている前記強調属性とを対応付けて
前記索引ファイルに登録し、前記検索対象を表す単語に
基づいて前記索引ファイルの検索を行なって該単語に対
応付けられている位置情報を該索引ファイルから取得
し、前記検索によって取得された位置情報のうち、前記
検索ファイルにおいて該位置情報の検索の対象とした単
語に前記強調属性が対応付けられているものを優先して
該位置情報を提示することにより、前述した本発明に係
る情報検索システムと同様の作用・効果が得られる。
【0015】なお、上述した本発明に係る情報検索方法
と同様の手順からなる処理をコンピュータに行なわせる
ためのプログラムでも、そのプログラムをコンピュータ
に実行させることによって前述した課題を解決すること
ができる。
と同様の手順からなる処理をコンピュータに行なわせる
ためのプログラムでも、そのプログラムをコンピュータ
に実行させることによって前述した課題を解決すること
ができる。
【0016】
【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて説明する。図1は本発明を実施する情報検索
サイトが情報検索サービスを提供する通信ネットワーク
の全体構成を示す図である。
に基づいて説明する。図1は本発明を実施する情報検索
サイトが情報検索サービスを提供する通信ネットワーク
の全体構成を示す図である。
【0017】図1において、情報検索サイト1、情報提
供サイト2a、2b、2c、2d、及びユーザ端末3
a、3bはいずれも通信ネットワークであるインターネ
ット4に接続されており、相互にデータの授受を行なう
ことができる。情報検索サイト1はユーザ端末3a及び
3bにロボット検索型の情報検索サービスを提供するW
WWサーバシステムであり、情報管理部100、情報検
索管理部200、情報データベース管理部300、及び
WWWサーバ管理部400を備えて構成されている。
供サイト2a、2b、2c、2d、及びユーザ端末3
a、3bはいずれも通信ネットワークであるインターネ
ット4に接続されており、相互にデータの授受を行なう
ことができる。情報検索サイト1はユーザ端末3a及び
3bにロボット検索型の情報検索サービスを提供するW
WWサーバシステムであり、情報管理部100、情報検
索管理部200、情報データベース管理部300、及び
WWWサーバ管理部400を備えて構成されている。
【0018】情報管理部100はインターネット4上に
公開されている情報の自動収集を行ない、収集された情
報を情報データベース管理部300に蓄積する。情報検
索管理部200は、インターネット4を介して送られて
くる情報検索の要求に応じ、情報データベース管理部3
00に蓄積されている情報の検索を行ない、その検索の
結果を要求元に返送する。
公開されている情報の自動収集を行ない、収集された情
報を情報データベース管理部300に蓄積する。情報検
索管理部200は、インターネット4を介して送られて
くる情報検索の要求に応じ、情報データベース管理部3
00に蓄積されている情報の検索を行ない、その検索の
結果を要求元に返送する。
【0019】情報データベース管理部300では情報管
理部100によって収集された情報の蓄積、及び情報検
索管理部200による情報の検索が行なわれる。WWW
サーバ部400は、インターネット4を介して送られて
くる収集された情報を情報管理部100に転送する処
理、インターネット4を介して送られてくる情報検索の
要求を情報検索管理部200に転送する処理、及び情報
検索管理部200から送られてくる情報検索の結果を示
す情報が表されているWebページの送出の処理が行な
われる。
理部100によって収集された情報の蓄積、及び情報検
索管理部200による情報の検索が行なわれる。WWW
サーバ部400は、インターネット4を介して送られて
くる収集された情報を情報管理部100に転送する処
理、インターネット4を介して送られてくる情報検索の
要求を情報検索管理部200に転送する処理、及び情報
検索管理部200から送られてくる情報検索の結果を示
す情報が表されているWebページの送出の処理が行な
われる。
【0020】情報提供サイト2a、2b、2c、及び2
dは、それぞれWebページ20a、20b、20c、
及び20dをインターネット4上で公開するWWWサー
バシステムである。なお、図1においては4つの情報提
供サイトを示しているが、インターネット4に接続され
る情報提供サイトの数は任意でよい。
dは、それぞれWebページ20a、20b、20c、
及び20dをインターネット4上で公開するWWWサー
バシステムである。なお、図1においては4つの情報提
供サイトを示しているが、インターネット4に接続され
る情報提供サイトの数は任意でよい。
【0021】ユーザ端末3a及び3bは、それぞれ情報
提供サイト2a、2b、2c、及び2dや情報検索サイ
ト1から提供されるWebページを閲覧するソフトウェ
アであるブラウザ30a及び30bを実行可能なコンピ
ュータであり、インターネット4上で公開されている情
報の検索を情報検索サイト1へ依頼する情報検索者によ
って操作される。なお、図1においては2つのユーザを
示しているが、インターネット4に接続されるユーザ端
末の数も任意でよい。
提供サイト2a、2b、2c、及び2dや情報検索サイ
ト1から提供されるWebページを閲覧するソフトウェ
アであるブラウザ30a及び30bを実行可能なコンピ
ュータであり、インターネット4上で公開されている情
報の検索を情報検索サイト1へ依頼する情報検索者によ
って操作される。なお、図1においては2つのユーザを
示しているが、インターネット4に接続されるユーザ端
末の数も任意でよい。
【0022】なお、これらの情報検索サイト1、情報提
供サイト2a、2b、2c、及び2d、ユーザ端末3a
及び3bは、いずれも標準的な構成を有するコンピュー
タ、すなわち、制御プログラムを実行することで各構成
要素を制御するCPUと、ROMやRAM及び磁気記憶
装置などからなり、CPUに各構成要素を制御させる制
御プログラムの記憶やCPUが制御プログラムを実行す
る際のワークエリアあるいは各種データの記憶領域とし
て使用される記憶部と、ユーザによる操作に対応する各
種のデータが取得される入力部と、ディスプレイなどに
各種のデータを提示してユーザに通知する出力部と、ネ
ットワークに接続するためのインタフェース機能を提供
するI/F部とを備えるコンピュータを用いて構成する
こともできる。
供サイト2a、2b、2c、及び2d、ユーザ端末3a
及び3bは、いずれも標準的な構成を有するコンピュー
タ、すなわち、制御プログラムを実行することで各構成
要素を制御するCPUと、ROMやRAM及び磁気記憶
装置などからなり、CPUに各構成要素を制御させる制
御プログラムの記憶やCPUが制御プログラムを実行す
る際のワークエリアあるいは各種データの記憶領域とし
て使用される記憶部と、ユーザによる操作に対応する各
種のデータが取得される入力部と、ディスプレイなどに
各種のデータを提示してユーザに通知する出力部と、ネ
ットワークに接続するためのインタフェース機能を提供
するI/F部とを備えるコンピュータを用いて構成する
こともできる。
【0023】次に図2について説明する。同図は本発明
を実施する図1における情報検索サイト1の詳細構成を
示している。図2に示すように、情報管理部100はW
ebページ収集管理部110及び索引生成部120を備
えて構成され、情報管理検索部200は情報検索部21
0及び検索結果管理部220を備えて構成され、データ
ベース管理部300は索引ファイル310、検索結果フ
ァイル320、及び検索結果リストファイル330を備
えて構成され、そしてWWWサーバ400はHTML作
成部410を備えて構成される。
を実施する図1における情報検索サイト1の詳細構成を
示している。図2に示すように、情報管理部100はW
ebページ収集管理部110及び索引生成部120を備
えて構成され、情報管理検索部200は情報検索部21
0及び検索結果管理部220を備えて構成され、データ
ベース管理部300は索引ファイル310、検索結果フ
ァイル320、及び検索結果リストファイル330を備
えて構成され、そしてWWWサーバ400はHTML作
成部410を備えて構成される。
【0024】Webページ収集管理部110はインター
ネット4上で公開されているWebページ20の自動収
集を定期的に行なう。索引作成管理部120は、Web
ページ収集管理部110によって収集されたWebペー
ジ20の位置情報、すなわちWebページ20が存在す
るインターネット4上の論理的な位置を示す位置情報を
引くことのできる索引となるレコードを作成して索引フ
ァイル310に登録する。索引作成管理部120はWe
bページ解析部121、単語抽出管理部123、索引登
録部126を備えて構成されている。
ネット4上で公開されているWebページ20の自動収
集を定期的に行なう。索引作成管理部120は、Web
ページ収集管理部110によって収集されたWebペー
ジ20の位置情報、すなわちWebページ20が存在す
るインターネット4上の論理的な位置を示す位置情報を
引くことのできる索引となるレコードを作成して索引フ
ァイル310に登録する。索引作成管理部120はWe
bページ解析部121、単語抽出管理部123、索引登
録部126を備えて構成されている。
【0025】Webページ解析部121はWebページ
20の解析を行なってWebページ20を表現している
HTMLファイルの本文に記述されている各HTMLタ
グをレコードの単位とするHTMLフィルタテーブル1
22を作成する。単語抽出管理部123では、HTML
フィルタテーブル122に示されている文字列において
それらがWebページ20の画面として表示されたとき
に強調されているとみなし得る文字書式の条件を解析す
る処理が文字強調解析部124で行なわれ、また、HT
MLフィルタテーブル122に示されている文字列の解
析が文字列解析部125で行なわれてその文字列から単
語が抽出される。
20の解析を行なってWebページ20を表現している
HTMLファイルの本文に記述されている各HTMLタ
グをレコードの単位とするHTMLフィルタテーブル1
22を作成する。単語抽出管理部123では、HTML
フィルタテーブル122に示されている文字列において
それらがWebページ20の画面として表示されたとき
に強調されているとみなし得る文字書式の条件を解析す
る処理が文字強調解析部124で行なわれ、また、HT
MLフィルタテーブル122に示されている文字列の解
析が文字列解析部125で行なわれてその文字列から単
語が抽出される。
【0026】索引登録部126は、文字列解析部125
によって抽出された単語を見出し語とし、その見出し語
に、Webページ20についてのインターネット4上に
おける論理的な位置情報と、その単語が含まれていたW
ebページ20の要約と、Webページ20でその単語
に設定されていた書式が文字強調解析部124での解析
によって得られた文字書式の条件に合致することを示す
属性フラグとを対応付けた索引レコードを索引ファイル
310に登録する。
によって抽出された単語を見出し語とし、その見出し語
に、Webページ20についてのインターネット4上に
おける論理的な位置情報と、その単語が含まれていたW
ebページ20の要約と、Webページ20でその単語
に設定されていた書式が文字強調解析部124での解析
によって得られた文字書式の条件に合致することを示す
属性フラグとを対応付けた索引レコードを索引ファイル
310に登録する。
【0027】情報検索部210は、インターネット4に
接続されているいずれかのユーザ端末で実行されている
ブラウザ30の制御によってそのユーザ端末から送られ
てくる情報検索の要求をWWWサーバ部400から取得
し、その情報検索の条件を示す検索式をその要求から取
り出して検索式格納部211に格納する。そして、索引
ファイル310を検索してその検索式に示されている単
語(キーワード)が見出しとなっている索引レコードを
取得して検索結果ファイル320に格納する。
接続されているいずれかのユーザ端末で実行されている
ブラウザ30の制御によってそのユーザ端末から送られ
てくる情報検索の要求をWWWサーバ部400から取得
し、その情報検索の条件を示す検索式をその要求から取
り出して検索式格納部211に格納する。そして、索引
ファイル310を検索してその検索式に示されている単
語(キーワード)が見出しとなっている索引レコードを
取得して検索結果ファイル320に格納する。
【0028】検索結果管理部220は、情報検索部21
0による検索が完了すると、検索結果ファイル320に
格納されている索引データに示されている位置情報及び
要約と、その索引レコードでその位置情報に対応して付
されている属性フラグの合計数とを検索結果リストファ
イル330に格納する。そして、検索結果リストファイ
ル330に格納された位置情報を合計数に従ってソート
する。
0による検索が完了すると、検索結果ファイル320に
格納されている索引データに示されている位置情報及び
要約と、その索引レコードでその位置情報に対応して付
されている属性フラグの合計数とを検索結果リストファ
イル330に格納する。そして、検索結果リストファイ
ル330に格納された位置情報を合計数に従ってソート
する。
【0029】HTML作成部410は、検索結果リスト
ファイル330に格納されているソートされた位置情報
からなる検索結果リストを受け取ってその検索結果リス
トが表現されるWebページを表現するHTMLファイ
ルを作成する。作成されたHTMLファイルはブラウザ
30が実行されているユーザ端末へ宛ててWWWサーバ
部400によりインターネット4に送出される。
ファイル330に格納されているソートされた位置情報
からなる検索結果リストを受け取ってその検索結果リス
トが表現されるWebページを表現するHTMLファイ
ルを作成する。作成されたHTMLファイルはブラウザ
30が実行されているユーザ端末へ宛ててWWWサーバ
部400によりインターネット4に送出される。
【0030】次に、情報検索サイト1の有する情報管理
部100において行なわれる、Webページの収集及び
索引の生成の処理の詳細について説明する。図3は、イ
ンターネット4に公開されていて情報検索サイト1によ
って収集されるWebページ20の例を示している。同
図において、(b)に示すHTMLソースがブラウザ3
0によって閲覧されると同図(a)に示す画面が表示さ
れる。
部100において行なわれる、Webページの収集及び
索引の生成の処理の詳細について説明する。図3は、イ
ンターネット4に公開されていて情報検索サイト1によ
って収集されるWebページ20の例を示している。同
図において、(b)に示すHTMLソースがブラウザ3
0によって閲覧されると同図(a)に示す画面が表示さ
れる。
【0031】ここで図4について説明する。同図は情報
管理部100で実行される索引生成処理の処理内容を示
すフローチャートである。この処理が実行されることに
よって、Webページの収集及び索引の生成が情報管理
部100で行なわれる。まず、S101において、現在
の日付が、予め指定されているWebページ20の収集
指定日であるか否かがWebページ収集管理部110で
判別され、この判定結果がYes、すなわち現在がその
指定日となったときにのみ、処理がS102に進む。こ
の日付の指定の仕方は任意であるが、例えば毎月の月末
最終日などといった指定が行なわれる。
管理部100で実行される索引生成処理の処理内容を示
すフローチャートである。この処理が実行されることに
よって、Webページの収集及び索引の生成が情報管理
部100で行なわれる。まず、S101において、現在
の日付が、予め指定されているWebページ20の収集
指定日であるか否かがWebページ収集管理部110で
判別され、この判定結果がYes、すなわち現在がその
指定日となったときにのみ、処理がS102に進む。こ
の日付の指定の仕方は任意であるが、例えば毎月の月末
最終日などといった指定が行なわれる。
【0032】S102ではインターネット4上で公開さ
れているWebページ20の巡回・収集の処理がWeb
ページ収集管理部110によって行なわれる。この巡回
・収集の手法は周知のロボット型検索エンジンで従来か
ら行なわれているものをそのまま利用すればよい。
れているWebページ20の巡回・収集の処理がWeb
ページ収集管理部110によって行なわれる。この巡回
・収集の手法は周知のロボット型検索エンジンで従来か
ら行なわれているものをそのまま利用すればよい。
【0033】S103では、Webページ解析部121
において、前ステップで収集された多数のWebページ
20を1ページずつ指し示すためのポインタであるペー
ジポインタとして使用される変数mに初期値1が代入さ
れる。S104ではS102の処理によって収集された
Webページ20におけるページポインタmの現在の値
で指し示されるページの構造がWebページ解析部12
1によって解析され、続くS105においてHTMLフ
ィルタテーブル122がWebページ解析部121によ
って生成される。
において、前ステップで収集された多数のWebページ
20を1ページずつ指し示すためのポインタであるペー
ジポインタとして使用される変数mに初期値1が代入さ
れる。S104ではS102の処理によって収集された
Webページ20におけるページポインタmの現在の値
で指し示されるページの構造がWebページ解析部12
1によって解析され、続くS105においてHTMLフ
ィルタテーブル122がWebページ解析部121によ
って生成される。
【0034】図3に示したWebページから生成される
HTMLフィルタテーブルを図5に示す。Webページ
解析部121によって図3(b)に示したHTMLソー
スが解析されると図5に示すHTMLフィルタテーブル
が生成される。S104の処理内容について図3(b)
を参照しながら更に説明すると、Webページ解析部1
21では、解析対象のHTMLソースの本文、すなわち
<BODY>の開始タグと終了タグとの間に挟まれている部分
が解析の対象とされ、その部分における<BR>タグ(改行
タグ)が文の区切りとされてその本文中に含まれる各文
の構造が解析される。
HTMLフィルタテーブルを図5に示す。Webページ
解析部121によって図3(b)に示したHTMLソー
スが解析されると図5に示すHTMLフィルタテーブル
が生成される。S104の処理内容について図3(b)
を参照しながら更に説明すると、Webページ解析部1
21では、解析対象のHTMLソースの本文、すなわち
<BODY>の開始タグと終了タグとの間に挟まれている部分
が解析の対象とされ、その部分における<BR>タグ(改行
タグ)が文の区切りとされてその本文中に含まれる各文
の構造が解析される。
【0035】図3(b)に示すHTMLソースから図5
に示すHTMLフィルタテーブルが作成される様子につ
いて説明すると、まず、HTMLソースにおける本文の
記述部分である<BODY>タグの開始タグと終了タグとの間
に挟まれている部分、すなわち<BODY>タグと</BODY> タ
グとに挟まれている部分がS104の処理による解析の
対象とされる。
に示すHTMLフィルタテーブルが作成される様子につ
いて説明すると、まず、HTMLソースにおける本文の
記述部分である<BODY>タグの開始タグと終了タグとの間
に挟まれている部分、すなわち<BODY>タグと</BODY> タ
グとに挟まれている部分がS104の処理による解析の
対象とされる。
【0036】ここで、まず、解析対象の部分における最
初の<BR>タグが記述されている箇所までの部分、すなわ
ち、「 <FONT SIZE="6"COLOR="#FF0000"><B>簡単料理</
B></FONT> 」なる部分が解析される。ここで、<FONT SI
ZE="6"COLOR="#FF0000">なるタグは、<FONT>の開始タグ
と終了タグとの間に挟まれている部分に記述されている
「簡単料理」なる文字列について、文字サイズを「6」
なる大きさとし且つ文字色を「#FF0000」なる数
値で示される色として表示することを示している。な
お、この数値で示される色は赤色である。
初の<BR>タグが記述されている箇所までの部分、すなわ
ち、「 <FONT SIZE="6"COLOR="#FF0000"><B>簡単料理</
B></FONT> 」なる部分が解析される。ここで、<FONT SI
ZE="6"COLOR="#FF0000">なるタグは、<FONT>の開始タグ
と終了タグとの間に挟まれている部分に記述されている
「簡単料理」なる文字列について、文字サイズを「6」
なる大きさとし且つ文字色を「#FF0000」なる数
値で示される色として表示することを示している。な
お、この数値で示される色は赤色である。
【0037】また、<B> なるタグは、<FONT>の開始タグ
と終了タグとの間に挟まれている部分に記述されている
「簡単料理」なる文字列を太字で表示することを示して
いる。S104による解析処理は上述した解析を行なう
ものであり、この後に実行されるS105の処理によっ
て、HTMLページフィルタ122にはこの解析結果の
内容を意味する図5の第1行目に示すレコードが格納さ
れる。このレコードを説明すると、「文字列」の欄には
「簡単料理」が格納され、「種別」の欄には「簡単料
理」が文字列であることを示す「STRING」が格納
され、「文字列属性」の欄には「簡単料理」の文字列に
ついて「文字サイズ」を「6」、「色」を「赤」として
表示することを示す属性が格納される。さらに「文字列
属性」における「太字」の欄にフラグ「1」が格納され
ることによって「簡単料理」の文字列を太字で表示する
ことが示されていたことが分かる。そして、その次に
「種別」が「BR」であることのみを内容とする、<BR>
タグの存在を示すレコードがHTMLページフィルタ1
22の第2行目に格納される。
と終了タグとの間に挟まれている部分に記述されている
「簡単料理」なる文字列を太字で表示することを示して
いる。S104による解析処理は上述した解析を行なう
ものであり、この後に実行されるS105の処理によっ
て、HTMLページフィルタ122にはこの解析結果の
内容を意味する図5の第1行目に示すレコードが格納さ
れる。このレコードを説明すると、「文字列」の欄には
「簡単料理」が格納され、「種別」の欄には「簡単料
理」が文字列であることを示す「STRING」が格納
され、「文字列属性」の欄には「簡単料理」の文字列に
ついて「文字サイズ」を「6」、「色」を「赤」として
表示することを示す属性が格納される。さらに「文字列
属性」における「太字」の欄にフラグ「1」が格納され
ることによって「簡単料理」の文字列を太字で表示する
ことが示されていたことが分かる。そして、その次に
「種別」が「BR」であることのみを内容とする、<BR>
タグの存在を示すレコードがHTMLページフィルタ1
22の第2行目に格納される。
【0038】以下、図3(b)に示すHTMLソースの
本文部分における残りの部分の解析も同様に行なわれ、
こうして図5に示すHTMLページフィルタ122が生
成される。なお、<FONT>タグにおけるSIZE属性は、"+1"
や"-1"などというように、通常の表示文字サイズに対す
る相対値で示されている場合もあるが、そのようなとき
にはその相対値を文字サイズとして登録するようにし、
文字サイズの指定がなされていない文字列については"
0" を文字サイズとして登録する。
本文部分における残りの部分の解析も同様に行なわれ、
こうして図5に示すHTMLページフィルタ122が生
成される。なお、<FONT>タグにおけるSIZE属性は、"+1"
や"-1"などというように、通常の表示文字サイズに対す
る相対値で示されている場合もあるが、そのようなとき
にはその相対値を文字サイズとして登録するようにし、
文字サイズの指定がなされていない文字列については"
0" を文字サイズとして登録する。
【0039】図4の説明へ戻り、S106ではHTML
ページフィルタ122に格納された文字列において、索
引属性の基準の設定、すなわち強調表示を行なうことが
設定されているとみなせる文字列属性の基準を解析して
その基準を設定する処理が文字強調解析部124で行な
われる。この処理の詳細は後述する。
ページフィルタ122に格納された文字列において、索
引属性の基準の設定、すなわち強調表示を行なうことが
設定されているとみなせる文字列属性の基準を解析して
その基準を設定する処理が文字強調解析部124で行な
われる。この処理の詳細は後述する。
【0040】S107では文字列解析部125によって
HTMLフィルタテーブル122の各行(レコード)を
順番にひとつずつ指定するためのポインタであるフィル
タポインタとして使用される変数nに初期値1が代入さ
れる。S108では、上述したフィルタポインタnによ
って指定される行に示されている文字列の種別を示すデ
ータが「STRING」であるか否かが文字列解析部1
25によって判別され、この判別の結果がYesならば
S109に処理が進み、NoならばS115に処理が進
む。
HTMLフィルタテーブル122の各行(レコード)を
順番にひとつずつ指定するためのポインタであるフィル
タポインタとして使用される変数nに初期値1が代入さ
れる。S108では、上述したフィルタポインタnによ
って指定される行に示されている文字列の種別を示すデ
ータが「STRING」であるか否かが文字列解析部1
25によって判別され、この判別の結果がYesならば
S109に処理が進み、NoならばS115に処理が進
む。
【0041】S109では、フィルタポインタnによっ
て指定される行に示されている文字列に、S106の処
理によって設定された基準に基づいて索引属性を設定す
る処理が文字列解析部125によって行なわれる。この
処理の詳細も後述する。その後、S110においてフィ
ルタポインタnによって指定される行に示されている文
字列から単語を切り出す処理が文字列解析部125によ
って行なわれ、S111において、その切り出された単
語からその品詞が名詞である単語を抽出する処理が文字
列解析部125によって続けて行なわれる。
て指定される行に示されている文字列に、S106の処
理によって設定された基準に基づいて索引属性を設定す
る処理が文字列解析部125によって行なわれる。この
処理の詳細も後述する。その後、S110においてフィ
ルタポインタnによって指定される行に示されている文
字列から単語を切り出す処理が文字列解析部125によ
って行なわれ、S111において、その切り出された単
語からその品詞が名詞である単語を抽出する処理が文字
列解析部125によって続けて行なわれる。
【0042】なお、S110における単語の切り出しの
処理には周知の方式を採用する。この周知の方式として
は、例えばいわゆる形態素解析を利用し、切り出した単
語の品詞と活用形を各種の辞書を用いてその単語の標準
形を取得してその標準形の単語を文字列から切り出した
単語とする方式や、文字列の切り出しをその文字列の先
頭から1文字ずつずらしながら順に長さNの語を機械的
に切り出すいわゆるNグラム方式などがある。
処理には周知の方式を採用する。この周知の方式として
は、例えばいわゆる形態素解析を利用し、切り出した単
語の品詞と活用形を各種の辞書を用いてその単語の標準
形を取得してその標準形の単語を文字列から切り出した
単語とする方式や、文字列の切り出しをその文字列の先
頭から1文字ずつずらしながら順に長さNの語を機械的
に切り出すいわゆるNグラム方式などがある。
【0043】S112では、上述したS111の処理に
よって抽出された単語が存在したか否かが文字列解析部
125によって判別され、この判定結果がYesならば
S113に処理が進み、NoならばS115に処理が進
む。S113では、前述したS111の処理によって抽
出された単語を見出しとし、その単語が含まれていたペ
ージの位置情報と、そのページに記載されている文章の
要約と、その単語が含まれていた文字列に対してS10
9の処理によって設定された文字属性とをその見出しの
単語に対応付けた索引が索引登録部126で生成され、
続くS114の処理によって生成された索引が索引ファ
イル310に登録される。
よって抽出された単語が存在したか否かが文字列解析部
125によって判別され、この判定結果がYesならば
S113に処理が進み、NoならばS115に処理が進
む。S113では、前述したS111の処理によって抽
出された単語を見出しとし、その単語が含まれていたペ
ージの位置情報と、そのページに記載されている文章の
要約と、その単語が含まれていた文字列に対してS10
9の処理によって設定された文字属性とをその見出しの
単語に対応付けた索引が索引登録部126で生成され、
続くS114の処理によって生成された索引が索引ファ
イル310に登録される。
【0044】S115では、文字列解析部125によっ
て前述したフィルタポインタnの指示が1だけ進められ
る。S116では、フィルタポインタnの現在の数値に
よって指定される行がHTMLフィルタテーブル122
に存在する最終の行を超えてしまったか否かが文字列解
析部125によって判別され、この判別結果がYesな
らば処理がS117に進み、NoならばS108へ処理
が戻って上述した処理が繰り返される。
て前述したフィルタポインタnの指示が1だけ進められ
る。S116では、フィルタポインタnの現在の数値に
よって指定される行がHTMLフィルタテーブル122
に存在する最終の行を超えてしまったか否かが文字列解
析部125によって判別され、この判別結果がYesな
らば処理がS117に進み、NoならばS108へ処理
が戻って上述した処理が繰り返される。
【0045】S117では、Webページ解析部121
によって前述したページポインタmの指示が1だけ進め
られる。S118では、ページポインタmの現在の数値
によって指定されるページがWebページ収集管理部1
10によって収集されたWebページ20の最終のペー
ジを超えてしまったか否かがWebページ解析部121
によって判別され、この判別の結果がYesならばこの
索引生成処理が終了する。一方、この判別処理の結果が
NoならばS104へ処理が戻って上述した処理が繰り
返される。
によって前述したページポインタmの指示が1だけ進め
られる。S118では、ページポインタmの現在の数値
によって指定されるページがWebページ収集管理部1
10によって収集されたWebページ20の最終のペー
ジを超えてしまったか否かがWebページ解析部121
によって判別され、この判別の結果がYesならばこの
索引生成処理が終了する。一方、この判別処理の結果が
NoならばS104へ処理が戻って上述した処理が繰り
返される。
【0046】以上までの処理が索引生成処理である。次
に、上述した索引生成処理におけるS106の処理とし
て文字強調解析部124で行なわれる索引属性の基準設
定処理の詳細について説明する。図6は索引属性の基準
設定処理の処理内容を示すフローチャートである。
に、上述した索引生成処理におけるS106の処理とし
て文字強調解析部124で行なわれる索引属性の基準設
定処理の詳細について説明する。図6は索引属性の基準
設定処理の処理内容を示すフローチャートである。
【0047】まず、S121において、HTMLフィル
タテーブル122における「種別」が「STRING」
である行の文字列の文字数の合計が、「文字列属性」に
おける文字サイズ毎に算出される。次に、S122にお
いて、各文字サイズの出現率、すなわちHTMLフィル
タテーブル122に示されている全ての文字列の文字数
に対する各文字サイズの文字数の割合が算出される。
タテーブル122における「種別」が「STRING」
である行の文字列の文字数の合計が、「文字列属性」に
おける文字サイズ毎に算出される。次に、S122にお
いて、各文字サイズの出現率、すなわちHTMLフィル
タテーブル122に示されている全ての文字列の文字数
に対する各文字サイズの文字数の割合が算出される。
【0048】S123では、予め設定されている文字サ
イズについての基準出現率Sが取得される。S124で
は、S122の処理によって算出された出現率が文字サ
イズの大きい順に累計加算され、続くS125におい
て、その累計値が基準値Sを上回ったか否かが判別され
る。そして、この判別結果がYesとなったときに処理
がS126に進む。一方、この判別結果がNoである間
は、S124の処理が繰り返される。
イズについての基準出現率Sが取得される。S124で
は、S122の処理によって算出された出現率が文字サ
イズの大きい順に累計加算され、続くS125におい
て、その累計値が基準値Sを上回ったか否かが判別され
る。そして、この判別結果がYesとなったときに処理
がS126に進む。一方、この判別結果がNoである間
は、S124の処理が繰り返される。
【0049】S126では、前ステップの判別処理の結
果がYesとなったときにその直前のS124の処理で
加算された出現率に対応する文字サイズよりもひとつ大
きい文字サイズが基準文字サイズEsizeとして設定
される。後述する索引属性の基準設定処理においては、
この基準文字サイズEsize以上の文字サイズの属性
の設定されている文字列が、Webページ20において
強調表示を行なっている文字列であるとみなされる。
果がYesとなったときにその直前のS124の処理で
加算された出現率に対応する文字サイズよりもひとつ大
きい文字サイズが基準文字サイズEsizeとして設定
される。後述する索引属性の基準設定処理においては、
この基準文字サイズEsize以上の文字サイズの属性
の設定されている文字列が、Webページ20において
強調表示を行なっている文字列であるとみなされる。
【0050】S127では、HTMLフィルタテーブル
122における「種別」が「STRING」である行に
示されている全ての文字列の文字数の合計が、「文字列
属性」における文字色毎に算出される。S128では、
各文字色の出現率、すなわちHTMLフィルタテーブル
122に示されている全ての文字列の文字数に対する各
文字色の文字数の割合が算出される。
122における「種別」が「STRING」である行に
示されている全ての文字列の文字数の合計が、「文字列
属性」における文字色毎に算出される。S128では、
各文字色の出現率、すなわちHTMLフィルタテーブル
122に示されている全ての文字列の文字数に対する各
文字色の文字数の割合が算出される。
【0051】S129では、予め設定されている文字色
についての基準出現率Cが取得される。S130では、
出現率が基準出現率C以上である文字色Cnが存在する
か否かが判別され、この判別結果がYesのときにの
み、S131において、この文字色Cnが基準色Eco
lorとして設定される。後述する索引属性の基準設定
処理においては、この基準色Ecolorとは異なる文
字色の属性の設定されている文字列が、Webページ2
0において強調表示を行なっている文字列であるとみな
される。
についての基準出現率Cが取得される。S130では、
出現率が基準出現率C以上である文字色Cnが存在する
か否かが判別され、この判別結果がYesのときにの
み、S131において、この文字色Cnが基準色Eco
lorとして設定される。後述する索引属性の基準設定
処理においては、この基準色Ecolorとは異なる文
字色の属性の設定されている文字列が、Webページ2
0において強調表示を行なっている文字列であるとみな
される。
【0052】S130及びS131の処理を終えるとこ
の索引属性の基準設定処理が終了し、前述した図4へと
処理が戻る。以上までの処理が索引属性の基準設定処理
である。次に、上述した索引属性の基準設定処理を図8
の例を用いて更に説明する。
の索引属性の基準設定処理が終了し、前述した図4へと
処理が戻る。以上までの処理が索引属性の基準設定処理
である。次に、上述した索引属性の基準設定処理を図8
の例を用いて更に説明する。
【0053】図8(A)は、文書1なるWebページに
含まれる文字の出現率を示しており、はS122まで
の処理によって得られた各文字サイズの出現率を示すテ
ーブル、はS128までの処理によって得られた各文
字色の出現率を示すテーブルである。
含まれる文字の出現率を示しており、はS122まで
の処理によって得られた各文字サイズの出現率を示すテ
ーブル、はS128までの処理によって得られた各文
字色の出現率を示すテーブルである。
【0054】今、S123の処理によって取得された文
字サイズについての基準出現率Sが10%であったとす
る。において、文字サイズが「5」以上のものについ
ての出現率の合計は3%+5%=8%であり、この値は
上述した基準出現率Sを下回っている。一方、文字サイ
ズが「4」以上のものについての出現率の合計は3%+
5%+70%=78%であり、この値は上述した基準出
現率Sを超えている。従って、S125の判別処理は、
S124の処理において文字サイズが「4」以上のもの
についての出現率の合計を算出したときにその結果がY
esとなる。そして、このときに実行されるS126で
は、その直前のS124の処理で加算された出現率に対
応する文字サイズよりもひとつ大きい文字サイズ、すな
わち、「5」が基準文字サイズEsizeとして設定さ
れる。従って、後述する索引属性の基準設定処理におい
ては、「5」以上の文字サイズの属性が設定されている
文字列、すなわち文字サイズが「5」若しくは「6」に
設定されている文字列がWebページ20において強調
表示を行なっている文字列であるとみなされる。
字サイズについての基準出現率Sが10%であったとす
る。において、文字サイズが「5」以上のものについ
ての出現率の合計は3%+5%=8%であり、この値は
上述した基準出現率Sを下回っている。一方、文字サイ
ズが「4」以上のものについての出現率の合計は3%+
5%+70%=78%であり、この値は上述した基準出
現率Sを超えている。従って、S125の判別処理は、
S124の処理において文字サイズが「4」以上のもの
についての出現率の合計を算出したときにその結果がY
esとなる。そして、このときに実行されるS126で
は、その直前のS124の処理で加算された出現率に対
応する文字サイズよりもひとつ大きい文字サイズ、すな
わち、「5」が基準文字サイズEsizeとして設定さ
れる。従って、後述する索引属性の基準設定処理におい
ては、「5」以上の文字サイズの属性が設定されている
文字列、すなわち文字サイズが「5」若しくは「6」に
設定されている文字列がWebページ20において強調
表示を行なっている文字列であるとみなされる。
【0055】次に、S129の処理によって取得された
文字色についての基準出現率Cについて、文書1に含ま
れる文字の文字色についての出現率のうちの最大のもの
とすることが予め設定されていたとする。において、
出現率が最大の文字色は「黒」であり、その出現率は9
0%である。よってS129の処理ではこの出現率が基
準出現率Cとして設定されるため、続くS130及びS
131の処理では、出現率が基準出現率C以上である文
字色、すなわちここでは出現率が90%以上である黒色
のみが基準色Ecolorとして設定される。従って、
後述する索引属性の基準設定処理においては、黒色とは
異なる文字色の属性が設定されている文字列、すなわち
ここでは文字色が「赤」若しくは「青」である文字列が
Webページ20において強調表示を行なっている文字
列であるとみなされる。
文字色についての基準出現率Cについて、文書1に含ま
れる文字の文字色についての出現率のうちの最大のもの
とすることが予め設定されていたとする。において、
出現率が最大の文字色は「黒」であり、その出現率は9
0%である。よってS129の処理ではこの出現率が基
準出現率Cとして設定されるため、続くS130及びS
131の処理では、出現率が基準出現率C以上である文
字色、すなわちここでは出現率が90%以上である黒色
のみが基準色Ecolorとして設定される。従って、
後述する索引属性の基準設定処理においては、黒色とは
異なる文字色の属性が設定されている文字列、すなわち
ここでは文字色が「赤」若しくは「青」である文字列が
Webページ20において強調表示を行なっている文字
列であるとみなされる。
【0056】図8(B)は、文書2なるWebページに
含まれる文字の出現率を示しており、はS122まで
の処理によって得られた各文字サイズの出現率を示すテ
ーブル、はS128までの処理によって得られた各文
字色の出現率を示すテーブルである。
含まれる文字の出現率を示しており、はS122まで
の処理によって得られた各文字サイズの出現率を示すテ
ーブル、はS128までの処理によって得られた各文
字色の出現率を示すテーブルである。
【0057】今、S123の処理によって取得された文
字サイズについての基準出現率Sが文書1のWebペー
ジと同様に10%であったとする。において、文字サ
イズが「4」以上のものについての出現率の合計は1%
であり、この値は上述した基準出現率Sを下回ってい
る。一方、文字サイズが「3」以上のものについての出
現率の合計は1%+99%=100%であり、この値は
上述した基準出現率Sを超えている。従って、S125
の判別処理は、S124の処理において文字サイズが
「3」以上のものについての出現率の合計を算出したと
きにその結果がYesとなる。そして、このときに実行
されるS126では、その直前のS124の処理で加算
された出現率に対応する文字サイズよりもひとつ大きい
文字サイズ、すなわち、「4」が基準文字サイズEsi
zeとして設定される。従って、後述する索引属性の基
準設定処理においては、「4」以上の文字サイズの属性
が設定されている文字列、すなわち文字サイズが「5」
に設定されている文字列がWebページ20において強
調表示を行なっている文字列であるとみなされる。
字サイズについての基準出現率Sが文書1のWebペー
ジと同様に10%であったとする。において、文字サ
イズが「4」以上のものについての出現率の合計は1%
であり、この値は上述した基準出現率Sを下回ってい
る。一方、文字サイズが「3」以上のものについての出
現率の合計は1%+99%=100%であり、この値は
上述した基準出現率Sを超えている。従って、S125
の判別処理は、S124の処理において文字サイズが
「3」以上のものについての出現率の合計を算出したと
きにその結果がYesとなる。そして、このときに実行
されるS126では、その直前のS124の処理で加算
された出現率に対応する文字サイズよりもひとつ大きい
文字サイズ、すなわち、「4」が基準文字サイズEsi
zeとして設定される。従って、後述する索引属性の基
準設定処理においては、「4」以上の文字サイズの属性
が設定されている文字列、すなわち文字サイズが「5」
に設定されている文字列がWebページ20において強
調表示を行なっている文字列であるとみなされる。
【0058】次に、S129の処理によって取得された
文字色についての基準出現率Cが10%であったとす
る。において、S130及びS131の処理では、出
現率が基準出現率C以上である文字色、すなわちここで
は出現率が10%以上である赤色及び青色が基準色Ec
olorとして設定される。従って、後述する索引属性
の基準設定処理においては、赤色若しくは青色のどちら
とも異なる文字色の属性が設定されている文字列、すな
わちここでは文字色が「黒」である文字列がWebペー
ジ20において強調表示を行なっている文字列であると
みなされる。
文字色についての基準出現率Cが10%であったとす
る。において、S130及びS131の処理では、出
現率が基準出現率C以上である文字色、すなわちここで
は出現率が10%以上である赤色及び青色が基準色Ec
olorとして設定される。従って、後述する索引属性
の基準設定処理においては、赤色若しくは青色のどちら
とも異なる文字色の属性が設定されている文字列、すな
わちここでは文字色が「黒」である文字列がWebペー
ジ20において強調表示を行なっている文字列であると
みなされる。
【0059】次に、前述した索引生成処理におけるS1
09の処理として文字列解析部125で行なわれる索引
属性の設定処理の詳細について説明する。まず、S14
1では、HTMLフィルタテーブル122における、前
述したフィルタポインタnの現在の値によって指定され
る行に示されている文字列属性が取得される。
09の処理として文字列解析部125で行なわれる索引
属性の設定処理の詳細について説明する。まず、S14
1では、HTMLフィルタテーブル122における、前
述したフィルタポインタnの現在の値によって指定され
る行に示されている文字列属性が取得される。
【0060】S142では、前ステップの処理によって
取得された文字列属性における文字サイズが、前述した
索引属性の基準設定処理によって設定された基準文字サ
イズEsize以上であるか否かが判別され、この判別
の結果がYesのときにのみ、S143において、前述
したフィルタポインタnの現在の値によって指定される
行に示されている文字列に対して与えられる属性が一時
的に保持される索引属性バッファに定義されている文字
サイズフラグが「1」にセットされる。
取得された文字列属性における文字サイズが、前述した
索引属性の基準設定処理によって設定された基準文字サ
イズEsize以上であるか否かが判別され、この判別
の結果がYesのときにのみ、S143において、前述
したフィルタポインタnの現在の値によって指定される
行に示されている文字列に対して与えられる属性が一時
的に保持される索引属性バッファに定義されている文字
サイズフラグが「1」にセットされる。
【0061】S144では、S141の処理によって取
得された文字列属性における文字色が、前述した索引属
性の基準設定処理によって設定された基準文字色Eco
lorと異なるか否かが判別され、この判別の結果がY
esのときにのみ、すなわち文字色が異なるときにの
み、S145において、前述したフィルタポインタnの
現在の値によって指定される行に示されている文字列に
対して与えられる属性が一時的に保持される索引属性バ
ッファに定義されている文字色フラグが「1」にセット
される。
得された文字列属性における文字色が、前述した索引属
性の基準設定処理によって設定された基準文字色Eco
lorと異なるか否かが判別され、この判別の結果がY
esのときにのみ、すなわち文字色が異なるときにの
み、S145において、前述したフィルタポインタnの
現在の値によって指定される行に示されている文字列に
対して与えられる属性が一時的に保持される索引属性バ
ッファに定義されている文字色フラグが「1」にセット
される。
【0062】S146では、S141の処理によって取
得された文字列属性における「太字」の欄にフラグ
「1」が格納されているか否かが判別され、この判別の
結果がYesのときにのみ、S147において、前述し
たフィルタポインタnの現在の値によって指定される行
に示されている文字列に対して与えられる属性が一時的
に保持される索引属性バッファに定義されている太字フ
ラグが「1」にセットされる。
得された文字列属性における「太字」の欄にフラグ
「1」が格納されているか否かが判別され、この判別の
結果がYesのときにのみ、S147において、前述し
たフィルタポインタnの現在の値によって指定される行
に示されている文字列に対して与えられる属性が一時的
に保持される索引属性バッファに定義されている太字フ
ラグが「1」にセットされる。
【0063】S146及びS147の処理を終えるとこ
の索引属性の設定処理が終了し、前述した図4へと処理
が戻る。以上までの処理が索引属性の設定処理である。
図3に例示したWebページ20に対して以上までに説
明した図4の単語索引生成処理が施されることによって
生成される索引ファイル310のデータ構造を図9に示
す。なお、同図においては、図3に示したWebページ
20の公開されているインターネット4上の論理的な位
置を「文書1」として示しているが、例えばこの位置情
報をURL(Uniform Resource Locator)で示すように
しても勿論構わない。
の索引属性の設定処理が終了し、前述した図4へと処理
が戻る。以上までの処理が索引属性の設定処理である。
図3に例示したWebページ20に対して以上までに説
明した図4の単語索引生成処理が施されることによって
生成される索引ファイル310のデータ構造を図9に示
す。なお、同図においては、図3に示したWebページ
20の公開されているインターネット4上の論理的な位
置を「文書1」として示しているが、例えばこの位置情
報をURL(Uniform Resource Locator)で示すように
しても勿論構わない。
【0064】図9における見出し語「簡単」の行を例に
して索引ファイル310を説明すると、「簡単」の語は
インターネット4上における「文書1」なる位置で公開
されているWebページ20に含まれており、Webペ
ージ20中でこの語は文字サイズによる強調表示、文字
色による強調表示、及び太字による強調表示の全てがな
されていることが示されている。図3を参照すれば、
「簡単」の語について上述した強調表示を行なせること
が示されている。
して索引ファイル310を説明すると、「簡単」の語は
インターネット4上における「文書1」なる位置で公開
されているWebページ20に含まれており、Webペ
ージ20中でこの語は文字サイズによる強調表示、文字
色による強調表示、及び太字による強調表示の全てがな
されていることが示されている。図3を参照すれば、
「簡単」の語について上述した強調表示を行なせること
が示されている。
【0065】次に、情報検索サイト1の有する情報検索
管理部200において行なわれる情報検索の処理の詳細
について、具体例を提示して説明する。図10は情報管
理検索部200で実行される検索処理の処理内容を示す
フローチャートである。まず、同図に沿って検索処理の
処理内容を説明する。
管理部200において行なわれる情報検索の処理の詳細
について、具体例を提示して説明する。図10は情報管
理検索部200で実行される検索処理の処理内容を示す
フローチャートである。まず、同図に沿って検索処理の
処理内容を説明する。
【0066】S201では、ブラウザ30から送られて
くる、情報検索の要求及びその検索の対象である単語が
示されている検索式が受信されたか否かが情報検索部2
10で判別され、この判別結果がYesとなったときに
のみ、処理がS202に進む。なお、情報検索部210
では、検索式が送られてくるとその検索式を検索式格納
部211に格納する。
くる、情報検索の要求及びその検索の対象である単語が
示されている検索式が受信されたか否かが情報検索部2
10で判別され、この判別結果がYesとなったときに
のみ、処理がS202に進む。なお、情報検索部210
では、検索式が送られてくるとその検索式を検索式格納
部211に格納する。
【0067】S202では送られてきた検索式が情報検
索部210で解析され、その検索式から検索対象である
単語が切り出される。S203では、検索単語が切り出
された順番で、その検索単語をキーとした索引ファイル
310の見出し語の検索が情報検索部210によって行
なわれる。
索部210で解析され、その検索式から検索対象である
単語が切り出される。S203では、検索単語が切り出
された順番で、その検索単語をキーとした索引ファイル
310の見出し語の検索が情報検索部210によって行
なわれる。
【0068】S204では、前ステップでの検索の結
果、検索単語に一致する見出し語が発見されたか否かが
情報検索部210によって判別され、この判別の結果が
YesならばS205に処理が進み、NoならばS20
7に処理が進む。S205では、情報検索部210によ
って、検索単語に一致する見出し語の含まれていた検索
レコードから位置情報、要約、及び属性フラグが全て取
得され、続くS206において、この検索単語に一致す
る見出し語と、位置情報、要約、及び属性フラグとから
なるレコードが情報検索部210によって検索結果ファ
イル320に格納される。
果、検索単語に一致する見出し語が発見されたか否かが
情報検索部210によって判別され、この判別の結果が
YesならばS205に処理が進み、NoならばS20
7に処理が進む。S205では、情報検索部210によ
って、検索単語に一致する見出し語の含まれていた検索
レコードから位置情報、要約、及び属性フラグが全て取
得され、続くS206において、この検索単語に一致す
る見出し語と、位置情報、要約、及び属性フラグとから
なるレコードが情報検索部210によって検索結果ファ
イル320に格納される。
【0069】S207では、前述したS202の処理に
よって切り出された全ての検索単語について前述したS
203の検索の処理が行なわれたか否かが情報検索部2
10によって判別され、この判別の結果がYesならば
S208に処理が進み、一方この判別の結果がNoなら
ばS203へと処理が戻って未だ検索の処理の行なわれ
ていない検索単語について上述した処理が行なわれる。
よって切り出された全ての検索単語について前述したS
203の検索の処理が行なわれたか否かが情報検索部2
10によって判別され、この判別の結果がYesならば
S208に処理が進み、一方この判別の結果がNoなら
ばS203へと処理が戻って未だ検索の処理の行なわれ
ていない検索単語について上述した処理が行なわれる。
【0070】ここで、S208において、検索結果ファ
イル320に格納されている位置情報のうち前述したS
202の処理によって切り出された全ての検索単語に該
当する位置情報、すなわち検索結果ファイル320の全
てのレコードに共通に含まれている位置情報が検索結果
管理部220によって検索結果ファイル320から要約
と共に抽出される。
イル320に格納されている位置情報のうち前述したS
202の処理によって切り出された全ての検索単語に該
当する位置情報、すなわち検索結果ファイル320の全
てのレコードに共通に含まれている位置情報が検索結果
管理部220によって検索結果ファイル320から要約
と共に抽出される。
【0071】S209では、前ステップでの処理によっ
て位置情報の抽出が行なえたか否か、すなわち検索結果
ファイル320の全てのレコードに共通に含まれている
位置情報が存在したか否かが検索結果管理部220によ
って判別され、この判別の結果がYesならばS210
に処理が進み、NoならばS213に処理が進む。
て位置情報の抽出が行なえたか否か、すなわち検索結果
ファイル320の全てのレコードに共通に含まれている
位置情報が存在したか否かが検索結果管理部220によ
って判別され、この判別の結果がYesならばS210
に処理が進み、NoならばS213に処理が進む。
【0072】S210では、前述したS208の処理に
よって抽出された位置情報と、検索結果ファイル320
においてその位置情報に対応付けられて格納されている
要約とが検索結果管理部220によって検索結果リスト
ファイル330に格納される。
よって抽出された位置情報と、検索結果ファイル320
においてその位置情報に対応付けられて格納されている
要約とが検索結果管理部220によって検索結果リスト
ファイル330に格納される。
【0073】S211では、検索結果ファイル320に
おいて、前述したS208の処理によって抽出された位
置情報に対応付けられて格納されている属性フラグの個
数がその位置情報毎に検索結果管理部220によって計
数され、この計数結果が属性ポイント数として検索結果
リストファイル330に格納される。
おいて、前述したS208の処理によって抽出された位
置情報に対応付けられて格納されている属性フラグの個
数がその位置情報毎に検索結果管理部220によって計
数され、この計数結果が属性ポイント数として検索結果
リストファイル330に格納される。
【0074】S212では、前ステップによって計数さ
れた属性ポイントの計数値の大きい順となるように検索
結果リストファイル330が検索結果管理部220によ
ってソートされる。S213では、検索結果リストファ
イル330に基づき、ソートされた後の検索結果リスト
の内容をWebページで表現するHTMLファイルがH
TML作成部410によって作成され、続くS214に
おいて、作成されたHTMLファイルがWWWサーバ部
400によって前述した検索式の送信元であるブラウザ
30へ宛てて送出され、この検索処理が終了する。
れた属性ポイントの計数値の大きい順となるように検索
結果リストファイル330が検索結果管理部220によ
ってソートされる。S213では、検索結果リストファ
イル330に基づき、ソートされた後の検索結果リスト
の内容をWebページで表現するHTMLファイルがH
TML作成部410によって作成され、続くS214に
おいて、作成されたHTMLファイルがWWWサーバ部
400によって前述した検索式の送信元であるブラウザ
30へ宛てて送出され、この検索処理が終了する。
【0075】以上までの処理が検索処理である。次に、
この検索処理について、索引ファイル310として図9
に示したものが情報データベース管理部300に格納さ
れている場合を例にして説明する。まず、ブラウザ30
から検索式が送られてくると、S201の判別の結果が
Yesとなり、続くS202において検索単語の切り出
しが行なわれる。ここでは、このS202の処理の結
果、検索単語として「ハンバーグ」、「トマト」の各語
が切り出されたものとする。
この検索処理について、索引ファイル310として図9
に示したものが情報データベース管理部300に格納さ
れている場合を例にして説明する。まず、ブラウザ30
から検索式が送られてくると、S201の判別の結果が
Yesとなり、続くS202において検索単語の切り出
しが行なわれる。ここでは、このS202の処理の結
果、検索単語として「ハンバーグ」、「トマト」の各語
が切り出されたものとする。
【0076】検索単語の切り出しが完了すると処理はS
203に進み、まず、索引ファイル310の見出し語に
ついて検索単語「ハンバーグ」の検索が行なわれ、図9
における見出し語「ハンバーグ」についてのレコードが
発見される。従ってS204の判別処理の結果はYes
となり、S205に処理が進む。
203に進み、まず、索引ファイル310の見出し語に
ついて検索単語「ハンバーグ」の検索が行なわれ、図9
における見出し語「ハンバーグ」についてのレコードが
発見される。従ってS204の判別処理の結果はYes
となり、S205に処理が進む。
【0077】S205では発見されたレコードから位置
情報、要約、及び属性フラグが全て取得され、続くS2
06においてその位置情報、要約、及び属性フラグから
なるレコードが検索結果ファイル320に格納される。
その後、S207における判別処理が行なわれるが、前
述したS202の処理によって切り出された検索単語の
うち「トマト」についてはS203の検索の処理が未だ
行なわれていないので、S207の判別処理の結果はN
oとなり、処理はS203へと戻る。
情報、要約、及び属性フラグが全て取得され、続くS2
06においてその位置情報、要約、及び属性フラグから
なるレコードが検索結果ファイル320に格納される。
その後、S207における判別処理が行なわれるが、前
述したS202の処理によって切り出された検索単語の
うち「トマト」についてはS203の検索の処理が未だ
行なわれていないので、S207の判別処理の結果はN
oとなり、処理はS203へと戻る。
【0078】以降、検索単語「トマト」について上述し
た検索単語「ハンバーグ」と同様の処理が行なわれ、図
9に示す索引ファイル310から見出し語「トマト」に
ついてのレコードが発見されてそのレコードにおける位
置情報、文字列、及びリンクフラグと検索単語「トマ
ト」とからなるレコードが検索結果ファイル320に格
納される。
た検索単語「ハンバーグ」と同様の処理が行なわれ、図
9に示す索引ファイル310から見出し語「トマト」に
ついてのレコードが発見されてそのレコードにおける位
置情報、文字列、及びリンクフラグと検索単語「トマ
ト」とからなるレコードが検索結果ファイル320に格
納される。
【0079】以上までの処理によって生成される検索結
果ファイル320の内容を図11に示す。この図11に
示す検索結果ファイル320が生成された後にはS20
7の判別処理の結果がNoとなり、処理はS208に進
む。
果ファイル320の内容を図11に示す。この図11に
示す検索結果ファイル320が生成された後にはS20
7の判別処理の結果がNoとなり、処理はS208に進
む。
【0080】S208では、検索結果ファイル320の
全てのレコードに共通に含まれている位置情報の抽出が
行なわれ、その結果、「ハンバーグ」及び「トマト」の
両レコードに共通に含まれている位置情報としてここで
は「文書1」、「文書2」、及び「文書3」の3つが抽
出されとものとする。従って、続くS209の判別処理
の結果はYesとなり、処理はS210に進む。
全てのレコードに共通に含まれている位置情報の抽出が
行なわれ、その結果、「ハンバーグ」及び「トマト」の
両レコードに共通に含まれている位置情報としてここで
は「文書1」、「文書2」、及び「文書3」の3つが抽
出されとものとする。従って、続くS209の判別処理
の結果はYesとなり、処理はS210に進む。
【0081】S210では、抽出された「文書1」、
「文書2」、及び「文書3」の3つの位置情報と、検索
結果ファイル320においてその位置情報に対応付けら
れて格納されている文字列とが検索結果リストファイル
330に格納され、続くS211において、抽出された
位置情報「文書1」、「文書2」、及び「文書3」の各
々に対応付けられて格納されている属性フラグの個数が
それぞれ計数され、その計数結果が属性ポイント数とし
て検索結果リストファイル330に格納される。
「文書2」、及び「文書3」の3つの位置情報と、検索
結果ファイル320においてその位置情報に対応付けら
れて格納されている文字列とが検索結果リストファイル
330に格納され、続くS211において、抽出された
位置情報「文書1」、「文書2」、及び「文書3」の各
々に対応付けられて格納されている属性フラグの個数が
それぞれ計数され、その計数結果が属性ポイント数とし
て検索結果リストファイル330に格納される。
【0082】ここで図12について説明する。同図は、
検索結果リストファイル330の内容を示しており、上
述したS211までの処理によって、同図(a)に示す
ものが検索結果リストファイル330として作成され
る。図11に示す検索結果ファイル320では、「文書
1」についての属性フラグは合計6つ格納されているの
で、図12(a)に示す検索結果リストファイル330
における位置情報「文書1」についての属性ポイント数
は「6」とされる。
検索結果リストファイル330の内容を示しており、上
述したS211までの処理によって、同図(a)に示す
ものが検索結果リストファイル330として作成され
る。図11に示す検索結果ファイル320では、「文書
1」についての属性フラグは合計6つ格納されているの
で、図12(a)に示す検索結果リストファイル330
における位置情報「文書1」についての属性ポイント数
は「6」とされる。
【0083】「文書2」及び「文書3」の属性ポイント
についても同様であり、図11に示す検索結果ファイル
320より、図12(a)に示す検索結果リストファイ
ル330における「文書2」についての属性ポイント数
は「0」とされ、「文書3」についての属性ポイント数
は「3」とされる。
についても同様であり、図11に示す検索結果ファイル
320より、図12(a)に示す検索結果リストファイ
ル330における「文書2」についての属性ポイント数
は「0」とされ、「文書3」についての属性ポイント数
は「3」とされる。
【0084】前述したS211までの処理によって図1
2(a)にその内容を示す検索結果リストファイル33
0が作成されると、続くS212において、属性ポイン
ト数値の大きい順となるように検索結果リストファイル
330のソートが行なわれる。図12(a)の検索結果
リストファイル330に対して属性ポイント数に基づく
ソートの行なわれた結果が図12(b)に示されている
ものであり、各行の順番が属性ポイントの高い「文書
1」、「文書3」、「文書2」の順に並べ替えられてい
る。
2(a)にその内容を示す検索結果リストファイル33
0が作成されると、続くS212において、属性ポイン
ト数値の大きい順となるように検索結果リストファイル
330のソートが行なわれる。図12(a)の検索結果
リストファイル330に対して属性ポイント数に基づく
ソートの行なわれた結果が図12(b)に示されている
ものであり、各行の順番が属性ポイントの高い「文書
1」、「文書3」、「文書2」の順に並べ替えられてい
る。
【0085】その後、S213において、図12(b)
のようにソートが行なわれた検索結果リストファイル3
30の内容をWebページで表現するHTMLファイル
が作成され、続くS214において作成されたHTML
ファイルが送出されてこの検索処理が終了する。
のようにソートが行なわれた検索結果リストファイル3
30の内容をWebページで表現するHTMLファイル
が作成され、続くS214において作成されたHTML
ファイルが送出されてこの検索処理が終了する。
【0086】作成されたHTMLファイルがブラウザ3
0によって閲覧されることによって表示される、情報検
索の結果を示すWebページの画面例を図13に示す。
同図に示す画面において、「ハンバーグ」及び「トマ
ト」の語についての検索結果であって重要度の高い情報
の得られることの期待されるものから優先的に並べられ
ている、「文書1」、「文書3」及び「文書2」の位置
情報には各々その位置情報で示されるWebページ20
へのハイパーリンクが埋め込まれ、この検索結果の利用
者への便宜が図られている。
0によって閲覧されることによって表示される、情報検
索の結果を示すWebページの画面例を図13に示す。
同図に示す画面において、「ハンバーグ」及び「トマ
ト」の語についての検索結果であって重要度の高い情報
の得られることの期待されるものから優先的に並べられ
ている、「文書1」、「文書3」及び「文書2」の位置
情報には各々その位置情報で示されるWebページ20
へのハイパーリンクが埋め込まれ、この検索結果の利用
者への便宜が図られている。
【0087】なお、以上までに説明した実施形態におけ
るWebページ20についてのHTMLソースの解析で
は、その文字列がWebページ20中で強調されている
かどうかを、<FONT>タグ及び<B> タグの記述に基づいて
判定しているが、この他のタグの記述に基づいてこの判
定を行なうようにしてもよい。この強調の判定に採用す
ることのできるタグの例としては、文字列を斜体文字で
表示させる<I> タグや文字列に下線を付す<U> タグ、あ
るいは標準的なブラウザでは単に太字文字で文字列を表
示させるに過ぎないもののWebページに記載されてい
る文章を音声により読み上げる音声ブラウザではその文
字列を強く発音させるようにすることのできる<STRONG>
タグなどがある。また、文字列の表示に使用されるフォ
ントの種類を指定するためのFACE属性が指定されている
<FONT>タグに基づき、そのWebページの表示ために通
常使用されるものとは異なるフォントが指定されている
文字列はそのWebページにおいて強調されているもの
と判定するようにしてもよい。
るWebページ20についてのHTMLソースの解析で
は、その文字列がWebページ20中で強調されている
かどうかを、<FONT>タグ及び<B> タグの記述に基づいて
判定しているが、この他のタグの記述に基づいてこの判
定を行なうようにしてもよい。この強調の判定に採用す
ることのできるタグの例としては、文字列を斜体文字で
表示させる<I> タグや文字列に下線を付す<U> タグ、あ
るいは標準的なブラウザでは単に太字文字で文字列を表
示させるに過ぎないもののWebページに記載されてい
る文章を音声により読み上げる音声ブラウザではその文
字列を強く発音させるようにすることのできる<STRONG>
タグなどがある。また、文字列の表示に使用されるフォ
ントの種類を指定するためのFACE属性が指定されている
<FONT>タグに基づき、そのWebページの表示ために通
常使用されるものとは異なるフォントが指定されている
文字列はそのWebページにおいて強調されているもの
と判定するようにしてもよい。
【0088】なお、以上までに説明した本発明の実施形
態において情報サイト1が行なっていた索引生成処理及
び検索処理と同様の処理を前述したような標準的な構成
を有するコンピュータに行なわせるための制御プログラ
ムを作成し、その制御プログラムをそのコンピュータに
読み込ませて実行させることにより、このようなコンピ
ュータで本発明を実施することができる。
態において情報サイト1が行なっていた索引生成処理及
び検索処理と同様の処理を前述したような標準的な構成
を有するコンピュータに行なわせるための制御プログラ
ムを作成し、その制御プログラムをそのコンピュータに
読み込ませて実行させることにより、このようなコンピ
ュータで本発明を実施することができる。
【0089】また、このような制御プログラムをコンピ
ュータで読み取り可能な記録媒体に記録させ、そのプロ
グラムを記録媒体からコンピュータに読み出させて実行
させることによって本発明をコンピュータで実施するこ
とも可能である。記録させた制御プログラムをコンピュ
ータで読み取ることの可能な記録媒体の例を図14に示
す。同図に示すように、記録媒体としては、例えば、コ
ンピュータ501に内蔵若しくは外付けの付属装置とし
て備えられるROMやハードディスク装置などの記憶装
置502、あるいはフレキシブルディスク、MO(光磁
気ディスク)、CD−ROM、DVD−ROMなどとい
った携帯可能記録媒体503等が利用できる。また、記
録媒体はネットワーク504を介してコンピュータ50
1と接続される、プログラムサーバ505として機能す
るコンピュータが備えている記憶装置506であっても
よい。この場合には、制御プログラムを表現するデータ
信号で搬送波を変調して得られる伝送信号を、プログラ
ムサーバ5055から伝送媒体であるネットワーク50
4を通じて伝送するようにし、コンピュータ501では
受信した伝送信号を復調して制御プログラムを再生する
ことで当該制御プログラムを実行できるようになる。
ュータで読み取り可能な記録媒体に記録させ、そのプロ
グラムを記録媒体からコンピュータに読み出させて実行
させることによって本発明をコンピュータで実施するこ
とも可能である。記録させた制御プログラムをコンピュ
ータで読み取ることの可能な記録媒体の例を図14に示
す。同図に示すように、記録媒体としては、例えば、コ
ンピュータ501に内蔵若しくは外付けの付属装置とし
て備えられるROMやハードディスク装置などの記憶装
置502、あるいはフレキシブルディスク、MO(光磁
気ディスク)、CD−ROM、DVD−ROMなどとい
った携帯可能記録媒体503等が利用できる。また、記
録媒体はネットワーク504を介してコンピュータ50
1と接続される、プログラムサーバ505として機能す
るコンピュータが備えている記憶装置506であっても
よい。この場合には、制御プログラムを表現するデータ
信号で搬送波を変調して得られる伝送信号を、プログラ
ムサーバ5055から伝送媒体であるネットワーク50
4を通じて伝送するようにし、コンピュータ501では
受信した伝送信号を復調して制御プログラムを再生する
ことで当該制御プログラムを実行できるようになる。
【0090】
【発明の効果】本発明によれば、通信ネットワーク上で
公開されている文書情報に含まれている文字列を構成す
る単語に、その文書情報の位置を示す位置情報、及びそ
の文字列に与えられている強調を示す強調属性を対応付
けて索引ファイルに登録することで、検索対象を表す単
語に基づいてその索引ファイルの検索を行った場合に、
その検索によって取得された位置情報のうち、その位置
情報に対応付けられた単語に強調属性が対応付けられて
いるものを優先して提示することができるので、検索目
的に対してより適切な情報検索結果を情報検索者に提供
することができる。
公開されている文書情報に含まれている文字列を構成す
る単語に、その文書情報の位置を示す位置情報、及びそ
の文字列に与えられている強調を示す強調属性を対応付
けて索引ファイルに登録することで、検索対象を表す単
語に基づいてその索引ファイルの検索を行った場合に、
その検索によって取得された位置情報のうち、その位置
情報に対応付けられた単語に強調属性が対応付けられて
いるものを優先して提示することができるので、検索目
的に対してより適切な情報検索結果を情報検索者に提供
することができる。
【図1】本発明を実施する情報検索サイトが情報検索サ
ービスを提供する通信ネットテワークの全体構成を示す
図である。
ービスを提供する通信ネットテワークの全体構成を示す
図である。
【図2】情報検索サイトの詳細構成を示す図である。
【図3】Webページの一例を示す図である。
【図4】単語索引生成処理の処理内容を示すフローチャ
ートである。
ートである。
【図5】HTMLフィルタテーブルの例を示す図であ
る。
る。
【図6】索引属性の基準設定処理の処理内容を示すフロ
ーチャートである。
ーチャートである。
【図7】索引属性の設定処理の処理内容を示すフローチ
ャートである。
ャートである。
【図8】索引属性の設定処理を説明する図である。
【図9】索引ファイルのデータ構造を示す図である。
【図10】検索処理の処理内容を示すフローチャートで
ある。
ある。
【図11】索引結果ファイルの例を示す図である。
【図12】索引結果リストファイルのソートの様子を示
す図である。
す図である。
【図13】情報検索の結果を示すWebページの画面例
を示す図である。
を示す図である。
【図14】記録させたプログラムをコンピュータで読み
取ることの可能な記録媒体の例を示す図である。
取ることの可能な記録媒体の例を示す図である。
1 情報検索サイト
2a、2b、2c、2d 情報提供サイト
3a、3b ユーザ端末
4 インターネット
20、20a、20b、20c、20d Webページ
30、30a、30b ブラウザ
100 情報管理部
110 Webページ収集管理部
120 索引作成管理部
121 Webページ解析部
122 HTMLフィルタテーブル
123 単語抽出管理部
124 文字強調解析部
125 文字列解析部
126 索引登録部
200 情報検索管理部
210 情報検索部
211 検索式格納部
220 検索結果管理部
300 データベース管理部
310 索引ファイル
320 検索結果ファイル
330 検索結果リストファイル
400 WWWサーバ部
410 HTML作成部
501 コンピュータ
502、506 記憶装置
503 携帯可能記録媒体
504 ネットワーク
505 プログラムサーバ
Claims (7)
- 【請求項1】 通信ネットワーク上で公開されている文
書情報に含まれている単語と、該通信ネットワーク上の
論理的な位置を示す情報であって該単語を含む情報が存
在する文書情報位置を示す位置情報とを対応付けてなる
索引ファイルを用意し、検索の対象を表す単語に基づい
て該索引ファイルを検索して該検索対象を表す単語に対
応している位置情報を提示するシステムであって、 前記文書情報に含まれている文字列に与えられている属
性であって強調を示す強調属性を取得する強調属性取得
手段と、 前記文字列から単語を抽出する抽出手段と、 前記抽出手段によって抽出された単語に、該単語につい
ての前記位置情報と該単語の抽出元の文字列に与えられ
ている前記強調属性とを対応付けて前記索引ファイルに
登録する登録手段と、 前記検索対象を表す単語に基づいて前記索引ファイルの
検索を行なって該単語に対応付けられている位置情報を
該索引ファイルから取得する検索手段と、 前記検索手段によって取得された位置情報のうち、前記
索引ファイルにおいて該検索手段が該位置情報の検索の
対象とした単語に前記強調属性が対応付けられているも
のを優先して該位置情報を提示する提示手段と、 を有することを特徴とする情報検索システム。 - 【請求項2】 前記文書情報に含まれている文字列に与
えられている属性は、該文字列を表示するときに用いら
れる文字の大きさを示す属性、若しくは該文字列を表示
するために用いられる文字の色彩を示す属性であること
を特徴とする請求項1に記載の情報検索システム。 - 【請求項3】 前記強調属性取得手段は、 前記文書情報に含まれている文字列に与えられている属
性についての該文書情報における出現頻度を該属性毎に
算出する出現頻度算出手段と、 前記属性が前記強調属性であるか否かを判別する基準を
該属性毎の出現頻度に基づいて設定する強調属性設定手
段と、 前記基準に基づいて、前記文書情報に含まれている文字
列に与えられている属性が前記強調属性であるか否かを
判別する強調属性判別手段と、 を有することを特徴とする請求項1又は2に記載の情報
検索システム。 - 【請求項4】 前記強調属性取得手段は、前記文書情報
に含まれている文字列に与えられている属性が該文字列
を表示するために用いられる文字を太字とする旨を示し
ているときには、該属性を前記強調属性であるとみなす
ことを特徴とする請求項1に記載の情報検索システム。 - 【請求項5】 前記提示手段は、前記検索手段によって
取得された位置情報のうち、前記検索ファイルにおいて
該検索手段が該位置情報の検索の対象とした単語に対応
付けられている前記強調属性の数が多いものほど優先し
て該位置情報を提示することを特徴とする請求項1に記
載の情報検索システム。 - 【請求項6】 通信ネットワーク上で公開されている文
書情報に含まれている単語と、該通信ネットワーク上の
論理的な位置を示す情報であって該単語を含む情報が存
在する文書情報位置を示す位置情報とを対応付けてなる
索引ファイルを用意し、検索の対象を表す単語に基づい
て該索引ファイルを検索して該検索対象を表す単語に対
応している位置情報を提示する方法であって、 前記文書情報に含まれている文字列に与えられている属
性であって強調を示す強調属性を取得し、 前記文字列から単語を抽出し、 前記文字列から抽出された単語に、該単語についての前
記位置情報と該単語の抽出元の文字列に与えられている
前記強調属性とを対応付けて前記索引ファイルに登録
し、 前記検索対象を表す単語に基づいて前記索引ファイルの
検索を行なって該単語に対応付けられている位置情報を
該索引ファイルから取得し、 前記検索によって取得された位置情報のうち、前記検索
ファイルにおいて該位置情報の検索の対象とした単語に
前記強調属性が対応付けられているものを優先して該位
置情報を提示する、 ことを特徴とする情報検索方法。 - 【請求項7】 コンピュータに実行させることにより、
通信ネットワーク上で公開されている文書情報に含まれ
ている単語と該通信ネットワーク上の論理的な位置を示
す情報であって該単語を含む情報が存在する文書情報位
置を示す位置情報とを対応付けてなる索引ファイルを用
意する処理と、検索の対象を表す単語に基づいて該索引
ファイルを検索して該検索対象を表す単語に対応してい
る位置情報を提示する処理とを該コンピュータに行なわ
せるためのプログラムであって、 前記文書情報に含まれている文字列に与えられている属
性であって強調を示す強調属性を取得する処理と、 前記文字列から単語を抽出する処理と、 前記文字列から抽出された単語に、該単語についての前
記位置情報と該単語の抽出元の文字列に与えられている
前記強調属性とを対応付けて前記索引ファイルに登録す
る処理と、 前記検索対象を表す単語に基づいて前記索引ファイルの
検索を行なって該単語に対応付けられている位置情報を
該索引ファイルから取得する処理と、 前記検索によって取得された位置情報のうち、前記検索
ファイルにおいて該位置情報の検索の対象とした単語に
前記強調属性が対応付けられているものを優先して該位
置情報を提示する処理と、 をコンピュータに行なわせるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001212555A JP2003030228A (ja) | 2001-07-12 | 2001-07-12 | 情報検索システム、情報検索方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001212555A JP2003030228A (ja) | 2001-07-12 | 2001-07-12 | 情報検索システム、情報検索方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003030228A true JP2003030228A (ja) | 2003-01-31 |
Family
ID=19047698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001212555A Pending JP2003030228A (ja) | 2001-07-12 | 2001-07-12 | 情報検索システム、情報検索方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003030228A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007500903A (ja) * | 2003-07-28 | 2007-01-18 | グーグル・インク | 拡張検索クエリを有するユーザインターフェースを提供するシステム |
JP2009075977A (ja) * | 2007-09-21 | 2009-04-09 | Fujifilm Corp | 携帯端末閲覧文書配信サーバ、携帯端末、及び携帯端末閲覧文書配信システム |
-
2001
- 2001-07-12 JP JP2001212555A patent/JP2003030228A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007500903A (ja) * | 2003-07-28 | 2007-01-18 | グーグル・インク | 拡張検索クエリを有するユーザインターフェースを提供するシステム |
JP4731479B2 (ja) * | 2003-07-28 | 2011-07-27 | グーグル・インク | 検索システム及び検索方法 |
US8856163B2 (en) | 2003-07-28 | 2014-10-07 | Google Inc. | System and method for providing a user interface with search query broadening |
JP2009075977A (ja) * | 2007-09-21 | 2009-04-09 | Fujifilm Corp | 携帯端末閲覧文書配信サーバ、携帯端末、及び携帯端末閲覧文書配信システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9111008B2 (en) | Document information management system | |
US6999959B1 (en) | Meta search engine | |
US6564254B1 (en) | System and a process for specifying a location on a network | |
US6199081B1 (en) | Automatic tagging of documents and exclusion by content | |
US7003506B1 (en) | Method and system for creating an embedded search link document | |
JP4241934B2 (ja) | テキスト処理及び検索システム及び方法 | |
US6883001B2 (en) | Document information search apparatus and method and recording medium storing document information search program therein | |
US20020091684A1 (en) | Information rearrangement method, information processing apparatus and information processing system, and storage medium and program transmission apparatus therefor | |
EP1428139A2 (en) | System and method for extracting content for submission to a search engine | |
EP0979466A1 (en) | Browse by prompted keyword phrases with an improved user interface | |
KR100359233B1 (ko) | 웹 정보 추출 방법 및 시스템 | |
JPWO2003042869A1 (ja) | 情報検索支援装置、コンピュータプログラム、プログラム格納媒体 | |
US20080256058A1 (en) | Highlighting of Search Terms in a Meta Search Engine | |
JP4469432B2 (ja) | インターネット情報処理装置、インターネット情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2003141155A (ja) | Webページ検索システムおよびWebページ検索プログラム | |
WO2001024046A2 (en) | Authoring, altering, indexing, storing and retrieving electronic documents embedded with contextual markup | |
JP4610543B2 (ja) | 期間抽出装置,期間抽出方法,その方法を実装した期間抽出プログラム及びそのプログラムを格納した記録媒体 | |
JP4189387B2 (ja) | 知識検索システム、知識検索方法及びプログラム | |
JP2003030228A (ja) | 情報検索システム、情報検索方法、及びプログラム | |
JP3429225B2 (ja) | データ検索プログラムを記憶した記憶媒体 | |
JP2940488B2 (ja) | 文書グループ化装置および文書グループ化方法 | |
JP2003030235A (ja) | 情報検索システム、情報検索方法、及びプログラム | |
JPH117452A (ja) | ネットワークを介した情報収集方法および装置と該方法を実施するプログラムを記録した記録媒体 | |
KR100942902B1 (ko) | 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 | |
JPH1145252A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |