JP2000293527A - Html文書検索システムへのデータ登録システム、方法および記録媒体 - Google Patents

Html文書検索システムへのデータ登録システム、方法および記録媒体

Info

Publication number
JP2000293527A
JP2000293527A JP11095403A JP9540399A JP2000293527A JP 2000293527 A JP2000293527 A JP 2000293527A JP 11095403 A JP11095403 A JP 11095403A JP 9540399 A JP9540399 A JP 9540399A JP 2000293527 A JP2000293527 A JP 2000293527A
Authority
JP
Japan
Prior art keywords
url
keyword
document
html
file name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11095403A
Other languages
English (en)
Other versions
JP3430066B2 (ja
Inventor
Hideki Ishii
秀城 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Software Chubu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Software Chubu Ltd filed Critical NEC Software Chubu Ltd
Priority to JP09540399A priority Critical patent/JP3430066B2/ja
Publication of JP2000293527A publication Critical patent/JP2000293527A/ja
Application granted granted Critical
Publication of JP3430066B2 publication Critical patent/JP3430066B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書検索システムへ効率的なデータ登録を実
現し、検索効率を向上させる。 【解決手段】 Webロボット20はHTML文書デー
タ21に保存する。データ登録システム10のコード変
換処理部11は、日本語文字コードの変換を行い、キー
ワード抽出部12は、HTML文書を形態素解析してす
べての名詞をキーワードとして抽出する。データ比較部
13は、過去に保存された保存キーワード14内のキー
ワードとキーワード抽出部12で抽出されたキーワード
との比較を行う。登録URL決定部15は、文書検索シ
ステム30に登録するURL、タイトルを決定し、デー
タ登録部16は、URL、タイトルとキーワード抽出部
12で抽出したキーワードとを文書検索システム30に
登録する処理を行い、保存キーワード14にも、保存情
報として保存する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、HTML文書検索
システムへのデータ登録システム、方法および記録媒体
に関し、特に、利用者の検索効率を向上させるHTML
文書検索システムへのデータ登録システム、方法および
記録媒体に関する。
【0002】
【従来の技術】この種の従来技術としては、「特開平1
0−91638号公報」記載の技術が存在する。この技
術は、ネットワーク(たとえば、インターネットのWW
W)上でロボットを用いて収集したデータ(たとえばペ
ージのようなハイパーメディアデータ)をもとにデータ
ベースを作成し、検索要求に応じてデータベース検索を
行う検索システムであって、データベース化の対象とす
べきデータの更新頻度(たとえば、統計的な更新頻度、
あるいは最終更新時刻)の範囲がデータベース固有に割
り当てられ、データの更新頻度が該割り当てられた更新
頻度の範囲内にあることまたはデータの属するデータ群
(たとえば、サイト)における平均的な更新頻度が該割
り当てられた更新頻度の範囲内にあることを少なくとも
条件として、該当するデータを収集し所定の構造のデー
タベースを作成するデータベース作成手段を備えたもの
である。
【0003】また、その他の従来技術としては、インタ
ーネット上でサービスされているHTML文書データの
検索システムのデータ登録処理をHTML文書の更新実
施をWWWサーバから送信される最終更新日付で判断
し、最終更新日付に変更があったHTML文書データを
必ず更新する技術が存在する。
【0004】
【発明が解決しようとする課題】上述した従来技術の第
1の問題点は、HTML文書の内容が変更されていない
にも関わらず、HTML文書の更新を行ってしまう場合
があることである。
【0005】その理由は、WWWサーバの種類、および
その設定方法によって、HTML文書の内容が変更され
ているかどうかに関わらず、最終更新日を更新してしま
うWWWサーバがインターネット上に存在するからであ
る。
【0006】また、第2の問題点は、文書検索システム
に利用者が探したい条件を入力して検索を実行すると、
同種のHTML文書が多数検索され、求めるHTML文
書を探すために時間がかかることである。
【0007】その理由は、同一ディレクトリ下の多数の
HTML文書が、別のデータとして登録されているから
である。
【0008】本発明の目的は、以上の問題点を解決し、
利用者の検索効率を向上させるHTML文書検索システ
ムへのデータ登録システム、方法および記録媒体を実現
することである。
【0009】
【課題を解決するための手段】本発明の第1のHTML
文書検索システムへのデータ登録システムは、インター
ネットから採取したHTML文書からURL、およびキ
ーワードを抽出して保存情報として保存し、新たに採取
したHTML文書のURLと前記保存情報内のURLと
を比較し、一致しなければ、前記新たに採取したHTM
L文書のURL、およびキーワードを前記保存情報とし
て別に保存し、かつ、文書検索システムに与えるための
第1の処理に進み、一致すれば、前記新たに採取したH
TML文書から抽出したキーワードとURLが一致した
前記保存情報内のキーワードとを比較し、一致しなけれ
ば、前記新たに採取したHTML文書のURL、および
キーワードを前記保存情報として別に保存し、かつ、前
記文書検索システムに与えるための第2の処理に進み、
一致すれば、前記保存情報を変更せず、前記文書検索シ
ステムにURL、キーワードを与えないようにする手段
を有する。
【0010】本発明の第2のHTML文書検索システム
へのデータ登録システムは、前記第1のHTML文書検
索システムへのデータ登録システムであって、前記第1
または前記第2の処理に進んだ場合に、前記新たに採取
したHTML文書のURLのファイル名部分がディレク
トリの代表となるHTML文書ファイル名であれば、前
記新たに採取したHTML文書のURL、およびキーワ
ードを前記保存情報として別に保存し、かつ、文書検索
システムに与え、ディレクトリの代表となるHTML文
書ファイル名でなければ、同一ディレクトリあるいは上
位ディレクトリでかつファイル名部分がディレクトリの
代表となるHTML文書ファイル名を含むURLが前記
保存情報が存在すれば、存在した前記保存情報のキーワ
ードを前記新たに採取したHTMLから抽出したキーワ
ードに置き換え、存在した前記保存情報内のURLおよ
び前記新たに採取したHTMLから抽出したキーワード
を前記文書検索システムに与える手段を有する。
【0011】本発明の第3のHTML文書検索システム
へのデータ登録システムは、前記第1のHTML文書検
索システムへのデータ登録システムであって、前記第1
または前記第2の処理に進んだ場合に、前記新たに採取
したHTML文書のURLのファイル名部分がディレク
トリの代表となるHTML文書ファイル名であれば、同
一ディレクトリでかつファイル名部分がディレクトリの
代表ではないHTMLファイル名を含むURLが前記保
存情報に存在すれば、存在した前記保存情報のURL
を、前記新たに採取したHTML文書のURLで置き換
え、前記新たに採取したHTML文書のURL、および
前記新たに採取したHTMLから抽出したキーワードを
前記検索システムに登録し、存在しなければ、前記新た
に採取したHTML文書のURL、および前記新たに採
取したHTMLから抽出したキーワードを前記検索シス
テムに登録し、前記新たに採取したHTML文書のUR
Lのファイル名部分がディレクトリの代表となるHTM
L文書ファイル名でなければ、同一ディレクトリあるい
は上位ディレクトリでかつファイル名部分がディレクト
リの代表となるHTML文書ファイル名を含むURLが
前記保存情報に存在すれば、存在した前記保存情報のキ
ーワードを前記新たに採取したHTMLから抽出したキ
ーワードに置き換え、存在した前記保存情報内のURL
および前記新たに採取したHTMLから抽出したキーワ
ード文書検索システムに与える手段を有する。
【0012】本発明の第4のHTML文書検索システム
へのデータ登録システムは、前記第1、第2、または第
3のHTML文書検索システムへのデータ登録システム
であって、(a)インターネットに接続されている多数
のWebサーバからHTML文書の取得を行い、URL
を含むHTML文書データとして保存するWebロボッ
トと、(b)前記HTML文書データからのHTML文
書の日本語文字コードの統一を行うため日本語文字コー
ドの変換を行うコード変換処理部と、(c)前記コード
変換処理部において変換されたHTML文書を形態素解
析してすべての名詞をキーワードとして抽出するキーワ
ード抽出部と、(d)すでに保存されている前記保存情
報内のキーワードと前記キーワード抽出部で抽出された
キーワードとの比較を行うデータ比較部と、(e)前記
保存情報を1以上保存する保存キーワードと、(f)前
記コード変換処理部において変換されたHTML文書か
ら前記文書検索システムに登録するURL、タイトルを
決定する登録URL決定部と、(g)前記登録URL決
定部で決定したURL、タイトルと前記キーワード抽出
部で抽出したキーワードとを前記文書検索システムに登
録する処理を行い、同時に前記キーワード抽出部で抽出
したキーワード、および前記コード変換処理部において
変換されたHTML文書からのURLを1組の保存情報
として前記保存キーワードに保存するデータ登録部と、
を有する。
【0013】本発明の第1のHTML文書検索システム
へのデータ登録方法は、インターネットから採取したH
TML文書からURL、およびキーワードを抽出して保
存情報として保存し、新たに採取したHTML文書のU
RLと前記保存情報内のURLとを比較し、一致しなけ
れば、前記新たに採取したHTML文書のURL、およ
びキーワードを前記保存情報として別に保存し、かつ、
文書検索システムに与えるための第1の処理に進み、一
致すれば、前記新たに採取したHTML文書から抽出し
たキーワードとURLが一致した前記保存情報内のキー
ワードとを比較し、一致しなければ、前記新たに採取し
たHTML文書のURL、およびキーワードを前記保存
情報として別に保存し、かつ、前記文書検索システムに
与えるための第2の処理に進み、一致すれば、前記保存
情報を変更せず、前記文書検索システムにURL、キー
ワードを与えないようにする手順を有する。
【0014】本発明の第2のHTML文書検索システム
へのデータ登録方法は、前記第1のHTML文書検索シ
ステムへのデータ登録方法であって、前記第1または前
記第2の処理に進んだ場合に、前記新たに採取したHT
ML文書のURLのファイル名部分がディレクトリの代
表となるHTML文書ファイル名であれば、前記新たに
採取したHTML文書のURL、およびキーワードを前
記保存情報として別に保存し、かつ、文書検索システム
に与え、ディレクトリの代表となるHTML文書ファイ
ル名でなければ、同一ディレクトリあるいは上位ディレ
クトリでかつファイル名部分がディレクトリの代表とな
るHTML文書ファイル名を含むURLが前記保存情報
が存在すれば、存在した前記保存情報のキーワードを前
記新たに採取したHTMLから抽出したキーワードに置
き換え、存在した前記保存情報内のURLおよび前記新
たに採取したHTMLから抽出したキーワードを前記文
書検索システムに与える手順を有する。
【0015】本発明の第3のHTML文書検索システム
へのデータ登録方法は、前記第1のHTML文書検索シ
ステムへのデータ登録方法であって、前記第1または前
記第2の処理に進んだ場合に、前記新たに採取したHT
ML文書のURLのファイル名部分がディレクトリの代
表となるHTML文書ファイル名であれば、同一ディレ
クトリでかつファイル名部分がディレクトリの代表では
ないHTMLファイル名を含むURLが前記保存情報に
存在すれば、存在した前記保存情報のURLを、前記新
たに採取したHTML文書のURLで置き換え、前記新
たに採取したHTML文書のURL、および前記新たに
採取したHTMLから抽出したキーワードを前記検索シ
ステムに登録し、存在しなければ、前記新たに採取した
HTML文書のURL、および前記新たに採取したHT
MLから抽出したキーワードを前記検索システムに登録
し、前記新たに採取したHTML文書のURLのファイ
ル名部分がディレクトリの代表となるHTML文書ファ
イル名でなければ、同一ディレクトリあるいは上位ディ
レクトリでかつファイル名部分がディレクトリの代表と
なるHTML文書ファイル名を含むURLが前記保存情
報に存在すれば、存在した前記保存情報のキーワードを
前記新たに採取したHTMLから抽出したキーワードに
置き換え、存在した前記保存情報内のURLおよび前記
新たに採取したHTMLから抽出したキーワード文書検
索システムに与える手順を有する。
【0016】本発明の第4のHTML文書検索システム
へのデータ登録方法は、(a)Webロボットによっ
て、インターネットから収集されたHTML文書の日本
語文字コードを統一するため、日本語文字コードの変換
を行い変換後HTML文書を出力する第1のステップ
と、(b)前記変換後HTML文書に対して形態素解析
を行い、全ての名詞をキーワードとして抽出し、URL
とともに出力する第2のステップと、(c)前記第2の
ステップから与えられたURLと同一のURLを含む保
存情報が存在するかどうか検索する第3のステップと、
(d)前記第3のステップにおいて、存在しないと判定
された場合には、前記第2のステップから与えられたU
RLおよびキーワードを出力する第4のステップと、
(e)前記第3のステップにおいて、同一のURLが存
在すると判定された場合には、前記第2のステップにお
いて抽出されたキーワード全体とそのURLを含む保存
情報に含まれるキーワード全体とを比較する第5のステ
ップと、(f)前記第5のステップにおける比較で一致
が検出されないと、前記第2のステップから与えられた
URLおよびキーワードを出力する第6のステップと、
(g)前記第5のステップにおける比較で一致が検出さ
れると、URL、キーワードを出力しない第7のステッ
プと、(h)前記第4のステップまたは第6のステップ
から与えられたURLのファイル名部分の抽出を行う第
8のステップと、(i)前記第8のステップにおいて抽
出されたファイル名部分が、前記インターネットから収
集されたHTML文書が存在するディレクトリの代表と
なるHTML文書ファイル名かどうか、チェックを行う
第9のステップと、(j)前記第9のステップにおいて
抽出されたファイル名部分がディレクトリの代表となる
HTML文書ファイル名である場合には、前記第2のス
テップから与えられたURLを登録するURLとして出
力する第10のステップと、(k)前記第9のステップ
において抽出されたファイル名部分がディレクトリの代
表となるHTML文書ファイル名ではない場合には、同
一ディレクトリ下で、かつファイル名部分がディレクト
リの代表となるHTML文書ファイル名に対応するUR
Lが、前記保存情報に登録されているかどうか検索を行
う第11のステップと、(l)前記第11のステップに
おいて検索できた場合には、検索された保存情報に含ま
れるURLと同じURLを登録するURLとして出力す
る第12のステップと、(m)前記第11のステップに
おいて検索できなかった場合には、1つ上位のディレク
トリ下で、かつファイル名部分がディレクトリの代表と
なるHTML文書ファイル名が保存情報に含まれている
かどうか検索を行う第13のステップと、(n)前記第
13のステップにおいて検索できた場合には、検索され
たURLと同じURLを登録するURLとして出力する
第14のステップと、(o)前記第13のステップにお
いて検索されなかった場合には、前記第2のステップか
ら与えられたURLを登録するURLとして出力する第
15のステップと、(p)前記第2のステップからのキ
ーワード、前記登録するURLを文書検索システムに登
録し、さらに、前記第2のステップからのキーワードキ
ーワード、URLを、1組の保存情報として登録する第
16のステップと、を含む。
【0017】本発明の記録媒体は、(a)Webロボッ
トによって、インターネットから収集されたHTML文
書の日本語文字コードを統一するため、日本語文字コー
ドの変換を行い変換後HTML文書を出力する第1のス
テップと、(b)前記変換後HTML文書に対して形態
素解析を行い、全ての名詞をキーワードとして抽出し、
URLとともに出力する第2のステップと、(c)前記
第2のステップから与えられたURLと同一のURLを
含む保存情報が存在するかどうか検索する第3のステッ
プと、(d)前記第3のステップにおいて、存在しない
と判定された場合には、前記第2のステップから与えら
れたURLおよびキーワードを出力する第4のステップ
と、(e)前記第3のステップにおいて、同一のURL
が存在すると判定された場合には、前記第2のステップ
において抽出されたキーワード全体とそのURLを含む
保存情報に含まれるキーワード全体とを比較する第5の
ステップと、(f)前記第5のステップにおける比較で
一致が検出されないと、前記第2のステップから与えら
れたURLおよびキーワードを出力する第6のステップ
と、(g)前記第5のステップにおける比較で一致が検
出されると、URL、キーワードを出力しない第7のス
テップと、(h)前記第4のステップまたは第6のステ
ップから与えられたURLのファイル名部分の抽出を行
う第8のステップと、(i)前記第8のステップにおい
て抽出されたファイル名部分が、前記インターネットか
ら収集されたHTML文書が存在するディレクトリの代
表となるHTML文書ファイル名かどうか、チェックを
行う第9のステップと、(j)前記第9のステップにお
いて抽出されたファイル名部分がディレクトリの代表と
なるHTML文書ファイル名である場合には、前記第2
のステップから与えられたURLを登録するURLとし
て出力する第10のステップと、(k)前記第9のステ
ップにおいて抽出されたファイル名部分がディレクトリ
の代表となるHTML文書ファイル名ではない場合に
は、同一ディレクトリ下で、かつファイル名部分がディ
レクトリの代表となるHTML文書ファイル名に対応す
るURLが、前記保存情報に登録されているかどうか検
索を行う第11のステップと、(l)前記第11のステ
ップにおいて検索できた場合には、検索された保存情報
に含まれるURLと同じURLを登録するURLとして
出力する第12のステップと、(m)前記第11のステ
ップにおいて検索できなかった場合には、1つ上位のデ
ィレクトリ下で、かつファイル名部分がディレクトリの
代表となるHTML文書ファイル名が保存情報に含まれ
ているかどうか検索を行う第13のステップと、(n)
前記第13のステップにおいて検索できた場合には、検
索されたURLと同じURLを登録するURLとして出
力する第14のステップと、(o)前記第13のステッ
プにおいて検索されなかった場合には、前記第2のステ
ップから与えられたURLを登録するURLとして出力
する第15のステップと、(p)前記第2のステップか
らのキーワード、前記登録するURLを文書検索システ
ムに登録し、さらに、前記第2のステップからのキーワ
ードキーワード、URLを、1組の保存情報として登録
する第16のステップと、をコンピュータに実行させる
プログラムを記録する。
【0018】
【発明の実施の形態】次に、本発明の第1の実施の形態
について図面を参照して詳細に説明する。図1は、本発
明の第1の実施の形態を示すブロック図である。図1を
参照すると、本発明の第1の実施の形態は、データ登録
システム10と、Webロボット20と、文書検索シス
テム30とから構成される。
【0019】Webロボット20はインターネットに接
続されており、インターネットに接続されている多数の
Webサーバ(図示せず)からHTML文書の取得を行
い、HTML文書データ21(URLを含むデータ)と
して内蔵する記憶装置に保存する。
【0020】データ登録システム10と、Webロボッ
ト20と、文書検索システム30とは、それぞれ別々の
サーバ上に構成されても、1つのサーバ上に構成されて
もよい。また、HTML文書データ21を保存する記憶
装置は、データ登録システム10に内蔵されていてもよ
い。
【0021】データ登録システム10は、コード変換処
理部11と、キーワード抽出部12と、データ比較部1
3と、保存キーワード14と、登録URL決定部15
と、データ登録部16とを備える。
【0022】コード変換処理部11は、HTML文書デ
ータ21からのHTML文書の日本語文字コードの統一
を行うため、日本語文字コードの変換を行う。たとえ
ば、シフトJIS、JIS等からUNIXで使用される
EUCコードへの変換を行う。
【0023】キーワード抽出部12は、コード変換処理
部11において変換されたHTML文書を形態素解析し
てすべての名詞をキーワードとして抽出する。データ比
較部13は、過去に保存された保存キーワード14内の
キーワードとキーワード抽出部12で抽出されたキーワ
ードとの比較を行う。
【0024】保存キーワード14は、データ登録部16
により文書検索システム30に登録されたキーワード、
およびコード変換処理部11で変換されたHTML文書
からのURLを保存する。
【0025】登録URL決定部15は、コード変換処理
部11において変換されたHTML文書から文書検索シ
ステム30に登録するURL、タイトルを決定する。
【0026】データ登録部16は、登録URL決定部1
5で決定したURL、タイトルとキーワード抽出部12
で抽出したキーワードとを文書検索システム30に登録
する処理を行い、同時にキーワード抽出部12で抽出し
たキーワード、およびコード変換処理部11において変
換されたHTML文書からのURLを1組の保存情報と
して保存キーワード14に保存する。
【0027】文書検索システム30は、データ登録シス
テム10からの指示により、内蔵する記憶装置に、UR
L、タイトル、およびキーワードを1組にして保存す
る。また、インターネットに接続されており、利用者か
ら検索キーワードを受け付け、その検索キーワードがデ
ータ登録システム10によって登録されたキーワードと
適合するかどうか検索を行い、検索されたキーワードと
一緒に登録されたURLおよびタイトルを出力する。
【0028】次に、本発明の第1の実施の形態の動作に
ついて図面を参照して説明する。図2は、本発明の第1
の実施の形態の動作を示すフローチャートである。図3
は、データ比較部13の動作を示す詳細フローチャート
である。図4は、登録URL決定部15の動作を示す詳
細フローチャートである。図5は、コード変換処理部1
1、キーワード抽出部12の動作を示す説明図である。
図6、図7は、データ比較部13の動作を示す説明図で
ある。図8、図9は、登録URL決定部15の動作を示
す説明図である。図10は、登録URL決定部15、デ
ータ登録部16の動作を示す説明図である。
【0029】Webロボット20によって、インターネ
ットから収集されたHTML文書データ21内のHTM
L文書は、データ登録システム10のコード変換処理部
11に供給される。インターネットから収集されたHT
ML文書は様々な日本語文字コードで記述されているた
め、そのままでは形態素解析やキーワードの比較などが
困難である。コード変換処理部11では、供給されたH
TML文書の日本語文字コードを統一するため、日本語
文字コードの変換を行う(図2ステップS1)。たとえ
ば、図5D0に示すシフトJISのHTML文書はUN
IXでは、文字が正確に表示されないので、EUCコー
ドに変換し、図5D1に示すように、正確に表示させ
る。
【0030】日本語文字コードの変換が行われたHTM
L文書は、キーワード抽出部12に与えられる。キーワ
ード抽出部12では、与えられたHTML文書に対して
形態素解析を行い、全ての名詞をキーワードとして抽出
する(図2ステップS2)。たとえば、図5D2に示す
ように、図5D1から<HTML>、<BODY>、<
/BODY>、</HTML>といったHTMLのタグ
と、「の」、「へ」、「で渡った。」といった名詞以外
の文字列を取り除き、図5D2を生成する。
【0031】抽出されたキーワードおよびコード変換処
理部11からのURLは、データ比較部13に与えられ
る。データ比較部13では、与えられたキーワードおよ
びURLと保存キーワード14内の保存情報との比較を
行う(図2ステップS3)。
【0032】詳細には、まず、与えられたURLと同一
のURLを含む保存情報が保存キーワード14に存在す
るかどうか検索する(図3ステップS31)。存在しな
い場合(図3ステップS32NO)には、新しく収集さ
れたHTML文書に基づくものであるから、与えられた
URLおよびキーワードを登録URL決定部15に与え
る(図3ステップS35)。
【0033】同一のURLが存在する場合(図3ステッ
プS32YES)には、与えられたキーワード全体とそ
のURLを含む保存情報に含まれるキーワード全体とを
比較する(図3ステップS33)。この比較において一
致が検出されないと(図3ステップS34NO、図6D
23、D24、D25)、新しく収集されたHTML文
書に基づくものであるから、与えられたURLおよびキ
ーワードを登録URL決定部15に与える(図3ステッ
プS35)。
【0034】一致が検出されると(図3ステップS34
YES、図7D12、D13、D14、D15)、すで
に収集されているHTML文書に基づくものであり、か
つ更新されていないものであるから、登録URL決定部
15には与えない(図3ステップS36)。
【0035】次に、登録URL決定部15では、文書検
索システム30に登録するURLを決定する(図2ステ
ップS4)。
【0036】詳細には、まず、データ比較部13から与
えられたURLからファイル名部分の抽出を行う(図4
ステップS41)。たとえば、与えられた文書のURL
がhttp://aa.bb.cc/dir/inde
x.htmlである場合は、ファイル名部分としてin
dex.htmlを抽出する(図8U1およびU2)。
【0037】次に、抽出したファイル名部分が、与えら
れた文書が存在するディレクトリの代表となるHTML
文書ファイル名かどうか、チェックを行う(図4ステッ
プS42)。たとえば、ディレクトリの代表となるHT
ML文書ファイル名には、index.htmlやho
me.htmlなどを設定し、あらかじめどのような順
番でチェックを行うか、順位を決定しておく。
【0038】以下、index.htmlおよびhom
e.htmlを、ディレクトリの代表となるHTML文
書ファイル名とし、index.html、home.
htmlの順でチェックするものとする。
【0039】抽出したファイル名部分がディレクトリの
代表となるHTML文書ファイル名である場合(図4ス
テップS42YES)には、与えられた文書のURL
を、登録するURLとして、データ登録部16に与える
(図4ステップS47)。
【0040】たとえば、与えられた文書のURLがht
tp://aa.bb.cc/dir/index.h
tmlである場合、ファイル名部分はindex.ht
mlであり、ディレクトリの代表となるHTML文書フ
ァイル名であるから、http://aa.bb.cc
/dir/index.htmlを登録するURLとし
てデータ登録部16に与える(図8U1、U2、U
3)。
【0041】抽出したファイル名部分がディレクトリの
代表となるHTML文書ファイル名ではない場合(図4
ステップS42NO)には、同一ディレクトリ下で、か
つファイル名部分がディレクトリの代表となるHTML
文書ファイル名に対応するURLが、保存キーワード1
4の保存情報に登録されているか検索を行う(図4ステ
ップS43)。
【0042】たとえば、与えられたURLがhttp:
//aa.bb.cc/dir/file.htmlで
ある場合、同一ディレクトリ下で、かつファイル名部分
がディレクトリの代表となるHTML文書ファイル名で
ある文書のURLはhttp://aa.bb.cc/
dir/index.htmlあるいはhttp://
aa.bb.cc/dir/home.htmlである
から、このURLが保存キーワード14内の保存情報に
含まれているかどうか検索を行う(図9U11、U1
2)。
【0043】検索できた場合(図4S44YES)に
は、検索された保存情報に含まれるURLと同じURL
を登録するURLとして、データ登録部16に与える
(図4ステップS48)。
【0044】たとえば、与えられた文書のURLがht
tp://aa.bb.cc/dir/file.ht
mlであり、かつ保存キーワード14にURLがhtt
p://aa.bb.cc/dir/index.ht
mlである文書が登録されている場合、http://
aa.bb.cc/dir/index.htmlを登
録するURLとしてデータ登録部16に与える(図9U
13、U14)。
【0045】検索できなかった場合(図4S44NO)
には、1つ上位のディレクトリ下で、かつファイル名部
分がディレクトリの代表となるHTML文書ファイル名
が、保存キーワード14内の保存情報に含まれているか
どうか検索を行う(図4ステップS45)。
【0046】たとえば、与えられた文書のURLがht
tp://aa.bb.cc/dir/file.ht
mlである場合、1つ上位のディレクトリ下で、かつフ
ァイル名部分がディレクトリの代表となるHTML文書
ファイル名である文書のURLはhttp://aa.
bb.cc/index.htmlあるいはhttp:
//aa.bb.cc/home.htmlであるか
ら、このURLが保存キーワード14内の保存情報に保
存されているか検索を行う(図10U21〜U24)。
【0047】検索できた場合(図4ステップS46YE
S)には、検索されたURLと同じURLを登録するU
RLとして、データ登録部16に与える(図4ステップ
S48)。
【0048】たとえば、与えられたURLがhttp:
//aa.bb.cc/dir/file.htmlで
あり、かつ保存キーワード14内の保存情報にURLが
http://aa.bb.cc/index.htm
lが登録されている場合、http://aa.bb.
cc/index.htmlを登録するURLとしてデ
ータ登録部16に与える(図10U25、U26)。
【0049】検索されなかった場合(図4ステップS4
6NO)には、与えられた文書のURLを登録するUR
Lとして、データ登録部16に与える(図4ステップS
47)。
【0050】次に、データ登録部16では、データ比較
部13からのキーワード、登録URL決定部15からの
登録するURL、およびコード変換処理部11からの対
応するタイトルを文書検索システム30に登録する。ま
た、さらに、データ比較部13からのキーワード、コー
ド変換処理部11からデータ比較部13に与えられた元
々のURLを、保存キーワード14に1組の保存情報と
して登録し処理を終了する(図2ステップS5)。
【0051】たとえば、与えられたURLがhttp:
//aa.bb.cc/dir/file.htmlで
あり、かつ保存キーワード14にURLがhttp:/
/aa.bb.cc/index.htmlである保存
情報が登録されている場合、URLをhttp://a
a.bb.cc/index.htmlとして、文書検
索システム30にキーワード、およびタイトルを登録
し、さらに、URLがhttp://aa.bb.cc
/dir/file.htmlでキーワードを含む保存
情報を保存キーワード14に登録する(図10U2
6)。
【0052】次に、本発明の第2の実施の形態について
図面を参照して詳細に説明する。図11は、本発明の第
2の実施の形態の登録URL決定部15の動作を示すフ
ローチャートである。図12、図13は、本発明の第2
の実施の形態の動作を示す説明図である。
【0053】本発明の第2の実施の形態は、登録URL
決定部15の動作が第1の実施の形態と異なる(詳細に
は、図11ステップA103〜A106の処理を有する
点が異なる)。
【0054】具体例として、保存キーワード14に図1
2D122に示すような保存情報が既に登録されてお
り、Webロボット20から、図12D121に示すよ
うなHTML文書データ21が入力された場合について
説明する。
【0055】コード変換処理部11、キーワード抽出部
12、およびデータ比較部13については、第1の実施
の形態の動作と同一であるので説明は省略する。
【0056】登録URL決定部15では、与えられた文
書のURLからファイル名部分の抽出を行う(図11ス
テップA101)。たとえば、与えられた文書のURL
がhttp://a.b.c/dd/index.ht
mlであると、ファイル名部分としてindex.ht
mlを抽出する(図13U131、U132)。
【0057】次に、抽出したファイル名部分が、与えら
れた文書が存在するディレクトリの代表となるHTML
文書ファイル名かどうか、チェックを行う(図11ステ
ップA102)。
【0058】抽出したファイル名部分がディレクトリの
代表となるHTML文書ファイル名でない場合(図11
A102NO)には、動作は第1の実施の形態と同一で
ある。
【0059】抽出したファイル名部分がディレクトリの
代表となるHTML文書ファイル名である場合(図11
A102YES)には、与えられた文書が存在するディ
レクトリ下に存在し、かつファイル名部分がディレクト
リの代表となるHTML文書ファイル名ではないURL
を含む保存情報が、保存キーワード14に登録されてい
るかどうか検索を行う(図11ステップA103)。
【0060】たとえば、与えられたURLがhttp:
//a.b.c/dd/index.htmlである
と、http://a.b.c/dd/下に存在し、か
つファイル名部分がindex.htmlあるいはho
me.htmlではないURLについて検索を行う(図
13U133)。
【0061】検索できた場合(図11A104YES)
には、検索できたURLを含む保存情報のURLを与え
られたURLに変更するように、かつ、与えられたUR
Lを文書検索システム30に登録するURLとして渡す
ように、データ登録部16指示する(図11ステップA
105)。
【0062】たとえば、URLがhttp://a.
b.c/dd/ee.htmlである保存情報(図13
U134)が検索されると、この検索された文書のUR
Lを、http://a.b.c/dd/ee.htm
lからhttp://a.b.c/dd/index.
htmlに変更し(図13U135)、文書検索システ
ム30に登録するURLはhttp://a.b.c/
dd/index.htmlに決定する(図13U13
6)。
【0063】検索されなかった場合(図11ステップA
104NO)には、与えられたURLを文書検索システ
ム30に登録するURLとして、データ登録部16に与
える(図11A106)。
【0064】データ登録部16では、データ比較部13
からのキーワード、登録URL決定部15からの登録す
るURL、およびコード変換処理部11からの対応する
タイトルを文書検索システム30に登録する。また、さ
らに、保存キーワード14内の登録URL決定部15に
おいて検索できたURLを含む保存情報のURLをコー
ド変換処理部11からデータ比較部13に与えられた元
々のURLで置き換える(図2ステップS5)。
【0065】たとえば、与えられたURLがhttp:
//a.b.c/dd/index.htmlであり、
かつ保存キーワード14にURLがhttp://a.
b.c/dd/ee.htmlである保存情報が登録さ
れている場合、URLをhttp://a.b.c/d
d/index.htmlとして、文書検索システム3
0にキーワード、およびタイトルを登録し、さらに、保
存キーワード14内のURLがhttp://a.b.
c/dd/ee.htmlである保存情報のURLをh
ttp://a.b.c/dd/index.html
に変更する。
【0066】したがって、本発明の第2の実施の形態
は、URLのファイル名部分がディレクトリの代表とな
るHTML文書ファイル名ではない保存情報が、すでに
保存キーワード14に登録されている場合、URLのフ
ァイル名部分がディレクトリの代表となるHTML文書
ファイル名である文書が、新たにデータ登録システム1
0に入力されると、すでに登録されている保存情報のU
RLが、URLのファイル名部分がディレクトリの代表
となるHTML文書ファイル名に統合されるという、新
たな効果を生じる。
【0067】次に、本発明の第3の実施の形態について
図面を参照して説明する。
【0068】本発明の第3の実施の形態は、Webロボ
ット20によって、インターネットから収集されたHT
ML文書データ21内のHTML文書の日本語文字コー
ドを統一するため、日本語文字コードの変換を行う第1
のステップ(図2ステップS1)と、与えられたHTM
L文書に対して形態素解析を行い、全ての名詞をキーワ
ードとして抽出する第2のステップ(図2ステップS
2)と、与えられたURLと同一のURLを含む保存情
報が保存キーワード14に存在するかどうか検索する第
3のステップ(図3ステップS31)と、存在しない場
合(図3ステップS32NO)には、与えられたURL
およびキーワードを出力する第4のステップ(図3ステ
ップS35)と、同一のURLが存在する場合(図3ス
テップS32YES)には、与えられたキーワード全体
とそのURLを含む保存情報に含まれるキーワード全体
とを比較する第5のステップ(図3ステップS33)
と、この比較において一致が検出されないと(図3ステ
ップS34NO、図6D23、D24、D25)、与え
られたURLおよびキーワードを出力する第6のステッ
プ(図3ステップS35)と、一致が検出されると(図
3ステップS34YES、図7D12、D13、D1
4、D15)、与えられたURL、キーワードを出力し
ない第7のステップ(図3ステップS36)と、与えら
れたURLからファイル名部分の抽出を行う第8のステ
ップ(図4ステップS41)と、抽出したファイル名部
分が、与えられた文書が存在するディレクトリの代表と
なるHTML文書ファイル名かどうか、チェックを行う
第9のステップ(図4ステップS42)と、抽出したフ
ァイル名部分がディレクトリの代表となるHTML文書
ファイル名である場合(図4ステップS42YES)に
は、与えられた文書のURLを、登録するURLとし
て、出力する第10のステップ(図4ステップS47)
と、抽出したファイル名部分がディレクトリの代表とな
るHTML文書ファイル名ではない場合(図4ステップ
S42NO)には、同一ディレクトリ下で、かつファイ
ル名部分がディレクトリの代表となるHTML文書ファ
イル名に対応するURLが、保存キーワード14の保存
情報に登録されているか検索を行う第11のステップ
(図4ステップS43)と、検索できた場合(図4S4
4YES)には、検索された保存情報に含まれるURL
と同じURLを登録するURLとして出力する第12の
ステップ(図4ステップS48)と、検索できなかった
場合(図4S44NO)には、1つ上位のディレクトリ
下で、かつファイル名部分がディレクトリの代表となる
HTML文書ファイル名が、保存キーワード14内の保
存情報に含まれているかどうか検索を行う第13のステ
ップ(図4ステップS45)と、検索できた場合(図4
ステップS46YES)には、検索されたURLと同じ
URLを登録するURLとして出力する第14のステッ
プ(図4ステップS48)と、検索されなかった場合
(図4ステップS46NO)には、与えられた文書のU
RLを登録するURLとして出力する第15のステップ
(図4ステップS47)と、キーワード、登録するUR
L、対応するタイトルを文書検索システム30に登録
し、さらに、キーワード、与えられた元々のURLを、
保存キーワード14に1組の保存情報として登録する第
16のステップ(図2ステップS5)とを含むHTML
文書検索システムへのデータ登録方法である。
【0069】次に、本発明の第4の実施の形態について
図面を参照して説明する。
【0070】本発明の第4の実施の形態は、URLの決
定部の動作が第3の実施の形態と異なる。詳細には、第
3の実施の形態において抽出したファイル名部分がディ
レクトリの代表となるHTML文書ファイル名である場
合(図4ステップS42YES)の処理が異なる。
【0071】本発明の第4の実施の形態は、本発明の第
3の実施の形態であって、与えられた文書のURLから
ファイル名部分の抽出を行う第17のステップ(図11
ステップA101)と、抽出したファイル名部分が、与
えられた文書が存在するディレクトリの代表となるHT
ML文書ファイル名かどうか、チェックを行う第18の
ステップ(図11ステップA102)と、抽出したファ
イル名部分がディレクトリの代表となるHTML文書フ
ァイル名である場合(図11A102YES)には、与
えられた文書が存在するディレクトリ下に存在し、かつ
ファイル名部分がディレクトリの代表となるHTML文
書ファイル名ではないURLを含む保存情報が、保存キ
ーワード14に登録されているかどうか検索を行う第1
9のステップ(図11ステップA103)と、検索でき
た場合(図11A104YES)には、検索できたUR
Lを含む保存情報のURLを与えられたURLに変更す
るように、かつ、与えられたURLを文書検索システム
30に登録するURLとして出力する第20のステップ
(図11ステップA105)と、検索されなかった場合
(図11ステップA104NO)には、与えられたUR
Lを文書検索システム30に登録するURLとして出力
する第21のステップ(図11A106)と、キーワー
ド、登録するURL、対応するタイトルを文書検索シス
テム30に登録し、保存キーワード14内の検索できた
URLを含む保存情報のURLを元々のURLで置き換
える第22のステップ(図2ステップS5)とを含むH
TML文書検索システムへのデータ登録方法である。
【0072】次に、本発明の第5の実施の形態について
図面を参照して説明する。図14は、本発明の第5の実
施の形態を示すブロック図である。図14を参照する
と、本発明の第5の実施の形態は、本発明の第3の実施
の形態の各ステップをコンピュータ100に実行させる
プログラムを記録した記録媒体120である。このプロ
グラムは、記録媒体120からコンピュータ100(た
とえば、本発明の第1の実施の形態のデータ登録システ
ム10等)にロードされ、実行される。
【0073】詳細には、本発明の第5の実施の形態は、
Webロボット20によって、インターネットから収集
されたHTML文書データ21内のHTML文書の日本
語文字コードを統一するため、日本語文字コードの変換
を行う第1のステップ(図2ステップS1)と、与えら
れたHTML文書に対して形態素解析を行い、全ての名
詞をキーワードとして抽出する第2のステップ(図2ス
テップS2)と、与えられたURLと同一のURLを含
む保存情報が保存キーワード14に存在するかどうか検
索する第3のステップ(図3ステップS31)と、存在
しない場合(図3ステップS32NO)には、与えられ
たURLおよびキーワードを出力する第4のステップ
(図3ステップS35)と、同一のURLが存在する場
合(図3ステップS32YES)には、与えられたキー
ワード全体とそのURLを含む保存情報に含まれるキー
ワード全体とを比較する第5のステップ(図3ステップ
S33)と、この比較において一致が検出されないと
(図3ステップS34NO、図6D23、D24、D2
5)、与えられたURLおよびキーワードを出力する第
6のステップ(図3ステップS35)と、一致が検出さ
れると(図3ステップS34YES、図7D12、D1
3、D14、D15)、与えられたURL、キーワード
を出力しない第7のステップ(図3ステップS36)
と、与えられたURLからファイル名部分の抽出を行う
第8のステップ(図4ステップS41)と、抽出したフ
ァイル名部分が、与えられた文書が存在するディレクト
リの代表となるHTML文書ファイル名かどうか、チェ
ックを行う第9のステップ(図4ステップS42)と、
抽出したファイル名部分がディレクトリの代表となるH
TML文書ファイル名である場合(図4ステップS42
YES)には、与えられたURLを、登録するURLと
して、出力する第10のステップ(図4ステップS4
7)と、抽出したファイル名部分がディレクトリの代表
となるHTML文書ファイル名ではない場合(図4ステ
ップS42NO)には、同一ディレクトリ下で、かつフ
ァイル名部分がディレクトリの代表となるHTML文書
ファイル名に対応するURLが、保存キーワード14の
保存情報に登録されているかどうか検索を行う第11の
ステップ(図4ステップS43)と、検索できた場合
(図4S44YES)には、検索された保存情報に含ま
れるURLと同じURLを登録するURLとして出力す
る第12のステップ(図4ステップS48)と、検索で
きなかった場合(図4S44NO)には、1つ上位のデ
ィレクトリ下で、かつファイル名部分がディレクトリの
代表となるHTML文書ファイル名が、保存キーワード
14内の保存情報に含まれているかどうか検索を行う第
13のステップ(図4ステップS45)と、検索できた
場合(図4ステップS46YES)には、検索されたU
RLと同じURLを登録するURLとして出力する第1
4のステップ(図4ステップS48)と、検索されなか
った場合(図4ステップS46NO)には、与えられた
文書のURLを登録するURLとして出力する第15の
ステップ(図4ステップS47)と、キーワード、登録
するURL、対応するタイトルを文書検索システム30
に登録し、さらに、キーワード、与えられた元々のUR
Lを、保存キーワード14に1組の保存情報として登録
する第16のステップ(図2ステップS5)とをコンピ
ュータ100に実行させるプログラムを記録した記録媒
体120である。
【0074】次に、本発明の第6の実施の形態について
図面を参照して説明する。図14を参照すると、本発明
の第6の実施の形態は、本発明の第4の実施の形態の各
ステップをコンピュータ100に実行させるプログラム
を記録した記録媒体120である。このプログラムは、
記録媒体120からコンピュータ100(たとえば、本
発明の第1の実施の形態のデータ登録システム10等)
にロードされ、実行される。
【0075】詳細には、本発明の第6の実施の形態は、
本発明の第3の実施の形態に含まれる各ステップと、与
えられた文書のURLからファイル名部分の抽出を行う
第17のステップ(図11ステップA101)と、抽出
したファイル名部分が、与えられた文書が存在するディ
レクトリの代表となるHTML文書ファイル名かどう
か、チェックを行う第18のステップ(図11ステップ
A102)と、抽出したファイル名部分がディレクトリ
の代表となるHTML文書ファイル名である場合(図1
1A102YES)には、与えられた文書が存在するデ
ィレクトリ下に存在し、かつファイル名部分がディレク
トリの代表となるHTML文書ファイル名ではないUR
Lを含む保存情報が、保存キーワード14に登録されて
いるかどうか検索を行う第19のステップ(図11ステ
ップA103)と、検索できた場合(図11A104Y
ES)には、検索できたURLを含む保存情報のURL
を与えられたURLに変更するように、かつ、与えられ
たURLを文書検索システム30に登録するURLとし
て出力する第20のステップ(図11ステップA10
5)と、検索されなかった場合(図11ステップA10
4NO)には、与えられたURLを文書検索システム3
0に登録するURLとして出力する第21のステップ
(図11A106)と、キーワード、登録するURL、
対応するタイトルを文書検索システム30に登録し、保
存キーワード14内の検索できたURLを含む保存情報
のURLを元々のURLで置き換える第22のステップ
(図2ステップS5)とをコンピュータ100に実行さ
せるプログラムを記録した記録媒体120である。
【0076】
【発明の効果】本発明の第1の効果は、文書検索システ
ムに効率的なデータ登録が可能となることである。
【0077】その理由は、新規に登録するHTML文書
のキーワードと、過去に文書検索システムに登録されて
いるキーワードとを比較し、変更がある場合にのみ登録
を行うからである。
【0078】第2の効果は、文書検索システムにおける
検索効率が向上することである。
【0079】その理由は、URLのファイル名部分が、
ディレクトリの代表となるHTML文書ファイル名(i
ndex.html,home.htmlなど)以外の
HTML文書は、同一ディレクトリ、あるいは上位ディ
レクトリの代表となるHTML文書ファイル名で登録を
行う点にある。この結果、文書検索システムに利用者が
探したい条件を入力して検索を実行したときに、同種の
HTML文書が多数検索される場合を軽減することがで
きるからである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態を示すブロック図で
ある。
【図2】本発明の第1の実施の形態の動作を示すフロー
チャートである。
【図3】図1のデータ比較部の動作を示す詳細フローチ
ャートである。
【図4】図1の登録URL決定部の動作を示す詳細フロ
ーチャートである。
【図5】図1のコード変換処理部、キーワード抽出部の
動作を示す説明図である。
【図6】図1のデータ比較部の動作を示す説明図であ
る。
【図7】図1データ比較部の動作を示す説明図である。
【図8】図1の登録URL決定部の動作を示す説明図で
ある。
【図9】図1の登録URL決定部の動作を示す説明図で
ある。
【図10】図1の登録URL決定部、データ登録部の動
作を示す説明図である。
【図11】本発明の第2の実施の形態の登録URL決定
部の動作を示すフローチャートである。
【図12】本発明の第2の実施の形態の動作を示す説明
図である。
【図13】本発明の第2の実施の形態の動作を示す説明
図である。
【図14】本発明の第5の実施の形態を示すブロック図
である。
【符号の説明】
10 データ登録システム 11 コード変換処理部 12 キーワード抽出部 13 データ比較部 14 保存キーワード 15 登録URL決定部 16 データ登録部 20 Webロボット 21 HTML文書データ 30 文書検索システム 100 コンピュータ 120 記録媒体
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 15/419 320

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 インターネットから採取したHTML文
    書からURL、およびキーワードを抽出して保存情報と
    して保存し、新たに採取したHTML文書のURLと前
    記保存情報内のURLとを比較し、一致しなければ、前
    記新たに採取したHTML文書のURL、およびキーワ
    ードを前記保存情報として別に保存し、かつ、文書検索
    システムに与えるための第1の処理に進み、一致すれ
    ば、前記新たに採取したHTML文書から抽出したキー
    ワードとURLが一致した前記保存情報内のキーワード
    とを比較し、一致しなければ、前記新たに採取したHT
    ML文書のURL、およびキーワードを前記保存情報と
    して別に保存し、かつ、前記文書検索システムに与える
    ための第2の処理に進み、一致すれば、前記保存情報を
    変更せず、前記文書検索システムにURL、キーワード
    を与えないようにする手段を有することを特徴とするH
    TML文書検索システムへのデータ登録システム。
  2. 【請求項2】 前記第1または前記第2の処理に進んだ
    場合に、前記新たに採取したHTML文書のURLのフ
    ァイル名部分がディレクトリの代表となるHTML文書
    ファイル名であれば、前記新たに採取したHTML文書
    のURL、およびキーワードを前記保存情報として別に
    保存し、かつ、文書検索システムに与え、ディレクトリ
    の代表となるHTML文書ファイル名でなければ、同一
    ディレクトリあるいは上位ディレクトリでかつファイル
    名部分がディレクトリの代表となるHTML文書ファイ
    ル名を含むURLが前記保存情報が存在すれば、存在し
    た前記保存情報のキーワードを前記新たに採取したHT
    MLから抽出したキーワードに置き換え、存在した前記
    保存情報内のURLおよび前記新たに採取したHTML
    から抽出したキーワードを前記文書検索システムに与え
    る手段を有することを特徴とする請求項1記載のHTM
    L文書検索システムへのデータ登録システム。
  3. 【請求項3】 前記第1または前記第2の処理に進んだ
    場合に、前記新たに採取したHTML文書のURLのフ
    ァイル名部分がディレクトリの代表となるHTML文書
    ファイル名であれば、同一ディレクトリでかつファイル
    名部分がディレクトリの代表ではないHTMLファイル
    名を含むURLが前記保存情報に存在すれば、存在した
    前記保存情報のURLを、前記新たに採取したHTML
    文書のURLで置き換え、前記新たに採取したHTML
    文書のURL、および前記新たに採取したHTMLから
    抽出したキーワードを前記検索システムに登録し、存在
    しなければ、前記新たに採取したHTML文書のUR
    L、および前記新たに採取したHTMLから抽出したキ
    ーワードを前記検索システムに登録し、前記新たに採取
    したHTML文書のURLのファイル名部分がディレク
    トリの代表となるHTML文書ファイル名でなければ、
    同一ディレクトリあるいは上位ディレクトリでかつファ
    イル名部分がディレクトリの代表となるHTML文書フ
    ァイル名を含むURLが前記保存情報に存在すれば、存
    在した前記保存情報のキーワードを前記新たに採取した
    HTMLから抽出したキーワードに置き換え、存在した
    前記保存情報内のURLおよび前記新たに採取したHT
    MLから抽出したキーワード文書検索システムに与える
    手段を有することを特徴とする請求項1記載のHTML
    文書検索システムへのデータ登録システム。
  4. 【請求項4】(a)インターネットに接続されている多
    数のWebサーバからHTML文書の取得を行い、UR
    Lを含むHTML文書データとして保存するWebロボ
    ットと、(b)前記HTML文書データからのHTML
    文書の日本語文字コードの統一を行うため日本語文字コ
    ードの変換を行うコード変換処理部と、(c)前記コー
    ド変換処理部において変換されたHTML文書を形態素
    解析してすべての名詞をキーワードとして抽出するキー
    ワード抽出部と、(d)すでに保存されている前記保存
    情報内のキーワードと前記キーワード抽出部で抽出され
    たキーワードとの比較を行うデータ比較部と、(e)前
    記保存情報を1以上保存する保存キーワードと、(f)
    前記コード変換処理部において変換されたHTML文書
    から前記文書検索システムに登録するURL、タイトル
    を決定する登録URL決定部と、(g)前記登録URL
    決定部で決定したURL、タイトルと前記キーワード抽
    出部で抽出したキーワードとを前記文書検索システムに
    登録する処理を行い、同時に前記キーワード抽出部で抽
    出したキーワード、および前記コード変換処理部におい
    て変換されたHTML文書からのURLを1組の保存情
    報として前記保存キーワードに保存するデータ登録部
    と、を有することを特徴とする請求項1、請求項2、ま
    たは請求項3記載のHTML文書検索システムへのデー
    タ登録システム。
  5. 【請求項5】 インターネットから採取したHTML文
    書からURL、およびキーワードを抽出して保存情報と
    して保存し、新たに採取したHTML文書のURLと前
    記保存情報内のURLとを比較し、一致しなければ、前
    記新たに採取したHTML文書のURL、およびキーワ
    ードを前記保存情報として別に保存し、かつ、文書検索
    システムに与えるための第1の処理に進み、一致すれ
    ば、前記新たに採取したHTML文書から抽出したキー
    ワードとURLが一致した前記保存情報内のキーワード
    とを比較し、一致しなければ、前記新たに採取したHT
    ML文書のURL、およびキーワードを前記保存情報と
    して別に保存し、かつ、前記文書検索システムに与える
    ための第2の処理に進み、一致すれば、前記保存情報を
    変更せず、前記文書検索システムにURL、キーワード
    を与えないようにする手順を有することを特徴とするH
    TML文書検索システムへのデータ登録方法。
  6. 【請求項6】前記第1または前記第2の処理に進んだ場
    合に、前記新たに採取したHTML文書のURLのファ
    イル名部分がディレクトリの代表となるHTML文書フ
    ァイル名であれば、前記新たに採取したHTML文書の
    URL、およびキーワードを前記保存情報として別に保
    存し、かつ、文書検索システムに与え、ディレクトリの
    代表となるHTML文書ファイル名でなければ、同一デ
    ィレクトリあるいは上位ディレクトリでかつファイル名
    部分がディレクトリの代表となるHTML文書ファイル
    名を含むURLが前記保存情報が存在すれば、存在した
    前記保存情報のキーワードを前記新たに採取したHTM
    Lから抽出したキーワードに置き換え、存在した前記保
    存情報内のURLおよび前記新たに採取したHTMLか
    ら抽出したキーワードを前記文書検索システムに与える
    手順を有することを特徴とする請求項5記載のHTML
    文書検索システムへのデータ登録方法。
  7. 【請求項7】 前記第1または前記第2の処理に進んだ
    場合に、前記新たに採取したHTML文書のURLのフ
    ァイル名部分がディレクトリの代表となるHTML文書
    ファイル名であれば、同一ディレクトリでかつファイル
    名部分がディレクトリの代表ではないHTMLファイル
    名を含むURLが前記保存情報に存在すれば、存在した
    前記保存情報のURLを、前記新たに採取したHTML
    文書のURLで置き換え、前記新たに採取したHTML
    文書のURL、および前記新たに採取したHTMLから
    抽出したキーワードを前記検索システムに登録し、存在
    しなければ、前記新たに採取したHTML文書のUR
    L、および前記新たに採取したHTMLから抽出したキ
    ーワードを前記検索システムに登録し、前記新たに採取
    したHTML文書のURLのファイル名部分がディレク
    トリの代表となるHTML文書ファイル名でなければ、
    同一ディレクトリあるいは上位ディレクトリでかつファ
    イル名部分がディレクトリの代表となるHTML文書フ
    ァイル名を含むURLが前記保存情報に存在すれば、存
    在した前記保存情報のキーワードを前記新たに採取した
    HTMLから抽出したキーワードに置き換え、存在した
    前記保存情報内のURLおよび前記新たに採取したHT
    MLから抽出したキーワード文書検索システムに与える
    手順を有することを特徴とする請求項5記載のHTML
    文書検索システムへのデータ登録方法。
  8. 【請求項8】(a)Webロボットによって、インター
    ネットから収集されたHTML文書の日本語文字コード
    を統一するため、日本語文字コードの変換を行い変換後
    HTML文書を出力する第1のステップと、(b)前記
    変換後HTML文書に対して形態素解析を行い、全ての
    名詞をキーワードとして抽出し、URLとともに出力す
    る第2のステップと、(c)前記第2のステップから与
    えられたURLと同一のURLを含む保存情報が存在す
    るかどうか検索する第3のステップと、(d)前記第3
    のステップにおいて、存在しないと判定された場合に
    は、前記第2のステップから与えられたURLおよびキ
    ーワードを出力する第4のステップと、(e)前記第3
    のステップにおいて、同一のURLが存在すると判定さ
    れた場合には、前記第2のステップにおいて抽出された
    キーワード全体とそのURLを含む保存情報に含まれる
    キーワード全体とを比較する第5のステップと、(f)
    前記第5のステップにおける比較で一致が検出されない
    と、前記第2のステップから与えられたURLおよびキ
    ーワードを出力する第6のステップと、(g)前記第5
    のステップにおける比較で一致が検出されると、UR
    L、キーワードを出力しない第7のステップと、(h)
    前記第4のステップまたは第6のステップから与えられ
    たURLのファイル名部分の抽出を行う第8のステップ
    と、(i)前記第8のステップにおいて抽出されたファ
    イル名部分が、前記インターネットから収集されたHT
    ML文書が存在するディレクトリの代表となるHTML
    文書ファイル名かどうか、チェックを行う第9のステッ
    プと、(j)前記第9のステップにおいて抽出されたフ
    ァイル名部分がディレクトリの代表となるHTML文書
    ファイル名である場合には、前記第2のステップから与
    えられたURLを登録するURLとして出力する第10
    のステップと、(k)前記第9のステップにおいて抽出
    されたファイル名部分がディレクトリの代表となるHT
    ML文書ファイル名ではない場合には、同一ディレクト
    リ下で、かつファイル名部分がディレクトリの代表とな
    るHTML文書ファイル名に対応するURLが、前記保
    存情報に登録されているかどうか検索を行う第11のス
    テップと、(l)前記第11のステップにおいて検索で
    きた場合には、検索された保存情報に含まれるURLと
    同じURLを登録するURLとして出力する第12のス
    テップと、(m)前記第11のステップにおいて検索で
    きなかった場合には、1つ上位のディレクトリ下で、か
    つファイル名部分がディレクトリの代表となるHTML
    文書ファイル名が保存情報に含まれているかどうか検索
    を行う第13のステップと、(n)前記第13のステッ
    プにおいて検索できた場合には、検索されたURLと同
    じURLを登録するURLとして出力する第14のステ
    ップと、(o)前記第13のステップにおいて検索され
    なかった場合には、前記第2のステップから与えられた
    URLを登録するURLとして出力する第15のステッ
    プと、(p)前記第2のステップからのキーワード、前
    記登録するURLを文書検索システムに登録し、さら
    に、前記第2のステップからのキーワードキーワード、
    URLを、1組の保存情報として登録する第16のステ
    ップと、を含むことを特徴とするHTML文書検索シス
    テムへのデータ登録方法。
  9. 【請求項9】(a)Webロボットによって、インター
    ネットから収集されたHTML文書の日本語文字コード
    を統一するため、日本語文字コードの変換を行い変換後
    HTML文書を出力する第1のステップと、(b)前記
    変換後HTML文書に対して形態素解析を行い、全ての
    名詞をキーワードとして抽出し、URLとともに出力す
    る第2のステップと、(c)前記第2のステップから与
    えられたURLと同一のURLを含む保存情報が存在す
    るかどうか検索する第3のステップと、(d)前記第3
    のステップにおいて、存在しないと判定された場合に
    は、前記第2のステップから与えられたURLおよびキ
    ーワードを出力する第4のステップと、(e)前記第3
    のステップにおいて、同一のURLが存在すると判定さ
    れた場合には、前記第2のステップにおいて抽出された
    キーワード全体とそのURLを含む保存情報に含まれる
    キーワード全体とを比較する第5のステップと、(f)
    前記第5のステップにおける比較で一致が検出されない
    と、前記第2のステップから与えられたURLおよびキ
    ーワードを出力する第6のステップと、(g)前記第5
    のステップにおける比較で一致が検出されると、UR
    L、キーワードを出力しない第7のステップと、(h)
    前記第4のステップまたは第6のステップから与えられ
    たURLのファイル名部分の抽出を行う第8のステップ
    と、(i)前記第8のステップにおいて抽出されたファ
    イル名部分が、前記インターネットから収集されたHT
    ML文書が存在するディレクトリの代表となるHTML
    文書ファイル名かどうか、チェックを行う第9のステッ
    プと、(j)前記第9のステップにおいて抽出されたフ
    ァイル名部分がディレクトリの代表となるHTML文書
    ファイル名である場合には、前記第2のステップから与
    えられたURLを登録するURLとして出力する第10
    のステップと、(k)前記第9のステップにおいて抽出
    されたファイル名部分がディレクトリの代表となるHT
    ML文書ファイル名ではない場合には、同一ディレクト
    リ下で、かつファイル名部分がディレクトリの代表とな
    るHTML文書ファイル名に対応するURLが、前記保
    存情報に登録されているかどうか検索を行う第11のス
    テップと、(l)前記第11のステップにおいて検索で
    きた場合には、検索された保存情報に含まれるURLと
    同じURLを登録するURLとして出力する第12のス
    テップと、(m)前記第11のステップにおいて検索で
    きなかった場合には、1つ上位のディレクトリ下で、か
    つファイル名部分がディレクトリの代表となるHTML
    文書ファイル名が保存情報に含まれているかどうか検索
    を行う第13のステップと、(n)前記第13のステッ
    プにおいて検索できた場合には、検索されたURLと同
    じURLを登録するURLとして出力する第14のステ
    ップと、(o)前記第13のステップにおいて検索され
    なかった場合には、前記第2のステップから与えられた
    URLを登録するURLとして出力する第15のステッ
    プと、(p)前記第2のステップからのキーワード、前
    記登録するURLを文書検索システムに登録し、さら
    に、前記第2のステップからのキーワードキーワード、
    URLを、1組の保存情報として登録する第16のステ
    ップと、をコンピュータに実行させるプログラムを記録
    したことを特徴とする記録媒体。
JP09540399A 1999-04-01 1999-04-01 Html文書検索システムへのデータ登録システム、方法および記録媒体 Expired - Fee Related JP3430066B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09540399A JP3430066B2 (ja) 1999-04-01 1999-04-01 Html文書検索システムへのデータ登録システム、方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09540399A JP3430066B2 (ja) 1999-04-01 1999-04-01 Html文書検索システムへのデータ登録システム、方法および記録媒体

Publications (2)

Publication Number Publication Date
JP2000293527A true JP2000293527A (ja) 2000-10-20
JP3430066B2 JP3430066B2 (ja) 2003-07-28

Family

ID=14136714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09540399A Expired - Fee Related JP3430066B2 (ja) 1999-04-01 1999-04-01 Html文書検索システムへのデータ登録システム、方法および記録媒体

Country Status (1)

Country Link
JP (1) JP3430066B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100503148B1 (ko) * 2002-04-17 2005-07-25 정보통신연구진흥원 스타일 및 컨텐트 정보 기반의 웹문서 처리 시스템 및 그방법
JP2011519443A (ja) * 2008-03-28 2011-07-07 アルカテル−ルーセント 少なくとも1つのコンテンツに関する相補データを特定する方法、前記相補データを送信する方法、ならびに関連処理装置およびアプリケーションサーバ

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091638A (ja) * 1996-09-17 1998-04-10 Toshiba Corp 検索システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091638A (ja) * 1996-09-17 1998-04-10 Toshiba Corp 検索システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100503148B1 (ko) * 2002-04-17 2005-07-25 정보통신연구진흥원 스타일 및 컨텐트 정보 기반의 웹문서 처리 시스템 및 그방법
JP2011519443A (ja) * 2008-03-28 2011-07-07 アルカテル−ルーセント 少なくとも1つのコンテンツに関する相補データを特定する方法、前記相補データを送信する方法、ならびに関連処理装置およびアプリケーションサーバ

Also Published As

Publication number Publication date
JP3430066B2 (ja) 2003-07-28

Similar Documents

Publication Publication Date Title
US10169354B2 (en) Indexing and search query processing
US8504553B2 (en) Unstructured and semistructured document processing and searching
US8326860B2 (en) Indexing and searching product identifiers
JP2003173280A (ja) データベース生成装置、データベース生成方法及びデータベース生成プログラム
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
JP2003150623A (ja) 言語横断型特許文献検索方法
JP2003141155A (ja) Webページ検索システムおよびWebページ検索プログラム
JPH09218876A (ja) ノード・リンク探索装置
JP2005107931A (ja) 画像検索装置
JP2000293527A (ja) Html文書検索システムへのデータ登録システム、方法および記録媒体
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
JP4734400B2 (ja) 文書検索装置およびプログラム
US7386794B2 (en) Apparatus and method for performing the management of operation history
JPH117452A (ja) ネットワークを介した情報収集方法および装置と該方法を実施するプログラムを記録した記録媒体
JP2000231560A (ja) 文書自動分類方式
JP2002366576A (ja) データ検索の方法、システム、およびプログラム製品
JP4222166B2 (ja) 文書収集装置、文書検索装置及び文書収集検索システム
JP3511724B2 (ja) 文書検索方法
JP4521413B2 (ja) データベース管理システム及びプログラム
JP3744136B2 (ja) 訳語選択装置と記憶媒体
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JP2003157263A (ja) 情報収集方法、情報収集装置及び検索対象文字情報蓄積プログラム
JP3725835B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP4221249B2 (ja) 文献データ検索方法及びプログラム
JP2000011003A (ja) 公開文書要約装置およびそのためのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030422

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090516

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100516

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees