JP3430066B2 - Html文書検索システムへのデータ登録システム、方法および記録媒体 - Google Patents

Html文書検索システムへのデータ登録システム、方法および記録媒体

Info

Publication number
JP3430066B2
JP3430066B2 JP09540399A JP9540399A JP3430066B2 JP 3430066 B2 JP3430066 B2 JP 3430066B2 JP 09540399 A JP09540399 A JP 09540399A JP 9540399 A JP9540399 A JP 9540399A JP 3430066 B2 JP3430066 B2 JP 3430066B2
Authority
JP
Japan
Prior art keywords
url
keyword
file name
html document
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP09540399A
Other languages
English (en)
Other versions
JP2000293527A (ja
Inventor
秀城 石井
Original Assignee
エヌイーシーシステムテクノロジー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エヌイーシーシステムテクノロジー株式会社 filed Critical エヌイーシーシステムテクノロジー株式会社
Priority to JP09540399A priority Critical patent/JP3430066B2/ja
Publication of JP2000293527A publication Critical patent/JP2000293527A/ja
Application granted granted Critical
Publication of JP3430066B2 publication Critical patent/JP3430066B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、HTML文書検索
システムへのデータ登録システム、方法および記録媒体
に関し、特に、利用者の検索効率を向上させるHTML
文書検索システムへのデータ登録システム、方法および
記録媒体に関する。
【0002】
【従来の技術】この種の従来技術としては、「特開平1
0−91638号公報」記載の技術が存在する。この技
術は、ネットワーク(たとえば、インターネットのWW
W)上でロボットを用いて収集したデータ(たとえばペ
ージのようなハイパーメディアデータ)をもとにデータ
ベースを作成し、検索要求に応じてデータベース検索を
行う検索システムであって、データベース化の対象とす
べきデータの更新頻度(たとえば、統計的な更新頻度、
あるいは最終更新時刻)の範囲がデータベース固有に割
り当てられ、データの更新頻度が該割り当てられた更新
頻度の範囲内にあることまたはデータの属するデータ群
(たとえば、サイト)における平均的な更新頻度が該割
り当てられた更新頻度の範囲内にあることを少なくとも
条件として、該当するデータを収集し所定の構造のデー
タベースを作成するデータベース作成手段を備えたもの
である。
【0003】また、その他の従来技術としては、インタ
ーネット上でサービスされているHTML文書データの
検索システムのデータ登録処理をHTML文書の更新実
施をWWWサーバから送信される最終更新日付で判断
し、最終更新日付に変更があったHTML文書データを
必ず更新する技術が存在する。
【0004】
【発明が解決しようとする課題】上述した従来技術の第
1の問題点は、HTML文書の内容が変更されていない
にも関わらず、HTML文書の更新を行ってしまう場合
があることである。
【0005】その理由は、WWWサーバの種類、および
その設定方法によって、HTML文書の内容が変更され
ているかどうかに関わらず、最終更新日を更新してしま
うWWWサーバがインターネット上に存在するからであ
る。
【0006】また、第2の問題点は、文書検索システム
に利用者が探したい条件を入力して検索を実行すると、
同種のHTML文書が多数検索され、求めるHTML文
書を探すために時間がかかることである。
【0007】その理由は、同一ディレクトリ下の多数の
HTML文書が、別のデータとして登録されているから
である。
【0008】本発明の目的は、以上の問題点を解決し、
利用者の検索効率を向上させるHTML文書検索システ
ムへのデータ登録システム、方法および記録媒体を実現
することである。
【0009】
【課題を解決するための手段】本発明の第1のHTML
文書検索システムへのデータ登録システムは、(a)URLとキーワードとの組である保存情報を保存
する保存キーワード部と、 (b)入力したHTML文書データの日本語文字コード
の変換を行うコード変換処理部と、 (c)前記コード変換処理部において変換されたHTM
L文書を形態素解析してキーワードを抽出するキーワー
ド抽出部と、 (d)前記HTML文書のURLが前記保存キーワード
部内の保存情報に存在するかどうか検索し、存在しなけ
れば、前記HTML文書のURL、前記キーワード抽出
部からのキーワードを出力し、存在すれば、前記キーワ
ード抽出部からのキーワードと前記保存キーワード部内
の対応するURLを含む保存情報のキーワードとを比較
し、一致していなければ、前記HTML文書のURL、
前記キーワード抽出部からのキーワードを出力するデー
タ比較部と、 (e)前記データ比較部からの前記HTML文書のUR
Lのファイル名部分がディレクトリの代表ファイル名で
あるかどうか調べ、代表ファイル名であれば、前記HT
ML文書のURLを選定し、代表ファイル名でなけれ
ば、同一ディレクトリ下でファイル名部分が代表ファイ
ル名であるURLが前記保存キーワード部内の保存情報
に存在するかどうか検索し、存在すれば、前記保存キー
ワード部内の保存情報の対代表ファイル名のURLを選
定し、存在しなければ、上位ディレクトリ下でファイル
名部分が代表ファイル名であるURLが前記保存キーワ
ード部内の保存情報に存在するかどうか検索し、存在し
なければ、前記HTML文書のURLを選定し、存在す
れば、前記保存キーワード部内の保存情報の対代表ファ
イル名のURLを選定する登録URL決定部と、 (f)前記登録URL決定部で選定されたURL、前記
キーワード抽出部で抽出されたキーワードを文書検索シ
ステムに登録し、前記キーワード抽出部で抽出されたキ
ーワード、前記コード変換処理部において変換されたH
TML文書からのURLを1組の保存情報として前記保
存キーワードに保存するデータ登録部と、 を有する。
【0010】本発明の第2のHTML文書検索システム
へのデータ登録システムは、(a)URLとキーワードとの組である保存情報を保存
する保存キーワード部と、 (b)入力したHTML文書データの日本語文字コード
の変換を行うコード変換処理部と、 (c)前記コード変換処理部において変換されたHTM
L文書を形態素解析してキーワードを抽出するキーワー
ド抽出部と、 (d)前記HTML文書のURLが前記保存キーワード
部内の保存情報に存在するかどうか検索し、存在しなけ
れば、前記HTML文書のURL、前記キーワード抽出
部からのキーワードを出力し、存在すれば、前記キーワ
ード抽出部からのキーワードと前記保存キーワード部内
の対応するURLを含む保存情報のキーワードとを比較
し、一致していなければ、前記HTML文書のURL、
前記キーワード抽出部からのキーワードを出力するデー
タ比較部と、 (e)前記データ比較部からの前記HTML文書のUR
Lのファイル名部分がディレクトリの代表ファイル名で
あるかどうか調べ、代表ファイル名であれば、同一ディ
レクトリ下でファイル名部分が代表ファイル名でないU
RLが前記保存キーワード部内の保存情報に存在するか
どうか検索し、存在すれば、代表ファイル名でないUR
Lを代表ファイル名のURLに変更することを決定し、
前記HTML文書のURLを選定し、存在しなければ、
前記HTML文書のURLを選定し、前記データ比較部
からの前記HTML文書のURLのファイル名部分がデ
ィレクトリの代表ファイル名でなければ、同一ディレク
トリ下でファイル名部分が代表ファイル名であるURL
が前記保存キーワード部内の保存情報に存在するかどう
か検索し、存在すれば、前記保存キーワード部内の保存
情報の対代表ファイル名のURLを選定し、存在しなけ
れば、上位ディレクトリ下でファイル名部分が代表ファ
イル名であるURLが前記保存キーワード部内の保存情
報に存在するかどうか検索し、存在しなければ、前記H
TML文書のURLを選定し、存在すれば、前記保存キ
ーワード部内の保存情報の対代表ファイル名のURLを
選定する登録URL決定部と、 (f)前記登録URL決定部で選定されたURL、前記
キーワード抽出部で抽出されたキーワードを文書検索シ
ステムに登録し、前記キーワード抽出部で抽出されたキ
ーワード、前記コード変換処理部において変換されたH
TML文書からのURLを1組の保存情報として前記保
存キーワードに保存するデータ登録部と、を有する。
【0011】本発明の第1のHTML文書検索システム
へのデータ登録方法は、URLとキーワードとの組であ
る保存情報を保存する保存キーワード部を利用し、 (a)入力したHTML文書データの日本語文字コード
の変換を行うコード変換処理ステップと、 (b)前記コード変換処理ステップにおいて変換された
HTML文書を形態素解析してキーワードを抽出するキ
ーワード抽出ステップと、 (c)前記HTML文書のURLが前記保存キーワード
部内の保存情報に存在するかどうか検索し、存在しなけ
れば、前記HTML文書のURL、前記キーワード抽出
ステップからのキーワードを出力し、存在すれば、前記
キーワード抽出ステップからのキーワードと前記保存キ
ーワード部内の対応するURLを含む保存情報のキーワ
ードとを比較し、一致していなければ、前記HTML文
書のURL、前記キーワード抽出ステップからのキーワ
ードを出力するデータ比較ステップと、 (d)前記データ比較ステップからの前記HTML文書
のURLのファイル名部分がディレクトリの代表ファイ
ル名であるかどうか調べ、代表ファイル名であれば、前
記HTML文書のURLを選定し、代表ファイル名でな
ければ、同一ディレクトリ下でファイル名部分が代表フ
ァイル名であるURLが前記保存キーワード部内の保存
情報に存在するかどうか検索し、存在すれば、前記保存
キーワード部内の保存情報の対代表ファイル名のURL
を選定し、存在しなければ、上位ディレクトリ下でファ
イル名部分が代表ファイル名であるURLが前記保存キ
ーワード部内の保存情報に存在するかどうか検索し、存
在しなければ、前記HTML文書のURLを選定し、存
在すれば、前記保存キーワード部内の保存情報の対代表
ファイル名のURLを選定する登録URL決定ステップ
と、 (e)前記登録URL決定ステップで選定されたUR
L、前記キーワード抽出ステップで抽出されたキーワー
ドを文書検索システムに登録し、前記キーワード抽出ス
テップで抽出されたキーワード、前記コード変換処理ス
テップにおいて変換されたHTML文書からのURLを
1組の保存情報として前記保存キーワードに 保存するデ
ータ登録ステップと、を含む。
【0012】本発明の第2のHTML文書検索システム
へのデータ登録方法は、URLとキーワードとの組であ
る保存情報を保存する保存キーワード部を利用し、 (a)入力したHTML文書データの日本語文字コード
の変換を行うコード変換処理ステップと、 (b)前記コード変換処理ステップにおいて変換された
HTML文書を形態素解析してキーワードを抽出するキ
ーワード抽出ステップと、 (c)前記HTML文書のURLが前記保存キーワード
部内の保存情報に存在するかどうか検索し、存在しなけ
れば、前記HTML文書のURL、前記キーワード抽出
ステップからのキーワードを出力し、存在すれば、前記
キーワード抽出ステップからのキーワードと前記保存キ
ーワード部内の対応するURLを含む保存情報のキーワ
ードとを比較し、一致していなければ、前記HTML文
書のURL、前記キーワード抽出ステップからのキーワ
ードを出力するデータ比較ステップと、 (d)前記データ比較ステップからの前記HTML文書
のURLのファイル名部分がディレクトリの代表ファイ
ル名であるかどうか調べ、代表ファイル名であれば、同
一ディレクトリ下でファイル名部分が代表ファイル名で
ないURLが前記保存キーワード部内の保存情報に存在
するかどうか検索し、存在すれば、代表ファイル名でな
いURLを代表ファイル名のURLに変更することを決
定し、前記HTML文書のURLを選定し、存在しなけ
れば、前記HTML文書のURLを選定し、前記データ
比較ステップからの前記HTML文書のURLのファイ
ル名部分がディレクトリの代表ファイル名でなければ、
同一ディレクトリ下でファイル名部分が代表ファイル名
であるURLが前記保存キーワード部内の保存情報に存
在するかどうか検索し、存在すれば、前記保存キーワー
ド部内の保存情報の対代表ファイル名のURLを選定
し、存在しなければ、上位ディレクトリ下でファイル名
部分が代表ファイル名であるURLが前記保存キーワー
ド部内の保存情報に存在するかどうか検索し、存在しな
ければ、前記HTML文書のURLを選定し、存在すれ
ば、前記保存キーワード部内の保存情報の対代表ファイ
ル名のUR Lを選定する登録URL決定ステップと、 (e)前記登録URL決定ステップで選定されたUR
L、前記キーワード抽出ステップで抽出されたキーワー
ドを文書検索システムに登録し、前記キーワード抽出ス
テップで抽出されたキーワード、前記コード変換処理ス
テップにおいて変換されたHTML文書からのURLを
1組の保存情報として前記保存キーワードに保存するデ
ータ登録ステップと、を含む。
【0013】本発明の第1の記録媒体は、URLとキー
ワードとの組である保存情報を保存する保存キーワード
部を利用し、 (a)入力したHTML文書データの日本語文字コード
の変換を行うコード変換処理ステップと、 (b)前記コード変換処理ステップにおいて変換された
HTML文書を形態素解析してキーワードを抽出するキ
ーワード抽出ステップと、 (c)前記HTML文書のURLが前記保存キーワード
部内の保存情報に存在するかどうか検索し、存在しなけ
れば、前記HTML文書のURL、前記キーワード抽出
ステップからのキーワードを出力し、存在すれば、前記
キーワード抽出ステップからのキーワードと前記保存キ
ーワード部内の対応するURLを含む保存情報のキーワ
ードとを比較し、一致していなければ、前記HTML文
書のURL、前記キーワード抽出ステップからのキーワ
ードを出力するデータ比較ステップと、 (d)前記データ比較ステップからの前記HTML文書
のURLのファイル名部分がディレクトリの代表ファイ
ル名であるかどうか調べ、代表ファイル名であれば、前
記HTML文書のURLを選定し、代表ファイル名でな
ければ、同一ディレクトリ下でファイル名部分が代表フ
ァイル名であるURLが前記保存キーワード部内の保存
情報に存在するかどうか検索し、存在すれば、前記保存
キーワード部内の保存情報の対代表ファイル名のURL
を選定し、存在しなければ、上位ディレクトリ下でファ
イル名部分が代表ファイル名であるURLが前記保存キ
ーワード部内の保存情報に存在するかどうか検索し、存
在しなければ、前記HTML文書のURLを選定し、存
在すれば、前記保存キーワード部内の保存情報の対代表
ファイル名のURLを選定する登録URL決定ステップ
と、 (e)前記登録URL決定ステップで選定されたUR
L、前記キーワード抽出ステップで抽出されたキーワー
ドを文書検索システムに登録し、前記キーワード抽出ス
テップで抽出されたキーワード、前記コード変換処理ス
テップにおいて変換されたHTML文書からのURLを
1組の保存情報として前記保存キーワードに 保存するデ
ータ登録ステップと、をコンピュータに実行させるプロ
グラムを記録する。
【0014】本発明の第2の記録媒体は、URLとキー
ワードとの組である保存情報を保存する保存キーワード
部を利用し、 (a)入力したHTML文書データの日本語文字コード
の変換を行うコード変換処理ステップと、 (b)前記コード変換処理ステップにおいて変換された
HTML文書を形態素解析してキーワードを抽出するキ
ーワード抽出ステップと、 (c)前記HTML文書のURLが前記保存キーワード
部内の保存情報に存在するかどうか検索し、存在しなけ
れば、前記HTML文書のURL、前記キーワード抽出
ステップからのキーワードを出力し、存在すれば、前記
キーワード抽出ステップからのキーワードと前記保存キ
ーワード部内の対応するURLを含む保存情報のキーワ
ードとを比較し、一致していなければ、前記HTML文
書のURL、前記キーワード抽出ステップからのキーワ
ードを出力するデータ比較ステップと、 (d)前記データ比較ステップからの前記HTML文書
のURLのファイル名部分がディレクトリの代表ファイ
ル名であるかどうか調べ、代表ファイル名であれば、同
一ディレクトリ下でファイル名部分が代表ファイル名で
ないURLが前記保存キーワード部内の保存情報に存在
するかどうか検索し、存在すれば、代表ファイル名でな
いURLを代表ファイル名のURLに変更することを決
定し、前記HTML文書のURLを選定し、存在しなけ
れば、前記HTML文書のURLを選定し、前記データ
比較ステップからの前記HTML文書のURLのファイ
ル名部分がディレクトリの代表ファイル名でなければ、
同一ディレクトリ下でファイル名部分が代表ファイル名
であるURLが前記保存キーワード部内の保存情報に存
在するかどうか検索し、存在すれば、前記保存キーワー
ド部内の保存情報の対代表ファイル名のURLを選定
し、存在しなければ、上位ディレクトリ下でファイル名
部分が代表ファイル名であるURLが前記保存キーワー
ド部内の保存情報に存在するかどうか検索し、存在しな
ければ、前記HTML文書のURLを選定し、存在すれ
ば、前記保存キーワード部内の保存情報の対代表ファイ
ル名のUR Lを選定する登録URL決定ステップと、 (e)前記登録URL決定ステップで選定されたUR
L、前記キーワード抽出ステップで抽出されたキーワー
ドを文書検索システムに登録し、前記キーワード抽出ス
テップで抽出されたキーワード、前記コード変換処理ス
テップにおいて変換されたHTML文書からのURLを
1組の保存情報として前記保存キーワードに保存するデ
ータ登録ステップと、をコンピュータに実行させるプロ
グラムを記録する。
【0015】
【0016】
【0017】
【0018】
【発明の実施の形態】次に、本発明の第1の実施の形態
について図面を参照して詳細に説明する。図1は、本発
明の第1の実施の形態を示すブロック図である。図1を
参照すると、本発明の第1の実施の形態は、データ登録
システム10と、Webロボット20と、文書検索シス
テム30とから構成される。
【0019】Webロボット20はインターネットに接
続されており、インターネットに接続されている多数の
Webサーバ(図示せず)からHTML文書の取得を行
い、HTML文書データ21(URLを含むデータ)と
して内蔵する記憶装置に保存する。
【0020】データ登録システム10と、Webロボッ
ト20と、文書検索システム30とは、それぞれ別々の
サーバ上に構成されても、1つのサーバ上に構成されて
もよい。また、HTML文書データ21を保存する記憶
装置は、データ登録システム10に内蔵されていてもよ
い。
【0021】データ登録システム10は、コード変換処
理部11と、キーワード抽出部12と、データ比較部1
3と、保存キーワード14と、登録URL決定部15
と、データ登録部16とを備える。
【0022】コード変換処理部11は、HTML文書デ
ータ21からのHTML文書の日本語文字コードの統一
を行うため、日本語文字コードの変換を行う。たとえ
ば、シフトJIS、JIS等からUNIXで使用される
EUCコードへの変換を行う。
【0023】キーワード抽出部12は、コード変換処理
部11において変換されたHTML文書を形態素解析し
てすべての名詞をキーワードとして抽出する。データ比
較部13は、過去に保存された保存キーワード14内の
キーワードとキーワード抽出部12で抽出されたキーワ
ードとの比較を行う。
【0024】保存キーワード14は、データ登録部16
により文書検索システム30に登録されたキーワード、
およびコード変換処理部11で変換されたHTML文書
からのURLを保存する。
【0025】登録URL決定部15は、コード変換処理
部11において変換されたHTML文書から文書検索シ
ステム30に登録するURL、タイトルを決定する。
【0026】データ登録部16は、登録URL決定部1
5で決定したURL、タイトルとキーワード抽出部12
で抽出したキーワードとを文書検索システム30に登録
する処理を行い、同時にキーワード抽出部12で抽出し
たキーワード、およびコード変換処理部11において変
換されたHTML文書からのURLを1組の保存情報と
して保存キーワード14に保存する。
【0027】文書検索システム30は、データ登録シス
テム10からの指示により、内蔵する記憶装置に、UR
L、タイトル、およびキーワードを1組にして保存す
る。また、インターネットに接続されており、利用者か
ら検索キーワードを受け付け、その検索キーワードがデ
ータ登録システム10によって登録されたキーワードと
適合するかどうか検索を行い、検索されたキーワードと
一緒に登録されたURLおよびタイトルを出力する。
【0028】次に、本発明の第1の実施の形態の動作に
ついて図面を参照して説明する。図2は、本発明の第1
の実施の形態の動作を示すフローチャートである。図3
は、データ比較部13の動作を示す詳細フローチャート
である。図4は、登録URL決定部15の動作を示す詳
細フローチャートである。図5は、コード変換処理部1
1、キーワード抽出部12の動作を示す説明図である。
図6、図7は、データ比較部13の動作を示す説明図で
ある。図8、図9は、登録URL決定部15の動作を示
す説明図である。図10は、登録URL決定部15、デ
ータ登録部16の動作を示す説明図である。
【0029】Webロボット20によって、インターネ
ットから収集されたHTML文書データ21内のHTM
L文書は、データ登録システム10のコード変換処理部
11に供給される。インターネットから収集されたHT
ML文書は様々な日本語文字コードで記述されているた
め、そのままでは形態素解析やキーワードの比較などが
困難である。コード変換処理部11では、供給されたH
TML文書の日本語文字コードを統一するため、日本語
文字コードの変換を行う(図2ステップS1)。たとえ
ば、図5D0に示すシフトJISのHTML文書はUN
IXでは、文字が正確に表示されないので、EUCコー
ドに変換し、図5D1に示すように、正確に表示させ
る。
【0030】日本語文字コードの変換が行われたHTM
L文書は、キーワード抽出部12に与えられる。キーワ
ード抽出部12では、与えられたHTML文書に対して
形態素解析を行い、全ての名詞をキーワードとして抽出
する(図2ステップS2)。たとえば、図5D2に示す
ように、図5D1から<HTML>、<BODY>、<
/BODY>、</HTML>といったHTMLのタグ
と、「の」、「へ」、「で渡った。」といった名詞以外
の文字列を取り除き、図5D2を生成する。
【0031】抽出されたキーワードおよびコード変換処
理部11からのURLは、データ比較部13に与えられ
る。データ比較部13では、与えられたキーワードおよ
びURLと保存キーワード14内の保存情報との比較を
行う(図2ステップS3)。
【0032】詳細には、まず、与えられたURLと同一
のURLを含む保存情報が保存キーワード14に存在す
るかどうか検索する(図3ステップS31)。存在しな
い場合(図3ステップS32NO)には、新しく収集さ
れたHTML文書に基づくものであるから、与えられた
URLおよびキーワードを登録URL決定部15に与え
る(図3ステップS35)。
【0033】同一のURLが存在する場合(図3ステッ
プS32YES)には、与えられたキーワード全体とそ
のURLを含む保存情報に含まれるキーワード全体とを
比較する(図3ステップS33)。この比較において一
致が検出されないと(図3ステップS34NO、図6D
23、D24、D25)、新しく収集されたHTML文
書に基づくものであるから、与えられたURLおよびキ
ーワードを登録URL決定部15に与える(図3ステッ
プS35)。
【0034】一致が検出されると(図3ステップS34
YES、図7D12、D13、D14、D15)、すで
に収集されているHTML文書に基づくものであり、か
つ更新されていないものであるから、登録URL決定部
15には与えない(図3ステップS36)。
【0035】次に、登録URL決定部15では、文書検
索システム30に登録するURLを決定する(図2ステ
ップS4)。
【0036】詳細には、まず、データ比較部13から与
えられたURLからファイル名部分の抽出を行う(図4
ステップS41)。たとえば、与えられた文書のURL
がhttp://aa.bb.cc/dir/inde
x.htmlである場合は、ファイル名部分としてin
dex.htmlを抽出する(図8U1およびU2)。
【0037】次に、抽出したファイル名部分が、与えら
れた文書が存在するディレクトリの代表となるHTML
文書ファイル名かどうか、チェックを行う(図4ステッ
プS42)。たとえば、ディレクトリの代表となるHT
ML文書ファイル名には、index.htmlやho
me.htmlなどを設定し、あらかじめどのような順
番でチェックを行うか、順位を決定しておく。
【0038】以下、index.htmlおよびhom
e.htmlを、ディレクトリの代表となるHTML文
書ファイル名とし、index.html、home.
htmlの順でチェックするものとする。
【0039】抽出したファイル名部分がディレクトリの
代表となるHTML文書ファイル名である場合(図4ス
テップS42YES)には、与えられた文書のURL
を、登録するURLとして、データ登録部16に与える
(図4ステップS47)。
【0040】たとえば、与えられた文書のURLがht
tp://aa.bb.cc/dir/index.h
tmlである場合、ファイル名部分はindex.ht
mlであり、ディレクトリの代表となるHTML文書フ
ァイル名であるから、http://aa.bb.cc
/dir/index.htmlを登録するURLとし
てデータ登録部16に与える(図8U1、U2、U
3)。
【0041】抽出したファイル名部分がディレクトリの
代表となるHTML文書ファイル名ではない場合(図4
ステップS42NO)には、同一ディレクトリ下で、か
つファイル名部分がディレクトリの代表となるHTML
文書ファイル名に対応するURLが、保存キーワード1
4の保存情報に登録されているか検索を行う(図4ステ
ップS43)。
【0042】たとえば、与えられたURLがhttp:
//aa.bb.cc/dir/file.htmlで
ある場合、同一ディレクトリ下で、かつファイル名部分
がディレクトリの代表となるHTML文書ファイル名で
ある文書のURLはhttp://aa.bb.cc/
dir/index.htmlあるいはhttp://
aa.bb.cc/dir/home.htmlである
から、このURLが保存キーワード14内の保存情報に
含まれているかどうか検索を行う(図9U11、U1
2)。
【0043】検索できた場合(図4S44YES)に
は、検索された保存情報に含まれるURLと同じURL
を登録するURLとして、データ登録部16に与える
(図4ステップS48)。
【0044】たとえば、与えられた文書のURLがht
tp://aa.bb.cc/dir/file.ht
mlであり、かつ保存キーワード14にURLがhtt
p://aa.bb.cc/dir/index.ht
mlである文書が登録されている場合、http://
aa.bb.cc/dir/index.htmlを登
録するURLとしてデータ登録部16に与える(図9U
13、U14)。
【0045】検索できなかった場合(図4S44NO)
には、1つ上位のディレクトリ下で、かつファイル名部
分がディレクトリの代表となるHTML文書ファイル名
が、保存キーワード14内の保存情報に含まれているか
どうか検索を行う(図4ステップS45)。
【0046】たとえば、与えられた文書のURLがht
tp://aa.bb.cc/dir/file.ht
mlである場合、1つ上位のディレクトリ下で、かつフ
ァイル名部分がディレクトリの代表となるHTML文書
ファイル名である文書のURLはhttp://aa.
bb.cc/index.htmlあるいはhttp:
//aa.bb.cc/home.htmlであるか
ら、このURLが保存キーワード14内の保存情報に保
存されているか検索を行う(図10U21〜U24)。
【0047】検索できた場合(図4ステップS46YE
S)には、検索されたURLと同じURLを登録するU
RLとして、データ登録部16に与える(図4ステップ
S48)。
【0048】たとえば、与えられたURLがhttp:
//aa.bb.cc/dir/file.htmlで
あり、かつ保存キーワード14内の保存情報にURLが
http://aa.bb.cc/index.htm
lが登録されている場合、http://aa.bb.
cc/index.htmlを登録するURLとしてデ
ータ登録部16に与える(図10U25、U26)。
【0049】検索されなかった場合(図4ステップS4
6NO)には、与えられた文書のURLを登録するUR
Lとして、データ登録部16に与える(図4ステップS
47)。
【0050】次に、データ登録部16では、データ比較
部13からのキーワード、登録URL決定部15からの
登録するURL、およびコード変換処理部11からの対
応するタイトルを文書検索システム30に登録する。ま
た、さらに、データ比較部13からのキーワード、コー
ド変換処理部11からデータ比較部13に与えられた元
々のURLを、保存キーワード14に1組の保存情報と
して登録し処理を終了する(図2ステップS5)。
【0051】たとえば、与えられたURLがhttp:
//aa.bb.cc/dir/file.htmlで
あり、かつ保存キーワード14にURLがhttp:/
/aa.bb.cc/index.htmlである保存
情報が登録されている場合、URLをhttp://a
a.bb.cc/index.htmlとして、文書検
索システム30にキーワード、およびタイトルを登録
し、さらに、URLがhttp://aa.bb.cc
/dir/file.htmlでキーワードを含む保存
情報を保存キーワード14に登録する(図10U2
6)。
【0052】次に、本発明の第2の実施の形態について
図面を参照して詳細に説明する。図11は、本発明の第
2の実施の形態の登録URL決定部15の動作を示すフ
ローチャートである。図12、図13は、本発明の第2
の実施の形態の動作を示す説明図である。
【0053】本発明の第2の実施の形態は、登録URL
決定部15の動作が第1の実施の形態と異なる(詳細に
は、図11ステップA103〜A106の処理を有する
点が異なる)。
【0054】具体例として、保存キーワード14に図1
2D122に示すような保存情報が既に登録されてお
り、Webロボット20から、図12D121に示すよ
うなHTML文書データ21が入力された場合について
説明する。
【0055】コード変換処理部11、キーワード抽出部
12、およびデータ比較部13については、第1の実施
の形態の動作と同一であるので説明は省略する。
【0056】登録URL決定部15では、与えられた文
書のURLからファイル名部分の抽出を行う(図11ス
テップA101)。たとえば、与えられた文書のURL
がhttp://a.b.c/dd/index.ht
mlであると、ファイル名部分としてindex.ht
mlを抽出する(図13U131、U132)。
【0057】次に、抽出したファイル名部分が、与えら
れた文書が存在するディレクトリの代表となるHTML
文書ファイル名かどうか、チェックを行う(図11ステ
ップA102)。
【0058】抽出したファイル名部分がディレクトリの
代表となるHTML文書ファイル名でない場合(図11
A102NO)には、動作は第1の実施の形態と同一で
ある。
【0059】抽出したファイル名部分がディレクトリの
代表となるHTML文書ファイル名である場合(図11
A102YES)には、与えられた文書が存在するディ
レクトリ下に存在し、かつファイル名部分がディレクト
リの代表となるHTML文書ファイル名ではないURL
を含む保存情報が、保存キーワード14に登録されてい
るかどうか検索を行う(図11ステップA103)。
【0060】たとえば、与えられたURLがhttp:
//a.b.c/dd/index.htmlである
と、http://a.b.c/dd/下に存在し、か
つファイル名部分がindex.htmlあるいはho
me.htmlではないURLについて検索を行う(図
13U133)。
【0061】検索できた場合(図11A104YES)
には、検索できたURLを含む保存情報のURLを与え
られたURLに変更するように、かつ、与えられたUR
Lを文書検索システム30に登録するURLとして渡す
ように、データ登録部16指示する(図11ステップA
105)。
【0062】たとえば、URLがhttp://a.
b.c/dd/ee.htmlである保存情報(図13
U134)が検索されると、この検索された文書のUR
Lを、http://a.b.c/dd/ee.htm
lからhttp://a.b.c/dd/index.
htmlに変更し(図13U135)、文書検索システ
ム30に登録するURLはhttp://a.b.c/
dd/index.htmlに決定する(図13U13
6)。
【0063】検索されなかった場合(図11ステップA
104NO)には、与えられたURLを文書検索システ
ム30に登録するURLとして、データ登録部16に与
える(図11A106)。
【0064】データ登録部16では、データ比較部13
からのキーワード、登録URL決定部15からの登録す
るURL、およびコード変換処理部11からの対応する
タイトルを文書検索システム30に登録する。また、さ
らに、保存キーワード14内の登録URL決定部15に
おいて検索できたURLを含む保存情報のURLをコー
ド変換処理部11からデータ比較部13に与えられた元
々のURLで置き換える(図2ステップS5)。
【0065】たとえば、与えられたURLがhttp:
//a.b.c/dd/index.htmlであり、
かつ保存キーワード14にURLがhttp://a.
b.c/dd/ee.htmlである保存情報が登録さ
れている場合、URLをhttp://a.b.c/d
d/index.htmlとして、文書検索システム3
0にキーワード、およびタイトルを登録し、さらに、保
存キーワード14内のURLがhttp://a.b.
c/dd/ee.htmlである保存情報のURLをh
ttp://a.b.c/dd/index.html
に変更する。
【0066】したがって、本発明の第2の実施の形態
は、URLのファイル名部分がディレクトリの代表とな
るHTML文書ファイル名ではない保存情報が、すでに
保存キーワード14に登録されている場合、URLのフ
ァイル名部分がディレクトリの代表となるHTML文書
ファイル名である文書が、新たにデータ登録システム1
0に入力されると、すでに登録されている保存情報のU
RLが、URLのファイル名部分がディレクトリの代表
となるHTML文書ファイル名に統合されるという、新
たな効果を生じる。
【0067】次に、本発明の第3の実施の形態について
図面を参照して説明する。
【0068】本発明の第3の実施の形態は、Webロボ
ット20によって、インターネットから収集されたHT
ML文書データ21内のHTML文書の日本語文字コー
ドを統一するため、日本語文字コードの変換を行う第1
のステップ(図2ステップS1)と、与えられたHTM
L文書に対して形態素解析を行い、全ての名詞をキーワ
ードとして抽出する第2のステップ(図2ステップS
2)と、与えられたURLと同一のURLを含む保存情
報が保存キーワード14に存在するかどうか検索する第
3のステップ(図3ステップS31)と、存在しない場
合(図3ステップS32NO)には、与えられたURL
およびキーワードを出力する第4のステップ(図3ステ
ップS35)と、同一のURLが存在する場合(図3ス
テップS32YES)には、与えられたキーワード全体
とそのURLを含む保存情報に含まれるキーワード全体
とを比較する第5のステップ(図3ステップS33)
と、この比較において一致が検出されないと(図3ステ
ップS34NO、図6D23、D24、D25)、与え
られたURLおよびキーワードを出力する第6のステッ
プ(図3ステップS35)と、一致が検出されると(図
3ステップS34YES、図7D12、D13、D1
4、D15)、与えられたURL、キーワードを出力し
ない第7のステップ(図3ステップS36)と、与えら
れたURLからファイル名部分の抽出を行う第8のステ
ップ(図4ステップS41)と、抽出したファイル名部
分が、与えられた文書が存在するディレクトリの代表と
なるHTML文書ファイル名かどうか、チェックを行う
第9のステップ(図4ステップS42)と、抽出したフ
ァイル名部分がディレクトリの代表となるHTML文書
ファイル名である場合(図4ステップS42YES)に
は、与えられた文書のURLを、登録するURLとし
て、出力する第10のステップ(図4ステップS47)
と、抽出したファイル名部分がディレクトリの代表とな
るHTML文書ファイル名ではない場合(図4ステップ
S42NO)には、同一ディレクトリ下で、かつファイ
ル名部分がディレクトリの代表となるHTML文書ファ
イル名に対応するURLが、保存キーワード14の保存
情報に登録されているか検索を行う第11のステップ
(図4ステップS43)と、検索できた場合(図4S4
4YES)には、検索された保存情報に含まれるURL
と同じURLを登録するURLとして出力する第12の
ステップ(図4ステップS48)と、検索できなかった
場合(図4S44NO)には、1つ上位のディレクトリ
下で、かつファイル名部分がディレクトリの代表となる
HTML文書ファイル名が、保存キーワード14内の保
存情報に含まれているかどうか検索を行う第13のステ
ップ(図4ステップS45)と、検索できた場合(図4
ステップS46YES)には、検索されたURLと同じ
URLを登録するURLとして出力する第14のステッ
プ(図4ステップS48)と、検索されなかった場合
(図4ステップS46NO)には、与えられた文書のU
RLを登録するURLとして出力する第15のステップ
(図4ステップS47)と、キーワード、登録するUR
L、対応するタイトルを文書検索システム30に登録
し、さらに、キーワード、与えられた元々のURLを、
保存キーワード14に1組の保存情報として登録する第
16のステップ(図2ステップS5)とを含むHTML
文書検索システムへのデータ登録方法である。
【0069】次に、本発明の第4の実施の形態について
図面を参照して説明する。
【0070】本発明の第4の実施の形態は、URLの決
定部の動作が第3の実施の形態と異なる。詳細には、第
3の実施の形態において抽出したファイル名部分がディ
レクトリの代表となるHTML文書ファイル名である場
合(図4ステップS42YES)の処理が異なる。
【0071】本発明の第4の実施の形態は、本発明の第
3の実施の形態であって、与えられた文書のURLから
ファイル名部分の抽出を行う第17のステップ(図11
ステップA101)と、抽出したファイル名部分が、与
えられた文書が存在するディレクトリの代表となるHT
ML文書ファイル名かどうか、チェックを行う第18の
ステップ(図11ステップA102)と、抽出したファ
イル名部分がディレクトリの代表となるHTML文書フ
ァイル名である場合(図11A102YES)には、与
えられた文書が存在するディレクトリ下に存在し、かつ
ファイル名部分がディレクトリの代表となるHTML文
書ファイル名ではないURLを含む保存情報が、保存キ
ーワード14に登録されているかどうか検索を行う第1
9のステップ(図11ステップA103)と、検索でき
た場合(図11A104YES)には、検索できたUR
Lを含む保存情報のURLを与えられたURLに変更す
るように、かつ、与えられたURLを文書検索システム
30に登録するURLとして出力する第20のステップ
(図11ステップA105)と、検索されなかった場合
(図11ステップA104NO)には、与えられたUR
Lを文書検索システム30に登録するURLとして出力
する第21のステップ(図11A106)と、キーワー
ド、登録するURL、対応するタイトルを文書検索シス
テム30に登録し、保存キーワード14内の検索できた
URLを含む保存情報のURLを元々のURLで置き換
える第22のステップ(図2ステップS5)とを含むH
TML文書検索システムへのデータ登録方法である。
【0072】次に、本発明の第5の実施の形態について
図面を参照して説明する。図14は、本発明の第5の実
施の形態を示すブロック図である。図14を参照する
と、本発明の第5の実施の形態は、本発明の第3の実施
の形態の各ステップをコンピュータ100に実行させる
プログラムを記録した記録媒体120である。このプロ
グラムは、記録媒体120からコンピュータ100(た
とえば、本発明の第1の実施の形態のデータ登録システ
ム10等)にロードされ、実行される。
【0073】詳細には、本発明の第5の実施の形態は、
Webロボット20によって、インターネットから収集
されたHTML文書データ21内のHTML文書の日本
語文字コードを統一するため、日本語文字コードの変換
を行う第1のステップ(図2ステップS1)と、与えら
れたHTML文書に対して形態素解析を行い、全ての名
詞をキーワードとして抽出する第2のステップ(図2ス
テップS2)と、与えられたURLと同一のURLを含
む保存情報が保存キーワード14に存在するかどうか検
索する第3のステップ(図3ステップS31)と、存在
しない場合(図3ステップS32NO)には、与えられ
たURLおよびキーワードを出力する第4のステップ
(図3ステップS35)と、同一のURLが存在する場
合(図3ステップS32YES)には、与えられたキー
ワード全体とそのURLを含む保存情報に含まれるキー
ワード全体とを比較する第5のステップ(図3ステップ
S33)と、この比較において一致が検出されないと
(図3ステップS34NO、図6D23、D24、D2
5)、与えられたURLおよびキーワードを出力する第
6のステップ(図3ステップS35)と、一致が検出さ
れると(図3ステップS34YES、図7D12、D1
3、D14、D15)、与えられたURL、キーワード
を出力しない第7のステップ(図3ステップS36)
と、与えられたURLからファイル名部分の抽出を行う
第8のステップ(図4ステップS41)と、抽出したフ
ァイル名部分が、与えられた文書が存在するディレクト
リの代表となるHTML文書ファイル名かどうか、チェ
ックを行う第9のステップ(図4ステップS42)と、
抽出したファイル名部分がディレクトリの代表となるH
TML文書ファイル名である場合(図4ステップS42
YES)には、与えられたURLを、登録するURLと
して、出力する第10のステップ(図4ステップS4
7)と、抽出したファイル名部分がディレクトリの代表
となるHTML文書ファイル名ではない場合(図4ステ
ップS42NO)には、同一ディレクトリ下で、かつフ
ァイル名部分がディレクトリの代表となるHTML文書
ファイル名に対応するURLが、保存キーワード14の
保存情報に登録されているかどうか検索を行う第11の
ステップ(図4ステップS43)と、検索できた場合
(図4S44YES)には、検索された保存情報に含ま
れるURLと同じURLを登録するURLとして出力す
る第12のステップ(図4ステップS48)と、検索で
きなかった場合(図4S44NO)には、1つ上位のデ
ィレクトリ下で、かつファイル名部分がディレクトリの
代表となるHTML文書ファイル名が、保存キーワード
14内の保存情報に含まれているかどうか検索を行う第
13のステップ(図4ステップS45)と、検索できた
場合(図4ステップS46YES)には、検索されたU
RLと同じURLを登録するURLとして出力する第1
4のステップ(図4ステップS48)と、検索されなか
った場合(図4ステップS46NO)には、与えられた
文書のURLを登録するURLとして出力する第15の
ステップ(図4ステップS47)と、キーワード、登録
するURL、対応するタイトルを文書検索システム30
に登録し、さらに、キーワード、与えられた元々のUR
Lを、保存キーワード14に1組の保存情報として登録
する第16のステップ(図2ステップS5)とをコンピ
ュータ100に実行させるプログラムを記録した記録媒
体120である。
【0074】次に、本発明の第6の実施の形態について
図面を参照して説明する。図14を参照すると、本発明
の第6の実施の形態は、本発明の第4の実施の形態の各
ステップをコンピュータ100に実行させるプログラム
を記録した記録媒体120である。このプログラムは、
記録媒体120からコンピュータ100(たとえば、本
発明の第1の実施の形態のデータ登録システム10等)
にロードされ、実行される。
【0075】詳細には、本発明の第6の実施の形態は、
本発明の第3の実施の形態に含まれる各ステップと、与
えられた文書のURLからファイル名部分の抽出を行う
第17のステップ(図11ステップA101)と、抽出
したファイル名部分が、与えられた文書が存在するディ
レクトリの代表となるHTML文書ファイル名かどう
か、チェックを行う第18のステップ(図11ステップ
A102)と、抽出したファイル名部分がディレクトリ
の代表となるHTML文書ファイル名である場合(図1
1A102YES)には、与えられた文書が存在するデ
ィレクトリ下に存在し、かつファイル名部分がディレク
トリの代表となるHTML文書ファイル名ではないUR
Lを含む保存情報が、保存キーワード14に登録されて
いるかどうか検索を行う第19のステップ(図11ステ
ップA103)と、検索できた場合(図11A104Y
ES)には、検索できたURLを含む保存情報のURL
を与えられたURLに変更するように、かつ、与えられ
たURLを文書検索システム30に登録するURLとし
て出力する第20のステップ(図11ステップA10
5)と、検索されなかった場合(図11ステップA10
4NO)には、与えられたURLを文書検索システム3
0に登録するURLとして出力する第21のステップ
(図11A106)と、キーワード、登録するURL、
対応するタイトルを文書検索システム30に登録し、保
存キーワード14内の検索できたURLを含む保存情報
のURLを元々のURLで置き換える第22のステップ
(図2ステップS5)とをコンピュータ100に実行さ
せるプログラムを記録した記録媒体120である。
【0076】
【発明の効果】本発明の第1の効果は、文書検索システ
ムに効率的なデータ登録が可能となることである。
【0077】その理由は、新規に登録するHTML文書
のキーワードと、過去に文書検索システムに登録されて
いるキーワードとを比較し、変更がある場合にのみ登録
を行うからである。
【0078】第2の効果は、文書検索システムにおける
検索効率が向上することである。
【0079】その理由は、URLのファイル名部分が、
ディレクトリの代表となるHTML文書ファイル名(i
ndex.html,home.htmlなど)以外の
HTML文書は、同一ディレクトリ、あるいは上位ディ
レクトリの代表となるHTML文書ファイル名で登録を
行う点にある。この結果、文書検索システムに利用者が
探したい条件を入力して検索を実行したときに、同種の
HTML文書が多数検索される場合を軽減することがで
きるからである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態を示すブロック図で
ある。
【図2】本発明の第1の実施の形態の動作を示すフロー
チャートである。
【図3】図1のデータ比較部の動作を示す詳細フローチ
ャートである。
【図4】図1の登録URL決定部の動作を示す詳細フロ
ーチャートである。
【図5】図1のコード変換処理部、キーワード抽出部の
動作を示す説明図である。
【図6】図1のデータ比較部の動作を示す説明図であ
る。
【図7】図1データ比較部の動作を示す説明図である。
【図8】図1の登録URL決定部の動作を示す説明図で
ある。
【図9】図1の登録URL決定部の動作を示す説明図で
ある。
【図10】図1の登録URL決定部、データ登録部の動
作を示す説明図である。
【図11】本発明の第2の実施の形態の登録URL決定
部の動作を示すフローチャートである。
【図12】本発明の第2の実施の形態の動作を示す説明
図である。
【図13】本発明の第2の実施の形態の動作を示す説明
図である。
【図14】本発明の第5の実施の形態を示すブロック図
である。
【符号の説明】
10 データ登録システム 11 コード変換処理部 12 キーワード抽出部 13 データ比較部 14 保存キーワード 15 登録URL決定部 16 データ登録部 20 Webロボット 21 HTML文書データ 30 文書検索システム 100 コンピュータ 120 記録媒体
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G06F 13/00 540 G06F 13/00 540B (56)参考文献 特開 平10−91638(JP,A) 下島健彦 ほか,WWWサーバ情報検 索サービス「NETPLAZA」,NE C技報,株式会社NECクリエイティ ブ,1996年 7月30日,第49巻,第7 号,p.91−96 仕組みを知れば百万馬力 検索エンジ ン大解剖,Internet ASCI I,株式会社アスキー,1998年10月 1 日,第3巻,第10号,p.118−123 遠藤裕英 ほか,WWW新着記事収 集・配信システムの開発,情報処理学会 論文誌,1997年12月15日,第38巻,第12 号,p.2534−2543 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 12/00 G06F 13/00 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】(a)URLとキーワードとの組である保
    存情報を保存する保存キーワード部と、 (b)入力したHTML文書データの日本語文字コード
    の変換を行うコード変換処理部と、 (c)前記コード変換処理部において変換されたHTM
    L文書を形態素解析してキーワードを抽出するキーワー
    ド抽出部と、 (d)前記HTML文書のURLが前記保存キーワード
    部内の保存情報に存在するかどうか検索し、存在しなけ
    れば、前記HTML文書のURL、前記キーワード抽出
    部からのキーワードを出力し、存在すれば、前記キーワ
    ード抽出部からのキーワードと前記保存キーワード部内
    の対応するURLを含む保存情報のキーワードとを比較
    し、一致していなければ、前記HTML文書のURL、
    前記キーワード抽出部からのキーワードを出力するデー
    タ比較部と、 (e)前記データ比較部からの前記HTML文書のUR
    Lのファイル名部分がディレクトリの代表ファイル名で
    あるかどうか調べ、代表ファイル名であれば、前記HT
    ML文書のURLを選定し、代表ファイル名でなけれ
    ば、同一ディレクトリ下でファイル名部分が代表ファイ
    ル名であるURLが前記保存キーワード部内の保存情報
    に存在するかどうか検索し、存在すれば、前記保存キー
    ワード部内の保存情報の対代表ファイル名のURLを選
    定し、存在しなければ、上位ディレクトリ下でファイル
    名部分が代表ファイル名であるURLが前記保存キーワ
    ード部内の保存情報に存在するかどうか検索し、存在し
    なければ、前記HTML文書のURLを選定し、存在す
    れば、前記保存キーワード部内の保存情報の対代表ファ
    イル名のURLを選定する登録URL決定部と、 (f)前記登録URL決定部で選定されたURL、前記
    キーワード抽出部で抽出されたキーワードを文書検索シ
    ステムに登録し、前記キーワード抽出部で抽出されたキ
    ーワード、前記コード変換処理部において変換されたH
    TML文書からのURLを1組の保存情報として前記保
    存キーワードに保存するデータ登録部と、を有すること
    を特徴とするHTML文書検索システムへのデータ登録
    システム。
  2. 【請求項2】(a)URLとキーワードとの組である保
    存情報を保存する保存キーワード部と、 (b)入力したHTML文書データの日本語文字コード
    の変換を行うコード変換処理部と、 (c)前記コード変換処理部において変換されたHTM
    L文書を形態素解析してキーワードを抽出するキーワー
    ド抽出部と、 (d)前記HTML文書のURLが前記保存キーワード
    部内の保存情報に存在するかどうか検索し、存在しなけ
    れば、前記HTML文書のURL、前記キーワード抽出
    部からのキーワードを出力し、存在すれば、前記キーワ
    ード抽出部からのキーワードと前記保存キーワード部内
    の対応するURLを含む保存情報のキーワードとを比較
    し、一致していなければ、前記HTML文書のURL、
    前記キーワード抽出部からのキーワードを出力するデー
    タ比較部と、 (e)前記データ比較部からの前記HTML文書のUR
    Lのファイル名部分がディレクトリの代表ファイル名で
    あるかどうか調べ、代表ファイル名であれば、同一ディ
    レクトリ下でファイル名部分が代表ファイル名でないU
    RLが前記保存キーワード部内の保存情報に存在するか
    どうか検索し、存在すれば、代表ファイル名でないUR
    Lを代表ファイル名のURLに変更することを決定し、
    前記HTML文書のURLを選定し、存在しなければ、
    前記HTML文書のURLを選定し、前記データ比較部
    からの前記HTML文書のURLのファイル名部分がデ
    ィレクトリの代表ファイル名でなければ、同一ディレク
    トリ下でファイル名部分が代表ファイル名であるURL
    が前記保存キーワード部内の保存情報に存在するかどう
    か検索し、存在すれば、前記保存キーワード部内の保存
    情報の対代表ファイル名のURLを選定し、存在しなけ
    れば、上位ディレクトリ下でファイル名部分が代表ファ
    イル名であるURLが前記保存キーワード部内の保存情
    報に存在するかどうか検索し、存在しなければ、前記H
    TML文書のURLを選定し、存在すれば、前記保存キ
    ーワード部内の保存情報の対代表ファイル名のURLを
    選定する登録URL決定部と、 (f)前記登録URL決定部で選定されたURL、前記
    キーワード抽出部で抽出 されたキーワードを文書検索シ
    ステムに登録し、前記キーワード抽出部で抽出されたキ
    ーワード、前記コード変換処理部において変換されたH
    TML文書からのURLを1組の保存情報として前記保
    存キーワードに保存するデータ登録部と、を有すること
    を特徴とするHTML文書検索システムへのデータ登録
    システム。
  3. 【請求項3】URLとキーワードとの組である保存情報
    を保存する保存キーワード部を利用し、 (a)入力したHTML文書データの日本語文字コード
    の変換を行うコード変換処理ステップと、 (b)前記コード変換処理ステップにおいて変換された
    HTML文書を形態素解析してキーワードを抽出するキ
    ーワード抽出ステップと、 (c)前記HTML文書のURLが前記保存キーワード
    部内の保存情報に存在するかどうか検索し、存在しなけ
    れば、前記HTML文書のURL、前記キーワード抽出
    ステップからのキーワードを出力し、存在すれば、前記
    キーワード抽出ステップからのキーワードと前記保存キ
    ーワード部内の対応するURLを含む保存情報のキーワ
    ードとを比較し、一致していなければ、前記HTML文
    書のURL、前記キーワード抽出ステップからのキーワ
    ードを出力するデータ比較ステップと、 (d)前記データ比較ステップからの前記HTML文書
    のURLのファイル名部分がディレクトリの代表ファイ
    ル名であるかどうか調べ、代表ファイル名であれば、前
    記HTML文書のURLを選定し、代表ファイル名でな
    ければ、同一ディレクトリ下でファイル名部分が代表フ
    ァイル名であるURLが前記保存キーワード部内の保存
    情報に存在するかどうか検索し、存在すれば、前記保存
    キーワード部内の保存情報の対代表ファイル名のURL
    を選定し、存在しなければ、上位ディレクトリ下でファ
    イル名部分が代表ファイル名であるURLが前記保存キ
    ーワード部内の保存情報に存在するかどうか検索し、存
    在しなければ、前記HTML文書のURLを選定し、存
    在すれば、前記保存キーワード部内の保存情報の対代表
    ファイル名のURLを選定する登録URL決定ステップ
    と、 (e)前記登録URL決定ステップで選定されたUR
    L、前記キーワード抽出ス テップで抽出されたキーワー
    ドを文書検索システムに登録し、前記キーワード抽出ス
    テップで抽出されたキーワード、前記コード変換処理ス
    テップにおいて変換されたHTML文書からのURLを
    1組の保存情報として前記保存キーワードに保存するデ
    ータ登録ステップと、を含むすることを特徴とするHT
    ML文書検索システムへのデータ登録方法。
  4. 【請求項4】URLとキーワードとの組である保存情報
    を保存する保存キーワード部を利用し、 (a)入力したHTML文書データの日本語文字コード
    の変換を行うコード変換処理ステップと、 (b)前記コード変換処理ステップにおいて変換された
    HTML文書を形態素解析してキーワードを抽出するキ
    ーワード抽出ステップと、 (c)前記HTML文書のURLが前記保存キーワード
    部内の保存情報に存在するかどうか検索し、存在しなけ
    れば、前記HTML文書のURL、前記キーワード抽出
    ステップからのキーワードを出力し、存在すれば、前記
    キーワード抽出ステップからのキーワードと前記保存キ
    ーワード部内の対応するURLを含む保存情報のキーワ
    ードとを比較し、一致していなければ、前記HTML文
    書のURL、前記キーワード抽出ステップからのキーワ
    ードを出力するデータ比較ステップと、 (d)前記データ比較ステップからの前記HTML文書
    のURLのファイル名部分がディレクトリの代表ファイ
    ル名であるかどうか調べ、代表ファイル名であれば、同
    一ディレクトリ下でファイル名部分が代表ファイル名で
    ないURLが前記保存キーワード部内の保存情報に存在
    するかどうか検索し、存在すれば、代表ファイル名でな
    いURLを代表ファイル名のURLに変更することを決
    定し、前記HTML文書のURLを選定し、存在しなけ
    れば、前記HTML文書のURLを選定し、前記データ
    比較ステップからの前記HTML文書のURLのファイ
    ル名部分がディレクトリの代表ファイル名でなければ、
    同一ディレクトリ下でファイル名部分が代表ファイル名
    であるURLが前記保存キーワード部内の保存情報に存
    在するかどうか検索し、存在すれば、前記保存キーワー
    ド部内の保存情報の対 代表ファイル名のURLを選定
    し、存在しなければ、上位ディレクトリ下でファイル名
    部分が代表ファイル名であるURLが前記保存キーワー
    ド部内の保存情報に存在するかどうか検索し、存在しな
    ければ、前記HTML文書のURLを選定し、存在すれ
    ば、前記保存キーワード部内の保存情報の対代表ファイ
    ル名のURLを選定する登録URL決定ステップと、 (e)前記登録URL決定ステップで選定されたUR
    L、前記キーワード抽出ステップで抽出されたキーワー
    ドを文書検索システムに登録し、前記キーワード抽出ス
    テップで抽出されたキーワード、前記コード変換処理ス
    テップにおいて変換されたHTML文書からのURLを
    1組の保存情報として前記保存キーワードに保存するデ
    ータ登録ステップと、を含むことを特徴とするHTML
    文書検索システムへのデータ登録方法。
  5. 【請求項5】URLとキーワードとの組である保存情報
    を保存する保存キーワード部を利用し、 (a)入力したHTML文書データの日本語文字コード
    の変換を行うコード変換処理ステップと、 (b)前記コード変換処理ステップにおいて変換された
    HTML文書を形態素解析してキーワードを抽出するキ
    ーワード抽出ステップと、 (c)前記HTML文書のURLが前記保存キーワード
    部内の保存情報に存在するかどうか検索し、存在しなけ
    れば、前記HTML文書のURL、前記キーワード抽出
    ステップからのキーワードを出力し、存在すれば、前記
    キーワード抽出ステップからのキーワードと前記保存キ
    ーワード部内の対応するURLを含む保存情報のキーワ
    ードとを比較し、一致していなければ、前記HTML文
    書のURL、前記キーワード抽出ステップからのキーワ
    ードを出力するデータ比較ステップと、 (d)前記データ比較ステップからの前記HTML文書
    のURLのファイル名部分がディレクトリの代表ファイ
    ル名であるかどうか調べ、代表ファイル名であれば、前
    記HTML文書のURLを選定し、代表ファイル名でな
    ければ、同一ディレクトリ下でファイル名部分が代表フ
    ァイル名であるURLが前記保存キーワー ド部内の保存
    情報に存在するかどうか検索し、存在すれば、前記保存
    キーワード部内の保存情報の対代表ファイル名のURL
    を選定し、存在しなければ、上位ディレクトリ下でファ
    イル名部分が代表ファイル名であるURLが前記保存キ
    ーワード部内の保存情報に存在するかどうか検索し、存
    在しなければ、前記HTML文書のURLを選定し、存
    在すれば、前記保存キーワード部内の保存情報の対代表
    ファイル名のURLを選定する登録URL決定ステップ
    と、 (e)前記登録URL決定ステップで選定されたUR
    L、前記キーワード抽出ステップで抽出されたキーワー
    ドを文書検索システムに登録し、前記キーワード抽出ス
    テップで抽出されたキーワード、前記コード変換処理ス
    テップにおいて変換されたHTML文書からのURLを
    1組の保存情報として前記保存キーワードに保存するデ
    ータ登録ステップと、をコンピュータに実行させるプロ
    グラムを記録することを特徴とする書き換え可能な記録
    媒体。
  6. 【請求項6】URLとキーワードとの組である保存情報
    を保存する保存キーワード部を利用し、 (a)入力したHTML文書データの日本語文字コード
    の変換を行うコード変換処理ステップと、 (b)前記コード変換処理ステップにおいて変換された
    HTML文書を形態素解析してキーワードを抽出するキ
    ーワード抽出ステップと、 (c)前記HTML文書のURLが前記保存キーワード
    部内の保存情報に存在するかどうか検索し、存在しなけ
    れば、前記HTML文書のURL、前記キーワード抽出
    ステップからのキーワードを出力し、存在すれば、前記
    キーワード抽出ステップからのキーワードと前記保存キ
    ーワード部内の対応するURLを含む保存情報のキーワ
    ードとを比較し、一致していなければ、前記HTML文
    書のURL、前記キーワード抽出ステップからのキーワ
    ードを出力するデータ比較ステップと、 (d)前記データ比較ステップからの前記HTML文書
    のURLのファイル名部分がディレクトリの代表ファイ
    ル名であるかどうか調べ、代表ファイル名であれ ば、同
    一ディレクトリ下でファイル名部分が代表ファイル名で
    ないURLが前記保存キーワード部内の保存情報に存在
    するかどうか検索し、存在すれば、代表ファイル名でな
    いURLを代表ファイル名のURLに変更することを決
    定し、前記HTML文書のURLを選定し、存在しなけ
    れば、前記HTML文書のURLを選定し、前記データ
    比較ステップからの前記HTML文書のURLのファイ
    ル名部分がディレクトリの代表ファイル名でなければ、
    同一ディレクトリ下でファイル名部分が代表ファイル名
    であるURLが前記保存キーワード部内の保存情報に存
    在するかどうか検索し、存在すれば、前記保存キーワー
    ド部内の保存情報の対代表ファイル名のURLを選定
    し、存在しなければ、上位ディレクトリ下でファイル名
    部分が代表ファイル名であるURLが前記保存キーワー
    ド部内の保存情報に存在するかどうか検索し、存在しな
    ければ、前記HTML文書のURLを選定し、存在すれ
    ば、前記保存キーワード部内の保存情報の対代表ファイ
    ル名のURLを選定する登録URL決定ステップと、 (e)前記登録URL決定ステップで選定されたUR
    L、前記キーワード抽出ステップで抽出されたキーワー
    ドを文書検索システムに登録し、前記キーワード抽出ス
    テップで抽出されたキーワード、前記コード変換処理ス
    テップにおいて変換されたHTML文書からのURLを
    1組の保存情報として前記保存キーワードに保存するデ
    ータ登録ステップと、をコンピュータに実行させるプロ
    グラムを記録することを特徴とする書き換え可能な記録
    媒体。
JP09540399A 1999-04-01 1999-04-01 Html文書検索システムへのデータ登録システム、方法および記録媒体 Expired - Fee Related JP3430066B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09540399A JP3430066B2 (ja) 1999-04-01 1999-04-01 Html文書検索システムへのデータ登録システム、方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09540399A JP3430066B2 (ja) 1999-04-01 1999-04-01 Html文書検索システムへのデータ登録システム、方法および記録媒体

Publications (2)

Publication Number Publication Date
JP2000293527A JP2000293527A (ja) 2000-10-20
JP3430066B2 true JP3430066B2 (ja) 2003-07-28

Family

ID=14136714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09540399A Expired - Fee Related JP3430066B2 (ja) 1999-04-01 1999-04-01 Html文書検索システムへのデータ登録システム、方法および記録媒体

Country Status (1)

Country Link
JP (1) JP3430066B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100503148B1 (ko) * 2002-04-17 2005-07-25 정보통신연구진흥원 스타일 및 컨텐트 정보 기반의 웹문서 처리 시스템 및 그방법
FR2929480B1 (fr) * 2008-03-28 2013-01-11 Alcatel Lucent Procede de determination de donnees complementaires relatives a au moins un contenu, procede pour transmettre ces donnees complementaires, dispositif de traitement et serveur d'applications associes

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4025379B2 (ja) * 1996-09-17 2007-12-19 株式会社ニューズウオッチ 検索システム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
下島健彦 ほか,WWWサーバ情報検索サービス「NETPLAZA」,NEC技報,株式会社NECクリエイティブ,1996年 7月30日,第49巻,第7号,p.91−96
仕組みを知れば百万馬力 検索エンジン大解剖,Internet ASCII,株式会社アスキー,1998年10月 1日,第3巻,第10号,p.118−123
遠藤裕英 ほか,WWW新着記事収集・配信システムの開発,情報処理学会論文誌,1997年12月15日,第38巻,第12号,p.2534−2543

Also Published As

Publication number Publication date
JP2000293527A (ja) 2000-10-20

Similar Documents

Publication Publication Date Title
US10169354B2 (en) Indexing and search query processing
US6094649A (en) Keyword searches of structured databases
US6381593B1 (en) Document information management system
US8326860B2 (en) Indexing and searching product identifiers
US20010020238A1 (en) Document searching apparatus, method thereof, and record medium thereof
JP2003173280A (ja) データベース生成装置、データベース生成方法及びデータベース生成プログラム
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
JP2003271609A (ja) 情報監視装置及び情報監視方法
JP3430066B2 (ja) Html文書検索システムへのデータ登録システム、方法および記録媒体
KR100445943B1 (ko) 근접 검색식을 이용한 정보 검색 시스템 및 방법
JP5396845B2 (ja) 文書群検出方法及び文書群検出装置
US7386794B2 (en) Apparatus and method for performing the management of operation history
JP3531344B2 (ja) 情報検索装置
JPH117452A (ja) ネットワークを介した情報収集方法および装置と該方法を実施するプログラムを記録した記録媒体
JP3077615B2 (ja) ホームページ分析表示システム
JP4222166B2 (ja) 文書収集装置、文書検索装置及び文書収集検索システム
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3511724B2 (ja) 文書検索方法
JPH04340164A (ja) マルチキーワード情報検索処理方式および検索ファイル作成装置
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
KR20010082966A (ko) 관련 웹 사이트 제공 방법 및 시스템
JP2000011003A (ja) 公開文書要約装置およびそのためのプログラムを記録した記録媒体
KR100503950B1 (ko) 인터넷 검색엔진을 이용한 커스터마이징 분류 사전 구성시스템 및 방법
Murata A method for discovering purified Web communities
JPH1196184A (ja) 全文検索方法およびシステム

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030422

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090516

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100516

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees