JP2003316824A - 文書ファイル検索システム、文書ファイル検索プログラムおよび文書ファイル検索方法 - Google Patents

文書ファイル検索システム、文書ファイル検索プログラムおよび文書ファイル検索方法

Info

Publication number
JP2003316824A
JP2003316824A JP2002122263A JP2002122263A JP2003316824A JP 2003316824 A JP2003316824 A JP 2003316824A JP 2002122263 A JP2002122263 A JP 2002122263A JP 2002122263 A JP2002122263 A JP 2002122263A JP 2003316824 A JP2003316824 A JP 2003316824A
Authority
JP
Japan
Prior art keywords
tag name
tag
search
user
document file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002122263A
Other languages
English (en)
Inventor
Toichi Niyama
東一 丹山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002122263A priority Critical patent/JP2003316824A/ja
Publication of JP2003316824A publication Critical patent/JP2003316824A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ユーザ個別の履歴情報、検索結果から抽出さ
れるタグ名と同義、または類義の言葉を利用して文書フ
ァイルを並び替え、ユーザの嗜好にあった文書ファイル
を上位に配置し、検索結果として送信する文書ファイル
検索システムを提供する。 【解決手段】 ユーザ端末2から送信される検索条件で
Web検索部8はWebページ情報12を検索し、検索
条件に該当する複数の文書ファイルを抽出する。タグ名
抽出部9は、抽出された複数の文書ファイルからタグ名
を抽出し、ソート機能部10に転送する。ソート機能部
10は、ソート定義情報14に定義されている優先順位
に従って、タグ名抽出部10の抽出したタグ名と、XM
Lタグ情報13に記録されている同義語と、履歴ファイ
ル16に記録されているタグ名とを用いて、複数の文書
ファイルを並べ替える。通信制御部7は、並べ替えられ
た複数の文書ファイルを検索結果としてユーザ端末2へ
送信する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、タグを有する文書
ファイルを、ユーザ端末から入力されたキーワードを用
いて検索し、タグ名を用いて文書ファイルを並び替え、
ユーザに提供する文書ファイル検索システムに関する。
【0002】
【従来の技術】HTMLで記述された文書ファイルを検
索する検索エンジンには、大きく分けてカテゴリ型とロ
ボット全文検索型がある。ロボット全文検索型では、イ
ンターネット上の情報を定期的に収集しておき、ユーザ
が入力した検索条件に合致する文書ファイルを検索結果
としてユーザに返却している。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
検索エンジンでは、検索条件としてキーワードしか与え
ることができず、検索条件に合致した文書ファイルの件
数が大量に表示されていた。そのため、望まない文書フ
ァイルへの無駄なアクセスが多くなり、ユーザが望む文
書ファイルを見つけるのに多大な時間が必要とされてい
た。逆に、検索結果を絞り込もうとして複数のキーワー
ドを入力すると、うまく条件に合致せずに検索結果が0
件になってしまうこともあった。
【0004】また、検索時の履歴が残らないために、キ
ーワードが同じであれば、どのユーザにも常に同一の検
索結果が返却され、ユーザの嗜好、過去の検索実績に応
じた検索を行うことはできなかった。
【0005】また、XMLで記述された文書ファイルを
検索する技術として、特開平11−306205号公報
に「文書ファイル検索装置及びプログラムを記録した機
械読み取り可能な記録媒体」が開示されている。この公
知例では、検索条件文が入力されると、属性名を表現す
る自然言語表現はその属性名を含む属性名インデックス
に、属性値を表現する自然言語表現はその属性値と属性
名との対を含む属性値インデックスにそれぞれ変換す
る。次いで、検索対象文書ファイル中に、変換後のイン
デックス列中の全ての属性値インデックスの属性名と属
性値との対に対応するタグが存在するか否かを調べ、存
在する場合、文書内容出力部が変換後のインデックス列
中の属性名インデックスの属性名を持つタグの属性値を
検索して出力するというものである。
【0006】例えば、「ホテル」をキーワードとして検
索すると、まず、予め登録されている自然言語表現から
ホテルに対応する言葉、例えば宿泊場所等の言葉を抽出
し、キーワードと抽出した言葉の対に該当するタグが存
在するか調べるというものである。
【0007】この検索方法では、キーワードに対応する
言葉を検索条件に用いることで、検索範囲を広げること
ができ、キーワードに限定されない検索を行うことがで
きるが、当然のことながら同じキーワードで検索すれ
ば、どのユーザにも常に同じ検索結果が返却されてしま
う。従って、検索結果にユーザの嗜好、過去の検索実績
が反映されることは無く、検索結果を並び替えることも
ないことから、ユーザの嗜好にあった検索結果を得るこ
とは困難である。
【0008】本発明は上記事情に鑑み、マークアップ言
語で記述されタグを埋め込まれた文書の文書ファイルを
検索するにあたって、ユーザ個別の検索履歴、および文
書ファイルから抽出されるタグ名と同義、または類義の
言葉を利用して複数の文書ファイルを並び替え、ユーザ
の嗜好にあった文書ファイルを上位に配置しユーザに送
信する文書ファイル検索システムを提供することを目的
とする。
【0009】
【課題を解決するための手段】上記目的を達成するため
に、請求項1に記載の発明である文書ファイル検索シス
テムは、検索条件を送信するユーザ端末と、ユーザ端末
から送信された検索条件を用いて、マークアップ言語で
記述されタグが埋め込まれた文書の文書ファイルを検索
し、検索の結果、抽出された複数の文書ファイルを所定
の優先順位に従って並び替え、ユーザ端末に送信する検
索サーバとから構成される文書ファイル検索システムで
あって、前記ユーザ端末は、前記検索条件として、キー
ワードとユーザを識別するユーザIDとを送信する検索
条件送信手段と、前記検索サーバから送信される検索結
果から、前記検索条件と、前記キーワードを囲むタグの
タグ名と、前記文書ファイルのURLとを送信する履歴
送信手段とを備え、前記検索サーバは、前記履歴送信手
段によって送信される前記検索条件と、前記タグ名と、
前記URLとを、ユーザ毎に保存する履歴保存手段と、
検索の結果、抽出された複数の文書ファイルから、当該
キーワードを囲むタグのタグ名を抽出するタグ名抽出手
段と、前記タグ名抽出手段によって抽出されたタグ名
と、前記履歴保存手段によってユーザ毎に保存されてい
るタグ名とを用いて、前記複数の文書ファイルを並べ替
えるソート手段とを備えることを特徴とする。
【0010】請求項1の発明によれば、ユーザ端末は、
検索結果から文書ファイルが選択されると、検索条件
と、そのキーワードを囲むタグのタグ名と、当該文書フ
ァイルのURLとを送信する。また検索サーバは、入力
されたキーワードを用いて文書ファイルを検索し、検索
の結果、抽出された1以上の文書ファイルから、キーワ
ードを囲むタグのタグ名を抽出し、抽出したタグ名と履
歴として保存されているタグ名とが一致する文書ファイ
ルを、検索結果の上位に配置する。
【0011】従って、ユーザの必要とする文書ファイル
の傾向が履歴ファイルから得られるので、ユーザは、個
人の嗜好にあった文書ファイルを容易に得ることができ
る。
【0012】また、請求項2に記載の発明である文書フ
ァイル検索システムは、請求項1に記載の文書ファイル
検索システムであって、前記検索サーバは、タグ名と、
そのタグ名と同じ意味を持つ同義語、または似た意味を
持つ類義語とを格納するタグ情報データベースと、前記
タグ名抽出手段によって抽出されたタグ名を用いて、前
記タグ情報データベースから当該タグ名に関連する同義
語または類義語を抽出する同義語抽出手段とを備え、前
記ソート手段は、前記タグ名抽出手段によって抽出され
たタグ名と、前記履歴保存手段によってユーザ毎に保存
されているタグ名と、前記同義語抽出手段によって抽出
された同義語または類義語を用いて、前記複数の文書フ
ァイルを並べ替えることを特徴とする。
【0013】請求項2の発明によれば、入力されたキー
ワードを用いて文書ファイルを検索し、検索の結果、抽
出された1以上の文書ファイルから、キーワードを囲む
タグのタグ名を抽出する。さらに履歴として保存されて
いるタグ名と、抽出したタグ名に関連する同義語または
類義語とが一致する文書ファイルを、検索結果の上位に
配置する。
【0014】従って、検索結果から抽出されたタグ名
が、ユーザ毎に履歴として保存されているタグ名と一致
せずとも、キーワードが同じ意味、または近い意味を持
つタグ名で囲まれている場合は、優先的に上位に配置さ
れるので、ユーザは目的に応じた文書ファイルを容易に
得ることが可能となる。
【0015】また、請求項3に記載の発明である文書フ
ァイル検索システムは、請求項1または請求項2に記載
の文書ファイル検索システムであって、前記検索条件送
信手段は、前記検索条件として、キーワードとタグ名と
ユーザを識別するユーザIDとを送信し、前記ソート手
段は、前記検索条件送信手段によって送信されたタグ名
と、前記タグ名抽出手段によって抽出されたタグ名とを
用いて、前記複数の文書ファイルを並べ替えることを特
徴とする。
【0016】請求項3の発明によれば、予め検索条件と
してタグ名が入力されていれば、そのタグ名を持つ文書
ファイルが優先的に上位に配置されるので、ユーザは所
望の文書ファイルを容易に得ることができ、検索の効率
を向上させることができる。
【0017】また、請求項4に記載の発明である文書フ
ァイル検索プログラムは、ユーザ端末から入力された検
索条件を用いて、マークアップ言語で記述されタグが埋
め込まれた文書の文書ファイルを検索し、検索の結果、
抽出された複数の文書ファイルを所定の優先順位に従っ
て並び替え、ユーザ端末に送信する文書ファイル検索プ
ログラムであって、前記検索条件として、キーワード
と、ユーザを識別するユーザIDとを取得する検索条件
取得機能と、検索結果から、前記検索条件と、前記キー
ワードを囲むタグのタグ名と、前記文書ファイルのUR
Lとを取得し、ユーザ毎に保存する履歴保存機能と、検
索の結果、抽出された複数の文書ファイルから、前記キ
ーワードを囲むタグのタグ名を抽出するタグ名抽出機能
と、前記タグ名抽出機能によって抽出されたタグ名と、
前記履歴保存機能によってユーザ毎に保存されたタグ名
とを用いて前記複数の文書ファイルを並べ替えるソート
機能とを有することを特徴とする。
【0018】請求項4の発明によれば、入力されたキー
ワードを用いて文書ファイルを検索し、検索の結果、抽
出された1以上の文書ファイルから、キーワードを囲む
タグのタグ名を抽出し、抽出したタグ名と履歴として保
存されているタグ名とが一致する文書ファイルを、検索
結果の上位に配置する。
【0019】従って、ユーザの必要とする文書ファイル
の傾向が履歴ファイルから得られるので、ユーザは、個
人の嗜好にあった文書ファイルを容易に得ることができ
る。
【0020】また、請求項5に記載の発明である文書フ
ァイル検索プログラムは、請求項4に記載の文書ファイ
ル検索プログラムであって、前記文書ファイル検索プロ
グラムは、タグ名と同じ意味を持つ同義語、または似た
意味を持つ類義語とが予め記録されているタグ情報デー
タベースから、前記タグ名抽出機能によって抽出された
タグ名を用いて、当該タグ名の同義語または類義語を抽
出する同義語抽出機能を有し、前記ソート機能は、前記
タグ名抽出機能によって抽出されたタグ名と、前記履歴
保存機能によってユーザ毎に保存されているタグ名と、
前記同義語抽出機能によって抽出された同義語または類
義語を用いて、前記複数の文書ファイルを並べ替えるこ
とを特徴とする。
【0021】請求項5の発明によれば、入力されたキー
ワードを用いて文書ファイルを検索し、検索の結果、抽
出された1以上の文書ファイルから、キーワードを囲む
タグのタグ名を抽出する。さらに履歴として保存されて
いるタグ名と、抽出したタグ名に関連する同義語または
類義語とが一致する文書ファイルを、検索結果の上位に
配置する。
【0022】従って、検索結果から抽出されたタグ名
が、ユーザ毎に履歴として保存されているタグ名と一致
せずとも、キーワードが同じ意味、または近い意味を持
つタグ名で囲まれている場合は、優先的に上位に配置さ
れるので、ユーザは目的に応じた文書ファイルを容易に
得ることが可能となる。
【0023】また、請求項6に記載の発明である文書フ
ァイル検索プログラムは、請求項4または請求項5に記
載の文書ファイル検索プログラムであって、前記検索条
件取得機能は、前記検索条件としてキーワードと、前記
ユーザIDと、タグ名を取得し、前記ソート機能は、前
記検索条件取得機能によって取得されたタグ名と、前記
タグ名抽出機能によって抽出されたタグ名とを用いて、
前記複数の文書ファイルを並べ替えることを特徴とす
る。
【0024】請求項6の発明によれば、予め検索条件と
してタグ名が入力されていれば、そのタグ名を持つ文書
ファイルが優先的に上位に配置されるので、ユーザは所
望の文書ファイルを容易に得ることができ、検索の効率
を向上させることができる。
【0025】また、請求項7に記載の発明である文書フ
ァイル検索方法は、ユーザ端末から入力された検索条件
を用いて、マークアップ言語で記述されタグが埋め込ま
れた文書の文書ファイルを検索し、検索の結果、抽出さ
れた複数の文書ファイルを所定の優先順位に従って並び
替え、ユーザ端末に返却する文書ファイル検索方法であ
って、検索条件として、キーワードと、ユーザを識別す
るユーザIDを取得する検索条件取得工程と、検索結果
から、前記検索条件と、そのキーワードを囲むタグのタ
グ名と、前記文書ファイルのURLとを取得し、ユーザ
毎に保存する履歴保存工程と、検索の結果、抽出された
複数の文書ファイルから、当該キーワードを囲むタグの
タグ名を抽出するタグ名抽出工程と、前記タグ名抽出工
程によって抽出されたタグ名と、前記履歴保存工程によ
ってユーザ毎に保存されたタグ名とを用いて前記複数の
文書ファイルを並べ替えるソート工程とを有することを
特徴とする。
【0026】請求項7の発明によれば、入力されたキー
ワードを用いて文書ファイルを検索し、検索の結果、抽
出された1以上の文書ファイルから、キーワードを囲む
タグのタグ名を抽出し、抽出したタグ名と履歴として保
存されているタグ名とが一致する文書ファイルを、検索
結果の上位に配置する。
【0027】従って、ユーザの必要とする文書ファイル
の傾向が履歴ファイルから得られるので、ユーザは、個
人の嗜好にあった文書ファイルを容易に得ることができ
る。
【0028】また、請求項8に記載の発明である文書フ
ァイル検索方法は、請求項7に記載の文書ファイル検索
方法であって、前記文書ファイル検索方法は、タグ名と
同じ意味を持つ同義語、または似た意味を持つ類義語と
が予め記録されているタグ情報データベースから、前記
タグ名抽出工程によって抽出されたタグ名を用いて、当
該タグ名の同義語または類義語を抽出する同義語抽出工
程を有し、前記ソート工程は、前記タグ名抽出工程によ
って抽出されたタグ名と、前記履歴保存工程によってユ
ーザ毎に保存されているタグ名と、前記同義語抽出工程
によって抽出された同義語または類義語を用いて、前記
複数の文書ファイルを並べ替えることを特徴とする。
【0029】請求項8の発明によれば、入力されたキー
ワードを用いて文書ファイルを検索し、検索の結果、抽
出された1以上の文書ファイルから、キーワードを囲む
タグのタグ名を抽出する。さらに履歴として保存されて
いるタグ名と、抽出したタグ名に関連する同義語または
類義語とが一致する文書ファイルを、検索結果の上位に
配置する。
【0030】従って、検索結果から抽出されたタグ名
が、ユーザ毎に履歴として保存されているタグ名と一致
せずとも、キーワードが同じ意味、または近い意味を持
つタグ名で囲まれている場合は、優先的に上位に配置さ
れるので、ユーザは目的に応じた文書ファイルを容易に
得ることが可能となる。
【0031】また、請求項9に記載の発明である文書フ
ァイル検索方法は、請求項7または請求項8に記載の文
書ファイル検索方法であって、前記検索条件取得工程
は、前記検索条件としてキーワードと、前記ユーザID
と、タグ名を取得し、前記ソート工程は、前記検索条件
取得工程によって取得された当該タグ名と、前記タグ名
抽出工程によって抽出されたタグ名とを用いて、前記複
数の文書ファイルを並べ替えることを特徴とする。
【0032】請求項9の発明によれば、予め検索条件と
してタグ名が入力されていれば、そのタグ名を持つ文書
ファイルが優先的に上位に配置されるので、ユーザは所
望の文書ファイルを容易に得ることができ、検索の効率
を向上させることができる。
【0033】
【発明の実施の形態】本発明の実施形態を、図1〜図8
を用いて説明する。
【0034】文書ファイル検索システム1は、図1に示
すように、Webブラウザ3を備えたユーザ端末2と、
文書ファイルの検索を行う検索サーバ4と、Webサー
バ5とから構成され、インターネット6を介して相互に
接続されている。
【0035】検索サーバ4は、通信制御部7、Web検
索部8、タグ名抽出部9、ソート機能部10、履歴取得
部11から構成され、データベースとして、Webペー
ジ情報12、XMLタグ情報13、ソート定義情報1
4、ユーザ履歴情報15を備える。
【0036】通信制御部7は、ユーザ端末2から送信さ
れるユーザID、キーワード、タグ名を受信し、Web
検索部8へ転送し、検索結果をユーザ端末2へ送信する
機能を有する。また、ユーザが検索結果から選択したX
ML文書ファイルのURLと、ユーザID、キーワー
ド、タグ名をユーザ端末2から受信し、履歴取得部11
へ転送する機能を有する。
【0037】Web検索部8は、受信したキーワードを
用いて、そのキーワードを含むXML文書ファイルをW
ebパージ情報から検索し、検索の結果抽出された複数
のXML文書ファイルをタグ名抽出部9へ転送する機能
を有する。
【0038】タグ名抽出部9は、抽出されたXML文書
ファイルからキーワードを囲むタグのタグ名を抽出する
機能を有する。本発明では、キーワードを直接囲むタグ
を第1タグとし、その第1タグを囲むタグを第2タグ、
以下順に第3タグ、第4タグ、…第nタグとして、タグ
名を抽出する。また、抽出するタグ数は予め設定されて
おり、適宜変更可能であることとする。
【0039】ソート機能部10は、ソート定義情報14
とユーザIDの示す履歴ファイル16を参照し、ソート
定義情報14に定義されている優先順位で、タグ名、同
義語、履歴等を用いて複数の文書ファイルを並び替える
機能を有する。また、並び替えた複数のXML文書ファ
イルを検索結果として通信制御部7へ転送する機能を有
する。
【0040】履歴取得部11は、通信機能部から、ユー
ザID、ユーザが検索結果から選択したXML文書ファ
イルのURL、キーワード、タグ名を受信し、ユーザ履
歴情報15を参照し、ユーザIDに該当する履歴ファイ
ル16にキーワード、ホームページのURL、タグ名、
アクセス日時を記録する機能を有する。
【0041】Webページ情報12は、インターネット
6上に存在するXML文書ファイルの情報を定期的にW
ebサーバ5から収集し、保存するデータベースであ
る。
【0042】XMLタグ情報13は、インターネット6
上に存在するXML文書ファイルに記述されているタグ
の情報を定期的にWebサーバ5から収集し、保存する
データベースである。具体的には、図2に示すように、
タグ名と、それと同じ意味を持つ同義語、またはそれに
近い意味を持つ類義語を同義語1〜nとして、複数記録
する。なお、本実施形態では、同義語と類義語を1つの
データテーブルに登録するが、同義語を登録するデータ
テーブルと類義語を登録するデータテーブルを用意して
も良い。
【0043】ソート定義情報14は、検索結果をソート
する際にソート機能部10によって参照され、そのソー
ト処理の優先順位を記録したデータベースであり、図3
は各ソート処理の優先順位の例である(各処理内容につ
いては後述)。なお、この順序は必要に応じて変更可能
であるとする。
【0044】ユーザ履歴情報15は、図4に示すよう
に、本検索システムを利用するユーザのユーザIDと履
歴ファイル16が関連付けられて保存されるデータベー
スである。また、履歴ファイル16は、図5に示すよう
に、キーワード、タグ名、URL、アクセス日時の項目
を有するデータベースであり、ユーザ毎に用意される。
ユーザが検索結果からXML文書ファイルのURLを選
択するたびに、履歴取得部11によってその履歴が保存
される。
【0045】上記のように構成された文書ファイル検索
システム1を、図6および図7を用いて説明する。図6
は本実施形態の検索サーバ4の概略動作を説明するフロ
ーチャートであり、図7はユーザ端末2上のWebブラ
ウザ3の画面構成を示した図である。
【0046】まず、ユーザが図7に示す画面上に設けら
れたキーワード入力部(1)に自分が閲覧したいXML
文書ファイルに関連したキーワードと、XMLタグ名入
力部(2)にタグ名と、ユーザID入力部(3)にユー
ザIDを入力し、検索ボタン(4)を選択すると、検索
条件が検索サーバ4へ送信される。なお、キーワードは
複数入力可とする。
【0047】検索サーバ4は、ユーザ端末2からキーワ
ードとユーザIDを受信すると(ステップS01)、受
信したキーワードを含むXML文書ファイルをWebペ
ージ情報12から検索する(ステップS02)。
【0048】検索の結果、複数の文書ファイルが抽出さ
れた場合は、ソート定義情報14を参照し、検索結果を
ソートする優先順位を定める(ステップS03)。履歴
情報を参照して、過去にアクセスしたXML文書ファイ
ルや、そのXML文書ファイルに用いられていたタグ名
を抽出する(ステップS04)。
【0049】次に、ソート処理を実行し(ステップS0
5)、検索結果をユーザへ送信する(ステップS0
6)。図7に示すように、検索結果はXML文書ファイ
ルのタイトル、そのXML文書ファイルのURL、その
XML文書ファイル中でキーワードと合致している箇所
と、その前後の文章、キーワードを囲んでいるタグのタ
グ名、およびタグのツリー構造が表示される。また、複
数のXML文書ファイルが検索条件に一致した場合は、
ステップS05で並び替えられた順で検索結果が表示さ
れる。
【0050】次に、図8を用いて、ソート機能部10の
動作について詳細に説明する。図8(a)は検索の結果
抽出された複数のXML文書ファイルと、それぞれのX
ML文書ファイルが有する第1タグの例(第2タグ以降
は省略)である。また、図8(b)は、履歴ファイル1
6の例である。また、図8(c)は、XMLタグ情報1
3に登録されている同義語の例であり、図8(d)は図
8(a)を並び替えた結果である。なお、URLの表記
は、記号を用いて簡略化している。
【0051】<ユーザ端末2からキーワードとユーザI
Dが入力された場合>検索条件として、キーワードとユ
ーザIDとが入力された場合のソート機能部10の動作
について説明する。
【0052】まず、ソート機能部10は、キーワードと
同時に受信するユーザIDの示す履歴ファイル16を参
照し、そのユーザが、同じキーワードで過去においてど
のタグ名を持つXML文書ファイルを多く選択したか、
タグ名とその選択回数を取得する。図8(b)には“ダ
イヤ”で検索したときに、“宝石”というタグ名で5
回、“貴金属”というタグ名で2回、その他のタグ名で
XML文書ファイルが1回ずつ選択されたことが記録さ
れており、ソート機能部10は、それぞれのタグ名と選
択回数を取得する。
【0053】次に、ソート機能部10は図3に示すソー
ト定義情報14を参照し、定義されている処理内容の優
先順位を取得する。各処理内容は次の通りであり、この
優先順位は必要に応じて変更可能であるとする。
【0054】(1)「履歴一致」:履歴ファイル16の
キーワード、URLおよびタグ名が一致するXML文書
ファイルを、選択回数の多い順に抽出。ソート機能部1
0は、過去に検索結果から選択された実績のあるXML
文書ファイルを抽出する。
【0055】(2)「タグ名一致」:履歴ファイル16
のタグ名が一致するXML文書ファイルを抽出。ソート
機能部10は、過去に検索結果から選択された実績は無
いが、キーワードが同じタグ名で囲まれているXML文
書ファイルを抽出する。
【0056】(3)「同義語」:履歴ファイル16中の
最多タグ名の同義語(1〜n)が一致するXML文書フ
ァイル(過去にアクセス履歴のあるXML文書ファイル
を優先)を抽出。ソート機能部10は、キーワードが、
抽出されたタグ名と同じ、または近い意味の同義語で囲
まれているXML文書ファイルを抽出する。
【0057】次に、ソート機能部10は、ソート定義情
報14に定義されている優先順位と、履歴ファイル16
に記録されているタグ名の選択回数に従って、XML文
書ファイルのソート処理を開始する。
【0058】まず、ソート機能部10は、履歴ファイル
16に記録されているXML文書ファイルで、検索条件
と同じキーワードで検索され、かつ選択回数の一番多い
タグ名“宝石”を持つXML文書ファイルを、検索結果
から抽出する。図8(a)には、タグ名“宝石”を持つ
XML文書ファイルは、URL“F”、“A”、“K”
を持つ3つが存在する。そのうち、図8(b)の履歴フ
ァイル16には、URL“F”のXML文書ファイル
が、一番多く存在するので、キーワード“ダイヤ”、タ
グ名“宝石”、URL“F”のXML文書ファイルをソ
ート結果の最上位に配置する。次に、キーワード“ダイ
ヤ”、タグ名“宝石”、URL“A”のXML文書ファ
イルをソート結果の2番目に配置する。
【0059】次に、ソート機能部10は、履歴ファイル
16には記録されていないが、同じタグ名“宝石”を持
つXML文書ファイルを抽出する。図8(a)には、該
当するXML文書ファイルとして、“K”というURL
を持つものが存在するので、キーワード“ダイヤ”、タ
グ名“宝石”、URL“K”のXML文書ファイルをソ
ート結果の3番目に配置する。
【0060】次に、ソート機能部10は、XMLタグ情
報13を参照し、抽出されたタグ名と、履歴ファイル1
6中のタグ名“宝石”の同義語が一致するものを抽出す
る。XMLタグ情報13には“宝石”の同義語として、
“宝飾品”、“ジュエリー”および“輝石”が登録され
ているので、検索結果からタグ名“宝飾品”、“ジュエ
リー”および“輝石”を持つものを抽出する。図8
(a)には、該当するXML文書ファイルとして、
“L”、“H”および“G”というURLを持つものが
存在するので、同義語の登録順で、それぞれソート結果
の4番目、5番目、6番目に配置する。
【0061】以上で、タグ名“宝石”を用いてのソート
処理が終了し、次にタグ名“貴金属”を用いて、上記の
ソート処理を繰り返す。
【0062】まず、ソート機能部10は、履歴ファイル
16のURLが一致し、かつ2番目に多く存在するタグ
名“貴金属”を持つXML文書ファイルを抽出する。図
8(a)には、該当するXML文書ファイルとして、U
RL“D”および“E”を持つものが存在するので、そ
れぞれソート結果の7番目と8番目に配置する。
【0063】以上で、タグ名“貴金属”を持つXML文
書ファイルが抽出され、さらにタグ名“貴金属”の同義
語が登録されていれば、同義語を用いてソート処理を行
う。タグ名“貴金属”を用いて優先順位に従ったソート
処理が終了すると、以降は履歴ファイル16に記録され
ているタグ名“鉱石”、タグ名“鉱物”の順で並べ替
え、最後に履歴ファイル16に記録されているタグ名と
一致しないタグ名“時刻表”、タグ名“運行表”を有す
るXML文書ファイルを配置する。
【0064】検索の結果、件数が多ければ、第1タグだ
けでなく、第2タグ、第3タグを用いて、同様の手順で
タグ名の一致するものを優先して上位に配置する。
【0065】また、履歴ファイル16に記録されている
タグ名が、検索結果から全く抽出されなかった場合、抽
出された第1タグのうち数の多いものを優先して、上位
に配置する。
【0066】さらに、1つのXML文書ファイルからキ
ーワードを囲むタグ名が2つ以上抽出された場合、履歴
ファイル16に記録されているタグ名と多く一致するタ
グ名を優先する。
【0067】本実施形態では、優先順位として3つのレ
ベルを用意したが、これに限定されるものではない。例
えば、「同義語」であれば、「同義語1」、「同義語
2」と別々に優先順位を設定することによって並び替え
る範囲を狭め、過剰な並び替え処理の発生を防止し、検
索の処理速度を向上させることができる。
【0068】<ユーザ端末2からキーワードとタグ名と
ユーザIDが入力された場合>次に、検索条件として、
キーワードとユーザIDと共にタグ名が入力された場合
のソート機能部10の動作について説明する。
【0069】まず、ソート機能部10は、検索条件のタ
グ名と、複数のXML文書ファイルから抽出された複数
のタグ名を比較して、抽出されたタグ名(第1タグ)が
検索条件のタグ名と一致するXML文書ファイルを抽出
する。
【0070】次に、ソート機能部10はこの検索条件の
タグ名を、履歴ファイル16に記録されている最多のタ
グ名(図8に示す例では、タグ名“宝石”に相当)とし
て、上述のソート処理を行う。検索条件のタグ名を最多
のタグ名として扱うことによって、優先して上位に配置
する。以降、第2タグ、第3タグと一致するものを順に
配置する。
【0071】最後に、ソート機能部10は、検索条件の
タグ名で抽出されなかったXML文書ファイルに対し
て、ソート定義情報14を参照して、上述の手順で複数
のXML文書ファイルを並び替える。
【0072】なお、各ソート処理において、複数のXM
L文書ファイルが抽出された場合は、URLおよびタグ
名の文字コード順(昇降順)、アクセス日時(昇降順)
等を用いて順に配置する。
【0073】
【発明の効果】以上説明したように、本発明によれば、
入力されたキーワードを用いて文書ファイルを検索し、
検索の結果、抽出された複数の文書ファイルから、キー
ワードを囲むタグのタグ名を抽出し、抽出したタグ名と
履歴として保存されているタグ名とが一致する文書ファ
イルを、上位に配置、ユーザ端末へ検索結果として送信
する。
【0074】従って、検索・選択回数を重ねることによ
って、ユーザの必要とする文書ファイルの傾向が蓄積さ
れるので、ユーザは、個人の嗜好にあった文書ファイル
を容易に得ることができる。
【0075】また、文書ファイルから抽出されたタグ名
が、ユーザ毎に履歴として履歴ファイルに保存されてい
るタグ名と一致せずとも、キーワードが同じ意味、また
は近い意味を持つタグ名で囲まれている場合は、優先的
に上位に配置されるので、ユーザは目的に応じた文書フ
ァイルを容易に得ることが可能となる。
【0076】さらに、予め検索条件としてタグ名が入力
されていれば、そのタグ名を持つ文書ファイルが優先的
に上位に配置されるので、ユーザは所望の文書ファイル
を容易に得ることができ、検索の効率を向上させること
ができる。
【図面の簡単な説明】
【図1】文書ファイル検索システムの構成図である。
【図2】XMLタグ情報を示すデータテーブルである。
【図3】ソート定義情報を示すデータテーブルである。
【図4】ユーザ履歴情報を示すデータテーブルである。
【図5】履歴ファイルを示すデータテーブルである。
【図6】検索サーバの処理手順を示したフローチャート
である。
【図7】Webブラウザの画面構成例である。
【図8】検索結果、履歴ファイル、XMLタグ情報、お
よびソート処理の結果の例である。
【符号の説明】
1 文書ファイル検索システム 2 ユーザ端末 3 Webブラウザ 4 検索サーバ 5 Webサーバ 6 インターネット 7 通信制御部 8 Web検索部 9 タグ名抽出部 10 ソート機能部 11 履歴取得部 12 Webページ情報 13 XMLタグ情報 14 ソート定義情報 15 ユーザ履歴情報 16 履歴ファイル

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 検索条件を送信するユーザ端末と、ユー
    ザ端末から送信された検索条件を用いて、マークアップ
    言語で記述されタグが埋め込まれた文書の文書ファイル
    を検索し、検索の結果、抽出された複数の文書ファイル
    を所定の優先順位に従って並び替え、ユーザ端末に送信
    する検索サーバとから構成される文書ファイル検索シス
    テムであって、 前記ユーザ端末は、 前記検索条件として、キーワードとユーザを識別するユ
    ーザIDとを送信する検索条件送信手段と、 前記検索サーバから送信される検索結果から、前記検索
    条件と、前記キーワードを囲むタグのタグ名と、前記文
    書ファイルのURLとを送信する履歴送信手段と、 を備え、 前記検索サーバは、 前記履歴送信手段によって送信される前記検索条件と、
    前記タグ名と、前記URLとを、ユーザ毎に保存する履
    歴保存手段と、 検索の結果、抽出された複数の文書ファイルから、当該
    キーワードを囲むタグのタグ名を抽出するタグ名抽出手
    段と、 前記タグ名抽出手段によって抽出されたタグ名と、前記
    履歴保存手段によってユーザ毎に保存されているタグ名
    とを用いて、前記複数の文書ファイルを並べ替えるソー
    ト手段と、 を備えることを特徴とする文書ファイル検索システム。
  2. 【請求項2】 前記検索サーバは、 タグ名と、そのタグ名と同じ意味を持つ同義語、または
    似た意味を持つ類義語とを格納するタグ情報データベー
    スと、 前記タグ名抽出手段によって抽出されたタグ名を用い
    て、前記タグ情報データベースから当該タグ名に関連す
    る同義語または類義語を抽出する同義語抽出手段と、 を備え、 前記ソート手段は、前記タグ名抽出手段によって抽出さ
    れたタグ名と、前記履歴保存手段によってユーザ毎に保
    存されているタグ名と、前記同義語抽出手段によって抽
    出された同義語または類義語を用いて、前記複数の文書
    ファイルを並べ替えることを特徴とする請求項1に記載
    の文書ファイル検索システム。
  3. 【請求項3】 前記検索条件送信手段は、前記検索条件
    として、キーワードとタグ名とユーザを識別するユーザ
    IDとを送信し、 前記ソート手段は、前記検索条件送信手段によって送信
    されたタグ名と、前記タグ名抽出手段によって抽出され
    たタグ名とを用いて、前記複数の文書ファイルを並べ替
    えることを特徴とする請求項1または請求項2に記載の
    文書ファイル検索システム。
  4. 【請求項4】 ユーザ端末から入力された検索条件を用
    いて、マークアップ言語で記述されタグが埋め込まれた
    文書の文書ファイルを検索し、検索の結果、抽出された
    複数の文書ファイルを所定の優先順位に従って並び替
    え、ユーザ端末に送信する文書ファイル検索プログラム
    であって、 前記検索条件として、キーワードと、ユーザを識別する
    ユーザIDとを取得する検索条件取得機能と、 検索結果から、前記検索条件と、前記キーワードを囲む
    タグのタグ名と、前記文書ファイルのURLとを取得
    し、ユーザ毎に保存する履歴保存機能と、 検索の結果、抽出された複数の文書ファイルから、前記
    キーワードを囲むタグのタグ名を抽出するタグ名抽出機
    能と、 前記タグ名抽出機能によって抽出されたタグ名と、前記
    履歴保存機能によってユーザ毎に保存されたタグ名とを
    用いて前記複数の文書ファイルを並べ替えるソート機能
    と、 を有することを特徴とする文書ファイル検索プログラ
    ム。
  5. 【請求項5】 前記文書ファイル検索プログラムは、 タグ名と同じ意味を持つ同義語、または似た意味を持つ
    類義語とが予め記録されているタグ情報データベースか
    ら、前記タグ名抽出機能によって抽出されたタグ名を用
    いて、当該タグ名の同義語または類義語を抽出する同義
    語抽出機能を有し、 前記ソート機能は、前記タグ名抽出機能によって抽出さ
    れたタグ名と、前記履歴保存機能によってユーザ毎に保
    存されているタグ名と、前記同義語抽出機能によって抽
    出された同義語または類義語を用いて、前記複数の文書
    ファイルを並べ替えることを特徴とする請求項4に記載
    の文書ファイル検索プログラム。
  6. 【請求項6】 前記検索条件取得機能は、前記検索条件
    としてキーワードと、前記ユーザIDと、タグ名を取得
    し、 前記ソート機能は、前記検索条件取得機能によって取得
    されたタグ名と、前記タグ名抽出機能によって抽出され
    たタグ名とを用いて、前記複数の文書ファイルを並べ替
    えることを特徴とする請求項4または請求項5に記載の
    文書ファイル検索プログラム。
  7. 【請求項7】 ユーザ端末から入力された検索条件を用
    いて、マークアップ言語で記述されタグが埋め込まれた
    文書の文書ファイルを検索し、検索の結果、抽出された
    複数の文書ファイルを所定の優先順位に従って並び替
    え、ユーザ端末に返却する文書ファイル検索方法であっ
    て、 検索条件として、キーワードと、ユーザを識別するユー
    ザIDを取得する検索条件取得工程と、 検索結果から、前記検索条件と、そのキーワードを囲む
    タグのタグ名と、前記文書ファイルのURLとを取得
    し、ユーザ毎に保存する履歴保存工程と、 検索の結果、抽出された複数の文書ファイルから、当該
    キーワードを囲むタグのタグ名を抽出するタグ名抽出工
    程と、 前記タグ名抽出工程によって抽出されたタグ名と、前記
    履歴保存工程によってユーザ毎に保存されたタグ名とを
    用いて前記複数の文書ファイルを並べ替えるソート工程
    と、 を有することを特徴とする文書ファイル検索方法。
  8. 【請求項8】 前記文書ファイル検索方法は、 タグ名と同じ意味を持つ同義語、または似た意味を持つ
    類義語とが予め記録されているタグ情報データベースか
    ら、前記タグ名抽出工程によって抽出されたタグ名を用
    いて、当該タグ名の同義語または類義語を抽出する同義
    語抽出工程を有し、 前記ソート工程は、前記タグ名抽出工程によって抽出さ
    れたタグ名と、前記履歴保存工程によってユーザ毎に保
    存されているタグ名と、前記同義語抽出工程によって抽
    出された同義語または類義語を用いて、前記複数の文書
    ファイルを並べ替えることを特徴とする請求項7に記載
    の文書ファイル検索方法。
  9. 【請求項9】 前記検索条件取得工程は、前記検索条件
    としてキーワードと、前記ユーザIDと、タグ名を取得
    し、 前記ソート工程は、前記検索条件取得工程によって取得
    された当該タグ名と、前記タグ名抽出工程によって抽出
    されたタグ名とを用いて、前記複数の文書ファイルを並
    べ替えることを特徴とする請求項7または請求項8に記
    載の文書ファイル検索方法。
JP2002122263A 2002-04-24 2002-04-24 文書ファイル検索システム、文書ファイル検索プログラムおよび文書ファイル検索方法 Pending JP2003316824A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002122263A JP2003316824A (ja) 2002-04-24 2002-04-24 文書ファイル検索システム、文書ファイル検索プログラムおよび文書ファイル検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002122263A JP2003316824A (ja) 2002-04-24 2002-04-24 文書ファイル検索システム、文書ファイル検索プログラムおよび文書ファイル検索方法

Publications (1)

Publication Number Publication Date
JP2003316824A true JP2003316824A (ja) 2003-11-07

Family

ID=29537921

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002122263A Pending JP2003316824A (ja) 2002-04-24 2002-04-24 文書ファイル検索システム、文書ファイル検索プログラムおよび文書ファイル検索方法

Country Status (1)

Country Link
JP (1) JP2003316824A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309498A (ja) * 2004-04-16 2005-11-04 Kddi Corp 情報抽出システム、情報抽出方法、コンピュータプログラム
KR100911411B1 (ko) 2007-12-10 2009-08-11 한국과학기술원 태그 정렬을 이용한 파일 검색기
JP2010009262A (ja) * 2008-06-26 2010-01-14 Yahoo Japan Corp ユーザに固有のイベントを判定する情報管理装置、情報管理方法及びプログラム
JP2010033377A (ja) * 2008-07-29 2010-02-12 Yahoo Japan Corp Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム
JP2011141660A (ja) * 2010-01-06 2011-07-21 Fujifilm Corp ファイル検索システムならびにファイル・サーバ,その動作制御方法およびその動作プログラム
KR101103766B1 (ko) 2007-07-03 2012-01-12 성균관대학교산학협력단 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체
WO2014043456A1 (en) * 2012-09-13 2014-03-20 Transparent Io, Inc Storage block metadata tagger
JP2014175003A (ja) * 2013-03-12 2014-09-22 Hon Hai Precision Industry Co Ltd 検索最適化システム及びその方法
JP5607284B1 (ja) * 2013-10-30 2014-10-15 楽天株式会社 情報提供装置、情報提供方法、プログラム、及び記録媒体
US8897859B2 (en) 2009-04-30 2014-11-25 Murata Manufacturing Co., Ltd. Biosensor device
JP2015153158A (ja) * 2014-02-14 2015-08-24 富士通株式会社 検索プログラム、検索方法及び検索装置
CN110532229A (zh) * 2019-06-14 2019-12-03 平安科技(深圳)有限公司 证据文件检索方法、装置、计算机设备和存储介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309498A (ja) * 2004-04-16 2005-11-04 Kddi Corp 情報抽出システム、情報抽出方法、コンピュータプログラム
JP4558369B2 (ja) * 2004-04-16 2010-10-06 Kddi株式会社 情報抽出システム、情報抽出方法、コンピュータプログラム
KR101103766B1 (ko) 2007-07-03 2012-01-12 성균관대학교산학협력단 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체
KR100911411B1 (ko) 2007-12-10 2009-08-11 한국과학기술원 태그 정렬을 이용한 파일 검색기
JP2010009262A (ja) * 2008-06-26 2010-01-14 Yahoo Japan Corp ユーザに固有のイベントを判定する情報管理装置、情報管理方法及びプログラム
JP2010033377A (ja) * 2008-07-29 2010-02-12 Yahoo Japan Corp Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム
US8897859B2 (en) 2009-04-30 2014-11-25 Murata Manufacturing Co., Ltd. Biosensor device
JP2011141660A (ja) * 2010-01-06 2011-07-21 Fujifilm Corp ファイル検索システムならびにファイル・サーバ,その動作制御方法およびその動作プログラム
WO2014043456A1 (en) * 2012-09-13 2014-03-20 Transparent Io, Inc Storage block metadata tagger
JP2014175003A (ja) * 2013-03-12 2014-09-22 Hon Hai Precision Industry Co Ltd 検索最適化システム及びその方法
JP5607284B1 (ja) * 2013-10-30 2014-10-15 楽天株式会社 情報提供装置、情報提供方法、プログラム、及び記録媒体
WO2015063881A1 (ja) * 2013-10-30 2015-05-07 楽天株式会社 情報提供装置、情報提供方法、プログラム、及び記録媒体
JP2015153158A (ja) * 2014-02-14 2015-08-24 富士通株式会社 検索プログラム、検索方法及び検索装置
CN110532229A (zh) * 2019-06-14 2019-12-03 平安科技(深圳)有限公司 证据文件检索方法、装置、计算机设备和存储介质
CN110532229B (zh) * 2019-06-14 2023-06-20 平安科技(深圳)有限公司 证据文件检索方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
KR101450358B1 (ko) 구조형 지리적 데이터 검색
KR100917784B1 (ko) 콘텐트에 대한 코멘트를 기반으로 한 집단 감성 정보 검색방법 및 시스템
US7873624B2 (en) Question answering over structured content on the web
US20040103087A1 (en) Method and apparatus for combining multiple search workers
WO2002101588A1 (fr) Systeme de gestion de contenus
CN109614504A (zh) 一种互联网电子书的管理系统及方法
JP3849318B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2009151749A (ja) ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム
KR20160124079A (ko) 인-메모리 데이터베이스 탐색을 위한 시스템 및 방법
US20040015485A1 (en) Method and apparatus for improved internet searching
JP2003316824A (ja) 文書ファイル検索システム、文書ファイル検索プログラムおよび文書ファイル検索方法
JP4430598B2 (ja) 情報共有システムおよび情報共有方法
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
US8082240B2 (en) System for retrieving information units
JP2001188802A (ja) 情報検索装置及び情報検索方法
JP2008117134A (ja) 期間抽出装置,期間抽出方法,その方法を実装した期間抽出プログラム及びそのプログラムを格納した記録媒体
KR20010095215A (ko) 사이트 정보 데이터베이스 구축을 통한 인터넷 상에서의정보 검색 방법
JP2004102818A (ja) 検索支援方法および検索支援装置
JPH11143885A (ja) 情報検索方法及び装置及び情報検索プログラムを格納した記憶媒体及び情報発信方法及び装置及び情報発信プログラムを格納した記憶媒体
KR20100091367A (ko) 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템
JP2005099964A (ja) 検索分類システム、検索分類サーバ、プログラムおよび記録媒体
JP2003058568A (ja) 電子記事の関連記事自動表示方式およびそのシステム
JP2000067126A (ja) スケジュール情報処理装置および表示情報処理装置ならびにスケジュールおよび表示情報処理制御プログラムを記憶した媒体
JP3077615B2 (ja) ホームページ分析表示システム
JP4146067B2 (ja) 文書検索システムおよび文書検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050413

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080715

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081118