JP2009193602A - 情報検索システム及び情報検索方法並びに情報検索プログラム - Google Patents
情報検索システム及び情報検索方法並びに情報検索プログラム Download PDFInfo
- Publication number
- JP2009193602A JP2009193602A JP2009132884A JP2009132884A JP2009193602A JP 2009193602 A JP2009193602 A JP 2009193602A JP 2009132884 A JP2009132884 A JP 2009132884A JP 2009132884 A JP2009132884 A JP 2009132884A JP 2009193602 A JP2009193602 A JP 2009193602A
- Authority
- JP
- Japan
- Prior art keywords
- category
- search
- directory information
- name
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】検索結果としてカテゴリパスを短縮して表示することで、ユーザが一瞥で検索結果のカテゴリを理解できる情報検索システムを提供すること
【解決手段】カテゴリ名とカテゴリの階層構造とカテゴリに属する文書との対応関係を表す情報であるディレクトリ情報を対象とした情報検索システムである。ディレクトリ情報アクセス手段11は、前記ディレクトリ情報を予め記憶しているディレクトリ情報記憶装置16をアクセスする。短縮カテゴリ名作成手段33は、ディレクトリ情報アクセス手段11で取得した情報からカテゴリパスの短縮名を作成する。検索手段14は、利用者が入力した検索条件にマッチするカテゴリをディレクトリ情報から検索する。カテゴリ名変換手段35は、検索手段14の検索結果におけるカテゴリパスを短縮カテゴリ名作成手段33で作成した短縮名に変換する。
【選択図】図9
【解決手段】カテゴリ名とカテゴリの階層構造とカテゴリに属する文書との対応関係を表す情報であるディレクトリ情報を対象とした情報検索システムである。ディレクトリ情報アクセス手段11は、前記ディレクトリ情報を予め記憶しているディレクトリ情報記憶装置16をアクセスする。短縮カテゴリ名作成手段33は、ディレクトリ情報アクセス手段11で取得した情報からカテゴリパスの短縮名を作成する。検索手段14は、利用者が入力した検索条件にマッチするカテゴリをディレクトリ情報から検索する。カテゴリ名変換手段35は、検索手段14の検索結果におけるカテゴリパスを短縮カテゴリ名作成手段33で作成した短縮名に変換する。
【選択図】図9
Description
本発明は情報検索システムに関し、特に文書を階層的なカテゴリに分類したディレクトリを対象にした文書検索システムに関する。
ディレクトリを対象とした従来の文書検索システムに関して、インターネットのディレクトリ型検索システムを例にとって説明する。ディレクトリ型検索システムは、予め編集者が階層構造を持つカテゴリに文書を分類しておき、利用者は階層構造の最上位のカテゴリ(以下、ルートカテゴリと呼ぶ)から関連するカテゴリを辿ることによって所望の文書に到達する。ディレクトリの構成の一例を図15に示す。例えば、ルートカテゴリから「スポーツ」、「種目別スポーツ」、「球技」、「野球」、「高校野球」というカテゴリを辿ることで高校野球に関する文書(例えば、高校野球連盟や選抜高校野球)を格納したカテゴリに到達することができる。
カテゴリはノードであるが、そのノードの名前だけでは、カテゴリの意味を理解できないこともある。例えば、図15で「野球」という名前のノードは、「スポーツ」の配下の「野球」と「コミュニケーション」の配下の「野球」の2箇所に現われ、「野球」という表現だけでは区別できない。それで、カテゴリを表現するのに、ルートカテゴリからのカテゴリパスがよく用いられている。例えば、図15で「スポーツ」の配下のノード名が「野球」のカテゴリは、「スポーツ>種目別スポーツ>球技>野球」というカテゴリパスで表現でき、「コミュニケーション」の配下のノード名が「野球」のカテゴリは「コミュニケーション>メール>メーリングリスト>趣味>スポーツ>野球」で表現できる。
なお、複数のパスで所望の文書に辿りつくことができるように、ディレクトリは単純なツリー構造ではなく、上位のカテゴリが複数存在するようなマルチリンクの構造になっている場合もある。例えば、図15に示すように、マルチリンクの構造により、「高校野球」というカテゴリは、上記のパスだけでなく、「スポーツ」、「学生スポーツ」、「高校生」、「球技」、「高校野球」というパスでも到達可能である。以下、マルチリンクにより複数の上位カテゴリを持つカテゴリをマルチリンクカテゴリと呼ぶ。
上記のディレクトリに対する検索としては、利用者がキーワードを入力して、そのキーワードが含まれるカテゴリパスを表示するシステムがある。例えば、「野球」という語の検索入力に対して、検索結果としてマッチするカテゴリをカテゴリパスで表現することで、「スポーツ>種目別スポーツ>球技>野球」、「スポーツ>種目別スポーツ>球技>野球>プロ野球」、「スポーツ>種目別スポーツ>球技>野球>高校野球」、「スポーツ>学生スポーツ>高校生>球技>高校野球」、「コミュニケーション>メール>メーリングリスト>趣味>スポーツ>野球」、「経済>企業>小売業>スポーツ用品>野球ショップ」等を検索結果として出力する検索システムである。この検索システムとして、例えば、インターネット上のディレクトリ型検索サービスであるYahoo!Japan(http://www.yahoo.co.jp) がある。
しかるに、上記の従来の検索システムには、カテゴリパスは冗長で分かりにくいという課題がある。その原因は、カテゴリパスは、ルートカテゴリから順に辿る際のものであるため、冗長な表現が含まれるためである。例えば、「スポーツ>種目別スポーツ>球技>野球」というカテゴリパスは、スポーツという表現が明らかに冗長である。
本発明は以上の点に鑑みなされたもので、その目的は、検索結果としてカテゴリパスを短縮して表示することで、ユーザが一瞥で検索結果のカテゴリを理解できる情報検索システムを提供することにある。
本発明の情報検索システムは、カテゴリ名とカテゴリの階層構造とカテゴリに属する文書との対応関係を表す情報であるディレクトリ情報を対象とした情報検索システムであって、前記ディレクトリ情報を予め記憶しているディレクトリ情報記憶部をアクセスするディレクトリ情報アクセス手段と、前記ディレクトリ情報アクセス手段で取得した情報からカテゴリパスの短縮名を作成する短縮カテゴリ名作成手段と、利用者が入力した検索条件にマッチするカテゴリをディレクトリ情報から検索する検索手段と、前記検索手段の検索結果におけるカテゴリパスを前記短縮カテゴリ名作成手段で作成した短縮名に変換するカテゴリ名変換手段と、を含む。
以上説明したように、本発明によれば、検索結果としてカテゴリパスを短縮して表示することで、ユーザが一瞥で検索結果のカテゴリを理解することができる。
[発明の第1の実施の形態]
次に本発明の第1の実施の形態について図面を参照して詳細に説明する。
次に本発明の第1の実施の形態について図面を参照して詳細に説明する。
図1は本発明による情報検索システムの第1の実施の形態のブロック図を示す。この実施の形態の情報検索システムは、ディレクトリ情報記憶装置16及び文書情報記憶装置17に接続されたデータ処理装置1から構成される。
ディレクトリ情報記憶装置16は、例えば磁気ディスク装置などで構成され、検索対象となるディレクトリ情報を記憶している。ディレクトリ情報は、文書を階層的なカテゴリに分類したもので、具体的にはカテゴリ名とカテゴリの階層構造とカテゴリ内に含まれる文書IDとの対応関係を予め記憶している。
文書情報記憶装置17は、例えば磁気ディスク装置などで構成され、文書IDと文書名と文書スコアと文書本体へのポインタとの対応関係を予め記憶している。文書スコアは文書の重要度を示す。この文書スコアには、例えば文献1(2000 年1 月、情報処理学会研究会報告VOL.2000.No.10(DS-20-2)p.9-16 、「サイテーション・エンジン:リンク解析を用いたWWW検索ランキングシステム」) に記載されているページランクや更新日時を用いることができる。また、文書本体へのポインタは、HTML文書のURL 等の文書にアクセスするための位置を示すものである。
データ処理装置1は、ディレクトリ情報アクセス手段11、文書情報アクセス手段12、カテゴリスコア付与手段13、検索手段14、ランキング手段15を備えている。記録媒体18−1は、CD−ROM、磁気ディスク、半導体メモリ等の機械読み取り可能な記録媒体であり、情報検索プログラムが記録されている。記録媒体18−1に記録された情報検索プログラムは、データ処理装置1を構成するコンピュータの立ち上げ時などに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータ上にディレクトリ情報アクセス手段11、文書情報アクセス手段12、カテゴリスコア付与手段13、検索手段14、ランキング手段15を生成する。
ディレクトリ情報アクセス手段11は、ディレクトリ情報記憶装置16にアクセスして、ディレクトリ情報を取得する手段であり、文書情報アクセス手段12は、文書情報記憶装置17をアクセスして文書情報を取得する手段である。
カテゴリスコア付与手段13は、ディレクトリ情報アクセス手段11を通じてディレクトリ情報記憶装置16から取得したディレクトリ情報中のカテゴリ名とカテゴリの階層構造、及び、文書情報アクセス手段12を通じて文書情報記憶装置17から取得した、カテゴリ配下の文書の文書スコアから、各カテゴリにスコアを付与する手段である。
検索手段14は、図示しない通信回線等を通じて利用者のユーザ端末から入力された検索要求中の検索条件にマッチするカテゴリをディレクトリ情報記憶装置16中のディレクトリ情報から検索し、カテゴリを一意に識別するためのカテゴリIDとカテゴリパスを出力する手段である。
ランキング手段15は、検索手段14で検索したカテゴリをカテゴリスコア付与手段13で付与したスコアの順にソートして、上位の一定件数、もしくは、全件を検索結果として、通信回線等を通じて検索要求元のユーザ端末へ出力する手段である。
次に、図2のフローチャートを併せ参照して第1の実施の形態の動作について説明する。
データ処理装置1のカテゴリスコア付与手段13は、利用者からの検索要求の受け付けを開始するのに先立って、ディレクトリ情報記憶装置16のディレクトリ情報中の各カテゴリにその重要度を示すスコアを付与する(図2のステップS11)。或るカテゴリのスコアは、そのカテゴリの階層数、そのカテゴリ名、そのカテゴリ配下の文書のスコアのいずれか1つ、または、2つ以上のものを考慮して算出される。カテゴリの階層数及びカテゴリ名は、ディレクトリ情報アクセス手段11を通じてディレクトリ情報記憶装置16に記憶されたディレクトリ情報をアクセスして取得する。また、そのカテゴリ配下の文書のスコアは、ディレクトリ情報をアクセスして当該カテゴリ配下の文書IDを取得し、この文書IDを持つ文書のスコアを文書情報アクセス手段12を通じて文書情報記憶装置17から取得する。算出した各カテゴリ毎のスコアは、カテゴリスコア付与手段13の内部メモリに保存され、後述するランキング手段15による処理の際に参照される。
以上のようなカテゴリスコア付与処理の完了後、利用者からの検索要求の受け付けが開始される。
利用者からの検索要求をデータ処理装置1が受信すると、検索手段14は、利用者が入力した検索条件を取得する(図2のステップS12)。
次に、検索手段14は、ディレクトリ情報アクセス手段11を通じてディレクトリ情報記憶装置16に記録されたディレクトリ情報を参照して、検索条件にマッチするカテゴリを取得する(図2のステップS13)。
次に、ランキング手段15は、検索手段14で検索したカテゴリをカテゴリスコア付与手段13で付与したスコアの順にソートして、上位の一定件数、もしくは、全件を検索結果とし、検索要求元に出力する(図2のステップS14)。
ステップS12〜S14の処理は、利用者からの検索要求を受信する毎に繰り返される。
次に、第1の実施の形態の効果について説明する。
本実施の形態では、検索条件にマッチしたカテゴリをカテゴリの階層構造、カテゴリ名、カテゴリ配下の文書の重要度の少なくとも1つを用いてランキングしている。これにより、重要なカテゴリから順に検索結果として表示することができる。
[第1の実施の形態の実施例]
次に第1の実施の形態の実施例について図面を参照して詳細に説明する。
次に第1の実施の形態の実施例について図面を参照して詳細に説明する。
図3は、ディレクトリ情報アクセス手段11がアクセスするディレクトリ情報記憶装置16に記憶されているディレクトリ情報の一例を示す。
図3で、例えば、カテゴリIDが5のカテゴリは、ルートカテゴリから「スポーツ」、「種目別スポーツ」、「球技」、「野球」、「高校野球」という順で辿れるカテゴリであり、そのカテゴリパスが「スポーツ>種目別スポーツ>球技>野球>高校野球」であり、そのカテゴリの直下に、文書IDが19, 20, 21, 22の4つの文書を含むことを示す。
図4は、文書情報アクセス手段12がアクセスする文書情報記憶装置17に記憶されている文書情報の一例を示す。図4で、例えば、文書IDが11の文書は、文書名が「日本野球機構」で、その文書の重要度を示す文書スコアが55点であり、文書の実体は「http://aaa.bbb/ 」で示される場所にあることを示す。
カテゴリスコア付与手段13は、カテゴリの階層の浅いものほど優先して高いスコアを付与する。つまり、1階層のカテゴリが最高スコアになり、階層が2階層、3階層と深くなるにつれてスコアが減点される。例えば、「スポーツ」等のルートカテゴリから1階層のカテゴリに100点、「スポーツ>種目別スポーツ」等のルートカテゴリから2階層のカテゴリに90点という様に、カテゴリが深くなるにつれて10点ずつスコアを減点することでスコアを付与する。この場合は、「スポーツ>種目別スポーツ>球技>野球」は4階層であるので70点に、「コミュニケーション>メール>メーリングリスト>趣味>スポーツ>野球」は6階層であるので50点になる。
カテゴリにスコアを付与する方法は、これに限らず、別の方法として、カテゴリスコア付与手段13は、カテゴリ名に応じてスコアを付与することもできる。これは、重要なカテゴリ名を示す文字列と、重要でないカテゴリ名を示す文字列を予め記憶しておき、重要なカテゴリ名を示す文字列(例えば、「人気」、「お勧め」)を含むカテゴリに高スコアを与え、重要でないカテゴリ名を示す文字列(例えば、「ア行」、「その他」)を含むカテゴリに低スコアを与える方法である。例えば、図3で、基準の得点を50点とすると、カテゴリIDが9のカテゴリは、「人気」という文字列が現れるので、10点加点して、60点となる。また、カテゴリIDが47のカテゴリは、「ア行」という文字列が現れるので10点減点して、スコアが40点となる。
さらに、カテゴリにスコアを付与する別の方法として、カテゴリスコア付与手段13は、カテゴリ配下の文書スコアからカテゴリスコアを付与することもできる。これは、そのカテゴリの直下で最も文書スコアが高い文書の文書スコアをカテゴリのスコアとする方法である。この場合、図3のカテゴリIDが5のカテゴリのスコアは、その直下の文書で文書スコアが最大である文書ID21(図4の選抜高校野球)の66点となる。
カテゴリ配下の文書スコアに応じてカテゴリスコアを決定する方法は、これに限らず、そのカテゴリの直下で文書スコアの上位N件の文書スコアの平均値をカテゴリのスコアとすることもできる。例えば、図3のIDが5のカテゴリで、上位3件の平均をとった場合、カテゴリスコアは、文書ID20の40点と文書ID21の66点と文書ID22の50点を平均して、52点となる。
さらに、カテゴリ配下の文書スコアに応じてカテゴリスコアを決定する別の方法として、そのカテゴリの直下の文書のみでなく、そのカテゴリの配下の全ての文書を対象として、文書スコアからカテゴリスコアを求めることもできる。図3で、カテゴリID4の「野球」のカテゴリの場合は、「野球」の直下の文書だけでなく、「野球」の下位カテゴリの「高校野球」や「プロ野球」の文書の文書スコアも対象とする。この場合、それらの中で最も文書スコアが高い文書の文書スコアをカテゴリのスコアとしても良いし、それらの中で上位N件の文書スコアの平均値をカテゴリのスコアとしても良い。
検索手段14は、検索キーワードとマッチするディレクトリ情報アクセス手段11が取得したカテゴリパスを検索し、マッチするカテゴリを取得する。例えば、「野球」という検索キーワードに対して、カテゴリパスの末端の表現に「野球」という文字列が含まれるカテゴリを検索する。図3の場合は、検索キーワード「野球」に対して、カテゴリID4、カテゴリID5、カテゴリID6、カテゴリID22、カテゴリID35のカテゴリが検索される。
ランキング手段15は、カテゴリスコア付与手段13で付与されたカテゴリスコアの高い順に検索手段14で検索したカテゴリをソートする。その結果、図5に示すように、カテゴリの重要度の順にソートされた検索結果を得ることができる。
なお、カテゴリスコア付与手段13が、各カテゴリのスコアを、そのカテゴリの階層数、そのカテゴリ名のいずれか1つ、または2つの組み合わせを考慮して算出し、カテゴリ配下の文書のスコアを考慮しない場合、文書情報アクセス手段12を省略することができる。
[発明の第2の実施の形態]
図6は本発明による情報検索システムの第2の実施の形態のブロック図を示す。同図中、図1と同一の構成部分には同一符号を付してある。この第2の実施の形態は、データ処理装置2が、図1のカテゴリスコア付与手段13の代わりに代表文書選択手段23を、ランキング手段15の代わりに検索結果合成手段25を備える点で異なる。また、記録媒体18−2には、データ処理装置2を構成するコンピュータを、ディレクトリ情報アクセス手段11、文書情報アクセス手段12、検索手段14、代表文書選択手段23及び検索結果合成手段25として機能させる情報検索プログラムが記録されている。
図6は本発明による情報検索システムの第2の実施の形態のブロック図を示す。同図中、図1と同一の構成部分には同一符号を付してある。この第2の実施の形態は、データ処理装置2が、図1のカテゴリスコア付与手段13の代わりに代表文書選択手段23を、ランキング手段15の代わりに検索結果合成手段25を備える点で異なる。また、記録媒体18−2には、データ処理装置2を構成するコンピュータを、ディレクトリ情報アクセス手段11、文書情報アクセス手段12、検索手段14、代表文書選択手段23及び検索結果合成手段25として機能させる情報検索プログラムが記録されている。
代表文書選択手段23は、ディレクトリ情報アクセス手段11を通じて取得したディレクトリ情報記憶装置16のディレクトリ情報と、文書情報アクセス手段12を通じて取得した文書情報記憶装置17の文書情報とを参照し、各カテゴリ毎に配下の文書から、そのカテゴリの代表文書を取得しておく手段である。取得しておく代表文書の情報は、文書名と文書本体へのポインタである。或るカテゴリの代表文書は、そのカテゴリの直下にある文書だけを選択対象文書としてその中から選択するようにしても良いし、そのカテゴリの下位の全カテゴリ中の文書を選択対象文書としてその中から選択するようにしても良い。また、選択対象文書の中から代表文書を選択する方法としては、各選択対象文書について、選択基準となる代表度スコアを算出し、この代表度スコアの値が上位のものを代表文書として選択する方法がある。この際の各文書の代表度スコアは、文書スコアをそのまま用いても良いし、カテゴリ階層の深さや、カテゴリ名に不要な表現が含まれていないかや、親カテゴリを複数もつかなどを考慮して、文書スコアを補正したものを用いるようにしても良い。
検索結果合成手段25は、検索条件にマッチしたカテゴリのカテゴリパスと、当該カテゴリの代表文書とを対応付けて、検索結果として検索要求元に出力する手段である。
次に、図7のフローチャートを併せ参照して第2の実施の形態の動作について説明する。
データ処理装置2の代表文書選択手段23は、利用者からの検索要求の受け付けを開始するのに先立って、ディレクトリ情報アクセス手段11で取得したディレクトリ情報と文書情報アクセス手段12で取得した文書情報とを参照し、各カテゴリ毎に配下の文書から、カテゴリ階層構造とカテゴリ名と文書スコアを利用して、そのカテゴリの代表文書を取得しておく(図7のステップS21)。
以上のような代表文書選択処理の完了後、利用者からの検索要求の受け付けが開始される。
利用者からの検索要求をデータ処理装置2が受信すると、検索手段14は、利用者が入力した検索条件を取得する(図7のステップS12)。
次に、検索手段14は、ディレクトリ情報アクセス手段11を通じてディレクトリ情報記憶装置16に記録されたディレクトリ情報を参照して、検索条件にマッチするカテゴリを取得する(図7のステップS13)。
次に、検索結果合成手段25は、検索条件にマッチしたカテゴリのカテゴリパスと当該カテゴリの代表文書を対応付けて検索結果とし、検索要求元へ出力する(図7のステップS24)。
ステップS12、S13、S24の処理は、利用者からの検索要求を受信する毎に繰り返される。
次に、第2の実施の形態の効果について説明する。
本実施の形態では、カテゴリパスと合わせてそのカテゴリの代表文書を検索結果としている。これにより、検索利用者は、カテゴリパスだけでなく、代表文書からそのカテゴリが必要なものかどうかを判別することができる。さらに、利用者は、さらにカテゴリを辿ることなしに代表文書を参照することができる。
[第2の実施の形態の実施例]
次に第2の実施の形態の実施例について図面を参照して詳細に説明する。
次に第2の実施の形態の実施例について図面を参照して詳細に説明する。
代表文書選択手段23は、そのカテゴリの直下で、スコアの高い文書の上位N件を代表文書として選択する。例えば、上位2件を代表文書とした場合、図3のカテゴリID5の「高校野球」では、図4の文書スコアが高い文書を選択することで、文書ID21の「選抜高校野球」と文書ID22の「甲子園」が代表文書となる。
代表文書を選択する方法は、これに限らず、代表文書選択手段23はそのカテゴリの下位に含まれる全ての文書から代表文書を選択することもできる。この場合、カテゴリの下位に含まれる全ての文書の中でスコアの高い文書の上位N件を代表文書とする。例えば、上位2件を代表文書とした場合、図3のカテゴリID4の「野球」では、「野球」の下に含まれる全ての文書に対して、図4の文書スコアが高い文書を選択することで、文書ID21の「選抜高校野球」と文書ID24の「阪神」が代表文書となる。
さらに、カテゴリの下位に含まれる全ての文書から代表文書を選択する方法は、これに限らず、代表文書選択手段23は、階層の深さによって文書スコアを補正して、補正したスコアを元に代表文書を選択することもできる。例えば、直下のカテゴリに含まれる文書の場合は、文書スコアをそのまま用いるが、1階層下のカテゴリに含まれる文書の場合は10点減点し、2階層下のカテゴリに含まれる文書の場合は20点減点する。図3でカテゴリID4の「野球」の場合、「野球」の直下にある文書ID11のスコアは55のままであるが、「野球」の1階層下である「プロ野球」に含まれる文書ID24の文書のスコアは10点減点されて50点になり、上位2件を代表文書とすると、文書ID21の「選抜高校野球」と文書ID11の「日本野球機構」が代表文書となる。
階層の深さによって文書スコアを補正する方法は、これに限らず、単独では意味をなさない特定のカテゴリ名(例えば、「ア行」、「その他」)を予め指定し、そのカテゴリ名のものは階層とみなさないことで、カテゴリ名を考慮してスコアを補正することもできる。例えば、「アイドル>ア行」というカテゴリパスで、「アイドル」の代表文書を求める場合、「ア行」の下にある文書は10点減点しない。
階層の深さによって文書スコアを補正する方法は、これに限らず、マルチリンクカテゴリを考慮してスコアを補正することもできる。例えば、「XXX>YYY]というカテゴリパスで、「XXX」の代表文書を求める場合、「YYY」がマルチリンクカテゴリならば、「YYY」以下の文書のスコアを1/2に補正する。
検索手段14は、検索キーワードとマッチするディレクトリ情報アクセス手段11が取得したカテゴリパスを検索し、マッチするカテゴリを取得する。
検索結果合成手段25は、検索手段14で検索したカテゴリのカテゴリパスと代表文書選択手段23で選択した代表文書を合わせて、検索結果とする。図8に、検索結果合成手段23で合成された検索結果の一例を示す。
[発明の第3の実施の形態]
図9は本発明による情報検索システムの第3の実施の形態のブロック図を示す。同図中、図1と同一の構成部分には同一符号を付してある。この第3の実施の形態は、データ処理装置3が、図1に示したカテゴリスコア付与手段13の代わりに短縮カテゴリ名作成手段33を、ランキング手段15の代わりにカテゴリ名変換手段35を備え、文書情報アクセス手段12を有していない点で異なる。また、記録媒体18−3には、データ処理装置3を構成するコンピュータを、ディレクトリ情報アクセス手段11、検索手段14、短縮カテゴリ名作成手段33、カテゴリ名変換手段35として機能させる情報検索プログラムが記録されている。
図9は本発明による情報検索システムの第3の実施の形態のブロック図を示す。同図中、図1と同一の構成部分には同一符号を付してある。この第3の実施の形態は、データ処理装置3が、図1に示したカテゴリスコア付与手段13の代わりに短縮カテゴリ名作成手段33を、ランキング手段15の代わりにカテゴリ名変換手段35を備え、文書情報アクセス手段12を有していない点で異なる。また、記録媒体18−3には、データ処理装置3を構成するコンピュータを、ディレクトリ情報アクセス手段11、検索手段14、短縮カテゴリ名作成手段33、カテゴリ名変換手段35として機能させる情報検索プログラムが記録されている。
短縮カテゴリ名作成手段33は、ディレクトリ情報アクセス手段11を通じてディレクトリ情報記憶装置16をアクセスして取得したディレクトリ情報を参照し、各カテゴリ毎にカテゴリパスから冗長な部分を削除する、または、同義の別表現に書き換えることで、カテゴリパスを圧縮した短縮カテゴリ名を作成する手段である。
カテゴリ名変換手段35は、検索条件にマッチしたカテゴリのカテゴリパスを短縮カテゴリ名に変換し、検索結果として検索要求元へ出力する手段である。
次に、図10のフローチャートを併せ参照して第3の実施の形態の動作について説明する。
データ処理装置3の短縮カテゴリ名作成手段33は、利用者からの検索要求の受け付けを開始するのに先立って、ディレクトリ情報アクセス手段11で取得したディレクトリ情報を参照し、各カテゴリ毎にカテゴリパスから冗長な部分をする、または、同義の別表現に書きかえることで、カテゴリパスを圧縮した短縮カテゴリ名を作成しておく(図10のステップS31)。
利用者からの検索要求をデータ処理装置3が受信すると、検索手段14は、利用者が入力した検索条件を取得する(図10のステップS12)。
次に、検索手段14は、ディレクトリ情報アクセス手段11を通じてディレクトリ情報記憶装置16に記録されたディレクトリ情報を参照して、検索条件にマッチするカテゴリを取得する(図10のステップS13)。
次に、カテゴリ名変換手段35は、検索条件にマッチしたカテゴリのカテゴリパスを短縮カテゴリ名に変換して、検索結果として検索要求元へ出力する(図10のステップS34)。
ステップS12、S13、S34の処理は、利用者からの検索要求を受信する毎に繰り返される。
次に、第3の実施の形態の効果について説明する。
本実施の形態では、カテゴリパスを圧縮した短縮カテゴリ名を検索結果としている。これにより、検索利用者は、冗長なカテゴリパスから意味のある部分だけを探すことなしに、一瞥でそのカテゴリ名を理解することができる。
[第3の実施の形態の実施例]
次に第3の実施の形態の実施例について図面を参照して詳細に説明する。
次に第3の実施の形態の実施例について図面を参照して詳細に説明する。
短縮カテゴリ名作成手段33は、カテゴリパスの不要な部分を削除して短縮カテゴリ名を作成する。これは、予め指定された不要語を用いてカテゴリパスの不要な単語を削除することで、短縮カテゴリ名を作成する。例えば、「その他」が不要語である場合は、「スポーツ>種目別スポーツ>球技>その他>ホッケー」というカテゴリパスを「スポーツ>種目別スポーツ>球技>ホッケー」に変換する。
カテゴリパスの不要な部分を削除する方法は、これに限らず、短縮カテゴリ名作成手段33は、カテゴリパス内で重複して用いられる表現を削除することで短縮カテゴリ名を作成できる。例えば、「スポーツ>種目別スポーツ>球技>ホッケー」では、「スポーツ」という単語が重複して用いられているので、後ろに現れるスポーツを削除して「スポーツ>種目別>球技>ホッケー」に変換する。
カテゴリパスの不要な部分を削除する方法は、これに限らず、短縮カテゴリ名作成手段33は、カテゴリパス内の末端の表現と、上位の表現の一部を組み合わせて短縮カテゴリ名を作成することもできる。まず、カテゴリパス内の末端の表現だけを取得し、その表現が他のカテゴリと重複しない場合は、その表現を短縮カテゴリ名にし、重複する場合は、上位のカテゴリの表現と合わせて短縮カテゴリ名にする。例えば、「スポーツ>種目別スポーツ>球技>野球>高校野球」の場合は、末端の表現が「高校野球」であり、かつ、末端の表現が「高校野球」である他のカテゴリがないので、「高校野球」を短縮カテゴリ名にする。また、「スポーツ>種目別スポーツ>球技>野球」の場合は、末端の表現が「野球」で、末端の表現が、「コミュニケーション>メール>メーリングリスト>趣味>スポーツ>野球」と重複するので最上位のカテゴリ表現と合わせた「スポーツ>野球」を短縮カテゴリ名にする。
さらには、表現を削除するだけでなく、同義の別表現に書きかえることもできる。例えば、前述の「スポーツ>野球」であれば「>」を「の」に置きかえて、「スポーツの野球」とする。
検索手段14は、検索キーワードとマッチするディレクトリ情報アクセス手段11が取得したカテゴリパスを検索し、マッチするカテゴリを取得する。
カテゴリ名変換手段35は、検索手段14で検索したカテゴリのカテゴリパスを短縮カテゴリ名作成手段33で作成した短縮カテゴリ名に変換して検索結果とする。図11に、カテゴリ名変換手段で変換した検索結果の一例を示す。
[発明の第4の実施の形態]
図12は本発明による情報検索システムの第4の実施の形態のブロック図を示す。同図中、図1、図6、及び、図9と同一の構成部分には同一符号を付してある。この第4の実施の形態は、第1の実施の形態と第2の実施の形態と第3の実施の形態を組み合わせたものであり、データ処理装置4が、図1の構成に加えて、代表文書選択手段23と検索結果合成手段25と短縮カテゴリ名作成手段33とカテゴリ名変換手段35とを備える点で異なる。また、記録媒体18−4には、データ処理装置4を構成するコンピュータを、ディレクトリ情報アクセス手段11、文書情報アクセス手段12、カテゴリスコア付与手段13、検索手段14、ランキング手段15、代表文書選択手段23、検索結果合成手段25、短縮カテゴリ名作成手段33、カテゴリ名変換手段35として機能させる情報検索プログラムが記録されている。これらの各構成要素の機能は、第1、第2、第3の実施の形態にて説明したものと同じである。
図12は本発明による情報検索システムの第4の実施の形態のブロック図を示す。同図中、図1、図6、及び、図9と同一の構成部分には同一符号を付してある。この第4の実施の形態は、第1の実施の形態と第2の実施の形態と第3の実施の形態を組み合わせたものであり、データ処理装置4が、図1の構成に加えて、代表文書選択手段23と検索結果合成手段25と短縮カテゴリ名作成手段33とカテゴリ名変換手段35とを備える点で異なる。また、記録媒体18−4には、データ処理装置4を構成するコンピュータを、ディレクトリ情報アクセス手段11、文書情報アクセス手段12、カテゴリスコア付与手段13、検索手段14、ランキング手段15、代表文書選択手段23、検索結果合成手段25、短縮カテゴリ名作成手段33、カテゴリ名変換手段35として機能させる情報検索プログラムが記録されている。これらの各構成要素の機能は、第1、第2、第3の実施の形態にて説明したものと同じである。
次に、図13のフローチャートを併せ参照して第4の実施の形態の動作について説明する。
利用者からの検索要求の受け付けを開始するのに先立って、データ処理装置4のカテゴリスコア付与手段13は、ディレクトリ情報記憶装置16のディレクトリ情報中の各カテゴリにその重要度を示すスコアを付与する(図13のステップS11)。また、代表文書選択手段23は、ディレクトリ情報アクセス手段11で取得したディレクトリ情報と文書情報アクセス手段12で取得した文書情報とを参照し、各カテゴリ毎に配下の文書から、カテゴリ構造とカテゴリ名と文書スコアを利用して、そのカテゴリの代表文書(文書名と文書本体へのポインタ)を取得する(図13のステップS21)。更に、短縮カテゴリ名作成手段33は、ディレクトリ情報アクセス手段11で取得したディレクトリ情報を参照し、各カテゴリ毎にカテゴリパスから冗長な部分を削除する、または、同義の別表現に書きかえることで、カテゴリパスを圧縮した短縮カテゴリ名を作成する(図13のステップS31)。
以上のようなカテゴリスコア付与処理、代表文書選択処理、短縮カテゴリ名作成処理の完了後、利用者からの検索要求の受け付けが開始される。
利用者からの検索要求をデータ処理装置4が受信すると、検索手段14は、利用者が入力した検索条件を取得する(図13のステップS12)。
次に、検索手段14は、ディレクトリ情報アクセス手段11を通じてディレクトリ情報記憶装置16に記録されたディレクトリ情報を参照して、検索条件にマッチするカテゴリを取得する(図13のステップS13)。
次に、ランキング手段15は、検索手段14で検索したカテゴリをカテゴリスコア付与手段13で付与したスコアの順にソートして、上位の一定件数、もしくは、全件を検索結果とする(図13のステップS14)。
次に、検索結果合成手段25は、検索条件にマッチしたカテゴリのカテゴリパスとカテゴリの代表文書を対応付けて検索結果とする(図13のステップS24)。
次に、カテゴリ名変換手段35は、検索条件にマッチしたカテゴリのカテゴリパスを短縮カテゴリ名に変換して、検索結果として検索要求元へ出力する(図13のステップS34)。
ステップS12〜S14、S24、S34の処理は、利用者からの検索要求を受信する毎に繰り返される。
図14に、ランキング手段15で検索結果をランキングし、カテゴリ名変換手段35でカテゴリパスを短縮カテゴリ名に変換し、さらに検索結果合成手段25で選択された上位3件の文書を合わせた検索結果を示す。
次に、第4の実施の形態の効果について説明する。
本実施の形態では、カテゴリの階層構造、カテゴリ名、カテゴリ内に含まれる文書を考慮してカテゴリにスコアを付けることで、検索結果のカテゴリの表示順をカテゴリの重要度の順に出力することができる。
また、本実施の形態では、検索結果としてカテゴリパスと合わせてカテゴリ内の代表的な文書を表示することで、利用者にとってそのカテゴリが必要なものかどうかを容易に判別することができる。
更に、本実施の形態では、検索結果としてカテゴリパスと合わせてカテゴリ内の代表的な文書を表示することで、利用者が代表的な文書にすぐにアクセスすることができる。
更に、本実施の形態では、検索結果としてカテゴリパスを短縮して表示することで、ユーザが一瞥で検索結果のカテゴリを理解できる。
更に、本実施の形態では、これらの組合せによって、限られた表示領域に検索結果をコンパクトに要約して表示することが可能となる。その結果、ユーザが欲しい文書を見つける手間を大きく削減することが可能になる。
[発明の他の実施の形態]
本発明は以上の第1乃至第4の実施の形態にのみ限定されず、その他各種の付加変更が可能である。例えば、以下のような実施の形態も本発明に含まれる。
本発明は以上の第1乃至第4の実施の形態にのみ限定されず、その他各種の付加変更が可能である。例えば、以下のような実施の形態も本発明に含まれる。
[発明の第5の実施の形態]
図12に示した第4の実施の形態におけるデータ処理装置4から、短縮カテゴリ名作成手段33及びカテゴリ名変換手段35を取り除いた構成。
図12に示した第4の実施の形態におけるデータ処理装置4から、短縮カテゴリ名作成手段33及びカテゴリ名変換手段35を取り除いた構成。
[発明の第6の実施の形態]
図12に示した第4の実施の形態におけるデータ処理装置4から、代表文書選択手段23及び検索結果合成手段25を取り除いた構成。
図12に示した第4の実施の形態におけるデータ処理装置4から、代表文書選択手段23及び検索結果合成手段25を取り除いた構成。
[発明の第7の実施の形態]
図12に示した第4の実施の形態におけるデータ処理装置4から、カテゴリスコア付与手段13及びランキング手段15を取り除いた構成。
図12に示した第4の実施の形態におけるデータ処理装置4から、カテゴリスコア付与手段13及びランキング手段15を取り除いた構成。
1、2、3、4 データ処理装置
11 ディレクトリ情報アクセス手段
13 カテゴリスコア付与手段
14 検索手段
15 ランキング手段
16 ディレクトリ情報記憶装置
17 文書情報記憶装置
18−1〜18−4 記録媒体
23 代表文書選択手段
25 検索結果合成手段
33 短縮カテゴリ名作成手段
35 カテゴリ名変換手段
11 ディレクトリ情報アクセス手段
13 カテゴリスコア付与手段
14 検索手段
15 ランキング手段
16 ディレクトリ情報記憶装置
17 文書情報記憶装置
18−1〜18−4 記録媒体
23 代表文書選択手段
25 検索結果合成手段
33 短縮カテゴリ名作成手段
35 カテゴリ名変換手段
Claims (3)
- カテゴリ名とカテゴリの階層構造とカテゴリに属する文書との対応関係を表す情報であるディレクトリ情報を対象とした情報検索システムであって、
前記ディレクトリ情報を予め記憶しているディレクトリ情報記憶部をアクセスするディレクトリ情報アクセス手段と、
前記ディレクトリ情報アクセス手段で取得した情報からカテゴリパスの短縮名を作成する短縮カテゴリ名作成手段と、
利用者が入力した検索条件にマッチするカテゴリをディレクトリ情報から検索する検索手段と、
前記検索手段の検索結果におけるカテゴリパスを前記短縮カテゴリ名作成手段で作成した短縮名に変換するカテゴリ名変換手段と、
を含むことを特徴とする情報検索システム。 - カテゴリ名とカテゴリの階層構造とカテゴリに属する文書との対応関係を表す情報であるディレクトリ情報を予め記憶しているディレクトリ情報記憶部を備えた情報検索システムにおける情報検索方法であって、
a)ディレクトリ情報アクセス手段が、前記ディレクトリ情報記憶部をアクセスするステップと、
b)短縮カテゴリ名作成手段が、前記ディレクトリ情報アクセス手段で取得した情報からカテゴリパスの短縮名を作成するステップと、
c)検索手段が、利用者が入力した検索条件にマッチするカテゴリをディレクトリ情報から検索するステップと、
d)カテゴリ名変換手段が、前記検索手段の検索結果におけるカテゴリパスを前記短縮カテゴリ名作成手段で作成した短縮名に変換するステップと、
を含むことを特徴とする情報検索方法。 - カテゴリ名とカテゴリの階層構造とカテゴリに属する文書との対応関係を表す情報であるディレクトリ情報を予め記憶しているディレクトリ情報記憶部を備えたコンピュータに、
a)前記ディレクトリ情報記憶部をアクセスするディレクトリ情報アクセスステップと、
b)前記ディレクトリ情報アクセス手段で取得した情報からカテゴリパスの短縮名を作成する短縮カテゴリ名作成ステップと、
c)利用者が入力した検索条件にマッチするカテゴリをディレクトリ情報から検索する検索ステップと、
d)前記検索手段の検索結果におけるカテゴリパスを前記短縮カテゴリ名作成手段で作成した短縮名に変換するカテゴリ名変換ステップと、
を行わせるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009132884A JP2009193602A (ja) | 2009-06-02 | 2009-06-02 | 情報検索システム及び情報検索方法並びに情報検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009132884A JP2009193602A (ja) | 2009-06-02 | 2009-06-02 | 情報検索システム及び情報検索方法並びに情報検索プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001202109A Division JP4453229B2 (ja) | 2001-07-03 | 2001-07-03 | 情報検索システム及び情報検索方法並びに情報検索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009193602A true JP2009193602A (ja) | 2009-08-27 |
Family
ID=41075494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009132884A Pending JP2009193602A (ja) | 2009-06-02 | 2009-06-02 | 情報検索システム及び情報検索方法並びに情報検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009193602A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012058835A (ja) * | 2010-09-06 | 2012-03-22 | Saga Univ | 階層構造管理装置、その方法、及びプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02135549A (ja) * | 1988-11-16 | 1990-05-24 | Hitachi Ltd | フアイル一覧表の表示方法 |
JPH06251062A (ja) * | 1993-02-26 | 1994-09-09 | Sony Corp | 情報表示方法および装置 |
JPH11306187A (ja) * | 1998-04-20 | 1999-11-05 | Nippon Telegr & Teleph Corp <Ntt> | カテゴリ付文書の検索結果の提示処理方法およびその装置 |
JP2000137733A (ja) * | 1998-11-04 | 2000-05-16 | Yazaki Corp | 文書ファイル検索システム |
JP2001043231A (ja) * | 1999-07-29 | 2001-02-16 | Toshiba Corp | ファイル管理システム、電子ファイリングシステムおよびファイルの階層構造表示方法 |
-
2009
- 2009-06-02 JP JP2009132884A patent/JP2009193602A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02135549A (ja) * | 1988-11-16 | 1990-05-24 | Hitachi Ltd | フアイル一覧表の表示方法 |
JPH06251062A (ja) * | 1993-02-26 | 1994-09-09 | Sony Corp | 情報表示方法および装置 |
JPH11306187A (ja) * | 1998-04-20 | 1999-11-05 | Nippon Telegr & Teleph Corp <Ntt> | カテゴリ付文書の検索結果の提示処理方法およびその装置 |
JP2000137733A (ja) * | 1998-11-04 | 2000-05-16 | Yazaki Corp | 文書ファイル検索システム |
JP2001043231A (ja) * | 1999-07-29 | 2001-02-16 | Toshiba Corp | ファイル管理システム、電子ファイリングシステムおよびファイルの階層構造表示方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012058835A (ja) * | 2010-09-06 | 2012-03-22 | Saga Univ | 階層構造管理装置、その方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7562069B1 (en) | Query disambiguation | |
US8135737B2 (en) | Query routing | |
US8521713B2 (en) | Domain expert search | |
US7818314B2 (en) | Search fusion | |
US7571157B2 (en) | Filtering search results | |
US7483885B2 (en) | System and method for query refinement to enable improved searching based on identifying and utilizing popular concepts related to users' queries | |
US6446083B1 (en) | System and method for classifying media items | |
JP5147947B2 (ja) | クエリ別検索コレクション生成方法およびシステム | |
JPWO2006098031A1 (ja) | キーワード管理装置 | |
JP4453229B2 (ja) | 情報検索システム及び情報検索方法並びに情報検索プログラム | |
JPWO2004097679A1 (ja) | データベース装置及び作成方法、データベース検索装置及び検索方法 | |
JP2003091552A (ja) | 検索要求情報抽出方法及びその実施システム並びにその処理プログラム | |
JP2009193601A (ja) | 情報検索システム及び情報検索方法並びに情報検索プログラム | |
JP3908634B2 (ja) | 検索支援方法および検索支援装置 | |
JP2009193602A (ja) | 情報検索システム及び情報検索方法並びに情報検索プログラム | |
JP2004287835A (ja) | オブジェクト表作成方法及びオブジェクト推薦方法及びオブジェクト表作成プログラム及びオブジェクト推薦方法 | |
JP2009098829A (ja) | 漫画のコマ検索装置 | |
KR102256903B1 (ko) | 중요 뉴스를 선별하여 화면 상에 표시할 수 있는 홈 로봇 장치 및 그 동작 방법 | |
JP2002297668A (ja) | ハイパーテキスト文書検索方法とその装置及びそのプログラムとこのプログラムを記録した記録媒体 | |
JP2002157278A (ja) | ディレクトリ編集型情報検索装置、情報検索方法及びディレクトリ編集型情報検索プログラムを格納した記録媒体 | |
JP2007328700A (ja) | キャラクタデータに対するタグ検索方法および検索サーバ | |
WO2009084754A1 (en) | System and method for searching web site in groups and stages | |
JP2010117925A (ja) | 文書データを検索する装置及び方法 | |
JP2005128690A (ja) | 嗜好情報収集方法 | |
JPH05174058A (ja) | 情報検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090602 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120529 |