JP2007140669A - 文書検索方法及び装置及び文書検索プログラム - Google Patents

文書検索方法及び装置及び文書検索プログラム Download PDF

Info

Publication number
JP2007140669A
JP2007140669A JP2005330453A JP2005330453A JP2007140669A JP 2007140669 A JP2007140669 A JP 2007140669A JP 2005330453 A JP2005330453 A JP 2005330453A JP 2005330453 A JP2005330453 A JP 2005330453A JP 2007140669 A JP2007140669 A JP 2007140669A
Authority
JP
Japan
Prior art keywords
document
label
attribute
search
attribute value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005330453A
Other languages
English (en)
Inventor
Minako Izawa
味奈子 井沢
Hiroyuki Toda
浩之 戸田
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005330453A priority Critical patent/JP2007140669A/ja
Publication of JP2007140669A publication Critical patent/JP2007140669A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】入力された特定のキーワードに対して、ユーザに煩雑な手間をかけさせることなく、有益なラベルを上位に表示する。
【解決手段】 本発明は、属性値の指示がない文書に題名、属性値、属性名を含む指定を加え属性値を正規化し、目的の情報を探すための手掛かりとなる文字や記号を文書に埋め込んで格納しておく。検索処理において、入力キーに対応する文書及び文書IDを取得し、該文書の属性値をラベルとするときの適合度を算出し、指定されたラベルの値が最も高くなるように、ラベルの属性名に対応する属性名適合度を求め、当該ラベルを含むクラスタ情報を生成し、ラベル情報、属性名適合度、クラスタ情報をブラウザに送信する。ブラウザ側は、ラベルを前記属性名適合度に基づいて表示させ、指定されたラベルを含むクラスタ情報の文書IDと題名を表示し、指定された文書IDに対応する文書を表示する。
【選択図】図1

Description

本発明は、文書検索方法及び装置及び文書検索プログラムに係り、特に、電子商取引サイトシステムにおいて、文書のラベルを表示させてから文書を表示させるための文書検索方法及び装置及び文書検索プログラムに関する。
コンピュータネットワークにおける検索システムにおいて、検索結果を効率的に絞り込むための検索システムとして、以下のような技術がある。
・ランキング付き検索システム:
当該システムは、google(登録商標)などに代表されるキーワード入力型の検索システムにおいて、入力されたキーワードを含むコンテンツを、入力されたキーワードとの類似度(例えば、非特許文献1参照)やコンテンツの重要度を示すPageRank(例えば、非特許文献2参照)順にコンテンツをランキングすることで、より効率的に所望のコンテンツに到達する技術である。
・クラスタリングシステム:
『適合文書同士は類似している』という仮定に基づき、文書間の類似度を元にクラスタを生成し、ユーザに対して検索結果を分類し、提示する手法がある。この手法は、ユーザは検索結果に含まれるコンテンツ全てを評価することなく、所望の情報に効率的に到達可能となるというものである(例えば、非特許文献3参照)。
・クエリ拡張システム:
ユーザが入力したクエリに関連するキーワードを提示し、ユーザがインタラクティブにクエリを修正、変更し、効率的に所望のコンテンツを得る手法がある。この手法は、テキストコーパスから予め関連語を取得しておく手法や、入力された検索要求から得られた検索結果を解析することで得たデータを利用する手法である(例えば、非特許文献4参照)。
上記の検索システムにおいては、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作が大きな問題となる。これを解決するために、ラベル表示型文書検索技術がある。当該技術は、検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、属性値を選択し、選択されたラベルの示すラベル情報を保存する。そして、ラベル情報を読み出すと共に、当該ラベル情報をブラウザに表示させることで、ユーザによりラベルが指示された場合、当該ラベルを含み、かつ、検索された文書中に含まれる文書をデータベースから読み出して、これをブラウザに表示させるものである(例えば、特許文献1参照)。
特開2005−208838号公報 tf-idf; Salton, G.et al. "Introduction to Modern Information Retrieval" McGraw-Hill Book Company, 1983 Brin, S. and Page, L., "The Anatomy of a Large-Scale Hypertextual Web Search Engine" Proceedings of 7th WWW Conference, 1998. Anton Leusk, "Evaluating Document Clustering for Interactive Information Retrieval", Proceedings of the 2001 ACM CIKM International Conference on Information and Knowledge Management, 2001 H. Sakai, K. Ohtake and S. Masuyama, A retrieval support system by suggesting terms to a user; in Proceedings 2001 International Conference on Chinese Language Computing, 2001.
電子商取引サイトシステム上においても上記の特許文献1の技術を利用したラベル表示型検索システムを活用することは可能であるが、その際には以下のような課題がある。
電子商取引サイトとは、販売者が販売商品をオークション形式で販売するオークションサイト、購入者が購入商品を逆オークション形式で購入する逆オークションサイト、販売者が販売商品をショップ形式で販売するショッピングサイト、複数の消費者が購入商品を購入するグループバイサイト等の総称である。
この電子商取引サイト上において購入や入札する商品を検索するには、商品名や作品名等の固有名詞以外のキーワードで検索することも多い。洋服や雑貨の場合、ブランド名ではなく色や一般名詞で指定することもある。例えば、「青っぽい机」が欲しい場合、ユーザはこの時「青」以外でも「水色」でも「紺」でも「瑠璃色」であってもいいと思うだろう。この商品を探す時、従来技術では、検索キーワードを『青and 机』と入力して検索すると想定されるが、ユーザの希望の叶う商品であっても文書中で『ブルーの机』や『机(色や形は写真を参照)』という記載があるものは検索対象外となる。これを検出するためには、ユーザは自分の希望に沿うような色や形を思いつく限り入力しては検索するルーチンを何度も繰り返すという煩雑な作業を繰り返すことになる。前述の特許文献1の技術を用いた場合、ラベル表示型で利便性はあるが、自分の望む「色」というラベルが表示されるかどうかは不確定である。
また、あるユーザが検索に効果的なラベル指定方法を考案・作成したとしても、それを同様の嗜好を持つ他ユーザに伝達する方法は存在しないため、気付いたユーザと気付かないユーザとではシステムの利用しやすさに差異が生じ、結果的にユーザの利便性を損なっている可能性が高い。
また、商品購入の際には、価格が重要な要素となるが、ラベル表示方式は価格や長さといった連続値には対応ができない。予め全商品一律に一定価格帯で区切り離散値に変換することは、商品により価格帯が大きく異なるため難しい。
本発明は、上記の点に鑑みなされたもので、ユーザの望む形でラベル表示を可能とし、特定のキーワードを入力した際に、ユーザに煩雑な手間をかけさせることなく、有益なラベルを上位に表示することが可能な文書検索方法及び装置及び文書検索プログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、文書のラベルを表示させてから文書を表示させる文書検索方法であって、
検索前処理と検索処理からなり、
検索前処理において、
属性値の指示がない文書が入力されると、与えられた題名、属性値、属性名を含む指定を該文書に加え、文書記憶手段に格納する文書生成ステップ(ステップ1)と、
文書記憶手段に記憶された文書に含まれる属性値を正規化する属性値正規化ステップ(ステップ2)と、
目的の情報を探すための手掛かりとなる文字や記号を文書記憶手段に記憶された文書に埋め込むインデックス生成ステップ(ステップ3)と、
文書記憶手段に記憶された文書に基づいて属性名毎の文書IDに対応する属性値や該属性値の出現回数を含む統計情報を生成し、統計情報記憶手段に格納する統計情報処理ステップ(ステップ4)と、
を行い、
検索処理において、
ブラウザから検索キー及び特定のラベルが指定されると、該検索キーに対応するインデックス生成ステップで生成されたインデックスに基づいて文書記憶手段を検索し、文書及び文書IDを取得する検索ステップ(ステップ5)と、
文書IDに基づいて、統計情報記憶手段を参照して所定の属性名毎に属性値と該文書IDからなる第1の検索結果統計情報を生成し、更に、該属性名毎に、該属性値と該属性値に対する該文書IDの出現回数からなる第2の検索結果統計情報を生成し、該属性名毎に、文書IDと属性値からなる第3の検索結果統計情報を生成し、検索結果統計情報記憶手段に格納するラベル候補選択ステップ(ステップ6)と、
第2の検索結果統計情報と第3の検索結果統計情報に基づいて、検索された文書に含まれた属性値を該文書のラベルとするときの適合度を算出するラベル適合度算出ステップ(ステップ7)と、
統計情報記憶手段から文書IDに基づいて、予め設定された属性名に対応する属性値を取得し、適合度の高い方から属性値をラベルとして所定の数選択し、選択されたラベルをラベル情報としてラベル情報記憶手段に格納するすると共に、ブラウザから指定されたラベルの値が最も高くなるように、ラベルの属性名に対応する属性名適合度を求め、ラベル情報の属性名を生成し、属性名適合度記憶手段に格納するラベル決定ステップ(ステップ8)と、
ブラウザから指定されたラベルの1つを含み、かつ、検索された文書の中にも含まれる文書を示すクラスタ情報を生成し、クラスタ情報記憶手段に格納するクラスタ情報生成ステップ(ステップ9)と、
各記憶手段からラベル情報、属性名適合度、クラスタ情報を読み出して、ブラウザに送信する送信ステップ(ステップ10)と、
ブラウザ側において、
取得したクラスタ情報に含まれる文書IDと題名、及びラベル情報に含まれるラベルを属性名適合度に基づいて表示させ、ユーザからラベルが指定されると、指定されたラベルを含むクラスタ情報の文書IDと題名を表示し、ユーザから文書IDが指定されると、該文書IDに対応する文書を文書記憶手段から読み出して表示する文書表示制御ステップ(ステップ11)と、を行う。
また、本発明(請求項2)は、ブラウザからラベルが指定されると、該ラベルと該ラベルの指定回数を属性値毎にラベル履歴としてラベル履歴記憶手段に格納するラベル履歴記録ステップと、
ラベル履歴から、所定の閾値以上の値を有するラベル対象とする属性値のラベルを検索するラベル履歴検索ステップと、を更に行う。
また、本発明(請求項3)は、指定された属性値を分類毎に属性履歴記憶手段に格納する属性値記録ステップと、
属性履歴記憶手段に格納された属性値を指定された数に分類する属性値分類ステップと、
を更に行う。
図2は、本発明の原理構成図である。
本発明(請求項4)は、文書のラベルを表示させてから文書を表示させる検索装置100とブラウザ200を有する文書検索装置であって、
検索装置100は、
属性値の指示がない文書が入力されると、与えられた題名、属性値、属性名を含む指定を該文書に加え、文書記憶手段101に格納する文書生成手段120と、
文書記憶手段101に記憶された文書に含まれる属性値を正規化する属性値正規化手段130と、
目的の情報を探すための手掛かりとなる文字や記号を文書記憶手段101に記憶された文書に埋め込むインデックス生成手段1110と、
文書記憶手段101に記憶された文書に基づいて属性名毎の文書IDに対応する属性値や該属性の出現回数を含む統計情報を生成し、統計情報記憶手段102に格納する統計情報処理手段140と、
ブラウザ200から検索キー及び特定のラベルが指定されると、該検索キーに対応するインデックス生成手段1110で生成されたインデックスに基づいて文書記憶手段101を検索し、文書及び文書IDを取得する検索手段110と、
文書IDに基づいて、統計情報記憶手段102を参照して所定の属性名毎に属性値と該文書IDからなる第1の検索結果統計情報を生成し、更に、該属性名毎に、該属性値と該属性値に対する該文書IDの出現回数からなる第2の検索結果統計情報を生成し、該属性名毎に、文書IDと属性値からなる第3の検索結果統計情報を生成し、検索結果統計情報記憶手段103に格納するラベル候補選択手段160と、
第2の検索結果統計情報と第3の検索結果統計情報に基づいて、検索された文書に含まれた属性値を該文書のラベルとするときの適合度を算出するラベル適合度算出手段150と、
統計情報記憶手段102から文書IDに基づいて、予め設定された属性名に対応する属性値を取得し、適合度の高い方から属性値をラベルとして所定の数選択し、選択されたラベルをラベル情報としてラベル情報記憶手段105に格納するすると共に、ブラウザ200から指定されたラベルの値が最も高くなるように、ラベルの属性名に対応する属性名適合度を求め、ラベル情報の属性名を生成し、属性名適合度情報記憶手段107に格納するラベル決定手段170と、
ブラウザ200から指定されたラベルの1つを含み、かつ、検索された文書の中にも含まれる文書を示すクラスタ情報を生成し、クラスタ情報記憶手段108に格納するクラスタ情報生成手段180と、
ラベル情報記憶手段105からラベル情報、属性名適合度情報記憶手段107から属性名適合度、クラスタ情報記憶手段108からクラスタ情報を読み出して、ブラウザ200に送信する通信手段190と、を有し、
ブラウザ200は、
検索キーの入力、特定のラベルの指定を行う入力手段1125と、
取得したクラスタ情報に含まれる文書IDと題名、及びラベル情報に含まれるラベルを属性名適合度に基づいて表示させ、ユーザからラベルが指定されると、指定されたラベルを含むクラスタ情報の文書IDと題名を表示し、ユーザから文書IDが指定されると、該文書IDに対応する文書を文書記憶手段101から読み出して表示する文書表示制御手段1140を有する。
また、本発明(請求項5)は、ブラウザ200からラベルが指定されると、該ラベルと該ラベルの指定回数をラベル履歴として属性値毎にラベル履歴記憶手段に格納するラベル履歴記録手段と、
ラベル履歴から、所定の閾値以上の値を有するラベル対象とする属性値のラベルを検索するラベル履歴検索手段と、を更に有する。
また、本発明(請求項6)は、指定された属性値を分類毎に属性履歴記憶手段に格納する属性値記録手段と、
属性履歴記憶手段に格納された属性値を指定された数に分類する属性値分類手段と、
を更に有する。
本発明(請求項7)は、コンピュータに、請求項1乃至3記載の文書検索方法のステップを実行させる文書検索プログラムである。
本発明によれば、以下のような効果を奏する。
ユーザが希望するラベルを指定することを可能とすることにより、ユーザが望む形でのラベル表示が実現できるので、より迅速に目的の商品を検出することが可能となり、電子商取引サイトの利用数が増加する。
また、ユーザが希望したラベル指定の履歴を共有することにより、特定のキーワードを入力した際に、より有益なラベルを上位に表示することができ、ユーザに煩雑な手間をかけさせることなく、商品を総覧することが可能となり、より素早く目的となる商品の検出が可能となる。
また、数値を離散値に変換することにより、従来のラベル表示型検索方式では扱えなかった属性を対象とでき、商品価格等の商品購入に大きな影響を持つ属性もラベル方式で表現することが可能となり、ユーザの利便性が向上する。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
図3は、本発明の第1の実施の形態における検索装置の構成を示す。
同図に示す検索装置100には、ブラウザ200が接続されている。
検索装置100は文書検索部110、文書生成部120、属性値正規化部130、統計情報処理部140、ラベル適合度算出部150、ラベル候補選択部160、ラベル決定部170、クラスタ情報生成部180、通信部190、要求処理部1100、インデックス生成部1110から構成される。また、記憶手段として、文書DB101,統計情報DB102,検索結果統計情報記憶部103、設定ファイル104、ラベル情報記憶部105、ラベル適合度情報記憶部106、属性名適合度記憶部107、クラスタ情報記憶部108がある。設定ファイル104は、統計情報を作成するための条件、種々のパラメータ、閾値等が設定されており、統計情報処理部140、ラベル候補選択部160、ラベル決定部170等により参照される。
ブラウザ200は、キーワード入力部1120、ラベル指定部1130、文書表示制御部1140から構成される。
検索装置100の文書検索部110は、検索キーに基づいて文書を記憶した文書DB(タグ付き)101から文書を検索する。
文書生成部120は、属性値の指示がない文書から当該指示のある文書を生成し、文書DB101に記憶させる。
属性値正規化部130は、文書DB101に記憶された文書に含まれた属性値を正規化する。
統計情報処理部140は、文書DB101に記憶された文書に含まれた属性値についての統計情報を生成し、統計情報DB102記憶する。
ラベル適合度算出部150は、文書検索部110により検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出する。
ラベル候補選択部160は、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を検索結果統計情報記憶部103に記録する。
ラベル決定部170は、ラベル情報の属性名を生成し、ラベル情報記憶部105に記憶すると共に、属性値を文書のラベルとするときの適合度を算出し、属性名適合度記憶部107に記憶する。
クラスタ情報生成部180は、選択されたラベルの1つを含み、かつ、文書検索部110により検索された文書の中にも含まれる文書を示すクラスタ情報を生成する。
通信部190は、ブラウザ200との入出力を行う。
要求処理部1100は、検索条件を文書検索部110に送信し、ラベル情報とクラスタ情報生成部180から取得した検索結果を通信部190へ伝送する。
インデックス生成部1110は、目的の情報を探すための手掛かりとなる文字や記号を文書に埋め込むと共に、インデックスとしてインデックス記憶部109に記憶する。
ブラウザ200のキーワード入力部1120は、検索キーを入力する。
ラベル指定部1130は、特定のラベルを指定する。
文書表示制御部1140は、記憶されたラベル情報を読み出すと共に、当該ラベル情報によりラベルを表示させ、ラベルが指定された場合、このラベルを含み、かつ、検索された文書の中にも含まれる文書を文書DB101から読み出して表示させる。
次に、上記の構成における動作を説明する。
最初に、検索前処理について説明する。
図4は、本発明の第1の実施の形態における検索前処理のフローチャートである。
ステップ210) 文書生成部120は、図5に示すようなタグなし文書が入力されると、「青い花柄の机」が題名であるという指定や、属性値「青」が属性名「色」に分類されるという指定があると、図6に示すように、タグなし文書にこれらの指定の内容と、文書IDを付与することで文書を生成し、これを文書DB101に格納する。
一方、文書生成部120は、タグなし文書が入力され、更に題名指定があると、その属性値に対し自動的にタグを付与することにより文書を生成し、更に文書IDを付与し、これを文書DB101に格納する。
なお、題名、属性値、属性名等の指定は、コンピュータにより自動的に指定され、タイトルを判別し、そこにタグを付与するものとする。ネットワーク上のオークションを対象とした場合は、タイトル(出品名、商品名)は、予め規定された場所(カラム、行、フォーマット)に記述されているものとする。
ステップ220) 属性値正規化部130は、文書DB101に格納された文書に含まれる属性値を正規化する。正規化とは、例えば、略記号で表記された属性値「NTT」を略さない日本語で表記された属性値「日本電信電話株式会社」に変換することを言う。つまり、属性値正規化部130は、文書中で同じ意味を持ちながら表現の異なる同義語となっている属性値を検出し、これを同じ表現にする。同義語の検出にはいくつかの方法があるが、図7に示す共起パターンを用いる方法を採用することができる。そのような処理により、文書DB101における文書の属性値が正規化される。
ステップ230) 次に、インデックス生成部1110は、文書DB101に格納された文書に含まれるワードと当該ワードを含む文書の文書IDとを対応付けたインデックスを生成し、インデックス記憶部109に格納する。図8に示すように、インデックスでは、例えば、ワード「机」に対し、このワードを含む文書の文書ID「001」などが対応付けられる。
ステップ240) 次に、統計情報処理部140は、文書DB101を基に、設定ファイル104に設定されている属性名毎に、第1統計情報を生成して、第1統計情報DB102に格納する。図9に示すように、1つの第1統計情報には1つの属性名が割り当てられており、1つの第1統計情報は、文書IDと当該文書IDに対応する文書に含まれ、かつ、属性名に分類される属性値とを対応付けたものを1以上備える情報である。図9は、例えば、文書ID「001」の文書には、属性名「色」に分類される属性値「青」などが含まれていることを示している。
ステップ250) 次に、統計情報処理部140は、第1統計情報毎に第2統計情報を生成して第2統計情報DB102に格納する。
図10に示すように、1つの第2統計情報には、1つの第1統計情報の属性名が割り当てられている。また、1つの第2統計情報は、属性名に分類される属性値と当該属性値の第1統計情報DB102内における出現回数とを対応付けたものを1以上備える情報である。図10は、例えば、属性名「色」に分類される属性値「青」の出現回数が30回であることを示している。なお、第2統計情報は、第1統計情報から属性値と文書IDの対応を検出し、検出する毎に出現回数をカウントアップすることで生成してもよい。また、第2統計情報を属性値自身やその属性値が出現する文書の文書ID自身で構成してもよい。また、第2の統計情報を各属性値間の共起頻度で構成してもよい。このときの共起頻度は、同じ文書中に出現する属性値同士を共起すると定義できる。また、タグ無し文書から文書を自動生成する場合には、タグ無し文書中の同じセンテンスやパラグラフに含まれる属性値同士を共起すると定義できる。また、文書中の近接度によって共起関係を[0,1]のバイナリ値で表現するのではなく、共起度により近くで共に出現する属性値間には大きい値を与えるようにしてもよい。
以上の処理により、文書検索が可能となるが、文書DB101の文書が更新、追加または、削除されたときは、属性値の再正規化や、インデックスの再生成、第1統計情報DB102,第2統計情報DB102などの更新が行われる。
以下、上記の図3に示す文書検索装置における検索処理を具体的に説明する。
図11は、本発明の第1の実施の形態における文書検索処理のフローチャートである。
ステップ910) ブラウザ200のキーワード入力部1120は、例えば、キーワード『机』がユーザにより入力されると、このキーワード『机』を検索装置100の通信部190に送信する。
ステップ920) ブラウザ200のラベル指定部1130は、ユーザがラベルとして『色』を指定すると、それを検索装置100の通信部190に送信する。
通信部190は、送信されたキーワード『机』とラベル『色』を要求処理部1100に与え、要求処理部1100は、そのキーワードとラベルを文書検索部110に与える。文書検索部110は、そのキーワード『机』に対してインデックスで対応付けられた文書IDを文書DB101から検索し、それらを要求処理部1100に返却する。要求処理部1100は、その文書IDをラベル候補選択部160に与える。
ステップ930) ラベル候補選択部160は、第1統計情報DB102と検索された文書IDを基に、設定ファイル104に設定されている属性名毎に、第1検索結果統計情報を生成して一時的に第1検索結果統計情報記憶部103に記憶する。図12に示すように、1つの第1検索結果統計情報には1つの属性名が割り当てられている。また、1つの第1検索結果統計情報は、1つの第1統計情報に含まれる各属性値に対し、該属性値とその属性値の出現回数を設定する。
具体的には、入力されたキーワードが『机』、指定ラベルが『色』である場合、文書検索部110が『机』が含まれる文書IDを検索し、例えば、『001』『008』『013』取得したものとし、これを要求処理部1100に返却する。要求処理部1100は、指定ラベル『色』と取得した文書IDをラベル候補選択部160に与える。これにより、ラベル候補選択部160は、第1統計情報DB102より、指定ラベル『色』を属性名とした図9に示すデータを抽出し、当該データから図13に示すようなデータを抽出する。図13に示すデータから各属性値毎に、当該属性値が含まれる文書IDを整理して、図12に示す属性値に対する出現回数を求める。
ステップ940) ラベル候補選択部160は、第1検索結果統計情報を基に、属性名毎に第2検索結果統計情報を生成して、一時的に第2検索結果統計情報記憶部103に記憶する。図14に示すように、1つの第2検索結果統計情報には1つの属性名が割り当てられている。また、1つの第2検索結果統計情報は、1つの第1検索結果統計情報の各属性値に対し、当該属性値に対応付けられた文書IDの数の出現回数として対応付けたものである。
ステップ950) 次に、ラベル候補選択部160は、第2検索結果統計情報と同じ属性名が割り当てられた第2検索結果統計情報とを基に、第2統計情報毎に第3検索結果統計情報を生成し、第3検索結果統計情報記憶部103に格納する。図15に示すように、1つの第3検索結果統計情報は、1つの第2統計情報に含まれた1以上の行からなる統計情報であり、かつ、当該行の属性値が第2検索結果統計情報の対応行に含まれたものである。
ステップ960) 次に、ラベル適合度算出部150は、第2検索結果統計情報と第3検索結果統計情報と検索された文書IDを基に、ラベル適合度情報を第2検索結果統計情報毎に生成し、ラベル適合度情報記憶部106に記憶する。図16に示すように、1つのラベル適合度情報には1つの属性名が割り当てられている。また、1つのラベル適合度情報は、1つの第2検索結果統計情報に含まれた各属性値に対し、ラベル適合度を対応付けたものである。
ラベル適合度は、例えば、以下のように算出する。
第2検索結果統計情報における1つの属性値に対応する出現回数をhとし、第3検索結果統計情報における属性値に対応する出現回数をdとし、検索された文書IDを|H|とし、式(1)によりラベル適合度を算出する。
ラベル適合度=h/d×h×log(|H|)/h) 式(1)
なお、式(1)のh/dは、検索された文書における属性値の網羅性を、|H|/hは検索された文書における属性値の希少性を示している。また、式(1)における第1項のhの代わりにh/|H|とし、第1項のdの代わりにd/|D|(|D|は、その属性値を含む文書数)としてもよい。
ステップ970) 次に、ラベル決定部170は、ラベル適合度情報記憶部106のラベル適合度情報からラベル適合度の高い順に、設定ファイル104に規定されている数の属性値及びラベル適合度の組を選択したものをラベル情報とし、ラベル情報記憶部105に一時的に記憶する。なお、ラベル情報は、ラベル適合度情報毎に生成され記憶される。また、ラベル情報における属性値は、文書のラベルとなるものであるから「ラベル」と言うことにする。
図17に示すように、ラベル情報は、ラベルに対しラベル適合度を対応付けたものであるが、ラベル適合度情報におけるラベル適合度の高い方からラベルを所定の数だけ選択することにより、ラベル情報におけるラベル及びラベル適合度の組数は、ラベル適合度情報における属性値及びラベル適合度の組数よりも少なくなっている。
ラベル決定部170は以下のような処理を行う。
図18は、本発明の第1の実施の形態におけるラベル決定部のラベル選択のフローチャートである。
ラベル決定部170は、ブラウザ200のラベル指定部1130で指定されたラベルを選択し(ステップ1510)、指定されたラベルの数が設定ファイル104に規定されたラベル数より少ない場合は、ラベル適合度の高い方から規定数になるまで選択する。次に、ラベル適合度が次点のラベルを追加選択するか否か判定する(ステップ1520)。
具体的には、選択済みの最も低いラベル適合度をC(n)、その1つ上のラベル適合度をC(n+1)、次点のラベル適合度をC(n−1)とし、式(2)が成立するときは、次点のラベルを追加選択する(ステップ1530)。
(c(n)−C(n−1))×e > c(n+1)−c(n) 式(2)
但し、eは、設定ファイル104などに書き込まれた閾値である。つまり、値の傾きを評価し、傾きがある閾値を超えたところを境界とする考え方を適用した判定が行われる。この方法により、ラベル適合度が近いにも関わらずラベルの選択から漏れるのを防止できる。つまり、ラベル適合度に差がある場合に限って選択しないようにできる。なお、ステップ1510では、設定ファイル104などに設定されたラベル適合度の閾値との比較により、ラベルを選択してもよい。
ステップ980) 次に、ラベル決定部170は、ラベル情報を基に属性名適合度情報を生成し、属性名適合度情報記憶部107に一時的に記憶する。図19に示すように、属性名適合度情報は、属性名毎に属性名適合度を示したものである。例えば、属性名「材質」の場合の属性名適合度は、以下のように算出する。
まず、ブラウザ200のラベル指定部1130により指定された属性がある場合は、最高値を指定する。
それ以外のラベル、例えば「材質」は、ラベル情報における何れかのラベルを含む文書の数dpを、「材質」の第1検索結果統計情報から求められる。このとき、複数のラベルを含む1文書を1と計算する。そして、式(3)により網羅性S1を求める。
S1=dp/dr 式(3)
ここで、drは、検索された文書IDの数である。このS1が大きいほど、検索結果がラベルにより網羅されている程度が大きいことになる。
次に、式(4)により、重なりの少なさ、分類の明確さS2を求める。
S2=dp/Σdp 式(4)
ここでdpは、検索された文書のIDの数であり、dpは「材質」のラベル情報におけるi番目のラベルpを含む文書数であり、『材質』の第2検索結果統計情報から得たものである。このS2が大きいほど、検索結果がラベルにより明確に分類されている程度が大きいことになる。
次に、式(5)により、分類の均一さS3を求める。
S3=Σ−dp/dr×log(dp/dr) 式(5)
ここで、drは検索された文書IDの数であり、dpは「材質」のラベル情報におけるi番目のラベルpを含む文書数である。dpは、第2検索結果統計情報から得る事ができる。このS3が大きいほど、検索結果がラベルにより均一に分類されている程度が大きいことになる。
次に、式(6)により、属性名適合度Sを求める。
S=αS1+βS2+γS3 式(6)
ここで、α、β、γは、設定ファイル104に設定されているパラメータである。
ステップ990) 要求処理部1100は、第2検索結果統計情報を第2検索結果統計情報記憶部103から、ラベル情報をラベル情報記憶部105から、属性名適合度情報を属性名適合度情報記憶部107からそれぞれ読み出し、ラベル情報をクラスタ情報生成部180に与える。クラスタ情報生成部180は、ラベル情報に含まれたラベル毎にクラスタ情報を生成し、一時的にクラスタ情報記憶部108に記憶する。
図20に示すように、クラスタ情報は、ラベル情報に含まれる各ラベルと、該ラベルを含む文書の文書IDでかつ、検索された文書IDにも含まれる文書IDと、当該文書の題名とを対応付けたものである。
ステップ1000) 次に、要求処理部1100は、第2検索結果統計情報、ラベル情報、属性名適合度情報及びクラスタ情報をそれぞれ全て読み出して通信部190に与え、通信部190はこれらの情報をブラウザ200に送信する。
図21にブラウザ200の処理を示す。
ブラウザ200の文書表示制御部1140は、図22に示すように、全てのクラスタ情報に含まれる文書IDと題名を表示させ(ステップ1810)、さらに、ラベル情報に含まれたラベルを表示させる(ステップ1820)。このとき、表示されるラベル数は適合度により少なくされているので、ユーザによるラベルの指示を容易に行うことができる。そして、ユーザに一層の便宜を図るために、例えば、ラベルは属性名毎にまとめて表示させる。また、属性名適合度情報における属性名適合度の高い属性名のラベルをより見やすいように表示させる。また、1つのラベル情報に含まれたラベルについては対応付けられたラベル適合度の高いものをより見やすいように表示させる。また、ラベルには、第2検索結果統計情報において対応付けられた文書IDの数を対応付けて表示させる。
そして、文書表示制御部1140は、ユーザから1つのラベルが指示されると(ステップ1830)、表示済みの文書IDと題名を消去し、図23に示すように、そのラベル名を含むクラスタ情報に含まれた文書IDと題名を表示させる(ステップ1840)。そして、文書表示制御部1140は、ユーザにより文書IDが指示されると(ステップ1850)、その文書IDを検索装置100の通信部190に送信する(ステップ1860)。なお、実際には、文書IDと題名の位置をクリックすると文書IDが指示できるようになっている。
図23に示すように、本実施の形態では、ラベル指示後においては指示前よりも、文書IDと題名の数が減っているので、ユーザは容易に指示することができる。
検索装置200の通信部190は、送信された文書IDを要求処理部1100に与える。要求処理部1100は、与えられた文書IDを文書検索部110に与える。文書検索部110は、与えられた文書IDの文書を文書DB101から読み出して要求処理部1100に返却する。要求処理部1100は、返却された文書を通信部190に与え、通信部190はそれをブラウザ200に送信する。ブラウザ200の文書表示制御部1140は、送信された文書を表示させる。
[第2の実施の形態]
図24は、本発明の第2の実施の形態における検索装置の構成を示す。
同図において、図3と同一構成部分には同一符号を付し、その説明を省略する。
図24に示す検索装置100は、図3の構成に加え、ブラウザ200のラベル指定部1130で指定されたラベルを属性値毎にラベル履歴DB201に記録するラベル履歴記録部250と、ラベル履歴から対象とする属性値のラベルを検索するラベル履歴検索部260から構成される。
本実施の形態において、検索前処理は第1の実施の形態と同様である。
図25は、本発明の第2の実施の形態における文書検索処理のフローチャートである。
ステップ2210) ブラウザ200のキーワード入力部1120は、例えば、キーワード『机』がユーザにより入力されると、当該キーワード『机』を検索装置100の通信部190に送信する。
ステップ2220) ブラウザ200のラベル指定部1130において、ユーザがラベルとして『色』を指定すると、それを検索装置100の通信部190に送信する。通信部190は、送信されたキーワード『机』とラベル『色』を要求処理部1100に与え、要求処理部1100は、そのキーワードとラベルを文書検索部110とラベル履歴記録部250に与える。
ステップ2230) 文書検索部110は、そのキーワード『机』に対しインデックスで対応付けられた文書IDを文書DB101から検索し、それらを要求処理部1100に返却する。ラベル履歴記録部250は、図26に示すようにキーワード毎に指定されたラベルと指定回数をラベル履歴DB201に記録する。ラベル履歴検索部260は、入力されたキーワードに関して、ラベル履歴DB201に記録されたラベル履歴から、適合度が設定ファイル104に記述された閾値以上のラベルがある場合は、当該ラベル名と属性名適合度を最大値にした値をラベル決定部170に返却する。ここで、適合度は、設定ファイル104に予め設定された指定数でもよいし、そのキーワードに対して指定されたラベルの延べ数で割った商としてもよい。要求処理部1100は、当該文書IDをラベル候補選択部160に与える。
ステップ2240〜ステップ22110)当該処理は、図11のステップ930〜ステップ1000と同様の処理であり、付随するデータは、図12〜図17同様であるので、その説明を省略する。
次に、ラベル決定部170が行う処理について説明する。
図27は、本発明の第2の実施の形態におけるラベル決定部によるラベル選択のフローチャートである。
ステップ2410) ラベル決定部170は、ブラウザ200のラベル指定部1130で指定されたラベルを選択する。
ステップ2420) ラベル履歴検索部260が指定されたラベルを選択する。この処理で選択されたラベルの数が設定ファイル104に規定されたラベル数よりも少ない場合は、ラベル適合度の高い方から規定数になるまで選択する。
ステップ2430〜ステップ2450)当該処理は、第1の実施の形態の図18のステップ1510〜ステップ1530の処理と同様であるので、その説明を省略する。
[第3の実施の形態]
図28は、本発明の第3の実施の形態における検索装置の構成を示す。
同図において、図3、図24と同一構成部分には同一符号を付し、その説明を省略する。
図28に示す検索装置は、図24の構成要素に加え、指定された属性値を属性履歴DB320に記録する属性値記憶部310と、属性記録を指定された数に分類する属性値分類部330から構成される。
図29は、本発明の第3の実施の形態における検索前処理のフローチャートである。
ステップ2610) 図4のステップ210と同様の処理であり、付随するデータは、図5〜図6と同様である。
ステップ2620) 属性値記憶部310は、図30に示すように、設定ファイル104に設定された属性値について商品分類毎に属性履歴DB320に記録していく。商品の分類は商品名個別としてもよいし、『机』や『椅子』は、「家具」といったように分野で分類してもよい。
ステップ2630〜ステップ2660) 図4のステップ220〜ステップ250と同様の処理であり、図31、図32に、本実施の形態における第1・第2統計情報の例を示す。図31、図32では、属性名が「価格」の場合を示している。
図33は、本発明の第3の実施の形態における検索処理のフローチャートである。
図33に示す動作は、図28で示した各部で行われている処理のうち、文書検索処理を示すものである。
ステップ3010〜ステップ3090) 図25のステップ2210〜ステップ2290の処理と同様であり、付随するデータは、図34〜図36に示すように、属性名が「価格」の場合を示しており、これらの形式は、前述の図12〜図15と同様である。
ステップ30100) ラベル決定部170は、ラベル情報を基に属性名適合度を生成し、ラベル適合度情報記憶部106に一時的に記憶する。属性名毎に属性名適合度を算出するが、このとき、「価格」や「長さ」などの値が数値である属性に対しては、属性値分類部330において、設定ファイル104に設定されている数に帯域を分割する。図37は3つの帯域に分割した場合の例を示す。
分割する際は、式(7)で分割する属性値のID数Pを算出する。
P=dr/m 式(7)
ここで、drは、検索された文書ID数、mは設定ファイル104に記載されている分割数である。
検索された文書中の対象の属性値を昇順でP番目にあたる文書IDが持つ属性値をDpとし、最小の属性値からDpまでを第1帯域とする。PからさらにP番目、つまり2P番目にあたる文書IDガ持つ属性値をDp2とし、Dp+1〜Dp2までを第2帯域とし、以下これを繰り返すことでm個の帯域に分割する。
このとき、属性値分類部330は、drだけでなく、期限切れなどの理由で文書検索の対象外となっている文書及び属性の履歴から同一検索ワードによって取得した文書及びその文書ID数daとその属性値Dpaを取得し、式(7)の代わりに式(8)を利用しても良い。
P=(dr+da)/m 式(8)
以降の処理は、第2の実施の形態と同様である。
なお、本発明は、第1〜第3の実施の形態における動作をプログラムとして構築し、文書検索装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスク装置や、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、電子商取引サイトをはじめとする、ラベル表示型の検索システムに適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態における検索装置の構成図である。 本発明の第1の実施の形態における検索前処理のフローチャートである。 本発明の第1の実施の形態におけるタグ無し文書の例である。 本発明の第1の実施の形態における文書DBに格納される文書例である。 本発明の第1の実施の形態における共起パターンの例である。 本発明の第1の実施の形態におけるインデックスの例である。 本発明の第1の実施の形態における統計情報の例である。 本発明の第1の実施の形態における第2統計情報の例である。 本発明の第1の実施の形態における文書検索処理のフローチャートである。 本発明の第1の実施の形態における第1検索結果統計情報の例である。 本発明の第1の実施の形態における第1検索結果統計情報の作成時の中間データの例である。 本発明の第1の実施の形態における第2検索結果統計情報の例である。 本発明の第1の実施の形態における第3検索結果統計情報の例である。 本発明の第1の実施の形態におけるラベル適合度情報の例である。 本発明の第1の実施の形態におけるラベル情報の例である。 本発明の第1の実施の形態におけるラベル決定部のラベル選択のフローチャートである。 本発明の第1の実施の形態における属性名適合度情報の例である。 本発明の第1の実施の形態におけるクラスタ情報の例である。 本発明の第1の実施の形態におけるブラウザの動作のフローチャートである。 本発明の第1の実施の形態におけるブラウザの表示例(その1)である。 本発明の第1の実施の形態におけるブラウザの表示例(その2)である。 本発明の第2の実施の形態における検索装置の構成図である。 本発明の第2の実施の形態における文書検索処理のフローチャートである。 本発明の第2の実施の形態におけるラベル履歴情報の例である。 本発明の第2の実施の形態におけるラベル決定部によるラベル選択のフローチャートである。 本発明の第3の実施の形態における検索装置の構成図である。 本発明の第3の実施の形態における検索前処理のフローチャートである。 本発明の第3の実施の形態における属性値の例である。 本発明の第3の実施の形態における第1統計情報の例である。 本発明の第3の実施の形態における第2統計情報の例である。 本発明の第3の実施の形態における検索処理のフローチャートである。 本発明の第3の実施の形態における第1検索結果統計情報の例である。 本発明の第3の実施の形態における第2検索結果統計情報の例である。 本発明の第3の実施の形態における第3検索結果統計情報の例である。 本発明の第3の実施の形態における属性分類結果の例である。
符号の説明
100 検索装置
101 文書記憶手段、文書DB
102 統計情報記憶手段、
102 第1統計情報DB
102 第2統計情報DB
103 検索結果統計情報記憶手段
103 第1検索結果統計情報記憶部
103 第2検索結果統計情報記憶部
103 第3検索結果統計情報記憶部
104 設定ファイル
105 ラベル情報記憶手段、ラベル情報記憶部
106 ラベル適合度情報記憶部
107 属性名適合度情報記憶手段、属性名適合度情報記憶部
108 クラスタ情報記憶手段、クラスタ情報記憶部
109 インデックス記憶部
110 検索手段、文書検索部
120 文書生成手段、文書生成部
130 属性値正規化手段、属性値正規化部
140 統計情報処理手段、統計情報処理部
150 ラベル適合度算出手段、ラベル適合度算出部
160 ラベル候補選択手段、ラベル候補選択部
170 ラベル決定手段、ラベル決定部
180 クラスタ情報生成手段、クラスタ情報生成部
190 通信手段、通信部
200 ブラウザ
201 ラベル履歴DB
250 ラベル履歴記録部
260 ラベル履歴検索部
310 属性値記憶部
320 属性履歴DB
330 属性値分類部
1100 要求処理部
1110 インデックス生成手段、インデックス生成部
1120 キーワード入力部
1125 入力手段
1130 ラベル指定部
1140 文書表示制御手段、文書表示制御部

Claims (7)

  1. 文書のラベルを表示させてから文書を表示させる文書検索方法であって、
    検索前処理と検索処理からなり、
    前記検索前処理において、
    属性値の指示がない文書が入力されると、与えられた題名、属性値、属性名を含む指定を該文書に加え、文書記憶手段に格納する文書生成ステップと、
    前記文書記憶手段に記憶された前記文書に含まれる前記属性値を正規化する属性値正規化ステップと、
    目的の情報を探すための手掛かりとなる文字や記号を前記文書記憶手段に記憶された前記文書に埋め込むインデックス生成ステップと、
    前記文書記憶手段に記憶された前記文書文書に基づいて属性名毎の文書IDに対する前記属性値や該属性値の出現回数を含む統計情報を生成し、統計情報記憶手段に格納する統計情報処理ステップと、
    を行い、
    前記検索処理において、
    ブラウザから検索キー及び特定のラベルが指定されると、該検索キーに対応する前記インデックス生成ステップで生成されたインデックスに基づいて前記文書記憶手段を検索し、文書及び文書IDを取得する検索ステップと、
    前記文書IDに基づいて、前記統計情報記憶手段を参照して所定の属性名毎に属性値と該文書IDからなる第1の検索結果統計情報を生成し、更に、該属性名毎に、該属性値と該属性値に対する該文書IDの出現回数からなる第2の検索結果統計情報を生成し、該属性名毎に、文書IDと属性値からなる第3の検索結果統計情報を生成し、検索結果統計情報記憶手段に格納するラベル候補選択ステップと、
    前記第2の検索結果統計情報と前記第3の検索結果統計情報に基づいて、検索された前記文書に含まれた属性値を該文書のラベルとするときの適合度を算出するラベル適合度算出ステップと、
    前記統計情報記憶手段から前記文書IDに基づいて、予め設定された属性名に対応する属性値を取得し、適合度の高い方から属性値をラベルとして所定の数選択し、選択されたラベルをラベル情報としてラベル情報記憶手段に格納するすると共に、前記ブラウザから指定されたラベルの値が最も高くなるように、ラベルの属性名に対応する属性名適合度を求め、前記ラベル情報の属性名を生成し、属性名適合度記憶手段に格納するラベル決定ステップと、
    前記ブラウザから指定された前記ラベルの1つを含み、かつ、検索された前記文書の中にも含まれる文書を示すクラスタ情報を生成し、クラスタ情報記憶手段に格納するクラスタ情報生成ステップと、
    各記憶手段から前記ラベル情報、前記属性名適合度、前記クラスタ情報を読み出して、前記ブラウザに送信する送信ステップと、
    前記ブラウザ側において、
    取得した前記クラスタ情報に含まれる文書IDと題名、及び前記ラベル情報に含まれるラベルを前記属性名適合度に基づいて表示させ、ユーザからラベルが指定されると、指定されたラベルを含むクラスタ情報の文書IDと題名を表示し、ユーザから文書IDが指定されると、該文書IDに対応する文書を前記文書記憶手段から読み出して表示する文書表示制御ステップと、
    を行うことを特徴とする文書検索方法。
  2. 前記ブラウザからラベルが指定されると、該ラベルと該ラベルの指定回数を属性値毎にラベル履歴としてラベル履歴記憶手段に格納するラベル履歴記録ステップと、
    前記ラベル履歴から、所定の閾値以上の値を有するラベル対象とする属性値のラベルを検索するラベル履歴検索ステップと、
    を更に行う請求項1記載の文書検索方法。
  3. 指定された属性値を分類毎に属性履歴記憶手段に格納する属性値記録ステップと、
    前記属性履歴記憶手段に格納された前記属性値を指定された数に分類する属性値分類ステップと、
    を更に行う請求項1記載の文書検索方法。
  4. 文書のラベルを表示させてから文書を表示させる検索装置とブラウザを有する文書検索装置であって、
    前記検索装置は、
    属性値の指示がない文書が入力されると、与えられた題名、属性値、属性名を含む指定を該文書に加え、文書記憶手段に格納する文書生成手段と、
    前記文書記憶手段に記憶された前記文書に含まれる前記属性値を正規化する属性値正規化手段と、
    目的の情報を探すための手掛かりとなる文字や記号を前記文書記憶手段に記憶された前記文書に埋め込むインデックス生成手段と、
    前記文書記憶手段に記憶された前記文書に基づいて属性名毎の文書IDに対応する前記属性値や該属性値の出現回数を含む統計情報を生成し、統計情報記憶手段に格納する統計情報処理手段と、
    ブラウザから検索キー及び特定のラベルが指定されると、該検索キーに対応する前記インデックス生成手段で生成されたインデックスに基づいて前記文書記憶手段を検索し、文書及び文書IDを取得する検索手段と、
    前記文書IDに基づいて、前記統計情報記憶手段を参照して所定の属性名毎に属性値と該文書IDからなる第1の検索結果統計情報を生成し、更に、該属性名毎に、該属性値と該属性値に対する該文書IDの出現回数からなる第2の検索結果統計情報を生成し、該属性名毎に、文書IDと属性値からなる第3の検索結果統計情報を生成し、検索結果統計情報記憶手段に格納するラベル候補選択手段と、
    前記第2の検索結果統計情報と前記第3の検索結果統計情報に基づいて、検索された前記文書に含まれた属性値を該文書のラベルとするときの適合度を算出するラベル適合度算出手段と、
    前記統計情報記憶手段から前記文書IDに基づいて、予め設定された属性名に対応する属性値を取得し、適合度の高い方から属性値をラベルとして所定の数選択し、選択されたラベルをラベル情報としてラベル情報記憶手段に格納するすると共に、前記ブラウザから指定されたラベルの値が最も高くなるように、ラベルの属性名に対応する属性名適合度を求め、前記ラベル情報の属性名を生成し、属性名適合度情報記憶手段に格納するラベル決定手段と、
    前記ブラウザから指定された前記ラベルの1つを含み、かつ、検索された前記文書の中にも含まれる文書を示すクラスタ情報を生成し、クラスタ情報記憶手段に格納するクラスタ情報生成手段と、
    前記ラベル情報記憶手段から前記ラベル情報、前記属性名適合度情報記憶手段から前記属性名適合度、前記クラスタ情報記憶手段から前記クラスタ情報を読み出して、前記ブラウザに送信する通信手段と、を有し、
    前記ブラウザは、
    検索キーの入力、特定のラベルの指定を行う入力手段と、
    取得した前記クラスタ情報に含まれる文書IDと題名、及び前記ラベル情報に含まれるラベルを前記属性名適合度に基づいて表示させ、ユーザからラベルが指定されると、指定されたラベルを含むクラスタ情報の文書IDと題名を表示し、ユーザから文書IDが指定されると、該文書IDに対応する文書を前記文書記憶手段から読み出して表示する文書表示制御手段を有することを特徴とする文書検索装置。
  5. 前記ブラウザからラベルが指定されると、該ラベルと該ラベルの指定回数を属性値毎にラベル履歴としてラベル履歴記憶手段に格納するラベル履歴記録手段と、
    前記ラベル履歴から、所定の閾値以上の値を有するラベル対象とする属性値のラベルを検索するラベル履歴検索手段と、
    を更に有する請求項4記載の文書検索装置。
  6. 指定された属性値を分類毎に属性履歴記憶手段に格納する属性値記録手段と、
    前記属性履歴記憶手段に格納された前記属性値を指定された数に分類する属性値分類手段と、
    を更に有する請求項4記載の文書検索装置。
  7. コンピュータに、
    請求項1乃至3記載の文書検索方法のステップを実行させることを特徴とする文書検索プログラム。
JP2005330453A 2005-11-15 2005-11-15 文書検索方法及び装置及び文書検索プログラム Pending JP2007140669A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005330453A JP2007140669A (ja) 2005-11-15 2005-11-15 文書検索方法及び装置及び文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005330453A JP2007140669A (ja) 2005-11-15 2005-11-15 文書検索方法及び装置及び文書検索プログラム

Publications (1)

Publication Number Publication Date
JP2007140669A true JP2007140669A (ja) 2007-06-07

Family

ID=38203480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005330453A Pending JP2007140669A (ja) 2005-11-15 2005-11-15 文書検索方法及び装置及び文書検索プログラム

Country Status (1)

Country Link
JP (1) JP2007140669A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016038667A (ja) * 2014-08-06 2016-03-22 日本電信電話株式会社 情報提供装置、情報提供方法、および情報提供プログラム
CN112711721A (zh) * 2021-01-08 2021-04-27 南京中廷网络信息技术有限公司 一种万网街精准定位方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016038667A (ja) * 2014-08-06 2016-03-22 日本電信電話株式会社 情報提供装置、情報提供方法、および情報提供プログラム
CN112711721A (zh) * 2021-01-08 2021-04-27 南京中廷网络信息技术有限公司 一种万网街精准定位方法
CN112711721B (zh) * 2021-01-08 2024-02-09 南京中廷网络信息技术有限公司 一种万网街精准定位方法

Similar Documents

Publication Publication Date Title
US11314822B2 (en) Interface for a universal search
US8739061B1 (en) Method and apparatus for output of search results
US8161072B1 (en) Systems and methods for sorting and displaying search results in multiple dimensions
US8359301B2 (en) Navigating product relationships within a search system
JP5603337B2 (ja) バーティカル提案により検索要求を支援するためのシステム及び方法
US8676829B2 (en) Methods and apparatus for generating a data dictionary
US8751489B2 (en) Predictive selection of item attributes likely to be useful in refining a search
US6920459B2 (en) System and method for context based searching of electronic catalog database, aided with graphical feedback to the user
US7603367B1 (en) Method and system for displaying attributes of items organized in a searchable hierarchical structure
US8484179B2 (en) On-demand search result details
US8170916B1 (en) Related-item tag suggestions
US7769771B2 (en) Searching a document using relevance feedback
US7203675B1 (en) Methods, systems and data structures to construct, submit, and process multi-attributal searches
US20100306249A1 (en) Social network systems and methods
US20020073079A1 (en) Method and apparatus for searching a database and providing relevance feedback
US20090254455A1 (en) System and method for virtual canvas generation, product catalog searching, and result presentation
US20110264658A1 (en) Web object retrieval based on a language model
JP2008541265A (ja) 検索クエリへの応答を提供するシステムおよび方法
JP2007018285A (ja) 情報提供システム、情報提供方法、情報提供装置並びに情報提供プログラム
JP2009009461A (ja) キーワードの入力支援システム、コンテンツ検索システム、コンテンツ登録システム、コンテンツ検索・登録システム、およびこれらの方法、並びにプログラム
JP4375626B2 (ja) カテゴリ別のキーワードの入力順位を提供するための検索サービスシステムおよびその方法
US11282124B1 (en) Automated identification of item attributes relevant to a browsing session
WO2001027712A2 (en) A method and system for automatically structuring content from universal marked-up documents
JPH11296537A (ja) 情報検索システム、情報提供装置、情報検索端末装置、情報検索方法および記憶媒体
JP2007140669A (ja) 文書検索方法及び装置及び文書検索プログラム