JP2007310677A - ラベル表示型文書検索方法及び装置及びプログラム - Google Patents

ラベル表示型文書検索方法及び装置及びプログラム Download PDF

Info

Publication number
JP2007310677A
JP2007310677A JP2006139436A JP2006139436A JP2007310677A JP 2007310677 A JP2007310677 A JP 2007310677A JP 2006139436 A JP2006139436 A JP 2006139436A JP 2006139436 A JP2006139436 A JP 2006139436A JP 2007310677 A JP2007310677 A JP 2007310677A
Authority
JP
Japan
Prior art keywords
document
label
information
attribute
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006139436A
Other languages
English (en)
Inventor
Minako Izawa
味奈子 井沢
Megumi Ishii
恵 石井
Yukio Uematsu
幸生 植松
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006139436A priority Critical patent/JP2007310677A/ja
Publication of JP2007310677A publication Critical patent/JP2007310677A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザが複数ラベル指定によるand条件検索を行うことが可能な電子商取引サイトにおけるラベル表示型文書検索を行う。
【解決手段】本発明は、文書を検索し、検索された文書に含まれる属性値を該文書のラベルとするときの適合度を算出し、該適合度の高い方から、該属性値の数よりも少ない数の属性値をラベルとして選択し、選択された該ラベルを示すラベル情報を記憶し、選択されたラベルの1つを含む文書の文書IDで、且つ、検索された文書の文書IDの中にも含まれる文書IDと題名を対応付けたクラスタ情報を生成し、ラベルを含む文書表示が指示された場合、該ラベルを含み、且つ、クラスタ情報に含まれる文書IDと題名を表示させる。
【選択図】図1

Description

本発明は、ラベル表示型文書検索方法及び装置及びプログラムに係り、特に、電子商取引サイトシステムにおいて、文書のラベルを表示させてから文書を表示させる電子商取引サイトにおけるラベル表示型文書検索方法及び装置及びプログラムに関する。
文書検索結果を一覧で表示すると、検索結果が大量であった場合、ユーザが求める文書に到達する迄に長い時間が必要となる。
文書検索結果を効率的に表示する方式としてラベル表示型検索システムがあげられる。コンピュータネットワークにおけるラベル表示型の検索システムは実現されている(例えば、特許文献1参照)。
特開2005−208838号公報
しかしながら、電子商取引サイトシステム上において、上記従来の技術を利用したラベル表示型の検索システムを活用した際には以下のような課題が存在する。
電子商取引サイトとは、販売者が販売商品をオークション形式で販売するオークションサイト、購入者が購入商品を逆オークション形式で購入する逆オークションサイト、販売者が販売商品をショップ形式で販売するショッピングサイト、複数の消費者が購入商品を購入するグループバイサイト等の総称である。
この電子商取引サイト上において購入や入札する商品を検索するには、商品名や作品名等の固有名詞以外のキーワードで検索することも多い。洋服や雑貨の場合、ブランド名ではなく色や一般名詞で指定することもある。例えば、「青っぽい机」が欲しい場合、ユーザはこの時「青」以外でも「水色」でも「紺」でも「瑠璃色」であってもいいと思うだろう。この商品を探すとき、従来技術では検索キーワードを「青and机」と入力して検索すると想定されるが、ユーザの希望の叶う商品であっても文書中で「ブルーの机」や「机(色や形は写真を参照)」という記載があるものは検索対象外となる。これを検索するためには、ユーザは自分の希望に沿うような色や形を思いつく限り入力しては検索するというルーチンを何度も繰り返すという煩雑な作業を繰り返すことになる。上記の特許文献1の技術を用いた場合、ラベル表示型で利便性はあるが、自分の望む「色」というラベルが表示されるかどうかは不確定である。
ラベルが不確定であるという課題を解決するには、ユーザが希望するラベルを具体的に指定することを可能にする、または検索キーワードと指定したラベルの組を履歴として保有することにより特定のキーワードを入力した際に有益なラベルを優先的に表示することを可能にする、という形で解決する改良技術も存在する。
しかし、各ラベルは独立であるため、ラベルが「色」「素材」「金額」とあった場合に、「青色で素材が木の机がほしい」と考えても、「色:青」と「素材:木」の複数ラベルをand条件で指定して検索することはできない。そのため、ユーザは片方のラベルのみを指定し、不要なデータが混じる商品群から目的の商品を探すという、不便な検索を強いられる。
また、電子商取引サイトにおける最終行動は、検索結果を入手することではなく、その検索結果で表示された商品を購入、または非購入の意志決定を行うことにある。購入か非購入かを決定する理由は、ユーザにより異なるが、商品の現在の価格や売買終了までの残り期間、残り個数、手数料や送料等の取引条件は多くのユーザに影響を与えている。これら、購入に値するかどうかを判定するための条件を購入条件とする。
前述の特許文献1及び上記の改良技術を用いた場合、ユーザが希望した商品群を比較的容易に入手できるが、各商品の購入条件は再度個別に調べる必要があり、「商品の検索」を行った後に「商品の購入条件検索」の2段階をユーザに強いることとなる。
本発明は、上記の点に鑑みなされたもので、ユーザが複数ラベル指定によるand条件検索を行うことが可能な電子商取引サイトにおけるラベル表示型文書検索方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、文書のラベルを表示させてから文書を表示させるラベル表示型文書検索方法であって、
文書生成手段が、入力された属性値の指示がない文書から、指示された属性値に基づいて属性値を含む文書を生成し、文書記憶手段に記憶させる文書生成ステップ(ステップ1)と、
属性値正規化手段が、文書記憶手段に記憶された文書に含まれた属性値を正規化する属性値正規化ステップ(ステップ2)と、
インデックス生成手段が、目的の情報を探すために手掛かりとなる文字や記号を文書記憶手段の文書に埋め込むインデックス生成ステップ(ステップ3)と、
統計情報処理手段が、文書記憶手段に記憶された文書に含まれた属性値についての統計情報を生成し、記憶する統計情報処理ステップ(ステップ4)と、
からなる検索前処理ステップを行い、
文書検索手段が、指定された検索キー及び属性名に基づいて、文書記憶手段から文書を検索する文書検索ステップ(ステップ5)と、
ラベル候補選択手段が、統計情報と検索された文書の文書IDに基づいて属性名毎に第1検索結果統計情報を生成し、該第1検索結果統計情報の各属性値に対応付けられた文書IDの数を出現回数として該属性値に対応付けた第2検索結果統計情報を生成するラベル候補選択ステップ(ステップ6)と、
ラベル決定手段が、第2検索結果統計情報に基づいて、検索された文書に含まれる属性値を該文書のラベルとするときの適合度を算出し、該適合度の高い方から、該属性値の数よりも少ない数の属性値をラベルとして選択し、指定されたラベルの値が最も高くなるように、ラベルの属性名に対応する属性名適合度を求め、ラベル情報の属性名を生成し、属性名適合度情報を生成するラベル決定ステップ(ステップ7)と、
クラスタ情報生成手段が、ラベル決定ステップで選択されたラベルの1つを含む文書の文書IDで、且つ、文書検索ステップで検索された文書の文書IDの中にも含まれる文書IDと題名を対応付けたクラスタ情報を生成するクラスタ情報生成ステップ(ステップ8)と、
ラベルを含む文書表示が指示された場合、該ラベルを含み、且つ、クラスタ情報に含まれる文書IDと題名を表示させ、指定された文書IDに対応する文書を文書記憶手段から読み出して表示させる文書表示制御ステップ(ステップ9)と、からなる検索ステップを行う。
また、本発明(請求項2)は、サブラベル候補選択手段が、特定のラベルを含み、且つ、検索された文書にも含まれる文書に対して新たに属性名(サブ属性名)が指定された場合に、ラベル情報を該サブ属性名で分類し、新たなラベル情報を記憶するサブラベル候補選択ステップと、
表示制御手段は、サブ属性名を含むクラスタ情報に含まれた新たなラベル情報を表示させ、指定されたラベル情報を含むクラスタ情報に含まれる文書IDと題名を表示するステップを更に行う。
また、本発明(請求項3)は、自動表示属性値情報生成手段が、ラベルに連動して表示するための自動表示属性名が指定されると、ラベル情報から文書IDを取得し、統計情報から該ラベル情報のラベルを含む文書IDを取得して自動表示属性値情報を生成する自動表示属性値検索ステップを行い、
表示制御手段が、自動表示属性値情報を文書ID、題名と共に表示させるステップを行う。
図2は、本発明の原理構成図である。
本発明(請求項4)は、文書のラベルを表示させてから文書を表示させるラベル表示型文書検索装置であって、
検索キーを入力するキーワード入力手段201と、
特定の属性名を指定する属性名指定手段202と、
入力された属性値の指示がない文書から指示された属性値に基づいて該属性値を含む文書を生成し、文書記憶手段123に記憶させる文書生成手段102と、
文書記憶手段123に記憶された文書に含まれた属性値を正規化する属性値正規化手段103と、
目的の情報を探すために手掛かりとなる文字や記号を文書記憶手段123の文書に埋め込むインデックス生成手段110と、
文書記憶手段123に記憶された文書に含まれた属性値についての統計情報を生成し、統計情報記憶手段125に記憶する統計情報処理手段104と、
指定された検索キー及び属性名に基づいて、文書記憶手段から文書を検索する文書検索手段101と、
統計情報と検索された文書の文書IDに基づいて属性名毎に第1検索結果統計情報を生成し、該第1検索結果統計情報の各属性値に対応付けられた文書IDの数を出現回数として該属性値に対応付けた第2検索結果統計情報を生成するラベル候補選択手段105と、
第2検索結果統計情報に基づいて、検索された文書に含まれる属性値を該文書のラベルとするときの適合度を算出し、該適合度の高い方から、該属性値の数よりも少ない数の属性値をラベルとして選択し、指定されたラベルの値が最も高くなるように、ラベルの属性名に対応する属性名適合度を求め、ラベル情報の属性名を生成し、属性名適合度情報を生成するラベル決定手段106と、
ラベル決定手段106で選択されたラベルの1つを含む文書の文書IDで、且つ、文書検索手段101で検索された文書の文書IDの中にも含まれる文書IDと題名を対応付けたクラスタ情報を生成するクラスタ情報生成手段107と、
ラベルを含む文書表示が指示された場合、該ラベルを含み、且つ、クラスタ情報に含まれる文書IDと題名を表示させ、指定された文書IDに対応する文書を文書記憶手段123から読み出して表示させる文書表示制御手段204と、を有する。
また、本発明(請求項5)は、特定のラベルを含み、且つ、検索された文書の中にも含まれる文書に対して新たに属性名であるサブ属性名を指定するサブ属性名指定手段を更に有し、
サブ属性名が指定された場合に、ラベル情報を該サブ属性名で分類し、新たなラベル情報を記憶するサブラベル候補選択手段を更に有し、
表示制御手段204は、サブ属性名を含むクラスタ情報に含まれた新たなラベル情報を表示させ、指定されたラベル情報を含むクラスタ情報に含まれる文書IDと題名を表示させる手段を含む。
また、本発明(請求項6)は、ラベルに連動して表示するための自動表示属性名が指定されると、ラベル情報から文書IDを取得し、統計情報から該ラベル情報のラベルを含む文書IDを取得して自動表示属性値情報を生成し、該ブラウザに送信する自動表示属性値検索手段を更に有し、
表示制御手段204は、自動表示属性値情報と共に文書ID、題名を表示させる手段を含む。
本発明(請求項7)は、コンピュータに、
請求項4乃至6記載のラベル表示型文書検索装置の各手段を実行させるラベル表示型文書検索プログラムである。
上記のように本発明によれば、以下のような効果を奏する。
ユーザが複数ラベル指定によるand条件検索を行うことを可能にすることにより、ユーザの望む形でのラベル表示が実現できるので、より迅速に目的の商品を検出することが可能となり、電子商取引サイトの利用数が増加する。
また、ラベルを提示する際に、価格等のユーザ各個によって商品購入決定に大きな影響を持つ属性を希望により選択し、且つ、自動表示を可能とすることにより、商品購入までの検索作業を軽減することにより、ユーザの利便性が向上する。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
図3は、本発明の第1の実施の形態におけるシステム構成を示す。
同図に示すシステムは、検索装置100とブラウザ200から構成される。なお、本実施の形態では、検索装置100とブラウザ200に分けて説明しているが、1つの装置として構成されるものとする。
検索装置100は、文書検索部101、文書生成部102、属性値正規化部103、統計情報処理部104、ラベル候補選択部105、ラベル決定部106、クラスタ情報生成部107、サブラベル候補選択部108、要求処理部109、インデックス生成部110、通信部111から構成される。
ブラウザ200は、キーワード入力部201、属性名指定部202、サブ属性名指定部203、文書表示制御部204から構成される。
最初に、検索装置100の構成について説明する。
文書検索部101は、文書を記憶した文書DB123から要求処理部109を介して入力されたキーワードに基づいて文書を検索する。
文書生成部102は、入力された属性値の指示がない文書121から、設定ファイル122に基づいて当該属性値を含む文書を生成し、文書DB123に記憶させる。
属性値正規化部103は、文書DB123に記憶された文書に含まれた属性値を正規化する。
統計情報処理部104は、文書DB123に記憶された文書に含まれた属性値についての統計情報を生成し、第1統計DB125,第2統計DB126に記憶する。第1統計DB125には、属性名毎に文書IDと当該文書IDに対応する文書に含まれる属性値が第1統計情報として格納され、第2統計DB126には、属性名毎に属性値と当該属性値が文書中に出現する回数を第2統計情報として格納される。
ラベル候補選択部105は、統計情報と検索された文書の文書IDに基づいて、属性名毎に第1検索結果統計情報131を生成し、当該第1検索結果統計情報131との各属性値に対応付けられた文書IDの数を出現回数として属性値に対応付けた第2検索結果統計情報132を生成して、それぞれメモリ等の記憶手段に記録する。
ラベル決定部106は、属性値及び属性値のラベル適合度127を算出し、ラベル適合度127に基づいてラベルを選択し、また、ラベル情報128に基づいて、属性名適合度情報を生成し、それぞれ、ラベル適合度情報127、ラベル情報128、属性名適合度情報129としてメモリ等の記憶手段(図示せず)に記憶する。
クラスタ情報生成部107は、ラベル決定部106で選択されたラベルの1つを含み、且つ、検索された文書の中にも含まれる文書を示すクラスタ情報130を生成する。
インデックス生成部110は、インデックス124を生成する。
通信部111は、ブラウザ200との入出力を行う。
要求処理部109は、ラベル情報128とクラスタ情報生成部107より受信した検索結果を通信部111へ伝送する。
インデックス生成部110は、目的の情報を探すために手掛かりとなる文字や記号を文書DB123の文書に埋め込む。
なお、図3では、各構成要素の接続関係は簡易記載に留めている。
以下に、各情報のアクセス関係について説明する。
文書(タグなし)121は、文書生成部102によりアクセスされる。
設定ファイル122は、通信部111及び通信部111を介して属性名指定部202、サブ属性名指定部によりアクセスされる(なお、これは一例でありこれに限定されない)。また、統計情報処理部104、ラベル候補選択部105からアクセスされる(なお、これは一例でありこれに限定されない)。また、ラベル決定部106からアクセスされる。
文書DB(タグ付き)123は、文書検索部101、属性値正規化部103、統計情報処理部104、インデックス生成部110、及び文書検索部101を介して要求処理部109、通信部111、文書表示制御部204によりアクセスされる。
インデックス124は、文書検索部101、インデックス生成部110によりアクセスされる。
第1統計DB125は、統計情報処理部104、ラベル候補選択部105、サブラベル候補選択部108、自動表示属性値検索部140からアクセスされる。
第2統計DB126は、統計情報処理部104、ラベル候補選択部105(なお、これは一例でありこれに限定されない)。
ラベル適合度情報127は、ラベル決定部106からアクセスされる。
ラベル情報128は、ラベル決定部106、クラスタ情報生成部107、要求処理部109、自動表示属性値検索部140から構成される。また、要求処理部109を経由して通信部111、文書表示制御部204によりアクセスされる。
属性名適合情報129は、ラベル決定部106、要求処理部109からアクセスされる。また、要求処理部109を経由して通信部111、文書表示制御部204によりアクセスされる。
クラスタ情報130は、クラスタ情報生成部107、要求処理部109からアクセスされる。また、要求処理部109を介して通信部111、文書表示制御部204によりアクセスされる。
第1検索結果統計情報131は、ラベル候補選択部105、自動表示属性値検索部140からアクセスされる。
第2の検索結果統計情報132は、ラベル候補選択部105、ラベル決定部106、要求処理部109からアクセスされる。また、要求処理部109を介して通信部111、文書表示制御部204によりアクセスされる。
自動表示属性値情報141は、自動表示属性値検索部140、要求処理部109からアクセスされる。また、要求処理部109を介して通信部111、文書表示制御部204によりアクセスされる。
次に、ブラウザ200の構成を説明する。
ブラウザ200のキーワード入力部201は、検索キーを入力する。
属性名指定部202は、指定された特定の属性名の指定を取得する。
サブ属性名指定部203は、特定のラベルを含み、且つ、文書検索部101により検索された文書の中にも含まれる文書に対して新たな属性名の指定を取得する。
文書表示制御部204は、記憶されたラベル情報128を読み出すと共に、当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、このラベルを含み、且つ、文書検索部101により検索された文書の中にも含まれる文書を文書DB123から読み出して、表示させる。
なお、上記の文書121、設定ファイル122、インデックス124、ラベル適合度情報127、ラベル情報128、属性名適合度情報129、クラスタ情報130、第1検索結果統計情報131、第2検索結果統計情報132は、ディスクやメモリ等の記憶手段に格納されるものとする。
次に、上記の構成における動作を説明する。
(1)検索前処理:
最初に、検索前処理について説明する。
図4は、本発明の第1の実施の形態における検索前処理のフローチャートである。
ステップ210) 文書生成部102は、図5に示すようなタグ無し文書121が入力され、ブラウザ200から「青い花柄の机」が題名であるという指定や、属性値「青」が属性名「色」に分類されるという指定があると、図6に示すように、タグ無し文書121にこれら指定の内容と、文書IDを付与することで文書を生成し、これを文書DB123に格納する。また、文書生成部102は、タグ無し文書121が入力され、さらに題名指定があると、その属性値に対し自動的にタグを付与することにより文書を生成し、更に文書IDを付与し、これを文書DB123に格納する。
なお、題名、属性値、属性名等の指定は、コンピュータにより自動的に指定され、タイトルを判別し、そこにタグを付与するものとする。ネットワーク上のオークションを対象とした場合は、タイトル(出品名、商品名)は、予め指定された場所(カラム、行、フォーマット)に記述されているものとする。
ステップ220) 属性値正規化部103は、文書DB123に格納された文書に含まれる属性値を正規化する。正規化とは、例えば略記号で表された属性値「NTT」を略さない日本語で表記された属性値「日本電信電話株式会社」に変換することをいう。つまり、属性正規化部103は、文書中で同じ意味を持ちながら表現の異なる同義語となっている属性値を検出し、これを同じ表現にする。同義語の検出にはいくつかの方法があるが、図7に示す共起パタンを用いる方法を採用することができる。このような処理により、文書DB123における文書の属性値が正規化される。
ステップ230) 次に、インデックス生成部110は、文書DB123に格納された文書に含まれるワードと当該ワードを含む文書の文書IDとを対応付けたインデックス124を作成し、メモリ等の記憶手段(図示せず)に記憶する。図8に示すように、インデックス124は、例えば、ワード「机」に対し、このワードを含む文書の文書ID「001」などが対応付けられる。
ステップ240) 次に、統計情報処理部104は、文書DB123に基づいて、設定ファイル122の属性名毎に第1統計情報を生成して第1統計情報DB125に格納する。図9に示すように、1つの第1統計情報には1つの属性名が割り当てられている。また、1つの第1統計情報は、文書IDと当該文書IDに対応する文書に含まれ、且つ、属性名に分類される属性値とを対応付けたものを1以上備える情報である。図9では、例えば、文書ID「001」の文書には、属性名「色」に分類される属性値「青」などが含まれていることを示している。
ステップ250) 第2の統計情報生成部105は、図10に示すように、属性名毎に第1統計情報DB125の属性値と、当該属性値が文書に出現する回数を対応付けて第2統計情報として第2統計情報DB126に格納する。
以上の処理により文書検索が可能となるが、文書DB123の文書が更新または削除されたときは、属性値の正規化や、インデクス124、第1統計DB125、第2統計情報DB126などの更新が行われる。
(2)文書検索処理:
次に、文書検索処理を説明する。
図11は、本発明の第1の実施の形態における文書検索処理のフローチャートである。
ステップ310) ブラウザ200のキーワード入力部201は、例えば、キーワード「机」がユーザにより入力されると、このキーワード「机」を検索装置100の通信部111に送信する。
また、ブラウザ200の属性名指定部202は、ユーザが属性名として「色」が指定されると、それを検索装置100の通信部111に送信する。
ステップ320) 通信部111は、ブラウザ200から送信されたキーワード「机」と属性名「色」を要求処理部109に与え、要求処理部109は、そのキーワードと属性名を文書検索部101に与える。文書検索部101は、そのキーワード「机」に対し、インデックスで対応付けられた文書IDを文書DB123から検索し、それらを要求処理部109に返却する。要求処理部109は、その文書IDと属性名をラベル候補選択部105に与える。
ステップ330) ラベル候補選択部105は、第1統計情報DB125と、検索された文書IDを基に、与えられた属性名毎に第1検索結果統計情報131を生成して一時的にメモリ(図示せず)に記憶する。また、第1検索結果統計情報131は、当該属性値のみとせず、設定ファイル122の属性名毎に生成してメモリ(図示せず)に一時的に記憶するようにしてもよい。図12に示すように、1つの第1検索結果統計情報131は、1つの第1統計情報に含まれる各属性値に対し、当該属性値を含む文書の文書IDであり、且つ、検索された文書IDにも含まれる文書IDを対応付けたものである。
ステップ340) 次に、ラベル候補選択部105は、第1検索結果統計情報131を基に、属性名毎に第2検索結果統計情報132を生成してメモリ(図示せず)に一時的に記憶する。図13に示すように1つの第2検索結果統計情報132には1つの属性名が割り当てられている。また、1つの第2検索結果統計情報132は、1つの第1検索結果統計情報131の各属性値に対し、当該属性値に対応付けられた文書IDの数を出現回数として対応付けたものである。
ステップ350) 次に、ラベル決定部106は、ブラウザ200から指定された方式により属性値及び当該属性値のラベル適合度を算出し、図14に示すようにラベル適合度情報127としてメモリ(図示せず)に一時的に記憶する。ラベル適合度は、第2検索結果統計情報132の各属性値に対し該属性値に対応付けられた文書IDの数とする。また、ラベル適合度は以下のように算出してもよい。
第2検索結果統計情報132における1つの属性値に対応する出現回数をhとし、第2統計情報126におけるその属性値に対応する出現回数をdとし、検索された文書IDの数を│H│とし、ラベル適合度を算出する。
ラベル適合度=h/d×h×log(│H│/h) (1)
なお、上記の式(1)のh/dは、検索された文書における属性値の網羅性を、│H│/hは検索された文書における属性値の希少性を示している。また、式(1)における第1項のhの代わりにh/│H│とし、第1項のdの代わりにd/│D│(│D│は、その属性値を含む文書数)としてもよい。
また、ラベル決定方式は、以下のようにしてもよい。
ラベル候補として算出されたラベルの数が設定ファイル122に規定されたラベル数より少ない場合は、ラベル適合度の高い方から規定数になるまで選択する。次に、ラベル適合度が次点のラベルを追加選択するか否かを判定する。具体的には、選択済みの最も低いラベル適合度をC(n)、その1つ上のラベル適合度をC(n−1)とし、以下の式(2)が成立するときは、次点のラベルを追加選択する。
(c(n)−C(n−1))×e>c(n+1)−c(n) (2)
但し、eは設定ファイル122などに書き込まれた閾値である。つまり、値の傾きを評価し、傾きがある閾値を超えたところを境界とする考え方を適用した判定が行われる。この方法により、ラベル適合度が近いにも関らずラベルの選択から漏れるのを防止できる。つまり、ラベル適合度に差がある場合に限って選択しないようにできる。
図15に示すように、ラベル情報128は、ラベルに対しラベル適合度を対応付けたものであるが、ラベル適合度情報127におけるラベル適合度の高い方からラベルを選択することにより、ラベル情報におけるラベル及びラベル適合度の組数は、ラベル適度度情報127における属性値及びラベル適合度の組数よりも少なくなっている。
ステップ360) ラベル決定部106は、設定ファイル122で指定された閾値以上のラベル適合度を持つ属性値及び当該属性値のラベル適合度の組をラベル情報128とし、一時的にメモリ(図示せず)に記憶する。ラベル情報128は属性値毎に生成され記憶される。また、ラベル情報128における属性値は文書のラベルとなるものであるからラベルということにする。
図16に、ラベル決定部106が行うラベル選択のフローチャートを示す。
ステップ361) ラベル決定部106は、ブラウザ200で指定されたラベルを選択し、指定されたラベルの数が設定ファイル122に規定されたラベル数より少ない場合は、ラベル適合度の高い方から規定数になるまで選択する。
ステップ362) 次に、ラベル適合度が次点のラベルを追加選択するか否かを判定し、追加選択する場合はステップ363に移行し、しない場合は当該処理を終了する。
ステップ363) ラベルを追加選択し、ステップ362に移行する。
ステップ370) 次に、ラベル決定部106は、ラベル情報を基に属性名適合度情報129を生成し、一時的にメモリに記憶する。図17に示すように、属性名適合度情報129は、その属性名が含む全ラベルの出現回数合計値とする。ブラウザ200の属性名指定部202により指定された属性名には最大の適合度を与える。また、属性名適合度は以下のように算出してもよい。
まず、ブラウザ200の属性名指定部202により指定された属性がある場合は、最高値を指定する。それ以外のラベル、例えば、「材質」は、ラベル情報におけるいずれかのラベルを含む文書の数dlを、「材質」の第1検索結果統計情報から求める。このとき、複数のラベルを含む1文書を1と計算する。そして、以下の式(3)により網羅性S1を求める。
S1=dl/dr (3)
ここで、drは、検索された文書IDの数である。このS1が大きいほど、検索結果がラベルにより網羅されている程度が大きいことになる。次に、以下の式(4)より、重なりの少なさ、分類の明確さS2を求める。
S2=dl/Σi dli (4)
ここで、drは、検索された文書IDの数であり、dliは「材質」のラベル情報におけるi番目のラベルliを含む文書数であり、「材質」の第2検索結果統計情報から得たものである。このS2が大きいほど、検索結果がラベルにより明確に分類されている程度が大きいことになる。
次に、以下の式(5)により、分類の均一さS3を求める。ここでは、後述するクラスタのエントロピーを算出することでS3を求める。
S3=Σi−dli/dr×log(dli/dr) (5)
ここで、drは、検索された文書IDの数であり、dliは「材質」のラベル情報におけるi番目のラベルliを含む文書数である。dliは第2検索結果統計情報から得ることができる。このS3が大きいほど、検索結果がラベルにより均一に分類されている程度が大きいことになる。
次に、以下の式(6)により、属性名適合度Sを求める。
S=αS1+βS2+γS3 (6)
ここで、α、β、γは設定ファイル122に書き込まれているパラメータである。
ステップ380) 次に、要求処理部109は、第2検索結果統計情報、ラベル情報128及び属性名適合度情報129をメモリ(図示せず)から読み出し、ラベル情報128をクラスタ情報生成部107に与える。クラスタ情報生成部107は、ラベル情報128に含まれたラベル毎にクラスタ情報130を生成し、一時的にメモリ(図示せず)に記憶する。
図18に示すように、クラスタ情報130は、ラベル情報128に含まれる各ラベルと、当該ラベルを含む文書の文書IDで、且つ、検索された文書ID群にも含まれる文書IDと、当該文書の題名とを対応付けたものである。
ステップ390) 次に、要求処理部109は、第2検索結果統計情報132、ラベル情報128、属性名適合度情報129及びクラスタ情報130をそれぞれ全て読み出して通信部111に与え、通信部111は、これらをブラウザ200に送信する。
(3)ブラウザの処理:
次に、ブラウザ200が行う処理について説明する。
図19は、本発明の第1の実施の形態におけるブラウザの処理のフローチャートである。
ステップ510) ブラウザ200の文書表示制御部204は、図20に示すように、全てのクラスタ情報130に含まれる文書IDと題名を表示させる。
ステップ520) 更にラベル情報に含まれたラベルを表示させる。このとき、表示されるラベル数は適合度により少なくされているので、ユーザがラベルの指示を容易に行うことができる。そして、ユーザにとって一層便利になるように、例えば、ラベルは属性名毎にまとめて表示させる。また、属性名適合度情報129における属性名適合度の高い属性名のラベルをより見やすいように表示させる。また、1つのラベル情報に含まれたラベルについては対応付けられたラベル適合度の高いものをより見やすいように表示させる。また、ラベルには、第2検索結果統計情報132において対応付けられた文書IDの数を対応付けて表示させる。
ステップ530) ユーザからラベルが指示される。
ステップ540) サブ属性名の指定がある場合には、ステップ550に移行し、指定がない場合にはステップ570に移行する。
ステップ550) サブ属性名指定部203は、図21に示すように1つの指定されたラベルに含まれる文書を分類する為の属性名が指定されると、指定されたラベル及びラベルの属性名と共に検索装置100の通信部111に送信する。指定されたラベルを主ラベル、新たに指定された属性名をサブ属性名とする。サブ属性名の選択は、属性名適合度情報129に記録された属性名から行う。または、設定ファイル122に記録された属性名から行ってもよい。
ステップ560) 文書表示制御部204は、検索装置100から結果が返却されると、表示済みの文書IDと題名を消去し、図22に示すように、そのラベルを含むクラスタ情報130に含まれた文書IDと題名を表示させる。そして、ユーザにより文書IDが指示されると、その文書IDを検索装置100の通信部111に送信する。なお、実際には、表示されている文書IDと題名の位置をユーザがクリックすると、文書IDが指示できるようになっている。
ステップ570) 文書表示制御部204は、ユーザにより1つのラベルが指示されると、表示済みの文書IDと題名を消去し、図23に示すように、そのラベルを含むクラスタ情報に含まれた文書IDと題名を表示させる。
ステップ580) そして、ユーザにより文書IDが指示される。
ステップ590) 指示されたその文書IDを検索装置100の通信部111に送信する。なお、実際には、表示されている文書IDと題名の位置をクリックすると、文書IDが指示できるようになっている。
図20、図22、図23の比較で分かるように、本実施の形態では、ラベル指示後おいては、指示前よりも、文書IDと題名の数が減っているので、ユーザは容易に指示することができる。
検索装置100の通信部111は、送信された文書IDを要求処理部109に与える。要求処理部109は与えられた文書IDを文書検索部101に与える。文書検索部101は与えられた文書IDの文書を読み出して要求処理部109に返却する。要求処理部109は返却された文書を通信部111に与え、通信部111はそれをブラウザ200に送信する。ブラウザ200の文書表示制御部204は、送信された文書を表示させる。
(4)サブ属性名が指定された際の検索装置の処理:
次に、ブラウザ200のサブ属性名指定部203よりサブ属性名が指定された際の検索装置100の動作を説明する。
図24は、本発明の第1の実施の形態におけるサブ属性名指定時の検索処理のフローチャートである。
ステップ610) 要求処理部109は、通信部111を介してブラウザ200のサブ属性名指定部203から指定されたサブ属性名と主ラベルをサブラベル候補選択部108に与える。
ステップ620) サブラベル候補選択部108は、主ラベルを含む属性名の第1検索結果統計情報131を取得する。取得した第1検索結果統計情報131を、図25に示すように文書IDの一覧をメモリ(図示せず)に一時記憶する。
ステップ630) また、第1統計情報DB125からサブ属性名の第1統計情報を取得する。
ステップ640) 第1統計情報の文書ID一覧中のIDと合致する文書IDについて、その属性値毎に第1検索結果統計情報131を生成し、メモリ(図示せず)に一時的に記憶する。なお、第1検索結果統計情報131の属性名は、図26に示すように、主ラベルを含む属性名(「色」)、主ラベル(「青」)、サブ属性名(「素材」)の複合で与えられる。
ステップ650以降の処理は、前述の図11のステップ340〜ステップ360、及びステップ380,390と同様の処理であり、付随するデータ図13〜図15、図18は、属性名「色:青:素材」の場合は、図27〜図30に示す通りである。
[第2の実施の形態]
図31は、本発明の第2の実施の形態におけるシステム構成を示す。
同図において、第1の実施の形態の図3と同一構成部分には同一符号を付し、その説明を省略する。
図31に示す検索装置100は、第1の実施の形態におけるサブラベル候補選択部108の代わりに、自動表示属性値情報141を作成する自動表示属性値検索部140を設けた点において異なる。また、ブラウザ200では、サブ属性名指定部203の代わりに自動表示属性名指定部205を設けた点で異なる。
本実施の形態における検索前処理は、前述の第1の実施の形態と同様であるので、その説明を省略する。
以下に、本実施の形態における動作を説明する。
(1) 文書検索処理:
図32は、本発明の第2の実施の形態における文書検索処理のフローチャートである。
以下に具体的な例を用いて説明する。
ステップ700) ブラウザ200のキーワード入力部201では、例えば、キーワード「机」がユーザにより入力されると、このキーワード「机」を検索装置100の通信部111に送信する。また、ブラウザ200の属性名指定部202は、ユーザが属性名として「色」を指定すると、それを検索装置100の通信部111に送信する。自動表示属性名指定部205は、ユーザがラベルに連動して自動表示する属性名として「価格」を指定すると、それを通信部111に送信する。
ステップ710) 要求処理部109は、ブラウザ200で指定されたキーワード、属性名、自動表示属性名を文書検索部101に与える。文書検索部101は、そのキーワード「机」に対し、インデックス124で対応付けられた文書IDを検索し、それらを要求処理部109に返却する。要求処理部109は、その文書IDと属性名、自動表示属性名をラベル候補選択部105に与える。
ステップ720〜ステップ760は、前述の第1の実施の形態の図11のステップ330〜ステップ370と同様の処理であるので、説明を省略する。
ステップ770) 自動表示属性値検索部140は、ラベル情報128及び第1検索結果統計情報131より、ラベル情報128に記載されている各ラベルを含む文書IDを読み出し、第1統計情報DB125より自動表示属性値情報141を生成し、一時的にメモリ(図示せず)に記憶する。自動表示属性値情報141は、図33に示すように、文書IDと指定された自動表示属性名の第1統計情報における文書IDに対応する属性値を対応付けたものである。自動表示属性値検索部140は、自動表示属性値情報を要求処理部109に与える。
ステップ780) 次に、要求処理部109は、第2検索結果統計情報132、ラベル情報128、属性名適合度情報129及び自動表示属性値情報141をそれぞれメモリ等の記憶手段から読み出し、クラスタ情報生成部107に与える。
クラスタ情報生成部107は、ラベル情報128に含まれたラベル毎にクラスタ情報130を生成し一時的に記憶する。図34に示すように、クラスタ情報130は、ラベル情報128に含まれる各ラベルと、当該ラベルを含む文書の文書IDで且つ、検索された文書IDにも含まれる文書IDと、当該文書の題名と当該文書の自動表示属性名の属性値とを対応付けたものである。自動表示属性名の属性値を自動表示属性値とする。
ステップ790) 次に、要求処理部109は、第2検索結果統計情報132、ラベル情報128、属性名適合度情報129及びクラスタ情報130をそれぞれメモリ等の記憶手段から読み出して通信部111に与え、通信部111は、それらをブラウザ200に送信する。
(2)ブラウザの処理:
以下に、上記の処理により検索装置100から情報を送信されたブラウザ200が行う処理について説明する。
図35は、本発明の第2の実施の形態におけるブラウザの処理のフローチャートである。
ステップ810) ブラウザ200の文書表示制御部204は、図36に示すように、全てのクラスタ情報に含まれる文書IDと題名と自動表示属性値を表示させる。
ステップ820) さらに、ラベル情報に含まれたラベルを表示させる。このとき、表示されるラベル数は適合度により少なくされているので、ユーザによるラベルの指示を容易に行うことができる。そして、ユーザにとって一層便利になるように、例えば、ラベルは属性名ごとにまとめて表示させる。また、属性名適合度情報における属性名適合度の高い属性名のラベルをより見やすいように表示させる。また、1つのラベル情報に含まれたラベルについては対応付けられたラベル適合度の高いものをより見やすいように表示させる。また、ラベルには、第2検索結果統計情報において対応付けられた文書IDの数を対応付けて表示させる。
ステップ830) ユーザにより1つのラベルが指示される。
ステップ840) 文書表示制御部204は、表示済みの文書IDと題名と自動表示属性値を消去し、図37に示すように、そのラベルを含むクラスタ情報130に含まれた文書IDと題名と自動表示属性値を表示させる。
ステップ850) そして、ユーザからの文書IDを受け付ける。
ステップ860) 文書表示制御部204は、指定された文書IDを検索装置100の通信部111に送信する。なお、実際には、文書IDの位置をクリックすると、文書IDが指示できるようになっている。
検索装置100の通信部111は、送信された文書IDを要求処理部109に与える。要求処理部109は、与えられた文書IDを文書検索部101に与える。文書検索部101は、与えられた文書IDの文書を読み出して要求処理部109に返却する。要求処理部109は、返却された文書を通信部111に与え、通信部111はそれをブラウザ200に送信する。ブラウザ200の文書表示制御部294は、送信された文書を表示させる。
[第3の実施の形態]
図38は、本発明の第3の実施の形態におけるシステム構成を示し、図3と同一構成部分には同一符号を付し、その説明を省略する。
同図に示すシステムは、前述の第1の実施の形態に加え、検索装置100に自動表示属性値情報を生成する自動表示属性値検索部140と、ブラウザ200にクラスタ情報130に含む属性名を指定する自動表示属性名指定部205を付加した構成である。
本実施の形態では、検索前処理及び検索処理については第2の実施の形態と同様である。
(1)ブラウザの処理:
以下では、検索処理結果を検索装置100から送信されたブラウザ200の動作について説明する。
図39は、本発明の第3の実施の形態におけるブラウザの処理のフローチャートである。
ステップ910) ブラウザ200の文書表示制御部204は、図40に示すように、全てのクラスタ情報に含まれる文書IDと題名と自動表示属性値を表示させる。
ステップ920) さらにラベル情報に含まれたラベルを表示させる。このとき、表示されるラベル数は適合度により少なくされているので、ユーザによるラベルの指示を容易に行うことができる。そして、ユーザにとって一層便利になるように、例えば、ラベルは属性名毎にまとめて表示させる。また、ラベルには、第2検索結果統計情報132において対応付けられた文書IDの数を対応付けて表示させる。
ステップ930) ユーザからラベルが指示される。
ステップ940) サブ属性名を指定する場合にはステップ950に移行し、指定しない場合にはステップ970に移行する。
ステップ950) サブ属性名指定部203は、図41に示すように、一つの指定されたラベルに含まれる文書を分類するための属性名を指定し、指定されたラベル及び該ラベルの属性名、自動表示属性名とともに検索装置100の通信部111に送信する。指定されたラベルを主ラベル、新たに指定された属性名をサブ属性名とする。サブ属性名の選択は、属性名適合度情報に記録された属性名から行う。または、設定ファイル122に記録された属性名から行ってもよい。
ステップ960) 文書表示制御部204は、サブ属性名のクラスタ情報を検索装置100から受信すると、ステップ920に移行する。
ステップ970) 文書表示制御部204は、検索装置100から結果が返却されると、表示済みの文書IDと題名と自動表示属性値を消去し、図42に示すように、そのラベルを含むクラスタ情報に含まれた文書IDと題名と自動表示属性値を表示させる。
ステップ980) ユーザにより文書IDが指示される。
ステップ990) 文書表示制御部204は、指示された文書IDを検索装置100の通信部111に送信する。なお、実際には、文書IDをクリックすると、文書IDが指示できるようになっている。
図41と図42の比較で分かるように、本実施の形態では、ラベル指示後においては指示前よりも文書IDと題名の数が減っているので、ユーザは容易に指示することができる。
文書表示制御部204は、ユーザにより1つのラベルが指示されると、表示済みの文書IDと題名と自動表示属性値を消去し、図43に示すように、そのラベルを含むクラスタ情報に含まれた文書IDと題名と自動表示属性値を表示させる。そして、ユーザにより文書IDが指示されると、その文書IDを検索装置100の通信部111に送信する。
なお、実際には、文書IDの位置をクリックすると、文書IDが指示できるようになっている。
検索装置100の通信部111は、送信された文書IDを要求処理部109に与える。要求処理部109は、与えられた文書IDを文書検索部101に与える。文書検索部101は、与えられた文書IDの文書を文書DB123から読み出して要求処理部109に返却する。要求処理部109は、返却された文書を通信部111に与え、通信部111はそれをブラウザ200に送信する。ブラウザ200の文書表示制御部204は、送信された文書を表示させる。
(2)サブ属性名指定時の検索処理:
図44は、本発明の第3の実施の形態におけるサブ属性名が指定された場合の検索装置のフローチャートである。
ステップ1110) 要求処理部109は、ブラウザ200から主ラベルとサブ属性名をサブラベル候補選択部108に、自動表示属性名を自動表示属性値検索部140に与える。
以降のステップ1120〜ステップ1170は、図24のステップ620 〜ステップ670と同様の処理である。また、ステップ1180〜ステップ1200の処理は、図32のステップ770〜ステップ790と同様の処理である。
上記の第1〜第3の実施の形態における検索装置100及びブラウザ200の処理をプログラムとして構築し、検索装置100、ブラウザ200からなる装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスク装置や、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、電子商取引サイトシステムに適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態におけるシステム構成図である。 本発明の第1の実施の形態における検索前処理のフローチャートである。 本発明の第1の実施の形態における入力されるタグなし文書の例である。 本発明の第1の実施の形態における文書生成部で生成されるタグ付文書の例である。 本発明の第1の実施の形態における共起パタンの例である。 本発明の第1の実施の形態における生成されたインデックスの例である。 本発明の第1の実施の形態における第1統計情報の例である。 本発明の第1の実施の形態における第2統計情報の例である。 本発明の第1の実施の形態における文書検索処理のフローチャートである。 本発明の第1の実施の形態における第1検索結果統計情報の例(その1)である。 本発明の第1の実施の形態における第2検索結果統計情報の例(その1)である。 本発明の第1の実施の形態におけるラベル適合度情報の例(その1)である。 本発明の第1の実施の形態におけるラベル情報の例(その1)である。 本発明の第1の実施の形態におけるラベル選択のフローチャートである。 本発明の第1の実施の形態における属性名適合度情報の例である。 本発明の第1の実施の形態におけるクラスタ情報の例(その1)である。 本発明の第1の実施の形態におけるブラウザの処理のフローチャートである。 本発明の第1の実施の形態におけるブラウザの表示例(その1)である。 本発明の第1の実施の形態におけるブラウザの表示例(その2)である。 本発明の第1の実施の形態におけるブラウザの表示例(その3)である。 本発明の第1の実施の形態におけるブラウザの表示例(その4)である。 本発明の第1の実施の形態におけるサブ属性名指定時の検索処理のフローチャートである。 本発明の第1の実施の形態におけるサブラベル候補選択部内に記憶される第1検索結果統計情報の例である。 本発明の第1の実施の形態における第1検索結果統計情報の例(その2)である。 本発明の第1の実施の形態における第2検索結果統計情報の例(その2)である。 本発明の第1の実施の形態におけるラベル適合度情報の例(その2)である。 本発明の第1の実施の形態におけるラベル情報の例(その2)である。 本発明の第1の実施の形態におけるクラスタ情報の例(その2)である。 本発明の第2の実施の形態におけるシステム構成図である。 本発明の第2の実施の形態における検索処理のフローチャートである。 本発明の第2の実施の形態における自動表示属性値情報の例である。 本発明の第2の実施の形態におけるクラスタ情報の例である。 本発明の第2の実施の形態におけるブラウザの処理のフローチャートである。 本発明の第2の実施の形態におけるブラウザの表示例(その1)である。 本発明の第2の実施の形態におけるブラウザの表示例(その2)である。 本発明の第3の実施の形態におけるシステム構成図である。 本発明の第3の実施の形態におけるブラウザの処理のフローチャートである。 本発明の第3の実施の形態におけるブラウザの表示例(その1)である。 本発明の第3の実施の形態におけるブラウザの表示例(その2)である。 本発明の第3の実施の形態におけるブラウザの表示例(その3)である。 本発明の第3の実施の形態におけるブラウザの表示例(その4)である。 本発明の第3の実施の形態におけるサブ属性名が指定された場合の検索装置のフローチャートである。
符号の説明
100 検索装置
101 文書検索手段、文書検索部
102 文書生成手段、文書生成部
103 属性値正規化手段、属性値正規化部
104 統計情報処理手段、統計情報処理部
105 ラベル候補選択手段、ラベル候補選択部
106 ラベル決定手段、ラベル決定部
107 クラスタ情報生成手段、クラスタ情報生成部
108 サブラベル候補選択部
109 要求処理部
110 インデックス生成手段、インデックス生成部
111 通信部
121 文書(タグなし)
122 設定ファイル
123 文書記憶手段
124 インデックス
125 統計情報記憶手段、第1統計DB
126 第2統計DB
127 ラベル適合度情報
128 ラベル情報
129 属性名適合度情報
130 クラスタ情報
131 第1検索結果統計情報
132 第2検索結果統計情報
140 自動表示属性値検索部
141 自動表示属性値情報
200 ブラウザ
201 キーワード入力手段、キーワード入力部
202 属性名入力手段、属性名入力部
203 サブ属性名指定部
204 文書表示制御手段、文書表示制御部
205 自動表示属性名指定部

Claims (7)

  1. 文書のラベルを表示させてから文書を表示させるラベル表示型文書検索方法であって、
    文書生成手段が、入力された属性値の指示がない文書から、指示された属性値に基づいて属性値を含む文書を生成し、文書記憶手段に記憶させる文書生成ステップと、
    属性値正規化手段が、前記文書記憶手段に記憶された前記文書に含まれた属性値を正規化する属性値正規化ステップと、
    インデックス生成手段が、目的の情報を探すために手掛かりとなる文字や記号を前記文書記憶手段の前記文書に埋め込むインデックス生成ステップと、
    前記統計情報処理手段が、前記文書記憶手段に記憶された前記文書に含まれた前記属性値についての統計情報を生成し、記憶する統計情報処理ステップと、
    からなる検索前処理ステップを行い、
    文書検索手段が、指定された検索キー及び属性名に基づいて、前記文書記憶手段から文書を検索する文書検索ステップと、
    ラベル候補選択手段が、前記統計情報と検索された文書の文書IDに基づいて属性名毎に第1検索結果統計情報を生成し、該第1検索結果統計情報の各属性値に対応付けられた文書IDの数を出現回数として該属性値に対応付けた第2検索結果統計情報を生成するラベル候補選択ステップと、
    ラベル決定手段が、前記第2検索結果統計情報に基づいて、検索された前記文書に含まれる属性値を該文書のラベルとするときの適合度を算出し、該適合度の高い方から、該属性値の数よりも少ない数の属性値をラベルとして選択し、指定されたラベルの値が最も高くなるように、ラベルの属性名に対応する属性名適合度を求め、ラベル情報の属性名を生成し、属性名適合度情報を生成するラベル決定ステップと、
    クラスタ情報生成手段が、前記ラベル決定ステップで選択された前記ラベルの1つを含む文書の文書IDで、且つ、前記文書検索ステップで検索された前記文書の文書IDの中にも含まれる文書IDと題名を対応付けたクラスタ情報を生成するクラスタ情報生成ステップと、
    ラベルを含む文書表示が指示された場合、該ラベルを含み、且つ、前記クラスタ情報に含まれる文書IDと題名を表示させ、指定された文書IDに対応する文書を前記文書記憶手段から読み出して表示させる文書表示制御ステップと、
    からなる検索ステップを行うことを特徴とするラベル表示型文書検索方法。
  2. サブラベル候補選択手段が、特定のラベルを含み、且つ、検索された前記文書にも含まれる文書に対して新たに属性名(サブ属性名)が指定された場合に、前記ラベル情報を該サブ属性名で分類し、新たなラベル情報を記憶するサブラベル候補選択ステップと、
    前記表示制御手段が、前記サブ属性名を含むクラスタ情報に含まれた前記新たなラベル情報を表示させ、指定されたラベル情報を含むクラスタ情報に含まれる文書IDと題名を表示するステップを更に行う、
    請求項1記載のラベル表示型文書検索方法。
  3. 自動表示属性値情報生成手段が、前記ラベルに連動して表示するための自動表示属性名が指定されると、前記ラベル情報から文書IDを取得し、前記統計情報から該ラベル情報のラベルを含む文書IDを取得して自動表示属性値情報を生成する自動表示属性値検索ステップを行い、
    前記表示制御手段が、前記自動表示属性値情報を前記文書ID、前記題名と共に表示させるステップを行う、
    請求項1または2記載のラベル表示型文書検索方法。
  4. 文書のラベルを表示させてから文書を表示させるラベル表示型文書検索装置であって、
    検索キーを入力するキーワード入力手段と、
    特定の属性名を指定する属性名指定手段と、
    入力された属性値の指示がない文書から指示された属性値に基づいて属性値を含む文書を生成し、文書記憶手段に記憶させる文書生成手段と、
    前記文書記憶手段に記憶された前記文書に含まれた属性値を正規化する属性値正規化手段と、
    目的の情報を探すために手掛かりとなる文字や記号を前記文書記憶手段の前記文書に埋め込むインデックス生成手段と、
    前記文書記憶手段に記憶された前記文書に含まれた前記属性値についての統計情報を生成し、統計情報記憶手段に記憶する統計情報処理手段と、
    指定された前記検索キー及び前記属性名に基づいて、前記文書記憶手段から文書を検索する文書検索手段と、
    前記統計情報と検索された文書の文書IDに基づいて属性名毎に第1検索結果統計情報を生成し、該第1検索結果統計情報の各属性値に対応付けられた文書IDの数を出現回数として該属性値に対応付けた第2検索結果統計情報を生成するラベル候補選択手段と、
    前記第2検索結果統計情報に基づいて、検索された前記文書に含まれる属性値を該文書のラベルとするときの適合度を算出し、該適合度の高い方から、該属性値の数よりも少ない数の属性値をラベルとして選択し、指定されたラベルの値が最も高くなるように、ラベルの属性名に対応する属性名適合度を求め、ラベル情報の属性名を生成し、属性名適合度情報を生成するラベル決定手段と、
    前記ラベル決定手段で選択された前記ラベルの1つを含む文書の文書IDで、且つ、前記文書検索手段で検索された前記文書の文書IDの中にも含まれる文書IDと題名を対応付けたクラスタ情報を生成するクラスタ情報生成手段と、
    ラベルを含む文書表示が指示された場合、該ラベルを含み、且つ、前記クラスタ情報に含まれる文書IDと題名を表示させ、指定された文書IDに対応する文書を前記文書記憶手段から読み出して表示させる文書表示制御手段と、
    を有することを特徴とするラベル表示型文書検索装置。
  5. 特定のラベルを含み、且つ、前記検索された文書の中にも含まれる文書に対して新たに属性名であるサブ属性名を指定するサブ属性名指定手段を更に有し、
    前記サブ属性名が指定された場合に、前記ラベル情報を該サブ属性名で分類し、新たなラベル情報を記憶するサブラベル候補選択手段を更に有し、
    前記表示制御手段は、前記サブ属性名を含むクラスタ情報に含まれた新たなラベル情報を表示させ、指定されたラベル情報を含むクラスタ情報に含まれる文書IDと題名を表示させる手段を含む、
    請求項4記載のラベル表示型文書検索装置。
  6. 前記ラベルに連動して表示するための自動表示属性名が指定されると、前記ラベル情報から文書IDを取得し、前記統計情報から該ラベル情報のラベルを含む文書IDを取得して自動表示属性値情報を生成し、該ブラウザに送信する自動表示属性値検索手段を更に有し、
    前記表示制御手段は、前記自動表示属性値情報を前記文書ID、前記題名と共に表示させる手段を含む、
    請求項4または5記載のラベル表示型文書検索装置。
  7. コンピュータに、
    請求項4乃至6記載のラベル表示型文書検索装置の各手段を実行させることを特徴とするラベル表示型文書検索プログラム。
JP2006139436A 2006-05-18 2006-05-18 ラベル表示型文書検索方法及び装置及びプログラム Pending JP2007310677A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006139436A JP2007310677A (ja) 2006-05-18 2006-05-18 ラベル表示型文書検索方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006139436A JP2007310677A (ja) 2006-05-18 2006-05-18 ラベル表示型文書検索方法及び装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2007310677A true JP2007310677A (ja) 2007-11-29

Family

ID=38843464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006139436A Pending JP2007310677A (ja) 2006-05-18 2006-05-18 ラベル表示型文書検索方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2007310677A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015527677A (ja) * 2012-09-10 2015-09-17 テンセント テクノロジー (シェンツェン) カンパニー リミテッド ソーシャルネットワークの検索結果提示方法及び装置、並びに記憶媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015527677A (ja) * 2012-09-10 2015-09-17 テンセント テクノロジー (シェンツェン) カンパニー リミテッド ソーシャルネットワークの検索結果提示方法及び装置、並びに記憶媒体

Similar Documents

Publication Publication Date Title
US9262784B2 (en) Method, medium, and system for comparison shopping
US8356248B1 (en) Generating context-based timelines
US8560398B1 (en) Method and system for providing item recommendations
US8117228B2 (en) Head-to-head comparisons
US7603367B1 (en) Method and system for displaying attributes of items organized in a searchable hierarchical structure
JP4647623B2 (ja) ユニバーサル・サーチエンジンのインターフェイス
JP5358442B2 (ja) 共同タギング環境内での用語の収束化
US20070255693A1 (en) User interface method and system for incrementally searching and selecting content items and for presenting advertising in response to search activities
US20060173753A1 (en) Method and system for online shopping
US20090254455A1 (en) System and method for virtual canvas generation, product catalog searching, and result presentation
US20110184972A1 (en) System and method for navigating a product catalog
JP5859606B2 (ja) オンライン商取引プラットフォームにおける広告ソースおよびキーワードセットの適合
US20070094245A1 (en) Computer-implemented system and method for obtaining customized information related to media content
US20110106594A1 (en) Expandable product feature and relation comparison system
US20180060427A1 (en) Navigating a Taxonomy Using Search Queries
CN110674620A (zh) 目标文案生成方法、装置、介质及电子设备
JP2012234340A (ja) 商品キーワード管理システム
US8447759B2 (en) Assets suggestion across applications
JP2010049372A (ja) コンテンツ検索装置
TW201331869A (zh) 資訊處理裝置、資訊處理方法、資訊處理程式產品、及記錄媒體
JP6037540B1 (ja) 検索システム、検索方法およびプログラム
TWI507902B (zh) A retrieval system, a retrieval condition setting device, a control method of a search condition setting device, a computer program product, and an information memory medium
US9959559B2 (en) Ranking and recommendation algorithms for search listings
US9002732B2 (en) Keeping popular advertisements active
KR20100044394A (ko) 상품 검색 방법 및 서버