JP2005208838A

JP2005208838A - ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2005208838A
Application number: JP2004013398A
Authority: JP
Inventors: Hiroyuki Toda; 浩之戸田; Ryoji Kataoka; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-01-21
Filing date: 2004-01-21
Publication date: 2005-08-04
Anticipated expiration: 2024-01-21
Also published as: JP4146361B2

Abstract

【課題】管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作を不要にできる文書検索装置を提供する。
【解決手段】検索された文書に含まれた属性値を文書のラベルとするときの適合度をラベル適合度算出部１１４が算出し、ラベル決定部１１５が適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶する。そして、要求処理部１０２が、ラベル情報を読み出すとともに当該ラベル情報をブラウザ２に送信することによりラベルを表示させ、ラベルがユーザにより指示された場合、このラベルを含み且つ検索された文書の中にも含まれる文書を文書検索部１０９が文書ＤＢ１０６から読み出し、これを要求処理部１０２がブラウザ２に送信して表示させる。
【選択図】図１

Description

本発明は、文書のラベルを表示させてから文書を表示させるラベル表示型文書検索装置に関するものである。

コンピュータネットワークにおける検索システムにおいて、検索結果を効率的に絞り込ませる検索システムとして以下のものが知られている。

・ランキング付き検索システム
google（登録商標）などに代表されるキーワード入力型の検索システムでは、入力されたキーワードを含むコンテンツを、入力したキーワードとの類似度（非特許文献１）やコンテンツの重要度を示すPageRank（非特許文献２に記載)順にコンテンツをランキングすることで、より効率的に所望のコンテンツに到達することが出来る。

・Relevance Feedbackシステム
ユーザに対して検索結果を提示し、その検索結果に対するユーザの評価を一度検索システムに返却し、その情報を元に検索条件式を変更することで、検索結果を返却するシステムである。これによって、ユーザは自身の意図するものに近い検索結果を得ることができる（非特許文献３に記載）。

・クラスタリングシステム
「適合文書同士は類似している」と言う仮定に基づき、文書間の類似度を元にクラスタを生成し、ユーザに対して検索結果を分類し提示する手法。ユーザは検索結果に含まれるコンテンツ全てを評価することなく、所望の情報に効率的に到達可能となる（非特許文献４に記載）。

・クエリー拡張システム
ユーザが入力したクエリーに関連するキーワードを提示し、ユーザがインタラクティブにクエリーを修正、変更し、効率的に所望のコンテンツを得る手法。テキストコーパスからあらかじめ関連語を取得しておく手法や、入力された検索要求から得られた検索結果を解析することで得たデータを利用するものがある（非特許文献５に記載）。
tf-idf；Salton, G. et al."Introduction to Modern Information Retrieval" McGraw-Hill Book Company, 1983 Brin, S. and Page, L., "The Anatomy of a Large-Scale Hypertextual Web Search Engine" Proceedings of 7th WWW Conference, 1998. Ricardo Baeza-Yates and Berthier Ribeiro-Neto, "Modern Information Retrieval", 1999 Anton Leuski, "Evaluating Document Clustering for Interactive Information Retrieval", Proceedings of the 2001 ACM CIKM International Conference on Information and Knowledge Management, 2001. H. Sakai, K. Ohtake and S. Masuyama, A retrieval support system by suggesting terms to a user, in Proceedings 2001 International Conference on Chinese Language Computing, 2001.

しかしながら、上記した各検索システムには、以下のような不都合がある。

ランキング付き検索システムでは、検索結果を優先度付きのリストによって提示するが、検索要求によって十分検索結果が絞られなかった場合、ユーザは膨大な検索結果のリストの中から所望のコンテンツを検索するか、新たな絞り込み用の検索条件を用意し、再検索を行わなければならない。前者は当然ながら大きなコストを要するし、後者についても一般に困難であることが知られている。

Relevance Feedbackシステムは、検索結果の上位数件〜数十件程度に対してユーザが適合、不適合の評価を行うことで検索要求を改善し、よりユーザの要求に近い検索結果を取得することが出来るので、手法的に直感的でよいが、実際には、ユーザが文書の適合不適合を判定するために多くの文書を判定しなければならない。この手法は一つの検索により多くのコストをかけて、確実にすべての適合文書を見つけるような再現率を重視するアプローチとしては有用であるが、テレビのチャンネルを選択するように一つでも気に入るものを見つけるというアプローチにおいてはユーザにかかるコストが大きすぎる。

クラスタリングシステムは、検索結果を分類する事により、ユーザが所望の検索結果に到達することを支援することができるが、一般にクラスタリングシステムは、クラスタリングの処理時間の制約により、クラスタリングの質とのトレードオフを考慮しなければならない。そこでK-Means法等のクラスタの数をあらかじめ決定するような手法が取られる。しかし、実際のトピックの分類数と決定した値が一致しない場合には、不明瞭なクラスタが生成され、それぞれのクラスタの内容を示すラベル付けが困難となり、生成されたラベルを一見してクラスタの内容を把握できない不明瞭なものとなることがある等の問題がある。

なお、カテゴライジングシステム、つまりあらかじめラベル付きのバスケットの中にラベルに適合する文書を投入することでラベルに関しては問題を解消したシステムがあるが、カテゴリの生成は人手で行なうことが前提となっており、カテゴリの定義、コンテンツの更新に伴うカテゴリのメンテナンスが情報検索システムの管理者にとって大きなコストとなるという問題がある。

クエリー拡張システムでは、クエリーと文書中で共起する語などを利用することで、ユーザが検索式を効率的に拡張することを可能とし、これにより容易に検索結果を絞り込むことが可能となるが、クエリー候補の属性を考慮しないと、クエリー候補とする語のレベルが不均一になり、検索結果全体から情報を選択することが難しくなる。

つまり、従来の検索システムでは、ユーザに対して膨大なリストからのコンテンツの探索を強いること、また、これを解決する手段においてもユーザやシステム管理者に多くのコストを強要したり、提供する情報自体が不十分な手法となるという問題がある。

本発明は、上記の課題に鑑みてなされたものであり、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作を不要にできる文書検索装置を提供することにある。

上記の課題を解決するために、請求項１の本発明は、文書を記憶した文書記憶手段から文書を検索する文書検索手段と、前記検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶するラベル選択手段と、前記記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、このラベルを含み且つ前記検索された文書の中にも含まれる文書を前記文書記憶手段から読み出して表示させる文書表示制御手段とを備えることを特徴とするラベル表示型文書検索装置をもって解決手段とする。

請求項１の本発明によれば、検索された文書に含まれた属性値の数よりも少ない数の属性値をラベルとして適合度の高い方から選択したので、ラベルを予め用意する必要がなく、しかもラベルの数を少なくでき、その結果、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作が不要となる。

請求項２の本発明は、属性名で属性値が分類され、前記ラベルの選択及び表示が属性名ごとに行われるように制御することを特徴とする請求項１記載のラベル表示型文書検索装置をもって解決手段とする。

請求項２の本発明によれば、ラベルの選択及び表示が属性名ごとに行われるように制御するので、ラベルの数を少なくして表示させることを属性名ごとに行うことができる。

請求項３の本発明は、前記選択されたラベルの１つを含み且つ前記検索された文書の中にも含まれる文書を示すクラスタ情報を生成するクラスタ情報生成手段と、前記クラスタ情報で示される文書と当該クラスタ情報で示されない文書との類似度を算出し、この類似度が高い場合、後者の文書が示されるようにクラスタ情報を変更するクラスタ情報変更手段とを備え、前記文書表示制御手段は、ラベルが指示された場合、前記変更されたクラスタ情報で示される文書の存在を表示させ、文書が指示された場合、この文書を前記文書記憶手段から読み出して表示させることを特徴とする請求項１または２記載のラベル表示型文書検索装置をもって解決手段とする。

請求項３の本発明によれば、類似度を算出し、類似度が高い場合、クラスタに含まれない文書が示されるようにクラスタ情報を変更することで、少なく表示させたラベルの指示により表示される文書数を多くすることができるので、所望の文書を表示させることのできる可能性が高まる。

請求項４の本発明は、ラベルとするときの適合度を算出する対象の属性値を含み且つ前記検索された文書にも含まれる文書の数と、当該属性値を含み且つ前記文書記憶手段にも記憶された文書の数とを用いてラベルの適合度を算出することを特徴とする請求項１乃至３のいずれかに記載のラベル表示型文書検索装置をもって解決手段とする。

請求項４記載の本発明では、検索された文書の数と記憶された文書の数によりラベルの適合度を算出するようにしている。

請求項５の本発明は、前記クラスタ情報で示される文書を示すクラスタベクトルと当該クラスタ情報で示されない文書を示す文書ベクトルとの余弦尺度を類似度とすることを特徴とする請求項３または４記載のラベル表示型文書検索装置をもって解決手段とする。

請求項５の本発明では、クラスタベクトルと文書ベクトルの余弦尺度を類似度とするようにしている。

請求項６の本発明は、前記文書記憶手段に記憶された文書に含まれた属性値についての統計情報を生成する統計情報生成手段と、生成された統計情報が記憶される統計情報記憶手段とを備え、前記ラベル選択手段は、当該記憶された統計情報を用いてラベルとするときの適合度を算出することを特徴とする請求項１乃至５のいずれかに記載のラベル表示型文書検索装置をもって解決手段とする。

請求項６の本発明によれば、統計情報を記憶しておくことにより、検索時に統計情報を生成する必要がなくなるので、検索時に迅速な処理が行える。

請求項７の本発明は、前記文書記憶手段に記憶された文書に含まれた属性値を正規化する属性値正規化手段を備えること特徴とする請求項１乃至６のいずれかに記載のラベル表示型文書検索装置をもって解決手段とする。

請求項７の本発明によれば、属性値を正規化することで正規化されたラベルを表示させることができる。

請求項８の本発明は、属性値の指示がない文書から当該指示のある文書を生成し前記文書記憶手段に記憶させる文書生成手段を備えること特徴とする請求項１乃至７のいずれかに記載のラベル表示型文書検索装置をもって解決手段とする。

請求項８の本発明によれば、属性値の指示がない文書から指示のある文書を生成するので属性値の指示が不要になる。

請求項９の本発明は、文書を記憶した文書記憶手段から文書を検索し、前記検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶させ、前記記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、このラベルを含み且つ前記検索された文書の中にも含まれる文書を前記文書記憶手段から読み出して表示させることを特徴とするラベル表示型文書検索方法をもって解決手段とする。

請求項９の本発明によれば、検索された文書に含まれた属性値の数よりも少ない数の属性値をラベルとして適合度の高い方から選択したので、ラベルを予め用意する必要がなく、しかもラベルの数を少なくでき、その結果、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作が不要となる。

請求項１０の本発明は、属性名で属性値が分類され、前記ラベルの選択及び表示が属性名ごとに行われるように制御することを特徴とする請求項９記載のラベル表示型文書検索方法をもって解決手段とする。

請求項１０の本発明によれば、ラベルの選択及び表示が属性名ごとに行われるように制御するので、ラベルの数を少なくして表示させることを属性名ごとに行うことができる。

請求項１１の本発明は、文書を記憶した文書記憶手段から文書を検索し、前記検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶させ、前記選択されたラベルの１つを含み且つ前記検索された文書の中にも含まれる文書を示すクラスタ情報を生成し、前記クラスタ情報で示される文書と当該クラスタ情報で示されない文書との類似度を算出し、この類似度が高い場合、後者の文書が示されるようにクラスタ情報を変更し、前記記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、前記変更されたクラスタ情報で示される文書の存在を表示させ、文書が指示された場合、この文書を前記文書記憶手段から読み出して表示させることを特徴とするラベル表示型文書検索方法をもって解決手段とする。

請求項１１の本発明によれば、類似度を算出し、類似度が高い場合、クラスタに含まれない文書が示されるようにクラスタ情報を変更することで、少なく表示させたラベルの指示により表示される文書数を多くすることができるので、所望の文書を表示させることのできる可能性が高まる。

請求項１２の本発明は、ラベルとするときの適合度を算出する対象の属性値を含み且つ前記検索された文書にも含まれる文書の数と、当該属性値を含み且つ前記文書記憶手段にも記憶された文書の数とを用いてラベルの適合度を算出することを特徴とする請求項９乃至１１のいずれかに記載のラベル表示型文書検索方法をもって解決手段とする。

請求項１２記載の本発明では、検索された文書の数と記憶された文書の数によりラベルの適合度を算出するようにしている。

請求項１３の本発明は、前記クラスタ情報で示される文書を示すクラスタベクトルと当該クラスタ情報で示されない文書を示す文書ベクトルとの余弦尺度を類似度とすることを特徴とする請求項１１または１２記載のラベル表示型文書検索方法をもって解決手段とする。

請求項１３の本発明では、クラスタベクトルと文書ベクトルの余弦尺度を類似度とするようにしている。

請求項１４の本発明は、前記文書記憶手段に記憶された文書に含まれた属性値についての統計情報を生成し、前記ラベル選択では、当該記憶された統計情報を用いてラベルとするときの適合度を算出することを特徴とする請求項９乃至１３のいずれかに記載のラベル表示型文書検索方法をもって解決手段とする。

請求項１４の本発明によれば、統計情報を記憶しておくことにより、検索時に統計情報を生成する必要がなくなるので、検索時に迅速な処理が行える。

請求項１５の本発明は、前記文書記憶手段に記憶された文書に含まれた属性値を正規化すること特徴とする請求項９乃至１４のいずれかに記載のラベル表示型文書検索方法をもって解決手段とする。

請求項１５の本発明によれば、属性値を正規化することで正規化されたラベルを表示させることができる。

請求項１６の本発明は、属性値の指示がない文書から当該指示のある文書を生成し前記文書記憶手段に記憶させること特徴とする請求項９乃至１５のいずれかに記載のラベル表示型文書検索方法をもって解決手段とする。

請求項１６の本発明によれば、属性値の指示がない文書から指示のある文書を生成するので属性値の指示が不要になる。

請求項１７の本発明は、請求項９乃至１６のいずれかに記載のラベル表示型文書検索方法をコンピュータに実行させるコンピュータプログラムをもって解決手段とする。

請求項１７の本発明によれば、ラベル表示型文書検索方法をコンピュータに実行させるコンピュータプログラムにより流通性が高まる。

請求項１８の本発明は、請求項９乃至１６のいずれかに記載のラベル表示型文書検索方法をコンピュータに実行させるコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体をもって解決手段とする。

請求項１８の本発明によれば、ラベル表示型文書検索方法をコンピュータに実行させるコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体により流通性が高まる。

本発明によれば、文書を記憶した文書記憶手段から文書を検索し、検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶させ、記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、このラベルを含み且つ検索された文書の中にも含まれる文書を文書記憶手段から読み出して表示させるので、ラベルを予め用意する必要がなく、しかもラベルの数を少なくでき、その結果、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作が不要となる。

また、文書を記憶した文書記憶手段から文書を検索し、検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶させ、選択されたラベルの１つを含み且つ検索された文書の中にも含まれる文書を示すクラスタ情報を生成し、クラスタ情報で示される文書と当該クラスタ情報で示されない文書との類似度を算出し、この類似度が高い場合、後者の文書が示されるようにクラスタ情報を変更し、記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、変更されたクラスタ情報で示される文書の存在を表示させ、文書が指示された場合、この文書を文書記憶手段から読み出して表示させるので、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作が不要となることに加えて、少なく表示させたラベルの指示により表示される文書数を多くすることができるので、所望の文書を表示させることのできる可能性が高まる。

以下、本発明の実施の形態を図面を参照して説明する。

[第１の実施の形態]
図１は、第１の実施の形態の装置構成を示すブロック図である。これより、文書をニュース記事としたときの例を示しながら説明を行う。

検索装置１は、文書を検索するサーバコンピュータであり、本発明のラベル表示型文書検索方法を実行するラベル表示型文書検索装置に相当する。検索装置１は、図示しないネットワークを介して接続されたクライアントコンピュータのブラウザ２に対し通信可能となっている。

ブラウザ２は、キーボードやマウス等の入力装置を介してキーワードが入力されるキーワード入力部２１と、このキーワードにより検索された文書を図示しないＣＲＴ（Cathode Ray Tube）やＬＣＤ(Liquid CrystalDisplay)等からなる表示装置に表示させる文書表示制御部２２とを備える。

ブラウザ２は、検索された文書を表示させる前に、文書に含まれる属性値をラベルとしてしかも当該属性値の属性名で分類して表示させる。そして、いずれかのラベルがクリックなどで指示されたときに、そのラベル（属性値）を含む文書の題名などを表示させ、いずれかの題名が指定されたときに、その題名の文書を表示させるようになっている。

検索装置１は、ブラウザ２からキーワードを受信し、検索された文書をブラウザ２に送信する通信部１０１と、通信部１０１から与えられるキーワードによる文書検索などを制御する要求処理部１０２とを備える。

また、検索装置１は、文書検索で使われる情報が書き込まれた設定ファイル１０３を備える。この設定ファイル１０３には、検索において用いられる属性名「ジャンル」、「組織」などが書き込まれている。また、この設定ファイル１０３には、選択されるラベルの数が書き込まれている。また、設定ファイル１０３には、表示させる属性名としての適合度（属性名適合度という）を求める際に使用されるパラメータα、β及びγが書き込まれている。また、設定ファイル１０３には、各種しきい値などが書き込まれる。

また、検索装置１は、タグ無し文書、すなわち、設定ファイル１０３に書き込まれた属性名のいずれかに分類される属性値を含んでいるがその属性値に属性名（タグ）が付与されていない文書を入力し、それに対して、ニュース記事管理者などが、いわゆる手動でタグを付すことにより文書を生成する文書生成部１０４と、タグ無し文書を入力し、その属性値に対し自動的にタグを付すことにより、タグ付き文書（単に文書ともいう）を生成する文書生成部１０５と、文書生成部１０４や文書生成部１０５で生成された文書が格納される文書データベース（以下、データベースをＤＢと略記する）１０６とを備える。

また、検索装置１は、文書ＤＢ１０６に格納された文書に含まれる属性値を正規化する正規化部１０７を備える。

また、検索装置１は、文書ＤＢ１０６に格納された文書に含まれるワード（属性値でもよい）とそのワードが含まれた文書を示す文書識別情報（以下、識別情報をＩＤという）とを対応づけたインデクス１０７を生成するインデクス生成部１０８と、キーワードとインデクス１０７を基に文書ＤＢ１０６から文書を検索する文書検索部１０９とを備える。

また、検索装置１は、設定ファイル１０３の属性名ごとに生成された第１統計情報が格納される第１統計情報ＤＢ１１０と、第１統計情報ごとに生成された第２統計情報が格納される第２統計情報ＤＢ１１１と、第１統計情報及び第２統計情報を生成する統計処理部１１２を備える。

また、検索装置１は、設定ファイル１０３の属性名ごとに複数の属性値をラベル候補として選択するラベル候補選択部１１３と、そのラベル候補を文書のラベルとするときの適合度（ラベル適合度という）を算出するラベル適合度算出部１１４と、算出されたラベル適合度を基にラベルを決定するラベル決定部１１５とを備える。

また、検索装置１は、決定されたラベルごとにクラスタ情報を生成するクラスタ情報生成部１１６を備える。なお、本実施の形態でクラスタとは、１つのラベルを含む１以上の検索された文書をいう。

[検索前処理]
次に、検索装置１が検索前に行う処理を説明する。

図２は、検索装置１が検索前に行う処理を示すフローチャートである。

文書生成部１０４は、例えば、図３に示すようなタグ無し文書が入力され、さらに例えば、「国際原子力機関が＊＊＊を決定」が題名であるという指定や、属性値「国際原子力機関」が属性名「組織」に分類されるという指定や、属性値「経済」が属性名「ジャンル」に分類されるという指定があると、図４に示すように、タグ無し文書に、これら指定の内容と、例えば「００１」という文書ＩＤなどを付与することで文書を生成し、これを文書ＤＢ１０６に格納する（Ｓ１０１）。

一方、文書生成部１０５は、タグ無し文書が入力され、さらに題名指定などがあると、その属性値に対し自動的にタグを付すことにより文書を生成し、さらに文書ＩＤを付与し、これを文書ＤＢ１０６に格納する（Ｓ１０１）。なお、自動的にタグを付す処理については詳しく後述する。

このような処理により、文書ＤＢ１０６には多数の文書が格納される。

次に、正規化部１０７は、文書ＤＢ１０６に格納された文書に含まれる属性値を正規化する（Ｓ１０３）。正規化とは、例えば、略記号で表記された属性値「IAEA」を略さない日本語で表記された属性値「国際原子力機関」に変換することをいう。

つまり、正規化部１０７は、文書中で同じ意味を持ちながら表現の異なる同義語となっている属性値を検出し、これらを同じ表現にする。

同義語の検出にはいくつかの方法があるが、図５に示す共起パタンを用いる方法を採用することができる。

このような処理により、文書ＤＢ１０６における文書の属性値が正規化される。

次に、インデクス生成部１０８は、文書ＤＢ１０６に格納された文書に含まれたワードと該ワードを含む文書の文書ＩＤとを対応づけたインデクス１０７を生成する（Ｓ１０５）。

図６に示すように、インデクス１０７では、例えば、ワード「原子力」に対し、このワードを含む文書の文書ＩＤ「００１」などが対応づけられる。

次に、統計処理部１１２は、文書ＤＢ１０６を基に、設定ファイル１０３の属性名ごとに第１統計情報を生成して第１統計情報ＤＢ１１０に格納する（Ｓ１０７）。

図７（ａ）や（ｂ）に示すように、１つの第１統計情報には１つの属性名が割り当てられている。

また、１つの第１統計情報は、文書ＩＤとこのＩＤの文書に含まれ且つ属性名に分類される属性値とを対応づけたものを１以上備える情報である。

図７（ａ）は、例えば、文書ＩＤ「００１」の文書には、属性名「ジャンル」に分類される属性値「経済」などが含まれていることを示している。また、図７（ｂ）は、文書ＩＤ「００１」の文書には、属性名「組織」に分類される属性名「国際原子力機関」などが含まれていることを示している。

次に、統計処理部１１２は、第１統計情報ごとに第２統計情報を生成して第２統計情報ＤＢ１１１に格納する（Ｓ１０９）。

図８（ａ）や（ｂ）に示すように、１つの第２統計情報には１つの第１統計情報の属性名が割り当てられている。

また、１つの第２統計情報は、属性名に分類される属性値と該属性値の第１統計情報ＤＢ１１０内における出現回数とを対応づけたものを１以上備える情報である。

図８（ａ）は、例えば、属性名「ジャンル」に分類される属性値「経済」の出現回数が１００回であることを示している。また、図８（ｂ）は、属性名「組織」に分類される属性値「国際原子力機関」の出現回数が７０回であることを示している。

なお、第２統計情報は、第１統計情報において属性値と文書ＩＤの対応を検出し、検出ごとに出現回数をカウントアップすることで生成してもよい。

また、第２統計情報を属性値自身やその属性値が出現する文書の文書ＩＤ自身で構成してもよい。また、第２統計情報を各属性値間の共起頻度で構成してもよい。このときの共起頻度は、同じ文書中に出現する属性値同士を共起すると定義できる。また、タグ無し文書から文書を自動生成する場合には、タグ無し文書中の同じセンテンスやパラグラフに含まれる属性値同士を共起すると定義できる。また、文書中の近接度によって共起関係を[０，１]のバイナリ値で表現するのでなく、共起度のようにより近くで共に出現する属性値間には大きい値を与えるようにしてもよい。

このようにして、Ｓ１０９までの処理が終わると文書検索が可能となるが、文書ＤＢ１０６の文書が更新、追加または削除されたときは、属性値の正規化や、インデクス１０７、第１統計ＤＢ１１０、第２統計ＤＢ１１１などの更新が行われる。

[検索処理]
次に、検索装置１が行う検索処理を説明する。

キーワード入力部２１は、例えばキーワード「原子力」がユーザにより入力されると、このキーワード「原子力」を検索装置１の通信部１０１に送信する。

図９は、キーワードを送信された検索装置１が行う処理のフローチャートである。

先ず、通信部１０１は、送信されたキーワード「原子力」を要求処理部１０２に与え、要求処理部１０２は、そのキーワードを文書検索部１０９に与える。文書検索部１０９は、そのキーワード「原子力」に対しインデクス１０７で対応づけられた文書ＩＤを検索し、それらを要求処理部１０２に返却する（Ｓ２０１：文書検索）。

要求処理部１０２は、その文書ＩＤをラベル候補選択部１１３に与える（Ｓ２０３）。

ラベル候補選択部１１３は、第１統計情報ＤＢ１１０と、検索された文書ＩＤを基に、設定ファイル１０３の属性名ごとに第１検索結果統計情報を生成して一時的に記憶する（Ｓ２０５）。

図１０に示すように、１つの第１検索結果統計情報には１つの属性名が割り当てられている。

また、１つの第１検索結果統計情報は、１つの第１統計情報に含まれる各属性値に対し該属性値を含む文書の文書ＩＤであり且つ検索された文書ＩＤにも含まれる文書ＩＤを対応づけたものである。

次に、ラベル候補選択部１１３は、第１検索結果統計情報を基に、属性名ごとに第２検索結果統計情報を生成して一時的に記憶する（Ｓ２０７）。

図１１に示すように、１つの第２検索結果統計情報には１つの属性名が割り当てられている。

また、１つの第２検索結果統計情報は、１つの第１検索結果統計情報の各属性値に対し該属性値に対応づけられた文書ＩＤの数を出現回数として対応づけたものである。

次に、ラベル候補選択部１１３は、第２統計情報と同じ属性名が割り当てられた第２検索結果統計情報とを基に、第２統計情報ごとに第３統計情報を生成する（Ｓ２０９）。

図１２に示すように、１つの第３統計情報は、１つの第２統計情報に含まれた１以上の行からなる統計情報であり且つ該行の属性値が第２検索結果統計情報の対応行にも含まれたものである。

つぎに、ラベル適合度算出部１１４は、第２検索結果統計情報と第３統計情報と検索された文書ＩＤを基に、ラベル適合度情報を第２検索結果統計情報ごと生成し一時的に記憶する（Ｓ２１１）。

図１３に示すように、１つのラベル適合度情報には１つの属性名が割り当てられている。

また、１つのラベル適合度情報は、１つの第２検索結果統計情報に含まれた各属性値に対しラベル適合度を対応づけたものである。

ラベル適合度は、例えば以下のように算出する。

第２検索結果統計情報における１つの属性値に対応する出願回数をｈとし、第３統計情報におけるその属性値に対応する出願回数をｄとし、検索された文書ＩＤの数を｜Ｈ｜とし、式（１）によりラベル適合度を算出する。

なお、式（１）のｈ／ｄは、検索された文書における属性値の網羅性を、｜Ｈ｜／ｈは検索された文書における属性値の希少性を示している。

また、式（１）における第１項のｈの代わりにｈ／｜Ｈ｜とし、第１項のｄの代わりにｄ／｜Ｄ｜（｜Ｄ｜は、その属性値を含む文書数）としてもよい。

次に、ラベル決定部１１５は、ラベル適合度情報から属性値及びラベル適合度の組を減らしたものをラベル情報とし一時的に記憶する（Ｓ２１３）。なお、ラベル情報はラベル適合度情報ごとに生成され記憶される。また、ラベル情報における属性値は文書のラベルとなるものであるからラベルということにする。

図１４に示すように、ラベル情報は、ラベルに対しラベル適合度を対応づけたものであるが、ラベル適合度情報におけるラベル適合度の高い方からラベルを選択することにより、ラベル情報におけるラベル及びラベル適合度の組数は、ラベル適合度情報における属性値及びラベル適合度の組数よりも少なくなっている。

図１５は、ラベル決定部１１５が行うラベル選択のフローチャートである。

ラベル決定部１１５は、設定ファイル１０３に書き込まれた数のラベルをラベル適合度の高い方から選択する（Ｓ３０１）。次に、ラベル適合度が次点のラベルを追加選択するか否かを判定する（Ｓ３０３）。

具体的には、選択済みの最も低いラベル適合度をＣ（ｎ）、その１つ上のラベル適合度をＣ（ｎ＋１）、次点のラベル適合度をＣ（ｎ−１）とし、式（２）が成立するときは、次点のラベルを追加選択して（Ｓ３０５）、Ｓ３０３へと戻る。

ただし、ｅは、設定ファイル１０３などに書き込まれたしきい値である。

つまり、値の傾きを評価し、傾きがあるしきい値を越えたところを境界とする考え方を適用した判定が行われる。

この方法により、ラベル適合度が近いにも関わらずラベルの選択から漏れるのを防止できる。つまり、ラベル適合度に差がある場合に限って選択しないようにできる。

なお、Ｓ３０１では、設定ファイル１０３などに書き込まれたラベル適合度のしきい値との比較によりラベルを選択してもよい。

次に、ラベル決定部１１５は、ラベル情報を基に属性名適合度情報を生成し一時的に記憶する（Ｓ２１５）。

図１６に示すように、属性名適合度情報は、属性名ごとに属性名適合度を示したものである。

例えば、属性名「ジャンル」の場合の属性名適合度は、以下のように算出する。

まず、「ジャンル」のラベル情報におけるいずれかのラベルを含む文書の数ｄｌを、「ジャンル」の第１検索結果統計情報から求める。このとき、複数のラベルを含む１文書を１と計算する。

そして、式（３）により網羅性Ｓ１を求める。

ここで、ｄｒは、検索された文書ＩＤの数である。

このＳ１が大きいほど、検索結果がラベルにより網羅されている程度が大きいことになる。

次に、式（４）により、重なりの少なさ、分類の明確さＳ２を求める。

ここで、ｄｒは、検索された文書ＩＤの数であり、ｄｌ_ｉは、「ジャンル」のラベル情報におけるｉ番目のラベルｌ_ｉを含む文書数であり、「ジャンル」の第２検索結果統計情報から得たものである。

このＳ２が大きいほど、検索結果がラベルにより明確に分類されている程度が大きいことになる。

次に、式（５）により、分類の均一さＳ３を求める。ここでは、後述するクラスタの平均エントロピーを算出することでＳ３を求める。

ここで、ｄｒは、検索された文書ＩＤの数であり、ｄｌ_ｉは、「ジャンル」のラベル情報におけるｉ番目のラベルｌ_ｉを含む文書数である。ｄｌ_ｉは第２検索結果統計情報から得ることができる。

このＳ３が大きいほど、検索結果がラベルにより均一に分類されている程度が大きいことになる。

次に、式（６）により、属性名適合度Ｓを求める。

ここで、α、β、γは設定ファイル１０３に書き込まれたパラメータである。

次に、要求処理部１０２は、第２検索結果統計情報、ラベル情報及び属性名適合度情報を読み出し、ラベル情報をクラスタ情報生成部１１６に与える。

クラスタ情報生成部１１６は、ラベル情報に含まれたラベルごとにクラスタ情報を生成し一時的に記憶する（Ｓ２１７）。

図１７に示すように、クラスタ情報は、ラベル情報に含まれる各ラベルと、該ラベルを含む文書の文書ＩＤで且つ検索された文書ＩＤにも含まれる文書ＩＤと、当該文書の題名とを対応づけたものである。

次に、要求処理部１０２は、第２検索結果統計情報、ラベル情報、属性名適合度情報及びクラスタ情報をそれぞれ全て読み出して通信部１０１に与え、通信部１０１は、これらをブラウザ２に送信する（Ｓ２１９）。

図１８は、こらら情報を送信されたブラウザ２が行う処理のフローチャートである。

ブラウザ２の文書表示制御部２２は、図１９に示すように、全てのクラスタ情報に含まれる文書ＩＤと題名を表示させ（Ｓ４０１）、さらにラベル情報に含まれたラベルを表示させる（Ｓ４０３）。このとき、表示されるラベル数は適合度により少なくされているのでユーザによるラベルの指示を容易に行うことができる。

そして、ユーザにとって一層便宜となるように、例えば、ラベルは属性名ごとにまとめて表示させる。また、属性名適合度情報における属性名適合度の高い属性名のラベルをより見やすいように表示させる。また、１つのラベル情報に含まれたラベルについては対応づけられたラベル適合度の高いものをより見やすいように表示させる。また、ラベルには、第２検索結果統計情報において対応づけられた文書ＩＤの数を対応づけて表示させる。

そして、文書表示制御部２２は、ユーザにより１つのラベルが指示される（Ｓ４０５）と、表示済みの文書ＩＤと題名を消去し、図２０に示すように、そのラベルを含むクラスタ情報に含まれた文書ＩＤと題名を表示させる（Ｓ４０７）。

そして、文書表示制御部２２は、ユーザにより文書ＩＤが指示される（Ｓ４０９）と、その文書ＩＤを検索装置１の通信部１０１に送信する（Ｓ４１１）。なお、実際には、文書ＩＤと題名の位置をクリックすると文書ＩＤが指示できるようになっている。

図２０に示すように、本実施の形態では、ラベル指示後においては指示前よりも、文書ＩＤと題名の数が減っているので、ユーザは容易に指示することができる。

検索装置１の通信部１０１は、送信された文書ＩＤを要求処理部１０２に与える。要求処理部１０２は、与えられた文書ＩＤを文書検索部１０９に与える。文書検索部１０９は、与えられた文書ＩＤの文書を読み出して要求処理部１０２に返却する。

要求処理部１０２は、返却された文書を通信部１０１に与え、通信部１０１はそれをブラウザ２に送信する。

ブラウザ２の文書表示制御部２２は、送信された文書を表示させる。

以上説明したように、第１の実施の形態の検索装置１によれば、文書を記憶した文書記憶手段たる文書ＤＢ１０６から文書検索手段たる文書検索部１０９が文書を検索し、検索された文書に含まれた属性値を文書のラベルとするときの適合度をラベル選択手段を構成するラベル適合度算出部１１４が算出し、ラベル選択手段を構成するラベル決定部１１５が適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶し、文書表示制御手段を構成する要求処理部１０２が、ラベル情報を読み出すとともに当該ラベル情報をブラウザ２に送信することによりラベルを表示させ、ラベルがユーザにより指示された場合、このラベルを含み且つ検索された文書の中にも含まれる文書を文書表示制御手段を構成する文書検索部１０９が文書ＤＢ１０６から読み出し、これを文書表示制御手段を構成する要求処理部１０２がブラウザ２に送信して表示させるので、ラベルを予め用意する必要がなく、しかもラベルの数を少なくでき、その結果、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作が不要となる。

また、ラベルの選択及び表示が属性名ごとに行われるように制御するので、ラベルの数を少なくして表示させることを属性名ごとに行うことができる。

また、統計情報を記憶しておくことにより、検索時に統計情報を生成する必要がなくなるので、検索時に迅速な処理が行える。

また、正規化部１０７が属性値を正規化するので、正規化されたラベルを表示させることができる。

[第２の実施の形態]
次に、本発明を適用した第２の実施の形態を説明する。ここでは、第１の実施の形態の構成要素や処理と同一のものには同一符号や同一ステップ番号を付すことにする。

図２１は、第２の実施の形態の装置構成を示すブロック図である。

検索装置１０は、検索装置１の構成要素に加えて、文書ＤＢ１０６に格納された１つの文書に含まれる属性値の数（以下、ベクトル要素という）を属性値ごとに含む文書ベクトルを生成する文書ベクトル生成部１１７と、生成された文書ベクトルが格納される文書ベクトルＤＢ１１８を備える。なお、ベクトル要素は、属性値の有無に応じた２値情報でもよい。

また、検索装置１０は、１つのクラスタ情報に含まれる属性値ごとのベクトル要素からなるクラスタベクトルを生成するクラスタベクトル生成部１１９と、クラスタとクラスタに含まれない文書の内容についての類似度を算出する類似度算出部１２０と、算出された類似度により、クラスタ情報の文書ＩＤを増加させるクラスタ拡張部１２１を備える。

[検索前処理]
図２２は、検索装置１０が検索前に行う処理を示すフローチャートである。

Ｓ１０９の処理が終了すると、文書ベクトル生成部１１７は、文書ベクトルを文書ＤＢ１０６に格納された文書ごとに生成し、これを文書ベクトルＤＢ１１８に格納する（Ｓ１１１）。

図２３に示すように、１つの文書ベクトルは、１つの文書に含まれる属性値の数（ベクトル要素という）を属性値ごとに含むものである。

[検索処理]
図２４は、キーワードを送信された検索装置１０が行う処理のフローチャートである。

Ｓ２１７の処理が終了すると、要求処理部１０２の要求により、クラスタベクトル生成部１１９がクラスタ情報ごとにクラスタベクトルを生成する（Ｓ２１８１）。

図２５に示すように、１つのクラスタベクトルは、１つのクラスタに含まれる属性値ごとのベクトル要素からなるものである。

クラスタベクトルは、式（７）により求めることができる。

つまり、クラスタに含まれる文書のベクトル和を求めることによりクラスタベクトルが生成される。

そして、以下のＳ２１８３及び２１８５を、クラスタとクラスタに含まれない文書の組み合わせの全てについて行う。

まず、類似度算出部１２０が、クラスタとクラスタに含まれない文書の内容についての類似度を算出する（Ｓ２１８３）。類似度は、例えば、Ｓ２１８１で求めたクラスタベクトルとクラスタに含まれない文書の文書ベクトルとの余弦尺度とすることができる。

そして、クラスタ拡張部１２１が、算出された類似度によりクラスタ情報に文書ＩＤ及び題名を加える（Ｓ２１８５）。例えば、Ｓ２１８３で算出された類似度が、設定ファイル１０３に書き込まれたしきい値を越えていれば、該当の文書ＩＤと題名をクラスタ情報に加えるようにする。

なお、これ以降は、第１の実施の形態におけるＳ２１９以降の処理が行われる。

以上説明したように、第２の実施の形態の検索装置１０によれば、クラスタ情報生成手段たるクラスタ情報生成部１１６が、ラベルを含み且つ検索された文書の中にも含まれる文書を示すクラスタ情報を生成し、クラスタ情報変更手段を構成する類似度算出部１２０が、クラスタ情報で示される文書と当該クラスタ情報で示されない文書との類似度を算出し、この類似度が高い場合、クラスタ情報変更手段を構成するクラスタ拡張部１２１が、後者の文書が示されるようにクラスタ情報を変更するので、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作が不要となることに加えて、少なく表示させたラベルの指示により表示される文書数を多くすることができるので、所望の文書を表示させることのできる可能性が高まる。

次に、文書生成部１０５を説明する。ここでは、ニュース記事に限らない一般的な文書を例にして説明する。

図２６は、文書生成部１０５に適用される固有表現抽出規則生成システムおよびそれを設けた固有表現抽出装置の構成例を示すブロック図であり、図２７は、図２６における固有表現抽出規則生成システムおよび固有表現抽出装置のハードウェア構成例を示すブロック図である。文書生成部１０５は、図２６におけるタグ無し文書に相当する新規文書Ａ１１を除いたブロックで構成され、固有表現のリストＡ１３に含まれる固有表現を属性値としてタグ付き文書を生成する。これにより、タグ無し文書に属性値の指示をする必要がなくなる。

図２７において、１０２１はＣＲＴやＬＣＤ等からなる表示装置、１０２２はキーボードやマウス等からなる入力装置、１０２３はＨＤＤ（Hard Disk Drive）等からなる外部記憶装置、１０２４はＣＰＵ（Central Processing Unit）１０２４ａや主メモリ１０２４ｂ等を具備して蓄積プログラム方式によるコンピュータ処理を行なう情報処理装置、１０２５はプログラムやデータを記録したＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）もしくはＤＶＤ（Digital Video Disc/Digital Versatile Disc）等からなる光ディスク、１０２６は光ディスク１０２５に記録されたプログラムおよびデータを読み出すための駆動装置、１０２７はＬＡＮ（Local Area Network）カードやモデム等からなる通信装置である。

光ディスク１０２５に格納されたプログラムおよびデータを情報処理装置１０２４により駆動装置１０２６を介して外部記憶装置１０２３内にインストールした後、外部記憶装置１０２３から主メモリ１０２４ｂに読み込みＣＰＵ１０２４ａで処理することにより、情報処理装置１０２４内に図２６に示す固有表現抽出規則生成システムおよびそれを具備した固有表現抽出装置が構成される。

図２６の固有表現抽出装置においては、訓練用文書Ａ１と、正解リストＡ２、固有表現抽出規則群Ａ５、改良後固有表現抽出規則群Ａ５ａ、訓練用記録Ａ７、タグ無し文書に相当する新規文書Ａ１１、および、抽出された固有表現のリストＡ１３のそれぞれは、図２７における外部記憶装置１０２３もしくは主メモリ１０２４ｂ等に格納され、また、形態素解析・品詞文字種付与部Ａ３と、規制生成部Ａ４、訓練用規則適用部Ａ６、規則評価部Ａ８、規則削除部Ａ９、規則精錬部Ａ１０、実施用規則適用部Ａ１２のそれぞれは、図２７におけるＣＤ−ＲＯＭ１０２５に格納されたプログラムに基づき情報処理装置１０２４内に構成される。

そして、形態素解析・品詞文字種付与部Ａ３と、規制生成部Ａ４、訓練用規則適用部Ａ６、規則評価部Ａ８、規則削除部Ａ９、規則精錬部Ａ１０のそれぞれが固有表現抽出規則生成システムを構成している。

形態素解析・品詞文字種付与部Ａ３は、訓練用文書Ａ１を単語分割して、各単語にその品詞名や構成文字種の情報を付加する。

規則生成部Ａ４は、形態素解析・品詞文字種付与部Ａ３の処理で得られる単語列を正解リストＡ２で与えられる抽出すべき固有表現のデータと突き合わせて、各固有表現を構成する単語列を取り出し、これを一般化して規則を生成する。

その結果が固有表現抽出規則群Ａ５として図２７における外部記憶装置１０２３に記録される。

訓練用規則適用部Ａ６は、規則生成部Ａ４の生成結果で得られる固有表現抽出規則群Ａ５を訓練用文書Ａ１に適用する。その結果は訓練用記録Ａ７として図２７における外部記憶装置１０２３に記録される。

規則評価部Ａ８は、訓練用記録Ａ７に基づいて各規則を評価する。規則削除部Ａ９は、規則評価部Ａ８の評価結果に基づいて、成績の悪い規則を削除する。

規則精錬部Ａ１０は、成績が良くなるように規則を精錬する。

実施用規則適用部Ａ１２は、このようにして改良された固有表現抽出規則群Ａ５（改良後固有表現抽出規則群Ａ５ａ）を、実際の新規文書Ａ１１に適用して固有表現リストＡ１３を得る。

訓練用規則適用部Ａ６と実施用規則適用部Ａ１２はいずれも、規則群を文書に適用して固有表現を抽出するものであり、その処理内容はほぼ同じであるため、単一の装置で両者を兼ねることも可能である。ただし、実施用規則適用部Ａ１２は、訓練用記録Ａ７を残す必要がないが、最終的な候補の選択を行なう必要がある点が異なる。

まず、実施用規則適用部Ａ１２の動作、すなわち、本例の固有表現抽出規則生成システムで生成・改良された固有表現抽出規則群Ａ５、改良後固有表現抽出規則群Ａ５ａを用いた固有表現抽出装置としての動作を説明する。

実施用規則適用部Ａ１２は、固有表現を抽出したい新規文書Ａ１１に対して、改良後固有表現抽出規則群Ａ５ａを適用して、文書中に含まれる固有表現を抽出して固有表現リストＡ１３を出力する。

例えば、「田中太郎賞選考委員会では、・・・」という新規文書Ａ１１があるとすると、この文書中の固有表現として、「田中」、「太郎」、「田中太郎」という人名の候補と、「田中太郎賞」という人工物名の候補、さらに、「田中太郎賞選考委員会」という組織名の候補が考えられるが、一般には、その内で一番長い「田中太郎賞選考委員会」だけが固有表現として抽出され出力されることが望まれる場合が多く、この場合、これと重なっている「田中」や「太郎」などの他の候補（固有表現）は出力されるべきでない。

このような侯補間の関係は、重なりに起因する競合関係と、各候補の優先順位による抑制関係に還元することができる。つまり、「田中太郎賞選考委員会」は「田中」などの他の候補と重なっているがために競合し、長い「田中太郎賞選考委員会」の優先順位が高く、短い他の候補を抑制していると考えることができる。

本例においては、実施用規則適用部Ａ１２は、この考え方に基づき、まず、全ての規則を文書に適用することで、全ての固有表現の候補の集合(「田中」や「太郎」、「田中太郎」、「田中太郎賞」、「田中太郎賞選考委員会」などを含む)を求める。次に、これらの候補の中で同じ固有表現（上の各候補においては「田中」）が最初に現れるものの内で一番長いもの(上の各候補においては「田中太郎賞選考委員会」)を出力する。

このようにして一つの候補が出力されると、この候補と競合している他の全ての候補（「田中」、「田中太郎」、「田中太郎賞」）を候補の集合から削除する。候補の集合が空になるまで、この作業を繰り返すことにより、固有表現のリストＡ１３が得られる。

ただし、このように長さだけに着目して、各々競合する各候補からの選択の判断を行うだけでは、同じ長さの複数の候補がある場合に判断に困る。

例えば「ホワイトハウス」は、地名と考えられる場合と組織名と考えられる場合があるので、同じ「ホワイトハウス」という文字列を地名とする候補と、組織名とする候補とが考えられる。

そこで、この２つの候補の間に、抽出するための優先順位を設ける。

例えば、その前後の単語を考慮して、「ホワイトハウスの近くの公園で・・・」であれば地名の可能性が高く、「ホワイトハウスによれば・・・」であれば、組織名の可能性が高い。また、例えば、その出現頻度を考慮して、訓練用文書Ａ１に「ホワイトハウス」が地名として出現しているのが１回で、組織名として出現しているのが２０回とすれば、組織名と判断した方が正解する可能性が高い。

本例では、改良後固有表現抽出規則群Ａ５ａにおける各規則には、これらの条件を加味した優先度が付与されている。

実施用規則適用部Ａ１２は、このような優先度と、前述の固有表現の長さとを組み合わせて、各候補の優先順位を計算する。この優先順位の設定としてはさまざまな変種が考えられるが、上記のように、開始位置が一番早いものの中で、さらに終了位置が一番遅いものの内、優先度が一番高いものを選ぶのが明快である。つまり、候補の優先関係については、以下のような定義を基本とする。

■候補Ａの開始位置が候補Ｂの開始位置より早い(数字として小さい)ならば、候補Ａの方が優先される。

■候補Ａの開始位置と候補Ｂの開始位置が同じであれば、終了位置が遅い(数字として大きい)候補が優先される。

■両候補の開始位置と終了位置が全く同じであれば、予め規則で与えられた優先度ｕの大きい候補が優先される。

本例の固有表現抽出規則生成システムでは、このような実施用規則適用部Ａ１２による処理を容易とする固有表現抽出規則群Ａ５および改良後固有表現抽出規則群Ａ５ａを生成する。以下、このような優先関係を加味した規則の生成処理に係わる固有表現抽出規則生成システムを構成する各部の動作について説明する。

まず、形態素解析・品詞文字種付与部Ａ３において、文書を単語列に分割する。典型的には形態素解析機能を有し、訓練用文書Ａ１や新規文書Ａ１１などの与えられた文書を単語分割して、各単語に品詞名とその単語を構成する文字の種類（構成文字種情報）を付与したデータ構造を作り、そのリストを作成する。

例えば、「東京製鉄の中野社長は・・・」という文があると、形態素解析により「東京」は固有名詞、「製鉄」は普通名詞、「の」は助詞、「中野」は固有名詞、「社長」は普通名詞、「は」は助詞、という結果が得られる。

また、「東京」は複数の漢字で構成されており、「の」はひらがなである。従って、形態素解析・品詞文字種付与部Ａ３は、この文に対して、例えば以下のようなデータ構造からなるリストを出力する。［(東京，複数漢字，固有名詞)、(製鉄，複数漢字，普通名詞)、(の，ひらがな，助詞)、・・・］
一方、正解リストＡ２は、訓練用文書Ａ１の中のどの位置にどのような種類の固有表現が含まれているかを列挙したものであり、「東京製鉄の中野社長は・・・」という訓練用文書Ａ１に対応して予め用意される正解リストＡ２は、例えば、次のようなデータからなる。

このリストにおいて、最初の行は、この文書の「０文字目から３文字目の位置」が「東京製鉄」という「組織名」をその種類とする固有表現であり、次の行は「５文字目から６文字目の位置」が「中野」という「人名」をその種類とする固有表現であることを示している。このように、本例の正解リストＡ２においては、各固有表現の開始位置と終了位置を示す数字の対で、当該固有表現の位置を略称する。

規則生成部Ａ４は、このような正解リストＡ２と、形態素解析・品詞文字種付与部Ａ３の出力する単語列とを突き合わせて、固有表現を変数化等して、例えば、次のような固有表現の抽出規則を生成する。anytag(３) <-- <＠(組織名，２１)，word(_，複数漢字，固有名詞)，word(製鉄，複数漢字，普通名詞)，>＠(組織名)．この規則（ルール）は、番号「２１」が付与された規則であり、任意の（変数化された）漢字の固有名詞があり（「word(_，複数漢字，固有名詞)」）、その次の単語が「製鉄」という複数漢字の普通名詞であれば（「word(製鉄，複数漢字，普通名詞)」）、その２単語が、「組織名」の固有表現の候補として考えられるという意味の規則である。

このような規則（ルール）の生成は、より一般的には以下のように表せる。まず、固有表現は、Ｎ＋１単語［(ｗ0，ｃ0，ｐ0)，・・・，(ｗi，ｃi，ｐi)，・・・，(ｗN，ｃN，ｐN)］でできているとする。ここでｗiは単語（「製鉄」、「中野」など）、ｃiは構成文字種（「複数漢字」や「数字」など）、ｐiは品詞名（「固有名詞」、「普通名詞」など）である。

実際には、前後の幾つかの単語も、固有表現かどうかを判断するのに重要な手がかりとなるので、含めて考えるのが一般的であるが、ここでは単純化して、固有表現に含まれる単語だけを考える。

次に、このような単語列から、最小汎化などの既存の一般化技術を用いることによって、規則（ルール）を生成する。しかし、本例では、次のようにして簡単に生成する。

すなわち、訓練用文書Ａ１に含まれる固有表現を構成する具体的な単語列［(ｗ0，ｃ0，ｐ0)，・・・，(ｗi，ｃi，ｐi)，・・・，(ｗN，ｃN，ｐN)］に、以下に述べる経験則を適用して、変数を含むリスト［(ｗ0'，ｃ0'，ｐ0')，・・・，(ｗi'，ｃi'，ｐi')，・・・，(ｗN'，ｃN'，ｐN')］を得て、次のような規則を作る。anytag(ｕ) <-- <＠(ｔ＋ｄｆ，ｋ)，word(ｗ0'，ｃ0'，ｐ0')，・・・，(ｗi'，ｃi'，ｐi')，・・・，word(ｗN'，ｃN'，ｐN')，>＠(ｔ−ｄｔ)．
ここで「ｔ」は、固有表現の種類（例えば「組織名」）を表す。

「＋ｄｆ」は、この固有表現の開始位置を何文字右にずらすかを表し、最初の単語の文字数未満の非負整数である。また、「−ｄｔ」は固有表現の終了位置を何文字左にずらすかを表し、最後の単語の文字数未満の非負整数である。

例えば、「厚木市内で・・・」という訓練用文書Ａ１があり、正解リストＡ２によればこの内の「厚木市」が地名であるにもかかわらず、形態素解析・品詞文字種付与部Ａ３の形態素解析で、「厚木」、「市内」、「で」というように単語分割された場合、固有表現を構成する単語列は、［(厚木，複数漢字，固有名詞)，（市内、複数漢字、普通名詞)］となり、最後の１文字（「内」）が余分である。そこで終了位置を一文字左にずらすために、「ｄｔ＝１」とする。尚、開始位置はずらさないので、「ｄｆ=０」である。また、上述の規則（ルール）における「ｋ」は、この規則につけられた番号であり、「ｕ」はこの規則の優先度である。各変数を含むデータ(ｗi'，ｃi'，ｐi')は、訓練用文書Ａ１に含まれる具体的な固有表現に対応するデータ(ｗi，ｃi，ｐi)に対して、以下の経験則を、上から順に調べ、最初に当てはまったものを適用することによって得る。

■「ｉ」が「０」か「Ｎ」で、固有表現の境界を含む場合（ｄｆ＞０またはｄｔ＞０）は、これらを変数化しない。規則（ルール）の「ｄｆ」と「ｄｔ」は、元になった固有表現に対する値をそのまま利用する。

■数字の場合は「ｗi」を変数化する。

■固有名詞の場合は「ｗi」を変数化する。

■リストの最後の単語か、記号・単漢字・接尾語・接頭語・助詞などの機能語であれば、変数化しない。

■それ以外であれば「ｗi」を変数化する。

各固有表現に対して以上の処理を適用することにより、固有表現抽出規則群Ａ５を自動的に生成することができる。

また、各規則の優先度（ｕ）としては、例えば、その規則の元になった固有表現が正解リスト中に現れる「のべ回数」を採用する。これにより、正解回数の少ない規則(前述の例では、地名としての「ホワイトハウス」)が正解回数の多い規則(組織名としての「ホワイトハウス」)を正当な理由もなく抑制してしまうことが避けられる。

こうして規則生成部Ａ４により得られた各規則（固有表現抽出規則群Ａ５）を、訓練用規則適用部Ａ６において、訓練用文書Ａ１の単語列に適用することにより訓練用記録Ａ７を得る。すなわち、訓練用規則適用部Ａ６では、訓練用文書Ａ１の先頭から末尾まで、各規則がマッチする位置を順に調べていき、マッチしたら、それを候補として訓練用記録Ａ７に追加することを繰り返す。

訓練用記録Ａ７には、具体的には、後で各候補間の競合関係や抑制関係の比較をして、最終的な出力ができるように、ルール番号（ｋ）や、マッチした位置、固有表現の種類（ｔ）などのデータを記録しておく。

このような訓練用規則適用部Ａ６による処理を、固有表現抽出規則群Ａ５の全ての規則に対して行ない、訓練用記録Ａ７を作り出す。

尚、ボトムアップ型の構文解析を用いれば、複数の規則の適用結果を効率良く一度に得ることも可能である。

規則評価部Ａ８は、このようにして作成された訓練用記録Ａ７を読み出して、各規則の成績を採点する。採点の仕方としては様々な基準を用いることができるが、不正解になった回数や割合による評価を用いれば簡単である。しかし、各規則の不正解回数は、厳密には、どのような規則と組み合わせて用いるかに依存するため、どの規則を採用するか未定のこの時点では、正確な数字を得られない。そこで、各規則（Ｒ）の記録を以下のように分類して考える。

（○）規則Ｒの元になった固有表現とマッチして得られた候補、つまり、他の候補に抑制されなければ必然的に正解になるもの（正解候補固有表現）。

（△）競合する別の固有表現が正解リストＡ２に登録されており、それに抑制されるもの。つまり、その固有表現が正解になれば出力が抑制されるので、精度の高い規則群においては、成績を下げない可能性の高いもの（中間候補固有表現）。

（×）それ以外のもの、つまり、抑制する正解固有表現がないため、精度の高い規則群においては、間違った候補を出力して成績を下げる可能性が高いもの（不正解候補固有表現）。

規則評価部Ａ８は、各規則に対して「○」、「△」、「×」の回数を数え、この「×」の回数を不正解の回数、「○」の回数を正解の回数の代用として採用する。尚、単純に「△」を全て不正解と考えると、「田中」のように短い固有表現を抽出する規則が不利になるので避けた方が良い。そのため、規則評価部Ａ８では、以下のような方法で不正解回数を数える。

すなわち、規則評価部Ａ８は、訓練用記録Ａ７を前から順に読み、規則Ｒが訓練用文書Ａ１の位置Ｌで適用されており、規則Ｒが付与する固有表現のタイプ(地名や人名などの区別)がＴであり、そのタイプＴと位置Ｌの対が正解リストＡ２に正解として含まれておらず、さらに、位置Ｌに重なる位置に正解の固有表現が存在しないか、存在しても、その正解に対応する候補より規則Ｒによる候補の方が優先順位において優位であれば、規則Ｒの不正解回数を１増やす。これを訓練用記録Ａ７の終わりに達するまで繰り返す。

規則評価部Ａ８が、各規則の「○」、「△」、「×」の個数を数えると、この結果を参照して、規則削除部Ａ９と規則精錬部Ａ１０が固有表現抽出規則群Ａ５に修正を加える。

規則削除部Ａ９は、固有表現抽出規則群Ａ５の親則の内、例えば、「×」の個数が「○」の個数を超える規則を削除する。規則精錬部Ａ１０は、固有表現抽出規則群Ａ５の規則の内、例えば、成績が「×」の個数が「○」の個数の半分以上ある規則に、前後の単語などに関する制約情報を加えて、当該規則の成績がより良くなるようにする。

例えば、固有表現の前後２単語ずつを含めて考えると、上記規則で抽出され、「○」や「×」に評価されて分類された各固有表現のそれぞれにおいて、［(ｗ-2，ｃ-2，ｐ-2)，(ｗ-1，ｃ-1，ｐ-1)，(ｗ0，ｃ0，ｐ0)，・・・，(ｗN+1，ｃN+1，ｐN+1)，(ｗN+2，ｃN+2，ｐN+2)，］という単語リストが各々に考えられる。そこで、各固有表現毎に(ｗ-2，ｃ-2，ｐ-2，ｗ-1，ｃ-1，ｐ-1，ｗN+1，ｃN+1，ｐN+1，ｗN+2，ｃN+2，ｐN+2)という特徴のリストを考え、「○」に分類された固有表現の場合を正例、「×」に分類された固有表現の場合を負例と考えれば、これは典型的な帰納学習の課題であり、既存の機械学習の手法がそのまま利用できる。

例えば、決定木による学習を用いることにより、前後の幾つかの単語の内、どの単語のどの性質の値を残し、他を変数化すべきかが決定できる。具体例として、「×」に分類された固有表現が「１０」個抽出され、その内、「８」個の固有表現において、その前の単語(ｗ-1)として「ｗX」が特定されれば、以下のようにして元の規則に制約条件｛ｗ-1'≠ ｗX｝を加え、前の単語(ｗ-1)として「ｗX」を有する固有表現が抽出されないように制約する。anytag(ｕ) <-- word(ｗ-1'，ｃ-1'，ｐ-1')，<＠(ｔ＋ｄｆ，ｋ)，word(ｗ0'，ｃ0'，ｐ0')，・・・，(ｗi'，ｃi'，ｐi')，・・・，word(ｗN'，ｃN'，ｐN')，>＠(ｔ−ｄｔ)，｛ｗ-1'≠ ｗX｝．こうして得られた規則は、元の規則より制約が強いので、元の規則がマッチした部分と同じところにしかマッチしない。従って、訓練用文書Ａ１全体に適用しなくても、訓練用記録Ａ７に残っている元の規則のマッチした部分にのみ適用すれば、新しい規則の成績はわかる。

このように本例では、規則の改良が、他の規則とほぼ独立に行なえる。以上によって、元の規則（固有表現抽出規則群Ａ５）から、より成績の良い規則（改良後固有表現抽出規則群Ａ５ａ）を生成する。

図２８は、固有表現抽出規則生成方法の処理手順例を示すフローチャートである。

本例は、図２６における固有表現抽出規則生成システムにおける形態素解析・品詞文字種付与部Ａ３、規則生成部Ａ４、訓練用規則適用部Ａ６、規則評価部Ａ８の各処理動作を示すものであり、まず、形態素解析・品詞文字種付与部Ａ３において、訓練用文書Ａ１を形態素解析して単語に分割し（Ｓ１３０１）、各単語に品詞と文字種などの情報を付加する（Ｓ１３０２）。

次に、規則生成部Ａ４において、正解リストＡ２の固有表現と、その近傍にある単語からなる単語列を抜き出して（Ｓ１３０３）、正解単語列に経験則等を適用して、抽出規則を生成し（Ｓ１３０４）、固有表現抽出規則群Ａ５として記録する。そして、訓練用規則適用部Ａ６において、このようにして生成した抽出規則を、訓練用文書Ａ１に適用して、その結果得られた固有表現を候補として記録する（Ｓ１３０５）。さらに、規則評価部Ａ８において、各抽出規則で抽出された固有表現の正解度（○、△、×）を求めて分類し、それに基づき、各抽出規則の適正度を採点する（Ｓ１３０６）。

その採点の結果、修正不可能な成績の悪い（適正度の低い）規則群は、規則削除部Ａ９において削除し（Ｓ１３０７）、また、修正により適正度が高まる規則群には、規則精錬部Ａ１０において当該修正を加えて、新規則とし（Ｓ１３０８）、改良後固有表現抽出規則群Ａ５ａに記録する。Ｓ１３０５からの処理を繰り返すことにより、より成績の良い規則群の生成が可能となる。

図２９は、図２６における固有表現抽出装置の処理動作例を示すフローチャートである。本例は、図２６に示す固有表現抽出装置における、新規文書Ａ１１に対する処理動作を示すものであり、まず、形態素解析・品詞文字種付与部Ａ３において、新規文書Ａ１１を形態素解析して単語に分割し（Ｓ１４０１）、各単語リストに品詞と文字種などの情報を付加する（Ｓ１４０２）。

次に、実施用規則適用部Ａ１２において、各単語リストに、改良後固有表現抽出規則群Ａ５ａの各抽出規則を適用して、各固有表現を候補としてリストアップし（Ｓ１４０３）、全ての候補に対して以下の優先制御処理を行う（Ｓ１４０４）。すなわち、各候補の中で最優先の候補を出力し（Ｓ１４０５）、この出力された候補と競合する候補を削除する（Ｓ１４０６）。

以上、図２６〜図２９を用いて説明したように、本例の固有表現抽出規則生成システムと方法では、まず、予め用意された訓練用文書Ａ１を形態素解析して単語に分割し、品詞名や構成文字種などの情報を各単語に付加し、こうして得られた単語から、固有表現を構成する単語列を取り出し、予め訓練用文書Ａ１に対応して用意された正解リストＡ２を参照して経験則や最小汎化などの一般化手段によって多数の固有表現抽出規則を生成する。

次に、これらの抽出規則をそれぞれ独立に訓練用文書Ａ１に適用して、その規則が訓練用文書Ａ１のどの位置にマッチしたかの記録を用意しておく。この記録に入っているものは、訓練用文書Ａ１に対してシステムが出力する固有表現の候補となる。そして、複数のルールを組み合わせる場合には、それらのルールに対応する記録に入っている全ての候補の中から、競合関係と優先順位を考慮して、最終的に出力する候補の列を一定の明快な基準で選び出す。

この結果、訓練用文書Ａ１における不正解の頻度あるいは割合が非常に多い規則があれば、それを削除する。ただし、その規則が訓練用文書のどの位置で正解し、どの位置で不正解になっているかがわかる。そこで、正解の箇所の前後の単語列と、不正解の箇所の前後の単語列を比較して制約を加えることによって、訓練用文書における成績が良くなる規則が作れるかどうか判断できるので、成績が良くなる場合は制約を加えた規則を加える。

このように、本例によれば、固有表現を含む訓練用文書と、その文書の中のどの位置にどのような種類の固有表現が含まれているかを列挙した正解リストを与えると、システムがこの正解に基づいて固有表現抽出規則を生成するので、人間が多大な労力を払って抽出規則を書き下す必要がなくなる。さらに、予め用意された訓練用文書Ａ１に対して出力される個々の規則の評価を求め、次に、複数の規則を種々に組み合わせた場合の各評価値を、個々の規則の評価値から簡単に計算できる。

これによって、良い成績が得られる規則の組み合わせを求める際の試行錯誤に要する処理時間を短縮することができる。また、このような固有表現抽出規則の改良が、他の規則とほぼ独立して行なえるため、精度を向上させることが容易になる。また、本例の固有表現抽出装置では、訓練用文書と正解リストに基づいて生成され、かつ、改良された規則を新規文書Ａ１１に適用して、この新規文書Ａ１１から固有表現を自動的に抽出すると共に、抽出した複数の固有表現に部分的な重なりがあれば、文書における記載開始位置が早いものを優先して抽出し、また、記載開始位置が同じであれば記載終了位置が遅いものを優先して抽出し、さらに、表現は同じであるが種類の異なる固有表現があれば、各固有表現の抽出に用いた各々の規則に予め付与された優先度の大きいものを優先して抽出するので、適切な固有表現のみに限定された抽出が可能である。尚、図２６〜図２９を用いて説明した例に限定されるものではなく、種々変更した実施を行うことができる。例えば、本例では、規則に制約を付加する際、候補固有表現の訓練用文書における前後の単語に基づき制約を設けているが、当該単語の文字種（漢字、カタカナ、・・・）や品詞（名詞、動詞、・・・）等に関して制約を設けることでも良い。また、本例では、光ディスク１０２５を記録媒体として用いているが、ＦＤを記録媒体として用いることでも良い。また、プログラムのインストールに関しても、通信装置１０２７を介してネットワーク経由でプログラムをダウンロードしてインストールすることでも良い。

また、第１及び第２の実施の形態で説明したラベル表示型文書検索方法を検索装置１や１０に実行させるコンピュータプログラムは、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのコンピュータ読み取り可能な記録媒体に格納したり、インターネットなどの通信網を介して伝送させて、広く流通させることができる。

第１の実施の形態の装置構成を示すブロック図である。検索装置１が検索前に行う処理を示すフローチャートである。タグ無し文書の一例を示す図である。タグ付き文書の一例を示す図である。共起パタンを用いた同義語の検出方法を示す図である。インデクスの一例を示す図である。第１統計情報の一例を示す図である。第２統計情報の一例を示す図である。キーワードを送信された検索装置１が行う処理のフローチャートである。第１検索結果統計情報の一例を示す図である。第２検索結果統計情報の一例を示す図である。第３統計情報の一例を示す図である。ラベル適合度情報の一例を示す図である。ラベル情報の一例を示す図である。ラベル決定部１１５が行うラベル選択のフローチャートである。属性名適合度情報の一例を示す図である。クラスタ情報の一例を示す図である。ブラウザ２が行う処理のフローチャートである。文書表示制御部２２によるラベル指示前の表示例を示す図である。文書表示制御部２２によるラベル指示後の表示例を示す図である。第２の実施の形態の装置構成を示すブロック図である。検索装置１０が検索前に行う処理を示すフローチャートである。文書ベクトルの一例を示す図である。キーワードを送信された検索装置１０が行う処理のフローチャートである。クラスタベクトルの一例を示す図である。文書生成部１０５に適用される固有表現抽出規則生成システムおよびそれを設けた固有表現抽出装置の構成例を示すブロック図である。図２６における固有表現抽出規則生成システムおよび固有表現抽出装置のハードウェア構成例を示すブロック図である。固有表現抽出規則生成方法の処理手順例を示すフローチャートである。図２６における固有表現抽出装置の処理動作例を示すフローチャートである。

符号の説明

１，１０…検索装置
２…ブラウザ
２１…キーワード入力部
２２…文書表示制御部
１０１…通信部
１０２…要求処理部
１０３…設定ファイル
１０４…文書生成部
１０５…文書生成部
１０６…文書ＤＢ
１０７…インデクス
１０７…正規化部
１０８…インデクス生成部
１０９…文書検索部
１１０…第１統計ＤＢ
１１１…第２統計ＤＢ
１１２…統計処理部
１１３…ラベル候補選択部
１１４…ラベル適合度算出部
１１５…ラベル決定部
１１６…クラスタ情報生成部
１１７…文書ベクトル生成部
１１８…文書ベクトルＤＢ
１１９…クラスタベクトル生成部
１２０…類似度算出部
１２１…クラスタ拡張部

Claims

文書を記憶した文書記憶手段から文書を検索する文書検索手段と、
前記検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶するラベル選択手段と、
前記記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、このラベルを含み且つ前記検索された文書の中にも含まれる文書を前記文書記憶手段から読み出して表示させる文書表示制御手段と
を備えることを特徴とするラベル表示型文書検索装置。
属性名で属性値が分類され、前記ラベルの選択及び表示が属性名ごとに行われるように制御することを特徴とする請求項１記載のラベル表示型文書検索装置。
前記選択されたラベルの１つを含み且つ前記検索された文書の中にも含まれる文書を示すクラスタ情報を生成するクラスタ情報生成手段と、
前記クラスタ情報で示される文書と当該クラスタ情報で示されない文書との類似度を算出し、この類似度が高い場合、後者の文書が示されるようにクラスタ情報を変更するクラスタ情報変更手段とを備え、
前記文書表示制御手段は、ラベルが指示された場合、前記変更されたクラスタ情報で示される文書の存在を表示させ、文書が指示された場合、この文書を前記文書記憶手段から読み出して表示させることを特徴とする請求項１または２記載のラベル表示型文書検索装置。
ラベルとするときの適合度を算出する対象の属性値を含み且つ前記検索された文書にも含まれる文書の数と、当該属性値を含み且つ前記文書記憶手段にも記憶された文書の数とを用いてラベルの適合度を算出することを特徴とする請求項１乃至３のいずれかに記載のラベル表示型文書検索装置。
前記クラスタ情報で示される文書を示すクラスタベクトルと当該クラスタ情報で示されない文書を示す文書ベクトルとの余弦尺度を類似度とすることを特徴とする請求項３または４記載のラベル表示型文書検索装置。
前記文書記憶手段に記憶された文書に含まれた属性値についての統計情報を生成する統計情報生成手段と、生成された統計情報が記憶される統計情報記憶手段とを備え、前記ラベル選択手段は、当該記憶された統計情報を用いてラベルとするときの適合度を算出することを特徴とする請求項１乃至５のいずれかに記載のラベル表示型文書検索装置。
前記文書記憶手段に記憶された文書に含まれた属性値を正規化する属性値正規化手段を備えること特徴とする請求項１乃至６のいずれかに記載のラベル表示型文書検索装置。
属性値の指示がない文書から当該指示のある文書を生成し前記文書記憶手段に記憶させる文書生成手段を備えること特徴とする請求項１乃至７のいずれかに記載のラベル表示型文書検索装置。
文書を記憶した文書記憶手段から文書を検索し、
前記検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶させ、
前記記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、このラベルを含み且つ前記検索された文書の中にも含まれる文書を前記文書記憶手段から読み出して表示させることを特徴とするラベル表示型文書検索方法。
属性名で属性値が分類され、前記ラベルの選択及び表示が属性名ごとに行われるように制御することを特徴とする請求項９記載のラベル表示型文書検索方法。
文書を記憶した文書記憶手段から文書を検索し、
前記検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶させ、
前記選択されたラベルの１つを含み且つ前記検索された文書の中にも含まれる文書を示すクラスタ情報を生成し、
前記クラスタ情報で示される文書と当該クラスタ情報で示されない文書との類似度を算出し、この類似度が高い場合、後者の文書が示されるようにクラスタ情報を変更し、
前記記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、前記変更されたクラスタ情報で示される文書の存在を表示させ、文書が指示された場合、この文書を前記文書記憶手段から読み出して表示させることを特徴とするラベル表示型文書検索方法。
ラベルとするときの適合度を算出する対象の属性値を含み且つ前記検索された文書にも含まれる文書の数と、当該属性値を含み且つ前記文書記憶手段にも記憶された文書の数とを用いてラベルの適合度を算出することを特徴とする請求項９乃至１１のいずれかに記載のラベル表示型文書検索方法。
前記クラスタ情報で示される文書を示すクラスタベクトルと当該クラスタ情報で示されない文書を示す文書ベクトルとの余弦尺度を類似度とすることを特徴とする請求項１１または１２記載のラベル表示型文書検索方法。
前記文書記憶手段に記憶された文書に含まれた属性値についての統計情報を生成し、前記ラベル選択では、当該記憶された統計情報を用いてラベルとするときの適合度を算出することを特徴とする請求項９乃至１３のいずれかに記載のラベル表示型文書検索方法。
前記文書記憶手段に記憶された文書に含まれた属性値を正規化すること特徴とする請求項９乃至１４のいずれかに記載のラベル表示型文書検索方法。
属性値の指示がない文書から当該指示のある文書を生成し前記文書記憶手段に記憶させること特徴とする請求項９乃至１５のいずれかに記載のラベル表示型文書検索方法。
請求項９乃至１６のいずれかに記載のラベル表示型文書検索方法をコンピュータに実行させるコンピュータプログラム。
請求項９乃至１６のいずれかに記載のラベル表示型文書検索方法をコンピュータに実行させるコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体。