JP2009151540A

JP2009151540A - 関連要素検索装置、及び関連要素検索プログラム

Info

Publication number: JP2009151540A
Application number: JP2007328865A
Authority: JP
Inventors: Hitoshi Ikeda; 仁池田; Motofumi Fukui; 基文福井; Junichi Takeda; 隼一武田
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2007-12-20
Filing date: 2007-12-20
Publication date: 2009-07-09
Also published as: US20090164461A1

Abstract

【課題】検索対象のデータ要素との関連性が高いデータ要素を検索する精度を向上させる。
【解決手段】関連要素検索装置１０は、複数のデータ要素を取得し、複数のデータ要素のそれぞれの特徴量データを生成し、生成された特徴量データに基づいて、複数のデータ要素をクラスタに分類し、分類されたクラスタの中から、複数のデータ要素の中から指定されたデータ要素が属するクラスタを選択し、選択されたクラスタに属する各データ要素に基づいて、当該各データ要素のそれぞれの特徴量データを生成し、生成された特徴量データに基づいて、選択されたクラスタに属する各データ要素をクラスタにさらに分類し、前記指定されたデータ要素と同一のクラスタに分類されたデータ要素の少なくとも一つを関連データ要素として検索する。
【選択図】図１

Description

本発明は、関連要素検索装置、及び関連要素検索プログラムに関する。

近年コンピュータの普及に伴い、電子化されたドキュメントがコンピュータ内に大量に蓄積されるようになってきている。このようなコンピュータ内に大量に蓄積された電子情報から価値のある情報を見つけたり、情報の全体的な構造を理解したりすることは、蓄積されるデータ量が膨大になるにつれますます困難になっている。そこで、従来から、蓄積されたデータの中から有用なドキュメントを見つけ出し、利用者に提示するための手法がいくつか提案されてきている。

例えば、下記の特許文献１には、複数文書の各々から特徴量を抽出し、それに基づき複数文書を複数のクラスタに分類し、利用者から与えられた検索条件を満たす文書を検索する技術が開示されている。特許文献１に記載の技術に対し検索精度を向上させた技術として、例えば以下のものがある。まず、下記の特許文献２には、クラスタに分類されたデータをさらに分類する技術が開示されている。また、下記の特許文献３には分類されたデータのうち選択したクラスタに含まれるデータについてのみさらにキーワード検索することで、検索効率を向上させる技術が開示されている。そして、下記の特許文献４には、特徴量を変えて分類精度の向上を図る技術が開示されている。
特開２００２−４１５７３号公報特開平１１−１４９４８５号公報特開２００１−５８３０号公報特開２００２−１８３１７１号公報

しかしながら、従来の技術では、以下に述べる理由により検索精度が十分とはいえなかった。すなわち、特許文献２の手法では最初とそれ以降の分類に用いられる特徴量が共通であるため、ノイズ除去の観点では大きな効果が得られなかった。また、特許文献３の手法では、第一検索キーと第二検索キーの決定手法により検索結果が大きく異なってしまい、安定した検索結果を得ることが困難であった。そして、特許文献４の手法では、特徴ベクトルを特異値分解し得られたベクトルのうち選択する次元数を最初に比べて２回目では増やす手法を用いているが、この手法ではノイズも同時に増えていってしまうため、必ずしも分類に適した特徴量を選択できるわけではなかった。

本発明は上記課題に鑑みてなされたものであって、本発明の目的の一つは、検索対象のデータ要素との関連性が高いデータ要素を検索する精度を向上させた関連要素検索装置及び関連要素検索プログラムを提供することにある。

上記目的を達成するために、請求項１に記載の関連要素検索装置は、複数のデータ要素を取得する手段と、前記複数のデータ要素のそれぞれの特徴量データを生成する第１生成手段と、前記第１生成手段により生成された特徴量データに基づいて、前記複数のデータ要素を１以上のクラスタに分類する第１分類手段と、前記第１分類手段により分類された１以上のクラスタから、前記複数のデータ要素の中から指定されたデータ要素が属するクラスタを選択する手段と、前記選択されたクラスタに属する各データ要素に基づいて、当該各データ要素のそれぞれの特徴量データを生成する第２生成手段と、前記第２生成手段により生成された特徴量データに基づいて、前記選択されたクラスタに属する前記各データ要素をクラスタにさらに分類する第２分類手段と、前記第２分類手段により前記指定されたデータ要素と同一のクラスタに分類されたデータ要素の少なくとも一つを関連データ要素として検索する手段と、を含む、ことを特徴とする。

請求項２に記載の発明は、請求項１に記載の関連要素検索装置において、前記指定されたデータ要素と同一のクラスタに属する各データ要素について特徴量データを生成し、当該生成した特徴量データに基づきさらにクラスタに分類する処理を所定の終了条件が満たされるまで再帰的に実行した後に、前記指定されたデータ要素と同一のクラスタに分類されたデータ要素の少なくとも一つを関連データ要素として検索する、ことを特徴とする。

請求項３に記載の発明は、請求項１又は２に記載の関連要素検索装置において、前記第２生成手段は、前記選択されたクラスタに属する各データ要素に、他のクラスタに属するデータ要素よりも高い確率で含まれる情報から構成される基準情報に基づいて特徴量データを生成する、ことを特徴とする。

請求項４に記載の発明は、請求項１又は２に記載の関連要素検索装置において、前記第２生成手段は、前記選択されたクラスタに属する各データ要素に、他のクラスタに属するデータ要素よりも高いエントロピーの情報から構成される基準情報に基づいて特徴量データを生成する、ことを特徴とする。

請求項５に記載の発明は、請求項３又は４に記載の関連要素検索装置において、前記データ要素は、電子文書であり、前記基準情報は、前記電子文書から抽出されたキーワードから構成され、前記特徴量データは、前記電子文書に前記基準情報を構成する各キーワードが含まれるか否かに応じて生成されるデータである、ことを特徴とする。

請求項６に記載の発明は、請求項５に記載の関連要素検索装置において、前記特徴量データは、ベクトルデータであり、前記検索された関連データ要素を、前記指定されたデータ要素とのベクトルデータの距離に応じた順位に従って提示する手段をさらに含む、ことを特徴とする。

請求項７に記載の関連要素検索プログラムの発明は、コンピュータに、複数のデータ要素を取得するステップと、前記複数のデータ要素のそれぞれの特徴量データを生成する第１生成ステップと、前記第１生成ステップで生成された特徴量データに基づいて、前記複数のデータ要素を１以上のクラスタに分類する第１分類ステップと、前記第１分類ステップで分類された１以上のクラスタから、前記複数のデータ要素の中から指定されたデータ要素が属するクラスタを選択するステップと、前記選択されたクラスタに属する各データ要素の特徴量データを生成する第２生成ステップと、前記第２生成ステップで生成された特徴量データに基づいて、前記選択されたクラスタに属する前記各データ要素をクラスタにさらに分類する第２分類ステップと、前記第２分類ステップで前記指定されたデータ要素と同一のクラスタに分類されたデータ要素の少なくとも一つを関連データ要素として検索するステップと、を実行させることを特徴とする。

請求項１及び７に記載の発明によれば、いったんデータ要素をクラスタに分類した後に、指定されたデータ要素と同一のクラスタに属するデータ要素について、それらのデータ要素に基づき特徴ベクトルを再度生成してクラスタリングを行うことで、データ要素の分類精度を向上させることができる。これにより、指定されたデータ要素と関連性が高いデータ要素の検索精度を向上することができる。

請求項２に記載の発明によれば、クラスタの分類が適切となるまで指定されたデータ要素と同一のクラスタに属するデータ要素を絞り込むことができる。これにより、指定されたデータ要素と関連性が高いデータ要素の検索精度を向上することができる。

請求項３に記載の発明によれば、指定されたデータ要素が属するクラスタに含まれる各データ要素の特徴ベクトルを生成する際に用いられる基準情報を、そのクラスタに特徴的な情報から構成することができる。これにより、データ要素のクラスタリング精度を向上させることができる。

請求項４に記載の発明によれば、指定されたデータ要素が属するクラスタに含まれる各データ要素の特徴ベクトルを生成する際に用いられる基準情報を、そのクラスタに特徴的な情報から構成することができる。これにより、データ要素のクラスタリング精度を向上させることができる。

請求項５に記載の発明によれば、指定された文書と関連性の高い文書を高い精度で検索することができる。

請求項６に記載の発明によれば、指定されたデータ要素と関連性のあるデータ要素を、その順位とともに利用者に知らせることができる。

以下、本発明を実施するための好適な実施の形態（以下、実施形態という）を、図面に従って説明する。

図１には、本実施形態に係る関連要素検索装置１０の機能ブロック図を示す。図１に示されるように、関連要素検索装置１０は、データ記憶部２０、入力部２２、検索処理制御部２４、特徴量基準情報生成部２６、特徴ベクトル生成部２８、クラスタリング部３０、及び結果出力部３２を含み構成される。各部の機能は、コンピュータシステムたる関連要素検索装置１０がコンピュータプログラムに従って動作することにより実現されるものとしてよい。また、コンピュータプログラムは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、フラッシュメモリ等のコンピュータが読み取り可能なあらゆる形態の情報記録媒体に格納され、関連要素検索装置１０に接続された図示しない媒体読み取り装置により関連要素検索装置１０に読み込まれることとしてもよい。また、コンピュータプログラムは、ネットワークを介して関連要素検索装置１０にダウンロードされることとしても構わない。

データ記憶部２０は、メモリやハードディスク等の記憶装置より構成され、複数のデータ要素を記憶する。本実施形態では、関連要素検索装置１０の処理対象のデータ要素を電子文書とし、利用者から指定された電子文書を検索キー文書として、当該検索キー文書と関連性の高い電子文書をデータ記憶部２０に格納された電子文書から検索する処理（以下、関連要素検索処理）を行う。

入力部２２は、関連要素検索装置１０への情報入力を受け付ける。入力部２２は、キーボードやマウス等の情報入力デバイスからの入力を受け付けるほか、ネットワークから伝送されるデータを入力するインターフェースとしても機能することとしてよい。入力部２２は、利用者から検索キー文書を指定する指定情報を受け付ける。この際、検索キー文書のデータ自体を受け付けることとしてもよいし、データ記憶部２０に記憶された電子文書の１つを指定する文書名や文書ＩＤを受け付けることとしてもよい。

検索処理制御部２４は、関連要素検索装置１０により行われる関連要素検索処理を制御する。検索処理制御部２４は、入力部２２により受け付けた検索キー文書の指定情報により指定された電子文書と関連する文書データを、データ記憶部２０に記憶された文書データの中から検索する処理を開始する。まず、検索処理制御部２４は、データ記憶部２０に記憶された電子文書の中から、検索対象とする電子文書群を決定する。検索対象は、データ記憶部２０に記憶された全ての電子文書としてもよいし、内容、書誌情報や文書形式等に基づいて絞り込むこととしてもよい。

特徴量基準情報生成部２６は、検索処理制御部２４により指定されたデータ要素群について特徴量データ（特徴ベクトル）を生成するための基準情報を生成する。基準情報は、データ要素を電子文書とした場合に、処理対象の電子文書群から抽出されるキーワードから構成されるキーワード群や書誌情報としてよい。特徴量基準情報生成部２６は、例えば基準情報を電子文書群から抽出されるキーワード群とする場合には、処理対象の電子文書群に特徴的なキーワード群を以下の基準に基づいて抽出することとしてよい。

特徴量基準情報生成部２６は、複数の電子文書を含むクラスタについて、そのクラスタに属する電子文書に特徴的なキーワードを抽出する。なお、初期状態として得られる検索対象の母体となる電子文書群についても１つのクラスタとみなすこととしてよい。ここで、キーワードの抽出手法としては様々な手法が考えられるが、例えば注目するクラスタ（具体的には、検索キー文書が属するクラスタである）に属する文書には高頻度で出現して、他のクラスタに属する文書には低頻度で出現する基準を用いることができる。そこで、クラスタＣ_ｉにおける基準Ｗ_ｊに対するスコアをＳ（ｉ，ｊ）とすると、スコアの値は例えば以下の式（１）により算出することができる。

ここで、Ｆ（ｉ，ｊ）はクラスタＣ_ｉに属する文書の中で基準Ｗ_ｊを含む文書の総数をクラスタＣ_ｉに属する文書数で除した値であり、上記の式（１）は、注目するクラスタ（検索キー文書が属するクラスタ）には高頻度で出現し、他のクラスタでは低頻度で出現するほど高い値になる。あるクラスタＣ_ｉにおいて上記Ｓ（ｉ，ｊ）をすべての基準Ｗ_ｊにおいて計算し、計算されたスコアが所定値以上の基準Ｗ_ｊを基準情報Ｗに用いることとしてよい。

また、基準Ｗ_ｊのスコアは、当該基準Ｗ_ｊのクラスタＣにおけるエントロピーと、他のクラスタにおけるエントロピーの差に基づいた値としてもよい。この場合には、指定された検索キー文書が属するクラスタと、他のクラスタとにおいて基準Ｗ_ｉの情報エントロピーの差が所定値以上の基準Ｗ_ｊを基準情報Ｗの要素として選択するようにしてよい。

特徴ベクトル生成部２８は、特徴量基準情報生成部２６により生成された基準情報に基づいて、対象のデータ要素のそれぞれの特徴ベクトルを生成する。データ要素を電子文書、基準情報を電子文書から抽出されたキーワード群とした場合に、各電子文書の特徴ベクトルは、その電子文書にキーワード群の各キーワードが含まれるか否かに応じて生成されるものとしてよい。具体的には、例えばキーワードＷ_ｉ（ｉ＝１，２，．．．．ｎ）が電子文書Ｄ_ｊ（ｊ＝１，２，３，．．．．Ｎ）に含まれている場合「１」と、含まれていない場合「０」とすることにより、電子文書Ｄ_ｊに対する特徴ベクトルＰ_ｊはｎ次元のベクトル（０，１，１．．．．．，０）^ｔとして表現される。なお、ｎはキーワード群の要素数であり、Ｎは対象とする電子文書数である。

クラスタリング部３０は、特徴ベクトル生成部２８により生成された各データ要素の特徴ベクトルに基づいて、各データ要素を複数のクラスタに分類する。クラスタリングのアルゴリズムにはＫ−Ｍｅａｎｓ法や各種階層クラスタリング法など公知のアルゴリズムを用いることとしてよい。

検索処理制御部２４は、クラスタリング部３０によるクラスタリングの結果、指定されたデータ要素（検索キー文書）と同一のクラスタに分類されたデータ要素群を次の処理対象のデータ要素群（以下、処理対象データ要素群）として選択する。そして、特徴量基準情報生成部２６は、検索処理制御部２４により選択された新たな処理対象データ要素群について、その処理対象データ要素群に特徴的な基準情報を生成する。すなわち、選択された検索キー文書と同一のクラスタに属するデータ要素群から得られたキーワードについて、それぞれ上記式（１）に基づくスコアを算出して、そのスコアが所定値以上のキーワードからなるキーワード群を生成する。このキーワード群が、上記検索キー文書が属するクラスタをさらにクラスタに細分類する際の基準情報となる。

特徴ベクトル生成部２８は、上記生成された基準情報（キーワード群）に基づいて処理対象データ要素群のそれぞれのデータ要素について新たに特徴ベクトルを生成する。クラスタリング部３０は、新たに生成されたデータ要素群のそれぞれの特徴ベクトルに基づいて、クラスタリング処理を実行する。

検索処理制御部２４は、クラスタリング部３０によるクラスタリングの結果が所定の終了条件を満たしているか否かを判断し、所定の終了条件を満足するまで、再度検索キー文書が属するクラスタについてのクラスタリング処理を再帰的に繰り返す。ここで、所定の終了条件とは、検索キー文書と同一のクラスタに属する電子文書の数が所定数以下であることとしてもよいし、基準情報として生成されるキーワード数が所定数以下となったこと等の様々な条件を用いることとしてよい。

結果出力部３２は、検索処理制御部２４において終了条件が満たされていると判断される場合に、指定されたデータ要素と関連するデータ要素を出力する。データ要素の出力は、関連要素検索装置１０に接続されたディスプレイに検索結果をリスト表示することとしてもよいし、検索結果を印刷出力することとしてもよい。

次に、本実施形態に係る関連要素検索装置１０により行われる関連要素検索処理の一連の流れを、図２に示されたフロー図を参照しながら説明する。

まず、関連要素検索装置１０は、検索キー文書と、検索対象の母体となる文書群（検索対象文書群）を取得する（Ｓ１０１）。検索対象文書群は、データ記憶部２０に記憶されたデータであり、検索キー文書は検索対象文書群の一つとして含まれていてもよいし、入力部２２を介して新たに取得した電子文書としてもよい。

関連要素検索装置１０は、取得した検索キー文書と検索対象文書群との双方から、所定の基準に基づいてキーワード群を抽出し、これを基準情報とする（Ｓ１０２）。所定の基準とは、頻度の高さや品詞等の条件に基づくものとしてもよい。そして、関連要素検索装置１０は、得られた基準情報（キーワード群）に基づいて、検索キー文書及び検索対象文書群のそれぞれの特徴ベクトルを生成する（Ｓ１０３）。

関連要素検索装置１０は、生成された上記各文書の特徴ベクトルに基づいて、各文書を１以上のクラスタに分類する（Ｓ１０４）。そして、関連要素検索装置１０は、上記の分類の結果、検索キー文書が属するクラスタを選択する（Ｓ１０５）。

次に、関連要素検索装置１０は、選択したクラスタ（以下、注目クラスタとする）に関して、この注目クラスタを特徴付ける基準情報（キーワード群）を生成する（Ｓ１０６）。関連要素検索装置１０は、上記基準情報の生成を、注目クラスタに含まれる電子文書から抽出されるキーワードについて、上述した式（１）によるスコアを算出し、その算出されたスコアが所定の値以上のキーワードを要素としたキーワード群を生成することで行うこととしてよい。

関連要素検索装置１０は、生成した基準情報（キーワード群）に基づいて、上記注目クラスタに含まれる各電子文書の特徴ベクトルを生成する（Ｓ１０７）。関連要素検索装置１０は、生成した上記各電子文書の特徴ベクトルに基づいて、注目クラスタの各電子文書をクラスタにさらに分類する（Ｓ１０８）。

関連要素検索装置１０は、上記の分類の結果が所定の終了条件を満たしているか否かを判断する（Ｓ１０９）。関連要素検索装置１０は、上記判断の結果、所定の終了条件を満たしていないと判断する場合には（Ｓ１０９：Ｎ）、検索キー文書が属するクラスタを選択する処理Ｓ１０５に戻り、それ以降の処理を繰り返す。また、関連要素検索装置１０は、上記判断の結果、所定の終了条件を満たしていると判断する場合には（Ｓ１０９：Ｙ）、関連要素検索処理による検索結果を出力する（Ｓ１１０）。例えば、検索結果は、検索キー文書と同一のクラスタに属する他の電子文書の少なくとも一部をリスト形式にしてディスプレイに表示することとしてよい。また、上記のリスト形式において、検索キー文書の特徴ベクトルと距離の近い特徴ベクトルを有する電子文書の順にリストを形成することとしてもよい。もちろん出力形式は上記のものに限られず、関連文書群を印刷出力することとしても構わない。

以上説明した本実施形態に係る関連要素検索装置１０によれば、検索対象のデータ要素が分類されたクラスタをさらに細くクラスタに分類する際に、現在のクラスタに適した特徴量データを得てクラスタリングを行うようにしたため、検索対象のデータ要素との関連性が高いデータ要素を検索する精度を向上させることができる。

なお、本発明は上記の実施形態に限定されるものではなく、この分野の通常の知識を有する当業者によって多様な変更、変形又は置換が可能であることはもちろんである。

本実施形態に係る関連要素検索装置の機能ブロック図である。関連要素検索装置により行われる関連要素検索処理の一連の流れを説明するフロー図である。

符号の説明

１０関連要素検索装置、２０データ記憶部、２２入力部、２４検索処理制御部、２６特徴量基準情報生成部、２８特徴ベクトル生成部、３０クラスタリング部、３２結果出力部。

Claims

複数のデータ要素を取得する手段と、
前記複数のデータ要素のそれぞれの特徴量データを生成する第１生成手段と、
前記第１生成手段により生成された特徴量データに基づいて、前記複数のデータ要素を１以上のクラスタに分類する第１分類手段と、
前記第１分類手段により分類された１以上のクラスタから、前記複数のデータ要素の中から指定されたデータ要素が属するクラスタを選択する手段と、
前記選択されたクラスタに属する各データ要素に基づいて、当該各データ要素のそれぞれの特徴量データを生成する第２生成手段と、
前記第２生成手段により生成された特徴量データに基づいて、前記選択されたクラスタに属する前記各データ要素をクラスタにさらに分類する第２分類手段と、
前記第２分類手段により前記指定されたデータ要素と同一のクラスタに分類されたデータ要素の少なくとも一つを関連データ要素として検索する手段と、を含む、
ことを特徴とする関連要素検索装置。
前記指定されたデータ要素と同一のクラスタに分類された各データ要素について特徴量データを生成し、当該生成した特徴量データに基づきさらにクラスタに分類する処理を所定の終了条件が満たされるまで再帰的に実行した後に、前記指定されたデータ要素と同一のクラスタに分類されたデータ要素の少なくとも一つを関連データ要素として検索する、
ことを特徴とする請求項１に記載の関連要素検索装置。
前記第２生成手段は、前記選択されたクラスタに属する各データ要素に、他のクラスタに属するデータ要素よりも高い確率で含まれる情報から構成される基準情報に基づいて特徴量データを生成する、
ことを特徴とする請求項１又は２に記載の関連要素検索装置。
前記第２生成手段は、前記選択されたクラスタに属する各データ要素に、他のクラスタに属するデータ要素よりも高いエントロピーの情報から構成される基準情報に基づいて特徴量データを生成する、
ことを特徴とする請求項１又は２に記載の関連要素検索装置。
前記データ要素は、電子文書であり、
前記基準情報は、前記電子文書から抽出されたキーワードから構成され、
前記特徴量データは、前記電子文書に前記基準情報を構成する各キーワードが含まれるか否かに応じて生成されるデータである、
ことを特徴とする請求項３又は４に記載の関連要素検索装置。
前記特徴量データは、ベクトルデータであり、
前記検索された関連データ要素を、前記指定されたデータ要素とのベクトルデータの距離に応じた順位に従って提示する手段をさらに含む、
ことを特徴とする請求項５に記載の関連要素検索装置。
コンピュータに、
複数のデータ要素を取得するステップと、
前記複数のデータ要素のそれぞれの特徴量データを生成する第１生成ステップと、
前記第１生成ステップで生成された特徴量データに基づいて、前記複数のデータ要素を１以上のクラスタに分類する第１分類ステップと、
前記第１分類ステップで分類された１以上のクラスタから、前記複数のデータ要素の中から指定されたデータ要素が属するクラスタを選択するステップと、
前記選択されたクラスタに属する各データ要素の特徴量データを生成する第２生成ステップと、
前記第２生成ステップで生成された特徴量データに基づいて、前記選択されたクラスタに属する前記各データ要素をクラスタにさらに分類する第２分類ステップと、
前記第２分類ステップで前記指定されたデータ要素と同一のクラスタに分類されたデータ要素の少なくとも一つを関連データ要素として検索するステップと、
を実行させることを特徴とする関連要素検索プログラム。