JP2013105295A

JP2013105295A - 情報処理装置及びプログラム

Info

Publication number: JP2013105295A
Application number: JP2011248369A
Authority: JP
Inventors: Keigo Hattori; 圭悟服部; Motoyuki Takaai; 基行鷹合
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2011-11-14
Filing date: 2011-11-14
Publication date: 2013-05-30
Anticipated expiration: 2031-11-14
Also published as: JP5834795B2

Abstract

【課題】検索キーワードを含まないが検索キーワードに関連している文書を検索の処理対象文に含まれる各単語と検索キーワードとの文法上の関係を示す情報を用いて検索する。
【解決手段】制御部は、検索キーワードに基づいて検索された複数の電子文書からなるクラスタの特徴を表す主成分ベクトルを算出する（Ｓ１０４）。また、制御部は、上記クラスタに属する複数の文書において検索キーワードと係り受け関係にある注目単語、を含む文書を検索する（Ｓ１０８）。そして、制御部は、検索した文書それぞれから注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における注目単語との構文的距離を算出するとともに、構文的距離に基づいて、検索した文書それぞれの特徴ベクトルを算出する（Ｓ１０９）。そして、制御部は、検索した文書のうち、その特徴ベクトルが上記クラスタの主成分ベクトルと類似する文書を特定する（Ｓ１１１）。
【選択図】図４

Description

本発明は、情報処理装置及びプログラムに関する。

近点のシステムのＩＴ化に伴い、大量のデータ（例えば、文書など）がデータベースに蓄積されるようになった。それに伴い、蓄積されたデータの有効利用が各所で求められている。データベースから特定の情報を検索する際、ユーザはキーワードを入力する（以下、入力キーワードと表記する）。通常、入力キーワードを含まない文書は検索結果に現れないが、ユーザが必要とする文書の中には、入力キーワードを含まずとも例えば入力キーワードの同義語を含む文書が存在する。

そこで、下記特許文献１には、入力キーワードの同義語、類義語、上位概念語、及び下位概念語等をシソーラス等の類語辞書を用いて求め、それを用いて検索を行うこと、が記載されている。

ところで、例えば入力キーワードが最近生まれた語句である場合、類語辞書を用いても、入力キーワードの同義語、類義語、上位概念語、及び下位概念語などを求められない場合がある。そこで、下記特許文献２には、入力キーワードに基づいて検索された文書中に含まれる入力キーワード以外の語句を新たな入力キーワードとして再帰的に検索を行うこと、が記載されている。具体的には、特許文献２では、入力キーワードに基づいて検索された文書に含まれる、入力キーワードの近傍の語句が新たな入力キーワードとして用いられている。

特開平０９−１９８３９３号公報特開平０８−１５３１１２号公報

本発明の目的は、検索キーワードを含まないが検索キーワードに関連している文書を検索の処理対象文に含まれる各単語と検索キーワードとの文法上の関係を示す情報を用いて検索できる情報処理装置を提供することである。

上記課題を解決するための請求項１の発明は、所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第１算出手段と、前記第１算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第１特徴ベクトル算出手段と、前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段と、前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段と、前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第２算出手段と、前記第２算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第２特徴ベクトル算出手段と、前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段と、前記特定手段により特定された文書を出力手段に出力させる出力制御手段と、を含む情報処理装置である。

また、請求項２の発明は、請求項１の発明において、前記第１特徴ベクトル算出手段は、前記複数の文書から抽出された文に含まれる単語それぞれの評価値を、当該当該単語の構文的距離に基づいて算出する評価手段と、前記評価手段により算出された評価値に基づいて、前記複数の文書の各々の特徴ベクトルを算出する手段と、を含むことを特徴とする。

また、請求項３の発明は、請求項２の発明において、前記第１特徴ベクトル算出手段は、前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が所定関係にある場合に、当該単語と当該他の単語をグループ化するグループ化手段と、前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が前記所定関係にある場合に、当該単語と当該他の単語とが所属するグループの評価値を、当該単語の評価値と当該他の単語の評価値と、に基づいて算出する手段と、をさらに含むこと、を特徴とする。

ここで、単語と他の単語とが所定関係にある場合とは、例えば「両者のうちの一方が他方の類義語又は同義語である場合」である。また、例えば、単語と他の単語とが所定関係にある場合とは、「両者のうちの一方が動詞である場合において他方がその動詞の名詞形である場合」である。

また、請求項４の発明は、請求項１の発明において、前記第１算出手段は、前記所与の検索キーワードに基づいて検索された他の複数の文書からも前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出し、前記第１特徴ベクトル算出手段は、前記他の複数の文書から抽出された文に含まれる単語それぞれの構文的距離に基づいて、前記他の複数の文書の各々の特徴ベクトルも算出し、前記主成分ベクトル算出手段は、前記他の複数の文書の各々の特徴ベクトルに基づいて、前記他の複数の文書からなる他の文書群の特徴を表す主成分ベクトルも算出し、前記検索手段は、前記他の複数の文書から抽出された文に含まれる単語のうちから前記他の文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である他の注目単語を含む他の文書も検索し、前記第２算出手段は、前記検索手段により検索された他の文書それぞれから前記他の注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記他の注目単語との構文的距離も算出し、前記第２特徴ベクトル算出手段は、前記他の文書のそれぞれから抽出した文に含まれる単語それぞれの構文的距離に基づいて、前記他の文書それぞれの特徴ベクトルも算出し、前記特定手段は、前記検索手段により検索された他の文書のうち、その特徴ベクトルが前記他の文書群の主成分ベクトルと類似する文書も特定し、前記出力制御手段は、前記特定手段により特定された文書及び他の文書を出力手段に出力させ、前記出力制御手段は、前記特定手段により特定された文書の特徴ベクトルと前記文書群の特徴を表す主成分ベクトルとの類似度と、前記特定手段により特定された他の文書の特徴ベクトルと前記他の文書群の特徴を表す主成分ベクトルとの類似度と、に応じた出力順位で、前記特定手段により特定された文書及び他の文書を前記出力手段に出力させること、を特徴とする。

また、上記課題を解決するための請求項５の発明は、所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第１算出手段、前記第１算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第１特徴ベクトル算出手段、前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段、前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段、前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第２算出手段、前記第２算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第２特徴ベクトル算出手段、前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段、前記特定手段により特定された文書を出力手段に出力させる出力制御手段、としてコンピュータを機能させるためのプログラムである。

なお、上記プログラムは、インターネットなどの通信ネットワークを介して提供されてもよいし、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭなどのコンピュータ読み取り可能な各種情報記録媒体に格納されて提供されてもよい。

また、上記プログラムは、コンピュータ読み取り可能な情報記録媒体に記憶されてもよい。情報記録媒体としては、例えば、磁気テープ、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＭＤ、ＤＶＤ−ＲＯＭ、ＩＣカードなどを用いてもよい。

請求項１、請求項５の発明によれば、検索キーワードを含まないが処理対象文に含まれる各単語と検索キーワードとの構文的距離に基づいて、検索キーワードに関連している文書を検索し、特定することができる。

請求項２の発明によれば、検索キーワードを含まないが検索キーワードに関連している文書を、本構成を有しない場合に比して精度よく検索できる。

請求項３の発明によれば、検索キーワードを含まないが検索キーワードに関連している文書の検索に必要なデータ量を本構成を有しない場合に比して低減することができる。

請求項４の発明によれば、処理対象文書、処理対象文書群の特徴を表すベクトルの類似度に応じた出力順位で検索結果を得ることができる。

情報処理装置の構成を例示する図である。文書データベースの記憶内容を例示する図である。第１テーブルを例示する図である。制御部が実行する処理を例示するフロー図である。制御部が実行する処理を例示するフロー図である。制御部が実行する処理を例示するフロー図である。各単語の評価値Ｓを例示する図である。各単語の評価値Ｓを例示する図である。第３テーブルを例示する図である。第４テーブルを例示する図である。第４テーブルを例示する図である。

以下、本発明の実施形態の例について図面に基づき詳細に説明する。

図１は、本発明の一実施形態に係る情報処理装置１の構成を例示する図である。情報処理装置１は、例えばサーバであり、制御部２、主記憶４、表示部６、及びハードディスク８を備える。なお、情報処理装置１は、キーボードやマウスなどの操作入力手段（不図示）及び通信インタフェース（不図示）なども備えている。

制御部２は、マイクロプロセッサであり、各種情報処理内容に応じて主記憶４に記憶されるプログラムに従って各種情報処理を実行する。主記憶４は、上記プログラムをハードディスク８などから読み込み格納している。このプログラムは、ＤＶＤ（登録商標）−ＲＯＭ等のコンピュータ読取可能な情報記憶媒体から読み出されて主記憶４、ハードディスク８に格納されてもよいし、ネットワーク等の通信網から供給されて主記憶４、ハードディスク８に格納されてもよい。また、主記憶４には、情報処理の過程で必要となる各種データも読み出され、格納される。

表示部６は、ＣＲＴディスプレイや液晶ディスプレイなどであり、制御部２から入力される情報を出力する。

ハードディスク８は、前述のプログラムの他、各種情報を記憶する情報記憶媒体であり、本実施形態の場合、ハードディスク８は、文書データベースを記憶している。図２は、文書データベースの記憶内容を例示する図である。同図に示すように、文書データベースには、複数の電子文書が格納される。同図に示すように、各電子文書に、固有の識別情報であるＤｉｄが付与されている。また、電子文書中の各文に、固有の識別情報であるＳｉｄが付与されている。また、図２に図示していないが、電子文書中の各単語に、固有の識別情報であるＷｉｄが付与されている。なお、同じ単語には同じＷｉｄが付与される。

この情報処理装置１では、文書データベースに格納される各文書に対して形態素解析処理、構文解析、及び意味解析等の自然言語処理が実行され、自然言語処理の結果を示す第１テーブルが、各文ごとにハードディスク８に記憶されるようになっている。図３は、第１テーブルを例示する図である。ここでは、図３は、Ｄｉｄ「Ｄ００１」の電子文書に含まれるＳｉｄ「Ｓ００３」の文「勉強のあとの睡眠は記憶の定着に関係する。」の第１テーブルを例示している。同図に示すように、第１テーブルには、文中の各単語のＷｉｄ及び品詞が格納されている。また、第１テーブルには、各単語の受け語のＷｉｄが格納されている。例えば、「勉強」と「あと」とは係り受け関係にあり、「あと」が「勉強」の受け語となっているので、第１テーブルには、「あと」のＷｉｄである「Ｗ００２」が「勉強」の受け語として格納されている。なお、「関係する」は受け語を有さないので、「関係する」の受け語のＷｉｄとして「０」が格納される。そのため、「０」は受け語がないことを示すことになる。

なお、第１テーブルには、各単語のｔｆ−ｉｄｆ値なども格納される。

この情報処理装置１では、ユーザが検索キーワードを入力すると、検索キーワードを含む電子文書が文書データベースのうちで検索されるようになっている。それだけでなく、この情報処理装置１では、検索キーワードを含まないが検索キーワードに関連している電子文書が漏れなく検索されるようになっている。以下、この点について説明する。

図４は、キーボードやマウスなどの操作入力手段、あるいは通信インタフェースなど通信手段を経由して、検索キーワードが入力された場合に制御部２が実行する処理を例示するフロー図である。図４に示す処理は、制御部２が上記プログラムに従って動作することで実行される。以下、図４に示す処理を説明する。なお、ここでは、検索キーワードが「定着」であるものとする。

制御部２は、文書データベースのうちで検索キーワードを含む電子文書を検索し、検索された複数の電子文書のＤｉｄを取得する（Ｓ１０１）。そして、制御部２（第１算出手段、第１特徴ベクトル算出手段）は、図５に示す処理を検索された電子文書それぞれに対して行うことにより、検索された電子文書それぞれの特徴ベクトルを算出する。以下図５に示す処理について説明する。なお、以下、処理対象となっている電子文書のことを処理対象文書と表記する。

すなわち、制御部２（第１算出手段）は、処理対象文書から検索キーワードを含む文を抽出し、抽出した文それぞれのＳｉｄを取得する（Ｓ２０１）。そして、制御部２（第１算出手段、第１特徴ベクトル算出手段）は、抽出した文それぞれに対して図６に示す処理を実行することにより、それぞれの文の特徴ベクトルを算出する（Ｓ２０２）。以下、図６に示す処理について説明する。なお、以下、処理対象となっている文のことを処理対象文と表記する。

すなわち、制御部２（第１算出手段）は、処理対象文の第１テーブルを参照して、処理対象文に含まれる各単語の検索キーワードからの構文的距離ｒを算出する（Ｓ３０１）。具体的には、制御部２は、検索キーワードとなっている単語の構文的距離ｒを「１」とする。また、制御部２は、検索キーワードの受け語となっている単語（以下、意味キーワードと表記する）の構文的距離ｒも「１」とする。また、制御部２は、構文的距離ｒが「Ｎ」（Ｎは正の整数）の単語に直接係っている単語の構文的距離ｒを「Ｎ＋１」とする。図７に、文「勉強のあとの睡眠は記憶の定着に関係する。」が処理対象文である場合を例示した。同図に示すように、検索キーワードとなっている単語「定着」の構文的距離ｒ、及び意味キーワードとなっている単語「関係する」の構文的距離ｒが「１」となっている。また、構文的距離ｒが「１」である単語「定着」に係っている単語「記憶」の構文的距離ｒと、構文的距離ｒが「１」である単語「関係する」に係っている単語「睡眠」の構文的距離ｒと、がともに「２」となっている。また、構文的距離ｒが「２」である単語「睡眠」に係っている単語「あと」の構文的距離が「３」となっている。また、構文的距離ｒが「３」である単語「あと」に係っている単語「勉強」の構文的距離が「４」となっている。

そして、制御部２（第１特徴ベクトル算出手段）は、処理対象文に含まれる各単語の構文的距離ｒに基づいて、処理対象文の特徴ベクトルを算出する（Ｓ３０２）。具体的には、制御部２は、処理対象文に含まれる各単語につき、その構文的距離ｒに基づいて、評価値Ｓを算出する。本実施形態の場合、制御部２は、処理対象文に含まれる単語の構文的距離ｒの逆数を、その単語の評価値Ｓとして算出する。図７に、「勉強のあとの睡眠は記憶の定着に関係する。」が処理対象文である場合における各単語の評価値Ｓを例示した。また、図８に、他の処理対象文に含まれる各単語の評価値Ｓも例示した。こうして、処理対象文に含まれる単語の評価値Ｓを成分とする特徴ベクトルが算出される。各評価値Ｓにより処理対象文の特徴ベクトルが表される。例えば、「勉強のあとの睡眠は記憶の定着に関係する。」が処理対象文である場合、図７より、当該処理対象文の特徴ベクトルは、（０．２５，０．３３，０．５，０．５，１．０，１．０）となる。なお、図７及び図８に示すテーブル（以下、第２テーブルと表記する）は、処理対象文ごとに生成され、主記憶４に保持される。

図６に示す処理をＳ２０２のステップで実行することにより、処理対象文書から抽出された文それぞれの特徴ベクトルを算出すると、制御部２（第１特徴ベクトル算出手段）は、それらの特徴ベクトルに基づいて、処理対象文書の特徴ベクトルを算出する（Ｓ２０３）。具体的には、制御部２は、処理対象文書から抽出された文それぞれの特徴ベクトルを統合することにより、処理対象文書の特徴ベクトルを算出する。例えば、処理対象文書から抽出された文それぞれについて図７に示す第２テーブルと図８に示す第２テーブルとが生成されている場合、制御部２は、それぞれの第２テーブルを統合して、第３テーブルを生成し、主記憶４に保存する。制御部２は、処理対象文書ごとに第３テーブルを生成することにより、処理対象文書それぞれの特徴ベクトルを算出する。

図９は、図７に示す第２テーブルと第８に示す第２テーブルとを統合してなる第３テーブルを例示する図である。本実施形態の場合、第２テーブルに格納される単語が他の第２テーブルに格納される単語の類義語又は同義語であるか否かを制御部２がハードディスク８に予め記憶されるシソーラスに基づき判定するようになっており、前者の単語が後者の単語の類義語又は同義語である場合、制御部２が、両単語をグループ化し、且つ、それぞれの単語の評価値Ｓの和を、両単語が属するグループの評価値Ｓとして算出するようになっている。例えば、例えば、Ｗｉｄ「Ｗ００１」の単語「勉強」はＷｉｄ「Ｗ００９」の単語「学習」の類義語であるため（図９参照）、両単語がグループ化され、且つ、両単語の評価値Ｓの和が、両単語が属するグループの評価値Ｓとして算出される。また、本実施形態の場合、第２テーブルに格納される名詞である単語が他の第２テーブルに格納される動詞である単語の名詞形の単語であるか否を制御部２が第１テーブルの記憶内容に基づいて判定するようになっており、前者の単語が後者の単語の名詞形の単語である場合、制御部２が、両単語をグループ化し、且つ、それぞれの単語の評価値Ｓの和を、両単語が属するグループの評価値Ｓとして算出するようになっている。例えば、Ｗｉｄ「Ｗ００３」の単語「睡眠」はＷｉｄ「Ｗ００７」の単語「睡眠する」の名詞形の単語であるため（図９参照）、両単語がグループ化され、且つ、両単語の評価値Ｓの和が、両単語が属するグループの評価値Ｓとして算出される。なお、ここでは、グループに属する単語のいずれかのＷｉｄが、そのグループの識別情報として用いられる。

各評価値Ｓにより処理対象文書の特徴ベクトルが表される。本実施形態の場合、第３テーブルに格納されていない単語の評価値Ｓは「０」に設定される。そのため、図９の場合、処理対象文書の特徴ベクトルは、（０．７５，０．３３，１．０，０．５，２．０，１．０，０．５，０，０，…，０）となる。

こうして、Ｓ１０１のステップで検索された複数の電子文書の各々の特徴ベクトルを算出すると、制御部２は、Ｓ１０３のステップで、これらの電子文書を、所定のクラスタリング手法に従って、複数のクラスタに分類する。本実施形態の場合、クラスタリング手法として、Repeated Bisection法が用いられる。なお、他のクラスタリング手法（例えば、K-means法、leader-follower法）が用いられてもよい。

また、制御部２（主成分ベクトル算出手段）は、Ｓ１０３のステップで、各クラスタに対して公知の主成分分析処理を行うことにより、クラスタごとに、当該クラスタの特徴を表す主成分ベクトルを、当該グループに属する複数の電子文書それぞれの特徴ベクトルに基づいて算出することも行う。本実施形態の場合、制御部２は、主成分ベクトル算出処理を行うことによりクラスタごとに第４テーブルを生成する。図１０ＡにあるクラスタＸ（複数の文書、文書群）の第４テーブルを例示した。同図に示すように、第４テーブルには主成分となっている単語（以下、主成分語と表記する）ごとに、主成分ベクトル算出処理で算出されたその主成分語の評価値Ｓ１が格納される。なお、図１０Ｂに、他のクラスタＹ（他の複数の文書、他の文書群）の第４テーブルも例示した。

各評価値Ｓ１によりクラスタの主成分ベクトルが表される。本実施形態の場合、第４テーブルに格納されていない単語の評価値Ｓ１は「０」に設定される。そのため、図１０Ａの場合、クラスタＸの主成分ベクトルは、（０，０，０．５６６１，０．７６５９，０，…，０）となる。

こうして、各クラスタの主成分ベクトルを算出すると、制御部２は、各クラスタに対して、Ｓ１０４〜Ｓ１１２のステップの処理を実行する。以下、Ｓ１０４〜Ｓ１１２のステップについて説明する。なお、以下、処理対象となっているクラスタのことを、処理対象クラスタと表記する。

すなわち、制御部２は、処理対象クラスタに属する電子文書の各々につき、検索キーワード（ここでは、「定着」）との一致度を示す数値を算出する（Ｓ１０４）。

また、制御部２は、いわゆるbag of words検索処理を行うことにより、文書データベースのうちで、処理対象クラスタの主成分語（以下、Ｇキーワードと表記する）を含む電子文書を検索し、検索した電子文書のＤｉｄを取得する（Ｓ１０５）。そして、制御部２は、検索した電子文書それぞれにつき、Ｇキーワードとの一致度を示す数値を算出する（Ｓ１０６）。

また、制御部２（検索手段）は、処理対象クラスタの主成分語ごとに、当該主成分語を含む第１テーブルを読み出し、読み出した第１テーブルに基づいて、処理対象クラスタの主成分語のうちで、検索キーワードを含む語と係り受け関係にある主成分語（以下、注目語と表記する）を特定する（Ｓ１０７）。ここでは、制御部２は、検索キーワードを含む語が受け語となっている主成分語、すなわち、検索キーワードを含む語の係り語となっている主成分語、を特定するが、検索キーワードを含む語の受け語となっている主成分語を特定してもよい。

そして、制御部２（検索手段）は、文書データベースのうちで、注目語を含む電子文書を検索する（Ｓ１０８）。

そして、制御部２（第２算出手段、第２特徴ベクトル算出手段）は、注目語を検索キーワードとしてＳ１０２のステップと同様の処理を行うことにより、Ｓ１０８で検索された電子文書それぞれの特徴ベクトルを算出する（Ｓ１０９）。

そして、制御部２（特定手段）は、Ｓ１０８で検索された電子文書ごとに、その特徴ベクトルと処理対象クラスタの主成分ベクトルとの類似度を示す数値を算出する（Ｓ１１０）。具体的には、制御部２は、Ｓ１０８で検索された電子文書ごとに、その特徴ベクトルの単位ベクトルと、処理対象クラスタの主成分ベクトルの単位ベクトルと、の内積を算出する。

そして、制御部２（特定手段）は、Ｓ１０８で検索された電子文書のうちで、その特徴ベクトルと処理対象クラスタの主成分ベクトルとの類似度が閾値以上の電子文書を特定する（Ｓ１１１）。そして、制御部２は、Ｓ１０５で検索された電子文書それぞれと、Ｓ１１１で特定された電子文書それぞれと、につき、上記検索キーワード（すなわち、「定着」）との一致度を算出する（Ｓ１１２）。Ｓ１０５で検索された電子文書については、原則、Ｓ１０６で算出された「Ｇキーワードとの一致度」が、当該電子文書の「検索キーワードとの一致度」として設定される。また、Ｓ１１１で特定された電子文書については、原則、Ｓ１１０で算出された類似度が、当該電子文書の「検索キーワードとの一致度」として設定される。但し、Ｓ１０５で検索され、且つ、Ｓ１１１で特定もされた電子文書については、制御部２は、Ｓ１０６で算出された「Ｇキーワードとの一致度」とＳ１１０で算出された類似度との平均値を、当該電子文書の「検索キーワードとの一致度」として算出する。

こうして、Ｓ１０４〜Ｓ１１２のステップにより、処理対象クラスタに属する電子文書、Ｓ１０５で検索された電子文書、及びＳ１１１で特定された電子文書、のそれぞれにつき、検索キーワードとの一致度が算出される。また、Ｓ１０４〜Ｓ１１２のステップが全クラスタに対して行われることにより、Ｓ１０１のステップで検索された電子文書、クラスタごとにＳ１０５で検索された電子文書、及びクラスタごとにＳ１１１で特定された電子文書、のそれぞれにつき、検索キーワードとの一致度が算出される。

全クラスタに対してＳ１０４〜Ｓ１１２のステップを実行すると、制御部２（出力制御手段）は、Ｓ１０１のステップで検索された電子文書それぞれ、クラスタごとにＳ１０５で検索された電子文書それぞれ、及びクラスタごとにＳ１１１で特定された電子文書それぞれのリストを、検索結果として表示部６（出力手段）に表示させる（Ｓ１１３）。この際、制御部２は、電子文書のリストを、電子文書それぞれの「検索キーワードとの一致度」に応じた表示順位で表示させる。例えば、制御部２は、電子文書の「検索キーワードとの一致度」が高いほどその電子文書のタイトルを上部に表示させる。

以上のように、情報処理装置１では、特にＳ１０７乃至Ｓ１１１のステップが実行されるので、検索キーワードを含まないが検索キーワードに関連していると判定できる電子文書が検索されるようになる。

なお、本発明の実施形態は上記実施形態だけに限らない。

例えば、制御部２は、再帰的に電子文書のクラスタリングを行ってもよい。例えば、制御部２は、Ｓ１０３のステップのあと、クラスタごとに、当該クラスタの主成分ベクトルと、当該クラスタに属する電子文書それぞれの特徴ベクトルと、の類似度を算出するとともに、クラスタごとに、類似度が低い電子文書、すなわち、クラスタへの所属度が低い電子文書を特定してもよい。そして、制御部２が、所属度が低い電子文書として特定された電子文書の集合を対象に再度Ｓ１０３のステップを実行してもよい。

また、例えばハードディスク８（すなわち、文書データベース）は、情報処理装置１と通信可能なデータベースサーバに設けられてもよい。

１情報処理装置、２制御部、４主記憶、６表示部、８ハードディスク。

Claims

所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第１算出手段と、
前記第１算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第１特徴ベクトル算出手段と、
前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段と、
前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段と、
前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第２算出手段と、
前記第２算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第２特徴ベクトル算出手段と、
前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段と、
前記特定手段により特定された文書を出力手段に出力させる出力制御手段と、
を含む情報処理装置。
前記第１特徴ベクトル算出手段は、
前記複数の文書から抽出された文に含まれる単語それぞれの評価値を、当該当該単語の構文的距離に基づいて算出する評価手段と、
前記評価手段により算出された評価値に基づいて、前記複数の文書の各々の特徴ベクトルを算出する手段と、を含むこと、
を特徴とする請求項１に記載の情報処理装置。
前記第１特徴ベクトル算出手段は、
前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が所定関係にある場合に、当該単語と当該他の単語をグループ化するグループ化手段と、
前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が前記所定関係にある場合に、当該単語と当該他の単語とが所属するグループの評価値を、当該単語の評価値と当該他の単語の評価値と、に基づいて算出する手段と、をさらに含むこと、
を特徴とする請求項２に記載の情報処理装置。
前記第１算出手段は、
前記所与の検索キーワードに基づいて検索された他の複数の文書からも前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出し、
前記第１特徴ベクトル算出手段は、
前記他の複数の文書から抽出された文に含まれる単語それぞれの構文的距離に基づいて、前記他の複数の文書の各々の特徴ベクトルも算出し、
前記主成分ベクトル算出手段は、
前記他の複数の文書の各々の特徴ベクトルに基づいて、前記他の複数の文書からなる他の文書群の特徴を表す主成分ベクトルも算出し、
前記検索手段は、
前記他の複数の文書から抽出された文に含まれる単語のうちから前記他の文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である他の注目単語を含む他の文書も検索し、
前記第２算出手段は、
前記検索手段により検索された他の文書それぞれから前記他の注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記他の注目単語との構文的距離も算出し、
前記第２特徴ベクトル算出手段は、
前記他の文書のそれぞれから抽出した文に含まれる単語それぞれの構文的距離に基づいて、前記他の文書それぞれの特徴ベクトルも算出し、
前記特定手段は、
前記検索手段により検索された他の文書のうち、その特徴ベクトルが前記他の文書群の主成分ベクトルと類似する文書も特定し、
前記出力制御手段は、
前記特定手段により特定された文書及び他の文書を出力手段に出力させ、
前記出力制御手段は、
前記特定手段により特定された文書の特徴ベクトルと前記文書群の特徴を表す主成分ベクトルとの類似度と、前記特定手段により特定された他の文書の特徴ベクトルと前記他の文書群の特徴を表す主成分ベクトルとの類似度と、に応じた出力順位で、前記特定手段により特定された文書及び他の文書を前記出力手段に出力させること、
を特徴とする請求項１に記載の情報処理装置。
所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第１算出手段、
前記第１算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第１特徴ベクトル算出手段、
前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段、
前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段、
前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第２算出手段、
前記第２算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第２特徴ベクトル算出手段、
前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段、
前記特定手段により特定された文書を出力手段に出力させる出力制御手段、
としてコンピュータを機能させるプログラム。