JP7427510B2

JP7427510B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP7427510B2
Application number: JP2020068355A
Authority: JP
Inventors: 光生布目
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-04-06
Filing date: 2020-04-06
Publication date: 2024-02-05
Anticipated expiration: 2040-04-06
Also published as: US20210312130A1; JP2021165892A; US11900060B2

Description

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。

業務において用いた文書をデータベースに記録し、記録した文書群を集計したり、解析したりするＢＩ（ビジネスインテリジェンス）ツールが知られている。ＢＩツールは、事前に定義されている手法により解析された複数の解析結果を、ダッシュボード的に同時に表示させることができる。また、ＢＩツールは、文書群の全体の特徴を俯瞰的に表示させたり、全体を表す情報から詳細を表す情報へとドリルダウンさせながら文書群の特徴を表示させたりすることができる。また、ＢＩツールは、クエリ言語およびインタフェースを用いることにより、ユーザが自由に文書群を分類し、分類単位毎に解析結果を表示させることもできる。

しかしながら、一般に、ＢＩツールは、予め定められたフォームの文書を取り扱う。このため、ＢＩツールは、例えば、自由に記述された文書を含む文書群を解析することは困難であった。また、一般に、ＢＩツールは、事前に定義されている手法により解析された解析結果を表示させるので、ダッシュボード的に複数の解析結果を同時に表示したとしても、ユーザにとって意味の無い解析結果も表示されてしまう可能性があった。また、一般に、ＢＩツールは、固定された観点により解析された解析結果が表示されてしまい、ユーザに新たな気付きを与えたり、ユーザに未知の傾向を把握させたりすることが困難であった。また、一般に、ＢＩツールは、ユーザが解析のための手法を定義する場合には、クエリ言語およびインタフェースを操作しなければならなく、専門的な知識を必要としていた。

特開２０１９－０５３７６４号公報特開２０１９－０６７１９１号公報

本発明が解決しようとする課題は、ユーザに有用な情報を提供するグラフ画像を表示させることができる情報処理装置、情報処理方法およびプログラムを提供することにある。

実施形態に係る情報処理装置は、クラスタリング部と、文書抽出部と、スコア算出部と、クラスタ選択部と、画像生成部とを備える。前記クラスタリング部は、文書群から抽出された複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成する。前記文書抽出部は、前記文書群から、指定キーフレーズに対応する部分文書群を抽出する。前記スコア算出部は、前記複数のクラスタのそれぞれについて、前記部分文書群における前記複数の項目毎の情報量を表すグラフ画像に示された情報の有用性を表すスコアを算出する。前記クラスタ選択部は、前記複数のクラスタのうちの、前記スコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択する。前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する。前記指定キーフレーズである第１キーフレーズについて、前記文書抽出部は、前記部分文書群を抽出し、前記スコア算出部は、前記複数のクラスタのそれぞれについて、前記スコアを算出し、前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する。前記第１キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれの前記グラフ画像が表示された後、前記指定キーフレーズである第２キーフレーズについて、前記文書抽出部は、前記部分文書群を抽出し、前記スコア算出部は、前記複数のクラスタのそれぞれについて、算出対象クラスタに含まれる前記複数の項目における言語性質と、前記第１キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれに含まれる前記複数の項目における言語性質との相違を表す相違度に応じた値に基づき、前記スコアを算出し、前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する。

第１実施形態に係る情報処理装置の構成を示す図。初期画像の表示例を示す図。グラフ画像の表示例を示す図。第１実施形態に係る情報処理装置の事前処理の流れを示すフローチャート。類似フレーズの一例を示す図。共起フレーズの一例を示す図。クラスタリストの一例を示す図。第１実施形態に係る情報処理装置の解析処理の流れを示すフローチャート。第２実施形態に係る情報処理装置の解析処理の流れを示すフローチャート。第２実施形態に係る情報処理装置により表示される画像の遷移を示す図。第３実施形態に係る情報処理装置の構成を示す図。第４実施形態に係る情報処理装置の構成を示す図。第４実施形態に係る情報処理装置による画像の表示例を示す図。情報処理装置のハードウェア構成を示す図。

以下、図面を参照しながら実施形態に係る情報処理装置１０について説明する。各実施形態における同一の参照符号を付した構成要素は、略同一の構成および動作をする。略同一の構成および動作をする構成要素については、相違点を除き重複する説明を適宜省略する。

情報処理装置１０は、業務等で作成された複数の文書を含む文書群の特徴を解析する。そして、情報処理装置１０は、文書群の特徴を表す複数の画像を同時に表示させる。

文書群に含まれるそれぞれの文書は、テキストを含むデータである。文書は、少なくともテキストを含めば、どのようなデータであってもよい。テキストは、どのような言語であってもよく、プログラムコードであってもよい。また、文書のファイル形式は、情報処理装置１０により取り扱いが可能であれば、どのようなものであってもよい。

情報処理装置１０は、文書群に含まれるそれぞれの文書から、１または複数のキーフレーズを抽出する。キーフレーズは、単語または複数の単語が並んだセンテンスである。より詳しくは、キーフレーズは、その文書に含まれる内容を表す単語またはセンテンス、その文書に関連する単語またはセンテンス、または、その文書の特徴を表す単語またはセンテンスである。なお、単語およびセンテンスは、どのような言語であってもよく、プログラムコード中のコード列であってもよいし、テキストに含まれる番号であってもよい。

情報処理装置１０は、文書群から抽出された複数のキーフレーズをクラスタリングすることにより複数のクラスタを生成する。複数のクラスタのそれぞれは、複数の項目を含む。複数の項目は、そのクラスタに含まれる複数のキーフレーズである。すなわち、複数の項目のそれぞれは、単語またはセンテンスである。

また、情報処理装置１０は、文書群から、指定キーフレーズに対応する部分文書群を抽出する。部分文書群は、文書群の一部分である。指定キーフレーズは、複数のキーフレーズの中の１つである。すなわち、指定キーフレーズは、単語またはセンテンスである。

文書群の情報量または部分文書群の情報量は、例えば、文書群または対応する部分文書群に含まれる文書の数である。文書群の情報量または部分文書群の情報量は、例えば、文書群または対応する部分文書群に含まれる文字の数であってもよいし、文書群または対応する部分文書群のデータ量であってもよい。

（第１実施形態）
第１実施形態について説明する。

図１は、第１実施形態に係る情報処理装置１０の構成を示す図である。情報処理装置１０は、文書群記憶部１２と、文書取得部１４と、前処理部１６と、特徴抽出部１８と、クラスタリング部２０と、文書情報記憶部２２と、クラスタ情報記憶部２４と、初期テンプレート記憶部２６と、初期画像生成部２８と、指定キーフレーズ取得部３２と、文書抽出部３４と、スコア算出部３６と、クラスタ選択部３８と、画像テンプレート記憶部４０と、画像生成部４２と、表示制御部４４とを備える。

文書群記憶部１２は、文書群を記憶する。文書取得部１４は、事前処理において、文書群記憶部１２に記憶された文書群に含まれる文書を１つずつ取得する。

前処理部１６は、事前処理において、文書取得部１４が取得した複数の文書のそれぞれに対して、テキスト抽出処理をする。例えば、前処理部１６は、文書に含まれるテキスト以外の不要な部分を削除して、テキストを抽出する。

特徴抽出部１８は、事前処理において、文書取得部１４が取得した複数の文書のそれぞれに対して、前処理部１６により抽出されたテキストを解析することにより１または複数のキーフレーズを抽出する。特徴抽出部１８は、文書取得部１４が取得した文書と、抽出した１または複数のキーフレーズとを対応付けて、文書情報記憶部２２に記憶させる。

クラスタリング部２０は、事前処理において、文書群から抽出された複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成する。クラスタリング部２０は、複数のクラスタのそれぞれ毎に、含まれる複数の項目を表すクラスタリストを生成する。クラスタリング部２０は、生成したクラスタリストをクラスタ情報記憶部２４に記憶させる。また、クラスタリング部２０は、複数のクラスタのそれぞれ毎に識別番号を生成し、識別番号をクラスタリストに含めてもよい。また、クラスタリング部２０は、複数のクラスタのそれぞれ毎に、そのクラスタを代表する代表語を生成し、代表語をクラスタリストに含めてもよい。また、クラスタリング部２０は、複数のクラスタのそれぞれ毎に、含まれる複数の項目の言語的な性質を解析し、複数の項目の言語的な性質を表す言語性質をクラスタリストに含めてもよい。

初期テンプレート記憶部２６は、１または複数の初期画像のそれぞれを生成するための情報を記憶する。例えば、初期テンプレート記憶部２６は、１または複数の初期画像の生成の元となる集計情報を取得するための、文書情報記憶部２２に記憶されたデータベースおよびクラスタ情報記憶部２４に記憶されたクラスタリストに与えるクエリを記憶する。また、例えば、初期テンプレート記憶部２６は、１または複数の初期画像のそれぞれを生成するための画像フォームを記憶する。

初期画像生成部２８は、事前処理の後に実行される解析処理において、初期テンプレート記憶部２６から、１または複数の初期画像の生成の元となる集計情報を取得するためのクエリを取得する。そして、初期画像生成部２８は、取得したクエリを文書情報記憶部２２に記憶されたデータベースおよびクラスタ情報記憶部２４に記憶されたクラスタリストに与えて集計情報を取得する。

さらに、初期画像生成部２８は、初期テンプレート記憶部２６から、１または複数の初期画像のそれぞれを生成するための画像フォームを取得する。そして、初期画像生成部２８は、取得した集計情報および画像フォームに基づき、１または複数の初期画像のそれぞれを生成する。初期画像生成部２８は、生成した１または複数の初期画像を表示制御部４４に与える。

指定キーフレーズ取得部３２は、解析処理において、指定キーフレーズを取得する。例えば、指定キーフレーズ取得部３２は、１または複数の初期画像が表示された後、ユーザにより入力された指定キーフレーズを取得する。また、例えば、指定キーフレーズ取得部３２は、１または複数の初期画像が表示された後、表示履歴または操作履歴等に基づき自動選択された指定キーフレーズを取得してもよい。

文書抽出部３４は、指定キーフレーズが取得された場合、文書群から指定キーフレーズに対応する部分文書群を抽出する。より具体的には、文書抽出部３４は、文書群のうち、対応する１または複数のキーフレーズの中に指定キーフレーズを含んでいる１または複数の文書を抽出する。また、例えば、文書抽出部３４は、文書群のうち、対応する１または複数のキーフレーズの中に指定キーフレーズに類似するフレーズまたは共起されるフレーズを含んでいる１または複数の文書を抽出してもよい。

スコア算出部３６は、指定キーフレーズが取得された場合、クラスタ情報記憶部２４に記憶されたクラスタリストに含まれる複数のクラスタのそれぞれについて、スコアを算出する。スコアは、グラフ画像に示された情報の有用性を表す。グラフ画像は、指定キーフレーズに対応する部分文書群における、対応するクラスタに含まれる複数の項目毎の情報量を表す画像である。スコアは、有用性が高い程、大きい値となる。

クラスタ選択部３８は、指定キーフレーズが取得された場合、複数のクラスタのうちの、スコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択する。クラスタ選択部３８は、例えば、ダッシュボード画像における所定範囲にグラフ画像を表示することが可能な最大数分の表示対象クラスタを選択する。ダッシュボード画像は、複数のグラフ画像等を同時に含むことができる画像である。クラスタ選択部３８は、複数の表示対象クラスタのそれぞれを識別する情報を画像生成部４２に与える。

画像テンプレート記憶部４０は、複数の項目毎の情報量を表すグラフ画像を生成するための画像フォームを記憶する。

画像生成部４２は、指定キーフレーズが取得された場合、複数の表示対象クラスタのそれぞれについて、指定キーフレーズに対応する部分文書群における複数の項目毎の情報量を算出する。例えば、画像生成部４２は、対象となる表示対象クラスタに含まれる複数の項目のそれぞれについて、指定キーフレーズに対応する部分文書群に含まれる文書の数を情報量として算出する。また、画像生成部４２は、対象となる表示対象クラスタに含まれる複数の項目のそれぞれについて、指定キーフレーズに対応する部分文書群に含まれる文字の数またはデータ量を情報量として算出してもよい。

さらに、画像生成部４２は、画像テンプレート記憶部４０に記憶された画像フォームを取得する。そして、画像生成部４２は、複数の表示対象クラスタのそれぞれについて、算出した複数の項目のそれぞれの情報量および画像フォームに基づき、グラフ画像を生成する。画像生成部４２は、生成した複数のグラフ画像を表示制御部４４に与える。

表示制御部４４は、解析処理において、１または複数の初期画像を取得する。表示制御部４４は、１または複数の初期画像をモニタに表示させる。例えば、表示制御部４４は、１または複数の初期画像を、ダッシュボード画像の所定の範囲に合成して表示させる。

また、表示制御部４４は、指定キーフレーズが取得された場合、複数の表示対象クラスタのそれぞれのグラフ画像を取得する。表示制御部４４は、複数の表示対象クラスタのそれぞれのグラフ画像を取得した場合、１または複数の初期画像に加えてまたは代えて、複数の表示対象クラスタのそれぞれのグラフ画像をモニタに表示させる。例えば、表示制御部４４は、複数の表示対象クラスタのそれぞれのグラフ画像を、ダッシュボード画像の所定の範囲に合成して表示させる。

なお、情報処理装置１０は、表示制御部４４を備えない構成であってもよい。この場合、表示制御部４４は、情報処理装置１０以外の装置により実現される。例えば、情報処理装置１０がネットワーク上のサーバ装置である場合、表示制御部４４は、サーバ装置と通信を行って画像処理を実行するクライアント装置または端末装置により実現されてもよい。この場合、表示制御部４４は、クライアント装置または端末装置のモニタに画像を表示させる。

図２は、初期画像を含むダッシュボード画像の一例である第１ダッシュボード画像１１０を示す図である。

解析処理において、情報処理装置１０は、ダッシュボード画像として、図２に示すような、第１ダッシュボード画像１１０をモニタに表示する。

第１ダッシュボード画像１１０は、最初の段階において、初期画像の一例である第１初期画像１１２と、初期画像の一例である第２初期画像１１４とを含む。

第１初期画像１１２は、年毎に、文書群に含まれる文書の数を表す棒グラフを表す。第１初期画像１１２は、横軸が年を表し、縦軸が文書の数を表す。

第２初期画像１１４は、文書群から抽出した複数のキーフレーズを表したタグクラウド図である。例えば、タグクラウド図は、発生頻度等に応じて、表示する大きさおよび濃度等が調整された複数のキーフレーズを含む。また、タグクラウド図は、例えば類似するキーフレーズ同士のフォント、色および向きを共通化している。

なお、初期画像は、円グラフ、折れ線グラフ、棒グラフ、累積値を表す折れ線グラフを組み合わせたパレート図、または、共起ネットワーク図等であってもよい。また、初期画像は、横軸がクラスタリストに含まれる複数のクラスタを示し、縦軸が対応するクラスタの情報量を示す棒グラフであってもよい。また、クラスタリストに含まれる複数のクラスタの数が多い場合には、横軸は、クラスタリストに含まれる複数のクラスタのうちの情報量の多い一部のクラスタを示してもよい。また、クラスタリストに含まれる複数のクラスタの数が多い場合には、横軸は、いくつかのクラスタをまとめた単位であってもよい。

さらに、第１ダッシュボード画像１１０は、ユーザが指定キーフレーズを入力するための入力ボックス１２０を含む。情報処理装置１０は、ユーザにより入力ボックス１２０に直接入力された用語を指定キーフレーズとして取得する。また、情報処理装置１０は、複数のキーフレーズを含むプルダウンメニュー等を表示させて、ユーザに指定キーフレーズを選択させてもよい。

また、初期画像としてタグクラウド図を表示している場合、情報処理装置１０は、ユーザによりタグクラウド図に含まれる何れかのキーフレーズが選択された場合、選択されたキーフレーズを指定キーフレーズとして取得してもよい。また、横軸が複数のクラスタを示すような初期画像を表示している場合、情報処理装置１０は、ユーザにより何れかのクラスタが選択された場合、選択されたクラスタの代表語を指定キーフレーズとして取得してもよい。

さらに、第１ダッシュボード画像１１０は、項目情報１２２を含む。項目情報１２２は、入力ボックス１２０に入力された指定キーフレーズに対応するクラスタに含まれる複数の項目を表す。例えば、情報処理装置１０は、入力ボックス１２０に何れかのクラスタの代表語が仮入力された場合、項目情報１２２を表示する。

また、第１ダッシュボード画像１１０は、サーチボタン１２４を含む。入力ボックス１２０に指定キーフレーズが仮入力された状態で、サーチボタン１２４が押された場合、情報処理装置１０は、指定キーフレーズを取得し、複数のグラフ画像を生成し、生成した複数のグラフ画像を第１ダッシュボード画像１１０に追加する。

図３は、グラフ画像を含む第１ダッシュボード画像１１０の一例を示す図である。情報処理装置１０は、入力ボックス１２０に指定キーフレーズが入力された状態で、サーチボタン１２４が押された場合、図３に示すような、第１ダッシュボード画像１１０をモニタに表示する。また、例えば第２初期画像１１４のようなタグクラウド図を表示している場合、情報処理装置１０は、ユーザによりタグクラウド図に含まれる何れかのキーフレーズが選択されたことに応じて、図３に示すような第１ダッシュボード画像１１０をモニタに表示してもよい。

図３に示す第１ダッシュボード画像１１０は、第１グラフ画像１３２、第２グラフ画像１３４、第３グラフ画像１３６および第４グラフ画像１３８を、さらに含む。第１グラフ画像１３２、第２グラフ画像１３４、第３グラフ画像１３６および第４グラフ画像１３８のそれぞれは、指定キーフレーズとして“紛失”を取得した場合に表示されるグラフ画像の一例である。

第１グラフ画像１３２、第２グラフ画像１３４、第３グラフ画像１３６および第４グラフ画像１３８は、複数のクラスタのうちスコアが最上位から４番目までの４つの表示対象クラスタに基づき生成されたグラフ画像である。

第１グラフ画像１３２は、指定キーフレーズとして“紛失”を入力した場合に抽出される部分文書群における、代表語が“プロセス”のクラスタに含まれる複数の項目毎の情報量を表す棒グラフである。第２グラフ画像１３４は、指定キーフレーズとして“紛失”を入力した場合に抽出される部分文書群における、代表語が“事象”のクラスタに含まれる複数の項目毎の情報量を表す棒グラフである。

第３グラフ画像１３６は、指定キーフレーズとして“紛失”を入力した場合に抽出される部分文書群における、代表語が“原因”のクラスタに含まれる複数の項目毎の情報量を表す棒グラフである。第４グラフ画像１３８は、指定キーフレーズとして“紛失”を入力した場合に抽出される部分文書群における、代表語が“担当者”のクラスタに含まれる複数の項目毎の情報量を表す棒グラフである。

図４は、第１実施形態に係る情報処理装置１０の事前処理の流れを示すフローチャートである。図５は、類似フレーズの一例を示す図である。図６は、共起フレーズの一例を示す図である。図７は、クラスタテーブルの一例を示す図である。

情報処理装置１０は、図４に示す流れで事前処理を実行する。事前処理において、まず、情報処理装置１０は、文書群に含まれる文書毎に、Ｓ１２～Ｓ１４の処理を実行する（Ｓ１１とＳ１５との間のループ処理）。

Ｓ１２において、情報処理装置１０は、対象の文書に対して、テキスト抽出処理をする。例えば、情報処理装置１０は、文書に含まれるテキスト以外の不要な部分を削除して、テキストを抽出する。

より具体的には、例えば、情報処理装置１０は、対象の文書のファイルフォーマットを考慮して、１または複数のデータ項目、および、１または複数のデータ項目のそれぞれに対応する情報内容を抽出する。情報処理装置１０は、１または複数のデータ項目のそれぞれを解析して、対象の文書の実質的な内容を表すテキストが含まれるデータ項目を特定する。そして、例えば、情報処理装置１０は、特定したデータ項目に対応する情報内容から、そのデータ項目に依存する情報（例えば、見出しおよび記号等）を削除して、テキストを取得する。

続いて、Ｓ１３において、情報処理装置１０は、対象の文書から抽出されたテキストに対して、例えば形態素解析および複合語抽出処理等を行って、取得した文書に対する１または複数のキーフレーズを生成する。

さらに、情報処理装置１０は、生成した１または複数のキーフレーズのそれぞれの分散表現を取得する。そして、情報処理装置１０は、生成した１または複数のキーフレーズのそれぞれについて、１または複数の類似フレーズを取得する。例えば、情報処理装置１０は、分散表現とされたキーフレーズを、テキストにおける前後に含まれる分散表現とされた単語とともに、ニューラルネットワークに与えることにより、そのキーフレーズと類似した類似フレーズを、類似度とともに取得することができる。

例えば、図５に示すように、情報処理装置１０は、“障害物”がキーフレーズである場合、“歩行者”および“車”等を類似フレーズとして取得する。また、情報処理装置１０は、“転倒”がキーフレーズである場合、“怪我”および“落下”等を類似フレーズとして取得する。情報処理装置１０は、複数のキーフレーズのそれぞれについて、例えば、類似度が上位から所定個の類似フレーズを取得する。また、情報処理装置１０は、図５のカッコ内に示すように、類似フレーズとともに、類似度を表す数値を取得してもよい。

また、さらに、情報処理装置１０は、生成した１または複数のキーフレーズのそれぞれについて、そのキーフレーズとともに同一の文に含まれる可能性の高い１または複数の共起フレーズを取得してもよい。例えば、情報処理装置１０は、文章に出現する単語の共起情報に基づいて、キーフレーズに対する共起フレーズを取得する。また、例えば、情報処理装置１０は、共起フレーズとともに、ｊａｃｃａｒｄ係数等に基づき、同一の文に含まれる可能性を表す係数を算出してもよい。

例えば、図６に示すように、情報処理装置１０は、“不備”がキーフレーズである場合、“置”を共起フレーズとして取得する。この場合、情報処理装置１０は、係数として、０．０８５５０を算出している。

続いて、Ｓ１４において、情報処理装置１０は、対応する文書と、抽出した１または複数のキーフレーズとを対応付けて、文書情報記憶部２２に記憶させる。さらに、情報処理装置１０は、類似フレーズおよび共起フレーズを取得した場合、これらも併せて文書情報記憶部２２に記憶させる。

情報処理装置１０は、文書群に含まれる全ての文書についてＳ１３およびＳ１４の処理を終了した場合（Ｓ１５）、処理をＳ１６に進める。

Ｓ１６において、情報処理装置１０は、文書群に含まれる複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成する。例えば、情報処理装置１０は、ｋ－ｍｅａｎｓ法等のボトムアップクラスタリング法により、複数のクラスタを生成する。例えば、情報処理装置１０は、予めクラスタ数の閾値を設定しておき、クラスタ数が閾値に達するまでクラスタリングをする。

例えば、図７に示すように、情報処理装置１０は、複数のクラスタのそれぞれ毎に、含まれる複数の項目を表すクラスタリストを生成する。情報処理装置１０は、複数のクラスタのそれぞれに、クラスタを識別するための識別番号を割り当てて、クラスタリストに含める。また、情報処理装置１０は、複数のクラスタのそれぞれ毎に、そのクラスタを代表する代表語を生成し、クラスタリストに含める。代表語は、対応するクラスタに含まれる複数の項目のうちの何れか１つであってもよいし、複数の項目に共通する概念を表す用語であってもよい。

さらに、情報処理装置１０は、複数のクラスタのそれぞれ毎に、含まれる複数の項目の言語的な性質を解析し、複数の項目の言語的な性質を表す言語性質を特定し、特定した言語性質をクラスタリストに含める。例えば、情報処理装置１０は、対応するクラスタに含まれる複数の項目がオブジェクトまたはアクションの何れを表すかを判断し、判断結果を対応するクラスタの言語性質としてもよい。例えば、情報処理装置１０は、複数の項目に、名詞、品目、型番および機器名等が多く含まれる場合には、オブジェクトとして判断してもよい。また、例えば、情報処理装置１０は、複数の項目に、現象および動作等が多く含まれる場合には、アクションとして判断してもよい。また、情報処理装置１０は、複数の項目が表す内容をさらに詳細に解析して、言語性質をさらに詳細に区別して判断してもよい。

続いて、Ｓ１７において、情報処理装置１０は、生成したクラスタリストをクラスタ情報記憶部２４に記憶させる。情報処理装置１０は、Ｓ１７の処理を終了すると、図４の事前処理のフローを終了する。

図８は、第１実施形態に係る情報処理装置１０の解析処理の流れを示すフローチャートである。情報処理装置１０は、図４に示す事前処理が終了した後、ユーザ等の指示に応じて図８に示す解析処理を実行する。

まず、Ｓ２１において、情報処理装置１０は、予め設定された１または複数の初期画像を生成する。例えば、情報処理装置１０は、１または複数の初期画像のそれぞれについて、初期テンプレート記憶部２６からクエリを取得する。そして、情報処理装置１０は、取得したクエリを文書情報記憶部２２およびクラスタ情報記憶部２４に与えて、１または複数の初期画像のそれぞれを生成するための集計情報を取得する。

さらに、情報処理装置１０は、１または複数の初期画像のそれぞれについて、初期テンプレート記憶部２６から画像フォームを取得する。そして、情報処理装置１０は、取得した集計情報および画像フォームに基づき、１または複数の初期画像のそれぞれを生成する。

続いて、Ｓ２２において、情報処理装置１０は、１または複数の初期画像をモニタに表示させる。この場合において、情報処理装置１０は、例えば、ダッシュボード画像上に１または複数の初期画像を合成して、モニタに表示させる。

続いて、Ｓ２３において、情報処理装置１０は、ユーザにより指定された指定キーフレーズを取得する。これに代えて、情報処理装置１０は、表示履歴または操作履歴等に基づき自動選択された指定キーフレーズを取得してもよい。

続いて、Ｓ２４において、情報処理装置１０は、文書群から指定キーフレーズに対応する部分文書群を抽出する。より具体的には、情報処理装置１０は、文書群のうち、対応する１または複数のキーフレーズの中に指定キーフレーズを含んでいる１または複数の文書を抽出する。また、情報処理装置１０は、文書群のうち、対応する１または複数のキーフレーズの中に、指定キーフレーズに類似するまたは共起されるフレーズを含んでいる１または複数の文書を抽出してもよい。

続いて、Ｓ２５からＳ２７のループ処理において、情報処理装置１０は、クラスタ情報記憶部２４に記憶されたクラスタリストに含まれる複数のクラスタのそれぞれについて、スコアを算出する。スコアは、指定キーフレーズに対応する部分文書群における、対応するクラスタに含まれる複数の項目毎の情報量を表すグラフ画像に示された情報の有用性を表す。スコアは、有用性が高い程、大きい値となる。なお、スコアの算出例については、詳細を後述する。情報処理装置１０は、複数のクラスタの全てについてスコアを算出した場合、処理をＳ２８に進める。

Ｓ２８において、情報処理装置１０は、複数のクラスタのうちの、算出されたスコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択する。情報処理装置１０は、例えば、ダッシュボード画像における所定の表示範囲内にグラフ画像を表示することが可能な最大数分の表示対象クラスタを選択する。

続いて、Ｓ２９において、情報処理装置１０は、複数の表示対象クラスタのそれぞれに対応するグラフ画像を生成する。例えば、情報処理装置１０は、複数の表示対象クラスタのそれぞれについて、指定キーフレーズに対応する部分文書群における複数の項目毎の情報量を算出する。例えば、情報処理装置１０は、対象となる表示対象クラスタに含まれる複数の項目のそれぞれについて、部分文書群に含まれる文書の数を情報量として算出する。また、情報処理装置１０は、対象となる表示対象クラスタに含まれる複数の項目のそれぞれについて、部分文書群に含まれる文字の数またはデータ量を情報量として算出してもよい。

さらに、情報処理装置１０は、画像テンプレート記憶部４０に記憶された画像フォームを取得する。そして、情報処理装置１０は、複数の表示対象クラスタのそれぞれについて、算出した複数の項目のそれぞれの情報量および画像フォームに基づき、グラフ画像を生成する。

続いて、Ｓ３０において、情報処理装置１０は、複数の表示対象クラスタのそれぞれのグラフ画像を、１または複数の初期画像に追加してモニタに表示させる。例えば、情報処理装置１０は、複数の表示対象クラスタのそれぞれのグラフ画像を、ダッシュボード画像上に１または複数の初期画像とともに合成して表示させる。

そして、第１実施形態に係る情報処理装置１０は、Ｓ３０の終了の後に、解析処理のフローを終了する。

つぎに、第１実施形態において情報処理装置１０のスコア算出部３６が算出する、複数のクラスタのそれぞれのスコアについて説明する。

情報処理装置１０は、ｉ番目（ｉは１以上の整数）のクラスタに対して、下記の式（１）の演算を行い、スコアを算出する。
Ｓｘ（ｉ）＝Ａ×Ｂ…（１）

Ａは、ｉ番目のクラスタのカバー率に応じた値である。カバー率とは、文書群の情報量に対する、算出対象クラスタ（ｉ番目のクラスタ）に属する複数の文書の情報量の割合を示す。例えば、Ａは、正の整数である。Ａは、カバー率が大きい程、大きい。

Ｂは、指定キーフレーズに対応する部分文書群における、算出対象クラスタ（ｉ番目のクラスタ）に含まれる複数の項目毎の情報量の特定の項目への集中度に応じた値である。より具体的には、Ｂは、算出対象クラスタ（ｉ番目のクラスタ）に含まれる複数の項目毎の情報量が特定の項目に情報量が集中している程、大きくなり、算出対象クラスタに含まれる複数の項目毎の情報量が多数の項目にばらついているほど、小さくなる。例えば、Ｂは、正の整数である。Ｂは、分散の逆数が大きい程、大きい。例えば、Ｂは、算出対象クラスタに含まれる複数の項目毎の情報量の分散の逆数に応じた値であってもよい。

Ｓｘ（ｉ）は、大きい程、有用性が高い。従って、情報処理装置１０は、複数のクラスタのうちの、Ｓｘ（ｉ）が大きい順に所定個を複数の表示対象クラスタとして選択する。

ここで、Ｓｘ（ｉ）は、Ａが大きい程、大きくなる。従って、情報処理装置１０は、算出対象クラスタについて、カバー率が大きい程、グラフ画像に示された情報の有用性が高いとして、スコアを大きくする。カバー率が大きいクラスタのグラフ画像は、文書群の全体の特徴に近い特徴を表し、ユーザに文書群の全体の傾向を気付かせることができる。

このように、情報処理装置１０は、文書群の情報量に対する、算出対象クラスタに属する複数の文書の情報量の割合を示すカバー率に基づき、スコアを算出する。この場合、情報処理装置１０は、カバー率が大きい程、スコアを大きくする。これにより、情報処理装置１０は、文書群の全体の特徴に近いクラスタについてのグラフ画像を表示させることができ、ユーザに有用な情報を提供することができる。

また、Ｓｘ（ｉ）は、Ｂが大きい程、大きくなる。従って、情報処理装置１０は、算出対象クラスタについて、集中度が大きい程（すなわち、情報量が特定の項目に集中している程）、グラフ画像に示された情報の有用性が高いとして、スコアを大きくする。集中度が大きいクラスタのグラフ画像は、ある特定の項目の情報量が著しく大きく、他の複数の項目の情報量が小さいようなグラフを表す。このようなグラフ画像は、部分文書群についての特異な特徴を表しており、ユーザに新たな気付きを与えることができる。

このように、情報処理装置１０は、算出対象クラスタについて、部分文書群における複数の項目毎の情報量の集中度に基づき、スコアを算出する。この場合、情報処理装置１０は、集中度が大きい程、スコアを大きくする。これにより、情報処理装置１０は、部分文書群の特異な特徴を表すクラスタについてのグラフ画像を表示させることができ、ユーザに有用な情報を提供することができる。

なお、式（１）は、ＡとＢとの乗算を表している。しかし、式（１）は、Ａが大きくなるほど、Ｓｘ（ｉ）が大きくなり、且つ、Ｂが大きくなるほど、Ｓｘ（ｉ）が大きくなれば、他の演算（例えばＡとＢとの加算）であってもよい。

以上のように、本実施形態に係る情報処理装置１０は、文書群から抽出された複数のキーフレーズをクラスタリングすることにより複数のクラスタを生成する。さらに、指定キーフレーズを取得した場合、情報処理装置１０は、複数のクラスタのそれぞれについて、スコアを算出する。そして、情報処理装置１０は、スコアが最上位から予め定められた順位までの複数の表示対象クラスタに対応する複数のグラフ画像を表示させる。

これにより、本実施形態に係る情報処理装置１０は、ユーザに有用な情報を提供するグラフ画像を表示させることができる。

（第２実施形態）
つぎに、第２実施形態について説明する。

第２実施形態に係る情報処理装置１０は、第１実施形態に係る情報処理装置１０と同一の構成を有する。第２実施形態に係る情報処理装置１０は、第１実施形態と比較して、指定キーフレーズを複数回取得することが相違する。

図９は、第２実施形態に係る情報処理装置１０の解析処理の流れを示すフローチャートである。

第２実施形態に係る情報処理装置１０は、解析処理において、第１実施形態と同様にＳ２１からＳ３０までの処理を実行する。ただし、第２実施形態に係る情報処理装置１０は、Ｓ３０の終了の後に、解析処理のフローを終了せずに、処理をＳ２３に戻して、再度、指定キーフレーズを取得する。そして、第２実施形態に係る情報処理装置１０は、指定キーフレーズを取得する毎に、Ｓ２３からＳ３０の処理を繰り返して実行する。

図１０は、第２実施形態に係る情報処理装置１０により表示される画像の遷移を示す図である。

例えば、情報処理装置１０は、初期画像が表示された後に、指定キーフレーズとして第１キーフレーズを取得したとする。この場合、第１キーフレーズについて、情報処理装置１０は、部分文書群を抽出し、複数のクラスタのそれぞれについてスコアを算出し、複数の表示対象クラスタを選択し、複数の表示対象クラスタのそれぞれのグラフ画像を生成し、複数の表示対象クラスタのそれぞれのグラフ画像を表示させる。

続いて、第１キーフレーズについて選択された複数の表示対象クラスタのそれぞれのグラフ画像が表示された後、情報処理装置１０は、指定キーフレーズとして第２キーフレーズを取得したとする。この場合、第２キーフレーズについて、情報処理装置１０は、部分文書群を抽出し、複数のクラスタのそれぞれについてスコアを算出し、複数の表示対象クラスタを選択し、複数の表示対象クラスタのそれぞれのグラフ画像を生成し、複数の表示対象クラスタのそれぞれのグラフ画像を表示させる。

この場合において、情報処理装置１０は、第１キーフレーズについて選択された複数の表示対象クラスタのそれぞれのグラフ画像に追加して、第２キーフレーズについて選択された複数の表示対象クラスタのそれぞれのグラフ画像を表示させる。これにより、情報処理装置１０は、第１キーフレーズに対応する部分文書群の特徴と、第２キーフレーズに対応する部分文書群の特徴とを並べてユーザに提示することができる。なお、情報処理装置１０は、さらに、第２キーフレーズの後に指定される指定キーフレーズである第３キーフレーズ以降も、同様に処理を実行してもよい。

また、第２キーフレーズについて、情報処理装置１０は、文書群の全体から、第２キーフレーズに対応する部分文書群を抽出する。これにより、情報処理装置１０は、文書群の全体の中における第２キーフレーズに対応する部分文書群の特徴をユーザに提示することができる。

また、第２キーフレーズについて、情報処理装置１０は、第１キーフレーズに対応する部分文書群から、第２キーフレーズに対する部分文書群を抽出してもよい。これにより、情報処理装置１０は、第１キーフレーズに対応する部分文書群を第２キーフレーズでさらにドリルダウンした部分文書群の特徴をユーザに提示することができる。

つぎに、第２実施形態において情報処理装置１０のスコア算出部３６が算出する、複数のクラスタのそれぞれのスコアについて説明する。

まず、第１キーフレーズについて、情報処理装置１０は、第１実施形態と同様にスコアを算出する。すなわち、情報処理装置１０は、式（１）に示す演算を行い、スコアを算出する。

第２キーフレーズが取得された場合、情報処理装置１０は、ｉ番目（ｉは１以上の整数）のクラスタに対して、下記の式（２）の演算を行い、スコアを算出する。
Ｓｘ（ｉ）＝Ａ×Ｂ×Ｃ…（２）

式（２）において、ＡおよびＢは、式（１）と同様である。

Ｃは、ｉ番目のクラスタに含まれる複数の項目における言語性質と、第１キーフレーズについて選択された複数の表示対象クラスタのそれぞれに含まれる複数の項目における言語性質との相違を表す相違度に応じた値を表す。より具体的には、Ｃは、算出対象クラスタ（ｉ番目のクラスタ）に含まれる複数の項目毎の言語性質と、第１キーフレーズについて選択された複数の表示対象クラスタのそれぞれに含まれる複数の項目における言語性質とが、異なっている程、大きくなり、類似している程、小さくなる。例えば、Ｃは、正の整数である。Ｃは、相違度が大きい程、大きい。例えば、Ｃは、ｉ番目のクラスタに含まれる複数の項目における言語性質と、第１キーフレーズについて選択された複数の表示対象クラスタのそれぞれに含まれる複数の項目における言語性質との類似度の逆数に応じた値であってもよい。

ここで、Ｓｘ（ｉ）は、Ｃが大きい程、大きくなる。従って、情報処理装置１０は、算出対象クラスタ（ｉ番目のクラスタ）について、相違度が大きい程、グラフ画像に示された情報の有用性が高いとして、スコアを大きくする。相違度の大きいクラスタのグラフ画像は、これまでに表示されていない種類のグラフ画像であり、ユーザに新たな気付きを与えることができる。

例えば、情報処理装置１０は、複数の表示対象クラスタにおける、算出対象クラスタ（ｉ番目のクラスタ）と同一の言語性質のクラスタの割合が小さい程、スコアを大きくする。より具体的には、例えば、情報処理装置１０は、ｉ番目のクラスタの言語性質がオブジェクトである場合、複数の表示対象クラスタにおける、言語性質がオブジェクトのクラスタの割合が小さい程、相違度が大きいとしてスコアを大きくする。また、例えば、情報処理装置１０は、ｉ番目のクラスタの言語性質がアクションである場合、複数の表示対象クラスタにおける、言語性質がアクションのクラスタの割合が小さい程、相違度が大きいとして、スコアを大きくする。

なお、式（２）は、ＡとＢとＣとの乗算を表している。しかし、式（２）は、Ａ、ＢおよびＣのそれぞれが大きくなるほど、Ｓｘ（ｉ）が大きくなれば、他の演算（例えばＡとＢとＣとの加算）であってもよい。

また、第２キーフレーズの後に、指定キーフレーズとして第３キーフレーズが指定された場合においても、情報処理装置１０は、ｉ番目のクラスタに対して、式（２）の演算を行い、スコアを算出する。この場合において、Ｃは、ｉ番目のクラスタに含まれる複数の項目における言語性質と、これまでに選択された複数の表示対象クラスタのそれぞれに含まれる複数の項目における言語性質との相違度に応じた値を表す。第４キーフレーズ以降も同様である。

以上のような、本実施形態に係る情報処理装置１０は、複数の指定キーフレーズのそれぞれに対応する部分文書群の特徴を表す複数のグラフ画像を同時に表示させる場合において、ユーザに有用な情報を提供するグラフ画像を表示させることができる。

（第３実施形態）
つぎに、第３実施形態について説明する。

図１１は、第３実施形態に係る情報処理装置１０の構成を示す図である。第３実施形態に係る情報処理装置１０は、第１実施形態および第２実施形態に係る情報処理装置１０と同一の構成を有する。

第３実施形態に係る情報処理装置１０は、第１実施形態および第２実施形態と比較して、有用性情報取得部６２と、履歴記憶部６４とをさらに備える。

有用性情報取得部６２は、指定キーフレーズについての複数の表示対象クラスタのそれぞれのグラフ画像に対する、ユーザによる有用性の判断結果を受け付ける。

例えば、表示制御部４４は、複数の表示対象クラスタのそれぞれのグラフ画像を表示させるとともに、それぞれのグラフ画像に対応させて有用であるか否かの判断結果を入力するボタン等のユーザインタフェースを表示させる。そして、有用性情報取得部６２は、このユーザインタフェースに対する入力結果を、有用性の判断結果として取得する。また、有用性情報取得部６２は、複数の表示対象クラスタのそれぞれのグラフ画像が表示された後、ユーザの操作によりグラフ画像が消去されたか否かを取得してもよい。この場合、有用性情報取得部６２は、ユーザの操作により消去されたグラフ画像を、ユーザが有用ではないとする判断結果として取得する。

履歴記憶部６４は、指定キーフレーズと、ユーザから受け付けた判断結果との組を含む履歴情報を記憶する。履歴記憶部６４は、使用しているユーザを識別するユーザＩＤをさらに含む履歴情報を記憶してもよい。

そして、第３実施形態において、スコア算出部３６は、指定キーフレーズについての履歴情報に基づき、複数のクラスタのそれぞれについてのスコアを算出する。例えば、スコア算出部３６は、算出対象クラスタが、指定キーフレーズについて有用であると履歴情報に示されている程、スコアを大きくする。

例えば、スコア算出部３６は、過去において、算出対象クラスタについてのグラフ画像が、指定キーフレーズに対応する部分文書群の解析に有用であるとユーザにより判断がされている場合、スコアを大きくする。反対に、スコア算出部３６は、有用でないとユーザにより判断されている場合、スコアを小さくする。

また、例えば、スコア算出部３６は、過去において、予め設定されたユーザが、算出対象クラスタについてのグラフ画像が、指定キーフレーズに対応する部分文書群の解析に有用であると判断している場合に、スコアを大きくする。予め設定されたユーザは、例えば、経験の豊富なユーザ等である。

以上のような、本実施形態に係る情報処理装置１０は、ユーザの過去の判断結果に基づき、ユーザにより有用な情報を提供するグラフ画像を表示させることができる。

（第４実施形態）
つぎに、第４実施形態について説明する。

図１２は、第４実施形態に係る情報処理装置１０の構成を示す図である。第４実施形態に係る情報処理装置１０は、第１実施形態、第２実施形態および第３実施形態に係る情報処理装置１０と同一の構成を有する。

第４実施形態に係る情報処理装置１０は、第１実施形態、第２実施形態および第３実施形態と比較して、種別選択部７２をさらに備える。

画像テンプレート記憶部４０は、グラフ画像を生成するための複数種類の画像フォームを記憶する。例えば、画像テンプレート記憶部４０は、棒グラフを生成するための画像フォーム、円グラフを表示するための画像フォーム、および、パレート図を表示するための画像フォームを記憶する。画像テンプレート記憶部４０は、これら以外のグラフ画像を生成するための情報を記憶してもよい。

さらに、画像テンプレート記憶部４０は、グラフ画像以外の、クラスタの特徴を表す複数の特徴画像を生成するための画像フォームを記憶してもよい。例えば、画像テンプレート記憶部４０は、タグクラウド図を生成するための画像フォーム、および、共起ネットワーク図を生成するための画像フォームを記憶してもよい。

種別選択部７２は、クラスタ選択部３８により選択された複数の表示対象クラスタのそれぞれについて、グラフ画像を生成するための複数種類の画像フォームのうち、何れの画像フォームによりグラフ画像を生成するか否かを選択する。例えば、種別選択部７２は、複数の表示対象クラスタのそれぞれについて、複数種類の画像フォームのそれぞれについて評価値を算出し、評価値の最も高い画像フォームを選択する。

さらに、種別選択部７２は、グラフ画像以外のクラスタの特徴を表す複数の特徴画像、および、複数の表示対象クラスタのそれぞれのグラフ画像のうちの、予め定められた個数の画像を選択する。予め定められた個数は、例えば、ダッシュボード画像の所定の範囲に含めることができる画像の最大数である。

種別選択部７２は、例えば、複数の特徴画像のそれぞれ、および、複数のグラフ画像のそれぞれについて、評価値を算出する。評価値は、その画像に示される情報の有用性を表す。種別選択部７２は、複数の特徴画像、および、複数のグラフ画像のうちの、評価値が最上位から予め定められた順位までの画像を選択する。

画像生成部４２は、複数の特徴画像および複数のグラフ画像のうち、種別選択部７２により選択された複数の画像を生成する。そして、表示制御部４４は、画像生成部４２により生成された複数の画像を、ダッシュボード画像の所定の範囲に合成して表示させる。

図１３は、第４実施形態に係る情報処理装置１０による画像の表示例を示す図である。第４実施形態において、情報処理装置１０は、入力ボックス１２０に指定キーフレーズが入力された状態で、サーチボタン１２４が押された場合、図１３に示すような、第１ダッシュボード画像１１０をモニタに表示する。

図１３に示す第１ダッシュボード画像１１０は、第１グラフ画像１３２、第２グラフ画像１３４および第３グラフ画像１３６に加えて、共起ネットワーク画像１５２を含む。このように、第４実施形態に係る情報処理装置１０は、グラフ画像に加えて、部分文書群の特徴を表す共起ネットワーク画像１５２等の特徴画像を表示することができる。

以上のように、本実施形態に係る情報処理装置１０は、様々な種類の画像のうちユーザにより有用な情報を提供する画像を表示させることができる。

（ハードウェア構成）
図１４は、実施形態に係る情報処理装置１０のハードウェア構成の一例を示す図である。情報処理装置１０は、例えば図１４に示すようなハードウェア構成のコンピュータにより実現される。情報処理装置１０は、ＣＰＵ（Central Processing Unit）３０１と、ＲＡＭ（Random Access Memory）３０２と、ＲＯＭ（Read Only Memory）３０３と、操作入力装置３０４と、表示装置３０５と、記憶装置３０６と、通信装置３０７とを備える。そして、これらの各部は、バスにより接続される。

ＣＰＵ３０１は、プログラムに従って演算処理および制御処理等を実行するプロセッサである。ＣＰＵ３０１は、ＲＡＭ３０２の所定領域を作業領域として、ＲＯＭ３０３および記憶装置３０６等に記憶されたプログラムとの協働により各種処理を実行する。

ＲＡＭ３０２は、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）等のメモリである。ＲＡＭ３０２は、ＣＰＵ３０１の作業領域として機能する。ＲＯＭ３０３は、プログラムおよび各種情報を書き換え不可能に記憶するメモリである。

操作入力装置３０４は、マウスおよびキーボード等の入力デバイスである。操作入力装置３０４は、ユーザから操作入力された情報を指示信号として受け付け、指示信号をＣＰＵ３０１に出力する。

表示装置３０５は、ＬＣＤ（Liquid Crystal Display）等の表示デバイスである。表示装置３０５は、ＣＰＵ３０１からの表示信号に基づいて、各種情報を表示する。

記憶装置３０６は、フラッシュメモリ等の半導体による記憶媒体、または、磁気的若しくは光学的に記録可能な記憶媒体等にデータを書き込みおよび読み出しをする装置である。記憶装置３０６は、ＣＰＵ３０１からの制御に応じて、記憶媒体にデータの書き込みおよび読み出しをする。通信装置３０７は、ＣＰＵ３０１からの制御に応じて外部の機器とネットワークを介して通信する。

情報処理装置１０で実行されるプログラムは、文書取得モジュールと、前処理モジュールと、特徴抽出モジュールと、クラスタリングモジュールと、初期画像生成モジュールと、指定キーフレーズ取得モジュールと、文書抽出モジュールと、スコア算出モジュールと、クラスタ選択モジュールと、画像生成モジュールと、表示制御モジュールとを含むモジュール構成となっている。このプログラムは、ＣＰＵ３０１（プロセッサ）によりＲＡＭ３０２上に展開して実行されることにより、情報処理装置１０を文書取得部１４、前処理部１６、特徴抽出部１８、クラスタリング部２０、初期画像生成部２８、指定キーフレーズ取得部３２、文書抽出部３４、スコア算出部３６、クラスタ選択部３８、画像生成部４２および表示制御部４４として機能させる。なお、文書取得部１４、前処理部１６、特徴抽出部１８、クラスタリング部２０、初期画像生成部２８、指定キーフレーズ取得部３２、文書抽出部３４、スコア算出部３６、クラスタ選択部３８、画像生成部４２および表示制御部４４の一部または全部がハードウェア回路で実現されてもよい。また、ＲＡＭ３０２および記憶装置３０６は、文書情報記憶部２２、クラスタ情報記憶部２４、初期テンプレート記憶部２６および画像テンプレート記憶部４０として機能する。

また、情報処理装置１０で実行されるプログラムは、コンピュータにインストール可能な形式または実行可能な形式のファイルで、ＣＤ－ＲＯＭ、フレキシブルディスク、ＣＤ－Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、情報処理装置１０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、情報処理装置１０で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。また、情報処理装置１０で実行されるプログラムを、ＲＯＭ３０３等に予め組み込んで提供するように構成してもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０情報処理装置
１２文書群記憶部
１４文書取得部
１６前処理部
１８特徴抽出部
２０クラスタリング部
２２文書情報記憶部
２４クラスタ情報記憶部
２６初期テンプレート記憶部
２８初期画像生成部
３２指定キーフレーズ取得部
３４文書抽出部
３６スコア算出部
３８クラスタ選択部
４０画像テンプレート記憶部
４２画像生成部
４４表示制御部
６２有用性情報取得部
６４履歴記憶部
７２種別選択部
１１０第１ダッシュボード画像
１１２第１初期画像
１１４第２初期画像
１２０入力ボックス
１２２項目情報
１２４サーチボタン
１３２第１グラフ画像
１３４第２グラフ画像
１３６第３グラフ画像
１３８第４グラフ画像
１５２共起ネットワーク画像

Claims

文書群から抽出された複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成するクラスタリング部と、
前記文書群から、指定キーフレーズに対応する部分文書群を抽出する文書抽出部と、
前記複数のクラスタのそれぞれについて、前記部分文書群における前記複数の項目毎の情報量を表すグラフ画像に示された情報の有用性を表すスコアを算出するスコア算出部と、
前記複数のクラスタのうちの、前記スコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択するクラスタ選択部と、
前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する画像生成部と、
を備え、
前記指定キーフレーズである第１キーフレーズについて、
前記文書抽出部は、前記部分文書群を抽出し、
前記スコア算出部は、前記複数のクラスタのそれぞれについて、前記スコアを算出し、
前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、
前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成し、
前記第１キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれの前記グラフ画像が表示された後、前記指定キーフレーズである第２キーフレーズについて、
前記文書抽出部は、前記部分文書群を抽出し、
前記スコア算出部は、前記複数のクラスタのそれぞれについて、算出対象クラスタに含まれる前記複数の項目における言語性質と、前記第１キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれに含まれる前記複数の項目における言語性質との相違を表す相違度に応じた値に基づき、前記スコアを算出し、
前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、
前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する
情報処理装置。
前記文書群に含まれるそれぞれの文書は、テキストを含むデータであり、
前記複数のキーフレーズ、前記複数の項目および指定キーフレーズのそれぞれは、単語またはセンテンスである
請求項１に記載の情報処理装置。
前記スコア算出部は、前記部分文書群における、算出対象クラスタに含まれる前記複数の項目毎の情報量の特定の項目への集中度に基づき、前記スコアを算出する
請求項１または２に記載の情報処理装置。
前記スコア算出部は、前記集中度が大きい程、前記スコアを大きくする
請求項３に記載の情報処理装置。
前記スコア算出部は、前記文書群の情報量に対する、算出対象クラスタに属する複数の文書の情報量の割合を示すカバー率に基づき、前記スコアを算出する
請求項１から４の何れか１項に記載の情報処理装置。
前記スコア算出部は、前記カバー率が大きい程、前記スコアを大きくする
請求項５に記載の情報処理装置。
前記文書抽出部は、
前記文書群から前記第１キーフレーズに対応する前記部分文書群を抽出し、
前記第１キーフレーズに対応する前記部分文書群から、前記第２キーフレーズに対応する前記部分文書群を抽出する
請求項１から６の何れか１項に記載の情報処理装置。
前記スコア算出部は、前記相違度が大きい程、前記スコアを大きくする
請求項１から７の何れか１項に記載の情報処理装置。
前記複数の表示対象クラスタのそれぞれの前記グラフ画像に対する、ユーザによる有用性の判断結果を取得する有用性情報取得部と、
前記指定キーフレーズと前記判断結果との組を含む履歴情報を記憶する履歴記憶部と、
をさらに備え、
前記スコア算出部は、前記履歴情報に基づき、前記スコアを算出する
請求項１から８の何れか１項に記載の情報処理装置。
前記スコア算出部は、算出対象クラスタが、前記指定キーフレーズについて有用であると前記履歴情報に示されている程、前記スコアを大きくする
請求項９に記載の情報処理装置。
前記スコア算出部は、前記算出対象クラスタが、前記指定キーフレーズについて予め設定されたユーザによって有用であると判断されている程、前記スコアを大きくする
請求項１０に記載の情報処理装置。
前記複数の表示対象クラスタのそれぞれの前記グラフ画像を表示させる表示制御部をさらに備え、
前記表示制御部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を、ダッシュボード画像に合成して表示させる
請求項１から１１の何れか１項に記載の情報処理装置。
コンピュータにより実行される情報処理方法であって、
前記コンピュータが、
文書群から抽出された複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成し、
前記文書群から、指定キーフレーズに対応する部分文書群を抽出し、
前記複数のクラスタのそれぞれについて、前記部分文書群における前記複数の項目毎の情報量を表すグラフ画像に示された情報の有用性を表すスコアを算出し、
前記複数のクラスタのうちの、前記スコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択し、
前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成し、
前記コンピュータが、
前記指定キーフレーズである第１キーフレーズについて、
前記部分文書群を抽出し、
前記複数のクラスタのそれぞれについて、前記スコアを算出し、
前記複数の表示対象クラスタを選択し、
前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成し、
前記コンピュータが、
前記第１キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれの前記グラフ画像が表示された後、前記指定キーフレーズである第２キーフレーズについて、
前記部分文書群を抽出し、
前記複数のクラスタのそれぞれについて、算出対象クラスタに含まれる前記複数の項目における言語性質と、前記第１キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれに含まれる前記複数の項目における言語性質との相違を表す相違度に応じた値に基づき、前記スコアを算出し、
前記複数の表示対象クラスタを選択し、
前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する
情報処理方法。
コンピュータを、
文書群から抽出された複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成するクラスタリング部と、
前記文書群から、指定キーフレーズに対応する部分文書群を抽出する文書抽出部と、
前記複数のクラスタのそれぞれについて、前記部分文書群における前記複数の項目毎の情報量を表すグラフ画像に示された情報の有用性を表すスコアを算出するスコア算出部と、
前記複数のクラスタのうちの、前記スコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択するクラスタ選択部と、
前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する画像生成部と、
して機能させ、
前記指定キーフレーズである第１キーフレーズについて、
前記文書抽出部は、前記部分文書群を抽出し、
前記スコア算出部は、前記複数のクラスタのそれぞれについて、前記スコアを算出し、
前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、
前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成し、
前記第１キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれの前記グラフ画像が表示された後、前記指定キーフレーズである第２キーフレーズについて、
前記文書抽出部は、前記部分文書群を抽出し、
前記スコア算出部は、前記複数のクラスタのそれぞれについて、算出対象クラスタに含まれる前記複数の項目における言語性質と、前記第１キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれに含まれる前記複数の項目における言語性質との相違を表す相違度に応じた値に基づき、前記スコアを算出し、
前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、
前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する
プログラム。