JP2019045956A

JP2019045956A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2019045956A
Application number: JP2017165581A
Authority: JP
Inventors: 健一郎楠戸; Kenichiro Kusudo
Original assignee: Ns Financial Man Consulting Inc; Ns Financial Management Consulting Inc
Current assignee: Ns Financial Man Consulting Inc; Ns Financial Management Consulting Inc
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2019-03-22
Anticipated expiration: 2037-08-30
Also published as: JP6403850B1

Abstract

【課題】オブジェクト内にどのような要素があるのかを示す情報を生成することを目的とする。【解決手段】オブジェクトに関する複数の文書データを含む文書データ群から、オブジェクトの特徴を示すキーワードを抽出し、オブジェクトに含まれる要素毎にキーワードをグルーピングすることで、各要素の特徴を示すキーワードを決定し、オブジェクトの特徴を示すキーワード同士の関連性を決定し、決定した要素毎のキーワードと、キーワード同士の関係性と、に基づいて、オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する。【選択図】図２

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

近年、大量の文書データが、企業等の記憶領域やインターネット上の記憶領域等に蓄積され、様々な用途に利用されている。そして、その大量の文書データをビジネス・研究等に利用しようとする動きも活発化してきている。
文書データを解析する技術には、特許文献１がある。特許文献１には、自然言語で記述された文書を解析し、予め与えられた分野の情報を抽出し、文書に含まれる単語間の関係を含む情報を一定の形式で出力する情報抽出システムであり、キーワード間の関係を認定しながら構文解析を行うことによって正しい情報を数多く、より正確に抽出する技術が開示されている。

特開平０７−８５０７１号公報

団体（例えば、企業、学校、研究機関等）や個人等のオブジェクトに関する文書データを解析して、そのオブジェクトにどのような要素が含まれているかを把握することが望まれている。例えば、企業内にどういった特徴の事業が存在するのかを把握したいという要望や、研究機関内に、どのような研究部署が存在するのかを把握することが望まれている。そこで、オブジェクト内にどのような要素があるのかを示す情報を生成したいという要望があった。しかし、特許文献１では、オブジェクト内にどのような要素があるのかを示す情報を生成できなかった。
そこで、本発明は、オブジェクト内にどのような要素があるのかを示す情報を生成することを目的とする。

そこで、本発明の情報処理装置は、オブジェクトに関する複数の文書データを含む文書データ群であるオブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する抽出手段と、前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴量を決定する第１の特徴量決定手段と、前記第１の特徴量決定手段により決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素にそれぞれ対応する１つ以上の区分に分類する分類手段と、前記分類手段により前記オブジェクト文書データ群に含まれる文書データが分類された前記１つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度に基づいて、前記抽出手段により抽出されたキーワードから、前記１つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定するキーワード決定手段と、前記抽出手段により抽出されたキーワードの特徴量を決定する第２の特徴量決定手段と、前記第２の特徴量決定手段により決定された特徴量に基づいて、前記抽出手段により抽出されたキーワード同士の関連性を決定する関連性決定手段と、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、に基づいて前記オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する生成手段と、を有する。

本発明によれば、オブジェクト内にどのような要素があるのかを示す情報を生成することができる。

図１は、情報処理装置のハードウェア構成の一例を示す図である。図２は、情報処理装置の処理の一例を示すフローチャートである。図３は、抽出されたキーワードの一例を示す図である。図４は、文書データの特徴量の一例を説明する図である。図５は、文書データの特徴量の一例を説明する図である。図６は、クラスタ毎のキーワードの一例を示す図である。図７は、キーワードの特徴量の一例を説明する図である。図８は、特徴情報の一例を説明する図である。図９は、特徴情報の一例を説明する図である。図１０は、特徴情報の一例を説明する図である。図１１は、要素毎に構造化されたキーワードを示す画像の一例を示す図である。

以下、本発明の実施形態について図面に基づいて説明する。
＜実施形態１＞
（処理の概要）
例えば、企業等の団体がビジネスを推進していく際、ある団体に関する団体情報やその団体の製品・サービス情報、事業構造や団体間のビジネス構造等の特徴を捉え、各特徴がその団体におけるどの事業に関する特徴であり、各特徴同士がどのような関連性を有するかを把握することで、その団体の詳細をより容易に把握でき、団体の事業動向の詳細把握、業種・業態の明示化、ビジネスマッチング等が可能となる。
そこで、本実施形態では、情報処理装置１００が、オブジェクトである団体に関する複数の文書データを含む文書データ群から、団体の特徴を示すキーワードを抽出し、団体に含まれる要素である事業毎にキーワードをグルーピングすることで、各事業の特徴を示すキーワードを決定し、オブジェクトの特徴を示すキーワード同士の関連性を決定し、決定した事業毎のキーワードと、キーワード同士の関係性と、に基づいて、団体における事業毎の特徴同士の関連性を示す特徴情報を生成する処理について説明する。

（情報処理装置のハードウェア構成）
図１は、情報処理装置１００のハードウェア構成である。情報処理装置１００は、パーソナルコンピュータ、サーバ装置、タブレット装置等の情報処理装置である。
情報処理装置１００は、ＣＰＵ１０１、主記憶装置１０２、補助記憶装置１０３、ネットワークＩ／Ｆ１０４を含む。各要素は、システムバス１０５を介して、相互に通信可能に接続されている。
ＣＰＵ１０１は、情報処理装置１００を制御する中央演算装置である。主記憶装置１０２は、ＣＰＵ１０１のワークエリア、データの一時的な記憶場所として機能するＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）等の記憶装置である。補助記憶装置１０３は、各種プログラム、各種設定情報、各種文書データ等を記憶する記憶装置である。補助記憶装置１０３は、例えば、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）等の記憶媒体を用いて実装される。ネットワークＩ／Ｆ１０４は、インターネットやＬＡＮ等のネットワークを介した外部の装置との通信に利用されるインターフェースである。
ＣＰＵ１０１が、補助記憶装置１０３に記憶されているプログラムに基づき処理を実行することで、情報処理装置１００の機能、及び、図２で後述するフローチャートの処理、（画像出力処理）、（検索処理）で説明する処理等が実現される。

（特徴情報の生成処理）
図２は、情報処理装置１００の処理の一例を示すフローチャートである。
Ｓ２０１において、ＣＰＵ１０１は、予め定められた複数の団体それぞれについて、団体に関する複数の文書データを含む文書データ群を取得する。以下では、予め定められた複数の団体を、団体群とする。また、以下では、団体に関する文書データ群を、団体文書データ群とする。団体文書データ群は、オブジェクトに関する文書データ群であるオブジェクト文書データ群の一例である。ＣＰＵ１０１は、例えば、予め補助記憶装置１０３に記憶された団体群に含まれる団体それぞれに関する団体文書データ群を取得する。また、ＣＰＵ１０１は、ネットワークＩ／Ｆ１０４を介して、インターネットを介して、外部の記憶装置から、団体群に含まれる団体それぞれに関する団体文書データ群を取得することとしてもよい。また、ＣＰＵ１０１は、検索エンジンを介して、インターネット上の団体それぞれに関する文書データを検索することで、団体群に含まれる団体それぞれに関する団体文書データ群を取得することとしてもよい。
また、ＣＰＵ１０１は、１つの団体に関する団体文書データ群を取得することとしてもよい。
Ｓ２０２において、ＣＰＵ１０１は、Ｓ２０１で取得した複数の団体文書データ群から、単語を抽出する。ＣＰＵ１０１は、例えば、団体文書データ群に含まれる各文書データに対して、形態素解析を行うことで、単語を抽出する。

Ｓ２０３において、ＣＰＵ１０１は、団体群に含まれる団体それぞれについて、団体文書データ群における各単語のその団体における重要度を示すスコア値を決定する。ＣＰＵ１０１は、例えば、以下のようにして、団体群に含まれる団体（１）に関する団体文書データ群に含まれる単語（１）のスコア値を決定する。
まず、ＣＰＵ１０１は、団体（１）に関する団体文書データ群における単語（１）の出現頻度と、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語（１）の希少性と、を決定する。文書データ群における単語の出現頻度とは、その単語がその文書データ群中に出現する度合いを示す指標である。複数の文書データ群における単語の希少性とは、その複数の文書データ群におけるその単語の希少さの度合いを示す指標である。

ＣＰＵ１０１は、例えば、団体（１）に関する団体文書データ群からＳ２０２で単語が全部でＡ個抽出され、単語（１）がＢ個抽出された場合、団体（１）に関する団体文書データ群における単語（１）の出現頻度を、Ｂ／Ａとして決定する。このように、団体（１）に関する団体文書データ群に含まれる単語の総数と、その団体文書データ群に含まれる単語（１）の数と、の比率は、その団体文書データ群における単語（１）の出現頻度の一例である。
また、ＣＰＵ１０１は、例えば、団体群それぞれに関する複数の団体文書データ群に単語（１）を含む文書データを含む団体文書データ群がＣ個存在し、団体群それぞれに関する複数の団体文書データ群に団体文書データ群がＤ個存在する場合、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語（１）の希少性を、Ｌｏｇ（Ｄ／Ｃ）として決定する。また、ＣＰＵ１０１は、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語（１）の希少性を、Ｄ／Ｃとして決定してもよい。このように、団体群それぞれに関する複数の団体文書データ群のうち、単語（１）を含む団体文書データ群の数と、その複数の団体文書データ群に含まれる団体文書データ群の数と、の比率や、この比率の任意の正数を底とする対数等は、その複数の団体文書データ群における単語（１）の希少性の一例である。

ＣＰＵ１０１は、決定した出現頻度と希少性とに基づいて、団体（１）における単語（１）のスコア値を決定する。ＣＰＵ１０１は、例えば、決定した出現頻度と希少性とに基づいて、ＴＦ−ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）法を用いて、単語（１）のスコア値を決定する。ＣＰＵ１０１は、決定した出現頻度が高い程、団体（１）に関する団体文書データ群で用いられる回数の多い重要な単語であるとして、スコア値を高くする。
また、ＣＰＵ１０１は、決定した希少性が高い程、団体（１）にとって特徴的な重要な単語であるとして、スコア値を高くする。また、ＣＰＵ１０１は、決定した希少性が低い程、団体群における各団体にとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、ＣＰＵ１０１は、決定した希少性を用いることで、他の団体との関係を考慮した上で、団体において各単語がどの程度重要なのかをより精度よく示すスコア値を決定できる。これにより、ＣＰＵ１０１は、Ｓ２０４で、他の団体との関係（例えば、他の団体との特徴の違い等）を考慮した上で、団体の特徴を示すキーワードを抽出できる。
ＣＰＵ１０１は、以上の処理を団体（１）に関する団体文書データ群に含まれる単語全てにおいて行い、団体（１）に関する団体文書データ群における各単語のスコア値を決定する。
また、ＣＰＵ１０１は、同様の処理を、団体群に含まれる団体（１）以外の他の団体についても行い、団体群に含まれる団体それぞれに関する複数の団体文書データ群それぞれにおける各単語のスコア値を決定する。

本実施形態では、ＣＰＵ１０１は、Ｓ２０３で団体群に含まれる団体について、団体群に含まれる複数の団体それぞれに関する複数の団体文書データ群を用いて、その団体に関する団体文書データ群に含まれる各単語のスコア値を決定することとした。しかし、ＣＰＵ１０１は、例えば、Ｓ２０１で１つの団体に関する団体文書データ群を取得した場合、その１つの団体に関する１つの団体文書データ群を用いて、その団体に関する団体文書データ群に含まれる各単語のスコア値を決定してもよい。
その場合、ＣＰＵ１０１は、以下のようにしてその団体に関する団体文書データ群に含まれる各単語のスコア値を決定してもよい。
即ち、ＣＰＵ１０１は、その団体文書データ群における各単語の出現頻度を決定し、決定した出現頻度に基づいて、各単語のスコア値を決定してもよい。ＣＰＵ１０１は、例えば、各単語の出現頻度の値を、各単語のスコア値として決定してもよい。

Ｓ２０４において、ＣＰＵ１０１は、団体群に含まれる団体それぞれについて、団体の特徴を示すキーワードを抽出する。ＣＰＵ１０１は、例えば、以下のようにして、団体（１）の特徴を示すキーワードを抽出する。即ち、ＣＰＵ１０１は、団体（１）に関する団体文書データ群からＳ２０１で抽出した単語のうち、Ｓ２０２で決定したスコア値が、予め定められた閾値以上である単語を、団体（１）の特徴を示すキーワードとして抽出する。
また、ＣＰＵ１０１は、同様の処理を、団体（１）以外の他の団体についても行い、団体群に含まれる団体それぞれについて、キーワードを抽出する。Ｓ２０４の処理は、キーワードを抽出する抽出処理の一例である。
図３は、Ｓ２０４で抽出された団体（１）のキーワードの一例を示す図である。図３の例は、団体（１）のキーワードとして、「部品」、「クリーン」、「ベッド」、「エンジン」、「ブレーキ」、「家具」、「エネルギー」、「エアコン」、「寝装品」、「トランスミッション」という１０個の単語が決定された様子を示している。
Ｓ２０５において、ＣＰＵ１０１は、団体群から、１つの団体を選択する。以下では、Ｓ２０５で選択された団体を選択団体とする。

Ｓ２０６において、ＣＰＵ１０１は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについて、Ｓ２０４で抽出された選択団体のキーワードの文書データそれぞれにおける重要性を示すスコア値を決定する。ＣＰＵ１０１は、例えば、以下のようにして、選択団体に関する団体文書データ群に含まれる文書データ（１）におけるＳ２０４で抽出された選択団体のキーワード（１）のスコア値を決定する。Ｓ２０６の処理は、第１のスコア決定処理の一例である。
まず、ＣＰＵ１０１は、文書データ（１）におけるキーワード（１）の出現頻度と、選択団体に関する団体文書データ群におけるキーワード（１）の希少性と、を決定する。文書データにおけるキーワードの出現頻度とは、そのキーワードがその文書データ中に出現する度合いを示す指標である。団体文書データ群におけるキーワードの希少性とは、その団体文書データ群に含まれる複数の文書データにおけるそのキーワードの希少さの度合いを示す指標である。

ＣＰＵ１０１は、例えば、文書データ（１）に単語が全部でＥ個含まれ、Ｓ２０４でキーワード（１）がＦ個抽出された場合、文書データ（１）におけるキーワード（１）の出現頻度を、Ｆ／Ｅとして決定する。このように、文書データ（１）に含まれる単語の総数と、文書データ（１）に含まれるキーワード（１）の数と、の比率は、文書データ（１）におけるキーワード（１）の出現頻度の一例である。また、ＣＰＵ１０１は、例えば、文書データ（１）にＳ２０４で選択団体のキーワードとして抽出されたキーワードがＥ’個含まれ、Ｓ２０４でキーワード（１）がＦ個抽出された場合、文書データ（１）におけるキーワード（１）の出現頻度を、Ｆ／Ｅ’として決定することとしてもよい。
また、ＣＰＵ１０１は、例えば、選択団体に関する団体文書データ群に含まれる全ての文書データにキーワード（１）を含む文書データがＧ個存在し、選択団体に関する団体文書データ群に文書データが全部でＨ個存在する場合、選択団体に関する団体文書データ群におけるキーワード（１）の希少性を、Ｌｏｇ（Ｈ／Ｇ）として決定する。また、ＣＰＵ１０１は、選択団体に関する団体文書データ群におけるキーワード（１）の希少性を、Ｈ／Ｇとして決定してもよい。このように、選択団体に関する団体文書データ群に含まれる全ての文書データのうちキーワード（１）を含む文書データの数と、その団体文書データ群に含まれる文書データの数と、の比率や、この比率の任意の正数を底とする対数等は、その団体文書データ群におけるキーワード（１）の希少性の一例である。

ＣＰＵ１０１は、決定した出現頻度と希少性とに基づいて、文書データ（１）におけるキーワード（１）のスコア値を決定する。ＣＰＵ１０１は、例えば、決定した出現頻度と希少性とに基づいて、ＴＦ−ＩＤＦ法を用いて、文書データ（１）におけるキーワード（１）のスコア値を決定する。ＣＰＵ１０１は、決定した出現頻度が高い程、文書データ（１）で用いられる回数の多い重要な単語であるとして、スコア値を高くする。
また、ＣＰＵ１０１は、決定した希少性が高い程、選択団体に関する団体文書データ群に含まれる文書データ（１）にとって特徴的な重要な単語であるとして、スコア値を高くする。また、ＣＰＵ１０１は、決定した希少性が低い程、選択団体に関する団体文書データ群に含まれる各文書データにとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、ＣＰＵ１０１は、決定した希少性を用いることで、他の文書データとの関係（例えば、他の文書データとの特徴の違い等）を考慮した上で、文書データにおいて各キーワードがどの程度重要なのかをより精度よく示すスコア値を決定できる。

ＣＰＵ１０１は、以上の処理を文書データ（１）に含まれるＳ２０４で抽出された選択団体のキーワード全てにおいて行い、文書データ（１）における各キーワードのスコア値を決定する。キーワード（１）が文書データ（１）に含まれない場合、ＣＰＵ１０１は、出現頻度を０として、同様の処理で文書データ（１）におけるキーワード（１）のスコア値を決定してもよいし、文書データ（１）におけるキーワード（１）のスコア値を予め定められた値（例えば０等）に決定してもよい。
また、ＣＰＵ１０１は、同様の処理を、選択団体に関する団体文書データ群に含まれる文書データ（１）以外の他の文書データについても行い、選択団体に関する団体文書データ群に含まれる文書データそれぞれにおける各キーワードのスコア値を決定する。

Ｓ２０７において、ＣＰＵ１０１は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについてＳ２０６で決定した各キーワードのスコア値に基づいて、選択団体に関する団体文書データ群に含まれる文書データそれぞれの特徴量を決定する。ＣＰＵ１０１は、例えば、選択団体に関する団体文書データ群に含まれる文書データの特徴量を以下のようにして決定する。即ち、ＣＰＵ１０１は、その文書データにおける各キーワードのスコア値それぞれを各成分とするベクトルを、文書データの特徴量として決定する。Ｓ２０７の処理は、第１の特徴量決定処理の一例である。
図４は、文書データの特徴量の一例を説明する図である。図４のテーブル４００は、選択団体に関する団体文書データ群に含まれる各文書データにおける各キーワードのスコア値を示すテーブルである。図４の例では、選択団体に関する団体文書データ群に含まれる文書データは、文書データ（１）〜文書データ（ｎ）のｎ個の文書データである。Ｓ２０４で選択団体のキーワードとして抽出されたキーワードは、キーワード（１）〜キーワード（ｍ）のｍ個のキーワードである。テーブル４００における文書データに対応する列が、その文書データにおける各キーワードのスコア値を示している。即ち、ＣＰＵ１０１は、ある文書データに対応する列に含まれる各スコア値を要素としたベクトルを、その文書データの特徴量として決定する。

また、ＣＰＵ１０１は、文書データにおける各キーワードのスコア値それぞれを各成分とするベクトルを、次元圧縮したベクトルを、その文書データの特徴量として決定してもよい。
例えば、ＣＰＵ１０１は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについて、テーブル４００における文書データに対応する列に含まれる各スコア値を要素としたベクトルを生成する。そして、ＣＰＵ１０１は、生成した各ベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて、次元圧縮し、次元圧縮した各ベクトルを、各文書データの特徴量として決定する。
図５は、文書データの特徴量の一例を説明する図である。図５のテーブル５００は、選択団体に関する団体文書データ群に含まれる各文書データにおける特徴量の各要素（基底）の値を示すテーブルである。図５の例では、図４と同様に、選択団体に関する団体文書データ群に含まれる文書データは、文書データ（１）〜文書データ（ｎ）のｎ個の文書データである。テーブル５００における文書データに対応する列が、その文書データの特徴量のベクトルの各要素の値を示している。即ち、テーブル５００におけるある文書データに対応する列は、その文書データの特徴量のベクトルを示す。テーブル５００における文書データに対応する列が示すベクトルは、図４のテーブル４００におけるその文書データに対応する列が示すベクトルが次元圧縮されたベクトルとなる。このように、ＣＰＵ１０１は、次元圧縮したベクトルを、文書データの特徴量として決定することで、Ｓ２０８での文書データのクラスタリングの処理の負担を軽減できる。

Ｓ２０８において、ＣＰＵ１０１は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについてＳ２０７で決定した特徴量に基づいて、選択団体に関する団体文書データ群に含まれる文書データそれぞれをクラスタリングする。ＣＰＵ１０１は、例えば、ｋ−ｍｅａｎｓ法、最短距離法、ウォード法等のクラスタリング手法を用いて、選択団体に関する団体文書データ群に含まれる文書データそれぞれをクラスタリングする。ＣＰＵ１０１は、団体文書データ群に含まれる複数の文書データを、文書データの特徴量に基づいてクラスタリングすることで、特徴が類似する文書データを１つのクラスタにまとめることができる。団体文書データ群に含まれる類似する複数の文書データは、団体に含まれる何らかの要素の特徴を示す文書データと仮定できる。そのため、ＣＰＵ１０１は、選択団体に関する団体文書データ群に含まれる複数の文書データをクラスタリングすることで、複数の文書データそれぞれを、選択団体に含まれる要素にそれぞれ対応する１つ以上の区分（クラスタ）に分類することができる。
Ｓ２０９において、ＣＰＵ１０１は、予め定められた基準に基づいて、Ｓ２０８でクラスタリングされた各クラスタから、選択団体における事業を示すクラスタを決定する。例えば、団体に含まれる事業に関する文書データは、事業活動が実施されている場合、一定以上の数があると仮定できる。そのため、事業に関する文書データの数は、予め定められた数以上存在することが仮定できる。そこで、ＣＰＵ１０１は、例えば、クラスタに含まれる文書データの数が予め定められた閾値（例えば、１０等）以上である場合、そのクラスタを、事業を示すクラスタとして決定する。以下では、事業を示すクラスタとして決定されたクラスタを、事業クラスタとする。

Ｓ２１０において、ＣＰＵ１０１は、Ｓ２０９で事業クラスタとして決定されたクラスタそれぞれについて、Ｓ２０４で抽出された選択団体のキーワードの事業クラスタそれぞれにおける重要性を示すスコア値を決定する。ＣＰＵ１０１は、例えば、以下のようにして、Ｓ２０９で事業クラスタとして決定されたクラスタであるクラスタ（１）におけるＳ２０４で抽出された選択団体のキーワード（１）のスコア値を決定する。Ｓ２１０の処理は、第２のスコア決定処理の一例である。
まず、ＣＰＵ１０１は、クラスタ（１）におけるキーワード（１）の出現頻度と、事業クラスタとして決定された全てのクラスタにおけるキーワード（１）の希少性と、を決定する。クラスタにおけるキーワードの出現頻度とは、そのキーワードがそのクラスタに含まれる文書データ中に出現する度合いを示す指標である。事業クラスタとして決定された全てのクラスタにおけるキーワードの希少性とは、その全てのクラスタにおけるそのキーワードの希少さの度合いを示す指標である。

ＣＰＵ１０１は、例えば、クラスタ（１）に含まれる全ての文書データに単語が全部でＩ個含まれ、Ｓ２０４でクラスタ（１）に含まれる全ての文書データからキーワード（１）がＪ個抽出された場合、クラスタ（１）におけるキーワード（１）の出現頻度を、Ｊ／Ｉとして決定する。このように、クラスタ（１）に含まれる全ての文書データに含まれる単語の総数と、クラスタ（１）に含まれる全ての文書データに含まれるキーワード（１）の数と、の比率は、クラスタ（１）におけるキーワード（１）の出現頻度の一例である。また、ＣＰＵ１０１は、例えば、クラスタ（１）に含まれる全ての文書データにおいてＳ２０４で選択団体のキーワードとして抽出されたキーワードが全部でＩ’個含まれ、Ｓ２０４でクラスタ（１）に含まれる全ての文書データからキーワード（１）がＪ個抽出された場合、クラスタ（１）におけるキーワード（１）の出現頻度を、Ｊ／Ｉ’として決定することとしてもよい。
また、ＣＰＵ１０１は、例えば、Ｓ２０９で事業クラスタとして決定された全てのクラスタに含まれるクラスタにキーワード（１）を含む文書データを含むクラスタがＫ個存在し、Ｓ２０９で事業クラスタとして決定されたクラスタの数が全部でＬ個存在する場合、Ｓ２０９で事業クラスタとして決定された全てのクラスタにおけるキーワード（１）の希少性を、Ｌｏｇ（Ｌ／Ｋ）として決定する。また、ＣＰＵ１０１は、Ｓ２０９で事業クラスタとして決定された全てのクラスタにおけるキーワード（１）の希少性を、Ｌ／Ｋとして決定してもよい。このように、Ｓ２０９で事業クラスタとして決定された全てのクラスタに含まれるキーワード（１）を含む文書データを含むクラスタの数と、その全てのクラスタに含まれるクラスタの数と、の比率や、この比率の任意の正数を底とする対数等は、その全てのクラスタにおけるキーワード（１）の希少性の一例である。

ＣＰＵ１０１は、決定した出現頻度と希少性とに基づいて、クラスタ（１）におけるキーワード（１）のスコア値を決定する。ＣＰＵ１０１は、例えば、決定した出現頻度と希少性とに基づいて、ＴＦ−ＩＤＦ法を用いて、クラスタ（１）におけるキーワード（１）のスコア値を決定する。ＣＰＵ１０１は、決定した出現頻度が高い程、クラスタ（１）で用いられる回数の多い重要な単語であるとして、スコア値を高くする。
また、ＣＰＵ１０１は、決定した希少性が高い程、選択団体に関する団体文書データ群に含まれるクラスタ（１）における特徴的な重要な単語であるとして、スコア値を高くする。また、ＣＰＵ１０１は、決定した希少性が低い程、選択団体に関する団体文書データ群に含まれる各クラスタにとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、ＣＰＵ１０１は、決定した希少性を用いることで、他のクラスタとの関係（例えば、他のクラスタとの特徴の違い等）を考慮した上で、クラスタにおいて各キーワードがどの程度重要なのかをより精度よく示すスコア値を決定できる。

ＣＰＵ１０１は、以上の処理をクラスタ（１）に含まれるＳ２０４で抽出された選択団体のキーワード全てにおいて行い、クラスタ（１）における各キーワードのスコア値を決定する。キーワード（１）がクラスタ（１）に含まれる文書データのどれにも含まれない場合、ＣＰＵ１０１は、出現頻度を０として、同様の処理でクラスタ（１）におけるキーワード（１）のスコア値を決定してもよいし、クラスタ（１）におけるキーワード（１）のスコア値を予め定められた値（例えば０等）に決定してもよい。
また、ＣＰＵ１０１は、同様の処理を、Ｓ２０９で事業クラスタとして決定されたクラスタ（１）以外の他のクラスタについても行い、事業クラスタとして決定されたクラスタそれぞれにおける各キーワードのスコア値を決定する。

また、クラスタが１つしかない場合（例えば、Ｓ２０９で事業クラスタとして決定されたクラスタが１つである場合、Ｓ２０８でクラスタリングされたクラスタの数が１つである場合等）、ＣＰＵ１０１は、Ｓ２１０で以下のようにしてクラスタにおけるキーワードのスコア値を決定してもよい。
即ち、ＣＰＵ１０１は、そのクラスタにおける各キーワードの出現頻度を決定し、決定した出現頻度に基づいて、各キーワードのスコア値を決定してもよい。ＣＰＵ１０１は、例えば、各キーワードの出現頻度の値を、各キーワードのスコア値として決定してもよい。

Ｓ２１１において、ＣＰＵ１０１は、Ｓ２０９で事業クラスタとして決定されたクラスタそれぞれについて、クラスタの特徴を示すキーワードを決定する。ＣＰＵ１０１は、例えば、以下のようにして、クラスタ（１）の特徴を示すキーワードを決定する。即ち、ＣＰＵ１０１は、Ｓ２０４で選択団体について抽出されたキーワードのうち、Ｓ２１０でクラスタ（１）について決定したスコア値が、予め定められた閾値以上であるキーワードを、クラスタ（１）の特徴を示すキーワードとして決定する。
また、ＣＰＵ１０１は、同様の処理を、クラスタ（１）以外のＳ２０９で事業クラスタとして決定された他のクラスタについても行い、クラスタそれぞれについて、キーワードを決定する。Ｓ２１１の処理は、キーワード決定処理の一例である。
図６は、Ｓ２０９で事業クラスタとして決定されたクラスタ毎にＳ２１１で決定されたキーワードの一例を示す図である。図６の例では、選択団体が団体（１）である場合に、Ｓ２０９で事業クラスタとして決定されたクラスタ毎にＳ２１１で決定されたキーワードの一例を示す。図６中の３つの枠は、それぞれ、Ｓ２０９で事業クラスタとして決定されたクラスタを示す。各枠内の単語は、各枠に対応するクラスタの特徴を示すキーワードである。図６の例では、「ベッド」、「寝装品」、「家具」という３つのキーワードを持つクラスタと、「エアコン」、「クリーン」、「エネルギー」という３つのキーワードを持つクラスタと、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」という４つのキーワードを持つクラスタと、が団体（１）に含まれていることが示されている。このように、ＣＰＵ１０１は、Ｓ２１１の処理により、Ｓ２０４で抽出されたキーワードを、事業毎にグルーピングできる。

Ｓ２１２において、ＣＰＵ１０１は、Ｓ２０４で抽出された選択団体におけるキーワードそれぞれの特徴量を決定する。ＣＰＵ１０１は、例えば、Ｓ２１０でクラスタ毎に決定されたキーワードそれぞれのスコア値に基づいて、キーワードの特徴量を以下のようにして決定する。即ち、ＣＰＵ１０１は、キーワードについて、クラスタ毎にＳ２１０で決定されたそのキーワードのスコア値それぞれを各成分とするベクトルを、そのキーワードの特徴量として決定する。この特徴量は、対応するキーワードがクラスタ毎にどの程度重要であるかを示す特徴量とみなすことができる。Ｓ２１２の処理は、第２の特徴量決定処理の一例である。
図７は、キーワードの特徴量の一例を説明する図である。図７のテーブル７００は、Ｓ２０９で事業クラスタとして決定された各クラスタにおける各キーワードのスコア値を示すテーブルである。図７の例では、事業クラスタとして決定されたクラスタは、クラスタ（１）〜クラスタ（ｋ）のｋ個のクラスタである。また、図７の例では、Ｓ２０４で選択団体のキーワードとして抽出されたキーワードは、キーワード（１）〜キーワード（ｍ）のｍ個のキーワードである。テーブル７００におけるあるクラスタに対応する列が、そのクラスタにおける各キーワードのスコア値を示している。テーブル７００におけるキーワードに対応する行が、各クラスタにおけるそのキーワードのスコア値を示している。ＣＰＵ１０１は、各キーワードの特徴量として、テーブル７００における各キーワードに対応する行が示す各スコア値を要素としたベクトルを、そのキーワードの特徴量として決定する。また、ＣＰＵ１０１は、このベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて次元圧縮したベクトルを、そのキーワードの特徴量として決定してもよい。
また、ＣＰＵ１０１は、例えば、Ｓ２０６で文書データ毎に決定されたキーワードそれぞれのスコア値に基づいて、キーワードの特徴量を以下のようにして決定することとしてもよい。即ち、ＣＰＵ１０１は、キーワードについて、文書データ毎にＳ２０６で決定されたそのキーワードのスコア値それぞれを各成分とするベクトルを、そのキーワードの特徴量として決定してもよい。この特徴量は、対応するキーワードが文書データ毎にどの程度重要であるかを示す特徴量とみなすことができる。また、ＣＰＵ１０１は、このベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて次元圧縮したベクトルをキーワードそれぞれの特徴量として決定してもよい。

Ｓ２１３において、ＣＰＵ１０１は、Ｓ２１２で決定した特徴量に基づいて、Ｓ２１３でクラスタ毎に決定されたキーワード同士の関連の度合いを示す関連度を、選択団体におけるキーワード同士の関連性として決定する。キーワード同士の関連性は、団体が異なれば、異なる場合がある。例えば、自動車を製造販売しているＡ社とＢ社とがあるとする。Ａ社は、高級感のある自動車を重点的に製造・販売しており、Ｂ社は、安価な軽自動車を重点的に製造・販売しているとする。この場合、Ａ社におけるキーワード「自動車」とキーワード「高級感」との関連性は、Ｂ社におけるキーワード「自動車」とキーワード「高級感」との関連性よりも、大きいものとなる。ＣＰＵ１０１は、このような各団体におけるキーワード同士の関連性の違いを加味して、Ｓ２１３で、選択団体におけるキーワード同士の関連性を決定する。Ｓ２１３の処理は、関連性決定処理の一例である。
関連性のあるキーワード同士は、あるクラスタ（又は、文書データ）において一方のキーワードのそのクラスタ（又は、文書データ）におけるスコア値が高い程、他方のキーワードのそのクラスタ（又は、文書データ）におけるスコア値も高くなると仮定できる。即ち、関連性のあるキーワード同士のＳ２１２で決定した特徴量同士は、一方の特徴量におけるある次元の要素の値が大きい程、他方の特徴量におけるその次元における要素の値が大きくなると仮定できる。そのため、キーワード同士の特徴量同士の内積は、キーワード同士の関連性が大きい程、値が大きくなると仮定できる。そこで、ＣＰＵ１０１は、例えば、Ｓ２１２で決定されたキーワード（１）の特徴量であるベクトルと、Ｓ２１２で決定されたキーワード（２）の特徴量であるベクトルと、の内積を、キーワード（１）とキーワード（２）との関連度として決定する。

Ｓ２１４において、ＣＰＵ１０１は、Ｓ２１１でクラスタ毎に決定されたキーワードそれぞれについて、選択団体における重要性を示す重要度を決定する。ＣＰＵ１０１は、例えば、Ｓ２０３で決定されたスコア値に基づいて、Ｓ２１１でクラスタ毎に決定されたキーワードそれぞれについて、選択団体における重要性を示す重要度を決定する。ＣＰＵ１０１は、例えば、Ｓ２１１でクラスタ毎に決定されたキーワードそれぞれについてＳ２０３で決定されたスコア値を、重要度として決定する。Ｓ２１４の処理は、重要度決定処理の一例である。
ＣＰＵ１０１は、Ｓ２０９で事業クラスタとして決定されたクラスタそれぞれについて、クラスタ毎に決定されたキーワードの重要度に基づいて、クラスタを代表するキーワードである核キーワードを決定する。ＣＰＵ１０１は、例えば、あるクラスタについて決定されたキーワードのうち、重要度が最も高いキーワードを、そのクラスタの核キーワードとして決定する。
また、ＣＰＵ１０１は、例えば、Ｓ２１０でクラスタ毎に決定されたスコア値に基づいて、Ｓ２１１でクラスタ毎に決定されたキーワードそれぞれについて、選択団体における重要性を示す重要度を決定してもよい。ＣＰＵ１０１は、例えば、Ｓ２１１でクラスタ毎に決定されたキーワードそれぞれについて、Ｓ２１１で決定されたスコア値を、重要度として決定してもよい。
本実施形態では、ＣＰＵ１０１は、Ｓ２０９で事業に対応するクラスタとして決定したクラスタを用いて、Ｓ２１０〜Ｓ２１４の処理を行った。これにより、ＣＰＵ１０１は、事業以外のクラスタについて、特徴を示すキーワードを決定する処理の負担を軽減できる。しかし、ＣＰＵ１０１は、Ｓ２０８でクラスタリングされた全てのクラスタを用いて、Ｓ２１０〜Ｓ２１４の処理を行うこととしてもよい。その場合、ＣＰＵ１０１は、Ｓ２０９の処理を行わないこととしてもよい。

Ｓ２１５において、ＣＰＵ１０１は、団体群に含まれる全ての団体について、Ｓ２０５〜Ｓ２１４の処理を実行したか否かを判定する。ＣＰＵ１０１は、団体群に含まれる全ての団体について、Ｓ２０５〜Ｓ２１４の処理を実行したと判定した場合、Ｓ２１６の処理に進む。また、ＣＰＵ１０１は、団体群に含まれる団体の中に、Ｓ２０５〜Ｓ２１４の処理を実行していない団体があると判定した場合、Ｓ２０５の処理に進む。
本実施形態では、ＣＰＵ１０１は、団体群に含まれる全ての団体について、Ｓ２０５〜Ｓ２１４の処理を実行することとする。しかし、ＣＰＵ１０１は、団体群に含まれる団体のうち予め定められた団体のみについて、Ｓ２０５〜Ｓ２１４の処理を実行することとしてもよい。その場合、ＣＰＵ１０１は、Ｓ２１５で、その予め定められた団体全てについて、Ｓ２０５〜Ｓ２１４の処理を実行したか否かを判定し、実行したと判定した場合、Ｓ２１６の処理に進み、実行していない団体があると判定した場合、Ｓ２０５の処理に進む。
また、ＣＰＵ１０１は、外部の情報処理装置等から、Ｓ２０５〜Ｓ２１４の処理の対象となる団体の指定を受付けることとしてもよい。その場合、ＣＰＵ１０１は、団体群に含まれる団体のうち指定された団体のみについて、Ｓ２０５〜Ｓ２１４の処理を実行することとなる。その場合、ＣＰＵ１０１は、Ｓ２１５で、指定された団体全てについて、Ｓ２０５〜Ｓ２１４の処理を実行したか否かを判定し、実行したと判定した場合、Ｓ２１６の処理に進み、実行していない団体があると判定した場合、Ｓ２０５の処理に進む。
Ｓ２１６において、ＣＰＵ１０１は、団体群に含まれる全ての団体についてＳ２０４で抽出されたキーワードそれぞれについて、意味を決定する。ＣＰＵ１０１は、例えば、単語の共起性に着目して、その単語の意味を決定する手法であるｗｏｒｄ２ｖｅｃ、トピックモデル等の手法を用いて、キーワードが持つ潜在的意味を決定する。共起性とは、ある単語と他の単語とが、文書や文等において、同時に出現する傾向を示す性質である。キーワードが持つ潜在的意味は、キーワードが潜在的に有する意味であり、キーワードの意味の一例である。本実施形態では、ＣＰＵ１０１は、キーワードそれぞれの潜在的意味を示す情報として、単語の潜在的意味を表現する意味空間におけるキーワードそれぞれに対応するベクトルを取得する。
また、ＣＰＵ１０１は、複数の単語の意味を記憶する辞書を用いて、キーワードそれぞれの意味を決定してもよい。Ｓ２１６の処理は、意味決定処理の一例である。

Ｓ２１７において、ＣＰＵ１０１は、団体群に含まれる団体それぞれについてＳ２１１で決定されたクラスタ毎のキーワードと、団体群に含まれる団体それぞれについてＳ２１３で決定されたキーワード同士の関連度と、団体群に含まれる団体それぞれについてＳ２１４で決定されたクラスタ毎のキーワードの重要度と、Ｓ２１６で決定された各キーワードの意味と、に基づいて、団体群に含まれる団体それぞれにおける事業毎の特徴同士の関係を示す特徴情報を生成し、生成した特徴情報を補助記憶装置１０３等に記憶する。
ＣＰＵ１０１は、例えば、団体群に含まれる団体それぞれについてＳ２１１で決定されたクラスタ毎のキーワードと、団体群に含まれる団体それぞれについてＳ２１３で決定されたキーワード同士の関連度と、団体群に含まれる団体それぞれについてＳ２１４で決定されたクラスタ毎のキーワードの重要度と、Ｓ２１６で決定された各キーワードの意味と、を示す情報を、特徴情報として生成する。ＣＰＵ１０１は、例えば、図８〜１０に示すようなテーブルの情報を、特徴情報として生成する。

図８〜１０は、特徴情報の一例を説明する図である。
図８のテーブル８００は、団体群に含まれる団体Ａについて、クラスタ毎のキーワードと、クラスタ毎のキーワードの重要度と、の情報を管理するキーワード管理テーブルである。テーブル８００は、「キーワード」、「団体キーワードスコア」、「事業カテゴリ」、「事業キーワードスコア」の項目を含む。「キーワード」の項目は、団体Ａについて、Ｓ２０４で抽出された各キーワードを示す。
「団体キーワードスコア」の項目は、対応するキーワードについて、Ｓ２０３で決定されたスコア値を示す。「事業カテゴリ」は、Ｓ２０９で事業カテゴリとして決定されたカテゴリを識別する情報を示す。「事業キーワードスコア」の項目は、対応する事業における対応するキーワードについて、Ｓ２１０で決定されたスコア値を示す。

同一の「事業カテゴリ」に対応する「キーワード」それぞれは、対応する「事業カテゴリ」が示す事業の特徴を示すキーワードとなる。図８の例では、キーワード「ｗｏｒｄ１」と「ｗｏｒｄ２」とは、「ｃａｔｅｇｏｒｙ１」が示す同一の事業の特徴を示すこととなる。
また、テーブル８００におけるキーワード「ｗｏｒｄ１５」のように、同じキーワードが、複数の事業それぞれの特徴を示すキーワードとして決定される場合もある。
ＣＰＵ１０１は、団体群に含まれる団体それぞれについてＳ２１１で決定されたクラスタ毎のキーワードに基づいて、団体群に含まれる団体それぞれについて、キーワードと事業との対応関係を決定し、テーブル８００における「キーワード」と「事業カテゴリ」との項目の値を決定する。ＣＰＵ１０１は、団体群に含まれる団体それぞれについて、テーブル８００と同様のキーワード管理テーブルを生成し、補助記憶装置１０３に記憶する。

「団体キーワードスコア」、「事業キーワードスコア」の何れかは、Ｓ２１４で決定された事業におけるキーワード毎の重要度を示す。Ｓ２０３で決定されたスコア値が各キーワードの重要度として、Ｓ２１４で決定された場合、「団体キーワードスコア」の項目が、対応する事業における対応するキーワードの重要度を示す。Ｓ２１０で決定されたスコア値が各キーワードの重要度として、Ｓ２１４で決定された場合、「事業キーワードスコア」の項目が、対応する事業における対応するキーワードの重要度を示す。
ＣＰＵ１０１は、Ｓ２０３で決定されたスコア値に基づいて、「団体キーワードスコア」の項目の値を決定し、Ｓ２１０で決定されたスコア値に基づいて、「事業キーワードスコア」の項目の値を決定する。
また、ＣＰＵ１０１は、「団体キーワードスコア」、「事業キーワードスコア」のうち、事業における各キーワードの重要度を示す項目以外の項目をテーブル８００に含ませないようにすることとしてもよい。

図９のテーブル９００は、団体群に含まれる団体Ａについて、Ｓ２１３で決定されたキーワード同士の関連性を示す情報を管理する関連性管理テーブルである。
テーブル９００には、団体Ａについて、Ｓ２１２でキーワード毎に決定された特徴量の情報が格納されている。Ｓ２１３で説明したように、これらの特徴量の内積は、対応するキーワード同士の関連の度合いを示す。そのため、ＣＰＵ１０１は、テーブル９００における各キーワードに対応する列が示すベクトル同士の内積を求めることで、キーワード同士の関連の度合いを示す関連度を決定できる。そこで、本実施形態では、ＣＰＵ１０１は、Ｓ２１２で決定した特徴量の情報を格納するテーブル９００を、キーワード同士の関連性を示す情報として生成し、補助記憶装置１０３に記憶することとする。ＣＰＵ１０１は、団体群に含まれる団体それぞれについて、テーブル９００と同様に関連性管理テーブルを生成し、補助記憶装置１０３に記憶する。
また、ＣＰＵ１０１は、各キーワード同士のＳ２１２で決定した特徴量同士の内積を計算し、計算した関連度の情報を、キーワード同士の関連性を示す情報として生成し、補助記憶装置１０３に記憶してもよい。
また、ＣＰＵ１０１は、各キーワード同士のＳ２１２で決定した特徴量同士の内積を計算し、計算した関連度が予め定められた閾値以上である場合、そのキーワード同士に関連があるとして、計算した関連度が予め定められた閾値未満である場合、そのキーワード同士に関連がないとして、キーワード同士の関連の有無を示す情報を、キーワード同士の関連性を示す情報として生成し、補助記憶装置１０３に記憶してもよい。

図１０のテーブル１０００は、団体群に含まれる全ての団体についてＳ２０４で抽出されたキーワードそれぞれの潜在的意味の情報を管理する意味管理テーブルである。
テーブル１０００における各キーワードに対応する列は、対応するキーワードの潜在的意味を示すベクトルの各基底の値を示す。ＣＰＵ１０１は、Ｓ２１６で各キーワードについて抽出した潜在的意味を示すベクトルに基づいて、テーブル１０００の各要素の値を決定する。
キーワード同士の潜在的意味が類似する程、キーワードの潜在的意味を示すベクトル同士も類似する。そのため、キーワードの潜在的意味を示すベクトル同士の内積は、キーワード同士の潜在的意味の類似の度合いを示す指標となる。そこで、ＣＰＵ１０１は、テーブル１０００における各キーワードに対応する列が示すベクトル同士の内積を、キーワード同士の類似の度合いを示す類似度として決定できる。

また、ＣＰＵ１０１は、団体群に含まれる団体それぞれについてＳ２１１で決定されたクラスタ毎のキーワードと、団体群に含まれる団体それぞれについてＳ２１３で決定されたキーワード同士の関連度と、に基づいて、団体群に含まれる団体それぞれにおける事業毎の特徴同士の関係を示す特徴情報を生成してもよい。
その場合、ＣＰＵ１０１は、団体群に含まれる団体それぞれについて、図８で説明したテーブル８００の項目のうち、「キーワード」、「事業カテゴリ」、の項目を含むテーブルをキーワード管理テーブルとして生成する。また、ＣＰＵ１０１は、団体群に含まれる団体それぞれについて、図９で説明した関連性管理テーブルを生成する。
そして、ＣＰＵ１０１は、生成したキーワード管理テーブルと、関連性管理テーブルと、を特徴情報として、補助記憶装置１０３に記憶する。

（画像出力処理）
ＣＰＵ１０１は、図２の処理により生成した特徴情報に基づいて、団体の事業毎にキーワードを構造化した画像を生成し、出力することができる。
ＣＰＵ１０１は、例えば、ネットワークＩ／Ｆ１０４を介して、外部の情報処理装置から、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像の要求を受信したとする。
その場合、ＣＰＵ１０１は、補助記憶装置１０３から、図２の処理により生成した特徴情報を取得し、取得した特徴情報に基づいて、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像を生成し、生成した画像を要求元に送信することで出力する。要求元の情報処理装置は、受信した画像を表示部に表示することで、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像をユーザに提示する。

図１１は、特徴情報に基づいて生成された、ある団体について事業毎にキーワードを構造化した画像の一例を示す図である。図１１を用いて、図３、６で説明した団体（１）について、事業毎にキーワードを構造化した画像を生成する処理について説明する。
ＣＰＵ１０１は、特徴情報から、団体（１）について、クラスタ毎のキーワードと、クラスタ毎のキーワードの重要度と、の情報を格納するキーワード管理テーブルを取得する。そして、ＣＰＵ１０１は、例えば、取得したテーブルの「事業カテゴリ」の項目から、団体（１）に含まれる事業を決定する。ＣＰＵ１０１は、決定した各事業に対応する「キーワード」の項目から、団体（１）に含まれる各事業について、事業の特徴を示すキーワードを決定する。
団体（１）は、図６で説明したように、キーワード「ベッド」、「寝装品」、「家具」に対応する事業と、キーワード「クリーン」、「エアコン」、「エネルギー」に対応する事業と、キーワード「部品」、「ブレーキ」、「トランスミッション」、「エンジン」に対応する事業と、が含まれている。そのため、ＣＰＵ１０１は、３つの事業を決定し、決定した３つの事業それぞれに対応するキーワードとして、「ベッド」、「寝装品」、「家具」と、「クリーン」、「エアコン」、「エネルギー」と、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」とを決定する。また、ＣＰＵ１０１は、各事業に対応するクラスタを代表する核キーワードとして、「家具」、「エネルギー」、「部品」を決定する。

ＣＰＵ１０１は、取得したテーブルの「団体キーワードスコア」又は「事業キーワードスコア」の項目から、各キーワードの重要度を決定する。
また、ＣＰＵ１０１は、特徴情報から、団体（１）についてキーワード同士の関連性を示す関連性管理テーブルを取得する。そして、ＣＰＵ１０１は、取得したテーブルから各キーワードの特徴量を決定し、決定した特徴量同士の内積を求め、各キーワード同士の関連度を決定する。ＣＰＵ１０１は、決定した関連度が、予め定められた閾値以上である場合、その関連度に対応する２つのキーワード同士に関連があると決定する。また、ＣＰＵ１０１は、決定した関連度が、予め定められた閾値未満である場合、その関連度に対応する２つのキーワード同士に関連がないと決定する。
また、ＣＰＵ１０１は、特徴情報から、図１０で説明したテーブル１０００を取得する。そして、ＣＰＵ１０１は、テーブル１０００から、団体（１）の各事業のキーワードの潜在的意味を示すベクトルを取得する。

ＣＰＵ１０１は、団体（１）について決定した事業毎のキーワード、各キーワード同士の関連の有無、各キーワードの重要度、各キーワードの潜在的意味、に基づいて、事業毎にキーワードを構造化した画像を生成する。
ＣＰＵ１０１は、各キーワードを示す楕円形ブロック（以下では、キーワードブロックとする）を、対応する事業を視認できるように画像中に配置する。ＣＰＵ１０１は、例えば、同じ事業に対応するキーワードブロック同士をお互いの距離が予め定められた値以下となるように配置し、異なる事業に対応するキーワードブロック同士をお互いの距離が予め定められた値以上となるように配置することで、各キーワードブロックを、対応する事業を視認できるように配置する。また、ＣＰＵ１０１は、例えば、画像中に事業それぞれに対応する枠を記載し、各枠内に、その枠が示す事業に対応するキーワードブロックを配置するようにしてもよい。図１１の例では、「ベッド」、「寝装品」、「家具」の組と、「クリーン」、「エアコン」、「エネルギー」の組と、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」の組と、がそれぞれ密集している様子が示されている。

また、ＣＰＵ１０１は、各キーワードブロックのサイズを、各キーワードの重要度に基づいて決定する。ＣＰＵ１０１は、例えば、各キーワードブロックのサイズを、対応するキーワードの重要度が大きい程大きくなるように決定する。これにより、ＣＰＵ１０１は、どのキーワードが重要であるかをより容易に視認できるようにすることができる。図１１の例では、「部品」の重要度が最も大きいため、「部品」のキーワードブロックが最もサイズが大きくなっている。
また、ＣＰＵ１０１は、各キーワード同士の関連の有無に基づいて、関連のあるキーワードに対応するキーワードブロック同士をつなぐ線を記載する。図１１の例では、関連のあるキーワードブロック同士をつなぐ線が記載されている様子が示されている。これにより、ＣＰＵ１０１は、関連のあるキーワードに対応するキーワードブロック同士を構造化し、各事業の特徴の視認による把握をより容易にすることができる。
図１１の例では、ＣＰＵ１０１は、同じクラスタに属する関連のあるキーワードに対応するキーワードブロック同士をつなぐ線として実線を記載する。また、ＣＰＵ１０１は、異なるクラスタに属する核キーワードに対応するキーワードブロック同士をつなぐ線として破線、二重線等の実線と異なる線を記載する。このように、ＣＰＵ１０１は、同じクラスタに属するキーワードに対応するキーワードブロック同士をつなぐ線と異なる線を用いて、各クラスタに属する核キーワードに対応するキーワードブロック同士を接続し構造化することで、全体として団体の特徴を表す構造を表示することができる。図１１には、クラスタ内のキーワードブロック同士が実線で繋がれており、クラスタそれぞれの核キーワードである「エネルギー」、「家具」、「部品」同士が破線でつながれている様子が示されている。また、ＣＰＵ１０１は、同じ事業に対応するキーワードブロックについてのみ、関連のあるキーワードに対応するキーワードブロック同士をつなぐ線を記載することとしてもよい。その場合、図１１の画像における「エネルギー」、「家具」、「部品」それぞれをつなぐ線が記載されないこととなる。
また、ＣＰＵ１０１は、各キーワードの潜在的意味に応じて、各キーワードブロックの背景の表示態様（色・模様等）を決定する。キーワードの潜在的意味は、キーワードがどの団体の特徴を示すか、どの事業の特徴を示すか、とは関わりなく決定されている。そのため、団体の別、事業の別、と関わりなく、類似する潜在的意味を持つキーワードのキーワードブロックの背景は、類似する表示態様となる。そのため、ＣＰＵ１０１は、異なる団体、異なる事業間における類似する特徴の視認による把握をより容易にできる。

また、ＣＰＵ１０１は、団体（１）について決定した事業毎のキーワード、各キーワード同士の関連の有無、に基づいて、事業毎にキーワードを構造化した画像を生成することしてもよい。
また、ＣＰＵ１０１は、外部の情報処理装置から、団体群に含まれる（１つ又は複数の）団体について、事業毎にキーワードを構造化した画像の要求を受信した場合、その（１つ又は複数の）団体についてのみ、事業毎にキーワードを構造化した画像を生成し、出力してもよい。

ユーザは、団体について事業毎にキーワードが構造化された画像を視認することで、以下のようなことを把握できる。
例えば、情報処理装置１００が、ユーザが所属する企業と、その企業の競合他社と、を団体群として、特徴情報を生成したとする。そして、情報処理装置１００が、ユーザが所属する企業と、その競合他社と、について、事業毎にキーワードが構造化された画像を生成した画像を生成する。ユーザは、その画像を視認することで、以下のようなことを把握できる。即ち、ユーザは、自社の事業毎にキーワードが構造化された画像を視認することで、自社の特徴を把握できる。また、ユーザは、自社の事業毎にキーワードが構造化された画像と、競合他社の事業毎にキーワードが構造化された画像と、を見比べることで、同一市場・業界の平均的な特徴、自社の強み・弱み、競合の強み・弱み等を把握できる。
また、ユーザは、複数事業を展開している企業についても、その企業のキーワードの構造と、類似したキーワードの構造を有する他の企業を把握することで、その企業が展開している事業をより正確に把握できる。

ユーザは、このようなことを把握することで、より適切な売却先、業務提携先、資本提携先、仕入れ販売先等を見つけることができる。
本実施形態の処理は、事業会社において、企業価値向上を目指す企業の業務（自社・競合・他社把握や、提携先検討等）において活用ができる。また、仲介実施会社において、証券会社におけるＭ＆Ａ先の紹介、銀行におけるビジネスマッチング先紹介、等の業務においても、活用ができる。また、調査研究機関、機関投資家等において、調査研究機関や機関投資家における業界や個社動向調査においても活用ができる。

（検索処理）
ＣＰＵ１０１は、図２の処理により生成した特徴情報に基づいて、指定された単語と関連のある団体を検索することができる。
ＣＰＵ１０１は、例えば、ネットワークＩ／Ｆ１０４を介して、外部の情報処理装置から、ある単語（例えば「ヘルメット」等）と関連のある団体を検索するよう要求を受信したとする。
その場合、ＣＰＵ１０１は、補助記憶装置１０３から、図２の処理により生成した特徴情報を取得し、取得した特徴情報に基づいて、指定された単語と関連のある団体を団体群から検索し、検索した団体を示す情報を要求元に送信する。
ＣＰＵ１０１は、例えば、団体群に含まれる団体それぞれについて生成されたキーワード管理テーブルの「キーワード」の項目から、指定された単語を検索する。そして、ＣＰＵ１０１は、検索した「キーワード」に対応する重要度が予め定められた閾値以上である場合、検索した「キーワード」を含む団体を示す情報を、検索結果として要求元に送信する。

また、ＣＰＵ１０１は、以下のような処理を行うこととしてもよい。
ＣＰＵ１０１は、特徴情報に含まれる団体群それぞれについて生成された関連性管理テーブルと、テーブル１０００とに、基づいて、指定された単語と関連するキーワードと、指定された単語と類似するキーワードと、を検索する。そして、ＣＰＵ１０１は、検索したキーワードのリストを、要求元に送信する。要求元の情報処理装置は、受信したキーワードのリストを表示部に表示し、ユーザに提示する。ユーザは、表示されたキーワードのリストから、団体の検索に用いられる（１つ又は複数の）単語を追加で、選択する。要求元の情報処理装置は、ユーザによって選択された単語を情報処理装置１００に送信し、初めに送信した単語と、改めて送信した単語と、に関連する団体を検索するよう要求する。
例えば、要求元の情報処理装置は、初めに「ヘルメット」という単語で、団体の検索を行うよう情報処理装置１００に要求したとする。その場合、情報処理装置１００は、「ヘルメット」に関連するキーワード、類似するキーワードのリストを要求元に送信する。そして、ユーザは、夏場での利用を想定したヘルメットを開発している企業を探したい場合、受信したキーワードのリストから「通気性」という単語を選択する。そして、要求元の情報処理装置は、「通気性」という単語を情報処理装置１００に送信し、「ヘルメット」と「通気性」とに関連する団体を検索するよう要求する。以下では、最初に指定された単語（「ヘルメット」）をオリジナル検索ワード、追加で指定された単語（「通気性」）を追加関連ワードとする。

ＣＰＵ１０１は、オリジナル検索ワードと、追加関連ワードと、に関連する団体を、団体群から検索する。ＣＰＵ１０１は、団体群に含まれる団体それぞれについて生成された図８で説明したテーブルと同様のテーブルから、オリジナル検索ワードと追加関連ワード（又は追加関連ワードに類似する単語）とをキーワードとする団体を検索する。また、ＣＰＵ１０１は、更に、オリジナル検索ワードと追加関連ワードに類似する単語とをキーワードとする団体を検索してもよい。ＣＰＵ１０１は、テーブル１０００に基づいて、追加関連ワードに類似する単語を決定できる。
ＣＰＵ１０１は、検索した団体について、検索条件にどの程度合致しているかを示す合致スコアを決定する。ＣＰＵ１０１は、検索した団体それぞれについて、団体におけるオリジナル検索ワードと追加関連ワード（又は追加関連ワードに類似する単語）との重要度に基づいて、合致スコアを決定する。ＣＰＵ１０１は、例えば、検索した団体それぞれについて、団体におけるオリジナル検索ワードと追加関連ワード（又は追加関連ワードに類似する単語）との重要度が大きい程、値が大きくなるように合致スコアを決定する。また、ＣＰＵ１０１は、例えば、団体におけるオリジナル検索ワードと追加関連ワード（又は追加関連ワードに類似する単語）とに関連性がある団体の合致スコアを、関連性がない団体の合致スコアよりも大きくなるように、合致スコアを決定してもよい。また、ＣＰＵ１０１は、例えば、団体におけるオリジナル検索ワードと追加関連ワードとが、同じ事業クラスタのキーワードとなっている団体の合致スコアを、そうでない団体の合致スコアよりも大きくなるように、合致スコアを決定してもよい。

ＣＰＵ１０１は、検索した団体の情報と、各団体の合致スコアの情報と、を要求元の情報処理装置に送信する。要求元の情報処理装置は、検索された団体の情報を、合致スコアが大きい順に並べて、表示部に表示する。ユーザは、検索された団体の情報を視認して、関連のありそうな団体を把握できる。また、要求元の情報処理装置は、合致スコアが最大のものから予め定められた数（例えば３個）の団体について、各団体の事業毎のキーワードを表示部に表示することとしてもよい。そして、ユーザは、表示されたキーワードの中から更に追加する追加関連ワードとなるキーワードを選択する。そして、要求元の情報処理装置は、選択されたキーワードの情報を情報処理装置１００に送信する。情報処理装置１００は、追加関連ワードに、受信したキーワードを追加する。
そして、ＣＰＵ１０１は、オリジナル検索ワードと、受信したキーワードが追加された追加関連ワード（又は追加関連ワードに類似する単語）と、に基づいて、同様の処理を繰り返す。これにより、情報処理装置１００は、ユーザが望む条件により合致する団体を検索することができる。

また、ＣＰＵ１０１は、図２の処理により生成した特徴情報に基づいて、以下のような処理を行うことで、団体群から、指定された団体に類似する団体を検索することができる。
ＣＰＵ１０１は、例えば、外部の情報処理装置等から、ある団体の指定を受付け、その団体に類似する団体の検索の要求を受付ける。以下では、指定された団体を、オリジナル団体とする。ＣＰＵ１０１は例えば、オリジナル団体に含まれるキーワード（以下では、キーワード（Ａ）とする）それぞれについて、オリジナル団体における重要度と、他の団体（以下では、検索先団体とする）における重要度と、の積の和を、オリジナル団体と検索先団体との類似の度合いを示す類似度スコアとして求める。そして、ＣＰＵ１０１は、求めた類似度スコアが高い順に検索先団体に含まれる団体を並べたリストを生成し、生成したリストを、検索の要求元に送信する。また、ＣＰＵ１０１は、類似度スコアが予め定められた閾値以上の団体を、オリジナル団体に類似する団体として決定し、決定した団体を示す情報を、検索の要求元に送信してもよい。

また、ＣＰＵ１０１は、キーワード（Ａ）と類似するキーワードについて勘案して、類似度スコアを求めてもよい。例えば、ＣＰＵ１０１は、キーワード（Ａ）それぞれについて、オリジナル団体におけるキーワード（Ａ）の重要度と、検索先団体におけるキーワード（Ａ）に類似するキーワードの重要度と、の積に、キーワード（Ａ）とそのキーワードとの類似度を乗じた値を、類似度スコアに加算して類似度スコアを求めてもよい。
また、ＣＰＵ１０１は、事業構造（各キーワードがどの事業クラスタに所属しているか）を勘案して、類似度スコアを求めてもよい。例えば、ＣＰＵ１０１は、キーワード（Ａ）のうち、単一の事業クラスタに所属しているキーワード（以下では、キーワード（Ｂ）とする）について、検索先団体においても単一の事業クラスタに所属している場合、以下のようにしてもよい。即ち、ＣＰＵ１０１は、オリジナル団体におけるキーワード（Ｂ）の重要度と、検索先団体におけるキーワード（Ｂ）の重要度と、の積に係数（以下では、第１の係数とする）を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。第１の係数は、例えば、２等である。このようにすることで、ＣＰＵ１０１は、キーワード（Ｂ）が検索先でも同じ事業クラスタにある場合は、事業構造が類似しているとして、類似度スコアをより高くなるようにすることができる。
また、ＣＰＵ１０１は、キーワード間の関連性を勘案して類似度スコアを、求めてもよい。キーワード（Ａ）のうち、オリジナル団体において単一の事業クラスタに所属しており、かつ、関連度が閾値をこえているキーワード（以下では、キーワード（Ｃ）とする）について、検索先団体においても単一の事業クラスタに所属しており関連度がその閾値を超えている場合、以下のようにしてもよい。即ち、ＣＰＵ１０１は、オリジナル団体におけるキーワード（Ｃ）の重要度と、検索先団体におけるキーワード（Ｃ）の重要度と、の積に係数（以下では、第２の係数）を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。第２の係数は、例えば、３等の第１の係数よりも大きな値としてもよい。このようにすることで、ＣＰＵ１０１は、キーワード（Ｃ）が検索先でも同じ事業クラスタにあり、かつ、関連度が閾値を超えている場合は、事業構造が類似しているとして、類似度スコアを、より高くなるようにすることができる。

また、ＣＰＵ１０１は、特徴情報に基づいて、以下のような処理を行うことで、団体群から、指定された事業と類似する事業を持つ企業を検索することもできる。
ＣＰＵ１０１は、例えば、外部の情報処理装置等から、ある団体におけるある事業の指定を受付け、その事業に類似する事業を有する団体の検索の要求を受付ける。以下では、指定された事業を、オリジナル事業とする。ＣＰＵ１０１は例えば、オリジナル事業に含まれるキーワード（以下では、キーワード（Ａ’）とする）それぞれについて、オリジナル事業における重要度と、他の団体に含まれる事業（以下では、検索先事業とする）における重要度と、の積の和を、オリジナル事業と検索先事業との類似の度合いを示す類似度スコアとして求める。そして、ＣＰＵ１０１は、求めた類似度スコアが高い順に検索先事業を含む団体を並べたリストを生成し、生成したリストを、検索の要求元に送信する。また、ＣＰＵ１０１は、類似度スコアが予め定められた閾値以上の事業を含む団体を、オリジナル事業に類似する事業を含む団体として決定し、決定した団体を示す情報を、検索の要求元に送信してもよい。

また、ＣＰＵ１０１は、キーワード（Ａ’）と類似するキーワードについて勘案して、類似度スコアを求めてもよい。例えば、ＣＰＵ１０１は、キーワード（Ａ’）それぞれについて、オリジナル事業におけるキーワード（Ａ’）の重要度と、検索先事業におけるキーワード（Ａ’）に類似するキーワードの重要度と、の積に、キーワード（Ａ’）とそのキーワードとの類似度を乗じた値を、類似度スコアに加算して類似度スコアを求めてもよい。
また、ＣＰＵ１０１は、事業構造（各キーワードがどの事業クラスタに所属しているか）を勘案して、類似度スコアを求めてもよい。例えば、ＣＰＵ１０１は、キーワード（Ａ’）のうち、単一の事業クラスタに所属しているキーワード（以下では、キーワード（Ｂ’）とする）について、検索先事業に対応する単一の事業クラスタに所属している場合、以下のようにしてもよい。即ち、ＣＰＵ１０１は、オリジナル事業におけるキーワード（Ｂ’）の重要度と、検索先事業におけるキーワード（Ｂ’）の重要度と、の積に第１の係数を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。このようにすることで、ＣＰＵ１０１は、キーワード（Ｂ’）が検索先でも同じ事業クラスタにある場合は、事業構造が類似しているとして、類似度スコアをより高くなるようにすることができる。
また、ＣＰＵ１０１は、キーワード間の関連性を勘案して類似度スコアを、求めてもよい。キーワード（Ａ’）のうち、オリジナル事業において単一の事業クラスタに所属しており、かつ、関連度が閾値をこえているキーワード（以下では、キーワード（Ｃ’）とする）について、検索先事業に対応する単一の事業クラスタに所属しており関連度がその閾値を超えている場合、以下のようにしてもよい。即ち、ＣＰＵ１０１は、オリジナル事業におけるキーワード（Ｃ’）の重要度と、検索先事業におけるキーワード（Ｃ’）の重要度と、の積に第２の係数を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。このようにすることで、ＣＰＵ１０１は、キーワード（Ｃ’）が検索先でも同じ事業クラスタにあり、かつ、関連度が閾値を超えている場合は、事業構造が類似しているとして、類似度スコアを、より高くなるようにすることができる。

（まとめ）
以上、本実施形態では、情報処理装置１００は、団体に関する複数の文書データを含む文書データ群から、団体の特徴を示すキーワードを抽出し、団体に含まれる要素である事業毎にキーワードをグルーピングすることで、各事業の特徴を示すキーワードを決定し、団体の特徴を示すキーワード同士の関連性を決定し、決定した事業毎のキーワードと、キーワード同士の関係性と、に基づいて、団体における事業毎の特徴同士の関係を示す特徴情報を生成した。これにより、情報処理装置１００は、団体内にどのような事業があるのかを示す情報を生成することができる。

＜その他の実施形態＞
実施形態１では、情報処理装置１００は、単体の情報処理装置であるとした。しかし、情報処理装置１００は、ネットワーク（ＬＡＮやインターネット）を介して相互に通信可能に接続された複数の情報処理装置を含むシステムとして構成されることとしてもよい。その場合、情報処理装置１００に含まれる複数の情報処理装置それぞれのＣＰＵが、それぞれの情報処理装置の補助記憶装置に記憶されたプログラムに基づき処理を連携して実行することで、情報処理装置１００の機能及び図２のフローチャートの処理、（画像出力処理）、（検索処理）で説明した処理等が実現される。
実施形態１では、情報処理装置１００は、団体について、団体に含まれる要素である事業毎の特徴同士の関係を示す特徴情報を生成することとした。しかし、情報処理装置１００は、団体以外のオブジェクトについて、オブジェクトに含まれる要素毎に特徴同士の関係を示す特徴情報を生成してもよい。例えば、情報処理装置１００は、個人が文書投稿サイト等に投稿した複数の文書データを含む文書データ群から、個人の特徴を示すキーワードを抽出し、文書データ群に含まれる各文書データをクラスタリングし、個人に含まれる要素（性格・趣味等）を示す各クラスタを求め、各クラスタの特徴を示すキーワードを決定し、キーワード同士の関連性を決定し、決定した各クラスタの特徴を示すキーワードと、キーワード同士の関連性と、を示す情報を、特徴情報として生成してもよい。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置１００の機能構成の一部又は全てをハードウェアとして情報処理装置１００に実装してもよい。

１００情報処理装置
１０１ＣＰＵ

Claims

オブジェクトに関する複数の文書データを含む文書データ群であるオブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する抽出手段と、
前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴量を決定する第１の特徴量決定手段と、
前記第１の特徴量決定手段により決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素にそれぞれ対応する１つ以上の区分に分類する分類手段と、
前記分類手段により前記オブジェクト文書データ群に含まれる文書データが分類された前記１つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度に基づいて、前記抽出手段により抽出されたキーワードから、前記１つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定するキーワード決定手段と、
前記抽出手段により抽出されたキーワードの特徴量を決定する第２の特徴量決定手段と、
前記第２の特徴量決定手段により決定された特徴量に基づいて、前記抽出手段により抽出されたキーワード同士の関連性を決定する関連性決定手段と、
前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、に基づいて前記オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する生成手段と、
を有する情報処理装置。
前記オブジェクト文書データ群における単語の出現頻度に基づいて、前記単語の前記オブジェクトにおける重要性を示すスコア値を決定する第１のスコア決定手段と、
前記分類手段により前記オブジェクト文書データ群に含まれる文書データが分類された前記１つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度に基づいて、前記抽出手段により抽出されたキーワードの前記１つ以上の区分に含まれる区分における重要性を示すスコア値を決定する第２のスコア決定手段と、
を更に有し、
前記抽出手段は、前記第１のスコア決定手段により決定されたスコア値に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出し、
前記キーワード決定手段は、前記第２のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードから、前記１つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定する請求項１記載の情報処理装置。
前記第１のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードの前記オブジェクトにおける重要性を示す重要度を決定する重要度決定手段を更に有し、
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記重要度決定手段により決定された重要度と、に基づいて、前記特徴情報を生成する請求項２記載の情報処理装置。
前記第２のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードの前記オブジェクトにおける重要性を示す重要度を決定する重要度決定手段を更に有し、
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記重要度決定手段により決定された重要度と、に基づいて、前記特徴情報を生成する請求項２記載の情報処理装置。
前記第２の特徴量決定手段は、前記第２のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードの特徴量を決定する請求項２乃至４何れか１項記載の情報処理装置。
前記抽出手段は、前記オブジェクト文書データ群における単語の出現頻度と、前記オブジェクトを含む複数のオブジェクトそれぞれに関する複数の文書データ群における単語の希少性と、に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する請求項１乃至５何れか１項記載の情報処理装置。
前記第１の特徴量決定手段は、前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの重要性を示すスコア値を決定し、決定したスコア値に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴を示すベクトルを決定し、決定したベクトルを次元圧縮し、次元圧縮したベクトルを、前記オブジェクト文書データ群に含まれる文書データの特徴量として決定する請求項１乃至６何れか１項記載の情報処理装置。
前記キーワード決定手段は、前記１つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度と、前記１つ以上の区分における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記抽出手段により抽出されたキーワードから、前記１つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定する請求項１乃至７何れか１項記載の情報処理装置。
前記抽出手段により抽出されたキーワードの意味を決定する意味決定手段を更に有し、
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記意味決定手段により決定された意味と、に基づいて、前記特徴情報を生成する請求項１乃至８何れか１項記載の情報処理装置。
前記意味決定手段は、前記抽出手段により抽出されたキーワードの潜在的意味を抽出し、抽出した潜在的意味を、前記抽出手段により抽出されたキーワードの意味として決定する請求項９記載の情報処理装置。
前記生成手段により生成された前記特徴情報に基づいて、前記オブジェクトにおける要素毎の特徴同士の関係を示す画像を出力する出力手段を更に有する請求項１乃至１０何れか１項記載の情報処理装置。
前記抽出手段は、企業である前記オブジェクトに関する複数の文書データを含む前記オブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出し、
前記分類手段は、前記第１の特徴量決定手段により決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素である事業にそれぞれ対応する１つ以上の区分に分類する請求項１乃至１１何れか１項記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
オブジェクトに関する複数の文書データを含む文書データ群であるオブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する抽出ステップと、
前記オブジェクト文書データ群に含まれる文書データにおける前記抽出ステップで抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出ステップで抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴量を決定する第１の特徴量決定ステップと、
前記第１の特徴量決定ステップで決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素にそれぞれ対応する１つ以上の区分に分類する分類ステップと、
前記分類ステップで前記オブジェクト文書データ群に含まれる文書データが分類された前記１つ以上の区分に含まれる区分における前記抽出ステップで抽出されたキーワードの出現頻度に基づいて、前記抽出ステップで抽出されたキーワードから、前記１つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定するキーワード決定ステップと、
前記抽出ステップで抽出されたキーワードの特徴量を決定する第２の特徴量決定ステップと、
前記第２の特徴量決定ステップで決定された特徴量に基づいて、前記抽出ステップで抽出されたキーワード同士の関連性を決定する関連性決定ステップと、
前記キーワード決定ステップで決定されたキーワードと、前記関連性決定ステップで決定された関連性と、に基づいて前記オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する生成ステップと、
を含む情報処理方法。
コンピュータを、請求項１乃至１２何れか１項記載の情報処理装置の各手段として、機能させるためのプログラム。