以下、図面を参照して、本発明の実施形態について説明する。
図3は、本実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。図3に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10および外部記憶装置20は、情報処理装置30を構成する。
図4は、図3に示す情報処理装置30の主として機能構成を示すブロック図である。図4に示すように、情報処理装置30は、テーブル生成部31、可視化部32、操作部33および分類項目再配置分析部34を含む。本実施形態において、これらの各部31〜34は、図3に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
また、情報処理装置30は、文書分類情報格納部22、テーブル情報格納部23および指定分類項目格納部24を含む。本実施形態において、文書分類情報格納部22、テーブル情報格納部23および指定分類項目格納部24は、例えば外部記憶装置20に格納される。
文書分類情報格納部22には、文書を分類するための観点(文書を分類する際に注目する情報)毎において当該文書が分類される項目(当該観点における分類項目)を示す文書分類情報が格納される。文書分類情報格納部22に格納される文書分類情報は、文書を識別するための文書IDおよび観点毎において当該文書が分類される分類項目(を示す情報)を含む。
ここで、文書を分類するための観点には、文書が特許文献等である場合、例えば「出願人」および「IPC(International Patent Classification)」等が含まれる。また、例えば観点「出願人」において文書が分類される分類項目には、当該文書の出願人である「株式会社X」等が含まれる。
テーブル生成部31は、文書分類情報格納部22に格納されている文書分類情報に基づいて、2つの観点(例えば、観点αおよび観点β)を軸(分類軸αおよび分類軸β)とするテーブル(情報)を生成する。換言すれば、テーブル生成部31によって生成されるテーブルは、例えば観点αにおける複数の分類項目(第1の項目)および観点βにおける複数の分類項目(第2の項目)がそれぞれ列および行として構成される。
以下の説明では、テーブルの列を構成する例えば観点αにおける分類項目(分類軸αの分類項目)の各々を列側分類項目と称する。また、テーブルの行を構成する例えば観点βにおける分類項目(分類軸βの分類項目)の各々を行側分類項目と称する。なお、列側分類項目および行側分類項目を区別しない場合には単に分類項目と称する。
また、テーブル生成部31によって生成されるテーブルにおいては、列側分類項目(観点αにおける分類項目)および行側分類項目(観点βにおける分類項目)の組毎に対応する値が保持される。
テーブル生成部31によって生成されたテーブル(第1のテーブル)は、テーブル情報格納部23に格納される。
可視化部32は、テーブル情報格納部23に格納されたテーブルを可視化して、ユーザ(閲覧者)に提示する。具体的には、可視化部32は、テーブル情報格納部23に格納されたテーブルを画面としてディスプレイに表示する。
操作部33は、例えばマウスまたはキーボード等に対するユーザの操作を受け付ける。操作部33によって受け付けられた操作は、例えばテーブルが表示された表示画面上のマウスポインタの移動等として反映される。また、例えば表示画面上の特定の部位にマウスポインタがある状態でマウスがクリックされるような操作が操作部33によって受け付けられた場合には、以下の分類項目指定指令部331または分類項目再配置指令部332が起動される。
操作部33は、受け付けられた操作に応じて起動される分類項目指定指令部331および分類項目再配置指令部332を含む。
分類項目指定指令部331は、可視化部32によって提示されたテーブル(テーブル情報格納部23に格納されたテーブル)を構成する複数の分類項目(複数の列側分類項目および行側分類項目)のうち、マウスまたはキーボード等を用いたユーザによる分類項目の指定(つまり、当該ユーザによって指定された分類項目)を受け付ける。分類項目指定指令部331によって分類項目の指定が受け付けられた場合、当該分類項目を示す情報(以下、指定分類項目情報と表記)が指定分類項目格納部24に格納される。
分類項目再配置指令部332は、ユーザの操作に応じて、例えばテーブル情報格納部23に格納されたテーブルを構成する複数の分類項目の再配置の指示を受け付ける。なお、ユーザは、例えばマウスまたはキーボード等を用いて、情報処理装置30(の分類項目再配置指令部332)に対して再配置を指示するこができる。分類項目再配置指令部332は、分類項目の再配置の指示が受け付けられた場合、当該分類項目の再配置の分析を行うよう、分類項目再配置分析部34に指令する。
分類項目再配置分析部34は、テーブル情報格納部23に格納されているテーブルおよび指定分類項目格納部24に格納されている指定分類項目情報に基づいて、当該テーブルの2軸(分類軸αおよび分類軸β)の各分類項目(当該テーブルを構成する列側分類項目および行側分類項目)の再配置に関する分析を行う。これにより、分類項目再配置分析部34は、テーブル情報格納部23に格納されているテーブルを構成する複数の分類項目が再配置された新たなテーブル(第2のテーブル)を再生成する。
分類項目再配置分析部34は、ベクトル抽出部341、自動分類部342、クラスタリング部343、分類項目再配置部344およびテーブル再生成部345を含む。
ベクトル抽出部341は、テーブル情報格納部23に格納されているテーブルに保持されている値に基づいて、当該テーブルを構成する列側分類項目および行側分類項目の各々のベクトルを当該テーブルから抽出する。
なお、ベクトル抽出部341によって抽出される列側分類項目の各々のベクトルは、行側分類項目の数を次元数とするベクトルである。一方、ベクトル抽出部341によって抽出される行側分類項目の各々のベクトルは、列側分類項目の数を次元数とするベクトルである。
自動分類部342は、指定分類項目格納部24に格納された指定分類項目情報およびベクトル抽出部341によって抽出された分類項目毎のベクトルに基づいて、当該指定分類項目情報によって示される分類項目(以下、指定分類項目と表記)と当該指定分類項目以外の分類項目との類似度を算出する。自動分類部342は、指定分類項目と、当該指定分類項目と軸(分類軸αまたは分類軸β)が同一である分類項目との類似度を算出する。つまり、指定分類項目が例えば列側分類項目である場合には、当該指定分類項目と当該指定分類項目以外の列側分類項目との類似度が算出される。
自動分類部342は、算出された類似度に基づいて、指定分類項目との類似度が予め定められた値(以下、閾値と表記)以上の分類項目を特定する。自動分類部342は、特定された分類項目および指定分類項目が属するクラスタ(第3のクラスタ)を生成する。つまり、自動分類部342は、指定分類項目と観点(分類軸)が同一である分類項目であって、かつ、当該指定分類項目との類似性の高い分類項目について自動分類を行う。
クラスタリング部343は、テーブルを構成する列側分類項目について、クラスタリング処理を実行する。クラスタリング部343は、ベクトル抽出部341によって抽出された列側分類項目の各々のベクトルに基づいてクラスタリング処理を実行する。これにより、クラスタリング部343は、列側分類項目の各々が属する複数のクラスタ(第1のクラスタ)を生成する。
なお、クラスタリング部343は、上記した指定分類項目(ユーザによって指定された分類項目)が例えば列側分類項目である場合には、自動分類部342によって生成されたクラスタに属する列側分類項目以外の列側分類項目についてクラスタリング処理を実行する。
また、クラスタリング部343は、テーブルを構成する行側分類項目について、クラスタリング処理を実行する。クラスタリング部343は、ベクトル抽出部341によって抽出された行側分類項目の各々のベクトルに基づいてクラスタリング処理を実行する。これにより、クラスタリング部343は、行側分類項目の各々が属する複数のクラスタ(第2のクラスタ)を生成する。
なお、クラスタリング部343は、上記した指定分類項目が例えば行側分類項目である場合には、自動分類部342によって生成されたクラスタに属する行側分類項目以外の行側分類項目についてクラスタリング処理を実行する。これにより、クラスタリング部343は、行側分類項目の各々が属する複数のクラスタ(第2のクラスタ)を生成する。
つまり、クラスタリング部343は、自動分類部342によって自動分類が行われていない分類項目についてクラスタリング処理を実行する。
クラスタリング部343によって実行されるクラスタリング処理は、例えばleader-follower法によって行われるものとする。
分類項目再配置部344は、自動分類部342によって生成されたクラスタおよびクラスタリング部343によって生成されたクラスタに基づいて、テーブル情報格納部23に格納されているテーブルを構成する複数の列側分類項目および行側分類項目(当該クラスタに属する列側分類項目および行側分類項目)を再配置する。このとき、分類項目再配置部344は、予め定められたルールに基づいて分類項目を再配置する。
テーブル再生成部345は、分類項目再配置部344によって再配置された列側分類項目および行側分類項目に基づいてテーブル(第2のテーブル)を再生成する。テーブル再生成部345は、分類項目再配置部344によって再配置された列側分類項目および行側分類項目がそれぞれ列および行として構成されるテーブルであって、当該列側分類項目および当該行側分類項目の組毎に対応する値を保持するテーブルを再生成する。なお、テーブル再生成部345によって再生成されるテーブルにおいて保持される値(列側分類項目および行側分類項目の組に対応する値)は、テーブル情報格納部23に格納されているテーブルに保持されている値(当該列側分類項目および当該行側分類項目の組に対応する値)である。
テーブル再生成部345によって再生成されたテーブルは、テーブル情報格納部23に格納される。また、テーブル情報格納部23に格納されたテーブル(テーブル再生成部345によって再生成されたテーブル)は、可視化部32によって可視化(表示)される。
図5は、図4に示す文書分類情報格納部22に格納されている文書分類情報のデータ構造の一例を示す。なお、図5に示す文書分類情報格納部22に格納されている文書分類情報は、文書を分類するための例えば観点αおよび観点βにおいて文書が分類される分類項目(観点αおよび観点βにおける分類項目)を示す。以下の説明においては、観点αにおける分類項目には、項目1〜項目8が含まれるものとする。また、観点βにおける分類項目には、項目A〜項目Gが含まれるものとする。
図5に示すように、文書分類情報格納部22に格納されている文書分類情報には、文書を識別するための文書IDおよび観点毎において当該文書が分類される分類項目(を示す情報)が対応づけて含まれる。
図5に示す例では、文書文類情報格納部22に格納されている文書分類情報には、文書ID「1」、観点αにおける分類項目「項目1」および観点βにおける分類項目「項目A」が対応づけて含まれている。これによれば、文書ID「1」によって識別される文書は、観点αにおいては項目1に分類され、観点βにおいては項目Aに分類されることが示される。
また、文書分類情報格納部22に格納されている文書分類情報には、文書ID「2」、観点αにおける分類項目「項目3」、「項目4」および観点βにおける分類項目「項目C」が対応づけて含まれている。これによれば、文書ID「2」によって識別される文書は、観点αにおいては項目3および項目4に分類され、観点βにおいては項目Cに分類されることが示される。
同様に、文書分類情報格納部22に格納されている文書分類情報には、文書ID「3」、観点αにおける分類項目「項目1」、「項目2」および観点βにおける分類項目「項目F」、「項目G」が対応づけて含まれている。これによれば、文書ID「2」によって識別される文書は、観点αにおいては項目1および項目2に分類され、観点βにおいては項目Fおよび項目Gに分類されることが示される。
更に、文書文類情報格納部22に格納されている文書分類情報には、文書ID「4」、観点αにおける分類項目「項目6」および観点βにおける分類項目「項目A」が対応づけて含まれている。これによれば、文書ID「4」によって識別される文書は、観点αにおいては項目6に分類され、観点βにおいては項目Aに分類されることが示される。
なお、例えば文書ID「2」および「3」によって識別される文書のように、1つの文書が1つの観点において複数の分類項目に分類されても構わない。また、図5に示す文書分類情報格納部22に格納されている文書分類情報においては、観点αおよび観点βにおける分類項目のみが示されているが、当該文書分類情報に他の観点における分類項目が含まれていても構わない。
次に、図6のフローチャートを参照して、本実施形態に係る情報処理装置30の処理手順について説明する。なお、図6に示す処理は、例えばユーザが情報処理装置30を操作することによって統計図表(テーブル)の表示が当該ユーザから指示された場合に実行される。
以下、文書分類情報格納部22には、上述した図5に示す文書分類情報が格納されているものとして説明する。
まず、テーブル生成部31は、文書分類情報格納部22に格納されている文書分類情報に基づいてテーブル(情報)を生成する(ステップS1)。
図5に示す文書分類情報格納部22に格納されている文書分類情報に基づいてテーブルが生成された場合、観点αにおける各分類項目(項目1〜項目8)を列、観点βにおける各分類項目(項目A〜項目G)を行とするテーブルが生成される。この場合、観点αにおける各分類項目は、テーブル生成部31によって生成されるテーブルにおいて左から右に分類項目名のアスキーコード昇順にソートされるものとする。また、観点βにおける各分類項目は、テーブル生成部31によって生成されるテーブルにおいて上から下に分類項目名のアスキーコード降順にソートされるものとする。
以下、観点αにおける各分類項目(項目1〜項目8)を列側分類項目、観点βにおける各分類項目(項目A〜項目G)を行側分類項目とする。
また、テーブル生成部31によって生成されるテーブルには、列側分類項目および行側分類項目の組毎に対応する値が保持される。この列側分類項目および行側分類項目の組に対応する値とは、観点αにおいては当該列側分類項目に分類され、かつ、観点βにおいては当該行側分類項目に分類される文書の数である。具体的には、列側分類項目「項目1」および行側分類項目「項目A」の組に対応する値は、観点αにおいては「項目1」に分類され、かつ、観点βにおいては「項目A」に分類される文書の数である。
なお、列側分類項目および行側分類項目の組(の各々)に対応する値は、文書分類情報格納部22に格納されている文書分類情報に基づいて算出される。具体的には、列側分類項目および行側分類項目の組に対応する値は、文書分類情報格納部22に格納されている文書分類情報において、当該列側分類項目および当該行側分類項目に対応づけられている文書IDの数により算出される。
以下、図5に示す文書分類情報に基づいてテーブル生成部31によって生成されたテーブルは、前述した図1に示すテーブルであるものとして説明する。図1に示すテーブルにおいては、上記したように項目1〜項目8が列側分類項目であり、項目A〜項目Gが行側分類項目である。図1に示すテーブルにおいては、例えば列側分類項目である項目1および行側分類項目である項目Aの組に対応する値として26が当該テーブルに保持されている。これによれば、観点αにおいて項目1に分類され、かつ、観点βにおいて項目Aに分類される文書の数が26であることが示される。
ここでは、観点αにおける各分類項目を列、観点βにおける各分類項目を行とするテーブルが生成されるものとして説明したが、観点αにおける各分類項目を行、観点βにおける各分類項目を列とするテーブルが生成されても構わない。また、ここでは、観点αおよび観点βにおける各分類項目からテーブルが生成されるものとして説明したが、文書分類情報格納部22に格納されている文書分類情報において観点αおよび観点β以外の観点(例えば、観点γ等)における分類項目が含まれている場合には、当該複数の観点のうちのユーザによって選択された2つの観点における各分類項目からテーブルが生成されても構わない。
テーブル生成部31は、生成されたテーブル(情報)をテーブル情報格納部23に格納する(ステップS2)。ここでは、上記したように図1に示すテーブルがテーブル情報格納部23に格納されたものとする。
次に、可視化部32は、テーブル情報格納部23に格納されたテーブルを読み出して、例えばディスプレイ等の画面上で可視化する。これにより、可視化部32は、テーブル情報格納部23に格納されたテーブルをユーザに対して表示(提示)する(ステップS3)。
図7は、可視化部32によってテーブルが表示された場合のディスプレイの表示画面の一例を示す。なお、図7は、テーブル情報格納部23に格納されたテーブルとして図1に示すテーブルが表示された場合の表示画面の一例を示す。
図7に示すように、表示画面321には、テーブル表示結果としてテーブル情報格納部23に格納されたテーブル(ここでは、図1に示すテーブル)が表示されている。なお、表示画面321には、後述するユーザがテーブルを構成する各分類項目(列側分類項目および行側分類項目)の再配置を指示するための「再表示」ボタン322が表示されている。
なお、図7に示す表示画面321は一例であり、例えば「再表示」ボタン322以外のボタン、文字列または装飾等が施されていても構わない。また、表示画面321においては、その他の情報が付記されていてもよい。
ここで、ユーザは、可視化部32によって表示されたテーブル(つまり、図7に示す表示画面321)を参照して、当該テーブルを構成する複数の分類項目(列側分類項目および行側分類項目)のうちの少なくとも1つを指定することができる。この場合、ユーザは、例えばマウスまたはキーボードを用いて、当該ユーザにとって興味がある分類項目を指定することができる。
例えばマウスを用いたユーザからの操作は、操作部33によって受け付けられる。操作部33によって受け付けられた操作は、表示画面上でのマウスポインタの移動等として反映される。これにより、ユーザは、例えばマウス等を操作して表示画面上の特定の箇所(分類項目)にマウスポインタを移動し、当該マウスをクリックすることにより、当該ユーザにとって興味がある分類項目を指定することができる。なお、マウスポインタではなく、キーボードによる操作によって分類項目が指定されても構わない。
ここで、図8を参照して、ユーザによって分類項目が指定される場合の表示画面について説明する。
ここでは、ユーザにとって興味がある分類項目が列側分類項目の中の項目1であるものとする。この場合、図8に示すように、ユーザは、例えばマウス等を操作して、分類軸αの項目1(が記載されているセル)に表示画面321上のマウスポインタ323を移動させる。ここで、ユーザが、マウスをクリックすることで、項目1を指定することができる。
なお、上記したように項目1が指定された後に、当該項目1が再度クリックされた場合には、当該項目1に対する指定が解除される構成であってもよい。
再び図6に戻ると、操作部33(に含まれる分類項目指定指令部331)は、上記したようにユーザによって分類項目が指定された(つまり、ユーザによる分類項目の指定がある)か否かを判定する(ステップS4)。分類項目指定指令部331は、操作部33によって受け付けられたユーザの操作に基づいて判定処理を実行する。
ユーザによる分類項目の指定があると判定された場合(ステップS4のYES)、分類項目指定指令部331は、当該分類項目(つまり、ユーザによって指定された分類項目)を示す情報(指定分類項目情報)を、指定分類項目格納部24に格納する(ステップS5)。また、分類項目指定指令部331は、指定分類項目情報を可視化部32に渡す。これにより、分類項目指定指令部331は、可視化部32に対して、指定分類項目情報によって示される分類項目を他の分類項目と区別して表示するよう指令する。
上記したようにユーザによって項目1が指定された場合には、分類項目指定指令部331は、当該項目1を示す指定分類項目情報を指定分類項目格納部24に格納する。また、分類項目指定指令部331は、項目1を示す指定分類項目情報を可視化部32に渡す。
可視化部32は、分類項目指定指令部331から渡された指定分類項目情報に基づいて、表示画面におけるテーブルの表示を更新する(ステップS6)。具体的には、可視化部32は、指定分類項目情報によって示される分類項目(指定分類項目)、つまり、ユーザによって指定された分類項目を表示画面上において例えば強調表示する。
ここで、図9は、可視化部32によってテーブルの表示が更新された場合の表示画面の一例を示す。図9に示すように、可視化部32は、上記したように分類項目指定指令部331から例えば項目1を示す指定分類項目情報が渡された場合には、表示画面321上に表示されているテーブルを構成する当該項目1を、他の分類項目と区別できるように強調表示する。
再び図6に戻ると、上記したステップS6の処理が実行されるとステップS4に戻って処理が繰り返される。つまり、項目1とは異なる他の分類項目がユーザによって指定された場合には、再度、ステップS5およびステップS6の処理が実行される。
一方、上記したステップS4においてユーザによる分類項目の指定がないと判定された場合について説明する。この場合、操作部33(に含まれる分類項目再配置指令部332)は、ユーザの操作に応じて、テーブルを構成する複数の分類項目(列側分類項目および行側分類項目)の再配置の指示があるか否かを判定する(ステップS7)。
ユーザは、例えばマウス等を操作することにより、図10に示すように表示画面321上のマウスポインタ323を「再表示」ボタン322上に移動させて、当該マウスをクリックする。分類項目再配置指令部332は、ユーザによりこのような操作がされた場合には、テーブルを構成する複数の分類項目の再配置の指示があると判定する。
再配置の指示があると判定された場合(ステップS7のYES)、分類項目再配置指令部332は、分類項目再配置分析部34に対して、テーブル情報格納部23に格納されているテーブルを構成する複数の分類項目(列側分類項目および行側分類項目)を再配置するための分析を指令する。
次に、分類項目再配置分析部34に含まれるベクトル抽出部341は、テーブル情報格納部23に格納されているテーブル(第1のテーブル)から、当該テーブルを構成する項目毎(列側分類項目および行側分類項目の各々)のベクトルを抽出する(ステップS8)。
具体的には、ベクトル抽出部341は、テーブル情報格納部23に格納されているテーブルの列を構成する列側分類項目の各々のベクトルを、当該テーブルに保持されている当該列側分類項目と行側分類項目の各々との各組に対応する値(つまり、当該列側分類項目および当該行側分類項目の各々の交点のセルの値)に基づいて抽出する。
ここで、図11を参照して、テーブル情報格納部23に格納されているテーブルから抽出される列側分類項目の各々のベクトルについて具体的に説明する。
図11に示すように、列側分類項目(例えば、項目1)は、テーブル情報格納部23に格納されているテーブルにおいて行側分類項目である項目A〜項目Gの各々と交差している。この場合、項目1のベクトルは、当該項目1と項目A〜項目Gの各々との各組に対応する値(各交点のセルの値)を成分(要素)とする7次元(次元の数は行側分類項目の数)の数ベクトル空間として定義することができる。つまり、列側分類項目である項目1のベクトルとして、項目1:(26,1,8,1,20,2,7)の数ベクトル空間がテーブル情報格納部23に格納されているテーブル(図1に示すテーブル)から抽出される。
ここでは、列側分類項目である項目1のベクトルについて説明したが、当該列側分類項目である項目2から項目8についても同様にしてベクトルが抽出される。具体的には、列側分類項目である項目2のベクトルとして項目2:(2,5,1,6,1,9,3)、列側分類項目である項目3のベクトルとして項目3:(7,11,7,7,0,24,5)、列側分類項目である項目4のベクトルとして項目4:(0,1,23,0,1,1,15)、列側分類項目である項目5のベクトルとして項目5:(11,4,2,6,12,8,1)、列側分類項目である項目6のベクトルとして項目6:(17,0,0,3,21,2,1)、列側分類項目である項目7のベクトルとして項目7:(0,27,2,7,0,11,4)、列側分類項目である項目8のベクトルとして項目8:(0,1,15,0,0,1,25)の数ベクトル空間がテーブル情報格納部23に格納されているテーブルから抽出される。
一方、ベクトル抽出部341は、テーブル情報格納部23に格納されているテーブルの行を構成する行側分類項目の各々のベクトルを、当該テーブルに保持されている列側分類項目の各々と当該行側分類項目との各組に対応する値(つまり、当該列側分類項目の各々および当該行側分類項目の交点のセルの値)に基づいて抽出する。
ここで、図12を参照して、テーブル情報格納部23に格納されているテーブルから抽出される行側分類項目の各々のベクトルについて具体的に説明する。
図12に示すように、行側分類項目(例えば、項目A)は、テーブル情報格納部23に格納されているテーブルにおいて行側分類項目である項目1〜項目8の各々と交差している。この場合、項目Aのベクトルは、当該項目Aと項目1〜項目8の各々との各組に対応する値(各交点のセルの値)を成分(要素)とする8次元(次元の数は列側分類項目の数)の数ベクトル空間として定義することができる。つまり、行側分類項目である項目Aのベクトルとして、項目A:(26,2,7,0,11,17,0,0)の数ベクトル空間がテーブル情報格納部23に格納されているテーブル(図1に示すテーブル)から抽出される。
ここでは、行側分類項目である項目Aのベクトルについて説明したが、当該行側分類項目である項目B〜項目Gについても同様にしてベクトルが抽出される。具体的には、行側分類項目である項目Bのベクトルとして項目B:(1,5,11,1,4,0,27,1)、行側分類項目である項目Cのベクトルとして項目C:(8,1,7,23,2,0,2,15)、行側分類項目である項目Dのベクトルとして項目D:(1,6,7,0,6,3,7,0)、行側分類項目である項目Eのベクトルとして項目E:(20,1,0,1,12,21,0,0)、行側分類項目である項目Fのベクトルとして項目F:(2,9,24,1,8,2,11,1)、行側分類項目である項目Gのベクトルとして項目G:(7,3,5,15,1,1,4,25)の数ベクトル空間がテーブル情報格納部23に格納されているテーブルから抽出される。
上記したように、ベクトル抽出部341は、テーブル情報格納部23に格納されているテーブルから、各分類項目(列側分類項目および行側分類項目の各々)に対するベクトル(数ベクトル空間)を抽出する。
再び図6に戻ると、分類項目再配置分析部34は、指定分類項目格納部24に指定分類項目情報があるか否かを判定する(ステップS9)。
指定分類項目情報があると判定された場合(ステップS9のYES)、自動分類部342は、指定分類項目格納部24に格納されている指定分類項目情報およびベクトル抽出部341によって抽出された各分類項目のベクトルに基づいて、当該指定分類項目情報によって示される指定分類項目に対する自動分類処理を実行する(ステップS10)。
この場合、自動分類部342は、指定分類項目格納部24に格納されている指定分類項目情報によって示される指定分類項目および当該指定分類項目以外の分類項目のベクトルに基づいて、当該指定分類項目と当該指定分類項目以外の分類項目との類似度を算出する。
具体的には、自動分類部342は、指定分類項目のベクトルおよび当該指定分類項目と分類軸が同一である分類項目(同一の観点における分類項目)のベクトルに基づいて、当該指定分類項目と当該分類項目との類似度を算出する。以下、指定分類項目のベクトルとの類似度の算出の対象となる分類項目を対象分類項目と称する。
ここで、指定分類項目と対象分類項目との類似度は、例えば当該指定分類項目および対象分類項目のベクトル(数ベクトル空間)を用いたコサイン類似度により算出されるものとする。この場合、類似度は、例えば「a・b/(|a|*|b|)」の式(以下、類似度算出式と表記)により算出される。この類似度算出式における「a」および「b」は、指定分類項目のベクトル(数ベクトル空間)および対象分類項目のベクトル(数ベクトル空間)を表す。類似度算出式における「a・b」は、「a」および「b」の内積を表す。また、類似度算出式における「|a|」および「|b|」は、それぞれ「a」および「b」のノルムを表す。
なお、ここでは類似度として数ベクトル空間を用いたコサイン類似度を用いるものとして説明したが、これ以外の方法により類似度が算出されても構わない。
自動分類部342は、算出された類似度に基づいて、指定分類項目との類似度が閾値以上である対象分類項目を特定する。この場合、自動分類部342は、指定分類項目および特定された対象分類項目が同一のクラスタ(グループ)に属しているものとする。つまり、自動分類部342は、指定分類項目および特定された対象分類項目が属するクラスタ(第3のクラスタ)を生成する。
ここで、上記したように指定分類項目情報によって示される指定分類項目が項目1である場合における自動分類処理について具体的に説明する。この場合、前述した図1に示すテーブルにおいて項目1(指定分類項目)と分類軸が同一である分類項目(対象分類項目)は、項目2〜項目8(つまり、列側分類項目)である。また、指定分類項目および対象分類項目(つまり、項目1〜項目8)の各々のベクトルは、上記したように項目1:(26,1,8,1,20,2,7)、項目2:(2,5,1,6,1,9,3)、項目3:(7,11,7,7,0,24,5)、項目4:(0,1,23,0,1,1,15)、項目5:(11,4,2,6,12,8,1)、項目6:(17,0,0,3,21,2,1)、項目7:(0,27,2,7,0,11,4)および項目8:(0,1,15,0,0,1,25)であるものとする。
自動分類部342は、上記した類似度算出式を用いて指定分類項目である項目1と対象分類項目である項目2〜項目8の各々との類似度を算出する。この場合、項目1と項目2との類似度としては、0.300が算出される。また、項目1と項目3との類似度としては、0.333が算出される。同様に、項目1と項目4との類似度としては、0.328が算出される。同様に、項目1と項目5との類似度としては、0.847が算出される。同様に、項目1と項目6との類似度としては、0.929が算出される。また、項目1と項目7との類似度としては、0.095が算出される。更に、項目1と項目8との類似度としては、0.295が算出される。
ここで、閾値が0.7であるものとすると、自動分類部342によって算出された類似度が閾値以上である対象分類項目は項目5および項目6である。したがって、自動分類部342は、類似度が閾値以上である対象分類項目として項目5および項目6を特定する。これにより、自動分類部342は、指定分類項目である項目1、特定された対象分類項目である項目5および項目6が属するクラスタを生成する。
なお、指定分類項目情報によって示される指定分類項目とは分類軸が異なる分類項目(ここでは、分類軸βの行側分類項目)に対しては自動分類処理は実行されない。
一方、上記したステップS9において指定分類項目格納部24に指定分類項目情報がないと判定された場合、ステップS10の処理は実行されない。
次に、クラスタリング部343は、テーブル情報格納部23に格納されているテーブルを構成する各分類項目に対するクラスタリング処理を実行する(ステップS11)。このクラスタリング処理は、ベクトル抽出部341によって抽出された各分類項目のベクトルを用いて、テーブル情報格納部23に格納されているテーブルの分類軸毎(つまり、列側分類項目および行側分類項目毎)に実行される。換言すれば、クラスタリング処理は、テーブル情報格納部23に格納されているテーブルを構成する列側分類項目に対して実行され、更に、当該テーブルを構成する行側分類項目に対して実行される。このクラスタリング処理によれば、列側分類項目の各々が属する複数のクラスタ(第1のクラスタ)および行側分類項目の各々が属する複数のクラスタ(第2のクラスタ)が生成される。
なお、上記したステップS10の処理が実行されている場合には、クラスタリング処理は、自動分類部342によって生成されたクラスタに属する分類項目以外の分類項目に対して実行される。
ここでは、クラスタリング部343は、例えばleader-follower法によりクラスタリング処理を実行するものとする。
このleader-follower法によるクラスタリング処理においては、各分類項目が属するクラスタが自動的に生成され、当該クラスタ(に属する分類項目)と分類項目との類似度が上述した類似度算出式により算出され、当該算出された類似度が閾値以上である場合に、当該分類項目が当該クラスタに分類される。このような処理が、テーブル情報格納部23に格納されているテーブルを構成する各分類項目について順次実行されることによって当該分類項目の各々がクラスタリングされる。これにより、テーブル情報格納部23に格納されているテーブルを構成する各分類項目が属する複数のクラスタが生成される。
ここで、クラスタリング部343によって実行されるクラスタリング処理について具体的に説明する。ここでは、テーブル情報格納部23には、図1に示すテーブルが格納されているものとする。また、自動分類部342によって作成されたクラスタには、上記したように列側分類項目である項目1、項目5および項目6が属するものとする。
まず、クラスタリング部343は、テーブル情報格納部23に格納されているテーブルを構成する列側分類項目(分類軸α)に対してクラスタリング処理を実行する。
この場合、クラスタリング部343は、テーブル情報格納部23に格納されているテーブルを構成する列側分類項目のうち、自動分類部342によって作成されたクラスタに属する項目1、項目5および項目6以外の列側分類項目(つまり、項目2〜項目4、項目7および項目8)に対してクラスタリング処理を実行する。
ここで、上記したクラスタリング処理において用いられる閾値が例えば0.7であるものとすると、クラスタリング部343は、列側分類項目である項目2〜項目4、項目7および項目8に対してクラスタリング処理を実行することにより、項目4および項目8が属するクラスタ、項目3および項目7が属するクラスタ、項目2が属するクラスタの3つのクラスタを生成する。
次に、クラスタリング部343は、テーブル情報格納部23に格納されているテーブルを構成する行側分類項目(分類軸β)に対してクラスタリング処理を実行する。
この場合、テーブル情報格納部23に格納されているテーブルを構成する行側分類項目は自動分類部342によって作成されたクラスタに属していないため、クラスタリング部343は、当該行側分類項目の全て(項目A〜項目G)に対してクラスタリング処理を実行する。
上記したように、クラスタリング処理において用いられる閾値が0.7であるものとすると、クラスタリング部343は、行側分類項目である項目A〜項目Gに対してクラスタリング処理を実行することにより、項目Aおよび項目Eが属するクラスタ、項目Cおよび項目Gが属するクラスタ、項目Bおよび項目Fが属するクラスタ、項目Dが属するクラスタの4つのクラスタを生成する。
なお、ここではleader-follower法によりクラスタリング処理が実行されるものとして説明したが、当該leader-follower法以外の手法(例えば、k-means法または階層型クラスタリング)によりクラスタリング処理が実行される構成であっても構わない。
次に、分類項目再配置部344は、上記した自動分類部342およびクラスタリング部343によって生成されたクラスタに基づいて、テーブル情報格納部23に格納されているテーブルを構成する各分類項目(列側分類項目および行側分類項目)を再配置する(ステップS12)。つまり、分類項目再配置部344は、テーブル情報格納部23に格納されているテーブルを構成する列側分類項目の再配置処理および当該テーブルを構成する行側分類項目の再配置処理を実行する。この分類項目再配置部344による再配置処理は、以下に説明するような予め定められたルールに基づいて実行される。
なお、上記したステップS10の処理が実行されていない場合には、クラスタリング部343によって生成されたクラスタのみに基づいて再配置処理が実行される。
以下、テーブル情報格納部23に格納されているテーブルを構成する列側分類項目の再配置処理および当該テーブルを構成する行側分類項目の再配置処理について説明する。
まず、テーブル情報格納部23に格納されているテーブルを構成する列側分類項目の再配置処理について説明する。
列側分類項目の再配置処理においては、当該列側分類項目の各々が属する複数のクラスタ(以下、列側クラスタと表記)の並び替えが行われる。この列側クラスタの並び替えにおいては、当該列側クラスタのうち、指定分類項目格納部24に格納されている指定分類項目情報によって示される指定分類項目が属する列側クラスタ、つまり、自動分類部342によって生成されたクラスタ(以下、指定列側クラスタと表記)が最左端(当該並び替えにおける先頭)に配置される。指定列側クラスタ以外の列側クラスタについては、当該列側クラスタの大きさ(当該列側クラスタに属する列側分類項目の数の多さ)の降順に左(最左端に配置された指定列側クラスタの次)から順に配置される。なお、列側クラスタに属する列側分類項目の数が同数である列側クラスタが複数存在する場合には、当該複数の列側クラスタの並びは順不同とする。
次に、上記したように並び替えられた列側クラスタ内において、当該列側クラスタに属する列側分類項目の並び替えが行われる。
まず、指定分類項目が属する列側クラスタ(指定列側クラスタ)内における当該指定列側クラスタに属する列側分類項目の並び替えについて説明する。この場合、指定分類項目は、指定列側クラスタ内の列側分類項目(当該指定列側クラスタに属する列側分類項目)の真中(中心)に配置される。具体的には、指定列側クラスタに属する列側分類項目の数が奇数、つまり、2n+1(nは整数)である場合には、指定分類項目は当該指定列側クラスタ内のn+1番目に配置される。一方、指定列側クラスタに属する列側分類項目の数が偶数、つまり、2nである場合には、指定分類項目は当該指定列側クラスタ内のn番目に配置される。
指定列側クラスタに属する当該指定分類項目以外の列側分類項目の並び替えにおいては、当該指定分類項目との類似度が大きい(高い)順に当該列側分類項目が当該指定分類項目の左右に配置される。具体的には、指定分類項目が指定列側クラスタ内のm(mは、nまたはn+1)番目に配置された場合、当該指定分類項目との類似度が最も大きい列側分類項目がm−1番目(つまり、当該指定分類項目の左隣)に、当該指定分類項目との類似度が2番目に大きい列側分類項目がm+1番目(つまり、当該指定分類項目の右隣)に配置される。以後、指定列側クラスタに属する指定分類項目以外の列側分類項目の各々が、当該指定分類項目との類似度が大きい順に順次、当該指定分類項目の左右に配置される。
なお、この再配置処理において用いられる類似度は、ベクトル抽出部341によって抽出されるベクトルおよび前述した類似度算出式によって算出される。
次に、指定列側クラスタ以外の列側クラスタ内における当該列側クラスタに属する列側分類項目の並び替えについて説明する。この場合、指定列側クラスタ以外の列側クラスタに属する列側分類項目の各々は、当該列側クラスタ内において左からアスキーコード順に配置される(並び替えられる)。
テーブル情報格納部23に格納されているテーブルを構成する列側分類項目に対する再配置処理においては、上記したように自動分類部342およびクラスタリング部343によって生成されたクラスタ(指定列側クラスタおよび当該指定列側クラスタ以外の列側クラスタ)の並び替えが行われ、当該クラスタに属する列側分類項目の並び替えが行われると、当該クラスタが解消される。このような手順(つまり、ルール)に基づいて列側分類項目の並び替えが行われることにより、テーブル情報格納部23に格納されているテーブルを構成する列側分類項目の再配置処理が完了される。なお、上記説明したルールは一例であり、異なる手順により再配置処理が実行されても構わない。
ここで、上記したようなルールに基づいて、例えば図1に示すテーブルを構成する列側分類項目の再配置処理が実行された場合について具体的に説明する。ここでは、自動分類部342は、上記したように項目1、項目5および項目6が属するクラスタ(指定列側クラスタ)を生成したものとする。なお、上記したように項目1が指定分類項目であるものとする。また、クラスタリング部343は、上記したように項目4および項目8が属するクラスタ、項目3および項目7が属するクラスタ、項目2が属するクラスタの3つのクラスタを生成したものとする。なお、クラスタリング部343によって生成された3つのクラスタのうち、項目4および項目8が属するクラスタを第1の列側クラスタ、項目3および項目7が属するクラスタを第2の列側クラスタ、項目2が属するクラスタを第3の列側クラスタと称する。
まず、分類項目再配置部344は、指定列側クラスタおよび第1〜第3の列側クラスタの並び替えを行う。この場合、分類項目再配置部344は、指定列側クラスタを最左端に配置し、以下、第1〜第3の列側クラスタをクラスタの大きさの順(ここでは、第1の列側クラスタ、第2の列側クラスタおよび第3の列側クラスタの順)に配置する。なお、第1および第2の列側クラスタに属する列側分類項目の数は同数であるため、当該第1および第2の列側クラスタの並び順は任意である。
次に、分類項目再配置部344は、指定列側クラスタ内における当該指定列側クラスタに属する列側分類項目の並び替えを行う。この場合、指定列側クラスタに属する列側分類項目(項目1、項目5および項目6)のうち、指定分類項目である項目1が真中(中心)に配置され、例えば当該項目1(のベクトル)と類似度が最も高い項目6が当該項目1(指定分類項目)の左側、当該項目1(のベクトル)と類似度が2番目に高い項目5が当該項目1(指定分類項目)の右側に配置される。つまり、分類項目再配置部344による指定列側クラスタに属する列側分類項目の並び替えが行われた後の当該指定列側クラスタ内の列側分類項目は、項目6、項目1および項目5の順となる。
次に、分類項目再配置部344は、指定列側クラスタ以外の第1〜第3の列側クラスタ内における当該第1〜第3の列側クラスタの各々に属する列側分類項目の並び替えを行う。この場合、第1〜第3の列側クラスタに属する列側分類項目はアスキーコード順となるため、当該第1〜第3のクラスタの各々に属する列側分類項目は、第1の列側クラスタ内においては項目4および項目8、第2の列側クラスタ内においては項目3および項目7、第3の列側クラスタ内においては項目2の順に配置される。
最後に、指定列側クラスタおよび第1〜第3の列側クラスタを解消することによって、テーブル情報格納部23に格納されているテーブルを構成する各列側分類項目(項目1〜項目8)が「項目6、項目1、項目5、項目4、項目8、項目3、項目7、項目2」の順に再配置される。
次に、テーブル情報格納部23に格納されているテーブルを構成する行側分類項目の再配置処理について説明する。
行側分類項目の再配置処理においては、当該行側分類項目の各々が属する複数のクラスタ(以下、行側クラスタと表記)の並び替えが行われる。この行側クラスタの並び替えにおいては、当該行側クラスタのうち、指定分類項目格納部24に格納されている指定分類項目情報によって示される指定分類項目が属する行側クラスタ、つまり、自動分類部342によって生成されたクラスタ(以下、指定行側クラスタと表記)が最上端(当該並び替えにおける先頭)に配置される。指定行側クラスタ以外の行側クラスタについては、当該行側クラスタの大きさ(当該行側クラスタに属する行側分類項目の数の多さ)の降順に上(最上端に配置された指定行側クラスタの次)から順に配置される。なお、行側クラスタに属する行側分類項目の数が同数である行側クラスタが複数存在する場合には、当該複数の行側クラスタの並びは順不同とする。
次に、上記したように並び替えられた行側クラスタ内において、当該行側クラスタに属する行側分類項目の並び替えが行われる。
まず、指定分類項目が属する行側クラスタ(指定行側クラスタ)内における当該指定行側クラスタに属する行側分類項目の並び替えについて説明する。この場合、指定分類項目は、指定行側クラスタ内の行側分類項目(当該指定行側クラスタに属する行側分類項目)の真中(中心)に配置される。具体的には、指定行側クラスタに属する行側分類項目の数が奇数、つまり、2n+1(nは整数)である場合には、指定分類項目は当該指定行側クラスタ内のn+1番目に配置される。一方、指定行側クラス他に属する行側分類項目の数が偶数、つまり、2nである場合には、指定分類項目は当該指定行側クラスタ内のn番目に配置される。
指定行側クラスタに属する当該指定分類項目以外の行側分類項目の並び替えにおいては、当該指定分類項目との類似度が大きい(高い)順に当該行側分類項目が当該指定分類項目の上下に配置される。具体的には、指定分類項目が指定行側クラスタ内のm(mは、nまたはn+1)番目に配置された場合、当該指定分類項目との類似度が最も大きい行側分類項目がm−1番目(つまり、当該指定分類項目の上側)に、当該指定分類項目との類似度が2番目に大きい行側分類項目がm+1番目(つまり、当該指定分類項目の下側)に配置される。以後、指定行側クラスタに属する指定分類項目以外の行側分類項目の各々が、当該指定分類項目との類似度が大きい順に順次、当該指定分類項目の上下に配置される。
なお、この再配置処理において用いられる類似度は、ベクトル抽出部341によって抽出されるベクトルおよび前述した類似度算出式によって算出される。
次に、指定行側クラスタ以外の行側クラスタ内における当該行側クラスタに属する行側分類項目の並び替えについて説明する。この場合、指定行側クラスタ以外の行側クラスタに属する行側分類項目の各々は、当該行側クラスタ内において上からアスキーコード順に配置される(並び替えられる)。
テーブル情報格納部23に格納されているテーブルを構成する行側分類項目に対する再配置処理においては、上記したように自動分類部342およびクラスタリング343によって生成されたクラスタ(指定行側クラスタおよび当該指定行側クラスタ以外の行側クラスタ)の並び替えが行われ、当該クラスタに属する行側分類項目の並び替えが行われると、当該クラスタが解消される。このような手順(つまり、ルール)に基づいて行側分類項目の並び替えが行われることにより、テーブル情報格納部23に格納されているテーブルを構成する行側分類項目の再配置処理が完了される。なお、上記説明したルールは一例であり、異なる手順により再配置処理が実行されても構わない。
ここで、上記したようなルールに基づいて、例えば図1に示すテーブルを構成する行側分類項目の再配置処理が実行された場合について具体的に説明する。ここでは、自動分類部342によって指定行側クラスタは生成されていない(つまり、行側分類項目の中に指定分類項目は存在しない)ものとする。また、クラスタリング部343は、上記したように項目Aおよび項目Eが属するクラスタ、項目Cおよび項目Gが属するクラスタ、項目Bおよび項目Fが属するクラスタ、項目Dが属するクラスタの4つのクラスタを生成したものとする。なお、クラスタリング部343によって生成された4つのクラスタのうち、項目Aおよび項目Eが属するクラスタを第1の行側クラスタ、項目Cおよび項目Gが属するクラスタを第2の行側クラスタ、項目Bおよび項目Fが属するクラスタを第3の行側クラスタ、項目Dが属するクラスタを第4の行側クラスタと称する。
まず、分類項目再配置部344は、第1〜第4の行側クラスタの並び替えを行う。この場合、指定行側クラスタは存在しないため、第1〜第4の行側クラスタがクラスタの大きさの順(ここでは、第1の行側クラスタ、第2の行側クラスタ、第3の行側クラスタおよび第4の行側クラスタの順)に配置される。なお、第1〜第3の行側クラスタに属する行側分類項目の数は同数であるため、当該第1〜第3の行側クラスタの並び順は任意である。
次に、分類項目再配置部344は、指定行側クラスタが存在しないため、第1〜第4の行側クラスタ内における当該第1〜第4の行側クラスタの各々に属する行側分類項目の並び替えを行う。この場合、第1〜第4の行側クラスタに属する行側分類項目はアスキーコード順となるため、当該第1〜第4の行側クラスタの各々に属する行側分類項目は、第1の行側クラスタ内においては項目Aおよび項目E、第2の行側クラスタ内においては項目Cおよび項目G、第3の行側クラスタ内においては項目Bおよび項目F、第4の行側クラスタ内においては項目Dの順に配置される。
最後に、第1〜第4の行側クラスタを解消することによって、テーブル情報格納部23に格納されているテーブルを構成する各行側分類項目(項目A〜項目G)が「項目A、項目E、項目C、項目G、項目B、項目F、項目D」の順に再配置される。
上記したように、テーブル情報格納部23に格納されているテーブルを構成する列側分類項目および行側分類項目に対する再配置処理が分類項目再配置部344によって実行されると、テーブル再生成部345は、当該再配置処理の結果(つまり、再配置された列側分類項目および行側分類項目)を元に、テーブル(第2のテーブル)を再生成する(ステップS13)。
この場合、テーブル再生成部345は、分類項目再配置部344によって再配置された列側分類項目および行側分類項目がそれぞれ列および行として構成されるテーブルを生成する。なお、テーブル再生成部345によって生成されたテーブルには、テーブル情報格納部23に格納されているテーブルに保持されている列側分類項目および行側分類項目(の組)毎に対応する値が保持される。
ここで、上記したように図1に示すテーブルを構成する列側分類項目が「項目6、項目1、項目5、項目4、項目8、項目3、項目7、項目2」の順に再配置され、当該テーブルを構成する行側分類項目が「項目A、項目E、項目C、項目G、項目B、項目F、項目D」の順に再配置された場合を想定する。この場合、前述した図2に示すテーブルがテーブル再生成部345によって再生成される。つまり、図2に示すように、列側分類項目が「項目6、項目1、項目5、項目4、項目8、項目3、項目7、項目2」の順で左から右に配置され、行側分類項目が「項目A、項目E、項目C、項目G、項目B、項目F、項目D」の順で上から下に配置されたテーブルが再生成される。また、この再生成されたテーブルには、図1に示すテーブルに保持されている各値が当該再生成されたテーブルにおいて該当する位置に保持されている。
テーブル再生成部345は、再生成されたテーブル(情報)をテーブル情報格納部23に格納する(ステップS14)。ここでは、上記したように図2に示すテーブルがテーブル情報格納部23に格納されたものとする。
次に、可視化部32は、テーブル情報格納部23に格納されたテーブル(テーブル再生成部345によって再生成されたテーブル)を読出して、例えばディスプレイ等の画面上で可視化する。これにより、可視化部32は、テーブル情報格納部23に格納されたテーブルをユーザに対して表示(提示)する(ステップS15)。
上記したステップS15の処理が実行されると、情報処理装置30の処理は終了される。
ここで、図13は、可視化部32によってテーブルが表示された場合のディスプレイの表示画面の一例を示す。なお、図13は、テーブル情報格納部23に格納されたテーブルとして図2に示すテーブルが表示された場合の表示画面の一例を示す。
図13に示すように、表示画面321には、テーブル表示結果としてテーブル情報格納部23に格納されたテーブル(ここでは、図2に示すテーブル)が表示されている。また、表示画面321には、前述したように「再表示」ボタン322が表示されている。
図13に示すような表示画面321を参照することにより、ユーザは、テーブルに保持されている値の分布(数値分布)または当該ユーザにとって興味のある分類項目に応じて最適化されたテーブルを閲覧することができる。
なお、上記したステップS7において再配置の指示がないと判定された場合、ステップS4に戻って処理が繰り返される。つまり、ユーザからの再配置の指示がない場合には、前述した例えば図7に示す表示画面321が表示された状態が維持される。
本実施形態においては、ステップS15において例えば図13に示す表示画面321が表示されると情報処理装置30の処理が終了されるものとして説明したが、当該図13に示す表示画面321において、当該表示画面321に表示されているテーブルを構成する分類項目が指定された場合には、上記したステップS4に戻って処理が繰り返されても構わない。また、図13に示す表示画面321において、当該表示画面321に表示されている「再表示」ボタン322が指定された場合には、上記したステップS7に戻って処理が繰り返されても構わない。
上記したように本実施形態においては、テーブル情報格納部23に格納されているテーブル(第1のテーブル)に保持されている値に基づいて当該テーブルを構成する分類項目(列側分類項目および行側分類項目)毎のベクトルが当該テーブルから抽出され、当該抽出されたベクトルに基づいて当該テーブルを構成する列側分類項目の各々が属する複数の列側クラスタ(第1のクラスタ)および当該テーブルを構成する行側分類項目の各々が属する複数の行側クラスタ(第2のクラスタ)が生成される。本実施形態においては、複数の列側クラスタに基づいてテーブル情報格納部23に格納されているテーブルを構成する列側分類項目が再配置され、複数の行側クラスタに基づいて当該テーブルを構成する行側分類項目が再配置され、当該再配置された列側分類項目および行側分類項目がそれぞれ列および行として構成されるテーブルが再生成される。
これにより、本実施形態においては、テーブル情報格納部23に格納されているテーブルに保持されている値の分布(数値分布)に応じて当該テーブルを構成する列側分類項目および行側分類項目を再配置することが可能となる。このため、本実施形態においては、テーブル情報格納部23に格納されているテーブルを構成する各分類項目が適切に再配置されることによって最適化されたテーブル(再生成されたテーブル)をユーザに対して提示(表示)することができる。
また、本実施形態においては、ユーザにとって興味がある分類項目が指定された場合には、当該指定された分類項目(指定分類項目)を考慮して当該指定分類項目と観点が同一である分類項目(つまり、分類軸が同一である分類項目)を適切に再配置することができるため、当該ユーザにとって興味がある分類項目に応じて最適化されたテーブルを当該ユーザに対して提示することが可能となる。
つまり、本実施形態においては、テーブルを構成する各分類項目が再配置されることによって再生成されたテーブルをユーザに対して提示することによって、当該各分類項目が再配置される前のテーブルが提示される場合と比較して、ユーザは、当該テーブルの傾向をより容易に把握することが可能となる。
なお、本実施形態においては、テーブルには文書の数(文書件数の集計値)が保持されるものとして説明したが、例えば重要度のような異なる値(指標)が保持される構成であっても構わない。
また、本実施形態においては、具体例としてテーブルを構成する列側分類項目のうちの項目1のみが指定分類項目としてユーザによって指定されるものとして説明したが、当該列側分類項目および当該テーブルを構成する行側分類項目(つまり、異なる分類軸)からそれぞれ分類項目が指定されてもよいし、また、当該列側分類項目および当該行側分類項目の一方(つまり、同一の分類軸)から複数の分類項目が指定されても構わない。
例えば異なる分類軸からそれぞれ分類項目が指定された場合には、当該指定された分類項目(指定分類項目)の各々に対する自動分類処理が実行される。
また、例えば同一の分類軸から複数の分類項目が指定された場合には、同様に、当該指定された分類項目(指定分類項目)の各々に対する自動分類が実行される。この場合において、2以上の指定分類項目との類似度が閾値以上である指定分類項目以外の分類項目が存在する場合には、類似度の高い方の指定分類項目とクラスタを形成する構成であってもよい。
また、本実施形態においては、自動分類部342によって類似度としてコサイン類似度が算出されるものとして説明したが、当該類似度として単に分類項目のベクトル(数ベクトル空間)の内積を用いる構成であっても構わない。また、自動分類部342によって算出された類似度が閾値以上である分類項目および指定分類項目が属するクラスタが生成されるものとして説明したが、例えば類似度が上位一定数(例えば、上位2つ等)の分類項目および指定分類項目が属するクラスタが生成されても構わない。
また、本実施形態においてはテーブルを構成する各分類項目を再配置する場合について説明したが、本実施形態は、例えばマトリックス図のようなテーブルに準ずるものであれば適用可能である。
なお、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。