JP5367112B2

JP5367112B2 - データ分析支援装置およびデータ分析支援処理プログラム

Info

Publication number: JP5367112B2
Application number: JP2012065768A
Authority: JP
Inventors: 誠二江川; ルミ早川; 茂明櫻井; 一嘉西
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2012-03-22
Filing date: 2012-03-22
Publication date: 2013-12-11
Anticipated expiration: 2032-03-22
Also published as: CN103325002B; JP2013196609A; CN103325002A

Description

本発明の実施形態は、異なる組織のそれぞれに関わるデータの分析を支援するデータ分析支援装置およびデータ分析支援処理プログラムに関する。

従来、例えば複数種類の金融機関といった異なる組織のそれぞれに関わる集計データである事務ミスデータのそれぞれを統合して分析する事で、同じ傾向の事務ミスデータをもつ組織同士をクラスタリングすることがなされている。

ここで、異なる組織の集計データのうち、特定の組織の集計データと他の組織の集計データの間で一致しない属性がある場合、例えば上述した特定の組織では事務ミスの原因の情報を集計しているのに対し、他の組織ではこの原因の情報を集計していないといった場合には、上述した他の組織における事務ミスに係わる原因の情報は、複数の組織の集計データを統合して分析する場合の欠損情報となる。

従来では、欠損情報への対処として、データベースに蓄積されている集計データ群の中から、一部の特徴の欠損が存在する欠損データを検出して、集計データ群を当該欠損データと欠損のない正常データとに分割し、欠損データに類似する正常データを所定の類似尺度を用いて求め、この求めた正常データにおける欠損データの欠損特徴に対応する特徴のデータを補完データとして、欠損データの欠損特徴に代入して補完するものがある。

特開２００２−２１５６４６号公報

上述したように、欠損データに類似する正常データを所定の類似尺度を用いて求める手法では、ある組織の集計データに欠損がある場合、当該組織の欠損データについては、他の組織の集計データを用いて補完することとなり、補完後の集計データの信頼性が必要十分であるとはいえず、分析の精度が十分ではなかった。

本発明が解決しようとする課題は、異なる組織のそれぞれのデータのうち、データの属性が組織間で異なることに起因する欠損が生じても、これらのデータを統合した際の分析の精度を向上させることが可能になるデータ分析支援装置およびデータ分析支援処理プログラムを提供することにある。

実施形態によれば、データ分析支援装置は、分析対象である複数の組織のそれぞれについての、少なくとも１種類の属性を有するデータであるレコードを組織別に管理するための組織別データテーブルを格納する組織別データテーブル格納手段と、前記組織別データテーブルで示される、複数の組織間で少なくとも１種類の共通する属性を有する複数の組織のそれぞれのレコードの組について、前記共通する属性の値に基づいて、当該レコード間で共通する属性の数、および当該共通する属性における集計値に基づいて、前記レコードの組の間の距離を算出する距離算出手段と、前記距離算出手段により算出した距離に基づいて分析を行なう分析処理手段とをもつ。

実施形態におけるデータ分析支援装置の機能構成例を示すブロック図。複数の銀行の支店の事務ミスデータの一例を表形式で示す図。複数の銀行の支店の事務ミスデータに基づく、支店別に集計した事務ミス件数のデータの一例を表形式で示す図。実施形態におけるデータ分析支援装置による処理データの流れの一例を示す図。実施形態におけるデータ分析支援装置の処理動作の手順の一例を示すフローチャート。本実施形態におけるデータ分析支援装置のデータテーブル結合部４１による同一属性抽出のための処理動作の一例を示すフローチャート。本実施形態におけるデータ分析支援装置のデータテーブル結合部により生成した結合済データテーブルの一例を表形式で示す図。本実施形態におけるデータ分析支援装置のレコード間距離算出部による処理動作の一例を示すフローチャート。本実施形態におけるデータ分析支援装置のクラスタリング実施部による処理動作の一例を示すフローチャート。クラスタ中心支店の初期集合の設定例を示す図。各支店をクラスタ中心支店に対応付けた例を示す図。結合済みデータテーブルで定義される所定のクラスタに含まれる各組織の属性および属性値の一例を表形式で示す図。結合済みデータテーブルで定義される所定のクラスタに含まれる各組織の各属性の重心の計算結果の一例を表形式で示す図。各クラスタの重心の一例を示す図。結合済みデータテーブルで定義されるクラスタのクラスタ中心支店の再計算結果の一例を表形式で示す図。クラスタリングの精度の評価に利用した実験データを表形式で示す図。クラスタリングの精度の評価に利用した、各銀行の事務ミス収集状況を表形式で示す図。クラスタリングの精度の評価に利用した、欠損項目を含む実験データを表形式で示す図。各クラスタに実際に正しく分類された支店の数の正解率を表形式で示す図。

以下、実施の形態について、図面を参照して説明する。
本実施形態では、分析対象である複数の組織のそれぞれについての、少なくとも１種類の属性を有する集計データであるレコードを組織別に管理するための組織別データテーブルを格納し、組織別データテーブルで示される、複数の組織間で少なくとも１種類の共通する属性を有する複数の組織のそれぞれのレコードの組について、共通する属性の値に基づいて、当該レコード間で共通する属性の数、および当該共通する属性における集計値に基づいて、レコードの組の間の距離を算出し、この算出した距離に基づいて、それぞれのレコードに対応する組織をクラスタとしたクラスタリングを行なうことを特徴とする。

図１は、実施形態におけるデータ分析支援装置の機能構成例を示すブロック図である。図１に示すように、実施形態におけるデータ分析支援装置１０は、装置全体の処理動作を司る制御部１１、記憶装置１２、データテーブル結合部４１、レコード間距離算出部４２、クラスタリング実施部４３を有する。データテーブル結合部４１、レコード間距離算出部４２、クラスタリング実施部４３は、マイクロプロセッサ上のソフトウェアにて実行される処理部であり、図１のように記憶装置１２を介して各部間で情報の授受が可能となっている。
これらのうち、レコード間距離算出部４２は、従来技術に比した顕著な特徴を有し、課題を解決するための主となる機能を有する。

また、記憶装置１２は、不揮発性メモリなどの記憶媒体であり、組織別データテーブル格納部３１、結合済データテーブル格納部３２、レコード間距離格納部３３およびクラスタリング結果格納部３４を有する。

本実施形態では、クラスタリングのための分析対象の各組織である、銀行の各支店の事務ミスデータを分析する例について述べる。データ分析支援装置１０は、各銀行の各支店で集計された集計データの結合により欠損値が生じたデータを用いて、複数の銀行の各支店を、事務ミス発生の特徴に基づいてクラスタリングする。

各行の銀行では、日々の業務で発生したミス、例えば手数料間違い、口座番号指定間違いなどについて、いつ、どの業務で、誰が、どのようなミスを発生させたかを示す情報を事務ミスデータとして蓄積している。

上述した、誰がミスを発生させたのかの情報は、ミスを発生させた行員はどのような役職・肩書きかを示す情報である。
また、上述した、どのようなミスを発生させたかを示す情報は、ミスの原因は何か、損失金額はいくらかなどを示す情報である。
事務ミスに関して収集される情報の属性は、各行の間で概ね同一であるものの、特定の銀行に固有の属性も存在し、特定の属性が必ずしもすべての銀行で収集されているとは限らない。

図２は、複数の銀行の支店の事務ミスデータの一例を表形式で示す図である。この図２では、Ａ銀行、Ｂ銀行、Ｃ銀行といった３つの銀行の各支店で発生した事務ミスデータを示す。これらのＡ銀行、Ｂ銀行、Ｃ銀行では、いずれも、事務ミスの発生日、発生支店、ミス発生業務を収集している。この場合、各行の事務ミスデータでは、同一の属性として、発生日、発生支店、ミス発生業務を有する事になる。

一方、事務ミスの発生者の役職については、Ａ銀行、Ｃ銀行では収集しているものの、Ｂ銀行では収集していない。この場合、Ｂ銀行の事務ミスデータでは、属性「発生者の役職」が無く、この属性の値は欠損値となる。

また、事務ミスの発生原因については、Ａ銀行、Ｂ銀行では収集しているものの、Ｃ銀行では収集していない。この場合、Ｃ銀行の事務ミスデータでは、属性「ミス発生原因」が無く、この属性の値は欠損値となる。

図２では、便宜上、欠損属性の欠損値を「NULL」として明示しているが、実際には、銀行ごとの事務ミスデータでは、収集されていないデータについては属性そのものが存在しない。

図３は、複数の銀行の支店の事務ミスデータに基づく、支店別に集計した事務ミス件数のデータの一例を表形式で示す図である。
図２に示した事務ミスデータについて、各行の銀行の支店別のミス件数の集計について説明する。ここでは、説明の簡略化のため、図２に示した事務ミスデータにおける「ミス発生業務」、「発生者の役職」、「ミス発生原因」のみを集計対象とする。

この事務ミスデータでは、Ａ銀行では、当該Ａ銀行の各支店の支店番号を示す「支店番号」、事務ミスの発生業務が預金であることを示す属性「業務：預金」、事務ミスの発生業務が融資であることを示す属性「業務：融資」、事務ミスの発生者の役職が一般行員であることを示す属性「役職：一般行員」、事務ミスの発生者の役職がパートであることを示す属性「役職：パート」、事務ミスの発生原因が能力不足であることを示す属性「原因：能力不足」、事務ミスの発生原因が人為的なミスであることを示す属性「原因：ミス」の値が各支店のそれぞれについて集計される。

例えば、図３に示した組織別データテーブルの支店番号「Ａ００１」の行で定義される属性「業務：預金」の列の欄の値「３１」は、Ａ銀行における支店番号が「Ａ００１」である支店で発生した事務ミスのうち、業務が預金である事務ミスの件数が３１件であることを示す。

また、図３に示した組織別データテーブル支店番号「Ｂ００１」の行で属性「役職：一般行員」の列が定義されると仮定した場合、この列のセルの値は欠損値である「ｎｕｌｌ」となる。前述したように、実際には、銀行ごとの事務ミスデータでは、収集されていないデータについては属性そのものが存在しないので、各銀行で収集されていない属性の値は事務ミス件数の集計結果にも現れない。図３では各銀行の各支店の組織別データテーブルの属性名のうち、存在しない属性名を薄く表記し、件数を「ｎｕｌｌ」としているが、実際には、このような属性の列自体が存在しない。

本実施形態では、支店別に集計した各属性に係るミス件数のデータを組織別データテーブルとして、図１に示した記憶装置１２の組織別データテーブル格納部３１に格納される。図３に示した例では、同じ銀行の各支店の集計データの各属性は同一であり、これら各支店に関わるデータテーブルを一纏まりの組織別データテーブルとして銀行別に区分している。

図４は、実施形態におけるデータ分析支援装置による処理データの流れの一例を示す図である。
データテーブル結合部４１は、記憶装置１２の組織別データテーブル格納部３１に格納される、各銀行の各支店の組織別データテーブルを入力データとして取り込む。また、データテーブル結合部４１は、組織別データテーブル中の属性から、組織間、つまり支店間で同一の属性を特定し、この特定した属性に基づいて各組織のデータテーブルを結合して、単一の結合済データテーブルを生成して、記憶装置１２の結合済データテーブル格納部３２に格納する。

また、レコード間距離算出部４２は、結合済データテーブル中の、１つの支店の各属性のミス件数のデータの集合を１つのレコードとした際の任意の２つのレコード、つまり銀行の種別を問わない２つの支店に係る各属性のミス件数のデータについて、レコード間の類似の高低を示す距離を算出し、この算出結果を記憶装置１２のレコード間距離格納部３３に格納する。

クラスタリング実施部４３は、レコード間距離格納部３３に格納された、レコード間の距離の情報を用いて、結合済データテーブル中のレコードをクラスタリングし、クラスタリング結果を記憶装置１２のクラスタリング結果格納部３４に格納し、さらに、例えば液晶ディスプレイ装置などの表示装置２０への出力を行なう。

図５は、実施形態におけるデータ分析支援装置の処理動作の手順の一例を示すフローチャートである。ここで説明する手順は、処理動作の概要であり、各処理の詳細は後述する。
まず、データ分析支援装置１０のデータテーブル結合部４１は、記憶装置１２の組織別データテーブル格納部３１に格納される各組織の組織別データテーブルの各属性を抽出する（ステップＳ１）。

データテーブル結合部４１は、各組織の組織別データテーブルから、組織間で同一の属性である同一属性を抽出する（ステップＳ２）。抽出対象の同一属性を特定する方法の一例として、図３に示すような各銀行の組織別データテーブル間で属性名の完全一致を検出する方法が挙げられる。

データテーブル結合部４１は、ステップＳ２で抽出した同一属性を利用して、記憶装置１２の組織別データテーブル格納部３１に格納される組織別データテーブルを結合して単一の結合済データテーブルを生成して、記憶装置１２の結合済データテーブル格納部３２に格納する（ステップＳ３）。データテーブル結合部４１は、一部の組織別データテーブルにのみ存在する属性があれば、当該属性を持たない組織のデータテーブルに、その属性を追加し、この追加した属性の属性値を欠損値（ｎｕｌｌ）とする。

レコード間距離算出部４２は、記憶装置１２の結合済データテーブル格納部３２に格納される結合済データテーブルの各レコードのうち任意の２つのレコードを選択して、この選択したレコード間の距離を算出する（ステップＳ４）。

従来技術に比した顕著な特徴として、本実施形態では、レコード間距離算出部４２は、この選択した２レコードの属性のうち、少なくともどちらか一方のレコードで値が欠損値であるような属性は対象外とし、２レコードがともに値を持つ属性のみを対象として、レコード間の距離を算出する。レコード間距離算出部４２は、この算出した距離の情報を、記憶装置１２のレコード間距離格納部３３に格納する。レコード間距離算出部４２は、この処理を結合済データテーブルにおける２レコードの全ての組み合わせについて行なう。

クラスタリング実施部４３は、記憶装置１２のレコード間距離格納部３３に格納された、レコード間の距離の情報を用いて、結合済データテーブル中のレコードをクラスタリングすることで、各支店のクラスタリングを行なう（ステップＳ５）。そして、クラスタリング実施部４３は、クラスタリング結果を記憶装置２のクラスタリング結果格納部３４に記憶して、表示装置２０へ出力する（ステップＳ６）。

次に、データテーブル結合部４１の動作の詳細について説明する。
前述したように、データテーブル結合部４１は、記憶装置１２の組織別データテーブル格納部３１に格納される組織別データテーブルから属性を抽出して、組織間での同一属性を特定して、データテーブルを結合する。

図６は、本実施形態におけるデータ分析支援装置のデータテーブル結合部４１による同一属性抽出のための処理動作の一例を示すフローチャートである。
図６に示す処理動作は、図５に示す処理動作のステップＳ２を詳細に説明するものであり、組織間での同一属性を抽出するための処理動作である。

図３に示した、組織別データテーブルを例に挙げると、データテーブル結合部４１は、異なる銀行の各支店の組織別データテーブルのそれぞれに同一の属性名を持つ属性が存在すれば、これらを同一属性として抽出する。

データテーブル結合部４１は、銀行別のデータテーブルを記憶装置１２の組織別データテーブル格納部３１から読み出して、すべての銀行のすべての属性からなる属性集合Ｔを生成する（ステップＳ１１）。

具体的には、このステップＳ１１において、データテーブル結合部４１が図３に示した組織別データテーブルから得る属性集合Ｔの要素は、以下の１４の属性である。

「業務：預金（Ａ銀行）」、「業務：預金（Ｂ銀行）」、「業務：預金（Ｃ銀行）」
「業務：融資（Ａ銀行）」、「業務：融資（Ｂ銀行）」、「業務：融資（Ｃ銀行）」
「役職：一般行員（Ａ銀行）」、「役職：一般行員（Ｃ銀行）」
「役職：パート（Ａ銀行）」、「役職：パート（Ｃ銀行）」
「原因：能力不足（Ａ銀行）」、「原因：能力不足（Ｂ銀行）」
「原因：ミス（Ａ銀行）」、「原因：ミス（Ｂ銀行）」
ここでは、同じ属性名を有していても、属性値の集計元の銀行が異なる場合は別の属性としてカウントしている。例えば、上述の「業務：預金（Ａ銀行）」、「業務：預金（Ｂ銀行）」、「業務：預金（Ｃ銀行）」の属性名は、銀行名を除いた「業務：預金」であり、これら「業務：預金（Ａ銀行）」、「業務：預金（Ｂ銀行）」、「業務：預金（Ｃ銀行）」は属性集合Ｔにおける個別の要素となる。

データテーブル結合部４１は、ステップＳ１１で生成した属性集合Ｔの中から、任意のひとつの属性を抽出する（ステップＳ１２)。この抽出した属性を属性ａと称する。
データテーブル結合部４１は、属性集合Ｔ中の属性のうち、ステップＳ１２で抽出した属性ａと同一の属性名を有する属性があれば、属性値の集計元の銀行の種別に関わらず、これを抽出する（ステップＳ１３）。この抽出した属性を属性ｂ、属性ｃ、・・・と称する。

具体的には、データテーブル結合部４１は、ステップＳ１２において、「業務：預金（Ａ銀行）」を属性ａとして抽出した場合、ステップＳ１３では、この属性ａと同一の属性名「業務：預金」を有する属性である「業務：預金（Ｂ銀行）」、「業務：預金（Ｃ銀行）」を属性ｂ、属性ｃとして抽出する。

データテーブル結合部４１は、ステップＳ１２およびステップＳ１３で抽出した属性ａ、ｂ、ｃ、…の情報を同一属性として記憶装置１２に記憶する（ステップＳ１４）。
ここで、属性集合Ｔ中から抽出された属性ａと同一の属性名を有する属性が属性集合Ｔ中に存在しない、つまり、属性ａが単一の組織の組織別データテーブルでのみ存在し、他の組織の組織別データテーブルに存在しない場合には、データテーブル結合部４１は、この属性ａのみを上述した同一属性として記憶装置１２に記憶する。

データテーブル結合部４１は、ステップＳ１１で生成した属性集合Ｔの中に、ステップＳ１２またはステップＳ１３でまだ処理していない属性がある、つまり属性集合Ｔ中の属性のうちステップＳ１２で属性ａとして抽出しておらず、かつステップＳ１３で属性ｂ、ｃ、…として抽出していない属性がある場合は（ステップＳ１５のＹＥＳ）、ステップＳ１２に戻って、属性集合Ｔの中から抽出していない属性のいずれかを新たな属性ａとして抽出し、このステップＳ１２で抽出した新たな属性ａについて、ステップＳ１３，Ｓ１４の処理を再度行なう。

また、データテーブル結合部４１は、ステップＳ１１で生成した属性集合Ｔ中の属性をすべて処理している場合、つまり、属性集合Ｔ中の全ての属性を、ステップＳ１２で属性ａとして抽出済みである場合、またはステップＳ１３で属性ｂ、ｃ、…として抽出済みである場合は（ステップＳ１５のＮＯ）、同一属性抽出のための処理を終了する。

データテーブル結合部４１が同一属性抽出の処理を終了した際、このデータテーブル結合部４１が、図３に示した組織別データテーブルから同一属性として得た属性の組は、以下の（ア）、（イ）、（ウ）、（エ）、（オ）、（カ）の６組である。

（ア）：「業務：預金（Ａ銀行）」、「業務：預金（Ｂ銀行）」、「業務：預金（Ｃ銀行）」
（イ）：「業務：融資（Ａ銀行）」、「業務：融資（Ｂ銀行）」、「業務：融資（Ｃ銀行）」
（ウ）：「役職：一般行員（Ａ銀行）」、「役職：一般行員（Ｃ銀行）」
（エ）：「役職：パート（Ａ銀行）」、「役職：パート（Ｃ銀行）」
（オ）：「原因：能力不足（Ａ銀行）」、「原因：能力不足（Ｂ銀行）」
（カ）：「原因：ミス（Ａ銀行）」、「原因：ミス（Ｂ銀行）」
次に、データテーブル結合部４１により、ステップＳ１４で記憶装置１２に記憶した同一属性を用いて組織別データテーブルを結合するための処理動作を以下に示す。
データテーブル結合部４１は、組織別データテーブルから、すべての組織の組織別データテーブルについて同一属性が抽出された場合は、この属性を結合済データテーブルに組み入れ、この結合済データベースにおける一属性とする。

具体的には、図３に示した組織別データテーブルから抽出された同一属性の組（ア）では、Ａ，Ｂ，Ｃ銀行の各支店の組織別データテーブルには「業務：預金」の属性が同一属性として存在しており、全ての銀行について組織別データテーブルに、この「業務：預金」の属性が存在しているので、この属性を結合済データテーブルに組み入れて、当該結合済みデータベースにおける属性「業務：預金」とする。

同様に、図３に示した組織別データテーブルから抽出された、上記の同一属性の組（イ）では、Ａ，Ｂ，Ｃ銀行の各支店の組織別データテーブルには「業務：融資」の属性が同一属性として存在しており、全ての銀行について組織別データテーブルにこの「業務：融資」の属性が存在しているので、この属性を結合済データテーブルに組み入れて当該結合済みデータベースにおける属性「業務：融資」とする。

また、図３に示した組織別データテーブルから、一部の銀行の各支店の組織別データテーブルから抽出された属性と同一の属性がその他の銀行の各支店の組織別データテーブルから抽出されなかった場合は、このその他の銀行の属性に当該属性を追加して、結合済データテーブルにおける一属性とする。その際、結合済みデータテーブルにおける、前述したその他の銀行における前述した追加された属性の属性値はすべて欠損値とする。

具体的には、図３に示した組織別データテーブルから抽出された同一属性の組（ウ）では、Ａ，Ｃ銀行の各支店の組織別データテーブルには「役職：一般行員」の属性が同一属性として存在するが、Ｂ銀行の各支店の組織別データテーブルにはこの「役職：一般行員」の属性が存在していない。

そこで、データテーブル結合部４１は、Ｂ銀行の各支店の組織別データテーブルに「役職：一般行員」を追加したものを結合済データベースに組み入れ、この結合済みデータベースにおけるＢ銀行の各支店の行の「役職：一般行員」の列のセルの値である属性値はすべて欠損値とする。

また、図３に示した組織別データテーブルから抽出された同一属性の組（エ）では、Ａ，Ｃ銀行の各支店の組織別データテーブルには「役職：パート」の属性が同一属性として存在するが、Ｂ銀行の各支店の組織別データテーブルにはこの「役職：パート」の属性が存在していない。そこで、データテーブル結合部４１は、Ｂ銀行の各支店の組織別データテーブルに「役職：パート」を追加したものを結合済データベースに組み入れ、この結合済みデータベースにおけるＢ銀行の各支店の行の「役職：パート」の列のセルの値である属性値はすべて欠損値とする。

また、図３に示した組織別データテーブルから抽出された同一属性の組（オ）では、Ａ，Ｂ銀行の各支店の組織別データテーブルには「原因：能力不足」の属性が同一属性として存在するが、Ｃ銀行の各支店の組織別データテーブルにはこの「原因：能力不足」の属性が存在していない。
そこで、データテーブル結合部４１は、Ｃ銀行の各支店の組織別データテーブルに「原因：能力不足」を追加したものを結合済データベースに組み入れ、この結合済みデータベースにおけるＣ銀行の各支店の行の「原因：能力不足」の列のセルの値である属性値はすべて欠損値とする。

また、図３に示した組織別データテーブルから抽出された同一属性の組（カ）では、Ａ，Ｂ銀行の各支店の組織別データテーブルには「原因：ミス」の属性が同一属性として存在するが、Ｃ銀行の各支店の組織別データテーブルにはこの「原因：ミス」の属性が存在していない。
そこで、データテーブル結合部４１は、Ｃ銀行の各支店の組織別データテーブルに「原因：ミス」を追加したものを結合済データベースに組み入れ、この結合済みデータベースにおけるＣ銀行の各支店の行の「原因：ミス」の列のセルの値である属性値はすべて欠損値とする。

このようにして、データテーブル結合部４１は、図３に示した各銀行の各支店の組織別データテーブルを結合して、単一の結合済データテーブルを生成して、記憶装置１２の結合済データテーブル格納部３２に格納する。

図７は、本実施形態におけるデータ分析支援装置のデータテーブル結合部により生成した結合済データテーブルの一例を表形式で示す図である。
この結合済データテーブルの各行は、各銀行の各支店の一レコードに対応し、各列は各行の支店番号、および、結合元の組織別データテーブル中の各属性である「業務：預金」、「業務：融資」、「役職：一般行員」、「役職：パート」、「原因：能力不足」、「原因：ミス」に対応する。

例えば、図３に示したＡ銀行の各支店の組織別データテーブルの支店番号「Ａ００１」の行で定義される属性「業務：預金」の列のセルの値は「３１」であるので、結合済データテーブルの支店番号「Ａ００１」の行で定義される属性「業務：預金」の列のセルの値も「３１」となる。

また、図３に示したＢ銀行の各支店の組織別データテーブルの支店番号「Ｂ００１」の行で定義される属性「役職：一般行員」や「役職：パート」の列のセルの値は存在しないので、結合済データテーブルの支店番号「Ｂ００１」の行で定義される属性「役職：一般行員」や「役職：パート」の列のセルの値は「ｎｕｌｌ」となる。

また、図３に示したＣ銀行の各支店の組織別データテーブルの支店番号「Ｃ００１」の行で定義される属性「原因：能力不足」や「原因：ミス」の列のセルの値は存在しないので、結合済データテーブルの支店番号「Ｃ００１」の行で定義される属性「原因：能力不足」や「原因：ミス」の列のセルの値は「ｎｕｌｌ」となる。

次に、レコード間距離算出部４２の動作の詳細について説明する。
図８は、本実施形態におけるデータ分析支援装置のレコード間距離算出部による処理動作の一例を示すフローチャートである。
図８に示す処理動作は、図５に示す処理動作のステップＳ４を詳細に説明するものであり、結合済データテーブルにおける行方向に沿ったセルの集合を一レコードとした際の任意の２レコード間の類似度の高低を示す距離を算出するための処理動作である。

レコード間距離算出部４２は、結合済データテーブルの２つのレコードの組であるレコードペア（レコードｉとレコードjとする）を任意に指定し（ステップＳ２１）、このレコードペアのそれぞれがともに値をもつ属性である共通属性を特定する（ステップＳ２２）。

次に、レコード間距離算出部４２は、ステップＳ２２で特定した共通属性を考慮して、以下の式（１）にしたがって、レコードｉとレコードjとの間の距離ｄ_ｉ，ｊを算出して、この算出した距離の情報をレコードペアの各レコードの識別名の情報とともに記憶装置１２のレコード間距離格納部３３に格納する（ステップＳ２３）。

式（１）におけるｎは、レコードｉとレコードｊとの間の共通属性の数である。

式（１）におけるＣは、レコードｉとレコードｊとの間の共通属性の集合である。

式（１）におけるａは、属性である。

式（１）におけるａ_ｋは、レコードｋにおける属性ａの属性値である。

具体例について説明する。まず、第１の例として、図７に示した支店番号「Ａ００１」の行のレコードと支店番号「Ａ００２」の行のレコードとのペアを選択した場合、「Ａ００１」の行のレコードは、欠損値でない値をもつ属性は、「業務：預金」、「業務：融資」、「役職：一般行員」、「役職：パート」、「原因：能力不足」、「原因：ミス」の６つである。また、「Ａ００２」の行のレコードは、「Ａ００１」の行のレコードと同様に、欠損値でない値をもつ属性は、「業務：預金」、「業務：融資」、「役職：一般行員」、「役職：パート」、「原因：能力不足」、「原因：ミス」の６つである。

つまり、両レコードは、互いに６つの属性を持っており、これらはすべて共通属性であるので、ステップＳ２１で特定される共通属性は、「業務：預金」、「業務：融資」、「役職：一般行員」、「役職：パート」、「原因：能力不足」、「原因：ミス」の６つとなる。

この場合、レコード間距離算出部４２は、共通属性である６属性を用いて、ユークリッド距離を算出し、この距離を式（１）に従って共通属性数６で割った以下の値が支店番号「Ａ００１」の行のレコードと支店番号「Ａ００２」の行のレコードとの距離となる。

また、第２の例として、図７に示した支店番号「Ａ００１」の行のレコードと支店番号「Ｂ００１」の行のレコードとのペアを選択した場合、「Ａ００１」の行のレコードは、欠損値でない値をもつ属性は、「業務：預金」、「業務：融資」、「役職：一般行員」、「役職：パート」、「原因：能力不足」、「原因：ミス」の６つである。一方、「Ｂ００１」の行のレコードは、欠損値でない値をもつ属性は、「業務：預金」、「業務：融資」、「原因：能力不足」、「原因：ミス」の４つである。

つまり、両レコードは、「業務：預金」、「業務：融資」、「原因：能力不足」、「原因：ミス」の４つの属性については、ともに欠損値でない値を有しており、これらの属性がステップＳ２１で特定される共通属性はとなる。

一方、「Ａ００１」の行のレコードで値を有する「役職：一般行員」、「役職：パート」の２属性については、「Ｂ００１」の行のレコードでは欠損値を有しており、これらの属性は、ステップＳ２１で特定される共通属性とはならない。

この場合、レコード間距離算出部４２は、共通属性である４属性を用いて、ユークリッド距離を算出し、この距離を式（１）に従って共通属性数４で割った以下の値が支店番号「Ａ００１」の行のレコードと支店番号「Ｂ００１」の行のレコードとの距離となる。

また、第３の例として、図７に示した支店番号「Ｂ００１」の行のレコードと支店番号「Ｃ００１」の行のレコードとのペアを選択した場合、「Ｂ００１」の行のレコードは、欠損値でない値をもつ属性は、「業務：預金」、「業務：融資」、「原因：能力不足」、「原因：ミス」の４つである。一方、「Ｃ００１」の行のレコードは、欠損値でない値をもつ属性は、「業務：預金」、「業務：融資」、「役職：一般行員」、「役職：パート」の４つである。

つまり、両レコードは、「業務：預金」、「業務：融資」の２つの属性については、ともに欠損値でない値を有しており、これらの属性がステップＳ２１で特定される共通属性となる。

一方、「Ｃ００１」の行のレコードで値を有する「役職：一般行員」、「役職：パート」の２属性については、「Ｂ００１」の行のレコードでは欠損値を有しており、これらの属性は、ステップＳ２１で特定される共通属性とはならない。また、「Ｂ００１」の行のレコードで値を有する「役職：一般行員」、「役職：パート」の２属性については、「Ｃ００１」の行のレコードでは欠損値を有しており、これらの属性も、ステップＳ２１で特定される共通属性とはならない。

この場合、レコード間距離算出部４２は、共通属性である２属性を用いて、ユークリッド距離を算出し、この距離を式（１）に従って共通属性数２で割った以下の値が支店番号「Ｂ００１」の行のレコードと支店番号「Ｃ００１」の行のレコードとの距離となる。

つまり、本実施形態における、各支店間の距離の算出では、従来技術のような、共通する属性が多いほど加算する項が増加して、これらの和である距離の値が不当に大きくなる事を防いでいる。

さらに、本実施形態では、式（１）に示すように、１属性あたりの属性値の差が大きいほど、算出される距離が大きくなり、また、共通する属性の数が多いほど、算出される距離が小さくなるので、従来技術に比して精度の高い距離を算出する事が可能となる。

あるレコードペアに対するステップＳ２３の処理の後、レコード間距離算出部４２は、結合済データテーブル上のすべてのレコードペアに対する、レコード間の距離の算出が終了していない場合には（ステップＳ２４のＮＯ）、ステップＳ２１に戻って、結合済データテーブルの２つレコードの新たなペアを任意に指定し、ステップＳ２２，Ｓ２３の処理を再度行なう。

また、レコード間距離算出部４２は、結合済データテーブル上のすべてのレコードペアに対する、レコード間の距離の算出が終了した場合には（ステップＳ２４のＹＥＳ）、レコード間の距離の算出のための処理を終了する。
このようにして、レコード間距離算出部４２は、結合済データテーブル上のすべてのレコードペアに対して、レコード間の距離を算出する。

次に、クラスタリング実施部４３の動作の詳細について説明する。
図９は、本実施形態におけるデータ分析支援装置のクラスタリング実施部による処理動作の一例を示すフローチャートである。
図９に示す処理動作は、図５に示す処理動作のステップＳ５を詳細に説明するものであり、記憶装置１２の結合済データテーブル格納部３２に格納される結合済データテーブルを読み出し、このテーブルの支店番号の列で示されるすべての支店のクラスタリングを行なうための処理動作である。

以下、各銀行の各支店をクラスタリングする過程を二次元マップで示す。本実施形態では、各支店をクラスタリングするために、クラスタ中心支店を設定して、このクラスタ中心支店に対し距離が近い支店を対応付けてクラスタを設定した上で、このクラスタの重心を求めて、この重心に最も距離が近い支店を新たなクラスタ中心支店として設定し、重心を求める前後のクラスタ中心支店が同じである場合に正しいクラスタリングが行えたとして、クラスタリング結果を出力する。

図１０は、クラスタ中心支店の初期集合の設定例を示す図である。
図１０に示した二次元マップでは、結合済データテーブルでの各行の支店番号で示される各支店を円で表す。そして、この二次元マップでは、支店間の距離は、記憶装置１２のレコード間距離格納部３３に格納されている距離を表す。

クラスタリング実施部４３は、予め指定されたクラスタ数と同数の支店を無作為に選択し、これら選択した各支店をクラスタ中心支店に設定する（ステップＳ３１）。

例えばクラスタ数が３と指定された場合、クラスタリング実施部４３は、図１０を例にとると、この図１０で示される黒丸の３つの支店のそれぞれをクラスタ中心支店に設定する。

次に、クラスタリング実施部４３は、ステップＳ３１で設定したクラスタ中心支店以外の各支店の１つを任意に選択し（ステップＳ３２）、この選択した支店と各クラスタ中心支店との距離のそれぞれを、記憶装置１２のレコード間距離格納部３３から読み出して参照し（ステップＳ３３）、当該選択した支店を、各クラスタ中心支店のうち最も距離が近いクラスタ中心支店に対応付けることでクラスタを任意に生成する（ステップＳ３４）。この生成されたクラスタの要素は、クラスタ中心支店および当該クラスタ中心支店に対応付けられたその他の支店のそれぞれである。

図１１は、各支店をクラスタ中心支店に対応付けた例を示す図である。
図１１に示した例では、第１のクラスタ、第２のクラスタ、第３のクラスタといった３つのクラスタが示される。

第１のクラスタは、図１０に示した各クラスタ中心支店のうち第１のクラスタ中心支店５１に最も距離が近い２支店を対応付けた３支店でなるクラスタである。
第２のクラスタは、図１０に示した各クラスタ中心支店のうち第２のクラスタ中心支店５２に最も距離が近い３支店を対応付けた４支店でなる、二重線Ｌ１で囲まれたクラスタである。
第３のクラスタは、図１０に示した各クラスタ中心支店のうち第３のクラスタ中心支店５３に最も距離が近い５支店を対応付けた６支店でなるクラスタである。

続いて、クラスタリング実施部４３は、クラスタを生成するための、クラスタ中心支店以外のすべての支店の選択済みであれば（ステップＳ３５のＹＥＳ）、ステップＳ３４で生成された各クラスタの重心を計算する（ステップＳ３６）。

ここでは、図１１の二重線Ｌ１で囲った４支店でなる第２のクラスタに焦点を当てて説明する。
図１２は、結合済みデータテーブルで定義される所定のクラスタに含まれる各組織の属性および属性値の一例を表形式で示す図である。この図では、図７に示した結合済データテーブルから、上述の第２のクラスタに含まれる４つの支店のレコードの属性および当該属性の属性値を示す。

第２のクラスタに含まれる４つの支店は、図７に示した結合済データテーブルの支店番号「Ａ００３」に対応する支店、支店番号「Ａ００４」に対応する支店、支店番号「Ｂ００３」に対応する支店、支店番号「Ｃ００３」に対応する支店である。

具体的には、ステップＳ３３では、クラスタリング実施部４３は、第２のクラスタに含まれる４つの支店に対応するレコードの各属性について、各レコードの同じ属性の属性値の平均値を算出し、その平均値を重心の属性値とする。
ただし、算出する重心に係わる各レコードのうち属性値が欠損値であるレコードが存在する場合は、このレコードの属性値を平均値算出の対象外とし、属性値を持つレコードのみを対象として平均値を算出する。

例えば、図１２に示した各レコードの「業務：預金」の属性値の平均値、つまり「業務：預金」の重心の属性値は、支店番号「Ａ００３」の行の値「５」、支店番号「Ａ００４」の行の値「２」、支店番号「Ｂ００３」の行の値「３」、支店番号「Ｃ００３」の行の値「３」の総和を、各レコードのうち「業務：預金」の属性値が欠損値でない値として存在するレコード数「４」で割った値であり、以下の式のようになる。

(5+2+3+3)/4=3.25
また、図１２に示した各レコードの「業務：融資」の属性値の平均値、つまり「業務：融資」の重心の属性値は、支店番号「Ａ００３」の行の値「３」、支店番号「Ａ００４」の行の値「５」、支店番号「Ｂ００３」の行の値「４」、支店番号「Ｃ００３」の行の値「３」の総和を、各レコードのうち「業務：融資」の属性値が欠損値でない値として存在するレコード数「４」で割った値であり、以下の式のようになる。

(3+5+4+3)/4=3.75
また、図１２に示した各レコードの「役職：一般行員」の属性値の平均値、つまり「役職：一般行員」の重心の属性値は、支店番号「Ａ００３」の行の値「２」、支店番号「Ａ００４」の行の値「４」、支店番号「Ｃ００３」の行の値「４」の総和を、各レコードのうち「役職：一般」の属性値が欠損値でない値として存在するレコード数「３」で割った値であり、以下の式のようになる。

(2+4+4)/3≒3.33である。

また、図１２に示した各レコードの「役職：パート」の属性値の平均値、つまり「役職：パート」の重心の属性値は、支店番号「Ａ００３」の行の値「６」、支店番号「Ａ００４」の行の値「３」、支店番号「Ｃ００３」の行の値「２」の総和を、各レコードのうち「役職：パート」の属性値が欠損値でない値として存在するレコード数「３」で割った値であり、以下の式のようになる。

(6+3+2)/3≒3.67
また、図１２に示した各レコードの「原因：能力不足」の属性値の平均値、つまり「原因：能力不足」の重心の属性値は、支店番号「Ａ００３」の行の値「３」、支店番号「Ａ００４」の行の値「３」、支店番号「Ｂ００３」の行の値「２」の総和を、各レコードのうち「原因：能力不足」の属性値が欠損値でない値として存在するレコード数「３」で割った値であり、以下の式のようになる。

(3+3+2)/3≒2.67
また、図１２に示した各レコードの「原因：ミス」の属性値の平均値、つまり「原因：ミス」の重心の属性値は、支店番号「Ａ００３」の行の値「５」、支店番号「Ａ００４」の行の値「４」、支店番号「Ｂ００３」の行の値「５」の総和を、各レコードのうち「原因：能力不足」の属性値が欠損値でない値として存在するレコード数「３」で割った値であり、以下の式のようになる。

(5+4+5)/3≒4.67
図１３は、結合済みデータテーブルで定義される所定のクラスタに含まれる各組織（支店）の各属性の重心の計算結果の一例を表形式で示す図である。
図１４は、各クラスタの重心の一例を示す図である。
図１４では、二次元マップ上の第１のクラスタの重心、第２のクラスタの重心、および第３のクラスタの重心のそれぞれを×印で示している。

最後に、クラスタリング実施部４３は、各クラスタのクラスタ中心支店を再計算する（ステップＳ３７）。具体的には、クラスタリング実施部４３は、ステップＳ３１で設定したクラスタ中心支店を含む全支店の中で、当該所定のクラスタについてステップＳ３６で算出した重心との距離がもっとも小さい支店を計算し、この支店を新たなクラスタ中心支店として設定し、この新たなクラスタ中心支店の設定を、ステップＳ３１で設定したクラスタ中心支店のそれぞれについて行なうことで、クラスタ中心の集合を新たに設定する。

各支店とクラスタの重心との距離の計算には、支店同士の距離の計算と同様、上記の式（１）を用いる。

図１５は、結合済みデータテーブルで定義されるクラスタのクラスタ中心支店の再計算結果の一例を表形式で示す図である。
ステップＳ３７で再計算したクラスタ中心支店の集合が、ステップＳ３１で設定していた、元のクラスタ中心支店の集合から変化していれば（ステップＳ３８のＹＥＳ）、クラスタリング実施部４３は、適切なクラスタリングが行えていないとみなして、ステップＳ３２に戻り、ステップＳ３７で再計算したクラスタ中心支店以外の各支店の１つを任意に選択して、このクラスタ中心支店を基準としたステップＳ３３以降の処理を再度行なう。

図１５に示した例では、図１０に示した状態からクラスタ中心支店の集合が変化しているため、ステップＳ３２に戻る。具体的には、図１５に示すように、第１のクラスタのクラスタ中心支店は、当初のクラスタ中心支店５１からクラスタ中心支店６１に変化し、第２のクラスタのクラスタ中心支店は、当初のクラスタ中心支店５２からクラスタ中心支店６２に変化し、第３のクラスタのクラスタ中心支店は、当初のクラスタ中心支店５３からクラスタ中心支店６３に変化している。

また、クラスタリング実施部４３は、ステップＳ３７で再計算したクラスタ中心支店の集合が、ステップＳ３１で設定していた、元のクラスタ中心支店の集合から変化していなければ（ステップＳ３８のＮＯ）、適切なクラスタリングが行えたとみなして、クラスタリングのための処理を終了し、クラスタリング結果を記憶装置１２のクラスタリング結果格納部３４に格納し、例えば液晶ディスプレイ装置などの表示装置２０への出力を行なう。

次に、本実施形態を実データに適用し、クラスタリングの精度を評価するための実験の結果を以下に記す。
本実験では、以下の３手法の精度を比較した。
（ア）本実施形態の手法
（イ）既存の手法（欠損項目あり）
（ウ）既存の手法（欠損項目なし）
既存の手法（イ），（ウ）としては、一般的に用いられる以下の手法を用いた。

「少なくとも１つのレコードが欠損値であるような属性は、分析に利用しない。」
ただし、手法（ウ）については、欠損項目がないデータを入力データとした。これは入力データをすべて活用できるケースに相当し、クラスタリング手法の精度の上限値を示すものである。

続いて、実験に用いたデータについて説明する。図１６は、クラスタリングの精度の評価に利用した実験データを表形式で示す図である。これは、Ａ銀行、Ｂ銀行、Ｃ銀行でなる３つの銀行の、合計３０支店の事務ミスを集計したものであり、銀行の種別の列、支店番号の列、支店種別の列、クラスタリングに用いる、ミスの属性値の列を有する。

ただし、クラスタリングに用いる属性値は、ミス件数の集計値ではなく、ミス件数の比を用いた。たとえば、図１６に示したデータのＡ銀行の支店番号「Ａ０１」に対応するレコードにおける「業務ａ」の属性値0.291は、「支店Ａ０１で発生したすべてのミスの件数」に対する「支店Ａ０１で発生した業務aでのミスの件数」の割合を示す。つまり、あるレコードの業務ａ〜業務ｅまででなるすべての属性値を合計すると、その合計値は１となる。

図１６に示したデータは、手法（ウ）のための入力データとなる。一方、手法（ア），（イ）への入力データは、図１６に示したデータに擬似的に欠損を発生させることで作成した。

図１７は、クラスタリングの精度の評価に利用した、各銀行の事務ミス収集状況を表形式で示す図である。
この図１７に基づき、「担当者」の項目に関する情報および「状況」の項目に関する情報は各銀行で収集しているが、Ｂ銀行では「業務」の項目に関する情報を収集しておらず、また、Ｃ銀行では「原因」の項目に関する情報を収集していないものとし、図１６における該当する部分を欠損値とした。

図１８は、クラスタリングの精度の評価に利用した、欠損項目を含む実験データを表形式で示す図である。
クラスタリング結果の評価には、図１６や図１８で示された「支店種別」の列の値を用いる。この「支店種別」は、３つの銀行間で共通して用いられている支店の種別であり、“大型”、“小型”、“特殊”の３種類の属性値からなる。

ここで、クラスタ数を３として実施した各手法により生成されたクラスタを、それぞれ「大型」、「小型」、「特殊」の集合とみなして、全支店の数に対する、実際に正しく分類された支店の数の割合を、３つのクラスタと３つの支店種別の全ての組合せについて算出し、最も高い値を、手法の正解率とする。

たとえば、第１のクラスタに分類されるべき支店種別を「大型」とし、第２のクラスタに分類されるべき支店種別を「小型」とし、第３のクラスタに分類されるべき支店種別を「特殊」とした場合で、ある手法で実際に分類された支店種別が、以下のように、第１のクラスタに対しては、「大型」の支店、「大型」の支店、「小型」の支店、「特殊」の支店、「特殊」の支店でなる５つの支店が分類され、第２のクラスタに対しては、「小型」の支店、「小型」の支店でなる２つの支店が分類され、第３のクラスタに対しては、「大型」の支店、「特殊」の支店、「特殊」の支店、「特殊」の支店でなる４つの支店が分類されたとする。

第１のクラスタ：大型、大型、小型、特殊、特殊
第２クラスタ：小型、小型
第３クラスタ：大型、特殊、特殊、特殊
この場合、第１のクラスタに分類された「大型」の支店の数は２であり、第２クラスタに分類された「小型」の支店の数は２であり、第３のクラスタに分類された「特殊」の支店の数は３であるので、全支店の数に対する、各クラスタに実際に正しく分類された支店の数の割合である正解率は、(2+2+3)/11=7/11となり、この正解率が３つのクラスタと３つの支店種別の全ての組合せについて最も正解率が高い場合、この算出結果を、この手法によるクラスタリング結果の正解率とする。

次に、手法（ア）、手法（イ）、手法（ウ）による各手法による精度の良し悪しを示す、全支店の数に対する、各クラスタに実際に正しく分類された支店の数の正解率を図１９に示す。

この例で示すように、「（ア）本実施形態の手法」の精度は、「（イ）既存の手法（欠損項目あり）」の精度を上回っており、既存の手法に比べて、本実施形態の手法は、欠損項目を含むデータに対して頑健であるといえる。

以上のように、本実施形態では、分析対象である複数の組織のそれぞれについての、少なくとも１種類の属性を有する集計データであるレコードを組織別に管理するための組織別データテーブルを格納し、この組織別データテーブルで示される、複数の組織間で少なくとも１種類の共通する属性を有する複数の組織のそれぞれのレコードの組について、共通する属性の値に基づいて、当該レコード間で共通する属性の数、および当該共通する属性における集計値に基づいて、レコードの組の間の距離を算出し、この算出した距離に基づいて、それぞれのレコードに対応する組織をクラスタとしたクラスタリングを行なう。
よって、組織ごとに収集する属性が異なるために、集計データが全ての組織間で一致していない状況であっても、組織間で共通する属性の情報を活用することで、収集されたデータを有効に活用でき、複数組織のデータを統合した精度の高い分析が可能となる。

これらの各実施形態によれば、異なる組織のそれぞれのデータのうち、データの属性が組織間で異なることに起因する欠損が生じても、これらのデータを統合した際の分析の精度を向上させることが可能になるデータ分析支援装置を提供することができる。
以上説明した実施形態では、組織別データテーブルは、分析対象である複数の組織のそれぞれについての、少なくとも１種類の属性を有する集計データであるレコードを組織別に管理するためのデータテーブルであると説明したが、この組織別データテーブルにより管理するデータは、定量的データであってもよいし、定性的データであってもよい。

また、本実施形態では、データ分析支援装置１０のクラスタリング実施部４３が、組織別データテーブルで示される、複数の組織間で少なくとも１種類の共通する属性を有する複数の組織のそれぞれのレコードの組の間の距離に基づいて、それぞれのレコードに対応する組織をクラスタとしたクラスタリング処理を行なうと説明したが、これに限らず、レコードの組の間の距離を用いる分析処理を行なうのであれば、クラスタリング実施部４３の代わりに分析実施部を設けて、この分析実施部により、例えば、レコードの組の間の距離を用いて自己組織化マップによる分析処理を行なってもよいし、多次元尺度構成法による分析処理を行なってもよい。

なお、上記実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、光磁気ディスク（ＭＯ）、半導体メモリなどの記憶媒体に格納して頒布することもできる。

また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。

また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワークソフト等のＭＷ（ミドルウェア）等が上記実施形態を実現するための各処理の一部を実行しても良い。

さらに、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、ＬＡＮやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。

また、記憶媒体は１つに限らず、複数の媒体から上記実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。

尚、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記実施形態における各処理を実行するものであって、パソコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。

また、本発明におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。

発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０…データ分析支援装置、１１…制御部、１２…記憶装置、２０…表示装置、３１…組織別データテーブル格納部、３２…結合済データテーブル記憶部、３３…レコード間距離格納部、４１…データテーブル結合部、４２…レコード間距離算出部、４３…クラスタリング実施部。

Claims

分析対象である複数の組織のそれぞれについての、少なくとも１種類の属性を有するデータであるレコードを組織別に管理するための組織別データテーブルを格納する組織別データテーブル格納手段と、
前記組織別データテーブルで示される、複数の組織間で少なくとも１種類の共通する属性を有する複数の組織のそれぞれのレコードの組について、前記共通する属性の値に基づいて、当該レコード間で共通する属性の数、および当該共通する属性における集計値に基づいて、前記レコードの組の間の距離を算出する距離算出手段と、
前記距離算出手段により算出した距離に基づいて分析を行なう分析処理手段と
を備えたことを特徴とするデータ分析支援装置。
前記距離算出手段は、
前記組織別データテーブルで示される、共通の属性を有する複数の組織のそれぞれのレコードの組について、一方のレコードにおける、これらのレコードの間で共通する属性の値および他方のレコードにおける、当該共通する属性の値の差分値と、前記共通する属性の数の逆数とに基づいて、前記レコード間の距離を算出する
ことを特徴とする請求項１に記載のデータ分析支援装置。
前記分析処理手段は、
前記距離算出手段により算出した前記レコードの組の間の距離に基づいて、前記それぞれのレコードに対応するクラスタ要素の中から複数のクラスタ中心をクラスタ中心の集合として任意に設定して、前記クラスタ中心の集合のそれぞれについて、当該クラスタ中心に距離が近い少なくとも１つのクラスタ要素を対応付ける事でクラスタを任意に設定し、前記設定したクラスタの重心を計算し、前記計算した重心に最も距離が近いクラスタ要素を当該クラスタの新たなクラスタ中心に設定することで、クラスタ中心の集合を新たに設定し、前記新たに設定したクラスタ中心の集合が当該クラスタ中心の設定のための前記重心の計算前に設定したクラスタ中心の集合と同じでなければ、前記設定した新たなクラスタ中心の集合のそれぞれについて、当該クラスタ中心に距離が近い少なくとも１つのクラスタ要素を対応付ける事でクラスタを再度設定し、当該設定したクラスタの重心を新たな重心として計算し、
また、前記新たな設定したクラスタ中心の集合が当該クラスタ中心の設定のための前記重心の計算前に設定したクラスタ中心の集合と同じであれば、前記設定した最新のクラスタの情報をクラスタリング結果として出力する
ことを特徴とする請求項１に記載のデータ分析支援装置。
分析対象である複数の組織のそれぞれについての、少なくとも１種類の属性を有するデータであるレコードを組織別に管理するための組織別データテーブルを格納する組織別データテーブル格納装置を有するコンピュータを、
前記組織別データテーブルで示される、複数の組織間で少なくとも１種類の共通する属性を有する複数の組織のそれぞれのレコードの組について、前記共通する属性の値に基づいて、当該レコード間で共通する属性の数、および当該共通する属性における集計値に基づいて、前記レコードの組の間の距離を算出する距離算出手段、および
前記距離算出手段により算出した距離に基づいて分析を行なう分析処理手段
として機能させるためのデータ分析支援処理プログラム。