JP5367112B2 - データ分析支援装置およびデータ分析支援処理プログラム - Google Patents

データ分析支援装置およびデータ分析支援処理プログラム Download PDF

Info

Publication number
JP5367112B2
JP5367112B2 JP2012065768A JP2012065768A JP5367112B2 JP 5367112 B2 JP5367112 B2 JP 5367112B2 JP 2012065768 A JP2012065768 A JP 2012065768A JP 2012065768 A JP2012065768 A JP 2012065768A JP 5367112 B2 JP5367112 B2 JP 5367112B2
Authority
JP
Japan
Prior art keywords
attribute
cluster
data table
distance
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012065768A
Other languages
English (en)
Other versions
JP2013196609A (ja
Inventor
誠二 江川
ルミ 早川
茂明 櫻井
一嘉 西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2012065768A priority Critical patent/JP5367112B2/ja
Priority to CN201310068122.XA priority patent/CN103325002B/zh
Publication of JP2013196609A publication Critical patent/JP2013196609A/ja
Application granted granted Critical
Publication of JP5367112B2 publication Critical patent/JP5367112B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

本発明の実施形態は、異なる組織のそれぞれに関わるデータの分析を支援するデータ分析支援装置およびデータ分析支援処理プログラムに関する。
従来、例えば複数種類の金融機関といった異なる組織のそれぞれに関わる集計データである事務ミスデータのそれぞれを統合して分析する事で、同じ傾向の事務ミスデータをもつ組織同士をクラスタリングすることがなされている。
ここで、異なる組織の集計データのうち、特定の組織の集計データと他の組織の集計データの間で一致しない属性がある場合、例えば上述した特定の組織では事務ミスの原因の情報を集計しているのに対し、他の組織ではこの原因の情報を集計していないといった場合には、上述した他の組織における事務ミスに係わる原因の情報は、複数の組織の集計データを統合して分析する場合の欠損情報となる。
従来では、欠損情報への対処として、データベースに蓄積されている集計データ群の中から、一部の特徴の欠損が存在する欠損データを検出して、集計データ群を当該欠損データと欠損のない正常データとに分割し、欠損データに類似する正常データを所定の類似尺度を用いて求め、この求めた正常データにおける欠損データの欠損特徴に対応する特徴のデータを補完データとして、欠損データの欠損特徴に代入して補完するものがある。
特開2002−215646号公報
上述したように、欠損データに類似する正常データを所定の類似尺度を用いて求める手法では、ある組織の集計データに欠損がある場合、当該組織の欠損データについては、他の組織の集計データを用いて補完することとなり、補完後の集計データの信頼性が必要十分であるとはいえず、分析の精度が十分ではなかった。
本発明が解決しようとする課題は、異なる組織のそれぞれのデータのうち、データの属性が組織間で異なることに起因する欠損が生じても、これらのデータを統合した際の分析の精度を向上させることが可能になるデータ分析支援装置およびデータ分析支援処理プログラムを提供することにある。
実施形態によれば、データ分析支援装置は、分析対象である複数の組織のそれぞれについての、少なくとも1種類の属性を有するデータであるレコードを組織別に管理するための組織別データテーブルを格納する組織別データテーブル格納手段と、前記組織別データテーブルで示される、複数の組織間で少なくとも1種類の共通する属性を有する複数の組織のそれぞれのレコードの組について、前記共通する属性の値に基づいて、当該レコード間で共通する属性の数、および当該共通する属性における集計値に基づいて、前記レコードの組の間の距離を算出する距離算出手段と、前記距離算出手段により算出した距離に基づいて分析を行なう分析処理手段とをもつ。
実施形態におけるデータ分析支援装置の機能構成例を示すブロック図。 複数の銀行の支店の事務ミスデータの一例を表形式で示す図。 複数の銀行の支店の事務ミスデータに基づく、支店別に集計した事務ミス件数のデータの一例を表形式で示す図。 実施形態におけるデータ分析支援装置による処理データの流れの一例を示す図。 実施形態におけるデータ分析支援装置の処理動作の手順の一例を示すフローチャート。 本実施形態におけるデータ分析支援装置のデータテーブル結合部41による同一属性抽出のための処理動作の一例を示すフローチャート。 本実施形態におけるデータ分析支援装置のデータテーブル結合部により生成した結合済データテーブルの一例を表形式で示す図。 本実施形態におけるデータ分析支援装置のレコード間距離算出部による処理動作の一例を示すフローチャート。 本実施形態におけるデータ分析支援装置のクラスタリング実施部による処理動作の一例を示すフローチャート。 クラスタ中心支店の初期集合の設定例を示す図。 各支店をクラスタ中心支店に対応付けた例を示す図。 結合済みデータテーブルで定義される所定のクラスタに含まれる各組織の属性および属性値の一例を表形式で示す図。 結合済みデータテーブルで定義される所定のクラスタに含まれる各組織の各属性の重心の計算結果の一例を表形式で示す図。 各クラスタの重心の一例を示す図。 結合済みデータテーブルで定義されるクラスタのクラスタ中心支店の再計算結果の一例を表形式で示す図。 クラスタリングの精度の評価に利用した実験データを表形式で示す図。 クラスタリングの精度の評価に利用した、各銀行の事務ミス収集状況を表形式で示す図。 クラスタリングの精度の評価に利用した、欠損項目を含む実験データを表形式で示す図。 各クラスタに実際に正しく分類された支店の数の正解率を表形式で示す図。
以下、実施の形態について、図面を参照して説明する。
本実施形態では、分析対象である複数の組織のそれぞれについての、少なくとも1種類の属性を有する集計データであるレコードを組織別に管理するための組織別データテーブルを格納し、組織別データテーブルで示される、複数の組織間で少なくとも1種類の共通する属性を有する複数の組織のそれぞれのレコードの組について、共通する属性の値に基づいて、当該レコード間で共通する属性の数、および当該共通する属性における集計値に基づいて、レコードの組の間の距離を算出し、この算出した距離に基づいて、それぞれのレコードに対応する組織をクラスタとしたクラスタリングを行なうことを特徴とする。
図1は、実施形態におけるデータ分析支援装置の機能構成例を示すブロック図である。図1に示すように、実施形態におけるデータ分析支援装置10は、装置全体の処理動作を司る制御部11、記憶装置12、データテーブル結合部41、レコード間距離算出部42、クラスタリング実施部43を有する。データテーブル結合部41、レコード間距離算出部42、クラスタリング実施部43は、マイクロプロセッサ上のソフトウェアにて実行される処理部であり、図1のように記憶装置12を介して各部間で情報の授受が可能となっている。
これらのうち、レコード間距離算出部42は、従来技術に比した顕著な特徴を有し、課題を解決するための主となる機能を有する。
また、記憶装置12は、不揮発性メモリなどの記憶媒体であり、組織別データテーブル格納部31、結合済データテーブル格納部32、レコード間距離格納部33およびクラスタリング結果格納部34を有する。
本実施形態では、クラスタリングのための分析対象の各組織である、銀行の各支店の事務ミスデータを分析する例について述べる。データ分析支援装置10は、各銀行の各支店で集計された集計データの結合により欠損値が生じたデータを用いて、複数の銀行の各支店を、事務ミス発生の特徴に基づいてクラスタリングする。
各行の銀行では、日々の業務で発生したミス、例えば手数料間違い、口座番号指定間違いなどについて、いつ、どの業務で、誰が、どのようなミスを発生させたかを示す情報を事務ミスデータとして蓄積している。
上述した、誰がミスを発生させたのかの情報は、ミスを発生させた行員はどのような役職・肩書きかを示す情報である。
また、上述した、どのようなミスを発生させたかを示す情報は、ミスの原因は何か、損失金額はいくらかなどを示す情報である。
事務ミスに関して収集される情報の属性は、各行の間で概ね同一であるものの、特定の銀行に固有の属性も存在し、特定の属性が必ずしもすべての銀行で収集されているとは限らない。
図2は、複数の銀行の支店の事務ミスデータの一例を表形式で示す図である。この図2では、A銀行、B銀行、C銀行といった3つの銀行の各支店で発生した事務ミスデータを示す。これらのA銀行、B銀行、C銀行では、いずれも、事務ミスの発生日、発生支店、ミス発生業務を収集している。この場合、各行の事務ミスデータでは、同一の属性として、発生日、発生支店、ミス発生業務を有する事になる。
一方、事務ミスの発生者の役職については、A銀行、C銀行では収集しているものの、B銀行では収集していない。この場合、B銀行の事務ミスデータでは、属性「発生者の役職」が無く、この属性の値は欠損値となる。
また、事務ミスの発生原因については、A銀行、B銀行では収集しているものの、C銀行では収集していない。この場合、C銀行の事務ミスデータでは、属性「ミス発生原因」が無く、この属性の値は欠損値となる。
図2では、便宜上、欠損属性の欠損値を「NULL」として明示しているが、実際には、銀行ごとの事務ミスデータでは、収集されていないデータについては属性そのものが存在しない。
図3は、複数の銀行の支店の事務ミスデータに基づく、支店別に集計した事務ミス件数のデータの一例を表形式で示す図である。
図2に示した事務ミスデータについて、各行の銀行の支店別のミス件数の集計について説明する。ここでは、説明の簡略化のため、図2に示した事務ミスデータにおける「ミス発生業務」、「発生者の役職」、「ミス発生原因」のみを集計対象とする。
この事務ミスデータでは、A銀行では、当該A銀行の各支店の支店番号を示す「支店番号」、事務ミスの発生業務が預金であることを示す属性「業務:預金」、事務ミスの発生業務が融資であることを示す属性「業務:融資」、事務ミスの発生者の役職が一般行員であることを示す属性「役職:一般行員」、事務ミスの発生者の役職がパートであることを示す属性「役職:パート」、事務ミスの発生原因が能力不足であることを示す属性「原因:能力不足」、事務ミスの発生原因が人為的なミスであることを示す属性「原因:ミス」の値が各支店のそれぞれについて集計される。
例えば、図3に示した組織別データテーブルの支店番号「A001」の行で定義される属性「業務:預金」の列の欄の値「31」は、A銀行における支店番号が「A001」である支店で発生した事務ミスのうち、業務が預金である事務ミスの件数が31件であることを示す。
また、図3に示した組織別データテーブル支店番号「B001」の行で属性「役職:一般行員」の列が定義されると仮定した場合、この列のセルの値は欠損値である「null」となる。前述したように、実際には、銀行ごとの事務ミスデータでは、収集されていないデータについては属性そのものが存在しないので、各銀行で収集されていない属性の値は事務ミス件数の集計結果にも現れない。図3では各銀行の各支店の組織別データテーブルの属性名のうち、存在しない属性名を薄く表記し、件数を「null」としているが、実際には、このような属性の列自体が存在しない。
本実施形態では、支店別に集計した各属性に係るミス件数のデータを組織別データテーブルとして、図1に示した記憶装置12の組織別データテーブル格納部31に格納される。図3に示した例では、同じ銀行の各支店の集計データの各属性は同一であり、これら各支店に関わるデータテーブルを一纏まりの組織別データテーブルとして銀行別に区分している。
図4は、実施形態におけるデータ分析支援装置による処理データの流れの一例を示す図である。
データテーブル結合部41は、記憶装置12の組織別データテーブル格納部31に格納される、各銀行の各支店の組織別データテーブルを入力データとして取り込む。また、データテーブル結合部41は、組織別データテーブル中の属性から、組織間、つまり支店間で同一の属性を特定し、この特定した属性に基づいて各組織のデータテーブルを結合して、単一の結合済データテーブルを生成して、記憶装置12の結合済データテーブル格納部32に格納する。
また、レコード間距離算出部42は、結合済データテーブル中の、1つの支店の各属性のミス件数のデータの集合を1つのレコードとした際の任意の2つのレコード、つまり銀行の種別を問わない2つの支店に係る各属性のミス件数のデータについて、レコード間の類似の高低を示す距離を算出し、この算出結果を記憶装置12のレコード間距離格納部33に格納する。
クラスタリング実施部43は、レコード間距離格納部33に格納された、レコード間の距離の情報を用いて、結合済データテーブル中のレコードをクラスタリングし、クラスタリング結果を記憶装置12のクラスタリング結果格納部34に格納し、さらに、例えば液晶ディスプレイ装置などの表示装置20への出力を行なう。
図5は、実施形態におけるデータ分析支援装置の処理動作の手順の一例を示すフローチャートである。ここで説明する手順は、処理動作の概要であり、各処理の詳細は後述する。
まず、データ分析支援装置10のデータテーブル結合部41は、記憶装置12の組織別データテーブル格納部31に格納される各組織の組織別データテーブルの各属性を抽出する(ステップS1)。
データテーブル結合部41は、各組織の組織別データテーブルから、組織間で同一の属性である同一属性を抽出する(ステップS2)。抽出対象の同一属性を特定する方法の一例として、図3に示すような各銀行の組織別データテーブル間で属性名の完全一致を検出する方法が挙げられる。
データテーブル結合部41は、ステップS2で抽出した同一属性を利用して、記憶装置12の組織別データテーブル格納部31に格納される組織別データテーブルを結合して単一の結合済データテーブルを生成して、記憶装置12の結合済データテーブル格納部32に格納する(ステップS3)。データテーブル結合部41は、一部の組織別データテーブルにのみ存在する属性があれば、当該属性を持たない組織のデータテーブルに、その属性を追加し、この追加した属性の属性値を欠損値(null)とする。
レコード間距離算出部42は、記憶装置12の結合済データテーブル格納部32に格納される結合済データテーブルの各レコードのうち任意の2つのレコードを選択して、この選択したレコード間の距離を算出する(ステップS4)。
従来技術に比した顕著な特徴として、本実施形態では、レコード間距離算出部42は、この選択した2レコードの属性のうち、少なくともどちらか一方のレコードで値が欠損値であるような属性は対象外とし、2レコードがともに値を持つ属性のみを対象として、レコード間の距離を算出する。レコード間距離算出部42は、この算出した距離の情報を、記憶装置12のレコード間距離格納部33に格納する。レコード間距離算出部42は、この処理を結合済データテーブルにおける2レコードの全ての組み合わせについて行なう。
クラスタリング実施部43は、記憶装置12のレコード間距離格納部33に格納された、レコード間の距離の情報を用いて、結合済データテーブル中のレコードをクラスタリングすることで、各支店のクラスタリングを行なう(ステップS5)。そして、クラスタリング実施部43は、クラスタリング結果を記憶装置2のクラスタリング結果格納部34に記憶して、表示装置20へ出力する(ステップS6)。
次に、データテーブル結合部41の動作の詳細について説明する。
前述したように、データテーブル結合部41は、記憶装置12の組織別データテーブル格納部31に格納される組織別データテーブルから属性を抽出して、組織間での同一属性を特定して、データテーブルを結合する。
図6は、本実施形態におけるデータ分析支援装置のデータテーブル結合部41による同一属性抽出のための処理動作の一例を示すフローチャートである。
図6に示す処理動作は、図5に示す処理動作のステップS2を詳細に説明するものであり、組織間での同一属性を抽出するための処理動作である。
図3に示した、組織別データテーブルを例に挙げると、データテーブル結合部41は、異なる銀行の各支店の組織別データテーブルのそれぞれに同一の属性名を持つ属性が存在すれば、これらを同一属性として抽出する。
データテーブル結合部41は、銀行別のデータテーブルを記憶装置12の組織別データテーブル格納部31から読み出して、すべての銀行のすべての属性からなる属性集合Tを生成する(ステップS11)。
具体的には、このステップS11において、データテーブル結合部41が図3に示した組織別データテーブルから得る属性集合Tの要素は、以下の14の属性である。
「業務:預金(A銀行)」、「業務:預金(B銀行)」、「業務:預金(C銀行)」
「業務:融資(A銀行)」、「業務:融資(B銀行)」、「業務:融資(C銀行)」
「役職:一般行員(A銀行)」、「役職:一般行員(C銀行)」
「役職:パート(A銀行)」、「役職:パート(C銀行)」
「原因:能力不足(A銀行)」、「原因:能力不足(B銀行)」
「原因:ミス(A銀行)」、「原因:ミス(B銀行)」
ここでは、同じ属性名を有していても、属性値の集計元の銀行が異なる場合は別の属性としてカウントしている。例えば、上述の「業務:預金(A銀行)」、「業務:預金(B銀行)」、「業務:預金(C銀行)」の属性名は、銀行名を除いた「業務:預金」であり、これら「業務:預金(A銀行)」、「業務:預金(B銀行)」、「業務:預金(C銀行)」は属性集合Tにおける個別の要素となる。
データテーブル結合部41は、ステップS11で生成した属性集合Tの中から、任意のひとつの属性を抽出する(ステップS12)。この抽出した属性を属性aと称する。
データテーブル結合部41は、属性集合T中の属性のうち、ステップS12で抽出した属性aと同一の属性名を有する属性があれば、属性値の集計元の銀行の種別に関わらず、これを抽出する(ステップS13)。この抽出した属性を属性b、属性c、・・・と称する。
具体的には、データテーブル結合部41は、ステップS12において、「業務:預金(A銀行)」を属性aとして抽出した場合、ステップS13では、この属性aと同一の属性名「業務:預金」を有する属性である「業務:預金(B銀行)」、「業務:預金(C銀行)」を属性b、属性cとして抽出する。
データテーブル結合部41は、ステップS12およびステップS13で抽出した属性a、b、c、…の情報を同一属性として記憶装置12に記憶する(ステップS14)。
ここで、属性集合T中から抽出された属性aと同一の属性名を有する属性が属性集合T中に存在しない、つまり、属性aが単一の組織の組織別データテーブルでのみ存在し、他の組織の組織別データテーブルに存在しない場合には、データテーブル結合部41は、この属性aのみを上述した同一属性として記憶装置12に記憶する。
データテーブル結合部41は、ステップS11で生成した属性集合Tの中に、ステップS12またはステップS13でまだ処理していない属性がある、つまり属性集合T中の属性のうちステップS12で属性aとして抽出しておらず、かつステップS13で属性b、c、…として抽出していない属性がある場合は(ステップS15のYES)、ステップS12に戻って、属性集合Tの中から抽出していない属性のいずれかを新たな属性aとして抽出し、このステップS12で抽出した新たな属性aについて、ステップS13,S14の処理を再度行なう。
また、データテーブル結合部41は、ステップS11で生成した属性集合T中の属性をすべて処理している場合、つまり、属性集合T中の全ての属性を、ステップS12で属性aとして抽出済みである場合、またはステップS13で属性b、c、…として抽出済みである場合は(ステップS15のNO)、同一属性抽出のための処理を終了する。
データテーブル結合部41が同一属性抽出の処理を終了した際、このデータテーブル結合部41が、図3に示した組織別データテーブルから同一属性として得た属性の組は、以下の(ア)、(イ)、(ウ)、(エ)、(オ)、(カ)の6組である。
(ア):「業務:預金(A銀行)」、「業務:預金(B銀行)」、「業務:預金(C銀行)」
(イ):「業務:融資(A銀行)」、「業務:融資(B銀行)」、「業務:融資(C銀行)」
(ウ):「役職:一般行員(A銀行)」、「役職:一般行員(C銀行)」
(エ):「役職:パート(A銀行)」、「役職:パート(C銀行)」
(オ):「原因:能力不足(A銀行)」、「原因:能力不足(B銀行)」
(カ):「原因:ミス(A銀行)」、「原因:ミス(B銀行)」
次に、データテーブル結合部41により、ステップS14で記憶装置12に記憶した同一属性を用いて組織別データテーブルを結合するための処理動作を以下に示す。
データテーブル結合部41は、組織別データテーブルから、すべての組織の組織別データテーブルについて同一属性が抽出された場合は、この属性を結合済データテーブルに組み入れ、この結合済データベースにおける一属性とする。
具体的には、図3に示した組織別データテーブルから抽出された同一属性の組(ア)では、A,B,C銀行の各支店の組織別データテーブルには「業務:預金」の属性が同一属性として存在しており、全ての銀行について組織別データテーブルに、この「業務:預金」の属性が存在しているので、この属性を結合済データテーブルに組み入れて、当該結合済みデータベースにおける属性「業務:預金」とする。
同様に、図3に示した組織別データテーブルから抽出された、上記の同一属性の組(イ)では、A,B,C銀行の各支店の組織別データテーブルには「業務:融資」の属性が同一属性として存在しており、全ての銀行について組織別データテーブルにこの「業務:融資」の属性が存在しているので、この属性を結合済データテーブルに組み入れて当該結合済みデータベースにおける属性「業務:融資」とする。
また、図3に示した組織別データテーブルから、一部の銀行の各支店の組織別データテーブルから抽出された属性と同一の属性がその他の銀行の各支店の組織別データテーブルから抽出されなかった場合は、このその他の銀行の属性に当該属性を追加して、結合済データテーブルにおける一属性とする。その際、結合済みデータテーブルにおける、前述したその他の銀行における前述した追加された属性の属性値はすべて欠損値とする。
具体的には、図3に示した組織別データテーブルから抽出された同一属性の組(ウ)では、A,C銀行の各支店の組織別データテーブルには「役職:一般行員」の属性が同一属性として存在するが、B銀行の各支店の組織別データテーブルにはこの「役職:一般行員」の属性が存在していない。
そこで、データテーブル結合部41は、B銀行の各支店の組織別データテーブルに「役職:一般行員」を追加したものを結合済データベースに組み入れ、この結合済みデータベースにおけるB銀行の各支店の行の「役職:一般行員」の列のセルの値である属性値はすべて欠損値とする。
また、図3に示した組織別データテーブルから抽出された同一属性の組(エ)では、A,C銀行の各支店の組織別データテーブルには「役職:パート」の属性が同一属性として存在するが、B銀行の各支店の組織別データテーブルにはこの「役職:パート」の属性が存在していない。そこで、データテーブル結合部41は、B銀行の各支店の組織別データテーブルに「役職:パート」を追加したものを結合済データベースに組み入れ、この結合済みデータベースにおけるB銀行の各支店の行の「役職:パート」の列のセルの値である属性値はすべて欠損値とする。
また、図3に示した組織別データテーブルから抽出された同一属性の組(オ)では、A,B銀行の各支店の組織別データテーブルには「原因:能力不足」の属性が同一属性として存在するが、C銀行の各支店の組織別データテーブルにはこの「原因:能力不足」の属性が存在していない。
そこで、データテーブル結合部41は、C銀行の各支店の組織別データテーブルに「原因:能力不足」を追加したものを結合済データベースに組み入れ、この結合済みデータベースにおけるC銀行の各支店の行の「原因:能力不足」の列のセルの値である属性値はすべて欠損値とする。
また、図3に示した組織別データテーブルから抽出された同一属性の組(カ)では、A,B銀行の各支店の組織別データテーブルには「原因:ミス」の属性が同一属性として存在するが、C銀行の各支店の組織別データテーブルにはこの「原因:ミス」の属性が存在していない。
そこで、データテーブル結合部41は、C銀行の各支店の組織別データテーブルに「原因:ミス」を追加したものを結合済データベースに組み入れ、この結合済みデータベースにおけるC銀行の各支店の行の「原因:ミス」の列のセルの値である属性値はすべて欠損値とする。
このようにして、データテーブル結合部41は、図3に示した各銀行の各支店の組織別データテーブルを結合して、単一の結合済データテーブルを生成して、記憶装置12の結合済データテーブル格納部32に格納する。
図7は、本実施形態におけるデータ分析支援装置のデータテーブル結合部により生成した結合済データテーブルの一例を表形式で示す図である。
この結合済データテーブルの各行は、各銀行の各支店の一レコードに対応し、各列は各行の支店番号、および、結合元の組織別データテーブル中の各属性である「業務:預金」、「業務:融資」、「役職:一般行員」、「役職:パート」、「原因:能力不足」、「原因:ミス」に対応する。
例えば、図3に示したA銀行の各支店の組織別データテーブルの支店番号「A001」の行で定義される属性「業務:預金」の列のセルの値は「31」であるので、結合済データテーブルの支店番号「A001」の行で定義される属性「業務:預金」の列のセルの値も「31」となる。
また、図3に示したB銀行の各支店の組織別データテーブルの支店番号「B001」の行で定義される属性「役職:一般行員」や「役職:パート」の列のセルの値は存在しないので、結合済データテーブルの支店番号「B001」の行で定義される属性「役職:一般行員」や「役職:パート」の列のセルの値は「null」となる。
また、図3に示したC銀行の各支店の組織別データテーブルの支店番号「C001」の行で定義される属性「原因:能力不足」や「原因:ミス」の列のセルの値は存在しないので、結合済データテーブルの支店番号「C001」の行で定義される属性「原因:能力不足」や「原因:ミス」の列のセルの値は「null」となる。
次に、レコード間距離算出部42の動作の詳細について説明する。
図8は、本実施形態におけるデータ分析支援装置のレコード間距離算出部による処理動作の一例を示すフローチャートである。
図8に示す処理動作は、図5に示す処理動作のステップS4を詳細に説明するものであり、結合済データテーブルにおける行方向に沿ったセルの集合を一レコードとした際の任意の2レコード間の類似度の高低を示す距離を算出するための処理動作である。
レコード間距離算出部42は、結合済データテーブルの2つのレコードの組であるレコードペア(レコードiとレコードjとする)を任意に指定し(ステップS21)、このレコードペアのそれぞれがともに値をもつ属性である共通属性を特定する(ステップS22)。
次に、レコード間距離算出部42は、ステップS22で特定した共通属性を考慮して、以下の式(1)にしたがって、レコードiとレコードjとの間の距離di,jを算出して、この算出した距離の情報をレコードペアの各レコードの識別名の情報とともに記憶装置12のレコード間距離格納部33に格納する(ステップS23)。
Figure 0005367112
式(1)におけるnは、レコードiとレコードjとの間の共通属性の数である。
式(1)におけるCは、レコードiとレコードjとの間の共通属性の集合である。
式(1)におけるaは、属性である。
式(1)におけるaは、レコードkにおける属性aの属性値である。
具体例について説明する。まず、第1の例として、図7に示した支店番号「A001」の行のレコードと支店番号「A002」の行のレコードとのペアを選択した場合、「A001」の行のレコードは、欠損値でない値をもつ属性は、「業務:預金」、「業務:融資」、「役職:一般行員」、「役職:パート」、「原因:能力不足」、「原因:ミス」の6つである。また、「A002」の行のレコードは、「A001」の行のレコードと同様に、欠損値でない値をもつ属性は、「業務:預金」、「業務:融資」、「役職:一般行員」、「役職:パート」、「原因:能力不足」、「原因:ミス」の6つである。
つまり、両レコードは、互いに6つの属性を持っており、これらはすべて共通属性であるので、ステップS21で特定される共通属性は、「業務:預金」、「業務:融資」、「役職:一般行員」、「役職:パート」、「原因:能力不足」、「原因:ミス」の6つとなる。
この場合、レコード間距離算出部42は、共通属性である6属性を用いて、ユークリッド距離を算出し、この距離を式(1)に従って共通属性数6で割った以下の値が支店番号「A001」の行のレコードと支店番号「A002」の行のレコードとの距離となる。
Figure 0005367112
また、第2の例として、図7に示した支店番号「A001」の行のレコードと支店番号「B001」の行のレコードとのペアを選択した場合、「A001」の行のレコードは、欠損値でない値をもつ属性は、「業務:預金」、「業務:融資」、「役職:一般行員」、「役職:パート」、「原因:能力不足」、「原因:ミス」の6つである。一方、「B001」の行のレコードは、欠損値でない値をもつ属性は、「業務:預金」、「業務:融資」、「原因:能力不足」、「原因:ミス」の4つである。
つまり、両レコードは、「業務:預金」、「業務:融資」、「原因:能力不足」、「原因:ミス」の4つの属性については、ともに欠損値でない値を有しており、これらの属性がステップS21で特定される共通属性はとなる。
一方、「A001」の行のレコードで値を有する「役職:一般行員」、「役職:パート」の2属性については、「B001」の行のレコードでは欠損値を有しており、これらの属性は、ステップS21で特定される共通属性とはならない。
この場合、レコード間距離算出部42は、共通属性である4属性を用いて、ユークリッド距離を算出し、この距離を式(1)に従って共通属性数4で割った以下の値が支店番号「A001」の行のレコードと支店番号「B001」の行のレコードとの距離となる。
Figure 0005367112
また、第3の例として、図7に示した支店番号「B001」の行のレコードと支店番号「C001」の行のレコードとのペアを選択した場合、「B001」の行のレコードは、欠損値でない値をもつ属性は、「業務:預金」、「業務:融資」、「原因:能力不足」、「原因:ミス」の4つである。一方、「C001」の行のレコードは、欠損値でない値をもつ属性は、「業務:預金」、「業務:融資」、「役職:一般行員」、「役職:パート」の4つである。
つまり、両レコードは、「業務:預金」、「業務:融資」の2つの属性については、ともに欠損値でない値を有しており、これらの属性がステップS21で特定される共通属性となる。
一方、「C001」の行のレコードで値を有する「役職:一般行員」、「役職:パート」の2属性については、「B001」の行のレコードでは欠損値を有しており、これらの属性は、ステップS21で特定される共通属性とはならない。また、「B001」の行のレコードで値を有する「役職:一般行員」、「役職:パート」の2属性については、「C001」の行のレコードでは欠損値を有しており、これらの属性も、ステップS21で特定される共通属性とはならない。
この場合、レコード間距離算出部42は、共通属性である2属性を用いて、ユークリッド距離を算出し、この距離を式(1)に従って共通属性数2で割った以下の値が支店番号「B001」の行のレコードと支店番号「C001」の行のレコードとの距離となる。
Figure 0005367112
つまり、本実施形態における、各支店間の距離の算出では、従来技術のような、共通する属性が多いほど加算する項が増加して、これらの和である距離の値が不当に大きくなる事を防いでいる。
さらに、本実施形態では、式(1)に示すように、1属性あたりの属性値の差が大きいほど、算出される距離が大きくなり、また、共通する属性の数が多いほど、算出される距離が小さくなるので、従来技術に比して精度の高い距離を算出する事が可能となる。
あるレコードペアに対するステップS23の処理の後、レコード間距離算出部42は、結合済データテーブル上のすべてのレコードペアに対する、レコード間の距離の算出が終了していない場合には(ステップS24のNO)、ステップS21に戻って、結合済データテーブルの2つレコードの新たなペアを任意に指定し、ステップS22,S23の処理を再度行なう。
また、レコード間距離算出部42は、結合済データテーブル上のすべてのレコードペアに対する、レコード間の距離の算出が終了した場合には(ステップS24のYES)、レコード間の距離の算出のための処理を終了する。
このようにして、レコード間距離算出部42は、結合済データテーブル上のすべてのレコードペアに対して、レコード間の距離を算出する。
次に、クラスタリング実施部43の動作の詳細について説明する。
図9は、本実施形態におけるデータ分析支援装置のクラスタリング実施部による処理動作の一例を示すフローチャートである。
図9に示す処理動作は、図5に示す処理動作のステップS5を詳細に説明するものであり、記憶装置12の結合済データテーブル格納部32に格納される結合済データテーブルを読み出し、このテーブルの支店番号の列で示されるすべての支店のクラスタリングを行なうための処理動作である。
以下、各銀行の各支店をクラスタリングする過程を二次元マップで示す。本実施形態では、各支店をクラスタリングするために、クラスタ中心支店を設定して、このクラスタ中心支店に対し距離が近い支店を対応付けてクラスタを設定した上で、このクラスタの重心を求めて、この重心に最も距離が近い支店を新たなクラスタ中心支店として設定し、重心を求める前後のクラスタ中心支店が同じである場合に正しいクラスタリングが行えたとして、クラスタリング結果を出力する。
図10は、クラスタ中心支店の初期集合の設定例を示す図である。
図10に示した二次元マップでは、結合済データテーブルでの各行の支店番号で示される各支店を円で表す。そして、この二次元マップでは、支店間の距離は、記憶装置12のレコード間距離格納部33に格納されている距離を表す。
クラスタリング実施部43は、予め指定されたクラスタ数と同数の支店を無作為に選択し、これら選択した各支店をクラスタ中心支店に設定する(ステップS31)。
例えばクラスタ数が3と指定された場合、クラスタリング実施部43は、図10を例にとると、この図10で示される黒丸の3つの支店のそれぞれをクラスタ中心支店に設定する。
次に、クラスタリング実施部43は、ステップS31で設定したクラスタ中心支店以外の各支店の1つを任意に選択し(ステップS32)、この選択した支店と各クラスタ中心支店との距離のそれぞれを、記憶装置12のレコード間距離格納部33から読み出して参照し(ステップS33)、当該選択した支店を、各クラスタ中心支店のうち最も距離が近いクラスタ中心支店に対応付けることでクラスタを任意に生成する(ステップS34)。この生成されたクラスタの要素は、クラスタ中心支店および当該クラスタ中心支店に対応付けられたその他の支店のそれぞれである。
図11は、各支店をクラスタ中心支店に対応付けた例を示す図である。
図11に示した例では、第1のクラスタ、第2のクラスタ、第3のクラスタといった3つのクラスタが示される。
第1のクラスタは、図10に示した各クラスタ中心支店のうち第1のクラスタ中心支店51に最も距離が近い2支店を対応付けた3支店でなるクラスタである。
第2のクラスタは、図10に示した各クラスタ中心支店のうち第2のクラスタ中心支店52に最も距離が近い3支店を対応付けた4支店でなる、二重線L1で囲まれたクラスタである。
第3のクラスタは、図10に示した各クラスタ中心支店のうち第3のクラスタ中心支店53に最も距離が近い5支店を対応付けた6支店でなるクラスタである。
続いて、クラスタリング実施部43は、クラスタを生成するための、クラスタ中心支店以外のすべての支店の選択済みであれば(ステップS35のYES)、ステップS34で生成された各クラスタの重心を計算する(ステップS36)。
ここでは、図11の二重線L1で囲った4支店でなる第2のクラスタに焦点を当てて説明する。
図12は、結合済みデータテーブルで定義される所定のクラスタに含まれる各組織の属性および属性値の一例を表形式で示す図である。この図では、図7に示した結合済データテーブルから、上述の第2のクラスタに含まれる4つの支店のレコードの属性および当該属性の属性値を示す。
第2のクラスタに含まれる4つの支店は、図7に示した結合済データテーブルの支店番号「A003」に対応する支店、支店番号「A004」に対応する支店、支店番号「B003」に対応する支店、支店番号「C003」に対応する支店である。
具体的には、ステップS33では、クラスタリング実施部43は、第2のクラスタに含まれる4つの支店に対応するレコードの各属性について、各レコードの同じ属性の属性値の平均値を算出し、その平均値を重心の属性値とする。
ただし、算出する重心に係わる各レコードのうち属性値が欠損値であるレコードが存在する場合は、このレコードの属性値を平均値算出の対象外とし、属性値を持つレコードのみを対象として平均値を算出する。
例えば、図12に示した各レコードの「業務:預金」の属性値の平均値、つまり「業務:預金」の重心の属性値は、支店番号「A003」の行の値「5」、支店番号「A004」の行の値「2」、支店番号「B003」の行の値「3」、支店番号「C003」の行の値「3」の総和を、各レコードのうち「業務:預金」の属性値が欠損値でない値として存在するレコード数「4」で割った値であり、以下の式のようになる。
(5+2+3+3)/4=3.25
また、図12に示した各レコードの「業務:融資」の属性値の平均値、つまり「業務:融資」の重心の属性値は、支店番号「A003」の行の値「3」、支店番号「A004」の行の値「5」、支店番号「B003」の行の値「4」、支店番号「C003」の行の値「3」の総和を、各レコードのうち「業務:融資」の属性値が欠損値でない値として存在するレコード数「4」で割った値であり、以下の式のようになる。
(3+5+4+3)/4=3.75
また、図12に示した各レコードの「役職:一般行員」の属性値の平均値、つまり「役職:一般行員」の重心の属性値は、支店番号「A003」の行の値「2」、支店番号「A004」の行の値「4」、支店番号「C003」の行の値「4」の総和を、各レコードのうち「役職:一般」の属性値が欠損値でない値として存在するレコード数「3」で割った値であり、以下の式のようになる。
(2+4+4)/3≒3.33である。
また、図12に示した各レコードの「役職:パート」の属性値の平均値、つまり「役職:パート」の重心の属性値は、支店番号「A003」の行の値「6」、支店番号「A004」の行の値「3」、支店番号「C003」の行の値「2」の総和を、各レコードのうち「役職:パート」の属性値が欠損値でない値として存在するレコード数「3」で割った値であり、以下の式のようになる。
(6+3+2)/3≒3.67
また、図12に示した各レコードの「原因:能力不足」の属性値の平均値、つまり「原因:能力不足」の重心の属性値は、支店番号「A003」の行の値「3」、支店番号「A004」の行の値「3」、支店番号「B003」の行の値「2」の総和を、各レコードのうち「原因:能力不足」の属性値が欠損値でない値として存在するレコード数「3」で割った値であり、以下の式のようになる。
(3+3+2)/3≒2.67
また、図12に示した各レコードの「原因:ミス」の属性値の平均値、つまり「原因:ミス」の重心の属性値は、支店番号「A003」の行の値「5」、支店番号「A004」の行の値「4」、支店番号「B003」の行の値「5」の総和を、各レコードのうち「原因:能力不足」の属性値が欠損値でない値として存在するレコード数「3」で割った値であり、以下の式のようになる。
(5+4+5)/3≒4.67
図13は、結合済みデータテーブルで定義される所定のクラスタに含まれる各組織(支店)の各属性の重心の計算結果の一例を表形式で示す図である。
図14は、各クラスタの重心の一例を示す図である。
図14では、二次元マップ上の第1のクラスタの重心、第2のクラスタの重心、および第3のクラスタの重心のそれぞれを×印で示している。
最後に、クラスタリング実施部43は、各クラスタのクラスタ中心支店を再計算する(ステップS37)。具体的には、クラスタリング実施部43は、ステップS31で設定したクラスタ中心支店を含む全支店の中で、当該所定のクラスタについてステップS36で算出した重心との距離がもっとも小さい支店を計算し、この支店を新たなクラスタ中心支店として設定し、この新たなクラスタ中心支店の設定を、ステップS31で設定したクラスタ中心支店のそれぞれについて行なうことで、クラスタ中心の集合を新たに設定する。
各支店とクラスタの重心との距離の計算には、支店同士の距離の計算と同様、上記の式(1)を用いる。
図15は、結合済みデータテーブルで定義されるクラスタのクラスタ中心支店の再計算結果の一例を表形式で示す図である。
ステップS37で再計算したクラスタ中心支店の集合が、ステップS31で設定していた、元のクラスタ中心支店の集合から変化していれば(ステップS38のYES)、クラスタリング実施部43は、適切なクラスタリングが行えていないとみなして、ステップS32に戻り、ステップS37で再計算したクラスタ中心支店以外の各支店の1つを任意に選択して、このクラスタ中心支店を基準としたステップS33以降の処理を再度行なう。
図15に示した例では、図10に示した状態からクラスタ中心支店の集合が変化しているため、ステップS32に戻る。具体的には、図15に示すように、第1のクラスタのクラスタ中心支店は、当初のクラスタ中心支店51からクラスタ中心支店61に変化し、第2のクラスタのクラスタ中心支店は、当初のクラスタ中心支店52からクラスタ中心支店62に変化し、第3のクラスタのクラスタ中心支店は、当初のクラスタ中心支店53からクラスタ中心支店63に変化している。
また、クラスタリング実施部43は、ステップS37で再計算したクラスタ中心支店の集合が、ステップS31で設定していた、元のクラスタ中心支店の集合から変化していなければ(ステップS38のNO)、適切なクラスタリングが行えたとみなして、クラスタリングのための処理を終了し、クラスタリング結果を記憶装置12のクラスタリング結果格納部34に格納し、例えば液晶ディスプレイ装置などの表示装置20への出力を行なう。
次に、本実施形態を実データに適用し、クラスタリングの精度を評価するための実験の結果を以下に記す。
本実験では、以下の3手法の精度を比較した。
(ア)本実施形態の手法
(イ)既存の手法(欠損項目あり)
(ウ)既存の手法(欠損項目なし)
既存の手法(イ),(ウ)としては、一般的に用いられる以下の手法を用いた。
「少なくとも1つのレコードが欠損値であるような属性は、分析に利用しない。」
ただし、手法(ウ)については、欠損項目がないデータを入力データとした。これは入力データをすべて活用できるケースに相当し、クラスタリング手法の精度の上限値を示すものである。
続いて、実験に用いたデータについて説明する。図16は、クラスタリングの精度の評価に利用した実験データを表形式で示す図である。これは、A銀行、B銀行、C銀行でなる3つの銀行の、合計30支店の事務ミスを集計したものであり、銀行の種別の列、支店番号の列、支店種別の列、クラスタリングに用いる、ミスの属性値の列を有する。
ただし、クラスタリングに用いる属性値は、ミス件数の集計値ではなく、ミス件数の比を用いた。たとえば、図16に示したデータのA銀行の支店番号「A01」に対応するレコードにおける「業務a」の属性値0.291は、「支店A01で発生したすべてのミスの件数」に対する「支店A01で発生した業務aでのミスの件数」の割合を示す。つまり、あるレコードの業務a〜業務eまででなるすべての属性値を合計すると、その合計値は1となる。
図16に示したデータは、手法(ウ)のための入力データとなる。一方、手法(ア),(イ)への入力データは、図16に示したデータに擬似的に欠損を発生させることで作成した。
図17は、クラスタリングの精度の評価に利用した、各銀行の事務ミス収集状況を表形式で示す図である。
この図17に基づき、「担当者」の項目に関する情報および「状況」の項目に関する情報は各銀行で収集しているが、B銀行では「業務」の項目に関する情報を収集しておらず、また、C銀行では「原因」の項目に関する情報を収集していないものとし、図16における該当する部分を欠損値とした。
図18は、クラスタリングの精度の評価に利用した、欠損項目を含む実験データを表形式で示す図である。
クラスタリング結果の評価には、図16や図18で示された「支店種別」の列の値を用いる。この「支店種別」は、3つの銀行間で共通して用いられている支店の種別であり、“大型”、“小型”、“特殊”の3種類の属性値からなる。
ここで、クラスタ数を3として実施した各手法により生成されたクラスタを、それぞれ「大型」、「小型」、「特殊」の集合とみなして、全支店の数に対する、実際に正しく分類された支店の数の割合を、3つのクラスタと3つの支店種別の全ての組合せについて算出し、最も高い値を、手法の正解率とする。
たとえば、第1のクラスタに分類されるべき支店種別を「大型」とし、第2のクラスタに分類されるべき支店種別を「小型」とし、第3のクラスタに分類されるべき支店種別を「特殊」とした場合で、ある手法で実際に分類された支店種別が、以下のように、第1のクラスタに対しては、「大型」の支店、「大型」の支店、「小型」の支店、「特殊」の支店、「特殊」の支店でなる5つの支店が分類され、第2のクラスタに対しては、「小型」の支店、「小型」の支店でなる2つの支店が分類され、第3のクラスタに対しては、「大型」の支店、「特殊」の支店、「特殊」の支店、「特殊」の支店でなる4つの支店が分類されたとする。
第1のクラスタ:大型、大型、小型、特殊、特殊
第2クラスタ:小型、小型
第3クラスタ:大型、特殊、特殊、特殊
この場合、第1のクラスタに分類された「大型」の支店の数は2であり、第2クラスタに分類された「小型」の支店の数は2であり、第3のクラスタに分類された「特殊」の支店の数は3であるので、全支店の数に対する、各クラスタに実際に正しく分類された支店の数の割合である正解率は、(2+2+3)/11=7/11となり、この正解率が3つのクラスタと3つの支店種別の全ての組合せについて最も正解率が高い場合、この算出結果を、この手法によるクラスタリング結果の正解率とする。
次に、手法(ア)、手法(イ)、手法(ウ)による各手法による精度の良し悪しを示す、全支店の数に対する、各クラスタに実際に正しく分類された支店の数の正解率を図19に示す。
この例で示すように、「(ア)本実施形態の手法」の精度は、「(イ)既存の手法(欠損項目あり)」の精度を上回っており、既存の手法に比べて、本実施形態の手法は、欠損項目を含むデータに対して頑健であるといえる。
以上のように、本実施形態では、分析対象である複数の組織のそれぞれについての、少なくとも1種類の属性を有する集計データであるレコードを組織別に管理するための組織別データテーブルを格納し、この組織別データテーブルで示される、複数の組織間で少なくとも1種類の共通する属性を有する複数の組織のそれぞれのレコードの組について、共通する属性の値に基づいて、当該レコード間で共通する属性の数、および当該共通する属性における集計値に基づいて、レコードの組の間の距離を算出し、この算出した距離に基づいて、それぞれのレコードに対応する組織をクラスタとしたクラスタリングを行なう。
よって、組織ごとに収集する属性が異なるために、集計データが全ての組織間で一致していない状況であっても、組織間で共通する属性の情報を活用することで、収集されたデータを有効に活用でき、複数組織のデータを統合した精度の高い分析が可能となる。
これらの各実施形態によれば、異なる組織のそれぞれのデータのうち、データの属性が組織間で異なることに起因する欠損が生じても、これらのデータを統合した際の分析の精度を向上させることが可能になるデータ分析支援装置を提供することができる。
以上説明した実施形態では、組織別データテーブルは、分析対象である複数の組織のそれぞれについての、少なくとも1種類の属性を有する集計データであるレコードを組織別に管理するためのデータテーブルであると説明したが、この組織別データテーブルにより管理するデータは、定量的データであってもよいし、定性的データであってもよい。
また、本実施形態では、データ分析支援装置10のクラスタリング実施部43が、組織別データテーブルで示される、複数の組織間で少なくとも1種類の共通する属性を有する複数の組織のそれぞれのレコードの組の間の距離に基づいて、それぞれのレコードに対応する組織をクラスタとしたクラスタリング処理を行なうと説明したが、これに限らず、レコードの組の間の距離を用いる分析処理を行なうのであれば、クラスタリング実施部43の代わりに分析実施部を設けて、この分析実施部により、例えば、レコードの組の間の距離を用いて自己組織化マップによる分析処理を行なってもよいし、多次元尺度構成法による分析処理を行なってもよい。
なお、上記実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
さらに、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、記憶媒体は1つに限らず、複数の媒体から上記実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
尚、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
また、本発明におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…データ分析支援装置、11…制御部、12…記憶装置、20…表示装置、31…組織別データテーブル格納部、32…結合済データテーブル記憶部、33…レコード間距離格納部、41…データテーブル結合部、42…レコード間距離算出部、43…クラスタリング実施部。

Claims (4)

  1. 分析対象である複数の組織のそれぞれについての、少なくとも1種類の属性を有するデータであるレコードを組織別に管理するための組織別データテーブルを格納する組織別データテーブル格納手段と、
    前記組織別データテーブルで示される、複数の組織間で少なくとも1種類の共通する属性を有する複数の組織のそれぞれのレコードの組について、前記共通する属性の値に基づいて、当該レコード間で共通する属性の数、および当該共通する属性における集計値に基づいて、前記レコードの組の間の距離を算出する距離算出手段と、
    前記距離算出手段により算出した距離に基づいて分析を行なう分析処理手段と
    を備えたことを特徴とするデータ分析支援装置。
  2. 前記距離算出手段は、
    前記組織別データテーブルで示される、共通の属性を有する複数の組織のそれぞれのレコードの組について、一方のレコードにおける、これらのレコードの間で共通する属性の値および他方のレコードにおける、当該共通する属性の値の差分値と、前記共通する属性の数の逆数とに基づいて、前記レコード間の距離を算出する
    ことを特徴とする請求項1に記載のデータ分析支援装置。
  3. 前記分析処理手段は、
    前記距離算出手段により算出した前記レコードの組の間の距離に基づいて、前記それぞれのレコードに対応するクラスタ要素の中から複数のクラスタ中心をクラスタ中心の集合として任意に設定して、前記クラスタ中心の集合のそれぞれについて、当該クラスタ中心に距離が近い少なくとも1つのクラスタ要素を対応付ける事でクラスタを任意に設定し、前記設定したクラスタの重心を計算し、前記計算した重心に最も距離が近いクラスタ要素を当該クラスタの新たなクラスタ中心に設定することで、クラスタ中心の集合を新たに設定し、前記新たに設定したクラスタ中心の集合が当該クラスタ中心の設定のための前記重心の計算前に設定したクラスタ中心の集合と同じでなければ、前記設定した新たなクラスタ中心の集合のそれぞれについて、当該クラスタ中心に距離が近い少なくとも1つのクラスタ要素を対応付ける事でクラスタを再度設定し、当該設定したクラスタの重心を新たな重心として計算し、
    また、前記新たな設定したクラスタ中心の集合が当該クラスタ中心の設定のための前記重心の計算前に設定したクラスタ中心の集合と同じであれば、前記設定した最新のクラスタの情報をクラスタリング結果として出力する
    ことを特徴とする請求項1に記載のデータ分析支援装置。
  4. 分析対象である複数の組織のそれぞれについての、少なくとも1種類の属性を有するデータであるレコードを組織別に管理するための組織別データテーブルを格納する組織別データテーブル格納装置を有するコンピュータを、
    前記組織別データテーブルで示される、複数の組織間で少なくとも1種類の共通する属性を有する複数の組織のそれぞれのレコードの組について、前記共通する属性の値に基づいて、当該レコード間で共通する属性の数、および当該共通する属性における集計値に基づいて、前記レコードの組の間の距離を算出する距離算出手段、および
    前記距離算出手段により算出した距離に基づいて分析を行なう分析処理手段
    として機能させるためのデータ分析支援処理プログラム。
JP2012065768A 2012-03-22 2012-03-22 データ分析支援装置およびデータ分析支援処理プログラム Active JP5367112B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012065768A JP5367112B2 (ja) 2012-03-22 2012-03-22 データ分析支援装置およびデータ分析支援処理プログラム
CN201310068122.XA CN103325002B (zh) 2012-03-22 2013-03-04 数据分析支援装置及数据分析支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012065768A JP5367112B2 (ja) 2012-03-22 2012-03-22 データ分析支援装置およびデータ分析支援処理プログラム

Publications (2)

Publication Number Publication Date
JP2013196609A JP2013196609A (ja) 2013-09-30
JP5367112B2 true JP5367112B2 (ja) 2013-12-11

Family

ID=49193727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012065768A Active JP5367112B2 (ja) 2012-03-22 2012-03-22 データ分析支援装置およびデータ分析支援処理プログラム

Country Status (2)

Country Link
JP (1) JP5367112B2 (ja)
CN (1) CN103325002B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182517B (zh) * 2014-08-22 2017-10-27 北京羽乐创新科技有限公司 数据处理的方法及装置
JP6844143B2 (ja) * 2016-08-02 2021-03-17 富士ゼロックス株式会社 情報処理装置
WO2023233622A1 (ja) * 2022-06-02 2023-12-07 日本電信電話株式会社 秘密計算装置、秘密計算方法、プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1327334C (zh) * 2001-11-08 2007-07-18 住友电气工业株式会社 文件分组装置
JP4902863B2 (ja) * 2007-01-26 2012-03-21 三菱電機株式会社 テーブル分類装置
JP5032374B2 (ja) * 2008-03-13 2012-09-26 株式会社東芝 情報処理装置及び方法
US9077949B2 (en) * 2008-11-07 2015-07-07 National University Corporation Hokkaido University Content search device and program that computes correlations among different features
JP5386976B2 (ja) * 2008-12-25 2014-01-15 日本電気株式会社 類似度計算装置、類似度計算方法およびプログラム
CN102067128A (zh) * 2009-04-27 2011-05-18 松下电器产业株式会社 数据处理装置、数据处理方法、程序及集成电路
JP5640796B2 (ja) * 2010-06-04 2014-12-17 富士通株式会社 名寄せ支援処理装置、方法及びプログラム
CN102063489B (zh) * 2010-12-29 2012-12-19 东北大学 基于隐含分类信息的模式匹配方法
CN102521386B (zh) * 2011-12-22 2013-07-10 清华大学 基于集群存储的空间元数据分组方法

Also Published As

Publication number Publication date
CN103325002B (zh) 2017-08-11
JP2013196609A (ja) 2013-09-30
CN103325002A (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
US20200193312A1 (en) Method and system for composite scoring, classification, and decision making based on machine learning
Vercellis Business intelligence: data mining and optimization for decision making
US8200557B2 (en) Systems and methods for providing migration and performance matrices
US10223388B2 (en) Avoid double counting of mapped database data
US20130262279A1 (en) Tax analysis tool
US20160125422A1 (en) Location-based policy guidance system
JP5367112B2 (ja) データ分析支援装置およびデータ分析支援処理プログラム
Cifci et al. Data mining usage and applications in health services
JP6907107B2 (ja) 品種絞込み支援システム、及び方法
CN108140051A (zh) 基于全球检索的数据实时生成全球商业评级的全球联网系统
JP4250285B2 (ja) 疾病別診療報酬明細書分析システム
Scrivner et al. XD Metrics on Demand Value Analytics: Visualizing the Impact of Internal Information Technology Investments on External Funding, Publications, and Collaboration Networks
Tayebati et al. Process mining case study approach: Extraction of unconventional event logs to improve performance in Hospital Information Systems (HIS)
Chen et al. Quantifying impact factors of corporate financing: engineering consulting firms
Salunkhe Improving employee retention by predicting employee attrition using machine learning techniques
WO2015191592A1 (en) System and method for generating descriptive measures that assesses the financial health of a business
JP2011040016A (ja) 財務管理方法およびシステム
Vervenne et al. Patent statistics at Eurostat: Mapping the contribution of SMEs in EU patenting
JP6531059B2 (ja) ビジネスマッチングシステム及びビジネスマッチング方法
KR20200025921A (ko) 연구개발지원장치 및 그 동작 방법
JP6401617B2 (ja) データ処理装置、データ処理方法及び大規模データ処理プログラム
Chatzistefanou Data Warehousing in Business Intelligence and ETL Processes
JP2013218504A (ja) 金融商品のシミュレーション方法
JP7299764B2 (ja) 与信管理装置、与信管理方法、及び与信管理プログラム
Softtech Data Warehouse Insights: Unlocking Hidden Opportunities

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130910

R150 Certificate of patent or registration of utility model

Ref document number: 5367112

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350