JP5367112B2 - データ分析支援装置およびデータ分析支援処理プログラム - Google Patents
データ分析支援装置およびデータ分析支援処理プログラム Download PDFInfo
- Publication number
- JP5367112B2 JP5367112B2 JP2012065768A JP2012065768A JP5367112B2 JP 5367112 B2 JP5367112 B2 JP 5367112B2 JP 2012065768 A JP2012065768 A JP 2012065768A JP 2012065768 A JP2012065768 A JP 2012065768A JP 5367112 B2 JP5367112 B2 JP 5367112B2
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- cluster
- data table
- distance
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Description
本実施形態では、分析対象である複数の組織のそれぞれについての、少なくとも1種類の属性を有する集計データであるレコードを組織別に管理するための組織別データテーブルを格納し、組織別データテーブルで示される、複数の組織間で少なくとも1種類の共通する属性を有する複数の組織のそれぞれのレコードの組について、共通する属性の値に基づいて、当該レコード間で共通する属性の数、および当該共通する属性における集計値に基づいて、レコードの組の間の距離を算出し、この算出した距離に基づいて、それぞれのレコードに対応する組織をクラスタとしたクラスタリングを行なうことを特徴とする。
これらのうち、レコード間距離算出部42は、従来技術に比した顕著な特徴を有し、課題を解決するための主となる機能を有する。
また、上述した、どのようなミスを発生させたかを示す情報は、ミスの原因は何か、損失金額はいくらかなどを示す情報である。
事務ミスに関して収集される情報の属性は、各行の間で概ね同一であるものの、特定の銀行に固有の属性も存在し、特定の属性が必ずしもすべての銀行で収集されているとは限らない。
図2に示した事務ミスデータについて、各行の銀行の支店別のミス件数の集計について説明する。ここでは、説明の簡略化のため、図2に示した事務ミスデータにおける「ミス発生業務」、「発生者の役職」、「ミス発生原因」のみを集計対象とする。
データテーブル結合部41は、記憶装置12の組織別データテーブル格納部31に格納される、各銀行の各支店の組織別データテーブルを入力データとして取り込む。また、データテーブル結合部41は、組織別データテーブル中の属性から、組織間、つまり支店間で同一の属性を特定し、この特定した属性に基づいて各組織のデータテーブルを結合して、単一の結合済データテーブルを生成して、記憶装置12の結合済データテーブル格納部32に格納する。
まず、データ分析支援装置10のデータテーブル結合部41は、記憶装置12の組織別データテーブル格納部31に格納される各組織の組織別データテーブルの各属性を抽出する(ステップS1)。
前述したように、データテーブル結合部41は、記憶装置12の組織別データテーブル格納部31に格納される組織別データテーブルから属性を抽出して、組織間での同一属性を特定して、データテーブルを結合する。
図6に示す処理動作は、図5に示す処理動作のステップS2を詳細に説明するものであり、組織間での同一属性を抽出するための処理動作である。
「業務:融資(A銀行)」、「業務:融資(B銀行)」、「業務:融資(C銀行)」
「役職:一般行員(A銀行)」、「役職:一般行員(C銀行)」
「役職:パート(A銀行)」、「役職:パート(C銀行)」
「原因:能力不足(A銀行)」、「原因:能力不足(B銀行)」
「原因:ミス(A銀行)」、「原因:ミス(B銀行)」
ここでは、同じ属性名を有していても、属性値の集計元の銀行が異なる場合は別の属性としてカウントしている。例えば、上述の「業務:預金(A銀行)」、「業務:預金(B銀行)」、「業務:預金(C銀行)」の属性名は、銀行名を除いた「業務:預金」であり、これら「業務:預金(A銀行)」、「業務:預金(B銀行)」、「業務:預金(C銀行)」は属性集合Tにおける個別の要素となる。
データテーブル結合部41は、属性集合T中の属性のうち、ステップS12で抽出した属性aと同一の属性名を有する属性があれば、属性値の集計元の銀行の種別に関わらず、これを抽出する(ステップS13)。この抽出した属性を属性b、属性c、・・・と称する。
ここで、属性集合T中から抽出された属性aと同一の属性名を有する属性が属性集合T中に存在しない、つまり、属性aが単一の組織の組織別データテーブルでのみ存在し、他の組織の組織別データテーブルに存在しない場合には、データテーブル結合部41は、この属性aのみを上述した同一属性として記憶装置12に記憶する。
(イ):「業務:融資(A銀行)」、「業務:融資(B銀行)」、「業務:融資(C銀行)」
(ウ):「役職:一般行員(A銀行)」、「役職:一般行員(C銀行)」
(エ):「役職:パート(A銀行)」、「役職:パート(C銀行)」
(オ):「原因:能力不足(A銀行)」、「原因:能力不足(B銀行)」
(カ):「原因:ミス(A銀行)」、「原因:ミス(B銀行)」
次に、データテーブル結合部41により、ステップS14で記憶装置12に記憶した同一属性を用いて組織別データテーブルを結合するための処理動作を以下に示す。
データテーブル結合部41は、組織別データテーブルから、すべての組織の組織別データテーブルについて同一属性が抽出された場合は、この属性を結合済データテーブルに組み入れ、この結合済データベースにおける一属性とする。
そこで、データテーブル結合部41は、C銀行の各支店の組織別データテーブルに「原因:能力不足」を追加したものを結合済データベースに組み入れ、この結合済みデータベースにおけるC銀行の各支店の行の「原因:能力不足」の列のセルの値である属性値はすべて欠損値とする。
そこで、データテーブル結合部41は、C銀行の各支店の組織別データテーブルに「原因:ミス」を追加したものを結合済データベースに組み入れ、この結合済みデータベースにおけるC銀行の各支店の行の「原因:ミス」の列のセルの値である属性値はすべて欠損値とする。
この結合済データテーブルの各行は、各銀行の各支店の一レコードに対応し、各列は各行の支店番号、および、結合元の組織別データテーブル中の各属性である「業務:預金」、「業務:融資」、「役職:一般行員」、「役職:パート」、「原因:能力不足」、「原因:ミス」に対応する。
図8は、本実施形態におけるデータ分析支援装置のレコード間距離算出部による処理動作の一例を示すフローチャートである。
図8に示す処理動作は、図5に示す処理動作のステップS4を詳細に説明するものであり、結合済データテーブルにおける行方向に沿ったセルの集合を一レコードとした際の任意の2レコード間の類似度の高低を示す距離を算出するための処理動作である。
このようにして、レコード間距離算出部42は、結合済データテーブル上のすべてのレコードペアに対して、レコード間の距離を算出する。
図9は、本実施形態におけるデータ分析支援装置のクラスタリング実施部による処理動作の一例を示すフローチャートである。
図9に示す処理動作は、図5に示す処理動作のステップS5を詳細に説明するものであり、記憶装置12の結合済データテーブル格納部32に格納される結合済データテーブルを読み出し、このテーブルの支店番号の列で示されるすべての支店のクラスタリングを行なうための処理動作である。
図10に示した二次元マップでは、結合済データテーブルでの各行の支店番号で示される各支店を円で表す。そして、この二次元マップでは、支店間の距離は、記憶装置12のレコード間距離格納部33に格納されている距離を表す。
図11に示した例では、第1のクラスタ、第2のクラスタ、第3のクラスタといった3つのクラスタが示される。
第2のクラスタは、図10に示した各クラスタ中心支店のうち第2のクラスタ中心支店52に最も距離が近い3支店を対応付けた4支店でなる、二重線L1で囲まれたクラスタである。
第3のクラスタは、図10に示した各クラスタ中心支店のうち第3のクラスタ中心支店53に最も距離が近い5支店を対応付けた6支店でなるクラスタである。
図12は、結合済みデータテーブルで定義される所定のクラスタに含まれる各組織の属性および属性値の一例を表形式で示す図である。この図では、図7に示した結合済データテーブルから、上述の第2のクラスタに含まれる4つの支店のレコードの属性および当該属性の属性値を示す。
ただし、算出する重心に係わる各レコードのうち属性値が欠損値であるレコードが存在する場合は、このレコードの属性値を平均値算出の対象外とし、属性値を持つレコードのみを対象として平均値を算出する。
また、図12に示した各レコードの「業務:融資」の属性値の平均値、つまり「業務:融資」の重心の属性値は、支店番号「A003」の行の値「3」、支店番号「A004」の行の値「5」、支店番号「B003」の行の値「4」、支店番号「C003」の行の値「3」の総和を、各レコードのうち「業務:融資」の属性値が欠損値でない値として存在するレコード数「4」で割った値であり、以下の式のようになる。
また、図12に示した各レコードの「役職:一般行員」の属性値の平均値、つまり「役職:一般行員」の重心の属性値は、支店番号「A003」の行の値「2」、支店番号「A004」の行の値「4」、支店番号「C003」の行の値「4」の総和を、各レコードのうち「役職:一般」の属性値が欠損値でない値として存在するレコード数「3」で割った値であり、以下の式のようになる。
また、図12に示した各レコードの「原因:能力不足」の属性値の平均値、つまり「原因:能力不足」の重心の属性値は、支店番号「A003」の行の値「3」、支店番号「A004」の行の値「3」、支店番号「B003」の行の値「2」の総和を、各レコードのうち「原因:能力不足」の属性値が欠損値でない値として存在するレコード数「3」で割った値であり、以下の式のようになる。
また、図12に示した各レコードの「原因:ミス」の属性値の平均値、つまり「原因:ミス」の重心の属性値は、支店番号「A003」の行の値「5」、支店番号「A004」の行の値「4」、支店番号「B003」の行の値「5」の総和を、各レコードのうち「原因:能力不足」の属性値が欠損値でない値として存在するレコード数「3」で割った値であり、以下の式のようになる。
図13は、結合済みデータテーブルで定義される所定のクラスタに含まれる各組織(支店)の各属性の重心の計算結果の一例を表形式で示す図である。
図14は、各クラスタの重心の一例を示す図である。
図14では、二次元マップ上の第1のクラスタの重心、第2のクラスタの重心、および第3のクラスタの重心のそれぞれを×印で示している。
ステップS37で再計算したクラスタ中心支店の集合が、ステップS31で設定していた、元のクラスタ中心支店の集合から変化していれば(ステップS38のYES)、クラスタリング実施部43は、適切なクラスタリングが行えていないとみなして、ステップS32に戻り、ステップS37で再計算したクラスタ中心支店以外の各支店の1つを任意に選択して、このクラスタ中心支店を基準としたステップS33以降の処理を再度行なう。
本実験では、以下の3手法の精度を比較した。
(ア)本実施形態の手法
(イ)既存の手法(欠損項目あり)
(ウ)既存の手法(欠損項目なし)
既存の手法(イ),(ウ)としては、一般的に用いられる以下の手法を用いた。
ただし、手法(ウ)については、欠損項目がないデータを入力データとした。これは入力データをすべて活用できるケースに相当し、クラスタリング手法の精度の上限値を示すものである。
この図17に基づき、「担当者」の項目に関する情報および「状況」の項目に関する情報は各銀行で収集しているが、B銀行では「業務」の項目に関する情報を収集しておらず、また、C銀行では「原因」の項目に関する情報を収集していないものとし、図16における該当する部分を欠損値とした。
クラスタリング結果の評価には、図16や図18で示された「支店種別」の列の値を用いる。この「支店種別」は、3つの銀行間で共通して用いられている支店の種別であり、“大型”、“小型”、“特殊”の3種類の属性値からなる。
第2クラスタ:小型、小型
第3クラスタ:大型、特殊、特殊、特殊
この場合、第1のクラスタに分類された「大型」の支店の数は2であり、第2クラスタに分類された「小型」の支店の数は2であり、第3のクラスタに分類された「特殊」の支店の数は3であるので、全支店の数に対する、各クラスタに実際に正しく分類された支店の数の割合である正解率は、(2+2+3)/11=7/11となり、この正解率が3つのクラスタと3つの支店種別の全ての組合せについて最も正解率が高い場合、この算出結果を、この手法によるクラスタリング結果の正解率とする。
よって、組織ごとに収集する属性が異なるために、集計データが全ての組織間で一致していない状況であっても、組織間で共通する属性の情報を活用することで、収集されたデータを有効に活用でき、複数組織のデータを統合した精度の高い分析が可能となる。
以上説明した実施形態では、組織別データテーブルは、分析対象である複数の組織のそれぞれについての、少なくとも1種類の属性を有する集計データであるレコードを組織別に管理するためのデータテーブルであると説明したが、この組織別データテーブルにより管理するデータは、定量的データであってもよいし、定性的データであってもよい。
Claims (4)
- 分析対象である複数の組織のそれぞれについての、少なくとも1種類の属性を有するデータであるレコードを組織別に管理するための組織別データテーブルを格納する組織別データテーブル格納手段と、
前記組織別データテーブルで示される、複数の組織間で少なくとも1種類の共通する属性を有する複数の組織のそれぞれのレコードの組について、前記共通する属性の値に基づいて、当該レコード間で共通する属性の数、および当該共通する属性における集計値に基づいて、前記レコードの組の間の距離を算出する距離算出手段と、
前記距離算出手段により算出した距離に基づいて分析を行なう分析処理手段と
を備えたことを特徴とするデータ分析支援装置。 - 前記距離算出手段は、
前記組織別データテーブルで示される、共通の属性を有する複数の組織のそれぞれのレコードの組について、一方のレコードにおける、これらのレコードの間で共通する属性の値および他方のレコードにおける、当該共通する属性の値の差分値と、前記共通する属性の数の逆数とに基づいて、前記レコード間の距離を算出する
ことを特徴とする請求項1に記載のデータ分析支援装置。 - 前記分析処理手段は、
前記距離算出手段により算出した前記レコードの組の間の距離に基づいて、前記それぞれのレコードに対応するクラスタ要素の中から複数のクラスタ中心をクラスタ中心の集合として任意に設定して、前記クラスタ中心の集合のそれぞれについて、当該クラスタ中心に距離が近い少なくとも1つのクラスタ要素を対応付ける事でクラスタを任意に設定し、前記設定したクラスタの重心を計算し、前記計算した重心に最も距離が近いクラスタ要素を当該クラスタの新たなクラスタ中心に設定することで、クラスタ中心の集合を新たに設定し、前記新たに設定したクラスタ中心の集合が当該クラスタ中心の設定のための前記重心の計算前に設定したクラスタ中心の集合と同じでなければ、前記設定した新たなクラスタ中心の集合のそれぞれについて、当該クラスタ中心に距離が近い少なくとも1つのクラスタ要素を対応付ける事でクラスタを再度設定し、当該設定したクラスタの重心を新たな重心として計算し、
また、前記新たな設定したクラスタ中心の集合が当該クラスタ中心の設定のための前記重心の計算前に設定したクラスタ中心の集合と同じであれば、前記設定した最新のクラスタの情報をクラスタリング結果として出力する
ことを特徴とする請求項1に記載のデータ分析支援装置。 - 分析対象である複数の組織のそれぞれについての、少なくとも1種類の属性を有するデータであるレコードを組織別に管理するための組織別データテーブルを格納する組織別データテーブル格納装置を有するコンピュータを、
前記組織別データテーブルで示される、複数の組織間で少なくとも1種類の共通する属性を有する複数の組織のそれぞれのレコードの組について、前記共通する属性の値に基づいて、当該レコード間で共通する属性の数、および当該共通する属性における集計値に基づいて、前記レコードの組の間の距離を算出する距離算出手段、および
前記距離算出手段により算出した距離に基づいて分析を行なう分析処理手段
として機能させるためのデータ分析支援処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012065768A JP5367112B2 (ja) | 2012-03-22 | 2012-03-22 | データ分析支援装置およびデータ分析支援処理プログラム |
CN201310068122.XA CN103325002B (zh) | 2012-03-22 | 2013-03-04 | 数据分析支援装置及数据分析支援方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012065768A JP5367112B2 (ja) | 2012-03-22 | 2012-03-22 | データ分析支援装置およびデータ分析支援処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013196609A JP2013196609A (ja) | 2013-09-30 |
JP5367112B2 true JP5367112B2 (ja) | 2013-12-11 |
Family
ID=49193727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012065768A Active JP5367112B2 (ja) | 2012-03-22 | 2012-03-22 | データ分析支援装置およびデータ分析支援処理プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5367112B2 (ja) |
CN (1) | CN103325002B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182517B (zh) * | 2014-08-22 | 2017-10-27 | 北京羽乐创新科技有限公司 | 数据处理的方法及装置 |
JP6844143B2 (ja) * | 2016-08-02 | 2021-03-17 | 富士ゼロックス株式会社 | 情報処理装置 |
WO2023233622A1 (ja) * | 2022-06-02 | 2023-12-07 | 日本電信電話株式会社 | 秘密計算装置、秘密計算方法、プログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1327334C (zh) * | 2001-11-08 | 2007-07-18 | 住友电气工业株式会社 | 文件分组装置 |
JP4902863B2 (ja) * | 2007-01-26 | 2012-03-21 | 三菱電機株式会社 | テーブル分類装置 |
JP5032374B2 (ja) * | 2008-03-13 | 2012-09-26 | 株式会社東芝 | 情報処理装置及び方法 |
US9077949B2 (en) * | 2008-11-07 | 2015-07-07 | National University Corporation Hokkaido University | Content search device and program that computes correlations among different features |
JP5386976B2 (ja) * | 2008-12-25 | 2014-01-15 | 日本電気株式会社 | 類似度計算装置、類似度計算方法およびプログラム |
CN102067128A (zh) * | 2009-04-27 | 2011-05-18 | 松下电器产业株式会社 | 数据处理装置、数据处理方法、程序及集成电路 |
JP5640796B2 (ja) * | 2010-06-04 | 2014-12-17 | 富士通株式会社 | 名寄せ支援処理装置、方法及びプログラム |
CN102063489B (zh) * | 2010-12-29 | 2012-12-19 | 东北大学 | 基于隐含分类信息的模式匹配方法 |
CN102521386B (zh) * | 2011-12-22 | 2013-07-10 | 清华大学 | 基于集群存储的空间元数据分组方法 |
-
2012
- 2012-03-22 JP JP2012065768A patent/JP5367112B2/ja active Active
-
2013
- 2013-03-04 CN CN201310068122.XA patent/CN103325002B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN103325002B (zh) | 2017-08-11 |
JP2013196609A (ja) | 2013-09-30 |
CN103325002A (zh) | 2013-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200193312A1 (en) | Method and system for composite scoring, classification, and decision making based on machine learning | |
Vercellis | Business intelligence: data mining and optimization for decision making | |
US8200557B2 (en) | Systems and methods for providing migration and performance matrices | |
US10223388B2 (en) | Avoid double counting of mapped database data | |
US20130262279A1 (en) | Tax analysis tool | |
US20160125422A1 (en) | Location-based policy guidance system | |
JP5367112B2 (ja) | データ分析支援装置およびデータ分析支援処理プログラム | |
Cifci et al. | Data mining usage and applications in health services | |
JP6907107B2 (ja) | 品種絞込み支援システム、及び方法 | |
CN108140051A (zh) | 基于全球检索的数据实时生成全球商业评级的全球联网系统 | |
JP4250285B2 (ja) | 疾病別診療報酬明細書分析システム | |
Scrivner et al. | XD Metrics on Demand Value Analytics: Visualizing the Impact of Internal Information Technology Investments on External Funding, Publications, and Collaboration Networks | |
Tayebati et al. | Process mining case study approach: Extraction of unconventional event logs to improve performance in Hospital Information Systems (HIS) | |
Chen et al. | Quantifying impact factors of corporate financing: engineering consulting firms | |
Salunkhe | Improving employee retention by predicting employee attrition using machine learning techniques | |
WO2015191592A1 (en) | System and method for generating descriptive measures that assesses the financial health of a business | |
JP2011040016A (ja) | 財務管理方法およびシステム | |
Vervenne et al. | Patent statistics at Eurostat: Mapping the contribution of SMEs in EU patenting | |
JP6531059B2 (ja) | ビジネスマッチングシステム及びビジネスマッチング方法 | |
KR20200025921A (ko) | 연구개발지원장치 및 그 동작 방법 | |
JP6401617B2 (ja) | データ処理装置、データ処理方法及び大規模データ処理プログラム | |
Chatzistefanou | Data Warehousing in Business Intelligence and ETL Processes | |
JP2013218504A (ja) | 金融商品のシミュレーション方法 | |
JP7299764B2 (ja) | 与信管理装置、与信管理方法、及び与信管理プログラム | |
Softtech | Data Warehouse Insights: Unlocking Hidden Opportunities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130820 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130910 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5367112 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |