JP5526057B2

JP5526057B2 - データ分析支援装置およびプログラム

Info

Publication number: JP5526057B2
Application number: JP2011042687A
Authority: JP
Inventors: 誠二江川; ルミ早川
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2011-02-28
Filing date: 2011-02-28
Publication date: 2014-06-18
Anticipated expiration: 2031-02-28
Also published as: JP2012181605A

Description

本発明の実施形態は、複数のデータテーブル間で、同一の内容を表す属性を対応づけるためのデータ分析支援装置およびプログラムに関する。

例えば複数の銀行等における業務ミスを分析するためには、当該業務ミスに関するデータ（情報）が蓄積された当該銀行毎の異なるデータテーブルを参照し、当該データテーブル間で同一の内容を表す属性を比較する必要がある。

しかしながら、これらのデータテーブルは、一般的に各銀行において異なる定義がされており、例えば属性名または属性値の表記が異なる場合が多い。

したがって、異なる定義がされた複数のデータテーブル間において、同一の内容を表す属性を対応づけることは困難である。

これに関連して、例えばデータテーブルにおける主キーが共通する２つのデータテーブル間で、当該主キーの値が同一の行を比較し、当該主キー以外の属性の一致率を算出することで、両データテーブルに共通する属性を抽出する技術（以下、第１の技術と表記）が知られている。

また、例えば属性名、属性値の分布、属性値の文字素の分布および属性値の文字列長の分布（つまり、属性の特徴）の類似度を算出し、データテーブル間で対応する属性を抽出する技術（以下、第２の技術と表記）が知られている。

特開２００４−８６７８２号公報特開２００３−２７１６５６号公報

しかしながら、上記した第１の技術によれば、例えば２つのデータテーブルの主キーが共通していなければならない。したがって、第１の技術では、主キーが共通していなければ、任意のデータテーブル間において類似する属性を抽出することはできない。

一方、上記した第２の技術によれば、比較される属性の特徴のみを利用するため、任意のデータテーブル間において類似する属性を抽出することができる。しかしながら、第２の技術によれば、例えば文字列型の属性（つまり、文字列を含む属性値を有する属性）の場合に、当該属性値の意味を考慮していないため、適切な属性の対応づけができない場合がある。

そこで、本発明が解決しようとする課題は、任意のデータテーブル間において適切な属性の対応づけを行うことが可能なデータ分析支援装置およびプログラムを提供することにある。

実施形態に係るデータ分析支援装置は、データテーブル格納手段と、第１の単語抽出手段と、第２の単語抽出手段と、類似度算出手段と、類似属性候補抽出手段とを具備する。

データテーブル格納手段は、文字列を含む属性値を有する第１の文字列型属性を含む第１の属性から構成される第１のデータテーブルおよび文字列を含む属性値を有する第２の文字列型属性を含む第２の属性から構成される第２のデータテーブルを予め格納する。
第１のデータテーブルの主キーと第２のデータテーブルの主キーとは共通していない。

第１の単語抽出手段は、前記データテーブル格納手段に格納されている第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性が有する属性値に含まれる文字列を構成する第１の単語を抽出する。

第２の単語抽出手段は、前記データテーブル格納手段に格納されている第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性が有する属性値に含まれる文字列を構成する第２の単語を抽出する。

類似度算出手段は、前記第１の抽出手段によって抽出された第１の単語および前記第２の抽出手段によって抽出された第２の単語に基づいて、前記第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性および前記第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性の類似度を算出する。

類似属性候補抽出手段は、前記算出された類似度に基づいて、前記第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性および前記第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性を類似属性候補として抽出する。

第１の実施形態に係るデータ分析支援装置のハードウェア構成を示すブロック図。図１に示すデータ分析支援装置３０の主として機能構成を示すブロック図。図２に示す数値型属性処理部３２の機能構成を示すブロック図。図２に示す文字列型属性処理部３３の機能構成を示すブロック図。データテーブル格納部２２に格納されているＡ銀行のデータテーブルのデータ構造の一例を示す図。データテーブル格納部２２に格納されているＢ銀行のデータテーブルのデータ構造の一例を示す図。データテーブル格納部２２に格納されているＣ銀行のデータテーブルのデータ構造の一例を示す図。本実施形態に係るデータ分析支援装置３０の処理手順を示すフローチャート。類似度算出処理に含まれる数値型属性の類似度算出処理の処理手順を示すフローチャート。数値型属性類似度算出部３２３によって算出される第１および第２の数値型属性間の類似度について具体的に説明するための図。数値型属性類似度算出部３２３によって算出される第１および第２の数値型属性間の類似度について具体的に説明するための図。数値型属性の類似度算出処理において作成された類似度一覧表の一例を示す図。類似度算出処理に含まれる文字列型属性の類似度算出処理の処理手順を示すフローチャート。属性単語抽出部３３１によって作成される対象文字列型属性の単語集合について具体的に説明するための図。文字列型属性類似度算出部３３３によって算出される第１および第２の文字列型属性間の類似度について具体的に説明するための図。文字列型属性の類似度算出処理において作成された類似度一覧表の一例を示す図。類似属性候補抽出処理の処理手順を示すフローチャート。類似属性候補抽出部３５によって算出される対象属性の属性名および該当属性の属性名間の類似度について具体的に説明するための図。類似属性候補抽出部３５によって算出される対象属性の属性名および該当属性の属性名間の類似度について具体的に説明するための図。類似属性候補格納部２７のデータ構造の一例を示す図。第２の実施形態に係るデータ分析支援装置３０に含まれる文字列型属性処理部３３の機能構成を示すブロック図。文字列型属性類似度算出部３３５によって算出される第１および第２の文字列型属性間の類似度について具体的に説明するための図。

以下、図面を参照して、各実施形態について説明する。

（第１の実施形態）
図１は、第１の実施形態に係るデータ分析支援装置のハードウェア構成を示すブロック図である。図１に示すように、コンピュータ１０は、例えばハードディスクドライブ（ＨＤＤ：Hard Disk Drive）のような外部記憶装置２０と接続されている。この外部記憶装置２０は、コンピュータ１０によって実行されるプログラム２１を格納する。コンピュータ１０および外部記憶装置２０は、データ分析支援装置３０を構成する。

このデータ分析支援装置３０は、例えばデータを分析する際に、異なる複数のデータテーブル（異なる定義がされたデータテーブル）間において属性を対応づけるために用いられる。

図２は、図１に示すデータ分析支援装置３０の主として機能構成を示すブロック図である。

図２に示すように、データ分析支援装置３０は、属性型分類部３１、数値型属性処理部３２、文字列型属性処理部３３、閾値入力部３４および類似属性候補抽出部３５を含む。本実施形態において、これらの各部３１〜３５は、図１に示すコンピュータ１０が外部記憶装置２０に格納されているプログラム２１を実行することにより実現されるものとする。このプログラム２１は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム２１が、例えばネットワークを介してコンピュータ１０にダウンロードされても構わない。

また、データ分析支援装置３０は、データテーブル格納部２２、数値型属性格納部２３、文字列型属性格納部２４、数値型属性類似度格納部２５、文字列型属性類似度格納部２６および類似属性候補格納部２７を含む。本実施形態において、これらの各部２２〜２７は、例えば外部記憶装置２０に格納される。

データテーブル格納部２２には、分析の対象となる異なる複数のデータテーブル（第１および第２のテーブル）が格納されている。このデータテーブル格納部２２に格納されている複数のデータテーブルの各々は、属性から構成される。また、データテーブルを構成する属性には、例えば数値型属性および文字列型属性が含まれる。数値型属性は、数値を含む属性値を有する（つまり、数値を属性値としてとり得る）属性である。一方、文字列型属性は、文字列を含む属性値を有する（つまり、文字列を属性値としてとり得る）属性である。なお、文字列型属性が有する属性値に含まれる文字列は、例えば単語から構成される。

属性型分類部３１は、データテーブル格納部２２に格納されているデータテーブルの各々を構成する属性を、数値型属性または文字列型属性に分類する。

数値型属性格納部２３および文字列型属性格納部２４には、属性型分類部３１による分類結果が格納される。具体的には、数値型属性格納部２３には、データテーブル格納部２２に格納されているデータテーブル毎に、当該データテーブルを構成する属性のうちの数値型属性（属性名および属性値）が格納される。また、文字列型属性格納部２４には、データテーブル格納部２２に格納されているデータテーブル毎に、当該データテーブルを構成する属性のうちの文字列型属性（属性名および属性値）が格納される。

数値型属性処理部３２は、数値型属性格納部２３に格納された異なるデータテーブルを構成する２つの数値型属性（第１および第２の数値型属性）が有する属性値（に含まれる数値）に基づいて、当該２つの数値型属性間の類似度を算出する。なお、数値型属性処理部３２は、数値型属性格納部２３に格納された異なるデータテーブルを構成する２つの数値型属性の組み合わせの全てについて類似度を算出する。

数値型属性類似度格納部２５には、数値型属性処理部３２によって算出された異なるデータテーブルを構成する２つの数値型属性の組み合わせ毎の類似度が格納される。

文字列型属性処理部３３は、文字列型属性格納部２４に格納された異なるデータテーブルを構成する２つの文字列型属性（第１および第２の文字列型属性）が有する属性値（に含まれる文字列）に基づいて、当該２つの文字列型属性間の類似度を算出する。なお、文字列型属性処理部３３は、文字列型属性格納部２４に格納された異なるデータテーブルを構成する２つの文字列型属性の組み合わせの全てについて類似度を算出する。

文字列型属性類似度格納部２６には、文字列型属性処理部３３によって算出された異なるデータテーブルを構成する２つの文字列型属性の組み合わせ毎の類似度が格納される。

閾値入力部３４は、異なるデータテーブル間において同一の内容を表す属性の候補（以下、類似属性候補と表記）を抽出する際に用いられる閾値を入力する。閾値入力部３４によって入力される閾値は、例えばユーザによって指定される。

類似属性候補抽出部３５は、数値型属性類似度格納部２５に格納された異なるデータテーブルを構成する２つの数値型属性の組み合わせ毎の類似度および閾値入力部３４によって入力された閾値に基づいて、当該２つの数値型属性を類似属性候補として抽出する。また、類似属性候補抽出部３５は、文字列型属性類似度格納部２６に格納された異なるデータテーブルを構成する２つの文字列型属性の組み合わせ毎の類似度および閾値入力部３４によって入力された閾値に基づいて、当該２つの文字列型属性を類似属性候補として抽出する。

類似属性候補格納部２７には、類似属性候補抽出部３５によって抽出された類似属性候補が格納される。

図３は、図２に示す数値型属性処理部３２の機能構成を示すブロック図である。図３に示すように、数値型属性処理部３２は、属性値数値範囲特定部３２１、属性値数値範囲格納部３２２および数値型属性類似度算出部３２３を含む。

属性値数値範囲特定部３２１は、数値型属性格納部２３に格納された数値型属性が有する属性値に含まれる数値の範囲（以下、当該属性値の数値範囲と表記）を特定する。なお、属性値数値範囲特定部３２１は、数値型属性格納部２３に格納された全ての数値型属性に対して属性値の数値範囲を特定する。

属性値数値範囲格納部３２２には、属性値数値範囲特定部３２１によって特定された数値型属性が有する属性値の数値範囲が格納される。

数値型属性類似度算出部３２３は、属性値数値範囲格納部３２２に格納された各数値型属性が有する属性値の数値範囲に基づいて、異なるデータテーブルを構成する２つの数値型属性間の類似度を算出する。具体的には、数値型属性類似度算出部３２３は、異なるデータテーブルを構成する２つの数値型属性が有する属性値の数値範囲が重なる範囲に基づいて、当該２つの数値型属性間の類似度を算出する。なお、数値型属性類似度算出部３２３は、上記したように異なるデータテーブルを構成する２つの数値型属性の組み合わせの全てについて類似度を算出する。このように数値型属性類似度算出部３２３によって算出された類似度は、数値型属性類似度格納部２５に格納される。

図４は、図２に示す文字列型属性処理部３３の機能構成を示すブロック図である。図４に示すように、文字列型属性処理部３３は、属性値単語抽出部３３１、属性値単語集合格納部３３２および文字列型属性類似度算出部３３３を含む。

属性値単語抽出部３３１は、文字列型属性格納部２４に格納された文字列型属性が有する属性値に含まれる文字列を形態素解析する。属性値単語抽出部３３１は、形態素解析結果に基づいて、文字列型属性格納部２４に格納された文字列型属性が有する属性値に含まれる文字列を構成する単語を抽出する。これにより、属性値単語抽出部３３１は、文字列型属性が有する属性値に含まれる文字列を構成する単語の集合（以下、単に当該属性値の単語集合と表記）を作成する。なお、属性値単語抽出部３３１は、文字列型属性格納部２４に格納された全ての文字列型属性に対して属性値の単語集合を作成する。

属性値単語集合格納部３３２には、属性値単語抽出部３３１によって作成された文字列型属性が有する属性値の単語集合が格納される。

文字列型属性類似度算出部３３３は、属性値単語集合格納部３３２に格納された各文字列型属性が有する属性値の単語集合に基づいて、異なるデータテーブルを構成する２つの文字列型属性間の類似度を算出する。具体的には、文字列型属性類似度算出部３３３は、異なるデータテーブルを構成する２つの文字列型属性が有する属性値の単語集合間で一致する単語の数に基づいて、当該２つの文字列型属性間の類似度を算出する。なお、文字列型属性類似度算出部３３３は、上記したように異なるデータテーブルを構成する２つの文字列型属性の組み合わせの全てについて類似度を算出する。このように文字列型属性類似度算出部３３３によって算出された類似度は、文字列型属性類似度格納部２６に格納される。

ここで、図５〜図７を参照して、上記した図２に示すデータテーブル格納部２２に格納されている異なる複数のデータテーブルについて説明する。

なお、本実施形態では、例えば複数の銀行における業務ミス（に関するデータ）の分析を支援することを想定する。ここでは、データテーブル格納部２２に格納されている複数のデータテーブルは、例えばＡ〜Ｃ銀行の日々の業務で発生したミス（手数料間違い、口座番号指定間違い等）に関するデータ（情報）が蓄積された当該銀行毎のデータテーブル（つまり、Ａ〜Ｃ銀行のデータテーブル）であるものとする。

図５は、データテーブル格納部２２に格納されている複数のデータテーブルのうちのＡ銀行のデータテーブルのデータ構造の一例を示す。

図５に示すように、Ａ銀行のデータテーブル２２１は、属性名（属性の名称）が「版」、「発生日」、「発見日」、「発生原因／発生者」、「現象／発生者」、「発生業務」、「発生者職位」、「損失金額（円）」、「発生店番号」および「発見店番号」である複数の属性から構成されている。以下の説明においては、例えば属性名が「版」である属性を単に「版」属性と称する。なお、他の属性についても同様に表記するものとする。

ここで、図５に示すＡ銀行のデータテーブル２２１を構成する複数の属性のうち、例えば「損失金額（円）」属性は、「９４５００」、「３０００００」、「１５０００００」および「０」等の数値を含む属性値を有する。このため、「損失金額（円）」属性は、数値型属性である。なお、Ａ銀行のデータテーブル２２１を構成する複数の属性のうちの「版」属性、「発生日」属性、「発見日」属性、「損失金額（円）」属性、「発生店番号」属性および「発見店番号」属性が数値型属性である。

また、図５に示すＡ銀行のデータテーブル２２１を構成する複数の属性のうち、例えば「発生原因／発生者」属性は、「経験不足」、「指導・教育不足」、「第三者による事故」および「お客様の依頼ミス・記入誤り」等の文字列を含む属性値を有する。このため、「発生原因／発生者」属性は、文字列型属性である。なお、Ａ銀行のデータテーブル２２１を構成する複数の属性のうちの「発生原因／発生者」属性、「現象／発生者」属性、「発生業務」属性および「発生者職位」属性が文字列型属性である。

図６は、データテーブル格納部２２に格納されている複数のデータテーブルのうちのＢ銀行のデータテーブルのデータ構造の一例を示す。

図６に示すように、Ｂ銀行のデータテーブル２２２は、「発生日」属性、「バージョン」属性、「判明日」属性、「発生原因」属性、「概要」属性、「職位／発生者」属性、「職位／検証者」属性、「直接損失額（千円）」属性、「間接損失額（千円）」属性、「業務」属性および「発生店舗」属性から構成されている。なお、Ｂ銀行のデータテーブル２２２は、上述したＡ銀行のデータテーブル２２１と異なる定義がされているため、当該Ａ銀行のデータテーブル２２１を構成する各属性と比較して属性名および属性値の表記が異なる。

ここで、図６に示すＢ銀行のデータテーブル２２２を構成する複数の属性のうち、例えば「間接損失額（千円）」属性は、「０」、「４００」、「０」および「０」等の数値を含む属性値を有する。このため、「間接損失額（千円）」は、数値型属性である。なお、Ｂ銀行のデータテーブル２２２を構成する複数の属性のうちの「発生日」属性、「バージョン」属性、「判明日」属性、「直接損失額（千円）」属性、「間接損失額（千円）」属性および「発生店舗」属性が数値型属性である。

また、図６に示すＢ銀行のデータテーブル２２２を構成する複数の属性のうち、例えば「発生原因」属性は、「知識・経験・教育不足」、「顧客による事故」、「複雑な作業内容」および「ケアレスミス」等の文字列を含む属性値を有する。このため、「発生原因」属性は、文字列型属性である。なお、Ｂ銀行のデータテーブル２２２を構成する複数の属性のうちの「発生原因」属性、「概要」属性、「職位／発生者」属性、「職位／検証者」属性および「業務」属性が文字列型属性である。

図７は、データテーブル格納部２２に格納されている複数のデータテーブルのうちのＣ銀行のデータテーブルのデータ構造の一例を示す。

図７に示すように、Ｃ銀行のデータテーブル２２３は、「判明日」属性、「発生日」属性、「版」属性、「発生店番号」属性、「発生原因／発生者」属性、「現象」属性、「発生業務」属性、「発生者職位」属性、「損失額（千円）」属性および「リスク評価」属性から構成されている。なお、Ｃ銀行のデータテーブル２２３は、上述したＡ銀行のデータテーブル２２１およびＢ銀行のデータテーブル２２２と異なる定義がされているため、当該Ａ銀行のデータテーブル２２１およびＢ銀行のデータテーブル２２２を構成する各属性と比較して属性名および属性値の表記が異なる。

ここで、図７に示すＣ銀行のデータテーブル２２３を構成する複数の属性のうち、例えば「リスク評価」属性は、「１」、「０」、「３」および「０」等の数値を含む属性値を有する。このため、「リスク評価」属性は、数値型属性である。なお、Ｃ銀行のデータテーブル２２３を構成する複数の属性のうちの「判明日」属性、「発生日」属性、「版」属性、「発生店番号」属性、「損失額（千円）」属性および「リスク評価」属性が数値型属性である。

また、図７に示すＣ銀行のデータテーブル２２３を構成する複数の属性のうち、例えば「発生者職位」属性は、「一般行員」、「上級職」、「一般行員」および「パート」等の文字列を含む属性値を有する。このため、「発生者職位」属性は、文字列型属性である。なお、Ｃ銀行のデータテーブル２２３を構成する複数の属性のうちの「発生原因／発生者」属性、「現象」属性、「発生業務」属性および「発生者職位」属性が文字列型属性である。

次に、図８のフローチャートを参照して、本実施形態に係るデータ分析支援装置３０の処理手順について説明する。

まず、属性型分類部３１は、データテーブル格納部２２に格納されている複数のデータテーブルを取得する（ステップＳ１）。

次に、属性型分類部３１は、取得されたデータテーブル毎に、当該データテーブルを構成する属性の各々を数値型属性または文字列型属性に分類する（ステップＳ２）。また、属性型分類部３１は、数値型属性に分類された属性の各々を更に数値型属性小分類に分類する。この数値型属性小分類には、例えば整数型、浮動小数型および日付型が含まれる。

属性型分類部３１は、取得されたデータテーブルを構成する属性が有する属性値を参照して当該属性の分類処理を実行する。なお、属性型分類部３１によって取得されたデータテーブルを構成する属性の各々の型を特定する情報（型情報）が当該データテーブルに保持されている場合には、当該情報を参照して分類処理が実行されても構わない。

属性型分類部３１は、分類結果をデータテーブル毎に数値型属性格納部２３および文字列型属性格納部２４に格納する（ステップＳ３）。

ここで、データテーブル格納部２２に格納されている複数のデータテーブルが上記したＡ〜Ｃ銀行のデータテーブル２２１〜２２３である場合を想定する。

この場合、数値型属性格納部２３には、Ａ〜Ｃ銀行のデータテーブル２２１〜２２３毎に数値型属性が格納される。具体的には、数値型属性格納部２３には、Ａ銀行のデータテーブル２２１を構成する複数の属性のうちの数値型属性（Ａ銀行のデータテーブル２２１を構成する数値型属性）、Ｂ銀行のデータテーブル２２２を構成する複数の属性のうちの数値型属性（Ｂ銀行のデータテーブル２２２を構成する数値型属性）およびＣ銀行のデータテーブル２２３を構成する複数の属性のうちの数値型属性（Ｃ銀行のデータテーブル２２３を構成する数値型属性）が格納される。

なお、数値型属性格納部２３において、Ａ銀行のデータテーブル２２１を構成する数値型属性は、上記したように整数型、浮動小数型および日付型に更に分類されている。Ｂ銀行のデータテーブル２２２を構成する数値型属性およびＣ銀行のデータテーブル２２３を構成する数値型属性についても同様である。

また、数値型属性格納部２３に格納されたＡ〜Ｃ銀行のデータテーブル２２１〜２２３の数値型属性には、当該Ａ〜Ｃ銀行のデータテーブル２２１〜２２３において当該数値型属性が有する属性値および当該数値型属性の属性名が含まれる。

一方、文字列型属性格納部２４には、Ａ〜Ｃ銀行のデータテーブル２２１〜２２３毎に文字列型属性が格納される。具体的には、文字列型属性格納部２４には、Ａ銀行のデータテーブル２２１を構成する複数の属性のうちの文字列型属性（Ａ銀行のデータテーブル２２１を構成する文字列型属性）、Ｂ銀行のデータテーブル２２２を構成する複数の属性のうちの文字列型属性（Ｂ銀行のデータテーブル２２２を構成する文字列型属性）およびＣ銀行のデータテーブル２２３を構成する複数の属性のうちの文字列型属性（Ｃ銀行のデータテーブル２２３を構成する文字列型属性）が格納される。

また、文字列型属性格納部２４に格納されたＡ〜Ｃ銀行のデータテーブル２２１〜２２３の文字列型属性には、当該Ａ〜Ｃ銀行のデータテーブル２２１〜２２３において当該文字列型属性が有する属性値および当該文字列型属性の属性名が含まれる。

次に、数値型属性格納部２３および文字列型属性格納部２４を参照して、類似度算出処理が実行される（ステップＳ４）。詳細については後述するが、この類似度算出処理には、数値型属性処理部３２によって実行される数値型属性の類似度算出処理および文字列型属性処理部３３によって実行される文字列型属性の類似度算出処理が含まれる。

数値型属性の類似度算出処理においては、数値型属性格納部２３に格納された異なるデータテーブル（の各々）を構成する２つの数値型属性が有する属性値（に含まれる数値）に基づいて、当該２つの数値型属性間の類似度が数値型属性処理部３２によって算出される。なお、数値型属性類似度算出処理においては、上記した数値型属性小分類（つまり、分類先）が同一である２つの数値型属性間の類似度が算出される。この数値型属性の類似度算出処理では、数値型属性格納部２３に格納された異なるデータテーブルを構成する２つの数値型属性であって数値型属性小分類が同一である２つの数値型属性の組み合わせの全てについて類似度が算出される。

また、文字列型属性の類似度算出処理においては、文字列型属性格納部２４に格納された異なるデータテーブルを構成する２つの文字列型属性が有する属性値（に含まれる文字列）に基づいて、当該２つの文字列型属性間の類似度が文字列型属性処理部３３によって算出される。この文字列型属性の類似度算出処理では、文字列型属性格納部２４に格納された異なるデータテーブルを構成する２つの文字列型属性の組み合わせの全てについて類似度が算出される。

ステップＳ４の処理が実行されると、数値型属性類似度格納部２５には、数値型属性処理部３２によって算出された類似度（異なるデータテーブルを構成する２つの数値型属性の組み合わせ毎の類似度）を含む類似度一覧表が格納され、文字列型属性類似度格納部２６には、文字列型属性処理部３３によって算出された類似度（異なるデータテーブルを構成する２つの文字列型属性の組み合わせ毎の類似度）を含む類似度一覧表が格納される（ステップＳ５）。なお、数値型属性類似度格納部２５および文字列型属性類似度格納部２５に格納される類似度一覧表の詳細については、後述する。

ここで、閾値入力部３４は、例えばユーザによって指定された閾値を入力する（ステップＳ６）。ここでは、閾値がユーザによって指定されるものとして説明したが、当該閾値は、例えばデータ分析支援装置３０の内部で予め設定されていてもよいし、データテーブルの内容等に応じて動的に決定されても構わない。

次に、類似属性候補抽出部３５は、数値型属性類似度格納部２５に格納された類似度一覧表、文字列型属性類似度格納部２６に格納された類似度一覧表および閾値入力部３４によって入力された閾値に基づいて、類似属性候補を抽出する処理（以下、類似属性候補抽出処理と表記）を実行する（ステップＳ７）。この類似属性候補抽出処理において類似属性候補抽出部３５によって抽出される類似属性候補には、上記した異なるデータテーブルを構成する２つの数値型属性の組み合わせ（数値型属性ペア）および異なるデータテーブルを構成する２つの文字列型属性の組み合わせ（文字列型属性ペア）が含まれる。なお、この類似属性候補抽出処理の詳細については後述する。

ステップＳ７の処理が実行されると、類似属性候補抽出部３５によって抽出された類似属性候補は、類似属性候補格納部２７に格納される（ステップＳ８）。なお、類似属性候補格納部２７に格納された類似属性候補は、データテーブル格納部２２に格納されている異なる複数のデータテーブル間において同一の内容を表す属性の候補であるため、例えば当該複数のデータテーブルを比較する際に利用されることができる。

次に、図９のフローチャートを参照して、上述した類似度算出処理（図８に示すステップＳ４の処理）に含まれる数値型属性の類似度算出処理の処理手順について説明する。なお、この数値型属性の類似度算出処理は、数値型属性処理部３２によって実行される。

まず、数値型属性処理部３２は、数値型属性格納部２３に格納された数値型属性の各々について以下のステップＳ１１およびＳ１２の処理を実行する。ここでは、この処理の対象となる数値型属性を対象数値型属性と称する。

数値型属性処理部３２に含まれる属性値数値範囲特定部３２１は、数値型属性格納部２３に格納された対象数値型属性が有する属性値の数値範囲を特定する（ステップＳ１１）。この場合、属性値数値範囲特定部３２１は、数値型属性格納部２３に格納された対象数値型属性が有する属性値（に含まれる数値）の最大値および最小値を特定し、当該最大値から最小値までの範囲を当該対象数値型属性が有する属性値の数値範囲とする。

属性値数値範囲特定部３２１は、特定された対象数値型属性が有する属性値の数値範囲を属性値数値範囲格納部３２２に格納する（ステップＳ１２）。

ここで、数値型属性格納部２３に格納された全ての数値型属性について上記したステップＳ１１およびＳ１２の処理が実行されたか否かが判定される（ステップＳ１３）。

数値型属性格納部２３に格納された全ての数値型属性について処理が実行されていないと判定された場合（ステップＳ１３のＮＯ）、上記したステップＳ１１に戻って処理が繰り返される。この場合、ステップＳ１１およびＳ１２の処理が実行されていない数値型属性を対象数値型属性として処理が実行される。このように、数値型属性格納部２３に格納された全ての数値型属性についてステップＳ１１およびＳ１２の処理が実行されることによって、当該数値型属性毎に特定された当該数値型属性が有する属性値の数値範囲が属性値数値範囲格納部３２２に格納される。以下、属性値数値範囲格納部３２２に格納された数値型属性が有する属性値の数値範囲を単に当該数値型属性の数値範囲と称する。

一方、数値型属性格納部２３に格納された全ての数値型属性について処理が実行されたと判定された場合（ステップＳ１３のＹＥＳ）、数値型属性類似度算出部３２３は、数値型属性格納部２３に格納された異なるデータテーブルを構成する２つの数値型属性の組み合わせ（数値型属性ペア）の各々に対して以下のステップＳ１４およびＳ１５の処理を実行する。ここでは、この処理の対象となる数値型属性ペアを対象数値型属性ペアと称する。また、対象数値型属性ペアに含まれる一方の数値型属性を第１の数値型属性、他方の数値型属性を第２の数値型属性と称する。なお、第１の数値型属性および第２の数値型属性の数値型属性小分類（つまり、分類先）は同一であるものとする。

まず、数値型属性類似度算出部３２３は、対象数値型属性ペアに含まれる第１および第２の数値型属性の数値範囲を属性値数値範囲格納部３２２から取得する。

次に、数値型属性類似度算出部３２３は、取得された第１および第２の数値型属性の数値範囲に基づいて、当該第１および第２の数値型属性間の類似度（対象数値型属性ペアの類似度）を算出する（ステップＳ１４）。

ここで、数値型属性類似度算出部３２３によって取得された第１の数値型属性の数値範囲が第２の数値型属性の数値範囲より広い場合、または双方の数値範囲が同等の場合を想定する。この場合、数値型属性類似度算出部３２３は、第１の数値型属性の数値範囲に対する第１および第２の数値型属性の数値範囲の重なる範囲の割合（比率）を、当該第１および第２の数値型属性間の類似度として算出する。

一方、第１の数値型属性の数値範囲が第２の数値型属性の数値範囲より狭い場合、数値型属性類似度算出部３２３は、第２の数値型属性の数値範囲に対する第１および第２の数値型属性の数値範囲の重なる範囲の割合（比率）を、当該第１および第２の数値型属性間の類似度として算出する。

ここで、図１０および図１１を参照して、数値型属性類似度算出部３２３によって算出される第１および第２の数値型属性間の類似度について具体的に説明する。

まず、図１０においては、第１の数値型属性がＡ銀行のデータテーブル２２１を構成する「損失金額（円）」属性であり、第２の数値型属性がＢ銀行のデータテーブル２２２を構成する「直接損失額（千円）」属性であるものとする。また、第１の数値型属性（つまり、「損失金額（円）」属性）の数値範囲は０〜１５０００００であり、第２の数値型属性（つまり、「直接損失額（千円）」属性）の数値範囲は０〜１００００００であるものとする。なお、第１および第２の数値型属性においては単位が「円」と「千円」とで異なっているが、例えば上記したように数値範囲が特定される際に同一の単位となるように補正されているものとする。

ここで、第１の数値型属性の数値範囲は、第２の数値型属性の数値範囲より広い。この場合、第１および第２の数値型属性間の類似度は、第１の数値型属性の数値範囲（ここでは、０〜１５０００００）に対する第１および第２の数値型属性の数値範囲の重なる範囲（ここでは、０〜１００００００）の割合、つまり、１００００００／１５０００００≒０．６６７と算出される。

一方、図１１においては、第１の数値型属性がＡ銀行のデータテーブル２２１を構成する「損失金額（円）」属性であり、第２の数値型属性がＢ銀行のデータテーブル２２２を構成する「発生店舗」属性であるものとする。また、第１の数値型属性（つまり、「損失金額（円）」属性）の数値範囲は０〜１５０００００であり、第２の数値型属性（つまり、「発生店舗」属性）の数値範囲は１〜１４５であるものとする。

ここで、第１の数値型属性の数値範囲は、第２の数値型属性の数値範囲より広い。この場合、第１および第２の数値型属性間の類似度は、第１の数値型属性の数値範囲（ここでは、０〜１５０００００）に対する第１および第２の数値型属性の数値範囲の重なる範囲（ここでは、１〜１４５）の割合、つまり、１４４／１５０００００≒０．０００と算出される。

再び図９に戻ると、数値型属性類似度算出部３２３は、算出された第１および第２の数値型属性間の類似度を、類似度一覧表に格納する（ステップＳ１５）。この場合、第１および第２の数値型属性間の類似度は、当該第１の数値型属性によって構成されるデータテーブルおよび当該第２の数値型属性によって構成されるデータテーブルの組み合わせに対して用意された、当該第１および第２の数値型属性の数値型属性小分類の類似度一覧表に格納される。具体的には、銀行Ａのデータテーブル２２１を構成する整数型の第１の数値型属性および銀行Ｂのデータテーブル２２２を構成する整数型の第２の数値型属性間の類似度は、当該銀行Ａのデータテーブル２２１および銀行Ｂのデータテーブル２２２の組み合わせに対して用意された整数型の類似度一覧表に格納される。

なお、類似度一覧表は、類似度が算出される２つの数値型属性（つまり、第１および第２の数値型属性）の各々を構成する異なる２つのデータテーブルの組み合わせ毎に用意されている。また、異なる２つのデータテーブルの組み合わせ毎に用意されている類似度一覧表は、更に数値型小分類毎に用意されている。

例えばデータテーブル格納部２２に格納されているデータテーブルの数がｎであり、数値型属性が分類される数値型属性小分類の数がｍである場合には、ｎ＊（ｎ−１）＊ｍ／２の数の類度一覧表が用意されている。具体的には、例えばデータテーブル格納部２２に３つのデータテーブル２２１〜２２３が格納されており、３つの数値型属性小分類（例えば、整数型、浮動小数型および日付型）があるような場合には、９つの類似度一覧表が用意されていることになる。

次に、異なるデータテーブルを構成する２つの数値型属性の組み合わせの全て（つまり、全ての数値型属性ペア）について上記したステップＳ１４およびＳ１５の処理が実行されたか否かが判定される（ステップＳ１６）。

全ての数値型属性ペアについて処理が実行されていないと判定された場合（ステップＳＳ１６のＮＯ）、上記したステップＳ１４に戻って処理が繰り返される。この場合、ステップＳ１４およびＳ１５の処理が実行されていない数値型属性ペアを対象数値型属性ペアとして処理が実行される。

一方、全ての数値型属性ペアについて処理が実行されたと判定された場合（ステップＳ１６のＹＥＳ）、数値型属性の類似度算出処理は終了される。

上記したように数値型属性の類似度算出処理が実行されると、用意されている全ての類似度一覧表（数値型属性の類似度一覧表）が作成される。なお、数値型属性の類似度算出処理において作成された類似度一覧表は、上述したように数値型属性類似度格納部２５に格納される。

なお、異なるデータテーブルを構成する２つの数値型属性間の類似度算出方法は、上記に限定されるものではなく、例えば平均または分散等の基本統計量を比較する、またはグラフを作成して当該グラフ同士の重なりを類似度とする等の他の方法を用いても構わない。

ここで、図１２を参照して、数値型属性の類似度算出処理において作成された類似度一覧表について具体的に説明する。図１２は、Ａ銀行のデータテーブル２２１およびＢ銀行のデータテーブル２２２の組み合わせに対して用意されている例えば整数型の類似度一覧表の一例を示す。

図１２に示すように、類似度一覧表２５１中には、Ａ銀行のデータテーブル２２１を構成する数値型属性およびＢ銀行のデータテーブル２２２を構成する数値型属性の各々が示されている。Ａ銀行のデータテーブル２２１を構成する数値型属性には、「版」属性、「損失金額（円）」属性、「発生店番号」属性および「発見店番号」属性が含まれる。なお、これらの「版」属性、「損失金額（円）」属性、「発生店番号」属性および「発見店番号」属性は、整数型の数値型属性である。また、Ｂ銀行のデータテーブル２２２を構成する数値型属性には、「バージョン」属性、「直接損失額（千円）」属性、「間接損失額（千円）」属性および「発生店舗」属性が含まれる。同様に、これらの「バージョン」属性、「直接損失額（千円）」属性、「間接損失額（千円）」属性および「発生店舗」属性は、整数型の数値型属性である。

図１２に示す例では、類似度一覧表２５１には、例えば「版」属性および「バージョン」属性に対応づけて０．８０５が格納されている。これによれば、異なるデータテーブル（ここでは、Ａ銀行のデータテーブル２２１およびＢ銀行のデータテーブル２２２）を構成する「版」属性および「バージョン」属性間の類似度が０．８０５であることが示されている。

なお、図１２に示す類似度一覧表２５１には、「版」属性および「バージョン」属性以外の他の２つの数値型属性間の類似度についても同様に格納されている。つまり、類似度一覧表２５１には、Ａ銀行のデータテーブル２２１を構成する整数型の数値型属性およびＢ銀行のデータテーブル２２２を構成する整数型の数値型属性の全ての組み合わせに対する類似度が格納されている。

ここでは、Ａ銀行のデータテーブル２２１およびＢ銀行のデータテーブル２２２の組み合わせに対して用意された整数型の類似度一覧表について説明したが、他の類似度一覧表についても同様であるため、その詳しい説明を省略する。

次に、図１３のフローチャートを参照して、上述した類似度算出処理（図８に示すステップＳ４の処理）に含まれる文字列型属性の類似度算出処理の処理手順について説明する。なお、この文字列型属性の類似度算出処理は、文字列型属性処理部３３によって実行される。

まず、文字列型属性処理部３３は、文字列型属性格納部２４に格納された文字列型属性の各々について以下のステップＳ２１およびＳ２２の処理を実行する。ここでは、この処理の対象となる文字列型属性を対象文字列型属性と称する。

文字列型属性処理部３３に含まれる属性値単語抽出部３３１は、文字列型属性格納部２４に格納された対象文字列型属性が有する属性値に含まれる文字列を形態素解析する。これにより、属性値単語抽出部３３１は、対象文字列型属性が有する属性値に含まれる文字列を構成する単語を抽出し、当該抽出された単語を含む単語集合（以下、対象文字列型属性の単語集合と表記）を作成する（ステップＳ２１）。

ここで、図１４を参照して、属性値単語抽出部３３１によって作成される対象文字列型属性の単語集合について具体的に説明する。ここでは、対象文字列型属性は、図５に示すＡ銀行のデータテーブル２２１を構成する「発生原因／発生者」属性であるものとする。

まず、対象文字列型属性によって構成されるデータテーブルにおいて当該対象文字列型属性が有する全ての属性値の集合（以下、対象文字列型属性の属性値集合と表記）が取得される。図１４に示す例では、対象文字列型属性の属性値集合には、属性値「経験不足」、「指導・教育不足」、「第三者による事故」、「指導・教育不足」、「お客様の依頼ミス・記入誤り」、「経験不足」、「指導・教育不足」、「指導・教育不足」および「第三者による事故」が含まれている。

次に、対象文字列型属性の属性値集合に含まれる属性値のうち同一の属性値を１つに集約する（つまり、重複を除く）ことにより、対象文字列型属性の一意な属性値集合が作成される（ステップＳ３１）。図１４に示す例では、対象文字列型属性の一意な属性値集合には、属性値「経験不足」、「指導・教育不足」、「第三者による事故」および「お客様の依頼ミス・記入誤り」が含まれている。上記した対象文字列型属性の属性値集合においては属性値「経験不足」、「指導・教育不足」および「第三者による事故」が複数含まれているため、これらの属性値については対象文字列型属性の一意な属性値集合において１つに集約されている。

次に、対象文字列型属性の一意な属性値集合に含まれる属性値（に含まれる文字列）を形態素解析することにより、当該文字列が単語に分割される。ここで、形態素解析処理とは、文字列を単語に分割し、当該分割された各単語に品詞を付与する処理である。具体的には、属性値「お客様の依頼ミス・記入誤り」は、形態素解析処理により、「お（接頭辞）／客（名詞）／様（接尾辞）／の（助詞）／依頼（名詞）／ミス（名詞）／・（記号）／記入（名詞）／誤り（名詞）」のように分割される。このような形態素解析処理結果から品詞が名詞である単語が抽出され、当該単語を含む単語集合が作成される（ステップＳ３２）。なお、図１４に示す例では、属性値単語抽出部３３１によって作成された単語集合には、単語「経験」、「不足」、「指導」、「教育」、「不足」、「第三者」、「事故」、「客」、「依頼」、「ミス」、「記入」および「誤り」が含まれている。

なお、ステップＳ３２の処理においては、品詞が名詞である単語の他に例えば品詞が動詞である単語および未知語等があわせて抽出されても構わない。未知語とは、例えば形態素解析用の辞書に登録されていない語である。一般に、固有名詞または専門用語等が未知語となる可能性が高い。

次に、作成された単語集合に含まれる単語のうち同一の単語を１つに集約する（つまり、重複を除く）ことにより、対象文字列型属性の一意な単語集合（属性値単語集合）が作成される（ステップＳ３３）。図１４に示す例では、対象文字列型属性の一意な単語集合には、単語「経験」、「不足」、「指導」、「教育」、「第三者」、「事故」、「客」、「依頼」、「ミス」、「記入」および「誤り」が含まれている。上記したステップＳ３２において作成された単語集合においては単語「不足」が複数含まれているため、この単語については対象文字列型属性の一意な単語集合において１つに集約されている。

再び図１３に戻ると、属性値単語抽出部３３１は、上記したように作成された対象文字列型属性の単語集合（対象文字列型属性の一意な単語集合）を属性値単語集合格納部３３２に格納する（ステップＳ２２）。

ここで、文字列型属性格納部２４に格納された全ての文字列型属性について上記したステップＳ２１およびＳ２２の処理が実行されたか否かが判定される（ステップＳ２３）。

文字列型属性格納部２４に格納された全ての文字列型属性について処理が実行されていないと判定された場合（ステップＳ２３のＮＯ）、上記したステップＳ２１に戻って処理が繰り返される。この場合、ステップＳ２１およびＳ２２の処理が実行されていない文字列型属性を対象文字列型属性として処理が実行される。このように、文字列型属性格納部２４に格納された全ての文字列型属性についてステップＳ２１およびＳ２２の処理が実行されることによって、当該文字列型属性毎の単語集合が属性値単語集合格納部３３２に格納される。

一方、文字列型属性格納部２４に格納された全ての文字列型属性について処理が実行されたと判定された場合（ステップＳ２３のＹＥＳ）、文字列型属性類似度算出部３３３は、文字列型属性格納部２４に格納された異なるデータテーブルを構成する２つの文字列型属性の組み合わせ（文字列型属性ペア）の各々に対して以下のステップＳ２４〜Ｓ２６の処理を実行する。ここでは、この処理の対象となる文字列型属性ペアを対象文字列型属性ペアと称する。また、対象文字列型属性ペアに含まれる一方の文字列型属性を第１の文字列型属性、他方の文字列型属性を第２の文字列型属性と称する。

まず、文字列型属性類似度算出部３３３は、対象文字列型属性ペアに含まれる第１および第２の文字列型属性の単語集合を属性値単語集合格納部３３２から取得する。

次に、文字列型属性類似度算出部３３３は、取得された第１および第２の文字列型属性の単語集合を参照して、当該第１および第２の文字列型属性の単語集合間で一致する単語の数を特定する（ステップＳ２４）。この場合、文字列型属性類似度算出部３３３は、第１の文字列型属性の単語集合に含まれる単語のうち、第２の文字列型属性の単語集合に含まれる単語と一致する単語の数（以下、第１の文字列型属性の一致数と表記）を特定する。また、文字列型属性類似度算出部３３３は、第２の文字列型属性の単語集合に含まれる語のうち、第１の文字列型属性の単語集合に含まれる単語と一致する単語の数（以下、第２の文字列型属性の一致数と表記）を特定する。

文字列型属性類似度算出部３３３は、特定された第１および第２の文字列型属性の一致数に基づいて、当該第１および第２の文字列型属性間の類似度を算出する（ステップＳ２５）。この場合、文字列型属性類似度算出部３３３は、第１の文字列型属性の単語集合に含まれる単語の一致率（以下、第１の文字列型属性の単語一致率と表記）および第２の文字列型属性の単語集合に含まれる単語の一致率（以下、第２の文字列型属性の単語一致率と表記）を利用して類似度を算出する。

ここで、第１の文字列型属性の単語一致率とは、第１の文字列型属性の単語集合に含まれる単語の数に対する上記したステップＳ２４において特定された第１の文字列型属性の一致数の割合をいう。また、第２の文字列型属性の単語一致率とは、第２の文字列型属性の単語集合に含まれる単語の数に対する上記したステップＳ２４において特定された第２の文字列型属性の一致数の割合をいう。

この場合、文字列型属性類似度算出部３３３は、第１および第２の文字列型属性の単語一致率の平均値を、当該第１および第２の文字列型属性間の類似度として算出する。

ここで、図１５を参照して、文字列型属性類似度算出部３３３によって算出される第１および第２の文字列型属性間の類似度について具体的に説明する。

ここでは、第１の文字列型属性がＡ銀行のデータテーブル２２１を構成する「発生原因／発生者」属性であり、第２の文字列型属性がＢ銀行のデータテーブル２２２を構成する「発生原因」属性であるものとする。

図１５に示すように、第１の文字列型属性（つまり、「発生原因／発生者」属性）の単語集合には、１１個の単語、具体的には、単語「経験」、「不足」、「指導」、「教育」、「第三者」、「事故」、「客」、「依頼」、「ミス」、「記入」および「誤り」が含まれるものとする。また、第２の文字列型属性（つまり、「発生原因」属性）の単語集合には、１０個の単語、具体的には、単語「知識」、「経験」、「教育」、「不足」、「顧客」、「事故」、「複雑」、「作業」、「内容」および「ケアレスミス」が含まれるものとする。

ここで、第１の文字列型属性の単語集合に含まれる単語のうち、第２の文字列型属性の単語集合に含まれる単語と一致する単語は、単語「経験」、「不足」、「教育」および「事故」である。この場合、第１の文字列型属性の一致数は４となる。一方、第２の文字列型属性の単語集合に含まれる単語のうち、第１の文字列型属性の単語集合に含まれる単語と一致する単語は、単語「経験」、「教育」、「不足」および「事故」である。この場合、第２の文字列型属性の一致数は４となる。

また、上記したように第１の文字列型属性の単語集合に含まれる単語の数は１１であるため、第１の文字列型属性の単語一致率は４／１１である。また、第２の文字列型属性の単語集合に含まれる単語の数は１０であるため、第２の文字列型属性の単語一致率は４／１０である。

これにより、第１および第２の文字列型属性間の類似度は、４／１１と４／１０との平均値、つまり、（４／１１＋４／１０）／２≒０．３８２と算出される。

再び図１３に戻ると、文字列型属性類似度算出部３３３は、算出された第１および第２の文字列型属性間の類似度を、類似度一覧表に格納する（ステップＳ２６）。この場合、第１および第２の文字列型属性間の類似度は、当該第１の文字列型属性によって構成されるデータテーブルおよび当該第２の文字列型属性によって構成されるデータテーブルの組み合わせに対して用意された類似度一覧表に格納される。具体的には、銀行Ａのデータテーブル２２１を構成する第１の文字列型属性および銀行Ｂのデータテーブル２２２を構成する第２の文字列型属性間の類似度は、当該銀行Ａのデータテーブル２２１および銀行Ｂのデータテーブル２２２の組み合わせに対して用意された類似度一覧表に格納される。

なお、類似度一覧表は、類似度が算出される２つの文字列型属性（つまり、第１および第２の文字列型属性）の各々を構成する異なる２つのデータテーブルの組み合わせ毎に用意されている。

例えばデータテーブル格納部２２に格納されているデータテーブルの数がｎである場合には、ｎ＊（ｎ−１）／２の数の類似度一覧表が用意されている。具体的には、例えばデータテーブル格納部２２に３つのデータテーブル２２１〜２２３が格納されているような場合には、３つの類似度一覧表が用意されていることになる。

次に、異なるデータテーブルを構成する２つの文字列型属性の組み合わせの全て（つまり、全ての文字列型属性ペア）について上記したステップＳ２４〜Ｓ２６の処理が実行されたか否かが判定される（ステップＳ２７）。

全ての文字列型属性ペアについて処理が実行されていないと判定された場合（ステップＳ２７のＮＯ）、上記したステップＳ２４に戻って処理が繰り返される。この場合、ステップＳ２４〜Ｓ２６の処理が実行されていない文字列型属性ペアを対象文字列型属性ペアとして処理が実行される。

一方、全ての文字列型属性ペアについて処理が実行されたと判定された場合（ステップＳ２７のＹＥＳ）、文字列型属性の類似度算出処理は終了される。

上記したように文字列型属性の類似度算出処理が実行されると、用意されている全ての類似度一覧表（文字列型属性の類似度一覧表）が作成される。なお、文字列型属性の類似度算出処理において作成された類似度一覧表は、上述したように文字列型属性類似度格納部２６に格納される。

ここで、図１６を参照して、文字列型属性の類似度算出処理において作成された類似度一覧表について具体的に説明する。図１６は、Ａ銀行のデータテーブル２２１およびＢ銀行のデータテーブル２２２の組み合わせに対して用意されている類似度一覧表の一例を示す。

図１６に示すように、類似度一覧表２６１中には、Ａ銀行のデータテーブル２２１を構成する文字列型属性およびＢ銀行のデータテーブル２２２を構成する文字列型属性の各々が示されている。Ａ銀行のデータテーブル２２１を構成する文字列型属性には、「発生原因／発生者」属性、「現象／発生者」属性、「発生業務」属性および「発生者職位」属性が含まれる。また、Ｂ銀行のデータテーブル２２２を構成する文字列型属性には、「発生原因」属性、「概要」属性、「職位／発生者」属性および「職位／検証者」属性が含まれる。

図１６に示す例では、類似度一覧表２６１には、例えば「発生原因／発生者」属性および「発生原因」属性に対応づけて０．３８２が格納されている。これによれば、異なるデータテーブル（ここでは、Ａ銀行のデータテーブル２２１およびＢ銀行のデータテーブル２２２）を構成する「発生原因／発生者」属性および「発生原因」属性間の類似度が０．３８２であることが示されている。

なお、図１６に示す類似度一覧表２６１には、「発生原因／発生者」属性および「発生原因」属性以外の他の２つの文字列型属性間の類似度についても同様に格納されている。つまり、類似度一覧表２６１には、Ａ銀行のデータテーブル２２１を構成する文字列型属性およびＢ銀行のデータテーブル２２２を構成する文字列型属性の全ての組み合わせに対する類似度が格納されている。

ここでは、Ａ銀行のデータテーブル２２１およびＢ銀行のデータテーブル２２２の組み合わせに対して用意された類似度一覧表について説明したが、他の類似度一覧表についても同様であるため、その詳しい説明を省略する。

次に、図１７のフローチャートを参照して、上述した類似属性候補抽出処理（図８に示すステップＳ７の処理）の処理手順について説明する。この類似属性候補抽出処理は、数値型属性および文字列型属性に共通して実行される処理である。なお、この類似属性候補抽出処理は、類似属性候補抽出部３５によって実行される。

類似属性候補抽出部３５は、数値型属性類似度格納部２５および文字列型属性類似度格納部２６に格納された類似度一覧表の各々について以下のステップＳ４１〜Ｓ４９の処理を実行する。ここでは、この処理の対象となる類似度一覧表を対象類似度一覧表と称する。

まず、類似属性候補抽出部３５は、対象類似度一覧表を、数値型属性類似度格納部２５または文字列型属性類似度格納部２６から取り出す（ステップＳ４１）。

次に、類似属性候補抽出部３５は、取得された対象類似度一覧表中の属性の各々について以下のステップＳ４２〜Ｓ４８の処理を実行する。ここでは、この処理の対象となる属性を対象属性と称する。

類似属性候補抽出部３５は、対象類似度一覧表中の対象属性を取り出す（ステップＳ４２）。

類似属性候補抽出部３５は、対象類似度一覧表において、取り出された対象属性との類似度が閾値入力部３４によって入力された閾値（図８に示すステップＳ６において入力された閾値）以上である属性（対象属性とは異なるデータテーブルを構成する属性）を検索する。なお、この閾値は、類似属性候補を抽出するために十分な類似度を示す値である。

以下の説明においては、対象属性との類似度が閾値以上である属性を該当属性と称する。

類似属性候補抽出部３５は、検索された該当属性の数が２つ以上であるか否かを判定する（ステップＳ４３）。

該当属性の数が２つ以上でないと判定された場合（ステップＳ４３のＮＯ）、類似属性候補抽出部３５は、検索された該当属性の数が１つであるか否かを判定する（ステップＳ４４）。

該当属性の数が１つでない（つまり、該当属性が存在しない）と判定された場合（ステップＳ４４のＮＯ）、類似属性候補抽出部３５は、対象類似度一覧表中の対象属性とは異なるデータテーブルを構成する属性のうち、予め定められた条件を満たす属性があるか否かを判定する（ステップＳ４５）。ここで、予め定められた条件は、他の属性と比較して、対象属性と互いに類似度が最大となる属性が存在することを含む。

ここで、対称属性と互いに類似度が最大となる属性が存在するか否かを判定する処理（つまり、ステップＳ４５の処理）について具体的に説明する。ここでは、対象類似度一覧表は、上述した図１６に示す類似度一覧表２６１であるものとする。また、閾値入力部３４によって入力された閾値は０．８であるものとする。

まず、対象属性は、類似度一覧表２６１中のＡ銀行のデータテーブル２２１を構成する「現象／発生者」属性であるものとする。この場合、類似度一覧表２６１において、対象属性である「現象／発生者」属性との類似度が閾値（０．８）以上である属性（該当属性）は存在しないため、ステップＳ４５の処理が実行される。

図１６に示す類似度一覧表２６１を参照すると、当該類似度一覧表２６１において、対象属性である「現象／発生者」属性との類似度が最大の属性は、「概要」属性である。

これに対して、類似度一覧表２６１において、「概要」属性との類似度が最大の属性は、対象属性である「現象／発生者」属性である。

このように対象属性である「現象／発生者」属性と類似度が最大となる属性が「概要」属性であり、当該「概要」属性と類似度が最大となる属性が「現象／発生者」属性（つまり、対象属性）である場合には、当該対象属性と互いに類似度が最大となる属性（ここでは、「概要」属性）が存在すると判定される。

次に、対象属性は、類似度一覧表２６１中のＡ銀行のデータテーブル２２１を構成する「発生業務」属性であるものとする。この場合、類似度一覧表２６１において、対象属性である「発生業務」属性との類似度が閾値（０．８）以上である属性（該当属性）は存在しないため、ステップＳ４５の処理が実行される。

図１６に示す類似度一覧表２６１を参照すると、当該類似度一覧表２６１において、対象属性である「発生業務」属性との類似度が最大の属性は、「発生原因」属性である。

これに対して、類似度一覧表２６１において、「発生原因」属性との類似度が最大の属性は、「発生原因／発生者」属性であり、対象属性である「発生業務」属性ではない。

このように対象属性である「発生業務」属性と類似度が最大となる属性が「発生原因」属性であるが、当該「発生原因」属性との類似度が最大となる属性が「発生業務」属性（つまり、対象属性）でない場合には、当該対象属性と互いに類似度が最大となる属性が存在しないと判定される。

上記したようにステップＳ４５においては、対象属性と類似度が最大となる属性と類似度が最大となる属性が当該対象属性である場合には当該対象属性と互いに類似度が最大となる属性が存在すると判定され、対象属性と類似度が最大となる属性と類似度が最大となる属性が当該対象属性でない場合には当該対象属性と互いに類似度が最大となる属性が存在しない（つまり、類似属性候補はない）と判定される。

対象属性と互いに類似度が最大となる属性が存在する、つまり、予め定められた条件を満たす属性があると判定された場合（ステップＳ４５のＹＥＳ）、当該属性および対象属性（の組み合わせ）を類似属性候補として抽出する（ステップＳ４６）。

一方、対象属性と互いに類似度が最大となる属性が存在しない、つまり、予め定められた条件を満たす属性がないと判定された場合（ステップＳ４５のＮＯ）、ステップＳ４６の処理は実行されない。

また、上記したステップＳ４３において該当属性の数が２つ以上であると判定された場合、類似属性候補抽出部３５は、当該該当属性毎に、対象属性の属性名および当該該当属性の属性名間の類似度を算出する（ステップＳ４７）。なお、対象属性の属性名および該当属性の属性名間の類似度は、上述した２つの文字列型属性間の類似度と同様に算出される。

ここで、図１８および図１９を参照して、類似属性候補抽出部３５によって算出される対象属性の属性名および該当属性の属性名間の類似度について具体的に説明する。ここでは、対象類似度一覧表は、上述した図１６に示す類似度一覧表２６１であるものとする。また、対象属性は、類似度一覧表２６１中のＡ銀行のデータテーブル２２１を構成する「発生者職位」属性であるものとする。なお、上記したように閾値入力部３４によって入力された閾値は０．８であるものとする。

この場合、類似度一覧表２６１において、対象属性である「発生者職位」属性との類似度が閾値（０．８）以上である属性（該当属性）は、「職位／発生者」属性および「職位／検証者」属性の２つである。なお、「発生者職位」属性の属性名は「発生者職位」であり、「職位／発生者」属性の属性名は「職位／発生者」であり、「職位／検証者」属性の属性名は「職位／検証者」である。

まず、図１８を参照して、対象属性である「発生者職位」属性の属性名および該当属性である「職位／発生者」属性の属性名間の類似度について説明する。

この場合、上述した２つの文字列型属性間の類似度と同様に、対象属性である「発生者職位」属性の属性名および該当属性である「職位／発生者」属性の属性名が形態素解析処理されることにより、当該「発生者職位」属性の属性名の単語集合および当該「職位／発生者」属性の属性名の単語集合が作成される。ここで作成される単語集合には、例えば品詞が名詞の単語が含まれる。

具体的には、「発生者職位」属性の属性名の単語集合には、単語「発生者」および「職位」が含まれる。また、「職位／発生者」属性の属性名の単語集合には、単語「職位」および「発生者」が含まれる。

ここで、「発生者職位」属性の属性名の単語集合に含まれる単語のうち、「職位／発生者」属性の属性名の単語集合に含まれる単語と一致する単語の数は２（単語「発生者」および「職位」）である。また、「職位／発生者」属性の属性名の単語集合に含まれる単語のうち、「職位／発生者」属性の属性名の単語集合に含まれる単語と一致する単語の数は２（単語「職位」および「発生者」）である。

また、上記したように「発生者職位」属性の属性名の単語集合に含まれる単語の数は２であるため、当該「発生者職位」属性の属性名の単語集合に含まれる単語の数に対する上記した「職位／発生者」属性の属性名の単語集合に含まれる単語と一致する単語の数の割合は２／２である。また、「職位／発生者」属性の属性名の単語集合に含まれる単語の数は２であるため、当該「職位／発生者」属性の属性名の単語集合に含まれる単語の数に対する上記した「発生者職位」属性の属性名の単語集合に含まれる単語と一致する単語の数の割合は２／２である。

これにより、対象属性である「発生者職位」属性の属性名および該当属性である「職位／発生者」属性の属性名間の類似度は、２／２と２／２との平均値、つまり、（２／２＋２／２）／２＝１と算出される。

次に、図１９を参照して、対象属性である「発生者職位」属性の属性名および該当属性である「職位／検証者」属性の属性名間の類似度について説明する。

この場合、対象属性である「発生者職位」属性の属性名および該当属性である「職位／検証者」属性の属性名が形態素解析処理されることにより、当該「発生者職位」属性の属性名の単語集合および当該「職位／検証者」属性の属性名の単語集合が作成される。ここで作成される単語集合には、例えば品詞が名詞の単語が含まれる。

具体的には、「発生者職位」属性の属性名の単語集合には、上記したように単語「発生者」および「職位」が含まれる。また、「職位／検証者」属性の属性名の単語集合には、単語「職位」および「検証者」が含まれる。

ここで、「発生者職位」属性の属性名の単語集合に含まれる単語のうち、「職位／検証者」属性の属性名の単語集合に含まれる単語と一致する単語の数は１（単語「職位」）である。また、「職位／検証者」属性の属性名の単語集合に含まれる単語のうち、「発生者職位」属性の属性名の単語集合に含まれる単語と一致する単語の数は１（単語「職位」）である。

また、上記したように「発生者職位」属性の属性名の単語集合に含まれる単語の数は２であるため、当該「発生者職位」属性の属性名の単語集合に含まれる単語の数に対する上記した「職位／検証者」属性の属性名の単語集合に含まれる単語と一致する単語の数の割合は１／２である。また、「職位／検証者」属性の属性名の単語集合に含まれる単語の数は２であるため、当該「職位／検証者」属性の属性名の単語集合に含まれる単語の数に対する上記した「発生者職位」属性の属性名の単語集合に含まれる単語と一致する単語の数の割合は１／２である。

これにより、対象属性である「発生者職位」属性の属性名および該当属性である「職位／検証者」属性の属性名間の類似度は、１／２と１／２との平均値、つまり、（１／２＋１／２）／２＝１／２と算出される。

再び図１７に戻ると、類似属性候補抽出部３５は、該当属性毎に算出された類似度（対象属性の属性名および当該該当属性の属性名間の類似度）に基づいて、当該該当属性に対して順位づけを行う（ステップＳ４８）。具体的には、類似属性候補抽出部３５は、算出された類似度が高い該当属性の優先順位を高くするような順位づけを行う。上記したように「発生者職位」属性が対象属性であり、「職位／発生者」属性および「職位／検証者」属性が該当属性である場合には、「発生者職位」属性の属性名および「職位／検証者」属性の属性名間の類似度より「発生者職位」属性の属性名および「職位／発生者」属性の属性名間の類似度の方が高いため、「職位／発生者」属性により高い優先順位が付与される。

次に、類似属性候補抽出部３５は、ステップＳ４６において類似属性候補を抽出する。この場合、類似属性候補抽出部３５は、対象属性および該当属性の各々（の組み合わせ）を類似属性候補として抽出する。

一方、上記したステップＳ４４において該当属性の数が１つであると判定された場合、類似属性候補抽出部３５は、ステップＳ４６において類似属性候補を抽出する。この場合、類似属性候補抽出部３５は、対象属性および該当属性（の組み合わせ）を類似属性候補として抽出する。

上記したステップＳ４５において対象属性と互いに類似度が最大となる属性が存在しない、つまり、予め定められた条件を満たす属性がないと判定された場合、またはステップＳ４６の処理が実行されると、対象類似度一覧表中の全ての属性について上記したステップＳ４２〜Ｓ４８の処理が実行されたか否かが判定される（ステップＳ４９）。

対象類似度一覧表中の全ての属性について処理が実行されていないと判定された場合（ステップＳ４９のＮＯ）、上記したステップＳ４２に戻って処理が繰り返される。この場合、ステップＳ４２〜Ｓ４８の処理が実行されていない属性を対象属性として処理が実行される。

一方、対象類似度一覧表中の全てについて処理が実行されたと判定された場合（ステップＳ４９のＹＥＳ）、数値型属性類似度格納部２５および文字列型属性類似度格納部２６に格納された全ての類似度一覧表について上記したステップＳ４１〜Ｓ４９の処理が実行されたか否かが判定される（ステップＳ５０）。

全ての類似度一覧表について処理が実行されていないと判定された場合（ステップＳ５０のＮＯ）、上記したステップＳ４１に戻って処理が繰り返される。この場合、ステップＳ４１〜Ｓ４９の処理が実行されていない類似度一覧表を対象類似度一覧表として処理が実行される。

一方、全ての類似度一覧表について処理が実行されたと判定された場合（ステップＳ５０のＹＥＳ）、類似属性候補抽出処理は終了される。

上記したように類似属性候補抽出処理が実行されると、当該類似属性候補抽出処理において抽出された類似属性候補が類似属性候補格納部２７に格納される。

ここで、図２０は、類似属性候補格納部２７のデータ構造の一例を示す。類似属性候補格納部２７には、上記したように類似属性候補として抽出された異なるデータテーブルを構成する２つの属性（の属性名）が対応づけて格納されている。

図２０に示す例では、類似属性候補格納部２７には、例えばＡ銀行のデータテーブル２２１を構成する「発生原因／発生者」属性に対応づけてＢ銀行のデータテーブル２２２を構成する「発生原因」属性が格納されている。また、類似属性候補格納部２７には、例えばＡ銀行のデータテーブル２２１を構成する「発生原因／発生者」属性に対応づけてＣ銀行のデータテーブル２２３を構成する「発生原因／発生者」属性が格納されている。

これによれば、Ａ銀行のデータテーブル２２１を構成する「発生原因／発生者」属性およびＢ銀行のデータテーブル２２２を構成する「発生原因」属性が同一の内容を表す属性の候補（つまり、類似属性候補）であることが示されている。同様に、Ａ銀行のデータテーブル２２１を構成する「発生原因／発生者」属性およびＣ銀行のデータテーブル２２３を構成する「発生原因／発生者」属性が同一の内容を現す属性の候補であることが示されている。

また、類似属性候補格納部２７には、例えばＡ銀行のデータテーブル２２１を構成する「発生者職位」属性に対応づけてＢ銀行のデータテーブル２２２を構成する「職位／発生者」属性および「職位／検証者」属性が格納されている。これによれば、Ａ銀行のデータテーブル２２１を構成する「発生者職位」属性およびＢ銀行のデータテーブル２２２を構成する「職位／発生者」属性が同一の内容を表す属性の候補であることが示されている。また、Ａ銀行のデータテーブル２２１を構成する「発生者職位」属性およびＢ銀行のデータテーブル２２２を構成する「職位／検証者」属性が同一の内容を現す属性の候補であることが示されている。

なお、Ａ銀行のデータテーブル２２１を構成する「発生者職位」属性に対応づけて類似属性候補格納部２７に格納されている「職位／発生者」属性および「職位／検証者」は、上記した類似属性候補抽出処理において当該「職位／発生者」属性および「職位／検証者」属性（該当属性）に対して付与された優先順位の順番に並べられる。

図２０に示すように、類似属性候補格納部２７には、類似属性候補抽出処理において類似属性候補として抽出された２つの属性の組み合わせの全てが格納されている。

なお、図２０に示す類似属性候補格納部２７に格納された類似属性候補は、上述したように例えばデータテーブル格納部２２に格納されたＡ〜Ｃ銀行のデータテーブル２２１〜２２３（に保持されるデータ）のデータ分析において当該Ａ〜Ｃ銀行のデータテーブル２２１〜２２３を比較する際に利用されることができる。

上記したように本実施形態においては、テーブル格納部２２に格納されている複数のテーブルを構成する文字列型属性が有する属性値に含まれる文字列を構成する単語を抽出し、当該抽出された単語に基づいて異なるテーブルを構成する２つの文字列型属性間の類似度を算出し、当該算出された類似度に基づいて当該２つの文字列型属性を類似属性候補として抽出する構成により、属性の特徴のみを利用し、また属性値の意味を考慮して任意のデータテーブル間において適切な属性の対応づけを行うことが可能となる。

また、本実施形態においては、テーブル格納部２２に格納されている複数のテーブルを構成する数値型属性が有する属性値に含まれる数値の範囲に基づいて、異なるテーブルを構成する２つの数値型属性間の類似度を算出し、当該算出された類似度に基づいて当該２つの数値型属性を類似属性候補として抽出する構成により、数値型属性についても任意のデータテーブル間において適切な対応づけを行うことができる。

更に、本実施形態においては、複数のテーブルを構成する数値型属性を数値型属性小分類に分類することにより、例えば数値範囲を比較することができない２つの数値型属性間の類似度を算出することを回避し、数値型属性の適切な対応づけを行うことができる。

（第２の実施形態）
次に、第２の実施形態について説明する。本実施形態に係るデータ分析支援装置のハードウェア構成および機能構成は、前述した第１の実施形態と同様であるため、適宜、図１および図２を用いて説明する。

なお、本実施形態においては、データ分析支援装置３０に含まれる文字列型属性処理部３３が２つの文字列型属性の類似度を算出する際に類義語辞書を用いる点が、前述した第１の実施形態とは異なる。

ここで、図２１は、本実施形態に係るデータ分析支援装置３０に含まれる文字列型属性処理部３３の機能構成を示すブロック図である。

文字列型属性処理部３３は、類義語辞書格納部３３４および文字列型属性類似度算出部３３５を含む。本実施形態において、類義語辞書格納部３３４は、例えば図１に示す外部記憶装置２０に格納される。

類義語辞書格納部３３４には、意味が類似する（つまり、意味の似かよった）複数の単語が類義語として登録された類義語辞書が予め格納されている。

文字列型属性類似度算出部３３５は、属性値単語集合格納部３３１によって格納された各文字列型属性の単語集合および類義語辞書格納部３３４に格納されている類義語辞書に基づいて、異なるデータテーブルを構成する２つの文字列型属性間の類似度を算出する。この場合、文字列型属性類似度算出部３３５は、前述した第１の実施形態における文字列型属性類似度算出部３３３と同様に、２つの文字列型属性（第１および第２の文字列型属性）の単語集合間で一致する単語の数を特定する。このとき、文字列型属性類似度算出部３３５によって特定される２つの文字列型属性の単語集合間で一致する単語には、完全に一致した単語だけではなく、類義語辞書格納部３３４に格納されている類義語辞書に登録されている意味が類似する単語が含まれる。つまり、本実施形態における文字列型属性類似度算出部３３５においては、意味が類似する単語についても一致したものとみなされる。

なお、文字列型属性類似度算出部３３５は、この点以外については、前述した第１の実施形態における文字列型属性類似度算出部３３３と同様の機能を有する。

ここで、本実施形態に係るデータ分析支援装置３０の動作について説明する。なお、本実施形態に係るデータ分析支援装置３０において実行される処理のうち類似度算出処理（前述した図８に示すステップＳ４の処理）に含まれる文字列型属性の類似度算出処理以外の処理については前述した第１の実施形態と同様であるため、その詳しい説明を省略する。

以下、本実施形態における文字列型属性の類似度算出処理の処理手順について説明する。ここでは、便宜的に、図１３のフローチャートを参照して説明する。

まず、図１３に示すステップＳ２１〜Ｓ２３の処理が実行される。このステップＳ２１〜Ｓ２３の処理については、前述した第１の実施形態において説明した通りであるため、その詳しい説明を省略する。

ステップＳ２３において文字列型属性格納部２４に格納された全ての文字列型属性について処理が実行されたと判定された場合、文字列型属性類似度算出部３３５は、例えば文字列型属性格納部２４に格納された異なるデータテーブルを構成する２つの文字列型属性の組み合わせ（文字列型属性ペア）の各々に対して以下のステップＳ２４〜Ｓ２６の処理を実行する。ここでは、この処理の対象となる文字列型属性ペアを対象文字列型属性ペアと称する。また、対象文字列型属性ペアに含まれる一方の文字列型属性を第１の文字列型属性、他方の文字列型属性を第２の文字列型属性と称する。

この場合、文字列型属性類似度算出部３３５は、対象文字列型属性ペアに含まれる第１および第２の文字列型属性の単語集合を属性値単語集合格納部３３２から取得する。

文字列型属性類似度算出部３３５は、取得された第１および第２の文字列型属性の単語集合と類義語辞書格納部３３４に格納されている類義語辞書を参照して、当該第１および第２の文字列型属性の単語集合間で一致する単語の数を特定する（ステップＳ２４）。この場合、文字列型属性類似度算出部３３５は、第１の文字列型属性の単語集合に含まれる単語のうち、第２の文字列型属性の単語集合に含まれる単語と一致する単語および類似する単語の数（第１の文字列型属性の一致数）を特定する。また、文字列型属性類似度算出部３３５は、第２の文字列型属性の単語集合に含まれる単語のうち、第２の文字列型属性の単語集合に含まれる単語と一致する単語および類似する単語の数（第２の文字列型属性の一致数）を特定する。

文字列型属性類似度算出部３３５は、特定された第１および第２の文字列型属性の一致数に基づいて、当該第１および第２の文字列型属性間の類似度を算出する（ステップＳ２５）。この場合、文字列型属性類似度算出部３３５は、前述した第１の実施形態と同様に、第１の文字列型属性の単語集合に含まれる単語の一致率（第１の文字列型属性の単語一致率）および第２の文字列型属性の単語集合に含まれる単語の一致率（第２の文字列型属性の単語一致率）を利用して類似度を算出する。

ここで、図２２を参照して、文字列型属性類似度算出部３３５によって算出される第１および第２の文字列型属性間の類似度について具体的に説明する。

ここでは、第１の文字列型属性が前述した図５に示すＡ銀行のデータテーブル２２１を構成する「発生原因／発生者」属性であり、第２の文字列型属性が前述した図６に示すＢ銀行のデータテーブル２２２を構成する「発生原因」属性であるものとする。

図２２に示すように、第１の文字列型属性（つまり、「発生原因／発生者」属性）の単語集合には、１１個の単語、具体的には、単語「経験」、「不足」、「指導」、「教育」、「第三者」、「事故」、「客」、「依頼」、「ミス」、「記入」および「誤り」が含まれるものとする。また、第２の文字列型属性（つまり、「発生原因」属性）の単語集合には、１０個の単語、具体的には、単語「知識」、「経験」、「教育」、「不足」、「顧客」、「事故」、「複雑」、「作業」、「内容」および「ケアレスミス」が含まれるものとする。

なお、文字列型属性処理部３３に含まれる類義語辞書格納部３３４に格納されている類義語辞書には、単語「指導」および「教育」が類義語として登録されているものとする。また、類義語辞書には、単語「客」および「顧客」が類義語として登録されているものとする。また、類義語辞書には、単語「ミス」、「誤り」および「ケアレスミス」が類義語として登録されているものとする。

ここで、第１の文字列型属性の単語集合に含まれる単語のうち、第２の文字列型属性の単語集合に含まれる単語と完全に一致する単語は、単語「経験」、「不足」、「教育」および「事故」である。また、上記した類義語辞書によれば、第１の文字列型属性の単語集合に含まれる単語のうち、第２の文字列型属性の単語集合に含まれる単語と意味が類似する単語（つまり、類義語）は、第２の文字列型属性の単語集合に含まれる単語「教育」と意味が類似する単語「指導」、単語「顧客」と意味が類似する単語「客」、単語「ケアレスミス」と意味が類似する単語「ミス」および「誤り」である。この場合、第１の文字列型属性の一致数は８（単語「経験」、「不足」、「指導」、「教育」、「事故」、「客」、「ミス」および「誤り」）となる。

一方、第２の文字列型属性の単語集合に含まれる単語のうち、第１の文字列型属性の単語集合に含まれる単語と完全に一致する単語は、単語「経験」、「教育」、「不足」および「事故」である。また、上記した類義語辞書によれば、第２の文字列型属性の単語集合に含まれる単語のうち、第１の文字列型属性の単語集合に含まれる単語と意味が類似する単語（つまり、類義語）は、第１の文字列型属性の単語集合に含まれる単語「指導」と意味が類似する単語「教育」と、単語「客」と意味が類似する単語「顧客」と、単語「ミス」および「誤り」と意味が類似する単語「ケアレスミス」である。この場合、第２の文字列型属性の一致数は６（単語「経験」、「教育」、「不足」、「顧客」、「事故」および「ケアレスミス」）となる。例えば単語「教育」および「ケアレスミス」のように、第１の文字列型属性の単語集合に含まれる単語と完全に一致する単語および類似する単語が複数存在する場合には、当該同一の単語は１つとして扱われる。

なお、図２２においては、完全に一致する２つの単語が実線でつながれており、意味が類似する２つの単語が破線でつながれている。

上記したように第１の文字列型属性の単語集合に含まれる単語の数は１１であるため、第１の文字列型属性の単語一致率は８／１１である。また、第２の文字列型属性の単語集合に含まれる単語の数は１０であるため、第２の文字列型属性の単語一致率は６／１０である。

これにより、第１および第２の文字列型属性間の類似度は、８／１１と６／１０との平均値、つまり、（８／１１＋６／１０）／２≒０．６６４と算出される。

再び図１３に戻ると、ステップＳ２５〜Ｓ２７の処理が実行される。なお、このステップＳ２５〜Ｓ２７の処理は、前述した第１の実施形態において説明した通りであるため、その詳しい説明を省略する。

上記したように本実施形態においては、類義語辞書格納部３３４に格納されている類義語辞書を用いることにより２つの文字列型属性間の類似度が算出される際に特定される当該文字列型属性の単語集合間で一致する単語として意味が類似する単語（類義語）が含まれる構成により、前述した第１の実施形態においては当該単語集合間で一致する単語として扱われない単語であっても意味が類似する単語であれば当該一致する単語と同様に扱われるため、当該２つの文字列型属性間の類似度をより適切に算出することが可能となる。

なお、本実施形態においては、２つの文字列型属性間の類似度を算出する（単語集合間で一致する単語の数を特定する）際に類義語辞書を用いるものとして説明したが、前述した第１の実施形態において説明した属性名間の類似度を算出する際に類義語辞書を用いる構成であっても構わない。

以上説明した少なくとも１つの実施形態によれば、任意のデータテーブル間において適切な属性の対応づけを行うことが可能なデータ分析支援装置およびプログラムを提供することができる。

なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。

１０…コンピュータ、２０…外部記憶装置、２２…データテーブル格納部、２３…数値型属性格納部、２４…文字列型属性格納部、２５…数値型属性類似度格納部、２６…文字列型属性類似度格納部、２７…類似属性候補格納部、３１…属性型分類部、３２…数値型属性処理部、３３…文字列型属性処理部、３４…閾値入力部、３５…類似属性候補抽出部、３２１…属性値数値範囲特定部、３２２…属性値数値範囲格納部、３２３…数値型属性類似度算出部、３３１…属性値単語抽出部、３３２…属性値単語集合格納部、３３３…文字列型属性類似度算出部、３３４…類義語辞書格納部、３３５…文字列型属性類似度算出部。

Claims

文字列を含む属性値を有する第１の文字列型属性を含む第１の属性から構成される第１のデータテーブルおよび文字列を含む属性値を有する第２の文字列型属性を含む第２の属性から構成される第２のデータテーブルを予め格納するデータテーブル格納手段と、
前記データテーブル格納手段に格納されている第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性が有する属性値に含まれる文字列を構成する第１の単語を抽出する第１の単語抽出手段と、
前記データテーブル格納手段に格納されている第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性が有する属性値に含まれる文字列を構成する第２の単語を抽出する第２の単語抽出手段と、
前記第１の抽出手段によって抽出された第１の単語および前記第２の抽出手段によって抽出された第２の単語に基づいて、前記第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性および前記第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性の類似度を算出する類似度算出手段と、
前記算出された類似度に基づいて、前記第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性および前記第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性を類似属性候補として抽出する類似属性候補抽出手段と
を具備し、
前記第１のデータテーブルの主キーと前記第２のデータテーブルの主キーとは共通していないことを特徴とするデータ分析支援装置。
前記類似度算出手段は、前記第１の単語の数に対する前記第２の単語と一致する当該第１の単語の数の割合と、前記第２の単語の数に対する前記第１の単語と一致する当該第２の単語の数の割合とに基づいて、前記第１の文字列型属性および前記第２の文字列型属性の類似度を算出することを特徴とする請求項１記載のデータ分析支援装置。
文字列を含む属性値を有する第１の文字列型属性を含む第１の属性から構成される第１のデータテーブルおよび文字列を含む属性値を有する第２の文字列型属性を含む第２の属性から構成される第２のデータテーブルを予め格納するデータテーブル格納手段と、
前記データテーブル格納手段に格納されている第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性が有する属性値に含まれる文字列を構成する第１の単語を抽出する第１の単語抽出手段と、
前記データテーブル格納手段に格納されている第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性が有する属性値に含まれる文字列を構成する第２の単語を抽出する第２の単語抽出手段と、
前記第１の抽出手段によって抽出された第１の単語および前記第２の抽出手段によって抽出された第２の単語に基づいて、前記第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性および前記第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性の類似度を算出する類似度算出手段と、
前記算出された類似度に基づいて、前記第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性および前記第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性を類似属性候補として抽出する類似属性候補抽出手段と
を具備したデータ分析支援装置であって、
前記データテーブル格納手段に格納されている第１のデータテーブルを構成する第１の属性は、複数の第１の文字列型属性を含み、
前記データテーブル格納手段に格納されている第２のデータテーブルを構成する第２の属性は、複数の第２の文字列型属性を含み、
前記第１の単語抽出手段は、前記データテーブル格納手段に格納されている第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性毎に、当該第１の文字列型属性が有する属性値に含まれる文字列を構成する第１の単語を抽出し、
前記第２の単語抽出手段は、前記データテーブル格納手段に格納されている第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性毎に、当該第２の文字列型属性が有する属性値に含まれる文字列を構成する第２の単語を抽出し、
前記類似度算出手段は、前記第１の文字列型属性および前記第２の文字列型属性の組み合わせ毎に、前記第１の単語抽出手段によって抽出された当該第１の文字列型属性が有する属性値に含まれる文字列を構成する第１の単語および前記第２の単語抽出手段によって抽出された当該第２の文字列型属性が有する属性値に含まれる文字列を構成する第２の単語に基づいて、当該第１の文字列型属性および当該第２の文字列型属性の類似度を算出し、
前記類似属性候補抽出手段は、前記第１の文字列型属性および前記第２の文字列型属性の組み合わせ毎に算出された類似度に基づいて、他の第１の文字列型属性および第２の文字列型属性との類似度と比較して互いに類似度が最大となる第１の文字列型属性および第２の文字列型属性を類似属性候補として抽出する
ことを特徴とするデータ分析支援装置。
前記類似度算出手段は、前記第１の単語の数に対する前記第２の単語と一致する当該第１の単語の数の割合と、前記第２の単語の数に対する前記第１の単語と一致する当該第２の単語の数の割合とに基づいて、前記第１の文字列型属性および前記第２の文字列型属性の類似度を算出することを特徴とする請求項３記載のデータ分析支援装置。
文字列を含む属性値を有する第１の文字列型属性を含む第１の属性から構成される第１のデータテーブルおよび文字列を含む属性値を有する第２の文字列型属性を含む第２の属性から構成される第２のデータテーブルを予め格納するデータテーブル格納手段と、
前記データテーブル格納手段に格納されている第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性が有する属性値に含まれる文字列を構成する第１の単語を抽出する第１の単語抽出手段と、
前記データテーブル格納手段に格納されている第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性が有する属性値に含まれる文字列を構成する第２の単語を抽出する第２の単語抽出手段と、
前記第１の抽出手段によって抽出された第１の単語および前記第２の抽出手段によって抽出された第２の単語に基づいて、前記第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性および前記第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性の類似度を算出する類似度算出手段と、
前記算出された類似度に基づいて、前記第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性および前記第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性を類似属性候補として抽出する類似属性候補抽出手段と
を具備したデータ分析支援装置であって、
前記データテーブル格納手段に格納されている第１のデータテーブルを構成する第１の属性は、数値を含む属性値を有する第１の数値型属性を更に含み、
前記データテーブル格納手段に格納されている第２のデータテーブルを構成する第２の属性は、数値を含む属性値を有する第２の数値型属性を更に含み、
前記類似度算出手段は、
前記第１の属性に含まれる第１の数値型属性が有する属性値に含まれる数値の範囲および前記第２の属性に含まれる第２の数値型属性が有する属性値に含まれる数値の範囲に基づいて、当該第１の数値型属性および当該第２の数値型属性の類似度を算出し、
前記類似属性候補抽出手段は、前記算出された前記第１の数値型属性および前記第２の数値型属性の類似度に基づいて、当該第１の数値型属性および当該第２の数値型属性を類似属性候補として抽出する
ことを特徴とするデータ分析支援装置。
前記第１の数値型属性を当該第１の数値型属性が有する属性値に含まれる数値に応じて分類する第１の分類手段と、
前記第２の数値型属性を当該第２の数値型属性が有する属性値に含まれる数値に応じて分類する第２の分類手段と
を更に具備し、
前記類似度算出手段は、前記第１の分類手段および前記第２の分類手段による分類先が同一である前記第１の数値型属性および前記第２の数値型属性の類似度を算出する
ことを特徴とする請求項５記載のデータ分析支援装置。
文字列を含む属性値を有する第１の文字列型属性を含む第１の属性から構成される第１のデータテーブルおよび文字列を含む属性値を有する第２の文字列型属性を含む第２の属性から構成される第２のデータテーブルを予め格納するデータテーブル格納手段を有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成されるデータ分析支援装置において、前記コンピュータによって実行されるプログラムであって、
前記コンピュータに、
前記データテーブル格納手段に格納されている第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性が有する属性値に含まれる文字列を構成する第１の単語を抽出するステップと、
前記データテーブル格納手段に格納されている第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性が有する属性値に含まれる文字列を構成する第２の単語を抽出するステップと、
前記抽出された第１の単語および前記抽出された第２の単語に基づいて、前記第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性および前記第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性の類似度を算出するステップと、
前記算出された類似度に基づいて、前記第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性および前記第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性を類似属性候補として抽出するステップと
を実行させ、
前記第１のデータテーブルの主キーと前記第２のデータテーブルの主キーとは共通していないプログラム。
文字列を含む属性値を有する第１の文字列型属性を含む第１の属性から構成される第１のデータテーブルおよび文字列を含む属性値を有する第２の文字列型属性を含む第２の属性から構成される第２のデータテーブルを予め格納するデータテーブル格納手段を有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成されるデータ分析支援装置において、前記コンピュータによって実行されるプログラムであって、
前記コンピュータに、
前記データテーブル格納手段に格納されている第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性が有する属性値に含まれる文字列を構成する第１の単語を抽出するステップと、
前記データテーブル格納手段に格納されている第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性が有する属性値に含まれる文字列を構成する第２の単語を抽出するステップと、
前記抽出された第１の単語および前記抽出された第２の単語に基づいて、前記第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性および前記第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性の類似度を算出するステップと、
前記算出された類似度に基づいて、前記第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性および前記第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性を類似属性候補として抽出するステップと
を実行させ、
前記データテーブル格納手段に格納されている第１のデータテーブルを構成する第１の属性は、複数の第１の文字列型属性を含み、
前記データテーブル格納手段に格納されている第２のデータテーブルを構成する第２の属性は、複数の第２の文字列型属性を含み、
前記第１の単語を抽出するステップは、前記データテーブル格納手段に格納されている第１のデータテーブルを構成する第１の属性に含まれる第１の文字列型属性毎に、当該第１の文字列型属性が有する属性値に含まれる文字列を構成する第１の単語を抽出し、
前記第２の単語を抽出するステップは、前記データテーブル格納手段に格納されている第２のデータテーブルを構成する第２の属性に含まれる第２の文字列型属性毎に、当該第２の文字列型属性が有する属性値に含まれる文字列を構成する第２の単語を抽出し、
前記類似度を算出するステップは、前記第１の文字列型属性および前記第２の文字列型属性の組み合わせ毎に、前記第１の単語を抽出するステップによって抽出された当該第１の文字列型属性が有する属性値に含まれる文字列を構成する第１の単語および前記第２の単語を抽出するステップによって抽出された当該第２の文字列型属性が有する属性値に含まれる文字列を構成する第２の単語に基づいて、当該第１の文字列型属性および当該第２の文字列型属性の類似度を算出し、
前記類似属性候補として抽出するステップは、前記第１の文字列型属性および前記第２の文字列型属性の組み合わせ毎に算出された類似度に基づいて、他の第１の文字列型属性および第２の文字列型属性との類似度と比較して互いに類似度が最大となる第１の文字列型属性および第２の文字列型属性を類似属性候補として抽出する
ことを特徴とするプログラム。