JP2008059433A

JP2008059433A - 属性間の部分関係抽出する装置、方法、及びプログラム

Info

Publication number: JP2008059433A
Application number: JP2006237540A
Authority: JP
Inventors: Naomi Yoshizawa; 直美吉沢
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-09-01
Filing date: 2006-09-01
Publication date: 2008-03-13
Anticipated expiration: 2026-09-01
Also published as: JP4957127B2

Abstract

【課題】他field群との関係が類似しているものをまとめることにより、モデルが複雑になることを回避しつつ、かつ元データの保持する関係をモデルに反映させることを目的とする。
【解決手段】所定の属性についてのfield群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算手段と、所定の属性についてのfield群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算手段と、部分関係強度計算手段により計算されたfield間の部分関係の強さに基づいて、field間の関係を定めるfield間関係設定手段とを備えてなるものである。
【選択図】図１

Description

本発明は、ある種の推論・シミュレーションシステムにおいて、その推論の基となるモデルの決定を既知の学習データを用いて実施するために、属性間の部分関係抽出する装置、方法、及びプログラムに関する。

なお、本明細書において、「学習データ」とは、それを用いてその特性を表現する何らかのモデル（若しくはモデル式）を構築するためのデータを意味する。以下、本文では特記しない限り「データ」は「学習データ」であることを前提とする。

予測・推論システム、近似値計算システム等の実際に該当する処理を実行することなく結果を見積もるシステムにおいては、そのための前提となるモデルが必要である。

多くの場合（自然・物理法則が利用可能な場合を除けば）このモデル生成は多大な検討労力を要するものになっており、このために近年、既知の情報を用いて同一条件で発生する未来の情報を推定するためのモデルを自動生成する技術が構築されている。

予測・推論の性能はモデル依存となるため、このモデルには既知の情報を端的に把握していることが要求される。また、予測処理における計算負荷、モデルをユーザに提示した場合の認識性を鑑みた場合、可能な限りシンプルであることが望ましい。

このため、既知の情報が内包する特徴を反映し、かつより簡易なモデルを作成する機能が必要となる。

ここで二つの問題がある。一つは、与えられた既知の情報をモデル生成機構がどう認識するかであり、他の一つは、認識した情報を用いてどのようなモデルを生成するかである。

＜モデル生成上の問題>
既知情報を用いてfield間関係を抽出し、この関係を用いてデータ空間をモデリングする技術として、例えばBayesian Networkの学習機能が存在する。この学習機能は非常に一般的な機能であり、これらはある評価基準（MDL,AIC,BIC他）に基づいてfield間の関係の有無を判断しモデルの構築を行うものである。

なお、この「関係の有無」について、本明細書において、「関係が有る」とは、あるfield（群）の値が一意に（もしくは一定範囲内に）決定した場合に、別のfield（群）の属性値それぞれの取る値（あるいはその値をとる確率）が制限される（平均と乖離する）ことを意味する。例えば性別field、学歴field、（大卒の場合の）出身学部field、が存在する場合に、全男子に占める中卒、高卒、大卒の割合と全女子に占める中卒、高卒、大卒の割合はそう変わらない場合には、性別と学歴の関係は薄い（若しくは小さい）、と表現され、工学部卒の女性割合は低い等の偏りが見られる場合には、性別と出身学部の関係は(強いものが)あると表現する。

また、本明細書において、「関係強度」とは、関係の強さを表現する指標であり、単純に2 field間の属性値の偏りから計算可能な場合もあれば、「モデル評価値（field群A- field群B間関係が有る場合）- モデル評価値（field群A- field群B間関係が無い場合）」をfield群A- field群B間の関係強度として使用する場合もある。

さらに、本明細書において、「field」とは、データを構成する1属性を意味するものとする。例えば図５における縦一行（ある調査事項例えば性別、年齢等）を示す。また、「属性値の部分集合」とは、あるfieldが取り得る属性値の中の一部を意味する。また、「部分集合の構成要素」とは、部分集合に属する属性値それぞれを意味する。

この様なモデルにおいてfield間総当りの関係付けを生成させることは、因果関係表現（例えば確率表、確率表現関数）を巨大あるいは複雑にすること、モデルを複雑にすることから、通常は（上記で例示した評価基準を用いたモデリングでは）採用されず、このため、評価値の小さいfield間は関係なしと表現される。

ところが、該当field全体として見た場合は関係が弱くとも、特定値の場合には強力な関係を持つ場合が存在する場合がある。例えば、sample数が少ないが、該当fieldがその値をとる場合に、他のfieldの値が高確率で決定するような場合である。このような関係を「関係なし」とした場合には、推論処理において有益な情報がモデルに反映されないという事態を引き起こす。

<情報認識の問題>
また、モデルの構築におるfieldの値が多種に及ぶ場合、連続値を取る場合に、それらをまとめる機能が存在する。
但し、既知のシステムにおける「まとめる」という処理は以下の二つのいずれかを意味していた。
１）出現頻度の低いものを「その他」として一つの値にまとめる。
２）値が順列を持つ、あるいは連続する場合に、隣接する値をまとめて属性数が許容範囲以下になるように加工する。

このため、まとめ処理対象となる個々の属性値の持つ特性は無視されモデル構築に先立ち消滅する可能性があった。

なお、本明細書において、「属性値」とは、単一レコードのfieldの取る値それぞれを意味する。「男」「女」等の離散値の他、「身長」等の連続値を意味することもある。

<問題発生状況例>
上記二つの問題の影響が特に大きい場合として、極端に属性数が大きく、かつ少頻度の属性が存在し、かつこの少頻度の属性値を取る場合における他fieldとの関係がそれぞれの属性値で異なっている場合を取り上げ、この場合におけるモデル生成処理を用いて、従来機能の動作例を以下に示す。

<データ概要>
U.S.Aにおける個人情報DBから年収モデルを作成する処理における出身国の扱いを例にとる。図５に示すデータは、複数のfieldそれぞれに年齢、性別、学歴、出身、家族関係、年収、その他各種の個人情報を一覧したものである。当然のことながら、図６に示すように、大多数のU.S.A出身の人間と、それ以外の多数の国を出身とする少数の人間より構成される。これを元に、年収表現モデルの作成を行うことを考える。

なお、図６において、色分けは学歴分布（赤色：小学校卒、緑：中学卒、青：高校卒、紫：大学以上）出身国は40に及ぶ。各学歴の占める割合は以上のようにさまざまであることがわかる。

なお、「学習データ」を構成する「データ」とは、ある情報群を示し、例えば、図５（U.S.Aにおける個人情報DB）のような形を取る。図では全てのcell(単一recordの単一field)が埋まっているが、欠損している可能性もある。また、本来複数の意味を持つ情報が統合されて単一fieldに収まっており、事前に各意味単位にfield分割を実施したほうが、後のモデル生成が容易になる可能性もある。

<モデリング>
各項目総当りの関係を内包するモデルでは非常に複雑となるため、重要な関係のみを抽出し、図７に示すネットワーク構造をとる関係グラフを作成する。

関係抽出のためには、各種関係強度の評価式(公知のものとしてはMDL、AIC等が存在する)を利用する。多くの場合、これら評価基準は項目間関係とモデル（項目間相互関係を情報全体としてみたもの）の複雑さを総合的に判断して関係強度を決定する。すなわち関係強度は該当関係を有りとした場合のモデルの複雑性をペナルティとして扱う。

<情報を未加工のまま処理した場合>
従って、出身国に代表される自由度の大きい項目（属性数の多い項目）は他の項目の原因として使用され難いという特徴を持つ。また、出身に関しては大多数がU.S.Aであり、当然のことながらU.S.A人員の各種項目の平均は全体の平均に近いところから、図８に示すように出身とその他の関係は薄く表現される。

<既存データまとめ機能利用>
ここで、この関係の弱さがデータ固有のものであるのか、属性数が過多であることに起因するのかを確認するために、国名を統合することを考える。最も多くのシステムで提供されていると推定される手法としては、出現が低頻度であるものをまとめることである。

この場合、絶対的数量を持つU.S.Aとそれ以外という分け方になる。あるいは、ユーザが陽に意味のある分類を指定する場合、例えば該当国が存在する大陸名で5分類する方法もある。

しかし、上記のまとめ手法は推論処理に置ける影響を考慮したものではない。

例えばデータ特性の一例として、国名と学歴の関係を考察すると、通常のまとめ機能では、図９に示すように、比較的高学歴なU.S.A（もしくは北アメリカ）出身者と低学歴なそれ以外の出身者という認識になる。

しかし、アジア、ヨーロッパにおいては、図１０に示すように、出身国により学歴の偏りが見られることがわかる。

例えば台湾とベトナムをUSA外、もしくはアジアとしてまとめてしまった場合、学歴と出身国の関係がなまってしまうことは一目で判明する。

従って、学歴、もしくは学歴に依存する何らかの情報の予測を必要とする場合に、上記のまとめ方を行った場合には、学習データに該当関係が存在するにもかかわらず、生成されたモデルを用いた予測処理ではその関係を使用できず、予測性能の劣化を引き起こすといった問題を生じていた。

本発明では、他field群との関係が類似しているものをまとめることにより、モデルが複雑になることを回避しつつ、かつ元データの保持する関係をモデルに反映させることを目的とする。これにより高性能な推論モデルの提供を実現する。

上述した課題を解決するため本発明は、複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出装置であって、所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算手段と、前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算手段と、前記部分関係強度計算手段により計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定手段とを備えてなるものである。

また、本発明の属性間の部分関係抽出装置において、前記field間関係設定手段は、前記部分関係強度計算手段により計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とする。

また、本発明は、複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法をコンピュータに実行させる属性間の部分関係抽出プログラムであって、所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップとを備えてなるものである。

また、本発明の属性間の部分関係抽出プログラムにおいて、前記field間関係設定ステップは、前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とするものである。

また、本発明は、複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法であって、所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップとを備えてなるものである。

なお、本発明の実施の形態においては、与えられたデータ中に現れる各fieldの属性値とその出現頻度（若しくは発生確率分布：以下頻度分布、で全者を含意）を基に何らかのモデル（若しくはモデル式パラメータ、近似解導出関数：以下モデル、で全者を含意）を構成する処理において、該学習データに複数のfieldがあり、field間関係の強度に順序、若しくは評価点をつけることが要求される場合（たとえば要求原因としては、例えば以下が考えられる。field数多数のため、処理において全field間の関係を考慮することが困難であり、このため、関係するfield群を何らかの基準に基づいて抽出する作業が必要となる場合、又はあるfieldに対する他のfieldの影響を等価に考えることに問題があり、各fieldの影響を順序付けもしくは得点表記することが必要となる場合）に、学習データ中のfield間関係に着目し、該field群中に出現する全属性値とその頻度分布を基に計算した関係の強さが低い（関係が希薄である）場合であっても、field 上に出現する属性値の「部分集合」（若しくはその頻度分布、平均値の全体と比較した場合の偏り、予測性能への貢献度）を用いて計算した関係が一定閾値（事前に固定、全体関係強度や属性種別数等から自動計算、ユーザ指定、他）より強い場合には該当field間の関係として、「部分集合」間の関係強度をfield間の評価点もしくは「部分集合」間の関係の有無を採用することを特徴とする部分関係抽出装置及びその方法並びにそのプログラムが記載されている。

以上説明したように、本発明によれば、学習データにおいてfield間に部分的に成立する関係を抽出しこれをモデルに採用することにより、この、モデル全体への影響として計測した場合には小さいものの、特定field関係としてみた場合には大きい関係を推論処理に利用することが可能となり、これにより、推論処理性能を向上させることが可能となる。

以下、本発明の実施の形態を図面を用いて説明する。

（実施の形態の概要）
図１は本発明の実施の形態の概念を示すブロック図である。
図１の推論用モデル作成装置は、学習データの入力機構（DB）１、モデル学習機構２、評価基準計算機構（全体関係強度計算手段に対応する）３、評価基準計算機構（部分関係強度計算手段に対応する）４、関係強度の類似度計算機構（部分集合構成要素類似度計算機構：第１,第２統手段を構成する）５、部分関係計算対象・条件指定機構（第１,第２,第３指定手段を構成する）６を備え、本装置により作成されたモデルは推論機構７に提供される。

なお、本装置において、学習データの入力機構１、モデル学習機構２、評価基準計算機構３は、公知のものであり、まとめ可能（類似性あり）とされた属性群のまとめ機能（属性値変換機能の複数回利用でも可能）も含まれている。

以上の構成において、本発明の実施の形態における基本動作として、評価基準（部分関係強度）計算機構を用いた情報抽出処理（部分関係抽処理）について説明する。

これは、学習データに複数のfieldがあり、field間関係の強度に順序、若しくは評価点をつけることが要求される場合に、学習データ中のfield間関係に着目し、該field群中に出現する全属性値とその頻度分布を基に計算した関係の強さが低い（関係が希薄である）場合であっても、field 上に出現する属性値の「部分集合」（若しくはその頻度分布、平均値の全体と比較した場合の偏り、予測性能への貢献度）を用いて計算した関係が一定閾値（事前に固定、全体関係強度や属性種別数等から自動計算、ユーザ指定、他）より強い場合には、該当field間の関係として、「部分集合」間の関係強度をfield間の評価点もしくは「部分集合」間の関係の有無を採用するようにしたものである。

field間関係の強度に順序、若しくは評価点をつけることが要求される場合の要求原因としては、例えば、field数多数のため、処理において全field間の関係を考慮することが困難であり、このため、関係するfield群を何らかの基準に基づいて抽出する作業が必要となる場合、あるfieldに対する他のfieldの影響を等価に考えることに問題があり、各fieldの影響を順序付けもしくは得点表記することが必要となる場合などがある。

すなわち、該部分関係抽出処理は、指定された情報量基準による関係判断処理を上述した「部分集合」のみに着目して再計算することにより新たな関係判断を行い、field全体対field全体の関係に隠れたfieldが特定値を取る場合の別fieldとの関係を抽出する。

関係が抽出されたfield間においては、次の２点により関係が消滅することを回避する。
１）少頻度の多数の属性群が存在する場合に実行される「まとめ処理」を回避する。
２）全体関係の評価値ではなく、抽出された部分関係に基づく評価値を用いる（関係有りとする）。

ただし、上記１）の処理が要求される状況は、該当fieldの属性数が多数であるということを前提としており、このままの状態ではモデルが複雑になることは避けられない。これを回避するための手段については、後述する。

なお、この部分関係抽出処理において、「部分集合」の取り方は複数存在するため、全体関係の評価値を上回る評価値を持つ「部分集合」も複数存在する可能性がある。これに関しては、例えば、次のような手段を用いて一つに特定する。

１）指定検索対象において全検索を行い最大の評価値のものを発見する。
２）事前に基準（絶対値、全体関係評価値との相対値、確度の上昇（見積もり）値、他）を与え、この基準を上回るものが見つかった場合にそれを採用する。
３）最初に発見されたものを採用する。

以上の手段のうちの、いずれを採用するかに関しては、システム特性（特に時間性能と使用可能な仮想空間サイズ）、解析対象となるデータの特性（field数、属性数、レコード数）、を考慮して決定する。

なお、本明細書において、「レコード」とは、データを構成する要素を意味し、ある一つの状態を示したものである。例えば、図５における横一行（調査対象人員1名の情報）が該当する。

また上記項目を二つ以上実装し、ユーザが使用を希望する方式を指示（入力する）する機構と指示された処理を選択実行する機構を用意する方法もある。

更に、上記項目を二つ以上実装した場合には、ユーザからの指示ではなく（あるいはユーザからの指示がなかった場合に）その時点の（あるいはこのための関係プログラムが動作するであろう時間の予測値としての）システム負荷、データ特性を基に使用する手段を判断する機構を備え、この機構が決定した方式を採用する方法もある。

また、「部分集合」の検索順序に関しても、以下のような条件を考慮する。
１）全体を網羅的に、順序良く行なえること。
２）関係評価値の大きい「部分集合」が見つかった場合に、これに対する差分を与えてより大きい評価値の発見を試みる方向を優先すること。
３）field群の属性値分布を見て、最小のものから順に部分集合に組み入れる（分布の大きいものは全体関係の評価値に大きく影響していると考えられるため、その反対側を優先して検索）こと。

これらに関しても、ユーザ指示による手法決定機構は有効である。
なお、この機能は、先の検索対象が全域（全検索）である場合には意味がない（いずれにせよ全部実行するため、実行タイミングが前後するのみで結果には影響しない）。

一方、逆に一定条件を満たす場合にその「部分集合」を採用する場合には有効に機能する（また出力されるモデルの構造へ影響するため、推論性能を左右することになる）。このため、先の検索範囲が全検索以外に決定された場合に、この「部分集合」の検索順序設定を行う等の手法も考えられる。

ここで、上述したモデルが複雑化するのを防止する手段について説明する。

まず、その一つの手段（第１統合手段）として、抽出した「部分集合」の構成要素（field群属性値組み合わせ）を（例えばその傾向により）幾つかの集合群に分類し、各分類単位で属性値を統合する（また必要に応じてこれを新たな学習データとする）ようにしている。

この手段は、抽出された複数の関係から類似関係の成立する属性同士のみを統合することにより、関係を消滅させることなく、属性数の削減を実施するものであり、上述した部分関係抽出処理で抽出された関係により生成されたモデルに適用することができる。

また、モデル生成に先立ち学習データ（既知データ）に統合処理を実施し、この属性統合処理済データを用いてモデル生成を実施するようにすることもできる。

また、他の手段（第２統合手段）としては、取得した「部分集合」の排他部分に該当する属性値を一定値にまとめる（また必要に応じてこれを新たな学習データとする）ようにすることにより達成できる。これもまた属性数の削減によるより単純なモデルの構築に寄与するものである。

この他の手段と前述の手段との差異は、類似関係の確認を行うことなく一括してまとめる点にある。本来であれば類似関係を無視したまとめ処理は本実施の形態が既知の機能における問題として指摘した既知データの保持する関係を消滅させる処理に該当するが、ここではまとめの対象となる属性が上述の部分関係抽出処理において関係を抽出されなかったものに限定されているため、まとめにより消滅する関係が存在せず、まとめによるモデルの単純さによる貢献のみが残る。

以上、従来方式との差異は、関係の有無判断においてfieldの属性値分布をそのまま利用するのではなく、その部分を利用するという概念にある。

さらに、本実施の形態では、本装置の処理範囲の指定を外部からの指示により行なうことを可能とするため、二つ以上の関係強度計算手法が実装されている環境において、複数のfield間それぞれを対象として、本機能の実装モジュール外部（ユーザとの対話を含む）より各field間に対して採用する関係強度計算方式と採用条件を指定（入力）可能（第１指定手段対応）とするようにしている。

また、上述の部分関係抽出処理の実行に先立ち、本機能の実装モジュール外部（ユーザとの対話を含む）より「部分集合」に属する可能性のある属性値群の一覧を指定（入力）可能（第２指定手段対応）とするようにもしている。

本実施の形態は、既知の計算法によるモデル構築では無視されてきた、すなわちモデル全体から見た場合には小さい関係を抽出し該当部分の推論性能を上げるものである。先の例で言えば、本実施の形態を導入したモデルを使用した場合に推論性能の上がる部分とはU.S.A.以外の国の出身者部分に限られる。また当然のことであるが処理時間を必要とする。

従って、次のような理由等により、本実施の形態における上述の処理を回避する方が好ましい場合として以下のような場合がある。

１）モデル生成目的（推論処理における推論対象）とは明らかに無関係（とユーザが既に認識している）なfield間関係の存在が事前に明確になっている（ためにこの部分に置ける部分関係抽出は不要）場合。
２）処理時間の短縮化などの理由で、高性能な推論性能を期待しない場合。
３）モデル生成目的が全体像把握であり少数部分（局所）に対する影響は不要とする場合。

上述の指定入力を可能とすることにより、上述した回避理由がある場合を指定し、効率的な処理を行なうことが可能となる。

このように、本実施の形態においては、学習データに存在するfield群とそれぞれの保持する属性群、状況により前記に加えて属性分布、それぞれのfield間の関係強度、field内特定属性（群）間の関係強度等の提示機能と、どの部分に、どのような条件にある場合に、等に関して外部から指定する機能を提供するものである。

また、本機能を利用する場合であっても、まとめ範囲を指定したい場合が生じる場合がある。

先の例で言えば、少数出身国者に対する予測性能向上のため、上述の部分関係抽出処理において、第１統合手段を用いるが、後々の統計処理を考えて、第２統合手段に関しては利用せず、その他に属する場合には5大陸分割する等の状況がこれに該当する。

また、一定条件（例えば属性数が5以下）を満たす状態に既知データを変換したい場合に本実施の形態を含む複数のまとめ機能それぞれ単体ではこれを実現できず、複数の機能を組み合わせて始めてこれが可能となる場合には、その適用順序、適用条件を指定する機能（第３指定手段対応）が望まれる。

本実施の形態では、第１統合手段又は第２統合手段を含む二つ以上のデータまとめ手法が実装されている環境において、本機能の実装モジュール外部より、またユーザが（対話的に）使用するまとめ手法（とその適用条件、適用順序）を選択可能としている。これは使用可能なまとめ機能一覧を提示し、使用機能をその順序、条件とともに入力する機能を提供するものである。

（実施の形態１）
以下に、実施の形態１として、U.S.Aにおける個人情報DBを用いた高額所得者の推論について説明する。

ここではある米国銀行による優良顧客（高額所得顧客）の囲い込みを例にして考える。富裕層向けお勧め商品を提案するために、全顧客群より高額所得者を抽出することを希望したとする。一般に、住所、年齢、などとは異なり、一般顧客の年収を調査することは困難であるから、既存情報より高額所得者を予測することを考える。

ここで、先にあげたU.S.Aにおける個人情報DBが存在するものとしてこれを参照する。このDBは年齢、性別、身長、体重、学歴、出身国、家族関係、その他各種の個人情報を年収と共に一覧しており、これを用いて作成した年収予測モデルに銀行の保持する顧客情報を適用することにより、該当顧客の年収を予測可能となる。DBは該銀行の年収把握済み集合（ローン顧客など）から作成してもよいし、政府統計など一般に公開されている調査結果を用いてもよい。

<抽出されるべき関係の事前説明>
ここで出身国とそれ以外の要件の関係を確認すると、図１０で示したように、限定した国々を対象とするものであるが、学歴との関係があることがわかる。

例えば、主としてヨーロッパ系、東アジア系の幾つかの国では高学歴の割合が高く、別のヨーロッパ系、南米系ではその割合が低いなどである。

このように、出身国の一部は学歴に一定以上の影響を及ぼしており、学歴は年収に対する強力な影響要因であるため、この出身国・学歴間の関係付けは年収の推定モデルにおいて存在するほうが望ましいと考える。

<既存機能による関係抽出困難の理由>
しかし、通常処理で計算した場合、出身と学歴の関係の強度は実はそれほど強くはない。

まず、国名種類の多さから、モデル化の際に出身fieldが他の要素に与える影響が採用される可能性が低くなっている。この問題を解決するための既存技術として、国から国群への丸め処理が知られているが、丸め処理の判断はユーザにまかされており、単純に考えた場合に実行される地域名称によるまとめ処理、大陸名によるまるめ処理等は、（アジア系、ヨーロッパ系の）学歴の高低を無視して地域名称に変換するために、国名の示す教育の高低情報をつぶすことになる。

また、圧倒的多数のU.S.A国民の学歴にばらつきが見られるため、全体を参照した場合、少数の特定国の学歴（の偏差）の影響が少なく、その意味でも出身国情報のモデルに占める位置は低くなっている。

<抽出法>
ここではfieldA,B間関係強度測定関数として以下が使用されていると仮定する。

（式（１））
AB間関係強度：f1(A-B間関係有りモデル評価, A-B間関係なしモデル評価)
関係強度閾値：D１（全体record数,属性数：モデルの複雑性に対するペナルティの度合い等で変化する）
特定field間影響部分：f2（全体record数,出現頻度）
f1 = D1+Σ_(each fieldX) Σ_(関係測定対象fieldY) Σ_(XYの属性値の組み合わせ各種)[f2]

上式において、f1が一定閾値より大きい場合にはAB間で関係有りと認識する。

ここで、f1はモデル全体が保持するfield間関係を考慮した評価式であり例えば以下の様に計算する。

（既知のモデル評価式利用）
f1＝MDL（ A-B間関係有りモデル）-MDL（A-B間関係なしモデル）,
f1＝AIC（ A-B間関係有りモデル）-AIC（A-B間関係なしモデル）

ここで、MDL(X)はモデルがX状態にある場合のMDL評価値であり、AIC(X)はモデルがX状態にある場合のAIC評価値である。

（独自設定）
f1(全体record数,field数,属性数,各属性出現頻度,…)

これに対し、部分関係強度を以下の計算で算出する。

（式（２））
特定field間影響部分影響度計算修正：f2'=ｗ・f2(部分集合record数,出現頻度)＋D2
各項重み：w(全体record数, 部分集合record数)
関係強度閾値D１を考慮した調整値：D2
f1' = D2+Σ_(each fieldX) Σ_(関係測定対象fieldY) Σ_(XYの属性値の組み合わせ各種)[f2']

以上において、f1'が一定閾値より大きい場合にはAB間で関係有りと認識する。

なお、D2は、１）モデル全体に占める部分関係強度の重要性で変化する場合、２）あらかじめ一意決定する場合、３）元のモデル自由度、部分関係部分自由度、部分関係分類まとめ後の自由度等から自動計算（最も単純な場合には中間値を採用）する場合、４）一定範囲内複数値よりモデル評価が最高になるものを採用する場合等がある。

式（１）のf2の代わりに、式（２）のf2'を利用することにより関係強度計算f1の代わりにf1'を実行する。

元のf2が学習データ全体が存在する場合を計算するのに対し、同様の評価式を使用し、かつ学習データの「部分集合」のみが存在した状況を仮定して計算し、これに本来の学習データ数と「部分集合」record数に基づいた重みｗをかけることにより「部分集合」の関係強度を計算する。

つまり、本来であれば、システムにより与えられた評価式f1を使用した評価を行うところ、f1が小さい場合にf1'を計算するものである。ここで、「ｗ：重み付け」、「D2：下駄」はこの局所的な関係が全体と比較して重要になり過ぎないようにするための補正機能を意味しており、これにより基本式f1を用いた評価部分とのバランスを取ることができる。

なお、本来であれば、式（２）におけるf2は以下を引数とする元の関係強度計算の思想に沿ったものであれば良く、式（１）におけるf2と同一関数である必要は無いが、本文では単純化した場合を提示した。

ここでは、以下の値をとることができる。

全体の関係強度：例）全体の関係：出身国field-学歴fieldに対し関係強度計算を行ったもの。
部分値対全体値の関係強度（群）：例）部分値対全体値の関係：（日本+韓国）-学歴でｆ2計算
部分値対部分値の関係強度（群）：例）部分値対部分値の関係：（日本+韓国）-（大卒＋高卒）でf2計算
その他（状況に応じて）各種：例）年収モデル等のように目的が定まっている場合には目的field（ここでは年収）との相関度等が考えられる。

存在するfield（年齢、性別、学歴、出身国、家族関係、他）それぞれに対して以上の処理を実行し、field値の部分集合と他のfieldの値の関係の有無（関係強度の閾値以上もしくは以下の判定）判断を実行する。対象とするfieldは別途（例えば、無条件に全て、user指定により制限、field値分布が一定条件を満たすものを抽出）決定する。

なお、ここで注意すべきは抽出される関係が複数のfieldを考慮している点である。上記の例でいえば、「日本+韓国」-「大卒＋高卒」の関係を抽出するか否かは、この関係抽出により消滅する「日本」-「家族構成」、「韓国」-「年齢」等の他のfield間の関係の評価と組み合わせて判断される。

以下では、図２に示す概略フローチャートに従って、field出身国とfield学歴の関係強度の測定を例示する。
先に示した学習データが与えられた場合（ステップＳ１）の本発明の実施の形態の動作は以下の通りである。

ここでは、二つ以上の関係強度計算手法が実装されている環境において、複数のfield間夫々を対象とし、外部より各field間に対して採用する関係強度計算方式と採用条件を指定することとし、この「部分集合」に着目した関係判断を、通常計算において関係なしとされたfield間に限定して実行することが指定されているものとする。

通常のモデル生成機能であれば、各field間関係の強度を測定し（ステップＳ２）、閾値以上の値が得られた場合には（ステップＳ３）、この関係を有りとする（ステップＳ４）。
ここでは二つのfield、出身国と学歴の関係判断を例にとる。

まず全体（出身国）対全体（学歴）の関係強度f1をf2を用いて計測する。そして、一定閾値（ここでは単純に０を採用）以上であれば、以下の処理を継続することなく該当関係を出力対象とする（ステップＳ８以降）。

次に、公知の関係強度評価を行いその値が一定値未満場合（ステップＳ３，ｎ）に全ての関係において部分関係抽出処理を行うことを登録してある。
このため、一定値（ここでは０とする）未満であれば下記の処理に連続する。

例えば、field出身国とfield学歴の関係では全体関係が薄いとされたため、上記既存機能では関係強度は閾値以下となるため、この「部分集合」の関係強度を測定する段階に入る。

次に、一定の関係強度を持つ有用な「部分集合」が存在するか否か、要するにf2よりf2‘が大きくなる「部分集合」が存在するか否かを確認する（ステップＳ５，図３）。ここで、図３は、図２のステップＳ５（field間属性部分集合関係強度測定処理）の詳細を示している。

図３においては、初期設定が行われ（ステップＳ５１）、部分集合を構成する候補一覧が抽出され（ステップＳ５２）、その評価が最大となる部分集合が抽出される（ステップＳ５３〜Ｓ５６）。

これにより関係の評価値が再計算され、field間関係順序が決定される。再計算後関係の評価が閾値以上、あるいは一定順序内に存在する場合にはfield間関係有とされ（ステップＳ６,y）、記録される（ステップＳ７）。

ここでは、出身国-学歴の全体関係は低いものの、台湾、インド等に占める高学歴人員の割合が高い点、メキシコ、ガテマラ、ポルトガル等の学歴が低い点、等に偏差が見られるため、部分集合＝「「台湾、イラン」、「インド、フランス」、「メキシコ、ガテマラ、ポルトガル」、...」を選択するとf2<f2'となることが発見されるため、関係強度の修正が発生し、新たな関係が成立する。生成されるモデルは出身国-学歴間関係を含むものになる。

なお、本実施例において、部分集合の構成要素を事前に限定することも可能である。

例えば、U.S.Aの出現頻度が非常に多数であるために、これは（これを部分集合に含めることにより関係が強くなる場合であっても）独立させたいと希望する場合がある。この場合には、部分集合に属する可能性のある属性値群の一覧を指定し、例えば、部分集合の構成要素からU.S.Aを排除する旨を登録しておく。そして、登録された排除対象一覧を参照し、U.S.Aを含む部分集合の関係評価（f2'）計算を省略する。

こうして、以下の「部分集合」が抽出された状況を考える。

「台湾、インド、イラン、フランス、メキシコ、ガテマラ、ポルトガル、エルサルバドル、日本、イギリス、ハンガリー」

これを、分布状態の類似性を基に分類する。ここで注意すべきは、本発明の実施の形態が複数のfield群の関係を考慮したものとなっており、ここで着目している国名と学歴以外の項目の評価も行っているという点である。

従って、部分関係抽出処理（部分関係強度計算）において抽出された関係は他のfield群との間に存在する関係を消滅させない形で分類処理がなされており、「「台湾、イラン」、「インド、フランス」、「メキシコ、ガテマラ、ポルトガル、エルサルバドル」、「日本、イギリス、ハンガリー」」という表現となっている。

抽出された関係に基づいて、field間関係記録がなされ（ステップＳ８）た後、図１２に示すように、そのまま分類・統合・変名される（ステップＳ９）。
ここでは以下のようになっている。

メキシコ、ガテマラ、ポルトガル、エルサルバドル： relate1
台湾、イラン： relate2
インド、フランス： relate3
日本、イギリス、ハンガリー： relate5
ニカラグア、コロンビア、エクアドル： relate6
他

以上の分類によっても属性値数の減少がはかどらない状況が存在することも多い。本例では、図１２に示したように、分布状態の類似性を基に分類しても国属性数は40台→20台に半減したに過ぎない。

なお、図１２において、色分けは学歴分布を示しており、出身国は21カ国にまとめられている。図中のrelateXは他fieldとの関係が同一傾向を持つ複数の国名をまとめたものである。高学歴の国名がrelate2及びrelate3として、低学歴の国名がrelate1としてまとめられているのがわかる。つまり、relate2、relate3は一見類似しているが、内部判断（他のfieldとの関係に基づく判断）により結果的に分類されたものである。

ここで、本処理は部分関係抽出処理のまとめ処理結果であるが、実際には当該処理や類似度計算処理の使用に先立ち、対象とする属性値群の指定を用いてU.S.Aは「部分集合」の対象外とする、等の指定を行っているため、類似しているにもかかわらず、まとめ処理検討外とされた国名は存在する。また、学歴のみを見ると類似しているがその他のfield群での別のまとめ方による関係がそれより大きいため、まとめ処理を否定される場合も存在する。

従って、より以上の属性数の減少を望む場合には、上記統合処理の対象外となったもの（但し、特異な性質のため独立に存在するべきとされたもの、事前にまとめ機能対象外とユーザが指定したもの、等は除く）を「その他」としてまとめることにより、属性数の減少を実現することができる（ステップＳ１１）。

なお、以上の処理の実行負荷は基本的に各fieldの各属性の値の総当りの相関を取得するに等しく、実稼動に当たっては、事前にある程度の予想をつけ、検索範囲を限定する方が望ましい。

この手段としては以下の手段がある。

１）明らかに関係がないとわかっているfield群をユーザが直接使用範囲を限定する他、既存のクラスタリング、tree等の関係を利用して決定し、各Field間に対して採用する関係強度計算方式と採用条件を指定して「部分集合」の計算対象外とする。
２）一定以上のrecord数があるものは部分関係の強度計算において「部分集合」に選択された場合であっても、部分関係の類似度計算の対象とはしないということを、外部より部分集合に属する可能性のある属性値群の一覧を指定（入力）することにより類似度計算の省力化を実現する。

３）厳密解を求める部分関数計算関数の他、より計算負荷の小さい関係判断関数（例えばMBR影響度計算等）を用意し、計算負荷の小さい関数で一定範囲の値をとった場合のみ部分関数強度を計算する（それ以外は関係無いと認識する）ということを指定し、類似度計算の省力化を実現する。
４）部分関係強度計算による「部分集合」抽出と、部分関係の類似度計算（まとめ処理）、抽出された「部分集合」の排他部分によるまとめ処理、を全fieldの属性数が5以下になるまで関係強度閾値D2を一定幅で変化させながら繰り返す。D2が許容範囲外になっても目的を達成不可能な場合には、初期データを対象とした頻度分布によるまとめ（上位4属性＋その他）を実行するという指定を行うことにより、属性数の強制削減を実行する。

＜推論処理への影響（期待される影響）＞
以上で抽出された関係モデルは、通常の関係強度に基づいたモデルとは異なる構造をとり、通常の関係測定において関係性が薄いとされるfield間に局部的（特定属性間）に存在する関係を抽出し、この関係をモデルに表示させることが可能となる（ステップＳ１１）。

またこのモデルを推論処理に利用する場合には、抽出された関係を用いた高精度な推論が可能となる。
先に説明したとおり、出身と学歴の関係に関して言えば、関係は実はそれほど強くはない。
これは、大多数のU.S.A国民の学歴にばらつきが見られるためである。かつ頻度分布に従って、U.S.Aとそれ以外にした場合には、平均化処理により、高学歴の可能性の高いU.S.A国民と低学歴のそれ以外の出身者という構図になる。

しかし、実際にはU.S.A外の国民には教育の偏りが見られ、特にU.S.A平均と比較して非常に高学歴側に分布するものが存在する。学歴が影響を及ぼす項目の推論に当たっては、既存手法ではこれを正しく認識することができない。

なお、この際、単純に強度の低い要素を削除した状態で強度再計算するのみではその影響を正しく判断することはできない。sample数による影響をゆがめてしまうためである。当機能はこの関係を抽出し、これを用いることにより、例えば学歴不明の人間の年収、あるいは学歴を（出身国を用いて）より正しく推論することを可能とする。

当初の関係強度計算で作成されたモデル（図８）は出身と年収の関係が弱かった。これに対し、本実施の形態により作成したモデルでは、図１３に示すように、出身→学歴→年収の関係が表現されており、これにより、USA出身外の顧客の年収推測がより高精度で実現されることになり、富裕層対応商品をより確実に高収入顧客を対象として提案することが可能となる。

すなわち、図１３においては、relate2として高学歴の集団、relate1として低学歴集団を抽出したために、学歴の違いによる影響がモデル上に存続している。図７では出身国による年収への寄与は少なかった（関係は結ばれていなかった）。また、図１０では無益な関係を表現していた。ここでは学歴と正しく関係することにより年収への影響は大きいものとなっており、推論性能（数字に関してはここでは言及しない）の向上に役にたっている。
（実施例）

以下、実施例について、U.S.A内における高額所得者分布のより詳細な把握について説明する。これは、顧客に対する高額金融商品の「お勧め」にあたり、高額所得者のより正確な把握（顧客が高額所得者か否かの判断）を行うものである。

資産管理を依頼されているのではない限り、顧客の資産状態を把握することは難しい。ただし、資産状態は学歴や職種と関係がある傾向にあるため、資産状態と比較的入手可能なそれ以外の情報の蓄積（これをデータとする）より、資産状態を予想し、高額商品をふさわしい（と予想される）相手に勧めることを考える。

以上を目的として、本実施の形態を年収予測装置に適用し、資産状態とそれ以外の情報の関係を抽出する実施例について説明する。

＜取得情報＞
ここでは、簡略化のために、顧客情報が人種、出身、年収、年齢、教育年数より構成されている場合を考える（以下では上記五つをそれぞれfieldと呼ぶ）。また、本来であれば、年収、年齢などは数値であるが、ここでは年収は「高、低」の二種類であり、年齢、教育年数も５種類に分類されているものとする。

この情報の入手元としては国勢調査のようなものを想定する。そして、このような情報を用いて人種、出身（国籍）、年齢、教育年数がわかった場合に、年収を予測するシステムを構築することを考える。銀行はこの結果を用いて、「年収＝高」と予測される客（高額金融商品を買うことができる客）にだけ商品説明をすることにより、営業効率を上げることが可能となる。

＜公知システム概要＞
年収とそれ以外の関係を示すモデルとして、ここではBayesian Model（あるfieldの値を関係する（=限られた）別のfieldの値から確率的に決定するものである）を考える。
Model構築については、以下のようなモデルを採用する。

１）評価基準：BDe改造
２）関係追加：field間に関係があるとした場合に、モデル全体の評価が上がる場合に、その関係を採用する。
３）モデル成長方式：Greedyに成長（これは短時間で最適解に近いものを出すため）
４）評価を上昇させる関係が存在しなくなった時点で成長停止

なお、評価基準（BDe改造）によれば、あるfieldAの値が別のfieldB,Cの値に依存している場合に、B,CをAの親と呼び、この親子関係に基づいて、図１４（BDe score計算法エラー! 参照元が見つかりません。）の計算式によりモデル全体の評価値を決定する。根本的にはAICの類似物である。MDLと比較すると本来の状態で比較的細かい関係をとることができる。これは、モデルの複雑性に対するペナルティが低いためである。

ただし、この計算式を単純に計算した場合には、浮動小数点数オーバーフロー等の問題が発生するため、今回は図１５に示す「BDe改造の式」を利用した値を提示する。実際にはより正しい値を取得するために、logの加算部分に工夫を凝らすこともある。

＜公知システムの問題＞
既存システムにおけるモデル生成は、使用したデータの傾向をまとめるものであるため、少数部分の特性は無視されることが多い。
先に図１５で示した「BDe改造の式」に示した計算式によりモデルを構築した場合に抽出された関係は以下のとおりである。

初期状態：各field（node）完全独立
Greedyに関係を追加していく
Nodeに番号をつける
node[0] = 人種
node[1] = 出身
node[2] = 年収
node[3] = 年齢-div5
node[4] = 教育年数-div5

評価値を計算する。

（全要素47902）
[child,parent] := [1, 0] （最初に見つかったのはnode[1]をnode[0]の子とするものだった）
add scoreDiff_i = 4911.672547034621 （これにより評価値が4911上がった）
[child,parent] := [3, 2] （次に見つかったのはnode[3]をnode[2]の子とするものだった）
add scoreDiff_i = 4120.6223854812415 （評価値が4120上がった）
[child,parent] := [4, 2]
add scoreDiff_i = 4092.57636431673
[child,parent] := [3, 4]
add scoreDiff_i = 1416.8170142548188
[child,parent] := [2, 0]
add scoreDiff_i = 330.7434124116626
[child,parent] := [4, 0]
add scoreDiff_i = 87.20574294828111

ここで関係強度閾値D１=0（と今回は設定）を超える評価値が見つからなくなったのでモデル生成をやめる。

Score f1=4911+4120+4092+1416+…(全node完全独立状態と最終状態とのscore差分)

結局モデルは以下のようになる。

node[0] , , , , ,（node[0]は親を持たない）
node[1] x, , , , ,
node[2] x, , , , ,（node[2]はnode[0]を親とする）
node[3] , , x, , x,（node[3]はnode[2]とnode[4]を親とする）
node[4] x, , x, , ,

こうして、node[2]：年収、と関係するのはnode[0]：人種、node[3]：年齢、node[4]：教育年数となる。

この関係は構成要素の大多数がUSA出身者であることを考えると統計的には当然のことであるが、少数の海外出身者の傾向は無視されることになる（図１６）。すると、node[2]：年収の予測において、まず、node[0]人種で判断（白人は高く有色人種は低い）、人種がわからない場合には、人種の推定のためにnode[1]国を利用できるが、例えば、台湾人は有色であり、有色は年収が低いという扱いになる（実際には高収入に偏り）。

＜本発明の実施の形態による改善＞
ところで、国と年収の関係を見ると実際には高収入な人間の多い国は存在する（図１７「国と年収の関係」参照）。これにより、年収の予測において出身国を利用したほうが良いことが推測できる。

しかし、ここでは、5fieldのみであったため、人が出身国と年収の関係を把握できたが、大量のデータからこれを判断することは難しい。この少数特性を抽出することを考える。この際、少数に着目するあまり全体を無視することがないよう配慮する。

ここで、部分集合に対する評価と補正を考える。公知の方式により関係のなかったものに本当に関係がないか否かを確認する。総当りで最適解を出すためには長時間を有するので、検索には何らかの優先順位をつける。ユーザからの指示を待っても良いし、機械的に限定しても良い。機械的に実行する場合には、二つのfield間の関係で分散の激しいものを優先する（もし、国と人種の関係が公知の方式で出なければ、分散が激しい＝国により白人だけ、とか黒人だけ、とかいう国がある＝ので真っ先に検査対象になる）、目的から判断する（ここでは年収予測機を作成するので、年収とある属性の関係が当然優先される）などの方法がある。

処理時間を考慮することなく優先するもの（先頭からXX個等）だけをチェックしても良いし、所要時間の指定を取得し、時間内でできる限り順番に実行するというような方法を採用しても良い。

ここでは国と年収の関係で例示する。実際には国、年収、人種等の複数種類で先の評価式を用いてcheckする。

｛国：アメリカ、カナダ、ブラジル、…｝と人種以外関係はなかった。すなわち、評価値が小さかった。それでは、部位分集合では関係が出ないかどうかについて考慮する。

ここで考える部分集合は｛国：groupA, GroupB, GroupC｝である。
全ての国は、A,B,C,D（考慮外）のいずれかに属するものとなる。Gtoup数は最大で要素数（ここでは国の数）であり、最小で２である。

まず部分集合をすべてcheckするか、優先順位をつけて一部をcheckするかを決定する。手段としては以下のようなものがある。

A1）ユーザ指定
A2)分散依存機械処理：年収との関係で平均国を抽出し（ここで当然USA）これとXX%以内の差異であるものとそうでないもの（上下）に分類
A3)個数依存機械処理：個数の多いものは公知のモデルに影響を与えるはずであるから少数のもの（ここではハンガリー、ホンジュラス、…）の影響に着目
A4)上記の組み合わせ

なお、全値を同一集合にまとめることには意味がない。先に式で示したが、BDeの評価式は親の値が特定の値に決まった場合に子の値が決まる確率の変化（平均分布からのずれ）を見ているため、値が一種であることに意味がないからである（100%はどう変化しても100%である）。

そこで部分集合の評価を順番に見ていく。ここでは検索順序としてA3を採用し、groupingの決定にA2を利用する。

１）[（最小個の）ハンガリー（分布31.58%）とこれに（差分XX%で）類似したもの、それ以外]
ここで、XXを変えて繰り返す。ここでは平均が23.9なので(31.58-23.9)/5*n：n=1~5で5回繰り返す。評価xxの高いXXに該当するグループを覚えておく。

２）[ホンジュラス（分布10%）とこれに（差分YY%で）類似したもの、それ以外]
ここで、YYを変えて繰り返す。ただし、上記これまで別のもの（ここではハンガリしかない）と類似とされたものは扱い省略する。ここでも、評価yy最大のYYは覚えておく。

３）[xxを出した際のグループ、yyを出したグループ（重複させない）、それ以外]
[xxを出した際のグループ、yyを出したグループ（重複させない）]
ここではじめて、要素数が2(最低必要数)を超えたので、「それ以外」、を検討外、とする選択肢ができる。

この場合には母集団の個数が「それ以外」分減っているため、先の数式のNijが変化し、分母の変化により公知の方式にそのまま組み入れたのでは問題となる状況になる。補正係数（ゲタによるかさ上げ）が必要になる。

４）[xxを出した際のグループ、yyを出したグループ、zzを出したグループ、それ以外]

計算は公知と同様に実行する。以下は一例である。
｛国：上記grouping｝、[人種]、[年収]…に対し、（上記グループわけで順番に）まず普通に評価を再実行する。

（全要素47902）
[child,parent] := [0, 1]
add scoreDiff_i = 2821.2557579191407
[child,parent] := [1, 4]
add scoreDiff_i = 541.032507935146/*ある状態における出身と教育年数の関係評価値*/
[child,parent] := [4, 2]
add scoreDiff_i = 438.6759072416644
[child,parent] := [2, 3]
add scoreDiff_i = 234.67135951875343
…
Score =2881+541+438+234+…

モデルは
node[0] = 人種
node[1] = 出身
node[2] = 年収
node[3] = 年齢-div5
node[4] = 教育年数-div5
node[0] , x, , , ,
node[1] , , , , x,/*出身国が教育年数と関係している*/
node[2] , , , x, ,
node[3] , , , , ,
node[4] , , x, , ,

となり新しい関係（出身国と教育年数：スコア541）が抽出される。

ところで、これは部分を見ての評価であるため(1)の状況では全体関係を破壊（細かすぎるものしか見なくなる）する要因となる。
単純にscore541の関係を元のmodelに組み入れると細かすぎるものをみることになる。

新しいモデルを採用すると、今度は元のモデルで見られた関係を無視することになる（年収と教育年数の関係が4092より438に落ちていることからもこれがわかる。最悪の場合、消えてしまう＝＝閾値以下になる＝この場合には0以下になる=こともある）。
そこで新しいモデルの新しい関係を補正した上で、関係の利用を判断する。

ユーザが気に入った関係（これまでの経験から予想していた関係）を見つけた時点でそれを採用しても良いが、多くの場合には自動判定を行う。その場合には、

補正式
Score f1'=D2+w(上の得点群)

を利用してf1'が大きいもの、一定以上をとるもので最初に発見されたもの、一定以上をとるもので事前に指定された条件に合致するもの等を採用する。

ここで、w、D2はこのデータの傾向にやユーザの希望（どこまで細かい関係をとりたいか）に応じて決定される補正条件である。wはこの部分集合の規模においてその関係がどの程度重要かを示すものであり、例えば最大強度の関係と比較してその関係がどの程度かを示す。上記の例で言えば、もっとも単純な決定法として、

ｗ (上の得点群)=最大関係と比較した場合の割合*該当モデルのサイズ=541/2821*4911*(47902/47902)＝0.19*4911*1=933

これは、ある部分集合を採用した場合に出現した関係のその部分集合からみた重要性である。

例えば上記の例で言えば、
教育年数→出身→人種---（A）
という関係において
出身score=541.032507935146
W=933

という値が得られるが、これに対し、また別の部分集合に対して計算した場合、

（全要素28543：計算外のrecordが19000件ほどある）
[child,parent] := [2, 1]
add scoreDiff_i = 4115.2899534634635
[child,parent] := [1, 3]
add scoreDiff_i = 4091.6699646188354
[child,parent] := [4, 0]
add scoreDiff_i = 2135.7989910176548
[child,parent] := [2, 3]
add scoreDiff_i = 1412.705668559298
[child,parent] := [4, 3]
add scoreDiff_i = 883.041889777498
[child,parent] := [0, 1]
add scoreDiff_i = 325.8174577299578
[child,parent] := [0, 3]
add scoreDiff_i = 93.33244284622924
node[0] = 人種
node[1] = 年収
node[2] = 年齢-div5
node[3] = 教育年数-div5
node[4] = 出身
node[0] , x, , x, ,
node[1] , , , x, ,
node[2] , x, , x, ,
node[3] , , , , ,
node[4] x, , , x, ,
人種→出身 & 教育年数→出身（要するに出身が親二つ）---(B)
出身score= 2135+883=3018
W=3018/4115*4911*(28543/47902)=0.733*4911*0.595=2141

が得られた場合に、ｗが強力なものは後者（B）の場合であり、入れるのであれば関係（B）を採用すべき、という判定を行う。
これとは別にそもそもこれを元の関係に入れるべきか否かという問題は発生する。

この問題を解決するために概念D2を導入し、足きり材料として利用する。D2により得られるモデルの複雑性が変化する。

一定値に決定してこれを登録することもできるが、複数（人間が比較評価できる程度の少数）のD2を用いて複数のモデルを作成し、ユーザの選択を許す、もしくは予測機として利用するのであれば事前に与えられた学習データを用いた交差検定をそれぞれのモデルを使用して行い、最も性能の良いものを採用する、という手法が順当であると考える。単純にはその関係の強さを元のモデルの強さと比較しすることにより、

f1'=D2+W, f1>max(元モデルの最大関係評価値)で採用と決定し、
D2=k*max((元モデルの最大関係評価値), k=0, 0.1, 0.2, …0.9

等とする手段が考えられる。

なお、今回は簡略化のために部分集合作成対象となったのは国であり、分布の考慮は年収に対してのみ行われたが、一般には部分集合同士の組み合わせや、分布考慮済み集合に対して別の分布を考慮することも行われる。

（実施の形態２）
以下、本発明の実施の形態２として、簡易で認識しやすい医療経営モデル提示として、医療事務情報における病名統合処理について説明する。図４は実施の形態２の主要部分を示すフローチャートである。

＜データ概要＞
医療経営モデルを提示する。
最終目標を経営解析（病室の稼働率、利潤等の予測）とする。

この解析支援を目的として、ここでは入院所要日数（情報を与えられた日時よりの余入院日数）に対する影響モデルの作成処理の一部を例示する（==targetを残入院日数と定める）。

一般に医療費、入院日数に対する最大の影響要因は病名であると信じられており、これは間違いではない。しかし、病名は多岐にわたっており、単一病院における患者の傾向解析を行う場合には、年間に累計した情報程度ではここの病名単位の統計を取るにはたりない。従って、ある程度の分類にまとめる必要がある。なお、この解析では経営問題=日数関係=を対象とするため、同一症例による分類等は必須ではないものとする。

この分類としては、受診診療科、国際疾病分類等が考えられるが、受診診療科に関しては必ずしも病名をまとめていないこと（複合病、小児科の存在）、疾病分類に関しては大分類が問題部位による分類でありその軽重が計れないこと、小分類では病名分類数に近く、単一病院集計では統計上意味のある個数をまとめられないことから、独自のまとめ方が必要となる。

また、薬品、処置に関しても、その種別は非常に多いものとなるため、ユーザによる認識支援を目的とした俗正数削減は有効である。

そこで、この多種に及ぶfield値種別を圧縮し、より簡易なモデルを作成し、ユーザに提示することにより、現状把握を容易にすることを考える。

統合対象を、病名、使用薬品（履歴）、処置（履歴）、とし、学習データのデータベースから取得する（ステップＳ２１）。

ここで、各field間に対して採用する関係強度計算方式と採用条件を指定し、部分集合の抽出対象を病名、使用薬品、処置に限定する（ステップＳ２２）。関係の抽出に当たっては全field（年齢、性別、在院病室所在等のfield群）を考慮するが、例えば年齢、性別に関しては部分集合抽出対象とはしない。

抽出される関係は、例えば[肺炎A,薬品B,処置C,年齢]というものになり、[肺炎A,薬品B,処置C,高齢]等は年齢に関して特定の部分のみを対照とするため、ここでは抽出されない。

Field群｛病名、使用薬品、処置｝に関してはそれぞれの属性と他のfield群との関係を判断し、field群｛年齢、性別、在院病室所在｝に関しては、各fieldそれぞれと他のfield群との関係を判断し部分集合抽出を実行する（ステップＳ２３〜Ｓ２５）。

部分関係強度計算（部分関係抽出）における関係f1としてある入院経過日における残日数の類似状況を採用し、部分関係抽出を行い、これを部分集合構成要素（類似度計算）を用いて属性統合処理を実行する（ステップＳ２６）。

類似度計算を用いると、「肺炎」と称される病名は複数存在するがその一部においてのみ他fieldの傾向の類似性が見られることが抽出できる（例えば、排他的に使用される注射と内服薬の使用期間分類により入院所要日数傾向が異なる等）。これがrelated1などとまとめられるため、ここでは肺炎Ａ等とrenameしてユーザに提示する。

なお、上記肺炎Ａに属する病名群に関しては、先に示した国名統合の様に、その類似度計算をモデル作成処理内部で行うことも可能であるが、これが医療上一般的な知見である場合には、属性値群の一覧を指定可能とし、肺炎Aにまとめられるであろう病名群を指定し、指定病名群のまとめ処理による関係抽出が該当データ上において正当であるか否かを部分関係強度計算（部分関係抽出）もしくは部分集合構成要素（類似度計算）の手法を用いて確認する（指定病名群全体が部分関係強度計算（部分関係抽出）における部分集合として指定病名群を仮定した場合に関係強度がまとめ前より強くなることを確認する、もしくは部分集合構成要素（類似度計算）を用いてこの部分集合全体を1まとめにした状態が生成されることを確認する）、等の方法も考えられる。

この後、同手順を繰り返し、肺炎B、肺炎Cを作成しても良いし、部分集合の排他部分に該当する属性値を一定値にまとめる機能を用いて「その他の肺炎」としてまとめてしまってもよい。
まとめられたデータを用いてモデルの作成を行うことにより、上記知識の反映された簡易なモデルを得ることができる。

以上説明したように、本発明の実施の形態によれば、学習データにおいてfield間に部分的に成立する関係を抽出しこれをモデルに採用することにより、この、モデル全体への影響として計測した場合には小さいものの特定field関係としてみた場合には大きい関係、を推論処理に利用することが可能となり、これにより、推論処理性能を向上させることが可能となる。

既存の機械的かつ単純なデータ数の数え上げにより抽出される関係によりfield間関係が希薄であると判断される（モデルの構成要素として採用する必要が無いと判断される）場合であっても、field間の特定の属性値間に着目するとデータ関係が強力になる状況が存在する。

本発明の実施の形態によれば、このような状況において特定の属性値間の関係を抽出し、抽出された関係を以ってモデル構築を行うことを可能とし、これにより、モデルを用いた推論性能の向上を目指すことができる。

なお、ここでいうモデルに該当するものとして以下を例示しておく。

（Bayesian Network構築）
関係するfield群を結合することによりNetworkを構築し、このNetworkを基に推論処理を実行する。

従って、推論性能はこのNetworkに依存し、関係抽出が重要になる。
この際、全fieldの関係を総当りで定義するのはモデル的にも、モデルを用いた推論処理を実行する（際の所要メモリ量と所要時間）上でも望ましくない。

一般的に知られているこのNetworkの構築方法では、ある情報量基準に基づいた判定を行い、これを基に2 field間の関係の強さを決定し、強いもののみを有効としている。

現在BN構築ツールの情報量基準として一般的に利用されているMDL,AIC等は該当fieldに出現する属性値の分布全体を用いて算出を行うものであり、データの部分集合に対する関係の抽出は実施していない。

また、MBRはfield群の属性値分布とtarget fieldの値の分布を基に該当fieldの影響度（target値との関係の強さ）を決定している（MBR影響度決定）。

この決定処理において、該当field値分布の一部を計算対象外とする、もしくはある特定の値にまとめる等の処理を行うと、現状において出力される影響度とは異なる値が算出され、異なった推論結果が得られる。

元のfieldの計算対象値部分とtargetの関係が充分強ければ、より正確な結果が得られる可能性がある。

また、関係の有無が不明な多数のfieldが存在し、これより関係するfield群のみを抽出してこれをパラメータとする関数式を構築する（モデル式における変数抽出）。このパラメータ決定においても、field間の特定属性値群のみを対象とした関係を抽出することができる。

上述した本発明の実施の形態において、各フローチャートに示したステップを構造解析プログラムとして、コンピュータにより読取り可能な記録媒体に記憶させることによって、構造解析方法をコンピュータに実行させることが可能となる。なお、本発明において、上記コンピュータにより読取り可能な記録媒体は、ＣＤ−ＲＯＭやフレキシブルディスク、ＤＶＤディスク、光磁気ディスク、ＩＣカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。
（付記１）複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出装置であって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算手段と、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算手段と、
前記部分関係強度計算手段により計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定手段と
を備えてなる属性間の部分関係抽出装置。
（付記２）請求項１に記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段は、前記全体関係強度計算手段により計算された全体関係の強さが所定の閾値以下の場合に前記部分関係の強さを計算することを特徴とする属性間の部分関係抽出装置。
（付記３）付記１または付記２に記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段は、前記属性値の部分集合を取得する部分集合取得手段を備え、
該部分集合取得手段は、検索対象において全検索を行い、最大の評価値のものを取得することを特徴とする属性間の部分関係抽出装置。
（付記４）付記１または付記２に記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段は、前記属性値の部分集合を取得する部分集合取得手段を備え、
該部分集合取得手段は、指定検索対象において全検索を行い、最大の部分関係強度のものを取得することを特徴とする属性間の部分関係抽出装置。
（付記５）付記１または付記２に記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段は、前記属性値の部分集合を取得する部分集合取得手段を備え、
該部分集合取得手段は、所定の基準値を上回る部分関係強度のものを取得することを特徴とする属性間の部分関係抽出装置。
（付記６）付記１乃至付記５のいずれかに記載の属性間の部分関係抽出装置において、
前記field間関係設定手段は、前記部分関係強度計算手段により計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とする属性間の部分関係抽出装置。
（付記７）付記１乃至付記６のいずれかに記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段により計算されたfield間の部分関係の強さが所定の閾値以上となる前記部分集合の構成要素であるfield群属性値組み合わせを、複数の集合群に分類し、各分類単位で属性値を統合する第１統合手段を備えることを特徴とする属性間の部分関係抽出装置。
（付記８）付記１乃至付記７のいずれかに記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段により計算されたfield間の部分関係の強さが所定の閾値以上となる前記部分集合の排他部分に該当する属性値を一定値に統合する第２統合手段を備えることを特徴とする属性間の部分関係抽出装置。
（付記９）付記１乃至付記８のいずれかに記載の属性間の部分関係抽出装置において、
複数のfield間それぞれを対象として、各field間に対して採用する関係強度計算方式と採用条件を指定可能とする第１指定手段を備えることを特徴とする属性間の部分関係抽出装置。
（付記１０）付記１乃至付記９のいずれかに記載の属性間の部分関係抽出装置において、
前記部分集合に属する可能性のある属性値群の一覧を指定可能とする第２指定手段を備えることを特徴とする属性間の部分関係抽出装置。
（付記１１）付記７に記載の属性間の部分関係抽出装置において、
前記第１統合手段は、統合における適用条件又は適用順序を指定可能とする第３指定手段を備えることを特徴とする属性間の部分関係抽出装置。
（付記１２）複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法をコンピュータに実行させる属性間の部分関係抽出プログラムであって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップと
を備えてなる属性間の部分関係抽出プログラム。
（付記１３）請求項１２に記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップは、前記全体関係強度計算ステップにより計算された全体関係の強さが所定の閾値以下の場合に前記部分関係の強さを計算することを特徴とする属性間の部分関係抽出プログラム。
（付記１４）付記１２または付記１３に記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップは、前記属性値の部分集合を取得する部分集合取得ステップを備え、
該部分集合取得ステップは、検索対象において全検索を行い、最大の評価値のものを取得することを特徴とする属性間の部分関係抽出プログラム。
（付記１５）付記１２または付記１３に記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップは、前記属性値の部分集合を取得する部分集合取得ステップを備え、
該部分集合取得ステップは、指定検索対象において全検索を行い、最大の部分関係強度のものを取得することを特徴とする属性間の部分関係抽出プログラム。
（付記１６）付記１２または付記１３に記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップは、前記属性値の部分集合を取得する部分集合取得ステップを備え、
該部分集合取得ステップは、所定の基準値を上回る部分関係強度のものを取得することを特徴とする属性間の部分関係抽出プログラム。
（付記１７）付記１２乃至付記１６のいずれかに記載の属性間の部分関係抽出プログラムにおいて、
前記field間関係設定ステップは、前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とする属性間の部分関係抽出プログラム。
（付記１８）付記１２乃至付記１７のいずれかに記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さが所定の閾値以上となる前記部分集合の構成要素であるfield群属性値組み合わせを、複数の集合群に分類し、各分類単位で属性値を統合する第１統合ステップを備えることを特徴とする属性間の部分関係抽出プログラム。
（付記１９）付記１２乃至付記１８のいずれかに記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さが所定の閾値以上となる前記部分集合の排他部分に該当する属性値を一定値に統合する第２統合ステップを備えることを特徴とする属性間の部分関係抽出プログラム。
（付記２０）複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法であって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップと
を備えてなる属性間の部分関係抽出方法。

本発明の実施の形態における概念を説明するブロック図である。本発明の実施の形態１の動作を示すフローチャートである。部分集合関係評価（部分集合類似度計算）を行う動作を示すフローチャートである。本発明の実施の形態２の動作を示すフローチャートである。 U.S.A.における個人情報のデータ例を示す図である。 U.S.A.内個人情報モデルにおける出身分布を示す図である。 U.S.A.内個人情報モデルを示す図である。 U.S.A.内個人情報モデルにおける出身国分布を示す図である。 U.S.A.内個人情報モデルにおける出身国と学歴関係を示す図である。 U.S.A.内個人情報モデルにおける出身と学歴関係を示す図である。本実施の形態において得られるU.S.A.内個人情報モデルにおける出身国と学歴関係を示す図である。本実施の形態におけるU.S.A.内個人情報モデルにおける出身国と学歴関係を示す図である。本実施の形態におけるU.S.A.内個人情報モデルを示す図である。 BDe score計算法を示す図である。 BDe 改造イメージを示す図である。公知システムにおける出身−年収を示す図である。本実施の形態における国と年収の関係を示す図である。

符号の説明

１学習データの入力機構（DB）、２モデル学習機構、３評価基準計算機構（全体関係強度計算手段）、４評価基準計算機構（部分関係強度計算手段）、５関係強度の類似度計算機構（第１,第２統手段）、６部分関係計算対象・条件指定機構（第１,第２,第３指定手段）、７推論機構。

Claims

複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出装置であって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算手段と、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算手段と、
前記部分関係強度計算手段により計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定手段と
を備えてなる属性間の部分関係抽出装置。
請求項１に記載の属性間の部分関係抽出装置において、
前記field間関係設定手段は、前記部分関係強度計算手段により計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とする属性間の部分関係抽出装置。
複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法をコンピュータに実行させる属性間の部分関係抽出プログラムであって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップと
を備えてなる属性間の部分関係抽出プログラム。
請求項３に記載の属性間の部分関係抽出プログラムにおいて、
前記field間関係設定ステップは、前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とする属性間の部分関係抽出プログラム。
複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法であって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップと
を備えてなる属性間の部分関係抽出方法。