JP2008059433A - 属性間の部分関係抽出する装置、方法、及びプログラム - Google Patents
属性間の部分関係抽出する装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2008059433A JP2008059433A JP2006237540A JP2006237540A JP2008059433A JP 2008059433 A JP2008059433 A JP 2008059433A JP 2006237540 A JP2006237540 A JP 2006237540A JP 2006237540 A JP2006237540 A JP 2006237540A JP 2008059433 A JP2008059433 A JP 2008059433A
- Authority
- JP
- Japan
- Prior art keywords
- relationship
- partial
- strength
- fields
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 56
- 238000009826 distribution Methods 0.000 claims abstract description 38
- 238000004364 calculation method Methods 0.000 claims description 82
- 238000011156 evaluation Methods 0.000 claims description 68
- 238000000605 extraction Methods 0.000 claims description 44
- 238000012545 processing Methods 0.000 description 42
- 230000006870 function Effects 0.000 description 40
- 230000007246 mechanism Effects 0.000 description 25
- 230000008569 process Effects 0.000 description 22
- 230000010354 integration Effects 0.000 description 19
- 201000010099 disease Diseases 0.000 description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 15
- 206010035664 Pneumonia Diseases 0.000 description 9
- 238000010276 construction Methods 0.000 description 9
- 239000000470 constituent Substances 0.000 description 7
- 239000003814 drug Substances 0.000 description 7
- 238000012937 correction Methods 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 238000011282 treatment Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000007634 remodeling Methods 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 208000035474 group of disease Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000003696 structure analysis method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】 所定の属性についてのfield群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算手段と、所定の属性についてのfield群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算手段と、部分関係強度計算手段により計算されたfield間の部分関係の強さに基づいて、field間の関係を定めるfield間関係設定手段とを備えてなるものである。
【選択図】図1
Description
既知情報を用いてfield間関係を抽出し、この関係を用いてデータ空間をモデリングする技術として、例えばBayesian Networkの学習機能が存在する。この学習機能は非常に一般的な機能であり、これらはある評価基準(MDL,AIC,BIC他)に基づいてfield間の関係の有無を判断しモデルの構築を行うものである。
また、モデルの構築におるfieldの値が多種に及ぶ場合、連続値を取る場合に、それらをまとめる機能が存在する。
但し、既知のシステムにおける「まとめる」という処理は以下の二つのいずれかを意味していた。
1)出現頻度の低いものを「その他」として一つの値にまとめる。
2)値が順列を持つ、あるいは連続する場合に、隣接する値をまとめて属性数が許容範囲以下になるように加工する。
上記二つの問題の影響が特に大きい場合として、極端に属性数が大きく、かつ少頻度の属性が存在し、かつこの少頻度の属性値を取る場合における他fieldとの関係がそれぞれの属性値で異なっている場合を取り上げ、この場合におけるモデル生成処理を用いて、従来機能の動作例を以下に示す。
U.S.Aにおける個人情報DBから年収モデルを作成する処理における出身国の扱いを例にとる。図5に示すデータは、複数のfieldそれぞれに年齢、性別、学歴、出身、家族関係、年収、その他各種の個人情報を一覧したものである。当然のことながら、図6に示すように、大多数のU.S.A出身の人間と、それ以外の多数の国を出身とする少数の人間より構成される。これを元に、年収表現モデルの作成を行うことを考える。
各項目総当りの関係を内包するモデルでは非常に複雑となるため、重要な関係のみを抽出し、図7に示すネットワーク構造をとる関係グラフを作成する。
従って、出身国に代表される自由度の大きい項目(属性数の多い項目)は他の項目の原因として使用され難いという特徴を持つ。また、出身に関しては大多数がU.S.Aであり、当然のことながらU.S.A人員の各種項目の平均は全体の平均に近いところから、図8に示すように出身とその他の関係は薄く表現される。
ここで、この関係の弱さがデータ固有のものであるのか、属性数が過多であることに起因するのかを確認するために、国名を統合することを考える。最も多くのシステムで提供されていると推定される手法としては、出現が低頻度であるものをまとめることである。
図1は本発明の実施の形態の概念を示すブロック図である。
図1の推論用モデル作成装置は、学習データの入力機構(DB)1、モデル学習機構2、評価基準計算機構(全体関係強度計算手段に対応する)3、評価基準計算機構(部分関係強度計算手段に対応する)4、関係強度の類似度計算機構(部分集合構成要素類似度計算機構:第1,第2統手段を構成する)5、部分関係計算対象・条件指定機構(第1,第2,第3指定手段を構成する)6を備え、本装置により作成されたモデルは推論機構7に提供される。
1)少頻度の多数の属性群が存在する場合に実行される「まとめ処理」を回避する。
2)全体関係の評価値ではなく、抽出された部分関係に基づく評価値を用いる(関係有りとする)。
2)事前に基準(絶対値、全体関係評価値との相対値、確度の上昇(見積もり)値、他)を与え、この基準を上回るものが見つかった場合にそれを採用する。
3)最初に発見されたものを採用する。
1)全体を網羅的に、順序良く行なえること。
2)関係評価値の大きい「部分集合」が見つかった場合に、これに対する差分を与えてより大きい評価値の発見を試みる方向を優先すること。
3)field群の属性値分布を見て、最小のものから順に部分集合に組み入れる(分布の大きいものは全体関係の評価値に大きく影響していると考えられるため、その反対側を優先して検索)こと。
なお、この機能は、先の検索対象が全域(全検索)である場合には意味がない(いずれにせよ全部実行するため、実行タイミングが前後するのみで結果には影響しない)。
2)処理時間の短縮化などの理由で、高性能な推論性能を期待しない場合。
3)モデル生成目的が全体像把握であり少数部分(局所)に対する影響は不要とする場合。
以下に、実施の形態1として、U.S.Aにおける個人情報DBを用いた高額所得者の推論について説明する。
ここで出身国とそれ以外の要件の関係を確認すると、図10で示したように、限定した国々を対象とするものであるが、学歴との関係があることがわかる。
しかし、通常処理で計算した場合、出身と学歴の関係の強度は実はそれほど強くはない。
ここではfieldA,B間関係強度測定関数として以下が使用されていると仮定する。
AB間関係強度:f1(A-B間関係有りモデル評価, A-B間関係なしモデル評価)
関係強度閾値:D1(全体record数,属性数:モデルの複雑性に対するペナルティの度合い等で変化する)
特定field間影響部分:f2(全体record数,出現頻度)
f1 = D1+Σ_(each fieldX) Σ_(関係測定対象fieldY) Σ_(XYの属性値の組み合わせ各種)[f2]
f1=MDL( A-B間関係有りモデル)-MDL(A-B間関係なしモデル),
f1=AIC( A-B間関係有りモデル)-AIC(A-B間関係なしモデル)
f1(全体record数,field数,属性数,各属性出現頻度,…)
特定field間影響部分影響度計算修正:f2'=w・f2(部分集合record数,出現頻度)+D2
各項重み:w(全体record数, 部分集合record数)
関係強度閾値D1を考慮した調整値:D2
f1' = D2+Σ_(each fieldX) Σ_(関係測定対象fieldY) Σ_(XYの属性値の組み合わせ各種)[f2']
部分値対全体値の関係強度(群):例)部分値対全体値の関係:(日本+韓国)-学歴でf2計算
部分値対部分値の関係強度(群):例)部分値対部分値の関係:(日本+韓国)-(大卒+高卒)でf2計算
その他(状況に応じて)各種:例)年収モデル等のように目的が定まっている場合には目的field(ここでは年収)との相関度等が考えられる。
先に示した学習データが与えられた場合(ステップS1)の本発明の実施の形態の動作は以下の通りである。
ここでは二つのfield、出身国と学歴の関係判断を例にとる。
このため、一定値(ここでは0とする)未満であれば下記の処理に連続する。
ここでは以下のようになっている。
台湾、イラン : relate2
インド、フランス : relate3
日本、イギリス、ハンガリー : relate5
ニカラグア、コロンビア、エクアドル : relate6
他
2)一定以上のrecord数があるものは部分関係の強度計算において「部分集合」に選択された場合であっても、部分関係の類似度計算の対象とはしないということを、外部より部分集合に属する可能性のある属性値群の一覧を指定(入力)することにより類似度計算の省力化を実現する。
4)部分関係強度計算による「部分集合」抽出と、部分関係の類似度計算(まとめ処理)、抽出された「部分集合」の排他部分によるまとめ処理、を全fieldの属性数が5以下になるまで関係強度閾値D2を一定幅で変化させながら繰り返す。D2が許容範囲外になっても目的を達成不可能な場合には、初期データを対象とした頻度分布によるまとめ(上位4属性+その他)を実行するという指定を行うことにより、属性数の強制削減を実行する。
以上で抽出された関係モデルは、通常の関係強度に基づいたモデルとは異なる構造をとり、通常の関係測定において関係性が薄いとされるfield間に局部的(特定属性間)に存在する関係を抽出し、この関係をモデルに表示させることが可能となる(ステップS11)。
先に説明したとおり、出身と学歴の関係に関して言えば、関係は実はそれほど強くはない。
これは、大多数のU.S.A国民の学歴にばらつきが見られるためである。かつ頻度分布に従って、U.S.Aとそれ以外にした場合には、平均化処理により、高学歴の可能性の高いU.S.A国民と低学歴のそれ以外の出身者という構図になる。
(実施例)
ここでは、簡略化のために、顧客情報が人種、出身、年収、年齢、教育年数より構成されている場合を考える(以下では上記五つをそれぞれfieldと呼ぶ)。また、本来であれば、年収、年齢などは数値であるが、ここでは年収は「高、低」の二種類であり、年齢、教育年数も5種類に分類されているものとする。
年収とそれ以外の関係を示すモデルとして、ここではBayesian Model(あるfieldの値を関係する(=限られた)別のfieldの値から確率的に決定するものである)を考える。
Model構築については、以下のようなモデルを採用する。
2)関係追加:field間に関係があるとした場合に、モデル全体の評価が上がる場合に、その関係を採用する。
3)モデル成長方式:Greedyに成長(これは短時間で最適解に近いものを出すため)
4)評価を上昇させる関係が存在しなくなった時点で成長停止
既存システムにおけるモデル生成は、使用したデータの傾向をまとめるものであるため、少数部分の特性は無視されることが多い。
先に図15で示した「BDe改造の式」に示した計算式によりモデルを構築した場合に抽出された関係は以下のとおりである。
Greedyに関係を追加していく
Nodeに番号をつける
node[0] = 人種
node[1] = 出身
node[2] = 年収
node[3] = 年齢-div5
node[4] = 教育年数-div5
[child,parent] := [1, 0] (最初に見つかったのはnode[1]をnode[0]の子とするものだった)
add scoreDiff_i = 4911.672547034621 (これにより評価値が4911上がった)
[child,parent] := [3, 2] (次に見つかったのはnode[3]をnode[2]の子とするものだった)
add scoreDiff_i = 4120.6223854812415 (評価値が4120上がった)
[child,parent] := [4, 2]
add scoreDiff_i = 4092.57636431673
[child,parent] := [3, 4]
add scoreDiff_i = 1416.8170142548188
[child,parent] := [2, 0]
add scoreDiff_i = 330.7434124116626
[child,parent] := [4, 0]
add scoreDiff_i = 87.20574294828111
node[1] x, , , , ,
node[2] x, , , , ,(node[2]はnode[0]を親とする)
node[3] , , x, , x,(node[3]はnode[2]とnode[4]を親とする)
node[4] x, , x, , ,
ところで、国と年収の関係を見ると実際には高収入な人間の多い国は存在する(図17「国と年収の関係」参照)。これにより、年収の予測において出身国を利用したほうが良いことが推測できる。
全ての国は、A,B,C,D(考慮外)のいずれかに属するものとなる。Gtoup数は最大で要素数(ここでは国の数)であり、最小で2である。
A2)分散依存機械処理:年収との関係で平均国を抽出し(ここで当然USA)これとXX%以内の差異であるものとそうでないもの(上下)に分類
A3)個数依存機械処理:個数の多いものは公知のモデルに影響を与えるはずであるから少数のもの(ここではハンガリー、ホンジュラス、…)の影響に着目
A4)上記の組み合わせ
ここで、XXを変えて繰り返す。ここでは平均が23.9なので(31.58-23.9)/5*n:n=1~5で5回繰り返す。評価xxの高いXXに該当するグループを覚えておく。
ここで、YYを変えて繰り返す。ただし、上記これまで別のもの(ここではハンガリしかない)と類似とされたものは扱い省略する。ここでも、評価yy最大のYYは覚えておく。
[xxを出した際のグループ、yyを出したグループ(重複させない)]
ここではじめて、要素数が2(最低必要数)を超えたので、「それ以外」、を検討外、とする選択肢ができる。
{国:上記grouping}、[人種]、[年収]…に対し、(上記グループわけで順番に)まず普通に評価を再実行する。
[child,parent] := [0, 1]
add scoreDiff_i = 2821.2557579191407
[child,parent] := [1, 4]
add scoreDiff_i = 541.032507935146/*ある状態における出身と教育年数の関係評価値*/
[child,parent] := [4, 2]
add scoreDiff_i = 438.6759072416644
[child,parent] := [2, 3]
add scoreDiff_i = 234.67135951875343
…
Score =2881+541+438+234+…
node[0] = 人種
node[1] = 出身
node[2] = 年収
node[3] = 年齢-div5
node[4] = 教育年数-div5
node[0] , x, , , ,
node[1] , , , , x,/*出身国が教育年数と関係している*/
node[2] , , , x, ,
node[3] , , , , ,
node[4] , , x, , ,
単純にscore541の関係を元のmodelに組み入れると細かすぎるものをみることになる。
そこで新しいモデルの新しい関係を補正した上で、関係の利用を判断する。
Score f1'=D2+w(上の得点群)
教育年数→出身→人種---(A)
という関係において
出身score=541.032507935146
W=933
[child,parent] := [2, 1]
add scoreDiff_i = 4115.2899534634635
[child,parent] := [1, 3]
add scoreDiff_i = 4091.6699646188354
[child,parent] := [4, 0]
add scoreDiff_i = 2135.7989910176548
[child,parent] := [2, 3]
add scoreDiff_i = 1412.705668559298
[child,parent] := [4, 3]
add scoreDiff_i = 883.041889777498
[child,parent] := [0, 1]
add scoreDiff_i = 325.8174577299578
[child,parent] := [0, 3]
add scoreDiff_i = 93.33244284622924
node[0] = 人種
node[1] = 年収
node[2] = 年齢-div5
node[3] = 教育年数-div5
node[4] = 出身
node[0] , x, , x, ,
node[1] , , , x, ,
node[2] , x, , x, ,
node[3] , , , , ,
node[4] x, , , x, ,
人種→出身 & 教育年数→出身(要するに出身が親二つ)---(B)
出身score= 2135+883=3018
W=3018/4115*4911*(28543/47902)=0.733*4911*0.595=2141
これとは別にそもそもこれを元の関係に入れるべきか否かという問題は発生する。
D2=k*max((元モデルの最大関係評価値), k=0, 0.1, 0.2, …0.9
以下、本発明の実施の形態2として、簡易で認識しやすい医療経営モデル提示として、医療事務情報における病名統合処理について説明する。図4は実施の形態2の主要部分を示すフローチャートである。
医療経営モデルを提示する。
最終目標を経営解析(病室の稼働率、利潤等の予測)とする。
まとめられたデータを用いてモデルの作成を行うことにより、上記知識の反映された簡易なモデルを得ることができる。
関係するfield群を結合することによりNetworkを構築し、このNetworkを基に推論処理を実行する。
この際、全fieldの関係を総当りで定義するのはモデル的にも、モデルを用いた推論処理を実行する(際の所要メモリ量と所要時間)上でも望ましくない。
(付記1) 複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出装置であって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算手段と、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算手段と、
前記部分関係強度計算手段により計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定手段と
を備えてなる属性間の部分関係抽出装置。
(付記2) 請求項1に記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段は、前記全体関係強度計算手段により計算された全体関係の強さが所定の閾値以下の場合に前記部分関係の強さを計算することを特徴とする属性間の部分関係抽出装置。
(付記3) 付記1または付記2に記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段は、前記属性値の部分集合を取得する部分集合取得手段を備え、
該部分集合取得手段は、検索対象において全検索を行い、最大の評価値のものを取得することを特徴とする属性間の部分関係抽出装置。
(付記4) 付記1または付記2に記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段は、前記属性値の部分集合を取得する部分集合取得手段を備え、
該部分集合取得手段は、指定検索対象において全検索を行い、最大の部分関係強度のものを取得することを特徴とする属性間の部分関係抽出装置。
(付記5) 付記1または付記2に記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段は、前記属性値の部分集合を取得する部分集合取得手段を備え、
該部分集合取得手段は、所定の基準値を上回る部分関係強度のものを取得することを特徴とする属性間の部分関係抽出装置。
(付記6) 付記1乃至付記5のいずれかに記載の属性間の部分関係抽出装置において、
前記field間関係設定手段は、前記部分関係強度計算手段により計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とする属性間の部分関係抽出装置。
(付記7) 付記1乃至付記6のいずれかに記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段により計算されたfield間の部分関係の強さが所定の閾値以上となる前記部分集合の構成要素であるfield群属性値組み合わせを、複数の集合群に分類し、各分類単位で属性値を統合する第1統合手段を備えることを特徴とする属性間の部分関係抽出装置。
(付記8) 付記1乃至付記7のいずれかに記載の属性間の部分関係抽出装置において、
前記部分関係強度計算手段により計算されたfield間の部分関係の強さが所定の閾値以上となる前記部分集合の排他部分に該当する属性値を一定値に統合する第2統合手段を備えることを特徴とする属性間の部分関係抽出装置。
(付記9) 付記1乃至付記8のいずれかに記載の属性間の部分関係抽出装置において、
複数のfield間それぞれを対象として、各field間に対して採用する関係強度計算方式と採用条件を指定可能とする第1指定手段を備えることを特徴とする属性間の部分関係抽出装置。
(付記10) 付記1乃至付記9のいずれかに記載の属性間の部分関係抽出装置において、
前記部分集合に属する可能性のある属性値群の一覧を指定可能とする第2指定手段を備えることを特徴とする属性間の部分関係抽出装置。
(付記11) 付記7に記載の属性間の部分関係抽出装置において、
前記第1統合手段は、統合における適用条件又は適用順序を指定可能とする第3指定手段を備えることを特徴とする属性間の部分関係抽出装置。
(付記12) 複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法をコンピュータに実行させる属性間の部分関係抽出プログラムであって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップと
を備えてなる属性間の部分関係抽出プログラム。
(付記13) 請求項12に記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップは、前記全体関係強度計算ステップにより計算された全体関係の強さが所定の閾値以下の場合に前記部分関係の強さを計算することを特徴とする属性間の部分関係抽出プログラム。
(付記14) 付記12または付記13に記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップは、前記属性値の部分集合を取得する部分集合取得ステップを備え、
該部分集合取得ステップは、検索対象において全検索を行い、最大の評価値のものを取得することを特徴とする属性間の部分関係抽出プログラム。
(付記15) 付記12または付記13に記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップは、前記属性値の部分集合を取得する部分集合取得ステップを備え、
該部分集合取得ステップは、指定検索対象において全検索を行い、最大の部分関係強度のものを取得することを特徴とする属性間の部分関係抽出プログラム。
(付記16) 付記12または付記13に記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップは、前記属性値の部分集合を取得する部分集合取得ステップを備え、
該部分集合取得ステップは、所定の基準値を上回る部分関係強度のものを取得することを特徴とする属性間の部分関係抽出プログラム。
(付記17) 付記12乃至付記16のいずれかに記載の属性間の部分関係抽出プログラムにおいて、
前記field間関係設定ステップは、前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とする属性間の部分関係抽出プログラム。
(付記18) 付記12乃至付記17のいずれかに記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さが所定の閾値以上となる前記部分集合の構成要素であるfield群属性値組み合わせを、複数の集合群に分類し、各分類単位で属性値を統合する第1統合ステップを備えることを特徴とする属性間の部分関係抽出プログラム。
(付記19) 付記12乃至付記18のいずれかに記載の属性間の部分関係抽出プログラムにおいて、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さが所定の閾値以上となる前記部分集合の排他部分に該当する属性値を一定値に統合する第2統合ステップを備えることを特徴とする属性間の部分関係抽出プログラム。
(付記20) 複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法であって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップと
を備えてなる属性間の部分関係抽出方法。
Claims (5)
- 複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出装置であって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算手段と、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算手段と、
前記部分関係強度計算手段により計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定手段と
を備えてなる属性間の部分関係抽出装置。 - 請求項1に記載の属性間の部分関係抽出装置において、
前記field間関係設定手段は、前記部分関係強度計算手段により計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とする属性間の部分関係抽出装置。 - 複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法をコンピュータに実行させる属性間の部分関係抽出プログラムであって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップと
を備えてなる属性間の部分関係抽出プログラム。 - 請求項3に記載の属性間の部分関係抽出プログラムにおいて、
前記field間関係設定ステップは、前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さが所定の閾値以上の場合に、前記field間の関係として、前記部分集合の間の関係強度をfield間の評価点とし、もしくは部分集合の間の関係の有無を定めることを特徴とする属性間の部分関係抽出プログラム。 - 複数のデータそれぞれが有する複数のfieldにおける属性値と該属性値の出現頻度に基づいて所定のモデルを構成するモデル作成装置における属性間の部分関係抽出方法であって、
所定の属性についての前記field群中に出現する全属性値とその頻度分布を基に、field間の全体関係の強さを計算する全体関係強度計算ステップと、
前記所定の属性についての前記field群中に出現する属性値の部分集合に基づいて、該属性値が属するfield間の部分関係の強さを計算する部分関係強度計算ステップと、
前記部分関係強度計算ステップにより計算されたfield間の部分関係の強さに基づいて、前記field間の関係を定めるfield間関係設定ステップと
を備えてなる属性間の部分関係抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006237540A JP4957127B2 (ja) | 2006-09-01 | 2006-09-01 | 属性間の部分関係抽出する装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006237540A JP4957127B2 (ja) | 2006-09-01 | 2006-09-01 | 属性間の部分関係抽出する装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008059433A true JP2008059433A (ja) | 2008-03-13 |
JP4957127B2 JP4957127B2 (ja) | 2012-06-20 |
Family
ID=39242063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006237540A Expired - Fee Related JP4957127B2 (ja) | 2006-09-01 | 2006-09-01 | 属性間の部分関係抽出する装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4957127B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009266158A (ja) * | 2008-04-30 | 2009-11-12 | Fujitsu Ltd | モデル作成支援システム、モデル作成支援方法、モデル作成支援プログラム |
JP2011209885A (ja) * | 2010-03-29 | 2011-10-20 | Fujitsu Ltd | 作業量見積プログラム、作業量見積方法及び作業量見積装置 |
JP2014533402A (ja) * | 2011-11-11 | 2014-12-11 | クリックテック・インターナショナル・アクチボラゲットQliktech International Ab | 多次元立方体データ構造におけるデータ分析のための方法および装置 |
WO2018042550A1 (ja) * | 2016-08-31 | 2018-03-08 | 株式会社オプティム | 年収提案システム、年収提案方法及びプログラム |
JP2018045571A (ja) * | 2016-09-16 | 2018-03-22 | ヤフー株式会社 | 推定装置、推定方法、及び推定プログラム |
JP2019191782A (ja) * | 2018-04-20 | 2019-10-31 | 富士通株式会社 | 学習用データ生成方法、学習用データ生成プログラムおよびデータ構造 |
WO2023027107A1 (ja) * | 2021-08-25 | 2023-03-02 | 富士フイルム株式会社 | 患者に関する情報を予測する予測装置、予測装置の作動方法およびプログラム |
JP2023159782A (ja) * | 2022-04-20 | 2023-11-01 | ヤフー株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001018689A (ja) * | 1999-07-08 | 2001-01-23 | Honda Motor Co Ltd | 車両の駆動力制御装置 |
JP2001265596A (ja) * | 2000-03-15 | 2001-09-28 | Mitsubishi Electric Corp | データマイニング装置およびデータマイニング方法 |
-
2006
- 2006-09-01 JP JP2006237540A patent/JP4957127B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001018689A (ja) * | 1999-07-08 | 2001-01-23 | Honda Motor Co Ltd | 車両の駆動力制御装置 |
JP2001265596A (ja) * | 2000-03-15 | 2001-09-28 | Mitsubishi Electric Corp | データマイニング装置およびデータマイニング方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009266158A (ja) * | 2008-04-30 | 2009-11-12 | Fujitsu Ltd | モデル作成支援システム、モデル作成支援方法、モデル作成支援プログラム |
JP2011209885A (ja) * | 2010-03-29 | 2011-10-20 | Fujitsu Ltd | 作業量見積プログラム、作業量見積方法及び作業量見積装置 |
US11580085B2 (en) | 2011-11-11 | 2023-02-14 | Qliktech International Ab | Alternate states in associative information mining and analysis |
JP2014533402A (ja) * | 2011-11-11 | 2014-12-11 | クリックテック・インターナショナル・アクチボラゲットQliktech International Ab | 多次元立方体データ構造におけるデータ分析のための方法および装置 |
US9727597B2 (en) | 2011-11-11 | 2017-08-08 | Qliktech International Ab | Dimension limits in information mining and analysis |
US10262017B2 (en) | 2011-11-11 | 2019-04-16 | Qliktech International Ab | Dimension limits in information mining and analysis |
US10366066B2 (en) | 2011-11-11 | 2019-07-30 | Qliktech International Ab | Collaborative data mining and analysis |
US10685005B2 (en) | 2011-11-11 | 2020-06-16 | Qliktech International Ab | Alternate states in associative information mining and analysis |
US11106647B2 (en) | 2011-11-11 | 2021-08-31 | Qliktech International Ab | Dimension limits in information mining and analysis |
US11151107B2 (en) | 2011-11-11 | 2021-10-19 | Qliktech International Ab | Alternate states in associative information mining and analysis |
WO2018042550A1 (ja) * | 2016-08-31 | 2018-03-08 | 株式会社オプティム | 年収提案システム、年収提案方法及びプログラム |
JP2018045571A (ja) * | 2016-09-16 | 2018-03-22 | ヤフー株式会社 | 推定装置、推定方法、及び推定プログラム |
JP2019191782A (ja) * | 2018-04-20 | 2019-10-31 | 富士通株式会社 | 学習用データ生成方法、学習用データ生成プログラムおよびデータ構造 |
JP7067236B2 (ja) | 2018-04-20 | 2022-05-16 | 富士通株式会社 | 機械学習用データ生成方法および機械学習用データ生成プログラム |
WO2023027107A1 (ja) * | 2021-08-25 | 2023-03-02 | 富士フイルム株式会社 | 患者に関する情報を予測する予測装置、予測装置の作動方法およびプログラム |
JP2023159782A (ja) * | 2022-04-20 | 2023-11-01 | ヤフー株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
JP7410209B2 (ja) | 2022-04-20 | 2024-01-09 | Lineヤフー株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4957127B2 (ja) | 2012-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Forecasting seasonal tourism demand using a multiseries structural time series method | |
JP4957127B2 (ja) | 属性間の部分関係抽出する装置、方法、及びプログラム | |
US11405344B2 (en) | Social media influence of geographic locations | |
US9450993B2 (en) | Creating groups of users in a social networking system | |
US8548996B2 (en) | Ranking content items related to an event | |
JP5885875B1 (ja) | データ分析システム、データ分析方法、プログラム、および、記録媒体 | |
US10580025B2 (en) | Micro-geographic aggregation system | |
US10545997B2 (en) | Consensus sequence identification | |
Scherbaum et al. | Exploring the proximity of ground-motion models using high-dimensional visualization techniques | |
JP2014225176A (ja) | 分析システム及び保健事業支援方法 | |
KR101897080B1 (ko) | 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치 | |
US20190065550A1 (en) | Query optimizer for combined structured and unstructured data records | |
Nelson et al. | A measure of association for ordered categorical data in population-based studies | |
JP2016505973A (ja) | 予測モデル生成のためのユーザーインタフェース | |
JP6003637B2 (ja) | 情報処理装置、ノード抽出プログラムおよびノード抽出方法 | |
De Neve et al. | A Mann–Whitney type effect measure of interaction for factorial designs | |
Tate | Indices of social vulnerability to hazards: model uncertainty and sensitivity | |
Radovanović et al. | Making hospital readmission classifier fair–What is the cost? | |
KR101274431B1 (ko) | 설문 정보를 이용한 건강 상태 판단 장치 및 방법, 건강 분류 함수 생성 장치 및 그 방법 | |
Oconnor | Do conditional cash transfers create resilience against poverty? Long-run evidence from Jamaica | |
Li et al. | InterVA4: An R package to analyze verbal autopsy data | |
Moncrieff et al. | Integrating geo web services for a user driven exploratory analysis | |
CN113836313B (zh) | 一种基于图谱的审计信息识别方法与系统 | |
Bakr et al. | Cooperative spatial decision support system for controlling animal diseases outbreaks in Egypt | |
US20230229937A1 (en) | Ai training data creation support system, ai training data creation support method, and ai training data creation support program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120221 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120305 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150330 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |