JP6061439B2 - データ処理システム、コンピュータ可読の媒体、データ・マイニング結果を分析する方法、データ・モデルを処理する方法(統計技術を使用するデータ・マイニング・モデル解釈、最適化、及びカスタマイゼーション) - Google Patents

データ処理システム、コンピュータ可読の媒体、データ・マイニング結果を分析する方法、データ・モデルを処理する方法(統計技術を使用するデータ・マイニング・モデル解釈、最適化、及びカスタマイゼーション) Download PDF

Info

Publication number
JP6061439B2
JP6061439B2 JP2009268710A JP2009268710A JP6061439B2 JP 6061439 B2 JP6061439 B2 JP 6061439B2 JP 2009268710 A JP2009268710 A JP 2009268710A JP 2009268710 A JP2009268710 A JP 2009268710A JP 6061439 B2 JP6061439 B2 JP 6061439B2
Authority
JP
Japan
Prior art keywords
data
model
test
group
computer system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009268710A
Other languages
English (en)
Other versions
JP2010146554A (ja
Inventor
ジョン・バクスター・ロリンズ
ラマスッブ・ヴェンカテシュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2010146554A publication Critical patent/JP2010146554A/ja
Application granted granted Critical
Publication of JP6061439B2 publication Critical patent/JP6061439B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この開示は、診断尺度および統計的有意性検定を利用する統計技術の使用を通じてデータ・マイニング・モデルを解釈し、最適化し、及びカスタマイズするためのシステムおよび方法に関する。
伝統的な統計方法とデータ・マイニングとは、しばしば、データから結論を引き出すための2つの競い合う方法論として見られている。伝統的な統計学は確率的モデルと仮説検定とに依拠し、データ・マイニングは仮定を行わず、データ駆動される。統計的方法は、確定した診断法をよく定義された文脈で提供する。データ・マイニングは、情報ウェアハウスに存在するデータなど、厳密な統計的実験計画法を用いて編集され得ない大規模な高次元データセットを用いる探求的データ分析及びモデル作成に特によく適している。データ・マイニングはヒューリスティックであってアルゴリズム的に駆動され、有益なパターンを自動的に抽出するように設計される。しかし、パターンは自動的に発見されるので、データ・マイニングは、興味深く見えるけれども顕著に異なる挙動あるいは結果を表さないパターンを発見することがある。
3つの問題がこの文脈において存在する。第1に、高コストのあるいは高価値の決定をすることはデータ・マイニング結果の厳密な解釈を必要とし得る。さらに、データ・マイニング・モデルは、特定のアプリケーションのためにさらにカスタマイズされ、かつ、または、最適化されなければならないことがある。第2に、ビジネス・アプリケーションにデータ・マイニングを埋め込む方向に向かう趨勢は、ビジネス・アナリストが結果を正しく解釈するのを援助する何らかのメカニズムを必要とする。第3に、データ・マイニングがより使用に適するようになるとき、データ・マイニング・プロセスを自動化するという増大するニーズは、埋め込まれた解釈がより頑健で確実であることを必要とする。
現在、これら3つの問題の全てを処理する解決策は存在しない。市販されているデータ・マイニング・ワークベンチ及び他のデータ・マイニング解決策は、変数選択、データ探査、データ準備などのアドホックなオペレーションのための一定の統計的機能性を含むことがある。けれども、統計的機能性のこれらのインプリメンテーションは、上記問題を処理するために統計技術をデータ・マイニングと結合させる具体的な方法論を構成しない。従って、データ・マイニング結果のより頑健な分析に対するニーズが存在する。
本発明は、診断尺度及び統計的有意性検定を用いてデータ・マイニング・オペレーションを評価するためのシステム、方法及びプログラム製品に関する。一実施態様において、データ処理システムがあり、それは、データ・グループがどのように分割され得るかを定義するデータ・モデルに従ってデータ・ウェアハウスからデータをマイニングするためのデータ・マイニング・システムと、定義されたデータ・グループのために診断尺度のセットを計算し統計的有意性検定を実行するデータ・グループ分析システムとを含む。
第2の実施態様において、データ・マイニング結果を分析するためのコンピュータ・プログラム製品が格納されているコンピュータ可読の媒体があり、それは、データ・グループがどのように分割され得るかを定義するデータ・モデルに従ってデータ・ウェアハウスからデータをマイニングするためのプログラム・コードと、定義されたデータ・グループのために診断尺度のセットを計算し統計的有意性検定を実行するプログラム・コードとを含む。
第3の実施態様において、データ・マイニング結果を分析するための方法があり、それは、データ・グループがどのように分割され得るかを定義するデータ・モデルに従ってデータ・ウェアハウスからデータをマイニングすることと、定義されたデータ・グループのために診断尺度のセットを計算し統計的有意性検定を実行することとを含む。
第4の実施態様において、データ・モデルを処理する方法があり、それは、データ・グループがどのように分割され得るかをそれぞれ定義する複数のデータ・モデルに従ってデータ・ウェアハウスからデータをマイニングすることと、該データ・モデルの各々のために1つ以上の診断尺度を計算することと、計算された1つまたは複数の診断尺度の統計的有意性に基づいてデータ・モデルを選択することとを含む。
この発明を用いることの利点は、データ・マイニング結果の質、頑健さ、および確実性を改善すること、高度の統計専門知識でのあるいは高度の統計専門知識無しでのデータ・マイニング結果の解釈を容易にすること、データ・マイニング・モデルを特定アプリケーション向けに最適化しカスタマイズすること、および、オペレーショナル・プロセスにおいてデータ・マイニング結果の自動化された解釈を改善し容易にすることを含む。
本発明の実例となる側面は、本書に記載された問題と、論じられていない他の問題とを解決するように意図されている。
本発明のこれらのおよび他の特徴は、本発明のいろいろな側面についての下記の詳細な説明を添付図面と関連させて検討することからより容易に理解されるであろう。
本発明の実施態様に従うデータ処理システムを有するコンピュータ・システムを描いている。 本発明の実施態様に従う統計的有意性を示すテーブルのセットを描いている。 本発明の実施態様に従うデータ・マイニング・プロセスのための決定木モデルを描いている。 本発明の実施態様に従う統計的有意性を示すテーブルのセットを描いている。 本発明の実施態様に従う統計的有意性を示すテーブルのセットを描いている。
図面は単なる略図に過ぎなくて、本発明の特定のパラメータを描くように意図されていない。図面は、本発明の代表的実施態様だけを描くように意図されていて、従って本発明の範囲を限定するものと解されるべきではない。図面において、同様の番号は同様のエレメントを表す。
図1を参照すると、本発明の実施例に従うデータ処理システム18を有するコンピュータ・システム10が示されている。データ処理システム18は、データ・ウェアハウス34からのデータを分析し処理する任意のデータ処理アプリケーションを含み得る。データ・ウェアハウス34は、任意の目的のために集められあるいは利用される任意のタイプのデータを含むことができて、分散され、かつ、または、遠方に存在することができる。データ処理システム18は例えばメモリ16に格納されたプログラム製品として実現されることができ、それは、プロセッサ12により実行されたとき、コンピュータ・システム10を特定の仕方で動作させる。
データ処理システム18の中央にデータ・マイニング・システム20があり、これは、例えば、グラフィカル・ユーザ・インターフェース(GUI)を介して行われるユーザ入力、他の計算装置またはアプリケーションからのシステム入力などの1つ以上の入力36に応答してデータ・モデル40に基づいてデータ・ウェアハウスから情報をマイニングする。データ・マイニングは、例えば、データ・クレンジング、変換、グループ発見、仮説生成、予測モデリングおよびスコアリング、解釈などを含み得る。データ・マイニングのアプリケーションは多くて、例えば、ビジネスあるいは科学の識見を得ること、業績の重要な測定基準を提供すること、予測、などを含む。
データ処理システム18は自動的事業実施を促進するためにデータ・マイニング・オペレーションの結果を利用する1つ以上のビジネス・プロセス32も含むことができる。例えば、データ・マイニング・オペレーションの結果に基づいて、例えば、ネットワークはネットワーク・トラフィックを最善に経路指定するように動的に設定されることができ、カタログ郵送リストが作成されることができ、健康保険コスト節約方策が提案されることができる。データ処理システム18に統合されて示されてはいるけれども、ビジネス・プロセス32がデータ処理システム18から出力38を受け取る別のシステムとして実現され得ることが分かる。
上記のように、結果を評価する専門家による分析が無ければデータ・マイニング・システムからの結果の効能を測定することはしばしば困難である。この問題に対処するために、データ処理システム18は、統計的有意性処理システム26を用いてデータ・モデル40において定義されたデータ・グループを静的に分析するためのデータ・グループ分析システム22を含む。より具体的には、データ・グループ分析システム22はデータをグループ・レベルで評価する。それは、例えば、データ・グループをデータのセット全体と対照して、あるいは1つ以上の他のデータ・グループと対照して、評価することができる。
例えば、データ・グループ分析システム22は、特定の郵便番号に居住し、所定額より多くを稼ぎ、年齢30未満で去年新車を購入した人の数を、去年新車を購入した30より上の同じグループと対比して調べることができる。これらのデータ・グループについて単に生のデータを提供するほかに、統計的有意性処理システム26は、データ・グループの統計的有意性を測定するために1つ以上の統計プロセスを利用する。例えば、データ・グループ分析システム22は、データ・マイニング・システム20を利用して、30歳より上の736人が新車を購入しなくて55人が購入したのと比べて30歳未満の435人が新車を購入しなくて13人が購入したことを示す生のデータを報告することができる。統計的有意性処理システム26は、この生のデータを分析して、該データがこれらのグループにおいてどのくらい意味があるかに関する尺度を提供する。このようなグループ分割によってデータ・モデル40において定義されているデータがどれくらい統計的に意味があるかを理解することにより、例えば30歳より上の人たちを主にターゲットとして宣伝活動を始めるべきである、考慮するべきもっと良い人口構成グループ分割があるなど、より良いビジネス決定が行われ得る。
従って、統計的有意性処理システム26は、データ・モデル40内での1つまたはそれ以上の異なるグループ分割の効能を測定するために利用され得る。利用され得る例としての統計検定と診断尺度とは、以下でより詳しく記述されるけれども、例えばカイ二乗検定、2標本t検定、マン・ホイットニーU検定、コルモゴロフ・スミルノフ(KS)検定、2標本KS検定などと、効果および関連する信頼区間のサイズを測定するための相対リスクまたはオッズ比などの診断尺度とを含み得る。利用されるべき尺度(1つまたは複数)および検定の具体的タイプは、一般に、データ・タイプと、データ・グループがどのように定義され分析されるかとに基づいて決定されるであろう。
1つ以上のデータ・グループについての尺度が得られたならば、結果は、例えば、さらに分析されるべく出力38として提供され、業績の最善のインジケータを選択あるいは特定するために利用され、格付けされ、データ・マイニング結果をどのように使うかを決定することのできる自動化されたビジネス・プロセス32に供給されるなど、任意の仕方で利用され得る。
さらに、モデル・カスタマイゼーション・システム30は、該結果を利用して、データ・モデル40内のどのパーティションが統計的に最も有意であるかを特定することができる。統計的に有意でないグループは、例えば、将来のオペレーションのためにデータ・モデル40から“切り取られ”得る。より有意なグループはデータ・モデル40においてより高い優先権を与えられ得る。一般的に、データ・モデル40は、ビジネス・ルールのセットに従って特定アプリケーション向けにカスタマイズされ得る。
データ・モデル40をグループ・レベルで分析するほかに、統計的有意性処理システム28を用いてデータ・モデル40自体の統計的有意性を分析するためにモデル分析システム24が設けられ得る。このように、どのデータ・モデル40が全体的に統計的に最も有意な結果を生じさせるかを判定するために異なるデータ・モデル40が比較され得る。モデル最適化システム29は、モデルを最適化することができる。例としての尺度は、例えば、感度、特定性、オッズ比、精度、正予測値、負予測値、などを含む。さらなる詳細は以下で提供される。
データ・マイニング・アルゴリズムにより発見されたデータ・グループの統計的有意性
データ・マイニングにおける主なタスクの1つは、データをクラスタ化あるいは分割して、各グループのメンバが同様の特徴を共有するデータ・グループ、すなわちサブセットまたはクラスタ、とすることである。クラスタ化タスクの結果を解釈することは、所与のクラスタが他の全てのエンティティ(例えば、レコード)あるいは他のクラスタとどのように異なるかを評価することに関して困難であり得る。分類モデルもグループを構築し得るけれども、分類アルゴリズムはクラスタ化アルゴリズムとは異なる仕方で異なる目的のために動作する。データ・グループは、例えば回帰モデル(例えば、レコードを10分位数、4分位数などにより格付けし分割してグループとする)あるいはクエリ(例えば、特定の基準または属性のセットを満たすグループを構築する)などの他のアルゴリズムを用いて構築されることもできる。
データ・グループがどのように構築されるとしても、データ・マイニング結果を解釈することに関する難題の1つは、分割が、解決される問題に対して統計的に意味があるかあるいは適切であるかを判定することである。この第1実施例は、本解決策が、クラスタ化および分類の文脈において断定的変数および数値変数の場合に結果を厳密に解釈するためにどのように使用されるかを説明する。
クラスタ化の例
その顧客維持計画の一部として、クレジット・カード会社は欠落しそうな(自発的に自分の口座を閉じそうな)顧客のプロフィールを発見することに関心を持つことがある。欠落は、Y(イエス)またはN(ノー)という可能な値を有する断定的変数により表される。その探求的研究の一部として、その会社は、クレジット・スコア、支払い遅滞、延滞料支払い、その顧客がクレジット限度を超えたか否か、などの幾つかの顧客クレジット特性に従って顧客を分けるためにクラスタ化アルゴリズムを使用する。会社は9個のクラスタを発見する。会社がそれらのクラスタを特定したならば、次のステップは、特定のクラスタに属する顧客が、そのクラスタに属さない顧客よりもっと欠落しそうか欠落しそうもないかを判定することである。
図2、テーブル1において、興味の対象であるクラスタ50と他の全て52とについての顧客欠落総数が提供されている。これら2グループについてのクラスタ欠落率は、それぞれ、およそ120/616=19%および569/2615=22%であることが分かる。図2、テーブル2に示されている例において、1自由度を有する2×2分割表についてχ統計値を生成するためにカイ二乗(χ)検定:
Figure 0006061439
が適用され得る。この式を用いて、χ統計値が3231*(120*2046−569*496)^2/(616*2615*689*2542)=1.542であると計算することができる。
テーブル3は異なる有意性レベルでのカイ二乗臨界値を示しており、ここで1.542の値は5%有意性レベルにおいても有意ではないということが分かる。この有意性の欠如は、該クラスタが重要なセグメントを現わしていないかもしれないことを示す。
Figure 0006061439
さらに、単純に該2つのグループにおける欠落率の比(a/(a+b))/(c/(c+d))である相対リスクは(120/616)/(569/2615)として計算されて0.89という結果をもたらす。相対リスクなどの診断尺度は、計算に関係する不確実性を示すために信頼区間と共に報告されなければならない。95%信頼区間は下記の式を用いて計算され得る:
相対リスク(RR)についての95%CIについての上限:
Figure 0006061439
オッズ比についての95%CIについての下限:
Figure 0006061439
95%信頼区間(CI)は、上の式を用いて[0.72,1.15]と計算され得る。私たちは、今、このクラスタに関して決定を行うために必要な全ての統計的情報を持っている。このクラスタについては、欠落リスクのあまり大きくない10%低下がある(10%)。95%CI下限および上限は割合に厳しくて、私たちが信頼を得るために追加の情報すなわちより多くのレコードを必要としないかもしれないということを示す。あまり大きくない相対リスク(小さなカイ二乗値で1に近い)は、顧客欠落が母集団の残余において観察されるものとあまり違わないということを示す。9個のクラスタの全てについて、それらのいずれかが母集団の残余あるいは他のいずれかのクラスタ(例えば、ペアワイズ比較)と顧客欠落に関して著しく異なるかどうかを判定するために、評価が実行され得る。
分類例
その顧客分割(例えば、クラスタ化)分析から得られた見識に基づいて、クレジット・カード会社は、該会社が欠落リスクの高い顧客をより良く特定するのに役立つデータ・マイニング・モデルを構築している。この例では、図3に示されている決定木分類モデルがデータセットの入れ子式分割を提供する。決定ノードで分割があれば、そのノードに存する2つのグループにおける差異の有意性に関する質問が、クラスタ化について記載されたのと同様の仕方で処理され得る。
この例では、該クレジット・カード会社は顧客の保有期間(tenure)(彼らの口座がどれくらい長く開いていたか)が欠落に顕著な影響を及ぼすか否かを判定することを望む。図3において、“メンバ保有期間(member tenure)”ノードに存する2つのグループ60,62は、現在残高<7.5、メンバ保有月数<127.5、および顧客年齢≧33.5を有する。問題は、これらの顧客が、その保有期間が21.5ヶ月未満であることに基づいてより欠落しそうか欠落しそうもないかということである。結果としてのデータ64がノード詳細(node details)にも、また図4、テーブル4にも示されている。結果を生成するためにカイ二乗検定が適用され得る。前記のカイ二乗のための式を用いて、カイ二乗値を(557*(45*326−56*130)/(101*456*175*382))=9.88として計算することができ、これは非常に有意な値を示す。テーブル3は異なる有意性レベルにおけるカイ二乗臨界値を示しており、ここで9.88という計算された値が非常に有意であることがわかり、ここでより小さな有意性レベル値はカイ二乗値のより高い有意性を示唆する。
条件付き相対リスクは、上記の式を用いて計算され得る。クラスタ化の例とは違って、ここでは、グループの定義は決定木を構築する時にデータがどのように分割されたかによるので、相対リスクは条件付きである。この場合、相対リスクはRR=(45/101)/(130/456)=1.56と計算される。95%信頼区間の下限および上限は、CIについて上で与えられた式を用いて計算され、[1.005,2.43]である。従って、私たちは、保有期間≧21.5のメンバに比べて保有期間<21.5のメンバについて56%のリスク増大を有する。カイ二乗値は、このリスク差が有意であることを示す。しかし、95%CIの下限は1に近く、それは、より大きな信頼度でリスク増大を確かめるにはもっと多くのレコードが必要であることを示唆する。
数値変数についての優位性検定
これまでに論じられた2つの例は、断定的変数についてのものである。しかしテーブル2またはテーブル5などのデシジョン・テーブルは、年齢、身長、収入などの数値変数について構築され得る。例えば、小売り促進シナリオにおいて、私たちが、クラスタ化を通して2つの興味ある顧客セグメントを特定し、その2つのグループについて観察された年間支出の差異が有意に異なるかどうかを知りたいと仮定しよう。私たちは、その2つのセグメントの間の支出の差が統計的に有意であるか否かを判定するために2標本t検定を実行することができる。もしその2つの母集団における分布が標準的であるとは想定され得ないならば、マン・ホイットニーのU検定(ディストリビューション・フリーでノン・パラメトリックな検定)が実行され得る。
例えば収入などの数値変数の観察された分布が基準分布に従うか否か、あるいは2つの分布が類似するか否かを判定したければ、それぞれ、コルモゴロフ・スミルノフ(KS)検定あるいは2標本KS検定が実行され得る。このように、適切な統計的有意性検定が種々の文脈においてデータ・マイニング・アルゴリズムによるデータ・グループ発見あるいは定義に関連付けられる。
分類結果を評価するための有意性検定
予測モデリングは、データ・マイニングにおける他の1つの主要なタスクである。この第2の例では、クレジット・カード欠落の決定木モデルについての検定結果は図5のテーブル5においてコンフュージョン・マトリックスとして提示されている。そのコンフュージョン・マトリックスは、検定データセットにおける顧客の実際の欠落状態を予測するためにモデルがどれだけ良く実行されたかを示す。
カイ二乗検定を実行した結果として75という計算されたカイ二乗値がもたらされ、該結果は99.9%信頼水準においても非常に有意である。結果の統計的有意性のほかに、感度、特定性、精度、オッズ比、正予測値および負予測値などの診断尺度が計算され得る。これらの診断尺度は大きな実用的価値を有し、医療診断などの分野においては、それらを検定結果と共に報告することは必須である。
図5のテーブル7に示されている計算された診断尺度は、識見と、モデルを評価するための厳密な根拠とを与える。0.69という感度は、クレジット・カード欠落を処理するためには良好であるかもしれないけれども、HIVテストのためには満足なものではないかもしれない。同様に、0.77という特定性は、ハイリスクの観血的外科手術を行う決定あるいは重大な副作用を伴う治療を与える決定が関わる場合には、充分ではないかもしれない。また、低い正予測値は、モデルが多数の誤った正値を生成しがちであるので、もし正値を検定することが高価な決定に帰着するならば、満足なものではないかもしれない、ということを示唆するであろう。診断尺度は、特定文脈向けの決定を厳密に行うのに役立ち得る。
しばしば、探検的分析段階で、幾つかの分類モデルが考慮され、最善の1つが選択される。モデル分析システム24(図1)は、該データ・モデル40を比較する厳密な方法を提供する。カイ二乗検定に密接に関連するマクネマー検定は、2つのモデルの誤分類率の観察された差異が統計的に有意であるか否かを判定するために使用され得る。
これまでに論じられたシングル・クラシファイヤー・モデルの評価と、モデルの比較とは、単決定閾値(a single decision threshold)についてのものであった。各レコードが1つのクラスまたはグループに属する確率スコアを提供するクラシファイヤー・モデルについて、スコアの範囲にわたって閾値選択が行われることができ、各々が診断尺度の異なるセットをもたらす。例えば、決定閾値の範囲全体にわたる感度対(1−特定性)のプロットは受信者動作特性(Receiver Operating Characteristics(ROC))曲線と呼ばれる。ROC曲線は、モデルの全体的評価を提供し、あるいは2つのモデルを比較するために使用され得る。ROC曲線の下の面積(area under the ROC curve(AUC))は、クラシファイヤー・モデルの全体的品質を評価するためのダイアグノスティクとして使用され得る。例えば、AUCについての0.5という値は、そのクラシファイヤーがランダム・クラシファイヤーと同然であることを示唆し、1.0という値はそれを完璧なクラシファイヤーとし、中間の値は統計的有意性のために評価される。ROC曲線を用いて、最適動作点が決定され得、診断尺度が生成され得る。探検段階において、幾つかの競合するクラシファイヤー・モデルが考慮される時、それらのモデルについてROC曲線が生成され得る。その時、それらのモデルが互いに統計的に有意に異なるか否かが判定され得る。ROCアプローチは、自動的データ・マイニングとの関係では不可欠のツールである。
上記のように、記載された実施態様はいろいろな仕方で実現され得る。例えば、それらは既存のソフトウェアに追加機能として組み込まれ得る。このソフトウェアは、データ・マイニング・ワークベンチまたはデータベース中心のツール・スイートであることができ、専門のアナリストにデータ・マイニング・モデル解釈のためのより厳密な能力を与える。
さらに、該特徴は、特定のビジネス問題を処理するように設計されたエンド・ユーザ・アプリケーションまたはツールにおいて実現され得る。例えば、小売り促進のためのアプリケーションは、顧客セグメントを発見するためにデータ・マイニング(クラスタ化)を実行することができる。販売促進は、様々な属性を有する少数の顧客グループを、それらのグループに選択的にアピールするいろいろなマーケティング・チャンネルを用いて、ターゲットとするという目的を有することがある。もしデータ・マイニングが多数のクラスタを生じさせたならば、(実施例1で記載された)クラスタのペアに統計的有意性検定を適用することは、各グループ内になるべく大きな一様性を有する所要数のターゲット・グループを生成するためにクラスタ同士を結合させるための厳密な根拠を提供する。
他の1つのインプリメンテーションは、診断尺度と統計的有意性検定とを用いて一定のリスク・プロフィールを有するサブグループを特定するために決定木に基づいてリスク・モデルをカスタマイズすることであり得る。いったん特定されたならば、特にそのサブグループに適合させられた解決策が開発され得る。例えば、自動車保険リスク・モデルについては、このサブグループは、高価な車を持っているがそれをめったに運転しないオーナーのグループであり得る。このグループをターゲットとするために、より低くてより競争力のある保険料を有する特別の保険プランが開発され得る。他の1つの例として、癌リスク・モデルについては、このサブグループは採炭産業で特定の季節だけ働く炭鉱夫であり得る。本質的に、本発明は、リスク・モデル全体が高次元であるとき、すなわち、そのモデルが多数の説明変数を含むとき、特定のリスク・グループをターゲットとするためのモデル・カスタマイゼーションを可能にする。
さらなる1つの例においては、該特徴は、データ・マイニング結果に適用される一連の分析ステップを自動化ビジネス・プロセスに埋め込むことを通して実現され得る。例えば、自動化プロセスは、新しいデータがデータベースに流入するときにデータ・マイニング・モデルを作りあるいはリフレッシュするためにデータベース常駐のデータ・マイニング機能を使用することができる。そのとき、結果の自動的解釈を実行してその解釈に基づいて自動的処置を取るために統計的有意性検定がマイニング結果に対して自動的に適用され得る。
ビジネス・プロセス最適化における1つのトレンドは、共同して完全でスケーラブルなバーチカル・ソリューションを提供するようにソフトウェアおよびハードウェア・コンポーネントが最適化されるレディートゥゴーの(ready−to−go)特定アプリケーション向け情報機器の開発である。そのような機器の1つの例は、任意にヘルスケア不正分析などのバーチカル・アプリケーションのためのビジネス・インテリジェンス解決策をバランスド・ウェアハウス(balanced warehouse(IBM社の商標))解決策と統合する分析サーバであろう。記載された実施態様のうちの1つ以上が、ビジネス決定を行うためのしっかりした統計的根拠を提供するためにそのような解決策に統合され得る。
以下で、データ・マイニング・アルゴリズムにより特定されたグループ間の差異について検定を行い(すなわち、データ・グループ分析システム22)、競合するモデルのセットから最善の予測モデルを選択する(モデル分析システム24)ための実例としてのアルゴリズムの擬似コードあるいは高レベル自然言語記述が示される。これらの擬似コードは、前に論じられた代表的な使用の場合のためにヒューリスティックスがどのように実行されるかを記述する。
グループ間の差異についての検定のための擬似コード
....興味の対象である変数についてデータ・マイニング・モデルから有意なグループをリストする
FOR TARGET VARIABLE(ターゲット変数について)
LIST SIGNIFICANT GROUPS(TARGET VARIABLE)(有意なグループをリストする(ターゲット変数))
....興味の対象である変数についてデータ・マイニング・モデルから統計的に有意なグループのランク付きリストを生成する
LIST SIGNIFICANT GROUPS(VARIABLE_OF_INTEREST)(有意なグループをリストする(興味の対象である変数))
....グループIにおける興味の対象である変数の分布を母集団の残余におけるそれと比較する
FOR EACH GROUP I, I=1,...,N(各グループI、I=1,..,N,について)
GROUP COMPARISON WITH REST(GROUP I,REST)(残余とのグループ比較(グループI、残余))
COMPUTE STATISTICAL SIGNIFICANCE STATISTIC & DIAGNOSTICS(統計的有意性スタティスティック&ダイアグノスティクスを計算する)
RANK GROUP I BY STATISTIC(グループIをスタティスティックによってランク付けする)
....ペアワイズ比較を行う
FOR ALL GROUPS J>1(J>1の全てのグループについて)
PAIRWISE GROUP COMPARISON(ペアワイズなグループ比較)
(VARIABLE_OF_INTEREST,GROUP I,GROUP J)(興味の対象である変数、グループI、グループJ)
COMPUTE STATISTICAL SIGNIFICANCE STATISTIC,DIAGNOSTICS(統計的有意性スタティスティック、ダイアグノスティクスを計算する)
RANK GROUP J BY STATISTIC(グループJをスタティスティックによりランク付けする)
RETURN STATISTICAL SIGNIFICANCE MEASURES,DIAGNOSTICS FOR BOTH TYPES OF COMPARISON(両タイプの比較のために統計的有意性尺度、ダイアグノスティクスを戻す)
}....グループIにおける興味の対象である変数の分布と母集団の残余におけるそれとのペアワイズ比較を行う)PAIRWISE GROUP COMPARISON(ペアワイズなグループ比較)(VARIABLE_OF_INTEREST,GROUP I,GROUP J)(興味の対象である変数、グループI、グループJ)
{IF VARIABLE_OF_INTEREST IS CATEGORICAL(もし興味の対象である変数が断定的であるならば)
PERFORM CHI−SQUARE TEST(カイ二乗検定を行う)
COMPUTE CHI−SQUARE VALUE,SIGNIFICANT_95%(HIGHLY SIGNIFICANT,SIGNIFICANT,NOT SIGNIFICANT)(カイ二乗値、95%有意を計算する(非常に有意、有意、有意でない))
COMPUTE DIAGNOSTICS、e.g.,ODDS RATIO,95%_CI,REMARKS(例えばオッズ比などのダイアグノスティクス,95%CI、リマークを計算する)
IF VARIABLE_OF_INTEREST IS NUMERICAL(もし興味の対象である変数が数値であるならば)
PERFORM TWO−SANPLE T−TEST(2標本t検定を実行する)
OUTPUT T−Statistic,SIGNIFICANT_95%(HIGHLY SIGNIFICANT,SIGNIFICANT,NOT SIGNIFICANT)(tスタティック、有意性95%(非常に有意、有意、有意でない)を出力する)
OPTIONAL MANN−WHITNEY U STATISTIC(オプションのマン・ホイットニーUスタティスティック
RETURN STATISTICAL SIGNIFICANCE MEASURES,DIAGNOSTICS(統計的有意性尺度、ダイアグノスティクスを戻す)
最善の予測モデルを選択するための擬似コード
....ユーザ指定された選択基準に基づいて最善の予測モデルを選択する
SELECT MODEL(MODEL 1,MODEL 2,...,MODEL N,SELECT_CRITERIA)(モデルを選択する(モデル1、モデル2、...、モデルN、選択基準))
FOR SELECTED_MODEL(選択されたモデルについて)
OUTPUT STATISTICAL SIGNIFICANCE MEASURES & DIAGNOSTICS(統計的有意性尺度&ダイアグノスティクスを出力する)
SELECT MODEL(MODEL 1,MODEL 2,...,MODEL N,SELECT_CRITERIA)(モデルを選択する(モデル1、モデル2、...、モデルN、選択基準))

...ROC技術を用いることにより最善の予測モデルを選択する
SELECT_CRITERIA.MODE GLOBAL(選択基準.モード・グローバル)
GENERATE ROC CURVES(MODEL 1,...,MODEL N)(ROC曲線を生成する(モデル1,...,モデルN))
FOR I=1,...,N(I=1,...,Nについて)
IF AUC_MODEL_I>0.5 AND STATISTICALLY SIGNIFICANT ACCEPT(もしAUCモデルI>0.5で統計的に有意ならば容認する)
ELSE REJECT(そうでなければ拒絶する)
RANK ACCEPTED MODELS BY AUC(容認されたモデルをAUCによりランク付けする)
IF MODEL_WITH_HIGHEST_AUC STATISTICALLY SIGNIFICANTLY DIFFERENT FROM OTHER MODELS(もし最高のAUCを有するモデルが他のモデルと統計的に有意に異なるならば)
IDENTIFY OPTIMAL DECISION_POINT BY SELECT_CRITERIA_WEIGHTS_FOR_DIAGNOSTICS_MEASURES(ダイアグノスティクス尺度についての選択基準ウェイトにより最適決定点を特定する)
RETURN STATISTICAL SIGNIFICANCE MEASURES & DIAGNOSTICS FOR MODEL_WITH_HIGHEST_AUC(最高のAUCを有するモデルについて統計的有意性尺度&ダイアグノスティクスを戻す)
ELSE(そうでなければ)
IDENTIFY OPTIMAL DECISION_POINT BY SELECT_CRITERIA_WEIGHTS_FOR_DIAGNOSTICS_MEASURES FOR MODEL_WITH_HIGHEST_AUC AND MODELS WITH SIMILAR ROC PERFORMANCE(最高のAUCを有するモデルおよび同様のROCパフォーマンスを有するモデルについてダイアグノスティクス尺度についての選択基準ウェイトにより最適決定点を特定する)
RETURN STATISTICAL SIGNIFICANCE MEASURES & DIAGNOSTICS FOR THESE MODELS(これらのモデルについての統計的有意性尺度&ダイアグノスティクスを戻す)
...各モデルを全体的に評価するためにROC曲線を用いるハイブリッド技術を用いることにより最善の予測モデルを選択し、統計的に有意なモデルを容認し、それらの各々について最適決定点を選択し、ダイアグノスティクスを計算し、ユーザ指定されたウェイトを用いて各ダイアグノスティクに重み付けをすることによって総合尺度(an aggregated measure)を構築し、総合尺度を用いてモデルを比較し、統計的有意性について検定をし、最善のモデル(1つまたは複数)を選択する
SELECT_CRITERIA.MODE HYBRID(選択基準.モード・ハイブリッド)
GENERATE ROC CURVES(MODEL 1,...,MODEL N)(ROC曲線を生成する(モデル1、...,モデルN))
FOR I=1,...N(I=1,...Nについて)
IF AUC_MODEL_I>0.5 AND STATISTICALLY SIGNIFICANT(AUCモデルI>0.5で統計的に有意ならば)
IDENTIFY OPTIMAL DECISION_POINT BY SELECT_CRITERIA_WEIGHTS_FOR_DIAGNOSTICS_MEASURES(ダイアグノスティクス尺度についての選択基準ウェイトにより最適決定点を特定する)
COMPARE MODELS USING WEIGHTED DIAGNOSTICS MEASURES,(重み付けされた診断尺度を用いてモデルを比較する、)
TEST FOR STATISTICAL SIGNIFICANCE STORE BEST MODEL(S)(統計的有意性について検定し最善のモデル(1つまたは複数)を格納する)
ELSE REJECT(そうでなければ拒絶する)
RETURN STATISTICAL SIGNIFICANCE MEASURES & DIAGNOSTICS FOR BEST MODEL(S)(最善のモデル(1つまたは複数)について統計的有意性尺度&ダイアグノスティクスを戻す)
...固定された所定決定点でマクネマー検定を用いて最善の予測モデルを選択する
SELECT_CRITERIA.MODE FIXED(選択基準.モード固定)
IF SELECT_CRITERIA.DIAGNOSTIC_TO_RANK ACCURACY(もし選択基準が精度をランク付けするダイアグノスティクならば)
RANK MODELS BY ACCURACY(モデルを精度によりランク付けする)
FOR MODEL WITH HIGHEST ACCURACY(最高の精度を有するモデルについて)
PERFORM PAIRWISE McNEMAR’S TEST(ペアワイズなマクネマー検定を実行する)
IF MODEL WITH HIGHEST ACCURACY STATISTICALLY SIGNIFICANTLY DIFFERENT RETURN STATISTICAL SIGNIFICANCE MEASURES & DIAGNOSTICS FOR MODEL WITH HIGHEST ACCURACY(もし最高の精度を有するモデルが統計的に有意に異なるならば最高の精度を有するモデルについての統計的有意性尺度&ダイアグノスティクスを戻す)
ELSE(そうでなければ)
RETURN STATISTICAL SIGNIFICANCE MEASURES & DIAGNOSTICS FOR MODEL WITH HIGHEST ACCURACY AND STATISTICALLY SIMILAR MODELS(最高の精度を有するモデルおよび統計的に同様のモデルについて統計的有意性尺度&ダイアグノスティクスを戻す)
...前のステップと同様に固定された所定決定点で最善の予測モデルを選択するけれどもモデルをランク付けし比較するために特定の診断尺度または重み付けされた診断尺度を使用する...コードは、重み付けされた診断尺度を用いるランク付けについてだけ示されているけれども、もし特定の診断尺度が選択されたならば構造的に同じであろう
ELSE(そうでなければ)
RANK MODELS USING WEIGHTED DIAGNOSTIC MEASURE(重み付けされた診断尺度を用いてモデルを格付けする)
FOR MODELS WITH HIGHEST RANKING(最高の格付けを有するモデルについて)
PERFORM PAIRWISE STATISTICAL SIGNIFICANCE TEST(ペアワイズな統計的有意性検定を実行する)
IF MODEL WITH HIGHEST RANKING STATISTICALLY SIGNIFICANTLY DIFFERENT RETURN STATISTICAL SIGNIFICANCE MEASURES & DIAGNOSTICS FOR MODEL WITH HIGHEST RANKING(もし最高の格付けを有するモデルが統計的に有意に異なるならば、最高の格付けを有するモデルについての統計的有意性尺度&ダイアグノスティクスを戻す)
ELSE(そうでなければ)
RETURN STATISTICAL SIGNIFICANCE MEASURES & DIAGNOSTICS FOR MODEL WITH HIGHEST RANKING AND STATISTICALLY SIMILAR MODELS(最高の格付けを有するモデルおよび統計的に同様のモデルについての統計的有意性尺度&ダイアグノスティクスを戻す)
図1を再び参照すると、コンピュータ・システム10が任意のタイプの計算インフラストラクチャとして実現され得ることが分かる。コンピュータ・システム10は、一般的に、プロセッサ12と、入出力(I/O)14と、メモリ16と、バス17とを含む。プロセッサ12は、単一の処理装置を含むことができ、あるいは、1つ以上の位置に存する1つ以上の処理装置に、例えばクライアントおよびサーバなどに、分散され得る。メモリ16は、磁気媒体、光媒体、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、データ・キャッシュ、データ・オブジェクトなどを含む任意のタイプのデータ記憶装置を含むことができる。さらに、メモリ16は、1つ以上のタイプのデータ記憶装置を含む単一の物理的位置に存在し得、あるいは種々の形で複数の物理的システムに分散され得る。データ・ウェアハウス34も、1つ以上のタイプのデータ記憶装置を含む単一の物理的位置に存在し得、あるいは種々の形で複数の物理的システムに分散され得る。
I/O14は、外部ソースと情報を交換するための任意のシステムを含み得る。外部装置/リソースは、モニタ/ディスプレイ、スピーカ、記憶装置、他のコンピュータ・システム、ハンドヘルド装置、キーボード、マウス、音声認識システム、音声出力システム、プリンタ、ファクシミリ、ポケットベル、などを含む任意の公知タイプの外部装置を含み得る。バス17は、コンピュータ・システム10の各コンポーネント間の通信リンクを提供し、同様に、電気、光、無線などを含む任意の公知タイプの送信リンクを含み得る。図示されてはいないけれども、キャッシュ・メモリ、通信システム、システム・ソフトウェアなどの付加的なコンポーネントがコンピュータ・システム10に組み込まれ得る。
コンピュータ・システム10へのアクセスは、インターネット、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)、仮想私設通信網(VPN)などのネットワークを介して提供され得る。通信は、配線による直接結合(例えば、シリアル・ポート)を介して、あるいはワイヤライン伝送方法またはワイヤレス伝送方法あるいはその両方の任意の組み合わせを利用し得るアドレス指定可能な接続を介して生じ得る。さらに、トークン・リング、イーサネット、WiFiなどの在来のネットワーク接続性あるいは他の在来の通信標準規格が使用され得る。さらに、接続性は、在来のTCP/IPソケット・ベースのプロトコルによって提供され得る。この例では、インターコネクティビティを確立するためにインターネット・サービス・プロバイダが使用され得る。さらに、上で指摘されたように、通信はクライアント−サーバあるいはサーバ−サーバ環境で生じ得る。
本発明の教示はサブスクリプションまたは料金ベースでビジネス方法として提供され得るということが理解されるべきである。例えば、データ処理システム18を含むコンピュータ・システム10は、顧客のために本書に記載された機能を提供するサービス・プロバイダにより作られ、維持され、かつ、または、展開され得る。すなわち、サービス・プロバイダは、上記のようにデータ・マイニング結果を統計的に分析する能力を展開あるいは提供することを提案することができる。
システムおよび方法として実現される他に、該特徴はコンピュータ可読の媒体に格納されたプログラム製品として提供されることができ、それは、実行されたとき、コンピュータ・システム10がデータ処理システム18を提供することを可能にするということが分かる。この点で、そのコンピュータ可読媒体は、本書に記載されたプロセスおよびシステムを実現するプログラム・コードを含むことができる。“コンピュータ可読の媒体”という用語は、プログラム・コードの任意のタイプの物理的実施態様のうちの1つ以上を含むということが分かる。特に、コンピュータ可読の媒体は、1つ以上の携帯可能な記憶製造物品(例えば、コンパクト・ディスク、磁気ディスク、テープなど)において、メモリ16または記憶システムあるいはその両方などの、計算装置の1つ以上のデータ記憶部分において、かつ、または、(例えば、該プログラム製品の有線/無線電子配布の間)ネットワーク上を進むデータ信号として、具体化されたプログラム・コードを含むことができる。
本書で使用されるとき、“プログラム・コード”および“コンピュータ・プログラム・コード”という用語は、同義であって、情報処理能力を有する計算装置に、直接に、あるいは(a)他の言語、コードまたは記法への変換、(b)異なる材料形での複製、(c)解凍の任意の組み合わせの後に、特定の機能を実行させる命令のセットの任意の言語、コードまたは記法での任意の表現を意味する、ということが分かる。この点で、プログラム・コードは、アプリケーション/ソフトウェア・プログラム、コンポーネント・ソフトウェア/機能のライブラリ、オペレーティング・システム、特定の計算装置またはI/O装置あるいはその両方のための基本I/Oシステム/ドライバなどの1つ以上のタイプのプログラム製品として具体化され得る。さらに、本書で使用される“コンポーネント”および“システム”などの用語は同義であって、何らかの機能(1つまたは複数)を実行することのできるハードウェアまたはソフトウェアあるいはその両方の任意の組み合わせを表すということが分かる。
図中のブロック図は、本発明の種々の実施態様に従うシステム、方法およびコンピュータ・プログラム製品の可能なインプリメンテーションのアーキテクチャ、機能および動作を示す。これに関して、ブロック図中の各ブロックは、明示された論理機能(1つまたは複数)を実行するための1つ以上の実行可能な命令を含むコードのモジュール、セグメント、または部分を表すことができる。ブロック内に記されている機能は図に記されている順序から外れて生じ得るということにも留意するべきである。例えば、連続して示されている2つのブロックは、実際に、実質的に同時に実行されることができ、あるいは該ブロックは、時には関連する機能に応じて逆の順序で実行されることができる。ブロック図の各ブロックは、明示された機能または動作を実行する特別目的のハードウェア・ベースのシステムによって、あるいは特別目的ハードウェアおよびコンピュータ命令の組み合わせによって実行され得るということにも留意するべきである。
ここで特定の実施態様が示され記述されたけれども、示された特定の実施態様の代わりに同じ目的を達成するように計算された任意の装置が使用され得ること、また本発明が他の環境において他の用途を有することを当業者は理解する。本出願は、本発明の任意の改造あるいは変形を含むように意図されている。次の請求項は、本発明の範囲を、ここに記載された特定の実施態様に限定するようには決して意図されていない。
10 コンピュータ・システム
12 プロセッサ
14 I/O
16 メモリ
17 バス
18 データ処理システム
20 データ・マイニング・システム
22 データ・グループ分析システム
24 モデル分析システム
26 統計的有意性処理システム
28 統計的有意性処理システム
29 モデル最適化システム
30 モデル・カスタマイゼーション・システム
32 ビジネス・プロセス
34 データ・ウェアハウス
36 入力
38 出力
40 データ・モデル(1つまたは複数)

Claims (7)

  1. プロセッサと、
    前記プロセッサにより実行されるプログラムを格納するメモリと、
    を含むコンピュータ・システムであって、
    前記プログラムは、前記プロセッサにより実行されると、当該コンピュータ・システムを、
    データ・グループがどのように分割され得るかを定義するデータ・モデルに従ってデータ・ウェアハウスからデータをマイニングするためのデータ・マイニング・システムと、
    定義されたデータ・グループのために診断尺度のセットを計算し統計的有意性検定を実行するデータ・グループ分析システムと、
    複数のデータ・モデルから、ROC曲線を用いて、どのデータ・モデルが統計的に最も有意な結果を生じさせるかを判定することによって最善のデータ・モデルを選択するモデル分析システムと、
    して機能させる、
    コンピュータ・システム
  2. 前記データ・グループ分析システムは第1データ・グループを第2データ・グループと比較し、前記統計的有意性検定は、カイ二乗検定、2標本t検定、マン・ホイットニーU検定、コルモゴロフ・スミルノフ(KS)検定、および2標本KS検定から成るグループから選択され、診断尺度は、効果および関連する信頼区間のサイズを測定するための相対リスクまたはオッズ比を含む、請求項1に記載のコンピュータ・システム
  3. 前記データ・グループ分析システムは、第1データ・グループを他の全てのデータと比較する、請求項1に記載のコンピュータ・システム
  4. 利用され得る統計的検定は、カイ二乗検定、2標本t検定、マン・ホイットニーU検定、コルモゴロフ・スミルノフ(KS)検定、および2標本KS検定から成るグループから選択され、診断尺度は、効果および関連する信頼区間のサイズを測定するための相対リスクまたはオッズ比を含む、請求項1に記載のコンピュータ・システム
  5. 前記データ・グループは、クラスタ化、回帰モデリング、問合せ、決定木モデリングから成るグループから選択された技術を用いて分割される、請求項1に記載のコンピュータ・システム
  6. 前記プログラムは、複数のデータ・グループについての計算された診断尺度および実行された統計的有意性検定のセットに基づいてデータ・グループ分割を洗練するモデル最適化システムをさらに含む、請求項1に記載のコンピュータ・システム
  7. 前記プログラムは、データ・マイニング結果を評価するために診断尺度および統計的有意性検定の前記セットを自動的に使用する少なくとも1つのビジネス・プロセスをさらに含む、請求項6に記載のコンピュータ・システム
JP2009268710A 2008-12-17 2009-11-26 データ処理システム、コンピュータ可読の媒体、データ・マイニング結果を分析する方法、データ・モデルを処理する方法(統計技術を使用するデータ・マイニング・モデル解釈、最適化、及びカスタマイゼーション) Active JP6061439B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/336927 2008-12-17
US12/336,927 US8095498B2 (en) 2008-12-17 2008-12-17 Data mining model interpretation, optimization, and customization using statistical techniques

Publications (2)

Publication Number Publication Date
JP2010146554A JP2010146554A (ja) 2010-07-01
JP6061439B2 true JP6061439B2 (ja) 2017-01-18

Family

ID=42241735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009268710A Active JP6061439B2 (ja) 2008-12-17 2009-11-26 データ処理システム、コンピュータ可読の媒体、データ・マイニング結果を分析する方法、データ・モデルを処理する方法(統計技術を使用するデータ・マイニング・モデル解釈、最適化、及びカスタマイゼーション)

Country Status (2)

Country Link
US (1) US8095498B2 (ja)
JP (1) JP6061439B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572827B2 (en) 2017-08-08 2020-02-25 International Business Machines Corporation Prediction quality assessment

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8694368B2 (en) * 2006-12-08 2014-04-08 American Express Travel Related Services Company, Inc. Method, system, and computer program product for spend mapping tool
US8312324B2 (en) * 2010-01-28 2012-11-13 Xerox Corporation Remote diagnostic system and method based on device data classification
US9002773B2 (en) 2010-09-24 2015-04-07 International Business Machines Corporation Decision-support application and system for problem solving using a question-answering system
US20120191639A1 (en) * 2011-01-26 2012-07-26 International Business Machines Corporation Statistics forecast for range partitioned tables
US9153142B2 (en) 2011-05-26 2015-10-06 International Business Machines Corporation User interface for an evidence-based, hypothesis-generating decision support system
US9135245B1 (en) * 2012-01-09 2015-09-15 Cox Communications, Inc. Filtering content based on acquiring data associated with language identification
US10395215B2 (en) * 2012-10-19 2019-08-27 International Business Machines Corporation Interpretation of statistical results
US20170373988A1 (en) * 2012-12-13 2017-12-28 Nav Technologies, Inc. Systems for proactive modification of resource utilization and demand
US10909561B2 (en) 2013-03-13 2021-02-02 Eversight, Inc. Systems and methods for democratized coupon redemption
US10438230B2 (en) * 2013-03-13 2019-10-08 Eversight, Inc. Adaptive experimentation and optimization in automated promotional testing
US10984441B2 (en) 2013-03-13 2021-04-20 Eversight, Inc. Systems and methods for intelligent promotion design with promotion selection
US9984387B2 (en) 2013-03-13 2018-05-29 Eversight, Inc. Architecture and methods for promotion optimization
US10438231B2 (en) 2013-03-13 2019-10-08 Eversight, Inc. Automatic offer generation using concept generator apparatus and methods therefor
US11288696B2 (en) 2013-03-13 2022-03-29 Eversight, Inc. Systems and methods for efficient promotion experimentation for load to card
US11068929B2 (en) 2013-03-13 2021-07-20 Eversight, Inc. Highly scalable internet-based controlled experiment methods and apparatus for obtaining insights from test promotion results
US10445763B2 (en) 2013-03-13 2019-10-15 Eversight, Inc. Automated promotion forecasting and methods therefor
US9940639B2 (en) 2013-03-13 2018-04-10 Eversight, Inc. Automated and optimal promotional experimental test designs incorporating constraints
US10789609B2 (en) 2013-03-13 2020-09-29 Eversight, Inc. Systems and methods for automated promotion to profile matching
US10915912B2 (en) 2013-03-13 2021-02-09 Eversight, Inc. Systems and methods for price testing and optimization in brick and mortar retailers
US10991001B2 (en) 2013-03-13 2021-04-27 Eversight, Inc. Systems and methods for intelligent promotion design with promotion scoring
US10176491B2 (en) 2013-03-13 2019-01-08 Eversight, Inc. Highly scalable internet-based randomized experiment methods and apparatus for obtaining insights from test promotion results
US11270325B2 (en) 2013-03-13 2022-03-08 Eversight, Inc. Systems and methods for collaborative offer generation
US10140629B2 (en) 2013-03-13 2018-11-27 Eversight, Inc. Automated behavioral economics patterns in promotion testing and methods therefor
US10706438B2 (en) 2013-03-13 2020-07-07 Eversight, Inc. Systems and methods for generating and recommending promotions in a design matrix
US10846736B2 (en) 2013-03-13 2020-11-24 Eversight, Inc. Linkage to reduce errors in online promotion testing
US9940640B2 (en) 2013-03-13 2018-04-10 Eversight, Inc. Automated event correlation to improve promotional testing
US11288698B2 (en) 2013-03-13 2022-03-29 Eversight, Inc. Architecture and methods for generating intelligent offers with dynamic base prices
US10636052B2 (en) 2013-03-13 2020-04-28 Eversight, Inc. Automatic mass scale online promotion testing
US11138628B2 (en) 2013-03-13 2021-10-05 Eversight, Inc. Promotion offer language and methods thereof
US11183300B2 (en) * 2013-06-05 2021-11-23 Nuance Communications, Inc. Methods and apparatus for providing guidance to medical professionals
CN104346372B (zh) 2013-07-31 2018-03-27 国际商业机器公司 用于评估预测模型的方法和装置
WO2015049797A1 (ja) * 2013-10-04 2015-04-09 株式会社日立製作所 データ管理方法、データ管理装置及び記憶媒体
WO2015136885A1 (ja) * 2014-03-10 2015-09-17 日本電気株式会社 評価システム、評価方法およびコンピュータ読み取り可能な記憶媒体
US10460339B2 (en) 2015-03-03 2019-10-29 Eversight, Inc. Highly scalable internet-based parallel experiment methods and apparatus for obtaining insights from test promotion results
CN107025596B (zh) * 2016-02-01 2021-07-16 腾讯科技(深圳)有限公司 一种风险评估方法和系统
WO2018018025A1 (en) 2016-07-21 2018-01-25 Ayasdi, Inc. Topological data analysis of data from a fact table and related dimension tables
JPWO2018047251A1 (ja) * 2016-09-07 2019-06-24 株式会社日立ハイテクノロジーズ データ分析システム、データ分析端末、及び、データ分析方法
US10579663B2 (en) * 2017-05-02 2020-03-03 International Business Machines Corporation Data insight discovery using a clustering technique
US11941659B2 (en) 2017-05-16 2024-03-26 Maplebear Inc. Systems and methods for intelligent promotion design with promotion scoring
US10878403B1 (en) * 2017-10-18 2020-12-29 Mastercard International Incorporated Generating peer benchmark datasets
CN107919983B (zh) * 2017-11-01 2020-07-10 中国科学院软件研究所 一种基于数据挖掘的天基信息网络效能评估系统及方法
US11768852B2 (en) * 2017-12-27 2023-09-26 Marlabs Incorporated System and method for data analysis and presentation of data
WO2019189249A1 (ja) * 2018-03-29 2019-10-03 日本電気株式会社 学習装置、学習方法、及びコンピュータ読み取り可能な記録媒体
US11222176B2 (en) 2019-05-24 2022-01-11 International Business Machines Corporation Method and system for language and domain acceleration with embedding evaluation
US11386276B2 (en) 2019-05-24 2022-07-12 International Business Machines Corporation Method and system for language and domain acceleration with embedding alignment
US20210318944A1 (en) * 2020-04-13 2021-10-14 UiPath, Inc. Influence analysis of processes for reducing undesirable behavior
TR2021008369A2 (tr) * 2020-12-21 2022-03-21 T C Erciyes Ueniversitesi Laboratuvar testleri̇ni̇n tani doğruluğunu değerlendi̇rmek i̇çi̇n güvenli̇ ve gi̇zli̇li̇k korumali bi̇r si̇stem
CN113780582B (zh) * 2021-09-15 2023-04-07 杭银消费金融股份有限公司 基于机器学习模型的风控特征筛选方法及系统
CN114535142B (zh) * 2022-01-11 2023-09-26 华南理工大学 基于数据驱动的注塑制品尺寸合格性智能判定方法
CN117648294A (zh) * 2024-01-26 2024-03-05 中国矿业大学(北京) 一种智能化矿山数据融合共享方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5809499A (en) * 1995-10-20 1998-09-15 Pattern Discovery Software Systems, Ltd. Computational method for discovering patterns in data sets
US6820070B2 (en) * 2000-06-07 2004-11-16 Insyst Ltd. Method and tool for data mining in automatic decision making systems
JP2001306999A (ja) * 2000-02-18 2001-11-02 Fujitsu Ltd データ解析装置およびデータ解析方法
JP2002109208A (ja) * 2000-09-29 2002-04-12 Acom Co Ltd 信用リスク管理方法、分析モデル決定方法、分析サーバ及び分析モデル決定装置
US6684208B2 (en) * 2001-03-07 2004-01-27 Rockwell Technologies, Llc System and method for quantifying an extent to which a data mining algorithm captures useful information in input data
US7043476B2 (en) * 2002-10-11 2006-05-09 International Business Machines Corporation Method and apparatus for data mining to discover associations and covariances associated with data
JP2008048733A (ja) * 2006-07-27 2008-03-06 Okayama Univ 癌の発症危険率を予測する方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572827B2 (en) 2017-08-08 2020-02-25 International Business Machines Corporation Prediction quality assessment

Also Published As

Publication number Publication date
US20100153332A1 (en) 2010-06-17
US8095498B2 (en) 2012-01-10
JP2010146554A (ja) 2010-07-01

Similar Documents

Publication Publication Date Title
JP6061439B2 (ja) データ処理システム、コンピュータ可読の媒体、データ・マイニング結果を分析する方法、データ・モデルを処理する方法(統計技術を使用するデータ・マイニング・モデル解釈、最適化、及びカスタマイゼーション)
Cabrera et al. FairVis: Visual analytics for discovering intersectional bias in machine learning
Aïvodji et al. Fairwashing: the risk of rationalization
Paredes et al. Machine learning or discrete choice models for car ownership demand estimation and prediction?
Bahnsen et al. A novel cost-sensitive framework for customer churn predictive modeling
Hur et al. A variable impacts measurement in random forest for mobile cloud computing
US20210390457A1 (en) Systems and methods for machine learning model interpretation
CN112329874B (zh) 数据业务的决策方法、装置、电子设备和存储介质
US20170032270A1 (en) Method for predicting personality trait and device therefor
Bueff et al. Machine learning interpretability for a stress scenario generation in credit scoring based on counterfactuals
Britton Vine: Visualizing statistical interactions in black box models
Yung et al. A quality framework for statistical algorithms
Yang et al. Data analysis framework of sequential clustering and classification using non-dominated sorting genetic algorithm
Chermiti Establishing Risk and Targeting Profiles Using Dara Mining: Decision Trees
CN114997916A (zh) 潜在用户的预测方法、系统、电子设备和存储介质
WO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
CN114139725A (zh) 业务对象的预测方法、设备及存储介质
Papoušková et al. Modelling loss given default in peer-to-peer lending using random forests
Lavalle et al. A methodology based on rebalancing techniques to measure and improve fairness in artificial intelligence algorithms
Sung et al. Data-driven sales leads prediction for everything-as-a-service in the cloud
Koç et al. Consumer loans' first payment default detection: a predictive model
Kostić et al. Data mining and modeling use case in banking industry
Portela et al. The search of conditional outliers
KR102397882B1 (ko) 정보 처리 방법 및 장치
Nair et al. Performance comparison of association rule algorithms with SPMF on automotive industry data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141111

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151105

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20151112

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20151225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161213

R150 Certificate of patent or registration of utility model

Ref document number: 6061439

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150