JP2022064315A - コンピュータ実装方法、コンピュータプログラム及びコンピュータシステム(データセット間の相関検出) - Google Patents

コンピュータ実装方法、コンピュータプログラム及びコンピュータシステム(データセット間の相関検出) Download PDF

Info

Publication number
JP2022064315A
JP2022064315A JP2021166626A JP2021166626A JP2022064315A JP 2022064315 A JP2022064315 A JP 2022064315A JP 2021166626 A JP2021166626 A JP 2021166626A JP 2021166626 A JP2021166626 A JP 2021166626A JP 2022064315 A JP2022064315 A JP 2022064315A
Authority
JP
Japan
Prior art keywords
attribute
value
computer
contributes
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021166626A
Other languages
English (en)
Inventor
マニッシュ アナンド ビヒード
Manish Anand Bhide
プラナイ クマール ロヒア
Kumar Lohia Pranay
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2022064315A publication Critical patent/JP2022064315A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】データエントリの不相応な選択によって、異なる影響がもたらされることがあり、他のパラメータに依存しているともみなされ得る。【解決手段】コンピュータデバイスが、(i)データセットと、(ii)コンピュータ決定アルゴリズムによりデータセットのデータエントリ用に作成された出力クラス判定のセットと、(iii)データセットの第1属性の第1の値に起因する出力クラス判定と第1属性の第2の値に起因する出力クラス判定との望ましくない相違とを識別する。コンピューティングデバイスは、(i)第1属性の第1の値を有するデータエントリの第1グループと(ii)第1属性の第2の値を有するデータエントリの第2グループとの間の相関ルールマイニングモデルを提供することによって、且つリフト計算に少なくとも部分的に基づいて相関ルールマイニングモデルにより生成される候補属性及び値のセットから第2属性の値を選択することによって、データセットの第2属性の値が望ましくない相違に寄与していると判断する。【選択図】図2

Description

本発明は概して、大規模データセット分析の分野に関するものであり、より具体的には、データセットの属性間の相関検出に関する。
一般に、大規模データセットを用いると、コンピュータ決定アルゴリズムはいつも決まって、特定のグループのデータエントリを他のグループのデータエントリに優先して選択する傾向があり得る。
データエントリの不相応な選択によって、異なる影響がもたらされることがあり、他のパラメータに依存しているともみなされ得る。
本発明の実施形態が、方法、システム、及びプログラム製品を提供する。
第1実施形態が方法を包含する。1つ又は複数のプロセッサが、(i)データセットと、(ii)コンピュータ決定アルゴリズムによりデータセットのデータエントリ用に作成された出力クラス判定のセットと、(iii)データセットの第1属性の第1の値に起因する出力クラス判定と第1属性の第2の値に起因する出力クラス判定との望ましくない相違とを識別する。1つ又は複数のプロセッサは、(i)第1属性の第1の値を有するデータエントリの第1グループと(ii)第1属性の第2の値を有するデータエントリの第2グループとの間の相関ルールマイニングモデルを提供することによって、且つリフト計算に少なくとも部分的に基づいて相関ルールマイニングモデルにより生成される候補属性及び値のセットから第2属性の値を選択することによって、データセットの第2属性の値が望ましくない相違に寄与していると判断する。
第2実施形態がコンピュータプログラム製品を包含する。コンピュータプログラム製品は、1つ又は複数のコンピュータ可読記憶媒体と、1つ又は複数のコンピュータ可読記憶媒体に格納されたプログラム命令とを含む。プログラム命令は、(i)データセットと、(ii)コンピュータ決定アルゴリズムによりデータセットのデータエントリ用に作成された出力クラス判定のセットと、(iii)データセットの第1属性の第1の値に起因する出力クラス判定と第1属性の第2の値に起因する出力クラス判定との望ましくない相違とを識別するプログラム命令を含む。プログラム命令は、(i)第1属性の第1の値を有するデータエントリの第1グループと(ii)第1属性の第2の値を有するデータエントリの第2グループとの間の相関ルールマイニングモデルを提供することによって、且つリフト計算に少なくとも部分的に基づいて相関ルールマイニングモデルにより生成される候補属性及び値のセットから第2属性の値を選択することによって、データセットの第2属性の値が望ましくない相違に寄与していると判断するプログラム命令を含む。
第3実施形態がコンピュータシステムを包含する。コンピュータシステムは、1つ又は複数のコンピュータプロセッサと、1つ又は複数のコンピュータ可読記憶媒体と、1つ又は複数のプロセッサのうちの少なくとも1つで実行するためにコンピュータ可読記憶媒体に格納されたプログラム命令とを含む。プログラム命令は、(i)データセットと、(ii)コンピュータ決定アルゴリズムによりデータセットのデータエントリ用に作成された出力クラス判定のセットと、(iii)データセットの第1属性の第1の値に起因する出力クラス判定と第1属性の第2の値に起因する出力クラス判定との望ましくない相違とを識別するプログラム命令を含む。プログラム命令は、(i)第1属性の第1の値を有するデータエントリの第1グループと(ii)第1属性の第2の値を有するデータエントリの第2グループとの間の相関ルールマイニングモデルを提供することによって、且つリフト計算に少なくとも部分的に基づいて相関ルールマイニングモデルにより生成される候補属性及び値のセットから第2属性の値を選択することによって、データセットの第2属性の値が望ましくない相違に寄与していると判断するプログラム命令を含む。
本発明の例示的な一実施形態に従って、コンピューティングデバイスがデータエントリ間の相関を判断する、コンピューティング環境を示す機能ブロック図である。
本発明の例示的な一実施形態に従って、図1の環境内にあるコンピューティングデバイスで、大規模データセット内の相関のある値を判断するシステムを実行する動作プロセスを示している。
本発明の少なくとも1つの実施形態によるクラウドコンピューティング環境を示している。
本発明の少なくとも1つの実施形態による抽象化モデル層を示している。
本発明の例示的な一実施形態に従って、図1に示したコンピューティング環境内にある1つ又は複数のコンピューティングデバイスの各コンポーネントのブロック図を示している。
本発明の詳細な実施形態が、添付図面を参照してここに開示される。開示される実施形態は、本発明の可能性のある実施形態を例示しているだけに過ぎず、様々な形態をとり得ることを理解されたい。さらに、様々な実施形態に関連して示される複数の例のそれぞれは、例示を目的としており、限定を目的としてはいない。さらに、各図は必ずしも原寸に比例しているわけではなく、一部の特徴は特定のコンポーネントの詳細を示すために誇張されていることがある。したがって、本明細書で開示される特定の構造的詳細及び機能的詳細が限定と解釈されるべきではなく、本発明を様々に使用する当業者に教授するための単なる代表的基礎と解釈されるべきである。
「1つの実施形態」、「一実施形態」、「例示的な一実施形態」などへの本明細書における言及は、説明されている実施形態が特定の機能、構造、又は特徴を含んでよいが、必ずしも全ての実施形態が特定の機能、構造、又は特徴を含まなくてもよいことを示している。さらに、そのような表現は、必ずしも同じ実施形態を指しているわけではない。さらに、特定の機能、構造、又は特徴が一実施形態に関連して説明される場合、明示的に説明されていてもいなくても、他の実施形態に関連してそのような機能、構造、又は特徴に影響を与えることは当業者の知識の範囲内であると考えられる。
本発明の実施形態では、コンピュータ決定アルゴリズムが大規模なデータのセットを分析し、様々な要素又は属性に基づいて当該データの出力クラスを判断できると認識している。場合によっては、そのようなアルゴリズムのユーザもしくは開発者又はその両方は、様々な理由のいずれかのために、特定の属性の特定の値に対する異なる出力クラス判定を回避したがるかもしれない。しかしながら、多くの場合では、単一属性の単一の値が異なる出力クラス判定を完全に特徴づけるのに十分でなくてもよく、付加的な関連のある属性の値が単一属性の単一の値と相関があることが分かってもよく、ユーザにとってすぐに明らかにならなくてもよい。本発明の実施形態が、マシンロジックを利用して、大規模なデータのセットに含まれるそのような相関のある属性及び値を識別する。結果として得られる識別情報は次に、こうした大規模なデータのセットを将来的に用いて意思決定を行うためのコンピュータ決定アルゴリズムの有効性及び公平性の向上に用いられ得る。
本発明の実施形態が、既知のコンピュータ決定システムもしくは相関検出システム又はその両方の全体にわたり、意味のあるいくつかのやり方で技術的改善を提供する。例えば、本発明の様々な実施形態が、より役に立つ結果、すなわち、望ましい属性により密接に基づいた決定と、既知のシステムより正確でエンドユーザにより役に立ち、したがって既存システムに比べて改善した、相関のある属性の識別とを提供することによって、既存システムに比べて進歩する。しかしさらに、本発明の様々な実施形態が、これらの結果をもたらす基本的なシステムの技術的オペレーションにも重要な改善を提供する。例えば、大規模なデータのセット(又は「ビッグデータ」環境)において、相関のある属性を検出することは、非常にプロセッサ及びメモリの負荷が高いオペレーションになり得るので、本発明の実施形態が、より効率的な属性検出を提供することにより、従来型のシステムと比較して、プロセッサ及びメモリの必要なリソース量を削減する。さらに、本発明の実施形態の属性検出機能を用いてコンピュータ決定アルゴリズムを改善することにより、本発明の様々な実施形態がそのようなアルゴリズムにより生成される容認できない決定の数を削減するので、破棄する必要がある決定の量が減少し、ひいてはコンピューティングリソースのより効率的な消費がもたらされる。
ここで、本発明は図を参照して詳細に説明される。
図1は、本発明の1つの実施形態に従って、コンピューティング環境(一般に100と指定されている)を示している機能ブロック図である。コンピューティング環境100は、ネットワーク110を介して接続された、コンピュータシステム120と、クライアントデバイス130と、ストレージエリアネットワーク(SAN)140とを含む。コンピュータシステムは、相関検出プログラム122とコンピュータインタフェース124とを含む。クライアントデバイス130は、クライアントアプリケーション132とクライアントインタフェース134とを含む。ストレージエリアネットワーク(SAN)140は、サーバアプリケーション142とデータベース144とを含む。
本発明の様々な実施形態において、コンピュータシステム120はコンピューティングデバイスであり、このコンピューティングデバイスは、スタンドアローン型デバイス、サーバ、ラップトップコンピュータ、タブレットコンピュータ、ネットブックコンピュータ、パーソナルコンピュータ(PC)、携帯情報端末(PDA)、デスクトップコンピュータ、又はデータの受信、送信、及び処理ができる任意のプログラム可能型電子デバイスであってよい。一般に、コンピュータシステム120は、任意のプログラム可能型電子デバイス、又はマシン可読プログラム命令の実行及び様々な他のコンピュータシステム(不図示)との通信ができるプログラム可能型電子デバイスの組み合わせを表す。別の実施形態において、コンピュータシステム120は、シームレスなリソースの単一プールとしての役割を果たすクラスタ化したコンピュータ及びコンポーネントを利用するコンピューティングシステムを表す。一般に、コンピュータシステム120は、任意のコンピューティングデバイス、又は様々な他のコンピューティングシステム(不図示)にアクセス可能なデバイスの組み合わせであってよく、相関検出プログラム122及びコンピュータインタフェース124を実行できる。コンピュータシステム120は、図5に関してさらに詳細に説明されるように、内部ハードウェアコンポーネント及び外部ハードウェアコンポーネントを含んでよい。
この例示的な実施形態において、相関検出プログラム122及びコンピュータインタフェース124はコンピュータシステム120に格納されている。しかしながら、他の実施形態において、相関検出プログラム122及びコンピュータインタフェース124は外部に格納され、ネットワーク110などの通信ネットワークを通じてアクセスされる。ネットワーク110は、例えば、ローカルエリアネットワーク(LAN)、インターネットなどのワイドエリアネットワーク(WAN)、又はその2つの組み合わせであってよく、有線、無線、光ファイバ、又は当技術分野で知られている任意の他の通信手段を含んでよい。一般に、ネットワーク110は、本発明の望ましい実施形態に従って、コンピュータシステム120、クライアントデバイス130、及びSAN140と、様々な他のコンピュータシステム(不図示)との間の通信をサポートする通信手段又はプロトコルの任意の組み合わせであってよい。
図1に示す実施形態において、相関検出プログラム122は、少なくとも部分的に、クライアントアプリケーション132にアクセスでき、コンピュータシステム120に格納されたデータをクライアントデバイス130、SAN140、及び様々な他のコンピュータシステム(不図示)に伝達できる。より具体的には、相関検出プログラム122は、クライアントデバイス130もしくはデータベース144又はその両方に格納されたデータにアクセスできるコンピュータシステム120のユーザを定義する。
相関検出プログラム122は、簡単な例示を目的に図1に示されている。本発明の様々な実施形態において、相関検出プログラム122はコンピュータシステム120で実行される論理演算を表しており、コンピュータインタフェース124は、相関検出プログラム122に従って管理され且つ実行されるこれらの論理演算を表示する能力を管理する。いくつかの実施形態において、相関検出プログラム122は、データを処理し且つ分析して、異なる属性の値同士の相関を検出するシステムを表す。
コンピュータシステム120は、コンピュータインタフェース124を含む。コンピュータインタフェース124は、コンピュータシステム120と、クライアントデバイス130と、SAN140との間のインタフェースを提供する。いくつかの実施形態において、コンピュータインタフェース124は、グラフィカルユーザインタフェース(GUI)又はウェブユーザインタフェース(WUI)であってよく、テキスト、ドキュメント、ウェブブラウザ、ウインドウ、ユーザオプション、アプリケーションインタフェース、及び作業命令を表示でき、プログラムがユーザに提示する情報(グラフィック、テキスト、及び音など)と、ユーザがプログラムを制御するのに使用する制御シーケンスとを含む。いくつかの実施形態において、コンピュータシステム120は、コンピュータシステム120で動作するクライアントベースのアプリケーションを介して、クライアントデバイス130もしくはSAN140又はその両方から伝達されるデータにアクセスする。例えば、コンピュータシステム120は、コンピュータシステム120と、クライアントデバイス130と、SAN140との間のインタフェースを提供するモバイルアプリケーションソフトウェアを含む。様々な実施形態において、コンピュータシステム120は、クライアントデバイス130のユーザによる指示及び使用のために、GUI又はWUIをクライアントデバイス130に伝達する。
様々な実施形態において、クライアントデバイス130はコンピューティングデバイスであり、このコンピューティングデバイスは、スタンドアローン型デバイス、サーバ、ラップトップコンピュータ、タブレットコンピュータ、ネットブックコンピュータ、パーソナルコンピュータ(PC)、携帯情報端末(PDA)、デスクトップコンピュータ、又はデータの受信、送信、及び処理ができる任意のプログラム可能型電子デバイスであってよい。一般に、コンピュータシステム120は、任意のプログラム可能型電子デバイス、又はマシン可読プログラム命令の実行及び様々な他のコンピュータシステム(不図示)との通信ができるプログラム可能型電子デバイスの組み合わせを表す。別の実施形態において、コンピュータシステム120は、シームレスなリソースの単一プールとしての役割を果たすクラスタ化したコンピュータ及びコンポーネントを利用するコンピューティングシステムを表す。一般に、コンピュータシステム120は、任意のコンピューティングデバイス、又は様々な他のコンピューティングシステム(不図示)にアクセス可能なデバイスの組み合わせであってよく、クライアントアプリケーション132及びクライアントインタフェース134を実行できる。クライアントデバイス130は、図5に関してさらに詳細に説明されるように、内部ハードウェアコンポーネント及び外部ハードウェアコンポーネントを含んでよい。
クライアントアプリケーション132は、簡単な例示を目的に図1に示されている。本発明の様々な実施形態において、クライアントアプリケーション132は、クライアントデバイス130で実行する論理演算を表しており、クライアントインタフェース134は、これらの様々な実施形態を表示する能力を管理し、クライアントアプリケーション132は、コンピュータシステム120もしくはデータベース144又はその両方に格納されたデータにアクセスできるクライアントデバイス130のユーザを定義する。
ストレージエリアネットワーク(SAN)140は、サーバアプリケーション142及びデータベース144を含むストレージシステムである。SAN140は1つ又は複数の、限定されないが、コンピューティングデバイス、サーバ、サーバクラスタ、ウェブサーバ、データベース、及びストレージデバイスを含んでよい。SAN140は、ネットワーク110などのネットワークを介して、コンピュータシステム120、クライアントデバイス130、及び様々な他のコンピューティングデバイス(不図示)と通信するように動作する。例えば、SAN140は、コンピュータシステム120、クライアントデバイス130、及びネットワーク110に接続されていない様々な他のコンピューティングデバイス(不図示)との間でデータを転送するために相関検出プログラム122と通信する。SAN140は、図5に関して説明されるように、内部ハードウェアコンポーネント及び外部ハードウェアコンポーネントを含んでよい。本発明の実施形態は、図1には任意の数のコンピューティングデバイス、サーバ、データベース、もしくはストレージデバイス、又はその組み合わせが含まれてよく、本発明は図1に示されているものだけに限定されないことを認識している。そのように、いくつかの実施形態では、コンピュータシステム120の機能の一部が、SAN140もしくは別のコンピューティングデバイス又はその両方の一部として含まれている。
さらに、いくつかの実施形態において、SAN140及びコンピュータシステム120は、クラウドコンピューティングプラットフォームを表すか又はその一部である。クラウドコンピューティングとは、最小の管理努力又はサービスプロバイダとのやり取りで迅速にプロビジョニング及びリリースができる構成可能なコンピューティングリソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、及びサービス)の共有プールにアクセスできる簡便なオンデマンドネットワークを可能にするサービス提供モデルのことである。クラウドモデルは、オンデマンドセルフサービス、幅広いネットワークアクセス、リソースの共有、スピーディな拡張性、及びサービスが計測可能であることなどの特徴を含んでよく、PaaS(サービスとして提供されるプラットフォーム)モデル、IaaS(サービスとして提供されるインフラストラクチャ)モデル、及びSaaS(サービスとして提供されるソフトウェア)モデルを含むサービスモデルで表すことができ、プライベートクラウド、コミュニティクラウド、パブリッククラウド、及びハイブリッドクラウドなどの様々な導入モデルとして実装することができる。様々な実施形態において、SAN140は、限定されないが、気象パターンと相関のあるデータを含むデータベース又はウェブサイトを表す。
SAN140及びコンピュータシステム120は、簡単な例示を目的に図1に示されている。しかしながら、様々な実施形態において、SAN140及びコンピュータシステム120は、相関検出プログラム122及びサーバアプリケーション142の機能に従って管理される任意の数のデータベースを含んでよいことを理解されたい。一般に、データベース144はデータを表し、サーバアプリケーション142はデータを使用し修正する能力を提供するコードを表す。代替の一実施形態において、相関検出プログラム122は、前述した特徴の任意の組み合わせも表すことができ、ここで、サーバアプリケーション142はデータベース144にアクセスできる。本発明の様々な態様を示すために、サーバアプリケーション142の例が提示され、ここでは、相関検出プログラム122は、限定されないが、属性同士の相関の判断のうちの1つ又は複数を表す。
いくつかの実施形態において、サーバアプリケーション142及びデータベース144はSAN140に格納される。しかしながら上述したように、様々な実施形態において、サーバアプリケーション142及びデータベース144は外部に格納され、ネットワーク110などの通信ネットワークを通じてアクセスされてよい。
本発明の実施形態は、データエントリを、データエントリのそれぞれの属性の値に基づいて、出力クラスに割り当てるコンピュータ決定システムを含む。様々な実施形態において、コンピュータシステム120は、特定の属性の値に関してバイアスを受けている又は偏っている出力クラス判定を識別する。例えば、様々な実施形態において、相関検出プログラム122は、2つ又はそれより多くのグループのデータエントリが、各グループのデータエントリが特定の属性に対して異なる値を有するという事実に基づいて異なる分類結果(例えば、出力クラス)を受けているかどうかを識別する。例えば、様々な実施形態において、特定の属性の第1の値を有するデータエントリの第1グループの有利な結果の割合を、特定の属性の第2の値を有するデータエントリの第2グループの有利な結果の割合で割った(又はその逆の)値が0.8より小さい場合、相関検出プログラム122は異なる影響が生じたと判断する。
本発明の実施形態は、場合によっては属性が、限定されないが、年齢、性別、人種、国籍、宗教などを含む保護カテゴリ(又は保護クラス)を含んでよく、またシステムが、異なる分類を受けている保護カテゴリ内のグループを識別してよいと定めている。例えば、年齢(保護クラス)が「特定の属性」である1つの実施形態では、25歳以上の個人に提供される住宅ローン件数と比較して、25歳未満の個人に提供される住宅ローン件数の割合が0.8以下である場合、25歳未満の個人は異なる影響を受けている。
本発明の様々な実施形態では、相関検出プログラム122は、異なる分類決定を受けたグループが、既知の値/属性の組み合わせ以外に、異なる分類決定に寄与している他の相関のある属性値を含むかどうかを判断する。これらの実施形態において、異なる分類決定に寄与することで知られている属性値(年齢が25歳未満であることなど)はユーザによって提供されてよく、相関検出プログラム122は次に、提供された属性値に相関があり得る付加的な属性及び値を判断し、判断した付加的な属性及び値の識別でユーザに応答する。
様々な実施形態において、相関検出プログラム122は特定の属性及びそれぞれの値を有する複数のデータエントリを含む大規模なデータのセットを受信する。様々な実施形態において、相関検出プログラム122は、ユーザからの入力データも受信する。そのデータには、必ずしも限定されないが、(i)偏った/異なる分類決定が望ましくない特定の属性(例えば、年齢)、(ii)特定の属性の第1の値(又は値のグループ)を有するデータエントリの第1グループ(例えば、25歳未満)、(iii)特定の属性の第2の値(又は値のグループ)を有するデータエントリの第2グループ(例えば、25歳以上)、及び(iv)どの分類(すなわち、出力クラス)が有利とみなされるか(例えば、住宅ローンの承認)についての識別が含まれる。
様々な実施形態において、相関検出プログラム122は、ユーザ入力を分析して、1つ又は複数の付加的な属性が不利な分類決定を受けることに関して特定の属性と相関があるかどうかを識別する。言い換えれば、相関検出プログラム122は、1つ又は複数の付加的な属性が、特定の属性と組み合わされた場合に、不利な分類決定を受ける可能性がさらに高くなるかどうかを判断する。
様々な実施形態において、相関検出プログラム122は、相関ルール学習を利用し、出力クラスに関連して特定の属性の値と第2属性との間の相関を識別する。様々な実施形態において、相関ルール学習には、大規模なデータのセットにおけるそのような相関のある属性と値との関係を識別するルールベースの機械学習モデルが含まれる。様々な実施形態において、相関検出プログラム122は大規模データセットを分析し、データエントリにおける特定の属性の値及び付加的な属性の値、並びに特定の属性及び付加的な属性の値ごとの出力クラスの判断を識別する。様々な実施形態において、相関検出プログラム122は、様々な属性及びその値についての相関頻度マップを生成する。様々な実施形態において、相関検出プログラム122はリフト値を利用して、例えば、特定の属性の第1の値(「第1属性」)が第2属性の第3の値と相関があるかどうかを判断する。様々な実施形態において、リフト値は式(1)で計算される。本発明の実施形態において、高いリフト値が第1属性の第1の値と第2属性の第3の値との間に強い相関があることを示すと定めている。
式(1)。
Figure 2022064315000002
様々な実施形態において、相関検出プログラム122はリフト値を計算し、このリフト値を分析して、第1属性の第1の値(「指定属性」)と第2属性の第3の値との間に強い相関が存在するのか、弱い相関が存在するのかを判断する。様々な実施形態において、相関検出プログラム122はさらに、第1属性の第1の値と複数の他の付加的な属性の値との間でリフト値を計算する。様々な実施形態において、相関検出プログラム122は限界リフト値を識別し、閾値を超えるリフト値を有する相関のある属性をさらなる処理のために選択する。様々な実施形態において、同じ処理が第1属性の第2の値に対して行われ、第1属性の第2の値に関して閾値を超える高いリフト値を有する相関のある属性を選択することになる。
様々な実施形態において、相関検出プログラム122は次いで、(i)第1属性の第1の値及びそのそれぞれに選択した相関のある属性の識別された値のそれぞれと、(ii)第1属性の第2の値及びそのそれぞれに選択した相関のある属性の識別された値のそれぞれとに対して偏差分析を行う。様々な実施形態において、これらの偏差分析は、第1属性の値の偏差を判断するのに用いられる同じ測定基準を用いる。これらの分析の結果で、相関のある属性も出力クラスに関して偏った判断を受けているかどうかが識別される。
様々な実施形態において、相関検出プログラム122は、偏った判断を受けた相関のある属性を識別し、クライアントデバイス130のユーザに概要を提供することでユーザ要求に応答する。様々な実施形態において、この概要によってユーザは、データをさらに分析して、識別された偏った判断にプラスの影響を与え得る様々なパラメータに関して、十分な情報に基づいた判断を下すよう指示される。本発明の実施形態において、ユーザが第1属性の第1の値及び第2の値と相関があると判断された属性値について出力クラスの偏らない判断を下すことが可能になるよう、ユーザへのコーチングが提供されると定められている。
図2は、本発明の例示的な一実施形態に従って、コンピューティング環境100における相関検出プログラム122のオペレーションを示すフローチャート200である。図2は、相関検出プログラム122とクライアントアプリケーション132との間の特定のやり取りも表す。いくつかの実施形態において、図2に示すオペレーションは、コンピュータシステム120で実行する相関検出プログラム122の特定の論理演算の出力を具体化している。図2は、1つの実装形態の説明図を提供しているだけであり、異なる実施形態が実装され得る環境に関連して何も限定を示唆していないことを理解されたい。図示した環境には、多くの修正が行われてよい。1つの実施形態において、図2に示す一連のオペレーションは任意の順序で行われてよい。別の実施形態において、図2に示す一連のオペレーションは任意のオペレーションで終了してよい。前述した特徴に加えて、図2に示す任意のオペレーションがいつでも再開されてよい。
オペレーション202において、相関検出プログラム122はデータセットに対して行われる判断に関するユーザ要求を受信する。様々な実施形態において、相関検出プログラム122はクライアントデバイス130のユーザからの要求を受信し、データセットの第1属性の値とデータセットの他の属性の値との間に相関が存在するかどうかを識別する。ここで、第1属性の値はすでに、偏った出力クラス判定を受けたと判断されており、ユーザは、任意の他の属性値が偏った出力クラス判定に寄与しているかどうかを識別したいと思っている。様々な実施形態において、ユーザは、(i)有利とみなされる出力クラス、(ii)第1属性、(iii)不利な出力クラス判定を不相応にもたらす第1属性の第1の値、及び(iv)有利な出力クラス判定を不相応にもたらす第1属性の第2の値を含む入力データを提供する。
オペレーション204において、相関検出プログラム122は入力データを分析する。様々な実施形態において、相関検出プログラム122は、偏差分析の既知の測定基準を用いて、入力データに対して偏差分析を行う。例えば、1つの異なる影響の測定基準を用いると、第1属性の第1の値及び第2の値に対する有利な出力クラス判定の割合が0.8より小さい場合、異なる影響が判断される。偏差分析の測定基準についての他の例には、限定されないが、統計的均一性の差異の測定基準、機会均等の測定基準、及び平均オッズの測定基準が含まれる。
様々な実施形態において、相関検出プログラム122は、データセットを2つのサブセット、すなわち、(i)第1属性の第1の値を有し且つ出力クラスに関して不利な判断を受けた、データエントリの第1サブセットと、(ii)第1属性の第2の値を有し且つ出力クラスに関して有利な判断を受けた、データエントリの第2サブセットとに選別する。様々な実施形態において、相関検出プログラム122はデータエントリの第1サブセット及び第2サブセットを利用して、偏った出力クラス判定に関して第1属性の識別した値と1つ又は複数の相関のある属性(すなわち、第2属性)との間に相関があるかどうかを識別する。本発明の実施形態では、データセットの選別は上述したことに限定されず、データセットはデータエントリのそれぞれの属性値もしくは出力クラス判定又はその両方に基づくデータエントリの任意の組み合わせを含んでよいと定めている。
オペレーション206において、相関検出プログラム122は、データエントリの第1サブセット及びデータエントリの第2サブセットに対して相関ルールマイニングモデルを実行する。様々な実施形態において、相関検出プログラム122は、既知のデータセット及びデータセットそれぞれの相関を訓練データとして用いることで、相関ルールマイニングを訓練する。例えば、様々な実施形態において、訓練データは、(i)データセットの複数の列及び複数の列のそれぞれに対するそれぞれの制約を識別するスキーマと、(ii)複数の列同士の既知の相関のリストとを含む。
様々な実施形態において、相関検出プログラム122は、データエントリの第1サブセット及びデータエントリの第2サブセットを、コンピュータシステム120で実行する訓練済みの相関ルールマイニングモデルに提供し、第1属性の値と1つ又は複数の付加的な属性の値との間の相関を識別する。様々な実施形態において、訓練済みの相関ルールマイニングモデルは、これらのサブセットを分析し、少なくとも、第1サブセット及び第2サブセットにおいて第1属性の値と相関がある第2属性を判断する。例えば、一実施形態において、第2属性の第3の値が第1属性の第1の値と相関があり、第2属性の第4の値が第1属性の第2の値と相関がある。多くの場合、訓練済みの相関ルールマイニングモデルは、第1属性の値と相関がある第2属性を含む複数の付加的な属性を判断する。
オペレーション208において、相関検出プログラム122は、相関ルールモデルによって判断された付加的な属性のそれぞれに対するリフト値を計算する。様々な実施形態において、相関検出プログラム122は、上述した式(1)を利用してリフト値を計算する。様々な実施形態において、相関検出プログラム122は、第1サブセット及び第2サブセットのそれぞれに対する相関のある属性のリフト値について限界リフト値を計算する。ここで、限界リフト値を超えるリフト値を有する属性がさらなる処理のために選択される。
様々な実施形態において、相関検出プログラム122は、第1属性の第1の値及び第2の値のそれぞれに対する相関のある属性を識別する。例えば、付加的な属性のそれぞれのリフト値に基づいて、相関検出プログラム122は、第1属性の第1の値と相関がある第2属性の第3の値と、第1属性の第2の値と相関がある第3属性の第4の値とを識別する。様々な実施形態において、相関検出プログラム122は次に、第1属性の第1の値及び第2の値がそれぞれの相関のある属性値と組み合わされた場合、偏差が存在するかどうかを判断する。様々な実施形態において、このオペレーションにおける偏差の判断には、上述したように、オペレーション204で用いられた同じ測定基準(例えば、異なる影響の測定基準、統計的均一性の差異の測定基準、機会均等の測定基準、又は平均オッズの測定基準)が用いられる。例えば、様々な実施形態では、第1属性の第2の値と第3属性の第4の値との組み合わせに対する有利な判断と比較した、第1属性の第1の値と第2属性の第3の値との組み合わせに対する有利な判断の割合をとることによって、異なる影響が判断される。様々な実施形態では、この割合が0.8より小さい場合、異なる影響が提示され、出力クラスの判断に偏差が存在する。
様々な実施形態において、相関検出プログラム122は、異なる影響の判断をクライアントデバイス130のユーザに伝達する。様々な実施形態では、異なる影響が存在する場合、相関検出プログラム122は、例えば、第1サブセット及び第2サブセットを含むデータの概要をクライアントデバイス130のユーザにプログラム命令で伝達する。プログラム命令は、データをさらに分析して、識別された偏った判断にプラスの影響を与え得る様々なパラメータについての十分な情報に基づいた判断を下すようユーザをコーチングするようにクライアントデバイス130に指示する。本発明の実施形態には、ユーザが第1属性の第1の値及び第2の値、並びにそれぞれの相関のある属性値に関して出力クラスの偏らない判断を下すことが可能になるよう、ユーザのコーチングが提供されると定められている。
1つの例示的な実施形態では、コンピュータ決定アルゴリズムが企業の様々な従業員への作業割り当てを選択する。この例では、従業員が2つの作業グループに分割される。この例では、2つの作業グループのうちの一方の従業員が不相応な数の有利な作業割り当てを受けており、相関検出プログラムを用いて、任意の他の属性がこの不相応な割り当てに寄与し得るのかどうかを識別したいと、マネージャが考えている。
この例示的な実施形態において、相関検出プログラム122は、マネージャからのユーザ要求を受信し、「作業グループ」属性の2つの値、つまり作業グループ1及び作業グループ2が、任意の他の属性の値と相関があるかどうかを作業割り当てのデータセットに基づいて識別する。このユーザ要求は、どの作業割り当てが有利とみなされかも識別する。
この例示的な実施形態において、相関検出プログラム122は入力データ、すなわち、「作業グループ」属性、そのそれぞれの値(作業グループ1及び作業グループ2)、及び有利な割り当ての識別を分析し、これらの作業グループのうちの一方の従業員が統計的に不相応な割合の有利な割り当てを受けているかどうかをまず判断する。この例において、相関検出プログラム122は、作業グループ1の有利な割り当てと作業グループ2の有利な割り当てとの割合が0.8より小さいことに基づいて、作業グループ1が異なる影響を受けていると判断する。その結果、相関検出プログラム122は作業割り当てデータセットの2つのサブセットを作成する。つまり、(i)作業グループ1の従業員への不利な作業割り当てを含む第1サブセット、及び(ii)作業グループ2の従業員への不利な作業割り当てを含む第2サブセットである。
この例示的な実施形態において、相関検出プログラム122は、第1サブセット及び第2サブセットに対して相関ルールマイニングモデルを実行する。相関ルールマイニングモデルは、これらのサブセットを分析し、少なくとも、第1属性の値と相関がある第2属性、つまり「経験レベル」属性を判断する。相関検出プログラム122は、「経験レベル」属性の異なる値が、「作業グループ」属性の異なる値と相関があることを確認する。具体的には、この例において、「経験レベル」属性の「経験不足」の値が「作業グループ」属性の「作業グループ1」の値と相関があり、「経験レベル」属性の「経験豊富」の値が「作業グループ」属性の「作業グループ2」の値と相関がある。
この例において、相関検出プログラム122は、(i)「経験レベル」属性の「経験不足」の値、及び「作業グループ」属性の「作業グループ1」の値についてのリフト値、並びに(ii)「経験レベル」属性の「経験豊富」の値、及び「作業グループ」属性の「作業グループ2」の値についてのリフト値を計算する。この例において、相関検出プログラム122は、上述したように、式(1)を利用してリフト値を計算する。この例において、(i)「経験レベル」属性の「経験不足」の値、及び「作業グループ」属性の「作業グループ1」の値についてのリフト値はリフト値の閾値を超えているが、(ii)「経験レベル」属性の「経験豊富」の値、及び「作業グループ」属性の「作業グループ2」の値についてのリフト値はリフト値の閾値より低い。したがって、結果として、相関検出プログラム122は、「経験レベル」属性の「経験不足」の値、及び「作業グループ」属性の「作業グループ1」の値を偏差分析のために選択する。
この例示的な実施形態において、相関検出プログラム122は、「経験レベル」属性の「経験不足」の値と「作業グループ」属性の「作業グループ1」の値との組み合わせに偏差分析を行い、作業グループ1の経験不足の従業員が統計的に不相応な割合の有利な割り当てを受けているかどうかを判断する。相関検出プログラム122は、上記で適用した異なる影響の測定基準を用いて、作業グループ1の経験不足の従業員とこの企業の他の従業員との間の有利な作業割り当ての割合が、異なる影響をもたらす0.8より小さいと判断する。相関検出プログラム122は、マネージャにデータをさらに分析して、作業割り当て判断を推進することにプラスの影響を与え得る様々なパラメータに関する十分な情報に基づいた判断を下すよう指示する命令でこのデータをマネージャに伝達する。
本開示は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載された教示の実装形態がクラウドコンピューティング環境に限定されないことを、あらかじめ理解されたい。むしろ、本発明の実施形態は、現在知られている又は後に開発されるあらゆる他の種類のコンピューティング環境と併せて実現することができる。
クラウドコンピューティングは、最小の管理努力又はサービスプロバイダとのやり取りで迅速にプロビジョニング及びリリースができる構成可能なコンピューティングリソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、及びサービス)の共有プールへの簡便なオンデマンドネットワークアクセスを可能にするサービス提供モデルである。このクラウドモデルは、少なくとも5つの特徴と、少なくとも3つのサービスモデルと、少なくとも4つの導入モデルとを含んでよい。
特徴については次の通りである。
オンデマンドセルフサービス。クラウド利用者が、サービスプロバイダとの人的やり取りを必要とすることなく、必要に応じて自動的に、サーバ時間及びネットワークストレージなどのコンピューティング能力を一方的にプロビジョニングできる。
幅広いネットワークアクセス。各能力がネットワークを介して利用可能であり、異種のシンクライアントプラットフォーム又はシッククライアントプラットフォーム(例えば、携帯電話、ラップトップ、及びPDA)による使用を促進する標準的なメカニズムによってアクセスされる。
リソースの共有。プロバイダのコンピューティングリソースが、マルチテナントモデルを用いて複数の利用者にサービスを提供するためにプールされ、様々な物理リソース及び仮想リソースが要求に応じて動的に割り当てられ、再び割り当てられる。一般に、利用者は提供されるリソースの正確な位置について全く制御せず何も知らないが、抽象化の高次レベルで位置(例えば、国、州、又はデータセンタ)を指定できるかもしれないという点で、位置独立感がある。
スピーディな拡張性。各能力を迅速に且つ弾力的に、場合によっては自動的にプロビジョニングすることができ、すぐに能力を拡大したり、迅速にリリースしてすぐに縮小したりすることができる。利用者にとっては、プロビジョニングに利用可能な各能力は、無制限であるように思えることが多く、いつでも必要なだけ購入できる。
サービスが計測可能であること。クラウドシステムは、サービスの種類(例えば、ストレージ、処理、帯域幅、及びアクティブなユーザアカウント)に適切な何らかの抽象化レベルでの計測能力を活用することで、リソース使用を自動的に制御し且つ最適化する。リソース使用量の監視、制御、及び報告が可能であり、利用するサービスのプロバイダ及び利用者の双方に透明性を提供できる。
サービスモデルについては次の通りである。
サービスとして提供されるソフトウェア(SaaS)。利用者に与えられる権限は、クラウドインフラストラクチャで動作するプロバイダのアプリケーションを用いることである。このアプリケーションは、様々なクライアントデバイスから、ウェブブラウザなどのシンクライアントインタフェース(例えば、ウェブベースの電子メール)を通じてアクセス可能である。利用者は、限定されたユーザ固有のアプリケーション構成設定は例外かもしれないが、ネットワーク、サーバ、オペレーティングシステム、ストレージ、さらには個々のアプリケーション能力を含む基本的なクラウドインフラストラクチャを管理することも制御することもしない。
サービスとして提供されるプラットフォーム(PaaS)。利用者に与えられる権限は、プロバイダがサポートするプログラミング言語及びツールを使用して作成される、利用者が作成した又は取得したアプリケーションを、クラウドインフラストラクチャ上に導入することである。利用者は、ネットワーク、サーバ、オペレーティングシステム、又はストレージを含む基本的なクラウドインフラストラクチャを管理することも制御することもしないが、導入したアプリケーション、及び場合によってはアプリケーションをホストする環境構成に対する管理権を有する。
サービスとして提供されるインフラストラクチャ(IaaS)。利用者に与えられる権限は、処理、ストレージ、ネットワーク、及び他の基本的なコンピューティングリソースをプロビジョニングすることである。利用者は、オペレーティングシステム及びアプリケーションを含み得る任意のソフトウェアを導入し動作させることができる。利用者は、基本的なクラウドインフラストラクチャを管理することも制御することもしないが、オペレーティングシステム、ストレージ、導入するアプリケーションに対する管理権、場合によっては、選択したネットワークコンポーネント(例えば、ホストファイアウォール)の限定された管理権を有する。
導入モデルについては次の通りである。
プライベートクラウド。クラウドインフラストラクチャは、ある組織に対してだけ動作する。プライベートクラウドは、当該組織又はサードパーティによって管理されてよく、オンプレミスに存在しても、オフプレミスに存在してもよい。
コミュニティクラウド。クラウドインフラストラクチャは、いくつかの組織で共有され、関心事(例えば、ミッション、セキュリティ要件、ポリシー、コンプライアンス要件)を共有している特定のコミュニティをサポートする。コミュニティクラウドは、当該組織又はサードパーティによって管理されてよく、オンプレミスに存在しても、オフプレミスに存在してもよい。
パブリッククラウド。クラウドインフラストラクチャは、一般大衆又は大規模な業界団体に利用可能になっており、クラウドサービスを販売する組織が所有する。
ハイブリッドクラウド。クラウドインフラストラクチャは、独自のエンティティのままである2種又はそれより多くのクラウド(プライベート、コミュニティ、又はパブリック)の組み合わせであるが、データ及びアプリケーションの移植性を可能にする標準技術又は専用技術(例えば、クラウド間で負荷を分散するためのクラウドバースティング)によって結びつけられている。
クラウドコンピューティング環境は、ステートレス性、低結合度、モジュール性、及び意味的相互運用性に重点を置いたサービス指向型である。クラウドコンピューティングの中心には、相互に接続されたノードのネットワークを含むインフラストラクチャがある。
ここで図3を参照すると、例示的なクラウドコンピューティング環境50が示されている。図示したように、クラウドコンピューティング環境50は、クラウド利用者により用いられるローカルのコンピューティングデバイス(例えば、携帯情報端末(PDA)又は携帯電話54A、デスクトップコンピュータ54B、ラップトップコンピュータ54C、もしくは自動車用コンピュータシステム54N、又はその組み合わせなど)が通信できる1つ又は複数のクラウドコンピューティングノード10を含む。各ノード10は互いに通信してよい。これらのノードは、上述したプライベートクラウド、コミュニティクラウド、パブリッククラウド、もしくはハイブリッドクラウド、又はこれらの組み合わせなどの1つ又は複数のネットワークにおいて、物理的に又は仮想的にグループ化されてよい(不図示)。これにより、クラウドコンピューティング環境50は、クラウド利用者がローカルのコンピューティングデバイスにリソースを保持する必要がない、サービスとしてのインフラストラクチャ、プラットフォーム、もしくはソフトウェア、又はその組み合わせを提供することが可能になる。図3に示すコンピューティングデバイス54A~Nの種類は例示を目的としているだけであり、コンピューティングノード10及びクラウドコンピューティング環境50はあらゆる種類のコンピュータデバイスと、あらゆる種類のネットワークもしくはネットワークアドレス可能な通信手段又はその両方によって(例えば、ウェブブラウザを用いて)通信できることを理解されたい。
ここで図4を参照すると、クラウドコンピューティング環境50(図3)により提供される機能的抽象化層一式が示されている。図4に示すコンポーネント、層、及び機能は例示を目的としているだけであり、本発明の実施形態はこれに限定されないことをあらかじめ理解されたい。図示するように、以下に挙げる層及び対応する機能が提供される。
ハードウェア及びソフトウェアの層60は、ハードウェアコンポーネント及びソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム61、RISC(縮小命令セットコンピュータ)アーキテクチャに基づくサーバ62、サーバ63、ブレードサーバ64、ストレージデバイス65、並びにネットワーク及びネットワークコンポーネント66が含まれる。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバのソフトウェア67、及びデータベースソフトウェア68を含む。
仮想化層70は、仮想サーバ71、仮想ストレージ72、仮想ネットワーク73(仮想プライベートネットワークを含む)、仮想アプリケーション及びオペレーティングシステム74、並びに仮想クライアント75といった仮想エンティティが例として提供され得る抽象化層を提供する。
1つの例において、管理層80が後述する諸機能を提供してよい。リソースプロビジョニング81が、クラウドコンピューティング環境内でタスクを実行するのに利用されるコンピューティングリソース及び他のリソースの動的な調達を行う。計測・価格決定82が、リソースがクラウドコンピューティング環境内で利用されたときのコスト管理、及びこれらのリソースの消費に対する請求書作成又は請求書送付を行う。1つの例において、これらのリソースは、アプリケーションソフトウェアのライセンスを含んでよい。セキュリティが、クラウド利用者及びタスクの識別情報確認、並びにデータ及び他のリソースの保護を行う。ユーザポータル83が、利用者及びシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービス水準管理84が、必要なサービス水準が満たされるように、クラウドコンピューティングリソースの割り当て及び管理を行う。サービス水準契約(SLA)の計画・履行85が、SLAに従って将来要件が予測されるクラウドコンピューティングリソースの事前調整及び調達を行う。
ワークロード層90が、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロード及び機能の例には、マッピング及びナビゲーション91、ソフトウェア開発及びライフサイクル管理92、仮想クラスルーム教育配信93、データ解析処理94、トランザクション処理95、スムージング出力(soothing output)の提供96が含まれる。
図5は、本発明の例示的な一実施形態に従って、コンピュータシステム120、クライアントデバイス130、SAN140の各コンポーネントのブロック図(500)を示している。図5は、1つの実装形態の説明図を提供しているだけであり、異なる実施形態が実装され得る環境に関連して何も限定を示唆していないことを理解されたい。図示した環境には、多くの修正が行われてよい。
コンピュータシステム120は通信ファブリック502を含み、これにより、コンピュータプロセッサ504と、メモリ506と、永続的ストレージ508と、通信ユニット510と、入力/出力(I/O)インタフェース512との間で通信が行われる。通信ファブリック502は、プロセッサ(マイクロプロセッサ、通信・ネットワークプロセッサなど)と、システムメモリと、周辺機器と、システム内の任意の他のハードウェアコンポーネントとの間で、データもしくは制御情報又はその両方の受け渡しを行うように設計された任意のアーキテクチャで実現されてよい。例えば、通信ファブリック502は、1つ又は複数のバスで実現されてよい。
メモリ506及び永続的ストレージ508は、コンピュータ可読記憶媒体である。この実施形態において、メモリ506は、ランダムアクセスメモリ(RAM)514及びキャッシュメモリ516を含む。一般に、メモリ506は、任意の好適な揮発性又は不揮発性のコンピュータ可読記憶媒体を含んでよい。
相関検出プログラム122、コンピュータインタフェース124、クライアントアプリケーション132、クライアントインタフェース134、サーバアプリケーション142、及びデータベース144は、それぞれのコンピュータプロセッサ504のうちの1つ又は複数がメモリ506の1つ又は複数のメモリを介して実行するもしくはアクセスする又はその両方を行うための永続的ストレージ508に格納される。この実施形態において、永続的ストレージ508は磁気ハードディスクドライブを含む。代替的に、又は磁気ハードディスクドライブに加えて、永続的ストレージ508は、固体ハードドライブ、半導体ストレージデバイス、読み出し専用メモリ(ROM)、消去可能プログラム可能型読み出し専用メモリ(EPROM)、フラッシュメモリ、又はプログラム命令もしくはデジタル情報を格納できる任意の他のコンピュータ可読記憶媒体を含んでよい。
永続的ストレージ508が用いる媒体は、着脱可能であってもよい。例えば、着脱可能なハードドライブが永続的ストレージ508に用いられてよい。他の例には、永続的ストレージ508の一部でもある別のコンピュータ可読記憶媒体への転送のためにドライブに挿入される光ディスク及び磁気ディスク、サムドライブ、並びにスマートカードが含まれる。
これらの例における通信ユニット510は、他のデータ処理システム又はデバイス(ネットワーク110のリソースを含む)との通信を行う。これらの例において、通信ユニット510は、1つ又は複数のネットワークインタフェースカードを含む。通信ユニット510は、物理通信リンク及び無線通信リンクのいずれか又は両方を用いて通信を行ってよい。相関検出プログラム122、コンピュータインタフェース124、クライアントアプリケーション132、クライアントインタフェース134、サーバアプリケーション142、及びデータベース144は、通信ユニット510を通じて永続的ストレージ508にダウンロードされてよい。
I/Oインタフェース512は、コンピュータシステム120、クライアントデバイス130、及びSAN140に接続され得る他のデバイスとの間でデータの入力及び出力を可能にする。例えば、I/Oインタフェース512は、キーボード、キーパッド、タッチスクリーン、もしくは何らかの他の好適な入力デバイス、又はその組み合わせなどの外部デバイス518に接続を提供してよい。外部デバイス518は、例えば、サムドライブ、携帯用の光ディスク又は磁気ディスク、及びメモリカードなどの携帯用コンピュータ可読記憶媒体も含んでよい。本発明の実施形態を実施するのに用いられるソフトウェア及びデータ、例えば、相関検出プログラム122、コンピュータインタフェース124、クライアントアプリケーション132、クライアントインタフェース134、サーバアプリケーション142、及びデータベース144は、そのような携帯用コンピュータ可読記憶媒体に格納されてよく、I/Oインタフェース512を介して永続的ストレージ508にロードされてよい。I/Oインタフェース512は、ディスプレイ520にも接続する。
ディスプレイ520は、データをユーザに表示するメカニズムを提供し、例えば、コンピュータモニタ又はテレビ画面であってよい。
本発明は、システム、方法、もしくはコンピュータプログラム製品、又はその組み合わせになり得る。コンピュータプログラム製品は、本発明の態様をプロセッサに実行させるためにコンピュータ可読プログラム命令を搭載した1つ(又は複数)のコンピュータ可読記憶媒体を含んでよい。
コンピュータ可読記憶媒体は、命令実行デバイスが用いる命令を保持し且つ格納できる有形のデバイスであってよい。コンピュータ可読記憶媒体は、例えば、限定されないが、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、又はこれらの任意の好適な組み合わせであってよい。コンピュータ可読記憶媒体のより具体的な例についての網羅的ではないリストには、携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能型読み出し専用メモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、携帯用コンパクトディスク型読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、パンチカード又は命令を記録した溝に突起した構造体などの機械的に符号化したデバイス、及びこれらの任意の好適な組み合わせが含まれる。コンピュータ可読記憶媒体は、本明細書では、電波もしくは他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通って伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、又は有線で伝送される電気信号などの一時的信号そのものであると解釈されるべきではない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、あるいは、ネットワーク(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、もしくは無線ネットワーク、又はその組み合わせ)を介して外部コンピュータ又は外部ストレージデバイスにダウンロードされてよい。ネットワークは、銅製伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、もしくはエッジサーバ、又はその組み合わせを含んでよい。各コンピューティング/処理デバイス内にあるネットワークアダプタカード又はネットワークインタフェースが、コンピュータ可読プログラム命令をネットワークから受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に格納するためにコンピュータ可読プログラム命令を転送する。
本発明のオペレーションを実行するコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データであってもよく、Smalltalk(登録商標)又はC++などといったオブジェクト指向型プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語といった従来の手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述したソースコード又はオブジェクトコードであってもよい。コンピュータ可読プログラム命令は、スタンドアローン型ソフトウェアパッケージとしてユーザのコンピュータで全体的に、ユーザのコンピュータで部分的に、ユーザのコンピュータで部分的に且つリモートコンピュータで部分的に、又はリモートコンピュータもしくはサーバで全体的に実行されてよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含むあらゆる種類のネットワークを通じてユーザのコンピュータに接続されてよく、この接続は、(例えば、インターネットサービスプロバイダを利用したインターネットを通じて)外部コンピュータに対して行われてよい。いくつかの実施形態において、例えば、プログラム可能型ロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラム可能型ロジックアレイ(PLA)を含む電子回路が、コンピュータ可読プログラム命令の状態情報を利用してコンピュータ可読プログラム命令を実行し、本発明の態様を実行するために電子回路をカスタマイズしてよい。
本発明の態様が、本発明の実施形態による方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図もしくはブロック図又はその両方を参照してここに説明される。フローチャート図もしくはブロック図又はその両方の各ブロック、並びにフローチャート図もしくはブロック図又はその両方にある各ブロックの組み合わせは、コンピュータ可読プログラム命令で実現され得ることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能型データ処理装置のプロセッサに提供してマシンを作り出してよく、これにより、コンピュータ又は他のプログラム可能型データ処理装置のプロセッサを介して実行される命令が、フローチャートもしくはブロック図又はその両方の1つもしくは複数のブロックに指定された機能/動作を実現する手段を創り出す。これらのコンピュータ可読プログラム命令は、コンピュータ、プログラム可能型データ処理装置、もしくは他のデバイス、又はその組み合わせに特定の方式で機能するよう指示できるコンピュータ可読記憶媒体にも格納されてよく、これにより、命令を格納したコンピュータ可読記憶媒体は、フローチャートもしくはブロック図又はその両方の1つもしくは複数のブロックに指定された機能/動作の態様を実現する命令を含む製造物品を含む。
コンピュータ可読プログラム命令は、一連の動作ステップをコンピュータ、他のプログラム可能型装置、又は他のデバイス上で実行させてコンピュータ実装処理を作り出すように、コンピュータ、他のプログラム可能型データ処理装置、又は他のデバイスにロードされてもよく、これにより、コンピュータ、他のプログラム可能型装置、又は他のデバイスで実行される命令は、フローチャートもしくはブロック図又はその両方の1つもしくは複数のブロックに指定された機能/動作を実現する。
図に含まれるフローチャート及びブロック図は、本発明の様々な実施形態によるシステム、方法、及びコンピュータプログラム製品に関する実行可能な実装形態のアーキテクチャ、機能、及びオペレーションを示している。この点については、フローチャート又はブロック図に含まれる各ブロックは命令のモジュール、セグメント、又は一部を表してよく、ここには、指定された論理機能を実現するための1つ又は複数の実行可能命令が含まれる。いくつかの代替実装形態において、ブロックに記載された機能は、図に記載されたものとは異なる順序で行われてよい。例えば、連続して示された2つのブロックが、実際には、実質的に同時に実行されてもよく、これらのブロックが、必要な機能に応じて逆の順序で実行されることがあってもよい。ブロック図もしくはフローチャート図又はその両方の各ブロック、並びにブロック図もしくはフローチャート図又はその両方の各ブロックの組み合わせは、指定された機能もしくは動作を実行する又は専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースのシステムによって実現され得ることにも留意されたい。
本明細書で説明されているプログラムは、本発明の特定の実施形態でプログラムが実装されるアプリケーションに基づいて識別される。しかしながら、本明細書における全ての特定のプログラム名称は便宜上用いられているだけに過ぎず、したがって、本発明は、そのような名称で識別されるもしくは示唆される又はその両方が行われる任意の特定のアプリケーションだけの使用に限定されるべきではないことを理解されたい。
例えば、「Smalltalk」などといった用語は、世界中の様々な司法権における商標権の対象になることがあり、そのような商標権が存在し得る限り、商標によって適切に命名される製品又はサービスに関連して、ここだけで用いられることに留意されたい。

Claims (20)

  1. 1つ又は複数のプロセッサが、(i)データセットと、(ii)コンピュータ決定アルゴリズムにより前記データセットのデータエントリ用に作成された出力クラス判定のセットと、(iii)前記データセットの第1属性の第1の値に起因する出力クラス判定と前記第1属性の第2の値に起因する出力クラス判定との望ましくない相違とを識別する段階と、
    1つ又は複数のプロセッサが、前記データセットの第2属性の値が前記望ましくない相違に寄与していることを、
    (i)前記第1属性の前記第1の値を有する前記データエントリの第1グループと、(ii)前記第1属性の前記第2の値を有する前記データエントリの第2グループとを相関ルールマイニングモデルに提供することによって、且つ
    リフト計算に少なくとも部分的に基づいて前記相関ルールマイニングモデルにより生成される候補属性及び値のセットから前記第2属性の前記値を選択することによって
    判断する段階と
    を備えるコンピュータ実装方法。
  2. 1つ又は複数のプロセッサが、前記第1属性以外の、前記望ましくない相違に寄与している1つ又は複数の属性の値を識別するという要求をユーザから受信する段階と、
    1つ又は複数のプロセッサが、前記第2属性の前記値が前記望ましくない相違に寄与しているとの前記判断を前記ユーザに通知することによって前記要求に応答する段階と
    をさらに備える、請求項1に記載のコンピュータ実装方法。
  3. 前記第2属性の前記値が前記望ましくない相違に寄与していると判断する段階が、前記第2属性の前記値が前記第1属性の前記第1の値と相関があると1つ又は複数のプロセッサが判断する段階を含む、請求項1又は2に記載のコンピュータ実装方法。
  4. 前記第2属性の第2の値も前記望ましくない相違に寄与していると1つ又は複数のプロセッサが判断する段階をさらに備え、前記第2属性の前記第2の値が前記第1属性の前記第2の値と相関があると判断される、請求項3に記載のコンピュータ実装方法。
  5. 第3属性の値も前記望ましくない相違に寄与していると1つ又は複数のプロセッサが判断する段階をさらに備え、前記第3属性の前記値が前記第1属性の前記第2の値と相関があると判断される、請求項3又は4に記載のコンピュータ実装方法。
  6. 1つ又は複数のプロセッサが、(i)訓練データセットの複数の列及び前記複数の列のそれぞれに対するそれぞれの制約を識別するスキーマと(ii)前記複数の列同士の既知の相関のリストとを含む訓練データを用いて、前記相関ルールマイニングモデルを訓練する段階をさらに備える、請求項1から5のいずれか一項に記載のコンピュータ実装方法。
  7. 前記リフト計算が、前記第1属性の前記第1の値と前記第2属性の前記値とが共に生じたデータエントリの数を、前記第1属性の前記第1の値が生じたデータエントリの数と前記第2属性の前記値が生じたデータエントリの数との積で割ることを含む、請求項1から6のいずれか一項に記載のコンピュータ実装方法。
  8. プロセッサに、
    (i)データセットと、(ii)コンピュータ決定アルゴリズムにより前記データセットのデータエントリ用に作成された出力クラス判定のセットと、(iii)前記データセットの第1属性の第1の値に起因する出力クラス判定と前記第1属性の第2の値に起因する出力クラス判定との望ましくない相違とを識別する手順と、
    前記データセットの第2属性の値が前記望ましくない相違に寄与していることを、
    (i)前記第1属性の前記第1の値を有する前記データエントリの第1グループと、(ii)前記第1属性の前記第2の値を有する前記データエントリの第2グループとを相関ルールマイニングモデルに提供することによって、且つ
    リフト計算に少なくとも部分的に基づいて前記相関ルールマイニングモデルにより生成される候補属性及び値のセットから前記第2属性の前記値を選択することによって
    判断する手順と
    を実行させるためのコンピュータプログラム。
  9. 前記プロセッサに、
    前記第1属性以外の、前記望ましくない相違に寄与している1つ又は複数の属性の値を識別するという要求をユーザから受信する手順と、
    前記第2属性の前記値が前記望ましくない相違に寄与しているとの前記判断を前記ユーザに通知することによって前記要求に応答する手順と
    をさらに実行させる、請求項8に記載のコンピュータプログラム。
  10. 前記第2属性の前記値が前記望ましくない相違に寄与していると判断する前記手順が、前記第2属性の前記値が前記第1属性の前記第1の値と相関があると判断する手順を含む、請求項8又は9に記載のコンピュータプログラム。
  11. 前記プロセッサに、前記第2属性の第2の値も前記望ましくない相違に寄与していると判断する手順であって、前記第2属性の前記第2の値が、前記第1属性の前記第2の値と相関があると判断される、手順を実行させる、請求項10に記載のコンピュータプログラム。
  12. 前記プロセッサに、第3属性の値も前記望ましくない相違に寄与していると判断する手順であって、前記第3属性の前記値が、前記第1属性に前記第2の値と相関があると判断される、手順をさらに実行させる、請求項10又は11に記載のコンピュータプログラム。
  13. 前記プロセッサに、
    (i)訓練データセットの複数の列及び前記複数の列のそれぞれに対するそれぞれの制約を識別するスキーマと、(ii)前記複数の列同士の既知の相関のリストとを含む訓練データを用いて、前記相関ルールマイニングモデルを訓練する手順をさらに実行させる、請求項8から12のいずれか一項に記載のコンピュータプログラム。
  14. 前記リフト計算が、前記第1属性の前記第1の値と前記第2属性の前記値とが共に生じたデータエントリの数を、前記第1属性の前記第1の値が生じたデータエントリの数と前記第2属性の前記値が生じたデータエントリの数との積で割ることを含む、請求項8から13のいずれか一項に記載のコンピュータプログラム。
  15. コンピュータシステムであって、前記コンピュータシステムが、
    1つ又は複数のプロセッサと、
    1つ又は複数のコンピュータ可読記憶媒体と、
    前記1つ又は複数のプロセッサのうちの少なくとも1つによる実行のために、前記1つ又は複数のコンピュータ可読記憶媒体に格納されたプログラム命令と
    を備え、前記格納されたプログラム命令が、
    (i)データセットと、(ii)コンピュータ決定アルゴリズムにより前記データセットのデータエントリ用に作成された出力クラス判定のセットと、(iii)前記データセットの第1属性の第1の値に起因する出力クラス判定と前記第1属性の第2の値に起因する出力クラス判定との望ましくない相違とを識別するプログラム命令と、
    前記データセットの第2属性の値が前記望ましくない相違に寄与していることを、
    (i)前記第1属性の前記第1の値を有する前記データエントリの第1グループと、(ii)前記第1属性の前記第2の値を有する前記データエントリの第2グループとを相関ルールマイニングモデルに提供することによって、且つ
    リフト計算に少なくとも部分的に基づいて前記相関ルールマイニングモデルにより生成される候補属性及び値のセットから前記第2属性の前記値を選択することによって
    判断するプログラム命令と
    を含む、コンピュータシステム。
  16. 前記格納されたプログラム命令がさらに、
    前記第1属性以外の、前記望ましくない相違に寄与している1つ又は複数の属性の値を識別するという要求をユーザから受信するプログラム命令と、
    前記第2属性の前記値が前記望ましくない相違に寄与しているとの前記判断を前記ユーザに通知することによって前記要求に応答するプログラム命令と
    を含む、請求項15に記載のコンピュータシステム。
  17. 前記第2属性の前記値が前記望ましくない相違に寄与していると判断する前記プログラム命令が、前記第2属性の前記値が前記第1属性の前記第1の値と相関があると判断するプログラム命令を含む、請求項15又は16に記載のコンピュータシステム。
  18. 前記格納されたプログラム命令がさらに、前記第2属性の第2の値も前記望ましくない相違に寄与していると判断するプログラム命令を含み、前記第2属性の前記第2の値が、前記第1属性の前記第2の値と相関があると判断される、請求項17に記載のコンピュータシステム。
  19. 前記格納されたプログラム命令がさらに、第3属性の値も前記望ましくない相違に寄与していると判断するプログラム命令を含み、前記第3属性の前記値が、前記第1属性に前記第2の値と相関があると判断される、請求項18に記載のコンピュータシステム。
  20. 前記格納されたプログラム命令がさらに、
    (i)訓練データセットの複数の列及び前記複数の列のそれぞれに対するそれぞれの制約を識別するスキーマと、(ii)前記複数の列同士の既知の相関のリストとを含む訓練データを用いて、前記相関ルールマイニングモデルを訓練するプログラム命令を含む、請求項15から19のいずれか一項に記載のコンピュータシステム。
JP2021166626A 2020-10-13 2021-10-11 コンピュータ実装方法、コンピュータプログラム及びコンピュータシステム(データセット間の相関検出) Pending JP2022064315A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/068,856 US20220114459A1 (en) 2020-10-13 2020-10-13 Detection of associations between datasets
US17/068,856 2020-10-13

Publications (1)

Publication Number Publication Date
JP2022064315A true JP2022064315A (ja) 2022-04-25

Family

ID=78399541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021166626A Pending JP2022064315A (ja) 2020-10-13 2021-10-11 コンピュータ実装方法、コンピュータプログラム及びコンピュータシステム(データセット間の相関検出)

Country Status (5)

Country Link
US (1) US20220114459A1 (ja)
JP (1) JP2022064315A (ja)
CN (1) CN114357056A (ja)
DE (1) DE102021123132A1 (ja)
GB (1) GB2600551A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7410209B2 (ja) * 2022-04-20 2024-01-09 Lineヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7433879B1 (en) * 2004-06-17 2008-10-07 Versata Development Group, Inc. Attribute based association rule mining
US9652745B2 (en) * 2014-06-20 2017-05-16 Hirevue, Inc. Model-driven evaluator bias detection
US11556838B2 (en) * 2019-01-09 2023-01-17 Sap Se Efficient data relationship mining using machine learning
US11416500B2 (en) * 2019-05-22 2022-08-16 Oracle International Corporation Control system for learning to rank fairness
US11526701B2 (en) * 2019-05-28 2022-12-13 Microsoft Technology Licensing, Llc Method and system of performing data imbalance detection and correction in training a machine-learning model
US20220044133A1 (en) * 2020-08-07 2022-02-10 Sap Se Detection of anomalous data using machine learning

Also Published As

Publication number Publication date
CN114357056A (zh) 2022-04-15
DE102021123132A1 (de) 2022-04-14
US20220114459A1 (en) 2022-04-14
GB202113647D0 (en) 2021-11-10
GB2600551A (en) 2022-05-04

Similar Documents

Publication Publication Date Title
US9949681B2 (en) Burnout symptoms detection and prediction
US10146586B2 (en) Managing a shared pool of configurable computing resources using a set of scaling factors and a set of workload resource data
US9973460B2 (en) Familiarity-based involvement on an online group conversation
US11245636B2 (en) Distributing computing resources based on location
US20170214695A1 (en) Context Sensitive Security Help
US20230107309A1 (en) Machine learning model selection
US11144879B2 (en) Exploration based cognitive career guidance system
US11928038B2 (en) Managing data sets based on user activity
US10534804B2 (en) Customized content for social browsing flow
JP2020536299A (ja) 改善されたパフォーマンスのためのユーザ・プロファイルの動的かつ自動的な変更を実施するための方法、コンピュータ・システム及びプログラム
JP2017532665A (ja) クラウド仮想マシンに対する脅威の検出への自動応答
US11893132B2 (en) Discovery of personal data in machine learning models
US20220284485A1 (en) Stratified social review recommendation
JP2022064315A (ja) コンピュータ実装方法、コンピュータプログラム及びコンピュータシステム(データセット間の相関検出)
US11574215B2 (en) Efficiency driven data collection and machine learning modeling recommendation
US11734586B2 (en) Detecting and improving content relevancy in large content management systems
US20190164232A1 (en) Automated skill recommendation in social neworks
US20190065582A1 (en) Cognitive data curation on an interactive infrastructure management system
US11520846B2 (en) Petition creation through social analytics
US20210397717A1 (en) Software information analysis
TW202301832A (zh) 使用基於用戶互動歷史之模型來增強移動設備中之驗證
JP2023550445A (ja) データアナリティクスにおけるデータアクセスポリシの自動調整
JP2023538941A (ja) コンテナ化された環境のインテリジェントバックアップ及び復元
US20210158720A1 (en) Automatic digital badge update system
US11240118B2 (en) Network mixing patterns

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220518

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240319