JP2023501343A - コンソーシアム共有のための機密データの教師なし抽象化のためのシステム及び方法 - Google Patents

コンソーシアム共有のための機密データの教師なし抽象化のためのシステム及び方法 Download PDF

Info

Publication number
JP2023501343A
JP2023501343A JP2022526021A JP2022526021A JP2023501343A JP 2023501343 A JP2023501343 A JP 2023501343A JP 2022526021 A JP2022526021 A JP 2022526021A JP 2022526021 A JP2022526021 A JP 2022526021A JP 2023501343 A JP2023501343 A JP 2023501343A
Authority
JP
Japan
Prior art keywords
customer
data
customers
standard
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022526021A
Other languages
English (en)
Inventor
ハリス、ブランドン
ケルトン、ユージン、アービング
ボルマー、チャズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/674,464 external-priority patent/US11461728B2/en
Priority claimed from US16/674,457 external-priority patent/US11676218B2/en
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023501343A publication Critical patent/JP2023501343A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Figure 2023501343000001
データ処理システムにおける標準顧客プロファイルを生成するための抽象化システムが、処理デバイスと、メモリとを有する。抽象化システムは、ネットワーク越しにコンピューティング・デバイスから顧客データを受け取り、顧客データに対する教師なし学習を実行して、共通する複数の特徴を有する複数の顧客のクラスタを生成し、クラスタが標準顧客を表すことを判断し、及び判断された標準顧客に基づいて複数の標準顧客プロファイルを格納することができ、標準顧客プロファイルは共通する複数の特徴についての複数のデータ分布を含む。抽象化システムはさらに、合成トランザクション・データを生成するために、標準顧客プロファイル及び付加的な標準顧客プロファイルをコグニティブ・システムに提供する。

Description

本発明は、一般に、トランザクション・データ・シミュレータを実装するコグニティブ・システム(cognitive system)に関し、より具体的には、情報のコンソーシアム共有のための機密データの教師なし抽象化のためのシステム及び方法に関する。
金融犯罪検知システム、例えばIBM(登録商標)Financial Crimes Alerts Insight with IBM Watson(登録商標)は、コグニティブ分析を利用して、銀行がマネーロンダリング及びテロ資金供与を検知するのを助けることができる。コグニティブ分析は、「正常な」金融活動を「疑わしい」活動と区別し、その区別情報を使用して、銀行についての予測モデルを構築する。予測モデルを訓練するためには、実際の金融顧客データの大規模なセットが必要である。
実際の顧客データは極めて慎重な扱いを要するため、限られた量の実際の顧客データしか銀行によって提供することができない。しかしながら、不正な状況を最も良くシミュレートし、異なるタイプの金融犯罪を検知するために、より多くのシミュレートされた顧客データ、例えば、実際的に見える、訓練用のトランザクション・データがより優れた予測モデルをもたらし得る。IBM、及びIBM Watsonは、世界中の多数の管轄区域において登録されているインターナショナル・ビジネス・マシーンズ・コーポレーションの商標である。従って、当技術分野において、前述の問題に対処する必要性がある。
第1の態様から見ると、本発明は、処理デバイスと、処理デバイスによって実行される命令を含むメモリとを含むデータ処理システムにおいて標準顧客プロファイルを生成するためのコンピュータ実施方法を提供し、この方法は、ネットワーク越しに複数のコンピューティング・デバイスから顧客データを受け取ることであって、顧客データは複数のエンティティに対する複数の顧客についての情報を含む、受け取ることと、処理デバイスにより、顧客データに対する教師なし学習を実行して、共通する複数の特徴を有する複数の顧客のクラスタを生成することと、処理デバイスにより、クラスタが標準顧客を表すと判断し、判断された標準顧客に基づいて複数の標準顧客プロファイルを格納することであって、標準顧客プロファイルは共通する複数の特徴についての複数のデータ分布を含む、判断及び格納することと、標準顧客に基づいて合成トランザクション・データを生成するために、複数の標準顧客プロファイルを複数のコンピューティング・デバイスの各々に提供することとを含む。
さらに別の態様から見ると、本発明は、処理デバイスと、データ処理システムにおいて標準顧客プロファイルを生成するための、処理デバイスによって実行される命令を含むメモリとを備える抽象化システムを提供し、この抽象化システムは、ネットワーク越しに複数のコンピューティング・デバイスから顧客データを受け取ることであって、顧客データは複数のエンティティに対する複数の顧客についての情報を含む、受け取ることと、処理デバイスにより、顧客データに対する教師なし学習を実行して、共通する複数の特徴を有する複数の顧客のクラスタを生成することと、処理デバイスにより、クラスタが標準顧客を表すと判断し、判断された標準顧客に基づいて複数の標準顧客プロファイルを格納することであって、標準顧客プロファイルは共通する複数の特徴についての複数のデータ分布を含む、判断及び格納することと、標準顧客に基づいて合成トランザクション・データを生成するために、複数の標準顧客プロファイルを複数のコンピューティング・デバイスの各々に提供することとを行うように構成される。
さらに別の態様から見ると、本発明は、データ処理システムにおいて標準顧客ファイルを生成するためのコンピュータ・プログラム製品を提供し、このコンピュータ・プログラム製品は、処理回路により可読であり、本発明のステップを実行する方法を実行するための、処理回路により実行される命令を格納するコンピュータ可読ストレージ媒体を含む。
さらに別の態様から見ると、本発明は、コンピュータ可読媒体上に格納され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、プログラムがコンピュータ上で実行されるとき、本発明のステップを実行するっための、ソフトウェア・コード部分を含む。
さらに別の態様から見ると、本発明は、プロセッサにより実行されるとき、方法を実行するコンピュータ・プログラム製品を提供し、この方法は、ネットワーク越しに複数のコンピューティング・デバイスから顧客データを受け取ることであって、顧客データは複数のエンティティに対する複数の顧客についての情報を含む、受け取ることと、処理デバイスにより、顧客データに対する教師なし学習を実行して、共通する複数の特徴を有する複数の顧客のクラスタを生成することと、処理デバイスにより、クラスタが標準顧客を表すと判断し、判断された標準顧客に基づいて複数の標準顧客プロファイルを格納することであって、標準顧客プロファイルは共通する複数の特徴についての複数のデータ分布を含む、判断及び格納することと、標準顧客に基づいて合成トランザクション・データを生成するために、複数の標準顧客プロファイルを複数のコンピューティング・デバイスの各々に提供することとを含む。
幾つかの実施形態によると、本開示は、データ処理システムにおいて標準顧客プロファイルを生成するためのコンピュータ実施方法を開示する。方法は、ネットワーク越しに複数のコンピューティング・デバイスから顧客データを受け取ることであって、顧客データは複数のエンティティに対する複数の顧客についての情報を含む、受け取ることと、処理デバイスにより、顧客データに対する教師なし学習を実行して、共通する複数の特徴を有する複数の顧客のクラスタを生成することと、クラスタが標準顧客を表すことを判断し、判断された標準顧客に基づいて複数の標準顧客プロファイルを格納することを含む、処理デバイスによりステップを実行することを含む。標準顧客プロファイルは共通する複数の特徴についての複数のデータ分布を含む。方法は、標準顧客に基づいて合成トランザクション・データを生成するために、複数の標準顧客プロファイルを複数のコンピューティング・デバイスの各々に提供することをさらに含む。
他の実施形態によると、本開示は、データ処理システムにおいて標準顧客プロファイルを生成するための抽象化システムを開示する。抽象化システムは、処理デバイスと、メモリとを含むことができる。抽象化システムは、ネットワーク越しに複数のコンピューティング・デバイスから顧客データを受け取ることができ、顧客データは複数のエンティティに対する複数の顧客についての情報を含む。抽象化システムは、顧客データに対する教師なし学習を実行して、共通する複数の特徴を有する複数の顧客のクラスタを生成し、クラスタが標準顧客を表すと判断し、判断された標準顧客に基づいて複数の標準顧客プロファイルを格納することもでき、標準顧客プロファイルは共通する複数の特徴についての複数のデータ分布を含む。抽象化システムはさらに、標準顧客に基づいて合成トランザクション・データを生成するために、複数の標準顧客プロファイルを複数のコンピューティング・デバイスの各々に提供することができる。
付加的な実施形態によると、本開示は、データ処理システムにおいて標準顧客を生成するための命令がそこに格納された非一時的コンピュータ可読媒体を説明し、この非一時的コンピュータ可読媒体は、すくなくとも1つの処理デバイスにより実行されたとき、開示される実施形態に従った開示される方法を実行する。
本開示の付加的な特徴及び利点は、添付図面を参照して続行する例示的な実施形態の以下の詳細な説明から明らかになるであろう。
本発明の上記及び他の態様は、添付図面と関連して読まれるとき、以下の詳細な説明から最もよく理解される。本発明を説明する目的で、現在好ましい実施形態が図面に示されるが、本発明は、開示された特定の手段に限定されないことが理解される。図面には、以下の図が含まれる。
開示される実施形態に従った、コンピュータ・ネットワークにおいてトランザクション・データ・シミュレータを実装するコグニティブ・システムの1つの例示的な実施形態のブロック図を示す。 開示される実施形態に従った、例示的な実施形態の態様を実施することができる例示的なデータ処理システムのブロック図を示す。 開示される実施形態に従った、抽象化システムの1つの例示的な実施形態の概略図を示す。 開示される実施形態に従った、顧客データから標準顧客への例示的なフローを示す。 開示される実施形態に従った、標準顧客を生成するためにデータを抽象化する方法の1つの例示的な実施形態のフローチャートを示す。 開示される実施形態に従った、抽象化システムによって生成される例示的な標準顧客の概略図を示す。 開示される実施形態に従った、トランザクション・データ・シミュレータの1つの例示的な実施形態の概略図を示す。 開示される実施形態に従った、トランザクション・データをシミュレートする方法の1つの例示的な実施形態のフローチャートを示す。 開示される実施形態に従った、複数の合成トランザクション・データを示す概略図を示す。
概要として、コグニティブ・システムは、人間のコグニティブ機能をエミュレートするために、ハードウェア論理もしくはソフトウェア論理、又はその両方で(ソフトウェアが実行されるハードウェア論理と組み合わせて)構成された専門コンピュータ・システム、又はコンピュータ・システムのセットである。これらのコグニティブ・システムは、人間のような(human-like)特性を考えの伝達及び操作に適用し、それにより、デジタル・コンピューティングの固有の強さと組み合わせると、高い精度及び回復力で問題を大規模に解決することができる。IBM Watson(登録商標)は、人間が読める言語を処理し、人間よりもはるかに高速かつ大規模に、人間のような精度でテキスト・パッセージ間の推論を識別できる、1つのそうしたコグニティブ・システムの一例である。一般に、そうしたコグニティブ・システムは、以下の機能を果たすことが可能である。すなわち、
人間の言語の複雑さ及び理解をナビゲートする、
膨大な量の構造化データ及び非構造化データを取り込み、処理する、
仮説を作成し評価する、
関連証拠のみに基づく応答を重み付けし、評価する、
状況特有のアドバイス、洞察、及び指針を提供する、
機械学習プロセスを通じて各々の反復及び相互作用により知識を向上させ、学習する、
影響を受けた時点における意思決定を可能にする(文脈上の指針)、
タスクに比例して拡大縮小する、
人間の専門知識及び認知(cognition)を拡張し、拡大する、
自然言語から、共鳴する人間のような属性及び特徴を識別する、
自然言語から、種々の言語固有の属性又は不可知論的属性を推定する、
データ点(画像、テキスト、音声)からの高度な関連想起(暗記、呼び出し)、
経験に基づいて人間の認知を模倣する状況認識により予測し、感知する、
自然言語及び特定の証拠に基づいて質問に答える。
一態様において、コグニティブ・システムをトランザクション・データ・シミュレータで増強し、金融機関、例えば銀行からの顧客トランザクション・データのセットをシミュレートすることができる。シミュレートされた顧客トランザクション・データは、それが金融機関からの「実際の」顧客トランザクション・データでなかったとしても、金融犯罪を識別するための予測モデルを訓練するために使用することができる。
トランザクション・データ・シミュレータは、多層の教師なしクラスタ化手法(multi-layered unsupervised clustering approach)を対話型強化学習(interactive reinforcement learning、IRL)モデルと組み合わせて、「標準顧客」のように行動するように学習したインテリジェント・エージェントの大規模なセットを作成する。
実施形態において、多層の教師なしクラスタ化手法は、様々な期間にわたる「標準顧客」の数百の属性を含む情報を用いて、(銀行により提供される実際の顧客トランザクション・データから抽出された)標準顧客のトランザクション行動の大規模なセットを作成する。各標準顧客トランザクション行動は、類似したトランザクション特性を有する顧客のグループと関連付けることができる。インテリジェント・エージェントは、人工顧客プロファイルを生成し、生成された人工顧客プロファイルと組み合わせられる標準顧客トランザクション行動の1つを選択する。このようにして、インテリジェント・エージェントは「標準顧客」をシミュレートし、「標準顧客」のように行動するように学習することができる。次に、インテリジェント・エージェントには、ある期間(例えば、10年)が与えられ、その間に、インテリジェント・エージェントは、環境、(例えば、表現される「標準顧客」の過去の行動)を観察し、表現される「標準顧客」の標準顧客トランザクション行動に類似した「偽の」顧客トランザクションを実行するように学習することができる。標準顧客トランザクション行動の各要因は、統計データとすることができる。例えば、標準顧客トランザクション行動のトランザクション金額は、ある範囲の値とすることができ、例えば、標準顧客トランザクション行動のトランザクション金額は、$20~$3,000とすることができる。標準顧客トランザクション行動のトランザクション場所は、統計的に提供することができ、例えば、トランザクション場所の30%はショッピングモールであり、トランザクション場所の50%はレストランであり、トランザクション場所の20%はガソリンスタンドである。標準顧客トランザクション行動のトランザクション・タイプは、統計的に提供することができ、例えば、トランザクション・タイプの20%は小切手支払いであり、トランザクション・タイプの40%はPOS支払いであり、トランザクション・タイプの25%はATM引出しであり、トランザクション・タイプの15%は電信送金である。標準顧客トランザクション行動のトランザクション媒体は、統計的に提供することができ、例えば、トランザクション媒体の15%は現金であり、トランザクション媒体の45%はクレジットカードであり、トランザクション媒体の25%は当座預金口座であり、トランザクション媒体の15%はPayPal(登録商標)である。
実施形態において、複数の実際の顧客プロファイル・データから、多数の人工顧客プロファイルが生成される。実際の顧客プロファイル・データは、1又は複数の銀行によって提供され得る。各々の実際の顧客プロファイルは、顧客の住所、顧客の名前(顧客は、法人又は個人とすることができる)、電話番号、電子メール・アドレスなどの連絡先情報、クレジット・スコア、クレジット・レポートなどの信用情報、収入情報(例えば、法人の年間収益、又は個人の賃金)などを含むことができる。実際の顧客プロファイル・データは、異なるカテゴリ下に格納される。例えば、企業顧客(すなわち、法人)は、企業顧客のサイズ、製品又はサービスに基づいて、異なるカテゴリに分けることができる。人工顧客プロファイルは、全ての実際の顧客プロファイル・データをランダムに検索することによって生成することができる。例えば、人工顧客プロファイルは、住所、名、姓、電話番号、電子メール・アドレス、クレジット・スコア、収益もしくは賃金などを含むランダムに選択された情報を組み合わせることによって生成することができる。このように、生成された人工顧客プロファイルは、実際の顧客プロファイル・データから情報の異なる部分を抽出し、従って、実際的な顧客プロファイルのように見える。金融トランザクション人工顧客プロファイル。
実施形態において、実際の顧客のプライバシーを保護するために、ランダムに選択する前に、住所、名前などの複合情報を複数の部分に分割することができる。例えば、住所「2471 George Wallace Street」を解析して3つの部分、すなわち、〔数字〕「2471」、〔名前〕「George Wallace」及び〔接尾辞〕「Street」にすることができる。これらの部分を個別にランダムに選択して、人工顧客プロファイルを形成することができる。さらに別の実施形態では、住所、名前などの人工顧客プロファイルの複合情報を、実際の顧客プロファイルの複合情報と比較する。類似度が所定の閾値を上回る場合、人工顧客プロファイルは受け入れられず、類似度が所定の閾値を下回るまで、更新する必要がある。
図1は、コンピュータ・ネットワーク114においてトランザクション・データ・シミュレータ110及び抽象化システム120を実装するコグニティブ・システム100の1つの例示的な実施形態の概略図を示す。コグニティブ・システム100は、コンピュータ・ネットワーク114に接続された1つ又は複数のコンピューティング・デバイス112(1つ又は複数の処理デバイス及び1つ又は複数のメモリ、並びに、潜在的に、バス、ストレージ・デバイス、通信インターフェースなどを含む当技術分野において一般的に知られている他の任意のコンピューティング・デバイス要素を含む)上に実装される。コンピュータ・ネットワーク114は、1又は複数の有線データ通信リンクもしくは無線データ通信リンク又はその両方を介して互いに、及び他のデバイスもしくはコンポーネントと通信する複数のコンピューティング・デバイス112を含み、各通信リンクは、有線、ルータ、スイッチ、送信機、受信機などのうちの1つ又は複数を含む。コグニティブ・システム100の他の実施形態は、本明細書に示されるもの以外のコンポーネント、システム、サブシステム、もしくはデバイス、又はそれらの組み合わせと共に使用することもできる。コンピュータ・ネットワーク114は、種々の実施形態におけるローカル・ネットワーク接続及びリモート接続を含むので、コグニティブ・システム100は、ローカル、及び例えばインターネットなどのグローバルを含む任意のサイズの環境で動作することができる。コグニティブ・システム100は、標準顧客トランザクション・データ106(すなわち、標準顧客トランザクション行動)をシミュレートすることができるトランザクション・データ・シミュレータ110を実装するように構成される。トランザクション・データ・シミュレータ110は、標準顧客トランザクション・データ106に基づいて、シミュレートされた顧客トランザクション・データ108の大規模なセットを生成し、シミュレートされた顧客トランザクション・データ108が実際の顧客トランザクション・データのように見えるようにすることができる。実施形態において、標準顧客トランザクション・データ106は、教師なしクラスタ化手法を通じて得られる。1又は複数の銀行によって、大量の顧客トランザクション・データを含む生の顧客データが提供され、教師なしクラスタ化手法を通じて、生の顧客データから、銀行顧客の異なる特性を表す小グループの大規模なセットがクラスタ化又はグループ化される。各小グループは、類似した特性を有する顧客からのトランザクション・データを含む。例えば、グループAはニューヨークで特許法に携わる独身の弁護士である顧客を表し、グループBはニューヨークで商法に携わる既婚の弁護士である顧客を表す。
抽象化システム120は、ハードウェアもしくはソフトウェア、又はその両方で実装され、標準顧客トランザクション・データ106の教師なし抽象化を実行して、実際の顧客の抽象的表現であるが、機密情報を暴露することがある追跡可能な顧客情報を含まない1又は複数の標準顧客を生成するように構成される。例示的な実施形態において、抽象化システム120は、反復される教師なし学習ステップを実行して、実際の顧客データをクラスタ化及びサブクラスタ化し、顧客の小グループを表す標準顧客を生成するように構成される。
図2は、例示的な実施形態の態様が実施される例示的なデータ処理システム200のブロック図である。データ処理システム200は、本発明の例示的な実施形態のためのプロセスを実施するコンピュータ使用可能コード又は命令が配置される、コンピュータの一例である。一実施形態において、図2は、本明細書に説明されるコグニティブ・システム100の少なくとも一部を実施するトランザクション・データ・シミュレータ110を表す。
示される例では、データ処理システム200は、ノース・ブリッジ及びメモリ・コントローラ・ハブ(NB/MCH)201と、サウス・ブリッジ及び入力/出力(I/O)コントローラ・ハブ(SB/ICH)202とを含むハブ・アーキテクチャを利用することができる。処理ユニット203、メイン・メモリ204、及びグラフィックス・プロセッサ205は、NB/MCH201に接続することができる。グラフィックス・プロセッサ205は、アクセラレーテッド・グラフィックス・ポート(accelerated graphics port、AGP)を通してNB/MCH201に接続することができる。
示される例では、ネットワーク・アダプタ206は、SB/ICH202に接続される。音声アダプタ207、キーボード及びマウス・アダプタ208、モデム209、読み出し専用メモリ(ROM)210、ハード・ディスク・ドライブ(HDD)211、光学ドライブ(CD又はDVD)212、ユニバーサル・シリアル・バス(USB)ポート及び他の通信ポート213、並びにPCI/PCIeデバイス214は、バス・システム216を通してSB/ICH202に接続することができる。PCI/PCIeデバイス214は、イーサネット・アダプタ、アドイン・カード、及びノートブック・コンピュータ用のPCカードを含むことができる。ROM210は、例えば、フラッシュ基本入力/出力システム(BIOS)とすることができる。HDD211及び光学ドライブ212は、インテグレイテッド・ドライブ・エレクトロニクス(integrated drive electronics、IDE)、又はシリアル・アドバンスド・テクノロジー・アタッチメント(serial advanced technology attachment、SATA)インターフェースを使用することができる。スーパーI/O(SIO)デバイス215は、SB/ICH202に接続することができる。
オペレーティング・システムは、処理ユニット203上で動作することができる。オペレーティング・システムは、データ処理システム200内の種々のコンポーネントの制御を調整及び提供する。クライアントとして、オペレーティング・システムは、市販のオペレーティング・システムとすることができる。Java(商標)プログラミング・システムなどのオブジェクト指向プログラミング・システムは、オペレーティング・システムと共に動作し、データ処理システム200上で実行されるオブジェクト指向プログラム又はアプリケーションからオペレーティング・システムへの呼び出しを提供することができる。サーバとして、データ処理システム200は、Advanced Interactive Executiveオペレーティング・システム又はLINUX(登録商標)オペレーティング・システムを実行する、IBM(登録商標)eServer(商標)System pとすることができる。登録商標Linux(登録商標)は、世界規模での商標の所有者であるLinus Torvaldsの専用実施権者であるLinux Foundationからのサブライセンスに準拠して用いられる。eServerは、世界中の多くの管轄区域において登録されたインターナショナル・ビジネス・マシーンズ・コーポレーションの商標である。データ処理システム200は、処理ユニット203内に複数のプロセッサを含むことができる対称型マルチプロセッサ(SMP)システムとすることができる。代替的に、シングル・プロセッサ・システムを利用することもできる。
オペレーティング・システム、オブジェクト指向プログラミング・システム及びアプリケーション又はプログラムに対する命令は、HDD211などのストレージ・デバイス上に配置され、メイン・メモリ204にロードされ、処理ユニット203により実行される。ウェブサイト・ナビゲーション・システムの実施形態のためのプロセスは、例えば、メイン・メモリ204、ROM210などのメモリ、又は1つ又は複数の周辺デバイス内に配置することができるコンピュータ使用可能プログラム・コードを用いて処理ユニット203により実行することができる。
バス・システム216は、1つ又は複数のバスを含むことができる。バス・システム216は、ファブリック又はアーキテクチャに取り付けられた異なるコンポーネントもしくはデバイス間のデータの転送を提供することができる任意のタイプの通信ファブリック又はアーキテクチャを用いて実装することができる。モデム209又はネットワーク・アダプタ206などの通信ユニットは、データを送受信するために使用することができる1つ又は複数のデバイスを含むことができる。
当業者であれば、図2に示されるハードウェアは、実装に応じて変化し得ることを理解するであろう。例えば、データ処理システム200は、抽象化システム120の幾つかの実施形態内に直接含まれない幾つかのコンポーネントを含む。しかしながら、トランザクション・データ・シミュレータ110は、開示される実施形態に従った処理方法及びステップを実行するためのデータ処理システム200のコンポーネント及び構成の1つ又は複数を含み得ることを理解されたい。
さらに、示されるハードウェアに加えて、又はその代わりに、フラッシュ・メモリ、同等の不揮発性メモリ、又は光学ディスク・ドライブなどの、他の内部ハードウェア又は周辺デバイスを使用することもできる。さらに、データ処理システム200は、これらに限定されるものではないが、クライアント・コンピューティング・デバイス、サーバ・コンピューティング・デバイス、タブレット・コンピュータ、ラップトップ・コンピュータ、電話又は他の通信デバイス、携帯情報端末などを含む多数の異なるデータ処理システムのいずれかの形をとることもできる。本質的に、データ処理システム200は、アーキテクチャ上の制限なしに、あらゆる既知の又は後で開発されるデータ処理システムとすることができる。
図3は、抽象化システム120の1つの例示的な実施形態の概略図である。幾つかの実施形態において、抽象化システム120は、メイン・メモリ204内に格納された複数のモジュールを含むことができる。複数のモジュールは、ハードウェアもしくはソフトウェア、又はその両方の形で実装することができる。抽象化システム120は、データ収集モジュール310、教師なし学習モジュール320、標準顧客モジュール330、及び境界モジュール340を含むことができる。幾つかの実施形態において、抽象化システム120はさらに、1つ又は複数のデータ・リポジトリ250を含むこと、及び/又はそれに接続することができる。
データ収集モジュール310は、コンピューティング・デバイス112から顧客データを受け取るように構成することができる。顧客データは、実際の顧客データとすることができる。例えば、顧客データ106は、金融機関からのものであり、識別情報、トランザクション情報等のような情報を含む。顧客データ106は、情報の個々のカテゴリとして別個に格納された種々の特徴を含むことができる。例えば、顧客データ106は、支出データ、支払いデータ、期間データ、場所データなどを含むことができる。幾つかの実施形態において、データ収集モジュール310は、複数の金融機関からなど、複数のコンピューティング・デバイス112からデータを収集するように構成することができる。幾つかの実施形態において、データ収集モジュール310は、フィルタリング・プロセスを実行して分析用のデータのグループを作成するように構成することができる。例えば、データ収集モジュール310は、顧客の手動又は自動カテゴリ化を用いて、類似した顧客(例えば、個人、会社、小売店、サービスなど)のプールを作成することができる。
教師なし学習モジュール320は、データセットに対する教師なし学習を実施するように構成することができる。教師なし学習は、例えば、データ内に見出されるパターン、傾向もしくは他の類似性、又はそれらの組み合わせに基づいて、データの1つ又は複数のサブセットをグループ化するように構成されたクラスタ化アルゴリズムとすることができる。教師なし学習モジュール320は、グルーピングへの手動入力なしに(従って「教師なし」学習)クラスタ化プロセスを実施するように構成することができる。その結果、クラスタは、ユーザが、データをグループ化すべきことをどのくらい信じることができるかというバイアスから免れることが可能である。
標準顧客モジュール330は、教師なし学習モジュールの出力からクラスタ又はグループを抽出し、データ収集モジュールからの入力データに基づいた標準顧客プロファイルを生成及び格納するように構成することができる。標準顧客モジュール330は、クラスタの一般的なサニティ・チェック(サンプル・サイズ、統計的有意性など)を実施し、クラスタ又はサブクラスタをいつ標準顧客とみなすことができるかを判断することができる。
境界モジュール340は、1つ又は複数の境界に従って収集された顧客データをさらに分割するように構成することができる。例えば、境界モジュール340は、異なる観点から、個々の顧客もしくは標準顧客、又はその両方を分析できるように、1つ又は複数のパラメータに従ってデータをさらにフィルタリングするように構成された統計モジュールもしくはタイム・スライシング・モジュール、又はその両方とすることができる。例えば、境界モジュール340は、2つ又はそれより多い特徴(例えば、トランザクション情報及び時間情報)に基づいてデータのサブカテゴリを作成することができる。例えば、データ収集モジュール310によって収集された顧客データは、1年にわたって顧客についてのトランザクション情報を提供することができる。境界モジュール340は、その年にわたってデータに関する期間境界を設定し、データ点とみなすことができる付加的な特徴を識別することができる。例えば、境界モジュール340は、「休日の支出」、「休暇の支出」、「昼食時の支出」、「貯蓄期間」等に対するカテゴリを作成することができる。従って、境界モジュール340は、顧客データをさらに細分し、カテゴリ化するために使用することができる。幾つかの実施形態において、境界モジュール340は、これらの原理を標準顧客に適用することができる。例えば、境界モジュール340は、特定の期間におけるデータをグループ化することによって、又は他の統計的境界に基づいて、確立された顧客行動から付加的な標準顧客行動を導出することができる。
図4は、顧客データ106に対して教師なし学習を使用し、データ抽象化を用いて1つ又は複数の標準顧客プロファイルを生成するためのプロセス・フローの図である。データ抽象化の結果として、顧客データ106は、プライバシーの問題なしに、それを局所的に保存及び格納できる点まで抽象化/集約される。幾つかの実施形態において、データ収集モジュール310は、1つ又は複数のコンピューティング・デバイス112から顧客データ106を受け取ることができる。データ収集モジュール310は、データの初期フィルタリング405を実施することができる。例えば、データ収集モジュール310は、RFM(最新性(recency)、頻度(frequency)、金銭的価値(monetary value))分析を行って、顧客データ106からのデータをサブグループ化することができる。教師なし学習モジュール320は、クラスタ化プロセス410を行って、1つ又は複数のデータ・クラスタ415を作成することができる。1つ又は複数のデータ・クラスタ415は、クラスタ化プロセス410として適用された教師なし学習アルゴリズムに基づいた顧客のグルーピングとすることができる。クラスタ415は、顧客データ内の1つ又は複数の特徴の類似性に基づくことができる。例えば、クラスタ415の「クラスタ1」は、特定の地理的領域内の全ての顧客とすることができ、クラスタ415の「クラスタ2」は、1年当たり特定の量を費やす、1年当たり特定の量より少なく預金する等、特定の年齢にわたる全ての顧客とすることができる。教師なし学習410は、任意の数のクラスタ415を生成することができ、顧客は、1より多いクラスタ内にあってもよい。
教師なし学習モジュール320は、付加的なクラスタ化プロセス420を行って、1つ又は複数のサブクラスタ425を作成することができる。この教師なし学習モジュール320は、データにおける付加的な類似度に基づいて顧客のさらなるグループ化を通じて、サブクラスタ425を生成することができる。例えば、場所に基づいた初期クラスタ415における顧客の場合、サブクラスタは、年齢、職業、支出、トランザクション詳細などに基づくことができる。サブクラスタ425を生成するための教師なし学習420は、標準顧客モジュール330が標準顧客430とみなされるサブクラスタのクラスを識別するまで、任意の回数繰り返すことができる。例えば、標準顧客モジュール330は、顧客の数もしくはグループ内の類似した特徴、又はその両方といった特定の基準を満たすクラスタを選択することができる。顧客モジュール330は、これらを、標準顧客430として、実際的な顧客データを再生するために使用できる「抽象的」顧客として用いられるプロファイルとして格納することができる。例えば、トランザクション・データ・シミュレータ110と共に使用するために、標準顧客430をコグニティブ・システム100に提供することができる。
図5は、実際的なものではあるが、実際のデータにさかのぼることはできない合成トランザクション・データの生成で用いる、顧客データを抽象的標準顧客に変換するための例示的なプロセス500である。ステップ510において、データ収集モジュール310は、顧客データを受け取り、フィルタリングする。ステップ520において、教師なし学習モジュール320は、アルゴリズムをデータに適用し、少なくとも1つの特徴におけるその類似度に基づいて顧客のクラスタを生成する。ステップ530において、教師なし学習モジュールは、クラスタに対して教師なし学習を実施して、顧客のサブクラスタ及び顧客特徴を生成する。クラスタ化プロセスは、必要に応じて繰り返し、顧客のより小さい及びより特定のグループを生成することができる。少なくとも幾つかの実施形態において、各教師なし学習ステップは、データ特徴を顧客のグルーピングに付加する。
ステップ540において、標準顧客モジュール330は、教師なし学習を通じてデータのクラスタ及びサブクラスタに基づいて標準顧客を決定する。標準顧客モジュール330は、規則データベースを使用して、クラスタがいつ標準顧客とみなされるかを判断する。例えば、標準顧客モジュール330は、グルーピングにおけるデータ特徴の数及び顧客の数を閾値と比較し、グループが標準顧客とみなすのに十分なデータもしくは少ないデータ、又はその両方を有するかどうかを判断することができる。
ステップ550において、境界モジュール340はさらに、付加的な標準顧客を導出することができる。例えば、幾つかの実施形態において、境界モジュール340は、顧客プロファイルに適合するそのデータの一部に基づいて、顧客を標準顧客プロファイルに付加することができる。例えば、境界モジュール340は、顧客データに対して境界操作(bounding operation)を行って、特定の境界が適用されたときに標準顧客プロファイルに適合する顧客を識別することができる。例えば、境界モジュール340は、クラスタ又は標準顧客プロファイルを選択し、時間の要素を考えるときに、付加的な分析を実施して顧客の行動の進化を見ることができる。他の例では、境界モジュール340は、統計的境界を適用して、付加的な標準顧客を導出することができる。
ステップ560において、抽象化システム120は、標準顧客をコグニティブ・システム100に提供することができる。コグニティブ・システムは、標準顧客を入力として使用し、標準顧客の行動に適合するが、オリジナルの実際の顧客データにさかのぼることはできない新しい合成トランザクション・データ108を作成することができる。結果として、実際の顧客データ106は、実際的なものであるが、実際の機密顧客データを暴露しないことに依存し得る人工顧客データ108を作成するために使用される。
図6は、顧客データ106に基づいて1つ又は複数の開示されるプロセスを通じて生成することができる標準顧客610、620を表すものである。例示的な実施形態において、標準顧客610、620は、標準顧客610、620を構成するグルーピング内に存在する顧客を記述する複数の特徴を含む。例えば、特徴1は顧客の年齢を含み、特徴2は顧客の収入を含み、特徴3は顧客の支出を含むことができる等。標準顧客610、620を構成する特徴の少なくとも幾つかは、データの分布として表すことができる。例えば、分布は、標準顧客プロファイル内の各顧客についてのデータ点を有するデータの分布とすることができる。従って、分布は、実際の顧客データを表すが、実際のデータが暴露されないように、抽象化された一般的な統計的表示となっている。
図7は、トランザクション・データ・シミュレータ110の1つの例示的な実施形態の概略図を示す。トランザクション・データ・シミュレータ110は、強化学習技術を利用して、金融トランザクション・データをシミュレートする。トランザクション・データ・シミュレータ110は、インテリジェント・エージェント702と、環境704とを含む。インテリジェント・エージェント702は、類似したトランザクション特性を有する「顧客」のグループを表す標準トランザクション行動720(すなわち、ゴール720)をランダムに選択し、標準トランザクション行動を、ランダムに選択された人工顧客プロファイル718と関連付ける。インテリジェント・エージェント702は、各反復において、アクション712を取る。本実施形態では、各反復において取られるアクション712は、1日に複数のトランザクションを行うことを含む。各トランザクションは、トランザクション・タイプ(例えば、自動決済機関(Automated Clearing House、ACH)送金、小切手支払い、電信送金、現金自動預払機(Automated Teller Machine、ATM)引出し、販売時点管理(Point of Sale、POS)支払いなど)、トランザクション金額、トランザクション時間、トランザクション場所、トランザクション媒体(例えば、現金、クレジットカード、デビットカード、PayPal(登録商標)、当座預金口座など)、トランザクションに関連するセカンド・パーティ(例えば、電信送金支払いを受け取る人)などを含む情報を有する。環境704は、アクション712を入力として受け取り、環境704からリワード(reward)714(又はフィードバック)及び状態716を出力として返す。リワード714は、アクション712の成功又は失敗を測定するフィードバックである。本実施形態では、環境704は、アクション712をゴール720(例えば、標準トランザクション行動)と比較する。アクション712が所定の閾値を超えてゴール720から逸脱する場合、インテリジェント・エージェント702はペナルティを課され、方、アクション712が所定の閾値の範囲内でゴール720から逸脱する(すなわち、アクション712がゴール720に類似している)場合、インテリジェント・エージェント702にリワードが与えられる。アクション712が有効に評価されるので、インテリジェント・エージェント702は、リワード714に基づいて次のアクション712を改善することができる。本実施形態では、環境704は、インテリジェント・エージェント702によって取られた全ての古いアクションのセットである、すなわち、環境704は、全ての古いシミュレートされたトランザクションのセットである。インテリジェント・エージェント702は、環境704を観察し、古いトランザクションに関する情報、例えば、1日、1週間、1ヶ月、又は1年以内に行われたトランザクションの数、各トランザクション金額、勘定残高、各トランザクション・タイプなどを取得する。ポリシー・エンジン706は、観察に基づいてポリシーを調整することができるので、インテリジェント・エージェント702は、次の反復においてより良いアクション712を取ることができる。
インテリジェント・エージェント702は、状態716及びリワード714に基づいてポリシーを調整するように構成されたポリシー・エンジン706をさらに含む。ポリシーは、状態716及びリワード714に基づいて次のアクション712を決定するために、インテリジェント・エージェント702が利用する戦略である。ポリシーは、インテリジェント・エージェント702によって取られる次のアクション712に対してより大きいリワード714を得ることを目的として、調整される。ポリシーは、特定の日にトランザクションが実行されるかどうか、1日当たりのトランザクションの数、トランザクション金額、トランザクション・タイプ、トランザクション・パーティなどを決定するために使用できる異なるポリシー確率又は意思決定確率のセットを含む。強化学習モデルにおいて、イベントの結果はランダムであり、乱数発生器(RNG)は、ランダム性の真の源から乱数を生成するシステムである。一例として、1日当たりの最大トランザクション数は100であり、最大トランザクション金額は$1,500万である。最初の反復において、ジンバブエに対するトランザクション金額が$1,500万であるランダム・トランザクションが、インテリジェント・エージェント702によって行われる。このアクション712は、ゴール720(例えば、メイン州で商法に携わる既婚の弁護士によって行われるトランザクション)から大きく逸脱しており、従って、このアクション712にペナルティが課される(すなわち、リワード714はネガティブである)。ポリシー・エンジン706は、ゴール720により近い異なるトランザクションを行うことができるように、ポリシーを調整するように訓練される。より多くの反復により、ゴール720に類似したトランザクションを、「より高性能の」ポリシー・エンジン706によってシミュレートすることができる。図8に示すように、顧客「James Culley」からの複数のトランザクションがシミュレートされ、シミュレートされたトランザクション・データは、ゴール720に類似している。
図7に示されるように、実施形態において、1つのフィードバック・ループ(すなわち、1回の反復)は、アクションの1「日」(すなわち、シミュレートされたトランザクションの1「日」)に対応する。ある期間の間、例えば10年間、インテリジェント・エージェント702は、リワード714を、可能な限り高く得るために、どのようにアクション712を取るかを学習する。反復の回数は、持続時間に対応する。例えば、10年間は、10×365=3650回の反復に対応する。強化学習は、アクション712が生み出す結果によって、アクション712を評価する。それはゴール720重視であり、その目的は、そのゴール720を達成するようにインテリジェント・エージェント702を導く又はその目的関数を最大化するアクション712のシーケンスを学習することである。
実施形態において、トランザクション・データ・シミュレータ110は、アップデータ710をさらに含む。各反復において、新しいアクション712が実行される。各反復の後、アップデータ710は、環境704を、インテリジェント・エージェント702によって取られたアクション712で更新する。アップデータ710により、各反復において取られたアクション712が環境704に追加される。実施形態において、トランザクション・データ・シミュレータ110は、環境704をプルーニングするように構成されたプルーナ708をさらに含む。実施形態において、プルーナ708は、1つ又は複数の望ましくないアクションを除去することができる。例えば、最初の10回の反復において取られたアクション712は、これらの10回の反復がゴール720から大きく逸脱しており、類似度が所定の閾値を下回るため、除去される。別の実施形態では、トランザクション・データ・シミュレータ110の完全な再初期化を実行して、環境704内の全ての蓄積されたアクションを除去することができるので、インテリジェント・エージェント702は、最初からやり直すことができる。
図8は、トランザクション・データをシミュレートする方法800を示す1つの例示的な実施形態のフローチャートを示す。ステップ802において、標準顧客トランザクション行動データがゴール720として提供される。標準顧客トランザクション行動は、類似したトランザクション特性を有する顧客のグループを表す。標準顧客トランザクション行動は、教師なしクラスタ化手法を通じて取得される。
ステップ804において、例えば1日を表す反復において、複数のトランザクション(例えば、1日当たり100のトランザクション)を行うために、アクション712が取られる。各々のトランザクションは、トランザクション・タイプ、トランザクション金額、トランザクション時間、トランザクション場所、トランザクション媒体、トランザクションと関連付けられたセカンド・パーティなどを含む情報を有する。
ステップ806において、環境704は、ゴール720を、この反復において取られたアクション712と比較し、ゴール720との類似性又はそれからの逸脱に基づいてアクション712にリワードを与えるか又はペナルティを課す。アクション712がゴール720に類似しているかどうかを判断するための閾値又は規則は、事前に定義され、ユーザが好むゴール720にどれだけ類似しているかに基づいて調整することができる。
ステップ808において、環境704は、現在の反復におけるアクション712を含むように更新される。環境704は、全ての古いアクションのセットを含む。
ステップ810において、ポリシー・エンジン706は、リワード714(すなわち、リワード又はペナルティ)に基づいて、次のアクション712を決定するためにポリシーを調整する。ポリシーは、様々な要因、例えば、トランザクションの発生確率、1日当たりのトランザクションの数、トランザクション金額、トランザクション・タイプ、トランザクション・パーティ、各トランザクション・タイプのトランザクション頻度、各トランザクションについての上限及び下限、トランザクション媒体などに基づいて作成される。ポリシーは、各反復におけるリワード714に基づいて、これらの要因の重みを調整することができる。
ステップ812において、新しい反復において、インテリジェント・エージェント702は、新しいアクション712を取る。ステップ804乃至812は、アクション712がゴール720に十分に類似するまで、繰り返される(ステップ814)。例えば、ゴール720で指定されたトランザクション金額は、$20~$3,000である。アクション712における各トランザクションのトランザクション金額が$20~$3,000の範囲に入る場合、アクション712はゴール720に十分に類似している。
標準顧客トランザクション・データ106は、異常データ、例えば、不正トランザクションを含むことがあり、シミュレートされた顧客トランザクション・データ108は標準顧客トランザクション・データ106と類似しているので、シミュレートされた顧客トランザクション・データ108は、異常データを含むこともある。強化学習モデルでは、インテリジェント・エージェント702は、環境704をランダムに又は確率的に探索し、その経験からポリシーを学習し、探索時にポリシーを更新して、インテリジェント・エージェント702の行動(すなわち、トランザクション)を改善する。実施形態において、ランダム・アクションとは対照的に、行動パターン(例えば、貯金を使い果たすまでの「散財」、又は1つの大きな買物に対する「購入者の反省」の経験など)が、RNGベースの探索の際に発生することがある。異常行動パターンは、不正トランザクションを示すことがある。例えば、シミュレートされた顧客James Culleyは、通常、$1,000を下回るトランザクション金額のトランザクションを行うことができる。突然、$5,000のトランザクション金額を有するトランザクションがあり、この疑わしいトランザクションは不正トランザクションである可能性がある(例えば、James Culleyのクレジットカードが盗まれる、又はJames Culleyの当座預金口座がハッキングされるなど)。
探索の際に自然に現れる行動パターンがある。例えば、図9に示すように、シミュレートされた顧客James Culleyは、2014年1月1日に当座預金口座に$12,387.71の金額を受け取った。James Culleyは、当座預金口座と関連付けられたデビットカードを通じて、2014年1月9日に$474.98、2014年1月31日に$4,400、2014年3月2日に$3,856.55を使った。翌月、James Culleyは、2014年2月1日に当座預金口座に$12,387.71の金額を受け取った。James Culleyは、当座預金口座と関連付けられたデビットカードを通じて、2014年2月2日に$4,500、2月3日に$1,713.91を使い、2014年6月27日に当座預金口座から$8,100を送金した。この例では、このシミュレートされた顧客James Culleyは、節約及び支出(save-and-spend)傾向があり、時折、高額な買い物をすることがある。この行動パターンにより、このシミュレートされた顧客James Culleyを、より実際的に行動させる(すなわち、ロボットではなく、実際の顧客のように見える)。ポリシー・エンジン706により、「行動の一貫性」(ある期間における行動の一貫性の度合い)、「一貫性の変動性」(行動変容の頻度)、「行動異常」(通常のトランザクション行動からの逸脱)などの複数のパラメータが生成され、それらは、各々のシミュレートされた顧客の異なる性格を示すために使用される。
トランザクション・データ・シミュレータ110は、抽象化された又は集約された実際の顧客データを使用して、実際の顧客を表す顧客データをシミュレートする。トランザクション・データ・シミュレータ110は、異常な顧客行動を検知するための予測モデルを訓練するために使用することができる、シミュレートされた顧客データ(すなわち、人工顧客プロファイルと組み合わせられた、シミュレートされたトランザクション・データ)の大規模なセットを提供することができる。さらに、シミュレートされた顧客データは、実際の生の顧客データ自体ではなく、実際の生の顧客データの抽象化データに基づいて生成されるため、任意の実際の顧客の実際のトランザクション・アクションを導出することはできない。
さらに、トランザクション・データ・シミュレータ110は、反復の際、各々のシミュレートされた顧客についての行動パターンの生成を可能にする。
図のシステム及びプロセスは、限定ではない。同じ目的を達成するために、本明細書で説明される実施形態の原理に従って、他のシステム、プロセス及びメニューを導出することができる。本明細書で示され、説明される実施形態及び変形は、単なる説明のためのものであることを理解されたい。実施形態の範囲から逸脱することなく、当業者により、現在の設計への修正を実施することができる。本明細書で説明されるように、ハードウェア・コンポーネント、ソフトウェア・コンポーネント、及び/又はその組み合わせを用いて、種々のシステム、サブシステム、エージェント、マネージャ及びプロセスを実装することができる。
本発明は、システム、方法もしくはコンピュータ・プログラム製品又はそれらの組み合わせとすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、パンチカードもしくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク(LAN)、広域ネットワーク(WAN)、もしくは無線ネットワーク、又はそれらの組み合わせなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、又はそれらの組み合わせを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体内に格納する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Java(商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び、「C」プログラミング言語もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述されるソース・コード又はオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部がリモート・コンピュータ上で実行される場合もあり、又は完全にリモート・コンピュータもしくはサーバ上で実行される場合もある。最後のシナリオにおいて、リモート・コンピュータは、LANもしくはWANを含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路を個別化することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図もしくはブロック図又はその両方を参照して説明される。フローチャート図もしくはブロック図又はその両方の各ブロック、並びにフローチャート図もしくはブロック図又はその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えて機械を製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャートもしくはブロック図又は両方の1つ又は複数のブロック内で指定された機能/動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置もしくは他のデバイス又はその組み合わせを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャートもしくはブロック図又は両方の1つ又は複数のブロックにおいて指定された機能/動作の態様を実施する命令を含む製品を含むようにすることもできる。
コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生産し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャートもしくはブロック図又は両方の1つ又は複数のブロックにおいて指定された機能/動作を実行するためのプロセスを提供するようにすることもできる。
図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能及び動作を示す。この点に関して、フローチャート又はブロック図内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図もしくはフローチャート図又はその両方の各ブロック、及びブロック図もしくはフローチャート図又はその両方におけるブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
本説明及び特許請求の範囲は、例示的な実施形態の特定の特徴及び要素に関して、「1つ(a)」、「~の少なくとも1つ(at least one of)」及び「~の1つ又は複数の(one or more of)」という用語を用いることがある。これらの用語及び語句は、特定の例示的な実施形態に存在する特定の特徴又は要素が少なくとも1つ存在するが、1つより多くも存在し得ることを意図していることを理解されたい。つまり、これらの用語/語句は、説明又は特許請求の範囲を、単一の特徴/要素だけが存在する場合に限定すること、又は複数のこうした特徴/要素が存在することを要求することを意図するものではない。逆に、これらの用語/語句は、単に、少なくとも1つの特徴/要素を要求しているだけであり、そのような特徴/要素が複数あるという可能性は、説明及び特許請求の範囲の範囲内にある。
さらに、以下の説明では、例示的な実施形態の例示的な実装をさらに示し、かつ、例示的な実施形態の機構の理解を助けるために、例示的な実施形態の様々な要素について複数の様々な例を用いていることを理解されたい。これらの例は、非限定的であることを意図しており、例示的な実施形態の機構を実装するための様々な可能性を網羅するものではない。当業者には、本説明に照らして、本発明の趣旨及び範囲から逸脱することなく、本明細書に与えられる例に加えて、又はそれらの代わりに用いることができるこれらの様々な要素に対して、多くの他の代替的な実装があることが明らかであろう。
本発明は、例示的な実施形態を参照して説明されたが、それに限定されるものではない。当業者であれば、本発明の好ましい実施形態に対して多数の変更及び修正をなし得ること、及びそうした変更及び修正は、本発明の真の趣旨から逸脱することなく行い得ることを理解するであろう。従って、添付の特許請求の範囲は、本発明の真の趣旨及び範囲内に入る全てのそうした同等の変形をカバーすると解釈することが意図される。

Claims (16)

  1. 処理デバイスと、前記処理デバイスによって実行される命令を含むメモリとを含むデータ処理システムにおいて標準顧客プロファイルを生成するためのコンピュータ実施方法であって、前記方法は、
    ネットワーク越しに複数のコンピューティング・デバイスから顧客データを受け取ることであって、前記顧客データは複数のエンティティに対する複数の顧客についての情報を含む、受け取ることと、
    前記処理デバイスにより、前記顧客データに対する教師なし学習を実行して、共通する複数の特徴を有する複数の顧客のクラスタを生成することと、
    前記処理デバイスにより、クラスタが標準顧客を表すと判断し、前記判断された標準顧客に基づいて複数の標準顧客プロファイルを格納することであって、前記標準顧客プロファイルは前記共通する複数の特徴についての複数のデータ分布を含む、判断及び格納することと、
    前記標準顧客に基づいて合成トランザクション・データを生成するために、前記複数の標準顧客プロファイルを前記複数のコンピューティング・デバイスの各々に提供することと
    を含む、方法。
  2. 前記複数の顧客についての前記情報は、識別情報及びトランザクション情報を含む、請求項1に記載の方法。
  3. 教師なし学習を実行する前に、前記顧客データをフィルタイングすることをさらに含む、前記請求項のいずれかに記載の方法。
  4. 前記フィルタリングすることは、顧客をグループ化するためのRFM分析を含む、請求項3に記載の方法。
  5. 前記教師なし学習を実行することは、共通する特徴に基づいて顧客をクラスタ化し、教師なし学習を反復して、前記共通する複数の特徴に基づいて顧客のサブクラスタを形成することを含む、前記請求項のいずれかに記載の方法。
  6. サブクラスタが標準顧客を表すと判断することは、1つ又は複数の規則を適用することを含む、前記請求項のいずれかに記載の方法。
  7. 前記1つ又は複数の規則は、標準顧客であると判断されたサブクラスタ内の顧客の最小数又は最大数を示すサイズの決定を含む、請求項6に記載の方法。
  8. データ処理システムにおいて標準顧客プロファイルを生成するための、処理デバイスと、前記処理デバイスによって実行される命令を含むメモリとを備える抽象化システムであって、
    ネットワーク越しに複数のコンピューティング・デバイスから顧客データを受け取ることであって、前記顧客データは、複数のエンティティに対する複数の顧客についての情報を含む、受け取ることと、
    前記処理デバイスにより、前記顧客データに対する教師なし学習を実行して、共通する複数の特徴を有する複数の顧客のクラスタを生成することと、
    前記処理デバイスにより、クラスタが標準顧客を表すと判断し、前記判断された標準顧客に基づいて複数の標準顧客プロファイルを格納することであって、前記標準顧客プロファイルは前記共通する複数の特徴についての複数のデータ分布を含む、判断及び格納することと、
    前記標準顧客に基づいて合成トランザクション・データを生成するために、前記複数の標準顧客プロファイルを前記複数のコンピューティング・デバイスの各々に提供することと
    を行うように構成された、システム。
  9. 前記複数の顧客についての前記情報は、識別情報及びトランザクション情報を含む、請求項8に記載のシステム。
  10. 教師なし学習を実行する前に、前記顧客データをフィルタイングすることをさらに含む、請求項8又は請求項9のいずれかに記載のシステム。
  11. 前記フィルタリングすることは、顧客をグループ化するためのRFM分析を含む、請求項10に記載のシステム。
  12. 前記教師なし学習を実行することは、共通する特徴に基づいて顧客をクラスタ化し、教師なし学習を反復して、前記共通する複数の特徴に基づいて顧客のサブクラスタを形成することを含む、請求項8から請求項11までのいずれかに記載のシステム。
  13. サブクラスタが標準顧客を表すと判断することは、1つ又は複数の規則を適用することを含む、請求項8から請求項12までのいずれかに記載のシステム。
  14. 前記1つ又は複数の規則は、標準顧客であると判断されたサブクラスタ内の顧客の最小数又は最大数を示すサイズの決定を含む、請求項13に記載のシステム。
  15. データ処理システムにおいて標準顧客プロファイルを生成するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、
    処理回路により可読であり、請求項1から請求項7までのいずれかに記載の方法を実行するための、前記処理回路により実行される命令を格納するコンピュータ可読ストレージ媒体を含む、コンピュータ・プログラム製品。
  16. コンピュータ可読媒体上に格納され、デジタル・コンピュータの前記内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、請求項1から請求項7までのいずれかの方法を実行するためのソフトウェア・コード部分を含む、コンピュータ・プログラム。
JP2022526021A 2019-11-05 2020-11-02 コンソーシアム共有のための機密データの教師なし抽象化のためのシステム及び方法 Pending JP2023501343A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US16/674,464 2019-11-05
US16/674,457 2019-11-05
US16/674,464 US11461728B2 (en) 2019-11-05 2019-11-05 System and method for unsupervised abstraction of sensitive data for consortium sharing
US16/674,457 US11676218B2 (en) 2019-11-05 2019-11-05 Intelligent agent to simulate customer data
PCT/IB2020/060267 WO2021090141A1 (en) 2019-11-05 2020-11-02 System and method for unsupervised abstraction of sensitive data for consortium sharing

Publications (1)

Publication Number Publication Date
JP2023501343A true JP2023501343A (ja) 2023-01-18

Family

ID=75849591

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022525993A Pending JP2023500698A (ja) 2019-11-05 2020-11-02 顧客データをシミュレートするためのインテリジェント・エージェント
JP2022526021A Pending JP2023501343A (ja) 2019-11-05 2020-11-02 コンソーシアム共有のための機密データの教師なし抽象化のためのシステム及び方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2022525993A Pending JP2023500698A (ja) 2019-11-05 2020-11-02 顧客データをシミュレートするためのインテリジェント・エージェント

Country Status (5)

Country Link
JP (2) JP2023500698A (ja)
CN (2) CN114616546A (ja)
DE (1) DE112020005484T5 (ja)
GB (1) GB2605054A (ja)
WO (2) WO2021090142A1 (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7925551B2 (en) * 2004-06-09 2011-04-12 Syncada Llc Automated transaction processing system and approach
CN101075330A (zh) * 2007-06-26 2007-11-21 上海理工大学 电子商务谈判系统
CN103236959A (zh) * 2013-05-09 2013-08-07 中国银行股份有限公司 用于测试业务处理模块的测试系统和方法
US20150039435A1 (en) * 2013-07-31 2015-02-05 Mostafa SHAHEE DayMal.com
US10346186B2 (en) * 2014-12-11 2019-07-09 Rohan Kalyanpur System and method for simulating internet browsing system for user without graphical user interface
CN109614301B (zh) * 2018-11-19 2024-01-26 微梦创科网络科技(中国)有限公司 一种信息的评估方法和装置
CN110009171B (zh) * 2018-11-27 2023-07-25 创新先进技术有限公司 用户行为模拟方法、装置、设备及计算机可读存储介质
CN110008696A (zh) * 2019-03-29 2019-07-12 武汉大学 一种面向深度联邦学习的用户数据重建攻击方法

Also Published As

Publication number Publication date
CN114730359A (zh) 2022-07-08
WO2021090141A1 (en) 2021-05-14
DE112020005484T5 (de) 2022-08-18
GB202207340D0 (en) 2022-07-06
WO2021090142A1 (en) 2021-05-14
GB2605054A (en) 2022-09-21
JP2023500698A (ja) 2023-01-10
CN114616546A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
US20210133490A1 (en) System and method for unsupervised abstraction of sensitive data for detection model sharing across entities
US10990901B2 (en) Training, validating, and monitoring artificial intelligence and machine learning models
EP3483797A1 (en) Training, validating, and monitoring artificial intelligence and machine learning models
García et al. An insight into the experimental design for credit risk and corporate bankruptcy prediction systems
US11599884B2 (en) Identification of behavioral pattern of simulated transaction data
US11461793B2 (en) Identification of behavioral pattern of simulated transaction data
Bouzidi et al. Deep learning-based automated learning environment using smart data to improve corporate marketing, business strategies, fraud detection in financial services, and financial time series forecasting
US11475467B2 (en) System and method for unsupervised abstraction of sensitive data for realistic modeling
US11488185B2 (en) System and method for unsupervised abstraction of sensitive data for consortium sharing
US11475468B2 (en) System and method for unsupervised abstraction of sensitive data for detection model sharing across entities
US11556734B2 (en) System and method for unsupervised abstraction of sensitive data for realistic modeling
US20210241279A1 (en) Automatic fraud detection
US11461728B2 (en) System and method for unsupervised abstraction of sensitive data for consortium sharing
US11676218B2 (en) Intelligent agent to simulate customer data
US11842357B2 (en) Intelligent agent to simulate customer data
US11494835B2 (en) Intelligent agent to simulate financial transactions
US11488172B2 (en) Intelligent agent to simulate financial transactions
US20220383182A1 (en) Systems and methods to monitor trained intelligence agents
Manikonda et al. Explainable machine learning for credit lending
JP2023501343A (ja) コンソーシアム共有のための機密データの教師なし抽象化のためのシステム及び方法
Sai et al. Explainable AI-Driven Financial Transaction Fraud Detection using Machine Learning and Deep Neural Networks
Theuri et al. The impact of Artficial Intelligence and how it is shaping banking
Wang et al. A graph attentive network model for P2P lending fraud detection
US20230060869A1 (en) Systems and methods to implement trained intelligence agents for detecting activity that deviates from the norm
US20230090150A1 (en) Systems and methods to obtain sufficient variability in cluster groups for use to train intelligent agents

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220627

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230104

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240321

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240402