JP2022500747A - 機械学習モデルを使用した、偏りのあるデータの拒否 - Google Patents

機械学習モデルを使用した、偏りのあるデータの拒否 Download PDF

Info

Publication number
JP2022500747A
JP2022500747A JP2021513216A JP2021513216A JP2022500747A JP 2022500747 A JP2022500747 A JP 2022500747A JP 2021513216 A JP2021513216 A JP 2021513216A JP 2021513216 A JP2021513216 A JP 2021513216A JP 2022500747 A JP2022500747 A JP 2022500747A
Authority
JP
Japan
Prior art keywords
data set
training data
weight
bias
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021513216A
Other languages
English (en)
Other versions
JP7241862B2 (ja
Inventor
ファーラー,クリストファー
ロス,スティーブン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2022500747A publication Critical patent/JP2022500747A/ja
Application granted granted Critical
Publication of JP7241862B2 publication Critical patent/JP7241862B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

偏りのあるデータを拒否するための方法(400)は、偏り訓練データセット(130)を受信するステップと、目標母集団の少なくとも1つのそれぞれの偏りに敏感な変数に基づいて、偏り訓練データセットをクラスタ(212)に分割するステップとを含み、各クラスタは偏りクラスタ重み(214)を含む。方法はまた、機械学習モデル(300)のための訓練データセット(302)を受信するステップと、訓練データセットを訓練クラスタ(216)に分割するステップとを含む。各訓練クラスタは、目標母集団の少なくとも1つの対応する偏りに敏感な変数に関連付けられ、対応する訓練データセット重み(218)を含む。方法はまた、各訓練データセット重みを、それぞれの偏りクラスタ重みと整合して、調節された訓練データセット(208)を形成するように調節するステップと、調節された訓練データセットを、偏りのない訓練データセット(206)として、機械学習モデルに提供するステップとを含む。

Description

技術分野
この開示は、機械学習モデルを使用して偏りのあるデータを拒否することに関する。
背景
一般的に言えば、偏りとは、パラメータを過大評価または過小評価する統計値の傾向である。この点で、データの収集およびデータの分析は典型的には、何らかの固有の偏りを含む。これらの偏りは、収集および分析の方法、または、当該収集および分析を行なうエンティティ(主体)に起因する場合がある。たとえば、人間によって設計され行なわれたデータ研究が、特定の仮説、人間の設計制約(たとえば人間の能力)、サンプリング制約などを提供する場合がある。これらの要素を提供することにより、当該研究のデータ結果は、さまざまなサンプリング誤差、測定誤差、または、当該研究のための目標母集団を表わしていないサンプルにより広範に基づいた誤差を含む可能性がある。コンピュータ処理は、技術が人間の活動とは比べものにならない速度でデータを収集および分析することを可能にするため、データ処理手法は、偏りの問題を同等に克服しなければならない。さもなければ、特にバルクデータのためのデータ処理は、偏りの問題を増幅して、人間の活動によって生じる偏りとは比べものにならない結果を生み出すおそれがある。
概要
この開示の1つの局面は、機械学習モデルを使用して偏りのあるデータを拒否するための方法を提供する。方法は、データ処理ハードウェアで、偏り訓練データセットを受信するステップを含み、偏り訓練データセットは目標母集団の偏りに敏感な変数(bias-sensitive variable)の確率分布に基づいている。方法はまた、データ処理ハードウェアが、目標母集団の少なくとも1つのそれぞれの偏りに敏感な変数に基づいて、偏り訓練データセットをクラスタに分割するステップを含み、クラスタの各クラスタは対応する偏りクラスタ重みを含む。方法はさらに、データ処理ハードウェアで、機械学習モデルのための訓練データセットを受信するステップと、データ処理ハードウェアが、機械学習モデルのための訓練データセットを訓練クラスタに分割するステップとを含む。各訓練クラスタは、目標母集団の少なくとも1つの対応する偏りに敏感な変数に関連付けられ、対応する訓練データセット重みを含む。方法はまた、データ処理ハードウェアが、各訓練データセット重みを、それぞれの偏りクラスタ重みと整合して、調節された訓練データセットを形成するように調節するステップを含む。方法はさらに、データ処理ハードウェアが、調節された訓練データセットを、偏りのない訓練データセットとして、機械学習モデルに提供するステップとを含む。
この開示の実現化例は、以下のオプションの機能のうちの1つ以上を含んでいてもよい。いくつかの実現化例では、調節された訓練データセットを偏りのない訓練データセットとして機械学習モデルに提供するステップは、偏りのない訓練データセットを用いて機械学習モデルを訓練するステップを含む。方法は、データ処理ハードウェアが、偏りのない訓練データセットを用いて機械学習モデルを訓練するステップを含んでいてもよく、または、データ処理ハードウェアで、少なくとも1つのそれぞれの偏りに敏感な変数を含むサンプルデータセットを受信するステップを含んでいてもよい。ここで、方法はまた、データ処理ハードウェアが、訓練された機械学習モデルを使用して、受信されたサンプルデータセットに基づいた、偏りのない予測値を生成するステップを含んでいてもよい。
いくつかの例では、各訓練データセット重みを、それぞれの偏りクラスタ重みと整合するように調節するステップは、各訓練データセット重みについて、共通の偏りに敏感な変数に基づいて、訓練データセット重みをそれぞれの偏りクラスタ重みと整合させるステップと、訓練データセット重みがそれぞれの偏りクラスタ重みと整合するまで、訓練データセットからデータを除去するステップとを含む。他の例では、各訓練データセット重みを、それぞれの偏りクラスタ重みと整合するように調節するステップは、各訓練データセット重みについて、共通の偏りに敏感な変数に基づいて、訓練データセット重みをそれぞれの偏りクラスタ重みと整合させるステップと、各訓練データセット重みがそれぞれの偏りクラスタ重みと整合するまで、訓練データセットからデータを複製するステップとを含む。
いくつかの構成では、各訓練データセット重みについて、各訓練データセット重みを、それぞれの偏りクラスタ重みと整合するように調節するステップは、共通の偏りに敏感な変数に基づいて、訓練データセット重みを偏りクラスタ重みと整合させるステップを含む。訓練データセット重みがそれぞれの偏りクラスタ重みよりも小さい場合、方法は、訓練データセット重みに対応する訓練データに対する機械学習モデルの訓練を増加させることを示す重要性重みを関連付けるステップを含んでいてもよい。それに加えて、またはそれに代えて、各訓練データセット重みについて、各訓練データセット重みを、それぞれの偏りクラスタ重みと整合するように調節するステップは、共通の偏りに敏感な変数に基づいて、訓練データセット重みを偏りクラスタ重みと整合させるステップを含んでいてもよい。ここで、訓練データセット重みがそれぞれの偏りクラスタ重みよりも大きい場合、方法は、訓練データセット重みに対応する訓練データに対する機械学習モデルの訓練を減少させることを示す重要性重みを関連付けるステップを含んでいてもよい。
いくつかの実現化例では、訓練データセット重みの各訓練データセット重みを、それぞれの偏りクラスタ重みと整合するように調節するステップは、各訓練データセット重みについて、共通の偏りに敏感な変数に基づいて、訓練データセット重みをそれぞれの偏りクラスタ重みと整合させるステップを含む。訓練データセット重みがそれぞれの偏りクラスタ重みよりも小さい場合、方法は、訓練データセット重みに対応する訓練データに対する機械学習モデルの訓練を増加させることを示す重要性重みを関連付けるステップを含み、訓練データセット重みがそれぞれの偏りクラスタ重みよりも大きい場合、方法は、訓練データセット重みに対応する訓練データに対する機械学習モデルの訓練を減少させることを示す重要性重みを関連付けるステップを含む。
いくつかの例では、偏り訓練データセットをクラスタに分割するステップは、偏り訓練データセットの目標母集団のサイズに対するそれぞれのクラスタのサイズの比に基づいて、各クラスタについての偏りクラスタ重みを判定するステップを含む。偏り訓練データセットを訓練することは、偏り特徴を規定することを含んでいてもよく、偏り特徴は、偏りに敏感な変数に対応する。
この開示の別の局面は、機械学習モデルを使用して偏りのあるデータを拒否するためのシステムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信しているメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェア上で実行されるとデータ処理ハードウェアに動作を行なわせる命令を格納している。動作は、偏り訓練データセットを受信することを含み、偏り訓練データセットは目標母集団の偏りに敏感な変数の確率分布に基づいている。動作はまた、目標母集団の少なくとも1つのそれぞれの偏りに敏感な変数に基づいて、偏り訓練データセットをクラスタに分割することを含み、クラスタの各クラスタは偏りクラスタ重みを含む。動作はさらに、機械学習モデルのための訓練データセットを受信することと、データ処理ハードウェアが、機械学習モデルのための訓練データセットを訓練クラスタに分割することとを含む。各訓練クラスタは、目標母集団の少なくとも1つの対応する偏りに敏感な変数に関連付けられ、対応する訓練データセット重みを含む。動作はまた、各訓練データセット重みを、それぞれの偏りクラスタ重みと整合して、調節された訓練データセットを形成するように調節することを含む。方法はさらに、調節された訓練データセットを、偏りのない訓練データセットとして、機械学習モデルに提供することを含む。
この局面は、以下のオプションの機能のうちの1つ以上を含んでいてもよい。いくつかの構成では、調節された訓練データセットを偏りのない訓練データセットとして機械学習モデルに提供する動作は、偏りのない訓練データセットを用いて機械学習モデルを訓練することを含む。動作はまた、偏りのない訓練データセットを用いて機械学習モデルを訓練することと、少なくとも1つのそれぞれの偏りに敏感な変数を含むサンプルデータセットを受信することと、機械学習モデルを使用して、受信されたサンプルデータセットに基づいた、偏りのない予測値を生成することとを含んでいてもよい。
いくつかの実現化例では、各訓練データセット重みを、それぞれの偏りクラスタ重みと整合するように調節する動作はさらに、各訓練データセット重みについて、共通の偏りに敏感な変数に基づいて、訓練データセット重みをそれぞれの偏りクラスタ重みと整合させることと、訓練データセット重みがそれぞれの偏りクラスタ重みと整合するまで、訓練データセットからデータを除去することとを含む。他の例では、各訓練データセット重みを、それぞれの偏りクラスタ重みと整合するように調節する動作は、各訓練データセット重みについて、共通の偏りに敏感な変数に基づいて、訓練データセット重みを偏りクラスタ重みと整合させることと、各訓練データセット重みがそれぞれの偏りクラスタ重みと整合するまで、訓練データセットからデータを複製することとを含む。
いくつかの例では、各訓練データセット重みを、それぞれの偏りクラスタ重みと整合するように調節する動作は、各訓練データセット重みについて、共通の偏りに敏感な変数に基づいて、訓練データセット重みを偏りクラスタ重みと整合させることを含む。この例では、それぞれの訓練データセット重みがそれぞれの偏りクラスタ重みよりも小さい場合、動作は、訓練データセット重みに対応する訓練データに対する機械学習モデルの訓練を増加させることを示す重要性重みを関連付けることを含む。他の例では、各訓練データセット重みを、それぞれの偏りクラスタ重みと整合するように調節する動作は、共通の偏りに敏感な変数に基づいて、訓練データセット重みを偏りクラスタ重みと整合させることを含んでいてもよい。この例では、それぞれの訓練データセット重みが対応する偏りクラスタ重みよりも大きい場合、動作は、訓練データセット重みに対応する訓練データに対する機械学習モデルの訓練を減少させることを示す重要性重みを関連付けることを含む。
それに加えて、またはそれに代えて、各訓練データセット重みを、それぞれの偏りクラスタ重みと整合するように調節する動作は、各訓練データセット重みについて、共通の偏りに敏感な変数に基づいて、訓練データセット重みをそれぞれの偏りクラスタ重みと整合させることを含んでいてもよい。ここで、それぞれの訓練データセット重みがそれぞれの偏りクラスタ重みよりも小さい場合、訓練データセット重みに対応する訓練データに対する機械学習モデルの訓練を増加させることを示す重要性重みを関連付け、訓練データセット重みがそれぞれの偏りクラスタ重みよりも大きい場合、訓練データセット重みに対応する訓練データに対する機械学習モデルの訓練を減少させることを示す重要性重みを関連付ける。
いくつかの構成では、偏り訓練データセットをクラスタに分割する動作は、偏り訓練データセットの目標母集団のサイズに対するそれぞれのクラスタのサイズの比に基づいて、各クラスタについての偏りクラスタ重みを判定することを含む。偏り訓練データセットを訓練する動作は、偏り特徴を規定することを含んでいてもよく、偏り特徴は、偏りに敏感な変数に対応する。
この開示の1つ以上の実現化例の詳細が、添付図面および以下の説明において述べられる。他の局面、特徴、および利点は、説明および図面から、および請求項から明らかになるであろう。
さまざまな図面における同じ参照符号は、同じ要素を示す。
例示的な機械学習環境の概略図である。 偏り拒否モデルのための例示的な処理段階の概略図である。 図2Aの訓練段階中の例示的な偏り拒否モデルの概略図である。 図2Aの偏り防止(unbiasing)段階中の例示的な偏り拒否モデルの概略図である。 図2Aの偏り防止段階中に偏り拒否モデルによって行なわれる例示的な調節の概略図である。 図2Aの偏り防止段階中に偏り拒否モデルによって行なわれる例示的な調節の概略図である。 機械学習モデルが偏り拒否モデルから偏りのない訓練データを取り入れるための例示的な処理段階の概略図である。 機械学習環境内の機械学習モデルの偏りを防止するための例示的な方法のフロー図である。 ここに説明されるシステムおよび方法を実現するために使用され得る例示的なコンピューティングデバイスの概略図である。
詳細な説明
図1は、機械学習環境10の一例である。機械学習環境10は一般に、ネットワーク120を介してアクセス可能なリソース110を有する分散型システム100(たとえば、クラウド環境などのリモートシステム)と、偏り拒否モデル200と、機械学習モデル300とを含む。リソース110は、偏り拒否モデル200および/または機械学習モデル300を訓練する際に使用するために、ならびに、ここに開示される機械学習機能を行なうために、偏り拒否モデル200および/または機械学習モデル300にアクセス可能である。分散型システム100は、偏り拒否モデル200および/または機械学習モデル300を動作させることができるコンピューティングリソース(たとえばリソース110)を有する任意のコンピュータ処理システムであってもよい。いくつかの例では、偏り拒否モデル200および/または機械学習モデル300は、ネットワーク120を介して分散型システム100にアクセス可能である、または他の態様で分散型システム100と通信しているデバイス上で動作する。たとえば、デバイスは、分散型システム100に関連付けられたウェブベースのアプリケーションを実行してもよい。
一般に、分散型システム100のリソース110は、ハードウェアリソース110h、110h1−iと、ソフトウェアリソース110s、110s1−iとを含んでいてもよい。ハードウェアリソース110hは、データ処理ハードウェア112と、メモリハードウェア114とを含む。ソフトウェアリソース110sは、ソフトウェアアプリケーション、ソフトウェアサービス、アプリケーションプログラミングインターフェイス(application programming interface:API)などを含んでいてもよい。ソフトウェアリソース110sは、ハードウェアリソース110h上に存在して(たとえば、メモリハードウェア114に格納されて)いてもよく、または、データ処理ハードウェア112上で実行される命令を含んでいてもよい。
ソフトウェアアプリケーション(すなわち、ソフトウェアリソース110s)とは、コンピューティングデバイスにタスクを行なわせるコンピュータソフトウェアを指していてもよい。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれてもよい。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、文書処理アプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーミングアプリケーションを含むものの、それらに限定されない。
メモリハードウェア114は、プログラム(たとえば命令のシーケンス)またはデータ(たとえばプログラム状態情報)を、データ処理ハードウェア112による使用のために一時的または永続的に格納するために使用される物理デバイスであり得る非一時的メモリである。メモリハードウェア114は、揮発性および/または不揮発性アドレス可能半導体メモリであってもよい。不揮発性メモリの例は、フラッシュメモリおよび読出専用メモリ(read-only memory:ROM)/プログラマブル読出専用メモリ(programmable read-only memory:PROM)/消去可能プログラマブル読出専用メモリ(erasable programmable read-only memory:EPROM)/電子的消去可能プログラマブル読出専用メモリ(electronically erasable programmable read-only memory:EEPROM)(たとえば、典型的にはブートプログラムなどのファームウェアのために使用される)、およびディスクまたはテープを含むものの、それらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(random access memory:RAM)、ダイナミックランダムアクセスメモリ(dynamic random access memory:DRAM)、スタティックランダムアクセスメモリ(static random access memory:SRAM)、および相変化メモリ(phase change memory:PCM)を含むものの、それらに限定されない。
図示された例では、偏り拒否モデル200は、機械学習モデル300に悪影響を及ぼさないように偏りの問題に対処するために、リソース110とともに動作する。言い換えれば、偏り拒否モデル200は、偏りのあるデータを含む機械学習(machine learning:ML)訓練データセット302に基づいて機械学習モデル300を訓練するのを防止するように構成される。これは、ML訓練データセット302に関連付けられているものの、当該偏りのあるデータが除去された、偏りのない訓練データセット206を、MLモデル300を訓練する際に使用するために生成/出力することによる。ML訓練データセット302内の偏りのあるデータに基づいて機械学習モデル300を訓練するのを防止することによって、機械学習モデル300は、当該偏りのあるデータによって影響されず、したがって、推論中に偏りのない予測値310(図3)を生成することができる。このため、偏り拒否モデル200は、MLモデル300を訓練する際に使用するための偏りのない訓練データセット206を出力/生成することによって、MLモデル300を訓練する前にML訓練データセット302内の偏りのあるデータを除去/調節するフィルタに対応する。
図2Aは、1番目の訓練段階202と、1番目の訓練段階202に続く2番目の偏り防止段階204との実行中の偏り拒否モデル200を示す。訓練段階202中、偏り拒否モデル200は、偏り訓練データセット130を受信し、偏りクラスタ重み214を出力する。偏り防止段階204中、偏り拒否モデル200は、ML訓練データセット302を受信し、訓練段階202から出力された偏りクラスタ重み214を使用して、ML訓練データセット302から偏りのあるデータが除去された、偏りのない訓練データセット206を出力する。
ここで、「重み」(たとえば、偏りクラスタ重み214、214a〜n、および訓練データセット重み218、218a〜n)という用語は、クラスタ化のプロセスから形成された独自のクラスタにマッピングする、比などの値を指す。母集団については、各クラスタは、母集団の一部に関していてもよく、このため、その一部の値は、クラスタ(たとえば、母集団のサブセット)に関連付けられた重みであってもよい。言い換えれば、母集団をサブセットにクラスタ化することによって、各サブセットは、母集団に対する特性(たとえば重み)を本質的に有する。より一般的には、偏りクラスタ212または訓練クラスタ216などのクラスタとは、人々に関する訓練データをグループ化するために使用され得る、当該人々のグループ化を指す。人々のグループ化は、自分の訓練データにおける連続的な範囲の変数値を共有する人々を含んでいてもよい(たとえば、25〜27才のアジア系女性についてのクラスタは、1人の25才のアジア系女性での1つの訓練例と、1人の26才のアジア系女性での別の訓練例と、この一組の値を共有する他の訓練例とを含み得る)。
他の実現化例では、クラスタは、自分の訓練データがクラスタ化アルゴリズム(たとえばクラスタ化モデル)によってクラスタ化される人々を含む。クラスタ化アルゴリズムは、人々(または人々の特性)の間の距離がより短いことに基づいて類似しているとアルゴリズムが考えるグループに、人々を入れる。より短い距離によってグループ化することは、多くの変数値がそれぞれの母集団において増加するにつれてクラスタの数が指数関数的に増加することを回避し得る。クラスタ化は、訓練データ(たとえば人々)間の距離を判定するために、重要な変数(たとえば偏り変数)および/または他の変数にしたがって行なわれてもよい。たとえば、クラスタ化は他の変数に基づいて行なわれるが、データをクラスタ化するための最終判定は、重要な変数(たとえば偏り変数)に基づいている。一例として、クラスタ化プロセスは、18才および19才の男性のオーストリア人およびドイツ人をともに単一のクラスタにグループ化する。なぜなら、それは、規定された測定基準(たとえば、使用言語、関連する関心事、ソーシャルネットワークでつながるかまたは同じ組織のメンバーである頻度)に基づいて、類似性(たとえば、互いの間のより短い距離)を認識するためである。広範囲の潜在的なクラスタ化アプローチを示す別の例として、クラスタ化プロセスは、(1)18才のオーストリア人、(2)18才のドイツ人、(3)19才のオーストリア人、および(4)19才のドイツ人というカテゴリーをカバーする4つの別個のグループを有し得る。
図2Aをさらに参照して、訓練段階202中、偏り拒否モデル200は、目標母集団の偏りに敏感な変数132の確率分布に基づいた偏り訓練データセット130を受信する。偏りに敏感な変数132とは、目標母集団のデータサンプルにおいて過大表現または過小表現されると、目標母集団のサンプリングからの偏りのある予測の可能性の増加をもたらす変数を指す。言い換えれば、偏りに敏感な変数132の正確な表現からの若干のずれが、歪んだ予測分析をもたらす可能性がある。したがって、機械学習モデル300などの機械学習モデルが、偏りに敏感な変数132の正確な訓練データセットなしで構成される(すなわち訓練される)場合、機械学習モデルは、偏りのある予測、および偏りのあるコンピューティング分析論を本質的に生成するかもしれない。偏りに敏感な変数132のいくつかの例は、人種、ジェンダー、性別、年齢、国籍、信仰している宗教、所属する政党、豊かさなどを含む。言い換えれば、偏りに敏感な変数132は、人間の特性または属性(偏り特徴とも呼ばれる)であってもよい。
いくつかの構成では、偏りに敏感な変数132は、政治情勢(たとえば、移民/市民権、人種間関係など)、最新の出来事(抗議、スキャンダル、ニュース、天気など)、または大衆文化(映画、本、アート、フィルム、有名人、スポーツなど)といった要因に基づいて動的に変化する。いくつかの実現化例では、偏りに敏感な変数132は、機械学習モデル300とともに使用されるデータのタイプ、または、機械学習モデル300によって行なわれるモデリングのタイプに基づいて判定される。たとえば、カリフォルニアの人口統計をモデル化する機械学習モデル300は、ニューハンプシャーの人口統計をモデル化する機械学習モデル300とは異なる偏りに敏感な変数132を有し得る。すなわち、人種的に多様でない州としてのニューハンプシャーは必然的に、カリフォルニアの人口統計に影響を与えるいくつかの偏りに敏感な変数132を含まないかもしれない。
他の構成では、偏りに敏感な変数132は、いったん識別および/または前もってプログラムされると変化しないグローバル変数である。オプションで、エンティティが偏りに敏感な変数132を規定する場合、エンティティはまず、予測に最も大きい影響を与える偏りに敏感な変数132を分析するように、機械学習モデル300の予測結果をモデル化してもよい。たとえば、エンティティは、機械学習モデル300の予測についての期待される結果のベースラインを有しており、当該期待される結果と比べて、偏差および分散などの統計値に基づいて偏りに敏感な変数132の影響を判定する。
いくつかの例では、目標母集団は、所与の変数または一組の変数についてのデータセット全体である。ここで、偏り拒否モデル200および/または機械学習モデル300は、目標母集団に対応して訓練されても、および/または予測を行なってもよい。基本的な一例として、機械学習モデル300は、カリフォルニアの人口である目標母集団についての値を予測するように構成されてもよい。カリフォルニアの人口に関する予測を正確に行なうために、各モデル200、300は、カリフォルニアの人口に関連付けられたデータに基づいて訓練する。
受信された偏り訓練データセット130に基づいて偏り拒否モデル200を訓練した後で、偏り拒否モデル200は、偏り防止段階204中に、MLモデル300を訓練する際に使用するために意図されたML訓練データセット302を調節するように構成される。MLモデル300を訓練する前にML訓練データセット302を調節することによって、偏り拒否モデル200は、偏りのない訓練データセット206を生成し、偏りのない訓練データセット206をMLモデル300に提供する。言い換えれば、偏り防止段階204中、偏り拒否モデル200は、訓練段階202中の偏り訓練データセット130に基づく偏り拒否モデル200の訓練に基づいて、(たとえば偏りのあるデータを潜在的に含み得る)ML訓練データセット302を、偏りのない訓練データセット206に変換する。いくつかの例では、偏り拒否モデル200は、2つ以上の偏り訓練データセット130を用いて訓練する。たとえば、偏り拒否モデル200は、新しいまたは更新された偏り訓練データセット130への経時変化を連続的に勘案するように、当該偏り訓練データセット130に基づいて動的に訓練する。訓練段階202および偏り防止段階204は、連続的にまたは同時に実行されてもよく、またはそれら双方の何らかの組合せであってもよい。
図2Bは、訓練段階202中の偏り拒否モデル200の一例を示す。ここで、偏り拒否モデル200は、目標母集団に対応する偏り訓練データセット130を受信する。いくつかの実現化例では、偏り拒否モデル200のアドミニストレータ、または偏り拒否モデル200へのアクセスを有するユーザ(たとえば、特定の一組の偏り特徴を懸念するユーザ)などのエンティティ140が、偏り訓練データセット130についての偏りに敏感な変数132に対応する偏り特徴を規定する。たとえば、図2Bは、訓練段階202中、偏り特徴および/または偏りに敏感な変数132を規定するエンティティ140がオプションであることを示すように、点線に関連付けられたエンティティ140を示す。いくつかの例では、偏り拒否モデル200を実現するエンティティまたは設計者は、特定の一組の偏り特徴のために偏り拒否モデル200を設計する。これらの例では、エンティティ140は、偏り特徴および/または偏りに敏感な変数132を供給しなくてもよい。いくつかの構成では、偏り訓練データセット130は、目標母集団データセット全体を含む。たとえば、偏りに敏感な変数132が人口統計学的に敏感な変数(たとえば、人種、ジェンダー、年齢、国籍など)に対応する場合、偏り拒否モデル200は、米国についての人口統計データの完全なデータセットを、偏り訓練データセット130として受信してもよい。
偏り拒否モデル200は、分割器210と、調節器220とを含む。分割器210は、目標母集団の少なくとも1つのそれぞれの偏りに敏感な変数132に基づいて、偏り訓練データセット130を偏りクラスタ212、212a〜nに分割するように構成される。たとえば、図2Bは、人種、ジェンダー、および年齢としての、偏りに敏感な変数132、132a〜nを示す。いくつかの例では、各偏りクラスタ212は、各々の偏りに敏感な変数132の組合せに対応する。一例として、人種、ジェンダー、および年齢という偏りに敏感な変数132を用いて、各偏りクラスタ212は、1つのタイプの人種(たとえば黒人、白人、ヒスパニック系など)、1つのタイプのジェンダー(たとえば男性、女性、トランスジェンダー)、および1つのタイプの年齢層(たとえば19〜30才、31〜44才、45〜59才、60才以上など)に対応する。分割器210が偏り訓練データセット130を偏りクラスタ212に分割する場合、分割器210はまた、偏りクラスタ212、212a〜nが、関連付けられた偏りクラスタ重み214、214a〜nを有するように、各偏りクラスタ212について対応する偏りクラスタ重み214を判定するように構成される。いくつかの例では、偏りクラスタ重み214は、目標母集団に対する、偏りクラスタ212についての母集団比率(population fraction)を表わす。たとえば、偏りクラスタ重み214は、偏り訓練データセット130の目標母集団のサイズに対するそれぞれの偏りクラスタ212のサイズの比を表わしていてもよい。いくつかの例では、各偏りクラスタ重み214を判定するために、分割器210は、各偏りクラスタ212の母集団比率を判定し、各母集団比率を全偏りクラスタ212の最大母集団比率で除算する(たとえば、各偏りクラスタ重み214は1よりも小さい)。他の例では、各偏りクラスタ重み214を判定するために、分割器210は、各偏りクラスタ212の母集団比率を判定し、各母集団比率を全偏りクラスタ212の最小母集団比率で除算する(たとえば、各偏りクラスタ重み214は1よりも大きい)。
いくつかの構成では、分割器210は、訓練段階202中、偏りクラスタ212についての偏りクラスタ重み214を調節器220に通信する。たとえば、調節器220は、偏りクラスタ重み214のデータストア222を含む。他の例では、分割器210は、偏り防止段階204中に調節器220がアクセスするために、偏りクラスタ重み214を(たとえば分割器210のデータストアに)格納する。
図2Cは、偏り防止段階204中の偏り拒否モデル200の一例を示す。偏り防止段階204中、偏り拒否モデル200は、MLモデル300を訓練する際に使用するために意図されたML訓練データセット302を受信する。たとえば、訓練データセット302は、潜在的に偏りがあるかもしれない(たとえば、偏りのあるデータを含むかもしれない)未処理の訓練データセットを含むかもしれない。いくつかの実現化例では、訓練データセット302は、目標母集団のサンプルであり、そのため、目標母集団の偏りに敏感な変数132を不正確に反映するかもしれない。たとえば、目標母集団は、白人が25%という人種構成を有するかもしれず、一方、訓練データセット302は、白人が45%というサンプリング人種構成を示すかもしれない。このため、目標母集団の偏りに敏感な変数132を不正確に反映するML訓練データ302に基づいてMLモデル300を訓練するのを防止するために、偏り拒否モデル200は、偏り防止段階204中に分割器210および調節器220を用いてこの偏り(たとえば20%の差)を調節しようと努める。
分割器210が図2Bの訓練段階202中に偏り訓練データセット130を偏りクラスタ212に分割する方法と同様に、分割器210は、偏り防止段階204中に、受信されたML訓練データセット302を訓練クラスタ216に分割するように構成される。ここで、各訓練クラスタ216は、目標母集団の少なくとも1つの対応する偏りに敏感な変数132に関連付けられる。分割器210はさらに、分割された訓練クラスタ216a〜nが、関連付けられた訓練データセット重み218、218a〜nを含むように、分割された各訓練クラスタ216について、対応する訓練データセット重み218、218a〜nを生成するように構成される。いくつかの例では、それぞれの訓練データセット重み218は、訓練データセット302に関連付けられたサンプル母集団に対する、訓練クラスタ216についての母集団比率を表わす。たとえば、訓練データセット重み218は、訓練データセット302のサンプル母集団のサイズに対するそれぞれの訓練クラスタ216のサイズの比を表わしていてもよい。いくつかの例では、各訓練データセット重み218を判定するために、分割器210は、各訓練クラスタ216の母集団比率を判定し、各母集団比率を訓練クラスタ216a〜nの最大母集団比率で除算する(たとえば、各訓練データセット重み218は1よりも小さい)。他の例では、各訓練データセット重み218を判定するために、分割器210は、各訓練クラスタ216の母集団比率を判定し、各母集団比率を訓練クラスタ216a〜nの最小母集団比率で除算する(たとえば、各訓練データセット重み218は1よりも大きい)。
調節器220は、目標母集団の偏りに敏感な変数132についての確率分布と整合するために、訓練データセット重み218a〜nを調節するように構成される。いくつかの実現化例では、調節器220は、訓練データセット重み218を偏りクラスタ重み214と比較することによって訓練データセット重み218を調節するプロセス226を実行する。たとえば、図2C〜2Eは、調節器220が、偏りクラスタ重みデータストア222からの偏りクラスタ重み218と、訓練重みデータストア224からの訓練データセット重み218とを検索して比較し、比較に基づいて訓練データセット重み218を調節するために、プロセス226を実行することを示す。たとえば、それぞれの訓練データセット重み218と偏りクラスタ重み214との相対的な差に基づいて、調節器220は、それぞれの訓練データセット重み218を、対応する偏りクラスタ重み214と整合するように調節してもよい。したがって、訓練データセット重み218を調節するために調節器220によって実行されるプロセス226は、調節された訓練データセット重みを生成/出力し、または、より一般的には、MLモデル300を訓練するための偏りのない訓練データセット206を形成する調節された訓練データセット208を生成/出力する。
いくつかの実現化例では、調節器220は、まず、整合する偏りに敏感な変数132に基づいて、1つ以上の訓練データセット重み218を1つ以上の偏りクラスタ重み214と整合させることによって、プロセス226を実行する。たとえば、訓練データセット重み218と偏りクラスタ重み214とが各々、共通の偏りに敏感な変数132または偏りに敏感な変数132の組合せを共有する場合、調節器220は、訓練データセット重み218を、整合する(すなわち、対応する)偏りクラスタ重み214を用いて調節し、対応する調節された訓練データセット重みまたは調節された訓練データセット208を出力してもよい。
図2Dを参照して、調節器220は、共通の偏りに敏感な変数132または偏りに敏感な変数132の組合せを共有する訓練データセット重み218と偏りクラスタ重み214とを比較する。ML訓練データセット302が偏りに敏感な変数132を過大表現する場合、訓練データセット重み218は、偏りクラスタ重み214を上回る(たとえば、偏りクラスタ重み214よりも大きい)(たとえば、訓練データセット302は、白人が20%多い人種構成を示す)。この過大表現に応答して、調節器220によって実行されるプロセス226は、訓練データセット重み218が偏りクラスタ重み214と整合するまで訓練データセット302からデータを除去することによって訓練データセット重み218を調節するデータ除去調節プロセスに対応してもよい。一方、訓練データセット302が偏りに敏感な変数132を過小表現する場合、訓練データセット重み218は、偏りクラスタ重み214よりも小さい(たとえば、訓練データセット302は、黒人が20%少ない人種構成を示す)。この過小表現に応答して、調節器220上で実行されるプロセス226は、訓練データセット重み218が偏りクラスタ重み214と整合するまで訓練データセット302からデータを複製することによって訓練データセット重み218を調節するデータ複製プロセスに対応してもよい。いくつかの実現化例では、調節器220は、訓練データセット302の完全性を維持するために、訓練データセット302からデータをランダムに複製または除去する。
訓練データセット重み218が偏りクラスタ重み214と整合するまで訓練データセット302からデータを除去するかまたは訓練データセット302にデータを追加する図2Cのプロセス226とは対照的に、図2Eは、各訓練データセット重み218に関連付けられた重要性重み228を調節する調節器220上で実行されるプロセス226を示す。具体的には、プロセスは、重要性重み228を、関連付けられた訓練データセット重み218に対応する訓練データセット302のデータに関連付ける。重要性重み228は、機械学習モデル300を訓練しながら、訓練データセット重み218に対応する基礎的データを提供するための重みがどれぐらいかを理解するために、機械学習モデル300の訓練段階304(図3)への表示を提供する。いくつかの例では、訓練データセット重み218が偏りクラスタ重み214よりも大きい場合、調節器220は、それぞれの訓練データセット重み218に対応する訓練データに対する機械学習モデル300の訓練を減少させることを示す重要性重み228を関連付ける。他の例では、訓練データセット重み218が偏りクラスタ重み214よりも小さい場合、調節器220は、それぞれの訓練データセット重み218に対応する訓練データに対する機械学習モデル300の訓練を増加させることを示す重要性重み228を関連付ける。
いくつかの構成では、調節器220は、統計的分析に基づいて偏りのない訓練データセット206を形成するために、調節された訓練データセット重みおよび/または調節された訓練データセット208を判定する。たとえば、偏り防止段階204中、分割器210および/または調節器220は、共通の偏りに敏感な変数132または偏りに敏感な変数132の組合せを偏りクラスタ212と共有する訓練クラスタ216を認識する。ここで、偏り拒否モデル200は、偏り訓練データセット130の目標母集団と、ML訓練データセット302内のデータの分布との間で、統計的検定(たとえばカイ二乗検定)を行なってもよい。偏り訓練データセット130と訓練データセット302とが(たとえば偏りに敏感な変数132に対して)同じ分布を有していないことを統計的検定が(たとえば、95%などの信頼区間によって)示す場合、調節器220は、調節された訓練データセット重みとして乗算器を生成し、乗算器は、偏り訓練データセット130と整合するML訓練データセット302についてのデータの分布を生成するML訓練データセット302内の多くのサンプルを示す。
図2A〜2Eによって示すように、偏り拒否モデル200は、機械学習モデル300を訓練するための偏りのない訓練データセット206を生成する。図3は、機械学習モデル300が偏りのない訓練データセット206に基づいて訓練する一例である。機械学習モデル300などの機械学習モデルは一般に、データセットおよび結果セットに基づいて教えられ(または訓練され)、当該データセットに類似した入力データに基づいてそれ自体の出力を予測する。いくつかの実現化例では、偏り拒否モデル200と同様に、機械学習モデル300はまず、訓練段階304中に訓練を受け、次に、サンプルデータセット308を入力として受信し、偏りのない予測値310を出力する予測段階(たとえば推論)306を経る。予測段階306中、機械学習モデル300は、少なくとも1つの偏りに敏感な変数132を含むサンプルデータセットなどのサンプルデータセット308を受信し、偏りのない訓練データセット206に基づいて訓練された関連付けられた機械学習機能性を利用して、受信されたサンプルデータセット308に基づいた、偏りのない予測値310を生成する。
いくつかの例では、機械学習モデル300は、偏りのない2つ以上の訓練データセット206を用いて訓練する。たとえば、機械学習モデル300は、動作中、動的に変化するデータセットを連続的に勘案するように動的に訓練する。言い換えれば、訓練段階304および予測段階306は、連続的にまたは同時に実行されてもよく、またはそれら双方の何らかの組合せであってもよい。
偏り拒否モデル200および/または機械学習モデル300は、ここに説明されるいずれかのモデル200、300の機能性を実行するために機械学習アルゴリズムを採用する任意のタイプの機械学習モデル(たとえば、教師あり、教師なし、強化、アンサンブル/決定木、ディープラーニング、ニューラルネットワーク、再帰的、線形など)であってもよい。おおまかに言えば、アルゴリズムは、教師あり学習、教師なし学習、アクティブラーニング、または、アルゴリズムのいくつかのハイブリッドの組合せに関連していてもよい。これらの広範なアルゴリズムのいくつかの具体例は、線形回帰アルゴリズム、ロジスティック回帰アルゴリズム、決定木ベースのアルゴリズム、サポートベクトルマシンアルゴリズム、単純ベイズ分類器、k最近傍アルゴリズム、次元縮小アルゴリズム、勾配ブースティングアルゴリズムなどといった機械学習アルゴリズムを含む。
図4は、図1の機械学習環境10内の機械学習モデル300の偏りを防止するための動作を有する例示的な方法400である。動作402で、方法400は、偏り訓練データセット130を受信する。偏り訓練データセット130は、目標母集団の偏りに敏感な変数132の確率分布に基づいている。動作404で、方法400は、目標母集団の少なくとも1つのそれぞれの偏りに敏感な変数132に基づいて、偏り訓練データセット130をクラスタ212に分割する。各クラスタ212は、偏りクラスタ重み214を含む。動作406で、方法400は、機械学習モデル300を訓練する際に使用するために意図された訓練データセット302を受信する。動作408で、方法400は、訓練データセット302を訓練クラスタに分割し、各訓練クラスタ216は、目標母集団の少なくとも1つの対応する偏りに敏感な変数132に関連付けられる。動作410で、方法400は、分割された訓練データセット302の各訓練クラスタ216に対応する訓練データセット重み218を生成する。動作412で、方法400は、各訓練データセット重みを、それぞれの偏りクラスタ重み214と整合するように調節する。
図5は、この文書で説明されるシステムおよび方法(たとえば、偏り拒否モデル200および/または機械学習モデル300)を実現するために使用され得る例示的なコンピューティングデバイス500の概略図である。コンピューティングデバイス500は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータといった、さまざまな形態のデジタルコンピュータを表わすよう意図されている。ここに示すコンポーネント、それらの接続および関係、ならびにそれらの機能は単なる例示であることが意図されており、この文書で説明される、および/または請求項に記載のこの発明の実現化例を限定するよう意図されてはいない。
コンピューティングデバイス500は、プロセッサ510と、メモリ520と、記憶装置530と、メモリ520および高速拡張ポート550に接続している高速インターフェイス/コントローラ540と、低速バス570および記憶装置530に接続している低速インターフェイス/コントローラ560とを含む。コンポーネント510、520、530、540、550、および560の各々は、さまざまなバスを使用して相互接続されており、共通のマザーボード上にまたは他の態様で適宜搭載されてもよい。プロセッサ510は、コンピューティングデバイス500内で実行される命令を処理可能であり、これらの命令は、グラフィカルユーザインターフェイス(graphical user interface:GUI)のためのグラフィック情報を、高速インターフェイス540に結合されたディスプレイ580などの外部入出力デバイス上に表示するために、メモリ520内または記憶装置530上に格納された命令を含む。他の実現化例では、複数のプロセッサおよび/または複数のバスが、複数のメモリおよび複数のタイプのメモリとともに適宜使用されてもよい。また、複数のコンピューティングデバイス500が接続されてもよく、各デバイスは(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)必要な動作の部分を提供する。
メモリ520は、情報をコンピューティングデバイス500内に非一時的に格納する。メモリ520は、コンピュータ読取可能媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ520は、プログラム(たとえば命令のシーケンス)またはデータ(たとえばプログラム状態情報)を、コンピューティングデバイス500による使用のために一時的または永続的に格納するために使用される物理デバイスであってもよい。不揮発性メモリの例は、フラッシュメモリおよび読出専用メモリ(ROM)/プログラマブル読出専用メモリ(PROM)/消去可能プログラマブル読出専用メモリ(EPROM)/電子的消去可能プログラマブル読出専用メモリ(EEPROM)(たとえば、典型的にはブートプログラムなどのファームウェアのために使用される)を含むものの、それらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、およびディスクまたはテープを含むものの、それらに限定されない。
記憶装置530は、コンピューティングデバイス500のための大容量記憶を提供可能である。いくつかの実現化例では、記憶装置530は、コンピュータ読取可能媒体である。さまざまな異なる実現化例では、記憶装置530は、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリまたは他の同様のソリッドステートメモリデバイス、もしくは、ストレージエリアネットワークまたは他の構成におけるデバイスを含むデバイスのアレイであってもよい。追加の実現化例では、コンピュータプログラム製品が情報担体において有形に具現化され得る。コンピュータプログラム製品は、実行されると上述のような1つ以上の方法を行なう命令を含む。情報担体は、メモリ520、記憶装置530、またはプロセッサ510上のメモリといった、コンピュータ読取可能媒体または機械読取可能媒体である。
高速コントローラ540はコンピューティングデバイス500のための帯域幅集約的な動作を管理し、一方、低速コントローラ560はより低い帯域幅集約的な動作を管理する。役目のそのような割当ては例示に過ぎない。いくつかの実現化例では、高速コントローラ540は、メモリ520、ディスプレイ580に(たとえば、グラフィックスプロセッサまたはアクセラレータを介して)結合されるとともに、さまざまな拡張カード(図示せず)を受け付け得る高速拡張ポート550に結合される。いくつかの実現化例では、低速コントローラ560は、記憶装置530および低速拡張ポート590に結合される。さまざまな通信ポート(たとえば、USB、ブルートゥース(登録商標)、イーサネット(登録商標)、無線イーサネット)を含み得る低速拡張ポート590は、キーボード、ポインティングデバイス、スキャナなどの1つ以上の入出力デバイスに、もしくは、スイッチまたはルータなどのネットワーキングデバイスに、たとえばネットワークアダプタを介して結合されてもよい。
コンピューティングデバイス500は、図に示すように多くの異なる形態で実現されてもよい。たとえばそれは、標準サーバ500aとして、またはそのようなサーバ500aのグループで複数回実現されてもよく、ラップトップコンピュータ500bとして、またはラックサーバシステム500cの一部として実現されてもよい。
ここに説明されるシステムおよび手法のさまざまな実現化例は、デジタル電子および/または光学回路、集積回路、特別に設計されたASIC(application specific integrated circuit:特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せにおいて実現され得る。これらのさまざまな実現化例は、データおよび命令を記憶システムとの間で送受信するように結合された、専用または汎用であり得る少なくとも1つのプログラマブルプロセッサと、少なくとも1つの入力デバイスと、少なくとも1つの出力デバイスとを含むプログラマブルシステム上で実行可能および/または解釈可能である1つ以上のコンピュータプログラムにおける実現を含み得る。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている)は、プログラマブルプロセッサのための機械命令を含み、高レベルの手続き型および/またはオブジェクト指向プログラミング言語で、および/またはアセンブリ/機械語で実現され得る。ここに使用されるように、「機械読取可能媒体」および「コンピュータ読取可能媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ読取可能媒体、機器および/またはデバイス(たとえば磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(Programmable Logic Device:PLD))を指し、機械命令を機械読取可能信号として受信する機械読取可能媒体を含む。「機械読取可能信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
この明細書で説明されるプロセスおよび論理フローは、1つ以上のプログラマブルプロセッサが、入力データに基づいて動作することおよび出力を生成することによって機能を行なうために1つ以上のコンピュータプログラムを実行することによって行なわれ得る。プロセスおよび論理フローはまた、たとえばFPGA(field programmable gate array:フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)といった専用論理回路によって行なわれ得る。コンピュータプログラムの実行にとって好適であるプロセッサは、一例として、汎用および専用マイクロプロセッサと、任意の種類のデジタルコンピュータの任意の1つ以上のプロセッサとを含む。一般に、プロセッサは、命令およびデータを、読出専用メモリまたはランダムアクセスメモリまたはそれら双方から受信するであろう。コンピュータの本質的要素は、命令を行なうためのプロセッサと、命令およびデータを格納するための1つ以上のメモリデバイスとである。一般に、コンピュータはまた、たとえば磁気ディスク、光磁気ディスク、または光ディスクといった、データを格納するための1つ以上の大容量記憶装置を含むであろう。もしくは、当該大容量記憶装置からデータを受信し、または当該大容量記憶装置にデータを転送し、またはそれら双方を行なうように動作可能に結合されるであろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを格納するのに好適であるコンピュータ読取可能媒体は、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含み、一例として、半導体メモリ装置、たとえばEPROM、EEPROM、およびフラッシュメモリデバイス;磁気ディスク、たとえば内部ハードディスクまたはリムーバブルディスク;光磁気ディスク;ならびに、CD ROMおよびDVD−ROMディスクを含む。プロセッサおよびメモリは、専用論理回路によって補足され、または専用論理回路に組込まれ得る。
ユーザとの対話を提供するために、この開示の1つ以上の局面は、情報をユーザに表示するためのディスプレイデバイス、たとえばCRT(cathode ray tube:陰極線管)、LCD(liquid crystal display:液晶ディスプレイ)モニター、またはタッチスクリーンと、オプションで、ユーザがコンピュータへの入力を提供できるようにするキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールとを有するコンピュータ上で実現され得る。他の種類のデバイスも同様に、ユーザとの対話を提供するために使用され得る。たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバック、または触覚フィードバックであり得る。また、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態で受信され得る。加えて、コンピュータは、ユーザによって使用されるデバイスに文書を送信し、当該デバイスから文書を受信することによって、たとえば、ユーザのクライアントデバイス上のウェブブラウザから受信された要求に応答してウェブページを当該ウェブブラウザに送信することによって、ユーザと対話することができる。
多くの実現化例が説明されてきた。にもかかわらず、この開示の精神および範囲から逸脱することなく、さまざまな変更を行なってもよいということが理解されるであろう。したがって、他の実現化例は、請求の範囲内にある。
調節器220は、目標母集団の偏りに敏感な変数132についての確率分布と整合するために、訓練データセット重み218a〜nを調節するように構成される。いくつかの実現化例では、調節器220は、訓練データセット重み218を偏りクラスタ重み214と比較することによって訓練データセット重み218を調節するプロセス226を実行する。たとえば、図2C〜2Eは、調節器220が、偏りクラスタ重みデータストア222からの偏りクラスタ重み214と、訓練重みデータストア224からの訓練データセット重み218とを検索して比較し、比較に基づいて訓練データセット重み218を調節するために、プロセス226を実行することを示す。たとえば、それぞれの訓練データセット重み218と偏りクラスタ重み214との相対的な差に基づいて、調節器220は、それぞれの訓練データセット重み218を、対応する偏りクラスタ重み214と整合するように調節してもよい。したがって、訓練データセット重み218を調節するために調節器220によって実行されるプロセス226は、調節された訓練データセット重みを生成/出力し、または、より一般的には、MLモデル300を訓練するための偏りのない訓練データセット206を形成する調節された訓練データセット208を生成/出力する。
訓練データセット重み218が偏りクラスタ重み214と整合するまで訓練データセット302からデータを除去するかまたは訓練データセット302にデータを追加する図2のプロセス226とは対照的に、図2Eは、各訓練データセット重み218に関連付けられた重要性重み228を調節する調節器220上で実行されるプロセス226を示す。具体的には、プロセスは、重要性重み228を、関連付けられた訓練データセット重み218に対応する訓練データセット302のデータに関連付ける。重要性重み228は、機械学習モデル300を訓練しながら、訓練データセット重み218に対応する基礎的データを提供するための重みがどれぐらいかを理解するために、機械学習モデル300の訓練段階304(図3)への表示を提供する。いくつかの例では、訓練データセット重み218が偏りクラスタ重み214よりも大きい場合、調節器220は、それぞれの訓練データセット重み218に対応する訓練データに対する機械学習モデル300の訓練を減少させることを示す重要性重み228を関連付ける。他の例では、訓練データセット重み218が偏りクラスタ重み214よりも小さい場合、調節器220は、それぞれの訓練データセット重み218に対応する訓練データに対する機械学習モデル300の訓練を増加させることを示す重要性重み228を関連付ける。

Claims (20)

  1. 方法(400)であって、
    データ処理ハードウェア(112)で、偏り訓練データセット(130)を受信するステップを含み、前記偏り訓練データセット(130)は目標母集団の偏りに敏感な変数の確率分布に基づいており、前記方法はさらに、
    前記データ処理ハードウェア(112)が、前記目標母集団の少なくとも1つのそれぞれの偏りに敏感な変数に基づいて、前記偏り訓練データセット(130)をクラスタ(212)に分割するステップを含み、前記クラスタ(212)の各クラスタ(212)は対応する偏りクラスタ重み(214)を含み、前記方法はさらに、
    前記データ処理ハードウェア(112)で、機械学習モデル(300)のための訓練データセット(302)を受信するステップと、
    前記データ処理ハードウェア(112)が、前記機械学習モデル(300)のための前記訓練データセット(302)を訓練クラスタ(216)に分割するステップとを含み、各訓練クラスタ(216)は、前記目標母集団の少なくとも1つの対応する偏りに敏感な変数に関連付けられ、対応する訓練データセット重み(218)を含み、前記方法はさらに、
    前記データ処理ハードウェア(112)が、各訓練データセット重み(218)を、それぞれの偏りクラスタ重み(214)と整合して、調節された訓練データセット(208)を形成するように調節するステップと、
    前記データ処理ハードウェア(112)が、前記調節された訓練データセット(208)を、偏りのない訓練データセット(206)として、前記機械学習モデル(300)に提供するステップとを含む、方法。
  2. 前記調節された訓練データセット(208)を前記偏りのない訓練データセット(206)として前記機械学習モデル(300)に提供するステップは、前記偏りのない訓練データセット(206)を用いて前記機械学習モデル(300)を訓練するステップを含む、請求項1に記載の方法(400)。
  3. 前記データ処理ハードウェア(112)が、前記偏りのない訓練データセット(206)を用いて前記機械学習モデル(300)を訓練するステップと、
    前記データ処理ハードウェア(112)で、少なくとも1つのそれぞれの偏りに敏感な変数を含むサンプルデータセット(308)を受信するステップと、
    前記データ処理ハードウェア(112)が、訓練された前記機械学習モデル(300)を使用して、受信された前記サンプルデータセット(308)に基づいた、偏りのない予測値(310)を生成するステップとをさらに含む、請求項1または2に記載の方法(400)。
  4. 各訓練データセット重み(218)を、前記それぞれの偏りクラスタ重み(214)と整合するように調節するステップは、各訓練データセット重み(218)について、
    共通の偏りに敏感な変数に基づいて、前記訓練データセット重み(218)を前記それぞれの偏りクラスタ重み(214)と整合させるステップと、
    前記訓練データセット重み(218)が前記それぞれの偏りクラスタ重み(214)と整合するまで、前記訓練データセットからデータを除去するステップとを含む、請求項1〜3のいずれか1項に記載の方法(400)。
  5. 各訓練データセット重み(218)を、前記それぞれの偏りクラスタ重み(214)と整合するように調節するステップは、各訓練データセット重み(218)について、
    共通の偏りに敏感な変数に基づいて、前記訓練データセット重み(218)を前記それぞれの偏りクラスタ重み(214)と整合させるステップと、
    前記訓練データセット重み(218)が前記それぞれの偏りクラスタ重み(214)と整合するまで、前記訓練データセットからデータを複製するステップとを含む、請求項1〜4のいずれか1項に記載の方法(400)。
  6. 各訓練データセット重み(218)を、前記それぞれの偏りクラスタ重み(214)と整合するように調節するステップは、各訓練データセット重み(218)について、
    共通の偏りに敏感な変数に基づいて、前記訓練データセット重み(218)を前記偏りクラスタ重み(214)と整合させるステップと、
    前記訓練データセット重み(218)が前記それぞれの偏りクラスタ重み(214)よりも小さい場合、前記訓練データセット重み(218)に対応する訓練データに対する前記機械学習モデル(300)の訓練を増加させることを示す重要性重み(228)を関連付けるステップとを含む、請求項1〜5のいずれか1項に記載の方法(400)。
  7. 各訓練データセット重み(218)を、前記それぞれの偏りクラスタ重み(214)と整合するように調節するステップは、各訓練データセット重み(218)について、
    共通の偏りに敏感な変数に基づいて、前記訓練データセット重み(218)を前記偏りクラスタ重み(214)と整合させるステップと、
    前記訓練データセット重み(218)が前記それぞれの偏りクラスタ重み(214)よりも大きい場合、前記訓練データセット重み(218)に対応する訓練データに対する前記機械学習モデル(300)の訓練を減少させることを示す重要性重み(228)を関連付けるステップとを含む、請求項1〜6のいずれか1項に記載の方法(400)。
  8. 各訓練データセット重み(218)を、前記それぞれの偏りクラスタ重み(214)と整合するように調節するステップはさらに、各訓練データセット重み(218)について、
    共通の偏りに敏感な変数に基づいて、前記訓練データセット重み(218)を前記それぞれの偏りクラスタ重み(214)と整合させるステップと、
    前記訓練データセット重み(218)が前記それぞれの偏りクラスタ重み(214)よりも小さい場合、前記訓練データセット重み(218)に対応する訓練データに対する前記機械学習モデル(300)の訓練を増加させることを示す重要性重み(228)を関連付けるステップと、
    前記訓練データセット重み(218)が前記対応する偏りクラスタ重み(214)よりも大きい場合、前記訓練データセット重み(218)に対応する訓練データに対する前記機械学習モデル(300)の訓練を減少させることを示す重要性重み(228)を関連付けるステップとを含む、請求項1〜7のいずれか1項に記載の方法(400)。
  9. 前記偏り訓練データセット(130)をクラスタ(212)に分割するステップは、前記偏り訓練データセット(130)の前記目標母集団のサイズに対するそれぞれのクラスタ(212)のサイズの比に基づいて、各クラスタ(212)についての前記偏りクラスタ重み(214)を判定するステップを含む、請求項1〜8のいずれか1項に記載の方法(400)。
  10. 前記偏り訓練データセット(130)を訓練することは、偏り特徴を規定することをさらに含み、前記偏り特徴は、前記偏りに敏感な変数に対応する、請求項1〜9のいずれか1項に記載の方法(400)。
  11. システム(100)であって、
    データ処理ハードウェア(112)と、
    前記データ処理ハードウェア(112)と通信しているメモリハードウェア(114)とを含み、前記メモリハードウェア(114)は、前記データ処理ハードウェア(112)上で実行されると前記データ処理ハードウェア(112)に動作を行なわせる命令を格納しており、前記動作は、
    偏り訓練データセット(130)を受信することを含み、前記偏り訓練データセット(130)は目標母集団の偏りに敏感な変数の確率分布に基づいており、前記動作はさらに、
    前記目標母集団の少なくとも1つのそれぞれの偏りに敏感な変数に基づいて、前記偏り訓練データセット(130)をクラスタ(212)に分割することを含み、前記クラスタ(212)の各クラスタ(212)は対応する偏りクラスタ重み(214)を含み、前記動作はさらに、
    機械学習モデル(300)のための訓練データセット(302)を受信することと、
    前記機械学習モデル(300)のための前記訓練データセット(302)を訓練クラスタ(216)に分割することとを含み、各訓練クラスタ(216)は、前記目標母集団の少なくとも1つの対応する偏りに敏感な変数に関連付けられ、対応する訓練データセット重み(218)を含み、前記動作はさらに、
    各訓練データセット重み(218)を、それぞれの偏りクラスタ重み(214)と整合して、調節された訓練データセット(208)を形成するように調節することと、
    前記調節された訓練データセット(208)を、偏りのない訓練データセット(206)として、前記機械学習モデル(300)に提供することとを含む、システム。
  12. 前記調節された訓練データセット(208)を前記偏りのない訓練データセット(206)として前記機械学習モデル(300)に提供することは、前記偏りのない訓練データセット(206)を用いて前記機械学習モデル(300)を訓練することを含む、請求項11に記載のシステム(100)。
  13. 前記動作はさらに、
    前記偏りのない訓練データセット(206)を用いて前記機械学習モデル(300)を訓練することと、
    少なくとも1つのそれぞれの偏りに敏感な変数を含むサンプルデータセット(308)を受信することと、
    訓練された前記機械学習モデル(300)を使用して、受信された前記サンプルデータセット(308)に基づいた、偏りのない予測値(310)を生成することとを含む、請求項11または12に記載のシステム(100)。
  14. 各訓練データセット重み(218)を、前記それぞれの偏りクラスタ重み(214)と整合するように調節することは、各訓練データセット重み(218)について、
    共通の偏りに敏感な変数に基づいて、前記訓練データセット重み(218)を前記それぞれの偏りクラスタ重み(214)と整合させることと、
    前記訓練データセット重み(218)が前記それぞれの偏りクラスタ重み(214)と整合するまで、前記訓練データセットからデータを除去することとを含む、請求項11〜13のいずれか1項に記載のシステム(100)。
  15. 各訓練データセット重み(218)を、前記それぞれの偏りクラスタ重み(214)と整合するように調節することは、各訓練データセット重み(218)について、
    共通の偏りに敏感な変数に基づいて、前記訓練データセット重み(218)を前記それぞれの偏りクラスタ重み(214)と整合させることと、
    前記訓練データセット重み(218)が前記それぞれの偏りクラスタ重み(214)と整合するまで、前記訓練データセットからデータを複製することとを含む、請求項11〜14のいずれか1項に記載のシステム(100)。
  16. 各訓練データセット重み(218)を、前記それぞれの偏りクラスタ重み(214)と整合するように調節することは、各訓練データセット重み(218)について、
    共通の偏りに敏感な変数に基づいて、前記訓練データセット重み(218)を前記偏りクラスタ重み(214)と整合させることと、
    前記訓練データセット重み(218)が前記それぞれの偏りクラスタ重み(214)よりも小さい場合、前記訓練データセット重み(218)に対応する訓練データに対する前記機械学習モデル(300)の訓練を増加させることを示す重要性重み(228)を関連付けることとを含む、請求項11〜15のいずれか1項に記載のシステム(100)。
  17. 各訓練データセット重み(218)を、前記それぞれの偏りクラスタ重み(214)と整合するように調節することは、各訓練データセット重み(218)について、
    共通の偏りに敏感な変数に基づいて、前記訓練データセット重み(218)を前記偏りクラスタ重み(214)と整合させることと、
    前記訓練データセット重み(218)が前記それぞれの偏りクラスタ重み(214)よりも大きい場合、前記訓練データセット重み(218)に対応する訓練データに対する前記機械学習モデル(300)の訓練を減少させることを示す重要性重み(228)を関連付けることとを含む、請求項11〜16のいずれか1項に記載のシステム(100)。
  18. 各訓練データセット重み(218)を、前記それぞれの偏りクラスタ重み(214)と整合するように調節することはさらに、各訓練データセット重み(218)について、
    共通の偏りに敏感な変数に基づいて、前記訓練データセット重み(218)を前記それぞれの偏りクラスタ重み(214)と整合させることと、
    前記訓練データセット重み(218)が前記それぞれの偏りクラスタ重み(214)よりも小さい場合、前記訓練データセット重み(218)に対応する訓練データに対する前記機械学習モデル(300)の訓練を増加させることを示す重要性重み(228)を関連付けることと、
    前記訓練データセット重み(218)が前記対応する偏りクラスタ重み(214)よりも大きい場合、前記訓練データセット重み(218)に対応する訓練データに対する前記機械学習モデル(300)の訓練を減少させることを示す重要性重み(228)を関連付けることとを含む、請求項11〜17のいずれか1項に記載のシステム(100)。
  19. 前記偏り訓練データセット(130)をクラスタ(212)に分割することは、前記偏り訓練データセット(130)の前記目標母集団のサイズに対するそれぞれのクラスタ(212)のサイズの比に基づいて、各クラスタ(212)についての前記偏りクラスタ重み(214)を判定することを含む、請求項11〜18のいずれか1項に記載のシステム(100)。
  20. 前記偏り訓練データセット(130)を訓練することは、偏り特徴を規定することをさらに含み、前記偏り特徴は、前記偏りに敏感な変数に対応する、請求項11〜19のいずれか1項に記載のシステム(100)。
JP2021513216A 2018-09-10 2019-08-26 機械学習モデルを使用した、偏りのあるデータの拒否 Active JP7241862B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/126,742 US11392852B2 (en) 2018-09-10 2018-09-10 Rejecting biased data using a machine learning model
US16/126,742 2018-09-10
PCT/US2019/048113 WO2020055580A1 (en) 2018-09-10 2019-08-26 Rejecting biased data using a machine learning model

Publications (2)

Publication Number Publication Date
JP2022500747A true JP2022500747A (ja) 2022-01-04
JP7241862B2 JP7241862B2 (ja) 2023-03-17

Family

ID=67902616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021513216A Active JP7241862B2 (ja) 2018-09-10 2019-08-26 機械学習モデルを使用した、偏りのあるデータの拒否

Country Status (6)

Country Link
US (1) US11392852B2 (ja)
EP (1) EP3830766A1 (ja)
JP (1) JP7241862B2 (ja)
KR (1) KR102556497B1 (ja)
CN (1) CN112639843B (ja)
WO (1) WO2020055580A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023161993A1 (ja) * 2022-02-22 2023-08-31 富士通株式会社 訓練データ生成プログラム、訓練データ生成方法、および情報処理装置
WO2023188790A1 (ja) * 2022-03-29 2023-10-05 ソニーグループ株式会社 情報処理装置及び情報処理方法、コンピュータプログラム
JP2023159782A (ja) * 2022-04-20 2023-11-01 ヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
WO2024014035A1 (ja) * 2022-07-12 2024-01-18 株式会社日立製作所 データ予測支援方法およびデータ予測システム
WO2024161655A1 (ja) * 2023-02-03 2024-08-08 富士通株式会社 機械学習プログラム,機械学習方法および情報処理装置

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220164840A1 (en) 2016-04-01 2022-05-26 OneTrust, LLC Data processing systems and methods for integrating privacy information management systems with data loss prevention tools or other tools for privacy design
US10510031B2 (en) 2016-06-10 2019-12-17 OneTrust, LLC Data processing systems for identifying, assessing, and remediating data processing risks using data modeling techniques
US11343284B2 (en) 2016-06-10 2022-05-24 OneTrust, LLC Data processing systems and methods for performing privacy assessments and monitoring of new versions of computer code for privacy compliance
US11625502B2 (en) 2016-06-10 2023-04-11 OneTrust, LLC Data processing systems for identifying and modifying processes that are subject to data subject access requests
US11354434B2 (en) 2016-06-10 2022-06-07 OneTrust, LLC Data processing systems for verification of consent and notice processing and related methods
US11438386B2 (en) 2016-06-10 2022-09-06 OneTrust, LLC Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods
US11222142B2 (en) 2016-06-10 2022-01-11 OneTrust, LLC Data processing systems for validating authorization for personal data collection, storage, and processing
US11562097B2 (en) 2016-06-10 2023-01-24 OneTrust, LLC Data processing systems for central consent repository and related methods
US11336697B2 (en) 2016-06-10 2022-05-17 OneTrust, LLC Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods
US10740487B2 (en) 2016-06-10 2020-08-11 OneTrust, LLC Data processing systems and methods for populating and maintaining a centralized database of personal data
US11410106B2 (en) 2016-06-10 2022-08-09 OneTrust, LLC Privacy management systems and methods
US11134086B2 (en) 2016-06-10 2021-09-28 OneTrust, LLC Consent conversion optimization systems and related methods
US11188862B2 (en) 2016-06-10 2021-11-30 OneTrust, LLC Privacy management systems and methods
US11475136B2 (en) 2016-06-10 2022-10-18 OneTrust, LLC Data processing systems for data transfer risk identification and related methods
US10949565B2 (en) 2016-06-10 2021-03-16 OneTrust, LLC Data processing systems for generating and populating a data inventory
US10284604B2 (en) 2016-06-10 2019-05-07 OneTrust, LLC Data processing and scanning systems for generating and populating a data inventory
US11418492B2 (en) 2016-06-10 2022-08-16 OneTrust, LLC Data processing systems and methods for using a data model to select a target data asset in a data migration
US11675929B2 (en) 2016-06-10 2023-06-13 OneTrust, LLC Data processing consent sharing systems and related methods
US10592648B2 (en) 2016-06-10 2020-03-17 OneTrust, LLC Consent receipt management systems and related methods
US10678945B2 (en) 2016-06-10 2020-06-09 OneTrust, LLC Consent receipt management systems and related methods
US11295316B2 (en) 2016-06-10 2022-04-05 OneTrust, LLC Data processing systems for identity validation for consumer rights requests and related methods
US11461500B2 (en) 2016-06-10 2022-10-04 OneTrust, LLC Data processing systems for cookie compliance testing with website scanning and related methods
US11727141B2 (en) 2016-06-10 2023-08-15 OneTrust, LLC Data processing systems and methods for synching privacy-related user consent across multiple computing devices
US10846433B2 (en) 2016-06-10 2020-11-24 OneTrust, LLC Data processing consent management systems and related methods
US11520928B2 (en) 2016-06-10 2022-12-06 OneTrust, LLC Data processing systems for generating personal data receipts and related methods
US10997318B2 (en) 2016-06-10 2021-05-04 OneTrust, LLC Data processing systems for generating and populating a data inventory for processing data access requests
US11366786B2 (en) 2016-06-10 2022-06-21 OneTrust, LLC Data processing systems for processing data subject access requests
US12052289B2 (en) 2016-06-10 2024-07-30 OneTrust, LLC Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods
US11294939B2 (en) 2016-06-10 2022-04-05 OneTrust, LLC Data processing systems and methods for automatically detecting and documenting privacy-related aspects of computer software
US11227247B2 (en) 2016-06-10 2022-01-18 OneTrust, LLC Data processing systems and methods for bundled privacy policies
US12118121B2 (en) 2016-06-10 2024-10-15 OneTrust, LLC Data subject access request processing systems and related methods
US10909265B2 (en) 2016-06-10 2021-02-02 OneTrust, LLC Application privacy scanning systems and related methods
US12045266B2 (en) 2016-06-10 2024-07-23 OneTrust, LLC Data processing systems for generating and populating a data inventory
US11416589B2 (en) 2016-06-10 2022-08-16 OneTrust, LLC Data processing and scanning systems for assessing vendor risk
US11416590B2 (en) 2016-06-10 2022-08-16 OneTrust, LLC Data processing and scanning systems for assessing vendor risk
US10685140B2 (en) 2016-06-10 2020-06-16 OneTrust, LLC Consent receipt management systems and related methods
US11328092B2 (en) 2016-06-10 2022-05-10 OneTrust, LLC Data processing systems for processing and managing data subject access in a distributed environment
US11651104B2 (en) 2016-06-10 2023-05-16 OneTrust, LLC Consent receipt management systems and related methods
US11651106B2 (en) 2016-06-10 2023-05-16 OneTrust, LLC Data processing systems for fulfilling data subject access requests and related methods
US10318761B2 (en) 2016-06-10 2019-06-11 OneTrust, LLC Data processing systems and methods for auditing data request compliance
US11188615B2 (en) 2016-06-10 2021-11-30 OneTrust, LLC Data processing consent capture systems and related methods
US10909488B2 (en) 2016-06-10 2021-02-02 OneTrust, LLC Data processing systems for assessing readiness for responding to privacy-related incidents
US11416798B2 (en) 2016-06-10 2022-08-16 OneTrust, LLC Data processing systems and methods for providing training in a vendor procurement process
US11636171B2 (en) 2016-06-10 2023-04-25 OneTrust, LLC Data processing user interface monitoring systems and related methods
US11416109B2 (en) 2016-06-10 2022-08-16 OneTrust, LLC Automated data processing systems and methods for automatically processing data subject access requests using a chatbot
US11403377B2 (en) 2016-06-10 2022-08-02 OneTrust, LLC Privacy management systems and methods
US10878127B2 (en) 2016-06-10 2020-12-29 OneTrust, LLC Data subject access request processing systems and related methods
US11392720B2 (en) 2016-06-10 2022-07-19 OneTrust, LLC Data processing systems for verification of consent and notice processing and related methods
US11222139B2 (en) 2016-06-10 2022-01-11 OneTrust, LLC Data processing systems and methods for automatic discovery and assessment of mobile software development kits
US11586700B2 (en) 2016-06-10 2023-02-21 OneTrust, LLC Data processing systems and methods for automatically blocking the use of tracking tools
US11354435B2 (en) 2016-06-10 2022-06-07 OneTrust, LLC Data processing systems for data testing to confirm data deletion and related methods
US11544667B2 (en) 2016-06-10 2023-01-03 OneTrust, LLC Data processing systems for generating and populating a data inventory
US11301796B2 (en) 2016-06-10 2022-04-12 OneTrust, LLC Data processing systems and methods for customizing privacy training
US11366909B2 (en) 2016-06-10 2022-06-21 OneTrust, LLC Data processing and scanning systems for assessing vendor risk
US11481710B2 (en) 2016-06-10 2022-10-25 OneTrust, LLC Privacy management systems and methods
US11341447B2 (en) 2016-06-10 2022-05-24 OneTrust, LLC Privacy management systems and methods
US10013577B1 (en) 2017-06-16 2018-07-03 OneTrust, LLC Data processing systems for identifying whether cookies contain personally identifying information
US11270082B2 (en) 2018-08-20 2022-03-08 Verint Americas Inc. Hybrid natural language understanding
US11544409B2 (en) 2018-09-07 2023-01-03 OneTrust, LLC Data processing systems and methods for automatically protecting sensitive data within privacy management systems
US10803202B2 (en) 2018-09-07 2020-10-13 OneTrust, LLC Data processing systems for orphaned data identification and deletion and related methods
US11217226B2 (en) * 2018-10-30 2022-01-04 Verint Americas Inc. System to detect and reduce understanding bias in intelligent virtual assistants
US11604927B2 (en) 2019-03-07 2023-03-14 Verint Americas Inc. System and method for adapting sentiment analysis to user profiles to reduce bias
US20200380309A1 (en) * 2019-05-28 2020-12-03 Microsoft Technology Licensing, Llc Method and System of Correcting Data Imbalance in a Dataset Used in Machine-Learning
US11537941B2 (en) * 2019-05-28 2022-12-27 Microsoft Technology Licensing, Llc Remote validation of machine-learning models for data imbalance
US11526701B2 (en) 2019-05-28 2022-12-13 Microsoft Technology Licensing, Llc Method and system of performing data imbalance detection and correction in training a machine-learning model
US11521115B2 (en) * 2019-05-28 2022-12-06 Microsoft Technology Licensing, Llc Method and system of detecting data imbalance in a dataset used in machine-learning
WO2020247586A1 (en) 2019-06-06 2020-12-10 Verint Americas Inc. Automated conversation review to surface virtual assistant misunderstandings
US12013962B1 (en) * 2019-07-03 2024-06-18 Intuit Inc. Automatic entry validation using density based clustering
CN112308233B (zh) * 2019-08-02 2024-07-19 伊姆西Ip控股有限责任公司 用于处理数据的方法、设备和计算机程序产品
US11636386B2 (en) * 2019-11-21 2023-04-25 International Business Machines Corporation Determining data representative of bias within a model
US12050975B2 (en) 2020-05-06 2024-07-30 Discover Financial Services System and method for utilizing grouped partial dependence plots and shapley additive explanations in the generation of adverse action reason codes
US20210357508A1 (en) * 2020-05-15 2021-11-18 Deutsche Telekom Ag Method and a system for testing machine learning and deep learning models for robustness, and durability against adversarial bias and privacy attacks
US12002258B2 (en) * 2020-06-03 2024-06-04 Discover Financial Services System and method for mitigating bias in classification scores generated by machine learning models
WO2022011142A1 (en) 2020-07-08 2022-01-13 OneTrust, LLC Systems and methods for targeted data discovery
US11645587B2 (en) * 2020-07-08 2023-05-09 Vmware, Inc. Quantizing training data sets using ML model metadata
US11861513B2 (en) * 2020-07-13 2024-01-02 International Business Machines Corporation Methods for detecting and monitoring bias in a software application using artificial intelligence and devices thereof
EP4189569A1 (en) 2020-07-28 2023-06-07 OneTrust LLC Systems and methods for automatically blocking the use of tracking tools
WO2022032072A1 (en) 2020-08-06 2022-02-10 OneTrust, LLC Data processing systems and methods for automatically redacting unstructured data from a data subject access request
WO2022060860A1 (en) 2020-09-15 2022-03-24 OneTrust, LLC Data processing systems and methods for detecting tools for the automatic blocking of consent requests
US11526624B2 (en) 2020-09-21 2022-12-13 OneTrust, LLC Data processing systems and methods for automatically detecting target data transfers and target data processing
EP4241173A1 (en) 2020-11-06 2023-09-13 OneTrust LLC Systems and methods for identifying data processing activities based on data discovery results
KR102321735B1 (ko) * 2020-11-27 2021-11-04 부산대학교 산학협력단 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법
US11687528B2 (en) 2021-01-25 2023-06-27 OneTrust, LLC Systems and methods for discovery, classification, and indexing of data in a native computing system
US11442906B2 (en) 2021-02-04 2022-09-13 OneTrust, LLC Managing custom attributes for domain objects defined within microservices
US20240111899A1 (en) 2021-02-08 2024-04-04 OneTrust, LLC Data processing systems and methods for anonymizing data samples in classification analysis
US20240098109A1 (en) 2021-02-10 2024-03-21 OneTrust, LLC Systems and methods for mitigating risks of third-party computing system functionality integration into a first-party computing system
US11775348B2 (en) 2021-02-17 2023-10-03 OneTrust, LLC Managing custom workflows for domain objects defined within microservices
WO2022178219A1 (en) 2021-02-18 2022-08-25 OneTrust, LLC Selective redaction of media content
EP4305539A1 (en) 2021-03-08 2024-01-17 OneTrust, LLC Data transfer discovery and analysis systems and related methods
US11562078B2 (en) 2021-04-16 2023-01-24 OneTrust, LLC Assessing and managing computational risk involved with integrating third party computing functionality within a computing system
US20220366074A1 (en) * 2021-05-14 2022-11-17 International Business Machines Corporation Sensitive-data-aware encoding
CN115471714A (zh) * 2021-05-25 2022-12-13 华为云计算技术有限公司 数据处理方法、装置、计算设备和计算机可读存储介质
CN113269263B (zh) * 2021-06-03 2024-04-09 深圳索信达数据技术有限公司 客户分类方法、装置、计算机设备及计算机可读存储介质
CN113448955B (zh) * 2021-08-30 2021-12-07 上海观安信息技术股份有限公司 数据集质量评估方法、装置、计算机设备及存储介质
US11620142B1 (en) 2022-06-03 2023-04-04 OneTrust, LLC Generating and customizing user interfaces for demonstrating functions of interactive user environments
KR20240055469A (ko) 2022-10-20 2024-04-29 (주)아이소프트 인공지능 학습 데이터셋의 공정성 시각화 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007080263A (ja) * 2005-09-09 2007-03-29 Xerox Corp ページレイアウト属性に基づく文書クラスタリングの方法
WO2009135076A1 (en) * 2008-05-02 2009-11-05 The Regents Of The University Of California Estimation based on case-control designs
JP2010044674A (ja) * 2008-08-18 2010-02-25 Nippon Hoso Kyokai <Nhk> データ分類装置及びデータ分類プログラム
JP2010204966A (ja) * 2009-03-03 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7437334B2 (en) 2004-12-03 2008-10-14 Hewlett-Packard Development Company, L.P. Preparing data for machine learning
US20110289025A1 (en) 2010-05-19 2011-11-24 Microsoft Corporation Learning user intent from rule-based training data
US8452718B2 (en) * 2010-06-10 2013-05-28 Tokyo Electron Limited Determination of training set size for a machine learning system
EP3017403A2 (en) 2013-07-01 2016-05-11 Agent Video Intelligence Ltd. System and method for abnormality detection
US10535014B2 (en) * 2014-03-10 2020-01-14 California Institute Of Technology Alternative training distribution data in machine learning
JP2017076289A (ja) 2015-10-15 2017-04-20 キヤノン株式会社 パラメータ決定装置、パラメータ決定方法及びプログラム
US10783535B2 (en) 2016-05-16 2020-09-22 Cerebri AI Inc. Business artificial intelligence management engine
CN106548210B (zh) * 2016-10-31 2021-02-05 腾讯科技(深圳)有限公司 基于机器学习模型训练的信贷用户分类方法及装置
US11074599B2 (en) 2016-12-08 2021-07-27 App Annie Inc. Determining usage data of mobile applications for a population
US11250346B2 (en) * 2018-09-10 2022-02-15 Google Llc Rejecting biased data using a machine learning model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007080263A (ja) * 2005-09-09 2007-03-29 Xerox Corp ページレイアウト属性に基づく文書クラスタリングの方法
WO2009135076A1 (en) * 2008-05-02 2009-11-05 The Regents Of The University Of California Estimation based on case-control designs
JP2010044674A (ja) * 2008-08-18 2010-02-25 Nippon Hoso Kyokai <Nhk> データ分類装置及びデータ分類プログラム
JP2010204966A (ja) * 2009-03-03 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
鈴木 祐太: "未知ドメイン対応型判別分析のための個人差適応型分布パラメータ推定", 第74回(平成24年)全国大会講演論文集(1) アーキテクチャ ソフトウェア科学・工学 データベース, JPN6022028901, 6 March 2012 (2012-03-06), pages 1 - 315, ISSN: 0004824389 *
鎌田 隆信: "ウェブ上のテキストの書き手の属性推定のための領域適応", 言語処理学会第22回年次大会 発表論文集 [ONLINE], JPN6022028900, 29 February 2016 (2016-02-29), pages 1157 - 1160, ISSN: 0004824388 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023161993A1 (ja) * 2022-02-22 2023-08-31 富士通株式会社 訓練データ生成プログラム、訓練データ生成方法、および情報処理装置
WO2023188790A1 (ja) * 2022-03-29 2023-10-05 ソニーグループ株式会社 情報処理装置及び情報処理方法、コンピュータプログラム
JP2023159782A (ja) * 2022-04-20 2023-11-01 ヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
JP7410209B2 (ja) 2022-04-20 2024-01-09 Lineヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
WO2024014035A1 (ja) * 2022-07-12 2024-01-18 株式会社日立製作所 データ予測支援方法およびデータ予測システム
WO2024161655A1 (ja) * 2023-02-03 2024-08-08 富士通株式会社 機械学習プログラム,機械学習方法および情報処理装置

Also Published As

Publication number Publication date
KR20210028724A (ko) 2021-03-12
EP3830766A1 (en) 2021-06-09
CN112639843B (zh) 2024-09-24
US11392852B2 (en) 2022-07-19
WO2020055580A1 (en) 2020-03-19
JP7241862B2 (ja) 2023-03-17
US20200081865A1 (en) 2020-03-12
KR102556497B1 (ko) 2023-07-17
CN112639843A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
JP7241862B2 (ja) 機械学習モデルを使用した、偏りのあるデータの拒否
JP7405919B2 (ja) 機械学習モデルを使用した、偏りのあるデータの拒否
US20210374605A1 (en) System and Method for Federated Learning with Local Differential Privacy
WO2021174944A1 (zh) 基于目标对象活跃度的消息推送方法及相关设备
US20150169593A1 (en) Creating a preliminary topic structure of a corpus while generating the corpus
US11928017B2 (en) Point anomaly detection
US20220171823A1 (en) Interest tapering for topics
Feng et al. An improved X-means and isolation forest based methodology for network traffic anomaly detection
Pal et al. Lifelong machine learning and root cause analysis for large-scale cancer patient data
Al Ali et al. Enhancing financial distress prediction through integrated Chinese whisper clustering and federated learning
WO2022094335A1 (en) Systems and methods for applying a lens function generated using supervised learning techniques to segment data provided to an unsupervised learning model
US11620565B1 (en) System and method for enhanced distribution of data to compute nodes
Kayaalp et al. A fuzzy bayesian classifier with learned mahalanobis distance
US20240330766A1 (en) Filtering for mixing server-based and federated learning
US20240346289A1 (en) Bayesian neural network point estimator
Khalid et al. A Dynamic Selection Hybrid Model for Advancing Thyroid Care with BOO-ST Balancing Method
Gao et al. Efficient Partitioning Method of Large-Scale Public Safety Spatio-Temporal Data Based on Information Loss Constraints
Joarder et al. An Improved Hybrid Evolutionary Clustering Algorithm to Mitigate Empty Clustering Problem
Chinomona A paradigm shift from Surveys to Big Data in Financial Market Research
CN118302773A (zh) 机器学习回归分析
CN114120040A (zh) 数据分类方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210521

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210521

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230307

R150 Certificate of patent or registration of utility model

Ref document number: 7241862

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150