JP7409513B2 - 機械学習データ生成プログラム、機械学習データ生成方法および機械学習データ生成装置 - Google Patents

機械学習データ生成プログラム、機械学習データ生成方法および機械学習データ生成装置 Download PDF

Info

Publication number
JP7409513B2
JP7409513B2 JP2022544887A JP2022544887A JP7409513B2 JP 7409513 B2 JP7409513 B2 JP 7409513B2 JP 2022544887 A JP2022544887 A JP 2022544887A JP 2022544887 A JP2022544887 A JP 2022544887A JP 7409513 B2 JP7409513 B2 JP 7409513B2
Authority
JP
Japan
Prior art keywords
data
attribute
machine learning
types
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022544887A
Other languages
English (en)
Other versions
JPWO2022044064A1 (ja
JPWO2022044064A5 (ja
Inventor
賢司 小林
隆夫 毛利
悠里 中尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2022044064A1 publication Critical patent/JPWO2022044064A1/ja
Publication of JPWO2022044064A5 publication Critical patent/JPWO2022044064A5/ja
Application granted granted Critical
Publication of JP7409513B2 publication Critical patent/JP7409513B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、機械学習データの生成技術に関する。
機械学習は、入試や採用、与信など、個人に対する意思決定に利用されるようになってきているが、性別や人種など、差別してはならない属性(保護属性)が予測結果に影響するケースが発生している。
近年では、差別のような潜在的な社会的問題に配慮し、予測結果からバイアスを無くすように是正する技術として、機械学習済みの分類器を用いたインスタンス(既知のデータ)の修正技術などが利用されている。例えば、訓練データまたはテストデータに対し、分類器を用いてインスタンスの分類スコアを算出し、ラベル毎にソートして2グループ間で確率が合うようにラベルを変更した後、分類スコアでソートすることで、曖昧性の高いラベルが付与されたインスタンスに修正する。
特表2019-519021号公報
しかしながら、上記技術では、或る属性だけに着目して、ラベルを変更してインスタンスを修正し、公平性の是正を実行した場合、他の属性での偏り(不公平性)が大きくなる可能性がある。
例えば、複数の保護属性がある場合、上記技術では、1保護属性ずつ順に是正する。しかし、1保護属性を是正する際、別の保護属性の内訳を考慮しないので、別の保護属性の差別が悪化したり、一度是正した別の保護属性の結果が変更されたり、保護属性を組み合わせたグループの差別は是正されない。
なお、複数の保護属性を組み合わせたグループに対し、選択した2グループ間(ペア)で差別是正を行うことも考えられるが、是正される内容が選択されグループのペアによって決定されるので、グループ選択を繰り返すことで得られる最終的な是正結果が局所解となることがある。このように、一部のグループが持つ特徴により、全体の特徴に反した是正が行われる可能性がある。
一つの側面では、機械学習データの公平性を向上することができる機械学習データ生成プログラム、機械学習データ生成方法および機械学習データ生成装置を提供することを目的とする。
第1の案では、機械学習データ生成プログラムは、それぞれに正例または負例がラベル付けされた複数のデータを取得し、複数のデータのそれぞれに関連付けられた第1の属性と第2の属性との組の複数の種類毎に、正例のデータ数と負例のデータ数との比率を算出し、複数の種類のそれぞれに対して算出された比率の差が閾値以上である場合、複数の種類に含まれる第1の種類と他の全ての種類それぞれとの組み合わせ毎に、比率に基づいて、第1の種類に対応する第1の属性と第2の属性とが関連付いたデータのうち、変更候補のデータを特定し、組み合わせ毎に特定された変更候補のデータに基づいて、第1の種類に対応する第1の属性と第2の属性とが関連付いたデータのうち、第1のデータを選択し、複数のデータに含まれる第1のデータのラベルを変更することによって機械学習データを生成する、処理をコンピュータに実行させることを特徴とする。
一つの側面では、機械学習データの公平性を向上することができる。
図1は、実施形態に係る情報処理を説明する図である。 図2は、情報処理装置の機能ブロックの例を示す図である。 図3は、訓練データの例を示す図である。 図4は、グループ化部222によるグループ化の例を示す図である。 図5は、是正試行部223によるグループのペアの是正処理の例を示す図である。 図6は、集約部224による、是正処理の試行結果の集約結果の例を示す図である。 図7は、算出部225による超過度の算出の例を示す図である。 図8は、算出部225による超過度の算出の例を示す図である。 図9は、選択部227および変更部228によるインスタンスの選択および修正の例を示す図である。 図10は、是正後のグループの例を示す図である。 図11は、装置において実行される処理(是正済み訓練データの生成方法)の例を示すフローチャートである。 図12は、取得部221によって取得された訓練データを示す図である。 図13は、グループ化部222によるグループ化を示す図である。 図14は、是正試行部223によるグループのペアの是正処理を示す図である。 図15は、集約部224による、是正処理の試行結果の集約結果を示す図である。 図16は、算出部225による超過度の算出を示す図である。 図17は、算出部225による超過度の算出を示す図である。 図18は、選択部227および変更部228によるインスタンスの選択および修正を示す図である。 図19は、是正後のグループを示す図である。 図20は、装置において実行される是正済み訓練データの生成処理の例を示すフローチャートである。 図21は、装置において実行される是正済み訓練データの生成処理の例を示すフローチャートである。 図22は、実施形態に係る情報処理を説明する図である。 図23は、装置のハードウェア構成例を説明する図である。
以下、実施形態を図面に基づいて詳細に説明する。この実施形態により発明は限定されない。各形態は、矛盾のない範囲内で適宜組み合わされてよい。
近年、機械学習は、入試や採用、与信など、個人に対する意思決定に利用されるようになってきている。しかし、性別や人種など、差別してはならない保護属性が分類結果(予測結果)に影響するケースが発生しており、問題となっている。そのため、差別のような潜在的な社会的問題に配慮し、予測結果からバイアスを無くすように是正する公平性配慮型機械学習が期待される。
ここで、公平性配慮型機械学習におけるグループの公平性とは、保護属性の値に依存したグループ間における公平性であり、グループ毎の確率がグループ間で一致することを指す。例えば、保護属性が性別であれば、男性グループと女性グループが存在し、採用率やローン審査率が一致することなどである。公平性配慮型機械学習では、入出力するデータにグループ間で確率に差があればデータを修正することで是正する。ただし、公平性と精度はトレードオフになっているので、なるべくデータ修正を抑えた上で公平性を満たすことが求められる。
また、保護属性は単独ではなく、複数指定されることがある。例えば、属性の種類や数は、社会的背景や文化的背景およびユースケースに応じて決定され、複数指定される場合、それらを組み合わせた分のグループが存在する。
開示される技術によれば、特に、複数の保護属性の組でグループ化されたグループに依存したグループ間での分類結果の差(不公平)が是正される。公平性を満たすかどうかの判断として、ある閾値(許容度)が用いられてよい。許容度は保護属性毎に設定されてよく、その場合、厳しく是正したい保護属性の場合には比較的小さい値に設定され、そうでなければ比較的大きい値に設定されてよい。単一の保護属性でグループ化されたグループ間の公平性を是正することが可能な既存の公平性アルゴリズムがそのまま用いられてよい。公平性アルゴリズムは、データ修正(pre-processing、post-processing)を対象とする。公平性を配慮してモデルを構築するアルゴリズム(in-processing)も対象となりうる。公平性アルゴリズムは元のグループ間の順位(例えば正例の比率の順位)を逆転しない2値の分類問題を対象としてよい。以下では、特にpre-processingを対象とする場合について説明する。
図1は、実施形態に係る情報処理装置20を説明する図である。図1には、機械学習に関するフェーズとして、データ準備フェーズ、訓練フェーズおよび分類フェーズが例示される。
データ準備フェーズにおいて、情報処理装置20は、訓練データ10を是正する。訓練データ10は、保護属性が分類結果に大きな影響を及ぼし得る不公平なデータ、つまり公平性配慮の無いデータである。この不公平が、情報処理装置20によって是正され、是正済み訓練データ30として生成される。
訓練フェーズにおいて、訓練装置40が、是正済み訓練データ30を用いた機械学習によって、訓練済みモデル50を生成する。分類フェーズにおいて、分類装置60が、訓練済みモデル50を用いて分類(予測)を行う。
ここで、情報処理装置20は、複数の保護属性を組み合わせたグループに対して、必要最低限のデータ修正によって公平性を満たす、訓練データのデータ修正を実行する。具体的には、情報処理装置20は、それぞれに正例または負例がラベル付けされた複数のデータを取得する。続いて、情報処理装置20は、複数のデータそれぞれに関連付けられた第1の属性と第2の属性との組の複数の種類ごとに、正例のデータ数と負例のデータ数との比率を算出する。
そして、情報処理装置20は、複数の種類(グループ)のそれぞれに対して算出された比率の差が閾値以上である場合、複数の種類に含まれる第1の種類と他の全ての種類それぞれとの組み合わせ毎に、比率に基づいて、第1の種類に対応する第1の属性と第2の属性とが関連付いたデータのうち、変更候補のデータを特定する。
続いて、情報処理装置20は、組み合わせ毎に特定された変更候補のデータに基づいて、第1の種類に対応する第1の属性と第2の属性とが関連付いたデータのうち、第1のデータを選択する。その後、情報処理装置20は、複数のデータに含まれる第1のデータのラベルを変更することによって機械学習データである是正済み訓練データ30を生成する。
つまり、情報処理装置20は、複数の保護属性を組み合わせたグループを生成し、その中から、2グループを選択したペア全てに対し、差別是正処理を試行し、その試行結果をグループ毎に集約し、スコアの高いインスタンスから順に修正する。このように、情報処理装置20は、2値分類アルゴリズムを多値分類に適用するone-versus-one分類の考えを取り入れ、不要なデータ修正を抑制しつつ、機械学習データや分類データの公平性を向上することができる。
図2は、情報処理装置の機能ブロックの例を示す図である。情報処理装置20は、入力部21と、制御部22と、記憶部23と、出力部24とを含む。
入力部21には、訓練データ10が入力される。制御部22は、入力部21に入力された訓練データ10を用いて、是正済み訓練データ30を生成する。制御部22の詳細については後述する。記憶部23は、制御部22の処理に必要な種々のプログラムや制御部20が各種処理の過程で生成する各種中間データなどを記憶する。例えば、記憶部23は、訓練データ10と是正済み訓練データ30を記憶する。出力部24は、記憶部23によって生成された是正済み訓練データ30を出力する。
制御部22について詳述する。制御部22は、取得部221と、グループ化部222と、是正試行部223と、集約部224と、算出部225と、特定部226と、選択部227と、変更部228とを含む。
取得部221は、入力部21に入力され訓練データ10を取得して、記憶部13に格納する。訓練データ10の例について、図3を参照して説明する。
図3は、訓練データ10の例を示す図である。訓練データ10は、複数のインスタンスのデータを含む。各データは、インスタンスid(identifier(識別子))および属性が関連付けられるとともに、ラベル付けされている。インスタンスの例は、人である。
属性は、保護属性および非保護属性に分類される。保護属性は、分類結果への影響を低減することが意図されている属性である。非保護属性は、保護属性以外の属性である。保護属性の例は、性別、人種、宗教等である。非保護属性の例は、年齢、住所、点数(例えば試験の点数)等である。図3においては、属性が属性1~属性5として示される。保護属性(属性1および属性2)の内容も、A1、B1、A2およびB2として示される。非保護属性(属性3~属性5)の内容も、a3~f3、a4~f4およびa5~f5として示される。
ラベルは、分類結果を示し、具体的には正例(favorable)または負例(unfavorable)の2値を示す。正例および負例の例は、例えば試験の合否を示す合格および不合格である。
図2に戻り、グループ化部222は、取得部221によって取得された訓練データ10を、複数の保護属性の組にグループ化する。これについて、図4を参照して説明する。
図4は、グループ化部222によるグループ化の例を示す図である。グループ化部222は、図3に示した訓練データ13の保護属性であるA1、A2、B1、B2それぞれを組み合わせたペアを生成することで、グループ1~グループ4の4つにグループ化する。グループ1は、属性1がA1、属性2がA2のグループである。他のグループ2~グループ4についても、図4に示されるとおりである。各グループに対応するインスタンスおよびラベルが、丸印で図示される。丸印の数は、インスタンスの数(この例では4)に対応する。丸印は、実線丸印または破線丸印で示される。実線丸印は、正例のラベルに対応する。破線丸印は、負例のラベルに対応する。このとき、グループ化部222は、要素メトリクスを算出してよい。要素メトリクスの例は、正例のデータ数と負例のデータ数との比率である。比率の例は、全インスタンス数に対する正例のインスタンス数の比率(正例のインスタンス数/全インスタンス数)、全インスタンス数に対する負例のインスタンス数の比率(負例のインスタンス数/全インスタンス数)、負例のインスタンス数に対する正例のインスタンス数の比率(正例のインスタンス数/負例のインスタンス数)および正例のインスタンス数に対する負例のインスタンス数(負例のインスタンス数/正例のインスタンス数)である。以下、とくに説明がある場合を除き、比例は、全インスタンス数に対する正例のインスタンス数の比率(正例のインスタンス数/全インスタンス数)であるものとする。
図2に戻り、是正試行部223は、グループ化部222によってグループ化されたグループのペア(組の種類のペア)に対して、是正処理を試行する。これについて、図5を参照して説明する。
図5は、是正試行部223によるグループのペアの是正処理の例を示す図である。是正試行部223は、グループ1~グループ4の4つのグループの組み合わせから、グループ1とグループ2のペア、グループ1とグループ3のペア、グループ1とグループ4のペア、グループ2とグループ3のペア、グループ2とグループ4のペア、グループ3とグループ4のペアを生成して、6つのグループのペアを生成する。そして、是正試行部223は、6つのグループのペアそれぞれに対して、是正処理を試行する。
是正試行部223は、6つのペアそれぞれについて、ペアを構成する2つのグループ間の是正処理を試行する。是正試行部223は、例えばバイアス間アルゴリズム等とも称される公平性アルゴリズムを用いることによって是正処理を試行する。2グループ間の公平性アルゴリズムは公知であるので、ここでは詳細な説明は行わない。是正処理の例は、インスタンスのラベル変更である。ラベル変更は、正例から負例への変更および負例から正例への変更を含む。是正処理の他の例は、属性の追加、修正等である。以下、特に説明がある場合を除き、是正処理がラベル変更であるものとする。なお、是正試行部223によって行われるのは是正処理の試行であるので、是正処理の結果は取得できるが、その結果通りに直ちに2グループ間の公平性が是正される、すなわちラベル変更によりインスタンスが修正されるわけではないことに留意されたい。
図5には、是正処理の結果も例示される。修正対象のインスタンスが、ハッチングで示される。この例では、グループ1およびグループ2のペアにおいて、グループ1の(左から)2番目のインスタンスが修正対象である。他のペアについても、図5に示される通りである。なお、グループ3およびグループ4のペアにおいては、修正対象のインスタンスは存在しない。
図2に戻り、集約部224は、是正試行部223による是正処理の試行結果を、グループごとに集約する。これについて、図6を参照して説明する。
図6は、集約部224による、是正処理の試行結果の集約結果の例を示す図である。集約部224は、図5に示した6つのグループペアの是正処理の試行結果を、グループ1、グループ2、グループ3、グループ4ごとに集約する。すなわち、図6に示すように、集約部224は、グループ1~グループ4それぞれに3通りの是正処理の試行結果を集約する。例えば、グループ1を例にして集約を説明すると、集約部224は、グループ1とグループ2のペアから、1つの負例のラベル(破線丸印)、2つの正例のラベル(実践丸印)、1つの変更対象のラベル(ハッチング)とを集約する。同様に、集約部224は、グループ1とグループ3のペアから、1つの負例のラベル、2つの正例のラベル、1つの変更対象のラベルとを集約し、グループ1とグループ4のペアから、1つの負例のラベル、1つの正例のラベル、2つの変更対象のラベルとを集約する。
また、集約部224は、インスタンスにスコアを付与する。スコア付与のタイミングはとくに限定されず、後述の選択部227による選択までに実行することができる。スコアは、インスタンスの修正の必要性が高いことを示す指標(確信度)である。集約部224は、そのインスタンスを修正対象とする試行結果の数が多いほど高くなるようにスコアを定める。例えば、集約部224は、試行結果の数の割合(比率、確率等)に基づいて、スコアを定める。図6に示される例では、グループ1の2番目のインスタンスは、3通りの是正処理の試行結果すべてによって修正対象とされているため、スコアは、3/3すなわち1.0である。グループ1の3番目のインスタンスのスコアは、1/3すなわち0.33であり、グループ2の4番目のインスタンスおよびグループ3の3番目のインスタンスも同様である。グループ4の3番目のインスタンスのスコアは、2/3すなわち0.67である。スコアが図示されない他のインスタンスのスコアは、0/3すなわち0である。スコアが付与されたインスタンスは、修正対象候補のインスタンスとなりうる。
図2に戻り、算出部225は、グループのペアごとに、超過度を算出する。超過度は、ペアを構成するグループ同士の間の不公平の程度が一定以上であることを示す。超過度の算出について、図7および8を参照して説明する。
図7および図8は、算出部225による超過度の算出の例を示す図である。図7を参照して、算出部225は、ペアを構成する2つのグループを、特権グループと非特権グループと分類する。特権グループは、優遇されるグループである。非特権グループは、冷遇されるグループである。この分類は、要素メトリクス(例えば正例の比率)の大きさに基づいて行われる。例えば、算出部225は、2つのグループのうち、正例の比率が大きいグループを、特権グループに分類する。算出部225は、2つのグループのうち、正例の比率が小さいグループを、非特権グループに分類する。図7に示される例では、算出部225は、グループ1およびグループ2のペアにおいては、グループ1を特権グループに分類し、グループ2を非特権グループに分類する。他のグループのペアについても、図7に示されるとおりである。
算出部225は、それぞれのペアについて、公平性メトリクスδを算出する。公平性メトリクスδは、データおよびモデルの公平性を測るためのメトリクスである。グループ間の公平性を判断するために、一例として、下記の式(1)にしたがって算出される統計的均一性(statistical parity)を一例とする公平性メトリクスδを用いるものとする。ただし、これ以外にも、公平性メトリクスは、確率、距離および分布などをベースとして多種存在しており、それらのいずれかがユースケースに応じて適宜選択され、用いられてよい。
Figure 0007409513000001
上記の式(1)において、Yはラベルを示し、Y=1は正例を示す。Dは保護属性を示し、D=unpriviledgedは非特権グループであることを示し、D=priviledgedは特権グループであることを示す。右辺第1項は、非特権グループの正例の分布を示す。右辺第2項は、特権グループの正例の分布を示す。公平性メトリクスδの値が大きいほど、グループ間の不公平が大きいことを示す。
図7において、グループ1およびグループ2のペアにおける公平性メトリクスδが、δ12(=Pr2-Pr1)として示される。分布Pr2は、グループ2の分布である。分布Pr1は、グループ1の分布である。他のグループのペアについても、図7に示されるとおりである。
算出部225は、公平性メトリクスδから、超過度を算出する。超過度は、公平性メトリクスδに対して設定された閾値の一例である許容度εから、算出された公平性メトリクスδがどの程度外れているのかを示す。この例では、算出部225は、超過度を、属性別に算出して小計する。これにより、属性に応じて異なる許容度εが設定されうる。図7において、グループ1およびグループ2のペアにおける超過度のうち、属性1に応じた超過度が、超過度E12-1として示される。属性2に応じた超過度が、超過度E12-2として示される。超過度E12-1および超過度E12-2の小計値(合計値)が、超過度E12として示される。他のグループのペアについても、図7に示される通りである。
図8を参照して、算出部225は、図7に示す超過度の小計値から、各グループの超過度を算出する。算出部225は、そのグループに関する小計値を加算または減算した値(ここでは絶対値)として超過度を算出する。図8において、グループ1の超過度が、超過度E1として示される。ここで、算出部225は、小計値を加算するか減算するかを、小計値が算出されたグループのペアにおいて、そのグループが特権グループおよび非特権グループのいずれであったかに応じて決定する。この例では、算出部225は、特権グループであった場合に小計値を加算し、非特権グループであった場合に小計値を減算する。特権グループ(優遇されるグループ)と非特権グループ(冷遇されるグループ)とでは、是正の方向が異なるからである。例えば加算だけにすると、優遇および冷遇の両方での是正が必要な場合に、一方の是正によって他方の超過度が大きくなってしまう。加算および減算を使い分けることで、超過度が大きくなり過ぎないようにすることができる。超過度は後述するように是正の優先度を高めるという意味もあり、超過度の抑制は、是正の優先度を下げることにつながる。図8に示される例では、算出部225は、グループ1の超過度E1を、E1=|E12+E13+E14|として算出する。他のグループについても、図8に示されるとおりである。
図2に戻り、特定部226は、算出部225によって算出された超過度に基づいて、是正対象のグループを特定(選択)する。例えば、特定部226は、超過度が最も大きいグループを、是正対象のグループとして特定する。超過度が最も大きいグループが複数存在する場合には、例えば、特定部226は、最も修正候補(ラベルの変更候補)のインスタンスの数またはスコア(確信度)の高いグループを是正対象グループとして特定する。ここでは、グループ1が是正対象として特定されるものとする。
選択部227は、特定部226によって特定されたグループに含まれるインスタンスから、修正対象となるインスタンスを選択(特定)する。変更部228は、選択されたインスタンスのラベルを変更することによってインスタンスを修正する。これについて、図9および図10を参照して説明する。
図9は、選択部227および変更部228によるインスタンスの選択および修正の例を示す図である。上述のようにグループ1が是正対象であり、図9の左側には、グループ1の集約結果(図6)が再掲される。2番目のインスタンスのスコアが1.0で最も高いので、選択部227は、2番目のインスタンスを、修正対象のインスタンスとして選択する。変更部228は、選択部227によって選択された2番目のインスタンスのラベルを変更する。この例では、変更部228は、図9の右側に示されるように、2番目のインスタンスのラベルを正例から負例に変更する。
図10は、是正後のグループの例を示す図である。先に説明した図4と比較すると、グループ1の2番目のインスタンスのラベルが正例から負例に変更されており、その分、グループ1と他のグループ2~4との正例の比率の差が小さくなっている。すなわち、グループ間の公平性が是正(不公平性が低減)されている。
上述の図7~図10等を参照して説明した特定部226、選択部227および変更部228による処理は、超過度が許容度εに収まるまで、繰り返し実行されてよい。その際、グループ間の公平性(正例の比率の順位)が逆転しない範囲で各処理が実行されてよい。その場合、例えば、変更部228は、特定部226によって特定されたグループにおいて選択部227によって選択されたラベルを変更してもグループ間の順位が変わらない場合に、そのラベルデータを変更する。これにより、超過度が収束しやすくなる。
例えば以上のようにして訓練データ10(図1)を是正することにより、制御部22は、是正済み訓練データ30を生成する。
なお、公平性アルゴリズムによっては、非保護属性を修正または追加するが、その場合、変更部228は、修正候補の中から適当な集約関数を用いて採用してよい。例えば、変更部228は、名義尺度であれば多数決を採用したり、比例尺度であれば平均を取ったりすることができる。
図11は、装置において実行される処理である是正済み訓練データの生成方法の例を示すフローチャートである。
取得部221は、入力部21に入力された訓練データ10を取得する(S1)。
続いて、グループ化部222は、先に図4を参照して説明したように、取得部221によって取得された訓練データ10をグループ化する(S2)。
そして、是正試行部223は、先に図5を参照して説明したように、グループのペアごとに是正処理を試行する(S3)。
その後、集約部224は、先に図6を参照して説明したように、是正処理の試行結果をグループごとに集約する(S4)。
続いて、算出部225は、先に図7および図8を参照して説明したように、超過度を算出する(S5)。
そして、特定部226は、先に図7および図8を参照して説明したように、是正対象のグループを特定する(S6)。
続いて、選択部227は、先に図9を参照して説明したように、修正対象のインスタンスを選択する(S7)。
その後、変更部228は、先に図9を参照して説明したように、インスタンスを修正する(S8)。
その後、制御部22は、超過度が許容度εの範囲内であるか否かを判断する(S9)。超過度が許容度εの範囲内である場合(S9:Yes)、制御部22は、フローチャートの処理を終了する。そうでない場合(S9:No)、制御部22は、S6に処理を戻す。なお、S6~S9の処理が繰り返し実行される間、先に述べたように、グループ間の公平性(正例の比率の順位)が逆転しない範囲でそれらの処理が実行されてよい。これに関するフローについては、後に説明する図20および図21で例示される。
以上のようにして生成された是正済み訓練データ30は、複数の保護属性がある場合に、保護属性を組み合わせグループ全体に対して最適化するように是正されている。仮に、複数の保護属性がある場合に一つの保護属性ずつ順に是正した場合、1つの保護属性を是正する際に別の保護属性の内容が考慮されないため、別の保護属性の差別が悪化するといった問題がある。一度是正した別の保護属性の結果が変更される問題、保護属性を組み合わせたグループの差別が是正されない問題もある。また、複数の保護属性を組み合わせたグループに対し、選択した2グループ間(ペア)で是正を行い、次のペアで是正を行い、という処理を繰り返すことも考えられる。しかしこの場合には、修正されるインスタンスが、選択したグループのペアによって決定されるため、修正結果が局所解となってしまう。本実施形態の手法によれば、これらの問題が低減される。
次に、図12~図21を参照して、上述した処理の具体例を説明する。これまでの説明と重複する内容については詳細な説明は省略する。
図12は、取得部221によって取得された訓練データを示す図である。インスタンスは、試験の受験者(応募者)ある。保護属性は、性別および宗教である。非保護属性は、年齢、住所および点数(試験の点数)である。ラベルは、合格(正例)および不合格(負例)である。
図13は、グループ化部222によるグループ化を示す図である。グループ化部222は、男性および宗教Aのグループ、男性および宗教Bのグループ、女性および宗教Aのグループ、ならびに、女性および宗教Bのグループにグループ化する。各グループに含まれるインスタンスの数(丸印の数)は、10である。実線丸印は合格(正例)に対応し、破線丸印は不合格(負例)に対応する。
図14は、是正試行部223によるグループのペアの是正処理を示す図である。是正試行部223は、6つのグループのペアそれぞれについて是正処理を試行する。修正対象のインスタンスが、ハッチングで示される。
図15は、集約部224による、是正処理の試行結果の集約結果を示す図である。インスタンスに付与されたスコアも図示される。
図16および図17は、算出部225による超過度の算出を示す図である。図16を参照して、ここでは、算出部225は、性別に応じた超過度の許容度εを0.2に設定し、宗教に応じた超過度の許容度εを0.3に設定する。算出部225は、これらの超過度を超えた分を、属性別の超過度として算出する。男性および宗教Aのグループと、女性および宗教Aのグループとのペアにおいて、公平性メトリクスδが-0.3である。性別の超過度は、許容度ε(0.2)を0.1だけ上回るため、0.1である。宗教の超過度は、許容度ε(0.3)を上回らないので、0である。超過度の小計値(合計値)は、0.1である。他のグループについても、図16に示されるとおりである。
図17を参照して、算出部225は、各グループの超過度を、小計値を加算または減算した値として算出する。算出部225は、男性および宗教Aのグループの超過度を0.7として算出する。他のグループについても、図17に示されるとおりである。
図17に示される4つのグループのうち、最も超過度の大きい男性および宗教Aのグループが、特定部226によって、是正対象のグループとして特定される。
図18は、選択部227および変更部228によるインスタンスの選択および修正を示す図である。図18の左側に示されるように、男性および宗教Aのグループに含まれるインスタンスのうち最も高い1.0のスコアが付与されたインスタンスが、選択部227によって、修正対象のインスタンスとして選択される。図18の右側に示されるように、選択部227によって選択されたインスタンスのラベルが変更部228によって合格から不合格に変更され、インスタンスが修正される。
図19は、是正後のグループを示す図である。先に説明した図13と比較すると、男性および宗教Aのグループの(上から)2番目のインスタンスのラベルが正例から負例に変更されている。その結果、男性および宗教Aのグループと、他のグループとの正例の比率の差が小さくなっている。すなわち、グループ間の公平性が是正(不公平性が低減)されている。
以上説明した是正済み訓練データの生成方法は一例に過ぎず、さまざまな観点から生成方法が特定される。いくつかの例を、図20および図21を参照して説明する。
図20は、装置において実行される処理である是正済み訓練データの生成処理の例を示すフローチャートである。
是正試行部223は、保護属性を組み合わせたグループのすべてのペアに対し、公平性アルゴリズムによる是正処理を実行する(S11)。具体例については先に図5および図14を参照して説明したとおりである。
続いて、集約部224は、グループ毎に是正処理結果を集約し、修正されたインスタンスを修正候補とする(S12)。具体例については先に図6および図15を参照して説明したとおりである。図6および図15においてハッチングで示されるインスタンスが、是正候補のインスタンスである。
そして、算出部225は、全グループの要素メトリクス(例えば正例の比率)を算出し、全ペアの要素グループの特権性を判定する(S13)。具体例については先に図7および図16を参照して説明したとおりである。
次に、算出部225は、全ペアの公平性メトリクスから、ペア別属性別超過度、およびペア別超過度を算出する(S14)。具体例については先に図7および図16を参照して説明したとおりである。
そして、算出部225は、ペア別超過度から、グループ別超過度を算出し、0を超過するグループを是正対象グループ候補とする(S15)。具体例については先に図7および図16を参照して説明したとおりである。
ここで、制御部22は、是正対象グループ候補があるか否かを判断する。是正対象グループ候補がある場合(S16:Yes)、制御部22は、S17に処理を進める。そうでない場合(S16:No)、制御部22は、フローチャートの処理を終了する。
そして、特定部226は、是正対象グループ候補の中で最も大きい超過度を持つグループを是正対象グループとする(S17)。具体例についてはこれまで説明したとおりである。
ここで、制御部22は、是正対象グループに、修正候補となるインスタンスがあるか否かを判断する(S18)。修正候補となるインスタンスがある場合(S18:Yes)、制御部22は、S19に処理を進める。そうでない場合(S18:No)、制御部22は、S22に処理を進める。
続いて、選択部227は、修正候補となるインスタンス毎に確信度(スコア)を算出し、最も確信度の高いインスタンスを選択する(S19)。具体例については、先に図9および図18を参照して説明したとおりである。
そして、制御部22は、選択したインスタンスを修正した場合、要素メトリクス(例えば正例の比率)の順位が変わるか否かを判断する(S20)。順位が変わる場合(S20:Yes)、制御部22は、S22に処理を進める。そうでない場合(S20:No)、制御部22は、S21に処理を進める。
次に、変更部228は、選択したインスタンスの修正内容をグループ別集約結果に反映し、修正候補から除外する(S21)。具体例については、先に図9、図10、図18および図19を参照して説明したとおりである。S21の処理が完了した後、制御部22は、S16に処理を戻す。
その後、制御部22は、是正グループ候補から除外する(S22)。すなわち、制御部22は、先のS17で是正対象とされたグループを、是正グループ候補から除外する。S22の処理が完了した後、制御部22は、S16に処理を戻す。
例えば以上のようにして、是正済み訓練データ30を生成することができる。とくにS20の処理を経ることによって、要素メトリクス(例えば正例の比率)の順位が変わらない範囲でインスタンスが是正されるので、処理が収束し易くなる。
図21は、装置において実行される処理である是正済み訓練データの生成処理の例を示すフローチャートである。
S31~S35の処理は、先に図20を参照して説明したS11~S15の処理と同様であるので、ここでは説明は繰り返さない。
制御部22は、是正対象グループ候補があるか否かを判断する(S36)。是正対象グループ候補がある場合(S36:Yes)、制御部22は、S37に処理を進める。そうでない場合(S36:No)、制御部22は、フローチャートの処理を終了する。
制御部22は、是正対象グループ候補の中で超過度が最大となるグループが複数あるか否かを判断する(S37)。超過度が最大となるグループが複数ある場合(S37:Yes)、制御部22は、S38に処理を進める。そうでない場合(S37:No)、制御部22は、S39に処理を進める。
特定部226は、超過度が最大となるグループの中で、最も修正候補のインスタンスの数または確信度(スコア)の高いグループを是正対象グループとする(S38)。具体例についてはこれまで説明したとおりである。S38の処理が完了した後、制御部22は、S40に処理を進める。
特定部226は、超過度が最大となるグループを是正対象グループとする(S39)。具体例についてはこれまで説明したとおりである。S39の処理が完了した後、制御部22は、S40に処理を進める。
S40~S44の処理は、先に図20を参照して説明したS18~S22の処理と同様であるので、ここでは説明は繰り返さない。S43またはS44の処理が完了した後、制御部22は、S36に処理を戻す。
例えば以上のようにして、是正済み訓練データ30を生成することができる。とくにS37~S39の処理を経ることによって、超過度が最大となるグループが複数存在する場合でも、是正対象グループを特定することができる。
以上説明した情報処理装置20によれば、グループのペアそれぞれについての是正処理の試行結果を集約し、その集約結果に基づいてラベル変更する。これにより、例えば特定のグループのペアにだけ着目してラベル変更する場合と比較して、グループ全体の間での不公平性が大きくなることを防ぐことができる。したがって、訓練データ10の公平性を向上することができる。
超過度が最も大きいグループのペアにおけるグループのインスタンスを修正することで、適切な是正を行うことができる。一つのインスタンスの修正後、別のインスタンスも修正することで、さらに是正を行うことができる。
公平性メトリクスδを算出すること、また、公平性メトリクスδが閾値に対して超過しているグループを、是正対称のグループとして特定することで、公平性是正の必要性が高い是正対称のグループを特定することができる。
公平性メトリクスの超過度の小計値の加算または減算の結果に基づいて是正対称のグループを特定することで、例えば優遇される特権グループと冷遇される非特権グループとの是正の方向の違いを考慮することができる。
2つのグループ間の公平性を是正する公平性アルゴリズムを用いて修正対称のインスタンスを選択することで、既存の公平性アルゴリズムを活用することができる。
要素メトリクス(例えば正例の比率)の順位が変わらない場合にラベル変更すること、すなわち順位が変わらない範囲でインスタンスを是正することで、処理が収束し易くなる。
超過度が最大となるグループが複数存在する場合には、最も修正候補のインスタンスの数または確信度(スコア)の高いグループを是正対象グループとすることで、是正対称を特定することができる。
保護属性を組み合わせたグループに処理を適用することで、差別してはならない保護属性による分類結果への影響を低減することができる。
以上では、実施形態に係る処理が訓練データを是正するpre-processingを対象とする例について説明した。ただし、実施形態に係る処理は、機械学習済みのモデルによって生成された分類データ(予測データ)を是正するpost-processingを対象とすることもできる。pre-processingと同じ方式を適用できるからである。pre-processingとの違いはデータの種類だけで、pre-processingが訓練/テストといった、元のデータのラベル(観測ラベルや正解ラベルとも言われる)を変更するのに対し、post-processingは予測データのラベルを変更する。予測データもラベルの他に保護属性も分かるので、それを使ってペア毎に是正処理を行い、その結果を集約して、修正するインスタンスを決めていく。post-processingについて、図22を参照して説明する。
図22は、実施形態に係る情報処理を説明する図である。データ準備フェーズにおいて、訓練データ10の是正は行われない。学習フェーズにおいて、訓練装置40が、訓練データ10を用いた機械学習によって、訓練済みモデル50Aを生成する。分類フェーズにおいて、分類装置60Aが、訓練済みモデル50Aを用いて分類を行う。訓練済みモデル50Aの分類結果が、分類データ70として図示される。分類データ70は、訓練データ10と同様のデータ構造を有する。分類データ70は、情報処理装置20Aによって是正される。情報処理装置20Aは、情報処理装置20(図1)と同様の構成を備えていてよい。分類データ70が訓練データ10と同様のデータ構造を有することから、情報処理装置20Aは、情報処理装置20が訓練データ10を是正するのと同様に、分類データ70を是正することができる。是正されたデータが、是正済み分類データ80として図示される。是正済み分類データ80は、是正済み訓練データ30(図1)と同様に、不公平が是正されたデータである。
実施形態に係る処理は、in-processingを対象とすることもできる。この場合、例えば図1に示される分類装置60(分類アルゴリズム)が、公平性アルゴリズムに内包された構成とすることで、公平性に配慮した分類アルゴリズムとして扱われる。in-processingにおいては、データ修正というよりは、バイアスのかかりにくいようなモデルを構築する。モデルであるので、入力は訓練/テスト、出力は予測となる。この場合でも、これまで説明した方式が同じように適用できる。すなわち、訓練/テストをペア毎で是正処理を行い、その結果となる予測データを集約し、インスタンスを修正する。pre-processingおよびpost-processingと比較して、精度および公平性の観点で有利となりうる。
上記実施の形態で用いた訓練データの数や種類、保護属性等の種別、ラベル例、インスタンス例等は、あくまで一例であり、任意に変更することができる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、要素メトリクスは、制御部22におけるグループ化部222以外の是正試行部223、集約部224、算出部225等が算出することもできる。また、スコアの付与は、算出部225や特定部226が実行することもできる。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)および当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
上述した情報処理装置20のハードウェア構成の例について、図23を参照して説明する。なお、情報処理装置20A、訓練装置40および分類装置60についても同様のハードウェア構成を有するので、ここでは、情報処理装置20についてのみ説明する。
図23は、ハードウェア構成例を説明する図である。情報処理装置20は、通信装置20a、表示装置20b、HDD(Hard Disk Drive)20c、メモリ20d、プロセッサ20eを有する。それらはバス等で相互に接続される。
通信装置20aは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。表示装置20bは、是正結果などを表示する装置であり、例えばタッチパネルやディスプレイなどである。HDD20cは、図2に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ20eは、プログラムをHDD20c等から読み出してメモリ20dに展開することで、図2等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置20が有する制御部22と同様の機能を実行する。具体的には、プロセッサ20eは、プログラムをHDD20c等から読み出す。そして、プロセッサ20eは、制御部22等と同様の処理を実行するプロセスを実行する。
このように、情報処理装置20は、プログラムを読み出して実行することで是正済み訓練データ(機械学習データ)の生成方法を実行する情報処理装置として動作する。また、情報処理装置20は、媒体読取装置によって記録媒体からプログラムを読み出し、読み出されたプログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置20によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
10 訓練データ
20 情報処理装置
21 入力部
22 制御部
23 記憶部
24 出力部
30 是正済み訓練データ
40 訓練装置
50 訓練済みモデル
60 分類装置
70 分類データ
80 是正済み分類データ
221 取得部
222 グループ化部
223 是正試行部
224 集約部
225 算出部
226 特定部
227 選択部
228 変更部

Claims (12)

  1. それぞれに正例または負例がラベル付けされた複数のデータを取得し、
    前記複数のデータのそれぞれに関連付けられた第1の属性と第2の属性との組の複数の種類毎に、正例のデータ数と負例のデータ数との比率を算出し、
    前記複数の種類のそれぞれに対して算出された前記比率の差が閾値以上である場合、前記複数の種類に含まれる第1の種類と他の全ての種類それぞれとの組み合わせ毎に、前記比率に基づいて、前記第1の種類に対応する前記第1の属性と前記第2の属性とが関連付いたデータのうち、変更候補のデータを特定し、
    前記組み合わせ毎に特定された前記変更候補のデータに基づいて、前記第1の種類に対応する前記第1の属性と前記第2の属性とが関連付いたデータのうち、第1のデータを選択し、
    前記複数のデータに含まれる前記第1のデータのラベルを変更することによって機械学習データを生成する、
    処理をコンピュータに実行させることを特徴とする機械学習データ生成プログラム。
  2. 前記特定する処理は、前記複数の種類のうち、前記比率の差が前記閾値から最も離れている種類を、前記第1の種類として選択する処理、
    を含むことを特徴とする請求項1に記載の機械学習データ生成プログラム。
  3. 前記特定する処理は、前記選択する処理によって前記第1のデータが選択され、前記生成する処理によって前記第1のデータのラベルが変更された後、前記複数の種類のうちの前記第1の種類とは別の第1の種類と他の全ての種類それぞれとの組み合わせ毎に、前記比率に基づいて、前記別の第1の種類に対応する前記第1の属性と前記第2の属性とが関連付いたデータのうち、変更候補のデータを特定する処理、
    を含むことを特徴とする請求項1または2に記載の機械学習データ生成プログラム。
  4. 前記算出する処理は、前記比率の差として、2つの前記種類の間の確率、距離および分布の少なくとも一つに基づく値である公平性メトリクスを算出する処理、
    を含み、
    前記特定する処理は、前記算出する処理によって算出された前記公平性メトリクスに基づいて、前記第1の種類を選択する処理、
    を含むことを特徴とする請求項1に記載の機械学習データ生成プログラム。
  5. 前記特定する処理は、前記複数の種類のうち、前記公平性メトリクスが閾値に対して超過している種類から、前記第1の種類を選択する処理、
    を含むことを特徴とする請求項4に記載の機械学習データ生成プログラム。
  6. 前記特定する処理は、前記第1の属性および前記第2の属性それぞれに対して設定された閾値に対する前記公平性メトリクスの超過度の小計値の加算または減算の結果に基づいて、前記第1の種類を選択する処理、
    を含むことを特徴とする請求項4に記載の機械学習データ生成プログラム。
  7. 前記選択する処理は、2つの前記種類の間の公平性を是正する公平性アルゴリズムを用いて、前記第1のデータを選択する処理、
    を含むことを特徴とする請求項1に記載の機械学習データ生成プログラム。
  8. 前記生成する処理は、前記選択する処理によって選択された前記第1のデータのラベルを変更しても前記複数の種類間の前記比率の順位が変わらない場合に、前記第1のデータのラベルを変更する処理、
    を含むことを特徴とする請求項1に記載の機械学習データ生成プログラム。
  9. 前記特定する処理は、前記複数の種類のうち、前記比率の差が前記閾値から最も離れている種類が複数ある場合には、前記変更候補の数が最も多いまたは前記比率が最も大きい種類を前記第1の種類とする処理、
    を含むことを特徴とする請求項1に記載の機械学習データ生成プログラム。
  10. 前記第1の属性および前記第2の属性は、いずれも保護属性である、
    ことを特徴とする請求項1に記載の機械学習データ生成プログラム。
  11. それぞれに正例または負例がラベル付けされた複数のデータを取得し、
    前記複数のデータのそれぞれに関連付けられた第1の属性と第2の属性との組の複数の種類毎に、正例のデータ数と負例のデータ数との比率を算出し、
    前記複数の種類のそれぞれに対して算出された前記比率の差が閾値以上である場合、前記複数の種類に含まれる第1の種類と他の全ての種類それぞれとの組み合わせ毎に、前記比率に基づいて、前記第1の種類に対応する前記第1の属性と前記第2の属性とが関連付いたデータのうち、変更候補のデータを特定し、
    前記組み合わせ毎に特定された前記変更候補のデータに基づいて、前記第1の種類に対応する前記第1の属性と前記第2の属性とが関連付いたデータのうち、第1のデータを選択し、
    前記複数のデータに含まれる前記第1のデータのラベルを変更することによって機械学習データを生成する、
    処理をコンピュータが実行することを特徴とする機械学習データ生成方法。
  12. それぞれに正例または負例がラベル付けされた複数のデータを取得し、
    前記複数のデータのそれぞれに関連付けられた第1の属性と第2の属性との組の複数の種類毎に、正例のデータ数と負例のデータ数との比率を算出し、
    前記複数の種類のそれぞれに対して算出された前記比率の差が閾値以上である場合、前記複数の種類に含まれる第1の種類と他の全ての種類それぞれとの組み合わせ毎に、前記比率に基づいて、前記第1の種類に対応する前記第1の属性と前記第2の属性とが関連付いたデータのうち、変更候補のデータを特定し、
    前記組み合わせ毎に特定された前記変更候補のデータに基づいて、前記第1の種類に対応する前記第1の属性と前記第2の属性とが関連付いたデータのうち、第1のデータを選択し、
    前記複数のデータに含まれる前記第1のデータのラベルを変更することによって機械学習データを生成する、
    処理を実行する制御部を含むことを特徴とする機械学習データ生成装置。
JP2022544887A 2020-08-24 2020-08-24 機械学習データ生成プログラム、機械学習データ生成方法および機械学習データ生成装置 Active JP7409513B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/031769 WO2022044064A1 (ja) 2020-08-24 2020-08-24 機械学習データ生成プログラム、機械学習データ生成方法、機械学習データ生成装置、分類データ生成プログラム、分類データ生成方法および分類データ生成装置

Publications (3)

Publication Number Publication Date
JPWO2022044064A1 JPWO2022044064A1 (ja) 2022-03-03
JPWO2022044064A5 JPWO2022044064A5 (ja) 2023-04-14
JP7409513B2 true JP7409513B2 (ja) 2024-01-09

Family

ID=80352812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022544887A Active JP7409513B2 (ja) 2020-08-24 2020-08-24 機械学習データ生成プログラム、機械学習データ生成方法および機械学習データ生成装置

Country Status (4)

Country Link
US (1) US20230153694A1 (ja)
EP (1) EP4202799A4 (ja)
JP (1) JP7409513B2 (ja)
WO (1) WO2022044064A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7410209B2 (ja) * 2022-04-20 2024-01-09 Lineヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
WO2024047735A1 (ja) * 2022-08-30 2024-03-07 富士通株式会社 公平性評価プログラム、公平性評価方法、及び、情報処理装置
WO2024047766A1 (ja) * 2022-08-30 2024-03-07 富士通株式会社 バイアス評価プログラム、バイアス評価方法及びバイアス評価装置
JP2024072687A (ja) 2022-11-16 2024-05-28 富士通株式会社 データ生成プログラム、データ生成方法およびデータ生成装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008123043A (ja) 2006-11-08 2008-05-29 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP2019519021A (ja) 2016-04-12 2019-07-04 ハイアービュー インコーポレイテッド パフォーマンスモデル悪影響補正
US20200184350A1 (en) 2018-12-10 2020-06-11 International Business Machines Corporation Post-hoc improvement of instance-level and group-level prediction metrics

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008123043A (ja) 2006-11-08 2008-05-29 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP2019519021A (ja) 2016-04-12 2019-07-04 ハイアービュー インコーポレイテッド パフォーマンスモデル悪影響補正
US20200184350A1 (en) 2018-12-10 2020-06-11 International Business Machines Corporation Post-hoc improvement of instance-level and group-level prediction metrics

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CALMON Flavio P. et al.,Optimized Pre-Processing for Discrimination Prevention,Conference on Neural Information Processing Systems,米国,2017年12月04日,p.2-5
Flavio P. Calmon, 外3名,"Optimized Data Pre-Processing for Discrimination Prevention",[online],2017年04月11日,p.1-18,[令和5年11月14日検索], インターネット<URL:https://arxiv.org/pdf/1704.03354.pdf>

Also Published As

Publication number Publication date
EP4202799A4 (en) 2023-09-13
JPWO2022044064A1 (ja) 2022-03-03
WO2022044064A1 (ja) 2022-03-03
EP4202799A1 (en) 2023-06-28
US20230153694A1 (en) 2023-05-18

Similar Documents

Publication Publication Date Title
JP7409513B2 (ja) 機械学習データ生成プログラム、機械学習データ生成方法および機械学習データ生成装置
TWI631518B (zh) 具有一或多個計算裝置的電腦伺服系統及訓練事件分類器模型的電腦實作方法
KR102189295B1 (ko) 컴퓨터 보안 어플리케이션들을 위한 연속형 분류자들
JP6414363B2 (ja) 予測システム、方法およびプログラム
US11017489B2 (en) Systems and methods for implementing search and recommendation tools for attorney selection
JP6421421B2 (ja) 注釈情報付与プログラム及び情報処理装置
JP6311851B2 (ja) 共クラスタリングシステム、方法およびプログラム
US20130332249A1 (en) Optimal supplementary award allocation
KR20160113685A (ko) 콘텐츠 추천 방법, 장치 및 시스템
de Lima Júnior et al. Developers assignment for analyzing pull requests
Fang et al. Subjectivity grouping: Learning from users' rating behavior
CN116739759A (zh) 基于订单风险识别的资产资金匹配方法、装置及设备
Chu et al. Variational cross-network embedding for anonymized user identity linkage
Nguyen-Trang A new efficient approach to detect skin in color image using Bayesian classifier and connected component algorithm
Abdel-Hafez et al. A normal-distribution based reputation model
Tubella et al. Ethical implications of fairness interventions: what might be hidden behind engineering choices?
US11551121B2 (en) Methods and systems for privacy preserving inference generation in a distributed computing environment
Zola et al. Attacking Bitcoin anonymity: generative adversarial networks for improving Bitcoin entity classification
EP4287083A1 (en) Determination program, determination apparatus, and method of determining
Majeed et al. CTGAN-MOS: Conditional generative adversarial network based minority-class-augmented oversampling scheme for imbalanced problems
Mielniczuk et al. One-Class Classification Approach to Variational Learning from Biased Positive Unlabeled Data
Boratto et al. Influence of rating prediction on the accuracy of a group recommender system that detects groups
Gomes et al. Pairwise combination of classifiers for ensemble learning on data streams
Jang et al. On analyzing churn prediction in mobile games
Berthier Progressive differential evolution on clustering real world problems

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230130

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231204

R150 Certificate of patent or registration of utility model

Ref document number: 7409513

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150