JP2022527536A

JP2022527536A - 強化学習を通じた公平性の改善

Info

Publication number: JP2022527536A
Application number: JP2021558964A
Authority: JP
Inventors: シャルロース、ゲルギオス; フレザー、フレデリック; グラフ、フロリアン; ルステンベルガー、パトリック; ラヴィッツァ、ステファン; スロットケ、エリック
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-04-08
Filing date: 2020-03-18
Publication date: 2022-06-02
Also published as: US20200320428A1; DE112020000537T5; WO2020208444A1; CN113692594A; GB2597406A

Abstract

教師あり機械学習モデルにおける公平性を改善するためのコンピュータ実施方法を提供することができる。方法は、教師あり機械学習モデルを強化学習メタ・モデルにリンクさせるステップと、教師あり機械学習モデルのハイパーパラメータおよびパラメータのリストを選択するステップと、複数の相反する目的関数に基づいて報酬関数を計算することによって、強化学習メタ・モデルに関係する強化学習エンジンによって教師あり機械学習モデルのハイパーパラメータおよびパラメータのリストのハイパーパラメータ値およびパラメータ値を調整することによって、教師あり機械学習モデルの少なくとも１つの態様を制御するステップとを含む。方法は、教師あり機械学習モデルの公平性値を改善するために、上記選択するステップおよび制御するステップを反復的に繰り返すステップをさらに含む。

Description

本発明は、一般的に、機械学習を改善するための方法に関し、より詳細には、教師あり機械学習モデル（ＳＭＬ）における公平性を改善し、差別的バイアスを低減するためのコンピュータ実施方法に関する。本発明はさらに、教師あり機械学習モデルにおける公平性を改善するための関連する公平性改善システム、および、コンピュータ・プログラム製品に関する。

人工知能、機械学習またはコグニティブ・コンピューティングあるいはその組合せは現在、企業における研究および実装において最も注目を集める話題の１つである。近年、人工知能（ＡＩ）手法および応用が急増している。しかしながら、トレーニングされた機械学習モデルの結果は、その基礎となるトレーニング・データセットと同程度にしか良好でない。これが、社会の一部および特定の業界団体がＡＩ技術を最初に採用するのに慎重になっている理由の１つである。特定の特権のあるサブグループに与えられる構造的優遇としてここで定義されるバイアスが、主要な問題として、さらなるＡＩの発展を妨げると指摘されている。

ＡＩバイアスは爆発的に増えるが、バイアスのないＡＩのみが生き残るという予測が行われている。したがって、世界中に関連する差別禁止法が存在することも所与として、機械学習モデルにおけるバイアスを軽減することが、今日の重要な関心事である。

ＡＩは確実に、ＩＴ（情報技術）産業の現在の発展の重要な駆動要因の１つである。しかし、約７０の既知の公平性指標、および、約１０の既知の最先端のバイアス軽減手法が、研究から、金融、人材管理、医療、および教育と広範囲に及ぶ領域の実際の適用および実際の実践へと進むことができる場合にのみ、この機会を利用することができる。

教師あり機械学習モデルを制御するためのコンピュータ実施方法に関連するいくつかの開示文献が存在する。

米国特許第９，００８，８４０（Ｂ１）号は、知識を外部エージェントからロボット・コントローラへと転送するための枠組みを開示している。障害物回避／目標到達の応用形態において、コントローラは、感覚入力に基づいて教示信号を決定するように構成され、教示信号は、感覚入力と一致する目標行動に関連付けられた情報を伝達し、ここで感覚入力は、目標／障害物を指示する。

米国特許出願公開第２０１８／００１２１３７（Ａ１）号は、システムの環境の複数の状態とこれに関連付けられた軌道とを表すデータセットを利用する、制御システムおよびシステムを制御するための方法を開示している。これは、システムの最適な制御ポリシの推定値を反復的に決定する。

既知の解決策の不利な点は、それらが、それら自体の設定の境界内に留まり、所与のパラメータセット内でのみ柔軟であることである。したがって、特に、今日可能であるよりもはるかに広い範囲において、機械学習システムの公平性を増大させ、バイアスを低減するために、現在知られている方法およびシステムの制限を克服することが必要であり得る。

本発明の一態様によれば、教師あり機械学習モデルにおける公平性を改善し、差別的バイアスを低減するためのコンピュータ実施方法を提供することができる。方法は、教師あり機械学習モデルを強化学習メタ・モデルにリンクさせるステップと、教師あり機械学習モデルのハイパーパラメータおよびパラメータのリストを選択するステップと、複数の相反する目的関数に基づいて報酬関数を計算することによって、強化学習メタ・モデルに関係する強化学習エンジンによって教師あり機械学習モデルのハイパーパラメータおよびパラメータのリストのハイパーパラメータ値およびパラメータ値を調整することによって、教師あり機械学習モデルの少なくとも１つの態様を制御するステップとを含むことができる。

本発明の別の態様によれば、教師あり機械学習モデルにおける公平性を改善し、差別的バイアスを低減するための関連する公平性改善システムを提供することができる。システムは、教師あり機械学習モデルを強化学習メタ・モデルにリンクさせるように適合されているリンク構成要素と、教師あり機械学習モデルのハイパーパラメータおよびパラメータのリストを選択するように適合されている選択ユニットと、複数の相反する目的関数に基づいて報酬関数を計算することによって、強化学習メタ・モデルに関係する強化学習エンジンによって教師あり機械学習モデルのハイパーパラメータおよびパラメータのリストのハイパーパラメータ値およびパラメータ値を調整することによって、教師あり機械学習モデルの少なくとも１つの態様を制御するように適合されているコントローラとを備えることができる。

１つの好ましい実施形態によれば、方法はまた、公平性値が所定の公平性閾値よりも大きく、かつ、性能値が所定の性能閾値よりも大きい場合に、反復を中断するステップも含むことができる。したがって、最適な機械学習モデルが決定されたと判定するには、両方の条件が満たされる必要があり得る。

以下に、図面の詳細な説明を与える。図面内のすべての指示は概略である。最初に、教師あり機械学習モデルにおける公平性を改善するための本発明のコンピュータ実施方法の一実施形態のブロック図が与えられる。その後、さらなる実施形態、および、教師あり機械学習モデルにおける公平性を改善するための公平性改善システムの実施形態を説明する。本発明の上記で定義された態様およびさらなる態様が、以下に記載される実施形態の例から明らかになり、かつ、実施形態の例を参照しながら説明されるが、本発明はそれらに限定されない。

例としてのみ、以下の図面を参照して本発明の好ましい実施形態を説明する。

教師あり機械学習モデルにおける公平性を改善し、差別的バイアスを低減するための本発明のコンピュータ実施方法の一実施形態のフローチャートである。望ましくないバイアスのブロック図である。提案されている概念を高レベルにおいて要約する包括的なフローチャートのブロック図である。異なる機械学習モデル・タイプまたは異なるモデル・パラメータあるいはその両方のランドスケープの一実施形態のブロック図である。相互作用する構成要素のセットのフローチャートである。いかなる性別バイアスも有しないことができる信用評価アルゴリズムを一例として示すフローチャートである。教師あり機械学習モデルにおける公平性を改善し、差別的バイアスを低減するための公平性改善システムの一実施形態のブロック図である。図７によるシステムを含むコンピューティング・システムの一実施形態のブロック図である。

本明細書の文脈において、以下の慣例、用語または表現あるいはその組合せが使用され得る。

公平性値として表現される「公平性」という用語は、本明細書の文脈においては、機械学習システムおよび関連するアルゴリズムの予測が、特定の保護される属性に関してバイアスされていないものであり得ることを示し得る。例えば、性別、年齢、民族性、身体特性、国籍、性別選好（gender preference）、性的指向、性自認、信念選好（belief preference）など、これらの保護される属性（例えば、セグメント化された関連するサブグループなど）に関して、機械学習システムの予測もしくは分類またはその両方または他の出力値、生成される出力は、平衡される、すなわち、おおよそ等しくなるべきである。したがって、公平性値の増大はまた、機械学習システムの出力のバイアス値の低減として解釈することもできる。

「教師あり機械学習モデル」（ＳＭＬ）という用語は、機械学習システムが関数のパラメータおよび関数間の重み付け係数を「学習することができ」、かつ、最適化することができるトレーニング・プロセスを通じて生成される、関連するパラメータを有するモデルを示し得る。したがって、モデルは、特定の機械学習システムの設定を記述するパラメータのセットと考えることができる。そのような機械学習システムは、それに従ってモデルが開発されるかモデル自体が機械学習システムを開発する例を含むトレーニング・データセットによってトレーニングされ得る。トレーニング・データセットの例は注釈を付けられ、機械学習システムからの所与の入力値について出力値として予測されるものを示すことも留意され得る。このように、機械学習システムへの入力として使用される未知のデータも、（トレーニング段階中に）導出されるモデルに従って分類することができる。

「強化学習メタ・モデル」という用語は、教師あり機械学習および教師なし機械学習に加えて、第３のタイプのＡＩシステムを示し得る。これは、報酬関数を最大化するかまたは所与の危険関数を最小化する行動をとるために、その環境との相互作用から収集される観測値を使用することを目標とする。したがって、典型的にはエージェントとして実装される、強化学習アルゴリズムは、反復を使用してその環境から連続的に学習することができる。本明細書の文脈において、反復は、教師あり機械学習モデルのパラメータおよびハイパーパラメータへの変化に関して実施され、一方、報酬関数は、制約の組み合わせ、すなわち、所定の閾値よりも大きい公平性値および機械学習システムの最小性能と考えることができる。

「パラメータ」という用語は、所与の機械学習アルゴリズムまたは関連するシステムの記述変数を示し得る。例えば、ニューラル・ネットワークについて、異なる層の人工ニューロン間の重み付け係数ならびに活性化関数およびオフセットを、パラメータと考えることができる。これとは対照的に、ハイパーパラメータは、機械学習モデル自体を表すことができる。例えば、タイプ自体、ニューラル・ネットワークについては、入力ニューロンの数、出力ニューロンの数、隠れ層あたりのニューロンの数、および隠れ層の数を、ハイパーパラメータとして示すことができる。したがって、ハイパーパラメータは、機械学習モデルのアーキテクチャを表すことができ、一方、同じ機械学習モデルのパラメータは、トレーニング・プロセス中に適合させることができる内部変数を表す。

「報酬関数」という用語は、当面の問題に応じて、強化機械学習システムの学習プロセスにおいて最大化または最小化することができる関数を示すことができる。強化機械学習システムの、報酬関数を最適化するように試行することができるエージェントはまた、環境パラメータを用いて反復的に「実験」する（すなわち、パラメータを変更することによってその環境と相互作用する）役割も担い得る。提案されている概念において、これらの環境パラメータは、機械学習モデルのパラメータおよび関連するハイパーパラメータであり得る。

「相反する目的関数」という用語は、同時に最適化されるべき性能値および公平性値を示し得る。また、例えば、機械学習モデルの精密さなど、少なくとも第３の変数も、目的関数として考慮に入れることができる。したがって、性能値および公平性値は各々、所与の最大反復数の間に最小閾値に達するべきである。

Ｆ１スコアとも呼ばれる「Ｆスコア・アルゴリズム」という用語は、テストの正確さの測度を示し得る。これは、テストの精度と再現率の両方を考慮して、スコアを計算することができる。これに関して、精度は正確な肯定的結果の数を、分類器によって返されるすべての肯定的結果の数によって除算した値を示し得、再現率値は、正確な肯定的結果の数を、すべての関連するサンプル（肯定的であると識別されたはずであるすべてのサンプル）の数によって除算した値である。Ｆスコアはまた、精度および再現率の調和平均と考えることもでき、Ｆスコアは１においてその最良値に達し（完璧な位置および完璧な再現）、０において最悪値に達する。

「アルゴリズム・バイアス」という用語は、選択されているアルゴリズムが原因であり得るバイアスを示し得る。これはまた、機械学習アルゴリズムのトレーニングのためのデータにおけるアルゴリズムのコード化、収集、選択または使用に関与するプログラマの暗黙的な値も反映し得る。

「サンプル・バイアス」という用語は、機械学習モデルのトレーニングに使用されたとされるデータを通じて与えられるバイアスを示し得る。データセットが男性に関係するデータを９０％含み得、女性に関係するデータを１０％しか含み得ない場合、男性に関するデータに関してサンプルがバイアスされていることが明白であり得る。

「偏見バイアス」という用語は、「サンプル・バイアス」にいくらか関係し得、教師あり機械学習モデルのプログラマ、開発者または人間の訓練者の立証されていない仮定に起因する機械学習システムのトレーニングに関するサンプル・データの意識的な操作を示し得る。

「測定バイアス」という用語は、欠陥のある測定に起因してすべてのデータを歪曲させる可能性がある系統的誤差、および、データの系統的歪曲におけるその結果を示し得る。

「強化学習サイクル」という用語は、ここでは、教師あり機械学習モデルおよび関連する報酬関数の評価のトレーニング・サイクルを示し得る。次のサイクル中、強化学習システムは、基礎となる教師あり機械学習モデルのパラメータまたはハイパーパラメータあるいはその両方を、最適化されるように変更し得る。

「強化エージェント」という用語は、強化機械学習システムの１つの実装選択肢を示し得る。強化エージェントは、教師あり機械学習モデルのパラメータまたはハイパーパラメータあるいはその両方を、これを最適化するために変更し得る。この意味において、強化学習モデルの環境は、教師あり機械学習モデルであり得る。

「ニューラル・ネットワーク」という用語は、重みを有するエッジによって接続されている人工ニューロンの、脳に着想を得たネットワークを示し得る。典型的には、ニューラル・ネットワークは、入力層、複数の隠れ層および出力層の、ニューロンの複数の層として組織化され得、各人工ニューロンは、活性化関数を含み得る。注釈付きデータセットを使用する例によるトレーニング中、ニューラル・ネットワークは、トレーニング段階中に決定されたモデルに従って未知の入力データセットに基づく出力値を送達するために、そのパラメータ、すなわち、重み付け係数および活性化関数の変数を適合させることができる。

「ロジスティック回帰モデル」という用語は、その基本形において、ロジスティック関数を使用して２値従属変数をモデル化することができる、広く使用されている統計モデルを示し得るが、多くのより複雑な拡張が存在する。回帰分析において、ロジスティック回帰（またはロジット回帰）は、ロジスティック・モデルのパラメータを推定することができ、これは２項回帰の形態である。数学的に、２値ロジスティック・モデルは、合格／失格、勝利／敗北、生存／死亡または健康／有病などの、２つの可能な値を有する従属変数を有し、これらは指標変数によって表され、２つの値は「０」および「１」とラベル付けされる。ロジスティック・モデルにおいて、「１」とラベル付けされる値の対数オッズ（オッズの対数）は、１つまたは複数の独立変数の線形結合であり（「予測因子」）、独立変数は各々、２値変数（指標変数によってコード化される２つのクラス）または連続型変数（任意の実数値）であり得る。「１」とラベル付けされる値の対応する確率は０（確実に値「０」）と１（確実に値「１」）との間で変化し得、したがって、そのラベリングとなり、対数オッズを確率に変換する関数は、ロジスティック関数であり、したがってその名がついている。

「ランダム・フォレスト・モデル」という用語は、分類、回帰、および、学習時に複数の決定木を構築し、クラスのモード（分類）または個々の木の平均予測（回帰）であるクラスを出力することによって動作する他のタスクのための既知の機械学習方法を示し得る。

「サポート・ベクタ・マシン」という用語は、その関連付けられる機械学習アルゴリズムが分類および回帰分析に使用されるデータを分析することができる、既知の教師あり機械学習モデルを示し得る。サポート・ベクタ・マシン・モデルは、別個のカテゴリの例が可能な限り広い明確な間隙によって分割されるような、マッピングされる空間内の点としての、例の表現として理解することができる。このとき、新たな例は同じ空間内にマッピングすることができ、それが間隙のいずれの側に入るかに基づいて、１つのカテゴリに属すると予測することができる。

「保護される属性」という用語は、それに関して教師あり機械学習モデルが中立である、すなわち、バイアスされていない、データセット（トレーニング・データセットまたは問い合わせデータセットのいずれか）内の変数を示し得る。１つの例は、人のグループ（例えば、セグメント化された関連するサブグループなど）の性別であり得る。機械学習モデルの出力値は、異なる性別についてほぼ同じであるべきである。

本発明の実施形態は、複数の異なる主題を参照して説明されていることに留意されたい。特に、いくつかの実施形態は、方法タイプの請求項を参照して説明されており、一方、他の実施形態は、装置タイプの請求項を参照して説明されている。しかしながら、当業者には、上記および以下の説明から、別途注記されない限り、１つのタイプの主題に属する特徴の任意の組み合わせに加えて、異なる主題に関係する特徴間の、特に、方法タイプの請求項の特徴、および装置タイプの請求項の特徴の間の任意の組み合わせも、本明細書内に開示されていると考えられることが推測される。

図１は、教師あり機械学習モデルにおける公平性を改善し、差別的バイアスを低減するためのコンピュータ実施方法１００の一実施形態のブロック図を示す。方法は、教師あり機械学習モデル（ＭＬＭ）を強化学習メタ・モデル（ＲＬＭＭ）にリンクさせるステップ１０２と、教師あり機械学習モデルの初期設定と考えることができる教師あり機械学習モデルのハイパーパラメータおよびパラメータのリストを選択するステップ１０４とを含む。いくつかの実施形態において、パラメータの選択は、ランダムに行われてもよい。リンク中、ＲＬＭＭは、教師ありＭＬＭを制御および構成する。強化学習メタ・モデルによって教師あり機械学習モデルをリンクさせること（すなわち、制御および構成すること）は、構成および読み出しの少なくとも２つのファクタを含むことに留意されたい。構成は、システムが、モデルに対して様々なパラメータを調節および調整することを含む。読み出しは、システムが、予測を観測し、報酬を最適に計算することを含む。

しかしながら、ニューラル・ネットワークの場合は活性化関数のタイプ、層あたりのノードの数、ニューラル・ネットワークの場合における層の数、または機械学習モデル自体などの特性を定義する、機械学習モードの「外部変数またはパラメータ」としてのハイパーパラメータと、学習済み変数、特に、人工ニューロンをリンクさせるエッジの重み付け係数、ならびに活性化関数およびオフセットなどの、教師あり学習モデルのパラメータ（内部変数またはパラメータ）とを区別することが有用であることが留意され得る。

方法１００はまた、複数の相反する目的関数に基づいて報酬関数を計算することによって、強化学習メタ・モデルに関係する強化学習エンジンによって教師あり機械学習モデルのハイパーパラメータおよびパラメータのリストのハイパーパラメータ値およびパラメータ値を調整することによって、教師あり機械学習モデルの、特に１つの保護される値に関係する少なくとも１つの態様を制御するステップ１０６を含むことができる。

それによって、報酬関数は、強化エンジンが、性能指標、精密性指標、および公平性指標によって定義することができるその目標にどれだけ良好に到達するかを指定する指標になり得る。

最後ではあるが重要なこととして、方法１００は、教師あり機械学習モデルの公平性値を改善するために、上記選択するステップおよび制御するステップを反復的に繰り返すことを含む。この目的のために、目標公平性値（規定の閾値によって制御される）および目標性能値が組合せにおいて許容可能であるか否かを判定するステップ１０８が行われる。ステップ１０８の「はい」（図示せず）分岐は、ステップ１０８が閾値に基づいて許容可能である目標公平性値および目標性能値を達成したことを示していることに留意されたい。そうでない場合、ステップ１０８の「いいえ」分岐は、ステップ１０４に戻って繰り返すことになる。

代替的な実施形態において、方法は、複数のパラメータ値、複数のハイパーパラメータ値、および、セグメント化された関連するサブグループに関する公平性を反映する初期公平性値を含む機械学習モデル（ＭＬＭ）の初期バージョンを受信するステップを含むことができる。さらに、同じ代替的な実施形態において、方法は、ＭＬＭの暫定バージョンを作成するために、ＭＬＭの初期バージョンのパラメータ値のうちの少なくとも一部またはハイパーパラメータ値のうちの少なくとも一部あるいはその両方を調整することができる。パラメータの調整後、方法は、複数の公平性関連目標値と複数の公平性関連目標値を反映する報酬関数とを定義する強化学習メタ・モデル（ＲＬＭＭ）を受信することと、ＭＬＭの暫定バージョンを動作させることと、ＭＬＭの暫定バージョンの動作中に、ＲＬＭＭによって、報酬関数に基づいて報酬値を計算することと、報酬値に基づいてＭＬＭの暫定バージョンの暫定公平性値を決定することとを含む動作によって、ＭＬＭの暫定バージョンの公平性値を決定することができる。同じ代替的な実施形態において、方法は、暫定公平性値が初期公平性値よりも大きいことを決定し、ＭＬＭの初期バージョンをＭＬＭの暫定バージョンに置き換え、初期公平性値を暫定公平性値に置き換えることができる。

図２は、望ましくないバイアスのブロック図を示す。長方形２００がデータレイクを表すと仮定すると、機械学習モデルは、破線によって示すような、いかなるバイアスも有さずにトレーニングされるべきである。２０２がデータレイク２００の男性集団を表し得、２０４がデータレイクの女性集団を表す場合、理想的にトレーニングされたシステムは、女性の予測と同数の、すなわち、領域２０２と２０４との間の垂直線に従って、男性の予測を返すことができる。

一般的に、教師あり機械学習において、モデルは、Ｆスコアまたは受信者動作特性（ＲＯＣ）曲線の下の領域などの何らかの性能指標を最適化するために、データセットに基づいてトレーニングされる。このとき、データのサブセットをとり、任意の望ましくない優遇が特定のサブグループに与えられるか否かをチェックすることによって、バイアスのテストが達成され得る。図２の図解において、このテストは、例えば、男性および女性のサブセットを考慮することによって達成される。それによって、標準的な機械学習実践が、データセットをトレーニング・データセット、テスト・データセット、および検証データセットに分割すると仮定される。しかしながら、この一般的な手法は、ここで提示されている着想に影響を与えない。

男性および女性のサブセットがテストされた後、性別バイアスがあるか否かが判定され得る。そのようなバイアスがある場合、手動で戻り、トレーニング設定を変更しなければならない。例えば、これは、男性／女性トレーニング・セット比を手動で変更することを含み得る。これが非効率的なプロセスであることは明白である。代替的に、バイアス指標が、性能指標に加えて、最適化プロセスに含まれ得る。しかしながら、そのような複数目標最適化は、複雑で時間がかかる可能性がある。

図３は、提案されている概念を高レベルにおいて要約する包括的なフローチャート３００のブロック図を示す。３０２において、教師あり機械学習モデルがトレーニングされる。これは次いでバイアスおよび性能についてテストされ３０４、その後、決定された性能値における決定されたバイアスが許容可能であり所定の制限内にあるか否かの判定３０６が行われる。これが当てはまる場合、すなわち、「Ｙ」である場合、プロセスは終了し、教師あり機械学習モデルがトレーニングされる。

判定３０６が肯定的結果を有しない場合、すなわち、「Ｎ」の場合、機械学習モデルのパラメータを変更することができ、もしくは、機械学習タイプが変更され、または、強化学習エンジンの制御下でトレーニング・データの再選択が実施される（３１０）。これらの新たなパラメータまたはハイパーパラメータあるいはその両方を使用して、機械学習モデルをトレーニングするプロセス３０２が再び開始する。そうでない場合、プロセスは終了する３０８。

図４は、異なる機械学習モデル・タイプまたは異なるモデル・パラメータあるいはその両方のランドスケープ４００の一実施形態のブロック図を示す。ランドスケープ４００はｘ－ｙチャートとして示されている。ｙ軸上に、例えば、（限定ではなく）ニューラル・ネットワーク、ロジスティック回帰エンジン、ランダム・フォレスト・エンジンおよびサポート・ベクタ・マシンなどの、機械学習モデル・タイプが示されている。これらの機械学習モデルの各々は、「アルファ」、「ベータ」および「ガンマ」と例示的に示されているパラメータ・データセットまたはハイパーパラメータ・データセットあるいはその両方のデータセット（トレーニング・データセットと混同されるべきではない）を有し得る。

このモデルランドスケープを使用して、強化学習を使用して、適切なパラメータ調節を通じて教師あり機械学習モデルにおけるバイアスを軽減することができることが理解可能になる。エージェントが、異なる機械学習モデル・タイプおよびモデル・パラメータのセットの多次元ランドスケープ（ここでは単純にするために２次元として示されている）において動作する。

エージェントは、このランドスケープをナビゲートし、強化学習設定において適切な利用・探査決定を行う。この設定は、Ｆスコア、およびバイアス目標閾値などの、少なくとも１つの目標パラメータの最適化を含む。言い換えれば、最終的な機械学習モデルは、特定の閾値を超えるバイアスを呈しない一方で、可能な限り良好に機能すべきである。したがって、例えば、パラメータまたはハイパーパラメータあるいはその両方のデータセット・アルファを有するロジスティック回帰モデル４０２から開始すると、反復ステップは、パラメータまたはハイパーパラメータあるいはその両方のデータセット・ベータを有するニューラル・ネットワーク（４０４）、パラメータまたはハイパーパラメータあるいはその両方のデータセット・ベータ（４０６）またはガンマ（４０８）を有するＳＶＭをもたらし得る。基本的に、任意の他の適切なパラメータまたはハイパーパラメータあるいはその両方のデータセットのセットを有する任意の他の機械学習モデルが選択されてもよい。

この手法には、性能指標が最適化されており、許容されるバイアス指標範囲内にある機械学習モデルに到達するために、可能な機械学習モデル・タイプおよびパラメータ／ハイパーパラメータの大きい空間を効率的に探査することができるという利点がある。

図５は、制御、トレーニング、および評価の３つの段階／３つのカテゴリに入る相互作用する構成要素のセットのブロック図５００を示す。

制御部分は、ブロック５１４および５１６によって表されている。この手法の中核部には、公平性と性能の両方を最適化するように教師あり機械学習モデル（ＳＭＬ）を制御することを課されている強化学習（ＲＬ）エンジン５１６がある。この目的のために、ＲＬエンジンは、教師あり機械学習モデルによる予測の性能と公平性の両方に基づく報酬を計算することによって、可能な機械学習モデル（図４と比較されたい）およびモデル・パラメータならびにハイパーパラメータの空間をナビゲートする。強化学習エンジン５１６は、教師あり機械学習モデルのいくつかの異なる構成を探査することによってこの報酬関数値を反復的に最適化し、終了エンジン５１４は、報酬関数の収束に基づいて適切な予測因子が見つかっていることを判定する。終了エンジン５１４はまた、例えば、達成される公平性に対する制約など、終了前に満たされなければならない他の明確な基準を有してもよい。報酬関数結果が収束しており、教師あり機械学習モデルが予め指定された性能および公平性の要件を満たす場合、最適化された教師あり機械学習モデル（ＳＭＬ）が結果として提示される５１８（また、許容される最大数の反復を超えていない）。そうでない場合、適切なモデルが見つからなかった５２０と仮定される。したがって、この点において、モデルは最適化されていない（公平性または性能が許容可能でないが、最大数の反復に達している）。

トレーニング部分は、ブロック５０２によって表されている。各反復において、強化学習エンジン５１６の出力は、教師あり機械学習（ＳＭＬ）モデルの構成、すなわち、モデルのタイプならびにそのパラメータおよびハイパーパラメータを決定する。次いで、その結果もたらされる教師あり機械学習モデルが、トレーニング・データセットとして参照される、対応するラベルを有する属性のセットを使用してトレーニングされる。教師あり機械学習モデルは、前処理、トレーニングおよび後処理から構成される、３ステップのプロセスを実施する。これら３つのステップすべてが、強化学習エンジン５１６によって構成可能である。ここで、前処理は、例えば、正規化、リバランスまたは言及されている無効性低減を通じた、トレーニング・データセットの変換を含む。次いで、トレーニング段階は、前処理ステップの出力からラベルを予測することを可能にするＳＭＬモデルのパラメータを学習することを目標とする。モデル・パラメータを見つけるのに適した任意のアルゴリズムが使用されてもよい。最後に、モデルによって生成された予測は、スケーリング、閾値化、またはそれらの組合せなどの後処理ステップを受けることができる。それ自体反復プロセスであることが多い、そのパラメータを学習するためのこのモデルのトレーニングは、制御を行う強化学習エンジンの１つのステップを表すことが留意され得る。

評価部分は、ブロック５０４、５０６、５０８、５１０、５１２によって表され得る。教師あり機械学習モデルがトレーニングされた後、モデルは、予測性能と予測公平性の両方に関して評価される。これは、トレーニングされた教師あり機械学習モデルに、ＳＭＬモデルのトレーニング・プロセスに使用されなかった検証データセットに対して予測のセットを実施させることによって達成される。次いで、その結果もたらされる予測から、性能指標および公平性指標の量が計算される。これらの指標のこの指定は、当面の問題に依存する。性能指標の一例は、Ｆスコアである。公平性指標の一例は、保護される属性に関してのみ異なるデータ・サンプル間の平均相対差である。これは、予め選択された重要な／保護された特徴のテスト・データセットを分割すること５０６、および、サブセットの各々に対する公平性測定値を評価すること５０８によって行うことができる。その後、評価段階の一部はまた、異なる公平性測度（例えば、最大機能、メジアンなど）の集約であり得る。次いで、両方の指標、すなわち、性能と公平性が、報酬関数５１２への入力として使用される。これは、公平性測定値が低すぎる場合、重いペナルティを有するＦスコア関数となり得る。

この関数に対する指定はここでも、問題に依存する。報酬関数の一例は、性能指標（Ｆスコア）と公平性指標（保護される属性においてのみ異なるデータ・サンプル間の平均相対差）との比である５０４。次いで、報酬関数の出力は、制御を行う強化学習エンジンに渡され、これは、次の持続時間を開始するかまたは最適化プロセスを終了し得る５１４。

図６は、性別バイアス（以下では保護されるパラメータと呼ばれる）を有してはならない信用評価アルゴリズム６００の一例として実施される、図５の文脈において論じられている、一般的な手法を示す。しかしながら、収入、財産、および、信用スコアの割り当てに重大な影響を及ぼすと予測される他の属性などの、複数の他の属性が存在する。

属性のセット（保護される属性および他の属性）に基づいて信用スコアを予測するためのＳＭＬモデルが設定される。この例においては、ニューラル・ネットワーク（ＮＮ）が使用されるが、任意の他のＳＭＬアルゴリズムを適用することができる。ＮＮモデルは、モデルを定義するハイパーパラメータ（例えば、層の数、オーバーサンプリングの量、学習率など）のセットを有する。モデルのタイプ自体もハイパーパラメータであり得る。ハイパーパラメータはランダムに初期化され、モデルは、トレーニング・データを使用してトレーニングされる（ＳＭＬアルゴリズムの重要なトレーニング・プロセス）６０２。

モデルの性能指標は、テスト・データセットに関してＦスコアを計算することによって評価される６０４。この例を例示するために、この反復について０．８のＦスコアが仮定される。

次に、保護される指標（例えば、性別）に関するバイアスが測定される。この例において、これは、１００人の女性の集合、および、選択された女性に、性別を除くすべての属性に関して可能な限り近密に一致する１００人の男性の一致集合をランダムにサンプリングすること６０６によって行われる。公平な評価（６０８）は、各対が、同様の信用スコアを有することを必要とし、任意の差は、公平性指標に要約される６１０。この例において、公平性指標は、すべての対の間の平均相対差として計算される。任意の他のバイアス測定方法も許容可能である。この例を例示するために、１０％の公平性指標値（平均相対差）が仮定される。

後に使用される強化学習アルゴリズムのために、性能とバイアスとの組合せである報酬関数が計算される６１２。この例において、これは、Ｆスコアとバイアス指標との合計によって与えられる。バイアス指標は、この例において、以下のように定義される。
＊公平性指標が０．１％よりも大きい場合は（－１）、
＊公平性指標が０．１％未満である場合は０。
したがって、この例の場合、Ｒ＝０．８－１＝－０．２（１０％＞０．１％であるため）の報酬がＲＬネットワークに供給される。

終了エンジン６１４は、計算された報酬を使用して、任意の反復が開始されるべきか否かを決定する。終了エンジンは、規定の最大反復数に達した場合、または、報酬がそれ以上改善していない（収束しない）場合、プロセスを終了する。公平性指標が終了のために０．１％未満でなければならないことも指定され得る。論じられている例の場合、終了エンジンがさらなる反復を開始することも仮定され、したがって、ＳＭＬモデルをさらに最適化することができる。したがって、終了エンジン６１４は、例えば、最適化されたサポート・ベクタ・マシン（ＳＶＭ）またはニューラル・ネットワーク（ＮＮ）などの最適化されたＳＭＬが、所定の許容反復数内に見つかったこと６１８または見つからなかったこと６２０を判定する。

したがって、複数回の反復を経ることによって、ＲＬエンジン６１６は、高い性能を維持しつつバイアスを指定の閾値未満に低減することができるパラメータおよび／またはハイパーパラメータの最適な組合せを見つけ、性別にわたって公平な信用評価をもたらす。

次のステップにおいて、ＲＬエンジンは、計算された報酬を使用して、ＳＭＬモデルのパラメータまたはハイパーパラメータあるいはその両方を効率的に最適化する。報酬の最適化は、公平性指標によって測定されるものとしてのバイアスの最小化、または、Ｆスコアによって測定されるものとしてのモデル性能の改善、あるいはその両方をもたらす。信用評価の場合、ＲＬモデルは、多層ニューラル・ネットワークとすることができ、当該ネットワークは、報酬を使用して、教師ありネットワーク・ハイパーパラメータを調節する（例えば、その層の数、オーバーサンプリングの量、学習率などを変更することによって）。

完全を期すために、図７は、教師あり機械学習モデルにおける公平性を改善し、差別的バイアスを低減するための公平性改善システムの一実施形態のブロック図を示す。システムは、教師あり機械学習モデルを強化学習メタ・モデルにリンクさせるように適合されているリンク構成要素７０２と、教師あり機械学習モデルのパラメータのリストを選択するように適合されている選択ユニット７０４と、複数の相反する目的関数に基づいて報酬関数を計算することによって、教師あり機械学習モデルのパラメータのリストのパラメータ値を調整することによって、教師あり機械学習モデルの少なくとも１つの態様を制御するように適合されているコントローラ７０６とを備える。

最後ではあるが重要なこととして、反復ユニット７０８が、教師あり機械学習モデルの公平性値を改善するために、選択ユニットおよびコントローラを反復的にトリガするように適合されている。

本発明の実施形態は、プログラム・コードを記憶または実行しあるいはその両方を行うのに適しているプラットフォームにかかわらず、実質的に任意のタイプのコンピュータとともに実施することができる。図８は、一例として、提案されている方法に関係するプログラム・コードを実行するのに適したコンピューティング・システム８００を示す。

コンピューティング・システム８００は、適切なコンピュータ・システムの一例に過ぎず、コンピュータ・システム８００が上記に記載されている機能のいずれかを実装または実施あるいはその両方を行うことが可能であるか否かにかかわらず、本明細書において説明されている本発明の実施形態の使用または機能の範囲に関するいかなる限定を示唆するようにも意図されるものではない。コンピュータ・システム８００内には、多数の他の汎用または専用コンピューティング・システム環境または構成を用いて動作可能である構成要素が存在する。コンピュータ・システム／サーバ８００による使用に適することができる既知のコンピューティング・システム、環境、または構成あるいはその組合せの例は、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサに基づくシステム、セット・トップ・ボックス、プログラム可能家電製品、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システムおよび上記のシステムまたはデバイスのいずれかを含む分散クラウド・コンピューティング環境などを含むが、これらには限定されない。コンピュータ・システム／サーバ８００は、コンピュータ・システム８００によって実行されている、プログラム・モジュールのようなコンピュータ・システム実行可能命令の一般的な文脈において説明され得る。一般的に、プログラム・モジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、論理、データ構造などを含むことができる。コンピュータ・システム／サーバ８００は、タスクが、通信ネットワークを通じてリンクされる遠隔処理デバイスによって実行される、分散クラウド・コンピューティング環境において実践されることもできる。分散クラウド・コンピューティング環境において、プログラム・モジュールは、メモリ記憶デバイスを含むローカルおよび遠隔コンピュータ・システム記憶媒体の両方内に位置することができる。

図面に示すように、コンピュータ・システム／サーバ８００は、汎用コンピューティング・デバイスの形態で示されている。コンピュータ・システム／サーバ８００の構成要素は、限定ではないが、１つまたは複数のプロセッサまたは処理装置８０２、システム・メモリ８０４、および、システム・メモリ８０４を含む様々なシステム構成要素を１つまたは複数のプロセッサまたは処理装置８０２に結合するバス８０６を含む。バス８０６は、メモリ・バスまたはメモリ・コントローラ、周辺バス、アクセラレイテッド・グラフィックス・ポート、および、様々なバス・アーキテクチャのうちのいずれかを使用するプロセッサまたはローカル・バスを含む、いくつかのタイプのバス構造のいずれかのうちの１つまたは複数を表す。例として、限定ではなく、このようなアーキテクチャは、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオ電子機器標準規格化協会（ＶＥＳＡ）ローカル・バス、および周辺構成要素相互接続（ＰＣＩ）バスを含む。コンピュータ・システム／サーバ８００は、典型的には、様々なコンピュータ・システム可読媒体を含む。そのような媒体は、コンピュータ・システム／サーバ８００によってアクセス可能である任意の利用可能な媒体であってもよく、揮発性および不揮発性両方の媒体、取り外し可能および固定媒体を含む。

システム・メモリ８０４は、ランダム・アクセス・メモリ（ＲＡＭ）８０８またはキャッシュ・メモリ８１０あるいはその両方などの揮発性メモリの形態のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム／サーバ８００は、他の取り外し可能／固定、揮発性／不揮発性コンピュータ・システム記憶媒体をさらに含んでもよい。例としてのみ、固定不揮発性磁気媒体（図示せず、典型的には「ハード・ドライブ」と呼ばれる）に対して読み書きするためのストレージ・システム８１２を提供することができる。図示されていないが、取り外し可能不揮発性磁気ディスク（例えば、「フロッピー（Ｒ）ディスク」）に対して読み書きするための磁気ディスク・ドライブ、および、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭまたは他の光媒体などの取り外し可能不揮発性光ディスクに対して読み書きするための光ディスク・ドライブを提供することができる。そのような場合、各々を、１つまたは複数のデータ・メディア・インターフェースによってバス８０６に接続することができる。下記にさらに示し、説明するように、メモリ８０４は、本発明の実施形態の機能を実行するように構成されているプログラム・モジュールのセット（例えば、少なくとも１つのプログラム・モジュール）を有する少なくとも１つのプログラム製品を含むことができる。

限定ではなく例として、プログラム・モジュール８１６のセット（少なくとも１つのプログラム・モジュール）を有するプログラム／ユーティリティ、ならびに、オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データを、メモリ８０４に記憶することができる。オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データの各々またはそれらの何らかの組合せは、ネットワーキング環境の実施態様を含むことができる。プログラム・モジュール８１６は、一般的に、本明細書に記載されているような本発明の実施形態の機能または方法論あるいはその両方を実行する。

コンピュータ・システム／サーバ８００はまた、キーボード、ポインティング・デバイスなどの１つまたは複数の外部デバイス８１８、ディスプレイ８２０など、ユーザがコンピュータ・システム／サーバ８００と対話することを可能にする１つまたは複数のデバイス、または、コンピュータ・システム／サーバ８００が１つまたは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス（例えば、ネットワーク・カード、モデムなど）、あるいはその組合せと通信することもできる。そのような通信は、入出力（Ｉ／Ｏ）インターフェース８１４を介して行うことができる。またさらに、コンピュータ・システム／サーバ８００は、ネットワーク・アダプタ８２２を介して、ローカル・エリア・ネットワーク（ＬＡＮ）、一般的な広域ネットワーク（ＷＡＮ）、または公衆ネットワーク（例えば、インターネット）あるいはその組合せなどの１つまたは複数のネットワークと通信することができる。図示のように、ネットワーク・アダプタ８２２は、バス８０６を介してコンピュータ・システム／サーバ８００の他の構成要素と通信することができる。図示されていないが、他のハードウェア構成要素またはソフトウェア構成要素あるいはその両方が、コンピュータ・システム／サーバ８００とともに使用されてもよいことを理解されたい。例は、限定ではないが、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ記録ストレージ・システムなどを含む。

加えて、教師あり機械学習モデルにおける公平性を改善するための公平性改善システム７００を、バス８０６に取り付けることができる。

本発明の様々な実施形態の説明は、例示の目的のために提示されているが、網羅的であることも、開示されている実施形態に限定されることも意図されていない。説明されている実施形態の範囲および思想から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書において使用されている用語は、実施形態の原理、実際の適用もしくは市場に見出される技術にまさる技術的改善を最良に説明するため、または、当業者が本明細書において開示されている実施形態を理解することを可能にするために選択されている。

本発明は、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せとして具現化することができる。コンピュータ・プログラム製品は、プロセッサに、本発明の諸態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含み得る。

媒体は、電波媒体のための電子、磁気、光学、電磁、赤外線または半導体システムであってもよい。コンピュータ可読媒体の例は、半導体またはソリッド・ステート・メモリ、磁気テープ、着脱可能コンピュータ・ディスケット、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、剛体磁気ディスク、および光ディスクを含むことができる。光ディスクの現在の例は、コンパクト・ディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、コンパクト・ディスク・リード／ライト（ＣＤ－Ｒ／Ｗ）、ＤＶＤおよびＢｌｕ－Ｒａｙディスクを含む。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は例えば、限定ではないが、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組合せであってもよい。コンピュータ可読記憶媒体のより特定的な例の包括的でないリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）ディスク、パンチ・カード、または、命令を記録されている溝の中の隆起構造のような機械的に符号化されているデバイス、および、上記の任意の適切な組合せを含む。コンピュータ可読記憶媒体は、本明細書において使用されるものとしては、無線波、または、他の自由に伝播する電磁波、導波路もしくは他の伝送媒体（例えば、光ファイバケーブルを通過する光パルス）を通じて伝播する電磁波、または、ワイヤを通じて伝送される電気信号のような、過渡的信号自体として解釈されるべきではない。

本明細書において記載されているコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスへ、または、ネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワークもしくはワイヤレス・ネットワークまたはその組み合わせを介して外部コンピュータもしくは外部記憶デバイスへダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス送信、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジサーバあるいはその組合せを含んでもよい。各コンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体内に記憶するために、コンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのようなオブジェクト指向プログラミング言語、および、「Ｃ」プログラミング言語もしくは同様のプログラミング言語のような従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組合せで書かれているソースコードもしくはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、その全体をユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上でかつ部分的に遠隔コンピュータ上で、またはその全体を遠隔コンピュータもしくはサーバ上で実行することができる。後者のシナリオにおいて、遠隔コンピュータが、ローカル・エリア・ネットワーク（ＬＡＮ）もしくは広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続され得、または、接続は、外部コンピュータに対して（例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて）行われ得る。いくつかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラム可能論理アレイ（ＰＬＡ）を含む電子回路が、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をカスタマイズすることによって、コンピュータ可読プログラム命令を実行することができる。

本発明の態様は、本明細書において、本発明の実施形態による、方法、装置（システム）およびコンピュータ・プログラム製品のフローチャートの図またはブロック図あるいはその両方を参照して説明されている。フローチャートの図またはブロック図あるいはその両方の各ブロック、および、フローチャートの図またはブロック図あるいはその両方の中の複数のブロックの組合せは、コンピュータ可読プログラム命令によって実施され得ることが理解されよう。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されてマシンを生成することができ、それによって、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行する命令は、フローチャートの図またはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定される機能／動作を実施するための手段を作り出す。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラム可能データ処理装置、または他のデバイスあるいはその組合せに特定の様式で機能するように指示することができるコンピュータ可読記憶媒体内に記憶することもでき、それによって、命令を記憶されているコンピュータ可読記憶媒体は、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定される機能／動作の態様を実施する命令を含む製造品を含む。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能データ処理装置、または別のデバイス上にロードされて、一連の動作ステップが、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行されるように、コンピュータで実施されるプロセスを生成することができ、それによって、コンピュータ、他のプログラマブル装置、または別のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定される機能／動作を実施する。

図面内のフローチャートまたはブロック図あるいはその両方は本発明の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能、および動作を例示する。これに関連して、フローチャートおよびブロック図内の各ブロックは、指定の論理機能を実施するための１つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部分を表すことができる。いくつかの代替的な実施態様において、ブロックに記載されている機能は、図面に記載されている順序と一致せずに行われてもよい。例えば、連続して示されている２つのブロックは実際には、関与する機能に応じて、実質的に同時に実行されてもよく、または、これらのブロックは、時として逆順に実行されてもよい。また、ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方のブロックの組合せは、指定の機能もしくは動作を実施するか、または、専用ハードウェアとコンピュータ命令との組合せを実行する専用ハードウェアベース・システムによって実施できることも留意されよう。

本明細書において使用される用語は特定の実施形態を説明することのみを目的とするものであり、本発明を限定するようには意図されない。本明細書において使用される場合、単数形「１つの」（「ａ」、「ａｎ」）および「その」（「ｔｈｅ」）は、別途文脈が明確に指示していない限り、複数形も含むように意図される。用語「備える」（「ｃｏｍｐｒｉｓｅｓ」）または「備えている」（「ｃｏｍｐｒｉｓｉｎｇ」）あるいはその両方は、本開示において使用されている場合、記載されている特徴、整数、ステップ、動作、要素、または構成要素あるいはその組合せが存在することを指定するが、１つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、またはそのグループあるいはその組合せが存在することまたは追加されることを除外するものではないことがさらに理解されよう。

添付の特許請求の範囲内のすべての手段またはステップ・プラス・ファンクション要素の対応する構造、材料、動作、および均等物は、その機能を、他の特許請求されている要素と、具体的に特許請求されているように組み合わせて実施するための任意の構造、材料、または動作を含むように意図されている。本発明の記載は、例示および説明の目的で提示してきたものであるが、網羅的であることも、開示されている形態の本発明に限定されることも意図するものではない。本発明の範囲および思想から逸脱することなく、多くの修正および変形が当業者には明らかであろう。実施形態は本発明の原理および実際の適用を最良に説明するために、および当業者が、予期される特定の使用に適するように様々な修正を加えた様々な実施形態について本発明を理解することを可能にするように、選ばれ記載されている。

最後に、以下の項において、提案されている概念が簡潔に要約され得る。
１．教師あり機械学習モデルにおける公平性を改善し、差別的バイアスを低減するためのコンピュータ実施方法であって、
教師あり機械学習モデルを強化学習メタ・モデルにリンクさせるステップと、
教師あり機械学習モデルのハイパーパラメータおよびパラメータのリストを選択するステップと、
複数の相反する目的関数に基づいて報酬関数を計算することによって、強化学習メタ・モデルに関係する強化学習エンジンによって教師あり機械学習モデルのハイパーパラメータおよびパラメータのリストのハイパーパラメータ値およびパラメータ値を調整することによって、教師あり機械学習モデルの少なくとも１つの態様を制御するステップと、
教師あり機械学習モデルの公平性値を改善するために、選択するステップおよび制御するステップを反復的に繰り返すステップとを含む、方法。
２．公平性値が所定の公平性閾値よりも大きく、かつ、性能値が所定の性能閾値よりも大きい場合に、反復を中断するステップも含む、項１に記載の方法。
３．所定数の反復後に、公平性値が所定の公平性閾値よりも小さいか、または、性能値が所定の性能閾値よりも小さい場合、新たな教師あり機械学習モデルを選択するステップも含む、項２に記載の方法。
４．性能値は、速度値、予測品質値、サイクル数を含む群から選択される、項２に記載の方法。
５．Ｆスコア、再現率および精度または正確度あるいはその両方を使用して予測品質値を決定するステップも含む、項４に記載の方法。
６．公平性値は、アルゴリズム・バイアス、サンプル・バイアス、偏見バイアスまたは測定バイアスに関して決定される、項１ないし５のいずれかに記載の方法。
７．報酬関数は、強化学習サイクルの構成要素である、項１ないし６のいずれかに記載の方法。
８．強化学習サイクルを制御するために強化エージェントを実行するステップも含む、項７に記載の方法。
９．教師あり機械学習モデルは、ニューラル・ネットワーク、ロジスティック回帰モデル、ランダム・フォレスト・モデル、サポート・ベクタ・マシンのモデル、および決定木モデルを含む群から選択される、項１ないし８のいずれかに記載の方法。
１０．相反する目的関数は、性能指標、精密性指標または公平性指標を含む群から選択される少なくとも２つを含む、項１ないし９のいずれかに記載の方法。
１１．公平性値は、保護される属性の値のみが異なるサンプル・データ間の平均相対差によって決定される、項１ないし１０のいずれかに記載の方法。
１２．公平性値が所定の性能閾値よりも小さいという判定を受けて、
ハイパーパラメータを変更することであって、ハイパーパラメータは、教師あり機械学習モデルのタイプ、教師あり機械学習モデルの構成、前処理ステップもしくは後処理ステップまたはその両方に関係する、ハイパーパラメータを変更すること、あるいは、教師あり機械学習モデルのパラメータを変更することによって、教師あり機械学習モデルを修正するステップも含む、項２ないし１１に記載の方法。
１３．教師あり機械学習モデルにおける公平性を改善し、差別的バイアスを低減するための公平性改善システムであって、
教師あり機械学習モデルを強化学習メタ・モデルにリンクさせるように適合されているリンク構成要素と、
教師あり機械学習モデルのハイパーパラメータおよびパラメータのリストを選択するように適合されている選択ユニットと、
複数の相反する目的関数に基づいて報酬関数を計算することによって、強化学習メタ・モデルに関係する強化学習エンジンによって教師あり機械学習モデルのハイパーパラメータおよびパラメータのリストのハイパーパラメータ値およびパラメータ値を調整することによって、教師あり機械学習モデルの少なくとも１つの態様を制御するように適合されているコントローラと、
教師あり機械学習モデルの公平性値を改善するために、選択ユニットおよびコントローラを反復的にトリガするように適合されている反復ユニットとを備える、システム。
１４．公平性値が所定の公平性閾値よりも大きく、かつ、性能値が所定の性能閾値よりも大きい場合に、反復を中断するステップも含む、項１３に記載のシステム。
１５．所定数の反復後に、公平性値が所定の公平性閾値よりも小さいか、または、性能値が所定の性能閾値よりも小さい場合、新たな教師あり機械学習モデルを選択するステップも含む、項１４に記載のシステム。
１６．性能値は、速度値、予測品質値、サイクル数を含む群から選択される、項１３に記載のシステム。
１７．Ｆスコア、再現率および精度または正確度あるいはその両方を使用して予測品質値を決定するように適合されている決定ユニットも備える、項１６に記載のシステム。
１８．公平性値は、アルゴリズム・バイアス、サンプル・バイアス、偏見バイアスまたは測定バイアスに関して決定される、項１３ないし１７のいずれかに記載のシステム。
１９．報酬関数は、強化学習サイクルの構成要素である、項１３ないし１８のいずれかに記載のシステム。
２０．強化学習サイクルを制御するための強化エージェント・システムも備える、項１９に記載のシステム。
２１．教師あり機械学習モデルは、ニューラル・ネットワーク、ロジスティック回帰モデル、ランダム・フォレスト・モデル、サポート・ベクタ・マシンのモデル、および決定木モデルを含む群から選択される、項１３ないし２０のいずれかに記載のシステム。
２２．相反する目的関数は、性能指標、精密性指標または公平性指標を含む群から選択される少なくとも２つを含む、項１３ないし２１のいずれかに記載のシステム。
２３．公平性値は、保護される属性の値のみが異なるサンプル・データ間の平均相対差によって決定される、項１３ないし２２のいずれかに記載のシステム。
２４．反復ユニットは、
公平性値が所定の性能閾値よりも小さいという判定を受けて、トレーニング・データセットの１つの特徴が最大の不平衡を有する、使用されているトレーニング・データセット内の寸法を決定し、決定されている寸法が、寸法値＋所定のデルタ値のすべての変形例について等しい複数のデータ・ベクトルを有する、使用されているトレーニング・データセットのサブセットを選択するように適合されている、項１４ないし２３のいずれかに記載のシステム。
２５．教師あり機械学習モデルにおいて公平性を改善するためのコンピュータ・プログラム製品であって、プログラム命令を具現化されているコンピュータ可読記憶媒体を備え、プログラム命令は、１つまたは複数のコンピューティング・システムまたはコントローラによって、１つまたは複数のコンピューティング・システムに、
教師あり機械学習モデルを強化学習メタ・モデルにリンクさせるステップと、
教師あり機械学習モデルのハイパーパラメータおよびパラメータのリストを選択するステップと、
複数の相反する目的関数に基づいて報酬関数を計算することによって、教師あり機械学習モデルのハイパーパラメータおよびパラメータのリストのハイパーパラメータ値およびパラメータ値を調整することによって、教師あり機械学習モデルの少なくとも１つの態様を制御するステップと、
教師あり機械学習モデルの公平性値を改善するために、選択するステップおよび制御するステップを反復的に繰り返すステップとを行わせるように実行可能である、コンピュータ・プログラム製品。

Claims

コンピュータ実施方法であって、
複数のパラメータ値と、複数のハイパーパラメータ値と、セグメント化された関連するサブグループに関する公平性を反映する初期公平性値とを含む機械学習モデル（ＭＬＭ）の初期バージョンを受信するステップと、
前記ＭＬＭの暫定バージョンを作成するために、前記ＭＬＭの前記初期バージョンの前記パラメータ値のうちの少なくとも一部または前記ハイパーパラメータ値のうちの少なくとも一部あるいはその両方を調整するステップと、
前記ＭＬＭの前記暫定バージョンの公平性値を決定するステップであって、
複数の公平性関連目標値と前記複数の公平性関連目標値を反映する報酬関数とを定義する強化学習メタ・モデル（ＲＬＭＭ）を受信することと、
前記ＭＬＭの前記暫定バージョンを動作させることと、
前記ＭＬＭの前記暫定バージョンの前記動作中に、前記ＲＬＭＭによって、前記報酬関数に基づいて報酬値を計算することと、
前記報酬値に基づいて前記ＭＬＭの前記暫定バージョンの暫定公平性値を決定することとを含む動作によって、決定するステップと、
前記暫定公平性値が前記初期公平性値よりも大きいことを決定するステップと、
前記暫定公平性値が前記初期公平性値よりも大きいという前記決定に応答して、前記ＭＬＭの前記初期バージョンを前記ＭＬＭの前記暫定バージョンに置き換え、前記初期公平性値を前記暫定公平性値に置き換えるステップとを含む、コンピュータ実施方法。
前記初期公平性値が所定の閾値を超えるまで、前記動作を反復的に繰り返すステップをさらに含む、請求項１に記載のコンピュータ実施方法。
前記初期ＭＬＭは教師ありＭＬＭである、請求項１または２に記載のコンピュータ実施方法。
前記公平性関連目標値は、性別、年齢、国籍、宗教的信念、民族性および指向のうちの少なくとも１つを含む、請求項１ないし３のいずれか一項に記載のコンピュータ実施方法。
構成および読み出しに基づいて前記初期ＭＬＭを前記強化学習メタ・モデルにリンクさせるステップをさらに含む、請求項１ないし４のいずれか一項に記載のコンピュータ実施方法。
前記複数のパラメータ値は、以下のパラメータ・タイプ、すなわち、重み付け係数および活性化関数変数のうちの少なくとも１つの値を含む、請求項１ないし５のいずれか一項に記載のコンピュータ実施方法。
前記複数のハイパーパラメータ値は、以下のハイパーパラメータ・タイプ、すなわち、活性化関数のタイプ、層あたりのノードの数、ニューラル・ネットワークの層の数および機械学習モデルのうちの少なくとも１つの値を含む、請求項１ないし６のいずれか一項に記載のコンピュータ実施方法。
コンピュータ・プログラム製品であって、
１つまたは複数の非一過性コンピュータ可読記憶媒体、および、前記１つまたは複数の非一過性コンピュータ可読記憶媒体に記憶されているプログラム命令を備え、前記プログラム命令は、
複数のパラメータ値と、複数のハイパーパラメータ値と、セグメント化された関連するサブグループに関する公平性を反映する初期公平性値とを含む機械学習モデル（ＭＬＭ）の初期バージョンを受信するためのプログラム命令と、
前記ＭＬＭの暫定バージョンを作成するために、前記ＭＬＭの前記初期バージョンの前記パラメータ値のうちの少なくとも一部または前記ハイパーパラメータ値のうちの少なくとも一部あるいはその両方を調整するためのプログラム命令と、
前記ＭＬＭの前記暫定バージョンの公平性値を決定するためのプログラム命令であって、
複数の公平性関連目標値と前記複数の公平性関連目標値を反映する報酬関数とを定義する強化学習メタ・モデル（ＲＬＭＭ）を受信するためのプログラム命令と、
前記ＭＬＭの前記暫定バージョンを動作させるためのプログラム命令と、
前記ＭＬＭの前記暫定バージョンの前記動作中に、前記ＲＬＭＭによって、前記報酬関数に基づいて報酬値を計算するためのプログラム命令と、
前記報酬値に基づいて前記ＭＬＭの前記暫定バージョンの暫定公平性値を決定するためのプログラム命令とを含む動作によって、決定するためのプログラム命令と、
前記暫定公平性値が前記初期公平性値よりも大きいことを決定するためのプログラム命令と、
前記暫定公平性値が前記初期公平性値よりも大きいという前記決定に応答して、前記ＭＬＭの前記初期バージョンを前記ＭＬＭの前記暫定バージョンに置き換え、前記初期公平性値を前記暫定公平性値に置き換えるためのプログラム命令とを含む、コンピュータ・プログラム製品。
前記初期公平性値が所定の閾値を超えるまで、前記動作を反復的に繰り返すためのプログラム命令をさらに含む、請求項８に記載のコンピュータ・プログラム製品。
前記初期ＭＬＭは教師ありＭＬＭである、請求項８または９に記載のコンピュータ・プログラム製品。
前記公平性関連目標値は、性別、年齢、国籍、宗教的信念、民族性および指向のうちの少なくとも１つを含む、請求項８ないし１０のいずれか一項に記載のコンピュータ・プログラム製品。
構成および読み出しに基づいて前記初期ＭＬＭを前記強化学習メタ・モデルにリンクさせるためのプログラム命令をさらに含む、請求項８ないし１１のいずれか一項に記載のコンピュータ・プログラム製品。
前記複数のパラメータ値は、以下のパラメータ・タイプ、すなわち、重み付け係数および活性化関数変数のうちの少なくとも１つの値を含む、請求項８ないし１２のいずれか一項に記載のコンピュータ・プログラム製品。
前記複数のハイパーパラメータ値は、以下のハイパーパラメータ・タイプ、すなわち、活性化関数のタイプ、層あたりのノードの数、ニューラル・ネットワークの層の数および機械学習モデルのうちの少なくとも１つの値を含む、請求項８ないし１３のいずれか一項に記載のコンピュータ・プログラム製品。
コンピュータ・システムであって、
１つまたは複数のコンピュータ・プロセッサと、
１つまたは複数のコンピュータ可読記憶媒体と、
前記１つまたは複数のコンピュータ・プロセッサのうちの少なくとも１つによって実行するための、前記１つまたは複数のコンピュータ可読記憶媒体に記憶されているプログラム命令とを備え、前記プログラム命令は、
複数のパラメータ値と、複数のハイパーパラメータ値と、セグメント化された関連するサブグループに関する公平性を反映する初期公平性値とを含む機械学習モデル（ＭＬＭ）の初期バージョンを受信するためのプログラム命令と、
前記ＭＬＭの暫定バージョンを作成するために、前記ＭＬＭの前記初期バージョンの前記パラメータ値のうちの少なくとも一部または前記ハイパーパラメータ値のうちの少なくとも一部あるいはその両方を調整するためのプログラム命令と、
前記ＭＬＭの前記暫定バージョンの公平性値を決定するためのプログラム命令であって、
複数の公平性関連目標値と前記複数の公平性関連目標値を反映する報酬関数とを定義する強化学習メタ・モデル（ＲＬＭＭ）を受信するためのプログラム命令と、
前記ＭＬＭの前記暫定バージョンを動作させるためのプログラム命令と、
前記ＭＬＭの前記暫定バージョンの前記動作中に、前記ＲＬＭＭによって、前記報酬関数に基づいて報酬値を計算するためのプログラム命令と、
前記報酬値に基づいて前記ＭＬＭの前記暫定バージョンの暫定公平性値を決定するためのプログラム命令とを含む動作によって、決定するためのプログラム命令と、
前記暫定公平性値が前記初期公平性値よりも大きいことを決定するためのプログラム命令と、
前記暫定公平性値が前記初期公平性値よりも大きいという前記決定に応答して、前記ＭＬＭの前記初期バージョンを前記ＭＬＭの前記暫定バージョンに置き換え、前記初期公平性値を前記暫定公平性値に置き換えるためのプログラム命令とを含む、コンピュータ・システム。
前記初期公平性値が所定の閾値を超えるまで、前記動作を反復的に繰り返すためのプログラム命令をさらに含む、請求項１５に記載のコンピュータ・システム。
前記公平性関連目標値は、性別、年齢、国籍、宗教的信念、民族性および指向のうちの少なくとも１つを含む、請求項１５または１６に記載のコンピュータ・システム。
構成および読み出しに基づいて前記初期ＭＬＭを前記強化学習メタ・モデルにリンクさせるためのプログラム命令をさらに含む、請求項１５ないし１７のいずれか一項に記載のコンピュータ・システム。
前記複数のパラメータ値は、以下のパラメータ・タイプ、すなわち、重み付け係数および活性化関数変数のうちの少なくとも１つの値を含む、請求項１５ないし１８のいずれか一項に記載のコンピュータ・システム。
前記複数のハイパーパラメータ値は、以下のハイパーパラメータ・タイプ、すなわち、活性化関数のタイプ、層あたりのノードの数、ニューラル・ネットワークの層の数および機械学習モデルのうちの少なくとも１つの値を含む、請求項１５ないし１９のいずれか一項に記載のコンピュータ・システム。