JP2023108831A

JP2023108831A - データ修正プログラム、データ修正方法、及び、情報処理装置

Info

Publication number: JP2023108831A
Application number: JP2022010087A
Authority: JP
Inventors: 斌朴; bin Park; 理史新宮; Satoshi Shingu
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2023-08-07
Also published as: EP4220500A1; US20230237036A1

Abstract

【課題】機械学習モデルによる推論結果の精度劣化を抑制する。【解決手段】データ修正プログラムは、コンピュータに、訓練データに含まれる複数の属性から、前記複数の属性のうち第１の属性と因果関係を有する第２の属性を特定し、前記第１の属性の値ごとの前記第２の属性の値の確率分布の差を小さくする条件に従って、前記訓練データの前記第２の属性の値を修正する、処理を実行させる。【選択図】図８

Description

本発明は、データ修正プログラム、データ修正方法、及び、情報処理装置に関する。

バイアスを含む過去のデータを用いて訓練される機械学習モデルは、統計的に確率の高い判断を下すという特性上、不公平な推論結果、例えば差別を引き起こす推論結果を出力する可能性がある。バイアスは、例えば、性別等の特定の属性の偏りである。

性別、年齢、人種、国籍等の保護属性による差別を抑制するために、データから保護属性以外の非保護属性の値を書き換え、保護属性と非保護属性との間の相関を軽減することで、機械学習モデルによる不公平な推論を抑制する手法が知られている。なお、相関とは、属性間の関連性又はその強さを意味してよい。

国際公開第２０２１／０８４６０９号パンフレット国際公開第２０２１／０８５１８８号パンフレット国際公開第２０２１／００５８９１号パンフレット

上述した手法では、保護属性と非保護属性との間の厳密な因果関係を用いないため、保護属性と偶然に相関を有する非保護属性に対してもデータの変更が行なわれ得る。

また、非保護属性の値の書き換えの度合いは、指定された（例えば１つの）パラメータに基づき一律に決定される。

このため、上述した手法では、保護属性と偶然に相関を有する非保護属性に関してもデータが変更されてしまい、機械学習モデルによる推論結果の精度劣化を引き起こす可能性がある。

１つの側面では、本発明は、機械学習モデルによる推論結果の精度劣化を抑制することを目的の１つとする。

１つの側面では、データ修正プログラムは、コンピュータに以下の処理を実行させてよい。前記処理は、訓練データに含まれる複数の属性から、前記複数の属性のうち第１の属性と因果関係を有する第２の属性を特定する処理を含んでよい。また、前記処理は、前記第１の属性の値ごとの前記第２の属性の値の確率分布の差を小さくする条件に従って、前記訓練データの前記第２の属性の値を修正する処理を含んでよい。

１つの側面では、本発明は、機械学習モデルによる推論結果の精度劣化を抑制することができる。

一実施形態に係るデータ修正装置の機能を実現するコンピュータのハードウェア（ＨＷ）構成例を示すブロック図である。一実施形態に係るデータ修正装置の機能構成例を示すブロック図である。データの一例を示す図である。ＤＩＲ（Disparate Impact Remover）による相関関係の軽減例を示す図である。因果グラフを利用しない場合の相関関係の軽減割合の一例を示す図である。因果グラフの一例を示す図である。因果グラフに基づく相関関係の軽減割合の一例を示す図である。一実施形態に係るデータ修正装置の動作例を説明するフローチャートである。一実施形態に係る修正済データを用いて訓練された機械学習モデルによる推論結果の一例を示す図である。

以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形又は技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の説明で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

〔１〕一実施形態
以下、機械学習モデルによる推論結果の精度劣化を抑制する手法として、一実施形態に係るデータ修正装置１（図２参照）を例に挙げて説明する。

〔１－１〕ハードウェア構成例
一実施形態に係るデータ修正装置１は、仮想サーバ（ＶＭ；Virtual Machine）であってもよいし、物理サーバであってもよい。また、データ修正装置１の機能は、１台のコンピュータにより実現されてもよいし、２台以上のコンピュータにより実現されてもよい。さらに、データ修正装置１の機能のうちの少なくとも一部は、クラウド環境により提供されるＨＷ（Hardware）リソース及びＮＷ（Network）リソースを用いて実現されてもよい。

図１は、一実施形態に係るデータ修正装置１の機能を実現するコンピュータ１０のハードウェア（ＨＷ）構成例を示すブロック図である。データ修正装置１の機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図１に例示するＨＷ構成を備えてよい。

図１に示すように、コンピュータ１０は、ＨＷ構成として、例示的に、プロセッサ１０ａ、メモリ１０ｂ、記憶部１０ｃ、ＩＦ（Interface）部１０ｄ、ＩＯ（Input / Output）部１０ｅ、及び読取部１０ｆを備えてよい。

プロセッサ１０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ１０ａは、コンピュータ１０内の各ブロックとバス１０ｉで相互に通信可能に接続されてよい。なお、プロセッサ１０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

プロセッサ１０ａとしては、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ等の集積回路（ＩＣ；Integrated Circuit）が挙げられる。なお、プロセッサ１０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＧＰＵはGraphics Processing Unitの略称であり、ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。

例えば、データ修正装置１が一実施形態に係るデータ修正処理に加えて、機械学習処理を実行する場合、プロセッサ１０ａは、データ修正処理を実行するＣＰＵ等の処理装置と、機械学習処理を実行するアクセラレータとの組み合わせであってよい。アクセラレータとしては、例えば、上述したＧＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ又はＦＰＧＡ等が挙げられる。

メモリ１０ｂは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ１０ｂとしては、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリ、及び、ＰＭ（Persistent Memory）等の不揮発性メモリ、の一方又は双方が挙げられる。

記憶部１０ｃは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部１０ｃとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置、ＳＳＤ（Solid State Drive）等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、ＳＣＭ（Storage Class Memory）、ＲＯＭ（Read Only Memory）等が挙げられる。

記憶部１０ｃは、コンピュータ１０の各種機能の全部若しくは一部を実現するプログラム１０ｇ（データ修正プログラム）を格納してよい。

例えば、データ修正装置１のプロセッサ１０ａは、記憶部１０ｃに格納されたプログラム１０ｇをメモリ１０ｂに展開して実行することにより、後述するデータ修正装置１（図２に例示する制御部１８）としての機能を実現できる。

ＩＦ部１０ｄは、データ修正装置１と図示しない装置との間のネットワークを含む種々のネットワークとの間の接続及び通信の制御等を行なう通信ＩＦの一例である。装置としては、例えば、データ修正装置１にデータを提供するユーザ端末又はサーバ等のコンピュータ、データ修正装置１から出力されるデータに基づき機械学習処理を行なうサーバ等のコンピュータ等が挙げられる。

例えば、ＩＦ部１０ｄは、イーサネット（登録商標）等のＬＡＮ（Local Area Network）、或いは、ＦＣ（Fibre Channel）等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。

なお、プログラム１０ｇは、当該通信ＩＦを介して、ネットワークからコンピュータ１０にダウンロードされ、記憶部１０ｃに格納されてもよい。

ＩＯ部１０ｅは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。また、ＩＯ部１０ｅは、入力装置及び表示装置が一体となったタッチパネル等を含んでもよい。

読取部１０ｆは、記録媒体１０ｈに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部１０ｆは、記録媒体１０ｈを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部１０ｆとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体１０ｈにはプログラム１０ｇが格納されてもよく、読取部１０ｆが記録媒体１０ｈからプログラム１０ｇを読み出して記憶部１０ｃに格納してもよい。

記録媒体１０ｈとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

上述したコンピュータ１０のＨＷ構成は例示である。従って、コンピュータ１０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。

〔１－２〕機能構成例
図２は、一実施形態に係るデータ修正装置１の機能構成例を示すブロック図である。データ修正装置１は、機械学習モデルの訓練に利用されるデータを修正する情報処理装置又はコンピュータの一例である。例えば、データ修正装置１は、機械学習モデルによる不公平な推論を抑制する手法を採用して、機械学習モデルの訓練に利用されるデータを修正してもよい。

一実施形態では、当該手法の一例として、ＤＩＲ（Disparate Impact Remover）が利用されてよい。一実施形態に係るデータ修正装置１は、例えば、非保護属性の値を書き換える際に利用するパラメータを、属性ごとに個別に変更することで、ＤＩＲの適用による推論結果の精度劣化を抑制する。

図２に示すように、データ修正装置１は、例示的に、メモリ部１１、取得部１２、因果グラフ生成部１３、データ書換部１４、及び、出力部１５を備えてよい。また、データ修正装置１は、機械学習部１６を備えてもよく、さらに、推論処理部１７を備えてもよい。取得部１２、因果グラフ生成部１３、データ書換部１４、出力部１５（、並びに、機械学習部１６及び推論処理部１７）は、制御部１８の一例である。

メモリ部１１は、記憶領域の一例であり、データ修正装置１が利用する種々のデータを記憶する。メモリ部１１は、例えば、図１に示すメモリ１０ｂ及び記憶部１０ｃのうちの一方又は双方が有する記憶領域により実現されてもよい。

図２に示すように、メモリ部１１は、例示的に、データ１１ａ、保護属性１１ｂ、パラメータ１１ｃ、因果グラフ１１ｄ、及び、修正済データ１１ｅを記憶可能であってよい。また、データ修正装置１が機械学習部１６を備える場合、メモリ部１１は、機械学習モデル１１ｆを記憶可能であってもよい。さらに、データ修正装置１が推論処理部１７を備える場合、メモリ部１１は、推論結果１１ｇを記憶可能であってもよい。

以下、便宜上、メモリ部１１が格納する情報をテーブル形式で表記するが、これに限定されるものではなく、メモリ部１１が格納する情報のうちの少なくとも１つは、ＤＢ又は配列等の種々の形式であってもよい。

取得部１２は、データ修正装置１で利用される種々の情報を取得する。例えば、取得部１２は、データを提供する装置（図示省略）からデータ１１ａ、保護属性１１ｂ、及び、パラメータ１１ｃを取得し、メモリ部１１に格納してよい。

データ１１ａは、複数の属性を含むデータであり、例えば、機械学習モデルの訓練に利用される訓練データの一例である。複数の属性のそれぞれは、保護属性又は非保護属性であってよい。

図３は、データ１１ａの一例を示す図である。図３に示すように、一実施形態では、データ１１ａがadultデータである場合を例に挙げる。adultデータは、アメリカ合衆国における国勢調査結果に基づき作成された公開データであり、成人の収入を示すデータである。以下の説明では、データ１１ａは、例えば収入予測（“income”が“>=50k”であるか否かの予測）等の所定のＡＩ（Artificial Intelligence）タスクを実現するための機械学習処理に利用されるものとする。

保護属性１１ｂは、データ１１ａに含まれる複数の属性のうちの第１の属性を特定する（例えば指定する）ための情報である。例えば、保護属性１１ｂは、性別、年齢、人種、国籍等のうちの少なくとも１つを含んでよい。図３の例では、性別を示す“sex”が保護属性１１ｂの１つである。

パラメータ１１ｃは、データ１１ａに含まれる保護属性１１ｂ以外の非保護属性の値を書き換える際に利用される情報であって、非保護属性の値の書き換えの度合いを示す情報である。例えば、パラメータ１１ｃは、１つ又は複数の値であってよい。非保護属性は、データ１１ａに含まれる複数の属性のうちの第２の属性の一例である。

パラメータ１１ｃは、例えば、機械学習モデルによる不公平な推論を抑制する手法において、保護属性と非保護属性との間の相関関係を軽減するために利用されるパラメータと同様であってよい。一実施形態においては、パラメータ１１ｃは、非保護属性の値の修正の初期値の一例である。

図４は、ＤＩＲによる相関関係の軽減例を示す図である。図４の横軸は非保護属性の値を示し、縦軸は確率分布を示す。図４に示す符号Ｘ（破線）及び符号Ｙ（一点鎖線）は、保護属性１１ｂの値（例えば性別“男”、“女”等）別の非保護属性の確率密度関数である。符号Ｘ及びＹの各グラフから、保護属性１１ｂの値に応じて非保護属性の値の分布に偏りが生じているため、非保護属性は、保護属性１１ｂとの間に相関を有するといえる。

符号Ｚ（実線）で示す確率密度関数は、通常のＤＩＲを用いた処理により、単一のパラメータ１１ｃを用いて非保護属性の値が一律に書き換えられた場合のグラフである。符号Ｚで示す確率密度関数は、符号Ｘ及び符号Ｙで示す確率密度関数と比較して、保護属性１１ｂと非保護属性との間の相関関係が軽減された関数となる。

図５は、因果グラフを利用しない場合の相関関係の軽減割合の一例を示す図である。図５では、因果関係を利用しない場合として、通常のＤＩＲを利用する場合を例に挙げる。また、図５では、パラメータ１１ｃが“0.8”である場合を例に挙げる。

図５に示すように、ＤＩＲにおいて、非保護属性の値を単一のパラメータ１１ｃに基づき修正する場合、非保護属性の各々と保護属性１１ｂとの間の相関関係は、一律な割合で軽減される。この場合、上述したように、保護属性１１ｂと偶然に相関を有する非保護属性に関してもデータが変更されてしまい、当該データを用いて訓練された機械学習モデルによる推論結果の精度劣化が引き起こされる可能性がある。

そこで、一実施形態に係るデータ修正装置１は、相関を有する保護属性１１ｂと非保護属性との間の因果関係に基づき、非保護属性ごとに値を修正する。これにより、修正後の値を含むデータ１１ａ（後述する修正済データ１１ｅ）を用いて訓練された機械学習モデル１１ｆによる推論結果の精度劣化を抑制できる。

ここで、保護属性１１ｂと非保護属性との間の因果関係とは、これらの属性間における原因と結果との関係を意味してよい。例えば、因果関係があるということは、一方の属性の値（結果）が他方の属性の値（原因）に起因したものであることを意味してよい。また、因果関係の強さとは、これらの属性間に因果関係があることの可能性、並びに、一方の属性の値に対する他方の属性の値の寄与度、の一方又は双方を意味してよい。因果関係の強さは、因果関係の程度又は度合いと称されてもよい。

因果グラフ生成部１３は、データ１１ａにおける保護属性１１ｂを説明変数とし、分類対象のクラスを目的変数とする因果グラフ１１ｄを生成する。

一例として、因果グラフ生成部１３は、因果探索を行なうための訓練済みの機械学習モデル（図示省略）を利用して、データ１１ａに含まれる属性間の因果関係を表す行列Ａを推定する因果推定を実行してよい。

因果グラフ１１ｄは、例えば、因果推定により推定された行列Ａに基づき表現されてよい。例えば、因果グラフ生成部１３は、推定した行列Ａを因果グラフ１１ｄとしてメモリ部１１に格納してもよい。

因果探索を行なうための訓練済みの機械学習モデルとしては、例えば、ＬｉＮＧＡＭ（Linear Non-Gaussian Acyclic Model）が挙げられる。ＬｉＮＧＡＭを利用した因果推定は、下記式（１）～式（３）によって定式化される。
ｘ＝Ａｘ＋ε （１）
ｘ＝（ｘ_１，ｘ_２，...，ｘ_ｎ）^Ｔ（２）
ε＝（ε_１，ε_２，...，ε_ｎ）^Ｔ（３）

上記式（２）及び式（３）において、“ｎ”は、データ１１ａに含まれる複数の属性の数（属性数）を示す。一例として、“ｎ＝１１”であるものとする。上記式（２）において、“ｘ_ｉ”（ｉは“１”以上“ｎ”以下の整数）は、データ１１ａに含まれる各属性を示す。上記式（３）において、“ε_ｉ”は、非ガウス分布のノイズを示す。

図６は、因果グラフ１１ｄの一例を示す図である。因果グラフ１１ｄは、保護属性１１ｂ及び非保護属性１１ｄ１をノードとし、属性間の因果関係の強さを示す指標１１ｄ２を、ノード（属性）間を接続するエッジ（辺）に対応付けた情報である。因果グラフ１１ｄは、図６に例示するように有向グラフとして示されてよく、他の例では、上述のように行列Ａとして示されてもよい。

ＬｉＮＧＡＭでは、外因性変数と目的変数とを事前に設定することができる。外因性変数は、因果グラフ１１ｄのルートノードに相当し、図６の例では、保護属性１１ｂ“sex”である。目的変数は、外因性変数との間の因果関係を推定する対象となる変数であり、因果グラフ１１ｄの末端のノードに相当する。図６の例では、目的変数は、非保護属性１１ｄ１のうちの収入“income”である。

因果グラフ生成部１３は、上記式（１）～（３）を用いて、データ１１ａ及び保護属性１１ｂに基づき、保護属性１１ｂと、データ１１ａに含まれる非保護属性１１ｄ１の各々との間の因果関係の強さを示す指標１１ｄ２を算出してよい。

図６の例では、指標１１ｄ２は、ノード間を接続する辺上に示されている。例えば、“sex”と“edu_level”との間の指標１１ｄ２は、“0.1”である。

データ書換部１４は、因果グラフ１１ｄに基づき、非保護属性１１ｄ１のそれぞれに対して適用するパラメータ１１ｃの割合を調整する。また、データ書換部１４は、調整した割合によりデータ１１ａに含まれる非保護属性１１ｄ１の値を書き換え、値の書き換え後のデータ１１ａを、修正済データ１１ｅとしてメモリ部１１に格納する。

これにより、データ書換部１４は、各非保護属性１１ｄ１と保護属性１１ｂとの因果関係に応じた適切な割合によって、各非保護属性１１ｄ１の値を修正することができる。以下、データ書換部１４による処理の一例を説明する。

例えば、データ書換部１４は、因果グラフ１１ｄに基づき、データ１１ａに含まれる複数の属性から、当該複数の属性のうちの保護属性１１ｂと因果関係を有する非保護属性１１ｄ１（以下、「修正対象の非保護属性１１ｄ１」と表記する場合がある）を特定する。

修正対象の非保護属性１１ｄ１は、例えば、因果グラフ１１ｄにおいて保護属性１１ｂとの間に指標１１ｄ２が設定された（算出された）非保護属性１１ｄ１であってよい。

図６の例では、修正対象の非保護属性１１ｄ１は、“marital-status”、“edu_level”、“occupation”、“relationship”、“hours-per-week”及び“income”となる。

一方、保護属性１１ｂ“sex”と非保護属性１１ｄ１“workclass”との間には、辺が存在しない（直接接続されていない）。辺が存在しないということは、“sex”と“workclass”との間には、相関はあったとしても、因果関係はないことを意味する。この場合、“workclass”（第３の属性）は、修正対象外の非保護属性１１ｄ１となる。

なお、保護属性１１ｂと因果関係を有する非保護属性１１ｄ１は、因果グラフ１１ｄにおいて指標１１ｄ２が設定された非保護属性１１ｄ１のうちの、当該指標１１ｄ２が所定の閾値以上である非保護属性１１ｄ１に制限されてもよい。換言すれば、データ書換部１４は、因果グラフ１１ｄにおいて指標１１ｄ２が設定された非保護属性１１ｄ１のうちの、当該指標１１ｄ２が所定の閾値未満である非保護属性１１ｄ１を、修正対象外の非保護属性１１ｄ１と判定してもよい。

図７は、因果グラフ１１ｄに基づく相関関係の軽減割合１４ａの一例を示す図である。図７では、パラメータ１１ｃが“0.8”である場合を例に挙げる。図７に例示するように、データ書換部１４は、修正対象の非保護属性１１ｄ１ごとに、パラメータ１１ｃと、非保護属性１１ｄ１と保護属性１１ｂとの間の指標１１ｄ２とに基づき、非保護属性１１ｄ１の値に適用する軽減割合１４ａを算出する。

軽減割合１４ａは、一例として、パラメータ１１ｃと指標１１ｄ２との乗算結果であってもよい。或いは、軽減割合１４ａは、パラメータ１１ｃと指標１１ｄ２とを用いた種々の演算結果であってもよい。

図７の例では、データ書換部１４は、非保護属性１１ｄ１“edu_level”の軽減割合１４ａとして、パラメータ１１ｃ“0.8”と、保護属性１１ｂ“sex”との指標１１ｄ２“0.1”と、の乗算結果である“0.8×0.1=0.08”を算出する。

データ書換部１４は、非保護属性１１ｄ１ごとに算出した軽減割合１４ａを用いて、データ１１ａに含まれる複数の非保護属性１１ｄ１の値を修正し、修正後のデータ１１ａを修正済データ１１ｅとしてメモリ部１１に格納する。

データ書換部１４は、例えば、保護属性１１ｂの値ごとの非保護属性１１ｄ１の値の確率分布の差を小さくする条件に従って、データ１１ａの当該非保護属性１１ｄ１の値を修正してよい。

当該条件としては、例えば、保護属性１１ｂとの間の因果関係が強い非保護属性１１ｄ１ほど、値を減少させる度合いを大きくする、という条件が挙げられる。言い換えると、当該条件としては、例えば、保護属性１１ｂとの間の因果関係が弱い非保護属性１１ｄ１ほど、値を減少させる度合いを小さくする、という条件が挙げられる。

例えば、図７では、指標１１ｄ２が“0.8”である非保護属性１１ｄ１“Marital_status”は、指標１１ｄ２が“0.1”である非保護属性１１ｄ１“edu_level”よりも、保護属性１１ｂとの間の因果関係が強いといえる。この場合、データ書換部１４は、“Marital_status”の値の方が“edu_level”の値よりも、値の修正（例えば減少）割合を大きくしてよい。

データ書換部１４は、一例として、非保護属性１１ｄ１の値に（１－［算出した軽減割合］）を乗算した結果を、当該非保護属性１１ｄ１の修正後の値（修正値）としてもよい。なお、軽減割合１４ａを用いたデータ１１ａの修正手法は、上述した例に限定されるものではなく、軽減割合１４ａの算出手法に応じて、種々の手法が採用されてもよい。

出力部１５は、出力データを出力する。出力データの一例としては、例えば、修正済データ１１ｅが挙げられる。また、出力データは、修正済データ１１ｅに加えて、後述する機械学習モデル１１ｆ及び推論結果１１ｇの一方又は双方を含んでもよい。

出力部１５は、出力データの「出力」において、例えば、出力データを図示しない他のコンピュータに送信（提供）してもよいし、出力データをメモリ部１１に蓄積して、データ修正装置１又は他のコンピュータから取得可能に管理してもよい。或いは、出力部１５は、出力データの「出力」において、出力データを示す情報をデータ修正装置１等の出力装置に画面出力してもよく、その他の種々の態様により出力データを出力してよい。

上述のように、データ修正装置１は、機械学習部１６を備えてもよく、さらに、推論処理部１７を備えてもよい。

機械学習部１６は、機械学習フェーズにおいて、非保護属性１１ｄ１の値が軽減割合１４ａに基づき修正された修正済データ１１ｅに基づいて、機械学習モデル１１ｆを訓練する機械学習処理を実行する。機械学習モデル１１ｆは、機械学習済パラメータを含むＮＮ（Neural Network）モデルであってよい。機械学習処理は、既知の種々の手法により実現されてよい。

推論処理部１７は、推論フェーズにおいて、修正済データ１１ｅに基づき訓練された機械学習モデル１１ｆを用いて、推論処理を行なう。例えば、推論処理部１７は、機械学習モデル１１ｆに推論処理の対象データ（図示省略）を入力し、機械学習モデル１１ｆからら出力された推論結果１１ｇをメモリ部１１に格納する。

〔１－３〕動作例
次に、一実施形態に係るデータ修正装置１の動作例を説明する。図８は、一実施形態に係るデータ修正装置１の動作例を説明するフローチャートである。

図８に例示するように、データ修正装置１の取得部１２は、データ１１ａ、保護属性１１ｂ及びパラメータ１１ｃを取得し（ステップＳ１）、メモリ部１１に格納する。

因果グラフ生成部１３は、データ１１ａ及び保護属性１１ｂに基づき因果グラフ１１ｄを生成し（ステップＳ２）、メモリ部１１に格納する。

データ書換部１４は、データ１１ａ内の非保護属性１１ｄ１のうちの、未選択の非保護属性１１ｄ１を選択する（ステップＳ３）。

データ書換部１４は、選択した非保護属性１１ｄ１が、保護属性１１ｂと因果関係のある非保護属性１１ｄ１であるか否かを、因果グラフ１１ｄに基づき判定する（ステップＳ４）。例えば、データ書換部１４は、選択した非保護属性１１ｄ１と保護属性１１ｂとの間に指標１１ｄ２が存在するか否か（或いは、所定の閾値以上であるか否か）を、因果グラフ１１ｄに基づき判定してよい。

選択した非保護属性１１ｄ１が保護属性１１ｂと因果関係のある非保護属性１１ｄ１であると判定された場合（ステップＳ４でＹＥＳ）、処理がステップＳ５に移行する。一方、選択した非保護属性１１ｄ１が保護属性１１ｂと因果関係のある非保護属性１１ｄ１ではないと判定された場合（ステップＳ４でＮＯ）、処理がステップＳ６に移行する。

ステップＳ５では、データ書換部１４は、選択した非保護属性１１ｄ１と保護属性１１ｂとの間の因果関係に基づき、パラメータ１１ｃを調整し、処理がステップＳ６に移行する。一例として、データ書換部１４は、選択した非保護属性１１ｄ１と保護属性１１ｂとの間の因果関係の強さを示す指標１１ｄ２とパラメータ１１ｃとに基づき、軽減割合１４ａを算出してよい。

ステップＳ６では、データ書換部１４は、データ１１ａ内の非保護属性１１ｄ１に、未選択の非保護属性１１ｄ１が存在するか否かを判定する。未選択の非保護属性１１ｄ１が存在すると判定された場合（ステップＳ６でＹＥＳ）、処理がステップＳ３に移行する。

未選択の非保護属性１１ｄ１が存在しないと判定した場合（ステップＳ６でＮＯ）、データ書換部１４は、ステップＳ５において算出した軽減割合１４ａに基づき、データ１１ａに含まれる各非保護属性１１ｄ１の値を修正するＤＩＲを実行する（ステップＳ７）。

出力部１５は、データ書換部１４がＤＩＲの実行により生成した修正済データ１１ｅを出力し（ステップＳ８）、処理が終了する。

〔１－４〕一実施形態の効果
一実施形態に係るデータ修正装置１では、制御部１８は、データ１１ａに含まれる複数の属性から、当該複数の属性のうち保護属性１１ｂと因果関係を有する非保護属性１１ｄ１を特定する。また、制御部１８は、当該保護属性１１ｂの値ごとの非保護属性１１ｄ１の値の確率分布の差を小さくする条件に従って、データ１１ａの非保護属性１１ｄ１の値を修正する。

このように、データ修正装置１によれば、保護属性１１ｂと因果関係を有する非保護属性１１ｄ１の値を修正することができる。これにより、保護属性１１ｂと（例えば偶然の）相関はあるものの、因果関係を有しない非保護属性１１ｄ１の値が修正されることを抑制できる。

また、データ修正装置１によれば、非保護属性１１ｄ１の値を、条件に応じた適切な値に修正することができる。例えば、データ修正装置１は、保護属性１１ｂと非保護属性１１ｄ１との間の相関関係を軽減させる際に、保護属性１１ｂと当該非保護属性１１ｄ１との間の因果関係の強さに応じて、相関関係の軽減量を調整できる。これにより、複数の非保護属性１１ｄ１の値をパラメータ１１ｃにより一律に修正する場合と比較して、修正済データ１１ｅを用いて訓練された機械学習モデル１１ｆによる推論結果の精度低下を抑制することができる。

以上のように、一実施形態に係るデータ修正装置１によれば、データ１１ａを修正する範囲及び度合いを適切に調整（一例として、最小限に設定）でき、差別等のバイアスを緩和した修正済データ１１ｅを生成することができる。

図９は、一実施形態に係る修正済データ１１ｅを用いて訓練された機械学習モデル１１ｆによる推論結果の一例を示す図である。図９に示す横軸は公平性を示し、縦軸は精度を示す。網掛けで示す丸印は、機械学習モデル１１ｆによる推論結果の一例をプロットしたものである。白抜きで示す丸印は、比較例として、通常のＤＩＲ（図５に示すパラメータ１１ｃを利用したＤＩＲ）により生成されたデータを用いて訓練された機械学習モデルによる推論結果をプロットしたものである。

一実施形態に係る手法によれば、網掛けで示す丸印に示すように、白抜きで示す丸印と比較して、推論結果の公正性を担保しつつ、推論結果の精度の低下を抑制する（或いは、精度を向上させる）ことができる。

〔２〕その他
上述した一実施形態に係る技術は、以下のように変形、変更して実施することができる。

例えば、図２に示すデータ修正装置１が備える取得部１２、因果グラフ生成部１３、データ書換部１４及び出力部１５（並びに機械学習部１６及び推論処理部１７）は、任意の組み合わせで併合してもよく、それぞれ分割してもよい。

また、図２に示すデータ修正装置１は、複数の装置がネットワークを介して互いに連携することにより、各処理機能を実現する構成（システム）であってもよい。一例として、メモリ部１１はＤＢサーバ、取得部１２及び出力部１５はＷｅｂサーバ又はアプリケーションサーバ、因果グラフ生成部１３、データ書換部１４、機械学習部１６及び推論処理部１７はアプリケーションサーバ等であってもよい。この場合、ＤＢサーバ、アプリケーションサーバ及びｗｅｂサーバが、ネットワークを介して互いに連携することにより、データ修正装置１としての各処理機能を実現してもよい。

また、一実施形態では、データ１１ａに含まれる複数の属性のうちの保護属性１１ｂが１つ（性別“sex”）である場合を例に挙げたが、これに限定されるものではなく、データ１１ａには、複数の保護属性１１ｂが含まれてもよい。

この場合、データ修正装置１は、保護属性１１ｂごとに因果グラフ１１ｄを生成してよい。

また、データ修正装置１は、保護属性１１ｂごとに修正済データ１１ｅを生成してもよい。或いは、データ修正装置１は、２以上の保護属性１１ｂに係る軽減割合１４ａを非保護属性１１ｄ１ごとに合成（例えば乗算）することで、当該２以上の保護属性１１ｂについて１セットの修正済データ１１ｅを生成してもよい。

〔３〕付記
以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）
訓練データに含まれる複数の属性から、前記複数の属性のうち第１の属性と因果関係を有する第２の属性を特定し、
前記第１の属性の値ごとの前記第２の属性の値の確率分布の差を小さくする条件に従って、前記訓練データの前記第２の属性の値を修正する、
処理をコンピュータに実行させる、データ修正プログラム。

（付記２）
前記条件は、前記第１の属性との因果関係が強い第２の属性ほど、値を減少させる度合いを大きくすることを含み、
前記第２の属性の値を修正する処理は、前記条件に従って、前記第２の属性の値を減少させる処理を含む、
付記１に記載のデータ修正プログラム。

（付記３）
前記訓練データと、前記修正の初期値とに基づき、前記第１の属性と前記第２の属性との因果関係の強さを示す指標を算出する、
処理を前記コンピュータに実行させ、
前記第２の属性の値を修正する処理は、前記初期値と前記指標とに基づく軽減割合に応じて、前記第２の属性の値を減少させる処理を含む、
付記２に記載のデータ修正プログラム。

（付記４）
前記訓練データに含まれる複数の属性のうち前記第１の属性と相関を有する第３の属性であって、前記第１の属性と因果関係を有しない前記第３の属性の値の修正を抑制する、
処理を前記コンピュータに実行させる、付記１～付記３のいずれか１項に記載のデータ修正プログラム。

（付記５）
前記第１の属性は、保護属性である、
付記１～付記４のいずれか１項に記載のデータ修正プログラム。

（付記６）
訓練データに含まれる複数の属性から、前記複数の属性のうち第１の属性と因果関係を有する第２の属性を特定し、
前記第１の属性の値ごとの前記第２の属性の値の確率分布の差を小さくする条件に従って、前記訓練データの前記第２の属性の値を修正する、
処理をコンピュータが実行する、データ修正方法。

（付記７）
前記条件は、前記第１の属性との因果関係が強い第２の属性ほど、値を減少させる度合いを大きくすることを含み、
前記第２の属性の値を修正する処理は、前記条件に従って、前記第２の属性の値を減少させる処理を含む、
付記６に記載のデータ修正方法。

（付記８）
前記訓練データと、前記修正の初期値とに基づき、前記第１の属性と前記第２の属性との因果関係の強さを示す指標を算出する、
処理を前記コンピュータが実行し、
前記第２の属性の値を修正する処理は、前記初期値と前記指標とに基づく軽減割合に応じて、前記第２の属性の値を減少させる処理を含む、
付記７に記載のデータ修正方法。

（付記９）
前記訓練データに含まれる複数の属性のうち前記第１の属性と相関を有する第３の属性であって、前記第１の属性と因果関係を有しない前記第３の属性の値の修正を抑制する、
処理を前記コンピュータが実行する、付記６～付記８のいずれか１項に記載のデータ修正方法。

（付記１０）
前記第１の属性は、保護属性である、
付記６～付記９のいずれか１項に記載のデータ修正方法。

（付記１１）
訓練データに含まれる複数の属性から、前記複数の属性のうち第１の属性と因果関係を有する第２の属性を特定し、
前記第１の属性の値ごとの前記第２の属性の値の確率分布の差を小さくする条件に従って、前記訓練データの前記第２の属性の値を修正する、
制御部を備える、情報処理装置。

（付記１２）
前記条件は、前記第１の属性との因果関係が強い第２の属性ほど、値を減少させる度合いを大きくすることを含み、
前記制御部は、前記第２の属性の値を修正する処理において、前記条件に従って、前記第２の属性の値を減少させる、
付記１１に記載の情報処理装置。

（付記１３）
前記制御部は、
前記訓練データと、前記修正の初期値とに基づき、前記第１の属性と前記第２の属性との因果関係の強さを示す指標を算出し、
前記第２の属性の値を修正する処理において、前記初期値と前記指標とに基づく軽減割合に応じて、前記第２の属性の値を減少させる、
付記１２に記載の情報処理装置。

（付記１４）
前記制御部は、前記訓練データに含まれる複数の属性のうち前記第１の属性と相関を有する第３の属性であって、前記第１の属性と因果関係を有しない前記第３の属性の値の修正を抑制する、
付記１１～付記１３のいずれか１項に記載の情報処理装置。

（付記１５）
前記第１の属性は、保護属性である、
付記１１～付記１４のいずれか１項に記載の情報処理装置。

１データ修正装置
１１メモリ部
１１ａデータ
１１ｂ保護属性
１１ｃパラメータ
１１ｄ因果グラフ
１１ｄ１非保護属性
１１ｄ２指標
１１ｅ修正済データ
１１ｆ機械学習モデル
１１ｇ推論結果
１２取得部
１３因果グラフ生成部
１４データ書換部
１４ａ軽減割合
１５出力部
１６機械学習部
１７推論処理部
１８制御部

Claims

訓練データに含まれる複数の属性から、前記複数の属性のうち第１の属性と因果関係を有する第２の属性を特定し、
前記第１の属性の値ごとの前記第２の属性の値の確率分布の差を小さくする条件に従って、前記訓練データの前記第２の属性の値を修正する、
処理をコンピュータに実行させる、データ修正プログラム。
前記条件は、前記第１の属性との因果関係が強い第２の属性ほど、値を減少させる度合いを大きくすることを含み、
前記第２の属性の値を修正する処理は、前記条件に従って、前記第２の属性の値を減少させる処理を含む、
請求項１に記載のデータ修正プログラム。
前記訓練データと、前記修正の初期値とに基づき、前記第１の属性と前記第２の属性との因果関係の強さを示す指標を算出する、
処理を前記コンピュータに実行させ、
前記第２の属性の値を修正する処理は、前記初期値と前記指標とに基づく軽減割合に応じて、前記第２の属性の値を減少させる処理を含む、
請求項２に記載のデータ修正プログラム。
前記訓練データに含まれる複数の属性のうち前記第１の属性と相関を有する第３の属性であって、前記第１の属性と因果関係を有しない前記第３の属性の値の修正を抑制する、
処理を前記コンピュータに実行させる、請求項１～請求項３のいずれか１項に記載のデータ修正プログラム。
前記第１の属性は、保護属性である、
請求項１～請求項４のいずれか１項に記載のデータ修正プログラム。
訓練データに含まれる複数の属性から、前記複数の属性のうち第１の属性と因果関係を有する第２の属性を特定し、
前記第１の属性の値ごとの前記第２の属性の値の確率分布の差を小さくする条件に従って、前記訓練データの前記第２の属性の値を修正する、
処理をコンピュータが実行する、データ修正方法。
訓練データに含まれる複数の属性から、前記複数の属性のうち第１の属性と因果関係を有する第２の属性を特定し、
前記第１の属性の値ごとの前記第２の属性の値の確率分布の差を小さくする条件に従って、前記訓練データの前記第２の属性の値を修正する、
制御部を備える、情報処理装置。