JP2024072687A

JP2024072687A - データ生成プログラム、データ生成方法およびデータ生成装置

Info

Publication number: JP2024072687A
Application number: JP2022183670A
Authority: JP
Inventors: 亮介園田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2024-05-28
Also published as: US20240161011A1; EP4372630A1

Abstract

【課題】訓練データについてオーバーサンプリングを行なう際のオーバーラップを抑制するデータ生成プログラム、データ生成方法およびデータ生成装置を提供する。【解決手段】データ生成プログラムは、選択する処理と、生成する処理とをコンピュータに実行させる。選択する処理は、複数のデータを属性に基づいて分類した複数のデータ群のうち第１の属性の値が第１の値である第１のデータ群に含まれるデータの第１の分布に基づいて、複数のデータ群のうち第１の属性の値が第２の値である第２のデータ群から第１のデータを選択する。生成する処理は、第１のデータに基づいて、第１の属性の値が第２の値である新たなデータを生成する。【選択図】図３

Description

本発明の実施形態は、データ生成プログラム、データ生成方法およびデータ生成装置に関する。

近年、大学入試の合否判定、銀行の与信判定などの意思決定プロセスでは、機械学習モデルを用いた判定が活用されている。機械学習モデルは、複数の訓練データのそれぞれに含まれる特徴とクラス（合否や与信の可否など）を用いて機械学習を行なうことで、入力された特徴から適切なクラス分類が可能となる。

複数の訓練データについては、クラスやグループなどの属性について、しばしば偏りがある。例えば、クラスについては、合格に対して不合格のほうが多くなるなど、特定のクラスに偏る場合がある。また、グループについては、男性／女性などのグループにおいて女性に対して男性のほうが多くなるなど、特定のグループに偏る場合がある。

複数の訓練データにおけるこのような偏りは、機械学習モデルの訓練時に数が少ないクラスやグループの学習が進まず、クラス分類の精度が悪化する問題として知られている。この問題に対する従来技術としては、複数の訓練データに対して、数の少ないクラスやグループのデータを新たに生成して補完することで、精度の改善を試みるデータのオーバーサンプリング技術がある。

国際公開第２０２２／０４４０６４号国際公開第２０１８／０７９０２０号米国特許出願公開第２０２１／０１５８０９４号明細書米国特許出願公開第２０２０／０３８０３０９号明細書

しかしながら、上記の従来技術では、オーバーサンプリングによって異なるクラス間でデータが重なるオーバーラップが発生するという問題がある。

１つの側面では、訓練データについてオーバーサンプリングを行なう際のオーバーラップを抑制できるデータ生成プログラム、データ生成方法およびデータ生成装置を提供することを目的とする。

１つの案では、データ生成プログラムは、選択する処理と、生成する処理とをコンピュータに実行させる。選択する処理は、複数のデータを属性に基づいて分類した複数のデータ群のうち第１の属性の値が第１の値である第１のデータ群に含まれるデータの第１の分布に基づいて、複数のデータ群のうち第１の属性の値が第２の値である第２のデータ群から第１のデータを選択する。生成する処理は、第１のデータに基づいて、第１の属性の値が第２の値である新たなデータを生成する。

訓練データについてオーバーサンプリングを行なう際のオーバーラップを抑制できる。

図１Ａは、実施形態にかかるデータ生成装置におけるデータ生成の概要を説明する説明図である。図１Ｂは、近傍が同じクラスに属する割合を考慮してデータ生成を行なう場合を説明する説明図である。図１Ｃは、近傍が同じクラスに属する割合を考慮してデータ生成を行なう場合を説明する説明図である。図２は、実施形態にかかるデータ生成装置の機能構成例を示すブロック図である。図３は、実施形態にかかるデータ生成装置の動作例を示すフローチャートである。図４は、実施形態にかかるデータ生成装置のデータ生成に関連する動作例を示すフローチャートである。図５は、実施形態にかかるデータ生成装置のデータ生成の一例を説明する説明図である。図６は、評価メトリクスを説明する説明図である。図７は、評価結果の一例を説明する説明図である。図８は、コンピュータ構成の一例を説明する説明図である。図９は、従来のデータ生成を説明する説明図である。図１０は、従来のデータ生成による不均衡の是正を説明する説明図である。図１１は、従来のデータ生成によるオーバーラップの発生を説明する説明図である。

以下、図面を参照して、実施形態にかかるデータ生成プログラム、データ生成方法およびデータ生成装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明するデータ生成プログラム、データ生成方法およびデータ生成装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

（オーバーラップの発生について）
ここで、ＦＳＭＯＴＥ（Fair Synthetic Minority Oversampling TEchnique）を用いて訓練データのオーバーサンプリングを行なう従来のデータ生成を例に、オーバーラップの発生を説明する。

なお、以下の説明において、訓練データは、Ｄ＝｛Ｘ，Ｙ，Ａ｝とする。ここで、Ｘは特徴、Ｙはクラス、Ａはグループを示す。また、オーバーサンプリングにより新たに生成する合成データは、Ｓ＝｛Ｘ^Ｓ，Ｙ^Ｓ，Ａ^Ｓ｝とする。また、オーバーサンプリング後の訓練データは、もとの訓練データＤと合成データＳとの和（Ｄ＝Ｄ∪Ｓ）である。

ＦＳＭＯＴＥでは、訓練データＤを、クラス（Ｙ）とグループ（Ａ）で分割することでクラスタ（データ群）を形成する。ここで、クラス（Ｙ）については、Ｙ＝｛正例，負例｝とする。また、グループ（Ａ）については、Ａ＝｛男性，女性｝とする。ついで、分割した全クラスタの大きさ（データ数）が等しくなるよう、ＳＭＯＴＥ（Synthetic Minority Over-sampling TEchnique）を用いて合成データを生成する。

図９は、従来のデータ生成を説明する説明図である。図９では、可視化のため２次元の特徴（Ｘ）をもとに訓練データＤをプロットしている。また、訓練データＤにおける白抜きと黒塗りは、クラス（Ｙ＝｛正例，負例｝）を表している。白抜きは正例、黒塗りは負例に対応する。また、訓練データＤにおける形状（丸、三角）は、グループ（Ａ＝｛男性，女性｝）を表している。丸は男性、三角は女性に対応する。

ＦＳＭＯＴＥでは、サイズの最も大きいクラスタ（Ｍａｊｏｒｉｔｙクラスタとも呼ぶ）以外のクラスタ（Ｍｉｎｏｒｉｔｙクラスタとも呼ぶ）に対し、ＳＭＯＴＥを用いて合成データを生成するオーバーサンプリングを行なう。例えば、Ｍａｊｏｒｉｔｙクラスタ（負例の男性、１２個のデータ）に対し、負例の女性（５個）のＭｉｎｏｒｉｔｙクラスタについては、１２－７個の合成データを生成する。

ＳＭＯＴＥは、オーバーサンプリングの対象クラスタ（Ｍｉｎｏｒｉｔｙクラスタ）内のデータをもとに合成データを生成する。具体的には、ＳＭＯＴＥは、任意に選択したデータ（ｉ）と、その近傍のデータ（ｊ）に対し、Ｘ^Ｓ＝Ｘ_ｉ＋ｒ（Ｘ_ｊ－Ｘ_ｉ）、Ｙ^Ｓ＝Ｙ_ｉ、Ａ^Ｓ＝Ａ_ｉ＝Ａ_ｊとする合成データ（Ｓ）を生成する（ｒは［０，１］の乱数）。要するに、ＳＭＯＴＥでは、オーバーサンプリングの対象クラスタ内で、あるデータ点とその近傍のデータ点とを結ぶ直線上にランダムに新たなデータ点を生成する。

図１０は、従来のデータ生成による不均衡の是正を説明する説明図である。図１０に示すように、オーバーサンプリング前の訓練データＤ１００では、クラス（Ｙ＝｛正例，負例｝）およびグループ（Ａ＝｛男性，女性｝）のクラスタ間についてサンプル数に不均衡が生じている。これに対し、オーバーサンプリング後の訓練データＤ１０１では、上記のクラスタ間の不均衡が解消されている。

図１１は、従来のデータ生成によるオーバーラップの発生を説明する説明図である。図１１に示すように、従来のデータ生成では、サイズが小さく分散が大きいクラスタ（例えば負例の女性）内のデータに基づき合成データ（点線）を生成することから、異なるクラス（例えば正例の女性）間でデータが重なるオーバーラップが生じている。

このようなオーバーラップが生じている訓練データＤ１０１により機械学習モデルの訓練を行なう場合、クラス間の境界が曖昧になり、機械学習モデルによる分類が失敗しやすくなる。また、女性に比べて男性ではオーバーラップが生じていないことから、機械学習モデルによる分類の公平性が悪化する場合がある。

（実施形態の概要）
図１Ａは、実施形態にかかるデータ生成装置におけるデータ生成の概要を説明する説明図である。なお、図１Ａでは、可視化のため２次元の特徴（Ｘ）をもとに訓練データＤをプロットしている。また、図９と同様、訓練データＤにおける白抜きと黒塗りは、クラス（Ｙ＝｛正例，負例｝）を表しており、その形状（丸、三角）は、グループ（Ａ＝｛男性，女性｝）を表している。

図１Ａに示すように、実施形態にかかるデータ生成装置は、複数の訓練データＤを属性（クラス、グループ）に基づいて分類した複数のクラスタ（データ群）について、Ｍｉｎｏｒｉｔｙクラスタ（図示例では正例の女性および負例の女性）に関する合成データＳを生成する。

ここで、実施形態にかかるデータ生成装置は、Ｍａｊｏｒｉｔｙクラスタ（図示例では正例の男性および負例の男性）の分布（密度ｐ）に基づいて、Ｍｉｎｏｒｉｔｙクラスタ内のデータから起点データＤ１０を選択する。具体的には、実施形態にかかるデータ生成装置は、Ｍｉｎｏｒｉｔｙクラスタの属性と異なる（異クラス）のＭａｊｏｒｉｔｙクラスタの分布（密度ｐ）を求める。ついで、実施形態にかかるデータ生成装置は、求めた分布との特徴空間における距離を評価し、その距離が大きい順に起点データＤ１０を選択する。

一例として、実施形態にかかるデータ生成装置は、正例の女性（白抜き三角）については、異クラスのＭａｊｏｒｉｔｙクラスタである負例の男性（黒塗り丸）のクラスタの密度ｐを求める。ついで、実施形態にかかるデータ生成装置は、求めた分布（密度ｐ）と、正例の女性のデータとの特徴空間における距離を求め、求めた距離の評価結果をもとに起点データＤ１０を選択する。

ついで、実施形態にかかるデータ生成装置は、選択した起点データＤ１０に基づいて、同一属性の新たな合成データＳを生成する。具体的には、実施形態にかかるデータ生成装置は、起点データＤ１０と同クラスのＭａｊｏｒｉｔｙクラスタの分布（密度）をもとに、起点データＤ１０に対する新たな合成データＳを生成する。

より具体的には、実施形態にかかるデータ生成装置は、起点データＤ１０と同クラスのＭａｊｏｒｉｔｙクラスタの分布（密度）を求め、その分布に対する起点データＤ１０との特徴空間における距離を求める。ついで、実施形態にかかるデータ生成装置は、起点データＤ１０との距離が等しいところに合成データＳを生成する。

一例として、実施形態にかかるデータ生成装置は、正例の女性（白抜き三角）について選択した起点データＤ１０に対し、同クラスのＭａｊｏｒｉｔｙクラスタである正例の男性（白抜き丸）のクラスタの分布（密度）を求める。ついで、実施形態にかかるデータ生成装置は、求めた分布（密度）と、正例の女性のデータとの特徴空間における距離を求める。ついで、実施形態にかかるデータ生成装置は、起点データＤ１０に対して特徴空間の距離が求めた距離と同じとなる同心円状の位置にランダムに合成データＳを生成する。なお、合成データＳを生成する同心円状の幅は、ハイパーパラメータ等により調整可能とする。

図１Ｂは、図１Ｃは、近傍が同じクラスに属する割合を考慮してデータ生成を行なう場合を説明する説明図である。図１Ｂに示すように、ここでは、Ｍｉｎｏｒｉｔｙクラスタにおいて、近傍が同じクラスに属する割合（局所密度）を考慮し、局所密度の高い位置に合成データＳ１００を生成するケースを、比較対象として検証する。

このように合成データＳ１００を生成するケースでも、データのオーバーラップを回避することが可能となる。しかしながら、このケースでは、図１Ｃに示すように、Ｍｉｎｏｒｉｔｙクラスタ内のごく一部のデータ（密集したデータ）から合成データＳ１００が生成される可能性（まばらなデータはノイズとされる）がある。このため、Ｍｉｎｏｒｉｔｙクラスタの情報損失が発生し、オーバーサンプリング後の訓練データにより訓練した機械学習モデルでは、過適合などが発生する場合がある。

図１Ａに示すように、実施形態にかかるデータ生成装置では、Ｍｉｎｏｒｉｔｙクラスタの属性と異なる（異クラス）のＭａｊｏｒｉｔｙクラスタの分布（密度ｐ）に基づいて、Ｍｉｎｏｒｉｔｙクラスタ内のデータから起点データＤ１０を選択する。このように、実施形態にかかるデータ生成装置では、Ｍｉｎｏｒｉｔｙクラスタ内のデータの局所密度に依存せず、起点データＤ１０を選択可能である。また、起点データＤ１０は、Ｍｉｎｏｒｉｔｙクラスタとは異クラスのＭａｊｏｒｉｔｙクラスタの分布（密度ｐ）に基づいて選択されることから、この起点データＤ１０に基づいて生成された合成データＳについて、オーバーラップが生じることを抑止できる。

また、実施形態にかかるデータ生成装置では、起点データＤ１０と同クラスのＭａｊｏｒｉｔｙクラスタの分布（密度）をもとに、起点データＤ１０に対する新たな合成データＳを生成することから、Ｍｉｎｏｒｉｔｙクラスタ内のデータの近傍に依存しないデータ生成が可能となる。また、実施形態にかかるデータ生成装置では、同クラスのＭａｊｏｒｉｔｙクラスタの分布に応じた特徴空間の位置に新たな合成データＳを生成することができ、近傍のデータとの内挿点に合成データＳの生成が制限されるようなことを回避できる。

（実施形態にかかるデータ生成装置の機能構成）
図２は、実施形態にかかるデータ生成装置の機能構成例を示すブロック図である。図２に示すように、データ生成装置１は、入力部１０、データ分割部１１、クラスタサイズ計算部１２、クラスタ選択部１３、第１の密度計算部１４、ループ処理部１５、第１の距離計算部１６、重み計算部１７、起点選択部１８、第２の距離計算部１９および合成データ生成部２０を有する。

入力部１０は、入力データ（訓練データＤ）を受け付ける処理部である。具体的には、入力部１０は、事例ごとの複数の訓練データＤの入力を受け付けて、受け付けた訓練データＤをデータ分割部１１へ出力する。訓練データＤの各々は、特徴（Ｘ）、クラス（Ｙ）、グループ（Ａ）を有している。

データ分割部１１は、複数の訓練データＤを、クラス（Ｙ）と、グループ（Ａ）の属性をもとに分割し、クラスタ（データ群）を形成する処理部である。データ分割部１１は、複数の訓練データＤについて、あるクラス（ｙ）とあるグループ（ａ）に関するクラスタＣ_ｙ，ａへ分割する。

例えば、訓練データＤがクラス（Ｙ＝｛正例，負例｝）、グループ（Ａ＝｛男性，女性｝）の属性を有するものとする。この場合、データ分割部１１は、Ｃ_{正例，男性}、Ｃ_{負例，男性}、Ｃ_{正例，女性}、Ｃ_{負例，女性}に訓練データＤを分割する。

クラスタサイズ計算部１２は、各クラスタＣ_ｙ，ａのサイズ（データ数）を計算する処理部である。具体的には、クラスタサイズ計算部１２は、分割した各クラスタＣ_ｙ，ａ内のデータ数をカウントすることでサイズを求める。クラスタサイズ計算部１２は、各クラスタＣ_ｙ，ａ間にデータ数の不均衡がある場合、各クラスタＣ_ｙ，ａのデータをクラスタ選択部１３へ出力し、合成データＳを生成する処理を開始させる。

クラスタサイズ計算部１２は、合成データＳによるオーバーサンプリングなどにより、各クラスタＣ_ｙ，ａ間のデータ数が均衡している場合、訓練データＤと合成データＳとの和（Ｄ＝Ｄ∪Ｓ）を出力する。

クラスタ選択部１３は、各クラスタＣ_ｙ，ａのデータをもとに、クラスタの選択を行なう処理部である。具体的には、クラスタ選択部１３は、各クラスタＣ_ｙ，ａの中からサイズの最も大きいクラスタをＭａｊｏｒｉｔｙクラスタ（Ｍ）として選択する。クラスタ選択部１３は、選択したＭａｊｏｒｉｔｙクラスタ（Ｍ）のデータを第１の密度計算部１４へ出力する。

また、クラスタ選択部１３は、各クラスタの中のＭａｊｏｒｉｔｙクラスタ（Ｍ）以外のクラスタを、オーバーサンプリングの対象とするＭｉｎｏｒｉｔｙクラスタ（Ｃ_ｙ，ａ∈Ｃ）として選択する。クラスタ選択部１３は、選択したＭｉｎｏｒｉｔｙクラスタ（Ｃ）のデータをループ処理部１５へ出力する。

第１の密度計算部１４は、各クラスタＣ_ｙ，ａにおいて、Ｍａｊｏｒｉｔｙクラスタ（Ｍ）に属するクラスタ（Ｃ_ｙ，ａ∈Ｍ）の分布（密度ｐ_ｙ）を計算する処理部である。例えば、第１の密度計算部１４は、クラスタの内のデータをもとに、パラメトリックな手法（例えば平均や中央値を計算）で分布（密度ｐ_ｙ）に関する値を計算する。なお、第１の密度計算部１４における分布（密度ｐ_ｙ）の計算については、ノンパラメトリックな手法（例えばカーネル密度推定を計算）であってもよい。

なお、第１の密度計算部１４における計算手法は、ユーザが適宜選択してもよい。例えば、パラメトリックな計算手法では、計算コストが低いが分布（密度ｐ_ｙ）に関する値が不正確となる場合がある。これに対し、ノンパラメトリックの計算手法では、計算コストが高いが分布（密度ｐ_ｙ）に関する値がパラメトリックな計算手法より正確になる場合がある。

ループ処理部１５は、任意の数（β）、合成データＳを生成する処理をループさせる処理部である。これにより、データ生成装置１では、ループした回数分の合成データＳが生成される。

具体的には、ループ処理部１５は、Ｍａｊｏｒｉｔｙクラスタ（Ｍ）のデータ数と、オーバーサンプリングの対象とするＭｉｎｏｒｉｔｙクラスタ（Ｃ_ｙ，ａ∈Ｃ）のデータ数との差分に基づいてループの回数（β）を設定する。より具体的には、ループ処理部１５は、差分の値をそのままループの回数（β）とする。これにより、データ生成装置１では、Ｍｉｎｏｒｉｔｙクラスタ（Ｃ_ｙ，ａ）のデータ数がＭａｊｏｒｉｔｙクラスタ（Ｍ）のデータ数と一致するように、合成データＳを生成することができる。

第１の距離計算部１６は、オーバーサンプリングの対象とするＭｉｎｏｒｉｔｙクラスタ（Ｃ_ｙ，ａ）と、このクラスタとは異なるクラスを有するＭａｊｏｒｉｔｙクラスタの分布（密度ｐ_ｙ’）との特徴空間における距離を計算する処理部である。具体的には、第１の距離計算部１６は、Ｍｉｎｏｒｉｔｙクラスタ（Ｃ_ｙ，ａ）のデータ点（ｉ∈Ｃ_ｙ，ａ）の特徴Ｘ_ｉと密度ｐ_ｙ’との距離ｄ（Ｘ_ｉ，ｐ_ｙ’）を計算する（ただし、ｙ≠ｙ’）。

なお、距離の算出方法については、特徴空間における一般的な距離を求めるＥｕｃｌｉｄｅａｎＭｅｔｒｉｃ、相関を考慮する距離を求めるＭａｈａｌａｎｏｂｉｓＭｅｔｒｉｃ、特徴の性質を考慮する距離を求めるＨｅｔｅｒｏｇｅｎｅｏｕｓＶａｌｕｅＤｉｆｆｅｒｅｎｃｅＭｅｔｒｉｃ等のいずれであってもよい。

重み計算部１７は、Ｍｉｎｏｒｉｔｙクラスタ（Ｃ_ｙ，ａ）のデータ点（ｉ∈Ｃ_ｙ，ａ）ごとの、第１の距離計算部１６が求めた距離ｄ（Ｘ_ｉ，ｐ_ｙ’）に比例する重み（Ｗ_ｉ）を計算する処理部である。具体的には、重み計算部１７は、総距離に対するデータ点（ｉ∈Ｃ_ｙ，ａ）の距離の割合などとして重み（Ｗ_ｉ）を計算する。

起点選択部１８は、Ｍｉｎｏｒｉｔｙクラスタ（Ｃ_ｙ，ａ）のデータ点（ｉ∈Ｃ_ｙ，ａ）の中から、距離ｄ（Ｘ_ｉ，ｐ_ｙ’）に比例する重み（Ｗ_ｉ）をもとに、起点データＤ１０を選択する処理部である。具体的には、起点選択部１８は、距離が大きい順に起点データＤ１０を選択し、選択された起点データＤ１０（起点を示すｉの値）を第２の距離計算部１９に出力する。

第２の距離計算部１９は、選択された起点データＤ１０と属性が同じクラスをもつＭｉｎｏｒｉｔｙクラスタの分布（密度ｐ_ｙ）との特徴空間における距離を計算する処理部である。具体的には、第２の距離計算部１９は、第１の距離計算部１６と同様の計算手法により、起点データＤ１０に関する特徴Ｘ_ｉと密度ｐ_ｙとの距離ｄ（Ｘ_ｉ，ｐ_ｙ）を計算する。

合成データ生成部２０は、第２の距離計算部１９が計算した距離ｄ（Ｘ_ｉ，ｐ_ｙ）をもとに、起点データＤ１０に対する合成データＳを生成する処理部である。具体的には、合成データ生成部２０は、合成データＳの特徴Ｘ_Ｓがｄ（Ｘ_ｉ，ｐ_ｙ）＝ｄ（Ｘ^Ｓ，ｐ_ｙ）となるような特徴空間の位置に合成データＳを生成する。なお、合成データＳにおけるクラスとグループについては、起点データＤ１０と同一（Ｙ^Ｓ＝Ｙ_ｉ、Ａ^Ｓ＝Ａ_ｉ）とする。

（実施形態にかかるデータ生成装置の動作例）
図３は、実施形態にかかるデータ生成装置１の動作例を示すフローチャートである。図３に示すように、処理が開始されると、データ生成装置１は、入力データ（訓練データＤ）をデータ分割部１１がクラス（Ｙ）とグループ（Ａ）に分割することでクラスタ（Ｃ_ｙ，ａ）を形成する（ＳＴ１）。ここで、形成したクラスタ（Ｃ_ｙ，ａ）については、データ数に不均衡があるものとする。

ついで、クラスタ選択部１３は、クラスタ（Ｃ_ｙ，ａ）の中からＭａｊｏｒｉｔｙクラスタ（各クラスのＭａｊｏｒｉｔｙグループ）集合（Ｍ）を決定する（ＳＴ２）。

ついで、クラスタ選択部１３は、Ｍａｊｏｒｉｔｙクラスタ（Ｍ）以外のクラスタを、オーバーサンプリングの対象となるＭｉｎｏｒｉｔｙクラスタの集合（Ｃ）として決定する（ＳＴ３）。

ついで、データ生成装置１では、オーバーサンプリングの対象となるＭｉｎｏｒｉｔｙクラスタの集合（Ｃ）に対し、合成データ（Ｓ）を生成する（ＳＴ４）。ついで、データ生成装置１は、入力データ（Ｄ）と合成データ（Ｓ）の和を出力する（ＳＴ５）。

図４は、実施形態にかかるデータ生成装置１のデータ生成に関連する動作例を示すフローチャートである。図４に示すように、データ生成に関する処理が開始されると、第１の密度計算部１４は、Ｍａｊｏｒｉｔｙグループ集合に属する各クラスタ（Ｃ_ｙ，ａ∈Ｍ）の密度ｐ_ｙを推定（計算）する（ＳＴ１１）。

ついで、ループ処理部１５は、オーバーサンプリングの対象となるＭｉｎｏｒｉｔｙクラスタ（Ｃ_ｙ，ａ∈Ｃ）について、任意の数（β）のループ処理（ＳＴ１２～ＳＴ１８）を行わせる。具体的には、ループ処理部１５は、Ｍａｊｏｒｉｔｙクラスタ（Ｍ）のデータ数と、Ｍｉｎｏｒｉｔｙクラスタ（Ｃ_ｙ，ａ∈Ｃ）のデータ数との差分に対応する回数のループ処理を行わせる。

ループ処理が開始されると、第１の距離計算部１６は、オーバーサンプリングの対象となるＭｉｎｏｒｉｔｙクラスタ（Ｃ_ｙ，ａ）と、このクラスタとは異なるクラスをもつＭａｊｏｒｉｔｙグループの密度（ｐ_ｙ’）との距離ｄ（Ｘ_ｉ，ｐ_ｙ’）を計算する（ＳＴ１３）。

ついで、重み計算部１７は、オーバーサンプリングの対象となるＭｉｎｏｒｉｔｙクラスタ（Ｃ_ｙ，ａ）のデータ点について、ｄ（Ｘ_ｉ，ｐ_ｙ’）距離に比例する重み（Ｗ_ｉ）を計算する（ＳＴ１４）。

ついで、起点選択部１８は、オーバーサンプリングの対象となるＭｉｎｏｒｉｔｙクラスタ（Ｃ_ｙ，ａ）のデータ点の中から、ｄ（Ｘ_ｉ，ｐ_ｙ’）距離に比例する重み（Ｗ_ｉ）に従って起点（起点データＤ１０）を選択する（ＳＴ１５）。

ついで、第２の距離計算部１９は、起点と、この起点と同じクラスを持つＭａｊｏｒｉｔｙグループの密度（ｐ_ｙ）との距離ｄ（Ｘ_ｉ，ｐ_ｙ）を計算する（ＳＴ１６）。ついで、合成データ生成部２０は、第２の距離計算部１９が計算した距離ｄ（Ｘ_ｉ，ｐ_ｙ）をもとに、オーバーサンプリングの対象となるＭｉｎｏｒｉｔｙクラスタ（Ｃ_ｙ，ａ）を補完するための合成データＳを生成する（ＳＴ１７）。

図５は、実施形態にかかるデータ生成装置のデータ生成の一例を説明する説明図である。図５では、図１Ａと同様、可視化のため２次元の特徴（Ｘ）をもとに訓練データＤをプロットした図であり、プロットした訓練データＤについては図１Ａと同じであるものとする。

図５に示すように、オーバーサンプリングの対象となるＭｉｎｏｒｉｔｙクラスタは、Ｃ_{正例，女性}であるものとする。データ生成装置１は、対象クラスタ（Ｃ_{正例，女性}）とは異なるクラスをもつＭａｊｏｒｉｔｙグループ（Ｃ_{負例，男性}）の密度（ｐ_ｙ’）をもとに、対象クラスタの中のデータ点より起点データＤ１０を選択する。

ついで、データ生成装置１は、起点データＤ１０と同じクラスのＭａｊｏｒｉｔｙグループ（Ｃ_{正例，男性}）の密度（ｐ_ｙ）を推定（計算）する。ついで、データ生成装置１は、起点データＤ１０と同クラスのＭａｊｏｒｉｔｙクラスタの分布（ｐ_ｙ）をもとに、このＭａｊｏｒｉｔｙクラスタの分布と起点データＤ１０との距離が同じとなる位置に合成データＳを生成する。

ＦＳＭＯＴＥの場合は、２点間（例えば起点とその近傍点）の直線状に合成データＳが生成され、生成される範囲が限定されることとなる。これに対し、データ生成装置１は、Ｍａｊｏｒｉｔｙクラスタの分布と起点データＤ１０との距離が同じとなる位置、すなわち同心円状のある範囲に分散して合成データＳを生成することができる。

（評価結果について）
ここで、データ生成装置１によるオーバーサンプリング後の訓練データＤを用いて訓練した機械学習モデルの評価結果を説明する。この評価には、訓練データＤとは別に用意したテストデータＤ_ｔｅｓｔを用いるものとする（テストデータＤ_ｔｅｓｔは訓練データＤに含まれていない未観測のデータ）。具体的には、訓練後の機械学習モデルにテストデータＤ_ｔｅｓｔを適用して得られた分類結果を評価メトリクスを用いて評価する。

図６は、評価メトリクスを説明する説明図である。図６に示すように、評価メトリクスによる評価では、分類結果がＴＰ（True Positive）、ＦＮ（False Negative）、ＦＰ（False Positive）、ＴＮ（True Negative）のいずれに該当するかを判定し、ＴＰ、ＦＮ、ＦＰ、ＴＮそれぞれの数量を求める。ついで、得られた数量をもとに、Ｐｒｅｃｉｓｉｏｎ、Ｒｅｃａｌｌ、ＦＰＲ等の評価値を求める。

ついで、得られた評価値をもとに、精度や公平性の評価を行なう。例えば、精度については、（１）Ｆ１＝２Ｐｒｅｃｉｓｉｏｎ×Ｒｅｃａｌｌ／（Ｐｒｅｃｉｓｉｏｎ＋Ｒｅｃａｌｌ、（２）ＡｒｅａＵｎｄｅｒｔｈｅＲｅｃａｌｌ－ＦＰＲ（ＲＯＣ）Ｃｕｒｖｅなどがある。また、公平性については、（１）ＥｑｕａｌＯｐｐｏｒｔｕｎｉｔｙ＝Ｒｅｃａｌｌ｜_Ａ＝ａ－Ｒｅｃａｌｌ｜_Ａ＝ａ’、（２）ＥｑｕａｌｉｚｅｄＯｄｄｓ＝（Ｒｃｃａｌｌ＋ＦＰＲ）_｜Ａ＝ａ－（Ｒｅｃａｌｌ＋ＦＰＲ）_{｜Ａ＝ａ’}などがある。

図７は、評価結果の一例を説明する説明図である。図７における左側のグラフＧ１、Ｇ３は、従来のデータ生成によるオーバーサンプリング後の訓練データＤを用いて訓練した機械学習モデルの評価結果を示している。また、図７における右側のグラフＧ２、Ｇ４は、データ生成装置１によるオーバーサンプリング後の訓練データＤを用いて訓練した機械学習モデルの評価結果を示している。

図７に示すように、データ生成装置１によるオーバーサンプリング後の訓練データＤを用いて訓練した機械学習モデルでは、分類の精度、公平性ともに良好であり（分類の公平性の悪化がない）、精度と公平性のトレードオフが改善されている。

（効果）
以上のように、データ生成装置１は、複数の訓練データＤを属性に基づいて分類した複数のデータ群（Ｃ_ｙ，ａ）のうち第１の属性の値が第１の値である第１のデータ群に含まれるデータの第１の分布に基づいて、複数のデータ群のうち第１の属性の値が第２の値である第２のデータ群から第１のデータ（起点データ）を選択する。データ生成装置１は、選択した第１のデータに基づいて、第１の属性の値が第２の値である新たなデータ（合成データＳ）を生成する。

これにより、データ生成装置１では、新たなデータ（合成データＳ）が第１の属性の値が第１の値である第１のデータ群と重なることを抑制でき、訓練データＤについてオーバーサンプリングを行なう際のオーバーラップを抑制できる。

また、第１のデータ群は、第２の属性が第３の値であり、第２のデータ群は第２の属性が第４の値であり、第１のデータ群のデータ数は、第１の属性が第１の値で第２の属性が第４の値であるデータ群より多い。このように、データ数（サンプル数）の多い第１のデータ群（マジョリティグループ）に含まれるデータの第１の分布に基づいて起点データを選択することで、より精度よく起点データを選択することができる。

また、データ生成装置１は、第１の属性が第２の値で第２の属性が第３の値であり、第２のデータ群よりデータ数が多いデータ群に含まれるデータの第２の分布に基づいて新たなデータを生成する。このように、第２のデータ群よりデータ数（サンプル数）が多いデータ群（マジョリティグループ）に含まれるデータの第２の分布に基づいて新たなデータを生成することで、新たなデータをより精度よく生成することができる。

また、データ生成装置１は、第２のデータ群から第１の分布との距離が遠いデータ順に複数の起点データを選択する。このように、第１の分布との距離が遠いデータ順に起点データを選択することで、起点データをもとに生成する新たなデータが他のデータとオーバーラップすることを抑制することができる。

また、データ生成装置１は、第２のデータ群のデータ数と、複数のデータ群のうち第２のデータ群よりもデータ数の多いデータ群のデータ数との差分に基づく数の新たなデータを生成する。これにより、データ生成装置１は、例えば、第２のデータ群のデータ数が他のデータ群のデータ数と合うように、新たなデータを生成することができる。

（その他）
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、データ生成装置１の入力部１０、データ分割部１１、クラスタサイズ計算部１２、クラスタ選択部１３、第１の密度計算部１４、ループ処理部１５、第１の距離計算部１６、重み計算部１７、起点選択部１８、第２の距離計算部１９および合成データ生成部２０の各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、データ生成装置１で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。

ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ構成（ハードウエア）の一例を説明する。図８は、コンピュータ構成の一例を説明する説明図である。

図８に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、データ入力を受け付ける入力装置２０２と、モニタ２０３と、スピーカ２０４とを有する。また、コンピュータ２００は、記憶媒体からプログラム等を読み取る媒体読取装置２０５と、各種装置と接続するためのインタフェース装置２０６と、有線または無線により外部機器と通信接続するための通信装置２０７とを有する。また、データ生成装置１は、各種情報を一時記憶するＲＡＭ２０８と、ハードディスク装置２０９とを有する。また、コンピュータ２００内の各部（２０１～２０９）は、バス２１０に接続される。

ハードディスク装置２０９には、上記の実施形態で説明した機能構成（例えば入力部１０、データ分割部１１、クラスタサイズ計算部１２、クラスタ選択部１３、第１の密度計算部１４、ループ処理部１５、第１の距離計算部１６、重み計算部１７、起点選択部１８、第２の距離計算部１９および合成データ生成部２０）における各種の処理を実行するためのプログラム２１１が記憶される。また、ハードディスク装置２０９には、プログラム２１１が参照する各種データ２１２が記憶される。入力装置２０２は、例えば、操作者から操作情報の入力を受け付ける。モニタ２０３は、例えば、操作者が操作する各種画面を表示する。インタフェース装置２０６は、例えば印刷装置等が接続される。通信装置２０７は、ＬＡＮ（Local Area Network）等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。

ＣＰＵ２０１は、ハードディスク装置２０９に記憶されたプログラム２１１を読み出して、ＲＡＭ２０８に展開して実行することで、上記の機能構成（例えば入力部１０、データ分割部１１、クラスタサイズ計算部１２、クラスタ選択部１３、第１の密度計算部１４、ループ処理部１５、第１の距離計算部１６、重み計算部１７、起点選択部１８、第２の距離計算部１９および合成データ生成部２０）に関する各種の処理を行う。すなわち、ＣＰＵ２０１は、制御部の一例である。なお、プログラム２１１は、ハードディスク装置２０９に記憶されていなくてもよい。例えば、コンピュータ２００が読み取り可能な記憶媒体に記憶されたプログラム２１１を読み出して実行するようにしてもよい。コンピュータ２００が読み取り可能な記憶媒体は、例えば、ＣＤ－ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこのプログラム２１１を記憶させておき、コンピュータ２００がこれらからプログラム２１１を読み出して実行するようにしてもよい。

以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）複数のデータを属性に基づいて分類した複数のデータ群のうち第１の属性の値が第１の値である第１のデータ群に含まれるデータの第１の分布に基づいて、前記複数のデータ群のうち前記第１の属性の値が第２の値である第２のデータ群から第１のデータを選択し、
前記第１のデータに基づいて、前記第１の属性の値が前記第２の値である新たなデータを生成する、
処理をコンピュータに実行させることを特徴とするデータ生成プログラム。

（付記２）前記第１のデータ群は、第２の属性が第３の値であり、前記第２のデータ群は前記第２の属性が第４の値であり、
前記第１のデータ群のデータ数は、前記第１の属性が前記第１の値で前記第２の属性が前記第４の値であるデータ群より多い、
ことを特徴とする付記１に記載のデータ生成プログラム。

（付記３）前記生成する処理は、前記第１の属性が前記第２の値で前記第２の属性が前記第３の値であり、前記第２のデータ群よりデータ数が多いデータ群に含まれるデータの第２の分布に基づいて前記新たなデータを生成する、
ことを特徴とする付記２に記載のデータ生成プログラム。

（付記４）前記選択する処理は、前記第２のデータ群から前記第１の分布との距離が遠いデータ順に複数の前記第１のデータを選択する、
ことを特徴とする付記１に記載のデータ生成プログラム。

（付記５）前記生成する処理は、前記第２のデータ群のデータ数と、前記複数のデータ群のうち前記第２のデータ群よりもデータ数の多いデータ群のデータ数との差分に基づく数の前記新たなデータを生成する、
ことを特徴とする付記１に記載のデータ生成プログラム。

（付記６）複数のデータを属性に基づいて分類した複数のデータ群のうち第１の属性の値が第１の値である第１のデータ群に含まれるデータの第１の分布に基づいて、前記複数のデータ群のうち前記第１の属性の値が第２の値である第２のデータ群から第１のデータを選択し、
前記第１のデータに基づいて、前記第１の属性の値が前記第２の値である新たなデータを生成する、
処理をコンピュータが実行することを特徴とするデータ生成方法。

（付記７）前記第１のデータ群は、第２の属性が第３の値であり、前記第２のデータ群は前記第２の属性が第４の値であり、
前記第１のデータ群のデータ数は、前記第１の属性が前記第１の値で前記第２の属性が前記第４の値であるデータ群より多い、
ことを特徴とする付記６に記載のデータ生成方法。

（付記８）前記生成する処理は、前記第１の属性が前記第２の値で前記第２の属性が前記第３の値であり、前記第２のデータ群よりデータ数が多いデータ群に含まれるデータの第２の分布に基づいて前記新たなデータを生成する、
ことを特徴とする付記７に記載のデータ生成方法。

（付記９）前記選択する処理は、前記第２のデータ群から前記第１の分布との距離が遠いデータ順に複数の前記第１のデータを選択する、
ことを特徴とする付記６に記載のデータ生成方法。

（付記１０）前記生成する処理は、前記第２のデータ群のデータ数と、前記複数のデータ群のうち前記第２のデータ群よりもデータ数の多いデータ群のデータ数との差分に基づく数の前記新たなデータを生成する、
ことを特徴とする付記６に記載のデータ生成方法。

（付記１１）複数のデータを属性に基づいて分類した複数のデータ群のうち第１の属性の値が第１の値である第１のデータ群に含まれるデータの第１の分布に基づいて、前記複数のデータ群のうち前記第１の属性の値が第２の値である第２のデータ群から第１のデータを選択し、
前記第１のデータに基づいて、前記第１の属性の値が前記第２の値である新たなデータを生成する、
処理を実行する制御部を含むことを特徴とするデータ生成装置。

（付記１２）前記第１のデータ群は、第２の属性が第３の値であり、前記第２のデータ群は前記第２の属性が第４の値であり、
前記第１のデータ群のデータ数は、前記第１の属性が前記第１の値で前記第２の属性が前記第４の値であるデータ群より多い、
ことを特徴とする付記１１に記載のデータ生成装置。

（付記１３）前記生成する処理は、前記第１の属性が前記第２の値で前記第２の属性が前記第３の値であり、前記第２のデータ群よりデータ数が多いデータ群に含まれるデータの第２の分布に基づいて前記新たなデータを生成する、
ことを特徴とする付記１２に記載のデータ生成装置。

（付記１４）前記選択する処理は、前記第２のデータ群から前記第１の分布との距離が遠いデータ順に複数の前記第１のデータを選択する、
ことを特徴とする付記１１に記載のデータ生成装置。

（付記１５）前記生成する処理は、前記第２のデータ群のデータ数と、前記複数のデータ群のうち前記第２のデータ群よりもデータ数の多いデータ群のデータ数との差分に基づく数の前記新たなデータを生成する、
ことを特徴とする付記１１に記載のデータ生成装置。

１…データ生成装置
１０…入力部
１１…データ分割部
１２…クラスタサイズ計算部
１３…クラスタ選択部
１４…第１の密度計算部
１５…ループ処理部
１６…第１の距離計算部
１７…重み計算部
１８…起点選択部
１９…第２の距離計算部
２０…合成データ生成部
２００…コンピュータ
２０１…ＣＰＵ
２０２…入力装置
２０３…モニタ
２０４…スピーカ
２０５…媒体読取装置
２０６…インタフェース装置
２０７…通信装置
２０８…ＲＡＭ
２０９…ハードディスク装置
２１０…バス
２１１…プログラム
２１２…各種データ
Ｄ、Ｄ１００、Ｄ１０１…訓練データ
Ｇ１～Ｇ４…グラフ
Ｓ、Ｓ１００…合成データ

Claims

複数のデータを属性に基づいて分類した複数のデータ群のうち第１の属性の値が第１の値である第１のデータ群に含まれるデータの第１の分布に基づいて、前記複数のデータ群のうち前記第１の属性の値が第２の値である第２のデータ群から第１のデータを選択し、
前記第１のデータに基づいて、前記第１の属性の値が前記第２の値である新たなデータを生成する、
処理をコンピュータに実行させることを特徴とするデータ生成プログラム。
前記第１のデータ群は、第２の属性が第３の値であり、前記第２のデータ群は前記第２の属性が第４の値であり、
前記第１のデータ群のデータ数は、前記第１の属性が前記第１の値で前記第２の属性が前記第４の値であるデータ群より多い、
ことを特徴とする請求項１に記載のデータ生成プログラム。
前記生成する処理は、前記第１の属性が前記第２の値で前記第２の属性が前記第３の値であり、前記第２のデータ群よりデータ数が多いデータ群に含まれるデータの第２の分布に基づいて前記新たなデータを生成する、
ことを特徴とする請求項２に記載のデータ生成プログラム。
前記選択する処理は、前記第２のデータ群から前記第１の分布との距離が遠いデータ順に複数の前記第１のデータを選択する、
ことを特徴とする請求項１に記載のデータ生成プログラム。
前記生成する処理は、前記第２のデータ群のデータ数と、前記複数のデータ群のうち前記第２のデータ群よりもデータ数の多いデータ群のデータ数との差分に基づく数の前記新たなデータを生成する、
ことを特徴とする請求項１に記載のデータ生成プログラム。
複数のデータを属性に基づいて分類した複数のデータ群のうち第１の属性の値が第１の値である第１のデータ群に含まれるデータの第１の分布に基づいて、前記複数のデータ群のうち前記第１の属性の値が第２の値である第２のデータ群から第１のデータを選択し、
前記第１のデータに基づいて、前記第１の属性の値が前記第２の値である新たなデータを生成する、
処理をコンピュータが実行することを特徴とするデータ生成方法。
複数のデータを属性に基づいて分類した複数のデータ群のうち第１の属性の値が第１の値である第１のデータ群に含まれるデータの第１の分布に基づいて、前記複数のデータ群のうち前記第１の属性の値が第２の値である第２のデータ群から第１のデータを選択し、
前記第１のデータに基づいて、前記第１の属性の値が前記第２の値である新たなデータを生成する、
処理を実行する制御部を含むことを特徴とするデータ生成装置。