JP2021096775A

JP2021096775A - 学習方法、学習プログラムおよび情報処理装置

Info

Publication number: JP2021096775A
Application number: JP2019229399A
Authority: JP
Inventors: 雄介大木; Yusuke Oki
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2021-06-24
Also published as: US20210192392A1

Abstract

【課題】分類精度の良い決定木を作成する。【解決手段】実施形態の学習方法は、取得する処理と、算出する処理と、クラスタリングする処理と、付加する処理と、実行する処理とをコンピュータが実行する。取得する処理は、非線形の性質を有する学習データを教師あり学習した学習済みモデルを取得する。算出する処理は、取得した学習済みモデルを用いて学習データを分類するとともに、学習データについての分類の結果が得られた要因に関するスコアを算出する。クラスタリングする処理は、算出したスコアに基づいて学習データをクラスタリングする。付加する処理は、クラスタリングによるクラスタに応じて第２の教師ラベルを学習データに付加する。実行する処理は、学習データと、付加した第２の教師ラベルとを用いて決定木の教師あり学習を実行する。【選択図】図１０

Description

本発明の実施形態は、学習技術に関する。

従来、非線形な性質を含むデータの分類問題については、機械学習技術を用いた学習済みモデルによる分類が知られている。また、どのような論理によって分類結果が得られたかの解釈性が求められるような人事や金融領域への適用においては、分類結果に対する解釈性の高いモデルである決定木を用いて、非線形な性質を有するデータを分類する従来技術が知られている。

特開２０１０−９１７７号公報特開２０１６−１０９４９５号公報

しかしながら、上記の従来技術における決定木の分類では、勾配ブースティング木（ＧＢＴ）、ニューラルネットワークなどの他のモデルと比較して解釈性は高いが分類精度が劣るという問題がある。

１つの側面では、分類精度の良い決定木を作成することができる学習方法、学習プログラムおよび情報処理装置を提供することを目的とする。

１つの案では、学習方法は、取得する処理と、算出する処理と、クラスタリングする処理と、付加する処理と、実行する処理とをコンピュータが実行する。取得する処理は、非線形の性質を有する学習データを教師あり学習した学習済みモデルを取得する。算出する処理は、取得した学習済みモデルを用いて学習データを分類するとともに、学習データについての分類の結果が得られた要因に関するスコアを算出する。クラスタリングする処理は、算出したスコアに基づいて学習データをクラスタリングする。付加する処理は、クラスタリングによるクラスタに応じて第２の教師ラベルを学習データに付加する。実行する処理は、学習データと、付加した第２の教師ラベルとを用いて決定木の教師あり学習を実行する。

分類精度の良い決定木を作成することができる。

図１は、システム構成の一例を示すブロック図である。図２は、ホスト学習装置およびクライアント学習装置における動作例を示すフローチャートである。図３は、教師あり学習による学習モデルを説明する説明図である。図４は、学習モデルでのデータ分類を説明する説明図である。図５は、学習データのクラスタリング処理を例示するフローチャートである。図６は、要因距離行列と誤差行列の一例を示す説明図である。図７Ａは、誤差行列への影響度の評価を説明する説明図である。図７Ｂは、誤差行列への影響度の評価を説明する説明図である。図７Ｃは、誤差行列への影響度に応じたデータ消去を説明する説明図である。図８は、学習データのクラスタリングを説明する説明図である。図９は、新たな学習データの生成を説明する説明図である。図１０は、決定木の作成を説明する説明図である。図１１は、従来技術と本実施形態との比較を説明する説明図である。図１２は、従来技術と本実施形態との比較を説明する説明図である。図１３は、プログラムを実行するコンピュータの一例を示すブロック図である。

以下、図面を参照して、実施形態にかかる学習方法、学習プログラムおよび情報処理装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する学習方法、学習プログラムおよび情報処理装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

図１は、システム構成の一例を示すブロック図である。図１に示すように、情報処理システム１は、ホスト学習装置２と、クライアント学習装置３とを有する。情報処理システム１では、ホスト学習装置２と、クライアント学習装置３とにより、教師ラベル１０Ｂ、１１Ｂが付与された学習データ１０Ａ、１１Ａでの教師あり学習を行う。次いで、情報処理システム１では、教師あり学習により得られたモデルを用いて、非線形な性質を含むデータである分類対象データ１２を分類して分類結果１３を得る。

なお、本実施形態ではホスト学習装置２と、クライアント学習装置３とを分けたシステム構成を例示するが、ホスト学習装置２およびクライアント学習装置３は、一つの学習装置であってもよい。すなわち、情報処理システム１は、一つの学習装置で構成されていてもよく、例えば情報処理装置の一例である。

また、本実施形態では、非線形な性質を含むデータの一例である受験者の成績から入学試験等の試験の合否を分類するケースを例示して説明する。すなわち、情報処理システム１は、受験者における国語、英語などの成績を分類対象データ１２として情報処理システム１に入力し、その受験者における入学試験等の試験の合否を分類結果１３として得るものとする。

また、学習データ１０Ａ、１１Ａは、サンプルとする受験者ごとの国語、英語などの成績である。ここで、学習データ１１Ａと、分類対象データ１２とは同じデータ形式とする。例えば、学習データ１１Ａがサンプルとする受験者の英語と国語の成績データ（ベクトルデータ）である場合、分類対象データ１２も対象者の英語と国語の成績データ（ベクトルデータ）とする。

ただし、学習データ１０Ａと学習データ１１Ａとは、サンプルとする受験者が同一であればよく、データ形式は異なっていてもよい。例えば、学習データ１０Ａはサンプルとする受験者の英語と国語の答案の画像データであり、学習データ１１Ａはサンプルとする受験者の英語と国語の成績データ（ベクトルデータ）であってもよい。なお、本実施形態では、学習データ１０Ａと学習データ１１Ａとは完全に同じデータであるものとする。すなわち、学習データ１０Ａ、１１Ａは、ともにサンプルとする受験者（Ａさん、Ｂさん、…Ｚさん）の英語と国語の成績データであるものとする。

ホスト学習装置２は、ハイパーパラメータ調整部２１、学習部２２、推論部２３、クラスタリング実施部２４および作成部２５を有する。

ハイパーパラメータ調整部２１は、学習データ１０Ａを用いた機械学習が過学習とならないように、バッチサイズ、イテレーション数、エポック数などの機械学習に関するハイパーパラメータを調整する処理部である。具体的には、ハイパーパラメータ調整部２１は、学習データ１０Ａの交差検証などにより、バッチサイズ、イテレーション数、エポック数などのハイパーパラメータのチューニングを行う。

学習部２２は、学習データ１０Ａを用いた機械学習により分類を行う学習モデルを作成する処理部である。具体的には、学習部２２は、学習データ１０Ａと、学習データ１０Ａに正解（例えばサンプルとする受験者の合否）として付与された教師ラベル１０Ｂとをもとに、公知の教師あり学習を行うことで勾配ブースティング木（ＧＢＴ）、ニューラルネットワークなどの学習モデルを作成する。すなわち、学習部２２は、取得部の一例である。

推論部２３は、学習部２２が作成した学習モデルを用いた推論（分類）を行う処理部である。具体的には、推論部２３は、学習部２２が作成した学習モデルで学習データ１０Ａの分類を行う。例えば、推論部２３は、学習部２２が作成した学習モデルに学習データ１０Ａにおけるサンプルとする受験者それぞれの成績データを入力することで、受験者それぞれの合否の確率を分類スコアとして得る。次いで、推論部２３は、得られた分類スコアをもとに、受験者それぞれの合否の分類を行う。

また、推論部２３は、学習データ１０Ａにおいて分類結果が得られた要因に関するスコア（以下、要因スコア）を算出する。具体的には、推論部２３は、機械学習モデルが行う分類についてどのような根拠でその分類を行ったかを解釈するＬＩＭＥ（Local Interpretable Model-agnostic Explanations）、ＳＨＡＰ（SHapley Additive exPlanations）等の公知の技術を用いることで要因スコアを算出する。すなわち、推論部２３は、算出部の一例である。

クラスタリング実施部２４は、推論部２３が算出した要因スコアを用いて学習データ１０Ａをクラスタリングする処理部である。具体的には、クラスタリング実施部２４は、推論部２３が算出した要因スコアをもとに、似た要因を持つ学習データ１０Ａ同士をまとめ上げて、学習データ１０Ａを複数のクラスタに分ける。

作成部２５は、学習データ１０Ａに正解として付与された教師ラベル１０Ｂを、クラスタリング実施部２４によるクラスタリングによるクラスタに基づいて教師ラベル１１Ｂに変更する処理部である。具体的には、作成部２５は、学習データ１０Ａのサンプルとする受験者それぞれに付与された正解（合否）を示す教師ラベル１０Ｂについて、クラスタリング実施部２４により分けられた複数のクラスタの中のいずれのクラスタに含まれるかを示すラベルに変更した教師ラベル１１Ｂを作成する。また、作成部２５は、教師ラベル１０Ｂから教師ラベル１１Ｂへの変更前後の対応関係を示すラベル対応情報１１Ｃを作成する。

クライアント学習装置３は、ハイパーパラメータ調整部３１、学習部３２および推論部３３を有する。

ハイパーパラメータ調整部３１は、学習データ１１Ａを用いた機械学習が過学習とならないように、バッチサイズ、イテレーション数、エポック数などの機械学習に関するハイパーパラメータを調整する処理部である。具体的には、ハイパーパラメータ調整部２１は、学習データ１１Ａの交差検証などにより、バッチサイズ、イテレーション数、エポック数などのハイパーパラメータのチューニングを行う。

学習部３２は、学習データ１１Ａと、教師ラベル１０Ｂより変更した教師ラベル１１Ｂとを用いて決定木に関する公知の教師あり学習を行う処理部である。具体的には、学習部３２が学習する決定木は、複数のノードおよび各ノードを接続するエッジから構成され、中間の各ノードには分岐条件（例えば所定のデータ項目における条件式）が対応付けられる。また、決定木における終端の各ノードには教師ラベル１１Ｂの各ラベル、すなわちクラスタリング実施部２４のクラスタリングによるクラスタそれぞれが対応付けられる。

学習部３２は、決定木に関する公知の教師あり学習により、学習データ１１Ａのサンプルとする受験者それぞれについて、教師ラベル１１Ｂに付与されたラベルに対応する終端のノードに至るように中間の各ノードの分岐条件を決定することで決定木を生成する。

また、学習部３２は、教師ラベル１０Ｂから教師ラベル１１Ｂに変更した際の対応関係を示すラベル対応情報１１Ｃに基づき、学習した決定木における終端のノードの置き換えを行う。具体的には、学習部３２は、学習した決定木における、教師ラベル１１Ｂの各ラベルに対応する終端のノードを、ラベル対応情報１１Ｃが示す対応関係により教師ラベル１０Ｂのラベル（例えば受験者の合否）に置き換える。これにより、学習した決定木による分類では、中間の各ノードの分岐条件によって終端のノードまで辿ることで、教師ラベル１０Ｂのラベルに対応する分類結果（例えば受験者の合否）を得ることができる。

推論部３３は、分類対象データ１２について、学習部３２で学習した決定木を用いた推論（分類）を行う処理部である。具体的には、推論部３３は、学習部３２で学習した決定木における中間の各ノードの分岐条件より分類対象データ１２に該当する条件のエッジを進み、終端のノードまで辿ることで分類結果１３を得る。

図２は、ホスト学習装置２およびクライアント学習装置３における動作例を示すフローチャートである。図２に示すように、処理が開始されると、学習部２２は、学習データ１０Ａと、学習データ１０Ａに正解として付与された教師ラベル１０Ｂとによる学習モデルの教師あり学習を行う（Ｓ１）。

図３は、教師あり学習による学習モデルを説明する説明図である。図３の左側は、学習データ１０Ａに含まれる、サンプルとする受験者それぞれのデータｄ１についての、国語の成績（ｘ_１）と英語の成績（ｘ_２）の平面における分布を示している。なお、データｄ１における「１」または「０」は、教師ラベル１０Ｂとして付与された合否のラベルを示し、「１」は合格者、「０」は不合格者であることを示している。

図３に示すように、学習部２２は、合格者と不合格者とを分類する勾配ブースティング木（ＧＢＴ）の学習モデルＭ１における境界ｋ１が真の境界ｋ２により近づけるように、学習モデルＭ１における重み（ａ_１、ａ_２…ａ_Ｎ）を調整して学習モデルＭ１を求める。

図２に戻り、Ｓ１に次いで、推論部２３は、学習部２２が作成した学習モデルＭ１で学習データ１０Ａの分類を行い、学習データ１０Ａに含まれるサンプルとする受験者それぞれの分類スコアを算出する（Ｓ２）。

図４は、学習モデルＭ１でのデータ分類を説明する説明図である。図４に示すように、学習部２２は、「Ａさん」、「Ｂさん」…「Ｚさん」それぞれの受験者ｄ１１における成績（国語）ｄ１２と、成績（英語）ｄ１３とを学習モデルＭ１に入力することで、受験者ｄ１１の合否の分類に関する不合格確率ｄ１４および合格確率ｄ１５の出力を得る。学習部２２は、得られた不合格確率ｄ１４および合格確率ｄ１５をもとに、分類結果ｄ１６を判定する。具体的には、学習部２２は、合格確率ｄ１５が不合格確率ｄ１４よりも大きい場合は合格を示す「１」を分類結果ｄ１６とし、合格確率ｄ１５が不合格確率ｄ１４よりも大きくない場合は、不合格を示す「０」を分類結果ｄ１６とする。

図２に戻り、推論部２３は、学習モデルＭ１が行う分類の要因を調べるＬＩＭＥ、ＳＨＡＰなどの公知の技術を用いて、分類スコアが得られた要因（要因スコア）の算出を行う（Ｓ３）。

例えば、「Ａさん」について、成績が（英語の成績，国語の成績）＝（６．５,７．２）であり、この成績を学習モデルＭ１に入力することで合格「１」と分類されているものとする。推論部２３は、ＬＩＭＥ、ＳＨＡＰなどの公知の技術により、分類の要因を示す要因スコアとして、英語、国語それぞれの成績が「Ａさん」の合格に寄与する寄与度を得る。例えば、推論部２３は、「Ａさん」の合格の要因スコアとして、英語、国語それぞれの成績の寄与度である（英語の成績，国語の成績）＝（３．５，４．５）を得る。この要因スコアにより、「Ａさん」の合格については、英語よりも国語の成績のほうが寄与していることがわかる。

次いで、クラスタリング実施部２４は、推論部２３が算出した要因スコアを用いて学習データ１０Ａのクラスタリングを行う（Ｓ４）。図５は、学習データ１０Ａのクラスタリング処理を例示するフローチャートである。

図５に示すように、クラスタリング処理が開始されると、クラスタリング実施部２４は、要因距離行列と、誤差行列とを定義する（Ｓ１０）。

図６は、要因距離行列と誤差行列の一例を示す説明図である。図６に示すように、要因距離行列４０は、学習データ１０Ａにおけるサンプルとする受験者（「Ａさん」、「Ｂさん」…）それぞれについて、自分と他の受験者との要因スコアの距離（要因距離）を並べた行列である。よって、要因距離行列４０は、それぞれの受験者において、自分自身との要因距離は「０」となる対称行列である。図示例の要因距離行列４０では、「Ｄさん」と「Ｅさん」との間の要因距離は「４」となる。クラスタリング実施部２４は、例えばサンプルとする受験者それぞれについて、英語、国語それぞれの成績の寄与度のベクトルデータより、自分自身と他の受験者とのベクトルデータの距離を求めることで要因距離行列４０を定義する。

誤差行列４１は、学習データ１０Ａにおけるサンプルとする受験者（「Ａさん」、「Ｂさん」…）それぞれについて、他の受験者の分類スコアで分類を行った場合に生じる誤差（例えば自分自身と他の受験者との分類スコアの距離）を並べた行列である。よって、誤差行列４１は、それぞれの受験者において、自分自身との誤差は「０」となる対称行列である。図示例の誤差行列４１では、「Ｃさん」の分類スコアで、「Ａさん」の分類を行った場合に生じる誤差は「４」となる。クラスタリング実施部２４は、例えばサンプルとする受験者それぞれについて、分類スコアより誤差を求めることで要因距離行列４０を定義する。

図５に戻り、Ｓ１０に次いで、クラスタリング実施部２４は、定義した要因距離行列４０、誤差行列４１より除去されずに残った、クラスタの代表とするデータ（代表データ）の数が、ユーザなどにより予め設定された数と一致するまでループ処理を繰り返す（Ｓ１１〜Ｓ１４）。すなわち、クラスタリング実施部２４は、所定のクラスタ数分、要因距離行列４０、誤差行列４１より除去されずに代表データが残るまでＳ１２、Ｓ１３の処理を繰り返す。

具体的には、ループ処理が開始されると、クラスタリング実施部２４は、要因距離行列４０より任意の学習データを除去した場合の誤差行列４１への影響度を評価する（Ｓ１２）。

図７Ａ、図７Ｂは誤差行列４１への影響度の評価を説明する説明図である。図７Ａに示すように、仮に「Ａさん」を要因距離行列４０より除外した場合を考える。要因距離行列４０における「Ａさん」に対する要因距離より、「Ａさん」と最も要因の近い人は、要因距離が「１」の「Ｂさん」である。このように、クラスタリング実施部２４は、要因距離行列４０より除去の対象とするデータと要因の近いデータを特定する。

次いで、クラスタリング実施部２４は、誤差行列４１を参照し、最も要因の近い分類スコア（他の受験者の分類スコア）で分類を行った場合の誤差（影響度）を評価する。例えば、「Ａさん」にとって最も要因の近い人は「Ｂさん」であることから、「Ａさん」を要因距離行列４０より除外して「Ｂさん」の分類スコアを用いた場合には、誤差行列４１より誤差（影響度）が「３」増加することが判る。

また、図７Ｂに示すように、仮に「Ｂさん」を要因距離行列４０より除外した場合を考える。要因距離行列４０における「Ｂさん」に対する要因距離より、「Ｂさん」と最も要因の近い人は、要因距離が「１」の「Ａさん」、「Ｅさん」である。このように、クラスタリング実施部２４は、要因距離行列４０より除去の対象とするデータと要因の近いデータを特定する。

次いで、クラスタリング実施部２４は、誤差行列４１を参照し、最も要因の近い分類スコア（他の受験者の分類スコア）で分類を行った場合の誤差（影響度）を評価する。例えば、「Ｂさん」にとって最も要因の近い人は「Ａさん」、「Ｅさん」であることから、「Ｂさん」を要因距離行列４０より除外して「Ａさん」、「Ｅさん」の分類スコアを用いた場合には、誤差行列４１より誤差（影響度）が少なくとも「２」増加することが判る。

図５に戻り、Ｓ１２に次いで、クラスタリング実施部２４は、Ｓ１２で評価した影響度をもとに、誤差行列４１への影響度が最も小さい学習データを要因距離行列４０、誤差行列４１より除去する（Ｓ１３）。

図７Ｃは、誤差行列４１への影響度に応じたデータ消去を説明する説明図である。図７Ｃに示すように、クラスタリング実施部２４は、影響度が「１」であり、最も影響度の小さい「Ｄさん」を要因距離行列４０と、誤差行列４１とから除去する。これにより、要因距離行列４０、誤差行列４１における残りは、「Ａさん」、「Ｂさん」、「Ｃさん」、「Ｅさん」の４人となる。このように、クラスタリング実施部２４は、残りがクラスタ数分になるまでループ処理を繰り返す。

図５に戻り、ループ処理（Ｓ１１〜Ｓ１４）に次いで、クラスタリング実施部２４は、学習データ１０Ａにおけるそれぞれの学習データ（サンプルとする受験者それぞれのデータｄ１）が最も距離の短い代表データが代表するクラスタに属するようにクラスタリングする（Ｓ１５）。

図８は、学習データのクラスタリングを説明する説明図である。なお、ループ処理（Ｓ１１〜Ｓ１４）では、「Ａさん」、「Ｂさん」、「Ｃさん」、「Ｅさん」の４人のデータｄ１が代表データとして残るものとする。図８に示すように、クラスタリング実施部２４は、最も要因距離の小さい代表データが代表するクラスタに属するように、要因距離をもとに学習データ１０Ａに含まれるデータｄ１をクラスタリングする。これにより、学習データ１０Ａに含まれるデータｄ１それぞれは、「Ａ」、「Ｂ」、「Ｃ」、「Ｅ」のいずれかのクラスタに属することとなる。

図２に戻り、Ｓ４に次いで、作成部２５は、クラスタリング実施部２４によるクラスタをもとに、学習データ１０Ａに正解として付与された教師ラベル１０Ｂを教師ラベル１１Ｂに変更した新たな学習データを生成する（Ｓ５）。

図９は、新たな学習データの生成を説明する説明図である。図９に示すように、元の学習データ（学習データ１０Ａと、教師ラベル１０Ｂとの組み合わせ）では、受験者ｄ１１について、成績（国語）ｄ１２と、成績（英語）ｄ１３とともに、試験の合否（合格＝「１」／不合格＝「０」）を示す教師ラベルｃ１１が付与される。

作成部２５は、クラスタリング実施部２４によるクラスタリングで得られたクラスタをもとに、教師ラベル１０Ｂを教師ラベル１１Ｂに変更する。これにより、新たな学習データ（学習データ１１Ａと、教師ラベル１１Ｂとの組み合わせ）では、受験者ｄ１１について、成績（国語）ｄ１２と、成績（英語）ｄ１３とともに、受験者ｄ１１が属するクラスタ（例えば「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」）を示す教師ラベルｃ１２が付与される。

図２に戻り、Ｓ５に次いで、学習部３２は、学習データ１１Ａと、教師ラベル１０Ｂより変更した教師ラベル１１Ｂとを用いて、すなわち新たな学習データを用いて、公知の教師あり学習を行うことで決定木を作成する（Ｓ６）。

図１０は、決定木の作成を説明する説明図である。図１０に示すように、学習部３２は、教師ラベル１１Ｂに付与されたラベル（例えば「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」）に対応する終端のノード（ｎ４〜ｎ７）に至るように中間の各ノード（ｎ１〜ｎ３）の分岐条件を決定することで決定木Ｍ２を生成する。

次いで、学習部３２は、決定木Ｍ２の学習完了後に、終端のノード（ｎ４〜ｎ７）のラベル（例えば「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」）を変換前の状態（例えば合格＝「１」／不合格＝「０」）に戻す。具体的には、学習部３２は、教師ラベル１０Ｂから教師ラベル１１Ｂに変更した際の対応関係を示すラベル対応情報１１Ｃに基づき、学習した決定木Ｍ２における終端のノード（ｎ４〜ｎ７）の置き換えを行う。

図２に戻り、Ｓ６に次いで、推論部３３は、分類対象データ１２について、学習部３２で学習した決定木Ｍ２による推論を行い、分類結果１３を取得する（Ｓ７）。

以上のように、情報処理システム１は、非線形の性質を有する学習データ１０Ａを教師ラベル１０Ｂによる教師あり学習した学習モデルＭ１を取得する。また、情報処理システム１は、取得した学習モデルＭ１を用いて学習データ１０Ａを分類するとともに、学習データ１０Ａにおいて分類結果が得られた要因に関するスコアを算出する。また、情報処理システム１は、算出したスコアを用いて学習データ１０Ａをクラスタリングする。また、情報処理システム１は、クラスタリングによるクラスタに基づく教師ラベル１１Ｂを学習データ１０Ａ（１１Ａ）に付加する。また、情報処理システム１は、学習データ１１Ａと、付加した教師ラベル１１Ｂとを用いて決定木Ｍ２の教師あり学習を行う。

このように、情報処理システム１では、分類結果が得られた要因に関するスコアにより要因を持つ学習データ同士を集めたクラスタに基づいて決定木Ｍ２の学習に用いる教師ラベルを変更するので、決定木Ｍ２の分類精度を向上させることができる。したがって、分類対象データ１２の分類においては、決定木Ｍ２が有する高い解釈性を保ちつつ、精度の高い分類結果１３を得ることができる。

図１１、図１２は、従来技術と本実施形態との比較を説明する説明図である。図１１において、ケースＥ１は従来技術を適用して作成した決定木Ｍ３を用いて分類しており、ケースＥ２は本実施形態において作成した決定木Ｍ２を用いて分類している。なお、ケースＥ１、Ｅ２における分類対象データ１２は同じものであり、一例として「ａさん」の成績（国語（ｘ_１），英語（ｘ_２））とする。

図１１に示すように、受験者の合否を分ける真の境界Ｋ１に対し、ケースＥ１における決定木Ｍ３が合否を分ける境界Ｋ３では、「ａさん」のところで合否が逆転している。したがって、実際には「ａさん」は合格であるところ、決定木Ｍ３を用いた分類では、不合格と分類している。これに対し、ケースＥ２における決定木Ｍ２が合否を分ける境界Ｋ３では、「ａさん」のところで実際と合否が一致している（図１０の右側の「Ｅ」、「１」を参照）。したがって、決定木Ｍ２を用いた分類では、実際の合否に合った正しい分類を行うことができる。また、決定木Ｍ２による分類では、中間のノードにおける分岐条件より、合否に関する高い解釈性を保つことができる。

図１２では、ｋａｇｇｌｅのフリーデータセットを用いて機械学習の評価値であるＡｃｃｕｒａｃｙ、ＡＵＣ（Area Under the Curve）を求めた実験例Ｆ１〜Ｆ３を例示している。具体的には、フリーデータセットについて、本実施形態を用いた手法（本手法）と、決定木のみを用いた手法（決定木）、ＧＢＴの一種であるＬｉｇｈｔＧＢＭのみを用いた手法（ＬｉｇｈｔＧＢＭ）との評価値を求めて比較している。

なお、実験例Ｆ１は、過学習するように設計された２値分類問題（https://www.kaggle.com/c/dont-overfit-ii/overview）に関するフリーデータセットを用いた実験例である。また、実験例Ｆ２は、取引予測に関する２値分類問題（https://www.kaggle.com/lakshmi25npathi/santander-customer-transaction-prediction-dataset）に関するフリーデータセットを用いた実験例である。また、実験例Ｆ３は、心臓疾患に関する２値分類問題（https://www.kaggle.com/ronitf/heart-disease-uci）に関するフリーデータセットを用いた実験例である。なお、実験例Ｆ１〜Ｆ３では、学習および推論の１０試行分の平均値より評価値を求めているものとする。

図１２に示すように、実験例Ｆ１〜Ｆ３のいずれにおいても、本手法では、真の境界により近づけることが可能なＬｉｇｈｔＧＢＭに及ばないケースがあるものの、決定木よりは高い精度で分類結果が得られている。

また、情報処理システム１は、クラスタリングにおいて、学習データ１０Ａのそれぞれについての、要因に関するスコアが近い学習データで分類した場合の誤差に基づき、学習データ１０Ａの中から誤差における影響度が小さい学習データを除去してクラスタそれぞれを代表する代表データを求める。次いで、情報処理システム１は、スコアをもとに代表データが代表するクラスタのいずれかに属するように学習データをクラスタリングする。これにより、情報処理システム１では、クラスタを代表する代表データを基準に似た要因を持つ学習データ同士をクラスタリングすることができる。

また、情報処理システム１は、教師ラベル１０Ｂから教師ラベル１１Ｂに変更した際の対応関係に基づき、学習した決定木Ｍ２における教師ラベル１１Ｂに対応するノードを、教師ラベル１０Ｂに対応するノードに置き換える。これにより、情報処理システム１では、分類対象データ１２について、元の教師ラベル１０Ｂ（例えば試験の合否）に対応する分類結果１３を得ることができる。

また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、ハイパーパラメータ調整部２１と学習部２２、クラスタリング実施部２４と作成部２５、または、ハイパーパラメータ調整部３１とハイパーパラメータ調整部３１などは統合してもよい。また、図示した各処理は、上記の順番に限定されるものでなく、処理内容を矛盾させない範囲において、同時に実施してもよく、順序を入れ替えて実施してもよい。

さらに、各装置で行われる各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。

ところで、上記の各実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の各実施形態と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図１３は、プログラムを実行するコンピュータの一例を示すブロック図である。

図１３に示すように、コンピュータ１００は、各種演算処理を実行するＣＰＵ１０１と、データ入力を受け付ける入力装置１０２と、モニタ１０３とを有する。また、コンピュータ１００は、記憶媒体からプログラム等を読み取る媒体読取装置１０４と、各種装置と接続するためのインタフェース装置１０５と、他の情報処理装置等と有線または無線により接続するための通信装置１０６とを有する。また、コンピュータ１００は、各種情報を一時記憶するＲＡＭ１０７と、ハードディスク装置１０８とを有する。また、各装置１０１〜１０８は、バス１０９に接続される。

ハードディスク装置１０８には、図１に示した情報処理システム１内の各処理部（例えばハイパーパラメータ調整部２１、３１、学習部２２、３２、推論部２３、３３、クラスタリング実施部２４および作成部２５）と同様の機能を有するプログラム１０８Ａが記憶される。また、ハードディスク装置１０８には、情報処理システム１内の各処理部を実現するための各種データが記憶される。入力装置１０２は、例えば、コンピュータ１００の利用者から操作情報等の各種情報の入力を受け付ける。モニタ１０３は、例えば、コンピュータ１００の利用者に対して表示画面等の各種画面を表示する。インタフェース装置１０５は、例えば印刷装置等が接続される。通信装置１０６は、図示しないネットワークと接続され、他の情報処理装置と各種情報をやりとりする。

ＣＰＵ１０１は、ハードディスク装置１０８に記憶されたプログラム１０８Ａを読み出して、ＲＡＭ１０７に展開して実行することで、各種の処理に関するプロセスを実行する。これらのプロセスは、図１に示した情報処理システム１内の各処理部（例えばハイパーパラメータ調整部２１、３１、学習部２２、３２、推論部２３、３３、クラスタリング実施部２４および作成部２５）として機能させることができる。

なお、上記のプログラム１０８Ａは、ハードディスク装置１０８に記憶されていなくてもよい。例えば、コンピュータ１００が読み取り可能な記憶媒体に記憶されたプログラム１０８Ａを、コンピュータ１００が読み出して実行するようにしてもよい。コンピュータ１００が読み取り可能な記憶媒体は、例えば、ＣＤ−ＲＯＭやＤＶＤ（Digital Versatile Disc）、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にプログラム１０８Ａを記憶させておき、コンピュータ１００がこれらからプログラム１０８Ａを読み出して実行するようにしてもよい。

以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）非線形の性質を有する学習データを教師あり学習した学習済みモデルを取得し、
取得した前記学習済みモデルを用いて前記学習データを分類するとともに、前記学習データについての前記分類の結果が得られた要因に関するスコアを算出し、
算出した前記スコアに基づいて前記学習データをクラスタリングし、
前記クラスタリングによるクラスタに応じて第２の教師ラベルを前記学習データに付加し、
前記学習データと、付加した前記第２の教師ラベルとを用いて決定木の教師あり学習を実行する、
処理をコンピュータが実行することを特徴とする学習方法。

（付記２）前記クラスタリングする処理は、前記学習データのそれぞれについての、前記スコアが近い学習データで分類した場合の誤差に基づき、前記学習データの中から前記誤差における影響度が小さい学習データを除去して前記クラスタそれぞれを代表する代表データを決定し、前記スコアと前記代表データとに基づいて前記学習データをクラスタリングする処理を含む、
ことを特徴とする付記１に記載の学習方法。

（付記３）前記第２の教師ラベルを付加する処理は、前記学習済みモデルの学習時に前記学習データに付加された第１の教師ラベルを、前記第２の教師ラベルに変更する処理を含み、
前記決定木の教師あり学習を実行する処理は、前記第１の教師ラベルから前記第２の教師ラベルに変更した際の対応関係に基づき、学習した前記決定木に含まれる前記第２の教師ラベルに対応するノードを、前記第１の教師ラベルに対応するノードに置き換える処理を含む、
ことを特徴とする付記１または２に記載の学習方法。

（付記４）非線形の性質を有する学習データを教師あり学習した学習済みモデルを取得し、
取得した前記学習済みモデルを用いて前記学習データを分類するとともに、前記学習データについての前記分類の結果が得られた要因に関するスコアを算出し、
算出した前記スコアに基づいて前記学習データをクラスタリングし、
前記クラスタリングによるクラスタに応じて第２の教師ラベルを前記学習データに付加し、
前記学習データと、付加した前記第２の教師ラベルとを用いて決定木の教師あり学習を実行する、
処理をコンピュータに実行させることを特徴とする学習プログラム。

（付記５）前記クラスタリングする処理は、前記学習データのそれぞれについての、前記スコアが近い学習データで分類した場合の誤差に基づき、前記学習データの中から前記誤差における影響度が小さい学習データを除去して前記クラスタそれぞれを代表する代表データを決定し、前記スコアと前記代表データとに基づいて前記学習データをクラスタリングする処理を含む、
ことを特徴とする付記４に記載の学習プログラム。

（付記６）前記第２の教師ラベルを付加する処理は、前記学習済みモデルの学習時に前記学習データに付加された第１の教師ラベルを、前記第２の教師ラベルに変更する処理を含み、
前記決定木の教師あり学習を実行する処理は、前記第１の教師ラベルから前記第２の教師ラベルに変更した際の対応関係に基づき、学習した前記決定木に含まれる前記第２の教師ラベルに対応するノードを、前記第１の教師ラベルに対応するノードに置き換える処理を含む、
ことを特徴とする付記４または５に記載の学習プログラム。

（付記７）非線形の性質を有する学習データを教師あり学習した学習済みモデルを取得する取得部と、
取得した前記学習済みモデルを用いて前記学習データを分類するとともに、前記学習データについての前記分類の結果が得られた要因に関するスコアを算出する算出部と、
算出した前記スコアに基づいて前記学習データをクラスタリングするクラスタリング実施部と、
前記クラスタリングによるクラスタに応じて第２の教師ラベルを前記学習データに付加する付加部と、
前記学習データと、付加した前記第２の教師ラベルとを用いて決定木の教師あり学習を実行する学習部と、
を有することを特徴とする情報処理装置。

（付記８）前記クラスタリング実施部は、前記学習データのそれぞれについての、前記スコアが近い学習データで分類した場合の誤差に基づき、前記学習データの中から前記誤差における影響度が小さい学習データを除去して前記クラスタそれぞれを代表する代表データを決定し、前記スコアと前記代表データとに基づいて前記学習データをクラスタリングする、
ことを特徴とする付記７に記載の情報処理装置。

（付記９）前記付加部は、前記学習済みモデルの学習時に前記学習データに付加された第１の教師ラベルを、前記第２の教師ラベルに変更し、
前記学習部は、前記第１の教師ラベルから前記第２の教師ラベルに変更した際の対応関係に基づき、学習した前記決定木に含まれる前記第２の教師ラベルに対応するノードを、前記第１の教師ラベルに対応するノードに置き換える、
ことを特徴とする付記７または８に記載の情報処理装置。

１…情報処理システム
２…ホスト学習装置
３…クライアント学習装置
１０Ａ、１１Ａ…学習データ
１０Ｂ、１１Ｂ…教師ラベル
１１Ｃ…ラベル対応情報
１２…分類対象データ
１３…分類結果
２１、３１…ハイパーパラメータ調整部
２２、３２…学習部
２３、３３…推論部
２４…クラスタリング実施部
２５…作成部
４０…要因距離行列
４１…誤差行列
１００…コンピュータ
１０１…ＣＰＵ
１０２…入力装置
１０３…モニタ
１０４…媒体読取装置
１０５…インタフェース装置
１０６…通信装置
１０７…ＲＡＭ
１０８…ハードディスク装置
１０８Ａ…プログラム
１０９…バス
ｃ１１、ｃ１２…教師ラベル
ｄ１…データ
ｄ１１…受験者
ｄ１２…成績（国語）
ｄ１３…成績（英語）
ｄ１４…不合格確率
ｄ１５…合格確率
ｄ１６…分類結果
Ｅ１〜Ｅ２…ケース
Ｆ１〜Ｆ３…実験例
ｋ１、ｋ２、Ｋ１、Ｋ３…境界
Ｍ１…学習モデル
Ｍ２、Ｍ３…決定木
ｎ１〜ｎ７…ノード

Claims

非線形の性質を有する学習データを教師あり学習した学習済みモデルを取得し、
取得した前記学習済みモデルを用いて前記学習データを分類するとともに、前記学習データについての前記分類の結果が得られた要因に関するスコアを算出し、
算出した前記スコアに基づいて前記学習データをクラスタリングし、
前記クラスタリングによるクラスタに応じて第２の教師ラベルを前記学習データに付加し、
前記学習データと、付加した前記第２の教師ラベルとを用いて決定木の教師あり学習を実行する、
処理をコンピュータが実行することを特徴とする学習方法。
前記クラスタリングする処理は、前記学習データのそれぞれについての、前記スコアが近い学習データで分類した場合の誤差に基づき、前記学習データの中から前記誤差における影響度が小さい学習データを除去して前記クラスタそれぞれを代表する代表データを決定し、前記スコアと前記代表データとに基づいて前記学習データをクラスタリングする処理を含む、
ことを特徴とする請求項１に記載の学習方法。
前記第２の教師ラベルを付加する処理は、前記学習済みモデルの学習時に前記学習データに付加された第１の教師ラベルを、前記第２の教師ラベルに変更する処理を含み、
前記決定木の教師あり学習を実行する処理は、前記第１の教師ラベルから前記第２の教師ラベルに変更した際の対応関係に基づき、学習した前記決定木に含まれる前記第２の教師ラベルに対応するノードを、前記第１の教師ラベルに対応するノードに置き換える処理を含む、
ことを特徴とする請求項１または２に記載の学習方法。
非線形の性質を有する学習データを教師あり学習した学習済みモデルを取得し、
取得した前記学習済みモデルを用いて前記学習データを分類するとともに、前記学習データについての前記分類の結果が得られた要因に関するスコアを算出し、
算出した前記スコアに基づいて前記学習データをクラスタリングし、
前記クラスタリングによるクラスタに応じて第２の教師ラベルを前記学習データに付加し、
前記学習データと、付加した前記第２の教師ラベルとを用いて決定木の教師あり学習を実行する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
非線形の性質を有する学習データを教師あり学習した学習済みモデルを取得する取得部と、
取得した前記学習済みモデルを用いて前記学習データを分類するとともに、前記学習データについての前記分類の結果が得られた要因に関するスコアを算出する算出部と、
算出した前記スコアに基づいて前記学習データをクラスタリングするクラスタリング実施部と、
前記クラスタリングによるクラスタに応じて第２の教師ラベルを前記学習データに付加する付加部と、
前記学習データと、付加した前記第２の教師ラベルとを用いて決定木の教師あり学習を実行する学習部と、
を有することを特徴とする情報処理装置。