JP2024061205A

JP2024061205A - 機械学習支援プログラム、機械学習支援方法、および情報処理装置

Info

Publication number: JP2024061205A
Application number: JP2022168993A
Authority: JP
Inventors: 隆裕古木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2024-05-07
Also published as: US20240135253A1

Abstract

【課題】ユーザが編集しやすいプログラムを提示できるようにする。
【解決手段】情報処理装置は、ユーザの指示に基づくプログラム生成要求に応じて、機械学習モデルの生成に用いられる複数の候補プログラムそれぞれについて、ユーザの習熟度情報に基づいて、候補プログラムに使用している第１のプログラム部品を含む第１のプログラム部品集合に対するユーザの第１の習熟度を特定する。習熟度情報は、複数のプログラム部品集合それぞれの使用に関するユーザの習熟度を示し、ユーザによる候補プログラムの編集処理における複数のプログラム部品集合の使用実績と編集処理による候補プログラムの性能の変化とに基づき決定される情報である。そして情報処理装置は、複数の候補プログラムそれぞれについて、特定した第１の習熟度に基づいて、ユーザに提示する優先度を決定する。
【選択図】図５

Description

本発明は、機械学習支援プログラム、機械学習支援方法、および情報処理装置に関する。

機械学習では、ＡｕｔｏＭＬ（Automated Machine Learning）と呼ばれるソフトウェアを用いて、機械学習のための処理の一部を自動化することができる。例えばＡｕｔｏＭＬを実行するコンピュータ（ＡｕｔｏＭＬシステム）は、ユーザからデータセットとタスク設定情報を受け取る。ＡｕｔｏＭＬシステムは、受け取ったデータセットとタスクを用いて複数のパイプライン（候補パイプライン）を生成する。パイプラインは、ユーザが入力したデータセットを用いて、ユーザによって指定されたタスクに応じた予測モデルを生成するためのプログラムである。

ＡｕｔｏＭＬシステムは、候補パイプラインを生成した後、例えば、生成した候補パイプラインを用いてモデルの生成および生成したモデルの評価を行う。そしてＡｕｔｏＭＬシステムは、候補パイプラインの中から、最も精度が高いモデルを生成したパイプラインを選択してユーザに提示する。ユーザは、ＡｕｔｏＭＬシステムから提示されたパイプラインを編集することで、パイプラインが生成するモデルの精度を改善することができる。

機械学習の効率化に関する技術としては、例えば予測精度の高い予測モデルを効率良く構築することができる分析装置が提案されている。

特開２０１８－１９０１２６号公報

しかし、ＡｕｔｏＭＬから提示されるパイプラインの編集が、ユーザにとって難しい場合がある。例えばパイプラインは、各種のパッケージを利用して生成される。パッケージは、パイプラインで使用可能なプログラム部品の集まりである。ユーザが過去に利用したことのないパッケージを利用して生成されたパイプラインが提示された場合、ユーザは、そのパッケージで提供された関数などの動作を確認した上でなければパイプラインを改善することができず、編集作業に時間がかかる。このような問題は、パイプラインと呼ばれるプログラムに限らず、機械学習用のプログラムを自動生成して、そのプログラムをユーザに編集させるシステムにおいて同様に発生する。

１つの側面では、本発明は、ユーザが編集しやすいプログラムを提示できるようにすることを目的とする。

１つの案では、以下の処理をコンピュータに実行させる機械学習支援プログラムが提供される。
コンピュータは、ユーザの指示に基づくプログラム生成要求に応じて、複数のプログラム部品集合のいずれかに含まれるプログラム部品を使用して生成された、機械学習モデルの生成に用いられる複数の候補プログラムそれぞれについて、複数のプログラム部品集合それぞれの使用に関するユーザの習熟度を示し、ユーザによる候補プログラムの編集処理における複数のプログラム部品集合の使用実績と編集処理による候補プログラムの性能の変化とに基づき決定される習熟度情報に基づいて、候補プログラムに使用している第１のプログラム部品を含む第１のプログラム部品集合に対するユーザの第１の習熟度を特定する。そしてコンピュータは、複数の候補プログラムそれぞれについて、特定した第１の習熟度に基づいて、ユーザに提示する優先度を決定する。

１態様によれば、ユーザが編集しやすいプログラムを提示することが可能となる。

第１の実施の形態に係る機械学習支援方法の一例を示す図である。第２の実施の形態のシステム構成の一例を示す図である。機械学習支援システムのハードウェアの一例を示す図である。不適切なパイプライン提示の一例を示す図である。各装置が有する機能の一例を示すブロック図である。パイプライン生成処理の手順の一例を示す図である。習熟度更新の一例を示す図である。習熟度計算処理の手順の一例を示すフローチャートである。追加されたプログラムコード行の抽出処理の一例を示す図である。ＡＳＴによるプログラムコード行の解析の一例を示す図である。要素の個数集計処理の手順の一例を示すフローチャートである。習熟度の更新処理の一例を示す図である。ユーザの習熟度に基づくパイプライン提示の一例を示す図である。候補パイプラインごとのパッケージの特徴量の計算結果の一例を示す図である。優先度計算の一例を示す図である。習熟度に大きな差がない場合の優先度計算の一例を示す図である。使用しているパイプラインの特徴量に大きな差がない場合の優先度計算の一例を示す図である。提示パイプライン選定処理の手順の一例を示すフローチャートである。

以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第１の実施の形態〕
第１の実施の形態は、機械学習モデルを生成するためのプログラムを自動生成する際に、ユーザが編集しやすいプログラムを優先的にユーザに提示できる機械学習支援方法である。

図１は、第１の実施の形態に係る機械学習支援方法の一例を示す図である。図１には、機械学習支援方法を実施する情報処理装置１０が示されている。情報処理装置１０は、例えば機械学習支援プログラムを実行することにより、機械学習支援方法を実施することができる。

情報処理装置１０は、ユーザ８が使用する端末９に、例えばネットワークを介して接続されている。情報処理装置１０は、端末９からのプログラム生成要求に応じて、機械学習モデルを生成するためのプログラムを自動生成することができる。その際、情報処理装置１０は、複数の候補プログラム３ａ，３ｂ，３ｃを生成し、そのうちユーザ８が編集しやすいプログラムを処理結果としてユーザ８に提示する。

情報処理装置１０は、記憶部１１と処理部１２とを有する。記憶部１１は、例えば情報処理装置１０が有するメモリまたはストレージ装置である。処理部１２は、例えば情報処理装置１０が有するプロセッサまたは演算回路である。

記憶部１１は、複数のプログラム部品集合１ａ，１ｂ，・・・と習熟度情報２とを記憶する。複数のプログラム部品集合１ａ，１ｂ，・・・それぞれには、機械学習モデルを生成するプログラムに使用可能な１以上のプログラム部品が含まれている。プログラム部品は、関数、クラス、変数などである。プログラム部品集合１ａ，１ｂ，・・・は、ライブラリ、パッケージなどと呼ばれることもある。習熟度情報２は、複数のプログラム部品集合１ａ，１ｂ，・・・それぞれの使用に関するユーザ８の習熟度を示す情報である。習熟度情報２は、ユーザ８が機械学習モデルを生成するプログラムを編集する編集処理を行った場合の複数のプログラム部品集合１ａ，１ｂ，・・・それぞれの使用実績と、機械学習モデルの性能の変化とに基づき決定される。機械学習モデルの性能の変化は、機械学習モデルを生成するプログラムにより生成される機械学習モデルの、ユーザ８による編集処理の前後での性能の変化（例えば機械学習モデルの予測精度）である。

処理部１２は、ユーザ８の指示に基づくプログラム生成要求に応じて、複数のプログラム部品集合１ａ，１ｂ，・・・のいずれかに含まれるプログラム部品を使用して、機械学習モデルを生成するための複数の候補プログラム３ａ，３ｂ，３ｃを生成する。次に処理部１２は、複数の候補プログラム３ａ，３ｂ，３ｃそれぞれについて、使用している第１のプログラム部品を含む第１のプログラム部品集合に対するユーザ８の第１の習熟度を、例えば習熟度情報２に基づいて特定する。

そして処理部１２は、複数の候補プログラム３ａ，３ｂ，３ｃそれぞれについて、特定した第１の習熟度に基づいて、ユーザ８に提示する優先度を決定する。例えば処理部１２は、優先度の決定対象の第１の候補プログラムにおいて第１のプログラム部品集合がどの程度重要なのかを示す特徴量を計算する。特徴量は、例えばＴＦ－ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ－ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）である。

次に処理部１２は、第１の候補プログラムにおける第１のプログラム部品集合の特徴量と第１のプログラム部品集合に対するユーザ８の第１の習熟度とに基づいて第１の候補プログラムの優先度を決定する。例えば処理部１２は、特徴量と第１の習熟度との積に基づいて、優先度を決定する。第１の候補プログラムで使用している第１のプログラム部品が複数ある場合には、例えば処理部１２は、第１のプログラム部品ごとの特徴量と第１の習熟度の積の合計を、第１の候補プログラムの優先度とする。

処理部１２は、複数の候補プログラム３ａ，３ｂ，３ｃそれぞれの優先度に基づいて、複数の候補プログラムのうちの少なくとも１つを、プログラム生成要求に応じた生成結果の第１のプログラム４として出力する。例えば処理部１２は、優先度が最も高い候補プログラム（図１の例では候補プログラム３ａ）を、第１のプログラム４としてユーザ８が使用する端末９に送信する。

ユーザ８は、端末９を用いて第１のプログラム４を編集する。端末９は、第１のプログラム４を編集した後の第２のプログラム５を情報処理装置１０に送信する。なお第１のプログラム４の編集を、情報処理装置１０内のワークスペース（ワーク用のメモリ領域）で行うことも可能である。その場合、ユーザ８による編集指示が端末９から情報処理装置１０に送信され、処理部１２によって第１のプログラム４が編集される。ユーザ８が端末９を介して編集終了の指示を情報処理装置１０に入力すると、処理部１２は、ワークスペースにある編集後のプログラムを第２のプログラム５として取得する。

処理部１２は、ユーザ８により第１のプログラム４が編集され第２のプログラム５が生成されると、第２のプログラム５に追加された第２のプログラム部品を含む第２のプログラム部品集合を特定する。そして処理部１２は、第２のプログラム部品集合に対するユーザ８の第２の習熟度を更新する。

例えば処理部１２は、第１のプログラム４で生成した第１のモデルの性能の評価結果を示す第１の評価値と第２のプログラム５で生成した第２のモデルの性能の評価結果を示す第２の評価値との差を計算する。処理部１２は、第１の評価値と第２の評価値との差に基づいて、第２のプログラム部品集合に対するユーザ８の第２の習熟度の増加量を算出する。そして処理部１２は、習熟度情報２における、第２のプログラム部品集合に対するユーザの第２の習熟度に、算出した増加量を加算する。

また処理部１２は、第２のプログラム５に追加され、かつ第２のプログラム部品集合に含まれる第２のプログラム部品の個数と、第１の評価値と第２の評価値との差とに基づいて、第２のプログラム部品集合に対するユーザの第２の習熟度の増加量を算出してもよい。例えば処理部１２は、第１の評価値と第２の評価値との差に第２のプログラム部品の個数を乗算した値を、第２のプログラム部品集合に対するユーザの第２の習熟度の増加量とする。

このようにしてユーザ８の複数のプログラム部品集合１ａ，１ｂ，・・・に対する習熟度に基づいて、複数の候補プログラム３ａ，３ｂ，３ｃそれぞれの優先度が決定される。そして、優先度に基づいて少なくとも１つの候補プログラムが、第１のプログラム４として出力される。その結果、情報処理装置１０は、ユーザ８が編集しやすいプログラムを第１のプログラム４として出力することができる。すなわちユーザ８の習熟度が高いプログラム部品集合を利用して生成された候補プログラムが第１のプログラム４として出力される。これにより、ユーザ８は、第１のプログラム４の内容の把握が容易となり、第１のプログラム４における改善すべき部分の特定も迅速に行うことができる。その結果、第１のプログラム４の編集作業が容易となる。

また、優先度の計算には、習熟度だけではなく、複数の候補プログラム３ａ，３ｂ，３ｃそれぞれにおける、プログラム部品集合の特徴量を利用することができる。これにより、複数の候補プログラム３ａ，３ｂ，３ｃで使用しているプログラム部品を含むプログラム部品集合の習熟度に差がない場合、特徴量が大きいプログラム部品集合に含まれるプログラム部品を多く使用している候補プログラムほど優先度が高くなる。これにより重要度が高いプログラム部品集合に含まれるプログラム部品を多く使用して生成された候補プログラムが、第１のプログラム４として出力される。その結果、ユーザ８は、例えば特徴量が大きい（例えば多用されている）プログラム部品集合のプログラム部品の適否を優先的に判断することで、第１のプログラム４を改善する編集作業を効率的に進めることができる。

また、第２のプログラム５に追加された第２のプログラム部品を含む第２のプログラム部品集合に対するユーザ８の第２の習熟度を更新することにより、処理部１２は、習熟度情報２に示される習熟度の精度を向上させることができる。習熟度の精度が高ければ、習熟度を用いた候補プログラム３ａ，３ｂ，３ｃの優先度の計算精度も向上する。

第２の習熟度の更新には、例えば第１のプログラム４で生成した第１のモデルの性能の評価結果を示す第１の評価値と第２のプログラム５で生成した第２のモデルの性能の評価結果を示す第２の評価値との差が用いられる。例えば第２の評価値が第１の評価値よりも十分に大きい場合、第２のプログラム５に追加されたプログラム部品を含むプログラム部品集合の使い方について、ユーザ８がよく理解しているものと考えられる。そこで第１の評価値と第２の評価値との差に基づいて、第２のプログラム部品集合に対するユーザ８の第２の習熟度の増加量を算出することで、処理部１２は、習熟度の精度を向上させることができる。

また処理部１２は、例えばユーザの第２の習熟度の増加量の算出に、第２のプログラム５に追加され且つ第２のプログラム部品集合に含まれる第２のプログラム部品の個数を利用することができる。これにより、処理部１２は、多用されている第２のプログラム部品集合の第２の習熟度の増加量を大きくすることができる。その結果、習熟度の精度が向上する。

なお処理部１２は、図１に示した第１のプログラム４のユーザ８への提示後、複数の候補プログラム３ａ，３ｂ，３ｃそれぞれの性能を求めてもよい。複数の候補プログラム３ａ，３ｂ，３ｃそれぞれの性能は、例えば複数の候補プログラム３ａ，３ｂ，３ｃそれぞれで生成したモデルの予測精度である。この場合、処理部１２は、性能が最も高い候補プログラムを、ユーザ８に提示する。これにより、ユーザ８は、第１のプログラム４の編集において、性能が高い候補プログラムの内容を参考にして、第１のプログラム４の改善作業を効率的に行うことができる。

〔第２の実施の形態〕
第２の実施の形態は、ＡｕｔｏＭＬによって生成した機械学習モデル生成用のプログラム（以下、パイプラインと呼ぶ）のうち、ユーザが編集しやすいパイプラインと、精度の高いモデルを作ることができるパイプラインとをユーザに提示するシステムである。このようにユーザが編集しやすいパイプラインと、精度の高いモデルを作ることができるパイプラインとを提示することで、精度とユーザの編集のしやすさの両方を考慮したパイプライン提示が可能となる。

図２は、第２の実施の形態のシステム構成の一例を示す図である。機械学習支援システム１００と端末３０とがネットワーク２０を介して接続されている。機械学習支援システム１００は、ＡｕｔｏＭＬによって機械学習用のパイプラインを自動生成するコンピュータである。端末３０は、機械学習のモデル作成を行うユーザが使用するコンピュータである。

ユーザは端末３０を用いて、機械学習支援システム１００に対して、機械学習のタスクと機械学習用のデータセットとを送信し、ＡｕｔｏＭＬで自動生成されたパイプラインを取得する。ユーザは端末３０を操作し、自動生成されたパイプラインを、ユーザの目的に合わせて修正し、最終的なモデル生成用の機械学習プログラムを生成する。

機械学習支援システム１００は、端末３０から取得したタスクとデータセットとに基づいて複数の候補パイプラインを生成する。そして機械学習支援システム１００は、ユーザによるパイプラインの編集結果に基づいて、生成した候補パイプラインのなかから、ユーザが編集しやすい候補パイプラインをユーザに提示する。また、機械学習支援システム１００は、生成した候補パイプラインのうち、最も精度が高いモデルを生成することができるパイプラインもユーザに提示する。

例えばユーザは、編集しやすいパイプラインに対して、最も精度が高いモデルを生成可能なパイプラインの関数などを適用することで、より精度が高いパイプラインを容易に生成することが可能となる。

図３は、機械学習支援システムのハードウェアの一例を示す図である。機械学習支援システム１００は、プロセッサ１０１によって装置全体が制御されている。プロセッサ１０１には、バス１０９を介してメモリ１０２と複数の周辺機器が接続されている。プロセッサ１０１は、マルチプロセッサであってもよい。プロセッサ１０１は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、またはＤＳＰ（Digital Signal Processor）である。プロセッサ１０１がプログラムを実行することで実現する機能の少なくとも一部を、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）などの電子回路で実現してもよい。

メモリ１０２は、機械学習支援システム１００の主記憶装置として使用される。メモリ１０２には、プロセッサ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ１０２には、プロセッサ１０１による処理に利用する各種データが格納される。メモリ１０２としては、例えばＲＡＭ（Random Access Memory）などの揮発性の半導体記憶装置が使用される。

バス１０９に接続されている周辺機器としては、ストレージ装置１０３、ＧＰＵ（Graphics Processing Unit）１０４、入力インタフェース１０５、光学ドライブ装置１０６、機器接続インタフェース１０７およびネットワークインタフェース１０８がある。

ストレージ装置１０３は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置１０３は、機械学習支援システム１００の補助記憶装置として使用される。ストレージ装置１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置１０３としては、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）を使用することができる。

ＧＰＵ１０４は画像処理を行う演算装置であり、グラフィックコントローラとも呼ばれる。ＧＰＵ１０４には、モニタ２１が接続されている。ＧＰＵ１０４は、プロセッサ１０１からの命令に従って、画像をモニタ２１の画面に表示させる。モニタ２１としては、有機ＥＬ（Electro Luminescence）を用いた表示装置や液晶表示装置などがある。

入力インタフェース１０５には、キーボード２２とマウス２３とが接続されている。入力インタフェース１０５は、キーボード２２やマウス２３から送られてくる信号をプロセッサ１０１に送信する。なお、マウス２３は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク２４に記録されたデータの読み取り、または光ディスク２４へのデータの書き込みを行う。光ディスク２４は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク２４には、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）などがある。

機器接続インタフェース１０７は、機械学習支援システム１００に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース１０７には、メモリ装置２５やメモリリーダライタ２６を接続することができる。メモリ装置２５は、機器接続インタフェース１０７との通信機能を搭載した記録媒体である。メモリリーダライタ２６は、メモリカード２７へのデータの書き込み、またはメモリカード２７からのデータの読み出しを行う装置である。メモリカード２７は、カード型の記録媒体である。

ネットワークインタフェース１０８は、ネットワーク２０に接続されている。ネットワークインタフェース１０８は、ネットワーク２０を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。ネットワークインタフェース１０８は、例えばスイッチやルータなどの有線通信装置にケーブルで接続される有線通信インタフェースである。またネットワークインタフェース１０８は、基地局やアクセスポイントなどの無線通信装置に電波によって通信接続される無線通信インタフェースであってもよい。

機械学習支援システム１００は、以上のようなハードウェアによって、第２の実施の形態の処理機能を実現することができる。第１の実施の形態に示した情報処理装置１０も、図３に示した機械学習支援システム１００と同様のハードウェアにより実現することができる。

機械学習支援システム１００は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第２の実施の形態の処理機能を実現する。機械学習支援システム１００に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、機械学習支援システム１００に実行させるプログラムをストレージ装置１０３に格納しておくことができる。プロセッサ１０１は、ストレージ装置１０３内のプログラムの少なくとも一部をメモリ１０２にロードし、プログラムを実行する。また機械学習支援システム１００に実行させるプログラムを、光ディスク２４、メモリ装置２５、メモリカード２７などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ１０１からの制御により、ストレージ装置１０３にインストールされた後、実行可能となる。またプロセッサ１０１が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。

なおＡｕｔｏＭＬでは、複数の候補パイプラインが生成され、各候補パイプラインの評価が行われる。評価が高いパイプラインをユーザに提示することで、ユーザは、精度の高いモデルを作成可能なパイプラインの生成が容易となる。ただし、候補パイプラインの評価には時間がかかる。そこでユーザがパイプラインを編集できるようになるまでの時間の短縮が試みられている。

例えば候補パイプラインの評価を並列処理で実行すれば、すべての候補パイプラインの評価に要する時間が短縮される。ただし、例えば計算リソースが十分でない場合、並列処理の活用が難しい。また並列処理が実行可能であったとしても、評価が最高の候補パイプラインを決定するには、すべての候補パイプラインについて、その候補パイプラインによるモデルが生成され、モデルによる予測精度の評価結果が出そろうことが条件となる。そのため１つでもモデル生成および評価に時間がかかる候補パイプラインがあれば、ユーザへのパイプラインの提示までの時間が長くなる。

並列処理の活用が難しい場面では、代替としてユーザに提示するパイプラインを投機的に決定する処理（投機的な評価）が考えられる。投機的な評価では、１つの候補パイプラインが評価され、その候補パイプラインがユーザに提示される。すべての候補パイプラインの評価が終わったタイミングで、先に提示したパイプラインより優れた候補パイプラインがあれば、より優れた候補パイプラインが改めてユーザに提示される。最初に渡した候補パイプラインが、最もスコアの高いものであった場合、結果として、ユーザはすべての候補パイプラインの評価を待たなくて済むこととなる。

このように投機的な処理を行うことで、機械学習支援システム１００は、ユーザがパイプラインの提示を受けるまでの待ち時間を短縮することができる。ユーザは、早期にパイプラインの提示を受けることで、そのパイプラインの編集作業の開始を早めることができる。ただし、早期に提示されたパイプラインに、ユーザの知らないプログラム部品が使われていると、編集作業が困難となる。以下、図４を参照して、ＡｕｔｏＭＬにより提示されるパイプラインが、ユーザにとって編集しづらいものとなってしまう理由について説明する。

図４は、不適切なパイプライン提示の一例を示す図である。例えば機械学習支援システム９１０に、ユーザが使用する端末９２０が接続されている。端末９２０は、ユーザからの指示に従って、タスク設定情報９２１とデータセット９２２とを機械学習支援システム９１０に送信する。機械学習支援システム９１０は、ＡｕｔｏＭＬの機能を用いたパイプライン生成処理を行う。生成されたパイプラインを候補パイプライン９１１ａ，９１１ｂ，・・・とする。機械学習支援システム９１０は、最初に生成された候補パイプライン９１１ａを、編集対象のパイプライン９１２ａとして端末９２０に送信する。なお候補パイプライン９１１ａには、ユーザが利用したことのないパッケージが用いられているものとする。なお、パッケージは、第１の実施の形態に示したプログラム部品集合の一例である。パッケージは、ライブラリと呼ばれることもある。この場合、提示されたパイプライン９１２ａをユーザが編集するのは容易ではない。

その後、機械学習支援システム９１０は、候補パイプライン９１１ａ，９１１ｂ，・・・を評価する。例えば機械学習支援システム９１０は、候補パイプライン９１１ａ，９１１ｂ，・・・それぞれについて、データセット９２２を用いて、タスク設定情報９２１に示されるタスクに対応する予測などを行うモデルを生成する。そして機械学習支援システム９１０は、生成したモデルを用いた推論を実行し、予測結果の精度を確認する。機械学習支援システム９１０は、例えば予測精度が高い候補パイプラインほど高いスコアを設定する。機械学習支援システム９１０は、すべての候補パイプライン９１１ａ，９１１ｂ，・・・のうち、最もスコアが高い候補パイプライン９１１ｎを、編集の参考にするパイプライン９１２ｂとして端末９２０に送信する。

ユーザは、評価が高いパイプライン９１２ｂの内容を確認し、使えるプログラム部品などを取捨選択し、パイプライン９１２ａに適用する。これにより、パイプライン９１２ａから変更されたパイプライン９１２ｃが生成される。

図４の例において、候補パイプライン９１１ｂは、ユーザが過去に利用したことのあるパッケージを用いて生成されており、そのパッケージの利用に関するユーザの習熟度が高いものとする。使用されているパッケージの習熟度が高い候補パッケージがユーザに提示されれば、ユーザは編集が容易となる。しかし、図４の例では、候補パイプライン９１１ｂは、生成順が最初ではなく、評価が最高でもない。そのため、ユーザにとって編集が容易な候補パイプライン９１１ｂがユーザに提示されることはない。

そこで第２の実施の形態における機械学習支援システム１００では、候補パイプラインで使用されているパッケージに対するユーザの習熟度を求め、その習熟度に基づいてユーザに先行して提示するパイプラインを決定する。これによりユーザが編集しやすいパイプラインが早期に提示され、ユーザによる編集を効率的に進めることができる。

図５は、各装置が有する機能の一例を示すブロック図である。機械学習支援システム１００は、パッケージ記憶部１１０、習熟度記憶部１２０、候補パイプライン生成部１３０、優先度計算部１４０、評価部１５０、パイプライン提示部１６０、および習熟度計算部１７０を有する。

パッケージ記憶部１１０は、候補パイプラインの生成に使用する複数のパッケージを記憶する。パッケージ記憶部１１０には、同じ機能を実現するプログラム部品を有するパッケージが複数記憶される場合もある。例えば異なる作成者によって作成された２以上のパッケージにおいて、実現する機能が重複する場合もある。また同一の作成者によって作成された旧版のパッケージと新版のパッケージとの両方がパッケージ記憶部１１０に格納されている場合もある。

習熟度記憶部１２０は、パッケージに対するユーザの習熟度を記憶する。パッケージに対するユーザの習熟度は、そのパッケージを利用するパイプラインの編集が行われるごとに、習熟度計算部１７０によって更新される。

候補パイプライン生成部１３０は、パッケージ記憶部１１０に格納されたパッケージを利用して、ユーザによって指定されたタスクを実現することができるモデルを生成可能な候補パイプラインを複数生成する。

優先度計算部１４０は、候補パイプライン生成部１３０が生成した候補パイプラインについて、ユーザによる編集のしやすさを考慮した提示の優先度を計算する。例えば優先度計算部１４０は、候補パイプラインで利用しているパッケージに対するユーザの習熟度に基づいて、その候補パイプラインの優先度を計算する。

評価部１５０は、生成された候補パイプラインそれぞれの精度を評価する。候補パイプラインの精度は、例えば、その候補パイプラインを用いて生成したモデルによる予測精度で表される。候補パイプラインの精度は、例えばスコアとして数値化される。

パイプライン提示部１６０は、ユーザが使用する端末３０へのパイプラインを示す情報の送信、および端末３０からの入力に応じたパイプラインの編集を行う。例えばパイプライン提示部１６０は、優先度計算部１４０によって計算されて優先度が最高となった候補パイプラインを示す情報を、編集対象のパイプラインとして端末３０に送信する。またパイプライン提示部１６０は、評価部１５０によって精度のスコアが最も高い候補パイプラインを、参考のパイプラインとしてユーザに提示する。

習熟度計算部１７０は、パイプライン提示部１６０が提示したパイプラインがユーザによって編集されたときに、編集前後のパイプラインに基づいて、そのパイプラインで利用されているパッケージの習熟度を計算する。習熟度計算部１７０は、計算した習熟度に基づいて、習熟度記憶部１２０に格納されているパッケージの習熟度を更新する。

端末３０は、パイプライン生成要求部３１とパイプライン編集部３２とを有する。パイプライン生成要求部３１は、ユーザからの指示に基づいて、パイプラインの生成要求を機械学習支援システム１００に送信する。パイプラインの生成要求には、機械学習のタスクを示すタスク設定情報と、機械学習に用いるデータセットとが含まれる。

パイプライン編集部３２は、ユーザからの入力に応じて、機械学習支援システム１００から提示されたパイプラインを編集する。例えばパイプライン編集部３２は、機械学習支援システム１００が提示したパイプラインを表示する。またパイプライン編集部３２は、パイプラインに対する編集内容を機械学習支援システム１００に送信する。

なお、図５に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図５に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。

以下、図６を参照して、図５に示した構成のシステムによるパイプライン生成処理の手順を説明する。
図６は、パイプライン生成処理の手順の一例を示す図である。以下、図６に示す処理をステップ番号に沿って説明する。

［ステップＳ１０１］候補パイプライン生成部１３０は、端末３０からタスク設定情報とデータセットとを含むパイプライン生成要求を取得する。
［ステップＳ１０２］候補パイプライン生成部１３０は、候補パイプラインを生成する。例えば候補パイプライン生成部１３０は、パッケージを利用したＡｕｔｏＭＬにより、取得したデータセットを用いて指定されたタスクを実現するためのモデルを生成可能な複数の候補パイプラインを生成する。候補パイプライン生成部１３０は、生成した候補パイプラインを優先度計算部１４０と評価部１５０とに送信する。

［ステップＳ１０３］優先度計算部１４０は、生成された候補パイプラインが２以上あるか否かを判断する。優先度計算部１４０は、候補パイプラインが２以上ある場合、処理をステップＳ１０４に進める。また優先度計算部１４０は、候補パイプラインが１つだけの場合、処理をステップＳ１０５に進める。

［ステップＳ１０４］優先度計算部１４０と評価部１５０とパイプライン提示部１６０が連係し、提示パイプライン選定処理を実行する。この処理の詳細は後述する（図１８参照）。その後、優先度計算部１４０は、処理をステップＳ１０６に進める。

［ステップＳ１０５］パイプライン提示部１６０は、生成された候補パイプラインを、編集対象のパイプラインとしてユーザに提示する。例えばパイプライン提示部１６０は、候補パイプラインの内容を示す情報を、ユーザが使用する端末３０に送信する。

［ステップＳ１０６］パイプライン提示部１６０は、提示したパイプラインが存在するか否かを判断する。提示したパイプラインが存在する場合とは、提示したパイプラインが編集対象として存続しており、編集終了の指示を受け取っていない場合である。パイプライン提示部１６０は、パイプラインが存在する場合、処理をステップＳ１０７に進める。またパイプライン提示部１６０は、パイプラインの提示が終了している場合、パイプライン生成処理を終了する。

［ステップＳ１０７］パイプライン提示部１６０は、提示したパイプラインの内容の変更の有無を監視する。例えばパイプライン提示部１６０は、提示したパイプラインの内容に対する端末３０からの編集指示を受け付ける。パイプライン提示部１６０は、編集指示に応じてパイプラインの内容を変更する。

［ステップＳ１０８］パイプライン提示部１６０は、提示したパイプラインの内容が変更されたか否かを判断する。パイプライン提示部１６０は、パイプラインの内容が変更された場合、処理をステップＳ１０９に進める。またパイプライン提示部１６０は、パイプラインの内容が変更されていなければ、処理をステップＳ１０６に進める。

［ステップＳ１０９］習熟度計算部１７０は、提示したパイプラインの生成に利用されたパッケージに対するユーザの習熟度計算処理を行う。習熟度計算処理の詳細は後述する（図８参照）。習熟度計算部１７０は、習熟度計算処理が終了すると処理をステップＳ１０６に進める。

このようにして、機械学習支援システム１００は、ユーザにパイプラインを提示し、そのパイプラインの編集結果に基づいて、ユーザのパッケージに対する習熟度を計算することができる。習熟度が計算されるごとに、習熟度記憶部１２０に格納されている習熟度が更新される。

図７は、習熟度更新の一例を示す図である。パイプライン提示部１６０は、編集前のパイプライン１６１と編集後のパイプライン１６２とを管理している。パイプライン提示部１６０は、これらの２つのパイプライン１６１，１６２を、習熟度計算部１７０に送信する。習熟度計算部１７０は、２つのパイプライン１６１，１６２の差分情報を用いて、変更内容を解析して、編集によってユーザに新たに追加した機能を提供しているパッケージを特定する。また習熟度計算部１７０は、２つのパイプライン１６１，１６２それぞれの精度を評価する。精度は、パイプライン１６１，１６２それぞれを用いて生成されたモデルの精度で表される。習熟度計算部１７０は、追加された機能を提供するパッケージと、編集前後のパイプライン１６１，１６２それぞれの精度の差に基づいて、そのパッケージに対するユーザの習熟度を計算する。

習熟度記憶部１２０には、ユーザごとの習熟度管理テーブル１２１，１２２，・・・が格納されている。各習熟度管理テーブル１２１，１２２，・・・には、対応するユーザのユーザ名が設定されている。また各習熟度管理テーブル１２１，１２２，・・・には、パッケージ名に対応付けて、ユーザの該当パッケージに対する習熟度が設定されている。

習熟度計算部１７０は、計算したパッケージの習熟度を、パイプライン１６１，１６２の編集を行ったユーザに対応する習熟度管理テーブルの該当パッケージの習熟度の値に加算する。このように習熟度を加算していくことで、過去に計算した習熟度も反映させた習熟度となる。例えばユーザが繰り返し利用したパッケージに対する習熟度の値が高くなる。

図８は、習熟度計算処理の手順の一例を示すフローチャートである。以下、図８に示す処理をステップ番号に沿って説明する。
［ステップＳ１２１］習熟度計算部１７０は、編集前のパイプライン１６１と編集後のパイプライン１６２とを取得する。

［ステップＳ１２２］習熟度計算部１７０は、取得した両パイプラインを比較する。
［ステップＳ１２３］習熟度計算部１７０は、編集によって追加されたプログラムコードがあるか否かを判断する。習熟度計算部１７０は、追加されたプログラムコードがあれば、処理をステップＳ１２４に進める。また習熟度計算部１７０は、追加されたプログラムコードがなければ、習熟度計算処理を終了する。

［ステップＳ１２４］習熟度計算部１７０は、追加されたプログラムコード行を取得する。
［ステップＳ１２５］習熟度計算部１７０は、取得したプログラムコード行に含まれる、いずれかのパッケージに属する要素の個数を集計する。要素の個数集計処理の詳細は後述する（図１１参照）。

［ステップＳ１２６］習熟度計算部１７０は、取得した両パイプラインを実行する。例えば習熟度計算部１７０は、２つのパイプライン１６１，１６２それぞれについて、ユーザから取得したデータセットを用いて、所定の情報を予測するモデルを生成する。習熟度計算部１７０は、ユーザから取得したデータセットを用いて、生成したモデルによる所定の情報の予測を行い、予測結果が正解と一致する割合を計算する。一致する割合が、対応するパイプラインの精度である。

［ステップＳ１２７］習熟度計算部１７０は、両パイプラインの精度が取得できたか否かを判断する。精度が取得できない場合とは、例えばパイプラインの実行時にエラーが発生して、モデルを生成できずに終了した場合である。またユーザが、パイプラインから精度評価に使用する部分を編集によって削除してしまった場合にも、精度の取得に失敗する。習熟度計算部１７０は、両パイプラインの精度が取得できた場合、処理をステップＳ１２８に進める。また習熟度計算部１７０は、少なくとも一方のパイプラインについて精度が取得できなかった場合、習熟度計算処理を終了する。

［ステップＳ１２８］習熟度計算部１７０は、両パイプラインの精度の差を計算する。例えば習熟度計算部１７０は、「編集後のパイプラインの精度－編集前のパイプラインの精度」を計算し、計算結果を精度の差とする。

［ステップＳ１２９］習熟度計算部１７０は、精度の差が０より大きいか否か（精度の差＞０）を判断する。習熟度計算部１７０は、精度の差が０より大きい場合、処理をステップＳ１３０に進める。また習熟度計算部１７０は、精度の差が０以下の場合、習熟度計算処理を終了する。

［ステップＳ１３０］習熟度計算部１７０は、パッケージごとに習熟度を計算する。習熟度は、例えばステップＳ１２５の集計において、パッケージに属するものとして集計された要素の個数に、精度の差を乗算した値（個数×精度の差）である。

［ステップＳ１３１］習熟度計算部１７０は、パッケージごとに計算した習熟度を、そのパッケージに対応付けて既に登録されている元の習熟度に加算する。その後、習熟度計算部１７０は、習熟度計算処理を終了する。

このようにして、ユーザによってパイプラインの編集が行われるごとに、編集で追加された要素を含むパッケージに対するユーザの習熟度が更新される。編集で追加された要素を特定するためには、まず編集で追加されたプログラムコード行の抽出が行われる。

図９は、追加されたプログラムコード行の抽出処理の一例を示す図である。例えば編集前のパイプライン１６１の「ｆｒｏｍＢｉｍｐｏｒｔＣａｔＢｏｏｓｔＲｅｇｒｅｓｓｏｒ」のプログラムコード行が、編集後のパイプライン１６２では「ｆｒｏｍＡｉｍｐｏｒｔＬＧＢＭＲｅｇｒｅｓｓｏｒ」と書き換えられている。また編集前のパイプライン１６１の「ｍｏｄｅｌ＝ＣａｔＢｏｏｓｔＲｅｇｒｅｓｓｏｒ（）」のプログラムコード行が、編集後のパイプライン１６２では「ｍｏｄｅｌ＝ＬＧＢＭＲｅｇｒｅｓｓｏｒ（）」と書き換えられている。

この場合、編集前後のパイプライン１６１，１６２を比較することで、編集後のパイプライン１６２に追加された追加プログラムコード行４１が抽出される。このような追加プログラムコード行４１の抽出処理は、例えばＤｉｆｆツールと呼ばれる差分抽出用のソフトウェアを用いて実施することができる。

抽出した追加プログラムコード行４１を解析することで、習熟度計算部１７０は、そのプロラムコード行によって追加されたパッケージの要素を確認することができる。追加プログラムコード行４１の解析は、例えば抽象構文木（ＡＳＴ：Abstract Syntax Tree）を用いることができる。

図１０は、ＡＳＴによるプログラムコード行の解析の一例を示す図である。習熟度計算部１７０は、例えばＰｙｔｈｏｎ（登録商標）の標準パッケージを用いて追加プログラムコード行４１のＡＳＴ４２を生成する。ＡＳＴ４２は、プログラムコード行に含まれる要素に対応するノード４２ａ～４２ｆを有する。各ノード４２ａ～４２ｆは、対応する要素間の関係を示す線で接続されている。

習熟度計算部１７０は、ＡＳＴ４２により追加プログラムコード行４１の内容を解釈する。そして習熟度計算部１７０は、追加プログラムコード行４１から、パッケージに属するモジュール、関数、またクラスなどの要素の識別子への参照が新たに追加されているなら、その要素の個数を、パッケージごとにカウントする。そして習熟度計算部１７０は、パッケージごとの要素の個数を変更差分情報４３に登録する。

変更差分情報４３には、パッケージ名に対応付けて、そのパッケージ名に対応するパッケージに属する要素の個数が登録されている。
図１１は、要素の個数集計処理の手順の一例を示すフローチャートである。以下、図１１に示す処理をステップ番号に沿って説明する。

［ステップＳ１４１］習熟度計算部１７０は、追加プログラムコード行４１のＡＳＴ４２を生成する。
［ステップＳ１４２］習熟度計算部１７０は、追加された関数またはクラスのうち、未評価のものがあるか否かを判断する。習熟度計算部１７０は、未評価の関数またはクラスがある場合、処理をステップＳ１４３に進める。また習熟度計算部１７０は、追加された関数またはクラスのすべてが評価済みであれば、要素の個数集計処理を終了する。

［ステップＳ１４３］習熟度計算部１７０は、ＡＳＴ４２を操作し、追加された関数またはクラスのうちの未評価のものを１つ取得する。例えば習熟度計算部１７０は、ＡＳＴ４２のノード４２ｆに示される「ＬＧＢＭＲｅｇｒｅｓｓｏｒ（）」を取得する。

［ステップＳ１４４］習熟度計算部１７０は、取得した関数またはクラスをｉｍｐｏｒｔしているノードを取得する。例えば「ＬＧＢＭＲｅｇｒｅｓｓｏｒ（）」をｉｍｐｏｒｔしているのは、ＡＳＴ４２のノード４２ｄである。そこで習熟度計算部１７０は、ノード４２ｄを取得する。

［ステップＳ１４５］習熟度計算部１７０は、取得したノードの親ノードに示されるパッケージ名を取得する。例えば習熟度計算部１７０は、ノード４２ｄの親のノード４２ｂから、パッケージ名「Ａ」を取得する。

［ステップＳ１４６］習熟度計算部１７０は、取得したパッケージ名が変更差分情報４３に既に登録されているか否かを判断する。習熟度計算部１７０は、パッケージ名が登録されていない場合、処理をステップＳ１４７に進める。また習熟度計算部１７０は、パッケージ名が登録されてる場合、処理をステップＳ１４８に進める。

［ステップＳ１４７］習熟度計算部１７０は、変更差分情報４３に、取得したパッケージ名を示すレコード（パッケージ名と個数との組）を追加する。そのレコードの個数の欄には「１」が設定される。その後、習熟度計算部１７０は、処理をステップＳ１４２に進める。

［ステップＳ１４８］習熟度計算部１７０は、変更差分情報４３における取得したパッケージ名に対応するレコードの個数に「１」を加算する。その後、習熟度計算部１７０は、処理をステップＳ１４２に進める。

このようにして、習熟度計算部１７０は、追加プログラムコード行４１に基づいて変更差分情報４３を生成する。変更差分情報４３は、例えばメモリ１０２に格納される。生成された変更差分情報４３と、編集前後のパイプライン１６１，１６２それぞれの精度とに基づいて、ユーザによる今回の編集に基づく、そのユーザの習熟度の増加量が決定される。そして決定した増加量だけ、パッケージに対するユーザの習熟度が増加する。

図１２は、習熟度の更新処理の一例を示す図である。習熟度計算部１７０は、パイプライン１６１，１６２それぞれを実行し、モデルを生成する。そして習熟度計算部１７０は、例えばパイプライン１６１，１６２それぞれによって生成されたモデルの精度を計算する。精度は、例えば決定係数（coefficient of determination）で表される。決定係数は「Ｒ²」とも呼ばれる。以下、決定係数で表される精度を示す値を「Ｒ２精度」と呼ぶこととする。

編集前のパイプライン１６１のＲ２精度を編集前精度４４とし、編集後のパイプライン１６２のＲ２精度を編集後精度４５とする。図１２の例では、編集前精度４４は「０．８７６５４」であり、編集後精度４５は「０．８８８８８」である。

習熟度計算部１７０は、例えばパッケージについての「変更差分情報に示される個数×精度の改善量（改善している場合の精度の差）」を、そのパッケージの習熟度の増加量（増加習熟度）とする。精度の改善量は、「ｍａｘ（０，編集後精度－編集前精度」で与えられる。「ｍａｘ（）」は、与えられた値のうちの大きい方の値を返す関数である。精度の改善量を示す式により、編集後に精度が悪化した場合、改善量は「０」となる。

例えば変更差分情報４３には、パッケージ名「Ａ」に個数「１」が設定されている。すると、増加習熟度は「１×（０．８８８８８－０．８７６５４）＝０．０１２３４」となる。そこで、習熟度計算部１７０は、パッケージ名「Ａ」と増加習熟度「０．０１２３４」との組を増加習熟度情報４６に登録する。

習熟度計算部１７０は、増加習熟度情報４６に基づいて、習熟度記憶部１２０内の情報を更新する。例えば習熟度計算部１７０は、習熟度記憶部１２０から、編集を行ったユーザの習熟度管理テーブルを読み込む。そして習熟度計算部１７０は、読み込んだ習熟度管理テーブルにおける、増加習熟度情報４６に示されるパッケージ名に対応するレコードの習熟度に、増加習熟度情報４６における該当パッケージ名の増加習熟度を加算する。習熟度計算部１７０は、更新後の習熟度管理テーブルを習熟度記憶部１２０に格納する。

このようにユーザによりパイプラインが編集されるごとに、そのユーザの習熟度管理テーブルが更新される。習熟度には、増加習熟度の値が加算されている。そのため、ユーザの過去の経験を反映したパッケージごとの習熟度が、そのユーザの習熟度管理テーブルに基づいて判断可能となる。そこで機械学習支援システム１００では、ユーザの習熟度が高いパッケージで提供されている関数またはクラスを用いた候補パイプラインを優先的に、編集対象のパイプラインとしてユーザに提示する。

図１３は、ユーザの習熟度に基づくパイプライン提示の一例を示す図である。例えばユーザは、端末３０を使用して、機械学習支援システム１００に対して、タスク設定情報５１とデータセット５２とを含むパイプライン生成要求を送信する。機械学習支援システム１００では、候補パイプライン生成部１３０がパイプライン生成要求を取得する。そして候補パイプライン生成部１３０が、パッケージ記憶部１１０内のパッケージを利用して、複数の候補パイプライン１３１～１３３を生成する。

優先度計算部１４０は、習熟度記憶部１２０から、パイプライン生成要求を送信した端末３０を使用しているユーザの習熟度管理テーブルを参照し、各候補パイプライン１３１～１３３の優先度を計算する。優先度は、習熟度が高いパッケージで提供されている関数またはクラスを多く使用している候補パイプラインほど高い値となる。図１３の例では、候補パイプライン１３１の優先度が最も高い。そこで、パイプライン提示部１６０は、候補パイプライン１３１の内容を、編集対象のパイプライン１６１として端末３０に送信する。

その後、評価部１５０が、各候補パイプライン１３１～１３３の精度を評価し、スコアを計算する。図１３の例では候補パイプライン１３３のスコアが最も高い。そこで、パイプライン提示部１６０は、候補パイプライン１３３を、パイプライン１６１の修正に利用する参考のパイプライン１６３として送信する。

ユーザは端末３０がパイプライン１６１の内容を受信すると、端末３０操作し、パイプライン１６１を編集する。その後、端末３０がパイプライン１６３を受信すると、ユーザは、パイプライン１６３の内容を確認し、利用できる要素の取捨選択を判断する。利用できる要素があれば、ユーザは、パイプライン１６１の機能の一部を、パイプライン１６３に示される関数またはクラスなどの要素に置き換える。そして、最終的に編集後のパイプライン１６２が生成される。

以下、候補パイプライン１３１～１３３の優先度の計算方法について詳細に説明する。
優先度計算部１４０は、候補パイプラインを「ａ」としたとき、式（１）を用いて、すべての候補パイプラインの優先度「ｆ（ａ）」を求める。

Ｐ_xは、パイプラインｘに含まれるパッケージ名の集合である。「ｆｅａｔｕｒｅ（ａ，ｐ）」は、パイプライン「ａ」の、パッケージ「ｐ」に関する特徴量である。「ｗｅｉｇｈｔ（ｐ）」は、パッケージ「ｐ」の重みを示す値であり、ユーザのパッケージ「ｐ」に対する習熟度が用いられる。ユーザのパッケージ「ｐ」に対する習熟度が習熟度記憶部１２０に含まれていない場合は、重みは「０」とされる。

優先度計算部１４０は、例えばＴＦ－ＩＤＦを用いて、候補パイプラインごとに、候補パイプラインで使用されるパッケージの特徴量を取得する。ＴＦ－ＩＤＦは、各文書中に含まれる各単語が「その文書内でどれくらい重要か」を表す尺度である。優先度計算部１４０は、一般的なＴＦ－ＩＤＦの計算における文書を候補パイプラインとし、単語をパッケージ名とする。これにより、候補パイプラインで使用されているパイプラインが、その候補パイプライン内でどのくらい重要なのかを、ＴＦ－ＩＤＦを用いて数値化することができる。

パイプライン「ａ」におけるパッケージ「ｐ」の特徴量「ｆｅａｔｕｒｅ（ａ，ｐ）」は式（２）で表される。

式（２）では、候補パイプライン「ａ」がＴＦ－ＩＤＦの文書「ｄ」に対応付けられ、候補パイプラインのパッケージ「ｐ」がＴＦ－ＩＤＦの語「ｔ」に対応付けられている。ｎ_s,dは、文書「ｄ」に含まれる各語「ｓ」の文書「ｄ」内での出現頻度である。ｎ_t,dは、語「ｔ」の文書「ｄ」内での出現頻度である。「ｄｆ（ｔ）」は、語「ｔ」が出現する文書の数である。Ｎは、文書の総数である。

式（２）では、一般的なＴＦ－ＩＤＦの式と比べると、すべてのパイプラインに含まれるパッケージ「ｐ」の重みが「ｆ（ａ）」に反映されなくなるケースを避けるために、ｉｄｆ項に「１」を加算している。ｉｄｆ項に「１」を加算する理由の詳細は以下の通りである。

ｉｄｆ項に「１」を加算しないケースを考える。パッケージ「ｐ」がすべてのパイプラインに出現するとき、ｉｄｆ項は「０」になる。このとき、ｔｆ項がどのような値をとっても「ｆｅａｔｕｒｅ（ａ，ｐ）」は「０」になってしまう。言い換えれば、すべてのパイプラインに出現するパッケージの出現頻度という特徴量は無視される。パイプラインで使用されたパッケージの特徴量の算出では、あるパッケージが存在する（ｎ≠０）という情報についても常に使用することが望ましい。そのため、式（２）では、パイプラインに出現するパッケージの出現頻度が無視されることを避けるために、ｉｄｆ項に「１」が加算されている。

図１４は、候補パイプラインごとのパッケージの特徴量の計算結果の一例を示す図である。図１４の例では候補パイプライン１３１の機械学習支援システム１００内での識別番号は「＃１」、候補パイプライン１３２の機械学習支援システム１００内での識別番号は「＃２」、候補パイプライン１３３の機械学習支援システム１００内での識別番号は「＃３」である。

候補パイプライン１３１では、パッケージ「Ａ」の要素が４つ使用されており、パッケージ「Ｂ」の要素が１つ使用されている。候補パイプライン１３２では、パッケージ「Ａ」の要素が２つ使用されており、パッケージ「Ｂ」の要素が１つ使用されている。候補パイプライン１３３では、パッケージ「Ｂ」、「Ｃ」、「Ｄ」、「Ｅ」、「Ｆ」、「Ｇ」、「Ｈ」それぞれの要素が１つずつ使用されている。

候補パイプライン「ａ」のパッケージ「ｐ」のｔｆ項の値を「ＴＦ（ａ，ｐ）」とする。この場合、各候補パイプラインで使用されているパッケージのｔｆ項の値は、以下の通りとなる。
ＴＦ（＃１，Ａ）＝４／５
ＴＦ（＃１，Ｂ）＝１／５
ＴＦ（＃２，Ａ）＝２／３
ＴＦ（＃２，Ｂ）＝１／３
ＴＦ（＃３，Ｃ）＝１／７
ＴＦ（＃３，Ｄ）＝１／７
ＴＦ（＃３，Ｅ）＝１／７
ＴＦ（＃３，Ｆ）＝１／７
ＴＦ（＃３，Ｇ）＝１／７
ＴＦ（＃３，Ｈ）＝１／７
ＴＦ（＃３，Ｂ）＝１／７
パッケージ「ｐ」のｉｄｆ項の値を「ＩＤＦ（Ａ）」とすると、各パッケージのｉｄｆ項の値は以下の通りとなる。
ＩＤＦ（Ａ）＝ｌｏｇ（３／２）＋１＝１．１８
ＩＤＦ（Ｂ）＝ｌｏｇ（３／３）＋１＝１
ＩＤＦ（Ｃ）＝ｌｏｇ（３／１）＋１＝１．４８
ＩＤＦ（Ｄ）＝ｌｏｇ（３／１）＋１＝１．４８
ＩＤＦ（Ｅ）＝ｌｏｇ（３／１）＋１＝１．４８
ＩＤＦ（Ｆ）＝ｌｏｇ（３／１）＋１＝１．４８
ＩＤＦ（Ｇ）＝ｌｏｇ（３／１）＋１＝１．４８
ＩＤＦ（Ｈ）＝ｌｏｇ（３／１）＋１＝１．４８
候補パイプライン「ａ」で使用されているパッケージ「ｐ」の特徴量を「ＴＦＩＤＦ（ｐ，ａ）」と表すものとする。このとき候補パイプライン１３１で使用されている各パッケージの特徴量は、以下の通りとなる。
ＴＦＩＤＦ（Ａ，＃１）＝０．８×１．１８＝０．９４
ＴＦＩＤＦ（Ｂ，＃１）＝０．２×１．００＝０．２０
候補パイプライン１３２で使用されている各パッケージの特徴量は、以下の通りとなる。
ＴＦＩＤＦ（Ａ，＃２）＝０．６７×１．１８＝０．７９
ＴＦＩＤＦ（Ｂ，＃２）＝０．３３×１．００＝０．３３
候補パイプライン１３３で使用されている各パッケージの特徴量は、以下の通りとなる。
ＴＦＩＤＦ（Ｂ，＃３）＝０．１４×１．００＝０．１４
ＴＦＩＤＦ（Ｃ，＃３）＝０．１４×１．４８＝０．２１
ＴＦＩＤＦ（Ｄ，＃３）＝０．１４×１．４８＝０．２１
ＴＦＩＤＦ（Ｅ，＃３）＝０．１４×１．４８＝０．２１
ＴＦＩＤＦ（Ｆ，＃３）＝０．１４×１．４８＝０．２１
ＴＦＩＤＦ（Ｇ，＃３）＝０．１４×１．４８＝０．２１
ＴＦＩＤＦ（Ｈ，＃３）＝０．１４×１．４８＝０．２１
上記の例では、すべての候補パイプラインにパッケージ「Ｂ」が使用されているが「ＩＤＦ（Ｂ）」が「０」とはならず「１」となっている。これにより、候補パイプライン１３１～１３３において、パッケージ「Ｂ」のｔｆ項の値が無視されずに済んでいる。優先度計算部１４０は、候補パイプラインそれぞれについて、その候補パイプラインで使用しているパッケージごとの特徴量と習熟度とに基づいて、候補パイプラインの編集のしやすさに基づく提示の優先度を計算する。

図１５は、優先度計算の一例を示す図である。例えばパイプライン生成要求を送信したのがユーザ「ｘ」であるものとする。この場合、優先度計算部１４０は、ユーザ「ｘ」の習熟度管理テーブル１２１を参照する。図１５の例では、ユーザ「ｘ」のパッケージ「Ａ」に対する習熟度は「２．０１」である。またユーザ「ｘ」のパッケージ「Ｂ」に対する習熟度は「１．００」である。そこで優先度計算部１４０は、優先度の計算において、パッケージ「Ａ」の重み「ｗｅｉｇｈｔ（Ａ）＝２．０１」とし、パッケージ「Ｂ」の重み「ｗｅｉｇｈｔ（Ｂ）＝１．００」とする。

この場合、「＃１」の候補パイプライン１３１の優先度は、「（０．９４×２．０１）＋（０．２０×１．００）＝２．０９」となる。「＃２」の候補パイプライン１３２の優先度は、「（０．７９×２．０１）＋（０．３３×１．００）＝１．９２」となる。「＃３」の候補パイプライン１３３の優先度は、「（０．１４×１．００）＝０．１４」となる。

このようにして計算された優先度が最も高い候補パイプライン１３１が、ユーザ「ｘ」が最も編集しやすい候補パイプラインである。図１５の例では、「＃１」の候補パイプライン１３１と「＃２」の候補パイプライン１３２とのいずれもパッケージ「Ａ」と「Ｂ」が使用されているが、「＃１」の候補パイプライン１３１の方がよりパッケージ「Ａ」を多く使用している。習熟度が高いパッケージが多く含まれる候補パイプライン１３１の方が、ユーザのもつ知識・興味に引っ掛かりやすいものと考えられる。すなわち、ユーザは、編集に着手しやすい。

もしパッケージ「Ｂ」の習熟度がパッケージ「Ａ」よりも非常に高い場合、パイプラインの特徴量の違いのために、「＃２」の候補パイプライン１３２が選ばれる可能性がある。その場合でも、ユーザは、パッケージ「Ｂ」を起点に候補パイプライン１３２の編集に容易に着手できる。

なお、ユーザに提示するパイプラインは、各候補パイプラインにおけるパッケージの特徴量と、ユーザの各パッケージについての習熟度とに基づいて、判定されている。ここでパッケージに対する習熟度に有意な差異がない場合、使用しているパッケージごとの特徴量が大きい候補パイプラインほど、優先度が高くなる。

図１６は、習熟度に大きな差がない場合の優先度計算の一例を示す図である。例えばパイプライン生成要求を送信したのがユーザ「ｙ」であるものとする。この場合、優先度計算部１４０は、ユーザ「ｙ」の習熟度管理テーブル１２２を参照する。そして図１６の例では、ユーザ「ｙ」のパッケージ「Ａ」、「Ｃ」、「Ｄ」、「Ｅ」、「Ｆ」、「Ｇ」、「Ｈ」それぞれに対する習熟度は、いずれも「１．０１」である。またユーザ「ｙ」のパッケージ「Ｂ」に対する習熟度は「１．００」である。そこで優先度計算部１４０は、優先度の計算において、パッケージ「Ａ」の重みを「ｗｅｉｇｈｔ（Ａ）＝１．０１」とする。パッケージ「Ｃ」、「Ｄ」、「Ｅ」、「Ｆ」、「Ｇ」、「Ｈ」の重みも、パッケージ「Ａ」と同じ値である。また優先度計算部１４０は、パッケージ「Ｂ」の重みを「ｗｅｉｇｈｔ（Ｂ）＝１．００」とする。

この場合、「＃１」の候補パイプライン１３１の優先度は、「（０．９４×１．０１）＋（０．２０×１．００）＝１．１５」となる。「＃２」の候補パイプライン１３２の優先度は、「（０．７９×１．０１）＋（０．３３×１．００）＝１．１３」となる。「＃３」の候補パイプライン１３３の優先度は、「（０．１４×１．０１）＋（０．２１×１．０１）＋（０．２１×１．０１）＋（０．２１×１．０１）＋（０．２１×１．０１）＋（０．２１×１．０１）＋（０．２１×１．０１）＝１．４１４」となる。

パッケージの習熟度に差がほとんどない場合、使用しているパッケージの特徴量の合計が大きい候補パイプラインの優先度が高くなり、その候補パイプラインがユーザに提示するパイプラインとして特定される。図１６の例では、「＃３」の候補パイプライン１３３の優先度が最大であり、候補パイプライン１３３がユーザ「ｙ」に提示される。

また複数の候補パイプライン１３１～１３３が使用しているパッケージごとの特徴量に大きな差異が無い場合、パッケージに対する習熟度が大きい候補パイプラインほど、優先度が高くなる。

図１７は、使用しているパイプラインの特徴量に大きな差がない場合の優先度計算の一例を示す図である。図１７の例では、「＃１」の候補パイプライン１３１ではパッケージ「Ａ」、「Ｄ」が使用されている。パッケージ「Ａ」の特徴量は「０．７４」であり、パッケージ「Ｄ」の特徴量は「０．５０」である。「＃２」の候補パイプライン１３２ではパッケージ「Ｂ」、「Ｄ」が使用されている。パッケージ「Ｂ」の特徴量は「０．７４」であり、パッケージ「Ｄ」の特徴量は「０．５０」である。「＃３」の候補パイプライン１３３ではパッケージ「Ｃ」、「Ｄ」が使用されている。パッケージ「Ｃ」の特徴量は「０．７４」であり、パッケージ「Ｄ」の特徴量は「０．５０」である。このように、候補パイプライン１３１～１３３それぞれにおいて、使用しているパッケージの特徴量に差がない。

また、この例ではパイプライン生成要求を送信したのがユーザ「ｚ」であるものとする。この場合、優先度計算部１４０は、ユーザ「ｚ」の習熟度管理テーブル１２３を参照する。そして図１７の例では、ユーザ「ｚ」のパッケージ「Ａ」に対する習熟度は「３．０１」である。ユーザ「ｚ」のパッケージ「Ｂ」に対する習熟度は「１．０１」である。ユーザ「ｚ」のパッケージ「Ｃ」に対する習熟度は「１．０１」である。ユーザ「ｚ」のパッケージ「Ｄ」に対する習熟度は「１．００」である。

優先度計算部１４０は、パッケージ「Ａ」の重みを「ｗｅｉｇｈｔ（Ａ）＝３．０１」とする。優先度計算部１４０は、パッケージ「Ｂ」の重みを「ｗｅｉｇｈｔ（Ｂ）＝１．０１」とする。優先度計算部１４０は、パッケージ「Ｃ」の重みを「ｗｅｉｇｈｔ（Ｃ）＝１．０１」とする。優先度計算部１４０は、パッケージ「Ｄ」の重みを「ｗｅｉｇｈｔ（Ｄ）＝１．００」とする。

この場合、「＃１」の候補パイプライン１３１の優先度は、「（０．７４×３．０１）＋（０．５０×１．０１）＝２．７３」となる。「＃２」の候補パイプライン１３２の優先度は、「（０．７４×１．０１）＋（０．５０×１．００）＝１．２５」となる。「＃３」の候補パイプライン１３３の優先度は、「（０．７４×１．０１）＋（０．５０×１．００）＝１．２５」となる。

このように各候補パイプラインが使用しているパッケージの特徴量に差がない場合には、習熟度が高いパッケージを使用している候補パイプライン１３１の優先度が最も高くなる。そして、その候補パイプライン１３１が、編集対象のパイプライン１６１としてユーザに提示される。

優先度が最も高い候補パイプラインが編集対象のパイプライン１６１としてユーザに提示された後、各候補パイプライン１３１～１３３の精度が評価され、最も精度が高い候補パイプラインについてもユーザに提示される。以下、図１８を参照して、ユーザに提示するパイプラインの選定処理について詳細に説明する。

図１８は、提示パイプライン選定処理の手順の一例を示すフローチャートである。以下、図１８に示す処理をステップ番号に沿って説明する。
［ステップＳ１６１］優先度計算部１４０は、候補パイプラインごとに使用パッケージ名を取得する。

［ステップＳ１６２］優先度計算部１４０は、候補パイプラインごとに、その候補パイプラインで使用しているパッケージの特徴量を取得する。例えば優先度計算部１４０は、ＴＦ－ＩＤＦにより、特徴量を計算する。

［ステップＳ１６３］優先度計算部１４０は、すべての候補パイプラインについて優先度が計算済みか否かを判断する。優先度計算部１４０は、優先度を計算していない候補パイプラインがある場合、処理をステップＳ１６４に進める。また優先度計算部１４０は、すべての候補パイプラインについて優先度の計算が完了していれば、処理をステップＳ１６６に進める。

［ステップＳ１６４］優先度計算部１４０は、優先度を計算していない候補パイプラインの１つを取得する。
［ステップＳ１６５］優先度計算部１４０は、取得した候補パイプラインの優先度を計算する。優先度は、例えば「パッケージの特徴量×習熟度の総和」である。優先度計算部１４０は、その後、処理をステップＳ１６３に進める。

［ステップＳ１６６］パイプライン提示部１６０は、最も優先度の高い候補パイプラインを、編集対象のパイプラインとしてユーザに提示する。
［ステップＳ１６７］評価部１５０は、すべての候補パイプラインを実行し、その候補パイプラインを用いて生成されたモデルの精度を求める。

［ステップＳ１６８］評価部１５０は、１つ以上の候補パイプラインについて精度が取得できたか否かを判断する。評価部１５０は、精度を取得できた候補パイプラインが存在する場合、処理をステップＳ１６９に進める。また評価部１５０は、すべての候補パイプラインについて精度が取得できなかった場合、提示パイプライン選定処理を終了する。

［ステップＳ１６９］評価部１５０は、精度が最高の候補パイプラインがユーザに提示済みか否かを判断する。評価部１５０は、提示済みであれば、提示パイプライン選定処理を終了する。また評価部１５０は、未提示であれば、処理をステップＳ１７０に進める。

［ステップＳ１７０］パイプライン提示部１６０は、精度が最高の候補パイプラインを、編集の参考に使用するパイプラインとしてユーザに提示する。
このようにして、ユーザの習熟度を用いて計算された優先度が最も高い候補パイプラインが先にユーザに提示される。その後、すべての候補パイプラインの実行によって最も精度が高い候補パイプラインが判明したら、その候補パイプラインもユーザに提示される。

以上に説明したように、第２の実施の形態に係る機械学習支援システム１００によれば、ユーザが編集しやすいパイプラインが、編集対象として提示される。そのためユーザは、効率よくパイプラインの編集が可能となる。しかも、すべての候補パイプラインの精度の計算完了を待たずに編集対象のパイプラインが提示されるため、編集作業の着手までの時間が短縮される。

またユーザのパッケージの習熟度の計算では、ユーザによる編集前後のパッケージの精度の差分が用いられている。これにより、ユーザの習熟度を正しく算出することができる。習熟度が正確であることにより、その習熟度を用いた優先度の計算の正確性が向上する。その結果、ユーザが編集しやすいパイプラインを正しく提示することができる。

〔その他の実施の形態〕
第２の実施の形態において、機械学習支援システム１００は、生成されたすべての候補パイプラインの優先度の計算の後に、候補パイプラインの精度を計算しているが、候補パイプラインの優先度の計算と候補パイプラインの精度の計算とを並列で実行してもよい。これにより、精度の高いパイプラインを提示するまでの時間を短縮することができる。

第２の実施の形態では、生成されたモデルの精度によって候補パイプラインを評価しているが、モデルの性能の評価指標は精度（正解率）以外にも、適合率、再現率などの指標がある。候補パイプラインの評価として、生成されたモデルについての精度以外の性能の指標を用いてもよく、複数の指標を組み合わせてもよい。

以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の２以上の構成（特徴）を組み合わせたものであってもよい。

１ａ，１ｂ，・・・プログラム部品集合
２習熟度情報
３ａ，３ｂ，３ｃ候補プログラム
４第１のプログラム
５第２のプログラム
８ユーザ
９端末
１０情報処理装置
１１記憶部
１２処理部

Claims

ユーザの指示に基づくプログラム生成要求に応じて、複数のプログラム部品集合のいずれかに含まれるプログラム部品を使用して生成された、機械学習モデルの生成に用いられる複数の候補プログラムそれぞれについて、前記複数のプログラム部品集合それぞれの使用に関するユーザの習熟度を示し、前記ユーザによる候補プログラムの編集処理における前記複数のプログラム部品集合の使用実績と前記編集処理による候補プログラムの性能の変化とに基づき決定される習熟度情報に基づいて、候補プログラムに使用している第１のプログラム部品を含む第１のプログラム部品集合に対する前記ユーザの第１の習熟度を特定し、
前記複数の候補プログラムそれぞれについて、特定した前記第１の習熟度に基づいて、前記ユーザに提示する優先度を決定する、
処理をコンピュータに実行させる機械学習支援プログラム。
前記複数の候補プログラムそれぞれの前記優先度に基づいて、前記複数の候補プログラムのうちの少なくとも１つを、前記プログラム生成要求に応じた生成結果である第１のプログラムとして出力する、
処理をさらにコンピュータに実行させる請求項１記載の機械学習支援プログラム。
前記ユーザにより前記第１のプログラムが編集され第２のプログラムが生成されると、前記第２のプログラムに追加された第２のプログラム部品を含む第２のプログラム部品集合を特定し、
特定した前記第２のプログラム部品集合に対する前記ユーザの第２の習熟度を更新する、
処理をさらにコンピュータに実行させる請求項２記載の機械学習支援プログラム。
前記ユーザの前記第２の習熟度を更新する処理では、前記第１のプログラムで生成した第１のモデルの性能の評価結果を示す第１の評価値と前記第２のプログラムで生成した第２のモデルの性能の評価結果を示す第２の評価値との差に基づいて、前記第２のプログラム部品集合に対する前記ユーザの前記第２の習熟度の増加量を算出し、前記習熟度情報における、前記第２のプログラム部品集合に対する前記ユーザの前記第２の習熟度に、算出した前記増加量を加算する、
請求項３記載の機械学習支援プログラム。
前記ユーザの前記第２の習熟度を更新する処理では、前記第２のプログラムに追加され、かつ前記第２のプログラム部品集合に含まれる前記第２のプログラム部品の個数と、前記第１の評価値と前記第２の評価値との差とに基づいて、前記第２のプログラム部品集合に対する前記ユーザの前記第２の習熟度の前記増加量を算出する、
請求項４記載の機械学習支援プログラム。
前記複数の候補プログラムそれぞれの前記優先度を決定する処理では、決定対象の第１の候補プログラムにおいて前記第１のプログラム部品集合がどの程度重要なのかを示す特徴量を計算し、前記第１の候補プログラムにおける前記第１のプログラム部品集合の特徴量と前記第１のプログラム部品集合に対する前記ユーザの前記第１の習熟度とに基づいて、前記第１の候補プログラムの第１の優先度を決定する、
請求項１記載の機械学習支援プログラム。
ユーザの指示に基づくプログラム生成要求に応じて、複数のプログラム部品集合のいずれかに含まれるプログラム部品を使用して生成された、機械学習モデルの生成に用いられる複数の候補プログラムそれぞれについて、前記複数のプログラム部品集合それぞれの使用に関するユーザの習熟度を示し、前記ユーザによる候補プログラムの編集処理における前記複数のプログラム部品集合の使用実績と前記編集処理による候補プログラムの性能の変化とに基づき決定される習熟度情報に基づいて、候補プログラムに使用している第１のプログラム部品を含む第１のプログラム部品集合に対する前記ユーザの第１の習熟度を特定し、
前記複数の候補プログラムそれぞれについて、特定した前記第１の習熟度に基づいて、前記ユーザに提示する優先度を決定する、
処理をコンピュータが実行する機械学習支援方法。
ユーザの指示に基づくプログラム生成要求に応じて、複数のプログラム部品集合のいずれかに含まれるプログラム部品を使用して生成された、機械学習モデルの生成に用いられる複数の候補プログラムそれぞれについて、前記複数のプログラム部品集合それぞれの使用に関するユーザの習熟度を示し、前記ユーザによる候補プログラムの編集処理における前記複数のプログラム部品集合の使用実績と前記編集処理による候補プログラムの性能の変化とに基づき決定される習熟度情報に基づいて、候補プログラムに使用している第１のプログラム部品を含む第１のプログラム部品集合に対する前記ユーザの第１の習熟度を特定し、前記複数の候補プログラムそれぞれについて、特定した前記第１の習熟度に基づいて、前記ユーザに提示する優先度を決定する処理部、
を有する情報処理装置。