JP2023147233A

JP2023147233A - 視覚化を有する機械学習パイプライン

Info

Publication number: JP2023147233A
Application number: JP2023043828A
Authority: JP
Inventors: リィウ・レイ; Lei Liu; チェン・ウェイ－ペン; Wei-Peng Chen
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-03-29
Filing date: 2023-03-20
Publication date: 2023-10-12
Also published as: US20230316123A1; EP4254218A1; CN116893808A

Abstract

【課題】視覚化を有する機械学習パイプラインを提供する。【解決手段】方法は、機械学習（ＭＬ）パイプライン内に複数の機能ブロックを含む、ＭＬパイプラインを取得するステップを含むことができる。この方法は、ＭＬパイプラインを視覚化予測器への入力として使用するステップであり、視覚化予測器は、１つ以上の視覚化コマンドを視覚化コマンドとパイプライン内の機能ブロックとの間の関係に基づいて出力するように訓練され得る、ステップを含むこともできる。この方法は、視覚化コマンドを呼び出して、１つ以上の視覚化コマンドにより生成された視覚化を有するＭＬパイプラインをインスタンス化するステップをさらに含むことができる。【選択図】図１

Description

本開示で論じられる実施形態は、視覚化を有する機械学習パイプラインに関する。

機械学習（ＭＬ）は一般に、継続的な訓練で自動的により正確になる予測を行うために訓練データで訓練されるＭＬモデルを用いる。ＭＬは、これらに限られないがトラフィック予測、ウェブ検索、オンライン詐欺検出、医療診断、発話認識、電子メールフィルタリング、画像認識、仮想パーソナルアシスタント、及び自動翻訳を含む様々な応用で使用されることがある。

本開示で請求される対象事項は、いずれかの欠点を解決し又は上記のような環境でのみ動作する実施形態に限定されない。むしろ、この背景技術は、本開示で説明されるいくつかの実施形態が実施され得る一例示的な技術分野を示すために単に提供されている。

本開示の１つ以上の実施形態は、機械学習（ＭＬ）パイプライン内に複数の機能ブロックを含む、ＭＬパイプラインを取得するステップを含む方法を含むことができる。この方法は、ＭＬパイプラインを視覚化予測器への入力として使用するステップであり、視覚化予測器は、１つ以上の視覚化コマンドを視覚化コマンドとパイプライン内の機能ブロックとの間の関係に基づいて出力するように訓練され得る、ステップを含むこともできる。この方法は、視覚化コマンドを呼び出して、１つ以上の視覚化コマンドにより生成された視覚化を有するＭＬパイプラインをインスタンス化するステップをさらに含むことができる。

実施形態の目的及び利点は、少なくとも特許請求の範囲で特に指し示される要素、特徴、及び組み合わせにより実現され、達成される。

前述の一般的な説明及び以下の詳細な説明の双方が例として与えられており、説明的であり、請求される発明を制限するものではない。

例示的な実施形態について、添付の図面の使用を通じてさらなる特定性及び詳細とともに記載し、説明する。
視覚化を含む機械学習パイプラインを生成する一例示的なシステムを表す図である。視覚化を含む機械学習パイプラインの生成に使用されるルールを準備する動作を実行する一例示的な環境を示す。訓練機械学習パイプラインからコーディング特徴及びデータ特徴を抽出する一例示的な方法のフローチャートである。視覚化を含む機械学習パイプラインを生成する一例示的な方法のフローチャートである。視覚化に関連するルールを導出する一例示的な方法のフローチャートである。視覚化を含む機械学習パイプラインを生成する別の例示的な方法のフローチャートである。一例示的なコンピューティングシステムのブロック図を示す。

本開示に記載されるいくつかの実施形態は、視覚化（visualizations）を含む機械学習（ＭＬ）パイプラインを生成する方法及びシステムに関する。

ＭＬがますます一般的になるにつれて、新しいＭＬプロジェクトを実装することに応じられるＭＬ専門家（例えば、熟練したデータサイエンティスト）の不足がしばしば生じる。ＭＬ専門家が不足した状態で新しいＭＬプロジェクトを実装するという、増大し続ける課題を解決するために、様々なＡｕｔｏＭＬソリューション（例えば、Ａｕｔｏ－Ｓｋｌｅａｒｎ、ＡｕｔｏＰａｎｄａｓなど）が提案されてきたが、現在のＡｕｔｏＭＬソリューションは、非専門家が新しいＭＬプロジェクトを完全に実装することを可能にするには不十分な、単純化された部分的なソリューションだけを提供する。さらに、既存のＭＬプロジェクトのオープンソースソフトウェア（ＯＳＳ）データベース（例えば、Ｋａｇｇｌｅ、ＧｉｔＨｕｂなど）も、非専門家により新しいＭＬプロジェクトを実装するという課題に対する別のソリューションとして提案されてきたが、非専門家がこれらのデータベースの中で潜在的に有用な既存のＭＬプロジェクトを見つけることは困難又は不可能である場合がある。さらに、非専門家がこれらのデータベースの中で潜在的に有用な既存のＭＬプロジェクトを見つけることに成功したとしても、非専門家が新しいＭＬプロジェクトの新しい要件に対して潜在的に有用な既存のＭＬプロジェクトを修正することは困難又は不可能である可能性がある。

本開示において、用語「ＭＬプロジェクト」は、データセットと、データセットに対して定義されたＭＬタスクと、ＭＬタスクのためにデータセット上でＭＬモデルを訓練し、新しい予測のためにＭＬモデルを使用する動作のシーケンスを実施するように構成されているＭＬパイプライン（例えば、一連の機能ブロックを有するスクリプト又はプログラムコード）とを含むプロジェクトを指す場合がある。

本開示において、「機能ブロック」への言及は、特定の機能ブロックが特定のタイプの機能性に対応し得る、ＭＬパイプラインにより実行され得る動作を指す場合がある。さらに、各機能ブロックは、対応する機能ブロックの機能の実行を引き起こすように構成された特定のコードスニペットを用いて、その対応するＭＬパイプライン内にインスタンス化され（instantiated）得る。多くの場合、異なるＭＬパイプラインにわたる同じ機能ブロックは、異なるＭＬパイプラインの各々において異なるインスタンス化を有することができる。

いくつかの実施形態において、例えば非専門家のデータサイエンティストから、新しいＭＬプロジェクトのための新しいデータセット及び新しいＭＬタスクを受け取ると、コンピュータシステムは、自動的に階層的アプローチを使用して、最初に、ＭＬモデルを使用して新しいＭＬプロジェクトのための機能ブロックレベルのパイプラインを合成することができる。このようなＭＬパイプライン生成の一例は、米国出願第17/183,724号（「MACHINE LEARNING PIPELINE SKELETON INSTANTIATION」）に記載されている場合があり、該出願はその全体を参照によりここに組み込まれている。さらに又は代わりに、コンピュータシステムは、別のメカニズムを介して（例えば、ユーザ入力から）ＭＬパイプラインを取得してもよい。ＭＬパイプラインは、どの機能ブロックが新しいＭＬプロジェクトに使用され得るかを示すことができる。

新しいＭＬパイプラインを取得した後、コンピューティングシステムは、新しいＭＬパイプラインを視覚化予測器（visualization predictor）への入力として利用することができる。視覚化予測器は、ＭＬパイプライン内の機能を説明するのに役立つ可能性がある１つ以上の視覚化コマンドを識別することができ、かつ／あるいはＭＬパイプライン内でどの機能が使用されるかの探索を容易にすることができる。次いで、ＭＬパイプラインは、視覚化を用いてインスタンス化することができる。

いくつかの実施形態において、新しいＭＬパイプラインから、コード特徴及び／又はデータセット特徴を抽出することができ、これらの特徴は、視覚化予測器により、視覚化コマンド及び／又はそれらの関連パラメータを識別するために、開発されたルールのセットと比較することができる。

ルールは、それらのそれぞれのＭＬパイプライン内に視覚化を含む既存のＭＬプロジェクトの訓練データセットを使用することにより開発することができる。訓練データセットのＭＬパイプラインを訓練するために使用される先行（precursor）データセットのメタ特徴と視覚化との間の関係を分析することにより、いくつかのルールが取得される場合ある。さらに又は代わりに、特定のコード特徴に関して視覚化が発生する順序を観測することにより、他のルールが取得される場合がある。

本開示の実施形態を、添付の図を参照して説明する。

図１は、本開示の１つ以上の実施形態による、視覚化を含む機械学習パイプラインを生成する例示的なシステム１００を表す図である。システム１００は、１つ以上の視覚化を用いて増強されるために取得されるＭＬパイプライン１０５を含むことができる。システム１００は、ランタイムコード特徴を抽出し、ＭＬパイプライン１０５を訓練するために使用されるランタイムデータセットのランタイムデータセット特徴を抽出するためのプログラミング又は他のコンポーネントを有する、視覚化予測器１１０を含むことができ、さらに、ルールマッピングのアルゴリズム１１６を含むことができる。システム１００は、視覚化コマンドの予測を容易にするために、ルールのリスト１２０を含むことができる。システム１００は、視覚化予測器１１０からの入力の後にインスタンス化された、視覚化を有するＭＬパイプライン１３０を含むことができる。

動作において、ＭＬパイプライン１０５を視覚化予測器１１０に提供することができる。視覚化予測器１１０は、コード特徴抽出コンポーネント１１２を介してランタイムコード特徴を抽出し、データセット特徴抽出コンポーネント１１４を介してランタイムデータセット特徴を抽出することができる。このような抽出の一例を、図３を参照してより詳細に説明することができる。コード及びデータセットの特徴をルール１２０と共に使用し、視覚化予測器１１０は、ルールマッピングのアルゴリズム１１６を適用することができる。このようなマッピングは、コード特徴及び／又はデータセット特徴に基づいて適用可能である１つ以上のルールを識別することができる。ルールは、ＭＬパイプライン１０５に付随することが有益な又は望ましい可能性がある、ＭＬパイプライン１０５に関連づけられた視覚化を生成するために、１つ以上の視覚化コマンド及び／又はそれらのパラメータの予測を容易にすることができる。視覚化コマンド及び／又はパラメータを取得した後、コマンドを呼び出して、ＭＬパイプライン１０５が視覚化を有するＭＬパイプライン１３０として生成され得るように視覚化を生成することができる。このような処理の一例を、図４を参照して説明することができる。

ＭＬパイプライン１０５は、所与のタスクを実行するために訓練データセット上で訓練される機能ブロック又はコマンドの任意のリスト又はセットを含むことができる。例えば、乗客がタイタニック号で生存したかどうかを予測するタイタニック号予測処理では、ＭＬパイプライン１０５は、ＭＬパイプライン１０５を訓練するためのデータセット（例えば、タイタニック号の実際の乗客、及び彼らに関するデータ）に対して前処理を実行する一連の機能ブロックと、人に関連するデータの所与の入力セットがタイタニック号で生存したか否かを予測するために実際の分析を実行するモデルを含むことができる。いくつかの実施形態において、ＭＬパイプライン１０５は、自動ＭＬプロジェクト生成ツールにより生成されてもよい。さらに又は代わりに、ＭＬパイプライン１０５は、データサイエンティスト又は他のユーザにより手動で作成されてもよい。

例として、ＭＬパイプライン１０５は、例えば、生の訓練データセットを再度コールするため（例えば、pandas.read_csv()）、欠損値を埋めるためのインピュータ（imputer）（例えば、sklearn.impute.SimpleImputer()、pandas.fillna()）、様々なデータ値をエンコードし、及び／又はデータの順序性を変更するためのエンコーダ動作（例えば、sklearn.preprocessing.OrdinalEncoder()、sklearn.preprocessing.OneHotEncoder()）、データを標準化するための標準化動作（例えば、sklearn.preprocessing.StandardScaler()、sklearn.preprocessing.MinMaxScaler()）、次元削減器動作（例えば、sklearn.decomposition.PCA()、sklearn.discriminant_analysis.LinearDiscriminantAnalysis()）、ＭＬパイプライン１０５の予測又は他のタスクを実際に実行するための推定器動作（例えば、sklearn.linear_model. LogisticRegression()、catboost.CatBoostClassifier()）、及び／又は他のＭＬ関連ＡＰＩ、中でもdrop()、train_test_split()、fit()などの、アプリケーションプログラミングインターフェース（ＡＰＩ）コールのシーケンスを含むことができる。

いくつかの実施形態において、ＭＬパイプライン１０５は、訓練データセットと、データセットに対して定義されたＭＬタスク（例えば、中でも、ＭＬタスクの分類問題又は回帰問題、予測のための訓練データセット内のターゲット列）と、ＭＬタスクのためにＭＬモデルを訓練し、新しい予測にＭＬモデルを使用する動作のシーケンスを実施するように構成されている機能ブロックのシーケンス（例えば、プログラムコードのスクリプト又は一連のスニペットとして）とを含む電子データを含むことができる。いくつかの実施形態において、ＭＬパイプライン１０５は計算ノートブックを含んでもよく、これは、特に開発フェーズの間、対応するＭＬパイプラインを開発及び／又は表現するために使用される計算構造であってよい。計算ノートブックの一例は、Ｊｕｐｙｔｅｒノートブックである。

視覚化予測器１１０は、ＭＬパイプライン１０５に有益であり得る視覚化コマンドを予測するように構成された任意のコンピュータプログラム、一連のコンピュータプログラム、プログラム的に実装された動作、又は任意の他のデバイス又はコンポーネントを含むことができる。例えば、生成された視覚化は、他の利益の中でも、特定の機能ブロックなぜ含まれたか、又は特定の機能ブロックをもたらしたデータセットの側面又は特徴への洞察を提供することができる。いくつかの実施形態において、視覚化コマンドは、入力データに基づいて視覚化を生成するためのＡＰＩコール又は他の類似のプログラムコマンドを含むことができる。いくつかの実施形態において、視覚化コマンドは、視覚化が基づくべきパラメータ（例えば、訓練データ内のどのデータフィールドが、視覚化コマンドを呼び出すことにより生成される視覚化に描写されるか）を含むことができる。別の言い方をすれば、視覚化予測器１１０は、どのようなタイプのプロットがプロットされるかだけでなく、どのようなデータをプロットするかも予測することができる。

ルールのリスト１２０は、１つ以上の条件を特定の視覚化又は視覚化のプロパティに関連させる条件ステートメントの任意のセットを含むことができる。ルールのリスト１２０は、条件関係の各々に対する信頼度値を含んでもよい。このようなルールを生成する一例を、図２及び／又は図５を参照して説明することができる。

予測を生成した後、視覚化コマンドをＭＬパイプライン内に埋め込んで、視覚化を有するＭＬパイプライン１３０をインスタンス化することができる。視覚化を有するＭＬパイプライン１３０は、ＪｕｐｙｔｅｒＮｏｔｅｂｏｏｋなどの更新されたＭＬパイプラインとして、コード内に埋め込まれた視覚化コマンドを含むＰｙｔｈｏｎプログラミングコードとして、又は視覚化コマンドが含まれた任意の他のコンピュータ読取可能な及び／又は人間が読めるプログラミングコードとして記憶されてもよい。

本明細書で用いられるとき、用語「ランタイム（run time）」は、ＭＬパイプラインが視覚化を用いて分析及び増強されている図１に示すようなコード特徴、データ特徴、訓練データセット、又はＭＬパイプラインの他の側面を指す場合がある。

本開示の範囲から逸脱することなく、図１に対して修正、追加、又は省略がなされ得る。例えば、システム１００は、本開示に例示及び記載されているものより多くの又は少ない要素を含んでもよい。

図２は、本開示の１つ以上の実施形態による、視覚化を含む機械学習パイプラインを生成する際に使用されるルールを準備する動作を実行するための例示的な環境２００を示す。

環境２００は、視覚化を有する既知のＭＬプロジェクトのＭＬパイプラインを含む訓練データセット２０５を含むことができる。訓練データセット２０５から、訓練データセット２０５からのそれぞれのＭＬパイプラインを訓練するために使用される先行（precursor）訓練データセット２１０を識別することができる。さらに、視覚化２２０と、視覚化２２０に近接したコードを識別することができる。先行訓練データセット２１０から、先行訓練データセット２１０から抽出されるデータ特徴２２５がある場合がある。視覚化２２０に近接したコード２１５から、コード特徴２３０が抽出される場合がある。コード特徴２３０及び／又はデータ特徴２２５を抽出する一例は、図３でより詳細に説明される。データ特徴２２５と視覚化２２０との間の相関関係２３５を記憶することができ、コード特徴２３０と視覚化２２０との間の相関関係２４０を記憶することができる。データ特徴２２５と視覚化２２０との間の相関関係２３５から、データ特徴ベースルール２４５のセットを導出することができる。コード特徴２３０と視覚化２２０との間の相関関係２４０から、コード特徴ベースルール２５０のセットを導出することができる。データ特徴ベースルール２４５とコード特徴ベースルール２５０の組み合わせは、「人間が解釈可能な」ルール２５５のリストとして記憶され、使用可能であってよい。このようなルールの生成の一例を、図５を参照してより詳細に説明することができる。ルール２５５は、例えば、図１のルールのリスト１２０として使用されてもよい。

ＭＬパイプラインの訓練データセット２０５は、前に生成されたＭＬパイプラインを含むことができる。いくつかの実施形態において、ＭＬパイプラインは、視覚化を含むものに制限されてもよい。いくつかの実施形態において、訓練データセット２０５のＭＬパイプラインは、既存のＭＬプロジェクトの大規模なリポジトリであり得る１つ以上のオープンソースソフトウェア（ＯＳＳ）ＭＬプロジェクトデータベースから取得されてもよい。既存のＭＬプロジェクト２０５の大規模なリポジトリのいくつかの例には、これらに限られないが、ＫａｇｇｌｅとＧｉｔＨｕｂが含まれる。これら及び他の実施形態において、ＭＬパイプラインは、閾値レベルを上回って格付けされているものでもよい（例えば、ユーザ格付けの閾値数、及び／又は閾値量を上回る平均スコア）。

先行訓練データセット２１０は、訓練データセット２０５のＭＬパイプラインが訓練されるデータセットを含むことができる。例えば、訓練データセット２０５内のＭＬパイプラインの各々は、それらが訓練される先行訓練データセット２１０を識別することができる。

視覚化２２０に近接したコード２１５は、訓練データセット２０５のＭＬパイプライン内の視覚化２２０を生成するためのコマンドに近いプログラミングコードを含むことができる。いくつかの実施形態において、コード２１５は、視覚化２２０を生成するためのコマンドの直前又は直後のプログラムノートブックのセルにある場合がある。さらに又は代わりに、コード２１５は、視覚化２２０を生成するためのコマンドの閾値距離内、例えば、プログラムコードの行の離散値（例えば、閾値数）、プログラムノートブック内のセルの閾値数、又は他の近接条件の範囲内にあってもよい。さらに又は代わりに、コード２１５は、視覚化２２０を生成するためのコマンドの任意の距離のセル内にあってもよい。このような状況において、コード２１５と、視覚化２２０を生成するコマンドは、２１５又は２２０の双方で使用される同じパラメータにより決定される特定の関係を有することができる。例えば、コード２１５により改訂されたパラメータが、視覚化２２０を生成するためのコマンドに対する入力として使用される場合があり、コード２１５が視覚化２２０を生成するためのコマンドから多くのコード行離れているとしても、視覚化２２０に「近接している」と見なされる場合がある。

視覚化２２０は、訓練データセット２０５のＭＬパイプラインの一部として生成される任意の視覚化を含むことができる。視覚化２２０は、視覚化コマンドと、視覚化コマンドのパラメータを含むことができ、これらは、どのようなプロットが使用されるかと、どのようなデータがプロットされるかを表すことができる。このような視覚化コマンドの例には、中でも、hist(x)、dist(x)、scatterplot(x,y)、histplot(x)、countplot(x)を含むことができ、ここで、ｘとｙは、どのようなデータがプロットされるかの例示的な変数である。

データ特徴２２５は、先行訓練データセット２１０のデータ特性を含むことができる。データ特徴２２５は、単一列特徴及び／又はペアワイズ（pairwise）列特徴（例えば、複数の列に基づく特徴）を含むことができる。このようなデータ特徴２２５の例を、以下の表１及び表２に含むことができ、表１は、例示的な単一列特徴を示し、表２は、ペアワイズ特徴を示す。本明細書で用いられるとき、用語「ターゲット」は、ＭＬパイプラインで定義されたＭＬモデルにより取得又は予測されることを求められている値又は予測を指す場合がある。例えば、タイタニック号の例を参照すると、「ターゲット（target）」は、所与の個人がタイタニック号で生存したか又はしなかったかを示す先行訓練データセット内のデータフィールドであってよい。

コード特徴２３０は、視覚化に関連するコードの側面を含むことができる。例えば、コード特徴２３０は、ＭＬパイプラインで使用される機能ブロックの説明を表すために、視覚化コマンドのすぐ前のＡＰＩコールを含んでもよい。例えば、視覚化は、すぐ前の機能ブロックがなぜＭＬパイプラインで使用されているのかの視覚的な説明を提供することができる。コード特徴２３０の別の例として、コード特徴２３０は、ＭＬパイプラインで使用される機能ブロックの探索を表すために、視覚化コマンドのすぐ後のＡＰＩコールを含んでもよい。例えば、先行データセット２１０の視覚化を観測した後、視覚化により観測されるものは、ＭＬパイプライン内の次の機能ブロックの選択をもたらす。例えば、欠損値を示すボックスプロットの視覚化結果を観測した後、視覚化により観測されるものは、欠損値を埋めることを容易にするfillna()などの、ＭＬパイプライン内の次の機能ブロックの選択をもたらす。

相関関係２３５は、データ特徴２２５と視覚化２２０との間の関係を表すことができ、相関関係２４０は、コード特徴２３０と視覚化２２０との間の関係を表すことができる。

データ特徴ベースルール２４５は、日付特徴２２５と視覚化２２０との間の関係を表すことができる。ルールは、前件（antecedent）（データ特徴）と後件（consequent）（視覚化）とを有する条件ステートメントを、前件が発生したときに後件も発生する確率を表す数値とともに含むことができる。さらに又は代わりに、ルールはリフト（lift）を考慮してもよく、これは、単に前件が存在するということでなく、前件が存在するという知識を用いて後件が発生する可能性（likelihood）を表すことができる。

コード特徴ベースルール２５０は、データ特徴２２５ではなくコード特徴２３０に基づくが、データ特徴ベースルール２４５と類似又は同等でもよい。

ルール２５５のリストは、人間が読める方法で記憶又は提示されるルールを含むことができる。例えば、ルールは、前件、後件、及び信頼度を用いて、ステートメント：［前件］が発生した場合、［後件］が発生する［信頼度］の可能性がある、として記述されてもよい。このようなステートメントにおいて、前件は、データ特徴、コード特徴、複数のデータ特徴の組み合わせ、又は複数のコード特徴の組み合わせでもよく、後件は、視覚化（例えば、プロットタイプ、及び／又はどのようなデータをプロットするか）を含んでもよく、信頼度は、前件が発生した場合に後件が発生する可能性を表してもよい。

図３～図６の各々について、関連する動作は、任意の適切なシステム又はデバイスにより実行することができる。例えば、図３～図６に示される動作の１つ以上の動作は、システム１００、視覚化予測器１１０、又は図１の他のコンポーネントにより実行され、あるいは実行に対して指示されてもよい。さらに又は代わりに、動作は、図７のコンピューティングシステム７００などのコンピューティングシステムにより実行されてもよい。

本開示の範囲から逸脱することなく、図３～図６に対して修正、追加、又は省略がなされ得る。例えば、図３～図６に示される動作は、本開示に例示及び記載されているものより多くの又は少ない動作を含んでもよい。さらに、図３～図６に示される動作の説明の順序は、動作が記載された順序で実行されなければならないことを意味するわけではない。さらに、いくつかの例において、同じ動作が、図３～図６に示される動作の異なる部分に関して記載される場合があるが、いくつかの例において、１回だけ実行され、図３～図６に示される動作の異なる部分に使用される場合がある。

図３は、本開示の１つ以上の実施形態による、訓練機械学習パイプラインからコーディング特徴及びデータ特徴を抽出する例示的な方法３００のフローチャートである。

ブロック３０５において、訓練ＭＬパイプラインが訓練データセットの一部として選択され得る。例えば、高く格付けされ、視覚化を含むＫａｇｇｌｅ又はＧｉｔＨｕｂからのＭＬパイプラインのセットを選択することができる。

ブロック３１０において、ブロック３０５のＭＬパイプラインのコード内のＡＰＩコールを識別するために、抽象構文木（ＡＳＴ）処理が使用され得る。例えば、ＭＬパイプラインのコードは、ＭＬパイプライン内のＡＰＩコールとして機能ブロックを識別するために、ＡＳＴを使用してパースされ（parsed）てもよい。

ブロック３１５において、パイプラインコード内で識別されたプロットＡＰＩコールに対して、必須引数が識別され得る。例えば、ＡＰＩプロットコールがplt.hist(y_classes)である場合、コードy_classesを必須引数として識別することができる。

ブロック３２０において、必須引数がコード内にどのように定義されているかを確認するために、ＡＳＴトレースバックが使用され得る。例えば、コードは、必須引数がどこに定義されているかを識別するために、プロットＡＰＩから逆方向にパースされてもよい。上記の例を続けると、コードをプロットＡＰＩから逆方向にパースして、コード内でplt.hist(y_classes)より前のy_classesの使用を識別することができる（例えば、行 y_classes = kmeans.predict(X) が、パイプラインコードにおいてプロットコマンドの直前に位置する可能性がある）。

ブロック３２５において、ブロック３１５の必須引数がプロットＡＰＩコールの前にＭＬパイプライン内のＭＬＡＰＩにより処理されるかどうかの判断が行われ得る。それがＭＬＡＰＩにより処理される場合、方法３００はブロック３３０に進むことができる。それがＭＬＡＰＩにより処理されない場合、方法３００はブロック３３５に進むことができる。上述した所与の例では、「Predict()」であるＭＬＡＰＩが識別され得る。

ブロック３３０において、プロットＡＰＩの前の所与のＭＬＡＰＩが、ルールを生成するために追加され得る。例えば、プロットＡＰＩを後件として、ＭＬＡＰＩが前件で、ステートメントを生成することができる。いくつかの実施形態において、複数の引数がプロットＡＰＩにより使用される場合、プロットＡＰＩにより処理される全ての引数が、ルールを生成するために含まれてもよい。これら及び他の実施形態において、プロットＡＰＩコールの前に発生する所与のＭＬＡＰＩは、ＭＬパイプラインの説明に使用される視覚化に関連するコード特徴として追加されてもよい。

ブロック３３５において、パイプラインコードが逆にされ（reversed）得る。

ブロック３４０において、必須引数が逆のコード内でどのように定義されているかを確認するために、ＡＳＴトレースバックが使用され得る。例えば、コードを逆にし、次いでＡＳＴトレースバックを実行することにより、プロットＡＰＩコールで使用される引数を、プロットＡＰＩコールの後、識別することができる。

ブロック３４５において、引数がＭＬＡＰＩにより処理されるかどうかの判断が行われ得、これは、ブロック３２５と類似又は同等でもよい。それがＭＬＡＰＩにより処理される場合、方法３００はブロック３５０に進むことができる。ＭＬＡＰＩがＭＬＡＰＩにより処理されない場合、方法３００はブロック３５５に進むことができる。

ブロック３５０において、プロットＡＰＩコールの後の所与のＭＬＡＰＩが、ルールを生成するために追加され得る。例えば、プロットＡＰＩコールの後に発生する所与のＭＬＡＰＩは、ＭＬパイプラインの探索に使用される視覚化に関連するコード特徴として追加されてもよい。

ブロック３５５において、引数が先行訓練データセット内の列であるかどうかをチェックするために判断が行われ得る。引数がそのような列である場合、方法３００はブロック３６０に進むことができる。引数がそのような列でない場合、方法３００はブロック３６５に進むことができる。

ブロック３６０において、ルールを生成するためにデータ特徴が追加され得る。例えば、列のデータ特徴は、データ特徴及び視覚化に関連するルールの生成を容易にするために、視覚化に関連して追加されてもよい。

ブロック３６５において、プロットＡＰＩからの引数及び／又はプロットＡＰＩ自体が破棄され得る。別の言い方をすれば、プロットＡＰＩは、新しいＭＬパイプラインに対する視覚化の予測を容易にするために、ルールを生成する際に使用されない場合がある。

図４は、本開示の１つ以上の実施形態による、視覚化を含む機械学習パイプラインを生成する例示的な方法４００のフローチャートである。

ブロック４０５において、新しいＭＬパイプラインが取得され得る。例えば、新しいＭＬパイプラインは、図１のＭＬパイプライン１０５でもよい。

ブロック４１０において、新しいＭＬパイプラインのコード及び／又はデータセット特徴が抽出され得る。例えば、コード及び／又はデータセット特徴の抽出は、図３の方法３００と類似又は同等でもよい。図３は、訓練ＭＬパイプライン及び／又は先行データセットを参照して説明されているが、新しいＭＬパイプラインのコード特徴及び／又はデータセット特徴を識別するために、同じ又は類似のプロセスが行われてもよい。

ブロック４１５において、全てのコード及び／又はデータセット特徴が所与のルールにマッピングされ得る。例えば、コード及び／又はデータセット特徴を所与のルールと比較することができる。いくつかの実施形態において、所与のルールは、ルールのリスト（例えば、図１のルールのリスト１２０など）内の第１のルールとして選択されてもよい。いくつかの実施形態において、ルールは、信頼度及び／又はリフトの順に列挙されてもよい。別の例として、より低い信頼度を有する１つ以上のルールが、より低い信頼度を有するルールが考慮され及び／又は含まれ得るように、リスト内でより前に含まれてもよい。例えば、所与のＭＬＡＰＩは、信頼度が低いとしても、リスト内でより高位に含まれる、それに関連づけられた全てのルールを有することができる。

ブロック４２０において、コード及び／又はデータセットの特徴が所与のルールの前件とマッチするかどうかの判断が行われ得る。特徴が所与のルールの前件とマッチする場合、方法４００はブロック４２５に進むことができる。特徴が所与のルールの前件とマッチしない場合、方法４００はブロック４３０に進むことができる。

ブロック４２５において、所与のルールに関連づけられた視覚化が生成され得る。例えば、視覚化は、視覚化コマンド（例えば、どのような種類のプロットが生成されるべきか）としてのＡＰＩ視覚化コールに基づいて生成されてもよく、ＡＰＩ視覚化コマンドのパラメータは、所与のルールに基づくことができる。いくつかの実施形態において、ブロック４２５は、新しいＭＬパイプライン内に視覚化及び／又はパラメータを含む視覚化コマンドを埋め込むことを含んでもよい。これら及び他の実施形態において、視覚化コマンドは、所与のルールに基づいて、関連する機能ブロック（例えば、ＭＬＡＰＩコマンド）の直前又は直後に挿入されてもよい。

ブロック４３０において、方法４００は、視覚化を考慮するために次のルールに進むことができる。例えば、方法４００は、ルールのリスト内の次のルールに移ってもよい。ブロック４３０の後、方法４００はブロック４１５に戻り、ブロック４３０で進んだ次のルールに特徴をマッピングすることができる。

ブロック４３５において、ブロック４２５で視覚化を生成した後、視覚化がすでに生成されているかどうかの判断が行われ得る。それがすでに生成されている場合、方法４００はブロック４３０に進み、次のルールに移ることができる。それがまだ生成されていない場合、方法４００はブロック４４０に進むことができる。

ブロック４４０において、視覚化制約が満足されているかどうかの判断が行われ得る。このような視覚化制約には、所与のＭＬパイプラインに含める視覚化の閾値数を含むことができる（例えば、視覚化の数を３に制限するなど）。別の例として、このような視覚化制約は、視覚化のタイプ又はスタイルの数に対する制限、特定のデータフィールド又はデータ型の視覚化の数に対する制限、又は他の類似の又は関連する制約を含んでもよい。視覚化制約が満たされている場合、方法４００は、ブロック４５０に進んで終了することができる。

ブロック４４５において、分析されていない残りのルールがあるかどうかの判断が行われ得る。残っているルールがある場合、方法４００はブロック４３０に進むことができる。残っているルールがない場合、方法４００はブロック４５０に進むことができる。

ブロック４５０において、方法４００は終了することができる。

図５は、本開示の１つ以上の実施形態による、視覚化に関連するルールを導出する例示的な方法５００のフローチャートである。

ブロック５１０において、訓練データセットが取得され得る。例えば、訓練データセットは、高く格付けされ、かつ／あるいは視覚化を含む、取得されるＭＬパイプラインのセットを含んでもよい。このようなＭＬパイプラインは、Ｋａｇｇｌｅ、ＧｉｔＨｕｂ、又は他のプロジェクトリポジトリから取得されてもよい。

ブロック５２０において、訓練データセットの各ＭＬパイプラインが、それぞれの先行訓練データセットにマッピングされ得る。所与の先行データセットは、訓練データセットのそれぞれのＭＬパイプラインが訓練される情報のデータセットでもよい。例えば、ＭＬパイプラインのプロジェクトページ上、及び／又はコード内で、先行訓練データセットが識別されてもよい。

ブロック５３０において、プロットＡＰＩ（例えば、視覚化コマンド）と、先行訓練データセット内のそれがプロットする列とのペアが取り出され得る。例えば、視覚化コマンドとそのパラメータは、視覚化されるデータ列が取り出され得るように、分析されてもよい。

ブロック５４０において、各データ列のデータ特徴が計算され得る。例えば、データ特徴は、表１及び表２で前述したものなどの、列内のデータの側面及び／又はデータの他の側面に対応することができる。

ブロック５５０において、データ特徴データセットが構築され得る。例えば、データ特徴データセットは、所与のプロットＡＰＩ又は他の視覚化コマンド、視覚化される列、及び／又は視覚化された列に関連するデータ特徴を含んでもよい。

ブロック５６０において、連続的な数値特徴について、特徴が離散化され得る。例えば、列内のいくつかの値は、広範囲に変動し、連続的な数値を含む場合がある。表１及び表２に示すように、連続的な数値であり得る、データ特徴データセット内の多くの特徴が存在する。そのような値について、１つ以上のアプローチを使用して、連続的な数値のセットでなく、データの全てが入る、値の離散的なバケット又はグループが指定され得るように、データを離散化することができる。例えば、連続値は、設定された数のバケットが生成され、各バケットが同等の数値範囲をカバーする等幅方法で離散化されてもよい。別の例として、設定された数のバケットが生成され、各バケットが同等の数の観測値を含むような範囲をカバーする等頻度アプローチが行われてもよい。別の例として、数値特徴を異なるクラスタにグループ化するために、Ｋ平均（K-means）アプローチ（又は、他の教師なし機械学習クラスタリングアルゴリズム）が行われてもよい。例えば、設定された数の平均が決定され、設定された数の平均の周囲のバケットが利用され得る場合、又は、平均からの設定された数の標準偏差が１つのバケットとして使用され、その範囲の外部が２つの他のバケット（中央範囲を上回る及び下回る）として使用される場合である。

データを離散化することにより、ルールは、新しいデータセットにより容易に適用可能な場合がある。例えば、ルールは、次いで、連続値からのルールを生成及び／又は適用するよう試みるのでなく、所与の値範囲に適用可能とすることができる。

ブロック５７０において、データ特徴データセットがアソシエーションルールマイニング（association rule mining、ＡＲＭ）互換フォーマットに変換され得る。例えば、このようなアソシエーションルールには、前件と、前件の存在に基づく後件の可能性（likelihood）を含むことができる。いくつかの実施形態において、このようなルールは、データ特徴データセットに基づくことができるＡＲＭ訓練データセットに含まれてもよい。

ブロック５８０において、変換されたデータ特徴データセットが、データ特徴とプロットとの間のルールを見つけ出すためにＡＲＭ処理に適合され（fit）得る。例えば、ＡＲＭ処理は、様々なデータ特徴データセット及び／又は視覚化を分析して、様々なデータ特徴と視覚化の包含との間の関係を明瞭に表現するルールを生成することができる。別の言い方をすれば、ブロック５８０は、関係がルールとして明瞭に表現され得るように、所与の視覚化に関連してどのデータ特徴が繰り返し発生したかを分析することができる（例えば、データセットの列が、ＭＬパイプラインが解決するように設計されたターゲットを含んだとき、その列（ターゲット）は、ほぼ常に値のヒストグラムでプロットされた）。

いくつかの実施形態において、ブロック５６０、５７０、及び／又は５８０は、データ特徴から生成されるべきルールを決定するためのＡＲＭ処理を実行するために、一緒に動作してもよい。

図６は、本開示の１つ以上の実施形態による、視覚化を含む機械学習パイプラインを生成する別の例示的な方法６００のフローチャートである。

ブロック６１０において、ＭＬパイプラインが取得され得る。例えば、ＭＬパイプラインは、ＭＬタスクを実行するための一連の機能ブロックを生成する自動ＭＬパイプライン生成ツールにより生成された新しいＭＬパイプラインでもよい。別の例として、ブロック６１０で取得されるＭＬパイプラインは、データサイエンティスト又は他のユーザにより手動で設計及び／又は生成されたＭＬパイプラインを含んでもよく、彼らは、ＭＬパイプラインを強化又は改善するために視覚化を追加しようとする場合がある。

ブロック６２０において、ＭＬパイプラインが、視覚化コマンドを出力するように構成されている視覚化予測器への入力として使用され得る。例えば、ＭＬパイプラインは、視覚化予測器により分析されてもよく、視覚化予測器は、一連の視覚化コマンド（例えば、特定の視覚化を呼び出すためのＡＰＩコール、及び／又はＡＰＩコールが作動するためのパラメータ）を出力することができる。いくつかの実施形態において、ブロック６２０は、視覚化コマンドが位置すべきＭＬパイプライン内の位置を識別することを含んでもよい（例えば、視覚化コマンドが関連づけられ得るコード特徴の直前又は直後）。

ブロック６３０において、ＭＬパイプラインが、ＭＬパイプライン内に埋め込まれた視覚化コマンドを用いてインスタンス化され得る。例えば、追加的なプロットＡＰＩコール（例えば、視覚化コマンド）を有するＭＬパイプライン全体が、更新されたＭＬパイプラインに含まれるように、関連づけられたパラメータを有する視覚化コマンドが、ブロック６２０で識別された位置に埋め込まれてもよい。いくつかの実施形態において、更新されたＭＬパイプラインは、ＪｕｐｙｔｅｒＮｏｔｅｂｏｏｋ又はその他のプログラムノートブック、コード内に埋め込まれた視覚化コマンドを含むＰｙｔｈｏｎプログラミングコードとして、又は視覚化コマンドが含まれた任意の他のコンピュータ読取可能な及び／又は人間が読めるプログラミングコードとして記憶されてもよい。

図７は、本開示の少なくとも１つの実施形態による、例示的なコンピューティングシステム７００のブロック図を示す。コンピューティングシステム７００は、視覚化予測器（例えば、図１のシステム１００及び／又は視覚化予測器）に関連づけられた１つ以上の動作を実施又は指示するように構成することができる。コンピューティングシステム７００は、プロセッサ７１０、メモリ７２０、及びデータストレージ７３０を含むことができる。プロセッサ７１０、メモリ７２０、及びデータストレージ７３０は、通信上結合することができる。

一般に、プロセッサ７１０は、様々なコンピュータハードウェア又はソフトウェアモジュールを含む任意の適切な専用又は汎用のコンピュータ、コンピューティングエンティティ、又は処理デバイスを含むことができ、任意の適用可能なコンピュータ読取可能記憶媒体に記憶された命令を実行するように構成することができる。例えば、プロセッサ７１０は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は、プログラム命令を解釈及び／又は実行し、及び／又はデータを処理するように構成された任意の他のデジタル又はアナログ回路を含んでもよい。図７では単一のプロセッサとして示されているが、プロセッサ７１０は、本開示に記載される任意の数の動作を個々に又は集合的に実行し又は該動作の実行を指示するように構成された任意の数のプロセッサを含んでもよい。さらに、プロセッサの１つ以上が、異なるサーバなどの１つ以上の異なる電子デバイス上に存在してもよい。

いくつかの実施形態において、プロセッサ７１０は、メモリ７２０、データストレージ７３０、又はメモリ７２０及びデータストレージ７３０に記憶されたプログラム命令を解釈及び／又は実行し、及び／又はデータを処理するように構成することができる。いくつかの実施形態において、プロセッサ７１０は、データストレージ７３０からプログラム命令をフェッチし、プログラム命令をメモリ７２０にロードすることができる。プログラム命令がメモリ７２０にロードされた後、プロセッサ７１０は、プログラム命令を実行することができる。例えば、プロセッサ７１０は、コンピューティングシステム７００に、視覚化予測器により使用されるルールを生成することに関連づけられた動作の１つ以上を実行させることができる。別の例として、プロセッサ７１０は、コンピューティングシステム７００に、視覚化を有するＭＬパイプラインを生成することに関連づけられた動作の１つ以上を実行させることができる。

メモリ７２０及びデータストレージ７３０は、記憶されたコンピュータ実行可能命令又はデータ構造を運び又は有するコンピュータ読取可能記憶媒体を含むことができる。このようなコンピュータ読取可能記憶媒体は、プロセッサ７１０などの汎用又は専用コンピュータによりアクセスできる任意の利用可能な媒体を含んでもよい。限定でなく例として、そのようなコンピュータ読取可能記憶媒体は、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、電気的消去可能プログラマブル読取専用メモリ（ＥＥＰＲＯＭ）、コンパクトディスク読取専用メモリ（ＣＤ－ＲＯＭ）又は他の光ディスク記憶装置、磁気ディスク記憶装置又は他の磁気記憶デバイス、フラッシュメモリデバイス（例えば、ソリッドステートメモリデバイス）、又は、コンピュータ実行可能命令又はデータ構造の形で特定のプログラムコードを運び又は記憶するために使用でき、かつ汎用又は専用コンピュータによりアクセスできる任意の他の記憶媒体を含む、有形の又は非一時的なコンピュータ読取可能記憶媒体を含んでもよい。上記の組み合わせもまた、コンピュータ読取可能記憶媒体の範囲に含まれてもよい。コンピュータ実行可能命令は、例えば、プロセッサ７１０に特定の動作又は動作のグループを実行させるように構成された命令及びデータを含んでもよい。

本開示の範囲から逸脱することなく、コンピューティングシステム７００に対して修正、追加、又は省略がなされ得る。例えば、いくつかの実施形態において、コンピューティングシステム７００は、明示的に例示又は記載されていない可能性のある任意の数の他のコンポーネントを含んでもよい。

上述したように、本開示に記載された実施形態は、以下でより詳細に論じられるように、様々なコンピュータハードウェア又はソフトウェアモジュールを含む専用又は汎用コンピュータの使用を含むことができる。さらに、上述したように、本開示に記載された実施形態は、記憶されたコンピュータ実行可能命令又はデータ構造を運び又は有するコンピュータ読取可能媒体を使用して実施されてもよい。

本開示で用いられるとき、用語「モジュール」又は「コンポーネント」は、モジュール又はコンポーネントのアクションを実行するように構成された特定のハードウェア実装、及び／又は、コンピューティングシステムの汎用ハードウェア（例えば、コンピュータ読取可能媒体、処理デバイス等）に記憶され、及び／又は該汎用ハードウェアにより実行され得るソフトウェアオブジェクト又はソフトウェアルーチンを指す場合がある。いくつかの実施形態において、本開示に記載される異なるコンポーネント、モジュール、エンジン、及びサービスは、コンピューティングシステム上で実行するオブジェクト又はプロセスとして（例えば、別個のスレッドとして）実施されてもよい。本開示に記載されるシステム及び方法のいくつかは、（汎用ハードウェアに記憶され、及び／又は汎用ハードウェアにより実行される）ソフトウェアで実施されるものとして一般に記載されているが、特定のハードウェア実装、又はソフトウェアと特定のハードウェア実装との組み合わせもまた可能であり、考えられる。本説明において、「コンピューティングエンティティ」は、本開示において前に定義された任意のコンピューティングシステム、又はコンピューティングシステム上で動作する任意のモジュール又はモジュレートの組み合わせでもよい。

本開示で、特に添付の特許請求の範囲（例えば、添付の請求項の本文）で用いられる用語は、一般に「開放的な」語を意図している（例えば、用語「含んでいる」は、「含んでいるがこれに限定されない」と解釈されるべきであり、用語「有する」は、「少なくとも有する」と解釈されるべきであり、用語「含む」は、「含むがこれに限定されない」と解釈されるべきである等）。

さらに、特定の数の導入された請求項の記載が意図されている場合、そのような意図は請求項において明示的に記載され、そのような記載がない場合、そのような意図は存在しない。例えば、理解の助けとして、以下の添付された請求項は、請求項の記載を導入するための導入句「少なくとも１つの」及び「１つ以上の」の使用を含むことがある。しかしながら、そのような句の使用は、同じ請求項が導入句「１つ以上の」又は「少なくとも１つの」と「ａ」又は「ａｎ」などの不定冠詞とを含むときでも、不定冠詞「ａ」又は「ａｎ」による請求項の記載の導入がそのような導入の請求項記載を含む特定の請求項を１つのそのような記載のみを含む実施形態に限定することを示すものと解釈されるべきではない（例えば、「ａ」及び／又は「ａｎ」は、「少なくとも１つの」又は「１つ以上の」を意味すると解釈されるべきである）。請求項の記載を導入するために使用される定冠詞の使用についても同様である。

さらに、特定の数の導入の請求項記載が明示的に記載されている場合でも、当業者は、そのような記載が少なくとも記載された数を意味すると解釈されるべきであることを認識するであろう（例えば、他の修飾語のない「２つの記載」というただそれだけの記載は、少なくとも２つの記載、又は２つ以上の記載を意味する）。さらに、「Ａ、Ｂ、及びＣ等のうちの少なくとも１つ」又は「Ａ、Ｂ、及びＣ等のうちの１つ以上」に類似した規定が用いられる例においては、一般に、そのような構成は、Ａ単独で、Ｂ単独で、Ｃ単独で、ＡとＢを一緒に、ＡとＣを一緒に、ＢとＣを一緒に、又はＡとＢとＣを一緒に、などを含むことを意図している。句「Ａ又はＢ」のこの解釈は、用語「Ａ及び／又はＢ」が「Ａ」又は「Ｂ」又は「ＡとＢ」の可能性を含むように時々使用され得るしても、依然として適用可能である。

さらに、２つ以上の代替的な用語を提示する選言的な単語又は句は、本説明か、特許請求の範囲か、又は図面かに関わらず、用語の１つ、用語のいずれか、又は双方の用語を含む可能性を考慮するものと理解されるべきである。例えば、句「Ａ又はＢ」は、「Ａ」又は「Ｂ」又は「ＡとＢ」の可能性を含むものと理解されるべきである。

本開示に記載されている全ての例及び条件付き言語は、本開示及び発明者が当該分野を促進するために貢献した概念を理解する際に読者を助けるための教育的目的を意図しており、このような具体的に記載されている例及び条件に限定されないものとして解釈されるべきである。本開示の実施形態が詳細に説明されたが、本開示の主旨及び範囲から逸脱することなく様々な変更、置換、及び改変をこれらに行うことができる。

上記の実施形態につき以下の付記を残しておく。
（付記１）
機械学習（ＭＬ）パイプライン内に複数の機能ブロックを含む前記ＭＬパイプラインを取得するステップと、
前記ＭＬパイプラインを視覚化予測器への入力として使用するステップであり、前記視覚化予測器は、１つ以上の視覚化コマンドを前記視覚化コマンドと前記パイプライン内の前記機能ブロックとの間の関係に基づいて出力するように訓練される、ステップと、
前記ＭＬパイプライン内に埋め込まれた前記１つ以上の視覚化コマンドを用いて前記ＭＬパイプラインをインスタンス化するステップと、
を含む方法。
（付記２）
前記視覚化予測器を生成するステップ、をさらに含み、該生成するステップは、
訓練データセットとして複数の訓練ＭＬパイプラインを取得することであり、前記訓練ＭＬパイプラインの各々は、少なくとも１つの視覚化を含む、ことと、
前記訓練ＭＬパイプラインを訓練するために使用される先行訓練データセットのデータ特徴と前記視覚化との間の第１の相関関係を決定することと、
前記訓練ＭＬパイプラインのコード特徴と前記視覚化との間の第２の相関関係を決定することと、
前記第１及び第２の相関関係に基づいて複数のルールを導出することであり、前記ルールは、前記視覚化コマンドを予測するための基礎を提供する、ことと、
を含む、付記１に記載の方法。
（付記３）
前記複数のルールを導出することは、前記ルールの各々が、前記データ特徴又は前記コード特徴の１つ以上と所与の視覚化との間の関係と、前記関係の信頼度値とを記述するステートメントを含むように、前記第１及び第２の相関関係にアソシエーションルールマイニングを適用することを含む、付記２に記載の方法。
（付記４）
前記関係は所与のコード特徴を含み、当該方法は、
前記所与のコード特徴が前記訓練ＭＬパイプライン内で前記視覚化の前に発生するか、又は前記ＭＬパイプライン内で前記視覚化の後に発生するかを判断するステップと、
関連づけられたルールを、前記所与のコード特徴が前記視覚化の後に発生する場合に説明的として、前記所与のコード特徴が前記視覚化の前に発生する場合に探索的として分類するステップと、
をさらに含む、付記３に記載の方法。
（付記５）
前記所与のコード特徴は、前記視覚化を生成するためのコマンドとの関係を有する、付記４に記載の方法。
（付記６）
ＡＲＭ訓練データセットの数値特徴を、限られた数のバケットの１つに離散化するステップ、をさらに含む、付記３に記載の方法。
（付記７）
前記信頼度値が閾値を下回る、閾値数のルールを選択するステップ、をさらに含む、付記３に記載の方法。
（付記８）
前記先行訓練データセットの前記データ特徴は、前記先行訓練データセットの１つの列に対する前記先行訓練データセットの１つ以上のメタ特徴、又は前記先行訓練データセットの複数の列に対する前記先行訓練データセットの１つ以上のメタ特徴を含む、付記２に記載の方法。
（付記９）
前記ＭＬパイプラインを前記視覚化予測器への入力として使用するステップは、
前記ＭＬパイプライン内のランタイムコード特徴と、前記ＭＬパイプラインに関連づけられたランタイム訓練データセット内のランタイムデータ特徴を抽出することと、
前記ランタイムコード特徴及び前記ランタイムデータセット特徴を、前記関係に基づいてルールにマッピングすることと、
を含む、付記１に記載の方法。
（付記１０）
視覚化コマンドの数量は視覚化制約により制限される、付記１に記載の方法。
（付記１１）
１つ以上のプロセッサにより実行されたときにシステムに動作を実行させる命令を含む１つ以上の非一時的コンピュータ読取可能媒体であって、前記動作は、
機械学習（ＭＬ）パイプライン内に複数の機能ブロックを含む前記ＭＬパイプラインを取得することと、
前記ＭＬパイプラインを視覚化予測器への入力として使用することであり、前記視覚化予測器は、１つ以上の視覚化コマンドを前記視覚化コマンドと前記パイプライン内の前記機能ブロックとの間の関係に基づいて出力するように訓練される、ことと、
前記ＭＬパイプライン内に埋め込まれた前記１つ以上の視覚化コマンドを用いて前記ＭＬパイプラインをインスタンス化することと、
を含む、非一時的コンピュータ読取可能媒体。
（付記１２）
前記動作は、前記視覚化予測器を生成することをさらに含み、該生成することは、
訓練データセットとして複数の訓練ＭＬパイプラインを取得することであり、前記訓練ＭＬパイプラインの各々は、少なくとも１つの視覚化を含む、ことと、
前記訓練ＭＬパイプラインを訓練するために使用される先行訓練データセットのデータ特徴と前記視覚化との間の第１の相関関係を決定することと、
前記訓練ＭＬパイプラインのコード特徴と前記視覚化との間の第２の相関関係を決定することと、
前記第１及び第２の相関関係に基づいて複数のルールを導出することであり、前記ルールは、前記視覚化コマンドを予測するための基礎を提供する、ことと、
を含む、付記１１に記載の非一時的コンピュータ読取可能媒体。
（付記１３）
前記複数のルールを導出することは、前記ルールの各々が、前記データ特徴又は前記コード特徴の１つ以上と所与の視覚化との間の関係と、前記関係の信頼度値とを記述するステートメントを含むように、前記第１及び第２の相関関係にアソシエーションルールマイニングを適用することを含む、付記１２に記載の非一時的コンピュータ読取可能媒体。
（付記１４）
前記関係は所与のコード特徴を含み、当該方法は、
前記所与のコード特徴が前記訓練ＭＬパイプライン内で前記視覚化の前に発生するか、又は前記ＭＬパイプライン内で前記視覚化の後に発生するかを判断することと、
関連づけられたルールを、前記所与のコード特徴が前記視覚化の後に発生する場合に説明的として、前記所与のコード特徴が前記視覚化の前に発生する場合に探索的として分類することと、
をさらに含む、付記１３に記載の非一時的コンピュータ読取可能媒体。
（付記１５）
前記所与のコード特徴は、前記視覚化を生成するためのコマンドとの関係を有する、付記１４に記載の非一時的コンピュータ読取可能媒体。
（付記１６）
前記動作は、ＡＲＭ訓練データセットの数値特徴を、限られた数のバケットの１つに離散化することをさらに含む、付記１３に記載の非一時的コンピュータ読取可能媒体。
（付記１７）
前記動作は、前記信頼度値が閾値を下回る、閾値数のルールを選択することをさらに含むことをさらに含む、付記１３に記載の非一時的コンピュータ読取可能媒体。
（付記１８）
前記先行訓練データセットの前記データ特徴は、前記先行訓練データセットの１つの列に対する前記先行訓練データセットの１つ以上のメタ特徴、又は前記先行訓練データセットの複数の列に対する前記先行訓練データセットの１つ以上のメタ特徴を含む、付記１２に記載の非一時的コンピュータ読取可能媒体。
（付記１９）
前記ＭＬパイプラインを前記視覚化予測器への入力として使用することは、
前記ＭＬパイプライン内のランタイムコード特徴と、前記ＭＬパイプラインに関連づけられたランタイム訓練データセット内のランタイムデータ特徴を抽出することと、
前記ランタイムコード特徴及び前記ランタイムデータセット特徴を、前記関係に基づいてルールにマッピングすることと、
を含む、付記１１に記載の非一時的コンピュータ読取可能媒体。
（付記２０）
視覚化コマンドの数量は視覚化制約により制限される、付記１１に記載の非一時的コンピュータ読取可能媒体。

Claims

機械学習（ＭＬ）パイプライン内に複数の機能ブロックを含む前記ＭＬパイプラインを取得するステップと、
前記ＭＬパイプラインを視覚化予測器への入力として使用するステップであり、前記視覚化予測器は、１つ以上の視覚化コマンドを前記視覚化コマンドと前記ＭＬパイプライン内の前記機能ブロックとの間の関係に基づいて出力するように訓練される、ステップと、
前記ＭＬパイプライン内に埋め込まれた前記１つ以上の視覚化コマンドを用いて前記ＭＬパイプラインをインスタンス化するステップと、
を含む方法。
前記視覚化予測器を生成するステップ、をさらに含み、該生成するステップは、
訓練データセットとして複数の訓練ＭＬパイプラインを取得することであり、前記訓練ＭＬパイプラインの各々は、少なくとも１つの視覚化を含む、ことと、
前記訓練ＭＬパイプラインを訓練するために使用される先行訓練データセットのデータ特徴と前記視覚化との間の第１の相関関係を決定することと、
前記訓練ＭＬパイプラインのコード特徴と前記視覚化との間の第２の相関関係を決定することと、
前記第１及び第２の相関関係に基づいて複数のルールを導出することであり、前記ルールは、前記視覚化コマンドを予測するための基礎を提供する、ことと、
を含む、請求項１に記載の方法。
前記複数のルールを導出することは、前記ルールの各々が、前記データ特徴又は前記コード特徴の１つ以上と所与の視覚化との間の関係と、前記関係の信頼度値とを記述するステートメントを含むように、前記第１及び第２の相関関係にアソシエーションルールマイニングを適用することを含む、請求項２に記載の方法。
前記関係は所与のコード特徴を含み、当該方法は、
前記所与のコード特徴が前記訓練ＭＬパイプライン内で前記視覚化の前に発生するか、又は前記ＭＬパイプライン内で前記視覚化の後に発生するかを判断するステップと、
関連づけられたルールを、前記所与のコード特徴が前記視覚化の後に発生する場合に説明的として、前記所与のコード特徴が前記視覚化の前に発生する場合に探索的として分類するステップと、
をさらに含む、請求項３に記載の方法。
前記所与のコード特徴は、前記視覚化を生成するためのコマンドとの関係を有する、請求項４に記載の方法。
ＡＲＭ訓練データセットの数値特徴を、限られた数のバケットの１つに離散化するステップ、をさらに含む、請求項３に記載の方法。
前記信頼度値が閾値を下回る、閾値数のルールを選択するステップ、をさらに含む、請求項３に記載の方法。
前記先行訓練データセットの前記データ特徴は、前記先行訓練データセットの１つの列に対する前記先行訓練データセットの１つ以上のメタ特徴、又は前記先行訓練データセットの複数の列に対する前記先行訓練データセットの１つ以上のメタ特徴を含む、請求項２に記載の方法。
前記ＭＬパイプラインを前記視覚化予測器への入力として使用するステップは、
前記ＭＬパイプライン内のランタイムコード特徴と、前記ＭＬパイプラインに関連づけられたランタイム訓練データセット内のランタイムデータ特徴を抽出することと、
前記ランタイムコード特徴及び前記ランタイムデータ特徴を、前記関係に基づいてルールにマッピングすることと、
を含む、請求項１に記載の方法。
視覚化コマンドの数量は視覚化制約により制限される、請求項１に記載の方法。
１つ以上のプロセッサに動作を実行させるコンピュータプログラムであって、前記動作は、
機械学習（ＭＬ）パイプライン内に複数の機能ブロックを含む前記ＭＬパイプラインを取得することと、
前記ＭＬパイプラインを視覚化予測器への入力として使用することであり、前記視覚化予測器は、１つ以上の視覚化コマンドを前記視覚化コマンドと前記ＭＬパイプライン内の前記機能ブロックとの間の関係に基づいて出力するように訓練される、ことと、
前記ＭＬパイプライン内に埋め込まれた前記１つ以上の視覚化コマンドを用いて前記ＭＬパイプラインをインスタンス化することと、
を含む、コンピュータプログラム。
前記動作は、前記視覚化予測器を生成することをさらに含み、該生成することは、
訓練データセットとして複数の訓練ＭＬパイプラインを取得することであり、前記訓練ＭＬパイプラインの各々は、少なくとも１つの視覚化を含む、ことと、
前記訓練ＭＬパイプラインを訓練するために使用される先行訓練データセットのデータ特徴と前記視覚化との間の第１の相関関係を決定することと、
前記訓練ＭＬパイプラインのコード特徴と前記視覚化との間の第２の相関関係を決定することと、
前記第１及び第２の相関関係に基づいて複数のルールを導出することであり、前記ルールは、前記視覚化コマンドを予測するための基礎を提供する、ことと、
を含む、請求項１１に記載のコンピュータプログラム。
前記複数のルールを導出することは、前記ルールの各々が、前記データ特徴又は前記コード特徴の１つ以上と所与の視覚化との間の関係と、前記関係の信頼度値とを記述するステートメントを含むように、前記第１及び第２の相関関係にアソシエーションルールマイニングを適用することを含む、請求項１２に記載のコンピュータプログラム。
前記関係は所与のコード特徴を含み、前記動作は、
前記所与のコード特徴が前記訓練ＭＬパイプライン内で前記視覚化の前に発生するか、又は前記ＭＬパイプライン内で前記視覚化の後に発生するかを判断することと、
関連づけられたルールを、前記所与のコード特徴が前記視覚化の後に発生する場合に説明的として、前記所与のコード特徴が前記視覚化の前に発生する場合に探索的として分類することと、
をさらに含む、請求項１３に記載のコンピュータプログラム。
前記所与のコード特徴は、前記視覚化を生成するためのコマンドとの関係を有する、請求項１４に記載のコンピュータプログラム。
前記動作は、ＡＲＭ訓練データセットの数値特徴を、限られた数のバケットの１つに離散化することをさらに含む、請求項１３に記載のコンピュータプログラム。
前記動作は、前記信頼度値が閾値を下回る、閾値数のルールを選択することをさらに含む、請求項１３に記載のコンピュータプログラム。
前記先行訓練データセットの前記データ特徴は、前記先行訓練データセットの１つの列に対する前記先行訓練データセットの１つ以上のメタ特徴、又は前記先行訓練データセットの複数の列に対する前記先行訓練データセットの１つ以上のメタ特徴を含む、請求項１２に記載のコンピュータプログラム。
前記ＭＬパイプラインを前記視覚化予測器への入力として使用することは、
前記ＭＬパイプライン内のランタイムコード特徴と、前記ＭＬパイプラインに関連づけられたランタイム訓練データセット内のランタイムデータ特徴を抽出することと、
前記ランタイムコード特徴及び前記ランタイムデータ特徴を、前記関係に基づいてルールにマッピングすることと、
を含む、請求項１１に記載のコンピュータプログラム。
視覚化コマンドの数量は視覚化制約により制限される、請求項１１に記載のコンピュータプログラム。