JP2022042495A

JP2022042495A - 新しい械学習プロジェクトにおける使用のために適応可能なコーパスへの既存機械学習プロジェクトの自動キュレーション

Info

Publication number: JP2022042495A
Application number: JP2021139554A
Authority: JP
Inventors: ケイサハ・リポン; K Saha Ripon; アールプラサド・ムクル; R Prasad Mukul; ジュ・チェヌグアン; Chenguang Zhu
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-09-02
Filing date: 2021-08-30
Publication date: 2022-03-14
Also published as: US11403304B2; EP3968244A1; US20220067054A1

Abstract

【課題】新しい機械学習プロジェクトにおける使用のために適応可能なコーパスへの既存機械学習プロジェクトの自動キュレーションする方法及びプログラムを提供する。【解決手段】方法は、フィルタリング基準に基づき、機械学習（ＭＬ）プロジェクトの１つ以上のレポジトリからＭＬプロジェクトのセットを収集し、ＭＬプロジェクトのセットの中のＭＬパイプラインの実行可能性を保証し、ＭＬプロジェクトのセットの中のＭＬパイプラインの無関係な部分を識別し、ＭＬプロジェクトのセットについて品質特徴を生成する。方法はさらに、ＭＬプロジェクトのセットについて多様性特徴を生成し、品質特徴及び多様性特徴に基づき、ＭＬプロジェクトのセットからＭＬプロジェクトのサブセットを選択し、新しいＭＬプロジェクトにおいて使用するために適応され得るＭＬプロジェクトのコーパスに、ＭＬプロジェクトのサブセットを格納する。【選択図】図５

Description

本開示で議論する実施形態は、新しい機械学習プロジェクトにおける使用のために適用可能なコーパスへの、既存機械学習プロジェクトの自動キュレーション（curating）に関する。

機械学習（Machine learning (ML)）は、通常、現行のトレーニングにより自動的により正確になる予測を行うためにトレーニングデータによりトレーニングされたＭＬモデルを利用する。ＭＬは、限定ではないが、交通予測、ウェブ検索、オンライン詐欺検出、医療診断、スピーチ認識、電子メールフィルタリング、画像認識、仮想個人支援、及び自動翻訳を含む広範な用途で使用され得る。

ＭＬが益々一般的になるにつれ、新しいＭＬプロジェクトを実装するために利用可能なＭＬ専門家（例えば、熟練したデータ科学者）の不足がしばしば生じる。例えば、幾つかの推定によると、新しいＭＬプロジェクトの開発に現在従事しているデータ科学者の大多数は、専門家ではなく（例えば、比較的未熟又は初心者）、修士又は博士号を有する５人のうちの２人程度しか、益々複雑なＭＬプロジェクトの開発に適格を有しない。

自動化ＭＬ（AutoML）は、ＭＬを現実世界の問題に適用するプロセスを自動化するプロセスである。ＡｕｔｏＭＬは、先ずＭＬ専門家になることを要求せずに、非専門家が、ＭＬモデル及び技術を利用することを可能にし得る。ＡｕｔｏＭＬは、ＭＬ専門家が不足しているにも拘わらず、新しいＭＬプロジェクトを実装するという益々増大する課題に対する解決策として提案されている。しかしながら、現在のＡｕｔｏＭＬソリューションは、非専門家が新しいＭＬプロジェクトを完全に実装できるようにするためには不十分である簡易且つ部分的なソリューションしか提供しない。

本開示で請求される主題は、任意の欠点を解決する又は上述のような環境でのみ動作する実施形態に限定されない。むしろ、この背景技術は、本開示に記載の幾つかの実施形態が実施され得る一例である技術領域を説明するためにのみ提供される。

実施形態の態様によると、動作は、フィルタリング基準に基づき、機械学習（ＭＬ）プロジェクトの１つ以上のレポジトリからＭＬプロジェクトのセットを収集するステップを含んでよい。動作は、前記ＭＬプロジェクトのセットの中のＭＬパイプラインの実行可能性を保証するステップを更に含んでよい。更に、動作は、前記ＭＬプロジェクトのセットの中のＭＬパイプラインの無関係な部分を識別するステップを含んでよい。更に、動作は、前記ＭＬプロジェクトのセットについて品質特徴を生成するステップを含んでよい。更に、動作は、前記ＭＬプロジェクトのセットについて多様性特徴を生成するステップを含んでよい。更に、動作は、前記品質特徴及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットからＭＬプロジェクトのサブセットを選択するステップを含んでよい。更に、動作は、新しいＭＬプロジェクトにおいて使用するために適応され得るＭＬプロジェクトのコーパスに、ＭＬプロジェクトのサブセットを格納するステップを含んでよい。

実施形態の目的及び利点は、請求項において特に指摘される要素、特徴、及び組み合わせにより少なくとも実現され達成される。

前述の一般的説明及び以下の詳細な説明は両方とも例として与えられ、説明のためであり、請求される本発明の限定ではない。

例示的な実施形態は、以下の添付の図面の使用を通じて更なる特殊性及び詳細事項により記載され説明される。

既存のＭＬプロジェクトを自動的に検索し、新しいＭＬプロジェクトに適応することに関連する例示的な環境を表す図である。

既存のＭＬプロジェクトをコーパスへと自動的にキュレーションすることに関連する例示的な環境を表す図である。

コーパスに格納された既存のＭＬプロジェクトのパイプラインから新しいＭＬプロジェクトのパイプラインを自動的に生成することに関連する例示的な環境を表す図である。

例示的なコンピューティングシステムのブロック図を示す。

新しいＭＬプロジェクトにおける使用のために適応可能なコーパスに既存のＭＬプロジェクトを自動的にキュレーションする例示的な方法のフローチャートである。

フィルタリング基準に基づき、ＭＬプロジェクトの１つ以上のレポジトリからＭＬプロジェクトのセットを収集する例示的な方法のフローチャートである。

ＭＬプロジェクトのセットの中のＭＬパイプラインの実行可能性を保証する例示的な方法のフローチャートである。

既存のＭＬプロジェクトの例示的なＭＬパイプラインコードを示す。

クリーニングされた図８Ａの例示的なＭＬパイプラインコードから生じる例示的なクリーニングされたＭＬパイプラインコードを示す。

例示的な品質特徴の表である。

例示的な多様性特徴の表である。

品質特徴及び多様性特徴に基づき、ＭＬプロジェクトのセットからＭＬプロジェクトのサブセットを選択する例示的な方法のフローチャートである。

新しいＭＬプロジェクトにおける使用のために適応可能なコーパスに既存のＭＬプロジェクトのパイプラインの中の自動ラベル付け機能ブロックの例示的な方法のフローチャートである。

正規化前の既存のＭＬプロジェクトの例示的な元のＭＬパイプラインコードを示す。

図１３Ａの例示的な元のＭＬパイプラインコードの正規化後の例示的な正規化ＭＬパイプラインコードを示す。

イディオム法機能ブロック及びカスタム機能ブロックを識別する例示的な方法のフローチャートである。

有向グラフを用いて正規化ＭＬパイプラインから機能ブロックを抽出することを示す。

正規化ＭＬパイプラインの中の機能ブロックの各々にラベルを割り当てる例示的な方法のフローチャートである。

ＭＬパイプラインの中の機能ブロックの自動ラベル付けを示す。

コーパスに格納された既存のＭＬプロジェクトのパイプラインから新しいＭＬプロジェクトのパイプラインを自動的に生成する例示的な方法のフローチャートである。

新しいＭＬプロジェクトのシーケンスグラフおよびパイプラインスケルトンを示す。

図１９のパイプラインスケルトン、及びパイプラインスケルトンに一致する機能ブロックについて検索され得るＭＬパイプラインの表を示す。

本開示に記載される幾つかの実施形態は、既存のＭＬプロジェクトを自動的に検索し新しいＭＬプロジェクトに適応する方法及びシステムに関する。

ＭＬが益々一般的になるにつれ、新しいＭＬプロジェクトを実装するために利用可能なＭＬ専門家（例えば、熟練したデータ科学者）の不足がしばしば生じる。種々のＡｕｔｏＭＬソリューション（例えば、Auto－Sklearn、AutoPandas、等）は、ＭＬ専門家の不足にも拘わらず新しいＭＬプロジェクトを実装するという増大し続ける課題を解決するために提案されているが、現在のＡｕｔｏＭＬソリューションは、非専門家が新しいＭＬプロジェクトを完全に実装できるようにするには単純化された且つ部分的なソリューションしか提供しない。更に、既存のＭＬプロジェクトのオープンソースソフトウェア（ＯＳＳ）データベース（例えば、Kaggle、GitHub、等）も、非専門家による新しいＭＬプロジェクトの実装という課題のための別のソリューションとして提案されているが、非専門家がこれらのデータベースの中で有用な可能性のある既存のＭＬプロジェクトを見付けることは困難であるか又は不可能であり得る。更に、非専門家がこれらのデータベースの中で有用な可能性のある既存のＭＬプロジェクトを見付けることに成功したとしても、非専門家が新しいＭＬプロジェクトの新しい要件のために有用な可能性のある既存のＭＬプロジェクトを変更することは困難であるか又は不可能であり得る。

本開示では、用語「ＭＬプロジェクト」は、データセット、該データセット上に定義されたＭＬタスク、データセット上でＭＬタスクについてＭＬモデルをトレーニングし及びＭＬモデルを新しい予測のために使用するために動作シーケンスを実施するよう構成されるＭＬパイプライン（例えば、スクリプト又はプログラムコード）を含むプロジェクトを表してよい。本開示では、用語「計算ノートブック（computational notebook）」は、特に開発段階の間に、ＭＬパイプラインを開発し及び／又は表すために使用される計算構造を表してよい（例えば、Jupyter notebook）。ここに開示される実施形態は、Ｐｙｔｈｏｎプログラミング言語のＭＬパイプライン及びＪｕｐｙｔｅｒノートブックにより構造化された計算ノートブックにより示されるが、理解されるべきことに、他の実施形態は、異なる言語で記述されたＭＬパイプライン及び他のプラットフォームで構造化された計算ノートブックを含んでよい。

本開示の１つ以上の実施形態によると、動作は、既存のＭＬプロジェクトを自動的に検索し、新しいＭＬプロジェクトに適応するために実行されてよい。例えば、幾つかの実施形態では、コンピュータシステムは、データ科学者が先ず新しいＭＬプロジェクトを構築するのに良好な開始点を提供する既存のＭＬプロジェクトを検索するワークフローを「検索及び適応（search－and－adapt）」スタイルで構築し、次に既存のＭＬプロジェクトを適切に適応して、新しいデータベースのためのＭＬパイプライン及び新しいＭＬプロジェクトの新しいＭＬタスクを構築することにより、データ科学者の自然なワークフローを組織的にサポートしてよい。

例えば、幾つかの実施形態では、コンピュータシステムは、既存のＭＬプロジェクトのＯＳＳデータベースから未処理の（raw）ＭＬプロジェクトを自動的にマイニングしてよく、それらを既存のＭＬプロジェクトのコーパスに格納する前に、新しいＭＬプロジェクトを自動的にキュレーション（curate）してよい。幾つかの実施形態では、大規模レポジトリからの既存のＭＬプロジェクトのこのマイニング及びキュレーションは、検索及び適応ワークフローにおいて使用可能な多様な高品質な既存のＭＬプロジェクトのコーパスを生じ得る。また、このキュレーションは、（例えば、動的プログラムスライシングを用いて）既存のＭＬプロジェクトのＭＬパイプラインをクリーニングすることを含んでよく、特徴セットを計算して、各ＭＬプロジェクトの品質及び多様性をキャプチャし及びこれらの目的に合う最適な数の既存のＭＬプロジェクトを選択することを含んでよい。

また、幾つかの実施形態では、このキュレーションは、既存のＭＬプロジェクトのＭＬパイプラインの中の機能ブロックを自動的に識別し及びインデックス付けするために実行される動作を伴ってよい。伝統的なソフトウェアプログラムと異なり、ＭＬプロジェクトのＭＬパイプラインは、通常、データセットプロパティに基づく明確に定義されたワークフローに従い、機能ブロックのシーケンスとして考えることができる。従って、幾つかの実施形態は、ＭＬパイプラインの中の機能ブロックを自動的に抽出し及びラベル付けして、それらをコーパスの中で正しくインデックス付けし、その結果、それらが新しいＭＬタスクのための新しいＭＬパイプラインを合成するために効率的に検索できるようにする技術を含む。より具体的には、この技術は、適切なレベルでＭＬパイプラインを抽象化してよく、グラフに基づくシーケンスマイニングアルゴリズムを利用して、カスタム及びイディオム（idiomatic）機能ブロックの両方を抽出してよい。最後に、各機能ブロックは、意味論的にラベル付けされてよい。

幾つかの実施形態では、非専門家データ科学者からのような新しいＭＬプロジェクトのための新しいデータベース及び新しいタスクを受信すると、コンピュータシステムは、先ず、階層構造アプローチを自動的に使用して、ＭＬモデルを用いて新しいＭＬプロジェクトのために機能ブロックレベルのパイプラインスケルトンを合成し、次に、キュレーション及びラベル付けされたコーパスを通じて明示的に検索して、このパイプラインスケルトンをインスタンス化するために関連する既存のＭＬプロジェクトを識別してよい。次に、コンピュータシステムは、関連する既存のＭＬプロジェクトのセットのＭＬパイプラインから機能ブロックを自動的に選択し、パイプラインスケルトンを新しいＭＬプロジェクトのための新しいＭＬパイプラインへと具体化（concretize）してよい。最後に、コンピュータシステムは、新しいデータセットで新しいＭＬタスクを実行するために新しいＭＬパイプラインが実行可能になるよう、新しいＭＬパイプラインの機能ブロックを適応してよい。

従って、幾つかの実施形態では、非専門家データ科学者は、単に、新しいデータセット及び新しいＭＬタスクを新しいＭＬプロジェクトのために定式化するだけでよい。次に、コンピュータシステムは、ツールにより支援される対話型検索及び適応ワークフローを実施して、新しいＭＬプロジェクトのための新しいＭＬパイプラインを自動的に生成してよい。これは、新しいデータセットで新しいＭＬタスクを実行するために直ちに実行でき、非専門家データ科学者による変更を伴わない。従って、幾つかの実施形態は、初心者のデータ科学者が新しいＭＬプロジェクトのために新しい高品質のエンドツーエンドＭＬパイプラインを効率的に生成する力を与えることができる。

本開示の１つ以上の実施形態によると、ＭＬプロジェクト開発の技術分野は、データ科学者（例えば、非専門家であることが多い）に有用な可能性のある既存のＭＬプロジェクトを手動で発見させ有用な可能性のある既存のＭＬプロジェクトを新しいＭＬプロジェクトの新しい要件のために変更させる仕事を課すのに対して、自動的に既存のＭＬプロジェクトを検索して新しいＭＬプロジェクトへと適応するよう、コンピュータシステムを構成することにより改善され得る。このような構成は、既存のＭＬパイプラインから機能ブロックを識別して抽出し及び新しいＭＬパイプラインにおける使用のためにそれらを自動的に適応することにより、コンピューティングシステムに、関連する既存のＭＬプロジェクトを良好に検索させ、それらを新しいＭＬプロジェクトに適応させることができる。

本開示の実施形態は、添付の図面を参照して説明される。

図１は、本開示に記載される少なくとも１つの実施形態に従い構成される、自動的に既存のＭＬプロジェクトを検索し新しいＭＬプロジェクトへと適応することに関連する例示的な環境１００を示す図である。環境１００は、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎ、既存のＭＬプロジェクトをＭＬプロジェクトコーパス１０４へとキュレーションするよう構成されるキュレーションモジュール１１４、新しいデータセット１０６及び新しいＭＬプロジェクトの新しいＭＬタスク１０８（こ例えば、これらはデータ科学者１１８により提供されたものである）に基づき新しいＭＬプロジェクトのためにＭＬプロジェクトコーパス１０４から関連する既存のＭＬプロジェクトを検索するよう構成される検索モジュール、関連する既存のＭＬプロジェクト１１０のＭＬパイプライン１１１から機能ブロックを合成し及び新しいＭＬプロジェクトの新しいＭＬパイプライン１１２へと適応するよう構成される適応モジュール１２０、を含んでよい。

ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎは、既存のＭＬプロジェクトの大規模なレポジトリであってよく、各ＭＬプロジェクトは、少なくとも、データセット、該データセット上に定義されたＭＬタスク、ＭＬタスクについてＭＬモデルをトレーニングし及びＭＬモデルを新しい予測のために使用するために動作シーケンスを実施するよう構成されるＭＬパイプライン（例えば、スクリプト又はプログラムコード）を含む。既存のＭＬプロジェクトの大規模レポジトリの幾つかの例は、限定ではないが、Ｋａｇｇｌｅ及びＧｉｔＨｕｂを含む。幾つかの実施形態では、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎの中の各ＭＬプロジェクトは、計算ノートブックを含んでよい。計算ノートブックは、特に開発段階の間に、ＭＬパイプラインを開発し及び／又は表すために使用される計算構造であってよい。計算ノートブックの一例は、Ｊｕｐｙｔｅｒノートブックである。

キュレーションモジュール１１４、検索モジュール１１６、及び適応モジュール１２０の各々は、コンピューティング装置が１つ以上の動作を実行することを可能にするよう構成されるコード及びルーチンを含んでよい。追加又は代替として、これらのモジュールの各々は、プロセッサ、（例えば、１つ以上の動作を実行する又は実行を制御する）マイクロプロセッサ、ＦＰＧＡ（field－programmable gate array）、又はＡＳＩＣ（application－specific integrated circuit）を含むハードウェアを用いて実装されてよい。幾つかの他の例では、各モジュールは、ハードウェア及びソフトウェアの組み合わせを用いて実装されてよい。本開示では、これらの各モジュールにより実行されるとして記載される動作は、これらの各モジュールが対応するシステムに実行するよう指示し得る動作を含んでよい。

キュレーションモジュール１１４は、ＭＬプロジェクトコーパス１０４に既存のＭＬプロジェクトを格納する前又は後に、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎに格納された既存のＭＬプロジェクトに関して、動作シリーズを実行するよう構成されてよい。例えば、キュレーションモジュール１１４は、未処理（raw）ＭＬプロジェクトをＭＬプロジェクトコーパス１０４に格納する前又は後に自動的にキュレーションするために、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎから未処理ＭＬプロジェクトを自動的にマイニング（mine）するよう構成されてよい。ＭＬプロジェクトコーパス１０４は、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎからキュレーションされた既存のＭＬプロジェクトのレポジトリであってよい。幾つかの実施形態では、ＭＬプロジェクトコーパス１０４は、自動「検索及び適応」スタイルのワークフローの中で利用され得るクリーニングされた高品質のインデックス付けされた既存のＭＬプロジェクトの大規模コーパスであってよい。このスタイルのワークフローでは、検索は、新しいＭＬタスク及び新しいデータセットに関連し及び新しいＭＬパイプラインを含む新しいＭＬプロジェクトを構築するための「シード」として使用されるべき存ＭＬプロジェクトを識別することを含んでよい。更に、このスタイルのワークフローでは、適応することは、対話型の合成アプローチを使用して関連する既存のＭＬプロジェクトを適応し、新しいＭＬプロジェクトの新しいＭＬパイプラインを生成することを含んでよい。

幾つかの実施形態では、キュレーションモジュール１１４は、既存のＭＬプロジェクトをマイニングし及びキュレーションし、その結果、多様な高品質の既存のＭＬプロジェクトのみがＭＬプロジェクトコーパス１０４に格納されるようにするよう構成されてよい。また、幾つかの実施形態では、キュレーションモジュール１１４は、（例えば、動的プログラムスライシングを用いて）既存のＭＬプロジェクトのＭＬパイプラインをクリーニング（clean）するよう構成されてよい。更に、幾つかの実施形態では、キュレーションモジュール１１４は、各ＭＬプロジェクトの品質及び多様性をキャプチャするために特徴セットを計算し、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎからＭＬプロジェクトコーパス１０４に格納すべき最適な数の既存のＭＬプロジェクトを選択するよう構成されてよい。更に、幾つかの実施形態では、キュレーションモジュール１１４は、既存のＭＬプロジェクトのＭＬパイプラインの中の機能ブロックを自動的に識別し及びインデックス付けするよう構成されてよい。伝統的なソフトウェアプログラムと異なり、ＭＬプロジェクトのＭＬパイプラインは、通常、データセットプロパティに基づく明確に定義されたワークフローに従い、機能ブロックのシーケンスとして考えることができる。従って、キュレーションモジュール１１４は、ＭＬパイプラインの中で（「読み出しデータ（read data）」のような意味論的ラベルを用いて）自動的に機能ブロックを抽出し及びラベル付けして、それらをＭＬプロジェクトコーパス１０４の中で正しくインデックス付けし、その結果、それらが新しいデータセット１０６及び新しいＭＬタスク１０８について効率的に検索され新しいＭＬパイプライン１１２を効率的に合成できるようにするよう構成されてよい。より具体的には、キュレーションモジュール１１４は、適切なレベルでＭＬパイプラインを抽象化して、グラフに基づくシーケンスマイニングアルゴリズムを利用して、カスタム及びイディオム（idiomatic）機能ブロックの両方を抽出するよう構成されてよい。最後に、キュレーションモジュール１１４は、意味論的ラベルを生成し、各機能ブロックに割り当てるよう構成されてよい。

検索モジュール１１６は、ＭＬプロジェクトコーパス１０４に格納された既存のＭＬプロジェクトを通じて検索することに関する動作シリーズを実行するよう構成されてよい。例えば、検索モジュール１１６は、例えばデータ科学者１１８からの新しいＭＬプロジェクトのための新しいデータセット１０６及び新しいＭＬタスク１０８を受信するよう構成されてよい。受信すると、検索モジュール１１６は、先ず、自動的に階層構造アプローチを使用して、ＭＬモデルを用いて新しいＭＬプロジェクトのための機能ブロックレベルのパイプラインスケルトンを合成するよう構成され、次に、ＭＬプロジェクトコーパス１０４を通じて明示的に検索して、関連する既存のＭＬプロジェクト１１０を識別するよう構成されてよい。該関連する既存のＭＬプロジェクト１１０から、このパイプラインスケルトンをインスタンス化する。

適応モジュール１２０は、関連する既存のＭＬプロジェクト１１０のＭＬパイプライン１１１から機能ブロックを合成し及び新しいＭＬプロジェクト１１２へと適応することに関する動作シリーズを実行するよう構成されてよい。例えば、適応モジュール１２０は、自動的にＭＬパイプライン１１１から機能ブロックを選択して、パイプラインスケルトンを新しいＭＬプロジェクト（例えば、新しいデータセット１０６、新しいＭＬタスク１０８、及び新しいＭＬパイプライン１１２を含む）のための新しいＭＬパイプライン１１２へと具体化（concretize）するよう構成されてよい。更に、適応モジュール１２０は、新しいデータセット１０６で新しいＭＬタスク１０８を実行するために新しいＭＬパイプライン１１２が実行可能になるよう、新しいＭＬパイプライン１１２の機能ブロックを適応するよう構成されてよい。

従って、幾つかの実施形態では、非専門家であってよいデータ科学者１１８は、新しいＭＬプロジェクトのための新しいデータセット１０６及び新しいＭＬタスク１０８を組織立てる（formulate）だけでよく、キュレーションモジュール１１４、検索モジュール１１６、及び適応モジュール１２０が、（例えば、ここに開示される方法のうちの１つ以上を実行することにより）一緒に機能して、新しいデータセット１０６で新しいＭＬタスク１０８を実行するために直ちに実行可能な新しいＭＬプロジェクトのための新しいＭＬパイプライン１１２を最終的に生成でき、データ科学者１１８による変更を伴わない。

変更、追加、又は省略が、本開示の範囲から逸脱することなく図１に対して行われてよい。例えば、環境１００は、図示され本開示で説明されるよりも多数又は少数の要素を含んでよい。

図２は、本開示に記載される少なくとも１つの実施形態に従い構成される、自動的に既存のＭＬプロジェクトをコーパスへとキュレーションすることに関連する例示的な環境２００を示す図である。図１の環境１００と同様に、環境２００は、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎ、キュレーションモジュール１１４、及びＭＬプロジェクトコーパス１０４を含んでよい。更に、環境２００に開示されるように、データ科学者２０２ａ～２０２ｎが既存のＭＬプロジェクト２０４をＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎに格納した後に、キュレーションモジュール１１４は、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎをクロールして、既存のＭＬプロジェクト２０４のセットを生成するよう構成されてよい。既存のＭＬプロジェクト２０４のこのセットは、次にキュレーションモジュール１１４により更に分析されてよい。

既存のＭＬプロジェクト２０４を更に分析している間に、キュレーションモジュール１１４は、品質及び関連について既存のＭＬプロジェクト２０４をフィルタリングし２０６、関連のないコンテンツを識別し及び／又は除去するために既存のＭＬプロジェクト２０４をクリーニングする２０８よう構成されてよい。このフィルタリング２０６及びクリーニング２０８は、既存のＭＬプロジェクト２０４における種々の課題を克服するよう構成されてよい。例えば、既存のＭＬプロジェクト２０４のうちの幾つかの幾つかの計算ノートブックは、高品質のＭＬプロジェクトコーパスを構築するのに十分に高い品質を有しないことがある。従って、このフィルタリング２０６は、ＭＬプロジェクトコーパス１０４に含めるために、（例えば、カスタムコードではなく標準的なＡＰＩを使用する、適切な分類器を使用する、及び高精度を有する）より高い品質の計算ノートブックを自動的に識別してよい。更に、高品質のＭＬプロジェクトコーパスは、多様な計算ノートブックを有する既存のＭＬプロジェクトを含むべきである。従って、このフィルタリング２０６は、ＭＬプロジェクトコーパス１０４に含めるために、より大きな多様性の計算ノートブックを自動的に識別してよい。また、既存のＭＬプロジェクト２０４の計算ノートブックの中のＭＬパイプラインは、相当な量の無関係なコード（例えば、デバッギングコード、視覚化コード、及び／又は実験用コード）を有し得るＪｕｐｙｔｅｒノートブック、或いは良好な品質のコードを実行不能にしてしまう非推奨ＡＰＩのように、通常、ノイズが多いことがある。従って、このクリーニング２０８は、計算ノートブックの中のＭＬパイプラインを自動的にクリーニングして、ノイズ（例えば、無関係なコード及び／又は非推奨ＡＰＩ）を解決してよい。無関係なコードは、ＭＬパイプライン全体にプログラム的に貢献せず、従って全体的な技術にノイズを加える可能性のあるコードの部分をマークすることにより、解決されてよい。非推奨ＡＰＩは、ＡＰＩ適応技術を用いて非推奨ＡＰＩを新しいＡＰＩにより自動的に置き換えることにより、解決されてよい。

更に、キュレーションモジュール１１４は、クリーニングされフィルタリングされた既存のＭＬプロジェクトを抽象化して２１０、インデックス付けを目的として既存のＭＬプロジェクト２０４のプロジェクトアーチファクト２１２を生成するよう構成されてよい。この抽象化２１０及び生成されたプロジェクトアーチファクト２１２は、既存のＭＬプロジェクト２０４における種々の課題を克服するよう構成されてよい。例えば、よりよい検索を実現するように、ＭＬプロジェクトコーパス１０４の中のＭＬパイプラインを表すことは困難であり得る。従って、この抽象化２１０は、ＭＬパイプラインコードの中の機能ブロックを自動的に識別して、更にデータセットの中の特定のメタ特徴と機能ブロックとの間のマッピングを識別してよい。更に、機能ブロックが任意のコード行の中で識別され得るように機能ブロックを見付けるために抽象化の適切なレベルを決定することは困難であり得る。従って、この抽象化２１０は、ＭＬパイプラインがＡＰＩに大きく依存することが多く、同様の機能ブロックが同様のＡＰＩセットを含むことが多く、及び計算ノートブック（例えば、Ｊｕｐｙｔｅｒノートブック）の構造も機能ブロックに関する重要な情報を提供し得る、という見識に基づき、機能ブロックを自動的に識別してよい。また、各機能ブロックの意味論的目的を抽出すること、及び意味論的ラベルを使用して特定の機能の代替的実装を識別することは困難であり得る。従って、抽象化２１０は、計算ノートブック（例えば、Ｊｕｐｙｔｅｒノートブック）のマークダウンセルから導出された情報を利用し、ソースコードコメント、及びライブラリＡＰＩの文書は、意味論的ラベルを自動的に生成するために，及び機能ブロックが異なるシンタックスを使用する場合でも機能的に等価である機能ブロックを識別するために意味論的ラベルを後に使用するために提供する。この方法では、機能ブロックの代替的実装が識別され一緒にグループ化できる（例えば、このグループ化は「クラスタリング」と呼ばれてよい）。

最後に、フィルタリング２６０、クリーニング２０８、及び抽象化２１０の前及び／又は後に、（例えばここに開示された方法のうちの１つ以上を実行することにより）プロジェクトアーチファクト２１２を生成するために、キュレーションモジュール１１４は、ＭＬプロジェクトコーパス１０４にキュレーションされた既存のＭＬプロジェクト２０４を格納するよう構成されてよい。従って、幾つかの実施形態では、環境２００は、既存のＭＬプロジェクトをＭＬプロジェクトコーパス１０４へと自動的にキュレーションして、既存のＭＬプロジェクトが後に検索され新しいＭＬプロジェクトに適応されることを可能にするために利用されてよい。

変更、追加、又は省略が、本開示の範囲から逸脱することなく図２に対して行われてよい。例えば、環境２００は、図示され本開示で説明されるよりも多数又は少数の要素を含んでよい。

図３は、コーパスに格納された既存のＭＬプロジェクトのパイプラインから新しいＭＬプロジェクトのパイプラインを自動的に生成することに関連する例示的な環境３００を表す図である。図１の環境１００と同様に、環境３００は、ＭＬプロジェクトコーパス１０４、新しいデータセット１０６、新しいＭＬタスク１０８、関連する既存のＭＬプロジェクト１１０、新しいＭＬパイプライン１１２、検索モジュール１１６、及び適応モジュール１２０を含んでよい。更に、環境３００で開示されるように、既存のＭＬプロジェクトがＭＬプロジェクトコーパス１０４に格納された後に、検索モジュール１１６は、新しいデータセット１０６及び新しいＭＬプロジェクト３１０のための新しいＭＬタスク１０８を、例えばデータ科学者１１８から受信するよう構成されてよい。次に、検索モジュール１１６は、（ＭＬプロジェクトコーパス１０４から導出されたトレーニングデータを用いて予めトレーニングされてよい）パイプラインスケルトンＭＬモデル３０２を利用して、新しいＭＬタスクプロジェクト３１０のためにブロックレベルのパイプラインスケルトン３０４を合成するよう構成されてよい。

次に、検索モジュール１１６は、パイプラインスケルトン３０４に基づきクエリ３０６を生成し、キュレーションされラベル付けされたＭＬプロジェクトコーパス１０４を通じて関連する既存のＭＬプロジェクト１１０を検索するよう構成されてよい。このクエリ３０６は、種々の課題を克服するよう構成されてよい。例えば、新しいデータセット１０６及び新しいＭＬタスク１０８から効果的なクエリを組織立てることは困難であり得る。従って、クエリ３０６は、新しいＭＬタスク１０８を伴う新しいデータセット１０６の中に特定のメタ特徴と、このデータセットのためにＭＬパイプラインソリューションが含むべき機能ブロックのセットと、の間にマッピングが存在することが多いという見識に基づき組織立てられてよい。従って、パイプラインスケルトン３０４に含まれる機能ブロックのセットは、クエリ３０６の基礎を形成できる。

次に、検索モジュール１１６は、クエリ３０６に基づきＭＬプロジェクトコーパス１０４を検索するよう構成されてよい。この検索は、種々の課題を克服するよう構成されてよい。例えば、多くの他の関連する計算ノートブックの中から、適応すべきＭＬプロジェクトコーパス１０４の既存のＭＬプロジェクトの中の最良の計算ノートブックを識別することは困難であり得る。従って、検索は、新しいＭＬパイプライン１１２のために必要な機能ブロックを有する多くの計算ノートブックが存在する可能性があるという見識に基づき組織立てられてよい。従って、品質を保証しながら、全部の必要な意味論的ラベルを有する計算ノートブックの小型セットが、検索の間に識別され得る。

次に、幾つかの実施形態では、適応モジュール１２０は、関連する既存のＭＬプロジェクト１１０のＭＬパイプライン１１１から機能ブロックのパイプラインマージ３０８を実行して、新しいＭＬパイプライン２１２を生成するよう構成されてよい。このパイプラインマージ３０８は、種々の課題を克服するよう構成されてよい。例えば、全部の計算ノートブックをマージすることは困難であり得る。従って、結果として生じるコードは、構文的に正しく、新しいデータセット１０６及び新しいＭＬタスク１０８のために適切なソリューションである。従って、パイプラインマージ３０８は、（パイプラインスケルトン３０４からパイプラインマージ３０８への矢印により示されるように）パイプラインスケルトン３０４を利用するよう構成されてよく、プログラム分析は、新しいＭＬパイプライン１１２のコードを構文的に正しくし及び更なる変更を伴わずに実行可能にするために利用されてよい。

従って、幾つかの実施形態では、非専門家であってよいデータ科学者１１８は、新しいＭＬプロジェクトのための新しいデータセット１０６及び新しいＭＬタスク１０８を組織立てる（formulate）だけでよく、検索モジュール１１６及び適応モジュール１２０が、（例えば、ここに開示される方法のうちの１つ以上を実行することにより）一緒に機能して、新しいデータセット１０６で新しいＭＬタスク１０８を実行するために直ちに実行可能な新しいＭＬプロジェクト３１０のための新しいＭＬパイプライン１１２を最終的に生成でき、一部にデータ科学者１１８による任意の更なる変更を伴わない。

変更、追加、又は省略が、本開示の範囲から逸脱することなく図３に対して行われてよい。例えば、環境３００は、図示され本開示で説明されるよりも多数又は少数の要素を含んでよい。

図４は、本開示の少なくとも１つの実施形態による、例示的なコンピューティングシステム４０２のブロック図を示す。コンピューティングシステム４０２は、１つ以上のモジュール（例えば、図１～３のキュレーションモジュール１１４、検索モジュール１１６、又は適応モジュール１２０、或いはそれらの何らかの組合せ）に関連付けられた１つ以上の動作を実施し又は指示するよう構成されてよい。コンピューティングシステム４０２は、プロセッサ４５０、メモリ４５２、及びデータ記憶装置４５４を含んでよい。プロセッサ４５０、メモリ４５２、及びデータ記憶装置４５４は、通信可能に結合されてよい。

通常、プロセッサ４５０は、種々のコンピュータハードウェア又はソフトウェアモジュールを含む、任意の適切な専用又は汎用コンピュータ、コンピューティングエンティティ、又は処理装置を含んでよく、任意の適切なコンピュータ可読記憶媒体に格納された命令を実行するよう構成されてよい。例えば、プロセッサ４５０は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラム命令を解釈し及び／又は実行し及び／又はデータを処理するよう構成される任意の他のデジタル若しくはアナログ回路を含んでよい。図４には単一のプロセッサとして示されるが、プロセッサ４５０は、個々に又は集合的に本開示に記載の任意の数の動作を実行する又は実行を指示するよう構成される任意の数のプロセッサを含んでよい。さらに、プロセッサのうちの１つ以上は、異なるサーバのような１つ以上の異なる電子装置上に存在してよい。

幾つかの実施形態では、プロセッサ４５０は、プログラム命令を解釈し及び／又は実行し、及び／又はメモリ８２０、データ記憶装置４５４、又はメモリ４５２及びデータ記憶装置４５４に格納されたデータを処理するよう構成されてよい。幾つかの実施形態では、プロセッサ４５０は、プログラム命令をデータ記憶装置４５４からフェッチし、プログラム命令をメモリ４５２にロードしてよい。プログラム命令がメモリ４５２にロードされた後に、プロセッサ４５０は、プログラム命令を実行してよい。

例えば、幾つかの実施形態では、上述のモジュール（例えば、キュレーションモジュール１１４、検索モジュール１１６、又は適応モジュール１２０、或いはそれらの何らかの組合せ）のうちの１つ以上は、プログラム命令としてデータ記憶装置４５４に含まれてよい。プロセッサ４５０は、データ記憶装置４５４から対応するモジュールのプログラム命令をフェッチしてよく、対応するモジュールのプログラム命令をメモリ４５２にロードしてよい。対応するモジュールのプログラム命令がメモリ４５２にロードされた後に、プロセッサ４５０はプログラム命令を実行し、その結果、コンピューティングシステムは、命令により指示されるように、対応するモジュールに関連付けられた動作を実施してよい。

メモリ４５２及びデータ記憶装置４５４は、格納されたコンピュータ実行可能命令又はデータ構造を運ぶ又は有するコンピュータ可読記憶媒体を含んでよい。このようなコンピュータ可読記憶媒体は、プロセッサ４５０のような汎用又は専用コンピュータによりアクセスされ得る任意の市販の媒体を含んでよい。例として、限定ではなく、このようなコンピュータ可読記憶媒体は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、電気的消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、又は他の光ディスク記憶装置、磁気ディスク記憶装置、又は他の磁気記憶装置、フラッシュメモリ素子（例えば、個体メモリ装置）、又はコンピュータ実行可能命令若しくはデータ構造の形式で特定のプログラムコードを運ぶ又は格納するために使用され得る且つ汎用又は専用コンピュータによりアクセスされ得る任意の他の記憶媒体、を含む有形又は非一時的コンピュータ可読媒体を含んでよい。上記の組み合わせも、コンピュータ可読記憶媒体の範囲に含まれてよい。コンピュータ実行可能命令は、例えば、プロセッサ４５０に特定動作または一群の動作を実行させるよう構成される命令及びデータを含んでよい。

変更、追加、又は省略が、本開示の範囲から逸脱することなくコンピューティングシステム４０２に対して行われてよい。例えば、幾つかの実施形態では、コンピューティングシステム４０２は、明示され又は記載されないことのある任意の数の他のコンポーネントを含んでよい。

図５は、本開示に記載された少なくとも１つの実施形態による、新しいＭＬプロジェクトにおける使用のために適応可能なコーパスに既存のＭＬプロジェクトを自動的にキュレーションする例示的な方法５００のフローチャートである。方法５００は、任意の適切なシステム、機器、又は装置により実行されてよい。例えば、図１～２のキュレーションモジュール１１４又は（１つ以上のモジュールにより指示されるとき）図４のコンピューティングシステム４０２は、方法５００に関連付けられた動作のうちの１つ以上を実行してよい。別個のブロックにより示したが、方法５００のブロックのうちの１つ以上に関連するステップ及び動作は、特定の実装に依存して、追加ブロックに分けられ、少ないブロックに結合され、又は削除されてよい。

幾つかの実施形態では、図２に示されるように、方法５００は、キュレーションモジュール１１４により、既存のＭＬプロジェクト２０４のサブセットをＭＬプロジェクトコーパス１０４に格納する前に、既存のＭＬプロジェクト２０４をフィルタリング２０６及びクリーニング２０８するために利用されてよい。

方法５００は、少なくともブロック５０２で、ＭＬプロジェクトのレポジトリからＭＬプロジェクトのセットを収集するステップを含んでよい。幾つかの実施形態では、この収集するステップは、フィルタリング基準に基づいてよい。例えば、キュレーションモジュール１１４は、フィルタリング基準に基づき、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎから既存のＭＬプロジェクト２０４のセットを収集してよい。幾つかの実施形態では、ＭＬプロジェクトのセットは、図６を参照して更に後述される方法６００の１つ以上の動作に従い収集されてよい。

方法５００は、ブロック５０４で、ＭＬプロジェクトのセットの中のＭＬパイプラインの実行可能性を保証するステップを含んでよい。例えば、キュレーションモジュール１１４は、既存のＭＬプロジェクト２０４のセットの実行可能性を保証してよい。幾つかの実施形態では、ＭＬパイプラインの実行可能性は、図７を参照して更に後述される方法７００の１つ以上の動作に従い保証されてよい。更に、幾つかの実施形態では、ＭＬパイプラインの実行可能性は、更に後述される図８Ａ及び８ＢのＭＬパイプライン８００及び８５０に示されるように、保証されてよい。

方法５００は、ブロック５０６で、ＭＬプロジェクトのセットの中のＭＬパイプラインの無関係な部分を識別するステップを含んでよい。例えば、キュレーションモジュール１１４は、既存のＭＬプロジェクト２０４のセットの無関係な部分を識別し注釈付け（annotate）してよい。幾つかの実施形態では、ＭＬパイプラインの無関係な部分は、更に後述される図８Ａ及び８ＢのＭＬパイプライン８００及び８５０に示されるように、識別されてよい。

方法５００は、ブロック５０８で、ＭＬプロジェクトのセットについて品質特徴を収集するステップを含んでよい。例えば、キュレーションモジュール１１４は、既存のＭＬプロジェクト２０４のセットの品質特徴を生成してよい。幾つかの実施形態では、品質特徴は、更に後述される図９の表９００に示されるように生成されてよい。

方法５００は、ブロック５１０で、ＭＬプロジェクトのセットについて多様性特徴を生成するステップを含んでよい。例えば、キュレーションモジュール１１４は、既存のＭＬプロジェクト２０４のセットについて多様性特徴を生成してよい。幾つかの実施形態では、多様性特徴は、更に後述される図１０の表１０００に示されるように生成されてよい。

方法５００は、ブロック５１２で、品質特徴及び多様性特徴に基づき、ＭＬプロジェクトのセットからＭＬプロジェクトのサブセットを選択するステップを含んでよい。例えば、キュレーションモジュール１１４は、品質特徴及び多様性特徴に基づき、既存のＭＬプロジェクト２０４のセットからＭＬプロジェクトのサブセットを選択してよい。幾つかの実施形態では、ＭＬプロジェクトのサブセットは、図１１を参照して更に後述される方法１１００の１つ以上の動作に従いＭＬプロジェクトのセットから選択されてよい。

方法５００は、ブロック５１４で、新しいＭＬプロジェクトにおいて使用するために適応され得るＭＬプロジェクトのコーパスに、ＭＬプロジェクトのサブセットを格納するステップを含んでよい。例えば、キュレーションモジュール１１４は、（新しいＭＬプロジェクト３１０のような）新しいＭＬプロジェクトのために適応され得るＭＬプロジェクトコーパス１０４に、既存のＭＬプロジェクト２０４のサブセットを格納してよい。

変更、追加、又は省略が、本開示の範囲から逸脱することなく方法５００に対して行われてよい。例えば、方法５００の動作のうちの幾つかは、異なる順序で実施されてよい。追加又は代替として、２以上の動作が同時に実行されてよい。さらに、概説された工程及び動作は例として提供されたものであり、工程及び動作の幾つかは、開示した実施形態を減じることなく、任意であり、少ない工程及び動作に結合され、又は追加の工程及び動作に拡張されてよい。

図６は、本開示に記載される少なくとも１つの実施形態による、フィルタリング基準に基づき、ＭＬプロジェクトの１つ以上のレポジトリからＭＬプロジェクトのセットを収集する例示的な方法６００のフローチャートである。幾つかの実施形態では、図５の方法５００に関して上述したブロック５０２の動作は、方法６００に従い実行されてよい。

方法６００は、任意の適切なシステム、機器、又は装置により実行されてよい。例えば、図１～２のキュレーションモジュール１１４又は（１つ以上のモジュールにより指示されるとき）図４のコンピューティングシステム４０２は、方法６００に関連付けられた動作のうちの１つ以上を実行してよい。別個のブロックにより示したが、方法６００のブロックのうちの１つ以上に関連するステップ及び動作は、特定の実装に依存して、追加ブロックに分けられ、少ないブロックに結合され、又は削除されてよい。

方法６００は、ブロック６０２で、データセットの品質に基づき、ＭＬプロジェクトの１つ以上のレポジトリからの全部のＭＬプロジェクトの全部のデータセットをランク付けするステップを含んでよい。例えば、キュレーションモジュール１１４は、データセットの品質に基づき、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎからの既存のＭＬプロジェクト２０４の全部のデータセットをランク付けしてよい。幾つかの実施形態では、データセットの品質は、他のユーザによる投票（例えば、Ｋａｇｇｌｅにおける投票）に基づき、データセットがプロジェクトデータベースに（例えば、Ｋａｇｇｌｅに）ホスティングされたデータセットの「特徴付けられたセット（featured set）」の部分であることに基づき、又はデータセットがどれくらい最近のものかに基づき、決定されてよい。

方法６００は、ブロック６０４で、第１の所定数の上位にランク付けされたデータセットを選択するステップを含んでよい。例えば、キュレーションモジュール１１４は、既存のＭＬプロジェクト２０４から第１の所定数の上位にランク付けされたデータセットを選択してよい。

方法６００は、ブロック６０６で、選択されたデータセットの各々について、重要性基準に基づき、対応するＭＬプロジェクトをランク付けするステップを含んでよい。例えば、キュレーションモジュール１１４は、選択されたデータセットの各々について、重要性基準に基づき、既存のＭＬプロジェクト２０４からの対応するＭＬプロジェクトをランク付けしてよい。幾つかの実施形態では、データセットの重要性は、他のユーザによる投票（例えば、Ｋａｇｇｌｅにおける投票）に基づき決定されてよい。他の実施形態では、データセットの重要性は、対応するパイプラインの精度に基づき決定されてよい。

方法６００は、ブロック６０８で、ＭＬプロジェクトのセットに包含するために、第２の所定数の上位にランク付けされたＭＬプロジェクトを選択するステップを含んでよい。例えば、キュレーションモジュール１１４は、既存のＭＬプロジェクト２０のセットに包含するために、既存のＭＬプロジェクト２０４から第２の所定数の上位にランク付けされたＭＬプロジェクトを選択してよい。例えば、（Ｋａｇｇｌｅの他のユーザによる賛成投票に基づき）上位１５個の上位にランク付けされたＭＬプロジェクトがＫａｇｇｌｅの中の上位１５０個のデータセットの各々について選択された場合、これは、２２５０個のＭＬプロジェクトを生成し得る。

変更、追加、又は省略が、本開示の範囲から逸脱することなく方法６００に対して行われてよい。例えば、方法６００の動作は、異なる順序で実施されてよい。更に、幾つかの実施形態では、方法６００は、図５のブロック５０２に関して繰り返し又は同時に実行されてよい。

図７は、本開示に記載された少なくとも１つの実施形態による、ＭＬプロジェクトのセットにおけるＭＬパイプラインの実行可能性を保証する例示的な方法７００のフローチャートである。幾つかの実施形態では、図５の方法５００に関して上述したブロック５０４の動作は、方法７００に従い実行されてよい。

方法７００は、任意の適切なシステム、機器、又は装置により実行されてよい。例えば、図１～２のキュレーションモジュール１１４又は（１つ以上のモジュールにより指示されるとき）図４のコンピューティングシステム４０２は、方法６００に関連付けられた動作のうちの１つ以上を実行してよい。別個のブロックにより示したが、方法７００のブロックのうちの１つ以上に関連するステップ及び動作は、特定の実装に依存して、追加ブロックに分けられ、少ないブロックに結合され、又は削除されてよい。

方法７００は、ブロック７０２で、ＭＬパイプラインの変更を伴わずにＭＬプロジェクト内のＭＬパイプラインが実行可能かどうかを決定するステップを含んでよい。実行可能な場合（ブロック７０２でＹｅｓ）、方法７００はブロック７０４に進んでよく、実行可能ではない場合（ブロック７０２でＮｏ）、方法７００はブロック７０６に進んでよい。例えば、キュレーションモジュール１１４は、既存のＭＬプロジェクト２０４のうちの１つの中のＭＬパイプラインが変更せずに実行可能かどうかを決定してよい。

方法は、ブロック７０４で、ＭＬプロジェクトのセットの中のＭＬパイプラインを維持するステップを含んでよい。例えば、キュレーションモジュール１１４は、ＭＬパイプラインでＡＰＩ適応を実行する前又は後に、ＭＬプロジェクトのＭＬパイプラインが実行可能であることに起因して、既存のＭＬプロジェクト２０４のセットの中のＭＬプロジェクトを維持してよい。

方法は、ブロック７０６で、ＭＬパイプラインでＡＰＩ適応を実行した後にＭＬプロジェクト内のＭＬパイプラインが実行可能かどうかを決定するステップを含んでよい。実行可能な場合（ブロック７０６でＹｅｓ）、方法７００はブロック７０４に進んでよく、実行可能ではない場合（ブロック７０６でＮｏ）、方法７００はブロック７０８に進んでよい。例えば、キュレーションモジュール１１４は、ＭＬパイプラインに対するＡＰＩ適応の実行後に、既存のＭＬプロジェクト２０４のうちの１つの中のＭＬパイプラインが実行可能かどうかを決定してよい。

方法は、ブロック７０８で、ＭＬプロジェクトのセットからＭＬパイプラインを除去するステップを含んでよい。例えば、キュレーションモジュール１１４は、ＭＬパイプラインでＡＰＩ適応を実行する前又は後のいずれにも、ＭＬプロジェクトのＭＬパイプラインが実行可能ではないことに起因して、既存のＭＬプロジェクト２０４のセットからＭＬプロジェクトを除去してよい。

変更、追加、又は省略が、本開示の範囲から逸脱することなく方法７００に対して行われてよい。例えば、方法７００の動作は、異なる順序で実施されてよい。更に、幾つかの実施形態では、方法７００は、図５のブロック５０４に関して繰り返し又は同時に実行されてよい。

図８Ａは、既存のＭＬプロジェクトの例示的なＭＬパイプラインコード８００を示し、図８Ｂは、図８Ａの例示的なＭＬパイプラインコード８００がクリーニングされることにより生じる、例示的なクリーニングされたＭＬパイプラインコード８５０を示す。ＭＬパイプラインコード８００は、既存のＭＬプロジェクト２０４のうちの１つの計算ノートブック（例えば、Ｊｕｐｙｔｅｒノートブック）の部分であってよい。ここで、ＭＬタスクは、年齢、仕事分類（workclass）、教育、職業、家格、及び複数の労働者の人種のような特徴を含むデータセットに基づき、人物が年収５０ｋドルより多いかどうかを予測することである。図８Ａ及び８Ｂは、方法５００のブロック５０４及び５０６が既存のＭＬプロジェクト２０４のセットの中のＭＬパイプラインに関してどのように実行され得るかの例を提供するためにここで議論される。

図８Ａ及び８Ｂに示した例では、示されたＡＰＩ適応は、ＭＬパイプラインコード８００に対して実行されてよく、結果として、ＭＬパイプラインコードの実行可能性を保証するためにＭＬパイプラインコード８５０を生じる。更に、ＭＬパイプラインコード８００の無関係な部分は、ＭＬパイプラインコード８５０の中で太字体及び斜体でマークされ、特定の環境ではこの無関係なコードを実行することを回避するべきであると識別されてよい。幾つかの実施形態では、これらの無関係な部分は、デバッギングコード、チェックコード、及びグラフ描画コードを含んでよい。

幾つかの実施形態では、ＭＬパイプラインコード８００の無関係な部分のこの識別は、ＭＬプロジェクトＰ＜Ｄ，Ｌ＞のデータセットのプロパティ保存サンプルＤ^{ｓａｍｐｌｅ}を生成すること（例えば、データセット全体を処理するのに関連する時間を低減するが、データセットをスマートサンプリングすることによりデータセットのプロパティの範囲を犠牲にしない）、ＭＬパイプラインＬの各ステートメントの中で変更された変数及びオブジェクトをトレースするためにＭＬパイプラインＬをインストルメント化すること（instrumenting）、データセットのサンプルＤ^{ｓａｍｐｌｅ}でインストルメント化されたＭＬパイプラインＬ^{ｉｎｓｔｒ}を実行して、実行トレースＥを収集すること、ＭＬパイプラインＬの中のターゲットステートメントＴ（例えば、ＭＬパイプラインコード８５０の中に示されるターゲットステートメント）を識別すること、ターゲットステートメントＴから全部の変数及びオブジェクトBを抽出すること、実行トレースＥから抽出された変数及びオブジェクトBのバックワードスライスBを生成すること、（注釈付けされたＭＬパイプラインＬ^Ｎを生成するために）バックワードスライスBからのＭＬパイプラインの中のステートメントに関連有りとして及び注釈付けされたＭＬパイプラインＬ^Ｎの中の全部の他のステートメントに関連無しとして注釈を付けること、を含んでよい。この方法では、ターゲットステートメントに関連するＭＬパイプラインコード８００の中のステートメントのみが、関連有りとして注釈付けされる。幾つかの実施形態では、データセットのスマートサンプリングは、階層化サンプリングを用いて全部のカテゴリ値をカテゴリ列の元の割合で保持すること、連続する（数値的な）列の示された範囲に渡り一様にサンプリングすること、ストリング列についてインスタンスをランダムにサンプリングすること、列が元のデータの中で失われた値を有する場合に、データセットの縮小の後のその列に失われた値を有すること、のうちの１つ以上を含んでよい。幾つかの実施形態では、データセットのこのスマートサンプリングは、データセットの有意な縮小をもたらし得る。例えば、２ＧＢのデータセットは、９ＭＢにまで縮小されてよく、結果として１０分～２０秒にまで実行時間を短縮する。

幾つかの実施形態では、Ｊｕｐｙｔｅｒノートブックの部分であてよいＭＬパイプラインコード８００のクリーニングは、（プロジェクト選択のための）特徴抽出に及び検索及び適応ワークフローの後続のステップ（例えば、計算ノートブックのインデックス付け、検索、及び適応）により適するクリーニングされたＭＬパイプラインコード８５０をもたらし得る。

変更、追加、又は省略が、本開示の範囲から逸脱することなくＭＬパイプラインコード８００及びクリーニングされたＭＬパイプラインコード８５０に対して行われてよい。例えば、ＭＬパイプラインコード８００の幾つかのステートメントは、異なる順序で実施されてよい。

図９は、例示的な品質特徴の表９００である。図９は、方法５００のブロック５０８が既存のＭＬプロジェクト２０４のセットに関してどのように実行され得るかの例を提供するためにここで議論される。図９に示した例では、品質特徴は、性能特徴、コード品質特徴、及びコミュニティメトリック特徴を含んでよい。これらの品質特徴は、既存のＭＬプロジェクト２０４のセットについて生成されてよい。これらの品質特徴の各々は、測定、メトリック、及び正規化メトリックを含んでよい。

幾つかの実施形態では、図９の表９００に開示されるように、（例えば、方法５００のブロック５０８で）既存のＭＬプロジェクト２０４のセットについて品質特徴を生成するステップは、既存のＭＬプロジェクト２０４のセットの中の各ＭＬプロジェクトについて、ＭＬプロジェクトのトレーニング済みＭＬモデルの精度、ＭＬプロジェクトのＭＬパイプラインの文書化品質、ＭＬプロジェクトのＭＬパイプラインのモジュール性品質、ＭＬプロジェクトのＭＬパイプラインの標準ＡＰＩ使用品質、ＭＬプロジェクトの評価、に基づき、ＭＬプロジェクトの数値品質スコアを生成するステップを含んでよい。

幾つかの実施形態では、品質特徴を抽出する目的は、ＭＬプロジェクトコーパス１０４内の置かれる既存のＭＬプロジェクトの選択のための基礎を形成し得る特徴を計算することであってよい。これらの品質特徴は、トレーニングされたモデルの品質、コード構造、及びコミュニティによる価値、の観点で、ＭＬパイプラインの本質的価値を表し得る。これらの品質特徴は、所与のＭＬパイプラインについて個別に評価でき、各ＭＬパイプラインについてその品質を表す単一の数値スコア（例えば、０と１．０との間）として計算されてよい。幾つかの実施形態では、この単一の数値スコアは、以下の式に従い計算されてよい。

ここで、ｆｉは、表９００による個々の特徴の値に対応し、ｕ_ｉは、各特徴のそれらの相対的重要性を示す重みに対応し、ｎは、このような特徴の総数である。

変更、追加、又は省略が、本開示の範囲から逸脱することなく表９００に対して行われてよい。例えば、追加品質特徴が、表９００に開示された品質特徴に追加されてよい。

図１０は、例示的な多様性特徴の表１０００である。図１０は、方法５００のブロック５１０が既存のＭＬプロジェクト２０４のセットに関してどのように実行され得るかの例を提供するためにここで議論される。図１０に示した例では、多様性特徴は、データセット特徴及び計算ノートブック特徴を含んでよい。これらの多様性特徴は、既存のＭＬプロジェクト２０４のセットについて生成されてよい。これらの多様性特徴の各々は、意図、メトリック、及び正規化を含んでよい。

幾つかの実施形態では、表１０００に開示されたように、（例えば、方法５００のブロック５１０で）既存のＭＬプロジェクト２０４のセットについて多様性特徴を生成するステップは、既存のＭＬプロジェクト２０４のセットの中の各ＭＬプロジェクトについて、ＭＬプロジェクトのデータセットのサイズ、ＭＬプロジェクトのデータセットの中の失われた値の存在又は不存在、ＭＬプロジェクトのデータセットの中のデータのタイプ、ＭＬプロジェクトのＭＬパイプラインの中の所定のライブラリＡＰＩの存在又は不存在、ＭＬプロジェクトのデータセットの中の成分データストリームの相対範囲、に基づき、ＭＬプロジェクトについて特徴ベクトルを抽出するステップを含んでよい。

幾つかの実施形態では、多様性特徴を抽出する目的は、ＭＬプロジェクトコーパス１０４内の置かれる既存のＭＬプロジェクトの選択のための基礎を形成し得る特徴を計算することであってよい。これらの多様性特徴は、ＭＬプロジェクトコーパス１０４の中で最終的に利用可能な広範なソリューションを追加するために、ＭＬパイプラインの能力をキャプチャしてよい。これらの多様性特徴は、他のＭＬパイプラインが選択されることに関して評価されてよく、多様性に対する自身の貢献を表す各ＭＬプロジェクトの特徴ベクトルとして計算されてよい。

変更、追加、又は省略が、本開示の範囲から逸脱することなく表１０００に対して行われてよい。例えば、追加多様性特徴が、表１０００に開示された多様性特徴に追加されてよい。

図１１は、本開示で記載される少なくとも１つの実施形態による、品質特徴及び多様性特徴に基づき、ＭＬプロジェクトのセットからＭＬプロジェクトのサブセットを選択する例示的な方法１１００のフローチャートである。幾つかの実施形態では、図５の方法５００に関して上述したブロック５１２の動作は、方法１１００に従い実行されてよい。

方法１１００は、任意の適切なシステム、機器、又は装置により実行されてよい。例えば、図１～２のキュレーションモジュール１１４又は（１つ以上のモジュールにより指示されるとき）図４のコンピューティングシステム４０２は、方法６００に関連付けられた動作のうちの１つ以上を実行してよい。別個のブロックにより示したが、方法１１００のブロックのうちの１つ以上に関連するステップ及び動作は、特定の実装に依存して、追加ブロックに分けられ、少ないブロックに結合され、又は削除されてよい。

方法１１００は、ブロック１１０２で、ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、ＭＬプロジェクトの品質特徴に基づき品質指標を生成するステップを含んでよい。例えば、キュレーションモジュール１１４は、既存のＭＬプロジェクト２０４のセットの中の各ＭＬプロジェクトについて、ＭＬプロジェクトの品質特徴に基づき品質指標を生成してよい。例えば、クリーニングされたＭＬプロジェクトのセットが次式のように与えられ：

これは、以下の領域から導出される特徴を集合的に示す：

各ＭＬプロジェクトＰ_ｉは品質ｑ_ｉを有してよく、次式の特徴セットを含む：

方法１１００は、ブロック１１０４で、ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、ＭＬプロジェクトの品質指標から重みを生成するステップを含んでよい。例えば、キュレーションモジュール１１４は、既存のＭＬプロジェクト２０４のセットの中の各ＭＬプロジェクトについて、ＭＬプロジェクトの品質指標から重みを生成してよい。例えば、各プロジェクトについて、その重みは次式の通りである：

方法１１００は、ブロック１１０６で、重み及び多様性特徴に基づき、ＭＬプロジェクトのセットの中のＭＬプロジェクトから加重セットカバー（Weighted Set Cover (WSC)）問題を構成するステップを含んでよい。例えば、キュレーションモジュール１１４は、重み及び多様性特徴に基づき、既存のＭＬプロジェクト２０４のセットの中のＭＬプロジェクトからＷＳＣ問題を構成してよい。各ＭＬパイプラインの品質指標から重みを計算することは、選択されたパイプラインの集合的品質を最大化するパイプラインのセットを選択する元のタスク（つまり最大化目標）を、ＷＳＣ問題として自然に解くことが可能な最小重みを有するパイプラインのセットを選択する問題（つまり最小化目標）として、定式化することを可能にし得る。更に、（Ｗの選択により）品質値に関して重みをより大きくすることは、選択されたセットの濃度（cardinality）を最小化する動機付けをする。ＷＳＣがＮＰ完全（NP－Complete）問題なので、ＷＳＣのよく知られた近似アルゴリズムは、上記を解くために使用されてよい。２つの可能性は、欲張りアルゴリズム又は線形計画（Linear Programming (LP)）緩和（relaxation）に基づくアルゴリズムを含む。

方法は、ブロック１１０８で、ＭＬプロジェクトのサブセットを選択するためにＷＳＣ問題を解くステップを含んでよい。例えば、キュレーションモジュール１１４は、既存のＭＬプロジェクト２０４のサブセットを選択するためにＷＳＣ問題を解いてよい。ＷＳＣ問題を解くことは、最小重みのサブセットについて解いてよく、そうすることは、選択されたパイプラインの集約的品質を間接的に最大化し得る。例えば、目標は、Ｕの中の全部の特徴を一緒に示す以下のサブセットを選択することであってよい：

つまり、

これは、選択されたプロジェクトＳの集合的品質を最大化し、つまり次式を最大化する：

幾つかの実施形態では、これは、最小数のＭＬプロジェクトを選択するという理想的なもの（ideal）を含んでよい。

変更、追加、又は省略が、本開示の範囲から逸脱することなく方法１１００に対して行われてよい。例えば、方法１１００の動作は、異なる順序で実施されてよい。更に、幾つかの実施形態では、方法１１００は、図５のブロック５１２に関して繰り返し又は同時に実行されてよい。

図１２は、本開示に記載された少なくとも１つの実施形態による、新しいＭＬプロジェクトにおける使用のために適応可能なコーパスの中の既存のＭＬプロジェクトのパイプラインの中の機能ブロックを自動的にラベル付けする例示的な方法１２００のフローチャートである。方法１２００は、任意の適切なシステム、機器、又は装置により実行されてよい。例えば、図１～２のキュレーションモジュール１１４又は（１つ以上のモジュールにより指示されるとき）図４のコンピューティングシステム４０２は、方法１２００に関連付けられた動作のうちの１つ以上を実行してよい。別個のブロックにより示したが、方法１２００のブロックのうちの１つ以上に関連するステップ及び動作は、特定の実装に依存して、追加ブロックに分けられ、少ないブロックに結合され、又は削除されてよい。

幾つかの実施形態では、図２に示されるように、方法１２００は、キュレーションモジュール１１４により、既存のＭＬプロジェクト２０４のサブセットをＭＬプロジェクトコーパス１０４に格納する前に、既存のＭＬプロジェクト２０４上でプロジェクトアーチファクト２１２を抽象化し２１０、生成するために利用されてよい。

方法１２００は、ブロック１２０２で、既存のＭＬプロジェクトのコーパスに格納された既存のＭＬプロジェクトのＭＬパイプラインを正規化するステップを含んでよい。例えば、キュレーションモジュール１１４は、（場合によっては既存のＭＬプロジェクト２０４がフィルタリング２０６及びクリーニング２０８された後に、）ＭＬプロジェクトコーパス１０４に格納される既存のＭＬプロジェクト２０４のサブセットのＭＬパイプラインを正規化してよい。幾つかの実施形態では、ＭＬパイプラインは、更に後述される図１３Ａ及び１３Ｂの元のＭＬパイプラインコード１３００及び正規化ＭＬパイプラインコード１３５０に示されるように、正規化されてよい。

方法１２００は、ブロック１２０４で、正規化ＭＬパイプラインから機能ブロックを抽出するステップを含んでよい。例えば、キュレーションモジュール１１４は、正規化ＭＬパイプラインから機能ブロックを抽出してよい。幾つかの実施形態では、機能ブロックは、図１４を参照して更に後述される方法１４００の１つ以上の動作に従い抽出されてよい。

方法１２００は、ブロック１２０６で、正規化ＭＬパイプラインの中の機能ブロックの各々にラベルを割り当てるステップを含んでよい。例えば、キュレーションモジュール１１４は、正規化ＭＬパイプラインの中の機能ブロックの各々にラベルを割り当ててよい。幾つかの実施形態では、ラベルは、図１６を参照して更に後述される方法１６００の１つ以上の動作に従い割り当てられてよい。

方法１２００は、ブロック１２０８で、機能ブロックに割り当てられたラベルに基づき、コーパス内のＭＬパイプラインの各々をインデックス付けするステップを含んでよい。例えば、キュレーションモジュール１１４は、機能ブロックに割り当てられたラベルに基づき、ＭＬプロジェクトコーパス内のＭＬパイプラインの各々をインデックス付けしてよい。

方法１２００は、ブロック１２１０で、コーパス内の機能ブロックに割り当てられたラベルを利用して、新しいＭＬプロジェクトの新しいデータセットで新しいＭＬタスクを実行するために新しいＭＬパイプラインを生成するステップを含んでよい。例えば、検索モジュール１１６及び適応モジュール１２０は、ＭＬプロジェクトコーパス１０４内の機能ブロックに割り当てられたラベルを利用して、新しいＭＬプロジェクト３１０の新しいデータセット１０６で新しいＭＬタスク１０８を実行するために新しいＭＬパイプライン１１２を生成してよい。

変更、追加、又は省略が、本開示の範囲から逸脱することなく方法１２００に対して行われてよい。例えば、方法１２００の動作のうちの幾つかは、異なる順序で実施されてよい。追加又は代替として、２以上の動作が同時に実行されてよい。さらに、概説された工程及び動作は例として提供されたものであり、工程及び動作の幾つかは、開示した実施形態を減じることなく、任意であり、少ない工程及び動作に結合され、又は追加の工程及び動作に拡張されてよい。

図１３Ａは、正規化前の既存のＭＬプロジェクトの例示的な元のＭＬパイプラインコード１３００を示し、図１３Ｂは、元のＭＬパイプラインコード１３００の正規化後の例示的な正規化ＭＬパイプラインコード１３５０を示す。もとのＭＬパイプラインコード１３００は、既存のＭＬプロジェクト２０４のうちの１つの計算ノートブック（例えば、Ｊｕｐｙｔｅｒノートブック）の部分であってよい。ここで、ＭＬタスクは、年齢、仕事分類（workclass）、教育、職業、家格、及び複数の労働者の人種のような特徴を含むデータセットに基づき、人物が年収５０ｋドルより多いかどうかを予測することである。図１３Ａ及び１３Ｂは、方法１２００のブロック１２０２が既存のＭＬプロジェクト２０４のセットの中のＭＬパイプラインに関してどのように実行され得るかの例を提供するためにここで議論される。

図１３Ａ及び１３Ｂに示される例では、元のＭＬパイプラインコード１３００は変数名を正規化すること、列の名称を列のデータタイプで置き換えること、ＡＰＩステートメントからパラメータを除去すること、及びＡＰＩステートメントの繰り返されるインスタンスをＡＰＩステートメントの単一のインスタンスに畳むこと（collapsing）、のうちの１つ以上を含む種々の方法で正規化されてよい。例えば、元のＭＬパイプラインコード１３００の中の変数名「dataset」、「array」、「X」、「Y」、「X_train」、「X_validation」、「Y_train」、「Y_validation」、「random_forest」、「predictions」は、それぞれ正規化ＭＬパイプラインコード１３５０の中の「_var_」に正規化されてよい。また、元のＭＬパイプラインコード１３００の中の列「workclass」、「occupation」、「native.country」、「sex」は、それぞれ正規化ＭＬパイプラインコード１３５０の中の「_str_category_」に正規化されてよい。更に、元のＭＬパイプラインコード１３００の中のＡＰＩステートメントのパラメータ「filna」、「map」、「train_test_split」、「RandomForestClassifier」、「fit」、「predict」（例えば、「X」、「United－States」、「Male」、「０」、「Female」、「１」等のようなパラメータ）の各々は、それぞれ正規化ＭＬパイプラインコード１３５０の中のパラメータを除去することにより正規化されてよい。また、元のＭＬパイプラインコード１３００の中の３回繰り返されるＡＰＩステートメント：

は、図１５の正規化ＭＬパイプラインコード１５００の中の「x３」ラベルにより開示されるように、ＡＰＩステートメントの単一のインスタンスに畳まれてよい。

変更、追加、又は省略が、本開示の範囲から逸脱することなく元のＭＬパイプラインコード１３００及び正規化ＭＬパイプラインコード１３５０に対して行われてよい。例えば、元のＭＬパイプラインコード１３００の幾つかのステートメントは異なる順序で実施されてよく、他の正規化が元のＭＬパイプラインコード１３００に実行されてよい。

図１４は、本開示に記載される少なくとも１つの実施形態による、イディオム機能ブロック及びカスタム機能ブロックを識別する例示的な方法１４００のフローチャートを示す。幾つかの実施形態では、図１２の方法１２００に関して上述したブロック１２０４の動作は、方法１４００に従い実行されてよい。

方法１４００は、任意の適切なシステム、機器、又は装置により実行されてよい。例えば、図１～２のキュレーションモジュール１１４又は（１つ以上のモジュールにより指示されるとき）図４のコンピューティングシステム４０２は、方法１４００に関連付けられた動作のうちの１つ以上を実行してよい。別個のブロックにより示したが、方法１４００のブロックのうちの１つ以上に関連するステップ及び動作は、特定の実装に依存して、追加ブロックに分けられ、少ないブロックに結合され、又は削除されてよい。

幾つかの実施形態では、方法１４００は、ＭＬプロジェクトコーパス１０４に格納された既存のＭＬプロジェクトの各々の各ＭＬパイプラインをコードセルに分割するために利用されてよい。幾つかの実施形態では、計算ノートブック（例えば、Ｊｕｐｙｔｅｒノートブック）は、自然に構造化されて、計算ノートブックの中の全部のコードがコードセルのセットに組織化され、そのそれぞれは最初に異なる機能ブロックであると想定されてよいが、この想定は追加分析の後に無効になってよい。方法１４００は、次に、イディオム機能ブロックとしてコードセルに渡り繰り返されるステートメントグループを識別するために、及びカスタム機能ブロックとしてコードセルの中の全部の他のステートメントグループを識別するために利用されてよい。

方法１４００は、ブロック１４０２で、有向グラフを生成するステップを含んでよい。例えば、キュレーションモジュール１１４は、有向グラフを生成してよい（例えば、図１５に示した有向グラフを参照）。幾つかの実施形態では、有向グラフ内の各ノードは、ＭＬプロジェクトコーパス１０４内でのそれらの発生により正規化されたステートメントを表してよく、各エッジは、エッジが接続する２個のノードに対応するステートメントの共起の平均確率スコアを表してよい。１つのセルの最後のステートメントと次のセルの最初のステートメントとの間に接続が存在しなくてよい。例えば、２個のノードＡ及びBが与えられた場合、それらのエッジの値は次式のように表されてよい：

方法１４００は、ブロック１４０４で、コードセルの各々の中の各ステートメントについて、有向グラフの中のノードとしてステートメントを追加するステップ、又は該ステートメントの有向グラフの中の既存のノードの中のカウントをインクリメントするステップと、ブロック１４０４ｂで、コードセルの中のステートメントと該ステートメントの直前のステートメントとの間の共起スコアを計算するステップと、ブロック１４０４ｃで、共起スコアが共起スコア閾値より大きい場合に、ステートメントのノードと該ステートメントの直前のステートメントのノードとの間のエッジを生成するステップと、を含んでよい。例えば、コードセルの各々の中の各ステートメントについて（例えば、Ｊｕｐｙｔｅｒノートブックのような計算ノートブックの中の各コードセル）、キュレーションモジュール１１４は、有向グラフの中のノードとしてステートメントを追加するか、又は該ステートメントの有向グラフの中の既存のノードの中のカウントをインクリメントし（例えば、各ノードの内側にカウントを有する、図１５に示した有向グラフのノードを参照）、コードセルの中のステートメントと該ステートメントの直前のステートメントとの間の共起スコアを計算し（例えば、図１５に示した複数行のイディオムの有向グラフの中の共起スコアを参照）、共起スコアが共起スコア閾値より大きい場合に、ステートメントのノードと該ステートメントの直前のステートメントのノードとの間のエッジを生成してよい（例えば、図１５に示した複数行のイディオムの有向グラフの中のノードの間のエッジを参照）。幾つかの実施形態では、エッジのこの生成は、代替として、共起スコアに関係なく最初に全部のエッジを生成するが、次に特定の閾値より小さい共起スコアを有する全部のエッジを除去することにより実行されてよい。閾値は、経験的に決定されてよい。エッジの除去の後に、接続されたコンポーネントのセットが残ってよい。ここで、各コンポーネントは、イディオムを表す（例えば、機能を実装するために一緒に生じるステートメント／ＡＰＩのセット）。

方法１４００は、ブロック１４０６で、イディオム機能ブロックとして、エッジにより接続された全部のノードをマークするステップを含んでよい。例えば、キュレーションモジュール１１４は、エッジにより接続された全部のノードを、イディオム機能ブロックとしてマークしてよい（例えば、図１５に示した複数行のイディオムの有向グラフの中のエッジにより接続されたノードを参照）。

方法１４００は、ブロック１４０８で、正規化ＭＬパイプラインのうちの任意のものの中で、イディオム機能ブロックのうちの１つとしてマークされていない、カスタム機能ブロックのような、連続するステートメントに対応するノードの各セットをマークするステップを含んでよい。例えば、キュレーションモジュール１１４は、イディオム機能ブロックのうちの１つとしてマークされていない、カスタム機能ブロックのような、正規化ＭＬパイプラインのうちのいずれかの中の連続するステートメントに対応するノードの各セットをマークしてよい（例えば、図１５に示した単一行の機能ブロック及び複数行の機能ブロックを参照）。

変更、追加、又は省略が、本開示の範囲から逸脱することなく方法１４００に対して行われてよい。例えば、方法１４００の動作は、異なる順序で実施されてよい。更に、幾つかの実施形態では、方法１４００は、図１２のブロック１２０４に関して繰り返し又は同時に実行されてよい。

図１５は、有向グラフを用いて正規化ＭＬパイプラインから機能ブロックを抽出することを示す。図１５は、方法１２００のブロック１２０４、及び方法１４００のブロック１４０２～１４０８が正規化ＭＬパイプラインコード１５００に関してどのように実行され得るかの例を提供するためにここで議論される。図１５に示した例では、正規化ＭＬパイプラインコード１５００は、１つ以上の有向グラフを生成するために使用されてよい。ここで、各ノードはステートメントを表し、各エッジは、閾値より高いスコアを有するステートメントの間の共起を表す。単一行の機能ブロックにおいて開示したように、全部の正規化ＭＬパイプラインに渡り、ステートメント１が９４回発生し、ステートメント２が６回発生し、ステートメント３が６回発生する。更に、複数行の機能ブロックにおいて開示したように、ステートメント４、５、６、７は１回のみ発生する。これは、これらのステートメントが正規化ＭＬパイプラインコード１５００にのみ現れ、任意の他の正規化ＭＬパイプラインに現れないことを示す。また、複数行のイディオムにおいて開示したように、ステートメント８が１０回発生し、ステートメント９が１０回発生し、ステートメント１１が２回発生する。対応する共起スコアがそれぞれ閾値スコア（例えば、０．５の閾値）より高いエッジは、ステートメントシーケンス８、９、１０、及び８、９、１１が複数の正規化ＭＬパイプライン内に一緒に現れることを示し、従って、それらが現れる各々の正規化ＭＬパイプラインの中でイディオム機能ブロックとして一緒にマークされるべきである。更に、イディオム８、９、１０を正規化ＭＬパイプラインコード１６５００の中でイディオム機能ブロックとしてマークした後に、正規化ＭＬパイプラインコード１５００内の残りのステートメントは、それらの存在するコードセルの境界により、単一行の機能ブロック１、２、３、及びステートメント４、５、６、７を含む複数行のカスタム機能ブロックに分解できる。

変更、追加、又は省略が、本開示の範囲から逸脱することなく図１５の正規化ＭＬパイプラインコード１５００及び有向グラフに対して行われてよい。例えば、追加の正規化ＭＬパイプラインコードのための追加有向グラフが追加されてよい。

図１６は、正規化ＭＬパイプラインの中の機能ブロックの各々にラベルを割り当てる例示的な方法１６００のフローチャートである。幾つかの実施形態では、図１２の方法１２００に関して上述したブロック１２０６の動作は、方法１６００に従い実行されてよい。

方法１６００は、任意の適切なシステム、機器、又は装置により実行されてよい。例えば、図１～２のキュレーションモジュール１１４又は（１つ以上のモジュールにより指示されるとき）図４のコンピューティングシステム４０２は、方法１６００に関連付けられた動作のうちの１つ以上を実行してよい。別個のブロックにより示したが、方法１６００のブロックのうちの１つ以上に関連するステップ及び動作は、特定の実装に依存して、追加ブロックに分けられ、少ないブロックに結合され、又は削除されてよい。

方法１６００は、ブロック１６０２で、機能ブロック内の任意のコメントからテキストを抽出するステップ、又は、機能ブロック内にコメントが存在しないとき、機能ブロック内の任意のＡＰＩステートメントの文書からテキストをマイニングするステップを含んでよい。例えば、キュレーションモジュール１１４は、機能ブロック内の任意のコメント（例えば、正規化ＭＬパイプラインコード１５００内の各機能ブロックの前にある「＃」で始まるステートメント）からテキストを抽出するか、又は、機能ブロック内にコメントが存在しないとき、機能ブロック内の任意のＡＰＩステートメントの文書（例えば、ＡＰＩコードをホスティングするウェブサイトにあるようなＡＰＩコードのレポジトリにおいて取得できるＡＰＩステートメントの文書）からテキストをマイニングしてよい。この抽出又はマイニングは、追加又は代替として、標準的な前処理技術を適用することにより（例えば、停止語の除去、語幹処理、トークン化、等）、抽出又はマイニングされたテキストを前処理することを含んでよい。

方法１６００は、ブロック１６０４で、抽出又はマイニングされたテキスト内の第１共通動詞及び名詞又は名詞句を識別するステップを含んでよい。例えば、キュレーションモジュール１１４は、抽出又はマイニングされたテキスト内の共通動詞（例えば、「scale」又は「apply」）及び名詞又は名詞句（例えば、「data」又は「standard」又は「unit variance」）を識別してよい。方法１６００の文脈では、用語「共通」は、イディオム機能ブロックの複数のインスタンスに渡り共通である又はラベルに渡り共通である動詞、名詞、又は名詞句を表してよい。幾つかの実施形態では、ブロック１６０４は、イディオムブロックの全部のインスタンスについて、ラベルを形成する可能性のある抽出又はマイニングされたテキストから、イディオム機能ブロックの各インスタンスについて、名詞／動詞候補を抽出するステップを含んでよい。

方法１６００は、ブロック１６０６で、第１共通動詞及び名詞又は名詞句に基づき、機能ブロックのラベルを生成するステップを含んでよい。例えば、キュレーションモジュール１１４は、「scale the data to be between －１ and １（－１と１の間になるようデータをスケーリングする）」というコメントから、「scale date」というラベルを生成してよい。幾つかの実施形態では、このラベルを生成することは、最も重要な動詞及び名詞又は名詞句を取り入れ、これらの単語を機能ブロックの及び同じイディオム機能ブロックの他のインスタンスの意味論的ラベルとして割り当てることを含んでよい。これらの実施形態では、最も重要な単語は、上位Ｎ個の頻繁に使用された単語として決定されてよく、又はトピックモデル化を通じて決定されてよく、又は何らかの他の方法で決定されてよい。幾つかの実施形態では、ブロック１６０６は、イディオム機能ブロックの各インスタンスにより貢献されるラベル候補の中で一致動作（consensus operation）を行い、これらの異なる候補に渡り最も重要な共通名詞／動詞インスタンスを見付けるステップを含んでよい。これは、イディオム機能ブロックの全部のインスタンスについて、初期ラベルを形成してよい。例えば、イディオム機能ブロックからの４個のラベル「scale data」、「apply standard」、「scale numerical column data」、「standard feature remove mean scale unit variance」は、単一の共通ラベル「scale standard data」で再ラベル付けされてよい。

幾つかの実施形態では、ブロック１６０４及び１６０６は、イディオム機能ブロックについて実行されてよいが、カスタム機能ブロックについて変更されてよい。これらの実施形態では、ブロック１６０４及び１６０６は、カスタム機能ブロックの抽出又はマイニングされたテキストから最も重要な名詞及び動詞を取り入れることにより、各カスタム機能ブロックについて変更されてよく、一致動作を実行するのではなく、ブロック１６０８の開始点を提供する。

方法１６００は、ブロック１６０８で、正規化ＭＬパイプラインの中の機能ブロックのペア毎に類似性スコアを生成するステップを含んでよい。例えば、キュレーションモジュール１１４は、正規化ＭＬパイプライン内の機能ブロックの各ペアについて類似性スコア（例えば、０と１．０の間のスコア）を生成してよい。幾つかの実施形態では、類似性スコアは、単純な単語照合を通じて計算できる。例えば、単語セットＡ及びＢを有する２つのラベルについて、類似性スコアは以下のように計算されてよい：

方法１６００は、ブロック１６１０で、類似性スコアが類似性スコア閾値より大きい場合、機能ブロックのグループを生成するステップを含んでよい。例えば、キュレーションモジュール１１４は、類似性スコアが類似性スコア閾値（例えば、０．５の閾値）より大きい場合に、機能ブロックのグループを生成してよい。幾つかの実施形態では、所与の機能ブロックについて、他の機能ブロックは、意味論的ラベルに基づく類似性スコアに基づきソートされてよく、上位Ｋが同じ機能の異なる実装としてマークされてよい。幾つかの実施形態では、類似性スコア閾値は経験的に調整されてよい。

方法１６００は、ブロック１６１２で、機能ブロックグループの中の機能ブロックの各々のラベル内の第２共通動詞及び名詞又は名詞句を識別するステップを含んでよい。例えば、キュレーションモジュール１１４は、機能ブロックグループの中の機能ブロックの各々の第２共通動詞（例えば、「scale」）及び名詞又は名詞句（例えば、「data」）を識別してよい。この第２の識別は、１回目のラベルが生成された後に第２の反復を可能にして、機能が等価であると考えられる十分に類似するラベルにより機能ブロックグループを更に強化してよい。

方法１６００は、ブロック１６１４で、第２共通動詞及び名詞又は名詞句に基づき、機能ブロックグループの共通ラベルを生成するステップを含んでよい。例えば、キュレーションモジュール１１４は、第２共通動詞及び名詞又は名詞句から共通ラベルを生成してよい。幾つかの実施形態では、意味論的ラベルの共通又は頻出単語は、グループ全体の共通意味論的ラベルとして割り当てられてよい。例えば、キュレーションモジュール１１４は、各機能ブロックグループ内の機能ブロックの各々に割り当てられたラベルを共通ラベルに更新してよい。例えば、機能的に等価であると決定された機能ブロックからの２個のラベル「scale standard data」及び「scale data feature」は、単一の共通ラベル「scale data」により再ラベル付けされてよい。

方法１６００は、ブロック１６１６で、各機能ブロックグループ内の機能ブロックの各々に割り当てられたラベルを共通ラベルに更新するステップを含んでよい。

変更、追加、又は省略が、本開示の範囲から逸脱することなく方法１６００に対して行われてよい。例えば、方法１６００の動作は、異なる順序で実施されてよい。更に、幾つかの実施形態では、方法１６００は、図１２のブロック１２０６に関して繰り返し又は同時に実行されてよい。

図１７は、ＭＬパイプラインの中の機能ブロックの自動ラベル付けを示す。図１７は、方法１６００の種々のブロックがどのように実行され得るかの例を提供するために、ここで議論される。図１７に示した例では、機能ブロックＢｌｏｃｋ－１は、２個の正規化されたステートメント、つまり「_var_=StandardScaler()」及び「_var１_=_var_.fit_transform()」を含んでよい。この機能ブロックは、４個の別個の計算ノートブック、つまりｎｏｔｅｂｏｏｋ－１、ｎｏｔｅｂｏｏｋ－２、ｎｏｔｅｂｏｏｋ－３、及びｎｏｔｅｂｏｏｋ－４に現れるので、イディオム機能ブロックであってよい。更に、第２機能ブロックＢｌｏｃｋ－２は、２個の正規化されたステートメント、つまり「_var_=MinMaxScaler()」及び_var１_=_var_.fit_transform()」を含んでよい。これらの２個の機能ブロックは同じではないが、それらは、後述するように、それらの割り当てられたラベルの間の類似性に基づき、機能的に等価であると決定されてよい。

Ｂｌｏｃｋ－１に関して、方法１６００のブロック１６０２で、テキストがｎｏｔｅｂｏｏｋ－１、ｎｏｔｅｂｏｏｋ－２、及びｎｏｔｅｂｏｏｋ－３についてのコメントから抽出されてよく、ｎｏｔｅｂｏｏｋ－４については利用可能なコメントが存在しなくてよい。従って、テキストは、ｎｏｔｅｂｏｏｋ－４の代替ソース（例えば、ＡＰＩ文書）からマイニングされてよい。次に、方法１６００のブロック１６０４で、抽出又はマイニングされたテキストから、共通動詞（例えば、「scale」又は「apply」）及び名詞又は名詞句（例えば、「data」又は「standard」又は「unit variance」）が識別されてよい。次に、方法１６００のブロック１６０６で、第１共通動詞及び名詞又は名詞句に基づき、ラベル「scale standard data」が、Ｂｌｏｃｋ－１について生成されてよい。同様にＢｌｏｃｋ－２について、ブロック１６０２で、及び（上述のように）ブロック１６０４及び１６０６の変更されたバージョンで、ラベル「scale data feature」が生成されてよい。

方法１６００のブロック１６０８で、Ｂｌｏｃｋ－１及びＢｌｏｃｋ－２のペアについて、０．６７の類似性スコアが生成されてよい。方法１６００のブロック１６１０で、Ｂｌｏｃｋ－１及びＢｌｏｃｋ－２は、それらの類似性スコア（０．６７）が類似性スコア閾値（例えば、０．６０の閾値）より高いので、一緒にグループ化されてよい。方法１６００のブロック１６１２で、Ｂｌｏｃｋ－１及びＢｌｏｃｋ－２のラベルの中で、共通動詞（例えば「scale」）及び名詞（例えば「data」）が識別されてよい。方法１６００は、ブロック１６１４で、共通動詞（例えば「scale」）及び名詞（例えば「data」）に基づき、Ｂｌｏｃｋ－１及びＢｌｏｃｋ－２について共通ラベル（「scale data」）を生成するステップを含んでよい。

変更、追加、又は省略が、本開示の範囲から逸脱することなく機能ブロック、抽出又はマイニングされたテキスト、類似性スコア、及び自動的に割り当てられたラベルに対して行われてよい。

図１８は、本開示に記載された少なくとも１つの実施形態による、コーパスに格納された既存のＭＬプロジェクトのパイプラインから新しいＭＬプロジェクトのパイプラインを自動的に生成する例示的な方法１８００のフローチャートである。方法１８００は、任意の適切なシステム、機器、又は装置により実行されてよい。例えば、図１～３のキュレーションモジュール１１４、検索モジュール１１６、及び適応モジュール１２０、又は（１つ以上のモジュールにより指示されるとき）図４のコンピューティングシステム４０２は、方法１８００に関連付けられた動作のうちの１つ以上を実行してよい。別個のブロックにより示したが、方法１８００のブロックのうちの１つ以上に関連するステップ及び動作は、特定の実装に依存して、追加ブロックに分けられ、少ないブロックに結合され、又は削除されてよい。

幾つかの実施形態では、方法１８００は、キュレーションモジュール１１４、検索モジュール１１６、及び適応モジュール１２０により、図１及び２に開示された動作を実行するために利用されてよい。

方法１８００は、ブロック１８０２で、既存のＭＬプロジェクトをコーパスに格納するステップを含んでよい。ここで、既存のＭＬプロジェクトは機能ブロックを有するＭＬパイプラインを含む。例えば、キュレーションモジュール１１４は、既存のＭＬプロジェクト２０４をＭＬプロジェクトコーパス１０４に格納してよい。幾つかの実施形態では、既存のＭＬプロジェクト２０４は、機能ブロックを有するＭＬパイプラインを含んでよい。幾つかの実施形態では、これらの機能ブロックは、方法１２００のブロック１２０４の動作に従い識別されてよい。

方法１８００は、ブロック１８０４で、新しいＭＬプロジェクトのための新しいデータセット及び新しいＭＬプロジェクトのための新しいＭＬタスクに基づき、新しいＭＬプロジェクトのための検索クエリを生成するステップを含んでよい。例えば、検索モジュール１１６は、新しいＭＬプロジェクト３１０のための新しいデータセット１０６及び新しいＭＬプロジェクト３１０のための新しいＭＬタスク１０８に基づき、新しいＭＬプロジェクト３１０からのクエリ３０６を生成してよい。

方法１８００は、ブロック１８０６で、コーパスに格納された既存のＭＬプロジェクトを通じて、検索クエリに基づき、関連する既存のＭＬプロジェクトのセットを検索するステップを含んでよい。例えば、検索モジュール１１６は、ＭＬプロジェクトコーパス１０４に格納された既存のＭＬプロジェクトを通じて、クエリ３０６に基づき、関連する既存のＭＬプロジェクト１１０を検索してよい。

方法１８００は、ブロック１８０８で、関連する既存のＭＬプロジェクトのセットのＭＬパイプラインをマージして、新しいＭＬプロジェクトのための新しいＭＬパイプラインを生成するステップを含んでよい。ここで、新しいＭＬパイプラインは、関連する既存のＭＬプロジェクトのセットのＭＬパイプラインから取り入れられた機能ブロックを有する。例えば、適応モジュール１２０は、関連する既存のＭＬプロジェクト１１０のＭＬパイプライン１１１のパイプラインマージ３０８を実行して、新しいＭＬプロジェクト３１０のための新しいＭＬパイプライン１１２を生成してよい。本例では、新しいＭＬパイプライン１１２は、関連する既存のＭＬプロジェクト１１０のＭＬパイプライン１１１から取り入れられた機能ブロックを有してよい。

方法１８００は、ブロック１８１０で、新しいデータセットで新しいＭＬタスクを実行するために新しいＭＬパイプラインが実行可能になるよう、新しいＭＬプロジェクトのための新しいＭＬパイプラインの機能ブロックを適応するステップを含んでよい。例えば、適応モジュール１２０は、新しいデータセット１０６で新しいＭＬタスク１０８を実行するために新しいＭＬパイプライン１１２が実行可能になるよう、新しいＭＬプロジェクト３１０のための新しいＭＬパイプライン１１２の機能ブロックを適応してよい。

変更、追加、又は省略が、本開示の範囲から逸脱することなく方法１８００に対して行われてよい。例えば、方法１８００の動作のうちの幾つかは、異なる順序で実施されてよい。追加又は代替として、２以上の動作が同時に実行されてよい。さらに、概説された工程及び動作は例として提供されたものであり、工程及び動作の幾つかは、開示した実施形態を減じることなく、任意であり、少ない工程及び動作に結合され、又は追加の工程及び動作に拡張されてよい。

図１９は、シーケンスグラフ１９００、及び新しいＭＬプロジェクト（例えば、新しいＭＬプロジェクト１３１０）のためのパイプラインスケルトン２００２を示す。図２０は、パイプラインスケルトン２００２、及びパイプラインスケルトン２００２に一致する機能ブロックについて検索され得るＭＬパイプラインの表２０５０を示す。図１９及び図２０は、方法１８００のブロック１８０４、１８０６、１８０８、１８１０がＭＬパイプラインコーパス１０４に関してどのように実行され得るかの例を提供するためにここで議論される。

図１９及び２０に開示されるように、パイプラインスケルトン２００２は、新しいＭＬプロジェクト３１０の新しいＭＬパイプライン１１２のための機能ブロックの順序付きセットであってよく、ＭＬプロジェクトコーパス１０４に格納された既存のＭＬプロジェクトのＭＬパイプラインの機能ブロックに割り当てられたラベルに対応してよい。幾つかの実施形態では、パイプラインスケルトン２００２は、パイプラインスケルトンＭＬモデル３０２により生成されてよい。パイプラインスケルトンＭＬモデル３０２（又はＭＬモデルのセット）は、データセットメタ特徴と意味論的ラベルとの間のマッピングを学習するようトレーニングされてよい。例えば、新しいデータセット１０５６のメタ特徴が与えられると、パイプラインスケルトンＭＬモデル３０２は、それらのシーケンスを有する所要の意味論的ラベルを含むパイプラインスケルトン２００２を合成するようトレーニングされてよい。

幾つかの実施形態では、パイプラインスケルトンＭＬモデル３０２は、パイプラインスケルトン２００２を生成する前にトレーニングされる多変量多値分類器を含んでよい。多変量多値分類器は、データセットメタ特徴を、パイプラインスケルトン３０４又は２００２が含むべき機能ブロックの非順序付きセット（対応する意味論的ラベルにより示される）にマッピングするよう構成されてよい。このトレーニングは、特定のラベルに関連付けられたＭＬプロジェクトコーパス１０４の中の既存のＭＬプロジェクトのデータセットからデータセット特徴を抽出するステップと、既存のＭＬプロジェクトの機能ブロックから全部のラベルのセットを識別するステップと、データセット特徴を有する入力ベクトルと全部のラベルのセットの各々の存在又は不存在を示す２値出力タプルとを含むトレーニングデータを準備するステップと、データセット特徴と全部のラベルのセットの対応するラベルとの間のマッピングを学習するようパイプラインスケルトンＭＬモデル３０２をトレーニングするステップと、を含んでよい。幾つかの実施形態では、パイプラインスケルトンＭＬモデル３０２のトレーニングは、パイプラインスケルトンＭＬモデル３０２が新しいデータセット１０６及び新しいＭＬタスク１０８（メタ特徴）の顕著な特性を用いて、新しいＭＬパイプライン１１２のＭＬパイプラインを構成できる（例えば、パイプラインスケルトン３０４又は２００２の中の）機能ブロックの順序付きセットを予測することを可能にしてよい。データセットのメタ特徴は、限定ではないが、行の数、特徴の数、数値の存在、失われた値の存在、個数の存在、数値カテゴリの存在、ストリングカテゴリの存在、テキストの存在、及びターゲットのタイプを含んでよい。

幾つかの実施形態では、パイプラインスケルトンＭＬモデル３０２は、トレーニングデータから学習された機能ブロックの間の部分的順序を表す（シーケンスグラフ１９００と同様の）シーケンスグラフを更に含んでよい。シーケンスグラフは、トレーニングプロジェクトコーパスから学習されたブロックの中の部分的順序に基づき、（例えば、パイプラインスケルトン２００２に示されるように）ブロックの非順序付きセットを順序付きセットへとマッピングするよう構成されてよい。シーケンスグラフは、既存のＭＬプロジェクトの機能ブロックから全部のラベルのセットのラベル毎にノードを含んでよい。シーケンスグラフは、第１ノードと第２ノードの各ペアの間の有向エッジも含んでよく、第１ノードは、既存のＭＬプロジェクトのうちの１つの中で、第２ノードに先行する。

パイプラインスケルトンＭＬモデル３０２がトレーニングされると、パイプラインスケルトンＭＬモデル３０２は、新しいＭＬプロジェクト３１０のためのクエリ３０６を生成するために利用されてよい。幾つかの実施形態では、クエリ３０６のこの生成は、データセット特徴を新しいＭＬプロジェクト３１０の新しいＭＬパイプライン１１２のラベルの非順序付きセットへとマッピングするステップを含んでよく、シーケンスグラフ（例えば、シーケンスグラフ１９００）に表された部分的順序を用いて、ラベルの非順序付きセットをラベルの順序付きセットにマッピングするステップを更に含んでよい。クエリ３０６は、このようなラベルの順序付きシーケンスをパイプラインスケルトン２００２として含んでよい。例えば、図１９は、シーケンスグラフ１９００を用いて、パイプラインスケルトンＭＬモデルにより生成されたラベルの非順序付きセットをラベルの順序付きシーケンスへとマッピングするステップの例を示す。ラベルの非順序付きセットは、先ず、太字体のノード、つまり「Read Data」、「Fill Missing Values」、「Convert String to Int」、「Split Train Test」、「Random Forest」のセットにより示されるシーケンスグラフ１９００の中の対応するノードにマッピングされてよい。次に、これらのノードにより表されるシーケンスグラフ１９００のサブグラフが抽出されてよく、ノードのトポロジ順序は、パイプラインスケルトン２００２に表される、これらのラベルの順序付きシーケンスを提供するために、このサブグラフに基づき計算されてよい。

幾つかの実施形態では、クエリ３０６は、ＭＬプロジェクトコーパス１０４に格納された既存のＭＬプロジェクトを通じて検索するために利用されてよい。この検索は、ＭＬプロジェクトコーパス１０４に格納された各々の既存のＭＬプロジェクトについて、ラベルベクトルを生成し、及び既存のＭＬプロジェクトの品質指標から重みを生成するステップを含んでよい。次に、この検索は、ＭＬプロジェクトコーパス１０４に格納された既存のＭＬプロジェクトからの、それらの重み及びラベルベクトルに基づく加重セットカバー（Weighted Set Cover (WSC)）問題を含んでよく、順序付きラベルセットの中のラベルの全部を一緒に含む既存のＭＬプロジェクトのセットを選択するためにＷＣＳ問題を解くことを含んでよい。例えば、領域：Ｕ＝｛ｓ_１，ｓ_２，．．．，ｓ_ｎ｝から導出される意味論的ラベルと、必要な意味論的ラベルのセット：Ｒ＝｛ｓ_ｉ，ｓ_ｊ，．．．，ｓ_ｋ｝と、を集合的に含む、クリーニングされた候補計算ノートブックのセット：Ｊ＝｛Ｊ_１，Ｊ_２，．．．，Ｊ_ｍ｝が与えられると、検索は、Ｒ内の全部の意味論的ラベルを一緒に含む以下のサブセットを選択するよう定式化されてよい：

つまり、次式の通りである：

幾つかの実施形態では、これは、最小数の計算ノートブックを含む選択をもたらし得る。

検索が完了した後に、新しいＭＬプロジェクト３１０のための新しいＭＬパイプライン１１２を生成するために、（例えば、パイプラインマージ３０８において）関連する既存のＭＬプロジェクト１１０のような検索結果がマージされてよい。このパイプラインマージ３０８は、（例えば、ラベルの順序付きセットに対応する）新しいＭＬプロジェクトの全部の機能ブロックを、関連する既存のＭＬプロジェクト１１０のＭＬパイプライン１１１セットから取り入れるステップを含んでよい。例えば、図２０に開示されるように、表２０５０の中の「Mushroom Classification」、「WorldHappinessReport２０１９」、「Cardio」とラベル付けされた関連する既存のＭＬプロジェクト１１０が３個のＭＬプロジェクトにより表される場合、パイプラインスケルトン２００２の中の機能ブロックの各々は、これらの３個のＭＬプロジェクトの機能ブロックから取り入れられてよい。「Mushroom Classification」とラベル付けされたＭＬプロジェクトは必要な機能ブロックの大部分を有するので、メインＭＬプロジェクトとして扱われてよく、一方で、残りの機能ブロックはＭＬプロジェクト「World Happiness Report ２０１９」から取り入れられてよく、これは補助ＭＬプロジェクトとして扱われてよい。幾つかの実施形態では、同じラベルが複数の補助計算ノートブックに存在する場合、（例えば、品質に基づき、ランダムに、等）計算ノートブックのうちの１つが選択されてよい。例えば、図２０は、ＭＬプロジェクトコーパス１０３が全部で３個のＭＬプロジェクトを含み、検索（例えば、ここに開示されるＷＳＣ問題を通じて解かれる）が、パイプラインスケルトン２００２を適合するのに十ｂｎであるとして第１の２個のＭＬプロジェクトを読み出す場合を示す。

パイプラインマージ３０８は、新しいＭＬプロジェクトのための新しいＭＬパイプラインの機能ブロックを適応するステップを更に含んでよい。この適応は、種々の名称又はオブジェクト名の矛盾を解決して（例えば、プログラム分析に基づき名称を適応して）、新しいデータセット１０６で新しいＭＬタスク１０８を実行するために新しいＭＬパイプライン１１２を実行可能にすることを含んでよい。

変更、追加、又は省略が、本開示の範囲から逸脱することなくシーケンスグラフ１９００、パイプラインスケルトン２００２、及び表２０５０に対して行われてよい。例えば、シーケンスグラフ１９００、パイプラインスケルトン２００２、及び表２０５０の各々は、図１９及び２０に示されたものより、少ないコンポーネント又は多くのコンポーネントを含んでよい。

上述のように、本願明細書に記載の実施形態は、以下に更に詳細に議論されるように、種々のコンピュータハードウェア又はソフトウェアモジュールを含む特定用途向け又は汎用コンピュータの使用を含んでよい。更に、上述のように、本開示に記載の実施形態は、格納されたコンピュータ実行可能命令又はデータ構造を有するコンピュータ可読媒体を用いて実装されてよい。

本開示で使用されるとき、用語「モジュール」又は「コンポーネント」は、モジュール又はコンポーネントの動作を実行するよう構成される特定ハードウェア実装、及び／又は、コンピューティングシステムの汎用ハードウェア（例えば、コンピュータ可読媒体、処理装置、等）により格納され及び／又は実行され得るソフトウェアオブジェクト又はソフトウェアルーチンを表してよい。幾つかの実施形態では、本開示に記載されたものと異なるコンポーネント、モジュール、エンジン、及びサービスが、コンピューティングシステム上で実行するオブジェクト又はプロセス（例えば、別個のスレッド）として実装されてよい。本開示に記載されたシステム及び方法のうちの一部は、概して（汎用ハードウェアに格納される及び／又はそれにより実行される）ソフトウェアで実装されるとして記載されたが、専用ハードウェア実装又はソフトウェア及び専用ハードウェア実装の組み合わせも、可能であり想定される。この記載において、「コンピューティングエンティティ」は、本開示において前述した任意のコンピューティングシステム、又はコンピューティングシステム上で実行する任意のモジュール若しくはモジュールの組み合わせであってよい。

本開示で及び特に添付の特許請求の範囲（例えば、添付の請求項本体）で使用される用語は、通常、「広義」の用語として意図される（例えば、用語「含む」は「含むが、これに限定されない」と解釈されるべきであり、用語「有する」は「有するが、これに限定されない」と解釈されるべきである、等）。

さらに、特定数の導入された請求項の列挙が意図される場合、このような意図は、請求項中に明示的に示され、このような列挙のない場合、このような意図は存在しない。例えば、理解の支援として、以下の添付の請求項は、請求項の列挙を導入するために、導入フレーズ「少なくとも１つ」及び「１つ以上」の使用を含み得る。しかしながら、このようなフレーズの使用は、同じ請求項が導入フレーズ「１つ以上」又は「少なくとも１つ」及び不定冠詞「ａ」又は「ａｎ」を含むときでも（例えば、「ａ」及び／又は「ａｎ」は「少なくとも１つ」又は「１つ以上」を意味すると解釈されるべきである）、不定冠詞「ａ」又は「ａｎ」による請求項の列挙の導入が、このような導入された請求項の列挙を含む任意の特定の請求項を、１つのこのような列挙のみを含む実施形態に限定することを意味すると考えられるべきではない。つまり、同じことが、請求項の列挙を導入するために使用される定冠詞の使用にも当てはまる。

さらに、特定数の導入された請求項の列挙が明示的に記載される場合、当業者は、このような列挙が、少なくとも列挙された数を意味すると解釈されるべきであることを理解する（例えば、他の修飾のない「２つの列挙」の記載は、少なくとも２つの列挙、又は２以上の列挙を意味する）。さらに、「Ａ、Ｂ、及びＣ等のうちの少なくとも１つ」又は「Ａ、Ｂ、及びＣ等のうちの１つ以上」と同様の記載が使用される例では、通常、このような構成は、Ａ単独で、Ｂ単独で、Ｃ単独で、Ａ及びＢを一緒に、Ａ及びＣを一緒に、Ｂ及びＣを一緒に、又はＡ、Ｂ、及びＣを一緒に、等を含むことを意図する。語句「Ａ又はＢ」のこの解釈は、時に「Ａ」又は「Ｂ」又は「Ａ及びＢ」の可能性を含むために用語「Ａ及び／又はＢ」が使用されるときでも依然として適用可能である。

さらに、２以上の選択的な用語を表す任意の離接的な語又はフレーズは、説明、請求項、又は図面にあるかにかかわらず、用語のうちの１つ、用語のうちのいずれか、又は両方の用語を含む可能性を想定すると理解されるべきである。例えば、フレーズ「Ａ又はＢ」は、「Ａ」又は「Ｂ」又は「Ａ及びＢ」の可能性を含むと理解されるべきである。

本開示に記載された全ての例及び条件付き言語は、読者が本開示及び本開示が技術を更に発展させることに貢献する概念を理解するのを支援する教示目的を意図しており、そのような具体的に列挙された例及び条件に限定されないと解釈されるべきである。本開示の実施形態は詳細に記載されたが、本開示の精神及び範囲から逸脱することなく、これらに種々の変更、代替、及び選択が行われ得る。

以上の実施形態に加えて、更に以下の付記を開示する。
（付記１）
フィルタリング基準に基づき、機械学習（ＭＬ）プロジェクトの１つ以上のレポジトリから、ＭＬプロジェクトのセットを収集するステップと、
前記ＭＬプロジェクトのセットの中のＭＬパイプラインの実行可能性を保証するステップと、
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの無関係な部分を識別するステップと、
前記ＭＬプロジェクトのセットについて品質特徴を生成するステップと、
前記ＭＬプロジェクトのセットについて多様性特徴を生成するステップと、
前記品質特徴及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットからＭＬプロジェクトのサブセットを選択するステップと、
前記ＭＬプロジェクトのサブセットを、新しいＭＬプロジェクトにおける使用のために適応される前記ＭＬプロジェクトに格納するステップと、
を含む方法。
（付記２）
前記ＭＬプロジェクトのセットを収集する前記ステップは、
データセットの品質に基づき、ＭＬプロジェクトの前記１つ以上のレポジトリからの全部のＭＬプロジェクトの全部のデータセットをランク付けするステップと、
第１の所定数の上位にランク付けされたデータセットを選択するステップと、
選択したデータセットの各々について、重要度基準に基づき、対応するＭＬプロジェクトをランク付けするステップと、
前記ＭＬプロジェクトのセットに含めるために、第２の所定数の上位にランク付けされたＭＬプロジェクトを選択するステップと、
を含む、付記１に記載の方法。
（付記３）
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの実行可能性を保証する前記ステップは、
前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインを変更せずに実行可能であると決定し、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトを維持するステップと、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインに対してアプリケーションプログラムインタフェース（ＡＰＩ）適応を実行した後に実行可能であると決定し、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトを維持するステップ、又は、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインにＡＰＩ適応を実行した後でも実行可能ではないと決定し、前記ＭＬプロジェクトを前記ＭＬプロジェクトのセットから除去するステップ、
を含む、付記１に記載の方法。
（付記４）
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの無関係な部分を識別する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、
前記ＭＬプロジェクトのデータセットのプロパティ保存サンプルを生成するステップと、
前記ＭＬパイプラインの各ステートメントの中で変更された変数及びオブジェクトを追跡するよう前記ＭＬパイプラインをインストルメント化するステップと、
前記データセットの前記サンプルに対してインストルメント化したＭＬパイプラインを実行して、実行トレースを収集するステップと、
前記ＭＬパイプラインの中のターゲットステートメントを識別するステップと、
前記ターゲットステートメントから全部の変数及びオブジェクトを抽出するステップと、
前記実行トレースから抽出した変数及びオブジェクトのバックワードスライスを生成するステップと、
前記バックワードスライスからの前記ＭＬパイプラインの中のステートメントに関係有りと、前記ＭＬパイプラインの中の全部の他のステートメントに関係無しと、注釈を付けるステップと、
を含む、付記１に記載の方法。
（付記５）
前記ＭＬプロジェクトのセットについて前記品質特徴を生成する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、以下：
前記ＭＬプロジェクトのトレーニング済みＭＬモデルの精度、
前記ＭＬプロジェクトの前記ＭＬパイプラインの文書化品質、
前記ＭＬプロジェクトの前記ＭＬパイプラインのモジュール性品質、
前記ＭＬプロジェクトの前記ＭＬパイプラインの標準ＡＰＩ使用品質、
前記ＭＬプロジェクトの評価、
に基づき、前記ＭＬプロジェクトの数値品質スコアを生成するステップを含む、付記１に記載の方法。
（付記６）
前記ＭＬプロジェクトのセットについて前記多様性特徴を生成する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、以下：
前記ＭＬプロジェクトのデータセットのサイズ、
前記ＭＬプロジェクトの前記データセットの中の失われた値の存在又は不存在、
前記ＭＬプロジェクトの前記データセットの中のデータのタイプ、
前記ＭＬプロジェクトの前記ＭＬパイプラインの中の所定のライブラリＡＰＩの存在又は不存在、
前記ＭＬプロジェクトの前記データセットの中の成分データストリームの相対範囲、
に基づき、前記ＭＬプロジェクトについて特徴ベクトルを抽出するステップを含む、付記１に記載の方法。
（付記７）
前記品質特徴及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットから前記ＭＬプロジェクトのサブセットを選択する前記ステップは、
前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、前記ＭＬプロジェクトの前記品質特徴に基づき品質指標を生成するステップと、
前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、前記ＭＬプロジェクトの前記品質指標から重みを生成するステップと、
前記重み及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトから、加重セットカバー（ＷＳＣ）問題を構成するステップと、
前記ＷＳＣ問題を解いて、前記ＭＬプロジェクトのサブセットを選択するステップと、
を含む、付記１に記載の方法。
（付記８）
命令を格納するよう構成される１つ以上の非一時的コンピュータ可読記憶媒体であって、前記命令は実行されることに応答してシステムに動作を実行させ、前記動作は、
フィルタリング基準に基づき、機械学習（ＭＬ）プロジェクトの１つ以上のレポジトリから、ＭＬプロジェクトのセットを収集するステップと、
前記ＭＬプロジェクトのセットの中のＭＬパイプラインの実行可能性を保証するステップと、
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの無関係な部分を識別するステップと、
前記ＭＬプロジェクトのセットについて品質特徴を生成するステップと、
前記ＭＬプロジェクトのセットについて多様性特徴を生成するステップと、
前記品質特徴及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットからＭＬプロジェクトのサブセットを選択するステップと、
前記ＭＬプロジェクトのサブセットを、新しいＭＬプロジェクトにおける使用のために適応される前記ＭＬプロジェクトに格納するステップと、
を含む、１つ以上の非一時的コンピュータ可読記憶媒体。
（付記９）
前記ＭＬプロジェクトのセットを収集する前記ステップは、
データセットの品質に基づき、ＭＬプロジェクトの前記１つ以上のレポジトリからの全部のＭＬプロジェクトの全部のデータセットをランク付けするステップと、
第１の所定数の上位にランク付けされたデータセットを選択するステップと、
選択したデータセットの各々について、重要度基準に基づき、対応するＭＬプロジェクトをランク付けするステップと、
前記ＭＬプロジェクトのセットに含めるために、第２の所定数の上位にランク付けされたＭＬプロジェクトを選択するステップと、
を含む、付記８に記載の１つ以上の非一時的コンピュータ可読記憶媒体。
（付記１０）
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの実行可能性を保証する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインを変更せずに実行可能であると決定し、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトを維持するステップと、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインにアプリケーションプログラムインタフェース（ＡＰＩ）適応を実行した後に実行可能であると決定し、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトを維持するステップと、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインにＡＰＩ適応を実行した後でも実行可能ではないと決定し、前記ＭＬプロジェクトのセットから前記ＭＬプロジェクトを除去するステップと、
を含む、付記８に記載の１つ以上の非一時的コンピュータ可読記憶媒体。
（付記１１）
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの無関係な部分を識別する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、
前記ＭＬプロジェクトのデータセットのプロパティ保存サンプルを生成するステップと、
前記ＭＬパイプラインの各ステートメントの中で変更された変数及びオブジェクトを追跡するよう前記ＭＬパイプラインをインストルメント化するステップと、
前記データセットの前記サンプルに対してインストルメント化したＭＬパイプラインを実行して、実行トレースを収集するステップと、
前記ＭＬパイプラインの中のターゲットステートメントを識別するステップと、
前記ターゲットステートメントから全部の変数及びオブジェクトを抽出するステップと、
前記実行トレースから抽出した変数及びオブジェクトのバックワードスライスを生成するステップと、
前記バックワードスライスからの前記ＭＬパイプラインの中のステートメントに関係有りと、前記ＭＬパイプラインの中の全部の他のステートメントに関係無しと、注釈を付けるステップと、
を含む、付記８に記載の１つ以上の非一時的コンピュータ可読記憶媒体。
（付記１２）
前記ＭＬプロジェクトのセットについて前記品質特徴を生成する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、以下：
前記ＭＬプロジェクトのトレーニング済みＭＬモデルの精度、
前記ＭＬプロジェクトの前記ＭＬパイプラインの文書化品質、
前記ＭＬプロジェクトの前記ＭＬパイプラインのモジュール性品質、
前記ＭＬプロジェクトの前記ＭＬパイプラインの標準ＡＰＩ使用品質、
前記ＭＬプロジェクトの評価、
に基づき、前記ＭＬプロジェクトの数値品質スコアを生成するステップを含む、付記８に記載の１つ以上の非一時的コンピュータ可読記憶媒体。
（付記１３）
前記ＭＬプロジェクトのセットについて前記多様性特徴を生成する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、以下：
前記ＭＬプロジェクトのデータセットのサイズ、
前記ＭＬプロジェクトの前記データセットの中の失われた値の存在又は不存在、
前記ＭＬプロジェクトの前記データセットの中のデータのタイプ、
前記ＭＬプロジェクトの前記ＭＬパイプラインの中の所定のライブラリＡＰＩの存在又は不存在、
前記ＭＬプロジェクトの前記データセットの中の成分データストリームの相対範囲、
に基づき、前記ＭＬプロジェクトについて特徴ベクトルを抽出するステップを含む、付記８に記載の１つ以上の非一時的コンピュータ可読記憶媒体。
（付記１４）
前記品質特徴及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットから前記ＭＬプロジェクトのサブセットを選択する前記ステップは、
前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、前記ＭＬプロジェクトの前記品質特徴に基づき品質指標を生成するステップと、
前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、前記ＭＬプロジェクトの前記品質指標から重みを生成するステップと、
前記重み及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトから、加重セットカバー（ＷＳＣ）問題を構成するステップと、
前記ＷＳＣ問題を解いて、前記ＭＬプロジェクトのサブセットを選択するステップと、
を含む、付記８に記載の１つ以上の非一時的コンピュータ可読記憶媒体。

（付記１５）
システムであって、
１つ以上のプロセッサと、
命令を格納するよう構成される１つ以上の非一時的コンピュータ可読記憶媒体と、
を含み、前記命令は前記１つ以上のプロセッサにより実行されることに応答して前記システムに動作を実行させ、前記動作は、
フィルタリング基準に基づき、機械学習（ＭＬ）プロジェクトの１つ以上のレポジトリから、ＭＬプロジェクトのセットを収集するステップと、
前記ＭＬプロジェクトのセットの中のＭＬパイプラインの実行可能性を保証するステップと、
前記ＭＬプロジェクトのセットの中に前記ＭＬパイプラインの無関係な部分を識別するステップと、
前記ＭＬプロジェクトのセットについて品質特徴を生成するステップと、
前記ＭＬプロジェクトのセットについて多様性特徴を生成するステップと、
前記品質特徴及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットからＭＬプロジェクトのサブセットを選択するステップと、
前記ＭＬプロジェクトのサブセットを、新しいＭＬプロジェクトにおける使用のために適応される前記ＭＬプロジェクトに格納するステップと、
を含む、システム。
（付記１６）
前記ＭＬプロジェクトのセットを収集する前記ステップは、
データセットの品質に基づき、ＭＬプロジェクトの前記１つ以上のレポジトリからの全部のＭＬプロジェクトの全部のデータセットをランク付けするステップと、
第１の所定数の上位にランク付けされたデータセットを選択するステップと、
選択したデータセットの各々について、重要度基準に基づき、対応するＭＬプロジェクトをランク付けするステップと、
前記ＭＬプロジェクトのセットに含めるために、第２の所定数の上位にランク付けされたＭＬプロジェクトを選択するステップと、
を含む、付記１５に記載のシステム。
（付記１７）
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの実行可能性を保証する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインを変更せずに実行可能であると決定し、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトを維持するステップと、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインにＡＰＩ適応を実行した後でも実行可能ではないと決定し、前記ＭＬプロジェクトのセットから前記ＭＬプロジェクトを除去するステップと、
を含む、付記１５に記載のシステム。
（付記１８）
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの無関係な部分を識別する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、
前記ＭＬプロジェクトのデータセットのプロパティ保存サンプルを生成するステップと、
前記ＭＬパイプラインの各ステートメントの中で変更された変数及びオブジェクトを追跡するよう前記ＭＬパイプラインをインストルメント化するステップと、
前記データセットの前記サンプルに対してインストルメント化したＭＬパイプラインを実行して、実行トレースを収集するステップと、
前記ＭＬパイプラインの中のターゲットステートメントを識別するステップと、
前記ターゲットステートメントから全部の変数及びオブジェクトを抽出するステップと、
前記実行トレースから抽出した変数及びオブジェクトのバックワードスライスを生成するステップと、
前記バックワードスライスからの前記ＭＬパイプラインの中のステートメントに関係有りと、前記ＭＬパイプラインの中の全部の他のステートメントに関係無しと、注釈を付けるステップと、
を含む、付記１５に記載のシステム。
（付記１９）
前記ＭＬプロジェクトのセットについて前記品質特徴を生成する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、以下：
前記ＭＬプロジェクトのトレーニング済みＭＬモデルの精度、
前記ＭＬプロジェクトの前記ＭＬパイプラインの文書化品質、
前記ＭＬプロジェクトの前記ＭＬパイプラインのモジュール性品質、
前記ＭＬプロジェクトの前記ＭＬパイプラインの標準ＡＰＩ使用品質、
前記ＭＬプロジェクトの評価、
に基づき、前記ＭＬプロジェクトの数値品質スコアを生成するステップを含み、
前記ＭＬプロジェクトのセットにｔ前記多様性特徴を生成する前記ステップは、前記ＭＬプロジェクトについて、
前記ＭＬプロジェクトのデータセットのサイズ、
前記ＭＬプロジェクトの前記データセットの中の失われた値の存在又は不存在、
前記ＭＬプロジェクトの前記データセットの中のデータのタイプ、
前記ＭＬプロジェクトの前記データセットの中の成分データストリームの相対範囲、
に基づき特徴ベクトルを抽出するステップを含む、付記１５に記載のシステム。
（付記２０）
前記品質特徴及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットから前記ＭＬプロジェクトのサブセットを選択する前記ステップは、
前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、前記ＭＬプロジェクトの前記品質特徴に基づき品質指標を生成するステップと、
前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、前記ＭＬプロジェクトの前記品質指標から重みを生成するステップと、
前記重み及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトから、加重セットカバー（ＷＳＣ）問題を構成するステップと、
前記ＷＳＣ問題を解いて、前記ＭＬプロジェクトのサブセットを選択するステップと、
を含む、付記１５に記載のシステム。

１０２ＯＳＳＭＬプロジェクトデータベース
１０４ＭＬプロジェクトコーパス
１０６新しいデータセット
１０８新しいＭＬタスク
１０９データセット
１１０関連する既存のＭＬプロジェクト
１１１ＭＬパイプライン
１１２新しいＭＬパイプライン
１１４キュレーションモジュール
１１６検索モジュール
１２０適応モジュール

Claims

フィルタリング基準に基づき、機械学習（ＭＬ）プロジェクトの１つ以上のレポジトリから、ＭＬプロジェクトのセットを収集するステップと、
前記ＭＬプロジェクトのセットの中のＭＬパイプラインの実行可能性を保証するステップと、
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの無関係な部分を識別するステップと、
前記ＭＬプロジェクトのセットについて品質特徴を生成するステップと、
前記ＭＬプロジェクトのセットについて多様性特徴を生成するステップと、
前記品質特徴及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットからＭＬプロジェクトのサブセットを選択するステップと、
前記ＭＬプロジェクトのサブセットを、新しいＭＬプロジェクトにおける使用のために適応される前記ＭＬプロジェクトに格納するステップと、
を含む方法。
前記ＭＬプロジェクトのセットを収集する前記ステップは、
データセットの品質に基づき、ＭＬプロジェクトの前記１つ以上のレポジトリからの全部のＭＬプロジェクトの全部のデータセットをランク付けするステップと、
第１の所定数の上位にランク付けされたデータセットを選択するステップと、
選択したデータセットの各々について、重要度基準に基づき、対応するＭＬプロジェクトをランク付けするステップと、
前記ＭＬプロジェクトのセットに含めるために、第２の所定数の上位にランク付けされたＭＬプロジェクトを選択するステップと、
を含む、請求項１に記載の方法。
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの実行可能性を保証する前記ステップは、
前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインを変更せずに実行可能であると決定し、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトを維持するステップと、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインに対してアプリケーションプログラムインタフェース（ＡＰＩ）適応を実行した後に実行可能であると決定し、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトを維持するステップ、又は、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインにＡＰＩ適応を実行した後でも実行可能ではないと決定し、前記ＭＬプロジェクトを前記ＭＬプロジェクトのセットから除去するステップ、
を含む、請求項１に記載の方法。
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの無関係な部分を識別する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、
前記ＭＬプロジェクトのデータセットのプロパティ保存サンプルを生成するステップと、
前記ＭＬパイプラインの各ステートメントの中で変更された変数及びオブジェクトを追跡するよう前記ＭＬパイプラインをインストルメント化するステップと、
前記データセットの前記サンプルに対してインストルメント化したＭＬパイプラインを実行して、実行トレースを収集するステップと、
前記ＭＬパイプラインの中のターゲットステートメントを識別するステップと、
前記ターゲットステートメントから全部の変数及びオブジェクトを抽出するステップと、
前記実行トレースから抽出した変数及びオブジェクトのバックワードスライスを生成するステップと、
前記バックワードスライスからの前記ＭＬパイプラインの中のステートメントに関係有りと、前記ＭＬパイプラインの中の全部の他のステートメントに関係無しと、注釈を付けるステップと、
を含む、請求項１に記載の方法。
前記ＭＬプロジェクトのセットについて前記品質特徴を生成する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、以下：
前記ＭＬプロジェクトのトレーニング済みＭＬモデルの精度、
前記ＭＬプロジェクトの前記ＭＬパイプラインの文書化品質、
前記ＭＬプロジェクトの前記ＭＬパイプラインのモジュール性品質、
前記ＭＬプロジェクトの前記ＭＬパイプラインの標準ＡＰＩ使用品質、
前記ＭＬプロジェクトの評価、
に基づき、前記ＭＬプロジェクトの数値品質スコアを生成するステップを含む、請求項１に記載の方法。
前記ＭＬプロジェクトのセットについて前記多様性特徴を生成する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、以下：
前記ＭＬプロジェクトのデータセットのサイズ、
前記ＭＬプロジェクトの前記データセットの中の失われた値の存在又は不存在、
前記ＭＬプロジェクトの前記データセットの中のデータのタイプ、
前記ＭＬプロジェクトの前記ＭＬパイプラインの中の所定のライブラリＡＰＩの存在又は不存在、
前記ＭＬプロジェクトの前記データセットの中の成分データストリームの相対範囲、
に基づき、前記ＭＬプロジェクトについて特徴ベクトルを抽出するステップを含む、請求項１に記載の方法。
前記品質特徴及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットから前記ＭＬプロジェクトのサブセットを選択する前記ステップは、
前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、前記ＭＬプロジェクトの前記品質特徴に基づき品質指標を生成するステップと、
前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、前記ＭＬプロジェクトの前記品質指標から重みを生成するステップと、
前記重み及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトから、加重セットカバー（ＷＳＣ）問題を構成するステップと、
前記ＷＳＣ問題を解いて、前記ＭＬプロジェクトのサブセットを選択するステップと、
を含む、請求項１に記載の方法。
命令を格納するよう構成される１つ以上の非一時的コンピュータ可読記憶媒体であって、前記命令は実行されることに応答してシステムに動作を実行させ、前記動作は、
フィルタリング基準に基づき、機械学習（ＭＬ）プロジェクトの１つ以上のレポジトリから、ＭＬプロジェクトのセットを収集するステップと、
前記ＭＬプロジェクトのセットの中のＭＬパイプラインの実行可能性を保証するステップと、
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの無関係な部分を識別するステップと、
前記ＭＬプロジェクトのセットについて品質特徴を生成するステップと、
前記ＭＬプロジェクトのセットについて多様性特徴を生成するステップと、
前記品質特徴及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットからＭＬプロジェクトのサブセットを選択するステップと、
前記ＭＬプロジェクトのサブセットを、新しいＭＬプロジェクトにおける使用のために適応される前記ＭＬプロジェクトに格納するステップと、
を含む、１つ以上の非一時的コンピュータ可読記憶媒体。
前記ＭＬプロジェクトのセットを収集する前記ステップは、
データセットの品質に基づき、ＭＬプロジェクトの前記１つ以上のレポジトリからの全部のＭＬプロジェクトの全部のデータセットをランク付けするステップと、
第１の所定数の上位にランク付けされたデータセットを選択するステップと、
選択したデータセットの各々について、重要度基準に基づき、対応するＭＬプロジェクトをランク付けするステップと、
前記ＭＬプロジェクトのセットに含めるために、第２の所定数の上位にランク付けされたＭＬプロジェクトを選択するステップと、
を含む、請求項８に記載の１つ以上の非一時的コンピュータ可読記憶媒体。
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの実行可能性を保証する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインを変更せずに実行可能であると決定し、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトを維持するステップと、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインにアプリケーションプログラムインタフェース（ＡＰＩ）適応を実行した後に実行可能であると決定し、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトを維持するステップと、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインにＡＰＩ適応を実行した後でも実行可能ではないと決定し、前記ＭＬプロジェクトのセットから前記ＭＬプロジェクトを除去するステップと、
を含む、請求項８に記載の１つ以上の非一時的コンピュータ可読記憶媒体。
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの無関係な部分を識別する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、
前記ＭＬプロジェクトのデータセットのプロパティ保存サンプルを生成するステップと、
前記ＭＬパイプラインの各ステートメントの中で変更された変数及びオブジェクトを追跡するよう前記ＭＬパイプラインをインストルメント化するステップと、
前記データセットの前記サンプルに対してインストルメント化したＭＬパイプラインを実行して、実行トレースを収集するステップと、
前記ＭＬパイプラインの中のターゲットステートメントを識別するステップと、
前記ターゲットステートメントから全部の変数及びオブジェクトを抽出するステップと、
前記実行トレースから抽出した変数及びオブジェクトのバックワードスライスを生成するステップと、
前記バックワードスライスからの前記ＭＬパイプラインの中のステートメントに関係有りと、前記ＭＬパイプラインの中の全部の他のステートメントに関係無しと、注釈を付けるステップと、
を含む、請求項８に記載の１つ以上の非一時的コンピュータ可読記憶媒体。
前記ＭＬプロジェクトのセットについて前記品質特徴を生成する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、以下：
前記ＭＬプロジェクトのトレーニング済みＭＬモデルの精度、
前記ＭＬプロジェクトの前記ＭＬパイプラインの文書化品質、
前記ＭＬプロジェクトの前記ＭＬパイプラインのモジュール性品質、
前記ＭＬプロジェクトの前記ＭＬパイプラインの標準ＡＰＩ使用品質、
前記ＭＬプロジェクトの評価、
に基づき、前記ＭＬプロジェクトの数値品質スコアを生成するステップを含む、請求項８に記載の１つ以上の非一時的コンピュータ可読記憶媒体。
前記ＭＬプロジェクトのセットについて前記多様性特徴を生成する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、以下：
前記ＭＬプロジェクトのデータセットのサイズ、
前記ＭＬプロジェクトの前記データセットの中の失われた値の存在又は不存在、
前記ＭＬプロジェクトの前記データセットの中のデータのタイプ、
前記ＭＬプロジェクトの前記ＭＬパイプラインの中の所定のライブラリＡＰＩの存在又は不存在、
前記ＭＬプロジェクトの前記データセットの中の成分データストリームの相対範囲、
に基づき、前記ＭＬプロジェクトについて特徴ベクトルを抽出するステップを含む、請求項８に記載の１つ以上の非一時的コンピュータ可読記憶媒体。
前記品質特徴及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットから前記ＭＬプロジェクトのサブセットを選択する前記ステップは、
前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、前記ＭＬプロジェクトの前記品質特徴に基づき品質指標を生成するステップと、
前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、前記ＭＬプロジェクトの前記品質指標から重みを生成するステップと、
前記重み及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトから、加重セットカバー（ＷＳＣ）問題を構成するステップと、
前記ＷＳＣ問題を解いて、前記ＭＬプロジェクトのサブセットを選択するステップと、
を含む、請求項８に記載の１つ以上の非一時的コンピュータ可読記憶媒体。
システムであって、
１つ以上のプロセッサと、
命令を格納するよう構成される１つ以上の非一時的コンピュータ可読記憶媒体と、
を含み、前記命令は前記１つ以上のプロセッサにより実行されることに応答して前記システムに動作を実行させ、前記動作は、
フィルタリング基準に基づき、機械学習（ＭＬ）プロジェクトの１つ以上のレポジトリから、ＭＬプロジェクトのセットを収集するステップと、
前記ＭＬプロジェクトのセットの中のＭＬパイプラインの実行可能性を保証するステップと、
前記ＭＬプロジェクトのセットの中に前記ＭＬパイプラインの無関係な部分を識別するステップと、
前記ＭＬプロジェクトのセットについて品質特徴を生成するステップと、
前記ＭＬプロジェクトのセットについて多様性特徴を生成するステップと、
前記品質特徴及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットからＭＬプロジェクトのサブセットを選択するステップと、
前記ＭＬプロジェクトのサブセットを、新しいＭＬプロジェクトにおける使用のために適応される前記ＭＬプロジェクトに格納するステップと、
を含む、システム。
前記ＭＬプロジェクトのセットを収集する前記ステップは、
データセットの品質に基づき、ＭＬプロジェクトの前記１つ以上のレポジトリからの全部のＭＬプロジェクトの全部のデータセットをランク付けするステップと、
第１の所定数の上位にランク付けされたデータセットを選択するステップと、
選択したデータセットの各々について、重要度基準に基づき、対応するＭＬプロジェクトをランク付けするステップと、
前記ＭＬプロジェクトのセットに含めるために、第２の所定数の上位にランク付けされたＭＬプロジェクトを選択するステップと、
を含む、請求項１５に記載のシステム。
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの実行可能性を保証する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインを変更せずに実行可能であると決定し、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトを維持するステップと、
前記ＭＬプロジェクトの中の前記ＭＬパイプラインが前記ＭＬパイプラインにＡＰＩ適応を実行した後でも実行可能ではないと決定し、前記ＭＬプロジェクトのセットから前記ＭＬプロジェクトを除去するステップと、
を含む、請求項１５に記載のシステム。
前記ＭＬプロジェクトのセットの中の前記ＭＬパイプラインの無関係な部分を識別する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、
前記ＭＬプロジェクトのデータセットのプロパティ保存サンプルを生成するステップと、
前記ＭＬパイプラインの各ステートメントの中で変更された変数及びオブジェクトを追跡するよう前記ＭＬパイプラインをインストルメント化するステップと、
前記データセットの前記サンプルに対してインストルメント化したＭＬパイプラインを実行して、実行トレースを収集するステップと、
前記ＭＬパイプラインの中のターゲットステートメントを識別するステップと、
前記ターゲットステートメントから全部の変数及びオブジェクトを抽出するステップと、
前記実行トレースから抽出した変数及びオブジェクトのバックワードスライスを生成するステップと、
前記バックワードスライスからの前記ＭＬパイプラインの中のステートメントに関係有りと、前記ＭＬパイプラインの中の全部の他のステートメントに関係無しと、注釈を付けるステップと、
を含む、請求項１５に記載のシステム。
前記ＭＬプロジェクトのセットについて前記品質特徴を生成する前記ステップは、前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、以下：
前記ＭＬプロジェクトのトレーニング済みＭＬモデルの精度、
前記ＭＬプロジェクトの前記ＭＬパイプラインの文書化品質、
前記ＭＬプロジェクトの前記ＭＬパイプラインのモジュール性品質、
前記ＭＬプロジェクトの前記ＭＬパイプラインの標準ＡＰＩ使用品質、
前記ＭＬプロジェクトの評価、
に基づき、前記ＭＬプロジェクトの数値品質スコアを生成するステップを含み、
前記ＭＬプロジェクトのセットにｔ前記多様性特徴を生成する前記ステップは、前記ＭＬプロジェクトについて、
前記ＭＬプロジェクトのデータセットのサイズ、
前記ＭＬプロジェクトの前記データセットの中の失われた値の存在又は不存在、
前記ＭＬプロジェクトの前記データセットの中のデータのタイプ、
前記ＭＬプロジェクトの前記データセットの中の成分データストリームの相対範囲、
に基づき特徴ベクトルを抽出するステップを含む、請求項１５に記載のシステム。
前記品質特徴及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットから前記ＭＬプロジェクトのサブセットを選択する前記ステップは、
前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、前記ＭＬプロジェクトの前記品質特徴に基づき品質指標を生成するステップと、
前記ＭＬプロジェクトのセットの中の各ＭＬプロジェクトについて、前記ＭＬプロジェクトの前記品質指標から重みを生成するステップと、
前記重み及び前記多様性特徴に基づき、前記ＭＬプロジェクトのセットの中の前記ＭＬプロジェクトから、加重セットカバー（ＷＳＣ）問題を構成するステップと、
前記ＷＳＣ問題を解いて、前記ＭＬプロジェクトのサブセットを選択するステップと、
を含む、請求項１５に記載のシステム。