JP2022044016A

JP2022044016A - 新規機械学習プロジェクトにおける使用に適合可能な既存機械学習プロジェクトの自動推奨

Info

Publication number: JP2022044016A
Application number: JP2021142495A
Authority: JP
Inventors: ケイサハ・リポン; K Saha Ripon; アールプラサド・ムクル; R Prasad Mukul
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-09-04
Filing date: 2021-09-01
Publication date: 2022-03-16
Also published as: EP3964980A1; US20220076143A1

Abstract

【課題】新規機械学習プロジェクトにおける使用に適合可能な既存機械学習プロジェクトの自動推奨方法、プログラム及びシステムを提供する。【解決手段】方法は、既存の機械学習（ＭＬ）プロジェクトから第１の特徴を抽出することと、第１の特徴をコーパスに記憶することと、第１の検索クエリに基づいてコーパス上で第１の検索を実行して既存のＭＬプロジェクトの第１のランク付けセットを生成することと、既存のＭＬプロジェクトの第１のランク付けセットの第１の特徴に基づいて第２の特徴を生成することと、第２の検索クエリに基づいてコーパス上で第２の検索を実行して既存のＭＬプロジェクトの第２のランク付けセットを生成することと、既存のＭＬプロジェクトの第２のランク付けセット内の最も高いランク付けの既存のＭＬプロジェクトを第２のＭＬプロジェクトでの使用に適合可能として推奨することと、を含む。【選択図】図３

Description

本開示で論じられる実施形態は、既存の機械学習プロジェクトを新しい機械学習プロジェクトでの使用に適合可能として自動的に推奨することに関する。

機械学習（ＭＬ）は、一般に、予測を行うために訓練データを用いて訓練されるＭＬモデルを採用し、予測は、継続的な訓練で自動的により正確になる。ＭＬは、これらに限られないがトラフィック予測、ウェブ検索、オンライン詐欺検出、医療診断、発話認識、電子メールフィルタリング、画像認識、バーチャルパーソナルアシスタント、及び自動翻訳を含む広範なアプリケーションで使用され得る。

ＭＬがますます一般的になるにつれ、新しいＭＬプロジェクトを実装することに応じられるＭＬ専門家（例えば、熟練したデータ科学者）の不足がしばしばある。例えば、いくつかの推定によれば、新規ＭＬプロジェクトを開発するタスクを現在課されているデータ科学者の大多数は非専門家（例えば、比較的未熟又は初心者）であり、ますます複雑なＭＬプロジェクトの開発に適任であろう修士又は博士号を有するのは５人に２人程度にすぎない。

自動化されたＭＬ（ＡｕｔｏＭＬ）は、ＭＬを現実の問題に適用するプロセスを自動化するプロセスである。ＡｕｔｏＭＬは、非専門家にまずＭＬ専門家になるよう求めることなく、非専門家がＭＬモデル及び手法を利用することを可能にし得る。ＡｕｔｏＭＬは、ＭＬ専門家の不足があるとしても新しいＭＬプロジェクトを実装するという、ますます増大する課題に対する解決策として提案されてきた。しかしながら、現在のＡｕｔｏＭＬソリューションは単に簡素かつ部分的なソリューションを提供しており、これらは、非専門家が新規ＭＬプロジェクトを完全に実装できるようにするには不十分である。

本開示において請求される主題事項は、何らかの欠点を解決し又は上述されたような環境においてのみ動作する実施形態に限定されない。むしろ、この背景技術は、本開示に記載されるいくつかの実施形態が実施され得る１つの例示的な技術分野を示すためにのみ提供される。

一実施形態の態様によれば、動作は、既存の機械学習（ＭＬ）プロジェクトのセット内の既存のＭＬプロジェクトごとに、上記既存のＭＬプロジェクトから第１のプロジェクト特徴、第１のデータセット特徴、及び第１のパイプライン特徴を抽出し、上記既存のＭＬプロジェクトの上記第１のプロジェクト特徴、上記第１のデータセット特徴、及び上記第１のパイプライン特徴をコーパスに記憶することを含み得る。動作は、第２のＭＬプロジェクトからの第２のプロジェクト特徴及び第２のデータセット特徴に基づいて第１の検索クエリを生成することをさらに含み得る。さらに、動作は、上記第１の検索クエリに基づいて上記コーパス上で第１の検索を実行して１つ以上の第１の類似度スコアに基づいて上記既存のＭＬプロジェクトの第１のランク付けセットを生成することを含み得る。さらに、動作は、上記既存のＭＬプロジェクトの上記第１のランク付けセットの上記第１のパイプライン特徴に基づいて第２のパイプライン特徴を生成することを含み得る。さらに、動作は、上記第２のプロジェクト特徴、上記第２のデータセット特徴、及び上記第２のパイプライン特徴に基づいて第２の検索クエリを生成することを含み得る。さらに、動作は、上記第２の検索クエリに基づいて上記コーパス上で第２の検索を実行して１つ以上の第２の類似度スコアに基づいて上記既存のＭＬプロジェクトの第２のランク付けセットを生成することを含み得る。さらに、動作は、上記既存のＭＬプロジェクトの上記第２のランク付けセット内の最も高いランク付けの既存のＭＬプロジェクトを上記第２のＭＬプロジェクトでの使用に適合可能として推奨することを含み得る。

実施形態の目的及び利点は、少なくとも特許請求の範囲において特に指し示された要素、特徴、及び組み合わせにより実現され、達成される。

前述の一般的な説明及び以下の詳細な説明の双方が例として与えられており、説明的であり、請求される発明の限定ではない。

例示的な実施形態が、添付図面の使用を通してさらなる特定性及び詳細と共に記載され、説明される。
既存のＭＬプロジェクトを自動的に検索し、新しいＭＬプロジェクトに適合させることに関する一例示的な環境を表す図である。一例示的なコンピューティングシステムのブロック図を示す。既存のＭＬプロジェクトを新しいＭＬプロジェクトでの使用に適合可能として自動的に推奨する一例示的な方法のフローチャートである。コーパス上で検索を実行する一例示的な方法のフローチャートである。新しいＭＬプロジェクトの関連パイプライン特徴を生成する一例示的な方法のフローチャートである。正規化されたＭＬプロジェクト特徴の第１の例示的な構造化文書を示す。正規化されたＭＬプロジェクト特徴の第２の例示的な構造化文書を示す。構造化クエリとしてフォーマットされた新しいＭＬプロジェクトのための一例示的な検索クエリを示す図である。類似度スコアを計算する一例示的な方法のフローチャートである。構造化クエリとしてフォーマットされた新しいＭＬプロジェクトのための一例示的な再定式化された検索クエリを示す。

本開示に記載されるいくつかの実施形態は、既存のＭＬプロジェクトを新しいＭＬプロジェクトでの使用に適合可能として自動的に推奨する方法及びシステムに関する。

ＭＬがますます一般的になるにつれ、新しいＭＬプロジェクトを実装することに応じられるＭＬ専門家（例えば、熟練したデータ科学者）の不足がしばしばある。従来のプログラムと異なり、ＭＬプロジェクトの教師付き（supervised）ＭＬパイプラインは、一般に、そのワークフローにおいて高い類似性を有することがある。しかしながら、多くの理由で、新しい予測タスクのために最初のエンドツーエンドのＭＬプロジェクトを実装することは依然としてかなり時間がかかり、チャレンジングな可能性があり、上記理由には、絶えず進化するＭＬフレームワーク及びライブラリを常に把握していることに関連する経験の不足と困難さが含まれる。ＭＬ専門家の不足した状態で新しいＭＬプロジェクトを実装するという、ますます増大する課題を解決するために、様々なＡｕｔｏＭＬソリューション（例えば、Ａｕｔｏ－Ｓｋｌｅａｒｎ、ＡｕｔｏＰａｎｄａｓなど）が提案されてきたが、現在のＡｕｔｏＭＬソリューションは単に簡素かつ部分的なソリューションを提供しており、これらは、非専門家が新規ＭＬプロジェクトを完全に実装できるようにするには不十分である。さらに、既存のＭＬプロジェクトのオープンソースソフトウェア（ＯＳＳ）データベース（例えば、Ｋａｇｇｌｅ、ＧｉｔＨｕｂなど）は、専門家と非専門家の双方が既存のＭＬプロジェクトで協働することを可能にするが、非専門家がこれらのデータベースで潜在的に有用な既存のＭＬプロジェクトを見つけることは、少なくとも、従来のキーワード検索が最も関連する既存のＭＬプロジェクトを確実に見つけることができず、また新しいＭＬプロジェクトのドメインとは異なるドメインで関連するＭＬプロジェクトを見つけることができないことに起因して、困難又は不可能な可能性がある。

本開示において、用語「ＭＬプロジェクト」は、データセットと、データセットに対して定義されたＭＬタスクと、ＭＬタスクのためのＭＬモデルを訓練し、このＭＬモデルを新しい予測に使用するための動作のシーケンスを実施するように構成されるＭＬパイプライン（例えば、スクリプト又はプログラムコード）とを含む、プロジェクトを指し得る。本開示において、用語「ノートブック（notebook）」は、ＭＬパイプライン（例えば、Ｊｕｐｙｔｅｒノートブック）を開発及び／又は表現するために使用される計算構造を指し得る。本開示において、用語「構造化文書」及び「構造化クエリ」は、その内容がＸＭＬなどのマークアップ言語を使用してラベル付きブロックに編成された電子的な文書又はクエリを指し得る。本明細書に開示される実施形態は、Ｐｙｔｈｏｎプログラミング言語のＭＬパイプライン、Ｊｕｐｙｔｅｒノートブックとして構造化されたノートブック、及びＸＭＬを採用する構造化文書及び構造化クエリを用いて説明されるが、他の実施形態が、異なる言語で書かれたＭＬパイプライン、他のプラットフォームで構造化されたノートブック、及びＸＭＬ以外の構造化言語（例えば、ＪＳＯＮなど）を採用する構造化文書及び構造化クエリを含み得ることが理解される。

本開示の１つ以上の実施形態によれば、動作は、既存のＭＬプロジェクトを新しいＭＬプロジェクトでの使用に適合可能として自動的に推奨するように実行され得る。例えば、いくつかの実施形態において、コンピュータシステムは、「検索及び適合」スタイルのワークフローに立脚することにより、データ科学者の自然なワークフローを有機的にサポートすることができ、これにおいて、データ科学者は、新しいＭＬプロジェクトを構築するための良い出発点として機能できる既存のＭＬプロジェクトをまず検索し、次いで、既存のＭＬプロジェクトを適切に適合させて新しいＭＬプロジェクトの新しいデータセット及び新しいＭＬタスクのためのＭＬパイプラインを構築するであろう。

例えば、いくつかの実施形態において、コンピュータシステムは、既存のＭＬプロジェクトのデータベース（例えば、既存のＭＬプロジェクトのＯＳＳデータベース、既存のＭＬプロジェクトの社内データベースなど）から生の（raw）ＭＬプロジェクトを自動的にマイニングすることができ、それらを既存のＭＬプロジェクトのコーパスに格納する前に、生のＭＬプロジェクトを自動的にキュレートする（curate）ことができる。いくつかの実施形態において、大規模なリポジトリからの既存のＭＬプロジェクトのこのマイニング及びキュレーションは、検索及び適合ワークフローにおいて使用できる多様で高品質な既存のＭＬプロジェクトのコーパスを結果としてもたらし得る。さらに、このキュレーションは、各既存のＭＬプロジェクトからプロジェクト特徴、データセット特徴、及びパイプライン特徴を抽出し、これらの特徴を各既存のＭＬプロジェクトのコーパスに記憶することを含み得る。

いくつかの実施形態において、非専門家のデータ科学者などから新しいＭＬプロジェクトのための新しいデータセット及び新しいＭＬタスクを受け取ると、コンピュータシステムは、新しいＭＬプロジェクトでの使用に適合可能であるように最も適し得る１つ以上の既存のＭＬプロジェクトについてコーパスを自動的に検索することができる。この検索は、コンピュータシステムが新しいＭＬプロジェクトからの新しいプロジェクト特徴及び新しいデータセット特徴に基づいて初期検索クエリを生成することを含み得る。次いで、コンピュータシステムは、初期検索クエリに基づいてコーパス上で初期検索を実行して、類似のプロジェクト特徴及びデータセット特徴を有する既存のＭＬプロジェクトの初期ランク付けセットを生成することができる。次に、コンピュータシステムは、既存のＭＬプロジェクトの初期ランク付けセットのパイプライン特徴に基づいて関連するパイプライン特徴を生成し、新しいプロジェクト特徴、新しいデータセット特徴、及び関連するパイプライン特徴に基づいて最終検索クエリを生成することができる。次いで、コンピュータシステムは、最終検索クエリに基づいてコーパス上で最終検索を実行して、類似のプロジェクト特徴、データセット特徴、及びパイプライン特徴を有する既存のＭＬプロジェクトの最終ランク付けセットを生成することができる。最後、コンピュータシステムは、既存のＭＬプロジェクトの最終ランク付けセット内の１つ以上の最も高いランク付けの既存のＭＬプロジェクトを、新しいＭＬプロジェクトでの使用に最も適合可能として推奨することができる。

したがって、いくつかの実施形態において、非専門家のデータ科学者は、単に新しいＭＬプロジェクトのための新しいデータセット及び新しいＭＬタスクを定式化することができ、次いで、コンピュータシステムは、ツールにより支援される対話型の検索及び適合ワークフローを実装して、既存のＭＬプロジェクトを自動的に検索し、新しいＭＬプロジェクトでの使用に適合可能として推奨することができる。したがって、いくつかの実施形態は、初心者のデータ科学者に、新しいＭＬプロジェクトのための新しい高品質のエンドツーエンドのＭＬパイプラインを効率的に作成する力を与えることができる。

本開示の１つ以上の実施形態によれば、ＭＬプロジェクト開発の技術分野は、データ科学者（例えば、しばしば非専門家である）に新しいＭＬプロジェクトの新しい要件に最も類似した潜在的に有用な既存のＭＬプロジェクトを手動で見つけるタスクを課すことと比較して、既存のＭＬプロジェクトを自動的に検索し、新しいＭＬプロジェクトでの使用に適合可能として推奨するようにコンピューティングシステムを構成することにより、改善され得る。このような構成により、コンピューティングシステムは、抽出されたプロジェクト特徴、データセット特徴、及びパイプライン特徴に基づいて関連する既存のＭＬプロジェクトをより良く検索することができ得る。

本開示の実施形態は、添付の図面を参照して説明される。

図１は、本開示に記載される少なくとも１つの実施形態に従って配置された、既存のＭＬプロジェクトを自動的に検索し、新しいＭＬプロジェクトに適合させることに関する一例示的な環境１００を表す図である。環境１００は、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎと、既存のＭＬプロジェクトをＭＬプロジェクトコーパス１０４へキュレートするように構成されたキュレーションモジュール１１４と、新しいＭＬプロジェクトの新しいデータセット１０６及び新しいＭＬタスク１０８（例えば、データ科学者１１８により提供された）に基づいて新しいＭＬプロジェクトのためにＭＬプロジェクトコーパス１０４から関連する既存のＭＬプロジェクト１１０（それらの対応するデータセット１０９及びＭＬパイプライン１１１を含む）を検索するように構成された検索モジュールと、関連する既存のＭＬプロジェクト１１０のＭＬパイプライン１１１を新しいＭＬプロジェクトの新しいＭＬパイプライン１１２に合成し適合させるように構成された適合モジュール１２０を含み得る。

ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎは、既存のＭＬプロジェクトの大規模なリポジトリでもよく、各ＭＬプロジェクトは、少なくともデータセットと、データセットに対して定義されたＭＬタスクと、ＭＬタスクのためのＭＬモデルを訓練し、このＭＬモデルを新しい予測に使用するための動作のシーケンスを実施するように構成されるＭＬパイプライン（例えば、スクリプト又はプログラムコード）とを含む、電子データを含む。既存のＭＬプロジェクトの大規模なリポジトリいくつかの例は、これらに限られないが、Ｋａｇｇｌｅ及びＧｉｔＨｕｂを含む。いくつかの実施形態において、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎ内の各ＭＬプロジェクトは、ノートブックを含んでもよく、ノートブックは、ＭＬパイプラインを開発及び／又は表現するために使用される計算構造であり得る。ノートブックの一例は、Ｊｕｐｙｔｅｒノートブックである。いくつかの実施形態において、環境１００は、既存のＭＬプロジェクトの社内データベースなど、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎに追加で、既存のＭＬプロジェクトの他のデータベースをさらに含んでもよい。

キュレーションモジュール１１４、検索モジュール１１６、及び適合モジュール１２０の各々は、コンピューティングデバイスが１つ以上の動作を実行することを可能にするように構成されたコード及びルーチンを含んでもよい。さらに又は代わりに、これらのモジュールの各々は、プロセッサ、マイクロプロセッサ（例えば、１つ以上の動作を実行し又はその実行を制御するための）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は特定用途向け集積回路（ＡＳＩＣ）を含むハードウェアを使用して実装されてもよい。いくつかの他の例において、モジュールの各々は、ハードウェア及びソフトウェアの組み合わせを使用して実装されてもよい。本開示において、これらのモジュールの各々により実行されると記載された動作は、モジュールが対応するシステムに実行するよう指示し得る動作を含み得る。

キュレーションモジュール１１４は、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎに記憶された既存のＭＬプロジェクトに関して、既存のＭＬプロジェクトをＭＬプロジェクトコーパス１０４に記憶する前又は後に、一連の動作を実行するように構成され得る。例えば、キュレーションモジュール１１４は、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎからの生のＭＬプロジェクトを自動的にマイニングして、ＭＬプロジェクトコーパス１０４にそれらを記憶する前又は後に、生のＭＬプロジェクトを自動的にキュレートするように構成されてもよい。ＭＬプロジェクトコーパス１０４は、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎからキュレートされた既存のＭＬプロジェクトのリポジトリであり得る。いくつかの実施形態において、ＭＬプロジェクトコーパス１０４は、自動化された「検索及び適合」スタイルのワークフローにおいて採用され得るクリーニングされた、高品質の、インデキシングされた既存のＭＬプロジェクトの大規模なコーパスであり得る。このワークフローのスタイルにおいて、検索は、新しいＭＬタスク１０８及び新しいデータセット１０６に関連し、かつ新しいＭＬパイプライン１１２を含む新しいＭＬプロジェクトを構築するための「シード」として使用されるべき既存のＭＬプロジェクトを、識別することを含み得る。さらに、このスタイルのワークフローにおいて、適合させることは、対話及び合成アプローチを使用して、関連する既存のＭＬプロジェクト１１０を適合させて新しいＭＬプロジェクトの新しいＭＬパイプライン１１２を生成することを含み得る。

検索モジュール１１６は、ＭＬプロジェクトコーパス１０４に記憶された既存のＭＬプロジェクトを通じての検索に関して一連の動作を実行するように構成され得る。例えば、キュレーションモジュール１１４は、データ科学者１１８などから新しいＭＬプロジェクトのための新しいデータセット１０６及び新しいＭＬタスク１０８を受け取るように構成されてもよい。次いで、検索モジュール１１６は、受け取ると、ＭＬプロジェクトコーパス１０４を自動的に検索して関連する既存のＭＬプロジェクト１１０を識別するように構成されてもよい。

いくつかの実施形態において、新しいＭＬタスク１０８のための関連する既存のＭＬプロジェクト１１０を識別することに対する様々な課題を克服するために、キュレーションモジュール１１４は、既存のＭＬプロジェクトをマイニング及びキュレートするように構成されてもよく、検索モジュール１１６は、関連する既存のＭＬプロジェクト１１０を検索するように構成されてもよい。例えば、新しいＭＬプロジェクトの新しいＭＬタスク１０８について、従来のキーワードベースの検索のみを使用するなどで新しいＭＬタスク１０８及び新しいデータセット１０６のみに基づいて関連する既存のＭＬプロジェクト１１０をＭＬプロジェクトコーパス１０４内で見つけることは、チャレンジングであり得、なぜならば、従来の検索からの検索結果は、関連するＭＬプロジェクトを見逃す傾向があり、また、これらの検索結果がより関連性のないＭＬプロジェクトを不正確に含む傾向があるという点でノイズがある傾向があるためである。さらに、新しいＭＬタスク１０８にかなり関連し得るが、新しいＭＬタスク１０８及び新しいデータセット１０６の記述からの一致キーワードのみに基づき完全に無関係であるように見え得る他のドメインから既存のＭＬプロジェクトを識別することは、チャレンジングな可能性がある。したがって、キュレーションモジュール１１４は、既存のＭＬプロジェクトから特徴を抽出し、ＭＬプロジェクトコーパス１０４に記憶して、検索モジュール１１６が新しいデータセット１０６及び新しいＭＬタスク１０８に関してＭＬプロジェクトコーパス１０４内の関連する既存のＭＬプロジェクト１１０を見つけることができるように構成されてもよく、それにより、データ科学者１１８は、この事前情報を活用して新しいＭＬタスク１０８を迅速に実施することができる。この目的のために、検索モジュール１１６は、意味的に類似したＭＬプロジェクトだけでなく、他のドメインにあるがそれにもかかわらず新しいＭＬプロジェクトとかなり類似しているように予期されるＭＬパイプラインを有するＭＬプロジェクトも見つけることができる、２段階の擬似関連性フィードバック（pseudo-relevance feedback）ベースの検索を実行するように構成され得る。

適合モジュール１２０は、関連する既存のＭＬプロジェクト１１０のＭＬパイプライン１１１を新しいＭＬパイプライン１１２に合成し適合させることに関して一連の動作を実行するように構成され得る。例えば、適合モジュール１２０は、新しいＭＬプロジェクト（例えば、新しいデータセット１０６、新しいＭＬタスク１０８、及び新しいＭＬパイプライン１１２を含む）のための新しいＭＬパイプライン１１２での使用のために、ＭＬパイプライン１１１から機能ブロックを自動的に選択するように構成されてもよい。さらに、適合モジュール１２０は、新しいＭＬパイプライン１１２の機能ブロックを適合させて、新しいデータセット１０６上で新しいＭＬタスク１０８を実行するために新しいＭＬパイプライン１１２を実行できるように構成されてもよい。いくつかの実施形態において、適合モジュールは、既存のＭＬパイプライン１１１を新しいＭＬパイプライン１１２に自動的に適合させることができるが、他の実施形態において、この自動適合は、どの既存のＭＬパイプライン１１１が新しいＭＬパイプライン１１２への手動適合に最も適することになるかに関するデータ科学者１１８への推奨により置き換えられ、又は拡張され（augmented）てもよい。

したがって、いくつかの実施形態において、非専門家であり得るデータ科学者１１８は、単に新しいＭＬプロジェクトのための新しいデータセット１０６及び新しいＭＬタスク１０８を定式化することができ、キュレーションモジュール１１４、検索モジュール１１６、及び適合モジュール１２０は、（例えば、本明細書に開示される方法の１つ以上を実行することにより）一緒に機能して、既存のＭＬプロジェクトを自動的に検索し、新しいＭＬプロジェクトでの使用に適合可能として推奨することができる。したがって、本明細書に開示される方法は、初心者のデータ科学者に、新しいＭＬプロジェクトのために新しい高品質のエンドツーエンドのＭＬパイプラインを効率的に作成する力を与えることができる。

本開示の範囲から逸脱することなく、図１に対して修正、追加、又は省略がなされ得る。例えば、環境１００は、本開示において図示及び説明されたものより多くの又は少ない要素を含んでもよい。

図２は、本開示の少なくとも１つの実施形態による、一例示的なコンピューティングシステム２０２のブロック図を示す。コンピューティングシステム２０２は、１つ以上のモジュール（例えば、図１のキュレーションモジュール１１４、検索モジュール１１６、若しくは適合モジュール１２０、又はこれらの何らかの組み合わせ）に関連づけられた１つ以上の動作を実装又は指示するように構成され得る。コンピューティングシステム２０２は、プロセッサ２５０、メモリ２５２、及びデータ記憶装置２５４を含んでもよい。プロセッサ２５０、メモリ２５２、及びデータ記憶装置２５４は、通信上結合されてもよい。

一般に、プロセッサ２５０は、様々なコンピュータハードウェア又はソフトウェアモジュールを含む、任意の適切な専用若しくは汎用コンピュータ、コンピューティングエンティティ、又は処理デバイスを含んでもよく、任意の適用可能なコンピュータ読取可能記憶媒体に記憶された命令を実行するように構成されてもよい。例えば、プロセッサ２５０は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラム命令を解釈及び／又は実行するよう及び／又はデータを処理するように構成された任意の他のデジタル若しくはアナログ回路を含んでもよい。図２において単一のプロセッサとして示されているが、プロセッサ２５０は、本開示に記載される任意の数の動作を個々又は集合的に実行し又はその実行を指示するように構成された、任意の数のプロセッサを含んでもよい。さらに、プロセッサの１つ以上が、異なるサーバなどの１つ以上の異なる電子デバイス上に存在してもよい。

いくつかの実施形態において、プロセッサ２５０は、メモリ２５２、データ記憶装置２５４、又はメモリ２５２及びデータ記憶装置２５４に記憶されたプログラム命令を解釈及び／又は実行し、かつ／あるいはデータを処理するように構成され得る。いくつかの実施形態において、プロセッサ２５０は、データ記憶装置２５４からプログラム命令を取り出し、プログラム命令をメモリ２５２にロードしてもよい。プログラム命令がメモリ２５２にロードされた後、プロセッサ２５０はプログラム命令を実行することができる。

例えば、いくつかの実施形態において、上述のモジュール（例えば、キュレーションモジュール１１４、検索モジュール１１６、若しくは適合モジュール１２０、又はこれらの組み合わせ）のうち１つ以上が、プログラム命令としてデータ記憶装置２５４に含まれてもよい。プロセッサ２５０は、データ記憶装置２５４から対応するモジュールのプログラム命令を取り出し、対応するモジュールのプログラム命令をメモリ２５２にロードすることができる。対応するモジュールのプログラム命令がメモリ２５２にロードされた後、プロセッサ２５０はプログラム命令を実行することができ、それにより、コンピューティングシステムは、命令により指示されるとおり対応するモジュールに関連づけられた動作を実施することができる。

メモリ２５２及びデータ記憶装置２５４は、記憶されたコンピュータ実行可能命令又はデータ構造を搬送し又は有するコンピュータ読取可能記憶媒体を含んでもよい。そのようなコンピュータ読取可能記憶媒体は、プロセッサ２５０などの汎用又は専用コンピュータによりアクセスされ得る任意の利用可能な媒体を含んでもよい。限定でなく例として、そのようなコンピュータ読取可能記憶媒体は、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、電気的消去可能プログラマブル読取専用メモリ（ＥＥＰＲＯＭ）、コンパクトディスク読取専用メモリ（ＣＤ‐ＲＯＭ）若しくは他の光ディスク記憶装置、磁気ディスク記憶装置若しくは他の磁気記憶デバイス、フラッシュメモリデバイス（例えば、ソリッドステートメモリデバイス）、又はコンピュータ実行可能命令又はデータ構造の形式で特定のプログラムコードを搬送又は記憶するために使用でき、かつ汎用又は専用コンピュータによりアクセスできる任意の他の記憶媒体を含む、有形の又は非一時的なコンピュータ読取可能記憶媒体を含んでもよい。上記の組み合わせもまた、コンピュータ読取可能記憶媒体の範囲内に含まれてもよい。コンピュータ実行可能命令は、例えば、プロセッサ２５０に特定の動作又は動作のグループを実行させるように構成された命令及びデータを含んでもよい。

本開示の範囲から逸脱することなく、コンピューティングシステム２０２に対して修正、追加、又は省略がなされ得る。例えば、いくつかの実施形態において、コンピューティングシステム２０２は、明示的に図示又は説明されない可能性のある任意の数の他のコンポーネントを含んでもよい。

図３は、本開示に記載される少なくとも１つの実施形態による、既存のＭＬプロジェクトを新しいＭＬプロジェクトでの使用に適合可能として自動的に推奨する一例示的な方法３００のフローチャートである。方法３００は、任意の適切なシステム、装置、又はデバイスにより実行されてもよい。例えば、図１のキュレーションモジュール１１４及び／又は検索モジュール１１６、又は図２のコンピューティングシステム２０２（例えば、１つ以上のモジュールにより指示される）は、方法３００に関連づけられた動作の１つ以上を実行することができる。個別のブロックで示されているが、方法３００のブロックの１つ以上に関連づけられたステップ及び動作は、特定の実装に依存してさらなるブロックに分割されてもよく、より少ないブロックに組み合わせられてもよく、あるいは削除されてもよい。

方法３００は、ブロック３０２において、既存のＭＬプロジェクトからプロジェクト特徴、データセット特徴、及びパイプライン特徴を抽出することを含み得る。いくつかの実施形態において、プロジェクト特徴は、１つ以上のプロジェクトトピック特徴を含んでもよい。いくつかの実施形態において、データセット特徴は、１つ以上のデータセット属性特徴、１つ以上のデータセット統計特徴、及び１つ以上のターゲットタスク特徴を含んでもよい。いくつかの実施形態において、パイプライン特徴は、前処理アプリケーションプログラムインタフェース（ＡＰＩ）特徴及びモデル特徴を含んでもよい。例えば、キュレーションモジュール１１４は、様々なＭＬプロジェクトデータベース（例えば、ＯＳＳＭＬプロジェクトデータベース１０２ａ～１０２ｎ、既存のＭＬプロジェクトの社内データベースなど）に記憶された既存のＭＬプロジェクトをクロールすることができ、既存のＭＬプロジェクトの各々からプロジェクト特徴、データセット特徴、及びパイプライン特徴を抽出することができる。いくつかの実施形態において、これらの特徴は、図９に開示される特徴のうち任意のものを含んでもよい。

方法３００は、ブロック３０４において、既存のＭＬプロジェクトのプロジェクト特徴、データセット特徴、及びパイプライン特徴をコーパスに記憶することを含み得る。いくつかの実施形態において、記憶する前に、方法３００は、ストップワードの除去、ステミング、コード識別子のトークン化、略語の完全な単語へのマッピング、及び同義語の決定のうち１つ以上を実行することにより、プロジェクト特徴、データセット特徴、及びパイプライン特徴を正規化することを含んでもよい。いくつかの実施形態において、記憶する前、及び正規化した後に、方法３００は、正規化されたプロジェクト特徴、正規化されたデータセット特徴、及び正規化されたパイプライン特徴を構造化文書にフォーマットする（formatting）ことを含んでもよい。これらの実施形態において、方法３００は、コーパスにおいて構造化文書をインデキシングする（indexing）ことをさらに含んでもよい。例えば、キュレーションモジュール１１４は、既存のＭＬプロジェクトの各々について、図９に開示される特徴を正規化し、ＭＬプロジェクトコーパス１０４に記憶し、インデキシングすることができる。これらの特徴は、図６及び図７に開示される構造化文書などの構造化文書としてフォーマットされてもよい。

方法３００は、ブロック３０６において、新しいＭＬプロジェクトからの新しいプロジェクト特徴及び新しいデータセット特徴に基づいて第１の検索クエリを生成することを含み得る。例えば、検索モジュール１１６は、新しいＭＬプロジェクトからの新しいプロジェクト特徴及び新しいデータセット特徴に基づいて第１の検索クエリを生成することができる。いくつかの実施形態において、これらの特徴は、図９に開示されるプロジェクトトピック特徴、データセット属性特徴、データセット統計特徴、及びターゲットタスク特徴のうち１つ以上を含んでもよく、新しいデータセット１０６及び新しいＭＬタスク１０８から導出され得る。さらに、いくつかの実施形態において、第１の検索クエリは、図８に開示される構造化クエリなどの構造化クエリとしてフォーマットされてもよい。

方法３００は、ブロック３０８において、第１の検索クエリに基づいてコーパス上で第１の検索を実行して既存のＭＬプロジェクトの第１のランク付けセットを生成することを含み得る。例えば、検索モジュール１１６は、第１の検索クエリに基づいてＭＬプロジェクトコーパス１０４上で第１の検索を実行して既存のＭＬプロジェクトの第１のランク付けセットを生成することができる。いくつかの実施形態において、第１の検索は、以下で図４に関してさらに詳細に説明される方法４００の１つ以上の動作に従って実行されてもよい。

方法３００は、ブロック３１０において、既存のＭＬプロジェクトの第１のランク付けセットのパイプライン特徴に基づいて関連するパイプライン特徴を生成することを含み得る。例えば、検索モジュール１１６は、既存のＭＬプロジェクトの第１のランク付けセットのパイプライン特徴に基づいて関連するパイプライン特徴を生成することができる。いくつかの実施形態において、関連するパイプライン特徴は、図９に開示される前処理ＡＰＩ特徴及びモデル特徴のうち１つ以上を含んでもよい。いくつかの実施形態において、関連するパイプライン特徴は、以下で図５に関してさらに詳細に説明される方法５００の１つ以上の動作に従って生成されてもよい。

方法３００は、ブロック３１２において、新しいプロジェクト特徴、新しいデータセット特徴、及び関連するパイプライン特徴に基づいて第２の検索クエリを生成することを含み得る。例えば、検索モジュール１１６は、図９に開示される特徴に基づいて第２の検索クエリを生成することができる。いくつかの実施形態において、第２の検索クエリは、構造化クエリとしてフォーマットされてもよく、図１０に開示される再定式化された（reformulated）構造化クエリ１０００などの第１の検索クエリの再定式化でもよく、これは、図８に開示される初期構造化クエリ８００には存在しなかった、関連するパイプライン特徴（例えば、ＡＰＩ前処理特徴及びモデル特徴）を含む。

方法３００は、ブロック３１４において、第２の検索クエリに基づいてコーパス上で第２の検索を実行して既存のＭＬプロジェクトの第２のランク付けセットを生成することを含み得る。例えば、検索モジュール１１６は、第２の検索クエリに基づいてＭＬプロジェクトコーパス１０４上で第２の検索を実行して関連する既存のＭＬプロジェクト１１０を生成することができ、関連する既存のＭＬプロジェクト１１０は、最も関連性のあるものから最も関連性のないものへランク付けされ得る。

方法３００は、ブロック３１６において、既存のＭＬプロジェクトの第２のランク付けセット内の最も高いランク付けの既存のＭＬプロジェクトを新しいＭＬプロジェクトでの使用に適合可能として推奨することを含み得る。例えば、検索モジュール１１６は、関連する既存のＭＬプロジェクト１１０のうち最も高いランク付けの既存のＭＬプロジェクトを新しいＭＬプロジェクトでの使用に最も適合可能であるとして推奨することができ、これは、この既存のＭＬプロジェクトのＭＬパイプライン１１１を新しいＭＬプロジェクトの新しいＭＬパイプライン１１２に適合させることを含んでもよい。

本開示の範囲から逸脱することなく、方法３００に対して修正、追加、又は省略がなされ得る。例えば、方法３００の動作のいくつかは異なる順序で実施されてもよい。さらに又は代わりに、２つ以上の動作が同時に実行されてもよい。さらに、概説された動作及びアクションは例として提供されているに過ぎず、動作及びアクションのいくつかが、開示される実施形態を損なうことなく任意でもよく、より少ない動作及びアクションに組み合わせられてもよく、あるいはさらなる動作及びアクションに拡張されてもよい。

図４は、本開示に記載される少なくとも１つの実施形態による、コーパス上で検索を実行する一例示的な方法の例示的な方法４００のフローチャートである。いくつかの実施形態において、図３の方法３００に関して上述したブロック３０８の動作は、方法４００に従って実行されてもよい。

方法４００は、任意の適切なシステム、装置、又はデバイスにより実行されてもよい。例えば、図１の検索モジュール１１６又は図２のコンピューティングシステム２０２（例えば、１つ以上のモジュールにより指示される）は、方法４００に関連づけられた動作の１つ以上を実行することができる。個別のブロックで示されているが、方法４００のブロックの１つ以上に関連づけられたステップ及び動作は、特定の実装に依存してさらなるブロックに分割されてもよく、より少ないブロックに組み合わせられてもよく、あるいは削除されてもよい。

方法４００は、ブロック４０２において、新しいＭＬプロジェクトの特徴とコーパス内の既存のＭＬプロジェクトの特徴との間の類似度スコアを生成することを含み得る。いくつかの実施形態において、この生成は、新しいプロジェクト特徴とコーパス内のプロジェクト特徴の各々との間、１つ以上の新しいデータセット属性特徴とコーパス内のデータセット属性特徴の各々との間、１つ以上の新しいデータセット統計特徴とコーパス内のデータセット統計特徴の各々との間、及び１つ以上の新しいターゲットタスク特徴とコーパス内のターゲットタスク特徴の各々との間の類似度スコアを生成することを含んでもよい。例えば、検索モジュール１１６は、新しいＭＬプロジェクトの特徴とＭＬプロジェクトコーパス１０４内の既存のＭＬプロジェクトの特徴との間の類似度スコアＳ１、Ｓ２、Ｓ３、及びＳ４（図９参照）を生成することができる。

方法４００は、ブロック４０４において、ランク付け関数に基づいて既存のＭＬプロジェクトの各々についての類似度スコアを集計する（aggregating）ことを含み得る。例えば、検索モジュール１１６は、ランク付け関数に基づいて既存のＭＬプロジェクトの各々について類似度スコアＳ１、Ｓ２、Ｓ３、及びＳ４（図９参照）を集計して（例えば、一緒に加算して）、既存のＭＬプロジェクトごとに集計された（全体的な）類似度スコアを生成することができる。

方法４００は、ブロック４０６において、集計された類似度スコアに基づいて既存のＭＬプロジェクトをランク付けすることを含み得る。例えば、検索モジュール１１６は、集計された類似度スコアに基づいて既存のＭＬプロジェクトをランク付けすることができる。

本開示の範囲から逸脱することなく、方法４００に対して修正、追加、又は省略がなされ得る。例えば、方法４００の動作は異なる順序で実施されてもよい。さらに、いくつかの実施形態において、方法４００は、図３のブロック３０８の動作に関して反復的又は同時に実行されてもよい。

図５は、本開示に記載される少なくとも１つの実施形態による、新しいＭＬプロジェクトの関連するパイプライン特徴を生成する一例示的な方法５００のフローチャートである。いくつかの実施形態において、図３の方法３００に関して上述したブロック３１０の動作は、方法５００に従って実行されてもよい。さらに、方法５００は、第１の検索クエリ（ブロック３０６で生成される）が第２の検索クエリ（ブロック３１２で生成される）に再定式化される結果をもたらし得る。

方法５００は、任意の適切なシステム、装置、又はデバイスにより実行されてもよい。例えば、図１の検索モジュール１１６、又は図２のコンピューティングシステム２０２（例えば、１つ以上のモジュールにより指示される）は、方法５００に関連づけられた動作の１つ以上を実行することができる。個別のブロックで示されているが、方法５００のブロックの１つ以上に関連づけられたステップ及び動作は、特定の実装に依存してさらなるブロックに分割されてもよく、より少ないブロックに組み合わせられてもよく、あるいは削除されてもよい。

方法５００は、ブロック５０２において、第１の既存のＭＬプロジェクトが新しいデータセット統計特徴と第１の既存のＭＬプロジェクトのデータセット統計特徴との間で最も高い類似度スコアを有することに基づいて、第１のランク付けセットから第１の既存のＭＬプロジェクトを選択することを含み得る。例えば、検索モジュール１１６は、クレジットカード関連の既存のＭＬプロジェクト（図７の構造化文書７００により表される）を、新しいデータセット統計特徴（例えば、図８の構造化クエリ８００において＜dataset-value-property＞タグにより表される）とカード関連の既存のＭＬプロジェクトのデータセット統計特徴（例えば、図７の構造化文書７００において＜dataset-value-property＞タグにより表される）との間で最も高い類似度スコアを有するものとして選択することができる。

方法５００は、ブロック５０４において、新しい前処理ＡＰＩ特徴を第１の既存のＭＬプロジェクトの前処理ＡＰＩ特徴に設定することを含み得る。例えば、データセット統計特徴は前処理ＡＰＩ特徴と相関する傾向があるため、検索モジュール１１６は、新しい前処理ＡＰＩ特徴（例えば、図１０の構造化クエリ１０００において＜preprocessing＞タグにより表される）を、カード関連の既存のＭＬプロジェクト（図７の構造化文書７００により表される）の前処理ＡＰＩ特徴（図７の構造化文書７００において＜preprocessing＞タグにより表される）に設定することができる。

方法５００は、ブロック５０６において、第２の既存のＭＬプロジェクトが新しいターゲットタスク特徴と第２の既存のＭＬプロジェクトのターゲットタスク特徴との間で最も高い類似度スコアを有することに基づいて、第１のランク付けセットから第２の既存のＭＬプロジェクトを選択することを含み得る。例えば、検索モジュール１１６は、糖尿病関連の既存のＭＬプロジェクト（図６の構造化文書６００により表される）を、新しいターゲットタスク特徴（例えば、図８の構造化クエリ８００において＜predictive-task＞タグにより表される）と糖尿病関連の既存のＭＬプロジェクトのターゲットタスク特徴（例えば、図６の構造化文書６００において＜predictive-task＞タグにより表される）との間で最も高い類似度スコアを有するものとして選択することができる。

方法５００は、ブロック５０８において、新しいモデル特徴を第２の既存のＭＬプロジェクトのモデル特徴に設定することを含み得る。例えば、ターゲットタスク特徴はモデル特徴と相関する傾向があるため、検索モジュール１１６は、新しいモデル特徴（例えば、図１０の構造化クエリ１０００において＜model＞タグにより表される）を、糖尿病関連の既存のＭＬプロジェクト（図６の構造化文書６００により表される）のモデル特徴（図６の構造化文書６００において＜model＞タグにより表される）に設定することができる。

本開示の範囲から逸脱することなく、方法５００に対して修正、追加、又は省略がなされ得る。例えば、方法５００の動作は異なる順序で実施されてもよい。さらに、いくつかの実施形態において、方法５００は、図３のブロック３１０の動作に関して反復的又は同時に実行されてもよい。

図６は、正規化されたＭＬプロジェクト特徴の第１の例示的な構造化文書６００を示し、図７は、正規化されたＭＬプロジェクト特徴の第２の例示的な構造化文書７００を示す。構造化文書６００及び７００は、ＭＬプロジェクトコーパス１０４に記憶された既存のＭＬプロジェクトからの特徴を表し得る。例えば、構造化文書６００は、血漿グルコース濃度耐性検査結果（plasma glucose concentration tolerance test results）、血圧の拡張期血圧（pressure diastolic blood pressure）、年齢（age）などの患者の様々な特性を所与として患者が糖尿病（diabetes）を有するかどうかを予測するように構成された糖尿病関連のＭＬプロジェクト特徴を表すことができる。さらに、構造化文書７００は、限度残高（limit balance）、性別（sex）、教育（education）、年齢（age）、給与（pay）、及び次月のデフォルト支払い（default payment next month）などの特性を所与として個人がクレジットカードの履行を怠るかどうかを予測するように構成されたクレジットカード関連のＭＬプロジェクト特徴を表すことができる。図６及び図７は、ＭＬプロジェクトコーパス１０４に記憶された既存のＭＬプロジェクトに関して方法３００の様々なブロックがどのように実行され得るかの例を提供するためにここで論じられる。

図６及び図７に示す例において、構造化文書６００及び７００は、２つの別個の既存のＭＬプロジェクトから抽出された様々な特徴を表す。詳細には、１つ以上のプロジェクト特徴は、＜topics＞タグで表される１つ以上のプロジェクトトピック特徴を含んでもよい。さらに、１つ以上のデータセット特徴は、＜attributes＞タグで表される１つ以上のデータセット属性特徴、＜dataset-value-properties＞タグで表される１つ以上のデータセット統計特徴、及び＜predictive-task＞タグで表される１つ以上のターゲットタスク特徴を含んでもよい。さらに、パイプライン特徴は、＜preprocessing＞タグで表される１つ以上の前処理ＡＰＩ特徴と、＜model＞タグで表される１つ以上のモデル特徴を含んでもよい。

本開示の範囲から逸脱することなく、構造化文書６００及び７００に対して修正、追加、又は省略がなされ得る。例えば、様々な他の特徴及び／又は他のタグが構造化文書６００及び７００に含まれてもよく、様々なタグが除去されてもよく、かつ／あるいは様々なタグが異なる順序で含まれてもよい。

図８は、構造化クエリ８００としてフォーマットされた新しいＭＬプロジェクトのための一例示的な検索クエリを示す。構造化クエリ８００は、新しいＭＬプロジェクトからの特徴を表し得、新しいＭＬプロジェクトの新しいデータセット１０６及び新しいＭＬタスク１０８から導出され得る。構造化クエリ８００は、患者の年齢（age）、ジェンダー（gender）、身長（height）、体重（weight）、血圧（blood pressure）、グルコース（glucose）、喫煙（smoking）及びアルコール習慣、並びに患者の活動レベルを所与として患者が心血管疾患を有するかどうかを予測するように構成された新しい心血管疾患関連のＭＬプロジェクトの特徴を表すことができる。図８は、新しいＭＬプロジェクトに関して方法３００の様々なブロックがどのように実行され得るかの例を提供するためにここで論じられる。

図８に示す例において、構造化クエリ８００は、新しいＭＬプロジェクトから抽出された様々な特徴を表す。詳細には、１つ以上のプロジェクト特徴は、＜topics＞タグで表される１つ以上のプロジェクトトピック特徴を含んでもよい。さらに、１つ以上のデータセット特徴は、＜attributes＞タグで表される１つ以上のデータセット属性特徴、＜dataset-value-properties＞タグで表される１つ以上のデータセット統計特徴、及び＜predictive-task＞タグで表される１つ以上のターゲットタスク特徴を含んでもよい。パイプライン特徴は新しいデータセット１０６及び新しいＭＬタスク１０８から導出されない可能性があり、代わりに既存のＭＬプロジェクトから生成され（例えば、コピーされ）得るため、パイプライン特徴は構造化クエリ８００の初期定式化に含まれないことが留意される。

本開示の範囲から逸脱することなく、構造化クエリ８００に対して修正、追加、又は省略がなされ得る。例えば、様々な他の特徴及び／又は他のタグが構造化クエリ８００に含まれてもよく、様々なタグが除去されてもよく、かつ／あるいは様々なタグが異なる順序で含まれてもよい。

図９は、本開示に記載される少なくとも１つの実施形態による、類似度スコアを計算する一例示的な方法９００のフローチャートである。図１０は、構造化クエリ１０００としてフォーマットされた新しいＭＬプロジェクトのための一例示的な再定式化クエリを示す。図９及び図１０は、ＭＬプロジェクトコーパス１０４に記憶された既存のＭＬプロジェクト及び新しいＭＬプロジェクトに関して方法３００の様々なブロックがどのように実行され得るかの例を提供するためにここで論じられる。

図９に示す例では、ＭＬプロジェクトコーパス１０４に記憶された既存のＭＬプロジェクトの各々から様々な特徴が抽出され得、プロジェクト特徴、データセット特徴、及びパイプライン特徴が含まれる。プロジェクトトピックは、ＭＬタスク記述及び／又はノートブックから導出されてもよく、ＭＬプロジェクトを高レベル及び低レベルで記述する重要なキーワードを含み得る（例えば、糖尿病データセットでは、プロジェクトトピックは、社会（society）、健康（health）、内分泌状態（endocrine conditions）、糖尿病（diabetes）、ヘルスケア（healthcare）、及び疾患（disease）でもよい）。データセット属性は、ＭＬタスク記述及び／又はデータセットから導出されてもよく、データセット列の記述を含み得る（例えば、糖尿病データセットでは、データセット属性は、年齢、インスリン、ＢＭＩなどを含んでもよい）。データセット統計は、データセットから導出されてもよく、データの性質を型及び分布の観点（例えば、最小値、最大値、中央値、数値（Numeric）、又はカテゴリ（Categoric）など）で含み得る。ターゲットタスクは、ＭＬタスク記述及び／又はノートブックから導出されてもよく、タスクの名前及び性質を含み得る（例えば、患者が糖尿病を有するかどうかを予測することは、分類（classification）タスクでもよい）。ライブラリは、ＭＬパイプラインから導出されてもよく、ＭＬプロジェクトのＭＬパイプラインを実装するために使用されるライブラリ（例えば、Ｋｅｒａｓ、ｓｃｉｋｉｔ、ｐａｎｄａｓなど）を含み得る。前処理は、ＭＬパイプラインから導出されてもよく、特徴を前処理するため（例えば、欠損値の補充、スケーリング、様々な変換の適用）に使用されるＡＰＩを含み得る。モデルは、ＭＬパイプラインから導出されてもよく、予測タスクを解決するために使用される教師付き学習手法と、ＭＬモデル（例えば、ロジスティック回帰（Logistic regression）、ランダムフォレスト、ニューラルネットワークなど）を実装するために使用される全てのＡＰＩを含み得る。

同様に、新しいＭＬプロジェクトの新しいデータセット１０６及び新しいＭＬタスク１０８から様々な特徴が抽出され得、プロジェクト特徴及びデータセット特徴が含まれるが、パイプライン特徴は含まれず、なぜならば、これらは新しいデータセット１０６及び新しいＭＬタスク１０８から抽出できない可能性があるためである。代わりに、新しいＭＬプロジェクトのパイプライン特徴は、既存のＭＬプロジェクトのうち１つ以上のパイプライン特徴から生成され（コピーされ）得る。

例えば、図３の方法３００のブロック３０８で実行される第１の検索の間、類似度スコアＳ１、Ｓ２、Ｓ３、及びＳ４が、（例えば、構造化クエリ８００内の特徴を、構造化文書６００及び７００、並びにＭＬプロジェクトコーパス１０４に記憶された全ての他の既存のＭＬプロジェクトの全ての他の構造化文書内の特徴と比較することにより）計算され、集計され得る。この計算及び集計は、新しいＭＬプロジェクトのプロジェクト特徴及びデータセット特徴と最も類似しているプロジェクト特徴及びデータセット特徴を有する、ＭＬプロジェクトコーパス１０４からの既存のＭＬプロジェクトの第１ランク付けセットを決定することができる。いくつかの実施形態において、類似度スコアは、特定の類似度スコアが他の類似度スコアより大きく重み付けされて特定の特徴に対するより高い優先順位及び他の特徴に対するより低い優先順位を反映するように、個々に重み付けされてもよい。

次いで、図３の方法３００のブロック３１０の間、新しいＭＬプロジェクトのパイプライン特徴は、既存のＭＬプロジェクトのこの第１ランク付けセットから導出され得る。例えば、データセット統計特徴は前処理ＡＰＩ特徴と相関する傾向があるため、新しいＭＬプロジェクトの前処理ＡＰＩ特徴は、データセット統計特徴について最も高い類似度スコアＳ３を有する、既存のＭＬプロジェクトの第１のランク付けセット内の既存のＭＬプロジェクトの前処理ＡＰＩ特徴から導出されてもよい（例えば、構造化クエリ８００は、構造化クエリ１０００に開示されるように、構造化文書７００からの＜preprocess＞タグで拡張され得る）。同様に、ターゲットタスク特徴はモデル特徴と相関する傾向があるため、新しいＭＬプロジェクトのモデル特徴は、ターゲットタスク特徴について最も高い類似度スコアＳ４を有する、既存のＭＬプロジェクトの第１のランク付けセット内の既存のＭＬプロジェクトのモデル特徴から導出されてもよい（例えば、構造化クエリ８００は、構造化クエリ１０００に開示されるように、構造化文書６００からの＜model＞タグにより拡張され得る）。したがって、構造化クエリ８００は、擬似関連性フィードバックを通じて再定式化され得、その結果、再定式化された構造化クエリ１０００がもたらされる。

次に、図３の方法３００のブロック３１４で実行される第２の検索の間、類似度スコアＳ１、Ｓ２、Ｓ３、Ｓ４、Ｓ５、Ｓ６、及びＳ７が、（例えば、再定式化された構造化クエリ１０００の特徴を、構造化文書６００及び７００、並びにＭＬプロジェクトコーパスに記憶された全ての他の既存のＭＬプロジェクトの全ての他の構造化文書内の特徴と比較することにより）計算され、集計され得る。この計算及び集計は、新しいＭＬプロジェクトのプロジェクト特徴、データセット特徴、及びパイプライン特徴に最も類似しているプロジェクト特徴、データセット特徴、及びパイプライン特徴を有する、ＭＬプロジェクトコーパス１０４からの既存のＭＬプロジェクトの第２のランク付けセット（例えば、関連する既存のＭＬプロジェクト１１０）を決定することができる。いくつかの実施形態において、方法９００の類似度スコアは、様々な方法で計算され得る。例えば、類似度スコアＳ１、Ｓ２、Ｓ６、及びＳ７は、ＢＭ２５ベースのベクトル空間モデルを使用して計算されるのに特に適し得る。さらに、類似度スコアＳ３、Ｓ４、及びＳ５は、距離計算を使用して計算されるのに特に適し得る。

最後、図３の方法３００のブロック３１６において、関連する既存のＭＬプロジェクト１１０内の１つ以上の最も高いランク付けの既存のＭＬプロジェクトが、新しいＭＬプロジェクトの新しいＭＬパイプライン１１２への自動又は手動の適合を含む、新しいＭＬプロジェクトでの使用に最も適合可能であるとして推奨され得る。

本開示の範囲から逸脱することなく、方法９００又は構造化クエリ１０００に対して修正、追加、又は省略がなされ得る。例えば、方法９００の動作のいくつかは異なる順序で実施されてもよい。さらに又は代わりに、２つ以上の動作が同時に実行されてもよい。さらに、概説された動作及びアクションは例として提供されているに過ぎず、動作及びアクションのいくつかが、開示される実施形態を損なうことなく任意でもよく、より少ない動作及びアクションに組み合わせられてもよく、あるいはさらなる動作及びアクションに拡張されてもよい。さらに、様々な他の特徴及び／又は他のタグが構造化クエリ１０００に含まれてもよく、様々なタグが除去されてもよく、かつ／あるいは様々なタグが異なる順序で含まれてもよい。

上述のように、本開示に記載される実施形態は、以下でより詳細に論じられるように、様々なコンピュータハードウェア又はソフトウェアモジュールを含む専用又は汎用コンピュータの使用を含んでもよい。さらに、上述のように、本開示に記載される実施形態は、記憶されたコンピュータ実行可能命令又はデータ構造を搬送し又は有するコンピュータ読取可能媒体を使用して実施されてもよい。

本開示で用いられるとき、用語「モジュール」又は「コンポーネント」は、モジュール又はコンポーネントのアクションを実行するように構成された特定のハードウェア実装、及び／又はコンピューティングシステムの汎用ハードウェア（例えば、コンピュータ読取可能媒体、処理デバイスなど）に記憶及び／又は実行され得るソフトウェアオブジェクト又はソフトウェアルーチンを参照し得る。いくつかの実施形態において、本開示に記載される異なるコンポーネント、モジュール、エンジン、及びサービスが、コンピューティングシステム上で実行するオブジェクト又はプロセスとして（例えば、別個のスレッドとして）実現されてもよい。本開示に記載されるシステム及び方法のいくつかは、（汎用ハードウェアに記憶及び／又は実行される）ソフトウェアで実現されるものとして一般に記載されるが、特定のハードウェア実装、又はソフトウェアと特定のハードウェア実装との組み合わせもまた可能であり、企図される。本説明において、「コンピューティングエンティティ」は、本開示において前に定義された任意のコンピューティングシステム、又はコンピューティングシステム上で動作する任意のモジュール又はモジュレートの組み合わせでもよい。

本開示において、特に別記の特許請求の範囲（例えば、別記の特許請求の範囲の本文）において用いられる用語は、一般に「開放的」な用語として意図されている（例えば、用語「含んでいる」は、「含んでいるがこれに限定されない」と解釈されるべきであり、用語「有する」は、「少なくとも有する」と解釈されるべきであり、用語「含む」は、「含むがこれに限定されない」と解釈されるべきである等）。

さらに、特定数の導入された請求項記載が意図されている場合、そのような意図は請求項に明示的に記載され、そのような記載がない場合、そのような意図は存在しない。例えば、理解の助けとして、以下の別記の特許請求の範囲は、請求項記載を導入するために、導入フレーズ「少なくとも１つの」及び「１つ以上の」の使用を含むことがある。しかしながら、そのようなフレーズの使用は、不定冠詞「一の」（“a”又は“an”）による請求項記載の導入が、同じ請求項が導入フレーズ「１つ以上の」又は「少なくとも１つの」と「一の」などの不定冠詞とを含むときでも、そのような導入された請求項記載を含む任意の特定の請求項を１つのそのような記載のみ含む実施形態に限定することを暗に示すように見なされるべきではない（例えば、「一の」（“a”及び／又は“an”）は「少なくとも１つの」又は「１つ以上の」を意味するよう解釈されるべきである）。請求項記載を導入するために用いられる定冠詞の使用についても同様である。

さらに、特定数の導入された請求項記載が明示的に記載されている場合であっても、当業者は、そのような記載は少なくとも記載された数を意味するよう解釈されるべきであることを認識するであろう（例えば、他の修飾語を伴わない「２つの記載」というただそれだけの記載は、少なくとも２つの記載、又は２つ以上の記載を意味する）。さらに、「Ａ、Ｂ、及びＣ等のうち少なくとも１つ」又は「Ａ、Ｂ、及びＣ等のうち１つ以上」と類似の規定が用いられている例において、一般に、そのような構造は、Ａ単独、Ｂ単独、Ｃ単独、Ａ及びＢ共に、Ａ及びＣ共に、Ｂ及びＣ共に、又はＡ、Ｂ、及びＣ共に等を含むことが意図される。フレーズ「Ａ又はＢ」のこの解釈は、用語「Ａ及び／又はＢ」が「Ａ」又は「Ｂ」又は「Ａ及びＢ」の可能性を含むように時に用いられ得るとしても、依然として適用可能である。

さらに、明細書においてか、特許請求の範囲においてか、又は図面においてかにかかわらず、２つ以上の代替的な用語を提示するいかなる分離的なワード又はフレーズも、用語のうち１つ、用語のうちいずれか、又は双方の用語を含む可能性を考慮するよう理解されるべきである。例えば、フレーズ「Ａ又はＢ」は、「Ａ」又は「Ｂ」又は「Ａ及びＢ」の可能性を含むよう理解されるべきである。

本開示に記載される全ての例及び条件付き言語は、本開示及び発明者が当該技術分野を促進するために寄与した概念を理解する際に読者を助けるための教育的目的が意図され、このように具体的に記載された例及び条件に限定されないものとみなされるべきである。本開示の実施形態が詳細に説明されたが、本開示の主旨及び範囲から逸脱することなく様々な変更、置換、及び改変がなされ得る。

上記の実施形態につき以下の付記を残しておく。
（付記１）
既存の機械学習（ＭＬ）プロジェクトのセット内の既存のＭＬプロジェクトごとに、前記既存のＭＬプロジェクトから第１のプロジェクト特徴、第１のデータセット特徴、及び第１のパイプライン特徴を抽出し、前記既存のＭＬプロジェクトの前記第１のプロジェクト特徴、前記第１のデータセット特徴、及び前記第１のパイプライン特徴をコーパスに記憶するステップと、
第２のＭＬプロジェクトからの第２のプロジェクト特徴及び第２のデータセット特徴に基づいて第１の検索クエリを生成するステップと、
前記第１の検索クエリに基づいて前記コーパス上で第１の検索を実行して１つ以上の第１の類似度スコアに基づいて前記既存のＭＬプロジェクトの第１のランク付けセットを生成するステップと、
前記既存のＭＬプロジェクトの前記第１のランク付けセットの前記第１のパイプライン特徴に基づいて第２のパイプライン特徴を生成するステップと、
前記第２のプロジェクト特徴、前記第２のデータセット特徴、及び前記第２のパイプライン特徴に基づいて第２の検索クエリを生成するステップと、
前記第２の検索クエリに基づいて前記コーパス上で第２の検索を実行して１つ以上の第２の類似度スコアに基づいて前記既存のＭＬプロジェクトの第２のランク付けセットを生成するステップと、
前記既存のＭＬプロジェクトの前記第２のランク付けセット内の最も高いランク付けの既存のＭＬプロジェクトを前記第２のＭＬプロジェクトでの使用に適合可能として推奨するステップと、
を含む方法。
（付記２）
前記記憶するステップの前に、ストップワードの除去、ステミング、コード識別子のトークン化、略語の完全な単語へのマッピング、及び同義語の決定のうち１つ以上を実行することにより、前記第１のプロジェクト特徴、前記第１のデータセット特徴、及び前記第１のパイプライン特徴を正規化するステップ、をさらに含む付記１に記載の方法。
（付記３）
前記記憶するステップの前、及び前記正規化するステップの後に、前記正規化された第１のプロジェクト特徴、前記正規化された第１のデータセット特徴、及び前記正規化された第１のパイプライン特徴を構造化文書にフォーマットするステップ、をさらに含む付記２に記載の方法。
（付記４）
前記記憶するステップは、前記コーパスにおいて前記構造化文書をインデキシングすることをさらに含む、付記３に記載の方法。
（付記５）
前記既存のＭＬプロジェクトの前記第１のデータセット特徴は、１つ以上の第１のデータセット属性特徴、１つ以上の第１のデータセット統計特徴、及び１つ以上の第１のターゲットタスク特徴を含み、
前記第２のＭＬプロジェクトの前記第２のデータセット特徴は、１つ以上の第２のデータセット属性特徴、１つ以上の第２のデータセット統計特徴、及び１つ以上の第２のターゲットタスク特徴を含む、
付記１に記載の方法。
（付記６）
前記コーパス上で前記第１の検索を実行することは、
前記第２のプロジェクト特徴と前記コーパス内の前記第１のプロジェクト特徴の各々との間、前記１つ以上の第２のデータセット属性特徴と前記コーパス内の前記第１のデータセット属性特徴の各々との間、前記１つ以上の第２のデータセット統計特徴と前記コーパス内の前記第１のデータセット統計特徴の各々との間、及び前記１つ以上の第２のターゲットタスク特徴と前記コーパス内の前記第１のターゲットタスク特徴の各々との間の、前記既存のＭＬプロジェクトの各々についての中間類似度スコアを生成することと、
前記既存のＭＬプロジェクトの各々についての前記中間類似度スコアをランク付け関数に基づいて前記１つ以上の第１の類似度スコアのうち１つに集計することと、
前記１つ以上の第１の類似度スコアに基づいて前記既存のＭＬプロジェクトをランク付けすることと、
を含む、付記５に記載の方法。
（付記７）
前記既存のＭＬプロジェクトの各々の前記第１のパイプライン特徴は、第１の前処理アプリケーションプログラムインターフェース（ＡＰＩ）特徴及び第１のモデル特徴を含み、
前記第２のＭＬプロジェクトの前記第２のパイプライン特徴は、第２の前処理ＡＰＩ特徴及び第２のモデル特徴を含む、
付記６に記載の方法。
（付記８）
前記第２のＭＬプロジェクトのための前記第２のパイプライン特徴を生成することは、
第１の既存のＭＬプロジェクトが前記１つ以上の第２のデータセット統計特徴と前記第１の既存のＭＬプロジェクトの前記１つ以上の第１のデータセット統計特徴との間で最も高い第１の類似度スコアを有することに基づいて、前記第１のランク付けセットから前記第１の既存のＭＬプロジェクトを選択することと、
前記１つ以上の第２の前処理ＡＰＩ特徴を、前記第１の既存のＭＬプロジェクトの前記１つ以上の第１の前処理ＡＰＩ特徴に設定することと、
第２の既存のＭＬプロジェクトが前記１つ以上の第２のターゲットタスク特徴と前記第２の既存のＭＬプロジェクトの前記１つ以上の第１のターゲットタスク特徴との間で最も高い第１の類似度スコアを有することに基づいて、前記第１のランク付けセットから前記第２の既存のＭＬプロジェクトを選択することと、
前記１つ以上の第２のモデル特徴を、前記第２の既存のＭＬプロジェクトの前記第１のモデル特徴に設定することと、
を含む、付記７に記載の方法。
（付記９）
実行されることに応答してシステムに動作を実行させる命令を記憶するように構成された１つ以上の非一時的コンピュータ読取可能記憶媒体であって、前記動作は、
既存の機械学習（ＭＬ）プロジェクトのセット内の既存のＭＬプロジェクトごとに、前記既存のＭＬプロジェクトから第１のプロジェクト特徴、第１のデータセット特徴、及び第１のパイプライン特徴を抽出し、前記既存のＭＬプロジェクトの前記第１のプロジェクト特徴、前記第１のデータセット特徴、及び前記第１のパイプライン特徴をコーパスに記憶することと、
第２のＭＬプロジェクトからの第２のプロジェクト特徴及び第２のデータセット特徴に基づいて第１の検索クエリを生成することと、
前記第１の検索クエリに基づいて前記コーパス上で第１の検索を実行して１つ以上の第１の類似度スコアに基づいて前記既存のＭＬプロジェクトの第１のランク付けセットを生成することと、
前記既存のＭＬプロジェクトの前記第１のランク付けセットの前記第１のパイプライン特徴に基づいて第２のパイプライン特徴を生成することと、
前記第２のプロジェクト特徴、前記第２のデータセット特徴、及び前記第２のパイプライン特徴に基づいて第２の検索クエリを生成することと、
前記第２の検索クエリに基づいて前記コーパス上で第２の検索を実行して１つ以上の第２の類似度スコアに基づいて前記既存のＭＬプロジェクトの第２のランク付けセットを生成することと、
前記既存のＭＬプロジェクトの前記第２のランク付けセット内の最も高いランク付けの既存のＭＬプロジェクトを前記第２のＭＬプロジェクトでの使用に適合可能として推奨することと、
を含む、１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記１０）
前記動作は、前記記憶することの前に、ストップワードの除去、ステミング、コード識別子のトークン化、略語の完全な単語へのマッピング、及び同義語の決定のうち１つ以上を実行することにより、前記第１のプロジェクト特徴、前記第１のデータセット特徴、及び前記第１のパイプライン特徴を正規化することをさらに含む、付記９に記載の１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記１１）
前記動作は、前記記憶することの前、及び前記正規化することの後に、前記正規化された第１のプロジェクト特徴、前記正規化された第１のデータセット特徴、及び前記正規化された第１のパイプライン特徴を構造化文書にフォーマットすることをさらに含む、付記１０に記載の１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記１２）
前記記憶することは、前記コーパスにおいて前記構造化文書をインデキシングすることをさらに含む、付記１１に記載の１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記１３）
前記既存のＭＬプロジェクトの前記第１のデータセット特徴は、１つ以上の第１のデータセット属性特徴、１つ以上の第１のデータセット統計特徴、及び１つ以上の第１のターゲットタスク特徴を含み、
前記第２のＭＬプロジェクトの前記第２のデータセット特徴は、１つ以上の第２のデータセット属性特徴、１つ以上の第２のデータセット統計特徴、及び１つ以上の第２のターゲットタスク特徴を含む、
付記９に記載の１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記１４）
前記コーパス上で前記第１の検索を実行することは、
前記第２のプロジェクト特徴と前記コーパス内の前記第１のプロジェクト特徴の各々との間、前記１つ以上の第２のデータセット属性特徴と前記コーパス内の前記第１のデータセット属性特徴の各々との間、前記１つ以上の第２のデータセット統計特徴と前記コーパス内の前記第１のデータセット統計特徴の各々との間、及び前記１つ以上の第２のターゲットタスク特徴と前記コーパス内の前記第１のターゲットタスク特徴の各々との間の、前記既存のＭＬプロジェクトの各々についての中間類似度スコアを生成することと、
前記既存のＭＬプロジェクトの各々についての前記中間類似度スコアをランク付け関数に基づいて前記１つ以上の第１の類似度スコアのうち１つに集計することと、
前記１つ以上の第１の類似度スコアに基づいて前記既存のＭＬプロジェクトをランク付けすることと、
を含む、付記１３に記載の１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記１５）
前記既存のＭＬプロジェクトの各々の前記第１のパイプライン特徴は、第１の前処理アプリケーションプログラムインターフェース（ＡＰＩ）特徴及び第１のモデル特徴を含み、
前記第２のＭＬプロジェクトの前記第２のパイプライン特徴は、第２の前処理ＡＰＩ特徴及び第２のモデル特徴を含む、
付記１４に記載の１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記１６）
前記第２のＭＬプロジェクトのための前記第２のパイプライン特徴を生成することは、
第１の既存のＭＬプロジェクトが前記１つ以上の第２のデータセット統計特徴と前記第１の既存のＭＬプロジェクトの前記１つ以上の第１のデータセット統計特徴との間で最も高い第１の類似度スコアを有することに基づいて、前記第１のランク付けセットから前記第１の既存のＭＬプロジェクトを選択することと、
前記１つ以上の第２の前処理ＡＰＩ特徴を、前記第１の既存のＭＬプロジェクトの前記１つ以上の第１の前処理ＡＰＩ特徴に設定することと、
第２の既存のＭＬプロジェクトが前記１つ以上の第２のターゲットタスク特徴と前記第２の既存のＭＬプロジェクトの前記１つ以上の第１のターゲットタスク特徴との間で最も高い第１の類似度スコアを有することに基づいて、前記第１のランク付けセットから前記第２の既存のＭＬプロジェクトを選択することと、
前記１つ以上の第２のモデル特徴を、前記第２の既存のＭＬプロジェクトの前記第１のモデル特徴に設定することと、
を含む、付記１５に記載の１つ以上の非一時的コンピュータ読取可能記憶媒体。
（付記１７）
システムであって、
１つ以上のプロセッサと、
前記１つ以上のプロセッサにより実行されることに応答して当該システムに動作を実行させる命令を記憶するように構成された１つ以上の非一時的コンピュータ読取可能記憶媒体と、を含み、前記動作は、
既存の機械学習（ＭＬ）プロジェクトのセット内の既存のＭＬプロジェクトごとに、前記既存のＭＬプロジェクトから第１のプロジェクト特徴、第１のデータセット特徴、及び第１のパイプライン特徴を抽出し、前記既存のＭＬプロジェクトの前記第１のプロジェクト特徴、前記第１のデータセット特徴、及び前記第１のパイプライン特徴をコーパスに記憶することと、
第２のＭＬプロジェクトからの第２のプロジェクト特徴及び第２のデータセット特徴に基づいて第１の検索クエリを生成することと、
前記第１の検索クエリに基づいて前記コーパス上で第１の検索を実行して１つ以上の第１の類似度スコアに基づいて前記既存のＭＬプロジェクトの第１のランク付けセットを生成することと、
前記既存のＭＬプロジェクトの前記第１のランク付けセットの前記第１のパイプライン特徴に基づいて第２のパイプライン特徴を生成することと、
前記第２のプロジェクト特徴、前記第２のデータセット特徴、及び前記第２のパイプライン特徴に基づいて第２の検索クエリを生成することと、
前記第２の検索クエリに基づいて前記コーパス上で第２の検索を実行して１つ以上の第２の類似度スコアに基づいて前記既存のＭＬプロジェクトの第２のランク付けセットを生成することと、
前記既存のＭＬプロジェクトの前記第２のランク付けセット内の最も高いランク付けの既存のＭＬプロジェクトを前記第２のＭＬプロジェクトでの使用に適合可能として推奨することと、
を含む、システム。
（付記１８）
前記動作は、
前記記憶することの前に、ストップワードの除去、ステミング、コード識別子のトークン化、略語の完全な単語へのマッピング、及び同義語の決定のうち１つ以上を実行することにより、前記第１のプロジェクト特徴、前記第１のデータセット特徴、及び前記第１のパイプライン特徴を正規化することと、
前記記憶することの前、及び前記正規化することの後に、前記正規化された第１のプロジェクト特徴、前記正規化された第１のデータセット特徴、及び前記正規化された第１のパイプライン特徴を構造化文書にフォーマットすることと、
をさらに含む、付記１７に記載のシステム。
（付記１９）
前記記憶することは、前記コーパスにおいて前記構造化文書をインデキシングすることをさらに含む、付記１８に記載のシステム。
（付記２０）
前記既存のＭＬプロジェクトの前記第１のデータセット特徴は、１つ以上の第１のデータセット属性特徴、１つ以上の第１のデータセット統計特徴、及び１つ以上の第１のターゲットタスク特徴を含み、
前記第２のＭＬプロジェクトの前記第２のデータセット特徴は、１つ以上の第２のデータセット属性特徴、１つ以上の第２のデータセット統計特徴、及び１つ以上の第２のターゲットタスク特徴を含み、
前記コーパス上で前記第１の検索を実行することは、
前記第２のプロジェクト特徴と前記コーパス内の前記第１のプロジェクト特徴の各々との間、前記１つ以上の第２のデータセット属性特徴と前記コーパス内の前記第１のデータセット属性特徴の各々との間、前記１つ以上の第２のデータセット統計特徴と前記コーパス内の前記第１のデータセット統計特徴の各々との間、及び前記１つ以上の第２のターゲットタスク特徴と前記コーパス内の前記第１のターゲットタスク特徴の各々との間の、前記既存のＭＬプロジェクトの各々についての中間類似度スコアを生成することと、
前記既存のＭＬプロジェクトの各々についての前記中間類似度スコアをランク付け関数に基づいて前記１つ以上の第１の類似度スコアのうち１つに集計することと、
前記１つ以上の第１の類似度スコアに基づいて前記既存のＭＬプロジェクトをランク付けすることと、
を含み、
前記既存のＭＬプロジェクトの各々の前記第１のパイプライン特徴は、第１の前処理アプリケーションプログラムインターフェース（ＡＰＩ）特徴及び第１のモデル特徴を含み、
前記第２のＭＬプロジェクトの前記第２のパイプライン特徴は、第２の前処理ＡＰＩ特徴及び第２のモデル特徴を含み、
前記第２のＭＬプロジェクトのための前記第２のパイプライン特徴を生成することは、
第１の既存のＭＬプロジェクトが前記１つ以上の第２のデータセット統計特徴と前記第１の既存のＭＬプロジェクトの前記１つ以上の第１のデータセット統計特徴との間で最も高い第１の類似度スコアを有することに基づいて、前記第１のランク付けセットから前記第１の既存のＭＬプロジェクトを選択することと、
前記１つ以上の第２の前処理ＡＰＩ特徴を、前記第１の既存のＭＬプロジェクトの前記１つ以上の第１の前処理ＡＰＩ特徴に設定することと、
第２の既存のＭＬプロジェクトが前記１つ以上の第２のターゲットタスク特徴と前記第２の既存のＭＬプロジェクトの前記１つ以上の第１のターゲットタスク特徴との間で最も高い第１の類似度スコアを有することに基づいて、前記第１のランク付けセットから前記第２の既存のＭＬプロジェクトを選択することと、
前記１つ以上の第２のモデル特徴を、前記第２の既存のＭＬプロジェクトの前記第１のモデル特徴に設定することと、
を含む、付記１７に記載のシステム。

Claims

既存の機械学習（ＭＬ）プロジェクトのセット内の既存のＭＬプロジェクトごとに、前記既存のＭＬプロジェクトから第１のプロジェクト特徴、第１のデータセット特徴、及び第１のパイプライン特徴を抽出し、前記既存のＭＬプロジェクトの前記第１のプロジェクト特徴、前記第１のデータセット特徴、及び前記第１のパイプライン特徴をコーパスに記憶するステップと、
第２のＭＬプロジェクトからの第２のプロジェクト特徴及び第２のデータセット特徴に基づいて第１の検索クエリを生成するステップと、
前記第１の検索クエリに基づいて前記コーパス上で第１の検索を実行して１つ以上の第１の類似度スコアに基づいて前記既存のＭＬプロジェクトの第１のランク付けセットを生成するステップと、
前記既存のＭＬプロジェクトの前記第１のランク付けセットの前記第１のパイプライン特徴に基づいて第２のパイプライン特徴を生成するステップと、
前記第２のプロジェクト特徴、前記第２のデータセット特徴、及び前記第２のパイプライン特徴に基づいて第２の検索クエリを生成するステップと、
前記第２の検索クエリに基づいて前記コーパス上で第２の検索を実行して１つ以上の第２の類似度スコアに基づいて前記既存のＭＬプロジェクトの第２のランク付けセットを生成するステップと、
前記既存のＭＬプロジェクトの前記第２のランク付けセット内の最も高いランク付けの既存のＭＬプロジェクトを前記第２のＭＬプロジェクトでの使用に適合可能として推奨するステップと、
を含む方法。
前記記憶するステップの前に、ストップワードの除去、ステミング、コード識別子のトークン化、略語の完全な単語へのマッピング、及び同義語の決定のうち１つ以上を実行することにより、前記第１のプロジェクト特徴、前記第１のデータセット特徴、及び前記第１のパイプライン特徴を正規化するステップ、をさらに含む請求項１に記載の方法。
前記記憶するステップの前、及び前記正規化するステップの後に、前記正規化された第１のプロジェクト特徴、前記正規化された第１のデータセット特徴、及び前記正規化された第１のパイプライン特徴を構造化文書にフォーマットするステップ、をさらに含む請求項２に記載の方法。
前記記憶するステップは、前記コーパスにおいて前記構造化文書をインデキシングすることをさらに含む、請求項３に記載の方法。
前記既存のＭＬプロジェクトの前記第１のデータセット特徴は、１つ以上の第１のデータセット属性特徴、１つ以上の第１のデータセット統計特徴、及び１つ以上の第１のターゲットタスク特徴を含み、
前記第２のＭＬプロジェクトの前記第２のデータセット特徴は、１つ以上の第２のデータセット属性特徴、１つ以上の第２のデータセット統計特徴、及び１つ以上の第２のターゲットタスク特徴を含む、
請求項１に記載の方法。
前記コーパス上で前記第１の検索を実行することは、
前記第２のプロジェクト特徴と前記コーパス内の前記第１のプロジェクト特徴の各々との間、前記１つ以上の第２のデータセット属性特徴と前記コーパス内の前記第１のデータセット属性特徴の各々との間、前記１つ以上の第２のデータセット統計特徴と前記コーパス内の前記第１のデータセット統計特徴の各々との間、及び前記１つ以上の第２のターゲットタスク特徴と前記コーパス内の前記第１のターゲットタスク特徴の各々との間の、前記既存のＭＬプロジェクトの各々についての中間類似度スコアを生成することと、
前記既存のＭＬプロジェクトの各々についての前記中間類似度スコアをランク付け関数に基づいて前記１つ以上の第１の類似度スコアのうち１つに集計することと、
前記１つ以上の第１の類似度スコアに基づいて前記既存のＭＬプロジェクトをランク付けすることと、
を含む、請求項５に記載の方法。
前記既存のＭＬプロジェクトの各々の前記第１のパイプライン特徴は、第１の前処理アプリケーションプログラムインターフェース（ＡＰＩ）特徴及び第１のモデル特徴を含み、
前記第２のＭＬプロジェクトの前記第２のパイプライン特徴は、第２の前処理ＡＰＩ特徴及び第２のモデル特徴を含む、
請求項６に記載の方法。
前記第２のＭＬプロジェクトのための前記第２のパイプライン特徴を生成することは、
第１の既存のＭＬプロジェクトが前記１つ以上の第２のデータセット統計特徴と前記第１の既存のＭＬプロジェクトの前記１つ以上の第１のデータセット統計特徴との間で最も高い第１の類似度スコアを有することに基づいて、前記第１のランク付けセットから前記第１の既存のＭＬプロジェクトを選択することと、
前記１つ以上の第２の前処理ＡＰＩ特徴を、前記第１の既存のＭＬプロジェクトの前記１つ以上の第１の前処理ＡＰＩ特徴に設定することと、
第２の既存のＭＬプロジェクトが前記１つ以上の第２のターゲットタスク特徴と前記第２の既存のＭＬプロジェクトの前記１つ以上の第１のターゲットタスク特徴との間で最も高い第１の類似度スコアを有することに基づいて、前記第１のランク付けセットから前記第２の既存のＭＬプロジェクトを選択することと、
前記１つ以上の第２のモデル特徴を、前記第２の既存のＭＬプロジェクトの前記第１のモデル特徴に設定することと、
を含む、請求項７に記載の方法。
システムに動作を実行させるコンピュータプログラムであって、前記動作は、
既存の機械学習（ＭＬ）プロジェクトのセット内の既存のＭＬプロジェクトごとに、前記既存のＭＬプロジェクトから第１のプロジェクト特徴、第１のデータセット特徴、及び第１のパイプライン特徴を抽出し、前記既存のＭＬプロジェクトの前記第１のプロジェクト特徴、前記第１のデータセット特徴、及び前記第１のパイプライン特徴をコーパスに記憶することと、
第２のＭＬプロジェクトからの第２のプロジェクト特徴及び第２のデータセット特徴に基づいて第１の検索クエリを生成することと、
前記第１の検索クエリに基づいて前記コーパス上で第１の検索を実行して１つ以上の第１の類似度スコアに基づいて前記既存のＭＬプロジェクトの第１のランク付けセットを生成することと、
前記既存のＭＬプロジェクトの前記第１のランク付けセットの前記第１のパイプライン特徴に基づいて第２のパイプライン特徴を生成することと、
前記第２のプロジェクト特徴、前記第２のデータセット特徴、及び前記第２のパイプライン特徴に基づいて第２の検索クエリを生成することと、
前記第２の検索クエリに基づいて前記コーパス上で第２の検索を実行して１つ以上の第２の類似度スコアに基づいて前記既存のＭＬプロジェクトの第２のランク付けセットを生成することと、
前記既存のＭＬプロジェクトの前記第２のランク付けセット内の最も高いランク付けの既存のＭＬプロジェクトを前記第２のＭＬプロジェクトでの使用に適合可能として推奨することと、
を含む、コンピュータプログラム。
前記動作は、前記記憶することの前に、ストップワードの除去、ステミング、コード識別子のトークン化、略語の完全な単語へのマッピング、及び同義語の決定のうち１つ以上を実行することにより、前記第１のプロジェクト特徴、前記第１のデータセット特徴、及び前記第１のパイプライン特徴を正規化することをさらに含む、請求項９に記載のコンピュータプログラム。
前記動作は、前記記憶することの前、及び前記正規化することの後に、前記正規化された第１のプロジェクト特徴、前記正規化された第１のデータセット特徴、及び前記正規化された第１のパイプライン特徴を構造化文書にフォーマットすることをさらに含む、請求項１０に記載のコンピュータプログラム。
前記記憶することは、前記コーパスにおいて前記構造化文書をインデキシングすることをさらに含む、請求項１１に記載のコンピュータプログラム。
前記既存のＭＬプロジェクトの前記第１のデータセット特徴は、１つ以上の第１のデータセット属性特徴、１つ以上の第１のデータセット統計特徴、及び１つ以上の第１のターゲットタスク特徴を含み、
前記第２のＭＬプロジェクトの前記第２のデータセット特徴は、１つ以上の第２のデータセット属性特徴、１つ以上の第２のデータセット統計特徴、及び１つ以上の第２のターゲットタスク特徴を含む、
請求項９に記載のコンピュータプログラム。
前記コーパス上で前記第１の検索を実行することは、
前記第２のプロジェクト特徴と前記コーパス内の前記第１のプロジェクト特徴の各々との間、前記１つ以上の第２のデータセット属性特徴と前記コーパス内の前記第１のデータセット属性特徴の各々との間、前記１つ以上の第２のデータセット統計特徴と前記コーパス内の前記第１のデータセット統計特徴の各々との間、及び前記１つ以上の第２のターゲットタスク特徴と前記コーパス内の前記第１のターゲットタスク特徴の各々との間の、前記既存のＭＬプロジェクトの各々についての中間類似度スコアを生成することと、
前記既存のＭＬプロジェクトの各々についての前記中間類似度スコアをランク付け関数に基づいて前記１つ以上の第１の類似度スコアのうち１つに集計することと、
前記１つ以上の第１の類似度スコアに基づいて前記既存のＭＬプロジェクトをランク付けすることと、
を含む、請求項１３に記載のコンピュータプログラム。
前記既存のＭＬプロジェクトの各々の前記第１のパイプライン特徴は、第１の前処理アプリケーションプログラムインターフェース（ＡＰＩ）特徴及び第１のモデル特徴を含み、
前記第２のＭＬプロジェクトの前記第２のパイプライン特徴は、第２の前処理ＡＰＩ特徴及び第２のモデル特徴を含む、
請求項１４に記載のコンピュータプログラム。
前記第２のＭＬプロジェクトのための前記第２のパイプライン特徴を生成することは、
第１の既存のＭＬプロジェクトが前記１つ以上の第２のデータセット統計特徴と前記第１の既存のＭＬプロジェクトの前記１つ以上の第１のデータセット統計特徴との間で最も高い第１の類似度スコアを有することに基づいて、前記第１のランク付けセットから前記第１の既存のＭＬプロジェクトを選択することと、
前記１つ以上の第２の前処理ＡＰＩ特徴を、前記第１の既存のＭＬプロジェクトの前記１つ以上の第１の前処理ＡＰＩ特徴に設定することと、
第２の既存のＭＬプロジェクトが前記１つ以上の第２のターゲットタスク特徴と前記第２の既存のＭＬプロジェクトの前記１つ以上の第１のターゲットタスク特徴との間で最も高い第１の類似度スコアを有することに基づいて、前記第１のランク付けセットから前記第２の既存のＭＬプロジェクトを選択することと、
前記１つ以上の第２のモデル特徴を、前記第２の既存のＭＬプロジェクトの前記第１のモデル特徴に設定することと、
を含む、請求項１５に記載のコンピュータプログラム。
システムであって、
１つ以上のプロセッサと、
前記１つ以上のプロセッサにより実行されることに応答して当該システムに動作を実行させる命令を記憶するように構成された１つ以上の非一時的コンピュータ読取可能記憶媒体と、を含み、前記動作は、
既存の機械学習（ＭＬ）プロジェクトのセット内の既存のＭＬプロジェクトごとに、前記既存のＭＬプロジェクトから第１のプロジェクト特徴、第１のデータセット特徴、及び第１のパイプライン特徴を抽出し、前記既存のＭＬプロジェクトの前記第１のプロジェクト特徴、前記第１のデータセット特徴、及び前記第１のパイプライン特徴をコーパスに記憶することと、
第２のＭＬプロジェクトからの第２のプロジェクト特徴及び第２のデータセット特徴に基づいて第１の検索クエリを生成することと、
前記第１の検索クエリに基づいて前記コーパス上で第１の検索を実行して１つ以上の第１の類似度スコアに基づいて前記既存のＭＬプロジェクトの第１のランク付けセットを生成することと、
前記既存のＭＬプロジェクトの前記第１のランク付けセットの前記第１のパイプライン特徴に基づいて第２のパイプライン特徴を生成することと、
前記第２のプロジェクト特徴、前記第２のデータセット特徴、及び前記第２のパイプライン特徴に基づいて第２の検索クエリを生成することと、
前記第２の検索クエリに基づいて前記コーパス上で第２の検索を実行して１つ以上の第２の類似度スコアに基づいて前記既存のＭＬプロジェクトの第２のランク付けセットを生成することと、
前記既存のＭＬプロジェクトの前記第２のランク付けセット内の最も高いランク付けの既存のＭＬプロジェクトを前記第２のＭＬプロジェクトでの使用に適合可能として推奨することと、
を含む、システム。
前記動作は、
前記記憶することの前に、ストップワードの除去、ステミング、コード識別子のトークン化、略語の完全な単語へのマッピング、及び同義語の決定のうち１つ以上を実行することにより、前記第１のプロジェクト特徴、前記第１のデータセット特徴、及び前記第１のパイプライン特徴を正規化することと、
前記記憶することの前、及び前記正規化することの後に、前記正規化された第１のプロジェクト特徴、前記正規化された第１のデータセット特徴、及び前記正規化された第１のパイプライン特徴を構造化文書にフォーマットすることと、
をさらに含む、請求項１７に記載のシステム。
前記記憶することは、前記コーパスにおいて前記構造化文書をインデキシングすることをさらに含む、請求項１８に記載のシステム。
前記既存のＭＬプロジェクトの前記第１のデータセット特徴は、１つ以上の第１のデータセット属性特徴、１つ以上の第１のデータセット統計特徴、及び１つ以上の第１のターゲットタスク特徴を含み、
前記第２のＭＬプロジェクトの前記第２のデータセット特徴は、１つ以上の第２のデータセット属性特徴、１つ以上の第２のデータセット統計特徴、及び１つ以上の第２のターゲットタスク特徴を含み、
前記コーパス上で前記第１の検索を実行することは、
前記第２のプロジェクト特徴と前記コーパス内の前記第１のプロジェクト特徴の各々との間、前記１つ以上の第２のデータセット属性特徴と前記コーパス内の前記第１のデータセット属性特徴の各々との間、前記１つ以上の第２のデータセット統計特徴と前記コーパス内の前記第１のデータセット統計特徴の各々との間、及び前記１つ以上の第２のターゲットタスク特徴と前記コーパス内の前記第１のターゲットタスク特徴の各々との間の、前記既存のＭＬプロジェクトの各々についての中間類似度スコアを生成することと、
前記既存のＭＬプロジェクトの各々についての前記中間類似度スコアをランク付け関数に基づいて前記１つ以上の第１の類似度スコアのうち１つに集計することと、
前記１つ以上の第１の類似度スコアに基づいて前記既存のＭＬプロジェクトをランク付けすることと、
を含み、
前記既存のＭＬプロジェクトの各々の前記第１のパイプライン特徴は、第１の前処理アプリケーションプログラムインターフェース（ＡＰＩ）特徴及び第１のモデル特徴を含み、
前記第２のＭＬプロジェクトの前記第２のパイプライン特徴は、第２の前処理ＡＰＩ特徴及び第２のモデル特徴を含み、
前記第２のＭＬプロジェクトのための前記第２のパイプライン特徴を生成することは、
第１の既存のＭＬプロジェクトが前記１つ以上の第２のデータセット統計特徴と前記第１の既存のＭＬプロジェクトの前記１つ以上の第１のデータセット統計特徴との間で最も高い第１の類似度スコアを有することに基づいて、前記第１のランク付けセットから前記第１の既存のＭＬプロジェクトを選択することと、
前記１つ以上の第２の前処理ＡＰＩ特徴を、前記第１の既存のＭＬプロジェクトの前記１つ以上の第１の前処理ＡＰＩ特徴に設定することと、
第２の既存のＭＬプロジェクトが前記１つ以上の第２のターゲットタスク特徴と前記第２の既存のＭＬプロジェクトの前記１つ以上の第１のターゲットタスク特徴との間で最も高い第１の類似度スコアを有することに基づいて、前記第１のランク付けセットから前記第２の既存のＭＬプロジェクトを選択することと、
前記１つ以上の第２のモデル特徴を、前記第２の既存のＭＬプロジェクトの前記第１のモデル特徴に設定することと、
を含む、請求項１７に記載のシステム。