JP2022546636A

JP2022546636A - ソースコード上で動作するソフトウェアツールのための機械学習モデルの自動生成

Info

Publication number: JP2022546636A
Application number: JP2022526211A
Authority: JP
Inventors: イバンコビッチ，マルコ; ヤンコビッチ，ベドラナ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-11-06
Filing date: 2020-11-06
Publication date: 2022-11-04
Anticipated expiration: 2040-11-06
Also published as: KR102443654B1; US11977859B2; US20220027134A1; US11150877B2; JP7220833B2; KR20220080002A; JP2023065366A; WO2021092283A1; US20210132915A1; KR20220127376A; CN114616543A; EP4055474A1; JP7503671B2

Abstract

方法（５００）は、ターゲットソースコード（２１０）のコードインサイト（４００）を要求するコードインサイト要求（１１２）を受信することを備える。コードインサイト要求（１１２）は、ターゲットソースコード（２１０）と、ソフトウェア開発ツール（４１８）がコードラベリングタイプのソフトウェア開発ツールまたはコード変形タイプのソフトウェア開発ツールのうちの１つからなることを指定するツールタイプインジケータ（２０５）とを含む。本方法はさらに、ツールタイプインジケータに基づいて機械学習モデル（３０８）を取得することと、機械学習モデルを使用してコードインサイトを生成することとを備える。コードインサイトは、ツールタイプインジケータが、ソフトウェア開発ツールがコードラベリングタイプのソフトウェア開発ツールからなることを指定する場合のターゲットソースコードの予測ラベル（４００ａ）、またはツールタイプインジケータが、ソフトウェア開発ツールがコード変形タイプのソフトウェア開発ツールからなることを指定する場合のターゲットソースコードの予測コード変形（４００ｂ）のうちの１つからなる。

Description

技術分野
本開示は、ソースコード上で動作するソフトウェアツールのための機械学習モデルの生成に関する。

背景
プログラミングツールまたはソフトウェア開発ツールは、ソフトウェア開発者が他のプログラムおよびアプリケーションを、作成、デバッグ、保守、またはその他の態様ではサポートするために使用するコンピュータプログラムである。この用語は通常、物理的なオブジェクトを修正するために複数のハンドツールを使用するのと同じように、タスクを達成するために組合わせることができる比較的単純なプログラムを指す。最も基本的なツールは、ソースコードエディタおよびコンパイラまたはインタープリタである。その他のツールは、言語、開発方法および個々のエンジニアに応じて多かれ少なかれ使用され、デバッガ、プロファイラ、または静的プログラムアナライザのように、個別のタスクに使用されることがよくある。静的プログラム分析は、実際にプログラムを実行せずに行われるコンピュータソフトウェアの分析である。ほとんどの場合、分析はあるバージョンのソースコードに対して行われる。ソフトウェア開発ツールは、たとえばコマンドラインから別個に実行される個別のプログラムの場合もあれば、統合開発環境（ｉｎｔｅｇｒａｔｅｄｄｅｖｅｌｏｐｍｅｎｔｅｎｖｉｒｏｎｍｅｎｔ：ＩＤＥ）と呼ばれることもある単一の大きなプログラムの一部である場合もある。

コードベース（ｃｏｄｅｂａｓｅまたはｃｏｄｅｂａｓｅ）は、特定のソフトウェアシステム、アプリケーション、またはソフトウェアコンポーネントをビルドするために使用される、人間が書いた、および機械が生成したソースコードスニペットの集合である。コードベースは通常、ソースコードリポジトリに格納される。コードベースの改訂は、バージョンコントロールシステムによって管理されることがある。特定のソフトウェア開発ツールをビルドするためのコードベースを作成するのに、専門のソフトウェアエンジニアが数ヶ月かかる場合が多い。機械学習モデルは、人間が書いたソースコードスニペットの誤りを自動的に識別することによって、これらのソフトウェア開発ツールのビルドプロセスを迅速化するのに役立つ可能性がある。しかしながら、このような機械学習モデルは、ビルドされるソフトウェア開発ツールに特化したものであり、実際にソフトウェア開発ツールをビルドする異なるソフトウェアエンジニアが使用できるように機械学習モデルを作成するためには、専門のソフトウェアエンジニアが必要である。

概要
本開示のある態様は、コードインサイトを生成するための方法を提供する。方法は、データ処理ハードウェアにおいて、ターゲットソースコードのコードインサイトを要求するコードインサイト要求を、ソフトウェア開発ツールをビルドするためにターゲットソースコードを使用する開発者に関連付けられた開発者デバイスから受信することを備える。コードインサイト要求は、ターゲットソースコードと、ツールタイプインジケータとを含む。ツールタイプインジケータは、ソフトウェア開発ツールが、コードラベリングタイプのソフトウェア開発ツールまたはコード変形タイプのソフトウェア開発ツールのうちの１つからなることを指定する。方法はさらに、データ処理ハードウェアが、ツールタイプインジケータに基づいて、コードラベリングタイプのソフトウェア開発ツールまたはコード変形タイプのソフトウェア開発ツールのうちの指定された１つに関連付けられた訓練ソースコードで訓練された機械学習モデルを取得することを備える。方法はさらに、データ処理ハードウェアが、機械学習モデルを使用して、ターゲットソースコードのコードインサイトを生成することを備える。ツールタイプインジケータが、ソフトウェア開発ツールがコードラベリングタイプのソフトウェア開発ツールからなることを指定する場合、ターゲットソースコードのコードインサイトは、ターゲットソースコードの予測ラベルを含む。ツールタイプインジケータが、ソフトウェア開発ツールがコード変形タイプのソフトウェア開発ツールからなることを指定する場合、ターゲットソースコードのコードインサイトは、訓練ソースコードの予測コード変形を含む。方法はさらに、データ処理ハードウェアが、コードインサイトを開発者デバイスに送信することを備え、コードインサイトは、開発者デバイスによって受信されると、開発者デバイスで実行されているグラフィカルユーザインターフェイスに、コードインサイトを開発者デバイスの表示画面に表示させる。

本開示の実装は、以下に記載の任意の特徴のうちの１つ以上を含み得る。いくつかの実装では、方法はさらに、データ処理ハードウェアが、機械学習モデルへの入力に適したターゲットソースコードの構文表現に対応するターゲット特徴のセットを、ターゲットソースコードから抽出することを備える。これらの実装では、機械学習モデルは、ターゲット特徴のセットを入力として受信し、ターゲットソースコードのコードインサイトを出力として生成するように構成されている。ターゲットソースコードの構文表現は、構文表現木（ＡｂｓｔｒａｃｔＳｙｎｔａｘＴｒｅｅ：ＡＳＴ）を含み得る。いくつかの例では、機械学習モデルを取得することは、機械学習モデル生成器を使用して、選択された訓練ソースコードで機械学習モデルを訓練することによってコードインサイト要求を受信することに応答して、機械学習モデルを生成することを含む。訓練ソースコードは、データ処理ハードウェアと通信しているメモリハードウェアに格納されているソースコードリポジトリから選択可能であり、訓練ソースコードは、コードラベリングタイプのソフトウェア開発ツールまたはコード変形タイプのソフトウェア開発ツールのうちの指定された１つに関連付けられている。いくつかの実装では、方法はさらに、データ処理ハードウェアが、機械学習モデルを訓練するのに適した訓練ソースコードの構文表現に対応する訓練特徴のセットを、選択された訓練ソースコードから抽出することを備える。訓練ソースコードの構文表現は、抽象構文木（ＡＳＴ）を含み得る。

いくつかの実装では、コードインサイト要求はさらに、コードインサイトに関連付けられた、開発者によって定義された結果特性タイプを含み、ツールタイプインジケータに基づいて機械学習モデルを取得することはさらに、結果特性タイプに基づいてもよい。これらの実装では、機械学習モデルを使用してターゲットソースコードのコードインサイトを生成することはさらに、機械学習モデルを使用して、コードインサイト要求の結果特性タイプに関連付けられた、コードインサイトのエミュレートされた結果特性を生成することを含み得る。方法はさらに、データ処理ハードウェアが、データ処理ハードウェアと通信しているメモリハードウェアに格納されているソースコードリポジトリから、コードインサイト要求の結果特性タイプに関連付けられた対応する結果特性とペアにされた訓練ソースコードの訓練例を識別することを備え得る。方法はさらに、データ処理ハードウェアが、機械学習モデルを、対応する結果特性とペアにされた訓練ソースコードを含む訓練例で訓練することを備え得る。

コードインサイトのエミュレートされた結果特性は、ターゲットソースコードもしくはターゲットソースコードの変形のエミュレートされたビルド結果、ターゲットソースコードもしくはターゲットソースコードの変形を実行するためのエミュレートされた経過時間、ターゲットソースコードもしくはターゲットソースコードの変形のエミュレートされたメタデータ、またはターゲットソースコードもしくはターゲットソースコードの変形のエミュレートされた、人間が生成したコメントのうちの１つを含み得る。方法はさらに、ターゲットソースコードの予測コード変形が実行可能なコードを含む場合、データ処理ハードウェアが、機械学習モデルを、訓練ソースコードをコンパイルまたは解釈することによって生じる対応する訓練実行可能なコードとペアにされた訓練ソースコードを含む訓練例で訓練することを備え得る。いくつかの実装では、機械学習モデルを使用してターゲットソースコードのコードインサイトを生成することは、ターゲットソースコードから抽出されるターゲット特徴のセットを特徴入力として受信するように構成された機械学習モデルを使用して、ターゲットソースコードのベクトル表現を生成することと、データ処理ハードウェアと通信しているメモリハードウェアに格納されている訓練ソースコードスニペットのプールの類似スコアを求めることとを含み、類似スコアの各々は、対応する訓練コードスニペットに関連付けられており、かつ、ターゲットソースコードのベクトル表現と、対応する訓練コードスニペットのそれぞれのベクトル表現との類似レベルを示し、生成することはさらに、類似閾値を満たす類似スコアを有する訓練ソースコードスニペットのプールから、１つ以上の訓練ソースコードスニペットを、ターゲットソースコードのミューテーションに対応するものとして識別することを含む。

ターゲットソースコードは、ターゲットコードベースからのターゲットソースコードスニペットのペアを含んでもよく、機械学習モデルを使用してターゲットソースコードのコードインサイトを生成することは、ターゲットソースコードスニペットのペア内のターゲットソースコードスニペットごとに、対応するターゲットソースコードスニペットから抽出されるターゲット特徴のセットを特徴入力として受信するように構成された機械学習モデルを使用して、対応するターゲットソースコードスニペットのベクトル表現を生成することと、ベクトル表現に基づいて、ターゲットソースコードスニペットのペアの間のベクトル空間距離を求めることと、ベクトル空間距離が距離閾値を満たす場合、ターゲットソースコードスニペットのペアは互いの複製であると判断することとを含み得る。訓練ソースコードの予測ラベルは、ターゲットソースコードの複雑さの予測レベル、ターゲットソースコードの予測品質、ターゲットソースコードの予測テスト要件、またはターゲットソースコードの予測難易度評価のうちの少なくとも１つを含み得る。ターゲットソースコードの予測コード変形は、ターゲットソースコード内のビルドエラーを修正する更新済みターゲットソースコード、ターゲットソースコードの実行可能なコード、ターゲットソースコードの改訂、またはターゲットソースコードを置換するための推奨される置換ソースコードのうちの少なくとも１つを含み得る。

本開示の他の態様は、コードインサイトを生成するためのシステムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信しており、データ処理ハードウェアで実行されると、データ処理ハードウェアに動作を実行させる命令を格納したメモリハードウェアとを備える。動作は、ターゲットソースコードのコードインサイトを要求するコードインサイト要求を、ソフトウェア開発ツールをビルドするためにターゲットソースコードを使用する開発者に関連付けられた開発者デバイスから受信することを含む。コードインサイト要求は、ターゲットソースコードと、ツールタイプインジケータとを含む。ツールタイプインジケータは、ソフトウェア開発ツールがコードラベリングタイプのソフトウェア開発ツールまたはコード変形タイプのソフトウェア開発ツールのうちの１つからなることを指定する。動作はさらに、ツールタイプインジケータに基づいて、コードラベリングタイプのソフトウェア開発ツールまたはコード変形タイプのソフトウェア開発ツールのうちの指定された１つに関連付けられた訓練ソースコードで訓練された機械学習モデルを取得することを含む。動作はさらに、機械学習モデルを使用して、ターゲットソースコードのコードインサイトを生成することを含む。ツールタイプインジケータが、ソフトウェア開発ツールがコードラベリングタイプのソフトウェア開発ツールからなることを指定する場合、ターゲットソースコードのコードインサイトは、ターゲットソースコードの予測ラベルを含む。ツールタイプインジケータが、ソフトウェア開発ツールがコード変形タイプのソフトウェア開発ツールからなることを指定する場合、ターゲットソースコードのコードインサイトは、訓練ソースコードの予測コード変形を含む。動作はさらに、コードインサイトを開発者デバイスに送信することを含み、コードインサイトは、開発者デバイスによって受信されると、開発者デバイスで実行されているグラフィカルユーザインターフェイスに、コードインサイトを開発者デバイスの表示画面に表示させることを含む。

本開示の実装は、以下の任意の特徴のうちの１つ以上を含み得る。いくつかの実装では、動作はさらに、機械学習モデルへの入力に適したターゲットソースコードの構文表現に対応するターゲット特徴のセットを、ターゲットソースコードから抽出することを含む。これらの実装では、機械学習モデルは、ターゲット特徴のセットを入力として受信し、ターゲットソースコードのコードインサイトを出力として生成するように構成されている。ターゲットソースコードの構文表現は、構文表現木（ＡＳＴ）を含み得る。いくつかの例では、機械学習モデルを取得することは、機械学習モデル生成器を使用して、選択された訓練ソースコードで機械学習モデルを訓練することによってコードインサイト要求を受信することに応答して、機械学習モデルを生成することを含む。訓練ソースコードは、データ処理ハードウェアと通信しているメモリハードウェアに格納されているソースコードリポジトリから選択可能であり、訓練ソースコードは、コードラベリングタイプのソフトウェア開発ツールまたはコード変形タイプのソフトウェア開発ツールのうちの指定された１つに関連付けられている。いくつかの実装では、動作はさらに、機械学習モデルを訓練するのに適した訓練ソースコードの構文表現に対応する訓練特徴のセットを、選択された訓練ソースコードから抽出することを含む。訓練ソースコードの構文表現は、抽象構文木（ＡＳＴ）を含み得る。

いくつかの実装では、コードインサイト要求はさらに、コードインサイトに関連付けられた、開発者によって定義された結果特性タイプを含み、ツールタイプインジケータに基づいて機械学習モデルを取得することはさらに、結果特性タイプに基づく。これらの実装では、機械学習モデルを使用してターゲットソースコードのコードインサイトを生成することはさらに、機械学習モデルを使用して、コードインサイト要求の結果特性タイプに関連付けられた、エミュレートされた結果特性を生成することを含み得る。動作はさらに、メモリハードウェアに格納されているソースコードリポジトリから、コードインサイト要求の結果特性タイプに関連付けられた対応する結果特性とペアにされた訓練ソースコードの訓練例を識別することを含み得る。動作はさらに、機械学習モデルを、対応する結果特性とペアにされた訓練ソースコードを含む訓練例で訓練することを含み得る。

コードインサイトのエミュレートされた結果特性は、ターゲットソースコードもしくはターゲットソースコードの変形のエミュレートされたビルド結果、ターゲットソースコードもしくはターゲットソースコードの変形を実行するためのエミュレートされた経過時間、ターゲットソースコードもしくはターゲットソースコードの変形のエミュレートされたメタデータ、またはターゲットソースコードもしくはターゲットソースコードの変形のエミュレートされた、人間が生成したコメントのうちの１つを含み得る。動作はさらに、ターゲットソースコードの予測コード変形が実行可能なコードを含む場合、機械学習モデルを、訓練ソースコードをコンパイルまたは解釈することによって生じる対応する訓練実行可能なコードとペアにされた訓練ソースコードを含む訓練例で訓練することを含み得る。いくつかの実装では、機械学習モデルを使用してターゲットソースコードのコードインサイトを生成することは、ターゲットソースコードから抽出されるターゲット特徴のセットを特徴入力として受信するように構成された機械学習モデルを使用して、ターゲットソースコードのベクトル表現を生成することと、メモリハードウェアに格納されている訓練ソースコードスニペットのプールの類似スコアを求めることとを含み、類似スコアの各々は、対応する訓練コードスニペットに関連付けられており、かつ、ターゲットソースコードのベクトル表現と、対応する訓練コードスニペットのそれぞれのベクトル表現との類似レベルを示し、さらに、類似閾値を満たす類似スコアを有する訓練ソースコードスニペットのプールから、１つ以上の訓練ソースコードスニペットを、ターゲットソースコードのミューテーションに対応するものとして識別することを含む。

本開示の１つ以上の実装は、添付の図面および以下の説明に詳細に記載されている。他の態様、特性、および利点は、説明および図面、ならびに特許請求の範囲から明らかになるであろう。

ソフトウェア開発ツールで使用される機械学習モデルを訓練するための環境の例を示す概略図である。ターゲットソースコードから抽出されるターゲット特徴のセットの例を示す概略図である。ソフトウェア開発ツールの機械学習モデルの訓練の例を示す模式図である。ソフトウェア開発に用いられる機械学習モデルを実行する例を示す概略図である。ソフトウェア開発に用いられる機械学習モデルを実行する例を示す概略図である。ソフトウェア開発に用いられる機械学習モデルを実行する例を示す概略図である。ソフトウェア開発に用いられる機械学習モデルを実行する例を示す概略図である。機械学習モデルをターゲットソースコードに適用する方法の動作の配置例を示す図である。例示的なコンピューティングデバイスを示す概略図である。

図面中の同様の符号は、同様の要素を示す。
詳細な説明
本開示の態様は、ソフトウェア開発ツールの機械学習モデルに関する。ソフトウェア開発者は、ソフトウェア開発ツールを使用して、ソフトウェアアプリケーション、ウェブサイト、または他のソフトウェアシステムもしくはコンポーネントを、作成、デバッグ、維持、またはその他の態様ではサポートする。ソフトウェア開発ツールは、たとえばコマンドインタープリタから別個に実行される個別のプログラムでもよい、または、統合開発環境（ＩＤＥ）と呼ばれることが多い単一の大きなプログラムの一部である場合もある。プログラムのバグを発見し、アプリケーションの拡張時に新たなバグが発生するのを防ぎ、一般に認められたプログラミング手法に従うために、コードベースを認識するソフトウェア開発ツールが使用されることがある。コードベース（ｃｏｄｅｂａｓｅまたはｃｏｄｅｂａｓｅ）は、特定のソフトウェアシステムまたはソフトウェアコンポーネント（たとえば、ソフトウェア開発ツール）をビルドするために使用されるソースコードの集合である。コードベースは通常、ソースコードリポジトリに格納される。コードベースは一般に、人間が書いたソースコードスニペットを含む。これらのソースコードスニペットは、非常に複雑であるため、または単に長いため、最も経験のあるソフトウェア開発者であっても、コードベースをちらっと見ただけでは、ソースコードスニペットを手動で検査することができないことがよくある。また、高水準プログラミング言語によって提供される抽象化によって、ソースコードとソフトウェアアプリケーションの動作との関係を理解することがさらに難しくなっている。プログラムのバグを発見するため、コードを拡張する際に新たなバグを発生させないため、および一般に認められたプログラミング手法に従うために、ソフトウェア開発者は、ソースコード上で動作するソフトウェア開発ツールをビルドする際に、機械学習モデルを活用することができる。

ソフトウェアアナライザは、通常、ソースコードを評価するためにルールを適用することによって作動する。ルールは、プログラミングエラーの一般的な原因に基づいて、言語固有、および／またはオペレーティングシステム固有になることがある。精度が低すぎるルールは、誤表示が多すぎて、ソフトウェア開発者にとって有用でない可能性がある。精度が高すぎるルールは、限られた状況でのみ適用可能である、および／または、実行に時間がかかりすぎて実用的でない可能性がある。機械学習モデルに基づくソフトウェア開発ツールは、誤表示の回避と実用的な実行時間との適切なバランスを効率的に実現することができる。機械学習モデルに基づくソフトウェア開発ツールは、一般的なプログラミングエラーの検出にとどまらない可能性がある。例示的なコードベースを使用して訓練された機械学習モデルは、例示的なコードベースおよび／または例示的なコードベースから抽出される特徴に基づくインサイトを得ることができる場合がある。

ソースコードを理解する機械学習モデルは、ソフトウェア開発ツールをビルドする時間を大幅に短縮し、全体の品質を向上させることができるが、特定のソフトウェア開発ツールのビルドのために調整された機械学習モデルの作成は、大変な作業であり、機械学習の知識を有する専門のエンジニアが必要になる。また、機械学習モデルの作成と、ソースコード上のソフトウェア開発ツールの作成とに必要なスキルおよび知識は、通常、重複しないため、機械学習およびソフトウェア開発ツールを専門とする別のエンジニアが必要になる。機械学習モデルがソフトウェア開発ツールのビルドを最適化するために提供する利点は、機械学習モデルの作成に必要な追加コストおよびリソースを上回らないことが多い。その結果、機械学習モデルを用いずに従来の方法でソフトウェア開発ツールをビルドする方が簡単であることが多い。

本明細書の実装は、開発者がソフトウェア開発ツールをビルドするために使用しているターゲットソースコードのコードインサイトの生成に使用される機械学習モデルを自動的に生成することに向けられている。ターゲットソースコードを理解する機械学習モデルを生成することによって、開発者は、データ収集、ならびに機械学習モデルを生成する際の専門的なスキルおよび知識を有していることなど、機械学習モデルを生成するためのプロセスのすべての側面から軽減される。たとえば、開発者は、ターゲットソースコード用のコードインサイトを要求するコードインサイト要求を提供してもよく、コードインサイト要求は、ターゲットソースコードと、ソフトウェア開発ツールがコードラベリングタイプのソフトウェア開発ツール（たとえば、難易度評価を提供するツール）またはコード変形タイプのソフトウェア開発ツール（たとえば、コードを入力として受取り、異なるコードを出力として生成するツール）のうちの１つからなることを指定するツールタイプインジケータとを含む。コードインサイト要求は、限定されないが、ビルド結果、ターゲットソースコードを実行するための経過時間、ターゲットソースコードのメタデータ、またはターゲットソースコードの人間が生成したコメントなど、コードインサイトに関連付けられた出力特性タイプを任意に含んでもよい。基本的に、出力特性タイプは開発者によって定義され、どのタイプのデータがビルド中のソフトウェア開発ツールに関連するかについてのヒントを提供する。

ツールタイプインジケータ、および必要に応じて出力特性タイプに基づいて、機械学習システムは、コードインサイトの生成方法を学習するための機械学習モデルをビルドするために、訓練ソースコードデータに関連して自動的に収集および結合するように構成されている。すなわち、機械学習モデルが訓練ソースコード上で訓練されると、開発者は、ターゲットソースコード（たとえば、ソースコードスニペット（複数可））を訓練済みの機械学習モデルへの入力として提供することが可能であり、訓練済みの機械学習モデルは、ターゲットソースコードのコードインサイトを生成することが可能である。ここで、コードインサイトは、ツールタイプインジケータが、ソフトウェア開発ツールがコードラベリングタイプのソフトウェア開発ツールからなることを指定する場合のターゲットソースコードの予測ラベル、またはツールタイプインジケータが、ソフトウェア開発ツールがコード変形タイプのソフトウェア開発ツールに対応することを指定する場合の訓練ソースコードの予測コード変形のうちの１つを含む。開発者は、コードインサイトを見て（たとえば、グラフィカルユーザインターフェイス上のディスプレイを介して）、コードインサイトに基づいて、必要に応じてターゲットソースコードを更新することができる。

図１を参照すると、いくつかの実装において、システム１００は、ソフトウェア開発者２０２に関連付けられた開発者デバイス２０４を備え、ソフトウェア開発者は、たとえば、ネットワーク１３０を介して、リモートシステム１４０と通信してもよい。リモートシステム１４０は、スケーラブル／エラスティックなリソース１４２を有する分散システム（たとえば、クラウド環境）でもよい。リソース１４２は、コンピューティングリソース（たとえば、データ処理ハードウェア）１４４および／またはストレージリソース（たとえば、メモリハードウェア）１４６を含む。ソフトウェア開発者２０２は、開発者デバイス２０４を使用して、ターゲットソースコード２１０上で動作するソフトウェア開発ツール（たとえば、ソフトウェアツール）４１８をビルドしてもよい。リモートシステム１４０は、機械学習モデル３０８を自動的に取得し、機械学習モデル３０８を使用して、開発者２０２がソフトウェアツール４１８をビルドするために使用しているターゲットソースコード２１０のコードインサイト４００，４００ａ～ｂを生成するために、コードインサイトサービス１５０を実行する。ソフトウェア開発者２０２が、必要なデータをすべて手動で収集し、ターゲットソースコードを分析するために特別に調整された機械学習モデルをビルドする困難なプロセスを引き受ける必要がある従来の技術とは対照的に、コードインサイトサービス１５０は、ターゲットソースコード２１０と、ツール４１８がコードラベリングタイプのソフトウェア開発ツールまたはコード変形タイプのソフトウェア開発ツールのうちの１つからなることを指定するツールタイプインジケータ２０５とを除いて、開発者２０２からの入力なしに機械学習モデル３０８を自動的に取得（たとえば、自動的に生成）するように構成されている。さらにロバストな機械学習モデル３００を取得／生成するために、開発者２０２は、コードインサイト４００に関連付けられた結果特性タイプ２０７を追加的に提供してもよい。

開発者デバイス２０２は、開発者デバイス２０２の画面上に表示されるグラフィカルユーザインターフェイス（ＧＵＩ）２２０を実行してもよい。開発者２０４は、ＧＵＩ２０４を使用して、ターゲットソースコード２１０上で動作するソフトウェアツール４１８をビルドしてもよい。たとえば、開発者２０４は、ＧＵＩ２０４を介して、開発者デバイス２０２にターゲットソースコード２１０を入力してもよい。開発者２０４は、ＧＵＩ２２０を使用して、コードインサイトサービス１５０と通信し、たとえば、コードインサイトサービス１５０にコードインサイト要求１１０を送信し、コードインサイトサービス１５０によって生成されるコードインサイト４００を表示してもよい。

示された例では、コードインサイトサービス１５０は、ソフトウェア開発ツール４１８をビルドするために使用されるターゲットソースコード２１０のコードインサイト４００を要求するコードインサイト要求１１０を受信する。ターゲットソースコード２１０は、開発者２０４が、たとえば、コードインサイト４００を介してインサイトを得ようとしているコードベース内の１つ以上のソースコードスニペットを含んでもよい。コードインサイト要求１１０は、ターゲットソースコード２１０と、ソフトウェア開発ツール４１８がコードラベリングタイプのソフトウェア開発ツールまたはコード変形タイプのソフトウェア開発ツールのうちの１つからなることを指定するビルドタイプインジケータ２０５とを含む。別の例では、コードインサイト要求１１０はさらに、限定されないが、ビルド結果、ターゲットソースコードを実行するための経過期間、ターゲットソースコードのメタデータ、またはターゲットソースコードの人間が生成したコメントなど、コードインサイト４００に関連付けられた出力特性タイプ２０７を含む。基本的に、出力特性タイプ２０７は、開発者２０２によって定義され、どのタイプのデータがビルド中のソフトウェア開発ツール４１８に関連するかについてのヒントを提供し、より詳細なレベルでは、どのタイプのデータが、コードインサイト４００の生成に使用される機械学習モデル３０８の取得／生成に関連するかについてのヒントを提供する。

いくつかの実装では、リモートシステム１４０上で実行される（たとえば、データ処理ハードウェア１４４上で実行される）コードインサイトサービス１５０は、特徴抽出器２００、機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ：ＭＬ）システム３００、およびインサイト生成器４１０を含む。図示の例では、特徴抽出器２００は、開発者デバイス２０４から受信したコードインサイト要求１１０に含まれるターゲットソースコード２１０からターゲット特徴２１２のセットを抽出するように構成されている。ここで、ターゲット特徴２１２のセットは、機械学習モデル３０８への入力に適したターゲットソースコード２１０の構文表現に対応する。たとえば、ターゲット特徴２１２を使用してターゲットソースコード２１０を構文的に表現することによって、ターゲットソースコード２１０を機械学習モデル３０８によって読取り可能な形式で表現し、ターゲットソースコード２１０から不要なデータを除去することによって機械学習モデル３０８のメモリ要件を低減することができる。いくつかの例では、ターゲットソースコード２１０の構文表現は、抽象構文木（ＡＳＴ）を含む。

図２は、ターゲットソースコード２１０からターゲット特徴２１２のセットを抽出して抽象構文木（ＡＳＴ）表現２１５にする特徴抽出器２００の例を示す図である。同じまたは異なる特徴抽出器２００は、同様に、ターゲットソースコード２１０から訓練特徴を抽出してＡＳＴ表現２１５にしてもよい。また、特徴抽出器２００は、ターゲットソースコード２１０から異なる特徴を抽出して、ターゲットソースコード２１０の他の種類の構文表現を提供するために使用されてもよい。図１は、リモートシステム１４０上で実行される特徴抽出器２００を示しているが、開発者デバイス２０４は、他の構成で特徴抽出器２００を実行してもよい。一般に、ターゲットソースコード２１０は、高水準の構造化されたコンピュータ言語で表現されるソフトウェアを含む。たとえば、ターゲットソースコード２１０は、Ｊａｖａ（登録商標），ＪａｖａＳｃｒｉｐｔ（登録商標），Ｐｙｔｈｏｎ，Ｒｕｂｙ，Ｃ／Ｃ＋＋，Ｃ＃，Ｏｂｊｅｃｔｉｖｅ－Ｃ，ＳＱＬ，ＰＨＰおよび／またはＲを含むがこれらに限定されない、定義された構文を有する高レベルの構造化されたコンピュータ言語で表現されたソフトウェアを含んでもよい。ターゲットソースコード２１０を機械学習モデル３０８に直接挿入すれば、結果が使用不可能となるほど質の低い結果が生じることになる。さらに、利用可能なリソースよりも膨大なリソースが必要となるだろう。しかしながら、特徴抽出器２００は、同じまたはより良い結果を取得し、同時に、メモリ要件を大幅に低減させるために、ノードのペアとそれらの共通の祖先をハッシュ化することによって、ターゲット特徴２１２のセットを抽出してＡＳＴ表現２１５にしてもよい。ＡＳＴ表現２１５は、ターゲットソースコード２１０の構造的なまたはコンテンツ関連の特徴２１２を表現してもよい。たとえば、ＡＳＴ表現２１５は、ターゲットソースコード２１０の構造を定義する中括弧、セミコロン、括弧などの句読点および区切り記号を省略してもよい。図２は、ターゲットソースコード２１０のスニペットを示す。スニペットは、ｗｈｉｌｅループ、ｉｆ／ｔｈｅｎ／ｅｌｓｅ文、および２つの代入文を含む。ＡＳＴ表現２１５に基づくターゲット特徴２１２の一部も示されている。ＡＳＴ表現２１５は、階層ツリー形式で配置されたターゲットソースコード２１０の構文特徴２１２を保持しつつ、コードスニペットの中括弧およびセミコロンを省略する。この例では、木構造の各ボックスは、ターゲットソースコード２１０から抽出された特徴２１２，２１２ａ～ｎを表している。

いくつかの例では、ＡＳＴ表現２１５は、特定のコンピュータ言語に対応する。他の例では、ＡＳＴ表現２１５は、いくつかのプログラミング言語に広く適用され、それによって、機械学習モデル３０８が、多数のプログラミング言語、たとえばＪａｖａまたはＰｙｔｈｏｎで表現されたターゲットソースコード２１０の確立された命名基準への準拠を認識することを学習できるように、訓練ソースコード３１０のプログラミング言語にとらわれないＡＳＴ表現で機械学習モデル３０８を訓練することができる。

図１に戻って、いくつかの実装では、ＭＬシステム３００は、開発者デバイス２０４から受信したコードインサイト要求１１０に含まれるツールタイプインジケータ２０５に基づいて、機械学習モデル３０８を取得するように構成されている。コードインサイト要求１１０がコードインサイト４００に関連付けられた出力特性タイプ２０７も含む例では、ＭＬシステム３００は、ツールタイプインジケータ２０５と出力特性タイプ２０７との両方に基づいて機械学習モデル３０８を取得するように構成されている。図３を参照して以下でより詳細に説明するが、ＭＬシステム３００は、ツールタイプインジケータ２０５および出力特性タイプ２０７を使用して、機械学習モデル３０８を生成するための関連データを収集する。より具体的には、ＭＬシステム３００は、ツールタイプインジケータ２０５を使用して、ツールタイプインジケータ２０５によって指定されたコードラベリングタイプのソフトウェア開発ツールまたはコード変形タイプのソフトウェア開発ツールのうちの１つに関連付けられた訓練ソースコード３１０を選択する。ＭＬシステム３００はさらに、出力特性タイプ２０７を使用して、結果特性タイプ２０７に関連付けられた対応する結果特性３２０とペアにされた訓練ソースコード３１０の訓練例を識別してもよい。図示された例では、ＭＬシステム３００は、機械学習モデル３０８を、訓練ソースコード３１０、または対応する結果特性３２０とペアにされた訓練ソースコード３１０を含む訓練例で訓練する。

ＭＬシステム３００が、開発者デバイス２０４からのコードインサイト要求１１０の受信に応答して機械学習モデル３０８を取得した後で、インサイト生成器４１０は、機械学習モデル３０８を使用してターゲットソースコード２１０のコードインサイト４００を生成するように構成されている。いくつかの例では、インサイト生成器４１０は、ターゲットソースコード２１０から抽出されたターゲット特徴２１２のセットをモデル３０８への入力として受信し、ターゲットソースコード２１０のコードインサイト４００を出力として生成する。しかしながら、他の例では、コードインサイトサーバ１５０は、特徴抽出器２００を省略し、代わりに、入力としてターゲットソースコード２１０からコードインサイト４００を生成してもよい。

ツールタイプインジケータ２０５が、ソフトウェア開発ツール４１８がコードラベリングタイプのソフトウェア開発ツールからなることを指定する場合、コードインサイト４００は、ターゲットソースコード２１０の予測ラベル４００ａを含む。たとえば、予測ラベル４００ａは、ターゲットソースコード２１０の複雑さの予測レベル（たとえば、複雑対単純）、ターゲットソースコードの予測品質（たとえば、良いコード対悪いコード）、ターゲットソースコードの予測テスト要件（たとえば、テストした方がよい）、またはターゲットソースコードの予測難易度評価のうちの少なくとも１つを含んでもよい。予測ラベル４００ａは、開発者２０２が機械学習モデル３０８にターゲットソースコード２１０について予測させたい任意のタイプのラベルを含んでもよい。さらに、コードインサイト要求１１０に含まれるツールタイプインジケータ２０５は、開発者２０２がコードインサイト要求１１０を提供する際に、開発者２０２が機械学習モデル３０８に予測させたい特定のラベルを提供する場合に、コードラベリングタイプを指定してもよい。すなわち、コードインサイト要求１１０は、開発者２０２がコードインサイトサービス１５０に（たとえば、機械学習モデル３０８を介して）ターゲットソースコード２１０の複雑さ、ターゲットソースコード２１０の品質、ターゲットソースコード２１０のテスト要件、またはターゲットソースコード２１０の難易度評価を予測させたいことを示す場合がある。

一方、ツールタイプインジケータ２０５が、ソフトウェア開発ツール４１８がコード変形タイプのソフトウェア開発ツールからなることを指定する場合、コードインサイト４００は、ターゲットソースコード２１０の予測コード変形４００ｂを含む。いくつかの例では、機械学習モデル３０８は、モデル３０８がターゲットソースコード２１０（たとえば、ターゲット特徴２１２）内の１つ以上のビルドエラーを特定し、特定された１つ以上のビルドエラーを修正する予測コード変形４００ｂを生成するビルドエラー修正器として動作するように構成されている。ここで、予測コード変形４００ｂは、ビルドエラーを修正する更新済みのターゲットソースコード２１０を含んでもよい、または、ビルドエラーをもたらしたコードの部分を修正するためのコード改訂を含んでもよい。別の例では、予測コード変形４００ｂは、ターゲットソースコード２１０のコンパイル／解釈をエミュレートする実行可能なコード出力を含む。いくつかの実装では、予測コード変形４００ｂは、ターゲットソースコード２１０を置換するための推奨される置換コードを含む。

コードインサイト要求１１０が開発者２０２によって指定された結果特性タイプ２０７を含むシナリオでは、インサイト生成器４１０はさらに、機械学習モデル３０８を使用して、コードインサイト４００のエミュレートされた結果特性３２０を生成するように構成されている。これらのシナリオでは、エミュレートされた結果属性３２０は、コードインサイト要求１１０に含まれる結果特性タイプ２０７に関連付けられている。たとえば、エミュレートされた結果属性３２０は、ターゲットソースコード２１０のビルドが成功するかまたは失敗するかを示す、エミュレートされたビルド結果を含んでもよい。エミュレートされた結果属性３２０は、追加的または代替的に、ターゲットソースコードを実行するためのエミュレートされた経過時間、および／またはターゲットソースコードのエミュレートされたメタデータを含んでもよい。いくつかの例では、結果特性タイプ２０７がユーザコメントを指定する場合、エミュレートされた結果属性３２０は、ターゲットソースコード２１０のコードレビューから生じるであろうユーザコメントをエミュレートする、ターゲットソースコード２１０用に人間が生成した、エミュレートされたコメントを含む。

図３は、リモートシステム１４０上で実行されるコードインサイトサービス１５０の機械学習（ＭＬ）システム３００の例を示す。ＭＬシステム３００は、データコレクタ３４０と、機械学習モデル生成器３６０と、リモートシステム１４０のメモリハードウェア１４６に格納されているソースコードリポジトリ３１５とを含んでもよい。図示された例では、ソースコードリポジトリ３１５は、モデル生成器３６０が、ターゲットソースコード２１０のラベル４００ａまたはコード変形４００ｂを予測する学習のための訓練済みＭＬモデル３０８を生成（すなわち、訓練）するために使用可能な訓練ソースコード３１０，３１０ａ～ｎのコードベースを含んでもよい。いくつかの例では、ソースコードリポジトリ３１５は、開発者デバイス２０４がソフトウェア開発ツール４１８をビルドするためにアクセスし、コードインサイトサービス１５０へのコードインサイト要求１１０に含まれ得る、ターゲットソースコード２１０のスニペットも含む。コードインサイトサービス１５０によって受信されたコードインサイト要求１１０で提供されたビルドタイプインジケータ２０５（および任意に出力特性タイプ２０７）に基づいて、データコレクタ３４０は、コードラベリングタイプのソフトウェア開発ツールまたはコード変形タイプのソフトウェア開発ツールのうちの指定された１つに関連付けられた訓練ソースコード３１０を選択するために、ソースコードリポジトリ３１５に問合わせてもよい。その後、モデル生成器３６０は、データコレクタ３４０によって選択された訓練ソースコード３１０を、機械学習モデル３０８を訓練するための訓練例３５０として使用する。このように、ＭＬシステム３００は、ソースコードリポジトリ３１５から訓練ソースコード３１０を選択し、機械学習モデル生成器３６０を使用して、選択した訓練ソースコード３１０で機械学習モデル３０８を訓練することにより、コードインサイト要求１１０を受信したことに応答して、機械学習モデル３０８を生成することができる。

データコレクタ３４０は、ターゲットソースコード２１０上で動作するソフトウェア開発ツール４１８の開発者定義コードインサイト４００を生成するために特に調整された機械学習モデル３０８をビルド／作成するために必要な他の関連データを収集してもよい。モデル生成器３６０は、深層学習ニューラルネットワークなどのニューラルネットワークに基づく機械学習システムに対応する。モデル生成器３６０は、機械学習モデル３０８を訓練するためのニューラルネットワークを生成するために、一般化バックプロパゲーションを実装してもよい。

いくつかの実装では、ＭＬシステム３００は、機械学習モデル３０８を訓練するのに適した（たとえば、読取り可能でメモリ要件を低減する）訓練ソースコード３１０の構文表現を提供するために、選択された訓練ソースコード３１０から訓練特徴のセットを抽出する。たとえば、ＭＬシステム３００は、図１および図２を参照して上述したように、特徴抽出器２００を採用してもよい。いくつかの例では、訓練ソースコード３１０の構文表現は、ＡＳＴ表現２１５（図２）を含む。

コードインサイト要求１１０が、コードインサイト４００に関連付けられた結果特性タイプ２０７も含む場合、データコレクタ３４０は、ソースコードリポジトリ３１５から、コードインサイト要求１１０の結果特性タイプ２０７に関連付けられた対応する結果特性３２０とペアにされた訓練ソースコード３１０の訓練例３５０を、識別／選択してもよい。ここで、モデル生成器３６０は、対応する結果特性３２０とペアにされた訓練ソースコード３１０の訓練例で機械学習モデル３０８を訓練してもよい。開発者定義の結果特性タイプ２０７を提供することによって、機械学習モデル３０８を訓練するために使用される訓練ソースコード３１０のプールは洗練されてもよい、および／または、モデル生成器３６０は、開発者定義の結果特性タイプ２０７に一致する特定の結果特性３２０とペアにされた訓練ソースコード３１０をより優先するために、ニューラルネットワークの重みを調整してもよい。いくつかの例では、結果特性タイプ２０７は、開発者２０２が知りたがっているコードインサイト４００に基づいて決定される。たとえば、開発者２０２は、あるターゲットソースコード２１０が正常にビルドされるかどうかを判断するように、コードインサイトサービス１５０に（たとえば、コードインサイト要求１１０で）要求することができる。このシナリオでは、結果特性タイプ２０７は、「ビルド結果」とペアにされた訓練ソースコード３１０が、機械学習モデル３０８の訓練での使用に非常に関連性が高いことを示す可能性がある。

ソースコードリポジトリ３１５に格納されている訓練ソースコード３１０の各スニペットは、訓練ソースコード３１０に関連付けられた１つ以上の結果特性３２０でラベル付けされてもよい。これらの結果特性３２０は、限定されないが、コード３１０の対応するビルド結果、コード３１０を実行するための経過時間、コード３１０のメタデータ、またはコード３１０のレビューサイクルに基づく人間が生成したコメント（たとえば、ユーザコメント）を含む場合がある。いくつかの例では、訓練ソースコード３１０の結果特性３２０は、訓練ソースコード３１０のコンパイル／解釈から生じる、対応する実行可能コードを含む。

開発者２０２が、コードインサイトサービス１５０に、ターゲットソースコード２１０のコンパイル／解釈をエミュレートするための実行可能コード出力を含む予測コード変形４００ｂを生成するように（たとえば、コードインサイト要求１１０で）要求する例では、モデル生成器３６０は、訓練ソースコードをコンパイルまたは解釈した結果生じる、対応する訓練実行可能コードとペアにされた訓練ソースコード３１０を含む訓練例３５０で機械学習モデル３０８を訓練してもよい。ここで、訓練実行可能コードは、訓練ソースコード３１０に関連付けられた結果特性３２０に対応してもよい。したがって、データコレクタ３４０は、モデル生成装置３６０が機械学習モデル３０８を訓練するために使用する訓練例３５０として、対応する訓練実行可能コードとペアにされた訓練ソースコード３１０を選択／識別するために、ソースコードリポジトリ３１５に問合わせてもよい。

コードインサイト要求１１０内のビルドタイプインジケータ２０５がラベリングタイプのソフトウェア開発ツールを指定する場合、モデル生成器３６０は、機械学習モデル３０８を正と負との両方の学習例３５０で訓練してもよい。たとえば、開発者２０２がコードインサイトサービス１５０に、ターゲットソースコード２１０がテストされた方がよいどうかを示す予測ラベル４００ｂを生成するよう要求すると仮定すると、モデル生成器３６０は、「テストした方がよい」とラベル付けされた訓練ソースコード３１０を含む正の訓練例３５０と、「テスト不要」とラベル付けされた訓練ソースコード３１０を含む負の訓練例３５０とで、モデル３０８を訓練してもよい。このシナリオでは、正および負の訓練例３５０は、モデル３０８へのソースコード入力が「テストした方がよい」かどうかを学習するように、モデル３０８を訓練する。同様に、コードが単純か／複雑か（または良い／悪い）どうかを示す予測ラベル４００ａを要求することは、モデル３０８へのソースコード入力が単純か複雑か（または良いか／悪いか）をモデル３０８が学習できるように、単純（または良い）とラベル付けされた訓練ソースコード３１０を含む正の訓練例、および複雑（または悪い）とラベル付けされた訓練ソースコード３１０を含む負の訓練例でモデル３０８を訓練するように、モデル生成装置３６０に要求することになる。

いくつかの例では、モデル生成器３６０は、訓練ソースコードスニペットのプール内の訓練ソースコードスニペットごとに対応するベクトル表現を生成するように、モデル３０８を訓練する。ＭＬシステム３００は、インサイト生成器４１０がターゲットソースコード２１０の「近隣」の訓練ソースコードスニペットを識別するためにアクセスし得るメモリハードウェア１４６に、すべてのベクトル表現のベクトル空間マップを格納してもよい。たとえば、図１を参照すると、インサイト生成器４１０は、特徴入力としてターゲット特徴２１２のセットを受信するように構成された機械学習モデル３０８を使用して、ターゲットソースコード２１０のベクトル表現を生成し、メモリハードウェア１４６に格納されている訓練ソースコードスニペットのプールの類似度スコアを決定し、類似度閾値を満たす類似度スコアを有する訓練ソースコードスニペットの１つ以上をターゲットソースコード２１０の「近隣」であると識別してもよい。これらの「近隣」は、インサイト生成器４１０によって、ターゲットソースコード２１０を置換するための推奨される置換コード（たとえば、予測コード変形４００ｂ）として、または他の例では、ターゲットソースコード２１０の可能なミューテーション（たとえば、予測ラベル４００ａ）と識別されてもよい。この例では、各類似度スコアは、対応する訓練ソースコードスニペットに関連付けられ、ターゲットソースコード２１０のベクトル表現と、対応する訓練ソースコードスニペットのそれぞれのベクトル表現との類似度レベルを示す。同様に、インサイト生成器４１０は、ベクトル空間マップにおけるターゲットソースコード２１０のベクトル表現を使用して、ターゲットソースコード２１０がコードベース内のどこに配置されるべきかを予測することができる。

図１および図３を引き続き参照すると、ベクトル表現を生成するようにモデル３０８を訓練することは、他のタイプのコードインサイト４００を生成するためにインサイト生成器４１０によって同様に使用され得る。たとえば、開発者２０２は、ターゲットコードベース（たとえば、開発者デバイス２０４に格納されている、またはメモリハードウェア１４６に格納されている）からのターゲットソースコードスニペットのペアを含むターゲットソースコード２１０を有するコードインサイト要求１１０を送信してもよい。ここで、インサイト生成器４１０は、ターゲットソースコードスニペットのペアのターゲットソースコードスニペットごとに、対応するターゲットソースコードスニペットから抽出されたターゲット特徴２１２のセットを特徴入力として受信するように構成された機械学習モデルを使用して、対応するターゲットソースコードスニペットのベクトル表現を生成することによって、ターゲットソースコード２１０のコードインサイト４００を生成してもよい。その後、インサイト生成器４１０は、ベクトル表現に基づいてターゲットソースコードスニペットのペアの間のベクトル空間距離を求め、ベクトル空間距離が距離閾値を満たす場合、ターゲットソースコードスニペットのペアは互いの重複であると決定し得る。この例では、開発者デバイス２０４が、開発者２０２が見るためのコードインサイト４００を受信して表示すると、開発者２０２は、ストレージ要件を節約するために、ターゲットコードスニペットのうちの１つをターゲットコードベースから削除するように選択可能である。

図４Ａおよび図４Ｂは、開発者がコードインサイト要求１１２を生成し、コードインサイト要求１１２をコードインサイトサービス１５０に送信して、ターゲットソースコード２１０のコードインサイト４００を要求できるようにするためのＧＵＩ２２０，２２０ａ～ｂの例を示す。開発者２０２は、ＧＵＩ２２０を使用して、ターゲットソースコード２１０を入力する。たとえば、開発者２０２は、ターゲットソースコード２１０を手動で入力してもよい、または、コードベース、たとえば、ソースコードリポジトリ３１５（図３）もしくは他の格納場所から、ターゲットソースコード２１２を取得してもよい。ＧＵＩ２２０ａ，２２０ｂの各々は、開発者２０４に、ツールタイプインジケータ２０５を選択することによって、開発者がどのタイプのツールをビルドしているかを指定するように促す。たとえば、図４Ａは、コードラベリングタイプのソフトウェア開発ツールの選択を示す入力表示を受信するＧＵＩ２２０ａを示す。ここで、開発者２０２は、コードラベリングタイプのソフトウェア開発ツールを指定するツールタイプインジケータ２０５をＧＵＩ２００ａに選択させるターゲットソースコード２１０の「テスト要件」ラベルを要求する入力を、（たとえば、マウスカーソルを介して）提供してもよい（たとえば、「コードラベリング」の円内を塗りつぶすことによって）。一方、図４Ｂは、コード変形タイプのソフトウェア開発ツールの選択を示す入力指示を受信するＧＵＩ２００ｂを示し、この場合、開発者２０２は、ターゲットソースコード２１０の実行可能コードへの「コンパイラ／インタープリタ」変形を要求する入力を（たとえば、マウスカーソルを介して）提供する。

また、コードインサイト要求ＧＵＩ２２０ａ，２２０ｂは、コードインサイト要求１１０に含めるためのコードインサイト４００に関連付けられた結果特性タイプ２０７を選択するように、開発者２０２を促してもよい。図４Ａおよび図４Ｂの例は、出力特性タイプ２０７、たとえば、「ビルド結果」、「ランタイム」、「メタデータ」、および「ユーザコメント」から選択する４つのオプションを提供するが、ＧＵＩ２２０ａ，２２０ｂは、より多くのオプションを提供でき、さらに開発者２０２が結果特性タイプ２０７を発話またはテキスト入力できるようにしてもよい。図４Ａは、「ユーザコメント」出力特性タイプ２０７の選択を示す入力指示を受信するＧＵＩ２２０ａを示し、図４Ｂは、「ビルド結果」出力特性タイプ２０７の選択を示す入力指示を受信するＧＵＩ２２０ｂを示す。ＧＵＩ２２０ａ，２２０ｂは、選択されると開発者デバイス２０２にコードインサイト要求１１０をコードインサイトサービス１５０に送信させる「提出」ボタンを含み、それによって、コードインサイト要求１１０は、ターゲットソースコード２１０、開発者２０２によって選択されたツールタイプインジケータ２０５、および開発者２０２によって選択された出力特性タイプ２０７を含む。

図４Ｃおよび図４Ｄは、図４Ａおよび図４ＢのＧＵＩ２２０ａ～ｂを使用して生成されたコードインサイト要求１１０に応答してコードインサイトサービス１５０によって生成されたコードインサイト４００を表示するＧＵＩ２２０，２２０ｃ～ｄの例を示す。図４Ｃは、図４ＡのＧＵＩ２２０ａを使用して開発者２０４が送信したコードインサイト要求１１０に含まれるターゲットソースコード２１０の予測ラベル４００ａを含むコードインサイト４００を表示するＧＵＩ２２０ｃを示す。ここで、予測ラベル４００ａは、コードインサイト要求１１０のツールタイプインジケータ２０５が、ソフトウェア開発ツール４１８がコードラベリングタイプのソフトウェア開発ツールに対応することを指定したため、ターゲットソースコード２１０について生成される。図示の例では、予測ラベル４００ａは、ターゲットソースコード２１０が「テストした方がよい」ことを示す。具体的には、予測ラベル４００ａは、「機械学習モデルによるインサイト分析では、提供されたターゲットソースコードは、テストされるのであれば好ましいと予測される。」と通知するメッセージを、開発者に提供してもよい。また、図４Ｃは、コードインサイト４００ａのエミュレートされた結果特性３２０を表示するＧＵＩ２２０ｃを示し、それによって、エミュレートされた結果特性３２０は、コードインサイト要求１１０に含めるために図４ＡのＧＵＩ２２０ａを介して開発者２０２が選択した「ユーザコメント」の結果特性タイプ２０７に関連付けられる。図示された例では、エミュレートされた結果特性３２０は、ターゲットソースコード２１０のエミュレートされた、人間が生成したコメントを含む。したがって、開発者２０２は、レビューサイクル中にターゲットソースコード２１０について人間が生成したコメントがどのようなものである可能性が高いかを確認することができる。

図４Ｄは、図４ＢのＧＵＩ２２０ｂを使用して開発者２０４が送信したコードインサイト要求１１０に含まれるターゲットソースコード２１０の予測コード変形４００ｂを含むコードインサイト４００を表示するＧＵＩ２２０ｄを示す。ここで、予測コード変形４００ｂは、コードインサイト要求１１０のツールタイプインジケータ２０５が、ソフトウェア開発ツール４１８がコード変形タイプのソフトウェア開発ツールに対応することを指定したため、ターゲットソースコード２１０について生成される。図示された例では、予測コード変形４００ｂは、ターゲットソースコード２１０から解釈／コンパイルされた実行可能なコードを含む。図４Ｄはまた、コードインサイト４００ｂのエミュレートされた結果特性３２０を表示するＧＵＩ２２０ｄを示し、それによって、エミュレートされた結果特性３２０は、コードインサイト要求１１０に含めるために図４ＢのＧＵＩ２２０ｂを介して開発者２０２によって選択された「ビルド結果」の結果特性タイプ２０７に関連付けられている。図示された例では、エミュレートされた結果特性３２０は、ターゲットソースコード２１０について「成功」というエミュレートされたビルド結果判定を提供する。したがって、開発者２０２は、ターゲットソースコード２１０のビルドが成功する可能性が高いかどうかを確認することができる。

図５は、コードインサイト４００を生成する方法の動作の配置例を示すフローチャートである。動作５０２で、方法５００は、データ処理ハードウェア１４４において、ソフトウェア開発ツール４１８をビルドするためにターゲットソースコード２１０を使用する開発者２０２に関連付けられた開発者デバイス２０４から、ターゲットソースコード２１０のコードインサイト４００を要求するコードインサイト要求１１２を受信することを含む。コードインサイト要求１１２は、ターゲットソースコード２１０と、ソフトウェア開発ツール４１８がコードラベリングタイプのソフトウェア開発ツールまたはコード変形タイプのソフトウェア開発ツールのうちの１つからなることを指定するツールタイプインジケータ２０５とを含む。いくつかの例では、コードインサイト要求１１２はさらに、コードインサイト４００に関連付けられた結果特性タイプ２０７を含む。これらの例では、結果特性タイプ２０７は、開発者２０２によって定義される。

動作５０４で、方法５００は、データ処理ハードウェア１４４が、ツールタイプインジケータ２０５に基づいて機械学習モデル３０８を取得することを含む。機械学習モデル３０８は、コードラベリングタイプのソフトウェア開発ツールまたはコード変形タイプのソフトウェア開発ツールのうちの指定された１つに関連付けられた訓練ソースコード３１０で訓練される。

動作５０６で、方法５００は、データ処理ハードウェア１４４が、機械学習モデル３０８を使用してターゲットソースコード２１０のコードインサイト４００を生成することを含む。ターゲットソースコード２１０のコードインサイト４００は、ツールタイプインジケータ２０５が、ソフトウェア開発ツール４１８がコードラベリングタイプのソフトウェア開発ツールからなることを指定する場合のターゲットソースコード２１０の予測ラベル４００ａ、またはツールタイプインジケータ２０５が、ソフトウェア開発ツール４１８がコード変形タイプのソフトウェア開発ツールに対応することを指定する場合の訓練ソースコード３１０の予測コード変形４００ｂのうちの１つを含む。訓練ソースコード３１０の予測ラベル４００ａは、ターゲットソースコードの複雑さの予測レベル、ターゲットソースコードの予測品質、ターゲットソースコードの予測テスト要件、またはターゲットソースコードの予測難易度評価のうちの少なくとも１つを含んでもよい。ターゲットソースコードの予測コード変形は、ターゲットソースコードの実行可能な、ターゲットソースコード内のビルドエラーを修正する更新済みのターゲットソースコード、ターゲットソースコードの改訂、またはターゲットソースコードを置換するための推奨される置換ソースコードの少なくとも１つを含んでもよい。

動作５０８で、方法５００は、データ処理ハードウェア１４４が、コードインサイト４００を開発者デバイス２０４に送信することを含む。コードインサイト４００は、開発者デバイス２０４によって受信されると、開発者デバイス２０４上で実行されるグラフィカルユーザインターフェイス２２０に、開発者デバイス２０４の表示画面上にコードインサイト４００を表示させる。

図６は、本明細書で説明するシステムおよび方法（たとえば、方法５００）を実施するために使用され得るコンピューティングデバイス６００の例を示す概略図である。コンピューティングデバイス６００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどのさまざまな形態のデジタルコンピュータを表すことを意図している。ここに示された構成要素、それらの接続および関係、ならびにそれらの特徴は、例示に過ぎないことを意味しており、本明細書で説明および／または請求される発明の実装を制限するものでない。

コンピューティングデバイス６００は、プロセッサ６１０（データ処理ハードウェアともいう）、メモリ６２０（メモリハードウェアともいう）、ストレージデバイス６３０、メモリ６２０および高速拡張ポート６５０に接続する高速インターフェイス／コントローラ６４０、ならびに低速バス６７０およびストレージデバイス６３０に接続する低速インターフェイス／コントローラ６６０を含む。構成要素６１０，６２０，６３０，６４０，６５０および６６０の各々は、各種バスを使用して相互接続され、共通のマザーボードに、または適宜他の態様で搭載することができる。プロセッサ６１０は、高速インターフェイス６４０に結合されたディスプレイ６８０などの外部入出力デバイスにグラフィカルユーザインターフェイス（ＧＵＩ）のグラフィック情報を表示するために、メモリ６２０またはストレージデバイス６３０に格納された命令を含む、コンピューティングデバイス６００内で実行するための命令を処理することが可能である。他の実装では、複数のプロセッサおよび／または複数のバスが、複数のメモリおよび複数のタイプのメモリと共に、適宜使用されてもよい。また、複数のコンピューティングデバイス６００が接続され、各デバイスが必要な動作の一部を提供してもよい（たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）。

メモリ６２０は、コンピューティングデバイス６００内の情報を非一時的に格納する。メモリ６２０は、コンピュータ読取可能媒体、揮発性メモリユニット（複数可）、または不揮発性メモリユニット（複数可）でもよい。非一時的なメモリ６２０は、コンピューティングデバイス６００による使用のために、プログラム（たとえば、命令のシーケンス）またはデータ（たとえば、プログラム状態情報）を一時的または恒久的に格納するために使用される物理デバイスでもよい。不揮発性メモリの例には、フラッシュメモリおよびリードオンリーメモリ（ＲＯＭ）／プログラマブルリードオンリーメモリ（ＰＲＯＭ）／消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ）／電子的消去可能プログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）（たとえば、ブートプログラムといった、ファームウェアに通常使用される）があるが、これらに限定されるわけではない。揮発性メモリの例としては、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープがあるが、これらに限定されるわけではない。

ストレージデバイス６３０は、コンピューティングデバイス６００のための大容量記憶装置を提供することができる。いくつかの実装では、ストレージデバイス６３０は、コンピュータ読取可能媒体である。さまざまな異なる実装において、ストレージデバイス６３０は、フロッピー（登録商標）ディスク装置、ハードディスク装置、光ディスク装置、またはテープ装置、フラッシュメモリもしくは他の同様の固体メモリ装置、または記憶領域ネットワークもしくは他の構成における装置を含む装置のアレイでもよい。別の実装では、コンピュータプログラム製品は、情報担体において有形に具現化される。コンピュータプログラム製品は、実行されると、上述したような１つ以上の方法を実行する命令を含む。情報担体は、メモリ６２０、ストレージデバイス６３０、もしくはプロセッサ６１０上のメモリなどの、コンピュータまたは機械読取可能媒体である。

高速コントローラ６４０は、コンピューティングデバイス６００の帯域幅集約的な動作を管理し、低速コントローラ６６０は、より低い帯域幅集約的な動作を管理する。このような機能の割り当ては例示に過ぎない。いくつかの実装では、高速コントローラ６４０は、メモリ６２０、ディスプレイ６８０（たとえば、グラフィックプロセッサまたはアクセラレータを介して）、およびさまざまな拡張カード（図示せず）を受け付けることができる高速拡張ポート６５０に結合される。いくつかの実装では、低速コントローラ６６０は、ストレージデバイス６３０および低速拡張ポート６９０に結合される。さまざまな通信ポート（たとえば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、イーサネット（登録商標）、無線イーサネット）を含み得る低速拡張ポート６９０は、キーボード、ポインティングデバイス、スキャナなどの１つ以上の入出力デバイス、またはスイッチもしくはルータなどのネットワークデバイスに、たとえばネットワークアダプタを介して結合されてもよい。

コンピューティングデバイス６００は、図に示すように、多数の異なる形態で実装されてもよい。たとえば、標準的なサーバ６００ａとして、もしくはそのようなサーバ６００ａのグループ内で複数回、ラップトップコンピュータ６００ｂとして、またはラックサーバシステム６００ｃの一部として、実装されてもよい。

本明細書に記載されたシステムおよび技術のさまざまな実装は、デジタル電子および／または光回路、集積回路、特別に設計された特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ：ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合わせで実現することが可能である。これらのさまざまな実装は、データおよび命令を記憶システムに対して送受信するように結合された、特殊用途または汎用用途であってもよい少なくとも１つのプログラマブルプロセッサ、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスを含むプログラマブルシステム上で実行可能および／または解釈可能な１つ以上のコンピュータプログラムにおける実装を含み得る。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている）は、プログラマブルプロセッサ用の機械命令を含み、高レベルの手続き型および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語で実装され得る。本明細書で使用される場合、「機械読取可能媒体」および「コンピュータ読取可能媒体」という用語は、機械命令を機械読取可能信号として受信する機械読取可能媒体を含む、プログラマブルプロセッサに機械命令および／またはデータを提供するために使用される任意のコンピュータプログラム製品、非一時的なコンピュータ読取可能媒体、装置および／またはデバイス（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＰＬＤ）を指す。「機械読取可能信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用されるあらゆる信号を指す。

本明細書に記載された処理および論理フローは、１つ以上のコンピュータプログラムを実行する１つ以上のプログラマブルプロセッサによって実行することができ、入力データに対して動作し、出力を生成することによって、特徴を実行する。また、処理および論理フローは、特殊目的論理回路、たとえば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはＡＳＩＣ（特定用途向け集積回路）によって実行することも可能である。コンピュータプログラムの実行に適したプロセッサには、例として、汎用マイクロプロセッサと特殊目的マイクロプロセッサとの両方、および任意の種類のデジタルコンピュータの任意の１つ以上のプロセッサが含まれる。一般に、プロセッサは、読取り専用メモリまたはランダムアクセスメモリまたはその両方から、命令およびデータを受信することになる。コンピュータの本質的な要素は、命令を実行するためのプロセッサと、命令およびデータを格納するための１つ以上のメモリデバイスとである。一般に、コンピュータは、データを格納するための１つ以上の大容量記憶装置、たとえば、磁気ディスク、光磁気ディスク、もしくは光ディスクを備える、またはデータを格納するための１つ以上の大容量記憶装置、たとえば、磁気ディスク、光磁気ディスク、もしくは光ディスクに対するデータの受信、もしくは転送、もしくはその両方を行うように動作可能に結合されることになる。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ読取可能媒体は、例として、半導体メモリデバイス、たとえばＥＰＲＯＭ，ＥＥＰＲＯＭおよびフラッシュメモリデバイス；磁気ディスク、たとえば内蔵ハードディスクまたは取外し可能ディスク；光磁気ディスク；ならびにＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクなどのすべての形式の不揮発メモリ、媒体およびメモリ装置を含む。プロセッサとメモリとを、特殊目的論理回路によって補完する、またはその中に組込むことが可能である。

ユーザとの相互作用を提供するために、本開示の１つ以上の態様は、ユーザに情報を表示するための表示デバイス、たとえばＣＲＴ（陰極線管）、ＬＣＤ（液晶ディスプレイ）モニタ、またはタッチスクリーンと、任意に、ユーザがコンピュータに入力を提供できるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールを有するコンピュータ上で実施することができる。他の種類のデバイスも、ユーザとの相互作用を提供するために使用可能である。たとえば、ユーザに提供されるフィードバックは、視覚フィードバック、聴覚フィードバック、または触覚フィードバックなどの任意の形式の感覚フィードバックとすることができ、ユーザからの入力は、音響、音声、または触覚入力などの任意の形式で受信することができる。さらに、コンピュータは、ユーザが使用するデバイスに対して文書を送受信することによって、たとえば、ウェブブラウザから受信した要求に応答して、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。

多数の実装について説明した。それにもかかわらず、本開示の精神および範囲から逸脱することなく、さまざまな変更がなされ得ることが理解されよう。したがって、他の実装は、以下の特許請求の範囲内である。

Claims

方法（５００）であって、
データ処理ハードウェア（１４４）において、ターゲットソースコード（２１０）のコードインサイト（４００）を要求するコードインサイト要求（１１２）を、ソフトウェア開発ツール（４１８）をビルドするために前記ターゲットソースコード（２１０）を使用する開発者（２０２）に関連付けられた開発者デバイス（２０４）から受信することを備え、前記コードインサイト要求（１１２）は、
前記ターゲットソースコード（２１０）と、
前記ソフトウェア開発ツール（４１８）がコードラベリングタイプのソフトウェア開発ツールまたはコード変形タイプのソフトウェア開発ツールのうちの１つからなることを指定するツールタイプインジケータ（２０５）とを含み、前記方法はさらに、
前記データ処理ハードウェア（１４４）が、前記ツールタイプインジケータ（２０５）に基づいて、前記コードラベリングタイプのソフトウェア開発ツールまたは前記コード変形タイプのソフトウェア開発ツールのうちの指定された前記１つに関連付けられた訓練ソースコード（３１０）で訓練された機械学習モデル（３０８）を取得することと、
前記データ処理ハードウェアが、前記機械学習モデル（３０８）を使用して、前記ターゲットソースコード（２１０）の前記コードインサイト（４００）を生成することとを備え、前記ターゲットソースコード（２１０）の前記コードインサイト（４００）は、
前記ツールタイプインジケータ（２０５）が、前記ソフトウェア開発ツール（４１８）が前記コードラベリングタイプのソフトウェア開発ツール（４１８）からなることを指定する場合の前記ターゲットソースコード（２１０）の予測ラベル（４００ａ）、または
前記ツールタイプインジケータ（２０５）が、前記ソフトウェア開発ツール（４１８）が前記コード変形タイプのソフトウェア開発ツールからなることを指定する場合の前記ターゲットソースコード（２１０）の予測コード変形のうちの１つを含み、前記方法はさらに、
前記データ処理ハードウェア（１４４）が、前記コードインサイト（４００）を前記開発者デバイス（２０４）に送信することを備え、前記コードインサイト（４００）は、前記開発者デバイス（２０４）によって受信されると、前記開発者デバイス（２０４）で実行されているグラフィカルユーザインターフェイス（２２０）に、前記コードインサイト（４００）を前記開発者デバイス（２０４）の表示画面に表示させることを備える、方法。
前記データ処理ハードウェア（１４４）が、前記機械学習モデル（３０８）への入力に適した前記ターゲットソースコード（２１０）の構文表現に対応するターゲット特徴（２１２）のセットを、前記ターゲットソースコード（２１０）から抽出することをさらに備え、
前記機械学習モデル（３０８）は、
前記ターゲット特徴（２１２）のセットを入力として受信し、
前記ターゲットソースコード（２１０）の前記コードインサイト（４００）を出力として生成するように構成されている、請求項１に記載の方法（５００）。
前記ターゲットソースコード（２１０）の前記構文表現は、構文表現木を含む、請求項２に記載の方法（５００）。
前記機械学習モデル（３０８）を取得することは、
前記データ処理ハードウェア（１４４）と通信しているメモリハードウェア（１４６）に格納されているソースコードリポジトリ（３１５）から、前記コードラベリングタイプのソフトウェア開発ツールまたは前記コード変形タイプのソフトウェア開発ツールのうちの指定された前記１つに関連付けられた前記訓練ソースコード（３１０）を選択し、かつ
機械学習モデル生成器（３６０）を使用して、選択された前記訓練ソースコード（３１０）で前記機械学習モデル（３０８）を訓練することによって、前記コードインサイト要求（１１０）を受信することに応答して、前記機械学習モデル（３０８）を生成することを含む、請求項１～３のいずれか１項に記載の方法（５００）。
前記データ処理ハードウェア（１４４）が、前記機械学習モデル（３０８）を訓練するのに適した前記訓練ソースコード（３１０）の構文表現に対応する訓練特徴のセットを、選択された前記訓練ソースコード（３１０）から抽出することをさらに備える、請求項４に記載の方法（５００）。
前記訓練ソースコード（３１０）の前記構文表現は、抽象構文木を含む、請求項５に記載の方法（５００）。
前記コードインサイト要求（１１０）はさらに、前記コードインサイト（４００）に関連付けられた、前記開発者によって定義された結果特性タイプ（２０７）を含み、
前記ツールタイプインジケータ（２０５）に基づいて前記機械学習モデル（３０８）を取得することはさらに、前記結果特性タイプ（２０７）に基づき、
前記機械学習モデル（３０８）を使用して、前記ターゲットソースコード（２１０）の前記コードインサイト（４００）を生成することはさらに、前記機械学習モデル（３０８）を使用して、前記コードインサイト要求（１１０）の前記結果特性タイプ（２０７）に関連付けられた、前記コードインサイト（４００）のエミュレートされた結果特性（３２０）を生成することを含む、請求項１～６のいずれか１項に記載の方法（５００）。
前記データ処理ハードウェア（１４４）が、前記データ処理ハードウェア（１４４）と通信しているメモリハードウェア（１４６）に格納されているソースコードリポジトリ（３１５）から、前記コードインサイト要求（１１０）の前記結果特性タイプ（２０７）に関連付けられた対応する結果特性（３２０）とペアにされた前記訓練ソースコード（３１０）の訓練例（３５０）を識別することと、
前記データ処理ハードウェア（１４４）が、前記機械学習モデル（３０８）を、前記対応する結果特性（３２０）とペアにされた前記訓練ソースコード（３１０）を含む前記訓練例（３５０）で訓練することとをさらに備える、請求項７に記載の方法（５００）。
前記コードインサイト（４００）の前記エミュレートされた結果特性（３２０）は、
前記ターゲットソースコード（２１０）のエミュレートされたビルド結果、
前記ターゲットソースコード（２１０）を実行するためのエミュレートされた経過時間、
前記ターゲットソースコード（２１０）のエミュレートされたメタデータ、または
前記ターゲットソースコード（２１０）のエミュレートされた、人間が生成したコメントのうちの１つを含む、請求項７に記載の方法（５００）。
前記ターゲットソースコード（２１０）の前記予測コード変形（４００ｂ）が実行可能なコードを含む場合、前記データ処理ハードウェア（１４４）が、前記機械学習モデル（３０８）を、前記訓練ソースコード（３１０）をコンパイルまたは解釈することによって生じる対応する訓練実行可能なコードとペアにされた前記訓練ソースコード（３１０）を含む訓練例（３５０）で訓練することをさらに備える、請求項１～９のいずれか１項に記載の方法（５００）。
前記機械学習モデル（３０８）を使用して、前記ターゲットソースコード（２１０）の前記コードインサイト（４００）を生成することは、
前記ターゲットソースコード（２１０）から抽出されるターゲット特徴（２１２）のセットを、特徴入力として受信するように構成された前記機械学習モデル（３０８）を使用して、前記ターゲットソースコード（２１０）のベクトル表現を生成することと、
前記データ処理ハードウェア（１４４）と通信しているメモリハードウェア（１４６）に格納されている訓練ソースコード（３１０）スニペットのプールの類似スコアを求めることとを含み、前記類似スコアの各々は、対応する訓練ソースコード（３１０）スニペットに関連付けられており、かつ、前記ターゲットソースコード（２１０）の前記ベクトル表現と、前記対応する訓練コード（３１０）スニペットのプールのそれぞれのベクトル表現との類似レベルを示し、前記生成することはさらに、
類似閾値を満たす類似スコアを有する前記訓練ソースコード（３１０）スニペットのプールから、１つ以上の訓練ソースコード（３１０）スニペットを、前記ターゲットソースコード（２１０）のミューテーションに対応するものとして識別することを含む、請求項１～１０のいずれか１項に記載の方法（５００）。
前記ターゲットソースコード（２１０）は、ターゲットコードベースからのターゲットソースコード（２１０）スニペットのペアを含み、
前記機械学習モデル（３０８）を使用して、前記ターゲットソースコード（２１０）の前記コードインサイト（４００）を生成することは、
前記ターゲットソースコード（２１０）スニペットのペア内のターゲットソースコード（２１０）スニペットごとに、前記対応するターゲットソースコード（２１０）スニペットから抽出されるターゲット特徴（２１２）のセットを特徴（２１２）入力として受信するように構成された前記機械学習モデル（３０８）を使用して、前記対応するターゲットソースコード（２１０）スニペットのベクトル表現を生成することと、
前記ベクトル表現に基づいて、前記ターゲットソースコード（２１０）スニペットのペアの間のベクトル空間距離を求めることと、
前記ベクトル空間距離が距離閾値を満たす場合、前記ターゲットソースコード（２１０）スニペットのペアは互いの複製であると判断することとを含む、請求項１～１１のいずれか１項に記載の方法（５００）。
前記訓練ソースコード（３１０）の前記予測ラベルは、
前記ターゲットソースコード（２１０）の複雑さの予測レベル、
前記ターゲットソースコード（２１０）の予測品質、
前記ターゲットソースコード（２１０）の予測テスト要件、または
前記ターゲットソースコード（２１０）の予測難易度評価のうちの少なくとも１つを含む、請求項１～１２のいずれか１項に記載の方法（５００）。
前記ターゲットソースコード（２１０）の前記予測コード変形（４００ｂ）は、
前記ターゲットソースコード（２１０）内のビルドエラーを修正する更新済みターゲットソースコード（２１０）、
前記ターゲットソースコード（２１０）から解釈／コンパイルされた実行可能なコード、
前記ターゲットソースコード（２１０）の改訂、または
前記ターゲットソースコード（２１０）を置換するための推奨される置換ソースコード（３１０）のうちの少なくとも１つを含む、請求項１～１３のいずれか１項に記載の方法（５００）。
システム（１００）であって、
データ処理ハードウェア（１４４）と、
前記データ処理ハードウェア（１４４）と通信しており、かつ、前記データ処理ハードウェア（１４４）で実行されると、前記データ処理ハードウェア（１４４）に動作を行わせる命令を格納したメモリハードウェア（１４６）とを含み、前記動作は、
ターゲットソースコード（２１０）のコードインサイト（４００）を要求するコードインサイト要求（１１０）を、ソフトウェア開発ツール（４１８）をビルドするために前記ターゲットソースコード（２１０）を使用する開発者に関連付けられた開発者デバイス（２０４）から受信することを備え、前記コードインサイト要求（１１０）は、
前記ターゲットソースコード（２１０）と、
前記ソフトウェア開発ツール（４１８）がコードラベリングタイプのソフトウェア開発ツール（４１８）またはコード変形タイプのソフトウェア開発ツール（４１８）のうちの１つからなることを指定するツールタイプインジケータ（２０５）とを含み、前記動作はさらに、
前記ツールタイプインジケータ（２０５）に基づいて、前記コードラベリングタイプのソフトウェア開発ツール（４１８）または前記コード変形タイプのソフトウェア開発ツール（４１８）のうちの指定された前記１つに関連付けられた訓練ソースコード（３１０）で訓練された機械学習モデル（３０８）を取得することと、
前記機械学習モデル（３０８）を使用して、前記ターゲットソースコード（２１０）の前記コードインサイト（４００）を生成することとを含み、前記ターゲットソースコード（２１０）の前記コードインサイト（４００）は、
前記ツールタイプインジケータ（２０５）が、前記ソフトウェア開発ツール（４１８）が前記コードラベリングタイプのソフトウェア開発ツール（４１８）からなることを指定する場合の前記ターゲットソースコード（２１０）の予測ラベル（４００ａ）、または
前記ツールタイプインジケータ（２０５）が、前記ソフトウェア開発ツール（４１８）が前記コード変形タイプのソフトウェア開発ツールからなることを指定する場合の前記ターゲットソースコード（２１０）の予測コード変形のうちの１つを含み、前記動作はさらに、
前記コードインサイト（４００）を前記開発者デバイス（２０４）に送信することを含み、前記コードインサイト（４００）は、前記開発者デバイス（２０４）によって受信されると、前記開発者デバイス（２０４）で実行されているグラフィカルユーザインターフェイスに、前記コードインサイト（４００）を前記開発者デバイス（２０４）のディスプレイに表示させることを含む、システム（１００）。
前記動作はさらに、前記機械学習モデル（３０８）への入力に適した前記ターゲットソースコード（２１０）の構文表現に対応するターゲット特徴（２１２）のセットを、前記ターゲットソースコード（２１０）から抽出することを含み、
前記機械学習モデル（３０８）は、
前記ターゲット特徴（２１２）のセットを入力として受信し、
前記ターゲットソースコード（２１０）の前記コードインサイト（４００）を出力として生成するように構成されている、請求項１５に記載のシステム（１００）。
前記ターゲットソースコード（２１０）の前記構文表現は、構文表現木を含む、請求項１６に記載のシステム（１００）。
前記機械学習モデル（３０８）を取得することは、
前記メモリハードウェア（１４６）に格納されているソースコードリポジトリ（３１５）から、前記コードラベリングタイプのソフトウェア開発ツール（４１８）または前記コード変形タイプのソフトウェア開発ツール（４１８）のうちの指定された前記１つに関連付けられた前記訓練ソースコード（３１０）を選択し、かつ
機械学習モデル生成器（３６０）を使用して、選択された前記訓練ソースコード（３１０）で前記機械学習モデル（３０８）を訓練することによって、前記コードインサイト要求（１１０）を受信することに応答して、前記機械学習モデル（３０８）を生成することを含む、請求項１５～１７のいずれか１項に記載のシステム（１００）。
前記動作はさらに、前記機械学習モデル（３０８）を訓練するのに適した前記訓練ソースコード（３１０）の構文表現に対応する訓練特徴のセットを、選択された前記訓練ソースコード（３１０）から抽出することを含む、請求項１８に記載のシステム（１００）。
前記訓練ソースコード（３１０）の前記構文表現は、抽象構文木を含む、請求項１９に記載のシステム（１００）。
前記コードインサイト要求（１１０）はさらに、前記コードインサイト（４００）に関連付けられた、前記開発者によって定義された結果特性タイプ（２０７）を含み、
前記ツールタイプインジケータ（２０５）に基づいて前記機械学習モデル（３０８）を取得することはさらに、前記結果特性タイプ（２０７）に基づき、
前記機械学習モデル（３０８）を使用して、前記ターゲットソースコード（２１０）の前記コードインサイト（４００）を生成することはさらに、前記機械学習モデル（３０８）を使用して、前記コードインサイト要求（１１０）の前記結果特性タイプ（２０７）に関連付けられた、エミュレートされた結果特性（３２０）を生成することを含む、請求項１５～２０のいずれか１項に記載のシステム（１００）。
前記動作はさらに、
前記メモリハードウェア（１４６）に格納されているソースコードリポジトリ（３１５）から、前記コードインサイト要求（１１０）の前記結果特性タイプ（２０７）に関連付けられた対応する結果特性（３２０）とペアにされた前記訓練ソースコード（３１０）の訓練例（３５０）を識別することと、
前記機械学習モデル（３０８）を、前記対応する結果特性（３２０）とペアにされた前記訓練ソースコード（３１０）を含む前記訓練例（３５０）で訓練することとを含む、請求項１５～２１のいずれか１項に記載のシステム（１００）。
前記コードインサイト（４００）の前記エミュレートされた結果特性（３２０）は、
前記ターゲットソースコード（２１０）のエミュレートされたビルド結果、
前記ターゲットソースコード（２１０）を実行するためのエミュレートされた経過時間、
前記ターゲットソースコード（２１０）のエミュレートされたメタデータ、または
前記ターゲットソースコード（２１０）のエミュレートされた、人間が生成したコメントのうちの１つを含む、請求項２２に記載のシステム（１００）。
前記動作はさらに、前記ターゲットソースコード（２１０）の前記予測コード変形がコンパイルまたは解釈されたコードを含む場合、前記機械学習モデル（３０８）を、前記訓練ソースコード（３１０）をコンパイルまたは解釈することによって生じる対応する訓練実行可能なコードとペアにされた前記訓練ソースコード（３１０）を含む訓練例（３５０）で訓練することを含む、請求項１５～２３のいずれか１項に記載のシステム（１００）。
前記機械学習モデル（３０８）を使用して、前記ターゲットソースコード（２１０）の前記コードインサイト（４００）を生成することは、
前記ターゲットソースコード（２１０）から抽出されるターゲット特徴（２１２）のセットを特徴（２１２）入力として受信するように構成された前記機械学習モデル（３０８）を使用して、前記ターゲットソースコード（２１０）のベクトル表現を生成することと、
前記メモリハードウェア（１４６）に格納されている訓練ソースコード（３１０）スニペットのプールの類似スコアを求めることとを含み、各類似スコアは、対応する訓練コードスニペットに関連付けられており、かつ、前記ターゲットソースコード（２１０）の前記ベクトル表現と、前記対応する訓練コードスニペットのそれぞれのベクトル表現との類似レベルを示し、さらに、
類似閾値を満たす類似スコアを有する前記訓練ソースコード（３１０）スニペットのプールから、１つ以上の訓練ソースコード（３１０）スニペットを、前記ターゲットソースコード（２１０）のミューテーションに対応するものとして識別することを含む、請求項１５～２４のいずれか１項に記載のシステム（１００）。
前記ターゲットソースコード（２１０）は、ターゲットコードベースからのターゲットソースコード（２１０）スニペットのペアを含み、
前記機械学習モデル（３０８）を使用して、前記ターゲットソースコード（２１０）の前記コードインサイト（４００）を生成することは、
前記ターゲットソースコード（２１０）スニペットのペア内のターゲットソースコード（２１０）スニペットごとに、前記対応するターゲットソースコード（２１０）スニペットから抽出されるターゲット特徴（２１２）のセットを特徴（２１２）入力として受信するように構成された前記機械学習モデル（３０８）を使用して、前記対応するターゲットソースコード（２１０）スニペットのベクトル表現を生成することと、
前記ベクトル表現に基づいて、前記ターゲットソースコード（２１０）スニペットのペアの間のベクトル空間距離を求めることと、
前記ベクトル空間距離が距離閾値を満たす場合、前記ターゲットソースコード（２１０）スニペットのペアは互いの複製であると判断することを含む、請求項１５～２５のいずれか１項に記載のシステム（１００）。
前記訓練ソースコード（３１０）の前記予測ラベルは、
前記ターゲットソースコード（２１０）の複雑さの予測レベル、
前記ターゲットソースコード（２１０）の予測品質、
前記ターゲットソースコード（２１０）の予測テスト要件、または
前記ターゲットソースコード（２１０）の予測難易度評価のうちの少なくとも１つを含む、請求項１５～２６のいずれか１項に記載のシステム（１００）。
前記ターゲットソースコード（２１０）の前記予測コード変形（４００ｂ）は、
前記ターゲットソースコード（２１０）内のビルドエラーを修正する更新済みターゲットソースコード（２１０）、
前記ターゲットソースコード（２１０）から解釈／コンパイルされた実行可能なコード、
前記ターゲットソースコード（２１０）の改訂、または
前記ターゲットソースコード（２１０）を置換するための推奨される置換ソースコードのうちの少なくとも１つを含む、請求項１５～２７のいずれか１項に記載のシステム（１００）。