JP2017527013A

JP2017527013A - サービスとしての適応特徴化

Info

Publication number: JP2017527013A
Application number: JP2017501673A
Authority: JP
Inventors: ビレンコ，ミカイル; カーメネフ，アレクセイ; ナラヤナン，ヴィジャイ; タラバ，ピーター
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2014-07-12
Filing date: 2015-07-10
Publication date: 2017-09-14
Also published as: US20160012318A1; WO2016010832A1; RU2017100479A; EP3167409A1; CN106537423A; RU2017100479A3

Abstract

提供されたデータセット及び機械学習アプリケーションのための特徴化の自動的な選択及び推奨を実施するサービスが記載される。サービスはクラウドサービスであってもよい。選択／推奨は、最も一般的な生データフォーマット（例えば画像及びテキストデータ）に利用することができる複数の特徴化を網羅することができる。データセット及びタスクが提供されると、サービスは、異なる可能な特徴化を評価して、性能、予測誤りが小さい同様のタスクに対して高い予測精度を有することが知られている特徴化を有する知られているデータセットに対するデータセット及びタスクの類似度、複数の入力を取り扱うための学習アルゴリズムを介した訓練、等に基づいて１つ又は複数を選択することができる。サービスは、所与のデータセット及びタスクに対して選択された最良の特徴化へのアクセスを提供する、要求応答態様を含むことができる。

Description

本発明は、サービスとしての適応特徴化（ｆｅａｔｕｒｉｚａｔｉｏｎ）に関する。

[0001]機械学習アルゴリズムをデータに適用するためには、生データからの、訓練及び予測アルゴリズムによって消費され得る特徴の集合への変換が必要である。例えば、生画像データは、ピクセル強度を表すマトリックスである場合がある。テキスト文書についての生データは、ベクトルの要素が文書に存在する語を表す２進ベクトルである場合がある。

[0002]生データ表現は、しばしば、機械学習アルゴリズムには次善の表現である。典型的には、生データ表現は、特徴化と呼ばれるプロセスを介して、学習タスクに関してより表現的である特徴に変換される。特徴化は、生データ表現を、語義的に意味のある、手元の学習タスクに関するデータの特性を記述する表現に変換する。生データは多くの異なる方法で特徴化され得る。いくつかの特徴化は、精度が高い予測モデルを訓練するために他の特徴化よりもはるかに有効であり得る。特徴化は、しばしば、数学的に複雑で、かつ、計算集約的である。

[0003]特定のデータ領域及びアプリケーションのための有効な特徴化の選択には、しばしば、広範囲にわたる実験が必要である。提供されたデータセット及び機械学習アプリケーションのための１つ又は複数の特徴化を自動的に選択し、推奨するサービスが記載される。サービスはクラウドサービスであってもよい。選択及び／又は推奨は、それらに限定されないが画像及びテキストデータを含む生データフォーマットのために利用することができる複数の特徴化を網羅することができる。データセット及びタスクが与えられると、サービスは、異なる可能な特徴化を評価して、最も高い性能を提供することが期待される１つ又は複数を選択することができる。性能は、最も高い精度及び／又は計算性能に関して測定され得る。

[0004]特徴化の自動的な選択及び／又は推奨は、同様のタスクに対して高い予測精度を有することが知られている特徴化を有する知られているデータセットとのデータセット及びタスクの類似度に基づき得る。自動的な選択及び／又は推奨は、特定のタスクに対して小さい予測誤りをもたらす特徴化に基づき得る。自動的な選択及び／又は推奨は、関連する種々の要因（例えばデータセット特性、特徴化の相関等）を表す複数の入力を取り扱う機械学習アルゴリズムを使用した訓練に基づき得る。サービスは、所与のデータセット及びタスクのために選択された最良の特徴化に対するアクセスを提供する要求応答態様を含むことができる。

[0005]この概要は、以下の発明を実施するための形態の中でさらに説明される概念の抜粋を単純な形態で紹介するために提供されたものである。この概要には、特許請求される主題の重要な特徴又は本質的な特徴を識別することは意図されておらず、また、特許請求される主題の範囲を制限するために使用されることも意図されていない。

[0006]以下、図面である。

本明細書において説明される主題の態様による、特徴化モジュール又はサービスの一例を含むシステム１００の一例を示す図である。本明細書において開示される主題の態様による、特徴化を自動的に選択するための方法２００の一例を示す図である。本明細書において開示される主題の態様による計算環境の一例のブロック図である。

概説
[0007]家の周りに置かれたカメラからの画像データを使用して、侵入者と飼い猫とを区別することができるシステムが望ましい場合を想像されたい。機械学習技法を使用して、猫と侵入者とを区別するようにソフトウェアが訓練され得る。典型的には、この訓練は、大量の生データ、この場合はある量の猫の画像及び大量の人間の画像を収集することによって実施される。画像は、データの広範囲にわたる類別又はデータのより制限された類別を表すことができる。例えば猫の画像は、家庭で飼っている猫の任意の画像であってもよく、一方、人間の画像は、もっともらしい外見の侵入者を表す画像であってもよい（フード付きのパーカーを着た大人は、チュチュを着た６歳の女の子よりも侵入者である可能性が高い）。画像に関して受け取られる生データは、典型的にはピクセルデータの二次元アレイである。

[0008]この例では、機械学習システムに提供するために画像を収集する目的は、「はい、それは侵入者です」又は「いいえ、それは侵入者ではありません」などの予測を正確に実施するモデルを訓練することである。データを使用して、予測を実施するコードに変換されるアルゴリズムが訓練され得る。画像からの生データに基づいて予測を実施しても、可能な最高の精度を提供する見込みは低い。より有効な結果を得るためには、データの潜在的類別（例えば、この場合の類別は侵入者及び非侵入者）の特性に関連する縁、輪郭及び形状などのより高度な特徴に生データを変換しなければならない。これらのより高度な特徴に基づいて、より正確な侵入者ディテクターが訓練され得る。

[0009]同様に、電子メールアプリケーションが文書を「スパム」又は「非スパム」のカテゴリー又はクラスに類別する場合、あるいはニュースソースを「スポーツ」又は「非スポーツ」に類別しなければならない場合を想像されたい。生データは、文字の集合である文書として入力され得る。文字は語に区分化され得る。語は、「スパムであるらしい」又は「スパムではないらしい」などのセットに準選択（ｓｕｂｓｅｌｅｃｔｅｄ）され得る。例えば「スパムであるらしい」単語は、処方薬品名又はアダルトコンテンツ用語を含む語である可能性がある。「スポーツ」類別を示していると思われる語は、スポーツ選手又はスポーツ団体等の名称を含み得る。したがって生データは、単語などの一般カテゴリーの中に処理されることが可能であり、また、一般カテゴリーは、語義的により意味のある特徴化に変換され得る（特徴は、「スパムであるらしい」単語又は「スパムではないらしい」単語の存在を表す）。機械学習アルゴリズムは、精度がより高い結果を得るために、語義的に意味のある特徴化を使用して実行され得る。

[0010]本明細書において説明される主題の態様によれば、ユーザーが既に作成済みの特徴化のライブラリーを使用して、ディテクター、プレディクター、又は他の機械学習ベースソフトウェアを訓練することができるサービスが提供される。サービスは、サービスのユーザーによって提供され得る生データを受け取ることができる。データにはラベルが振られ得る。サービスは、実施されるべきタスクの記述（例えばユーザー問題定義）をユーザーから受け取ることができる。サービスは、「成功」がそれにより測定され得る範例（メトリック）をユーザーから受け取ることができる。サービスは、それに応答して、特徴化のライブラリーから１つ又は複数の特徴化を自動的に選択することができる。サービスは、「成功」が定義される方式に沿っている結果を提供する特徴化の組合せを決定することができる。

[0011]例えば特徴化ライブラリーが犬の特徴化データセットを含んでいることを想像されたい。猫対侵入者のシステムを訓練するためには、基礎をなしている本質的な特性化が「毛で覆われている」対「毛で覆われていない」であり、これは犬と猫の両方の特性であるため、郵便配達人を侵入者から区別するのに役立つ特徴化よりも犬の特徴化がはるかに有用であり得る。このような特徴化により、類別子は、異なる類別をより高い精度で区別することができる。したがって種々の特徴化のライブラリーが提供され得る。サービスは、生データであってもよいユーザー問題定義及びサンプルデータセットに応答して、適用されるべき１つ又は複数の特徴化を選択することができる。試験を実行して、ユーザーによって定義されたことを最も良好に（例えば最も小さい誤り、又は最も速い予測時間で）実施する特徴化又は特徴化の組合せが決定され得る。結果はユーザーに戻され得る。

[0012]サービスは、「クラウド内の」サービスであってもよい。サービスは、可能な特徴化の大きなライブラリーに基づき得る。テキスト、画像、音響、トランザクション事象データ、履歴カウント等の異なるタイプのデータに対しては異なる特徴化が提供され得る。ユーザーは、機械学習タスクのためのデータセットを提供することができる。サービスは、必要な計算及び／又は実験を実施して、所与のタスクのためのそのデータセットに対して最も良好に実施する特徴化を決定することができる。

[0013]これらの計算及び／又は実験が実施され得るいくつかの方法がある。特徴化の選択及び／又は推奨は、入力データセットと、最適な特徴化が知られている同様の過去のデータセットとの間の類似度を測定する類似度関数（ｓｉｍｉｌａｒｉｔｙｆｕｎｃｔｉｏｎ）に基づき得る。このような類似度関数は、それらに限定されないが、サイズ、次元性、疎度、因子分析、辺縁等を含むことができるデータセット統計量に基づき得る。

[0014]特徴化の選択及び／又は推奨は、精度又はＲＯＣ（曲率半径）曲線の下方の面積（曲線の下方のＡＵＣ面積）などの予測タスクのメトリックのための最適化に直接に基づき得る。特徴化の選択及び／又は推奨は、最も有用で、コンパクト等である特徴化を学習するための複数の信号源の組込みに基づき得る。特徴化の選択及び／又は推奨は、多数の可能な特徴化及びそれらの組合せからの探索に基づき得る。特徴化の選択及び／又は推奨は、データセット及びタスクの領域知識の自動方式による組込みに基づき得る。ウェブサービス（要求／応答サービス又はバッチサービスのいずれかにおける）は、所与のデータセット及びタスクのために選択された最良の特徴化へのアクセスを提供することができる。

[0015]画像を分類学に類別する良好な特徴化を決定する１つの非制限的な例を考察する。コンピュータービジョン領域からの典型的な特徴は、例えばＨＯＧ（配向勾配のヒストグラム）特徴及びＳＩＦＴ（不変特徴変換におけるスケール）特徴、縁ディテクター、畳込みニューラルネットワーク特徴等を含む。データセットが与えられると、コンピュータービジョンの専門家ではない者にとっては、これらの特徴を構築し、それらを使用して実験し、それらのすべてを実現して、高い精度を得るために必要な最小セットを選択することは困難である。本明細書において説明される主題の態様によれば、以下が実施され得る。

[0016]データセットと同様の、予測タスクのアレイに対する良好な特徴化が知られている他のデータセットが識別されることが可能であり、そのうちのいくつかは手元のタスクと似ている可能性がある。この知識は、サービスにおける過去の実験、又は自身の知識を特徴化選択規則に変換する領域専門家のいずれかから得ることができる。画像のための妥当な様々な特徴化、例えばＨＯＧ特徴、ＳＩＦＴ特徴、畳込みニューラルネットワーク等を使用した実験は、自動的に実施され得る。選択アルゴリズムは、それには限定されないが、ニューラルネットワーク又は強化回帰ツリー（ｂｏｏｓｔｅｄｒｅｇｒｅｓｓｉｏｎｔｒｅｅ）などの方法を含むことができる。また、それらを使用して、最良の類別精度を提供する特徴のグループが識別されることも可能である。プラットフォームに対する実験は、自動的に推定される特徴化を使用したモデルを教示するために、履歴画像類別を使用して実施され得る。
サービスとしての適応特徴化
[0017]図１は、本明細書において説明される主題の態様による、特徴化選択モジュール又はサービスを含むシステム１００の一例を示したものである。システム１００のすべて又は一部は、図３に関して以下で説明されるコンピューターなどの１つ又は複数のコンピューター又は計算デバイス上に常駐させることができる。システム１００又はその一部は、独立型システムとして、又はプラグインもしくはアドインとして提供され得る。

[0018]システム１００又はその一部は、サービス（例えばクラウド内の）から得られる情報を含むことができ、又はクラウド計算環境で動作することができる。クラウド計算環境は、計算サービスが所有されるのではなく、要求時に提供される環境であってもよい。例えば情報は、ネットワーク化されたクラウド内の複数のデバイス上に常駐させることができ、及び／又はデータは、クラウド内の複数のデバイス上に記憶され得る。

[0019]システム１００は、例えば計算デバイス１０２などの１つ又は複数の計算デバイスを含むことができる。企図されている計算デバイスは、それらに限定されないが、デスクトップコンピューター、タブレットコンピューター、ラップトップコンピューター、ノートブックコンピューター、パーソナル・デジタル・アシスタント、スマートフォン、セルラー電話、移動電話等を含む。計算デバイス１０２などの計算デバイスは、プロセッサー１４２等などの１つ又は複数のプロセッサー、及び１つ又は複数のプロセッサーと通信するメモリー１４４などのメモリーを含むことができる。

[0020]システム１００は、特徴化選択モジュール又はサービス１０６などの特徴化選択モジュール又はサービスを含む、任意の１つ又は複数のプログラムモジュールを含むことができる。また、システム１００は、データセット及びタスク定義データベース１０８などの１つ又は複数のデータセット及びタスク定義データベース又はデータセットも含むことができる。また、システム１００は、過去の実行データベース１１０にある特徴化結果など、過去の実行又は過去の知識ストアからの特徴化結果のデータセット又はデータベースも含むことができる。また、システム１００は、試験結果を比較し、かつ、推奨１２０などの１つ又は複数の推奨を実施する比較モジュールすなわちサービス１１８も含むことができる。

[0021]特徴化選択モジュール又はサービス１０６は、入力１２２を受け取ることができる。入力１２２は、生データ、タスク定義、及び／又は成功が測定される方法の記述のうちの任意の組合せを含むことができる。成功が測定される方法のいくつかの例には、それには限定されないが、低い誤り率又は高い検出率などの所望の結果がある。生データは、画像データ、テキストデータ、音響データ、トランザクション事象データ、履歴カウント又は任意の他のタイプのデータであってもよい。問題定義は、それらに限定されないが、予測、検出、回帰等を含むことができる。

[0022]特徴化選択モジュール又はサービス１０６は、受け取られた入力に基づいて、データセット及びタスク定義ライブラリー１０８からデータセット及びタスク定義を選択することができる。データセット及びタスク定義ライブラリー１０８は、データセット、タスク定義、対応する特徴化及び目的のうちの任意の組合せを含むことができる。データセット及びタスク定義ライブラリー１０８からの試験特徴化の選択は、入力データセットと、最適特徴化が知られている同様の過去のデータセットとの間の類似度を測定する類似度関数に基づき得る。このような類似度関数は、それらに限定されないが、サイズ、次元性、疎度、因子分析、辺縁等を含むことができるデータセット統計量に基づき得る。過去の実行による特徴化結果は、選択プロセス中にアクセスされ得る。特徴化選択モジュール又はサービス１０６は、データセット及びタスク定義データストア１０８から１つ又は複数の特徴化を選択することができる。特徴化選択モジュール又はサービス１０６は、例えば特徴化結果１１１２、特徴化結果２１１４．．．特徴化結果ｎ１１６などの１つ又は複数の特徴化結果を生成することができる。比較モジュール又はサービス１１８などの比較モジュール又はサービスは、例えば特徴化結果１１１２、特徴化結果２１１４．．．特徴化結果ｎ１１６などの特徴化結果を比較することができる。推奨１２０などの１つ又は複数の特徴化推奨が提供され得る。本明細書において使用される「サービス」という用語は、異なる目的のために再使用され得る一組の関連するソフトウェア機能、及びサービスがどのように稼働するかを制御する方針を意味している。

[0023]図２は、本明細書において説明される主題の態様による、機械学習タスクのための１つ又は複数の特徴化を選択し、及び／又は推奨するための方法２００の一例を示したものである。図２で説明される方法は、それには限定されないが、図１に関して説明したシステムなどのシステムによって実践され得る。方法２００は、逐次実施される一連の動作を記述しているが、方法２００は、示されているシーケンスの順序に限定されないことを理解されたい。例えばいくつかの動作は、示されている順序とは異なる順序で実施することができる。さらに、ある動作は別の動作と同時に実施することも可能である。いくつかの実例では、必ずしも説明されている動作のすべてが実施されるわけではない。

[0024]動作２０２でユーザー入力が受け取られ得る。ユーザー入力は、データセット（例えば生データ）、問題定義及び／又は成功が測定される方法の記述のうちの任意の組合せを含むことができる。動作２０４で特徴化選択モジュールは入力を受け取り、入力データをライブラリーに記憶されているデータセットと比較すること、入力されたタスク定義をライブラリーに記憶されているタスク定義と比較すること、入力された目的をライブラリーに記憶されている目的と比較すること、の何らかの組合せにより、また、動作２０６で、過去の実行データストア１１０にある特徴化結果からの過去の実行による特徴化結果にアクセスすることにより、動作２０８で、ユーザーから受け取った生データに適用される試験特徴化が選択され得る。動作２１０で、試験特徴化を使用して試験実行が実行され得る。動作２１２で、試験実行の結果が比較され得る。動作２１４で、１つ又は複数の特徴化推奨が実施され得る。

[0025]本明細書において説明されるシステムは、１つ又は複数のプロセッサー、１つ又は複数のプロセッサーに接続されたメモリー、及びプロセッサーに以下で説明される特定の機能を実施させるためにメモリーにロードされ得るプログラムモジュールを備える。１つ又は複数のプログラムモジュールは、機械学習アプリケーションのために受け取られたデータセット及び受け取られたタスク定義に対して少なくとも１つの特徴化を自動的に選択する特徴化選択機能を実施することができる。１つ又は複数のプログラムモジュールは、受け取られたデータセットをデータセットのライブラリーに対してと比較し、その比較に基づいて少なくとも１つの特徴化を選択する比較モジュールを含むことができる。受け取られるデータセットは生データを含むことができる。生データは、処理されて特徴になっていないデータを意味している。１つ又は複数のプログラムモジュールは、受け取られたタスク定義をタスク定義のライブラリーと比較し、その比較に基づいて少なくとも１つの特徴化を選択する比較モジュールを含むことができる。１つ又は複数のプログラムモジュールは、選択された少なくとも１つの特徴化について過去の訓練実行の結果を調査するモジュールを含むことができる。１つ又は複数のプログラムモジュールは、選択された特徴化を受け取られたデータセットに適用した複数の試験実行の結果を調査し、その結果に基づいて少なくとも１つの特徴化を選択するモジュールを含むことができる。１つ又は複数のプログラムモジュールは、成功が測定される方法の定義を受け取るモジュールを含むことができる。

[0026]本明細書において説明される方法は、計算デバイスのプロセッサーによって、生データのデータセットを含む入力を受け取るステップと、データセットをデータセットのライブラリーと比較し、その比較に基づいて、データセットのライブラリーのデータセットに関連付けられた少なくとも１つの特徴化を選択するステップと、生データのデータセットに適用するために、選択された少なくとも１つの特徴化を推奨するステップとを含む。方法は、受け取られたタスク定義をタスク定義ライブラリー内のタスク定義と比較し、生データのデータセットに適用するために、タスク定義ライブラリー内のタスク定義に関連付けられた少なくとも１つの特徴化を選択する動作を含むことができる。方法は、少なくとも１つの選択された特徴化を試験実行で生データのデータセットに適用する動作を含むことができる。方法は、複数の試験実行の結果を比較する動作を含むことができ、そこで、選択された特徴化が生データのデータセットに適用される。方法は、比較された結果に基づいて、生データのデータセットに適用するための少なくとも１つの特徴化を推奨する動作を含むことができる。方法は、成功が測定される方法の定義を受け取る動作を含むことができる。

[0027]本明細書において説明される、データ信号を除外するコンピューター可読記憶媒体は、実行されると、計算デバイスの少なくとも１つのプロセッサーが、機械学習アプリケーションについての受け取られたデータセット及び受け取られたタスク定義に対して少なくとも１つの特徴化を自動的に選択することになるコンピューター可読命令を含む。コンピューター可読記憶媒体は、さらに、実行されると、少なくとも１つのプロセッサーが、受け取られたデータセットをデータセットのライブラリーに対して比較し、かつ、その比較に基づいて少なくとも１つの特徴化を選択することになるコンピューター可読命令を含むことができる。コンピューター可読記憶媒体は、さらに、実行されると、少なくとも１つのプロセッサーが、受け取られたタスク定義をタスク定義のライブラリーに対して比較し、かつ、その比較に基づいて少なくとも１つの特徴化を選択することになるコンピューター可読命令を含むことができる。コンピューター可読記憶媒体は、さらに、実行されると、少なくとも１つのプロセッサーが、選択された少なくとも１つの特徴化のために過去の訓練実行の結果を調査することになるコンピューター可読命令を含むことができる。コンピューター可読記憶媒体は、さらに、実行されると、少なくとも１つのプロセッサーに、選択された特徴化を受け取られたデータセットに適用する複数の試験実行の結果を調査させ、その複数の試験実行の結果の比較に基づいて少なくとも１つの特徴化を選択させるコンピューター可読命令を含むことができる。コンピューター可読記憶媒体は、さらに、実行されると、少なくとも１つのプロセッサーに、比較に基づいて、生データのデータセットに適用するための少なくとも１つの特徴化を推奨させるコンピューター可読命令を含むことができる。コンピューター可読記憶媒体は、さらに、実行されると、少なくとも１つのプロセッサーに、成功が測定される方法の定義を受け取らせるコンピューター可読命令を含むことができる。
適切な計算環境の例
[0028]本明細書において開示される主題の様々な態様のための文脈を提供するために、図３及び以下の説明には、本明細書において開示される主題の様々な実施形態が実現され得る適切な計算環境５１０についての簡単な概要説明を提供することが意図されている。本明細書において開示される主題は、１つ又は複数のコンピューターあるいは他の計算デバイスによって実行されるプログラムモジュールなどのコンピューター実行可能命令の一般的な文脈で説明されているが、本明細書において開示される主題の一部は、他のプログラムモジュールとの組合せ、及び／又はハードウェアとソフトウェアの組合せで同じく実現され得ることは当業者には認識されよう。一般に、プログラムモジュールは、特定のタスクを実施し、又は特定のデータタイプを実現するルーチン、プログラム、オブジェクト、物理アーチファクト、データ構造、等々を含む。典型的には、プログラムモジュールの機能は、様々な実施形態における必要に応じて結合又は分散され得る。計算環境５１０は適切な動作環境の一例にすぎず、本明細書において開示される主題の使用又は機能の範囲を制限することは意図されていない。

[0029]図３を参照して、コンピューター５１２の形態の計算デバイスが説明される。コンピューター５１２は、少なくとも１つの処理装置５１４、システムメモリー５１６及びシステムバス５１８を含むことができる。少なくとも１つの処理装置５１４は、それには限定されないが、システムメモリー５１６などのメモリーに記憶される命令を実行することができる。処理装置５１４は、利用可能な任意の様々なプロセッサーであってもよい。例えば処理装置５１４は、グラフィック処理装置（ＧＰＵ）であってもよい。命令は、上で説明した１つ又は複数のコンポーネント又はモジュールによって実施される機能を実現するための命令、又は上で説明した方法のうちの１つ又は複数を実現するための命令であってもよい。二重マイクロプロセッサー及び他の多重プロセッサーアーキテクチャーも処理装置５１４として同じく使用され得る。コンピューター５１２は、表示画面上の図形のレンダリングを支援するシステムに使用され得る。別の例では、計算デバイスの少なくとも一部は、図形処理装置を備えるシステムに使用され得る。システムメモリー５１６は、揮発性メモリー５２０及び不揮発性メモリー５２２を含むことができる。不揮発性メモリー５２２は、リード・オンリー・メモリー（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的プログラマブルＲＯＭ（ＥＰＲＯＭ）又はフラッシュメモリーを含むことができる。揮発性メモリー５２０は、外部キャッシュメモリーとして作用し得るランダム・アクセス・メモリー（ＲＡＭ）を含むことができる。システムバス５１８は、システムメモリー５１６を含むシステム物理アーチファクトを処理装置５１４に結合する。システムバス５１８は、メモリーバス、メモリーコントローラー、周辺バス、外部バス又はローカルバスを含むいくつかのタイプのうちの任意のタイプのシステムバスであってもよく、また、利用可能な任意の様々なバスアーキテクチャーを使用することができる。コンピューター５１２は、システムバス５１８によって処理装置５１４によるアクセスが可能なデータストアを含むことができる。データストアは、図形レンダリングのための実行可能命令、３Ｄモデル、マテリアル、テクスチャー、等々を含むことができる。

[0030]コンピューター５１２は、典型的には、揮発性媒体及び不揮発性媒体、取外し可能媒体及び非取外し可能媒体などの様々なコンピューター可読媒体を含む。コンピューター可読媒体は、コンピューター可読命令、データ構造、プログラムモジュール又は他のデータなどの情報を記憶するための任意の方法又は技術で実現され得る。コンピューター可読媒体は、コンピューター可読記憶媒体（コンピューター記憶媒体とも呼ばれる）及び通信媒体を含む。コンピューター記憶媒体は、それらに限定されないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリー又は他のメモリー技術、ＣＤＲＯＭ、デジタル汎用ディスク（ＤＶＤ）又は他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、又は所望のデータを記憶することができ、また、コンピューター５１２によってアクセスされ得る他の磁気記憶デバイスなどの物理（有形）媒体を含む。通信媒体は、それらに限定されないが、通信信号、変調搬送波、又は所望の情報を通信するために使用され、また、コンピューター５１２によってアクセスされ得る任意の他の無形媒体などの媒体を含む。

[0031]図３は、ユーザーとコンピューター資源との間の仲介として作用し得るソフトウェアを示したものであることは認識されよう。このソフトウェアは、ディスク記憶装置５２４上に記憶され得る、また、コンピューター５１２の資源を割り振ることができるオペレーティングシステム５２８を含むことができる。ディスク記憶装置５２４は、インターフェース５２６などの非取外し可能メモリーインターフェースを介してシステムバス５１８に接続されたハードディスクドライブであってもよい。システムアプリケーション５３０は、システムメモリー５１６の中又はディスク記憶装置５２４上のいずれかに記憶されるプログラムモジュール５３２及びプログラムデータ５３４を介して、オペレーティングシステム５２８による資源の管理を活用する。コンピューターは、様々なオペレーティングシステム又はオペレーティングシステムの組合せを使用して実現され得ることは認識されよう。

[0032]ユーザーは、入力デバイス５３６を介してコマンド又は情報をコンピューター５１２に入力することができる。入力デバイス５３６は、それらに限定されないが、マウスなどの位置決めデバイス、トラックボール、スタイラス、タッチパッド、キーボード、マイクロホン、音声認識及びジェスチャー認識システム、等々を含む。これら及び他の入力デバイスは、インターフェースポート５３８を介して、システムバス５１８を介して処理装置５１４に接続する。インターフェースポート５３８は、シリアルポート、パラレルポート、ユニバーサルシリアルバス（ＵＳＢ）、等々を表し得る。出力デバイス５４０は、入力デバイスが使用しているポートと同じタイプのポートを使用することができる。出力アダプター５４２は、特定のアダプターを必要とするモニター、スピーカー及びプリンターなどのいくつかの出力デバイス５４０が存在していることを示すために提供されている。出力アダプター５４２は、それらに限定されないが、出力デバイス５４０とシステムバス５１８の間の接続を提供するビデオカード及び音声カードを含む。他のデバイス及び／又はシステム、あるいは遠隔コンピューター５４４などのデバイスは、入力機能と出力機能の両方を提供することができる。

[0033]コンピューター５１２は、遠隔コンピューター５４４などの１つ又は複数の遠隔コンピューターへの論理接続を使用したネットワーク化環境で動作することができる。遠隔コンピューター５４４は、パーソナルコンピューター、サーバー、ルーター、ネットワークＰＣ、ピアデバイス又は他の共通ネットワークノードであってもよく、また、典型的には、コンピューター５１２に関連して上で説明した要素のうちの多く又はすべてを含むが、図３にはメモリー記憶デバイス５４６のみが示されている。遠隔コンピューター５４４は、通信接続５５０を介して論理接続され得る。ネットワークインターフェース５４８は、ローカル・エリア・ネットワーク（ＬＡＮ）及び広域ネットワーク（ＷＡＮ）などの通信ネットワークを包含しているが、他のネットワークを含むことも可能である。通信接続５５０は、ネットワークインターフェース５４８をバス５１８に接続するために使用されるハードウェア／ソフトウェアを意味している。通信接続５５０は、コンピューター５１２の内部であっても、あるいは外部であってもよく、また、モデム（電話、ケーブル、ＤＳＬ、及び無線）並びにＩＳＤＮアダプター、イーサネット（登録商標）カード、等々などの内部技術及び外部技術を含む。

[0034]示されているネットワーク接続は単なる例にすぎず、コンピューター間の通信リンクを確立する他の手段が使用され得ることは認識されよう。当業者には、コンピューター５１２又は他のクライアントデバイスは、コンピューターネットワークの一部として配置され得ることを認識することが可能である。これに関して、本明細書において開示されている主題は、任意の数のメモリー又は記憶装置、及び任意の数の記憶装置又はボリューム間で生じる任意の数のアプリケーション及びプロセスを有する任意のコンピューターシステムに関し得る。本明細書において開示されている主題の態様は、遠隔又は局所記憶装置を有する、ネットワーク環境内に配置されたサーバーコンピューター及びクライアントコンピューターを有する環境に適用することができる。また、本明細書において開示されている主題の態様は、プログラミング言語機能、翻訳及び実行能力を有する独立型計算デバイスにも同じく適用することができる。

[0035]本明細書において説明されている様々な技法は、ハードウェア又はソフトウェアと関連して実現され、あるいは適切である場合、両方の組合せと関連して実現され得る。したがって本明細書において説明されている方法及び装置、又は特定の態様あるいはその一部は、フロッピーディスケット、ＣＤ−ＲＯＭ、ハードドライバ又は任意の他の機械可読記憶媒体などの有形媒体中で具体化されるプログラムコード（すなわち命令）の形態を取ることができ、そのプログラムコードがコンピューターなどの機械にロードされて実行されると、その機械は、本明細書において開示されている主題の態様を実践するための装置になる。本明細書において使用されているように、「機械可読記憶媒体」という用語は、任意の形態の伝搬信号を提供する（すなわち記憶及び／又は伝送する）あらゆる機構を除外するものと解釈されるべきである。プログラムコードをプログラマブルコンピューター上で実行する場合、計算デバイスは、通常、プロセッサー、プロセッサーによる読出しが可能な記憶媒体（揮発性及び不揮発性メモリー及び／又は記憶素子を含む）、少なくとも１つの入力デバイス及び少なくとも１つの出力デバイスを含むことになる。例えばデータ処理ＡＰＩ等々の使用を介して、領域特化プログラミングモデル態様の生成及び／又は実現を利用することができる１つ又は複数のプログラムは、コンピューターシステムと通信するための高水準手続き型プログラミング言語又はオブジェクト指向プログラミング言語で実現され得る。しかしながらプログラムは、必要に応じてアセンブリー又は機械言語で実現され得る。いずれの場合においても、言語は、コンパイル済み、又は翻訳済み言語であってもよく、また、ハードウェア実施態様と組み合わせ得る。

[0036]主題は、構造的特徴及び／又は方法論的行為に特化された言語で記述されているが、添付の特許請求の範囲で定義されている主題は、必ずしも上で説明した特定の特徴又は行為に限定されないことを理解されたい。そうではなく、上で説明した特定の特徴及び行為は、特許請求の範囲を実現する例示的形態として開示されている。

Claims

機械学習アプリケーションのための少なくとも１つの特徴化を自動的に選択し、推奨するシステムであって、
少なくとも１つのプロセッサーと、
前記少なくとも１つのプロセッサーに接続されたメモリーと、
前記メモリーにロードされる少なくとも１つのプログラムモジュールであって、機械学習アプリケーションについての受け取られたデータセット及び受け取られたタスク定義に対して少なくとも１つの特徴化を自動的に選択する特徴化選択モジュールを含む少なくとも１つのプログラムモジュールと
を備えるシステム。
前記受け取られたデータセットをデータセットのライブラリーと比較し、前記比較に基づいて少なくとも１つの特徴化を選択する比較モジュールを含む少なくとも１つのプログラムモジュール
をさらに備える、請求項１に記載のシステム。
前記データセットが生データを含む、請求項２に記載のシステム。
前記受け取られたタスク定義をタスク定義のライブラリーと比較し、前記比較に基づいて少なくとも１つの特徴化を選択する比較モジュールを含む少なくとも１つのプログラムモジュール
をさらに備える、請求項１に記載のシステム。
前記選択された少なくとも１つの特徴化について過去の訓練実行の結果を調査するモジュールを含む少なくとも１つのプログラムモジュール
をさらに備える、請求項１に記載のシステム。
選択された特徴化を前記受け取られたデータセットに適用した複数の試験実行の結果を調査し、前記結果に基づいて少なくとも１つの特徴化を選択するモジュールを含む少なくとも１つのプログラムモジュール
をさらに備える、請求項１に記載のシステム。
成功が測定される方法の定義を受け取るモジュールを含む少なくとも１つのプログラムモジュール
をさらに備える、請求項１に記載のシステム。
機械学習アプリケーションのための特徴化を自動的に選択するための方法であって、
計算デバイスのプロセッサーによって、生データのデータセットを含む入力を受け取るステップと、
前記データセットをデータセットのライブラリーと比較し、前記比較に基づいてデータセットの前記ライブラリーのデータセットに関連付けられた少なくとも１つの特徴化を選択するステップと、
生データの前記データセットに適用するために、前記選択された少なくとも１つの特徴化を推奨するステップと
を含む方法。
受け取られたタスク定義をタスク定義ライブラリー内のタスク定義と比較し、生データの前記データセットに適用するために、前記タスク定義ライブラリー内の前記タスク定義に関連付けられた少なくとも１つの特徴化を選択するステップ
をさらに含む、請求項８に記載の方法。
少なくとも１つの選択された特徴化を試験実行で生データの前記データセットに適用するステップ
をさらに含む、請求項８に記載の方法。
複数の試験実行の結果を比較するステップであって、選択された特徴化が生データの前記データセットに適用されるステップ
をさらに含む、請求項８に記載の方法。
前記比較された結果に基づいて、生データの前記データセットに適用するために少なくとも１つの特徴化を推奨するステップ
をさらに含む、請求項１１に記載の方法。
成功が測定される方法の定義を受け取るステップ
をさらに含む、請求項８に記載の方法。
実行されると、計算デバイスの少なくとも１つのプロセッサーに、
機械学習アプリケーションについての受け取られたデータセット及び受け取られたタスク定義に対して少なくとも１つの特徴化を自動的に選択させる
コンピューター可読命令を含むコンピューター可読記憶媒体。
実行されると、前記少なくとも１つのプロセッサーに、
前記受け取られたデータセットをデータセットのライブラリーと比較させ、
前記比較に基づいて少なくとも１つの特徴化を選択させる
コンピューター可読命令をさらに含む、請求項１４に記載のコンピューター可読記憶媒体。