JP2017527013A - サービスとしての適応特徴化 - Google Patents

サービスとしての適応特徴化 Download PDF

Info

Publication number
JP2017527013A
JP2017527013A JP2017501673A JP2017501673A JP2017527013A JP 2017527013 A JP2017527013 A JP 2017527013A JP 2017501673 A JP2017501673 A JP 2017501673A JP 2017501673 A JP2017501673 A JP 2017501673A JP 2017527013 A JP2017527013 A JP 2017527013A
Authority
JP
Japan
Prior art keywords
characterization
data set
data
library
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2017501673A
Other languages
English (en)
Other versions
JP2017527013A5 (ja
Inventor
ビレンコ,ミカイル
カーメネフ,アレクセイ
ナラヤナン,ヴィジャイ
タラバ,ピーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2017527013A publication Critical patent/JP2017527013A/ja
Publication of JP2017527013A5 publication Critical patent/JP2017527013A5/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Studio Devices (AREA)

Abstract

提供されたデータセット及び機械学習アプリケーションのための特徴化の自動的な選択及び推奨を実施するサービスが記載される。サービスはクラウドサービスであってもよい。選択/推奨は、最も一般的な生データフォーマット(例えば画像及びテキストデータ)に利用することができる複数の特徴化を網羅することができる。データセット及びタスクが提供されると、サービスは、異なる可能な特徴化を評価して、性能、予測誤りが小さい同様のタスクに対して高い予測精度を有することが知られている特徴化を有する知られているデータセットに対するデータセット及びタスクの類似度、複数の入力を取り扱うための学習アルゴリズムを介した訓練、等に基づいて1つ又は複数を選択することができる。サービスは、所与のデータセット及びタスクに対して選択された最良の特徴化へのアクセスを提供する、要求応答態様を含むことができる。

Description

本発明は、サービスとしての適応特徴化(featurization)に関する。
[0001]機械学習アルゴリズムをデータに適用するためには、生データからの、訓練及び予測アルゴリズムによって消費され得る特徴の集合への変換が必要である。例えば、生画像データは、ピクセル強度を表すマトリックスである場合がある。テキスト文書についての生データは、ベクトルの要素が文書に存在する語を表す2進ベクトルである場合がある。
[0002]生データ表現は、しばしば、機械学習アルゴリズムには次善の表現である。典型的には、生データ表現は、特徴化と呼ばれるプロセスを介して、学習タスクに関してより表現的である特徴に変換される。特徴化は、生データ表現を、語義的に意味のある、手元の学習タスクに関するデータの特性を記述する表現に変換する。生データは多くの異なる方法で特徴化され得る。いくつかの特徴化は、精度が高い予測モデルを訓練するために他の特徴化よりもはるかに有効であり得る。特徴化は、しばしば、数学的に複雑で、かつ、計算集約的である。
[0003]特定のデータ領域及びアプリケーションのための有効な特徴化の選択には、しばしば、広範囲にわたる実験が必要である。提供されたデータセット及び機械学習アプリケーションのための1つ又は複数の特徴化を自動的に選択し、推奨するサービスが記載される。サービスはクラウドサービスであってもよい。選択及び/又は推奨は、それらに限定されないが画像及びテキストデータを含む生データフォーマットのために利用することができる複数の特徴化を網羅することができる。データセット及びタスクが与えられると、サービスは、異なる可能な特徴化を評価して、最も高い性能を提供することが期待される1つ又は複数を選択することができる。性能は、最も高い精度及び/又は計算性能に関して測定され得る。
[0004]特徴化の自動的な選択及び/又は推奨は、同様のタスクに対して高い予測精度を有することが知られている特徴化を有する知られているデータセットとのデータセット及びタスクの類似度に基づき得る。自動的な選択及び/又は推奨は、特定のタスクに対して小さい予測誤りをもたらす特徴化に基づき得る。自動的な選択及び/又は推奨は、関連する種々の要因(例えばデータセット特性、特徴化の相関等)を表す複数の入力を取り扱う機械学習アルゴリズムを使用した訓練に基づき得る。サービスは、所与のデータセット及びタスクのために選択された最良の特徴化に対するアクセスを提供する要求応答態様を含むことができる。
[0005]この概要は、以下の発明を実施するための形態の中でさらに説明される概念の抜粋を単純な形態で紹介するために提供されたものである。この概要には、特許請求される主題の重要な特徴又は本質的な特徴を識別することは意図されておらず、また、特許請求される主題の範囲を制限するために使用されることも意図されていない。
[0006]以下、図面である。
本明細書において説明される主題の態様による、特徴化モジュール又はサービスの一例を含むシステム100の一例を示す図である。 本明細書において開示される主題の態様による、特徴化を自動的に選択するための方法200の一例を示す図である。 本明細書において開示される主題の態様による計算環境の一例のブロック図である。
概説
[0007]家の周りに置かれたカメラからの画像データを使用して、侵入者と飼い猫とを区別することができるシステムが望ましい場合を想像されたい。機械学習技法を使用して、猫と侵入者とを区別するようにソフトウェアが訓練され得る。典型的には、この訓練は、大量の生データ、この場合はある量の猫の画像及び大量の人間の画像を収集することによって実施される。画像は、データの広範囲にわたる類別又はデータのより制限された類別を表すことができる。例えば猫の画像は、家庭で飼っている猫の任意の画像であってもよく、一方、人間の画像は、もっともらしい外見の侵入者を表す画像であってもよい(フード付きのパーカーを着た大人は、チュチュを着た6歳の女の子よりも侵入者である可能性が高い)。画像に関して受け取られる生データは、典型的にはピクセルデータの二次元アレイである。
[0008]この例では、機械学習システムに提供するために画像を収集する目的は、「はい、それは侵入者です」又は「いいえ、それは侵入者ではありません」などの予測を正確に実施するモデルを訓練することである。データを使用して、予測を実施するコードに変換されるアルゴリズムが訓練され得る。画像からの生データに基づいて予測を実施しても、可能な最高の精度を提供する見込みは低い。より有効な結果を得るためには、データの潜在的類別(例えば、この場合の類別は侵入者及び非侵入者)の特性に関連する縁、輪郭及び形状などのより高度な特徴に生データを変換しなければならない。これらのより高度な特徴に基づいて、より正確な侵入者ディテクターが訓練され得る。
[0009]同様に、電子メールアプリケーションが文書を「スパム」又は「非スパム」のカテゴリー又はクラスに類別する場合、あるいはニュースソースを「スポーツ」又は「非スポーツ」に類別しなければならない場合を想像されたい。生データは、文字の集合である文書として入力され得る。文字は語に区分化され得る。語は、「スパムであるらしい」又は「スパムではないらしい」などのセットに準選択(subselected)され得る。例えば「スパムであるらしい」単語は、処方薬品名又はアダルトコンテンツ用語を含む語である可能性がある。「スポーツ」類別を示していると思われる語は、スポーツ選手又はスポーツ団体等の名称を含み得る。したがって生データは、単語などの一般カテゴリーの中に処理されることが可能であり、また、一般カテゴリーは、語義的により意味のある特徴化に変換され得る(特徴は、「スパムであるらしい」単語又は「スパムではないらしい」単語の存在を表す)。機械学習アルゴリズムは、精度がより高い結果を得るために、語義的に意味のある特徴化を使用して実行され得る。
[0010]本明細書において説明される主題の態様によれば、ユーザーが既に作成済みの特徴化のライブラリーを使用して、ディテクター、プレディクター、又は他の機械学習ベースソフトウェアを訓練することができるサービスが提供される。サービスは、サービスのユーザーによって提供され得る生データを受け取ることができる。データにはラベルが振られ得る。サービスは、実施されるべきタスクの記述(例えばユーザー問題定義)をユーザーから受け取ることができる。サービスは、「成功」がそれにより測定され得る範例(メトリック)をユーザーから受け取ることができる。サービスは、それに応答して、特徴化のライブラリーから1つ又は複数の特徴化を自動的に選択することができる。サービスは、「成功」が定義される方式に沿っている結果を提供する特徴化の組合せを決定することができる。
[0011]例えば特徴化ライブラリーが犬の特徴化データセットを含んでいることを想像されたい。猫対侵入者のシステムを訓練するためには、基礎をなしている本質的な特性化が「毛で覆われている」対「毛で覆われていない」であり、これは犬と猫の両方の特性であるため、郵便配達人を侵入者から区別するのに役立つ特徴化よりも犬の特徴化がはるかに有用であり得る。このような特徴化により、類別子は、異なる類別をより高い精度で区別することができる。したがって種々の特徴化のライブラリーが提供され得る。サービスは、生データであってもよいユーザー問題定義及びサンプルデータセットに応答して、適用されるべき1つ又は複数の特徴化を選択することができる。試験を実行して、ユーザーによって定義されたことを最も良好に(例えば最も小さい誤り、又は最も速い予測時間で)実施する特徴化又は特徴化の組合せが決定され得る。結果はユーザーに戻され得る。
[0012]サービスは、「クラウド内の」サービスであってもよい。サービスは、可能な特徴化の大きなライブラリーに基づき得る。テキスト、画像、音響、トランザクション事象データ、履歴カウント等の異なるタイプのデータに対しては異なる特徴化が提供され得る。ユーザーは、機械学習タスクのためのデータセットを提供することができる。サービスは、必要な計算及び/又は実験を実施して、所与のタスクのためのそのデータセットに対して最も良好に実施する特徴化を決定することができる。
[0013]これらの計算及び/又は実験が実施され得るいくつかの方法がある。特徴化の選択及び/又は推奨は、入力データセットと、最適な特徴化が知られている同様の過去のデータセットとの間の類似度を測定する類似度関数(similarity function)に基づき得る。このような類似度関数は、それらに限定されないが、サイズ、次元性、疎度、因子分析、辺縁等を含むことができるデータセット統計量に基づき得る。
[0014]特徴化の選択及び/又は推奨は、精度又はROC(曲率半径)曲線の下方の面積(曲線の下方のAUC面積)などの予測タスクのメトリックのための最適化に直接に基づき得る。特徴化の選択及び/又は推奨は、最も有用で、コンパクト等である特徴化を学習するための複数の信号源の組込みに基づき得る。特徴化の選択及び/又は推奨は、多数の可能な特徴化及びそれらの組合せからの探索に基づき得る。特徴化の選択及び/又は推奨は、データセット及びタスクの領域知識の自動方式による組込みに基づき得る。ウェブサービス(要求/応答サービス又はバッチサービスのいずれかにおける)は、所与のデータセット及びタスクのために選択された最良の特徴化へのアクセスを提供することができる。
[0015]画像を分類学に類別する良好な特徴化を決定する1つの非制限的な例を考察する。コンピュータービジョン領域からの典型的な特徴は、例えばHOG(配向勾配のヒストグラム)特徴及びSIFT(不変特徴変換におけるスケール)特徴、縁ディテクター、畳込みニューラルネットワーク特徴等を含む。データセットが与えられると、コンピュータービジョンの専門家ではない者にとっては、これらの特徴を構築し、それらを使用して実験し、それらのすべてを実現して、高い精度を得るために必要な最小セットを選択することは困難である。本明細書において説明される主題の態様によれば、以下が実施され得る。
[0016]データセットと同様の、予測タスクのアレイに対する良好な特徴化が知られている他のデータセットが識別されることが可能であり、そのうちのいくつかは手元のタスクと似ている可能性がある。この知識は、サービスにおける過去の実験、又は自身の知識を特徴化選択規則に変換する領域専門家のいずれかから得ることができる。画像のための妥当な様々な特徴化、例えばHOG特徴、SIFT特徴、畳込みニューラルネットワーク等を使用した実験は、自動的に実施され得る。選択アルゴリズムは、それには限定されないが、ニューラルネットワーク又は強化回帰ツリー(boosted regression tree)などの方法を含むことができる。また、それらを使用して、最良の類別精度を提供する特徴のグループが識別されることも可能である。プラットフォームに対する実験は、自動的に推定される特徴化を使用したモデルを教示するために、履歴画像類別を使用して実施され得る。
サービスとしての適応特徴化
[0017]図1は、本明細書において説明される主題の態様による、特徴化選択モジュール又はサービスを含むシステム100の一例を示したものである。システム100のすべて又は一部は、図3に関して以下で説明されるコンピューターなどの1つ又は複数のコンピューター又は計算デバイス上に常駐させることができる。システム100又はその一部は、独立型システムとして、又はプラグインもしくはアドインとして提供され得る。
[0018]システム100又はその一部は、サービス(例えばクラウド内の)から得られる情報を含むことができ、又はクラウド計算環境で動作することができる。クラウド計算環境は、計算サービスが所有されるのではなく、要求時に提供される環境であってもよい。例えば情報は、ネットワーク化されたクラウド内の複数のデバイス上に常駐させることができ、及び/又はデータは、クラウド内の複数のデバイス上に記憶され得る。
[0019]システム100は、例えば計算デバイス102などの1つ又は複数の計算デバイスを含むことができる。企図されている計算デバイスは、それらに限定されないが、デスクトップコンピューター、タブレットコンピューター、ラップトップコンピューター、ノートブックコンピューター、パーソナル・デジタル・アシスタント、スマートフォン、セルラー電話、移動電話等を含む。計算デバイス102などの計算デバイスは、プロセッサー142等などの1つ又は複数のプロセッサー、及び1つ又は複数のプロセッサーと通信するメモリー144などのメモリーを含むことができる。
[0020]システム100は、特徴化選択モジュール又はサービス106などの特徴化選択モジュール又はサービスを含む、任意の1つ又は複数のプログラムモジュールを含むことができる。また、システム100は、データセット及びタスク定義データベース108などの1つ又は複数のデータセット及びタスク定義データベース又はデータセットも含むことができる。また、システム100は、過去の実行データベース110にある特徴化結果など、過去の実行又は過去の知識ストアからの特徴化結果のデータセット又はデータベースも含むことができる。また、システム100は、試験結果を比較し、かつ、推奨120などの1つ又は複数の推奨を実施する比較モジュールすなわちサービス118も含むことができる。
[0021]特徴化選択モジュール又はサービス106は、入力122を受け取ることができる。入力122は、生データ、タスク定義、及び/又は成功が測定される方法の記述のうちの任意の組合せを含むことができる。成功が測定される方法のいくつかの例には、それには限定されないが、低い誤り率又は高い検出率などの所望の結果がある。生データは、画像データ、テキストデータ、音響データ、トランザクション事象データ、履歴カウント又は任意の他のタイプのデータであってもよい。問題定義は、それらに限定されないが、予測、検出、回帰等を含むことができる。
[0022]特徴化選択モジュール又はサービス106は、受け取られた入力に基づいて、データセット及びタスク定義ライブラリー108からデータセット及びタスク定義を選択することができる。データセット及びタスク定義ライブラリー108は、データセット、タスク定義、対応する特徴化及び目的のうちの任意の組合せを含むことができる。データセット及びタスク定義ライブラリー108からの試験特徴化の選択は、入力データセットと、最適特徴化が知られている同様の過去のデータセットとの間の類似度を測定する類似度関数に基づき得る。このような類似度関数は、それらに限定されないが、サイズ、次元性、疎度、因子分析、辺縁等を含むことができるデータセット統計量に基づき得る。過去の実行による特徴化結果は、選択プロセス中にアクセスされ得る。特徴化選択モジュール又はサービス106は、データセット及びタスク定義データストア108から1つ又は複数の特徴化を選択することができる。特徴化選択モジュール又はサービス106は、例えば特徴化結果1 112、特徴化結果2 114...特徴化結果n 116などの1つ又は複数の特徴化結果を生成することができる。比較モジュール又はサービス118などの比較モジュール又はサービスは、例えば特徴化結果1 112、特徴化結果2 114...特徴化結果n 116などの特徴化結果を比較することができる。推奨120などの1つ又は複数の特徴化推奨が提供され得る。本明細書において使用される「サービス」という用語は、異なる目的のために再使用され得る一組の関連するソフトウェア機能、及びサービスがどのように稼働するかを制御する方針を意味している。
[0023]図2は、本明細書において説明される主題の態様による、機械学習タスクのための1つ又は複数の特徴化を選択し、及び/又は推奨するための方法200の一例を示したものである。図2で説明される方法は、それには限定されないが、図1に関して説明したシステムなどのシステムによって実践され得る。方法200は、逐次実施される一連の動作を記述しているが、方法200は、示されているシーケンスの順序に限定されないことを理解されたい。例えばいくつかの動作は、示されている順序とは異なる順序で実施することができる。さらに、ある動作は別の動作と同時に実施することも可能である。いくつかの実例では、必ずしも説明されている動作のすべてが実施されるわけではない。
[0024]動作202でユーザー入力が受け取られ得る。ユーザー入力は、データセット(例えば生データ)、問題定義及び/又は成功が測定される方法の記述のうちの任意の組合せを含むことができる。動作204で特徴化選択モジュールは入力を受け取り、入力データをライブラリーに記憶されているデータセットと比較すること、入力されたタスク定義をライブラリーに記憶されているタスク定義と比較すること、入力された目的をライブラリーに記憶されている目的と比較すること、の何らかの組合せにより、また、動作206で、過去の実行データストア110にある特徴化結果からの過去の実行による特徴化結果にアクセスすることにより、動作208で、ユーザーから受け取った生データに適用される試験特徴化が選択され得る。動作210で、試験特徴化を使用して試験実行が実行され得る。動作212で、試験実行の結果が比較され得る。動作214で、1つ又は複数の特徴化推奨が実施され得る。
[0025]本明細書において説明されるシステムは、1つ又は複数のプロセッサー、1つ又は複数のプロセッサーに接続されたメモリー、及びプロセッサーに以下で説明される特定の機能を実施させるためにメモリーにロードされ得るプログラムモジュールを備える。1つ又は複数のプログラムモジュールは、機械学習アプリケーションのために受け取られたデータセット及び受け取られたタスク定義に対して少なくとも1つの特徴化を自動的に選択する特徴化選択機能を実施することができる。1つ又は複数のプログラムモジュールは、受け取られたデータセットをデータセットのライブラリーに対してと比較し、その比較に基づいて少なくとも1つの特徴化を選択する比較モジュールを含むことができる。受け取られるデータセットは生データを含むことができる。生データは、処理されて特徴になっていないデータを意味している。1つ又は複数のプログラムモジュールは、受け取られたタスク定義をタスク定義のライブラリーと比較し、その比較に基づいて少なくとも1つの特徴化を選択する比較モジュールを含むことができる。1つ又は複数のプログラムモジュールは、選択された少なくとも1つの特徴化について過去の訓練実行の結果を調査するモジュールを含むことができる。1つ又は複数のプログラムモジュールは、選択された特徴化を受け取られたデータセットに適用した複数の試験実行の結果を調査し、その結果に基づいて少なくとも1つの特徴化を選択するモジュールを含むことができる。1つ又は複数のプログラムモジュールは、成功が測定される方法の定義を受け取るモジュールを含むことができる。
[0026]本明細書において説明される方法は、計算デバイスのプロセッサーによって、生データのデータセットを含む入力を受け取るステップと、データセットをデータセットのライブラリーと比較し、その比較に基づいて、データセットのライブラリーのデータセットに関連付けられた少なくとも1つの特徴化を選択するステップと、生データのデータセットに適用するために、選択された少なくとも1つの特徴化を推奨するステップとを含む。方法は、受け取られたタスク定義をタスク定義ライブラリー内のタスク定義と比較し、生データのデータセットに適用するために、タスク定義ライブラリー内のタスク定義に関連付けられた少なくとも1つの特徴化を選択する動作を含むことができる。方法は、少なくとも1つの選択された特徴化を試験実行で生データのデータセットに適用する動作を含むことができる。方法は、複数の試験実行の結果を比較する動作を含むことができ、そこで、選択された特徴化が生データのデータセットに適用される。方法は、比較された結果に基づいて、生データのデータセットに適用するための少なくとも1つの特徴化を推奨する動作を含むことができる。方法は、成功が測定される方法の定義を受け取る動作を含むことができる。
[0027]本明細書において説明される、データ信号を除外するコンピューター可読記憶媒体は、実行されると、計算デバイスの少なくとも1つのプロセッサーが、機械学習アプリケーションについての受け取られたデータセット及び受け取られたタスク定義に対して少なくとも1つの特徴化を自動的に選択することになるコンピューター可読命令を含む。コンピューター可読記憶媒体は、さらに、実行されると、少なくとも1つのプロセッサーが、受け取られたデータセットをデータセットのライブラリーに対して比較し、かつ、その比較に基づいて少なくとも1つの特徴化を選択することになるコンピューター可読命令を含むことができる。コンピューター可読記憶媒体は、さらに、実行されると、少なくとも1つのプロセッサーが、受け取られたタスク定義をタスク定義のライブラリーに対して比較し、かつ、その比較に基づいて少なくとも1つの特徴化を選択することになるコンピューター可読命令を含むことができる。コンピューター可読記憶媒体は、さらに、実行されると、少なくとも1つのプロセッサーが、選択された少なくとも1つの特徴化のために過去の訓練実行の結果を調査することになるコンピューター可読命令を含むことができる。コンピューター可読記憶媒体は、さらに、実行されると、少なくとも1つのプロセッサーに、選択された特徴化を受け取られたデータセットに適用する複数の試験実行の結果を調査させ、その複数の試験実行の結果の比較に基づいて少なくとも1つの特徴化を選択させるコンピューター可読命令を含むことができる。コンピューター可読記憶媒体は、さらに、実行されると、少なくとも1つのプロセッサーに、比較に基づいて、生データのデータセットに適用するための少なくとも1つの特徴化を推奨させるコンピューター可読命令を含むことができる。コンピューター可読記憶媒体は、さらに、実行されると、少なくとも1つのプロセッサーに、成功が測定される方法の定義を受け取らせるコンピューター可読命令を含むことができる。
適切な計算環境の例
[0028]本明細書において開示される主題の様々な態様のための文脈を提供するために、図3及び以下の説明には、本明細書において開示される主題の様々な実施形態が実現され得る適切な計算環境510についての簡単な概要説明を提供することが意図されている。本明細書において開示される主題は、1つ又は複数のコンピューターあるいは他の計算デバイスによって実行されるプログラムモジュールなどのコンピューター実行可能命令の一般的な文脈で説明されているが、本明細書において開示される主題の一部は、他のプログラムモジュールとの組合せ、及び/又はハードウェアとソフトウェアの組合せで同じく実現され得ることは当業者には認識されよう。一般に、プログラムモジュールは、特定のタスクを実施し、又は特定のデータタイプを実現するルーチン、プログラム、オブジェクト、物理アーチファクト、データ構造、等々を含む。典型的には、プログラムモジュールの機能は、様々な実施形態における必要に応じて結合又は分散され得る。計算環境510は適切な動作環境の一例にすぎず、本明細書において開示される主題の使用又は機能の範囲を制限することは意図されていない。
[0029]図3を参照して、コンピューター512の形態の計算デバイスが説明される。コンピューター512は、少なくとも1つの処理装置514、システムメモリー516及びシステムバス518を含むことができる。少なくとも1つの処理装置514は、それには限定されないが、システムメモリー516などのメモリーに記憶される命令を実行することができる。処理装置514は、利用可能な任意の様々なプロセッサーであってもよい。例えば処理装置514は、グラフィック処理装置(GPU)であってもよい。命令は、上で説明した1つ又は複数のコンポーネント又はモジュールによって実施される機能を実現するための命令、又は上で説明した方法のうちの1つ又は複数を実現するための命令であってもよい。二重マイクロプロセッサー及び他の多重プロセッサーアーキテクチャーも処理装置514として同じく使用され得る。コンピューター512は、表示画面上の図形のレンダリングを支援するシステムに使用され得る。別の例では、計算デバイスの少なくとも一部は、図形処理装置を備えるシステムに使用され得る。システムメモリー516は、揮発性メモリー520及び不揮発性メモリー522を含むことができる。不揮発性メモリー522は、リード・オンリー・メモリー(ROM)、プログラマブルROM(PROM)、電気的プログラマブルROM(EPROM)又はフラッシュメモリーを含むことができる。揮発性メモリー520は、外部キャッシュメモリーとして作用し得るランダム・アクセス・メモリー(RAM)を含むことができる。システムバス518は、システムメモリー516を含むシステム物理アーチファクトを処理装置514に結合する。システムバス518は、メモリーバス、メモリーコントローラー、周辺バス、外部バス又はローカルバスを含むいくつかのタイプのうちの任意のタイプのシステムバスであってもよく、また、利用可能な任意の様々なバスアーキテクチャーを使用することができる。コンピューター512は、システムバス518によって処理装置514によるアクセスが可能なデータストアを含むことができる。データストアは、図形レンダリングのための実行可能命令、3Dモデル、マテリアル、テクスチャー、等々を含むことができる。
[0030]コンピューター512は、典型的には、揮発性媒体及び不揮発性媒体、取外し可能媒体及び非取外し可能媒体などの様々なコンピューター可読媒体を含む。コンピューター可読媒体は、コンピューター可読命令、データ構造、プログラムモジュール又は他のデータなどの情報を記憶するための任意の方法又は技術で実現され得る。コンピューター可読媒体は、コンピューター可読記憶媒体(コンピューター記憶媒体とも呼ばれる)及び通信媒体を含む。コンピューター記憶媒体は、それらに限定されないが、RAM、ROM、EEPROM、フラッシュメモリー又は他のメモリー技術、CDROM、デジタル汎用ディスク(DVD)又は他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、又は所望のデータを記憶することができ、また、コンピューター512によってアクセスされ得る他の磁気記憶デバイスなどの物理(有形)媒体を含む。通信媒体は、それらに限定されないが、通信信号、変調搬送波、又は所望の情報を通信するために使用され、また、コンピューター512によってアクセスされ得る任意の他の無形媒体などの媒体を含む。
[0031]図3は、ユーザーとコンピューター資源との間の仲介として作用し得るソフトウェアを示したものであることは認識されよう。このソフトウェアは、ディスク記憶装置524上に記憶され得る、また、コンピューター512の資源を割り振ることができるオペレーティングシステム528を含むことができる。ディスク記憶装置524は、インターフェース526などの非取外し可能メモリーインターフェースを介してシステムバス518に接続されたハードディスクドライブであってもよい。システムアプリケーション530は、システムメモリー516の中又はディスク記憶装置524上のいずれかに記憶されるプログラムモジュール532及びプログラムデータ534を介して、オペレーティングシステム528による資源の管理を活用する。コンピューターは、様々なオペレーティングシステム又はオペレーティングシステムの組合せを使用して実現され得ることは認識されよう。
[0032]ユーザーは、入力デバイス536を介してコマンド又は情報をコンピューター512に入力することができる。入力デバイス536は、それらに限定されないが、マウスなどの位置決めデバイス、トラックボール、スタイラス、タッチパッド、キーボード、マイクロホン、音声認識及びジェスチャー認識システム、等々を含む。これら及び他の入力デバイスは、インターフェースポート538を介して、システムバス518を介して処理装置514に接続する。インターフェースポート538は、シリアルポート、パラレルポート、ユニバーサルシリアルバス(USB)、等々を表し得る。出力デバイス540は、入力デバイスが使用しているポートと同じタイプのポートを使用することができる。出力アダプター542は、特定のアダプターを必要とするモニター、スピーカー及びプリンターなどのいくつかの出力デバイス540が存在していることを示すために提供されている。出力アダプター542は、それらに限定されないが、出力デバイス540とシステムバス518の間の接続を提供するビデオカード及び音声カードを含む。他のデバイス及び/又はシステム、あるいは遠隔コンピューター544などのデバイスは、入力機能と出力機能の両方を提供することができる。
[0033]コンピューター512は、遠隔コンピューター544などの1つ又は複数の遠隔コンピューターへの論理接続を使用したネットワーク化環境で動作することができる。遠隔コンピューター544は、パーソナルコンピューター、サーバー、ルーター、ネットワークPC、ピアデバイス又は他の共通ネットワークノードであってもよく、また、典型的には、コンピューター512に関連して上で説明した要素のうちの多く又はすべてを含むが、図3にはメモリー記憶デバイス546のみが示されている。遠隔コンピューター544は、通信接続550を介して論理接続され得る。ネットワークインターフェース548は、ローカル・エリア・ネットワーク(LAN)及び広域ネットワーク(WAN)などの通信ネットワークを包含しているが、他のネットワークを含むことも可能である。通信接続550は、ネットワークインターフェース548をバス518に接続するために使用されるハードウェア/ソフトウェアを意味している。通信接続550は、コンピューター512の内部であっても、あるいは外部であってもよく、また、モデム(電話、ケーブル、DSL、及び無線)並びにISDNアダプター、イーサネット(登録商標)カード、等々などの内部技術及び外部技術を含む。
[0034]示されているネットワーク接続は単なる例にすぎず、コンピューター間の通信リンクを確立する他の手段が使用され得ることは認識されよう。当業者には、コンピューター512又は他のクライアントデバイスは、コンピューターネットワークの一部として配置され得ることを認識することが可能である。これに関して、本明細書において開示されている主題は、任意の数のメモリー又は記憶装置、及び任意の数の記憶装置又はボリューム間で生じる任意の数のアプリケーション及びプロセスを有する任意のコンピューターシステムに関し得る。本明細書において開示されている主題の態様は、遠隔又は局所記憶装置を有する、ネットワーク環境内に配置されたサーバーコンピューター及びクライアントコンピューターを有する環境に適用することができる。また、本明細書において開示されている主題の態様は、プログラミング言語機能、翻訳及び実行能力を有する独立型計算デバイスにも同じく適用することができる。
[0035]本明細書において説明されている様々な技法は、ハードウェア又はソフトウェアと関連して実現され、あるいは適切である場合、両方の組合せと関連して実現され得る。したがって本明細書において説明されている方法及び装置、又は特定の態様あるいはその一部は、フロッピーディスケット、CD−ROM、ハードドライバ又は任意の他の機械可読記憶媒体などの有形媒体中で具体化されるプログラムコード(すなわち命令)の形態を取ることができ、そのプログラムコードがコンピューターなどの機械にロードされて実行されると、その機械は、本明細書において開示されている主題の態様を実践するための装置になる。本明細書において使用されているように、「機械可読記憶媒体」という用語は、任意の形態の伝搬信号を提供する(すなわち記憶及び/又は伝送する)あらゆる機構を除外するものと解釈されるべきである。プログラムコードをプログラマブルコンピューター上で実行する場合、計算デバイスは、通常、プロセッサー、プロセッサーによる読出しが可能な記憶媒体(揮発性及び不揮発性メモリー及び/又は記憶素子を含む)、少なくとも1つの入力デバイス及び少なくとも1つの出力デバイスを含むことになる。例えばデータ処理API等々の使用を介して、領域特化プログラミングモデル態様の生成及び/又は実現を利用することができる1つ又は複数のプログラムは、コンピューターシステムと通信するための高水準手続き型プログラミング言語又はオブジェクト指向プログラミング言語で実現され得る。しかしながらプログラムは、必要に応じてアセンブリー又は機械言語で実現され得る。いずれの場合においても、言語は、コンパイル済み、又は翻訳済み言語であってもよく、また、ハードウェア実施態様と組み合わせ得る。
[0036]主題は、構造的特徴及び/又は方法論的行為に特化された言語で記述されているが、添付の特許請求の範囲で定義されている主題は、必ずしも上で説明した特定の特徴又は行為に限定されないことを理解されたい。そうではなく、上で説明した特定の特徴及び行為は、特許請求の範囲を実現する例示的形態として開示されている。

Claims (15)

  1. 機械学習アプリケーションのための少なくとも1つの特徴化を自動的に選択し、推奨するシステムであって、
    少なくとも1つのプロセッサーと、
    前記少なくとも1つのプロセッサーに接続されたメモリーと、
    前記メモリーにロードされる少なくとも1つのプログラムモジュールであって、機械学習アプリケーションについての受け取られたデータセット及び受け取られたタスク定義に対して少なくとも1つの特徴化を自動的に選択する特徴化選択モジュールを含む少なくとも1つのプログラムモジュールと
    を備えるシステム。
  2. 前記受け取られたデータセットをデータセットのライブラリーと比較し、前記比較に基づいて少なくとも1つの特徴化を選択する比較モジュールを含む少なくとも1つのプログラムモジュール
    をさらに備える、請求項1に記載のシステム。
  3. 前記データセットが生データを含む、請求項2に記載のシステム。
  4. 前記受け取られたタスク定義をタスク定義のライブラリーと比較し、前記比較に基づいて少なくとも1つの特徴化を選択する比較モジュールを含む少なくとも1つのプログラムモジュール
    をさらに備える、請求項1に記載のシステム。
  5. 前記選択された少なくとも1つの特徴化について過去の訓練実行の結果を調査するモジュールを含む少なくとも1つのプログラムモジュール
    をさらに備える、請求項1に記載のシステム。
  6. 選択された特徴化を前記受け取られたデータセットに適用した複数の試験実行の結果を調査し、前記結果に基づいて少なくとも1つの特徴化を選択するモジュールを含む少なくとも1つのプログラムモジュール
    をさらに備える、請求項1に記載のシステム。
  7. 成功が測定される方法の定義を受け取るモジュールを含む少なくとも1つのプログラムモジュール
    をさらに備える、請求項1に記載のシステム。
  8. 機械学習アプリケーションのための特徴化を自動的に選択するための方法であって、
    計算デバイスのプロセッサーによって、生データのデータセットを含む入力を受け取るステップと、
    前記データセットをデータセットのライブラリーと比較し、前記比較に基づいてデータセットの前記ライブラリーのデータセットに関連付けられた少なくとも1つの特徴化を選択するステップと、
    生データの前記データセットに適用するために、前記選択された少なくとも1つの特徴化を推奨するステップと
    を含む方法。
  9. 受け取られたタスク定義をタスク定義ライブラリー内のタスク定義と比較し、生データの前記データセットに適用するために、前記タスク定義ライブラリー内の前記タスク定義に関連付けられた少なくとも1つの特徴化を選択するステップ
    をさらに含む、請求項8に記載の方法。
  10. 少なくとも1つの選択された特徴化を試験実行で生データの前記データセットに適用するステップ
    をさらに含む、請求項8に記載の方法。
  11. 複数の試験実行の結果を比較するステップであって、選択された特徴化が生データの前記データセットに適用されるステップ
    をさらに含む、請求項8に記載の方法。
  12. 前記比較された結果に基づいて、生データの前記データセットに適用するために少なくとも1つの特徴化を推奨するステップ
    をさらに含む、請求項11に記載の方法。
  13. 成功が測定される方法の定義を受け取るステップ
    をさらに含む、請求項8に記載の方法。
  14. 実行されると、計算デバイスの少なくとも1つのプロセッサーに、
    機械学習アプリケーションについての受け取られたデータセット及び受け取られたタスク定義に対して少なくとも1つの特徴化を自動的に選択させる
    コンピューター可読命令を含むコンピューター可読記憶媒体。
  15. 実行されると、前記少なくとも1つのプロセッサーに、
    前記受け取られたデータセットをデータセットのライブラリーと比較させ、
    前記比較に基づいて少なくとも1つの特徴化を選択させる
    コンピューター可読命令をさらに含む、請求項14に記載のコンピューター可読記憶媒体。
JP2017501673A 2014-07-12 2015-07-10 サービスとしての適応特徴化 Withdrawn JP2017527013A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462023833P 2014-07-12 2014-07-12
US62/023,833 2014-07-12
US14/576,253 US20160012318A1 (en) 2014-07-12 2014-12-19 Adaptive featurization as a service
US14/576,253 2014-12-19
PCT/US2015/039839 WO2016010832A1 (en) 2014-07-12 2015-07-10 Adaptive featurization as a service

Publications (2)

Publication Number Publication Date
JP2017527013A true JP2017527013A (ja) 2017-09-14
JP2017527013A5 JP2017527013A5 (ja) 2018-07-12

Family

ID=55067826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017501673A Withdrawn JP2017527013A (ja) 2014-07-12 2015-07-10 サービスとしての適応特徴化

Country Status (6)

Country Link
US (1) US20160012318A1 (ja)
EP (1) EP3167409A1 (ja)
JP (1) JP2017527013A (ja)
CN (1) CN106537423A (ja)
RU (1) RU2017100479A (ja)
WO (1) WO2016010832A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9436507B2 (en) 2014-07-12 2016-09-06 Microsoft Technology Licensing, Llc Composing and executing workflows made up of functional pluggable building blocks
US10026041B2 (en) 2014-07-12 2018-07-17 Microsoft Technology Licensing, Llc Interoperable machine learning platform
US10371005B2 (en) * 2016-07-20 2019-08-06 United Technologies Corporation Multi-ply heat shield assembly with integral band clamp for a gas turbine engine
US11669675B2 (en) 2016-11-23 2023-06-06 International Business Machines Corporation Comparing similar applications with redirection to a new web page
EP3480714A1 (en) * 2017-11-03 2019-05-08 Tata Consultancy Services Limited Signal analysis systems and methods for features extraction and interpretation thereof
CN110738304A (zh) * 2018-07-18 2020-01-31 科沃斯机器人股份有限公司 机器模型更新方法、设备及存储介质
US20200210775A1 (en) * 2018-12-28 2020-07-02 Harman Connected Services, Incorporated Data stitching and harmonization for machine learning
US11373119B1 (en) * 2019-03-29 2022-06-28 Amazon Technologies, Inc. Framework for building, orchestrating and deploying large-scale machine learning applications

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782976B (zh) * 2010-01-15 2013-04-10 南京邮电大学 一种云计算环境下机器学习自动选择方法
US8609602B2 (en) * 2010-07-14 2013-12-17 Anatrace Products, Llc Cleaning solution
US20120158623A1 (en) * 2010-12-21 2012-06-21 Microsoft Corporation Visualizing machine learning accuracy
WO2012103290A1 (en) * 2011-01-26 2012-08-02 Google Inc. Dynamic predictive modeling platform
TWM444868U (zh) * 2012-07-20 2013-01-11 Axpro Technology Inc 遊戲用射擊器材之方向操控裝置
US9292799B2 (en) * 2013-02-28 2016-03-22 Chevron U.S.A. Inc. Global model for failure prediction for artificial lift systems

Also Published As

Publication number Publication date
US20160012318A1 (en) 2016-01-14
WO2016010832A1 (en) 2016-01-21
RU2017100479A (ru) 2018-07-11
EP3167409A1 (en) 2017-05-17
CN106537423A (zh) 2017-03-22
RU2017100479A3 (ja) 2019-01-31

Similar Documents

Publication Publication Date Title
US11487941B2 (en) Techniques for determining categorized text
US11416772B2 (en) Integrated bottom-up segmentation for semi-supervised image segmentation
AU2016256764B2 (en) Semantic natural language vector space for image captioning
JP2017527013A (ja) サービスとしての適応特徴化
GB2547068B (en) Semantic natural language vector space
US20190050465A1 (en) Methods and systems for feature engineering
US20200342255A1 (en) Custom Auto Tagging of Multiple Objects
JP7206072B2 (ja) 改善された要求ハンドリング
US11379718B2 (en) Ground truth quality for machine learning models
US20170185913A1 (en) System and method for comparing training data with test data
US10796203B2 (en) Out-of-sample generating few-shot classification networks
US11373117B1 (en) Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors
US11687839B2 (en) System and method for generating and optimizing artificial intelligence models
US11514318B2 (en) Multi-source transfer learning from pre-trained networks
CN114144770A (zh) 用于生成用于模型重新训练的数据集的系统和方法
WO2022135765A1 (en) Using disentangled learning to train an interpretable deep learning model
US11115338B2 (en) Intelligent conversion of internet domain names to vector embeddings
WO2022121544A1 (en) Normalizing oct image data
US11688175B2 (en) Methods and systems for the automated quality assurance of annotated images
US11227231B2 (en) Computational efficiency in symbolic sequence analytics using random sequence embeddings
US20230222150A1 (en) Cognitive recognition and reproduction of structure graphs
US20220156304A1 (en) Relationship discovery and quantification
US11501071B2 (en) Word and image relationships in combined vector space
US20210004671A1 (en) Automated data slicing based on an artificial neural network
US20240096122A1 (en) Security-based image classification using artificial intelligence techniques

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180531

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180531

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20190422