JP7250126B2

JP7250126B2 - 自動エンコーダを用いる人工画像生成のためのコンピュータアーキテクチャ

Info

Publication number: JP7250126B2
Application number: JP2021525732A
Authority: JP
Inventors: キム，ピーター; ジェイ．サンド，マイケル; ディー．ホーレンベック，マシュー
Original assignee: Raytheon Co
Current assignee: Raytheon Co
Priority date: 2018-11-27
Filing date: 2019-08-23
Publication date: 2023-03-31
Anticipated expiration: 2039-08-23
Also published as: US20200167966A1; WO2020112189A1; JP2022507255A; EP3888007A1; US11107250B2

Description

［優先権の主張］
本願は、３５Ｕ．Ｓ．Ｃ．§１１９に基づき米国仮特許出願番号第６２/７７１,８０８号、２０１８年１１月２７日出願、名称「COMPUTER ARCHITECTURE FOR ARTIFICIAL IMAGE GENERATION USING AUTO－ENCODER」の優先権を主張する。該仮出願は参照によりその全体がここに組み込まれる。

［技術分野］
実施形態は、コンピュータアーキテクチャに関する。幾つかの実施形態は、機械学習のためのコンピュータアーキテクチャに関する。幾つかの実施形態は、機械学習で使用するための人工画像を生成するためのコンピュータアーキテクチャに関する。

機械学習は、画像認識のような多くの目的で有用である。幾つかの例では、所与のオブジェクトの画像を認識するよう機械をトレーニングするために、膨大な数の画像が利用可能である。しかしながら、幾つかの他のオブジェクトについては、少ない画像しか利用可能ではなく、或いは全く利用可能な画像がない。前述の説明のように、所与のオブジェクトの利用可能な画像が少ない又は全く無い場合に、該所与のオブジェクトを認識するよう機械をトレーニングするために機械学習を使用することが望ましいことがある。

本開示は、概して、人工画像生成を提供するよう構成される機械であって、このような専用機械のコンピュータ化された変形及びこのような変形に対する改良を含む機械、並びに、このような専用機械がニューラルネットワークのための技術を提供する他の専用機械と比べて改良される技術、に関する。特に、本開示は、人工画像生成のためのシステム及び方法を記載する。

ここに記載される技術の幾つかの態様によると、機械学習機器は処理回路とメモリとを含む。処理回路は、入力として、ターゲットオブジェクトの現実のＳＡＲ（synthetic－aperture radar）画像セットを受信し、ターゲットオブジェクトは画像認識器を用いて認識される。処理回路は、現実のＳＡＲ画像セットに基づき、ターゲットオブジェクトのボクセルモデルを生成する。処理回路は、ボクセルモデルに基づき、ターゲットオブジェクトのＴＳＢ（target shadow background－mask）画像セットを生成する。処理回路は、自動エンコーダを用いて、ＴＳＢ画像セットに基づき、ターゲットオブジェクトの１つ以上の人工ＳＡＲ画像を生成する。自動エンコーダは、サブエンコーダを用いて、ＴＳＢ画像セットを潜在ベクトルへと符号化し、サブデコーダを用いて、潜在ベクトルを復号して、１つ以上の人工ＳＡＲ画像を生成する。処理回路は、ターゲットオブジェクトの生成された１つ以上の人工ＳＡＲ画像を出力として提供する。

ここに記載される技術の幾つかの態様によると、機械学習機器は処理回路とメモリとを含む。処理回路は、入力として、第１オブジェクトセットの現実ＳＡＲ（synthetic－aperture radar）画像セット、及び、第１オブジェクトセットと第１オブジェクトセットと異なるターゲットオブジェクトとの間の差分セット、を受信する。ターゲットオブジェクトは画像認識器を用いて認識される。処理回路は、第１オブジェクトセットの現実ＳＡＲ画像セット及び差分セットに基づき、ターゲットオブジェクトのボクセルモデルを生成する。処理回路は、ボクセルモデルに基づき、ターゲットオブジェクトのＴＳＢ（target shadow background－mask）画像セットを生成する。処理回路は、自動エンコーダを用いて、ＴＳＢ画像セットに基づき、ターゲットオブジェクトの１つ以上の人工ＳＡＲ画像を生成する。自動エンコーダは、サブエンコーダを用いて、ＴＳＢ画像セットを潜在ベクトルへと符号化し、サブデコーダを用いて、潜在ベクトルを復号して、１つ以上の人工ＳＡＲ画像を生成する。処理回路は、ターゲットオブジェクトの生成された１つ以上の人工ＳＡＲ画像を出力として提供する。

他の態様は、上述の処理回路の動作を実行する方法、処理回路に上述の動作を実行させるための命令を格納している機械可読媒体、を含む。

幾つかの実施形態による、機械学習プログラムのトレーニング及び使用を示す。

幾つかの実施形態による例示的なニューラルネットワークを示す。

幾つかの実施形態による、画像認識機械学習プログラムのトレーニングを示す。

幾つかの実施形態による、特徴抽出処理及び分類器トレーニングを示す。

幾つかの実施形態による、計算機のブロック図である。

幾つかの実施形態による、人工画像生成のためのデータフロー図である。

幾つかの実施形態による、現実及び人工画像を用いて画像認識器をトレーニングするためのデータフロー図である。

幾つかの実施形態による、人工画像生成のための第１方法のフローチャートである。

幾つかの実施形態による、人工画像生成のための第２方法のフローチャートである。

以下の説明及び図面は、特定の実施形態を、当業者がそれらを実施できるように十分に説明する。他の実施形態は、構造的、論理的、電気的、処理、及び他の変更を組み込んでよい。幾つかの実施形態の部分及び特徴は、他の実施形態の部分及び特徴に含まれ又はそれを置き換えてよい。請求の範囲に記載された実施形態は、それらの請求の範囲の全部の利用可能な均等物を包含する。

上述のように、機械学習は、画像認識のような多くの目的で有用である。幾つかの例では、所与のオブジェクトの画像を認識するよう機械をトレーニングするために、膨大な数の画像が利用可能である。例えば、ボーイング７４７（登録商標）航空機の多数の画像が存在する。しかしながら、幾つかの他のオブジェクト（例えば、あまりよく知られていないタイプの航空機）については、少ない画像しか利用可能ではなく、或いは全く利用可能な画像がない。前述の説明のように、所与のオブジェクトの利用可能な画像が少ない又は全く無い場合に、該所与のオブジェクトを認識するよう機械をトレーニングするために機械学習を使用することが望ましいことがある。

幾つかの場合には、ターゲットオブジェクトの利用可能な画像が少数しかない又は全く画像がないが、ユーザは、ターゲットオブジェクトの画像を識別するよう画像認識ニューラルネットワークをトレーニングしたいと望むことがある。ここに記載の技術の幾つかの態様は、ターゲットオブジェクトの画像を人工的に生成することにより、この技術的問題に対するソリューションを提供する。これは、画像認識ニューラルネットワークのためのトレーニングデータの量を増大させ、それにより、トレーニングされた画像認識ニューラルネットワークの分類精度を向上する。

ここに記載した技術の幾つかの態様は、ターゲットオブジェクトの利用可能な画像が少ない又は全く無い場合に、該ターゲットオブジェクトを認識するよう機械をトレーニングするために機械学習を使用することを意図する。これを行うために、ターゲットオブジェクトの合成画像が生成されてよく、合成画像は、ターゲットオブジェクトの任意の利用可能な現実画像と一緒に、ターゲットオブジェクトの画像を認識するよう機械をトレーニングするために使用されてよい。

ここで使用されるように、用語「オブジェクト」は、その明白且つ通常の意味を包含する。オブジェクトは、特に、機械学習により認識され得る画像内に示され得るものを含んでよい。オブジェクトの例は、航空機、ボーイング７４７（登録商標）航空機、車両、ホンダＣｉｖｉｃ（登録商標）、スポーツ用多目的車（sport utility vehicle (SUV)）、人間の顔、ドナルド・トランプ大統領の顔、犬、ゴールデンリトリバー、携帯電話機、サムスンＧａｌａｘｙ（登録商標）携帯電話機、等である。

幾つかの実装によると、ターゲットオブジェクトの少数の（例えば、１００、１０００、又は１００００のような閾数より少ない）現実画像が利用可能である。計算機（又は複数の計算機）は、自動エンコーダにおいて、画像認識を用いて認識されるべきターゲットオブジェクトのＴＳＢ（target shadow background－mask）画像セットを受信する。計算機は、自動エンコーダにおいて、ターゲットオブジェクトの現実画像セットを受信する。計算機は、自動エンコーダを用いて、ＴＳＢ画像セットに基づき、ターゲットオブジェクトの１つ以上の人工画像を生成する。自動エンコーダは、サブエンコーダを用いて、ＴＳＢ画像セットを潜在ベクトルに符号化し、サブデコーダを用いて潜在ベクトルを復号し、１つ以上の人工画像を生成する。計算機は、ターゲットオブジェクトの生成された１つ以上の人工画像を出力として提供する。生成された人工画像及び現実画像は、ターゲットオブジェクトの画像を識別するよう画像認識器をトレーニングするために使用される。画像認識器のためのトレーニングセットは、人工画像及び現実画像の両方を含んでよい。現実及び人工画像は、ＳＡＲ（synthetic－aperture radar）画像又は任意の他のタイプの２Ｄ（two－dimensional）画像であってよい。

幾つかの実装によると、ターゲットオブジェクトの現実画像が利用可能ではないが、ターゲットオブジェクトに類似する第１オブジェクトセットの多数の画像が利用可能である。例えば、ホンダＣｉｖｉｃ（登録商標）の画像が利用可能であってよく、しかし自動車ＸＹＺの画像が利用可能ではなく、自動車ＸＹＺの画像を認識するよう機械学習アルゴリズムをトレーニングすることが望ましいことがある。第１オブジェクトセットは、単一のオブジェクト又は複数のオブジェクトを含んでよい。計算機（又は複数の計算機）は、入力として、第１オブジェクトセット（例えば、ホンダＣｉｖｉｃ（登録商標））の現実ＳＡＲ画像セット、及び第１オブジェクトセットとターゲットオブジェクトとの間の差分セット（例えば、ホンダＣｉｖｉｃはＨｏｎｄａ（登録商標）のエンブレムを有するが、自動車ＸＹＺはＨｏｎｄａのエンブレムの代わりにＸＹＺのエンブレムを有する、というようなＣｉｖｉｃ（登録商標）と自動車ＸＹＺとの間の差分のセット）を受信する。計算機は、自動エンコーダにおいて、画像認識器を用いて認識されるべきターゲットオブジェクトのＴＳＢ画像セットを受信する。計算機は、自動エンコーダにおいて、第１オブジェクトセット（例えば、ホンダＣｉｖｉｃ（登録商標））の現実画像セット、及び第１オブジェクトセットとターゲットオブジェクトとの間の差分セット（例えば、ホンダＣｉｖｉｃはＨｏｎｄａ（登録商標）のエンブレムを有するが、自動車ＸＹＺはＨｏｎｄａのエンブレムの代わりにＸＹＺのエンブレムを有する、というようなＣｉｖｉｃ（登録商標）と自動車ＸＹＺとの間の差分のセット）を受信する。計算機は、自動エンコーダを用いて、及び第１オブジェクトセットの現実画像セットと差分セットとの基づき、ＴＳＢ画像セットに基づきターゲットオブジェクトの１つ以上の人工画像を生成する。自動エンコーダは、サブエンコーダを用いて、ＴＳＢ画像セットを潜在ベクトルに符号化し、サブデコーダを用いて潜在ベクトルを復号し、１つ以上の人工画像を生成する。計算機は、ターゲットオブジェクトの生成された１つ以上の人工画像を出力として提供する。生成された人工画像は、ターゲットオブジェクトの画像を識別するよう機械学習アルゴリズムをトレーニングするために使用される。現実及び人工画像は、ＳＡＲ（synthetic－aperture radar）画像又は任意の他のタイプの２Ｄ画像であってよい。

自動エンコーダは、ハードウェア又はソフトウェアで実装されてよい。自動エンコーダは、計算機内に存在してよく、又は計算機の外部に存在してよい。

ここで使用されるように、「現実」画像は、現実世界に存在する事物に対応する画像を含んでよい。例えば、人がデジタルカメラを用いてボーイング７４７航空機の写真を撮り、ボーイング７４７航空機の現実画像を取得してよい。ここで使用されるように、「人工」画像は、現実世界に存在する事物に対応しない、機械の生成した画像を含んでよい。例えば、機械は、ボクセルモデル、ＴＳＢ画像セット、又はボーイング７４７航空機の任意の他の２若しくは３次元モデルに基づき、ボーイング７４７航空機の画像を生成してよい。更に、用語「現実」及び「人工」は、それらの明白な及び通常の意味を包含する。

ここに記載される技術の態様は、ＳＡＲ画像を用いて記載される。しかしながら、代替的実施形態では、任意のタイプの２Ｄ画像がＳＡＲ画像の代わりに使用されてよい。例えば、任意のタイプの２Ｄ画像は、本願明細書に通じて記載されるように、ＳＡＲ画像の代わりに使用されてよい。

図１は、幾つかの例示的な実施形態による、機械学習プログラムのトレーニング及び使用を示す。幾つかの例示的な実施形態では、機械学習プログラム（machine－learning program (MLP)）は、機械学習アルゴリズム又はツールとも呼ばれ、画像認識又は機械翻訳のような機械学習タスクに関連付けられた動作を実行するために利用される。

機械学習は、明示的にプログラミングされることなく学習する能力をコンピュータに与える研究分野である。機械学習は、研究及びアルゴリズムの構成を探求し、ここではツールとも呼ばれ、既存データから学習し、新しいデータについて予測を行ってよい。このような機械学習ツールは、出力又は評価１２０として表現されるデータ駆動型予測又は決定を行うために、例示的なトレーニングデータ１１２からモデルと構築することにより動作する。例示的な実施形態は、少数の機械学習ツールに関して提示されるが、ここに提示される原理は他の機械学習ツールに適用されてよい。

幾つかの例示的な実施形態では、異なる機械学習ツールが使用されてよい。例えば、ロジスティック回帰分析（Logistic Regression (LR)）、Naive－Bayes、Random Forest (RF)、ニューラルネットワーク（neural networks (NN)）、マトリクス因数分解、Support Vector Machines (SVM)ツールが、ジョブポスティングを分類又はスコアリングするために使用されてよい。

機械学習における２つの共通の種類の問題は、分類問題及び回帰問題である。分類問題は、カテゴリ分類問題とも呼ばれ、幾つかのカテゴリ値のうちの１つにアイテムを分類することを目的とする（例えば、このオブジェクトはリンゴかオレンジか）。回帰アルゴリズムは、幾つかのアイテムを量子化することを目的とする（例えば、実数である値を提供することによる）。機械学習アルゴリズムは、トレーニングデータ１１２を利用して、結果に影響を与える、識別された特徴１０２の間の相関を発見する。

機械学習アルゴリズムは、データを分析して評価１２０を生成するために、特徴１０２を利用する。特徴１０２は、観察されている現象の個々の測定可能な特性である。特徴の概念は、線形回帰で使用される説明変数の概念に関連する。パターン認識、分類、及び回帰におけるＭＬＰの効率的な動作のためには、知識の豊富な識別力のある独立した特徴が重要である。特徴は、数値的特徴、文字列、及びグラフのような異なるタイプのものであってよい。

１つの例示的な実施形態では、特徴１０２は、異なるタイプのものであってよく、メッセージ１０３の単語のうちの１つ以上、メッセージ概念１０４、通信履歴１０５、過去のユーザの挙動１０６、メッセージの主題１０７、他のメッセージ属性１０８、送信者１０９、及びユーザデータ１１０であってよい。

機械学習アルゴリズムは、トレーニングデータ１１２を利用して、結果又は評価１２０に影響を与える、識別された特徴１０２の間の相関を発見する１２０。幾つかの例示的な実施形態では、トレーニングデータ１１２は、通信パターンを検出する、メッセージの意味を検出する、メッセージの要約を生成する、メッセージ内のアクションアイテムを検出する、メッセージ内の緊急性を検出する、ユーザと送信者との関係を検出する、スコア属性を計算する、メッセージスコアを計算する、等のような、１つ以上の識別された特徴１０２及び１つ以上の評価について知られているデータであるラベル付きデータを含む。

動作１１４で、トレーニングデータ１１２及び識別された特徴１０２により、機械学習ツールがトレーニングされる。機械学習ツールは、特徴１０２がトレーニングデータ１１２に関連するとき、特徴１０２の価値を鑑定する。トレーニングの結果は、トレーニング済み機械学習プログラム１１６である。

機械学習プログラム１１６が評価を実行するために使用されるとき、新しいデータ１１８は、入力として、トレーニング済み機械学習プログラム１１６に提供され、機械学習プログラム１１６は、出力として評価１２０を生成する。例えば、メッセージがアクションアイテムについてチェックされるとき、機械学習プログラムは、メッセージコンテンツ及びメッセージメタデータを利用して、メッセージ内にアクションについての要求が存在するかどうかを決定する。

機械学習技術は、モデルに供給されるデータについて正確に予測を行うように（例えば、所与の発言の中でユーザにより何と言われたか、名詞は人物か、場所か、又は物事か、明日の天気はどんなか）、該モデルをトレーニングする。学習段階の間、モデルは、所与の入力に対して出力を正確に予測するようモデルを最適化するために、入力のトレーニングデータセットに対して開発される。一般に、学習段階は、教師有り、半教師有り、又は教師無しであってよく、トレーニング入力に対応して「正確な」出力が提供される減少レベル（decreasing level）を示す。教師有り学習段階では、出力の全部がモデルに提供され、モデルは、入力を出力にマッピングする汎用ルール又はアルゴリズムを開発するよう仕向けられる。これに対して、教師無し学習段階では、入力に対して所望の出力は提供されない。その結果、モデルは、トレーニングデータセット内の関係を発見するために、自身のルールを開発してよい。半教師有り学習段階では、不完全なラベル付きトレーニングセットが提供され、出力のうちの幾つかはトレーニングデータセットについて知られており、幾つかは知られていない。

モデルは、幾つかのエポック（epoch）（例えば、反復）の間、トレーニングデータセットに対して実行されてよい。この間、トレーニングデータセットは、モデルの結果を精緻化するために、モデルに繰り返し供給される。例えば、教師有り学習段階では、モデルは、所与の入力セットについて出力を予測するために開発され、トレーニングデータセットについて最大数の入力に対して所与の入力に対応するとして指定された出力をより信頼性高く供給するよう、幾つかのエポックに渡り評価される。別の例では、教師無し学習段階の間、モデルは、データセットをｎ個のグループにクラスタ化するよう開発され、それが所与の入力を所与のグループにどれだけ矛盾なく配置するか、及びそれが各エポックに渡りｎ個の所望のクラスタをどれだけ信頼性高く生成するか、について幾つかのエポックに渡り評価される。

エポックが実行されると、モデルは評価され、反復的方法でモデルを一層良好に精緻化することを目的として、その変数の値が調整される。種々の態様では、評価は、偽陰性に対してバイアスされ、偽陽性に対してバイアスされ、又はモデルの全体制度に関して均一にバイアスされる。値は、使用される機械学習技術に依存して、幾つかの方法で調整されてよい。例えば、遺伝子又は進化論的アルゴリズムでは、所望の出力を予測する際に最も成功するモデルの値は、後続のエポックの間に使用すべきモデルの値を開発するために使用される。これは、追加データ点を提供するためのランダム変動／変化を含んでよい。当業者は、線形回帰、ランダムフォレスト、決定木学習、ニューラルネットワーク、深層ニューラルネットワーク、等を含む、本開示と共に適用されてよい幾つかの他の機械学習アルゴリズムに精通している。

各エポックは、入力を所望の結果により近くマッピングすることに影響を与える１つ以上の変数の値を変化することにより、幾つかのエポックに渡りルール又はアルゴリズムを開発する。しかし、トレーニングデータセットが変化することがあり、好適には非常に大きいので、完璧な精度及び予測は達成できない。従って、学習段階を構成するエポックの数は、所与の数のトライアル、又は固定時間／計算予算として設定されてよく、又は、その数／予算に達する前に、所与のモデルの精度が十分に高い又は十分に低い、又は精度の平坦域に達したとき、終了されてよい。例えば、トレーニング段階がｎ回のエポックを実行し、少なくとも９５％の精度を有するモデルを生成するよう設計され、そのようなモデルがｎ番目のエポックの前に生成された場合、学習段階は、早く終了し、最終目標精度閾値を満たす生成されたモデルを使用してよい。同様に、所与のモデルが、ランダム確率閾値を満たすほど不正確である場合（例えば、所与の入力について真／偽の出力を決定する際に、モデルが５５％だけ正確である）、そのモデルについての学習段階は、早く終了されてよいが、学習段階にある他のモデルはトレーニングを継続してよい。同様に、所与のモデルが複数のエポックに渡り同様の精度を提供し続ける又はその結果が揺らぐとき、性能平坦域に達しており、所与のモデルの学習段階は、エポック数／計算予算に達する前に終了してよい。

学習段階が完了すると、モデルはファイナライズされる。幾つかの例示的な実施形態では、ファイナライズされたモデルは、テスト基準に対して評価される。第１の例では、入力に対して知られている出力を含むテストデータセットが、ファイナライズされたモデルに供給され、トレーニングされていないデータを処理する際のモデルの精度を決定する。第２の例では、偽陽性率又は偽陰性率が、ファイナライズ後のモデルを評価するために使用されてよい。第３の例では、データクラスタ化の間の描写が、データのクラスタの最も明確な境界を生成するモデルを選択するために使用される。

図２は、幾つかの実施形態による例示的なニューラルネットワーク２０４を示す。図示のように、ニューラルネットワーク２０４は、入力として、ソースドメインデータ２０２を受信する。入力は、出力に到達するまで、複数の層２０６を通過する。各層は、複数のニューロン２０８を含む。ニューロン２０８は前の層のニューロンから入力を受信し、ニューロン出力を生成するために、これらのニューロンから受信した値に重みを提供する。最終層２０６からのニューロン出力は、ニューラルネットワーク２０４の出力を生成するために結合される。

図２の下に示すように、入力はベクトルｘである。入力は、複数の層２０６を通過し、重みW_１、W_２、．．．、Ｗ_ｉが各層への入力に適用され、ｆ^１（ｘ）、ｆ^２（ｘ）、．．．、ｆ^ｉ－１（ｘ）に到達し、最後に出力ｆ（ｘ）に達するまで続く。

幾つかの例示的な実施形態では、ニューラルネットワーク２０４（例えば、深層学習、深層畳み込み、又はリカレントニューラルネットワーク）は、長短期記憶（Long Short Term Memory (LSTM)）ノードのような、ネットワークに構成された一連のニューロン２０８を含む。ニューロン２０８は、データ処理及び人工知能、特に機械学習で使用される構造要素（architectural element）であり、所与のニューロン２０８に提供される入力の重みに基づき、メモリ内に保持された値をいつ「想起」するか及びいつ「忘却」するかを決定してよいメモリを含む。ここで使用されるニューロン２０８の各々は、ニューラルネットワーク２０４内の他のニューロン２０８から所定の数の入力を受け入れ、分析中のフレームの内容について関係及びサブ関係出力を提供するよう構成される。個々のニューロン２０８は、ニューラルネットワークの種々の構成の中で、一緒に繋がれ及び／又は木構造に組織化されて、発言の中のフレームの各々が互いにどれ位関係しているかについて、相互作用及び関係学習モデル化を提供してよい。

例えば、ニューロンとして機能するＬＳＴＭは、入力ベクトル（例えば、発言からの音素）、メモリセル、及び出力ベクトル（例えば、文脈上の表現）を処理するための幾つかのゲートを含む。入力ゲート及び出力ゲートは、それぞれメモリセルに流れ込む又は流れ出す情報を制御し、一方で、忘却ゲートは、任意で、ニューラルネットワークの中の前のリンクされたセルからの入力に基づき、メモリセルから情報を除去する。種々のゲートの重み及びバイアスベクトルは、トレーニング段階を通じて調整され、トレーニング段階が完了すると、これらの重み及びバイアスは通常の動作のためにファイナライズされる。当業者は、ニューロン及びニューラルネットワークがプログラムで（例えば、ソフトウェア命令により）又はニューラルネットワークを形成するよう各ニューロンをリンクする専用ハードウェアにより構成されてよいことを理解する。

ニューラルネットワークは、データを分析するために特徴を利用して、評価を生成する（例えば、会話の単位を認識する）。特徴は、観察されている現象の個々の測定可能な特性である。特徴の概念は、線形回帰で使用される説明変数の概念に関連する。更に、深層特徴は、深層ニューラルネットワークの隠れ層にあるノードの出力を表す。

ニューラルネットワークは、しばしば人工ニューラルネットワークと呼ばれ、動物の脳の生物学的神経網の考慮に基づく計算システム／機器である。このようなシステム／機器は、標準的にはタスク特有のプログラミングを有しないでタスクを実行するための性能を向次第に上し、これは学習と呼ばれる。例えば、画像認識では、ニューラルネットワークは、オブジェクトの名称によりタグ付けされ、オブジェクト及び名称を学習したサンプル画像を分析することにより、該オブジェクトを含む画像を識別するよう教えられてよく、分析結果を用いてタグ付けされていない画像内の該オブジェクトを識別してよい。ニューラルネットワークは、ニューロンと呼ばれる接続されたユニットの集合に基づき、ニューロンの間の各接続はシナプスと呼ばれ、接続の強度と共に変化する活性化強度を有する単方向信号を送信できる。受信側ニューロンは、標準的に、多数の送信側ニューロンからである場合がある結合された入力信号が十分な強度であるかどうかに基づき、活性化し、自身に接続された信号を下流のニューロンへと伝播できる。ここで、強度はパラメータである。

深層ニューラルネットワーク（deep neural network (DNN)）は、複数の層で構成される積層型ニューラルネットワークである。層はノードで構成される。ノードは、計算の生じる場所にあり、人間の脳内のニューロン上で大まかにパターン化され、十分な刺激に遭遇すると発火する。ノードは、データからの入力を、係数又は重みのセットと結合する。係数及び重みは、該入力を増幅し又は冷まし（dampen）、アルゴリズムが学習しようとしているタスクの入力に重要度を割り当てる。これらの入力－重みの積は加算され、和はノードの活性化関数と呼ばれるものを通過し、最終的な結果に影響を与えるためにその信号がネットワークを通じて更に進むかどうか及びどの程度進むかを決定する。ＤＮＮは、特徴抽出及び変換のために、非線形処理ユニットの多数の層のカスケードを用いる。各連続する層は、前の層からの出力を入力として使用する。高レベルの特徴は、低レベルの特徴から導出され、階層的表現を形成する。入力層に続く層は、入力の結果をフィルタリングし及び次の畳み込み層により使用される特徴マップを生成する畳み込み層であってよい。

ＤＮＮアーキテクチャのトレーニングでは、変数の間の関係を推定する統計的処理のセットとして構造化される回帰（regression）は、コスト関数の最小化を含み得る。コスト関数は、ニューラルネットワークがトレーニング例を正しい出力にマッピングする際にどれ位良好に実行したかを表す数値を返す関数として実装されてよい。トレーニングでは、コスト関数値が所定の範囲内にない場合、既知のトレーニング画像に基づき、逆伝播が使用される。ここで、逆伝播は、確率的勾配降下法（stochastic gradient descent (SGD)）法のような最適化方法と共に使用される人工ニューラルネットワークをトレーニングする一般的な方法である。

逆伝播の使用は、伝播及び重み更新を含むことができる。入力がニューラルネットワークに提示されると、それは、ニューラルネットワークを通じて、層毎に、出力層に達するまで、順方向に伝播される。ニューラルネットワークの出力は、次に、コスト関数を用いて所望の出力と比較され、誤り値は、出力層の中のノードの各々について計算される。誤り値が、出力から開始して、各ノードが元の出力への貢献を大まかに表す関連する誤り値を有するまで、逆方向に伝播される。逆伝播は、これらの誤り値を使用して、ニューラルネットワーク内の重みに関して、コスト関数の勾配を計算できる。計算された勾配は、選択された最適化方法に供給され、コスト関数を最小化するよう重みを更新する。

図３は、幾つかの実施形態による、画像認識機械学習プログラムのトレーニングを示す。機械学習プログラムは、１つ以上の計算機において実施されてよい。ブロック３０２は、複数のクラス３０４を含むトレーニングセットを示す。各クラス３０４は、クラスに関連付けられた複数の画像３０６を含む。各クラス３０４は、画像３０６内のオブジェクトのタイプ（例えば、数字０～９、男性又は女性、猫又は犬、等）に対応してよい。一例では、機械学習プログラムは、アメリカ合衆国の大統領の画像を認識するようトレーニングされ、各クラスは各大統領に対応する（例えば、１つのクラスはドナルド・トランプに対応し、１つのクラスはバラク・オバマに対応し、１つのクラスはジョージ・W・ブッシュに対応する、等である）。ブロック３０８で、機械学習プログラムは、例えば、深層ニューラルネットワークを用いてトレーニングされる。ブロック３１０で、ブロック３０８のトレーニングにより生成されたトレーニング済み分類器は、画像３１２を認識し、ブロック３１４で、画像が認識される。ブロック３１４で、例えば、画像３１２がビル・クリントンの写真である場合、分類器は、ビル・クリントンに対応するとして画像を認識する。

図３は、幾つかの例示的な実施形態による、分類器のトレーニングを示す。機械学習アルゴリズムは、顔を認識するために設計されえ、トレーニングセット３０２は、サンプルをクラス３０４にマッピングするデータを含む（例えば、クラスは財布の全部の画像を含む）。クラスは、ラベルと呼ばれてもよい。ここに提示される実施形態は、オブジェクト認識を参照して提示されるが、同じ原理が、任意のタイプのアイテムを認識するために使用される機械学習プログラムをトレーニングするために適用されてよい。

トレーニングセット３０２は、クラス３０４毎に複数の画像３０６（例えば、画像３０６）を含み、各画像は認識されるべきカテゴリのうちの１つ（例えばクラス）に関連付けられる。機械学習プログラムは、画像を認識するよう動作する分類器３１０を生成するためにトレーニングデータによりトレーニングされる３０８。幾つかの例示的な実施形態では、機械学習プログラムはＤＮＮである。

入力画像３１２が認識されるべきであるとき、分類器３１０は、入力画像３１２を分析して、入力画像３１２に対応するクラス（例えば、クラス３１４）を識別する。

図４は、幾つかの例示的な実施形態による、特徴抽出処理及び分類器トレーニングを示す。分類器のトレーニングは、特徴抽出層４０２及び分類器層４１４に分けられてよい。各画像は、特徴抽出層４０２の中の複数の層４０６～４１３により順に分析される。

深層畳み込みニューラルネットワークの発展につれ、顔認識における焦点は、同じ人物の顔が互いに近くにあり及び異なる人物の顔が互いに遠く離れている、良好な顔特徴空間を学習ことになっている。例えば、ＬＦＷ（Labeled Faces in the Wild）データセットによる検証タスクが、顔検証のために使用されていることが多い。

多くの顔識別タスク（例えば、MegaFace及びLFW）は、ギャラリーセット及びクエリセットの中の画像間の類似性比較に基づき、これは、基本的に、人物の同一性を推定するＫ最近傍法（K－nearest－neighborhood (KNN)）である。理想的な場合には、良好な顔特徴抽出器（クラス間距離がクラス内距離よりも常に大きい）が存在し、人物の同一性を推定するためにＫＮＮ法が適切である。

特徴抽出は、大きなデータセットを記述するために必要なリソースの量を削減するための処理である。複雑なデータの分析を実行するとき、主な問題のうちの１つは、関連する変数の数に起因する。膨大な数の変数による分析は、一般に、大容量のメモリ及び計算能力を必要とし、それは、分類アルゴリズムをトレーニングサンプルに過剰適合させ、新しいサンプルへの一般化が不十分になる可能性がある。特徴抽出は、これらの大規模データセットの問題を回避するために変数の組合せ成する方法を記述し、一方で所望の目的のための十分な精度でデータを記述する一般用語である。

幾つかの例示的な実施形態では、特徴抽出は、測定データの初期セットから開始し、情報を与え及び重複しないことを意図した導出値（特徴）を構築して、後の学習及び一般化ステップを実現する。更に、特徴抽出は、大きなベクトル（時に非常に粗いデータを有する）を同じ若しくは同様の情報量をキャプチャする小さなベクトルへと縮小するような、次元の削減に関連する。

初期特徴の部分集合を決定することは、特徴選択と呼ばれる。選択された特徴は、入力データからの関連情報を含むことが期待される。その結果、所望のタスクは、完全な初期データの代わりに、この縮小された表現を用いて実行できる。ＤＮＮは、層のスタックを利用する。ここで、各層は関数を実行する。例えば＜層は、畳み込み、非線形変換、平均の計算、等であり得る。最終的に、このＤＮＮは、分類器４１４による出力を生成する。図４で、データは左から右へと移動し、特徴が抽出される。ニューラルネットワークをトレーニングする目的は、全部の層が所望のタスクに適切なるよう、全部の層のパラメータを発見することである。

図４に示すように、「ストライド４」フィルタは層４０６７に適用され、最大プーリングは層４０７～４１３に適用される。ストライドは、フィルタが入力ボリュームに対してどれ位畳み込むかを制御する。「ストライド４」は、フィルタが入力ボリュームについて、一度に４ユニット畳み込むことを表す。最大プーリングは、各最大プーリング領域の中で、最大値を選択することにより、ダウンサンプリングすることを表す。

幾つかの例示的な実施形態では、各層の構造は予め定められる。例えば、畳み込み層は、小さな畳み込みカーネル及びそれらそれぞれの畳み込みパラメータを含んでよく、合計（summation）層は、入力画像の２個のピクセルの和又は加重和を計算してよい。トレーニングは、合計のために重み係数を定義する際に助けとなる。

ＤＮＮの性能を向上する１つの方法は、特徴抽出層の更に新しい構造を識別することである。別の方法は、所望のタスクを達成するために異なる層においてパラメータが識別される方法を向上することによる。課題は、標準的なニューラルネットワークでは、最適化されるべき数百万個ものパラメータがあることである。スクラッチからこれらのパラメータ全部を最適化しようとすることは、利用可能な計算リソース及びトレーニングセットの中のデータ量に依存して、何時間、何日、又は何週間も要することがある。

図５は、幾つかの実施形態による計算機５００のブロック図を示す。幾つかの実施形態では、計算機５００は、図５の回路ブロック図に示されるコンポーネントを格納してよい。例えば、回路５００は、プロセッサ５０２内に存在してよく、「処理回路」と呼ばれてよい。代替の実施形態では、計算機５００は、独立型装置として動作してよく、又は他のコンピュータに接続され（例えばネットワーク接続され）てよい。ネットワーク接続された展開では、計算機５００は、サーバ－クライアント環境におけるサーバ、クライアント、又はその両者の能力で動作してよい。例では、計算機５００は、ピアツーピア（peer－to－peer (P２P)）（又は他の分散型）ネットワーク環境におけるピアマシンとして動作してよい。本願明細書では、フレーズＰ２Ｐ、装置間（device－to－device (D２D)）及びサイドリンクは、同義的に使用されてよい。計算機５００は、専用コンピュータ、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話機、スマートフォン、ウェブ設備、ネットワークルータ、スイッチ、若しくはブリッジ、又は機械により行われるべきアクションを指定する（シーケンシャル又はその他の）命令を実行可能な任意の機械、であってよい。

本願明細書に記載されるような例は、ロジック又は多数のコンポーネント、モジュール、又はメカニズムを含んでよく又はその上で動作してよい。モジュール及びコンポーネントは、指定された動作を実行可能な有形エンティティ（例えばハードウェア）であり、特定の方法で構成され又は配置されてよい。例では、回路は、特定の方法でモジュールとして（例えば、内部に、又は他の回路のような外部エンティティに関して）配置されてよい。例では、１つ以上のコンピュータシステム／機器（例えば、独立型、クライアント又はサーバコンピュータシステム）の全体又は部分、又は１つ以上のハードウェアプロセッサは、指定された動作を実行するよう動作するモジュールとしてファームウェアまたはソフトウェア（例えば、命令、アプリケーション部分、又はアプリケーション）により構成されてよい。例では、ソフトウェアは、機械可読媒体上に存在してよい。例では、ソフトウェアは、モジュールの基礎にあるハードウェアにより実行されると、ハードウェアに指定された動作を実行させる。

従って、用語「モジュール」（及び「コンポーネント」）は、特定の方法で動作するよう又はここに記載した任意の動作のうちの一部又は全部を実行するよう物理的に構成された、具体的に構成された（例えばハードワイヤド）、又は一時的に（例えば、過渡的に）構成された（例えば、プログラムされた）エンティティである有形エンティティを包含すると理解される。モジュールが一時的に構成される例を考えると、モジュールの各々は、任意のある瞬間にインスタンス化される必要がない。例えば、モジュールがソフトウェアを用いて構成される汎用ハードウェアプロセッサを含む場合、汎用ハードウェアプロセッサは、異なる時間にそれぞれ異なるモジュールとして構成されてよい。ソフトウェアは、従って、例えば、ある時点に特定のモジュールを構成し、異なる時点で異なるモジュールを構成するよう、ハードウェアプロセッサを構成してよい。

計算機５００は、ハードウェアプロセッサ５０２（例えば、中央処理ユニット（ＣＰＵ）、ＧＰＵ、ハードウェアプロセッサコア、又はそれらの任意の組合せ）、メインメモリ５０４、及び静的メモリ５０６を含んでよく、これらの一部又は全部は、互いに内部リンク（例えば、バス）５０８を介して通信してよい。図示しないが、メインメモリ５０４は、取り外し可能記憶及び非取り外し可能記憶、揮発性記憶又は不揮発性記憶のうちのいずれか又は全部を含んでよい。計算機５００は、ビデオディスプレイユニット５１０（又は他のディスプレイユニット）、英数字入力装置５１２（例えば、キーボード）、及びユーザインタフェース（ＵＩ）ナビゲーション装置５１４（例えば、マウス）を更に含んでよい。例では、ディスプレイユニット５１０、入力装置５１２、及びＵＩナビゲーション装置５１４は、タッチスクリーンディスプレイであってよい。計算機５００は、更に、記憶装置（例えば、ドライブユニット）５１６、信号生成装置５１８（例えば、スピーカ）、ネットワークインタフェース装置５２０、及び全地球測位システム（ＧＰＳ）のような１つ以上のセンサ５２１、を含んでよい。計算機５００は、シリアル（例えば、ユニバーサルシリアルバス（ＵＳＢ）、パラレル、又は他の有線若しくは無線（例えば、赤外線（ＩＲ）、近距離通信（ＮＦＣ）、等））接続のような出力制御部５２８を含み、１つ以上の周辺装置（例えば、プリンタ、カードリーダ、等）と通信し又はそれを制御してよい。

ドライブユニット５１６（例えば、記憶装置）は、機械可読媒体５２２を含んでよい。機械可読媒体５２２には、ここに記載した技術若しくは機能のうちの任意の１つ以上を実現する又はそれにより利用される１つ以上のデータ構造若しくは命令のセット５２４（例えば、ソフトウェア）が格納される。命令５２４は、計算機５００により実行される間、完全に又は少なくとも部分的に、メインメモリ５０４内に、静的メモリ５０６内に、又はハードウェアプロセッサ５０２内に存在してもよい。例では、ハードウェアプロセッサ５０２、メインメモリ５０４、静的メモリ５０６、又は記憶装置５１６のうちの１つ又は任意の組合せは、機械可読媒体を構成してよい。

機械可読媒体５２２は単一の媒体として示されるが、用語「機械可読媒体」は、１つ以上の命令５２４を格納するよう構成された単一の媒体又は複数の媒体（例えば、集中型又は分散型データベース、及び／又は関連付けられたキャッシュ及びサーバ）を含んでよい。

用語「機械可読媒体」は、計算機５００による実行のために計算機５００に本開示の技術のうちの任意の１つ以上を実行させる命令を格納し、符号化し、又は運ぶことの可能な、又はこのような命令により使用される若しくはそれに関連付けられたデータ構造を格納し、符号化し、又は運ぶことの可能な任意の媒体を含んでよい。非限定的な機械可読媒体の例は、固体メモリ、及び光及び磁気媒体を含んでよい。機械可読媒体の特定の例は、半導体メモリ装置（例えば、ＥＰＲＯＭ（Electrically Programmable Read－Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read－Only Memory））のような不揮発性メモリ及びフラッシュメモリ装置、内蔵ハードディスク及び取り外し可能ディスクのような磁気ディスク、光磁気ディスク、ＲＡＭ（Random Access Memory）、及びＣＤ－ＲＯＭ及びＤＶＤ－ＲＯＭディスクを含んでよい。幾つかの例では、機械可読媒体は、非一時的機械可読媒体を含んでよい。幾つかの例では、機械可読媒体は、一時的に伝搬する信号ではない機械可読媒体を含んでよい。

命令５２４は、更に、多数の転送プロトコル（例えば、フレームリレー、インターネットプロトコル（ＩＰ）、ＴＣＰ（transmission control protocol）、ＵＤＰ（user datagram protocol）、ＨＴＴＰ（hypertext transfer protocol）、等）のうちの任意の１つを利用するネットワークインタフェース装置５２０を介して伝送媒体を用いて通信ネットワーク５２６を介して送信され又は受信されてよい。例示的な通信ネットワークは、特に、ＬＡＮ（local area network）、ＷＡＮ（wide area network）、パケットデータネットワーク（例えば、インターネット）、移動電話ネットワーク（例えば、セルラネットワーク）、ＰＯＴＳ（Plain Old Telephone）ネットワーク、及び無線データネットワーク（例えば、Ｗｉ－Ｆｉ（登録商標）として知られるＩＥＥＥ（Institute of Electrical and Electronics Engineers）８０２．１１標準ファミリ、ＷｉＭａｘ（登録商標）として知られるＩＥＥＥ８０２．１６標準ファミリ）、ＩＥＥＥ８０２．１５．４標準ファミリ、ＬＴＥ（Long Term Evolution）標準ファミリ、ＵＭＴＳ（Universal Mobile Telecommunications System）標準ファミリ、Ｐ２Ｐ（peer－to－peer）ネットワーク、を含んでよい。例では、ネットワークインタフェース装置５２０は、通信ネットワーク５２６に接続するための１つ以上の物理ジャック（例えば、イーサネット、同軸、又は電話ジャック）又は１つ以上のアンテナを含んでよい。

図６は、幾つかの実施形態による、人工画像生成のためのデータフロー図６００である。データフロー図６００に示すように、現実ＳＡＲ画像セット６１０は、自動エンコーダ６４０のサブエンコーダ６４１に提供される。幾つかの例では、現実ＳＡＲ画像セット６１０は、画像認識器を用いて認識されるべきターゲットオブジェクトに対応する。幾つかの例では、現実ＳＡＲ画像セット６１０は、ターゲットオブジェクトと異なる第１オブジェクトセットに対応し、第１オブジェクトセットとターゲットオブジェクトとの間の差分のセットは、ＴＳＢ画像セット６３０として表現される（ターゲットオブジェクトの現実ＳＡＲ画像は存在しなくてよい）。図示のように、データフロー図６００は、ボクセルモデル６２０を含む。ボクセルモデル６２０は、ターゲットオブジェクトの３次元（３Ｄ）格子モデルである。ボクセルモデル６２０は、ターゲットオブジェクトの端に対応する３Ｄ格子の中の位置である複数のボクセルを含む。ボクセルモデル６２０は、ターゲットオブジェクトのＴＳＢ画像セット６３０を生成するために使用される。ＴＳＢ画像セット６３０は、背景、ターゲットオブジェクト、及びターゲットオブジェクトの影の表現を含む。ターゲットオブジェクトの影の位置は、ターゲットオブジェクトのボクセルモデル６２０、背景テクスチャ、及び割り当てられ、推定され、若しくは識別された光源（例えば、ランプ又は太陽）の位置に基づき計算されてよい。

ターゲットオブジェクトのＴＳＢ画像セット６３０は、自動エンコーダ６４０に提供され、自動エンコーダ６４０はターゲットオブジェクトの人工ＳＡＲ画像６５０を生成する。図示のように、自動エンコーダは、潜在ベクトル６４２を生成するサブエンコーダ６４１を含む。潜在ベクトル６４２はサブデコーダ６４３に供給され、サブデコーダ６４３は人工ＳＡＲ画像６５０を生成する。スキップ接続６４４は、サブエンコーダ６４１からサブデコーダ６４３への直接接続を可能にする。サブエンコーダ６４１及びサブデコーダ６４３は、機械学習技術により楽手される、学習されたトレーニング重み６４５にアクセスする。サブエンコーダ６４１は、自動エンコーダ６４０のための入力：つまり、ＴＳＢ画像セット６３０及び現実ＳＡＲ画像セット６１０を受信する。

幾つかの例によると、サブエンコーダ６４１は、複数の畳み込み層と、畳み込み層が点在する複数のプーリング層と、を含む。サブエンコーダ６４１は、ＴＳＢ画像セット６３０に基づき潜在ベクトル６４２を生成するよう、第１機械学習アルゴリズムを用いてトレーニングされる。幾つかの例によると、サブデコーダ６４３は、複数の逆畳み込み層と、逆畳み込み層が点在する複数の逆プーリング層と、を含む。サブデコーダ６４３は、潜在ベクトル６４２に基づき１つ以上の人工ＳＡＲ画像６５０を生成するよう、第２機械学習アルゴリズムを用いてトレーニングされる。

自動エンコーダ６４０は、ＪＳＯＮ（JavaScript Object Notation）又は任意の他のプログラミング言語で符号化されてよい。幾つかの例では、自動エンコーダ６４０は、ハードウェア装置であってよく、又は自動エンコーダは部分的にソフトウェア及び部分的にハードウェアであってよい。

幾つかの例では、サブエンコーダ６４１は、複数の畳み込みプールを含む。各畳み込みプールは、その後にバッチ正規化が続く。各バッチ正規化は、その後にＲｅＬＵ（rectified linear unit）が続く。更に、サブエンコーダ６４１の各畳み込みプールのカーネルサイズは、サブエンコーダ６４１の前の畳み込みプールのカーネルサイズより大きい。

幾つかの例では、サブデコーダ６４３は、複数のスキップ接続を含む。各スキップ接続は、その後にバッチ正規化が続く。各バッチ正規化は、その後にＲｅＬＵが続く。各ＲｅＬＵは、その後に復号畳み込みが続く。更に、サブデコーダ６４３の各復号畳み込みのカーネルサイズは、サブデコーダ６４３の前の復号畳み込みのカーネルサイズより小さい。

ＪＳＯＮコードは、自動エンコーダ６４０のために使用されてよい。しかしながら、留意すべきことに、自動エンコーダ６４０を実装するために別のプログラミング言語が使用されてよい。幾つかの例では、自動エンコーダ６４０は、完全に又は部分的にハードウェアで実装される。

図７は、幾つかの実施形態による、現実及び人工画像を用いて画像認識器をトレーニングするためのデータフロー図である。図示のように、現実及び人工画像は、図６の現実ＳＡＲ画像６１０及び人工ＳＡＲ画像６５０に対応してよい。現実ＳＡＲ画像６１０及び人工ＳＡＲ画像６５０は、ターゲットオブジェクトを認識するよう画像認識器７１０をトレーニングするために、画像認識器７１０に提供される。画像認識器７１０は、ＲｅｓＮｅｔ（residual neural network）であってよく、ＲｅｓＮｅｔをトレーニングするたえｍに任意の技術が使用されてよい。幾つかの例では、ターゲットオブジェクトの現実ＳＡＲ画像６１０が存在しない場合（又は現実ＳＡＲ画像６１０がターゲットオブジェクトと異なる第１オブジェクトセットに対応する）、人工ＳＡＲ画像６５０（現実ＳＡＲ画像６１０ではない）のみが、機械学習技術を用いるトレーニングの間に学習され得る画像認識器トレーニング重み７２０と関連して、画像認識器７１０をトレーニングするために使用される。トレーニングの後に、画像認識器７１０は、画像認識器７１０がトレーニングされたことの指示を出力してよい。画像認識器７１０がトレーニングされた後に、画像認識器７１０は、ターゲットオブジェクトの画像を認識するために及び／又は画像内のターゲットオブジェクトを認識するために使用されてよい。

図８は、幾つかの実施形態による、人工画像生成のための第１方法８００のフローチャートである。方法８００は、計算機５００のような計算機において実施されてよい。

動作８１０で、計算機は、ターゲットオブジェクトのボクセルモデル６２０を受信する。ターゲットオブジェクトは、画像認識器７１０を用いて認識される。

動作８２０で、計算機は、ボクセルモデル６２０に基づき、ターゲットオブジェクトのＴＳＢ画像セット６３０を生成する。

動作８３０で、計算機は、自動エンコーダ６４０において、ターゲットオブジェクトの現実画像セット６１０を受信する。

動作８４０で、計算機は、自動エンコーダを用いて、ＴＳＢ画像セット６３０に基づき、ターゲットオブジェクトの１つ以上の人工ＳＡＲ画像６５０を生成する。自動エンコーダ６４０は、サブエンコーダ６４１を用いて、ＴＳＢ画像セット６３０を潜在ベクトル６４２に符号化する。自動エンコーダ６４０は、サブデコーダ６４３を用いて、潜在ベクトル６４２を復号して、１つ以上の人工ＳＡＲ画像６５０を生成する。

動作８５０で、計算機は、ターゲットオブジェクトの生成された１つ以上の人工ＳＡＲ画像６５０を出力として提供する。幾つかの例では計算機は、現実ＳＡＲ画像セット６１０及び１つ以上の人工ＳＡＲ画像６５０を用いて、ターゲットオブジェクトを認識するよう画像認識器７１０をトレーニングする。計算機は、出力として、画像認識器がトレーニングされたことの指示を提供する。計算機は、画像認識器を用いて、ターゲットオブジェクトの新しい画像を認識してよい。ここで、新しい画像は、現実ＳＡＲ画像セット６１０及び／又は１つ以上の人工ＳＡＲ画像６５０の中からではない。動作８５０の後に、方法８００は終了する。

図９は、幾つかの実施形態による、人工画像生成のための第２方法９００のフローチャートである。方法９００は、計算機５００のような計算機において実施されてよい。方法９００の動作９１０～９５０の幾つかは、方法８００の対応する動作８１０～８５０と同様であってよく、以下及び図８～９に示す相違点を有する。

動作９１０で、計算機は、ターゲットオブジェクト６２０と異なる第１オブジェクトセットのボクセルモデルを受信する。ターゲットオブジェクトは、画像認識器７１０を用いて認識される。幾つかの例では、ターゲットオブジェクトの利用可能な画像が非常に少ない又は全く無い。幾つかの例では、受信した入力は、ターゲットオブジェクトの現実ＳＡＲ画像を欠いている。留意すべきことに、ターゲットオブジェクトは第１オブジェクトセットと異なるが、ターゲットオブジェクト及び第１オブジェクトセットは、複数の類似する特徴を共有してよく、幾つかの例ではほんの僅かな違いである。例えば、２０１８年末に、ホンダＡｃｃｏｒｄ２０１９（登録商標）が発売されたとき、第１オブジェクトセットは（多数の画像が存在する）ホンダＡｃｃｏｒｄ（登録商標）２０１８に対応してよく、ターゲットオブジェクトはホンダＡｃｃｏｒｄ２０１９（登録商標）（その画像は未だ若しくは少数しか存在しないが、２０１８と２０１９ホンダＡｃｃｏｒｄモデルの間の差分セットは本田技研工業（登録商標）から発表されている）に対応してよい。

動作９２０で、計算機は、ボクセルモデル６２０に基づき、第１オブジェクトセットのＴＳＢ画像セット６３０を生成する。

動作９３０で、計算機は、自動エンコーダ６４０において、第１オブジェクトセットの現実ＳＡＲ画像セット６１０を受信する。

動作９４０で、計算機は、自動エンコーダ６４０を用いて、ＴＳＢ画像セット６３０に基づき、ターゲットオブジェクトの１つ以上の人工ＳＡＲ画像６５０を生成する。ボクセルモデル６２０及びＴＳＢ画像セット６３０は、第１オブジェクトセットのものである。幾つかの例では、トレーニング中に、自動エンコーダは、ターゲットオブジェクトと第１オブジェクトセットとの間の差分を学習する。学習した差分は、ＴＳＢ画像セット６３０と関連して格納されてよい。自動エンコーダ６４０は、サブエンコーダ６４１を用いて、ＴＳＢ画像セット６３０（これは幾つかの例では第１オブジェクトセットとターゲットオブジェクトとの間の差分を含んでよい）を潜在ベクトル６４２に符号化する。自動エンコーダ６４０は、サブデコーダ６４３を用いて、潜在ベクトル６４２を復号して、１つ以上の人工ＳＡＲ画像６５０を生成する。

動作９５０で、計算機は、ターゲットオブジェクトの生成された１つ以上の人工ＳＡＲ画像６５０を出力として提供する。幾つかの例では計算機は、１つ以上の人工ＳＡＲ画像６５０を用いて、ターゲットオブジェクトを認識するよう画像認識器７１０をトレーニングする。計算機は、出力として、画像認識器がトレーニングされたことの指示を提供する。計算機は、画像認識器を用いて、ターゲットオブジェクトの新しい画像を認識してよい。ここで、新しい画像は、１つ以上の人工ＳＡＲ画像６５０の中からではない。新しい画像は、画像認識器のトレーニングより後の時間に生成されてよい。例えば、ホンダＡｃｃｏｒｄ２０１９の新しい画像は、２０２０年の夏の間に生成されてよい。動作９５０の後に、方法９００は終了する。

実施形態は特定の例示的な実施形態を参照して説明されたが、本開示の広範な精神及び範囲から逸脱することなく種々の変更及び変化がこれらの実施形態に対して行われてよいことが明らかである。従って、明細書及び図面は、限定的意味ではなく説明的意味で考えられるべきである。本願明細書の一部を形成する添付の図面は、例示により、限定ではなく、主題の実施され得る特定の実施形態を示す。図示の実施形態は、当業者がここに開示した技術を実施できる程度に十分に詳細に記載される。他の実施形態が利用され及びそれから導出されてよく、従って、本開示の範囲から逸脱することなく構造的、論理的、及び電気的変更が行われてよい。この詳細な説明は、従って、限定的意味として取られるのではなく、種々の実施形態の範囲は、このような請求の範囲が権利を与えられる均等物の全範囲と共に、添付の請求の範囲によってのみ定められる。

特定の実施形態がここに図示され説明されたが、理解されるべきことに、同じ目的を達成するために計算される任意の構成が示された特定の実施形態の代わりに用いられてよい。本開示は、種々の実施形態の任意の及び全部の適応又は変形をカバーすることを意図する。上述の実施形態の組合せ、及びここに特に記載されない他の実施形態は、上述の説明を参照することにより当業者に明らかである。

本願明細書では、用語「a」又は「an」は、特許文書で一般的であるように、「少なくとも１つ」又は「１つ以上」の任意の他の例又は使用と独立して、１つ又は１つより多くを含むよう使用される。本願明細書では、用語「又は」は、非排他的であることを表すために使用される。従って、「A又はB」は、特に断りの無い限り、「AであるがBではない」、「BであるがAではない」、及び「Ａ及びＢ」、を含む。本願明細書では、用語「含む（including）」及び「その中で（in which）」は、それぞれの用語「comprising」及び「wherein」の平文の英語の均等語として使用される。また、以下の請求項では、用語「including」及び「comprising」は、非限定であり、つまり、そのような用語の後に請求項の中で列挙されたものに追加して要素を含むシステム、ユーザ機器（ＵＥ）、アーティクル、組成、式、又は処理が、依然としてその請求項の範囲内に包含されることと考えらる。更に、以下の請求の範囲では、用語「第１」、「第２」及び「第３」等は、単にラベルとして使用され、それらのオブジェクトに数値的な要件を課すことを意図しない。

本開示の要約は、読者が技術的開示の特性を素早く評価することを可能にするために提供される。それは、請求項の範囲又は意味を解釈し又は限定するために使用されるものではないことが理解される。更に、前述の詳細な説明では、本開示を合理化する目的で、種々の特徴が単一の実施形態に一緒にグループ化されることが分かる。本開示のこの方法は、請求される実施形態が各請求項に明示的に記載されたものより多くの特徴を要求するという意図を反映するものと解釈されるべきではない。むしろ、以下の請求項が反映するように、本発明の主題は、単一の開示された実施形態の全部よりも少ない特徴にある。従って、以下の請求の範囲は、ここで詳細な説明に組み込まれ、各請求項は別個の実施形態としてそれ自体独立である。

Claims

画像処理機器であって、前記機器は、
処理回路とメモリとを含み、前記処理回路は、
ターゲットオブジェクトと異なる第１オブジェクトセットのボクセルモデルを受信し、前記ターゲットオブジェクトは、画像認識器を用いて認識されるべきものであり、
前記ボクセルモデルに基づき、前記第１オブジェクトセットのＴＳＢ（target shadow background－mask）画像セットを生成し、
自動エンコーダで、前記第１オブジェクトセットの現実画像セットを受信し、
前記自動エンコーダを用いて、前記ＴＳＢ画像セットに基づき、前記ターゲットオブジェクトの１つ以上の人工画像を生成し、前記自動エンコーダは、サブエンコーダを用いて、前記ＴＳＢ画像セットを潜在ベクトルに符号化し、サブデコーダを用いて、前記潜在ベクトルを復号して前記１つ以上の人工画像を生成し、
出力として、前記ターゲットオブジェクトの前記生成された１つ以上の人工画像を提供する、機器。
前記サブエンコーダは、複数の畳み込み層と、前記畳み込み層が点在する複数のプーリング層と、を含み、
前記サブエンコーダは、機械学習トレーニングアルゴリズムを用いて、前記ＴＳＢ画像セットに基づき前記潜在ベクトルを生成するようトレーニングされる、請求項１に記載の機器。
前記サブデコーダは、複数の逆畳み込み層と、前記逆畳み込み層が点在する複数の逆プーリング層と、を含み、
前記サブデコーダは、機械学習トレーニングアルゴリズムを用いて、前記潜在ベクトルに基づき前記１つ以上の人工画像を生成するようトレーニングされる、請求項１に記載の機器。
前記処理回路は、更に、
前記生成された１つ以上の人工画像を用いて、前記ターゲットオブジェクトを認識するよう前記画像認識器をトレーニングし、
前記画像認識器がトレーニングされたことの指示を出力として提供する、
請求項１に記載の機器。
前記処理回路は、更に、前記トレーニングされた画像認識器を用いて、前記ターゲットオブジェクトの新しい画像を認識する、請求項４に記載の機器。
前記画像認識器は、ＲｅｓＮｅｔ（residual neural network）を含む、請求項４に記載の機器。
前記サブエンコーダは、複数の畳み込みプールを含み、各畳み込みプールの後に、バッチ正規化が続き、各バッチ正規化の後に、ＲｅＬＵ（rectified linear unit）が続く、請求項１に記載の機器。
各畳み込みプールのカーネルサイズは、前の畳み込みプールのカーネルサイズより大きい、請求項７に記載の機器。
前記サブデコーダは、複数のスキップ接続を含み、各スキップ接続の後に、バッチ正規化が続き、各バッチ正規化の後に、ＲｅＬＵ（rectified linear unit）が続き、各ＲｅＬＵの後に復号畳み込みが続く、請求項１に記載の機器。
各復号畳み込みのカーネルサイズは、前の復号畳み込みのカーネルサイズより小さい、請求項９に記載の機器。
画像処理のための非一時的機械可読媒体であって、前記機械可読媒体は命令を格納し、前記命令は、１つ以上の機械の処理回路により実行されると、前記処理回路に、
ターゲットオブジェクトと異なる第１オブジェクトセットのボクセルモデルを受信させ、前記ターゲットオブジェクトは、画像認識器を用いて認識されるべきものであり、
前記ボクセルモデルに基づき、前記第１オブジェクトセットのＴＳＢ（target shadow background－mask）画像セットを生成させ、
自動エンコーダで、前記第１オブジェクトセットの現実画像セットを受信させ、
前記自動エンコーダを用いて、前記ＴＳＢ画像セットに基づき、前記ターゲットオブジェクトの１つ以上の人工画像を生成させ、前記自動エンコーダは、サブエンコーダを用いて、前記ＴＳＢ画像セットを潜在ベクトルに符号化し、サブデコーダを用いて、前記潜在ベクトルを復号して前記１つ以上の人工画像を生成し、
出力として、前記ターゲットオブジェクトの前記生成された１つ以上の人工画像を提供させる機械可読媒体。
前記サブエンコーダは、複数の畳み込み層と、前記畳み込み層が点在する複数のプーリング層と、を含み、
前記サブエンコーダは、機械学習トレーニングアルゴリズムを用いて、前記ＴＳＢ画像セットに基づき前記潜在ベクトルを生成するようトレーニングされる、請求項１１に記載の機械可読媒体。
前記サブデコーダは、複数の逆畳み込み層と、前記逆畳み込み層が点在する複数の逆プーリング層と、を含み、
前記サブデコーダは、機械学習トレーニングアルゴリズムを用いて、前記潜在ベクトルに基づき前記１つ以上の人工画像を生成するようトレーニングされる、請求項１１に記載の機械可読媒体。