JP2022507144A

JP2022507144A - 人工画像生成用コンピュータアーキテクチャ

Info

Publication number: JP2022507144A
Application number: JP2021525568A
Authority: JP
Inventors: キム，ピーター; キラー，ライアン; アール．チャベス，ジェイソン; エス．バーリン，マーク; ジェイ．サンド，マイケル
Original assignee: Raytheon Co
Current assignee: Raytheon Co
Priority date: 2018-11-27
Filing date: 2019-08-23
Publication date: 2022-01-18
Anticipated expiration: 2039-08-23
Also published as: JP7214863B2; US11195053B2; EP3888008A1; US20200167605A1; WO2020112188A1

Abstract

人工画像生成のためのコンピュータアーキテクチャが開示される。いくつかの態様によれば、計算機５００は、ターゲット対象のボクセルモデル６２０を受信する。ターゲット対象は、画像認識装置７１０を使用して認識される。計算機５００は、ボクセルモデルに基づいて、ターゲット対象のTSB （ターゲットシャドウバックグラウンドマスク）画像のセット６３０を生成する。計算機５００は、自動エンコーダ６４０において、ターゲット対象の実画像のセット６１０を受信する。計算機は、自動エンコーダを使用して、実画像のセットに基づいて、TSB画像のセットに基づきターゲット対象の１つ以上の人工画像を生成する。計算機は、出力として、生成されたターゲット対象の１つ以上の人工画像６５０を提供する。人工画像形成のための非一時的な機械可読媒体も開示される。

Description

本出願は、２０１８年１１月２７日に出願された米国仮特許出願第６２／７７１,８０２号「COMPUTER ARCHITECTURE FOR ARTIFICIAL
IMAGE GENERATION」に対する米国特許法第１１９条に基づく優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。

複数の実施形態が、コンピュータアーキテクチャに関する。いくつかの実施形態は、機械学習のためのコンピュータアーキテクチャに関する。いくつかの実施形態は、機械学習に使用するための人工画像を生成するためのコンピュータアーキテクチャに関する。

機械学習は、画像認識などの多くの目的に有用である。場合によっては、所与の対象の画像を認識するために、機械を訓練するため多数の画像が利用可能である。ただし、他の対象では、画像がほとんどないか、画像がまったくない場合がある。前述したように、機械学習を用いて、所与の対象の利用可能な画像がほとんど又は全くない場合に、所与の対象を認識するように機械を訓練することが望ましい場合がある。

いくつかの実施形態に従った、機械学習プログラムの訓練及び使用を示す。いくつかの実施形態に従った、例示的なニューラルネットワークを示す。いくつかの実施形態に従った、画像認識機械学習プログラムの訓練を示す図である。いくつかの実施形態に従った、特徴量抽出プロセス及び分類器訓練を図示する。いくつかの実施形態に従った、計算機のブロック図である。いくつかの実施形態に従った、人工画像生成のためのデータフロー図である。いくつかの実施形態に従った、実像及び人工像を使用して画像認識器を訓練するためのデータフロー図である。いくつかの実施態様に従った、人工画像生成のための第１方法のフローチャートである。いくつかの実施態様に従った、人工画像生成のための第２方法のフローチャートである。

本開示は、一般に、人工画像生成を提供するように構成された機械に関し、このような特殊目的機械のコンピュータ化された変形を含む。かつ、このような変形に対する改良、及びニューラルネットワークのための技術を提供する他の特殊目的機械と比較してこのような特殊目的機械が改良される技術に関する。特に、本開示は、人工画像生成のためのシステム及び方法を扱う。

本明細書に記載される技術のいくつかの態様によれば、機械学習装置は、処理回路及びメモリを含む。処理回路は、入力として、ターゲット対象の実SAR （合成開口レーダー）画像のセットを受信し、前記ターゲット対象は、画像認識装置を用いて認識される。処理回路は、実SAR画像のセットに基づいて、ターゲット対象のボクセルモデルを生成する。処理回路は、ボクセルモデルに基づいて、ターゲット対象のTSB （target shadow background-mask）画像のセットを生成する。処理回路は、自動エンコーダを使用して、前記TSB画像のセットに基づいて前記ターゲット対象の１つ以上の人工SAR画像を生成し、前記自動エンコーダは、サブエンコーダを使用して、前記TSB画像のセットを潜在ベクトルにエンコードし、前記潜在ベクトルを、サブデコーダを使用してデコードして、前記１つ以上の人工SAR画像を生成する。処理回路は、出力として、生成されたターゲット対象の１つ以上の人工SAR画像を提供する。

本明細書に記載される技術のいくつかの態様によれば、機械学習装置は、処理回路及びメモリを含む。処理回路は、入力として、第１の対象の実SAR （合成開口レーダー）画像のセット、及び第１の対象と第１の対象とは異なるターゲット対象との差のセットを受信し、前記ターゲット対象は、画像認識装置を用いて認識される。処理回路は、第１のオブジェクトの実際のSAR画像のセットと差分のセットに基づいて、ターゲット対象のボクセルモデルを生成する。処理回路は、ボクセルモデルに基づいて、ターゲット対象のTSB （ターゲットシャドウバックグラウンドマスク）画像のセットを生成する。処理回路は、自動エンコーダを使用して、前記TSB画像のセットに基づいて前記ターゲット対象の１つ以上の人工SAR画像を生成し、前記自動エンコーダは、サブエンコーダを使用して、前記TSB画像のセットを潜在ベクトルにエンコードし、前記潜在ベクトルを、サブデコーダを使用してデコードして、前記１つ以上の人工SAR画像を生成する。処理回路は、出力として、生成されたターゲット対象の１つ以上の人工SAR画像を提供する。

他の態様には、上記処理回路の動作を実行する方法と、上記動作を実行するための処理回路に対する命令を記憶する機械可読媒体とが含まれる。

以下の説明及び図面は、当業者が実施することができるように、特定の実施形態を十分に説明している。他の実施形態は、構造、論理、電気、プロセス、及び他の変更を組み込むことができる。いくつかの実施形態の一部及び特徴は、他の実施形態のそれらに含まれてもよく、又は代替されてもよい。特許請求の範囲に記載された実施形態は、これらの特許請求の範囲のすべての利用可能な等価物を包含する。

上述のように、機械学習は、画像認識のような多くの目的に有用である。場合によっては、所与の対象の画像を認識するために機械を訓練するために、多数の画像が利用可能である。例えば、ボーイング７４７航空機の画像は数多く存在する。しかし、他のいくつかの対象（例えば、あまり知られていない飛行機のタイプ）については、画像はほとんど、又は全く利用できない。前述したように、機械学習を用いて、与えられたオブジェクトの利用可能な画像がほとんど又は全くない場合に、与えられたオブジェクトを認識するように機械を訓練することが望ましい場合がある。

場合によっては、ターゲット対象のすべての画像が利用可能ではないか、又は全く利用できないが、ユーザは、ターゲット対象の画像を識別するために画像認識ニューラルネットワークを訓練することを望むことができる。本明細書に記載される技術のいくつかの態様は、ターゲット対象の画像を人工的に生成することによって、この技術的問題を解決する。これは、画像認識ニューラルネットワークに対するトレーニングデータの量を増加させ、それによって、トレーニングされた画像認識ニューラルネットワークの分類精度を増加させる。

本明細書に記載される技術のいくつかの態様は、ターゲット対象の利用可能な画像がほとんど又は全くない場合に、ターゲット対象を認識するために機械を訓練するために機械学習を使用することを対象とする。これを行うために、ターゲット対象の合成画像を生成することができ、合成画像は、ターゲット対象の利用可能な実画像と共に、ターゲット対象の画像を認識するための機械を訓練するために使用することができる。

本明細書中で使用される場合、用語「対象」は、その明白で通常の意味を包含する。対象は、とりわけ、機械学習を介して認識され得る画像において描写され得る任意のものを含み得る。例えば、航空機、ボーイング７４７航空機、自動車、ホンダシビック、スポーツ・ユーティリティ・ビークル（SUV）、人間の顔、ドナルド・トランプ大統領の顔、犬、ゴールデンレトリバー、携帯電話、サムソン・ギャラクシー携帯電話などである。

いくつかの実装によれば、ターゲット対象の実際の画像の少数（例えば、１００、１０００又は１０,０００より少ない閾値）が利用可能である。一台の計算機（又は複数台の計算機）が、自動エンコーダで、画像認識装置を用いて認識されるターゲット対象のTSB画像のセットを受信する。計算機は、自動エンコーダにおいて、ターゲット対象の実画像のセットを受信する。計算機は、自動エンコーダを用いて、TSB画像のセットに基づいて、ターゲット対象の１つ以上の人工画像を生成する。自動エンコーダは、サブエンコーダを使用して、TSB画像のセットを潜在ベクトルにエンコードし、サブデコーダを使用して、潜在ベクトルをデコードして、１つ以上の人工画像を生成する。計算機は、出力として、生成されたターゲット対象の１つ以上の人工画像を提供する。生成された人工画像と実画像は、画像認識装置を訓練し、対象物の画像を識別するために使用される。画像認識装置のための訓練セットは、人工画像と実画像の両方を含んでもよい。実画像及び人工画像は、SAR （合成開口レーダー）画像又は他のタイプの２D（二次元）画像であってもよい。

幾つかの実装形態によれば、ターゲット対象の実際の画像は利用可能ではないが、ターゲット対象に類似する第１対象の多数の画像が利用可能である。例えば、Honda Civicの画像は利用可能であるが、Car XYZの画像は存在せず、Car XYZの画像を認識するために機械学習アルゴリズムを訓練することが望ましい。計算機（又は複数の計算機）は、入力として、最初の対象（ホンダシビックなど）の実際のSAR画像のセットと、第１対象とターゲット対象の間の差分のセットを受信する（ホンダシビックとカーXYZの間の差分のセットは、ホンダシビックエンブレムを有し、カーXYZはHondaエンブレムの代わりにXYZエンブレムを有する）。計算機は、自動エンコーダにおいて、画像認識装置を用いて認識されるべきターゲット対象のTSB画像のセットを受信する。コンピュータは、自動エンコーダで、第１対象（例えば、ホンダシビック）の実画像セットと、第１対象とターゲット対象の差分セット（例えば、ホンダシビックとカーXYZとの差分セット（例えば、ホンダシビックはHondaエンブレムを有し、カーXYZはHondaエンブレムの代わりにXYZエンブレムを有する）を受信する。計算機は、自動エンコーダを使用して、第１対象の実画像のセットと差分のセットに基づいて、TSB画像のセットに基づきターゲット対象の１つ以上の人工画像を生成する。自動エンコーダは、サブエンコーダを使用して、TSB画像のセットを潜在ベクトルにエンコードし、サブデコーダを使用して、潜在ベクトルをデコードして、１つ以上の人工画像を生成する。計算機は、出力として、生成されたターゲット・オブジェクトの１つ以上の人工画像を提供する。生成された人工画像は、ターゲット対象の画像を識別するための機械学習アルゴリズムを訓練するために使用される。実画像及び人工画像は、SAR （合成開口レーダー）画像又は他のタイプの２D画像であってもよい。

自動エンコーダは、ハードウェア又はソフトウェアで実装することができる。自動エンコーダは、計算機内に存在してもよいし、計算機の外部に存在してもよい。

本明細書において、「実画像」とは、現実世界に存在するものに対応する画像を含む。例えば、ボーイング７４７型機の航空機をデジタルカメラで撮影し、ボーイング７４７型機の航空機の航空画像を取得することができる。本明細書において、「人工画像」とは、現実世界に存在するものに対応しない、人工的に生成された画像を含む。例えば、機械は、ボーイング７４７型航空機のボクセルモデル、TSB画像セット、又は他の２次元もしくは３次元モデルに基づいて、ボーイング７４７型航空機の画像を生成することができる。また、「実画像」及び「人工画像」という用語は、その単純な意味及び通常の意味を含む。

本明細書に記載される技術の態様は、SAR画像を使用することにおいて説明される。しかし、代替の実施形態では、任意のタイプの２D画像が、SAR画像の代わりに使用されてもよい。例えば、本文書で説明するように、任意のタイプの２D画像をSAR画像の代わりに使用することができる。

図１は、いくつかの例示的な実施形態に従った、機械学習プログラムの訓練及び使用を示す。いくつかの例示的な実施形態では、機械学習プログラム（machine-learning programs, MLP）は、機械学習アルゴリズム又はツールとも呼ばれ、画像認識又は機械翻訳などの機械学習タスクに関連する動作を実行するために利用される。

機械学習は、明示的にプログラムされずにコンピュータに学習する能力を与える学習分野である。機械学習はアルゴリズムの研究及び構築を探求するものであり、それらは本明細書ではツール（tools）とも呼ばれ、既存のデータから学習し、新しいデータについて予測することができる。このような機械学習ツールは、例示的な訓練データ１１２からモデルを構築することによって動作し、データ駆動型の予測又は決定をアウトプット又は評価１２０として表現する。例示的な実施形態が、少数の機械学習ツールに関して提示されているが、ここに提示された原理は、他の機械学習ツールに適用することができる。

いくつかの例示的な実施形態では、異なる機械学習ツールを使用することができる。例えば、ロジスティック回帰（Logistic Regression, LR）、ネイブ・ベイズ（Naive-Bayes）、ランダムフォレスト（Random Forest, RF）、ニューラルネットワーク（neural
networks, NN）、マトリックス因数分解（matrix factorization）、及びサポート・ベクトル・マシン（Support Vector Machines, SVM）ツールが、ジョブ・ポスティング（job postings）を分類又はスコアリングするために使用され得る。

機械学習における２つの一般的なタイプの問題は、分類問題（classification problems）と回帰問題（regression
problems）である。分類問題は、カテゴリ付け問題とも呼ばれ、項目群をいくつかのカテゴリ値の１つに分類する（例えば、このオブジェクトはリンゴ又はオレンジ）ことを目的としている。回帰アルゴリズムは、いくつかの項目を（例えば、実数である値を提供することによって）定量化することを目的としている。機械学習アルゴリズムは、訓練データ１１２を利用して、結果に影響を及ぼす、識別された特徴量（features）１０２間の相関を見出す。

機械学習アルゴリズムは、データを分析して評価（assessments）１２０を生成するために、特徴量１０２を利用する。特徴量１０２は、観察される現象の個々の測定可能な特性である。特徴量の概念は、線形回帰のような統計的手法で用いられる説明変数（explanatory variable）の概念と関連している。パターン認識、分類、及び回帰におけるMLPの効果的な動作には、有益な、識別可能な、及び独立した特徴量を選択することが重要である。特徴量には、数値特徴量、文字列、グラフなど、さまざまな種類がある。

一実施形態では、特徴量部１０２は、異なるタイプであってもよく、メッセージのワード１０３、メッセージ概念１０４、通信履歴１０５、過去のユーザ行動１０６、メッセージの主題１０７、他のメッセージ属性１０８、送信者１０９、及びユーザデータ１１０のうちの１つ以上を含んでもよい。

機械学習アルゴリズムは、訓練データ１１２を利用して、結果又は評価１２０に影響を及ぼす識別された特徴量１０２間の相関を見出す。いくつかの例示的な実施形態では、訓練データ１１２は、１つ以上の識別された特徴量１０２及び１つ以上の結果、例えば通信パターンの検出、メッセージの意味の検出、メッセージの要約の生成、メッセージ内のアクション項目の検出、メッセージ内の緊急性の検出、送信者に対するユーザの関係の検出、スコア属性の計算、メッセージスコアの計算などのための既知のデータであるラベル付きデータを含む。

訓練データ１１２及び識別された特徴量１０２によって、機械学習ツールは、操作１１４において訓練される。機械学習ツールは、特徴量１０２が訓練データ１１２と相関するので、特徴量１０２の価値を評価する。訓練の結果は、訓練された機械学習プログラム１１６である。

機械学習プログラム１１６が評価を実行するために使用される場合、新しいデータ１１８が訓練された機械学習プログラム１１６への入力として提供され、機械学習プログラム１１６は評価１２０を出力として生成する。例えば、メッセージがアクション・アイテムに対してチェックされるとき、機械学習プログラムは、メッセージ内容とメッセージメタデータを利用して、メッセージ内にアクションの要求があるかどうかを判断する。

機械学習技術は、モデルに入力されたデータ（例えば、与えられた発話でユーザが何と言ったか、名詞が人、場所、ものであるかどうか、明日の天気がどのようであるか）に関する予測を正確に行うためのモデルを訓練する。学習フェーズでは、与えられた入力に対する出力を正確に予測するために、モデルを最適化するために、入力の訓練データセットに対してモデルを開発する。一般に、学習フェーズは、教師ありか、半教師ありか、又は教師なしかが可能であり、「正しい」アウトプットが訓練インプットに対応して提供されるレベルの低下を示す。教師あり学習フェーズでは、すべての出力がモデルに提供され、モデルは、入力を出力にマッピングする一般的な規則又はアルゴリズムを開発するように指示される。対照的に、教師なし学習フェーズでは、モデルが訓練データセット内の関係を発見するためにそれ自身のルールを開発することができるように、所望の出力が入力に対して提供されない。半教師あり学習フェーズでは、不完全にラベル付けされた訓練セットが提供され、いくつかのアウトプットは既知であり、訓練データセットについては未知である。

モデルは、いくつかのエポック（例えば、反復）の間、訓練データセットに対して実行され得、そこでは、訓練データセットは、その結果を改良するためにモデルに繰り返し供給される。例えば、教師あり学習フェーズでは、所与の入力セットについての出力を予測するためにモデルが開発され、訓練データセットのための最大の入力のための所与の入力に対応するものとして指定される出力をより確実に提供するために、数エポックにわたって評価される。別の実施例では、教師なし学習フェーズのために、データセットをn個のグループにクラスタ化するモデルが開発され、与えられた入力がどのように一貫して与えられたグループに置かれ、それがどのように信頼性をもって各エポックにわたってn個の望ましいクラスタを生成するかについて、いくつかのエポックにわたって評価される。

一旦エポックが実行されると、モデルが評価され、それらの変数の値が、反復的な方法でモデルをよりよく改良しようとするように調整される。様々な側面において、評価は、偽陰性に対してバイアスされ、偽陽性に対してバイアスされ、又はモデルの全体的な精度に関して均等にバイアスされる。これらの値は、使用される機械学習技術に応じて、いくつかの方法で調整され得る。例えば、遺伝的又は進化的アルゴリズムでは、望ましいアウトプットを予測するのに最も成功したモデルの値が、次のエポックの間に使用されるモデルの値を開発するために使用される。これは、ランダムな変異／突然変異を含み、追加のデータポイントを提供することができる。当業者は、線形回帰、ランダムフォレスト、決定木学習、ニューラルネットワーク、ディープニューラルネットワーク等を含む、本開示とともに適用され得るいくつかの他の機械学習アルゴリズムを熟知しているであろう。

各モデルは、入力に影響する１つ以上の変数の値を、所望の結果にもっと近似的にマッピングするように変化させることによって、数エポックにわたってルール又はアルゴリズムを開発するが、訓練データセットを変化させることができ、好ましくは非常に大きく、完全な精度及び精度を達成することができない。従って、学習フェーズを構成する多数のエポックは、所与の試行回数又は固定時間／計算予算として設定され得るか、又は所与のモデルの精度が十分に高いか、又は十分に低い場合、又は精度のプラトーに到達した場合、その数／予算に到達する前に終了され得る。例えば、訓練フェーズがn個のエポックを実行し、少なくとも９５％の精度を有するモデルを生成するように設計され、そのようなモデルがn番目のエポックより前に生成される場合、学習フェーズは早期に終了し、最終目標精度閾値を満足する生成モデルを使用することができる。同様に、与えられたモデルがランダムな偶然の閾値を満たすのに十分に不正確である場合（例えば、与えられた入力に対する真／偽の出力を決定する際に、モデルがわずか５５％の正確さしかない場合）、そのモデルの学習フェーズは早期に終了してもよいが、学習フェーズの他のモデルは訓練を継続してもよい。同様に、所与のモデルが複数のエポックにわたって同様の精度を提供し続けるか、又はその結果にバラツキがある場合（パフォーマンスのプラトーに達した場合）、所与のモデルの学習フェーズは、エポック数／計算予算に到達する前に終了することができる。

学習フェーズが終了すると、モデルが最終化される（finalized）。いくつかの例示的な実施形態では、最終化されたモデルは、試験基準（testing
criteria）に対して評価される。最初の実施例では、入力のための既知の出力を含む試験データセットが、訓練されていないデータを扱う際のモデルの正確さを決定するために、最終化モデルに供給される。第２の実施例では、偽陽性率又は偽陰性率を用いて、最終化後のモデルを評価してもよい。第３の実施例では、データクラスタ間の描写を使用して、そのデータクラスタに対して最も明確な境界を生成するモデルを選択する。

図２は、いくつかの実施形態に従った、例示的なニューラルネットワーク２０４を示す。図示のように、ニューラルネットワーク２０４は、入力として、ソースドメインデータ（SOURCE DOMAIN DATA）２０２を受信する。入力は、複数の層２０６を通って出力に到達する。各層は、複数のニューロン２０８を含む。ニューロン２０８は、前の層のニューロンからの入力を受け取り、ニューロン出力を生成するために、それらのニューロンから受け取った値に重みを加える。最終層２０６からのニューロン出力は結合され、ニューラルネットワーク２０４の出力を生成する。

図２の下部に示すように、入力はベクトルxである。入力は多層２０６を通過し、ここで、重みW_１、W_２、...、W_iが各層への入力に適用され、f^１（x）、f^２（x）、...、f^i-１（x）に到達し、最終的に出力f（x）が計算される。

いくつかの例示的な実施形態では、ニューラルネットワーク２０４（例えば、深層学習、深い畳み込み、又は反復ニューラルネットワーク）は、ネットワークに配置されたLSTMノードなどの一連のニューロン２０８を含む。ニューロン２０８は、データ処理及び人工知能、特に機械学習に使用されるアーキテクチャ要素であり、与えられたニューロン２０８に与えられた入力の重みに基づいて、そのメモリに保持されている値をいつ「記憶する」か、いつ「忘れる」かを決定するメモリを含んでいる。本明細書で使用されるニューロン２０８の各々は、ニューラルネットワーク２０４内の他のニューロン２０８からの所定の数の入力を受け入れるように構成され、分析されるフレームの内容のためのリレーショナル及びサブリレーショナル出力を提供する。個々のニューロン２０８は、相互作用及び関係学習モデリングを提供するために、ニューラルネットワークの種々の構成において、互いにチェーン接続され、及び／又はツリー構造に編成されてもよい。

例えば、ニューロンとして機能するLSTMは、入力ベクトル（例えば、発話からの音素）、メモリセル、及び出力ベクトル（例えば、コンテキスト表現）を扱うためのいくつかのゲートを含む。入力ゲート及び出力ゲートは、それぞれメモリセルに入る情報及びメモリセルから出る情報を制御するが、一方、忘れゲート（forget gates）は、任意で、ニューラルネットワークの初期にリンクされたセルからの入力に基づいて、メモリセルから情報を除去する。種々のゲートの重みベクトル及びバイアスベクトルは、訓練フェーズのコースにわたって調整され、訓練フェーズが完了すると、それらの重み及びバイアスは、通常の動作のために最終化される。当業者は、ニューロン及びニューラルネットワークが、プログラム的に（例えば、ソフトウェア命令を介して）、又は各ニューロンをリンクしてニューラルネットワークを形成する特殊化されたハードウェアを介して構築され得ることを理解するであろう。

ニューラルネットワークは、データを分析して評価を生成するための特徴量（例えば、言語の単位を認識する）を利用する。特徴量は、観察される現象の個々の測定可能な特性である。特徴量の概念は、線形回帰のような統計的手法で使用される説明変数の概念と関連している。さらに、深い特徴量は、深いニューラルネットワークの隠れ層（hidden layers）におけるノードの出力を表す。

人工ニューラルネットワークと呼ばれることもあるニューラルネットワークは、動物の脳の生物学的ニューラルネットワークを考慮した計算システム／装置である。このようなシステム／装置は、典型的にはタスク固有のプログラミングなしでタスクを実行するために、学習と呼ばれる性能を漸進的に改善する。例えば、画像認識において、ニューラルネットワークは、物体の名前でタグ付けされた例示的な画像を分析することによって、物体を含む画像を識別するように教示されることができ、物体及び名前を学習した後、分析結果を用いて、タグ付けされていない画像内の物体を識別することができる。ニューラルネットワークは、ニューロンと呼ばれる連結したユニットの集合に基づいており、ニューロン間のシナプスと呼ばれる各接続は、接続の強度に応じて変化する活性化強度を有する一方向性シグナルを伝達することができる。受容ニューロンは、シグナルを活性化し、それに接続された下流ニューロンに伝播させることができる。これは、典型的には、多くの潜在的な伝達ニューロンからの結合した入力シグナルが、強度をパラメータとする十分な強度を有するかどうかに基づいている。

ディープニューラルネットワーク（DNN）は、多層から構成されるスタックドニューラルネットワークである。これらの層は、計算が行われる場所であるノードで構成され、人間の脳のニューロン上でゆるくパターン化され、十分な刺激に遭遇すると発火（fire）する。ノードは、データからの入力を、その入力を増幅又は減衰させる係数の集合、又は重みと組み合わせる。この係数は、アルゴリズムが学習しようとしているタスクの入力に有意性を割り当てる。これらの投入重み積を合計し、その合計をノードの活性化関数と呼ばれるものに渡して、そのシグナルがネットワークを通ってさらに進んで最終的な結果に影響を与えるかどうか、またどの程度まで影響を与えるかを決定する。DNNは、特徴量抽出と変換のために、非線形処理ユニットの多くの層のカスケードを使用する。各連続レイヤは、前のレイヤからの出力を入力として使用する。上位レベルの特徴量は、階層的表現を形成するために下位レベルの特徴量から導出される。入力層に続く層は、入力のフィルタリング結果であり、次の畳み込み層によって使用される特徴量マップを生成する畳み込み層であってもよい。

DNNアーキテクチャの訓練において、変数間の関係を推定するための一連の統計的プロセスとして構築される回帰は、コスト関数の最小化を含むことができる。コスト関数は、マッピング訓練例において実行されたニューラルネットワークがどの程度うまく出力を補正するかを表す数を返す関数として実装されてもよい。訓練において、コスト関数値が既知の訓練画像に基づいて予め決定された範囲内にない場合、逆伝搬（back propagation）が使用される。ここで、逆伝搬は、確率勾配降下（SGD）法のような最適化法で使用される人工ニューラルネットワークを訓練する一般的な方法である。

逆伝搬の使用には、伝搬及び重みの更新を含むことができる。入力がニューラルネットワークに提示されると、それは、それが出力層に到達するまで、層毎にニューラルネットワークを通って前方に伝搬される。次に、コスト関数（cost function）を用いて、ニューラルネットワークの出力を所望の出力と比較し、出力層内の各ノードについてエラー値を計算する。エラー値は、各ノードが、元の出力に対するその寄与を概略的に表す関連するエラー値を有するまで、出力から開始して逆方向に伝搬される。逆伝搬は、これらの誤差値を用いて、ニューラルネットワークの重みに関するコスト関数の勾配を計算することができる。計算された勾配は、選択された最適化方法に供給され、コスト関数を最小化しようと試みるために重みを更新する。

図３は、いくつかの実施形態に従った、画像認識機械学習プログラムの訓練を示す図である。機械学習プログラムは、１つ以上のコンピューティング・マシンで実施することができる。ブロック３０２は、複数のクラス３０４を含む訓練セットを示す。各クラス３０４は、クラスに関連する複数のイメージ３０６を含む。各クラス３０４は、画像３０６内の物体のタイプ（例えば、数字０～９、男性又は女性、猫又は犬など）に対応し得る。一例を挙げると、機械学習プログラムは、米国の大統領のイメージを認識するよう訓練されており、各クラスは、各大統領に対応する（例えば、１つのクラスはドナルド・トランプに対応し、１つのクラスはバラク・オバマに対応し、１つのクラスはジョージ・W・ブッシュに対応するなど）。ブロック３０８では、機械学習プログラムは、例えば、深いニューラルネットワークを使用して訓練される。ブロック３１０では、ブロック３０８の訓練によって生成された訓練された分類器が画像３１２を認識し、ブロック３１４では画像が認識される。例えば、画像３１２がビル・クリントンの写真である場合、分類器は、ブロック３１４において、その画像をビル・クリントンに対応するものとして認識する。

図３は、いくつかの例示的実施形態に従った、分類器の訓練を図示する。機械学習アルゴリズムは、顔を認識するように設計され、訓練セット３０２は、サンプルをクラス３０４にマッピングするデータを含む（例えば、クラスは、財布のすべてのイメージを含む）。クラスは、ラベルとも呼ばれる。ここに提示される実施形態は、物体認識に関連して提示されるが、同じ原理が、任意のタイプのアイテムを認識するために使用される訓練機械学習プログラムに適用されてもよい。

訓練セット３０２は、各クラス３０４（例えば、画像３０６）のための複数の画像３０６を含み、各画像は、認識されるべきカテゴリ（例えば、クラス）のうちの１つに関連付けられる。機械学習プログラムは、画像を認識するように動作可能な分類器３１０を生成するために、訓練データを用いて３０８に訓練される。いくつかの例示的実施形態において、機械学習プログラムはDNNである。

入力画像３１２が認識される場合、分類器３１０は、入力画像３１２を分析し、入力画像３１２に対応するクラス（例えば、クラス３１４）を識別する。

図４は、いくつかの例示的実施形態に従った、特徴量抽出プロセス及び分類器訓練を図示する。分類器の訓練は、特徴量抽出層７０２及び分類器層７１４に分割されてもよい。各画像は、特徴量抽出層４０２内の複数の層４０６～４１３によって順次分析される。

深い畳み込みニューラルネットワークの発達に伴い、顔認識の焦点は、同一人物の顔が互いに近く、異なる人物の顔が互いに遠く離れている、優れた顔特徴量空間を学習することであった。例えば、LFW （Labeled Faces in the Wild）データセットによる検証タスクは、しばしば顔検証に使用されてきた。

多くの顔識別タスク（例えば、MegaFace及びLFW）は、ギャラリー集合内の画像とクエリ集合の間の類似性比較に基づいており、これは、本質的に、人の身元を推定するためのK‐最近傍（K‐Neight‐Nevihould）法である。理想的な場合には、優れた顔特徴量抽出器（クラス間距離はクラス内距離より常に大きい）があり、KNN法は人のアイデンティティを推定するのに適切である。

特徴量抽出は、データの大きな集合を記述するために必要とされるリソースの量を減らすプロセスである。複雑なデータの分析を行う場合、主な問題の１つは、関連する変数の数に起因する。多数の変数を用いた分析は、一般に、大量のメモリ及び計算能力を必要とし、分類アルゴリズムを訓練サンプルにオーバーフィットさせ、新しいサンプルにはほとんど一般化しない可能性がある。特徴量抽出は、これらの大きなデータセット問題を回避するために変数の組み合わせを構築する方法を記述する一般的な用語であり、所望の目的のために十分な精度でデータを記述する。

いくつかの例示的な実施形態では、特徴量抽出は、測定データの初期セットから始まり、有益かつ非冗長であることを意図する派生値（特徴量）を構築し、次の学習及び一般化ステップを容易にする。さらに、特徴量抽出は、（時には非常にまばらなデータを伴う）大きなベクトルを、同じ又は類似の量の情報を捕捉する、より小さなベクトルに減少させることなど、次元数の減少に関係している。

初期特徴量のサブセットを決定することは、特徴量選択と呼ばれる。選択された特徴量は、入力データからの関連情報を含むことが期待され、それにより、所望のタスクは、完全な初期データの代わりに、この縮小表現を使用することによって実行され得る。DNNは、各層が機能を実行する層のスタックを利用する。例えば、層は、畳み込み、非線形変換、平均の計算などであり得る。最終的に、このDNNは、分類器４１４によって出力を生成する。図４において、データは左から右へ移動し、特徴量が抽出される。ニューラルネットワークの訓練の目的は、所望のタスクに適切なすべての層のパラメータを見つけることである。

図４に示すように、層４０６では「STRIDE OF ４」フィルタを適用し、層４０７～４１３では最大プーリング（MAX
POOLING）を適用する。ストライド（STRIDE）は、フィルタが入力ボリュームの周りで（around the input volume）如何に畳み込むかを制御する。「STRIDE
OF ４」は、４つのユニットを一度に入力ボリュームの周りで畳み込むフィルタをいう。MAX POOLINGとは、各々のmaxプーリングされた領域の最大値を選択することによって、ダウンサンプリングすることを指す。

いくつかの例示的な実施形態では、各層の構造は、予め定義される。例えば、畳み込み層は、小さな畳み込みカーネル及びそれらのそれぞれの畳み込みパラメータを含むことができ、加算層は、入力画像の２つのピクセルの和又は重み付けされた和を計算することができる。訓練は、加算の重み係数を定義する際に役立つ。

DNNの性能を向上させる一つの方法は、特徴量抽出層のためのより新しい構造を識別することであり、別の方法は、所望のタスクを達成するために異なる層においてパラメータを識別する方法を改善することである。課題は、典型的なニューラルネットワークでは、最適化されるべき何百万ものパラメータが存在し得ることである。これらのパラメータをすべてゼロから最適化しようとすると、利用可能な計算リソースの量と訓練セット内のデータの量に応じて、数時間、数日、又は数週間を要する場合がある。

図５は、いくつかの実施形態に従った計算機５００のブロック図を示す。いくつかの実施形態において、計算機５００は、図５の回路ブロック図に示される構成要素を格納することができる。例えば、回路５００は、プロセッサ５０２内に存在してもよく、「処理回路」と称されてもよい。他の実施形態では、計算機５００は、スタンドアロン装置として動作してもよく、又は、他のコンピュータに接続（例えば、ネットワーク接続）されてもよい。ネットワーク化された展開では、計算機５００は、サーバ、クライアント、又はその両方として、サーバ-クライアントネットワーク環境で動作することができる。一例では、計算機５００は、ピア・ツー・ピア（P２P）（又は他の分散）ネットワーク環境においてピア・マシンとして動作することができる。本明細書では、P２P、デバイス間（D２D）、及びサイドリンクという語句を互換的に使用される。計算機５００は、専用コンピュータ、パーソナルコンピュータ、タブレットPC、パーソナル・デジタル・アシスタント、移動電話、スマートフォン、ウェブ機器、ネットワーク・ルータ、スイッチ又はブリッジ、又はその機械がとるべき行動を特定する命令を実行することができる任意の機械であってもよい。

本明細書に記載されるように、例は、ロジック又は多数のコンポーネント、モジュール、又はメカニズムを含み得るか、又はそれらに基づいて動作し得る。モジュール及びコンポーネントは、特定の操作を実行することができる有形のエンティティ（例えば、ハードウェア）であり、特定の方法で構成又は配置することができる。一実施形態では、回路は、特定の方法で（例えば、内部的に、又は他の回路などの外部エンティティに対して）、モジュールとして配置されてもよい。一実施形態では、１つ以上のコンピュータシステム／装置（例えば、スタンドアロン、クライアント又はサーバコンピュータシステム）又は１つ以上のハードウェアプロセッサの全体又は一部は、指定された動作を実行するために動作するモジュールとして、ファームウェア又はソフトウェア（例えば、命令、アプリケーション部分、又はアプリケーション）によって構成されてもよい。一実施形態では、ソフトウェアは、機械可読媒体上に存在してもよい。一例では、ソフトウェアは、モジュールの基礎となるハードウェアによって実行されると、ハードウェアに指定された操作を実行させる。

従って、用語「モジュール」（及び「構成要素」）は、有形の実体を包含するものと理解される。すなわち、特定の方法で動作するか、又は本明細書に記載される任意の動作の一部若しくは全部を実行するために、物理的に構築され、具体的に構成され（例えば、ハードワイヤード）、又は一時的に（例えば、トランジトリーに）構成される実体である。モジュールが一時的に構成されている例を考慮すると、各モジュールは一時的にインスタンス化される必要はない。例えば、モジュールがソフトウェアを用いて構成された汎用ハードウェアプロセッサを含む場合、汎用ハードウェアプロセッサは、異なる時刻にそれぞれの異なるモジュールとして構成されてもよい。従って、ソフトウェアは、ハードウェアプロセッサを、例えば、ある時点で特定のモジュールを構成し、異なる時点で異なるモジュールを構成するように構成することができる。

計算機５００は、ハードウェアプロセッサ５０２（例えば、中央処理装置、GPU、ハードウェア・プロセッサ・コア、又はそれらの任意の組み合わせ）、メインメモリ５０４、及びスタティックメモリ５０６を含んでもよく、それらの一部又は全部は、インターリンク（例えば、バス）５０８を介して互いに通信することができる。図示されていないが、メインメモリ５０４は、リムーバブル記憶装置及び非リムーバブル記憶装置、揮発性メモリ、又は不揮発性メモリのいずれか又は全てを含んでもよい。計算機５００は、さらに、ビデオ表示ユニット５１０（又は他の表示ユニット）、英数字入力デバイス５１２（例えば、キーボード）、及びユーザインターフェースナビゲーションデバイス５１４（例えば、マウス）を含んでもよい。一実施形態では、表示ユニット５１０、入力装置５１２、及びUIナビゲーション装置５１４は、タッチスクリーン表示であってもよい。計算機５００は、さらに、記憶装置（例えば、駆動ユニット）５１６、信号発生デバイス５１８（例えば、スピーカ）、ネットワークインターフェースデバイス５２０、及び、全地球測位システムセンサ、コンパス、加速度計、又は他のセンサなどの１つ以上のセンサ５２１を含んでもよい。計算機５００は、１つ又は複数の周辺装置（例えば、プリンタ、カードリーダなど）を通信又は制御するために、シリアル（例えば、ユニバーサルシリアルバス）、パラレル、又は他の有線又は無線（例えば、赤外線（IR）、近接場通信（NFC）など）接続などの出力コントローラ５２８を含んでもよい。

駆動ユニット５１６（例えば、記憶装置）は、本明細書に記載される技術又は機能のうちの任意の１つ又は複数によって具体化又は利用される、１つ又は複数のセットのデータ構造又は命令（例えば、ソフトウェア）が記憶される機械可読媒体５２２を含んでもよい。また、命令５２４は、計算機５００による実行中に、メインメモリ５０４内、スタティックメモリ５０６内、又はハードウェアプロセッサ５０２内に、完全に又は少なくとも部分的に存在してもよい。一実施形態では、ハードウェアプロセッサ５０２、メインメモリ５０４、スタティックメモリ５０６、又は記憶装置５１６の１つ又は任意の組み合わせが、機械可読媒体を構成することができる。

機械可読媒体５２２は単一の媒体として示されているが、用語「機械可読媒体」は、１つ以上の命令５２４を記憶するように構成された単一の媒体又は複数の媒体（例えば、集中型又は分散型データベース、及び／又は関連するキャッシュ及びサーバ）を含んでもよい。

用語「機械可読媒体」は、計算機５００による実行のための命令を記憶し、符号化し、又は運ぶことができ、計算機５００に本開示の技術のうちのいずれか１つ以上を実行させる、又はそのような命令によって使用されるか又は関連するデータ構造を記憶し、符号化し、又は運ぶことができる任意の媒体を含んでもよい。非限定的な機械可読媒体の例としては、固体メモリ、光媒体及び磁気媒体が挙げられる。機械可読媒体の特定の例は、半導体メモリデバイス（例えば、電気的にプログラマブル読取り専用メモリ）、電気的に消去可能なプログラマブル読取り専用メモリ（EEPROM）及びフラッシュメモリデバイスなどの不揮発性メモリ、内部ハードディスク及び取り外し可能ディスクなどの磁気ディスク、光磁気ディスク、ランダムアクセスメモリ（RAM）、並びにCD-ROM及びDVD-ROMディスクを含み得る。いくつかの実施例において、機械可読媒体は、非一時的機械可読媒体を含んでもよい。いくつかの実施例において、機械可読媒体は、一時的な伝搬信号ではない機械可読媒体を含んでもよい。

命令５２４は、さらに、多数の転送プロトコル（例えば、フレームリレー、インターネットプロトコル、伝送制御プロトコル、ユーザデータグラムプロトコル、ハイパーテキスト転送プロトコルなど）のうちの任意の１つを使用して、ネットワークインターフェース装置５２０を介して伝送媒体を使用して通信ネットワーク５２６を介して送信又は受信されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク（LAN）、ワイドエリアネットワーク（WAN）、パケットデータネットワーク（例えば、インターネット）、移動電話ネットワーク（例えば、セルラーネットワーク）、Plain Old Telephone （POTS）ネットワーク、及び無線データネットワーク（例えば、Wi-Fiとして知られる規格のInstitute of Electrical and Electronics Engineers （IEEEE）８０２.１１ファミリー、WiMaxとして知られる規格のIEEE ８０２.１６ファミリー）、標準のIEEE ８０２.１５.４ファミリー、標準のLTEファミリー、標準のUniversal Mobile Telecommunication system （UMTS）ファミリー、標準のPeer-to-Peer（P２P）ネットワークなどが挙げられる。一実施形態では、ネットワークインターフェース装置５２０は、通信ネットワーク５２６に接続するための１つ以上の物理的なジャック（例えば、イーサネット、同軸、又は電話ジャック）又は１つ以上のアンテナを含んでもよい。

図６は、いくつかの実施形態による、人工画像生成のためのデータフローダイアグラム６００である。データフローダイアグラム６００に示されるように、一組の実SAR画像（real SAR images）６１０が、自動エンコーダ６４０のサブエンコーダ６４１に提供される。いくつかの実施例では、実SAR画像のセット６１０は、画像認識装置を用いて認識されるべきターゲット対象に対応する。いくつかの実施例では、実SAR画像のセット６１０は、ターゲット対象とは異なる第１対象に対応し、第１対象とターゲット対象との間の差のセットは、TSB（target shadow back-ground mask）画像（TSB IMAGES）のセット６３０において表される（ターゲット対象の実SAR画像が存在しないこともある）。図示のように、データフローダイアグラム６００は、ボクセルモデル（VOXEL MODEL）６２０を含む。ボクセルモデル６２０は、ターゲット対象の三次元グリッドモデルである。ボクセルモデル６２０は、複数のボクセルを含み、これらのボクセルは、ターゲット対象のエッジに対応する３Dグリッド内の位置である。ボクセルモデル６２０は、ターゲット対象のTSB画像６３０のセットを生成するために使用される。TSB画像６３０の集合は、背景、ターゲット対象、及びターゲット対象のシャドウの表現を含む。ターゲット対象のシャドウの位置は、ターゲット対象のボクセルモデル６２０、背景テクスチャ、及び光源（例えば、ランプ又は太陽）の割り当てられた、推定された、又は識別された位置に基づいて計算され得る。

ターゲット対象のTSB画像のセット６３０は、自動エンコーダ６４０に提供され、自動エンコーダ６４０は、ターゲット対象の人工SAR画像（ARTIFICIAL SAR IMAGES ）６５０を生成する。図示のように、自動エンコーダは、潜在ベクトル（LATENT VECTOR）６４２を生成するサブエンコーダ６４１を含む。潜在ベクトル６４２は、サブデコーダ６４３に送られ、サブデコーダ６４３は、人工SAR画像６５０を生成する。スキップ接続６４４は、サブエンコーダ６４１からサブデコーダ６４３への直接接続を可能にする。サブエンコーダ６４１及びサブデコーダ６４３は、機械学習技術を介して学習される学習訓練重み（LEARNING TRAINING WEIGHTS）６４５にアクセスする。サブエンコーダ６４１は、自動エンコーダ６４０の入力、すなわち、TSB画像のセット６３０及び実SAR画像６１０を受信する。

いくつかの実施例によれば、サブエンコーダ６４１は、複数の畳み込み層（multiple convolution layers）及び畳み込み層を散在させた複数のプーリング層（multiple pooling layers）を含む。サブエンコーダ６４１は、第１の機械学習訓練アルゴリズムを使用して訓練され、TSB画像６３０のセットに基づいて潜在ベクトル６４２を生成する。いくつかの実施例によれば、サブデコーダ６４３は、複数の逆重畳（deconvolution）層及び逆重畳層を散在させた複数のデプーリング（depooling layers）層を含む。サブデコーダ６４３は、第２の機械学習訓練アルゴリズムを使用して訓練され、潜在ベクトル６４２に基づいて１つ以上の人工SAR画像６５０を生成する。

自動エンコーダ６４０は、JSON （JavaScript Object Notification）又は任意の他のプログラミング言語で符号化することができる。場合によっては、自動エンコーダ６４０は、ハードウェア装置であってもよく、自動エンコーダは、一部のソフトウェア及び一部のハードウェアであってもよい。

いくつかの実施例では、サブエンコーダ６４１は、複数の畳み込みプール（convolution pools）を含む。各畳み込みプールの後に、バッチ正規化が続く。各バッチ正規化の後に、ReLU （整流線形ユニット（rectified linear unit））が続く。さらに、サブエンコーダ６４１の各畳み込みプールのカーネルサイズは、サブエンコーダ６４１の以前の畳み込みプールのカーネルサイズよりも大きい。

いくつかの実施例では、サブデコーダ６４３は、複数のスキップ接続を含む。各スキップ接続の後にバッチ正規化が続く。各バッチの規格化の後にReLUが続く。各ReLUには、デコードコンボリューション（decode convolution）が続く。さらに、サブデコーダ６４３の各デコードコンボリューションのカーネルサイズは、サブデコーダ６４３の以前のデコードコンボリューションのカーネルサイズよりも小さい。

JSONコードは、自動エンコーダ６４０に使用することができる。しかしながら、別のプログラミング言語が、自動エンコーダ６４０を実装するために使用されてもよいことに留意されたい。ある場合には、自動エンコーダ６４０は、完全に又は部分的にハードウェアで実装される。

図７は、いくつかの実施形態に従った、実画像及び人工画像を使用して画像認識器を訓練するためのデータフローダイアグラム７００である。図示のように、実画像及び人工画像は、実SAR画像６１０及び図６からの人工SAR画像６５０に対応し得る。実SAR画像６１０及び人工SAR画像６５０は、画像認識装置７１０に提供され、画像認識装置７１０がターゲット対象を認識するよう訓練される。画像認識装置７１０は、ResNet （残留ニューラルネットワーク（residual neural network））であってもよく、ResNetを訓練するための任意の技術を使用してもよい。場合によっては、ターゲット対象の実際のSAR画像６１０が存在しない場合（又は、実際のSAR画像６１０が、ターゲット対象とは異なる第１対象に対応する場合）、人工SAR画像６５０（実際のSAR画像６１０ではなく）のみが、画像認識装置の訓練重み７２０に関連して画像認識装置７１０を訓練するために使用され、これは、機械学習技術を用いて訓練中に学習され得る。訓練後、画像認識装置７１０は、画像認識装置７１０が訓練されたことを示す表示を出力してもよい。画像認識装置７１０が訓練された後、画像認識装置７１０は、ターゲット対象の画像を認識するため、及び／又は画像内のターゲット対象を認識するために使用されてもよい。

図８は、いくつかの実施態様による、人工画像生成のための第１方法８００のフローチャートである。方法８００は、計算機５００のような計算機で実装することができる。

動作８１０において、計算機は、ターゲット対象のボクセルモデル６２０を受信する。ターゲット対象は、画像認識装置７１０を用いて認識される。

動作８２０において、計算機は、ボクセルモデル６２０に基づいて、ターゲット対象のTSB画像６３０のセットを生成する。

動作８３０において、計算機は、自動エンコーダ６４０において、ターゲット対象の実画像６１０のセットを受信する。

動作８４０において、計算機は、自動エンコーダ６４０を使用して、TSB画像６３０の集合（set）に基づいて、ターゲット対象の１つ以上の人工SAR画像６５０を生成する。自動エンコーダ６４０は、サブエンコーダ６４１を使用して、TSB画像６３０のセットを潜在ベクトル６４２にエンコードする。自動エンコーダ６４０は、サブデコーダ６４３を使用して、潜在ベクトル６４２をデコードし、１つ以上の人工SAR画像６５０を生成する。

動作８５０において、計算機は、出力として、ターゲット対象の１つ以上の人工SAR画像６５０を生成する。場合によっては、計算機は、実SAR画像６１０のセットと、１つ以上の人工SAR画像６５０とを用いて、画像認識器７１０を用いて、ターゲット対象を認識する。計算機は、出力として、画像認識装置が訓練されたことの指示を提供する。計算機は、画像認識装置を使用して、ターゲット対象の新しい画像を認識することができ、新しい画像は、実SAR画像６１０及び／又は１つ以上の人工SAR画像６５０の集合の中からではない。操作８５０の後、方法８００は終了する。

図９は、いくつかの実施態様に従った、人工画像生成のための第２方法９００のフローチャートである。方法９００は、計算機５００のような計算機で実装することができる。方法９００の操作９１０～９５０のいくつかは、方法８００の対応する操作８１０～８５０と類似してもよい。差異は、以下及び図８～９に示す。

動作９１０において、計算機は、ターゲット対象６２０とは異なる第１対象のボクセルモデルを受信する。ターゲット対象は、画像認識装置７１０を用いて認識される。場合によっては、ターゲット対象のイメージが全くないか、ごくわずかしか利用できないことがある。いくつかの実施例では、受信した入力は、ターゲット対象の実際のSAR画像を欠いている。なお、ターゲット対象は、第１対象とは異なるが、ターゲット対象と第１対象は、複数の類似の特徴を共有することがあり、場合によっては、わずかに異なるだけである。例えば、Honda Accord（登録商標）２０１９がリリースされた２０１８年末には、１つ目のオブジェクトが「Honda Accord ２０１８」（画像が多数存在する）に対応し、対象オブジェクトが「Honda Accord ２０１９」（画像が存在しない、画像が少ないが、Honda Motor Company（登録商標）では「２０１８」と「Honda Accord ２０１９」の相違点がリリースされている）に対応する場合がある。

動作９２０において、計算機は、ボクセルモデル６２０に基づいて、第１対象のTSB画像６３０のセットを生成する。

動作９３０において、計算機は、自動エンコーダ６４０において、第１対象の実SAR画像６１０のセットを受信する。

動作９４０において、計算機は、自動エンコーダ６４０を使用して、TSB画像６３０の集合に基づいて、ターゲット対象の１つ以上の人工SAR画像６５０を生成する。ボクセルモデル６２０及びTSB画像６３０のセットは、第１のオブジェクトのものである。場合によっては、トレーニング中に、自動エンコーダは、ターゲット対象と最初のオブジェクトとの間の差異を学習する。自動エンコーダ６４０は、サブエンコーダ６４１を使用して、TSB画像のセット６３０（場合によっては、第１対象とターゲット対象との間の差を含むことがある）を潜在ベクトル６４２に符号化する。自動エンコーダ６４０は、サブデコーダ６４３を使用して、潜在ベクトル６４２をデコードし、１つ以上の人工SAR画像６５０を生成する。

動作９５０において、計算機は、出力として、ターゲット対象の１つ以上の人工SAR画像６５０を生成する。場合によっては、計算機は、１つ以上の人工SAR画像６５０を使用して、画像認識器７１０を訓練し、ターゲット対象を認識する。計算機は、出力として、画像認識装置が訓練されたことを示す指示を提供する。計算機は、画像認識装置を使用して、ターゲット対象の新しい画像を認識することができ、新しい画像は、１つ以上の人工SAR画像６５０の中からではない。新しい画像は、画像認識装置の訓練よりも後の時点で生成されてもよい。例えば、「Honda Accord ２０１９」の新しいイメージは、２０２０年夏に生まれる可能性がある。操作９５０の後、方法９００は終了する。

特定の例示的な実施形態を参照して実施形態を説明してきたが、本開示のより広い精神及び範囲から逸脱することなく、これらの実施形態に様々な修正及び変更を加えることができることは明らかであろう。したがって、明細書及び図面は、限定目的ではなく例示目的であるものと見なされるべきである。本明細書の一部を構成する添付の図面は、例示としてであって、主題が実施され得る特定の実施形態を限定するものではなく示している。説明された実施形態は、当業者がここで開示された教示を実施できるように、十分に詳細に記載されている。本開示の範囲から逸脱することなく、構造的及び論理的な置換及び変更を行うことができるように、他の実施形態を利用し、そこから導き出すことができる。従って、この詳細な説明は、限定的な意味で解釈されるべきではなく、種々の実施形態の範囲は、添付の特許請求の範囲が権利を有する均等物の全範囲と共に、添付の特許請求の範囲によってのみ定義される。

本明細書では、特定の実施形態が例示され説明されてきたが、同じ目的を達成するために計算された任意の配置が、示された特定の実施形態の代わりに使用され得ることを理解されたい。本開示は、種々の実施形態のすべての適合又は変形をカバーすることを意図している。上述の実施形態と本明細書に具体的に記載されていない他の実施形態との組み合わせは、上述の説明を検討することによって当業者に明らかとなるであろう。

この文献において、用語「a」又は「an」は、特許文献において、「少なくとも１つ」又は「１つ以上」の他の例又は用法とは無関係に、１つ以上を含むために使用されている。この文献において、用語「or」は、非排他的なものを指すために使用されているか、又は「A又はB」が「BではなくA」、「AではなくB」、「A及びB」を含むように使用されている。この英語原文文献において、用語「including」及び「in which」は、それぞれの「comprising」及び「wherein」の平易な英語相当語として使用されている。また、以下の請求項において、「including」及び「comprising」は、オープンエンドである。すなわち、システム、ユーザ装置（UE）、物品、組成物、組成物、又は方法は、クレームにおいて列挙されていない構成要素を含んでいても、権利範囲に属する。また、以下の特許請求の範囲においては、「第１」、「第２」及び「第３」等の用語は、単にラベルとして使用されており、それらの目的に数値的な要件を課すことを意図していない。

本開示の要約は、読者が技術的開示の性質を迅速に確認できるように提供される。要約書は、特許請求の範囲を解釈又は限定するために使用されないことを理解されたい。さらに、前述の詳細な説明では、開示を合理化する目的で、種々の特徴が単一の実施形態にまとめられていることが分かる。この開示方法は、クレームに記載された実施形態が、各クレームに明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、請求項に示すように、新規の主題は、単一の開示実施形態の全ての特徴より少ない特徴にある。従って、以下の請求項は、本明細書の詳細な説明に組み込まれ、各請求項は、別個の実施形態に対応する。

Claims

処理回路及びメモリを含む画像処理装置であって、前記処理回路が：
ターゲット対象のボクセルモデルを受信し（前記ターゲット対象が画像認識装置を用いて認識されるべきであり）；
前記ボクセルモデルに基づいて、ターゲット対象のTSBイメージのセットを生成し；
自動エンコーダで、前記ターゲット対象の実画像のセットを受信し；
前記自動エンコーダを使用して、前記実画像のセットに基づいて、前記TSB画像のセットに基づいて前記ターゲット対象の１つ以上の人工画像を生成し（前記自動エンコーダは、サブエンコーダを使用して前記TSB画像のセットを潜在ベクトルへとエンコードし、サブデコーダを使用して前記潜在ベクトルをデコードして前記１つ以上の人工画像を生成する）；そして
出力として、前記の生成されたターゲット対象の１つ以上の人工画像を提供する、
ことを特徴とする画像処理装置。
請求項１に記載の画像処理装置であって：
前記サブエンコーダは、複数の畳み込み層と、前記畳み込み層を散在させた複数のプーリング層とを備え、
前記サブエンコーダは、機械学習訓練アルゴリズムを用いて、前記TSB画像のセットに基づいて前記潜在ベクトルを生成するよう訓練される、
ことを特徴とする画像処理装置。
請求項１に記載の画像処理装置であって：
前記サブデコーダは、複数の逆重畳層と、前記逆重畳層を散在させた複数のデプーリング層とを含み、
前記サブデコーダは、機械学習訓練アルゴリズムを用いて、前記潜在ベクトルに基づいて前記１つ以上の人工画像を生成するように訓練される、
ことを特徴とする画像処理装置。
請求項１に記載の画像処理装置であって、
前記前記処理回路はさらに：
前記の実画像のセットと前記の生成された１つ以上の人工画像とを用いて、前記画像認識装置を訓練し前記ターゲット対象を認識し；そして
出力として、画像認識装置が訓練されたことを示す表示を提供する；
ことを特徴とする画像処理装置。
請求項４に記載の画像処理装置であって、
前記前記処理回路はさらに：
前記の訓練された画像認識装置を使用してターゲット対象の新しい画像を認識する、
ことを特徴とする画像処理装置。
請求項４に記載の画像処理装置であって、
前記画像認識装置は、ResNet （残留ニューラルネットワーク）を備える、
ことを特徴とする画像処理装置。
請求項１に記載の画像処理装置であって、
前記サブエンコーダは、複数の畳み込みプールを含み、各前記畳み込みプールにはバッチ正規化が続き、各前記バッチ正規化にはReLU（整流線形ユニット）が続く、
ことを特徴とする画像処理装置。
請求項７に記載の画像処理装置であって、
各前記畳み込みプールのカーネルサイズは、以前の畳み込みプールのカーネルサイズよりも大きい、
ことを特徴とする画像処理装置。
請求項１に記載の画像処理装置であって、
前記サブデコーダは、複数のスキップ接続を含み、各前記スキップ接続にはバッチ正規化が続き、各前記バッチ正規化にはReLU （整流線形ユニット）が続き、各前記ReLUにはデコードコンボリューションが続く、
ことを特徴とする画像処理装置。
請求項９に記載の画像処理装置であって、
各前記デコードコンボリューションのカーネルサイズは、以前のデコードコンボリューションのカーネルサイズよりも小さい、
ことを特徴とする画像処理装置。
命令を記憶する、画像処理のための非一時的な機械可読媒体であって、前記命令が、１つ以上の機械の処理回路によって実行されるときに前記処理回路に：
ターゲット対象のボクセルモデルを受信するステップであり、前記ターゲット対象は画像認識装置を用いて認識されるべきである、ステップ；
前記ボクセルモデルに基づいて、前記ターゲット対象のTSB画像のセットを生成するステップ；
自動エンコーダで、前記ターゲット対象の実画像のセットを受信するステップ；
前記自動エンコーダを使用して、前記実画像のセットに基づいて、前記TSB画像のセットに基づき前記ターゲット対象の１つ以上の人工画像を生成するステップであり、前記自動エンコーダは、サブエンコーダを使用して前記TSB画像のセットを潜在ベクトルへとエンコードし、サブデコーダを使用して前記潜在ベクトルをデコードして前記１つ以上の人工画像を生成する、ステップ；
出力として、生成されたターゲット対象の１つ以上の人工画像を提供するステップ；
を実行させる命令である、
ことを特徴とする機械可読媒体。
請求項１１に記載の機械可読媒体であって、
前記サブエンコーダは、複数の畳み込み層と、前記畳み込み層を散在させた複数のプーリング層とを備え、
前記サブエンコーダは、機械学習訓練アルゴリズムを用いて、前記TSB画像のセットに基づいて前記潜在ベクトルを生成するよう訓練される、
ことを特徴とする機械可読媒体。
請求項１１に記載の機械可読媒体であって：
前記サブデコーダは、複数の逆重畳層と、前記逆重畳層を散在させた複数のデプーリング層とを含み、
前記サブデコーダは、機械学習訓練アルゴリズムを用いて、前記潜在ベクトルに基づいて前記１つ以上の人工画像を生成するように訓練される、
ことを特徴とする機械可読媒体。
請求項１１に記載の機械可読媒体であって、
前記前記処理回路はさらに：
前記の実画像のセットと前記の生成された１つ以上の人工画像とを用いて、前記画像認識装置を訓練し前記ターゲット対象を認識し；そして
出力として、画像認識装置が訓練されたことを示す表示を提供する；
ことを特徴とする機械可読媒体。
請求項１４に記載の機械可読媒体であって、
前記前記処理回路はさらに：
前記の訓練された画像認識装置を使用してターゲット対象の新しい画像を認識する、
ことを特徴とする機械可読媒体。