JP7214863B2 - 人工画像生成用コンピュータアーキテクチャ - Google Patents

人工画像生成用コンピュータアーキテクチャ Download PDF

Info

Publication number
JP7214863B2
JP7214863B2 JP2021525568A JP2021525568A JP7214863B2 JP 7214863 B2 JP7214863 B2 JP 7214863B2 JP 2021525568 A JP2021525568 A JP 2021525568A JP 2021525568 A JP2021525568 A JP 2021525568A JP 7214863 B2 JP7214863 B2 JP 7214863B2
Authority
JP
Japan
Prior art keywords
images
target object
image
sub
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021525568A
Other languages
English (en)
Other versions
JP2022507144A (ja
Inventor
キム,ピーター
キラー,ライアン
アール. チャベス,ジェイソン
エス. バーリン,マーク
ジェイ. サンド,マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Raytheon Co
Original Assignee
Raytheon Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Raytheon Co filed Critical Raytheon Co
Publication of JP2022507144A publication Critical patent/JP2022507144A/ja
Application granted granted Critical
Publication of JP7214863B2 publication Critical patent/JP7214863B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Description

本出願は、2018年11月27日に出願された米国仮特許出願第62/771,802号「COMPUTER ARCHITECTURE FOR ARTIFICIAL
IMAGE GENERATION」に対する米国特許法第119条に基づく優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。
複数の実施形態が、コンピュータアーキテクチャに関する。いくつかの実施形態は、機械学習のためのコンピュータアーキテクチャに関する。いくつかの実施形態は、機械学習に使用するための人工画像を生成するためのコンピュータアーキテクチャに関する。
機械学習は、画像認識などの多くの目的に有用である。場合によっては、所与の対象の画像を認識するために、機械を訓練するため多数の画像が利用可能である。ただし、他の対象では、画像がほとんどないか、画像がまったくない場合がある。前述したように、機械学習を用いて、所与の対象の利用可能な画像がほとんど又は全くない場合に、所与の対象を認識するように機械を訓練することが望ましい場合がある。
いくつかの実施形態に従った、機械学習プログラムの訓練及び使用を示す。 いくつかの実施形態に従った、例示的なニューラルネットワークを示す。 いくつかの実施形態に従った、画像認識機械学習プログラムの訓練を示す図である。 いくつかの実施形態に従った、特徴量抽出プロセス及び分類器訓練を図示する。 いくつかの実施形態に従った、計算機のブロック図である。 いくつかの実施形態に従った、人工画像生成のためのデータフロー図である。 いくつかの実施形態に従った、実像及び人工像を使用して画像認識器を訓練するためのデータフロー図である。 いくつかの実施態様に従った、人工画像生成のための第1方法のフローチャートである。 いくつかの実施態様に従った、人工画像生成のための第2方法のフローチャートである。
本開示は、一般に、人工画像生成を提供するように構成された機械に関し、このような特殊目的機械のコンピュータ化された変形を含む。かつ、このような変形に対する改良、及びニューラルネットワークのための技術を提供する他の特殊目的機械と比較してこのような特殊目的機械が改良される技術に関する。特に、本開示は、人工画像生成のためのシステム及び方法を扱う。
本明細書に記載される技術のいくつかの態様によれば、機械学習装置は、処理回路及びメモリを含む。処理回路は、入力として、ターゲット対象の実SAR (合成開口レーダー)画像のセットを受信し、前記ターゲット対象は、画像認識装置を用いて認識される。処理回路は、実SAR画像のセットに基づいて、ターゲット対象のボクセルモデルを生成する。処理回路は、ボクセルモデルに基づいて、ターゲット対象のTSB (target shadow background-mask)画像のセットを生成する。処理回路は、自動エンコーダを使用して、前記TSB画像のセットに基づいて前記ターゲット対象の1つ以上の人工SAR画像を生成し、前記自動エンコーダは、サブエンコーダを使用して、前記TSB画像のセットを潜在ベクトルにエンコードし、前記潜在ベクトルを、サブデコーダを使用してデコードして、前記1つ以上の人工SAR画像を生成する。処理回路は、出力として、生成されたターゲット対象の1つ以上の人工SAR画像を提供する。
本明細書に記載される技術のいくつかの態様によれば、機械学習装置は、処理回路及びメモリを含む。処理回路は、入力として、第1の対象の実SAR (合成開口レーダー)画像のセット、及び第1の対象と第1の対象とは異なるターゲット対象との差のセットを受信し、前記ターゲット対象は、画像認識装置を用いて認識される。処理回路は、第1のオブジェクトの実際のSAR画像のセットと差分のセットに基づいて、ターゲット対象のボクセルモデルを生成する。処理回路は、ボクセルモデルに基づいて、ターゲット対象のTSB (ターゲットシャドウバックグラウンドマスク)画像のセットを生成する。処理回路は、自動エンコーダを使用して、前記TSB画像のセットに基づいて前記ターゲット対象の1つ以上の人工SAR画像を生成し、前記自動エンコーダは、サブエンコーダを使用して、前記TSB画像のセットを潜在ベクトルにエンコードし、前記潜在ベクトルを、サブデコーダを使用してデコードして、前記1つ以上の人工SAR画像を生成する。処理回路は、出力として、生成されたターゲット対象の1つ以上の人工SAR画像を提供する。
他の態様には、上記処理回路の動作を実行する方法と、上記動作を実行するための処理回路に対する命令を記憶する機械可読媒体とが含まれる。
以下の説明及び図面は、当業者が実施することができるように、特定の実施形態を十分に説明している。他の実施形態は、構造、論理、電気、プロセス、及び他の変更を組み込むことができる。いくつかの実施形態の一部及び特徴は、他の実施形態のそれらに含まれてもよく、又は代替されてもよい。特許請求の範囲に記載された実施形態は、これらの特許請求の範囲のすべての利用可能な等価物を包含する。
上述のように、機械学習は、画像認識のような多くの目的に有用である。場合によっては、所与の対象の画像を認識するために機械を訓練するために、多数の画像が利用可能である。例えば、ボーイング747航空機の画像は数多く存在する。しかし、他のいくつかの対象(例えば、あまり知られていない飛行機のタイプ)については、画像はほとんど、又は全く利用できない。前述したように、機械学習を用いて、与えられたオブジェクトの利用可能な画像がほとんど又は全くない場合に、与えられたオブジェクトを認識するように機械を訓練することが望ましい場合がある。
場合によっては、ターゲット対象のすべての画像が利用可能ではないか、又は全く利用できないが、ユーザは、ターゲット対象の画像を識別するために画像認識ニューラルネットワークを訓練することを望むことができる。本明細書に記載される技術のいくつかの態様は、ターゲット対象の画像を人工的に生成することによって、この技術的問題を解決する。これは、画像認識ニューラルネットワークに対するトレーニングデータの量を増加させ、それによって、トレーニングされた画像認識ニューラルネットワークの分類精度を増加させる。
本明細書に記載される技術のいくつかの態様は、ターゲット対象の利用可能な画像がほとんど又は全くない場合に、ターゲット対象を認識するために機械を訓練するために機械学習を使用することを対象とする。これを行うために、ターゲット対象の合成画像を生成することができ、合成画像は、ターゲット対象の利用可能な実画像と共に、ターゲット対象の画像を認識するための機械を訓練するために使用することができる。
本明細書中で使用される場合、用語「対象」は、その明白で通常の意味を包含する。対象は、とりわけ、機械学習を介して認識され得る画像において描写され得る任意のものを含み得る。例えば、航空機、ボーイング747航空機、自動車、ホンダシビック、スポーツ・ユーティリティ・ビークル(SUV)、人間の顔、ドナルド・トランプ大統領の顔、犬、ゴールデンレトリバー、携帯電話、サムソン・ギャラクシー携帯電話などである。
いくつかの実装によれば、ターゲット対象の実際の画像の少数(例えば、100、1000又は10,000より少ない閾値)が利用可能である。一台の計算機(又は複数台の計算機)が、自動エンコーダで、画像認識装置を用いて認識されるターゲット対象のTSB画像のセットを受信する。計算機は、自動エンコーダにおいて、ターゲット対象の実画像のセットを受信する。計算機は、自動エンコーダを用いて、TSB画像のセットに基づいて、ターゲット対象の1つ以上の人工画像を生成する。自動エンコーダは、サブエンコーダを使用して、TSB画像のセットを潜在ベクトルにエンコードし、サブデコーダを使用して、潜在ベクトルをデコードして、1つ以上の人工画像を生成する。計算機は、出力として、生成されたターゲット対象の1つ以上の人工画像を提供する。生成された人工画像と実画像は、画像認識装置を訓練し、対象物の画像を識別するために使用される。画像認識装置のための訓練セットは、人工画像と実画像の両方を含んでもよい。実画像及び人工画像は、SAR (合成開口レーダー)画像又は他のタイプの2D(二次元)画像であってもよい。
幾つかの実装形態によれば、ターゲット対象の実際の画像は利用可能ではないが、ターゲット対象に類似する第1対象の多数の画像が利用可能である。例えば、Honda Civicの画像は利用可能であるが、Car XYZの画像は存在せず、Car XYZの画像を認識するために機械学習アルゴリズムを訓練することが望ましい。計算機(又は複数の計算機)は、入力として、最初の対象(ホンダシビックなど)の実際のSAR画像のセットと、第1対象とターゲット対象の間の差分のセットを受信する(ホンダシビックとカーXYZの間の差分のセットは、ホンダシビックエンブレムを有し、カーXYZはHondaエンブレムの代わりにXYZエンブレムを有する)。計算機は、自動エンコーダにおいて、画像認識装置を用いて認識されるべきターゲット対象のTSB画像のセットを受信する。コンピュータは、自動エンコーダで、第1対象(例えば、ホンダシビック)の実画像セットと、第1対象とターゲット対象の差分セット(例えば、ホンダシビックとカーXYZとの差分セット(例えば、ホンダシビックはHondaエンブレムを有し、カーXYZはHondaエンブレムの代わりにXYZエンブレムを有する)を受信する。計算機は、自動エンコーダを使用して、第1対象の実画像のセットと差分のセットに基づいて、TSB画像のセットに基づきターゲット対象の1つ以上の人工画像を生成する。自動エンコーダは、サブエンコーダを使用して、TSB画像のセットを潜在ベクトルにエンコードし、サブデコーダを使用して、潜在ベクトルをデコードして、1つ以上の人工画像を生成する。計算機は、出力として、生成されたターゲット・オブジェクトの1つ以上の人工画像を提供する。生成された人工画像は、ターゲット対象の画像を識別するための機械学習アルゴリズムを訓練するために使用される。実画像及び人工画像は、SAR (合成開口レーダー)画像又は他のタイプの2D画像であってもよい。
本願において、自動エンコーダはオートエンコーダを意味する。自動エンコーダは、ハードウェア又はソフトウェアで実装することができる。自動エンコーダは、計算機内に存在してもよいし、計算機の外部に存在してもよい。
本明細書において、「実画像」とは、現実世界に存在するものに対応する画像を含む。例えば、ボーイング747型機の航空機をデジタルカメラで撮影し、ボーイング747型機の航空機の航空画像を取得することができる。本明細書において、「人工画像」とは、現実世界に存在するものに対応しない、人工的に生成された画像を含む。例えば、機械は、ボーイング747型航空機のボクセルモデル、TSB画像セット、又は他の2次元もしくは3次元モデルに基づいて、ボーイング747型航空機の画像を生成することができる。また、「実画像」及び「人工画像」という用語は、その単純な意味及び通常の意味を含む。
本明細書に記載される技術の態様は、SAR画像を使用することにおいて説明される。しかし、代替の実施形態では、任意のタイプの2D画像が、SAR画像の代わりに使用されてもよい。例えば、本文書で説明するように、任意のタイプの2D画像をSAR画像の代わりに使用することができる。
図1は、いくつかの例示的な実施形態に従った、機械学習プログラムの訓練及び使用を示す。いくつかの例示的な実施形態では、機械学習プログラム(machine-learning programs, MLP)は、機械学習アルゴリズム又はツールとも呼ばれ、画像認識又は機械翻訳などの機械学習タスクに関連する動作を実行するために利用される。
機械学習は、明示的にプログラムされずにコンピュータに学習する能力を与える学習分野である。機械学習はアルゴリズムの研究及び構築を探求するものであり、それらは本明細書ではツール(tools)とも呼ばれ、既存のデータから学習し、新しいデータについて予測することができる。このような機械学習ツールは、例示的な訓練データ112からモデルを構築することによって動作し、データ駆動型の予測又は決定をアウトプット又は評価120として表現する。例示的な実施形態が、少数の機械学習ツールに関して提示されているが、ここに提示された原理は、他の機械学習ツールに適用することができる。
いくつかの例示的な実施形態では、異なる機械学習ツールを使用することができる。例えば、ロジスティック回帰(Logistic Regression, LR)、ネイブ・ベイズ(Naive-Bayes)、ランダムフォレスト(Random Forest, RF)、ニューラルネットワーク(neural
networks, NN)、マトリックス因数分解(matrix factorization)、及びサポート・ベクトル・マシン(Support Vector Machines, SVM)ツールが、ジョブ・ポスティング(job postings)を分類又はスコアリングするために使用され得る。
機械学習における2つの一般的なタイプの問題は、分類問題(classification problems)と回帰問題(regression
problems)である。分類問題は、カテゴリ付け問題とも呼ばれ、項目群をいくつかのカテゴリ値の1つに分類する(例えば、このオブジェクトはリンゴ又はオレンジ)ことを目的としている。回帰アルゴリズムは、いくつかの項目を(例えば、実数である値を提供することによって)定量化することを目的としている。機械学習アルゴリズムは、訓練データ112を利用して、結果に影響を及ぼす、識別された特徴量(features)102間の相関を見出す。
機械学習アルゴリズムは、データを分析して評価(assessments)120を生成するために、特徴量102を利用する。特徴量102は、観察される現象の個々の測定可能な特性である。特徴量の概念は、線形回帰のような統計的手法で用いられる説明変数(explanatory variable)の概念と関連している。パターン認識、分類、及び回帰におけるMLPの効果的な動作には、有益な、識別可能な、及び独立した特徴量を選択することが重要である。特徴量には、数値特徴量、文字列、グラフなど、さまざまな種類がある。
一実施形態では、特徴量部102は、異なるタイプであってもよく、メッセージのワード103、メッセージ概念104、通信履歴105、過去のユーザ行動106、メッセージの主題107、他のメッセージ属性108、送信者109、及びユーザデータ110のうちの1つ以上を含んでもよい。
機械学習アルゴリズムは、訓練データ112を利用して、結果又は評価120に影響を及ぼす識別された特徴量102間の相関を見出す。いくつかの例示的な実施形態では、訓練データ112は、1つ以上の識別された特徴量102及び1つ以上の結果、例えば通信パターンの検出、メッセージの意味の検出、メッセージの要約の生成、メッセージ内のアクション項目の検出、メッセージ内の緊急性の検出、送信者に対するユーザの関係の検出、スコア属性の計算、メッセージスコアの計算などのための既知のデータであるラベル付きデータを含む。
訓練データ112及び識別された特徴量102によって、機械学習ツールは、操作114において訓練される。機械学習ツールは、特徴量102が訓練データ112と相関するので、特徴量102の価値を評価する。訓練の結果は、訓練された機械学習プログラム116である。
機械学習プログラム116が評価を実行するために使用される場合、新しいデータ118が訓練された機械学習プログラム116への入力として提供され、機械学習プログラム116は評価120を出力として生成する。例えば、メッセージがアクション・アイテムに対してチェックされるとき、機械学習プログラムは、メッセージ内容とメッセージメタデータを利用して、メッセージ内にアクションの要求があるかどうかを判断する。
機械学習技術は、モデルに入力されたデータ(例えば、与えられた発話でユーザが何と言ったか、名詞が人、場所、ものであるかどうか、明日の天気がどのようであるか)に関する予測を正確に行うためのモデルを訓練する。学習フェーズでは、与えられた入力に対する出力を正確に予測するために、モデルを最適化するために、入力の訓練データセットに対してモデルを開発する。一般に、学習フェーズは、教師ありか、半教師ありか、又は教師なしかが可能であり、「正しい」アウトプットが訓練インプットに対応して提供されるレベルの低下を示す。教師あり学習フェーズでは、すべての出力がモデルに提供され、モデルは、入力を出力にマッピングする一般的な規則又はアルゴリズムを開発するように指示される。対照的に、教師なし学習フェーズでは、モデルが訓練データセット内の関係を発見するためにそれ自身のルールを開発することができるように、所望の出力が入力に対して提供されない。半教師あり学習フェーズでは、不完全にラベル付けされた訓練セットが提供され、いくつかのアウトプットは既知であり、訓練データセットについては未知である。
モデルは、いくつかのエポック(例えば、反復)の間、訓練データセットに対して実行され得、そこでは、訓練データセットは、その結果を改良するためにモデルに繰り返し供給される。例えば、教師あり学習フェーズでは、所与の入力セットについての出力を予測するためにモデルが開発され、訓練データセットのための最大の入力のための所与の入力に対応するものとして指定される出力をより確実に提供するために、数エポックにわたって評価される。別の実施例では、教師なし学習フェーズのために、データセットをn個のグループにクラスタ化するモデルが開発され、与えられた入力がどのように一貫して与えられたグループに置かれ、それがどのように信頼性をもって各エポックにわたってn個の望ましいクラスタを生成するかについて、いくつかのエポックにわたって評価される。
一旦エポックが実行されると、モデルが評価され、それらの変数の値が、反復的な方法でモデルをよりよく改良しようとするように調整される。様々な側面において、評価は、偽陰性に対してバイアスされ、偽陽性に対してバイアスされ、又はモデルの全体的な精度に関して均等にバイアスされる。これらの値は、使用される機械学習技術に応じて、いくつかの方法で調整され得る。例えば、遺伝的又は進化的アルゴリズムでは、望ましいアウトプットを予測するのに最も成功したモデルの値が、次のエポックの間に使用されるモデルの値を開発するために使用される。これは、ランダムな変異/突然変異を含み、追加のデータポイントを提供することができる。当業者は、線形回帰、ランダムフォレスト、決定木学習、ニューラルネットワーク、ディープニューラルネットワーク等を含む、本開示とともに適用され得るいくつかの他の機械学習アルゴリズムを熟知しているであろう。
各モデルは、入力に影響する1つ以上の変数の値を、所望の結果にもっと近似的にマッピングするように変化させることによって、数エポックにわたってルール又はアルゴリズムを開発するが、訓練データセットを変化させることができ、好ましくは非常に大きく、完全な精度及び精度を達成することができない。従って、学習フェーズを構成する多数のエポックは、所与の試行回数又は固定時間/計算予算として設定され得るか、又は所与のモデルの精度が十分に高いか、又は十分に低い場合、又は精度のプラトーに到達した場合、その数/予算に到達する前に終了され得る。例えば、訓練フェーズがn個のエポックを実行し、少なくとも95%の精度を有するモデルを生成するように設計され、そのようなモデルがn番目のエポックより前に生成される場合、学習フェーズは早期に終了し、最終目標精度閾値を満足する生成モデルを使用することができる。同様に、与えられたモデルがランダムな偶然の閾値を満たすのに十分に不正確である場合(例えば、与えられた入力に対する真/偽の出力を決定する際に、モデルがわずか55%の正確さしかない場合)、そのモデルの学習フェーズは早期に終了してもよいが、学習フェーズの他のモデルは訓練を継続してもよい。同様に、所与のモデルが複数のエポックにわたって同様の精度を提供し続けるか、又はその結果にバラツキがある場合(パフォーマンスのプラトーに達した場合)、所与のモデルの学習フェーズは、エポック数/計算予算に到達する前に終了することができる。
学習フェーズが終了すると、モデルが最終化される(finalized)。いくつかの例示的な実施形態では、最終化されたモデルは、試験基準(testing
criteria)に対して評価される。最初の実施例では、入力のための既知の出力を含む試験データセットが、訓練されていないデータを扱う際のモデルの正確さを決定するために、最終化モデルに供給される。第2の実施例では、偽陽性率又は偽陰性率を用いて、最終化後のモデルを評価してもよい。第3の実施例では、データクラスタ間の描写を使用して、そのデータクラスタに対して最も明確な境界を生成するモデルを選択する。
図2は、いくつかの実施形態に従った、例示的なニューラルネットワーク204を示す。図示のように、ニューラルネットワーク204は、入力として、ソースドメインデータ(SOURCE DOMAIN DATA)202を受信する。入力は、複数の層206を通って出力に到達する。各層は、複数のニューロン208を含む。ニューロン208は、前の層のニューロンからの入力を受け取り、ニューロン出力を生成するために、それらのニューロンから受け取った値に重みを加える。最終層206からのニューロン出力は結合され、ニューラルネットワーク204の出力を生成する。
図2の下部に示すように、入力はベクトルxである。入力は多層206を通過し、ここで、重みW、W、...、Wiが各層への入力に適用され、f(x)、f(x)、...、fi-1(x)に到達し、最終的に出力f(x)が計算される。
いくつかの例示的な実施形態では、ニューラルネットワーク204(例えば、深層学習、深い畳み込み、又は反復ニューラルネットワーク)は、ネットワークに配置されたLSTMノードなどの一連のニューロン208を含む。ニューロン208は、データ処理及び人工知能、特に機械学習に使用されるアーキテクチャ要素であり、与えられたニューロン208に与えられた入力の重みに基づいて、そのメモリに保持されている値をいつ「記憶する」か、いつ「忘れる」かを決定するメモリを含んでいる。本明細書で使用されるニューロン208の各々は、ニューラルネットワーク204内の他のニューロン208からの所定の数の入力を受け入れるように構成され、分析されるフレームの内容のためのリレーショナル及びサブリレーショナル出力を提供する。個々のニューロン208は、相互作用及び関係学習モデリングを提供するために、ニューラルネットワークの種々の構成において、互いにチェーン接続され、及び/又はツリー構造に編成されてもよい。
例えば、ニューロンとして機能するLSTMは、入力ベクトル(例えば、発話からの音素)、メモリセル、及び出力ベクトル(例えば、コンテキスト表現)を扱うためのいくつかのゲートを含む。入力ゲート及び出力ゲートは、それぞれメモリセルに入る情報及びメモリセルから出る情報を制御するが、一方、忘れゲート(forget gates)は、任意で、ニューラルネットワークの初期にリンクされたセルからの入力に基づいて、メモリセルから情報を除去する。種々のゲートの重みベクトル及びバイアスベクトルは、訓練フェーズのコースにわたって調整され、訓練フェーズが完了すると、それらの重み及びバイアスは、通常の動作のために最終化される。当業者は、ニューロン及びニューラルネットワークが、プログラム的に(例えば、ソフトウェア命令を介して)、又は各ニューロンをリンクしてニューラルネットワークを形成する特殊化されたハードウェアを介して構築され得ることを理解するであろう。
ニューラルネットワークは、データを分析して評価を生成するための特徴量(例えば、言語の単位を認識する)を利用する。特徴量は、観察される現象の個々の測定可能な特性である。特徴量の概念は、線形回帰のような統計的手法で使用される説明変数の概念と関連している。さらに、深い特徴量は、深いニューラルネットワークの隠れ層(hidden layers)におけるノードの出力を表す。
人工ニューラルネットワークと呼ばれることもあるニューラルネットワークは、動物の脳の生物学的ニューラルネットワークを考慮した計算システム/装置である。このようなシステム/装置は、典型的にはタスク固有のプログラミングなしでタスクを実行するために、学習と呼ばれる性能を漸進的に改善する。例えば、画像認識において、ニューラルネットワークは、物体の名前でタグ付けされた例示的な画像を分析することによって、物体を含む画像を識別するように教示されることができ、物体及び名前を学習した後、分析結果を用いて、タグ付けされていない画像内の物体を識別することができる。ニューラルネットワークは、ニューロンと呼ばれる連結したユニットの集合に基づいており、ニューロン間のシナプスと呼ばれる各接続は、接続の強度に応じて変化する活性化強度を有する一方向性シグナルを伝達することができる。受容ニューロンは、シグナルを活性化し、それに接続された下流ニューロンに伝播させることができる。これは、典型的には、多くの潜在的な伝達ニューロンからの結合した入力シグナルが、強度をパラメータとする十分な強度を有するかどうかに基づいている。
ディープニューラルネットワーク(DNN)は、多層から構成されるスタックドニューラルネットワークである。これらの層は、計算が行われる場所であるノードで構成され、人間の脳のニューロン上でゆるくパターン化され、十分な刺激に遭遇すると発火(fire)する。ノードは、データからの入力を、その入力を増幅又は減衰させる係数の集合、又は重みと組み合わせる。この係数は、アルゴリズムが学習しようとしているタスクの入力に有意性を割り当てる。これらの投入重み積を合計し、その合計をノードの活性化関数と呼ばれるものに渡して、そのシグナルがネットワークを通ってさらに進んで最終的な結果に影響を与えるかどうか、またどの程度まで影響を与えるかを決定する。DNNは、特徴量抽出と変換のために、非線形処理ユニットの多くの層のカスケードを使用する。各連続レイヤは、前のレイヤからの出力を入力として使用する。上位レベルの特徴量は、階層的表現を形成するために下位レベルの特徴量から導出される。入力層に続く層は、入力のフィルタリング結果であり、次の畳み込み層によって使用される特徴量マップを生成する畳み込み層であってもよい。
DNNアーキテクチャの訓練において、変数間の関係を推定するための一連の統計的プロセスとして構築される回帰は、コスト関数の最小化を含むことができる。コスト関数は、マッピング訓練例において実行されたニューラルネットワークがどの程度うまく出力を補正するかを表す数を返す関数として実装されてもよい。訓練において、コスト関数値が既知の訓練画像に基づいて予め決定された範囲内にない場合、逆伝搬(back propagation)が使用される。ここで、逆伝搬は、確率勾配降下(SGD)法のような最適化法で使用される人工ニューラルネットワークを訓練する一般的な方法である。
逆伝搬の使用には、伝搬及び重みの更新を含むことができる。入力がニューラルネットワークに提示されると、それは、それが出力層に到達するまで、層毎にニューラルネットワークを通って前方に伝搬される。次に、コスト関数(cost function)を用いて、ニューラルネットワークの出力を所望の出力と比較し、出力層内の各ノードについてエラー値を計算する。エラー値は、各ノードが、元の出力に対するその寄与を概略的に表す関連するエラー値を有するまで、出力から開始して逆方向に伝搬される。逆伝搬は、これらの誤差値を用いて、ニューラルネットワークの重みに関するコスト関数の勾配を計算することができる。計算された勾配は、選択された最適化方法に供給され、コスト関数を最小化しようと試みるために重みを更新する。
図3は、いくつかの実施形態に従った、画像認識機械学習プログラムの訓練を示す図である。機械学習プログラムは、1つ以上のコンピューティング・マシンで実施することができる。ブロック302は、複数のクラス304を含む訓練セットを示す。各クラス304は、クラスに関連する複数のイメージ306を含む。各クラス304は、画像306内の物体のタイプ(例えば、数字0~9、男性又は女性、猫又は犬など)に対応し得る。一例を挙げると、機械学習プログラムは、米国の大統領のイメージを認識するよう訓練されており、各クラスは、各大統領に対応する(例えば、1つのクラスはドナルド・トランプに対応し、1つのクラスはバラク・オバマに対応し、1つのクラスはジョージ・W・ブッシュに対応するなど)。ブロック308では、機械学習プログラムは、例えば、深いニューラルネットワークを使用して訓練される。ブロック310では、ブロック308の訓練によって生成された訓練された分類器が画像312を認識し、ブロック314では画像が認識される。例えば、画像312がビル・クリントンの写真である場合、分類器は、ブロック314において、その画像をビル・クリントンに対応するものとして認識する。
図3は、いくつかの例示的実施形態に従った、分類器の訓練を図示する。機械学習アルゴリズムは、顔を認識するように設計され、訓練セット302は、サンプルをクラス304にマッピングするデータを含む(例えば、クラスは、財布のすべてのイメージを含む)。クラスは、ラベルとも呼ばれる。ここに提示される実施形態は、物体認識に関連して提示されるが、同じ原理が、任意のタイプのアイテムを認識するために使用される訓練機械学習プログラムに適用されてもよい。
訓練セット302は、各クラス304(例えば、画像306)のための複数の画像306を含み、各画像は、認識されるべきカテゴリ(例えば、クラス)のうちの1つに関連付けられる。機械学習プログラムは、画像を認識するように動作可能な分類器310を生成するために、訓練データを用いて308に訓練される。いくつかの例示的実施形態において、機械学習プログラムはDNNである。
入力画像312が認識される場合、分類器310は、入力画像312を分析し、入力画像312に対応するクラス(例えば、クラス314)を識別する。
図4は、いくつかの例示的実施形態に従った、特徴量抽出プロセス及び分類器訓練を図示する。分類器の訓練は、特徴量抽出層702及び分類器層714に分割されてもよい。各画像は、特徴量抽出層402内の複数の層406~413によって順次分析される。
深い畳み込みニューラルネットワークの発達に伴い、顔認識の焦点は、同一人物の顔が互いに近く、異なる人物の顔が互いに遠く離れている、優れた顔特徴量空間を学習することであった。例えば、LFW (Labeled Faces in the Wild)データセットによる検証タスクは、しばしば顔検証に使用されてきた。
多くの顔識別タスク(例えば、MegaFace及びLFW)は、ギャラリー集合内の画像とクエリ集合の間の類似性比較に基づいており、これは、本質的に、人の身元を推定するためのK‐最近傍(K‐Neight‐Nevihould)法である。理想的な場合には、優れた顔特徴量抽出器(クラス間距離はクラス内距離より常に大きい)があり、KNN法は人のアイデンティティを推定するのに適切である。
特徴量抽出は、データの大きな集合を記述するために必要とされるリソースの量を減らすプロセスである。複雑なデータの分析を行う場合、主な問題の1つは、関連する変数の数に起因する。多数の変数を用いた分析は、一般に、大量のメモリ及び計算能力を必要とし、分類アルゴリズムを訓練サンプルにオーバーフィットさせ、新しいサンプルにはほとんど一般化しない可能性がある。特徴量抽出は、これらの大きなデータセット問題を回避するために変数の組み合わせを構築する方法を記述する一般的な用語であり、所望の目的のために十分な精度でデータを記述する。
いくつかの例示的な実施形態では、特徴量抽出は、測定データの初期セットから始まり、有益かつ非冗長であることを意図する派生値(特徴量)を構築し、次の学習及び一般化ステップを容易にする。さらに、特徴量抽出は、(時には非常にまばらなデータを伴う)大きなベクトルを、同じ又は類似の量の情報を捕捉する、より小さなベクトルに減少させることなど、次元数の減少に関係している。
初期特徴量のサブセットを決定することは、特徴量選択と呼ばれる。選択された特徴量は、入力データからの関連情報を含むことが期待され、それにより、所望のタスクは、完全な初期データの代わりに、この縮小表現を使用することによって実行され得る。DNNは、各層が機能を実行する層のスタックを利用する。例えば、層は、畳み込み、非線形変換、平均の計算などであり得る。最終的に、このDNNは、分類器414によって出力を生成する。図4において、データは左から右へ移動し、特徴量が抽出される。ニューラルネットワークの訓練の目的は、所望のタスクに適切なすべての層のパラメータを見つけることである。
図4に示すように、層406では「STRIDE OF 4」フィルタを適用し、層407~413では最大プーリング(MAX
POOLING)を適用する。ストライド(STRIDE)は、フィルタが入力ボリュームの周りで(around the input volume)如何に畳み込むかを制御する。「STRIDE
OF 4」は、4つのユニットを一度に入力ボリュームの周りで畳み込むフィルタをいう。MAX POOLINGとは、各々のmaxプーリングされた領域の最大値を選択することによって、ダウンサンプリングすることを指す。
いくつかの例示的な実施形態では、各層の構造は、予め定義される。例えば、畳み込み層は、小さな畳み込みカーネル及びそれらのそれぞれの畳み込みパラメータを含むことができ、加算層は、入力画像の2つのピクセルの和又は重み付けされた和を計算することができる。訓練は、加算の重み係数を定義する際に役立つ。
DNNの性能を向上させる一つの方法は、特徴量抽出層のためのより新しい構造を識別することであり、別の方法は、所望のタスクを達成するために異なる層においてパラメータを識別する方法を改善することである。課題は、典型的なニューラルネットワークでは、最適化されるべき何百万ものパラメータが存在し得ることである。これらのパラメータをすべてゼロから最適化しようとすると、利用可能な計算リソースの量と訓練セット内のデータの量に応じて、数時間、数日、又は数週間を要する場合がある。
図5は、いくつかの実施形態に従った計算機500のブロック図を示す。いくつかの実施形態において、計算機500は、図5の回路ブロック図に示される構成要素を格納することができる。例えば、回路500は、プロセッサ502内に存在してもよく、「処理回路」と称されてもよい。他の実施形態では、計算機500は、スタンドアロン装置として動作してもよく、又は、他のコンピュータに接続(例えば、ネットワーク接続)されてもよい。ネットワーク化された展開では、計算機500は、サーバ、クライアント、又はその両方として、サーバ-クライアントネットワーク環境で動作することができる。一例では、計算機500は、ピア・ツー・ピア(P2P) (又は他の分散)ネットワーク環境においてピア・マシンとして動作することができる。本明細書では、P2P、デバイス間(D2D)、及びサイドリンクという語句を互換的に使用される。計算機500は、専用コンピュータ、パーソナルコンピュータ、タブレットPC、パーソナル・デジタル・アシスタント、移動電話、スマートフォン、ウェブ機器、ネットワーク・ルータ、スイッチ又はブリッジ、又はその機械がとるべき行動を特定する命令を実行することができる任意の機械であってもよい。
本明細書に記載されるように、例は、ロジック又は多数のコンポーネント、モジュール、又はメカニズムを含み得るか、又はそれらに基づいて動作し得る。モジュール及びコンポーネントは、特定の操作を実行することができる有形のエンティティ(例えば、ハードウェア)であり、特定の方法で構成又は配置することができる。一実施形態では、回路は、特定の方法で(例えば、内部的に、又は他の回路などの外部エンティティに対して)、モジュールとして配置されてもよい。一実施形態では、1つ以上のコンピュータシステム/装置(例えば、スタンドアロン、クライアント又はサーバコンピュータシステム)又は1つ以上のハードウェアプロセッサの全体又は一部は、指定された動作を実行するために動作するモジュールとして、ファームウェア又はソフトウェア(例えば、命令、アプリケーション部分、又はアプリケーション)によって構成されてもよい。一実施形態では、ソフトウェアは、機械可読媒体上に存在してもよい。一例では、ソフトウェアは、モジュールの基礎となるハードウェアによって実行されると、ハードウェアに指定された操作を実行させる。
従って、用語「モジュール」(及び「構成要素」)は、有形の実体を包含するものと理解される。すなわち、特定の方法で動作するか、又は本明細書に記載される任意の動作の一部若しくは全部を実行するために、物理的に構築され、具体的に構成され(例えば、ハードワイヤード)、又は一時的に(例えば、トランジトリーに)構成される実体である。モジュールが一時的に構成されている例を考慮すると、各モジュールは一時的にインスタンス化される必要はない。例えば、モジュールがソフトウェアを用いて構成された汎用ハードウェアプロセッサを含む場合、汎用ハードウェアプロセッサは、異なる時刻にそれぞれの異なるモジュールとして構成されてもよい。従って、ソフトウェアは、ハードウェアプロセッサを、例えば、ある時点で特定のモジュールを構成し、異なる時点で異なるモジュールを構成するように構成することができる。
計算機500は、ハードウェアプロセッサ502(例えば、中央処理装置、GPU、ハードウェア・プロセッサ・コア、又はそれらの任意の組み合わせ)、メインメモリ504、及びスタティックメモリ506を含んでもよく、それらの一部又は全部は、インターリンク(例えば、バス)508を介して互いに通信することができる。図示されていないが、メインメモリ504は、リムーバブル記憶装置及び非リムーバブル記憶装置、揮発性メモリ、又は不揮発性メモリのいずれか又は全てを含んでもよい。計算機500は、さらに、ビデオ表示ユニット510(又は他の表示ユニット)、英数字入力デバイス512(例えば、キーボード)、及びユーザインターフェースナビゲーションデバイス514(例えば、マウス)を含んでもよい。一実施形態では、表示ユニット510、入力装置512、及びUIナビゲーション装置514は、タッチスクリーン表示であってもよい。計算機500は、さらに、記憶装置(例えば、駆動ユニット)516、信号発生デバイス518(例えば、スピーカ)、ネットワークインターフェースデバイス520、及び、全地球測位システムセンサ、コンパス、加速度計、又は他のセンサなどの1つ以上のセンサ521を含んでもよい。計算機500は、1つ又は複数の周辺装置(例えば、プリンタ、カードリーダなど)を通信又は制御するために、シリアル(例えば、ユニバーサルシリアルバス)、パラレル、又は他の有線又は無線(例えば、赤外線(IR)、近接場通信(NFC)など)接続などの出力コントローラ528を含んでもよい。
駆動ユニット516(例えば、記憶装置)は、本明細書に記載される技術又は機能のうちの任意の1つ又は複数によって具体化又は利用される、1つ又は複数のセットのデータ構造又は命令(例えば、ソフトウェア)が記憶される機械可読媒体522を含んでもよい。また、命令524は、計算機500による実行中に、メインメモリ504内、スタティックメモリ506内、又はハードウェアプロセッサ502内に、完全に又は少なくとも部分的に存在してもよい。一実施形態では、ハードウェアプロセッサ502、メインメモリ504、スタティックメモリ506、又は記憶装置516の1つ又は任意の組み合わせが、機械可読媒体を構成することができる。
機械可読媒体522は単一の媒体として示されているが、用語「機械可読媒体」は、1つ以上の命令524を記憶するように構成された単一の媒体又は複数の媒体(例えば、集中型又は分散型データベース、及び/又は関連するキャッシュ及びサーバ)を含んでもよい。
用語「機械可読媒体」は、計算機500による実行のための命令を記憶し、符号化し、又は運ぶことができ、計算機500に本開示の技術のうちのいずれか1つ以上を実行させる、又はそのような命令によって使用されるか又は関連するデータ構造を記憶し、符号化し、又は運ぶことができる任意の媒体を含んでもよい。非限定的な機械可読媒体の例としては、固体メモリ、光媒体及び磁気媒体が挙げられる。機械可読媒体の特定の例は、半導体メモリデバイス(例えば、電気的にプログラマブル読取り専用メモリ)、電気的に消去可能なプログラマブル読取り専用メモリ(EEPROM)及びフラッシュメモリデバイスなどの不揮発性メモリ、内部ハードディスク及び取り外し可能ディスクなどの磁気ディスク、光磁気ディスク、ランダムアクセスメモリ(RAM)、並びにCD-ROM及びDVD-ROMディスクを含み得る。いくつかの実施例において、機械可読媒体は、非一時的機械可読媒体を含んでもよい。いくつかの実施例において、機械可読媒体は、一時的な伝搬信号ではない機械可読媒体を含んでもよい。
命令524は、さらに、多数の転送プロトコル(例えば、フレームリレー、インターネットプロトコル、伝送制御プロトコル、ユーザデータグラムプロトコル、ハイパーテキスト転送プロトコルなど)のうちの任意の1つを使用して、ネットワークインターフェース装置520を介して伝送媒体を使用して通信ネットワーク526を介して送信又は受信されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、パケットデータネットワーク(例えば、インターネット)、移動電話ネットワーク(例えば、セルラーネットワーク)、Plain Old Telephone (POTS)ネットワーク、及び無線データネットワーク(例えば、Wi-Fiとして知られる規格のInstitute of Electrical and Electronics Engineers (IEEEE)802.11ファミリー、WiMaxとして知られる規格のIEEE 802.16ファミリー)、標準のIEEE 802.15.4ファミリー、標準のLTEファミリー、標準のUniversal Mobile Telecommunication system (UMTS)ファミリー、標準のPeer-to-Peer(P2P)ネットワークなどが挙げられる。一実施形態では、ネットワークインターフェース装置520は、通信ネットワーク526に接続するための1つ以上の物理的なジャック(例えば、イーサネット、同軸、又は電話ジャック)又は1つ以上のアンテナを含んでもよい。
図6は、いくつかの実施形態による、人工画像生成のためのデータフローダイアグラム600である。データフローダイアグラム600に示されるように、一組の実SAR画像(real SAR images)610が、自動エンコーダ640のサブエンコーダ641に提供される。いくつかの実施例では、実SAR画像のセット610は、画像認識装置を用いて認識されるべきターゲット対象に対応する。いくつかの実施例では、実SAR画像のセット610は、ターゲット対象とは異なる第1対象に対応し、第1対象とターゲット対象との間の差のセットは、TSB(target shadow back-ground mask)画像(TSB IMAGES)のセット630において表される(ターゲット対象の実SAR画像が存在しないこともある)。図示のように、データフローダイアグラム600は、ボクセルモデル(VOXEL MODEL)620を含む。ボクセルモデル620は、ターゲット対象の三次元グリッドモデルである。ボクセルモデル620は、複数のボクセルを含み、これらのボクセルは、ターゲット対象のエッジに対応する3Dグリッド内の位置である。ボクセルモデル620は、ターゲット対象のTSB画像630のセットを生成するために使用される。TSB画像630の集合は、背景、ターゲット対象、及びターゲット対象のシャドウの表現を含む。ターゲット対象のシャドウの位置は、ターゲット対象のボクセルモデル620、背景テクスチャ、及び光源(例えば、ランプ又は太陽)の割り当てられた、推定された、又は識別された位置に基づいて計算され得る。
ターゲット対象のTSB画像のセット630は、自動エンコーダ640に提供され、自動エンコーダ640は、ターゲット対象の人工SAR画像(ARTIFICIAL SAR IMAGES )650を生成する。図示のように、自動エンコーダは、潜在ベクトル(LATENT VECTOR)642を生成するサブエンコーダ641を含む。潜在ベクトル642は、サブデコーダ643に送られ、サブデコーダ643は、人工SAR画像650を生成する。スキップ接続644は、サブエンコーダ641からサブデコーダ643への直接接続を可能にする。サブエンコーダ641及びサブデコーダ643は、機械学習技術を介して学習される学習訓練重み(LEARNING TRAINING WEIGHTS)645にアクセスする。サブエンコーダ641は、自動エンコーダ640の入力、すなわち、TSB画像のセット630及び実SAR画像610を受信する。
いくつかの実施例によれば、サブエンコーダ641は、複数の畳み込み層(multiple convolution layers)及び畳み込み層を散在させた複数のプーリング層(multiple pooling layers)を含む。サブエンコーダ641は、第1の機械学習訓練アルゴリズムを使用して訓練され、TSB(ターゲットシャドウバックグラウンドマスク)画像630のセットに基づいて潜在ベクトル642を生成する。いくつかの実施例によれば、サブデコーダ643は、複数の逆畳み込み(deconvolution)層及び逆畳み込み層を散在させた複数のデプーリング(depooling layers)層を含む。サブデコーダ643は、第2の機械学習訓練アルゴリズムを使用して訓練され、潜在ベクトル642に基づいて1つ以上の人工SAR画像650を生成する。
自動エンコーダ640は、JSON (JavaScript Object Notification)又は任意の他のプログラミング言語で符号化することができる。場合によっては、自動エンコーダ640は、ハードウェア装置であってもよく、自動エンコーダは、一部のソフトウェア及び一部のハードウェアであってもよい。
いくつかの実施例では、サブエンコーダ641は、複数の畳み込みプール(convolution pools)を含む。各畳み込みプールの後に、バッチ正規化が続く。各バッチ正規化の後に、ReLU (整流線形ユニット(rectified linear unit))が続く。さらに、サブエンコーダ641の各畳み込みプールのカーネルサイズは、サブエンコーダ641の以前の畳み込みプールのカーネルサイズよりも大きい。
いくつかの実施例では、サブデコーダ643は、複数のスキップ接続を含む。各スキップ接続の後にバッチ正規化が続く。各バッチの規格化の後にReLUが続く。各ReLUには、デコードコンボリューション(decode convolution)が続く。さらに、サブデコーダ643の各デコードコンボリューションのカーネルサイズは、サブデコーダ643の以前のデコードコンボリューションのカーネルサイズよりも小さい。
JSONコードは、自動エンコーダ640に使用することができる。しかしながら、別のプログラミング言語が、自動エンコーダ640を実装するために使用されてもよいことに留意されたい。ある場合には、自動エンコーダ640は、完全に又は部分的にハードウェアで実装される。
図7は、いくつかの実施形態に従った、実画像及び人工画像を使用して画像認識器を訓練するためのデータフローダイアグラム700である。図示のように、実画像及び人工画像は、実SAR画像610及び図6からの人工SAR画像650に対応し得る。実SAR画像610及び人工SAR画像650は、画像認識装置710に提供され、画像認識装置710がターゲット対象を認識するよう訓練される。画像認識装置710は、ResNet (残留ニューラルネットワーク(residual neural network))であってもよく、ResNetを訓練するための任意の技術を使用してもよい。場合によっては、ターゲット対象の実際のSAR画像610が存在しない場合(又は、実際のSAR画像610が、ターゲット対象とは異なる第1対象に対応する場合)、人工SAR画像650(実際のSAR画像610ではなく)のみが、画像認識装置の訓練重み720に関連して画像認識装置710を訓練するために使用され、これは、機械学習技術を用いて訓練中に学習され得る。訓練後、画像認識装置710は、画像認識装置710が訓練されたことを示す表示を出力してもよい。画像認識装置710が訓練された後、画像認識装置710は、ターゲット対象の画像を認識するため、及び/又は画像内のターゲット対象を認識するために使用されてもよい。
図8は、いくつかの実施態様による、人工画像生成のための第1方法800のフローチャートである。方法800は、計算機500のような計算機で実装することができる。
動作810において、計算機は、ターゲット対象のボクセルモデル620を受信する。ターゲット対象は、画像認識装置710を用いて認識される。
動作820において、計算機は、ボクセルモデル620に基づいて、ターゲット対象のTSB画像630のセットを生成する。
動作830において、計算機は、自動エンコーダ640において、ターゲット対象の実画像610のセットを受信する。
動作840において、計算機は、自動エンコーダ640を使用して、TSB画像630の集合(set)に基づいて、ターゲット対象の1つ以上の人工SAR画像650を生成する。自動エンコーダ640は、サブエンコーダ641を使用して、TSB画像630のセットを潜在ベクトル642にエンコードする。自動エンコーダ640は、サブデコーダ643を使用して、潜在ベクトル642をデコードし、1つ以上の人工SAR画像650を生成する。
動作850において、計算機は、出力として、ターゲット対象の1つ以上の人工SAR画像650を生成する。場合によっては、計算機は、実SAR画像610のセットと、1つ以上の人工SAR画像650とを用いて、画像認識器710を用いて、ターゲット対象を認識する。計算機は、出力として、画像認識装置が訓練されたことの指示を提供する。計算機は、画像認識装置を使用して、ターゲット対象の新しい画像を認識することができ、新しい画像は、実SAR画像610及び/又は1つ以上の人工SAR画像650の集合の中からではない。操作850の後、方法800は終了する。
図9は、いくつかの実施態様に従った、人工画像生成のための第2方法900のフローチャートである。方法900は、計算機500のような計算機で実装することができる。方法900の操作910~950のいくつかは、方法800の対応する操作810~850と類似してもよい。差異は、以下及び図8~9に示す。
動作910において、計算機は、ターゲット対象620とは異なる第1対象のボクセルモデルを受信する。ターゲット対象は、画像認識装置710を用いて認識される。場合によっては、ターゲット対象のイメージが全くないか、ごくわずかしか利用できないことがある。いくつかの実施例では、受信した入力は、ターゲット対象の実際のSAR画像を欠いている。なお、ターゲット対象は、第1対象とは異なるが、ターゲット対象と第1対象は、複数の類似の特徴を共有することがあり、場合によっては、わずかに異なるだけである。例えば、Honda Accord(登録商標) 2019がリリースされた2018年末には、1つ目のオブジェクトが「Honda Accord 2018」(画像が多数存在する)に対応し、対象オブジェクトが「Honda Accord 2019」(画像が存在しない、画像が少ないが、Honda Motor Company(登録商標)では「2018」と「Honda Accord 2019」の相違点がリリースされている)に対応する場合がある。
動作920において、計算機は、ボクセルモデル620に基づいて、第1対象のTSB画像630のセットを生成する。
動作930において、計算機は、自動エンコーダ640において、第1対象の実SAR画像610のセットを受信する。
動作940において、計算機は、自動エンコーダ640を使用して、TSB画像630の集合に基づいて、ターゲット対象の1つ以上の人工SAR画像650を生成する。ボクセルモデル620及びTSB画像630のセットは、第1のオブジェクトのものである。場合によっては、トレーニング中に、自動エンコーダは、ターゲット対象と最初のオブジェクトとの間の差異を学習する。自動エンコーダ640は、サブエンコーダ641を使用して、TSB画像のセット630(場合によっては、第1対象とターゲット対象との間の差を含むことがある)を潜在ベクトル642に符号化する。自動エンコーダ640は、サブデコーダ643を使用して、潜在ベクトル642をデコードし、1つ以上の人工SAR画像650を生成する。
動作950において、計算機は、出力として、ターゲット対象の1つ以上の人工SAR画像650を生成する。場合によっては、計算機は、1つ以上の人工SAR画像650を使用して、画像認識器710を訓練し、ターゲット対象を認識する。計算機は、出力として、画像認識装置が訓練されたことを示す指示を提供する。計算機は、画像認識装置を使用して、ターゲット対象の新しい画像を認識することができ、新しい画像は、1つ以上の人工SAR画像650の中からではない。新しい画像は、画像認識装置の訓練よりも後の時点で生成されてもよい。例えば、「Honda Accord 2019」の新しいイメージは、2020年夏に生まれる可能性がある。操作950の後、方法900は終了する。
特定の例示的な実施形態を参照して実施形態を説明してきたが、本開示のより広い精神及び範囲から逸脱することなく、これらの実施形態に様々な修正及び変更を加えることができることは明らかであろう。したがって、明細書及び図面は、限定目的ではなく例示目的であるものと見なされるべきである。本明細書の一部を構成する添付の図面は、例示としてであって、主題が実施され得る特定の実施形態を限定するものではなく示している。説明された実施形態は、当業者がここで開示された教示を実施できるように、十分に詳細に記載されている。本開示の範囲から逸脱することなく、構造的及び論理的な置換及び変更を行うことができるように、他の実施形態を利用し、そこから導き出すことができる。従って、この詳細な説明は、限定的な意味で解釈されるべきではなく、種々の実施形態の範囲は、添付の特許請求の範囲が権利を有する均等物の全範囲と共に、添付の特許請求の範囲によってのみ定義される。
本明細書では、特定の実施形態が例示され説明されてきたが、同じ目的を達成するために計算された任意の配置が、示された特定の実施形態の代わりに使用され得ることを理解されたい。本開示は、種々の実施形態のすべての適合又は変形をカバーすることを意図している。上述の実施形態と本明細書に具体的に記載されていない他の実施形態との組み合わせは、上述の説明を検討することによって当業者に明らかとなるであろう。
この文献において、用語「a」又は「an」は、特許文献において、「少なくとも1つ」又は「1つ以上」の他の例又は用法とは無関係に、1つ以上を含むために使用されている。この文献において、用語「or」は、非排他的なものを指すために使用されているか、又は「A又はB」が「BではなくA」、「AではなくB」、「A及びB」を含むように使用されている。この英語原文文献において、用語「including」及び「in which」は、それぞれの「comprising」及び「wherein」の平易な英語相当語として使用されている。また、以下の請求項において、「including」及び「comprising」は、オープンエンドである。すなわち、システム、ユーザ装置(UE)、物品、組成物、組成物、又は方法は、クレームにおいて列挙されていない構成要素を含んでいても、権利範囲に属する。また、以下の特許請求の範囲においては、「第1」、「第2」及び「第3」等の用語は、単にラベルとして使用されており、それらの目的に数値的な要件を課すことを意図していない。
本開示の要約は、読者が技術的開示の性質を迅速に確認できるように提供される。要約書は、特許請求の範囲を解釈又は限定するために使用されないことを理解されたい。さらに、前述の詳細な説明では、開示を合理化する目的で、種々の特徴が単一の実施形態にまとめられていることが分かる。この開示方法は、クレームに記載された実施形態が、各クレームに明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、請求項に示すように、新規の主題は、単一の開示実施形態の全ての特徴より少ない特徴にある。従って、以下の請求項は、本明細書の詳細な説明に組み込まれ、各請求項は、別個の実施形態に対応する。

Claims (13)

  1. 処理回路及びメモリを含む画像処理装置であって、前記処理回路が:
    画像認識装置を用いて認識されるべきであるターゲット対象のボクセルモデルを受信し;
    前記ボクセルモデルに基づいて、前記ターゲット対象のターゲットシャドウバックグラウンドマスク画像のセットを生成し;
    オートエンコーダで、前記ターゲット対象の実画像のセットを受信し;
    前記オートエンコーダを使用し前記実画像のセットに基づいて、前記ターゲットシャドウバックグラウンドマスク画像のセットに基づ前記ターゲット対象の1つ以上の人工画像を生成し、ここで前記オートエンコーダは、訓練されたサブエンコーダを使用して前記ターゲットシャドウバックグラウンドマスク画像のセットを潜在ベクトルへとエンコードし、訓練されたサブデコーダを使用して前記潜在ベクトルをデコードして前記1つ以上の人工画像を生成し、前記サブエンコーダは、複数の畳み込みプールを含み、各前記畳み込みプールにはバッチ正規化が続き、各前記バッチ正規化には整流線形ユニットが続き、各前記畳み込みプールのカーネルサイズは、以前の畳み込みプールのカーネルサイズよりも大きいものであり、;そして
    出力として、生成された前記ターゲット対象の1つ以上の人工画像を提供する、
    ことを特徴とする画像処理装置。
  2. 請求項1に記載の画像処理装置であって:
    前記サブエンコーダは、複数の畳み込み層と、前記畳み込み層を散在させた複数のプーリング層とを備え、
    前記サブエンコーダは、機械学習訓練アルゴリズムを用いて、前記ターゲットシャドウバックグラウンドマスク画像のセットに基づいて前記潜在ベクトルを生成するよう訓練される、
    ことを特徴とする画像処理装置。
  3. 請求項1に記載の画像処理装置であって:
    前記サブデコーダは、複数の逆畳み込み層と、前記逆畳み込み層を散在させた複数のデプーリング層とを含み、
    前記サブデコーダは、機械学習訓練アルゴリズムを用いて、前記潜在ベクトルに基づいて前記1つ以上の人工画像を生成するように訓練される、
    ことを特徴とする画像処理装置。
  4. 請求項1に記載の画像処理装置であって、
    前記処理回路はさらに:
    前記の実画像のセットと前記の生成された1つ以上の人工画像とを用いて、前記画像認識装置を訓練し前記ターゲット対象を認識し;そして
    出力として、前記画像認識装置が訓練されたことを示す表示を提供する;
    ことを特徴とする画像処理装置。
  5. 請求項4に記載の画像処理装置であって、
    前記処理回路はさらに:
    前記の訓練された画像認識装置を使用して前記ターゲット対象の新しい画像を認識する、
    ことを特徴とする画像処理装置。
  6. 請求項4に記載の画像処理装置であって、
    前記画像認識装置は、残留ニューラルネットワークを備える、
    ことを特徴とする画像処理装置。
  7. 請求項1に記載の画像処理装置であって、
    前記サブデコーダは、複数のスキップ接続を含み、各前記スキップ接続にはバッチ正規化が続き、各前記バッチ正規化には整流線形ユニットが続き、各前記整流線形ユニットにはデコードコンボリューションが続く、
    ことを特徴とする画像処理装置。
  8. 請求項7に記載の画像処理装置であって、
    各前記デコードコンボリューションのカーネルサイズは、以前のデコードコンボリューションのカーネルサイズよりも小さい、
    ことを特徴とする画像処理装置。
  9. 命令を記憶する、画像処理のための非一時的な機械可読媒体であって、前記命令が、1つ以上の機械の処理回路によって実行されるときに前記処理回路に:
    画像認識装置を用いて認識されるべきであるターゲット対象のボクセルモデルを受信するステップ;
    前記ボクセルモデルに基づいて、前記ターゲット対象のターゲットシャドウバックグラウンドマスク画像のセットを生成するステップ;
    オートエンコーダで、前記ターゲット対象の実画像のセットを受信するステップ;
    前記オートエンコーダを使用し前記実画像のセットに基づいて、前記ターゲットシャドウバックグラウンドマスク画像のセットに基づき前記ターゲット対象の1つ以上の人工画像を生成するステップであり、前記オートエンコーダは、訓練されたサブエンコーダを使用して前記ターゲットシャドウバックグラウンドマスク画像のセットを潜在ベクトルへとエンコードし、訓練されたサブデコーダを使用して前記潜在ベクトルをデコードして前記1つ以上の人工画像を生成し、前記サブエンコーダは、複数の畳み込みプールを含み、各前記畳み込みプールにはバッチ正規化が続き、各前記バッチ正規化には整流線形ユニットが続き、各前記畳み込みプールのカーネルサイズは、以前の畳み込みプールのカーネルサイズよりも大きい、ステップ;及び
    出力として、生成された前記ターゲット対象の1つ以上の人工画像を提供するステップ;
    を実行させる命令である、
    ことを特徴とする機械可読媒体。
  10. 請求項9に記載の機械可読媒体であって、
    前記サブエンコーダは、機械学習訓練アルゴリズムを用いて、前記ターゲットシャドウバックグラウンドマスク画像のセットに基づいて前記潜在ベクトルを生成するよう訓練される、
    ことを特徴とする機械可読媒体。
  11. 請求項9に記載の機械可読媒体であって:
    前記サブデコーダは、複数の逆畳み込み層と、前記逆畳み込み層を散在させた複数のデプーリング層とを含み、
    前記サブデコーダは、機械学習訓練アルゴリズムを用いて、前記潜在ベクトルに基づいて前記1つ以上の人工画像を生成するように訓練される、
    ことを特徴とする機械可読媒体。
  12. 請求項9に記載の機械可読媒体であって、
    前記処理回路はさらに:
    前記の実画像のセットと前記の生成された1つ以上の人工画像とを用いて、前記画像認識装置を訓練し前記ターゲット対象を認識し;そして
    出力として、前記画像認識装置が訓練されたことを示す表示を提供する;
    ことを特徴とする機械可読媒体。
  13. 請求項12に記載の機械可読媒体であって、
    前記処理回路はさらに:
    前記の訓練された画像認識装置を使用して前記ターゲット対象の新しい画像を認識する、
    ことを特徴とする機械可読媒体。
JP2021525568A 2018-11-27 2019-08-23 人工画像生成用コンピュータアーキテクチャ Active JP7214863B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862771802P 2018-11-27 2018-11-27
US62/771,802 2018-11-27
PCT/US2019/047985 WO2020112188A1 (en) 2018-11-27 2019-08-23 Computer architecture for artificial image generation

Publications (2)

Publication Number Publication Date
JP2022507144A JP2022507144A (ja) 2022-01-18
JP7214863B2 true JP7214863B2 (ja) 2023-01-30

Family

ID=67876094

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021525568A Active JP7214863B2 (ja) 2018-11-27 2019-08-23 人工画像生成用コンピュータアーキテクチャ

Country Status (4)

Country Link
US (1) US11195053B2 (ja)
EP (1) EP3888008A1 (ja)
JP (1) JP7214863B2 (ja)
WO (1) WO2020112188A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3888008A1 (en) 2018-11-27 2021-10-06 Raytheon Company Computer architecture for artificial image generation
US11585918B2 (en) * 2020-01-14 2023-02-21 Raytheon Company Generative adversarial network-based target identification
CN112070151B (zh) * 2020-09-07 2023-12-29 北京环境特性研究所 一种mstar数据图像的目标分类识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017162456A (ja) 2016-03-11 2017-09-14 株式会社東芝 道路シーンのセマンティックセグメンテーションのための制約付きデコンボリューションネットワークのトレーニング
US20170350974A1 (en) 2016-04-29 2017-12-07 The Boeing Company Methods and systems for model based automatic target recognition in sar data
JP2018077786A (ja) 2016-11-11 2018-05-17 株式会社東芝 画像処理装置、画像処理方法、プログラム、運転制御システム、および、車両
JP2018163554A (ja) 2017-03-27 2018-10-18 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
JP2018181124A (ja) 2017-04-18 2018-11-15 Kddi株式会社 エンコーダデコーダ畳み込みニューラルネットワークにおける解像感を改善するプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5559950A (en) * 1994-02-02 1996-09-24 Video Lottery Technologies, Inc. Graphics processor enhancement unit
US7359562B2 (en) * 2003-03-19 2008-04-15 Mitsubishi Electric Research Laboratories, Inc. Enhancing low quality videos of illuminated scenes
US9922437B1 (en) * 2013-03-15 2018-03-20 William S. Baron Process for creating an augmented image
KR102565279B1 (ko) * 2018-08-23 2023-08-09 삼성전자주식회사 객체 검출 방법, 객체 검출을 위한 학습 방법 및 그 장치들
US10229346B1 (en) * 2018-09-04 2019-03-12 StradVision, Inc. Learning method, learning device for detecting object using edge image and testing method, testing device using the same
EP3888008A1 (en) 2018-11-27 2021-10-06 Raytheon Company Computer architecture for artificial image generation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017162456A (ja) 2016-03-11 2017-09-14 株式会社東芝 道路シーンのセマンティックセグメンテーションのための制約付きデコンボリューションネットワークのトレーニング
US20170350974A1 (en) 2016-04-29 2017-12-07 The Boeing Company Methods and systems for model based automatic target recognition in sar data
JP2018077786A (ja) 2016-11-11 2018-05-17 株式会社東芝 画像処理装置、画像処理方法、プログラム、運転制御システム、および、車両
JP2018163554A (ja) 2017-03-27 2018-10-18 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
JP2018181124A (ja) 2017-04-18 2018-11-15 Kddi株式会社 エンコーダデコーダ畳み込みニューラルネットワークにおける解像感を改善するプログラム

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BADRINARAYANAN, V. et al.,SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation,IEEE Transactions on Pattern Analysis and Machine Intelligence [online],2017年12月,Vol. 39, No. 12,pp. 2481-2495,[検索日 2021.02.03],インターネット,URL:https://ieeexplore.org/document/7803544
DENG, S. et al. ,SAR Automatic Target Recognition Based on Euclidean Distance Restricted Autoencoder,IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing [online],IEEE,2017年07月,Vol. 10, No. 7,pp. 3323 - 3333,[検索日 2022.06.23], インターネット,URL:https://ieeexplore.ieee.org/document/7879824
GIRDHAR, R. et al.,Learning a Predictable and Generative Vector Representation for Objects [online],2016年08月31日,pp. 1-16,[検索日 2022.06.23], インターネット,URL:https://arxiv.org/pdf/1603.08637.pdf
中原啓貴 外2名,3状態CNNを用いたYOLOv2のFPGA実現に関して,電子情報通信学会技術研究報告,一般社団法人電子情報通信学会,2018年05月17日,Vol. 118, No. 63,pp. 87-92
柳部 正樹 外6名,電子部品検査精度の向上のためのオートエンコーダを用いた欠陥画像生成手法の検討,2018年度精密工学会秋季大会講演論文集 [online],公益社団法人精密工学会,2018年08月20日,pp. 632-633,[検索日 2022.06.23], インターネット,URL:https://www.jstage.jst.go.jp/article/pscjspe/2018A/0/2018A_632/_article/-char/ja/

Also Published As

Publication number Publication date
EP3888008A1 (en) 2021-10-06
US20200167605A1 (en) 2020-05-28
JP2022507144A (ja) 2022-01-18
WO2020112188A1 (en) 2020-06-04
US11195053B2 (en) 2021-12-07

Similar Documents

Publication Publication Date Title
JP7250126B2 (ja) 自動エンコーダを用いる人工画像生成のためのコンピュータアーキテクチャ
JP7225395B2 (ja) 動的再構成訓練コンピュータアーキテクチャ
US11585918B2 (en) Generative adversarial network-based target identification
US11068747B2 (en) Computer architecture for object detection using point-wise labels
US11037027B2 (en) Computer architecture for and-or neural networks
US11593619B2 (en) Computer architecture for multiplier-less machine learning
JP7214863B2 (ja) 人工画像生成用コンピュータアーキテクチャ
US11763551B2 (en) Systems and methods for fine tuning image classification neural networks
WO2020171904A1 (en) Human body part segmentation with real and synthetic images
US11003909B2 (en) Neural network trained by homographic augmentation
WO2021137910A2 (en) Computer architecture for resource allocation for course of action activities
US20220269991A1 (en) Evaluating reliability of artificial intelligence
US11587323B2 (en) Target model broker
US20230162028A1 (en) Extracting and transferring feature representations between models
US11315352B2 (en) Calculating the precision of image annotations
US20240028931A1 (en) Directed Acyclic Graph of Recommendation Dimensions
US20230092949A1 (en) System and method for estimating model metrics without labels

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230118

R150 Certificate of patent or registration of utility model

Ref document number: 7214863

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150