JP7250126B2 - 自動エンコーダを用いる人工画像生成のためのコンピュータアーキテクチャ - Google Patents

自動エンコーダを用いる人工画像生成のためのコンピュータアーキテクチャ Download PDF

Info

Publication number
JP7250126B2
JP7250126B2 JP2021525732A JP2021525732A JP7250126B2 JP 7250126 B2 JP7250126 B2 JP 7250126B2 JP 2021525732 A JP2021525732 A JP 2021525732A JP 2021525732 A JP2021525732 A JP 2021525732A JP 7250126 B2 JP7250126 B2 JP 7250126B2
Authority
JP
Japan
Prior art keywords
images
sub
image
target object
tsb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021525732A
Other languages
English (en)
Other versions
JP2022507255A (ja
Inventor
キム,ピーター
ジェイ. サンド,マイケル
ディー. ホーレンベック,マシュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Raytheon Co
Original Assignee
Raytheon Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Raytheon Co filed Critical Raytheon Co
Publication of JP2022507255A publication Critical patent/JP2022507255A/ja
Application granted granted Critical
Publication of JP7250126B2 publication Critical patent/JP7250126B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/60Shadow generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Geometry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

[優先権の主張]
本願は、35U.S.C.§119に基づき米国仮特許出願番号第62/771,808号、2018年11月27日出願、名称「COMPUTER ARCHITECTURE FOR ARTIFICIAL IMAGE GENERATION USING AUTO-ENCODER」の優先権を主張する。該仮出願は参照によりその全体がここに組み込まれる。
[技術分野]
実施形態は、コンピュータアーキテクチャに関する。幾つかの実施形態は、機械学習のためのコンピュータアーキテクチャに関する。幾つかの実施形態は、機械学習で使用するための人工画像を生成するためのコンピュータアーキテクチャに関する。
機械学習は、画像認識のような多くの目的で有用である。幾つかの例では、所与のオブジェクトの画像を認識するよう機械をトレーニングするために、膨大な数の画像が利用可能である。しかしながら、幾つかの他のオブジェクトについては、少ない画像しか利用可能ではなく、或いは全く利用可能な画像がない。前述の説明のように、所与のオブジェクトの利用可能な画像が少ない又は全く無い場合に、該所与のオブジェクトを認識するよう機械をトレーニングするために機械学習を使用することが望ましいことがある。
本開示は、概して、人工画像生成を提供するよう構成される機械であって、このような専用機械のコンピュータ化された変形及びこのような変形に対する改良を含む機械、並びに、このような専用機械がニューラルネットワークのための技術を提供する他の専用機械と比べて改良される技術、に関する。特に、本開示は、人工画像生成のためのシステム及び方法を記載する。
ここに記載される技術の幾つかの態様によると、機械学習機器は処理回路とメモリとを含む。処理回路は、入力として、ターゲットオブジェクトの現実のSAR(synthetic-aperture radar)画像セットを受信し、ターゲットオブジェクトは画像認識器を用いて認識される。処理回路は、現実のSAR画像セットに基づき、ターゲットオブジェクトのボクセルモデルを生成する。処理回路は、ボクセルモデルに基づき、ターゲットオブジェクトのTSB(target shadow background-mask)画像セットを生成する。処理回路は、自動エンコーダを用いて、TSB画像セットに基づき、ターゲットオブジェクトの1つ以上の人工SAR画像を生成する。自動エンコーダは、サブエンコーダを用いて、TSB画像セットを潜在ベクトルへと符号化し、サブデコーダを用いて、潜在ベクトルを復号して、1つ以上の人工SAR画像を生成する。処理回路は、ターゲットオブジェクトの生成された1つ以上の人工SAR画像を出力として提供する。
ここに記載される技術の幾つかの態様によると、機械学習機器は処理回路とメモリとを含む。処理回路は、入力として、第1オブジェクトセットの現実SAR(synthetic-aperture radar)画像セット、及び、第1オブジェクトセットと第1オブジェクトセットと異なるターゲットオブジェクトとの間の差分セット、を受信する。ターゲットオブジェクトは画像認識器を用いて認識される。処理回路は、第1オブジェクトセットの現実SAR画像セット及び差分セットに基づき、ターゲットオブジェクトのボクセルモデルを生成する。処理回路は、ボクセルモデルに基づき、ターゲットオブジェクトのTSB(target shadow background-mask)画像セットを生成する。処理回路は、自動エンコーダを用いて、TSB画像セットに基づき、ターゲットオブジェクトの1つ以上の人工SAR画像を生成する。自動エンコーダは、サブエンコーダを用いて、TSB画像セットを潜在ベクトルへと符号化し、サブデコーダを用いて、潜在ベクトルを復号して、1つ以上の人工SAR画像を生成する。処理回路は、ターゲットオブジェクトの生成された1つ以上の人工SAR画像を出力として提供する。
他の態様は、上述の処理回路の動作を実行する方法、処理回路に上述の動作を実行させるための命令を格納している機械可読媒体、を含む。
幾つかの実施形態による、機械学習プログラムのトレーニング及び使用を示す。
幾つかの実施形態による例示的なニューラルネットワークを示す。
幾つかの実施形態による、画像認識機械学習プログラムのトレーニングを示す。
幾つかの実施形態による、特徴抽出処理及び分類器トレーニングを示す。
幾つかの実施形態による、計算機のブロック図である。
幾つかの実施形態による、人工画像生成のためのデータフロー図である。
幾つかの実施形態による、現実及び人工画像を用いて画像認識器をトレーニングするためのデータフロー図である。
幾つかの実施形態による、人工画像生成のための第1方法のフローチャートである。
幾つかの実施形態による、人工画像生成のための第2方法のフローチャートである。
以下の説明及び図面は、特定の実施形態を、当業者がそれらを実施できるように十分に説明する。他の実施形態は、構造的、論理的、電気的、処理、及び他の変更を組み込んでよい。幾つかの実施形態の部分及び特徴は、他の実施形態の部分及び特徴に含まれ又はそれを置き換えてよい。請求の範囲に記載された実施形態は、それらの請求の範囲の全部の利用可能な均等物を包含する。
上述のように、機械学習は、画像認識のような多くの目的で有用である。幾つかの例では、所与のオブジェクトの画像を認識するよう機械をトレーニングするために、膨大な数の画像が利用可能である。例えば、ボーイング747(登録商標)航空機の多数の画像が存在する。しかしながら、幾つかの他のオブジェクト(例えば、あまりよく知られていないタイプの航空機)については、少ない画像しか利用可能ではなく、或いは全く利用可能な画像がない。前述の説明のように、所与のオブジェクトの利用可能な画像が少ない又は全く無い場合に、該所与のオブジェクトを認識するよう機械をトレーニングするために機械学習を使用することが望ましいことがある。
幾つかの場合には、ターゲットオブジェクトの利用可能な画像が少数しかない又は全く画像がないが、ユーザは、ターゲットオブジェクトの画像を識別するよう画像認識ニューラルネットワークをトレーニングしたいと望むことがある。ここに記載の技術の幾つかの態様は、ターゲットオブジェクトの画像を人工的に生成することにより、この技術的問題に対するソリューションを提供する。これは、画像認識ニューラルネットワークのためのトレーニングデータの量を増大させ、それにより、トレーニングされた画像認識ニューラルネットワークの分類精度を向上する。
ここに記載した技術の幾つかの態様は、ターゲットオブジェクトの利用可能な画像が少ない又は全く無い場合に、該ターゲットオブジェクトを認識するよう機械をトレーニングするために機械学習を使用することを意図する。これを行うために、ターゲットオブジェクトの合成画像が生成されてよく、合成画像は、ターゲットオブジェクトの任意の利用可能な現実画像と一緒に、ターゲットオブジェクトの画像を認識するよう機械をトレーニングするために使用されてよい。
ここで使用されるように、用語「オブジェクト」は、その明白且つ通常の意味を包含する。オブジェクトは、特に、機械学習により認識され得る画像内に示され得るものを含んでよい。オブジェクトの例は、航空機、ボーイング747(登録商標)航空機、車両、ホンダCivic(登録商標)、スポーツ用多目的車(sport utility vehicle (SUV))、人間の顔、ドナルド・トランプ大統領の顔、犬、ゴールデンリトリバー、携帯電話機、サムスンGalaxy(登録商標)携帯電話機、等である。
幾つかの実装によると、ターゲットオブジェクトの少数の(例えば、100、1000、又は10000のような閾数より少ない)現実画像が利用可能である。計算機(又は複数の計算機)は、自動エンコーダにおいて、画像認識を用いて認識されるべきターゲットオブジェクトのTSB(target shadow background-mask)画像セットを受信する。計算機は、自動エンコーダにおいて、ターゲットオブジェクトの現実画像セットを受信する。計算機は、自動エンコーダを用いて、TSB画像セットに基づき、ターゲットオブジェクトの1つ以上の人工画像を生成する。自動エンコーダは、サブエンコーダを用いて、TSB画像セットを潜在ベクトルに符号化し、サブデコーダを用いて潜在ベクトルを復号し、1つ以上の人工画像を生成する。計算機は、ターゲットオブジェクトの生成された1つ以上の人工画像を出力として提供する。生成された人工画像及び現実画像は、ターゲットオブジェクトの画像を識別するよう画像認識器をトレーニングするために使用される。画像認識器のためのトレーニングセットは、人工画像及び現実画像の両方を含んでよい。現実及び人工画像は、SAR(synthetic-aperture radar)画像又は任意の他のタイプの2D(two-dimensional)画像であってよい。
幾つかの実装によると、ターゲットオブジェクトの現実画像が利用可能ではないが、ターゲットオブジェクトに類似する第1オブジェクトセットの多数の画像が利用可能である。例えば、ホンダCivic(登録商標)の画像が利用可能であってよく、しかし自動車XYZの画像が利用可能ではなく、自動車XYZの画像を認識するよう機械学習アルゴリズムをトレーニングすることが望ましいことがある。第1オブジェクトセットは、単一のオブジェクト又は複数のオブジェクトを含んでよい。計算機(又は複数の計算機)は、入力として、第1オブジェクトセット(例えば、ホンダCivic(登録商標))の現実SAR画像セット、及び第1オブジェクトセットとターゲットオブジェクトとの間の差分セット(例えば、ホンダCivicはHonda(登録商標)のエンブレムを有するが、自動車XYZはHondaのエンブレムの代わりにXYZのエンブレムを有する、というようなCivic(登録商標)と自動車XYZとの間の差分のセット)を受信する。計算機は、自動エンコーダにおいて、画像認識器を用いて認識されるべきターゲットオブジェクトのTSB画像セットを受信する。計算機は、自動エンコーダにおいて、第1オブジェクトセット(例えば、ホンダCivic(登録商標))の現実画像セット、及び第1オブジェクトセットとターゲットオブジェクトとの間の差分セット(例えば、ホンダCivicはHonda(登録商標)のエンブレムを有するが、自動車XYZはHondaのエンブレムの代わりにXYZのエンブレムを有する、というようなCivic(登録商標)と自動車XYZとの間の差分のセット)を受信する。計算機は、自動エンコーダを用いて、及び第1オブジェクトセットの現実画像セットと差分セットとの基づき、TSB画像セットに基づきターゲットオブジェクトの1つ以上の人工画像を生成する。自動エンコーダは、サブエンコーダを用いて、TSB画像セットを潜在ベクトルに符号化し、サブデコーダを用いて潜在ベクトルを復号し、1つ以上の人工画像を生成する。計算機は、ターゲットオブジェクトの生成された1つ以上の人工画像を出力として提供する。生成された人工画像は、ターゲットオブジェクトの画像を識別するよう機械学習アルゴリズムをトレーニングするために使用される。現実及び人工画像は、SAR(synthetic-aperture radar)画像又は任意の他のタイプの2D画像であってよい。
自動エンコーダは、ハードウェア又はソフトウェアで実装されてよい。自動エンコーダは、計算機内に存在してよく、又は計算機の外部に存在してよい。
ここで使用されるように、「現実」画像は、現実世界に存在する事物に対応する画像を含んでよい。例えば、人がデジタルカメラを用いてボーイング747航空機の写真を撮り、ボーイング747航空機の現実画像を取得してよい。ここで使用されるように、「人工」画像は、現実世界に存在する事物に対応しない、機械の生成した画像を含んでよい。例えば、機械は、ボクセルモデル、TSB画像セット、又はボーイング747航空機の任意の他の2若しくは3次元モデルに基づき、ボーイング747航空機の画像を生成してよい。更に、用語「現実」及び「人工」は、それらの明白な及び通常の意味を包含する。
ここに記載される技術の態様は、SAR画像を用いて記載される。しかしながら、代替的実施形態では、任意のタイプの2D画像がSAR画像の代わりに使用されてよい。例えば、任意のタイプの2D画像は、本願明細書に通じて記載されるように、SAR画像の代わりに使用されてよい。
図1は、幾つかの例示的な実施形態による、機械学習プログラムのトレーニング及び使用を示す。幾つかの例示的な実施形態では、機械学習プログラム(machine-learning program (MLP))は、機械学習アルゴリズム又はツールとも呼ばれ、画像認識又は機械翻訳のような機械学習タスクに関連付けられた動作を実行するために利用される。
機械学習は、明示的にプログラミングされることなく学習する能力をコンピュータに与える研究分野である。機械学習は、研究及びアルゴリズムの構成を探求し、ここではツールとも呼ばれ、既存データから学習し、新しいデータについて予測を行ってよい。このような機械学習ツールは、出力又は評価120として表現されるデータ駆動型予測又は決定を行うために、例示的なトレーニングデータ112からモデルと構築することにより動作する。例示的な実施形態は、少数の機械学習ツールに関して提示されるが、ここに提示される原理は他の機械学習ツールに適用されてよい。
幾つかの例示的な実施形態では、異なる機械学習ツールが使用されてよい。例えば、ロジスティック回帰分析(Logistic Regression (LR))、Naive-Bayes、Random Forest (RF)、ニューラルネットワーク(neural networks (NN))、マトリクス因数分解、Support Vector Machines (SVM)ツールが、ジョブポスティングを分類又はスコアリングするために使用されてよい。
機械学習における2つの共通の種類の問題は、分類問題及び回帰問題である。分類問題は、カテゴリ分類問題とも呼ばれ、幾つかのカテゴリ値のうちの1つにアイテムを分類することを目的とする(例えば、このオブジェクトはリンゴかオレンジか)。回帰アルゴリズムは、幾つかのアイテムを量子化することを目的とする(例えば、実数である値を提供することによる)。機械学習アルゴリズムは、トレーニングデータ112を利用して、結果に影響を与える、識別された特徴102の間の相関を発見する。
機械学習アルゴリズムは、データを分析して評価120を生成するために、特徴102を利用する。特徴102は、観察されている現象の個々の測定可能な特性である。特徴の概念は、線形回帰で使用される説明変数の概念に関連する。パターン認識、分類、及び回帰におけるMLPの効率的な動作のためには、知識の豊富な識別力のある独立した特徴が重要である。特徴は、数値的特徴、文字列、及びグラフのような異なるタイプのものであってよい。
1つの例示的な実施形態では、特徴102は、異なるタイプのものであってよく、メッセージ103の単語のうちの1つ以上、メッセージ概念104、通信履歴105、過去のユーザの挙動106、メッセージの主題107、他のメッセージ属性108、送信者109、及びユーザデータ110であってよい。
機械学習アルゴリズムは、トレーニングデータ112を利用して、結果又は評価120に影響を与える、識別された特徴102の間の相関を発見する120。幾つかの例示的な実施形態では、トレーニングデータ112は、通信パターンを検出する、メッセージの意味を検出する、メッセージの要約を生成する、メッセージ内のアクションアイテムを検出する、メッセージ内の緊急性を検出する、ユーザと送信者との関係を検出する、スコア属性を計算する、メッセージスコアを計算する、等のような、1つ以上の識別された特徴102及び1つ以上の評価について知られているデータであるラベル付きデータを含む。
動作114で、トレーニングデータ112及び識別された特徴102により、機械学習ツールがトレーニングされる。機械学習ツールは、特徴102がトレーニングデータ112に関連するとき、特徴102の価値を鑑定する。トレーニングの結果は、トレーニング済み機械学習プログラム116である。
機械学習プログラム116が評価を実行するために使用されるとき、新しいデータ118は、入力として、トレーニング済み機械学習プログラム116に提供され、機械学習プログラム116は、出力として評価120を生成する。例えば、メッセージがアクションアイテムについてチェックされるとき、機械学習プログラムは、メッセージコンテンツ及びメッセージメタデータを利用して、メッセージ内にアクションについての要求が存在するかどうかを決定する。
機械学習技術は、モデルに供給されるデータについて正確に予測を行うように(例えば、所与の発言の中でユーザにより何と言われたか、名詞は人物か、場所か、又は物事か、明日の天気はどんなか)、該モデルをトレーニングする。学習段階の間、モデルは、所与の入力に対して出力を正確に予測するようモデルを最適化するために、入力のトレーニングデータセットに対して開発される。一般に、学習段階は、教師有り、半教師有り、又は教師無しであってよく、トレーニング入力に対応して「正確な」出力が提供される減少レベル(decreasing level)を示す。教師有り学習段階では、出力の全部がモデルに提供され、モデルは、入力を出力にマッピングする汎用ルール又はアルゴリズムを開発するよう仕向けられる。これに対して、教師無し学習段階では、入力に対して所望の出力は提供されない。その結果、モデルは、トレーニングデータセット内の関係を発見するために、自身のルールを開発してよい。半教師有り学習段階では、不完全なラベル付きトレーニングセットが提供され、出力のうちの幾つかはトレーニングデータセットについて知られており、幾つかは知られていない。
モデルは、幾つかのエポック(epoch)(例えば、反復)の間、トレーニングデータセットに対して実行されてよい。この間、トレーニングデータセットは、モデルの結果を精緻化するために、モデルに繰り返し供給される。例えば、教師有り学習段階では、モデルは、所与の入力セットについて出力を予測するために開発され、トレーニングデータセットについて最大数の入力に対して所与の入力に対応するとして指定された出力をより信頼性高く供給するよう、幾つかのエポックに渡り評価される。別の例では、教師無し学習段階の間、モデルは、データセットをn個のグループにクラスタ化するよう開発され、それが所与の入力を所与のグループにどれだけ矛盾なく配置するか、及びそれが各エポックに渡りn個の所望のクラスタをどれだけ信頼性高く生成するか、について幾つかのエポックに渡り評価される。
エポックが実行されると、モデルは評価され、反復的方法でモデルを一層良好に精緻化することを目的として、その変数の値が調整される。種々の態様では、評価は、偽陰性に対してバイアスされ、偽陽性に対してバイアスされ、又はモデルの全体制度に関して均一にバイアスされる。値は、使用される機械学習技術に依存して、幾つかの方法で調整されてよい。例えば、遺伝子又は進化論的アルゴリズムでは、所望の出力を予測する際に最も成功するモデルの値は、後続のエポックの間に使用すべきモデルの値を開発するために使用される。これは、追加データ点を提供するためのランダム変動/変化を含んでよい。当業者は、線形回帰、ランダムフォレスト、決定木学習、ニューラルネットワーク、深層ニューラルネットワーク、等を含む、本開示と共に適用されてよい幾つかの他の機械学習アルゴリズムに精通している。
各エポックは、入力を所望の結果により近くマッピングすることに影響を与える1つ以上の変数の値を変化することにより、幾つかのエポックに渡りルール又はアルゴリズムを開発する。しかし、トレーニングデータセットが変化することがあり、好適には非常に大きいので、完璧な精度及び予測は達成できない。従って、学習段階を構成するエポックの数は、所与の数のトライアル、又は固定時間/計算予算として設定されてよく、又は、その数/予算に達する前に、所与のモデルの精度が十分に高い又は十分に低い、又は精度の平坦域に達したとき、終了されてよい。例えば、トレーニング段階がn回のエポックを実行し、少なくとも95%の精度を有するモデルを生成するよう設計され、そのようなモデルがn番目のエポックの前に生成された場合、学習段階は、早く終了し、最終目標精度閾値を満たす生成されたモデルを使用してよい。同様に、所与のモデルが、ランダム確率閾値を満たすほど不正確である場合(例えば、所与の入力について真/偽の出力を決定する際に、モデルが55%だけ正確である)、そのモデルについての学習段階は、早く終了されてよいが、学習段階にある他のモデルはトレーニングを継続してよい。同様に、所与のモデルが複数のエポックに渡り同様の精度を提供し続ける又はその結果が揺らぐとき、性能平坦域に達しており、所与のモデルの学習段階は、エポック数/計算予算に達する前に終了してよい。
学習段階が完了すると、モデルはファイナライズされる。幾つかの例示的な実施形態では、ファイナライズされたモデルは、テスト基準に対して評価される。第1の例では、入力に対して知られている出力を含むテストデータセットが、ファイナライズされたモデルに供給され、トレーニングされていないデータを処理する際のモデルの精度を決定する。第2の例では、偽陽性率又は偽陰性率が、ファイナライズ後のモデルを評価するために使用されてよい。第3の例では、データクラスタ化の間の描写が、データのクラスタの最も明確な境界を生成するモデルを選択するために使用される。
図2は、幾つかの実施形態による例示的なニューラルネットワーク204を示す。図示のように、ニューラルネットワーク204は、入力として、ソースドメインデータ202を受信する。入力は、出力に到達するまで、複数の層206を通過する。各層は、複数のニューロン208を含む。ニューロン208は前の層のニューロンから入力を受信し、ニューロン出力を生成するために、これらのニューロンから受信した値に重みを提供する。最終層206からのニューロン出力は、ニューラルネットワーク204の出力を生成するために結合される。
図2の下に示すように、入力はベクトルxである。入力は、複数の層206を通過し、重みW、W、...、Wが各層への入力に適用され、f(x)、f(x)、...、fi-1(x)に到達し、最後に出力f(x)に達するまで続く。
幾つかの例示的な実施形態では、ニューラルネットワーク204(例えば、深層学習、深層畳み込み、又はリカレントニューラルネットワーク)は、長短期記憶(Long Short Term Memory (LSTM))ノードのような、ネットワークに構成された一連のニューロン208を含む。ニューロン208は、データ処理及び人工知能、特に機械学習で使用される構造要素(architectural element)であり、所与のニューロン208に提供される入力の重みに基づき、メモリ内に保持された値をいつ「想起」するか及びいつ「忘却」するかを決定してよいメモリを含む。ここで使用されるニューロン208の各々は、ニューラルネットワーク204内の他のニューロン208から所定の数の入力を受け入れ、分析中のフレームの内容について関係及びサブ関係出力を提供するよう構成される。個々のニューロン208は、ニューラルネットワークの種々の構成の中で、一緒に繋がれ及び/又は木構造に組織化されて、発言の中のフレームの各々が互いにどれ位関係しているかについて、相互作用及び関係学習モデル化を提供してよい。
例えば、ニューロンとして機能するLSTMは、入力ベクトル(例えば、発言からの音素)、メモリセル、及び出力ベクトル(例えば、文脈上の表現)を処理するための幾つかのゲートを含む。入力ゲート及び出力ゲートは、それぞれメモリセルに流れ込む又は流れ出す情報を制御し、一方で、忘却ゲートは、任意で、ニューラルネットワークの中の前のリンクされたセルからの入力に基づき、メモリセルから情報を除去する。種々のゲートの重み及びバイアスベクトルは、トレーニング段階を通じて調整され、トレーニング段階が完了すると、これらの重み及びバイアスは通常の動作のためにファイナライズされる。当業者は、ニューロン及びニューラルネットワークがプログラムで(例えば、ソフトウェア命令により)又はニューラルネットワークを形成するよう各ニューロンをリンクする専用ハードウェアにより構成されてよいことを理解する。
ニューラルネットワークは、データを分析するために特徴を利用して、評価を生成する(例えば、会話の単位を認識する)。特徴は、観察されている現象の個々の測定可能な特性である。特徴の概念は、線形回帰で使用される説明変数の概念に関連する。更に、深層特徴は、深層ニューラルネットワークの隠れ層にあるノードの出力を表す。
ニューラルネットワークは、しばしば人工ニューラルネットワークと呼ばれ、動物の脳の生物学的神経網の考慮に基づく計算システム/機器である。このようなシステム/機器は、標準的にはタスク特有のプログラミングを有しないでタスクを実行するための性能を向次第に上し、これは学習と呼ばれる。例えば、画像認識では、ニューラルネットワークは、オブジェクトの名称によりタグ付けされ、オブジェクト及び名称を学習したサンプル画像を分析することにより、該オブジェクトを含む画像を識別するよう教えられてよく、分析結果を用いてタグ付けされていない画像内の該オブジェクトを識別してよい。ニューラルネットワークは、ニューロンと呼ばれる接続されたユニットの集合に基づき、ニューロンの間の各接続はシナプスと呼ばれ、接続の強度と共に変化する活性化強度を有する単方向信号を送信できる。受信側ニューロンは、標準的に、多数の送信側ニューロンからである場合がある結合された入力信号が十分な強度であるかどうかに基づき、活性化し、自身に接続された信号を下流のニューロンへと伝播できる。ここで、強度はパラメータである。
深層ニューラルネットワーク(deep neural network (DNN))は、複数の層で構成される積層型ニューラルネットワークである。層はノードで構成される。ノードは、計算の生じる場所にあり、人間の脳内のニューロン上で大まかにパターン化され、十分な刺激に遭遇すると発火する。ノードは、データからの入力を、係数又は重みのセットと結合する。係数及び重みは、該入力を増幅し又は冷まし(dampen)、アルゴリズムが学習しようとしているタスクの入力に重要度を割り当てる。これらの入力-重みの積は加算され、和はノードの活性化関数と呼ばれるものを通過し、最終的な結果に影響を与えるためにその信号がネットワークを通じて更に進むかどうか及びどの程度進むかを決定する。DNNは、特徴抽出及び変換のために、非線形処理ユニットの多数の層のカスケードを用いる。各連続する層は、前の層からの出力を入力として使用する。高レベルの特徴は、低レベルの特徴から導出され、階層的表現を形成する。入力層に続く層は、入力の結果をフィルタリングし及び次の畳み込み層により使用される特徴マップを生成する畳み込み層であってよい。
DNNアーキテクチャのトレーニングでは、変数の間の関係を推定する統計的処理のセットとして構造化される回帰(regression)は、コスト関数の最小化を含み得る。コスト関数は、ニューラルネットワークがトレーニング例を正しい出力にマッピングする際にどれ位良好に実行したかを表す数値を返す関数として実装されてよい。トレーニングでは、コスト関数値が所定の範囲内にない場合、既知のトレーニング画像に基づき、逆伝播が使用される。ここで、逆伝播は、確率的勾配降下法(stochastic gradient descent (SGD))法のような最適化方法と共に使用される人工ニューラルネットワークをトレーニングする一般的な方法である。
逆伝播の使用は、伝播及び重み更新を含むことができる。入力がニューラルネットワークに提示されると、それは、ニューラルネットワークを通じて、層毎に、出力層に達するまで、順方向に伝播される。ニューラルネットワークの出力は、次に、コスト関数を用いて所望の出力と比較され、誤り値は、出力層の中のノードの各々について計算される。誤り値が、出力から開始して、各ノードが元の出力への貢献を大まかに表す関連する誤り値を有するまで、逆方向に伝播される。逆伝播は、これらの誤り値を使用して、ニューラルネットワーク内の重みに関して、コスト関数の勾配を計算できる。計算された勾配は、選択された最適化方法に供給され、コスト関数を最小化するよう重みを更新する。
図3は、幾つかの実施形態による、画像認識機械学習プログラムのトレーニングを示す。機械学習プログラムは、1つ以上の計算機において実施されてよい。ブロック302は、複数のクラス304を含むトレーニングセットを示す。各クラス304は、クラスに関連付けられた複数の画像306を含む。各クラス304は、画像306内のオブジェクトのタイプ(例えば、数字0~9、男性又は女性、猫又は犬、等)に対応してよい。一例では、機械学習プログラムは、アメリカ合衆国の大統領の画像を認識するようトレーニングされ、各クラスは各大統領に対応する(例えば、1つのクラスはドナルド・トランプに対応し、1つのクラスはバラク・オバマに対応し、1つのクラスはジョージ・W・ブッシュに対応する、等である)。ブロック308で、機械学習プログラムは、例えば、深層ニューラルネットワークを用いてトレーニングされる。ブロック310で、ブロック308のトレーニングにより生成されたトレーニング済み分類器は、画像312を認識し、ブロック314で、画像が認識される。ブロック314で、例えば、画像312がビル・クリントンの写真である場合、分類器は、ビル・クリントンに対応するとして画像を認識する。
図3は、幾つかの例示的な実施形態による、分類器のトレーニングを示す。機械学習アルゴリズムは、顔を認識するために設計されえ、トレーニングセット302は、サンプルをクラス304にマッピングするデータを含む(例えば、クラスは財布の全部の画像を含む)。クラスは、ラベルと呼ばれてもよい。ここに提示される実施形態は、オブジェクト認識を参照して提示されるが、同じ原理が、任意のタイプのアイテムを認識するために使用される機械学習プログラムをトレーニングするために適用されてよい。
トレーニングセット302は、クラス304毎に複数の画像306(例えば、画像306)を含み、各画像は認識されるべきカテゴリのうちの1つ(例えばクラス)に関連付けられる。機械学習プログラムは、画像を認識するよう動作する分類器310を生成するためにトレーニングデータによりトレーニングされる308。幾つかの例示的な実施形態では、機械学習プログラムはDNNである。
入力画像312が認識されるべきであるとき、分類器310は、入力画像312を分析して、入力画像312に対応するクラス(例えば、クラス314)を識別する。
図4は、幾つかの例示的な実施形態による、特徴抽出処理及び分類器トレーニングを示す。分類器のトレーニングは、特徴抽出層402及び分類器層414に分けられてよい。各画像は、特徴抽出層402の中の複数の層406~413により順に分析される。
深層畳み込みニューラルネットワークの発展につれ、顔認識における焦点は、同じ人物の顔が互いに近くにあり及び異なる人物の顔が互いに遠く離れている、良好な顔特徴空間を学習ことになっている。例えば、LFW(Labeled Faces in the Wild)データセットによる検証タスクが、顔検証のために使用されていることが多い。
多くの顔識別タスク(例えば、MegaFace及びLFW)は、ギャラリーセット及びクエリセットの中の画像間の類似性比較に基づき、これは、基本的に、人物の同一性を推定するK最近傍法(K-nearest-neighborhood (KNN))である。理想的な場合には、良好な顔特徴抽出器(クラス間距離がクラス内距離よりも常に大きい)が存在し、人物の同一性を推定するためにKNN法が適切である。
特徴抽出は、大きなデータセットを記述するために必要なリソースの量を削減するための処理である。複雑なデータの分析を実行するとき、主な問題のうちの1つは、関連する変数の数に起因する。膨大な数の変数による分析は、一般に、大容量のメモリ及び計算能力を必要とし、それは、分類アルゴリズムをトレーニングサンプルに過剰適合させ、新しいサンプルへの一般化が不十分になる可能性がある。特徴抽出は、これらの大規模データセットの問題を回避するために変数の組合せ成する方法を記述し、一方で所望の目的のための十分な精度でデータを記述する一般用語である。
幾つかの例示的な実施形態では、特徴抽出は、測定データの初期セットから開始し、情報を与え及び重複しないことを意図した導出値(特徴)を構築して、後の学習及び一般化ステップを実現する。更に、特徴抽出は、大きなベクトル(時に非常に粗いデータを有する)を同じ若しくは同様の情報量をキャプチャする小さなベクトルへと縮小するような、次元の削減に関連する。
初期特徴の部分集合を決定することは、特徴選択と呼ばれる。選択された特徴は、入力データからの関連情報を含むことが期待される。その結果、所望のタスクは、完全な初期データの代わりに、この縮小された表現を用いて実行できる。DNNは、層のスタックを利用する。ここで、各層は関数を実行する。例えば<層は、畳み込み、非線形変換、平均の計算、等であり得る。最終的に、このDNNは、分類器414による出力を生成する。図4で、データは左から右へと移動し、特徴が抽出される。ニューラルネットワークをトレーニングする目的は、全部の層が所望のタスクに適切なるよう、全部の層のパラメータを発見することである。
図4に示すように、「ストライド4」フィルタは層4067に適用され、最大プーリングは層407~413に適用される。ストライドは、フィルタが入力ボリュームに対してどれ位畳み込むかを制御する。「ストライド4」は、フィルタが入力ボリュームについて、一度に4ユニット畳み込むことを表す。最大プーリングは、各最大プーリング領域の中で、最大値を選択することにより、ダウンサンプリングすることを表す。
幾つかの例示的な実施形態では、各層の構造は予め定められる。例えば、畳み込み層は、小さな畳み込みカーネル及びそれらそれぞれの畳み込みパラメータを含んでよく、合計(summation)層は、入力画像の2個のピクセルの和又は加重和を計算してよい。トレーニングは、合計のために重み係数を定義する際に助けとなる。
DNNの性能を向上する1つの方法は、特徴抽出層の更に新しい構造を識別することである。別の方法は、所望のタスクを達成するために異なる層においてパラメータが識別される方法を向上することによる。課題は、標準的なニューラルネットワークでは、最適化されるべき数百万個ものパラメータがあることである。スクラッチからこれらのパラメータ全部を最適化しようとすることは、利用可能な計算リソース及びトレーニングセットの中のデータ量に依存して、何時間、何日、又は何週間も要することがある。
図5は、幾つかの実施形態による計算機500のブロック図を示す。幾つかの実施形態では、計算機500は、図5の回路ブロック図に示されるコンポーネントを格納してよい。例えば、回路500は、プロセッサ502内に存在してよく、「処理回路」と呼ばれてよい。代替の実施形態では、計算機500は、独立型装置として動作してよく、又は他のコンピュータに接続され(例えばネットワーク接続され)てよい。ネットワーク接続された展開では、計算機500は、サーバ-クライアント環境におけるサーバ、クライアント、又はその両者の能力で動作してよい。例では、計算機500は、ピアツーピア(peer-to-peer (P2P))(又は他の分散型)ネットワーク環境におけるピアマシンとして動作してよい。本願明細書では、フレーズP2P、装置間(device-to-device (D2D))及びサイドリンクは、同義的に使用されてよい。計算機500は、専用コンピュータ、パーソナルコンピュータ(PC)、タブレットPC、パーソナルデジタルアシスタント(PDA)、携帯電話機、スマートフォン、ウェブ設備、ネットワークルータ、スイッチ、若しくはブリッジ、又は機械により行われるべきアクションを指定する(シーケンシャル又はその他の)命令を実行可能な任意の機械、であってよい。
本願明細書に記載されるような例は、ロジック又は多数のコンポーネント、モジュール、又はメカニズムを含んでよく又はその上で動作してよい。モジュール及びコンポーネントは、指定された動作を実行可能な有形エンティティ(例えばハードウェア)であり、特定の方法で構成され又は配置されてよい。例では、回路は、特定の方法でモジュールとして(例えば、内部に、又は他の回路のような外部エンティティに関して)配置されてよい。例では、1つ以上のコンピュータシステム/機器(例えば、独立型、クライアント又はサーバコンピュータシステム)の全体又は部分、又は1つ以上のハードウェアプロセッサは、指定された動作を実行するよう動作するモジュールとしてファームウェアまたはソフトウェア(例えば、命令、アプリケーション部分、又はアプリケーション)により構成されてよい。例では、ソフトウェアは、機械可読媒体上に存在してよい。例では、ソフトウェアは、モジュールの基礎にあるハードウェアにより実行されると、ハードウェアに指定された動作を実行させる。
従って、用語「モジュール」(及び「コンポーネント」)は、特定の方法で動作するよう又はここに記載した任意の動作のうちの一部又は全部を実行するよう物理的に構成された、具体的に構成された(例えばハードワイヤド)、又は一時的に(例えば、過渡的に)構成された(例えば、プログラムされた)エンティティである有形エンティティを包含すると理解される。モジュールが一時的に構成される例を考えると、モジュールの各々は、任意のある瞬間にインスタンス化される必要がない。例えば、モジュールがソフトウェアを用いて構成される汎用ハードウェアプロセッサを含む場合、汎用ハードウェアプロセッサは、異なる時間にそれぞれ異なるモジュールとして構成されてよい。ソフトウェアは、従って、例えば、ある時点に特定のモジュールを構成し、異なる時点で異なるモジュールを構成するよう、ハードウェアプロセッサを構成してよい。
計算機500は、ハードウェアプロセッサ502(例えば、中央処理ユニット(CPU)、GPU、ハードウェアプロセッサコア、又はそれらの任意の組合せ)、メインメモリ504、及び静的メモリ506を含んでよく、これらの一部又は全部は、互いに内部リンク(例えば、バス)508を介して通信してよい。図示しないが、メインメモリ504は、取り外し可能記憶及び非取り外し可能記憶、揮発性記憶又は不揮発性記憶のうちのいずれか又は全部を含んでよい。計算機500は、ビデオディスプレイユニット510(又は他のディスプレイユニット)、英数字入力装置512(例えば、キーボード)、及びユーザインタフェース(UI)ナビゲーション装置514(例えば、マウス)を更に含んでよい。例では、ディスプレイユニット510、入力装置512、及びUIナビゲーション装置514は、タッチスクリーンディスプレイであってよい。計算機500は、更に、記憶装置(例えば、ドライブユニット)516、信号生成装置518(例えば、スピーカ)、ネットワークインタフェース装置520、及び全地球測位システム(GPS)のような1つ以上のセンサ521、を含んでよい。計算機500は、シリアル(例えば、ユニバーサルシリアルバス(USB)、パラレル、又は他の有線若しくは無線(例えば、赤外線(IR)、近距離通信(NFC)、等))接続のような出力制御部528を含み、1つ以上の周辺装置(例えば、プリンタ、カードリーダ、等)と通信し又はそれを制御してよい。
ドライブユニット516(例えば、記憶装置)は、機械可読媒体522を含んでよい。機械可読媒体522には、ここに記載した技術若しくは機能のうちの任意の1つ以上を実現する又はそれにより利用される1つ以上のデータ構造若しくは命令のセット524(例えば、ソフトウェア)が格納される。命令524は、計算機500により実行される間、完全に又は少なくとも部分的に、メインメモリ504内に、静的メモリ506内に、又はハードウェアプロセッサ502内に存在してもよい。例では、ハードウェアプロセッサ502、メインメモリ504、静的メモリ506、又は記憶装置516のうちの1つ又は任意の組合せは、機械可読媒体を構成してよい。
機械可読媒体522は単一の媒体として示されるが、用語「機械可読媒体」は、1つ以上の命令524を格納するよう構成された単一の媒体又は複数の媒体(例えば、集中型又は分散型データベース、及び/又は関連付けられたキャッシュ及びサーバ)を含んでよい。
用語「機械可読媒体」は、計算機500による実行のために計算機500に本開示の技術のうちの任意の1つ以上を実行させる命令を格納し、符号化し、又は運ぶことの可能な、又はこのような命令により使用される若しくはそれに関連付けられたデータ構造を格納し、符号化し、又は運ぶことの可能な任意の媒体を含んでよい。非限定的な機械可読媒体の例は、固体メモリ、及び光及び磁気媒体を含んでよい。機械可読媒体の特定の例は、半導体メモリ装置(例えば、EPROM(Electrically Programmable Read-Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory))のような不揮発性メモリ及びフラッシュメモリ装置、内蔵ハードディスク及び取り外し可能ディスクのような磁気ディスク、光磁気ディスク、RAM(Random Access Memory)、及びCD-ROM及びDVD-ROMディスクを含んでよい。幾つかの例では、機械可読媒体は、非一時的機械可読媒体を含んでよい。幾つかの例では、機械可読媒体は、一時的に伝搬する信号ではない機械可読媒体を含んでよい。
命令524は、更に、多数の転送プロトコル(例えば、フレームリレー、インターネットプロトコル(IP)、TCP(transmission control protocol)、UDP(user datagram protocol)、HTTP(hypertext transfer protocol)、等)のうちの任意の1つを利用するネットワークインタフェース装置520を介して伝送媒体を用いて通信ネットワーク526を介して送信され又は受信されてよい。例示的な通信ネットワークは、特に、LAN(local area network)、WAN(wide area network)、パケットデータネットワーク(例えば、インターネット)、移動電話ネットワーク(例えば、セルラネットワーク)、POTS(Plain Old Telephone)ネットワーク、及び無線データネットワーク(例えば、Wi-Fi(登録商標)として知られるIEEE(Institute of Electrical and Electronics Engineers)802.11標準ファミリ、WiMax(登録商標)として知られるIEEE802.16標準ファミリ)、IEEE802.15.4標準ファミリ、LTE(Long Term Evolution)標準ファミリ、UMTS(Universal Mobile Telecommunications System)標準ファミリ、P2P(peer-to-peer)ネットワーク、を含んでよい。例では、ネットワークインタフェース装置520は、通信ネットワーク526に接続するための1つ以上の物理ジャック(例えば、イーサネット、同軸、又は電話ジャック)又は1つ以上のアンテナを含んでよい。
図6は、幾つかの実施形態による、人工画像生成のためのデータフロー図600である。データフロー図600に示すように、現実SAR画像セット610は、自動エンコーダ640のサブエンコーダ641に提供される。幾つかの例では、現実SAR画像セット610は、画像認識器を用いて認識されるべきターゲットオブジェクトに対応する。幾つかの例では、現実SAR画像セット610は、ターゲットオブジェクトと異なる第1オブジェクトセットに対応し、第1オブジェクトセットとターゲットオブジェクトとの間の差分のセットは、TSB画像セット630として表現される(ターゲットオブジェクトの現実SAR画像は存在しなくてよい)。図示のように、データフロー図600は、ボクセルモデル620を含む。ボクセルモデル620は、ターゲットオブジェクトの3次元(3D)格子モデルである。ボクセルモデル620は、ターゲットオブジェクトの端に対応する3D格子の中の位置である複数のボクセルを含む。ボクセルモデル620は、ターゲットオブジェクトのTSB画像セット630を生成するために使用される。TSB画像セット630は、背景、ターゲットオブジェクト、及びターゲットオブジェクトの影の表現を含む。ターゲットオブジェクトの影の位置は、ターゲットオブジェクトのボクセルモデル620、背景テクスチャ、及び割り当てられ、推定され、若しくは識別された光源(例えば、ランプ又は太陽)の位置に基づき計算されてよい。
ターゲットオブジェクトのTSB画像セット630は、自動エンコーダ640に提供され、自動エンコーダ640はターゲットオブジェクトの人工SAR画像650を生成する。図示のように、自動エンコーダは、潜在ベクトル642を生成するサブエンコーダ641を含む。潜在ベクトル642はサブデコーダ643に供給され、サブデコーダ643は人工SAR画像650を生成する。スキップ接続644は、サブエンコーダ641からサブデコーダ643への直接接続を可能にする。サブエンコーダ641及びサブデコーダ643は、機械学習技術により楽手される、学習されたトレーニング重み645にアクセスする。サブエンコーダ641は、自動エンコーダ640のための入力:つまり、TSB画像セット630及び現実SAR画像セット610を受信する。
幾つかの例によると、サブエンコーダ641は、複数の畳み込み層と、畳み込み層が点在する複数のプーリング層と、を含む。サブエンコーダ641は、TSB画像セット630に基づき潜在ベクトル642を生成するよう、第1機械学習アルゴリズムを用いてトレーニングされる。幾つかの例によると、サブデコーダ643は、複数の逆畳み込み層と、逆畳み込み層が点在する複数の逆プーリング層と、を含む。サブデコーダ643は、潜在ベクトル642に基づき1つ以上の人工SAR画像650を生成するよう、第2機械学習アルゴリズムを用いてトレーニングされる。
自動エンコーダ640は、JSON(JavaScript Object Notation)又は任意の他のプログラミング言語で符号化されてよい。幾つかの例では、自動エンコーダ640は、ハードウェア装置であってよく、又は自動エンコーダは部分的にソフトウェア及び部分的にハードウェアであってよい。
幾つかの例では、サブエンコーダ641は、複数の畳み込みプールを含む。各畳み込みプールは、その後にバッチ正規化が続く。各バッチ正規化は、その後にReLU(rectified linear unit)が続く。更に、サブエンコーダ641の各畳み込みプールのカーネルサイズは、サブエンコーダ641の前の畳み込みプールのカーネルサイズより大きい。
幾つかの例では、サブデコーダ643は、複数のスキップ接続を含む。各スキップ接続は、その後にバッチ正規化が続く。各バッチ正規化は、その後にReLUが続く。各ReLUは、その後に復号畳み込みが続く。更に、サブデコーダ643の各復号畳み込みのカーネルサイズは、サブデコーダ643の前の復号畳み込みのカーネルサイズより小さい。
JSONコードは、自動エンコーダ640のために使用されてよい。しかしながら、留意すべきことに、自動エンコーダ640を実装するために別のプログラミング言語が使用されてよい。幾つかの例では、自動エンコーダ640は、完全に又は部分的にハードウェアで実装される。
図7は、幾つかの実施形態による、現実及び人工画像を用いて画像認識器をトレーニングするためのデータフロー図である。図示のように、現実及び人工画像は、図6の現実SAR画像610及び人工SAR画像650に対応してよい。現実SAR画像610及び人工SAR画像650は、ターゲットオブジェクトを認識するよう画像認識器710をトレーニングするために、画像認識器710に提供される。画像認識器710は、ResNet(residual neural network)であってよく、ResNetをトレーニングするたえmに任意の技術が使用されてよい。幾つかの例では、ターゲットオブジェクトの現実SAR画像610が存在しない場合(又は現実SAR画像610がターゲットオブジェクトと異なる第1オブジェクトセットに対応する)、人工SAR画像650(現実SAR画像610ではない)のみが、機械学習技術を用いるトレーニングの間に学習され得る画像認識器トレーニング重み720と関連して、画像認識器710をトレーニングするために使用される。トレーニングの後に、画像認識器710は、画像認識器710がトレーニングされたことの指示を出力してよい。画像認識器710がトレーニングされた後に、画像認識器710は、ターゲットオブジェクトの画像を認識するために及び/又は画像内のターゲットオブジェクトを認識するために使用されてよい。
図8は、幾つかの実施形態による、人工画像生成のための第1方法800のフローチャートである。方法800は、計算機500のような計算機において実施されてよい。
動作810で、計算機は、ターゲットオブジェクトのボクセルモデル620を受信する。ターゲットオブジェクトは、画像認識器710を用いて認識される。
動作820で、計算機は、ボクセルモデル620に基づき、ターゲットオブジェクトのTSB画像セット630を生成する。
動作830で、計算機は、自動エンコーダ640において、ターゲットオブジェクトの現実画像セット610を受信する。
動作840で、計算機は、自動エンコーダを用いて、TSB画像セット630に基づき、ターゲットオブジェクトの1つ以上の人工SAR画像650を生成する。自動エンコーダ640は、サブエンコーダ641を用いて、TSB画像セット630を潜在ベクトル642に符号化する。自動エンコーダ640は、サブデコーダ643を用いて、潜在ベクトル642を復号して、1つ以上の人工SAR画像650を生成する。
動作850で、計算機は、ターゲットオブジェクトの生成された1つ以上の人工SAR画像650を出力として提供する。幾つかの例では計算機は、現実SAR画像セット610及び1つ以上の人工SAR画像650を用いて、ターゲットオブジェクトを認識するよう画像認識器710をトレーニングする。計算機は、出力として、画像認識器がトレーニングされたことの指示を提供する。計算機は、画像認識器を用いて、ターゲットオブジェクトの新しい画像を認識してよい。ここで、新しい画像は、現実SAR画像セット610及び/又は1つ以上の人工SAR画像650の中からではない。動作850の後に、方法800は終了する。
図9は、幾つかの実施形態による、人工画像生成のための第2方法900のフローチャートである。方法900は、計算機500のような計算機において実施されてよい。方法900の動作910~950の幾つかは、方法800の対応する動作810~850と同様であってよく、以下及び図8~9に示す相違点を有する。
動作910で、計算機は、ターゲットオブジェクト620と異なる第1オブジェクトセットのボクセルモデルを受信する。ターゲットオブジェクトは、画像認識器710を用いて認識される。幾つかの例では、ターゲットオブジェクトの利用可能な画像が非常に少ない又は全く無い。幾つかの例では、受信した入力は、ターゲットオブジェクトの現実SAR画像を欠いている。留意すべきことに、ターゲットオブジェクトは第1オブジェクトセットと異なるが、ターゲットオブジェクト及び第1オブジェクトセットは、複数の類似する特徴を共有してよく、幾つかの例ではほんの僅かな違いである。例えば、2018年末に、ホンダAccord2019(登録商標)が発売されたとき、第1オブジェクトセットは(多数の画像が存在する)ホンダAccord(登録商標)2018に対応してよく、ターゲットオブジェクトはホンダAccord2019(登録商標)(その画像は未だ若しくは少数しか存在しないが、2018と2019ホンダAccordモデルの間の差分セットは本田技研工業(登録商標)から発表されている)に対応してよい。
動作920で、計算機は、ボクセルモデル620に基づき、第1オブジェクトセットのTSB画像セット630を生成する。
動作930で、計算機は、自動エンコーダ640において、第1オブジェクトセットの現実SAR画像セット610を受信する。
動作940で、計算機は、自動エンコーダ640を用いて、TSB画像セット630に基づき、ターゲットオブジェクトの1つ以上の人工SAR画像650を生成する。ボクセルモデル620及びTSB画像セット630は、第1オブジェクトセットのものである。幾つかの例では、トレーニング中に、自動エンコーダは、ターゲットオブジェクトと第1オブジェクトセットとの間の差分を学習する。学習した差分は、TSB画像セット630と関連して格納されてよい。自動エンコーダ640は、サブエンコーダ641を用いて、TSB画像セット630(これは幾つかの例では第1オブジェクトセットとターゲットオブジェクトとの間の差分を含んでよい)を潜在ベクトル642に符号化する。自動エンコーダ640は、サブデコーダ643を用いて、潜在ベクトル642を復号して、1つ以上の人工SAR画像650を生成する。
動作950で、計算機は、ターゲットオブジェクトの生成された1つ以上の人工SAR画像650を出力として提供する。幾つかの例では計算機は、1つ以上の人工SAR画像650を用いて、ターゲットオブジェクトを認識するよう画像認識器710をトレーニングする。計算機は、出力として、画像認識器がトレーニングされたことの指示を提供する。計算機は、画像認識器を用いて、ターゲットオブジェクトの新しい画像を認識してよい。ここで、新しい画像は、1つ以上の人工SAR画像650の中からではない。新しい画像は、画像認識器のトレーニングより後の時間に生成されてよい。例えば、ホンダAccord2019の新しい画像は、2020年の夏の間に生成されてよい。動作950の後に、方法900は終了する。
実施形態は特定の例示的な実施形態を参照して説明されたが、本開示の広範な精神及び範囲から逸脱することなく種々の変更及び変化がこれらの実施形態に対して行われてよいことが明らかである。従って、明細書及び図面は、限定的意味ではなく説明的意味で考えられるべきである。本願明細書の一部を形成する添付の図面は、例示により、限定ではなく、主題の実施され得る特定の実施形態を示す。図示の実施形態は、当業者がここに開示した技術を実施できる程度に十分に詳細に記載される。他の実施形態が利用され及びそれから導出されてよく、従って、本開示の範囲から逸脱することなく構造的、論理的、及び電気的変更が行われてよい。この詳細な説明は、従って、限定的意味として取られるのではなく、種々の実施形態の範囲は、このような請求の範囲が権利を与えられる均等物の全範囲と共に、添付の請求の範囲によってのみ定められる。
特定の実施形態がここに図示され説明されたが、理解されるべきことに、同じ目的を達成するために計算される任意の構成が示された特定の実施形態の代わりに用いられてよい。本開示は、種々の実施形態の任意の及び全部の適応又は変形をカバーすることを意図する。上述の実施形態の組合せ、及びここに特に記載されない他の実施形態は、上述の説明を参照することにより当業者に明らかである。
本願明細書では、用語「a」又は「an」は、特許文書で一般的であるように、「少なくとも1つ」又は「1つ以上」の任意の他の例又は使用と独立して、1つ又は1つより多くを含むよう使用される。本願明細書では、用語「又は」は、非排他的であることを表すために使用される。従って、「A又はB」は、特に断りの無い限り、「AであるがBではない」、「BであるがAではない」、及び「A及びB」、を含む。本願明細書では、用語「含む(including)」及び「その中で(in which)」は、それぞれの用語「comprising」及び「wherein」の平文の英語の均等語として使用される。また、以下の請求項では、用語「including」及び「comprising」は、非限定であり、つまり、そのような用語の後に請求項の中で列挙されたものに追加して要素を含むシステム、ユーザ機器(UE)、アーティクル、組成、式、又は処理が、依然としてその請求項の範囲内に包含されることと考えらる。更に、以下の請求の範囲では、用語「第1」、「第2」及び「第3」等は、単にラベルとして使用され、それらのオブジェクトに数値的な要件を課すことを意図しない。
本開示の要約は、読者が技術的開示の特性を素早く評価することを可能にするために提供される。それは、請求項の範囲又は意味を解釈し又は限定するために使用されるものではないことが理解される。更に、前述の詳細な説明では、本開示を合理化する目的で、種々の特徴が単一の実施形態に一緒にグループ化されることが分かる。本開示のこの方法は、請求される実施形態が各請求項に明示的に記載されたものより多くの特徴を要求するという意図を反映するものと解釈されるべきではない。むしろ、以下の請求項が反映するように、本発明の主題は、単一の開示された実施形態の全部よりも少ない特徴にある。従って、以下の請求の範囲は、ここで詳細な説明に組み込まれ、各請求項は別個の実施形態としてそれ自体独立である。

Claims (13)

  1. 画像処理機器であって、前記機器は、
    処理回路とメモリとを含み、前記処理回路は、
    ターゲットオブジェクトと異なる第1オブジェクトセットのボクセルモデルを受信し、前記ターゲットオブジェクトは、画像認識器を用いて認識されるべきものであり
    前記ボクセルモデルに基づき、前記第1オブジェクトセットのTSB(target shadow background-mask)画像セットを生成し、
    自動エンコーダで、前記第1オブジェクトセットの現実画像セットを受信し、
    前記自動エンコーダを用いて、前記TSB画像セットに基づき、前記ターゲットオブジェクトの1つ以上の人工画像を生成し、前記自動エンコーダは、サブエンコーダを用いて、前記TSB画像セットを潜在ベクトルに符号化し、サブデコーダを用いて、前記潜在ベクトルを復号して前記1つ以上の人工画像を生成し
    出力として、前記ターゲットオブジェクトの前記生成された1つ以上の人工画像を提供する、機器。
  2. 前記サブエンコーダは、複数の畳み込み層と、前記畳み込み層が点在する複数のプーリング層と、を含み、
    前記サブエンコーダは、機械学習トレーニングアルゴリズムを用いて、前記TSB画像セットに基づき前記潜在ベクトルを生成するようトレーニングされる、請求項1に記載の機器。
  3. 前記サブデコーダは、複数の逆畳み込み層と、前記逆畳み込み層が点在する複数の逆プーリング層と、を含み、
    前記サブデコーダは、機械学習トレーニングアルゴリズムを用いて、前記潜在ベクトルに基づき前記1つ以上の人工画像を生成するようトレーニングされる、請求項1に記載の機器。
  4. 前記処理回路は、更に、
    前記生成された1つ以上の人工画像を用いて、前記ターゲットオブジェクトを認識するよう前記画像認識器をトレーニングし、
    前記画像認識器がトレーニングされたことの指示を出力として提供する、
    請求項1に記載の機器。
  5. 前記処理回路は、更に、前記トレーニングされた画像認識器を用いて、前記ターゲットオブジェクトの新しい画像を認識する、請求項に記載の機器。
  6. 前記画像認識器は、ResNet(residual neural network)を含む、請求項に記載の機器。
  7. 前記サブエンコーダは、複数の畳み込みプールを含み、各畳み込みプールの後に、バッチ正規化が続き、各バッチ正規化の後に、ReLU(rectified linear unit)が続く、請求項1に記載の機器。
  8. 各畳み込みプールのカーネルサイズは、前の畳み込みプールのカーネルサイズより大きい、請求項に記載の機器。
  9. 前記サブデコーダは、複数のスキップ接続を含み、各スキップ接続の後に、バッチ正規化が続き、各バッチ正規化の後に、ReLU(rectified linear unit)が続き、各ReLUの後に復号畳み込みが続く、請求項1に記載の機器。
  10. 各復号畳み込みのカーネルサイズは、前の復号畳み込みのカーネルサイズより小さい、請求項に記載の機器。
  11. 画像処理のための非一時的機械可読媒体であって、前記機械可読媒体は命令を格納し、前記命令は、1つ以上の機械の処理回路により実行されると、前記処理回路に、
    ターゲットオブジェクトと異なる第1オブジェクトセットのボクセルモデルを受信させ、前記ターゲットオブジェクトは、画像認識器を用いて認識されるべきものであり
    前記ボクセルモデルに基づき、前記第1オブジェクトセットのTSB(target shadow background-mask)画像セットを生成させ、
    自動エンコーダで、前記第1オブジェクトセットの現実画像セットを受信させ、
    前記自動エンコーダを用いて、前記TSB画像セットに基づき、前記ターゲットオブジェクトの1つ以上の人工画像を生成させ、前記自動エンコーダは、サブエンコーダを用いて、前記TSB画像セットを潜在ベクトルに符号化し、サブデコーダを用いて、前記潜在ベクトルを復号して前記1つ以上の人工画像を生成し
    出力として、前記ターゲットオブジェクトの前記生成された1つ以上の人工画像を提供させる機械可読媒体。
  12. 前記サブエンコーダは、複数の畳み込み層と、前記畳み込み層が点在する複数のプーリング層と、を含み、
    前記サブエンコーダは、機械学習トレーニングアルゴリズムを用いて、前記TSB画像セットに基づき前記潜在ベクトルを生成するようトレーニングされる、請求項11に記載の機械可読媒体。
  13. 前記サブデコーダは、複数の逆畳み込み層と、前記逆畳み込み層が点在する複数の逆プーリング層と、を含み、
    前記サブデコーダは、機械学習トレーニングアルゴリズムを用いて、前記潜在ベクトルに基づき前記1つ以上の人工画像を生成するようトレーニングされる、請求項11に記載の機械可読媒体。
JP2021525732A 2018-11-27 2019-08-23 自動エンコーダを用いる人工画像生成のためのコンピュータアーキテクチャ Active JP7250126B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862771808P 2018-11-27 2018-11-27
US62/771,808 2018-11-27
PCT/US2019/047993 WO2020112189A1 (en) 2018-11-27 2019-08-23 Computer architecture for artificial image generation using auto-encoder

Publications (2)

Publication Number Publication Date
JP2022507255A JP2022507255A (ja) 2022-01-18
JP7250126B2 true JP7250126B2 (ja) 2023-03-31

Family

ID=67874553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021525732A Active JP7250126B2 (ja) 2018-11-27 2019-08-23 自動エンコーダを用いる人工画像生成のためのコンピュータアーキテクチャ

Country Status (4)

Country Link
US (1) US11107250B2 (ja)
EP (1) EP3888007A1 (ja)
JP (1) JP7250126B2 (ja)
WO (1) WO2020112189A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733512B1 (en) * 2019-12-17 2020-08-04 SparkCognition, Inc. Cooperative use of a genetic algorithm and an optimization trainer for autoencoder generation
KR102126197B1 (ko) * 2020-01-29 2020-06-24 주식회사 카카오뱅크 비식별화된 이미지를 이용한 신경망 학습 방법 및 이를 제공하는 서버
CN111860144B (zh) * 2020-06-10 2023-10-17 长沙理工大学 一种基于MDR-Net的雷达目标识别系统及方法
CN112069724B (zh) * 2020-07-21 2023-06-20 上海宇航系统工程研究所 一种基于长短时记忆自编码器的火箭健康度评估方法
TW202223834A (zh) * 2020-08-28 2022-06-16 加拿大商光譜優化股份有限公司 神經嵌入之攝影機影像視訊處理管道及神經網路訓練系統
CN112070151B (zh) * 2020-09-07 2023-12-29 北京环境特性研究所 一种mstar数据图像的目标分类识别方法
CN112200227A (zh) * 2020-09-28 2021-01-08 深圳市华付信息技术有限公司 一种基于飞机3d模型的飞机检测方法
KR102480423B1 (ko) * 2022-06-16 2022-12-22 주식회사 액션파워 인코더-디코더 구조를 가진 인공 신경망 모델을 활용한 데이터 생성 방법
CN116580212B (zh) * 2023-05-16 2024-02-06 北京百度网讯科技有限公司 图像生成方法、图像生成模型的训练方法、装置和设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965901B2 (en) * 2015-11-19 2018-05-08 KLA—Tencor Corp. Generating simulated images from design information
US10732277B2 (en) * 2016-04-29 2020-08-04 The Boeing Company Methods and systems for model based automatic target recognition in SAR data
US20180322623A1 (en) * 2017-05-08 2018-11-08 Aquifi, Inc. Systems and methods for inspection and defect detection using 3-d scanning
US10445622B2 (en) * 2017-05-18 2019-10-15 Qualcomm Incorporated Learning disentangled invariant representations for one-shot instance recognition
KR102565279B1 (ko) * 2018-08-23 2023-08-09 삼성전자주식회사 객체 검출 방법, 객체 검출을 위한 학습 방법 및 그 장치들
US10229346B1 (en) * 2018-09-04 2019-03-12 StradVision, Inc. Learning method, learning device for detecting object using edge image and testing method, testing device using the same

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吉田 英史 Hidefumi YOSHIDA,生成型学習法を用いた傘をさした歩行者の高精度な検出に関する検討 A study on a method for high-accuracy detection of a pedestrian holding an umbrella with generative learning,電子情報通信学会技術研究報告 Vol.112 No.198 IEICE Technical Report,日本,一般社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2012年08月26日,191~196
川上 拓也 TAKUYA KAWAKAMI,物体のパーツ形状と持ち方の共起性に基づく把持パタンの推定 Grasping Pattern Estimation Based on Co-occurrence of Object and Hand Shape,情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM) 2018-CVIM-211 [online],日本,情報処理学会,2018年02月22日,1~8

Also Published As

Publication number Publication date
JP2022507255A (ja) 2022-01-18
US11107250B2 (en) 2021-08-31
WO2020112189A1 (en) 2020-06-04
EP3888007A1 (en) 2021-10-06
US20200167966A1 (en) 2020-05-28

Similar Documents

Publication Publication Date Title
JP7250126B2 (ja) 自動エンコーダを用いる人工画像生成のためのコンピュータアーキテクチャ
US11585918B2 (en) Generative adversarial network-based target identification
US11551026B2 (en) Dynamic reconfiguration training computer architecture
US11755838B2 (en) Machine learning for joint recognition and assertion regression of elements in text
US11068747B2 (en) Computer architecture for object detection using point-wise labels
US11593619B2 (en) Computer architecture for multiplier-less machine learning
US11037027B2 (en) Computer architecture for and-or neural networks
US11763551B2 (en) Systems and methods for fine tuning image classification neural networks
JP7214863B2 (ja) 人工画像生成用コンピュータアーキテクチャ
US20200272812A1 (en) Human body part segmentation with real and synthetic images
US11003909B2 (en) Neural network trained by homographic augmentation
US11587323B2 (en) Target model broker
US20230162028A1 (en) Extracting and transferring feature representations between models
AU2020203026B2 (en) Calculating the precision of image annotations
US20230092949A1 (en) System and method for estimating model metrics without labels
US20240028931A1 (en) Directed Acyclic Graph of Recommendation Dimensions
US20230401482A1 (en) Meta-Agent for Reinforcement Learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230320

R150 Certificate of patent or registration of utility model

Ref document number: 7250126

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150