JP6743124B2 - 画像中のオブジェクト検出のためのコンテキストベースの事前分布 - Google Patents

画像中のオブジェクト検出のためのコンテキストベースの事前分布 Download PDF

Info

Publication number
JP6743124B2
JP6743124B2 JP2018500365A JP2018500365A JP6743124B2 JP 6743124 B2 JP6743124 B2 JP 6743124B2 JP 2018500365 A JP2018500365 A JP 2018500365A JP 2018500365 A JP2018500365 A JP 2018500365A JP 6743124 B2 JP6743124 B2 JP 6743124B2
Authority
JP
Japan
Prior art keywords
context
image
context label
processor
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018500365A
Other languages
English (en)
Other versions
JP2018526723A5 (ja
JP2018526723A (ja
Inventor
ダイクマン、ダニエル・ヘンドリカス・フランシスカス
トワル、レーガン・ブライス
アンナプレディー、ベンカタ・スリーカンタ・レッディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2018526723A publication Critical patent/JP2018526723A/ja
Publication of JP2018526723A5 publication Critical patent/JP2018526723A5/ja
Application granted granted Critical
Publication of JP6743124B2 publication Critical patent/JP6743124B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Description

関連出願の相互参照
[0001] 本特許出願は、2015年7月9日出願の、「REAL-TIME OBJECT DETECTION IN IMAGES VIA ONE GLOBAL-LOCAL NETWORK」と題する、米国仮特許出願第62/190,685号の利益を主張し、その開示は、その全体が本明細書に参照によって明確に組み込まれている。
[0002] 本開示のある特定の態様は、概して、機械学習に関し、より具体的には、画像中のオブジェクトを検出するために機械学習ネットワークにおいてコンテキストベースの事前分布(context-based priors)を利用することに関する。
[0003] 人工ニューロン(例えば、ニューロンモデル)の相互結合されたグループを備え得る、人工ニューラルネットワーク(artificial neural network)は、計算デバイス(computational device)であるか、または計算デバイスによって行われる方法を表す。
[0004] 畳み込みニューラルネットワーク(convolutional neural networks)は、フィードフォワード人工ニューラルネットワークのタイプである。畳み込みニューラルネットワークは、各々が受容野(receptive field)を有し、また集合的に入力空間をタイリングする(tile)ニューロンの集合(collections)を含み得る。畳み込みニューラルネットワーク(CNN)は、多数のアプリケーションを有する。特に、CNNは、パターン認識および分類のエリアで広く使用されている。
[0005] 深層学習アーキテクチャ、例えば、ディープビリーフネットワーク(deep belief networks)および深層畳み込みネットワーク(deep convolutional networks)は、層を成すニューラルネットワークアーキテクチャであり、ここにおいて、ニューロンの第1の層の出力がニューロンの第2の層への入力となり、ニューロンの第2の層の出力がニューロンの第3の層への入力となる、というように続く。深層ニューラルネットワークは、特徴の階層を認識するように訓練される(trained)ことができるので、それらは、オブジェクト認識アプリケーションにおいて増加的に使用されている。畳み込みニューラルネットワークのように、これらの深層学習アーキテクチャにおける計算は、処理ノードの個体群(population)にわたって分布し得、それは、1つまたは複数の計算チェーンに構成され得る。これらの多層アーキテクチャは一度に1つの層が訓練されることができ、誤差逆伝播(back-propagation)を使用して微調整されることができる。
[0006] 他のモデルもオブジェクト認識に利用可能である。例えば、サポートベクターマシン(SVM:support vector machine)は、分類のために適用されることができる学習ツールである。サポートベクターマシンは、データをカテゴリ化する分離超平面(separating hyperplane)(例えば、決定境界(decision boundary))を含む。超平面は、教師あり学習(supervised learning)によって定義されている。所望の超平面が、訓練データのマージンを増加させる。言い換えると、超平面は、訓練例まで最大最小距離(the greatest minimum distance)を有するべきである。
[0007] これらの解決法は、いくつかの分類ベンチマークで優れた結果を達成するが、それらの計算上の複雑性が極めて高い場合もある。追加的に、モデルの訓練が困難であることもある。
[0008] 1つの態様において、オブジェクト検出の方法が開示される。本方法は、画像全体のコンテキストラベルを識別することを含む。本方法は、また、識別されたコンテキストラベルに基づいて前記画像中の関心オブジェクト(objects of interest)を検出するための確からしい領域(likely region)のセットを選択することを含む。
[0009] 別の態様は、メモリと、前記メモリに結合された少なくとも1つのプロセッサとを有する、オブジェクト検出のための装置を開示する。(単数または複数の)前記プロセッサは、画像全体のコンテキストラベルを識別するように構成される。(単数または複数の)前記プロセッサは、また、識別されたコンテキストラベルに基づいて前記画像中の関心オブジェクトを検出するための確からしい領域のセットを選択するように構成される。
[0010] 別の態様は、オブジェクト検出のための非一時的なコンピュータ可読媒体を開示する。前記非一時的なコンピュータ可読媒体は、(単数または複数の)前記プロセッサによって実行されると、(単数または複数の)前記プロセッサに、画像全体のコンテキストラベルを識別する動作を行わせる、その上に記録された非一時的なプログラムコードを有する。前記プログラムコードは、また、(単数または複数の)前記プロセッサに、識別されたコンテキストラベルに基づいて前記画像中の関心オブジェクトを検出するための確からしい領域のセットを選択させる。
[0011] 別の態様は、オブジェクト検出のための装置を開示し、画像全体のコンテキストラベルを識別するための手段を含む。本方法は、また、識別されたコンテキストラベルに基づいて前記画像中の関心オブジェクトを検出するための確からしい領域のセットを選択するための手段を含む。
[0012] 本開示の追加の特徴および利点が以下に説明される。本開示が、本開示と同様の目的を遂行するための他の構造物を修正または設計するための基礎として容易に利用され得ることが、当業者によって理解されるべきである。そのような同等の構造が、添付された特許請求の範囲に記載されている本開示の教示から逸脱しないこともまた、当業者によって理解されるべきである。本開示の編成および動作方法の両方について、さらなる目的および利点と共に、本開示の特徴であると考えられる新規の特徴は、添付の図面と関連して考慮されると、以下の説明からより良く理解されるであろう。しかしながら、図面の各々は例示および説明の目的のためだけに提供されており、本開示の限定の定義として意図されたものではないことが明確に理解されるべきである。
[0013] 同様の参照文字が全体を通して対応して同一である図面と共に考慮されると、本開示の特徴、性質、および利点は、以下に記載されている詳細な説明からより明らかになるであろう。
[0014] 本開示のある特定の態様にしたがった、汎用プロセッサを含む、システムオンチップ(SOC)を使用するニューラルネットワークを設計する例となるインプリメンテーションを例示する図。 [0015] 本開示の態様にしたがった、システムの例となるインプリメンテーションを例示する図。 [0016] 本開示の態様にしたがったニューラルネットワークを例示する図。 [0017] 本開示の態様にしたがった実例的な深層畳み込みネットワーク(DCN)を例示するブロック図。 [0018] 本開示の態様にしたがった人工知能(AI)機能をモジュール化することができる実例的なソフトウェアアーキテクチャを例示するブロック図。 [0019] 本開示の態様にしたがったスマートフォン上のAIアプリケーションの実行時動作(run-time operation)を例示するブロック図。 [0020] 画像中のオブジェクトを識別するために使用される例となるバウンディングボックス(bounding boxes)を例示する図。 [0021] 複数バウンディングボックスの検索方法のために利用されるN個の事前分布を例示する図。 [0022] 本開示の態様による、画像中のオブジェクトを検出するためにコンテキストを利用する全体的な方法の例を例示する図。 [0023] 本開示の態様による、画像中のオブジェクトを検出するための例となるネットワークアーキテクチャを例示する図。
詳細な説明
[0024] 添付の図面に関連して以下に述べられている詳細な説明は、様々な構成の説明として意図されており、本明細書で説明されている概念が実現されることができる唯一の構成を表すように意図されたものではない。詳細な説明は、様々な概念の完全な理解を提供する目的で具体的な詳細を含む。しかしながら、これらの概念がこれらの具体的な詳細なしに実現され得ることが当業者には明らかになるであろう。いくつかの事例において、周知の構造物およびコンポーネントが、そのような概念を曖昧にすることを避けるためにブロック図の形態で示される。
[0025] 教示に基づいて、当業者は、本開示の範囲が、本開示の他の任意の態様から独立してインプリメントされようと、組み合わされようと、本開示の任意の態様をカバーするように意図されていることを理解するべきである。例えば、述べられている任意の数の態様を使用して、装置がインプリメントされることができるか、または方法が実現されることができる。加えて、本開示の範囲は、述べられている本開示の様々な態様に加えた、他の構造物、機能性、またはそれらの態様以外の構造物および機能性を使用して実現される、そのような装置または方法をカバーするように意図されている。開示されている本開示の任意の態様が、請求項の1つまたは複数の要素によって具現化され得ることが理解されるべきである。
[0026] 「実例的な」という用語は、本明細書では、「例、事例、または例示としての役割を果たす」という意味で使用されている。「実例的な」ものとして、本明細書で説明されている任意の態様は、必ずしも他の態様に対して好ましいまたは有利なものとして解釈されるべきではない。
[0027] 特定の態様が本明細書で説明されているが、これらの態様の多くの変形および交換が、本開示の範囲内に入る。好ましい態様のいくつかの恩恵および利点が記述されているが、本開示の範囲は、特定の恩恵、使用法、または目的に限定されるように意図されたものではない。むしろ、本開示の態様は、異なる技術、システム構成、ネットワーク、およびプロトコルに幅広く適用可能であることが意図されており、そのうちのいくつかは、図面において、および好ましい態様の下記の説明において例として例示されている。詳細な説明および図面は、限定ではなく単に本開示を例示するものであり、本開示の範囲は、添付の特許請求の範囲およびその同等物によって定義されている。
[0028] 本開示の態様は、画像中のオブジェクトを検出する(位置特定する(locating))ための深層ニューラルネットワークアーキテクチャに向けられている。特に、本開示の態様は、オブジェクト検出のためにコンテキストベースの事前分布を利用する。本開示のさらなる態様は、内部のフィードバックメカニズムを訓練することを含む。
[0029] 図1は、システムオンチップ(SOC)100を使用する上記の深層ニューラルネットワークアーキテクチャの例となるインプリメンテーション100を例示し、それは、本開示のある特定の態様にしたがって汎用プロセッサ(CPU)またはマルチコア汎用プロセッサ(CPU)102を含み得る。変数(例えば、ニューラル信号およびシナプス荷重(synaptic weights))、計算デバイス(例えば、重みを有するニューラルネットワーク)に関連付けられたシステムパラメータ、遅延、周波数ビン情報(frequency bin information)、およびタスク情報が、ニューラル処理ユニット(NPU)108に関連付けられたメモリブロックに、CPU102に関連付けられたメモリブロックに、グラフィック処理ユニット(GPU)104に関連付けられたメモリブロックに、デジタルシグナルプロセッサ(DSP)106に関連付けられたメモリブロックに、専用のメモリブロック118に、記憶され得るか、または複数のブロックにまたがって分布し得る。汎用プロセッサ102において実行される命令は、CPU102に関連付けられたプログラムメモリからロードされ得るか、または専用のメモリブロック118からロードされ得る。
[0030] SOC100は、また、例えば、ジェスチャを検出および認識し得る、マルチメディアプロセッサ112と、第4世代ロングタームエボリューション(4G LTE(登録商標))接続性、アンライセンスドWi−Fi接続性、USB接続性、Bluetooth(登録商標)接続性、および同様のものを含み得る接続性ブロック110と、DSP106と、GPU104のような、特定の機能に合うようにされた追加の処理ブロックを含み得る。1つのインプリメンテーションにおいて、NPUは、CPU、DSP、および/またはGPUにおいてインプリメントされる。SOC100は、また、センサプロセッサ114、画像信号プロセッサ(ISP)116、および/またはナビゲーション120も含み得、それは、グローバル測位システムを含み得る。
[0031] SOCは、ARM命令セットに基づき得る。本開示のある態様において、汎用プロセッサ102へとロードされる命令は、コンテキストラベルを識別するためのコードを備え得る。汎用プロセッサ102へとロードされる命令は、また、識別されたコンテキストラベルに基づいて画像中の関心オブジェクトを検出する確からしい領域のセットを選択するためのコードも備え得る。
[0032] 図2は、本開示のある特定の態様にしたがった、システム200の例となるインプリメンテーションを例示する。図2に例示されているように、システム200は、本明細書で説明されている方法の様々な動作を行うことができる複数のローカル処理ユニット202を有し得る。各ローカル処理ユニット202は、ニューラルネットワークのパラメータを記憶することができるローカルパラメータメモリ206とローカル状態メモリ204とを備え得る。加えて、ローカル処理ユニット202は、ローカルモデルプログラムを記憶するためのローカル(ニューロン)モデルプログラム(LMP)メモリ208と、ローカル学習プログラムを記憶するためのローカル学習プログラム(LLP)メモリ210と、ローカル接続メモリ212とを有し得る。さらに、図2に例示されているように、各ローカル処理ユニット202は、ローカル処理ユニットのローカルメモリのための構成を提供するための構成プロセッサユニット214と、およびローカル処理ユニット202間のルーティングを提供するルーティング接続処理ユニット(routing connection processing unit)216と、インターフェースをとり得る。
[0033] 深層学習アーキテクチャは、各層において連続的により高いレベルの抽象化(abstraction)で入力を表現するように学習することによってオブジェクト認識タスクを行い得、それにより、入力データの有用な特徴表現を構築する(building up)。このようにして、深層学習は、従来の機械学習の主要な障害(bottleneck)に対処する。深層学習が出現する前は、オブジェクト認識問題への機械学習のアプローチは、ことによると浅層(shallow)の分類器(classifier)と組み合わせた、人が設計した特徴に大きく頼っていた場合もある。浅層の分類器は、例えば、2クラスの線形分類器であり得、ここにおいて、特徴ベクトルコンポーネントの加重和が、どのクラスにその入力が属するかを予測するためにしきい値と比較され得る。人が設計した特徴は、領域の専門知識を持つエンジニアによって特定の問題領域(problem domain)に合うようにされたテンプレートまたはカーネル(templates or kernels)であり得る。深層学習アーキテクチャは、これに対して、人間のエンジニアが設計し得ることに類似した特徴を表現するように学習し得るが、訓練を通して学習し得る。さらに、ディープネットワーク(deep network)は、人間が考慮してこられなかった新しいタイプの特徴を表現し、認識するように学習し得る。
[0034] 深層学習アーキテクチャは、特徴の階層を学習し得る。視覚データが提示された場合、例えば、第1の層は、入力ストリームにおける、エッジのような、単純な特徴を認識するように学習し得る。聴覚データが提示された場合、第1の層は、特定の周波数のスペクトルパワーを認識するように学習し得る。第2の層は、第1の層の出力を入力として取って、視覚データに関しては単純形状または聴覚データに関しては音の組合せのような、特徴の組合せを認識するように学習し得る。高位層(higher layer)は、視覚データにおける複雑形状または聴覚データにおける単語を表現するように学習し得る。さらなる高位層は、共通の視覚オブジェクトまたは発話されたフレーズを認識するように学習し得る。
[0035] 深層学習アーキテクチャは、自然階層構造を有する問題に適用されると特によく機能する(perform)ことができる。例えば、電動車両の分類は、車輪、フロントガラス、および他の特徴を認識するために最初の学習から恩恵を受け得る。これらの特徴は、車、トラック、および飛行機を認識するために異なる方法で高位層において組み合わされ得る。
[0036] ニューラルネットワークは、様々な結合性パターン(connectivity patterns)で設計され得る。フィードフォワードネットワークにおいて、情報は、低位層から高位層に渡され、所与の層にある各ニューロンは高位層にあるニューロンに伝達する。階層的表現は、上述されたように、フィードフォワードネットワークの連続層に構築され得る。ニューラルネットワークは、また、再帰型(recurrent)またはフィードバック(トップダウンとも呼ばれる)結合(feedback connections)も有し得る。再帰型結合において、所与の層にあるニューロンからの出力は、同じ層にある別のニューロンに伝達される。再帰型アーキテクチャは、時間的に展開するパターンを認識するのに役立ち得る。所与の層にあるニューロンから低位層にあるニューロンへの結合は、フィードバック(またはトップダウン)結合と呼ばれる。多くのフィードバック結合を有するネットワークは、高レベルの概念の認識が、入力の特定の低レベルの特徴を区別するのを助けることができるときに役立ち得る。
[0037] 図3Aを参照すると、ニューラルネットワークの層の間の結合は、全結合(fully connected)302され得るか、または局所結合(locally connected)304され得る。全結合ネットワーク302では、所与の層にある1つのニューロンは、次の層にある全ニューロンにそれの出力を伝達し得る。代替的に、局所結合ネットワーク304では、所与の層にある1つのニューロンは、次の層にある限られた数のニューロンに結合され得る。畳み込みネットワーク306は局所結合され得、さらに、所与の層にある各ニューロンに関連付けられた結合強度が共有される特別なケースである(例えば、308)。より一般には、ネットワークの局所結合層は、ある層にある各ニューロンが、同じまたは同様の結合性パターンを有することになるように構成され得るが、異なる値を有し得る結合強度(例えば、310、312、314、および316)で構成され得る。所与の領域にある高位層のニューロンが、ネットワークへの総入力の制限された部分の特性に訓練を通して調整される入力を受信し得るので、局所結合の結合性パターンは、高位層において空間的に別個の受容野を生じさせることもある。
[0038] 局所結合ニューラルネットワークは、入力の空間的ロケーションが意味を持つ問題によく適していることもある。例えば、車載カメラからの視覚特徴を認識するように設計されたネットワーク300は、画像の低位部分と上位部分とのそれらの関連付けに依存して、異なる特性を持つ高層のニューロンを発達させ得る。例えば、画像の低位部分に関連付けられたニューロンは、車線区分線を認識するように学習し得るが、一方、画像の上位部分に関連付けられたニューロンは、交通信号灯、交通標識、および同様のものを認識するように学習し得る。
[0039] DCNは、教師あり学習で訓練され得る。訓練中、DCNは、速度制限標識のクロップされた画像326のような画像が提示され得、次いで出力328を生成するように「フォワードパス(forward pass)」が計算され得る。出力328は、「標識」、「60」、および「100」のような特徴に対応する値のベクトルであり得る。ネットワーク設計元は、DCNが、例えば、訓練されているネットワーク300のための出力328に示されている「標識」および「60」に対応するもののような、出力特徴ベクトルにおけるニューロンのうちのいくつかに関して高スコアを出力することを望むこともある。訓練前に、DCNによって生成される出力が正しくない可能性が高いので、実際の出力とターゲット出力との間の誤差が計算され得る。DCNの重みは、次いで、DCNの出力されたスコアがターゲットとより近くアラインされる(aligned)ように調節され得る。
[0040] 重みを適切に調節するために、学習アルゴリズムは、重みのための勾配ベクトル(gradient vector)を計算し得る。勾配は、重みがわずかに調節された場合に誤差が増加または減少することになる量を示し得る。上層では、勾配は、下から2番目の層にある活性化されたニューロンと出力層にあるニューロンとを結合する重みの値に直接対応し得る。低位層では、勾配は、重みの値に、および高位層の計算された誤差勾配に依存し得る。重みは、次いで、誤差を低減するように調節され得る。重みを調節するこの方法は、それがニューラルネットワークを通した「バックワードパス(backward pass)」を伴うので、「誤差逆伝播(back-propagation)」と称されることもある。
[0041] 実際には、重みの誤差勾配は、少数の例にわたって計算(calculated)され得、その結果、計算された勾配は、真の誤差勾配を近似する。この近似法は、確率的勾配降下法(stochastic gradient descent)と称されることもある。確率的勾配降下法は、システム全体の達成可能な誤差率が減少するのを停止するまで、または誤差率がターゲットレベルに達するまで繰り返され得る。
[0042] 学習後、DCNは、新たな画像326が提示され得、ネットワークを通したフォワードパスは、DCNの推論または予測と見なされ得る出力328をもたらし得る。
[0043] ディープビリーフネットワーク(DBN)は、隠れノード(hidden nodes)の複数の層から成る確率モデルである。DBNは、訓練データセットの階層的表現を抽出(extract)するために使用され得る。DBNは、制限付きボルツマンマシン(RBM:Restricted Boltzmann Machine)の層を積み上げることによって取得され得る。RBMは、入力のセットにわたる確率分布を学習することができる人工ニューラルネットワークのタイプである。RBMは、各入力がカテゴリ化されるべきクラスについての情報がないときに確率分布を学習することができるので、RBMは教師なし学習(unsupervised learning)においてしばしば使用される。ハイブリッド教師なしおよび教師ありパラダイムを使用するとき、DBNの下部RBM(bottom RBMs)は、教師なしの方法で訓練され得、特徴抽出器(feature extractors)としての役割をし得、上部RBM(top RBM)は、(ターゲットクラスと前の層からの入力の同時分布(joint distribution)について)教師ありの方法で訓練され得、分類器としての役割をし得る。
[0044] 深層畳み込みネットワーク(DCN)は、畳み込みネットワークのネットワークであり、追加のプーリング層および正規化層(pooling and normalization layers)で構成される。DCNは、多くのタスクで最先端のパフォーマンスを達成している。DCNは、入力ターゲットおよび出力ターゲットの両方が多くの模範で知られており、勾配降下法の使用によってネットワークの重みを修正するために使用される、教師あり学習を使用して訓練され得る。
[0045] DCNはフィードフォワードネットワークであり得る。加えて、上述されたように、DCNの第1の層にあるニューロンから次の高位層にあるニューロンのグループへの結合が第1の層におけるニューロンにまたがって共有される。DCNのフィードフォワード結合および共有結合は、高速処理のために活用され得る。DCNの計算負担は、例えば、再帰型またはフィードバック結合を備える同様のサイズのニューラルネットワークのそれよりもさらに少ないこともある。
[0046] 畳み込みネットワークの各層の処理は、空間的に不変のテンプレートまたは基底投影(basis projection)と見なされ得る。入力が、最初に、カラー画像の赤、緑、および青チャネルのような複数チャネルへと分解される場合、その入力について訓練された畳み込みネットワークは、画像の軸に沿った2つの空間次元と色情報を捕捉する第3次元とを有する、3次元と見なされ得る。畳み込み結合の出力は、後続層318、320、および322に特徴マップを形成すると考えられ得、特徴マップ(例えば、320)の各要素は、前の層(例えば、318)における様々なニューロンから、および複数チャネルの各々から、入力を受信する。特徴マップにおける値は、さらに、整流(rectification)、max(0,x)のような、非線形性で処理され得る。隣接ニューロンからの値は、さらに、ダウンサンプリングに対応する、プーリング324がなされ得、追加的な局所不変性(local invariance)および次元削減(dimensionality reduction)を提供し得る。白色化(whitening)に対応する正規化は、また、特徴マップにおけるニューロン間の側方抑制(lateral inhibition)を通して適用され得る。
[0047] 深層学習アーキテクチャのパフォーマンスは、より多くのラベル付けされたデータポイントが利用可能になるにつれて、または計算電力が増加するにつれて、増加し得る。現代の深層ニューラルネットワークは、ほんの15年前には一般的な研究者に利用可能であったものよりも何千倍も大きい計算リソースで日常的に訓練される。新たなアーキテクチャおよび訓練パラダイムは、深層学習のパフォーマンスをさらに増大させ得る。整流された線形ユニットは、勾配消失(vanishing gradients)として知られている訓練課題を低減し得る。新たな訓練技法は、オーバーフィッティング(over-fitting)を低減し、よって、より大きいモデルがより良い汎化(better generalization)を達成することを可能にし得る。カプセル化技法は、所与の受容野におけるデータを抽象化(abstract)し、さらに全体的なパフォーマンスを増大させ得る。
[0048] 図3Bは、実例的な深層畳み込みネットワーク350を例示するブロック図である。深層畳み込みネットワーク350は、結合性と重みの共有に基づいて複数の異なるタイプの層を含み得る。図3Bに図示されているように、実例的な深層畳み込みネットワーク350は、複数の畳み込みブロック(例えば、C1およびC2)を含む。畳み込みブロックの各々は、畳み込み層、正規化層(LNorm)、およびプーリング層で構成され得る。畳み込み層は、1つまたは複数の畳み込みフィルタを含み得、それは、特徴マップを生成するように入力データに適用され得る。2つの畳み込みブロックしか示されていないが、本開示はそのように限定するものではなく、任意の数の畳み込みブロックが設計の選好にしたがって深層畳み込みネットワーク350に含まれることができる。正規化層は、畳み込みフィルタの出力を正規化するために使用され得る。例えば、正規化層は、白色化または側方抑制を提供し得る。プーリング層は、局所不変性および次元削減のための空間にわたるダウンサンプリングアグリゲーションを提供し得る。
[0049] 深層畳み込みネットワークの、例えば、並列フィルタバンク(parallel filter banks)が、高いパフォーマンスおよび低い電力消費を達成するために、ARM命令セットにオプションとして基づいて、SOC100のCPU102またはGPU104上に搭載され得る。代替的な実施形態において、並列フィルタバンクは、SOC100のDSP106またはISP116上に搭載され得る。加えて、DCNは、センサ114とナビゲーション120とに特化した処理ブロックのような、SOC上に存在し得る他の処理ブロックにアクセスし得る。
[0050] 深層畳み込みネットワーク350は、また、1つまたは複数の全結合層(例えば、FC1およびFC2)を含み得る。深層畳み込みネットワーク350は、さらに、ロジスティック回帰(LR:logistic regression)層を含み得る。深層畳み込みネットワーク350の各層の間には、更新されることになる重み(図示せず)がある。各層の出力は、第1の畳み込みブロックC1で供給された入力データ(例えば、画像、オーディオ、ビデオ、センサデータおよび/または他の入力データ)からの階層的特徴表現を学習するために、深層畳み込みネットワーク350内の次に続く層の入力としての役割をし得る。
[0051] 図4は、人工知能(AI)機能をモジュール化することができる実例的なソフトウェアアーキテクチャ400を例示するブロック図である。このアーキテクチャを使用して、SOC420の様々な処理ブロック(例えば、CPU422、DSP424、GPU426、および/またはNPU428)に、アプリケーション402の実行時動作中にサポート計算を行わせ得るアプリケーション402が設計され得る。
[0052] AIアプリケーション402は、例えば、デバイスがそこで現在動作するロケーションを示すシーンの検出および認識を提供し得るユーザ空間404において定義された機能を呼び出すように構成され得る。AIアプリケーション402は、例えば、認識されたシーンがオフィスであるか、講堂であるか、レストランであるか、湖のような屋外環境(outdoor setting)であるかに依存して、マイクロフォンおよびカメラを異なって構成し得る。AIアプリケーション402は、現在のシーンの推定を提供するように、SceneDetectアプリケーションプログラミングインターフェース(API)406において定義されたライブラリに関連付けられた、コンパイルされたプログラムコードへの要求を行い得る。この要求は、例えば、ビデオおよび測位データに基づいてシーン推定を提供するように構成された深層ニューラルネットワークの出力に最終的に頼り得る。
[0053] 実行時フレームワーク(Runtime Framework)のコンパイルされたコードであり得る実行時エンジン408は、さらに、AIアプリケーション402にアクセス可能であり得る。AIアプリケーション402は、例えば、実行時エンジンに特定の時間間隔での、またはアプリケーションのユーザインターフェースによって検出されたイベントによってトリガされる、シーン推定を要求させ得る。シーンを推定させられると、実行時エンジンは、次に、SOC420上で作動する、Linux(登録商標)カーネル412のような、オペレーティングシステム410に信号を送り得る。オペレーティングシステム410は、次に、計算がCPU422、DSP424、GPU426、NPU428、またはこれらの何らかの組合せ上で行われることを引き起こし得る。CPU422は、オペレーティングシステムによって直接アクセスされ得、他の処理ブロックは、DSP424のため、GPU426のため、またはNPU428のためのドライバ414〜418のような、ドライバを通してアクセスされ得る。実例的な例において、深層ニューラルネットワークは、CPU422およびGPU426のような処理ブロックの組合せ上で作動するように構成され得るか、または、ある場合は、NPU428上で作動し得る。
[0054] 図5は、スマートフォン502上のAIアプリケーションの実行時動作500を例示するブロック図である。AIアプリケーションは、画像506のフォーマットを変換し、次いで、画像508をクロップおよび/またはリサイズするように(例えば、JAVA(登録商標)プログラミング言語を使用して)構成され得る前処理モジュール504を含み得る。前処理された画像は、次いで、視覚入力に基づいてシーンを検出および分類するように(例えば、Cプログラミング言語を使用して)構成され得るSceneDetectバックエンドエンジン512を含む分類アプリケーション510に通信され得る。SceneDetectバックエンドエンジン512は、スケーリング516およびクロッピング518によって画像をさらに前処理514するように構成され得る。例えば、画像は、結果として生じる画像が224ピクセル×224ピクセルとなるようにスケーリングおよびクロップされ得る。これらの次元は、ニューラルネットワークの入力次元に対応(map to)し得る。ニューラルネットワークは、SOC100の様々な処理ブロックに、深層ニューラルネットワークで画像ピクセルをさらに処理させるように、深層ニューラルネットワークブロック520によって構成され得る。深層ニューラルネットワークの結果は、次いで、しきい値化522され、分類アプリケーション510内の指数平滑化(exponential smoothing)ブロック524を通り得る。平滑化された結果は、次いで、スマートフォン502の設定および/または表示の変更を引き起こし得る。
画像中のオブジェクト検出
[0055] 深層ニューラルネットワークは、画像中のオブジェクトを検出および位置特定するためにコンピュータビジョン(computer vision)で使用され得る。オブジェクトは、様々な異なるカテゴリ(例えば、鳥、パワードリル、またはバックパック)によって特徴付けられ得る。オブジェクトは、図6に例示されているように、隙間なく軸で整列した(tight, axis-aligned)バウンディングボックスをそれの周りに置くことによって画像中で位置特定され得る。特に、画像600では、第1のバウンディングボックス602が、画像600中の花のオブジェクトの周りにある。第2のバウンディングボックス604は、第2のオブジェクト(例えば、猫)の周りにあり、第3のバウンディングボックス606は、花のオブジェクトの周りにある。これらのバウンディングボックスは、4つの値、すなわち、ボックスの最小および最大xおよびy座標によって指定され得る。検出システムがバウンディングボックスを提案すると、それは、バウンディングボックスが、人間のアノテーション(annotation)を介して決定されるような、グラウンドトルース(ground truth)バウンディングボックスとオーバーラップする場合に、50%以上正しいと判断される(例えば、intersection(ground_truth, proposed) / union(ground_truth, proposed) > 0.5)。画像中のオブジェクトを検出することは、同じカテゴリの可能な多くのビューおよびスケールによって、および部分的なオクルージョン(occlusions)によって、難しくされる。
[0056] オブジェクトを検索するための様々な方法の例は、選択検索(selective search)および深層ニューラルネットワーク(DNN)分類器、選択検索/空間ピラミッドプーリング(spatial pyramid pooling)/サポートベクターマシン(SVM)分類器の組合せ、深層ID検索(deep ID searching)、および複数バウンディングボックス検索を含む。
[0057] 選択検索は、カテゴリ不可知(category-agnostic)のバウンディングボックス提案方法を指す。画像が与えられると、選択検索は、様々な基準にしたがってピクセルをクラスタリングすることによって画像を様々なエリアへとセグメント化する。設定に依存して、選択検索は、これらのエリアの周りにバウンディングボックス提案を500〜5000個の範囲内で返す。バウンディングボックス提案は、実際のオブジェクトのバウンディングボックスに近いことも近くないこともある。深層ニューラルネットワーク(DNN)分類器は、次いで、各提案ボックスのクロップされたコンテンツを、オブジェクトカテゴリのうちの1つとして、または他の何らかのものとして分類するように訓練される。追加的に、コンテキストラベルが、そこに画像が存在する環境または設定を記述するように適用され得る。別個のニューラルネットワークは、フル画像のコンテンツの分類についての前の訓練によってフル画像のコンテキストを供給するように訓練され得る。フル画像のコンテキストを有することが重要である。例えば、離して見ると、卓球のボールとゴルフボールを見分けるのは困難であることもあるが、コンテキストで見ると(例えば、ゴルフコースvs卓球台)、これは瞬時に明らかである。
[0058] 選択検索は、計算的に比較的費用がかかる。1つの画像のためのボックスの計算は、最近のデスクトップCPUのシングルコア上で、約1秒かかる。何百ものボックスに対して分類器を作動させることもまた、デスクトップCPUのシングルコアが1秒ごとに約10個のボックスを分類することができるので複数秒かかる(これは、ニューラルネットワークのサイズに依存する)。
[0059] 選択検索、空間ピラミッドプーリング、およびSVM分類の組合せは、R−CNNと同様のアプローチをとり得るが、入力画像からクロップを取るのではなく、それは畳み込みネットワークによって生成された特徴マップからクロップを取る。空間ピラミッドプーリングは、特徴マップ中の任意のサイズのウィンドウを、分類されバイナリSVM(カテゴリごとに1つのSVM)へと送り込まれる固定長の特徴ベクトルへと変えるように使用される。空間ピラミッドプーリングアプローチにおいて、ボックス分類ネットワークは、高解像度の入力画像に対して一回のみ作動する。
[0060] 深層ID検索の方法は、提供されたボックスを使用してデータセットについて前訓練(pre-training)することと、既存の検出システムにしたがって情報的でないと考えられた選択検索ボックスを破棄することと、のような追加的な改良を有するR−CNN(regions with CNN features)に基づく。深層ID検索方法は、また、カスケード型分類器(cascaded classifiers)(例えば、先行する層が正しく分類できなかったときに、例のみによって学習する余分(extra)の全結合層)を利用し、変形プーリング(deformation pooling)を組み込み、ダイバーシティの高いモデルの集合体を利用する。
[0061] 複数バウンディングボックス検索は、約10〜1000個のバウンディングボックスを提案するために深層ニューラルネットワーク(DNN)を利用し得る。ボックスの数は、ネットワークの構成によって訓練前に決定される。例えば、100〜200個のボックスが検出態様において使用され得る。提案されたボックスのコンテンツは、第2のネットワークによって分類され、それは、第3のネットワークからのフル画像のコンテキスト特徴によってサポートされる。
[0062] 複数のバウンディングボックスは、固定数のN個のボックスを出力するように設計および訓練されるバウンディングボックス提案ネットワークを含み得る。N個のボックスの各々に関して、それは、単一の出力に、関心オブジェクトがボックス中にある信頼度(0〜1の範囲内の値)を予測させる。これらの信頼度出力は、ロジスティック損失関数(logistic loss function)で訓練される。追加的に、N個のボックスの各々に関して、ネットワークは、4つのロケーション出力(最小および最大xおよびy座標)に、バウンディングボックスを推定させる。座標は、0(正方形の入力画像の左または上部)から1(正方形の入力画像の右または下部)の範囲にある。これらのロケーションユニットは、差分二乗和コスト関数(sum-of-squared difference cost function)で訓練される。追加的に、信頼度およびロケーションペアの各々は、入力画像のある特定のウィンドウ(または部分)のみに対処するように訓練される。これらのウィンドウは、訓練セットからの大きいセットのボックスをN個の事前分布へとクラスタリングすることによって訓練前に決定される。
[0063] 訓練中、訓練例からの各バウンディングボックスは、最初に最も近い事前分布にマッチされ、その特定の事前分布のためのそれぞれの信頼度およびロケーションペアはそのボックスについて訓練される。これは、信頼度およびロケーションの各ペアが出力におけるある特定の「アテンションのウィンドウ(window of attention)」に責任を負うようにする。このウィンドウは、1つのより大きい事前分布ウィンドウがいくつかのより小さいものを含み得る、またはそれらとオーバーラップし得るので、暗黙的にオブジェクトのスケールも含む。
[0064] 図7は、複数のバウンディングボックスを使用してオブジェクトを検索する例を例示する。この例において、ネットワークはN個のボックスを出力し、ここでは、図に示されているように、N=100である。事前分布ボックス702の引き伸ばしが示され、バウンディングボックスのサブセットを例示しており、これは、事前分布ボックス702に対応する。バウンディングボックスのサブセットは、対応する信頼度およびロケーションペアのアテンションのウィンドウを例示する。
画像検出のためのコンテキストベースの事前分布
[0065] 機械学習アーキテクチャ、例えば、深層ニューラルネットワークアーキテクチャが、画像中のオブジェクトを検出および位置特定するために利用され得る。ネットワークアーキテクチャは、画像中のオブジェクトを見つける複雑性を低減するために特定のデータセットから導出された事前分布を利用し得る。画像中の可能な全ボックスがオブジェクトを含むか否かについて投票する(voting)のではなくむしろ、事前分布は、可能なロケーションを、オブジェクトを含んでいる可能性が最も高いボックスのみに低減するために使用される。オブジェクトを含んでいる可能性が最も高いボックスは、すべてのグラウンドトルースボックスのロケーションをクラスタリングすることと、N個のクラスタ中心(cluster centers)を事前分布ボックスとして考えることとによって決定される。このアプローチは、ボックスのロケーションのみを使用し、画像またはボックス中に含まれているものに関係する情報を無視する。
[0066] 本開示の態様は、画像中のオブジェクトを検出するためにコンテキストベースの事前分布を使用することに向けられている。すなわち、オブジェクトの確からしいロケーションは、コンテキストラベルに基づいて推定される。例えば、それは、コンテキストが「空」であると決定されたときに、鳥を求めて画像の上部を調べるように示され得る。「屋外」といったコンテキストラベルを有する画像は、より小さく、より広く分布した事前分布を有する可能性が高く(例えば、運転のシナリオでは地平線を見ること)、これに対して、「屋内」といったコンテキストラベルを有するものは、より大きく、より中心に位置する事前分布を有する可能性が高い(例えば、ロボットを求めて中心を見る)。コンテキストベースの事前分布を組み込むために、グラウンドトルースボックスがM個のコンテキストラベルによって分離された後に、それらに対してk平均法クラスタリング(k-means clustering)が行われ得、M個のグループのNm個の事前分布をもたらす。訓練および推論中に、コンテキストラベルは、事前分布のどのグループを訓練/テストするべきかを選択するためのスイッチとして使用され得る。ある画像に関して1つより多くのコンテキストラベルが存在する場合、1つより多くのグループの事前分布が一度に訓練され得る。重要なことには、コンテキストラベルが事前分布ボックスと相互に強く関連する場合、すべてのNm個の事前分布の合計が、同じパフォーマンスを有するN(すべてのコンテキストカテゴリにわたる事前分布の数)よりも可能性として小さいこともある。コンテキストベースの事前分布は、ネットワーク全体に、画像全体にわたって検索させるのではなくむしろ、画像中の特定のロケーションにネットワークの検索を集中させるために使用され得る。
[0067] コンテキストベースの事前分布は、より関連した事前分布が特定のコンテキストに関して考慮されることを可能にすることによって、より豊かなセットの事前分布を考慮することを可能にする。さらに、事前分布を画像のコンテキストに基づかせることによって、データセットの依存性が低減される。
[0068] 図8は、画像中のオブジェクトを検出するために深層ニューラルネットワークによって利用される方法800を例示する。1つの態様において、深層ニューラルネットワークアーキテクチャは、単一のニューラルネットワークから成る。代替的に、オプションの構成において、ニューラルネットワークアーキテクチャは、画像中のオブジェクトを検出するために共に共同で働く複数のニューラルネットワークを含む。
[0069] ブロック802において、ニューラルネットワークは、画像全体のためのコンテキストラベルを識別する。コンテキストラベルは、意味を持つ画像のカテゴリ化を提供することができる。次に、ニューラルネットワークは、ブロック804において、識別されたコンテキストラベルに基づいて、画像中の関心オブジェクトを検出するための確からしい領域のセットを選択する。追加的に、確からしい領域のセットはコンテキストラベルに基づいて生成され得る。例えば、コンテキストラベルが「外」である場合、ニューラルネットワークは、画像の低部領域を見て草を検出し得、上部領域を見て空に鳥を検出し得る。ニューラルネットワークは、また、(単数または複数の)追加のコンテキストラベルを識別し、識別された(単数または複数の)追加のコンテキストラベルに基づいて関心オブジェクトを検出するための確からしい領域の他のセットを選択する。例えば、ニューラルネットワークは、別のコンテキストラベルを識別し得、識別されたその別のコンテキストラベルに基づいて、画像中の関心オブジェクトを検出するための確からしい領域の別のセットを選択する。
[0070] 別の態様において、コンテキストラベルはユーザ入力に基づき得る。オプションとして、コンテキストラベルは、教師なし学習に基づき得る。さらに別の態様において、ニューラルネットワークはオブジェクトを検出するように訓練され得る。例えば、ニューラルネットワークは、確からしい領域のセットを正確にする(refine)ように訓練され得る。追加的に、ニューラルネットワークは、関心オブジェクトが確からしい領域の各々に関して存在するかどうかを決定するように訓練され得る。ニューラルネットワークは、また、コンテキストラベルにしたがって確からしい領域の各々を分類するように訓練され得る。
[0071] 図9は、画像中のオブジェクトを検出するための例となるネットワークアーキテクチャ900を例示する。1つの態様において、ネットワークアーキテクチャは、単一のニューラルネットワークから成る。代替的に、オプションの構成において、ネットワークアーキテクチャは、画像中のオブジェクトを検出するために共に共同で働く複数のニューラルネットワークを含む。
[0072] ネットワークアーキテクチャ900は、グローバルパス904とローカルパス910とに分かれる。グローバルパス904は、画像中に何があるかの全体的印象(global impression)を決定するために画像全体を調べる。ローカルパス910は、画像の一部分(例えば、ローカルエリア)を調べ、そのローカルエリアに何があるかを決定する。1つの態様において、グローバルパス904およびローカルパス910は、同時に作動し得る。
[0073] ベースネットワーク902は、畳み込みニューラルネットワークモジュールを含み、受信された画像920に対して複数の層において畳み込みを行うように構成される。1つの例において、ベースネットワーク902は、最大プーリングではなく平均プーリングを利用し得る。さらに、ベースネットワーク902は訓練のために構成され得る。
[0074] 上で示されたように、ベースネットワーク902は、グローバルパス904とローカルパス910の2つのパスへと分かれる。グローバルパス904は、コンテキストパス906(「global what」パス)とアテンションパス908(「global where」パス)の2つのパスへと分かれて、何のオブジェクトが画像中に存在するか(コンテキストパス/「global what」)と、オブジェクトのおおよそのロケーション/配置(アテンションパス/「global where」)とを決定する。ローカルパス910は、また、分類パス912と局所化パス(localization path)914の2つのパスへと分かれ、受信された局所化された画像中に何があるか(分類パス、「local what」)と、関心オブジェクトが厳密には局所化された画像のどこに位置するか(局所化パス、「local where」)とを推論する。さらに、コンテキストパス906、アテンションパス908、分類パス912、および局所化パス914は、すべて同時に作動し得る。
[0075] 画像920は、ベースネットワーク902へと入力される。画像920が一旦入力されると、ベースネットワーク902は、複数の層において畳み込みを行うように構成される。1つの例において、ベースネットワーク902は、グローバルパス904とローカルパス910の両方に14×14の画像を出力する。
[0076] ボックス950において、グローバルパス904は、受信された画像920をダウンサンプリングする。例えば、グローバルパス904は、14×14の画像を7×7の画像にダウンサンプリングし得る。ネットワークのロケーション感度を保つために、最大プーリングではなくダウンサンプリングを行うためにストライド(stride)が利用され得る。
[0077] ボックス951において、畳み込みニューラルネットワーク(CNN)モジュールは、複数の層において畳み込みを行い、コンテキストパス906およびアテンションパス908に出力を送る。ボックス952において、コンテキストパス906は、特定のオブジェクトが画像920のシーン(またはウィンドウ)において期待されるかどうかを決定する。コンテキストパス906は、受信された画像のフル画像のコンテキストを提供し、それは、次いで、ローカルパス910による分類のために使用され得る。特に、コンテキストパス906は、分類パス912に出力962を送り得る。
[0078] ボックス953において、アテンションパス908の出力は、信頼度出力を提供し得る。特に、N個の事前分布ボックスの各々に関して、アテンションパス908は、関心オブジェクトが対応するウィンドウ中に存在するかどうかをシグナリングするためにロジスティック出力を提供する。さらに、ロジスティック出力は、バウンディングボックスが対応する事前分布にマッチされたかどうかに基づいてモジュール971において訓練され得る。アテンションパス908は、畳み込みネットワークに、フィルタの数を許容可能な数に低減させる余分の層を含み得る。さらに、ボックス953において、アテンションパス908は、関心オブジェクトが対応するウィンドウ中に存在するかどうかを示す信号を出力する。
[0079] ベースネットワーク902からの出力は、ローカルパス910に送り込まれ、それは、次いで、ボックス960において画像920をクロップおよびスケーリングする。CNNモジュールは、ボックス961において各層において畳み込みを行い、受信された画像920中に何があるか(分類パス、「local what」)と、関心オブジェクトが厳密にはどこに位置するか(局所化パス、「local where」)とを推論するために、分類パス912および局所化パス914に出力を分ける。分類パス912は、コンテキストパス906から受信されたコンテキスト特徴によってサポートされる。局所化パス914は、関心オブジェクトがウィンドウの中のどこにあるかを決定する。局所化パス914の出力は、ウィンドウに相対し(relative to)、グローバル画像レベルに変換されて戻る。
[0080] ローカルパス910は、それが動作している事前分布ウィンドウがどれかを知ることから恩恵を受け得る。例えば、各ウィンドウは、それ自身の統計を有し得、ネットワークはこれらの特定の統計に適応されることができ得る。クロップの座標および事前分布のIDは、余分の特徴マップとしてローカルパス910に差し挟まれ(injected)得る。例えば、13個のチャネルが追加され得る(4つのグローバル事前分布ボックス座標、4つのローカル事前分布ボックス座標、4つのウィンドウ座標、および事前分布ID)。同じ13個の値がすべてのピクセルにわたって繰り返され得る。例えば、空が見られていることが知られている場合、この情報が決定を行うときに考慮されることができる。
[0081] ネットワークアーキテクチャ900は、訓練モジュール971、972、973、および974を利用して訓練され得る。例えば、訓練は、誤差逆伝播(error back-propagation)を介して行われ得る。訓練中、データ供給元(図示せず)は、データ拡大(data augmentation)(スケーリング、平行移動(translation)、水平ミラーリング)を行い、これに応じてバウンディングボックスアノテーションを調節する。ビューから外れているボックスは破棄される。データ供給元は、同じ事前分布を求めて競合するボックス間の任意の衝突を解決するために相互(bipartite)のマッチングを使用して、バウンディングボックスの各々を事前分布のうちの1つにマッチさせる。
[0082] マッチングが一旦決定されたら、データ供給元は、「ボックス有り」入力を作成する。この入力は、対応するウィンドウ中のオブジェクトの有無をシグナリングする事前分布ごとの1つのバイナリ値から成る。データ供給元は、次いで、ローカルパス910による訓練のためのウィンドウを選ぶ。以下は、試行され得る様々なヒューリスティックス(heuristics)の例である。
a)アテンションパス908を最初に訓練し、次いで、アテンションパス908の出力を使用してローカルパス910を訓練し、
b)マッチしたバウンディングボックスに対応するウィンドウをデータセットから選択し、
c)ボックスを有する無作為のウィンドウを負例(negative examples)として選択し、および、
d)負例に関してハードネガティブマイニング(hard negative mining)を行う。
[0083] 選択されたウィンドウが与えられると、データ供給元は、ボックス座標、ボックスラベル、およびエリア選択(モジュール973および974内に示されている)を作成する。例えば、モジュール974は、関心オブジェクトとより密にフィットするようにボックスの座標を更新することができる。ボックス座標は、バウンディングボックスの最小および最大座標である。これらの座標は、0〜1の範囲にあり、ローカルウィンドウに相対する。いずれのバウンディングボックスもウィンドウ中に存在しない場合、そのウィンドウに関するバウンディングボックスコスト関数がディセーブルにされ(disabled)得る。ボックスラベルは、M個のカテゴリの各々に関する、正値、負値、またはスキップ値である。ウィンドウがボックスと部分的にだけオーバーラップする場合、0〜1の範囲内にある値は、また、ウィンドウの外に部分的にあるバウンディングボックスを示すために使用され得る。しかしながら、データ拡大システムによるオクルージョンは、ネットワークが、自然に発生するオクルージョンと見分けるのが難しいこともある。エリア選択は、クロッピングおよび/またはスケーリングに使用されるようにウィンドウを符号化する。
[0084] 1つの態様において、検出タスクは、2つのタイプのアノテーションを用いて利用される。第1のタイプは、フル画像アノテーションであり、カテゴリごとに正/負/スキップを含む。第2のタイプのアノテーションは、カテゴリごとに正のバウンディングボックスを含む。
[0085] 多くの画像に関して、いくつかのバウンディングボックスアノテーションが欠けていることになる。欠けているボックスアノテーションは、ボックスの現在の入力が多くの正値を欠くことになることを示す。これは、アテンションパス908がこれらのエリアに対して(正しく)トリガすることになるのでそれの品質を低下させるが、バウンディングボックスアノテーションが欠けているので罰を受ける。(訓練モジュール973からの)ローカルパスのボックスラベルの入力は、バウンディングボックスレベルにおける欠落しているアノテーションをスキップするように設定するために、フル画像アノテーション(これらが完全であると想定)を使用し得る。
[0086] ローカルパス910の訓練を加速させるために、ローカルパスの複数のコピーは同時にインスタンス化(instantiated)され得る。これらのコピーは、それらのそれぞれの層の間で重みを共有する。データ供給元は、次いで、ローカルパスごとにウィンドウを選択する。さらに、ローカルパスは、事前分布ごとにインスタンス化され得る。これは、比較的に低いコストで、同時に画像中のすべての事前分布ウィンドウとすべてのバウンディングボックスアノテーションとについて訓練する。追加的に、別の例において、単一のローカルパスがすべての事前分布を順伝播(forward propagate)し、最悪パフォーマンスの例のみを誤差逆伝播するために利用され得、実質的に、オンザフライ(on-the-fly)のハードネガティブマイニングをもたらす。
[0087] 図9に示されているように、ネットワークアーキテクチャ900は、グローバルおよびローカルネットワークにおけるwhereおよびwhatパスウェイをカバーするために、4つのコスト関数(各々が訓練モジュール971、972、973、および974内に位置する)を有する。段階的に、または重み付けられたコスト関数を用いて、このネットワークを訓練するための2つの主要なオプションがある。
[0088] 第1の方法では、共通のネットワークが画像のデータベースについて前訓練され、次いで、フリーズさせられる(frozen)。グローバルおよびローカルネットワークの各々は、次いで、whatおよびwhereコンポーネント間で重み付けられたコスト関数を使用して独立して訓練される。
[0089] 第2の方法では、すべての4つの出力に関する組み合わされたコスト関数が以下のように作成され得る。
Figure 0006743124
[0090] アルファ値は、交差検証(cross-validation)を通して決定され得る。オプションとして、アルファは、強制的にそれらを合計して1にすることになる、コスト関数をアルファ単体に使用することによって学習され得る。
[0091] 1つの例において、ネットワークアーキテクチャ900を用いた推論は、(コンテキストパスがローカルパスにフル画像のコンテキスト特徴を提供するので)コンテキストパスにわたって最初に作動し、次いで、どこに何が見えるかを決定するために各ローカルウィンドウにわたって反復される。アテンションパス908は、このシナリオでは無視され得る。
[0092] 本開示の別の態様は、電力管理に向けられている。例えば、モバイル設定では、ほとんど電力を使用せずに検出が行われ得る。特に、アテンションパスおよびコンテキストパスは、ローカルパスにおいてどのウィンドウを評価すべきかの効率の良いインジケータとして使用され得る。例えば、上部のXウィンドウのみがチェックされ得るか、またはそのアテンション出力がある特定のしきい値を上回るウィンドウのみがチェックされ得る。
[0093] 1つの態様において、効率的な電力管理を適用しながら、コンテキストパス906が最初に作動する。(低いしきい値で)関心オブジェクトが画像920中のどこかに存在するとそれが示す場合、アテンションパス908は、次いで、最も見込みのある(most promising)ウィンドウを決定するために作動し得る。次に、最も見込みがあると決定されたウィンドウの各々に関して、ローカルパス910は、画像920中に何が存在するかとロケーションとを決定するために作動する。
[0094] オプションとして、別の態様において、トップレベルのパスのうちの4つすべて(例えば、コンテキストパス906、アテンションパス908、分類パス912、および局所化パス914)が全画像920に対して作動するわけではない。コンテキストパス906は、特定のオブジェクトがシーンにおいて期待されるかどうかを示すことができる。例えば、「日没」のコンテキストは、オブジェクトに関するさらなる処理を保証しないこともあるが、「サッカー試合」のコンテキストは保証し得る。よって、コンテキストパス906(global−what)は、全画像920に対して作動し得、次いで、ローカルパス910(分類パス912と局所化パス914とを含む)が後に続く、アテンションパス908(global−where)を作動させるべきかどうか決定が行われ得る。
[0095] 追加的に、コンテキストが、ローカルパスが検索するカテゴリを限定または変更するために利用され得る。アテンションパス908は、コンテキストパス906またはローカルパス(例えば、分類パス912および局所化パス914)が作動する前に、画像920中に関心のあるオブジェクトがあるかどうかを決定するために使用され得る。(何らかのしきい値に基づいて)関心のあるオブジェクトがない場合、1つの態様において、他のパスは作動しない。さらに、局所化パス914は、ゴールが、画像中の特定のオブジェクトの有無を決定することだけであるときにスキップされ得る。例えば、タスクが、特定の犬の写真を求めてフォトギャラリーを検索することである場合、ユーザは、犬が写真のどこにいるかは気にせず、犬が画像/写真のどこかにいることだけを気にする。
[0096] 図9に示されているようなネットワークアーキテクチャ900は、カスケード型分類器として見なされ得る。アテンションパス908(例えば、global whereパス)は、関心オブジェクトが事前分布ボックスのいずれかに存在し得るかどうかを決定する。アテンションパス908が十分に信頼度がある場合、分類パス912(例えば、local whatパス)は、より精密な分類を行うために作動する。
[0097] 余分の分類器がこれらの2つのステップの間に差し込まれ得る。この分類器への入力は、ボックス960におけるスケールおよびクロップ層からくる特徴である。追加の分類器は、ローカルパス910を通る順方向パスの数を低減するために、アテンションパス908(global whereパス)を通るボックスを拒絶し得る。1つの態様において、分類器は単純であり、計算上の著しいオーバーヘッドを付加しない。分類器は、サポートベクターマシンまたは全結合層としてインプリメントされ得る。
[0098] 代替の態様において、アテンションパス908は、選択検索モジュールによって置き換えられ得る。オプションとして、別の態様は、アテンションパス908における事前分布ボックスに関するスコアをモジュール化するために勾配の誤差逆伝播を利用する。ニューラルネットワークのコスト関数における人工的な誤差勾配を生成することと、この勾配を入力画像に誤差逆伝播することとによって、クラス顕著性の視覚化(class saliency visualization)のための技法がうまく働く。誤差勾配が最大の大きさを有する入力画像中のピクセルは、オブジェクトが位置特定される確からしいピクセルである。この技法は、アテンションパスにおける事前分布ボックスに関するスコアをモジュール化するために使用され得る。特に、コンテキストパスにおける最高スコアのクラスに関する誤差信号が誤差逆伝播され得る。追加的に、(事前分布に対応するウィンドウ全体にわたる)事前分布の各々に関する勾配の大きさが一体化される。結果として生じる値は、アテンションパス908によって生成されるスコアを更新するために使用される。誤差逆伝播は、また、グローバルコンテキストラベルのためのモジュール972に適用され得る。
[0099] 1つの構成において、機械学習モデルは、画像全体のコンテキストラベルを識別するために構成される。モデルは、また、識別されたコンテキストラベルに基づいて画像中の関心オブジェクトを検出する確からしい領域のセットを選択するために構成される。
[00100] モデルは、識別手段と選択手段とを含む。1つの態様において、識別手段および/または選択手段は、汎用プロセッサ102、汎用プロセッサ102に関連付けられたプログラムメモリ、メモリブロック118、ローカル処理ユニット202、およびまたは記載された機能を行うように構成されたルーティング接続処理ユニット216であり得る。別の構成において、上述された手段は、これら上述された手段によって記載された機能を行うように構成された任意のモジュールまたは任意の装置でありうる。
[00101] モデルは、また、訓練するための手段と、作成するための手段とを含み得る。1つの態様において、訓練手段および/または作成手段は、汎用プロセッサ102、汎用プロセッサ102に関連付けられたプログラムメモリ、メモリブロック118、ローカル処理ユニット202、およびまたは記載された機能を行うように構成されたルーティング接続処理ユニット216であり得る。
[00102] 本開示のある特定の態様によると、各ローカル処理ユニット202は、モデルの1つまたは複数の所望の機能的特徴に基づいてモデルのパラメータを決定することと、決定されたパラメータがさらに適応、調整、および更新されるにつれて、1つまたは複数の機能的特徴を所望の機能的特徴に向けて発展させることと、を行うように構成され得る。
[00103] 上述された方法の様々な動作は、対応する機能を実行することが可能な任意の好適な手段によって実行され得る。手段は、限定ではなく、回路、特定用途向け集積回路(ASIC)、またはプロセッサを含む、様々なハードウェアおよび/または(1つまたは複数の)ソフトウェアコンポーネントならびに/あるいは(1つまたは複数の)モジュールを含み得る。概して、図面に例示された動作がある場合、それらの動作は、同様に番号付けされた対応するミーンズ・プラス・ファンクション・コンポーネントの相当物を有し得る。
[00104] 本明細書で使用される場合、「決定すること」という用語は、幅広いアクションを包含する。例えば、「決定すること」は、計算すること、算出すること、処理すること、導出すること、調査すること、ルックアップすること(例えば、テーブル、データベース、または別のデータ構造内をルックアップすること)、確かめること、および同様のことを含み得る。追加的に、「決定すること」は、受信すること(例えば、情報を受信すること)、アクセスすること(例えば、メモリ内のデータにアクセスすること)、および同様のことを含み得る。さらに、「決定すること」は、解決すること、選択すること、選ぶこと、確立すること、および同様のことを含み得る。
[00105] 本明細書で使用される場合、項目のリスト「のうちの少なくとも1つ」を指すフレーズは、単一のメンバを含む、それらの項目の任意の組合せを指す。例として、「a、b、またはcのうちの少なくとも1つ」は、a、b、c、a−b、a−c、b−c、およびa−b−cをカバーするように意図されている。
[00106] 本開示に関連して説明された様々な例示的な論理ブロック、モジュール、および回路は、本明細書で説明された機能を実行するように設計された、汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ信号(FPGA)、または他のプログラマブル論理デバイス(PLD)、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、あるいはそれらの任意の組合せを用いて、インプリメントまたは実行され得る。汎用プロセッサは、マイクロプロセッサであり得るが、代替として、プロセッサは、商業的に入手可能な任意のプロセッサ、コントローラ、マイクロコントローラ、またはステートマシンであり得る。プロセッサは、また、例えば、DSPとマクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアに連結した1つまたは複数のマイクロプロセッサ、または他の任意のそのような構成といった、コンピューティングデバイスの組合せとしてインプリメントされ得る。
[00107] 本開示に関連して説明されたアルゴリズムまたは方法のステップは、ハードウェアにおいて直接的に、プロセッサによって実行されるソフトウェアモジュールにおいて、またはその2つの組合せで、具現化され得る。ソフトウェアモジュールは、当該技術で知られている任意の形態の記憶媒体内に存在し得る。使用され得る記憶媒体のうちのいくつかの例は、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、フラッシュメモリ、消去可能なプログラマブル読取専用メモリ(EPROM)、電気的に消去可能なプログラマブル読取専用メモリ(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、等を含む。ソフトウェアモジュールは、単一の命令または多くの命令を備え得、いくつかの異なるコードセグメントにわたって、異なるプログラム間で、および複数の記憶媒体にわたって、分散し得る。記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合され得る。代替として、記憶媒体は、プロセッサと一体であり得る。
[00108] 本明細書に開示された方法は、説明された方法を達成するための1つまたは複数のステップまたはアクションを備える。方法のステップおよび/またはアクションは、特許請求の範囲から逸脱せずに、互いに置き換えられ得る。言い換えると、ステップまたはアクションの特定の順序が特定されていない限り、特定のステップおよび/またはアクションの順序および/または使用は、特許請求の範囲から逸脱することなく修正され得る。
[00109] 説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組合せにおいてインプリメントされ得る。ハードウェアにおいてインプリメントされる場合、例となるハードウェア構成は、デバイス内の処理システムを備え得る。処理システムは、バスアーキテクチャでインプリメントされ得る。バスは、処理システムの特定用途と全体的な設計制約とに依存して、任意の数の相互接続バスおよびブリッジを含み得る。バスは、プロセッサ、機械可読媒体、およびバスインターフェースを含む様々な回路を共にリンクさせ得る。バスインターフェースは、ネットワークアダプタを、特に、バスを介して処理システムに接続するために使用され得る。ネットワークアダプタは、信号処理機能をインプリメントするために使用され得る。ある特定の態様の場合、ユーザインターフェース(例えば、キーパッド、ディスプレイ、マウス、ジョイスティック、等)もまた、バスに接続され得る。バスはまた、タイミングソース、周辺機器、電圧レギュレータ、電力管理回路、および同様のものといった、様々な他の回路をリンクさせ得るが、これらは、当該技術において周知であるので、これ以上説明されないであろう。
[00110] プロセッサは、バスの管理と、機械可読媒体上に記憶されたソフトウェアの実行を含む汎用処理と、を担い得る。プロセッサは、1つまたは複数の汎用および/または特殊用途プロセッサを用いてインプリメントされ得る。例は、ソフトウェアを実行することができるマイクロプロセッサ、マイクロコントローラ、DSPプロセッサ、および他の回路を含む。ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と称されようと、または別の名称で呼ばれようと、命令、データ、またはこれらの任意の組合せを意味するように広く解釈されるものとする。機械可読媒体は、例として、ランダムアクセスメモリ(RAM)、フラッシュメモリ、読取専用メモリ(ROM)、プログラマブル読取専用メモリ(PROM)、消去可能なプログラマブル読取専用メモリ(EPROM)、電気的に消去可能なプログラマブル読取専用メモリ(EEPROM)、レジスタ、磁気ディスク、光ディスク、ハードドライブ、または他の任意の好適な記憶媒体、あるいはそれらの任意の組合せを含み得る。機械可読媒体は、コンピュータプログラム製品において具現化され得る。コンピュータプログラム製品は、パッケージ材料を備え得る。
[00111] ハードウェアインプリメンテーションにおいて、機械可読媒体は、プロセッサとは別個の処理システムの一部であり得る。しかしながら、当業者が容易に認識することになるように、機械可読媒体またはその任意の部分は、処理システムの外部にあり得る。例として、機械可読媒体は、伝送回線、データによって変調される搬送波、および/またはデバイスとは別個のコンピュータ製品を含み得、そのすべてはバスインターフェースを通してプロセッサによってアクセスされ得る。代替的に、またはそれに加えて、機械可読媒体、またはその任意の部分は、キャッシュおよび/または汎用レジスタファイルを伴い得るケースのように、プロセッサに一体化され得る。説明された様々なコンポーネントは、ローカルコンポーネントのように、特定のロケーションを有するものとして説明され得るが、それらはまた、ある特定のコンポーネントが分散型コンピューティングシステムの一部として構成されるような、様々な方法で構成され得る。
[00112] 処理システムは、プロセッサ機能を提供する1つまたは複数のマイクロプロセッサ、および機械可読媒体の少なくとも一部分を提供する外部メモリを有し、すべてが外部バスアーキテクチャを通して他のサポート回路と共にリンクされている、汎用処理システムとして構成され得る。代替的に、処理システムは、本明細書で説明されているニューロンモデルおよびニューラルシステムのモデルをインプリメントするための1つまたは複数の神経形態学的プロセッサを備え得る。別の代替として、処理システムは、プロセッサ、バスインターフェース、ユーザインターフェース、サポート回路、および単一のチップに一体化された機械可読媒体の少なくとも一部を有する特定用途向け集積回路(ASIC)で、または、1つまたは複数のフィールドプログラマブルゲートアレイ(FPGA)、プログラマブル論理デバイス(PLD)、コントローラ、ステートマシン、ゲート論理、ディスクリートハードウェアコンポーネント、あるいは他の任意の好適な回路、あるいは本開示全体を通して説明されている様々な機能を行うことができる回路の任意の組合せで、インプリメントされ得る。当業者は、システム全体に課された全体的な設計制約および特定用途に依存して、処理システムに関する説明された機能をいかに最善にインプリメントするべきかを認識するであろう。
[00113] 機械可読媒体は、多くのソフトウェアモジュールを備え得る。ソフトウェアモジュールは、プロセッサによって実行されると、処理システムに様々な機能を行わせる命令を含む。ソフトウェアモジュールは、送信モジュールおよび受信モジュールを含み得る。各ソフトウェアモジュールは、単一の記憶デバイス内に存在し得るか、または複数の記憶デバイスにわたって分散し得る。例として、ソフトウェアモジュールは、トリガイベントが生じたときに、ハードドライブからRAMにロードされ得る。ソフトウェアモジュールの実行中、プロセッサは、アクセススピードを増加させるために、命令のうちのいくつかをキャッシュにロードし得る。1つまたは複数のキャッシュラインは、次いで、プロセッサによる実行のために汎用レジスタファイルにロードされ得る。下記においてソフトウェアモジュールの機能を指すとき、そのような機能は、そのソフトウェアモジュールからの命令を実行するときにプロセッサによってインプリメントされることが理解されるであろう。さらに、本開示の態様がプロセッサ、コンピュータ、機械、またはこのような態様をインプリメントする他のシステムの機能への改良をもたらすことが理解されるべきである。
[00114] ソフトウェアにおいてインプリメントされる場合、これら機能は、コンピュータ可読媒体上の1つまたは複数の命令またはコードとして、記憶または送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体およびコンピュータ記憶媒体の両方を含む。記憶媒体は、コンピュータによってアクセスされることができる任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMまたは他の光ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは、命令またはデータ構造の形態で所望のプログラムコードを記憶または搬送するために使用されることができ、またコンピュータによってアクセスされることができる、任意の他の媒体を備えることができる。追加的に、任意の接続は、コンピュータ可読媒体と厳密には称される。例えば、ソフトウェアがウェブサイト、サーバ、または他の遠隔ソースから、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、あるいは赤外線(IR)、無線、およびマイクロ波のようなワイヤレス技術を使用して送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波のようなワイヤレス技術は媒体の定義に含まれる。ディスク(disk)およびディスク(disc)は、本明細書で使用されるとき、コンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、デジタルバーサタイルディスク(DVD)、フロッピー(登録商標)ディスク、およびBlu−ray(登録商標)ディスクを含み、ここで、ディスク(disk)は通常、磁気的にデータを再生するが、ディスク(disc)は、レーザーを用いて光学的にデータを再生する。したがって、いくつかの態様では、コンピュータ可読媒体は、非一時的なコンピュータ可読媒体(例えば、有体的媒体)を備え得る。加えて、他の態様では、コンピュータ可読媒体は、一時的なコンピュータ可読媒体(例えば、信号)を備え得る。上記の組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
[00115] したがって、ある特定の態様は、本明細書に提示された動作を行うためのコンピュータプログラム製品を備え得る。例えば、そのようなコンピュータプログラム製品は、命令を記憶した(および/または符号化した)コンピュータ可読媒体を備え得、それらの命令は、本明細書で説明された動作を行うために、1つまたは複数のプロセッサによって実行可能である。ある特定の態様では、コンピュータプログラム製品は、パッケージ材料を含み得る。
[00116] さらに、本明細書で説明された方法および技法を行うためのモジュールおよび/または他の適切な手段が、ダウンロードされ得ること、および/または、そうでなければ、適用可能な場合、ユーザ端末および/または基地局によって取得され得ることが理解されるべきである。例えば、そのようなデバイスは、本明細書で説明された方法を行うための手段の転送を容易にするために、サーバに結合されることができる。代替的に、本明細書で説明された様々な方法は、ユーザ端末および/または基地局が、記憶手段をデバイスに結合または提供すると様々な方法を取得することができるように、記憶手段(例えば、RAM、ROM、コンパクトディスク(CD)またはフロッピーディスクのような物理的記憶媒体、等)を介して提供されることができる。さらに、本明細書で説明された方法および技法をデバイスに提供するための他の任意の好適な技法が利用されることができる。
[00117] 特許請求の範囲が、上に例示されたまさにその構成およびコンポーネントに限定されないことが理解されるべきである。様々な修正、変更、および変形が、特許請求の範囲から逸脱せずに、上述された装置および方法の配列、動作、および詳細においてなされ得る。
以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
オブジェクト検出の方法であって、
画像全体のコンテキストラベルを識別することと、
識別されたコンテキストラベルに少なくとも部分的に基づいて、前記画像中の関心オブジェクトを検出するための確からしい領域のセットを選択することと
を備える、方法。
[C2]
前記確からしい領域のセットを正確にするようにニューラルネットワークを訓練することをさらに備える、C1に記載の方法。
[C3]
ユーザ入力に少なくとも部分的に基づいて前記コンテキストラベルを作成することをさらに備える、C1に記載の方法。
[C4]
教師なし学習に少なくとも部分的に基づいて前記コンテキストラベルを作成することをさらに備える、C1に記載の方法。
[C5]
前記コンテキストラベルに少なくとも部分的に基づいて前記確からしい領域のセットを生成することをさらに備える、C1に記載の方法。
[C6]
別のコンテキストラベルを識別することと、
前記別の識別されたコンテキストラベルに少なくとも部分的に基づいて、前記画像中の関心オブジェクトを検出する確からしい領域の別のセットを選択することと
をさらに備える、C1に記載の方法。
[C7]
関心オブジェクトが存在するかどうかを前記確からしい領域の各々に関して決定するようにニューラルネットワークを訓練することをさらに備える、C1に記載の方法。
[C8]
前記コンテキストラベルにしたがって前記確からしい領域の各々を分類するようにニューラルネットワークを訓練することをさらに備える、C1に記載の方法。
[C9]
オブジェクト検出のための装置であって、
メモリと、
前記メモリに結合された少なくとも1つのプロセッサと
を備え、前記少なくとも1つのプロセッサは、
画像全体のコンテキストラベルを識別することと、
識別されたコンテキストラベルに少なくとも部分的に基づいて、前記画像中の関心オブジェクトを検出するための確からしい領域のセットを選択することと
を行うように構成される、装置。
[C10]
前記少なくとも1つのプロセッサは、前記確からしい領域のセットを正確にするようにニューラルネットワークを訓練するようにさらに構成される、C9に記載の装置。
[C11]
前記少なくとも1つのプロセッサは、ユーザ入力に少なくとも部分的に基づいて前記コンテキストラベルを作成するようにさらに構成される、C9に記載の装置。
[C12]
前記少なくとも1つのプロセッサは、教師なし学習に少なくとも部分的に基づいて前記コンテキストラベルを作成するようにさらに構成される、C9に記載の装置。
[C13]
前記少なくとも1つのプロセッサは、前記コンテキストラベルに少なくとも部分的に基づいて前記確からしい領域のセットを生成するようにさらに構成される、C9に記載の装置。
[C14]
前記少なくとも1つのプロセッサは、
別のコンテキストラベルを識別することと、
前記別の識別されたコンテキストラベルに少なくとも部分的に基づいて前記画像中の関心オブジェクトを検出する確からしい領域の別のセットを選択することと
をさらに行うように構成される、C9に記載の装置。
[C15]
前記少なくとも1つのプロセッサは、関心オブジェクトが存在するかどうかを前記確からしい領域の各々に関して決定するようにニューラルネットワークを訓練するようにさらに構成される、C9に記載の装置。
[C16]
前記少なくとも1つのプロセッサは、前記コンテキストラベルにしたがって前記確からしい領域の各々を分類するようにニューラルネットワークを訓練するようにさらに構成される、C9に記載の装置。
[C17]
非一時的なプログラムコードを記録した、オブジェクト検出のための非一時的なコンピュータ可読媒体であって、前記プログラムコードは、
画像全体のコンテキストラベルを識別するためのプログラムコードと、
識別されたコンテキストラベルに少なくとも部分的に基づいて前記画像中の関心オブジェクトを検出するための確からしい領域のセットを選択するためのプログラムコードと を備える、非一時的なコンピュータ可読媒体。
[C18]
前記確からしい領域のセットを正確にするようにニューラルネットワークを訓練するためのプログラムコードをさらに備える、C17に記載のコンピュータ可読媒体。
[C19]
ユーザ入力に少なくとも部分的に基づいて前記コンテキストラベルを作成するためのプログラムコードをさらに備える、C17に記載のコンピュータ可読媒体。
[C20]
教師なし学習に少なくとも部分的に基づいて前記コンテキストラベルを作成するためのプログラムコードをさらに備える、C17に記載のコンピュータ可読媒体。
[C21]
前記コンテキストラベルに少なくとも部分的に基づいて前記確からしい領域のセットを生成するためのプログラムコードをさらに備える、C17に記載のコンピュータ可読媒体。
[C22]
別のコンテキストラベルを識別するためのプログラムコードと、
前記別の識別されたコンテキストラベルに少なくとも部分的に基づいて前記画像中の関心オブジェクトを検出する確からしい領域の別のセットを選択するためのプログラムコードと
をさら備える、C17に記載のコンピュータ可読媒体。
[C23]
関心オブジェクトが存在するかどうかを前記確からしい領域の各々に関して決定するようにニューラルネットワークを訓練するためのプログラムコードをさらに備える、C17に記載のコンピュータ可読媒体。
[C24]
前記コンテキストラベルにしたがって前記確からしい領域の各々を分類するようにニューラルネットワークを訓練するためのプログラムコードをさらに備える、C17に記載のコンピュータ可読媒体。
[C25]
ワイヤレス通信のための装置であって、
画像全体のコンテキストラベルを識別するための手段と、
識別されたコンテキストラベルに少なくとも部分的に基づいて前記画像中の関心オブジェクトを検出するための確からしい領域のセットを選択するための手段と
を備える、装置。
[C26]
前記確からしい領域のセットを正確にするようにニューラルネットワークを訓練するための手段をさらに備える、C25に記載の装置。
[C27]
教師なし学習に少なくとも部分的に基づいて前記コンテキストラベルを作成するための手段をさらに備える、C25に記載の装置。
[C28]
別のコンテキストラベルを識別するための手段と、
前記別の識別されたコンテキストラベルに少なくとも部分的に基づいて前記画像中の関心オブジェクトを検出する確からしい領域の別のセットを選択するための手段と
をさらに備える、C25に記載の装置。

Claims (15)

  1. オブジェクト検出の方法であって、
    画像全体のコンテキストに対応するコンテキストラベルを、深層ニューラルネットワーク(DNN)を通して識別することと、
    前記識別されたコンテキストラベルに関連付けられたコンテキストベースの事前分布に少なくとも部分的に基づいて、前記画像中の関心オブジェクトを検出するための確からしい領域のセットを選択することと
    を備える、方法。
  2. 前記確からしい領域のセットを正確にするように前記DNNを訓練することをさらに備える、請求項1に記載の方法。
  3. ユーザ入力に少なくとも部分的に基づいて前記コンテキストラベルを作成することをさらに備える、請求項1に記載の方法。
  4. 教師なし学習に少なくとも部分的に基づいて前記コンテキストラベルを作成することをさらに備える、請求項1に記載の方法。
  5. 前記コンテキストラベルに少なくとも部分的に基づいて特定のロケーションに集中させることによって前記確からしい領域のセットを生成することをさらに備える、請求項1に記載の方法。
  6. 追加のコンテキストラベルを識別することと、
    前記追加の識別されたコンテキストラベルに少なくとも部分的に基づいて、前記画像中の関心オブジェクトを検出する確からしい領域の追加のセットを選択することと
    をさらに備える、請求項1に記載の方法。
  7. 関心オブジェクトが存在するかどうかを前記確からしい領域の各々に関して決定するように前記DNNを訓練することをさらに備える、請求項1に記載の方法。
  8. 前記コンテキストラベルにしたがって前記確からしい領域の各々を分類するように前記DNNを訓練することをさらに備える、請求項1に記載の方法。
  9. オブジェクト検出のための装置であって、
    メモリと、
    前記メモリに結合された少なくとも1つのプロセッサと
    を備え、前記少なくとも1つのプロセッサは、
    画像全体のコンテキストに対応するコンテキストラベルを、深層ニューラルネットワーク(DNN)を通して、識別することと、
    前記識別されたコンテキストラベルに関連付けられたコンテキストベースの事前分布に少なくとも部分的に基づいて、前記画像中の関心オブジェクトを検出するための確からしい領域のセットを選択することと
    を行うように構成される、装置。
  10. 前記少なくとも1つのプロセッサは、前記確からしい領域のセットを正確にするように前記DNNを訓練するようにさらに構成される、請求項9に記載の装置。
  11. 前記少なくとも1つのプロセッサは、ユーザ入力に少なくとも部分的に基づいて前記コンテキストラベルを作成するようにさらに構成される、請求項9に記載の装置。
  12. 前記少なくとも1つのプロセッサは、教師なし学習に少なくとも部分的に基づいて前記コンテキストラベルを作成するようにさらに構成される、請求項9に記載の装置。
  13. i)前記少なくとも1つのプロセッサは、前記コンテキストラベルに少なくとも部分的に基づいて前記確からしい領域のセットを生成するようにさらに構成される、
    ii)前記少なくとも1つのプロセッサは、
    別のコンテキストラベルを識別することと、
    前記別の識別されたコンテキストラベルに少なくとも部分的に基づいて前記画像中の関心オブジェクトを検出する確からしい領域の別のセットを選択することと
    をさらに行うように構成される、
    iii)前記少なくとも1つのプロセッサは、関心オブジェクトが存在するかどうかを前記確からしい領域の各々に関して決定するように前記DNNを訓練するようにさらに構成される、または、
    iv)前記少なくとも1つのプロセッサは、前記コンテキストラベルにしたがって前記確からしい領域の各々を分類するように前記DNNを訓練するようにさらに構成される、
    のうちの1つを備える、請求項9に記載の装置。
  14. 非一時的なプログラムコードを記録した、オブジェクト検出のための非一時的なコンピュータ可読媒体であって、前記プログラムコードは、
    画像全体のコンテキストに対応するコンテキストラベルを、深層ニューラルネットワーク(DNN)を通して識別するためのプログラムコードと、
    前記識別されたコンテキストラベルに関連付けられたコンテキストベースの事前分布に少なくとも部分的に基づいて前記画像中の関心オブジェクトを検出するための確からしい領域のセットを選択するためのプログラムコードと
    を備える、非一時的なコンピュータ可読媒体。
  15. ワイヤレス通信のための装置であって、
    画像全体のコンテキストに対応するコンテキストラベルを、深層ニューラルネットワーク(DNN)を通して識別するための手段と、
    前記識別されたコンテキストラベルに関連付けられたコンテキストベースの事前分布に少なくとも部分的に基づいて前記画像中の関心オブジェクトを検出するための確からしい領域のセットを選択するための手段と
    を備える、装置。
JP2018500365A 2015-07-09 2016-06-27 画像中のオブジェクト検出のためのコンテキストベースの事前分布 Active JP6743124B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562190685P 2015-07-09 2015-07-09
US62/190,685 2015-07-09
US14/882,373 2015-10-13
US14/882,373 US10410096B2 (en) 2015-07-09 2015-10-13 Context-based priors for object detection in images
PCT/US2016/039651 WO2017007626A1 (en) 2015-07-09 2016-06-27 Context-based priors for object detection in images

Publications (3)

Publication Number Publication Date
JP2018526723A JP2018526723A (ja) 2018-09-13
JP2018526723A5 JP2018526723A5 (ja) 2019-07-04
JP6743124B2 true JP6743124B2 (ja) 2020-08-19

Family

ID=56373162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018500365A Active JP6743124B2 (ja) 2015-07-09 2016-06-27 画像中のオブジェクト検出のためのコンテキストベースの事前分布

Country Status (7)

Country Link
US (1) US10410096B2 (ja)
EP (1) EP3320486A1 (ja)
JP (1) JP6743124B2 (ja)
KR (1) KR102557512B1 (ja)
CN (1) CN107851191B (ja)
BR (1) BR112018000502A2 (ja)
WO (1) WO2017007626A1 (ja)

Families Citing this family (171)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015046382A1 (ja) * 2013-09-25 2015-04-02 富士フイルム株式会社 画像処理装置、画像処理システム、画像処理プログラム、及び画像処理方法
US20170068863A1 (en) * 2015-09-04 2017-03-09 Qualcomm Incorporated Occupancy detection using computer vision
US10013640B1 (en) * 2015-12-21 2018-07-03 Google Llc Object recognition from videos using recurrent neural networks
US20170206426A1 (en) * 2016-01-15 2017-07-20 Ford Global Technologies, Llc Pedestrian Detection With Saliency Maps
US10878318B2 (en) 2016-03-28 2020-12-29 Google Llc Adaptive artificial neural network selection techniques
JP6708044B2 (ja) * 2016-07-28 2020-06-10 富士通株式会社 画像認識装置、画像認識プログラム、画像認識方法および認識装置
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
US10346723B2 (en) 2016-11-01 2019-07-09 Snap Inc. Neural network for object detection in images
US11042161B2 (en) 2016-11-16 2021-06-22 Symbol Technologies, Llc Navigation control method and apparatus in a mobile automation system
US10360494B2 (en) * 2016-11-30 2019-07-23 Altumview Systems Inc. Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules
EP3545472A1 (en) * 2017-01-30 2019-10-02 Google LLC Multi-task neural networks with task-specific paths
EP3566177A1 (en) * 2017-02-03 2019-11-13 Siemens Aktiengesellschaft A method and apparatus for detecting objects of interest in images
US10546242B2 (en) 2017-03-03 2020-01-28 General Electric Company Image analysis neural network systems
KR101878490B1 (ko) * 2017-03-10 2018-07-13 만도헬라일렉트로닉스(주) 차선 인식 시스템 및 방법
US10678244B2 (en) 2017-03-23 2020-06-09 Tesla, Inc. Data synthesis for autonomous control systems
CN110678872A (zh) 2017-04-04 2020-01-10 罗伯特·博世有限公司 通过使用神经网络图像处理的、作为3d限界框的直接载具检测
US11367092B2 (en) 2017-05-01 2022-06-21 Symbol Technologies, Llc Method and apparatus for extracting and processing price text from an image set
US11093896B2 (en) 2017-05-01 2021-08-17 Symbol Technologies, Llc Product status detection system
US10726273B2 (en) 2017-05-01 2020-07-28 Symbol Technologies, Llc Method and apparatus for shelf feature and object placement detection from shelf images
US20180314908A1 (en) * 2017-05-01 2018-11-01 Symbol Technologies, Llc Method and apparatus for label detection
US10505057B2 (en) 2017-05-01 2019-12-10 Symbol Technologies, Llc Device and method for operating cameras and light sources wherein parasitic reflections from a paired light source are not reflected into the paired camera
US11449059B2 (en) 2017-05-01 2022-09-20 Symbol Technologies, Llc Obstacle detection for a mobile automation apparatus
EP3619600A4 (en) 2017-05-01 2020-10-21 Symbol Technologies, LLC METHOD AND APPARATUS FOR OBJECT STATE DETECTION
US10949798B2 (en) 2017-05-01 2021-03-16 Symbol Technologies, Llc Multimodal localization and mapping for a mobile automation apparatus
US10663590B2 (en) 2017-05-01 2020-05-26 Symbol Technologies, Llc Device and method for merging lidar data
US10591918B2 (en) 2017-05-01 2020-03-17 Symbol Technologies, Llc Fixed segmented lattice planning for a mobile automation apparatus
WO2018201423A1 (en) 2017-05-05 2018-11-08 Symbol Technologies, Llc Method and apparatus for detecting and interpreting price label text
US11748877B2 (en) 2017-05-11 2023-09-05 The Research Foundation For The State University Of New York System and method associated with predicting segmentation quality of objects in analysis of copious image data
JP7331172B2 (ja) * 2017-05-11 2023-08-22 キヤノン株式会社 画像認識装置および学習装置
JP7023613B2 (ja) * 2017-05-11 2022-02-22 キヤノン株式会社 画像認識装置および学習装置
WO2018223295A1 (en) * 2017-06-06 2018-12-13 Midea Group Co., Ltd. Coarse-to-fine hand detection method using deep neural network
WO2018232378A1 (en) * 2017-06-16 2018-12-20 Markable, Inc. Image processing system
US11875250B1 (en) * 2017-06-19 2024-01-16 Amazon Technologies, Inc. Deep neural networks with semantically weighted loss functions
US10019654B1 (en) 2017-06-28 2018-07-10 Accenture Global Solutions Limited Image object recognition
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
JP6729516B2 (ja) * 2017-07-27 2020-07-22 トヨタ自動車株式会社 識別装置
CN108022238B (zh) * 2017-08-09 2020-07-03 深圳科亚医疗科技有限公司 对3d图像中对象进行检测的方法、计算机存储介质和系统
JP6970553B2 (ja) * 2017-08-17 2021-11-24 キヤノン株式会社 画像処理装置、画像処理方法
US10521914B2 (en) 2017-09-07 2019-12-31 Symbol Technologies, Llc Multi-sensor object recognition system and method
US10572763B2 (en) 2017-09-07 2020-02-25 Symbol Technologies, Llc Method and apparatus for support surface edge detection
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same
KR102521054B1 (ko) 2017-10-18 2023-04-12 삼성전자주식회사 조기 중단에 기반한 심층 신경망의 연산 제어 방법 및 시스템
US10510157B2 (en) * 2017-10-28 2019-12-17 Altumview Systems Inc. Method and apparatus for real-time face-tracking and face-pose-selection on embedded vision systems
US10671918B2 (en) * 2017-10-24 2020-06-02 International Business Machines Corporation Attention based sequential image processing
US20190156204A1 (en) * 2017-11-20 2019-05-23 Koninklijke Philips N.V. Training a neural network model
US11416738B1 (en) * 2017-11-21 2022-08-16 Amazon Technologies, Inc. Model reutilization with heterogeneous sensor stacks via sensor data auto-normalization
US10586350B2 (en) 2017-12-03 2020-03-10 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
US10796452B2 (en) 2017-12-03 2020-10-06 Facebook, Inc. Optimizations for structure mapping and up-sampling
CN111670457B (zh) * 2017-12-03 2023-12-01 元平台公司 动态对象实例检测、分割和结构映射的优化
CN107818326B (zh) 2017-12-11 2018-07-20 珠海大横琴科技发展有限公司 一种基于场景多维特征的船只检测方法及系统
US10742959B1 (en) * 2017-12-29 2020-08-11 Perceive Corporation Use of machine-trained network for misalignment-insensitive depth perception
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
JP2019142304A (ja) * 2018-02-19 2019-08-29 株式会社明電舎 落下物検出装置及び落下物検出方法
US10740647B2 (en) 2018-03-14 2020-08-11 Adobe Inc. Detecting objects using a weakly supervised model
CN108509900A (zh) * 2018-03-29 2018-09-07 深圳前向启创数码技术有限公司 交通标志检测和识别方法、系统及存储介质
US11205274B2 (en) * 2018-04-03 2021-12-21 Altumview Systems Inc. High-performance visual object tracking for embedded vision systems
US10832436B2 (en) 2018-04-05 2020-11-10 Symbol Technologies, Llc Method, system and apparatus for recovering label positions
US10809078B2 (en) 2018-04-05 2020-10-20 Symbol Technologies, Llc Method, system and apparatus for dynamic path generation
US10823572B2 (en) 2018-04-05 2020-11-03 Symbol Technologies, Llc Method, system and apparatus for generating navigational data
US10740911B2 (en) 2018-04-05 2020-08-11 Symbol Technologies, Llc Method, system and apparatus for correcting translucency artifacts in data representing a support structure
US11327504B2 (en) 2018-04-05 2022-05-10 Symbol Technologies, Llc Method, system and apparatus for mobile automation apparatus localization
US10546389B2 (en) * 2018-04-06 2020-01-28 Elekta Ab (Publ) Devices and methods for identifying an object in an image
CN108830277B (zh) * 2018-04-20 2020-04-21 平安科技(深圳)有限公司 语义分割模型的训练方法、装置、计算机设备和存储介质
US10796200B2 (en) 2018-04-27 2020-10-06 Intel Corporation Training image signal processors using intermediate loss functions
CN108681752B (zh) * 2018-05-28 2023-08-15 电子科技大学 一种基于深度学习的图像场景标注方法
KR102132383B1 (ko) * 2018-05-28 2020-07-09 슈어소프트테크주식회사 딥러닝 알고리즘 및 트리를 이용한 ui테스팅 자동화 방법 및 동일 방법으로 구현된 장치
CN110555345B (zh) * 2018-06-01 2022-06-28 赛灵思电子科技(北京)有限公司 智能图像分析系统和方法
CN110580487A (zh) 2018-06-08 2019-12-17 Oppo广东移动通信有限公司 神经网络的训练方法、构建方法、图像处理方法和装置
CN108810413B (zh) * 2018-06-15 2020-12-01 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
EP3588371A3 (en) * 2018-06-25 2020-03-11 Panasonic Intellectual Property Corporation of America Information processing device, information processing method, and program
WO2020000383A1 (en) 2018-06-29 2020-01-02 Baidu.Com Times Technology (Beijing) Co., Ltd. Systems and methods for low-power, real-time object detection
CN110717575B (zh) * 2018-07-13 2022-07-26 奇景光电股份有限公司 无帧缓冲器的卷积神经网络系统与方法
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
KR102051032B1 (ko) * 2018-08-01 2019-12-02 경북대학교 산학협력단 객체 탐지 장치 및 제어 방법
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US11010920B2 (en) 2018-10-05 2021-05-18 Zebra Technologies Corporation Method, system and apparatus for object detection in point clouds
US11506483B2 (en) 2018-10-05 2022-11-22 Zebra Technologies Corporation Method, system and apparatus for support structure depth determination
US10304009B1 (en) * 2018-10-08 2019-05-28 StradVision, Inc. Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same
IL282172B2 (en) 2018-10-11 2024-02-01 Tesla Inc Systems and methods for training machine models with enhanced data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US10438082B1 (en) * 2018-10-26 2019-10-08 StradVision, Inc. Learning method, learning device for detecting ROI on the basis of bottom lines of obstacles and testing method, testing device using the same
CN109492650B (zh) * 2018-10-31 2021-07-20 广州蚁群信息科技有限公司 一种基于神经网络的ivd图像识别判定方法
CN109493326B (zh) * 2018-10-31 2021-07-20 广州蚁群信息科技有限公司 一种用于医疗检测领域的移动式识别分析系统
WO2020093792A1 (en) * 2018-11-08 2020-05-14 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method, system, and computer-readable medium for improving color quality of images
US11003188B2 (en) 2018-11-13 2021-05-11 Zebra Technologies Corporation Method, system and apparatus for obstacle handling in navigational path generation
US11090811B2 (en) 2018-11-13 2021-08-17 Zebra Technologies Corporation Method and apparatus for labeling of support structures
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) * 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11079240B2 (en) 2018-12-07 2021-08-03 Zebra Technologies Corporation Method, system and apparatus for adaptive particle filter localization
US11416000B2 (en) 2018-12-07 2022-08-16 Zebra Technologies Corporation Method and apparatus for navigational ray tracing
US11100303B2 (en) 2018-12-10 2021-08-24 Zebra Technologies Corporation Method, system and apparatus for auxiliary label detection and association
US11015938B2 (en) 2018-12-12 2021-05-25 Zebra Technologies Corporation Method, system and apparatus for navigational assistance
US10731970B2 (en) 2018-12-13 2020-08-04 Zebra Technologies Corporation Method, system and apparatus for support structure detection
US10755128B2 (en) 2018-12-18 2020-08-25 Slyce Acquisition Inc. Scene and user-input context aided visual search
US11024187B2 (en) * 2018-12-19 2021-06-01 The Boeing Company Aircraft positioning on a taxiway
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
CA3028708A1 (en) 2018-12-28 2020-06-28 Zih Corp. Method, system and apparatus for dynamic loop closure in mapping trajectories
US10402692B1 (en) * 2019-01-22 2019-09-03 StradVision, Inc. Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same
US10346693B1 (en) * 2019-01-22 2019-07-09 StradVision, Inc. Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same
US10387753B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
CN113196291A (zh) * 2019-01-23 2021-07-30 动态Ad有限责任公司 自动选择用于注释的数据样本
US10325352B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for transforming CNN layers to optimize CNN parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
US10325185B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same
US10395140B1 (en) * 2019-01-23 2019-08-27 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×1 convolution to be used for hardware optimization, and testing method and testing device using the same
US10496899B1 (en) * 2019-01-25 2019-12-03 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same
US10445611B1 (en) * 2019-01-25 2019-10-15 StradVision, Inc. Method for detecting pseudo-3D bounding box to be used for military purpose, smart phone or virtual driving based-on CNN capable of converting modes according to conditions of objects and device using the same
US10373323B1 (en) * 2019-01-29 2019-08-06 StradVision, Inc. Method and device for merging object detection information detected by each of object detectors corresponding to each camera nearby for the purpose of collaborative driving by using V2X-enabled applications, sensor fusion via multiple vehicles
US10373027B1 (en) * 2019-01-30 2019-08-06 StradVision, Inc. Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same
US10423840B1 (en) * 2019-01-31 2019-09-24 StradVision, Inc. Post-processing method and device for detecting lanes to plan the drive path of autonomous vehicle by using segmentation score map and clustering map
US10373004B1 (en) * 2019-01-31 2019-08-06 StradVision, Inc. Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US20200293823A1 (en) * 2019-03-13 2020-09-17 Hitachi, Ltd. Method and system of auto build of image analytics program
EP3716157A1 (en) * 2019-03-28 2020-09-30 Canon Medical Systems Corporation Apparatus and method for training models
US11373298B2 (en) 2019-03-28 2022-06-28 Canon Medical Systems Corporation Apparatus and method for training neural networks using small, heterogeneous cohorts of training data
US11460850B1 (en) * 2019-05-14 2022-10-04 Zoox, Inc. Object trajectory from wheel direction
KR20200133863A (ko) 2019-05-20 2020-12-01 삼성전자주식회사 첨단 운전자 지원 장치, 이의 캘리브레이션 방법 및 이의 객체를 검출하는 방법
US20220215648A1 (en) 2019-05-23 2022-07-07 Konica Minolta, Inc. Object detection device, object detection system, object detection method, program, and recording medium
US20220207863A1 (en) 2019-05-23 2022-06-30 Konica Minolta, Inc. Object detection device, object detection method, program, and recording medium
US11402846B2 (en) 2019-06-03 2022-08-02 Zebra Technologies Corporation Method, system and apparatus for mitigating data capture light leakage
US11662739B2 (en) 2019-06-03 2023-05-30 Zebra Technologies Corporation Method, system and apparatus for adaptive ceiling-based localization
US11200677B2 (en) 2019-06-03 2021-12-14 Zebra Technologies Corporation Method, system and apparatus for shelf edge detection
US11080566B2 (en) 2019-06-03 2021-08-03 Zebra Technologies Corporation Method, system and apparatus for gap detection in support structures with peg regions
US11341663B2 (en) 2019-06-03 2022-05-24 Zebra Technologies Corporation Method, system and apparatus for detecting support structure obstructions
US11151743B2 (en) 2019-06-03 2021-10-19 Zebra Technologies Corporation Method, system and apparatus for end of aisle detection
US11960286B2 (en) 2019-06-03 2024-04-16 Zebra Technologies Corporation Method, system and apparatus for dynamic task sequencing
CN114730498A (zh) * 2019-06-14 2022-07-08 奇跃公司 跨现实系统中的可缩放三维对象识别
CN112149463B (zh) * 2019-06-27 2024-04-23 京东方科技集团股份有限公司 图像处理方法和装置
KR20210009458A (ko) * 2019-07-16 2021-01-27 삼성전자주식회사 객체 검출 방법 및 객체 검출 장치
US11468550B2 (en) 2019-07-22 2022-10-11 Adobe Inc. Utilizing object attribute detection models to automatically select instances of detected objects in images
US11631234B2 (en) 2019-07-22 2023-04-18 Adobe, Inc. Automatically detecting user-requested objects in images
US11107219B2 (en) 2019-07-22 2021-08-31 Adobe Inc. Utilizing object attribute detection models to automatically select instances of detected objects in images
GB2586678B (en) * 2019-07-22 2022-06-22 Adobe Inc Utilizing multiple object detection models to automatically select user-requested objects in images
US11302033B2 (en) 2019-07-22 2022-04-12 Adobe Inc. Classifying colors of objects in digital images
CN110427940A (zh) * 2019-08-05 2019-11-08 山东浪潮人工智能研究院有限公司 一种为物体检测模型生成预选框的方法
CN110533088A (zh) * 2019-08-16 2019-12-03 湖北工业大学 一种基于区分式卷积神经网络的场景文字语种识别方法
JP7021161B2 (ja) 2019-09-19 2022-02-16 ヤフー株式会社 学習装置、学習方法および学習プログラム
EP4058930A1 (en) * 2019-11-15 2022-09-21 Qualcomm Technologies, Inc. Context-driven learning of human-object interactions
CN112906726B (zh) * 2019-11-20 2024-01-16 北京沃东天骏信息技术有限公司 模型训练方法、图像处理方法、装置、计算设备、介质
CN110968725B (zh) * 2019-12-03 2023-04-28 咪咕动漫有限公司 图像内容描述信息生成方法、电子设备及存储介质
US11507103B2 (en) 2019-12-04 2022-11-22 Zebra Technologies Corporation Method, system and apparatus for localization-based historical obstacle handling
US11107238B2 (en) 2019-12-13 2021-08-31 Zebra Technologies Corporation Method, system and apparatus for detecting item facings
CN111985518A (zh) * 2020-02-18 2020-11-24 广东三维家信息科技有限公司 门窗检测方法及其模型训练的方法、装置
US11468110B2 (en) 2020-02-25 2022-10-11 Adobe Inc. Utilizing natural language processing and multiple object detection models to automatically select objects in images
US11055566B1 (en) * 2020-03-12 2021-07-06 Adobe Inc. Utilizing a large-scale object detector to automatically select objects in digital images
US11822333B2 (en) 2020-03-30 2023-11-21 Zebra Technologies Corporation Method, system and apparatus for data capture illumination control
JP7098180B2 (ja) * 2020-04-15 2022-07-11 株式会社Ridge-i 情報処理装置、情報処理方法及び情報処理プログラム
CN111582409B (zh) * 2020-06-29 2023-12-26 腾讯科技(深圳)有限公司 图像标签分类网络的训练方法、图像标签分类方法及设备
US11450024B2 (en) 2020-07-17 2022-09-20 Zebra Technologies Corporation Mixed depth object detection
CN111814726B (zh) * 2020-07-20 2023-09-22 南京工程学院 一种探测机器人视觉目标检测方法
KR102533140B1 (ko) * 2020-08-24 2023-05-17 경기대학교 산학협력단 심층 신경망을 이용한 장면 그래프 생성 시스템
KR102397079B1 (ko) * 2020-09-07 2022-05-12 울산과학기술원 단일 뉴럴 네트워크를 이용한 로봇 파지 방법 및 이를 수행하는 장치
CN112183258A (zh) * 2020-09-16 2021-01-05 太原理工大学 一种基于上下文信息和注意力机制的遥感图像道路分割方法
US11593915B2 (en) 2020-10-21 2023-02-28 Zebra Technologies Corporation Parallax-tolerant panoramic image generation
CN112347895A (zh) * 2020-11-02 2021-02-09 北京观微科技有限公司 一种基于边界优化神经网络的舰船遥感目标检测方法
US11392891B2 (en) 2020-11-03 2022-07-19 Zebra Technologies Corporation Item placement detection and optimization in material handling systems
US11847832B2 (en) 2020-11-11 2023-12-19 Zebra Technologies Corporation Object classification for autonomous navigation systems
US11769318B2 (en) * 2020-11-23 2023-09-26 Argo AI, LLC Systems and methods for intelligent selection of data for building a machine learning model
KR102435957B1 (ko) * 2020-11-27 2022-08-24 인하대학교 산학협력단 다양한 샘플을 이용하여 개선한 확률기반 사물검출기
US11943271B2 (en) 2020-12-17 2024-03-26 Tencent America LLC Reference of neural network model by immersive media for adaptation of media for streaming to heterogenous client end-points
US11587234B2 (en) 2021-01-15 2023-02-21 Adobe Inc. Generating class-agnostic object masks in digital images
US11972569B2 (en) 2021-01-26 2024-04-30 Adobe Inc. Segmenting objects in digital images utilizing a multi-object segmentation model framework
US11954882B2 (en) 2021-06-17 2024-04-09 Zebra Technologies Corporation Feature-based georegistration for mobile computing devices

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2835314B1 (fr) * 2002-01-25 2004-04-30 Airbus France Procede de guidage d'un aeronef en phase finale d'atterrissage et dispositif correspondant
US7089092B1 (en) * 2002-07-18 2006-08-08 Rockwell Collins, Inc. Airborne system and method for improving the integrity of electronic landing aids
JP3731672B2 (ja) * 2004-02-05 2006-01-05 秋田県 パターン抽出装置
CN101331500B (zh) * 2005-10-14 2015-04-29 尤尼森斯繁殖技术公司 细胞群的变化的测定
US8214309B1 (en) 2008-12-16 2012-07-03 Hrl Laboratories, Llc Cognitive-neural method for image analysis
US8699767B1 (en) 2006-10-06 2014-04-15 Hrl Laboratories, Llc System for optimal rapid serial visual presentation (RSVP) from user-specific neural brain signals
US7852236B2 (en) * 2008-07-31 2010-12-14 Honeywell International Inc. Aircraft synthetic vision system for approach and landing
US8345921B1 (en) 2009-03-10 2013-01-01 Google Inc. Object detection with false positive filtering
US8625869B2 (en) * 2010-05-21 2014-01-07 Siemens Medical Solutions Usa, Inc. Visualization of medical image data with localized enhancement
US8527445B2 (en) * 2010-12-02 2013-09-03 Pukoa Scientific, Llc Apparatus, system, and method for object detection and identification
US8509483B2 (en) * 2011-01-31 2013-08-13 Qualcomm Incorporated Context aware augmentation interactions
US8379979B2 (en) * 2011-02-25 2013-02-19 Sony Corporation System and method for effectively performing a scene rectification procedure
US20130041529A1 (en) * 2011-08-11 2013-02-14 Honeywell International Inc. Aircraft vision system having redundancy for low altitude approaches
EP2769334A4 (en) * 2011-10-19 2015-07-01 Univ Sydney IMAGE PROCESSING AND OBJECT CLASSIFICATION
US9235799B2 (en) * 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US9619580B2 (en) * 2012-09-11 2017-04-11 International Business Machines Corporation Generation of synthetic context objects
US9053367B2 (en) * 2012-11-09 2015-06-09 Seiko Epson Corporation Detector evolution with multi-order contextual co-occurrence
KR102059913B1 (ko) * 2012-11-20 2019-12-30 삼성전자주식회사 태그 정보 저장 방법 및 장치와 태그 정보를 이용한 이미지 검색 방법 및 장치
CN103049763B (zh) * 2012-12-07 2015-07-01 华中科技大学 一种基于上下文约束的目标识别方法
CN103020971A (zh) * 2012-12-28 2013-04-03 青岛爱维互动信息技术有限公司 从图像中自动分割目标对象的方法
US8948454B2 (en) * 2013-01-02 2015-02-03 International Business Machines Corporation Boosting object detection performance in videos
CN103049751A (zh) * 2013-01-24 2013-04-17 苏州大学 一种改进的加权区域匹配高空视频行人识别方法
US9342759B1 (en) * 2013-03-14 2016-05-17 Hrl Laboratories, Llc Object recognition consistency improvement using a pseudo-tracklet approach
US9275308B2 (en) * 2013-05-31 2016-03-01 Google Inc. Object detection using deep neural networks
US9668699B2 (en) * 2013-10-17 2017-06-06 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US9477908B2 (en) * 2014-04-10 2016-10-25 Disney Enterprises, Inc. Multi-level framework for object detection
US9536293B2 (en) * 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
CA2951600C (en) * 2014-08-04 2022-12-06 Ventana Medical Systems, Inc. Image analysis system using context features
US9633306B2 (en) * 2015-05-07 2017-04-25 Siemens Healthcare Gmbh Method and system for approximating deep neural networks for anatomical object detection
US9704054B1 (en) * 2015-09-30 2017-07-11 Amazon Technologies, Inc. Cluster-trained machine learning for image processing
CN105302315A (zh) * 2015-11-20 2016-02-03 小米科技有限责任公司 图片处理方法及装置
US9760807B2 (en) * 2016-01-08 2017-09-12 Siemens Healthcare Gmbh Deep image-to-image network learning for medical image analysis

Also Published As

Publication number Publication date
WO2017007626A1 (en) 2017-01-12
US10410096B2 (en) 2019-09-10
EP3320486A1 (en) 2018-05-16
CN107851191B (zh) 2022-08-26
KR20180028442A (ko) 2018-03-16
KR102557512B1 (ko) 2023-07-19
BR112018000502A2 (pt) 2018-09-11
US20170011281A1 (en) 2017-01-12
JP2018526723A (ja) 2018-09-13
CN107851191A (zh) 2018-03-27

Similar Documents

Publication Publication Date Title
JP6743124B2 (ja) 画像中のオブジェクト検出のためのコンテキストベースの事前分布
US10438068B2 (en) Adapting to appearance variations of a target object when tracking the target object in a video sequence
US10740654B2 (en) Failure detection for a neural network object tracker
US10318848B2 (en) Methods for object localization and image classification
US10275719B2 (en) Hyper-parameter selection for deep convolutional networks
JP6869948B2 (ja) ニューラルネットワークにおける転移学習
JP6776331B2 (ja) 未知クラスの検出および未知クラスのための分類器の初期化
CN107430705B (zh) 用于重新训练分类器的样本选择
JP7037478B2 (ja) 分類のための強制的なスパース性
JP2018514852A (ja) 逐次画像サンプリングおよび微調整された特徴の記憶
US20170032247A1 (en) Media classification
JP2018520404A (ja) ニューラルネットワークのためのトレーニング基準としてのフィルタ特異性
US20190108399A1 (en) Video action localization from proposal-attention
US10002136B2 (en) Media label propagation in an ad hoc network

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190531

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200729

R150 Certificate of patent or registration of utility model

Ref document number: 6743124

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250