JP2018523182A - 深層畳み込みネットワークにおいて画像解像度を低減すること - Google Patents

深層畳み込みネットワークにおいて画像解像度を低減すること Download PDF

Info

Publication number
JP2018523182A
JP2018523182A JP2017556142A JP2017556142A JP2018523182A JP 2018523182 A JP2018523182 A JP 2018523182A JP 2017556142 A JP2017556142 A JP 2017556142A JP 2017556142 A JP2017556142 A JP 2017556142A JP 2018523182 A JP2018523182 A JP 2018523182A
Authority
JP
Japan
Prior art keywords
layer
dcn
reduction factor
adjusting
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017556142A
Other languages
English (en)
Other versions
JP2018523182A5 (ja
JP6732795B2 (ja
Inventor
アンナプレディー、ベンカタ・スリーカンタ・レッディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2018523182A publication Critical patent/JP2018523182A/ja
Publication of JP2018523182A5 publication Critical patent/JP2018523182A5/ja
Application granted granted Critical
Publication of JP6732795B2 publication Critical patent/JP6732795B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

深層畳み込みネットワーク(DCN)において画像解像度を低減する方法が、入力画像に適用されるべき低減ファクタを動的に選択することを含む。低減ファクタは、DCNの各層において選択され得る。本方法は、各層のために選択された低減ファクタに基づいて、DCNを調節することをも含む。

Description

関連出願の相互参照
[0001]本出願は、その開示全体が参照により本明細書に明確に組み込まれる、2015年4月28日に出願された「REDUCING IMAGE RESOLUTION IN DEEP CONVOLUTIONAL NETWORKS」と題する米国仮特許出願第62/154,084号の米国特許法第119条(e)項に基づく利益を主張する。
[0002]本開示のいくつかの態様は、一般にニューラルシステムエンジニアリングに関し、より詳細には、性能を維持しながら、深層畳み込みネットワーク(deep convolutional network)において画像解像度を低減するためのシステムおよび方法に関する。
[0003]人工ニューロン(たとえば、ニューロンモデル)の相互結合されたグループを備え得る人工ニューラルネットワークは、計算デバイスであるか、または計算デバイスによって実行されるべき方法を表す。
[0004]畳み込みニューラルネットワークは、フィードフォワード人工ニューラルネットワークのタイプである。畳み込みニューラルネットワークは、各々が受容野を有し、入力空間を集合的にタイリングするニューロンの集合を含み得る。畳み込みニューラルネットワーク(CNN)は多数の適用例を有する。特に、CNNは、パターン認識および分類の領域内で広く使用されている。
[0005]深層信念ネットワークおよび深層畳み込みネットワークなど、深層学習アーキテクチャは、層状(layered)ニューラルネットワークアーキテクチャであり、ニューロンの第1の層の出力はニューロンの第2の層への入力になり、ニューロンの第2の層の出力はニューロンの第3の層になり、入力し、以下同様である。深層ニューラルネットワークは、特徴の階層(hierarchy)を認識するようにトレーニングされ得、したがって、それらはオブジェクト認識適用例においてますます使用されている。畳み込みニューラルネットワークのように、これらの深層学習アーキテクチャにおける計算は、1つまたは複数の計算チェーンにおいて構成され得る処理ノードの集団にわたって分散され得る。これらの多層アーキテクチャは、一度に1つの層をトレーニングされ得、バックプロパゲーション(back propagation)を使用して微調整され得る。
[0006]他のモデルも、オブジェクト認識のために利用可能である。たとえば、サポートベクターマシン(SVM)は、分類のために適用され得る学習ツールである。サポートベクターマシンは、データをカテゴリー分類する分離超平面(separating hyperplane)(たとえば、決定境界(decision boundary))を含む。超平面は、教師あり学習によって定義される。所望の超平面は、トレーニングデータのマージンを増加させる。言い換えれば、超平面は、トレーニング例との最大の最小距離を有するべきである。
[0007]これらのソリューションは、いくつかの分類ベンチマーク上で優れた結果を達成するが、それらの計算複雑さは極めて高いことがある。さらに、モデルのトレーニングが難しいことがある。
[0008]本開示の一態様では、深層畳み込みネットワーク(DCN)において画像解像度を低減する方法が開示される。本方法は、DCNの各層において、入力画像に、適用されるべき低減ファクタ(reduction factor)を動的に選択することを含む。本方法は、各層のために選択された低減ファクタに基づいて、DCNを調節することをも含む。
[0009]本開示の別の態様は、DCNの各層において、入力画像に、適用されるべき低減ファクタを動的に選択するための手段を含む装置を対象とする。本装置は、各層のために選択された低減ファクタに基づいて、DCNを調節するための手段をも含む。
[0010]本開示の別の態様では、非一時的プログラムコードが記録された非一時的コンピュータ可読媒体が開示される。DCNにおいて画像解像度を低減するためのプログラムコードが、プロセッサによって実行され、DCNの各層において、入力画像に、適用されるべき低減ファクタを動的に選択するためのプログラムコードを含む。プログラムコードは、各層のために選択された低減ファクタに基づいて、DCNを調節するためのプログラムコードをも含む。
[0011]本開示の別の態様は、DCNにおいて画像解像度を低減するための装置を対象とし、本装置は、メモリと、メモリに結合された1つまたは複数のプロセッサとを有する。(1つまたは複数の)プロセッサは、DCNの各層において、入力画像に、適用されるべき低減ファクタを動的に選択するように構成される。(1つまたは複数の)プロセッサはまた、各層のために選択された低減ファクタに基づいて、DCNを調節するように構成される。
[0012]本開示の追加の特徴および利点が、以下で説明される。本開示は、本開示の同じ目的を実行するための他の構造を変更または設計するための基礎として容易に利用され得ることを、当業者は諒解されたい。また、そのような等価な構成が、添付の特許請求の範囲に記載の本開示の教示から逸脱しないことを、当業者は了解されたい。さらなる目的および利点とともに、本開示の編成と動作の方法の両方に関して、本開示を特徴づけると考えられる新規の特徴は、添付の図に関連して以下の説明を検討するとより良く理解されよう。ただし、図の各々は、例示および説明のみの目的で与えられたものであり、本開示の限界を定めるものではないことを明確に理解されたい。
[0013]本開示の特徴、特性、および利点は、全体を通じて同様の参照符号が同様のものを指す図面とともに、以下に記載される発明を実施するための形態を読めばより明らかになろう。
[0014]本開示のいくつかの態様による、汎用プロセッサを含むシステムオンチップ(SOC)を使用してニューラルネットワークを設計する例示的な実装形態を示す図。 [0015]本開示の態様による、システムの例示的な実装形態を示す図。 [0016]本開示の態様による、ニューラルネットワークを示す図。 [0017]本開示の態様による、例示的な深層畳み込みネットワーク(DCN)を示すブロック図。 [0018]本開示の態様による、人工知能(AI)機能をモジュール化し得る例示的なソフトウェアアーキテクチャを示すブロック図。 [0019]本開示の態様による、スマートフォン上のAIアプリケーションのランタイム動作を示すブロック図。 [0020]深層畳み込みネットワークの例を示す図。 深層畳み込みネットワークの例を示す図。 [0021]本開示の一態様による、計算複雑さと分類性能(classification performance)とをプロットするグラフの一例を示す図。 [0022]本開示の一態様による、画像のエネルギー成分を決定するためのグラフの一例を示す図。 [0023]本開示の態様による、画像解像度低減の一例を示す図。 [0024]本開示の態様による、深層畳み込みネットワークにおいて画像解像度を低減するための方法を示す流れ図。 本開示の態様による、深層畳み込みネットワークにおいて画像解像度を低減するための方法を示す流れ図。
[0025]添付の図面に関して以下に記載される発明を実施するための形態は、様々な構成を説明するものであり、本明細書で説明される概念が実施され得る構成のみを表すものではない。発明を実施するための形態は、様々な概念の完全な理解を与えるための具体的な詳細を含む。ただし、これらの概念はこれらの具体的な詳細なしに実施され得ることが当業者には明らかであろう。いくつかの事例では、そのような概念を不明瞭にしないように、よく知られている構造および構成要素がブロック図の形式で示される。
[0026]これらの教示に基づいて、本開示の範囲は、本開示の他の態様とは無関係に実装されるにせよ、本開示の他の態様と組み合わせて実装されるにせよ、本開示のいかなる態様をもカバーするものであることを、当業者なら諒解されたい。たとえば、記載された態様をいくつ使用しても、装置は実装され得るか、または方法は実施され得る。さらに、本開示の範囲は、記載された本開示の様々な態様に加えてまたはそれらの態様以外に、他の構造、機能、または構造および機能を使用して実施されるそのような装置または方法をカバーするものとする。開示される本開示のいずれの態様も、請求項の1つまたは複数の要素によって実施され得ることを理解されたい。
[0027]「例示的」という単語は、本明細書では「例、事例、または例示の働きをすること」を意味するために使用される。「例示的」として本明細書で説明されるいかなる態様も、必ずしも他の態様よりも好適または有利であると解釈されるべきであるとは限らない。
[0028]本明細書では特定の態様が説明されるが、これらの態様の多くの変形および置換は本開示の範囲内に入る。好適な態様のいくつかの利益および利点が説明されるが、本開示の範囲は特定の利益、使用、または目的に限定されるものではない。むしろ、本開示の態様は、様々な技術、システム構成、ネットワーク、およびプロトコルに広く適用可能であるものとし、それらのいくつかが、例として、図および好適な態様についての以下の説明において示される。発明を実施するための形態および図面は、本開示を限定するものではなく説明するものにすぎず、本開示の範囲は添付の特許請求の範囲およびそれの均等物によって定義される。
モデル圧縮および微調整
[0029]深層畳み込みネットワーク(DCN)など、深層ニューラルネットワークは、画像/ビデオ分類、音声認識、および/または顔認識などのいくつかの人工知能タスクにおいて使用される。従来のシステムでは、ニューラルネットワークモデルは、トレーニング例の大きいデータベースからトレーニングされる。さらに、たいていの場合、より大きいニューラルネットワークモデルは、より小さいニューラルネットワークモデルと比較して、より良い性能を達成する。モバイルデバイス、クラウドアプリケーション、ロボット、および/または車など、いくつかのデバイス上でニューラルネットワークモデルを展開するために、計算複雑さ、メモリフットプリント、および/または電力消費を低減することが望ましい。
[0030]畳み込みニューラルネットワークモデルは、層のシーケンスに分割され得る。各層は、ネットワーク中の1つまたは複数の先行する層から受信された入力を変換し得、ネットワークの後続の層のために出力を生成し得る。たとえば、畳み込みニューラルネットワークは、全結合(FC:fully-connected)層と、畳み込み層と、局所結合(LC:locally-connected)層と、他の層とを含み得る。異なる層の各々は、異なるタイプの変換を実行し得る。
[0031]さらに、層の各々は、1つまたは複数の前の層からの活性化ベクトルを入力として受信し、組み合わせられた入力ベクトルに線形/非線形変換を適用し、1つまたは複数の後続の層によって使用されるべき活性化ベクトルを出力する。いくつかの層は重みを用いてパラメータ化されるが、いくつかの層は重みを用いてパラメータ化されない。
[0032]画像分類および/または顔認識の場合、画像解像度が入力画像のために指定される。さらに、異なる画像解像度がDCN内の様々な層のために指定され得る。従来のシステムでは、様々な層においてDCNのために指定される画像解像度は、アドホック様式で選択される。すなわち、従来のシステムでは、分類性能と計算複雑さとの間のトレードオフは、考慮されないことがあるか、または理解されない。したがって、従来のシステムは、様々な層において画像解像度を選択するための系統的手法(systematic approach)を有しないことがある。
[0033]それにもかかわらず、選択された画像解像度は、計算複雑さなど、DCNの性能に影響を及ぼし得る。一例として、層において、画像解像度を2のファクタ(by a facor of two)で減少させることは、層において、計算複雑さを4のファクタで減少させ得る。
[0034]本開示の態様は、全結合層、畳み込み層、および局所結合層など、重み層(weight layer)において、画像解像度など、入力の解像度を低減することを対象とする。例示的な層は、線形変換を実行するが、出力ニューロンがどのように入力ニューロンに結合されるかにおいて異なる。
[0035]図1は、本開示のいくつかの態様による、上述の、汎用プロセッサ(CPU)またはマルチコア汎用プロセッサ(CPU)102を含み得るシステムオンチップ(SOC)100を使用して深層畳み込みネットワークにおいて画像解像度を低減することの、例示的な実装形態を示す。変数(たとえば、ニューラル信号およびシナプス荷重)、計算デバイスに関連するシステムパラメータ(たとえば、重みをもつニューラルネットワーク)、遅延、周波数ビン情報、およびタスク情報が、ニューラル処理ユニット(NPU)108に関連するメモリブロックに記憶されるか、CPU102に関連するメモリブロックに記憶されるか、グラフィックス処理ユニット(GPU)104に関連するメモリブロックに記憶されるか、デジタル信号プロセッサ(DSP)106に関連するメモリブロックに記憶されるか、専用メモリブロック118に記憶され得るか、または複数のブロックにわたって分散され得る。汎用プロセッサ102において実行される命令が、CPU102に関連するプログラムメモリからロードされ得るか、または専用メモリブロック118からロードされ得る。
[0036]SOC100はまた、GPU104、DSP106など、特定の機能に適合された(tailored to)追加の処理ブロックと、第4世代ロングタームエボリューション(4G LTE(登録商標))接続性、無認可Wi−Fi(登録商標)接続性、USB接続性、Bluetooth(登録商標)接続性などを含み得る接続性ブロック110と、たとえば、ジェスチャーを検出および認識し得るマルチメディアプロセッサ112とを含み得る。一実装形態では、NPUは、CPU、DSP、および/またはGPUにおいて実装される。SOC100はまた、センサープロセッサ114、画像信号プロセッサ(ISP)、および/または全地球測位システムを含み得るナビゲーション120を含み得る。SOCはARM命令セットに基づき得る。
[0037]本開示の一態様では、汎用プロセッサ102にロードされる命令は、DCNの各層において入力画像に適用されるべき低減ファクタを動的に選択するためのコードを備え得る。汎用プロセッサ102にロードされる命令は、各層のために選択された低減ファクタに基づいて、DCNを調節するためのコードをも備え得る。
[0038]図2に、本開示のいくつかの態様による、システム200の例示的な実装形態を示す。図2に示されているように、システム200は、本明細書で説明される方法の様々な動作を実行し得る複数のローカル処理ユニット202を有し得る。各ローカル処理ユニット202は、ローカル状態メモリ204と、ニューラルネットワークのパラメータを記憶し得るローカルパラメータメモリ206とを備え得る。さらに、ローカル処理ユニット202は、ローカルモデルプログラムを記憶するためのローカル(ニューロン)モデルプログラム(LMP)メモリ208と、ローカル学習プログラムを記憶するためのローカル学習プログラム(LLP)メモリ210と、ローカル接続メモリ212とを有し得る。さらに、図2に示されているように、各ローカル処理ユニット202は、ローカル処理ユニットのローカルメモリのための構成を与えるための構成プロセッサユニット214、およびローカル処理ユニット202間のルーティングを与えるルーティング接続処理ユニット216とインターフェースし得る。
[0039]深層学習アーキテクチャは、各層において連続的により高い抽象レベルで入力を表現するように学習し、それにより、入力データの有用な特徴表現を蓄積することによって、オブジェクト認識タスクを実行し得る。このようにして、深層学習は、旧来の機械学習の主要なボトルネックに対処する。深層学習の出現より前に、オブジェクト認識問題に対する機械学習手法は、場合によっては浅い分類器(shallow classifier)と組み合わせて、人的に設計された特徴に大きく依拠していることがある。浅い分類器は、たとえば、入力がどのクラスに属するかを予測するために、特徴ベクトル成分の重み付き和がしきい値と比較され得る2クラス線形分類器であり得る。人的に設計された特徴は、領域の専門知識をもつ技術者によって特定の問題領域に適合されたテンプレートまたはカーネルであり得る。対照的に、深層学習アーキテクチャは、人間の技術者が設計し得るものと同様である特徴を表現するように学習するが、トレーニングを通してそれを行い得る。さらに、深層ネットワークは、人間が考慮していないことがある新しいタイプの特徴を表現し、認識するように学習し得る。
[0040]深層学習アーキテクチャは特徴の階層を学習し得る。たとえば、視覚データが提示された場合、第1の層は、エッジなど、入力ストリーム中の単純な特徴を認識するように学習し得る。聴覚データが提示された場合、第1の層は、特定の周波数におけるスペクトル電力を認識するように学習し得る。第1の層の出力を入力として取る第2の層は、視覚データの場合の単純な形状、または聴覚データの場合の音の組合せなど、特徴の組合せを認識するように学習し得る。上位層(Higher layers)は、視覚データ中の複雑な形状、または聴覚データ中の単語を表現するように学習し得る。さらに上位の層は、共通の視覚オブジェクトまたは発話フレーズを認識するように学習し得る。
[0041]深層学習アーキテクチャは、自然階層構造を有する問題に適用されたとき、特にうまく機能し得る。たとえば、原動機付き車両の分類は、ホイール、フロントガラス、および他の特徴を認識するための第1の学習から恩恵を受け得る。これらの特徴は、車、トラック、および飛行機を認識するために、異なる方法で、上位層において組み合わせられ得る。
[0042]ニューラルネットワークは、様々な結合性パターンを用いて設計され得る。フィードフォワードネットワークでは、情報が下位層から上位層に受け渡され(passed)、所与の層における各ニューロンは、上位層におけるニューロンに通信する。上記で説明されたように、フィードフォワードネットワークの連続する層において、階層表現が蓄積され(built up)得る。ニューラルネットワークはまた、リカレントまたは(トップダウンとも呼ばれる)フィードバック結合を有し得る。リカレント結合では、所与の層におけるニューロンからの出力は、同じ層における別のニューロンに通信される。リカレントアーキテクチャは、時間的に展開する(unfold)パターンを認識するのに役立ち得る。所与の層におけるニューロンから下位層におけるニューロンへの結合は、フィードバック(またはトップダウン)結合と呼ばれる。高レベルの概念の認識が、入力の特定の低レベルの特徴を弁別すること(discriminating)を助け得るとき、多くのフィードバック結合をもつネットワークが役立ち得る。
[0043]図3Aを参照すると、ニューラルネットワークの層間の結合は全結合302または局所結合304であり得る。全結合ネットワーク302では、所与の層におけるニューロンは、それの出力を次の層におけるあらゆるニューロンに通信し得る。代替的に、局所結合ネットワーク304では、所与の層におけるニューロンは、次の層における限られた数のニューロンに結合され得る。畳み込みネットワーク306は、局所結合であり得、さらに、所与の層における各ニューロンに関連する結合強度が共有される特殊な場合である(たとえば、308)。より一般的には、ネットワークの局所結合層は、層における各ニューロンが同じまたは同様の(similar)結合性パターンを有するように構成されるが、異なる値を有し得る結合強度で構成され得る(たとえば、310、312、314、および316)。局所結合の結合性パターンは、所与の領域中の上位層ニューロンが、ネットワークへの総入力のうちの制限された部分のプロパティにトレーニングを通して調整された入力を受信し得るので、上位層において空間的に別個の受容野を生じ得る。
[0044]局所結合ニューラルネットワークは、入力の空間ロケーションが有意味である問題に好適であり得る。たとえば、車載カメラからの視覚特徴を認識するように設計されたネットワーク300は、画像の下側部分対上側部分とのそれらの関連付けに依存して、異なるプロパティをもつ上位層ニューロンを発達させ(develop)得る。画像の下側部分に関連するニューロンは、たとえば、車線区分線を認識するように学習し得るが、画像の上側部分に関連するニューロンは、交通信号、交通標識などを認識するように学習し得る。
[0045]DCNは、教師あり学習を用いてトレーニングされ得る。トレーニング中に、DCNは、速度制限標識のクロップされた画像など、画像326を提示され得、次いで、出力328を生成するために、「フォワードパス」が計算され得る。出力328は、「標識」、「60」、および「100」など、特徴に対応する値のベクトルであり得る。ネットワーク設計者は、DCNが、出力特徴ベクトルにおけるニューロンのうちのいくつか、たとえば、トレーニングされたネットワーク300のための出力328に示されているように「標識」および「60」に対応するニューロンについて、高いスコアを出力することを希望し(want)得る。トレーニングの前に、DCNによって生成された出力は不正確である可能性があり、したがって、実際の出力とターゲット出力との間で誤差が計算され得る。次いで、DCNの重みは、DCNの出力スコアがターゲットとより密接に整合されるように調節され得る。
[0046]重みを適切に調節するために、学習アルゴリズムは、重みのための勾配ベクトルを計算し得る。勾配は、重みがわずかに調節された場合に、誤差が増加または減少する量を示し得る。最上層において、勾配は、最後から2番目の(penultimate)層における活性化されたニューロンと出力層におけるニューロンとを結合する重みの値に直接対応し得る。下位層では、勾配は、重みの値と、上位層の計算された誤差勾配とに依存し得る。次いで、重みは、誤差を低減するように調節され得る。重みを調節するこの様式は、それがニューラルネットワークを通して「バックワードパス」を伴うので、「バックプロパゲーション」と呼ばれることがある。
[0047]実際には、重みの誤差勾配は、計算された勾配が真の誤差勾配を近似するように、少数の例にわたって計算され得る。この近似方法は、確率的勾配降下(stochastic gradient descent)と呼ばれることがある。システム全体の達成可能な誤差レートが減少しなくなるまで、または誤差レートがターゲットレベルに達するまで、確率的勾配降下が繰り返され得る。
[0048]学習の後に、DCNは新しい画像326を提示され得、ネットワークを通したフォワードパスは、DCNの推論または予測と見なされ得る出力328をもたらし(yield)得る。
[0049]深層信念ネットワーク(DBN:deep belief network)は、隠れノードの複数の層を備える確率モデルである。DBNは、トレーニングデータセットの階層表現を抽出するために使用され得る。DBNは、制限ボルツマンマシン(RBM:Restricted Boltzmann Machine)の層を積層することによって取得され得る。RBMは、入力のセットにわたる確率分布を学習することができる人工ニューラルネットワークのタイプである。RBMは、各入力がそれにカテゴリー分類されるべきクラスに関する情報の不在下で確率分布を学習することができるので、RBMは、教師なし学習においてしばしば使用される。ハイブリッド教師なしおよび教師ありパラダイムを使用して、DBNの下部RBMは、教師なし様式でトレーニングされ得、特徴抽出器として働き得、上部RBMは、(前の層からの入力とターゲットクラスとの同時分布上で)教師あり様式でトレーニングされ得、分類器として働き得る。
[0050]深層畳み込みネットワーク(DCN)は、追加のプーリング層および正規化層で構成された、畳み込みネットワークのネットワークである。DCNは、多くのタスクに関して最先端の性能を達成している。DCNは、入力と出力ターゲットの両方が、多くの標本について知られており、勾配降下方法の使用によってネットワークの重みを変更するために使用される、教師あり学習を使用してトレーニングされ得る。
[0051]DCNは、フィードフォワードネットワークであり得る。さらに、上記で説明されたように、DCNの第1の層におけるニューロンから次の上位層におけるニューロンのグループへの結合は、第1の層におけるニューロンにわたって共有される。DCNのフィードフォワードおよび共有結合は、高速処理のために活用され得る。DCNの計算負担は、たとえば、リカレントまたはフィードバック結合を備える同様のサイズのニューラルネットワークのそれよりもはるかに少ないことがある。
[0052]畳み込みネットワークの各層の処理は、空間的に不変のテンプレートまたは基底投射と見なされ得る。入力が、カラー画像の赤色、緑色、および青色チャネルなど、複数のチャネルに最初に分解された場合、その入力に関してトレーニングされた畳み込みネットワークは、画像の軸に沿った2つの空間次元と、色情報をキャプチャする第3の次元(third dimension)とをもつ、3次元であると見なされ得る。畳み込み結合の出力は、後続の層318、320、および322において特徴マップを形成すると考えられ、特徴マップ(たとえば、320)の各要素が、前の層(たとえば、318)における様々な(a range of)ニューロンから、および複数のチャネルの各々から入力を受信し得る。特徴マップにおける値は、整流(rectification)、max(0,x)など、非線形性を用いてさらに処理され得る。隣接するニューロンからの値は、さらにプールされ得324、これは、ダウンサンプリングに対応し、さらなる局所不変性と次元削減とを与え得る。白色化に対応する正規化はまた、特徴マップにおけるニューロン間のラテラル抑制によって適用され得る。
[0053]深層学習アーキテクチャの性能は、より多くのラベリングされたデータポイントが利用可能となるにつれて、または計算能力が増加するにつれて、向上し得る。現代の深層ニューラルネットワークは、ほんの15年前に一般的な研究者にとって利用可能であったものより数千倍も大きいコンピューティングリソースを用いて、ルーチン的にトレーニングされる。新しいアーキテクチャおよびトレーニングパラダイムが、深層学習の性能をさらに高め得る。整流された線形ユニット(rectified linear unit)は、勾配消失(vanishing gradients)として知られるトレーニング問題を低減し得る。新しいトレーニング技法は、過学習(over-fitting)を低減し、したがって、より大きいモデルがより良い汎化を達成することを可能にし得る。カプセル化技法は、所与の受容野においてデータを抽出し、全体的性能をさらに高め得る。
[0054]図3Bは、例示的な深層畳み込みネットワーク350を示すブロック図である。深層畳み込みネットワーク350は、結合性および重み共有に基づく、複数の異なるタイプの層を含み得る。図3Bに示されているように、例示的な深層畳み込みネットワーク350は、複数の畳み込みブロック(たとえば、C1およびC2)を含む。畳み込みブロックの各々は、畳み込み層と、正規化層(LNorm)と、プーリング層とで構成され得る。畳み込み層は、1つまたは複数の畳み込みフィルタを含み得、これは、特徴マップを生成するために入力データに適用され得る。2つの畳み込みブロックのみが示されているが、本開示はそのように限定しておらず、代わりに、設計選好に従って、任意の数の畳み込みブロックが深層畳み込みネットワーク350中に含まれ得る。正規化層は、畳み込みフィルタの出力を正規化するために使用され得る。たとえば、正規化層は、白色化またはラテラル抑制を行い得る。プーリング層は、局所不変性および次元削減のために、空間にわたってダウンサンプリングアグリゲーションを行い得る。
[0055]たとえば、深層畳み込みネットワークの並列フィルタバンクは、高性能および低電力消費を達成するために、随意にARM命令セットに基づいて、SOC100のCPU102またはGPU104にロードされ得る。代替実施形態では、並列フィルタバンクは、SOC100のDSP106またはISP116にロードされ得る。さらに、DCNは、センサー114およびナビゲーション120に専用の処理ブロックなど、SOC上に存在し得る他の処理ブロックにアクセスし得る。
[0056]深層畳み込みネットワーク350はまた、1つまたは複数の全結合層(たとえば、FC1およびFC2)を含み得る。深層畳み込みネットワーク350は、ロジスティック回帰(LR)層をさらに含み得る。深層畳み込みネットワーク350の各層の間には、更新されるべき重み(図示せず)がある。各層の出力は、第1の畳み込みブロックC1において供給された入力データ(たとえば、画像、オーディオ、ビデオ、センサーデータおよび/または他の入力データ)から階層特徴表現を学習するために、深層畳み込みネットワーク350中の後続の(succeeding)層の入力として働き得る。
[0057]図4は、人工知能(AI)機能をモジュール化し得る例示的なソフトウェアアーキテクチャ400を示すブロック図である。アーキテクチャを使用して、SOC420の様々な処理ブロック(たとえば、CPU422、DSP424、GPU426および/またはNPU428)に、アプリケーション402のランタイム動作中に計算をサポートすることを実行させ得るアプリケーション402が設計され得る。
[0058]AIアプリケーション402は、たとえば、デバイスが現在動作するロケーションを示すシーンの検出および認識を与え得る、ユーザ空間404において定義されている機能を呼び出すように構成され得る。AIアプリケーション402は、たとえば、認識されたシーンがオフィス、講堂、レストラン、または湖などの屋外環境であるかどうかに応じて別様に、マイクロフォンおよびカメラを構成し得る。AIアプリケーション402は、現在のシーンの推定を与えるために、SceneDetectアプリケーションプログラミングインターフェース(API)406において定義されているライブラリに関連するコンパイルされたプログラムコードへの要求を行い得る。この要求は、たとえば、ビデオおよび測位データに基づくシーン推定を与えるように構成された深層ニューラルネットワークの出力に最終的に依拠し得る。
[0059]さらに、ランタイムフレームワークのコンパイルされたコードであり得るランタイムエンジン408が、AIアプリケーション402にとってアクセス可能であり得る。AIアプリケーション402は、たとえば、ランタイムエンジンに、特定の時間間隔における、またはアプリケーションのユーザインターフェースによって検出されたイベントによってトリガされた、シーン推定を要求させ得る。シーンを推定させられたとき、ランタイムエンジンは、SOC420上で実行している、Linux(登録商標)カーネル412など、オペレーティングシステム410に信号を送り得る。オペレーティングシステム410は、CPU422、DSP424、GPU426、NPU428、またはそれらの何らかの組合せ上で、計算を実行させ得る。CPU422は、オペレーティングシステムによって直接アクセスされ得、他の処理ブロックは、DSP424のための、GPU426のための、またはNPU428のためのドライバ414〜418など、ドライバを通してアクセスされ得る。例示的な例では、深層ニューラルネットワークは、CPU422およびGPU426など、処理ブロックの組合せ上で動作するように構成され得るか、または存在する場合、NPU428上で動作させられ得る。
[0060]図5は、スマートフォン502上のAIアプリケーションのランタイム動作500を示すブロック図である。AIアプリケーションは、画像506のフォーマットを変換し、次いで画像508をクロップおよび/またはリサイズするように(たとえば、JAVA(登録商標)プログラミング言語を使用して)構成され得る前処理モジュール504を含み得る。次いで、前処理された画像は、視覚入力に基づいてシーンを検出および分類するように(たとえば、Cプログラミング言語を使用して)構成され得るSceneDetectバックエンドエンジン512を含んでいる分類アプリケーション510に通信され得る。SceneDetectバックエンドエンジン512は、スケーリング516およびクロッピング518によって、画像をさらに前処理514するように構成され得る。たとえば、画像は、得られた画像が224ピクセル×224ピクセルであるように、スケーリングされ、クロップされ得る。これらの次元は、ニューラルネットワークの入力次元にマッピングし得る。ニューラルネットワークは、SOC100の様々な処理ブロックに、深層ニューラルネットワークを用いて画像ピクセルをさらに処理させるように、深層ニューラルネットワークブロック520によって構成され得る。次いで、深層ニューラルネットワークの結果は、しきい値処理522され、分類アプリケーション510中の指数平滑化ブロック524を通され得る。次いで、平滑化された結果は、スマートフォン502の設定および/またはディスプレイの変更を生じ得る。
[0061]一構成では、深層畳み込みネットワークなど、機械学習モデルは、深層畳み込みネットワークの各層において入力画像に適用されるべき低減ファクタを動的に選択することと、各層のために選択された低減ファクタに基づいて深層畳み込みネットワークを調節することとを行うために構成される。モデルは、動的選択手段および/または調節手段を含む。一態様では、動的選択手段および/または調節手段は、具陳された(recited)機能を実行するように構成された、汎用プロセッサ102、汎用プロセッサ102に関連するプログラムメモリ、メモリブロック118、ローカル処理ユニット202、およびまたはルーティング接続処理ユニット216であり得る。別の構成では、上述の手段は、上述の手段によって具陳された機能を実行するように構成された任意のモジュールまたは任意の装置であり得る。
[0062]本開示のいくつかの態様によれば、各ローカル処理ユニット202は、モデルの所望の1つまたは複数の機能的特徴に基づいてニューラルネットワークのパラメータを決定し、決定されたパラメータがさらに適合、調整および更新されるように、1つまたは複数の機能的特徴を所望の機能的特徴のほうへ(toward)発達させるように構成され得る。
深層畳み込みネットワークのための画像解像度低減
[0063]前に説明したように、深層畳み込みネットワーク(DCN)は、ニューラルネットワークのための画像分類および/または顔認識のために使用され得る。画像分類および/または顔認識の場合、画像解像度が入力画像のために指定される。さらに、異なる画像解像度がDCN内の様々な層のために指定され得る。
[0064]図6Aは、元のDCN600と調節されたDCN602との一例を示す。もちろん、従来のDCNの層は、より多いまたはより少ない層および成分(components)が指定され得るので、図6Aに示されている層に限定されない。調節されたDCN602は、元のDCN600の複雑さよりも大きいまたは小さい複雑さを有し得る。
[0065]図6Aに示されているように、元のDCN600は、3つのチャネルをもつ256ピクセル×256ピクセル(256×256)のサイズを有する入力画像を受信する。チャネルは、赤色、緑色、および青色など、異なる色を表す。チャネルは、画像の色および/または画像に適用されるフィルタに応じてより多いまたはより少ないことがある。さらに、図6Aに示されているように、画像は、1のストライド(stride)を有する第1の畳み込み層604に入力される。ストライドは、サブサンプリングの量を指す。すなわち、ストライドは、出力画像のサイズと入力画像のサイズとの比率である。この例では、入力画像は256×256のサイズを有し、出力画像は256×256のサイズを有する。したがって、ストライドは1である。すなわち、ストライドが1である場合、サブサンプリングは実行されない。
[0066]さらに、図6Aに示されているように、第1の畳み込み層604からの出力は、32個のチャネルを有する。たいていの場合、フィルタが各チャネルに適用される。したがって、図6Aの例では、32個のフィルタが画像に適用される。さらに、第1の畳み込み層604からの出力は、第1のプール層606に入力される。図6Aに示されているように、各層から出力される画像サイズとチャネルの数とは、ストライドファクタおよび/または他のファクタに基づいて変化し得る。
[0067]図6Aに示されているように、各層に入力される画像のサイズは、異なり得る。さらに、各層は、特定の層の動作を実行するために、入力画像サイズに基づいて入力画像の特定の部分を使用し得る。たとえば、図6Aに示されているように、第2の畳み込み層612に入力された画像は、64×64のサイズを有する。さらに、第2の畳み込み層612から出力された画像のサイズは、32×32である。
[0068]さらに、図6Aは、元のDCN600の層に低減ファクタを適用することによって生成され得る、調節されたDCN602を示す。低減ファクタは、各層に入力される画像のサイズを変更する。たとえば、図6Aに示されているように、第1のプール層606に入力された画像は、256×256のサイズを有する。さらに、調節されたDCN602の場合、第1の調節されたプール層608に入力される画像が128×128になるように、2の低減ファクタ(a reduction factor of two)が第1の調節されたプール層608に適用される。したがって、第1の調節されたプール層608に2の低減ファクタを適用することによって、第1の調節された畳み込み層610のストライドは、2に調節される(たとえば、出力画像サイズ/入力画像サイズ)。
[0069]図6Aおよび図6BのDCNは、例示的なDCNである。もちろん、層の数など、DCNのサイズは例に限定されない。本開示の態様は、任意のサイズのDCNのために企図される。
[0070]一構成では、特定の層の低減ファクタは、特定の層に入力される画像のサイズを調節する。たとえば、n×nが、元の(original)ネットワークにおける層の入力画像サイズであり、rが低減ファクタである。この例では、調節されたDCNにおけるこの層の入力画像サイズは、
Figure 2018523182
であり、ここで、
Figure 2018523182
はシーリング演算子を表す。
[0071]上述の層は、入力としてより低解像度の画像を予想するので、先行する層の複雑さは、少なくともr2のファクタで低減され得る。すなわち、先行する層は、n2アクティブ化値の代わりに、n2/r2アクティブ化値を計算する。したがって、図6Aに示されているように、第1の調節されたプール層608への入力が、2だけ低減されるので、第1の調節された畳み込み層610の出力も、2だけ低減される。したがって、低減ファクタは、1つの層への入力と先行する層の出力とを調節する。
[0072]図6Bは、畳み込み層の一例を示す。図6Bに示されているように、i番目の入力マップXiは、重み行列Wijを用いて畳み込まれ、j番目の出力マップYjに追加される。重み行列は、畳み込みカーネル(convolution kernel)とも呼ばれる。さらに、重み行列のサイズ(k×k)は、カーネルサイズと呼ばれる。図6Bに示されているように、畳み込み層は、入力x1〜xnとして複数の画像620〜624を受信し、複数の画像チャネルy1〜ymを出力する。各出力画像は、入力画像の各々に対して畳み込みフィルタを適用することと、畳み込みを追加することとによって計算される。
[0073]計算複雑さの増加にもかかわらず、従来のDCNは、画像の分類を改善するためにより高解像度の画像を使用し得る。いくつかの場合には、DCNは、低減された詳細をもつ32×32入力画像内に数字3が存在するかどうかを決定するという(of)タスクを有し得る。この例では、画像のサイズは分類を改善しないことがある。他の場合には、風景または複数のオブジェクトをもつ画像など、増加された詳細をもつ画像の場合、画像分類を改善するために、増加された画像サイズが指定される。
[0074]一般に、256×256以上(or higher)の画像サイズが、オブジェクト分類またはシーン分類などの適用例において使用される。概して、より高い画像解像度は、分類精度を改善するが、また、計算複雑さを増加させる。すなわち、DCNの精度は、入力画像のサイズが増加されるにつれて改善される。
[0075]限られたリソースをもつモバイルデバイスなど、いくつかのデバイスの場合、分類のために大きい画像を使用することが望ましくないことがある。したがって、性能影響(performance impact)を増加させることなしに、DCNの画像解像度を低減することが望ましい。すなわち、いくつかの場合には、DCNは、分類の性能の著しい減少なしに、より低解像度の画像を使用し得る。したがって、本開示の態様は、DCNの分類性能が性能しきい値よりも大きいままでありながら、より低解像度の画像上で動作するようにDCNを調節することを対象とする。さらに、本開示の他の態様は、デバイス中の複数のDCNの記憶を改善することを対象とする。
[0076]一構成では、画像解像度は、DCNの複雑さを調節するために様々な層において動的に低減される。さらに、この構成では、調節されたDCNの分類性能が性能しきい値よりも大きくなるように、特定の画像解像度が選択される。本開示の態様によれば、低減ファクタは、入力画像解像度が低減される比率を指す。たとえば、2の低減ファクタが28×28画像に適用されたとき、低減された画像は14×14のサイズを有する。別の例として、3の低減ファクタが30×30画像に適用された場合、低減された画像は10×10のサイズを有する。
[0077]DCN内の異なる層が異なる低減ファクタを有し得ることに留意されたい。すなわち、低減ファクタは層固有である。一構成では、低減ファクタを選択することと、選択された低減ファクタに基づいてDCNを調節することとのために、内部ループ(inner-loop)と外部ループ(outer-loop)とが指定される。
[0078]一構成では、外部ループが低減ファクタを選択する。この構成では、外部ループは、様々な低減ファクタに基づいて、より高い複雑さのDCNおよびより低い複雑さのDCNなど、調節されたDCNを取得するために使用される。
[0079]さらに、一構成では、内部ループは、DCNを調節するために、外部ループによって選択された低減ファクタを使用する。詳細には、この構成では、内部ループは、調節されたDCNのアーキテクチャとシナプス重み値とを決定する。調節されたDCNのアーキテクチャとシナプス重み値とを決定した後に、内部ループは、調節されたDCNについて計算複雑さと分類性能の差とを外部ループに出力する。受信された出力に基づいて、外部ループは、調節されたDCNの性能が性能しきい値よりも大きいかどうかを決定し得る。この構成では、調節されたDCNの性能が性能しきい値よりも大きい場合、低減ファクタが選択される。
[0080]一構成では、外部ループは、様々な低減ファクタをランダムに選択し、ランダムに選択された低減ファクタのために内部ループを呼び出す。たとえば、外部ループは、第1の層のために2の低減ファクタ、第2の層のために3の低減ファクタ、および第3の層のために4の低減ファクタをランダムに選択し得る。ランダムに選択された低減ファクタを受信したことに応答して、内部ループは、受信された低減ファクタに基づいてDCNモデルを調節する。いくつかの場合には、低減ファクタは分数であり得る。
[0081]各調節されたDCNモデルについて、内部ループは、元の画像解像度と低減された画像解像度との間の分類性能の差を出力する。さらに、内部ループは、各調節されたDCNモデルについて計算複雑さを出力する。
[0082]図7は、DCNによって実行される乗算の数など、計算複雑さと、分類精度など、DCNの分類性能とに基づいて外部ループから生成されたグラフ700の一例を示す。分類性能は、分類精度以外のメトリックであり得る。たとえば、分類性能は、分類誤差に基づいて計算され得る。さらに、計算複雑さは、DCNによって実行される乗算の数以外のメトリックであり得る。たとえば、計算複雑さは、乗算の理論的に計算された数または経験的に測定されたランタイムであり得る。
[0083]図7に示されているように、外部ループは、元の画像解像度に基づいて元のDCN702についてのDCN性能をプロットし得る。たとえば、元のDCN702は、85%の分類性能を有し、100の計算複雑さを有し得る。本開示の態様によれば、より低い計算複雑さは、より高い計算複雑さよりも望ましい。さらに、本例では、より高い分類性能は、より低い分類性能よりも望ましい。
[0084]さらに、本構成では、外部ループは、内部ループに低減ファクタの複数のセットを与え得る。たとえば、外部ループは、内部ループに、ランダムに選択された低減ファクタの100個のセットを与え得る。低減ファクタの各セットは、各層について異なる低減ファクタを含み得る。さらに、本構成では、低減ファクタの各セットについて、内部ループは、低減ファクタの所与のセットから調節された複雑さを有するDCNについて、計算複雑さと分類性能とを出力する。
[0085]本構成では、内部ループの出力に基づいて、外部ループは、低減ファクタの所与のセットに基づく各モデルについてのDCN性能をプロットし得る。本構成では、外部ループは、分類性能対複雑さ曲線のパレート(Pareto)境界などの境界上にないモデルのプロットを削除することによって、プロットをプルーニングし得る。
[0086]図7に示されているように、分類性能対複雑さ曲線の境界722は、元のDCN702についてのDCN性能プロットに基づいて指定される。図7に示されているように、境界722(たとえばパレート境界)のあらかじめ定義された距離内にあるプロット704〜720は、維持される。さらに、境界722のあらかじめ定義された距離外にあるプロット724〜732は、無視される。境界はグラフの特定のモデルに限定されず、本開示の態様は、各モデルのための境界を決定することを対象とすることに留意されたい。さらに、モデルは、ネットワークおよび/またはDCNと呼ばれることがある。
[0087]境界のあらかじめ定義された距離外にあるプロットをプルーニングした後に、外部ループは、性能しきい値よりも大きい性能をもつ低減ファクタの1つまたは複数のセットを選択し得る。性能しきい値は、計算複雑さおよび/または分類性能に基づき得る。
[0088]たとえば、図7に基づいて、元のDCN702について、しきい値は分類性能に基づき得、したがって、調節されたDCNの分類性能が80%よりも大きいかまたはそれに等しいときに低減ファクタが選択される。したがって、図7の例に基づいて、外部ループは、第1のプロット704、第2のプロット706、第3のプロット708、第4のプロット710、および第5のプロット712に関連する低減ファクタを選択し得る。内部ループの出力に基づく低減ファクタの選択はオフラインで実行され得、したがって、調節されたDCNが必要に応じて(desired)オンライン動作中に選択され得る。
[0089]別の構成では、外部ループは、ヒューリスティックに基づいて低減ファクタを選択する。本開示の一態様によれば、外部ループは、様々な層の計算複雑さに基づいて低減ファクタを選択する。たとえば、いくつかの層は、他の層と比較してより高い複雑さを有する。したがって、調節される層のために低い画像解像度を選択することは、システムに有害で(detrimental)あり得る。したがって、本構成では、外部ループは、より高い複雑さをもつ層のためにより高い低減ファクタを選択し、より低い複雑さをもつ層のためにより低い低減ファクタを選択する。
[0090]別の構成では、外部ループは、特定の層への例示的な入力画像の周波数スペクトルを観測することによって、特定の層の低減ファクタを決定し得る。たとえば、ネットワークは、複数の画像をDCNモデルに入力し得、外部ループは、DCNモデルにおいて所与の層における各画像の周波数スペクトルを観測し得る。この構成では、画像が、周波数スペクトルのより高い周波数中に増加された数のピクセルを有する場合、画像解像度を低減することは、画像コントラストなど、画像情報が失われ得るので、望ましくないことがある。すなわち、より低解像度の画像を使用することによって、周波数スペクトル中のより高い周波数は無視される。したがって、rの低減ファクタで画像の解像度を低減することは、下位の(lower)1/rの周波数が保持され、残りの上部(top)周波数が無視されることを暗示する。
[0091]したがって、各層において、外部ループは、画像が、増加された数の高周波成分を有するのか増加された数の低周波成分を有するのかを決定する。より詳細には、各画像のエネルギースペクトルが、各層において計算される。計算されたエネルギースペクトルは、2D画像を生じ得る。
[0092]図8は、本開示の一態様に基づく、画像のエネルギースペクトルのグラフ800を示す。図8に示されているように、グラフ800のx軸とy軸とは、異なる周波数成分である。(0,0)により近い値は低周波成分と見なされ、(0,0)からより遠い値は高周波成分と見なされる。一構成では、外部ループは、画像のための低エネルギースペクトル中のエネルギーの量と高エネルギースペクトル中のエネルギーの量とを決定するために、すべてのチャネルにわたってエネルギースペクトルを平均化する。
[0093]図8の例では、画像の全エネルギースペクトルは、グラフ800のエネルギー境界802内のエネルギースペクトルであり得る。したがって、この例では、2の低減ファクタrが画像に適用される場合、第1の低減ファクタ境界804内の低エネルギー成分ELのみが、画像のために保たれる。すなわち、第1の低減ファクタ境界804外の高い成分EHは、画像のために無視される。
[0094]別の例として、3の低減ファクタrが画像に適用される場合、第2の低減ファクタ境界806内の低エネルギー成分ELのみが、画像のために保たれる。すなわち、第2の低減ファクタ境界806外の高い成分EHは、画像のために無視される。
[0095]したがって、所与の低減ファクタについて、外部ループは、高エネルギー成分の部分(fraction)と、高エネルギー成分と低エネルギー成分との和とに基づいて、エネルギー低減値を計算する(たとえば、
Figure 2018523182
)。本構成では、エネルギー低減値がしきい値よりも小さい場合、低減ファクタは、低減が高エネルギー成分の損失を増加させないので、望ましいことがある。さらに、エネルギー低減値がしきい値よりも大きい場合、低減ファクタは、低減が高エネルギー成分の損失を増加させ得るので、望ましくないことがある。したがって、本開示の一態様によれば、各層のために、外部ループは、各層についてのエネルギー低減値がしきい値よりも小さいかどうかに基づいて低減ファクタrを選択する。エネルギー成分は、周波数成分と呼ばれることがある。
[0096]詳細には、層のために低減ファクタrを決定するとき、外部ループは、無視される上位の周波数中のエネルギーの割合がしきい値よりも小さいかどうかに基づいて、最も高いrを選択する。しきい値パラメータは、漸進的な(incremental)複雑さをもつDCNモデルのシーケンスを取得するように制御され得る。すなわち、より高いしきい値はより高い低減ファクタを生じ、これにより(which in turn)、より低い複雑さのモデルが生じる。
[0097]さらに、各層のために低減ファクタを選択した後に、外部ループは、DCNの複雑さを調節するために、選択された低減ファクタを内部ループに送信する。
[0098]また別の構成では、外部ループは、計算複雑さと周波数スペクトルの両方に基づいて低減ファクタを選択する。
[0099]さらに、一構成では、内部ループは、受信された低減ファクタに基づいてDCNモデルの複雑さを調節するための様々な段(stages)を含む。一構成では、低減ファクタを受信した後に、内部ループは、全結合層、畳み込み層、および局所結合層など、各重み層において重みを調節する。重みは、より低解像度の入力画像に基づいて調節される。重みは、上位層を下位層に結合するシナプスの重み、重み行列の次元、および/または重み行列の値を指す。さらに、画像のサイズを調節するとき、層におけるフィルタは、その層のための受信された低減ファクタに基づいて計算された、調節された解像度フィルタと交換され得る。
[00100]一例として、畳み込み層の低減ファクタは2であり、したがって、畳み込み層は、2のファクタで低減された解像度を有する画像を受信することになる。所与の層の重みは、より高解像度の入力画像に対してトレーニングされるので、重みは、より低解像度の入力画像にマッチするように変更されるべきである。
[00101]図9は、元のDCNの畳み込み層などの層に入力される元の解像度をもつ画像902の一例を示す。図9の例は、図6Aの第2の畳み込み層612と調節された第2の畳み込み層614とに基づき得る。図6Aに示されているように、第2の畳み込み層612への入力画像は、64×64のサイズを有する。さらに、図6Aに示されているように、調節された第2の畳み込み層614が、32×32のサイズを有する入力画像を受信するように、2の低減ファクタが第2の畳み込み層に適用され得る。
[00102]図9に示されているように、元の画像は7×7のサイズを有する。さらに、図9に示されているように、元の畳み込み層のカーネル904は、3×3のサイズを有する(たとえば、k×k)。図9は、畳み込み層の出力906をも示す。図9のピクセルサイズは、画像サイズとカーネルサイズとが図6Aの上述の層にマッピングすることが意図されるときの、説明のためのもの(for illustrative purposes)である。
[00103]本開示の態様に基づいて、低減ファクタがrである場合、入力画像サイズは、n×nから
Figure 2018523182
に調節される。さらに、カーネルサイズも、同じファクタで、k×kから
Figure 2018523182
に調節される。すなわち、重み行列の次元は、k×kから
Figure 2018523182
に調節(たとえば、ダウンサンプリング)され得る。
[00104]図9は、より低い複雑さのDCNの畳み込み層などの層に入力される低減された解像度をもつ画像908の一例をも示す。図9に示されているように、より低解像度の画像908は、2の低減ファクタが適用された後に、4×4のサイズを有する。さらに、図9に示されているように、2×2のサイズを有する変更されたカーネル910が、2の低減ファクタに基づいて画像に適用される。最終的に、図9に示されているように、畳み込み層はまた、出力912を生成する。
[00105]図9に示されているように、元のDCNの場合、出力906は、カーネル904内の9つのピクセルから計算される。さらに、調節されたDCNの場合、出力912は、カーネル910中の4つのピクセルから計算される。図9は、1つのチャネルを示すにすぎない。もちろん、本開示の態様は、出力を生成するためにチャネルをアグリゲートするために企図される。
[00106]図9に示されているように、調節されたDCNは、元のDCNと比較して、より少ないピクセルを使用して出力912を計算する。より低い数のピクセルに適応するために、一構成では、畳み込み層における重み行列は、同じ低減ファクタでダウンサンプリングされる。一例として、畳み込み層のカーネルサイズがk×kである場合、重み行列は
Figure 2018523182
にダウンサンプリングされ、ここで、
Figure 2018523182
はシーリング演算子を表す。重み行列のダウンサンプリングは、同期補間または双一次補間など、画像リサイジングのための画像処理のために指定される標準的方法を使用して達成され得る。
[00107]別の構成では、調節されたネットワークの重み行列を取得するために、トレーニングデータが使用される。詳細には、トレーニングデータは、元のDCNの畳み込み層に入力されると考えられる、より高解像度の入力画像を計算するために使用され得る。より低解像度の入力画像中に保持されたピクセルから、失われた(missing)ピクセルへの線形マッピングを取得するために、最小2乗など、標準的回帰ツールが指定され得る。失われたピクセルは、より高解像度の画像中に存在したが、より低解像度の画像中にもはや存在しないピクセルを指す。線形マッピングは、調節された解像度重み行列を取得するために、より高解像度の重み行列のために指定され得る。
[00108]別の例として、元の画像サイズが28×28であり得、フィルタが3×3であり得る。さらに、本例では、2の低減ファクタが画像に適用され、したがって、画像サイズが14×14である場合、所与の層におけるフィルタは、新しい14×14画像に適応するように調節され得る。
[00109]さらに、いくつかの層は、重みを含まないが、入力画像解像度に依存し得る。たとえば、受信された画像をダウンサンプリングするために、プーリング層が使用され得る。したがって、プーリング層は入力画像解像度に依存し得る。さらに、内部ループは、より低解像度の画像とともに動作するために、プーリング層など、入力画像解像度に依存する非重み付き(non-weighted)層における結合をトリミングし(trim)得る。トリミングは、その層のための受信された低減ファクタに基づいて実行される。内部ループは、入力画像解像度に依存しない、ニューロンまたはrnormなどの他の層タイプを変更しないことに留意されたい。
[00110]一例では、サブサンプリング層および/またはプーリング層の変更は、畳み込み層の変更と同様に実行され得る。図9は、高解像度画像を受信する元のDCNのサブサンプル層および/またはプーリング層、ならびにより低解像度の画像を受信するより低い複雑さのDCNのサブサンプル層および/またはプーリング層の一例を示す。
[00111]図9の例は、図6Aの第1のプール層606と調節された第1のプール層608とに基づき得る。図6Aに示されているように、第1のプール層606への入力画像は、256×256のサイズを有する。さらに、図6Aに示されているように、調節された第1のプール層608が、128×128のサイズを有する入力画像を受信するように、2の低減ファクタが第1のプール層に適用され得る。
[00112]図9は、元のDCNの、プール層などの、層に入力される元の解像度をもつ画像902の一例を示す。図9に示されているように、元の画像は7×7のサイズを有する。さらに、図9に示されているように、元のプール層のカーネル904は、3×3のサイズを有する(たとえば、k×k)。図9は、プール層の出力906をも示す。図9のピクセルサイズは、画像サイズとカーネルサイズとが図6Aの上述の層にマッピングすることが意図されるときの、説明のためのものである。
[00113]本開示の態様に基づいて、低減ファクタがrである場合、入力画像サイズは、n×nから
Figure 2018523182
に低減される。さらに、カーネルサイズも、同じファクタで、k×kから
Figure 2018523182
に低減される。すなわち、重み行列の次元は、k×kから
Figure 2018523182
に調節(たとえば、ダウンサンプリング)され得る。
[00114]図9は、調節されたDCNの、プール層など、の層に入力される低減された解像度をもつ画像908の一例をも示す。図9に示されているように、より低解像度の画像は、2の低減ファクタが適用された後に、4×4のサイズを有する。さらに、図9に示されているように、2×2のサイズを有する変更された(modified)カーネル910が、2の低減ファクタに基づいて画像に適用される。最終的に、図9に示されているように、プール層はまた、出力912を生成する。
[00115]図9に示されているように、元のDCNの場合、出力906は、カーネル904内の9つのピクセルから計算される。さらに、調節されたDCNの場合、出力912は、カーネル910中の4つのピクセルから計算される。図9は、1つのチャネルを示すにすぎない。もちろん、本開示の態様は、出力を生成するためにチャネルをアグリゲートするために企図される。
[00116]図9に示されているように、調節されたDCNは、元のDCNと比較して、より少ないピクセルを使用して出力912を計算する。より低い数のピクセルに適応するために、一構成では、プーリングカーネルのサイズは、調節されたネットワークにおいてプーリング動作のタイプが保持されるように、k×kから
Figure 2018523182
に低減され、ここで、rは低減ファクタである。すなわち、元のDCNにおけるプール層が、平均プーリングまたは最大プーリングなど、特定のプール動作を実行する場合、調節されたDCNにおけるプール層も同じ動作を実行する。
[00117]最終的に、層における調節されたフィルタおよび結合に基づいて、DCNが調節される。DCNの複雑さを調節した後に、DCNはエンドツーエンドで微調整される。微調整は、調節されたDCNのトレーニングをトレーニングサンプルに対して続けることを指す。調節されたDCNのためのトレーニングサンプルに対するパスの数は、元のDCNのパスの数よりも小さくなり得る。さらに、トレーニングサンプルは、元のトレーニングサンプルおよび/または新しいトレーニングサンプルを含み得る。調節されたDCNを微調整した後に、内部ループは、元のDCNと調節されたDCNとの間の分類性能の差を決定することが可能であり得る。DCNを微調整するために、バックプロパゲーションなど、トレーニングシステムが使用され得ることに留意されたい。
[00118]本開示の一態様によれば、微調整は特定の層に適用され、したがって、選択されない層の重みは一定(constant)のままである。一構成では、畳み込み層は微調整され、全結合層は微調整されない。
[00119]様々な調節されたDCNを決定した後に、調節されたDCNの記憶を改善することが望ましい。たいていの場合、調節されたDCNは、共通のベースモデルから導出される。したがって、調節されたDCNと元のDCNとは合同で(jointly)記憶され得、したがって、全体的メモリフットプリントは、調節されたDCNおよび元のDCNなど、各DCNを個別に記憶することと比較して低減される。
[00120]一構成では、元のDCNは、1つまたは複数の調節されたDCNとともに記憶される。各記憶されたDCNは、特定の機能または性能要件(performance considerations)に基づいて、必要に応じて使用され得る。さらに、複数のDCNを記憶するとき、メモリ使用量が考慮されるべきである。
[00121]前に説明したように、記憶されたDCNは、共通のベースモデルから導出され得る。したがって、同じ値が2回以上記憶されないように、合同記憶が指定され得る。詳細には、本開示の態様に基づいて、画像解像度の低減は、入力が画像解釈を有する層に適用される。したがって、画像低減は、全結合層の入力が画像解像度に依存しないので、全結合層の大部分に適用可能でないことがある。すなわち、全結合層は、計算複雑さに関して低いが、高いメモリフットプリントを有し得る。たとえば、全結合層は、割り振られたメモリの約90パーセントを使用し得る。
[00122]したがって、記憶を改善するために、前に説明したように、全結合層は微調整段中に含まれない。すなわち、全結合層の重みは、元のDCNと同じであるように維持され得る。したがって、全結合層パラメータは、共通ベースモデルから導出されるすべての調節されたDCNにわたって同じである。
[00123]したがって、一構成では、調節されたネットワークは、全結合層パラメータを共有するように指定される。すなわち、調節されたDCNと元のDCNとのすべてについて、同じ全結合層パラメータが記憶される。したがって、DCNは合同で記憶され、メモリフットプリントを低減し得る。さらに、畳み込み層が、各DCN(たとえば、調節されたDCNおよび元のDCN)について別個に記憶され得る。
[00124]本開示の態様は、限られたメモリ、電力およびコンピューティングリソースをもつモバイルデバイスなど、様々なデバイスのために指定され得る。いくつかの場合には、モバイルデバイスは、動的なリソースおよびレイテンシ制約を有し得る。たとえば、いくつかのシナリオでは、ロボットが、答えがあまり正確でない場合でも速い答えを選好し(prefer)得る。そのようなシナリオでは、様々な複雑さをもつネットワークのシーケンスを記憶することが役立ち、したがって、適用例(application)は、状況に応じて適切なネットワークを選定する能力を有する。
[00125]図10は、深層畳み込みネットワークにおいて画像解像度を低減する方法1000を示す。ブロック1002において、ネットワークは、DCNの各層において、入力画像に、適用されるべき低減ファクタを動的に選択する。ブロック1004において、ネットワークは、各層のために選択された低減ファクタに基づいて、DCNを調節する。
[00126]図11は、深層畳み込みネットワーク(DCN)において、画像解像度を低減するための流れ図を示す。図11に示されているように、ブロック1102において、DCNは、分類のための入力を受信する。一例として、入力は、特定の解像度をもつ画像、ビデオ、および/またはオーディオファイルであり得る。たとえば、画像は、256×256の解像度を有し得る。入力を受信した後に、ブロック1104において、入力に1つまたは複数の低減ファクタを適用することによって、DCNは調節される。低減ファクタは、DCNの各層において入力の解像度を低減するために指定される。前に説明したように、低減ファクタは、低減ファクタがDCNの各層において異なり得るように、層固有(layer specific)であり得る。
[00127]さらに、ブロック1106において、システムは、適用された(1つまたは複数の)低減ファクタに基づいてDCNの性能を決定する。一例として、各DCNについて、元の画像解像度と低減された画像解像度との間の分類性能の差は、適用された(1つまたは複数の)低減ファクタに基づいて決定される。さらに、各DCNモデルについての計算複雑さも、適用された(1つまたは複数の)低減ファクタに基づいて計算される。
[00128]1つまたは複数の低減ファクタに基づいてDCNの性能を決定した後に、システムは、DCNの計算複雑さおよび/または分類性能に基づいて、1つまたは複数の低減ファクタを選択する(ブロック1108)。もちろん、前に説明したように、1つまたは複数の低減ファクタは、DCNの計算複雑さおよび/または分類性能に基づいて選択されることに限定されない。計算複雑さおよび/または分類性能に加えてまたはそれらの代替として、低減ファクタは、ヒューリスティック、周波数スペクトル、および/または他の性能測定値に基づいて選択され得る。
[00129](1つまたは複数の)低減ファクタを選択した後に、選択された(1つまたは複数の)低減ファクタに基づいて、DCNの複雑さを調節する(ブロック1110)。たとえば、DCNの複雑さは、全結合層、畳み込み層、および局所結合層など、各重み層において重みを調節することによって調節され得る。重みは、より低解像度の入力画像に基づいて調節される。重みは、上位層を下位層に結合するシナプスの重み、重み行列の次元、および/または重み行列の値を指す。
[00130]ブロック1112において、調節されたDCNのトレーニングをトレーニングサンプルに対して続けることによって、調節されたDCNをエンドツーエンドで微調整する。最終的に、ブロック1114において、調節されたDCNと元のDCNとを合同で記憶し、したがって、全体的メモリフットプリントは、調節されたDCNおよび元のDCNなど、各DCNを個々に記憶することと比較して低減される。
[00131]上記で説明された方法の様々な動作は、対応する機能を実行することが可能な任意の好適な手段によって実行され得る。それらの手段は、限定はしないが、回路、特定用途向け集積回路(ASIC)、またはプロセッサを含む、様々な(1つまたは複数の)ハードウェアおよび/またはソフトウェア構成要素および/またはモジュールを含み得る。概して、図に示されている動作がある場合、それらの動作は、同様の番号をもつ対応するカウンターパートのミーンズプラスファンクション構成要素を有し得る。
[00132]本明細書で使用される「決定すること」という用語は、多種多様なアクションを包含する。たとえば、「決定すること」は、計算すること(calculating)、計算すること(computing)、処理すること、導出すること、調査すること、ルックアップすること(たとえば、テーブル、データベースまたは別のデータ構造においてルックアップすること)、確認することなどを含み得る。さらに、「決定すること」は、受信すること(たとえば、情報を受信すること)、アクセスすること(たとえば、メモリ中のデータにアクセスすること)などを含み得る。さらに、「決定すること」は、解決すること、選択すること、選定すること、確立することなどを含み得る。
[00133]本明細書で使用される、項目のリスト「のうちの少なくとも1つ」を指す句は、単一のメンバーを含む、それらの項目の任意の組合せを指す。一例として、「a、b、またはcのうちの少なくとも1つ」は、a、b、c、a−b、a−c、b−c、およびa−b−cを包含するものとする。
[00134]本開示に関連して説明された様々な例示的な論理ブロック、モジュールおよび回路は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ信号(FPGA)または他のプログラマブル論理デバイス(PLD)、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいは本明細書で説明された機能を実行するように設計されたそれらの任意の組合せを用いて実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の市販のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。
[00135]本開示に関連して説明された方法またはアルゴリズムのステップは、ハードウェアで直接実施されるか、プロセッサによって実行されるソフトウェアモジュールで実施されるか、またはその2つの組合せで実施され得る。ソフトウェアモジュールは、当技術分野で知られている任意の形態の記憶媒体中に常駐し得る。使用され得る記憶媒体のいくつかの例としては、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、フラッシュメモリ、消去可能プログラマブル読取り専用メモリ(EPROM)、電気消去可能プログラマブル読取り専用メモリ(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、CD−ROMなどがある。ソフトウェアモジュールは、単一の命令、または多数の命令を備え得、いくつかの異なるコードセグメント上で、異なるプログラム間で、および複数の記憶媒体にわたって分散され得る。記憶媒体は、プロセッサがその記憶媒体から情報を読み取ることができ、その記憶媒体に情報を書き込むことができるように、プロセッサに結合され得る。代替として、記憶媒体はプロセッサと一体であり得る。
[00136]本明細書で開示された方法は、説明された方法を達成するための1つまたは複数のステップまたはアクションを備える。本方法のステップおよび/またはアクションは、特許請求の範囲から逸脱することなく、互いに交換され得る。言い換えれば、ステップまたはアクションの特定の順序が指定されない限り、特定のステップおよび/またはアクションの順序および/または使用は特許請求の範囲から逸脱することなく変更され得る。
[00137]説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ハードウェアで実装される場合、例示的なハードウェア構成はデバイス中に処理システムを備え得る。処理システムは、バスアーキテクチャを用いて実装され得る。バスは、処理システムの特定の適用例および全体的な設計制約に応じて、任意の数の相互接続バスおよびブリッジを含み得る。バスは、プロセッサと、機械可読媒体と、バスインターフェースとを含む様々な回路を互いにリンクし得る。バスインターフェースは、ネットワークアダプタを、特に、バスを介して処理システムに接続するために使用され得る。ネットワークアダプタは、信号処理機能を実装するために使用され得る。いくつかの態様では、ユーザインターフェース(たとえば、キーパッド、ディスプレイ、マウス、ジョイスティックなど)もバスに接続され得る。バスはまた、タイミングソース、周辺機器、電圧調整器、電力管理回路など、様々な他の回路をリンクし得るが、それらは当技術分野でよく知られており、したがってこれ以上説明されない。
[00138]プロセッサは、機械可読媒体に記憶されたソフトウェアの実行を含む、バスおよび一般的な処理を管理することを担当し得る。プロセッサは、1つまたは複数の汎用および/または専用プロセッサを用いて実装され得る。例としては、マイクロプロセッサ、マイクロコントローラ、DSPプロセッサ、およびソフトウェアを実行することができる他の回路がある。ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語などの名称にかかわらず、命令、データ、またはそれらの任意の組合せを意味すると広く解釈されたい。機械可読媒体は、例として、ランダムアクセスメモリ(RAM)、フラッシュメモリ、読取り専用メモリ(ROM)、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気消去可能プログラマブル読取り専用メモリ(EEPROM)、レジスタ、磁気ディスク、光ディスク、ハードドライブ、または他の好適な記憶媒体、あるいはそれらの任意の組合せを含み得る。機械可読媒体はコンピュータプログラム製品において実施され得る。コンピュータプログラム製品はパッケージング材料を備え得る。
[00139]ハードウェア実装形態では、機械可読媒体は、プロセッサとは別個の処理システムの一部であり得る。しかしながら、当業者なら容易に理解するように、機械可読媒体またはその任意の部分は処理システムの外部にあり得る。例として、機械可読媒体は、すべてバスインターフェースを介してプロセッサによってアクセスされ得る、伝送線路、データによって変調された搬送波、および/またはデバイスとは別個のコンピュータ製品を含み得る。代替的に、または追加として、機械可読媒体またはその任意の部分は、キャッシュおよび/または汎用レジスタファイルがそうであり得るように、プロセッサに統合され得る。局所構成要素など、説明された様々な構成要素は、特定のロケーションを有するものとして説明され得るが、それらはまた、分散コンピューティングシステムの一部として構成されているいくつかの構成要素など、様々な方法で構成され得る。
[00140]処理システムは、すべて外部バスアーキテクチャを介して他のサポート回路と互いにリンクされる、プロセッサ機能を提供する1つまたは複数のマイクロプロセッサと、機械可読媒体の少なくとも一部を提供する外部メモリとをもつ汎用処理システムとして構成され得る。代替的に、処理システムは、本明細書で説明されたニューロンモデルとニューラルシステムのモデルとを実装するための1つまたは複数の神経形態学的プロセッサを備え得る。別の代替として、処理システムは、プロセッサをもつ特定用途向け集積回路(ASIC)と、バスインターフェースと、ユーザインターフェースと、サポート回路と、単一のチップに統合された機械可読媒体の少なくとも一部分とを用いて、あるいは1つまたは複数のフィールドプログラマブルゲートアレイ(FPGA)、プログラマブル論理デバイス(PLD)、コントローラ、状態機械、ゲート論理、個別ハードウェア構成要素、もしくは他の好適な回路、または本開示全体にわたって説明された様々な機能を実行することができる回路の任意の組合せを用いて、実装され得る。当業者は、特定の適用例と、全体的なシステムに課される全体的な設計制約とに応じて、どのようにしたら処理システムについて説明された機能を最も良く実装し得るかを理解されよう。
[00141]機械可読媒体はいくつかのソフトウェアモジュールを備え得る。ソフトウェアモジュールは、プロセッサによって実行されたときに、処理システムに様々な機能を実行させる命令を含む。ソフトウェアモジュールは、送信モジュールと受信モジュールとを含み得る。各ソフトウェアモジュールは、単一のストレージデバイス中に常駐するか、または複数のストレージデバイスにわたって分散され得る。例として、トリガイベントが発生したとき、ソフトウェアモジュールがハードドライブからRAMにロードされ得る。ソフトウェアモジュールの実行中、プロセッサは、アクセス速度を高めるために、命令のいくつかをキャッシュにロードし得る。次いで、1つまたは複数のキャッシュラインが、プロセッサによる実行のために汎用レジスタファイルにロードされ得る。以下でソフトウェアモジュールの機能に言及する場合、そのような機能は、そのソフトウェアモジュールからの命令を実行したときにプロセッサによって実装されることが理解されよう。
[00142]ソフトウェアで実装される場合、機能は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、コンピュータ記憶媒体と通信媒体の両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを搬送または記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。さらに、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線(IR)、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用されるディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)、およびBlu−ray(登録商標)ディスク(disc)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザーで光学的に再生する。したがって、いくつかの態様では、コンピュータ可読媒体は非一時的コンピュータ可読媒体(たとえば、有形媒体)を備え得る。さらに、他の態様では、コンピュータ可読媒体は一時的コンピュータ可読媒体(たとえば、信号)を備え得る。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
[00143]したがって、いくつかの態様は、本明細書で提示された動作を実行するためのコンピュータプログラム製品を備え得る。たとえば、そのようなコンピュータプログラム製品は、本明細書で説明された動作を実行するために1つまたは複数のプロセッサによって実行可能である命令をその上に記憶した(および/または符号化した)コンピュータ可読媒体を備え得る。いくつかの態様では、コンピュータプログラム製品はパッケージング材料を含み得る。
[00144]さらに、本明細書で説明された方法および技法を実行するためのモジュールおよび/または他の適切な手段は、適用可能な場合にユーザ端末および/または基地局によってダウンロードされ、および/または他の方法で取得され得ることを諒解されたい。たとえば、そのようなデバイスは、本明細書で説明された方法を実行するための手段の転送を可能にするためにサーバに結合され得る。代替的に、本明細書で説明された様々な方法は、ユーザ端末および/または基地局が記憶手段(たとえば、RAM、ROM、コンパクトディスク(CD)またはフロッピーディスクなどの物理記憶媒体など)をデバイスに結合するかまたは与えると様々な方法を得ることができるように、記憶手段によって提供され得る。その上、本明細書で説明された方法および技法をデバイスに提供するための任意の他の好適な技法が利用され得る。
[00145]特許請求の範囲は、上記で示された厳密な構成および構成要素に限定されないことを理解されたい。上記で説明された方法および装置の構成、動作および詳細において、特許請求の範囲から逸脱することなく、様々な改変、変更および変形が行われ得る。
[00145]特許請求の範囲は、上記で示された厳密な構成および構成要素に限定されないことを理解されたい。上記で説明された方法および装置の構成、動作および詳細において、特許請求の範囲から逸脱することなく、様々な改変、変更および変形が行われ得る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
深層畳み込みネットワーク(DCN)において画像解像度を低減する方法であって、
前記DCNの各層において、入力画像に、適用されるべき低減ファクタを動的に選択することと、
各層のために選択された前記低減ファクタに少なくとも部分的に基づいて、前記DCNを調節することとを備える、方法。
[C2]
前記低減ファクタを動的に選択することが、
各層のために前記低減ファクタをランダムに選択することと、
前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節することとを備える、C1に記載の方法。
[C3]
前記低減ファクタを動的に選択することが、
前記DCNの各層の計算複雑さおよび/または所与の層における前記入力画像の高周波成分中のエネルギーの部分に少なくとも部分的に基づいて、各層のために、前記低減ファクタを選択することと、
前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節することとを備える、C1に記載の方法。
[C4]
前記DCNを調節することが、前記低減ファクタに少なくとも部分的に基づいて、前記DCNの各層における重みを調節することをさらに備える、C1に記載の方法。
[C5]
前記DCNを調節することが、前記選択された低減ファクタに少なくとも部分的に基づいて、前記DCNのプーリング層におけるシナプス結合をトリミングすることをさらに備える、C1に記載の方法。
[C6]
前記DCNを調節することが、前記DCNを微調整することをさらに備える、C1に記載の方法。
[C7]
前記微調整することが、少なくとも1つの他の層における固定重みを維持しながら、選択された層を微調整することを備える、C6に記載の方法。
[C8]
前記選択された層が畳み込み層を備え、前記最小1つの他の層が全結合層を備える、C7に記載の方法。
[C9]
元のDCNと前記調節されたDCNの両方のための1つの全結合層を記憶することと、
前記元のDCNのための第1の畳み込み層と、前記調節されたDCNのための第2の畳み込み層とを記憶することとをさらに備える、C1に記載の方法。
[C10]
深層畳み込みネットワーク(DCN)において画像解像度を低減するための装置であって、
前記DCNの各層において、入力画像に、適用されるべき低減ファクタを動的に選択するための手段と、
各層のために選択された前記低減ファクタに少なくとも部分的に基づいて、前記DCNを調節するための手段とを備える、装置。
[C11]
前記低減ファクタを動的に選択するための前記手段が、
各層のために前記低減ファクタをランダムに選択するための手段と、
前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節するための手段とを備える、C10に記載の装置。
[C12]
前記低減ファクタを動的に選択するための前記手段が、
前記DCNの各層の計算複雑さおよび/または所与の層における前記入力画像の高周波成分中のエネルギーの部分に少なくとも部分的に基づいて、各層のために、前記低減ファクタを選択するための手段と、
前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節するための手段とを備える、C10に記載の装置。
[C13]
前記DCNを調節するための前記手段が、前記低減ファクタに少なくとも部分的に基づいて、前記DCNの各層における重みを調節するための手段をさらに備える、C10に記載の装置。
[C14]
前記DCNを調節するための前記手段が、前記選択された低減ファクタに少なくとも部分的に基づいて、前記DCNのプーリング層におけるシナプス結合をトリミングするための手段をさらに備える、C10に記載の装置。
[C15]
前記DCNを調節するための前記手段が、前記DCNを微調整するための手段をさらに備える、C10に記載の装置。
[C16]
微調整するための前記手段が、少なくとも1つの他の層における固定重みを維持しながら、選択された層を微調整するための手段を備える、C15に記載の装置。
[C17]
前記選択された層が畳み込み層を備え、前記最小1つの他の層が全結合層を備える、C16に記載の装置。
[C18]
元のDCNと前記調節されたDCNの両方のための1つの全結合層を記憶するための手段と、
前記元のDCNのための第1の畳み込み層と、前記調節されたDCNのための第2の畳み込み層とを記憶するための手段とをさらに備える、C10に記載の装置。
[C19]
深層畳み込みネットワーク(DCN)において画像解像度を低減するための装置であって、
メモリユニットと、
前記メモリユニットに結合された少なくとも1つのプロセッサとを備え、前記少なくとも1つのプロセッサが、
前記DCNの各層において、入力画像に、適用されるべき低減ファクタを動的に選択することと、
各層のために選択された前記低減ファクタに少なくとも部分的に基づいて、前記DCNを調節することと
を行うように構成された、装置。
[C20]
前記少なくとも1つのプロセッサが、
各層のために前記低減ファクタをランダムに選択することと、
前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節することとを行うようにさらに構成された、C19に記載の装置。
[C21]
前記少なくとも1つのプロセッサが、
前記DCNの各層の計算複雑さおよび/または所与の層における前記入力画像の高周波成分中のエネルギーの部分に少なくとも部分的に基づいて、各層のために、前記低減ファクタを選択することと、
前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節することとを行うようにさらに構成された、C19に記載の装置。
[C22]
前記少なくとも1つのプロセッサが、前記低減ファクタに少なくとも部分的に基づいて、前記DCNの各層における重みを調節するようにさらに構成された、C19に記載の装置。
[C23]
前記少なくとも1つのプロセッサが、前記選択された低減ファクタに少なくとも部分的に基づいて、前記DCNのプーリング層におけるシナプス結合をトリミングするようにさらに構成された、C19に記載の装置。
[C24]
前記少なくとも1つのプロセッサが、前記DCNを微調整するようにさらに構成された、C19に記載の装置。
[C25]
前記少なくとも1つのプロセッサが、少なくとも1つの他の層における固定重みを維持しながら、選択された層を微調整するようにさらに構成された、C24に記載の装置。
[C26]
前記選択された層が畳み込み層を備え、前記最小1つの他の層が全結合層を備える、C25に記載の装置。
[C27]
前記少なくとも1つのプロセッサが、
元のDCNと前記調節されたDCNの両方のための1つの全結合層を記憶することと、
前記元のDCNのための第1の畳み込み層と、前記調節されたDCNのための第2の畳み込み層とを記憶することとを行うようにさらに構成された、C19に記載の装置。
[C28]
深層畳み込みネットワーク(DCN)において画像解像度を低減するための非一時的コンピュータ可読媒体であって、前記非一時的コンピュータ可読媒体がプログラムコードを記録しており、前記プログラムコードが、プロセッサによって実行され、
前記DCNの各層において、入力画像に、適用されるべき低減ファクタを動的に選択するためのプログラムコードと、
各層のために選択された前記低減ファクタに少なくとも部分的に基づいて、前記DCNを調節するためのプログラムコードとを備える、非一時的コンピュータ可読媒体。
[C29]
各層のために前記低減ファクタをランダムに選択するためのプログラムコードと、
前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節するためのプログラムコードとをさらに備える、C28に記載のコンピュータ可読媒体。
[C30]
前記DCNの各層の計算複雑さおよび/または所与の層における前記入力画像の高周波成分中のエネルギーの部分に少なくとも部分的に基づいて、各層のために、前記低減ファクタを選択するためのプログラムコードと、
前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節するためのプログラムコードとをさらに備える、C28に記載のコンピュータ可読媒体。
[C31]
前記低減ファクタに少なくとも部分的に基づいて、前記DCNの各層における重みを調節するためのプログラムコードをさらに備える、C28に記載のコンピュータ可読媒体。
[C32]
前記選択された低減ファクタに少なくとも部分的に基づいて、前記DCNのプーリング層におけるシナプス結合をトリミングするためのプログラムコードをさらに備える、C28に記載のコンピュータ可読媒体。
[C33]
前記DCNを微調整するためのプログラムコードをさらに備える、C28に記載のコンピュータ可読媒体。
[C34]
少なくとも1つの他の層における固定重みを維持しながら、選択された層を微調整するためのプログラムコードをさらに備える、C33に記載のコンピュータ可読媒体。
[C35]
前記選択された層が畳み込み層を備え、前記最小1つの他の層が全結合層を備える、C34に記載のコンピュータ可読媒体。
[C36]
元のDCNと前記調節されたDCNの両方のための1つの全結合層を記憶するためのプログラムコードと、
前記元のDCNのための第1の畳み込み層と、前記調節されたDCNのための第2の畳み込み層とを記憶するためのプログラムコードとをさらに備える、C28に記載のコンピュータ可読媒体。

Claims (36)

  1. 深層畳み込みネットワーク(DCN)において画像解像度を低減する方法であって、
    前記DCNの各層において、入力画像に、適用されるべき低減ファクタを動的に選択することと、
    各層のために選択された前記低減ファクタに少なくとも部分的に基づいて、前記DCNを調節することと
    を備える、方法。
  2. 前記低減ファクタを動的に選択することが、
    各層のために前記低減ファクタをランダムに選択することと、
    前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節することと
    を備える、請求項1に記載の方法。
  3. 前記低減ファクタを動的に選択することが、
    前記DCNの各層の計算複雑さおよび/または所与の層における前記入力画像の高周波成分中のエネルギーの部分に少なくとも部分的に基づいて、各層のために、前記低減ファクタを選択することと、
    前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節することと
    を備える、請求項1に記載の方法。
  4. 前記DCNを調節することが、前記低減ファクタに少なくとも部分的に基づいて、前記DCNの各層における重みを調節することをさらに備える、請求項1に記載の方法。
  5. 前記DCNを調節することが、前記選択された低減ファクタに少なくとも部分的に基づいて、前記DCNのプーリング層におけるシナプス結合をトリミングすることをさらに備える、請求項1に記載の方法。
  6. 前記DCNを調節することが、前記DCNを微調整することをさらに備える、請求項1に記載の方法。
  7. 前記微調整することが、少なくとも1つの他の層における固定重みを維持しながら、選択された層を微調整することを備える、請求項6に記載の方法。
  8. 前記選択された層が畳み込み層を備え、前記最小1つの他の層が全結合層を備える、請求項7に記載の方法。
  9. 元のDCNと前記調節されたDCNの両方のための1つの全結合層を記憶することと、
    前記元のDCNのための第1の畳み込み層と、前記調節されたDCNのための第2の畳み込み層とを記憶することと
    をさらに備える、請求項1に記載の方法。
  10. 深層畳み込みネットワーク(DCN)において画像解像度を低減するための装置であって、
    前記DCNの各層において、入力画像に、適用されるべき低減ファクタを動的に選択するための手段と、
    各層のために選択された前記低減ファクタに少なくとも部分的に基づいて、前記DCNを調節するための手段と
    を備える、装置。
  11. 前記低減ファクタを動的に選択するための前記手段が、
    各層のために前記低減ファクタをランダムに選択するための手段と、
    前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節するための手段と
    を備える、請求項10に記載の装置。
  12. 前記低減ファクタを動的に選択するための前記手段が、
    前記DCNの各層の計算複雑さおよび/または所与の層における前記入力画像の高周波成分中のエネルギーの部分に少なくとも部分的に基づいて、各層のために、前記低減ファクタを選択するための手段と、
    前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節するための手段と
    を備える、請求項10に記載の装置。
  13. 前記DCNを調節するための前記手段が、前記低減ファクタに少なくとも部分的に基づいて、前記DCNの各層における重みを調節するための手段をさらに備える、請求項10に記載の装置。
  14. 前記DCNを調節するための前記手段が、前記選択された低減ファクタに少なくとも部分的に基づいて、前記DCNのプーリング層におけるシナプス結合をトリミングするための手段をさらに備える、請求項10に記載の装置。
  15. 前記DCNを調節するための前記手段が、前記DCNを微調整するための手段をさらに備える、請求項10に記載の装置。
  16. 微調整するための前記手段が、少なくとも1つの他の層における固定重みを維持しながら、選択された層を微調整するための手段を備える、請求項15に記載の装置。
  17. 前記選択された層が畳み込み層を備え、前記最小1つの他の層が全結合層を備える、請求項16に記載の装置。
  18. 元のDCNと前記調節されたDCNの両方のための1つの全結合層を記憶するための手段と、
    前記元のDCNのための第1の畳み込み層と、前記調節されたDCNのための第2の畳み込み層とを記憶するための手段と
    をさらに備える、請求項10に記載の装置。
  19. 深層畳み込みネットワーク(DCN)において画像解像度を低減するための装置であって、
    メモリユニットと、
    前記メモリユニットに結合された少なくとも1つのプロセッサとを備え、前記少なくとも1つのプロセッサが、
    前記DCNの各層において、入力画像に、適用されるべき低減ファクタを動的に選択することと、
    各層のために選択された前記低減ファクタに少なくとも部分的に基づいて、前記DCNを調節することと
    を行うように構成された、
    装置。
  20. 前記少なくとも1つのプロセッサが、
    各層のために前記低減ファクタをランダムに選択することと、
    前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節することと
    を行うようにさらに構成された、請求項19に記載の装置。
  21. 前記少なくとも1つのプロセッサが、
    前記DCNの各層の計算複雑さおよび/または所与の層における前記入力画像の高周波成分中のエネルギーの部分に少なくとも部分的に基づいて、各層のために、前記低減ファクタを選択することと、
    前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節することと
    を行うようにさらに構成された、請求項19に記載の装置。
  22. 前記少なくとも1つのプロセッサが、前記低減ファクタに少なくとも部分的に基づいて、前記DCNの各層における重みを調節するようにさらに構成された、請求項19に記載の装置。
  23. 前記少なくとも1つのプロセッサが、前記選択された低減ファクタに少なくとも部分的に基づいて、前記DCNのプーリング層におけるシナプス結合をトリミングするようにさらに構成された、請求項19に記載の装置。
  24. 前記少なくとも1つのプロセッサが、前記DCNを微調整するようにさらに構成された、請求項19に記載の装置。
  25. 前記少なくとも1つのプロセッサが、少なくとも1つの他の層における固定重みを維持しながら、選択された層を微調整するようにさらに構成された、請求項24に記載の装置。
  26. 前記選択された層が畳み込み層を備え、前記最小1つの他の層が全結合層を備える、請求項25に記載の装置。
  27. 前記少なくとも1つのプロセッサが、
    元のDCNと前記調節されたDCNの両方のための1つの全結合層を記憶することと、
    前記元のDCNのための第1の畳み込み層と、前記調節されたDCNのための第2の畳み込み層とを記憶することと
    を行うようにさらに構成された、請求項19に記載の装置。
  28. 深層畳み込みネットワーク(DCN)において画像解像度を低減するための非一時的コンピュータ可読媒体であって、前記非一時的コンピュータ可読媒体がプログラムコードを記録しており、前記プログラムコードが、プロセッサによって実行され、
    前記DCNの各層において、入力画像に、適用されるべき低減ファクタを動的に選択するためのプログラムコードと、
    各層のために選択された前記低減ファクタに少なくとも部分的に基づいて、前記DCNを調節するためのプログラムコードと
    を備える、非一時的コンピュータ可読媒体。
  29. 各層のために前記低減ファクタをランダムに選択するためのプログラムコードと、
    前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節するためのプログラムコードと
    をさらに備える、請求項28に記載のコンピュータ可読媒体。
  30. 前記DCNの各層の計算複雑さおよび/または所与の層における前記入力画像の高周波成分中のエネルギーの部分に少なくとも部分的に基づいて、各層のために、前記低減ファクタを選択するためのプログラムコードと、
    前記DCNの性能損失と複雑さのレベルとに少なくとも部分的に基づいて、各低減ファクタを調節するためのプログラムコードと
    をさらに備える、請求項28に記載のコンピュータ可読媒体。
  31. 前記低減ファクタに少なくとも部分的に基づいて、前記DCNの各層における重みを調節するためのプログラムコードをさらに備える、請求項28に記載のコンピュータ可読媒体。
  32. 前記選択された低減ファクタに少なくとも部分的に基づいて、前記DCNのプーリング層におけるシナプス結合をトリミングするためのプログラムコードをさらに備える、請求項28に記載のコンピュータ可読媒体。
  33. 前記DCNを微調整するためのプログラムコードをさらに備える、請求項28に記載のコンピュータ可読媒体。
  34. 少なくとも1つの他の層における固定重みを維持しながら、選択された層を微調整するためのプログラムコードをさらに備える、請求項33に記載のコンピュータ可読媒体。
  35. 前記選択された層が畳み込み層を備え、前記最小1つの他の層が全結合層を備える、請求項34に記載のコンピュータ可読媒体。
  36. 元のDCNと前記調節されたDCNの両方のための1つの全結合層を記憶するためのプログラムコードと、
    前記元のDCNのための第1の畳み込み層と、前記調節されたDCNのための第2の畳み込み層とを記憶するためのプログラムコードと
    をさらに備える、請求項28に記載のコンピュータ可読媒体。
JP2017556142A 2015-04-28 2016-04-20 深層畳み込みネットワークにおいて画像解像度を低減すること Active JP6732795B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562154084P 2015-04-28 2015-04-28
US62/154,084 2015-04-28
US14/859,095 US9786036B2 (en) 2015-04-28 2015-09-18 Reducing image resolution in deep convolutional networks
US14/859,095 2015-09-18
PCT/US2016/028493 WO2016176095A1 (en) 2015-04-28 2016-04-20 Reducing image resolution in deep convolutional networks

Publications (3)

Publication Number Publication Date
JP2018523182A true JP2018523182A (ja) 2018-08-16
JP2018523182A5 JP2018523182A5 (ja) 2019-05-09
JP6732795B2 JP6732795B2 (ja) 2020-07-29

Family

ID=55967426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017556142A Active JP6732795B2 (ja) 2015-04-28 2016-04-20 深層畳み込みネットワークにおいて画像解像度を低減すること

Country Status (5)

Country Link
US (1) US9786036B2 (ja)
EP (1) EP3289529B1 (ja)
JP (1) JP6732795B2 (ja)
CN (1) CN107533754B (ja)
WO (1) WO2016176095A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200037015A (ko) * 2018-09-28 2020-04-08 한국과학기술원 컨텐츠 인지 신경망을 이용하여 실시간으로 적응형 비디오를 전송하는 방법 및 장치
JP2020187554A (ja) * 2019-05-15 2020-11-19 株式会社スター精機 機械作業情報の記録方法及び確認方法
JP2020204863A (ja) * 2019-06-17 2020-12-24 富士フイルム株式会社 学習装置、学習装置の作動方法、および学習装置の作動プログラム
JP2021034008A (ja) * 2019-08-13 2021-03-01 三星電子株式会社Samsung Electronics Co.,Ltd. プロセッサチップ及びその制御方法
KR102268676B1 (ko) * 2019-12-27 2021-06-23 중앙대학교 산학협력단 트리 구조 그래프 합성곱 신경망에 기반한 3차원 포인트 클라우드 생성 시스템 및 방법
JP2021530770A (ja) * 2019-03-19 2021-11-11 深▲せん▼市商▲湯▼科技有限公司Shenzhen Sensetime Technology Co., Ltd. ビデオ処理方法、装置及びコンピュータ記憶媒体

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417525B2 (en) 2014-09-22 2019-09-17 Samsung Electronics Co., Ltd. Object recognition with reduced neural network weight precision
US9769367B2 (en) 2015-08-07 2017-09-19 Google Inc. Speech and computer vision-based control
US9836484B1 (en) * 2015-12-30 2017-12-05 Google Llc Systems and methods that leverage deep learning to selectively store images at a mobile image capture device
US9838641B1 (en) 2015-12-30 2017-12-05 Google Llc Low power framework for processing, compressing, and transmitting images at a mobile image capture device
US10732809B2 (en) 2015-12-30 2020-08-04 Google Llc Systems and methods for selective retention and editing of images captured by mobile image capture device
US9836819B1 (en) 2015-12-30 2017-12-05 Google Llc Systems and methods for selective retention and editing of images captured by mobile image capture device
US10225511B1 (en) 2015-12-30 2019-03-05 Google Llc Low power framework for controlling image sensor mode in a mobile image capture device
WO2017138220A1 (ja) * 2016-02-12 2017-08-17 ソニー株式会社 情報処理方法および情報処理装置
US10964326B2 (en) * 2016-02-16 2021-03-30 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation System and method for audio-visual speech recognition
KR102223296B1 (ko) * 2016-03-11 2021-03-04 매직 립, 인코포레이티드 콘볼루셔널 신경 네트워크들에서의 구조 학습
US10089717B2 (en) * 2016-04-05 2018-10-02 Flipboard, Inc. Image scaling using a convolutional neural network
US20170357894A1 (en) * 2016-06-10 2017-12-14 Apple Inc. Data packing for convolution of artificial neural networks
US11100398B2 (en) * 2016-06-30 2021-08-24 Cogniac, Corp. Operating machine-learning models on different platforms
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
US11315018B2 (en) * 2016-10-21 2022-04-26 Nvidia Corporation Systems and methods for pruning neural networks for resource efficient inference
US20180129937A1 (en) 2016-11-04 2018-05-10 Salesforce.Com, Inc. Quasi-recurrent neural network
KR102631381B1 (ko) * 2016-11-07 2024-01-31 삼성전자주식회사 컨볼루션 신경망 처리 방법 및 장치
US10740596B2 (en) * 2016-11-08 2020-08-11 Nec Corporation Video security system using a Siamese reconstruction convolutional neural network for pose-invariant face recognition
US10360494B2 (en) * 2016-11-30 2019-07-23 Altumview Systems Inc. Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules
CN108133222B (zh) * 2016-12-01 2021-11-02 富士通株式会社 为数据库确定卷积神经网络cnn模型的装置和方法
US20180165845A1 (en) * 2016-12-09 2018-06-14 Free Construction Sp. Z o.o. Method of Analysis of Visualised Data
US10262218B2 (en) * 2017-01-03 2019-04-16 Qualcomm Incorporated Simultaneous object detection and rigid transform estimation using neural network
US11556780B2 (en) * 2017-01-19 2023-01-17 Nec Corporation Neural network learning device, neural network learning method, and recording medium on which neural network learning program is stored
KR101878490B1 (ko) * 2017-03-10 2018-07-13 만도헬라일렉트로닉스(주) 차선 인식 시스템 및 방법
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
WO2018184194A1 (en) 2017-04-07 2018-10-11 Intel Corporation Methods and systems using improved convolutional neural networks for image processing
US11164071B2 (en) * 2017-04-18 2021-11-02 Samsung Electronics Co., Ltd. Method and apparatus for reducing computational complexity of convolutional neural networks
WO2018213119A1 (en) 2017-05-17 2018-11-22 SigOpt, Inc. Systems and methods implementing an intelligent optimization platform
KR102548718B1 (ko) * 2017-06-07 2023-06-28 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102413028B1 (ko) 2017-08-16 2022-06-23 에스케이하이닉스 주식회사 중첩 신경망을 프루닝하는 방법 및 장치
CN108205580B (zh) * 2017-09-27 2021-08-31 深圳市商汤科技有限公司 一种图像检索方法、装置及计算机可读存储介质
US10282237B1 (en) 2017-10-30 2019-05-07 SigOpt, Inc. Systems and methods for implementing an intelligent application program interface for an intelligent optimization platform
CN107967484B (zh) * 2017-11-14 2021-03-16 中国计量大学 一种基于多分辨率的图像分类方法
US11270217B2 (en) 2017-11-17 2022-03-08 Intel Corporation Systems and methods implementing an intelligent machine learning tuning system providing multiple tuned hyperparameter solutions
US10785449B2 (en) * 2017-12-08 2020-09-22 Qualcomm Incorporated Communicating using media content
US11138505B2 (en) * 2017-12-21 2021-10-05 Fujitsu Limited Quantization of neural network parameters
CN108399382A (zh) 2018-02-13 2018-08-14 阿里巴巴集团控股有限公司 车险图像处理方法和装置
US11875557B2 (en) 2018-04-27 2024-01-16 Carnegie Mellon University Polynomial convolutional neural network with early fan-out
CN108596836B (zh) * 2018-05-09 2022-06-28 大国创新智能科技(东莞)有限公司 基于顶层生成深度学习的数据转换方法、系统、介质和设备
US11704567B2 (en) 2018-07-13 2023-07-18 Intel Corporation Systems and methods for an accelerated tuning of hyperparameters of a model using a machine learning-based tuning service
US10528891B1 (en) * 2018-08-23 2020-01-07 SigOpt, Inc. Systems and methods for implementing an intelligent machine learning optimization platform for multiple tuning criteria
US10878292B2 (en) * 2018-12-07 2020-12-29 Goodrich Corporation Automatic generation of a new class in a classification system
US20200233855A1 (en) * 2019-01-21 2020-07-23 saf.ai Methods For Self-Aware, Self-Healing, And Self-Defending Data
US11157812B2 (en) 2019-04-15 2021-10-26 Intel Corporation Systems and methods for tuning hyperparameters of a model and advanced curtailment of a training of the model
US11410016B2 (en) 2019-04-26 2022-08-09 Alibaba Group Holding Limited Selective performance of deterministic computations for neural networks
US11797876B1 (en) * 2019-06-26 2023-10-24 Amazon Technologies, Inc Unified optimization for convolutional neural network model inference on integrated graphics processing units
US11049286B2 (en) 2019-07-31 2021-06-29 Hewlett Packard Enterprise Development Lp Deep neural network color space optimization
KR20210039197A (ko) * 2019-10-01 2021-04-09 삼성전자주식회사 데이터를 처리하는 방법 및 장치
US11436761B2 (en) 2020-03-18 2022-09-06 International Business Machines Corporation Preventing feature loss when compressing images
CN112132113A (zh) * 2020-10-20 2020-12-25 北京百度网讯科技有限公司 车辆再识别的方法、装置、训练方法以及电子设备
US11954910B2 (en) 2020-12-26 2024-04-09 International Business Machines Corporation Dynamic multi-resolution processing for video classification
US11956453B2 (en) * 2021-06-15 2024-04-09 Tencent America LLC Content-adaptive online training for DNN-based cross component prediction with scaling factors
US11949892B2 (en) 2021-06-15 2024-04-02 Tencent America LLC Content-adaptive online training for DNN-based cross component prediction with low-bit precision
FR3128551A1 (fr) * 2021-10-25 2023-04-28 Stmicroelectronics (Rousset) Sas Procédé de détection d’événements ou d’éléments dans des signaux physiques par la mise en œuvre d’un réseau de neurones artificiel
US20230140170A1 (en) * 2021-10-28 2023-05-04 Samsung Electronics Co., Ltd. System and method for depth and scene reconstruction for augmented reality or extended reality devices

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4072491B2 (ja) * 2003-10-23 2008-04-09 キヤノン株式会社 画像処理装置、画像処理方法、プログラム及びコンピュータ可読媒体
US7835549B2 (en) 2005-03-07 2010-11-16 Fujifilm Corporation Learning method of face classification apparatus, face classification method, apparatus and program
US8861842B2 (en) 2010-02-05 2014-10-14 Sri International Method and apparatus for real-time pedestrian detection for urban driving
US8873813B2 (en) 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9042645B2 (en) 2012-05-16 2015-05-26 Imec Feature detection in numeric data
US9060127B2 (en) * 2013-01-23 2015-06-16 Orcam Technologies Ltd. Apparatus for adjusting image capture settings
CN103544705B (zh) * 2013-10-25 2016-03-02 华南理工大学 一种基于深度卷积神经网络的图像质量测试方法
US9202144B2 (en) 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
CN104462778A (zh) * 2014-11-06 2015-03-25 华北电力大学 一种基于深度学习的pm2.5污染物测量方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200037015A (ko) * 2018-09-28 2020-04-08 한국과학기술원 컨텐츠 인지 신경망을 이용하여 실시간으로 적응형 비디오를 전송하는 방법 및 장치
KR102129115B1 (ko) 2018-09-28 2020-07-02 한국과학기술원 컨텐츠 인지 신경망을 이용하여 실시간으로 적응형 비디오를 전송하는 방법 및 장치
JP2021530770A (ja) * 2019-03-19 2021-11-11 深▲せん▼市商▲湯▼科技有限公司Shenzhen Sensetime Technology Co., Ltd. ビデオ処理方法、装置及びコンピュータ記憶媒体
JP7086235B2 (ja) 2019-03-19 2022-06-17 深▲セン▼市商▲湯▼科技有限公司 ビデオ処理方法、装置及びコンピュータ記憶媒体
JP2020187554A (ja) * 2019-05-15 2020-11-19 株式会社スター精機 機械作業情報の記録方法及び確認方法
JP2020204863A (ja) * 2019-06-17 2020-12-24 富士フイルム株式会社 学習装置、学習装置の作動方法、および学習装置の作動プログラム
JP7195220B2 (ja) 2019-06-17 2022-12-23 富士フイルム株式会社 学習装置、学習装置の作動方法、および学習装置の作動プログラム
JP2021034008A (ja) * 2019-08-13 2021-03-01 三星電子株式会社Samsung Electronics Co.,Ltd. プロセッサチップ及びその制御方法
JP7164561B2 (ja) 2019-08-13 2022-11-01 三星電子株式会社 プロセッサチップ及びその制御方法
US11681904B2 (en) 2019-08-13 2023-06-20 Samsung Electronics Co., Ltd. Processor chip and control methods thereof
US11842265B2 (en) 2019-08-13 2023-12-12 Samsung Electronics Co., Ltd. Processor chip and control methods thereof
KR102268676B1 (ko) * 2019-12-27 2021-06-23 중앙대학교 산학협력단 트리 구조 그래프 합성곱 신경망에 기반한 3차원 포인트 클라우드 생성 시스템 및 방법

Also Published As

Publication number Publication date
EP3289529B1 (en) 2024-04-24
US20160321784A1 (en) 2016-11-03
US9786036B2 (en) 2017-10-10
EP3289529A1 (en) 2018-03-07
CN107533754A (zh) 2018-01-02
CN107533754B (zh) 2021-06-25
JP6732795B2 (ja) 2020-07-29
WO2016176095A1 (en) 2016-11-03

Similar Documents

Publication Publication Date Title
JP6732795B2 (ja) 深層畳み込みネットワークにおいて画像解像度を低減すること
US10438068B2 (en) Adapting to appearance variations of a target object when tracking the target object in a video sequence
JP6862426B2 (ja) トレーニングされた機械学習モデルのパフォーマンスを改善するための方法
US10275719B2 (en) Hyper-parameter selection for deep convolutional networks
KR102582194B1 (ko) 선택적 역전파
JP2018514852A (ja) 逐次画像サンプリングおよび微調整された特徴の記憶
JP6776331B2 (ja) 未知クラスの検出および未知クラスのための分類器の初期化
KR20170140214A (ko) 신경망을 위한 훈련 기준으로서의 필터 특이성
JP6869948B2 (ja) ニューラルネットワークにおける転移学習
JP2018506785A (ja) モデル圧縮および微調整
JP7037478B2 (ja) 分類のための強制的なスパース性
KR20180036709A (ko) 미디어 분류
JP2018518740A (ja) バイアス項を介して深層ニューラルネットワーク中にトップダウン情報を組み込むこと
JP2018526723A (ja) 画像中のオブジェクト検出のためのコンテキストベースの事前分布
US10902312B2 (en) Tracking axes during model conversion

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190325

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200708

R150 Certificate of patent or registration of utility model

Ref document number: 6732795

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250