JP2021535689A - ディープ・ニューラル・ネットワークのための圧縮方法、チップ、電子デバイス、および媒体 - Google Patents

ディープ・ニューラル・ネットワークのための圧縮方法、チップ、電子デバイス、および媒体 Download PDF

Info

Publication number
JP2021535689A
JP2021535689A JP2021517260A JP2021517260A JP2021535689A JP 2021535689 A JP2021535689 A JP 2021535689A JP 2021517260 A JP2021517260 A JP 2021517260A JP 2021517260 A JP2021517260 A JP 2021517260A JP 2021535689 A JP2021535689 A JP 2021535689A
Authority
JP
Japan
Prior art keywords
feature map
neural network
layer
region
deep neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021517260A
Other languages
English (en)
Other versions
JP7164904B2 (ja
Inventor
チョウ,ジー
フェン,シンペン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NextVPU Shanghai Co Ltd
Original Assignee
NextVPU Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NextVPU Shanghai Co Ltd filed Critical NextVPU Shanghai Co Ltd
Publication of JP2021535689A publication Critical patent/JP2021535689A/ja
Application granted granted Critical
Publication of JP7164904B2 publication Critical patent/JP7164904B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

開示するのは、ディープ・ニューラル・ネットワークのための圧縮方法である。ディープ・ニューラル・ネットワークは、複数の層を含む。この方法は、入力層以外の複数の層の内少なくとも1つの層の各々に対して、その層のパラメータをパラメータ記憶空間から読み出すステップ(310)と、直前の層によって格納された第1特徴マップを、特徴マップ記憶空間から読み出すステップ(320)と、読み出したパラメータおよび第1特徴マップに基づいて、第2特徴マップを生成するステップ(330)と、第2特徴マップを圧縮して、第3特徴マップを得る(so as to)ステップ(340)と、第3特徴マップを特徴マップ記憶空間に格納するステップ(350)とを含む。更に、本発明は、この圧縮方法に基づくチップ、電子デバイス、および媒体にも関する。【選択図】 図3

Description

本開示は、ニューラル・ネットワークに関し、更に特定すれば、ディープ・ニューラル・ネットワークのための圧縮に関する。
従来技術
ディープ・ニューラル・ネットワーク(DNN)は、人工知能技術の中核である。現在、ディープ・ニューラル・ネットワークは幅広く研究され、関心を集めており、コンピュータ・ビジョン、音声認識、ロボット、自動運転等を含む、人工知能用途の多くの分野において応用されている。
ディープ・ニューラル・ネットワークは、入力層、ある数の隠れ層(中間層とも呼ばれる)、および出力層を含む、複数のニューラル・ネットワーク層で構成される。現在のディープ・ニューラル・ネットワークは、通常、数千層までもの非常に多い数の層を有し、各層が多数のノードを含む。したがって、ディープ・ニューラル・ネットワーク全体では、数百万、または数千万ものパラメータを含む場合もあり、非常に大きな記憶空間およびメモリ帯域幅を必要とする。これは、記憶のコストを増大させるだけでなく、ディープ・ニューラル・ネットワークの性能にも影響する。特に、ビデオ監視および自動運転というようなリアル・タイム用途では、ディープ・ニューラル・ネットワークの記憶の問題は、その性能およびハードウェア設計において隘路となりつつある。
本開示の態様によれば、ディープ・ニューラル・ネットワークのための圧縮方法を提供する。ディープ・ニューラル・ネットワークは、複数の層を含む。この方法は、入力層を除く複数の層における少なくとも1つの層に対して、パラメータ記憶空間から層のパラメータを読み出すステップと、特徴マップ記憶空間から、直前の層によって格納された第1特徴マップを読み出すステップと、読み出したパラメータおよび第1特徴マップに基づいて、第2特徴マップを生成するステップと、第2特徴マップを圧縮して、第3特徴マップを得るステップと、第3特徴マップを特徴マップ記憶空間に格納するステップとを含む。
本開示の他の態様によれば、チップを提供する。このチップは、メモリとディープ・ニューラル・ネットワーク・エンジンとを含む。メモリは、パラメータ記憶空間および特徴マップ記憶空間を含み、パラメータ記憶空間が、ディープ・ニューラル・ネットワークのパラメータを格納するように構成され、特徴マップ記憶空間が、ディープ・ニューラル・ネットワークの特徴マップを格納するように構成される。ディープ・ニューラル・ネットワーク・エンジンは、メモリと協働して、本開示による方法を実行するように構成される。
本開示の他の態様によれば、電子デバイスを提供する。この電子デバイスは、撮像センサと前述のチップとを含む。撮像センサは、画像および/またはビデオ・データをキャプチャするように構成される。チップは、ディープ・ニューラル・ネットワークを使用して、物体の認識のために、キャプチャされた画像および/またはビデオ・データを処理するように構成される。
本開示の他の態様によれば、電子デバイスを提供する。この電子デバイスは、プロセッサと、プログラムを格納するメモリとを含む。プログラムは、命令を含み、プロセッサによって命令が実行されると、本開示による方法を電子デバイスに実行させる。
本開示の他の態様によれば、プログラムを格納するコンピュータ読み取り可能記憶媒体を提供する。プログラムは、命令を含み、プロセッサによって命令が実行されると、本開示による方法をプロセッサに実行させる。
図面は、実施形態を一例として示し、明細書の一部を形成し、明細書の書面による説明と共に、実施形態の例示的な実施態様(implementation)を説明するために使用される。図示する実施形態は、例示を目的として示されるに過ぎず、特許請求の範囲を限定するのではない。図面全体を通じて、同じ参照番号は同じエレメントを指す。
図1は、本開示の例示的な実施形態によるディープ・ニューラル・ネットワークを示す模式図である。 図2は、本開示の例示的な実施形態による畳み込みニューラル・ネットワーク(CNN:convolutional neural network)を示す模式図である。 図3は、本開示の例示的な実施形態によるディープ・ニューラル・ネットワークのための例示的な圧縮方法を示すフローチャートである。 図4は、本開示の例示的な実施形態による特徴マップの圧縮を示す模式ブロック図である。 図5は、本開示の例示的な実施形態によるディープ・ニューラル・ネットワークの推論プロセスを示す模式図である。 図6は、本開示の例示的実施形態によるディープ・ニューラル・ネットワークの訓練プロセスを示す模式図である。 図7は、本開示の例示的実施形態によるチップを示す模式図である。 図8は、本開示の例示的実施形態による電子デバイスを示す模式図である。 図9は、本開示の例示的実施形態による他の電子デバイスを示す模式図である。
本開示において、別段記載がなければ、種々のエレメントについて説明する際に使用される「第1」(first)、「第2」(second)等の用語は、これらのエレメントの位置的関係、時間的関係、重要性の関係のいずれも、限定することを意図するのではなく、単にコンポーネント間で区別することを意図するに過ぎない。ある例では、第1エレメントおよび第2エレメントがエレメントの同じ実例(instance)を指す場合もあり、場合によっては、前後関係の記載に基づいて、第1エレメントおよび第2エレメントが異なる実例を指すこともある。
本開示において種々の例の説明に使用する用語は、単に特定の例を説明することを目的とするに過ぎず、限定することを意図しているのではない。エレメントの数が具体的に定められていない場合、コンテキストにおいて特に明示的に示されていないならば、1つ以上のエレメントがあってもよい。更に、本開示において使用する「および/または」という用語は、列挙される項目の内任意のもの、およびそれらの全ての可能な組み合わせも包含するものとする。
図1は、例示的なディープ・ニューラル・ネットワークを示す模式図である。ディープ・ニューラル・ネットワークは、入力層および出力層に加えて、少なくとも1つの隠れ層を含むニューラル・ネットワークである。一例として、図1に示すディープ・ニューラル・ネットワーク100は、入力層110、2つの隠れ層120および130、ならびに出力層140を含む。各層は、数個のノード(ニューロンとも呼ぶ)150を含む。一例として、図1の入力層110は3つのノードを有し、隠れ層120は4つのノードを有し、隠れ層130は3つのノードを有し、出力層140は2つのノードを有する。尚、図1はディープ・ニューラル・ネットワークの単純な例に過ぎず、実際のディープ・ニューラル・ネットワークの隠れ層の数、および各層におけるノードの数は、これらの数よりもはるかに多い可能性があることは注記してしかるべきである。
入力層110は、写真の画素、オーディオの振幅サンプル、システム・ステータスのディジタル表現等のような、入力データを受け取る。このデータは、隠れ層120に伝搬される。隠れ層120における各ノードは、受け取ったデータを計算し、計算結果を次の隠れ層130に伝搬する。同様に、隠れ層130における各ノードは、受け取ったデータを計算し、計算結果を出力層140に伝搬する。出力層140は、受け取ったデータを処理し、結果、例えば、特定の物体の認識結果を出力する。
層間のノードは、全結合または部分結合であってもよい。全結合の場合では、現在の層(例えば、出力層140)におけるいずれのノードも、直前にある層(例えば、隠れ層130)の全てのノードに接続される。部分的結合の場合では、現在の層(例えば、出力層140)における1つ以上のノードが、直前にある層(例えば、隠れ層130)における全てのノードではなく、一部のノードのみに接続されればよい。図1に示すニューラル・ネットワークでは、全ての層が全結合される。しかしながら、ディープ・ニューラル・ネットワークにおける少なくとも一部の層は、代わりに、部分結合されてもよいことは理解できよう。
通常、隠れ層120および130ならびに出力層140における各ノードは、入力データに対して線形または非線形演算を実行する。ノード150が隠れ層130内に位置し、ノード150が4つの入力x、x、x、およびxと出力yとを有すると仮定すると、
Figure 2021535689
ここで、wは、ノード150の入力xiの重み(i=1、2、3、4。あるニューラル・ネットワークでは、重みを接続とも呼ぶ。即ち、隠れ層120における各ノードから隠れ層130におけるノード150への接続が、対応する重みを表すために使用される)であり、bは、ノード150のバイアスであり、関数f()は、ノード150の活性化関数であり、通常、シグモイド関数、双曲線正接(tanh)関数、正規化線形単位(ReLU)関数、または漏洩ReLU関数のような、非線形関数である。尚、バイアスbも活性化関数f()も必要でなく、一部のノードが重みwのみを有するのでもよいことは、理解できよう。
ニューラル・ネットワークでは、各ノードの計算に使用される重みwおよびバイアスbは、通常、訓練プロセスにおける連続学習によって得られ、通常、ニューラル・ネットワークのパラメータと呼ばれる。
ディープ・ニューラル・ネットワークの層およびノードの数は通常非常に多いので、訓練および推論に必要とされるパラメータの数は膨大となる。例えば、入力データが100×100画素のサイズを有するカラー画像であるとすると、各画素は3つの値R、G、およびBを有するので、入力層は3×10個のノードを有し、各ノードは1つの画素のカラー値を表す。ニューラル・ネットワークの第1隠れ層が1000個のノードを有し、入力層に全結合されると仮定すると、第1隠れ層の計算に必要とされるパラメータ(重みwおよびバイアスb)の数は、3×10+1000となる。層の数が増えるに連れて、パラメータの数もそれに応じて増える。ニューラル・ネットワークの推論プロセスまたは訓練プロセスでは、各層が対応するパラメータをメモリ(DRAM、SRAM、DDR RAM、または他のランダム・アクセス・ソリッド・ステート・メモリのような、種々のランダム・アクセス・メモリまたは揮発性メモリとすればよい、グラフィクス・プロセッサのメモリ等)から読み出す必要、および/または対応するパラメータをメモリに格納する必要があるので、これはメモリの記憶容量およびメモリ帯域幅に大きな負担(pressure)をかけることになる。
一般的なディープ・ニューラル・ネットワークは、畳み込みニューラル・ネットワーク(convolutional neural network)であり、その隠れ層は少なくとも1つの畳み込み層を含む。従来のディープ・ニューラル・ネットワークと比較すると、畳み込みニューラル・ネットワークは、画像および音声認識ならびに他の態様において出力する結果に優れ、ネットワークによって必要とされるパラメータの数を減らすことができる。畳み込みニューラル・ネットワークの最も一般的な用途は画像認識である。以下の論述では、一例として、入力データを画像とする。しかしながら、畳み込みニューラル・ネットワークの用途は画像認識に限定されるのではないことは、当業者には当然理解されよう。
典型的な畳み込みニューラル・ネットワークでは、入力画像が一連の畳み込み層、随意のプーリング層(pooling layer)、および全結合層を通過した後、対応する認識結果を出力することができる。図2は、例示的な畳み込みニューラル・ネットワークを示す模式図である。尚、畳み込みニューラル・ネットワークは多くの形態を有し、図2は単純な例示的な表現に過ぎず、本開示の解決手段はこれに限定されるのではないことは注記してしかるべきである。
図2に示すように、畳み込みニューラル・ネットワーク200は入力層210を含むことができる。入力層210は、画像のような入力データを受け取るために使用することができる。随意に、入力層210は、以後の処理をし易くするために、データに対して前処理(例えば、ディミーニング(de-meaning)、正規化、脱相関、ホワイトニング等)を実行する場合もある。一例として、図2における入力画像は、28×28画素の中間階調画像である。即ち、入力画像のサイズは28×28×1である。各画素は、図1の入力層110における1つのノードに相当する(equivalent)としてよい。カラー画像が入力される場合、カラー画像は3つのカラー・チャネルR、G、およびBを有するので、カラー画像のサイズは28×28×3となる。
図2に示す畳み込みニューラル・ネットワーク200は、更に、2つの畳み込み層220および230も含む。畳み込み層220および230の各々は、入力画像に対して特徴抽出を実行するために、1つ以上の畳み込みカーネル(フィルタとも呼ぶ)を使用することができる。具体的には、各畳み込みカーネルは重み行列であり、画像の特徴を抽出するために、畳み込み層に画像データ入力が畳み込まれる。異なる畳み込みカーネルが、垂直縁、水平縁、曲線、カラー、またはその他の低レベルの特徴、あるいは目、鼻、帽子、またはその他の高レベルの特徴というような、異なる画像の特徴を抽出することができる。これは、通常、畳み込み層における畳み込みカーネルの位置に依存する。このような畳み込み演算の出力を、特徴マップと呼ぶこともできる。入力層210については、その特徴マップは入力画像である。尚、本明細書において言及する「特徴マップ」は、画像に基づいて抽出されるデータにも、畳み込みニューラル・ネットワークにおける畳み込み層の入力および出力データにも限定されないことは注記してしかるべきである。種々のディープ・ニューラル・ネットワークにおける層の全ての入力および出力データを特徴マップと見なすことができる。
畳み込み層220は、32個の畳み込みカーネルを有し、各畳み込みカーネルのサイズは5×5×1である。これは、入力データが中間階調画像(深度が1の)である場合である。入力層210の画像がカラー画像である場合、畳み込み層220の各畳み込みカーネルの深度は3となる。即ち、畳み込みカーネルのサイズは5×5×3となる。前述のように、畳み込みカーネルは重み行列であり、畳み込みカーネルに対応する出力特徴マップを得るために、入力画像を畳み込むことができる。更に具体的には、畳み込み層220では、5×5畳み込みカーネルと入力画像における5×5画素ブロックとのドット積を実行して、特徴値を得ることができる。このようなドット積が意味するのは、畳み込みカーネルにおける各重みに、対応する位置における画素を乗算し、次いで総和を実行するということである。加えて、バイアス(あるのであれば)を追加する場合もある。入力画像における5×5画素ブロックの位置は、例えば、左から右に、次いで上から下に、順次交換され(刻みを1と仮定する)、各位置における5×5画素ブロックと1と同じ畳み込みカーネルとのドット積を実行し、24×24特徴値で構成される特徴マップ、即ち、畳み込みカーネルの出力特徴マップを得ることができる。カラー画像の場合、入力画像の深度および畳み込みカーネルの深度は、両方共3である。畳み込みカーネルの各層に入力画像の対応する層が畳み込まれた後、その3つの畳み込み結果に対して算術和(arithmetic summation)を実行することによって、畳み込みカーネルの出力特徴マップを得ることができる。畳み込みカーネル毎に、サイズが24×24の特徴マップを生成することができる。畳み込み層220は32個の畳み込みカーネルを有するので、サイズが24×24の特徴マップが合計32通り生成され、またはサイズが24×24×32の1つの特徴マップが生成される。
同様に、畳み込み層230は64個の畳み込みカーネルを有し、各畳み込みカーネルのサイズは3×3×32である。各畳み込みカーネルには、畳み込み層220によって出力された1つの特徴マップが畳み込まれ、22×22の特徴マップを生成する。したがって、畳み込み層230は、サイズが22×22の特徴マップを合計64通り生成するか、またはサイズが22×22×64の1つの特徴マップを生成する。
また、畳み込みニューラル・ネットワーク200は、出力層として、全結合層240を含んでもよい。これは図1における出力層140と同様でよいので、ここでは繰り返さない。図2では1つの全結合層のみを示すが、複数の全結合層があってもよく、各全結合層が異なる数のノードを有してもよいことは、当業者には当然理解されよう。
尚、図2は畳み込みニューラル・ネットワークの単純な例示に過ぎないことは理解されてしかるべきである。実際の畳み込みニューラル・ネットワークでは、畳み込み層の数は通常それよりも多い。畳み込みカーネルを使用することによって実行される演算は、ドット積に限定されるのではなく、ディジタル信号処理において一般に使用される種々のフィルタリング処理、例えば、ガウス・フィルタ、ラプラス・フィルタ等を使用することによって実行されるもののように、もっと複雑にすることができる。また、各畳み込み層は活性化関数も含むことができる。この活性化関数は、図1を参照して先に説明した活性化関数f()と同様でよい。特徴マップ毎に、特徴マップの周辺においてゼロ・パディング処理を実行し、入力特徴マップと一致する(consistent with) 二次元サイズの出力特徴マップを作ることもできる。加えて、畳み込み層の間に、随意のプーリング層(図示せず)があってもよく、プーリング層は、画像局所相関の原理を使用して、畳み込み層によって出力された特徴マップをダウンサンプリングして、以降の層の計算量を低減する。
畳み込みニューラル・ネットワークのパラメータは、主に、畳み込み層および全結合層における重みであり、更にバイアスも可能である。一般的なディープ・ニューラル・ネットワークにおけるパラメータと同様、これらのパラメータは、訓練済み畳み込みニューラル・ネットワークが得られるまで、訓練と通じて連続的に最適化される。畳み込みニューラル・ネットワークの畳み込み層における異なる画素ブロックが、同じ畳み込みカーネルを共有することができ、従来のディープ・ニューラル・ネットワークと比較すると、畳み込みカーネルのサイズは特徴マップのサイズよりもはるかに小さいので(通常、パラメータ共有および局所知覚と呼ぶ)、畳み込みユーラル・ネットワークはニューラル・ネットワークのパラメータ数を効果的に削減することができる。しかしながら、畳み込みニューラル・ネットワークの層および各層における畳み込みカーネルの数が非常に多いので、畳み込みニューラル・ネットワークのパラメータは、大きな記憶容量およびメモリ帯域幅を占めることに変わりはない。
現在、ディープ・ニューラル・ネットワークの記憶の問題を解決するまたは軽減することを意図した研究がいくつか行われている。
1つの発想は、高帯域幅メモリ(HBM)のような、帯域幅がもっと大きいメモリを使用することである。しかし、このやり方はコストが高く、ハードウェアの設計も非常に難しい。
他の発想は、ディープ・ニューラル・ネットワークを圧縮することである。1つの圧縮方法は、ニューラル・ネットワークの規模(scale)を変更することである。例えば、ニューラル・ネットワークの層の数または畳み込みカーネルの数を減らす、あるいははニューラル・ネットワークにおける重要でない接続を除去することによって、ニューラル・ネットワークを間引きする(trim)ことができる。または、行列またはテンソル分解の発想を使用して、元のネットワーク・パラメータ行列またはパラメータ・テンソルを、少数のパラメータで構築し直して、ネットワークの記憶オーバーヘッドを低減する。他の圧縮方法は、ニューラル・ネットワークのパラメータ自体を圧縮することである。例えば、64ビット浮動小数点数の代わりに8ビットまたは16ビット整数を使用するというように、低ビット量子化をネットワーク・パラメータに対して実行し、記憶および計算オーバーヘッドを低減することができる。あるいは、例えば、圧縮用ハフマン・コーディングを使用して、損失のない圧縮をパラメータに対して実行してもよい。しかしながら、損失のない圧縮の圧縮率は低く、通常2:1を超えないので、その効果はさほど安定しない。
現在のディープ・ニューラル・ネットワークのための圧縮方法の殆どは、ニューラル・ネットワークのパラメータの圧縮を中心に据えることは、学習することができる。しかしながら、本発明者は、ニューラル・ネットワークのパラメータに加えて、特徴マップのアクセスも大きな記憶容量およびメモリ帯域幅を占めることに気が付いた。具体的には、ディープ・ニューラル・ネットワークの推論および訓練プロセスにおいて、各層によって生成された特徴マップを、次の層の読み出しおよび使用のために、メモリ(DRAM、SRAM、DDR RAM、または他のランダム・アクセス・ソリッド・ステート・メモリのような、種々のランダム・アクセス・メモリまたは揮発性メモリ等)に格納する必要がある。入力データが大量である場合(例えば、入力画像の解像度が高い)、特徴マップのアクセスも大量の記憶空間およびメモリ帯域幅を消費し、パラメータのアクセスよりも多いメモリ・リソースさえも消費する。これは、ニューラル・ネットワークの応用に対して、特にニューラル・ネットワークのリアル・タイム用途に対して、大きな課題となる。
この目的のため、本開示は、ディープ・ニューラル・ネットワークのために新たな圧縮方法を提案する。この圧縮方法は、既存のニューラル・ネットワーク圧縮技術よりも、ニューラル・ネットワークの大量データのリアル・タイム供給(application)に適している。
図3は、本開示の例示的実施形態によるディープ・ニューラル・ネットワークのための例示的な圧縮方法300を示すフローチャートである。方法300は、入力層を除いて、ディープ・ニューラル・ネットワークのいずれの層にでも実行することができる。説明の都合上、説明のための例として、i番目の層を取り上げる。
ブロック310において、i番目の層は、計算のためにこの層が必要とするパラメータを、パラメータ記憶空間から読み出す。これらのパラメータは、図1に関して説明した各ノードが使用する重みwおよびバイアスbのような、ディープ・ニューラル・ネットワークにおける任意のパラメータ、または図2に関して説明した各畳み込みカーネルの重みおよびバイアスでもよい。
実施形態によれば、ブロック310においてパラメータ記憶空間から読み出されるパラメータは、圧縮されたパラメータであってもよい。パラメータ圧縮技法(manner)は、例えば、損失のない圧縮(例えば、ハフマン・コーディング)または損失のある圧縮であってもよい。
ブロック320において、i番目の層は、(i−1)番目の層によって格納された第1特徴マップを特徴マップ記憶空間から読み出す。第1特徴マップは、ニューラル・ネットワークの任意の層によって出力されたデータとすることができる。例えば、第1特徴マップは、図1における入力層110、隠れ層120、または隠れ層130によって出力されたデータ、図2における入力層210、畳み込み層220、および畳み込み層230によって出力されたデータ、またはプーリング層、全結合層等によって出力されたデータであってもよい。
実施形態によれば、第1特徴マップは、圧縮された特徴マップであってもよい。具体的には、i番目の層によって読み出された第1特徴マップが圧縮された特徴マップとなるように、(i−1)番目の層によって生成された特徴マップを圧縮し、特徴マップ記憶空間に格納することができる。他の実施形態によれば、第1特徴マップは、代わりに、圧縮されていない特徴マップであってもよい。例えば、(i−1)番目の層によって生成された特徴マップは圧縮されず、直接特徴マップ記憶空間に格納される。
ブロック330において、i番目の層は、読み出したパラメータおよび第1特徴マップに基づいて、第2特徴マップを生成する。実施形態によれば、読み出したパラメータが圧縮されたパラメータである場合、これらのパラメータを解凍し、次いでi番目の層における計算において使用することができる。他の実施形態によれば、読み出した第1特徴マップが圧縮された特徴マップである場合、第1特徴マップを解凍し、次いでi番目の層における計算において使用することができる。(i−1)番目の層の特徴マップおよび対応するパラメータに基づいてi番目の層によって第2特徴マップを生成する例について、図1に関して行った説明を参照することができる。この場合、各ノード150は、式1を使用してノードの出力を生成することができ、各層において全てのノードの出力を合計した後、このレイヤによって生成される特徴マップを得ることができる。(i−1)番目の層の特徴マップおよび対応するパラメータに基づいてi番目の層によって第2特徴マップを生成する例について、図2に関して行った説明を参照することができる。この場合、各層の畳み込みカーネルに、直前の層の特徴マップを畳み込み、畳み込みカーネルに対応する特徴マップを生成することができる。層が複数の畳み込みカーネルを有する場合、複数の特徴マップを生成することができ、または複数の特徴マップを組み合わせて1つの高次元(high dimension)特徴マップにすることができる。尚、これらは特徴マップを生成する例に過ぎず、ブロック330における第2特徴マップ生成の実施態様はこれらに限定されるのではないことは理解できよう。
ブロック340において、i番目の層は、ブロック330において生成した第2特徴マップを圧縮して、第3特徴マップを得る。第2特徴マップの圧縮は、損失のない圧縮でもよいが、更に好ましくは、損失のある圧縮でもよい。これについては、以下で更に詳しく説明する。
実施形態によれば、第2特徴マップを圧縮する前記ステップは、第2特徴マップの異なる領域を異なる圧縮率で圧縮するステップを含み、これらの領域の各々の圧縮率は、その領域おける関心度に依存する。一例では、関心度が高い領域の圧縮率(例えば、第1の関心度)は、関心度が低い領域(例えば、第1の関心度よりも低い第2の関心度)の圧縮率よりも低い。例えば、ニューラル・ネットワークによって処理されるオブジェクトが画像またはビデオであるとき、画像において関心のある領域(即ち、ポートレートのような関心度が高い領域)について、その領域の圧縮および解凍の後に得られる画像が、元の画像との高い類似性を有することが通常望まれ、この理由のために、情報の損失を減らすために、低い圧縮率を使用することができる。また、画像において関心がない領域(即ち、空のような、関心度が低い領域)について、この領域の圧縮および解凍後に得られる画像と元の画像との間における類似性に対する要件を下げることができ、この理由のために、高い圧縮率を使用することができる。類似性測定パラメータは、例えば、ユークリッド距離、ピーク信号対ノイズ比(PSNR:peak signal-to-noise ratio)、構造的類似性評価(SSIM:structural similarity evaluation)等でもよい。
ブロック350において、i番目の層は、ブロック340において得られた第3特徴マップを特徴マップ記憶空間に格納する。パラメータ記憶空間および特徴マップ記憶空間は、別々のメモリに配置してもよく、または同じメモリを共有してもよい。一例として、パラメータ記憶空間および特徴マップ記憶空間に使用されるメモリは、DRAM、SRAM、DDR RAM、またはその他のランダム・アクセス・ソリッド・ステート・メモリのような、高速ランダム・アクセス・メモリとするとよい。
方法300は、ディープ・ニューラル・ネットワークの推論プロセスおよびディープ・ニューラル・ネットワークの訓練プロセスの双方に適用することができる。これについて、図5および図6と関連付けて後に詳しく説明する。
方法300を使用することによって、ディープ・ニューラル・ネットワークの少なくとも1つの層によって生成された特徴マップを圧縮し、次いで格納することにより、特徴マップおよびこれらによって占められるメモリ帯域幅に必要とされる記憶空間を大幅に削減することができる。これは、特に、ニューラル・ネットワークのリアル・タイム用途にとって有用である。例えば、ビデオ監視のアプリケーション・シナリオ(application scenario)では、ビデオ画像における物体をリアル・タイムで認識するためにニューラル・ネットワークが使用される場合、大量のビデオ・フレームをリアル・タイムで処理する必要がある。ビデオ・データが高い解像度(例えば、300×300画素よりも高い解像度、またはそれよりも更に高い解像度)を有する場合、これはメモリ帯域幅に対する大きな課題となる。特徴マップを格納する前にこれを圧縮することによって、特徴マップを格納するときおよびメモリから読み出すときに占められるメモリ帯域幅を大幅に削減することができる。これはニューラル・ネットワークのリアル・タイム用途を実現するのに役に立つ。加えて、読み出された圧縮特徴マップは、計算(例えば、畳み込み)のために解凍されるので、方法300はニューラル・ネットワークの推論の精度には殆ど影響を及ぼさない。また、方法300は、ニューラル・ネットワークのパラメータの圧縮および対応するハードウェア設計と組み合わせて、ニューラル・ネットワークの動作を更に加速化し、メモリの電力消費を低減することができる。
方法300は、あらゆるディープ・ニューラル・ネットワークに適用することができる。畳み込みニューラル・ネットワークでは、方法300は少なくとも1つの畳み込み層に対して実行することができる。随意に、方法300は、プーリング層および全結合層に対しても、代わりに実行することができる。畳み込みニューラル・ネットワークでは、方法300は、全ての畳み込み層に対して実行することもでき、または選択的に一部の畳み込み層に対して方法300を実行することもできる。通常、入力側に近い畳み込み層によって生成される特徴マップは、出力側に近い畳み込み層によって生成される特徴マップよりも大きく、より多くの記憶空間およびメモリ帯域幅を占める。したがって、好ましくは、入力側に近い1つ以上の畳み込み層に方法300を適用することができる。
尚、論理的に必要でなければ、方法300におけるステップの順序は、図示または説明した順序には限定されず、必要に応じて調節することまたは並列に実行することもでき、異なるステップにおける動作を並列にまたは交互に実行できることは注記してしかるべきである。本開示は、これに関して全く限定を強要しない。例えば、ブロック310およびブロック320を逆の順序でまたは並列に実行してもよく、本開示の実施態様には影響を及ぼさない。
以下では、一例として、ビデオ・データをニューラル・ネットワークへの入力として取り上げ、特徴マップの圧縮について更に詳しく説明する。特徴マップの圧縮は、(i−1)番目の層、i番目の層のような、ニューラル・ネットワークの任意の層、または図3に関して説明した全ての層に適用することができる。
図4は、本開示の例示的実施形態による特徴マップの圧縮を示す模式ブロック図である。図4に示すように、ニューラル・ネットワークにおける層によって生成された特徴マップに、予測(ブロック410)、変換(ブロック420)、量子化(ブロック430)、およびエントロピ・コーディング(ブロック440)というような処理(operation)を実行し、特徴マップにおける空間的冗長性、時間的冗長性、およびコーディング冗長性を除去することができる。図4におけるこれらの処理について、以下で1つずつ説明する。しかしながら、本開示には図4に示す処理の全てが必要という訳ではなく、必要に応じて特徴マップを圧縮するために、ブロック410から440までの内1つ以上を使用できることは理解できよう。例えば、特徴マップに対して損失のない圧縮を実行する場合、この特徴マップに量子化430を実行しなくてもよく、エントロピ・コーディング440だけをこの特徴マップに実行すればよい。他の例をあげると、特徴マップの圧縮は、変換420、量子化430、およびエントロピ・コーディング440のみを含めばよく、予測410は実行しなくてもよい。
ブロック410において、入力された特徴マップに対して予測コーディングを実行する。予測コーディングは、内部予測(intra prediction)および相互予測(inter prediction)の内一方または双方を含むことができる。フレーム内コーディングは、空間的冗長を排除するために使用することができ、フレーム間コーディングは、時間的冗長を排除するために使用することができる。特徴マップを複数のブロックに分割することができ、ブロック毎にコーディングを実行する。一例として、MPEG、H.264、およびH.265のようなビデオ規格に採用されている種々の予測コーディング技法を、ブロック410における特徴マップの予測コーディングに使用することができる。
ブロック420において、特徴マップを空間ドメインから周波数ドメインに変換し、信号間における相関を効果的に除去し、エネルギの殆どを低周波数領域に集中させる。この変換の結果に基づいて、高周波数領域における信号を、後続の量子化ステップにおいて破棄することができ、あるいは低周波数領域に小さい量子化刻み、そして高周波数領域には大きな量子化刻みを使用して、高い画質を維持しつつ、高い圧縮率を達成することができる。一例として、離散フーリエ変換(DCT)、離散正弦波変換(DST)、K−L変換、ウェーブレット変換等のような種々の変換技術を使用して、特徴マップを変換することができる。
ブロック430において、ブロック420において得られた変換係数を量子化する。量子化において、多数の変換係数を近似的にあらわすために、少数の量子化値を使用することができる。元の変換係数と再現された変換係数との間には差、即ち、歪みがあるので、量子化を使用する特徴マップの圧縮は、損失のある圧縮となる。損失のない圧縮と比較すると、損失のある圧縮の方がアルゴリズムの選択肢が多く、多くの調節可能な圧縮パラメータを有し、圧縮率を制御することによって、異なる要件に適応することができる。本開示の実施形態によれば、損失のある圧縮の使用により、ニューラル・ネットワークの推論精度に対する影響が殆どなく、圧縮率向上を達成することができる。例えば、実施形態によれば、損失のある圧縮の圧縮率が10:1よりも高いとき、ニューラル・ネットワークの推論精度は5%未満しか低下しない。加えて、訓練プロセスにおいて、層の特徴マップに対して損失のある圧縮を実行することは、層のパラメータおよび特徴マップに外乱を追加することと同等であると見なすことができ、訓練が極小値に陥るのを防止することができ、したがってニューラル・ネットワークの推論能力を高めることができる。
ブロック440において、ブロック430の量子化結果に対してエントロピ・コーディングを実行し、予測および変換後になおも存在する統計的冗長情報を除去する。一例として、エントロピ・コーディングは、可変長コーディング(VLC)(例えば、ハフマン・コーディング、指数Golombコード(EGC)等)または算術コーディングを使用することができる。
以上、特徴マップの圧縮プロセスについて、図4と関連付けて端的に説明した。尚、これらの説明は、本開示に対する限定ではなく、単に例示的な説明に過ぎないことは、当業者には理解できよう。具体的な実施態様では、特徴マップは、MPEG、H.264、H.265、および他のビデオ規格に基づく圧縮方法、あるいは開発中または今後開発される種々のビデオ圧縮方法というような、種々の知られているビデオ圧縮方法を使用することによって圧縮することができる。これは、本開示において限定されない。
本開示の実施形態によれば、特徴マップの圧縮(例えば、図3のブロック340に示す第2特徴マップの圧縮)は、特徴マップの非均一な量子化を含んでもよい。実施形態によれば、特徴マップの異なる領域に異なる量子化刻み(step)を使用してもよい。各領域の量子化刻みを決定するためには、多くの要因を検討してもよい。
実施形態によれば、領域の量子化刻みは、領域の画像の複雑度にしたがって決定されてもよい。例えば、より多くの詳細を保持するために、画像の複雑度が高い領域には小さい量子化刻みを割り当て、画像の複雑度が低い領域には、大きな量子化刻みを割り当てる。一例では、画像の複雑度は、予め設定された閾値によって測定することができる。高い画像の複雑度とは、画像の複雑度がこの予め設定された閾値よりも高いことを意味するのでもよく、低い画像の複雑度は、画像の複雑度がこの予め設定された閾値以下であることを意味するのでもよい。
他の実施形態によれば、領域の量子化刻みは、特徴マップにおける領域の位置にしたがって決定されてもよい。たとえば、ビデオ監視の用途では、各ビデオ・カメラによって特別に監視される領域は、画像において比較的固定した位置を有するとして差し支えなく、この位置に対応する特徴マップ領域には、小さな量子化刻みを割り当てるとよい。
他の実施形態によれば、領域の量子化刻みは、領域の重要度にしたがって決定されてもよい。例えば、ビデオ画像では、画像における領域の重要度は前もって決定することができ、量子化の間に重要度の順序にしたがって、異なる量子化刻みを割り当てることができる。
他の実施形態によれば、領域の量子化刻みは、領域における特異的特徴の存在または不在にしたがって決定されてもよい。特異的特徴は、ニューラル・ネットワークのアプリケーション・シナリオに依存するのでもよい。実施形態によれば、特異的特徴は、アプリケーション・シナリオにおいて関心がある特徴としてもよい。例えば、セキュリティ監視では、特異的特徴は人または個人識別情報(identity)に関する特徴でもよい。交通監視では、特異的特徴は、車両の型番、ナンバー・プレート、信号等に関する特徴でもよい。サッカー試合の生放送では、特異的特徴は、選手、ボール、レフリー、ゴール等に関する特徴でもよい。一例では、特異的特徴が領域内に存在する場合、より多くの詳細を保持するために、小さい量子化刻み(例えば、第1量子化刻み)をその領域に割り当てるとよく、特異的特徴がその領域に存在しない場合、大きな量子化刻み(例えば、第1量子化刻みよりも大きい第2量子化刻み)をその領域に割り当てるとよい。
他の実施形態によれば、領域の量子化刻みは、領域における特異的特徴の数にしたがって決定されてもよい。一例では、領域における特異的特徴の数が多い場合(例えば、所定の閾値よりも多い)、より多くの詳細を保持するために、その領域には小さい量子化刻み(例えば、第3量子化刻み)を割り当てるとよく、領域における特異的特徴の数が少ない場合(例えば、所定の閾値以下)、大きな量子化刻み(例えば、第3量子化刻みよりも大きい第4量子化刻み)をその領域に割り当てるとよい。直前の実施形態と同様、特異的特徴は、アプリケーション・シナリオに依存するのでもよく、ここでは繰り返さない。
尚、以上で述べたこれらの要因は、個々にまたは組み合わせて検討できることは理解できよう。これは、本開示において限定されない。領域の特性に基づいて、異なる量子化刻みを特徴マップにおける領域に割り当てる。これは、高い圧縮率を達成できるだけでなく、用途にとって重要な特徴マップの詳細をできるだけ多く保持することもでき、これによってニューラル・ネットワークの推論精度を維持する。
以下に、図5および図6と関連付けて、本開示の例示的な実施形態によるニューラル・ネットワークの推論プロセスおよび訓練プロセスについて説明する。
図5は、本開示の例示的実施形態によるディープ・ニューラル・ネットワークの推論プロセスの模式図である。ニューラル・ネットワークの推論プロセスは、処理されるデータを、訓練済みのニューラル・ネットワークに入力して、推論結果を得るプロセスである。図5に示すように、ディープ・ニューラル・ネットワークは、入力層532、出力層538、および複数の隠れ層を含む。簡単にするために、図5は2つの隣接する層、即ち、i番目の層および(i+1)番目の層のみを示す。これらを、それぞれ、参照番号534および536によって示す。また、図5は、パラメータ記憶空間510、および特徴マップ記憶空間520も示す。推論プロセスにおいて、ニューラル・ネットワークにおける各層は、出力層538が最終的な推論結果を出力するまで、順次入来するデータを処理する。層534および536における処理については、以下で一例をあげて説明する。
図5に示すように、i番目の層534は、計算のために層534が必要とするパラメータ512を、パラメータ記憶空間510から読み出す。随意に、パラメータ512が圧縮されている場合、ブロック542においてパラメータ512を解凍する。また、層534は、(i−1)番目の層に格納されている特徴マップ522を、特徴マップ記憶空間520から読み出す。随意に、特徴マップ522が圧縮されている場合、ブロック552において特徴マップ522を解凍する。パラメータ512および特徴マップ522の解凍バージョンに基づいて、層534の特徴マップを生成する。特徴マップを圧縮した後(ブロック554において)、特徴マップ記憶空間520に、層534によって格納された特徴マップ524として、特徴マップを格納する。
次に、(i+1)番目の層536は、i番目の層534の動作と同様の動作を実行する。パラメータ514および特徴マップ524を、それぞれ、パラメータ記憶空間510および特徴マップ記憶空間520から読み出し、解凍する(ブロック544および556に示す通り)。次いで、パラメータ514および特徴マップ524の解凍バージョンに基づいて、層536の特徴マップを生成する。特徴マップを圧縮した後(ブロック558において)、特徴マップ記憶空間520に、次の層による使用のために層536によって格納された特徴マップ526として、特徴マップを格納する。
類推によって、ニューラル・ネットワークにおける後続の層は、出力層538が最終的な推論結果を出力するまで、以上の動作を順次実行する。尚、図5は、先に説明したように、各層のパラメータおよび特徴マップの圧縮ならびに解凍について説明するが、このような圧縮および解凍処理(operation)は、ニューラル・ネットワークにおける層の内一部のみにも実行でき、更に、代わりに、圧縮および解凍処理(operation)は、パラメータの代わりに、特徴マップのみにも実行できることは、理解されてしかるべきである。
図6は、本開示の例示的実施形態によるディープ・ニューラル・ネットワークの訓練プロセスの模式図である。ニューラル・ネットワークの訓練プロセスは、既知のサンプル集合に基づいて、ニューラル・ネットワークのパラメータを訓練するプロセスである。ニューラル・ネットワークの訓練プロセスは、最終的な出力結果と目標値との間の誤差が所定の閾値未満になるまで連続的に繰り返される。各繰り返しは、通常、2つのフェーズ、即ち、順方向伝搬フェーズ(forward propagation phase)および逆方向伝搬フェーズ(back propagation phase)に分割される。順方向伝搬フェーズは、推論プロセスと同様である。サンプル毎に、各層は順次計算を実行し、最終的な出力値を得る。次に、逆方向伝搬フェーズでは、出力値と目標値との間の誤差を最初に計算する。誤差が所定の閾値よりも大きい場合、逆方向伝搬のために、この誤差を出力層からニューラル・ネットワークに送信し、層の誤差を順次計算し、計算した誤差にしたがって、層のパラメータを更新する。更新したパラメータに基づいて、次の繰り返しの順方向伝搬フェーズを開始する。
図6では、明確にするために、破線610を使用して、順方向伝搬フェーズおよび逆方向伝搬フェーズを分離する。図6の上側部分に示すように、訓練プロセスの順方向伝搬フェーズは、図5におけるそれと同一であり、ここでは詳細について繰り返さない。図6の下側部分は、訓練プロセスの逆方向伝搬フェーズを示す。逆方向伝搬フェーズにおいて、順方向伝搬フェーズにおける最終的な出力結果と目標値との間の誤差を、出力層538から入力層532に順次送信する。(i+1)番目の層536は、(i+2)番目の層から受け取った層536の誤差に基づいて、更新パラメータ514を計算し、これをパラメータ記憶空間510に格納する。随意に、更新パラメータを圧縮し(ブロック648において)、次いでパラメータ記憶空間510に格納してもよい。また、層536は、i番目の層534の誤差を計算し、これを層534に逆伝搬する。同様に、層534は、受け取った誤差に基づいて、更新パラメータ512を計算し、これをパラメータ記憶空間510に格納する。随意に、更新パラメータを圧縮し(ブロック646において)、次いでパラメータ記憶空間510に格納してもよい。図6の左側における大きな矢印によって示すように、逆方向伝搬フェーズが入力層532において終了したとき、全ての層の更新パラメータに基づいて、訓練プロセスは、次の繰り返しの順方向伝搬フェーズを開始する。
尚、図5および図6は、ニューラル・ネットワークの例示的な推論プロセスおよび訓練プロセスを示すに過ぎないことは、注記してしかるべきである。ニューラル・ネットワークの異なる構造に基づいて、他の対応する推論プロセスおよび訓練プロセスも使用できることは、当業者には理解できよう。
図7は、本開示の例示的実施形態によるチップ700を示す模式図である。チップ700は、メモリ710と、ディープ・ニューラル・ネットワーク・エンジン720とを含むことができる。
メモリ710は、パラメータ記憶空間および特徴マップ記憶空間を含むことができる。パラメータ記憶空間は、ディープ・ニューラル・ネットワークのパラメータを格納するために使用され、特徴マップ記憶空間は、ディープ・ニューラル・ネットワークの特徴マップを格納するために使用される。実施形態によれば、メモリ710は、DRAM、SRAM、DDR RAM、または他のランダム・アクセス・ソリッド・ステート・メモリのような、種々のランダム・アクセス・メモリまたは揮発性メモリであってもよい。
ディープ・ニューラル・ネットワーク・エンジン720は、ディープ・ニューラル・ネットワークを、画像データのような入力データに適用し、画像検出、認識、およびパーティショニング(partitioning)というような処理を実施することができる。ディープ・ニューラル・ネットワーク・エンジン720は、メモリ710と協働して、先に説明した本開示の種々の実施形態における方法を実行することができる。実施形態によれば、ディープ・ニューラル・ネットワーク・エンジン720は、ハードウェアによって実装することができ、例えば、特定用途集積回路(ASIC)によって実装されてもよい。
尚、特定の要件にしたがって、ディープ・ニューラル・ネットワーク・エンジン720の実施態様には、種々の変形を行ってもよいことは理解されてしかるべきである。例えば、種々の変形は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはこれらの任意の組み合わせで実装することができる。例えば、ディープ・ニューラル・ネットワーク・エンジン720は、ASICの代わりに、本開示によるロジックおよびアルゴリズムを使用することによって、アセンブリ言語またはハードウェア・プログラミング言語(VERILOG、VHDL、およびC++のような)でハードウェア(例えば、フィールド・プログラマブル・ゲート・アレイ(FPGA)および/またはプログラマブル・ロジック・アレイ(PLA)を含むプログラマブル・ロジック回路)をプログラミングすることによって、実装してもよい。
実施形態によれば、チップ700は、人工知能(AI)ビジョン・チップでもよい。加えて、図7には示されていないが、チップ700は、画像信号(撮像センサによって出力される信号のような)を処理するように構成された画像信号処理(ISP)ユニット、オーディオおよびビデオ信号をエンコードならびにデコードするように構成されたマルチメディア信号コデック等のような、更に他のコンポーネントも含んでもよい。
図8は、本開示の例示的実施形態による電子デバイス800を示す模式図である。電子デバイス800は、図7に示すチップ700と、撮像センサ830とを含むことができる。撮像センサ830は、画像および/またはビデオ・データをキャプチャするように構成することができる。実施形態によれば、電子デバイス800は、ビデオ・カメラ、またはAIビジョン・チップと統合されたカメラでもよい。このような電子デバイス800は、種々のシナリオにおいて使用することができ、例えば、セキュリティ監視における人間の顔または他の特定的な物体の自動検出および認識、自動運転における歩行者、自動車、信号機等のリアル・タイム検出および認識、物体を認識し障害物を回避する際におけるロボットの補助等において使用することができる。
図9は、本開示の例示的実施形態による他の電子デバイス900を示す模式図である。電子デバイス900は、処理および/または計算を実行するように構成された任意の機械としてもよく、限定ではないが、ワークステーション、サーバ、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、パーソナル・ディジタル・アシスタント、スマートフォン、内蔵コンピュータ、またはこれらの任意の組み合わせでもよい。本開示の実施形態による前述の方法は、全体的にまたは少なくとも部分的に、電子デバイス900あるいは同様のデバイスまたはシステムによって実行する(implement)ことができる。
電子デバイス900は、バス910、1つ以上のプロセッサ920、1つ以上のメモリ930、1つ以上の入力デバイス940、および1つ以上の出力デバイス950を含むことができる。1つ以上のプロセッサ920は、任意の種類のプロセッサでよく、限定ではなく、1つ以上の汎用プロセッサ(中央処理ユニット(CPU)のような)、および/または1つ以上の専用プロセッサ(グラフィクス処理ユニット(GPU)のような)を含むことができる。1つ以上のメモリ930は、不揮発性メモリ(ディスク・ドライブ、光記憶デバイス、ソリッド・ステート・メモリ、フロッピー・ディスク、ハード・ディスク、磁気テープ、およびリード・オンリ・メモリ(ROM)のような)、および/または揮発性メモリ(ランダム・アクセス・メモリ(RAM)およびキャッシュ・メモリのような)を含むことができる。メモリ930は、本開示の実施形態による方法を実行する(implement)ためのデータおよび/またはプログラムを格納することができる。メモリ930に格納されるデータは、例えば、図5および図6に示したパラメータ記憶空間および特徴マップ記憶空間におけるデータである。メモリ930に格納されたプログラムは、プロセッサ920によって実行されると、電子デバイス900に、本開示の実施形態による方法を実行させることができる。
入力デバイス940は、電子デバイス900に情報を入力できる任意の種類のデバイスでよく、センサ(例えば、前述のような撮像センサ)、マウス、キーボード、タッチスクリーン、マイクロフォン、および/またはリモート・コントローラを含むことができるが、これらに限定されるのではない。出力デバイス950は、情報を出力できる任意の種類のデバイスでよく、ディスプレイ、スピーカ、ビデオ/オーディオ出力端末、バイブレータ、および/または種々の出力インターフェースを含むことができるが、これらに限定されるのではない。
尚、電子デバイス900の1つ以上のコンポーネントはネットワーク上で分散されてもよいことは理解されてしかるべきである。例えば、処理の一部を1つのプロセッサによって実行し、他の処理は、この1つのプロセッサから離れた他のプロセッサによって実行することもできる。したがって、電子デバイス900は、複数の位置で処理を実行する分散型コンピューティング・システムとして解釈することができる。
加えて、本開示の態様は、プログラムを格納するコンピュータ読み取り可能記憶媒体を含むこともできる。このプログラムは、命令を含み,プロセッサによって命令が実行されると、以上の方法のいずれでもこのプロセッサに実行させる。
本開示のいくつかの態様による例示的な方法および製品の実施形態を、以下の項目に列挙する。
1.複数の層を含むディープ・ニューラル・ネットワークのための圧縮方法であって、入力層を除く複数の層における少なくとも1つの層に対して、この方法は、パラメータ記憶空間から層のパラメータを読み出すステップと、特徴マップ記憶空間から、直前の層によって格納された第1特徴マップを読み出すステップと、読み出したパラメータおよび第1特徴マップに基づいて、第2特徴マップを生成するステップと、第2特徴マップを圧縮して、第3特徴マップを得るステップと、第3特徴マップを特徴マップ記憶空間に格納するステップとを含む。
2.項目1による方法において、第2特徴マップに対して実行される圧縮が、損失のある圧縮を含む。
3.項目1による方法において、この方法が、ディープ・ニューラル・ネットワークの訓練プロセスおよびディープ・ニューラル・ネットワークの推論プロセスにおける順方向伝搬フェーズにおいて、使用される。
4.項目1による方法において、ディープ・ニューラル・ネットワークが、畳み込みニューラル・ネットワークを含み、畳み込みニューラル・ネットワークが、複数の畳み込み層を含み、この方法が、畳み込み層の少なくとも1つに対して実行される。
5.項目1による方法において、第1特徴マップが圧縮特徴マップであり、読み出したパラメータおよび第1特徴マップに基づいて第2特徴マップを生成する前記ステップが、第1特徴マップを解凍するステップと、読み出したパラメータおよび解凍した第1特徴マップに基づいて、第2特徴マップを生成するステップとを含む。
6.項目1による方法において、パラメータ記憶空間から読み出したパラメータが圧縮パラメータであり、読み出したパラメータおよび第1特徴マップに基づいて第2特徴マップを生成する前記ステップが、読み出したパラメータを解凍するステップと、解凍したパラメータおよび第1特徴マップに基づいて、第2特徴マップを生成するステップとを含む。
7.項目2による方法において、第2特徴マップを圧縮する前記ステップが、第2特徴マップを空間ドメインから周波数ドメインに変換するステップと、変換係数を量子化するステップとを含む。
8.項目2による方法において、第2特徴マップを圧縮する前記ステップが、更に、第2特徴マップに対して予測コーディングを実行するステップを含み、予測コーディングが、内部予測および/または相互予測を含む。
9.項目2による方法において、第2特徴マップを圧縮する前記ステップが、第2特徴マップの異なる領域を異なる圧縮率で圧縮するステップを含み、領域の各々の圧縮率が、当該領域における関心度に依存し、第1関心度の領域の圧縮率が第2関心度の領域の圧縮率よりも低く、第1関心度が第2関心度よりも高い。
10.項目2による方法において、第2特徴マップを圧縮する前記ステップが、第2特徴マップに対して非均一量子化を実行するステップを含み、第2特徴マップの異なる領域が、異なる量子化刻みを有する。
11.項目10による方法において、第2特徴マップの領域の各々の量子化刻みが、領域の画像の複雑さ、第2特徴マップにおける領域の位置、領域の重要度、領域における特異的特徴の存在または不在、および領域における特異的特徴の数、の内少なくとも1つに基づいて決定される。
12.項目11による方法において、特異的特徴が、ディープ・ニューラル・ネットワークのアプリケーション・シナリオにおいて関心のある特徴を含む。
13.項目11による方法において、領域における特異的特徴の存在または不在にしたがって領域の各々の量子化刻みを決定するステップが、領域における特異的特徴の存在に応答して、第1量子化刻みを領域に割り当てるステップと、領域における特異的特徴の不在に応答して、第2量子化刻みを領域に割り当てるステップとを含み、第1量子化刻みが第2量子化刻みよりも小さい。
14.項目11による方法において、領域における特異的特徴の数にしたがって領域の各々の量子化刻みを決定するステップが、領域における特異的特徴の数が、予め設定された閾値よりも多いことに応答して、第3量子化刻みを領域に割り当てるステップと、領域における特異的特徴の数が所定の閾値以下であることに応答して、第4量子化刻みを領域に割り当てるステップとを含み、第3量子化刻みが第4量子化刻みよりも小さい。
15.項目1による方法において、ディープ・ニューラル・ネットワークが、物体認識のために、ビデオ・データを処理するために使用される。
16.チップであって、パラメータ記憶空間および特徴マップ記憶空間を含むメモリであって、パラメータ記憶空間が、ディープ・ニューラル・ネットワークのパラメータを格納するように構成され、特徴マップ記憶空間が、ディープ・ニューラル・ネットワークの特徴マップを格納するように構成される、メモリと、メモリと協働して、項目1から15までのいずれか1つによる方法を実行するように構成されたディープ・ニューラル・ネットワーク・エンジンとを含む。
17.項目16によるチップにおいて、メモリがランダム・アクセス・メモリを含む。
18.項目16によるチップにおいて、チップが、人工知能ビジョン・チップを含む。
19.項目18によるチップにおいて、チップが、更に、画像信号を処理するように構成された画像信号処理(ISP)ユニットと、オーディオおよびビデオ信号をエンコードならびにデコードするように構成されたマルチメディア信号コデックとを含む。
20.電子デバイスであって、画像および/またはビデオ・データをキャプチャするように構成された撮像センサと、項目16から19のいずれか1つによるチップであって、ディープ・ニューラル・ネットワークを使用して、キャプチャされた画像および/またはビデオ・データを、物体の認識のために処理するように構成される、チップとを含む。
21.電子デバイスであって、プロセッサと、プログラムを格納するメモリとを含み、プログラムが命令を含み、プロセッサによって命令が実行されると、項目1から15のいずれか1つによる方法を電子デバイスに実行させる。
22.プログラムを格納するコンピュータ読み取り可能記憶媒体であって、プログラムが命令を含み、プロセッサによって命令が実行されると、項目1から15のいずれか1つによる方法をプロセッサに実行させる。
以上、本開示の実施形態または例について、図面を参照しながら説明したが、以上で説明した方法、チップ、およびデバイスは、単なる例示的な実施形態または例に過ぎず、本開示の範囲は、これらの実施形態や例によって限定されるのではなく、付与される特許請求の範囲およびその均等の範囲によってのみ定められることは、理解されてしかるべきである。実施形態または例における種々のエレメントは、省略されても、その均等なエレメントによって交換されてもよい。更に、ステップは、本開示において説明した順序とは異なる順序で実行してもよい。更に、実施形態または例における種々のエレメントは、種々の方法で組み合わされてもよい。技術が発展するに連れて、本明細書において説明した多くのエレメントが、本開示の後に現れる均等なエレメントと交換されてもよいことは重要である。
本開示は、ニューラル・ネットワークに関し、更に特定すれば、ディープ・ニューラル・ネットワークのための圧縮に関する。
従来技術
ディープ・ニューラル・ネットワーク(DNN)は、人工知能技術の中核である。現在、ディープ・ニューラル・ネットワークは幅広く研究され、関心を集めており、コンピュータ・ビジョン、音声認識、ロボット、自動運転等を含む、人工知能用途の多くの分野において応用されている。
ディープ・ニューラル・ネットワークは、入力層、ある数の隠れ層(中間層とも呼ばれる)、および出力層を含む、複数のニューラル・ネットワーク層で構成される。現在のディープ・ニューラル・ネットワークは、通常、数千層までもの非常に多い数の層を有し、各層が多数のノードを含む。したがって、ディープ・ニューラル・ネットワーク全体では、数百万、または数千万ものパラメータを含む場合もあり、非常に大きな記憶空間およびメモリ帯域幅を必要とする。これは、記憶のコストを増大させるだけでなく、ディープ・ニューラル・ネットワークの性能にも影響する。特に、ビデオ監視および自動運転というようなリアル・タイム用途では、ディープ・ニューラル・ネットワークの記憶の問題は、その性能およびハードウェア設計において隘路となりつつある。
本開示の態様によれば、ディープ・ニューラル・ネットワークのための圧縮方法を提供する。ディープ・ニューラル・ネットワークは、複数の層を含む。この方法は、入力層を除く複数の層における少なくとも1つの層の各々に対して、パラメータ記憶空間から層のパラメータを読み出すステップと、特徴マップ記憶空間から、直前の層によって格納された第1特徴マップを読み出すステップと、読み出したパラメータおよび第1特徴マップに基づいて、第2特徴マップを生成するステップと、第2特徴マップを圧縮して、第3特徴マップを得るステップと、第3特徴マップを特徴マップ記憶空間に格納するステップとを含む。
本開示の他の態様によれば、チップを提供する。このチップは、メモリとディープ・ニューラル・ネットワーク・エンジンとを含む。メモリは、パラメータ記憶空間および特徴マップ記憶空間を含み、パラメータ記憶空間が、ディープ・ニューラル・ネットワークのパラメータを格納するように構成され、特徴マップ記憶空間が、ディープ・ニューラル・ネットワークの特徴マップを格納するように構成される。ディープ・ニューラル・ネットワーク・エンジンは、メモリと協働して、本開示による方法を実行するように構成される。
本開示の他の態様によれば、電子デバイスを提供する。この電子デバイスは、撮像センサと前述のチップとを含む。撮像センサは、画像および/またはビデオ・データをキャプチャするように構成される。チップは、ディープ・ニューラル・ネットワークを使用して、物体の認識のために、キャプチャされた画像および/またはビデオ・データを処理するように構成される。
本開示の他の態様によれば、電子デバイスを提供する。この電子デバイスは、プロセッサと、プログラムを格納するメモリとを含む。プログラムは、命令を含み、プロセッサによって命令が実行されると、本開示による方法を電子デバイスに実行させる。
本開示の他の態様によれば、プログラムを格納するコンピュータ読み取り可能記憶媒体を提供する。プログラムは、命令を含み、プロセッサによって命令が実行されると、本開示による方法をプロセッサに実行させる。
図面は、実施形態を一例として示し、明細書の一部を形成し、明細書の書面による説明と共に、実施形態の例示的な実施態様(implementation)を説明するために使用される。図示する実施形態は、例示を目的として示されるに過ぎず、特許請求の範囲を限定するのではない。図面全体を通じて、同じ参照番号は同じエレメントを指す。
図1は、本開示の例示的な実施形態によるディープ・ニューラル・ネットワークを示す模式図である。 図2は、本開示の例示的な実施形態による畳み込みニューラル・ネットワーク(CNN:convolutional neural network)を示す模式図である。 図3は、本開示の例示的な実施形態によるディープ・ニューラル・ネットワークのための例示的な圧縮方法を示すフローチャートである。 図4は、本開示の例示的な実施形態による特徴マップの圧縮を示す模式ブロック図である。 図5は、本開示の例示的な実施形態によるディープ・ニューラル・ネットワークの推論プロセスを示す模式図である。 図6は、本開示の例示的実施形態によるディープ・ニューラル・ネットワークの訓練プロセスを示す模式図である。 図7は、本開示の例示的実施形態によるチップを示す模式図である。 図8は、本開示の例示的実施形態による電子デバイスを示す模式図である。 図9は、本開示の例示的実施形態による他の電子デバイスを示す模式図である。
本開示において、別段記載がなければ、種々のエレメントについて説明する際に使用される「第1」(first)、「第2」(second)等の用語は、これらのエレメントの位置的関係、時間的関係、重要性の関係のいずれも、限定することを意図するのではなく、単にコンポーネント間で区別することを意図するに過ぎない。ある例では、第1エレメントおよび第2エレメントがエレメントの同じ実例(instance)を指す場合もあり、場合によっては、前後関係の記載に基づいて、第1エレメントおよび第2エレメントが異なる実例を指すこともある。
本開示において種々の例の説明に使用する用語は、単に特定の例を説明することを目的とするに過ぎず、限定することを意図しているのではない。エレメントの数が具体的に定められていない場合、コンテキストにおいて特に明示的に示されていないならば、1つ以上のエレメントがあってもよい。更に、本開示において使用する「および/または」という用語は、列挙される項目の内任意のもの、およびそれらの全ての可能な組み合わせも包含するものとする。
図1は、例示的なディープ・ニューラル・ネットワークを示す模式図である。ディープ・ニューラル・ネットワークは、入力層および出力層に加えて、少なくとも1つの隠れ層を含むニューラル・ネットワークである。一例として、図1に示すディープ・ニューラル・ネットワーク100は、入力層110、2つの隠れ層120および130、ならびに出力層140を含む。各層は、数個のノード(ニューロンとも呼ぶ)150を含む。一例として、図1の入力層110は3つのノードを有し、隠れ層120は4つのノードを有し、隠れ層130は3つのノードを有し、出力層140は2つのノードを有する。尚、図1はディープ・ニューラル・ネットワークの単純な例に過ぎず、実際のディープ・ニューラル・ネットワークの隠れ層の数、および各層におけるノードの数は、これらの数よりもはるかに多い可能性があることは注記してしかるべきである。
入力層110は、写真の画素、オーディオの振幅サンプル、システム・ステータスのディジタル表現等のような、入力データを受け取る。このデータは、隠れ層120に伝搬される。隠れ層120における各ノードは、受け取ったデータを計算し、計算結果を次の隠れ層130に伝搬する。同様に、隠れ層130における各ノードは、受け取ったデータを計算し、計算結果を出力層140に伝搬する。出力層140は、受け取ったデータを処理し、結果、例えば、特定の物体の認識結果を出力する。
層間のノードは、全結合または部分結合であってもよい。全結合の場合では、現在の層(例えば、出力層140)におけるいずれのノードも、直前にある層(例えば、隠れ層130)の全てのノードに接続される。部分的結合の場合では、現在の層(例えば、出力層140)における1つ以上のノードが、直前にある層(例えば、隠れ層130)における全てのノードではなく、一部のノードのみに接続されればよい。図1に示すニューラル・ネットワークでは、全ての層が全結合される。しかしながら、ディープ・ニューラル・ネットワークにおける少なくとも一部の層は、代わりに、部分結合されてもよいことは理解できよう。
通常、隠れ層120および130ならびに出力層140における各ノードは、入力データに対して線形または非線形演算を実行する。ノード150が隠れ層130内に位置し、ノード150が4つの入力x、x、x、およびxと出力yとを有すると仮定すると、
Figure 2021535689
ここで、wは、ノード150の入力xiの重み(i=1、2、3、4。あるニューラル・ネットワークでは、重みを接続とも呼ぶ。即ち、隠れ層120における各ノードから隠れ層130におけるノード150への接続が、対応する重みを表すために使用される)であり、bは、ノード150のバイアスであり、関数f()は、ノード150の活性化関数であり、通常、シグモイド関数、双曲線正接(tanh)関数、正規化線形単位(ReLU)関数、または漏洩ReLU関数のような、非線形関数である。尚、バイアスbも活性化関数f()も必要でなく、一部のノードが重みwのみを有するのでもよいことは、理解できよう。
ニューラル・ネットワークでは、各ノードの計算に使用される重みwおよびバイアスbは、通常、訓練プロセスにおける連続学習によって得られ、通常、ニューラル・ネットワークのパラメータと呼ばれる。
ディープ・ニューラル・ネットワークの層およびノードの数は通常非常に多いので、訓練および推論に必要とされるパラメータの数は膨大となる。例えば、入力データが100×100画素のサイズを有するカラー画像であるとすると、各画素は3つの値R、G、およびBを有するので、入力層は3×10個のノードを有し、各ノードは1つの画素のカラー値を表す。ニューラル・ネットワークの第1隠れ層が1000個のノードを有し、入力層に全結合されると仮定すると、第1隠れ層の計算に必要とされるパラメータ(重みwおよびバイアスb)の数は、3×10+1000となる。層の数が増えるに連れて、パラメータの数もそれに応じて増える。ニューラル・ネットワークの推論プロセスまたは訓練プロセスでは、各層が対応するパラメータをメモリ(DRAM、SRAM、DDR RAM、または他のランダム・アクセス・ソリッド・ステート・メモリのような、種々のランダム・アクセス・メモリまたは揮発性メモリとすればよい、グラフィクス・プロセッサのメモリ等)から読み出す必要、および/または対応するパラメータをメモリに格納する必要があるので、これはメモリの記憶容量およびメモリ帯域幅に大きな負担(pressure)をかけることになる。
一般的なディープ・ニューラル・ネットワークは、畳み込みニューラル・ネットワーク(convolutional neural network)であり、その隠れ層は少なくとも1つの畳み込み層を含む。従来のディープ・ニューラル・ネットワークと比較すると、畳み込みニューラル・ネットワークは、画像および音声認識ならびに他の態様において出力する結果に優れ、ネットワークによって必要とされるパラメータの数を減らすことができる。畳み込みニューラル・ネットワークの最も一般的な用途は画像認識である。以下の論述では、一例として、入力データを画像とする。しかしながら、畳み込みニューラル・ネットワークの用途は画像認識に限定されるのではないことは、当業者には当然理解されよう。
典型的な畳み込みニューラル・ネットワークでは、入力画像が一連の畳み込み層、随意のプーリング層(pooling layer)、および全結合層を通過した後、対応する認識結果を出力することができる。図2は、例示的な畳み込みニューラル・ネットワークを示す模式図である。尚、畳み込みニューラル・ネットワークは多くの形態を有し、図2は単純な例示的な表現に過ぎず、本開示の解決手段はこれに限定されるのではないことは注記してしかるべきである。
図2に示すように、畳み込みニューラル・ネットワーク200は入力層210を含むことができる。入力層210は、画像のような入力データを受け取るために使用することができる。随意に、入力層210は、以後の処理をし易くするために、データに対して前処理(例えば、ディミーニング(de-meaning)、正規化、脱相関、ホワイトニング等)を実行する場合もある。一例として、図2における入力画像は、28×28画素の中間階調画像である。即ち、入力画像のサイズは28×28×1である。各画素は、図1の入力層110における1つのノードに相当する(equivalent)としてよい。カラー画像が入力される場合、カラー画像は3つのカラー・チャネルR、G、およびBを有するので、カラー画像のサイズは28×28×3となる。
図2に示す畳み込みニューラル・ネットワーク200は、更に、2つの畳み込み層220および230も含む。畳み込み層220および230の各々は、入力画像に対して特徴抽出を実行するために、1つ以上の畳み込みカーネル(フィルタとも呼ぶ)を使用することができる。具体的には、各畳み込みカーネルは重み行列であり、画像の特徴を抽出するために、畳み込み層に画像データ入力が畳み込まれる。異なる畳み込みカーネルが、垂直縁、水平縁、曲線、カラー、またはその他の低レベルの特徴、あるいは目、鼻、帽子、またはその他の高レベルの特徴というような、異なる画像の特徴を抽出することができる。これは、通常、畳み込み層における畳み込みカーネルの位置に依存する。このような畳み込み演算の出力を、特徴マップと呼ぶこともできる。入力層210については、その特徴マップは入力画像である。尚、本明細書において言及する「特徴マップ」は、画像に基づいて抽出されるデータにも、畳み込みニューラル・ネットワークにおける畳み込み層の入力および出力データにも限定されないことは注記してしかるべきである。種々のディープ・ニューラル・ネットワークにおける層の全ての入力および出力データを特徴マップと見なすことができる。
畳み込み層220は、32個の畳み込みカーネルを有し、各畳み込みカーネルのサイズは5×5×1である。これは、入力データが中間階調画像(深度が1の)である場合である。入力層210の画像がカラー画像である場合、畳み込み層220の各畳み込みカーネルの深度は3となる。即ち、畳み込みカーネルのサイズは5×5×3となる。前述のように、畳み込みカーネルは重み行列であり、畳み込みカーネルに対応する出力特徴マップを得るために、入力画像を畳み込むことができる。更に具体的には、畳み込み層220では、5×5畳み込みカーネルと入力画像における5×5画素ブロックとのドット積を実行して、特徴値を得ることができる。このようなドット積が意味するのは、畳み込みカーネルにおける各重みに、対応する位置における画素を乗算し、次いで総和を実行するということである。加えて、バイアス(あるのであれば)を追加する場合もある。入力画像における5×5画素ブロックの位置は、例えば、左から右に、次いで上から下に、順次交換され(刻みを1と仮定する)、各位置における5×5画素ブロックと1と同じ畳み込みカーネルとのドット積を実行し、24×24特徴値で構成される特徴マップ、即ち、畳み込みカーネルの出力特徴マップを得ることができる。カラー画像の場合、入力画像の深度および畳み込みカーネルの深度は、両方共3である。畳み込みカーネルの各層に入力画像の対応する層が畳み込まれた後、その3つの畳み込み結果に対して算術和(arithmetic summation)を実行することによって、畳み込みカーネルの出力特徴マップを得ることができる。畳み込みカーネル毎に、サイズが24×24の特徴マップを生成することができる。畳み込み層220は32個の畳み込みカーネルを有するので、サイズが24×24の特徴マップが合計32通り生成され、またはサイズが24×24×32の1つの特徴マップが生成される。
同様に、畳み込み層230は64個の畳み込みカーネルを有し、各畳み込みカーネルのサイズは3×3×32である。各畳み込みカーネルには、畳み込み層220によって出力された1つの特徴マップが畳み込まれ、22×22の特徴マップを生成する。したがって、畳み込み層230は、サイズが22×22の特徴マップを合計64通り生成するか、またはサイズが22×22×64の1つの特徴マップを生成する。
また、畳み込みニューラル・ネットワーク200は、出力層として、全結合層240を含んでもよい。これは図1における出力層140と同様でよいので、ここでは繰り返さない。図2では1つの全結合層のみを示すが、複数の全結合層があってもよく、各全結合層が異なる数のノードを有してもよいことは、当業者には当然理解されよう。
尚、図2は畳み込みニューラル・ネットワークの単純な例示に過ぎないことは理解されてしかるべきである。実際の畳み込みニューラル・ネットワークでは、畳み込み層の数は通常それよりも多い。畳み込みカーネルを使用することによって実行される演算は、ドット積に限定されるのではなく、ディジタル信号処理において一般に使用される種々のフィルタリング処理、例えば、ガウス・フィルタ、ラプラス・フィルタ等を使用することによって実行されるもののように、もっと複雑にすることができる。また、各畳み込み層は活性化関数も含むことができる。この活性化関数は、図1を参照して先に説明した活性化関数f()と同様でよい。特徴マップ毎に、特徴マップの周辺においてゼロ・パディング処理を実行し、入力特徴マップと一致する(consistent with) 二次元サイズの出力特徴マップを作ることもできる。加えて、畳み込み層の間に、随意のプーリング層(図示せず)があってもよく、プーリング層は、画像局所相関の原理を使用して、畳み込み層によって出力された特徴マップをダウンサンプリングして、以降の層の計算量を低減する。
畳み込みニューラル・ネットワークのパラメータは、主に、畳み込み層および全結合層における重みであり、更にバイアスも可能である。一般的なディープ・ニューラル・ネットワークにおけるパラメータと同様、これらのパラメータは、訓練済み畳み込みニューラル・ネットワークが得られるまで、訓練と通じて連続的に最適化される。畳み込みニューラル・ネットワークの畳み込み層における異なる画素ブロックが、同じ畳み込みカーネルを共有することができ、従来のディープ・ニューラル・ネットワークと比較すると、畳み込みカーネルのサイズは特徴マップのサイズよりもはるかに小さいので(通常、パラメータ共有および局所知覚と呼ぶ)、畳み込みユーラル・ネットワークはニューラル・ネットワークのパラメータ数を効果的に削減することができる。しかしながら、畳み込みニューラル・ネットワークの層および各層における畳み込みカーネルの数が非常に多いので、畳み込みニューラル・ネットワークのパラメータは、大きな記憶容量およびメモリ帯域幅を占めることに変わりはない。
現在、ディープ・ニューラル・ネットワークの記憶の問題を解決するまたは軽減することを意図した研究がいくつか行われている。
1つの発想は、高帯域幅メモリ(HBM)のような、帯域幅がもっと大きいメモリを使用することである。しかし、このやり方はコストが高く、ハードウェアの設計も非常に難しい。
他の発想は、ディープ・ニューラル・ネットワークを圧縮することである。1つの圧縮方法は、ニューラル・ネットワークの規模(scale)を変更することである。例えば、ニューラル・ネットワークの層の数または畳み込みカーネルの数を減らす、あるいははニューラル・ネットワークにおける重要でない接続を除去することによって、ニューラル・ネットワークを間引きする(trim)ことができる。または、行列またはテンソル分解の発想を使用して、元のネットワーク・パラメータ行列またはパラメータ・テンソルを、少数のパラメータで構築し直して、ネットワークの記憶オーバーヘッドを低減する。他の圧縮方法は、ニューラル・ネットワークのパラメータ自体を圧縮することである。例えば、64ビット浮動小数点数の代わりに8ビットまたは16ビット整数を使用するというように、低ビット量子化をネットワーク・パラメータに対して実行し、記憶および計算オーバーヘッドを低減することができる。あるいは、例えば、圧縮用ハフマン・コーディングを使用して、損失のない圧縮をパラメータに対して実行してもよい。しかしながら、損失のない圧縮の圧縮率は低く、通常2:1を超えないので、その効果はさほど安定しない。
現在のディープ・ニューラル・ネットワークのための圧縮方法の殆どは、ニューラル・ネットワークのパラメータの圧縮を中心に据えることは、学習することができる。しかしながら、本発明者は、ニューラル・ネットワークのパラメータに加えて、特徴マップのアクセスも大きな記憶容量およびメモリ帯域幅を占めることに気が付いた。具体的には、ディープ・ニューラル・ネットワークの推論および訓練プロセスにおいて、各層によって生成された特徴マップを、次の層の読み出しおよび使用のために、メモリ(DRAM、SRAM、DDR RAM、または他のランダム・アクセス・ソリッド・ステート・メモリのような、種々のランダム・アクセス・メモリまたは揮発性メモリ等)に格納する必要がある。入力データが大量である場合(例えば、入力画像の解像度が高い)、特徴マップのアクセスも大量の記憶空間およびメモリ帯域幅を消費し、パラメータのアクセスよりも多いメモリ・リソースさえも消費する。これは、ニューラル・ネットワークの応用に対して、特にニューラル・ネットワークのリアル・タイム用途に対して、大きな課題となる。
この目的のため、本開示は、ディープ・ニューラル・ネットワークのために新たな圧縮方法を提案する。この圧縮方法は、既存のニューラル・ネットワーク圧縮技術よりも、ニューラル・ネットワークの大量データのリアル・タイム供給(application)に適している。
図3は、本開示の例示的実施形態によるディープ・ニューラル・ネットワークのための例示的な圧縮方法300を示すフローチャートである。方法300は、入力層を除いて、ディープ・ニューラル・ネットワークのいずれの層にでも実行することができる。説明の都合上、説明のための例として、i番目の層を取り上げる。
ブロック310において、i番目の層は、計算のためにこの層が必要とするパラメータを、パラメータ記憶空間から読み出す。これらのパラメータは、図1に関して説明した各ノードが使用する重みwおよびバイアスbのような、ディープ・ニューラル・ネットワークにおける任意のパラメータ、または図2に関して説明した各畳み込みカーネルの重みおよびバイアスでもよい。
実施形態によれば、ブロック310においてパラメータ記憶空間から読み出されるパラメータは、圧縮されたパラメータであってもよい。パラメータ圧縮技法(manner)は、例えば、損失のない圧縮(例えば、ハフマン・コーディング)または損失のある圧縮であってもよい。
ブロック320において、i番目の層は、(i−1)番目の層によって格納された第1特徴マップを特徴マップ記憶空間から読み出す。第1特徴マップは、ニューラル・ネットワークの任意の層によって出力されたデータとすることができる。例えば、第1特徴マップは、図1における入力層110、隠れ層120、または隠れ層130によって出力されたデータ、図2における入力層210、畳み込み層220、および畳み込み層230によって出力されたデータ、またはプーリング層、全結合層等によって出力されたデータであってもよい。
実施形態によれば、第1特徴マップは、圧縮された特徴マップであってもよい。具体的には、i番目の層によって読み出された第1特徴マップが圧縮された特徴マップとなるように、(i−1)番目の層によって生成された特徴マップを圧縮し、特徴マップ記憶空間に格納することができる。他の実施形態によれば、第1特徴マップは、代わりに、圧縮されていない特徴マップであってもよい。例えば、(i−1)番目の層によって生成された特徴マップは圧縮されず、直接特徴マップ記憶空間に格納される。
ブロック330において、i番目の層は、読み出したパラメータおよび第1特徴マップに基づいて、第2特徴マップを生成する。実施形態によれば、読み出したパラメータが圧縮されたパラメータである場合、これらのパラメータを解凍し、次いでi番目の層における計算において使用することができる。他の実施形態によれば、読み出した第1特徴マップが圧縮された特徴マップである場合、第1特徴マップを解凍し、次いでi番目の層における計算において使用することができる。(i−1)番目の層の特徴マップおよび対応するパラメータに基づいてi番目の層によって第2特徴マップを生成する例について、図1に関して行った説明を参照することができる。この場合、各ノード150は、式1を使用してノードの出力を生成することができ、各層において全てのノードの出力を合計した後、このレイヤによって生成される特徴マップを得ることができる。(i−1)番目の層の特徴マップおよび対応するパラメータに基づいてi番目の層によって第2特徴マップを生成する例について、図2に関して行った説明を参照することができる。この場合、各層の畳み込みカーネルに、直前の層の特徴マップを畳み込み、畳み込みカーネルに対応する特徴マップを生成することができる。層が複数の畳み込みカーネルを有する場合、複数の特徴マップを生成することができ、または複数の特徴マップを組み合わせて1つの高次元(high dimension)特徴マップにすることができる。尚、これらは特徴マップを生成する例に過ぎず、ブロック330における第2特徴マップ生成の実施態様はこれらに限定されるのではないことは理解できよう。
ブロック340において、i番目の層は、ブロック330において生成した第2特徴マップを圧縮して、第3特徴マップを得る。第2特徴マップの圧縮は、損失のない圧縮でもよいが、更に好ましくは、損失のある圧縮でもよい。これについては、以下で更に詳しく説明する。
実施形態によれば、第2特徴マップを圧縮する前記ステップは、第2特徴マップの異なる領域を異なる圧縮率で圧縮するステップを含み、これらの領域の各々の圧縮率は、その領域おける関心度に依存する。一例では、関心度が高い領域の圧縮率(例えば、第1の関心度)は、関心度が低い領域(例えば、第1の関心度よりも低い第2の関心度)の圧縮率よりも低い。例えば、ニューラル・ネットワークによって処理されるオブジェクトが画像またはビデオであるとき、画像において関心のある領域(即ち、ポートレートのような関心度が高い領域)について、その領域の圧縮および解凍の後に得られる画像が、元の画像との高い類似性を有することが通常望まれ、この理由のために、情報の損失を減らすために、低い圧縮率を使用することができる。また、画像において関心がない領域(即ち、空のような、関心度が低い領域)について、この領域の圧縮および解凍後に得られる画像と元の画像との間における類似性に対する要件を下げることができ、この理由のために、高い圧縮率を使用することができる。類似性測定パラメータは、例えば、ユークリッド距離、ピーク信号対ノイズ比(PSNR:peak signal-to-noise ratio)、構造的類似性評価(SSIM:structural similarity evaluation)等でもよい。
ブロック350において、i番目の層は、ブロック340において得られた第3特徴マップを特徴マップ記憶空間に格納する。パラメータ記憶空間および特徴マップ記憶空間は、別々のメモリに配置してもよく、または同じメモリを共有してもよい。一例として、パラメータ記憶空間および特徴マップ記憶空間に使用されるメモリは、DRAM、SRAM、DDR RAM、またはその他のランダム・アクセス・ソリッド・ステート・メモリのような、高速ランダム・アクセス・メモリとするとよい。
方法300は、ディープ・ニューラル・ネットワークの推論プロセスおよびディープ・ニューラル・ネットワークの訓練プロセスの双方に適用することができる。これについて、図5および図6と関連付けて後に詳しく説明する。
方法300を使用することによって、ディープ・ニューラル・ネットワークの少なくとも1つの層によって生成された特徴マップを圧縮し、次いで格納することにより、特徴マップおよびこれらによって占められるメモリ帯域幅に必要とされる記憶空間を大幅に削減することができる。これは、特に、ニューラル・ネットワークのリアル・タイム用途にとって有用である。例えば、ビデオ監視のアプリケーション・シナリオ(application scenario)では、ビデオ画像における物体をリアル・タイムで認識するためにニューラル・ネットワークが使用される場合、大量のビデオ・フレームをリアル・タイムで処理する必要がある。ビデオ・データが高い解像度(例えば、300×300画素よりも高い解像度、またはそれよりも更に高い解像度)を有する場合、これはメモリ帯域幅に対する大きな課題となる。特徴マップを格納する前にこれを圧縮することによって、特徴マップを格納するときおよびメモリから読み出すときに占められるメモリ帯域幅を大幅に削減することができる。これはニューラル・ネットワークのリアル・タイム用途を実現するのに役に立つ。加えて、読み出された圧縮特徴マップは、計算(例えば、畳み込み)のために解凍されるので、方法300はニューラル・ネットワークの推論の精度には殆ど影響を及ぼさない。また、方法300は、ニューラル・ネットワークのパラメータの圧縮および対応するハードウェア設計と組み合わせて、ニューラル・ネットワークの動作を更に加速化し、メモリの電力消費を低減することができる。
方法300は、あらゆるディープ・ニューラル・ネットワークに適用することができる。畳み込みニューラル・ネットワークでは、方法300は少なくとも1つの畳み込み層に対して実行することができる。随意に、方法300は、プーリング層および全結合層に対しても、代わりに実行することができる。畳み込みニューラル・ネットワークでは、方法300は、全ての畳み込み層に対して実行することもでき、または選択的に一部の畳み込み層に対して方法300を実行することもできる。通常、入力側に近い畳み込み層によって生成される特徴マップは、出力側に近い畳み込み層によって生成される特徴マップよりも大きく、より多くの記憶空間およびメモリ帯域幅を占める。したがって、好ましくは、入力側に近い1つ以上の畳み込み層に方法300を適用することができる。
尚、論理的に必要でなければ、方法300におけるステップの順序は、図示または説明した順序には限定されず、必要に応じて調節することまたは並列に実行することもでき、異なるステップにおける動作を並列にまたは交互に実行できることは注記してしかるべきである。本開示は、これに関して全く限定を強要しない。例えば、ブロック310およびブロック320を逆の順序でまたは並列に実行してもよく、本開示の実施態様には影響を及ぼさない。
以下では、一例として、ビデオ・データをニューラル・ネットワークへの入力として取り上げ、特徴マップの圧縮について更に詳しく説明する。特徴マップの圧縮は、(i−1)番目の層、i番目の層のような、ニューラル・ネットワークの任意の層、または図3に関して説明した全ての層に適用することができる。
図4は、本開示の例示的実施形態による特徴マップの圧縮を示す模式ブロック図である。図4に示すように、ニューラル・ネットワークにおける層によって生成された特徴マップに、予測(ブロック410)、変換(ブロック420)、量子化(ブロック430)、およびエントロピ・コーディング(ブロック440)というような処理(operation)を実行し、特徴マップにおける空間的冗長性、時間的冗長性、およびコーディング冗長性を除去することができる。図4におけるこれらの処理について、以下で1つずつ説明する。しかしながら、本開示には図4に示す処理の全てが必要という訳ではなく、必要に応じて特徴マップを圧縮するために、ブロック410から440までの内1つ以上を使用できることは理解できよう。例えば、特徴マップに対して損失のない圧縮を実行する場合、この特徴マップに量子化430を実行しなくてもよく、エントロピ・コーディング440だけをこの特徴マップに実行すればよい。他の例をあげると、特徴マップの圧縮は、変換420、量子化430、およびエントロピ・コーディング440のみを含めばよく、予測410は実行しなくてもよい。
ブロック410において、入力された特徴マップに対して予測コーディングを実行する。予測コーディングは、内部予測(intra prediction)および相互予測(inter prediction)の内一方または双方を含むことができる。フレーム内コーディングは、空間的冗長を排除するために使用することができ、フレーム間コーディングは、時間的冗長を排除するために使用することができる。特徴マップを複数のブロックに分割することができ、ブロック毎にコーディングを実行する。一例として、MPEG、H.264、およびH.265のようなビデオ規格に採用されている種々の予測コーディング技法を、ブロック410における特徴マップの予測コーディングに使用することができる。
ブロック420において、特徴マップを空間ドメインから周波数ドメインに変換し、信号間における相関を効果的に除去し、エネルギの殆どを低周波数領域に集中させる。この変換の結果に基づいて、高周波数領域における信号を、後続の量子化ステップにおいて破棄することができ、あるいは低周波数領域に小さい量子化刻み、そして高周波数領域には大きな量子化刻みを使用して、高い画質を維持しつつ、高い圧縮率を達成することができる。一例として、離散フーリエ変換(DFT)、離散正弦波変換(DST)、K−L変換、ウェーブレット変換等のような種々の変換技術を使用して、特徴マップを変換することができる。
ブロック430において、ブロック420において得られた変換係数を量子化する。量子化において、多数の変換係数を近似的にあらわすために、少数の量子化値を使用することができる。元の変換係数と再現された変換係数との間には差、即ち、歪みがあるので、量子化を使用する特徴マップの圧縮は、損失のある圧縮となる。損失のない圧縮と比較すると、損失のある圧縮の方がアルゴリズムの選択肢が多く、多くの調節可能な圧縮パラメータを有し、圧縮率を制御することによって、異なる要件に適応することができる。本開示の実施形態によれば、損失のある圧縮の使用により、ニューラル・ネットワークの推論精度に対する影響が殆どなく、圧縮率向上を達成することができる。例えば、実施形態によれば、損失のある圧縮の圧縮率が10:1よりも高いとき、ニューラル・ネットワークの推論精度は5%未満しか低下しない。加えて、訓練プロセスにおいて、層の特徴マップに対して損失のある圧縮を実行することは、層のパラメータおよび特徴マップに外乱を追加することと同等であると見なすことができ、訓練が極小値に陥るのを防止することができ、したがってニューラル・ネットワークの推論能力を高めることができる。
ブロック440において、ブロック430の量子化結果に対してエントロピ・コーディングを実行し、予測および変換後になおも存在する統計的冗長情報を除去する。一例として、エントロピ・コーディングは、可変長コーディング(VLC)(例えば、ハフマン・コーディング、指数Golombコード(EGC)等)または算術コーディングを使用することができる。
以上、特徴マップの圧縮プロセスについて、図4と関連付けて端的に説明した。尚、これらの説明は、本開示に対する限定ではなく、単に例示的な説明に過ぎないことは、当業者には理解できよう。具体的な実施態様では、特徴マップは、MPEG、H.264、H.265、および他のビデオ規格に基づく圧縮方法、あるいは開発中または今後開発される種々のビデオ圧縮方法というような、種々の知られているビデオ圧縮方法を使用することによって圧縮することができる。これは、本開示において限定されない。
本開示の実施形態によれば、特徴マップの圧縮(例えば、図3のブロック340に示す第2特徴マップの圧縮)は、特徴マップの非均一な量子化を含んでもよい。実施形態によれば、特徴マップの異なる領域に異なる量子化刻み(step)を使用してもよい。各領域の量子化刻みを決定するためには、多くの要因を検討してもよい。
実施形態によれば、領域の量子化刻みは、領域の画像の複雑度にしたがって決定されてもよい。例えば、より多くの詳細を保持するために、画像の複雑度が高い領域には小さい量子化刻みを割り当て、画像の複雑度が低い領域には、大きな量子化刻みを割り当てる。一例では、画像の複雑度は、予め設定された閾値によって測定することができる。高い画像の複雑度とは、画像の複雑度がこの予め設定された閾値よりも高いことを意味するのでもよく、低い画像の複雑度は、画像の複雑度がこの予め設定された閾値以下であることを意味するのでもよい。
他の実施形態によれば、領域の量子化刻みは、特徴マップにおける領域の位置にしたがって決定されてもよい。たとえば、ビデオ監視の用途では、各ビデオ・カメラによって特別に監視される領域は、画像において比較的固定した位置を有するとして差し支えなく、この位置に対応する特徴マップ領域には、小さな量子化刻みを割り当てるとよい。
他の実施形態によれば、領域の量子化刻みは、領域の重要度にしたがって決定されてもよい。例えば、ビデオ画像では、画像における領域の重要度は前もって決定することができ、量子化の間に重要度の順序にしたがって、異なる量子化刻みを割り当てることができる。
他の実施形態によれば、領域の量子化刻みは、領域における特異的特徴の存在または不在にしたがって決定されてもよい。特異的特徴は、ニューラル・ネットワークのアプリケーション・シナリオに依存するのでもよい。実施形態によれば、特異的特徴は、アプリケーション・シナリオにおいて関心がある特徴としてもよい。例えば、セキュリティ監視では、特異的特徴は人または個人識別情報(identity)に関する特徴でもよい。交通監視では、特異的特徴は、車両の型番、ナンバー・プレート、信号等に関する特徴でもよい。サッカー試合の生放送では、特異的特徴は、選手、ボール、レフリー、ゴール等に関する特徴でもよい。一例では、特異的特徴が領域内に存在する場合、より多くの詳細を保持するために、小さい量子化刻み(例えば、第1量子化刻み)をその領域に割り当てるとよく、特異的特徴がその領域に存在しない場合、大きな量子化刻み(例えば、第1量子化刻みよりも大きい第2量子化刻み)をその領域に割り当てるとよい。
他の実施形態によれば、領域の量子化刻みは、領域における特異的特徴の数にしたがって決定されてもよい。一例では、領域における特異的特徴の数が多い場合(例えば、所定の閾値よりも多い)、より多くの詳細を保持するために、その領域には小さい量子化刻み(例えば、第3量子化刻み)を割り当てるとよく、領域における特異的特徴の数が少ない場合(例えば、所定の閾値以下)、大きな量子化刻み(例えば、第3量子化刻みよりも大きい第4量子化刻み)をその領域に割り当てるとよい。直前の実施形態と同様、特異的特徴は、アプリケーション・シナリオに依存するのでもよく、ここでは繰り返さない。
尚、以上で述べたこれらの要因は、個々にまたは組み合わせて検討できることは理解できよう。これは、本開示において限定されない。領域の特性に基づいて、異なる量子化刻みを特徴マップにおける領域に割り当てる。これは、高い圧縮率を達成できるだけでなく、用途にとって重要な特徴マップの詳細をできるだけ多く保持することもでき、これによってニューラル・ネットワークの推論精度を維持する。
以下に、図5および図6と関連付けて、本開示の例示的な実施形態によるニューラル・ネットワークの推論プロセスおよび訓練プロセスについて説明する。
図5は、本開示の例示的実施形態によるディープ・ニューラル・ネットワークの推論プロセスの模式図である。ニューラル・ネットワークの推論プロセスは、処理されるデータを、訓練済みのニューラル・ネットワークに入力して、推論結果を得るプロセスである。図5に示すように、ディープ・ニューラル・ネットワークは、入力層532、出力層538、および複数の隠れ層を含む。簡単にするために、図5は2つの隣接する層、即ち、i番目の層および(i+1)番目の層のみを示す。これらを、それぞれ、参照番号534および536によって示す。また、図5は、パラメータ記憶空間510、および特徴マップ記憶空間520も示す。推論プロセスにおいて、ニューラル・ネットワークにおける各層は、出力層538が最終的な推論結果を出力するまで、順次入来するデータを処理する。層534および536における処理については、以下で一例をあげて説明する。
図5に示すように、i番目の層534は、計算のために層534が必要とするパラメータ512を、パラメータ記憶空間510から読み出す。随意に、パラメータ512が圧縮されている場合、ブロック542においてパラメータ512を解凍する。また、層534は、(i−1)番目の層に格納されている特徴マップ522を、特徴マップ記憶空間520から読み出す。随意に、特徴マップ522が圧縮されている場合、ブロック552において特徴マップ522を解凍する。パラメータ512および特徴マップ522の解凍バージョンに基づいて、層534の特徴マップを生成する。特徴マップを圧縮した後(ブロック554において)、特徴マップ記憶空間520に、層534によって格納された特徴マップ524として、特徴マップを格納する。
次に、(i+1)番目の層536は、i番目の層534の動作と同様の動作を実行する。パラメータ514および特徴マップ524を、それぞれ、パラメータ記憶空間510および特徴マップ記憶空間520から読み出し、解凍する(ブロック544および556に示す通り)。次いで、パラメータ514および特徴マップ524の解凍バージョンに基づいて、層536の特徴マップを生成する。特徴マップを圧縮した後(ブロック558において)、特徴マップ記憶空間520に、次の層による使用のために層536によって格納された特徴マップ526として、特徴マップを格納する。
類推によって、ニューラル・ネットワークにおける後続の層は、出力層538が最終的な推論結果を出力するまで、以上の動作を順次実行する。尚、図5は、先に説明したように、各層のパラメータおよび特徴マップの圧縮ならびに解凍について説明するが、このような圧縮および解凍処理(operation)は、ニューラル・ネットワークにおける層の内一部のみにも実行でき、更に、代わりに、圧縮および解凍処理(operation)は、パラメータの代わりに、特徴マップのみにも実行できることは、理解されてしかるべきである。
図6は、本開示の例示的実施形態によるディープ・ニューラル・ネットワークの訓練プロセスの模式図である。ニューラル・ネットワークの訓練プロセスは、既知のサンプル集合に基づいて、ニューラル・ネットワークのパラメータを訓練するプロセスである。ニューラル・ネットワークの訓練プロセスは、最終的な出力結果と目標値との間の誤差が所定の閾値未満になるまで連続的に繰り返される。各繰り返しは、通常、2つのフェーズ、即ち、順方向伝搬フェーズ(forward propagation phase)および逆方向伝搬フェーズ(back propagation phase)に分割される。順方向伝搬フェーズは、推論プロセスと同様である。サンプル毎に、各層は順次計算を実行し、最終的な出力値を得る。次に、逆方向伝搬フェーズでは、出力値と目標値との間の誤差を最初に計算する。誤差が所定の閾値よりも大きい場合、逆方向伝搬のために、この誤差を出力層からニューラル・ネットワークに送信し、層の誤差を順次計算し、計算した誤差にしたがって、層のパラメータを更新する。更新したパラメータに基づいて、次の繰り返しの順方向伝搬フェーズを開始する。
図6では、明確にするために、破線610を使用して、順方向伝搬フェーズおよび逆方向伝搬フェーズを分離する。図6の上側部分に示すように、訓練プロセスの順方向伝搬フェーズは、図5におけるそれと同一であり、ここでは詳細について繰り返さない。図6の下側部分は、訓練プロセスの逆方向伝搬フェーズを示す。逆方向伝搬フェーズにおいて、順方向伝搬フェーズにおける最終的な出力結果と目標値との間の誤差を、出力層538から入力層532に順次送信する。(i+1)番目の層536は、(i+2)番目の層から受け取った層536の誤差に基づいて、更新パラメータ514を計算し、これをパラメータ記憶空間510に格納する。随意に、更新パラメータを圧縮し(ブロック648において)、次いでパラメータ記憶空間510に格納してもよい。また、層536は、i番目の層534の誤差を計算し、これを層534に逆伝搬する。同様に、層534は、受け取った誤差に基づいて、更新パラメータ512を計算し、これをパラメータ記憶空間510に格納する。随意に、更新パラメータを圧縮し(ブロック646において)、次いでパラメータ記憶空間510に格納してもよい。図6の左側における大きな矢印によって示すように、逆方向伝搬フェーズが入力層532において終了したとき、全ての層の更新パラメータに基づいて、訓練プロセスは、次の繰り返しの順方向伝搬フェーズを開始する。
尚、図5および図6は、ニューラル・ネットワークの例示的な推論プロセスおよび訓練プロセスを示すに過ぎないことは、注記してしかるべきである。ニューラル・ネットワークの異なる構造に基づいて、他の対応する推論プロセスおよび訓練プロセスも使用できることは、当業者には理解できよう。
図7は、本開示の例示的実施形態によるチップ700を示す模式図である。チップ700は、メモリ710と、ディープ・ニューラル・ネットワーク・エンジン720とを含むことができる。
メモリ710は、パラメータ記憶空間および特徴マップ記憶空間を含むことができる。パラメータ記憶空間は、ディープ・ニューラル・ネットワークのパラメータを格納するために使用され、特徴マップ記憶空間は、ディープ・ニューラル・ネットワークの特徴マップを格納するために使用される。実施形態によれば、メモリ710は、DRAM、SRAM、DDR RAM、または他のランダム・アクセス・ソリッド・ステート・メモリのような、種々のランダム・アクセス・メモリまたは揮発性メモリであってもよい。
ディープ・ニューラル・ネットワーク・エンジン720は、ディープ・ニューラル・ネットワークを、画像データのような入力データに適用し、画像検出、認識、およびパーティショニング(partitioning)というような処理を実施することができる。ディープ・ニューラル・ネットワーク・エンジン720は、メモリ710と協働して、先に説明した本開示の種々の実施形態における方法を実行することができる。実施形態によれば、ディープ・ニューラル・ネットワーク・エンジン720は、ハードウェアによって実装することができ、例えば、特定用途集積回路(ASIC)によって実装されてもよい。
尚、特定の要件にしたがって、ディープ・ニューラル・ネットワーク・エンジン720の実施態様には、種々の変形を行ってもよいことは理解されてしかるべきである。例えば、種々の変形は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはこれらの任意の組み合わせで実装することができる。例えば、ディープ・ニューラル・ネットワーク・エンジン720は、ASICの代わりに、本開示によるロジックおよびアルゴリズムを使用することによって、アセンブリ言語またはハードウェア・プログラミング言語(VERILOG、VHDL、およびC++のような)でハードウェア(例えば、フィールド・プログラマブル・ゲート・アレイ(FPGA)および/またはプログラマブル・ロジック・アレイ(PLA)を含むプログラマブル・ロジック回路)をプログラミングすることによって、実装してもよい。
実施形態によれば、チップ700は、人工知能(AI)ビジョン・チップでもよい。加えて、図7には示されていないが、チップ700は、画像信号(撮像センサによって出力される信号のような)を処理するように構成された画像信号処理(ISP)ユニット、オーディオおよびビデオ信号をエンコードならびにデコードするように構成されたマルチメディア信号コデック等のような、更に他のコンポーネントも含んでもよい。
図8は、本開示の例示的実施形態による電子デバイス800を示す模式図である。電子デバイス800は、図7に示すチップ700と、撮像センサ830とを含むことができる。撮像センサ830は、画像および/またはビデオ・データをキャプチャするように構成することができる。実施形態によれば、電子デバイス800は、ビデオ・カメラ、またはAIビジョン・チップと統合されたカメラでもよい。このような電子デバイス800は、種々のシナリオにおいて使用することができ、例えば、セキュリティ監視における人間の顔または他の特定的な物体の自動検出および認識、自動運転における歩行者、自動車、信号機等のリアル・タイム検出および認識、物体を認識し障害物を回避する際におけるロボットの補助等において使用することができる。
図9は、本開示の例示的実施形態による他の電子デバイス900を示す模式図である。電子デバイス900は、処理および/または計算を実行するように構成された任意の機械としてもよく、限定ではないが、ワークステーション、サーバ、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、パーソナル・ディジタル・アシスタント、スマートフォン、内蔵コンピュータ、またはこれらの任意の組み合わせでもよい。本開示の実施形態による前述の方法は、全体的にまたは少なくとも部分的に、電子デバイス900あるいは同様のデバイスまたはシステムによって実行する(implement)ことができる。
電子デバイス900は、バス910、1つ以上のプロセッサ920、1つ以上のメモリ930、1つ以上の入力デバイス940、および1つ以上の出力デバイス950を含むことができる。1つ以上のプロセッサ920は、任意の種類のプロセッサでよく、限定ではなく、1つ以上の汎用プロセッサ(中央処理ユニット(CPU)のような)、および/または1つ以上の専用プロセッサ(グラフィクス処理ユニット(GPU)のような)を含むことができる。1つ以上のメモリ930は、不揮発性メモリ(ディスク・ドライブ、光記憶デバイス、ソリッド・ステート・メモリ、フロッピ・ディスク、ハード・ディスク、磁気テープ、およびリード・オンリ・メモリ(ROM)のような)、および/または揮発性メモリ(ランダム・アクセス・メモリ(RAM)およびキャッシュ・メモリのような)を含むことができる。メモリ930は、本開示の実施形態による方法を実行する(implement)ためのデータおよび/またはプログラムを格納することができる。メモリ930に格納されるデータは、例えば、図5および図6に示したパラメータ記憶空間および特徴マップ記憶空間におけるデータである。メモリ930に格納されたプログラムは、プロセッサ920によって実行されると、電子デバイス900に、本開示の実施形態による方法を実行させることができる。
入力デバイス940は、電子デバイス900に情報を入力できる任意の種類のデバイスでよく、センサ(例えば、前述のような撮像センサ)、マウス、キーボード、タッチスクリーン、マイクロフォン、および/またはリモート・コントローラを含むことができるが、これらに限定されるのではない。出力デバイス950は、情報を出力できる任意の種類のデバイスでよく、ディスプレイ、スピーカ、ビデオ/オーディオ出力端末、バイブレータ、および/または種々の出力インターフェースを含むことができるが、これらに限定されるのではない。
尚、電子デバイス900の1つ以上のコンポーネントはネットワーク上で分散されてもよいことは理解されてしかるべきである。例えば、処理の一部を1つのプロセッサによって実行し、他の処理は、この1つのプロセッサから離れた他のプロセッサによって実行することもできる。したがって、電子デバイス900は、複数の位置で処理を実行する分散型コンピューティング・システムとして解釈することができる。
加えて、本開示の態様は、プログラムを格納するコンピュータ読み取り可能記憶媒体を含むこともできる。このプログラムは、命令を含み,プロセッサによって命令が実行されると、以上の方法のいずれでもこのプロセッサに実行させる。
本開示のいくつかの態様による例示的な方法および製品の実施形態を、以下の項目に列挙する。
1.複数の層を含むディープ・ニューラル・ネットワークのための圧縮方法であって、入力層を除く複数の層における少なくとも1つの層の各々に対して、この方法は、パラメータ記憶空間から層のパラメータを読み出すステップと、特徴マップ記憶空間から、直前の層によって格納された第1特徴マップを読み出すステップと、読み出したパラメータおよび第1特徴マップに基づいて、第2特徴マップを生成するステップと、第2特徴マップを圧縮して、第3特徴マップを得るステップと、第3特徴マップを特徴マップ記憶空間に格納するステップとを含む。
2.項目1による方法において、第2特徴マップに対して実行される圧縮が、損失のある圧縮を含む。
3.項目1による方法において、この方法が、ディープ・ニューラル・ネットワークの訓練プロセスおよびディープ・ニューラル・ネットワークの推論プロセスにおける順方向伝搬フェーズにおいて、使用される。
4.項目1による方法において、ディープ・ニューラル・ネットワークが、畳み込みニューラル・ネットワークを含み、畳み込みニューラル・ネットワークが、複数の畳み込み層を含み、この方法が、畳み込み層の少なくとも1つに対して実行される。
5.項目1による方法において、第1特徴マップが圧縮特徴マップであり、読み出したパラメータおよび第1特徴マップに基づいて第2特徴マップを生成する前記ステップが、第1特徴マップを解凍するステップと、読み出したパラメータおよび解凍した第1特徴マップに基づいて、第2特徴マップを生成するステップとを含む。
6.項目1による方法において、パラメータ記憶空間から読み出したパラメータが圧縮パラメータであり、読み出したパラメータおよび第1特徴マップに基づいて第2特徴マップを生成する前記ステップが、読み出したパラメータを解凍するステップと、解凍したパラメータおよび第1特徴マップに基づいて、第2特徴マップを生成するステップとを含む。
7.項目2による方法において、第2特徴マップを圧縮する前記ステップが、第2特徴マップを空間ドメインから周波数ドメインに変換するステップと、変換係数を量子化するステップとを含む。
8.項目2による方法において、第2特徴マップを圧縮する前記ステップが、更に、第2特徴マップに対して予測コーディングを実行するステップを含み、予測コーディングが、内部予測および/または相互予測を含む。
9.項目2による方法において、第2特徴マップを圧縮する前記ステップが、第2特徴マップの異なる領域を異なる圧縮率で圧縮するステップを含み、領域の各々の圧縮率が、当該領域における関心度に依存し、第1関心度の領域の圧縮率が第2関心度の領域の圧縮率よりも低く、第1関心度が第2関心度よりも高い。
10.項目2による方法において、第2特徴マップを圧縮する前記ステップが、第2特徴マップに対して非均一量子化を実行するステップを含み、第2特徴マップの異なる領域が、異なる量子化刻みを有する。
11.項目10による方法において、第2特徴マップの領域の各々の量子化刻みが、領域の画像の複雑さ、第2特徴マップにおける領域の位置、領域の重要度、領域における特異的特徴の存在または不在、および領域における特異的特徴の数、の内少なくとも1つに基づいて決定される。
12.項目11による方法において、特異的特徴が、ディープ・ニューラル・ネットワークのアプリケーション・シナリオにおいて関心のある特徴を含む。
13.項目11による方法において、領域における特異的特徴の存在または不在にしたがって領域の各々の量子化刻みを決定するステップが、領域における特異的特徴の存在に応答して、第1量子化刻みを領域に割り当てるステップと、領域における特異的特徴の不在に応答して、第2量子化刻みを領域に割り当てるステップとを含み、第1量子化刻みが第2量子化刻みよりも小さい。
14.項目11による方法において、領域における特異的特徴の数にしたがって領域の各々の量子化刻みを決定するステップが、領域における特異的特徴の数が、予め設定された閾値よりも多いことに応答して、第3量子化刻みを領域に割り当てるステップと、領域における特異的特徴の数が所定の閾値以下であることに応答して、第4量子化刻みを領域に割り当てるステップとを含み、第3量子化刻みが第4量子化刻みよりも小さい。
15.項目1による方法において、ディープ・ニューラル・ネットワークが、物体認識のために、画像および/またはビデオ・データを処理するために使用される。
16.チップであって、パラメータ記憶空間および特徴マップ記憶空間を含むメモリであって、パラメータ記憶空間が、ディープ・ニューラル・ネットワークのパラメータを格納するように構成され、特徴マップ記憶空間が、ディープ・ニューラル・ネットワークの特徴マップを格納するように構成される、メモリと、メモリと協働して、項目1から15までのいずれか1つによる方法を実行するように構成されたディープ・ニューラル・ネットワーク・エンジンとを含む。
17.項目16によるチップにおいて、メモリがランダム・アクセス・メモリを含む。
18.項目16によるチップにおいて、チップが、人工知能ビジョン・チップを含む。
19.項目18によるチップにおいて、チップが、更に、画像信号を処理するように構成された画像信号処理(ISP)ユニットと、オーディオおよびビデオ信号をエンコードならびにデコードするように構成されたマルチメディア信号コデックとを含む。
20.電子デバイスであって、画像および/またはビデオ・データをキャプチャするように構成された撮像センサと、項目16から19のいずれか1つによるチップであって、ディープ・ニューラル・ネットワークを使用して、キャプチャされた画像および/またはビデオ・データを、物体の認識のために処理するように構成される、チップとを含む。
21.電子デバイスであって、プロセッサと、プログラムを格納するメモリとを含み、プログラムが命令を含み、プロセッサによって命令が実行されると、項目1から15のいずれか1つによる方法を電子デバイスに実行させる。
22.プログラムを格納するコンピュータ読み取り可能記憶媒体であって、プログラムが命令を含み、プロセッサによって命令が実行されると、項目1から15のいずれか1つによる方法をプロセッサに実行させる。
以上、本開示の実施形態または例について、図面を参照しながら説明したが、以上で説明した方法、チップ、およびデバイスは、単なる例示的な実施形態または例に過ぎず、本開示の範囲は、これらの実施形態や例によって限定されるのではなく、付与される特許請求の範囲およびその均等の範囲によってのみ定められることは、理解されてしかるべきである。実施形態または例における種々のエレメントは、省略されても、その均等なエレメントによって交換されてもよい。更に、ステップは、本開示において説明した順序とは異なる順序で実行してもよい。更に、実施形態または例における種々のエレメントは、種々の方法で組み合わされてもよい。技術が発展するに連れて、本明細書において説明した多くのエレメントが、本開示の後に現れる均等なエレメントと交換されてもよいことは重要である。

Claims (22)

  1. ディープ・ニューラル・ネットワークのための圧縮方法であって、前記ディープ・ニューラル・ネットワークが複数の層を含み、入力層を除く前記複数の層における少なくとも1つの層に対して、前記方法が、
    パラメータ記憶空間から前記層のパラメータを読み出すステップと、
    特徴マップ記憶空間から、直前の層によって格納された第1特徴マップを読み出すステップと、
    前記読み出したパラメータおよび第1特徴マップに基づいて、第2特徴マップを生成するステップと、
    前記第2特徴マップを圧縮して、第3特徴マップを得るステップと、
    前記第3特徴マップを前記特徴マップ記憶空間に格納するステップと、
    を含む、方法。
  2. 請求項1に記載の方法において、前記第2特徴マップに対して実行される圧縮が、損失のある圧縮を含む、方法。
  3. 請求項1に記載の方法において、この方法が、前記ディープ・ニューラル・ネットワークの訓練プロセスおよび前記ディープ・ニューラル・ネットワークの推論プロセスにおける順方向伝搬フェーズにおいて、使用される、方法。
  4. 請求項1に記載の方法において、前記ディープ・ニューラル・ネットワークが、畳み込みニューラル・ネットワークを含み、前記畳み込みニューラル・ネットワークが、複数の畳み込み層を含み、前記方法が、前記畳み込み層の少なくとも1つに対して実行される、方法。
  5. 請求項1に記載の方法において、
    前記第1特徴マップが圧縮特徴マップであり、
    前記読み出したパラメータおよび第1特徴マップに基づいて第2特徴マップを生成するステップが、
    前記第1特徴マップを解凍するステップと、
    前記読み出したパラメータおよび解凍した第1特徴マップに基づいて、前記第2特徴マップを生成するステップと、
    を含む、方法。
  6. 請求項1に記載の方法において、
    前記パラメータ記憶空間から読み出した前記パラメータが圧縮パラメータであり、前記読み出したパラメータおよび第1特徴マップに基づいて第2特徴マップを生成するステップが、
    前記読み出したパラメータを解凍するステップと、
    前記解凍したパラメータおよび前記第1特徴マップに基づいて、前記第2特徴マップを生成するステップと、
    を含む、方法。
  7. 請求項2に記載の方法において、前記第2特徴マップを圧縮するステップが、
    前記第2特徴マップを空間ドメインから周波数ドメインに変換するステップと、
    変換係数を量子化するステップと、
    を含む、方法。
  8. 請求項2に記載の方法において、前記第2特徴マップを圧縮するステップが、更に、
    前記第2特徴マップに対して予測コーディングを実行するステップを含み、前記予測コーディングが、内部予測および/または相互予測を含む、方法。
  9. 請求項2に記載の方法において、前記第2特徴マップを圧縮するステップが、前記第2特徴マップの異なる領域を異なる圧縮率で圧縮するステップを含み、前記領域の各々の圧縮率が、当該領域における関心度に依存し、第1関心度の領域の圧縮率が、第2関心度の領域の圧縮率よりも低く、前記第1関心度が、前記第2関心度よりも高い、方法。
  10. 請求項2に記載の方法において、前記第2特徴マップを圧縮するステップが、前記第2特徴マップに対して非均一量子化を実行するステップを含み、前記第2特徴マップの異なる領域が、異なる量子化刻みを有する、方法。
  11. 請求項10に記載の方法において、前記第2特徴マップの領域の各々の量子化刻みが、領域の画像の複雑さ、前記第2特徴マップにおける領域の位置、領域の重要度、領域における特異的特徴の存在または不在、および領域における特異的特徴の数の内少なくとも1つに基づいて決定される、方法。
  12. 請求項11に記載の方法において、特異的特徴が、前記ディープ・ニューラル・ネットワークのアプリケーション・シナリオにおいて関心のある特徴を含む、方法。
  13. 請求項11に記載の方法において、領域における特異的特徴の存在または不在にしたがって領域の各々の量子化刻みを決定するステップが、
    前記領域における前記特異的特徴の存在に応答して、第1量子化刻みを前記領域に割り当てるステップと、
    前記領域における前記特異的特徴の不在に応答して、第2量子化刻みを前記領域に割り当てるステップと、
    を含み、前記第1量子化刻みが、前記第2量子化刻みよりも小さい、方法。
  14. 請求項11に記載の方法において、前記領域における前記特異的特徴の数にしたがって前記領域の各々の量子化刻みを決定するステップが、
    前記領域における前記特異的特徴の数が、予め設定された閾値よりも多いことに応答して、第3量子化刻みを前記領域に割り当てるステップと、
    前記領域における前記特異的特徴の数が前記所定の閾値以下であることに応答して、第4量子化刻みを前記領域に割り当てるステップと、
    を含み、前記第3量子化刻みが、前記第4量子化刻みよりも小さい、方法。
  15. 請求項1に記載の方法において、前記ディープ・ニューラル・ネットワークが、物体認識のために、ビデオ・データを処理するように構成される、方法。
  16. チップであって、
    パラメータ記憶空間および特徴マップ記憶空間を含むメモリであって、前記パラメータ記憶空間が、ディープ・ニューラル・ネットワークのパラメータを格納するように構成され、前記特徴マップ記憶空間が、前記ディープ・ニューラル・ネットワークの特徴マップを格納するように構成される、メモリと、
    前記メモリと協働して、請求項1〜15までのいずれか一項に記載の方法を実行するように構成されたディープ・ニューラル・ネットワーク・エンジンと、
    を備える、チップ。
  17. 請求項16に記載のチップにおいて、前記メモリがランダム・アクセス・メモリを含む、チップ。
  18. 請求項16に記載のチップにおいて、前記チップが、人工知能ビジョン・チップを含む、チップ。
  19. 請求項18に記載のチップにおいて、前記チップが、更に、
    画像信号を処理するように構成された画像信号処理(ISP)ユニットと、
    オーディオおよびビデオ信号をエンコードならびにデコードするように構成されたマルチメディア信号コデックと、
    を含む、チップ。
  20. 電子デバイスであって、
    画像および/またはビデオ・データをキャプチャするように構成された撮像センサと、
    請求項16〜19のいずれか一項に記載のチップであって、ディープ・ニューラル・ネットワークを使用して、前記キャプチャされた画像および/またはビデオ・データを、物体の認識のために処理するように構成される、チップと、
    を含む、電子デバイス。
  21. 電子デバイスであって、
    プロセッサと、
    プログラムを格納するメモリと、
    を含み、前記プログラムが命令を含み、前記プロセッサによって前記命令が実行されると、請求項1〜15のいずれか一項に記載の方法を前記電子デバイスに実行させる、電子デバイス。
  22. プログラムを格納するコンピュータ読み取り可能記憶媒体であって、前記プログラムが命令を含み、プロセッサによって前記命令が実行されると、請求項1〜15のいずれか一項に記載の方法を前記プロセッサに実行させる、コンピュータ読み取り可能記憶媒体。
JP2021517260A 2019-05-24 2020-05-12 ディープ・ニューラル・ネットワークのための圧縮方法、チップ、電子デバイス、および媒体 Active JP7164904B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910441306.3 2019-05-24
CN201910441306.3A CN110163370B (zh) 2019-05-24 2019-05-24 深度神经网络的压缩方法、芯片、电子设备及介质
PCT/CN2020/089696 WO2020238603A1 (zh) 2019-05-24 2020-05-12 深度神经网络的压缩方法、芯片、电子设备及介质

Publications (2)

Publication Number Publication Date
JP2021535689A true JP2021535689A (ja) 2021-12-16
JP7164904B2 JP7164904B2 (ja) 2022-11-02

Family

ID=67632716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021517260A Active JP7164904B2 (ja) 2019-05-24 2020-05-12 ディープ・ニューラル・ネットワークのための圧縮方法、チップ、電子デバイス、および媒体

Country Status (6)

Country Link
US (1) US11272188B2 (ja)
EP (1) EP3836035A4 (ja)
JP (1) JP7164904B2 (ja)
KR (1) KR102332490B1 (ja)
CN (1) CN110163370B (ja)
WO (1) WO2020238603A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023512570A (ja) * 2020-02-07 2023-03-27 華為技術有限公司 画像処理方法および関連装置

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580382B2 (en) * 2019-04-26 2023-02-14 Rohde & Schwarz Gmbh & Co. Kg Method and apparatus providing a trained signal classification neural network
US11494616B2 (en) * 2019-05-09 2022-11-08 Shenzhen Malong Technologies Co., Ltd. Decoupling category-wise independence and relevance with self-attention for multi-label image classification
CN110163370B (zh) * 2019-05-24 2021-09-17 上海肇观电子科技有限公司 深度神经网络的压缩方法、芯片、电子设备及介质
CN110497925B (zh) * 2019-09-06 2020-08-25 合肥德泰科通测控技术有限公司 一种用于轨道无人驾驶的障碍物识别方法
EP4075343A4 (en) * 2019-12-31 2023-01-25 Huawei Technologies Co., Ltd. DEVICE AND METHOD FOR SYNCHRONIZING DATA IN A LEAD OF A NEURAL NETWORK
CN111294512A (zh) * 2020-02-10 2020-06-16 深圳市铂岩科技有限公司 图像处理方法、装置、存储介质及摄像装置
WO2021177652A1 (ko) * 2020-03-02 2021-09-10 엘지전자 주식회사 피쳐 양자화/역양자화를 수행하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장하는 기록 매체
CN111326167B (zh) * 2020-03-09 2022-05-13 广州深声科技有限公司 一种基于神经网络的声学特征转换方法
US20210303975A1 (en) * 2020-03-25 2021-09-30 Arm Limited Compression and decompression of weight values
US11551089B2 (en) * 2020-03-31 2023-01-10 Ati Technologies Ulc Feature reordering based on sparsity for improved memory compression transfers during machine learning jobs
WO2021237513A1 (zh) * 2020-05-27 2021-12-02 深圳市大疆创新科技有限公司 数据压缩存储的系统、方法、处理器及计算机存储介质
KR20210156538A (ko) * 2020-06-18 2021-12-27 삼성전자주식회사 뉴럴 네트워크를 이용한 데이터 처리 방법 및 데이터 처리 장치
CN111832692A (zh) * 2020-07-14 2020-10-27 Oppo广东移动通信有限公司 数据处理方法、装置、终端及存储介质
WO2022021083A1 (zh) * 2020-07-28 2022-02-03 深圳市大疆创新科技有限公司 图像处理方法、图像处理装置及计算机可读存储介质
CN112115948A (zh) * 2020-09-15 2020-12-22 电子科技大学 一种基于深度学习的芯片表面字符识别方法
CN112712174B (zh) * 2020-12-31 2022-04-08 湖南师范大学 全频域卷积神经网络的硬件加速器、加速方法和图像分类方法
CN112749799B (zh) * 2020-12-31 2022-04-12 湖南师范大学 基于自适应ReLU的全频域卷积神经网络的硬件加速器、加速方法和图像分类方法
EP4303762A1 (en) * 2021-03-01 2024-01-10 Zhejiang University Encoding method, decoding method, encoder, decoder, and storage medium
CN113033779B (zh) * 2021-03-18 2024-08-27 联想(北京)有限公司 一种基于设备参数的模型处理方法及电子设备
US20220300800A1 (en) * 2021-03-19 2022-09-22 Vianai Systems, Inc. Techniques for adaptive generation and visualization of quantized neural networks
AU2021202141A1 (en) * 2021-04-07 2022-10-27 Canon Kabushiki Kaisha 4:2:0 packing of feature maps
US20220335655A1 (en) * 2021-04-19 2022-10-20 Tencent America LLC Substitutional input optimization for adaptive neural image compression with smooth quality control
US20220383121A1 (en) * 2021-05-25 2022-12-01 Applied Materials, Inc. Dynamic activation sparsity in neural networks
CN117529922A (zh) * 2021-06-29 2024-02-06 夏普株式会社 用于在多维数据的编码中压缩特征数据的系统和方法
CN113507605B (zh) * 2021-09-10 2021-12-07 南通海腾铜业有限公司 基于人工智能的危险区域监控视频压缩存储方法和系统
CN113947185B (zh) * 2021-09-30 2022-11-18 北京达佳互联信息技术有限公司 任务处理网络生成、任务处理方法、装置、电子设备及存储介质
CN113837310B (zh) * 2021-09-30 2023-05-23 四川新网银行股份有限公司 多尺度融合的证件翻拍识别方法、装置、电子设备和介质
KR102650992B1 (ko) 2022-05-12 2024-03-22 중앙대학교 산학협력단 블록 변환을 이용한 신경망 압축 장치 및 방법
WO2024057721A1 (ja) * 2022-09-16 2024-03-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 復号装置、符号化装置、復号方法、及び符号化方法
CN116011551B (zh) * 2022-12-01 2023-08-29 中国科学技术大学 优化数据加载的图采样训练方法、系统、设备及存储介质
CN118250463A (zh) * 2022-12-23 2024-06-25 维沃移动通信有限公司 图像处理方法、装置及设备
WO2024196160A1 (ko) * 2023-03-22 2024-09-26 엘지전자 주식회사 피쳐 부호화/복호화 방법, 장치, 비트스트림을 저장한 기록 매체 및 비트스트림 전송 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082181A1 (en) * 2016-05-13 2018-03-22 Samsung Electronics, Co. Ltd. Neural Network Reordering, Weight Compression, and Processing
US20180189981A1 (en) * 2016-12-30 2018-07-05 Intel Corporation System and method of encoding and decoding feature maps and weights for a convolutional neural network
US20180350110A1 (en) * 2017-05-31 2018-12-06 Samsung Electronics Co., Ltd. Method and device for processing multi-channel feature map images
WO2019050771A1 (en) * 2017-09-05 2019-03-14 Panasonic Intellectual Property Corporation Of America EXECUTION METHOD, EXECUTION DEVICE, LEARNING METHOD, LEARNING DEVICE, AND PROGRAM FOR DEEP NEURAL NETWORK

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100461867C (zh) * 2004-12-02 2009-02-11 中国科学院计算技术研究所 一种帧内图像预测编码方法
US10229356B1 (en) 2014-12-23 2019-03-12 Amazon Technologies, Inc. Error tolerant neural network model compression
GB201603144D0 (en) * 2016-02-23 2016-04-06 Magic Pony Technology Ltd Training end-to-end video processes
WO2017031630A1 (zh) * 2015-08-21 2017-03-02 中国科学院自动化研究所 基于参数量化的深度卷积神经网络的加速与压缩方法
KR102124714B1 (ko) * 2015-09-03 2020-06-19 미디어텍 인크. 비디오 코딩에서의 신경망 기반 프로세싱의 방법 및 장치
KR20170128080A (ko) * 2016-05-13 2017-11-22 삼성전자주식회사 신경 네트워크를 구현하는 방법 및 장치
KR102061615B1 (ko) * 2016-12-26 2020-01-02 한국과학기술원 인공 신경망 모델에서 메모리 효율성 및 학습 속도 향상을 위한 드롭아웃 방법과 이를 이용한 학습 방법
US10735023B2 (en) * 2017-02-24 2020-08-04 Texas Instruments Incorporated Matrix compression accelerator system and method
KR102499396B1 (ko) * 2017-03-03 2023-02-13 삼성전자 주식회사 뉴럴 네트워크 장치 및 뉴럴 네트워크 장치의 동작 방법
CN107092961B (zh) * 2017-03-23 2018-08-28 中国科学院计算技术研究所 一种基于模式频率统计编码的神经网络处理器及设计方法
US20180307987A1 (en) * 2017-04-24 2018-10-25 Intel Corporation Hardware ip optimized convolutional neural network
WO2018214913A1 (zh) * 2017-05-23 2018-11-29 上海寒武纪信息科技有限公司 处理方法及加速装置
CN109389210B (zh) * 2017-08-09 2021-06-18 上海寒武纪信息科技有限公司 处理方法和处理装置
CN107392868A (zh) * 2017-07-21 2017-11-24 深圳大学 基于全卷积神经网络的压缩双目图像质量增强方法及装置
CN109376856B (zh) * 2017-08-09 2022-07-08 上海寒武纪信息科技有限公司 数据处理方法及处理装置
KR102343648B1 (ko) * 2017-08-29 2021-12-24 삼성전자주식회사 영상 부호화 장치 및 영상 부호화 시스템
KR102535361B1 (ko) * 2017-10-19 2023-05-24 삼성전자주식회사 머신 러닝을 사용하는 영상 부호화기 및 그것의 데이터 처리 방법
US10721471B2 (en) * 2017-10-26 2020-07-21 Intel Corporation Deep learning based quantization parameter estimation for video encoding
US11989861B2 (en) * 2017-11-28 2024-05-21 Intel Corporation Deep learning-based real-time detection and correction of compromised sensors in autonomous machines
CN109523017B (zh) 2018-11-27 2023-10-17 广州市百果园信息技术有限公司 姿态检测方法、装置、设备及存储介质
US10937169B2 (en) * 2018-12-18 2021-03-02 Qualcomm Incorporated Motion-assisted image segmentation and object detection
CN109726799A (zh) 2018-12-27 2019-05-07 四川大学 一种深度神经网络的压缩方法
CN109766995A (zh) 2018-12-28 2019-05-17 钟祥博谦信息科技有限公司 深度神经网络的压缩方法与装置
CN110163370B (zh) * 2019-05-24 2021-09-17 上海肇观电子科技有限公司 深度神经网络的压缩方法、芯片、电子设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082181A1 (en) * 2016-05-13 2018-03-22 Samsung Electronics, Co. Ltd. Neural Network Reordering, Weight Compression, and Processing
US20180189981A1 (en) * 2016-12-30 2018-07-05 Intel Corporation System and method of encoding and decoding feature maps and weights for a convolutional neural network
US20180350110A1 (en) * 2017-05-31 2018-12-06 Samsung Electronics Co., Ltd. Method and device for processing multi-channel feature map images
WO2019050771A1 (en) * 2017-09-05 2019-03-14 Panasonic Intellectual Property Corporation Of America EXECUTION METHOD, EXECUTION DEVICE, LEARNING METHOD, LEARNING DEVICE, AND PROGRAM FOR DEEP NEURAL NETWORK

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
野水 泰之: "「JPEG2000最新動向」", 画像電子学会誌, vol. 第30巻, 第2号, JPN6021042216, 25 March 2001 (2001-03-25), pages 167 - 175, ISSN: 0004735945 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023512570A (ja) * 2020-02-07 2023-03-27 華為技術有限公司 画像処理方法および関連装置
JP7551759B2 (ja) 2020-02-07 2024-09-17 華為技術有限公司 画像処理方法および関連装置

Also Published As

Publication number Publication date
EP3836035A1 (en) 2021-06-16
WO2020238603A1 (zh) 2020-12-03
KR20210043626A (ko) 2021-04-21
EP3836035A4 (en) 2022-02-09
CN110163370B (zh) 2021-09-17
CN110163370A (zh) 2019-08-23
JP7164904B2 (ja) 2022-11-02
US11272188B2 (en) 2022-03-08
US20210266565A1 (en) 2021-08-26
KR102332490B1 (ko) 2021-12-01

Similar Documents

Publication Publication Date Title
JP7164904B2 (ja) ディープ・ニューラル・ネットワークのための圧縮方法、チップ、電子デバイス、および媒体
KR102301232B1 (ko) 다채널 특징맵 영상을 처리하는 방법 및 장치
KR102174777B1 (ko) 이미지의 품질 향상을 위하여 이미지를 처리하는 방법 및 장치
WO2021155832A1 (zh) 一种图像处理方法以及相关设备
US11570477B2 (en) Data preprocessing and data augmentation in frequency domain
KR20220070326A (ko) 비디오 코딩을 위한 변형 가능한 콘볼루션에 의한 예측 프레임 생성
CN114067007A (zh) 图像处理方法与装置、神经网络训练的方法与装置
TWI826160B (zh) 圖像編解碼方法和裝置
CN114096987A (zh) 视频处理方法及装置
Löhdefink et al. On low-bitrate image compression for distributed automotive perception: Higher peak snr does not mean better semantic segmentation
CN114066914A (zh) 一种图像处理方法以及相关设备
Jeong et al. An overhead-free region-based JPEG framework for task-driven image compression
CN115022637A (zh) 一种图像编码方法、图像解压方法以及装置
WO2022100140A1 (zh) 一种压缩编码、解压缩方法以及装置
US11403782B2 (en) Static channel filtering in frequency domain
KR102642059B1 (ko) 다양한 영상 신호 특성의 다중 모델을 이용한 영상 화질 향상 방법 및 장치
CN118318441A (zh) 特征图编解码方法和装置
WO2021179117A1 (zh) 神经网络通道数搜索方法和装置
Deshmukh Image compression using neural networks
WO2024199477A1 (zh) 图像解码和编码方法、装置、设备及存储介质
WO2023178662A1 (en) Image and video coding using multi-sensor collaboration and frequency adaptive processing
Kunwar Strategies in JPEG compression using Convolutional Neural Network (CNN)
CHABBIA Image compression based on machine learning technics
Al-Kafagi Hierarchical Autoregressive for Image Compression
CN114693811A (zh) 一种图像处理方法以及相关设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210325

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210325

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220119

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220714

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220714

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20220727

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220816

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221014

R150 Certificate of patent or registration of utility model

Ref document number: 7164904

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150