JP2022512023A - バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体 - Google Patents

バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022512023A
JP2022512023A JP2021546421A JP2021546421A JP2022512023A JP 2022512023 A JP2022512023 A JP 2022512023A JP 2021546421 A JP2021546421 A JP 2021546421A JP 2021546421 A JP2021546421 A JP 2021546421A JP 2022512023 A JP2022512023 A JP 2022512023A
Authority
JP
Japan
Prior art keywords
layer
shift
processing result
processing
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2021546421A
Other languages
English (en)
Inventor
王新江
周晟
▲馮▼俐▲銅▼
▲張▼▲偉▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2022512023A publication Critical patent/JP2022512023A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体に関する。前記方法は、複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化(BN:Batch Normalization)層に入力して正規化処理を行い、BN層の処理結果を得ることと、前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得ることと、前記シフトBN層の処理結果に対して活性化層の整流線形ユニット(ReLU:Rectified linear unit)によって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第1ターゲットネットワークを得ることと、を含む。

Description

(関連出願の相互参照)
本開示は、2019年7月19日に中国特許庁に出願された出願番号201910656284.2、発明の名称が「バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体」である中国特許出願の優先権を主張し、その全内容を引用により本願に援用する。
本開示は、データ処理技術分野に関し、特にバッチ正規化データの処理方法及び装置、電子機器及び記憶媒体に関する。
ディープニューラルネットワーク中でバッチ正規化(BN:Batch Normalization)を用いることにより、前記ニューラルネットワークが最大学習率を用いるとしても発散せず、同時に前記ニューラルネットワークの汎化性能を向上させることが可能となる。BN層の後に活性化層が接続されてもよく、活性化層で使用される活性化関数は、整流線形ユニット(ReLU:Rectified linear unit)であってもよい。BN+ReLUから構成される前記ニューラルネットワークの性能の向上を改善する必要がある。
本開示は、バッチ正規化データ処理に対する技術的解決手段を提供する。
本開示の一態様によれば、
複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化(BN)層に入力して正規化処理を行い、BN層の処理結果を得ることと、
前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得ることと、
前記シフトBN層の処理結果に対して活性化層の整流線形ユニット(ReLU)によって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第1ターゲットネットワークを得ることと、を含むバッチ正規化データの処理方法を提供する。
本開示を採用する場合、定数シフト量を設定して初期BNのシフト調整を行い、シフトBN層の処理結果を得ることによって、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータを、前記シフトBN層の処理結果によって、訓練可能領域に再び移動させるか、又は訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータに対して、前記シフトBN層の処理結果によってネットワークのプルーニングを行い、それによりネットワークの性能を改善する。
実現可能な方式において、前記複数のサンプルデータを訓練対象のターゲットネットワーク中のBN層に入力して正規化処理を行い、BN層の処理結果を得ることは、
前記複数のサンプルデータに対応する平均値及び分散に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理結果を得ることと、
前記BN層のスケール係数及びシフト係数に基づき、前記正規化処理結果に対して線形変換を行い、前記BN層の処理結果を得ることと、を含む、ことを特徴とする請求項1に記載の方法。
本開示を採用する場合、複数のサンプルデータに対して正規化処理を行い、前記BN層のスケール係数及びシフト係数に基づき、前記正規化処理の結果に対して線形変換を行い、前記BN層の処理結果を得ることができ、それによりサンプルデータの分散度を減らし、ネットワークの訓練を加速させるのに役立つ。
実現可能な方式において、前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得ることは、
前記定数シフト量を正の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、前記シフトBN層の処理結果を得ることを含む。
本開示を採用する場合、定数シフト量の値を正の数に設定し、定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得た後、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータを、前記シフトBN層の処理結果によって訓練可能領域に再び移動させる。
実現可能な方式において、前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得ることは、
前記定数シフト量を負の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、前記シフトBN層の処理結果を得ることを含む。
本開示を採用する場合、定数シフト量の値を負の数に設定し、定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得た後、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータに対して、前記シフトBN層の処理結果によってネットワークのプルーニングを行い、それによりネットワークのスパース性を保証する汎用のプルーニングネットワークを得ることができ、前記プルーニングネットワークを使用することでデータの演算量を低減することができる。
実現可能な方式において、前記シフトBN層の処理結果に対して活性化層のReLUによって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第1ターゲットネットワークを得ることは、
前記シフトBN層の処理結果に対して前記ReLUによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を得ることと、
損失関数の逆伝播に基づき、前記第1ターゲットネットワークを得ることと、を含む。
本開示を採用する場合、ReLUによって非線形マッピングを行い、損失関数の逆伝播を利用することにより、微分により勾配を得る演算量を減らし且つReLUはニューラルネットワーク中の一部の出力を0にし、それによりネットワークのスパース性の形成に役立つ。
実現可能な方式において、前記定数シフト量の値の範囲は[0.01、0.1]の間にある。
本開示を採用する場合、定数シフト量の値の範囲が[0.01、0.1]の間にある時、ネットワークパラメータが訓練不可領域に入ることを抑制し、それによりネットワークの性能を改善すると同時にBN層の表現力を互換することができる。
実現可能な方式において、前記定数シフト量の値の範囲は[-0.1、-0.01]の間にある。
本開示を採用する場合、定数シフト量の値の範囲が[-0.1、-0.01]の間にある時、ネットワークのプルーニングを促進し、それによりネットワーク訓練又はモデル推論の速度を向上させることができる。
本開示の一態様によれば、
画像データを取得することと、
前記バッチ正規化データの処理方法により得られた第1ターゲットネットワークを用いて、前記画像データに対して画像分類を行い、画像分類処理結果を得ることと、を含む画像分類方法を提供する。
本開示を採用する場合、第1ターゲットネットワークによって画像の分類を行うことは、データの演算量を少なくするだけでなく、画像分類の精度を高める。
本開示の一態様によれば、
画像データを取得することと、
前記バッチ正規化データの処理方法により得られた第1ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得ることと、を含む画像検出方法を提供する。
本開示を採用する場合、第1ターゲットネットワークによって画像検出を行うことは、データの演算量を少なくするだけでなく、画像検出の精度を高める。
本開示の一態様によれば、
ビデオ画像を取得することと、
前記バッチ正規化データの処理方法により得られた第1ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、
デコード及び再生処理のうちの少なくとも1つのビデオ処理を行い、ビデオ処理結果を得ることと、を含むビデオ処理方法を提供する。
本開示を採用する場合、第1ターゲットネットワークによってビデオ処理を行うことは、データの演算量を少なくするだけでなく且つビデオ処理の精度を高める。
本開示の一態様によれば、
複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化(BN)層に入力して正規化処理を行い、BN層の処理結果を得るための正規化ユニットと、
前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得るためのシフトユニットと、
前記シフトBN層の処理結果に対して活性化層の整流線形ユニット(ReLU)によって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第1ターゲットネットワークを得るための処理ユニットと、を含む、バッチ正規化データに対する処理装置を提供する。
実施可能な方法において、前記正規化ユニットは、
前記複数のサンプルデータに対応する平均値及び分散に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理結果を得て、
前記BN層のスケール係数及びシフト係数に基づき、前記正規化処理結果に対して線形変換を行い、前記BN層の処理結果を得る、ことに用いられる。
実施可能な方法において、前記シフトユニットは、
前記定数シフト量を正の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、前記シフトBN層の処理結果を得る、ことに用いられる。
実施可能な方法において、前記シフトユニットは、
前記定数シフト量を負の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、前記シフトBN層の処理結果を得る、ことに用いられる。
実施可能な方法において、前記処理ユニットは、
前記シフトBN層の処理結果に対して前記ReLUによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を得て、
損失関数の逆伝播に基づき、前記第1ターゲットネットワークを得る、ことに用いられる。
実現可能な方式において、前記定数シフト量の値の範囲は[0.01、0.1]の間にある。
実現可能な方式において、前記定数シフト量の値の範囲は[-0.1、-0.01]の間にある。
本開示の一態様によれば、
画像データを取得するための第1取得装置と、
前記バッチ正規化データの処理方法により得られた第1ターゲットネットワークを用いて、前記画像データに対して画分類を行い、画像分類処理結果を得るための第1プロセッサーと、を含む画像分類装置を提供する。
本開示の一態様によれば、
画像データを取得するための第2取得装置と、
前記バッチ正規化データの処理方法により得られた第1ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得るための第2プロセッサーと、を含む画像検出装置を提供する。
本開示の一態様によれば、
ビデオ画像を取得するための第3取得装置と、
前記バッチ正規化データの処理方法により得られた第1ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、デコード及び再生処理のうちの少なくとも1つのビデオ処理を行い、ビデオ処理結果を得るための第3プロセッサーと、を含むビデオ処理装置を提供する。
本開示の一態様によれば、
上記バッチ正規化データに対する処理の方法を実行するように構成されるプロセッサーと、
プロセッサー実行可能な命令を記憶するためのメモリと、を含む電子機器を提供する。
本開示の一態様において、プロセッサーにより実行される時に上記バッチ正規化データに対する処理の方法を実現するコンピュータプログラム命令が記憶されるコンピュータ読み取り可能な記憶媒体を提供する。
本開示の一態様によれば、電子機器内で実行する時に前記電子機器におけるプロセッサーが前記バッチ正規化データに対する処理を実現するための方法を実行するコンピュータ読み取り可能なコードを含むコンピュータプログラムを提供する。
本開示の実施例において、複数のサンプルデータを訓練対象のターゲットネットワーク中のBN層に入力して正規化処理を行い、BN層の処理結果を得て、前記複数のサンプルデータは複数の画像データに対して特徴抽出を行うことにより得られるものであり、前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得て、前記シフトBN層の処理結果に対して活性化層のReLUによって非線形マッピングを行い、クラス毎に損失関数を得た後に逆伝播し、第1ターゲットネットワークを得る。
本開示を採用する場合、BN層に対してシフト処理後に活性化層にアクセスし、シフトBN層の処理結果に対してReLUによって非線形マッピングを行った後、損失関数の逆伝播を行い、第1ターゲットネットワーク(前記第1ターゲットネットワークは訓練対象のターゲットネットワークに対して訓練を行った後に得られるターゲットネットワーク)を得て、シフトBN+ReLUを有する前記第1ターゲットネットワークは、定数シフト量を設定することによって初期BNのシフト調整を行い、シフトBN層の処理結果を得て、それにより訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータを、前記シフトBN層の処理結果によって訓練可能領域に再び移動させるか、又は訓練対象のターゲットネットワーク中の訓練不可領域のネットワークパラメータに対して、前記シフトBN層の処理結果によってネットワークのプルーニングを行い、それによりネットワークの性能を改善する。
以上の一般的な記述及び以下の詳細な記述はあくまでも例示的及び解釈的なものであり、本開示を限定するものではないことに留意すべきである。
本開示のその他の特徴及び態様をより明らかにするために、添付の図面を参照して、例示的な実施例を詳細に説明する。
本開示の実施例によるバッチ正規化データの処理方法のフローチャートを示す。 本開示の実施例による画像分類シーンに応用されるシフト処理効果の概略図を示す。 本開示の実施例による転移学習シーンに応用されるシフト処理効果の概略図を示す。 本開示の実施例によるバッチ正規化データに対するプロセッサーのブロック図を示す。 本開示の実施例による電子機器のブロック図を示す。 本開示の実施例による電子機器のブロック図を示す。。
明細書に含められて明細書の一部を構成する添付の図面は、本開示の実施例を示しており、明細書と共に本開示の技術的解決手段を説明することに用いられる。
以下、添付の図面を参照して本開示の様々な実施例、特徴及び態様について詳細に説明する。図面において、同一又は類似する機能を有する要素は、同じ参照符号で表される。実施例の様々な態様が図面に示されるが、特段の明記がない限り、図面は必ずしも縮尺通りに描かれていない。
特有の用語「例示的な」は、ここでは、「例、実施例又は例証として使用される」ことを意味する。「例示的な」目的として記述される何れの実施例も、必ずしも、他の実施例よりも優れている又は良いとして説明されるわけではない。
本明細書中の用語「及び/又は」は、関連対象の関連関係のみを説明したものであり、A及び/又はBは、単独でAが存在する、A及びBが同時に存在する、単独でBが存在するという3種類の関係が存在してよいことを表わしている。また、本明細書における用語「少なくとも1種」は複数種の中の任意の1種又は複数の少なくとも2種類の任意の組み合わせを表わす。例えば、A、B、C中の少なくとも1種を含むは、A、B及びCからなる集合から選択される任意の1種又は複数の要素を表わす。
また、本開示をよりよく説明するために、以下の発明を実施するための形態において多くの具体的な詳細を示す。当業者は特定の具体的詳細がなくても、本開示と同様に実施することが可能であることを留意するものとする。いくつかの実施例において、本開示の主題にハイライトを当てるために、当業者の周知の方法、手段、要素及び回路については詳細に説明しない。
ディープニューラルネットワークにおいて、BNは不可欠な正規化方法である。BNによって前記ニューラルネットワークが最大学習率を用いるとしても発散せず、同時にモデルの汎化能力を高めることができる。ReLUは前記ニューラルネットワークにおける非線形活性化関数である。その他の非線形活性化関数(例えば、Sigmoid、Tanh関数等)に対して、ReLUは負の値が入力された時の活性化値は常に0であるため、特徴のスパース属性を表現することができ、それによりネットワークの訓練をより早く収束させることが可能となる。
スパース属性について、ReLUは前記ニューラルネットワークにおける一部のニューロンの出力を0とすることができ、また前記ニューラルネットワークにおけるパラメータ演算に用いられる重みが0であり(全体の観点から考慮すると、一部の重みを削除する)、このようにネットワークにスパース性を備えさせ、パラメータの相互依存関係を減少させ、過学習の問題の発生を緩和することができ、且つ前記ニューラルネットワークにおけるパラメータ演算に用いられる重みが0であるため(全体の観点から考慮すると、一部の重みを削除する)、演算速度をより速くし、ネットワークの訓練をより速く収束させることができる。一実施例において、パラメータ演算の重みが10万個あり、このニューラルネットワークを携帯電話又は車載機器等の負荷が大きすぎてはいけない端末に実装する場合、演算量が非常に大きくなる。しかし、一部の重みを0にし(即ち、演算中から一部の重みを削除する)、ネットワークがスパース性を有する場合、ニューラルネットワークの多くのネットワーク性能に影響を与えないだけでなく、携帯電話又は車載機器等の端末に実装された前記ニューラルネットワークの動作効率を高めることができ、演算の負荷が予想を超えないようにする。このようなネットワークスパース性はユーザーの期待されるスパース性の結果であり、良いスパース性と呼ばれる。
スパース性について、ニューラルネットワーク中の重みが0のネットワークチャンネル(ニューラルネットワーク中の少なくとも1つに対応する入力出力からなるネットワークチャンネル)が多すぎると、不良なスパース性が現れるため、これは不利であり、このようなの不良なスパース性を削除又は抑制する必要がある。
ネットワークがスパース性を有するとデータ演算量を減らすことができるため、ネットワークがスパース性を有するという長所を考慮し、ニューラルネットワーク中に重みが0のネットワークチャンネル(ニューラルネットワーク中の少なくとも1つに対応する入力出力からなるネットワークチャンネル)が存在する場合、ネットワークパラメータが少なくなり、動作効率を高めることができる。即ち、前記ニューラルネットワーク中のパラメータ演算の一部の重みを0に設定する(全体の観点から考慮すると、一部の重みを削除する)と、演算速度をより速くすることができる。本開示を採用する場合、シフトBN層の処理結果に対してReLUによって非線形マッピングを行った後に損失関数の逆伝播を行い、第1ターゲットネットワークを得て、以下2つの態様に対していずれも改善することができる。複数のサンプルデータを訓練対象のターゲットネットワーク中のBN層に入力し正規化処理を行い、BN層の処理結果を得て、前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、定数シフト量に対して様々な値を取ることによって、様々なシフトBN層の処理結果を得ることができる。例えば、定数シフト量が正の数の時、BN層のシフト処理によって、第1ターゲットネットワークのネットワークスパース性を抑制することができる。定数シフト量が負の数の時、BN層のシフト処理によって、第1ターゲットネットワークのネットワークスパーク性を促進し、プルーニングネットワークを得ることができる。プルーニングネットワークについて、プルーニングネットワークによって深層ネットワークの煩雑な計算を減らすことができる。1つの典型的なプルーニングネットワークの段階的な説明としては、まず大きなネットワークモデルを訓練し、プルーニング処理を行い、最後にネットワークモデルの微調整を行う。プルーニングプロセスにおいて、ユーザーの期待する標準に基づき、無駄な重みをプルーニングし(一部の重みを削除する)、ネットワークモデルの精度及び性能を保証するために重要な重みのみを残しておく。プルーニング処理はモデル圧縮方法であり、ディープニューラルネットワークの稠密な接続に対してスパース性を導入し、「重要でない」重みを0に直接置き換えることによって0ではない重みの数を減らし、それによりネットワークモデルの実行効率を高めるという目的を達成する。
BN層中の正規化処理により、活性化層(非線形マッピングを実行するためのReLUを含む)がBN層の後に接続される時、前記ニューラルネットワークのネットワーク初期段階又は学習率が大きな状況下でBN層のパラメータに一区間の安定した訓練不可領域が現れ、パラメータが前記領域に入った後にサンプルデータ中から勾配を得て更新することができないため、L2損失関数の作用下で徐々に0に向かい、前記ネットワークチャンネルはプルーニング処理される。
訓練不可領域について、いわゆる訓練不可領域とは活性化層に入ったReLUの入力パラメータが負の数の時、ReLUの入力は常に0となり、勾配の戻り値がない。前記訓練不可領域が発生する原因は、BN層の2つのパラメータ、γの値が0.1のような小さい値であり、βの値が-100のような負の数である場合、BN層の出力結果がReLUの非線形マッピングを行った後に常に0となり、常に0である場合、勾配を求めることができず、言い換えれば勾配の戻り値がなく、それにより後続の損失関数の逆伝播において勾配降下が行われず、パラメータが更新されないことである。
以上の記述によると、実際の応用において、発明者は、BN+ReLUのネットワークにおいてパラメータが訓練不可領域に入る確率は訓練初期及び学習率が大きい時にランダムであるが、訓練プロセスでは一部の選択性が現れ、即ち損失に対する影響が小さいパラメータは訓練不可領域に入りプルーニングされる可能性が高いことを発見する。そのため、このような現象は上記説明された両面性を表わしており、一態様において、プルーニング方法としてネットワーク性能が基本的に変わらない状況において、ネットワークのパラメータの数を減少させるために、スパース性を促進する必要がある。別の様態において、逆にネットワークの表現力を下降させ、さらにネットワークの性能を悪くするため、スパース性を抑制する必要がある。
ディープニューラルネットワーク中でBN+ReLUのネットワークを組み合わせた方式を採用すると、一部のネットワークチャンネル(例えば、BNパラメータのチャンネル)が訓練できず折り畳まれるため(collapse)(さらに前の層の畳み込み演算も訓練できなくなる)、一態様において、本開示はBNの形式を改善する。具体的には、初期BNのシフト調整を行うために、指定した定数シフト量(この場合、正の数を取る)を増やす。調整後に得たシフトBN層の処理結果に基づき、ネットワーク訓練の初期段階又は学習率が大きく訓練不可領域に入る時、L2損失関数の作用下で訓練可能領域に再び戻り、それによりネットワークの表現力を保証し、スパース性を抑制することができる。前記方法は、上記BN+ReLUのネットワークを組み合わせた方式が一部のネットワークチャンネルが訓練できず折り畳まれる(collapse)という問題を解消することができる。前記方法は各BNに対して元の形式上に1つの指定した正の定数シフト量(例えば、定数α)を加えることにより、ネットワークにプルーニング効果を有させ、訓練プロセス中に訓練不可領域にあるネットワークパラメータを訓練可能領域に戻すことができ、それによりネットワークの性能を向上させることができる。別の様態において、本開示はBNの形式を改善し、具体的には初期BNのシフト調整を行うために、指定した定数シフト量(この場合、負の数を取る)を増やす。調整後に得たシフトBN層の処理結果に基づき、元のBNの表現力を完全に互換することを基礎として、BNバイアス項を超えたシフトを調整することによってネットワークが直接訓練され、プルーニングネットワークを得ることができる。元のBNの形式に対して微調整を行うため、前記方法はシフトBN(psBN、post shifted Batch ormalization)と呼ばれ、ユーザーは自身の必要(例えば、ネットワークの性能をさらに向上させ、又はネットワークチャンネルのスパース性を増やす)に応じて、対応するシフト定数αの符号を選択することができる。即ち、ユーザーの必要に応じてαの値を正の数又は負の数に選択することができる。
指摘すべきことは、ネットワーク中に複数のBN層が存在する可能性があり、本開示においては、各BN層に対して、増やした定数シフト量に基づきBN層に対してシフト調整を行うことができ、BN層の処理結果を得ることができる。また、複数のBN層中で採用される定数シフト量は統一のオフセット量であってよい。即ち、同一ネットワークの少なくとも1つのBN層はいずれも前記定数シフト量を増やし、同じ値を設定し、具体的な値はユーザーの必要に応じて設定され、前記定数シフト量は正の数でも負の数であってもよい。
各BN層について、定数シフト量の値が正の数である場合、定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得た後、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータを、前記シフトBN層の処理結果によって、訓練可能領域に再び移動させる。
各BN層について、定数シフト量の値が負の数である場合、定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得た後、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータに対して、前記シフトBN層の処理結果によってネットワークのプルーニングを行い、それによりネットワークのスパース性を保証する汎用のプルーニングネットワークを得て、前記プルーニングネットワークを使用することでデータの演算量を低減することができる。
図1は、本開示の実施例によるバッチ正規化データの処理方法のフローチャートを示し、前記方法はバッチ正規化データに対する処理装置に用いられる。例えば、前記処理装置が端末装置又はサーバー又はその他の処理装置に実装され実行する状況下において、画像分類、画像検出及びビデオ処理等を実行することができる。端末装置はユーザー機器(UE:User Equipment)、モバイル機器、携帯電話、コードレス電話、携帯情報端末(PDA:Personal Digital Assistant)、モバイルデバイス、コンピュータデバイス、車載デバイス、ウェアラブルデバイス等であってよい。いくつかの実施可能な方式において、前記処理方法はプロセッサーによりメモリに記憶されたコンピュータ可読命令を呼び出す方式で実現される。図1に示すように、前記フローチャートは、ステップS101、ステップS102、及びステップS103を含む。
ステップS101は、複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のBN層に入力して正規化処理を行い、BN層の処理結果を得る。
一実施例において、訓練対象のターゲットネットワークは画像処理に対するグラフ畳み込みネットワーク(例えば、CNN畳み込みニューラルネットワーク)であってよく、以下の1)乃至6)を含む。1)入力層:サンプルデータを入力するためである。2)畳み込み層:畳み込みカーネルを用いて特徴抽出及び特徴マッピングを行う。3)活性化層:畳み込みも線形演算であるため、非線形マッピングを追加し、活性化層にアクセスする必要がある。活性化層には非線形マッピングを行うためのReLUが含まれて、非線形マッピングを行うようにする。畳み込み層の計算は線形計算であるため、活性化層は畳み込み層の出力結果に対して非線形マッピングを1度行うことができる。4)プーリング層:ダウンサンプリングを行い、特徴マップに対してスパース化処理を行い、データ演算量を減らす。5)全接続(FC)層:CNNの末尾で再フィッティングを行い、特徴情報の損失を減少させる。6)出力層:結果を出力するためである。ここで、中間にはさらに、畳み取りニューラルネットワーク(CNN)中で特徴に対して正規化を行うためのBN層、特定の(画像)データに対して領域を分ける単独学習の切り分け層、独立で表現学習を行う部分に対して融合を行う融合層等のその他機能層を使用してもよい。
いくつかの実施可能な方式において、畳み込み層及び活性化層を合わせて畳み込み層と呼ぶことができ、BN層は、特徴に対する前処理を行うために入力層に位置してもよく、畳み込み層に位置してもよい。本開示で用いられるニューラルネットワークの具体的な構造は上記説明に限定されない。
ステップS102は、前記BN層の処理結果に対して、指定した定数シフト量(例えば、α)に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得る。
一実施例において、シフト調整の計算式は式(1)に示すとおりである。
Figure 2022512023000002
ここで、
Figure 2022512023000003
はステップS101で得られたBN層の処理結果(又は元のBN層の処理結果という)である。
Figure 2022512023000004
はBN層の入力特徴、γはBN層のスケール係数、βはBN層のシフト係数、μβはサンプルデータの平均値、σβはサンプルデータの標準偏差、εは固定定数であり、10-5であってよい。ReLUは一定であり、例えばReLU(y)=max(0、y)。yはシフトBN層の処理結果であり、シフトBN(psBN)に表されてもよく、BNと同じ表現力を有し、特徴パラメータが訓練期間に訓練不可領域に入る時、再度訓練が可能となる。シフトBN(psBN)に基づきネットワークモデルの性能を向上させることができ、例えば、CIFAR-10の分類及びMS-COCO2017上の物体検出とすることができる
ステップS103は、前記シフトBN層の処理結果に対して活性化層の活性化関数ReLUによって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第1ターゲットネットワークを得る。
一実施例において、訓練対象のターゲットネットワークは、BN+ReLUから構成されるニューラルネットワークであってもよく、ステップS101~ステップS103の訓練により得られる第1ターゲットネットワークはBN(psBN)+ReLUから構成されるニューラルネットワークである。
本開示を採用する1つの完全な実施例において、複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化(BN)層に入力し正規化処理を行い、BN層(一般的なBN又は元のBN)の処理結果を得ることができる。前記処理結果は具体的に正規化及び正規化に対してさらに線形変換を行った後に得られる処理結果である。前記複数のサンプルデータは、複数の画像データに対して特徴抽出を行うことにより得られる(複数の画像データを取得し、前記複数の画像データから抽出された複数の特徴パラメータに基づきサンプルデータセットを取得し、サンプルデータセット中には複数のサンプルデータを含む)。前記正規化処理については、バッチ処理BN中で複数のバッチサンプルデータ(特徴パラメータ)からその平均値及び分散を得て、平均値及び分散に基づきサンプルデータに対して正規化を行い、正規化された特徴パラメータに対して線形変換(BNにスケール計数及びシフト係数を乗算する)を行い、BN層(一般的なBN又は元のBN)の処理結果を得る。前記BN層の処理結果に対して、指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得て、即ち一般的なBN又は元のBNの出力に対して、微小な定数シフト量(ユーザーの必要に応じてシフト量の符号を選択可能)を加え、シフトBN層の処理結果(新たなBN層の出力結果)を得て、前記シフトBN層の処理結果に対して活性化層の活性関数ReLUによって非線形マッピングを行った後、損失関数の逆伝播を行い、反復訓練により上記第1ターゲットネットワークを得る。
本開示を採用する場合、定数シフト量を設定して初期BNのシフト調整を行い、シフトBN層の処理結果を得ることによって、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータを、前記シフトBN層の処理結果によって、訓練可能領域に再び移動させるか、又は訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータに対して、前記シフトBN層の処理結果によってネットワークのプルーニングを行い、それによりネットワークの性能を改善する。
実現可能な方式において、複数のサンプルデータを訓練対象のターゲットネットワーク中のBN層に入力して正規化処理を行い、BN層の処理結果を得ることは、前記複数のサンプルデータに対応する平均値(σβ)及び分散(σβ)に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理の結果を得ることと、前記BN層のスケール係数(γ)及びシフト係数(β)に基づき、前記正規化処理結果に対して線形変換を行い、前記BN層の処理結果を得ることと、を含む。
本開示を採用する場合、複数のサンプルデータに対して正規化処理を行い、前記BN層のスケール係数及びシフト係数に基づき、前記正規化処理の結果に対して線形変換を行い、前記BN層の処理結果を得て、それによりサンプルデータの分散度を減少させ、ネットワークの訓練を加速させるのに役立つ。
実現可能な方式において、前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得ることは、前記定数シフト量を正の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、シフトBNの処理結果を得ることを含む。
本開示を採用する場合、定数シフト量の値を正の数に設定し、定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得た後、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータを、前記シフトBN層の処理結果によって訓練可能領域に再び移動させる。
一実施例において、αが正の数であり、例えばαの値が[0.01、0.1]の間にある場合、BN層の表現力を互換することができ、即ちBNパラメータの事前分布を変えず、ネットワークに悪影響を与えないと同時に、パラメータが訓練不可領域に入ることを抑制する効果を果たすことができる。サンプルデータが初期BN層中の特徴パラメータであり、ネットワーク訓練の初期段階又は学習率が大きい時に前記特徴パラメータが訓練不可領域に入り、シフトBN層の処理結果により前記特徴パラメータを訓練可能領域に戻すことができ、パラメータが訓練不可領域に入ることを抑制するため、ネットワークの表現力を保証し、ネットワークの性能を改善する。具体的には、α>0、即ち値が正の数の時、BN層のパラメータが訓練不可領域に入った後、BN層のパラメータγとβは重み減衰の作用下で同じ速度で0まで減衰するが、バイアス項には正の定数αが存在するため、バイアス項は最終的に0より大きく、ReLUが線形領域(即ち、勾配はReLUを経て戻り値がある)に入り、それによりニューラルネットワーク中のニューロンは再活性化(即ちBN層のパラメータが訓練可能領域に再度入る)されるため、αが正の数の時、スパース性を抑制するという目的を達成することができる。
本開示を採用する場合、ターゲットネットワーク(例えば、ニューラルネットワーク中において画像処理に対するグラフ畳み込みネットワークのようなビデオデータに対する処理に用いられる)を訓練することによって、その性能を向上させる。主にBN+ReLUのネットワークに対して、ReLUは一定であり、指定した定数シフト量によってBNが生成したシフトを調整した後にpsBNを得て、訓練後のターゲットネットワークがpsBN+ReLUであるネットワークを得て、それによりネットワーク性能が最適化される。ここで、αが正の数の時、抑制の作用を果たし、即ちネットワークがスパース性を有する時に不良なスパース性の結果を削除するために、訓練可能領域に移動する。
実現可能な方式において、前記BN層の処理結果に対して、指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得ることは、前記指定した定数シフト量を負の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、シフトBN層の処理結果を得ることを含む。
本開示を採用する場合、定数シフト量の値を負の数に設定し、定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得た後、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータに対して、前記シフトBN層の処理結果によってネットワークのプルーニングをい、それによりネットワークのスパース性を保証する汎用のプルーニングネットワークを得ることができ、前記プルーニングネットワークを使用することでデータの演算量を低減することができる。
一実施例において、αが負の数であり、例えばαの値が[-0.1、-0.01]の間にある場合、BN層の表現力を互換することができ、BN層パラメータの事前分布を変えず、ネットワークに悪影響を与えないと同時にネットワークのパラメータをより少なくすることができる。サンプルデータは初期BN層中の特徴パラメータであり、この時により多くのBNパラメータを訓練不可領域に置くことができ、それにより前記部分のチャンネルが訓練プロセス中にプルーニングされる。ネットワークのプルーニングが促進されるため、ネットワーク訓練又はモデル推論の速度を加速し、それによりネットワークが有するパラメータを減らすと同時に、ネットワークの性能への影響が少ない。具体的には、α<0の時の原理は上記α>0の状況と逆であり、バイアス項に負の定数αを加えた後、ReLUに入った入力パラメータを0より小さくするようにし、勾配はReLUにより戻り値がないため、BN層のパラメータは重み減衰の作用下で0まで減衰し、ネットワークのプルーニングの機能を実現するため、αが負の数の時にスパース性を促進するという目的を達成することができる。
本開示を採用する場合、ターゲットネットワーク(例えば、ニューラルネットワーク中において画像処理に対するグラフ畳み込みネットワークのようなビデオデータに対する処理に用いられる)を訓練することによって、その性能を向上させる。主にBN+ReLUのネットワークに対して、ReLUは一定であり、指定した定数シフト量によってBNが生成したシフトを調整した後にpsBNを得て、訓練後のターゲットネットワークがpsBN+ReLUであるネットワークを得て、それによりネットワーク性能が最適化される。ここで、αが負の数の時、促進の作用を果たし、即ちプルーニングネットワークを得る。
実現可能な方式において、前記シフトBN層の処理結果に対して活性化層のReLUによって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第1ターゲットネットワークを得ることは、前記シフトBN層の処理結果に対して前記ReLUによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を取得し、損失関数の逆伝播に基づき、前記第1ターゲットネットワークを得ることを含む。ニューラルネットワークは多層構造であり、ここで説明する前記シフトBN+ReLUはニューラルネットワークにおける一層の構造のみであるため、前記層の出力はクラス毎に伝達された後、最終的に損失関数を得ることができる。
本開示を採用する場合、ReLUによって非線形マッピングを行い、損失関数の逆伝播を利用することにより、微分により勾配を得る演算量を減らし且つReLUはニューラルネットワーク中の一部の出力を0にし、それによりネットワークのスパース性の形成に役立つ。
上記訓練により得られる第1ターゲットネットワークの場合、対応する応用シーンは、
本開示にかかる画像分類方法であって、画像データを取得することと、本開示の上記方法により得られた第1ターゲットネットワークを用いて、前記画像データに対して画像分類を行い、画像分類処理結果を得ることと、を含む、画像分類方法と、
本開示にかかる画像検出方法であって、画像データを取得することと、本開示の上記方法により得られた第1ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得ることと、を含む、画像検出方法と、
本開示にかかるビデオ処理方法であって、ビデオ画像を取得することと、本開示の上記方法により得られた第1ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、デコード及び再生処理のうちの少なくとも1つのビデオ処理を行い、ビデオ処理結果を得ることと、を含む、ビデオ処理方法と、を含む。
図2は、本開示の実施例による画像分類シーンに応用されるシフト処理効果の概略図を示し、BN+ReLUの動作は訓練対象のネットワークを採用して画像分類を行って得た処理結果であり、BN+LeakyReLUの動作は一般的に最適化された訓練ネットワークを採用して画像分類を行って得た処理結果であり、psBN+ReLUの動作は本開示のネットワークに対して訓練を行って得た第1ターゲットネットワークを採用して画像分類を行った処理結果(複数回訓練した平均精度)であり、ネットワークはResNet-20及びVGG16-BNの2つのネットワークを例として使用する。図2から、本開示を採用して得た処理結果は複数の結果の中で最も優れていることが分かる。本開示を採用する場合、BN+ReLUのネットワークに対して、ReLUは一定で、指定した定数シフト量によってBNが発生したシフトを調整した後psBNを取得し、得たターゲットネットワークはpsBN+ReLUのネットワークであり、ネットワーク性能が最適化される。そのうち、漏洩整流線形ユニット(Leaky ReLU:Leaky Rectified linear unit)とReLUは同じ活性化関数であり、Leaky ReLUはReLUの変形であり、前記Leaky ReLUの出力は負値の入力に対して勾配がとても小さく、導関数が常に0ではないため、ニューラルネットワーク中のデッドニューロンの出現を減少させ、勾配に基づいた学習(非常に遅いが)が許可され、Relu関数がマイナス区間に入った後、ニューロンが学習しないという問題を引き起こす。
図3は、本開示の実施例による転移学習シーンに応用されるシフト処理効果の概略図を示す。画像サイズが500又は800の画像データに対して、RetinaNetネットワークにより得られる画像検出効果APbbox(RetinaNet)(即ち、検出した平均精度)において、括弧内の値は関連技術により得られる精度であり、括弧外の値は発明者がRetinaNetネットワークを復元して画像検出を行った結果であり、APbbox(RetinaNet+psBN)は本開示の方法を使用してRetinaNetネットワークを、シフトBNを備えたRetinaNetネットワークに修正して画像検出を行い取得した検出精度である。図3中から、本開示により得られる値はより高いことが分かる。即ち、精度が従来の関連技術により得られるものより高く、本開示のAPbbox(RetinaNet+psBN)により得られる画像検出効果がより優れていることは明らかである。
発明を実施するための形態の上記方法において、各ステップの順序は厳格な実行順序を意味するものではなく、各ステップの具体的な実行順序はその機能及び内部論理により決定されるべきであり、本開示の実施形態の実施プロセスに対する限定として解釈されるべきではないことは当業者には明らかなことである。
本開示に言及される上記各方法の実施例は、原理や論理を逸脱しない範囲内で、互いに結合して形成された結合後の実施例は、紙幅の都合上、本開示では詳しい説明を省略する。
また、本開示はさらにバッチ正規化データに対する処理装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムを提供し、上記はいずれも本開示で提供される何れかのバッチ正規化化データに対する処理方法に用いられるもため、相応の技術的解決手段や説明及び参照方法部分の相応する記載に関しては詳しい説明を省略する。
図4は、本開示の実施例によるバッチ正規化データに対する処理装置のブロック図を示す。図4に示すように、前記処理装置は、複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のBN層に入力して正規化処理を行い、BN層の処理結果を得るための正規化ユニット31と、前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得るためのシフトユニット32と、前記シフトBN層の処理結果に対して活性化層のReLUによって非線形マッピングを行い、クラス毎に損失関数を得た後逆伝播し、第1ターゲットネットワークを得るための処理ユニット33と、を含む。
実現可能な方式において、前記正規化ユニットは、前記複数のサンプルデータに対応する平均値及び分散に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理結果を得て、前記BN層のスケール係数及びシフト係数に基づき、前記正規化処理の結果に対して線形変換を行い、前記BN層の処理結果を得ることに用いられる。
実施可能な方法において、前記シフトユニットは、前記定数シフト量を正の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、前記シフトBN層の処理結果を得ることに用いられる。それにより、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータを、前記シフトBN層の処理結果によって、訓練可能領域に再び移動させる。
実現可能な方式において、前記シフトユニットは、前記定数シフト量を負の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、前記シフトBN層の処理結果を得ることに用いられる。それにより、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータに対して、前記シフトBN層の処理結果によってネットワークのプルーニングを行い、プルーニングされたネットワークを得る。
実現可能な方式において、前記処理ユニットは、前記シフトBN層の処理結果に対して前記ReLUによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を得て、損失関数の後逆伝播に基づき、前記1ターゲットネットワークを得ることに用いられる。
実現可能な方式において、前記定数シフト量の値の範囲は[0.01、0.1]の間にある。
実現可能な方式において、前記定数シフト量の値の範囲は[-0.1、-0.01]の間にある。
本開示の画像分類装置は、画像データを取得するための第1取得装置と、本開示の上記方法により得られた第1ターゲットネットワークを用いて、前記画像データに対して画像分類を行い、画像分類処理結果を得るための第1プロセッサーと、を含む。
本開示の画像検出装置は、ビデオ画像を収集するための第2取得装置と、本開示の上記方法により得られた第1ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得るための第2プロセッサーと、を含む。
本開示のビデオ処理装置は、ビデオ画像を取得するための第3取得装置と、本開示の上記方法により得られた第1ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、デコード及び再生処理のうちの少なくとも1つのビデオ処理を行い、ビデオ処理結果を得るための第3プロセッサーと、を含む。
指摘すべきことは、上記第1取得装置、第2取得装置及び第3取得装置が実行する取得操作は、取得の方法が限定されず、例えば、第1取得装置、第2取得装置及び第3取得装置が自身で取得操作(例えば、画像データ又はビデオ画像等に対する収集操作)を実行し、操作結果を得てもよく、また、例えば、第1取得装置、第2取得装置及び第3取得装置が無線又は有線通信方式によりその他の取得操作が実行可能な処理装置と通信を行い、前記処理装置により取得操作(例えば、画像データ又はビデオ画像等に対する収集操作)が実行され得られた操作結果を得てもよい。ここで、有線通信方式のインターフェースはシリアル通信インターフェース、バスインターフェース及びその他タイプのインターフェースに限定されない。
いくつかの実施例において、本開示の実施例が提供する装置が有する機能又は含むモジュールは上記方法の実施例に記載された方法を実行するために用いられてよく、具体的な実現方法は上記方法の実施例の記述を参照してよく、簡潔にするために、ここでは詳しい説明を省略する。
本開示の実施例はさらに、プロセッサーにより実行される時に上記方法を実現するコンピュータプログラム命令が記憶されたコンピュータ読み取り可能な記憶媒体を提供する。コンピュータ読み取り可能な記憶媒体は揮発性コンピュータ読み取り可能な記憶媒体又は不揮発性コンピュータ読み取り可能な記憶媒体であってよい。
本開示の実施例はさらに、上記方法を実現するように構成されるプロセッサーと、プロセッサー実行可能な命令を記憶するためのメモリとを含む電子機器を提供する。
電子機器は端末、サーバー又はその他の形態の機器が提供されてよい。
本実施例はさらに、電子機器内で実行する時に前記電子機器におけるプロセッサーが上記任意の一実施例を実現するための方法を実行するコンピュータ読み取り可能なコードを含むコンピュータプログラムを提供する。
図5は、例示的な実施例に基づき示された電子機器800のブロック図である。例えば、電子機器800は携帯電話、コンピュータ、デジタルブロードキャスト端末、通信機器、ゲームのコントロールパネル、タブレット、医療機器、健康器具、パーソナルデジタルアシスタント等の端末であってよい。
図5を参照すると、電子機器800は、処理アセンブリ802、メモリ804、電源アセンブリ806、マルチメディアアセンブリ808、音声アセンブリ810、入力/出力(I/O)のインターフェース812、センサアセンブリ814、及び通信アセンブリ816の1つ又は複数のアセンブリを含んでよい。
処理アセンブリ802は、一般的に表示、電話の呼び出し、データ通信、カメラ操作及び記録操作と関連する電子機器800の全体的な操作を制御する。処理アセンブリ802は1つ又は複数のプロセッサー820を含むことで命令を実行し、上記の方法の全て又は一部のステップを完成することができる。また、処理アセンブリ802は1つ又は複数のモジュールを含んでよく、処理アセンブリ802及びその他アセンブリの間のインタラクションに便利である。例えば、処理アセンブリ802はマルチメディアモジュールを含んでよく、マルチメディアアセンブリ808及び処理アセンブリ802の間のインタラクションに便利である。
メモリ804は、様々なタイプのデータを記憶することで電子機器800の操作をサポートするように構成される。これらのデータの例は、電子機器800上での操作に用いられるすべてのアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオ等を含む。メモリ804は、スタティックRAM(SRAM)、電気的に消去可能なPROM(EEPROM)、消去可能なPROM(EPROM)、プログラマブルROM(PROM)、リードオンリーメモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクのようなあらゆるタイプの揮発性又は不揮発性記憶装置又はそれらの組合せから実現される。
電源アセンブリ806は、電子機器800の各種アセンブリに電力を提供する。電源アセンブリ806は電源管理システム、1つ又は複数の電源、及び電子機器800のために電力を生成、管理及び分配するのに関連するその他のアセンブリを含んでよい。
マルチメディアアセンブリ808は、前記電子機器800とユーザーの間に1つの出力インターフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは液晶ディスプレイ(LCD)及びタッチパネル(TP)を含んでよい。スクリーンがタッチパネルを含む場合、スクリーンはタッチスクリーンが実現され、ユーザーからの入力信号を受け取ることが可能である。タッチパネルはタッチ、スライド及びタッチパネル上のジェスチャーを感知するために1つ又は複数のタッチセンサを含む。前記タッチセンサはタッチ又はスライド動作のエッジを感知できるだけでなく、前記タッチ又はスライド操作に関連する持続時間や圧力を検出することができる。いくつかの実施例において、マルチメディアアセンブリ808は1つのフロントカメラ及び/又はリアカメラを含む。電子機器800が操作モード、例えば撮影モード又はビデオモードである場合、フロントカメラ及び/又はリアカメラは外部のマルチメディアデータを受け取ることができる。各フロントカメラ及びリアカメラは、固定の光学レンズシステム又は焦点距離及び光学ズーム機能を有してよい。
音声アセンブリ810は、音声信号を出力及び/又は入力するように構成される。例えば、音声アセンブリ810は1つのマイク(MIC)を含み、電子機器800が電話モード、記録モード及び音声認識モード等の操作モードである場合、マイクが外部の音声信号を受信するように構成される。受信された音声信号はさらにメモリ804に記憶されるか又は通信アセンブリ816を経由して送信されてよい。いくつかの実施例において、音声アセンブリ810はさらに音声信号の出力に用いられるスピーカーを含む。
I/Oインターフェース812は処理アセンブリ802と周辺のインターフェースモジュールとの間にインターフェースを提供し、上記周辺のインターフェースモジュールはキーボード、スクロール、ボタン等であってよい。これらのボタンは、ホームページボタン、ボリュームボタン、スタートボタン及びロックボタンを含むがそれに限定されない。
センサアセンブリ814は、電子機器800に各態様の状態評価を提供するために用いられる1つ又は複数のセンサを含む。例えば、センサアセンブリ814は電子機器800のオン/オフ状態、アセンブリの相対位置を検出することができる。例えば、前記アセンブリが電子機器800のディスプレイ及びキーパッドである場合、センサアセンブリ814はさらに電子機器800又は電子機器800のアセンブリの位置の変化、ユーザーと電子機器800が接触しているか否か、電子機器800の方位又は加速/減速、電子機器800の温度変化を検出することができる。センサアセンブリ814は近接センサを含んでよく、いずれの物理的な接触がない時に付近の物体の存在を検出することに用いられるように構成される。センサアセンブリ814は、イメージングに使用するためのCMOS又はCCDイメージセンサのような光学センサをさらに含んでもよい。いくつかの実施例において、当前記センサアセンブリ814は加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサをさらに含んでよい。
通信アセンブリ816は、電子機器800とその他装置との間で有線通信又は無線通信がしやすいように構成される。電子器800は、WiFi、2G又は3G、又はそれらの組み合わせのような通信規格に基づく無線ネットワークにアクセス可能である。1つの例示的な実施例において、通信アセンブリ816はブロードキャストチャネルを経由して外部のブロードキャスト管理システムからのブロードキャスト信号又はブロードキャスト関連情報を受け取ることができる。1つの例示的な実施例において、前記通信アセンブリ816は近距離通信を促進するために近距離無線通信(NFC)モジュールをさらに含む。例えば、NFCモジュールは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWD)技術、Bluetooth(登録商標)(BT)技術及びその他の技術に基づき実現可能である。
例示的な実施例において、電子機器800は1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサー(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサー又はその他電子素子によって実現されてよく、上記方法の実行に用いられる。
例示的な実施例において、さらにコンピュータプログラム命令を含むメモリ804のようなコンピュータ読み取り可能な記憶媒体を提供し、上記コンピュータプログラム命令は電子機器800のプロセッサー820により実行され、上記方法を完了することができる。
図6は、例示的な実施例に基づき示された電子機器900のブロック図である。例えば、電子機器900は1つのサーバーが提供されてよい。図6を参照すると、電子機器900は処理アセンブリ922を含み、さらに1つ又は複数のプロセッサー、及び処理アセンブリ922により実行可能な命令(例えば、アプリケーションプログラム)を記憶するためのメモリ932により代表されるメモリリソースを含む。メモリ932中に記憶されたアプリケーションプログラムはそれぞれが1組の命令に対応する1つ又はそれ以上のモジュールを含んでよい。また、処理アセンブリ992は上記方法を実行するために命令を実行するように構成される。
電子機器900は、電子機器900の電源管理を実行するように構成される1つの電源アセンブリ926、電子機器900をネットワークに接続するように構成される1つの有線又は無線ネットワークインターフェース950、及び1つの入出力(I/O)インターフェース958を含んでよい。電子機器900は、Windows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)、 Linux(登録商標)、FreeBSDTM又は類似するようなメモリ932に記憶される操作システムに基づき操作することができる。
例示的な実施例において、さらにコンピュータプログラム命令を含むメモリ932のようなコンピュータ読み取り可能な記憶媒体を提供し、上記コンピュータプログラム命令は電子機器900の処理アセンブリ922の実行により、上記方法を完了することができる。
本開示は、システム、方法及び/又はコンピュータプログラム製品であってよい。コンピュータプログラム製品は、プロセッサーに本開示の各態様を実現させるためのコンピュータ読み取り可能なプログラム命令が搭載されているコンピュータ読み取り可能な記憶媒体を備えてよい。
コンピュータ読み取り可能な記憶媒体は、命令実行デバイスにより使用される命令を保持及び記憶することが可能なデバイスであってよい。コンピュータ読み取り可能な記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記任意の適切な組み合わせであってよいがそれに限定されない。コンピュータ読み取り可能な記憶媒体のさらに具体的な例(非しらみつぶしのリスト)は、携帯式コンピュータディスク、HDD、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なPROM(EPROM又はフラッシュメモリ)、スタティックRAM(SRAM)、CD-ROM、DVD、メモリースティック、フロッピー(登録商標)ディスク、エンコーダー、例えば命令が記憶されているパンチカード又は溝内突起構造、及び上記の任意の適切な組み合わせを含む。ここで使用されるコンピュータ読み取り可能な記憶媒体は、例えば、無線電波又はその他自由伝播の電磁波、波動又はその他伝送媒体によって伝播される電磁波(例えば、光ケーブルを通過する光パルス)、又はケーブルによって伝送される電気信号等の瞬時な信号とは解釈されない。
ここで記載されるコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体から各計算/処理デバイスにダウンロードされるか、又はネットワーク、例えば、インターネット、ローカルネットワーク、ワイドエリアネットワーク及び/又はワイヤレスネットワークによって外部のコンピュータ又は外部記憶デバイスにダウンロードされる。ネットワークは、銅伝送ケーブル、光ファイバ伝送、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイ及び/又はエッジサーバーを含んでよい。各計算/処理デバイス中のネットワークカード又はネットワークインターフェースはネットワークからコンピュータ読み取り可能なプログラム命令を受け取り、当前記コンピュータ読み取り可能なプログラム命令を転送することにより、各計算/処理デバイス中のコンピュータ読み取り可能な記憶媒体中に記憶される。
本開示の操作を実行するためのコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、ステータス設定データ、又は1種又は複数種のプログラミング言語の任意の組み合わせで編纂されたソースコード又はオブジェクトコードであってよく、前記プログラミング言語はSmalltalk、C++等のオブジェクト指向プログラミング言語、及び「C」言語又は類似するプログラミング言語のような通常の手続き型プログラミング言語を含む。コンピュータ読み取り可能なプログラム命令は、ユーザーのコンピュータ上で完全に実行されてよく、ユーザーのコンピュータ上で一部実行されてよく、独立したソフトウェアパッケージとして実行されてよく、ユーザーのコンピュータ上の一部のリモートコンピュータ又はサーバー上で実行されてよい。リモートコンピュータの状況に関して、リモートコンピュータはローカル・エリア・ネットワーク(LAN)又はワイド・エリア・ネットワーク(WAN)を含む任意の種類のネットワークを介してユーザーのコンピュータに接続される、又は、外部コンピュータに接続されてよい(例えば、インターネットサービスプロバイダを利用してインターネットを介して接続する)。いくつかの実施例において、コンピュータ読み取り可能なプログラム命令のステータス情報を利用してプログラマブル・ロジック回路、FPGA、又はプログラマブル・ロジック・アレイ(PLA)のように電子回路をパーソナライゼーションし、前記電子回路はコンピュータ読み取り可能なプログラム命令を実行することにより、本開示の実施例の各態様を実現することができる。
ここで、本開示の実施例の方法、デバイス(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照すると、本開示の実施例の各態様を記載する。フローチャート及び/又はブロック図の各枠及び/又はブロック図中の各枠の組合せは、すべてコンピュータ読み取り可能なプログラム命令によって実現されることを留意すべきである。
これらのコンピュータ読み取り可能なプログラム命令は汎用コンピュータ、専用コンピュータ又はその他プログラマブルデータ処理装置のプロセッサーに提供されることで機器が生成され、これらの命令がコンピュータ又はその他のプログラマブルデータ処理装置のプロセッサーにより実行される時に、フローチャート及び/又はブロック図中の1つ又は複数の枠中に規定された機能/動作を実現する装置が生み出される。これらのコンピュータ読み取り可能なプログラム命令をコンピュータ読み取り可能な記憶媒体中に記憶させてもよく、これらの命令はコンピュータ、プログラマブルデータ処理装置及び/又はその他デバイスを特定の方法で動作させることができ、命令を記憶したコンピュータ読み取り可能な媒体は製造品を含み、フローチャート及び/又はブロック図中の1つ又は複数の枠中で規定された機能/動作の各態様を実現する命令を含む。
コンピュータ読み取り可能なプログラム命令をコンピュータ、その他プログラマブルデータ処理装置、又はその他デバイス上にロードしてもよく、コンピュータ、その他プログラマブルデータ処理装置又はその他の装置上で一連の操作ステップが実行されることにより、コンピュータが実現するプロセスを生み出すことができ、それによりコンピュータ、その他プログラマブルデータ処理装置、又はその他装置上で実行された命令がフローチャート及び/又はブロック図中の1つ又は複数の枠中に規定された機能/動作を実現する。
図面中のフローチャート及びブロック図は本開示の複数の実施例のシステム、方法及びコンピュータ製品に基づく実現可能な体系構造、機能及び操作を示している。この点において、フローチャート又はブロック図における各枠は、1つ又は複数の規定された論理機能の実現に用いられる実行可能な命令を含むモジュール、プログラムセグメント又は命令の一部分を表わすことができる。いくつかの代替実施態様として、枠に示された機能は、図面に示された順番と異なる順番で実行されてもよい。例えば、2つの連続した枠は、関連する機能に応じて、実際にほぼ並行に実行されてもよく、逆の順番で実行されてもよい。ブロック図及び/又はフローチャート中の各枠、及びブロック図及び/又はフローチャート中の枠の組み合わせは、規定された機能又は動作を実行する、ハードウェアに基づく専用システムに基づき実現されてよく、又は専用ハードウェアとコンピュータの命令の組合せで実現されてもよい。
論理を逸脱しない範囲内で、本願の異なる実施例は互いに結合されてもよく、異なる実施例の記載にある程度偏りがある場合、偏りのある記載部分はその他実施例の記載を参照されたい。
以上、本開示の各実施例を説明し、上記説明は例示的なものであり、網羅的なものではなく、公開された実施例に限定されない。本開示の各実施例の範囲及び精神を逸脱しない範囲で、当業者であれば各種の修正や変更を想到し得ることは明らかである。本明細書で使用される用語は、各実施例の原理、実際の使用又は業界における技術に対する改善をもっとも良く説明するように又は、当業者が本明細書に開示された各実施例を理解できるように選択される。
本開示の一態様によれば、電子機器内で実行する時に前記電子機器におけるプロセッサーが前記バッチ正規化データに対する処理を実現するための方法を実行するコンピュータ読み取り可能なコードを含むコンピュータプログラムを提供する。
例えば、本願は以下の項目を提供する。
(項目1)
バッチ正規化データの処理方法であって、
複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化(BN)層に入力して正規化処理を行い、BN層の処理結果を得ることと、
前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得ることと、
前記シフトBN層の処理結果に対して活性化層の整流線形ユニット(ReLU)によって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第1ターゲットネットワークを得ることと、を含む、
ことを特徴とする方法。
(項目2)
前記複数のサンプルデータを訓練対象のターゲットネットワーク中のBN層に入力して正規化処理を行い、BN層の処理結果を得ることは、
前記複数のサンプルデータに対応する平均値及び分散に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理結果を得ることと、
前記BN層のスケール係数及びシフト係数に基づき、前記正規化処理結果に対して線形変換を行い、前記BN層の処理結果を得ることと、を含む、
ことを特徴とする項目1に記載の方法。
(項目3)
前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得ることは、
前記定数シフト量を正の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、前記シフトBN層の処理結果を得ることを含む、
ことを特徴とする項目1又は2に記載の方法。
(項目4)
前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得ることは、
前記定数シフト量を負の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、前記シフトBN層の処理結果を得ることを含む、
ことを特徴とする項目1又は2に記載の方法。
(項目5)
前記シフトBN層の処理結果に対して活性化層のReLUによって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第1ターゲットネットワークを得ることは、
前記シフトBN層の処理結果に対して前記ReLUによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を得ることと、
損失関数の逆伝播に基づき、前記第1ターゲットネットワークを得ることと、を含む、
ことを特徴とする項目1~4のいずれか1項に記載の方法。
(項目6)
前記定数シフト量の値の範囲が[0.01、0.1]の間にある、
ことを特徴とする項目3に記載の方法。
(項目7)
前記定数シフト量の値の範囲が[-0.1、-0.01]の間にある、
ことを特徴とする項目4に記載の方法。
(項目8)
画像分類方法であって、
画像データを取得することと、
項目1~7のいずれか1項に記載の方法により得られた第1ターゲットネットワークを用いて、前記画像データに対して画像分類を行い、画像分類処理結果を得ることと、を含む、
ことを特徴とする画像分類方法。
(項目9)
画像検出方法であって、
画像データを取得することと、
項目1~7のいずれか1項に記載の方法により得られた第1ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得ることと、を含む、
ことを特徴とする画像検出方法。
(項目10)
ビデオ処理方法であって、
ビデオ画像を取得することと、
項目1~7のいずれか1項に記載の方法により得られた第1ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、デコード及び再生処理のうちの少なくとも1つのビデオ処理を行い、ビデオ処理結果を得ることと、を含む、
ことを特徴とするビデオ処理方法。
(項目11)
バッチ正規化データに対する処理装置であって、
複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化(BN)層に入力して正規化処理を行い、BN層の処理結果を得るための正規化ユニットと、
前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得るためのシフトユニットと、
前記シフトBN層の処理結果に対して活性化層の整流線形ユニット(ReLU)によって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第1ターゲットネットワークを得るための処理ユニットと、を含む、
ことを特徴とする装置。
(項目12)
前記正規化ユニットは、
前記複数のサンプルデータに対応する平均値及び分散に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理結果を得て、
前記BN層のスケール係数及びシフト係数に基づき、前記正規化処理結果に対して線形変換を行い、前記BN層の処理結果を得る、ことに用いられる、
ことを特徴とする項目11に記載の装置。
(項目13)
前記シフトユニットは、
前記定数シフト量を正の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、前記シフトBN層の処理結果を得ることに用いられる、
ことを特徴とする項目11又は12に記載の装置。
(項目14)
前記シフトユニットは、
前記定数シフト量を負の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、前記シフトBN層の処理結果を得ることに用いられる、
ことを特徴とする項目11又は12に記載の装置。
(項目15)
前記処理ユニットは、
前記シフトBN層の処理結果に対して前記ReLUによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を得て、
損失関数の逆伝播に基づき、前記第1ターゲットネットワークを得る、ことに用いられる、
ことを特徴とする項目11~14のいずれか1項に記載の装置。
(項目16)
前記定数シフト量の値の範囲が[0.01、0.1]の間にある、
ことを特徴とする項目13に記載の装置。
(項目17)
前記定数シフト量の値の範囲が[-0.1、-0.01]の間にある、
ことを特徴とする項目14に記載の装置。
(項目18)
画像分類装置であって、
画像データを取得するための第1取得装置と、
項目1~7のいずれか1項に記載の方法により得られた第1ターゲットネットワークを用いて、前記画像データに対して画像分類を行い、画像分類処理結果を得るための第1プロセッサーと、を含む、
ことを特徴とする画像分類装置。
(項目19)
画像検出装置であって、
画像データを取得するための第2取得装置と、
項目1~7のいずれか1項に記載の方法により得られた第1ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得るための第2プロセッサーと、を含む、
ことを特徴とする画像検出装置。
(項目20)
ビデオ処理装置であって、
ビデオ画像を取得するための第3取得装置と、
項目1~7のいずれか1項に記載の方法により得られた第1ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、デコード及び再生処理のうちの少なくとも1つのビデオ処理を行い、ビデオ処理結果を得るための第3プロセッサーと、を含む、
ことを特徴とするビデオ画像処理装置。
(項目21)
電子機器であって、
項目1~7、項目8、項目9、項目10のいずれか1項に記載の方法を実行するように構成されるプロセッサーと、
プロセッサー実行可能な命令を記憶するためのメモリと、を含む、
ことを特徴とする電子機器。
(項目22)
プロセッサーにより実行される時に項目1~7、項目8、項目9、項目10のいずれか1項に記載の方法を実現するコンピュータプログラム命令が記憶されている、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
(項目23)
電子機器内で実行する時に前記電子機器におけるプロセッサーが項目1~7、項目8、項目9、項目10のいずれか1項を実現するための方法を実行するコンピュータ読み取り可能なコードを含む、
ことを特徴とするコンピュータプログラム。

Claims (23)

  1. バッチ正規化データの処理方法であって、
    複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化(BN)層に入力して正規化処理を行い、BN層の処理結果を得ることと、
    前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得ることと、
    前記シフトBN層の処理結果に対して活性化層の整流線形ユニット(ReLU)によって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第1ターゲットネットワークを得ることと、を含む、
    ことを特徴とする方法。
  2. 前記複数のサンプルデータを訓練対象のターゲットネットワーク中のBN層に入力して正規化処理を行い、BN層の処理結果を得ることは、
    前記複数のサンプルデータに対応する平均値及び分散に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理結果を得ることと、
    前記BN層のスケール係数及びシフト係数に基づき、前記正規化処理結果に対して線形変換を行い、前記BN層の処理結果を得ることと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得ることは、
    前記定数シフト量を正の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、前記シフトBN層の処理結果を得ることを含む、
    ことを特徴とする請求項1又は2に記載の方法。
  4. 前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得ることは、
    前記定数シフト量を負の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、前記シフトBN層の処理結果を得ることを含む、
    ことを特徴とする請求項1又は2に記載の方法。
  5. 前記シフトBN層の処理結果に対して活性化層のReLUによって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第1ターゲットネットワークを得ることは、
    前記シフトBN層の処理結果に対して前記ReLUによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を得ることと、
    損失関数の逆伝播に基づき、前記第1ターゲットネットワークを得ることと、を含む、
    ことを特徴とする請求項1~4のいずれか1項に記載の方法。
  6. 前記定数シフト量の値の範囲が[0.01、0.1]の間にある、
    ことを特徴とする請求項3に記載の方法。
  7. 前記定数シフト量の値の範囲が[-0.1、-0.01]の間にある、
    ことを特徴とする請求項4に記載の方法。
  8. 画像分類方法であって、
    画像データを取得することと、
    請求項1~7のいずれか1項に記載の方法により得られた第1ターゲットネットワークを用いて、前記画像データに対して画像分類を行い、画像分類処理結果を得ることと、を含む、
    ことを特徴とする画像分類方法。
  9. 画像検出方法であって、
    画像データを取得することと、
    請求項1~7のいずれか1項に記載の方法により得られた第1ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得ることと、を含む、
    ことを特徴とする画像検出方法。
  10. ビデオ処理方法であって、
    ビデオ画像を取得することと、
    請求項1~7のいずれか1項に記載の方法により得られた第1ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、デコード及び再生処理のうちの少なくとも1つのビデオ処理を行い、ビデオ処理結果を得ることと、を含む、
    ことを特徴とするビデオ処理方法。
  11. バッチ正規化データに対する処理装置であって、
    複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化(BN)層に入力して正規化処理を行い、BN層の処理結果を得るための正規化ユニットと、
    前記BN層の処理結果に対して指定した定数シフト量に基づき初期BNのシフト調整を行い、シフトBN層の処理結果を得るためのシフトユニットと、
    前記シフトBN層の処理結果に対して活性化層の整流線形ユニット(ReLU)によって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第1ターゲットネットワークを得るための処理ユニットと、を含む、
    ことを特徴とする装置。
  12. 前記正規化ユニットは、
    前記複数のサンプルデータに対応する平均値及び分散に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理結果を得て、
    前記BN層のスケール係数及びシフト係数に基づき、前記正規化処理結果に対して線形変換を行い、前記BN層の処理結果を得る、ことに用いられる、
    ことを特徴とする請求項11に記載の装置。
  13. 前記シフトユニットは、
    前記定数シフト量を正の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、前記シフトBN層の処理結果を得ることに用いられる、
    ことを特徴とする請求項11又は12に記載の装置。
  14. 前記シフトユニットは、
    前記定数シフト量を負の数に設定し、前記定数シフト量によって初期BNのシフト調整を行い、前記シフトBN層の処理結果を得ることに用いられる、
    ことを特徴とする請求項11又は12に記載の装置。
  15. 前記処理ユニットは、
    前記シフトBN層の処理結果に対して前記ReLUによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を得て、
    損失関数の逆伝播に基づき、前記第1ターゲットネットワークを得る、ことに用いられる、
    ことを特徴とする請求項11~14のいずれか1項に記載の装置。
  16. 前記定数シフト量の値の範囲が[0.01、0.1]の間にある、
    ことを特徴とする請求項13に記載の装置。
  17. 前記定数シフト量の値の範囲が[-0.1、-0.01]の間にある、
    ことを特徴とする請求項14に記載の装置。
  18. 画像分類装置であって、
    画像データを取得するための第1取得装置と、
    請求項1~7のいずれか1項に記載の方法により得られた第1ターゲットネットワークを用いて、前記画像データに対して画像分類を行い、画像分類処理結果を得るための第1プロセッサーと、を含む、
    ことを特徴とする画像分類装置。
  19. 画像検出装置であって、
    画像データを取得するための第2取得装置と、
    請求項1~7のいずれか1項に記載の方法により得られた第1ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得るための第2プロセッサーと、を含む、
    ことを特徴とする画像検出装置。
  20. ビデオ処理装置であって、
    ビデオ画像を取得するための第3取得装置と、
    請求項1~7のいずれか1項に記載の方法により得られた第1ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、デコード及び再生処理のうちの少なくとも1つのビデオ処理を行い、ビデオ処理結果を得るための第3プロセッサーと、を含む、
    ことを特徴とするビデオ画像処理装置。
  21. 電子機器であって、
    請求項1~7、請求項8、請求項9、請求項10のいずれか1項に記載の方法を実行するように構成されるプロセッサーと、
    プロセッサー実行可能な命令を記憶するためのメモリと、を含む、
    ことを特徴とする電子機器。
  22. プロセッサーにより実行される時に請求項1~7、請求項8、請求項9、請求項10のいずれか1項に記載の方法を実現するコンピュータプログラム命令が記憶されている、
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
  23. 電子機器内で実行する時に前記電子機器におけるプロセッサーが請求項1~7、請求項8、請求項9、請求項10のいずれか1項を実現するための方法を実行するコンピュータ読み取り可能なコードを含む、
    ことを特徴とするコンピュータプログラム。
JP2021546421A 2019-07-19 2019-10-11 バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体 Ceased JP2022512023A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910656284.2 2019-07-19
CN201910656284.2A CN110390394B (zh) 2019-07-19 2019-07-19 批归一化数据的处理方法及装置、电子设备和存储介质
PCT/CN2019/110597 WO2021012406A1 (zh) 2019-07-19 2019-10-11 批归一化数据的处理方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
JP2022512023A true JP2022512023A (ja) 2022-02-01

Family

ID=68286957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021546421A Ceased JP2022512023A (ja) 2019-07-19 2019-10-11 バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体

Country Status (6)

Country Link
US (1) US20210241117A1 (ja)
JP (1) JP2022512023A (ja)
CN (1) CN110390394B (ja)
SG (1) SG11202104263QA (ja)
TW (1) TW202105260A (ja)
WO (1) WO2021012406A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10241528B1 (en) 2015-12-01 2019-03-26 Energyhub, Inc. Demand response technology utilizing a simulation engine to perform thermostat-based demand response simulations
US10746425B1 (en) 2017-03-08 2020-08-18 Energyhub, Inc. Thermal modeling technology
US10770897B1 (en) 2017-10-17 2020-09-08 Energyhub, Inc. Load reduction optimization
CN112861592B (zh) * 2019-11-28 2023-12-29 北京达佳互联信息技术有限公司 图像生成模型的训练方法、图像处理方法及装置
CN111144556B (zh) * 2019-12-31 2023-07-07 中国人民解放军国防科技大学 面向深度神经网络训练和推理的范围批处理归一化算法的硬件电路
CN111539460A (zh) * 2020-04-09 2020-08-14 咪咕文化科技有限公司 图像分类方法、装置、电子设备及存储介质
US11735916B2 (en) 2020-09-22 2023-08-22 Energyhub, Inc. Autonomous electrical grid management
US11355937B2 (en) * 2020-09-22 2022-06-07 Energy Hub, Inc. Electrical grid control and optimization
CN112446428B (zh) * 2020-11-27 2024-03-05 杭州海康威视数字技术股份有限公司 一种图像数据处理方法及装置
CN112561047B (zh) * 2020-12-22 2023-04-28 上海壁仞智能科技有限公司 用于处理数据的装置、方法和计算机可读存储介质
CN112541857B (zh) * 2020-12-24 2022-09-16 南开大学 基于增强表现力神经网络批归一化的图像表征方法及系统
CN112926646B (zh) * 2021-02-22 2023-07-04 上海壁仞智能科技有限公司 数据批量标准化方法、计算设备和计算机可读存储介质
CN113706647B (zh) * 2021-07-30 2024-02-13 浪潮电子信息产业股份有限公司 一种图像上色方法及相关装置
CN115879513B (zh) * 2023-03-03 2023-11-14 深圳精智达技术股份有限公司 一种数据的层次化标准化方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018068752A (ja) * 2016-10-31 2018-05-10 株式会社Preferred Networks 機械学習装置、機械学習方法及びプログラム
WO2018148526A1 (en) * 2017-02-10 2018-08-16 Google Llc Batch renormalization layers
JP2019512938A (ja) * 2016-03-09 2019-05-16 ソニー株式会社 量子化パラメータに基づくビデオ処理のためのシステム及び方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573731B (zh) * 2015-02-06 2018-03-23 厦门大学 基于卷积神经网络的快速目标检测方法
US9633306B2 (en) * 2015-05-07 2017-04-25 Siemens Healthcare Gmbh Method and system for approximating deep neural networks for anatomical object detection
CN106779062A (zh) * 2016-11-23 2017-05-31 苏州科技大学 一种基于残差网络的多层感知机人工神经网络
CN108229497B (zh) * 2017-07-28 2021-01-05 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备
CN107480640A (zh) * 2017-08-16 2017-12-15 上海荷福人工智能科技(集团)有限公司 一种基于二值卷积神经网络的人脸对齐方法
CN108108677A (zh) * 2017-12-12 2018-06-01 重庆邮电大学 一种基于改进的cnn人脸表情识别方法
CN109492556B (zh) * 2018-10-28 2022-09-20 北京化工大学 面向小样本残差学习的合成孔径雷达目标识别方法
CN109754002A (zh) * 2018-12-24 2019-05-14 上海大学 一种基于深度学习的隐写分析混合集成方法
CN110009051A (zh) * 2019-04-11 2019-07-12 浙江立元通信技术股份有限公司 特征提取单元及方法、dcnn模型、识别方法及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019512938A (ja) * 2016-03-09 2019-05-16 ソニー株式会社 量子化パラメータに基づくビデオ処理のためのシステム及び方法
JP2018068752A (ja) * 2016-10-31 2018-05-10 株式会社Preferred Networks 機械学習装置、機械学習方法及びプログラム
WO2018148526A1 (en) * 2017-02-10 2018-08-16 Google Llc Batch renormalization layers

Also Published As

Publication number Publication date
CN110390394B (zh) 2021-11-05
SG11202104263QA (en) 2021-05-28
WO2021012406A1 (zh) 2021-01-28
CN110390394A (zh) 2019-10-29
US20210241117A1 (en) 2021-08-05
TW202105260A (zh) 2021-02-01

Similar Documents

Publication Publication Date Title
JP2022512023A (ja) バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体
CN111581488B (zh) 一种数据处理方法及装置、电子设备和存储介质
TW202113680A (zh) 人臉和人手關聯檢測方法及裝置、電子設備和電腦可讀儲存媒體
KR20220009965A (ko) 네트워크 트레이닝 방법 및 장치, 타깃 검출 방법 및 장치와 전자 기기
CN110909815B (zh) 神经网络训练、图像处理方法、装置及电子设备
CN110659690B (zh) 神经网络的构建方法及装置、电子设备和存储介质
JP7096888B2 (ja) ネットワークモジュール、割り当て方法及び装置、電子機器並びに記憶媒体
CN109165738B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
JP2022520120A (ja) 顔画像認識方法及び装置、電気機器並びに記憶媒体
JP7098763B2 (ja) 画像処理方法及び装置、電子機器、並びに記憶媒体
CN111259967B (zh) 图像分类及神经网络训练方法、装置、设备及存储介质
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
WO2022247103A1 (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
KR20210090691A (ko) 데이터 처리 방법 및 장치, 전자 기기 및 기억 매체
WO2022247128A1 (zh) 图像处理方法及装置、电子设备和存储介质
CN110909861A (zh) 神经网络优化方法及装置、电子设备和存储介质
TW202044068A (zh) 訊息處理方法及其裝置、電子設備和儲存媒體
TW202213374A (zh) 抗體的預測方法、電子設備、電腦可讀儲存介質
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN111988622B (zh) 视频预测方法及装置、电子设备和存储介质
JP2022508990A (ja) 顔認識方法及び装置、電子機器、並びに記憶媒体
KR20240046777A (ko) 활동 인식 방법 및 장치, 전자 장치 및 저장 매체
CN116091208A (zh) 基于图神经网络的信贷风险企业识别方法和装置
CN111694768A (zh) 运算方法、装置及相关产品
CN115035440A (zh) 时序动作提名的生成方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210421

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220818

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221207

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20230421