JP2022512023A

JP2022512023A - バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体

Info

Publication number: JP2022512023A
Application number: JP2021546421A
Authority: JP
Inventors: 王新江; 周晟; ▲馮▼俐▲銅▼; ▲張▼▲偉▼
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-07-19
Filing date: 2019-10-11
Publication date: 2022-02-01
Also published as: CN110390394B; SG11202104263QA; WO2021012406A1; CN110390394A; US20210241117A1; TW202105260A

Abstract

本開示は、バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体に関する。前記方法は、複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化（ＢＮ：ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ）層に入力して正規化処理を行い、ＢＮ層の処理結果を得ることと、前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得ることと、前記シフトＢＮ層の処理結果に対して活性化層の整流線形ユニット（ＲｅＬＵ：Ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）によって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第１ターゲットネットワークを得ることと、を含む。

Description

（関連出願の相互参照）
本開示は、２０１９年７月１９日に中国特許庁に出願された出願番号２０１９１０６５６２８４．２、発明の名称が「バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体」である中国特許出願の優先権を主張し、その全内容を引用により本願に援用する。

本開示は、データ処理技術分野に関し、特にバッチ正規化データの処理方法及び装置、電子機器及び記憶媒体に関する。

ディープニューラルネットワーク中でバッチ正規化（ＢＮ：ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ）を用いることにより、前記ニューラルネットワークが最大学習率を用いるとしても発散せず、同時に前記ニューラルネットワークの汎化性能を向上させることが可能となる。ＢＮ層の後に活性化層が接続されてもよく、活性化層で使用される活性化関数は、整流線形ユニット（ＲｅＬＵ：Ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）であってもよい。ＢＮ＋ＲｅＬＵから構成される前記ニューラルネットワークの性能の向上を改善する必要がある。

本開示は、バッチ正規化データ処理に対する技術的解決手段を提供する。

本開示の一態様によれば、
複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化（ＢＮ）層に入力して正規化処理を行い、ＢＮ層の処理結果を得ることと、
前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得ることと、
前記シフトＢＮ層の処理結果に対して活性化層の整流線形ユニット（ＲｅＬＵ）によって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第１ターゲットネットワークを得ることと、を含むバッチ正規化データの処理方法を提供する。

本開示を採用する場合、定数シフト量を設定して初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得ることによって、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータを、前記シフトＢＮ層の処理結果によって、訓練可能領域に再び移動させるか、又は訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータに対して、前記シフトＢＮ層の処理結果によってネットワークのプルーニングを行い、それによりネットワークの性能を改善する。

実現可能な方式において、前記複数のサンプルデータを訓練対象のターゲットネットワーク中のＢＮ層に入力して正規化処理を行い、ＢＮ層の処理結果を得ることは、
前記複数のサンプルデータに対応する平均値及び分散に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理結果を得ることと、
前記ＢＮ層のスケール係数及びシフト係数に基づき、前記正規化処理結果に対して線形変換を行い、前記ＢＮ層の処理結果を得ることと、を含む、ことを特徴とする請求項１に記載の方法。

本開示を採用する場合、複数のサンプルデータに対して正規化処理を行い、前記ＢＮ層のスケール係数及びシフト係数に基づき、前記正規化処理の結果に対して線形変換を行い、前記ＢＮ層の処理結果を得ることができ、それによりサンプルデータの分散度を減らし、ネットワークの訓練を加速させるのに役立つ。

実現可能な方式において、前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得ることは、
前記定数シフト量を正の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、前記シフトＢＮ層の処理結果を得ることを含む。

本開示を採用する場合、定数シフト量の値を正の数に設定し、定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得た後、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータを、前記シフトＢＮ層の処理結果によって訓練可能領域に再び移動させる。

実現可能な方式において、前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得ることは、
前記定数シフト量を負の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、前記シフトＢＮ層の処理結果を得ることを含む。

本開示を採用する場合、定数シフト量の値を負の数に設定し、定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得た後、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータに対して、前記シフトＢＮ層の処理結果によってネットワークのプルーニングを行い、それによりネットワークのスパース性を保証する汎用のプルーニングネットワークを得ることができ、前記プルーニングネットワークを使用することでデータの演算量を低減することができる。

実現可能な方式において、前記シフトＢＮ層の処理結果に対して活性化層のＲｅＬＵによって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第１ターゲットネットワークを得ることは、
前記シフトＢＮ層の処理結果に対して前記ＲｅＬＵによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を得ることと、
損失関数の逆伝播に基づき、前記第１ターゲットネットワークを得ることと、を含む。

本開示を採用する場合、ＲｅＬＵによって非線形マッピングを行い、損失関数の逆伝播を利用することにより、微分により勾配を得る演算量を減らし且つＲｅＬＵはニューラルネットワーク中の一部の出力を０にし、それによりネットワークのスパース性の形成に役立つ。

実現可能な方式において、前記定数シフト量の値の範囲は［０．０１、０．１］の間にある。

本開示を採用する場合、定数シフト量の値の範囲が［０．０１、０．１］の間にある時、ネットワークパラメータが訓練不可領域に入ることを抑制し、それによりネットワークの性能を改善すると同時にＢＮ層の表現力を互換することができる。

実現可能な方式において、前記定数シフト量の値の範囲は［－０．１、－０．０１］の間にある。

本開示を採用する場合、定数シフト量の値の範囲が［－０．１、－０．０１］の間にある時、ネットワークのプルーニングを促進し、それによりネットワーク訓練又はモデル推論の速度を向上させることができる。

本開示の一態様によれば、
画像データを取得することと、
前記バッチ正規化データの処理方法により得られた第１ターゲットネットワークを用いて、前記画像データに対して画像分類を行い、画像分類処理結果を得ることと、を含む画像分類方法を提供する。

本開示を採用する場合、第１ターゲットネットワークによって画像の分類を行うことは、データの演算量を少なくするだけでなく、画像分類の精度を高める。

本開示の一態様によれば、
画像データを取得することと、
前記バッチ正規化データの処理方法により得られた第１ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得ることと、を含む画像検出方法を提供する。

本開示を採用する場合、第１ターゲットネットワークによって画像検出を行うことは、データの演算量を少なくするだけでなく、画像検出の精度を高める。

本開示の一態様によれば、
ビデオ画像を取得することと、
前記バッチ正規化データの処理方法により得られた第１ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、
デコード及び再生処理のうちの少なくとも１つのビデオ処理を行い、ビデオ処理結果を得ることと、を含むビデオ処理方法を提供する。

本開示を採用する場合、第１ターゲットネットワークによってビデオ処理を行うことは、データの演算量を少なくするだけでなく且つビデオ処理の精度を高める。

本開示の一態様によれば、
複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化（ＢＮ）層に入力して正規化処理を行い、ＢＮ層の処理結果を得るための正規化ユニットと、
前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得るためのシフトユニットと、
前記シフトＢＮ層の処理結果に対して活性化層の整流線形ユニット（ＲｅＬＵ）によって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第１ターゲットネットワークを得るための処理ユニットと、を含む、バッチ正規化データに対する処理装置を提供する。

実施可能な方法において、前記正規化ユニットは、
前記複数のサンプルデータに対応する平均値及び分散に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理結果を得て、
前記ＢＮ層のスケール係数及びシフト係数に基づき、前記正規化処理結果に対して線形変換を行い、前記ＢＮ層の処理結果を得る、ことに用いられる。

実施可能な方法において、前記シフトユニットは、
前記定数シフト量を正の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、前記シフトＢＮ層の処理結果を得る、ことに用いられる。

実施可能な方法において、前記シフトユニットは、
前記定数シフト量を負の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、前記シフトＢＮ層の処理結果を得る、ことに用いられる。

実施可能な方法において、前記処理ユニットは、
前記シフトＢＮ層の処理結果に対して前記ＲｅＬＵによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を得て、
損失関数の逆伝播に基づき、前記第１ターゲットネットワークを得る、ことに用いられる。

本開示の一態様によれば、
画像データを取得するための第１取得装置と、
前記バッチ正規化データの処理方法により得られた第１ターゲットネットワークを用いて、前記画像データに対して画分類を行い、画像分類処理結果を得るための第１プロセッサーと、を含む画像分類装置を提供する。

本開示の一態様によれば、
画像データを取得するための第２取得装置と、
前記バッチ正規化データの処理方法により得られた第１ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得るための第２プロセッサーと、を含む画像検出装置を提供する。

本開示の一態様によれば、
ビデオ画像を取得するための第３取得装置と、
前記バッチ正規化データの処理方法により得られた第１ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、デコード及び再生処理のうちの少なくとも１つのビデオ処理を行い、ビデオ処理結果を得るための第３プロセッサーと、を含むビデオ処理装置を提供する。

本開示の一態様によれば、
上記バッチ正規化データに対する処理の方法を実行するように構成されるプロセッサーと、
プロセッサー実行可能な命令を記憶するためのメモリと、を含む電子機器を提供する。

本開示の一態様において、プロセッサーにより実行される時に上記バッチ正規化データに対する処理の方法を実現するコンピュータプログラム命令が記憶されるコンピュータ読み取り可能な記憶媒体を提供する。

本開示の一態様によれば、電子機器内で実行する時に前記電子機器におけるプロセッサーが前記バッチ正規化データに対する処理を実現するための方法を実行するコンピュータ読み取り可能なコードを含むコンピュータプログラムを提供する。

本開示の実施例において、複数のサンプルデータを訓練対象のターゲットネットワーク中のＢＮ層に入力して正規化処理を行い、ＢＮ層の処理結果を得て、前記複数のサンプルデータは複数の画像データに対して特徴抽出を行うことにより得られるものであり、前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得て、前記シフトＢＮ層の処理結果に対して活性化層のＲｅＬＵによって非線形マッピングを行い、クラス毎に損失関数を得た後に逆伝播し、第１ターゲットネットワークを得る。

本開示を採用する場合、ＢＮ層に対してシフト処理後に活性化層にアクセスし、シフトＢＮ層の処理結果に対してＲｅＬＵによって非線形マッピングを行った後、損失関数の逆伝播を行い、第１ターゲットネットワーク（前記第１ターゲットネットワークは訓練対象のターゲットネットワークに対して訓練を行った後に得られるターゲットネットワーク）を得て、シフトＢＮ＋ＲｅＬＵを有する前記第１ターゲットネットワークは、定数シフト量を設定することによって初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得て、それにより訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータを、前記シフトＢＮ層の処理結果によって訓練可能領域に再び移動させるか、又は訓練対象のターゲットネットワーク中の訓練不可領域のネットワークパラメータに対して、前記シフトＢＮ層の処理結果によってネットワークのプルーニングを行い、それによりネットワークの性能を改善する。

以上の一般的な記述及び以下の詳細な記述はあくまでも例示的及び解釈的なものであり、本開示を限定するものではないことに留意すべきである。

本開示のその他の特徴及び態様をより明らかにするために、添付の図面を参照して、例示的な実施例を詳細に説明する。

本開示の実施例によるバッチ正規化データの処理方法のフローチャートを示す。本開示の実施例による画像分類シーンに応用されるシフト処理効果の概略図を示す。本開示の実施例による転移学習シーンに応用されるシフト処理効果の概略図を示す。本開示の実施例によるバッチ正規化データに対するプロセッサーのブロック図を示す。本開示の実施例による電子機器のブロック図を示す。本開示の実施例による電子機器のブロック図を示す。。

明細書に含められて明細書の一部を構成する添付の図面は、本開示の実施例を示しており、明細書と共に本開示の技術的解決手段を説明することに用いられる。

以下、添付の図面を参照して本開示の様々な実施例、特徴及び態様について詳細に説明する。図面において、同一又は類似する機能を有する要素は、同じ参照符号で表される。実施例の様々な態様が図面に示されるが、特段の明記がない限り、図面は必ずしも縮尺通りに描かれていない。

特有の用語「例示的な」は、ここでは、「例、実施例又は例証として使用される」ことを意味する。「例示的な」目的として記述される何れの実施例も、必ずしも、他の実施例よりも優れている又は良いとして説明されるわけではない。

本明細書中の用語「及び／又は」は、関連対象の関連関係のみを説明したものであり、Ａ及び／又はＢは、単独でＡが存在する、Ａ及びＢが同時に存在する、単独でＢが存在するという３種類の関係が存在してよいことを表わしている。また、本明細書における用語「少なくとも１種」は複数種の中の任意の１種又は複数の少なくとも２種類の任意の組み合わせを表わす。例えば、Ａ、Ｂ、Ｃ中の少なくとも１種を含むは、Ａ、Ｂ及びＣからなる集合から選択される任意の１種又は複数の要素を表わす。

また、本開示をよりよく説明するために、以下の発明を実施するための形態において多くの具体的な詳細を示す。当業者は特定の具体的詳細がなくても、本開示と同様に実施することが可能であることを留意するものとする。いくつかの実施例において、本開示の主題にハイライトを当てるために、当業者の周知の方法、手段、要素及び回路については詳細に説明しない。

ディープニューラルネットワークにおいて、ＢＮは不可欠な正規化方法である。ＢＮによって前記ニューラルネットワークが最大学習率を用いるとしても発散せず、同時にモデルの汎化能力を高めることができる。ＲｅＬＵは前記ニューラルネットワークにおける非線形活性化関数である。その他の非線形活性化関数（例えば、Ｓｉｇｍｏｉｄ、Ｔａｎｈ関数等）に対して、ＲｅＬＵは負の値が入力された時の活性化値は常に０であるため、特徴のスパース属性を表現することができ、それによりネットワークの訓練をより早く収束させることが可能となる。

スパース属性について、ＲｅＬＵは前記ニューラルネットワークにおける一部のニューロンの出力を０とすることができ、また前記ニューラルネットワークにおけるパラメータ演算に用いられる重みが０であり（全体の観点から考慮すると、一部の重みを削除する）、このようにネットワークにスパース性を備えさせ、パラメータの相互依存関係を減少させ、過学習の問題の発生を緩和することができ、且つ前記ニューラルネットワークにおけるパラメータ演算に用いられる重みが０であるため（全体の観点から考慮すると、一部の重みを削除する）、演算速度をより速くし、ネットワークの訓練をより速く収束させることができる。一実施例において、パラメータ演算の重みが１０万個あり、このニューラルネットワークを携帯電話又は車載機器等の負荷が大きすぎてはいけない端末に実装する場合、演算量が非常に大きくなる。しかし、一部の重みを０にし（即ち、演算中から一部の重みを削除する）、ネットワークがスパース性を有する場合、ニューラルネットワークの多くのネットワーク性能に影響を与えないだけでなく、携帯電話又は車載機器等の端末に実装された前記ニューラルネットワークの動作効率を高めることができ、演算の負荷が予想を超えないようにする。このようなネットワークスパース性はユーザーの期待されるスパース性の結果であり、良いスパース性と呼ばれる。

スパース性について、ニューラルネットワーク中の重みが０のネットワークチャンネル（ニューラルネットワーク中の少なくとも１つに対応する入力出力からなるネットワークチャンネル）が多すぎると、不良なスパース性が現れるため、これは不利であり、このようなの不良なスパース性を削除又は抑制する必要がある。

ネットワークがスパース性を有するとデータ演算量を減らすことができるため、ネットワークがスパース性を有するという長所を考慮し、ニューラルネットワーク中に重みが０のネットワークチャンネル（ニューラルネットワーク中の少なくとも１つに対応する入力出力からなるネットワークチャンネル）が存在する場合、ネットワークパラメータが少なくなり、動作効率を高めることができる。即ち、前記ニューラルネットワーク中のパラメータ演算の一部の重みを０に設定する（全体の観点から考慮すると、一部の重みを削除する）と、演算速度をより速くすることができる。本開示を採用する場合、シフトＢＮ層の処理結果に対してＲｅＬＵによって非線形マッピングを行った後に損失関数の逆伝播を行い、第１ターゲットネットワークを得て、以下２つの態様に対していずれも改善することができる。複数のサンプルデータを訓練対象のターゲットネットワーク中のＢＮ層に入力し正規化処理を行い、ＢＮ層の処理結果を得て、前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、定数シフト量に対して様々な値を取ることによって、様々なシフトＢＮ層の処理結果を得ることができる。例えば、定数シフト量が正の数の時、ＢＮ層のシフト処理によって、第１ターゲットネットワークのネットワークスパース性を抑制することができる。定数シフト量が負の数の時、ＢＮ層のシフト処理によって、第１ターゲットネットワークのネットワークスパーク性を促進し、プルーニングネットワークを得ることができる。プルーニングネットワークについて、プルーニングネットワークによって深層ネットワークの煩雑な計算を減らすことができる。１つの典型的なプルーニングネットワークの段階的な説明としては、まず大きなネットワークモデルを訓練し、プルーニング処理を行い、最後にネットワークモデルの微調整を行う。プルーニングプロセスにおいて、ユーザーの期待する標準に基づき、無駄な重みをプルーニングし（一部の重みを削除する）、ネットワークモデルの精度及び性能を保証するために重要な重みのみを残しておく。プルーニング処理はモデル圧縮方法であり、ディープニューラルネットワークの稠密な接続に対してスパース性を導入し、「重要でない」重みを０に直接置き換えることによって０ではない重みの数を減らし、それによりネットワークモデルの実行効率を高めるという目的を達成する。

ＢＮ層中の正規化処理により、活性化層（非線形マッピングを実行するためのＲｅＬＵを含む）がＢＮ層の後に接続される時、前記ニューラルネットワークのネットワーク初期段階又は学習率が大きな状況下でＢＮ層のパラメータに一区間の安定した訓練不可領域が現れ、パラメータが前記領域に入った後にサンプルデータ中から勾配を得て更新することができないため、Ｌ２損失関数の作用下で徐々に０に向かい、前記ネットワークチャンネルはプルーニング処理される。

訓練不可領域について、いわゆる訓練不可領域とは活性化層に入ったＲｅＬＵの入力パラメータが負の数の時、ＲｅＬＵの入力は常に０となり、勾配の戻り値がない。前記訓練不可領域が発生する原因は、ＢＮ層の２つのパラメータ、γの値が０．１のような小さい値であり、βの値が－１００のような負の数である場合、ＢＮ層の出力結果がＲｅＬＵの非線形マッピングを行った後に常に０となり、常に０である場合、勾配を求めることができず、言い換えれば勾配の戻り値がなく、それにより後続の損失関数の逆伝播において勾配降下が行われず、パラメータが更新されないことである。

以上の記述によると、実際の応用において、発明者は、ＢＮ＋ＲｅＬＵのネットワークにおいてパラメータが訓練不可領域に入る確率は訓練初期及び学習率が大きい時にランダムであるが、訓練プロセスでは一部の選択性が現れ、即ち損失に対する影響が小さいパラメータは訓練不可領域に入りプルーニングされる可能性が高いことを発見する。そのため、このような現象は上記説明された両面性を表わしており、一態様において、プルーニング方法としてネットワーク性能が基本的に変わらない状況において、ネットワークのパラメータの数を減少させるために、スパース性を促進する必要がある。別の様態において、逆にネットワークの表現力を下降させ、さらにネットワークの性能を悪くするため、スパース性を抑制する必要がある。

ディープニューラルネットワーク中でＢＮ＋ＲｅＬＵのネットワークを組み合わせた方式を採用すると、一部のネットワークチャンネル（例えば、ＢＮパラメータのチャンネル）が訓練できず折り畳まれるため（ｃｏｌｌａｐｓｅ）（さらに前の層の畳み込み演算も訓練できなくなる）、一態様において、本開示はＢＮの形式を改善する。具体的には、初期ＢＮのシフト調整を行うために、指定した定数シフト量（この場合、正の数を取る）を増やす。調整後に得たシフトＢＮ層の処理結果に基づき、ネットワーク訓練の初期段階又は学習率が大きく訓練不可領域に入る時、Ｌ２損失関数の作用下で訓練可能領域に再び戻り、それによりネットワークの表現力を保証し、スパース性を抑制することができる。前記方法は、上記ＢＮ＋ＲｅＬＵのネットワークを組み合わせた方式が一部のネットワークチャンネルが訓練できず折り畳まれる（ｃｏｌｌａｐｓｅ）という問題を解消することができる。前記方法は各ＢＮに対して元の形式上に１つの指定した正の定数シフト量（例えば、定数α）を加えることにより、ネットワークにプルーニング効果を有させ、訓練プロセス中に訓練不可領域にあるネットワークパラメータを訓練可能領域に戻すことができ、それによりネットワークの性能を向上させることができる。別の様態において、本開示はＢＮの形式を改善し、具体的には初期ＢＮのシフト調整を行うために、指定した定数シフト量（この場合、負の数を取る）を増やす。調整後に得たシフトＢＮ層の処理結果に基づき、元のＢＮの表現力を完全に互換することを基礎として、ＢＮバイアス項を超えたシフトを調整することによってネットワークが直接訓練され、プルーニングネットワークを得ることができる。元のＢＮの形式に対して微調整を行うため、前記方法はシフトＢＮ（ｐｓＢＮ、ｐｏｓｔｓｈｉｆｔｅｄＢａｔｃｈｏｒｍａｌｉｚａｔｉｏｎ）と呼ばれ、ユーザーは自身の必要（例えば、ネットワークの性能をさらに向上させ、又はネットワークチャンネルのスパース性を増やす）に応じて、対応するシフト定数αの符号を選択することができる。即ち、ユーザーの必要に応じてαの値を正の数又は負の数に選択することができる。

指摘すべきことは、ネットワーク中に複数のＢＮ層が存在する可能性があり、本開示においては、各ＢＮ層に対して、増やした定数シフト量に基づきＢＮ層に対してシフト調整を行うことができ、ＢＮ層の処理結果を得ることができる。また、複数のＢＮ層中で採用される定数シフト量は統一のオフセット量であってよい。即ち、同一ネットワークの少なくとも１つのＢＮ層はいずれも前記定数シフト量を増やし、同じ値を設定し、具体的な値はユーザーの必要に応じて設定され、前記定数シフト量は正の数でも負の数であってもよい。

各ＢＮ層について、定数シフト量の値が正の数である場合、定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得た後、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータを、前記シフトＢＮ層の処理結果によって、訓練可能領域に再び移動させる。

各ＢＮ層について、定数シフト量の値が負の数である場合、定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得た後、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータに対して、前記シフトＢＮ層の処理結果によってネットワークのプルーニングを行い、それによりネットワークのスパース性を保証する汎用のプルーニングネットワークを得て、前記プルーニングネットワークを使用することでデータの演算量を低減することができる。

図１は、本開示の実施例によるバッチ正規化データの処理方法のフローチャートを示し、前記方法はバッチ正規化データに対する処理装置に用いられる。例えば、前記処理装置が端末装置又はサーバー又はその他の処理装置に実装され実行する状況下において、画像分類、画像検出及びビデオ処理等を実行することができる。端末装置はユーザー機器（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、モバイル機器、携帯電話、コードレス電話、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、モバイルデバイス、コンピュータデバイス、車載デバイス、ウェアラブルデバイス等であってよい。いくつかの実施可能な方式において、前記処理方法はプロセッサーによりメモリに記憶されたコンピュータ可読命令を呼び出す方式で実現される。図１に示すように、前記フローチャートは、ステップＳ１０１、ステップＳ１０２、及びステップＳ１０３を含む。

ステップＳ１０１は、複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のＢＮ層に入力して正規化処理を行い、ＢＮ層の処理結果を得る。

一実施例において、訓練対象のターゲットネットワークは画像処理に対するグラフ畳み込みネットワーク（例えば、ＣＮＮ畳み込みニューラルネットワーク）であってよく、以下の１）乃至６）を含む。１）入力層：サンプルデータを入力するためである。２）畳み込み層：畳み込みカーネルを用いて特徴抽出及び特徴マッピングを行う。３）活性化層：畳み込みも線形演算であるため、非線形マッピングを追加し、活性化層にアクセスする必要がある。活性化層には非線形マッピングを行うためのＲｅＬＵが含まれて、非線形マッピングを行うようにする。畳み込み層の計算は線形計算であるため、活性化層は畳み込み層の出力結果に対して非線形マッピングを１度行うことができる。４）プーリング層：ダウンサンプリングを行い、特徴マップに対してスパース化処理を行い、データ演算量を減らす。５）全接続（ＦＣ）層：ＣＮＮの末尾で再フィッティングを行い、特徴情報の損失を減少させる。６）出力層：結果を出力するためである。ここで、中間にはさらに、畳み取りニューラルネットワーク（ＣＮＮ）中で特徴に対して正規化を行うためのＢＮ層、特定の（画像）データに対して領域を分ける単独学習の切り分け層、独立で表現学習を行う部分に対して融合を行う融合層等のその他機能層を使用してもよい。

いくつかの実施可能な方式において、畳み込み層及び活性化層を合わせて畳み込み層と呼ぶことができ、ＢＮ層は、特徴に対する前処理を行うために入力層に位置してもよく、畳み込み層に位置してもよい。本開示で用いられるニューラルネットワークの具体的な構造は上記説明に限定されない。

ステップＳ１０２は、前記ＢＮ層の処理結果に対して、指定した定数シフト量（例えば、α）に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得る。

一実施例において、シフト調整の計算式は式（１）に示すとおりである。

ここで、

はステップＳ１０１で得られたＢＮ層の処理結果（又は元のＢＮ層の処理結果という）である。

はＢＮ層の入力特徴、γはＢＮ層のスケール係数、βはＢＮ層のシフト係数、μ_βはサンプルデータの平均値、σ_βはサンプルデータの標準偏差、εは固定定数であり、１０^－５であってよい。ＲｅＬＵは一定であり、例えばＲｅＬＵ（ｙ）＝ｍａｘ（０、ｙ）。ｙはシフトＢＮ層の処理結果であり、シフトＢＮ（ｐｓＢＮ）に表されてもよく、ＢＮと同じ表現力を有し、特徴パラメータが訓練期間に訓練不可領域に入る時、再度訓練が可能となる。シフトＢＮ（ｐｓＢＮ）に基づきネットワークモデルの性能を向上させることができ、例えば、ＣＩＦＡＲ－１０の分類及びＭＳ－ＣＯＣＯ２０１７上の物体検出とすることができる
ステップＳ１０３は、前記シフトＢＮ層の処理結果に対して活性化層の活性化関数ＲｅＬＵによって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第１ターゲットネットワークを得る。

一実施例において、訓練対象のターゲットネットワークは、ＢＮ＋ＲｅＬＵから構成されるニューラルネットワークであってもよく、ステップＳ１０１～ステップＳ１０３の訓練により得られる第１ターゲットネットワークはＢＮ（ｐｓＢＮ）＋ＲｅＬＵから構成されるニューラルネットワークである。

本開示を採用する１つの完全な実施例において、複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化（ＢＮ）層に入力し正規化処理を行い、ＢＮ層（一般的なＢＮ又は元のＢＮ）の処理結果を得ることができる。前記処理結果は具体的に正規化及び正規化に対してさらに線形変換を行った後に得られる処理結果である。前記複数のサンプルデータは、複数の画像データに対して特徴抽出を行うことにより得られる（複数の画像データを取得し、前記複数の画像データから抽出された複数の特徴パラメータに基づきサンプルデータセットを取得し、サンプルデータセット中には複数のサンプルデータを含む）。前記正規化処理については、バッチ処理ＢＮ中で複数のバッチサンプルデータ（特徴パラメータ）からその平均値及び分散を得て、平均値及び分散に基づきサンプルデータに対して正規化を行い、正規化された特徴パラメータに対して線形変換（ＢＮにスケール計数及びシフト係数を乗算する）を行い、ＢＮ層（一般的なＢＮ又は元のＢＮ）の処理結果を得る。前記ＢＮ層の処理結果に対して、指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得て、即ち一般的なＢＮ又は元のＢＮの出力に対して、微小な定数シフト量（ユーザーの必要に応じてシフト量の符号を選択可能）を加え、シフトＢＮ層の処理結果（新たなＢＮ層の出力結果）を得て、前記シフトＢＮ層の処理結果に対して活性化層の活性関数ＲｅＬＵによって非線形マッピングを行った後、損失関数の逆伝播を行い、反復訓練により上記第１ターゲットネットワークを得る。

実現可能な方式において、複数のサンプルデータを訓練対象のターゲットネットワーク中のＢＮ層に入力して正規化処理を行い、ＢＮ層の処理結果を得ることは、前記複数のサンプルデータに対応する平均値（σ_β）及び分散（σ_β）に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理の結果を得ることと、前記ＢＮ層のスケール係数（γ）及びシフト係数（β）に基づき、前記正規化処理結果に対して線形変換を行い、前記ＢＮ層の処理結果を得ることと、を含む。

本開示を採用する場合、複数のサンプルデータに対して正規化処理を行い、前記ＢＮ層のスケール係数及びシフト係数に基づき、前記正規化処理の結果に対して線形変換を行い、前記ＢＮ層の処理結果を得て、それによりサンプルデータの分散度を減少させ、ネットワークの訓練を加速させるのに役立つ。

実現可能な方式において、前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得ることは、前記定数シフト量を正の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、シフトＢＮの処理結果を得ることを含む。

一実施例において、αが正の数であり、例えばαの値が［０．０１、０．１］の間にある場合、ＢＮ層の表現力を互換することができ、即ちＢＮパラメータの事前分布を変えず、ネットワークに悪影響を与えないと同時に、パラメータが訓練不可領域に入ることを抑制する効果を果たすことができる。サンプルデータが初期ＢＮ層中の特徴パラメータであり、ネットワーク訓練の初期段階又は学習率が大きい時に前記特徴パラメータが訓練不可領域に入り、シフトＢＮ層の処理結果により前記特徴パラメータを訓練可能領域に戻すことができ、パラメータが訓練不可領域に入ることを抑制するため、ネットワークの表現力を保証し、ネットワークの性能を改善する。具体的には、α＞０、即ち値が正の数の時、ＢＮ層のパラメータが訓練不可領域に入った後、ＢＮ層のパラメータγとβは重み減衰の作用下で同じ速度で０まで減衰するが、バイアス項には正の定数αが存在するため、バイアス項は最終的に０より大きく、ＲｅＬＵが線形領域（即ち、勾配はＲｅＬＵを経て戻り値がある）に入り、それによりニューラルネットワーク中のニューロンは再活性化（即ちＢＮ層のパラメータが訓練可能領域に再度入る）されるため、αが正の数の時、スパース性を抑制するという目的を達成することができる。

本開示を採用する場合、ターゲットネットワーク（例えば、ニューラルネットワーク中において画像処理に対するグラフ畳み込みネットワークのようなビデオデータに対する処理に用いられる）を訓練することによって、その性能を向上させる。主にＢＮ＋ＲｅＬＵのネットワークに対して、ＲｅＬＵは一定であり、指定した定数シフト量によってＢＮが生成したシフトを調整した後にｐｓＢＮを得て、訓練後のターゲットネットワークがｐｓＢＮ＋ＲｅＬＵであるネットワークを得て、それによりネットワーク性能が最適化される。ここで、αが正の数の時、抑制の作用を果たし、即ちネットワークがスパース性を有する時に不良なスパース性の結果を削除するために、訓練可能領域に移動する。

実現可能な方式において、前記ＢＮ層の処理結果に対して、指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得ることは、前記指定した定数シフト量を負の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得ることを含む。

本開示を採用する場合、定数シフト量の値を負の数に設定し、定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得た後、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータに対して、前記シフトＢＮ層の処理結果によってネットワークのプルーニングをい、それによりネットワークのスパース性を保証する汎用のプルーニングネットワークを得ることができ、前記プルーニングネットワークを使用することでデータの演算量を低減することができる。

一実施例において、αが負の数であり、例えばαの値が［－０．１、－０．０１］の間にある場合、ＢＮ層の表現力を互換することができ、ＢＮ層パラメータの事前分布を変えず、ネットワークに悪影響を与えないと同時にネットワークのパラメータをより少なくすることができる。サンプルデータは初期ＢＮ層中の特徴パラメータであり、この時により多くのＢＮパラメータを訓練不可領域に置くことができ、それにより前記部分のチャンネルが訓練プロセス中にプルーニングされる。ネットワークのプルーニングが促進されるため、ネットワーク訓練又はモデル推論の速度を加速し、それによりネットワークが有するパラメータを減らすと同時に、ネットワークの性能への影響が少ない。具体的には、α＜０の時の原理は上記α＞０の状況と逆であり、バイアス項に負の定数αを加えた後、ＲｅＬＵに入った入力パラメータを０より小さくするようにし、勾配はＲｅＬＵにより戻り値がないため、ＢＮ層のパラメータは重み減衰の作用下で０まで減衰し、ネットワークのプルーニングの機能を実現するため、αが負の数の時にスパース性を促進するという目的を達成することができる。

本開示を採用する場合、ターゲットネットワーク（例えば、ニューラルネットワーク中において画像処理に対するグラフ畳み込みネットワークのようなビデオデータに対する処理に用いられる）を訓練することによって、その性能を向上させる。主にＢＮ＋ＲｅＬＵのネットワークに対して、ＲｅＬＵは一定であり、指定した定数シフト量によってＢＮが生成したシフトを調整した後にｐｓＢＮを得て、訓練後のターゲットネットワークがｐｓＢＮ＋ＲｅＬＵであるネットワークを得て、それによりネットワーク性能が最適化される。ここで、αが負の数の時、促進の作用を果たし、即ちプルーニングネットワークを得る。

実現可能な方式において、前記シフトＢＮ層の処理結果に対して活性化層のＲｅＬＵによって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第１ターゲットネットワークを得ることは、前記シフトＢＮ層の処理結果に対して前記ＲｅＬＵによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を取得し、損失関数の逆伝播に基づき、前記第１ターゲットネットワークを得ることを含む。ニューラルネットワークは多層構造であり、ここで説明する前記シフトＢＮ＋ＲｅＬＵはニューラルネットワークにおける一層の構造のみであるため、前記層の出力はクラス毎に伝達された後、最終的に損失関数を得ることができる。

上記訓練により得られる第１ターゲットネットワークの場合、対応する応用シーンは、
本開示にかかる画像分類方法であって、画像データを取得することと、本開示の上記方法により得られた第１ターゲットネットワークを用いて、前記画像データに対して画像分類を行い、画像分類処理結果を得ることと、を含む、画像分類方法と、
本開示にかかる画像検出方法であって、画像データを取得することと、本開示の上記方法により得られた第１ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得ることと、を含む、画像検出方法と、
本開示にかかるビデオ処理方法であって、ビデオ画像を取得することと、本開示の上記方法により得られた第１ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、デコード及び再生処理のうちの少なくとも１つのビデオ処理を行い、ビデオ処理結果を得ることと、を含む、ビデオ処理方法と、を含む。

図２は、本開示の実施例による画像分類シーンに応用されるシフト処理効果の概略図を示し、ＢＮ＋ＲｅＬＵの動作は訓練対象のネットワークを採用して画像分類を行って得た処理結果であり、ＢＮ＋ＬｅａｋｙＲｅＬＵの動作は一般的に最適化された訓練ネットワークを採用して画像分類を行って得た処理結果であり、ｐｓＢＮ＋ＲｅＬＵの動作は本開示のネットワークに対して訓練を行って得た第１ターゲットネットワークを採用して画像分類を行った処理結果（複数回訓練した平均精度）であり、ネットワークはＲｅｓＮｅｔ－２０及びＶＧＧ１６－ＢＮの２つのネットワークを例として使用する。図２から、本開示を採用して得た処理結果は複数の結果の中で最も優れていることが分かる。本開示を採用する場合、ＢＮ＋ＲｅＬＵのネットワークに対して、ＲｅＬＵは一定で、指定した定数シフト量によってＢＮが発生したシフトを調整した後ｐｓＢＮを取得し、得たターゲットネットワークはｐｓＢＮ＋ＲｅＬＵのネットワークであり、ネットワーク性能が最適化される。そのうち、漏洩整流線形ユニット（ＬｅａｋｙＲｅＬＵ：ＬｅａｋｙＲｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）とＲｅＬＵは同じ活性化関数であり、ＬｅａｋｙＲｅＬＵはＲｅＬＵの変形であり、前記ＬｅａｋｙＲｅＬＵの出力は負値の入力に対して勾配がとても小さく、導関数が常に０ではないため、ニューラルネットワーク中のデッドニューロンの出現を減少させ、勾配に基づいた学習（非常に遅いが）が許可され、Ｒｅｌｕ関数がマイナス区間に入った後、ニューロンが学習しないという問題を引き起こす。

図３は、本開示の実施例による転移学習シーンに応用されるシフト処理効果の概略図を示す。画像サイズが５００又は８００の画像データに対して、ＲｅｔｉｎａＮｅｔネットワークにより得られる画像検出効果ＡＰ^ｂｂｏｘ（ＲｅｔｉｎａＮｅｔ）（即ち、検出した平均精度）において、括弧内の値は関連技術により得られる精度であり、括弧外の値は発明者がＲｅｔｉｎａＮｅｔネットワークを復元して画像検出を行った結果であり、ＡＰ^ｂｂｏｘ（ＲｅｔｉｎａＮｅｔ＋ｐｓＢＮ）は本開示の方法を使用してＲｅｔｉｎａＮｅｔネットワークを、シフトＢＮを備えたＲｅｔｉｎａＮｅｔネットワークに修正して画像検出を行い取得した検出精度である。図３中から、本開示により得られる値はより高いことが分かる。即ち、精度が従来の関連技術により得られるものより高く、本開示のＡＰ^ｂｂｏｘ（ＲｅｔｉｎａＮｅｔ＋ｐｓＢＮ）により得られる画像検出効果がより優れていることは明らかである。

発明を実施するための形態の上記方法において、各ステップの順序は厳格な実行順序を意味するものではなく、各ステップの具体的な実行順序はその機能及び内部論理により決定されるべきであり、本開示の実施形態の実施プロセスに対する限定として解釈されるべきではないことは当業者には明らかなことである。

本開示に言及される上記各方法の実施例は、原理や論理を逸脱しない範囲内で、互いに結合して形成された結合後の実施例は、紙幅の都合上、本開示では詳しい説明を省略する。

また、本開示はさらにバッチ正規化データに対する処理装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムを提供し、上記はいずれも本開示で提供される何れかのバッチ正規化化データに対する処理方法に用いられるもため、相応の技術的解決手段や説明及び参照方法部分の相応する記載に関しては詳しい説明を省略する。

図４は、本開示の実施例によるバッチ正規化データに対する処理装置のブロック図を示す。図４に示すように、前記処理装置は、複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のＢＮ層に入力して正規化処理を行い、ＢＮ層の処理結果を得るための正規化ユニット３１と、前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得るためのシフトユニット３２と、前記シフトＢＮ層の処理結果に対して活性化層のＲｅＬＵによって非線形マッピングを行い、クラス毎に損失関数を得た後逆伝播し、第１ターゲットネットワークを得るための処理ユニット３３と、を含む。

実現可能な方式において、前記正規化ユニットは、前記複数のサンプルデータに対応する平均値及び分散に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理結果を得て、前記ＢＮ層のスケール係数及びシフト係数に基づき、前記正規化処理の結果に対して線形変換を行い、前記ＢＮ層の処理結果を得ることに用いられる。

実施可能な方法において、前記シフトユニットは、前記定数シフト量を正の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、前記シフトＢＮ層の処理結果を得ることに用いられる。それにより、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータを、前記シフトＢＮ層の処理結果によって、訓練可能領域に再び移動させる。

実現可能な方式において、前記シフトユニットは、前記定数シフト量を負の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、前記シフトＢＮ層の処理結果を得ることに用いられる。それにより、訓練対象のターゲットネットワーク中の訓練不可領域に入ったネットワークパラメータに対して、前記シフトＢＮ層の処理結果によってネットワークのプルーニングを行い、プルーニングされたネットワークを得る。

実現可能な方式において、前記処理ユニットは、前記シフトＢＮ層の処理結果に対して前記ＲｅＬＵによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を得て、損失関数の後逆伝播に基づき、前記１ターゲットネットワークを得ることに用いられる。

本開示の画像分類装置は、画像データを取得するための第１取得装置と、本開示の上記方法により得られた第１ターゲットネットワークを用いて、前記画像データに対して画像分類を行い、画像分類処理結果を得るための第１プロセッサーと、を含む。

本開示の画像検出装置は、ビデオ画像を収集するための第２取得装置と、本開示の上記方法により得られた第１ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得るための第２プロセッサーと、を含む。

本開示のビデオ処理装置は、ビデオ画像を取得するための第３取得装置と、本開示の上記方法により得られた第１ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、デコード及び再生処理のうちの少なくとも１つのビデオ処理を行い、ビデオ処理結果を得るための第３プロセッサーと、を含む。

指摘すべきことは、上記第１取得装置、第２取得装置及び第３取得装置が実行する取得操作は、取得の方法が限定されず、例えば、第１取得装置、第２取得装置及び第３取得装置が自身で取得操作（例えば、画像データ又はビデオ画像等に対する収集操作）を実行し、操作結果を得てもよく、また、例えば、第１取得装置、第２取得装置及び第３取得装置が無線又は有線通信方式によりその他の取得操作が実行可能な処理装置と通信を行い、前記処理装置により取得操作（例えば、画像データ又はビデオ画像等に対する収集操作）が実行され得られた操作結果を得てもよい。ここで、有線通信方式のインターフェースはシリアル通信インターフェース、バスインターフェース及びその他タイプのインターフェースに限定されない。

いくつかの実施例において、本開示の実施例が提供する装置が有する機能又は含むモジュールは上記方法の実施例に記載された方法を実行するために用いられてよく、具体的な実現方法は上記方法の実施例の記述を参照してよく、簡潔にするために、ここでは詳しい説明を省略する。

本開示の実施例はさらに、プロセッサーにより実行される時に上記方法を実現するコンピュータプログラム命令が記憶されたコンピュータ読み取り可能な記憶媒体を提供する。コンピュータ読み取り可能な記憶媒体は揮発性コンピュータ読み取り可能な記憶媒体又は不揮発性コンピュータ読み取り可能な記憶媒体であってよい。

本開示の実施例はさらに、上記方法を実現するように構成されるプロセッサーと、プロセッサー実行可能な命令を記憶するためのメモリとを含む電子機器を提供する。

電子機器は端末、サーバー又はその他の形態の機器が提供されてよい。

本実施例はさらに、電子機器内で実行する時に前記電子機器におけるプロセッサーが上記任意の一実施例を実現するための方法を実行するコンピュータ読み取り可能なコードを含むコンピュータプログラムを提供する。

図５は、例示的な実施例に基づき示された電子機器８００のブロック図である。例えば、電子機器８００は携帯電話、コンピュータ、デジタルブロードキャスト端末、通信機器、ゲームのコントロールパネル、タブレット、医療機器、健康器具、パーソナルデジタルアシスタント等の端末であってよい。

図５を参照すると、電子機器８００は、処理アセンブリ８０２、メモリ８０４、電源アセンブリ８０６、マルチメディアアセンブリ８０８、音声アセンブリ８１０、入力／出力（Ｉ／Ｏ）のインターフェース８１２、センサアセンブリ８１４、及び通信アセンブリ８１６の１つ又は複数のアセンブリを含んでよい。

処理アセンブリ８０２は、一般的に表示、電話の呼び出し、データ通信、カメラ操作及び記録操作と関連する電子機器８００の全体的な操作を制御する。処理アセンブリ８０２は１つ又は複数のプロセッサー８２０を含むことで命令を実行し、上記の方法の全て又は一部のステップを完成することができる。また、処理アセンブリ８０２は１つ又は複数のモジュールを含んでよく、処理アセンブリ８０２及びその他アセンブリの間のインタラクションに便利である。例えば、処理アセンブリ８０２はマルチメディアモジュールを含んでよく、マルチメディアアセンブリ８０８及び処理アセンブリ８０２の間のインタラクションに便利である。

メモリ８０４は、様々なタイプのデータを記憶することで電子機器８００の操作をサポートするように構成される。これらのデータの例は、電子機器８００上での操作に用いられるすべてのアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオ等を含む。メモリ８０４は、スタティックＲＡＭ（ＳＲＡＭ）、電気的に消去可能なＰＲＯＭ（ＥＥＰＲＯＭ）、消去可能なＰＲＯＭ（ＥＰＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、リードオンリーメモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクのようなあらゆるタイプの揮発性又は不揮発性記憶装置又はそれらの組合せから実現される。

電源アセンブリ８０６は、電子機器８００の各種アセンブリに電力を提供する。電源アセンブリ８０６は電源管理システム、１つ又は複数の電源、及び電子機器８００のために電力を生成、管理及び分配するのに関連するその他のアセンブリを含んでよい。

マルチメディアアセンブリ８０８は、前記電子機器８００とユーザーの間に１つの出力インターフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含んでよい。スクリーンがタッチパネルを含む場合、スクリーンはタッチスクリーンが実現され、ユーザーからの入力信号を受け取ることが可能である。タッチパネルはタッチ、スライド及びタッチパネル上のジェスチャーを感知するために１つ又は複数のタッチセンサを含む。前記タッチセンサはタッチ又はスライド動作のエッジを感知できるだけでなく、前記タッチ又はスライド操作に関連する持続時間や圧力を検出することができる。いくつかの実施例において、マルチメディアアセンブリ８０８は１つのフロントカメラ及び／又はリアカメラを含む。電子機器８００が操作モード、例えば撮影モード又はビデオモードである場合、フロントカメラ及び／又はリアカメラは外部のマルチメディアデータを受け取ることができる。各フロントカメラ及びリアカメラは、固定の光学レンズシステム又は焦点距離及び光学ズーム機能を有してよい。

音声アセンブリ８１０は、音声信号を出力及び／又は入力するように構成される。例えば、音声アセンブリ８１０は１つのマイク（ＭＩＣ）を含み、電子機器８００が電話モード、記録モード及び音声認識モード等の操作モードである場合、マイクが外部の音声信号を受信するように構成される。受信された音声信号はさらにメモリ８０４に記憶されるか又は通信アセンブリ８１６を経由して送信されてよい。いくつかの実施例において、音声アセンブリ８１０はさらに音声信号の出力に用いられるスピーカーを含む。

Ｉ／Ｏインターフェース８１２は処理アセンブリ８０２と周辺のインターフェースモジュールとの間にインターフェースを提供し、上記周辺のインターフェースモジュールはキーボード、スクロール、ボタン等であってよい。これらのボタンは、ホームページボタン、ボリュームボタン、スタートボタン及びロックボタンを含むがそれに限定されない。

センサアセンブリ８１４は、電子機器８００に各態様の状態評価を提供するために用いられる１つ又は複数のセンサを含む。例えば、センサアセンブリ８１４は電子機器８００のオン／オフ状態、アセンブリの相対位置を検出することができる。例えば、前記アセンブリが電子機器８００のディスプレイ及びキーパッドである場合、センサアセンブリ８１４はさらに電子機器８００又は電子機器８００のアセンブリの位置の変化、ユーザーと電子機器８００が接触しているか否か、電子機器８００の方位又は加速／減速、電子機器８００の温度変化を検出することができる。センサアセンブリ８１４は近接センサを含んでよく、いずれの物理的な接触がない時に付近の物体の存在を検出することに用いられるように構成される。センサアセンブリ８１４は、イメージングに使用するためのＣＭＯＳ又はＣＣＤイメージセンサのような光学センサをさらに含んでもよい。いくつかの実施例において、当前記センサアセンブリ８１４は加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサをさらに含んでよい。

通信アセンブリ８１６は、電子機器８００とその他装置との間で有線通信又は無線通信がしやすいように構成される。電子器８００は、ＷｉＦｉ、２Ｇ又は３Ｇ、又はそれらの組み合わせのような通信規格に基づく無線ネットワークにアクセス可能である。１つの例示的な実施例において、通信アセンブリ８１６はブロードキャストチャネルを経由して外部のブロードキャスト管理システムからのブロードキャスト信号又はブロードキャスト関連情報を受け取ることができる。１つの例示的な実施例において、前記通信アセンブリ８１６は近距離通信を促進するために近距離無線通信（ＮＦＣ）モジュールをさらに含む。例えば、ＮＦＣモジュールは無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＤ）技術、Ｂｌｕｅｔｏｏｔｈ（登録商標）（ＢＴ）技術及びその他の技術に基づき実現可能である。

例示的な実施例において、電子機器８００は１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサー（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサー又はその他電子素子によって実現されてよく、上記方法の実行に用いられる。

例示的な実施例において、さらにコンピュータプログラム命令を含むメモリ８０４のようなコンピュータ読み取り可能な記憶媒体を提供し、上記コンピュータプログラム命令は電子機器８００のプロセッサー８２０により実行され、上記方法を完了することができる。

図６は、例示的な実施例に基づき示された電子機器９００のブロック図である。例えば、電子機器９００は１つのサーバーが提供されてよい。図６を参照すると、電子機器９００は処理アセンブリ９２２を含み、さらに１つ又は複数のプロセッサー、及び処理アセンブリ９２２により実行可能な命令（例えば、アプリケーションプログラム）を記憶するためのメモリ９３２により代表されるメモリリソースを含む。メモリ９３２中に記憶されたアプリケーションプログラムはそれぞれが１組の命令に対応する１つ又はそれ以上のモジュールを含んでよい。また、処理アセンブリ９９２は上記方法を実行するために命令を実行するように構成される。

電子機器９００は、電子機器９００の電源管理を実行するように構成される１つの電源アセンブリ９２６、電子機器９００をネットワークに接続するように構成される１つの有線又は無線ネットワークインターフェース９５０、及び１つの入出力（Ｉ／Ｏ）インターフェース９５８を含んでよい。電子機器９００は、Ｗｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、Ｕｎｉｘ（登録商標）、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭ又は類似するようなメモリ９３２に記憶される操作システムに基づき操作することができる。

例示的な実施例において、さらにコンピュータプログラム命令を含むメモリ９３２のようなコンピュータ読み取り可能な記憶媒体を提供し、上記コンピュータプログラム命令は電子機器９００の処理アセンブリ９２２の実行により、上記方法を完了することができる。

本開示は、システム、方法及び／又はコンピュータプログラム製品であってよい。コンピュータプログラム製品は、プロセッサーに本開示の各態様を実現させるためのコンピュータ読み取り可能なプログラム命令が搭載されているコンピュータ読み取り可能な記憶媒体を備えてよい。

コンピュータ読み取り可能な記憶媒体は、命令実行デバイスにより使用される命令を保持及び記憶することが可能なデバイスであってよい。コンピュータ読み取り可能な記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記任意の適切な組み合わせであってよいがそれに限定されない。コンピュータ読み取り可能な記憶媒体のさらに具体的な例（非しらみつぶしのリスト）は、携帯式コンピュータディスク、ＨＤＤ、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なＰＲＯＭ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックＲＡＭ（ＳＲＡＭ）、ＣＤ－ＲＯＭ、ＤＶＤ、メモリースティック、フロッピー（登録商標）ディスク、エンコーダー、例えば命令が記憶されているパンチカード又は溝内突起構造、及び上記の任意の適切な組み合わせを含む。ここで使用されるコンピュータ読み取り可能な記憶媒体は、例えば、無線電波又はその他自由伝播の電磁波、波動又はその他伝送媒体によって伝播される電磁波（例えば、光ケーブルを通過する光パルス）、又はケーブルによって伝送される電気信号等の瞬時な信号とは解釈されない。

ここで記載されるコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体から各計算／処理デバイスにダウンロードされるか、又はネットワーク、例えば、インターネット、ローカルネットワーク、ワイドエリアネットワーク及び／又はワイヤレスネットワークによって外部のコンピュータ又は外部記憶デバイスにダウンロードされる。ネットワークは、銅伝送ケーブル、光ファイバ伝送、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイ及び／又はエッジサーバーを含んでよい。各計算／処理デバイス中のネットワークカード又はネットワークインターフェースはネットワークからコンピュータ読み取り可能なプログラム命令を受け取り、当前記コンピュータ読み取り可能なプログラム命令を転送することにより、各計算／処理デバイス中のコンピュータ読み取り可能な記憶媒体中に記憶される。

本開示の操作を実行するためのコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、ステータス設定データ、又は１種又は複数種のプログラミング言語の任意の組み合わせで編纂されたソースコード又はオブジェクトコードであってよく、前記プログラミング言語はＳｍａｌｌｔａｌｋ、Ｃ＋＋等のオブジェクト指向プログラミング言語、及び「Ｃ」言語又は類似するプログラミング言語のような通常の手続き型プログラミング言語を含む。コンピュータ読み取り可能なプログラム命令は、ユーザーのコンピュータ上で完全に実行されてよく、ユーザーのコンピュータ上で一部実行されてよく、独立したソフトウェアパッケージとして実行されてよく、ユーザーのコンピュータ上の一部のリモートコンピュータ又はサーバー上で実行されてよい。リモートコンピュータの状況に関して、リモートコンピュータはローカル・エリア・ネットワーク（ＬＡＮ）又はワイド・エリア・ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザーのコンピュータに接続される、又は、外部コンピュータに接続されてよい（例えば、インターネットサービスプロバイダを利用してインターネットを介して接続する）。いくつかの実施例において、コンピュータ読み取り可能なプログラム命令のステータス情報を利用してプログラマブル・ロジック回路、ＦＰＧＡ、又はプログラマブル・ロジック・アレイ（ＰＬＡ）のように電子回路をパーソナライゼーションし、前記電子回路はコンピュータ読み取り可能なプログラム命令を実行することにより、本開示の実施例の各態様を実現することができる。

ここで、本開示の実施例の方法、デバイス（システム）及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照すると、本開示の実施例の各態様を記載する。フローチャート及び／又はブロック図の各枠及び／又はブロック図中の各枠の組合せは、すべてコンピュータ読み取り可能なプログラム命令によって実現されることを留意すべきである。

これらのコンピュータ読み取り可能なプログラム命令は汎用コンピュータ、専用コンピュータ又はその他プログラマブルデータ処理装置のプロセッサーに提供されることで機器が生成され、これらの命令がコンピュータ又はその他のプログラマブルデータ処理装置のプロセッサーにより実行される時に、フローチャート及び／又はブロック図中の１つ又は複数の枠中に規定された機能／動作を実現する装置が生み出される。これらのコンピュータ読み取り可能なプログラム命令をコンピュータ読み取り可能な記憶媒体中に記憶させてもよく、これらの命令はコンピュータ、プログラマブルデータ処理装置及び／又はその他デバイスを特定の方法で動作させることができ、命令を記憶したコンピュータ読み取り可能な媒体は製造品を含み、フローチャート及び／又はブロック図中の１つ又は複数の枠中で規定された機能／動作の各態様を実現する命令を含む。

コンピュータ読み取り可能なプログラム命令をコンピュータ、その他プログラマブルデータ処理装置、又はその他デバイス上にロードしてもよく、コンピュータ、その他プログラマブルデータ処理装置又はその他の装置上で一連の操作ステップが実行されることにより、コンピュータが実現するプロセスを生み出すことができ、それによりコンピュータ、その他プログラマブルデータ処理装置、又はその他装置上で実行された命令がフローチャート及び／又はブロック図中の１つ又は複数の枠中に規定された機能／動作を実現する。

図面中のフローチャート及びブロック図は本開示の複数の実施例のシステム、方法及びコンピュータ製品に基づく実現可能な体系構造、機能及び操作を示している。この点において、フローチャート又はブロック図における各枠は、１つ又は複数の規定された論理機能の実現に用いられる実行可能な命令を含むモジュール、プログラムセグメント又は命令の一部分を表わすことができる。いくつかの代替実施態様として、枠に示された機能は、図面に示された順番と異なる順番で実行されてもよい。例えば、２つの連続した枠は、関連する機能に応じて、実際にほぼ並行に実行されてもよく、逆の順番で実行されてもよい。ブロック図及び／又はフローチャート中の各枠、及びブロック図及び／又はフローチャート中の枠の組み合わせは、規定された機能又は動作を実行する、ハードウェアに基づく専用システムに基づき実現されてよく、又は専用ハードウェアとコンピュータの命令の組合せで実現されてもよい。

論理を逸脱しない範囲内で、本願の異なる実施例は互いに結合されてもよく、異なる実施例の記載にある程度偏りがある場合、偏りのある記載部分はその他実施例の記載を参照されたい。

以上、本開示の各実施例を説明し、上記説明は例示的なものであり、網羅的なものではなく、公開された実施例に限定されない。本開示の各実施例の範囲及び精神を逸脱しない範囲で、当業者であれば各種の修正や変更を想到し得ることは明らかである。本明細書で使用される用語は、各実施例の原理、実際の使用又は業界における技術に対する改善をもっとも良く説明するように又は、当業者が本明細書に開示された各実施例を理解できるように選択される。

本開示の一態様によれば、電子機器内で実行する時に前記電子機器におけるプロセッサーが前記バッチ正規化データに対する処理を実現するための方法を実行するコンピュータ読み取り可能なコードを含むコンピュータプログラムを提供する。
例えば、本願は以下の項目を提供する。
（項目１）
バッチ正規化データの処理方法であって、
複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化（ＢＮ）層に入力して正規化処理を行い、ＢＮ層の処理結果を得ることと、
前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得ることと、
前記シフトＢＮ層の処理結果に対して活性化層の整流線形ユニット（ＲｅＬＵ）によって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第１ターゲットネットワークを得ることと、を含む、
ことを特徴とする方法。
（項目２）
前記複数のサンプルデータを訓練対象のターゲットネットワーク中のＢＮ層に入力して正規化処理を行い、ＢＮ層の処理結果を得ることは、
前記複数のサンプルデータに対応する平均値及び分散に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理結果を得ることと、
前記ＢＮ層のスケール係数及びシフト係数に基づき、前記正規化処理結果に対して線形変換を行い、前記ＢＮ層の処理結果を得ることと、を含む、
ことを特徴とする項目１に記載の方法。
（項目３）
前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得ることは、
前記定数シフト量を正の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、前記シフトＢＮ層の処理結果を得ることを含む、
ことを特徴とする項目１又は２に記載の方法。
（項目４）
前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得ることは、
前記定数シフト量を負の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、前記シフトＢＮ層の処理結果を得ることを含む、
ことを特徴とする項目１又は２に記載の方法。
（項目５）
前記シフトＢＮ層の処理結果に対して活性化層のＲｅＬＵによって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第１ターゲットネットワークを得ることは、
前記シフトＢＮ層の処理結果に対して前記ＲｅＬＵによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を得ることと、
損失関数の逆伝播に基づき、前記第１ターゲットネットワークを得ることと、を含む、
ことを特徴とする項目１～４のいずれか１項に記載の方法。
（項目６）
前記定数シフト量の値の範囲が［０．０１、０．１］の間にある、
ことを特徴とする項目３に記載の方法。
（項目７）
前記定数シフト量の値の範囲が［－０．１、－０．０１］の間にある、
ことを特徴とする項目４に記載の方法。
（項目８）
画像分類方法であって、
画像データを取得することと、
項目１～７のいずれか１項に記載の方法により得られた第１ターゲットネットワークを用いて、前記画像データに対して画像分類を行い、画像分類処理結果を得ることと、を含む、
ことを特徴とする画像分類方法。
（項目９）
画像検出方法であって、
画像データを取得することと、
項目１～７のいずれか１項に記載の方法により得られた第１ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得ることと、を含む、
ことを特徴とする画像検出方法。
（項目１０）
ビデオ処理方法であって、
ビデオ画像を取得することと、
項目１～７のいずれか１項に記載の方法により得られた第１ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、デコード及び再生処理のうちの少なくとも１つのビデオ処理を行い、ビデオ処理結果を得ることと、を含む、
ことを特徴とするビデオ処理方法。
（項目１１）
バッチ正規化データに対する処理装置であって、
複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化（ＢＮ）層に入力して正規化処理を行い、ＢＮ層の処理結果を得るための正規化ユニットと、
前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得るためのシフトユニットと、
前記シフトＢＮ層の処理結果に対して活性化層の整流線形ユニット（ＲｅＬＵ）によって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第１ターゲットネットワークを得るための処理ユニットと、を含む、
ことを特徴とする装置。
（項目１２）
前記正規化ユニットは、
前記複数のサンプルデータに対応する平均値及び分散に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理結果を得て、
前記ＢＮ層のスケール係数及びシフト係数に基づき、前記正規化処理結果に対して線形変換を行い、前記ＢＮ層の処理結果を得る、ことに用いられる、
ことを特徴とする項目１１に記載の装置。
（項目１３）
前記シフトユニットは、
前記定数シフト量を正の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、前記シフトＢＮ層の処理結果を得ることに用いられる、
ことを特徴とする項目１１又は１２に記載の装置。
（項目１４）
前記シフトユニットは、
前記定数シフト量を負の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、前記シフトＢＮ層の処理結果を得ることに用いられる、
ことを特徴とする項目１１又は１２に記載の装置。
（項目１５）
前記処理ユニットは、
前記シフトＢＮ層の処理結果に対して前記ＲｅＬＵによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を得て、
損失関数の逆伝播に基づき、前記第１ターゲットネットワークを得る、ことに用いられる、
ことを特徴とする項目１１～１４のいずれか１項に記載の装置。
（項目１６）
前記定数シフト量の値の範囲が［０．０１、０．１］の間にある、
ことを特徴とする項目１３に記載の装置。
（項目１７）
前記定数シフト量の値の範囲が［－０．１、－０．０１］の間にある、
ことを特徴とする項目１４に記載の装置。
（項目１８）
画像分類装置であって、
画像データを取得するための第１取得装置と、
項目１～７のいずれか１項に記載の方法により得られた第１ターゲットネットワークを用いて、前記画像データに対して画像分類を行い、画像分類処理結果を得るための第１プロセッサーと、を含む、
ことを特徴とする画像分類装置。
（項目１９）
画像検出装置であって、
画像データを取得するための第２取得装置と、
項目１～７のいずれか１項に記載の方法により得られた第１ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得るための第２プロセッサーと、を含む、
ことを特徴とする画像検出装置。
（項目２０）
ビデオ処理装置であって、
ビデオ画像を取得するための第３取得装置と、
項目１～７のいずれか１項に記載の方法により得られた第１ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、デコード及び再生処理のうちの少なくとも１つのビデオ処理を行い、ビデオ処理結果を得るための第３プロセッサーと、を含む、
ことを特徴とするビデオ画像処理装置。
（項目２１）
電子機器であって、
項目１～７、項目８、項目９、項目１０のいずれか１項に記載の方法を実行するように構成されるプロセッサーと、
プロセッサー実行可能な命令を記憶するためのメモリと、を含む、
ことを特徴とする電子機器。
（項目２２）
プロセッサーにより実行される時に項目１～７、項目８、項目９、項目１０のいずれか１項に記載の方法を実現するコンピュータプログラム命令が記憶されている、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
（項目２３）
電子機器内で実行する時に前記電子機器におけるプロセッサーが項目１～７、項目８、項目９、項目１０のいずれか１項を実現するための方法を実行するコンピュータ読み取り可能なコードを含む、
ことを特徴とするコンピュータプログラム。

Claims

バッチ正規化データの処理方法であって、
複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化（ＢＮ）層に入力して正規化処理を行い、ＢＮ層の処理結果を得ることと、
前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得ることと、
前記シフトＢＮ層の処理結果に対して活性化層の整流線形ユニット（ＲｅＬＵ）によって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第１ターゲットネットワークを得ることと、を含む、
ことを特徴とする方法。
前記複数のサンプルデータを訓練対象のターゲットネットワーク中のＢＮ層に入力して正規化処理を行い、ＢＮ層の処理結果を得ることは、
前記複数のサンプルデータに対応する平均値及び分散に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理結果を得ることと、
前記ＢＮ層のスケール係数及びシフト係数に基づき、前記正規化処理結果に対して線形変換を行い、前記ＢＮ層の処理結果を得ることと、を含む、
ことを特徴とする請求項１に記載の方法。
前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得ることは、
前記定数シフト量を正の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、前記シフトＢＮ層の処理結果を得ることを含む、
ことを特徴とする請求項１又は２に記載の方法。
前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得ることは、
前記定数シフト量を負の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、前記シフトＢＮ層の処理結果を得ることを含む、
ことを特徴とする請求項１又は２に記載の方法。
前記シフトＢＮ層の処理結果に対して活性化層のＲｅＬＵによって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第１ターゲットネットワークを得ることは、
前記シフトＢＮ層の処理結果に対して前記ＲｅＬＵによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を得ることと、
損失関数の逆伝播に基づき、前記第１ターゲットネットワークを得ることと、を含む、
ことを特徴とする請求項１～４のいずれか１項に記載の方法。
前記定数シフト量の値の範囲が［０．０１、０．１］の間にある、
ことを特徴とする請求項３に記載の方法。
前記定数シフト量の値の範囲が［－０．１、－０．０１］の間にある、
ことを特徴とする請求項４に記載の方法。
画像分類方法であって、
画像データを取得することと、
請求項１～７のいずれか１項に記載の方法により得られた第１ターゲットネットワークを用いて、前記画像データに対して画像分類を行い、画像分類処理結果を得ることと、を含む、
ことを特徴とする画像分類方法。
画像検出方法であって、
画像データを取得することと、
請求項１～７のいずれか１項に記載の方法により得られた第１ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得ることと、を含む、
ことを特徴とする画像検出方法。
ビデオ処理方法であって、
ビデオ画像を取得することと、
請求項１～７のいずれか１項に記載の方法により得られた第１ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、デコード及び再生処理のうちの少なくとも１つのビデオ処理を行い、ビデオ処理結果を得ることと、を含む、
ことを特徴とするビデオ処理方法。
バッチ正規化データに対する処理装置であって、
複数の画像データに対して特徴抽出を行うことにより得られる複数のサンプルデータを訓練対象のターゲットネットワーク中のバッチ正規化（ＢＮ）層に入力して正規化処理を行い、ＢＮ層の処理結果を得るための正規化ユニットと、
前記ＢＮ層の処理結果に対して指定した定数シフト量に基づき初期ＢＮのシフト調整を行い、シフトＢＮ層の処理結果を得るためのシフトユニットと、
前記シフトＢＮ層の処理結果に対して活性化層の整流線形ユニット（ＲｅＬＵ）によって非線形マッピングを行い、段階的に損失関数を得た後に逆伝播を行い、第１ターゲットネットワークを得るための処理ユニットと、を含む、
ことを特徴とする装置。
前記正規化ユニットは、
前記複数のサンプルデータに対応する平均値及び分散に基づき、前記複数のサンプルデータに対して正規化処理を行い、正規化処理結果を得て、
前記ＢＮ層のスケール係数及びシフト係数に基づき、前記正規化処理結果に対して線形変換を行い、前記ＢＮ層の処理結果を得る、ことに用いられる、
ことを特徴とする請求項１１に記載の装置。
前記シフトユニットは、
前記定数シフト量を正の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、前記シフトＢＮ層の処理結果を得ることに用いられる、
ことを特徴とする請求項１１又は１２に記載の装置。
前記シフトユニットは、
前記定数シフト量を負の数に設定し、前記定数シフト量によって初期ＢＮのシフト調整を行い、前記シフトＢＮ層の処理結果を得ることに用いられる、
ことを特徴とする請求項１１又は１２に記載の装置。
前記処理ユニットは、
前記シフトＢＮ層の処理結果に対して前記ＲｅＬＵによって非線形マッピングを行った後、次層の計算に進み、最終的に損失関数を得て、
損失関数の逆伝播に基づき、前記第１ターゲットネットワークを得る、ことに用いられる、
ことを特徴とする請求項１１～１４のいずれか１項に記載の装置。
前記定数シフト量の値の範囲が［０．０１、０．１］の間にある、
ことを特徴とする請求項１３に記載の装置。
前記定数シフト量の値の範囲が［－０．１、－０．０１］の間にある、
ことを特徴とする請求項１４に記載の装置。
画像分類装置であって、
画像データを取得するための第１取得装置と、
請求項１～７のいずれか１項に記載の方法により得られた第１ターゲットネットワークを用いて、前記画像データに対して画像分類を行い、画像分類処理結果を得るための第１プロセッサーと、を含む、
ことを特徴とする画像分類装置。
画像検出装置であって、
画像データを取得するための第２取得装置と、
請求項１～７のいずれか１項に記載の方法により得られた第１ターゲットネットワークを用いて、前記画像データ中のターゲット領域に対して画像検出を行い、画像検出結果を得るための第２プロセッサーと、を含む、
ことを特徴とする画像検出装置。
ビデオ処理装置であって、
ビデオ画像を取得するための第３取得装置と、
請求項１～７のいずれか１項に記載の方法により得られた第１ターゲットネットワークを用いて、前記ビデオ画像に対して予め設定された処理ポリシーに従ってエンコード、デコード及び再生処理のうちの少なくとも１つのビデオ処理を行い、ビデオ処理結果を得るための第３プロセッサーと、を含む、
ことを特徴とするビデオ画像処理装置。
電子機器であって、
請求項１～７、請求項８、請求項９、請求項１０のいずれか１項に記載の方法を実行するように構成されるプロセッサーと、
プロセッサー実行可能な命令を記憶するためのメモリと、を含む、
ことを特徴とする電子機器。
プロセッサーにより実行される時に請求項１～７、請求項８、請求項９、請求項１０のいずれか１項に記載の方法を実現するコンピュータプログラム命令が記憶されている、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
電子機器内で実行する時に前記電子機器におけるプロセッサーが請求項１～７、請求項８、請求項９、請求項１０のいずれか１項を実現するための方法を実行するコンピュータ読み取り可能なコードを含む、
ことを特徴とするコンピュータプログラム。