JP6930039B2

JP6930039B2 - 画像処理方法、装置、コンピュータ装置及びコンピュータ記憶媒体

Info

Publication number: JP6930039B2
Application number: JP2020548653A
Authority: JP
Inventors: 潘新▲鋼▼; 石建萍; ▲羅▼平; ▲湯▼▲曉▼▲鴎▼
Original assignee: ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date: 2018-05-23
Filing date: 2019-03-07
Publication date: 2021-09-01
Anticipated expiration: 2039-03-07
Also published as: CN108875787A; US20210034913A1; JP2021509994A; WO2019223397A1; CN108875787B; US11080569B2; SG11202009173YA

Description

（関連出願の相互参照）
本出願は、２０１８年５月２３日に提出された出願番号が２０１８１０５００１８５．０である中国特許出願に基づく優先権を主張するものであり、該中国特許出願の全内容を参照として本出願に援用する。

本出願の実施例は、深層学習分野に関し、画像認識方法及び装置、コンピュータ装置並びに記憶媒体に関するが、これらに限定されない。

畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＣＮＮ）は、コンピュータビジョン分野における主流の手法になっている。画像分類、物体検知及びセマンティックセグメンテーションのような画像理解タスクについて、現在の主流の畳み込みニューラルネットワークは、例えば、オックスフォード大学のビジュアルジオメトリグループ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ：ＶＧＧ）、残差ネットワーク（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ：ＲｅｓＮｅｔ）、密集結合畳み込みネットワーク（ＤｅｎｓｅＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ：ＤｅｎｓｅＮｅｔ）等が、いずれもバッチ正規化（ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ：ＢＮ）を利用してトレーニングを加速させている。しかしながら、これらの畳み込みニューラルネットワークは、画像外観の変化に対して、ロバスト性が低い。例えば、画像の色、コントラスト、スタイル、シーン等が変わった場合、これらの畳み込みニューラルネットワークの性能は、著しく低下する。

また、画像外観変換領域において、畳み込みニューラルネットワークでインスタンスの正規化（ＩｎｓｔａｎｃｅＮｏｒｍａｌｉｚａｔｉｏｎ：ＩＮ）を利用して、異なる外観の画像に対する適応能力を向上させている。しかしながら、インスタンスの正規化は、画像理解タスクにおける使用に成功していなかった。また、従来技術において、ＣＮＮでＢＮを使用するかそれともＩＮを使用するかに関わらず、畳み込みニューラルネットワークの性能を好適に向上させることもできない。

本出願の実施例は、画像認識方法及び装置、コンピュータ装置並びに記憶媒体を提供する。

本出願の実施例の技術的解決手段は、以下のように実現する。

本出願の実施例は、画像認識方法を提供する。前記方法は、認識対象画像を取得することと、前記認識対象画像を、トレーニングにより得られたニューラルネットワークモデルに入力し、前記認識対象画像の認識結果を得ることであって、前記ニューラルネットワークモデルが、前記ニューラルネットワークの畳み込み層から出力された特徴マップに対してＩＮ及びＢＮ処理を行うことで得られたものであることと、前記認識対象画像の認識結果を出力することとを含む。

本出願の実施例は、画像認識装置を提供する。前記装置は、第１取得モジュールと、第１処理モジュールと、第１出力モジュールとを備え、第１取得モジュールは、認識対象画像を取得するように構成され、第１処理モジュールは、前記認識対象画像を、トレーニングにより得られたニューラルネットワークモデルに入力し、前記認識対象画像の認識結果を得るように構成され、前記ニューラルネットワークモデルが、前記ニューラルネットワークに対してＩＮ及びＢＮ処理を行うことで得られたものである。第１出力モジュールは、前記認識対象画像の認識結果を出力するように構成される。

本出願の実施例は、コンピュータプログラム製品を提供する。前記コンピュータプログラム製品は、コンピュータによる実行可能な命令を含み、該コンピュータによる実行可能な命令は、実行されてから、本出願の実施例で提供される画像認識方法のステップを実現させることができる。
本願明細書は、例えば、以下の項目も提供する。
（項目１）
画像認識方法であって、
認識対象画像を取得することと、
前記認識対象画像を、トレーニングにより得られたニューラルネットワークモデルに入力し、前記認識対象画像の認識結果を得ることであって、前記ニューラルネットワークモデルが、前記ニューラルネットワークの畳み込み層から出力された特徴マップに対してＩＮ及びＢＮ処理を行うことで得られたものであることと、
前記認識対象画像の認識結果を出力することとを含む、前記方法。
（項目２）
前記ニューラルネットワークモデルのトレーニングプロセスは、
前記ニューラルネットワークの畳み込み層から第１畳み込み層集合及び第２畳み込み層集合を決定することと、
前記第１畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＩＮ処理を行うことと、
前記第２畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＢＮ処理を行うこととを含むことを特徴とする
項目１に記載の方法。
（項目３）
前記第１畳み込み層集合及び前記第２畳み込み層集合からなる集合は、前記ニューラルネットワークの全ての畳み込み層のうちの全部又は一部であることを特徴とする
項目２に記載の方法。
（項目４）
前記第１畳み込み層集合と前記第２畳み込み層集合とは、共通部分を有せず、又は、前記第１畳み込み層集合と前記第２畳み込み層集合とは、共通部分を有し、又は、前記第２畳み込み層集合は、前記第１畳み込み層集合のサブ集合であることを特徴とする
項目２に記載の方法。
（項目５）
前記第１畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＩＮ処理を行うことは、
前記第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第１チャネル集合を決定することと、
前記第１チャネル集合に対してＩＮ処理を行うこととを含むことを特徴とする
項目２に記載の方法。
（項目６）
前記第２畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＢＮ処理を行うことは、
前記第２畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第２チャネル集合を決定することと、
前記第２チャネル集合において、ＢＮ処理を行うこととを含むことを特徴とする
項目２に記載の方法。
（項目７）
前記第１チャネル集合は、前記第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であり、前記第２チャネル集合は、前記第２畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であることを特徴とする
項目２から６のいずれか一項に記載の方法。
（項目８）
前記第１畳み込み層集合には、前記ニューラルネットワークにおける最後の一層の畳み込み層が含まれないことを特徴とする
項目２から７のいずれか一項に記載の方法。
（項目９）
前記ニューラルネットワークが少なくとも２つのブロックを含み、且つ各ブロックの最後の一層から出力された特徴マップに対応するチャネルの数は、前のブロックの最後の一層から出力された特徴マップに対応するチャネルの数が同じであり、前記方法は、
前記ニューラルネットワークの２つのブロックに対応する特徴マップを加算し、出力結果を得ることと、
前記出力結果に対してＩＮ処理を行うこととを更に含むことを特徴とする
項目２から８のいずれか一項に記載の方法。
（項目１０）
画像認識装置であって、第１取得モジュールと、第１処理モジュールと、第１出力モジュールとを備え、
第１取得モジュールは、認識対象画像を取得するように構成され、
第１処理モジュールは、前記認識対象画像を、トレーニングにより得られたニューラルネットワークモデルに入力し、前記認識対象画像の認識結果を得るように構成され、前記ニューラルネットワークモデルが、前記ニューラルネットワークに対してＩＮ及びＢＮ処理を行うことで得られたものであり、
第１出力モジュールは、前記認識対象画像の認識結果を出力するように構成される、前記装置。
（項目１１）
前記装置は、
前記ニューラルネットワークの畳み込み層から出力された特徴マップに対してＩＮ及びＢＮ処理を行い、前記ニューラルネットワークモデルを得るように構成される第２処理モジュールを更に備えることを特徴とする
項目１０に記載の装置。
（項目１２）
前記第２処理モジュールは、
前記ニューラルネットワークの畳み込み層から第１畳み込み層集合及び第２畳み込み層集合を決定するように構成される第１決定モジュールと、
前記第１畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＩＮ処理を行うように構成される第１サブ処理モジュールと、
前記第２畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＢＮ処理を行うように構成される第２サブ処理モジュールとを備えることを特徴とする
項目１１に記載の装置。
（項目１３）
前記第１畳み込み層集合及び前記第２畳み込み層集合からなる集合は、前記ニューラルネットワークの全ての畳み込み層のうちの全部又は一部であることを特徴とする
項目１２に記載の装置。
（項目１４）
前記第１畳み込み層集合と前記第２畳み込み層集合とは、共通部分を有せず、又は、前記第１畳み込み層集合と前記第２畳み込み層集合とは、共通部分を有し、又は、前記第２畳み込み層集合は、前記第１畳み込み層集合のサブ集合であることを特徴とする
項目１２に記載の装置。
（項目１５）
前記第１サブ処理モジュールは、
前記第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第１チャネル集合を決定するように構成される第１サブ決定モジュールと、
前記第１チャネル集合に対してＩＮ処理を行うように構成される第３サブ処理モジュールとを備えることを特徴とする
項目１２に記載の装置。
（項目１６）
前記第２処理モジュールは、
各前記畳み込み層から出力された特徴マップに対応するチャネルから、第２チャネル集合を決定するように構成される第２サブ決定モジュールと、
前記第２チャネル集合において、ＢＮ処理を行うように構成される第４サブ処理モジュールとを備えることを特徴とする
項目１２に記載の装置。
（項目１７）
前記第１チャネル集合は、前記第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であり、前記第２チャネル集合は、前記第２畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であることを特徴とする
項目１２から１６のいずれか一項に記載の装置。
（項目１８）
前記ニューラルネットワークが少なくとも２つのブロックを含み、且つ各ブロックの最後の一層から出力された特徴マップに対応するチャネルの数は、前のブロックの最後の一層から出力された特徴マップに対応するチャネルの数が同じであり、前記装置は、
前記ニューラルネットワークの２つのブロックに対応する特徴マップを加算し、出力結果を得て、前記出力結果に対してＩＮ処理を行うように構成される第２処理モジュールを更に備えることを特徴とする
項目１２から１７のいずれか一項に記載の装置。
（項目１９）
前記第１畳み込み層集合には、前記ニューラルネットワークにおける最後の一層の畳み込み層が含まれないことを特徴とする
項目１２から１８のいずれか一項に記載の方法。
（項目２０）
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、コンピュータによる実行可能な命令が記憶されており、前記コンピュータによる実行可能な命令が実行され、項目１から９のいずれか一項に記載の方法のステップを実現させる、前記コンピュータ記憶媒体。
（項目２１）
コンピュータ装置であって、メモリとプロセッサとを備え、前記メモリには、コンピュータによる実行可能な命令が記憶されており、前記プロセッサが前記メモリに記憶されているコンピュータによる実行可能な命令を実行する時、項目１から９のいずれか一項に記載の方法のステップを実現させる、コンピュータ装置。
（項目２２）
コンピュータプログラムであって、前記コンピュータプログラムがコンピュータにより実行されると、項目１から９のいずれか一項に記載の方法のステップを実現する、コンピュータプログラム。

本出願の実施例は、コンピュータによる実行可能な命令が記憶されているコンピュータ記憶媒体を提供する。該コンピュータによる実行可能な命令は、実行されてから、本出願の実施例で提供される画像認識方法のステップを実現させることができる。

本出願の実施例は、メモリとプロセッサとを備えるコンピュータ装置を提供する。前記メモリには、コンピュータによる実行可能な命令が記憶されており、前記プロセッサが前記メモリにおけるコンピュータによる実行可能な命令を実行する時、本出願の実施例で提供される画像認識方法のステップを実現させることができる。

本出願の実施例は、コンピュータプログラム製品を提供する。前記コンピュータプログラム製品は、コンピュータによる実行可能な命令を含み、該コンピュータによる実行可能な命令は、実行されてから、本出願の実施例で提供される画像認識方法のステップを実現させることができる。

本出願の実施例において、ＩＮとＢＮを組み合わせてニューラルネットワークに適用することで、画像認識の正確率を効果的に向上させる。

本出願の実施例におけるネットワークアーキテクチャの構成を示す概略図である。本出願の実施例における画像認識方法の実現フローを示す概略図である。本出願の実施例における画像認識方法を実現させるネットワークアーキテクチャを示す図である。本出願の実施例における画像認識方法を実現させるもう１つのネットワークアーキテクチャを示す図である。本出願の実施例における画像認識方法のもう１つの実現フローを示す概略図である。本出願の実施例における残差ネットワークに基づいた構成を示す図である。本出願の実施例における残差ネットワークに基づいたもう１つの構成を示す図である。本出願の実施例における画像認識装置の構成を示す概略図である。本出願の実施例におけるコンピュータ装置の構成を示す概略図である。

本実施例は、まずネットワークアーキテクチャを提供する。図１Ａは、本出願の実施例におけるネットワークアーキテクチャの構成を示す概略図である。図１Ａに示すように、該ネットワークアーキテクチャは、２つ又は複数のコンピュータ装置１１〜１Ｎと、サーバ３１とを備える。コンピュータ装置１１〜１Ｎとサーバ３１とは、ネットワーク２１を経由して対話する。コンピュータ装置は、実現過程において、情報処理能力を持つ様々なタイプのコンピューティング装置であってもよい。例えば、前記コンピュータ装置は、スマートフォン、タブレット、デスクトップコンピュータ、パーソナルデジタルアシスタント、ナビゲータ、デジタル電話機、テレビ等を含んでもよい。本実施例は、画像認識方法を提供することで、出力画像の構造情報が入力画像と比較して変化したという課題を効果的に解決することができる。該方法は、コンピュータ装置に適用され、該方法により実現される機能は、コンピュータ装置におけるプロセッサによるプログラムコードの呼出しにより実現することができる。勿論、プログラムコードは、コンピュータ記憶媒体に記憶されてもよい。これから分かるように、該コンピュータ装置は、少なくともプロセッサと、記憶媒体とを備える。

本実施例をより理解しやすくするために、ここで、ニューラルネットワークに関連する用語を解決する。チャネル（Ｃｈａｎｎｅｌ）という用語は、２つの異なった意味を持つ。１つの意味は、サンプル画像（画像をトレーニングサンプルとする）の場合、チャネルとは、色チャネルを指すことである。以下、色チャネルでサンプル画像のチャネルを表す。もう１つの意味は、出力空間の次元数であり、例えば、畳み込み操作における出力チャネルの数、又は、各畳み込み層における畳み込みカーネルの数である。

色チャネルとは、画像を１つ又は複数の色成分又はコンポーネントに分けるものを指す。単色チャネルにおいて、１つの画素点は、１つの数値のみでグレースケールを表せば良く、０が黒色を表す。三色チャネルには、赤緑青（ＲｅｄＧｒｅｅｎＢｌｕｅ：ＲＧＢ）色モードを利用して画像を赤緑青という３つの色チャネルに分ける場合、カラーを表すことができ、全ての値が０である場合、黒色を表す。四色チャネルにおいて、ＲＧＢ色モードにａｌｐｈａチャネルを加えて、透明度を表し、ａｌｐｈａ＝０は、完全透明を表す。畳み込みニューラルネットワークは、多層教師あり学習ニューラルネットワークである。隠れ層の畳み込み層及びプールサンプリング層は、畳み込みニューラルネットワークの特徴抽出機能を実現させるためのカーネルモジュールである。畳み込みニューラルネットワークの下位隠れ層は、畳み込み層と最大プールサンプリング層とから交互に構成され、上位層は、従来の多層パーセプトロンに対応する全結合層の隠れ層及びロジスティック回帰分類器である。一番目の全結合層への入力は、畳み込み層及びサブサンプリング層による特徴抽出によって得られる特徴画像である。最終層である出力層は、分類器であり、ロジスティック回帰、Ｓｏｆｔｍａｘ回帰、ひいてはサポートベクターマシンを利用することで入力画像を分類することができる。ＣＮＮにおける各層は、複数のマップ（ｍａｐ）より構成され、各ｍａｐは、複数のニューラルユニットより構成される。同一のｍａｐの全てのニューラルユニットは、１つの畳み込みカーネル（即ち、重み）を共用する。畳み込みカーネルは、通常１つの特徴を表し、例えば、ある畳み込みカーネルは１つの円弧を表す場合、該畳み込みカーネルが画像全体において一回畳み込むと、畳み込み値が大きい領域は、１つの円弧である可能性が高い。ＣＮＮは、一般的には、畳み込み層とサンプリング層とを交互に配置することで構成されたものである。つまり、一層の畳み込み層に１つのサンプリング層を繋ぎ、サンプリング層の後ろに一層の畳み込み層を繋ぐ。勿論、複数の畳み込み層に１つのサンプリング層を繋いでもよい。従って、畳み込み層により特徴を抽出してから、組み合わせて抽象的な特徴を形成し、最後に、画像対象を表す特徴を形成する。ＣＮＮの後ろに全結合層を繋いでもよい。ＲｅＬＵ関数は、その公式が、ＲｅＬＵ（ｘ）＝ｍａｘ（０，ｘ）である。ＲｅＬＵ関数のグラフから分かるように、ＲｅＬＵは、例えばｓｉｇｍｏｉｄ関数のような他の活性化関数に比べて、（１）片側抑制性、（２）相対的広い活性化境界、（３）スパース活性化性という３つの点で変わる。ＶＧＧモデルについて、ＶＧＧモデルの構造が簡単で効率的であり、最初の数層において、３×３畳み込みカーネルのみによりネットワーク深度を増加させ、最大プーリング（ＭａｘＰｏｏｌｉｎｇ）により、各層のニューロン数を順次減少させる。最後の三層はそれぞれ、４０９６個のニューロンを有する２つの全結合層及び１つのｓｏｆｔｍａｘ層である。「１６」及び「１９」は、ネットワークにおける、重み（即ちｗｅｉｇｈｔ、学習されるパラメータ）の更新を必要とする畳み込み層及び全結合層の数を表す。ＶＧＧ１６モデル及びＶＧＧ１９モデルの重みはいずれもＩｍａｇｅＮｅｔによってトレーニングされたものである。

本実施例は、画像認識方法を提供する。図１Ｂは、本出願の実施例における画像認識方法の実現フローを示す概略図である。図１Ｂに示すように、前記方法は、下記ステップを含む。

ステップＳ１０１において、認識対象画像を取得する。ここで、前記ステップＳ１０１は、コンピュータ装置により実現してもよい。更に、前記コンピュータ装置は、インテリジェント端末であってもよい。例えば、携帯電話（例えば、スマートフォン）、タブレット、ノートパソコンなどのような、無線通信能力を持つ携帯端末装置であってもよいし、デスクトップコンピュータなどのような移動しにくいインテリジェント端末装置であってもよい。前記コンピュータ装置は、画像認識又は処理に用いられる。

本実施例において、前記処理されるべき画像は、外観が複雑である画像であってもよいし、外観が簡単である画像であってもよい。

ステップＳ１０２において、前記認識対象画像を、トレーニングにより得られたニューラルネットワークモデルに入力し、前記認識対象画像の認識結果を得る。ここで、前記ステップＳ１０２は、コンピュータ装置により実現してもよい。前記ニューラルネットワークモデルは、前記ニューラルネットワークの畳み込み層から出力された特徴マップに対してＩＮ及びＢＮ処理を行うことで得られたものである。本実施例において、前記ニューラルネットワークの畳み込み層から出力された特徴マップに対してＩＮ及びＢＮ処理を行うことで、前記ニューラルネットワークモデル、即ちＩＢＮ−Ｎｅｔを得る。前記認識結果は、画像のカテゴリ、画像の名称等であってもよい。前記ニューラルネットワークは、ＲｅｓＮｅｔ５０、ＶＧＧ及びＤｅｎｓｅＮｅｔ等のような畳み込みニューラルネットワークであってもよい。前記ニューラルネットワークモデルにおいてＩＮ及びＢＮを同時に利用しているため、ＩＮにより外観を変化させないようにして汎用化を改良し、ＢＮにより、コンテンツ情報を切り分けるための特徴を残す。従って、ＩＮ及びＢＮを組み合わせて利用したニューラルネットワークモデルにおいて、ニューラルネットワークの汎用化能力を向上させることができるだけでなく、該ニューラルネットワークによる画像認識の正確率を向上させることもできる。

ステップＳ１０３において、前記認識対象画像の認識結果を出力する。ここで、前記ステップＳ１０３は、コンピュータ装置により実現してもよい。実際の実現過程において、前記コンピュータ装置から前記認識対象画像の解析結果を出力することは、自体のディスプレイで前記認識対象画像を出力してもよいし、前記コンピュータ装置から前記解析結果を他の装置に出力してもよい。つまり、他の装置に送信してもよい。前記他の装置は、例えば、ユーザのインテリジェント端末であってもよい。

本出願の実施例が提供する画像認識方法において、ＩＮとＢＮを組み合わせてニューラルネットワークに適用してから、ＩＮ及びＢＮにより処理されたニューラルネットワークモデルにおいて、認識対象画像を解析することで、画像認識の正確率を向上させる。

実現過程において、トレーニングされたニューラルネットワークモデルは、コンピュータ装置のローカルに位置してもよいし、サーバ側に位置してもよい。

トレーニングされたニューラルネットワークモデルは、コンピュータ装置のローカルに位置する場合、コンピュータ装置にクライアントがインストールされていることであり、トレーニングされたニューラルネットワークモデルがインストールされていることであてもよい。従って、図１Ｃに示すように、コンピュータ装置は、ステップＳ１０１により、認識対象画像を取得してから、ステップＳ１０２により、認識対象画像の認識結果を取得し、最後に、ステップＳ１０３により、認識結果を出力する。上記プロセスから分かるように、コンピュータ装置にクライアントをインストールしてから、上記Ｓ１０１からステップＳ１０３はいずれもコンピュータ装置のローカルで実行され、最後に、コンピュータ装置は、認識結果を得てユーザに出力する。

幾つかの実施例において、トレーニングされたニューラルネットワークモデルは、図１Ｄに示すように、サーバ側に位置してもよい。従って、コンピュータ装置は、入力画像をサーバに送信する。サーバは、コンピュータ装置からの入力画像を受信し、ステップＳ１０１を実現させる。換言すれば、上記方法がサーバ側で実現すると、ステップＳ１０１は、サーバがコンピュータ装置からの入力画像を受信すること含む。つまり、サーバが認識対象画像を決定してから、ステップＳ１０２により、前記認識対象画像の出力結果を取得し、最後に、ステップＳ１０３により、出力された認識結果を取得する。上記プロセスから分かるように、上記Ｓ１０１からステップＳ１０３はいずれもサーバ側で実行される。最後に、サーバは、認識結果をコンピュータ装置に送信することもできる。従って、コンピュータ装置は、認識結果を受信してから、認識結果をユーザに出力する。本実施例において、コンピュータ装置にクライアントをインストールしてから、ユーザは、ユーザの認識対象画像をアップロードし、サーバからの認識対象画像を受信する。続いて、認識結果をユーザに出力する。

本実施例は、画像認識方法を提供する。図２は、本出願の実施例における画像認識方法のもう１つの実現フローを示す概略図である。図２に示すように、前記方法は、下記ステップを含む。

ステップＳ２０１において、前記ニューラルネットワークの畳み込み層から第１畳み込み層集合及び第２畳み込み層集合を決定する。ここで、前記第１畳み込み層集合及び前記第２畳み込み層集合からなる集合は、前記ニューラルネットワークの全ての畳み込み層のうちの全部又は一部である。前記第１畳み込み層集合及び前記第２畳み込み層集合からなる集合が前記ニューラルネットワークの全ての畳み込み層のうちの全部であることは、該ニューラルネットワークの全ての畳み込み層がいずれもＩＮ及び／又はＢＮにより処理されたものであると理解されてもよい。第１畳み込み層集合及び前記第２畳み込み層集合からなる集合が前記ニューラルネットワークの全ての畳み込み層のうちの一部であることは、該ニューラルネットワークの一部の畳み込み層に対して、ＩＮによる処理又はＩＮとＢＮを組み合わせたものによる処理が行われていないと理解されてもよい。

ステップＳ２０２において、前記第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第１チャネル集合を決定する。ここで、前記第１チャネル集合は、前記第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部である。前記第１畳み込み層集合には、前記ニューラルネットワークにおける最後の一層の畳み込み層が含まれない。つまり、ニューラルネットワークの最後の一層（深層）に対してＩＮ処理を行わない。従って、コンテンツの深層特徴における切り分け性能を低減させず、画像外観の変換による特徴の変化を低減させることもできる。これにより、該ニューラルネットワークモデルによる画像認識の正確率を向上させる。実際の使用過程において、一般的には、特徴マップに対応する全てのチャネルの半分に対してＩＮ処理を行い、他方の半分に対してＢＮ処理を行う。勿論、ＩＮ処理が行われるチャネルの割合は、調整可能である。本実施例において、ニューラルネットワークのショートカット経路を煩雑させないために、ニューラルネットワークのショートカット経路においてＩＮ処理を行わない。

ステップＳ２０３において、前記第１チャネル集合に対してＩＮ処理を行う。ここで、第１チャネル集合が、前記第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部である場合、第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルに対してＩＮ処理を行う。第１チャネル集合が、前記第１第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの一部である場合、前記一部のチャネルに対してＩＮ処理を行ってから、残りのチャネルに対してＢＮ処理を行うか、又は何の処理も行わない。

ステップＳ２０４において、第２畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対応するチャネルから、第２チャネル集合を決定する。ここで、前記第２チャネル集合は、前記第２畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部である。

ステップＳ２０５において、前記第２チャネル集合に対してＢＮ処理を行う。ここで、第２チャネル集合が前記第２畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部である場合、第２畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルに対してＢＮ処理を行う。第２チャネル集合が前記第２畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの一部である場合、前記一部のチャネルに対してＢＮ処理を行ってから、残りのチャネルに対してＩＮ処理を行う。

幾つかの実施例において、前記第１畳み込み層集合と前記第２畳み込み層集合との関係は、下記３通りのケースを含む。ケース１：前記第１畳み込み層集合と前記第２畳み込み層集合とは、共通部分が存在しない。つまり、第１畳み込み集合と第２畳み込み集合に対してそれぞれ異なる正規化処理を行う。つまり、前記第１畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＩＮ処理を行い、前記第２畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＢＮ処理を行う。図４（ｂ）に示すように、加算により得られた出力結果の一部のみに対してＩＮ処理を行い、残りの畳み込み層から出力された特徴マップに対してＢＮ処理を行う。ケース２：前記第１畳み込み層集合と前記第２畳み込み層集合とは、共通部分を有する。つまり、第１畳み込み層集合に対して、ＩＮ、ＩＮとＢＮを組み合わせた処理を行い、第２畳み込み層集合に対して、ＢＮ、ＩＮとＢＮを組み合わせた処理を行う。つまり、ステップ２０２及びステップ２０３のように、第１チャネルが第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの一部である場合、前記一部のチャネルに対してＩＮ処理を行い、残りの部分に対してＢＮ処理を行う。又は、ステップ２０４及びステップ２０５のように、第２チャネルが第２畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの一部である場合、前記一部のチャネルに対してＢＮ処理を行い、残りの一部に対してＩＮ処理を行う。図４（ｄ）に示すように、畳み込み層から出力された特徴マップに対して、ＢＮ、ＩＮとＢＮを組み合わせた処理を行う。ケース３：前記第２畳み込み層集合が前記第１畳み込み層集合のサブ集合であり、前記第２畳み込み層集合が前記第１畳み込み層集合のサブ集合である場合、第１畳み込み集合に対して、ＩＮ、ＩＮとＢＮを組み合わせた処理を行い、第２畳み込み集合に対して、ＩＮとＢＮを組み合わせた処理を行う。前記第２畳み込み層集合が前記第１畳み込み層集合と同じである場合、第２畳み込み層集合及び第１畳み込み層集合のいずれもに対して、ＩＮとＢＮを合わせた処理を行う。つまり、第１チャネルが第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの一部である場合、前記一部のチャネルに対してＩＮ処理を行い、残りの一部に対してＢＮ処理を行い、又は処理を行わない（つまり、第１畳み込み層集合層には、ＩＮ処理、ＩＮとＢＮを組み合わせた処理という２つの処理方式が含まれる）。

幾つかの実施例において、前記方法は、前記ニューラルネットワークの２つのブロックに対応する特徴マップを加算して、出力結果を得て、前記出力結果に対してＩＮ処理を行うことを更に含む。図３（ｃ）に示すように、まず、図３（ｃ）に示される残差ブロックに対してい三層の畳み込みを行って得られる特徴マップと、前回の残差ブロックに対してい多層畳み込みを行って得られる特徴マップを加算し、加算結果（即ち、出力結果）を得る。続いて、加算結果に対してＩＮ処理を行う。本実施例において、外観情報は、残差経路に残されてもよく、ショートカット経路に格納されてもよいため、ニューラルネットワークの汎用化能力をより効果的に向上させるために、残差経路（即ち、図３における経路１）とショートカット経路（即ち、図３における経路２）が合流してから、ＩＮ処理を行い、それにより、画像認識の正確率を効果的に向上させる。

関連技術におけるＩＮやＢＮを単独で利用したＣＮＮ構造と異なっており、本実施例が提供する画像認識方法において、ＩＮ及びＢＮの学習能力を鋭意検討することによって、同一のＣＮＮにおいてＩＮとＢＮを組み合わせて利用している。例えば、多くの先進的な深層アーキテクチャにおいて、ＢＮを、高レベルの視覚タスクに対する学習能力の向上のためのキーコンポーネントとして利用しており、それに対してＩＮを一般的にはＣＮＮと組み合わせることによって、画像スタイル変換などのような、低レベルの視覚タスクの画像の分散を取り除いている。しかしながら、ＩＮとＢＮの学習特徴における異なる特性及びその組み合わせによる影響は、関連技術において、結論付けられていない。それに対して、本出願の実施例に提供されるＩＢＮ−Ｎｅｔによれば、適切な方式でＩＮとＢＮを組み合わせてＣＮＮの学習及び汎用化能力を向上させることが明らかになっている。異なる深度におけるネットワークの統計学的特徴に合わせるために、ＩＢＮ−Ｎｅｔにおいて、ＩＮとＢＮとを組み合わせした特徴をＣＮＮの浅層に残し、ＢＮ特徴をＣＮＮの深層に残す。ＣＮＮにおいて、画像外観に関わる情報（例えば、色、コントラスト、スタイル等）は主に浅層の特徴に存在し、それに対して画像における物体のカテゴリに関わる情報は、主に深層の特徴に存在し、しかも浅層にも特徴が存在する。これに基づいて、２つの目的のためにＣＮＮにＩＮ層を導入する。１つの目的は、浅層において外観による特徴の変化を低減させると共に、深層におけるコンテンツの切り分けに干渉しないことである。従って、ＣＮＮの浅層である半分のみにＩＮ層を加える。もう１つの目的は、浅層において画像コンテンツ情報を失わないようにするために、オリジナルのＢＮ層内の半分の特徴をＩＮ層に置き換え、残りの半分をＢＮのままにする。これに基づいて、本実施例において、畳み込みニューラルネットワークにおいて、ＢＮとＩＮを組み合わせた処理を行うことで、ＩＢＮ−Ｎｅｔを形成する。

畳み込みニューラルネットワークに、本出願の実施例が提供するＩＢＮ−Ｎｅｔを用いると、下記利点を有する。

第１、本出願の実施例が提供するＩＢＮ−Ｎｅｔは、畳み込みニューラルネットワークの性能及び汎用化能力を向上させる。例えば、ＩＢＮ−Ｎｅｔ５０とＲｅｓＮｅｔ５０が、同様な数のパラメータ及び演算コストを有する場合、ＩＢＮ−Ｎｅｔ５０は、画像ネットワークデータベース（ＩｍａｇｅＮｅｔ）のオリジナルの検証集合における精度が、それぞれ５位と１位に達する場合の正確率は、９３．７％と７７．４％である。ＲｅｓＮｅｔ５０の検証率よりもそれぞれ０．８％と１．７％高くなる。ＩＢＮ−Ｎｅｔ５０は、ＩｍａｇｅＮｅｔのスタイル変換された新たな検証集合における精度が、それぞれ５位と１位に達する場合の正確率は、７２．９％と４８．９％である。ＲｅｓＮｅｔ５０の検証率よりもそれぞれ２．２％と２．９％高くなる。

第２、本出願の実施例が提供するＩＢＮ−Ｎｅｔにおいて、ＩＮにより、視覚及び外観を変わらないようにすると共に、ＢＮにより、トレーニングを加速させて切り分けるための特徴を残す。該特徴は、ＩＢＮ−Ｎｅｔのシステム構造の設計に寄与する。ここで、ＩＮを浅層に配置することで外観の変化を取り除く。切り分け性能を維持するために、深層におけるＩＮの強度を低減させる必要がある。ＩＢＮ−Ｎｅｔのモジュールは、最近検討されている深層アーキテクチャの再開発に適用することができ、それによって深層アーキテクチャの演算コストを変わらずに、該深層アーキテクチャの学習及び汎用化能力を向上させる。例えば、ＶＧＧ１６、ＲｅｓＮｅｔ１０１、ＲｅｓＮｅＸｔ１０１及びスクイズ−励起ネットワーク（Ｓｑｕｅｅｚｅ−ａｎｄ−ＥｘｃｉｔａｔｉｏｎＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ：ＳＥ−ＲｅｓＮｅｔ１０１）においてＩＢＮ−Ｎｅｔを利用し、それらの、ＩｍａｇｅＮｅｔ検証集合における精度が１位に達する場合の正確率は、それぞれのオリジナルバージョンよりも０．８％、１．１％、０．６％及び０．７％高くなる。

第３、ＩＢＮ−Ｎｅｔは、クロスドメイン性能を著しく向上させる。例えば、交通シーンに基づいた実際データ集合と仮想データ集合は、２つの画像ドメインに属する。ここで、実際データ集合は、都市の景観（Ｃｉｔｙｓｃａｐｅｓ）であってもよく、仮想データ集合は、グランドセフトオート（ＣｉｔｙｓｃａｐｅｓＧｒａｎｄＴｈｅｆｔＡｕｔｏ：ＧＴＡ）であってもよい。ＧＴＡにおいてトレーニングし、Ｃｉｔｙｓｃａｐｅｓにおいて検証する場合、ＩＢＮ−Ｎｅｔにより集積されたＲｅｓＮｅｔ５０の性能は、７．６％を向上させた。ＧＴＡによりプレトレーニングされたモデルを利用してＣｉｔｙｓｃａｐｅｓにおいて微調整を行う場合、必要なサンプルの数を著しく低減した。例えば、Ｃｉｔｙｓｃａｐｅｓの３０％のレーニングデータのみを利用して微調整を行う場合、本実施例が提供するＩＢＮ−Ｎｅｔモデルの分割正確率は、６５．５％に達するが、全てのトレーニングを用いて調整されたＲｅｓＮｅｔ５０は、６３．８％に過ぎない。

本実施例をより良く理解するために、ここで、ＣＮＮの不変性、ＣＮＮネットワークシステム構造、ドメイン適応方法及びシーン理解方法という、ＩＢＮ−Ｎｅｔに関わる４つの形態を説明する。ＣＮＮにおける不変性：関連技術において提出されたモジュールは、一般的には、ＣＮＮのモデリング能力を向上させるか又はオーバーフィッティングを低減することで、単一のドメインにおける汎用化能力を向上せるためのものである。これらの方法は、一般的にはＣＮＮのシステム構造に特定の不変性を導入することで、上記目的を達成する。例えば、最大プーリング及び変形可能な畳み込みにより、空間の不変性をＣＮＮに導入することで、畳み込みニューラルネットワークの、空間変化（例えば、アフィン、歪み及び視角変換）に対するロバスト性を向上させる。トレーニングにおけるドロップアウト（ｄｒｏｐｏｕｔ）層及びＢＮの役割は、サンプルのノイズによる影響を低減させるための正規化と見なされる。画像外観について、平均値及び標準偏差を利用して各ＲＧＢチャネルを正規化することで、色又は輝度ずれのような簡単な外観変化を取り除くことができる。スタイル変換のようなより複雑な外観変化について、これらの情報を特徴マップの平均値及び分散にコーディングすることができることを最近の検討で発見している。従って、インスタンスの正規化層は、このような外観の差異を取り除く潜在力を示す。ＣＮＮネットワークシステム構造として、ＣＮＮが従来方法より高い性能を示して以来、ＣＮＮアーキテクチャは、多くの発展を経験してきた。ここで、最も広く用いられたのは、ＲｅｓＮｅｔである。ＲｅｓＮｅｔは、ショートカットを利用して極めて低いネットワークの訓練の難度を低減させる。その後、ＲｅｓＮｅｔの様々な変形は相次いで提出された。ＲｅｓＮｅｔに比べて、ＲｅｓＮｅＸｔは、ＲｅｓＮｅｔの「基数」を増加させることで、モデルの性能を向上させる。これは、グループ畳み込みにより実現する。実践において、基数を増加させると、深層学習フレームワークの実行時間を増加させる。なお、スクイズ−励起ネットワーク（Ｓｑｕｅｅｚｅ−ａｎｄ−ＥｘｃｉｔａｔｉｏｎＮｅｔｗｏｒｋ：ＳＥＮｅｔ）は、チャネル次元の注意メカニズムをＲｅｓＮｅｔに導入した。ＲｅｓＮｅｔに比べて、ＳＥＮｅｔは、ＩｍａｇｅＮｅｔにおいてより高い性能を実現させると共に、ネットワークパラメータ及演算量も増加させた。最近提出された密集結合ネットワーク（ＤｅｎｓｅｌｙＣｏｎｎｅｃｔｅｄＮｅｔｗｏｒｋｓ：ＤｅｎｓｅＮｅｔ）は、ＲｅｓＮｅｔのショートカットの代わりに、スタッキング操作を用いる。ＤｅｎｓｅＮｅｔがＲｅｓＮｅｔよりも効率的であることが証明された。しかしながら、上記ＣＮＮシステム構造には２つの制限がある。まず、限られた基本モジュールは、ＣＮＮによるより魅力的な属性の取得を妨げる。例えば、これらの全てのシステム構造は、いずれも、畳み込み、ＢＮ、励起層（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ：ＲｅＬＵ）及び共有プールからなる。異なるＣＮＮの唯一の区別は、これらのモジュールが如何に構成されたかである。しかしながら、これらの層の構成は、外観変化による影響を自然に受けやすい。次に、これらのモデルの設計目的は、単一の分野の単一のタスクにおいて、強力な性能を実現させることである。しかしながら、これらのモデルを新たな分野に普及させる能力は、限られている。画像スタイル変換分野において、幾つかの方法は、ＩＮを利用することで、画像のコントラストの取り除きに寄与する。しがしながら、画像外観の不変性のＣＮＮへの導入に成功しておらず、特に、画像分割又はセマンティックセグメンテーションなどのような高レベルのタスクへの導入に成功していない。その原因は、ＩＮが特徴における有用なコンテンツ情報を失い、モデルの性能に影響を与えることである。ドメイン適応方法：異なるドメインの偏差による性能の低下を緩和させることは、重要な課題である。１つの一般的な方法は、転移学習を利用することである。例えば、ターゲットドメインにおいて、モデルを微調整する。しかしながら、ターゲットドメインに手動で結果を注記する必要がある。また、ネットワークモデルがソースドメインに適用される場合、微調整されたモデルの特性は低下する。多くのドメイン適応方法は、ターゲットドメインの統計的データを用いて自己適応性を向上させる。一般的には、最大平均差異（ＭａｘｉｍｕｍＭｅａｎＤｉｓｃｒｅｐａｎｃｙ：ＭＭＤ）、相関性アライメント（ＣｏｒｒｅｌａｔｉｏｎＡｌｉｇｎｍｅｎｔ：ＣＯＲＡＬ）及び敵対的損失（ＡｄｖｅｒｓａｒｉａｌＬｏｓｓ：ＡＬ）のような意匠を凝らした損失関数を利用して、２つのドメインの偏差による特徴差異を低減させることで、性能低下の課題を緩和させる。転移学習及びドメイン適応には、主に２つの制限がある。まず、実際の適用において、ターゲットドメインの統計的情報の取得が非常に困難である。ターゲットドメインをカバーした全ての可能なシーンにおけるデータの収集も非常に困難である。また、最先進的な方法の殆どは、性能を向上させるために、ソースドメイン及びターゲットドメインについて、異なったモデルを用いる。しかしながら、１つのモデルが全てのドメインに適用可能であることが望ましい。

該課題を解決するためのもう１つの方式は、ドメインの一般化である。その目的は、多くの関連したソースドメインから知識を取得して、それをトレーニング期間中に統計的データが未知である新たなターゲットドメインに適用することである。関連技術において、一般的には、アルゴリズムを設計することで、様々なドメインにおける共通要因を捕捉する。しかしながら、実際の適用について、複数の関連したソースドメインのデータの収集が一般的には困難であり、且つ、最終的な性能は、収集された一連のソースドメインに大きく依存する。該動作において、本出願の実施例は、外観不変性を持つ新たなＣＮＮシステム構造のＩＢＮ−Ｎｅｔを設計することで、モデルの性能及び汎用化能力を向上させる。ドメイン適用及びドメイン一般化と異なっており、本出願は、ターゲットドメインのデータ又は関連したソースドメインを必要としない。本実施例は、ターゲットドメインのデータを得ることができない場合に有用であり、これは、関連技術により達成できない効果である。

本実施例において、ＢＮに基づいたＣＮＮについて、画像外観に関わる情報（色、コントラスト、スタイルなど）は主に浅層の特徴に存在するが、画像における物体のカテゴリに関わる情報は、主に深層の特徴に存在するが、浅層の特徴にも存在する。従って、本実施例は、２つのルールに従って、ＩＮを導入する。まず、深層の特徴による画像コンテンツ情報の切り分け性能を低減させないようにするために、ＣＮＮの最後の一層又は数層にＩＮを加えない。次に、浅層にもコンテンツ情報を格納するために、浅層における一部の特徴に対してＢＮ処理を行うという動作を保留する。

本実施例において、ＩＢＮ−ＮｅｔをＲｅｓＮｅｔに適用する。図３は、本出願の実施例における残差ネットワークに基づいた構造を示す図である。ＲｅｓＮｅｔは主に４組の残差ブロックからなる。図３（ａ）はオリジナルのＲｅｓＮｅｔにおける１つの残差ブロックの構造を示す図である。図３（ｂ）及び図３（ｃ）はそれぞれ、ＲｅｓＮｅｔにおける異なる畳み込み層から出力された特徴マップに対して、ＩＮとＢＮを組み合わせた処理を行うことを示す構成図である。ここで、図３（ａ）において、経路１は、残差経路であり、経路２は。ショートカット経路である。３０における（ｘ，２５６ｄ）において、ｘは、入力された特徴を表し、２５６ｄは、入力された特徴が２５６個のチャネルであることを表し、３１は、畳み込みカーネルが１＊１である６４個のチャネルの畳み込み層を表し、３２、３４及び３６は励起層（ＲｅＬＵ）を表す。３３は、畳み込みカーネルが３＊３である６４個のチャネルの畳み込み層を表す。３５は、畳み込みカーネルが１＊１である２５６このチャネルの畳み込み層を表す。３１１は、６４個のチャネルに対してい、バッチ正規化（ＢＮ）を行うことを表す。３１２は、６４個のチャネルに対してい、バッチ正規化（ＢＮ）を行うことを表す。３１３は、２５６個のチャネルに対して、バッチ正規化（ＢＮ）を行うことを表す。図３（ｂ）において、３２１は、畳み込み層から出力された特徴マップに対応するチャネルの半分（即ち、３２個のチャネル）に対してＩＮ処理を行い、他方の半分（即ち、他方の３２個のチャネル）に対してＢＮ処理を行うことを表す。図３（ｃ）において、３３１は、加算された結果に対して、ＩＮ処理を行うことを表し、前記加算とは、ＲｅｓＮｅｔにおいて、図３（ｃ）に示した残差ブロックに対して三層の畳み込みを行うことで得られた特徴マップと、前回の残差ブロックに対して多層畳み込みを行うことで得られた特徴マップ（入力された特徴ｘ）を加算することを指す。

１つの残差ブロックに対して、ＩＮの汎用化の潜在力を利用するために、最初の畳み込み層の後に得られた特徴マップにおいて、ＢＮを該特徴マップの半分のチャネルに用い、ＩＮを他のチャネルに用いる。図３（ｂ）に示すように、下記３つの理由がある。まず、クリーンなショートカット経路は、ＲｅｓＮｅｔの最適化にとって、非常に重要である。従って、ＩＮをショートカット経路ではなく、残差経路に加える。次に、残差学習関数

において、残差関数

は、学習過程中に、ショートカット経路におけるｘと位置合わせされる。従って、ＩＮは、最後の正規化層ではなく、最初の正規化層（即ち、最初の畳み込み層から出力された特徴マップ）に適用される。それにより、

とショートカット経路におけるｘとの位置ズレの確率を低減させる。なお、畳み込み層から出力された特徴マップにおいて、半分のチャネルに対してＢＮ処理を行い、半分のチャネルに対してＩＮ処理を行うことで、画像コンテンツ情報を浅層に格納するという要件を満たす。

このような設計は、モデル性能を追求するためのものである。ＩＮによれば、モデルが外観不変性の特徴を学習できるようになり、１つのデータ集合における高い外観多様性を有する画像をより好適に利用できるようになる。一方で、適度な方式でＩＮを加えることで、コンテンツに関わる情報を保留できるようになる。本実施例において、該モデルをＩＢＮ−Ｎｅｔ−ａで表す。なお、本出願は、最大汎用化能力を追求するネットワークＩＢＮ−Ｎｅｔ−ｂも提供する。外観情報が、残差経路に保留されてもよいし、ショートカット経路に格納されてもよいため、ニューラルネットワークの汎用化能力を確保するために、図３（ｃ）に示すように、加算してから、直ちにＩＮを加える。ＲｅｓＮｅｔの性能劣化を発生させないようにするために、本実施例は、第１畳み込み層及び最初の二つの畳み込みグループの後のみに３つのＩＮ層を加える。

表１．１は、オリジナルのＲｅｓＮｅｔ５０及び対応する２つのＩＢＮ−Ｎｅｔの全体的ネットワーク構造を示す。表１．１から分かるように、オリジナルのＲｅｓＮｅｔ５０に比べて、ＩＢＮ−Ｎｅｔ５０−ａにおける最初の３組のモジュール（ｃｏｎｖ２＿ｘ−ｃｏｎｖ４＿ｘ）は、図３（ｂ）におけるＩＢＮ−ａの構造に置き換えられる。ＩＢＮ−Ｎｅｔ５０−ｂにおいて、最初の２組のモジュール（ｃｏｎｖ２＿ｘ−ｃｏｎｖ３＿ｘ）の最後の１つの残差ブロックは、図３（ｃ）におけるＩＢＮ−ｂの構造に置き換えられ、且つ、最初の畳み込み層ｃｏｎｖ１の後のＢＮは、ＩＮに置き換えられる。表１．１において、ｃｏｎｖ２＿ｘは、最初の一組の残差ブロックを表す。

上記２つのＩＢＮ−Ｎｅｔは、ＣＮＮにＩＮ及びＢＮを用いるための唯一の方法ではない。本実施例において、図４に示すように、幾つかの面白い変形を提供する。図４は、本出願の実施例における残差ネットワークに基づいたもう１つの構造を示す図である。図４（ａ）、４（ｂ）、４（ｃ）及び４（ｄ）は、残差ニューラルネットワークにおける同一のブロックの構造を示す図である。図４（ａ）、４（ｂ）、４（ｃ）及び４（ｄ）に示すように、残差ニューラルネットワークの様々な畳み込み層から出力された特徴マップ（即ち、正規化層）に対して、ＩＮとＢＮを組み合わせた処理を行う。ここで、図４（ａ）において、経路３は残差経路であり、経路４はショートカット経路である。４０において、（ｘ，２５６ｄ）におけるｘは入力された特徴を表し、２５６ｄは、入力された特徴が２５６個のチャネル（２５６枚の画像と理解されてもよい）であることを表し、４１は、畳み込みカーネルが１＊１である６４個の畳み込み層を表し、４２、４４及び４６は、励起層（ＲｅＬＵ）を表す。４３は、畳み込みカーネルが３＊３である６４個のチャネルの畳み込み層を表す。４５は、畳み込みカーネルが１＊１である２５６個のチャネルの畳み込み層を表す。４１１は、６４個のチャネルに対してバッチ正規化（ＢＮ）を行うことを表す。４１２は、２５６個のチャネルに対してバッチ正規化（ＢＮ）を行うことを表す。４３１は、最初の畳み込み層から出力された特徴マップに対してそれぞれＩＮ及びＢＮ処理を行うことを表す。４７は、２つの正規化方式で処理された結果をスタッキングしてから、次の層である励起層に出力することを表す。図４（ｂ）において、４１３は、６４個のチャネルに対してバッチ正規化（ＢＮ）を行うことを表す。４３１は、加算された結果の半分（即ち、２５６個のチャネルのうちの１２８個のチャネルに対してＩＮ処理を行う）に対して、ＩＮ処理を行うことを表し、前記加算とは、畳み込みニューラルネットワークにおいて、図４（ｂ）に示したニューラルネットワークのブロックに対して三層の畳み込みを行うことで得られた特徴マップと、前回の該ニューラルネットワークのブロックに対して多層畳み込みを行うことで得られた特徴マップを加算することを指す。図４（ｃ）において、４４１は、最初の畳み込み層から出力された特徴マップに対応するチャネルの半分（即ち、３２個のチャネル）に対してＩＮ処理を行い、他方の半分（即ち、他方の３２個のチャネル）に対してＢＮ処理を行うことを表す。図４（ｄ）において、４４２は、２番目の畳み込み層から出力された特徴マップに対応するチャネルの半分（即ち、３２個のチャネル）に対してＩＮ処理を行い、他方の半分（即ち、他方の３２個のチャネル）に対してＢＮ処理を行うことを表す。

表１．２から分かるように、本実施例におけるＩＢＮ−Ｎｅｔにおいて、複数の実施形態がある。ここで、一部のパラメータは、下記２つの要件を満たすことができる。つまり、様々なネットワークの最後の層（トレーニング結果の需要に応じて、モデルを、最後の２層又は３層でＩＮ処理しないように設定してもよい）に対してＩＮ処理を行わない。なお、他の層（最後の層以外）において、ＩＮとＢＮを組み合わせて利用するか又は交互に利用する。例えば、図４により提供される図４（ａ）、４（ｂ）、４（ｃ）及び４（ｄ）という４つの態様から分かるように、ＩＮ層の位置、ＩＮで処理されるチャネルの数は、いずれも調整可能である。なお、同一の畳み込みニューラルネットワークの様々なモジュールにおいて、図４により提供される４つの実施態様は、交互に使用されてもよい。

図４（ａ）において、最初の畳み込み層から出力された特徴マップに対してそれぞれＩＮ及びＢＮ処理を行ってから、２つの正規化方式で処理された結果をスタッキングし、励起層である次の層に出力する。ＩＮ及びＢＮの高い汎用化性能及び高い切り分け性能の特徴が保留されるが、より多くのパラメータが導入される。２つの特徴を捕集するという考えも、ＩＢＮ−ｂに適用可能であるため、図４（ｂ）が形成される。なお、図４（ｃ）及び４（ｄ）に示すように、図４（ａ）及び図４（ｂ）に示した形態を組み合わせてもよい。これの変形に対する検討は、下記実験に関わる説明において記載する。表１．３は、ＩｍａｇｅＮｅｔデータベースを認識対象画像として用いて、ＩＢＮ−Ｎｅｔニューラルネットワークモデルに入力することで、えられたｔｏｐ１及びｔｏｐ５に基づいた誤り率を示す。ここで、ｔｏｐ１とは、予測された分類の最も高い正確率を意味する。ｔｏｐ５とは、予測された最大確率の５つの分類の正確率を意味する。ｔｏｐ１／ｔｏｐ５ｅｒｒはそれぞれ、ｔｏｐ１及びｔｏｐ５に基づいた誤り率を表す。ＲＧＢ＋５０は、オリジナルの画像を基に、画像のＲ、Ｇ及びＢという３つのチャネルにそれぞれ５０を加算することを表す。Ｒ＋５０は、赤色チャネルに５０を加算することを表し、つまり、画像が一層赤くすることを表す。ｃｏｎｔｒａｓｔ＊１．５は、コントラストに１．５をかけることを表す。Ｍｏｎｅｔは、ＣｙｃｌｅＧＡＮ（画像スタイル変換ツール）を用いて画像をモネスタイルの画像に変換することを表す。従って、表１．３から分かるように、どのような外観変化に関わらず、モデルＩＢＮ−Ｎｅｔ５０−ａ（図３（ｂ））により得られたｔｏｐ１に基づいた誤り率及びｔｏｐ５に基づいた誤り率はそれぞれ、ＩＢＮ−Ｎｅｔを利用しないオリジナルのＲｅｓＮｅｔ５０のｔｏｐ１に基づいた誤り率及びｔｏｐ５に基づいた誤り率よりも低い。また、モデルＩＢＮ−Ｎｅｔ５０−ｂ（図３（ｃ））により得られたｔｏｐ１に基づいた誤り率及びｔｏｐ５に基づいた誤り率はそれぞれ、ＩＢＮ−Ｎｅｔを利用しないオリジナルのＲｅｓＮｅｔ５０のｔｏｐ１に基づいた誤り率及びｔｏｐ５に基づいた誤り率よりも低い。従って、ＩＢＮ−Ｎｅｔモジュールを利用して得られたニューラルネットワークの性能は、ＩＢＮ−Ｎｅｔモジュール（図３（ａ）に示すようなオリジナルのＲｅｓＮｅｔ）を利用せずに得られたニューラルネットワークの性能よりも優れている。

性能が従来のＣＮＮよりも高いＩＢＮ−Ｎｅｔモデルの性能を明らかにするために、本実施例は、ＩＢＮ−Ｎｅｔの性能を最初に流行になったオリジナルのＩｍａｇｅＮｅｔ検証集合におけるＣＮＮアーキテクチャと比較する。表２に示すように、ＢＮ−Ｎｅｔによれば、これらのＣＮＮに対する一致した改良を実現させ、より高いモデル性能を表す。具体的には、ＩＢＮ−ＲｅｓＮｅｔ１０１は、ＲｅｓＮｅＸｔ１０１及びＳＥ−ＲｅｓＮｅｔ１０１よりも優れている。後の両者は、より多くの時間がかかるか又は更なるパラメータを導入する必要がある。しかしながら、本実施例が提供するＩＢＮ−Ｎｅｔモデルにおいて、更なるパラメータを導入せず、試験段階において少量の演算処理を追加する。実験結果から分かるように、特徴における幾つかの平均値及び分散の統計量を除去することで、モデルが高い外観多様性を持つ画像から学習することに寄与する。

本実施例において、ＩＢＮ−Ｎｅｔの他の変形を更に検討する。表３は、方法に関する説明に記載されるＩＢＮ−Ｎｅｔの変形の結果を示す。本実施例が提供する全てのＩＢＮ−Ｎｅｔの変形は、オリジナルのＲｅｓＮｅｔ５０に比べて、より優れた性能を示し、且つ、外観変換の場合、性能の低下がより少ない。具体的には、ＩＢＮ−Ｎｅｔ−ｃは、ＩＢＮ−Ｎｅｔ−ａと類似した性能を実現させ、もう１つの特徴組み合わせ方法を提供する。ＩＢＮ−Ｎｅｔ−ｄの性能及び汎用化能力が、ＩＢＮ−Ｎｅｔ−ａとＩＢＮ−Ｎｅｔ−ｂとの間にあることは、畳み込み層から出力された特徴マップの一部のチャネルにおいてＢＮ特性を保留すると、性能の向上に寄与すると共に、一定の汎用化能力を失うことを表す。ＩＢＮ−Ｎｅｔ−ａとＩＢＮ−Ｎｅｔ−ｂの組み合わせが、ほぼＩＢＮ−Ｎｅｔ−ｄと同様であることは、ＩＮによるＲｅｓＮｅｔの主要経路への影響が支配的なものであることを表す。最後に、ＩＢＮ−Ｎｅｔ−ａに、さらなるＩＢＮ層を加える場合、利点をもたらすことができず、適量のＩＮ層を加えれば十分である。

本実施例において、数の異なったＩＮ層が追加されたＩＢＮネットワークを検討した。表４は、ＩＢＮ−Ｎｅｔ５０−ａの性能を示す。ここで、ＩＮ層は、数の異なる残差グループに追加される。これから分かるように、より多くのＩＮ層を浅層に追加することに伴い、性能が改良されるが、ＩＮ層を最後の残差グループに追加される場合、性能が低下した。ＩＮを浅層に適用すると、モデルの性能の向上に寄与するが、深層において、重要なコンテンツ情報を保留するためにＢＮを用いる必要があることが明らかになる。なお、本実施例において、ＩＮ−ＢＮの割合による性能への影響も検討した。表５に示すように、ＩＮの割合が０．２５から０．５である場合、ｔｏｐ１に基づいた誤り率及びｔｏｐ５に基づいた誤り率はそれぞれ最も低い。ＩＮ及びＢＮを利用する過程において、妥協点を得るように行う必要があることが証明された。

本実施例において、ホール畳み込み（ＨｏｌｅＣｏｎｖｏｌｕｔｉｏｎ）が行われたＲｅｓＮｅｔ５０を基準として、ＩＢＮ−Ｎｅｔに対して、同じ修正を行う。各データ集合において、モデルをトレーニングし、ＩＢＮ−Ｎｅｔ及びＲｅｓＮｅｔ５０を評価し、評価結果を表６に示す。表６において、ｍＩｏＵ（％）は、画像の重なりの割合（ＭｅａｎＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ：ｍＩｏＵ）を表す。本実施例の実験結果は、ＩｍａｇｅＮｅｔデータ集合における結果と一致する。ＩＢＮ−Ｎｅｔは、１つのデータ集合において、より高いモデル性能を表し、且つ様々なドメインのデータ集合の間でより高い汎用化能力を持つ。具体的には、ＩＢＮ−Ｎｅｔ−ａは、より高いモデル性能を示し、２つのデータ集合において、ＩＢＮ−Ｎｅｔ−ａの正確率は、ＲｅｓＮｅｔ５０よりも４．６％及び２．０％高くなる。交差評価を行う場合、ＩＢＮ−Ｎｅｔ−ｂの汎用化能力がより高い。ＩＢＮ−Ｎｅｔ−ｂを用いる場合、オリジナルのＲｅｓＮｅｔ５０に比べて、Ｃｉｔｙｓｃａｐｅｓからグランドセフトオート（ＧｒａｎｄＴｈｅｆｔＡｕｔｏＶ，ＧＴＡ５）までの性能は、８．６％向上した。ＧＴＡ５からＣｉｔｙｓｃａｐｅｓまでの性能は、７．６％向上した。本実施例が提供するＩＢＮ−Ｎｅｔは、ドメイン適応動作と異なることに留意されたい。ドメイン適応は、ターゲットドメイン向けのものであり、また、トレーニング期間においてターゲットドメインデータを必要とするが、本実施例における方法は、ターゲットドメインデータを必要としない。それにもかかわらず、本実施例の方法による性能の利得は、ドメイン適応方法による性能の利得に相当し、また、本実施例が、モデルを特定のデータドメインに強制的に適用させることなく、モデルに外観不変性を導入するため、本実施例の方法は、より高い汎用性を持つモデルを実現させるために、大幅に進められる。

新たなデータドメインにモデルを適用するためのもう１つの慣用方法は、少量のターゲットドメイン注記により微調整を行うことである。本実施例が提供するモデルがより高い汎用化能力を持つため、ネットワークに必要なデータは、著しく低減する。本実施例において、数の異なるＣｉｔｙｓｃａｐｅｓデータ及び注記を利用してＧＴＡ５データ集合でプレトレーニングされるモデルを微調整する。初期学習速度及び周期はそれぞれ０．００３及び８０とする。表７に示すように、３０％のＣｉｔｙｓｃａｐｅｓトレーニングデータのみを利用した場合、ＩＢＮ−Ｎｅｔ５０−ａの性能は、全てのトレーニングデータを利用したＲｅｓＮｅｔ５０の性能よりも優れている。

本実施例におけるＩＢＮ−Ｎｅｔがより好適な汎用化を如何に実現させるかを理解しやすくために、ここで、ドメインオフセットによる特徴分散度を分析する。特徴分散度の測定は、以下のとおりである。ＣＮＮにおける一層の出力特徴に対して、１つのチャネルの平均値をＦで表す。Ｆは、該チャネルがどれぐらい活性化されたかを表す。Ｆは、平均値が

であって、分散が

であるガウス分布とする。該チャネルにおけるドメインＡとドメインＢとの間の対称カルバックライブラーダイバージェンス（ｓｙｍｍｅｔｒｉｃＫＬｄｉｖｅｒｇｅｎｃｅ）は以下で表されてもよい。

は、ｉ番目のチャネルの対称カルバックライブラーダイバージェンスを表す。該像の特徴の全てのチャネルの対称カルバックライブラーダイバージェンスの平均値を取ると、該層におけるドメインＡとドメインＢの特徴相違量を得ることができる。その数式は以下のとおりである。

式（３）において、Ｃは、該層におけるチャネルの数を表す。該数値は、ドメインＡとドメインＢの特徴分布の距離の測定基準である。

インスタンスの正規化による外観情報及びコンテンツ情報への影響を捉えるために、ここで、３組のドメインを考慮する。前の２組は、Ｃｉｔｙｓｃａｐｅｓ−ＧＴＡ５及びオリジナルの画像−モネスタイルの画像（Ｐｈｏｔｏ−Ｍｏｎｅｔ）である。該２組のドメインに、明らかな外観差異がある。コンテンツの異なる２つのドメインを構築するために、ＩｍａｇｅＮｅｔ−１ｋ検証集合を２部分に分ける。１つの部分に含まれる画像には、５００個の対象カテゴリがある。もう１つの部分には、他の５００個のカテゴリが含まれる。続いて、ＲｅｓＮｅｔ５０及びＩＢＮ−Ｎｅｔ５０の主要経路における１７個のＲｅＬＵ層の出力特徴の特徴分散度を算出する。上記３組の画像に対して実験を行うことで得られた実験結果は以下のとおりである。ＩＢＮ−Ｎｅｔにおいて、画像外観の相違による特徴分散度は明らかに低減した。ＩＢＮ−Ｎｅｔ−ａにおいて、分散度が適当に低減し、ＩＢＮ−Ｎｅｔ−ｂにおいて、第２、４及び８層のＩＮ層の後に、突然に低下し、且つこのような効果は、深層まで続ける。これは、深度特徴にける外観による相違が減少するため、分類に対する干渉が減少したことを意味する。一方で、コンテンツの差異による特徴分散度は、ＩＢＮ−Ｎｅｔにおいて低下していない。特徴におけるコンテンツ情報がＢＮ層において好適に保留されたことを表す。本実施例が提供するＩＢＮ−Ｎｅｔにおいて、ＩＮ及びＢＮを単独の深層ネットワーク装置に適用することで、ニューラルネットワークの性能及び汎用化能力を向上させる。本実施例において、ＩＢＮ−ＮｅｔをＶＧＧ、ＲｅｓＮｅｔ，ＲｅｓＮｅＸｔ及びＳＥＮｅｔに適用し、且つＩｍａｇｅＮｅｔデータ集合において、一致した正確率の向上を実現させた。なお、ターゲットドメインデータを利用しなくても、ＩＮにより導入された外観不変性によれば、ニューラルネットワークモデルの画像ドメインを跨った汎用化能力を向上させることができる。従って、ＩＮ及びＢＮ層のＣＣＮにおける役割は、ＩＮにより外観不変性を導入して汎用化能力を向上させ、ＢＮによりコンテンツ情報の特徴における切り分け性能を保留することである。

本出願の実施例は、画像認識装置を提供する。図５は、本出願の実施例における画像認識装置の構造を示す概略図である。図５に示すように、前記装置５００は、第１取得モジュール５０１と、第１処理モジュール５０２と、第１出力モジュール５０３とを備え、第１取得モジュール５０１は、認識対象画像を取得するように構成され、第１処理モジュール５０２は、前記認識対象画像を、トレーニングにより得られたニューラルネットワークモデルに入力し、前記認識対象画像の認識結果を得るように構成され、前記ニューラルネットワークモデルが、前記ニューラルネットワークに対してＩＮ及びＢＮ処理を行うことで得られたものである。第１出力モジュール５０３は、前記認識対象画像の認識結果を出力するように構成される。

幾つかの実施例において、前記装置５００は、前記ニューラルネットワークの畳み込み層から出力された特徴マップに対してＩＮ及びＢＮ処理を行い、前記ニューラルネットワークモデルを得るように構成される第２処理モジュールを更に備える。

幾つかの実施例において、前記第２処理モジュールは、前記ニューラルネットワークの畳み込み層から第１畳み込み層集合及び第２畳み込み層集合を決定するように構成される第１決定モジュールと、前記第１畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＩＮ処理を行うように構成される第１サブ処理モジュールと、前記第２畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＢＮ処理を行うように構成される第２サブ処理モジュールとを備える。

幾つかの実施例において、前記第１畳み込み層集合及び前記第２畳み込み層集合からなる集合は、前記ニューラルネットワークの全ての畳み込み層のうちの全部又は一部である。本出願の実施例において、前記第１畳み込み層集合と前記第２畳み込み層集合とは、共通部分を有せず、又は、前記第１畳み込み層集合と前記第２畳み込み層集合とは、共通部分を有し、又は、前記第２畳み込み層集合は、前記第１畳み込み層集合のサブ集合である。

幾つかの実施例において、前記第１サブ処理モジュールは、前記第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第１チャネル集合を決定するように構成される第１サブ決定モジュールと、前記第１チャネル集合に対してＩＮ処理を行うように構成される第３サブ処理モジュールとを備える。

幾つかの実施例において、前記第２処理モジュールは、各前記畳み込み層から出力された特徴マップに対応するチャネルから、第２チャネル集合を決定するように構成される第２サブ決定モジュールと、前記第２チャネル集合において、ＢＮ処理を行うように構成される第４サブ処理モジュールとを備える。

幾つかの実施例において、前記第１チャネル集合は、前記第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であり、前記第２チャネル集合は、前記第２畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部である。

幾つかの実施例において、前記装置は、
前記ニューラルネットワークの２つのブロックに対応する特徴マップを加算し、出力結果を得て、前記出力結果に対してＩＮ処理を行うように構成される第２処理モジュールを更に備え、前記ニューラルネットワークが少なくとも２つのブロックを含み、且つ各ブロックの最後の一層から出力された特徴マップに対応するチャネルの数は、前のブロックの最後の一層から出力された特徴マップに対応するチャネルの数が同じである。

上記装置の実施例に関する説明は、上記方法の実施例に関する説明と類似しており、方法の実施例と類似した有益な効果を有することに留意されたい。本出願の装置の実施例で説明されない技術的な詳細については、本出願の方法の実施例の説明を参照されたい。本出願の実施例において、上記即時通信方法がソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよいことに留意されたい。このような理解のもと、本発明の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、一台の即時通信装置（端末、サーバ等）に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、Ｕディスク、リムーバブルハードディスク、読み出し専用メモリ（Ｒｅａｄ−ｏｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、磁気ディスク又は光ディスなど、プログラムコードを記憶可能な各種の媒体を含む。従って、本出願の実施例は、如何なる特定のハードウェアとソフトウェアの組み合わせにも限定されない。

なお、本出願の実施例は、コンピュータプログラム製品を更に提供する。前記コンピュータプログラム製品には、コンピュータによる実行可能な命令が含まれ、該コンピュータによる実行可能な命令が実行されてから、本出願の実施例で提供される画像認識方法のステップを実現させることができる。なお、本出願の実施例は、コンピュータ記憶媒体を更に提供する。前記コンピュータ記憶媒体には、コンピュータによる実行可能な命令が記憶されており、前記コンピュータによる実行可能な命令がプロセッサにより実行される時、上記実施例で提供される画像認識方法のステップを実現させる。なお、本出願の実施例は、コンピュータ装置を更に提供する。図６は、本出願の実施例におけるコンピュータ装置の構造を示す概略図である。図６に示すように前記装置６００は、プロセッサ６０１と、少なくとも１つの通信バス６０２と、ユーザインタフェース６０３、少なくとも１つの外部通信インタフェース６０４と、メモリ６０５とを備える。ここで、通信バス６０２は、これらのユニットの接続と通信を実現させるように構成される。ここで、ユーザインタフェース６０３はディスプレイを含んでもよい。外部通信インタフェース６０４は、標準の有線インタフェース及び無線インタフェースを含んでもよい。ここで、前記プロセッサ６０１は、メモリに記憶されている病理学的画像認識プログラムを実行することで、上記実施例で提供される画像認識方法のステップを実現させるように構成される。

上記コンピュータ装置及び記憶媒体の実施例に関する説明は、上記方法の実施例に関する説明に類似している。方法の実施例に類似した有益な効果を有する。本出願の即時通信装置及び記憶媒体の実施例で説明されない技術的な詳細については、本出願の方法の実施例の説明を参照されたい。明細書全文を通じて述べられる「１つの実施例」または「一実施例」は、実施例に関連する特定の特徴、構造または特性が、本発明の少なくとも１つの実施例の中に含まれることを意味すると理解されたい。従って、本明細書全体を通して出現する「１つの実施例において」又は「一実施例において」は、同じ実施例を指すとは限らない。また、これらの特定の特徴、構造または特性は、任意かつ適切な方式で１つまたは複数の実施例に組み入れられることができる。本発明の各実施例において、上記各プロセスの番号の大きさは、実行順の前後を意味するのではなく、各プロセスの実行順は、その機能および内在的な論理によって確定されるものであり、本発明の実施例の実施プロセスに対しいっさい限定を構成しないと理解すべきである。上記の本発明に係る実施例の番号は、ただ、記述するためのものであり、実施例の優劣を代表しない。本明細書において、用語「含む」、「備える」、またはそれらの他のいずれかの変形は、非排他的包含を包括するように意図される。従って、一連の要素を含むプロセス、方法、品目又は装置は、これらの要素を含むだけでなく、明確に列挙されていない他の要素も含み、又は、このようなプロセス、方法、品目又は装置に固有の要素も含む。更なる限定が存在しない場合、「・・・を含む」なる文章によって規定される要素は、該要素を有するプロセス、方法、品目又は装置内に、同じ要素が更に存在することを排除しない。

本出願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインターフェイス、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

分離部材として説明した該ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。

また、本発明の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとの組み合わせて実現してもよい。

上記各方法に係る実施例の全部又は一部のステップはプログラム命令に係るハードウェアにより実現され、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶され、該プログラムが実行される時、上記方法の実施例におけるステップを実行し、前記記憶媒体は、携帯型記憶装置、読み出し専用メモリ（Ｒｅａｄ−ｏｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

又は、本発明の上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本発明の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ設備（パソコン、サーバ、又はネットワーク装置など）に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、携帯型記憶装置、ＲＯＭ、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

以上は本発明の具体的な実施形態に過ぎず、本発明の保護の範囲はそれらに制限されるものではなく、当業者が本発明に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。

Claims

画像認識方法であって、
認識対象画像を取得することと、
ニューラルネットワークモデルの畳み込み層を利用して、前記認識対象画像に対して特徴抽出を行い、特徴マップを得ることと、
第１畳み込み層集合内の畳み込み層から出力された特徴マップに対応するチャネルから選定した第１チャネル集合に対して、インスタンスの正規化（ＩＮ）処理を行い、第２畳み込み層集合内の畳み込み層から出力された特徴マップに対応するチャネルから選定した第２チャネル集合に対して、バッチ正規化（ＢＮ）処理を行い、前記認識対象画像の認識結果を得ることであって、前記第１畳み込み層集合と前記第２畳み込み層集合が、ニューラルネットワークの畳み込み層から選定されたものであり、前記第１チャネル集合と前記第２チャネル集合に含まれるチャネルが異なることと、
前記認識対象画像の認識結果を出力することとを含み、
前記ニューラルネットワークモデルのトレーニングプロセスは、
前記ニューラルネットワークの畳み込み層から第１畳み込み層集合及び第２畳み込み層集合を決定することと、
前記第１畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＩＮ処理を行うことと、
前記第２畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＢＮ処理を行うこととを含み、
前記ニューラルネットワークが少なくとも２つのブロックを含み、且つ各ブロックの最後の一層から出力された特徴マップに対応するチャネルの数は、前のブロックの最後の一層から出力された特徴マップに対応するチャネルの数が同じであり、前記画像認識方法は、
前記ニューラルネットワークの２つのブロックに対応する特徴マップを加算し、出力結果を得ることと、前記出力結果に対してＩＮ処理を行うこととを更に含む、
画像認識方法。
前記第１畳み込み層集合及び前記第２畳み込み層集合からなる集合は、前記ニューラルネットワークの全ての畳み込み層のうちの全部又は一部であることを特徴とする
請求項１に記載の方法。
前記第１畳み込み層集合と前記第２畳み込み層集合とは、共通部分を有せず、又は、前記第１畳み込み層集合と前記第２畳み込み層集合とは、共通部分を有し、又は、前記第２畳み込み層集合は、前記第１畳み込み層集合のサブ集合であることを特徴とする
請求項１に記載の方法。
前記第１畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＩＮ処理を行うことは、
前記第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第１チャネル集合を決定することと、
前記第１チャネル集合に対してＩＮ処理を行うこととを含むことを特徴とする
請求項１に記載の方法。
前記第２畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＢＮ処理を行うことは、
前記第２畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第２チャネル集合を決定することと、
前記第２チャネル集合において、ＢＮ処理を行うこととを含むことを特徴とする
請求項１に記載の方法。
前記第１チャネル集合は、前記第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であり、前記第２チャネル集合は、前記第２畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であることを特徴とする
請求項１から５のいずれか一項に記載の方法。
前記第１畳み込み層集合には、前記ニューラルネットワークにおける最後の一層の畳み込み層が含まれないことを特徴とする
請求項１から５のいずれか一項に記載の方法。
画像認識装置であって、第１取得モジュールと、第１処理モジュールと、第１出力モジュールと、第２処理モジュールとを備え、
前記第１取得モジュールは、認識対象画像を取得するように構成され、
前記第１処理モジュールは、ニューラルネットワークモデルの畳み込み層を利用して、前記認識対象画像に対して特徴抽出を行い、特徴マップを得、
第１畳み込み層集合内の畳み込み層から出力された特徴マップに対応するチャネルから選定した第１チャネル集合に対して、インスタンスの正規化（ＩＮ）処理を行い、第２畳み込み層集合内の畳み込み層から出力された特徴マップに対応するチャネルから選定した第２チャネル集合に対して、バッチ正規化（ＢＮ）処理を行い、前記認識対象画像の認識結果を得るように構成され、前記第１畳み込み層集合と前記第２畳み込み層集合が、ニューラルネットワークの畳み込み層から選定されたものであり、前記第１チャネル集合と前記第２チャネル集合に含まれるチャネルが異なり、
前記第１出力モジュールは、前記認識対象画像の認識結果を出力するように構成され、
前記第２処理モジュールは、前記ニューラルネットワークの畳み込み層から出力された特徴マップに対してＩＮ及びＢＮ処理を行い、前記ニューラルネットワークモデルを得るように構成され、
前記第２処理モジュールは、
前記ニューラルネットワークの畳み込み層から第１畳み込み層集合及び第２畳み込み層集合を決定するように構成される第１決定モジュールと、
前記第１畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＩＮ処理を行うように構成される第１サブ処理モジュールと、
前記第２畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してＢＮ処理を行うように構成される第２サブ処理モジュールとを備え、
前記ニューラルネットワークが少なくとも２つのブロックを含み、且つ各ブロックの最後の一層から出力された特徴マップに対応するチャネルの数は、前のブロックの最後の一層から出力された特徴マップに対応するチャネルの数が同じであり、前記第２処理モジュールは、前記ニューラルネットワークの２つのブロックに対応する特徴マップを加算し、出力結果を得て、前記出力結果に対してＩＮ処理を行うようにさらに構成される、
画像認識装置。
前記第１畳み込み層集合及び前記第２畳み込み層集合からなる集合は、前記ニューラルネットワークの全ての畳み込み層のうちの全部又は一部であることを特徴とする
請求項８に記載の装置。
前記第１畳み込み層集合と前記第２畳み込み層集合とは、共通部分を有せず、又は、前記第１畳み込み層集合と前記第２畳み込み層集合とは、共通部分を有し、又は、前記第２畳み込み層集合は、前記第１畳み込み層集合のサブ集合であることを特徴とする
請求項８に記載の装置。
前記第１サブ処理モジュールは、
前記第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第１チャネル集合を決定するように構成される第１サブ決定モジュールと、
前記第１チャネル集合に対してＩＮ処理を行うように構成される第３サブ処理モジュールとを備えることを特徴とする
請求項８に記載の装置。
前記第２処理モジュールは、
各前記畳み込み層から出力された特徴マップに対応するチャネルから、第２チャネル集合を決定するように構成される第２サブ決定モジュールと、
前記第２チャネル集合において、ＢＮ処理を行うように構成される第４サブ処理モジュールとを備えることを特徴とする
請求項８に記載の装置。
前記第１チャネル集合は、前記第１畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であり、前記第２チャネル集合は、前記第２畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であることを特徴とする
請求項８から１２のいずれか一項に記載の装置。
前記第１畳み込み層集合には、前記ニューラルネットワークにおける最後の一層の畳み込み層が含まれないことを特徴とする
請求項８から１２のいずれか一項に記載の装置。
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、コンピュータによる実行可能な命令が記憶されており、前記コンピュータによる実行可能な命令が実行され、請求項１から７のいずれか一項に記載の方法のステップを実現させる、前記コンピュータ記憶媒体。
コンピュータ装置であって、メモリとプロセッサとを備え、前記メモリには、コンピュータによる実行可能な命令が記憶されており、前記プロセッサが前記メモリに記憶されているコンピュータによる実行可能な命令を実行する時、請求項１から７のいずれか一項に記載の方法のステップを実現させる、コンピュータ装置。