JP6930039B2 - 画像処理方法、装置、コンピュータ装置及びコンピュータ記憶媒体 - Google Patents

画像処理方法、装置、コンピュータ装置及びコンピュータ記憶媒体 Download PDF

Info

Publication number
JP6930039B2
JP6930039B2 JP2020548653A JP2020548653A JP6930039B2 JP 6930039 B2 JP6930039 B2 JP 6930039B2 JP 2020548653 A JP2020548653 A JP 2020548653A JP 2020548653 A JP2020548653 A JP 2020548653A JP 6930039 B2 JP6930039 B2 JP 6930039B2
Authority
JP
Japan
Prior art keywords
convolution layer
convolution
neural network
processing
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020548653A
Other languages
English (en)
Other versions
JP2021509994A (ja
Inventor
潘新▲鋼▼
石建萍
▲羅▼平
▲湯▼▲曉▼▲鴎▼
Original Assignee
ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド filed Critical ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Publication of JP2021509994A publication Critical patent/JP2021509994A/ja
Application granted granted Critical
Publication of JP6930039B2 publication Critical patent/JP6930039B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Description

(関連出願の相互参照)
本出願は、2018年5月23日に提出された出願番号が201810500185.0である中国特許出願に基づく優先権を主張するものであり、該中国特許出願の全内容を参照として本出願に援用する。
本出願の実施例は、深層学習分野に関し、画像認識方法及び装置、コンピュータ装置並びに記憶媒体に関するが、これらに限定されない。
畳み込みニューラルネットワーク(Convolutional Neural Networks:CNN)は、コンピュータビジョン分野における主流の手法になっている。画像分類、物体検知及びセマンティックセグメンテーションのような画像理解タスクについて、現在の主流の畳み込みニューラルネットワークは、例えば、オックスフォード大学のビジュアルジオメトリグループ(Visual Geometry Group:VGG)、残差ネットワーク(Residual Network:ResNet)、密集結合畳み込みネットワーク(Dense Convolutional Network:DenseNet)等が、いずれもバッチ正規化(Batch Normalization:BN)を利用してトレーニングを加速させている。しかしながら、これらの畳み込みニューラルネットワークは、画像外観の変化に対して、ロバスト性が低い。例えば、画像の色、コントラスト、スタイル、シーン等が変わった場合、これらの畳み込みニューラルネットワークの性能は、著しく低下する。
また、画像外観変換領域において、畳み込みニューラルネットワークでインスタンスの正規化(Instance Normalization:IN)を利用して、異なる外観の画像に対する適応能力を向上させている。しかしながら、インスタンスの正規化は、画像理解タスクにおける使用に成功していなかった。また、従来技術において、CNNでBNを使用するかそれともINを使用するかに関わらず、畳み込みニューラルネットワークの性能を好適に向上させることもできない。
本出願の実施例は、画像認識方法及び装置、コンピュータ装置並びに記憶媒体を提供する。
本出願の実施例の技術的解決手段は、以下のように実現する。
本出願の実施例は、画像認識方法を提供する。前記方法は、認識対象画像を取得することと、前記認識対象画像を、トレーニングにより得られたニューラルネットワークモデルに入力し、前記認識対象画像の認識結果を得ることであって、前記ニューラルネットワークモデルが、前記ニューラルネットワークの畳み込み層から出力された特徴マップに対してIN及びBN処理を行うことで得られたものであることと、前記認識対象画像の認識結果を出力することとを含む。
本出願の実施例は、画像認識装置を提供する。前記装置は、第1取得モジュールと、第1処理モジュールと、第1出力モジュールとを備え、第1取得モジュールは、認識対象画像を取得するように構成され、第1処理モジュールは、前記認識対象画像を、トレーニングにより得られたニューラルネットワークモデルに入力し、前記認識対象画像の認識結果を得るように構成され、前記ニューラルネットワークモデルが、前記ニューラルネットワークに対してIN及びBN処理を行うことで得られたものである。第1出力モジュールは、前記認識対象画像の認識結果を出力するように構成される。
本出願の実施例は、コンピュータプログラム製品を提供する。前記コンピュータプログラム製品は、コンピュータによる実行可能な命令を含み、該コンピュータによる実行可能な命令は、実行されてから、本出願の実施例で提供される画像認識方法のステップを実現させることができる。
本願明細書は、例えば、以下の項目も提供する。
(項目1)
画像認識方法であって、
認識対象画像を取得することと、
前記認識対象画像を、トレーニングにより得られたニューラルネットワークモデルに入力し、前記認識対象画像の認識結果を得ることであって、前記ニューラルネットワークモデルが、前記ニューラルネットワークの畳み込み層から出力された特徴マップに対してIN及びBN処理を行うことで得られたものであることと、
前記認識対象画像の認識結果を出力することとを含む、前記方法。
(項目2)
前記ニューラルネットワークモデルのトレーニングプロセスは、
前記ニューラルネットワークの畳み込み層から第1畳み込み層集合及び第2畳み込み層集合を決定することと、
前記第1畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してIN処理を行うことと、
前記第2畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してBN処理を行うこととを含むことを特徴とする
項目1に記載の方法。
(項目3)
前記第1畳み込み層集合及び前記第2畳み込み層集合からなる集合は、前記ニューラルネットワークの全ての畳み込み層のうちの全部又は一部であることを特徴とする
項目2に記載の方法。
(項目4)
前記第1畳み込み層集合と前記第2畳み込み層集合とは、共通部分を有せず、又は、前記第1畳み込み層集合と前記第2畳み込み層集合とは、共通部分を有し、又は、前記第2畳み込み層集合は、前記第1畳み込み層集合のサブ集合であることを特徴とする
項目2に記載の方法。
(項目5)
前記第1畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してIN処理を行うことは、
前記第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第1チャネル集合を決定することと、
前記第1チャネル集合に対してIN処理を行うこととを含むことを特徴とする
項目2に記載の方法。
(項目6)
前記第2畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してBN処理を行うことは、
前記第2畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第2チャネル集合を決定することと、
前記第2チャネル集合において、BN処理を行うこととを含むことを特徴とする
項目2に記載の方法。
(項目7)
前記第1チャネル集合は、前記第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であり、前記第2チャネル集合は、前記第2畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であることを特徴とする
項目2から6のいずれか一項に記載の方法。
(項目8)
前記第1畳み込み層集合には、前記ニューラルネットワークにおける最後の一層の畳み込み層が含まれないことを特徴とする
項目2から7のいずれか一項に記載の方法。
(項目9)
前記ニューラルネットワークが少なくとも2つのブロックを含み、且つ各ブロックの最後の一層から出力された特徴マップに対応するチャネルの数は、前のブロックの最後の一層から出力された特徴マップに対応するチャネルの数が同じであり、前記方法は、
前記ニューラルネットワークの2つのブロックに対応する特徴マップを加算し、出力結果を得ることと、
前記出力結果に対してIN処理を行うこととを更に含むことを特徴とする
項目2から8のいずれか一項に記載の方法。
(項目10)
画像認識装置であって、第1取得モジュールと、第1処理モジュールと、第1出力モジュールとを備え、
第1取得モジュールは、認識対象画像を取得するように構成され、
第1処理モジュールは、前記認識対象画像を、トレーニングにより得られたニューラルネットワークモデルに入力し、前記認識対象画像の認識結果を得るように構成され、前記ニューラルネットワークモデルが、前記ニューラルネットワークに対してIN及びBN処理を行うことで得られたものであり、
第1出力モジュールは、前記認識対象画像の認識結果を出力するように構成される、前記装置。
(項目11)
前記装置は、
前記ニューラルネットワークの畳み込み層から出力された特徴マップに対してIN及びBN処理を行い、前記ニューラルネットワークモデルを得るように構成される第2処理モジュールを更に備えることを特徴とする
項目10に記載の装置。
(項目12)
前記第2処理モジュールは、
前記ニューラルネットワークの畳み込み層から第1畳み込み層集合及び第2畳み込み層集合を決定するように構成される第1決定モジュールと、
前記第1畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してIN処理を行うように構成される第1サブ処理モジュールと、
前記第2畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してBN処理を行うように構成される第2サブ処理モジュールとを備えることを特徴とする
項目11に記載の装置。
(項目13)
前記第1畳み込み層集合及び前記第2畳み込み層集合からなる集合は、前記ニューラルネットワークの全ての畳み込み層のうちの全部又は一部であることを特徴とする
項目12に記載の装置。
(項目14)
前記第1畳み込み層集合と前記第2畳み込み層集合とは、共通部分を有せず、又は、前記第1畳み込み層集合と前記第2畳み込み層集合とは、共通部分を有し、又は、前記第2畳み込み層集合は、前記第1畳み込み層集合のサブ集合であることを特徴とする
項目12に記載の装置。
(項目15)
前記第1サブ処理モジュールは、
前記第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第1チャネル集合を決定するように構成される第1サブ決定モジュールと、
前記第1チャネル集合に対してIN処理を行うように構成される第3サブ処理モジュールとを備えることを特徴とする
項目12に記載の装置。
(項目16)
前記第2処理モジュールは、
各前記畳み込み層から出力された特徴マップに対応するチャネルから、第2チャネル集合を決定するように構成される第2サブ決定モジュールと、
前記第2チャネル集合において、BN処理を行うように構成される第4サブ処理モジュールとを備えることを特徴とする
項目12に記載の装置。
(項目17)
前記第1チャネル集合は、前記第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であり、前記第2チャネル集合は、前記第2畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であることを特徴とする
項目12から16のいずれか一項に記載の装置。
(項目18)
前記ニューラルネットワークが少なくとも2つのブロックを含み、且つ各ブロックの最後の一層から出力された特徴マップに対応するチャネルの数は、前のブロックの最後の一層から出力された特徴マップに対応するチャネルの数が同じであり、前記装置は、
前記ニューラルネットワークの2つのブロックに対応する特徴マップを加算し、出力結果を得て、前記出力結果に対してIN処理を行うように構成される第2処理モジュールを更に備えることを特徴とする
項目12から17のいずれか一項に記載の装置。
(項目19)
前記第1畳み込み層集合には、前記ニューラルネットワークにおける最後の一層の畳み込み層が含まれないことを特徴とする
項目12から18のいずれか一項に記載の方法。
(項目20)
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、コンピュータによる実行可能な命令が記憶されており、前記コンピュータによる実行可能な命令が実行され、項目1から9のいずれか一項に記載の方法のステップを実現させる、前記コンピュータ記憶媒体。
(項目21)
コンピュータ装置であって、メモリとプロセッサとを備え、前記メモリには、コンピュータによる実行可能な命令が記憶されており、前記プロセッサが前記メモリに記憶されているコンピュータによる実行可能な命令を実行する時、項目1から9のいずれか一項に記載の方法のステップを実現させる、コンピュータ装置。
(項目22)
コンピュータプログラムであって、前記コンピュータプログラムがコンピュータにより実行されると、項目1から9のいずれか一項に記載の方法のステップを実現する、コンピュータプログラム。
本出願の実施例は、コンピュータによる実行可能な命令が記憶されているコンピュータ記憶媒体を提供する。該コンピュータによる実行可能な命令は、実行されてから、本出願の実施例で提供される画像認識方法のステップを実現させることができる。
本出願の実施例は、メモリとプロセッサとを備えるコンピュータ装置を提供する。前記メモリには、コンピュータによる実行可能な命令が記憶されており、前記プロセッサが前記メモリにおけるコンピュータによる実行可能な命令を実行する時、本出願の実施例で提供される画像認識方法のステップを実現させることができる。
本出願の実施例は、コンピュータプログラム製品を提供する。前記コンピュータプログラム製品は、コンピュータによる実行可能な命令を含み、該コンピュータによる実行可能な命令は、実行されてから、本出願の実施例で提供される画像認識方法のステップを実現させることができる。
本出願の実施例において、INとBNを組み合わせてニューラルネットワークに適用することで、画像認識の正確率を効果的に向上させる。
本出願の実施例におけるネットワークアーキテクチャの構成を示す概略図である。 本出願の実施例における画像認識方法の実現フローを示す概略図である。 本出願の実施例における画像認識方法を実現させるネットワークアーキテクチャを示す図である。 本出願の実施例における画像認識方法を実現させるもう1つのネットワークアーキテクチャを示す図である。 本出願の実施例における画像認識方法のもう1つの実現フローを示す概略図である。 本出願の実施例における残差ネットワークに基づいた構成を示す図である。 本出願の実施例における残差ネットワークに基づいたもう1つの構成を示す図である。 本出願の実施例における画像認識装置の構成を示す概略図である。 本出願の実施例におけるコンピュータ装置の構成を示す概略図である。
本実施例は、まずネットワークアーキテクチャを提供する。図1Aは、本出願の実施例におけるネットワークアーキテクチャの構成を示す概略図である。図1Aに示すように、該ネットワークアーキテクチャは、2つ又は複数のコンピュータ装置11〜1Nと、サーバ31とを備える。コンピュータ装置11〜1Nとサーバ31とは、ネットワーク21を経由して対話する。コンピュータ装置は、実現過程において、情報処理能力を持つ様々なタイプのコンピューティング装置であってもよい。例えば、前記コンピュータ装置は、スマートフォン、タブレット、デスクトップコンピュータ、パーソナルデジタルアシスタント、ナビゲータ、デジタル電話機、テレビ等を含んでもよい。本実施例は、画像認識方法を提供することで、出力画像の構造情報が入力画像と比較して変化したという課題を効果的に解決することができる。該方法は、コンピュータ装置に適用され、該方法により実現される機能は、コンピュータ装置におけるプロセッサによるプログラムコードの呼出しにより実現することができる。勿論、プログラムコードは、コンピュータ記憶媒体に記憶されてもよい。これから分かるように、該コンピュータ装置は、少なくともプロセッサと、記憶媒体とを備える。
本実施例をより理解しやすくするために、ここで、ニューラルネットワークに関連する用語を解決する。チャネル(Channel)という用語は、2つの異なった意味を持つ。1つの意味は、サンプル画像(画像をトレーニングサンプルとする)の場合、チャネルとは、色チャネルを指すことである。以下、色チャネルでサンプル画像のチャネルを表す。もう1つの意味は、出力空間の次元数であり、例えば、畳み込み操作における出力チャネルの数、又は、各畳み込み層における畳み込みカーネルの数である。
色チャネルとは、画像を1つ又は複数の色成分又はコンポーネントに分けるものを指す。単色チャネルにおいて、1つの画素点は、1つの数値のみでグレースケールを表せば良く、0が黒色を表す。三色チャネルには、赤緑青(Red Green Blue:RGB)色モードを利用して画像を赤緑青という3つの色チャネルに分ける場合、カラーを表すことができ、全ての値が0である場合、黒色を表す。四色チャネルにおいて、RGB色モードにalphaチャネルを加えて、透明度を表し、alpha=0は、完全透明を表す。畳み込みニューラルネットワークは、多層教師あり学習ニューラルネットワークである。隠れ層の畳み込み層及びプールサンプリング層は、畳み込みニューラルネットワークの特徴抽出機能を実現させるためのカーネルモジュールである。畳み込みニューラルネットワークの下位隠れ層は、畳み込み層と最大プールサンプリング層とから交互に構成され、上位層は、従来の多層パーセプトロンに対応する全結合層の隠れ層及びロジスティック回帰分類器である。一番目の全結合層への入力は、畳み込み層及びサブサンプリング層による特徴抽出によって得られる特徴画像である。最終層である出力層は、分類器であり、ロジスティック回帰、Softmax回帰、ひいてはサポートベクターマシンを利用することで入力画像を分類することができる。CNNにおける各層は、複数のマップ(map)より構成され、各mapは、複数のニューラルユニットより構成される。同一のmapの全てのニューラルユニットは、1つの畳み込みカーネル(即ち、重み)を共用する。畳み込みカーネルは、通常1つの特徴を表し、例えば、ある畳み込みカーネルは1つの円弧を表す場合、該畳み込みカーネルが画像全体において一回畳み込むと、畳み込み値が大きい領域は、1つの円弧である可能性が高い。CNNは、一般的には、畳み込み層とサンプリング層とを交互に配置することで構成されたものである。つまり、一層の畳み込み層に1つのサンプリング層を繋ぎ、サンプリング層の後ろに一層の畳み込み層を繋ぐ。勿論、複数の畳み込み層に1つのサンプリング層を繋いでもよい。従って、畳み込み層により特徴を抽出してから、組み合わせて抽象的な特徴を形成し、最後に、画像対象を表す特徴を形成する。CNNの後ろに全結合層を繋いでもよい。ReLU関数は、その公式が、ReLU(x)=max(0,x)である。ReLU関数のグラフから分かるように、ReLUは、例えばsigmoid関数のような他の活性化関数に比べて、(1)片側抑制性、(2)相対的広い活性化境界、(3)スパース活性化性という3つの点で変わる。VGGモデルについて、VGGモデルの構造が簡単で効率的であり、最初の数層において、3×3畳み込みカーネルのみによりネットワーク深度を増加させ、最大プーリング(Max Pooling)により、各層のニューロン数を順次減少させる。最後の三層はそれぞれ、4096個のニューロンを有する2つの全結合層及び1つのsoftmax層である。「16」及び「19」は、ネットワークにおける、重み(即ちweight、学習されるパラメータ)の更新を必要とする畳み込み層及び全結合層の数を表す。VGG16モデル及びVGG19モデルの重みはいずれもImageNetによってトレーニングされたものである。
本実施例は、画像認識方法を提供する。図1Bは、本出願の実施例における画像認識方法の実現フローを示す概略図である。図1Bに示すように、前記方法は、下記ステップを含む。
ステップS101において、認識対象画像を取得する。ここで、前記ステップS101は、コンピュータ装置により実現してもよい。更に、前記コンピュータ装置は、インテリジェント端末であってもよい。例えば、携帯電話(例えば、スマートフォン)、タブレット、ノートパソコンなどのような、無線通信能力を持つ携帯端末装置であってもよいし、デスクトップコンピュータなどのような移動しにくいインテリジェント端末装置であってもよい。前記コンピュータ装置は、画像認識又は処理に用いられる。
本実施例において、前記処理されるべき画像は、外観が複雑である画像であってもよいし、外観が簡単である画像であってもよい。
ステップS102において、前記認識対象画像を、トレーニングにより得られたニューラルネットワークモデルに入力し、前記認識対象画像の認識結果を得る。ここで、前記ステップS102は、コンピュータ装置により実現してもよい。前記ニューラルネットワークモデルは、前記ニューラルネットワークの畳み込み層から出力された特徴マップに対してIN及びBN処理を行うことで得られたものである。本実施例において、前記ニューラルネットワークの畳み込み層から出力された特徴マップに対してIN及びBN処理を行うことで、前記ニューラルネットワークモデル、即ちIBN−Netを得る。前記認識結果は、画像のカテゴリ、画像の名称等であってもよい。前記ニューラルネットワークは、ResNet50、VGG及びDenseNet等のような畳み込みニューラルネットワークであってもよい。前記ニューラルネットワークモデルにおいてIN及びBNを同時に利用しているため、INにより外観を変化させないようにして汎用化を改良し、BNにより、コンテンツ情報を切り分けるための特徴を残す。従って、IN及びBNを組み合わせて利用したニューラルネットワークモデルにおいて、ニューラルネットワークの汎用化能力を向上させることができるだけでなく、該ニューラルネットワークによる画像認識の正確率を向上させることもできる。
ステップS103において、前記認識対象画像の認識結果を出力する。ここで、前記ステップS103は、コンピュータ装置により実現してもよい。実際の実現過程において、前記コンピュータ装置から前記認識対象画像の解析結果を出力することは、自体のディスプレイで前記認識対象画像を出力してもよいし、前記コンピュータ装置から前記解析結果を他の装置に出力してもよい。つまり、他の装置に送信してもよい。前記他の装置は、例えば、ユーザのインテリジェント端末であってもよい。
本出願の実施例が提供する画像認識方法において、INとBNを組み合わせてニューラルネットワークに適用してから、IN及びBNにより処理されたニューラルネットワークモデルにおいて、認識対象画像を解析することで、画像認識の正確率を向上させる。
実現過程において、トレーニングされたニューラルネットワークモデルは、コンピュータ装置のローカルに位置してもよいし、サーバ側に位置してもよい。
トレーニングされたニューラルネットワークモデルは、コンピュータ装置のローカルに位置する場合、コンピュータ装置にクライアントがインストールされていることであり、トレーニングされたニューラルネットワークモデルがインストールされていることであてもよい。従って、図1Cに示すように、コンピュータ装置は、ステップS101により、認識対象画像を取得してから、ステップS102により、認識対象画像の認識結果を取得し、最後に、ステップS103により、認識結果を出力する。上記プロセスから分かるように、コンピュータ装置にクライアントをインストールしてから、上記S101からステップS103はいずれもコンピュータ装置のローカルで実行され、最後に、コンピュータ装置は、認識結果を得てユーザに出力する。
幾つかの実施例において、トレーニングされたニューラルネットワークモデルは、図1Dに示すように、サーバ側に位置してもよい。従って、コンピュータ装置は、入力画像をサーバに送信する。サーバは、コンピュータ装置からの入力画像を受信し、ステップS101を実現させる。換言すれば、上記方法がサーバ側で実現すると、ステップS101は、サーバがコンピュータ装置からの入力画像を受信すること含む。つまり、サーバが認識対象画像を決定してから、ステップS102により、前記認識対象画像の出力結果を取得し、最後に、ステップS103により、出力された認識結果を取得する。上記プロセスから分かるように、上記S101からステップS103はいずれもサーバ側で実行される。最後に、サーバは、認識結果をコンピュータ装置に送信することもできる。従って、コンピュータ装置は、認識結果を受信してから、認識結果をユーザに出力する。本実施例において、コンピュータ装置にクライアントをインストールしてから、ユーザは、ユーザの認識対象画像をアップロードし、サーバからの認識対象画像を受信する。続いて、認識結果をユーザに出力する。
本実施例は、画像認識方法を提供する。図2は、本出願の実施例における画像認識方法のもう1つの実現フローを示す概略図である。図2に示すように、前記方法は、下記ステップを含む。
ステップS201において、前記ニューラルネットワークの畳み込み層から第1畳み込み層集合及び第2畳み込み層集合を決定する。ここで、前記第1畳み込み層集合及び前記第2畳み込み層集合からなる集合は、前記ニューラルネットワークの全ての畳み込み層のうちの全部又は一部である。前記第1畳み込み層集合及び前記第2畳み込み層集合からなる集合が前記ニューラルネットワークの全ての畳み込み層のうちの全部であることは、該ニューラルネットワークの全ての畳み込み層がいずれもIN及び/又はBNにより処理されたものであると理解されてもよい。第1畳み込み層集合及び前記第2畳み込み層集合からなる集合が前記ニューラルネットワークの全ての畳み込み層のうちの一部であることは、該ニューラルネットワークの一部の畳み込み層に対して、INによる処理又はINとBNを組み合わせたものによる処理が行われていないと理解されてもよい。
ステップS202において、前記第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第1チャネル集合を決定する。ここで、前記第1チャネル集合は、前記第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部である。前記第1畳み込み層集合には、前記ニューラルネットワークにおける最後の一層の畳み込み層が含まれない。つまり、ニューラルネットワークの最後の一層(深層)に対してIN処理を行わない。従って、コンテンツの深層特徴における切り分け性能を低減させず、画像外観の変換による特徴の変化を低減させることもできる。これにより、該ニューラルネットワークモデルによる画像認識の正確率を向上させる。実際の使用過程において、一般的には、特徴マップに対応する全てのチャネルの半分に対してIN処理を行い、他方の半分に対してBN処理を行う。勿論、IN処理が行われるチャネルの割合は、調整可能である。本実施例において、ニューラルネットワークのショートカット経路を煩雑させないために、ニューラルネットワークのショートカット経路においてIN処理を行わない。
ステップS203において、前記第1チャネル集合に対してIN処理を行う。ここで、第1チャネル集合が、前記第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部である場合、第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルに対してIN処理を行う。第1チャネル集合が、前記第1第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの一部である場合、前記一部のチャネルに対してIN処理を行ってから、残りのチャネルに対してBN処理を行うか、又は何の処理も行わない。
ステップS204において、第2畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対応するチャネルから、第2チャネル集合を決定する。ここで、前記第2チャネル集合は、前記第2畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部である。
ステップS205において、前記第2チャネル集合に対してBN処理を行う。ここで、第2チャネル集合が前記第2畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部である場合、第2畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルに対してBN処理を行う。第2チャネル集合が前記第2畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの一部である場合、前記一部のチャネルに対してBN処理を行ってから、残りのチャネルに対してIN処理を行う。
幾つかの実施例において、前記第1畳み込み層集合と前記第2畳み込み層集合との関係は、下記3通りのケースを含む。ケース1:前記第1畳み込み層集合と前記第2畳み込み層集合とは、共通部分が存在しない。つまり、第1畳み込み集合と第2畳み込み集合に対してそれぞれ異なる正規化処理を行う。つまり、前記第1畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してIN処理を行い、前記第2畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してBN処理を行う。図4(b)に示すように、加算により得られた出力結果の一部のみに対してIN処理を行い、残りの畳み込み層から出力された特徴マップに対してBN処理を行う。ケース2:前記第1畳み込み層集合と前記第2畳み込み層集合とは、共通部分を有する。つまり、第1畳み込み層集合に対して、IN、INとBNを組み合わせた処理を行い、第2畳み込み層集合に対して、BN、INとBNを組み合わせた処理を行う。つまり、ステップ202及びステップ203のように、第1チャネルが第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの一部である場合、前記一部のチャネルに対してIN処理を行い、残りの部分に対してBN処理を行う。又は、ステップ204及びステップ205のように、第2チャネルが第2畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの一部である場合、前記一部のチャネルに対してBN処理を行い、残りの一部に対してIN処理を行う。図4(d)に示すように、畳み込み層から出力された特徴マップに対して、BN、INとBNを組み合わせた処理を行う。ケース3:前記第2畳み込み層集合が前記第1畳み込み層集合のサブ集合であり、前記第2畳み込み層集合が前記第1畳み込み層集合のサブ集合である場合、第1畳み込み集合に対して、IN、INとBNを組み合わせた処理を行い、第2畳み込み集合に対して、INとBNを組み合わせた処理を行う。前記第2畳み込み層集合が前記第1畳み込み層集合と同じである場合、第2畳み込み層集合及び第1畳み込み層集合のいずれもに対して、INとBNを合わせた処理を行う。つまり、第1チャネルが第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの一部である場合、前記一部のチャネルに対してIN処理を行い、残りの一部に対してBN処理を行い、又は処理を行わない(つまり、第1畳み込み層集合層には、IN処理、INとBNを組み合わせた処理という2つの処理方式が含まれる)。
幾つかの実施例において、前記方法は、前記ニューラルネットワークの2つのブロックに対応する特徴マップを加算して、出力結果を得て、前記出力結果に対してIN処理を行うことを更に含む。図3(c)に示すように、まず、図3(c)に示される残差ブロックに対してい三層の畳み込みを行って得られる特徴マップと、前回の残差ブロックに対してい多層畳み込みを行って得られる特徴マップを加算し、加算結果(即ち、出力結果)を得る。続いて、加算結果に対してIN処理を行う。本実施例において、外観情報は、残差経路に残されてもよく、ショートカット経路に格納されてもよいため、ニューラルネットワークの汎用化能力をより効果的に向上させるために、残差経路(即ち、図3における経路1)とショートカット経路(即ち、図3における経路2)が合流してから、IN処理を行い、それにより、画像認識の正確率を効果的に向上させる。
関連技術におけるINやBNを単独で利用したCNN構造と異なっており、本実施例が提供する画像認識方法において、IN及びBNの学習能力を鋭意検討することによって、同一のCNNにおいてINとBNを組み合わせて利用している。例えば、多くの先進的な深層アーキテクチャにおいて、BNを、高レベルの視覚タスクに対する学習能力の向上のためのキーコンポーネントとして利用しており、それに対してINを一般的にはCNNと組み合わせることによって、画像スタイル変換などのような、低レベルの視覚タスクの画像の分散を取り除いている。しかしながら、INとBNの学習特徴における異なる特性及びその組み合わせによる影響は、関連技術において、結論付けられていない。それに対して、本出願の実施例に提供されるIBN−Netによれば、適切な方式でINとBNを組み合わせてCNNの学習及び汎用化能力を向上させることが明らかになっている。異なる深度におけるネットワークの統計学的特徴に合わせるために、IBN−Netにおいて、INとBNとを組み合わせした特徴をCNNの浅層に残し、BN特徴をCNNの深層に残す。CNNにおいて、画像外観に関わる情報(例えば、色、コントラスト、スタイル等)は主に浅層の特徴に存在し、それに対して画像における物体のカテゴリに関わる情報は、主に深層の特徴に存在し、しかも浅層にも特徴が存在する。これに基づいて、2つの目的のためにCNNにIN層を導入する。1つの目的は、浅層において外観による特徴の変化を低減させると共に、深層におけるコンテンツの切り分けに干渉しないことである。従って、CNNの浅層である半分のみにIN層を加える。もう1つの目的は、浅層において画像コンテンツ情報を失わないようにするために、オリジナルのBN層内の半分の特徴をIN層に置き換え、残りの半分をBNのままにする。これに基づいて、本実施例において、畳み込みニューラルネットワークにおいて、BNとINを組み合わせた処理を行うことで、IBN−Netを形成する。
畳み込みニューラルネットワークに、本出願の実施例が提供するIBN−Netを用いると、下記利点を有する。
第1、本出願の実施例が提供するIBN−Netは、畳み込みニューラルネットワークの性能及び汎用化能力を向上させる。例えば、IBN−Net50とResNet50が、同様な数のパラメータ及び演算コストを有する場合、IBN−Net50は、画像ネットワークデータベース(ImageNet)のオリジナルの検証集合における精度が、それぞれ5位と1位に達する場合の正確率は、93.7%と77.4%である。ResNet50の検証率よりもそれぞれ0.8%と1.7%高くなる。IBN−Net50は、ImageNetのスタイル変換された新たな検証集合における精度が、それぞれ5位と1位に達する場合の正確率は、72.9%と48.9%である。ResNet50の検証率よりもそれぞれ2.2%と2.9%高くなる。
第2、本出願の実施例が提供するIBN−Netにおいて、INにより、視覚及び外観を変わらないようにすると共に、BNにより、トレーニングを加速させて切り分けるための特徴を残す。該特徴は、IBN−Netのシステム構造の設計に寄与する。ここで、INを浅層に配置することで外観の変化を取り除く。切り分け性能を維持するために、深層におけるINの強度を低減させる必要がある。IBN−Netのモジュールは、最近検討されている深層アーキテクチャの再開発に適用することができ、それによって深層アーキテクチャの演算コストを変わらずに、該深層アーキテクチャの学習及び汎用化能力を向上させる。例えば、VGG16、ResNet101、ResNeXt101及びスクイズ−励起ネットワーク(Squeeze−and−Excitation Residual Network:SE−ResNet101)においてIBN−Netを利用し、それらの、ImageNet検証集合における精度が1位に達する場合の正確率は、それぞれのオリジナルバージョンよりも0.8%、1.1%、0.6%及び0.7%高くなる。
第3、IBN−Netは、クロスドメイン性能を著しく向上させる。例えば、交通シーンに基づいた実際データ集合と仮想データ集合は、2つの画像ドメインに属する。ここで、実際データ集合は、都市の景観(Cityscapes)であってもよく、仮想データ集合は、グランドセフトオート(Cityscapes Grand Theft Auto:GTA)であってもよい。GTAにおいてトレーニングし、Cityscapesにおいて検証する場合、IBN−Netにより集積されたResNet50の性能は、7.6%を向上させた。GTAによりプレトレーニングされたモデルを利用してCityscapesにおいて微調整を行う場合、必要なサンプルの数を著しく低減した。例えば、Cityscapesの30%のレーニングデータのみを利用して微調整を行う場合、本実施例が提供するIBN−Netモデルの分割正確率は、65.5%に達するが、全てのトレーニングを用いて調整されたResNet50は、63.8%に過ぎない。
本実施例をより良く理解するために、ここで、CNNの不変性、CNNネットワークシステム構造、ドメイン適応方法及びシーン理解方法という、IBN−Netに関わる4つの形態を説明する。CNNにおける不変性:関連技術において提出されたモジュールは、一般的には、CNNのモデリング能力を向上させるか又はオーバーフィッティングを低減することで、単一のドメインにおける汎用化能力を向上せるためのものである。これらの方法は、一般的にはCNNのシステム構造に特定の不変性を導入することで、上記目的を達成する。例えば、最大プーリング及び変形可能な畳み込みにより、空間の不変性をCNNに導入することで、畳み込みニューラルネットワークの、空間変化(例えば、アフィン、歪み及び視角変換)に対するロバスト性を向上させる。トレーニングにおけるドロップアウト(dropout)層及びBNの役割は、サンプルのノイズによる影響を低減させるための正規化と見なされる。画像外観について、平均値及び標準偏差を利用して各RGBチャネルを正規化することで、色又は輝度ずれのような簡単な外観変化を取り除くことができる。スタイル変換のようなより複雑な外観変化について、これらの情報を特徴マップの平均値及び分散にコーディングすることができることを最近の検討で発見している。従って、インスタンスの正規化層は、このような外観の差異を取り除く潜在力を示す。CNNネットワークシステム構造として、CNNが従来方法より高い性能を示して以来、CNNアーキテクチャは、多くの発展を経験してきた。ここで、最も広く用いられたのは、ResNetである。ResNetは、ショートカットを利用して極めて低いネットワークの訓練の難度を低減させる。その後、ResNetの様々な変形は相次いで提出された。ResNetに比べて、ResNeXtは、ResNetの「基数」を増加させることで、モデルの性能を向上させる。これは、グループ畳み込みにより実現する。実践において、基数を増加させると、深層学習フレームワークの実行時間を増加させる。なお、スクイズ−励起ネットワーク(Squeeze−and−Excitation Network:SENet)は、チャネル次元の注意メカニズムをResNetに導入した。ResNetに比べて、SENetは、ImageNetにおいてより高い性能を実現させると共に、ネットワークパラメータ及演算量も増加させた。最近提出された密集結合ネットワーク(Densely Connected Networks:DenseNet)は、ResNetのショートカットの代わりに、スタッキング操作を用いる。DenseNetがResNetよりも効率的であることが証明された。しかしながら、上記CNNシステム構造には2つの制限がある。まず、限られた基本モジュールは、CNNによるより魅力的な属性の取得を妨げる。例えば、これらの全てのシステム構造は、いずれも、畳み込み、BN、励起層(Rectified Linear Unit:ReLU)及び共有プールからなる。異なるCNNの唯一の区別は、これらのモジュールが如何に構成されたかである。しかしながら、これらの層の構成は、外観変化による影響を自然に受けやすい。次に、これらのモデルの設計目的は、単一の分野の単一のタスクにおいて、強力な性能を実現させることである。しかしながら、これらのモデルを新たな分野に普及させる能力は、限られている。画像スタイル変換分野において、幾つかの方法は、INを利用することで、画像のコントラストの取り除きに寄与する。しがしながら、画像外観の不変性のCNNへの導入に成功しておらず、特に、画像分割又はセマンティックセグメンテーションなどのような高レベルのタスクへの導入に成功していない。その原因は、INが特徴における有用なコンテンツ情報を失い、モデルの性能に影響を与えることである。ドメイン適応方法:異なるドメインの偏差による性能の低下を緩和させることは、重要な課題である。1つの一般的な方法は、転移学習を利用することである。例えば、ターゲットドメインにおいて、モデルを微調整する。しかしながら、ターゲットドメインに手動で結果を注記する必要がある。また、ネットワークモデルがソースドメインに適用される場合、微調整されたモデルの特性は低下する。多くのドメイン適応方法は、ターゲットドメインの統計的データを用いて自己適応性を向上させる。一般的には、最大平均差異(Maximum Mean Discrepancy:MMD)、相関性アライメント(Correlation Alignment:CORAL)及び敵対的損失(Adversarial Loss:AL)のような意匠を凝らした損失関数を利用して、2つのドメインの偏差による特徴差異を低減させることで、性能低下の課題を緩和させる。転移学習及びドメイン適応には、主に2つの制限がある。まず、実際の適用において、ターゲットドメインの統計的情報の取得が非常に困難である。ターゲットドメインをカバーした全ての可能なシーンにおけるデータの収集も非常に困難である。また、最先進的な方法の殆どは、性能を向上させるために、ソースドメイン及びターゲットドメインについて、異なったモデルを用いる。しかしながら、1つのモデルが全てのドメインに適用可能であることが望ましい。
該課題を解決するためのもう1つの方式は、ドメインの一般化である。その目的は、多くの関連したソースドメインから知識を取得して、それをトレーニング期間中に統計的データが未知である新たなターゲットドメインに適用することである。関連技術において、一般的には、アルゴリズムを設計することで、様々なドメインにおける共通要因を捕捉する。しかしながら、実際の適用について、複数の関連したソースドメインのデータの収集が一般的には困難であり、且つ、最終的な性能は、収集された一連のソースドメインに大きく依存する。該動作において、本出願の実施例は、外観不変性を持つ新たなCNNシステム構造のIBN−Netを設計することで、モデルの性能及び汎用化能力を向上させる。ドメイン適用及びドメイン一般化と異なっており、本出願は、ターゲットドメインのデータ又は関連したソースドメインを必要としない。本実施例は、ターゲットドメインのデータを得ることができない場合に有用であり、これは、関連技術により達成できない効果である。
本実施例において、BNに基づいたCNNについて、画像外観に関わる情報(色、コントラスト、スタイルなど)は主に浅層の特徴に存在するが、画像における物体のカテゴリに関わる情報は、主に深層の特徴に存在するが、浅層の特徴にも存在する。従って、本実施例は、2つのルールに従って、INを導入する。まず、深層の特徴による画像コンテンツ情報の切り分け性能を低減させないようにするために、CNNの最後の一層又は数層にINを加えない。次に、浅層にもコンテンツ情報を格納するために、浅層における一部の特徴に対してBN処理を行うという動作を保留する。
本実施例において、IBN−NetをResNetに適用する。図3は、本出願の実施例における残差ネットワークに基づいた構造を示す図である。ResNetは主に4組の残差ブロックからなる。図3(a)はオリジナルのResNetにおける1つの残差ブロックの構造を示す図である。図3(b)及び図3(c)はそれぞれ、ResNetにおける異なる畳み込み層から出力された特徴マップに対して、INとBNを組み合わせた処理を行うことを示す構成図である。ここで、図3(a)において、経路1は、残差経路であり、経路2は。ショートカット経路である。30における(x,256d)において、xは、入力された特徴を表し、256dは、入力された特徴が256個のチャネルであることを表し、31は、畳み込みカーネルが1*1である64個のチャネルの畳み込み層を表し、32、34及び36は励起層(ReLU)を表す。33は、畳み込みカーネルが3*3である64個のチャネルの畳み込み層を表す。35は、畳み込みカーネルが1*1である256このチャネルの畳み込み層を表す。311は、64個のチャネルに対してい、バッチ正規化(BN)を行うことを表す。312は、64個のチャネルに対してい、バッチ正規化(BN)を行うことを表す。313は、256個のチャネルに対して、バッチ正規化(BN)を行うことを表す。図3(b)において、321は、畳み込み層から出力された特徴マップに対応するチャネルの半分(即ち、32個のチャネル)に対してIN処理を行い、他方の半分(即ち、他方の32個のチャネル)に対してBN処理を行うことを表す。図3(c)において、331は、加算された結果に対して、IN処理を行うことを表し、前記加算とは、ResNetにおいて、図3(c)に示した残差ブロックに対して三層の畳み込みを行うことで得られた特徴マップと、前回の残差ブロックに対して多層畳み込みを行うことで得られた特徴マップ(入力された特徴x)を加算することを指す。
1つの残差ブロックに対して、INの汎用化の潜在力を利用するために、最初の畳み込み層の後に得られた特徴マップにおいて、BNを該特徴マップの半分のチャネルに用い、INを他のチャネルに用いる。図3(b)に示すように、下記3つの理由がある。まず、クリーンなショートカット経路は、ResNetの最適化にとって、非常に重要である。従って、INをショートカット経路ではなく、残差経路に加える。次に、残差学習関数
Figure 0006930039
において、残差関数
Figure 0006930039
は、学習過程中に、ショートカット経路におけるxと位置合わせされる。従って、INは、最後の正規化層ではなく、最初の正規化層(即ち、最初の畳み込み層から出力された特徴マップ)に適用される。それにより、
Figure 0006930039
とショートカット経路におけるxとの位置ズレの確率を低減させる。なお、畳み込み層から出力された特徴マップにおいて、半分のチャネルに対してBN処理を行い、半分のチャネルに対してIN処理を行うことで、画像コンテンツ情報を浅層に格納するという要件を満たす。
このような設計は、モデル性能を追求するためのものである。INによれば、モデルが外観不変性の特徴を学習できるようになり、1つのデータ集合における高い外観多様性を有する画像をより好適に利用できるようになる。一方で、適度な方式でINを加えることで、コンテンツに関わる情報を保留できるようになる。本実施例において、該モデルをIBN−Net−aで表す。なお、本出願は、最大汎用化能力を追求するネットワークIBN−Net−bも提供する。外観情報が、残差経路に保留されてもよいし、ショートカット経路に格納されてもよいため、ニューラルネットワークの汎用化能力を確保するために、図3(c)に示すように、加算してから、直ちにINを加える。ResNetの性能劣化を発生させないようにするために、本実施例は、第1畳み込み層及び最初の二つの畳み込みグループの後のみに3つのIN層を加える。
表1.1は、オリジナルのResNet50及び対応する2つのIBN−Netの全体的ネットワーク構造を示す。表1.1から分かるように、オリジナルのResNet50に比べて、IBN−Net50−aにおける最初の3組のモジュール(conv2_x−conv4_x)は、図3(b)におけるIBN−aの構造に置き換えられる。IBN−Net50−bにおいて、最初の2組のモジュール(conv2_x−conv3_x)の最後の1つの残差ブロックは、図3(c)におけるIBN−bの構造に置き換えられ、且つ、最初の畳み込み層conv1の後のBNは、INに置き換えられる。表1.1において、conv2_xは、最初の一組の残差ブロックを表す。
Figure 0006930039
Figure 0006930039
上記2つのIBN−Netは、CNNにIN及びBNを用いるための唯一の方法ではない。本実施例において、図4に示すように、幾つかの面白い変形を提供する。図4は、本出願の実施例における残差ネットワークに基づいたもう1つの構造を示す図である。図4(a)、4(b)、4(c)及び4(d)は、残差ニューラルネットワークにおける同一のブロックの構造を示す図である。図4(a)、4(b)、4(c)及び4(d)に示すように、残差ニューラルネットワークの様々な畳み込み層から出力された特徴マップ(即ち、正規化層)に対して、INとBNを組み合わせた処理を行う。ここで、図4(a)において、経路3は残差経路であり、経路4はショートカット経路である。40において、(x,256d)におけるxは入力された特徴を表し、256dは、入力された特徴が256個のチャネル(256枚の画像と理解されてもよい)であることを表し、41は、畳み込みカーネルが1*1である64個の畳み込み層を表し、42、44及び46は、励起層(ReLU)を表す。43は、畳み込みカーネルが3*3である64個のチャネルの畳み込み層を表す。45は、畳み込みカーネルが1*1である256個のチャネルの畳み込み層を表す。411は、64個のチャネルに対してバッチ正規化(BN)を行うことを表す。412は、256個のチャネルに対してバッチ正規化(BN)を行うことを表す。431は、最初の畳み込み層から出力された特徴マップに対してそれぞれIN及びBN処理を行うことを表す。47は、2つの正規化方式で処理された結果をスタッキングしてから、次の層である励起層に出力することを表す。図4(b)において、413は、64個のチャネルに対してバッチ正規化(BN)を行うことを表す。431は、加算された結果の半分(即ち、256個のチャネルのうちの128個のチャネルに対してIN処理を行う)に対して、IN処理を行うことを表し、前記加算とは、畳み込みニューラルネットワークにおいて、図4(b)に示したニューラルネットワークのブロックに対して三層の畳み込みを行うことで得られた特徴マップと、前回の該ニューラルネットワークのブロックに対して多層畳み込みを行うことで得られた特徴マップを加算することを指す。図4(c)において、441は、最初の畳み込み層から出力された特徴マップに対応するチャネルの半分(即ち、32個のチャネル)に対してIN処理を行い、他方の半分(即ち、他方の32個のチャネル)に対してBN処理を行うことを表す。図4(d)において、442は、2番目の畳み込み層から出力された特徴マップに対応するチャネルの半分(即ち、32個のチャネル)に対してIN処理を行い、他方の半分(即ち、他方の32個のチャネル)に対してBN処理を行うことを表す。
Figure 0006930039
Figure 0006930039
表1.2から分かるように、本実施例におけるIBN−Netにおいて、複数の実施形態がある。ここで、一部のパラメータは、下記2つの要件を満たすことができる。つまり、様々なネットワークの最後の層(トレーニング結果の需要に応じて、モデルを、最後の2層又は3層でIN処理しないように設定してもよい)に対してIN処理を行わない。なお、他の層(最後の層以外)において、INとBNを組み合わせて利用するか又は交互に利用する。例えば、図4により提供される図4(a)、4(b)、4(c)及び4(d)という4つの態様から分かるように、IN層の位置、INで処理されるチャネルの数は、いずれも調整可能である。なお、同一の畳み込みニューラルネットワークの様々なモジュールにおいて、図4により提供される4つの実施態様は、交互に使用されてもよい。
Figure 0006930039
図4(a)において、最初の畳み込み層から出力された特徴マップに対してそれぞれIN及びBN処理を行ってから、2つの正規化方式で処理された結果をスタッキングし、励起層である次の層に出力する。IN及びBNの高い汎用化性能及び高い切り分け性能の特徴が保留されるが、より多くのパラメータが導入される。2つの特徴を捕集するという考えも、IBN−bに適用可能であるため、図4(b)が形成される。なお、図4(c)及び4(d)に示すように、図4(a)及び図4(b)に示した形態を組み合わせてもよい。これの変形に対する検討は、下記実験に関わる説明において記載する。表1.3は、ImageNetデータベースを認識対象画像として用いて、IBN−Netニューラルネットワークモデルに入力することで、えられたtop1及びtop5に基づいた誤り率を示す。ここで、top1とは、予測された分類の最も高い正確率を意味する。top5とは、予測された最大確率の5つの分類の正確率を意味する。top1/top5 errはそれぞれ、top1及びtop5に基づいた誤り率を表す。RGB+50は、オリジナルの画像を基に、画像のR、G及びBという3つのチャネルにそれぞれ50を加算することを表す。R+50は、赤色チャネルに50を加算することを表し、つまり、画像が一層赤くすることを表す。contrast*1.5は、コントラストに1.5をかけることを表す。Monetは、CycleGAN(画像スタイル変換ツール)を用いて画像をモネスタイルの画像に変換することを表す。従って、表1.3から分かるように、どのような外観変化に関わらず、モデルIBN−Net50−a(図3(b))により得られたtop1に基づいた誤り率及びtop5に基づいた誤り率はそれぞれ、IBN−Netを利用しないオリジナルのResNet50のtop1に基づいた誤り率及びtop5に基づいた誤り率よりも低い。また、モデルIBN−Net50−b(図3(c))により得られたtop1に基づいた誤り率及びtop5に基づいた誤り率はそれぞれ、IBN−Netを利用しないオリジナルのResNet50のtop1に基づいた誤り率及びtop5に基づいた誤り率よりも低い。従って、IBN−Netモジュールを利用して得られたニューラルネットワークの性能は、IBN−Netモジュール(図3(a)に示すようなオリジナルのResNet)を利用せずに得られたニューラルネットワークの性能よりも優れている。
Figure 0006930039
性能が従来のCNNよりも高いIBN−Netモデルの性能を明らかにするために、本実施例は、IBN−Netの性能を最初に流行になったオリジナルのImageNet検証集合におけるCNNアーキテクチャと比較する。表2に示すように、BN−Netによれば、これらのCNNに対する一致した改良を実現させ、より高いモデル性能を表す。具体的には、IBN−ResNet101は、ResNeXt101及びSE−ResNet101よりも優れている。後の両者は、より多くの時間がかかるか又は更なるパラメータを導入する必要がある。しかしながら、本実施例が提供するIBN−Netモデルにおいて、更なるパラメータを導入せず、試験段階において少量の演算処理を追加する。実験結果から分かるように、特徴における幾つかの平均値及び分散の統計量を除去することで、モデルが高い外観多様性を持つ画像から学習することに寄与する。
Figure 0006930039
Figure 0006930039
本実施例において、IBN−Netの他の変形を更に検討する。表3は、方法に関する説明に記載されるIBN−Netの変形の結果を示す。本実施例が提供する全てのIBN−Netの変形は、オリジナルのResNet50に比べて、より優れた性能を示し、且つ、外観変換の場合、性能の低下がより少ない。具体的には、IBN−Net−cは、IBN−Net−aと類似した性能を実現させ、もう1つの特徴組み合わせ方法を提供する。IBN−Net−dの性能及び汎用化能力が、IBN−Net−aとIBN−Net−bとの間にあることは、畳み込み層から出力された特徴マップの一部のチャネルにおいてBN特性を保留すると、性能の向上に寄与すると共に、一定の汎用化能力を失うことを表す。IBN−Net−aとIBN−Net−bの組み合わせが、ほぼIBN−Net−dと同様であることは、INによるResNetの主要経路への影響が支配的なものであることを表す。最後に、IBN−Net−aに、さらなるIBN層を加える場合、利点をもたらすことができず、適量のIN層を加えれば十分である。
Figure 0006930039
Figure 0006930039
本実施例において、数の異なったIN層が追加されたIBNネットワークを検討した。表4は、IBN−Net50−aの性能を示す。ここで、IN層は、数の異なる残差グループに追加される。これから分かるように、より多くのIN層を浅層に追加することに伴い、性能が改良されるが、IN層を最後の残差グループに追加される場合、性能が低下した。INを浅層に適用すると、モデルの性能の向上に寄与するが、深層において、重要なコンテンツ情報を保留するためにBNを用いる必要があることが明らかになる。なお、本実施例において、IN−BNの割合による性能への影響も検討した。表5に示すように、INの割合が0.25から0.5である場合、top1に基づいた誤り率及びtop5に基づいた誤り率はそれぞれ最も低い。IN及びBNを利用する過程において、妥協点を得るように行う必要があることが証明された。
Figure 0006930039
Figure 0006930039
本実施例において、ホール畳み込み(Hole Convolution)が行われたResNet50を基準として、IBN−Netに対して、同じ修正を行う。各データ集合において、モデルをトレーニングし、IBN−Net及びResNet50を評価し、評価結果を表6に示す。表6において、mIoU(%)は、画像の重なりの割合(Mean Intersection over Union:mIoU)を表す。本実施例の実験結果は、ImageNetデータ集合における結果と一致する。IBN−Netは、1つのデータ集合において、より高いモデル性能を表し、且つ様々なドメインのデータ集合の間でより高い汎用化能力を持つ。具体的には、IBN−Net−aは、より高いモデル性能を示し、2つのデータ集合において、IBN−Net−aの正確率は、ResNet50よりも4.6%及び2.0%高くなる。交差評価を行う場合、IBN−Net−bの汎用化能力がより高い。IBN−Net−bを用いる場合、オリジナルのResNet50に比べて、Cityscapesからグランドセフトオート(Grand Theft Auto V,GTA5)までの性能は、8.6%向上した。GTA5からCityscapesまでの性能は、7.6%向上した。本実施例が提供するIBN−Netは、ドメイン適応動作と異なることに留意されたい。ドメイン適応は、ターゲットドメイン向けのものであり、また、トレーニング期間においてターゲットドメインデータを必要とするが、本実施例における方法は、ターゲットドメインデータを必要としない。それにもかかわらず、本実施例の方法による性能の利得は、ドメイン適応方法による性能の利得に相当し、また、本実施例が、モデルを特定のデータドメインに強制的に適用させることなく、モデルに外観不変性を導入するため、本実施例の方法は、より高い汎用性を持つモデルを実現させるために、大幅に進められる。
Figure 0006930039
新たなデータドメインにモデルを適用するためのもう1つの慣用方法は、少量のターゲットドメイン注記により微調整を行うことである。本実施例が提供するモデルがより高い汎用化能力を持つため、ネットワークに必要なデータは、著しく低減する。本実施例において、数の異なるCityscapesデータ及び注記を利用してGTA5データ集合でプレトレーニングされるモデルを微調整する。初期学習速度及び周期はそれぞれ0.003及び80とする。表7に示すように、30%のCityscapesトレーニングデータのみを利用した場合、IBN−Net50−aの性能は、全てのトレーニングデータを利用したResNet50の性能よりも優れている。
本実施例におけるIBN−Netがより好適な汎用化を如何に実現させるかを理解しやすくために、ここで、ドメインオフセットによる特徴分散度を分析する。特徴分散度の測定は、以下のとおりである。CNNにおける一層の出力特徴に対して、1つのチャネルの平均値をFで表す。Fは、該チャネルがどれぐらい活性化されたかを表す。Fは、平均値が
Figure 0006930039
であって、分散が
Figure 0006930039
であるガウス分布とする。該チャネルにおけるドメインAとドメインBとの間の対称カルバックライブラーダイバージェンス(symmetric KL divergence)は以下で表されてもよい。
Figure 0006930039
Figure 0006930039
は、i番目のチャネルの対称カルバックライブラーダイバージェンスを表す。該像の特徴の全てのチャネルの対称カルバックライブラーダイバージェンスの平均値を取ると、該層におけるドメインAとドメインBの特徴相違量を得ることができる。その数式は以下のとおりである。
Figure 0006930039
式(3)において、Cは、該層におけるチャネルの数を表す。該数値は、ドメインAとドメインBの特徴分布の距離の測定基準である。
インスタンスの正規化による外観情報及びコンテンツ情報への影響を捉えるために、ここで、3組のドメインを考慮する。前の2組は、Cityscapes−GTA5及びオリジナルの画像−モネスタイルの画像(Photo−Monet)である。該2組のドメインに、明らかな外観差異がある。コンテンツの異なる2つのドメインを構築するために、ImageNet−1k検証集合を2部分に分ける。1つの部分に含まれる画像には、500個の対象カテゴリがある。もう1つの部分には、他の500個のカテゴリが含まれる。続いて、ResNet50及びIBN−Net50の主要経路における17個のReLU層の出力特徴の特徴分散度を算出する。上記3組の画像に対して実験を行うことで得られた実験結果は以下のとおりである。IBN−Netにおいて、画像外観の相違による特徴分散度は明らかに低減した。IBN−Net−aにおいて、分散度が適当に低減し、IBN−Net−bにおいて、第2、4及び8層のIN層の後に、突然に低下し、且つこのような効果は、深層まで続ける。これは、深度特徴にける外観による相違が減少するため、分類に対する干渉が減少したことを意味する。一方で、コンテンツの差異による特徴分散度は、IBN−Netにおいて低下していない。特徴におけるコンテンツ情報がBN層において好適に保留されたことを表す。本実施例が提供するIBN−Netにおいて、IN及びBNを単独の深層ネットワーク装置に適用することで、ニューラルネットワークの性能及び汎用化能力を向上させる。本実施例において、IBN−NetをVGG、ResNet,ResNeXt及びSENetに適用し、且つImageNetデータ集合において、一致した正確率の向上を実現させた。なお、ターゲットドメインデータを利用しなくても、INにより導入された外観不変性によれば、ニューラルネットワークモデルの画像ドメインを跨った汎用化能力を向上させることができる。従って、IN及びBN層のCCNにおける役割は、INにより外観不変性を導入して汎用化能力を向上させ、BNによりコンテンツ情報の特徴における切り分け性能を保留することである。
本出願の実施例は、画像認識装置を提供する。図5は、本出願の実施例における画像認識装置の構造を示す概略図である。図5に示すように、前記装置500は、第1取得モジュール501と、第1処理モジュール502と、第1出力モジュール503とを備え、第1取得モジュール501は、認識対象画像を取得するように構成され、第1処理モジュール502は、前記認識対象画像を、トレーニングにより得られたニューラルネットワークモデルに入力し、前記認識対象画像の認識結果を得るように構成され、前記ニューラルネットワークモデルが、前記ニューラルネットワークに対してIN及びBN処理を行うことで得られたものである。第1出力モジュール503は、前記認識対象画像の認識結果を出力するように構成される。
幾つかの実施例において、前記装置500は、前記ニューラルネットワークの畳み込み層から出力された特徴マップに対してIN及びBN処理を行い、前記ニューラルネットワークモデルを得るように構成される第2処理モジュールを更に備える。
幾つかの実施例において、前記第2処理モジュールは、前記ニューラルネットワークの畳み込み層から第1畳み込み層集合及び第2畳み込み層集合を決定するように構成される第1決定モジュールと、前記第1畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してIN処理を行うように構成される第1サブ処理モジュールと、前記第2畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してBN処理を行うように構成される第2サブ処理モジュールとを備える。
幾つかの実施例において、前記第1畳み込み層集合及び前記第2畳み込み層集合からなる集合は、前記ニューラルネットワークの全ての畳み込み層のうちの全部又は一部である。本出願の実施例において、前記第1畳み込み層集合と前記第2畳み込み層集合とは、共通部分を有せず、又は、前記第1畳み込み層集合と前記第2畳み込み層集合とは、共通部分を有し、又は、前記第2畳み込み層集合は、前記第1畳み込み層集合のサブ集合である。
幾つかの実施例において、前記第1サブ処理モジュールは、前記第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第1チャネル集合を決定するように構成される第1サブ決定モジュールと、前記第1チャネル集合に対してIN処理を行うように構成される第3サブ処理モジュールとを備える。
幾つかの実施例において、前記第2処理モジュールは、各前記畳み込み層から出力された特徴マップに対応するチャネルから、第2チャネル集合を決定するように構成される第2サブ決定モジュールと、前記第2チャネル集合において、BN処理を行うように構成される第4サブ処理モジュールとを備える。
幾つかの実施例において、前記第1チャネル集合は、前記第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であり、前記第2チャネル集合は、前記第2畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部である。
幾つかの実施例において、前記装置は、
前記ニューラルネットワークの2つのブロックに対応する特徴マップを加算し、出力結果を得て、前記出力結果に対してIN処理を行うように構成される第2処理モジュールを更に備え、前記ニューラルネットワークが少なくとも2つのブロックを含み、且つ各ブロックの最後の一層から出力された特徴マップに対応するチャネルの数は、前のブロックの最後の一層から出力された特徴マップに対応するチャネルの数が同じである。
上記装置の実施例に関する説明は、上記方法の実施例に関する説明と類似しており、方法の実施例と類似した有益な効果を有することに留意されたい。本出願の装置の実施例で説明されない技術的な詳細については、本出願の方法の実施例の説明を参照されたい。本出願の実施例において、上記即時通信方法がソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよいことに留意されたい。このような理解のもと、本発明の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、一台の即時通信装置(端末、サーバ等)に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、Uディスク、リムーバブルハードディスク、読み出し専用メモリ(Read−only Memory:ROM)、磁気ディスク又は光ディスなど、プログラムコードを記憶可能な各種の媒体を含む。従って、本出願の実施例は、如何なる特定のハードウェアとソフトウェアの組み合わせにも限定されない。
なお、本出願の実施例は、コンピュータプログラム製品を更に提供する。前記コンピュータプログラム製品には、コンピュータによる実行可能な命令が含まれ、該コンピュータによる実行可能な命令が実行されてから、本出願の実施例で提供される画像認識方法のステップを実現させることができる。なお、本出願の実施例は、コンピュータ記憶媒体を更に提供する。前記コンピュータ記憶媒体には、コンピュータによる実行可能な命令が記憶されており、前記コンピュータによる実行可能な命令がプロセッサにより実行される時、上記実施例で提供される画像認識方法のステップを実現させる。なお、本出願の実施例は、コンピュータ装置を更に提供する。図6は、本出願の実施例におけるコンピュータ装置の構造を示す概略図である。図6に示すように前記装置600は、プロセッサ601と、少なくとも1つの通信バス602と、ユーザインタフェース603、少なくとも1つの外部通信インタフェース604と、メモリ605とを備える。ここで、通信バス602は、これらのユニットの接続と通信を実現させるように構成される。ここで、ユーザインタフェース603はディスプレイを含んでもよい。外部通信インタフェース604は、標準の有線インタフェース及び無線インタフェースを含んでもよい。ここで、前記プロセッサ601は、メモリに記憶されている病理学的画像認識プログラムを実行することで、上記実施例で提供される画像認識方法のステップを実現させるように構成される。
上記コンピュータ装置及び記憶媒体の実施例に関する説明は、上記方法の実施例に関する説明に類似している。方法の実施例に類似した有益な効果を有する。本出願の即時通信装置及び記憶媒体の実施例で説明されない技術的な詳細については、本出願の方法の実施例の説明を参照されたい。明細書全文を通じて述べられる「1つの実施例」または「一実施例」は、実施例に関連する特定の特徴、構造または特性が、本発明の少なくとも1つの実施例の中に含まれることを意味すると理解されたい。従って、本明細書全体を通して出現する「1つの実施例において」又は「一実施例において」は、同じ実施例を指すとは限らない。また、これらの特定の特徴、構造または特性は、任意かつ適切な方式で1つまたは複数の実施例に組み入れられることができる。本発明の各実施例において、上記各プロセスの番号の大きさは、実行順の前後を意味するのではなく、各プロセスの実行順は、その機能および内在的な論理によって確定されるものであり、本発明の実施例の実施プロセスに対しいっさい限定を構成しないと理解すべきである。上記の本発明に係る実施例の番号は、ただ、記述するためのものであり、実施例の優劣を代表しない。本明細書において、用語「含む」、「備える」、またはそれらの他のいずれかの変形は、非排他的包含を包括するように意図される。従って、一連の要素を含むプロセス、方法、品目又は装置は、これらの要素を含むだけでなく、明確に列挙されていない他の要素も含み、又は、このようなプロセス、方法、品目又は装置に固有の要素も含む。更なる限定が存在しない場合、「・・・を含む」なる文章によって規定される要素は、該要素を有するプロセス、方法、品目又は装置内に、同じ要素が更に存在することを排除しない。
本出願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインターフェイス、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
分離部材として説明した該ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
また、本発明の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとの組み合わせて実現してもよい。
上記各方法に係る実施例の全部又は一部のステップはプログラム命令に係るハードウェアにより実現され、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶され、該プログラムが実行される時、上記方法の実施例におけるステップを実行し、前記記憶媒体は、携帯型記憶装置、読み出し専用メモリ(Read−only Memory:ROM)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
又は、本発明の上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本発明の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ設備(パソコン、サーバ、又はネットワーク装置など)に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、携帯型記憶装置、ROM、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
以上は本発明の具体的な実施形態に過ぎず、本発明の保護の範囲はそれらに制限されるものではなく、当業者が本発明に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。

Claims (16)

  1. 画像認識方法であって、
    認識対象画像を取得することと、
    ニューラルネットワークモデルの畳み込み層を利用して、前記認識対象画像に対して特徴抽出を行い、特徴マップを得ることと、
    第1畳み込み層集合内の畳み込み層から出力された特徴マップに対応するチャネルから選定した第1チャネル集合に対して、インスタンスの正規化(IN)処理を行い、第2畳み込み層集合内の畳み込み層から出力された特徴マップに対応するチャネルから選定した第2チャネル集合に対して、バッチ正規化(BN)処理を行い、前記認識対象画像の認識結果を得ることであって、前記第1畳み込み層集合と前記第2畳み込み層集合が、ニューラルネットワークの畳み込み層から選定されたものであり、前記第1チャネル集合と前記第2チャネル集合に含まれるチャネルが異なることと、
    前記認識対象画像の認識結果を出力することとを含
    前記ニューラルネットワークモデルのトレーニングプロセスは、
    前記ニューラルネットワークの畳み込み層から第1畳み込み層集合及び第2畳み込み層集合を決定することと、
    前記第1畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してIN処理を行うことと、
    前記第2畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してBN処理を行うこととを含み、
    前記ニューラルネットワークが少なくとも2つのブロックを含み、且つ各ブロックの最後の一層から出力された特徴マップに対応するチャネルの数は、前のブロックの最後の一層から出力された特徴マップに対応するチャネルの数が同じであり、前記画像認識方法は、
    前記ニューラルネットワークの2つのブロックに対応する特徴マップを加算し、出力結果を得ることと、前記出力結果に対してIN処理を行うこととを更に含む、
    画像認識方法。
  2. 前記第1畳み込み層集合及び前記第2畳み込み層集合からなる集合は、前記ニューラルネットワークの全ての畳み込み層のうちの全部又は一部であることを特徴とする
    請求項に記載の方法。
  3. 前記第1畳み込み層集合と前記第2畳み込み層集合とは、共通部分を有せず、又は、前記第1畳み込み層集合と前記第2畳み込み層集合とは、共通部分を有し、又は、前記第2畳み込み層集合は、前記第1畳み込み層集合のサブ集合であることを特徴とする
    請求項に記載の方法。
  4. 前記第1畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してIN処理を行うことは、
    前記第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第1チャネル集合を決定することと、
    前記第1チャネル集合に対してIN処理を行うこととを含むことを特徴とする
    請求項に記載の方法。
  5. 前記第2畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してBN処理を行うことは、
    前記第2畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第2チャネル集合を決定することと、
    前記第2チャネル集合において、BN処理を行うこととを含むことを特徴とする
    請求項に記載の方法。
  6. 前記第1チャネル集合は、前記第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であり、前記第2チャネル集合は、前記第2畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であることを特徴とする
    請求項からのいずれか一項に記載の方法。
  7. 前記第1畳み込み層集合には、前記ニューラルネットワークにおける最後の一層の畳み込み層が含まれないことを特徴とする
    請求項からのいずれか一項に記載の方法。
  8. 画像認識装置であって、第1取得モジュールと、第1処理モジュールと、第1出力モジュールと、第2処理モジュールとを備え、
    前記第1取得モジュールは、認識対象画像を取得するように構成され、
    前記第1処理モジュールは、ニューラルネットワークモデルの畳み込み層を利用して、前記認識対象画像に対して特徴抽出を行い、特徴マップを得、
    第1畳み込み層集合内の畳み込み層から出力された特徴マップに対応するチャネルから選定した第1チャネル集合に対して、インスタンスの正規化(IN)処理を行い、第2畳み込み層集合内の畳み込み層から出力された特徴マップに対応するチャネルから選定した第2チャネル集合に対して、バッチ正規化(BN)処理を行い、前記認識対象画像の認識結果を得るように構成され、前記第1畳み込み層集合と前記第2畳み込み層集合が、ニューラルネットワークの畳み込み層から選定されたものであり、前記第1チャネル集合と前記第2チャネル集合に含まれるチャネルが異なり、
    前記第1出力モジュールは、前記認識対象画像の認識結果を出力するように構成され、
    前記第2処理モジュールは、前記ニューラルネットワークの畳み込み層から出力された特徴マップに対してIN及びBN処理を行い、前記ニューラルネットワークモデルを得るように構成され、
    前記第2処理モジュールは、
    前記ニューラルネットワークの畳み込み層から第1畳み込み層集合及び第2畳み込み層集合を決定するように構成される第1決定モジュールと、
    前記第1畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してIN処理を行うように構成される第1サブ処理モジュールと、
    前記第2畳み込み層集合のうちの各畳み込み層から出力された特徴マップに対してBN処理を行うように構成される第2サブ処理モジュールとを備え、
    前記ニューラルネットワークが少なくとも2つのブロックを含み、且つ各ブロックの最後の一層から出力された特徴マップに対応するチャネルの数は、前のブロックの最後の一層から出力された特徴マップに対応するチャネルの数が同じであり、前記第2処理モジュールは、前記ニューラルネットワークの2つのブロックに対応する特徴マップを加算し、出力結果を得て、前記出力結果に対してIN処理を行うようにさらに構成される、
    画像認識装置。
  9. 前記第1畳み込み層集合及び前記第2畳み込み層集合からなる集合は、前記ニューラルネットワークの全ての畳み込み層のうちの全部又は一部であることを特徴とする
    請求項に記載の装置。
  10. 前記第1畳み込み層集合と前記第2畳み込み層集合とは、共通部分を有せず、又は、前記第1畳み込み層集合と前記第2畳み込み層集合とは、共通部分を有し、又は、前記第2畳み込み層集合は、前記第1畳み込み層集合のサブ集合であることを特徴とする
    請求項に記載の装置。
  11. 前記第1サブ処理モジュールは、
    前記第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応するチャネルから、第1チャネル集合を決定するように構成される第1サブ決定モジュールと、
    前記第1チャネル集合に対してIN処理を行うように構成される第3サブ処理モジュールとを備えることを特徴とする
    請求項に記載の装置。
  12. 前記第2処理モジュールは、
    各前記畳み込み層から出力された特徴マップに対応するチャネルから、第2チャネル集合を決定するように構成される第2サブ決定モジュールと、
    前記第2チャネル集合において、BN処理を行うように構成される第4サブ処理モジュールとを備えることを特徴とする
    請求項に記載の装置。
  13. 前記第1チャネル集合は、前記第1畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であり、前記第2チャネル集合は、前記第2畳み込み層集合のうちの各前記畳み込み層から出力された特徴マップに対応する全てのチャネルのうちの全部又は一部であることを特徴とする
    請求項から12のいずれか一項に記載の装置。
  14. 前記第1畳み込み層集合には、前記ニューラルネットワークにおける最後の一層の畳み込み層が含まれないことを特徴とする
    請求項から12のいずれか一項に記載の装置
  15. コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、コンピュータによる実行可能な命令が記憶されており、前記コンピュータによる実行可能な命令が実行され、請求項1からのいずれか一項に記載の方法のステップを実現させる、前記コンピュータ記憶媒体。
  16. コンピュータ装置であって、メモリとプロセッサとを備え、前記メモリには、コンピュータによる実行可能な命令が記憶されており、前記プロセッサが前記メモリに記憶されているコンピュータによる実行可能な命令を実行する時、請求項1からのいずれか一項に記載の方法のステップを実現させる、コンピュータ装置。
JP2020548653A 2018-05-23 2019-03-07 画像処理方法、装置、コンピュータ装置及びコンピュータ記憶媒体 Active JP6930039B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810500185.0A CN108875787B (zh) 2018-05-23 2018-05-23 一种图像识别方法及装置、计算机设备和存储介质
CN201810500185.0 2018-05-23
PCT/CN2019/077341 WO2019223397A1 (zh) 2018-05-23 2019-03-07 图像处理方法、装置、计算机设备和计算机存储介质

Publications (2)

Publication Number Publication Date
JP2021509994A JP2021509994A (ja) 2021-04-08
JP6930039B2 true JP6930039B2 (ja) 2021-09-01

Family

ID=64333566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020548653A Active JP6930039B2 (ja) 2018-05-23 2019-03-07 画像処理方法、装置、コンピュータ装置及びコンピュータ記憶媒体

Country Status (5)

Country Link
US (1) US11080569B2 (ja)
JP (1) JP6930039B2 (ja)
CN (1) CN108875787B (ja)
SG (1) SG11202009173YA (ja)
WO (1) WO2019223397A1 (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875787B (zh) 2018-05-23 2020-07-14 北京市商汤科技开发有限公司 一种图像识别方法及装置、计算机设备和存储介质
KR102200496B1 (ko) * 2018-12-06 2021-01-08 주식회사 엘지씨엔에스 딥러닝을 이용한 이미지 인식 방법 및 서버
CN109671063B (zh) * 2018-12-11 2020-08-18 西安交通大学 一种基于深度网络特征间重要性的图像质量评估方法
CN109784347B (zh) * 2018-12-17 2022-04-26 西北工业大学 基于多尺度稠密卷积神经网络和谱注意力机制的图像分类方法
CN109708740A (zh) * 2018-12-21 2019-05-03 西安科技大学 一种用于超市的智能自主识别称重系统
CN109766854A (zh) * 2019-01-15 2019-05-17 济南浪潮高新科技投资发展有限公司 一种基于两阶段互补网络的鲁棒人脸识别算法
CN109886922B (zh) * 2019-01-17 2023-08-18 丽水市中心医院 基于SE-DenseNet深度学习框架和增强MR图像的肝细胞癌自动分级方法
CN109886392B (zh) * 2019-02-25 2021-04-27 深圳市商汤科技有限公司 数据处理方法和装置、电子设备和存储介质
CN109883990B (zh) * 2019-02-28 2021-07-06 吉林大学 一种药用真菌近红外光谱分析方法
CN111666960B (zh) * 2019-03-06 2024-01-19 南京地平线机器人技术有限公司 图像识别方法、装置、电子设备及可读存储介质
KR102046113B1 (ko) * 2019-03-19 2019-11-18 주식회사 루닛 신경망 학습 방법 및 그 장치
CN109961102B (zh) * 2019-03-30 2021-06-22 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质
CN110059744B (zh) * 2019-04-16 2022-10-25 腾讯科技(深圳)有限公司 训练神经网络的方法、图像处理的方法、设备及存储介质
CN110348543B (zh) * 2019-06-10 2023-01-06 腾讯医疗健康(深圳)有限公司 眼底图像识别方法、装置、计算机设备及存储介质
CN110245720B (zh) * 2019-06-22 2023-05-26 中南林业科技大学 一种基于深度学习的柑橘病虫害智能诊断方法及系统
WO2020258491A1 (zh) * 2019-06-28 2020-12-30 平安科技(深圳)有限公司 通用字符识别方法、装置、计算机设备和存储介质
CN110533031A (zh) * 2019-08-21 2019-12-03 成都电科慧安科技有限公司 一种目标检测识别与定位的方法
CN110781948A (zh) * 2019-10-22 2020-02-11 北京市商汤科技开发有限公司 图像处理方法、装置、设备及存储介质
CN110827251B (zh) * 2019-10-30 2023-03-28 江苏方天电力技术有限公司 一种基于航拍图像的输电线路锁紧销缺陷检测方法
CN111179189B (zh) * 2019-12-15 2023-05-23 深圳先进技术研究院 基于生成对抗网络gan的图像处理方法、装置以及电子设备、存储介质
CN111738045B (zh) * 2020-01-19 2024-04-19 中国科学院上海微系统与信息技术研究所 一种图像检测方法、装置、电子设备及存储介质
CN113496237B (zh) * 2020-03-20 2024-05-24 商汤集团有限公司 域适应神经网络训练和交通环境图像处理方法及装置
CN111553392B (zh) * 2020-04-17 2024-03-01 东南大学 一种基于卷积神经网络的细粒度犬类图像识别方法
CN111652170A (zh) * 2020-06-09 2020-09-11 电子科技大学 基于二通道残差深度神经网络的二次雷达信号处理方法
CN111783570A (zh) * 2020-06-16 2020-10-16 厦门市美亚柏科信息股份有限公司 一种目标重识别的方法、装置、系统及计算机存储介质
CN111709481B (zh) * 2020-06-17 2023-12-12 云南省烟草农业科学研究院 一种烟草病害识别方法、系统、平台及存储介质
CN111738436B (zh) * 2020-06-28 2023-07-18 电子科技大学中山学院 一种模型蒸馏方法、装置、电子设备及存储介质
CN111832577A (zh) * 2020-07-19 2020-10-27 武汉悟空游人工智能应用软件有限公司 一种基于稠密连接的感数预测方法
CN111815627B (zh) * 2020-08-24 2020-12-01 成都睿沿科技有限公司 遥感图像变化检测方法、模型训练方法及对应装置
CN112201255B (zh) * 2020-09-30 2022-10-21 浙江大学 语音信号频谱特征和深度学习的语音欺骗攻击检测方法
CN112417955B (zh) * 2020-10-14 2024-03-05 国能大渡河沙坪发电有限公司 巡检视频流处理方法及装置
CN112651333B (zh) * 2020-12-24 2024-02-09 天翼数字生活科技有限公司 静默活体检测方法、装置、终端设备和存储介质
CN112990053B (zh) * 2021-03-29 2023-07-25 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN113542525B (zh) * 2021-06-30 2023-02-10 中国人民解放军战略支援部队信息工程大学 基于mmd残差的隐写检测特征选取方法
CN113326809A (zh) * 2021-06-30 2021-08-31 重庆大学 基于三通道神经网络的离线签名鉴定方法及系统
CN113537044B (zh) * 2021-07-14 2022-08-26 哈尔滨理工大学 基于STFT与改进DenseNet的航空发动机故障诊断方法
CN113343943B (zh) * 2021-07-21 2023-04-28 西安电子科技大学 基于巩膜区域监督的眼部图像分割方法
CN113609951B (zh) * 2021-07-30 2023-11-24 北京百度网讯科技有限公司 目标检测模型的训练和目标检测方法、装置、设备及介质
CN113705386A (zh) * 2021-08-12 2021-11-26 北京有竹居网络技术有限公司 视频分类方法、装置、可读介质和电子设备
CN113657493B (zh) * 2021-08-17 2024-06-25 北京理工大学 基于风格特征通道注意力的x光安检图像违禁品检测方法
CN113706486A (zh) * 2021-08-17 2021-11-26 西安电子科技大学 基于密集连接网络迁移学习的胰腺肿瘤图像分割方法
CN114548201B (zh) * 2021-11-15 2023-04-07 北京林业大学 无线信号的自动调制识别方法、装置、存储介质及设备
CN114241247B (zh) * 2021-12-28 2023-03-07 国网浙江省电力有限公司电力科学研究院 一种基于深度残差网络的变电站安全帽识别方法及系统
CN114972952B (zh) * 2022-05-29 2024-03-22 重庆科技学院 一种基于模型轻量化的工业零部件缺陷识别方法
CN116128876B (zh) * 2023-04-04 2023-07-07 中南大学 一种基于异构域的医学图像分类方法和系统
CN117115641B (zh) * 2023-07-20 2024-03-22 中国科学院空天信息创新研究院 建筑物信息提取方法、装置、电子设备及存储介质
CN117593610B (zh) * 2024-01-17 2024-04-26 上海秋葵扩视仪器有限公司 图像识别网络训练及部署、识别方法、装置、设备及介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3872716A1 (en) * 2015-01-28 2021-09-01 Google LLC Image classification neural network system with batch normalization layers
NL2015087B1 (en) * 2015-06-05 2016-09-09 Univ Amsterdam Deep receptive field networks.
JP6561877B2 (ja) * 2016-03-01 2019-08-21 株式会社デンソー 演算処理装置
RU2016138608A (ru) * 2016-09-29 2018-03-30 Мэджик Лип, Инк. Нейронная сеть для сегментации изображения глаза и оценки качества изображения
CN116823593A (zh) * 2016-10-21 2023-09-29 谷歌有限责任公司 风格化输入图像
CN107247949B (zh) * 2017-08-02 2020-06-19 智慧眼科技股份有限公司 基于深度学习的人脸识别方法、装置和电子设备
WO2019057944A1 (en) * 2017-09-22 2019-03-28 F. Hoffmann-La Roche Ag ELIMINATION OF ARTIFACTS FROM IMAGES OF FABRIC
CN107657281A (zh) * 2017-09-28 2018-02-02 辽宁工程技术大学 一种基于改进的卷积神经网络的图像识别方法
CN107862374B (zh) * 2017-10-30 2020-07-31 中国科学院计算技术研究所 基于流水线的神经网络处理系统和处理方法
CN107909016B (zh) * 2017-11-03 2020-09-01 车智互联(北京)科技有限公司 一种卷积神经网络生成方法及车系识别方法
CN107767343B (zh) * 2017-11-09 2021-08-31 京东方科技集团股份有限公司 图像处理方法、处理装置和处理设备
US10643063B2 (en) * 2018-04-09 2020-05-05 Qualcomm Incorporated Feature matching with a subspace spanned by multiple representative feature vectors
CN108875787B (zh) * 2018-05-23 2020-07-14 北京市商汤科技开发有限公司 一种图像识别方法及装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN108875787A (zh) 2018-11-23
US20210034913A1 (en) 2021-02-04
JP2021509994A (ja) 2021-04-08
WO2019223397A1 (zh) 2019-11-28
CN108875787B (zh) 2020-07-14
US11080569B2 (en) 2021-08-03
SG11202009173YA (en) 2020-10-29

Similar Documents

Publication Publication Date Title
JP6930039B2 (ja) 画像処理方法、装置、コンピュータ装置及びコンピュータ記憶媒体
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
US20230041233A1 (en) Image recognition method and apparatus, computing device, and computer-readable storage medium
CN110765860B (zh) 摔倒判定方法、装置、计算机设备及存储介质
US20190303720A1 (en) Systems and methods for feature transformation, correction and regeneration for robust sensing, transmission, computer vision, recognition and classification
CN109492627B (zh) 一种基于全卷积网络的深度模型的场景文本擦除方法
US9344690B2 (en) Image demosaicing
US20190362171A1 (en) Living body detection method, electronic device and computer readable medium
Gómez-Ríos et al. Coral species identification with texture or structure images using a two-level classifier based on Convolutional Neural Networks
CN109829391B (zh) 基于级联卷积网络和对抗学习的显著性目标检测方法
Zhao et al. Scale-aware crowd counting via depth-embedded convolutional neural networks
CN110414593B (zh) 图像处理方法及装置、处理器、电子设备及存储介质
US20220198711A1 (en) Learned forensic source system for identification of image capture device models and forensic similarity of digital images
CN108351962A (zh) 具有自适应性通道特征的对象检测
CN113553954A (zh) 行为识别模型的训练方法及装置、设备、介质和程序产品
CN110796177B (zh) 一种有效减少图像分类任务中神经网络过拟合的方法
CN111062019A (zh) 用户攻击检测方法、装置、电子设备
CN112818774A (zh) 一种活体检测方法及装置
CN115936961B (zh) 基于少样本对比学习网络的隐写分析方法、设备及介质
WO2022067653A1 (zh) 图像处理方法及装置、设备、视频处理方法及存储介质
CN114912540A (zh) 迁移学习方法、装置、设备及存储介质
Zhu et al. Multiscale residual gradient attention for face anti-spoofing
CN107545548B (zh) 基于受限玻尔兹曼机的置换混叠图像盲分离方法及系统
CN111860212A (zh) 人脸图像的超分方法、装置、设备及存储介质
Singh et al. MRN-LOD: Multi-exposure Refinement Network for Low-light Object Detection

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200911

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200911

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200911

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210419

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210707

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20210715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210811

R150 Certificate of patent or registration of utility model

Ref document number: 6930039

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250