JP2021526678A - 画像処理方法、装置、電子装置及び記憶媒体 - Google Patents

画像処理方法、装置、電子装置及び記憶媒体 Download PDF

Info

Publication number
JP2021526678A
JP2021526678A JP2020563944A JP2020563944A JP2021526678A JP 2021526678 A JP2021526678 A JP 2021526678A JP 2020563944 A JP2020563944 A JP 2020563944A JP 2020563944 A JP2020563944 A JP 2020563944A JP 2021526678 A JP2021526678 A JP 2021526678A
Authority
JP
Japan
Prior art keywords
processing method
neural network
whitening
image data
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020563944A
Other languages
English (en)
Inventor
パン,シンガン
ルオ,ピン
シー,ジャンピン
タン,シャオオウ
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント シーオー.,エルティーディー
ベイジン センスタイム テクノロジー デベロップメント シーオー.,エルティーディー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント シーオー.,エルティーディー, ベイジン センスタイム テクノロジー デベロップメント シーオー.,エルティーディー filed Critical ベイジン センスタイム テクノロジー デベロップメント シーオー.,エルティーディー
Publication of JP2021526678A publication Critical patent/JP2021526678A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本出願の実施形態は、画像処理方法、装置、電子装置及び記憶媒体を開示する。画像処理方法は、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定するステップと、その中において、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定するステップと、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行するステップと、を含み、画像処理における適応的ホワイトニング操作を実現し、画像処理効果を向上させることができる。【選択図】図1

Description

本出願は、中国特許庁に提出された中国特許出願の優先権を主張し、出願日は2019年3月30日であり、出願番号はCN201910253934.9であり、発明の名称は「画像処理方法、装置、電子装置及び記憶媒体」でり、且つ参照のためそれらの全文を本出願に組み込む。
本発明は、コンピュータービジョン技術分野に関し、特に、画像処理方法、装置、電子装置及び記憶媒体に関する。
畳み込みニューラルネットワーク(Convolutional Neural Networks,CNN)は、コンピュータービジョン分野の主流の方法になっている。異なるコンピュータービジョンタスクについて、研究者たちは異なる標準化(normalization)及びホワイトニング(whitening)方法を開発した。画像の標準化は、平均値を取り除くことによりデータの集中化を実現する処理方式であり、凸最適化理論とデータ確率分布の知識によれば、データの集中化はデータ分布の法則に符合し、トレーニング後の汎化効果をさらに取得し易く、データの標準化はデータ前処理の一般的な方法の1つである。ホワイトニングの目的は、入力データの冗長な情報を削除することである。
コンピュータービジョンタスクにおいて、標準化及びホワイトニングの応用は非常に重要である。現在、画像処理に用いられるさまざまな標準化及びホワイトニングの方法は、それぞれ長所と短所があり、画像処理効果は全面ではなく、畳み込みニューラルネットワークモデルを設計する空間と難易度はさらに高くなる。
本出願の実施形態は、画像処理方法、装置、電子装置及び記憶媒体を提供し、画像登録(Image registration)の精度とリアルタイムを向上させることができる。
第一態様において、本出願の実施形態は画像処理方法を提供する。画像処理方法は、
処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定するステップと、その中において、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、
各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定するステップと、
少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行するステップと、
を含む。
1つの選択的な実施形態において、第一特徴パラメータは平均値ベクトルであり、第二特徴パラメータは共分散行列(covariance matrix)である。
1つの選択的な実施形態において、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行するステップは、ニューラルネットワークによって実行され、
予め設定された処理方法セットにおける1つの処理方法の第一特徴パラメータの重み係数は、以下の方法によって確定される:予め設定された処理方法セットにおけるこの処理方法の第一特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第一制御パラメータの値を利用して正規化された指数関数(normalized exponential function)に基づいて確定され、
予め設定された処理方法セットにおける1つの処理方法の第二特徴パラメータの重み係数は、以下の方法によって確定される:この処理方法の第二特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第二制御パラメータの値を利用して正規化された指数関数に基づいて確定される。
1つの選択的な実施形態において、予め設定された処理方法セットの各処理方法の第一制御パラメータ及び第二制御パラメータは、次の手順で獲得される:
ニューラルネットワークモデルの逆伝播法に基づいて、トレーニングしようとするニューラルネットワークの損失関数を最小化することにより、トレーニングしようとするニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータに対して共同最適化を実行し;
トレーニングしようとするニューラルネットワークの損失関数が最小になる時の各第一制御パラメータの値をトレーニングされたニューラルネットワークの各第一制御パラメーターの値とし;
トレーニングしようとするニューラルネットワークの損失関数が最小になる時の各第二制御パラメータの値をトレーニングされたニューラルネットワークの各第二制御パラメーターの値とする。
1つの選択的な実施形態において、ニューラルネットワークモデルの逆伝播法に基づいて、トレーニングしようとするニューラルネットワークの損失関数を最小化することにより、トレーニングしようとするニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータに対して共同最適化を実行することは、
トレーニングしようとするニューラルネットワークは、予め設定された処理方法セットの各処理方法の第一特徴パラメータの加重平均及び各処理方法の第二特徴パラメータの加重平均に基づいて、トレーニング用の画像データに対してホワイトニング処理を実行し、且つ予測結果を出力することと、その中において、予め設定された処理方法セットの第一処理方法の第一制御パラメータの初期値は第一プリセット値であり、予め設定された処理方法セットの第一処理方法の第二制御パラメータの初期値は第二プリセット値であり、
トレーニングしようとするニューラルネットワークから出力された予測結果及びトレーニング用の画像データの注釈結果に基づいて、ニューラルネットワークの損失関数を確定することと、
トレーニングしようとするニューラルネットワークの損失関数に基づいて、トレーニングしようとするニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータを調整することと、
を含む。
1つの選択的な実施形態において、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行することは、
少なくとも2つの第一特徴パラメータの加重平均、少なくとも2つの第二特徴パラメータの加重平均及び処理しようとする画像データのチャネル数、高さ及び幅に基づいて、処理しようとする画像データの中の各画像データに対してホワイトニング処理を実行することを含む。
1つの選択的な実施形態において、標準化方法は、バッチ標準化方法、インスタンス標準化方法、レイヤ標準化方法の中の少なくとも1つを含む。
1つの選択的な実施形態において、ホワイトニング方法は、バッチホワイトニング方法、インスタンスホワイトニング方法の中の少なくとも1つを含む。
第二態様において、本出願の実施形態は画像処理装置を提供する。画像処理装置は、確定モジュールと、重み付けモジュールと、ホワイトニング処理モジュールと、を含み、
確定モジュールは、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定するために用いられ、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、
重み付けモジュールは、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定するために用いられ、
ホワイトニング処理モジュールは、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行するために用いられる。
1つの選択的な実施形態において、第一特徴パラメータは平均値ベクトルであり、第二特徴パラメータは共分散行列である。
1つの選択的な実施形態において、ホワイトニング処理モジュールの機能はニューラルネットワークによって実行され、
予め設定された処理方法セットにおける1つの処理方法の第一特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第一制御パラメータの値を利用して正規化された指数関数(normalized exponential function)に基づいて確定され、
この処理方法の第二特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第二制御パラメータの値を利用して正規化された指数関数に基づいて確定される。
1つの選択的な実施形態において、第二態様において、本出願の実施形態に係わる画像処理装置はトレーニングモジュールをさらに含み、第一制御パラメータ及び第二制御パラメータはトレーニングモジュールがニューラルネットワークをトレーニングする時に獲得する。トレーニングモジュールは、
ニューラルネットワークモデルの逆伝播法に基づいて、ニューラルネットワークの損失関数を最小化することにより、第一制御パラメータ、第二制御パラメータ及びニューラルネットワークのネットワークパラメータに対して共同最適化を実行し、
ニューラルネットワークの損失関数が最小になる時の第一制御パラメータの値をニューラルネットワークの第一制御パラメーターの値とし、
ニューラルネットワークの損失関数が最小になる時の第二制御パラメータの値をニューラルネットワークの第二制御パラメーターの値とするために用いられる。
1つの選択的な実施形態において、トレーニングモジュールは、具体的に、
トレーニングしようとするニューラルネットワークに予め設定された処理方法セットの各処理方法の第一特徴パラメータの加重平均及び各処理方法の第二特徴パラメータの加重平均に基づいて、トレーニング用の画像データに対してホワイトニング処理を実行し、且つ予測結果を出力し、その中において、予め設定された処理方法セットの第一処理方法の第一制御パラメータの初期値は第一プリセット値であり、予め設定された処理方法セットの第一処理方法の第二制御パラメータの初期値は第二プリセット値であり、
トレーニングしようとするニューラルネットワークから出力された予測結果及びトレーニング用の画像データの注釈結果に基づいて、ニューラルネットワークの損失関数を確定し、
トレーニングしようとするニューラルネットワークの損失関数に基づいて、トレーニングしようとするニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータを調整するために用いられる。
1つの選択的な実施形態において、ホワイトニング処理モジュールは、具体的に、
少なくとも2つの第一特徴パラメータの加重平均、少なくとも2つの第二特徴パラメータの加重平均及び処理しようとする画像データのチャネル数、高さ及び幅に基づいて、処理しようとする画像データの中の各画像データに対してホワイトニング処理を実行するために用いられる。
1つの選択的な実施形態において、標準化方法は、バッチ標準化方法、インスタンス標準化方法、レイヤ標準化方法の中の少なくとも1つを含む。
1つの選択的な実施形態において、ホワイトニング方法は、バッチホワイトニング方法、インスタンスホワイトニング方法の中の少なくとも1つを含む。
第三態様において、本出願の実施形態は電子装置を提供する。電子装置はプロセッサ及びメモリを含み、メモリは1つ又は複数のプログラムを格納するために用いられ、1つ又は複数のプログラムはプロセッサによって実行されるように構成され、プログラムは本出願の実施形態の第一態様の任意の方法で説明されたステップの一部又は全部を実行させる。
第四態様において、本出願の実施形態はコンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は、電子データ交換用コンピュータプログラムを格納するために用いられ、コンピュータプログラムは、コンピュータに本出願の実施形態の第一態様の任意の方法で説明されたステップの一部又は全部を実行させる。
第五態様において、本出願の実施形態は命令を含むコンピュータプログラム製品を提供し、それがコンピュータ上で実行されるとき、コンピュータに上述した第一態様及びその任意の可能な実現方法を実行させる。
本出願の実施形態は、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定し、その中において、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定し、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行し、単独で使用される一般的な標準化方法及びホワイトニング方法と比較して、各方法の利点を組み合わせて画像処理効果を向上させることができる。
図面は明細書に組み込まれて本明細書の一部を構成し、これらの図面は本開示に符合する実施例を示し、且つ明細書とともに本開示の技術的解決策を説明する。
図1は、本発明の実施形態に係わる画像処理方法のフローチャートである。 図2は、本発明の実施形態に係わる制御パラメータトレーニング方法のフローチャートである。 図3は、本発明の実施形態に係わる異なる標準化層のスタイル変換の可視化図である。 図4は、本発明の実施形態に係わる画像処理装置の構造を示す概略図である。 図5は、本発明の実施形態に係わる電子装置の構造を示す概略図である。
当業者が本発明をよりよく理解できるように、以下、本出願の実施形態の添付図面を参照しながら、本出願の実施形態の技術的方案を明確且つ完全に説明する。明らかに、説明された実施形態は、本発明の実施形態の一部にすぎず、すべての実施形態ではない。創造的な努力なしに本発明の実施形態に基づいて当業者によって得られる他のすべての実施形態は、本発明の保護範囲に含まれる。
本発明の明細書、特許請求の範囲及び図面で使用される用語「第一」、「第二」などは、特定の順序を説明するために用いられなく、異なる対象を区別するために用いられる。用語「含む」、「有する」及びそれらの変形は、非排他的包含を網羅することを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品、又は装置は、リストされたステップ又はユニットに限定されず、選択的に、リストされていない他のステップ又はユニットを含むことができ、又は、選択的に、これらのプロセス、方法、製品、又はデバイスに固有する他のステップ又はユニットを含むことができる。
本明細書で言及される「実施形態」という用語は、実施形態に関連して説明される特定の特徴、構造、又は特性が本発明の少なくとも1つの実施形態に含まれ得ることを意味する。本明細書の各々の場所に現れるこの用語は、必ず同じ実施形態を指すものではなく、他の実施形態と相互に排他的な独立した又は代替実施形態を指すものでもない。本明細書に記載された実施形態は他の実施形態と組み合わせることができることは、当業者によって明示的および暗黙的に理解される。
本出願の実施形態に係わる画像処理装置は、複数の他の端末装置がアクセスすることを可能にすることができる。上述した画像処理装置は、端末装置を含む電子装置であることができる。具体的な実施形態において、上述した端末装置はタッチ敏感表面(例えば、タッチスクリーンディスプレイ及び/又はタッチパネル)を有する携帯電話、ラップトップコンピュータ又はタブレットコンピューターなどのような他のポータブルデバイスを含むが、これらに限定されない。いくつかの実施形態において、上述した装置は携帯通信装置ではなく、タッチ敏感表面(例えば、タッチスクリーンディスプレイ及び/又はタッチパネル)を有するデスクトップコンピュータであることを理解されるべきである。
本出願の実施形態におけるディープラーニングの概念は、人工ニューラルネットワークの研究に由来する。複数の隠れ層を含む多層パーセプトロン(Multilayer Perceptron,MLP)は、一種のディープラーニング構造である。ディープラーニングは、低レベルの特徴を組み合わせてより抽象的な高レベルの表現属性カテゴリ又は特徴を形成することにより、データの分散特性表現を発見する。
ディープラーニングは、機械学習におけるデータの特性化学習に基づく方法である。観測値(1つの画像など)は、さまざまな方法で表すことができ、例えば、各ピクセルの強度値のベクトル、又はより抽象的に一連のエッジ、特定の形状の領域などに表すこともできる。特定の表現方法(例えば、顔認識や表情認識)を使用して、インスタンスからタスクを学習する方が簡単である。ディープラーニングの利点は、非監督式又は半監督式の特徴学習及び階層的特徴抽出の効率的なアルゴリズムを使用して、手動的に特徴を取得することを取り替えることである。ディープラーニングは、機械学習研究の新しい分野であり、その動機は、人間の脳が分析したり学習したりするニューラルネットワークを確立、真似ることであり、人間の脳のメカニズムを模倣して画像、音声、テキストなどのデータを解釈する。
以下、本出願の実施形態に対して詳細に紹介する。
図1を参照すると、図1は本発明の実施形態に係わる画像処理方法のフローチャートである。図1に示されたように、画像処理方法は、上述した画像処理装置によって実行されることができ、以下のステップを含む。
101、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定し、上述した処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、上述した処理しようとする画像データは少なくとも1つの画像データを含む。
画像データの標準化(normalization)は正規化とも呼ばれ、データマイニングの基本的な作業である。異なる評価指標は、しばしば異なる次元(dimension)及び次元単位を有し、このような状況はデータ分析結果に影響する。指標間の次元の影響を排除するために、データ標準化処理を行うことを必要として、データ指標間の比較可能性を解決する。元のデータがデータ標準化処理を行ってから、各指標は同じ数量級にあり、総合的な比較評価に適合する。
画像の最終的なイメージングは、周辺光の強度、オブジェクトの反射、カメラの撮影などの多い要因の影響を受ける。画像に含まれた外界の影響を受けない一定の情報を取得するために、画像に対してホワイトニング処理することを必要があります。
本出願の実施形態で言及されたのホワイトニング(whitening)は、露出オーバー又は露出不足の画像を処理するために用いられることができる。一般的に、これらの要因の影響を取り除くために、処理方法は一般的に画像の平均画素値を0に変更し、画像の分散(Variance)を単位分散1に変更し、具体的に平均値ベクトル及び共分散行列によって実現することができ、即ちピクセル値をゼロ平均値と単位分散に変換する。
異なるコンピュータービジョンタスクに対して、研究者たちは異なる標準化方法及びホワイトニング(whitening)方法を開発した。例えば、バッチ標準化(batch normalization)及びバッチホワイトニング(batch whitening)は画像分類、物体検出などの任務に応用され、インスタンス標準化(instance normalization)及びインスタンスホワイトニング(instance whitening)は画像スタイルの変換と画像生成に応用され、レイヤー標準化(layer normalization)はリカレントニューラルネットワークに応用される。
便利に説明するために、本出願の実施形態におけるバッチホワイトニング、インスタンスホワイトニング、バッチ標準化、インスタンス標準化及びレイヤー標準化は、それぞれbw、iw、bn、in及びlnと略称される。
本出願の実施形態において、上述した処理方法セットを予め設定することができ、処理方法セットに含まれるホワイトニング方法及び標準化方法は、処理しようとする画像データに基づいて、上述した処理方法セットを選択・設定することができ、例えば、バッチ標準化、バッチホワイトニング、インスタンス標準化、インスタンスホワイトニング及びレイヤー標準化を含むことができ、それらの一部のみを含むこともできるが、ホワイトニング方法及び標準化方法の中の少なくとも二種の方法を含むことを必要とする。
先ず、処理しようとする画像データ及び予め設定された処理方法セットの各処理方法に基づいて各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定し、即ち加重平均に用いられる特徴パラメータを獲得する。
本出願の実施形態のステップは、トレーニングされた畳み込みニューラルネットワークに基づいて実現することができる。畳み込みニューラルネットワーク(Convolutional Neural Networks,CNN)は、畳み込み計算を含み且つディープ構造(deep structure)を有するフィードフォワードニューラルネットワーク(Feedforward Neural Networks)の一種であり、ディープラーニング(deep learning)の代表的なアルゴリズムの一種であうる。
ステップ101において、各処理方法の計算式に基づいて、各処理方法の第一特徴パラメータ及び第二特徴パラメータを獲得することができる。ここで、処理方法セットには少なくとも2つの処理方法が含まれているので、獲得した第一特徴パラメータ及び第二特徴パラメータはいずれも少なくとも2つである。画像のホワイトニング又は画像の標準化に対して、出力される第一特徴パラメータは平均値ベクトルであることができ、第二特徴パラメータは共分散行列であることができる。即ち、画像処理装置は、処理しようとする画像データの少なくとも2つの平均値ベクトルと少なくとも2つの共分散行列を得ることができ、2つのパラメータは、画像データ及び予め設定された処理方法に基づいて計算して獲得される。
平均値ベクトルの加重平均は
Figure 2021526678
であり、その中において、Ωは処理方法セットであり、ωは第一重み係数であり、μは処理方法セットの各処理方法の平均値ベクトルであり、
共分散行列の加重平均は
Figure 2021526678
であり、その中において、Ωは処理方法セットであり、ω′は第二重み係数であり、Σは共分散行列である。
1つの選択的な実施形態において、予め設定された処理方法セットはバッチホワイトニング処理を含むことができ、バッチホワイトニング処理の第一特徴パラメータ及び第二特徴パラメータの計算式は、
Figure 2021526678
Figure 2021526678
を含み、
その中において、μbwはこの方法の第一特徴パラメータ(平均値ベクトル)であり、Σbwはこの方法の第二特徴パラメータ(共分散行列)であり、Xは処理しようとする画像データの中のバッチ画像データであり、
Figure 2021526678
、Nは画像データの数量であり、1は要素がすべて1である列ベクトルであり、Iは単位行列であり、単位行列の対角要素は1であり、残りは0であり、εは正数である。
具体的には、εは小さな正数であることができ、特異な共分散行列が出現することを防止するために用いられる。バッチホワイトニングとは、バッチデータをホワイトニングすることであり、即ち、
Figure 2021526678
である。
1つの選択的な実施形態において、上述した処理方法はインスタンスホワイトニング処理を含むことができ、インスタンスホワイトニング処理の第一特徴パラメータ及び第二特徴パラメータの計算式は、
Figure 2021526678
Figure 2021526678
を含み、
その中において、μiwはこの方法の第一特徴パラメータ(平均値ベクトル)であり、Σiwはこの方法の第二特徴パラメータ(共分散行列)であり、1は要素がすべて1である列ベクトルであり、Iは単位行列であり、εは正数である。
具体的には、インスタンスホワイトニングは、単一の画像データをホワイトニングすることであり、即ち、
Figure 2021526678
である。
バッチ標準化は、バッチ正規化とも呼ばれ、人工ニューラルネットワークの性能と安定性を向上させるために用いられる技術である。これは、ニューラルネットワークの任意の層にゼロ平均値/単位分散入力を提供する技術である。バッチ標準化は、センター(center)及びスケール(scale)の操作によって、バッチデータ全体の平均値と分散をそれぞれ0と1にする。従って、平均値はバッチホワイトニングと同じであり、即ち、μbn=μbwである。なお、バッチ標準化はホワイトニングなしにデータの分散で除算すればよく、共分散行列は対角要素のみを保留すればよく、即ち、
Figure 2021526678
であり、その中において、diag()は対角要素を保留し、 非対角要素を0に設定する。
同様に、インスタンス標準化は単一の画像データを処理し、μin=μiw
Figure 2021526678
である。
レイヤー標準化は、単一の画像データの全てのチャネルの平均値と分散を使用して標準化し、μlnとσlnを平均値と分散とすると、μln=μln1、Σln=σlnIである。
第一特徴パラメータ及び第二特徴パラメータを獲得した後、ステップ102を実行することができる。
102、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定する。
本出願の実施形態において、画像処理装置は上述した重み係数を記憶することができ、少なくとも2つの第一特徴パラメータ及び少なくとも2つの第二特徴パラメータを獲得してから、各第一特徴パラメータの重み係数に基づいて少なくとも2つの第一特徴パラメータの加重平均を確定し、各第二特徴パラメータの重み係数に基づいて少なくとも2つの第二特徴パラメータの加重平均を確定する。
1つの選択的な実施形態において、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行するステップは、ニューラルネットワークによって実行される。重み係数とは、数学において、合計における特定の数量の重要性を示すために、それぞれ異なる比例係数が与えられることを意味する。
1つの選択的な実施形態において、予め設定された処理方法セットにおける1つの処理方法の第一特徴パラメータの重み係数は、以下の方法によって確定される:
予め設定された処理方法セットにおけるこの処理方法の第一特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第一制御パラメータの値を利用して正規化された指数関数(normalized exponential function)に基づいて確定される。
1つの選択的な実施形態において、予め設定された処理方法セットにおける1つの処理方法の第二特徴パラメータの重み係数は、以下の方法によって確定される:
この処理方法の第二特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第二制御パラメータの値を利用して正規化された指数関数に基づいて確定される。
その中において、予め設定された処理方法セットの各処理方法の第一制御パラメータ及び第二制御パラメータは、ニューラルネットワークの各々の第一制御パラメータ及び第二制御パラメータである。
具体的には、正規化された指数関数(Softmax関数)に基づいて正規化変換を実行することができ、Softmax関数は、実際には有限アイテムの離散確率分布の勾配対数正規化である。本出願の実施形態において、制御パラメータは、本質的に、異なる処理方法によって計算された統計量(平均値ベクトル又は共分散行列)が占める割合である。
選択的には、上述した第一制御パラメータ及び第二制御パラメータは、ニューラルネットワークの確率的勾配降下(stochastic gradient descent,SGD)アルゴリズム及び/又は逆伝播(Back propagation,BP)アルゴリズムに基づいて学習して獲得することができる。
逆伝播アルゴリズムは、多層ニューラルネットワークに適合する学習アルゴリズムであり、勾配降下法に基づく。逆伝播アルゴリズムは、入力に対するネットワークの応答が所定のターゲット範囲に達するまで、2つの段階(インセンティブ伝播、重み更新)が反復ループ(Iterative loop)する。BPアルゴリズムの学習過程は、順方向伝播過程と逆方向伝播過程で構成される。順方向伝播過程において、出力層が期待する出力値を得られない場合、出力と期待誤差の二乗の合計を取って目的関数としてから、逆伝播に変換され、各ニューロンの重みに対する目的関数の偏微分(Partial derivative)を層ごとに計算し、重みベクトルに対する目的関数の勾配を構成し、重みを変更するための基礎として、重みの変更プロセスでネットワークの学習が完了し、誤差が期待値に達すると、ネットワークの学習が終了する。
上述した加重平均を取得した後、ステップ103を実行することができる。
103、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行する。
ホワイトニング処理は、処理方法セットの各処理方法の平均値ベクトルの加重平均及び各処理方法の共分散行列の加重平均を計算することにより、加重平均後に得られる平均値ベクトルと共分散行列をホワイトニング処理のパラメータとして、処理しようとする画像データをホワイトニングすることであると理解されることができ、従って異なる処理方法の組み合わせを実現し、ニューラルネットワークをトレーニングすることにより、各方法の重み(上記の重み係数)を得ることができる。
なお、処理しようとする画像データに1つ以上の画像データが含まれ、予め設定された処理方法セットに異なる処理方法が含まれる場合、異なる画像データの処理方法も異なる場合がある。例えば、予め設定された処理方法セットにバッチホワイトニング方法とバッチ標準化方法が含まれる場合、各小バッチの画像データの平均値ベクトルの加重平均は同じであり、各小バッチの画像データの共分散行列の加重平均は同じであり、処理しようとする画像データに対してホワイトニング処理を行うことは、バッチホワイトニング方法と類似な方法で各小バッチの画像データを処理することであると理解することができる。予め設定された処理方法セットにバッチホワイトニング方法とインスタンスホワイトニング方法が含まれる場合、各画像データの平均値ベクトルの加重平均は異なり、各画像データの共分散行列の加重平均も異なり、処理しようとする画像データに対してホワイトニング処理を行うことは、インスタンスホワイトニング方法と類似な方法で単一の画像データを処理することであると理解することができる。
1つの選択的な実施形態において、少なくとも2つの第一特徴パラメータの加重平均、少なくとも2つの第二特徴パラメータの加重平均及び処理しようとする画像データのチャネル数、高さ及び幅に基づいて、処理しようとする画像データの中の各画像データに対してホワイトニング処理を実行することができる。
畳み込みニューラルネットワークにおいて、データは通常4次元で保存され、
Figure 2021526678
はバッチ画像データであり、N、C、H、Wはそれぞれ画像データ数、チャネル数、高さ、幅を表す。便利に説明するために、N、H、Wの3次元は、ここの説明では1次元と見なされる。
Figure 2021526678
はバッチ画像データの中のn番目の画像データ(トレーニングプロセスはサンプルデータとして理解できる)であり、この画像データに対するホワイトニング操作は次のように表すことができ、
Figure 2021526678
μとΣは、画像データから計算された平均値ベクトルと共分散行列である。1は要素がすべて1である列ベクトルであり、異なるホワイトニング方法と標準化方法は、異なるセットを使用してμとΣを計算することができる。例えば、バッチホワイトニングとバッチ標準化に対して、各バッチ画像データを使用してμとΣを計算し、レイヤー標準化、インスタンス標準化及びインスタンスのホワイトニングに対して、各画像データを使用してμとΣを計算する。
さらに、上述したSW(X)の中の共分散行列の負の平方根は、零位相成分分析(Zero-phase Component Analysis,ZCA)又は主成分分析(principal component analysis,PCA)ホワイトニングによって取得することができる。好ましくは、ZCAホワイトニングによって取得し、即ち:
Figure 2021526678
であり、
その中において、Λ=diag(σ,…,σ)及びD=[d,…,d]はΣの特徴値と特徴ベクトルであり、即ち、Σ=DΛDΓであり、これは、特徴分解(Eigen decomposition)によって取得することができる。
上記の特徴分解はスペクトル分解(Spectral decomposition)とも呼ばれる。これは、行列をその特徴値と特徴ベクトルで表される行列の積に分解する方法である。
具体的には、PCAホワイトニングはデータの各次元の分散が1であることを保証し、ZCAホワイトニングはデータの各次元の分散が同じであることを保証する。PCAホワイトニングは次元削減又は相関性除去に使用できるが、ZCAホワイトニングは主に相関性除去に使用され、ホワイトニングされたデータができるかぎり元の入力データに近くなることにする。
ステップ102で得られたものは、最終的なホワイトニング処理に使用されるターゲット平均値ベクトルとターゲット共分散行列であり、各画像データに対応する異なるホワイトニング方法と標準化方法の特徴パラメータは加重平均計算によって獲得し、次に、ターゲット平均値ベクトルとターゲット共分散行列に基づいて、ホワイトニング処理を実現することができる。
具体的には、処理しようとする画像データをホワイトニングする式は次のとおりである:
Figure 2021526678

は処理しようとする画像データの中のn番目の画像データであり、
Figure 2021526678
であり、その中において、
Figure 2021526678
は加重平均計算後に得られる平均値ベクトルであり、
Figure 2021526678
は加重平均計算後に得られる共分散行列であり、C、H、Wは、それぞれ画像データのチャンネル数、高さ、幅である。
1つのアプリケーションシナリオでは、予め設定された処理方法セットにバッチホワイトニング方法とバッチ標準化方法が含まれ、処理しようとする画像データは1つ以上の画像データを含む場合、各小バッチの画像データの平均値ベクトルの加重平均
Figure 2021526678
は同じであり、異なるバッチの画像データの平均値ベクトルの加重平均
Figure 2021526678
は異なり、各小バッチの画像データの共分散行列の加重平均
Figure 2021526678
は同じであり、異なるバッチの画像データの共分散行列の加重平均
Figure 2021526678
は異なり、処理しようとする画像データに対してホワイトニング処理を行うことは、各小バッチの画像データの平均値ベクトルの加重平均
Figure 2021526678
と共分散行列の加重平均
Figure 2021526678
をそれぞれバッチホワイトニング方法の平均値ベクトルと共分散行列として、バッチホワイトニング方法でこのバッチの画像データを処理することであると理解することができる。
別のアプリケーションシナリオでは、予め設定された処理方法セットにバッチホワイトニング方法とバッチ標準化方法の中の少なくとも1つ及びレイヤー標準化方法、インスタンス標準化方法、インスタンスホワイトニング方法の中の少なくとも1つが含まれる場合、各画像データの平均値ベクトルの加重平均
Figure 2021526678
は異なり、各画像データの共分散行列の加重平均
Figure 2021526678
も異なり、処理しようとする画像データに対してホワイトニング処理を行うことは、各画像データの平均値ベクトルの加重平均
Figure 2021526678
と共分散行列の加重平均
Figure 2021526678
をそれぞれインスタンスホワイトニング方法の平均値ベクトルと共分散行列として、インスタンスホワイトニング方法でこの画像データを処理することであると理解することができる。
1つの選択的な実施形態において、処理しようとする画像データは、様々な端末装置で収集した画像データを含み、例えば、自動運転でカメラによって収集された顔画像データ、監視システムで収集された監視画像データ、知能ビデオ分析中に分析されるビデオ画像データ、顔認識製品で収集された顔画像データなどである。具体的には、モバイル端末で美化しようとする写真に対して、上述した方法はモバイル端末にインストールされている美容アプリケーションに応用することができ、画像処理の精度を向上させ、例えば、画像分類、セマンティックセグメンテーション、画像スタイル変換などの方面の性能がさらに優れるようにする。
現在、標準化方法とホワイトニング方法は通常別々に使用されているので、各方法の長所を組み合わせることは困難である。さらに、さまざまな標準化方法とホワイトニング方法は、モデル設計のスペースと難易度を増加する。
本出願の実施形態に係わる画像処理方法は、異なる標準化方法とホワイトニング方法を1つのレイヤーに組み合わせることができ、例えば、バッチ標準化、バッチホワイトニング、インスタンス標準化、インスタンスホワイトニング、レイヤー標準化などの方法を含み、さまざまな標準化とホワイトニング操作の比率を適応的に学習することができ、畳み込みニューラルネットワークとともにエンドツーエンドのトレーニングを実現することができる。
本出願の実施形態において、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定し、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定し、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行し、画像処理過程で様々な処理方法(標準化及び/又はホワイトニング)を組み合わせた操作を実現し、画像処理効果を向上させることができる。
選択的に、103はニューラルネットワークによって実行され、このとき、予め設定された処理方法セットにおける1つの処理方法の第一特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第一制御パラメータの値を利用して正規化された指数関数に基づいて確定され;予め設定された処理方法セットにおける1つの処理方法の第二特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第二制御パラメータの値を利用して正規化された指数関数に基づいて確定される。
1つの選択的な実施形態において、1つの処理方法の第一特徴パラメータの重み係数ωの計算式は以下のとおりであり、
Figure 2021526678

その中において、λは第一制御パラメータであり、Ωは処理方法セットであり、例えば、Ω={bw,iw,bn,in,ln}である。
類似的に、1つの処理方法の第一特徴パラメータの重み係数ω′の計算式は、以下のとおりであり、
Figure 2021526678

その中において、λ′は第二制御パラメータであり、Ωは処理方法セットである。
選択的に、予め設定された処理方法セットの各処理方法の第一制御パラメータ及び第二制御パラメータ(ニューラルネットワークの各々の第一制御パラメータ及び第二制御パラメータである)は、図2に示された方法で獲得する。
201、ニューラルネットワークモデルの逆伝播法に基づいて、トレーニングしようとするニューラルネットワークの損失関数を最小化することにより、トレーニングしようとするニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータに対して共同最適化を実行する。
本出願の実施形態において、制御パラメータは、本質的に、異なる処理方法によって計算された統計量(平均値ベクトル又は共分散行列)が占める割合である。選択的には、制御パラメータは、ニューラルネットワークのトレーニングプロセスにおいて、畳み込みニューラルネットワークの確率的勾配降下(stochastic gradient descent,SGD)アルゴリズム及び逆伝播(Backpropagation,BP)アルゴリズムに基づいて学習して獲得することができる。
ニューラルネットワークのトレーニングプロセスは次のとおりである:
トレーニングしようとするニューラルネットワークは、予め設定された処理方法セットの各処理方法の第一特徴パラメータの加重平均及び各処理方法の第二特徴パラメータの加重平均に基づいて、トレーニング用の画像データに対してホワイトニング処理を実行し、且つ予測結果を出力し、
トレーニングしようとするニューラルネットワークから出力された予測結果及びトレーニング用の画像データの注釈結果に基づいて、ニューラルネットワークの損失関数を確定し、
トレーニングしようとするニューラルネットワークの損失関数に基づいて、トレーニングしようとするニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータを調整する。
その中において、予め設定された処理方法セットの第一処理方法の第一制御パラメータの初期値は第一プリセット値であり、予め設定された処理方法セットの第一処理方法の第二制御パラメータの初期値は第二プリセット値である。具体的には、畳み込みニューラルネットワークがトレーニングを開始する前に、第一制御パラメーターの初期値と第二制御パラメーターの初期値を予め設定することができ、例えば、第一プリセット値と第二プリセット値は両方とも1である。ニューラルネットワークがトレーニングを開始する時、第一処理方法の第一制御パラメータの初期値に基づいて、第一処理方法の第一特徴パラメータの重み係数を計算することができ、第一処理方法の第二制御パラメータの初期値に基づいて、第一処理方法の第二特徴パラメータの重み係数を計算することができ、従って、トレーニングの開始時に各処理方法の第一特徴パラメータの加重平均及び各処理方法の第二特徴パラメータの加重平均を計算することができ、さらにニューラルネットワークのトレーニングを開始する。その中において、第一処理方法は、予め設定された処理方法セットの中の任意の1つの処理方法であることができる。
ニューラルネットワークのトレーニングプロセスにおいて、ニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータは、損失関数を利用して、確率的勾配降下アルゴリズムと逆伝播アルゴリズムによって絶えずに更新され、損失関数が最小になるまで、上述したトレーニングプロセスを繰り返すことにより、ニューラルネットワークのトレーニングを完成する。
202、トレーニングしようとするニューラルネットワークの損失関数が最小になる時の各第一制御パラメータの値をトレーニングされたニューラルネットワークの各第一制御パラメーターの値とし;トレーニングしようとするニューラルネットワークの損失関数が最小になる時の各第二制御パラメータの値をトレーニングされたニューラルネットワークの各第二制御パラメーターの値とする。
トレーニングしようとするニューラルネットワークの損失関数に応じて上記のパラメータを調整し、損失関数が最小になるとき、ニューラルネットワークトレーニングを完了する。トレーニングが完了すると、ニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータを学習・獲得し、テスト又は実際の画像処理応用では、これらのパラメーターは固定されて変化しない。具体的には、ニューラルネットワークトレーニングはフォワード計算と逆方向伝播計算が必要であり、テスト又は実際の画像処理応用ではただフォワード計算することを必要として、画像を入力すると処理結果を得ることができる。
1つの選択的な実施形態において、ニューラルネットワークは、訓練用の画像データと注釈付き結果でトレーニングすることができる。次に、トレーニングされたニューラルネットワークで収集された画像データを処理して、画像内のオブジェクトを識別する。具体的には、異なる標準化方法とホワイトニング方法を統一することができ、畳み込みニューラルネットワークが特定の任務に応じてさまざまな標準化とホワイトニング操作の比率を適応的に学習することにして、各方法の利点を組み合わせることができ、標準化とホワイトニング操作の自動選択が可能になる。
アプリケーションでは、豊富な統計データに基づいて、ソフトウェアは高レベルの視覚タスクだけでなく、画像スタイルの変換などの低レベルの視覚タスクでも機能できる。
図3を参照すると、図3は本発明の実施形態に係わる異なる標準化層のスタイル変換の可視化図である。その中において、人気のあるスタイル変換アルゴリズムを採用して処理しようとする画像に対してスタイル変換を行う。損失ネットワークによって計算されたコンテンツ損失とスタイル損失でトレーニングされた画像様式化ネットワークがあり、異なる画像標準化方法とホワイトニング方法で処理することができる。MS−COCOデータセットを画像に使用し、選択した処理しようとする画像の画像スタイルはキャンドルライトとスターライトナイトであり、上述したスタイル変換アルゴリズムと同じトレーニング方法に従い、画像スタイルネットワークに異なる標準化レイヤー(バッチ標準化、インスタンスホワイトニング及び本出願の実施形態に係わる画像処理方法)を採用し、即ち、図3の2行目の画像は、異なる処理方法で処理した後の効果図であり、1行目の画像は、同時にスタイル変換を行った後の効果図である。
具体的には、図3に示されたように、バッチ標準化によって生成された画像効果は悪く、インスタンスホワイトニングによって生成された画像効果は比較的良好である。インスタンスホワイトニングと比較すると、本実施形態に係わる画像処理方法は、その処理方法セットにバッチ標準化及びインスタンスホワイトニングが含まれ、両者の比率はニューラルネットワーク学習によって確定され、その画像処理効果が最も良い。本実施形態に係わる画像処理方法は、任務に応じて適切な処理方法を選択して画像を処理することができる。
一般的に、標準化方法とホワイトニングの方法は通常別々に使用され、各方法の長所を組み合わせることは困難である。さらに、さまざまな標準化方法とホワイトニング方法は、ニューラルネットワークモデル設計のスペースと難易度を増加する。特定の標準化方法又はホワイトニング方法のみを使用する畳み込みニューラルネットワークと比較すると、本出願の画像処理はさまざまな標準化とホワイトニング操作の比率を適応的に学習することができ、手動設計の必要性を排除し、各方法の長所を組み合わせることができ、さまざまなコンピュータービジョンタスクにおいて、優れる性能を有する。
1つの選択的な実施形態において、処理しようとする画像データは、様々な端末装置で収集した画像データを含み、例えば、自動運転でカメラによって収集された顔画像データ、監視システムで収集された監視画像データ、知能ビデオ分析中に分析されるビデオ画像データ、顔認識製品で収集された顔画像データなどである。具体的には、モバイル端末で美化しようとする写真に対して、上述した方法はモバイル端末にインストールされている美容アプリケーションに応用することができ、画像処理の精度を向上させ、例えば、画像分類、セマンティックセグメンテーション、画像スタイル変換などの方面の性能がさらに優れるようにする。
実際の応用では、本出願の実施形態に係わる画像処理操作は、畳み込みニューラルネットワークの畳み込みレイヤーに適用でき、畳み込みニューラルネットワークの自己適応型ホワイトニングレイヤー(自己適応型ホワイトニングレイヤーと従来のホワイトニングレイヤーの違いは、自己適応型ホワイトニングレイヤーを有する畳み込みニューラルネットワークは、モデルトレーニング段階でトレーニングデータに基づいてさまざまな標準化及びホワイトニング操作の比率を適応的に学習し、最適な比率を取得できることである)として理解することができ、ネットワークの任意の位置に応用することもできる。
以上は、主に方法実行過程の観点から本出願の実施形態の方案を紹介する。画像処理装置は上述した機能を実現するために、各機能に対応するハードウェア構成及び/又はソフトウェアモジュールを含むことが理解できる。当業者であれば、本明細書の実施形態で説明された各例示のユニット及びアルゴリズムステップを組み合わせて、本発明はハードウェア又はハードウェアとコンピュータソフトウェアの組み合わせの形式で実現できることを容易に理解されるべきである。特定の機能がハードウェアによって実行されるか、それともコンピュータソフトウェアがハードウェアを駆動する方式によって実行されるかは、本技術方案の特定の応用や設計制約条件によって決定される。専門技術者は、特定の応用に応じて異なる方法で記述された機能を実現することができるが、これは本発明の範囲を超えると考えるべきではない。
本出願の実施形態は、上述した方法例に基づいて画像処理装置に対して機能モジュールの分割を実行することができ、例えば、各機能に対応して各機能モジュールを分割することができ、2以上の機能を1つの処理モジュールに統合することもできる。上記の統合モジュールは、ハードウェア又はソフトウェア機能モジュールの形式で実現することができる。本出願の実施形態におけるモジュールの分割は、例示的なものであり、ロジック機能の分割に過ぎず、実際に実現するときに別の分割形態を有してもよいことに留意されたい。
図4を参照すると、図4は本発明の実施形態に係わる画像処理装置の構造を示す概略図である。図4に示されたように、画像処理装置300は、確定モジュール310と、重み付けモジュール320と、ホワイトニング処理モジュール330と、を含み、
確定モジュール310は、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定するために用いられ、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、
重み付けモジュール320は、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定するために用いられ、
ホワイトニング処理モジュール330は、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行するために用いられる。
選択的に、第一特徴パラメータは平均値ベクトルで、第二特徴パラメータは共分散行列である。
選択的に、ホワイトニング処理モジュール330の機能はニューラルネットワークによって実行され、
予め設定された処理方法セットにおける1つの処理方法の第一特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第一制御パラメータの値を利用して正規化された指数関数に基づいて確定され、
この処理方法の第二特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第二制御パラメータの値を利用して正規化された指数関数に基づいて確定される。
選択的に、画像処理装置300はトレーニングモジュール340をさらに含み、第一制御パラメータ及び第二制御パラメータはトレーニングモジュールがニューラルネットワークをトレーニングする時に獲得する。トレーニングモジュール340は、
ニューラルネットワークモデルの逆伝播法に基づいて、ニューラルネットワークの損失関数を最小化することにより、第一制御パラメータ、第二制御パラメータ及びニューラルネットワークのネットワークパラメータに対して共同最適化を実行し、
ニューラルネットワークの損失関数が最小になる時の第一制御パラメータの値をニューラルネットワークの第一制御パラメーターの値とし、
ニューラルネットワークの損失関数が最小になる時の第二制御パラメータの値をニューラルネットワークの第二制御パラメーターの値とするために用いられる。
選択的に、トレーニングモジュール340は、具体的に、
トレーニングしようとするニューラルネットワークに予め設定された処理方法セットの各処理方法の第一特徴パラメータの加重平均及び各処理方法の第二特徴パラメータの加重平均に基づいて、トレーニング用の画像データに対してホワイトニング処理を実行し、且つ予測結果を出力し、その中において、予め設定された処理方法セットの第一処理方法の第一制御パラメータの初期値は第一プリセット値であり、予め設定された処理方法セットの第一処理方法の第二制御パラメータの初期値は第二プリセット値であり、
トレーニングしようとするニューラルネットワークから出力された予測結果及びトレーニング用の画像データの注釈結果に基づいて、ニューラルネットワークの損失関数を確定し、
トレーニングしようとするニューラルネットワークの損失関数に基づいて、トレーニングしようとするニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータを調整するために用いられる。
選択的に、ホワイトニング処理モジュール330は、具体的に、
少なくとも2つの第一特徴パラメータの加重平均、少なくとも2つの第二特徴パラメータの加重平均及び処理しようとする画像データのチャネル数、高さ及び幅に基づいて、処理しようとする画像データの中の各画像データに対してホワイトニング処理を実行するために用いられる。
選択的に、標準化方法は、バッチ標準化方法、インスタンス標準化方法、レイヤ標準化方法の中の少なくとも1つを含む。
選択的に、ホワイトニング方法は、バッチホワイトニング方法、インスタンスホワイトニング方法の中の少なくとも1つを含む。
図4に示された実施形態の画像処理装置300は、図1及び/又は図2に示された実施形態の方法の一部又はすべてを実行することができる。
図4に示された画像処理装置300を実施すると、画像処理装置300は、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定することができ、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定し、それから少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行し、画像処理における適応的ホワイトニング操作を実現し、画像処理効果を向上させることができる。
図5を参照すると、図5は本発明の実施形態に係わる電子装置の構造を示す概略図である。図5に示されたように、電子装置400はプロセッサ401及びメモリ402を含み、その中において、電子装置400はバス403をさらに含むことができ、プロセッサ401とメモリ402はバス403を介して互いに接続することができる。バス403は、周辺機器相互接続(Peripheral Component Interconnect,PCIと略称する)バス又は拡張産業標準アーキテクチャ(Extended Industry Standard Architecture,EISAと略称する)バスなどであることができる。バス403は、アドレスバス、データバス、コントロールバスなどに分けることができる。便利に表示するために、図5ではただ1つ太線を使用して表示しているが、バス又はバスのタイプが1つしかないことを意味するものではない。電子装置400は、さらに入力/出力装置404を含むことができ、入力/出力装置404は、液晶ディスプレイ画面などのディスプレイ画面を含むことができる。メモリ402は、命令を含む1つ又は複数のプログラムを格納するために用いられ、プロセッサ401は、メモリ402に格納された命令を呼び出して、図1及び図2の実施形態で言及された方法ステップの一部又はすべてを実行するために用いられる。上述したプロセッサ401は、図5に示された電子装置400の各モジュールの機能を実現することができる。
電子装置400は、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定することができ、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定し、それから少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行し、画像処理における適応的ホワイトニング操作を実現し、画像処理効果を向上させることができる。
本出願の実施形態は、さらにコンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は、電子データ交換用コンピュータプログラムを格納するために用いられ、コンピュータプログラムは、コンピュータが上述した方法実施形態に記載された任意の画像処理方法のステップの一部又は全部を実行することにする。
簡単に説明するために、上述した各方法実施例はすべて一連の動作組合で記述されているが、当業者であれば、本発明は説明された動作順序に限定されないことを知っているはずである。本発明によれば、特定のステップは他の順序を採用することができ、又は同時に実行することもできる。さらに、当業者であれば、明細書に記載された実施形態はすべて好ましい実施形態であり、関連する動作及びモジュールは本発明にとって必ず必要とするものではないことを知っているはずである。
上述の実施形態では、各実施形態の説明には各自の焦点があり、いくつかの実施形態で詳細に説明されていない部分は、他の実施形態の関連する説明を参照することができる。
本出願によって提供される幾つかの実施形態において、開示される装置は、他の形態により実現され得ると理解されるべきである。例えば、上記に説明された装置実施例は、例示するためのものに過ぎない。例えば、モジュール(又はユニット)の分割は、ロジック機能の分割に過ぎず、実際に実現するときに別の分割形態を有してもよい。例えば、複数のモジュール又は部品を組み合わせ、又は別のシステムに集積し、又は若干の特徴を無視し、又は実行しなくてもよい。さらに、図示又は検討する相互間の結合や直接結合や通信接続は、いくつかのインタフェース、装置、又はモジュールの間接結合や通信接続であってもよいし、電気や他の形態であってもよい。
分離部品として記載されたモジュールは、物理的に分離してもよいし、分離しなくてもよい。モジュールとして表示される部品は、物理的なモジュールであってもよいし、物理的なモジュールではなくておもよい。即ち、一つの箇所に設置してもよいし、複数のネットワークモジュールに設置してもよい。実際の要求に応じて一部又は全部のモジュールを選択して本実施例の技術方案の目的を実現することができる。
また、本発明に係る各実施例の各機能モジュールは、1つの処理モジュールに集積されてもよいし、各モジュールは単独に物理的に存在してもよいし、2つ以上のモジュールは1つのモジュールに集積してもよい。上記の統合モジュールは、ハードウェア又はソフトウェア機能モジュールの形式で実現することができる。
統合されたモジュールは、ソフトウェアの機能ユニットとして実現され、かつ、独立の製品として販売されたり使用されたりする場合、コンピュータ読み取り可能な記録媒体に記憶されてもよい。この理解によれば、本発明の技術方案について、本質的な部分、又は従来技術に貢献できた部分、又は該技術方案の全部又は一部は、ソフトウェア製品として表現され得る。このコンピュータソフトウェア製品は、記憶媒体に記憶されており、1つのコンピュータ(パソコン、サーバー、又はネットワーク機器などであってもよい)に本発明の各実施例に係る方法の全部又は一部の過程を実行するための複数のコマンドが含まれている。前記した記憶媒体は、USB(ユニバーサルシリアルバス)フラッシュディスク、読み取り専用メモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、リムーバブルハードディスク(removable hard disk)、磁気ディスク又は光ディスクなどの各種のプログラムコードを記憶可能な媒体を含むことができる。
当業者であれば、上述した実施形態の各方法の全部又は一部のステップは、関連するハードウェアを命令するプログラムによって達成されてもよく、プログラムはコンピューター可読記憶媒体に格納されることができると理解されるべきである。記憶媒体は、フラッシュメモリ、読み取り専用メモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスク又は光ディスクなどを含むことができる。
以上、本出願の実施形態を詳細に説明し、本明細書では具体的な実施例を使用して本発明の原理及び実施形態を説明する。上記の実施形態の説明は、ただ本発明の方法及び要旨の理解を助けるために用いられる。当業者であれば、本発明の要旨に基づいて、具体的な実施形態及び適用範囲を変更することができ、要約すると、本明細書の内容は本発明を限定するものであると解釈されるべきではない。

本出願は、中国特許庁に提出された中国特許出願の優先権を主張し、出願日は2019年3月30日であり、出願番号はCN201910253934.9であり、発明の名称は「画像処理方法、装置、電子装置及び記憶媒体」でり、且つ参照のためそれらの全文を本出願に組み込む。
本発明は、コンピュータービジョン技術分野に関し、特に、画像処理方法、装置、電子装置及び記憶媒体に関する。
畳み込みニューラルネットワーク(Convolutional Neural Networks,CNN)は、コンピュータービジョン分野の主流の方法になっている。異なるコンピュータービジョンタスクについて、研究者たちは異なる標準化(normalization)及びホワイトニング(whitening)方法を開発した。画像の標準化は、平均値を取り除くことによりデータの集中化を実現する処理方式であり、凸最適化理論とデータ確率分布の知識によれば、データの集中化はデータ分布の法則に符合し、トレーニング後の汎化効果をさらに取得し易く、データの標準化はデータ前処理の一般的な方法の1つである。ホワイトニングの目的は、入力データの冗長な情報を削除することである。
コンピュータービジョンタスクにおいて、標準化及びホワイトニングの応用は非常に重要である。現在、画像処理に用いられるさまざまな標準化及びホワイトニングの方法は、それぞれ長所と短所があり、画像処理効果は全面ではなく、畳み込みニューラルネットワークモデルを設計する空間と難易度はさらに高くなる。
本出願の実施形態は、画像処理方法、装置、電子装置及び記憶媒体を提供し、画像登録(Image registration)の精度とリアルタイムを向上させることができる。
第一態様において、本出願の実施形態は画像処理方法を提供する。画像処理方法は、
処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定するステップと、その中において、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、
各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定するステップと、
少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行するステップと、
を含む。
1つの選択的な実施形態において、第一特徴パラメータは平均値ベクトルであり、第二特徴パラメータは共分散行列(covariance matrix)である。
1つの選択的な実施形態において、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行するステップは、ニューラルネットワークによって実行され、
予め設定された処理方法セットにおける1つの処理方法の第一特徴パラメータの重み係数は、以下の方法によって確定される:予め設定された処理方法セットにおけるこの処理方法の第一特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第一制御パラメータの値を利用して正規化された指数関数(normalized exponential function)に基づいて確定され、
予め設定された処理方法セットにおける1つの処理方法の第二特徴パラメータの重み係数は、以下の方法によって確定される:この処理方法の第二特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第二制御パラメータの値を利用して正規化された指数関数に基づいて確定される。
1つの選択的な実施形態において、予め設定された処理方法セットの各処理方法の第一制御パラメータ及び第二制御パラメータは、次の手順で獲得される:
ニューラルネットワークモデルの逆伝播法に基づいて、トレーニングしようとするニューラルネットワークの損失関数の値を最小化することにより、トレーニングしようとするニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータに対して共同最適化を実行し;
トレーニングしようとするニューラルネットワークの損失関数の値が最小になる時の各第一制御パラメータの値をトレーニングされたニューラルネットワークの各第一制御パラメーターの値とし;
トレーニングしようとするニューラルネットワークの損失関数の値が最小になる時の各第二制御パラメータの値をトレーニングされたニューラルネットワークの各第二制御パラメーターの値とする。
1つの選択的な実施形態において、ニューラルネットワークモデルの逆伝播法に基づいて、トレーニングしようとするニューラルネットワークの損失関数の値を最小化することにより、トレーニングしようとするニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータに対して共同最適化を実行することは、
トレーニングしようとするニューラルネットワークは、予め設定された処理方法セットの各処理方法の第一特徴パラメータの加重平均及び各処理方法の第二特徴パラメータの加重平均に基づいて、トレーニング用の画像データに対してホワイトニング処理を実行し、且つ予測結果を出力することと、その中において、予め設定された処理方法セットの第一処理方法の第一制御パラメータの初期値は第一プリセット値であり、予め設定された処理方法セットの第一処理方法の第二制御パラメータの初期値は第二プリセット値であり、
トレーニングしようとするニューラルネットワークから出力された予測結果及びトレーニング用の画像データの注釈結果に基づいて、ニューラルネットワークの損失関数の値を確定することと、
トレーニングしようとするニューラルネットワークの損失関数の値に基づいて、トレーニングしようとするニューラルネットワークの各第一制御パラメータの値、各第二制御パラメータの値及び各ネットワークパラメータの値を調整することと、
を含む。
1つの選択的な実施形態において、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行することは、
少なくとも2つの第一特徴パラメータの加重平均、少なくとも2つの第二特徴パラメータの加重平均及び処理しようとする画像データのチャネル数、高さ及び幅に基づいて、処理しようとする画像データの中の各画像データに対してホワイトニング処理を実行することを含む。
1つの選択的な実施形態において、標準化方法は、バッチ標準化方法、インスタンス標準化方法、レイヤ標準化方法の中の少なくとも1つを含む。
1つの選択的な実施形態において、ホワイトニング方法は、バッチホワイトニング方法、インスタンスホワイトニング方法の中の少なくとも1つを含む。
第二態様において、本出願の実施形態は画像処理装置を提供する。画像処理装置は、確定モジュールと、重み付けモジュールと、ホワイトニング処理モジュールと、を含み、
確定モジュールは、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定するために用いられ、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、
重み付けモジュールは、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定するために用いられ、
ホワイトニング処理モジュールは、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行するために用いられる。
第三態様において、本出願の実施形態は電子装置を提供する。電子装置はプロセッサ及びメモリを含み、メモリは1つ又は複数のプログラムを格納するために用いられ、1つ又は複数のプログラムはプロセッサによって実行されるように構成され、プログラムは本出願の実施形態の第一態様の任意の方法で説明されたステップの一部又は全部を実行させる。
第四態様において、本出願の実施形態はコンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は、電子データ交換用コンピュータプログラムを格納するために用いられ、コンピュータプログラムは、コンピュータに本出願の実施形態の第一態様の任意の方法で説明されたステップの一部又は全部を実行させる。
第五態様において、本出願の実施形態は命令を含むコンピュータプログラム製品を提供し、それがコンピュータ上で実行されるとき、コンピュータに上述した第一態様及びその任意の可能な実現方法を実行させる。
本出願の実施形態は、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定し、その中において、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定し、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行し、単独で使用される一般的な標準化方法及びホワイトニング方法と比較して、各方法の利点を組み合わせて画像処理効果を向上させることができる。
図面は明細書に組み込まれて本明細書の一部を構成し、これらの図面は本開示に符合する実施例を示し、且つ明細書とともに本開示の技術的解決策を説明する。
図1は、本発明の実施形態に係わる画像処理方法のフローチャートである。 図2は、本発明の実施形態に係わる制御パラメータトレーニング方法のフローチャートである。 図3は、本発明の実施形態に係わる異なる標準化層のスタイル変換の可視化図である。 図4は、本発明の実施形態に係わる画像処理装置の構造を示す概略図である。 図5は、本発明の実施形態に係わる電子装置の構造を示す概略図である。
当業者が本発明をよりよく理解できるように、以下、本出願の実施形態の添付図面を参照しながら、本出願の実施形態の技術的方案を明確且つ完全に説明する。明らかに、説明された実施形態は、本発明の実施形態の一部にすぎず、すべての実施形態ではない。創造的な努力なしに本発明の実施形態に基づいて当業者によって得られる他のすべての実施形態は、本発明の保護範囲に含まれる。
本発明の明細書、特許請求の範囲及び図面で使用される用語「第一」、「第二」などは、特定の順序を説明するために用いられなく、異なる対象を区別するために用いられる。用語「含む」、「有する」及びそれらの変形は、非排他的包含を網羅することを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品、又は装置は、リストされたステップ又はユニットに限定されず、選択的に、リストされていない他のステップ又はユニットを含むことができ、又は、選択的に、これらのプロセス、方法、製品、又はデバイスに固有する他のステップ又はユニットを含むことができる。
本明細書で言及される「実施形態」という用語は、実施形態に関連して説明される特定の特徴、構造、又は特性が本発明の少なくとも1つの実施形態に含まれ得ることを意味する。本明細書の各々の場所に現れるこの用語は、必ず同じ実施形態を指すものではなく、他の実施形態と相互に排他的な独立した又は代替実施形態を指すものでもない。本明細書に記載された実施形態は他の実施形態と組み合わせることができることは、当業者によって明示的および暗黙的に理解される。
本出願の実施形態に係わる画像処理装置は、複数の他の端末装置がアクセスすることを可能にすることができる。上述した画像処理装置は、端末装置を含む電子装置であることができる。具体的な実施形態において、上述した端末装置はタッチ敏感表面(例えば、タッチスクリーンディスプレイ及び/又はタッチパネル)を有する携帯電話、ラップトップコンピュータ又はタブレットコンピューターなどのような他のポータブルデバイスを含むが、これらに限定されない。いくつかの実施形態において、上述した装置は携帯通信装置ではなく、タッチ敏感表面(例えば、タッチスクリーンディスプレイ及び/又はタッチパネル)を有するデスクトップコンピュータであることを理解されるべきである。
本出願の実施形態におけるディープラーニングの概念は、人工ニューラルネットワークの研究に由来する。複数の隠れ層を含む多層パーセプトロン(Multilayer Perceptron,MLP)は、一種のディープラーニング構造である。ディープラーニングは、低レベルの特徴を組み合わせてより抽象的な高レベルの表現属性カテゴリ又は特徴を形成することにより、データの分散特性表現を発見する。
ディープラーニングは、機械学習におけるデータの特性化学習に基づく方法である。観測値(1つの画像など)は、さまざまな方法で表すことができ、例えば、各ピクセルの強度値のベクトル、又はより抽象的に一連のエッジ、特定の形状の領域などに表すこともできる。特定の表現方法(例えば、顔認識や表情認識)を使用して、インスタンスからタスクを学習する方が簡単である。ディープラーニングの利点は、非監督式又は半監督式の特徴学習及び階層的特徴抽出の効率的なアルゴリズムを使用して、手動的に特徴を取得することを取り替えることである。ディープラーニングは、機械学習研究の新しい分野であり、その動機は、人間の脳が分析したり学習したりするニューラルネットワークを確立、真似ることであり、人間の脳のメカニズムを模倣して画像、音声、テキストなどのデータを解釈する。
以下、本出願の実施形態に対して詳細に紹介する。
図1を参照すると、図1は本発明の実施形態に係わる画像処理方法のフローチャートである。図1に示されたように、画像処理方法は、上述した画像処理装置によって実行されることができ、以下のステップを含む。
101、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定し、上述した処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、上述した処理しようとする画像データは少なくとも1つの画像データを含む。
画像データの標準化(normalization)は正規化とも呼ばれ、データマイニングの基本的な作業である。異なる評価指標は、しばしば異なる次元(dimension)及び次元単位を有し、このような状況はデータ分析結果に影響する。指標間の次元の影響を排除するために、データ標準化処理を行うことを必要として、データ指標間の比較可能性を解決する。元のデータがデータ標準化処理を行ってから、各指標は同じ数量級にあり、総合的な比較評価に適合する。
画像の最終的なイメージングは、周辺光の強度、オブジェクトの反射、カメラの撮影などの多い要因の影響を受ける。画像に含まれた外界の影響を受けない一定の情報を取得するために、画像に対してホワイトニング処理することを必要があります。
本出願の実施形態で言及されたのホワイトニング(whitening)は、露出オーバー又は露出不足の画像を処理するために用いられることができる。一般的に、これらの要因の影響を取り除くために、処理方法は一般的に画像の平均画素値を0に変更し、画像の分散(Variance)を単位分散1に変更し、具体的に平均値ベクトル及び共分散行列によって実現することができ、即ちピクセル値をゼロ平均値と単位分散に変換する。
異なるコンピュータービジョンタスクに対して、研究者たちは異なる標準化方法及びホワイトニング(whitening)方法を開発した。例えば、バッチ標準化(batch normalization)及びバッチホワイトニング(batch whitening)は画像分類、物体検出などの任務に応用され、インスタンス標準化(instance normalization)及びインスタンスホワイトニング(instance whitening)は画像スタイルの変換と画像生成に応用され、レイヤー標準化(layer normalization)はリカレントニューラルネットワークに応用される。
便利に説明するために、本出願の実施形態におけるバッチホワイトニング、インスタンスホワイトニング、バッチ標準化、インスタンス標準化及びレイヤー標準化は、それぞれbw、iw、bn、in及びlnと略称される。
本出願の実施形態において、上述した処理方法セットを予め設定することができ、処理方法セットに含まれるホワイトニング方法及び標準化方法は、処理しようとする画像データに基づいて、上述した処理方法セットを選択・設定することができ、例えば、バッチ標準化、バッチホワイトニング、インスタンス標準化、インスタンスホワイトニング及びレイヤー標準化を含むことができ、それらの一部のみを含むこともできるが、ホワイトニング方法及び標準化方法の中の少なくとも二種の方法を含むことを必要とする。
先ず、処理しようとする画像データ及び予め設定された処理方法セットの各処理方法に基づいて各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定し、即ち加重平均に用いられる特徴パラメータを獲得する。
本出願の実施形態のステップは、トレーニングされた畳み込みニューラルネットワークに基づいて実現することができる。畳み込みニューラルネットワーク(Convolutional Neural Networks,CNN)は、畳み込み計算を含み且つディープ構造(deep structure)を有するフィードフォワードニューラルネットワーク(Feedforward Neural Networks)の一種であり、ディープラーニング(deep learning)の代表的なアルゴリズムの一種であうる。
ステップ101において、各処理方法の計算式に基づいて、各処理方法の第一特徴パラメータ及び第二特徴パラメータを獲得することができる。ここで、処理方法セットには少なくとも2つの処理方法が含まれているので、獲得した第一特徴パラメータ及び第二特徴パラメータはいずれも少なくとも2つである。画像のホワイトニング又は画像の標準化に対して、出力される第一特徴パラメータは平均値ベクトルであることができ、第二特徴パラメータは共分散行列であることができる。即ち、画像処理装置は、処理しようとする画像データの少なくとも2つの平均値ベクトルと少なくとも2つの共分散行列を得ることができ、2つのパラメータは、画像データ及び予め設定された処理方法に基づいて計算して獲得される。
平均値ベクトルの加重平均は
Figure 2021526678
であり、その中において、Ωは処理方法セットであり、ωは第一重み係数であり、μは処理方法セットの各処理方法の平均値ベクトルであり、
共分散行列の加重平均は
Figure 2021526678
であり、その中において、Ωは処理方法セットであり、ω′は第二重み係数であり、Σは共分散行列である。
1つの選択的な実施形態において、予め設定された処理方法セットはバッチホワイトニング処理を含むことができ、バッチホワイトニング処理の第一特徴パラメータ及び第二特徴パラメータの計算式は、
Figure 2021526678
Figure 2021526678
を含み、
その中において、μbwはこの方法の第一特徴パラメータ(平均値ベクトル)であり、Σbwはこの方法の第二特徴パラメータ(共分散行列)であり、Xは処理しようとする画像データの中のバッチ画像データであり、
Figure 2021526678
、Nは画像データの数量であり、1は要素がすべて1である列ベクトルであり、Iは単位行列であり、単位行列の対角要素は1であり、残りは0であり、εは正数である。
具体的には、εは小さな正数であることができ、特異な共分散行列が出現することを防止するために用いられる。バッチホワイトニングとは、バッチデータをホワイトニングすることであり、即ち、
Figure 2021526678
である。
1つの選択的な実施形態において、上述した処理方法はインスタンスホワイトニング処理を含むことができ、インスタンスホワイトニング処理の第一特徴パラメータ及び第二特徴パラメータの計算式は、
Figure 2021526678
Figure 2021526678
を含み、
その中において、μiwはこの方法の第一特徴パラメータ(平均値ベクトル)であり、Σiwはこの方法の第二特徴パラメータ(共分散行列)であり、1は要素がすべて1である列ベクトルであり、Iは単位行列であり、εは正数である。
具体的には、インスタンスホワイトニングは、単一の画像データをホワイトニングすることであり、即ち、
Figure 2021526678
である。
バッチ標準化は、バッチ正規化とも呼ばれ、人工ニューラルネットワークの性能と安定性を向上させるために用いられる技術である。これは、ニューラルネットワークの任意の層にゼロ平均値/単位分散入力を提供する技術である。バッチ標準化は、センター(center)及びスケール(scale)の操作によって、バッチデータ全体の平均値と分散をそれぞれ0と1にする。従って、平均値はバッチホワイトニングと同じであり、即ち、μbn=μbwである。なお、バッチ標準化はホワイトニングなしにデータの分散で除算すればよく、共分散行列は対角要素のみを保留すればよく、即ち、
Figure 2021526678
であり、その中において、diag()は対角要素を保留し、 非対角要素を0に設定する。
同様に、インスタンス標準化は単一の画像データを処理し、μin=μiw
Figure 2021526678
である。
レイヤー標準化は、単一の画像データの全てのチャネルの平均値と分散を使用して標準化し、μlnとσlnを平均値と分散とすると、μln=μln1、Σln=σlnIである。
第一特徴パラメータ及び第二特徴パラメータを獲得した後、ステップ102を実行することができる。
102、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定する。
本出願の実施形態において、画像処理装置は上述した重み係数を記憶することができ、少なくとも2つの第一特徴パラメータ及び少なくとも2つの第二特徴パラメータを獲得してから、各第一特徴パラメータの重み係数に基づいて少なくとも2つの第一特徴パラメータの加重平均を確定し、各第二特徴パラメータの重み係数に基づいて少なくとも2つの第二特徴パラメータの加重平均を確定する。
1つの選択的な実施形態において、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行するステップは、ニューラルネットワークによって実行される。重み係数とは、数学において、合計における特定の数量の重要性を示すために、それぞれ異なる比例係数が与えられることを意味する。
1つの選択的な実施形態において、予め設定された処理方法セットにおける1つの処理方法の第一特徴パラメータの重み係数は、以下の方法によって確定される:
予め設定された処理方法セットにおけるこの処理方法の第一特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第一制御パラメータの値を利用して正規化された指数関数(normalized exponential function)に基づいて確定される。
1つの選択的な実施形態において、予め設定された処理方法セットにおける1つの処理方法の第二特徴パラメータの重み係数は、以下の方法によって確定される:
この処理方法の第二特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第二制御パラメータの値を利用して正規化された指数関数に基づいて確定される。
その中において、予め設定された処理方法セットの各処理方法の第一制御パラメータ及び第二制御パラメータは、ニューラルネットワークの各々の第一制御パラメータ及び第二制御パラメータである。
具体的には、正規化された指数関数(Softmax関数)に基づいて正規化変換を実行することができ、Softmax関数は、実際には有限アイテムの離散確率分布の勾配対数正規化である。本出願の実施形態において、制御パラメータは、本質的に、異なる処理方法によって計算された統計量(平均値ベクトル又は共分散行列)が占める割合である。
選択的には、上述した第一制御パラメータ及び第二制御パラメータは、ニューラルネットワークの確率的勾配降下(stochastic gradient descent,SGD)アルゴリズム及び/又は逆伝播(Back propagation,BP)アルゴリズムに基づいて学習して獲得することができる。
逆伝播アルゴリズムは、多層ニューラルネットワークに適合する学習アルゴリズムであり、勾配降下法に基づく。逆伝播アルゴリズムは、入力に対するネットワークの応答が所定のターゲット範囲に達するまで、2つの段階(インセンティブ伝播、重み更新)が反復ループ(Iterative loop)する。BPアルゴリズムの学習過程は、順方向伝播過程と逆方向伝播過程で構成される。順方向伝播過程において、出力層が期待する出力値を得られない場合、出力と期待誤差の二乗の合計を取って目的関数としてから、逆伝播に変換され、各ニューロンの重みに対する目的関数の偏微分(Partial derivative)を層ごとに計算し、重みベクトルに対する目的関数の勾配を構成し、重みを変更するための基礎として、重みの変更プロセスでネットワークの学習が完了し、誤差が期待値に達すると、ネットワークの学習が終了する。
上述した加重平均を取得した後、ステップ103を実行することができる。
103、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行する。
ホワイトニング処理は、処理方法セットの各処理方法の平均値ベクトルの加重平均及び各処理方法の共分散行列の加重平均を計算することにより、加重平均後に得られる平均値ベクトルと共分散行列をホワイトニング処理のパラメータとして、処理しようとする画像データをホワイトニングすることであると理解されることができ、従って異なる処理方法の組み合わせを実現し、ニューラルネットワークをトレーニングすることにより、各方法の重み(上記の重み係数)を得ることができる。
なお、処理しようとする画像データに1つ以上の画像データが含まれ、予め設定された処理方法セットに異なる処理方法が含まれる場合、異なる画像データの処理方法も異なる場合がある。例えば、予め設定された処理方法セットにバッチホワイトニング方法とバッチ標準化方法が含まれる場合、各小バッチの画像データの平均値ベクトルの加重平均は同じであり、各小バッチの画像データの共分散行列の加重平均は同じであり、処理しようとする画像データに対してホワイトニング処理を行うことは、バッチホワイトニング方法と類似な方法で各小バッチの画像データを処理することであると理解することができる。予め設定された処理方法セットにバッチホワイトニング方法とインスタンスホワイトニング方法が含まれる場合、各画像データの平均値ベクトルの加重平均は異なり、各画像データの共分散行列の加重平均も異なり、処理しようとする画像データに対してホワイトニング処理を行うことは、インスタンスホワイトニング方法と類似な方法で単一の画像データを処理することであると理解することができる。
1つの選択的な実施形態において、少なくとも2つの第一特徴パラメータの加重平均、少なくとも2つの第二特徴パラメータの加重平均及び処理しようとする画像データのチャネル数、高さ及び幅に基づいて、処理しようとする画像データの中の各画像データに対してホワイトニング処理を実行することができる。
畳み込みニューラルネットワークにおいて、データは通常4次元で保存され、
Figure 2021526678
はバッチ画像データであり、N、C、H、Wはそれぞれ画像データ数、チャネル数、高さ、幅を表す。便利に説明するために、N、H、Wの3次元は、ここの説明では1次元と見なされる。
Figure 2021526678
はバッチ画像データの中のn番目の画像データ(トレーニングプロセスはサンプルデータとして理解できる)であり、この画像データに対するホワイトニング操作は次のように表すことができ、
Figure 2021526678
μとΣは、画像データから計算された平均値ベクトルと共分散行列である。1は要素がすべて1である列ベクトルであり、異なるホワイトニング方法と標準化方法は、異なるセットを使用してμとΣを計算することができる。例えば、バッチホワイトニングとバッチ標準化に対して、各バッチ画像データを使用してμとΣを計算し、レイヤー標準化、インスタンス標準化及びインスタンスのホワイトニングに対して、各画像データを使用してμとΣを計算する。
さらに、上述したSW(X)の中の共分散行列の負の平方根は、零位相成分分析(Zero-phase Component Analysis,ZCA)又は主成分分析(principal component analysis,PCA)ホワイトニングによって取得することができる。好ましくは、ZCAホワイトニングによって取得し、即ち:
Figure 2021526678
であり、
その中において、Λ=diag(σ,…,σ)及びD=[d,…,d]はΣの特徴値と特徴ベクトルであり、即ち、Σ=DΛDΓであり、これは、特徴分解(Eigen decomposition)によって取得することができる。
上記の特徴分解はスペクトル分解(Spectral decomposition)とも呼ばれる。これは、行列をその特徴値と特徴ベクトルで表される行列の積に分解する方法である。
具体的には、PCAホワイトニングはデータの各次元の分散が1であることを保証し、ZCAホワイトニングはデータの各次元の分散が同じであることを保証する。PCAホワイトニングは次元削減又は相関性除去に使用できるが、ZCAホワイトニングは主に相関性除去に使用され、ホワイトニングされたデータができるかぎり元の入力データに近くなることにする。
ステップ102で得られたものは、最終的なホワイトニング処理に使用されるターゲット平均値ベクトルとターゲット共分散行列であり、各画像データに対応する異なるホワイトニング方法と標準化方法の特徴パラメータは加重平均計算によって獲得し、次に、ターゲット平均値ベクトルとターゲット共分散行列に基づいて、ホワイトニング処理を実現することができる。
具体的には、処理しようとする画像データをホワイトニングする式は次のとおりである:
Figure 2021526678

は処理しようとする画像データの中のn番目の画像データであり、
Figure 2021526678
であり、その中において、
Figure 2021526678
は加重平均計算後に得られる平均値ベクトルであり、
Figure 2021526678
は加重平均計算後に得られる共分散行列であり、C、H、Wは、それぞれ画像データのチャンネル数、高さ、幅である。
1つのアプリケーションシナリオでは、予め設定された処理方法セットにバッチホワイトニング方法とバッチ標準化方法が含まれ、処理しようとする画像データは1つ以上の画像データを含む場合、各小バッチの画像データの平均値ベクトルの加重平均
Figure 2021526678
は同じであり、異なるバッチの画像データの平均値ベクトルの加重平均
Figure 2021526678
は異なり、各小バッチの画像データの共分散行列の加重平均
Figure 2021526678
は同じであり、異なるバッチの画像データの共分散行列の加重平均
Figure 2021526678
は異なり、処理しようとする画像データに対してホワイトニング処理を行うことは、各小バッチの画像データの平均値ベクトルの加重平均
Figure 2021526678
と共分散行列の加重平均
Figure 2021526678
をそれぞれバッチホワイトニング方法の平均値ベクトルと共分散行列として、バッチホワイトニング方法でこのバッチの画像データを処理することであると理解することができる。
別のアプリケーションシナリオでは、予め設定された処理方法セットにバッチホワイトニング方法とバッチ標準化方法の中の少なくとも1つ及びレイヤー標準化方法、インスタンス標準化方法、インスタンスホワイトニング方法の中の少なくとも1つが含まれる場合、各画像データの平均値ベクトルの加重平均
Figure 2021526678
は異なり、各画像データの共分散行列の加重平均
Figure 2021526678
も異なり、処理しようとする画像データに対してホワイトニング処理を行うことは、各画像データの平均値ベクトルの加重平均
Figure 2021526678
と共分散行列の加重平均
Figure 2021526678
をそれぞれインスタンスホワイトニング方法の平均値ベクトルと共分散行列として、インスタンスホワイトニング方法でこの画像データを処理することであると理解することができる。
1つの選択的な実施形態において、処理しようとする画像データは、様々な端末装置で収集した画像データを含み、例えば、自動運転でカメラによって収集された顔画像データ、監視システムで収集された監視画像データ、知能ビデオ分析中に分析されるビデオ画像データ、顔認識製品で収集された顔画像データなどである。具体的には、モバイル端末で美化しようとする写真に対して、上述した方法はモバイル端末にインストールされている美容アプリケーションに応用することができ、画像処理の精度を向上させ、例えば、画像分類、セマンティックセグメンテーション、画像スタイル変換などの方面の性能がさらに優れるようにする。
現在、標準化方法とホワイトニング方法は通常別々に使用されているので、各方法の長所を組み合わせることは困難である。さらに、さまざまな標準化方法とホワイトニング方法は、モデル設計のスペースと難易度を増加する。
本出願の実施形態に係わる画像処理方法は、異なる標準化方法とホワイトニング方法を1つのレイヤーに組み合わせることができ、例えば、バッチ標準化、バッチホワイトニング、インスタンス標準化、インスタンスホワイトニング、レイヤー標準化などの方法を含み、さまざまな標準化とホワイトニング操作の比率を適応的に学習することができ、畳み込みニューラルネットワークとともにエンドツーエンドのトレーニングを実現することができる。
本出願の実施形態において、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定し、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定し、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行し、画像処理過程で様々な処理方法(標準化及び/又はホワイトニング)を組み合わせた操作を実現し、画像処理効果を向上させることができる。
選択的に、103はニューラルネットワークによって実行され、このとき、予め設定された処理方法セットにおける1つの処理方法の第一特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第一制御パラメータの値を利用して正規化された指数関数に基づいて確定され;予め設定された処理方法セットにおける1つの処理方法の第二特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第二制御パラメータの値を利用して正規化された指数関数に基づいて確定される。
1つの選択的な実施形態において、1つの処理方法の第一特徴パラメータの重み係数ωの計算式は以下のとおりであり、
Figure 2021526678

その中において、λは第一制御パラメータであり、Ωは処理方法セットであり、例えば、Ω={bw,iw,bn,in,ln}である。
類似的に、1つの処理方法の第一特徴パラメータの重み係数ω′の計算式は、以下のとおりであり、
Figure 2021526678

その中において、λ′は第二制御パラメータであり、Ωは処理方法セットである。
選択的に、予め設定された処理方法セットの各処理方法の第一制御パラメータ及び第二制御パラメータ(ニューラルネットワークの各々の第一制御パラメータ及び第二制御パラメータである)は、図2に示された方法で獲得する。
201、ニューラルネットワークモデルの逆伝播法に基づいて、トレーニングしようとするニューラルネットワークの損失関数の値を最小化することにより、トレーニングしようとするニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータに対して共同最適化を実行する。
本出願の実施形態において、制御パラメータは、本質的に、異なる処理方法によって計算された統計量(平均値ベクトル又は共分散行列)が占める割合である。選択的には、制御パラメータは、ニューラルネットワークのトレーニングプロセスにおいて、畳み込みニューラルネットワークの確率的勾配降下(stochastic gradient descent,SGD)アルゴリズム及び逆伝播(Backpropagation,BP)アルゴリズムに基づいて学習して獲得することができる。
ニューラルネットワークのトレーニングプロセスは次のとおりである:
トレーニングしようとするニューラルネットワークは、予め設定された処理方法セットの各処理方法の第一特徴パラメータの加重平均及び各処理方法の第二特徴パラメータの加重平均に基づいて、トレーニング用の画像データに対してホワイトニング処理を実行し、且つ予測結果を出力し、
トレーニングしようとするニューラルネットワークから出力された予測結果及びトレーニング用の画像データの注釈結果に基づいて、ニューラルネットワークの損失関数の値を確定し、
トレーニングしようとするニューラルネットワークの損失関数の値に基づいて、トレーニングしようとするニューラルネットワークの各第一制御パラメータの値、各第二制御パラメータの値及び各ネットワークパラメータの値を調整する。
その中において、予め設定された処理方法セットの第一処理方法の第一制御パラメータの初期値は第一プリセット値であり、予め設定された処理方法セットの第一処理方法の第二制御パラメータの初期値は第二プリセット値である。具体的には、畳み込みニューラルネットワークがトレーニングを開始する前に、第一制御パラメーターの初期値と第二制御パラメーターの初期値を予め設定することができ、例えば、第一プリセット値と第二プリセット値は両方とも1である。ニューラルネットワークがトレーニングを開始する時、第一処理方法の第一制御パラメータの初期値に基づいて、第一処理方法の第一特徴パラメータの重み係数を計算することができ、第一処理方法の第二制御パラメータの初期値に基づいて、第一処理方法の第二特徴パラメータの重み係数を計算することができ、従って、トレーニングの開始時に各処理方法の第一特徴パラメータの加重平均及び各処理方法の第二特徴パラメータの加重平均を計算することができ、さらにニューラルネットワークのトレーニングを開始する。その中において、第一処理方法は、予め設定された処理方法セットの中の任意の1つの処理方法であることができる。
ニューラルネットワークのトレーニングプロセスにおいて、ニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータは、損失関数を利用して、確率的勾配降下アルゴリズムと逆伝播アルゴリズムによって絶えずに更新され、損失関数の値が最小になるまで、上述したトレーニングプロセスを繰り返すことにより、ニューラルネットワークのトレーニングを完成する。
202、トレーニングしようとするニューラルネットワークの損失関数の値が最小になる時の各第一制御パラメータの値をトレーニングされたニューラルネットワークの各第一制御パラメーターの値とし;トレーニングしようとするニューラルネットワークの損失関数の値が最小になる時の各第二制御パラメータの値をトレーニングされたニューラルネットワークの各第二制御パラメーターの値とする。
トレーニングしようとするニューラルネットワークの損失関数の値に応じて上記のパラメータの値を調整し、損失関数の値が最小になるとき、ニューラルネットワークトレーニングを完了する。トレーニングが完了すると、ニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータを学習・獲得し、テスト又は実際の画像処理応用では、これらのパラメーターは固定されて変化しない。具体的には、ニューラルネットワークトレーニングはフォワード計算と逆方向伝播計算が必要であり、テスト又は実際の画像処理応用ではただフォワード計算することを必要として、画像を入力すると処理結果を得ることができる。
1つの選択的な実施形態において、ニューラルネットワークは、訓練用の画像データと注釈付き結果でトレーニングすることができる。次に、トレーニングされたニューラルネットワークで収集された画像データを処理して、画像内のオブジェクトを識別する。具体的には、異なる標準化方法とホワイトニング方法を統一することができ、畳み込みニューラルネットワークが特定の任務に応じてさまざまな標準化とホワイトニング操作の比率を適応的に学習することにして、各方法の利点を組み合わせることができ、標準化とホワイトニング操作の自動選択が可能になる。
アプリケーションでは、豊富な統計データに基づいて、ソフトウェアは高レベルの視覚タスクだけでなく、画像スタイルの変換などの低レベルの視覚タスクでも機能できる。
図3を参照すると、図3は本発明の実施形態に係わる異なる標準化層のスタイル変換の可視化図である。その中において、人気のあるスタイル変換アルゴリズムを採用して処理しようとする画像に対してスタイル変換を行う。損失ネットワークによって計算されたコンテンツ損失とスタイル損失でトレーニングされた画像様式化ネットワークがあり、異なる画像標準化方法とホワイトニング方法で処理することができる。MS−COCOデータセットを画像に使用し、選択した処理しようとする画像の画像スタイルはキャンドルライトとスターライトナイトであり、上述したスタイル変換アルゴリズムと同じトレーニング方法に従い、画像スタイルネットワークに異なる標準化レイヤー(バッチ標準化、インスタンスホワイトニング及び本出願の実施形態に係わる画像処理方法)を採用し、即ち、図3の2行目の画像は、異なる処理方法で処理した後の効果図であり、1行目の画像は、同時にスタイル変換を行った後の効果図である。
具体的には、図3に示されたように、バッチ標準化によって生成された画像効果は悪く、インスタンスホワイトニングによって生成された画像効果は比較的良好である。インスタンスホワイトニングと比較すると、本実施形態に係わる画像処理方法は、その処理方法セットにバッチ標準化及びインスタンスホワイトニングが含まれ、両者の比率はニューラルネットワーク学習によって確定され、その画像処理効果が最も良い。本実施形態に係わる画像処理方法は、任務に応じて適切な処理方法を選択して画像を処理することができる。
一般的に、標準化方法とホワイトニングの方法は通常別々に使用され、各方法の長所を組み合わせることは困難である。さらに、さまざまな標準化方法とホワイトニング方法は、ニューラルネットワークモデル設計のスペースと難易度を増加する。特定の標準化方法又はホワイトニング方法のみを使用する畳み込みニューラルネットワークと比較すると、本出願の画像処理はさまざまな標準化とホワイトニング操作の比率を適応的に学習することができ、手動設計の必要性を排除し、各方法の長所を組み合わせることができ、さまざまなコンピュータービジョンタスクにおいて、優れる性能を有する。
1つの選択的な実施形態において、処理しようとする画像データは、様々な端末装置で収集した画像データを含み、例えば、自動運転でカメラによって収集された顔画像データ、監視システムで収集された監視画像データ、知能ビデオ分析中に分析されるビデオ画像データ、顔認識製品で収集された顔画像データなどである。具体的には、モバイル端末で美化しようとする写真に対して、上述した方法はモバイル端末にインストールされている美容アプリケーションに応用することができ、画像処理の精度を向上させ、例えば、画像分類、セマンティックセグメンテーション、画像スタイル変換などの方面の性能がさらに優れるようにする。
実際の応用では、本出願の実施形態に係わる画像処理操作は、畳み込みニューラルネットワークの畳み込みレイヤーに適用でき、畳み込みニューラルネットワークの自己適応型ホワイトニングレイヤー(自己適応型ホワイトニングレイヤーと従来のホワイトニングレイヤーの違いは、自己適応型ホワイトニングレイヤーを有する畳み込みニューラルネットワークは、モデルトレーニング段階でトレーニングデータに基づいてさまざまな標準化及びホワイトニング操作の比率を適応的に学習し、最適な比率を取得できることである)として理解することができ、ネットワークの任意の位置に応用することもできる。
以上は、主に方法実行過程の観点から本出願の実施形態の方案を紹介する。画像処理装置は上述した機能を実現するために、各機能に対応するハードウェア構成及び/又はソフトウェアモジュールを含むことが理解できる。当業者であれば、本明細書の実施形態で説明された各例示のユニット及びアルゴリズムステップを組み合わせて、本発明はハードウェア又はハードウェアとコンピュータソフトウェアの組み合わせの形式で実現できることを容易に理解されるべきである。特定の機能がハードウェアによって実行されるか、それともコンピュータソフトウェアがハードウェアを駆動する方式によって実行されるかは、本技術方案の特定の応用や設計制約条件によって決定される。専門技術者は、特定の応用に応じて異なる方法で記述された機能を実現することができるが、これは本発明の範囲を超えると考えるべきではない。
本出願の実施形態は、上述した方法例に基づいて画像処理装置に対して機能モジュールの分割を実行することができ、例えば、各機能に対応して各機能モジュールを分割することができ、2以上の機能を1つの処理モジュールに統合することもできる。上記の統合モジュールは、ハードウェア又はソフトウェア機能モジュールの形式で実現することができる。本出願の実施形態におけるモジュールの分割は、例示的なものであり、ロジック機能の分割に過ぎず、実際に実現するときに別の分割形態を有してもよいことに留意されたい。
図4を参照すると、図4は本発明の実施形態に係わる画像処理装置の構造を示す概略図である。図4に示されたように、画像処理装置300は、確定モジュール310と、重み付けモジュール320と、ホワイトニング処理モジュール330と、を含み、
確定モジュール310は、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定するために用いられ、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、
重み付けモジュール320は、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定するために用いられ、
ホワイトニング処理モジュール330は、少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行するために用いられる。
選択的に、第一特徴パラメータは平均値ベクトルで、第二特徴パラメータは共分散行列である。
選択的に、ホワイトニング処理モジュール330の機能はニューラルネットワークによって実行され、
予め設定された処理方法セットにおける1つの処理方法の第一特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第一制御パラメータの値を利用して正規化された指数関数に基づいて確定され、
この処理方法の第二特徴パラメータの重み係数は、ニューラルネットワークにおけるこの処理方法の第二制御パラメータの値を利用して正規化された指数関数に基づいて確定される。
選択的に、画像処理装置300はトレーニングモジュール340をさらに含み、第一制御パラメータ及び第二制御パラメータはトレーニングモジュールがニューラルネットワークをトレーニングする時に獲得する。トレーニングモジュール340は、
ニューラルネットワークモデルの逆伝播法に基づいて、ニューラルネットワークの損失関数の値を最小化することにより、第一制御パラメータ、第二制御パラメータ及びニューラルネットワークのネットワークパラメータに対して共同最適化を実行し、
ニューラルネットワークの損失関数の値が最小になる時の第一制御パラメータの値をニューラルネットワークの第一制御パラメーターの値とし、
ニューラルネットワークの損失関数の値が最小になる時の第二制御パラメータの値をニューラルネットワークの第二制御パラメーターの値とするために用いられる。
選択的に、トレーニングモジュール340は、具体的に、
トレーニングしようとするニューラルネットワークに予め設定された処理方法セットの各処理方法の第一特徴パラメータの加重平均及び各処理方法の第二特徴パラメータの加重平均に基づいて、トレーニング用の画像データに対してホワイトニング処理を実行し、且つ予測結果を出力し、その中において、予め設定された処理方法セットの第一処理方法の第一制御パラメータの初期値は第一プリセット値であり、予め設定された処理方法セットの第一処理方法の第二制御パラメータの初期値は第二プリセット値であり、
トレーニングしようとするニューラルネットワークから出力された予測結果及びトレーニング用の画像データの注釈結果に基づいて、ニューラルネットワークの損失関数の値を確定し、
トレーニングしようとするニューラルネットワークの損失関数の値に基づいて、トレーニングしようとするニューラルネットワークの各第一制御パラメータの値、各第二制御パラメータの値及び各ネットワークパラメータの値を調整するために用いられる。
選択的に、ホワイトニング処理モジュール330は、具体的に、
少なくとも2つの第一特徴パラメータの加重平均、少なくとも2つの第二特徴パラメータの加重平均及び処理しようとする画像データのチャネル数、高さ及び幅に基づいて、処理しようとする画像データの中の各画像データに対してホワイトニング処理を実行するために用いられる。
選択的に、標準化方法は、バッチ標準化方法、インスタンス標準化方法、レイヤ標準化方法の中の少なくとも1つを含む。
選択的に、ホワイトニング方法は、バッチホワイトニング方法、インスタンスホワイトニング方法の中の少なくとも1つを含む。
図4に示された実施形態の画像処理装置300は、図1及び/又は図2に示された実施形態の方法の一部又はすべてを実行することができる。
図4に示された画像処理装置300を実施すると、画像処理装置300は、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定することができ、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定し、それから少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行し、画像処理における適応的ホワイトニング操作を実現し、画像処理効果を向上させることができる。
図5を参照すると、図5は本発明の実施形態に係わる電子装置の構造を示す概略図である。図5に示されたように、電子装置400はプロセッサ401及びメモリ402を含み、その中において、電子装置400はバス403をさらに含むことができ、プロセッサ401とメモリ402はバス403を介して互いに接続することができる。バス403は、周辺機器相互接続(Peripheral Component Interconnect,PCIと略称する)バス又は拡張産業標準アーキテクチャ(Extended Industry Standard Architecture,EISAと略称する)バスなどであることができる。バス403は、アドレスバス、データバス、コントロールバスなどに分けることができる。便利に表示するために、図5ではただ1つ太線を使用して表示しているが、バス又はバスのタイプが1つしかないことを意味するものではない。電子装置400は、さらに入力/出力装置404を含むことができ、入力/出力装置404は、液晶ディスプレイ画面などのディスプレイ画面を含むことができる。メモリ402は、命令を含む1つ又は複数のプログラムを格納するために用いられ、プロセッサ401は、メモリ402に格納された命令を呼び出して、図1及び図2の実施形態で言及された方法ステップの一部又はすべてを実行するために用いられる。上述したプロセッサ401は、図5に示された電子装置400の各モジュールの機能を実現することができる。
電子装置400は、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定することができ、処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、処理しようとする画像データは少なくとも1つの画像データを含み、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定し、それから少なくとも2つの第一特徴パラメータの加重平均及び少なくとも2つの第二特徴パラメータの加重平均に基づいて、処理しようとする画像データに対してホワイトニング処理を実行し、画像処理における適応的ホワイトニング操作を実現し、画像処理効果を向上させることができる。
本出願の実施形態は、さらにコンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は、電子データ交換用コンピュータプログラムを格納するために用いられ、コンピュータプログラムは、コンピュータが上述した方法実施形態に記載された任意の画像処理方法のステップの一部又は全部を実行することにする。
簡単に説明するために、上述した各方法実施例はすべて一連の動作組合で記述されているが、当業者であれば、本発明は説明された動作順序に限定されないことを知っているはずである。本発明によれば、特定のステップは他の順序を採用することができ、又は同時に実行することもできる。さらに、当業者であれば、明細書に記載された実施形態はすべて好ましい実施形態であり、関連する動作及びモジュールは本発明にとって必ず必要とするものではないことを知っているはずである。
上述の実施形態では、各実施形態の説明には各自の焦点があり、いくつかの実施形態で詳細に説明されていない部分は、他の実施形態の関連する説明を参照することができる。
本出願によって提供される幾つかの実施形態において、開示される装置は、他の形態により実現され得ると理解されるべきである。例えば、上記に説明された装置実施例は、例示するためのものに過ぎない。例えば、モジュール(又はユニット)の分割は、ロジック機能の分割に過ぎず、実際に実現するときに別の分割形態を有してもよい。例えば、複数のモジュール又は部品を組み合わせ、又は別のシステムに集積し、又は若干の特徴を無視し、又は実行しなくてもよい。さらに、図示又は検討する相互間の結合や直接結合や通信接続は、いくつかのインタフェース、装置、又はモジュールの間接結合や通信接続であってもよいし、電気や他の形態であってもよい。
分離部品として記載されたモジュールは、物理的に分離してもよいし、分離しなくてもよい。モジュールとして表示される部品は、物理的なモジュールであってもよいし、物理的なモジュールではなくておもよい。即ち、一つの箇所に設置してもよいし、複数のネットワークモジュールに設置してもよい。実際の要求に応じて一部又は全部のモジュールを選択して本実施例の技術方案の目的を実現することができる。
また、本発明に係る各実施例の各機能モジュールは、1つの処理モジュールに集積されてもよいし、各モジュールは単独に物理的に存在してもよいし、2つ以上のモジュールは1つのモジュールに集積してもよい。上記の統合モジュールは、ハードウェア又はソフトウェア機能モジュールの形式で実現することができる。
統合されたモジュールは、ソフトウェアの機能ユニットとして実現され、かつ、独立の製品として販売されたり使用されたりする場合、コンピュータ読み取り可能な記録媒体に記憶されてもよい。この理解によれば、本発明の技術方案について、本質的な部分、又は従来技術に貢献できた部分、又は該技術方案の全部又は一部は、ソフトウェア製品として表現され得る。このコンピュータソフトウェア製品は、記憶媒体に記憶されており、1つのコンピュータ(パソコン、サーバー、又はネットワーク機器などであってもよい)に本発明の各実施例に係る方法の全部又は一部の過程を実行するための複数のコマンドが含まれている。前記した記憶媒体は、USB(ユニバーサルシリアルバス)フラッシュディスク、読み取り専用メモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、リムーバブルハードディスク(removable hard disk)、磁気ディスク又は光ディスクなどの各種のプログラムコードを記憶可能な媒体を含むことができる。
当業者であれば、上述した実施形態の各方法の全部又は一部のステップは、関連するハードウェアを命令するプログラムによって達成されてもよく、プログラムはコンピューター可読記憶媒体に格納されることができると理解されるべきである。記憶媒体は、フラッシュメモリ、読み取り専用メモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスク又は光ディスクなどを含むことができる。
以上、本出願の実施形態を詳細に説明し、本明細書では具体的な実施例を使用して本発明の原理及び実施形態を説明する。上記の実施形態の説明は、ただ本発明の方法及び要旨の理解を助けるために用いられる。当業者であれば、本発明の要旨に基づいて、具体的な実施形態及び適用範囲を変更することができ、要約すると、本明細書の内容は本発明を限定するものであると解釈されるべきではない。

Claims (19)

  1. 処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定するステップと、その中において、前記処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、前記処理しようとする画像データは少なくとも1つの画像データを含み、
    各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定するステップと、
    前記少なくとも2つの第一特徴パラメータの加重平均及び前記少なくとも2つの第二特徴パラメータの加重平均に基づいて、前記処理しようとする画像データに対してホワイトニング処理を実行するステップと、
    を含む、
    ことを特徴とする画像処理方法。
  2. 前記第一特徴パラメータは平均値ベクトルであり、前記第二特徴パラメータは共分散行列である、
    ことを特徴とする請求項1に記載の画像処理方法。
  3. 前記少なくとも2つの第一特徴パラメータの加重平均及び前記少なくとも2つの第二特徴パラメータの加重平均に基づいて、前記処理しようとする画像データに対してホワイトニング処理を実行するステップは、ニューラルネットワークによって実行され、
    予め設定された処理方法セットにおける1つの処理方法の第一特徴パラメータの重み係数は、以下の方法によって確定される:予め設定された処理方法セットにおける前記処理方法の第一特徴パラメータの重み係数は、前記ニューラルネットワークにおける前記処理方法の第一制御パラメータの値を利用して正規化された指数関数に基づいて確定され、
    予め設定された処理方法セットにおける1つの処理方法の第二特徴パラメータの重み係数は、以下の方法によって確定される:前記処理方法の第二特徴パラメータの重み係数は、前記ニューラルネットワークにおける前記処理方法の第二制御パラメータの値を利用して正規化された指数関数に基づいて確定される、
    ことを特徴とする請求項1又は2に記載の画像処理方法。
  4. 前記予め設定された処理方法セットの各処理方法の第一制御パラメータ及び第二制御パラメータは、次の手順で獲得される:
    ニューラルネットワークモデルの逆伝播法に基づいて、トレーニングしようとするニューラルネットワークの損失関数を最小化することにより、前記トレーニングしようとするニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータに対して共同最適化を実行し;
    前記トレーニングしようとするニューラルネットワークの損失関数が最小になる時の各第一制御パラメータの値をトレーニングされたニューラルネットワークの各第一制御パラメーターの値とし;
    前記トレーニングしようとするニューラルネットワークの損失関数が最小になる時の各第二制御パラメータの値をトレーニングされたニューラルネットワークの各第二制御パラメーターの値とする、
    ことを特徴とする請求項3に記載の画像処理方法。
  5. ニューラルネットワークモデルの逆伝播法に基づいて、トレーニングしようとするニューラルネットワークの損失関数を最小化することにより、前記トレーニングしようとするニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータに対して共同最適化を実行することは、
    前記トレーニングしようとするニューラルネットワークは、前記予め設定された処理方法セットの各処理方法の第一特徴パラメータの加重平均及び各処理方法の第二特徴パラメータの加重平均に基づいて、トレーニング用の画像データに対してホワイトニング処理を実行し、且つ予測結果を出力することと、その中において、前記予め設定された処理方法セットの第一処理方法の第一制御パラメータの初期値は第一プリセット値であり、前記予め設定された処理方法セットの第一処理方法の第二制御パラメータの初期値は第二プリセット値であり、
    前記トレーニングしようとするニューラルネットワークから出力された予測結果及び前記トレーニング用の画像データの注釈結果に基づいて、前記ニューラルネットワークの損失関数を確定することと、
    前記トレーニングしようとするニューラルネットワークの損失関数に基づいて、前記トレーニングしようとするニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータを調整することと、
    を含む、
    ことを特徴とする請求項4に記載の画像処理方法。
  6. 前記少なくとも2つの第一特徴パラメータの加重平均及び前記少なくとも2つの第二特徴パラメータの加重平均に基づいて、前記処理しようとする画像データに対してホワイトニング処理を実行することは、
    前記少なくとも2つの第一特徴パラメータの加重平均、前記少なくとも2つの第二特徴パラメータの加重平均及び前記処理しようとする画像データのチャネル数、高さ及び幅に基づいて、前記処理しようとする画像データの中の各画像データに対してホワイトニング処理を実行することを含む、
    ことを特徴とする請求項4又は5に記載の画像処理方法。
  7. 前記標準化方法は、バッチ標準化方法、インスタンス標準化方法、レイヤ標準化方法の中の少なくとも1つを含む、
    ことを特徴とする請求項6に記載の画像処理方法。
  8. 前記ホワイトニング方法は、バッチホワイトニング方法、インスタンスホワイトニング方法の中の少なくとも1つを含む、
    ことを特徴とする請求項7に記載の画像処理方法。
  9. 確定モジュールと、重み付けモジュールと、ホワイトニング処理モジュールと、を含み、
    前記確定モジュールは、処理しようとする画像データに基づいて、予め設定された処理方法セットの各処理方法の第一特徴パラメータ及び第二特徴パラメータを確定するために用いられ、前記処理方法セットはホワイトニング方法及び標準化方法の中の少なくとも2つを含み、前記処理しようとする画像データは少なくとも1つの画像データを含み、
    前記重み付けモジュールは、各々の第一特徴パラメータの重み係数に基づいて、少なくとも2つの第一特徴パラメータの加重平均を確定し、各々の第二特徴パラメータの重み係数に基づいて、少なくとも2つの第二特徴パラメータの加重平均を確定するために用いられ、
    前記ホワイトニング処理モジュールは、前記少なくとも2つの第一特徴パラメータの加重平均及び前記少なくとも2つの第二特徴パラメータの加重平均に基づいて、前記処理しようとする画像データに対してホワイトニング処理を実行するために用いられる、
    ことを特徴とする画像処理装置。
  10. 前記第一特徴パラメータは平均値ベクトルであり、前記第二特徴パラメータは共分散行列である、
    ことを特徴とする請求項9に記載の画像処理装置。
  11. 前記ホワイトニング処理モジュールの機能はニューラルネットワークによって実行され、
    予め設定された処理方法セットにおける1つの処理方法の第一特徴パラメータの重み係数は、前記ニューラルネットワークにおける前記処理方法の第一制御パラメータの値を利用して正規化された指数関数に基づいて確定され、
    前記処理方法の第二特徴パラメータの重み係数は、前記ニューラルネットワークにおける前記処理方法の第二制御パラメータの値を利用して正規化された指数関数に基づいて確定される、
    ことを特徴とする請求項9又は10に記載の画像処理装置。
  12. 前記画像処理装置はトレーニングモジュールをさらに含み、前記第一制御パラメータ及び前記第二制御パラメータは前記トレーニングモジュールが前記ニューラルネットワークをトレーニングする時に獲得し、前記トレーニングモジュールは、
    ニューラルネットワークモデルの逆伝播法に基づいて、前記ニューラルネットワークの損失関数を最小化することにより、前記第一制御パラメータ、前記第二制御パラメータ及び前記ニューラルネットワークのネットワークパラメータに対して共同最適化を実行し、
    前記ニューラルネットワークの損失関数が最小になる時の第一制御パラメータの値を前記ニューラルネットワークの第一制御パラメーターの値とし、
    前記ニューラルネットワークの損失関数が最小になる時の第二制御パラメータの値を前記ニューラルネットワークの第二制御パラメーターの値とするために用いられる、
    ことを特徴とする請求項11に記載の画像処理装置。
  13. 前記トレーニングモジュールは、具体的に、
    トレーニングしようとするニューラルネットワークに予め設定された処理方法セットの各処理方法の第一特徴パラメータの加重平均及び各処理方法の第二特徴パラメータの加重平均に基づいて、トレーニング用の画像データに対してホワイトニング処理を実行し、且つ予測結果を出力し、その中において、前記予め設定された処理方法セットの第一処理方法の第一制御パラメータの初期値は第一プリセット値であり、前記予め設定された処理方法セットの第一処理方法の第二制御パラメータの初期値は第二プリセット値であり、
    前記トレーニングしようとするニューラルネットワークから出力された予測結果及び前記トレーニング用の画像データの注釈結果に基づいて、前記ニューラルネットワークの損失関数を確定し、
    前記トレーニングしようとするニューラルネットワークの損失関数に基づいて、前記トレーニングしようとするニューラルネットワークの各第一制御パラメータ、各第二制御パラメータ及び各ネットワークパラメータを調整するために用いられる、
    ことを特徴とする請求項12に記載の画像処理装置。
  14. 前記ホワイトニング処理モジュールは、具体的に、
    前記少なくとも2つの第一特徴パラメータの加重平均、前記少なくとも2つの第二特徴パラメータの加重平均及び前記処理しようとする画像データのチャネル数、高さ及び幅に基づいて、前記処理しようとする画像データの中の各画像データに対してホワイトニング処理を実行するために用いられる、
    ことを特徴とする請求項12又は13に記載の画像処理装置。
  15. 前記標準化方法は、バッチ標準化方法、インスタンス標準化方法、レイヤ標準化方法の中の少なくとも1つを含む、
    ことを特徴とする請求項14に記載の画像処理装置。
  16. 前記ホワイトニング方法は、バッチホワイトニング方法、インスタンスホワイトニング方法の中の少なくとも1つを含む、
    ことを特徴とする請求項15に記載の画像処理装置。
  17. プロセッサ及びメモリを含み、前記メモリにはコンピュータ実行可能命令が格納され、前記メモリに格納されたコンピュータ実行可能命令が前記プロセッサによって実行されると、請求項1〜8のいずれか一項に記載の画像処理方法を実現する、
    ことを特徴とする電子装置。
  18. コンピュータプログラムが格納され、前記コンピュータプログラムがプロセッサによって実行されると、請求項1〜8のいずれか一項に記載の画像処理方法を実現する、
    ことを特徴とするコンピュータ可読記憶媒体。
  19. 命令を含むコンピュータプログラム製品であって、それがコンピュータ上で実行されるとき、コンピュータに請求項1〜8のいずれか一項に記載の方法を実行させる、
    ことを特徴とするコンピュータプログラム製品。

JP2020563944A 2019-03-30 2019-11-27 画像処理方法、装置、電子装置及び記憶媒体 Pending JP2021526678A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910253934.9A CN109961102B (zh) 2019-03-30 2019-03-30 图像处理方法、装置、电子设备及存储介质
CN201910253934.9 2019-03-30
PCT/CN2019/121180 WO2020199619A1 (zh) 2019-03-30 2019-11-27 图像处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
JP2021526678A true JP2021526678A (ja) 2021-10-07

Family

ID=67025391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020563944A Pending JP2021526678A (ja) 2019-03-30 2019-11-27 画像処理方法、装置、電子装置及び記憶媒体

Country Status (6)

Country Link
US (1) US20210049403A1 (ja)
JP (1) JP2021526678A (ja)
KR (1) KR102428054B1 (ja)
CN (1) CN109961102B (ja)
SG (1) SG11202010734RA (ja)
WO (1) WO2020199619A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228696B (zh) * 2017-08-31 2021-03-23 深圳市商汤科技有限公司 人脸图像检索方法和系统、拍摄装置、计算机存储介质
CN109961102B (zh) * 2019-03-30 2021-06-22 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质
US11080834B2 (en) * 2019-12-26 2021-08-03 Ping An Technology (Shenzhen) Co., Ltd. Image processing method and electronic device
CN112541857B (zh) * 2020-12-24 2022-09-16 南开大学 基于增强表现力神经网络批归一化的图像表征方法及系统
CN115460346B (zh) * 2022-08-17 2024-01-23 山东浪潮超高清智能科技有限公司 一种自动调整角度的数据采集装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262962A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Systems and methods for normalizing an image

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9076233B2 (en) * 2012-02-03 2015-07-07 Seiko Epson Corporation Image processing device and electronic apparatus using the same
CN104021558B (zh) * 2014-06-16 2017-01-11 哈尔滨工业大学 一种基于归一Zernike矩和灰度匹配的液晶仪表图案视觉检测方法
CN104240200B (zh) * 2014-09-02 2017-06-06 西安电子科技大学 基于散射模型和非局部均值相结合的极化sar相干斑抑制方法
CN104700353B (zh) * 2015-02-11 2017-12-05 小米科技有限责任公司 图像滤镜生成方法及装置
WO2016145379A1 (en) * 2015-03-12 2016-09-15 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
EP3304437B1 (en) * 2015-06-05 2021-05-26 DeepMind Technologies Limited Whitened neural network layers
CN106803054B (zh) * 2015-11-26 2019-04-23 腾讯科技(深圳)有限公司 人脸模型矩阵训练方法和装置
CN105574829A (zh) * 2016-01-13 2016-05-11 合肥工业大学 针对极化sar图像的自适应双边滤波算法
CN107633293A (zh) * 2016-07-19 2018-01-26 北京图森未来科技有限公司 一种领域自适应方法及装置
CN106529428A (zh) * 2016-10-31 2017-03-22 西北工业大学 基于深度学习的水下目标识别方法
CN107273845B (zh) * 2017-06-12 2020-10-02 大连海事大学 一种基于置信区域和多特征加权融合的人脸表情识别方法
US10691975B2 (en) * 2017-07-19 2020-06-23 XNOR.ai, Inc. Lookup-based convolutional neural network
CN108875787B (zh) * 2018-05-23 2020-07-14 北京市商汤科技开发有限公司 一种图像识别方法及装置、计算机设备和存储介质
EP3853764A1 (en) * 2018-09-20 2021-07-28 NVIDIA Corporation Training neural networks for vehicle re-identification
US10791310B2 (en) * 2018-10-02 2020-09-29 Intel Corporation Method and system of deep learning-based automatic white balancing
CN109146825B (zh) * 2018-10-12 2020-11-27 深圳美图创新科技有限公司 摄影风格转换方法、装置及可读存储介质
CN109165698A (zh) * 2018-10-16 2019-01-08 中国电子科技集团公司信息科学研究院 一种面向智慧交通的图像分类识别方法及其存储介质
US11138469B2 (en) * 2019-01-15 2021-10-05 Naver Corporation Training and using a convolutional neural network for person re-identification
CN109961102B (zh) * 2019-03-30 2021-06-22 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262962A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Systems and methods for normalizing an image

Also Published As

Publication number Publication date
CN109961102B (zh) 2021-06-22
SG11202010734RA (en) 2020-11-27
WO2020199619A1 (zh) 2020-10-08
CN109961102A (zh) 2019-07-02
KR102428054B1 (ko) 2022-08-01
KR20200143450A (ko) 2020-12-23
US20210049403A1 (en) 2021-02-18

Similar Documents

Publication Publication Date Title
JP2021526678A (ja) 画像処理方法、装置、電子装置及び記憶媒体
WO2021093468A1 (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
US10892050B2 (en) Deep image classification of medical images
CN107292352B (zh) 基于卷积神经网络的图像分类方法和装置
CN108229280A (zh) 时域动作检测方法和系统、电子设备、计算机存储介质
CN110069129B (zh) 确定系统和确定方法
CN109034206A (zh) 图像分类识别方法、装置、电子设备及计算机可读介质
JP7111088B2 (ja) 画像検索装置、学習方法及びプログラム
KR20240038939A (ko) 스타일 변환을 위한 영상 처리 장치 및 방법
KR102046113B1 (ko) 신경망 학습 방법 및 그 장치
CN111079833B (zh) 图像识别方法、装置以及计算机可读存储介质
KR101955919B1 (ko) 딥러닝 기반의 영상데이터 내 관심영역 설정방법 및 프로그램
CN110598638A (zh) 模型训练方法、人脸性别预测方法、设备及存储介质
US11393144B2 (en) System and method for rendering an image
CN109583367A (zh) 图像文本行检测方法及装置、存储介质和电子设备
CN113836804A (zh) 基于卷积神经网络的动物识别模型建立方法及其应用系统
CN111723762A (zh) 人脸属性识别方法、装置、电子设备及存储介质
Sikka Elements of Deep Learning for Computer Vision: Explore Deep Neural Network Architectures, PyTorch, Object Detection Algorithms, and Computer Vision Applications for Python Coders (English Edition)
CN117315758A (zh) 面部表情的检测方法、装置、电子设备及存储介质
Wang et al. MetaScleraSeg: an effective meta-learning framework for generalized sclera segmentation
CN112101109A (zh) 人脸关键点检测模型训练方法、装置、电子设备和介质
CN114841887B (zh) 一种基于多层次差异学习的图像恢复质量评价方法
CN110619288A (zh) 一种手势识别方法、控制装置及可读存储介质
CN116152645A (zh) 一种融合多种表征平衡策略的室内场景视觉识别方法及系统
CN112950567A (zh) 质量评价方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220506

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220817