JP2021533430A - 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム - Google Patents

画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2021533430A
JP2021533430A JP2020563999A JP2020563999A JP2021533430A JP 2021533430 A JP2021533430 A JP 2021533430A JP 2020563999 A JP2020563999 A JP 2020563999A JP 2020563999 A JP2020563999 A JP 2020563999A JP 2021533430 A JP2021533430 A JP 2021533430A
Authority
JP
Japan
Prior art keywords
feature
stage
scale
network
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020563999A
Other languages
English (en)
Other versions
JP7106679B2 (ja
Inventor
昆霖 楊
鯤 顔
軍 候
暁聡 蔡
帥 伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2021533430A publication Critical patent/JP2021533430A/ja
Application granted granted Critical
Publication of JP7106679B2 publication Critical patent/JP7106679B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本開示は画像処理方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得することと、M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得することと、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含む。本開示の実施例によければ、予測結果の品質及びロバスト性を向上させることができる。【選択図】図1

Description

本開示はコンピュータテクノロジーの分野に関し、特に画像処理方法及び装置、電子機器並びに記憶媒体に関する。
人工知能は、技術の継続的な発展に伴い、コンピュータビジョン、音声認識等のいずれにおいても優れた効果を収めている。場面内の対象物(例えば、歩行者、車両など)を識別するタスクでは、場面内の対象物の数や分布状況などを予測することが必要となる場合がある。
本開示は画像処理の発明を提案する。
本開示の一側面では、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得することと、M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得することと、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含み、ここで、M、Nは1より大きい整数である画像処理方法を提供する。
1つの可能な実施形態では、M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、符号化後の複数の特徴マップを取得することは、第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得することと、第m段の符号化ネットワークによって第m−1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得することと、第M段の符号化ネットワークによって第M−1段の符号化後のM個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第M段の符号化後のM+1個の特徴マップを取得することと、を含み、ここで、mは整数で1<m<Mである。
1つの可能な実施形態では、第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第2特徴マップを取得することは、前記第1特徴マップをスケールダウンし、第2特徴マップを取得することと、前記第1特徴マップと前記第2特徴マップを融合させ、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得することと、を含む。
1つの可能な実施形態では、第m段の符号化ネットワークによって第m−1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得することは、第m−1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、スケールが第m−1段の符号化後のm個の特徴マップのスケールよりも小さいm+1番目の特徴マップを取得することと、前記第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得することと、を含む。
1つの可能な実施形態では、第m−1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、m+1番目の特徴マップを取得することは、第m段の符号化ネットワークの畳み込みサブネットワークによって第m−1段の符号化後のm個の特徴マップをそれぞれスケールダウンし、スケールが前記m+1番目の特徴マップのスケールと同じであるスケールダウン後のm個の特徴マップを取得することと、前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、前記m+1番目の特徴マップを取得することと、を含む。
1つの可能な実施形態では、第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、第m段の符号化ネットワークの特徴最適化サブネットワークによって第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得することと、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することと、を含む。
1つの可能な実施形態では、前記畳み込みサブネットワークは少なくとも1つの第1畳み込み層を含み、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記特徴最適化サブネットワークは少なくとも2つの第2畳み込み層及び残差層を含み、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1であり、前記m+1個の融合サブネットワークは最適化後のm+1個の特徴マップに対応する。
1つの可能な実施形態では、m+1個の融合サブネットワーク内のk番目の融合サブネットワークの場合、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、少なくとも1つの第1畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも大きいk−1個の特徴マップをスケールダウンし、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールダウン後のk−1個の特徴マップを取得することと、及び/又はアップサンプリング層及び第3畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも小さいm+1−k個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールアップ後のm+1−k個の特徴マップを取得することと、を含み、ここで、kは整数で1≦k≦m+1であり、前記第3畳み込み層の畳み込みカーネルサイズは1×1である。
1つの可能な実施形態では、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、前記スケールダウン後のk−1個の特徴マップ、前記特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1−k個の特徴マップのうちの少なくとも2項を融合させ、第m段の符号化後のk番目の特徴マップを取得することをさらに含む。
1つの可能な実施形態では、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することは、第1段の復号化ネットワークによって第M段の符号化後のM+1個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第1段の復号化後のM個の特徴マップを取得することと、第n段の復号化ネットワークによって第n−1段の復号化後のM−n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM−n+1個の特徴マップを取得することと、第N段の復号化ネットワークによって第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含み、ここで、nは整数で1<n<N≦Mである。
1つの可能な実施形態では、第n段の復号化ネットワークによって第n−1段の復号化後のM−n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM−n+1個の特徴マップを取得することは、第n−1段の復号化後のM−n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM−n+1個の特徴マップを取得することと、前記スケールアップ後のM−n+1個の特徴マップを融合させ、第n段の復号化後のM−n+1個の特徴マップを取得することと、を含む。
1つの可能な実施形態では、第N段の復号化ネットワークによって第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することは、第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合を行い、第N段の復号化後の対象特徴マップを取得することと、前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含む。
1つの可能な実施形態では、第n−1段の復号化後のM−n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM−n+1個の特徴マップを取得することは、第n段の復号化ネットワークのM−n+1個の第1融合サブネットワークによって第n−1段の復号化後のM−n+2個の特徴マップを融合させ、融合後のM−n+1個の特徴マップを取得することと、第n段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のM−n+1個の特徴マップをそれぞれスケールアップし、スケールアップ後のM−n+1個の特徴マップを取得することと、を含む。
1つの可能な実施形態では、前記スケールアップ後のM−n+1個の特徴マップを融合させ、第n段の復号化後のM−n+1個の特徴マップを取得することは、第n段の復号化ネットワークのM−n+1個の第2融合サブネットワークによって前記スケールアップ後のM−n+1個の特徴マップを融合させ、融合後のM−n+1個の特徴マップを取得することと、第n段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のM−n+1個の特徴マップをそれぞれ最適化し、第n段の復号化後のM−n+1個の特徴マップを取得することと、を含む。
1つの可能な実施形態では、前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することは、前記第N段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得することと、前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含む。
1つの可能な実施形態では、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得することは、前記特徴抽出ネットワークの少なくとも1つの第1畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得することと、前記特徴抽出ネットワークの少なくとも1つの第2畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第1特徴マップを取得することと、を含む。
1つの可能な実施形態では、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1である。
1つの可能な実施形態では、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記M段の符号化ネットワーク及び前記N段の復号化ネットワークをトレーニングすることをさらに含む。
本開示の別の側面では、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得するための特徴抽出モジュールと、M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するための符号化モジュールと、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための復号化モジュールと、を含み、ここで、M、Nは1より大きい整数である画像処理装置を提供する。
1つの可能な実施形態では、前記符号化モジュールは、第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得するための第1符号化サブモジュールと、第m段の符号化ネットワークによって第m−1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得するための第2符号化サブモジュールと、第M段の符号化ネットワークによって第M−1段の符号化後のM個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第M段の符号化後のM+1個の特徴マップを取得するための第3符号化サブモジュールと、を含み、ここで、mは整数で1<m<Mである。
1つの可能な実施形態では、前記第1符号化サブモジュールは、前記第1特徴マップをスケールダウンし、第2特徴マップを取得するための第1縮小サブモジュールと、前記第1特徴マップと前記第2特徴マップを融合させ、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得するための第1融合サブモジュールと、を含む。
1つの可能な実施形態では、前記第2符号化サブモジュールは、第m−1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、スケールが第m−1段の符号化後のm個の特徴マップのスケールよりも小さいm+1番目の特徴マップを取得するための第2縮小サブモジュールと、前記第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得するための第2融合サブモジュールと、を含む。
1つの可能な実施形態では、前記第2縮小サブモジュールは、第m段の符号化ネットワークの畳み込みサブネットワークによって第m−1段の符号化後のm個の特徴マップをそれぞれスケールダウンし、スケールが前記m+1番目の特徴マップのスケールと同じであるスケールダウン後のm個の特徴マップを取得し、前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、前記m+1番目の特徴マップを取得する。
1つの可能な実施形態では、前記第2融合サブモジュールは、第m段の符号化ネットワークの特徴最適化サブネットワークによって第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得し、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得する。
1つの可能な実施形態では、前記畳み込みサブネットワークは少なくとも1つの第1畳み込み層を含み、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記特徴最適化サブネットワークは少なくとも2つの第2畳み込み層及び残差層を含み、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1であり、前記m+1個の融合サブネットワークは最適化後のm+1個の特徴マップに対応する。
1つの可能な実施形態では、m+1個の融合サブネットワーク内のk番目の融合サブネットワークの場合、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、少なくとも1つの第1畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも大きいk−1個の特徴マップをスケールダウンし、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールダウン後のk−1個の特徴マップを取得することと、及び/又はアップサンプリング層及び第3畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも小さいm+1−k個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールアップ後のm+1−k個の特徴マップを取得することと、を含み、ここで、kは整数で1≦k≦m+1であり、前記第3畳み込み層の畳み込みカーネルサイズは1×1である。
1つの可能な実施形態では、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、前記スケールダウン後のk−1個の特徴マップ、前記特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1−k個の特徴マップのうちの少なくとも2項を融合させ、第m段の符号化後のk番目の特徴マップを取得することをさらに含む。
1つの可能な実施形態では、前記復号化モジュールは、第1段の復号化ネットワークによって第M段の符号化後のM+1個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第1段の復号化後のM個の特徴マップを取得するための第1復号化サブモジュールと、第n段の復号化ネットワークによって第n−1段の復号化後のM−n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM−n+1個の特徴マップを取得するための第2復号化サブモジュールと、第N段の復号化ネットワークによって第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための第3復号化サブモジュールと、を含み、ここで、nは整数で1<n<N≦Mである。
1つの可能な実施形態では、前記第2復号化サブモジュールは、第n−1段の復号化後のM−n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM−n+1個の特徴マップを取得するための拡大サブモジュールと、前記スケールアップ後のM−n+1個の特徴マップを融合させ、第n段の復号化後のM−n+1個の特徴マップを取得するための第3融合サブモジュールと、を含む。
1つの可能な実施形態では、前記第3復号化サブモジュールは、第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合を行い、第N段の復号化後の対象特徴マップを取得するための第4融合サブモジュールと、前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定するための結果決定サブモジュールと、を含む。
1つの可能な実施形態では、前記拡大サブモジュールは、第n段の復号化ネットワークのM−n+1個の第1融合サブネットワークによって第n−1段の復号化後のM−n+2個の特徴マップを融合させ、融合後のM−n+1個の特徴マップを取得し、第n段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のM−n+1個の特徴マップをそれぞれスケールアップし、スケールアップ後のM−n+1個の特徴マップを取得する。
1つの可能な実施形態では、前記第3融合サブモジュールは、第n段の復号化ネットワークのM−n+1個の第2融合サブネットワークによって前記スケールアップ後のM−n+1個の特徴マップを融合させ、融合後のM−n+1個の特徴マップを取得し、第n段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のM−n+1個の特徴マップをそれぞれ最適化し、第n段の復号化後のM−n+1個の特徴マップを取得する。
1つの可能な実施形態では、前記結果決定サブモジュールは、前記第N段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得し、前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定する。
1つの可能な実施形態では、前記特徴抽出モジュールは、前記特徴抽出ネットワークの少なくとも1つの第1畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得するための畳み込みサブモジュールと、前記特徴抽出ネットワークの少なくとも1つの第2畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第1特徴マップを取得するための最適化サブモジュールと、を含む。
1つの可能な実施形態では、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1である。
1つの可能な実施形態では、前記装置は、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記M段の符号化ネットワーク及び前記N段の復号化ネットワークをトレーニングするためのレーニングサブモジュールをさらに含む。
本開示の別の側面では、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、上記方法を実行するように構成される電子機器を提供する。
本開示の別の側面では、コンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令は、プロセッサにより実行されると、上記方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。
本開示の別の側面では、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器のプロセッサに上記方法を実行させるコンピュータプログラムを提供する。
本開示の実施例において、M段の符号化ネットワークによって画像の特徴マップに対してスケールダウン及びマルチスケール融合を行い、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行うことにより、符号化及び復号化過程においてマルチスケールのグローバル情報とローカル情報を複数回融合させ、より有効なマルチスケール情報を保留し、予測結果の品質及びロバスト性を向上させることができる。
以上の一般的な説明及び後述の詳細な説明は例示的・解釈的なものにすぎず、本開示を制限するものではないことが理解すべきである。以下に図面を参照しながら例示的な実施例を詳しく説明することにより、本開示のその他の特徴及び側面がより明確になる。
ここで、本明細書の一部として組み込まれる図面は、本開示に適する実施例を示し、明細書と共に本開示の技術的解決手段の説明に用いられる。
本開示の実施例に係る画像処理方法のフローチャートを示す。 本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。 本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。 本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。 本開示の実施例に係る画像処理方法のネットワーク構造の模式図を示す。 本開示の実施例に係る画像処理装置のブロック図を示す。 本開示の実施例に係る電子機器のブロック図を示す。 本開示の実施例に係る電子機器のブロック図を示す。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴及び側面を詳細に説明する。図面において、同じ符号は同じまたは類似の機能の要素を表す。図面において実施例の様々な側面を示すが、特に断りがない限り、比例に従って図面を描く必要がない。
ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。
本明細書における用語「及び/又は」は、単に関連対象との関連関係を記述するものであり、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBの両方が存在し、Bのみが存在するという3つの場合を示してもよい。また、本明細書における用語「少なくとも1つ」は複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選択されたいずれか1つ又は複数の要素を含むことを示してもよい。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。
図1は本開示の実施例に係る画像処理方法のフローチャートを示す。図1に示すように、前記画像処理方法は、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得するステップS11と、M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するステップS12と、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するステップS13と、を含み、ここで、M、Nは1より大きい整数である。
1つの可能な実施形態では、前記画像処理方法は、ユーザ機器(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、手持ち装置、計算装置、車載装置、ウエアラブルデバイス等の端末装置、サーバなどの他の種類の電子機器により実行されてもよい。前記方法はプロセッサによってメモリに記憶されているコンピュータ読取可能な命令を呼び出して実現されてもよい。あるいは、サーバーによって前記方法を実行してもよい。
1つの可能な実施形態では、処理対象となる画像は、画像取得装置(例えば、カメラ)によって撮影された監視領域(例えば、交差点、ショッピングモールなどの領域)の画像であってもよいし、他の方法で取得された画像(例えば、ネットワークを介してダウンロードされた画像)であってもよい。処理対象となる画像には、一定数の対象物(例えば、歩行者、車両、顧客など)が含まれてもよい。本開示では、処理対象となる画像の種類、取得方法及び画像における対象物の種類については限定しない。
1つの可能な実施形態では、ニューラルネットワーク(例えば、特徴抽出ネットワーク、符号化ネットワーク及び復号化ネットワークを含む)によって処理対象となる画像を解析して処理対象となる画像における対象物の数、分布状況などの情報を予測してもよい。当該ニューラルネットワークは、例えば、畳み込みニューラルネットワークを含んでもよく、本開示では、ニューラルネットワークの具体的な種類については限定しない。
1つの可能な実施形態では、ステップS11において、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、処理対象となる画像の第1特徴マップを取得するようにしてもよい。当該特徴抽出ネットワークは少なくとも畳み込み層を含み、ストライドを持つ畳み込み層(ストライド>1)によって画像又は特徴マップのスケールを縮小し、ストライドを持たない畳み込み層(ストライド=1)によって特徴マップを最適化するようにしてもよい。特徴抽出ネットワークによる処理後、第1特徴マップが取得される。本開示では、特徴抽出ネットワークのネットワーク構造については限定しない。
特徴マップのスケールが大きいほど、処理対象となる画像のローカル情報が多く含まれ、特徴マップのスケールが小さいほど、処理対象となる画像のグローバル情報が多く含まれるので、マルチスケールにおいてグローバル情報とローカル情報を融合させ、より有効なマルチスケールの特徴を抽出することができる。
1つの可能な実施形態では、ステップS12において、M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得する。これにより、各スケールにおいてグローバル情報とローカル情報を融合させ、抽出された特徴の有効性を向上させることができる。
1つの可能な実施形態では、M段の符号化ネットワークにおける各段の符号化ネットワークは畳み込み層、残差層、アップサンプリング層、融合層などを含んでもよい。第1段の符号化ネットワークについて、第1段の符号化ネットワークの畳み込み層(ストライド>1)によって第1特徴マップをスケールダウンし、スケールダウン後の特徴マップ(第2特徴マップ)を取得するようにしてもよい。第1段の符号化ネットワークの畳み込み層(ストライド=1)及び/又は残差層によって第1特徴マップと第2特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後の第1特徴マップと第2特徴マップを取得する。さらに、第1段の符号化ネットワークのアップサンプリング層、畳み込み層(ストライド>1)及び/又は融合層などによって特徴最適化後の第1特徴マップと第2特徴マップをそれぞれ融合させ、第1段の符号化後の第1特徴マップ及び第2特徴マップを取得する。
1つの可能な実施形態では、第1段の符号化ネットワークと類似しているように、M段の符号化ネットワークにおける各段の符号化ネットワークによって、順次、直前の1段の符号化後の複数の特徴マップに対してスケールダウン及びマルチスケール融合を行い、グローバル情報とローカル情報を複数回融合させることにより、抽出された特徴の有効性をさらに向上させることができる。
1つの可能な実施形態では、M段の符号化ネットワークによる処理後、M段の符号化後の複数の特徴マップが取得される。ステップS13において、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、処理対象となる画像のN段の復号化後の特徴マップを取得して処理対象となる画像の予測結果を取得するようにしてもよい。
1つの可能な実施形態では、N段の復号化ネットワークにおける各段の復号化ネットワークは融合層、逆畳み込み層、畳み込み層、残差層、アップサンプリング層などを含んでもよい。第1段の復号化ネットワークについて、第1段の復号化ネットワークの融合層によって符号化後の複数の特徴マップを融合させ、融合後の複数の特徴マップを取得するようにしてもよい。さらに、逆畳み込み層によって融合後の複数の特徴マップをスケールアップし、スケールアップ後の複数の特徴マップを取得する。融合層、畳み込み層(ストライド=1)及び/又は残差層などによって複数の特徴マップに対してそれぞれ融合及び最適化を行い、第1段の復号化後の複数の特徴マップを取得する。
1つの可能な実施形態では、第1段の復号化ネットワークと類似しているように、N段の復号化ネットワークにおける各段の復号化ネットワークによって、各段の復号化ネットワークによって取得された特徴マップの数が順次減少するように直前の1段の復号化後の特徴マップに対してスケールアップ及びマルチスケール融合を順次行い、第N段の復号化ネットワークにより処理対象となる画像のスケールと一致する密度マップ(例えば、対象物の分布密度マップ)を取得し、予測結果を決定する。このように、スケールアップ過程においてグローバル情報とローカル情報を複数回融合させることにより、予測結果の品質を向上させることができる。
本開示の実施例において、M段の符号化ネットワークによって画像の特徴マップに対してスケールダウン及びマルチスケール融合を行い、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行うことにより、符号化及び復号化過程においてマルチスケールのグローバル情報とローカル情報を複数回融合させ、より有効なマルチスケール情報を保留し、予測結果の品質及びロバスト性を向上させることができる。
1つの可能な実施形態では、ステップS11は、前記特徴抽出ネットワークの少なくとも1つの第1畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得することと、前記特徴抽出ネットワークの少なくとも1つの第2畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第1特徴マップを取得することと、を含んでもよい。
例えば、特徴抽出ネットワークは少なくとも1つの第1畳み込み層と少なくとも1つの第2畳み込み層を含んでもよい。第1畳み込み層は、ストライドを持ち(ストライド>1)、画像又は特徴マップのスケールを縮小するための畳み込み層であり、第2畳み込み層は、ストライドを持たず(ストライド=1)、特徴マップを最適化するための畳み込み層である。
1つの可能な実施形態では、特徴抽出ネットワークは、連続する2つの第1畳み込み層を含んでもよく、第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2である。連続する2つの第1畳み込み層によって処理対象となる画像に対して畳み込みを行った後、畳み込み後の特徴マップが取得され、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の1/4となる。なお、当業者は実際の状況に応じて第1畳み込み層の数、畳み込みカーネルサイズ及びストライドを設定することができ、本開示では限定しない。
1つの可能な実施形態では、特徴抽出ネットワークは連続する3つの第2畳み込み層を含んでもよく、第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1である。第1畳み込み層によって畳み込まれた後の特徴マップを連続する3つの第1畳み込み層によって最適化した後、処理対象となる画像の第1特徴マップが取得される。当該第1特徴マップにおいて、スケールは第1畳み込み層によって畳み込まれた後の特徴マップのスケールと同一であり、すなわち、第1特徴マップの幅と高さはそれぞれ処理対象となる画像の1/4となる。なお、当業者は実際の状況に応じて第2畳み込み層の数及び畳み込みカーネルサイズを設定することができ、本開示では限定しない。
このような方法によれば、処理対象となる画像のスケールダウン及び最適化を実現し、特徴情報を有効に抽出することができる。
1つの可能な実施形態では、ステップS12は、第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得することと、第m段の符号化ネットワークによって第m−1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得することと、第M段の符号化ネットワークによって第M−1段の符号化後のM個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第M段の符号化後のM+1個の特徴マップを取得することと、を含んでもよく、ここで、mは整数で1<m<Mである。
例えば、M段の符号化ネットワークにおける各段の符号化ネットワークによって、順次、直前の1段の符号化後の特徴マップを処理してもよく、各段の符号化ネットワークは畳み込み層、残差層、アップサンプリング層、融合層などを含んでもよい。第1段の符号化ネットワークについて、第1段の符号化ネットワークによって第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得するようにしてもよい。
1つの可能な実施形態では、第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第2特徴マップを取得するステップは、前記第1特徴マップをスケールダウンし、第2特徴マップを取得することと、前記第1特徴マップと前記第2特徴マップを融合させ、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得することと、を含んでもよい。
例えば、第1段の符号化ネットワークの第1畳み込み層(畳み込みカーネルサイズが3×3、ストライドが2)によって第1特徴マップに対してスケールダウンを行い、スケールが第1特徴マップのスケールよりも小さい第2特徴マップを取得するようにしてもよい。第2畳み込み層(畳み込みカーネルサイズが3×3、ストライドが1)及び/又は残差層によって第1特徴マップと第2特徴マップをそれぞれ最適化し、最適化後の第1特徴マップと第2特徴マップを取得する。融合層によって第1特徴マップと第2特徴マップに対してそれぞれマルチスケール融合を行い、第1段の符号化後の第1特徴マップ及び第2特徴マップを取得する。
1つの可能な実施形態では、第2畳み込み層によって特徴マップを直接最適化してもよく、第2畳み込み層及び残差層からなる基本ブロック(basic block)によって特徴マップを最適化してもよい。当該基本ブロックは、最適化を行う基本ユニットとして、連続する2つの第2畳み込み層と残差層を含み、残差層によって、入力された特徴マップと畳み込みによって取得された特徴マップとを加算して結果として出力するようにしてもよい。本開示では、最適化の具体的な方法については限定しない。
1つの可能な実施形態では、抽出されたマルチスケール特徴の有効性をさらに向上させるように、マルチスケール融合後の第1特徴マップ及び第2特徴マップに対して最適化及び融合を再度行い、再度最適化及び融合後の第1特徴マップ及び第2特徴マップを第1段の符号化後の第1特徴マップ及び第2特徴マップとする。本開示では、最適化及びマルチスケール融合の回数については限定しない。
1つの可能な実施形態では、M段の符号化ネットワークにおける任意の1段の符号化ネットワーク(第m段の符号化ネットワークであり、mは整数で1<m<Mである)について、第m段の符号化ネットワークによって第m−1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得するようにしてもよい。
1つの可能な実施形態では、第m段の符号化ネットワークによって第m−1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得するステップは、第m−1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、スケールが第m−1段の符号化後のm個の特徴マップのスケールよりも小さいm+1番目の特徴マップを取得することと、前記第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得することと、を含んでもよい。
1つの可能な実施形態では、第m−1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、m+1番目の特徴マップを取得するステップは、第m段の符号化ネットワークの畳み込みサブネットワークによって第m−1段の符号化後のm個の特徴マップをそれぞれスケールダウンし、スケールが前記m+1番目の特徴マップのスケールと同じであるスケールダウン後のm個の特徴マップを取得することと、前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、前記m+1番目の特徴マップを取得することと、を含んでもよい。
例えば、第m段の符号化ネットワークのm個の畳み込みサブネットワーク(各畳み込みサブネットワークは少なくとも1つの第1畳み込み層を含む)によって第m−1段の符号化後のm個の特徴マップをそれぞれスケールダウンし、スケールダウン後のm個の特徴マップを取得するようにしてもよい。当該スケールダウン後のm個の特徴マップはスケールが同一であり、かつ第m−1段の符号化後のm番目の特徴マップのスケールよりも小さい(m+1番目の特徴マップのスケールと同じである)。融合層によって当該スケールダウン後のm個の特徴マップに対して特徴融合を行い、m+1番目の特徴マップを取得する。
1つの可能な実施形態では、各畳み込みサブネットワークは、少なくとも1つの第1畳み込み層を含み、第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、特徴マップをスケールダウンするのに用いられる。畳み込みサブネットワークの第1畳み込み層の数は、対応する特徴マップのスケールに関連付けられており、例えば、第m−1段の符号化後の1番目の特徴マップのスケールが4x(幅と高さはそれぞれ処理対象となる画像の1/4)で、生成されるm個の特徴マップのスケールが16x(幅と高さはそれぞれ処理対象となる画像の1/16)であるとされると、1番目の畳み込みサブネットワークは2つの第1畳み込み層を含む。なお、当業者は実際の状況に応じて畳み込みサブネットワークの第1畳み込み層の数、畳み込みカーネルサイズ及びストライドを設定することができ、本開示では限定しない。
1つの可能な実施形態では、第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得するステップは、第m段の符号化ネットワークの特徴最適化サブネットワークによって第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得することと、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することと、を含んでもよい。
1つの可能な実施形態では、融合層によって第m−1段の符号化後のm個の特徴マップに対してマルチスケール融合を行い、融合後のm個の特徴マップを取得するようにしてもよい。m+1個の特徴最適化サブネットワーク(各特徴最適化サブネットワークは第2畳み込み層及び/又は残差層を含む)によって融合後のm個の特徴マップとm+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得する。その後、m+1個の融合サブネットワークによって特徴最適化後のm+1個の特徴マップに対してそれぞれマルチスケール融合を行い、第m段の符号化後のm+1個の特徴マップを取得する。
1つの可能な実施形態では、m+1個の特徴最適化サブネットワーク(各特徴最適化サブネットワークは第2畳み込み層及び/又は残差層を含む)によって第m−1段の符号化後のm個の特徴マップを直接処理することもできる。すなわち、m+1個の特徴最適化サブネットワークによって第m−1段の符号化後のm個の特徴マップとm+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得する。その後、m+1個の融合サブネットワークによって特徴最適化後のm+1個の特徴マップに対してそれぞれマルチスケール融合を行い、第m段の符号化後のm+1個の特徴マップを取得する。
1つの可能な実施形態では、抽出されたマルチスケール特徴の有効性をさらに向上させるように、マルチスケール融合後のm+1個の特徴マップに対して特徴最適化及びマルチスケール融合を再度行うようにしてもよい。本開示では、特徴最適化及びマルチスケール融合の回数については限定しない。
1つの可能な実施形態では、各特徴最適化サブネットワークは、少なくとも2つの第2畳み込み層及び残差層を含んでもよい。前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1である。例えば、各特徴最適化サブネットワークはいずれも、少なくとも1つの基本ブロック(連続する2つの第2畳み込み層及び残差層)を含んでもよい。各特徴最適化サブネットワークの基本ブロックによって第m−1段の符号化後のm個の特徴マップとm+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得するようにしてもよい。なお、当業者は実際の状況に応じて第2畳み込み層の数及び畳み込みカーネルサイズを設定することができ、本開示では限定しない。
このような方法によれば、抽出されたマルチスケール特徴の有効性をさらに向上させることができる。
1つの可能な実施形態では、第m段の符号化ネットワークのm+1個の融合サブネットワークはそれぞれ特徴最適化後のm+1個の特徴マップを融合させるようにしてもよい。m+1個の融合サブネットワーク内のk番目の融合サブネットワーク(kは整数で1≦k≦m+1)の場合、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、少なくとも1つの第1畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも大きいk−1個の特徴マップをスケールダウンし、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールダウン後のk−1個の特徴マップを取得すること、及び/又は、アップサンプリング層及び第3畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも小さいm+1−k個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールアップ後のm+1−k個の特徴マップを取得することと、を含んでもよく、前記第3畳み込み層の畳み込みカーネルサイズは1×1である。
例えば、まず、k番目の融合サブネットワークは、m+1個の特徴マップのスケールを特徴最適化後のk番目の特徴マップのスケールに調整するようにしてもよい。1<k<m+1の場合、特徴最適化後のk番目の特徴マップよりも前のk−1個の特徴マップのスケールはいずれも特徴最適化後のk番目の特徴マップよりも大きく、例えば、k番目の特徴マップのスケールは16x(幅と高さはそれぞれ処理対象となる画像の1/16)であり、k番目の特徴マップよりも前の特徴マップのスケールは4xと8xである。この場合、少なくとも1つの第1畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも大きいk−1個の特徴マップをスケールダウンしてスケールダウン後のk−1個の特徴マップを取得するようにしてもよい。すなわち、スケールが4xと8xの特徴マップのそれぞれを16xの特徴マップに縮小するために、2つの第1畳み込み層によって4xの特徴マップをスケールダウンし、1つの第1畳み込み層によって8xの特徴マップをスケールダウンするようにしてもよい。これにより、スケールダウン後のk−1個の特徴マップを取得することができる。
1つの可能な実施形態では、1<k<m+1の場合、特徴最適化後のk番目の特徴マップよりも後のm+1−k個の特徴マップのスケールはいずれも特徴最適化後のk番目の特徴マップよりも小さく、例えば、k番目の特徴マップのスケールは16x(幅と高さはそれぞれ処理対象となる画像の1/16)であり、k番目の特徴マップよりも後のm+1−k個の特徴マップは32xである。この場合、アップサンプリング層によって32xの特徴マップをスケールアップし、第3畳み込み層(畳み込みカーネルサイズが1×1)によってスケールアップ後の特徴マップに対してチャネル調整を行ってスケールアップ後の特徴マップのチャネル数とk番目の特徴マップのチャネル数とを同一にして、スケールが16xの特徴マップを取得するようにしてもよい。これにより、スケールアップ後のm+1−k個の特徴マップを取得することができる。
1つの可能な実施形態では、k=1の場合、特徴最適化後の1番目の特徴マップよりも後のm個の特徴マップのスケールはいずれも特徴最適化後の1番目の特徴マップよりも小さく、後のm個の特徴マップのそれぞれに対してスケールアップ及びチャネル調整を行って後のm個のスケールアップ後の特徴マップを取得するようにしてもよい。k=m+1の場合、特徴最適化後のm+1番目の特徴マップよりも前のm個の特徴マップのスケールはいずれも特徴最適化後のm+1番目の特徴マップよりも大きく、前のm個の特徴マップのそれぞれをスケールダウンして前のm個のスケールダウン後の特徴マップを取得するようにしてもよい。
1つの可能な実施形態では、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得するステップは、前記スケールダウン後のk−1個の特徴マップ、前記特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1−k個の特徴マップのうちの少なくとも2項を融合させ、第m段の符号化後のk番目の特徴マップを取得することをさらに含んでもよい。
例えば、k番目の融合サブネットワークはスケール調整後のm+1個の特徴マップを融合させるようにしてもよい。1<k<m+1の場合、スケール調整後のm+1個の特徴マップは、スケールダウン後のk−1個の特徴マップ、特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1−k個の特徴マップを含む。スケールダウン後のk−1個の特徴マップ、特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1−k個の特徴マップの三者を融合させ(加算し)て第m段の符号化後のk番目の特徴マップを取得するようにしてもよい。
1つの可能な実施形態では、k=1の場合、スケール調整後のm+1個の特徴マップは、特徴最適化後の1番目の特徴マップとスケールアップ後のm個の特徴マップを含む。特徴最適化後の1番目の特徴マップとスケールアップ後のm個の特徴マップの両者を融合させ(加算し)て第m段の符号化後の1番目の特徴マップを取得するようにしてもよい。
1つの可能な実施形態では、k=m+1の場合、スケール調整後のm+1個の特徴マップはスケールダウン後のm個の特徴マップと特徴最適化後のm+1番目の特徴マップを含む。スケールダウン後のm個の特徴マップと特徴最適化後のm+1番目の特徴マップの両者を融合させ(加算し)て第m段の符号化後のm+1番目の特徴マップを取得するようにしてもよい。
図2A、図2B及び図2Cは本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。図2A、図2B及び図2Cでは、融合対象となる特徴マップが3つの場合を例に説明する。
図2Aに示すように、k=1の場合、2番目と3番目の特徴マップのそれぞれに対してスケールアップ(アップサンプリング)及びチャネル調整(1×1畳み込み)を行って1番目の特徴マップのスケール及びチャネル数と同一の2つの特徴マップを取得して、さらに、この3つの特徴マップを加算して融合後の特徴マップを取得するようにしてもよい。
図2Bに示すように、k=2の場合、1番目の特徴マップをスケールダウンし(畳み込みカーネルサイズが3×3、ストライドが2の畳み込み)、3番目の特徴マップに対してスケールアップ(アップサンプリング)及びチャネル調整(1×1畳み込み)を行って、2番目の特徴マップのスケール及びチャネル数と同一の2つの特徴マップを取得して、さらに、この3つの特徴マップを加算して融合後の特徴マップを取得するようにしてもよい。
図2Cに示すように、k=3の場合、1番目と2番目の特徴マップをスケールダウンするようにしてもよい(畳み込みカーネルサイズが3×3、ストライドが2の畳み込み)。1番目の特徴マップと3番目の特徴マップとのスケール差が4倍であるため、2回の畳み込み(畳み込みカーネルサイズが3×3、ストライドが2)を行うようにしてもよい。スケールダウンにより3番目の特徴マップのスケール及びチャネル数と同一の2つの特徴マップを取得して、さらに、この3つの特徴マップを加算して融合後の特徴マップを取得するようにしてもよい。
このような方法によれば、スケールの異なる複数の特徴マップ間のマルチスケール融合を実現し、各スケールにおいてグローバル情報とローカル情報を融合させ、より有効なマルチスケール特徴を抽出することができる。
1つの可能な実施形態では、M段の符号化ネットワークにおける最後の1段の(第M段の符号化ネットワーク)について、当該第M段の符号化ネットワークは第m段の符号化ネットワークの構造と類似してもよい。第M段の符号化ネットワークによる第M−1段の符号化後のM個の特徴マップへの処理手順も第m段の符号化ネットワークによる第m−1段の符号化後のm個の特徴マップへの処理手順と類似しているので、ここで詳細な説明を省略する。第M段の符号化ネットワークによる処理後、第M段の符号化後のM+1個の特徴マップが取得される。例えば、M=3の場合、スケールが4x、8x、16x及び32xの4つの特徴マップを取得することができる。本開示では、Mの具体的な数値については限定しない。
このような方法によれば、M段の符号化ネットワークの処理手順全体を実現し、スケールが異なる複数の特徴マップを取得し、処理対象となる画像のグローバル特徴情報とローカル特徴情報をより有効に抽出することができる。
1つの可能な実施形態では、ステップS13は、第1段の復号化ネットワークによって第M段の符号化後のM+1個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第1段の復号化後のM個の特徴マップを取得することと、第n段の復号化ネットワークによって第n−1段の復号化後のM−n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM−n+1個の特徴マップを取得することと、第N段の復号化ネットワークによって第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含んでもよく、ここで、nは整数で1<n<N≦Mである。
例えば、M段の符号化ネットワークによる処理後、第M段の符号化後のM+1個の特徴マップが取得される。N段の復号化ネットワークにおける各段の復号化ネットワークによって、順次、直前の1段の復号化後の特徴マップを処理し、各段の復号化ネットワークは融合層、逆畳み込み層、畳み込み層、残差層、アップサンプリング層などを含んでもよい。第1段の復号化ネットワークについて、第1段の復号化ネットワークによって第M段の符号化後のM+1個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第1段の復号化後のM個の特徴マップを取得するようにしてもよい。
1つの可能な実施形態では、N段の復号化ネットワークにおける任意の1段の復号化ネットワーク(第n段の復号化ネットワークであり、nは整数で1<n<N≦M)について、第n段の復号化ネットワークによって第n−1段の復号化後のM−n+2個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第n段の復号化後のM−n+1個の特徴マップを取得するようにしてもよい。
1つの可能な実施形態では、第n段の復号化ネットワークによって第n−1段の復号化後のM−n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM−n+1個の特徴マップを取得するステップは、第n−1段の復号化後のM−n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM−n+1個の特徴マップを取得することと、前記スケールアップ後のM−n+1個の特徴マップを融合させ、第n段の復号化後のM−n+1個の特徴マップを取得することと、を含んでもよい。
1つの可能な実施形態では、第n−1段の復号化後のM−n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM−n+1個の特徴マップを取得するステップは、第n段の復号化ネットワークのM−n+1個の第1融合サブネットワークによって第n−1段の復号化後のM−n+2個の特徴マップを融合させ、融合後のM−n+1個の特徴マップを取得することと、第n段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のM−n+1個の特徴マップをそれぞれスケールアップし、スケールアップ後のM−n+1個の特徴マップを取得することと、を含んでもよい。
例えば、まず、第n−1段の復号化後のM−n+2個の特徴マップを融合させ、マルチスケール情報を融合させるとともに特徴マップの数を減らすようにしてもよい。M−n+2個の特徴マップのうちの前のM−n+1個の特徴マップに対応するM−n+1個の第1融合サブネットワークを設置してもよい。例えば、融合対象となる特徴マップは、スケールが4x、8x、16x及び32xの4つの特徴マップを含む場合、融合によってスケールが4x、8x及び16xの3つの特徴マップを取得するように、3つの第1融合サブネットワークを設置するようにしてもよい。
1つの可能な実施形態では、第n段の復号化ネットワークのM−n+1個の第1融合サブネットワークのネットワーク構造は第m段の符号化ネットワークのm+1個の融合サブネットワークのネットワーク構造と類似してもよい。例えば、q番目の第1融合サブネットワーク(1≦q≦M−n+1)について、q番目の第1融合サブネットワークは、まず、M−n+2個の特徴マップのスケールを第n−1段の復号化後のq番目の特徴マップのスケールに調整し、さらに、スケール調整後のM−n+2個の特徴マップを融合させ、融合後のq番目の特徴マップを取得する。これにより、融合後のM−n+1個の特徴マップを取得することができる。スケール調整及び融合の具体的な過程については、ここで詳細な説明を省略する。
1つの可能な実施形態では、第n段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のM−n+1個の特徴マップをそれぞれスケールアップし、例えば、スケールが4x、8x及び16xの3つの融合後の特徴マップを2x、4x及び8xの3つの特徴マップに拡大するようにしてもよい。拡大によりスケールアップ後のM−n+1個の特徴マップを取得する。
1つの可能な実施形態では、前記スケールアップ後のM−n+1個の特徴マップを融合させ、第n段の復号化後のM−n+1個の特徴マップを取得するステップは、第n段の復号化ネットワークのM−n+1個の第2融合サブネットワークによって前記スケールアップ後のM−n+1個の特徴マップを融合させ、融合後のM−n+1個の特徴マップを取得することと、第n段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のM−n+1個の特徴マップをそれぞれ最適化し、第n段の復号化後のM−n+1個の特徴マップを取得することと、を含んでもよい。
例えば、スケールアップ後のM−n+1個の特徴マップを取得した後、M−n+1個の第2融合サブネットワークによって当該M−n+1個の特徴マップに対してそれぞれスケール調整及び融合を行い、融合後のM−n+1個の特徴マップを取得するようにしてもよい。スケール調整及び融合の具体的な過程については、ここで詳細な説明を省略する。
1つの可能な実施形態では、第n段の復号化ネットワークの特徴最適化サブネットワークによって融合後のM−n+1個の特徴マップをそれぞれ最適化し、各特徴最適化サブネットワークはいずれも少なくとも1つの基本ブロックを含んでもよい。特徴最適化により第n段の復号化後のM−n+1個の特徴マップを取得することができる。特徴最適化の具体的な過程については、ここで詳細な説明を省略する。
1つの可能な実施形態では、スケールの異なるグローバル特徴とローカル特徴をさらに融合させるように、第n段の復号化ネットワークのマルチスケール融合及び特徴最適化の過程を複数回繰り返してもよい。本開示では、マルチスケール融合及び特徴最適化の回数については限定しない。
このような方法によれば、複数のスケールの特徴マップを拡大し、かつ、同様に複数のスケールの特徴マップ情報を融合させることにより、特徴マップのマルチスケール情報を保留し、予測結果の品質を向上させることができる。
1つの可能な実施形態では、第N段の復号化ネットワークによって第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するステップは、第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合を行い、第N段の復号化後の対象特徴マップを取得することと、前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含んでもよい。
例えば、第N−1段の復号化ネットワークによる処理後、M−N+2個の特徴マップが取得され、当該M−N+2個の特徴マップにおいて、最大スケールの特徴マップのスケールが処理対象となる画像のスケールと同じである(スケールが1xの特徴マップ)。N段の復号化ネットワークの最後の1段の(第N段の復号化ネットワーク)について、第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合処理を行うようにしてもよい。N=Mの場合、第N−1段の復号化後の特徴マップが2つあり(例えば、スケールが1xと2xの特徴マップ)、N<Mの場合、第N−1段の復号化後の特徴マップが3つ以上ある(例えば、スケールが1x、2x及び4xの特徴マップ)。本開示では限定しない。
1つの可能な実施形態では、第N段の復号化ネットワークの融合サブネットワークによってM−N+2個の特徴マップに対してマルチスケール融合(スケール調整及び融合)を行い、第N段の復号化後の対象特徴マップを取得するようにしてもよい。当該対象特徴マップのスケールは処理対象となる画像のスケールと一致してもよい。スケール調整及び融合の具体的な過程については、ここで詳細な説明を省略する。
1つの可能な実施形態では、前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定するステップは、前記第N段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得することと、前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含んでもよい。
例えば、第N段の復号化後の対象特徴マップを取得した後、対象特徴マップの最適化を継続し、複数の第2畳み込み層(畳み込みカーネルサイズが3×3、ストライドが1)、複数の基本ブロック(第2畳み込み層及び残差層を含む)、少なくとも1つの第3畳み込み層(畳み込みカーネルサイズが1×1)のうちの少なくとも1つによって対象特徴マップを最適化し、処理対象となる画像の予測密度マップを取得するようにしてもよい。本開示では、最適化の具体的な方法については限定しない。
1つの可能な実施形態では、予測密度マップに基づいて、処理対象となる画像の予測結果を決定するようにしてもよい。当該予測密度マップをそのまま処理対象となる画像の予測結果としてもよい。当該予測密度マップをさらに処理し(例えば、softmax層などによる処理)て処理対象となる画像の予測結果を取得してもよい。
このような方法によれば、N段の復号化ネットワークはスケールアップ過程においてグローバル情報とローカル情報を複数回融合させ、予測結果の品質を向上させる。
図3は本開示の実施例に係る画像処理方法のネットワーク構造の模式図を示す。図3に示すように、本開示の実施例に係る画像処理方法を実現するニューラルネットワークは、特徴抽出ネットワーク31、3段の符号化ネットワーク32(第1段の符号化ネットワーク321、第2段の符号化ネットワーク322及び第3段の符号化ネットワーク323を含む)及び3段の復号化ネットワーク33(第1段の復号化ネットワーク331、第2段の復号化ネットワーク332及び第3段の復号化ネットワーク333を含む)を含んでもよい。
1つの可能な実施形態では、図3に示すように、処理対象となる画像34(スケールが1x)を特徴抽出ネットワーク31に入力して処理を行い、連続する2つの第1畳み込み層(畳み込みカーネルサイズが3×3、ストライドが2)によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップ(スケールが4xであり、すなわち、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の1/4である)を取得し、さらに、3つの第2畳み込み層(畳み込みカーネルサイズが3×3、ストライドが1)によって畳み込み後の特徴マップ(スケールが4x)を最適化し、第1特徴マップ(スケールが4x)を取得する。
1つの可能な実施形態では、第1特徴マップ(スケールが4x)を第1段の符号化ネットワーク321に入力し、畳み込みサブネットワーク(第1畳み込み層を含む)によって第1特徴マップに対して畳み込みを行い(スケールダウンし)、第2特徴マップ(スケールが8xであり、すなわち、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の1/8である)を取得するようにしてもよい。特徴最適化サブネットワーク(少なくとも1つの基本ブロックであり、第2畳み込み層及び残差層を含む)によって第1特徴マップと第2特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後の第1特徴マップと第2特徴マップを取得する。特徴最適化後の第1特徴マップと第2特徴マップに対してマルチスケール融合を行い、第1段の符号化後の第1特徴マップ及び第2特徴マップを取得する。
1つの可能な実施形態では、第1段の符号化後の第1特徴マップ(スケールが4x)及び第2特徴マップ(スケールが8x)を第2段の符号化ネットワーク322に入力し、畳み込みサブネットワーク(少なくとも1つの第1畳み込み層を含む)によって第1段の符号化後の第1特徴マップと第2特徴マップに対してそれぞれ畳み込み(スケールダウン)及び融合を行い、第3特徴マップ(スケールが16xであり、すなわち、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の1/16である)を取得する。特徴最適化サブネットワーク(少なくとも1つの基本ブロックであり、第2畳み込み層及び残差層を含む)によって第1、第2及び第3特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後の第1、第2及び第3特徴マップを取得する。特徴最適化後の第1、第2及び第3特徴マップに対してマルチスケール融合を行い、融合後の第1、第2及び第3特徴マップを取得する。その後、融合後の第1、第2及び第3特徴マップに対して最適化及び融合を再度行い、第2段の符号化後の第1、第2及び第3特徴マップを取得する。
1つの可能な実施形態では、第2段の符号化後の第1、第2及び第3特徴マップ(4x、8x及び16x)を第3段の符号化ネットワーク323に入力し、畳み込みサブネットワーク(少なくとも1つの第1畳み込み層を含む)によって第2段の符号化後の第1、第2及び第3特徴マップに対してそれぞれ畳み込み(スケールダウン)及び融合を行い、第4特徴マップ(スケールが32xであり、すなわち、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の1/32である)を取得する。特徴最適化サブネットワーク(少なくとも1つの基本ブロックであり、第2畳み込み層及び残差層を含む)によって第1、第2、第3及び第4特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後の第1、第2、第3及び第4特徴マップを取得する。特徴最適化後の第1、第2、第3及び第4特徴マップに対してマルチスケール融合を行い、融合後の第1、第2、第3及び第4特徴マップを取得する。その後、融合後の第1、第2及び第3特徴マップを再度最適化し、第3段の符号化後の第1、第2、第3及び第4特徴マップを取得する。
1つの可能な実施形態では、第3段の符号化後の第1、第2、第3及び第4特徴マップ(スケールが4x、8x、16x及び32x)を第1段の復号化ネットワーク331に入力し、3つの第1融合サブネットワークによって第3段の符号化後の第1、第2、第3及び第4特徴マップを融合させ、融合後の3つの特徴マップ(スケールが4x、8x及び16x)を取得する。さらに、融合後の3つの特徴マップに対して逆畳み込みを行い(スケールアップし)、スケールアップ後の3つの特徴マップ(スケールが2x、4x及び8x)を取得する。スケールアップ後の3つの特徴マップに対してマルチスケール融合、特徴最適化、再度のマルチスケール融合及び再度の特徴最適化を行い、第1段の復号化後の3つの特徴マップ(スケールが2x、4x及び8x)を取得する。
1つの可能な実施形態では、第1段の復号化後の3つの特徴マップ(スケールが2x、4x及び8x)を第2段の復号化ネットワーク332に入力し、2つの第1融合サブネットワークによって第1段の復号化後の3つの特徴マップを融合させ、融合後の2つの特徴マップ(スケールが2x及び4x)を取得する。さらに、融合後の2つの特徴マップに対して逆畳み込みを行い(スケールアップし)、スケールアップ後の2つの特徴マップ(スケールが1x及び2x)を取得する。スケールアップ後の2つの特徴マップに対してマルチスケール融合、特徴最適化及び再度のマルチスケール融合を行い、第2段の復号化後の2つの特徴マップ(スケールが1x及び2x)を取得する。
1つの可能な実施形態では、第2段の復号化後の2つの特徴マップ(スケールが1x及び2x)、を第3段の復号化ネットワーク333に入力し、第1融合サブネットワークによって第2段の復号化後の2つの特徴マップを融合させ、融合後の特徴マップ(スケールが1x)を取得する。さらに、融合後の特徴マップを第2畳み込み層及び第3畳み込み層(畳み込みカーネルサイズが1×1)によって最適化し、処理対象となる画像の予測密度マップ(スケールが1x)を取得する。
1つの可能な実施形態では、各畳み込み層の後に正規化層を追加し、各段の畳み込み結果に対して正規化処理を行い、正規化された畳み込み結果を取得することにより、畳み込み結果の精度を向上させるようにしてもよい。
1つの可能な実施形態では、本開示のニューラルネットワークを適用する前に、当該ニューラルネットワークをトレーニングするようにしてもよい。本開示の実施例に係る画像処理方法は、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記M段の符号化ネットワーク及び前記N段の復号化ネットワークをトレーニングすることをさらに含む。
例えば、複数のラベル付きのサンプル画像を予め設置してもよく、各サンプル画像は、例えば、サンプル画像における歩行者の位置、数などのラベル情報が付けられた。複数のラベル付きのサンプル画像をトレーニング群に構成して前記特徴抽出ネットワーク、前記M段の符号化ネットワーク及び前記N段の復号化ネットワークをトレーニングするようにしてもよい。
1つの可能な実施形態では、サンプル画像を特徴抽出ネットワークに入力し、特徴抽出ネットワーク、M段の符号化ネットワーク及びN段の復号化ネットワークの処理により、サンプル画像の予測結果を出力するようにしてもよい。サンプル画像の予測結果とラベル情報に基づいて特徴抽出ネットワーク、M段の符号化ネットワーク及びN段の復号化ネットワークのネットワーク損失を決定する。ネットワーク損失に応じて、特徴抽出ネットワーク、M段の符号化ネットワーク及びN段の復号化ネットワークのネットワークパラメータを調整する。予め設定されたトレーニング条件を満たしている場合、トレーニングされた特徴抽出ネットワーク、M段の符号化ネットワーク及びN段の復号化ネットワークを得るようにしてもよい。本開示では、具体的なトレーニング過程については限定しない。
このような方法によれば、高精度の特徴抽出ネットワーク、M段の符号化ネットワーク及びN段の復号化ネットワークが得られる。
本開示の実施例の画像処理方法によれば、ストライドを持つ畳み込み操作によりスケールが小さな特徴マップを取得し、ネットワーク構造において、グローバル情報とローカル情報との融合を継続的に行ってより有効なマルチスケール情報を抽出し、かつ他のスケールの情報により現在のスケール情報の抽出を促進し、ネットワークのマルチスケールの対象物(例えば、歩行者)への識別のロバスト性を向上させることができる。復号化ネットワークにおいて特徴マップを拡大するとともに、マルチスケール情報の融合を行って、マルチスケール情報を保留し、生成された密度マップの品質を向上させ、モデル予測の正確率を向上させることができる。
本開示の実施例の画像処理方法によれば、スマートビデオ解析や防犯監視などの応用場面に適用でき、場面内の対象物(例えば、歩行者、車両など)を識別し、場面内の対象物の数や分布状況などを予測して、現在の場面における人込みの動作を解析することができる。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。また、当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの具体的な実行順序は、その機能と内部の可能な論理によって決定されることが理解される。
また、本開示はさらに、画像処理装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムを提供する。これらはいずれも、本開示のいずれかの画像処理方法の実施に用いられることができる。かかる発明及び説明は、方法に関する説明のかかる記載を参照すればよく、詳細な説明を省略する。
図4は本開示の実施例に係る画像処理装置のブロック図を示す。図4に示すように、前記画像処理装置は、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得するための特徴抽出モジュール41と、M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するための符号化モジュール42と、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための復号化モジュール43と、を含み、ここで、M、Nは1より大きい整数である。
1つの可能な実施形態では、前記符号化モジュールは、第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得するための第1符号化サブモジュールと、第m段の符号化ネットワークによって第m−1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得するための第2符号化サブモジュールと、第M段の符号化ネットワークによって第M−1段の符号化後のM個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第M段の符号化後のM+1個の特徴マップを取得するための第3符号化サブモジュールと、を含み、mは整数で1<m<Mである。
1つの可能な実施形態では、前記第1符号化サブモジュールは、前記第1特徴マップをスケールダウンし、第2特徴マップを取得するための第1縮小サブモジュールと、前記第1特徴マップと前記第2特徴マップを融合させ、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得するための第1融合サブモジュールと、を含む。
1つの可能な実施形態では、前記第2符号化サブモジュールは、第m−1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、スケールが第m−1段の符号化後のm個の特徴マップのスケールよりも小さいm+1番目の特徴マップを取得するための第2縮小サブモジュールと、前記第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得するための第2融合サブモジュールと、を含む。
1つの可能な実施形態では、前記第2縮小サブモジュールは、第m段の符号化ネットワークの畳み込みサブネットワークによって第m−1段の符号化後のm個の特徴マップをそれぞれスケールダウンし、スケールが前記m+1番目の特徴マップのスケールと同じであるスケールダウン後のm個の特徴マップを取得し、前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、前記m+1番目の特徴マップを取得する。
1つの可能な実施形態では、前記第2融合サブモジュールは、第m段の符号化ネットワークの特徴最適化サブネットワークによって第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得し、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得する。
1つの可能な実施形態では、前記畳み込みサブネットワークは少なくとも1つの第1畳み込み層を含み、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記特徴最適化サブネットワークは少なくとも2つの第2畳み込み層及び残差層を含み、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1であり、前記m+1個の融合サブネットワークは最適化後のm+1個の特徴マップに対応する。
1つの可能な実施形態では、m+1個の融合サブネットワーク内のk番目の融合サブネットワークの場合、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、少なくとも1つの第1畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも大きいk−1個の特徴マップをスケールダウンし、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールダウン後のk−1個の特徴マップを取得すること、及び/又はアップサンプリング層及び第3畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも小さいm+1−k個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールアップ後のm+1−k個の特徴マップを取得することと、を含み、ここで、kは整数で1≦k≦m+1であり、前記第3畳み込み層の畳み込みカーネルサイズは1×1である。
1つの可能な実施形態では、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、前記スケールダウン後のk−1個の特徴マップ、前記特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1−k個の特徴マップのうちの少なくとも2項を融合させ、第m段の符号化後のk番目の特徴マップを取得することをさらに含む。
1つの可能な実施形態では、前記復号化モジュールは、第1段の復号化ネットワークによって第M段の符号化後のM+1個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第1段の復号化後のM個の特徴マップを取得するための第1復号化サブモジュールと、第n段の復号化ネットワークによって第n−1段の復号化後のM−n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM−n+1個の特徴マップを取得するための第2復号化サブモジュールと、第N段の復号化ネットワークによって第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための第3復号化サブモジュールと、を含み、ここで、nは整数で1<n<N≦Mである。
1つの可能な実施形態では、前記第2復号化サブモジュールは、第n−1段の復号化後のM−n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM−n+1個の特徴マップを取得するための拡大サブモジュールと、前記スケールアップ後のM−n+1個の特徴マップを融合させ、第n段の復号化後のM−n+1個の特徴マップを取得するための第3融合サブモジュールと、を含む。
1つの可能な実施形態では、前記第3復号化サブモジュールは、第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合を行い、第N段の復号化後の対象特徴マップを取得するための第4融合サブモジュールと、前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定するための結果決定サブモジュールと、を含む。
1つの可能な実施形態では、前記拡大サブモジュールは、第n段の復号化ネットワークのM−n+1個の第1融合サブネットワークによって第n−1段の復号化後のM−n+2個の特徴マップを融合させ、融合後のM−n+1個の特徴マップを取得し、第n段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のM−n+1個の特徴マップをそれぞれスケールアップし、スケールアップ後のM−n+1個の特徴マップを取得する。
1つの可能な実施形態では、前記第3融合サブモジュールは、第n段の復号化ネットワークのM−n+1個の第2融合サブネットワークによって前記スケールアップ後のM−n+1個の特徴マップを融合させ、融合後のM−n+1個の特徴マップを取得し、第n段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のM−n+1個の特徴マップをそれぞれ最適化し、第n段の復号化後のM−n+1個の特徴マップを取得する。
1つの可能な実施形態では、前記結果決定サブモジュールは、前記第N段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得し、前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定する。
1つの可能な実施形態では、前記特徴抽出モジュールは、前記特徴抽出ネットワークの少なくとも1つの第1畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得するための畳み込みサブモジュールと、前記特徴抽出ネットワークの少なくとも1つの第2畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第1特徴マップを取得するための最適化サブモジュールとを含む。
1つの可能な実施形態では、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1である。
1つの可能な実施形態では、前記装置は、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記M段の符号化ネットワーク及び前記N段の復号化ネットワークをトレーニングするためのレーニングサブモジュールをさらに含む。
いくつかの実施例において、本開示の実施例による装置の機能又は手段は、上記方法実施例に記載の方法を実行するために用いられる。具体的な実施は上記方法実施例の記載を参照すれば明らかになり、簡潔さのため、詳細な説明を省略する。
本開示の実施例はさらに、コンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体であって、コンピュータプログラム命令は、プロセッサにより実行されると、上記方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。コンピュータ読み取り可能な記憶媒体は、コンピュータ読み取り可能な不揮発性記憶媒体であってもよく、またはコンピュータ読み取り可能な揮発性記憶媒体であってもよい。
本開示の実施例はさらに、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、上記方法を実行するように構成される電子機器を提供する。
本開示の実施例はさらに、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器のプロセッサに上記方法を実行させるコンピュータプログラムを提供する。
電子機器は、端末、サーバー又はその他の形態の機器として提供できる。
図5は本開示の実施例に係る電子機器800のブロック図を示す。電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。
図5参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
センサコンポーネント814は電子機器800の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標/BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されと、上記方法を実行させることができる。
図6は本開示の実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900はサーバーとして提供されてもよい。図6を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されているオペレーティングシステム、例えばWindows(登録商標) ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されと、上記方法を実行させることができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。
コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。
ここで、本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
論理に反することなく、本開示の異なる実施例を互いに組み合わせることができ、異なる実施例には重点を置いて説明したが、重点を置いて説明しなかった部分については、他の実施例の記載を参照すれば明らかである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
本願は2019年7月18日に中国特許庁に出願された、出願番号が201910652028.6で、発明の名称が「画像処理方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、その内容全体が援用により本開示に組み込まれる。

Claims (39)

  1. 特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得することと、
    M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得することと、
    N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含み、
    ここで、M、Nは1より大きい整数であることを特徴とする画像処理方法。
  2. M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、符号化後の複数の特徴マップを取得することは、
    第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得することと、
    第m段の符号化ネットワークによって第m−1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得することと、
    第M段の符号化ネットワークによって第M−1段の符号化後のM個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第M段の符号化後のM+1個の特徴マップを取得することと、を含み、
    ここで、mは整数で1<m<Mであることを特徴とする請求項1に記載の方法。
  3. 第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第2特徴マップを取得することは、
    前記第1特徴マップをスケールダウンし、第2特徴マップを取得することと、
    前記第1特徴マップと前記第2特徴マップを融合させ、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得することと、を含むことを特徴とする請求項2に記載の方法。
  4. 第m段の符号化ネットワークによって第m−1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得することは、
    第m−1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、スケールが第m−1段の符号化後のm個の特徴マップのスケールよりも小さいm+1番目の特徴マップを取得することと、
    前記第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得することと、を含むことを特徴とする請求項2又は3に記載の方法。
  5. 第m−1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、m+1番目の特徴マップを取得することは、
    第m段の符号化ネットワークの畳み込みサブネットワークによって第m−1段の符号化後のm個の特徴マップをそれぞれスケールダウンし、スケールが前記m+1番目の特徴マップのスケールと同じであるスケールダウン後のm個の特徴マップを取得することと、
    前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、前記m+1番目の特徴マップを取得することと、を含むことを特徴とする請求項4に記載の方法。
  6. 第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、
    第m段の符号化ネットワークの特徴最適化サブネットワークによって第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得することと、
    第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することと、を含むことを特徴とする請求項4又は5に記載の方法。
  7. 前記畳み込みサブネットワークは少なくとも1つの第1畳み込み層を含み、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、
    前記特徴最適化サブネットワークは少なくとも2つの第2畳み込み層及び残差層を含み、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1であり、
    前記m+1個の融合サブネットワークは最適化後のm+1個の特徴マップに対応することを特徴とする請求項5又は6に記載の方法。
  8. m+1個の融合サブネットワーク内のk番目の融合サブネットワークの場合、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、
    少なくとも1つの第1畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも大きいk−1個の特徴マップをスケールダウンし、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールダウン後のk−1個の特徴マップを取得することと、及び/又は
    アップサンプリング層及び第3畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも小さいm+1−k個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールアップ後のm+1−k個の特徴マップを取得することと、を含み、
    ここで、kは整数で1≦k≦m+1であり、前記第3畳み込み層の畳み込みカーネルサイズは1×1であることを特徴とする請求項7に記載の方法。
  9. 第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、
    前記スケールダウン後のk−1個の特徴マップ、前記特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1−k個の特徴マップのうちの少なくとも2項を融合させ、第m段の符号化後のk番目の特徴マップを取得することをさらに含むことを特徴とする請求項8に記載の方法。
  10. N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することは、
    第1段の復号化ネットワークによって第M段の符号化後のM+1個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第1段の復号化後のM個の特徴マップを取得することと、
    第n段の復号化ネットワークによって第n−1段の復号化後のM−n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM−n+1個の特徴マップを取得することと、
    第N段の復号化ネットワークによって第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含み、
    ここで、nは整数で1<n<N≦Mであることを特徴とする請求項2〜9のいずれか1項に記載の方法。
  11. 第n段の復号化ネットワークによって第n−1段の復号化後のM−n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM−n+1個の特徴マップを取得することは、
    第n−1段の復号化後のM−n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM−n+1個の特徴マップを取得することと、
    前記スケールアップ後のM−n+1個の特徴マップを融合させ、第n段の復号化後のM−n+1個の特徴マップを取得することと、を含むことを特徴とする請求項10に記載の方法。
  12. 第N段の復号化ネットワークによって第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することは、
    第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合を行い、第N段の復号化後の対象特徴マップを取得することと、
    前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含むことを特徴とする請求項10又は11に記載の方法。
  13. 第n−1段の復号化後のM−n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM−n+1個の特徴マップを取得することは、
    第n段の復号化ネットワークのM−n+1個の第1融合サブネットワークによって第n−1段の復号化後のM−n+2個の特徴マップを融合させ、融合後のM−n+1個の特徴マップを取得することと、
    第n段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のM−n+1個の特徴マップをそれぞれスケールアップし、スケールアップ後のM−n+1個の特徴マップを取得することと、を含むことを特徴とする請求項11に記載の方法。
  14. 前記スケールアップ後のM−n+1個の特徴マップを融合させ、第n段の復号化後のM−n+1個の特徴マップを取得することは、
    第n段の復号化ネットワークのM−n+1個の第2融合サブネットワークによって前記スケールアップ後のM−n+1個の特徴マップを融合させ、融合後のM−n+1個の特徴マップを取得することと、
    第n段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のM−n+1個の特徴マップをそれぞれ最適化し、第n段の復号化後のM−n+1個の特徴マップを取得することと、を含むことを特徴とする請求項11又は13に記載の方法。
  15. 前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することは、
    前記第N段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得することと、
    前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含むことを特徴とする請求項12に記載の方法。
  16. 特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得することは、
    前記特徴抽出ネットワークの少なくとも1つの第1畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得することと、
    前記特徴抽出ネットワークの少なくとも1つの第2畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第1特徴マップを取得することと、を含むことを特徴とする請求項1〜15のいずれか1項に記載の方法。
  17. 前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1であることを特徴とする請求項16に記載の方法。
  18. 複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記M段の符号化ネットワーク及び前記N段の復号化ネットワークをトレーニングすることをさらに含むことを特徴とする請求項1〜17のいずれか1項に記載の方法。
  19. 特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得するための特徴抽出モジュールと、
    M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するための符号化モジュールと、
    N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための復号化モジュールと、を含み、
    ここで、M、Nは1より大きい整数であることを特徴とする画像処理装置。
  20. 前記符号化モジュールは、
    第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得するための第1符号化サブモジュールと、
    第m段の符号化ネットワークによって第m−1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得するための第2符号化サブモジュールと、
    第M段の符号化ネットワークによって第M−1段の符号化後のM個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第M段の符号化後のM+1個の特徴マップを取得するための第3符号化サブモジュールと、を含み、
    ここで、mは整数で1<m<Mであることを特徴とする請求項19に記載の装置。
  21. 前記第1符号化サブモジュールは、
    前記第1特徴マップをスケールダウンし、第2特徴マップを取得するための第1縮小サブモジュールと、
    前記第1特徴マップと前記第2特徴マップを融合させ、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得するための第1融合サブモジュールと、を含むことを特徴とする請求項20に記載の装置。
  22. 前記第2符号化サブモジュールは、
    第m−1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、スケールが第m−1段の符号化後のm個の特徴マップのスケールよりも小さいm+1番目の特徴マップを取得するための第2縮小サブモジュールと、
    前記第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得するための第2融合サブモジュールと、を含むことを特徴とする請求項20又は21に記載の装置。
  23. 前記第2縮小サブモジュールは、
    第m段の符号化ネットワークの畳み込みサブネットワークによって第m−1段の符号化後のm個の特徴マップをそれぞれスケールダウンし、スケールが前記m+1番目の特徴マップのスケールと同じであるスケールダウン後のm個の特徴マップを取得し、
    前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、前記m+1番目の特徴マップを取得することを特徴とする請求項22に記載の装置。
  24. 前記第2融合サブモジュールは、
    第m段の符号化ネットワークの特徴最適化サブネットワークによって第m−1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得し、
    第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することを特徴とする請求項22又は23に記載の装置。
  25. 前記畳み込みサブネットワークは少なくとも1つの第1畳み込み層を含み、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、
    前記特徴最適化サブネットワークは少なくとも2つの第2畳み込み層及び残差層を含み、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1であり、
    前記m+1個の融合サブネットワークは最適化後のm+1個の特徴マップに対応することを特徴とする請求項23又は24に記載の装置。
  26. m+1個の融合サブネットワーク内のk番目の融合サブネットワークの場合、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、
    少なくとも1つの第1畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも大きいk−1個の特徴マップをスケールダウンし、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールダウン後のk−1個の特徴マップを取得することと、及び/又は
    アップサンプリング層及び第3畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも小さいm+1−k個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールアップ後のm+1−k個の特徴マップを取得することと、を含み、
    ここで、kは整数で1≦k≦m+1であり、前記第3畳み込み層の畳み込みカーネルサイズは1×1であることを特徴とする請求項25に記載の装置。
  27. 第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、
    前記スケールダウン後のk−1個の特徴マップ、前記特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1−k個の特徴マップのうちの少なくとも2項を融合させ、第m段の符号化後のk番目の特徴マップを取得することをさらに含むことを特徴とする請求項26に記載の装置。
  28. 前記復号化モジュールは、
    第1段の復号化ネットワークによって第M段の符号化後のM+1個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第1段の復号化後のM個の特徴マップを取得するための第1復号化サブモジュールと、
    第n段の復号化ネットワークによって第n−1段の復号化後のM−n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM−n+1個の特徴マップを取得するための第2復号化サブモジュールと、
    第N段の復号化ネットワークによって第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための第3復号化サブモジュールと、を含み、
    ここで、nは整数で1<n<N≦Mであることを特徴とする請求項20〜27のいずれか1項に記載の装置。
  29. 前記第2復号化サブモジュールは、
    第n−1段の復号化後のM−n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM−n+1個の特徴マップを取得するための拡大サブモジュールと、
    前記スケールアップ後のM−n+1個の特徴マップを融合させ、第n段の復号化後のM−n+1個の特徴マップを取得するための第3融合サブモジュールと、を含むことを特徴とする請求項28に記載の装置。
  30. 前記第3復号化サブモジュールは、
    第N−1段の復号化後のM−N+2個の特徴マップに対してマルチスケール融合を行い、第N段の復号化後の対象特徴マップを取得するための第4融合サブモジュールと、
    前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定するための結果決定サブモジュールと、を含むことを特徴とする請求項28又は29に記載の装置。
  31. 前記拡大サブモジュールは、
    第n段の復号化ネットワークのM−n+1個の第1融合サブネットワークによって第n−1段の復号化後のM−n+2個の特徴マップを融合させ、融合後のM−n+1個の特徴マップを取得し、
    第n段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のM−n+1個の特徴マップをそれぞれスケールアップし、スケールアップ後のM−n+1個の特徴マップを取得することを特徴とする請求項29に記載の装置。
  32. 前記第3融合サブモジュールは、
    第n段の復号化ネットワークのM−n+1個の第2融合サブネットワークによって前記スケールアップ後のM−n+1個の特徴マップを融合させ、融合後のM−n+1個の特徴マップを取得し、
    第n段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のM−n+1個の特徴マップをそれぞれ最適化し、第n段の復号化後のM−n+1個の特徴マップを取得することを特徴とする請求項29又は31に記載の装置。
  33. 前記結果決定サブモジュールは、
    前記第N段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得し、
    前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定することを特徴とする請求項30に記載の装置。
  34. 前記特徴抽出モジュールは、
    前記特徴抽出ネットワークの少なくとも1つの第1畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得するための畳み込みサブモジュールと、
    前記特徴抽出ネットワークの少なくとも1つの第2畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第1特徴マップを取得するための最適化サブモジュールと、を含むことを特徴とする請求項19〜33のいずれか1項に記載の装置。
  35. 前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1であることを特徴とする請求項34に記載の装置。
  36. 複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記M段の符号化ネットワーク及び前記N段の復号化ネットワークをトレーニングするためのレーニングサブモジュールをさらに含むことを特徴とする請求項19〜35のいずれか1項に記載の装置。
  37. プロセッサと、
    プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
    前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、請求項1〜18のいずれか1項に記載の方法を実行するように構成されることを特徴とする電子機器。
  38. コンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータプログラム命令は、プロセッサにより実行されると、請求項1〜18のいずれか1項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記憶媒体。
  39. コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器のプロセッサに請求項1〜18のいずれか1項に記載の方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。
JP2020563999A 2019-07-18 2019-11-08 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム Active JP7106679B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910652028.6A CN110378976B (zh) 2019-07-18 2019-07-18 图像处理方法及装置、电子设备和存储介质
CN201910652028.6 2019-07-18
PCT/CN2019/116612 WO2021008022A1 (zh) 2019-07-18 2019-11-08 图像处理方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021533430A true JP2021533430A (ja) 2021-12-02
JP7106679B2 JP7106679B2 (ja) 2022-07-26

Family

ID=68254016

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020563999A Active JP7106679B2 (ja) 2019-07-18 2019-11-08 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム

Country Status (7)

Country Link
US (1) US20210019562A1 (ja)
JP (1) JP7106679B2 (ja)
KR (1) KR102436593B1 (ja)
CN (1) CN110378976B (ja)
SG (1) SG11202008188QA (ja)
TW (2) TWI773481B (ja)
WO (1) WO2021008022A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378976B (zh) * 2019-07-18 2020-11-13 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN112784629A (zh) * 2019-11-06 2021-05-11 株式会社理光 图像处理方法、装置和计算机可读存储介质
CN111027387B (zh) * 2019-11-11 2023-09-26 北京百度网讯科技有限公司 人数评估及评估模型获取方法、装置及存储介质
CN112884772B (zh) 2019-11-29 2024-03-19 北京四维图新科技股份有限公司 语义分割架构
CN111429466A (zh) * 2020-03-19 2020-07-17 北京航空航天大学 一种基于多尺度信息融合网络的空基人群计数与密度估计方法
CN111507408B (zh) * 2020-04-17 2022-11-04 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN111582353B (zh) * 2020-04-30 2022-01-21 恒睿(重庆)人工智能技术研究院有限公司 一种图像特征检测方法、系统、设备以及介质
CN112784897B (zh) 2021-01-20 2024-03-26 北京百度网讯科技有限公司 图像处理方法、装置、设备和存储介质
KR20220108922A (ko) 2021-01-28 2022-08-04 주식회사 만도 조향 제어 장치와, 조향 어시스트 장치 및 방법
CN112990025A (zh) * 2021-03-19 2021-06-18 北京京东拓先科技有限公司 用于处理数据的方法、装置、设备以及存储介质
CN113436287B (zh) * 2021-07-05 2022-06-24 吉林大学 一种基于lstm网络与编解码网络的篡改图像盲取证方法
CN113486908B (zh) * 2021-07-13 2023-08-29 杭州海康威视数字技术股份有限公司 目标检测方法、装置、电子设备及可读存储介质
CN113706530A (zh) * 2021-10-28 2021-11-26 北京矩视智能科技有限公司 基于网络结构的表面缺陷区域分割模型生成方法及装置
CN114419449B (zh) * 2022-03-28 2022-06-24 成都信息工程大学 一种自注意力多尺度特征融合的遥感图像语义分割方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018181124A (ja) * 2017-04-18 2018-11-15 Kddi株式会社 エンコーダデコーダ畳み込みニューラルネットワークにおける解像感を改善するプログラム
JP2020535502A (ja) * 2017-09-22 2020-12-03 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft 組織画像からのアーチファクト除去

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101674568B1 (ko) * 2010-04-12 2016-11-10 삼성디스플레이 주식회사 영상 변환 장치 및 이를 포함하는 입체 영상 표시 장치
CN106462940A (zh) * 2014-10-09 2017-02-22 微软技术许可有限责任公司 图像中通用对象检测
EP3259914A1 (en) * 2015-02-19 2017-12-27 Magic Pony Technology Limited Interpolating visual data
CN107578054A (zh) * 2017-09-27 2018-01-12 北京小米移动软件有限公司 图像处理方法及装置
US10043113B1 (en) * 2017-10-04 2018-08-07 StradVision, Inc. Method and device for generating feature maps by using feature upsampling networks
CN109509192B (zh) * 2018-10-18 2023-05-30 天津大学 融合多尺度特征空间与语义空间的语义分割网络
CN113569796A (zh) * 2018-11-16 2021-10-29 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN110009598B (zh) * 2018-11-26 2023-09-05 腾讯科技(深圳)有限公司 用于图像分割的方法和图像分割设备
CN109598727B (zh) * 2018-11-28 2021-09-14 北京工业大学 一种基于深度神经网络的ct图像肺实质三维语义分割方法
CN109598298B (zh) * 2018-11-29 2021-06-04 上海皓桦科技股份有限公司 图像物体识别方法和系统
CN109598728B (zh) * 2018-11-30 2019-12-27 腾讯科技(深圳)有限公司 图像分割方法、装置、诊断系统及存储介质
CN109784186B (zh) * 2018-12-18 2020-12-15 深圳云天励飞技术有限公司 一种行人重识别方法、装置、电子设备及计算机可读存储介质
CN109635882B (zh) * 2019-01-23 2022-05-13 福州大学 一种基于多尺度卷积特征提取和融合的显著物体检测方法
CN109903301B (zh) * 2019-01-28 2021-04-13 杭州电子科技大学 一种基于多级特征信道优化编码的图像轮廓检测方法
CN109816659B (zh) * 2019-01-28 2021-03-23 北京旷视科技有限公司 图像分割方法、装置及系统
CN109815964A (zh) * 2019-01-31 2019-05-28 北京字节跳动网络技术有限公司 提取图像的特征图的方法和装置
CN109816661B (zh) * 2019-03-22 2022-07-01 电子科技大学 一种基于深度学习的牙齿ct图像分割方法
CN109996071B (zh) * 2019-03-27 2020-03-27 上海交通大学 基于深度学习的可变码率图像编码、解码系统及方法
US10902571B2 (en) * 2019-05-20 2021-01-26 Disney Enterprises, Inc. Automated image synthesis using a comb neural network architecture
CN110378976B (zh) * 2019-07-18 2020-11-13 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018181124A (ja) * 2017-04-18 2018-11-15 Kddi株式会社 エンコーダデコーダ畳み込みニューラルネットワークにおける解像感を改善するプログラム
JP2020535502A (ja) * 2017-09-22 2020-12-03 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft 組織画像からのアーチファクト除去

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
村上佳菜子,外5名: ""U−Netおよびresidual U−Netを用いたCT画像中のびまん性肺疾患領域のセグメンテーシ", 電子情報通信学会技術研究報告, vol. MI2018-102, JPN6022002377, 22 February 2019 (2019-02-22), pages 175 - 179, ISSN: 0004690304 *

Also Published As

Publication number Publication date
KR20210012004A (ko) 2021-02-02
KR102436593B1 (ko) 2022-08-25
US20210019562A1 (en) 2021-01-21
TW202105321A (zh) 2021-02-01
SG11202008188QA (en) 2021-02-25
JP7106679B2 (ja) 2022-07-26
CN110378976B (zh) 2020-11-13
TW202145143A (zh) 2021-12-01
WO2021008022A1 (zh) 2021-01-21
TWI740309B (zh) 2021-09-21
CN110378976A (zh) 2019-10-25
TWI773481B (zh) 2022-08-01

Similar Documents

Publication Publication Date Title
JP7041284B2 (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
JP2021533430A (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022522596A (ja) 画像識別方法及び装置、電子機器並びに記憶媒体
US20210089799A1 (en) Pedestrian Recognition Method and Apparatus and Storage Medium
JP6968270B2 (ja) 画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体
JP2022500791A (ja) 画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022517914A (ja) 顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022501688A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
JP7090183B2 (ja) ビデオ処理方法及び装置、電子機器、並びに記憶媒体
CN111340731B (zh) 图像处理方法及装置、电子设备和存储介质
JP2021512378A (ja) アンカー決定方法及び装置、電子機器並びに記憶媒体
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
JP2022532322A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
US20220392202A1 (en) Imaging processing method and apparatus, electronic device, and storage medium
JP2022515274A (ja) 検出器の配置方法、検出器の配置装置及び非一時的コンピュータ可読記憶媒体
JP2022533065A (ja) 文字認識方法及び装置、電子機器並びに記憶媒体
CN113841179A (zh) 图像生成方法及装置、电子设备及存储介质
CN110633715B (zh) 图像处理方法、网络训练方法及装置、和电子设备
KR20220047802A (ko) 이미지 재구성 방법 및 장치, 전자 기기 및 저장 매체
CN110781842A (zh) 图像处理方法及装置、电子设备和存储介质
CN112598676A (zh) 图像分割方法及装置、电子设备和存储介质
JP2022524254A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
KR20210113617A (ko) 네트워크 트레이닝 방법 및 장치, 이미지 처리 방법 및 장치
CN112200201A (zh) 一种目标检测方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220713

R150 Certificate of patent or registration of utility model

Ref document number: 7106679

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150