JP2022505762A - 画像セマンティックセグメンテーションネットワークのトレーニング方法、装置、機器及びコンピュータプログラム - Google Patents

画像セマンティックセグメンテーションネットワークのトレーニング方法、装置、機器及びコンピュータプログラム Download PDF

Info

Publication number
JP2022505762A
JP2022505762A JP2021522420A JP2021522420A JP2022505762A JP 2022505762 A JP2022505762 A JP 2022505762A JP 2021522420 A JP2021522420 A JP 2021522420A JP 2021522420 A JP2021522420 A JP 2021522420A JP 2022505762 A JP2022505762 A JP 2022505762A
Authority
JP
Japan
Prior art keywords
image
network
semantic segmentation
training
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021522420A
Other languages
English (en)
Other versions
JP7375006B2 (ja
Inventor
▲澤▼群 ▲掲▼
威 ▲劉▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022505762A publication Critical patent/JP2022505762A/ja
Application granted granted Critical
Publication of JP7375006B2 publication Critical patent/JP7375006B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2022505762000001
画像セマンティックセグメンテーションネットワークのトレーニング方法であり、当該方法は、トレーニング画像セットに従って、第1画像セマンティックセグメンテーションネットワークをトレーニングするステップであって、トレーニング画像セット内のトレーニング画像は注釈情報を含む、ステップと、マスクネットワークを介して、第1画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第2画像セマンティックセグメンテーションネットワークを取得するステップであって、マスクネットワークは、第1画像セマンティックセグメンテーションネットワークにおける画像の特徴分布に敏感ではないネットワーク重みをスクリーニングするために使用される、ステップと、トレーニング画像セット及びテスト画像セットに従って、第2画像セマンティックセグメンテーションネットワークをトレーニングするステップであって、トレーニング画像セットとテスト画像セットの分布は異なる、ステップと、を含む。

Description

本願は、2019年03月26日に中国特許局に提出された、出願番号が201910231466.5であり、発明の名称が「画像セマンティックセグメンテーションネットワークのトレーニング方法、装置、機器及び記憶媒体」である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれている。
本願実施例は、画像セマンティックセグメンテーション分野に関し、特に、画像セマンティックセグメンテーションネットワークのトレーニング方法、装置、機器及び記憶媒体に関する。
画像セマンティックセグメンテーションは、画像に含まれる異なる対象を区別し、各対象が属するカテゴリを識別する技術である。人工知能分野では、画像セマンティックセグメンテーションネットワークは、通常、畳み込みニューラルネットワークに基づいてトレーニングして取得される。
関連技術において、畳み込みニューラルネットワークに基づいて初期画像セマンティックセグメンテーションネットワークを構築された後、まずは、トレーニング画像セットを使用して初期画像セマンティックセグメンテーションネットワークをトレーニングし、ネットワークのトレーニングを完成した後、テスト画像セットを使用してトレーニングして取得された画像セマンティックセグメンテーションネットワークをテストし、それにより、画像セマンティックセグメンテーションネットワークの画像セマンティックセグメンテーション効果を決定する。ここで、トレーニング画像セットの各トレーニング画像はすべて注釈情報を含み、テスト画像セットのテスト画像は注釈情報を含まなく、当該注釈情報(labeling information)は、画像のピクセルが属する対象のカテゴリを示す。
しかしながら、上記の方法を使用してトレーニングされた画像セマンティックセグメンテーションネットワークは、画像の特徴分布に敏感であり、トレーニング画像セットとテスト画像セットの分布が一致しない場合、画像セマンティックセグメンテーションネットワークを使用してテスト画像セットをテストして取得されたテスト結果の正確度は低い。
本願による様々な実施例によれば、画像セマンティックセグメンテーションネットワークのトレーニング方法、装置、機器及び記憶媒体を提供する。
コンピュータ機器が実行する、画像セマンティックセグメンテーションネットワークのトレーニング方法であり、前記方法は、
トレーニング画像セットに従って、第1画像セマンティックセグメンテーションネットワークをトレーニングするステップであって、前記トレーニング画像セット内のトレーニング画像は、注釈情報を含む、ステップと、
マスクネットワークを介して、前記第1画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第2画像セマンティックセグメンテーションネットワークを取得するステップであって、前記マスクネットワークは、前記第1画像セマンティックセグメンテーションネットワークの画像の特徴分布に敏感ではないネットワーク重みをスクリーニングするために使用される、ステップと、
前記トレーニング画像セット及び前記テスト画像セットに従って、前記第2画像セマンティックセグメンテーションネットワークをトレーニングするステップであって、前記テスト画像セット内のテスト画像は、前記注釈情報を含まなく、且つ前記トレーニング画像セットと前記テスト画像セットの分布は異なる、ステップと、を含む。
ターゲット画像セマンティックセグメンテーションネットワークが構成されているコンピュータ機器に使用される、画像セマンティックセグメンテーション方法であり、前記ターゲット画像セマンティックセグメンテーションネットワークは、上の側面に記載の方法を使用してトレーニングして取得されものであり、前記方法は、
テスト画像セット内のテスト画像を取得するステップと、
前記テスト画像を前記ターゲット画像セマンティックセグメンテーションネットワークに入力し、前記ターゲット画像セマンティックセグメンテーションネットワークによって出力されたターゲット画像セマンティックセグメンテーション結果を取得するステップであって、前記ターゲット画像セマンティックセグメンテーション結果は、前記テスト画像の各ピクセルが属する対象に対応するカテゴリを含む、ステップと、
前記ターゲット画像セマンティックセグメンテーション結果に従って、前記テスト画像に対応するセグメンテーション画像を表示するステップと、を含み、前記セグメンテーション画像には異なるカテゴリの対象が注釈されている。
画像セマンティックセグメンテーションネットワークのトレーニング装置であり、前記装置は、
トレーニング画像セットに従って、第1画像セマンティックセグメンテーションネットワークをトレーニングするように構成される第1トレーニングモジュールであって、前記トレーニング画像セット内のトレーニング画像は、注釈情報を含む、第1トレーニングモジュールと、
マスクネットワークを介して、前記第1画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第2画像セマンティックセグメンテーションネットワークを取得するように構成されるマスクモジュールであって、前記マスクネットワークは、前記第1画像セマンティックセグメンテーションネットワークの画像の特徴分布に敏感ではないネットワーク重みをスクリーニングするために使用される、マスクモジュールと、
前記トレーニング画像セット及び前記テスト画像セットに従って、前記第2画像セマンティックセグメンテーションネットワークをトレーニングするように構成される、第2トレーニングモジュールと、を備え、前記テスト画像セット内のテスト画像は、前記注釈情報を含まなく、且つ前記トレーニング画像セットと前記テスト画像セットの分布は異なる。
コンピュータ可読命令が記憶される不揮発性記憶媒体であり、前記コンピュータ可読命令が1つまたは複数のプロセッサによって実行されるとき、1つまたは複数のプロセッサに画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップを実行させる。
メモリとプロセッサとを備えるコンピュータ機器であり、前記メモリにはコンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されるとき、前記プロセッサに画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップを実行させる。
コンピュータプログラム製品であり、前記コンピュータプログラム製品がコンピュータ機器で実行するとき、前記コンピュータ機器に画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップを実行させる。
本願の1つまたは複数の実施例の詳細は、以下の図面および説明で記載される。本願の他の特徴、目的および利点は、明細書、図面および特許請求の範囲から明らかになる。
本願実施例の技術的解決策をより明確に説明するために、以下は、実施例の説明で使用される図面について簡単に紹介する。以下に説明される図面は、本願のいくつかの実施例に過ぎず、当業者にとっては、創造的な作業なしに、これらの図面に従って他の図面を得ることもできることは自明である。
本願の一例示的な実施例による実施環境の概略図である。 本願の一例示的な実施例による画像セマンティックセグメンテーションネットワークのトレーニング方法のフローチャートを示す。 図2に示された画像セマンティックセグメンテーションネットワークのトレーニング方法の原理の概略図である。 本願の別の一例示的な実施例による画像セマンティックセグメンテーションネットワークのトレーニング方法のフローチャートを示す。 実数マスクを使用して第1重み配列に対してマスク処理を実行する原理の概略図である。 本願の別の一例示的な実施例による画像セマンティックセグメンテーションネットワークのトレーニング方法のフローチャートを示す。 弁別器が画像特徴に従って画像が属する画像セットを区別する原理の概略図である。 第1重み配列に対してマスク処理を実行し摂動を増加する原理の概略図である。 テスト画像に対してセマンティックセグメンテーションを実行して取得されたセマンティックセグメンテーション効果の比較図である。 本願の一例示的な実施例による画像セマンティックセグメンテーションネットワークのトレーニング装置の構造のブロック図である。 本願の一例示的な実施例によるコンピュータ機器の例示的な構造図を示す。
本願の目的、技術的解決策及び利点をより明確にするために以下、図面および実施例を参照して、本願をより詳しく説明する。ここで説明した具体的な実施例は、本願を説明するためにのみ使用され、本願を限定するために使用されないことを理解されたい。
理解を容易にするために、以下は、本願実施例に関するいくつかの用語を簡単に紹介する。
ネットワーク重み:畳み込みニューラルネットワークにおいて、畳み込みカーネルの各ユニットは、いずれもそれぞれのネットワーク重みに対応し、当該ネットワーク重みはネットワークトレーニングを介して取得される。3×3の畳み込みカーネルを例として、当該畳み込みカーネルには9つのユニットが含まれ、それに対応して、当該畳み込みカーネルには、9つのネットワーク重みがある。畳み込みカーネルを使用して画像のピクセルに対して畳み込み処理を実行する(即ち、畳み込みカーネルを使用して画像に対して特徴抽出を実行する)とき、即ち、ピクセル値を畳み込みカーネル内の、対応するネットワーク重みと乗算した後、各乗積を加算した後に出力する。
マスク:本願実施例におけるマスクは、畳み込みカーネルのネットワーク重みをスクリーニングするために使用される。ここで、マスクを使用して畳み込みカーネルに対してマスク処理を実行するとき、画像の特徴分布に敏感ではないネットワーク重みの通過率は、画像の特徴分布に敏感であるネットワーク重みの通過率より高く、それにより、画像の特徴分布に敏感ではないネットワーク重みをスクリーニングする効果を達成する。選択的に、当該マスクは、実数マスクまたは二値化マスクであり得、ここで、二値化マスクは、実数マスクを二値化処理した後に取得するものである。
弁別器:特徴が属する分布フィールドを弁別するように構成される機械学習モデルである。本願実施例の弁別器は、画像セマンティックセグメンテーションモデルによって出力される画像特徴が属する分布フィールド(トレーニング画像セットまたはテスト画像セット)を弁別するように構成される。
画像セマンティックセグメンテーション分野では、トレーニング画像セットを使用してネットワークトレーニングを実行し、その後、テスト画像セットを使用して、トレーニングにより取得されたネットワークをテストすることは、従来の方式である。関連技術において、注釈情報を含むトレーニング画像セットを使用して、画像セマンティックセグメンテーションネットワークをトレーニングした後、画像セマンティックセグメンテーションネットワークの(畳み込みカーネルの)ネットワーク重みがトレーニング画像セット内のトレーニング画像に準拠する特徴分布を取得し、したがって、テスト画像セット内のテスト画像の特徴分布がトレーニング画像の特徴分布と一致しない場合、テスト画像に対する画像セマンティックセグメンテーションネットワークの一般化が不十分であり、さらにテストの正確度に影響を与える。
例えば、トレーニングが無人運転の分野の画像セマンティックセグメンテーションネットワークに適用される場合、トレーニング画像セットに都市Aの道路画像が含まれ、テスト画像セットに都市Bの道路画像が含まれる場合、異なる都市の道路画像の特徴分布が異なるため、画像セマンティックセグメンテーションネットワークを使用してテスト画像に対してセマンティックセグメンテーションを実行することは効果的ではない。これは、不適切なトレーニング方式による原因ではなく、トレーニング画像セットとテスト画像セットとの分布が一致しないことが原因である。
本願実施例において、画像セマンティックセグメンテーションネットワークのトレーニングプロセスに、マスクネットワークを革新的に導入し、当該マスクネットワークを使用してトレーニングして取得された画像セマンティックセグメンテーションネットワークに対してネットワーク重みスクリーニングを実行して、画像の特徴分布に敏感であるネットワーク重みを除外し、画像の特徴分布に敏感ではないネットワーク重みを保留し、それにより、重みスクリーニング後の画像セマンティックセグメンテーションネットワークがテスト画像(トレーニング画像分布と一致しない)に対する一般化を向上させ、重みスクリーニング後の画像セマンティックセグメンテーションネットワークがテスト画像のセマンティックセグメンテーションに対する効果を向上させる。
本願実施例による画像セマンティックセグメンテーションネットワークのトレーニング方法は、以下の任意のシナリオに使用できる。
1、当該方法は、補助運転分野の道路画像セマンティックセグメンテーションネットワークのトレーニングシナリオに適用できる。補助運転システムが道路要素に従って車両運転状態を制御するために、道路画像セマンティックセグメンテーションネットワークは、道路画像内の道路、道路標識、歩行者、車両、道路画像の信号機などの道路要素を識別し、識別結果を車両の補助運転システムに伝送するために使用できる。道路画像セマンティックセグメンテーションネットワークをトレーニングするプロセスでは、トレーニング画像セットとテスト画像セットの分布が一致しない可能性があり、例えば、トレーニング画像セット及びテスト画像セット内の画像を異なる都市で収集するか、異なる季節で収集するかまたは異なる期間で収集する。本願実施例による方法を使用して道路画像セマンティックセグメンテーションネットワークをトレーニングした後、異なる分布の道路画像に対する道路画像セマンティックセグメンテーションネットワークの一般化を向上させ、これにより道路画像内の道路要素の識別正確度を向上させる。
2、当該方法は、顔識別分野の顔画像セマンティックセグメンテーションネットワークのトレーニングシナリオに適用できる。顔画像セマンティックセグメンテーションネットワークは、後続の画像内の顔を注釈、美化、ID検証などを容易にするために、画像内の顔を識別するために使用できる。顔画像セマンティックセグメンテーションネットワークをトレーニングするプロセスでは、トレーニング画像セットとテスト画像セットの分布が一致しない可能性があり、例えば、トレーニング画像セット及びテスト画像セット内の画像が異なる人種、異なる肌の色または異なるスタイルに対応する。本願実施例による方法を使用して顔画像セマンティックセグメンテーションネットワークをトレーニングした後、異なる分布の顔画像に対する顔画像セマンティックセグメンテーションネットワークの一般化を向上させ、これにより画像内の顔の識別正確度を向上させる。
3、当該方法は、体検出分野の体画像セマンティックセグメンテーションネットワークのトレーニングシナリオに適用できる。体画像セマンティックセグメンテーションネットワークは、後続の画像内の体領域を注釈、画像内の体の数を統計、体の姿勢を査定などのために、画像内の体を識別するために使用できる。体の画像セマンティックセグメンテーションネットワークをトレーニングするプロセスでは、トレーニング画像セットとテスト画像セットの分布が一致しない可能性があり、例えば、トレーニング画像セット及びテスト画像セット内の画像の収集環境が異なるか(屋内または屋外)、収集対象の人種が異なるかまたは体の姿勢が異なり、これは、体識別の正確度に影響を与える。本願実施例による方法を使用して体画像セマンティックセグメンテーションネットワークをトレーニングした後、異なる分布の体画像に対する体画像セマンティックセグメンテーションネットワークの一般化を向上させ、これにより画像内の体の検出正確度を向上させる。
もちろん、上述したシナリオに適用される以外に、本願実施例による方法は、画像セマンティックセグメンテーションモデルをトレーニングする必要がある他のシナリオにも適用され、特に、トレーニング画像セットとテスト画像セットの分布が一致しないシナリオに適し、本願実施例は具体的な適用シナリオに対して限定しない。
一可能な実施形態において、本願実施例による画像セマンティックセグメンテーションネットワークのトレーニング方法は、コンピュータパーソナルまたはサーバなどの強いデータ処理機能を有するコンピュータ機器に適用できる。上記の方法でトレーニングして取得された画像セマンティックセグメンテーションネットワークを使用して、アプリケーションまたはアプリケーションの一部に実現し、端末に実装されて、端末に画像セマンティックセグメンテーション機能を備えるようにすることができ、または、当該上記の方法でトレーニングして取得された画像セマンティックセグメンテーションネットワークは、アプリケーションのバックエンドサーバに適用され、それにより、サーバによって端末内のアプリケーションに画像セマンティックセグメンテーションサービスを提供することができる。
本願一例示的な実施例による実施環境の概略図を示す図1を参照されたい。当該実施環境には、端末110とサーバ120とを含み、ここで、端末110とサーバ120との間は通信ネットワークを介してデータ通信を実行し、例示的に、通信ネットワークは有線ネットワークでも無線ネットワークでもよく、且つ、当該通信ネットワークは、ローカルエリアネットワーク、メトロポリタンエリアネットワーク及びワイドエリアネットワークのうちの少なくとも1つであり得る。
端末110には、画像セマンティックセグメンテーション要件を備えるアプリケーションが実装され、当該アプリケーションは、補助運転アプリケーション、モニタリングアプリケーション、撮影アプリケーション、カットアウトアプリケーションなどであり得、本願実施例はこれに対して限定しない。選択的に、端末は、スマートフォン、タブレット、ポータブルラップトップコンピュータなどの移動端末でもよく、デスクトップコンピュータ、プロジェクションコンピュータ、カーマシンなどの端末でもよく、本願実施例はこれに対して限定しない。
サーバ120は、1つのサーバに実現でき、1グループのサーバによって構成されるサーバクラスタにも実現でき、それは物理サーバでもあり得、クラウドサーバにも実現できる。一可能な実施形態において、サーバ120は端末110内のアプリケーションのバックエンドサーバである。
本願実施例において、サーバ120には、トレーニング画像セット121及びテスト画像セット122に従ってトレーニングして取得された画像セマンティックセグメンテーションネットワーク123が記憶されている。一可能な適用シナリオでは、ターゲット画像に対して画像セマンティックセグメンテーションを実行する必要がある場合、アプリケーション即ち端末110を介してターゲット画像をサーバ120に伝送し、サーバ120はターゲット画像を受信した後、ターゲット画像を画像セマンティックセグメンテーションネットワーク123に入力し、画像セマンティックセグメンテーションネットワーク123によって出力された画像セマンティックセグメンテーション結果を端末110んいフィードバックし、端末110内のアプリケーションによって画像セマンティックセグメンテーション結果を解析して表示される。
他の可能な実施形態では、画像セマンティックセグメンテーションネットワーク123が端末110内のアプリケーションの一部に実現された場合、端末110は、サーバ120は必要なく、ローカルでターゲット画像に対して画像セマンティックセグメンテーションを実行でき、それにより、画像セマンティックセグメンテーションの速度を向上させ、サーバとのインタラクションにより生成された遅延を低減する。
以下は、例示的な実施例を使用してトレーニング画像セマンティックセグメンテーションネットワークのプロセスに焦点を合わせて説明する。
本願の一例示的な実施例による画像セマンティックセグメンテーションネットワークのトレーニング方法のフローチャートを示す図2を参照されたい。本実施例は、当該トレーニング方法をコンピュータ機器に使用されることを例として説明し、当該コンピュータ機器は、図1に示されたサーバ120であり得、当該方法は以下のステップを含む。
ステップ201において、トレーニング画像セットに従って第1画像セマンティックセグメンテーションネットワークをトレーニングし、トレーニング画像セット内のトレーニング画像は注釈情報を含む。
異なる適用分野では、第1画像セマンティックセグメンテーションネットワークをトレーニングするとき使用するトレーニング画像セットは異なる。以下はいくつかの例示的な適用分野に対して説明する。
1、補助運転分野:トレーニングして取得された画像セマンティックセグメンテーションネットワークは画像内の異なる道路要素を識別するために使用されるため、トレーニング画像セット内のトレーニング画像は道路要素を含む道路画像である。
2、顔識別分野:トレーニングして取得された画像セマンティックセグメンテーションネットワークは画像に含まれる顔を識別するために使用されるため、トレーニング画像セット内のトレーニング画像は異なる角度、異なる表情の顔を含む必要がある。
3、体検出分野:トレーニングして取得された画像セマンティックセグメンテーションネットワークは画像に含まれる体を識別するために使用されるため、トレーニング画像セット内のトレーニング画像は異なる姿勢、異なる角度の体胴体を含む必要がある。
選択的に、当該注釈情報は、トレーニング画像内の各ピクセルの対応対象が属するカテゴリを含む。例えば、トレーニング画像が道路画像である場合、当該注釈情報は、各ピクセルの対応道路要素が属するカテゴリを含み、当該カテゴリは道路、道路標識、歩行者、車両及び道路画像の信号機のうちの少なくとも1つを含み得る。
選択的に、トレーニング画像セット内のトレーニング画像は、実際撮影された写真(後続では手動でカテゴリ注釈を実行する必要がある)、またはゲーム画面から切り取った画面スクリーンショット(直接にゲームプリケーションから各ピクセルが属する対象のカテゴリを取得できる)である。
第1画像セマンティックセグメンテーションネットワークをトレーニングする方式に対して、一可能な実施形態にでは、コンピュータ機器は、トレーニング画像を構築された初期画像セマンティックセグメンテーションネットワークに入力して、初期画像セマンティックセグメンテーションネットワークによって出力された各ピクセルに対応する予測カテゴリを取得し、それにより、各ピクセルの予測カテゴリと注釈情報内の注釈カテゴリとの誤差に従って、逆伝播アルゴリズムを介して初期画像セマンティックセグメンテーションネットワーク内のパラメータを更新し、最終的に第1画像セマンティックセグメンテーションモデルをトレーニングして取得する。
選択的に、本願実施例における第1画像セマンティックセグメンテーションネットワークは、完全畳み込み(fully convolutional)ネットワーク構造を使用し、それに、入力層、いくつかの畳み込み層及び出力層が含まれ、且つ、各畳み込み層には、さらに、複数の畳み込みカーネルが含まれる。本願実施例は、第1画像セマンティックセグメンテーションネットワークの具体的なネットワーク構造に対して限定しない。
例示的に、第1画像セマンティックセグメンテーションネットワークの主な構造はVGG16及び残余ネットワーク(ResNets)である。
例示的に、図3に示されたように、コンピュータ機器は、トレーニング画像セット内のトレーニング画像31を第1画像セマンティックセグメンテーションネットワーク32に入力して、出力された画像特徴33を取得し、それにより、トレーニング画像31の注釈情報34及び画像特徴33に従って、第1画像セマンティックセグメンテーションネットワーク32をトレーニングする。
ステップ202において、マスクネットワークを介して第1画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第2画像セマンティックセグメンテーションネットワークを取得し、マスクネットワークは、第1画像セマンティックセグメンテーションネットワークの画像の特徴分布に敏感ではないネットワーク重みをスクリーニングするために使用される。
本願実施例は、ネットワーク重みスクリーニングを実行するために使用されるマスクネットワークを導入し、トレーニング画像セットに基づいて第1画像セマンティックセグメンテーションネットワークをトレーニングして取得された後、テスト画像セットを直接に使用してテストしなく、マスクネットワークを使用して第1画像セマンティックセグメンテーションネットワークに対してネットワーク重みスクリーニングを実行し、画像の特徴分布に敏感であるネットワーク重みをフィルタリングし、画像の特徴分布に敏感ではないネットワーク重みを保留し、それにより、特徴分布に敏感ではない第2画像セマンティックセグメンテーションネットワークを取得する。
選択的に、当該マスクネットワークは第1画像セマンティックセグメンテーションネットワークと同じネットワーク構造を使用し、即ち、マスクネットワークは第1画像セマンティックセグメンテーションネットワーク内の畳み込み層の層数と同じで、且つ、対応する畳み込み層内の畳み込みカーネルのサイズ及び数は両方とも同じである。それに対応して、マスク処理した後、第2画像セマンティックセグメンテーションネットワークのネットワーク構造は、第1画像セマンティックセグメンテーションネットワークのネットワーク構造と一致している。
例示的に、図3に示されたように、コンピュータ機器は、マスクネットワーク35を介して第1画像セマンティックセグメンテーションネットワーク32に対してマスク処理を実行して、第2画像セマンティックセグメンテーションネットワーク36を取得する。
第2画像セマンティックセグメンテーションネットワークには特徴分布に敏感ではないネットワーク重みが保留されているため、第1画像セマンティックセグメンテーションネットワークと比較して、第2画像セマンティックセグメンテーションネットワークは分布が異なるテスト画像セットに対してよりよい一般化を有する。
ステップ203において、トレーニング画像セット及びテスト画像セットに従って、第2画像セマンティックセグメンテーションネットワークをトレーニングし、テスト画像セット内のテスト画像は、注釈情報を含まなく、且つトレーニング画像セットとテスト画像セットの分布は異なる。
ネットワーク重みスクリーニングにより第2画像セマンティックセグメンテーションネットワークを取得された後、コンピュータ機器は、さらに、分布が異なるトレーニング画像セット及びテスト画像セットを使用して第2画像セマンティックセグメンテーションネットワークをトレーニングする。
ここで、異なる適用分野では、トレーニング画像セットとテスト画像セットの分布が異なる意味も異なる。以下はいくつかの例示的な適用分野に対して説明する。
1、補助運転分野:トレーニング画像セットとテスト画像セットの分布が異なることは、属する都市が異なること、属する季節が異なること、属する期間が異なることのうちの少なくとも1つを示す。例えば、トレーニング画像セット内のトレーニング画像はA都市から収集され、テスト画像セット内のテスト画像はB都市から収集される場合、トレーニング画像セットとテスト画像セットの分布は異なる。
2、顔識別分野:トレーニング画像セットとテスト画像セットの分布が異なることは、人種が異なること、肌の色が異なること、スタイルが異なること(トレーニング画像セットはリアルスタイルであり、テスト画像セットは漫画スタイルである)のうちの少なくとも1つを示す。例えば、トレーニング画像セット内のトレーニング画像はアジアの顔を含む画像であり、テスト画像セット内のテスト画像はヨーロッパとアメリカの顔を含む画像である場合、トレーニング画像セットとテスト画像セットの分布は異なる。
3、体検出分野:トレーニング画像セットとテスト画像セットの分布が異なることは、収集環境が異なること、人種が異なること、姿勢が異なることのうちの少なくとも1つを示す。例えば、トレーニング画像セット内のトレーニング画像は屋内で収集された体画像であり、テスト画像セット内のテスト画像は屋外で収集された体画像である場合、トレーニング画像セットとテスト画像セットの分布は異なる。
一可能な実施形態において、コンピュータ機器は、トレーニング画像を第2画像セマンティックセグメンテーションネットワークに入力し、それにより、トレーニング画像の注釈情報及び第2画像セマンティックセグメンテーションネットワークの予測カテゴリに従って、逆伝播アルゴリズムを介して第2画像セマンティックセグメンテーションネットワークのパラメータを更新する(第1画像セマンティックセグメンテーションネットワークのネットワーク重みを変更しなく、マスクネットワークを更新し、更新した後のマスクネットワークを使用して第1画像セマンティックセグメンテーションネットワークに対してマスク処理を実行し、それにより、第2画像セマンティックセグメンテーションネットワークを更新する効果を達成する)。
例示的に、図3に示されたように、コンピュータ機器は、トレーニング画像31を第2画像セマンティックセグメンテーションネットワーク36に入力して、出力された第1画像特徴38を取得し、それにより、トレーニング画像31の注釈情報34及び第1画像特徴38に従って、第2画像セマンティックセグメンテーションネットワーク36をトレーニングする。
一可能な実施形態において、コンピュータ機器は、トレーニング画像及びテスト画像を第2画像セマンティックセグメンテーションネットワークに入力し、敵対的トレーニングの方式を使用して、第2画像セマンティックセグメンテーションネットワークによって抽出された特徴はトレーニング画像セットに属するかまたはテスト画像セットに属するかを区別するように弁別器をトレーニングし、それにより、第2画像セマンティックセグメンテーションネットワークを更新するように駆動して分布に敏感ではない画像特徴を抽出する。
例示的に、図3に示されたように、コンピュータ機器は、トレーニング画像31及びテスト画像37を第2画像セマンティックセグメンテーションネットワーク36に入力して、トレーニング画像31に対応する第1画像特徴38及びテスト画像37に対応する第2画像特徴39を取得し、それにより、第1画像特徴38及び第2画像特徴39に従って第2画像セマンティックセグメンテーションネットワーク36に対して敵対的トレーニングを実行する。
まとめると、本願実施例において、トレーニング画像セットに基づいて第1画像セマンティックセグメンテーションネットワークをトレーニングして取得された後、マスクネットワークを介して第1画像セマンティックセグメンテーションネットワークに対してネットワーク重みスクリーニングを実行し、特徴分布に敏感ではないネットワーク重みをスクリーニングして、対応する第2画像セマンティックセグメンテーションネットワークを取得し、さらに、テスト画像セット及びトレーニング画像セットを使用して第2画像セマンティックセグメンテーションネットワークをトレーニングする。マスクネットワークは特徴分布に敏感であるネットワーク重みをフィルタリングできるため、トレーニング画像セットとテスト画像セットの分布が異なる場合でも、ネットワーク重みスクリーニングを介して第2画像セマンティックセグメンテーションネットワークはテスト画像セットとよりよい一般化を有し、それにより、テスト画像セットに対するテスト正確度を向上させる。
選択的に、コンピュータ機器は、敵対的トレーニングの方式を使用して、ネットワーク重みスクリーニングした後の第2画像セマンティックセグメンテーションモデルをトレーニングし、それにより、第2画像セマンティックセグメンテーションネットワークの分布に敏感ではない特徴を抽出する機能を向上させる。本願の別の一例示的な実施例による画像セマンティックセグメンテーションネットワークのトレーニング方法のフローチャートを示す図4を参照されたい。当該方法は、以下のステップを含む。
ステップ401において、トレーニング画像セットに従って第1画像セマンティックセグメンテーションネットワークをトレーニングし、トレーニング画像セット内のトレーニング画像は注釈情報を含む。
当該ステップの実施形態は上記のステップ201を参照できる。
ステップ402において、第1画像セマンティックセグメンテーションネットワークに対応する第1重み配列を取得し、第1重み配列は、第1画像セマンティックセグメンテーションネットワークにおける各畳み込みカーネルに対応するネットワーク重みを含む。
一可能な実施形態において、コンピュータ機器は、第1画像セマンティックセグメンテーションネットワーク内の各畳み込みカーネルが対応するネットワーク重みを取得し、各畳み込みカーネルが対応するネットワーク重みに従って第1重み配列を構築して取得する。選択的に、当該第1重み配列はネットワーク重みによって構成された重み行列である。
選択的に、第1画像セマンティックセグメンテーションネットワークをトレーニングして取得された後、第1画像セマンティックセグメンテーションネットワーク内のネットワーク重みは固定(fixed)され、後続のトレーニングプロセスでは、マスクネットワークをトレーニングして第1画像セマンティックセグメンテーションネットワーク内のネットワーク重みをスクリーニングし、第2画像セマンティックセグメンテーションネットワークを取得する。
例示的に、図5に示されたように、コンピュータ機器は、第1画像セマンティックセグメンテーションネットワークに対応する第1重み配列51を取得し、当該第1重み配列51には9つのネットワーク重み(配列内の円)が含まれ、且つ、異なるパターンは、異なるネットワーク重みを表す。
本実施例は、1つの3×3畳み込みカーネルに対応するネットワーク重みのみを例として例示的に説明したが、実際の適用プロセスでは、第1重み配列には大量の畳み込みカーネルに対応するネットワーク重みが含まれ、本実施例はこれに対して限定しないことに留意されたい。
ステップ403において、マスクネットワークに対応する実数マスクを介して第1重み配列に対してマスク処理を実行して、第2重み配列を取得する。
本願実施例において、マスクネットワークと第1画像セマンティックセグメンテーションネットワークとのネットワーク構造が同じであり、且つ、マスクネットワークと第1画像セマンティックセグメンテーションネットワークとのネットワーク重みの数は同じである。したがって、一可能な実施形態において、コンピュータ機器は、マスクネットワーク内の各畳み込みカーネルに対応するネットワーク重みを取得し、それにより、第1重み配列サイズと同じ実数マスクを生成する。選択的に、当該実数マスクは(マスクネットワークにおいて)ネットワーク重みによって構成される重み行列である。
マスク処理のプロセスに対して、選択的に、コンピュータ機器は、実数マスクを第1重み配列とポイントツーポイントで乗算して、第2重み配列を取得する。ここで、実数マスクの実数の値は大きいほど、第1重み配列内の対応するネットワーク重みの通過率も高い。
例示的に、第1画像セマンティックセグメンテーションネットワークに対応する第1重み配列はWであり、マスクネットワークに対応する実数マスクはMrealであると、マスク処理して取得された第2重み配列はW*Mrealである。
実施プロセス中に、実数マスクを直接に使用して第1重み配列に対してマスク処理を実行する効果はよくないことを発見し、したがって、一可能な実施形態において、コンピュータ機器は、まず、実数マスクに対して二値化処理(フィルタリングの効果を達成する)を実行し、二値化処理の後の実数マスクに対してマスク処理を実行する。図4の基で、図6に示されたように、当該ステップは以下のステップを含み得る。
ステップ403Aにおいて、閾値関数を介して実数マスクに対して二値化処理を実行して、二値化マスクを生成し、二値化マスクは、0及び1によって構成される配列であり、且つ、二値化マスクのサイズは、第1重み配列のサイズと同じである。
ここで、閾値関数は、実数マスク内の実数値を0または1に変換し、それにより、実数マスクに対応する二値化マスクを取得する。選択的に、当該閾値関数は、以下のように表示する。
Figure 2022505762000002
二値化処理の後で取得された二値化マスクMはM=Fthres(Mreal)に表示する。
例示的な例において、マスクネットワークの実数マスクは0.01に初期化し、且つ、τが0.005に設定され、即ち、閾値関数で初期化された実数マスクに対して二値化処理を実行した後、取得された二値化マスクの値は1である。
例示的に、図5に示されたように、コンピュータ機器は、実数マスク52を取得された後、閾値関数53でそれに対して二値化処理を実行して、二値化マスク54を取得し、ここで、二値化マスク54の黒塗りは0を表示し、白塗りは1を表示する。
ステップ403Bにおいて、第1重み配列を二値化マスクとポイントツーポイントで乗算して、第2重み配列を取得する。
さらに、コンピュータ機器は、第1重み配列を二値化マスクとポイントツーポイントで乗算して、第2重み配列を取得する。ここで、ポイントツーポイントで乗算することは、第1重み配列の第i行第j列のネットワーク重みを二値化マスクの第i行第j列のマスク値と乗算することを示す。
ここで、二値化マスクに対応するマスク値が1である場合、第1重み配列内の対応するネットワーク重みの通過率は100%であり、即ち、ネットワーク重みは保留され、二値化マスクに対応するマスク値が0である場合、第1重み配列内の対応するネットワーク重みの通過率は0%であり、即ち、ネットワーク重みはフィルタリングされ、それにより、ネットワーク重みスクリーニングの効果を達成する。
例示的に、図5に示されたように、二値化マスク54を使用して第1重み配列51に対してマスク処理を実行するとき、二値化マスク54内の第1行第1列、第1行第3列、第2行第2列、第3行第2列及び第3行第3列に対応するマスク値が1であるため、取得された第1重み配列51内の第1行第1列、第1行第3列、第2行第2列、第3行第2列及び第3行第3列のネットワーク重みは第2重み配列55に保留され、第1行第2列、第2行第1列、第2行第3列及び第3行第1列のネットワーク重みはフィルタリングされる。最終的に第2重み配列55を取得する。
第1画像セマンティックセグメンテーションネットワークのネットワーク重みは固定されたため、後続のマスクネットワークが更新した後、コンピュータ機器は、更新した後の二値化マスクに従って第1重み配列に対してマスク処理し、それにより、第2重み配列を取得できることに留意されたい。
ステップ404において、第2重み配列に従って第2画像セマンティックセグメンテーションネットワークを生成する。
第2重み配列を取得された後、コンピュータ機器は、対応する第2画像セマンティックセグメンテーションネットワークを生成し、ここで、当該第2画像セマンティックセグメンテーションネットワークは第2重み配列に含まれるネットワーク重みを使用する。上述したステップによる例を参照して、生成された第2画像セマンティックセグメンテーションネットワークWはW=W*Mに表示され、ここで、Wは第1画像セマンティックセグメンテーションネットワークである。
図4の基で、図6に示されたように、当該ステップは以下のステップを含み得る。
ステップ404Aにおいて、第2重み配列に従って、第1画像セマンティックセグメンテーションネットワークにおける各畳み込みカーネルに対してネットワーク重みの更新を実行する。
二値化マスクと第1重み配列のサイズが同じであるため、取得された第2重み配列と第1重み配列のサイズは同じであり、コンピュータ機器は、第2重み配列に含まれる各ネットワーク重みに従って、第1画像セマンティックセグメンテーションネットワーク内の対応するネットワーク重みを更新する。
第1重み配列と比較して、第2重み配列内の特徴分布に敏感であるネットワーク重みはフィルタリングされ、したがって、第2重み配列内のネットワーク重みを適用した画像セマンティックセグメンテーションネットワークによって抽出された画像特徴は分布に敏感ではない(第1重み配列を適用することと比較して)。
ステップ404Bにおいて、ネットワーク重みの更新後の第1画像セマンティックセグメンテーションネットワークを第2画像セマンティックセグメンテーションネットワークとして決定する。
さらに、コンピュータ機器は、ネットワーク重みの更新後取得された画像セマンティックセグメンテーションネットワークを第2画像セマンティックセグメンテーションネットワークとして決定する。第1画像セマンティックセグメンテーションネットワークと比較して、第2画像セマンティックセグメンテーションネットワーク内の分布に敏感であるネットワーク重みはフィルタリングされる。
ステップ405において、トレーニング画像セット及びテスト画像セットに従って弁別器の弁別器損失を計算し、弁別器は、画像特徴に従って画像が属する画像セットを決定するために使用される。
第2画像セマンティックセグメンテーションネットワークに対して、本願実施例では、敵対的トレーニングの方式を使用して、ネットワークによって抽出された画像特徴がトレーニング画像セットに属するかまたはテスト画像セットに属するかを区別するように弁別器をトレーニングし、同時に、画像から分布に敏感ではない画像特徴を抽出するように第2画像セマンティックセグメンテーションネットワークをトレーニングし、弁別器に画像特徴が属する画像セットを区別できないようにする(即ち、トレーニング画像セットに属する確率及びテスト画像セットに属する確率は両方とも0.5である)。
一可能な実施形態において、コンピュータ機器は弁別器損失を計算するプロセスは以下のステップを含み得る。
1、ターゲット画像を第2画像セマンティックセグメンテーションネットワークに入力して、ターゲット画像特徴を取得し、ターゲット画像は、トレーニング画像セットに属し、または前記テスト画像セットに属する。
本願実施例において、コンピュータ機器によって構築された弁別器は、入力された画像特徴に従って画像が属する画像セットを決定するために使用され、したがって、弁別器の弁別器損失を計算する前に、トレーニング画像セットまたはテスト画像セットからのターゲット画像を第2画像セマンティックセグメンテーションネットワークに入力し、第2画像セマンティックセグメンテーションネットワークによってターゲット画像に対して特徴抽出を実行して、対応するターゲット画像特徴を取得する。
例示的に、図7に示されたように、コンピュータ機器は、トレーニング画像31を第2画像セマンティックセグメンテーションネットワーク36に入力して、第1画像特徴38を取得し、テスト画像37を第2画像セマンティックセグメンテーションネットワーク36に入力して、第2画像特徴39を取得する。
2、ターゲット画像特徴を弁別器に入力して、弁別結果を取得する。
さらに、コンピュータ機器は、抽出されたターゲット画像特徴を弁別器に入力し、弁別器によって出力された弁別結果を取得し、当該弁別結果には、ターゲット画像(特徴)がトレーニング画像セットに属する確率及びトレーニング画像セットに属する確率が含まれる。
選択的に、当該弁別器は、全接続畳み込みニューラルネットワーク構造を使用でき、本願実施例は弁別器の具体的な構造に対して限定しない。
例示的に、図7に示されたように、コンピュータ機器は、第1画像特徴38を弁別器71に入力し、弁別器71によって出力された結果は以下のようである。ターゲット画像がトレーニング画像セットに属する確率はXであり、テスト画像セットに属する確率は1-Xである。
3、ターゲット画像が属する画像セット及び弁別結果に従って、弁別器損失を計算する。
後続の弁別器損失に基づいて弁別器のパラメータを更新して、弁別器の弁別正確度を向上させるために、弁別結果におけるターゲット画像が属する画像セット及びターゲット画像が実際に属する画像セットに従って、コンピュータ機器は、弁別器損失関数を介して弁別器損失を計算する。ここで、弁別器の目的は、ターゲット画像が実際に属する画像セット傾向がある結果を識別することである。
選択的に、弁別器の弁別器損失関数は以下のように表示する。
Figure 2022505762000003
ここで、h,wは、ターゲット画像内の各ピクセルの横縦座標であり、zは、ターゲット画像が実際に属する画像セットを指示し(ターゲット画像がトレーニング画像セットに属する場合、zは0であり、ターゲット画像がテスト画像セットに属する場合、zは1である)、
Figure 2022505762000004
は、第2画像セマンティックセグメンテーションネットワークがトレーニング画像から抽出された画像特徴であり、
Figure 2022505762000005
は、第2画像セマンティックセグメンテーションネットワークがテスト画像から抽出された画像特徴であり、Dは弁別器である。
ステップ406において、トレーニング画像セットに従って第2画像セマンティックセグメンテーションネットワークのセグメンテーション損失を計算する。
一可能な実施形態において、コンピュータ機器は、トレーニング画像セット内のトレーニング画像を第2画像セマンティックセグメンテーションネットワークに入力して、第2画像セマンティックセグメンテーションネットワークによって出力されたセマンティックセグメンテーション結果を取得し、それにより、セマンティックセグメンテーション結果及び注釈情報に従ってクロスエントロピー分類損失を計算する。
同時に、分布に敏感ではない画像特徴を抽出するように第2画像セマンティックセグメンテーションネットワークを駆動するために、第2画像セマンティックセグメンテーションネットワークのクロスエントロピー分類損失を計算するとき、弁別器のテスト画像特徴(第2画像セマンティックセグメンテーションネットワークを介してテスト画像を抽出して取得する)に対する弁別結果(敵対的性損失)を導入し、それにより、クロスエントロピー分類損失及び敵対的性損失を第2画像セマンティックセグメンテーションネットワークのセグメンテーション損失に決定する。
選択的に、第2画像セマンティックセグメンテーションネットワークのセグメンテーション損失は以下のように表示する。
Figure 2022505762000006
ここで、h,wは、ターゲット画像内の各ピクセルの横縦座標であり、zは、ターゲット画像が実際に属する画像セットを指示し(ターゲット画像がトレーニング画像セットに属する場合、zは0であり、ターゲット画像がテスト画像セットに属する場合、zは1である)、
Figure 2022505762000007
は、画像内の第h行第w列のピクセルの真価注釈(ground-truth)であり、
Figure 2022505762000008
は、画像内の第h行第w列のピクセルの予測値であり、
Figure 2022505762000009
は、ピクセルレベルのクロスエントロピー分類損失であり、
Figure 2022505762000010
は、弁別器Dの敵対的性損失である。
ステップ407において、セグメンテーション損失及び弁別器損失に従って第2画像セマンティックセグメンテーションネットワーク及び弁別器に対して敵対的トレーニングを実行する。
弁別器の弁別器損失及び第2画像セマンティックセグメンテーションネットワークのセグメンテーション損失を決定した後、端末は、セグメンテーション損失及び弁別器損失に従って第2画像セマンティックセグメンテーションネットワーク及び弁別器内のパラメータを逆伝播トレーニングし、収束条件に満たす場合、第2画像セマンティックセグメンテーションネットワーク及び弁別器のトレーニングを完成する。
まとめると、本願実施例において、トレーニング画像セットに基づいて第1画像セマンティックセグメンテーションネットワークをトレーニングして取得された後、マスクネットワークを介して第1画像セマンティックセグメンテーションネットワークに対してネットワーク重みスクリーニングを実行し、特徴分布に敏感ではないネットワーク重みをスクリーニングして、対応する第2画像セマンティックセグメンテーションネットワークを取得し、さらに、テスト画像セット及びトレーニング画像セットを使用して第2画像セマンティックセグメンテーションネットワークをトレーニングする。マスクネットワークは特徴分布に敏感であるネットワーク重みをフィルタリングできるため、トレーニング画像セットとテスト画像セットの分布が異なる場合でも、ネットワーク重みスクリーニングを介して第2画像セマンティックセグメンテーションネットワークはテスト画像セットとよりよい一般化を有し、それにより、テスト画像セットに対するテスト正確度を向上させる。
さらに、閾値関数を介してマスクネットワークの実数マスクに対して二値化処理を実行し、それにより、取得された二値化マスクを使用して画像セマンティックセグメンテーションネットワークに対してネットワーク重みスクリーニングを実行し、重みスクリーニング効果を向上させる同時に、重みスクリーニングするときの計算量を低減し、画像セマンティックセグメンテーションネットワークのトレーニング速度を向上させる。
なお、弁別器を構築し、敵対的性トレーニングの方式を使用してマスク処理の後の画像セマンティックセグメンテーションネットワーク及び弁別器をトレーニングすることを介して、画像セマンティックセグメンテーションネットワークの分布に敏感ではない画像特徴を抽出する機能をさらに向上させ、それにより、画像セマンティックセグメンテーションネットワークのテスト画像セットに対する一般化を向上させる。
テスト画像セット内の画像の一般化及びテスト正確度をさらに向上させるために、一可能な実施形態において、閾値関数を介して実数マスクに対して二値化処理を実行して、二値化マスクを生成した後、コンピュータ機器は、第1重み配列を二値化マスクとポイントツーポイントで乗算して、中間重み配列を取得し、その後、中間重み配列及び摂動配列に従って第2重み配列を生成する。ここで、摂動配列は、中間重み配列におけるネットワーク重みに摂動を増加するために使用され、且つ、摂動配列と第1重み配列のサイズは同じである。
ここで、前記マスク及び摂動機能を備えるマスクネットワークはMpm=W*W+Wに表示し、ここで、Wはマスクネットワークのネットワーク重みであり、Wは摂動配列である。
例示的に、図8に示されたように、コンピュータ機器は、閾値関数53を介して実数マスク52を二値化処理して、二値化マスク54を取得された後、二値化マスク54を第1重み配列51とポイントツーポイントで乗算して、中間重み配列56を取得する。さらに、コンピュータ機器は、中間重み配列56を摂動配列57とポイントツーポイントで加算して、最終的に第2重み配列55を取得する。
後続の第2画像セマンティックセグメンテーションネットワークをトレーニングするとき、マスクネットワークの実数マスク及び摂動配列を同時に更新する。
上記の実施例によるトレーニング方法で画像セマンティックセグメンテーションネットワークのトレーニングを完成した後、コンピュータ機器は、トレーニングして取得されたターゲット画像セマンティックセグメンテーションネットワークを使用してテスト画像セットをテストでき、それにより、セマンティックセグメンテーション結果に従ってネットワークの画像セマンティックセグメンテーション品質を決定する。
一可能な実施形態において、コンピュータ機器は、テスト画像セット内のテスト画像を取得された後、テスト画像をターゲット画像セマンティックセグメンテーションネットワークに入力し、ターゲット画像セマンティックセグメンテーションネットワークによって出力されたターゲット画像セマンティックセグメンテーション結果を取得し、ここで、当該ターゲット画像セマンティックセグメンテーション結果は、テスト画像内の各ピクセルが属する対象に対応するカテゴリを含む。
さらに、コンピュータ機器は、ターゲット画像セマンティックセグメンテーション結果に従ってテスト画像に対応するセグメンテーション画像を表示し、それにより、セグメンテーション画像に従ってネットワークの画像セマンティックセグメンテーション品質を決定し、ここで、セグメンテーション画像には、異なるカテゴリの対象が注釈されている。選択的に、コンピュータ機器は、事前に各カテゴリに表記色を割り当て、それにより、各ピクセルが属する対象に対応するカテゴリに従って、対応する表記色を使用して各ピクセルを満たして、テスト画像に対応するセグメンテーション画像を生成する。
テスト画像に対してセマンティックセグメンテーションを実行して取得されたセマンティックセグメンテーション効果の比較図を示す図9を参照されたい。図9から分かるように、本願実施例によるトレーニング方法を使用していないことと比較して、本願実施例によるトレーニング方法を適用した後、テスト画像セットとトレーニング画像セットの分布が異なる場合、画像セマンティックセグメンテーションネットワークのテスト画像に対するセマンティックセグメンテーション結果はより正しい。
図10は本願一例示的な実施例による画像セマンティックセグメンテーションネットワークのトレーニング装置の構造のブロック図であり、当該装置は、上記の実施例に記載のコンピュータ機器に設置でき、図10に示されたように、当該装置は、第1トレーニングモジュール1010、マスクモジュール1020及び第2トレーニングモジュール1030を備える。画像セマンティックセグメンテーションネットワークのトレーニング装置に含まれる各モジュールは、すべてまたは部分的にソフトウェア、ハードウェアまたはそれらの組み合わせで実現できる。
第1トレーニングモジュール1010は、トレーニング画像セットに従って、第1画像セマンティックセグメンテーションネットワークをトレーニングするように構成され、トレーニング画像セット内のトレーニング画像は注釈情報を含む。
マスクモジュール1020は、マスクネットワークを介して第1画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第2画像セマンティックセグメンテーションネットワークを取得するように構成され、マスクネットワークは、第1画像セマンティックセグメンテーションネットワークの画像の特徴分布に敏感ではないネットワーク重みをスクリーニングするために使用される。
第2トレーニングモジュール1030は、トレーニング画像セット及びテスト画像セットに従って、第2画像セマンティックセグメンテーションネットワークをトレーニングするように構成され、テスト画像セット内のテスト画像は、注釈情報を含まなく、且つトレーニング画像セットとテスト画像セットの分布は異なる。
一実施例において、マスクネットワークと第1画像セマンティックセグメンテーションネットワークとのネットワーク構造が同じであり、且つ、マスクネットワークと第1画像セマンティックセグメンテーションネットワークとのネットワーク重みの数は同じである。マスクモジュール1020は、取得ユニット、マスクユニット及び生成ユニットを備える。
取得ユニットは、第1画像セマンティックセグメンテーションネットワークに対応する第1重み配列を取得するように構成され、第1重み配列は、第1画像セマンティックセグメンテーションネットワークにおける各畳み込みカーネルに対応するネットワーク重みを含む。
マスクユニットは、マスクネットワークに対応する実数マスクを介して第1重み配列に対してマスク処理を実行して、第2重み配列を取得するように構成され、実数マスクは、マスクネットワークにおける各畳み込みカーネルに対応するネットワーク重みを含む。
生成ユニットは、第2重み配列に従って第2画像セマンティックセグメンテーションネットワークを生成するように構成される。
一実施例において、マスクユニットは、閾値関数を介して実数マスクに対して二値化処理を実行して、二値化マスクを生成し、二値化マスクは、0及び1によって構成される配列であり、且つ、二値化マスクのサイズは、第1重み配列のサイズと同じであり、第1重み配列を二値化マスクとポイントツーポイントで乗算して、第2重み配列を取得するように構成される。
一実施例において、マスクユニットは、さらに、第1重み配列を二値化マスクとポイントツーポイントで乗算して、中間重み配列を取得し、中間重み配列及び摂動配列に従って第2重み配列を生成するように構成され、摂動配列は、中間重み配列におけるネットワーク重みに摂動を増加するように使用される。
一実施例において、生成ユニットは、第2重み配列に従って、第1画像セマンティックセグメンテーションネットワークにおける各畳み込みカーネルに対してネットワーク重みの更新を実行し、ネットワーク重みの更新後の第1画像セマンティックセグメンテーションネットワークを第2画像セマンティックセグメンテーションネットワークとして決定するように構成される。
一実施例において、第2トレーニングモジュール1030は、第1計算ユニット、第2計算ユニット及び敵対的トレーニングユニットを備える。
第1計算ユニットは、トレーニング画像セットに従って第2画像セマンティックセグメンテーションネットワークのセグメンテーション損失を計算するように構成される。
第2計算ユニットは、トレーニング画像セット及びテスト画像セットに従って弁別器の弁別器損失を計算するように構成、弁別器は、画像特徴に従って画像が属する画像セットを決定するように構成される。
敵対的トレーニングユニットは、セグメンテーション損失及び弁別器損失に従って、第2画像セマンティックセグメンテーションネットワーク及び弁別器に対して敵対的トレーニングを実行するように構成される。
一実施例において、第2計算ユニットは、ターゲット画像を第2画像セマンティックセグメンテーションネットワークに入力して、ターゲット画像特徴を取得し、ターゲット画像は、トレーニング画像セットに含まれるかまたは前記テスト画像セットに含まれ、ターゲット画像特徴を弁別器に入力して、弁別結果を取得し、ターゲット画像が属する画像セット及び弁別結果に従って、弁別器損失を計算するように構成される。
一実施例において、補助運転分野に使用される場合、トレーニング画像セットとテスト画像セットの分布が異なることは、属する都市が異なること、属する季節が異なること、属する期間が異なることのうちの少なくとも1つを含み、または、顔識別の分野に使用される場合、トレーニング画像セットとテスト画像セットの分布が異なることは、人種が異なること、肌の色が異なること、スタイルが異なることのうちの少なくとも1つを含み、体検出の分野に使用される場合、トレーニング画像セットとテスト画像セットの分布が異なることは、収集環境が異なること、人種が異なること、姿勢が異なることのうちの少なくとも1つを含む。
上記の実施例による画像セマンティックセグメンテーションネットワークのトレーニング装置は、上記の各機能モジュールの分割のみを例に挙げて説明したが、実際の応用では、必要に応じて上述の機能を異なる機能モジュールにより割り当てられて完了してもよく、即ち、機器の内部構造を異なる機能モジュールに分割して、上述の機能のすべてまたは一部を完了することができることに留意されたい。なお、上記の実施例による画像セマンティックセグメンテーションネットワークのトレーニング装置は、画像セマンティックセグメンテーションネットワークのトレーニング方法の実施例と同じ構想に属し、その具体的な実現プロセスについては方法の実施例を参照されたい。
本願の一例示的な実施例によるコンピュータ機器の例示的な構造図を示す図11を参照されたい。具体的には、コンピュータ機器1100は、中央処理ユニット(CPU)1101、ランダムアクセスメモリ(RAM)1102及び読み取り専用メモリ(ROM)1103を備えるシステムメモリ1104、及びシステムメモリ1104と中央処理ユニット1101を接続するシステムバス1105を備える。コンピュータ機器1100は、さらに、コンピュータ内の各デバイス間で情報を伝送するようにする基本入力/出力システム(I/Oシステム)1106、及び操作システム1113、アプリケーション1114及び他のプログラムモジュール1115を記憶するように構成される大容量記憶機器1107を備える。
基本入力/出力システム1106は、情報を表示するために使用されるディスプレイスクリーン1108と、ユーザが情報を入力するために使用されるマウス、キーボードなどの入力機器1109とを備える。ここでディスプレイスクリーン1208及び入力機器1109は、両方ともシステムバス1105の入力出力コントローラ1110に接続することを介して中央処理ユニット1101に接続する。基本入力/出力システム1106は、さらに、キーボード、マウス、または電子スタイラスなどの複数の他の機器からの入力を受信及び処理するために、入力出力コントローラ1110を備えることができる。同様に、入力出力コントローラ1110は、ディスプレイスクリーン、プリンタまたは他のタイプの出力機器に出力も提供する。
大容量記憶機器1107は、システムバス1105の大容量記憶コントローラ(図示せず)に接続することを介して中央処理ユニット1101に接続する。大容量記憶機器1107及びその関連するコンピュータ可読媒体は、コンピュータ機器1100に不揮発性記憶を提供する。つまり、大容量記憶機器1107は、ハードディスクまたはCD-ROIドライバなどのコンピュータ可読媒体(図示せず)を含み得る。
一般性を失うことなく、コンピュータ可読媒体はコンピュータ記憶媒体と通信媒体とを含み得る。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータなどの情報を記憶するために使用される任意の方法または技術によって実現される、揮発性及び不揮発性、移動可能及び移動不可能な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EPROM、EEPROM、フラッシュメモリまたは他のソリッドステートメモリ技術、CD-ROM、DVDまたは他の光学記憶、磁気テープボックス、磁気テープ、磁気ディスク記憶または他の磁気記憶機器を含む。もちろん、当業者は、コンピュータ記憶媒体は上述したいくつかに限定されないことを分かることができる。上述したシステムメモリ1104及び大容量記憶機器1107をまとめてメモリと呼ぶことができる。
メモリには1つまたは複数のプログラムが記憶され、1つまたは複数のプログラムは、1つまたは複数の中央処理ユニット1101によって実行されるように構成され、1つまたは複数のプログラムは、上記のテキスト極性識別方法を実現するために使用される命令を含み、中央処理ユニット1101は、当該1つまたは複数のプログラムを実行して上記の各方法実施例による方法を実現する。
本願の様々な実施例によれば、コンピュータ機器1100は、インターネットなどのネットワークを介してネットワーク上のリモートコンピュータに接続されて実行することもできる。即ち、コンピュータ機器1100は、システムバス1105におけるネットワークインターフェースユニット1111に接続することを介してネットワーク1112に接続でき、言い換えると、ネットワークインターフェースユニット1111を使用して他のタイプのネットワークまたはリモートコンピュータシステム(図示せず)に接続することもできる。
メモリは、さらに、1つまたは1つ以上のプログラムを含み、1つまたは1つ以上のプログラムはメモリに記憶され、1つまたは1つ以上のプログラムは、本願実施例による方法を実行するためのコンピュータ機器によって実行されるステップを含む。
本願実施例は、さらに、コンピュータ可読記憶媒体を提供し、当該可読記憶媒体には少なくとも1つの命令、少なくとも1つのプログラム、コードセットまたは命令セットが記憶され、上記の任意の実施例の画像セマンティックセグメンテーションモデルのトレーニング方法を実現するために、少なくとも1つの命令、少なくとも1つのプログラム、コードセットまたは命令セットは、プロセッサによってロードし実行される。
本願は、さらに、コンピュータプログラム製品を提供し、コンピュータプログラム製品がコンピュータで実行するとき、コンピュータに上記の各方法実施例による画像セマンティックセグメンテーションモデルのトレーニング方法を実行させる。
一実施例において、メモリとプロセッサとを備える、コンピュータ機器を提供し、メモリにはコンピュータ可読命令が記憶され、コンピュータ可読命令がプロセッサによって実行されるとき、プロセッサに上記の画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップを実行させる。ここでの画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップは、上述した各実施例の画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法におけるステップであり得る。
一実施例において、コンピュータ可読命令が記憶される、コンピュータ可読記憶媒体を提供し、コンピュータ可読命令がプロセッサによって実行されるとき、プロセッサに上記の画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップを実行させる。ここでの画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップは、上述した各実施例の画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法におけるステップであり得る。
一実施例において、コンピュータプログラム製品を提供し、コンピュータプログラム製品がコンピュータ機器によって実行されるとき、コンピュータ機器に画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップを実行させる。プロセッサに上記の画像処理方法のステップを実行させる。ここでの画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップは、上述した各実施例の画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法におけるステップであり得る。
上述の実施例の様々な方法における全てまたは一部のステップは、プログラムによって関連するハードウェアを命令することを介して完成できることを当業者なら自明である。当該プログラムは、1つのコンピュータ可読記憶媒体に記憶でき、当該コンピュータ可読記憶媒体は、上述の実施例におけるメモリ内の含まれるコンピュータ可読記憶媒体でもよく、独立で存在して、端末に組み立てされていないコンピュータ可読記憶媒体でもよい。当該コンピュータ可読記憶媒体には、少なくとも1つの命令、少なくとも1つのプログラム、コードセットまたは命令セットが記憶され、上記の任意の方法実施例に記載の画像セマンティックセグメンテーションモデルのトレーニング方法を実現するために、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセットまたは命令セットは、前記プロセッサによってロードし実行される。
例示的に、当該コンピュータ可読記憶媒体は、読み取り専用メモリ(ROM:Read Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、ソリッドステートハードディスク(SSD:Solid State Drives)または光ディスクなどを含み得る。ここで、ランダムアクセスメモリは、抵抗性ランダムアクセスメモリ(ReRAM: Resistance Random Access Memory)とダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)とを含み得る。上述の本願実施例の番号は、実施例の優劣を表すものではなく、説明の便宜を図るためのものである。
上述の実施例の全てまたは一部のステップは、ハードウェアを介して完了してもよく、プログラムによって、関連するハードウェアに命令することにより完了してもよいことを当業者なら自明である。前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよく、上記で言及された記憶媒体は、読み取り専用メモリ、磁気ディスク、または光ディスクであり得る。
以上の実施例における様々な技術特徴は、任意に組み合わせることができ、説明の簡潔にために、上述した実施例における各技術特徴のすべての可能な組み合わせを説明していないが、特徴の間の組み合わせに矛盾がない限り、全て本明細書に記載の範囲と見なすべきである。
以上の実施例は、本願のいくつかの実施形態のみを表し、その説明は、具体的で詳細であるが、本発明の特許の範囲に対する制限として理解されるべきではない。当業者にとって、本願の概念から逸脱することなく、いくつかの変形及び改善を加えることもでき、これらは全て本願の保護範囲に含まれると見なされるべきであることに留意されたい。したがって、本願の保護範囲は、添付の特許請求を基準とするべきである。
31 トレーニング画像
32 第1画像セマンティックセグメンテーションネットワーク
34 注釈情報
35 マスクネットワーク
36 第2画像セマンティックセグメンテーションネットワーク
37 テスト画像
51 配列
52 実数マスク
53 閾値関数
54 二値化マスク
55 配列
56 配列
57 摂動配列
71 弁別器
110 端末
120 サーバ
121 トレーニング画像セット
122 テスト画像セット
123 画像セマンティックセグメンテーションネットワーク
1010 第1トレーニングモジュール
1020 マスクモジュール
1030 第2トレーニングモジュール
1100 コンピュータ機器
1101 中央処理ユニット
1102 ランダムアクセスメモリ(RAM)
1103 専用メモリ(ROM)
1104 システムメモリ
1105 システムバス
1106 出力システム
1107 大容量記憶機器
1108 ディスプレイスクリーン
1109 入力機器
1110 入力出力コントローラ
1111 ネットワークインターフェースユニット
1112 ネットワーク
1113 操作システム
1114 アプリケーション
1115 プログラムモジュール
1208 ディスプレイスクリーン

Claims (15)

  1. コンピュータ機器が実行する、画像セマンティックセグメンテーションネットワークのトレーニング方法であって、
    トレーニング画像セットに従って、第1画像セマンティックセグメンテーションネットワークをトレーニングするステップであって、前記トレーニング画像セット内のトレーニング画像は、注釈情報を含む、ステップと、
    マスクネットワークを介して、前記第1画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第2画像セマンティックセグメンテーションネットワークを取得するステップであって、前記マスクネットワークは、前記第1画像セマンティックセグメンテーションネットワークにおける画像の特徴分布に敏感ではないネットワーク重みをスクリーニングするために使用される、ステップと、
    前記トレーニング画像セット及びテスト画像セットに従って、前記第2画像セマンティックセグメンテーションネットワークをトレーニングするステップであって、前記テスト画像セット内のテスト画像は、注釈情報を含まなく、且つ前記トレーニング画像セットと前記テスト画像セットの分布は異なる、ステップと、
    を含むことを特徴とする、画像セマンティックセグメンテーションネットワークのトレーニング方法。
  2. 前記マスクネットワークと前記第1画像セマンティックセグメンテーションネットワークとのネットワーク構造が同じであり、且つ、前記マスクネットワークと前記第1画像セマンティックセグメンテーションネットワークとのネットワーク重みの数は同じであり、
    マスクネットワークを介して、前記第1画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第2画像セマンティックセグメンテーションネットワークを取得する前記ステップは、
    前記第1画像セマンティックセグメンテーションネットワークに対応する第1重み配列を取得するステップであって、前記第1重み配列は、前記第1画像セマンティックセグメンテーションネットワークにおける各畳み込みカーネルに対応するネットワーク重みを含む、ステップと、
    前記マスクネットワークに対応する実数マスクを介して前記第1重み配列に対してマスク処理を実行して、第2重み配列を取得するステップであって、前記実数マスクは、前記マスクネットワークにおける各畳み込みカーネルに対応するネットワーク重みを含む、ステップと、
    前記第2重み配列に従って、前記第2画像セマンティックセグメンテーションネットワークを生成するステップと、
    を含むことを特徴とする、請求項1に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法。
  3. 前記マスクネットワークに対応する実数マスクを介して前記第1重み配列に対してマスク処理を実行して、第2重み配列を取得する前記ステップは、
    閾値関数を介して前記実数マスクに対して二値化処理を実行して、二値化マスクを生成するステップであって、前記二値化マスクは、0及び1によって構成される配列であり、且つ、前記二値化マスクのサイズは、前記第1重み配列のサイズと同じである、ステップと、
    前記第1重み配列を前記二値化マスクとポイントツーポイントで乗算して、前記第2重み配列を取得するステップと、
    を含むことを特徴とする、請求項2に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法。
  4. 前記画像セマンティックセグメンテーションネットワークのトレーニング方法は、
    前記第1重み配列を前記二値化マスクとポイントツーポイントで乗算して、中間重み配列を取得するステップと
    前記中間重み配列及び摂動配列に従って前記第2重み配列を生成するステップと、をさらに含み、前記摂動配列は、前記中間重み配列内のネットワーク重みに摂動を増加するために使用される
    ことを特徴とする、請求項3に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法。
  5. 前記第2重み配列に従って、前記第2画像セマンティックセグメンテーションネットワークを生成する前記ステップは、
    前記第2重み配列に従って、前記第1画像セマンティックセグメンテーションネットワークにおける各畳み込みカーネルに対してネットワーク重みの更新を実行するステップと、
    ネットワーク重みの更新後の前記第1画像セマンティックセグメンテーションネットワークを前記第2画像セマンティックセグメンテーションネットワークとして決定するステップと、
    を含むことを特徴とする、請求項2ないし4のいずれか一項に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法。
  6. 前記トレーニング画像セット及び前記テスト画像セットに従って、前記第2画像セマンティックセグメンテーションネットワークをトレーニングする前記ステップは、
    前記トレーニング画像セットに従って前記第2画像セマンティックセグメンテーションネットワークのセグメンテーション損失を計算するステップと、
    前記トレーニング画像セット及び前記テスト画像セットに従って、弁別器の弁別器損失を計算するステップであって、前記弁別器は、画像特徴に従って、画像が属する画像セットを決定するために使用される、ステップと、
    前記セグメンテーション損失及び前記弁別器損失に従って、前記第2画像セマンティックセグメンテーションネットワーク及び前記弁別器に対して敵対的トレーニングを実行するステップと、
    を含むことを特徴とする、請求項1ないし4のいずれか一項に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法。
  7. 前記トレーニング画像セット及び前記テスト画像セットに従って、弁別器の弁別器損失を計算する前記ステップは、
    ターゲット画像を前記第2画像セマンティックセグメンテーションネットワークに入力して、ターゲット画像特徴を取得するステップであって、前記ターゲット画像は、前記トレーニング画像セットに属し、または前記テスト画像セットに属する、ステップと、
    前記ターゲット画像特徴を前記弁別器に入力して、弁別結果を取得するステップと、
    前記ターゲット画像が属する画像セット及び前記弁別結果に従って、前記弁別器損失を計算するステップと、
    を含むことを特徴とする、請求項6に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法。
  8. 前記方法が補助運転の分野に使用される場合、前記トレーニング画像セットと前記テスト画像セットの分布が異なることは、属する都市が異なること、属する季節が異なること、属する期間が異なることのうちの少なくとも1つを含み、
    または、
    前記方法が顔識別の分野に使用される場合、前記トレーニング画像セットと前記テスト画像セットの分布が異なることは、人種が異なること、肌の色が異なること、スタイルが異なることのうちの少なくとも1つを含み、
    または、
    前記方法が体検出の分野に使用される場合、前記トレーニング画像セットと前記テスト画像セットの分布が異なることは、収集環境が異なること、人種が異なること、姿勢が異なることのうちの少なくとも1つを含む
    ことを特徴とする、請求項1ないし4のいずれか一項に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法。
  9. ターゲット画像セマンティックセグメンテーションネットワークが構成されているコンピュータ機器に使用される、画像セマンティックセグメンテーション方法であって、前記ターゲット画像セマンティックセグメンテーションネットワークは、請求項1ないし8のいずれか一項に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法を使用してトレーニングして取得されるものであり、
    テスト画像セット内のテスト画像を取得するステップと、
    前記テスト画像を前記ターゲット画像セマンティックセグメンテーションネットワークに入力し、前記ターゲット画像セマンティックセグメンテーションネットワークによって出力されたターゲット画像セマンティックセグメンテーション結果を取得するステップであって、前記ターゲット画像セマンティックセグメンテーション結果は、前記テスト画像の各ピクセルが属する対象に対応するカテゴリを含む、ステップと、
    前記ターゲット画像セマンティックセグメンテーション結果に従って、前記テスト画像に対応するセグメンテーション画像を表示するステップと、を含み、前記セグメンテーション画像には異なるカテゴリの対象が注釈されている
    ことを特徴とする、画像セマンティックセグメンテーション方法。
  10. 画像セマンティックセグメンテーションネットワークのトレーニング装置であって、
    トレーニング画像セットに従って、第1画像セマンティックセグメンテーションネットワークをトレーニングするように構成される第1トレーニングモジュールであって、前記トレーニング画像セット内のトレーニング画像は、注釈情報を含む、第1トレーニングモジュールと、
    マスクネットワークを介して、前記第1画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第2画像セマンティックセグメンテーションネットワークを取得するように構成されるマスクモジュールであって、前記マスクネットワークは、前記第1画像セマンティックセグメンテーションネットワークにおける画像の特徴分布に敏感ではないネットワーク重みをスクリーニングするために使用される、マスクモジュールと、
    前記トレーニング画像セット及びテスト画像セットに従って、前記第2画像セマンティックセグメンテーションネットワークをトレーニングするように構成される、第2トレーニングモジュールと、を備え、前記テスト画像セット内のテスト画像は、前記注釈情報を含まなく、且つ前記トレーニング画像セットと前記テスト画像セットの分布は異なる
    ことを特徴とする、画像セマンティックセグメンテーションネットワークのトレーニング装置。
  11. 前記マスクネットワークと前記第1画像セマンティックセグメンテーションネットワークとのネットワーク構造が同じであり、且つ、前記マスクネットワークと前記第1画像セマンティックセグメンテーションネットワークとのネットワーク重みの数は同じであり、
    前記マスクモジュールは、
    前記第1画像セマンティックセグメンテーションネットワークに対応する第1重み配列を取得するように構成される取得ユニットであって、前記第1重み配列は、前記第1画像セマンティックセグメンテーションネットワークにおける各畳み込みカーネルに対応するネットワーク重みを含む、取得ユニットと、
    前記マスクネットワークに対応する実数マスクを介して、前記第1重み配列に対してマスク処理を実行して、第2重み配列を取得するように構成されるマスクユニットであって、前記実数マスクは、前記マスクネットワークにおける各畳み込みカーネルに対応するネットワーク重みを含む、マスクユニットと、
    前記第2重み配列に従って、前記第2画像セマンティックセグメンテーションネットワークを生成するように構成される、生成ユニットと、
    を備えることを特徴とする、請求項10に記載の画像セマンティックセグメンテーションネットワークのトレーニング装置。
  12. 前記マスクユニットは、
    閾値関数を介して前記実数マスクに対して二値化処理を実行して、二値化マスクを生成し、
    前記第1重み配列を前記二値化マスクとポイントツーポイントで乗算して、前記第2重み配列を取得するように構成され、
    前記二値化マスクは、0及び1によって構成される配列であり、且つ、前記二値化マスクのサイズは、前記第1重み配列のサイズと同じである
    ことを特徴とする、請求項11に記載の画像セマンティックセグメンテーションネットワークのトレーニング装置。
  13. 前記マスクユニットは、さらに、
    前記第1重み配列を前記二値化マスクとポイントツーポイントで乗算して、中間重み配列を取得し、
    前記中間重み配列及び摂動配列に従って前記第2重み配列を生成するように構成され、前記摂動配列は、前記中間重み配列内のネットワーク重みに摂動を増加するために使用される
    ことを特徴とする、請求項12に記載の画像セマンティックセグメンテーションネットワークのトレーニング装置。
  14. メモリとプロセッサとを備える、コンピュータ機器であって、前記メモリにはコンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されるとき、前記プロセッサに請求項1ないし9のいずれか一項に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法のステップを実行させる、コンピュータ機器。
  15. コンピュータプログラムであって、
    コンピュータに、請求項1ないし9のいずれか一項に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法を実行させるように構成される、コンピュータプログラム。
JP2021522420A 2019-03-26 2020-03-16 画像セマンティックセグメンテーションネットワークのトレーニング方法、装置、機器及びコンピュータプログラム Active JP7375006B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910231466.5A CN109978893B (zh) 2019-03-26 2019-03-26 图像语义分割网络的训练方法、装置、设备及存储介质
CN201910231466.5 2019-03-26
PCT/CN2020/079470 WO2020192469A1 (zh) 2019-03-26 2020-03-16 图像语义分割网络的训练方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022505762A true JP2022505762A (ja) 2022-01-14
JP7375006B2 JP7375006B2 (ja) 2023-11-07

Family

ID=67080548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021522420A Active JP7375006B2 (ja) 2019-03-26 2020-03-16 画像セマンティックセグメンテーションネットワークのトレーニング方法、装置、機器及びコンピュータプログラム

Country Status (6)

Country Link
US (1) US20210241107A1 (ja)
EP (1) EP3951713A4 (ja)
JP (1) JP7375006B2 (ja)
KR (1) KR102635987B1 (ja)
CN (1) CN109978893B (ja)
WO (1) WO2020192469A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10853704B2 (en) * 2018-12-18 2020-12-01 Clarifai, Inc. Model-based image labeling and/or segmentation
CN109978893B (zh) * 2019-03-26 2023-06-20 腾讯科技(深圳)有限公司 图像语义分割网络的训练方法、装置、设备及存储介质
CN110378438A (zh) * 2019-08-07 2019-10-25 清华大学 标签容错下的图像分割模型的训练方法、装置及相关设备
CN112419328B (zh) * 2019-08-22 2023-08-04 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110599491B (zh) * 2019-09-04 2024-04-12 腾讯医疗健康(深圳)有限公司 基于先验信息的眼部图像分割方法、装置、设备及介质
CN110647993A (zh) * 2019-09-23 2020-01-03 南方科技大学 一种红外传感器掩膜制造方法、装置、系统及存储介质
CN112634190A (zh) * 2019-09-24 2021-04-09 上海汽车集团股份有限公司 一种涂胶检测方法及装置
CN110868598B (zh) * 2019-10-17 2021-06-22 上海交通大学 基于对抗生成网络的视频内容替换方法及系统
CN111260679B (zh) * 2020-01-07 2022-02-01 广州虎牙科技有限公司 图像处理方法、图像分割模型训练方法及相关装置
US11450008B1 (en) * 2020-02-27 2022-09-20 Amazon Technologies, Inc. Segmentation using attention-weighted loss and discriminative feature learning
CN111507989A (zh) * 2020-04-15 2020-08-07 上海眼控科技股份有限公司 语义分割模型的训练生成方法、车辆外观检测方法、装置
CN111626301B (zh) * 2020-05-07 2023-09-26 京东科技信息技术有限公司 一种图像筛选方法、装置、电子设备及存储介质
CN111666945A (zh) * 2020-05-11 2020-09-15 深圳力维智联技术有限公司 一种基于语义分割的店面违规识别方法及装置、存储介质
CN111833239B (zh) * 2020-06-01 2023-08-01 北京百度网讯科技有限公司 图像的翻译方法和装置、图像翻译模型的训练方法和装置
CN112101463A (zh) * 2020-09-17 2020-12-18 成都数之联科技有限公司 图像语义分割网络训练方法、分割方法、分割装置和介质
CN112330640A (zh) * 2020-11-09 2021-02-05 平安科技(深圳)有限公司 医学图像中结节区域的分割方法、装置及设备
CN112465840B (zh) * 2020-12-10 2023-02-17 重庆紫光华山智安科技有限公司 语义分割模型训练方法、语义分割方法及相关装置
KR102580914B1 (ko) * 2020-12-15 2023-09-20 세종대학교산학협력단 딥러닝 기반 이미지 복구 기술을 이용한 패션 이미지 검색 방법 및 장치
CN112734775B (zh) * 2021-01-19 2023-07-07 腾讯科技(深圳)有限公司 图像标注、图像语义分割、模型训练方法及装置
US11763135B2 (en) * 2021-03-01 2023-09-19 Robert Bosch Gmbh Concept-based adversarial generation method with steerable and diverse semantics
CN113052868B (zh) * 2021-03-11 2023-07-04 奥比中光科技集团股份有限公司 一种抠图模型训练、图像抠图的方法及装置
CN113762262B (zh) * 2021-05-19 2024-05-31 腾讯科技(深圳)有限公司 图像数据筛选、图像分割模型训练方法、装置和存储介质
CN113421191A (zh) * 2021-06-28 2021-09-21 Oppo广东移动通信有限公司 图像处理方法、装置、设备及存储介质
CN113723231A (zh) * 2021-08-17 2021-11-30 南京邮电大学 低光照语义分割模型训练方法、语义分割方法及装置
CN114596552B (zh) * 2022-03-09 2023-06-23 阿波罗智能技术(北京)有限公司 信息处理方法、训练方法、装置、设备、车辆及介质
CN114693967B (zh) * 2022-03-20 2023-10-31 电子科技大学 基于二分类张量增强的多分类语义分割方法
CN114693934B (zh) * 2022-04-13 2023-09-01 北京百度网讯科技有限公司 语义分割模型的训练方法、视频语义分割方法及装置
CN114677567B (zh) * 2022-05-27 2022-10-14 成都数联云算科技有限公司 模型训练方法、装置、存储介质及电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10819919B2 (en) * 2017-06-05 2020-10-27 Adasky, Ltd. Shutterless far infrared (FIR) camera for automotive safety and driving systems
US10699386B2 (en) * 2017-06-05 2020-06-30 Adasky, Ltd. Techniques for scene-based nonuniformity correction in shutterless FIR cameras
WO2018232592A1 (en) * 2017-06-20 2018-12-27 Microsoft Technology Licensing, Llc. SEMANTIC SEGMENTATION TAKING INTO ACCOUNT AN EVENT WITH COMPLETE CONVOLUTION
CN108875732B (zh) * 2018-01-11 2022-07-12 北京旷视科技有限公司 模型训练与实例分割方法、装置和系统及存储介质
CN108256527A (zh) * 2018-01-23 2018-07-06 深圳市唯特视科技有限公司 一种基于端到端全卷积网络的皮肤病变多类语义分割方法
CN108537292B (zh) * 2018-04-10 2020-07-31 上海白泽网络科技有限公司 语义分割网络训练方法、图像语义分割方法及装置
CN108830277B (zh) * 2018-04-20 2020-04-21 平安科技(深圳)有限公司 语义分割模型的训练方法、装置、计算机设备和存储介质
CN109190684B (zh) * 2018-08-15 2022-03-04 西安电子科技大学 基于素描及结构生成对抗网络的sar图像样本生成方法
US11556746B1 (en) * 2018-10-26 2023-01-17 Amazon Technologies, Inc. Fast annotation of samples for machine learning model development
CN109978893B (zh) * 2019-03-26 2023-06-20 腾讯科技(深圳)有限公司 图像语义分割网络的训练方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ARUN MALLYA,外2名: ""Piggyback: Adapting a Single Network to Multiple Tasks by Learning to Mask Weights"", [ONLINE], JPN6022020059, 16 March 2018 (2018-03-16), ISSN: 0004919245 *
PIERLUIGI ZAMA RAMIREZ,外2名: ""Exploiting Semantics in Adversarial Training for Image-Level Domain Adaptation"", [ONLINE], JPN6022020058, 13 October 2018 (2018-10-13), ISSN: 0004919246 *
WENZHU YANG,外5名: ""Thinning of convolutional neural network with mixed pruning"", IET IMAGE PROCESSING, vol. Volume 13,Issure 5, JPN7022005273, 20 March 2019 (2019-03-20), pages 779 - 784, ISSN: 0004919247 *
松本 晨人,外1名: ""画像変換ネットワークによる連続学習"", 第11回データ工学と情報マネジメントに関するフォーラム (第17回日本データベース学会年次大会) [, JPN6022020057, 6 March 2019 (2019-03-06), ISSN: 0004919248 *

Also Published As

Publication number Publication date
EP3951713A4 (en) 2022-05-18
US20210241107A1 (en) 2021-08-05
JP7375006B2 (ja) 2023-11-07
KR102635987B1 (ko) 2024-02-08
EP3951713A1 (en) 2022-02-09
CN109978893A (zh) 2019-07-05
CN109978893B (zh) 2023-06-20
KR20210073569A (ko) 2021-06-18
WO2020192469A1 (zh) 2020-10-01

Similar Documents

Publication Publication Date Title
JP7375006B2 (ja) 画像セマンティックセグメンテーションネットワークのトレーニング方法、装置、機器及びコンピュータプログラム
Chen et al. A deep learning algorithm for simulating autonomous driving considering prior knowledge and temporal information
Ramanishka et al. Toward driving scene understanding: A dataset for learning driver behavior and causal reasoning
Singh et al. Image classification: a survey
US20180114071A1 (en) Method for analysing media content
CN112419368A (zh) 运动目标的轨迹跟踪方法、装置、设备及存储介质
CN110827236B (zh) 基于神经网络的脑组织分层方法、装置、计算机设备
CN111274926B (zh) 图像数据筛选方法、装置、计算机设备和存储介质
CN110889421A (zh) 目标物检测方法及装置
CN111667001A (zh) 目标重识别方法、装置、计算机设备和存储介质
CN112801236B (zh) 图像识别模型的迁移方法、装置、设备及存储介质
CN107203775A (zh) 一种图像分类的方法、装置和设备
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN114820644A (zh) 对图像的像素进行分类的方法和设备
CN116964588A (zh) 一种目标检测方法、目标检测模型训练方法及装置
CN116311214A (zh) 车牌识别方法和装置
Chen et al. STRAN: Student expression recognition based on spatio-temporal residual attention network in classroom teaching videos
CN111523351A (zh) 神经网络的训练方法、装置和电子设备
JP7355299B2 (ja) 学習用データセット生成システム、学習サーバ、及び学習用データセット生成プログラム
CN117037244A (zh) 人脸安全检测方法、装置、计算机设备和存储介质
CN116823884A (zh) 多目标跟踪方法、系统、计算机设备及存储介质
CN112529116B (zh) 场景元素融合处理方法、装置和设备及计算机存储介质
KR102348368B1 (ko) 머신러닝 모델의 학습 데이터 생성과 머신러닝 모델을 이용한 유사 이미지 생성을 위한 장치, 방법, 시스템 및 컴퓨터 판독가능 저장 매체
CN114596435A (zh) 语义分割标签的生成方法、装置、设备及存储介质
Patel et al. Single-object detection from video streaming

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210423

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231025

R150 Certificate of patent or registration of utility model

Ref document number: 7375006

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150