JP2022505762A

JP2022505762A - 画像セマンティックセグメンテーションネットワークのトレーニング方法、装置、機器及びコンピュータプログラム

Info

Publication number: JP2022505762A
Application number: JP2021522420A
Authority: JP
Inventors: ▲澤▼群 ▲掲▼; 威 ▲劉▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-26
Filing date: 2020-03-16
Publication date: 2022-01-14
Anticipated expiration: 2040-03-16
Also published as: EP3951713A4; US20210241107A1; JP7375006B2; KR102635987B1; EP3951713A1; CN109978893A; CN109978893B; KR20210073569A; WO2020192469A1

Abstract

画像セマンティックセグメンテーションネットワークのトレーニング方法であり、当該方法は、トレーニング画像セットに従って、第１画像セマンティックセグメンテーションネットワークをトレーニングするステップであって、トレーニング画像セット内のトレーニング画像は注釈情報を含む、ステップと、マスクネットワークを介して、第１画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第２画像セマンティックセグメンテーションネットワークを取得するステップであって、マスクネットワークは、第１画像セマンティックセグメンテーションネットワークにおける画像の特徴分布に敏感ではないネットワーク重みをスクリーニングするために使用される、ステップと、トレーニング画像セット及びテスト画像セットに従って、第２画像セマンティックセグメンテーションネットワークをトレーニングするステップであって、トレーニング画像セットとテスト画像セットの分布は異なる、ステップと、を含む。

Description

本願は、２０１９年０３月２６日に中国特許局に提出された、出願番号が２０１９１０２３１４６６．５であり、発明の名称が「画像セマンティックセグメンテーションネットワークのトレーニング方法、装置、機器及び記憶媒体」である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれている。

本願実施例は、画像セマンティックセグメンテーション分野に関し、特に、画像セマンティックセグメンテーションネットワークのトレーニング方法、装置、機器及び記憶媒体に関する。

画像セマンティックセグメンテーションは、画像に含まれる異なる対象を区別し、各対象が属するカテゴリを識別する技術である。人工知能分野では、画像セマンティックセグメンテーションネットワークは、通常、畳み込みニューラルネットワークに基づいてトレーニングして取得される。

関連技術において、畳み込みニューラルネットワークに基づいて初期画像セマンティックセグメンテーションネットワークを構築された後、まずは、トレーニング画像セットを使用して初期画像セマンティックセグメンテーションネットワークをトレーニングし、ネットワークのトレーニングを完成した後、テスト画像セットを使用してトレーニングして取得された画像セマンティックセグメンテーションネットワークをテストし、それにより、画像セマンティックセグメンテーションネットワークの画像セマンティックセグメンテーション効果を決定する。ここで、トレーニング画像セットの各トレーニング画像はすべて注釈情報を含み、テスト画像セットのテスト画像は注釈情報を含まなく、当該注釈情報（ｌａｂｅｌｉｎｇｉｎｆｏｒｍａｔｉｏｎ）は、画像のピクセルが属する対象のカテゴリを示す。

しかしながら、上記の方法を使用してトレーニングされた画像セマンティックセグメンテーションネットワークは、画像の特徴分布に敏感であり、トレーニング画像セットとテスト画像セットの分布が一致しない場合、画像セマンティックセグメンテーションネットワークを使用してテスト画像セットをテストして取得されたテスト結果の正確度は低い。

本願による様々な実施例によれば、画像セマンティックセグメンテーションネットワークのトレーニング方法、装置、機器及び記憶媒体を提供する。

コンピュータ機器が実行する、画像セマンティックセグメンテーションネットワークのトレーニング方法であり、前記方法は、
トレーニング画像セットに従って、第１画像セマンティックセグメンテーションネットワークをトレーニングするステップであって、前記トレーニング画像セット内のトレーニング画像は、注釈情報を含む、ステップと、
マスクネットワークを介して、前記第１画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第２画像セマンティックセグメンテーションネットワークを取得するステップであって、前記マスクネットワークは、前記第１画像セマンティックセグメンテーションネットワークの画像の特徴分布に敏感ではないネットワーク重みをスクリーニングするために使用される、ステップと、
前記トレーニング画像セット及び前記テスト画像セットに従って、前記第２画像セマンティックセグメンテーションネットワークをトレーニングするステップであって、前記テスト画像セット内のテスト画像は、前記注釈情報を含まなく、且つ前記トレーニング画像セットと前記テスト画像セットの分布は異なる、ステップと、を含む。

ターゲット画像セマンティックセグメンテーションネットワークが構成されているコンピュータ機器に使用される、画像セマンティックセグメンテーション方法であり、前記ターゲット画像セマンティックセグメンテーションネットワークは、上の側面に記載の方法を使用してトレーニングして取得されものであり、前記方法は、
テスト画像セット内のテスト画像を取得するステップと、
前記テスト画像を前記ターゲット画像セマンティックセグメンテーションネットワークに入力し、前記ターゲット画像セマンティックセグメンテーションネットワークによって出力されたターゲット画像セマンティックセグメンテーション結果を取得するステップであって、前記ターゲット画像セマンティックセグメンテーション結果は、前記テスト画像の各ピクセルが属する対象に対応するカテゴリを含む、ステップと、
前記ターゲット画像セマンティックセグメンテーション結果に従って、前記テスト画像に対応するセグメンテーション画像を表示するステップと、を含み、前記セグメンテーション画像には異なるカテゴリの対象が注釈されている。

画像セマンティックセグメンテーションネットワークのトレーニング装置であり、前記装置は、
トレーニング画像セットに従って、第１画像セマンティックセグメンテーションネットワークをトレーニングするように構成される第１トレーニングモジュールであって、前記トレーニング画像セット内のトレーニング画像は、注釈情報を含む、第１トレーニングモジュールと、
マスクネットワークを介して、前記第１画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第２画像セマンティックセグメンテーションネットワークを取得するように構成されるマスクモジュールであって、前記マスクネットワークは、前記第１画像セマンティックセグメンテーションネットワークの画像の特徴分布に敏感ではないネットワーク重みをスクリーニングするために使用される、マスクモジュールと、
前記トレーニング画像セット及び前記テスト画像セットに従って、前記第２画像セマンティックセグメンテーションネットワークをトレーニングするように構成される、第２トレーニングモジュールと、を備え、前記テスト画像セット内のテスト画像は、前記注釈情報を含まなく、且つ前記トレーニング画像セットと前記テスト画像セットの分布は異なる。

コンピュータ可読命令が記憶される不揮発性記憶媒体であり、前記コンピュータ可読命令が１つまたは複数のプロセッサによって実行されるとき、１つまたは複数のプロセッサに画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップを実行させる。

メモリとプロセッサとを備えるコンピュータ機器であり、前記メモリにはコンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されるとき、前記プロセッサに画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップを実行させる。

コンピュータプログラム製品であり、前記コンピュータプログラム製品がコンピュータ機器で実行するとき、前記コンピュータ機器に画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップを実行させる。

本願の１つまたは複数の実施例の詳細は、以下の図面および説明で記載される。本願の他の特徴、目的および利点は、明細書、図面および特許請求の範囲から明らかになる。

本願実施例の技術的解決策をより明確に説明するために、以下は、実施例の説明で使用される図面について簡単に紹介する。以下に説明される図面は、本願のいくつかの実施例に過ぎず、当業者にとっては、創造的な作業なしに、これらの図面に従って他の図面を得ることもできることは自明である。

本願の一例示的な実施例による実施環境の概略図である。本願の一例示的な実施例による画像セマンティックセグメンテーションネットワークのトレーニング方法のフローチャートを示す。図２に示された画像セマンティックセグメンテーションネットワークのトレーニング方法の原理の概略図である。本願の別の一例示的な実施例による画像セマンティックセグメンテーションネットワークのトレーニング方法のフローチャートを示す。実数マスクを使用して第１重み配列に対してマスク処理を実行する原理の概略図である。本願の別の一例示的な実施例による画像セマンティックセグメンテーションネットワークのトレーニング方法のフローチャートを示す。弁別器が画像特徴に従って画像が属する画像セットを区別する原理の概略図である。第１重み配列に対してマスク処理を実行し摂動を増加する原理の概略図である。テスト画像に対してセマンティックセグメンテーションを実行して取得されたセマンティックセグメンテーション効果の比較図である。本願の一例示的な実施例による画像セマンティックセグメンテーションネットワークのトレーニング装置の構造のブロック図である。本願の一例示的な実施例によるコンピュータ機器の例示的な構造図を示す。

本願の目的、技術的解決策及び利点をより明確にするために以下、図面および実施例を参照して、本願をより詳しく説明する。ここで説明した具体的な実施例は、本願を説明するためにのみ使用され、本願を限定するために使用されないことを理解されたい。

理解を容易にするために、以下は、本願実施例に関するいくつかの用語を簡単に紹介する。

ネットワーク重み：畳み込みニューラルネットワークにおいて、畳み込みカーネルの各ユニットは、いずれもそれぞれのネットワーク重みに対応し、当該ネットワーク重みはネットワークトレーニングを介して取得される。３×３の畳み込みカーネルを例として、当該畳み込みカーネルには９つのユニットが含まれ、それに対応して、当該畳み込みカーネルには、９つのネットワーク重みがある。畳み込みカーネルを使用して画像のピクセルに対して畳み込み処理を実行する（即ち、畳み込みカーネルを使用して画像に対して特徴抽出を実行する）とき、即ち、ピクセル値を畳み込みカーネル内の、対応するネットワーク重みと乗算した後、各乗積を加算した後に出力する。

マスク：本願実施例におけるマスクは、畳み込みカーネルのネットワーク重みをスクリーニングするために使用される。ここで、マスクを使用して畳み込みカーネルに対してマスク処理を実行するとき、画像の特徴分布に敏感ではないネットワーク重みの通過率は、画像の特徴分布に敏感であるネットワーク重みの通過率より高く、それにより、画像の特徴分布に敏感ではないネットワーク重みをスクリーニングする効果を達成する。選択的に、当該マスクは、実数マスクまたは二値化マスクであり得、ここで、二値化マスクは、実数マスクを二値化処理した後に取得するものである。

弁別器：特徴が属する分布フィールドを弁別するように構成される機械学習モデルである。本願実施例の弁別器は、画像セマンティックセグメンテーションモデルによって出力される画像特徴が属する分布フィールド（トレーニング画像セットまたはテスト画像セット）を弁別するように構成される。

画像セマンティックセグメンテーション分野では、トレーニング画像セットを使用してネットワークトレーニングを実行し、その後、テスト画像セットを使用して、トレーニングにより取得されたネットワークをテストすることは、従来の方式である。関連技術において、注釈情報を含むトレーニング画像セットを使用して、画像セマンティックセグメンテーションネットワークをトレーニングした後、画像セマンティックセグメンテーションネットワークの（畳み込みカーネルの）ネットワーク重みがトレーニング画像セット内のトレーニング画像に準拠する特徴分布を取得し、したがって、テスト画像セット内のテスト画像の特徴分布がトレーニング画像の特徴分布と一致しない場合、テスト画像に対する画像セマンティックセグメンテーションネットワークの一般化が不十分であり、さらにテストの正確度に影響を与える。

例えば、トレーニングが無人運転の分野の画像セマンティックセグメンテーションネットワークに適用される場合、トレーニング画像セットに都市Ａの道路画像が含まれ、テスト画像セットに都市Ｂの道路画像が含まれる場合、異なる都市の道路画像の特徴分布が異なるため、画像セマンティックセグメンテーションネットワークを使用してテスト画像に対してセマンティックセグメンテーションを実行することは効果的ではない。これは、不適切なトレーニング方式による原因ではなく、トレーニング画像セットとテスト画像セットとの分布が一致しないことが原因である。

本願実施例において、画像セマンティックセグメンテーションネットワークのトレーニングプロセスに、マスクネットワークを革新的に導入し、当該マスクネットワークを使用してトレーニングして取得された画像セマンティックセグメンテーションネットワークに対してネットワーク重みスクリーニングを実行して、画像の特徴分布に敏感であるネットワーク重みを除外し、画像の特徴分布に敏感ではないネットワーク重みを保留し、それにより、重みスクリーニング後の画像セマンティックセグメンテーションネットワークがテスト画像（トレーニング画像分布と一致しない）に対する一般化を向上させ、重みスクリーニング後の画像セマンティックセグメンテーションネットワークがテスト画像のセマンティックセグメンテーションに対する効果を向上させる。

本願実施例による画像セマンティックセグメンテーションネットワークのトレーニング方法は、以下の任意のシナリオに使用できる。

１、当該方法は、補助運転分野の道路画像セマンティックセグメンテーションネットワークのトレーニングシナリオに適用できる。補助運転システムが道路要素に従って車両運転状態を制御するために、道路画像セマンティックセグメンテーションネットワークは、道路画像内の道路、道路標識、歩行者、車両、道路画像の信号機などの道路要素を識別し、識別結果を車両の補助運転システムに伝送するために使用できる。道路画像セマンティックセグメンテーションネットワークをトレーニングするプロセスでは、トレーニング画像セットとテスト画像セットの分布が一致しない可能性があり、例えば、トレーニング画像セット及びテスト画像セット内の画像を異なる都市で収集するか、異なる季節で収集するかまたは異なる期間で収集する。本願実施例による方法を使用して道路画像セマンティックセグメンテーションネットワークをトレーニングした後、異なる分布の道路画像に対する道路画像セマンティックセグメンテーションネットワークの一般化を向上させ、これにより道路画像内の道路要素の識別正確度を向上させる。

２、当該方法は、顔識別分野の顔画像セマンティックセグメンテーションネットワークのトレーニングシナリオに適用できる。顔画像セマンティックセグメンテーションネットワークは、後続の画像内の顔を注釈、美化、ＩＤ検証などを容易にするために、画像内の顔を識別するために使用できる。顔画像セマンティックセグメンテーションネットワークをトレーニングするプロセスでは、トレーニング画像セットとテスト画像セットの分布が一致しない可能性があり、例えば、トレーニング画像セット及びテスト画像セット内の画像が異なる人種、異なる肌の色または異なるスタイルに対応する。本願実施例による方法を使用して顔画像セマンティックセグメンテーションネットワークをトレーニングした後、異なる分布の顔画像に対する顔画像セマンティックセグメンテーションネットワークの一般化を向上させ、これにより画像内の顔の識別正確度を向上させる。

３、当該方法は、体検出分野の体画像セマンティックセグメンテーションネットワークのトレーニングシナリオに適用できる。体画像セマンティックセグメンテーションネットワークは、後続の画像内の体領域を注釈、画像内の体の数を統計、体の姿勢を査定などのために、画像内の体を識別するために使用できる。体の画像セマンティックセグメンテーションネットワークをトレーニングするプロセスでは、トレーニング画像セットとテスト画像セットの分布が一致しない可能性があり、例えば、トレーニング画像セット及びテスト画像セット内の画像の収集環境が異なるか（屋内または屋外）、収集対象の人種が異なるかまたは体の姿勢が異なり、これは、体識別の正確度に影響を与える。本願実施例による方法を使用して体画像セマンティックセグメンテーションネットワークをトレーニングした後、異なる分布の体画像に対する体画像セマンティックセグメンテーションネットワークの一般化を向上させ、これにより画像内の体の検出正確度を向上させる。

もちろん、上述したシナリオに適用される以外に、本願実施例による方法は、画像セマンティックセグメンテーションモデルをトレーニングする必要がある他のシナリオにも適用され、特に、トレーニング画像セットとテスト画像セットの分布が一致しないシナリオに適し、本願実施例は具体的な適用シナリオに対して限定しない。

一可能な実施形態において、本願実施例による画像セマンティックセグメンテーションネットワークのトレーニング方法は、コンピュータパーソナルまたはサーバなどの強いデータ処理機能を有するコンピュータ機器に適用できる。上記の方法でトレーニングして取得された画像セマンティックセグメンテーションネットワークを使用して、アプリケーションまたはアプリケーションの一部に実現し、端末に実装されて、端末に画像セマンティックセグメンテーション機能を備えるようにすることができ、または、当該上記の方法でトレーニングして取得された画像セマンティックセグメンテーションネットワークは、アプリケーションのバックエンドサーバに適用され、それにより、サーバによって端末内のアプリケーションに画像セマンティックセグメンテーションサービスを提供することができる。

本願一例示的な実施例による実施環境の概略図を示す図１を参照されたい。当該実施環境には、端末１１０とサーバ１２０とを含み、ここで、端末１１０とサーバ１２０との間は通信ネットワークを介してデータ通信を実行し、例示的に、通信ネットワークは有線ネットワークでも無線ネットワークでもよく、且つ、当該通信ネットワークは、ローカルエリアネットワーク、メトロポリタンエリアネットワーク及びワイドエリアネットワークのうちの少なくとも１つであり得る。

端末１１０には、画像セマンティックセグメンテーション要件を備えるアプリケーションが実装され、当該アプリケーションは、補助運転アプリケーション、モニタリングアプリケーション、撮影アプリケーション、カットアウトアプリケーションなどであり得、本願実施例はこれに対して限定しない。選択的に、端末は、スマートフォン、タブレット、ポータブルラップトップコンピュータなどの移動端末でもよく、デスクトップコンピュータ、プロジェクションコンピュータ、カーマシンなどの端末でもよく、本願実施例はこれに対して限定しない。

サーバ１２０は、１つのサーバに実現でき、１グループのサーバによって構成されるサーバクラスタにも実現でき、それは物理サーバでもあり得、クラウドサーバにも実現できる。一可能な実施形態において、サーバ１２０は端末１１０内のアプリケーションのバックエンドサーバである。

本願実施例において、サーバ１２０には、トレーニング画像セット１２１及びテスト画像セット１２２に従ってトレーニングして取得された画像セマンティックセグメンテーションネットワーク１２３が記憶されている。一可能な適用シナリオでは、ターゲット画像に対して画像セマンティックセグメンテーションを実行する必要がある場合、アプリケーション即ち端末１１０を介してターゲット画像をサーバ１２０に伝送し、サーバ１２０はターゲット画像を受信した後、ターゲット画像を画像セマンティックセグメンテーションネットワーク１２３に入力し、画像セマンティックセグメンテーションネットワーク１２３によって出力された画像セマンティックセグメンテーション結果を端末１１０んいフィードバックし、端末１１０内のアプリケーションによって画像セマンティックセグメンテーション結果を解析して表示される。

他の可能な実施形態では、画像セマンティックセグメンテーションネットワーク１２３が端末１１０内のアプリケーションの一部に実現された場合、端末１１０は、サーバ１２０は必要なく、ローカルでターゲット画像に対して画像セマンティックセグメンテーションを実行でき、それにより、画像セマンティックセグメンテーションの速度を向上させ、サーバとのインタラクションにより生成された遅延を低減する。

以下は、例示的な実施例を使用してトレーニング画像セマンティックセグメンテーションネットワークのプロセスに焦点を合わせて説明する。

本願の一例示的な実施例による画像セマンティックセグメンテーションネットワークのトレーニング方法のフローチャートを示す図２を参照されたい。本実施例は、当該トレーニング方法をコンピュータ機器に使用されることを例として説明し、当該コンピュータ機器は、図１に示されたサーバ１２０であり得、当該方法は以下のステップを含む。

ステップ２０１において、トレーニング画像セットに従って第１画像セマンティックセグメンテーションネットワークをトレーニングし、トレーニング画像セット内のトレーニング画像は注釈情報を含む。

異なる適用分野では、第１画像セマンティックセグメンテーションネットワークをトレーニングするとき使用するトレーニング画像セットは異なる。以下はいくつかの例示的な適用分野に対して説明する。

１、補助運転分野：トレーニングして取得された画像セマンティックセグメンテーションネットワークは画像内の異なる道路要素を識別するために使用されるため、トレーニング画像セット内のトレーニング画像は道路要素を含む道路画像である。

２、顔識別分野：トレーニングして取得された画像セマンティックセグメンテーションネットワークは画像に含まれる顔を識別するために使用されるため、トレーニング画像セット内のトレーニング画像は異なる角度、異なる表情の顔を含む必要がある。

３、体検出分野：トレーニングして取得された画像セマンティックセグメンテーションネットワークは画像に含まれる体を識別するために使用されるため、トレーニング画像セット内のトレーニング画像は異なる姿勢、異なる角度の体胴体を含む必要がある。

選択的に、当該注釈情報は、トレーニング画像内の各ピクセルの対応対象が属するカテゴリを含む。例えば、トレーニング画像が道路画像である場合、当該注釈情報は、各ピクセルの対応道路要素が属するカテゴリを含み、当該カテゴリは道路、道路標識、歩行者、車両及び道路画像の信号機のうちの少なくとも１つを含み得る。

選択的に、トレーニング画像セット内のトレーニング画像は、実際撮影された写真（後続では手動でカテゴリ注釈を実行する必要がある）、またはゲーム画面から切り取った画面スクリーンショット（直接にゲームプリケーションから各ピクセルが属する対象のカテゴリを取得できる）である。

第１画像セマンティックセグメンテーションネットワークをトレーニングする方式に対して、一可能な実施形態にでは、コンピュータ機器は、トレーニング画像を構築された初期画像セマンティックセグメンテーションネットワークに入力して、初期画像セマンティックセグメンテーションネットワークによって出力された各ピクセルに対応する予測カテゴリを取得し、それにより、各ピクセルの予測カテゴリと注釈情報内の注釈カテゴリとの誤差に従って、逆伝播アルゴリズムを介して初期画像セマンティックセグメンテーションネットワーク内のパラメータを更新し、最終的に第１画像セマンティックセグメンテーションモデルをトレーニングして取得する。

選択的に、本願実施例における第１画像セマンティックセグメンテーションネットワークは、完全畳み込み（ｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌ）ネットワーク構造を使用し、それに、入力層、いくつかの畳み込み層及び出力層が含まれ、且つ、各畳み込み層には、さらに、複数の畳み込みカーネルが含まれる。本願実施例は、第１画像セマンティックセグメンテーションネットワークの具体的なネットワーク構造に対して限定しない。

例示的に、第１画像セマンティックセグメンテーションネットワークの主な構造はＶＧＧ１６及び残余ネットワーク（ＲｅｓＮｅｔｓ）である。

例示的に、図３に示されたように、コンピュータ機器は、トレーニング画像セット内のトレーニング画像３１を第１画像セマンティックセグメンテーションネットワーク３２に入力して、出力された画像特徴３３を取得し、それにより、トレーニング画像３１の注釈情報３４及び画像特徴３３に従って、第１画像セマンティックセグメンテーションネットワーク３２をトレーニングする。

ステップ２０２において、マスクネットワークを介して第１画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第２画像セマンティックセグメンテーションネットワークを取得し、マスクネットワークは、第１画像セマンティックセグメンテーションネットワークの画像の特徴分布に敏感ではないネットワーク重みをスクリーニングするために使用される。

本願実施例は、ネットワーク重みスクリーニングを実行するために使用されるマスクネットワークを導入し、トレーニング画像セットに基づいて第１画像セマンティックセグメンテーションネットワークをトレーニングして取得された後、テスト画像セットを直接に使用してテストしなく、マスクネットワークを使用して第１画像セマンティックセグメンテーションネットワークに対してネットワーク重みスクリーニングを実行し、画像の特徴分布に敏感であるネットワーク重みをフィルタリングし、画像の特徴分布に敏感ではないネットワーク重みを保留し、それにより、特徴分布に敏感ではない第２画像セマンティックセグメンテーションネットワークを取得する。

選択的に、当該マスクネットワークは第１画像セマンティックセグメンテーションネットワークと同じネットワーク構造を使用し、即ち、マスクネットワークは第１画像セマンティックセグメンテーションネットワーク内の畳み込み層の層数と同じで、且つ、対応する畳み込み層内の畳み込みカーネルのサイズ及び数は両方とも同じである。それに対応して、マスク処理した後、第２画像セマンティックセグメンテーションネットワークのネットワーク構造は、第１画像セマンティックセグメンテーションネットワークのネットワーク構造と一致している。

例示的に、図３に示されたように、コンピュータ機器は、マスクネットワーク３５を介して第１画像セマンティックセグメンテーションネットワーク３２に対してマスク処理を実行して、第２画像セマンティックセグメンテーションネットワーク３６を取得する。

第２画像セマンティックセグメンテーションネットワークには特徴分布に敏感ではないネットワーク重みが保留されているため、第１画像セマンティックセグメンテーションネットワークと比較して、第２画像セマンティックセグメンテーションネットワークは分布が異なるテスト画像セットに対してよりよい一般化を有する。

ステップ２０３において、トレーニング画像セット及びテスト画像セットに従って、第２画像セマンティックセグメンテーションネットワークをトレーニングし、テスト画像セット内のテスト画像は、注釈情報を含まなく、且つトレーニング画像セットとテスト画像セットの分布は異なる。

ネットワーク重みスクリーニングにより第２画像セマンティックセグメンテーションネットワークを取得された後、コンピュータ機器は、さらに、分布が異なるトレーニング画像セット及びテスト画像セットを使用して第２画像セマンティックセグメンテーションネットワークをトレーニングする。

ここで、異なる適用分野では、トレーニング画像セットとテスト画像セットの分布が異なる意味も異なる。以下はいくつかの例示的な適用分野に対して説明する。

１、補助運転分野：トレーニング画像セットとテスト画像セットの分布が異なることは、属する都市が異なること、属する季節が異なること、属する期間が異なることのうちの少なくとも１つを示す。例えば、トレーニング画像セット内のトレーニング画像はＡ都市から収集され、テスト画像セット内のテスト画像はＢ都市から収集される場合、トレーニング画像セットとテスト画像セットの分布は異なる。

２、顔識別分野：トレーニング画像セットとテスト画像セットの分布が異なることは、人種が異なること、肌の色が異なること、スタイルが異なること（トレーニング画像セットはリアルスタイルであり、テスト画像セットは漫画スタイルである）のうちの少なくとも１つを示す。例えば、トレーニング画像セット内のトレーニング画像はアジアの顔を含む画像であり、テスト画像セット内のテスト画像はヨーロッパとアメリカの顔を含む画像である場合、トレーニング画像セットとテスト画像セットの分布は異なる。

３、体検出分野：トレーニング画像セットとテスト画像セットの分布が異なることは、収集環境が異なること、人種が異なること、姿勢が異なることのうちの少なくとも１つを示す。例えば、トレーニング画像セット内のトレーニング画像は屋内で収集された体画像であり、テスト画像セット内のテスト画像は屋外で収集された体画像である場合、トレーニング画像セットとテスト画像セットの分布は異なる。

一可能な実施形態において、コンピュータ機器は、トレーニング画像を第２画像セマンティックセグメンテーションネットワークに入力し、それにより、トレーニング画像の注釈情報及び第２画像セマンティックセグメンテーションネットワークの予測カテゴリに従って、逆伝播アルゴリズムを介して第２画像セマンティックセグメンテーションネットワークのパラメータを更新する（第１画像セマンティックセグメンテーションネットワークのネットワーク重みを変更しなく、マスクネットワークを更新し、更新した後のマスクネットワークを使用して第１画像セマンティックセグメンテーションネットワークに対してマスク処理を実行し、それにより、第２画像セマンティックセグメンテーションネットワークを更新する効果を達成する）。

例示的に、図３に示されたように、コンピュータ機器は、トレーニング画像３１を第２画像セマンティックセグメンテーションネットワーク３６に入力して、出力された第１画像特徴３８を取得し、それにより、トレーニング画像３１の注釈情報３４及び第１画像特徴３８に従って、第２画像セマンティックセグメンテーションネットワーク３６をトレーニングする。

一可能な実施形態において、コンピュータ機器は、トレーニング画像及びテスト画像を第２画像セマンティックセグメンテーションネットワークに入力し、敵対的トレーニングの方式を使用して、第２画像セマンティックセグメンテーションネットワークによって抽出された特徴はトレーニング画像セットに属するかまたはテスト画像セットに属するかを区別するように弁別器をトレーニングし、それにより、第２画像セマンティックセグメンテーションネットワークを更新するように駆動して分布に敏感ではない画像特徴を抽出する。

例示的に、図３に示されたように、コンピュータ機器は、トレーニング画像３１及びテスト画像３７を第２画像セマンティックセグメンテーションネットワーク３６に入力して、トレーニング画像３１に対応する第１画像特徴３８及びテスト画像３７に対応する第２画像特徴３９を取得し、それにより、第１画像特徴３８及び第２画像特徴３９に従って第２画像セマンティックセグメンテーションネットワーク３６に対して敵対的トレーニングを実行する。

まとめると、本願実施例において、トレーニング画像セットに基づいて第１画像セマンティックセグメンテーションネットワークをトレーニングして取得された後、マスクネットワークを介して第１画像セマンティックセグメンテーションネットワークに対してネットワーク重みスクリーニングを実行し、特徴分布に敏感ではないネットワーク重みをスクリーニングして、対応する第２画像セマンティックセグメンテーションネットワークを取得し、さらに、テスト画像セット及びトレーニング画像セットを使用して第２画像セマンティックセグメンテーションネットワークをトレーニングする。マスクネットワークは特徴分布に敏感であるネットワーク重みをフィルタリングできるため、トレーニング画像セットとテスト画像セットの分布が異なる場合でも、ネットワーク重みスクリーニングを介して第２画像セマンティックセグメンテーションネットワークはテスト画像セットとよりよい一般化を有し、それにより、テスト画像セットに対するテスト正確度を向上させる。

選択的に、コンピュータ機器は、敵対的トレーニングの方式を使用して、ネットワーク重みスクリーニングした後の第２画像セマンティックセグメンテーションモデルをトレーニングし、それにより、第２画像セマンティックセグメンテーションネットワークの分布に敏感ではない特徴を抽出する機能を向上させる。本願の別の一例示的な実施例による画像セマンティックセグメンテーションネットワークのトレーニング方法のフローチャートを示す図４を参照されたい。当該方法は、以下のステップを含む。

ステップ４０１において、トレーニング画像セットに従って第１画像セマンティックセグメンテーションネットワークをトレーニングし、トレーニング画像セット内のトレーニング画像は注釈情報を含む。

当該ステップの実施形態は上記のステップ２０１を参照できる。

ステップ４０２において、第１画像セマンティックセグメンテーションネットワークに対応する第１重み配列を取得し、第１重み配列は、第１画像セマンティックセグメンテーションネットワークにおける各畳み込みカーネルに対応するネットワーク重みを含む。

一可能な実施形態において、コンピュータ機器は、第１画像セマンティックセグメンテーションネットワーク内の各畳み込みカーネルが対応するネットワーク重みを取得し、各畳み込みカーネルが対応するネットワーク重みに従って第１重み配列を構築して取得する。選択的に、当該第１重み配列はネットワーク重みによって構成された重み行列である。

選択的に、第１画像セマンティックセグメンテーションネットワークをトレーニングして取得された後、第１画像セマンティックセグメンテーションネットワーク内のネットワーク重みは固定（ｆｉｘｅｄ）され、後続のトレーニングプロセスでは、マスクネットワークをトレーニングして第１画像セマンティックセグメンテーションネットワーク内のネットワーク重みをスクリーニングし、第２画像セマンティックセグメンテーションネットワークを取得する。

例示的に、図５に示されたように、コンピュータ機器は、第１画像セマンティックセグメンテーションネットワークに対応する第１重み配列５１を取得し、当該第１重み配列５１には９つのネットワーク重み（配列内の円）が含まれ、且つ、異なるパターンは、異なるネットワーク重みを表す。

本実施例は、１つの３×３畳み込みカーネルに対応するネットワーク重みのみを例として例示的に説明したが、実際の適用プロセスでは、第１重み配列には大量の畳み込みカーネルに対応するネットワーク重みが含まれ、本実施例はこれに対して限定しないことに留意されたい。

ステップ４０３において、マスクネットワークに対応する実数マスクを介して第１重み配列に対してマスク処理を実行して、第２重み配列を取得する。

本願実施例において、マスクネットワークと第１画像セマンティックセグメンテーションネットワークとのネットワーク構造が同じであり、且つ、マスクネットワークと第１画像セマンティックセグメンテーションネットワークとのネットワーク重みの数は同じである。したがって、一可能な実施形態において、コンピュータ機器は、マスクネットワーク内の各畳み込みカーネルに対応するネットワーク重みを取得し、それにより、第１重み配列サイズと同じ実数マスクを生成する。選択的に、当該実数マスクは（マスクネットワークにおいて）ネットワーク重みによって構成される重み行列である。

マスク処理のプロセスに対して、選択的に、コンピュータ機器は、実数マスクを第１重み配列とポイントツーポイントで乗算して、第２重み配列を取得する。ここで、実数マスクの実数の値は大きいほど、第１重み配列内の対応するネットワーク重みの通過率も高い。

例示的に、第１画像セマンティックセグメンテーションネットワークに対応する第１重み配列はＷ_Ｓであり、マスクネットワークに対応する実数マスクはＭ_realであると、マスク処理して取得された第２重み配列はＷ_Ｓ＊Ｍ_realである。

実施プロセス中に、実数マスクを直接に使用して第１重み配列に対してマスク処理を実行する効果はよくないことを発見し、したがって、一可能な実施形態において、コンピュータ機器は、まず、実数マスクに対して二値化処理（フィルタリングの効果を達成する）を実行し、二値化処理の後の実数マスクに対してマスク処理を実行する。図４の基で、図６に示されたように、当該ステップは以下のステップを含み得る。

ステップ４０３Ａにおいて、閾値関数を介して実数マスクに対して二値化処理を実行して、二値化マスクを生成し、二値化マスクは、０及び１によって構成される配列であり、且つ、二値化マスクのサイズは、第１重み配列のサイズと同じである。

ここで、閾値関数は、実数マスク内の実数値を０または１に変換し、それにより、実数マスクに対応する二値化マスクを取得する。選択的に、当該閾値関数は、以下のように表示する。

二値化処理の後で取得された二値化マスクＭ_ｂはＭ_ｂ＝Ｆ_thres(Ｍ_real)に表示する。

例示的な例において、マスクネットワークの実数マスクは０．０１に初期化し、且つ、τが０．００５に設定され、即ち、閾値関数で初期化された実数マスクに対して二値化処理を実行した後、取得された二値化マスクの値は１である。

例示的に、図５に示されたように、コンピュータ機器は、実数マスク５２を取得された後、閾値関数５３でそれに対して二値化処理を実行して、二値化マスク５４を取得し、ここで、二値化マスク５４の黒塗りは０を表示し、白塗りは１を表示する。

ステップ４０３Ｂにおいて、第１重み配列を二値化マスクとポイントツーポイントで乗算して、第２重み配列を取得する。

さらに、コンピュータ機器は、第１重み配列を二値化マスクとポイントツーポイントで乗算して、第２重み配列を取得する。ここで、ポイントツーポイントで乗算することは、第１重み配列の第ｉ行第ｊ列のネットワーク重みを二値化マスクの第ｉ行第ｊ列のマスク値と乗算することを示す。

ここで、二値化マスクに対応するマスク値が１である場合、第１重み配列内の対応するネットワーク重みの通過率は１００％であり、即ち、ネットワーク重みは保留され、二値化マスクに対応するマスク値が０である場合、第１重み配列内の対応するネットワーク重みの通過率は０％であり、即ち、ネットワーク重みはフィルタリングされ、それにより、ネットワーク重みスクリーニングの効果を達成する。

例示的に、図５に示されたように、二値化マスク５４を使用して第１重み配列５１に対してマスク処理を実行するとき、二値化マスク５４内の第１行第１列、第１行第３列、第２行第２列、第３行第２列及び第３行第３列に対応するマスク値が１であるため、取得された第１重み配列５１内の第１行第１列、第１行第３列、第２行第２列、第３行第２列及び第３行第３列のネットワーク重みは第２重み配列５５に保留され、第１行第２列、第２行第１列、第２行第３列及び第３行第１列のネットワーク重みはフィルタリングされる。最終的に第２重み配列５５を取得する。

第１画像セマンティックセグメンテーションネットワークのネットワーク重みは固定されたため、後続のマスクネットワークが更新した後、コンピュータ機器は、更新した後の二値化マスクに従って第１重み配列に対してマスク処理し、それにより、第２重み配列を取得できることに留意されたい。

ステップ４０４において、第２重み配列に従って第２画像セマンティックセグメンテーションネットワークを生成する。

第２重み配列を取得された後、コンピュータ機器は、対応する第２画像セマンティックセグメンテーションネットワークを生成し、ここで、当該第２画像セマンティックセグメンテーションネットワークは第２重み配列に含まれるネットワーク重みを使用する。上述したステップによる例を参照して、生成された第２画像セマンティックセグメンテーションネットワークＷ_ｍはＷ_ｍ＝Ｗ_ｓ＊Ｍ_ｂに表示され、ここで、Ｗ_ｓは第１画像セマンティックセグメンテーションネットワークである。

図４の基で、図６に示されたように、当該ステップは以下のステップを含み得る。

ステップ４０４Ａにおいて、第２重み配列に従って、第１画像セマンティックセグメンテーションネットワークにおける各畳み込みカーネルに対してネットワーク重みの更新を実行する。

二値化マスクと第１重み配列のサイズが同じであるため、取得された第２重み配列と第１重み配列のサイズは同じであり、コンピュータ機器は、第２重み配列に含まれる各ネットワーク重みに従って、第１画像セマンティックセグメンテーションネットワーク内の対応するネットワーク重みを更新する。

第１重み配列と比較して、第２重み配列内の特徴分布に敏感であるネットワーク重みはフィルタリングされ、したがって、第２重み配列内のネットワーク重みを適用した画像セマンティックセグメンテーションネットワークによって抽出された画像特徴は分布に敏感ではない（第１重み配列を適用することと比較して）。

ステップ４０４Ｂにおいて、ネットワーク重みの更新後の第１画像セマンティックセグメンテーションネットワークを第２画像セマンティックセグメンテーションネットワークとして決定する。

さらに、コンピュータ機器は、ネットワーク重みの更新後取得された画像セマンティックセグメンテーションネットワークを第２画像セマンティックセグメンテーションネットワークとして決定する。第１画像セマンティックセグメンテーションネットワークと比較して、第２画像セマンティックセグメンテーションネットワーク内の分布に敏感であるネットワーク重みはフィルタリングされる。

ステップ４０５において、トレーニング画像セット及びテスト画像セットに従って弁別器の弁別器損失を計算し、弁別器は、画像特徴に従って画像が属する画像セットを決定するために使用される。

第２画像セマンティックセグメンテーションネットワークに対して、本願実施例では、敵対的トレーニングの方式を使用して、ネットワークによって抽出された画像特徴がトレーニング画像セットに属するかまたはテスト画像セットに属するかを区別するように弁別器をトレーニングし、同時に、画像から分布に敏感ではない画像特徴を抽出するように第２画像セマンティックセグメンテーションネットワークをトレーニングし、弁別器に画像特徴が属する画像セットを区別できないようにする（即ち、トレーニング画像セットに属する確率及びテスト画像セットに属する確率は両方とも０．５である）。

一可能な実施形態において、コンピュータ機器は弁別器損失を計算するプロセスは以下のステップを含み得る。

１、ターゲット画像を第２画像セマンティックセグメンテーションネットワークに入力して、ターゲット画像特徴を取得し、ターゲット画像は、トレーニング画像セットに属し、または前記テスト画像セットに属する。

本願実施例において、コンピュータ機器によって構築された弁別器は、入力された画像特徴に従って画像が属する画像セットを決定するために使用され、したがって、弁別器の弁別器損失を計算する前に、トレーニング画像セットまたはテスト画像セットからのターゲット画像を第２画像セマンティックセグメンテーションネットワークに入力し、第２画像セマンティックセグメンテーションネットワークによってターゲット画像に対して特徴抽出を実行して、対応するターゲット画像特徴を取得する。

例示的に、図７に示されたように、コンピュータ機器は、トレーニング画像３１を第２画像セマンティックセグメンテーションネットワーク３６に入力して、第１画像特徴３８を取得し、テスト画像３７を第２画像セマンティックセグメンテーションネットワーク３６に入力して、第２画像特徴３９を取得する。

２、ターゲット画像特徴を弁別器に入力して、弁別結果を取得する。

さらに、コンピュータ機器は、抽出されたターゲット画像特徴を弁別器に入力し、弁別器によって出力された弁別結果を取得し、当該弁別結果には、ターゲット画像（特徴）がトレーニング画像セットに属する確率及びトレーニング画像セットに属する確率が含まれる。

選択的に、当該弁別器は、全接続畳み込みニューラルネットワーク構造を使用でき、本願実施例は弁別器の具体的な構造に対して限定しない。

例示的に、図７に示されたように、コンピュータ機器は、第１画像特徴３８を弁別器７１に入力し、弁別器７１によって出力された結果は以下のようである。ターゲット画像がトレーニング画像セットに属する確率はＸであり、テスト画像セットに属する確率は１－Ｘである。

３、ターゲット画像が属する画像セット及び弁別結果に従って、弁別器損失を計算する。

後続の弁別器損失に基づいて弁別器のパラメータを更新して、弁別器の弁別正確度を向上させるために、弁別結果におけるターゲット画像が属する画像セット及びターゲット画像が実際に属する画像セットに従って、コンピュータ機器は、弁別器損失関数を介して弁別器損失を計算する。ここで、弁別器の目的は、ターゲット画像が実際に属する画像セット傾向がある結果を識別することである。

選択的に、弁別器の弁別器損失関数は以下のように表示する。

ここで、ｈ，ｗは、ターゲット画像内の各ピクセルの横縦座標であり、ｚは、ターゲット画像が実際に属する画像セットを指示し（ターゲット画像がトレーニング画像セットに属する場合、ｚは０であり、ターゲット画像がテスト画像セットに属する場合、ｚは１である）、

は、第２画像セマンティックセグメンテーションネットワークがトレーニング画像から抽出された画像特徴であり、

は、第２画像セマンティックセグメンテーションネットワークがテスト画像から抽出された画像特徴であり、Ｄは弁別器である。

ステップ４０６において、トレーニング画像セットに従って第２画像セマンティックセグメンテーションネットワークのセグメンテーション損失を計算する。

一可能な実施形態において、コンピュータ機器は、トレーニング画像セット内のトレーニング画像を第２画像セマンティックセグメンテーションネットワークに入力して、第２画像セマンティックセグメンテーションネットワークによって出力されたセマンティックセグメンテーション結果を取得し、それにより、セマンティックセグメンテーション結果及び注釈情報に従ってクロスエントロピー分類損失を計算する。

同時に、分布に敏感ではない画像特徴を抽出するように第２画像セマンティックセグメンテーションネットワークを駆動するために、第２画像セマンティックセグメンテーションネットワークのクロスエントロピー分類損失を計算するとき、弁別器のテスト画像特徴（第２画像セマンティックセグメンテーションネットワークを介してテスト画像を抽出して取得する）に対する弁別結果（敵対的性損失）を導入し、それにより、クロスエントロピー分類損失及び敵対的性損失を第２画像セマンティックセグメンテーションネットワークのセグメンテーション損失に決定する。

選択的に、第２画像セマンティックセグメンテーションネットワークのセグメンテーション損失は以下のように表示する。

は、画像内の第ｈ行第ｗ列のピクセルの真価注釈（ｇｒｏｕｎｄ－ｔｒｕｔｈ）であり、

は、画像内の第ｈ行第ｗ列のピクセルの予測値であり、

は、ピクセルレベルのクロスエントロピー分類損失であり、

は、弁別器Ｄの敵対的性損失である。

ステップ４０７において、セグメンテーション損失及び弁別器損失に従って第２画像セマンティックセグメンテーションネットワーク及び弁別器に対して敵対的トレーニングを実行する。

弁別器の弁別器損失及び第２画像セマンティックセグメンテーションネットワークのセグメンテーション損失を決定した後、端末は、セグメンテーション損失及び弁別器損失に従って第２画像セマンティックセグメンテーションネットワーク及び弁別器内のパラメータを逆伝播トレーニングし、収束条件に満たす場合、第２画像セマンティックセグメンテーションネットワーク及び弁別器のトレーニングを完成する。

さらに、閾値関数を介してマスクネットワークの実数マスクに対して二値化処理を実行し、それにより、取得された二値化マスクを使用して画像セマンティックセグメンテーションネットワークに対してネットワーク重みスクリーニングを実行し、重みスクリーニング効果を向上させる同時に、重みスクリーニングするときの計算量を低減し、画像セマンティックセグメンテーションネットワークのトレーニング速度を向上させる。

なお、弁別器を構築し、敵対的性トレーニングの方式を使用してマスク処理の後の画像セマンティックセグメンテーションネットワーク及び弁別器をトレーニングすることを介して、画像セマンティックセグメンテーションネットワークの分布に敏感ではない画像特徴を抽出する機能をさらに向上させ、それにより、画像セマンティックセグメンテーションネットワークのテスト画像セットに対する一般化を向上させる。

テスト画像セット内の画像の一般化及びテスト正確度をさらに向上させるために、一可能な実施形態において、閾値関数を介して実数マスクに対して二値化処理を実行して、二値化マスクを生成した後、コンピュータ機器は、第１重み配列を二値化マスクとポイントツーポイントで乗算して、中間重み配列を取得し、その後、中間重み配列及び摂動配列に従って第２重み配列を生成する。ここで、摂動配列は、中間重み配列におけるネットワーク重みに摂動を増加するために使用され、且つ、摂動配列と第１重み配列のサイズは同じである。

ここで、前記マスク及び摂動機能を備えるマスクネットワークはＭ_ｐｍ＝Ｗ_Ｓ＊Ｗ_ｂ＋Ｗ_ｐに表示し、ここで、Ｗ_ｂはマスクネットワークのネットワーク重みであり、Ｗ_ｐは摂動配列である。

例示的に、図８に示されたように、コンピュータ機器は、閾値関数５３を介して実数マスク５２を二値化処理して、二値化マスク５４を取得された後、二値化マスク５４を第１重み配列５１とポイントツーポイントで乗算して、中間重み配列５６を取得する。さらに、コンピュータ機器は、中間重み配列５６を摂動配列５７とポイントツーポイントで加算して、最終的に第２重み配列５５を取得する。

後続の第２画像セマンティックセグメンテーションネットワークをトレーニングするとき、マスクネットワークの実数マスク及び摂動配列を同時に更新する。

上記の実施例によるトレーニング方法で画像セマンティックセグメンテーションネットワークのトレーニングを完成した後、コンピュータ機器は、トレーニングして取得されたターゲット画像セマンティックセグメンテーションネットワークを使用してテスト画像セットをテストでき、それにより、セマンティックセグメンテーション結果に従ってネットワークの画像セマンティックセグメンテーション品質を決定する。

一可能な実施形態において、コンピュータ機器は、テスト画像セット内のテスト画像を取得された後、テスト画像をターゲット画像セマンティックセグメンテーションネットワークに入力し、ターゲット画像セマンティックセグメンテーションネットワークによって出力されたターゲット画像セマンティックセグメンテーション結果を取得し、ここで、当該ターゲット画像セマンティックセグメンテーション結果は、テスト画像内の各ピクセルが属する対象に対応するカテゴリを含む。

さらに、コンピュータ機器は、ターゲット画像セマンティックセグメンテーション結果に従ってテスト画像に対応するセグメンテーション画像を表示し、それにより、セグメンテーション画像に従ってネットワークの画像セマンティックセグメンテーション品質を決定し、ここで、セグメンテーション画像には、異なるカテゴリの対象が注釈されている。選択的に、コンピュータ機器は、事前に各カテゴリに表記色を割り当て、それにより、各ピクセルが属する対象に対応するカテゴリに従って、対応する表記色を使用して各ピクセルを満たして、テスト画像に対応するセグメンテーション画像を生成する。

テスト画像に対してセマンティックセグメンテーションを実行して取得されたセマンティックセグメンテーション効果の比較図を示す図９を参照されたい。図９から分かるように、本願実施例によるトレーニング方法を使用していないことと比較して、本願実施例によるトレーニング方法を適用した後、テスト画像セットとトレーニング画像セットの分布が異なる場合、画像セマンティックセグメンテーションネットワークのテスト画像に対するセマンティックセグメンテーション結果はより正しい。

図１０は本願一例示的な実施例による画像セマンティックセグメンテーションネットワークのトレーニング装置の構造のブロック図であり、当該装置は、上記の実施例に記載のコンピュータ機器に設置でき、図１０に示されたように、当該装置は、第１トレーニングモジュール１０１０、マスクモジュール１０２０及び第２トレーニングモジュール１０３０を備える。画像セマンティックセグメンテーションネットワークのトレーニング装置に含まれる各モジュールは、すべてまたは部分的にソフトウェア、ハードウェアまたはそれらの組み合わせで実現できる。

第１トレーニングモジュール１０１０は、トレーニング画像セットに従って、第１画像セマンティックセグメンテーションネットワークをトレーニングするように構成され、トレーニング画像セット内のトレーニング画像は注釈情報を含む。

マスクモジュール１０２０は、マスクネットワークを介して第１画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第２画像セマンティックセグメンテーションネットワークを取得するように構成され、マスクネットワークは、第１画像セマンティックセグメンテーションネットワークの画像の特徴分布に敏感ではないネットワーク重みをスクリーニングするために使用される。

第２トレーニングモジュール１０３０は、トレーニング画像セット及びテスト画像セットに従って、第２画像セマンティックセグメンテーションネットワークをトレーニングするように構成され、テスト画像セット内のテスト画像は、注釈情報を含まなく、且つトレーニング画像セットとテスト画像セットの分布は異なる。

一実施例において、マスクネットワークと第１画像セマンティックセグメンテーションネットワークとのネットワーク構造が同じであり、且つ、マスクネットワークと第１画像セマンティックセグメンテーションネットワークとのネットワーク重みの数は同じである。マスクモジュール１０２０は、取得ユニット、マスクユニット及び生成ユニットを備える。

取得ユニットは、第１画像セマンティックセグメンテーションネットワークに対応する第１重み配列を取得するように構成され、第１重み配列は、第１画像セマンティックセグメンテーションネットワークにおける各畳み込みカーネルに対応するネットワーク重みを含む。

マスクユニットは、マスクネットワークに対応する実数マスクを介して第１重み配列に対してマスク処理を実行して、第２重み配列を取得するように構成され、実数マスクは、マスクネットワークにおける各畳み込みカーネルに対応するネットワーク重みを含む。

生成ユニットは、第２重み配列に従って第２画像セマンティックセグメンテーションネットワークを生成するように構成される。

一実施例において、マスクユニットは、閾値関数を介して実数マスクに対して二値化処理を実行して、二値化マスクを生成し、二値化マスクは、０及び１によって構成される配列であり、且つ、二値化マスクのサイズは、第１重み配列のサイズと同じであり、第１重み配列を二値化マスクとポイントツーポイントで乗算して、第２重み配列を取得するように構成される。

一実施例において、マスクユニットは、さらに、第１重み配列を二値化マスクとポイントツーポイントで乗算して、中間重み配列を取得し、中間重み配列及び摂動配列に従って第２重み配列を生成するように構成され、摂動配列は、中間重み配列におけるネットワーク重みに摂動を増加するように使用される。

一実施例において、生成ユニットは、第２重み配列に従って、第１画像セマンティックセグメンテーションネットワークにおける各畳み込みカーネルに対してネットワーク重みの更新を実行し、ネットワーク重みの更新後の第１画像セマンティックセグメンテーションネットワークを第２画像セマンティックセグメンテーションネットワークとして決定するように構成される。

一実施例において、第２トレーニングモジュール１０３０は、第１計算ユニット、第２計算ユニット及び敵対的トレーニングユニットを備える。

第１計算ユニットは、トレーニング画像セットに従って第２画像セマンティックセグメンテーションネットワークのセグメンテーション損失を計算するように構成される。

第２計算ユニットは、トレーニング画像セット及びテスト画像セットに従って弁別器の弁別器損失を計算するように構成、弁別器は、画像特徴に従って画像が属する画像セットを決定するように構成される。

敵対的トレーニングユニットは、セグメンテーション損失及び弁別器損失に従って、第２画像セマンティックセグメンテーションネットワーク及び弁別器に対して敵対的トレーニングを実行するように構成される。

一実施例において、第２計算ユニットは、ターゲット画像を第２画像セマンティックセグメンテーションネットワークに入力して、ターゲット画像特徴を取得し、ターゲット画像は、トレーニング画像セットに含まれるかまたは前記テスト画像セットに含まれ、ターゲット画像特徴を弁別器に入力して、弁別結果を取得し、ターゲット画像が属する画像セット及び弁別結果に従って、弁別器損失を計算するように構成される。

一実施例において、補助運転分野に使用される場合、トレーニング画像セットとテスト画像セットの分布が異なることは、属する都市が異なること、属する季節が異なること、属する期間が異なることのうちの少なくとも１つを含み、または、顔識別の分野に使用される場合、トレーニング画像セットとテスト画像セットの分布が異なることは、人種が異なること、肌の色が異なること、スタイルが異なることのうちの少なくとも１つを含み、体検出の分野に使用される場合、トレーニング画像セットとテスト画像セットの分布が異なることは、収集環境が異なること、人種が異なること、姿勢が異なることのうちの少なくとも１つを含む。

上記の実施例による画像セマンティックセグメンテーションネットワークのトレーニング装置は、上記の各機能モジュールの分割のみを例に挙げて説明したが、実際の応用では、必要に応じて上述の機能を異なる機能モジュールにより割り当てられて完了してもよく、即ち、機器の内部構造を異なる機能モジュールに分割して、上述の機能のすべてまたは一部を完了することができることに留意されたい。なお、上記の実施例による画像セマンティックセグメンテーションネットワークのトレーニング装置は、画像セマンティックセグメンテーションネットワークのトレーニング方法の実施例と同じ構想に属し、その具体的な実現プロセスについては方法の実施例を参照されたい。

本願の一例示的な実施例によるコンピュータ機器の例示的な構造図を示す図１１を参照されたい。具体的には、コンピュータ機器１１００は、中央処理ユニット（ＣＰＵ）１１０１、ランダムアクセスメモリ（ＲＡＭ）１１０２及び読み取り専用メモリ（ＲＯＭ）１１０３を備えるシステムメモリ１１０４、及びシステムメモリ１１０４と中央処理ユニット１１０１を接続するシステムバス１１０５を備える。コンピュータ機器１１００は、さらに、コンピュータ内の各デバイス間で情報を伝送するようにする基本入力／出力システム（Ｉ／Ｏシステム）１１０６、及び操作システム１１１３、アプリケーション１１１４及び他のプログラムモジュール１１１５を記憶するように構成される大容量記憶機器１１０７を備える。

基本入力／出力システム１１０６は、情報を表示するために使用されるディスプレイスクリーン１１０８と、ユーザが情報を入力するために使用されるマウス、キーボードなどの入力機器１１０９とを備える。ここでディスプレイスクリーン１２０８及び入力機器１１０９は、両方ともシステムバス１１０５の入力出力コントローラ１１１０に接続することを介して中央処理ユニット１１０１に接続する。基本入力／出力システム１１０６は、さらに、キーボード、マウス、または電子スタイラスなどの複数の他の機器からの入力を受信及び処理するために、入力出力コントローラ１１１０を備えることができる。同様に、入力出力コントローラ１１１０は、ディスプレイスクリーン、プリンタまたは他のタイプの出力機器に出力も提供する。

大容量記憶機器１１０７は、システムバス１１０５の大容量記憶コントローラ（図示せず）に接続することを介して中央処理ユニット１１０１に接続する。大容量記憶機器１１０７及びその関連するコンピュータ可読媒体は、コンピュータ機器１１００に不揮発性記憶を提供する。つまり、大容量記憶機器１１０７は、ハードディスクまたはＣＤ－ＲＯＩドライバなどのコンピュータ可読媒体（図示せず）を含み得る。

一般性を失うことなく、コンピュータ可読媒体はコンピュータ記憶媒体と通信媒体とを含み得る。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータなどの情報を記憶するために使用される任意の方法または技術によって実現される、揮発性及び不揮発性、移動可能及び移動不可能な媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のソリッドステートメモリ技術、ＣＤ－ＲＯＭ、ＤＶＤまたは他の光学記憶、磁気テープボックス、磁気テープ、磁気ディスク記憶または他の磁気記憶機器を含む。もちろん、当業者は、コンピュータ記憶媒体は上述したいくつかに限定されないことを分かることができる。上述したシステムメモリ１１０４及び大容量記憶機器１１０７をまとめてメモリと呼ぶことができる。

メモリには１つまたは複数のプログラムが記憶され、１つまたは複数のプログラムは、１つまたは複数の中央処理ユニット１１０１によって実行されるように構成され、１つまたは複数のプログラムは、上記のテキスト極性識別方法を実現するために使用される命令を含み、中央処理ユニット１１０１は、当該１つまたは複数のプログラムを実行して上記の各方法実施例による方法を実現する。

本願の様々な実施例によれば、コンピュータ機器１１００は、インターネットなどのネットワークを介してネットワーク上のリモートコンピュータに接続されて実行することもできる。即ち、コンピュータ機器１１００は、システムバス１１０５におけるネットワークインターフェースユニット１１１１に接続することを介してネットワーク１１１２に接続でき、言い換えると、ネットワークインターフェースユニット１１１１を使用して他のタイプのネットワークまたはリモートコンピュータシステム（図示せず）に接続することもできる。

メモリは、さらに、１つまたは１つ以上のプログラムを含み、１つまたは１つ以上のプログラムはメモリに記憶され、１つまたは１つ以上のプログラムは、本願実施例による方法を実行するためのコンピュータ機器によって実行されるステップを含む。

本願実施例は、さらに、コンピュータ可読記憶媒体を提供し、当該可読記憶媒体には少なくとも１つの命令、少なくとも１つのプログラム、コードセットまたは命令セットが記憶され、上記の任意の実施例の画像セマンティックセグメンテーションモデルのトレーニング方法を実現するために、少なくとも１つの命令、少なくとも１つのプログラム、コードセットまたは命令セットは、プロセッサによってロードし実行される。

本願は、さらに、コンピュータプログラム製品を提供し、コンピュータプログラム製品がコンピュータで実行するとき、コンピュータに上記の各方法実施例による画像セマンティックセグメンテーションモデルのトレーニング方法を実行させる。

一実施例において、メモリとプロセッサとを備える、コンピュータ機器を提供し、メモリにはコンピュータ可読命令が記憶され、コンピュータ可読命令がプロセッサによって実行されるとき、プロセッサに上記の画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップを実行させる。ここでの画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップは、上述した各実施例の画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法におけるステップであり得る。

一実施例において、コンピュータ可読命令が記憶される、コンピュータ可読記憶媒体を提供し、コンピュータ可読命令がプロセッサによって実行されるとき、プロセッサに上記の画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップを実行させる。ここでの画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップは、上述した各実施例の画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法におけるステップであり得る。

一実施例において、コンピュータプログラム製品を提供し、コンピュータプログラム製品がコンピュータ機器によって実行されるとき、コンピュータ機器に画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップを実行させる。プロセッサに上記の画像処理方法のステップを実行させる。ここでの画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法のステップは、上述した各実施例の画像セマンティックセグメンテーションネットワークのトレーニング方法または画像セマンティックセグメンテーション方法におけるステップであり得る。

上述の実施例の様々な方法における全てまたは一部のステップは、プログラムによって関連するハードウェアを命令することを介して完成できることを当業者なら自明である。当該プログラムは、１つのコンピュータ可読記憶媒体に記憶でき、当該コンピュータ可読記憶媒体は、上述の実施例におけるメモリ内の含まれるコンピュータ可読記憶媒体でもよく、独立で存在して、端末に組み立てされていないコンピュータ可読記憶媒体でもよい。当該コンピュータ可読記憶媒体には、少なくとも１つの命令、少なくとも１つのプログラム、コードセットまたは命令セットが記憶され、上記の任意の方法実施例に記載の画像セマンティックセグメンテーションモデルのトレーニング方法を実現するために、前記少なくとも１つの命令、前記少なくとも１つのプログラム、前記コードセットまたは命令セットは、前記プロセッサによってロードし実行される。

例示的に、当該コンピュータ可読記憶媒体は、読み取り専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ソリッドステートハードディスク（ＳＳＤ：ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅｓ）または光ディスクなどを含み得る。ここで、ランダムアクセスメモリは、抵抗性ランダムアクセスメモリ（ＲｅＲＡＭ：ＲｅｓｉｓｔａｎｃｅＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）とダイナミックランダムアクセスメモリ（ＤＲＡＭ：ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）とを含み得る。上述の本願実施例の番号は、実施例の優劣を表すものではなく、説明の便宜を図るためのものである。

上述の実施例の全てまたは一部のステップは、ハードウェアを介して完了してもよく、プログラムによって、関連するハードウェアに命令することにより完了してもよいことを当業者なら自明である。前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよく、上記で言及された記憶媒体は、読み取り専用メモリ、磁気ディスク、または光ディスクであり得る。

以上の実施例における様々な技術特徴は、任意に組み合わせることができ、説明の簡潔にために、上述した実施例における各技術特徴のすべての可能な組み合わせを説明していないが、特徴の間の組み合わせに矛盾がない限り、全て本明細書に記載の範囲と見なすべきである。

以上の実施例は、本願のいくつかの実施形態のみを表し、その説明は、具体的で詳細であるが、本発明の特許の範囲に対する制限として理解されるべきではない。当業者にとって、本願の概念から逸脱することなく、いくつかの変形及び改善を加えることもでき、これらは全て本願の保護範囲に含まれると見なされるべきであることに留意されたい。したがって、本願の保護範囲は、添付の特許請求を基準とするべきである。

３１トレーニング画像
３２第１画像セマンティックセグメンテーションネットワーク
３４注釈情報
３５マスクネットワーク
３６第２画像セマンティックセグメンテーションネットワーク
３７テスト画像
５１配列
５２実数マスク
５３閾値関数
５４二値化マスク
５５配列
５６配列
５７摂動配列
７１弁別器
１１０端末
１２０サーバ
１２１トレーニング画像セット
１２２テスト画像セット
１２３画像セマンティックセグメンテーションネットワーク
１０１０第１トレーニングモジュール
１０２０マスクモジュール
１０３０第２トレーニングモジュール
１１００コンピュータ機器
１１０１中央処理ユニット
１１０２ランダムアクセスメモリ（ＲＡＭ）
１１０３専用メモリ（ＲＯＭ）
１１０４システムメモリ
１１０５システムバス
１１０６出力システム
１１０７大容量記憶機器
１１０８ディスプレイスクリーン
１１０９入力機器
１１１０入力出力コントローラ
１１１１ネットワークインターフェースユニット
１１１２ネットワーク
１１１３操作システム
１１１４アプリケーション
１１１５プログラムモジュール
１２０８ディスプレイスクリーン

Claims

コンピュータ機器が実行する、画像セマンティックセグメンテーションネットワークのトレーニング方法であって、
トレーニング画像セットに従って、第１画像セマンティックセグメンテーションネットワークをトレーニングするステップであって、前記トレーニング画像セット内のトレーニング画像は、注釈情報を含む、ステップと、
マスクネットワークを介して、前記第１画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第２画像セマンティックセグメンテーションネットワークを取得するステップであって、前記マスクネットワークは、前記第１画像セマンティックセグメンテーションネットワークにおける画像の特徴分布に敏感ではないネットワーク重みをスクリーニングするために使用される、ステップと、
前記トレーニング画像セット及びテスト画像セットに従って、前記第２画像セマンティックセグメンテーションネットワークをトレーニングするステップであって、前記テスト画像セット内のテスト画像は、注釈情報を含まなく、且つ前記トレーニング画像セットと前記テスト画像セットの分布は異なる、ステップと、
を含むことを特徴とする、画像セマンティックセグメンテーションネットワークのトレーニング方法。
前記マスクネットワークと前記第１画像セマンティックセグメンテーションネットワークとのネットワーク構造が同じであり、且つ、前記マスクネットワークと前記第１画像セマンティックセグメンテーションネットワークとのネットワーク重みの数は同じであり、
マスクネットワークを介して、前記第１画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第２画像セマンティックセグメンテーションネットワークを取得する前記ステップは、
前記第１画像セマンティックセグメンテーションネットワークに対応する第１重み配列を取得するステップであって、前記第１重み配列は、前記第１画像セマンティックセグメンテーションネットワークにおける各畳み込みカーネルに対応するネットワーク重みを含む、ステップと、
前記マスクネットワークに対応する実数マスクを介して前記第１重み配列に対してマスク処理を実行して、第２重み配列を取得するステップであって、前記実数マスクは、前記マスクネットワークにおける各畳み込みカーネルに対応するネットワーク重みを含む、ステップと、
前記第２重み配列に従って、前記第２画像セマンティックセグメンテーションネットワークを生成するステップと、
を含むことを特徴とする、請求項１に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法。
前記マスクネットワークに対応する実数マスクを介して前記第１重み配列に対してマスク処理を実行して、第２重み配列を取得する前記ステップは、
閾値関数を介して前記実数マスクに対して二値化処理を実行して、二値化マスクを生成するステップであって、前記二値化マスクは、０及び１によって構成される配列であり、且つ、前記二値化マスクのサイズは、前記第１重み配列のサイズと同じである、ステップと、
前記第１重み配列を前記二値化マスクとポイントツーポイントで乗算して、前記第２重み配列を取得するステップと、
を含むことを特徴とする、請求項２に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法。
前記画像セマンティックセグメンテーションネットワークのトレーニング方法は、
前記第１重み配列を前記二値化マスクとポイントツーポイントで乗算して、中間重み配列を取得するステップと
前記中間重み配列及び摂動配列に従って前記第２重み配列を生成するステップと、をさらに含み、前記摂動配列は、前記中間重み配列内のネットワーク重みに摂動を増加するために使用される
ことを特徴とする、請求項３に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法。
前記第２重み配列に従って、前記第２画像セマンティックセグメンテーションネットワークを生成する前記ステップは、
前記第２重み配列に従って、前記第１画像セマンティックセグメンテーションネットワークにおける各畳み込みカーネルに対してネットワーク重みの更新を実行するステップと、
ネットワーク重みの更新後の前記第１画像セマンティックセグメンテーションネットワークを前記第２画像セマンティックセグメンテーションネットワークとして決定するステップと、
を含むことを特徴とする、請求項２ないし４のいずれか一項に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法。
前記トレーニング画像セット及び前記テスト画像セットに従って、前記第２画像セマンティックセグメンテーションネットワークをトレーニングする前記ステップは、
前記トレーニング画像セットに従って前記第２画像セマンティックセグメンテーションネットワークのセグメンテーション損失を計算するステップと、
前記トレーニング画像セット及び前記テスト画像セットに従って、弁別器の弁別器損失を計算するステップであって、前記弁別器は、画像特徴に従って、画像が属する画像セットを決定するために使用される、ステップと、
前記セグメンテーション損失及び前記弁別器損失に従って、前記第２画像セマンティックセグメンテーションネットワーク及び前記弁別器に対して敵対的トレーニングを実行するステップと、
を含むことを特徴とする、請求項１ないし４のいずれか一項に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法。
前記トレーニング画像セット及び前記テスト画像セットに従って、弁別器の弁別器損失を計算する前記ステップは、
ターゲット画像を前記第２画像セマンティックセグメンテーションネットワークに入力して、ターゲット画像特徴を取得するステップであって、前記ターゲット画像は、前記トレーニング画像セットに属し、または前記テスト画像セットに属する、ステップと、
前記ターゲット画像特徴を前記弁別器に入力して、弁別結果を取得するステップと、
前記ターゲット画像が属する画像セット及び前記弁別結果に従って、前記弁別器損失を計算するステップと、
を含むことを特徴とする、請求項６に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法。
前記方法が補助運転の分野に使用される場合、前記トレーニング画像セットと前記テスト画像セットの分布が異なることは、属する都市が異なること、属する季節が異なること、属する期間が異なることのうちの少なくとも１つを含み、
または、
前記方法が顔識別の分野に使用される場合、前記トレーニング画像セットと前記テスト画像セットの分布が異なることは、人種が異なること、肌の色が異なること、スタイルが異なることのうちの少なくとも１つを含み、
または、
前記方法が体検出の分野に使用される場合、前記トレーニング画像セットと前記テスト画像セットの分布が異なることは、収集環境が異なること、人種が異なること、姿勢が異なることのうちの少なくとも１つを含む
ことを特徴とする、請求項１ないし４のいずれか一項に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法。
ターゲット画像セマンティックセグメンテーションネットワークが構成されているコンピュータ機器に使用される、画像セマンティックセグメンテーション方法であって、前記ターゲット画像セマンティックセグメンテーションネットワークは、請求項１ないし８のいずれか一項に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法を使用してトレーニングして取得されるものであり、
テスト画像セット内のテスト画像を取得するステップと、
前記テスト画像を前記ターゲット画像セマンティックセグメンテーションネットワークに入力し、前記ターゲット画像セマンティックセグメンテーションネットワークによって出力されたターゲット画像セマンティックセグメンテーション結果を取得するステップであって、前記ターゲット画像セマンティックセグメンテーション結果は、前記テスト画像の各ピクセルが属する対象に対応するカテゴリを含む、ステップと、
前記ターゲット画像セマンティックセグメンテーション結果に従って、前記テスト画像に対応するセグメンテーション画像を表示するステップと、を含み、前記セグメンテーション画像には異なるカテゴリの対象が注釈されている
ことを特徴とする、画像セマンティックセグメンテーション方法。
画像セマンティックセグメンテーションネットワークのトレーニング装置であって、
トレーニング画像セットに従って、第１画像セマンティックセグメンテーションネットワークをトレーニングするように構成される第１トレーニングモジュールであって、前記トレーニング画像セット内のトレーニング画像は、注釈情報を含む、第１トレーニングモジュールと、
マスクネットワークを介して、前記第１画像セマンティックセグメンテーションネットワークのネットワーク重みに対してマスク処理を実行して、第２画像セマンティックセグメンテーションネットワークを取得するように構成されるマスクモジュールであって、前記マスクネットワークは、前記第１画像セマンティックセグメンテーションネットワークにおける画像の特徴分布に敏感ではないネットワーク重みをスクリーニングするために使用される、マスクモジュールと、
前記トレーニング画像セット及びテスト画像セットに従って、前記第２画像セマンティックセグメンテーションネットワークをトレーニングするように構成される、第２トレーニングモジュールと、を備え、前記テスト画像セット内のテスト画像は、前記注釈情報を含まなく、且つ前記トレーニング画像セットと前記テスト画像セットの分布は異なる
ことを特徴とする、画像セマンティックセグメンテーションネットワークのトレーニング装置。
前記マスクネットワークと前記第１画像セマンティックセグメンテーションネットワークとのネットワーク構造が同じであり、且つ、前記マスクネットワークと前記第１画像セマンティックセグメンテーションネットワークとのネットワーク重みの数は同じであり、
前記マスクモジュールは、
前記第１画像セマンティックセグメンテーションネットワークに対応する第１重み配列を取得するように構成される取得ユニットであって、前記第１重み配列は、前記第１画像セマンティックセグメンテーションネットワークにおける各畳み込みカーネルに対応するネットワーク重みを含む、取得ユニットと、
前記マスクネットワークに対応する実数マスクを介して、前記第１重み配列に対してマスク処理を実行して、第２重み配列を取得するように構成されるマスクユニットであって、前記実数マスクは、前記マスクネットワークにおける各畳み込みカーネルに対応するネットワーク重みを含む、マスクユニットと、
前記第２重み配列に従って、前記第２画像セマンティックセグメンテーションネットワークを生成するように構成される、生成ユニットと、
を備えることを特徴とする、請求項１０に記載の画像セマンティックセグメンテーションネットワークのトレーニング装置。
前記マスクユニットは、
閾値関数を介して前記実数マスクに対して二値化処理を実行して、二値化マスクを生成し、
前記第１重み配列を前記二値化マスクとポイントツーポイントで乗算して、前記第２重み配列を取得するように構成され、
前記二値化マスクは、０及び１によって構成される配列であり、且つ、前記二値化マスクのサイズは、前記第１重み配列のサイズと同じである
ことを特徴とする、請求項１１に記載の画像セマンティックセグメンテーションネットワークのトレーニング装置。
前記マスクユニットは、さらに、
前記第１重み配列を前記二値化マスクとポイントツーポイントで乗算して、中間重み配列を取得し、
前記中間重み配列及び摂動配列に従って前記第２重み配列を生成するように構成され、前記摂動配列は、前記中間重み配列内のネットワーク重みに摂動を増加するために使用される
ことを特徴とする、請求項１２に記載の画像セマンティックセグメンテーションネットワークのトレーニング装置。
メモリとプロセッサとを備える、コンピュータ機器であって、前記メモリにはコンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されるとき、前記プロセッサに請求項１ないし９のいずれか一項に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法のステップを実行させる、コンピュータ機器。
コンピュータプログラムであって、
コンピュータに、請求項１ないし９のいずれか一項に記載の画像セマンティックセグメンテーションネットワークのトレーニング方法を実行させるように構成される、コンピュータプログラム。