JP2020524861A

JP2020524861A - セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体

Info

Publication number: JP2020524861A
Application number: JP2019571272A
Authority: JP
Inventors: シアオハンジャン; ズーウェイリウ; ピンルオ; チェンチャンロイ; シャオオウタン
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2017-08-01
Filing date: 2018-07-27
Publication date: 2020-08-20
Anticipated expiration: 2038-07-27
Also published as: JP6807471B2; US20200134375A1; CN108229479B; CN108229479A; KR102358554B1; SG11201913365WA; US11301719B2; WO2019024808A1; KR20200015611A

Abstract

本願の実施例はセマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体を開示し、そのうち、方法は、セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得ることと、畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得ることと、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練することと、を含み、前記少なくとも二つの画像は、少なくとも一つの前記ラベル付けされていない画像および少なくとも一つの前記ラベル付けされた画像を含み、前記少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。本願の上記実施例により訓練されて得られたセマンティックセグメンテーションモデルは、セマンティックセグメンテーションにおいて高い正解率を得ることができる。【選択図】図１

Description

（関連出願の相互参照）
本願は２０１７年８月１日に中国特許局へ提出された、出願番号ＣＮ２０１７１０６４８５４５．７、名称「セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体」の中国特許出願の優先権を主張しており、その全ての内容が引用により本願に組み込まれる。

本願の実施例はコンピュータビジョン技術、特にセマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体に関する。

画像のセマンティックセグメンテーションは、入力画像の画素毎に、出力において対応する判別ラベルを付け、この画素が属する可能性が最も高い物体またはカテゴリを明示している。それはコンピュータビジョン分野の重要なタスクであり、その用途は機器のシーン認識、映像解析などを含む。

本願の実施例はセマンティックセグメンテーションモデルの訓練技術を提供する。

本願の実施例が提供するセマンティックセグメンテーションモデルの訓練方法は、
セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得ることと、
畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得ることと、
少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練することと、を含み、
そのうち、前記少なくとも二つの画像は、少なくとも一つの前記ラベル付けされていない画像および少なくとも一つの前記ラベル付けされた画像を含み、前記少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。

本願の実施例の別の一態様によれば、
セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得るためのセグメンテーション部と、
畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得るためのサブ画像抽出部と、
少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練するための訓練部と、を含み、
そのうち、前記少なくとも二つの画像は、少なくとも一つの前記ラベル付けされていない画像および少なくとも一つの前記ラベル付けされた画像を含み、前記少なくとも二つのサブ画像には対応する画像のカテゴリが含まれていることを特徴とするセマンティックセグメンテーションモデルの訓練装置が提供される。

本願の実施例のさらに別の一態様によれば、以上に記載のセマンティックセグメンテーションモデルの訓練装置を含むプロセッサを含む電子機器が提供される。

本願の実施例のさらに別の一態様によれば、実行可能命令を記憶するためのメモリ、および
前記メモリと通信して前記実行可能命令を実行することで以上に記載のセマンティックセグメンテーションモデルの訓練方法の操作を実行するためのプロセッサを含む電子機器が提供される。

本願の実施例のさらに別の一態様によれば、コンピュータ読み取り可能な命令を記憶するためのコンピュータ記憶媒体であって、前記命令が実行される時に以上に記載のセマンティックセグメンテーションモデルの訓練方法の操作を実行するコンピュータ記憶媒体が提供される。

本願の実施例のさらに別の一態様によれば、機器において動作される時、前記機器内のプロセッサが本願のいずれか一つの実施例に記載のセマンティックセグメンテーションモデルの訓練方法における各ステップを実現するための命令を実行するコンピュータ読み取り可能コードを含むコンピュータプログラムが提供される。

本願の上記実施例が提供するセマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体に基づき、セマンティックセグメンテーションモデルによってラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、それによってラベル付けされていない画像はノイズ付きのカテゴリを得ることができるようになり、ラベル付けされていない画像のカテゴリ、およびラベル付けされた画像のカテゴリに基づき、画像がそれぞれ対応する少なくとも二つのサブ画像を得て、ラベル付けられた画像もラベル付けされていない画像も訓練に用い、自己監視訓練を実現し、畳み込みニューラルネットワークによって、サブ画像への特徴抽出を実現し、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルの訓練を実現し、訓練によって強い意味判別能力を有する自己監視学習型のセマンティックセグメンテーションモデルを得て、セマンティックセグメンテーションにおいて高い正解率を得ることができる。

以下に図面および実施例により、本願の技術的解決手段をさらに詳細に説明する。

明細書の一部となる図面は本願の実施例を説明するものであり、かつその説明と共に本願の原理を解釈するために用いられる。

図面と関連付けて、以下の詳細な説明によれば、本願をより明確に理解できる。そのうち、
本願のセマンティックセグメンテーションモデルの訓練方法の一実施例のフローチャートである。本願のセマンティックセグメンテーションモデルの訓練方法のパッチグラフ作成の一例示的模式図である。本願のセマンティックセグメンテーションモデルの訓練方法のパッチグラフ作成の別の例示的模式図である。本願のセマンティックセグメンテーションモデルの訓練装置の一実施例の構成模式図である。本願の電子機器の一実施例の構成模式図である。

ここで、図面を参照しながら本願の様々な例示的実施例を詳細に説明する。なお、特に断らない限り、これらの実施例において記述した部材およびステップの相対的配置、数式および数値は本願の範囲を限定するものではないことに注意すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的実施例に対する説明は実際に説明的なものに過ぎず、本願およびその適用または使用へのなんらの制限にもならない。

関連分野の当業者に既知の技術、方法および機器については、詳細に説明しないが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。

なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本願の実施例はコンピュータシステム／サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム／サーバとの併用に適する公知の計算システム、環境および／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび上記あらゆるシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

コンピュータシステム／サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能命令（例えばプログラムモジュール）の一般的なコンテキストにおいて説明できる。通常、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム／サーバは、タスクが通信ネットワークにわたって接続された遠隔処理機器により実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。

図１は本願のセマンティックセグメンテーションモデルの訓練方法の一実施例のフローチャートである。図１に示すように、該実施例の方法は以下を含む。

ステップ１０１、セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得る。

ここで、ラベル付けされていない画像とは、該画像における一部または全ての画素のカテゴリ（例えば、意味カテゴリ）が特定されていないものを言い、本実施例では例示的に、既知のセマンティックセグメンテーションモデルによってラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、ノイズ付きのセマンティックセグメンテーション結果を得ることができる。

任意選択的な一例では、該ステップ１０１はメモリに記憶された対応する命令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用されるセグメンテーション部４１によって実行してもよい。

ステップ１０２、畳み込みニューラルネットワークによって、少なくとも一つのラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得る。

ここで、少なくとも二つの画像は少なくとも一つのラベル付けされていない画像および少なくとも一つのラベル付けされた画像を含み、少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。任意選択的に、大きさが設定可能な選択ボックスによって画像中を移動し、さらに画像における画素のカテゴリに基づいて選択ボックス内の画素が同一カテゴリであるか否かを判定し、選択ボックス内の設定比率を超えた画素が全て同一カテゴリに属する場合、この選択ボックスをサブ画像として出力できる。

任意選択的な一例では、該ステップ１０２はメモリに記憶された対応する命令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用されるサブ画像抽出部４２によって実行してもよい。

ステップ１０３、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練する。

任意選択的な一例では、該ステップ１０３はメモリに記憶された対応する命令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される訓練部４３によって実行してもよい。

本願の上記実施例が提供するセマンティックセグメンテーションモデルの訓練方法に基づき、セマンティックセグメンテーションモデルによってラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、それによってラベル付けされていない画像はノイズ付きのカテゴリを得ることができるようになり、ラベル付けされていない画像のカテゴリ、およびラベル付けされた画像のカテゴリに基づき、画像がそれぞれ対応する少なくとも二つのサブ画像を得て、ラベル付けされた画像もラベル付けされていない画像も訓練に用い、自己監視訓練を実現し、畳み込みニューラルネットワークによって、サブ画像への特徴抽出を実現し、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルの訓練を実現し、訓練によって強い意味判別能力を有する自己監視学習型のセマンティックセグメンテーションモデルを得て、セマンティックセグメンテーションにおいて高い正解率を得ることができる。

自己監視学習はラベルが付いていない画像そのものを用いて訓練し、画像の意味情報への記述に用いることが可能な高次元ベクトルである画像記述子を得て、続いてこれらの画像記述子を用いてセマンティックセグメンテーションの訓練を行う。

本願のセマンティックセグメンテーションモデルの訓練方法の別の実施例では、上記実施例をもとに、ステップ１０３は、
サブ画像間のカテゴリ関係に基づき、サブ画像を含むノードおよび任意の二つのサブ画像間の特徴距離を含むリンクを含むパッチグラフ（ｐａｔｃｈｇｒａｐｈ）を作成することと、
セマンティックセグメンテーションモデルを訓練し、それによって該パッチグラフにおいて、カテゴリが同じである二つのサブ画像間の特徴距離を第一所定値よりも小さくし、カテゴリが異なる二つのサブ画像間の特徴距離を第二所定値よりも大きくすることと、を含む。

該実施例では、図２は本願のセマンティックセグメンテーションモデルの訓練方法のパッチグラフ作成の一例示的模式図である。図２に示すように、パッチグラフ（ｐａｔｃｈｇｒａｐｈ）２２を作成するために、まずノード２２１を決定しなければならず、本実施例ではサブ画像をノード２２１とし、任意のカテゴリが既知の画像２１において選択ボックス２１１によって少なくとも一つのサブ画像を選択し、接続関係を有するサブ画像間の特徴距離をリンク２２２（図２における中層の特徴から選択した選択ボックス内の特徴はサブ画像の特徴である）とし、ここでサブ画像間の接続関係はサブ画像に対応するカテゴリによって決定され、サブ画像の特徴は対応する選択ボックスによって畳み込みニューラルネットワークの出力層が出力した特徴マップから選択した特徴であり、任意選択的に、該出力層は畳み込みニューラルネットワークにおける中層または深層のうちのいずれか一層であり、畳み込みニューラルネットワークの中層または深層のうちの一層を出力層として選択し、ここで画像浅層の特徴は通常、画像における物体のいくつかの縁部（ｅｄｇｅ）、角点などの情報を特徴付け、画像中層の特徴は通常、物体のいくつかの部材の情報（例えば、車両のホイール、ヒトの鼻など）を特徴付け、画像深層の特徴は通常、画像全体のカテゴリ情報（例えば、ヒト、車、ウマなど）を特徴付け、サブ画像によってグラフを作成しかつパラメータを最適化するために、中層または深層のうちの一層をラベル付けされた画像およびラベル付けされていない画像の出力層として選択し、しかも、数回の実践によれば、中層の特徴の最適化効果が深層の特徴よりも高いことが実証されており、ここで、第一所定値および第二所定値は予め設定され、通常第二所定値は第一所定値よりも大きく、第一所定値および第二所定値によってカテゴリが同じである二つのサブ画像間の特徴距離を小さくすればするほど、カテゴリが異なる二つのサブ画像間の特徴距離が大きくなる。

図３は本願のセマンティックセグメンテーションモデルの訓練方法のパッチグラフ作成の別の例示的模式図である。該実施例の方法は、畳み込みニューラルネットワーク（図３中のＣＮＮ）によって、少なくとも一つのラベル付けされていない画像のカテゴリ（該ラベル付けされていない画像のカテゴリは既知のセマンティックセグメンテーションモデルに基づいて得ることができる）、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴（図３における中層の特徴のうちサブ画像位置に対応する特徴）を得ることと、サブ画像間のカテゴリ関係に基づき、サブ画像を含むノードおよび任意の二つのサブ画像間の特徴距離を含むリンクを含む（図３のパッチグラフにおいて円はノードを表し、二つの円を連結する線はリンクを表す）パッチグラフ（ｐａｔｃｈｇｒａｐｈ）を作成することと、を含む。

本願のセマンティックセグメンテーションモデルの訓練方法の上記各実施例の任意選択的な一例では、サブ画像間のカテゴリ関係に基づいてパッチグラフを作成するステップは、
少なくとも一つのサブ画像を基準ノードとして選択し、少なくとも一つの基準ノードのそれぞれに対して、
基準ノードと同じカテゴリのサブ画像を正の相関関係があるノードとし、基準ノードと異なるカテゴリのサブ画像を負の相関関係があるノードとし、基準ノードと少なくとも一つの正の相関関係があるノードとの間でそれぞれ正相関接続を確立し、基準ノードと少なくとも一つの負の相関関係があるノードとの間でそれぞれ負相関接続を確立することと、
少なくとも一つの基準ノード、基準ノードの正の相関関係があるノード、基準ノードの負の相関関係があるノード、正相関接続および負相関接続で疎接続グラフを形成することと、を含む。

該実施例では、パッチグラフを作成するプロセスは少なくとも二つのサブ画像から複数のサブ画像をランダムに選択し、ランダムに選択したサブ画像をそれぞれアンカー（ａｎｃｈｏｒ）とし、意味カテゴリに基づき、ａｎｃｈｏｒと同じカテゴリのサブ画像をポジティブグラフ（ｐｏｓｉｔｉｖｅ）としてランダムに選択し、ａｎｃｈｏｒと異なる意味カテゴリのサブ画像をネガティブグラフ（ｎｅｇａｔｉｖｅ）としてランダムに選択し、このとき、一つのサブ画像に基づいて二つの接続、即ちａｎｃｈｏｒ−ｐｏｓｉｔｉｖｅおよびａｎｃｈｏｒ−ｎｅｇａｔｉｖｅを確立し、これらの接続に基づき、一つの疎接続パッチグラフを作成する。

本願のセマンティックセグメンテーションモデルの訓練方法の上記各実施例の任意選択的な一例では、セマンティックセグメンテーションモデルを訓練するステップは、
勾配バックプロパゲーションアルゴリズムによって、前記セマンティックセグメンテーションモデルを訓練し、それによって畳み込みニューラルネットワークの誤差を最小化することを含み、誤差は畳み込みニューラルネットワークに基づいて得られた、対応するサブ画像の特徴のトリプレット損失である。

本実施例では勾配バックプロパゲーションアルゴリズムによって畳み込みニューラルネットワークでの誤差を減少させ、畳み込みニューラルネットワークの一層目から出力層までの少なくとも一層のパラメータを最適化し、勾配バックプロパゲーションアルゴリズム（ＢＰ、ＢａｃｋＰｒｏｐａｇａｔｉｏｎＡｌｇｏｒｉｔｈｍ）はメンターの指導下での、多層ニューロンネットワークに適する学習アルゴリズムであり、勾配降下法をもとに確立される。ＢＰネットワークの出入力関係は実質的にマッピング関係であり、即ちｎ入力ｍ出力のＢＰニューラルネットワークはｎ次元ユークリッド空間からｍ次元ユークリッド空間内のガロア体への、高非線形性を有する連続的なマッピングという機能を実行する。ＢＰアルゴリズムの学習プロセスはフォワードプロパゲーションプロセスおよびバックプロパゲーションプロセスで構成される。フォワードプロパゲーションプロセスで、入力情報が入力層を通過して隠れ層を通り、層別に処理されて出力層へ伝送される。出力層で所望の出力値を得ることができない場合、出力値と所望値の誤差の二乗和を目標関数とし、バックプロパゲーションへ進み、各ニューロンの重みに対する目標関数の偏導関数を層別に求め、重みベクトルに対する目標関数の勾配量を、重みを変更する根拠として構成させ、ネットワークの学習は重みの変更プロセスで実行する。誤差が所望値に達する時、ネットワーク学習を終了する。

パッチグラフにおけるリンクは出力層が出力したサブ画像間の特徴距離から得られ、そのうち、出力層は中層または深層から選択した層であるため、畳み込みニューラルネットワークの全ての層のパラメータではなく、一層目から該出力層までのパラメータを最適化し、従って、誤差計算プロセスでも、同様に出力層から一層目までの少なくとも一層の誤差を計算する。

本願のセマンティックセグメンテーションモデルの訓練方法の上記各実施例の任意選択的な一例では、勾配バックプロパゲーションアルゴリズムによって、セマンティックセグメンテーションモデルを訓練するステップは、
作成したパッチグラフにおけるサブ画像の特徴の間の距離に基づいて損失関数計算によって最大誤差を得ることと、
最大誤差を勾配バックプロパゲーションすることによって、畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することと、
少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを補正することと、
パラメータ最適化後の畳み込みニューラルネットワークによって出力されるサブ画像間の距離に基づいて誤差を算出し、前記誤差を最大誤差とすることと、
最大誤差を勾配バックプロパゲーションすることによって、畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することを反復実行することと、少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じて畳み込みニューラルネットワークにおける対応する層のパラメータを、最大誤差が所定値以下になるまで補正することと、を含む。

本実施例では、まず損失関数を定義し、畳み込みニューラルネットワークがこの損失関数を最小化することでネットワークパラメータを最適化し、該損失関数の式は式（１）に示すとおりである。

式（１）
ここで、
はサブ画像に基づいて作成したパッチグラフにおけるａｎｃｈｏｒとｐｏｓｉｔｉｖｅの間の距離を表し、
はサブ画像に基づいて作成したパッチグラフにおけるａｎｃｈｏｒとｎｅｇａｔｉｖｅの間の距離を表し、ｍは定数を表し、該式は従来技術でのトリプレット損失関数（ｔｒｉｐｌｅｔｌｏｓｓ）の式に基づいて得られ、算出した誤差で、勾配バックプロパゲーションアルゴリズムと結合すれば、畳み込みニューラルネットワークにおける層毎のパラメータ最適化を実現できる。

本願のセマンティックセグメンテーションモデルの訓練方法の上記各実施例の任意選択的な一例では、セマンティックセグメンテーションモデルを訓練するプロセスは、
畳み込みニューラルネットワークの訓練結果に基づいて畳み込みニューラルネットワークのパラメータを得ることと、
得られた畳み込みニューラルネットワークのパラメータに基づいてセマンティックセグメンテーションモデルにおけるパラメータを初期化することと、を含むことができる。

本実施例では、セマンティックセグメンテーションモデルも畳み込みニューラルネットワークに属するため、訓練により得られた畳み込みニューラルネットワークのパラメータは高い意味カテゴリ判別性を有し、セマンティックセグメンテーションにおいて高い正解率を得ることができ、該畳み込みニューラルネットワークのパラメータで元のセマンティックセグメンテーションモデルにおけるパラメータを入れ替えると、訓練が完了したセマンティックセグメンテーションモデルを得る。

本願のセマンティックセグメンテーションモデルの訓練方法のさらに別の実施例では、上記各実施例をもとに、ステップ１０２は、
所定の大きさの選択ボックスが少なくとも二つの画像において移動することに応じて、選択ボックス内の画素を判別し、選択ボックス内の画素のうち同一意味カテゴリの画素が占める比率が所定値以上である場合、選択ボックス内の画像をサブ画像として出力し、かつサブ画像をカテゴリとしてラベル付けることと、
畳み込みニューラルネットワークによってサブ画像に対応する特徴を得ることと、を含むことができる。

本実施例では、大きさが可変な選択ボックスによって少なくとも二つの画像へのセグメンテーションを行い、ここで、少なくとも二つの画像はラベル付けされていない画像およびラベル付けされた画像を含み、選択ボックス内の画素のうち同一カテゴリ（例えば、意味カテゴリなど）に属する画素が占める比率が所定値以上である場合、該選択ボックスを該カテゴリに分類し、該選択ボックス内の画素をサブ画像として出力することができ、選択ボックスの大きさは調整可能であり、ある大きさの選択ボックスで画像からサブ画像を得ることができない場合、選択ボックスの大きさを調整し、改めてセグメンテーションを、一定数のサブ画像を得るまで行うようにしてもよい。

本願のセマンティックセグメンテーションモデルの訓練方法の上記各実施例の任意選択的な一例では、ステップ１０２はさらに、選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値よりも小さい場合、該選択ボックスを破棄することを含むことができる。

本例では、大きさが設定された選択ボックスについて、選択可能なサブ画像が抜けていないように、画像内で画素毎の移動を完了させる必要があり、一つの選択ボックス内に複数のカテゴリが存在しているものの、該複数のカテゴリに対応する画素の比率が全て所定値よりも小さい場合、該選択ボックスはカテゴリを特定できず、このとき選択ボックスを次の位置に移動させ、次の位置で判別を継続する必要があり、ある大きさが設定された選択ボックスで画像から何らのサブ画像をも得ることができない場合、選択ボックスの大きさを調整し、改めて該画像への選択を行う必要がある。

本願のセマンティックセグメンテーションモデルの訓練方法の上記各実施例の任意選択的な一例では、畳み込みニューラルネットワークによってサブ画像に対応する特徴を得るステップは、
畳み込みニューラルネットワークによってラベル付けされていない画像およびラベル付けされた画像の特徴をそれぞれ抽出し、対応するラベル付けされていない画像およびラベル付けされた画像の特徴マップを得ることと、
サブ画像に対応する選択ボックスの位置および大きさに基づき、対応する特徴マップから対応する選択ボックス内の特徴を得て、サブ画像に対応する特徴を特定することと、を含む。

本実施例では、サブ画像の選択ボックスの位置および大きさを得ることで、対応する畳み込みニューラルネットワークの出力層の特徴マップにおいて同じ位置および大きさの選択ボックスによって対応するサブ画像の特徴を選択し、さらにサブ画像の特徴によって任意の二つのサブ画像間の特徴距離を得る。

本願のセマンティックセグメンテーションモデルの訓練方法の上記各実施例の任意選択的な一例では、さらに、ステップ１０２の前に、セマンティックセグメンテーションモデルのパラメータに基づいて畳み込みニューラルネットワークのパラメータを初期化することを含むことができる。

例示的に、より正確な特徴を得るために、セマンティックセグメンテーションモデルのパラメータを用いて畳み込みニューラルネットワークのパラメータを初期化する。

本願のセマンティックセグメンテーションモデルの訓練方法のさらに別の実施例では、上記各実施例をもとに、ステップ１０１の前に、さらに、
ランダム勾配降下法を使用してセマンティックセグメンテーションモデルを、所定の収束条件を満たすまで訓練することを含むことができる。

本実施例はセマンティックセグメンテーションモデルに対するそれぞれの微調整を実現し、任意選択的に、微調整プロセスは、１．ＶＧＧ−１６ネットワーク構造のセマンティックセグメンテーションモデルを使用することと、２．セマンティックセグメンテーションモデルの初期学習率を０．０１とし、３００００回の反復実行毎に１０倍降下させることと、３．ランダム勾配降下アルゴリズムを使用してセマンティックセグメンテーションタスクを微調整かつ最適化し、このプロセスで８つのＧＰＵで分散計算することと、４．ランダム勾配降下アルゴリズムとして、１グループのデータ（本例では１６枚のピクチャー）をランダムに選択し、ネットワークに入力し、フォワードプロパゲーションによって結果を得て、それとラベル付けされた結果との誤差を計算し、バックプロパゲーションによって少なくとも一層の誤差を得るようにし、少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じてパラメータ値を補正し、補正中にモデルを収束させることと、５．６００００回目程度まで反復実行してモデルを収束させることと、６．このセマンティックセグメンテーションモデルを利用して従来の公開データセットにおいてテストすることと、を含むことができる。

本願のセマンティックセグメンテーションモデルの訓練方法のさらに別の実施例では、上記各実施例をもとに、ステップ１０２の前に、さらに、
ランダム勾配降下法を使用して畳み込みニューラルネットワークを、所定の収束条件を満たすまで訓練することを含むことができる。

本実施例は畳み込みニューラルネットワークに対するそれぞれの微調整を実現し、任意選択的に、微調整プロセスは、１．ＶＧＧ−１６ネットワーク構造の畳み込みニューラルネットワークを使用することと、２．畳み込みニューラルネットワークの初期学習率を０．０１とし、３００００回の反復実行毎に１０倍降下させることと、３．ランダム勾配降下アルゴリズムを使用してセマンティックセグメンテーションタスクを微調整かつ最適化し、このプロセスで８つのＧＰＵで分散計算することと、４．ランダム勾配降下アルゴリズムを、１グループのデータ（本例では１６枚のピクチャー）をランダムに選択し、ネットワークに入力し、フォワードプロパゲーションによって結果を得て、それとラベル付けされた結果との誤差を計算し、バックプロパゲーションによって少なくとも一層の誤差を得るようにし、少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じてパラメータ値を補正し、補正中にネットワークを収束させることと、５．６００００回目程度まで反復実行してネットワークを収束させることと、６．この畳み込みニューラルネットワークを利用して従来の公開データセットにおいてテストすることと、を含むことができる。

当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラム命令関連のハードウェアによって完了できることが理解可能であり、前記プログラムはコンピュータ読み取り可能記憶媒体に記憶可能で、該プログラムは実行時、上記方法の実施例のステップを実行し、前記記憶媒体はＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどのプログラムコード記憶可能な種々の媒体を含む。

図４は本願のセマンティックセグメンテーションモデルの訓練装置の一実施例の構成模式図である。該実施例の装置は本願の上記各方法の実施例を実現するために用いることができる。図４に示すように、該実施例の装置は、
セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、ラベル付けされていない画像のカテゴリとして得るためのセグメンテーション部４１と、
畳み込みニューラルネットワークによって、少なくとも一つのラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得るためのサブ画像抽出部４２と、
少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練するための訓練部４３と、を含み、
そのうち、少なくとも二つの画像は少なくとも一つのラベル付けされていない画像および少なくとも一つのラベル付けされた画像を含み、少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。

本願の上記実施例が提供するセマンティックセグメンテーションモデルの訓練装置に基づき、セマンティックセグメンテーションモデルによってラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、それによってラベル付けされていない画像はノイズ付きのカテゴリを得ることができるようになり、ラベル付けされていない画像のカテゴリ、およびラベル付けされた画像のカテゴリに基づき、画像がそれぞれ対応する少なくとも二つのサブ画像を得て、ラベル付けされた画像もラベル付けされていない画像も訓練に用い、自己監視訓練を実現し、畳み込みニューラルネットワークによって、サブ画像への特徴抽出を実現し、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルの訓練を実現し、訓練によって強い意味判別能力を有する自己監視学習型のセマンティックセグメンテーションモデルを得て、セマンティックセグメンテーションにおいて高い正解率を得ることができる。

本願のセマンティックセグメンテーションモデルの訓練装置の別の実施例では、上記実施例をもとに、訓練部４３は、
サブ画像間のカテゴリ関係に基づき、サブ画像を含むノードおよび任意の二つのサブ画像間の特徴距離を含むリンクを含むパッチグラフを作成するためのパッチグラフ作成モジュールと、
セマンティックセグメンテーションモデルを訓練し、それによってパッチグラフにおいて、カテゴリが同じである二つのサブ画像間の特徴距離を第一所定値よりも小さくし、カテゴリが異なる二つのサブ画像間の特徴距離を第二所定値よりも大きくするためのモデル訓練モジュールと、を含む。

該実施例では、パッチグラフ（ｐａｔｃｈｇｒａｐｈ）を作成するために、まずノードを決定しなければならず、本実施例ではサブ画像をノードとし、接続関係を有するサブ画像間の特徴距離をリンクとし、ここでサブ画像間の接続関係はサブ画像に対応するカテゴリによって決定され、サブ画像の特徴は対応する選択ボックスによって畳み込みニューラルネットワークの出力層が出力した特徴マップから選択した特徴であり、任意選択的に、該出力層は畳み込みニューラルネットワークにおける中層または深層のうちの一層であり、畳み込みニューラルネットワークの中層または深層のうちの一層を出力層として選択し、ここで画像浅層の特徴は通常、画像における物体のいくつかの縁部（ｅｄｇｅ）、角点などの情報を特徴付け、画像中層の特徴は通常、物体のいくつかの部材の情報（例えば、車両のホイール、ヒトの鼻など）を特徴付け、画像深層の特徴は通常、画像全体のカテゴリ情報（例えば、ヒト、車、ウマなど）を特徴付け、サブ画像によってグラフを作成しかつパラメータを最適化するために、中層または深層のうちの一層をラベル付けされた画像およびラベル付けされていない画像の出力層として選択し、しかも、数回の実践によれば、中層の特徴の最適化効果が深層の特徴よりも高いことが実証されており、ここで、第一所定値および第二所定値は予め設定され、通常第二所定値は第一所定値よりも大きく、第一所定値および第二所定値によってカテゴリが同じである二つのサブ画像間の特徴距離を小さくすればするほど、カテゴリが異なる二つのサブ画像間の特徴距離が大きくなる。

本願のセマンティックセグメンテーションモデルの訓練装置の上記各実施例の任意選択的な一例では、パッチグラフ作成モジュールは、
少なくとも一つのサブ画像を基準ノードとして選択するための基準選択モジュールと、
少なくとも一つの基準ノードのそれぞれに対して、基準ノードと同じカテゴリのサブ画像を正の相関関係があるノードとし、基準ノードと異なるカテゴリのサブ画像を負の相関関係があるノードとし、基準ノードと少なくとも一つの正の相関関係があるノードとの間でそれぞれ正相関接続を確立し、基準ノードと少なくとも一つの前記負の相関関係があるノードとの間でそれぞれ負相関接続を確立するための接続関係確立モジュールと、
少なくとも一つの基準ノード、基準ノードの正の相関関係があるノード、基準ノードの負の相関関係があるノード、正相関接続および負相関接続で疎接続グラフを形成するための接続グラフ作成モジュールと、を含む。

本願のセマンティックセグメンテーションモデルの訓練装置の上記各実施例の任意選択的な一例では、モデル訓練モジュールは、
勾配バックプロパゲーションアルゴリズムによって、セマンティックセグメンテーションモデルを訓練し、それによって畳み込みニューラルネットワークの誤差を最小化するためのネットワーク訓練モジュールを含み、誤差は畳み込みニューラルネットワークに基づいて得られた、対応するサブ画像の特徴のトリプレット損失である。

本願のセマンティックセグメンテーションモデルの訓練装置の上記各実施例の任意選択的な一例では、ネットワーク訓練モジュールは具体的に、
作成したパッチグラフにおけるサブ画像間の特徴距離に基づいて損失関数計算によって最大誤差を得て、
最大誤差を勾配バックプロパゲーションすることによって、畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算し、
少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じて畳み込みニューラルネットワークにおける対応する層のパラメータを補正し、
パラメータ最適化後の畳み込みニューラルネットワークによって出力されるサブ画像間の距離に基づいて誤差を算出し、前記誤差を最大誤差とし、
最大誤差を勾配バックプロパゲーションすることによって、畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算すること反復実行し、少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じて畳み込みニューラルネットワークにおける対応する層のパラメータを、最大誤差が所定値以下になるまで補正するために用いられる。

本願のセマンティックセグメンテーションモデルの訓練装置の上記各実施例の任意選択的な一例では、モデル訓練モジュールはさらに、
畳み込みニューラルネットワークの訓練結果に基づいて畳み込みニューラルネットワークのパラメータを得て、得られた畳み込みニューラルネットワークのパラメータに基づいてセマンティックセグメンテーションモデルにおけるパラメータを初期化するためのセグメンテーションモデル訓練モジュールを含む。

本願のセマンティックセグメンテーションモデルの訓練装置のさらに別の実施例では、上記各実施例をもとに、サブ画像抽出部は、所定の大きさの選択ボックスが少なくとも二つの画像において移動することに応じて、選択ボックス内の画素を判別し、選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値以上である場合、選択ボックス内の画像をサブ画像として出力し、かつサブ画像をカテゴリとしてラベル付け、畳み込みニューラルネットワークによってサブ画像に対応する特徴を得るために用いられる。

本実施例では、大きさが可変な選択ボックスによって少なくとも二つの画像へのセグメンテーションを行い、ここで、少なくとも二つの画像はラベル付けされていない画像およびラベル付けされた画像を含み、選択ボックス内の画素のうち同一カテゴリ（例えば、意味カテゴリ）に属する画素が占める比率が所定値以上である場合、該選択ボックスを該カテゴリに分類し、かつ該選択ボックス内の画素をサブ画像として出力することができ、選択ボックスの大きさは調整可能であり、ある大きさの選択ボックスで画像からサブ画像を得ることができない場合、選択ボックスの大きさを調整し、改めてセグメンテーションを、一定数のサブ画像を得るまで行うようにしてもよい。

本願のセマンティックセグメンテーションモデルの訓練装置の上記各実施例の任意選択的な一例では、サブ画像抽出部はさらに、選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値よりも小さい場合、該選択ボックスを破棄するために用いられる。

本願のセマンティックセグメンテーションモデルの訓練装置の上記各実施例の任意選択的な一例では、サブ画像抽出部は、畳み込みニューラルネットワークによってサブ画像に対応する特徴を得ようとする場合、畳み込みニューラルネットワークによってラベル付けされていない画像およびラベル付けされた画像の特徴をそれぞれ抽出し、対応するラベル付けされていない画像およびラベル付けされた画像の特徴マップを取得し、サブ画像に対応する選択ボックスの位置および大きさに基づき、対応するラベル付けされた画像の特徴マップから対応する選択ボックス内の特徴を得て、サブ画像に対応する特徴を特定するために用いられる。

本願のセマンティックセグメンテーションモデルの訓練装置のさらに別の実施例では、上記各実施例をもとに、本実施例の装置はさらに、ランダム勾配降下法を使用してセマンティックセグメンテーションモデルを、所定の収束条件を満たすまで訓練するためのモデル微調整部を含む。

本実施例はセマンティックセグメンテーションモデルに対するそれぞれの微調整を実現し、任意選択的に、微調整プロセスは、１．ＶＧＧ−１６ネットワーク構造のセマンティックセグメンテーションモデルを使用することと、２．セマンティックセグメンテーションモデルの初期学習率を０．０１とし、３００００回の反復実行毎に１０倍降下させることと、３．ランダム勾配降下アルゴリズムを使用してセマンティックセグメンテーションタスクを微調整かつ最適化し、このプロセスで８つのＧＰＵで分散計算することと、４．ランダム勾配降下アルゴリズムを、１グループのデータ（本例では１６枚のピクチャー）をランダムに選択し、ネットワークに入力し、フォワードプロパゲーションによって結果を得て、それとラベル付けされた結果との誤差を計算し、バックプロパゲーションによって少なくとも一層の誤差を得るようにし、少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じてパラメータ値を補正し、補正中にモデルを収束させることと、５．６００００回目程度まで反復実行してモデルを収束させることと、６．このセマンティックセグメンテーションモデルを利用して従来の公開データセットにおいてテストすることと、を含むことができる。

本願のセマンティックセグメンテーションモデルの訓練装置のさらに別の実施例では、上記各実施例をもとに、本実施例の装置はさらに、ランダム勾配降下法を使用して畳み込みニューラルネットワークを、所定の収束条件を満たすまで訓練するためのネットワーク微調整部を含む。

本実施例は畳み込みニューラルネットワークに対するそれぞれの微調整を実現し、任意選択的に、微調整プロセスは、１．ＶＧＧ−１６ネットワーク構造のセマンティックセグメンテーションモデルを使用することと、２．セマンティックセグメンテーションモデルの初期学習率を０．０１とし、３００００回の反復実行毎に１０倍降下させることと、３．ランダム勾配降下アルゴリズムを使用してセマンティックセグメンテーションタスクを微調整かつ最適化し、このプロセスで８つのＧＰＵで分散計算することと、４．ランダム勾配降下アルゴリズムを、１グループのデータ（本例では１６枚のピクチャー）をランダムに選択し、ネットワークに入力し、フォワードプロパゲーションによって結果を得て、それとラベル付けされた結果との誤差を計算し、バックプロパゲーションによって少なくとも一層の誤差を得るようにし、少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じてパラメータ値を補正し、補正中にモデルを収束させることと、５．６００００回目程度まで反復実行してモデルを収束させることと、６．このセマンティックセグメンテーションモデルを利用して従来の公開データセットにおいてテストすることと、を含むことができる。

本願の実施例の一態様によれば、本願のセマンティックセグメンテーションモデルの訓練装置の各実施例のいずれか一項を含むプロセッサを含む電子機器が提供される。

本願の実施例の一態様によれば、実行可能命令を記憶するためのメモリ、および
メモリと通信して実行可能命令を実行することで本願のセマンティックセグメンテーションモデルの訓練方法の各実施例のいずれか一項の操作を実行するためのプロセッサを含む電子機器が提供される。

本願の実施例の一態様によれば、コンピュータ読み取り可能な命令を記憶するためのコンピュータ記憶媒体であって、前記命令が実行される時に本願のセマンティックセグメンテーションモデルの訓練方法の各実施例のいずれか一項の操作を実行するコンピュータ記憶媒体が提供される。

本願の実施例はさらに、機器において動作される時、前記機器内のプロセッサが本願のいずれか一つの実施例に記載のセマンティックセグメンテーションモデルの訓練方法における各ステップを実現するための命令を実行するコンピュータ読み取り可能コードを含むコンピュータプログラムを提供する。

本願の実施例はさらに、電子機器を提供し、例えば移動端末、パーソナルコンピュータ（ＰＣ）、タブレット、サーバなどであってもよい。以下に図５を参照すると、本願の実施例の端末機器またはサーバの実現に適する電子機器５００の構成模式図が示される。図５に示すように、電子機器５００は一つ以上のプロセッサ、通信部などを含み、前記は一つ以上のプロセッサは例えば、一つ以上の中央処理装置（ＣＰＵ）５０１、および／または一つ以上の画像処理装置（ＧＰＵ）５１３などであり、プロセッサは読み取り専用メモリ（ＲＯＭ）５０２に記憶されている実行可能命令または記憶部分５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信部５１２はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含むことができるが、これに限定されず、
プロセッサは読み取り専用メモリ５０２および／またはランダムアクセスメモリ５０３と通信して実行可能命令を実行し、バス５０４を介して通信部５１２と接続し、通信部５１２によって他の目標機器と通信し、それにより本願の実施例が提供するいずれか一項の方法に対応する動作、例えば、セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得ることと、畳み込みニューラルネットワークによって、少なくとも一つのラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像が対応する特徴を得ることと、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練することと、を実行することができ、そのうち、少なくとも二つの画像は少なくとも一つのラベル付けされていない画像および少なくとも一つのラベル付けされた画像を含み、少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。

また、ＲＡＭ５０３には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。ＣＰＵ５０１、ＲＯＭ５０２およびＲＡＭ５０３はバス５０４を介して互いに接続される。ＲＡＭ５０３が存在する場合、ＲＯＭ５０２は任意選択的なモジュールとなる。ＲＡＭ５０３は実行可能命令を記憶するか、または動作時にＲＯＭ５０２へ実行可能命令を書き込み、実行可能命令によって中央処理装置５０１は上記通信方法に対応する操作を実行する。入力／出力（Ｉ／Ｏ）インタフェース５０５もバス５０４に接続される。通信部５１２は統合設置してもよく、また複数のサブモジュール（例えば複数のＩＢネットワークカード）を有するように設置してもよく、かつバスリンクに存在する。

キーボード、マウスなどを含む入力部分５０６、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などおよびスピーカーなどを含む出力部分５０７、ハードディスクなどを含む記憶部分５０８、およびＬＡＮカード、モデムのネットワークインタフェースカードなどを含む通信部分５０９といった部品は、Ｉ／Ｏインタフェース５０５に接続される。通信部分５０９はインターネットのようなネットワークによって通信処理を実行する。ドライバ５１０も必要に応じてＩ／Ｏインタフェース５０５に接続される。取り外し可能な媒体５１１、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ５１０に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部分５０８にインストールされる。

説明すべきは、図５に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図５の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置の実施形態を採用でき、例えばＧＰＵ５１３とＣＰＵ５０１は分離設置するかまたはＧＰＵ５１３をＣＰＵ５０１に統合するようにしてもよく、通信部は分離設置してもよく、ＣＰＵ５０１またはＧＰＵ５１３に統合してもよいなどである。これらの置換可能な実施形態はいずれも本願が開示する保護範囲に属する。

特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法を実行するステップに対応する命令、例えば、セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、ラベル付けされていない画像のカテゴリとして得ることと、畳み込みニューラルネットワークによって、少なくとも一つのラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づいて、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得ることと、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練することと、を含むことができ、そのうち、少なくとも二つの画像は少なくとも一つのラベル付けされていない画像および少なくとも一つのラベル付けされた画像を含み、少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。このような実施例では、該コンピュータプログラムは通信部分５０９によってネットワークからダウンロードおよびインストールでき、および／または取り外し可能な媒体５１１からインストールできる。該コンピュータプログラムは中央処理装置（ＣＰＵ）５０１に実行される時、本願の方法に特定された上記機能を実行する。

本明細書における各実施例は漸進の方式を採用して記述し、各実施例では他の実施例との相違点を重点に説明し、各実施例間の同じまたは類似部分は互いに参照すればよい。システムの実施例は、方法の実施例に基本的に対応するため、記述したものが比較的簡単で、その関連部分は方法の実施例の一部の説明を参照すればよい。

本願の方法および装置は様々な方式で実現し得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせで本願の方法および装置を実現できる。前記方法のステップに付けられる上記順序は説明するためのものに過ぎず、本願の方法のステップは、特に断らない限り、以上に具体的に記述した順序に限定されない。また、いくつかの実施例では、本願を記録媒体に記録されたプログラムとして実施してもよく、これらのプログラムは本願に係る方法を実現するための機械可読命令を含む。従って、本願は本願に係る方法を実行するためのプログラムを記憶する記録媒体をも包含する。

本願の記述は例示および説明のためのもので、漏れがないものまたは開示した形式に本願を限定するものではない。様々な修正および変形は、当業者にとって自明である。選択および記述した実施例は、本願の原理および実際の適用をより効果的に説明し、かつ当業者に本願を理解させて特定の用途に適する様々な修正付きの様々な実施例を設計するためのものである。

Claims

セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得ることと、
畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得ることであって、前記少なくとも二つの画像は、少なくとも一つの前記ラベル付けされていない画像および少なくとも一つの前記ラベル付けされた画像を含み、前記少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている、ことと、
少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練することと、を含むことを特徴とする、セマンティックセグメンテーションモデルの訓練方法。
少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練するステップは、
サブ画像間のカテゴリ関係に基づき、パッチグラフを作成することであって、前記パッチグラフが、前記サブ画像を含むノードおよび任意の二つの前記サブ画像間の特徴距離を含むリンクを含むことと、
前記セマンティックセグメンテーションモデルを訓練し、前記パッチグラフにおいて、カテゴリが同じである二つのサブ画像間の特徴距離を第一所定値よりも小さくし、カテゴリが異なる二つのサブ画像間の特徴距離を第二所定値よりも大きくすることと、を含むことを特徴とする、請求項１に記載の方法。
サブ画像間のカテゴリ関係に基づいてパッチグラフを作成するステップは、
少なくとも一つのサブ画像を基準ノードとして選択し、少なくとも一つの基準ノードのそれぞれに対して、
前記基準ノードと同じカテゴリのサブ画像を正の相関関係があるノードとし、前記基準ノードと異なるカテゴリのサブ画像を負の相関関係があるノードとし、前記基準ノードと少なくとも一つの前記正の相関関係があるノードとの間で正相関接続をそれぞれ確立し、前記基準ノードと少なくとも一つの前記負の相関関係があるノードとの間で負相関接続をそれぞれ確立することと、
少なくとも一つの前記基準ノード、前記基準ノードの前記正の相関関係があるノード、前記基準ノードの前記負の相関関係があるノード、前記正相関接続および前記負相関接続によって、疎接続された前記パッチグラフを形成することと、を含むことを特徴とする、請求項２に記載の方法。
前記セマンティックセグメンテーションモデルを訓練する前記ステップは、
勾配バックプロパゲーションアルゴリズムによって、前記セマンティックセグメンテーションモデルを訓練し、それによって前記畳み込みニューラルネットワークの誤差を最小化することを含み、前記誤差は、前記畳み込みニューラルネットワークに基づいて得られた、対応するサブ画像の特徴のトリプレット損失であることを特徴とする、請求項２または３に記載の方法。
勾配バックプロパゲーションアルゴリズムによって、前記セマンティックセグメンテーションモデルを訓練する前記ステップは、
作成した前記パッチグラフにおけるサブ画像間の特徴距離に基づいて、損失関数計算によって最大誤差を得て、前記最大誤差を勾配バックプロパゲーションすることによって、前記畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することと、
前記少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、前記勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを補正することと、
パラメータ最適化後の畳み込みニューラルネットワークによって出力されるサブ画像間の距離に基づいて誤差を算出し、前記誤差を最大誤差とすることと、
前記最大誤差を勾配バックプロパゲーションすることによって、前記畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することを反復実行することと、
前記少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、前記勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを、前記最大誤差が所定値以下になるまで補正することと、を含むことを特徴とする、請求項４に記載の方法。
セマンティックセグメンテーションモデルを訓練する前記ステップは、
前記畳み込みニューラルネットワークの訓練結果に基づいて前記畳み込みニューラルネットワークのパラメータを得ることと、
得られたた前記畳み込みニューラルネットワークのパラメータに基づいて、前記セマンティックセグメンテーションモデルにおけるパラメータを初期化することと、を含むことを特徴とする、請求項４から５のいずれか一項に記載の方法。
畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得る前記ステップは、
所定の大きさの選択ボックスが前記少なくとも二つの画像において移動することに応じて、選択ボックス内の画素を判別し、前記選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値以上である場合、前記選択ボックス内の画像をサブ画像として出力し、前記サブ画像を前記カテゴリとしてラベル付けることと、
前記畳み込みニューラルネットワークによって前記サブ画像に対応する特徴を得ることと、を含むことを特徴とする、請求項１から６のいずれか一項に記載の方法。
さらに、前記選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値よりも小さい場合、前記選択ボックスを破棄することを含むことを特徴とする、請求項７に記載の方法。
畳み込みニューラルネットワークによって前記サブ画像に対応する特徴を得る前記ステップは、
畳み込みニューラルネットワークによって前記ラベル付けされていない画像および前記ラベル付けされた画像の特徴をそれぞれ抽出し、前記ラベル付けされていない画像および前記ラベル付けされた画像に対応する特徴マップを取得することと、
前記サブ画像に対応する選択ボックスの位置および大きさに基づき、対応する特徴マップから対応する前記選択ボックス内の特徴を得て、前記サブ画像に対応する特徴を特定することと、を含むことを特徴とする、請求項７または８に記載の方法。
セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行うステップの前に、さらに、
ランダム勾配降下法を使用して前記セマンティックセグメンテーションモデルを、所定の収束条件を満たすまで訓練することを含むことを特徴とする、請求項１から９のいずれか一項に記載の方法。
畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得るステップの前に、さらに、
ランダム勾配降下法を使用して前記畳み込みニューラルネットワークを、所定の収束条件を満たすまで訓練することを含むことを特徴とする、請求項１から１０のいずれか一項に記載の方法。
セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得るためのセグメンテーション部と、
畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得るためのサブ画像抽出部であって、前記少なくとも二つの画像は、少なくとも一つの前記ラベル付けされていない画像および少なくとも一つの前記ラベル付けされた画像を含み、前記少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている、サブ画像抽出部と、
少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練するための前記ラベル付けされた画像の訓練部と、を含む、ことを特徴とする、セマンティックセグメンテーションモデルの訓練装置。
前記訓練部は、
サブ画像間のカテゴリ関係に基づき、パッチグラフを作成するためのパッチグラフ作成モジュールであって、前記パッチグラフが、前記サブ画像を含むノードおよび任意の二つの前記サブ画像間の特徴距離を含むリンクを含むパッチグラフ作成モジュールと、
前記セマンティックセグメンテーションモデルを訓練し、前記パッチグラフにおいて、カテゴリが同じである二つのサブ画像間の特徴距離を第一所定値よりも小さくし、カテゴリが異なる二つのサブ画像間の特徴距離を第二所定値よりも大きくするためのモデル訓練モジュールと、を含むことを特徴とする、請求項１２に記載の装置。
前記パッチグラフ作成モジュールは、
少なくとも一つのサブ画像を基準ノードとして選択するための基準選択モジュールと、
少なくとも一つの基準ノードのそれぞれに対して、前記基準ノードと同じカテゴリのサブ画像を正の相関関係があるノードとし、前記基準ノードと異なるカテゴリのサブ画像を負の相関関係があるノードとし、前記基準ノードと少なくとも一つの前記正の相関関係があるノードとの間で正相関接続をそれぞれ確立し、前記基準ノードと少なくとも一つの前記負の相関関係があるノードとの間で負相関接続をそれぞれ確立するための接続関係確立モジュールと、
少なくとも一つの前記基準ノード、前記基準ノードの前記正の相関関係があるノード、前記基準ノードの前記負の相関関係があるノード、前記正相関接続および前記負相関接続によって、疎接続された前記グラフを形成するための接続グラフ作成モジュールと、を含むことを特徴とする、請求項１３に記載の装置。
前記モデル訓練モジュールは、
勾配バックプロパゲーションアルゴリズムによって、前記セマンティックセグメンテーションモデルを訓練し、それによって前記畳み込みニューラルネットワークの誤差を最小化するためのネットワーク訓練モジュールを含み、前記誤差は、前記畳み込みニューラルネットワークに基づいて得られた、対応するサブ画像の特徴のトリプレット損失であることを特徴とする、請求項１３から１４のいずれか一項に記載の装置。
前記ネットワーク訓練モジュールは具体的に、
前記作成したパッチグラフにおけるサブ画像間の特徴距離に基づいて損失関数計算によって最大誤差を得て、
最大誤差を勾配バックプロパゲーションすることによって、前記畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算し、
前記少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、前記勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを補正し、
パラメータ最適化後の畳み込みニューラルネットワークによって出力されるサブ画像間の距離に基づいて誤差を算出し、前記誤差を最大誤差とし、
最大誤差を勾配バックプロパゲーションすることによって、前記畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することを反復実行し、前記少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、前記勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを、前記最大誤差が所定値以下になるまで補正するために用いられることを特徴とする、請求項１５に記載の装置。
前記モデル訓練モジュールはさらに、
前記畳み込みニューラルネットワークの訓練結果に基づいて前記畳み込みニューラルネットワークのパラメータを得て、得られた前記畳み込みニューラルネットワークのパラメータに基づいて、前記セマンティックセグメンテーションモデルにおけるパラメータを初期化するためのセグメンテーションモデル訓練モジュールを含むことを特徴とする、請求項１５から１６のいずれか一項に記載の装置。
前記サブ画像抽出部は、所定の大きさの選択ボックスが前記少なくとも二つの画像において移動することに応じて、選択ボックス内の画素を判別し、前記選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値以上である場合、前記選択ボックス内の画像をサブ画像として出力し、前記サブ画像を前記カテゴリとしてラベル付け、前記畳み込みニューラルネットワークによって前記サブ画像に対応する特徴を得るために用いられることを特徴とする、請求項１２から１７のいずれか一項に記載の装置。
前記サブ画像抽出部はさらに、前記選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値よりも小さい場合、前記選択ボックスを破棄するために用いられることを特徴とする、請求項１８に記載の装置。
前記サブ画像抽出部は、前記畳み込みニューラルネットワークによって前記サブ画像に対応する特徴を得ようとする場合、畳み込みニューラルネットワークによって前記ラベル付けされていない画像および前記ラベル付けされた画像の特徴をそれぞれ抽出し、前記ラベル付けされていない画像および前記ラベル付けされた画像に対応する特徴マップを取得し、前記サブ画像に対応する選択ボックスの位置および大きさに基づき、前記ラベル付けされた画像に対応する特徴マップから対応する前記選択ボックス内の特徴を得て、前記サブ画像に対応する特徴を特定するために用いられることを特徴とする、請求項１８または１９に記載の装置。
前記装置はさらに、ランダム勾配降下法を使用して前記セマンティックセグメンテーションモデルを、所定の収束条件を満たすまで訓練するためのモデル微調整部を含むことを特徴とする、請求項１２から２０のいずれか一項に記載の装置。
前記装置はさらに、ランダム勾配降下法を使用して前記畳み込みニューラルネットワークを、所定の収束条件を満たすまで訓練するためのネットワーク微調整部を含むことを特徴とする、請求項１２から２１のいずれか一項に記載の装置。
請求項１２から２２のいずれか一項に記載のセマンティックセグメンテーションモデルの訓練装置を含むプロセッサを含むことを特徴とする、電子機器。
実行可能命令を記憶するためのメモリ、および
前記メモリと通信して前記実行可能命令を実行することで請求項１から１１のいずれか一項に記載のセマンティックセグメンテーションモデルの訓練方法の操作を実行するためのプロセッサを含むことを特徴とする、電子機器。
コンピュータ読み取り可能な命令を記憶するためのコンピュータ記憶媒体であって、前記命令が実行される時に請求項１から１１のいずれか一項に記載のセマンティックセグメンテーションモデルの訓練方法の操作を実行することを特徴とする、コンピュータ記憶媒体。
機器において動作される時、前記機器内のプロセッサが請求項１から１１のいずれか一項に記載のセマンティックセグメンテーションモデルの訓練方法における各ステップを実現するための命令を実行するコンピュータ読み取り可能コードを含むことを特徴とする、コンピュータプログラム。