JP2020524858A

JP2020524858A - セマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス、プログラム及び記憶媒体

Info

Publication number: JP2020524858A
Application number: JP2019570957A
Authority: JP
Inventors: 健宗王; 晨羽王; ▲迸▼ ▲馬▼; 京肖
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-04-20
Filing date: 2018-07-13
Publication date: 2020-08-20
Anticipated expiration: 2038-07-13
Also published as: CN108830277B; JP7107976B2; US11398034B2; WO2019200758A1; SG11202002078UA; CN108830277A; US20200294240A1

Abstract

本発明は、セマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス、プログラム及び記憶媒体を提供する。そのうち、方法は、訓練サンプル集合を構築するというステップと、前記訓練サンプル集合をディープネットワークモデル中に入力して訓練を行うというステップと、また重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するというステップと、セマンティックセグメンテーションモデルを構築するというステップと、を含む。本発明は、訓練効率を向上させる。

Description

本発明は、２０１８年４月２０日に中国特許局に提出し、申請番号が２０１８１０３６２２０７．１であり、その名称が「セマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス及び記憶媒体」であり、その優先権の全部の内容が引用により本出願に含まれている。

本発明は、コンピュータ技術分野に関し、特にセマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス、プログラム及び記憶媒体に関する。

画像セマンティックセグメンテーションの意味は、例えば、人がオートバイを運転する写真からオートバイ及び人をそれぞれ分割するように装置が画像を自動的に分割してかつ画像の内容を識別することである。画像に対してセマンティックセグメンテーションを行う際、画像を分割するためにセグメンテーションマスク（ｓｅｇｍｅｎｔａｔｉｏｎｍａｓｋ）を取得する必要がある。今のところ、境界ボックスによりセグメンテーションマスクを導くことができないため、訓練する際に、画像に対して分割を実現するために、全ての実例にセグメンテーションマスクを標記する必要がある。

従来のセマンティックセグメンテーションは、全ての訓練実例にセグメンテーションマスクを標記する、つまり各ピクセルに対して標記を行うことを要求するため、新しい種類を注釈するコストが高くなり、また実例分割モデルを約１００個の詳細に注釈した種類（つまりせいぜい１００個の種類にセグメンテーションマスクを標記する）に限定する。このようなセマンティックセグメンテーション方法は、コストが高すぎ、１００種類になると、訓練サンプルの作成及び訓練計算力の両方でも圧力が大きくなる。今まで最大の実例分割の公開したデータ集合に８０種類しかなく、コストが高すぎるため、幅広く押し広めることに適しない。

本発明の目的は、セマンティックセグメンテーションモデルを訓練する際にコストが高すぎるという欠陥を克服するために、セマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス、プログラム及び記憶媒体を提供することにある。

本発明が提供したセマンティックセグメンテーションモデルの訓練方法は、上記の目的を実現するために、以下のステップを含む：
訓練サンプル集合を構築する。前記訓練サンプル集合は、第１種類物体と、第２種類物体と、を含む。そのうち、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスが標記されている。
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第１種類物体の第１境界ボックスパラメータ、第１マスクパラメータ及び前記第２種類物体の第２境界ボックスパラメータを訓練する。前記第１境界ボックスパラメータ及び第１マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練する。

前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築する。
本発明が提供したセマンティックセグメンテーションモデルの訓練装置は、
第１構築手段と、
訓練手段と、
第２構築手段と、を含む。

第１構築手段は、訓練サンプル集合を構築するためのものである。前記訓練サンプル集合は、第１種類物体と、第２種類物体と、を含む。そのうち、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスが標記されている。
訓練手段は、前記訓練サンプル集合をディープネットワークモデル中に入力して前記第１種類物体の第１境界ボックスパラメータ、第１マスクパラメータ及び前記第２種類物体の第２境界ボックスパラメータを訓練し、前記第１境界ボックスパラメータ及び第１マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するためのものである。

第２構築手段は、前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するためのものである。

さらに、本発明が提供したコンピュータデバイスは、プロセッサと、メモリとを含む。
前記メモリにコンピュータ可読命令即ちコンピュータープログラムが記憶されている。
前記プロセッサは、前記コンピュータ可読命令を実行する際に上記の方法のステップを実現する。
本発明は、さらにコンピュータ不揮発性可読記憶媒体を提供する。それにコンピュータ可読命令が記憶されている。
前記コンピュータ可読命令は、前記プロセッサに実行される際に上記の方法のステップを実現する。

本発明が提供したセマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス、プログラム及び記憶媒体において、構築した訓練サンプル集合は、第１種類物体と、第２種類物体と、を含む。そのうち、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスが標記されている。全ての種類物体に分割マスクを標記する必要がないため、訓練サンプル集合の標記コストを大幅に削減し、また後続訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。前記訓練サンプル集合をディープネットワークモデル及び重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するため、ある種類物体の境界ボックスによりそのマスクパラメータを予測し、該種類物体に対してセマンティックセグメンテーションを行うことができ、分割コストが低い。

本発明の実施例によるセマンティックセグメンテーションモデルの訓練方法のステップ概略図である。本発明の他の実施例によるセマンティックセグメンテーションモデルの訓練方法のステップ概略図である。本発明の実施例によるセマンティックセグメンテーションモデルの訓練装置の構造ブッロク図である。本発明の他の実施例によるセマンティックセグメンテーションモデルの訓練装置の構造ブッロク図である。本発明の他の実施例における分割部の構造ブッロク図である。実施例によるコンピュータデバイスの構造ブッロク図である。

図１に示されているように、本発明の実施例によるセマンティックセグメンテーションモデルの訓練方法は、以下のステップを含む：
ステップＳ１は、訓練サンプル集合を構築することである。前記訓練サンプル集合は、第１種類物体と、第２種類物体と、を含む。そのうち、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスが標記されている。

境界ボックスの標記は、ボックスで対象物体を注釈することである。セグメンテーションマスクの標記（マスク注釈）は、１つの物体に対してその輪郭を標記することである。相対的に言えば、境界ボックスの注釈を標記し易いため、コストが低い一方、マスクの注釈を標記しにくいため、標記コストが高い。

従来のセマンティックセグメンテーション現状から分かるように、画像に対してセマンティックセグメンテーションを行えば、該画像中の各種類物体のセグメンテーションマスクを取得する必要がある。セグメンテーションマスクを取得するために、予め訓練して該種類物体に対応したマスクパラメータを取得する必要がある。マスクパラメータは、訓練サンプル集合の画像に対してセグメンテーションマスクを標記してかつ訓練サンプル集合をディープネットワークモデル中に入力することにより取得されることができる。簡単に言えば、セマンティックセグメンテーション対象の画像にある物体種類が人及び木であれば、訓練サンプル集合に人及び木のセグメンテーションマスクを注釈して訓練を行い、人及び木のマスクパラメータを取得し、その後にセマンティックセグメンテーション対象の画像に人及び木に対して分割を行う必要がある。つまり、セマンティックセグメンテーション対象の画像中の各種類に対して、訓練サンプルを作成する際にセグメンテーションマスクを標記する必要がある。しかし、自然界の物体種類が様々であるため、マスク注釈のコストが高すぎ、全部種類の物体を標記することができない（今までせいぜい８０種類を標記することができる）。

本ステップＳ１において、前記訓練サンプル集合は、大量の物体種類を備える。例えば、１つの画像にある物体種類は、人、木、車、列車等の大量の種類の物体を含む場合、訓練サンプル集合中の物体種類が多ければ、後続セマンティックセグメンテーションモデルが画像に対してセマンティックセグメンテーションを行い易くなる。本実施例における第１種類物体及び第２種類物体は、単に１種類の物体を指すことではなく、一連の物体の意味である。つまり、第１種類物体及び第２種類物体の種類が複数である。第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスのみが標記されているという条件を満たせば済む。

一実施例において、前記第２種類物体の数が前記第１種類物体の数より遥かに多い。少量の第１種類物体の場合、訓練コストを削減する。具体的な実施例において、例えば、訓練サンプル集合は１００種類の物体を含む。ステップＳ１の訓練サンプル集合の構築方法に基づき、その中の２０種類のみの物体に対して境界ボックス及びセグメンテーションマスクを標記し、残りの８０種類の物体に対して境界ボックスのみを標記すればよい。従来技術に１００種類の物体に対して全部境界ボックス及びセグメンテーションマスクを標記することに対して、８０種類の物体にセグメンテーションマスクを少なく標記するため、標記コストを大幅に削減する。

本実施例において、構築した訓練サンプル集合は、第１種類物体と、第２種類物体と、を含む。その中に、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスのみが標記されている。該訓練サンプル集合は、完全注釈データ（セグメンテーションマスクを有する種類）と弱注釈データ（境界ボックスのみを有する種類）との混合であるため、該訓練サンプル集合に基づいて訓練を行うタスクを部分的監督タスクと呼ぶ。本発明の実施例中のセマンティックセグメンテーションモデルの訓練方法は、実際に部分的監督学習に基づくセマンティックセグメンテーション訓練の方法である。部分的監督学習の訓練サンプル集合の主な長所は、２種類の既存のデータ集合により大規模の実例分割モデルを構築することができることである。
要約すると、本実施例に構築した訓練サンプル集合に一部種類のみの物体にセグメンテーションマスクを標記だけで、全部種類の物体にセグメンテーションマスクを標記する必要がないため、訓練サンプル集合の標記コストを大幅に削減し、また後続訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。

ステップＳ２は、前記訓練サンプル集合をディープネットワークモデル中に入力して前記第１種類物体の第１境界ボックスパラメータ、第１マスクパラメータ及び前記第２種類物体の第２境界ボックスパラメータを訓練する。前記第１境界ボックスパラメータ及び第１マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練することである。

本ステップＳ２において、上記の構築された訓練サンプル集合をディープネットワークモデル中に入力し、第１種類物体に標記した境界ボックス及びセグメンテーションマスクにより訓練を行い、それに対応した第１境界ボックスパラメータ、第１マスクパラメータを取得し、第２種類物体に標記した境界ボックスにより訓練を行い、それに対応した第２境界ボックスパラメータを取得する。本実施例において、ディープネットワークモデルを訓練する同時に、また重み伝達関数を訓練した。重み伝達関数は、図の種類の境界ボックスパラメータに基づいて種類のセグメンテーションマスクパラメータ（つまり、実例の分割パラメータである）を予測するように訓練され、ＭａｓｋＲ−ＣＮＮにマスク注釈を有する種類を使って監督学習のデータとしてエンドツーエンドの訓練を行うことができる。推理する際に、重み伝達関数は、各種類の実例の分割パラメータを予測するためのものであり、セマンティックセグメンテーションモデルに訓練際にマスク注釈がない対象種類（例えば、第２種類物体）を含む全部対象の種類を分割させることができる。

具体的に、上記の重み伝達関数は、上記の第１境界ボックスパラメータ、第１マスクパラメータにより境界ボックス予測マスクパラメータを訓練する。該境界ボックス予測マスクパラメータは、ある種類物体の境界ボックスによりそれに対応したマスクの１つのパラメータを予測することを指す。訓練により該パラメータを取得した後、分割対象の画像に対してセマンティックセグメンテーションを行う際に、それに対応した境界ボックスを予測し、また境界ボックスによりそのマスクパラメータを予測することにより、セマンティックセグメンテーションを実現し、具体的な実現過程は、以下の実施例に詳細に説明されるため、ここに再び説明する必要がない。

構築した訓練サンプル集合に一部種類のみの物体にセグメンテーションマスクを標記するため、本ステップの訓練過程において、訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。
ステップＳ３は、前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータをディープネットワークモデル及び重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築することである。

上記の第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータは、つまり本実施例中のセマンティックセグメンテーションモデルの訓練パラメータである。セマンティックセグメンテーションモデルを使って画像に対してセマンティックセグメンテーションを行う場合、該画像の各種類物体のセグメンテーションマスクを取得する必要がある。セグメンテーションマスクを取得するために、予め訓練して該種類物体に対応したマスクパラメータ（つまり既存のセマンティックセグメンテーションモデル中の訓練パラメータである）を取得する必要がある。つまり、画像に対してセマンティックセグメンテーションを行うためのセマンティックセグメンテーションモデルを取得するために、マスクパラメータを取得する必要がある。上記のステップＳ１に説明したように、対応したマスクパラメータを取得するためにマスク注釈を直接に行う訓練コストがより高い。従って、本実施例において、訓練により取得した訓練パラメータは、第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータである。上記の訓練パラメータを対応的にディープネットワークモデル及び重み伝達関数中に入力し、画像に対するセマンティックセグメンテーションに適用するセマンティックセグメンテーションモデルを構築する。

図２に示されているように、一実施例において、前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するという上記のステップＳ３後、
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するというステップＳ４を含む。

具体的に、分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するというステップＳ４は、以下を含む：
ａ、前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第１境界ボックスパラメータにより分割対象の画像中の第１種類物体の境界ボックスを予測し、また前記第２境界ボックスパラメータにより分割対象の画像中の第２種類物体の境界ボックスを予測する。
本ステップａにおいて、分割対象の画像をセマンティックセグメンテーションモデル中に入力し、分割対象の画像中の第１種類物体及び第２種類物体の境界ボックスを直接に予測することができる。

ｂ、前記第１種類物体の境界ボックス、第２種類物体の境界ボックス及び前記境界ボックス予測マスクパラメータにより前記分割対象の画像中の第１種類物体及び第２種類物体のマスクパラメータをそれぞれ予測することができる。
本ステップｂにおいて、上記のステップａに予測した第１種類物体の境界ボックス、第２種類物体の境界ボックスを重み伝達関数に入力して計算を行い、前記分割対象の画像中の第１種類物体及び第２種類物体のマスクパラメータを予測することができる。

ｃ、前記分割対象の画像中の第１種類物体及び第２種類物体のマスクパラメータにより前記分割対象の画像中の第１種類物体及び第２種類物体に対して画像セマンティックセグメンテーションを行う。
上述ステップｂに分割対象の画像における第１種類物体及び第２種類物体のマスクパラメータを取得した後、本ステップｃに分割対象の画像中の第１種類物体及び第２種類物体に対応したセグメンテーションマスクを取得し、その後にセグメンテーションマスクにより分割対象の画像に対して画像セマンティックセグメンテーションを行う。

一実施例において、前記ディープネットワークモデルは、Ｍａｓｋ−ＲＣＮＮ型ネットワークモデルである。ＭａｓｋＲ−ＣＮＮ型ネットワークモデルは、既存のモデルであり、ＦａｓｔｅｒＲ−ＣＮＮ型の拡張であり、それが持って境界ボックスを識別するためのブランチに並行して対象マスクを予測するためのブランチを添加するネットワークモデルである。ＭａｓｋＲ−ＣＮＮは、２つのブランチを含み、１つのブランチが境界ボックス予測ブランチであり、他の１つがマスク予測ブランチである。ＭａｓｋＲ−ＣＮＮにおいて、境界ボックス予測ブランチの最後の一層及びマスク予測ブランチの最後の一層は、いずれも各種類に境界ボックス分類を実行する及び実例マスクを予測するタスクに使用された種類パラメータ（境界ボックスパラメータ、マスクパラメータを含む）を含む。例えば、境界ボックス予測ブランチにより境界ボックスに基づいてその境界ボックスパラメータを予測し、マスク予測ブランチによりセグメンテーションマスクに基づいて対応したマスクパラメータを予測することができる。

上記のＭａｓｋＲ−ＣＮＮ方法は、実際にある種類の境界ボックスパラメータ及びマスクパラメータをそれぞれ学習することである。本実施例において、Ｍａｓｋ−ＲＣＮＮ型ネットワークモデルを訓練する同時に、また重み伝達関数を訓練する。具体的に、境界ボックスブランチの最後の一層とマスクブランチの最後の一層との間に上記の重み伝達関数を訓練する。上記の訓練サンプル集合をＭａｓｋＲ−ＣＮＮ型ネットワーク中に出力する同時に、損失関数が収束するまで重み伝達関数を使って訓練を行えば、本実施例中のセマンティックセグメンテーションモデルの訓練パラメータを取得する。

具体的に、上記の重み伝達関数は、以下の式に表れており

そのうち、τは、伝達関数であり、ω_clsは、種類の重みであり、ω_boxは、境界ボックスの重みであり、ω_detは、併合ベクトルであり、θは、種類不明な学習パラメータであり、ω_segは、境界ボックス予測マスクパラメータである。

本実施例において、上記の重み伝達関数は、二層の全接続ニューラルネットワークである。
その中、二層の全接続層のニューロンの数は、それぞれ５１２０、２５６である。それが使用した活性化関数は、ＬｅａｋｙＲｅＬＵである。該活性化関数は、非線形、微分可能、単調性等の特徴を有する。

一実施例において、セマンティックセグメンテーションモデルを使って分割対象の画像に対してセマンティックセグメンテーションを行った、つまり物体輪郭を表示した後、異なるＲＧＢ色で異なる種類の物体を標記し、ハイライト表示を行い、かつ隣接した物体間に差異性が大きいＲＧＢ色を充填する。または物体輪郭及び背景に基づき、該物体の種類を識別し、且つデータベースから対応した（近い／類似する）写真を使用して分割した該物体を充填する。

他の一実施例において、セマンティックセグメンテーションモデルを使って分割対象の画像に対してセマンティックセグメンテーションを行った、つまり物体輪郭を表示した後、各物体に対応した部分を単独で切り取り、新しい図層を生成し、つまり、各物体に対応的に１枚の写真を生成する。最後にまた図層に対応した１つの背景を選らばれた図層とを合成させる。

要約すると、本実施例によるセマンティックセグメンテーションモデルの訓練方法において、構築した訓練サンプル集合は、第１種類物体と、第２種類物体と、を含む。その中に、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスのみが標記されている。全ての種類物体に分割マスクを標記する必要がないため、訓練サンプル集合の標記コストを大幅に削減し、また後続訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。訓練サンプル集合をディープネットワークモデル及び重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するため、ある種類物体の境界ボックスによりそのマスクパラメータを予測し、該種類物体に対してセマンティックセグメンテーションを行うことができ、分割コストが低くなる。

図３に示されているように、本発明がさらに提供したセマンティックセグメンテーションモデルの訓練装置は、以下を含む：
第１構築部１０は、訓練サンプル集合を構築するためのものである。前記訓練サンプル集合は、第１種類物体と、第２種類物体と、を含む。そのうち、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスが標記されている。
境界ボックスの標記は、ボックスで対象物体を注釈することである。セグメンテーションマスクの標記（マスク注釈）は、１つの物体に対してその輪郭を標記することである。相対的に言えば、境界ボックスの注釈を標記し易いため、コストが低い一方、マスクの注釈を標記しにくいため、標記コストが高い。

従来のセマンティックセグメンテーション現状から分かるように、１枚の画像に対してセマンティックセグメンテーションを行えば、該画像中の各種類物体のセグメンテーションマスクを取得する必要がある。セグメンテーションマスクを取得するために、予め訓練して該種類物体に対応したマスクパラメータを取得する必要がある。マスクパラメータは、訓練サンプル集合の画像に対してセグメンテーションマスクを標記してかつ訓練サンプル集合をディープネットワークモデル中に入力することにより取得されることができる。簡単に言えば、セマンティックセグメンテーション対象の画像にある物体種類が人及び木であれば、訓練サンプル集合に人及び木のセグメンテーションマスクを注釈して訓練を行い、人及び木のマスクパラメータを取得し、その後にセマンティックセグメンテーション対象の画像に人及び木に対して分割を行う必要がある。つまり、セマンティックセグメンテーション対象の画像中の各種類に対して、訓練サンプルを作成する際に対応した種類のセグメンテーションマスクを標記する必要がある。しかし、自然界の物体種類が様々であるため、マスク注釈のコストが高すぎ、全部の種類の物体を標記することができない（今までせいぜい８０種類を標記することができる）。

本実施例において、第１構築部１０が構築した前記訓練サンプル集合は、大量の物体種類を含む。例えば、１枚の画像にある物体種類は、人、木、車、列車等の大量の種類の物体を含む場合、訓練サンプル集合中の物体種類が多ければ、後続セマンティックセグメンテーションモデルが画像に対してセマンティックセグメンテーションを行い易くなる。本実施例中の第１種類物体及び第２種類物体は、単に１種類の物体を指すことではなく、一連の物体を表示することである。つまり、第１種類物体及び第２種類物体の種類が複数である。第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスのみが標記されているという条件を満たせば済む。

一実施例において、前記第２種類物体の数が前記第１種類物体の数より遥かに多い。少量の第１種類物体の場合、訓練コストを削減する。具体的な実施例において、例えば、訓練サンプル集合は１００種類の物体を含む。第１構築部１０が訓練サンプル集合を構築する過程に基づき、その中の２０種類のみの物体に対して境界ボックス及びセグメンテーションマスクを標記し、残りの８０種類の物体に対して境界ボックスのみを標記すればよい。従来技術に１００種類の物体に対して全部境界ボックス及びセグメンテーションマスクを標記することに対して、８０種類の物体にセグメンテーションマスクを少なく標記するため、標記コストを大幅に削減する。

本実施例において、構築した訓練サンプル集合は、第１種類物体と、第２種類物体と、を含む。その中に、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスのみが標記されている。該訓練サンプル集合は、完全注釈データ（セグメンテーションマスクを有する種類）と弱注釈データ（境界ボックスのみを有する種類）との混合であるため、該訓練サンプル集合に基づいて訓練を行うタスクを部分的監督タスクと呼ぶ。本発明の実施例中のセマンティックセグメンテーションモデルの訓練方法は、実際に部分的監督学習に基づくセマンティックセグメンテーション訓練の方法である。部分的監督学習の訓練サンプル集合の主な長所は、２種類の既存のデータ集合により大規模の実例分割モデルを構築することができることである。

要約すると、本実施例に構築した訓練サンプル集合に一部種類のみの物体にセグメンテーションマスクを標記し、全部種類の物体にセグメンテーションマスクを標記する必要がないため、訓練サンプル集合の標記コストを大幅に削減し、また後続訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。

訓練部２０は、前記訓練サンプル集合をディープネットワークモデル中に入力して前記第１種類物体の第１境界ボックスパラメータ、第１マスクパラメータ及び前記第２種類物体の第２境界ボックスパラメータを訓練し、前記第１境界ボックスパラメータ及び第１マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するためのものである。

本実施例において、訓練部２０は、上記の第１構築部１０が構築した訓練サンプル集合をディープネットワークモデル中に入力し、第１種類物体に標記した境界ボックス及びセグメンテーションマスクにより訓練を行い、それに対応した第１境界ボックスパラメータ、第１マスクパラメータを取得し、第２種類物体に標記した境界ボックスにより訓練を行い、それに対応した第２境界ボックスパラメータを取得する。本実施例において、ディープネットワークモデルを訓練する同時に、また重み伝達関数を訓練する。重み伝達関数は、写真の種類の境界ボックスパラメータに基づいて種類のセグメンテーションマスクパラメータ（つまり、実例の分割パラメータである）を予測するように訓練され、ＭａｓｋＲ−ＣＮＮにマスク注釈を有する種類を使って監督学習のデータとしてエンドツーエンドの訓練を行うことができる。推理する際に、重み伝達関数は、各種類の実例の分割パラメータを予測するためのものであり、セマンティックセグメンテーションモデルに訓練する際にマスクの注釈がない対象種類（例えば、第２種類物体）を含む全部対象の種類を分割させることができる。

具体的に、上記の重み伝達関数は、上記の第１境界ボックスパラメータ、第１マスクパラメータにより境界ボックス予測マスクパラメータを訓練する。該境界ボックス予測マスクパラメータは、ある種類物体の境界ボックスによりそれに対応したマスクの１つのパラメータを予測することを指す。訓練により該パラメータを取得した後、分割対象の画像に対してセマンティックセグメンテーションを行う際に、それに対応した境界ボックスを予測し、また境界ボックスによりそのマスクパラメータを予測することにより、セマンティックセグメンテーションを実現し、具体的な実現過程は、下記の実施例に詳細に説明されるため、ここに再び説明する必要がない。

構築した訓練サンプル集合に一部種類のみの物体にセグメンテーションマスクを標記するため、本ステップの訓練過程において、訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。
第２構築部３０は、前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するためのものである。

上記の第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータは、つまり本実施例中のセマンティックセグメンテーションモデルの訓練パラメータである。セマンティックセグメンテーションモデルを使って１枚の画像に対してセマンティックセグメンテーションを行う場合、該画像の各種類物体のセグメンテーションマスクを取得する必要がある。セグメンテーションマスクを取得するために、予め訓練して該種類物体に対応したマスクパラメータ（つまり既存のセマンティックセグメンテーションモデル中の訓練パレメータである）を取得する必要がある。つまり、画像に対してセマンティックセグメンテーションを行うためのセマンティックセグメンテーションモデルを取得するために、マスクパラメータを取得する必要がある。上記の実施例に説明したように、対応したマスクパラメータを取得するためにマスク注釈を直接に行う訓練コストがわりに高い。従って、本実施例において、訓練により取得した訓練パラメータは、第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータである。上記の訓練パラメータを対応的にディープネットワークモデル及び前記重み伝達関数中に入力し、画像に対するセマンティックセグメンテーションに適用するセマンティックセグメンテーションモデルを構築する。

図４に示されているように、一実施例において、セマンティックセグメンテーションモデルの訓練装置は、さらに、
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するための分割部４０と、を含む。

図５に示されているように、具体的に、上記の分割部４０は、以下を含む：
第１予測モジュール４０１は、前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第１境界ボックスパラメータにより分割対象の画像中の第１種類物体の境界ボックスを予測し、また前記第２境界ボックスパラメータにより分割対象の画像中の第２種類物体の境界ボックスを予測するためのものである。
第１予測モジュール４０１は、分割対象の画像をセマンティックセグメンテーションモデル中に入力し、分割対象の画像中の第１種類物体及び第２種類物体の境界ボックスを直接に予測することができる。

第２予測モジュール４０２は、前記第１種類物体の境界ボックス、第２種類物体の境界ボックス及び前記境界ボックス予測マスクパラメータにより前記分割対象の画像中の第１種類物体及び第２種類物体のマスクパラメータをそれぞれ予測するためのものである。
第２予測モジュール４０２は、上記の第１予測モジュール４０１が予測した第１種類物体の境界ボックス、第２種類物体の境界ボックスを重み伝達関数に入力して計算を行い、前記分割対象の画像中の第１種類物体及び第２種類物体のマスクパラメータを予測することができる。
分割モジュール４０３は、前記分割対象の画像中の第１種類物体及び第２種類物体のマスクパラメータにより前記分割対象の画像中の第１種類物体及び第２種類物体に対して画像セマンティックセグメンテーションを行うためのものである。

上述第２予測モジュール４０２が分割対象の画像中の第１種類物体及び第２種類物体のマスクパラメータを取得した後、分割モジュール４０３は、分割対象の画像中の第１種類物体及び第２種類物体に対応したセグメンテーションマスクを取得し、その後にセグメンテーションマスクにより分割対象の画像に対して画像セマンティックセグメンテーションを行う。

一実施例において、前記ディープネットワークモデルは、Ｍａｓｋ−ＲＣＮＮ型ネットワークモデルである。ＭａｓｋＲ−ＣＮＮ型ネットワークモデルは、既存のモデルであり、ＦａｓｔｅｒＲ−ＣＮＮ型の拡張であり、それが境界ボックスを識別するためのブランチに並行して対象マスクを予測するためのブランチを添加するネットワークモデルである。ＭａｓｋＲ−ＣＮＮは、２つのブランチを含み、１つのブランチが境界ボックス予測ブランチであり、他の１つがマスク予測ブランチである。ＭａｓｋＲ−ＣＮＮにおいて、境界ボックス予測ブランチの最後の一層及びマスク予測ブランチの最後の一層は、いずれも各種類に境界ボックス分類を実行する及び実例マスクを予測するタスクに使用された種類パラメータ（境界ボックスパラメータ、マスクパラメータを含む）を含む。例えば、境界ボックス予測ブランチにより境界ボックスに基づいてその境界ボックスパラメータを予測し、マスク予測ブランチによりセグメンテーションマスクに基づいて対応したマスクパラメータを予測することができる。

具体的に、上記の重み伝達関数は、以下の式に表れており

そのうち、τは、伝達関数であり、ω_clsは、種類の重みであり、ω_boxは、境界ボックスの重みであり、ω_detは、併合ベクトルであり、θは、種類不明の学習パラメータであり、ω_segは、境界ボックス予測マスクパラメータである。

本実施例において、上記の重み伝達関数は、二層の全接続ニューラルネットワークである。
そのうち、二層の全接続層のニューロンの数は、それぞれ５１２０、２５６である。それが使用した活性化関数は、ＬｅａｋｙＲｅＬＵである。該活性化関数は、非線形、微分可能、単調性等の特徴を有する。
一実施例において、セマンティックセグメンテーションモデルを使って分割対象の画像に対してセマンティックセグメンテーションを行った、つまり物体輪郭を表示した後、異なるＲＧＢ色で異なる種類の物体を標記し、ハイライト表示を行い、かつ隣接した物体間に差異性が大きいＲＧＢ色を充填する。または物体輪郭及び背景に基づき、該物体の種類を識別し、かつデータベースから対応した（近い／類似する）写真を使用して分割した該物体を充填する。

他の実施例において、セマンティックセグメンテーションモデルを使って分割対象の画像に対してセマンティックセグメンテーションを行った、つまり物体輪郭を表示した後、各物体に対応した部分を単独で切り取り、新しい図層を生成し、つまり、各物体に対応的に１枚の写真を生成する。最後にまた図層に対応した１つの背景を選んで図層と合成させる。

要約すると、本実施例によるセマンティックセグメンテーションモデルの訓練装置において、構築した訓練サンプル集合は、第１種類物体と、第２種類物体と、を含む。そのうち、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスのみが標記されている。全ての種類物体に分割マスクを標記する必要がないため、訓練サンプル集合の標記コストを大幅に削減し、また後続訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。訓練サンプル集合をディープネットワークモデル及び重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するため、ある種類物体の境界ボックスによりそのマスクパラメータを予測し、該種類物体に対してセマンティックセグメンテーションを行うことができ、分割コストが低い。

図６に示されているように、本発明は、さらにコンピュータデバイスを提供した。該コンピュータデバイスは、サーバでもよく、その内部構造が図６に示されているようになる。該コンピュータデバイスは、システムバスにより接続されたプロセッサと、メモリと、ネットワークインターフェースと、データベースと、を含む。その中、該コンピュータデバイスのプロセッサは、計算及び制御能力を提供するためのものである。該コンピュータデバイスのメモリは、不揮発性記憶媒体と、内部メモリと、を含む。該不揮発性記憶媒体にオペレーティングシステム、コンピュータ可読命令及びデータベースが記憶されている。該内部メモリは、不揮発性記憶媒体に記憶されたオペレーティングシステム及びコンピュータ可読命令の実行のために環境を提供する。該コンピュータデバイスのデータベースは、セマンティックセグメンテーションモデル等のデータを記憶するためのものである。該コンピュータデバイスのネットワークインターフェースは、外部の端末とネットワークにより接続して通信するためのものである。該コンピュータ可読命令は、プロセッサに実行される際にセマンティックセグメンテーションモデルの訓練方法を実現する。

上記のプロセッサが上記のセマンティックセグメンテーションモデルの訓練方法を実行するステップは、以下を含む：
訓練サンプル集合を構築する。前記訓練サンプル集合は、第１種類物体と、第２種類物体と、を含む。そのうち、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスが標記されている。
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第１種類物体の第１境界ボックスパラメータ、第１マスクパラメータ及び前記第２種類物体の第２境界ボックスパラメータを訓練する。前記第１境界ボックスパラメータ及び第１マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練する。
前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータをディープネットワークモデル及び重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築する。

一実施例において、上記のプロセッサは、前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータをディープネットワークモデル及び重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するという前記ステップの後、
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するというステップを含む。

一実施例において、上記のプロセッサが分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するという上記のステップは、
前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第１境界ボックスパラメータにより分割対象の画像中の第１種類物体の境界ボックスを予測し、また前記第２境界ボックスパラメータにより分割対象の画像中の第２種類物体の境界ボックスを予測することと、
前記第１種類物体の境界ボックス、第２種類物体の境界ボックス及び前記境界ボックス予測マスクパラメータにより前記分割対象の画像中の第１種類物体及び第２種類物体のマスクパラメータをそれぞれ予測することと、
前記分割対象の画像中の第１種類物体及び第２種類物体のマスクパラメータにより前記分割対象の画像中の第１種類物体及び第２種類物体に対して画像セマンティックセグメンテーションを行うことと、を含む。

一実施例において、上記のディープネットワークモデルは、Ｍａｓｋ−ＲＣＮＮ型ネットワークモデルである。
一実施例において、上記の重み伝達関数は、以下の式に表れており

一実施例において、上記の重み伝達関数は、二層の全接続ニューラルネットワークである。
そのうち、二層の全接続層のニューロンの数は、それぞれ５１２０、２５６である。それが使用した活性化関数は、ＬｅａｋｙＲｅＬＵである。

一実施例において、上記の第２種類物体の数は、前記第１種類物体の数より多い。
当業者であれば、図６に示されている構造が、本発明の申請方案に関連する一部のブッロク図に過ぎず、本発明の申請方案に応用したコンピュータデバイスを制限するものではないという点を理解できることである。

本発明は、さらにコンピュータ不揮発性可読記憶媒体を提供する。
それにコンピュータ可読命令が記憶されている。
コンピュータ可読命令は、プロセッサによって実行される際にセマンティックセグメンテーションモデルの訓練方法を実現する。

具体的に、前記方法は、以下のステップを含む。
訓練サンプル集合を構築し、前記訓練サンプル集合は、第１種類物体と、第２種類物体と、を含み、その中に、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスが標記されている。
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第１種類物体の第１境界ボックスパラメータ、第１マスクパラメータ及び前記第２種類物体の第２境界ボックスパラメータを訓練する。前記第１境界ボックスパラメータ及び第１マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練する。
前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築する。

一実施例において、上記のプロセッサは、前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するという前記ステップの後、
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するというステップを含む。

一実施例において、上記の第２種類物体の数は、前記第１種類物体の数より多い。
要約すると、本実施例によるセマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス及び記憶媒体において、構築した訓練サンプル集合は、第１種類物体と、第２種類物体と、を含む。そのうち、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスのみが標記されている。全ての種類物体に分割マスクを標記する必要がないため、訓練サンプル集合の標記コストを大幅に削減し、また後続訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。訓練サンプル集合をディープネットワークモデル及び重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するため、ある種類物体の境界ボックスによりそのマスクパラメータを予測し、該種類物体に対してセマンティックセグメンテーションを行うことができ、分割コストが低い。

当業者であれば、上記の実施例方法中の全部または一部プロセスがコンピュータ可読命令が関連ハードウェアを命令することにより完成されることを理解すべきである。前記コンピュータ可読命令は、コンピュータ不揮発性可読記憶媒体中に記憶されてもよく、実行される際に上記の各方法の実施例のプロセスを含んでも良い。そのうち、本発明が提供した及び実施例に使用されたメモリ、記憶、データベース又は他の媒体に対する任意の引用は、いずれも不揮発性及び／又は揮発性メモリを含む。不揮発性メモリは、読取り専用メモリ（ＲＯＭ）、プログラム可能ＲＯＭ（ＰＲＯＭ）、電気的プログラム可能ＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）またはフラッシュメモリを含んでも良い。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）又は外部キャッシュメモリを含んでも良い。説明するためのものであり、制限するためのものではなく、ＲＡＭは、多種の形式、例えば、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、同期ＤＲＡＭ（ＳＤＲＡＭ）、倍速ＳＤＲＡＭ（ＳＳＲＳＤＲＡＭ）、エンハンスドＳＤＲＡＭ（ＥＳＤＲＡＭ）、シンクロナス（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、メモリバス（Ｒａｍｂｕｓ）直接ＲＡＭ（ＲＤＲＡＭ）、直接メモリバスダイナミックＲＡＭ（ＤＲＤＲＡＭ）、及びメモリバスダイナミックＲＡＭ（ＲＤＲＡＭ）等により取得されることができる。

本発明において、「含む」、「包含」又は任意の他の変体の専門用語は、カバーであり、排他性の包含ではなく、一連要素の過程、装置、部品又は方法を含み、それらの要素だけではなく、また明確に提出した他の要素、またはこの過程、装置、部品又は方法に対する固有要素を含む。さらなる制限がない情況下、「１つ……を含む」という表現が制限する要素は、該要素を含む過程、装置、部品又は方法中に他の同じ要素の存在を排除しない。

以上説明したのは、本発明の優れた実施例に過ぎず、本発明の特許範囲を制限するものではない。本発明の説明書及び図面内容を利用してなしたあらゆる等価構造又は等価プロセス変換は、他の関連技術分野に直接又は間接に応用される場合、本発明の保護範囲内に含まれるはずである。

１０第１構築部
２０訓練部
３０第２構築部
４０分割部
４０１第１予測モジュール
４０２第２予測モジュール
４０３分割モジュール

Claims

セマンティックセグメンテーションモデルの訓練方法は、以下のステップを含み、
訓練サンプル集合を構築し、前記訓練サンプル集合は、第１種類物体と、第２種類物体と、を含み、そのうち、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスが標記されており、
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第１種類物体の第１境界ボックスパラメータ、第１マスクパラメータ及び前記第２種類物体の第２境界ボックスパラメータを訓練し、前記第１境界ボックスパラメータ及び第１マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練し、
前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築することを特徴とするセマンティックセグメンテーションモデルの訓練方法。
前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するという前記ステップの後、
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力することを含むことを特徴とする請求項１に記載のセマンティックセグメンテーションモデルの訓練方法。
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するという前記ステップは、
前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第１境界ボックスパラメータにより分割対象の画像中の第１種類物体の境界ボックスを予測し、また前記第２境界ボックスパラメータにより分割対象の画像中の第２種類物体の境界ボックスを予測することと、
前記第１種類物体の境界ボックス、第２種類物体の境界ボックス及び前記境界ボックス予測マスクパラメータにより前記分割対象の画像中の第１種類物体及び第２種類物体のマスクパラメータをそれぞれ予測することと、
前記分割対象の画像中の第１種類物体及び第２種類物体のマスクパラメータにより前記分割対象の画像中の第１種類物体及び第２種類物体に対して画像セマンティックセグメンテーションを行うことと、を含むことを特徴とする請求項２に記載のセマンティックセグメンテーションモデルの訓練方法。
前記ディープネットワークモデルは、
Ｍａｓｋ−ＲＣＮＮ型ネットワークモデルであることを特徴とする請求項１に記載のセマンティックセグメンテーションモデルの訓練方法。
前記重み伝達関数は、以下の式に表れており

そのうち、τは、伝達関数であり、ω_clsは、種類の重みであり、ω_boxは、境界ボックスの重みであり、ω_detは、併合ベクトルであり、θは、種類不明の学習パラメータであり、ω_segは、境界ボックス予測マスクパラメータであることを特徴とする請求項４に記載のセマンティックセグメンテーションモデルの訓練方法。
前記重み伝達関数は、二層の全接続ニューラルネットワークであり、
そのうち、二層の全接続層のニューロンの数は、それぞれ５１２０、２５６であり、
それが使用した活性化関数は、ＬｅａｋｙＲｅＬＵであることを特徴とする請求項５に記載のセマンティックセグメンテーションモデルの訓練方法。
前記第２種類物体の数は、前記第１種類物体の数より多いことを特徴とする請求項１に記載のセマンティックセグメンテーションモデルの訓練方法。
第１構築手段と、
訓練手段と、
第２構築手段と、を含み、
前記第１構築手段は、訓練サンプル集合を構築するためのものであり、前記訓練サンプル集合は、第１種類物体と、第２種類物体と、を含み、そのうち、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスが標記されており、
前記訓練手段は、前記訓練サンプル集合をディープネットワークモデル中に入力して前記第１種類物体の第１境界ボックスパラメータ、第１マスクパラメータ及び前記第２種類物体の第２境界ボックスパラメータを訓練し、前記第１境界ボックスパラメータ及び第１マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するためのものであり、
前記第２構築手段は、前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するためのものであることを特徴とするセマンティックセグメンテーションモデルの訓練装置。
さらに、分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するための分割手段と、を含むことを特徴とする請求項８に記載のセマンティックセグメンテーションモデルの訓練装置。
前記分割手段は、
前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第１境界ボックスパラメータにより分割対象の画像中の第１種類物体の境界ボックスを予測し、また前記第２境界ボックスパラメータにより分割対象の画像中の第２種類物体の境界ボックスを予測するための第１予測モジュールと、
前記第１種類物体の境界ボックス、第２種類物体の境界ボックス及び前記境界ボックス予測マスクパラメータにより前記分割対象の画像中の第１種類物体及び第２種類物体のマスクパラメータをそれぞれ予測することための第２予測モジュールと、
前記分割対象の画像中の第１種類物体及び第２種類物体のマスクパラメータにより前記分割対象の画像中の第１種類物体及び第２種類物体に対して画像セマンティックセグメンテーションを行うための分割モジュールと、を含むことを特徴とする請求項９に記載のセマンティックセグメンテーションモデルの訓練装置。
前記ディープネットワークモデルは、
Ｍａｓｋ−ＲＣＮＮ型ネットワークモデルであることを特徴とする請求項８に記載のセマンティックセグメンテーションモデルの訓練装置。
前記重み伝達関数は、以下の式に表れており、

そのうち、τは、伝達関数であり、ω_clsは、種類の重みであり、ω_boxは、境界ボックスの重みであり、ω_detは、併合ベクトルであり、θは、種類不明の学習パラメータであり、ω_segは、境界ボックス予測マスクパラメータであることを特徴とする請求項１１に記載のセマンティックセグメンテーションモデルの訓練装置。
訓練サンプル集合を構築するための構築手段と、前記訓練サンプル集合は、第１種類物体と、第２種類物体と、を含み、その中に、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスが標記されており、
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第１種類物体の第１境界ボックスパラメータ、第１マスクパラメータ及び前記第２種類物体の第２境界ボックスパラメータを訓練し、前記第１境界ボックスパラメータ及び第１マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するための訓練手段と、
前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するための構築手段とを含む、ことを特徴とするコンピュータデバイス。
訓練サンプル集合を構築する機能と、前記訓練サンプル集合は、第１種類物体と、第２種類物体と、を含み、その中に、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスが標記されており、
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第１種類物体の第１境界ボックスパラメータ、第１マスクパラメータ及び前記第２種類物体の第２境界ボックスパラメータを訓練し、前記第１境界ボックスパラメータ及び第１マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練する機能と、
前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築する機能と、をコンピュータによって実行させるプログラム。
訓練サンプル集合を構築する機能と、前記訓練サンプル集合は、第１種類物体と、第２種類物体と、を含み、そのうち、第１種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第２種類物体に境界ボックスが標記されており、
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第１種類物体の第１境界ボックスパラメータ、第１マスクパラメータ及び前記第２種類物体の第２境界ボックスパラメータを訓練し、前記第１境界ボックスパラメータ及び第１マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練する機能と、
前記第１境界ボックスパラメータ、第１マスクパラメータ、第２境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築する機能と、をコンピュータによって実行させるプログラムを格納する読み取り可能な記憶媒体。