JP2023101463A

JP2023101463A - 語義分割モデルを訓練する方法及び装置、並びに画像検出方法

Info

Publication number: JP2023101463A
Application number: JP2022208671A
Authority: JP
Inventors: 威劉; Wei Liu; ジャン・ホォイガン; Hui Gang Zhang; 俊孫; Shun Son
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-01-10
Filing date: 2022-12-26
Publication date: 2023-07-21
Also published as: CN116468885A

Abstract

【課題】本発明は、語義分割モデルを訓練する方法及び装置、並びに画像検出方法を提供する。【解決手段】語義分割モデルを訓練する方法は、反復の方式で語義分割モデルを訓練することを含む。語義分割モデルは語義分割ネットワークを含む。語義分割モデルを訓練することは、グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し；デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも１つのサンプル画像に対応する少なくとも１つの視覚特徴を含むバッチ視覚特徴を生成し；外部知識特徴とバッチ視覚特徴とを融合し、現在のバッチのバッチ融合特徴を生成し；バッチ融合特徴に基づいて分割結果を生成し；及び、分割結果に基づいて語義分割モデル及びグラフニューラルネットワークを調整することを含む。【選択図】図１

Description

本発明は、画像処理に関し、特に、語義分割（ＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ）モデルを訓練する方法、語義分割モデルを訓練する装置、及び画像検出方法に関する。

画像処理はコンピュータサイエンスの分野及び人工知能の分野における重要な方向性の１つである。それは、例えば、対象（オブジェクト）ポジショニング、対象識別（認識）、対象分割、対象検出などの様々な理論及び方法を研究の対象としている。

近年、人工知能に係る深層学習の技術分野において、ニューラルネットワークモデルを使用して画像データに対して画像処理を行う方法は多くなっており、かつ良好な応用前景を示している。

一般的に言えば、全結合畳み込みニューラルネットワークを代表とする語義分割モデルの受容野（ＲｅｃｅｐｔｉｖｅＦｉｅｌｄ）は３＊３や５＊５である。

本発明の目的は、語義分割モデルを訓練する方法、語義分割モデルを訓練する装置、及び画像検出方法を提供することにある。

本発明の1つの側面によれば、コンピュータが実行する、語義分割モデルを訓練する方法が提供され、この方法は反復（ｉｔｅｒａｔｉｏｎ）の方式で語義分割モデルを訓練することを含み、そのうち、語義分割モデルは語義分割ネットワークを含み、語義分割ネットワークはエンコーダー及びデコーダーを含み、語義分割モデルを訓練することは、グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し；デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも１つのサンプル画像に対応する少なくとも１つの視覚特徴を含むバッチ視覚特徴を生成し；外部知識特徴とバッチ視覚特徴とを融合し、現在のバッチのバッチ融合特徴を生成し；バッチ融合特徴に基づいて分割結果を生成し；及び、分割結果に基づいて語義分割モデル及びグラフニューラルネットワークを調整することを含む。

本発明の１つの側面によれば、画像検出方法が提供される。この方法は、前述のモデル訓練方法によって訓練される語義分割モデルを用いて、検出待ち画像を処理することを含む。

本発明の１つの側面によれば、語義分割モデルを反復の方式で訓練するための装置が提供される。語義分割モデルは語義分割ネットワークを含む。語義分割ネットワークはエンコーダー及びデコーダーを含む。この装置は、外部知識生成ユニット及び訓練ユニットを含む。外部知識生成ユニットは、グラフニューラルネットワークを使用して、分割クラス集合についての外部知識特徴を生成するように構成される。訓練ユニットは、語義分割モデルを訓練するように構成される。語義分割モデルを訓練することは、デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも１つのサンプル画像に対応する少なくとも１つの視覚特徴を含むバッチ視覚特徴を生成し；外部知識特徴とバッチ視覚特徴とを融合し、現在のバッチのバッチ融合特徴を生成し；バッチ融合特徴に基づいて分割結果を生成し；及び、分割結果に基づいて、語義分割モデル及びグラフニューラルネットワークを調整することを含む。

本発明の１つの側面によれば、語義分割モデルを訓練するための装置が提供される。この装置は、命令を記憶している記憶器；及び、少なくとも１つの処理器を含み、少なくとも１つの処理器は、命令を実行して、反復の方式で語義分割モデルを訓練するように構成され、そのうち、語義分割モデルは語義分割ネットワークを含み、語義分割ネットワークはエンコーダー及びデコーダーを含み、語義分割モデルを訓練することは、グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し；デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも１つのサンプル画像に対応する少なくとも１つの視覚特徴を含むバッチ視覚特徴を生成し；外部知識特徴とバッチ視覚特徴とを融合し、現在のバッチのバッチ融合特徴を生成し；バッチ融合特徴に基づいて分割結果を生成し；及び、分割結果に基づいて語義分割モデル及びグラフニューラルネットワークを調整することを含む。

本発明の１つの側面によれば、プログラムを記憶しているコンピュータ可読記憶媒体が提供され、該プログラムは実行されるときに、コンピュータに、反復の方式で語義分割モデルを訓練させる。語義分割モデルは語義分割ネットワークを含み、語義分割ネットワークはエンコーダー及びデコーダーを含む。語義分割モデルを訓練することは、グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し；デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも１つのサンプル画像に対応する少なくとも１つの視覚特徴を含むバッチ視覚特徴を生成し；外部知識特徴とバッチ視覚特徴とを融合し、現在のバッチのバッチ融合特徴を生成し；バッチ融合特徴に基づいて、分割結果を生成し；及び、分割結果に基づいて、語義分割モデル及びグラフニューラルネットワークを調整することを含む。

本発明の１つの側面によれば、プログラムを記憶しているコンピュータ可読記憶媒体が提供され、該プログラムは実行されるときに、コンピュータに、訓練後の語義分割モデルを使用して、検出待ち画像を処理させる。

本発明による方法、装置、記憶媒体などは、受容野を拡大し、モデルの正確度を向上させることができるという有利な効果を奏する。

本発明の１つの実施例において語義分割モデルを訓練する方法の例示的なフローチャートである。本発明の１つの実施例における語義分割モデルを示す図である。本発明の１つの実施例において外部知識特徴を生成する方法の例示的なフローチャートである。本発明の１つの実施例における例示的なクラス記述センテンスの例示的なリストを示す図である。本発明の１つの実施例においてバッチ融合特徴を生成する方法の例示的なフローチャートである。本発明の１つの実施例においてサンプル融合特徴を確定する方法の例示的なフローチャートである。本発明の１つの実施例における画像検出方法の例示的なフローチャートである。本発明の１つの実施例において語義分割モデルを訓練するための装置の例示的なブロック図である。本発明の１つの実施例において語義分割モデルを訓練するための装置の例示的なブロック図である。本発明の１つの実施例における情報処理装置の例示的なブロック図である。

以下、添付した図面を参照しながら、本発明を実施するための好適な実施例を詳細に説明する。なお、これらの実施例は例示に過ぎず、本発明を限定するものではない。

本発明の実施例の各側面に係る操作を実行するためのコンピュータプログラムコードは１つ又は複数のプログラミング言語の任意の組み合わせによって書かれても良い。このようなプログラミング言語はオブジェクト指向型プログラミング言語、例えば、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などを含み、さらに通常の手続き型プログラミング言語、例えば、Ｃプログラミング言語又はその類似したプログラミング言語をも含む。

本発明による方法は、対応する機能を有する回路によって実現され得る。このような回路は、処理器用の回路を含む。

本発明はニューラルネットワークを用いて語義分割を実現することに関する。訓練後の語義分割モデルの入力は検出待ち画像であり、出力は画像中の各画素の対応するクラス（カテゴリともいう）を示す分割結果である。同一のクラスに属する画素からなる連結領域（ｃｏｎｎｅｃｔｅｄｄｏｍａｉｎ）は１つの対象（ｏｂｊｅｃｔ）実体を表す。これらのクラスは本発明で“分割クラス”と称され、これらのクラスからなる集合は“分割クラス集合”と称される。サンプル画像を使用して語義分割モデルを訓練する。サンプル画像からなる集合は“訓練サンプル集合”と称される。訓練の過程では、語義分割モデルのパラメータを調整することで、モデルのパフォーマンスが徐々に向上し、かつ安定するようにさせることができる。語義分割モデルの受容野を拡大し、かつ語義分割モデルの正確度を向上させるために、発明者は次のような構想に基づいて本発明の技術案を設計しており、即ち、視覚特徴と、分類図（分類マップ）と関連付けられる外部知識特徴とを融合した融合特徴に基づいて、語義分割を行い、そのうち、分類図は訓練サンプル集合と関連付けられる。

本発明の１つの側面によれば、語義分割モデルＭｓｓを訓練する方法が提供され、該方法はコンピュータによって実現され得る。以下、図１を参照して該方法について例示的に説明を行う。

語義分割モデルＭｓｓを訓練する方法１００は反復の方式で語義分割モデルＭｓｓを訓練することを含み、そのうち、語義分割モデルＭｓｓは語義分割ネットワークＳＳＮを含む。訓練を行うときに、語義分割モデルＭｓｓの入力はサンプル画像、及びグラフニューラルネットワークＧＮＮによって出力される外部知識特徴Ｆｅを含む。グラフニューラルネットワークＧＮＮは、分割クラス集合｛Ｃ［ｎ］｝（“｛｝”は集合を表し、Ｃ［ｎ］は該集合におけるｎ番目の要素を表し、該集合には、少なくとも１つの要素が含まれ、便宜のため、１つのみの一般的な要素Ｃ［ｎ］が示されている）についての外部知識特徴Ｆｅを生成するように構成される。分割クラス集合｛Ｃ［ｎ］｝における分割クラスの数が“Ｎ”で表され、Ｎは自然数である。例えば、語義分割モデルＭｓｓがレシピ画像についての語義分割モデルであるときに、分割クラス集合｛Ｃ［ｎ］｝に含まれるのは、例えば、“ｂｒｅａｄｒｏｌｌ”、“ｂｅｅｆ”、“ｏｎｉｏｎ”、“ｔｏｍａｔｏ”、“ｌｅｔｔｕｃｅ”などのＮ（例えば、Ｎ＝１０３）個の分割クラスである。語義分割ネットワークＳＳＮは通常のアーキテクチャを有し、エンコーダー及びデコーダーを含む。エンコーダーは入力画像のエンコーディング特徴を生成する。デコーダーはエンコーダーの出力特徴に対してアップサンプリングを行い、出力画像のサイズと同じサイズを有する視覚特徴を生成する。１つの例示的な訓練反復ループ（Loop）において、訓練操作は図１に示すフローを含んでも良い。図１は本発明の１つの実施例において語義分割モデルＭｓｓを訓練する方法１００の例示的なフローチャートである。

ステップＳ１０１において、グラフニューラルネットワークＧＮＮが分割クラス集合についての外部知識特徴Ｆｅを生成する。

ステップＳ１０３において、デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも１つのサンプル画像に対応する少なくとも１つの視覚特徴を含むバッチ視覚特徴を生成する。１つの訓練反復ループにおいて、１回、１バッチのサンプル画像（Ｉｍ［ｉ］でそのうちの１つのサンプル画像を表す）を入力する。このようなバッチのサンプル画像の数が“Ｂ”で表され、例えば、Ｂ＝８である。モデルを訓練するときに、通常の場合、Ｂが大きいほど（即ち、訓練に参加する各バッチのサンプル画像が多いほど）、訓練後モデルのパフォーマンスが良くなる。サンプル画像Ｉｍ［ｉ］の視覚特徴はＦｖ［ｉ］と表すことができ、Ｆｖ［ｉ］∈Ｒ^{Ｃｈ＊Ｗ＊Ｈ}であり、そのうち、Ｃｈは出力特徴のチャンネル次元のサイズ（大きさ）であり、チャンネル次元数と略称され、Ｗはサンプル画像の幅であり、Ｈはサンプル画像の高さである。バッチ視覚特徴はＦｂで表し、Ｆｂ∈Ｒ^{Ｂ＊Ｃｈ＊Ｗ＊Ｈ}である。Ｂが１よりも大きいときに、Ｂ個の視覚特徴をアラインメントして重ねることでバッチ視覚特徴Ｆｂを得ることができる。

ステップＳ１０５において、外部知識特徴Ｆｅとバッチ視覚特徴Ｆｂとを融合することで、現在のバッチのバッチ融合特徴Ｆｂｆを生成し、Ｆｂｆ∈Ｒ^{Ｂ＊（Ｎ＋１）＊Ｗ＊Ｈ}であり、そのうち、“Ｎ＋１”における“１”は“背景”クラスを考慮して増加した次元である。このステップは語義分割モデルの融合層によって実現され得る。

ステップＳ１０７において、バッチ融合特徴Ｆｂｆに基づいて分割結果Ｒｓを生成する。分割結果Ｒｓは画像中の各画素の分割クラスを示す。このステップは語義分割モデルの分類層によって実現され得る。

ステップＳ１０９において、分割結果に基づいて語義分割モデルＭｓｓ及びグラフニューラルネットワークＧＮＮを調整する。具体的には、分割結果に基づいて損失関数を確定し；損失関数に基づいて、例えば、勾配降下法を用いて、モデル及びネットワークのパラメータを調整することで、モデルＭｓｓ及びネットワークＧＮＮを最適化する目的を達成できる。調整されるパラメータは、ネットワークＧＮＮのパラメータ及びネットワークＳＳＮのパラメータを含む。

方法１００を繰り返して実行することにより、モデルＭｓｓ及びグラフニューラルネットワークＧＮＮを次第に最適化する目的を達成し、そのうち、現在の反復ループにおいては、１つ前の反復ループで確定されたモデルをもとに訓練が行われる。訓練終了の条件は例えば、訓練が所定の回数に達しており、損失関数が収斂（収束）しており、損失関数が十分に小さくなっていることなどである。最終的に最適化された（即ち、反復訓練完了後の）グラフニューラルネットワークＧＮＮによって生成される外部知識特徴は、訓練済みの語義分割モデルの入力パラメータ又は組み込みパラメータとして使用することで、検出待ち画像を処理できる。

通常の語義分割モデルは多くの場合、３＊３や５＊５の畳み込みカーネルに基づいて、画像に対して畳み込みを行い、かつ重み値の共有に従って、対応する受容野のサイズは３＊３や５＊５である。即ち、通常の語義分割モデルの受容野が比較的小さいので、分割のパフォーマンスは大きく制限されている。方法１００では、通常の語義分割ネットワークをもとに、融合層が増加しており、それは、グラフニューラルネットワークＧＮＮが与える外部知識特徴と、デコーダーが与える視覚特徴とを融合する。言い換えれば、本発明の語義分割モデルＭｓｓは語義分割ネットワーク及び融合層を含む。グラフニューラルネットワークＧＮＮは、より大きな受容野の画素間の空間位置の関連付けを確立し、より多くのコンテキスト情報を得ることができるため、受容野不足の問題を根本的に解決し、語義分割のパフォーマンスを向上させる潜在能力を有する。語義分割のタスクにおいて、外部知識は視覚特徴の補充とすることで、モデルのパフォーマンスを向上させるために用いることができる。方法１００では、語義分割ネットワークによって生成される視覚特徴と、グラフニューラルネットワークによって生成される外部知識特徴とを融合し、融合した融合特徴は画像全体の中の各画素又は比較的遠い領域の間の関係を反映でき、そのため、このような融合特徴を用いて語義分割を行うことで受容野を拡大し、語義分割モデルの正確度を向上させることができる。

図２は本発明の１つの実施例における語義分割モデルＭｓｓを示す図であり、図中では、訓練の段階における語義分割モデルＭｓｓの入力や出力の状況が示されている。図２に示すように、モデルＭｓｓは語義分割ネットワークＳＳＮを含み、そのうち、語義分割ネットワークＳＳＮは一般的な“エンコーダー－デコーダー”アーキテクチャを有する。現在のバッチのサンプル画像を使用した訓練反復ループについて、モデルＭｓｓの入力はＢ個のサンプル画像Ｉｍ［ｉ］、Ｉｍ［ｉ＋１］、……、Ｉｍ［ｉ＋Ｂ－１］を含み、モデルＭｓｓの出力は分割結果Ｒｓである。入力画像はＲＧＢ画像であっても良い。語義分割ネットワークＳＳＮはエンコーダーＥｎＣｏｄｅｒ及びデコーダーＤｅＣｏｄｅｒを含む。エンコーダーＥｎＣｏｄｅｒは入力画像を受信して画像の特徴に対してエンコーディングを行い、デコーダーＤｅＣｏｄｅｒは、エンコーダーが出力した特徴（特徴マップ）に対してアップサンプリング（ｕｐｓａｍｐｌｅ）を行うことで、アップサンプリング後の出力特徴が元の画像のサイズと同じになるようにさせる。エンコーダーＥｎＣｏｄｅｒは複数の層を含み、各層は畳み込み層及びプーリング層を含む。畳み込み層は、畳み込み処理（図２では“Ｃｏｎｖ”で表される）、正規化処理、活性化処理（図２ではＲＥＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ、ＲＥＬＵ）を用いて活性化を行うことが例示的に示されている）などを完了する。グラフニューラルネットワークＧＮＮは、分割クラス集合についての外部知識特徴Ｆｅを生成するために用いられる。語義分割ネットワークＳＳＮのデコーダーＤｅＣｏｄｅｒは、エンコーダーの出力に基づいて、バッチ入力画像のバッチ視覚特徴Ｆｂを生成する。外部知識特徴Ｆｅは語義分割ネットワークＭｓｓの融合層に入力される。融合層はバッチ視覚特徴Ｆｂと外部知識特徴Ｆｅとを融合することで、バッチ融合特徴Ｆｂｆを取得する。語義分割モデルＭｓｓは（例えば、Ｓｏｆｔｍａｘ分類器を使用して）バッチ融合特徴Ｆｂｆに基づいて画像中の各画素に対して分類を行い、分割結果Ｒｓを得る。各サンプル画像について言えば、異なる色の連結領域を含む、該サンプル画像のサイズと同じサイズの画像を用いて、該サンプル画像についての分割結果を表すことができ、そのうち、各色は１つの分割クラスを表す。本発明では、グラフニューラルネットワークＧＮＮはグラフ畳み込みニューラルネットワーク（ＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ、ＧＣＮ）又はグラフアテンションネットワーク（ＧｒａｐｈＡｔｔｅｎｔｉｏｎＮｅｔｗｏｒｋ、ＧＡＴ）であっても良い。

外部知識は、内部知識としての視覚特徴の外部情報である。外部知識は特徴を豊富にするのに役立つ。外部知識は訓練データ集合から得ることができる。以下、グラフニューラルネットワークＧＮＮを用いて外部知識特徴Ｆｅを生成する方法について説明する。

図３は本発明の１つの実施例において外部知識特徴Ｆｅを生成する方法３００の例示的なフローチャートであり、そのうち、前記分割クラス集合についての外部知識特徴は、グラフニューラルネットワークによって、隣接マトリックス及びテキスト特徴集合に基づいて生成される。

ステップＳ３０１において、訓練サンプル集合におけるラベルに基づいて、分割クラス集合｛Ｃ［ｎ］｝と関連付けられる分類図Ｇｓのノード集合｛Ｎｏｄｅ［ｎ］｝（“｛｝”は集合を表し、Ｎｏｄｅ［ｎ］は該集合におけるｎ番目の要素を表し、該集合には、少なくとも１つの要素が含まれており、便宜のため、１つのみの一般的な要素Ｎｏｄｅ［ｎ］が示されている）を確定する。ノード集合｛Ｎｏｄｅ［ｎ］｝は分割クラス集合｛Ｃ［ｎ］｝に対応し、ノード集合｛Ｎｏｄｅ［ｎ］｝におけるノードＮｏｄｅ［ｎ］は分割クラス集合｛Ｃ［ｎ］｝における分割クラスＣ［ｎ］に対応する。ラベルは、サンプル画像中の対応する領域内の対象の属する具体的な分割クラスを指示する。

ステップＳ３０３において、テキスト特徴集合｛Ｖ［ｎ］｝を確定し、そのうち、テキスト特徴集合｛Ｖ［ｎ］｝におけるテキスト特徴Ｖ［ｎ］は、分割クラス集合｛Ｃ［ｎ］｝中の対応する分割クラスＣ［ｎ］を表すベクトルであり、該ベクトルは分割クラスＣ［ｎ］のクラス名Ｎａｍｅ［ｎ］に基づいて確定される。即ち、このステップではＮ個のテキスト特徴ベクトルを取得し、テキスト特徴Ｖ［ｎ］は分類図ＧｓにおけるノードＮｏｄｅ［ｎ］に対応する。テキスト特徴Ｖ［ｎ］を用いてノードＮｏｄｅ［ｎ］を表すことができる。テキスト特徴Ｖ［ｎ］∈Ｒ^Ｄであり、Ｄはコンポーネントの数であり、例えば、Ｄ＝６４である。１つの例において、自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＰ）ツールを使用して、分割クラス集合における分割クラスＣ［ｎ］のクラス名Ｎａｍｅ［ｎ］に基づいて、分割クラスＣ［ｎ］のテキスト特徴Ｖ［ｎ］を確定できる。自然言語処理ツールはｗｏｒｄ２ｖｅｃ、ＧＬＯＶＥ（ＧｌｏｂａｌＶｅｃｔｏｒｓｆｏｒＷｏｒｄＲｅｐｒｅｓｅｎｔａｔｉｏｎ）、又はＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ）特徴抽出器であっても良い。１つの例において、ＣＬＩＰ（ＣｏｎｔｒａｓｔｉｖｅＬａｎｇｕａｇｅ－ＩｍａｇｅＰｒｅ－ｔｒａｉｎｉｎｇ、ＣＬＩＰ）ツールを使用して、分割クラス集合｛Ｃ［ｎ］｝における分割クラスのクラス名Ｎａｍｅ［ｎ］を含むクラス記述センテンス（Ｓｅｎ［ｎ］）に基づいて、対応する分割クラスＣ［ｎ］のテキスト特徴Ｖ［ｎ］を確定できる。図４は本発明の１つの実施例におけるクラス記述センテンスの例示的リスト４００（リストの一部のみが示されている）を示しており、そのうち、各行は１つのクラス記述センテンスである。リスト４００はレシピ分割クラス集合についてのクラス記述センテンスのリストである。１つの例において、クラス記述センテンスは経験に基づいてユーザ自体によって生成されても良い。

ステップＳ３０５において、グラフニューラルネットワークＧＮＮと関連付けられる隣接マトリックスＭａｔａを確定する。隣接マトリックスＭａｔａのサイズがＮ＊Ｎである。隣接マトリックスＭａｔａのマトリックス要素ｅ_ｎｎ’はＮｏｄｅ［ｎ］とＮｏｄｅ［ｎ’］との間の関係を示す。１つの例において、次のような方式で隣接マトリックスＭａｔａを確定でき、即ち、分類図Ｇｓの辺（エッジ）の値を確定し、確定した辺の値に基づいてＮ＊Ｎのマトリックスを確定し、該マトリックスに対して列に従って正規化を行い（例えば、目標列における最大値を使用して該目標列における各マトリックス要素に対して正規化を行い）、正規化後のマトリックスの対角線上のマトリックス要素（即ち、ｅ_ｎｎ）を１に設定する。分類図Ｇｓの２つのノードＮｏｄｅ［ｎ］とＮｏｄｅ［ｎ’］との間の辺の値は少なくとも、次のようなもののうちの少なくとも１つに基づいて確定され、即ち、２つのノードＮｏｄｅ［ｎ］及びＮｏｄｅ［ｎ’］に対応する２つの分割クラスＣ［ｎ］及びＣ［ｎ’］の、訓練サンプル集合｛Ｉｍ［ｉ］｝についての共起回数（計数）ｃ_ｎｎ’；及び、２つのノードＮｏｄｅ［ｎ］及びＮｏｄｅ［ｎ’］に対応する２つの分割クラスＣ［ｎ］及びＣ［ｎ’］の推定共起確率ｐ_ｎｎ’である。共起回数ｃ_ｎｎをカウントするときに、ｃ_ｎｎ’の初期値が０であり、１つのサンプル画像において分割クラスＣ［ｎ］及びＣ［ｎ’］が同時に出現する場合、ｃ_ｎｎ’に１を増やす。訓練サンプル集合全体をトラバースし（即ち、訓練サンプル集合全体の要素を1つずつチェックし）、訓練サンプル集合｛Ｉｍ［ｉ］｝において分割クラスＣ［ｎ］及びＣ［ｎ’］同時に出現するサンプル画像の数をカウントすることで、最終的なｃ_ｎｎ’を得ることができる。推定共起確率ｐ_ｎｎ’は、ユーザが経験又は常識に基づいて推定することで与えた、分割クラスＣ［ｎ］及びＣ［ｎ’］が同一の画像において出現する確率である。

ステップＳ３０７において、グラフニューラルネットワークＧＮＮの特徴抽出モジュールＢＫｅが、隣接マトリックスＭａｔａ及びテキスト特徴集合｛Ｖ［ｎ］｝に基づいて、抽出分割クラス集合｛Ｃ［ｎ］｝についての第一中間外部知識特徴Ｆｅ’を抽出し、Ｆｅ’∈Ｒ^Ｎ＊Ｄである。

ステップＳ３０９において、グラフニューラルネットワークＧＮＮの後処理モジュールＢＫｐが第一中間外部知識特徴Ｆｅ’に対して後処理を行って外部知識特徴Ｆｅを取得し、Ｆｅ∈Ｒ^{Ｈ＊（Ｎ＋１）＊Ｄ}である。後処理は、第一中間外部知識特徴Ｆｅ’のクラス次元に１（１つの次元）を増やすことで第二中間外部知識特徴Ｆｅ’’を取得し、Ｆｅ’’∈Ｒ^{（Ｎ＋１）＊Ｄ}であり、そのうち、増加したクラス次元は背景分割クラスを表すベクトルに対応し、該ベクトル次元はＲ^１＊Ｄであり、初期化時に各成分（コンポーネント）の初期化値を０（ゼロ）とすることができ、Ｈ個の第二中間外部知識特徴Ｆｅ’’をアラインメントして重ねることで外部知識特徴Ｆｅを得ることができる。外部知識特徴Ｆｅは背景分割クラスを表すベクトルを含む。

以下、本発明に係る融合処理について例示的に説明する。

図５は本発明の１つの実施例においてバッチ融合特徴Ｆｂｆを生成する方法５００の例示的なフローチャートである。図５に示すように、方法５００の入力はＢ個のサンプル融合特徴Ｆｓｆ［１］、……、Ｆｓｆ［ｂ］、……Ｆｓｆ［Ｂ］であり、出力はバッチ融合特徴Ｆｂｆである。ステップＳ５０１において、中間バッチ融合特徴Ｆｂｆ’を確定し、Ｆｂｆ’∈Ｒ^{Ｂ＊（Ｄ＋Ｃｈ）＊Ｗ＊Ｈ}であ。現在のバッチの少なくとも１つのサンプル画像の数が１であるときに、中間バッチ融合特徴を確定することは、現在のバッチのサンプル画像のサンプル融合特徴を、現在のバッチの中間バッチ融合特徴と設定することを含む。現在のバッチの少なくとも１つのサンプル画像の数が１よりも大きいときに、中間バッチ融合特徴を確定することは、現在のバッチの複数のサンプル画像のサンプル融合特徴をつなぎ合わせることで現在のバッチの中間バッチ融合特徴を確定することを含む。任意の１つのサンプル融合特徴Ｆｓｆ［ｂ］のサイズが（Ｄ＋Ｃｈ）＊Ｗ＊Ｈであり、即ち、Ｆｓｆ［ｂ］∈Ｒ^{（Ｄ＋Ｃｈ）＊Ｗ＊Ｈ}である。Ｂが１よりも大きいときに、Ｂ個のサンプル融合特徴をアラインメントして重ねることでつなぎ合わせを実現でき、これによって、中間バッチ融合特徴Ｆｂｆ’を得ることができる。ステップＳ５０３において、中間バッチ融合特徴Ｆｂｆ’に対して第一畳み込み処理Ｃｏｎｖ１を行うことで、現在のバッチのバッチ融合特徴Ｆｂｆを確定する。第一畳み込み処理Ｃｏｎｖ１は特徴のチャンネル次元数を変えることができ、具体的には、チャンネル次元数をＤ＋ＣｈからＮ＋１に変える。チャンネル次元数を変える第一畳み込み処理Ｃｏｎｖ１は１＊１畳み込み処理である。

以下、方法５００に係るサンプル融合特徴について例示的に説明する。

図６は本発明の１つの実施例においてサンプル融合特徴を確定する方法６００の例示的なフローチャートであり、図中では、サンプル融合特徴Ｆｓｆ［ｂ］は、現在のサンプル画像と略称される、現在の関心のあるサンプル画像Ｉｍ［ｂ］に向けられる。ステップＳ６０１において、第二畳み込み処理Ｃｏｎｖ２により、現在のサンプル画像Ｉｍ［ｂ］の視覚特徴Ｆｖ［ｂ］に基づいて、現在のサンプル画像の分割特徴Ｆｓ［ｂ］を確定する。分割特徴Ｆｓ［ｂ］のサイズは（Ｎ＋１）＊Ｗ＊Ｈであり、即ち、Ｆｓ［ｂ］∈Ｒ^{（Ｎ＋１）＊Ｗ＊Ｈ}である。視覚特徴Ｆｖ［ｂ］のサイズはＣｈ＊Ｗ＊Ｈであり、即ち、Ｆｖ［ｂ］∈Ｒ^{Ｃｈ＊Ｗ＊Ｈ}である。第二畳み込み処理Ｃｏｎｖ２は特徴のチャンネル次元数を変更でき、具体的には、視覚特徴のチャンネル次元数をＣｈからＮ＋１に変える。チャンネル次元数を変更する第二畳み込み処理Ｃｏｎｖ２は１＊１畳み込み処理である。ステップＳ６０３において、マトリックスの乗算により、外部知識特徴Ｆｅ及び現在のサンプル画像の分割特徴Ｆｓ［ｂ］に基づいて、現在のサンプル画像のサイズがＨ＊Ｗ＊Ｄである第一中間サンプル融合特徴Ｆｓｆ’［ｂ］を確定し、マトリックスの乗算を行う前に、Ｆｓ［ｂ］に対して転置（Ｔｒａｎｓｐｏｓｅ）操作を行い、分割特徴の次元分布を［Ｎ＋１，Ｗ，Ｈ］から［Ｈ，Ｗ，Ｎ＋１］に変換し、即ち、Ｆｓｆ’［ｂ］＝Ｔｒａｎｓｐｏｓｅ（Ｆｓ［ｂ］）＊Ｆｅである。第一中間サンプル融合特徴Ｆｓｆ’［ｂ］の次元分布は［Ｈ，Ｗ，Ｄ］である。ステップＳ６０５において、画素に従って現在のサンプル画像の第一中間サンプル融合特徴Ｆｓｆ’［ｂ］と現在のサンプル画像の次元変換特徴Ｆｃｈ［ｂ］をアラインメントしてつなぎ合わせることで、現在のサンプル画像の第二中間サンプル融合特徴Ｆｓｆ’’［ｂ］を確定する。次元変換特徴Ｆｃｈ［ｂ］は現在のサンプル画像の視覚特徴Ｆｖ［ｂ］に基づいて確定され、次元変換特徴Ｆｃｈ［ｂ］の次元分布は［Ｈ，Ｗ，Ｃｈ］である。例えば、視覚特徴Ｆｖ［ｂ］に対して転置を行うことで次元変換特徴Ｆｃｈ［ｂ］を取得する。第二中間サンプル融合特徴Ｆｓｆ’’［ｂ］のマトリックスの次元分布は［Ｈ，Ｗ，（Ｄ＋Ｃｈ）］である。ステップＳ６０７において、現在のサンプル画像の第二中間サンプル融合特徴Ｆｓｆ’’［ｂ］に対して転置を行うことで現在のサンプル画像のサンプル融合特徴Ｆｓｆ［ｂ］を確定する。サンプル融合特徴Ｆｓｆ［ｂ］の次元分布は［（Ｄ＋Ｃｈ），Ｗ，Ｈ］である。

本発明の技術案では、かかる語義分割ネットワークＳＳＮについて特に限定しない。語義分割ネットワークＳＳＮは１つの汎用のフレームワークであり、様々な語義切り分け（分割）フレームワークであっても良い。例えば、１つの例において、語義分割モデルＭｓｓのための語義分割ネットワークＳＳＮは次のようなアーキテクチャのうちの１つに基づくものであり、即ち、ＦＰＮ（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋｓ、ＦＰＮ）；ＣＣＮｅｔ（Ｃｒｉｓｓ－ＣｒｏｓｓＮｅｔｗｏｒｋｓ、ＣＣＮｅｔ）；及び、ＳＥＴＲ（ＳｅｇｍｅｎｔａｔｉｏｎＴｒａｎｓｆｏｒｍｅｒ、ＳＥＴＲ）である。なお、ＦＰＮ、ＣＣＮｅｔ、及びＳＥＴＲは何れもニューラルネットワークの技術分野における通常の技術であるため、ここではその基本原理についての詳しい説明を省略する。

本発明のもう１つの側面によれば、画像検出方法が提供される。以下、図７を参照しながら例示的に説明を行う。図７は本発明の１つの実施例における画像検出方法７００の例示的なフローチャートである。ステップＳ７０１において、本発明の語義分割モデルを訓練するための方法を使用して語義分割モデルＭｓｓを訓練する。ステップＳ７０３において、訓練後の語義分割モデルＭｓｓを使用して検出待ち画像を処理する。オプションとして、訓練が既に完了した場合、方法７００はステップＳ７０３のみを含んでも良い。訓練後の語義分割モデルＭｓｓを使用して検出待ち画像を処理することは、語義分割モデルＭｓｓの融合層を使用して外部知識特徴Ｆｅと検出待ち画像の視覚特徴とを融合することを含み、そのうち、外部知識特徴Ｆｅは反復の方式で調整された後のグラフニューラルネットワークＧＮＮによって生成される。１つの例において、検出の段階では、毎回、画像を検出する前に、反復の方式で調整された後のグラフニューラルネットワークＧＮＮによって外部知識特徴Ｆｅを生成する。１つの例において、外部知識特徴Ｆｅの生成が訓練サンプル集合と関連しており、検出待ち画像とは関係がないので、語義分割モデルＭｓｓの訓練が完成した後（即ち、グラフニューラルネットワークＧＮＮの最適化が完成した後）に、反復の方式で調整された後のグラフニューラルネットワークＧＮＮによって生成された外部知識特徴を記憶する（例えば、語義分割モデルのコードと、生成された外部知識特徴とをパッケージ化して記憶する）ことができる。このようにして、検出の段階では、毎回、画像を検出するときに、記憶された外部知識特徴を読み取るだけで良く、グラフニューラルネットワークＧＮＮを実行して外部知識特徴を生成する操作を行う必要がない。

方法７００の効果を検証するために、発明者は幾つかの対比（比較）実験を行っている。なお、実験で選択されたデータ集合は周知のＦｏｏｄＳｅｇ１０３データベースであり、その中には７１１８枚のＲＧＢレシピ画像が含まれ、分割クラスの数がＮ＝１０３である。Ｍｓｓを訓練するときに、訓練サンプルとして、ＦｏｏｄＳｅｇ１０３データベースにおける４９８３枚の画像が選択されている。また、画像検出の実験では、ＦｏｏｄＳｅｇ１０３データベースにおける２１３５枚の画像が選択されている。表１は、３種類の異なるアーキテクチャの語義分割モデルが外部知識特徴を使用する前後のパフォーマンスを示しおり、そのうち、ＧＣＮを用いて外部知識特徴を生成し、ＣＬＩＰツールを使用してテキスト特徴を確定する。

表１は３種類の異なるアーキテクチャの語義分割モデルが外部知識特徴を使用する前後のパフォーマンスを示している。

表１から分かるように、外部知識が追加された後に（即ち、外部知識追加有りの場合）、３種類のアーキテクチャ（ＣＣＮｅｔ、ＦＰＮ、及びＳＥＴＲ）の語義分割モデルのｍＩｏＵ（ｍｅａｎＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）及びｍＡｃｃ（ｍｅａｎａｃｃｕｒａｃｙ）はすべて向上しており、そのうち、ＳＥＴＲアーキテクチャの語義分割モデルパフォーマンスは一番優れている。

発明者はさらに、異なる外部知識特徴抽出方法がＳＥＴＲアーキテクチャの語義分割モデルのパフォーマンスに与える影響について実験を行っている。

表２は異なる外部知識特徴抽出方法の下でのＳＥＴＲアーキテクチャの語義分割モデルのパフォーマンスを示している。

表２における“Ｆｅ”は“外部知識特徴”を表し、“Ｆｅ無し”は、視覚特徴とＦｅの融合が行われないことを表し（それ相応に、ＧＡＴ、ＧＣＮ、ＧＬＯＶＥ、又はＣＬＩＰが使用されない）、“＋Ｆｅ（Ｆｅ有り）”は、視覚特徴とＦｅの融合が行われていることを表し（それ相応に、ＧＡＴ／ＧＣＮ、及びＧＬＯＶＥ／ＣＬＩＰが使用される）。表２から分かるように、ＧＣＮネットワークを用いて外部知識特徴を抽出し、かつＣＬＩＰツールを使用してテキスト特徴を確定するときに、モデルのパフォーマンスは一番優れている。

本発明ではさらに、語義分割モデルを訓練するための装置が提供される。以下、図８をもとに例示的に説明を行う。図８は本発明の１つの実施例における語義分割モデルを訓練するための装置８００の例示的なブロック図である。語義分割モデルは語義分割ネットワークを含む。語義分割ネットワークはエンコーダー及びデコーダーを含む。装置８００は反復の方式で前記語義分割モデルを訓練するために用いられる。装置８００は、外部知識生成ユニット８１及び訓練ユニット８３を含む。訓練ユニット８３は語義分割モデルを訓練するように構成される。訓練ユニット８３は視覚特徴生成ユニット８０１、融合ユニット８０３、分割ユニット８０５、及び調整ユニット８０７を含む。外部知識生成ユニット８１は、グラフニューラルネットワークを使用して分割クラス集合についての外部知識特徴を生成するように構成される。視覚特徴生成ユニット８０１は、デコーダーを使用して、エンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも１つのサンプル画像に対応する少なくとも１つの視覚特徴を含むバッチ視覚特徴を生成するように構成される。融合ユニット８０３は、外部知識特徴とバッチ視覚特徴とを融合することで現在のバッチのバッチ融合特徴を生成するように構成される。分割ユニット８０５は、バッチ融合特徴に基づいて、分割結果を生成するように構成される。調整ユニット８０７は、分割結果に基づいて、語義分割モデル及びグラフニューラルネットワークを調整するように構成される。装置８００と方法１００との間には対応関係が存在する。装置８００の更なる構成については本発明の上述の方法１００についての説明を参照できる。

本発明ではさらに、語義分割モデルを訓練するための装置が提供される。以下、図９をベースに例示的に説明を行う。図９は本発明の１つの実施例において語義分割モデルを訓練するための装置９００の例示的なブロック図である。装置９００は、命令を記憶している記憶器９０１；及び、少なくとも１つの処理器９０３を含み、少なくとも１つの処理器９０３は、命令を実行して、反復の方式で語義分割モデルを訓練することを実現するように構成される。語義分割モデルは語義分割ネットワークを含む。語義分割ネットワークはエンコーダー及びデコーダーを含む。語義分割モデルを訓練することは、グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し；デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも１つのサンプル画像に対応する少なくとも１つの視覚特徴を含むバッチ視覚特徴を生成し；外部知識特徴とバッチ視覚特徴とを融合することで、現在のバッチのバッチ融合特徴を生成し；バッチ融合特徴に基づいて、分割結果を生成し；及び、分割結果に基づいて、語義分割モデル及びグラフニューラルネットワークを調整する。装置９００と方法１００との間には対応関係が存在する。なお、装置９００の更なる構成については本発明の上述の方法１００についての説明を参照できる。

本発明の１つの側面では、プログラムを記憶しているコンピュータ可読記憶媒体が提供され、該プログラムは実行されるときに、コンピュータに、反復の方式で語義分割モデルを訓練させる。語義分割モデルは語義分割ネットワークを含み、語義分割ネットワークはエンコーダー及びデコーダーを含む。語義分割モデルを訓練することは、グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し；デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも１つのサンプル画像に対応する少なくとも１つの視覚特徴を含むバッチ視覚特徴を生成し；外部知識特徴とバッチ視覚特徴とを融合することで、現在のバッチのバッチ融合特徴を生成し；バッチ融合特徴に基づいて、分割結果を生成し；及び、分割結果に基づいて、語義分割モデル及びグラフニューラルネットワークを調整する。プログラムと方法１００との間には対応関係が存在する。なお、プログラムの更なる構成については本発明の上述の方法１００についての説明を参照できる。

本発明のもう１つの側面によれば、プログラムを記憶しているコンピュータ可読記憶媒体が提供され、該プログラムは実行されるときに、コンピュータに、訓練後の語義分割モデルを使用して検出待ち画像を処理させる。語義分割モデルを訓練する方法は本発明に開示された外部知識特徴に関する方法である。訓練後の語義分割モデルを用いて検出待ち画像を処理することは、語義分割モデルの融合層を用いて、外部知識特徴と検出待ち画像の視覚特徴とを融合することを含み、そのうち、外部知識特徴Ｆｅは、反復の方式で調整された後のグラフニューラルネットワークによって生成される。１つの例において、訓練後の語義分割モデルは組み込みパラメータを含み、前記組み込みパラメータは、反復の方式で調整された後のグラフニューラルネットワークによって生成される外部知識特徴を含む。外部知識特徴を、訓練後の語義分割モデルの組み込みパラメータと設定した後に、毎回、検出待ち画像を検出するときに、反復の方式で調整された後のグラフニューラルネットワークを実行して外部知識特徴を得る必要がない。

本発明のもう１つの側面によれば、情報処理装置がさらに提供される。図１０は、本発明の実施例における情報処理装置１０００の構成図である。

図１０では、中央処理装置（ＣＰＵ）１００１は、ＲＯＭ１００２に記憶されるプログラム又は記憶部１００８からＲＡＭ１００３にロッドされているプログラムに基づいて各種の処理を行う。ＲＡＭ１００３では、ニーズに応じて、ＣＰＵ１００１が各種の処理を行うときに必要なデータなどを記憶することができる。ＣＰＵ１００１、ＲＯＭ１００２及びＲＡＭ１００３は、バス１００４を経由して互いに接続される。入力／出力インターフェース１００５もバス１００４に接続される。

また、入力／出力インターフェース１００５にはさらに、次のような部品が接続され、即ち、キーボードなどを含む入力部１００６、液晶表示器（ＬＣＤ）などのような表示器及びスピーカーなどを含む出力部１００７、ハードディスクなどを含む記憶部１００８、ネットワーク・インターフェース・カード、例えば、ＬＡＮカード、モデムなどを含む通信部１００９である。通信部１００９は、例えば、インターネット、ＬＡＮなどのネットワークを経由して通信処理を行う。ドライブ１０１０は、ニーズに応じて、入力／出力インターフェース１００５に接続されても良い。取り外し可能な媒体１０１１、例えば、半導体メモリなどは、必要に応じて、ドライブ１０１０にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部１００８にインストールすることができる。

また、本発明はさらに、マシン可読命令コードを含むプログラムプロダクトを提供する。このような命令コードは、マシンにより読み取られ実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー（ｃａｒｒｙ）する、例えば、磁気ディスク（フロッピーディスク（登録商標）を含む）、光ディスク（ＣＤ－ＲＯＭ及びＤＶＤを含む）、光磁気ディスク（ＭＤ（登録商標）を含む）、及び半導体記憶装置などの各種の記憶媒体も本発明に含まれる。

上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶装置などを含んでも良いが、これらに限定されない。

また、上述の方法における各操作（処理）は、各種のマシン可読記憶媒体に記憶されるコンピュータ実行可能なプログラムの方式で実現することもできる。

本発明の技術案では、グラフニューラルネットワークを用いて生成した外部知識特徴に基づいて、語義分割ネットワークに対して訓練を行い、画像に対して画像検出を行うことができる。本発明による方法、装置及び記憶媒体は、語義分割モデルの受容野を拡大し、語義分割モデルの正確度を向上させることができるという有利な効果を奏する。

また、以上の実施例などに関し、さらに以下のように付記として開示する。

（付記１）
コンピュータが実行する、語義分割モデルを訓練する方法であって、
反復の方式で前記語義分割モデルを訓練することを含み、
前記語義分割モデルは語義分割ネットワークを含み、前記語義分割ネットワークはエンコーダー及びコーダーを含み、
前記語義分割モデルを訓練することは、
グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し；
前記デコーダーが前記エンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも１つのサンプル画像に対応する少なくとも１つの視覚特徴を含むバッチ視覚特徴を生成し；
前記外部知識特徴と前記バッチ視覚特徴とを融合し、前記現在のバッチのバッチ融合特徴を生成し；
前記バッチ融合特徴に基づいて、分割結果を生成し；及び
前記分割結果に基づいて、前記語義分割モデル及び前記グラフニューラルネットワークを調整することを含む、方法。

（付記２）
付記１に記載の方法であって、
前記グラフニューラルネットワークは、隣接マトリックス及びテキスト特徴集合に基づいて、前記分割クラス集合についての外部知識特徴を生成するように構成され、
前記隣接マトリックスは、前記分割クラス集合と関連付けられる分類図の辺（エッジ）の値に基づいて確定され、
前記分類図は、前記分割クラス集合に対応する複数のノードを含み、
前記テキスト特徴集合におけるテキスト特徴は、前記分割クラス集合における対応する分割クラスのクラス名に基づいて確定され、
前記分類図の２つのノードの間の辺の値は、少なくとも、次のようなもののうちの少なくとも１つに基づいて確定され、即ち、
前記２つのノードに対応する２つの分割クラスの、前記訓練サンプル集合についての共起回数；及び
前記２つのノードに対応する２つの分割クラスの推定共起確率である、方法。

（付記３）
付記２に記載の方法であって、
前記外部知識特徴は、サイズがＨ＊（Ｎ＋１）＊Ｄである３次元マトリックスであり、
Ｈは前記訓練サンプル集合における各サンプル画像の高さであり、
Ｎは前記分割クラス集合における分割クラスの数であり、
Ｄは前記テキスト特徴集合におけるテキスト特徴のコンポーネント（成分）の数であり、
前記外部知識特徴は、背景分割クラスを表すベクトルを含む、方法。

（付記４）
付記２に記載の方法であって、
自然言語処理ツールを使用して、前記分割クラス集合における分割クラスのクラス名に基づいて、前記テキスト特徴集合における対応する分割クラスのテキスト特徴を確定する、方法。

（付記５）
付記４に記載の方法であって、
前記自然言語処理ツールはｗｏｒｄ２ｖｅｃ、ＧＬＯＶＥ、又はＬＳＴＭ特徴抽出器である、方法。

（付記６）
付記２に記載の方法であって、
ＣＬＩＰ（ＣｏｎｔｒａｓｔｉｖｅＬａｎｇｕａｇｅ－ＩｍａｇｅＰｒｅ－ｔｒａｉｎｉｎｇ）ツールを使用して、前記分割クラス集合における分割クラスのクラス名を含むクラス記述センテンスに基づいて、対応する分割クラスのテキスト特徴を確定する、方法。

（付記７）
付記２に記載の方法であって、
次のような方式で前記外部知識特徴を生成し、即ち、
前記グラフニューラルネットワークの特徴抽出モジュールが、前記隣接マトリックス及び前記テキスト特徴集合に基づいて、前記分割クラス集合についての第一中間外部知識特徴を抽出し；
前記第一中間外部知識特徴のクラス次元に１を増やすことで、第二中間外部知識特徴を取得し；及び
Ｈ個の前記第二中間外部知識特徴をアラインメントして重ねることで前記外部知識特徴を取得し、
ここで、増加したクラス次元は、背景分割クラスを表すベクトルに対応する、方法。

（付記８）
付記３に記載の方法であって、
前記外部知識特徴と前記バッチ視覚特徴とを融合することで、前記現在のバッチのバッチ融合特徴を生成することは、
中間バッチ融合特徴を確定し；及び
前記中間バッチ融合特徴に対して第一畳み込み処理を行うことで、前記現在のバッチのバッチ融合特徴を確定することを含み、
前記現在のバッチの少なくとも１つのサンプル画像の数が１であるときに、中間バッチ融合特徴を確定することは、前記現在のバッチのサンプル画像のサンプル融合特徴を、前記現在のバッチの中間バッチ融合特徴と設定することを含み、かつ
前記現在のバッチの少なくとも１つのサンプル画像の数が１よりも大きいときに、中間バッチ融合特徴を確定することは、前記現在のバッチの複数のサンプル画像のサンプル融合特徴をつなぎ合わせることで前記現在のバッチの中間バッチ融合特徴を確定することを含む、方法。

（付記９）
付記８に記載の方法であって、
前記第一畳み込み処理は、前記中間バッチ融合特徴のチャンネル次元数を変えるための１＊１畳み込み処理である、方法。

（付記１０）
付記８に記載の方法であって、
次のような融合方式で現在のサンプル画像のサンプル融合特徴を確定し、即ち、
第二畳み込み処理により、前記現在サンプル画像の視覚特徴に基づいて、現在のサンプル画像の分割特徴を確定し；
マトリックスの乗算により、前記外部知識特徴及び前記現在のサンプル画像の分割特徴に基づいて、前記現在のサンプル画像のサイズがＨ＊Ｗ＊Ｄである第一中間サンプル融合特徴を確定し；
画素に従って前記現在のサンプル画像の第一中間サンプル融合特徴と前記現在のサンプル画像の次元変換特徴とをアラインメントしてつなぎ合わせることで前記現在サンプル画像の第二中間サンプル融合特徴を確定し；及び
前記現在のサンプル画像の第二中間サンプル融合特徴に対して転置を行うことで、前記現在のサンプル画像のサンプル融合特徴を確定し、
ここで、Ｗは前記訓練サンプル集合における各サンプル画像の幅であり、
前記現在のサンプル画像の前記次元変換特徴は、前記現在サンプル画像の視覚特徴に基づいて確定される、方法。

（付記１１）
付記１０に記載の方法であって、
前記第二畳み込み処理は、前記視覚特徴のチャンネル次元数を変えるための１＊１畳み込み処理である、方法。

（付記１２）
付記１０に記載の方法であって、
マトリックスの乗算により、前記外部知識特徴及び前記現在のサンプル画像の分割特徴に基づいて、前記現在のサンプル画像のサイズがＨ＊Ｗ＊Ｄである第一中間サンプル融合特徴を確定することは、
前記マトリックスの乗算を行う前に、前記分割特徴に対して転置を行うことを含む、方法。

（付記１３）
付記１２に記載の方法であって、
前記次元変換特徴は、前記視覚特徴に対して転置を行うことで得られる、方法。

（付記１４）
付記１に記載の方法であって、
前記グラフニューラルネットワークは、グラフ畳み込みニューラルネットワーク又はグラフアテンションネットワークである、方法。

（付記１５）
付記１に記載の方法であって、
前記語義分割ネットワークは以下のアーキテクチャのうちの１つに基づいており、
ＦＰＮ（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋｓ、ＦＰＮ）；
ＣＣＮｅｔ（Ｃｒｉｓｓ－ＣｒｏｓｓＮｅｔｗｏｒｋｓ、ＣＣＮｅｔ）；及び
ＳＥＴＲ（ＳｅｇｍｅｎｔａｔｉｏｎＴｒａｎｓｆｏｒｍｅｒ、ＳＥＴＲ）である、方法。

（付記１６）
画像検出方法であって、
付記１乃至１５のうちの任意の１項に記載の方法によって訓練される語義分割モデルを用いて、検出待ち画像を処理することを含む、方法。

（付記１７）
語義分割モデルを訓練するための装置であって、
命令を記憶している記憶器；及び
少なくとも１つの処理器を含み、
少なくとも１つの処理器は、前記命令を実行して、反復の方式で前記語義分割モデルを訓練するように構成され、そのうち、前記語義分割モデルは語義分割ネットワークを含み、前記語義分割ネットワークはエンコーダー及びデコーダーを含み、
前記語義分割モデルを訓練することは、
グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し；
前記デコーダーが前記エンコーダーの出力に基づいて訓練サンプル集合における現在のバッチの少なくとも１つのサンプル画像に対応する少なくとも１つの視覚特徴を含むバッチ視覚特徴を生成し；
前記外部知識特徴と前記バッチ視覚特徴とを融合し、前記現在のバッチのバッチ融合特徴を生成し；
前記バッチ融合特徴に基づいて分割結果を生成し；及び
前記分割結果に基づいて前記語義分割モデルを調整することを含む、装置。

（付記１８）
付記１７に記載の装置であって、
前記グラフニューラルネットワークは、グラフ畳み込みニューラルネットワーク又はグラフアテンションネットワークである、装置。

（付記１９）
付記１７に記載の装置であって、
前記語義分割ネットワークは以下のアーキテクチャのうちの１つに基づいており、
ＦＰＮ（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋｓ、ＦＰＮ）；
ＣＣＮｅｔ（Ｃｒｉｓｓ－ＣｒｏｓｓＮｅｔｗｏｒｋｓ、ＣＣＮｅｔ）；及び
ＳＥＴＲ（ＳｅｇｍｅｎｔａｔｉｏｎＴｒａｎｓｆｏｒｍｅｒ、ＳＥＴＲ）である、装置。

（付記２０）
付記１７に記載の装置であって、
前記語義分割ネットワークは、ＦＰＮに基づくネットワークであり、
前記グラフニューラルネットワークは、グラフ畳み込みニューラルネットワークであり、
前記グラフ畳み込みニューラルネットワークは、前記分割クラス集合に対応するテキスト特徴集合に基づいて前記外部知識特徴を生成し、
前記テキスト特徴集合におけるテキスト特徴は、ＣＬＩＰ（ＣｏｎｔｒａｓｔｉｖｅＬａｎｇｕａｇｅ－ＩｍａｇｅＰｒｅ－ｔｒａｉｎｉｎｇ）ツールを使用して、前記分割クラス集合における分割クラスのクラス名を含むクラス記述センテンスに基づいて確定される、装置。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。

Claims

コンピュータが実行する、語義分割モデルを訓練する方法であって、
反復の方式で前記語義分割モデルを訓練することを含み、
前記語義分割モデルは語義分割ネットワークを含み、前記語義分割ネットワークはエンコーダー及びデコーダーを含み、
前記語義分割モデルを訓練することは、
グラフニューラルネットワークにより、分割クラス集合についての外部知識特徴を生成し；
前記デコーダーにより、前記エンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも１つのサンプル画像に対応する少なくとも１つの視覚特徴を含むバッチ視覚特徴を生成し；
前記外部知識特徴と前記バッチ視覚特徴とを融合し、前記現在のバッチのバッチ融合特徴を生成し；
前記バッチ融合特徴に基づいて、分割結果を生成し；及び
前記分割結果に基づいて、前記語義分割モデル及び前記グラフニューラルネットワークを調整することを含む、方法。
請求項１に記載の方法であって、
前記グラフニューラルネットワークは、隣接マトリックス及びテキスト特徴集合に基づいて、前記分割クラス集合についての外部知識特徴を生成するように構成され、
前記隣接マトリックスは、前記分割クラス集合と関連付けられる分類図の辺の値に基づいて確定され、
前記分類図は、前記分割クラス集合に対応する複数のノードを含み、
前記テキスト特徴集合におけるテキスト特徴は、前記分割クラス集合の中の対応する分割クラスのクラス名に基づいて確定され、
前記分類図の２つのノードの間の辺の値は、
前記２つのノードに対応する２つの分割クラスの、前記訓練サンプル集合についての共起回数；及び
前記２つのノードに対応する２つの分割クラスの推定共起確率
のうちの少なくとも１つに基づいて確定される、方法。
請求項２に記載の方法であって、
前記外部知識特徴は、サイズがＨ＊（Ｎ＋１）＊Ｄである３次元マトリックスであり、
Ｈは前記訓練サンプル集合における各サンプル画像の高さであり、
Ｎは前記分割クラス集合における分割クラスの数であり、
Ｄは前記テキスト特徴集合の中のテキスト特徴のコンポーネントの数であり、
前記外部知識特徴は、背景分割クラスを表すベクトルを含む、方法。
請求項２に記載の方法であって、
自然言語処理ツールを使用して、前記分割クラス集合の中の分割クラスのクラス名に基づいて、前記テキスト特徴集合の中の対応する分割クラスのテキスト特徴を確定する、方法。
請求項４に記載の方法であって、
前記自然言語処理ツールは、ｗｏｒｄ２ｖｅｃ、ＧＬＯＶＥ、又はＬＳＴＭ特徴抽出器である、方法。
請求項２に記載の方法であって、
ＣＬＩＰ（ＣｏｎｔｒａｓｔｉｖｅＬａｎｇｕａｇｅ－ＩｍａｇｅＰｒｅ－ｔｒａｉｎｉｎｇ）ツールを使用して、前記分割クラス集合の中の分割クラスのクラス名を含むクラス記述センテンスに基づいて、対応する分割クラスのテキスト特徴を確定する、方法。
請求項３に記載の方法であって、
前記外部知識特徴と前記バッチ視覚特徴とを融合し、前記現在のバッチのバッチ融合特徴を生成することは、
中間バッチ融合特徴を確定し；及び
前記中間バッチ融合特徴に対して第一畳み込み処理を行い、前記現在のバッチのバッチ融合特徴を確定することを含み、
前記現在のバッチの少なくとも１つのサンプル画像の数が１であるときに、中間バッチ融合特徴を確定することは、前記現在のバッチのサンプル画像のサンプル融合特徴を、前記現在のバッチの中間バッチ融合特徴と設定することを含み、
前記現在のバッチの少なくとも１つのサンプル画像の数が１よりも大きいときに、中間バッチ融合特徴を確定することは、前記現在のバッチの複数のサンプル画像のサンプル融合特徴をつなぎ合わせることで前記現在のバッチの中間バッチ融合特徴を確定することを含む、方法。
請求項７に記載の方法であって、
第二畳み込み処理により、前記現在のサンプル画像の視覚特徴に基づいて、現在のサンプル画像の分割特徴を確定し；
マトリックスの乗算により、前記外部知識特徴及び前記現在サンプル画像の分割特徴に基づいて、前記現在のサンプル画像のサイズがＨ＊Ｗ＊Ｄである第一中間サンプル融合特徴を確定し；
画素に従って、前記現在のサンプル画像の第一中間サンプル融合特徴と、前記現在のサンプル画像の次元変換特徴とをアラインメントしてつなぎ合わせることで、前記現在のサンプル画像の第二中間サンプル融合特徴を確定し；及び
前記現在のサンプル画像の第二中間サンプル融合特徴に対して転置を行い、前記現在のサンプル画像のサンプル融合特徴を確定し、
Ｗは前記訓練サンプル集合における各サンプル画像の幅であり、
前記現在のサンプル画像の前記次元変換特徴は、前記現在のサンプル画像の視覚特徴に基づいて確定される、方法。
画像検出方法であって、
請求項１に記載の方法によって訓練される語義分割モデルを使用して、検出待ち画像を処理することを含む、画像検出方法。
語義分割モデルを訓練するための装置であって、
命令を記憶している記憶器；及び
少なくとも１つの処理器を含み、
前記少なくとも１つの処理器は、前記命令を実行して、反復の方式で前記語義分割モデルを訓練するように構成され、
前記語義分割モデルは語義分割ネットワークを含み、前記語義分割ネットワークはエンコーダー及びデコーダーを含み、
前記語義分割モデルを訓練することは、
グラフニューラルネットワークにより、分割クラス集合についての外部知識特徴を生成し；
前記デコーダーにより、前記エンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも１つのサンプル画像に対応する少なくとも１つの視覚特徴を含むバッチ視覚特徴を生成し；
前記外部知識特徴と前記バッチ視覚特徴とを融合し、前記現在のバッチのバッチ融合特徴を生成し；
前記バッチ融合特徴に基づいて、分割結果を生成し；及び
前記分割結果に基づいて、前記語義分割モデル及び前記グラフニューラルネットワークを調整することを含む、装置。