JP2023101463A - 語義分割モデルを訓練する方法及び装置、並びに画像検出方法 - Google Patents

語義分割モデルを訓練する方法及び装置、並びに画像検出方法 Download PDF

Info

Publication number
JP2023101463A
JP2023101463A JP2022208671A JP2022208671A JP2023101463A JP 2023101463 A JP2023101463 A JP 2023101463A JP 2022208671 A JP2022208671 A JP 2022208671A JP 2022208671 A JP2022208671 A JP 2022208671A JP 2023101463 A JP2023101463 A JP 2023101463A
Authority
JP
Japan
Prior art keywords
features
batch
feature
training
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022208671A
Other languages
English (en)
Inventor
威 劉
Wei Liu
ジャン・ホォイガン
Hui Gang Zhang
俊 孫
Shun Son
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2023101463A publication Critical patent/JP2023101463A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】本発明は、語義分割モデルを訓練する方法及び装置、並びに画像検出方法を提供する。【解決手段】語義分割モデルを訓練する方法は、反復の方式で語義分割モデルを訓練することを含む。語義分割モデルは語義分割ネットワークを含む。語義分割モデルを訓練することは、グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し;デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも1つのサンプル画像に対応する少なくとも1つの視覚特徴を含むバッチ視覚特徴を生成し;外部知識特徴とバッチ視覚特徴とを融合し、現在のバッチのバッチ融合特徴を生成し;バッチ融合特徴に基づいて分割結果を生成し;及び、分割結果に基づいて語義分割モデル及びグラフニューラルネットワークを調整することを含む。【選択図】図1

Description

本発明は、画像処理に関し、特に、語義分割(Semantic Segmentation)モデルを訓練する方法、語義分割モデルを訓練する装置、及び画像検出方法に関する。
画像処理はコンピュータサイエンスの分野及び人工知能の分野における重要な方向性の1つである。それは、例えば、対象(オブジェクト)ポジショニング、対象識別(認識)、対象分割、対象検出などの様々な理論及び方法を研究の対象としている。
近年、人工知能に係る深層学習の技術分野において、ニューラルネットワークモデルを使用して画像データに対して画像処理を行う方法は多くなっており、かつ良好な応用前景を示している。
一般的に言えば、全結合畳み込みニューラルネットワークを代表とする語義分割モデルの受容野(Receptive Field)は3*3や5*5である。
本発明の目的は、語義分割モデルを訓練する方法、語義分割モデルを訓練する装置、及び画像検出方法を提供することにある。
本発明の1つの側面によれば、コンピュータが実行する、語義分割モデルを訓練する方法が提供され、この方法は反復(iteration)の方式で語義分割モデルを訓練することを含み、そのうち、語義分割モデルは語義分割ネットワークを含み、語義分割ネットワークはエンコーダー及びデコーダーを含み、語義分割モデルを訓練することは、グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し;デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも1つのサンプル画像に対応する少なくとも1つの視覚特徴を含むバッチ視覚特徴を生成し;外部知識特徴とバッチ視覚特徴とを融合し、現在のバッチのバッチ融合特徴を生成し;バッチ融合特徴に基づいて分割結果を生成し;及び、分割結果に基づいて語義分割モデル及びグラフニューラルネットワークを調整することを含む。
本発明の1つの側面によれば、画像検出方法が提供される。この方法は、前述のモデル訓練方法によって訓練される語義分割モデルを用いて、検出待ち画像を処理することを含む。
本発明の1つの側面によれば、語義分割モデルを反復の方式で訓練するための装置が提供される。語義分割モデルは語義分割ネットワークを含む。語義分割ネットワークはエンコーダー及びデコーダーを含む。この装置は、外部知識生成ユニット及び訓練ユニットを含む。外部知識生成ユニットは、グラフニューラルネットワークを使用して、分割クラス集合についての外部知識特徴を生成するように構成される。訓練ユニットは、語義分割モデルを訓練するように構成される。語義分割モデルを訓練することは、デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも1つのサンプル画像に対応する少なくとも1つの視覚特徴を含むバッチ視覚特徴を生成し;外部知識特徴とバッチ視覚特徴とを融合し、現在のバッチのバッチ融合特徴を生成し;バッチ融合特徴に基づいて分割結果を生成し;及び、分割結果に基づいて、語義分割モデル及びグラフニューラルネットワークを調整することを含む。
本発明の1つの側面によれば、語義分割モデルを訓練するための装置が提供される。この装置は、命令を記憶している記憶器;及び、少なくとも1つの処理器を含み、少なくとも1つの処理器は、命令を実行して、反復の方式で語義分割モデルを訓練するように構成され、そのうち、語義分割モデルは語義分割ネットワークを含み、語義分割ネットワークはエンコーダー及びデコーダーを含み、語義分割モデルを訓練することは、グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し;デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも1つのサンプル画像に対応する少なくとも1つの視覚特徴を含むバッチ視覚特徴を生成し;外部知識特徴とバッチ視覚特徴とを融合し、現在のバッチのバッチ融合特徴を生成し;バッチ融合特徴に基づいて分割結果を生成し;及び、分割結果に基づいて語義分割モデル及びグラフニューラルネットワークを調整することを含む。
本発明の1つの側面によれば、プログラムを記憶しているコンピュータ可読記憶媒体が提供され、該プログラムは実行されるときに、コンピュータに、反復の方式で語義分割モデルを訓練させる。語義分割モデルは語義分割ネットワークを含み、語義分割ネットワークはエンコーダー及びデコーダーを含む。語義分割モデルを訓練することは、グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し;デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも1つのサンプル画像に対応する少なくとも1つの視覚特徴を含むバッチ視覚特徴を生成し;外部知識特徴とバッチ視覚特徴とを融合し、現在のバッチのバッチ融合特徴を生成し;バッチ融合特徴に基づいて、分割結果を生成し;及び、分割結果に基づいて、語義分割モデル及びグラフニューラルネットワークを調整することを含む。
本発明の1つの側面によれば、プログラムを記憶しているコンピュータ可読記憶媒体が提供され、該プログラムは実行されるときに、コンピュータに、訓練後の語義分割モデルを使用して、検出待ち画像を処理させる。
本発明による方法、装置、記憶媒体などは、受容野を拡大し、モデルの正確度を向上させることができるという有利な効果を奏する。
本発明の1つの実施例において語義分割モデルを訓練する方法の例示的なフローチャートである。 本発明の1つの実施例における語義分割モデルを示す図である。 本発明の1つの実施例において外部知識特徴を生成する方法の例示的なフローチャートである。 本発明の1つの実施例における例示的なクラス記述センテンスの例示的なリストを示す図である。 本発明の1つの実施例においてバッチ融合特徴を生成する方法の例示的なフローチャートである。 本発明の1つの実施例においてサンプル融合特徴を確定する方法の例示的なフローチャートである。 本発明の1つの実施例における画像検出方法の例示的なフローチャートである。 本発明の1つの実施例において語義分割モデルを訓練するための装置の例示的なブロック図である。 本発明の1つの実施例において語義分割モデルを訓練するための装置の例示的なブロック図である。 本発明の1つの実施例における情報処理装置の例示的なブロック図である。
以下、添付した図面を参照しながら、本発明を実施するための好適な実施例を詳細に説明する。なお、これらの実施例は例示に過ぎず、本発明を限定するものではない。
本発明の実施例の各側面に係る操作を実行するためのコンピュータプログラムコードは1つ又は複数のプログラミング言語の任意の組み合わせによって書かれても良い。このようなプログラミング言語はオブジェクト指向型プログラミング言語、例えば、Java、Smalltalk、C++などを含み、さらに通常の手続き型プログラミング言語、例えば、Cプログラミング言語又はその類似したプログラミング言語をも含む。
本発明による方法は、対応する機能を有する回路によって実現され得る。このような回路は、処理器用の回路を含む。
本発明はニューラルネットワークを用いて語義分割を実現することに関する。訓練後の語義分割モデルの入力は検出待ち画像であり、出力は画像中の各画素の対応するクラス(カテゴリともいう)を示す分割結果である。同一のクラスに属する画素からなる連結領域(connected domain)は1つの対象(object)実体を表す。これらのクラスは本発明で“分割クラス”と称され、これらのクラスからなる集合は“分割クラス集合”と称される。サンプル画像を使用して語義分割モデルを訓練する。サンプル画像からなる集合は“訓練サンプル集合”と称される。訓練の過程では、語義分割モデルのパラメータを調整することで、モデルのパフォーマンスが徐々に向上し、かつ安定するようにさせることができる。語義分割モデルの受容野を拡大し、かつ語義分割モデルの正確度を向上させるために、発明者は次のような構想に基づいて本発明の技術案を設計しており、即ち、視覚特徴と、分類図(分類マップ)と関連付けられる外部知識特徴とを融合した融合特徴に基づいて、語義分割を行い、そのうち、分類図は訓練サンプル集合と関連付けられる。
本発明の1つの側面によれば、語義分割モデルMssを訓練する方法が提供され、該方法はコンピュータによって実現され得る。以下、図1を参照して該方法について例示的に説明を行う。
語義分割モデルMssを訓練する方法100は反復の方式で語義分割モデルMssを訓練することを含み、そのうち、語義分割モデルMssは語義分割ネットワークSSNを含む。訓練を行うときに、語義分割モデルMssの入力はサンプル画像、及びグラフニューラルネットワークGNNによって出力される外部知識特徴Feを含む。グラフニューラルネットワークGNNは、分割クラス集合{C[n]}(“{}”は集合を表し、C[n]は該集合におけるn番目の要素を表し、該集合には、少なくとも1つの要素が含まれ、便宜のため、1つのみの一般的な要素C[n]が示されている)についての外部知識特徴Feを生成するように構成される。分割クラス集合{C[n]}における分割クラスの数が“N”で表され、Nは自然数である。例えば、語義分割モデルMssがレシピ画像についての語義分割モデルであるときに、分割クラス集合{C[n]}に含まれるのは、例えば、“bread roll”、“beef”、“onion”、“tomato”、“lettuce”などのN(例えば、N=103)個の分割クラスである。語義分割ネットワークSSNは通常のアーキテクチャを有し、エンコーダー及びデコーダーを含む。エンコーダーは入力画像のエンコーディング特徴を生成する。デコーダーはエンコーダーの出力特徴に対してアップサンプリングを行い、出力画像のサイズと同じサイズを有する視覚特徴を生成する。1つの例示的な訓練反復ループ(Loop)において、訓練操作は図1に示すフローを含んでも良い。図1は本発明の1つの実施例において語義分割モデルMssを訓練する方法100の例示的なフローチャートである。
ステップS101において、グラフニューラルネットワークGNNが分割クラス集合についての外部知識特徴Feを生成する。
ステップS103において、デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも1つのサンプル画像に対応する少なくとも1つの視覚特徴を含むバッチ視覚特徴を生成する。1つの訓練反復ループにおいて、1回、1バッチのサンプル画像(Im[i]でそのうちの1つのサンプル画像を表す)を入力する。このようなバッチのサンプル画像の数が“B”で表され、例えば、B=8である。モデルを訓練するときに、通常の場合、Bが大きいほど(即ち、訓練に参加する各バッチのサンプル画像が多いほど)、訓練後モデルのパフォーマンスが良くなる。サンプル画像Im[i]の視覚特徴はFv[i]と表すことができ、Fv[i]∈RCh*W*Hであり、そのうち、Chは出力特徴のチャンネル次元のサイズ(大きさ)であり、チャンネル次元数と略称され、Wはサンプル画像の幅であり、Hはサンプル画像の高さである。バッチ視覚特徴はFbで表し、Fb∈RB*Ch*W*Hである。Bが1よりも大きいときに、B個の視覚特徴をアラインメントして重ねることでバッチ視覚特徴Fbを得ることができる。
ステップS105において、外部知識特徴Feとバッチ視覚特徴Fbとを融合することで、現在のバッチのバッチ融合特徴Fbfを生成し、Fbf∈RB*(N+1)*W*Hであり、そのうち、“N+1”における“1”は“背景”クラスを考慮して増加した次元である。このステップは語義分割モデルの融合層によって実現され得る。
ステップS107において、バッチ融合特徴Fbfに基づいて分割結果Rsを生成する。分割結果Rsは画像中の各画素の分割クラスを示す。このステップは語義分割モデルの分類層によって実現され得る。
ステップS109において、分割結果に基づいて語義分割モデルMss及びグラフニューラルネットワークGNNを調整する。具体的には、分割結果に基づいて損失関数を確定し;損失関数に基づいて、例えば、勾配降下法を用いて、モデル及びネットワークのパラメータを調整することで、モデルMss及びネットワークGNNを最適化する目的を達成できる。調整されるパラメータは、ネットワークGNNのパラメータ及びネットワークSSNのパラメータを含む。
方法100を繰り返して実行することにより、モデルMss及びグラフニューラルネットワークGNNを次第に最適化する目的を達成し、そのうち、現在の反復ループにおいては、1つ前の反復ループで確定されたモデルをもとに訓練が行われる。訓練終了の条件は例えば、訓練が所定の回数に達しており、損失関数が収斂(収束)しており、損失関数が十分に小さくなっていることなどである。最終的に最適化された(即ち、反復訓練完了後の)グラフニューラルネットワークGNNによって生成される外部知識特徴は、訓練済みの語義分割モデルの入力パラメータ又は組み込みパラメータとして使用することで、検出待ち画像を処理できる。
通常の語義分割モデルは多くの場合、3*3や5*5の畳み込みカーネルに基づいて、画像に対して畳み込みを行い、かつ重み値の共有に従って、対応する受容野のサイズは3*3や5*5である。即ち、通常の語義分割モデルの受容野が比較的小さいので、分割のパフォーマンスは大きく制限されている。方法100では、通常の語義分割ネットワークをもとに、融合層が増加しており、それは、グラフニューラルネットワークGNNが与える外部知識特徴と、デコーダーが与える視覚特徴とを融合する。言い換えれば、本発明の語義分割モデルMssは語義分割ネットワーク及び融合層を含む。グラフニューラルネットワークGNNは、より大きな受容野の画素間の空間位置の関連付けを確立し、より多くのコンテキスト情報を得ることができるため、受容野不足の問題を根本的に解決し、語義分割のパフォーマンスを向上させる潜在能力を有する。語義分割のタスクにおいて、外部知識は視覚特徴の補充とすることで、モデルのパフォーマンスを向上させるために用いることができる。方法100では、語義分割ネットワークによって生成される視覚特徴と、グラフニューラルネットワークによって生成される外部知識特徴とを融合し、融合した融合特徴は画像全体の中の各画素又は比較的遠い領域の間の関係を反映でき、そのため、このような融合特徴を用いて語義分割を行うことで受容野を拡大し、語義分割モデルの正確度を向上させることができる。
図2は本発明の1つの実施例における語義分割モデルMssを示す図であり、図中では、訓練の段階における語義分割モデルMssの入力や出力の状況が示されている。図2に示すように、モデルMssは語義分割ネットワークSSNを含み、そのうち、語義分割ネットワークSSNは一般的な“エンコーダー-デコーダー”アーキテクチャを有する。現在のバッチのサンプル画像を使用した訓練反復ループについて、モデルMssの入力はB個のサンプル画像Im[i]、Im[i+1]、……、Im[i+B-1]を含み、モデルMssの出力は分割結果Rsである。入力画像はRGB画像であっても良い。語義分割ネットワークSSNはエンコーダーEnCoder及びデコーダーDeCoderを含む。エンコーダーEnCoderは入力画像を受信して画像の特徴に対してエンコーディングを行い、デコーダーDeCoderは、エンコーダーが出力した特徴(特徴マップ)に対してアップサンプリング(upsample)を行うことで、アップサンプリング後の出力特徴が元の画像のサイズと同じになるようにさせる。エンコーダーEnCoderは複数の層を含み、各層は畳み込み層及びプーリング層を含む。畳み込み層は、畳み込み処理(図2では“Conv”で表される)、正規化処理、活性化処理(図2ではRELU(Rectified Linear Unit、RELU)を用いて活性化を行うことが例示的に示されている)などを完了する。グラフニューラルネットワークGNNは、分割クラス集合についての外部知識特徴Feを生成するために用いられる。語義分割ネットワークSSNのデコーダーDeCoderは、エンコーダーの出力に基づいて、バッチ入力画像のバッチ視覚特徴Fbを生成する。外部知識特徴Feは語義分割ネットワークMssの融合層に入力される。融合層はバッチ視覚特徴Fbと外部知識特徴Feとを融合することで、バッチ融合特徴Fbfを取得する。語義分割モデルMssは(例えば、Softmax分類器を使用して)バッチ融合特徴Fbfに基づいて画像中の各画素に対して分類を行い、分割結果Rsを得る。各サンプル画像について言えば、異なる色の連結領域を含む、該サンプル画像のサイズと同じサイズの画像を用いて、該サンプル画像についての分割結果を表すことができ、そのうち、各色は1つの分割クラスを表す。本発明では、グラフニューラルネットワークGNNはグラフ畳み込みニューラルネットワーク(Graph Convolutional Network、GCN)又はグラフアテンションネットワーク(Graph Attention Network、GAT)であっても良い。
外部知識は、内部知識としての視覚特徴の外部情報である。外部知識は特徴を豊富にするのに役立つ。外部知識は訓練データ集合から得ることができる。以下、グラフニューラルネットワークGNNを用いて外部知識特徴Feを生成する方法について説明する。
図3は本発明の1つの実施例において外部知識特徴Feを生成する方法300の例示的なフローチャートであり、そのうち、前記分割クラス集合についての外部知識特徴は、グラフニューラルネットワークによって、隣接マトリックス及びテキスト特徴集合に基づいて生成される。
ステップS301において、訓練サンプル集合におけるラベルに基づいて、分割クラス集合{C[n]}と関連付けられる分類図Gsのノード集合{Node[n]}(“{}”は集合を表し、Node[n]は該集合におけるn番目の要素を表し、該集合には、少なくとも1つの要素が含まれており、便宜のため、1つのみの一般的な要素Node[n]が示されている)を確定する。ノード集合{Node[n]}は分割クラス集合{C[n]}に対応し、ノード集合{Node[n]}におけるノードNode[n]は分割クラス集合{C[n]}における分割クラスC[n]に対応する。ラベルは、サンプル画像中の対応する領域内の対象の属する具体的な分割クラスを指示する。
ステップS303において、テキスト特徴集合{V[n]}を確定し、そのうち、テキスト特徴集合{V[n]}におけるテキスト特徴V[n]は、分割クラス集合{C[n]}中の対応する分割クラスC[n]を表すベクトルであり、該ベクトルは分割クラスC[n]のクラス名Name[n]に基づいて確定される。即ち、このステップではN個のテキスト特徴ベクトルを取得し、テキスト特徴V[n]は分類図GsにおけるノードNode[n]に対応する。テキスト特徴V[n]を用いてノードNode[n]を表すことができる。テキスト特徴V[n]∈Rであり、Dはコンポーネントの数であり、例えば、D=64である。1つの例において、自然言語処理(Natural Language Processing、NLP)ツールを使用して、分割クラス集合における分割クラスC[n]のクラス名Name[n]に基づいて、分割クラスC[n]のテキスト特徴V[n]を確定できる。自然言語処理ツールはword2vec、GLOVE(Global Vectors for Word Representation)、又はLSTM(Long short-term memory)特徴抽出器であっても良い。1つの例において、CLIP(Contrastive Language-Image Pre-training、CLIP)ツールを使用して、分割クラス集合{C[n]}における分割クラスのクラス名Name[n]を含むクラス記述センテンス(Sen[n])に基づいて、対応する分割クラスC[n]のテキスト特徴V[n]を確定できる。図4は本発明の1つの実施例におけるクラス記述センテンスの例示的リスト400(リストの一部のみが示されている)を示しており、そのうち、各行は1つのクラス記述センテンスである。リスト400はレシピ分割クラス集合についてのクラス記述センテンスのリストである。1つの例において、クラス記述センテンスは経験に基づいてユーザ自体によって生成されても良い。
ステップS305において、グラフニューラルネットワークGNNと関連付けられる隣接マトリックスMataを確定する。隣接マトリックスMataのサイズがN*Nである。隣接マトリックスMataのマトリックス要素enn’はNode[n]とNode[n’]との間の関係を示す。1つの例において、次のような方式で隣接マトリックスMataを確定でき、即ち、分類図Gsの辺(エッジ)の値を確定し、確定した辺の値に基づいてN*Nのマトリックスを確定し、該マトリックスに対して列に従って正規化を行い(例えば、目標列における最大値を使用して該目標列における各マトリックス要素に対して正規化を行い)、正規化後のマトリックスの対角線上のマトリックス要素(即ち、enn)を1に設定する。分類図Gsの2つのノードNode[n]とNode[n’]との間の辺の値は少なくとも、次のようなもののうちの少なくとも1つに基づいて確定され、即ち、2つのノードNode[n]及びNode[n’]に対応する2つの分割クラスC[n]及びC[n’]の、訓練サンプル集合{Im[i]}についての共起回数(計数)cnn’;及び、2つのノードNode[n]及びNode[n’]に対応する2つの分割クラスC[n]及びC[n’]の推定共起確率pnn’である。共起回数cnnをカウントするときに、cnn’の初期値が0であり、1つのサンプル画像において分割クラスC[n]及びC[n’]が同時に出現する場合、cnn’に1を増やす。訓練サンプル集合全体をトラバースし(即ち、訓練サンプル集合全体の要素を1つずつチェックし)、訓練サンプル集合{Im[i]}において分割クラスC[n]及びC[n’]同時に出現するサンプル画像の数をカウントすることで、最終的なcnn’を得ることができる。推定共起確率pnn’は、ユーザが経験又は常識に基づいて推定することで与えた、分割クラスC[n]及びC[n’]が同一の画像において出現する確率である。
ステップS307において、グラフニューラルネットワークGNNの特徴抽出モジュールBKeが、隣接マトリックスMata及びテキスト特徴集合{V[n]}に基づいて、抽出分割クラス集合{C[n]}についての第一中間外部知識特徴Fe’を抽出し、Fe’∈RN*Dである。
ステップS309において、グラフニューラルネットワークGNNの後処理モジュールBKpが第一中間外部知識特徴Fe’に対して後処理を行って外部知識特徴Feを取得し、Fe∈RH*(N+1)*Dである。後処理は、第一中間外部知識特徴Fe’のクラス次元に1(1つの次元)を増やすことで第二中間外部知識特徴Fe’’を取得し、Fe’’∈R(N+1)*Dであり、そのうち、増加したクラス次元は背景分割クラスを表すベクトルに対応し、該ベクトル次元はR1*Dであり、初期化時に各成分(コンポーネント)の初期化値を0(ゼロ)とすることができ、H個の第二中間外部知識特徴Fe’’をアラインメントして重ねることで外部知識特徴Feを得ることができる。外部知識特徴Feは背景分割クラスを表すベクトルを含む。
以下、本発明に係る融合処理について例示的に説明する。
図5は本発明の1つの実施例においてバッチ融合特徴Fbfを生成する方法500の例示的なフローチャートである。図5に示すように、方法500の入力はB個のサンプル融合特徴Fsf[1]、……、Fsf[b]、……Fsf[B]であり、出力はバッチ融合特徴Fbfである。ステップS501において、中間バッチ融合特徴Fbf’を確定し、Fbf’∈RB*(D+Ch)*W*Hであ。現在のバッチの少なくとも1つのサンプル画像の数が1であるときに、中間バッチ融合特徴を確定することは、現在のバッチのサンプル画像のサンプル融合特徴を、現在のバッチの中間バッチ融合特徴と設定することを含む。現在のバッチの少なくとも1つのサンプル画像の数が1よりも大きいときに、中間バッチ融合特徴を確定することは、現在のバッチの複数のサンプル画像のサンプル融合特徴をつなぎ合わせることで現在のバッチの中間バッチ融合特徴を確定することを含む。任意の1つのサンプル融合特徴Fsf[b]のサイズが(D+Ch)*W*Hであり、即ち、Fsf[b]∈R(D+Ch)*W*Hである。Bが1よりも大きいときに、B個のサンプル融合特徴をアラインメントして重ねることでつなぎ合わせを実現でき、これによって、中間バッチ融合特徴Fbf’を得ることができる。ステップS503において、中間バッチ融合特徴Fbf’に対して第一畳み込み処理Conv1を行うことで、現在のバッチのバッチ融合特徴Fbfを確定する。第一畳み込み処理Conv1は特徴のチャンネル次元数を変えることができ、具体的には、チャンネル次元数をD+ChからN+1に変える。チャンネル次元数を変える第一畳み込み処理Conv1は1*1畳み込み処理である。
以下、方法500に係るサンプル融合特徴について例示的に説明する。
図6は本発明の1つの実施例においてサンプル融合特徴を確定する方法600の例示的なフローチャートであり、図中では、サンプル融合特徴Fsf[b]は、現在のサンプル画像と略称される、現在の関心のあるサンプル画像Im[b]に向けられる。ステップS601において、第二畳み込み処理Conv2により、現在のサンプル画像Im[b]の視覚特徴Fv[b]に基づいて、現在のサンプル画像の分割特徴Fs[b]を確定する。分割特徴Fs[b]のサイズは(N+1)*W*Hであり、即ち、Fs[b]∈R(N+1)*W*Hである。視覚特徴Fv[b]のサイズはCh*W*Hであり、即ち、Fv[b]∈RCh*W*Hである。第二畳み込み処理Conv2は特徴のチャンネル次元数を変更でき、具体的には、視覚特徴のチャンネル次元数をChからN+1に変える。チャンネル次元数を変更する第二畳み込み処理Conv2は1*1畳み込み処理である。ステップS603において、マトリックスの乗算により、外部知識特徴Fe及び現在のサンプル画像の分割特徴Fs[b]に基づいて、現在のサンプル画像のサイズがH*W*Dである第一中間サンプル融合特徴Fsf’[b]を確定し、マトリックスの乗算を行う前に、Fs[b]に対して転置(Transpose)操作を行い、分割特徴の次元分布を[N+1,W,H]から[H,W,N+1]に変換し、即ち、Fsf’[b]=Transpose(Fs[b])*Feである。第一中間サンプル融合特徴Fsf’[b]の次元分布は[H,W,D]である。ステップS605において、画素に従って現在のサンプル画像の第一中間サンプル融合特徴Fsf’[b]と現在のサンプル画像の次元変換特徴Fch[b]をアラインメントしてつなぎ合わせることで、現在のサンプル画像の第二中間サンプル融合特徴Fsf’’[b]を確定する。次元変換特徴Fch[b]は現在のサンプル画像の視覚特徴Fv[b]に基づいて確定され、次元変換特徴Fch[b]の次元分布は[H,W,Ch]である。例えば、視覚特徴Fv[b]に対して転置を行うことで次元変換特徴Fch[b]を取得する。第二中間サンプル融合特徴Fsf’’[b]のマトリックスの次元分布は[H,W,(D+Ch)]である。ステップS607において、現在のサンプル画像の第二中間サンプル融合特徴Fsf’’[b]に対して転置を行うことで現在のサンプル画像のサンプル融合特徴Fsf[b]を確定する。サンプル融合特徴Fsf[b]の次元分布は[(D+Ch),W,H]である。
本発明の技術案では、かかる語義分割ネットワークSSNについて特に限定しない。語義分割ネットワークSSNは1つの汎用のフレームワークであり、様々な語義切り分け(分割)フレームワークであっても良い。例えば、1つの例において、語義分割モデルMssのための語義分割ネットワークSSNは次のようなアーキテクチャのうちの1つに基づくものであり、即ち、FPN(Feature Pyramid Networks、FPN);CCNet(Criss-Cross Networks、CCNet);及び、SETR(Segmentation Transformer、SETR)である。なお、FPN、CCNet、及びSETRは何れもニューラルネットワークの技術分野における通常の技術であるため、ここではその基本原理についての詳しい説明を省略する。
本発明のもう1つの側面によれば、画像検出方法が提供される。以下、図7を参照しながら例示的に説明を行う。図7は本発明の1つの実施例における画像検出方法700の例示的なフローチャートである。ステップS701において、本発明の語義分割モデルを訓練するための方法を使用して語義分割モデルMssを訓練する。ステップS703において、訓練後の語義分割モデルMssを使用して検出待ち画像を処理する。オプションとして、訓練が既に完了した場合、方法700はステップS703のみを含んでも良い。訓練後の語義分割モデルMssを使用して検出待ち画像を処理することは、語義分割モデルMssの融合層を使用して外部知識特徴Feと検出待ち画像の視覚特徴とを融合することを含み、そのうち、外部知識特徴Feは反復の方式で調整された後のグラフニューラルネットワークGNNによって生成される。1つの例において、検出の段階では、毎回、画像を検出する前に、反復の方式で調整された後のグラフニューラルネットワークGNNによって外部知識特徴Feを生成する。1つの例において、外部知識特徴Feの生成が訓練サンプル集合と関連しており、検出待ち画像とは関係がないので、語義分割モデルMssの訓練が完成した後(即ち、グラフニューラルネットワークGNNの最適化が完成した後)に、反復の方式で調整された後のグラフニューラルネットワークGNNによって生成された外部知識特徴を記憶する(例えば、語義分割モデルのコードと、生成された外部知識特徴とをパッケージ化して記憶する)ことができる。このようにして、検出の段階では、毎回、画像を検出するときに、記憶された外部知識特徴を読み取るだけで良く、グラフニューラルネットワークGNNを実行して外部知識特徴を生成する操作を行う必要がない。
方法700の効果を検証するために、発明者は幾つかの対比(比較)実験を行っている。なお、実験で選択されたデータ集合は周知のFoodSeg103データベースであり、その中には7118枚のRGBレシピ画像が含まれ、分割クラスの数がN=103である。Mssを訓練するときに、訓練サンプルとして、FoodSeg103データベースにおける4983枚の画像が選択されている。また、画像検出の実験では、FoodSeg103データベースにおける2135枚の画像が選択されている。表1は、3種類の異なるアーキテクチャの語義分割モデルが外部知識特徴を使用する前後のパフォーマンスを示しおり、そのうち、GCNを用いて外部知識特徴を生成し、CLIPツールを使用してテキスト特徴を確定する。
表1は3種類の異なるアーキテクチャの語義分割モデルが外部知識特徴を使用する前後のパフォーマンスを示している。
Figure 2023101463000002
表1から分かるように、外部知識が追加された後に(即ち、外部知識追加有りの場合)、3種類のアーキテクチャ(CCNet、FPN、及びSETR)の語義分割モデルのmIoU(mean Intersection over Union)及びmAcc(mean accuracy)はすべて向上しており、そのうち、SETRアーキテクチャの語義分割モデルパフォーマンスは一番優れている。
発明者はさらに、異なる外部知識特徴抽出方法がSETRアーキテクチャの語義分割モデルのパフォーマンスに与える影響について実験を行っている。
表2は異なる外部知識特徴抽出方法の下でのSETRアーキテクチャの語義分割モデルのパフォーマンスを示している。
Figure 2023101463000003
表2における“Fe”は“外部知識特徴”を表し、“Fe無し”は、視覚特徴とFeの融合が行われないことを表し(それ相応に、GAT、GCN、GLOVE、又はCLIPが使用されない)、“+Fe(Fe有り)”は、視覚特徴とFeの融合が行われていることを表し(それ相応に、GAT/GCN、及びGLOVE/CLIPが使用される)。表2から分かるように、GCNネットワークを用いて外部知識特徴を抽出し、かつCLIPツールを使用してテキスト特徴を確定するときに、モデルのパフォーマンスは一番優れている。
本発明ではさらに、語義分割モデルを訓練するための装置が提供される。以下、図8をもとに例示的に説明を行う。図8は本発明の1つの実施例における語義分割モデルを訓練するための装置800の例示的なブロック図である。語義分割モデルは語義分割ネットワークを含む。語義分割ネットワークはエンコーダー及びデコーダーを含む。装置800は反復の方式で前記語義分割モデルを訓練するために用いられる。装置800は、外部知識生成ユニット81及び訓練ユニット83を含む。訓練ユニット83は語義分割モデルを訓練するように構成される。訓練ユニット83は視覚特徴生成ユニット801、融合ユニット803、分割ユニット805、及び調整ユニット807を含む。外部知識生成ユニット81は、グラフニューラルネットワークを使用して分割クラス集合についての外部知識特徴を生成するように構成される。視覚特徴生成ユニット801は、デコーダーを使用して、エンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも1つのサンプル画像に対応する少なくとも1つの視覚特徴を含むバッチ視覚特徴を生成するように構成される。融合ユニット803は、外部知識特徴とバッチ視覚特徴とを融合することで現在のバッチのバッチ融合特徴を生成するように構成される。分割ユニット805は、バッチ融合特徴に基づいて、分割結果を生成するように構成される。調整ユニット807は、分割結果に基づいて、語義分割モデル及びグラフニューラルネットワークを調整するように構成される。装置800と方法100との間には対応関係が存在する。装置800の更なる構成については本発明の上述の方法100についての説明を参照できる。
本発明ではさらに、語義分割モデルを訓練するための装置が提供される。以下、図9をベースに例示的に説明を行う。図9は本発明の1つの実施例において語義分割モデルを訓練するための装置900の例示的なブロック図である。装置900は、命令を記憶している記憶器901;及び、少なくとも1つの処理器903を含み、少なくとも1つの処理器903は、命令を実行して、反復の方式で語義分割モデルを訓練することを実現するように構成される。語義分割モデルは語義分割ネットワークを含む。語義分割ネットワークはエンコーダー及びデコーダーを含む。語義分割モデルを訓練することは、グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し;デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも1つのサンプル画像に対応する少なくとも1つの視覚特徴を含むバッチ視覚特徴を生成し;外部知識特徴とバッチ視覚特徴とを融合することで、現在のバッチのバッチ融合特徴を生成し;バッチ融合特徴に基づいて、分割結果を生成し;及び、分割結果に基づいて、語義分割モデル及びグラフニューラルネットワークを調整する。装置900と方法100との間には対応関係が存在する。なお、装置900の更なる構成については本発明の上述の方法100についての説明を参照できる。
本発明の1つの側面では、プログラムを記憶しているコンピュータ可読記憶媒体が提供され、該プログラムは実行されるときに、コンピュータに、反復の方式で語義分割モデルを訓練させる。語義分割モデルは語義分割ネットワークを含み、語義分割ネットワークはエンコーダー及びデコーダーを含む。語義分割モデルを訓練することは、グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し;デコーダーがエンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも1つのサンプル画像に対応する少なくとも1つの視覚特徴を含むバッチ視覚特徴を生成し;外部知識特徴とバッチ視覚特徴とを融合することで、現在のバッチのバッチ融合特徴を生成し;バッチ融合特徴に基づいて、分割結果を生成し;及び、分割結果に基づいて、語義分割モデル及びグラフニューラルネットワークを調整する。プログラムと方法100との間には対応関係が存在する。なお、プログラムの更なる構成については本発明の上述の方法100についての説明を参照できる。
本発明のもう1つの側面によれば、プログラムを記憶しているコンピュータ可読記憶媒体が提供され、該プログラムは実行されるときに、コンピュータに、訓練後の語義分割モデルを使用して検出待ち画像を処理させる。語義分割モデルを訓練する方法は本発明に開示された外部知識特徴に関する方法である。訓練後の語義分割モデルを用いて検出待ち画像を処理することは、語義分割モデルの融合層を用いて、外部知識特徴と検出待ち画像の視覚特徴とを融合することを含み、そのうち、外部知識特徴Feは、反復の方式で調整された後のグラフニューラルネットワークによって生成される。1つの例において、訓練後の語義分割モデルは組み込みパラメータを含み、前記組み込みパラメータは、反復の方式で調整された後のグラフニューラルネットワークによって生成される外部知識特徴を含む。外部知識特徴を、訓練後の語義分割モデルの組み込みパラメータと設定した後に、毎回、検出待ち画像を検出するときに、反復の方式で調整された後のグラフニューラルネットワークを実行して外部知識特徴を得る必要がない。
本発明のもう1つの側面によれば、情報処理装置がさらに提供される。図10は、本発明の実施例における情報処理装置1000の構成図である。
図10では、中央処理装置(CPU)1001は、ROM1002に記憶されるプログラム又は記憶部1008からRAM1003にロッドされているプログラムに基づいて各種の処理を行う。RAM1003では、ニーズに応じて、CPU1001が各種の処理を行うときに必要なデータなどを記憶することができる。CPU1001、ROM1002及びRAM1003は、バス1004を経由して互いに接続される。入力/出力インターフェース1005もバス1004に接続される。
また、入力/出力インターフェース1005にはさらに、次のような部品が接続され、即ち、キーボードなどを含む入力部1006、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部1007、ハードディスクなどを含む記憶部1008、ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む通信部1009である。通信部1009は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。ドライブ1010は、ニーズに応じて、入力/出力インターフェース1005に接続されても良い。取り外し可能な媒体1011、例えば、半導体メモリなどは、必要に応じて、ドライブ1010にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部1008にインストールすることができる。
また、本発明はさらに、マシン可読命令コードを含むプログラムプロダクトを提供する。このような命令コードは、マシンにより読み取られ実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶装置などの各種の記憶媒体も本発明に含まれる。
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶装置などを含んでも良いが、これらに限定されない。
また、上述の方法における各操作(処理)は、各種のマシン可読記憶媒体に記憶されるコンピュータ実行可能なプログラムの方式で実現することもできる。
本発明の技術案では、グラフニューラルネットワークを用いて生成した外部知識特徴に基づいて、語義分割ネットワークに対して訓練を行い、画像に対して画像検出を行うことができる。本発明による方法、装置及び記憶媒体は、語義分割モデルの受容野を拡大し、語義分割モデルの正確度を向上させることができるという有利な効果を奏する。
また、以上の実施例などに関し、さらに以下のように付記として開示する。
(付記1)
コンピュータが実行する、語義分割モデルを訓練する方法であって、
反復の方式で前記語義分割モデルを訓練することを含み、
前記語義分割モデルは語義分割ネットワークを含み、前記語義分割ネットワークはエンコーダー及びコーダーを含み、
前記語義分割モデルを訓練することは、
グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し;
前記デコーダーが前記エンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも1つのサンプル画像に対応する少なくとも1つの視覚特徴を含むバッチ視覚特徴を生成し;
前記外部知識特徴と前記バッチ視覚特徴とを融合し、前記現在のバッチのバッチ融合特徴を生成し;
前記バッチ融合特徴に基づいて、分割結果を生成し;及び
前記分割結果に基づいて、前記語義分割モデル及び前記グラフニューラルネットワークを調整することを含む、方法。
(付記2)
付記1に記載の方法であって、
前記グラフニューラルネットワークは、隣接マトリックス及びテキスト特徴集合に基づいて、前記分割クラス集合についての外部知識特徴を生成するように構成され、
前記隣接マトリックスは、前記分割クラス集合と関連付けられる分類図の辺(エッジ)の値に基づいて確定され、
前記分類図は、前記分割クラス集合に対応する複数のノードを含み、
前記テキスト特徴集合におけるテキスト特徴は、前記分割クラス集合における対応する分割クラスのクラス名に基づいて確定され、
前記分類図の2つのノードの間の辺の値は、少なくとも、次のようなもののうちの少なくとも1つに基づいて確定され、即ち、
前記2つのノードに対応する2つの分割クラスの、前記訓練サンプル集合についての共起回数;及び
前記2つのノードに対応する2つの分割クラスの推定共起確率である、方法。
(付記3)
付記2に記載の方法であって、
前記外部知識特徴は、サイズがH*(N+1)*Dである3次元マトリックスであり、
Hは前記訓練サンプル集合における各サンプル画像の高さであり、
Nは前記分割クラス集合における分割クラスの数であり、
Dは前記テキスト特徴集合におけるテキスト特徴のコンポーネント(成分)の数であり、
前記外部知識特徴は、背景分割クラスを表すベクトルを含む、方法。
(付記4)
付記2に記載の方法であって、
自然言語処理ツールを使用して、前記分割クラス集合における分割クラスのクラス名に基づいて、前記テキスト特徴集合における対応する分割クラスのテキスト特徴を確定する、方法。
(付記5)
付記4に記載の方法であって、
前記自然言語処理ツールはword2vec、GLOVE、又はLSTM特徴抽出器である、方法。
(付記6)
付記2に記載の方法であって、
CLIP(Contrastive Language-Image Pre-training)ツールを使用して、前記分割クラス集合における分割クラスのクラス名を含むクラス記述センテンスに基づいて、対応する分割クラスのテキスト特徴を確定する、方法。
(付記7)
付記2に記載の方法であって、
次のような方式で前記外部知識特徴を生成し、即ち、
前記グラフニューラルネットワークの特徴抽出モジュールが、前記隣接マトリックス及び前記テキスト特徴集合に基づいて、前記分割クラス集合についての第一中間外部知識特徴を抽出し;
前記第一中間外部知識特徴のクラス次元に1を増やすことで、第二中間外部知識特徴を取得し;及び
H個の前記第二中間外部知識特徴をアラインメントして重ねることで前記外部知識特徴を取得し、
ここで、増加したクラス次元は、背景分割クラスを表すベクトルに対応する、方法。
(付記8)
付記3に記載の方法であって、
前記外部知識特徴と前記バッチ視覚特徴とを融合することで、前記現在のバッチのバッチ融合特徴を生成することは、
中間バッチ融合特徴を確定し;及び
前記中間バッチ融合特徴に対して第一畳み込み処理を行うことで、前記現在のバッチのバッチ融合特徴を確定することを含み、
前記現在のバッチの少なくとも1つのサンプル画像の数が1であるときに、中間バッチ融合特徴を確定することは、前記現在のバッチのサンプル画像のサンプル融合特徴を、前記現在のバッチの中間バッチ融合特徴と設定することを含み、かつ
前記現在のバッチの少なくとも1つのサンプル画像の数が1よりも大きいときに、中間バッチ融合特徴を確定することは、前記現在のバッチの複数のサンプル画像のサンプル融合特徴をつなぎ合わせることで前記現在のバッチの中間バッチ融合特徴を確定することを含む、方法。
(付記9)
付記8に記載の方法であって、
前記第一畳み込み処理は、前記中間バッチ融合特徴のチャンネル次元数を変えるための1*1畳み込み処理である、方法。
(付記10)
付記8に記載の方法であって、
次のような融合方式で現在のサンプル画像のサンプル融合特徴を確定し、即ち、
第二畳み込み処理により、前記現在サンプル画像の視覚特徴に基づいて、現在のサンプル画像の分割特徴を確定し;
マトリックスの乗算により、前記外部知識特徴及び前記現在のサンプル画像の分割特徴に基づいて、前記現在のサンプル画像のサイズがH*W*Dである第一中間サンプル融合特徴を確定し;
画素に従って前記現在のサンプル画像の第一中間サンプル融合特徴と前記現在のサンプル画像の次元変換特徴とをアラインメントしてつなぎ合わせることで前記現在サンプル画像の第二中間サンプル融合特徴を確定し;及び
前記現在のサンプル画像の第二中間サンプル融合特徴に対して転置を行うことで、前記現在のサンプル画像のサンプル融合特徴を確定し、
ここで、Wは前記訓練サンプル集合における各サンプル画像の幅であり、
前記現在のサンプル画像の前記次元変換特徴は、前記現在サンプル画像の視覚特徴に基づいて確定される、方法。
(付記11)
付記10に記載の方法であって、
前記第二畳み込み処理は、前記視覚特徴のチャンネル次元数を変えるための1*1畳み込み処理である、方法。
(付記12)
付記10に記載の方法であって、
マトリックスの乗算により、前記外部知識特徴及び前記現在のサンプル画像の分割特徴に基づいて、前記現在のサンプル画像のサイズがH*W*Dである第一中間サンプル融合特徴を確定することは、
前記マトリックスの乗算を行う前に、前記分割特徴に対して転置を行うことを含む、方法。
(付記13)
付記12に記載の方法であって、
前記次元変換特徴は、前記視覚特徴に対して転置を行うことで得られる、方法。
(付記14)
付記1に記載の方法であって、
前記グラフニューラルネットワークは、グラフ畳み込みニューラルネットワーク又はグラフアテンションネットワークである、方法。
(付記15)
付記1に記載の方法であって、
前記語義分割ネットワークは以下のアーキテクチャのうちの1つに基づいており、
FPN(Feature Pyramid Networks、FPN);
CCNet(Criss-Cross Networks、CCNet);及び
SETR(Segmentation Transformer、SETR)である、方法。
(付記16)
画像検出方法であって、
付記1乃至15のうちの任意の1項に記載の方法によって訓練される語義分割モデルを用いて、検出待ち画像を処理することを含む、方法。
(付記17)
語義分割モデルを訓練するための装置であって、
命令を記憶している記憶器;及び
少なくとも1つの処理器を含み、
少なくとも1つの処理器は、前記命令を実行して、反復の方式で前記語義分割モデルを訓練するように構成され、そのうち、前記語義分割モデルは語義分割ネットワークを含み、前記語義分割ネットワークはエンコーダー及びデコーダーを含み、
前記語義分割モデルを訓練することは、
グラフニューラルネットワークが分割クラス集合についての外部知識特徴を生成し;
前記デコーダーが前記エンコーダーの出力に基づいて訓練サンプル集合における現在のバッチの少なくとも1つのサンプル画像に対応する少なくとも1つの視覚特徴を含むバッチ視覚特徴を生成し;
前記外部知識特徴と前記バッチ視覚特徴とを融合し、前記現在のバッチのバッチ融合特徴を生成し;
前記バッチ融合特徴に基づいて分割結果を生成し;及び
前記分割結果に基づいて前記語義分割モデルを調整することを含む、装置。
(付記18)
付記17に記載の装置であって、
前記グラフニューラルネットワークは、グラフ畳み込みニューラルネットワーク又はグラフアテンションネットワークである、装置。
(付記19)
付記17に記載の装置であって、
前記語義分割ネットワークは以下のアーキテクチャのうちの1つに基づいており、
FPN(Feature Pyramid Networks、FPN);
CCNet(Criss-Cross Networks、CCNet);及び
SETR(Segmentation Transformer、SETR)である、装置。
(付記20)
付記17に記載の装置であって、
前記語義分割ネットワークは、FPNに基づくネットワークであり、
前記グラフニューラルネットワークは、グラフ畳み込みニューラルネットワークであり、
前記グラフ畳み込みニューラルネットワークは、前記分割クラス集合に対応するテキスト特徴集合に基づいて前記外部知識特徴を生成し、
前記テキスト特徴集合におけるテキスト特徴は、CLIP(Contrastive Language-Image Pre-training)ツールを使用して、前記分割クラス集合における分割クラスのクラス名を含むクラス記述センテンスに基づいて確定される、装置。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。

Claims (10)

  1. コンピュータが実行する、語義分割モデルを訓練する方法であって、
    反復の方式で前記語義分割モデルを訓練することを含み、
    前記語義分割モデルは語義分割ネットワークを含み、前記語義分割ネットワークはエンコーダー及びデコーダーを含み、
    前記語義分割モデルを訓練することは、
    グラフニューラルネットワークにより、分割クラス集合についての外部知識特徴を生成し;
    前記デコーダーにより、前記エンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも1つのサンプル画像に対応する少なくとも1つの視覚特徴を含むバッチ視覚特徴を生成し;
    前記外部知識特徴と前記バッチ視覚特徴とを融合し、前記現在のバッチのバッチ融合特徴を生成し;
    前記バッチ融合特徴に基づいて、分割結果を生成し;及び
    前記分割結果に基づいて、前記語義分割モデル及び前記グラフニューラルネットワークを調整することを含む、方法。
  2. 請求項1に記載の方法であって、
    前記グラフニューラルネットワークは、隣接マトリックス及びテキスト特徴集合に基づいて、前記分割クラス集合についての外部知識特徴を生成するように構成され、
    前記隣接マトリックスは、前記分割クラス集合と関連付けられる分類図の辺の値に基づいて確定され、
    前記分類図は、前記分割クラス集合に対応する複数のノードを含み、
    前記テキスト特徴集合におけるテキスト特徴は、前記分割クラス集合の中の対応する分割クラスのクラス名に基づいて確定され、
    前記分類図の2つのノードの間の辺の値は、
    前記2つのノードに対応する2つの分割クラスの、前記訓練サンプル集合についての共起回数;及び
    前記2つのノードに対応する2つの分割クラスの推定共起確率
    のうちの少なくとも1つに基づいて確定される、方法。
  3. 請求項2に記載の方法であって、
    前記外部知識特徴は、サイズがH*(N+1)*Dである3次元マトリックスであり、
    Hは前記訓練サンプル集合における各サンプル画像の高さであり、
    Nは前記分割クラス集合における分割クラスの数であり、
    Dは前記テキスト特徴集合の中のテキスト特徴のコンポーネントの数であり、
    前記外部知識特徴は、背景分割クラスを表すベクトルを含む、方法。
  4. 請求項2に記載の方法であって、
    自然言語処理ツールを使用して、前記分割クラス集合の中の分割クラスのクラス名に基づいて、前記テキスト特徴集合の中の対応する分割クラスのテキスト特徴を確定する、方法。
  5. 請求項4に記載の方法であって、
    前記自然言語処理ツールは、word2vec、GLOVE、又はLSTM特徴抽出器である、方法。
  6. 請求項2に記載の方法であって、
    CLIP(Contrastive Language-Image Pre-training)ツールを使用して、前記分割クラス集合の中の分割クラスのクラス名を含むクラス記述センテンスに基づいて、対応する分割クラスのテキスト特徴を確定する、方法。
  7. 請求項3に記載の方法であって、
    前記外部知識特徴と前記バッチ視覚特徴とを融合し、前記現在のバッチのバッチ融合特徴を生成することは、
    中間バッチ融合特徴を確定し;及び
    前記中間バッチ融合特徴に対して第一畳み込み処理を行い、前記現在のバッチのバッチ融合特徴を確定することを含み、
    前記現在のバッチの少なくとも1つのサンプル画像の数が1であるときに、中間バッチ融合特徴を確定することは、前記現在のバッチのサンプル画像のサンプル融合特徴を、前記現在のバッチの中間バッチ融合特徴と設定することを含み、
    前記現在のバッチの少なくとも1つのサンプル画像の数が1よりも大きいときに、中間バッチ融合特徴を確定することは、前記現在のバッチの複数のサンプル画像のサンプル融合特徴をつなぎ合わせることで前記現在のバッチの中間バッチ融合特徴を確定することを含む、方法。
  8. 請求項7に記載の方法であって、
    第二畳み込み処理により、前記現在のサンプル画像の視覚特徴に基づいて、現在のサンプル画像の分割特徴を確定し;
    マトリックスの乗算により、前記外部知識特徴及び前記現在サンプル画像の分割特徴に基づいて、前記現在のサンプル画像のサイズがH*W*Dである第一中間サンプル融合特徴を確定し;
    画素に従って、前記現在のサンプル画像の第一中間サンプル融合特徴と、前記現在のサンプル画像の次元変換特徴とをアラインメントしてつなぎ合わせることで、前記現在のサンプル画像の第二中間サンプル融合特徴を確定し;及び
    前記現在のサンプル画像の第二中間サンプル融合特徴に対して転置を行い、前記現在のサンプル画像のサンプル融合特徴を確定し、
    Wは前記訓練サンプル集合における各サンプル画像の幅であり、
    前記現在のサンプル画像の前記次元変換特徴は、前記現在のサンプル画像の視覚特徴に基づいて確定される、方法。
  9. 画像検出方法であって、
    請求項1に記載の方法によって訓練される語義分割モデルを使用して、検出待ち画像を処理することを含む、画像検出方法。
  10. 語義分割モデルを訓練するための装置であって、
    命令を記憶している記憶器;及び
    少なくとも1つの処理器を含み、
    前記少なくとも1つの処理器は、前記命令を実行して、反復の方式で前記語義分割モデルを訓練するように構成され、
    前記語義分割モデルは語義分割ネットワークを含み、前記語義分割ネットワークはエンコーダー及びデコーダーを含み、
    前記語義分割モデルを訓練することは、
    グラフニューラルネットワークにより、分割クラス集合についての外部知識特徴を生成し;
    前記デコーダーにより、前記エンコーダーの出力に基づいて、訓練サンプル集合における現在のバッチの少なくとも1つのサンプル画像に対応する少なくとも1つの視覚特徴を含むバッチ視覚特徴を生成し;
    前記外部知識特徴と前記バッチ視覚特徴とを融合し、前記現在のバッチのバッチ融合特徴を生成し;
    前記バッチ融合特徴に基づいて、分割結果を生成し;及び
    前記分割結果に基づいて、前記語義分割モデル及び前記グラフニューラルネットワークを調整することを含む、装置。
JP2022208671A 2022-01-10 2022-12-26 語義分割モデルを訓練する方法及び装置、並びに画像検出方法 Pending JP2023101463A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210021477.2A CN116468885A (zh) 2022-01-10 2022-01-10 训练语义分割模型的方法和装置及图像检测方法
CN202210021477.2 2022-01-10

Publications (1)

Publication Number Publication Date
JP2023101463A true JP2023101463A (ja) 2023-07-21

Family

ID=87179371

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022208671A Pending JP2023101463A (ja) 2022-01-10 2022-12-26 語義分割モデルを訓練する方法及び装置、並びに画像検出方法

Country Status (2)

Country Link
JP (1) JP2023101463A (ja)
CN (1) CN116468885A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116684200A (zh) * 2023-07-31 2023-09-01 北京天防安全科技有限公司 网络安全漏洞的攻击模式的知识补全方法及系统
CN116977750A (zh) * 2023-09-25 2023-10-31 中国地质大学(武汉) 土地覆盖场景分类模型构建方法及分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116684200A (zh) * 2023-07-31 2023-09-01 北京天防安全科技有限公司 网络安全漏洞的攻击模式的知识补全方法及系统
CN116684200B (zh) * 2023-07-31 2023-09-26 北京天防安全科技有限公司 网络安全漏洞的攻击模式的知识补全方法及系统
CN116977750A (zh) * 2023-09-25 2023-10-31 中国地质大学(武汉) 土地覆盖场景分类模型构建方法及分类方法
CN116977750B (zh) * 2023-09-25 2023-12-12 中国地质大学(武汉) 土地覆盖场景分类模型构建方法及分类方法

Also Published As

Publication number Publication date
CN116468885A (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
US20220414425A1 (en) Resource constrained neural network architecture search
Pan et al. Memen: Multi-layer embedding with memory networks for machine comprehension
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
WO2020140487A1 (zh) 用于智能设备的人机交互语音识别方法及系统
JP2023101463A (ja) 語義分割モデルを訓練する方法及び装置、並びに画像検出方法
CN109977413A (zh) 一种基于改进cnn-lda的情感分析方法
CN109635124A (zh) 一种结合背景知识的远程监督关系抽取方法
CN110781672B (zh) 基于机器智能的题库生产方法及系统
CN112069826B (zh) 融合主题模型和卷积神经网络的垂直域实体消歧方法
US20220036127A1 (en) Semantic image manipulation using visual-semantic joint embeddings
JP2010250814A (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
KR101837262B1 (ko) 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법
CN114818891B (zh) 小样本多标签文本分类模型训练方法及文本分类方法
CN113128232B (zh) 一种基于albert与多重词信息嵌入的命名实体识别方法
CN107305543B (zh) 对实体词的语义关系进行分类的方法和装置
WO2017136674A1 (en) Generating feature embeddings from a co-occurrence matrix
CN116049387A (zh) 一种基于图卷积的短文本分类方法、装置、介质
CN113449084A (zh) 基于图卷积的关系抽取方法
CN114022737A (zh) 对训练数据集进行更新的方法和设备
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
US20230121404A1 (en) Searching for normalization-activation layer architectures
CN114048314A (zh) 一种自然语言隐写分析方法
CN110287999B (zh) 基于隐变量模型的故事生成方法及装置
CN116680407A (zh) 一种知识图谱的构建方法及装置