JP2023547917A

JP2023547917A - 画像分割方法、装置、機器および記憶媒体

Info

Publication number: JP2023547917A
Application number: JP2023525962A
Authority: JP
Inventors: 孔濤; 荊雅; 李磊
Original assignee: 北京有竹居▲網▼絡技▲術▼有限公司
Priority date: 2020-10-30
Filing date: 2021-09-27
Publication date: 2023-11-14
Also published as: CN112184738B; CN112184738A; WO2022089115A1; US20230394671A1

Abstract

本開示は、画像分割方法、装置、機器および記憶媒体を開示する。該画像分割方法は、元画像に対応する視覚特徴と、元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得することと、マルチモーダル特徴に対応する画像に基づいて目標物体の視覚領域を確定し、視覚領域に対応する画像を応答ヒートマップとして記すことと、マルチモーダル特徴に対応する画像および応答ヒートマップに基づき、目標物体の分割結果を確定することとを含む。【選択図】図１

Description

［関連出願への相互参照］
本願は、２０２０年１０月３０日に中国専利局に提出された出願番号が２０２０１１１９７７９０．９である中国特許出願に対して優先権を主張するものであり、該出願の全ての内容を引用により本願に援用する。

［技術分野］
本開示は、画像処理の技術分野に関し、例えば、画像分割方法、装置、機器および記憶媒体に関する。

言語指示での画像分割は、クロスモーダル学習における非常に重要な技術であり、指示的な画像分割とも呼ばれ、言語指示での画像分割の目標は、画像内の言語で指定された物体を分割することである。言語指示での画像分割は、画像と言語記述との間のセマンティックギャップの問題を解消する必要があるため、より挑戦性がある。

本開示は、記述言語の指示で画像内の指定物体を効果的に分割することができる画像分割方法、装置、機器および記憶媒体を提供する。

本開示は、
元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得することと、
前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記すことと、
前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定することとを含む、
画像分割方法を提供する。

本開示は、
元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得するように構成される融合モジュールと、
前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記すように構成される視覚領域確定モジュールと、
前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定するように構成される分割結果確定モジュールとを備える、
画像分割装置を更に提供する。

本開示は、
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを記憶するように構成されるメモリと、
を備える電子機器であって、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサにより実行されると、上記画像分割方法を実現する、
電子機器を更に提供する。

本開示は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、該プログラムがプロセッサにより実行されると、上記画像分割方法を実現するコンピュータ可読記憶媒体を更に提供する。

本開示の実施例１に係る画像分割方法のフローチャートである。本開示の実施例２に係る画像分割方法のフローチャートである。本開示の実施例２に係る画像分割モデルの構造模式図である。本開示の実施例２に係る画像分割方法の実現のフローチャートである。本開示の実施例２に係る元画像の模式図である。本開示の実施例２に係る分割結果の模式図である。従来方法で得られる分割結果の模式図である。本開示の実施例２に係る本開示の実施例に係る画像分割方法および関連技術を用いて同じ画像を分割した結果の比較図である。本開示の実施例３に係る画像分割装置の構造図である。本開示の実施例４に係る電子機器の構造図である。

以下、図面を参照しながら本開示の実施例について説明する。図面に本開示のいくつかの実施例が示されるが、本開示は、様々な形式で実現でき、ここで記述される実施例に限定されるものと解釈されるべきではなく、本開示をより明瞭かつ完全に理解するために、これらの実施例を提供する。

本開示の方法の実施形態に記載される複数のステップは、異なる順序で実行されてもよいし、および／または並行に実行されてもよい。また、方法の実施形態は、追加のステップおよび／または実行が省略されて示されたステップを含んでもよい。本開示の範囲は、この点で限られない。

本発明で使用される「含む」という用語およびその変形は、開放的な包含であり、即ち、「含むが、これらに限定されない」。「基づく」という用語は、「少なくとも部分的に基づく」という意味である。「１つの実施例」という用語は、「少なくとも１つの実施例」を表す。「別の実施例」という用語は、「少なくとも１つの別の実施例」を表す。「いくつかの実施例」という用語は、「少なくともいくつかの実施例」を表す。他の用語の関連定義は、以下の記述で与えられる。

なお、本開示に言及される「第１」、「第２」等の概念は、異なる装置、モジュール、ユニットまたは操作を区分するためのものに過ぎず、これらの装置、モジュール、ユニットまたは操作が実行する機能の順序または相互依存関係を限定するためのものでもない。

なお、本開示に言及される「１つ」、「複数」という修飾は、模式的なものであるが、限定的なものではなく、文脈が明確に例外を示さない限り、「１つまたは複数」として理解されるべきである。

本開示の実施形態における複数の装置間でインタラクションされるメッセージまたは情報の名称は、説明するためのものに過ぎず、これらのメッセージまたは情報の範囲を限定するためのものではない。

図１は、本開示の実施例１に係る画像分割方法のフローチャートであり、本実施例は、言語指示での画像において物体を分割する場合に適用でき、インタラクション時の画像編集またはマンマシンインタラクションな等の分野に適用できるし、言語で駆動される画像物体検出または言語で駆動される画像理解等の分野にも適用できる。該方法は、画像分割装置で実行されることができ、該装置は、ソフトウェアおよび／またはハードウェアの方式で実現でき、該装置は、電子機器に構成でき、該電子機器は、画像データ処理機能を持つ端末であってもよく、例えば、携帯電話機、タブレットコンピュータ、ノートパソコン等のモバイル端末であってもよいし、デスクトップ型コンピュータ等の固定端末またはサーバであってもよい。図１に示すように、該方法は、以下のようなステップを含む。

Ｓ１１０において、元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得する。

元画像は、少なくとも１つの物体を含む画像であってもよく、カメラまたはスキャナー等の方式により取得されてもよいし、既存の画像ライブラリから選択されてもよい。視覚特徴は、元画像が設定解像度で対応する画像特徴であってもよく、視覚特徴は、実際に１つの画像であり、本実施例は、解像度の大きさを限定しない。１つの例において、視覚特徴抽出ネットワークを介して元画像の設定解像度での画像特徴を抽出して対応する視覚特徴画像を取得することができる。視覚特徴抽出ネットワークは、Ｄａｒｋｎｅｔネットワーク構造または視覚特徴を抽出するために使用可能な他のネットワーク構造であってもよい。Ｄａｒｋｎｅｔは、１つのオープンソースの深層学習フレームワークであり、構造が簡単で、依存項がなく、それを用いて視覚特徴を抽出すると、柔軟性はより良い。

記述言語は、指示的な言語記述に対応するテキストであってもよく、元画像内の分割する目標物体を指定することに用いられる。記述言語は、画像情報、目標物体の位置情報、および目標物体の外観情報等を含んでもよい。画像情報は、分割する必要がある画像の情報を確定することに用いられ、例えば、画像の名称または番号等の該画像を一意に識別する情報を含んでもよい。位置情報は、目標物体の元画像内の位置を初歩的に確定することに用いられる。外観情報は、最終的な目標物体を確定することに用いられる。例えば、記述言語は、画像Ａ内の手にバドミントンラケットを持ち、赤い服を着ているユーザであってもよい。テキスト特徴は、記述言語の意味を反映する特徴であってもよく、一般的に、ベクトルの形式で表すことができる。好ましくは、テキスト特徴抽出ネットワークを介して記述言語のテキスト特徴を抽出することができ、本実施例は、テキスト特徴抽出ネットワークの構造について限定せず、例えば、ゲート付き再帰型ユニット（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ、ＧＲＵ）ネットワークを採用することができ、ＧＲＵは、再帰型ニューラルネットワークの１種である。

マルチモーダル特徴は、複数のモーダルの特徴を融合して得た融合特徴であり、本実施例は、視覚特徴とテキスト特徴とを融合してマルチモーダル特徴を取得し、クロスモーダルの特徴表示を実現し、画像と記述言語との間のセマンティックギャップを解消する。好ましくは、視覚特徴と、テキスト特徴に対応する位置のデータとを外積し、視覚特徴とテキスト特徴との融合特徴であるマルチモーダル特徴を取得することができる。マルチモーダル特徴も、実際に１つの画像であり、マルチモーダル特徴は、マルチモーダル特徴画像またはマルチモーダル特徴に対応する画像、即ち、マルチモーダル特徴を含む画像と呼ばれもよい。

Ｓ１２０において、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記す。

視覚領域は、目標物体が位置する領域であり、例えば、目標物体がピザである場合、視覚領域はピザが位置する領域である。本実施例は、目標物体を分割する時、まず、目標物体の視覚領域を確定し、視覚領域の基に目標物体を分割し、画像分割の複雑度を効果的に低減することができる。好ましくは、マルチモーダル特徴に対応する画像をフィルタリングし、非目標物体の目標物体への干渉を除去し、目標物体の視覚領域を取得することができる。本実施例は、フィルタリング後の画像、即ち、視覚領域に対応する画像を応答ヒートマップとして記し、該マップは、目標物体の位置情報を表し、領域ごとに１つの応答値を対応して有し、応答値が大きければ大きいほど、該領域に目標物体が存在する可能性が大きいことを表す。好ましくは、応答値が設定閾値よりも大きい領域を目標物体の視覚領域とし、ハイライト表示することができ、本実施例は、設定閾値の大きさについて限定しない。

Ｓ１３０において、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定する。

好ましくは、画像分割モデルにより、マルチモーダル特徴に対応する画像および応答ヒートマップを合わせて分割結果を確定することができる。画像分割モデルは、目標物体の分割結果を確定することに用いられ、該モデルの構造は、必要に応じて設定することができ、例えば、コンボリューション層およびアップサンプリング層を備えてもよく、コンボリューション層は、入力された画像に対してコンボリューション操作を行うことに用いられ、アップサンプリング層は、コンボリューション結果をアップサンプリングして分割結果を取得することに用いられ、分割結果に対応する画像の大きさは、元画像内のリアルな分割結果の大きさと同じである。本実施例の画像分割モデルは、マルチモーダル特徴に対応する画像および応答ヒートマップを入力とし、使用する前に、マルチモーダル特徴に対応する画像および応答ヒートマップを画像分割モデルに入力し、画像分割モデルをトレーニングし、コンボリューション層およびアップサンプリング層のパラメータを調整することができる。好ましくは、元画像に対応するリアルな分割結果に対する画像分割モデルから出力された分割結果の損失値を確定することができ、損失値が設定閾値よりも小さい場合、トレーニングを終了し、損失値が設定閾値よりも小さい場合に対応するモデルを、本実施例の目標物体を分割するための画像分割モデルとする。

本開示の実施例１は、画像分割方法を提供し、元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得し、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記し、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定する。該方法は、画像分割過程を分解し、まず、融合で得られたマルチモーダル特徴に対応する画像に基づいて目標物体の視覚領域を確定し、応答ヒートマップを取得し、その後、マルチモーダル特徴に対応する画像および応答ヒートマップに基づいて分割結果を確定し、画像と記述言語との間のセマンティックギャップを効果的に解消し、記述言語で指定された目標物体を分割する。

図２は、本開示の実施例２に係る画像分割方法のフローチャートであり、本実施例は、上記実施例の基に説明し、図２を参照し、該方法は、以下のステップを含んでもよい。

Ｓ２１０において、元画像に対応する視覚特徴と記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得する。

視覚特徴の数は、１つまたは複数であってもよく、分割結果の精度を向上させるために、少なくとも２つの解像度でそれぞれ元画像から抽出された視覚特徴を含んでもよい。視覚特徴の数が少なすぎると、分割結果の精度に影響を及ぼし、大きすぎると、計算量を増加する。本実施例は、３つの視覚特徴を例とし、分割結果精度を向上させるとともに、計算量を減少することができる。本実施例の視覚特徴は、元画像（Ｒ^{Ｈ×Ｗ×３}）の第１解像度で抽出された第１視覚特徴
、元画像の第２解像度で抽出された第２視覚特徴
、および元画像の第３解像度で抽出された第３視覚特徴
を含んでもよく、ここで、第１解像度＜第２解像度＜第３解像度である。第１解像度、第２解像度および第３解像度の数値は、場合によって設定することができ、本実施例は、第１解像度が元画像の解像度の１／３２で、第２解像度が元画像の解像度の１／１６で、第３解像度が元画像の解像度の１／８であることを例とする。ＨおよびＷは、それぞれ元画像の長さおよび幅であり、ｄ_ｉは、視覚特徴に対応する画像の次元であり、本実施例において、ｉ＝１、２、３である。

１つの例において、以下のような方式によりマルチモーダル特徴を取得することができる。

解像度の大きさの順に前記少なくとも２つの視覚特徴をソートし、ソート結果を取得し、マッピング行列により、前記テキスト特徴を前記ソート結果における値が最も小さい第１解像度に対応する第１視覚特徴が位置する特徴空間にマッピングし、前記第１視覚特徴とマッピング後のテキスト特徴とをスティッチングし、第１スティッチング特徴を取得し、前記第１スティッチング特徴をアップサンプリングし、アップサンプリング後の第１スティッチング特徴と、前記ソート結果における前記第１解像度よりも大きくて前記第１解像度以外の最も小さい解像度である第２解像度に対応する第２視覚特徴とをスティッチングし、第２スティッチング特徴を取得し、アップサンプリング後のスティッチング特徴と前記ソート結果における解像度が最も大きい視覚特徴とをスティッチングし、マルチモーダル特徴を取得するまで、アップサンプリングおよびスティッチング操作を循環実行する。

テキスト特徴と視覚特徴の長さが異なることを考え、融合効果を確保するために、まず、テキスト特徴および視覚特徴を同じ特徴空間にマッピングしてもよい。例えば、視覚特徴をテキスト特徴が位置する空間にマッピングしてもよいし、テキスト特徴を視覚特徴が位置する空間にマッピングしてもよいし、テキスト特徴および視覚特徴を他の特徴空間にマッピングしてもよい。実施例は、テキスト特徴を視覚特徴が位置する特徴空間にマッピングすることを例とし、マッピング過程を簡略化し、計算量を低減することができる。

視覚特徴が複数存在する場合、対応する解像度も異なり、対応する画像の大きさも異なり、スティッチングの有効性を確保するために、本実施例は、複数の視覚特徴の解像度の小さい順に複数の視覚特徴をソートし、ソート結果を取得する。特徴をスティッチングする時、ソート結果における視覚特徴の解像度の小さい順に行い、即ち、まず、解像度が最も小さい視覚特徴とテキスト特徴とをスティッチングし、その後、スティッチング結果をアップサンプリングし、また、ソート結果における次の解像度に対応する視覚特徴とスティッチングし、解像度が最も大きい視覚特徴のスティッチングが終了するまで行う。

視覚特徴が、それぞれ第１視覚特徴、第２視覚特徴および第３視覚特徴との３つを含むことを例とし、第１視覚特徴、第２視覚特徴および第３視覚特徴は、第１解像度、第２解像度および第３解像度にそれぞれ対応し、ここで、第１解像度＜第２解像度＜第３解像度である。外積の方式で第１視覚特徴とマッピング後のテキスト特徴に対応する位置の値を計算し、第１視覚特徴とマッピング後のテキスト特徴とのスティッチングを実現し、第１スティッチング特徴を取得することができる。上述したように、第１視覚特徴の解像度＜第２視覚特徴の解像度＜第３視覚特徴の解像度であり、即ち、第１スティッチング特徴の解像度は第２視覚特徴の解像度よりも小さく、同じ解像度での特徴のスティッチングを実現するために、本実施例は、第１スティッチング特徴をアップサンプリングし、アップサンプリングで得られたスティッチング特徴の解像度を第２視覚特徴の解像度と同じにさせ、その後、第１スティッチング特徴に類似するスティッチング操作を実行し、第２視覚特徴とアップサンプリング後の第１スティッチング特徴とをスティッチングし、第２スティッチング特徴を取得し、その後、第２スティッチング特徴をアップサンプリングし、アップサンプリング後の第２スティッチング特徴と第３視覚特徴とをスティッチングし、第３スティッチング特徴を取得し、即ち、マルチモーダル特徴を取得する。本実施例は、テキスト特徴と視覚特徴とを融合し、特徴のクロスモーダル表示を実現し、後で目標物体を分割する時、分割結果の精度を向上させることができる。

Ｓ２２０において、前記マルチモーダル特徴に対応する画像に対して相関フィルタリングを行い、前記目標物体の視覚領域を取得する。

１つの例において、テキスト特徴に基づいて１つのコンボリューションカーネルを生成し、該コンボリューションカーネルに基づいてマルチモーダル特徴に対応する画像に対してコンボリューション操作を行い、マルチモーダル特徴画像に対する相関フィルタリングを実現し、各領域に対応する応答値を取得することができ、領域の応答値が大きければ大きいほど、目標物体が存在する可能性が大きいことを表し、応答値によれば、対応する視覚領域を取得することができる。

Ｓ２３０において、前記視覚領域に対応する画像を応答ヒートマップとして記す。

Ｓ２４０において、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップを目標画像分割モデルに入力し、前記目標画像分割モデルから出力された結果を、前記目標物体の分割結果として取得する。

本実施例において、視覚領域に基づき、１つの初期画像分割モデルを設計し、より正確な分割結果を取得する。例示的には、図３を参照し、図３は、本開示の実施例２に係る初期画像分割モデルの構造模式図であり、該画像分割モデルは、入力層、並行する第１コンボリューション層、スティッチング層、第２コンボリューション層、アップサンプリング層、および出力層を備え、第１コンボリューション層の数は、場合によって設定することができる。図３は、５つの第１コンボリューション層を例とし、画像の異なるスケールでの内容をより良く捉えることができる。各第１コンボリューション層は１つのサンプリングレートに対応し、即ち、入力画像に対して５種の異なるサンプリングレートの第１コンボリューション操作をそれぞれ行い、５種のコンボリューション結果を取得する。スティッチング層は、この５種のコンボリューション結果をスティッチングすることに用いられる。第２コンボリューション層は、スティッチング後の結果に対してコンボリューション操作を再び実行することに用いられる。アップサンプリング層は、画像分割モデルから出力された分割結果の解像度が元画像のリアルな分割結果の解像度に一致することを確保することに用いられる。

画像分割モデルを使用する前に、初期画像分割モデルにおける第１コンボリューション層、スティッチング層、第２コンボリューション層およびアップサンプリング層のパラメータをトレーニングし、目標画像分割モデルを取得することができる。トレーニング過程は、
サンプル画像およびサンプル記述言語を取得し、前記サンプル画像のサンプル視覚特徴および前記サンプル記述言語のサンプルテキスト特徴を抽出し、前記サンプル視覚特徴と前記サンプルテキスト特徴とを融合してサンプルマルチモーダル特徴を取得し、前記サンプルマルチモーダル特徴に対応する画像に基づいて前記サンプル目標物体のサンプル視覚領域を確定し、前記サンプル視覚領域に対応する画像をサンプル応答ヒートマップとして記し、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、前記目標画像分割モデルを取得することである。

本実施例は、サンプル画像およびサンプル記述言語の数を限定せず、画像分割モデルの精度を向上させるために、複数グループのサンプル画像および複数グループのサンプル記述言語を選択し、その後、サンプル画像のサンプル視覚特徴とサンプル記述言語のサンプルテキスト特徴を抽出してスティッチングし、サンプルマルチモーダル特徴を取得し、マルチモーダル特徴に対して相関フィルタリングを行い、サンプル応答ヒートマップを取得することができ、これにより、サンプルマルチモーダル特徴に対応する画像およびサンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、目標画像分割モデルを取得することができる。特徴の抽出、スティッチングおよびフィルタリング過程は、上記実施例を参照することができ、ここで説明を省略する。

図３に示す構造に従い、サンプルマルチモーダル特徴に対応する画像およびサンプル応答ヒートマップを初期画像分割モデルに入力し、サンプルマルチモーダル特徴に対応する画像およびサンプル応答ヒートマップの複数の第１コンボリューション結果を取得し、複数の第１コンボリューション結果をスティッチングし、スティッチング結果を取得し、スティッチング結果に対して第２コンボリューション操作を行い、第２コンボリューション結果を取得し、第２コンボリューション結果をアップサンプリングし、サンプル分割結果を取得し、サンプル画像のリアルな分割結果に対するサンプル分割結果の損失値を確定し、損失値が設定閾値よりも小さい場合、初期画像分割モデルのトレーニングを停止し、損失値が設定閾値よりも小さい画像分割モデルを目標画像分割モデルとし、損失値が設定閾値以上である場合、損失値が設定閾値よりも小さくなるまで、初期画像分割モデルをトレーニングし続けることができる。好ましくは、以下のような損失関数でサンプル画像のリアルな分割結果に対するサンプル分割結果の損失値を確定することができる。
（ただし、Ｌは、サンプル画像のリアルな分割結果に対するサンプル分割結果の損失値であり、ｙ_ｌは、元画像をダウンサンプリングした後のリアルな分割結果における各領域の要素値であり、ｐ_ｌは、サンプル分割結果における各領域の要素値である。設定閾値の大きさは、場合によって設定することができ、例えば、０．５であってもよく、即ち、Ｌ＜０．５である場合、トレーニングは終了する。）

例示的には、図４を参照し、図４は、本開示の実施例２に係る画像分割方法の実現のフローチャートである。まず、元画像および記述言語を取得し、その後、元画像の異なるレベルでの視覚特徴および記述言語に対応するテキスト特徴を抽出し、図４は、３つのレベルを例とし、３種の解像度にそれぞれ対応し、その後、第１視覚特徴Ｆ_ｖ１とマッピング後のテキスト特徴とをスティッチングして第１スティッチング特徴Ｆ_ｍ１を取得し、第１スティッチング特徴Ｆ_ｍ１をアップサンプリングした後、第２視覚特徴Ｆ_ｖ２とスティッチングし、第２スティッチング特徴Ｆ_ｍ２を取得し、第２スティッチング特徴Ｆ_ｍ２をアップサンプリングした後、第３視覚特徴Ｆ_ｖ３とスティッチングし、第３スティッチング特徴Ｆ_ｍ３を取得し、即ち、マルチモーダル特徴を取得する。その後、マルチモーダル特徴Ｆ_ｍ３に対して相関フィルタリングを行い、応答ヒートマップを取得し、応答ヒートマップおよびマルチモーダル特徴Ｆ_ｍ３に対応する画像を目標画像分割モデルに入力すれば、目標物体の分割結果を取得することができ、簡単で効果的である。

例示的には、図５を参照し、図５は、本開示の実施例２に係る元画像の模式図であり、言語テキストが「ＰｉｚｚａＮｅａｒｅｓｔ」であると仮定し、即ち、距離が最も近いピザを分割し、上記実施例に係る画像分割方法に従い、図６に示す分割結果を取得することができる。従来方法で得られた分割結果は図７に示すとおりである。例示的には、図８を参照し、図８は、本開示の実施例２に係る本開示の実施例に係る画像分割方法および関連技術を用いて同じ画像を分割した結果の比較図である。ここで、第１列はそれぞれ３種の元画像であり、第２列は、それぞれ本開示の実施例に係る方法を用いて分割した物体であり、第３列および第４列は、それぞれ関連技術を用いて分割した物体である。図６および８から見られるように、本開示の実施例に係る画像分割方法を用いて分割した物体は、リアルな結果により近く、画像分割結果の精度が向上する。

本開示の実施例２は、画像分割方法を提供し、上記実施例の基に、画像分割の過程を分解し、まず、目標物体の視覚領域を初歩的に確定し、その後、初期画像分割モデルを構築し、初期画像分割モデルの複雑度を簡略化し、マルチモーダル特徴画像および応答ヒートマップを用いて初期画像分割モデルをトレーニングし、目標画像分割モデルを取得し、更に、目標画像分割モデルを利用して分割結果を取得し、画像と記述言語との間のセマンティックギャップを効果的に解消し、ある程度で分割結果の精度を向上させる。

図９は、本開示の実施例３に係る画像分割装置の構造図であり、該装置は、上記実施例に記載の画像分割方法を実行することができ、該装置は電子機器に集積でき、図９を参照し、該装置は、
元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得するように構成される融合モジュール３１と、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記すように構成される視覚領域確定モジュール３２と、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定するように構成される分割結果確定モジュール３３とを備えてもよい。

本開示の実施例は、画像分割装置を提供し、元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得し、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記し、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定する。該装置は、画像分割過程を分解し、まず、融合で得られたマルチモーダル特徴に対応する画像に基づいて目標物体の視覚領域を確定し、応答ヒートマップを取得し、その後、マルチモーダル特徴に対応する画像および応答ヒートマップに基づいて分割結果を確定し、画像と記述言語との間のセマンティックギャップを効果的に解消し、記述言語で指定された目標物体を分割する。

上記実施例の基に、視覚領域確定モジュール３２は、
前記マルチモーダル特徴に対応する画像に対して相関フィルタリングを行い、前記目標物体の視覚領域を取得するように構成されるフィルタリングユニットを備える。

上記実施例の基に、フィルタリングユニットは、
前記テキスト特徴に基づいてコンボリューションカーネルを確定し、前記コンボリューションカーネルに基づいて前記マルチモーダル特徴に対応する画像に対してコンボリューション操作を行い、前記目標物体の視覚領域を取得するように構成される。

上記実施例の基に、前記視覚特徴は、少なくとも２つの解像度でそれぞれ前記元画像から抽出された視覚特徴を含む。

上記実施例の基に、融合モジュール３１は、
解像度の大きさの順に前記少なくとも２つの視覚特徴をソートし、ソート結果を取得し、マッピング行列により、前記テキスト特徴を前記ソート結果における値が最も小さい第１解像度に対応する第１視覚特徴が位置する特徴空間にマッピングし、前記第１視覚特徴とマッピング後のテキスト特徴とをスティッチングし、第１スティッチング特徴を取得し、前記第１スティッチング特徴をアップサンプリングし、アップサンプリング後の第１スティッチング特徴と、前記ソート結果における第２解像度に対応する第２視覚特徴とをスティッチングし、第２スティッチング特徴を取得し、アップサンプリング後のスティッチング特徴と前記ソート結果における解像度が最も大きい視覚特徴とをスティッチングし、マルチモーダル特徴を取得するまで、アップサンプリングおよびスティッチング操作を循環実行するように構成され、前記第２解像度は、前記第１解像度よりも大きくて、前記第１解像度以外の最も小さい解像度である。

上記実施例の基に、分割結果確定モジュール３３は、
前記マルチモーダル特徴に対応する画像および前記応答ヒートマップを目標画像分割モデルに入力し、前記目標画像分割モデルから出力された結果を、前記目標物体の分割結果として取得するように構成される。

上記実施例の基に、前記目標画像分割モデルのトレーニング過程は、
サンプル画像と、前記サンプル画像内の分割待ちサンプル目標物体を指定するためのサンプル記述言語とを取得し、前記サンプル画像のサンプル視覚特徴および前記サンプル記述言語のサンプルテキスト特徴を抽出し、前記サンプル視覚特徴と前記サンプルテキスト特徴とを融合してサンプルマルチモーダル特徴を取得し、前記サンプルマルチモーダル特徴に対応する画像に基づいて前記サンプル目標物体のサンプル視覚領域を確定し、前記サンプル視覚領域に対応する画像をサンプル応答ヒートマップと記し、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、前記目標画像分割モデルを取得することである。

上記実施例の基に、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、前記目標画像分割モデルを取得することは、
前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップを前記初期画像分割モデルに入力し、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップの複数の第１コンボリューション結果を取得し、前記複数の第１コンボリューション結果は、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップが異なるサンプリングレートで第１コンボリューション操作を実行することにより得られることと、前記複数の第１コンボリューション結果をスティッチングし、スティッチング結果を取得することと、前記スティッチング結果に対して第２コンボリューション操作を行い、第２コンボリューション結果を取得することと、前記第２コンボリューション結果をアップサンプリングし、サンプル分割結果を取得することと、前記サンプル画像のリアルな分割結果に対する前記サンプル分割結果の損失値を確定することと、前記損失値が設定閾値よりも小さい場合、前記初期画像分割モデルのトレーニングを停止し、損失値が設定閾値よりも小さい画像分割モデルを前記目標画像分割モデルとし、前記損失値が設定閾値以上である場合、損失値が設定閾値よりも小さくなるまで、前記初期画像分割モデルをトレーニングし続けることと、を含む。

本開示の実施例に係る画像分割装置は、上記実施例に係る画像分割方法と同じ思想に属し、本実施例で詳しく説明されていない技術詳細は、上記実施例を参照することができ、本実施例は、画像分割方法の実行と同じ効果を有する。

以下、図１０を参照し、本開示の実施例を実現するために適した電子機器６００の構造模式図を示す。本開示の実施例における電子機器は、携帯電話機、ノートパソコン、デジタル放送受信機、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、タブレットコンピュータ（ＰＡＤ）、ポータブルマルチメディアプレイヤー（ＰｏｒｔａｂｌｅＭｅｄｉａＰｌａｙｅｒ、ＰＭＰ）、車載端末（例えば、車載ナビゲーション端末）等のようなモバイル端末、およびデジタルＴＶ（Ｔｅｌｅｖｉｓｉｏｎ）、デスクトップ型コンピュータ等のような固定端末を含んでもよいが、これらに限定されない。図１０に示す電子機器は一例に過ぎず、本開示の実施例の機能および使用範囲に何かの制限を与えるものではない。

図１０に示すように、電子機器６００は、読み出し専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）６０２に記憶されたプログラム、または記憶装置６０８からランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）６０３にロードされたプログラムに基づき、様々な適当な動作および処理を実行可能な処理装置（例えば、中央プロセッサ、グラフィックプロセッサ等）６０１を備えてもよい。ＲＡＭ６０３には、電子機器６００の操作に必要な様々なプログラムおよびデータが更に記憶されている。処理装置６０１、ＲＯＭ６０２およびＲＡＭ６０３は、バス６０４を介して互いに接続されている。入力／出力（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

通常、例えば、タッチパネル、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープ等を含む入力装置６０６、例えば、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、スピーカ、バイブレータ等を含む出力装置６０７、例えば、磁気テープ、ハードディスク等を含む記憶装置６０８、および通信装置６０９は、Ｉ／Ｏインターフェース６０５に接続することができる。通信装置６０９は、電子機器６００が他の機器と無線または有線通信してデータを交換することを可能にする。図１０は、様々な装置を備える電子機器６００を示したが、全ての示された装置を実施または具備することが必要ではないことが理解されるべきである。代わりに、より多いまたはより少ない装置を実施または具備してもよい。

本開示の実施例によれば、上記フローチャートを参照して記述した過程は、コンピュータソフトウェアプログラムとして実現され得る。例えば、本開示の実施例は、非一時的コンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含み、該コンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例において、該コンピュータプログラムは、通信装置６０９によりネットワークからダウンロードされてインストールされてもよいし、記憶装置６０８からインストールされてもよいし、ＲＯＭ６０２からインストールされてもよい。該コンピュータプログラムが処理装置６０１により実行されると、本開示の実施例の方法で限定される上記機能を実行する。

本開示に記載されたコンピュータ可読媒体は、コンピュータ可読信号媒体であってもよいし、コンピュータ可読記憶媒体であってもよいし、上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気の、磁気の、光の、電磁気の、赤外線の、または半導体のシステム、装置またはデバイス、あるいは以上の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体の更なる具体的な例は、１つまたは複数のリード線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ＲＡＭ、ＲＯＭ、消去可能なプログラマブル読み出し専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、または上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。本開示において、コンピュータ可読記憶媒体は、命令実行システム、装置またはデバイスに使用され得る、または命令実行システム、装置またはデバイスと合わせて使用され得るプログラムを含有または記憶する任意の有形的な媒体であってもよい。本開示において、コンピュータ可読信号媒体は、ベースバンドでまたは搬送波の一部として伝搬されるデータ信号を含んでもよく、その中にコンピュータ可読プログラムコードが担持されている。このような伝搬されるデータ信号は、様々な形式を採用することができ、電磁信号、光信号または上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読信号媒体は、命令実行システム、装置またはデバイスに使用される、または命令実行システム、装置またはデバイスと合わせて使用されるプログラムを送信、伝搬または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適当な媒体で伝送でき、電線、光ケーブル、無線周波数（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、ＲＦ）等、または上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。

いくつかの実施形態において、クライアント、サーバは、ハイパーテキストトランスファープロトコル（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ、ＨＴＴＰ）のような、任意の現在知られているまたは将来研究開発されるネットワークプロトコルを利用して通信することができ、且つ、任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）と相互接続できる。通信ネットワークの例は、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ＬＡＮ）、ワイドエリアネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、ＷＡＮ）、ネットワークオフネットワーク（例えば、インターネット）およびピアツーピアネットワーク（例えば、ａｄｈｏｃピアツーピアネットワーク）、および任意の現在知られているまたは将来研究開発されるネットワークを含む。

上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよいし、単独で存在して該電子機器に取り付けられていないものであってもよい。

上記コンピュータ可読媒体に１つのまたは複数のプログラムが担持され、上記１つのまたは複数のプログラムが該電子機器により実行されると、該電子機器は、元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得し、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記し、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定する。

１種または複数種のプログラミング言語またはその組み合わせで本開示の操作を実行するためのコンピュータプログラムコードを作成することができ、上記プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋のようなオブジェクト指向プログラミング言語を含んでもよいが、これらに限定されず、「Ｃ」言語のような通常の手続型プログラミング言語または類似するプログラミング言語を更に含む。プログラムコードは、完全にユーザのコンピュータで実行されてもよいし、部分的にユーザのコンピュータで実行されてもよいし、１つの独立したソフトウェアパッケージとして実行されてもよいし、部分的にユーザのコンピュータで部分的にリモートコンピュータで実行されてもよいし、完全にリモートコンピュータまたはサーバで実行されてもよい。リモートコンピュータに関する場合、リモートコンピュータは、ＬＡＮまたはＷＡＮを含む任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または、外部コンピュータに接続する（例えば、インターネットサービスプロバイダを利用してインターネットを介して接続する）ことができる。

図面におけるフローチャートおよびブロック図は、本開示の様々な実施例によるシステム、方法およびコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を示している。この点で、フローチャートまたはブロック図における各ブロックは、１つのモジュール、プログラム、またはコードの一部を表すことができ、該モジュール、プログラム、またはコードの一部は、所定のロジック機能を実現するための１つまたは複数の実行可能命令を含む。なお、代替としてのいくつかの実現において、ブロックに記載された機能は、図面に記載された順序と異なる順序で発生してもよい。例えば、接続されているように示された２つのブロックは、関する機能によって、実際にほぼ並行に実行してもよいし、逆の順序で実行してもよい。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、所定の機能または操作を実行する専用のハードウェアに基づくシステムで実現してもよいし、専用のハードウェアとコンピュータ命令との組み合わせで実現してもよい。

本開示の実施例に係るモジュールまたはユニットは、ソフトウェアの方式で実現されてもよいし、ハードウェアの方式で実現されてもよい。ここで、モジュールまたはユニットの名称は、ある場合、該モジュールまたはユニット自体を限定するものではなく、例えば、スティッチングモジュールは、「元画像に対応する視覚特徴と言語テキストに対応するテキスト特徴とをスティッチングし、マルチモーダル特徴を取得するモジュール」と記述されてもよい。

本発明に係る機能は、少なくとも部分的に１つまたは複数のハードウェアロジックコンポーネントにより実行されてもよい。例えば、非限定的に、使用可能な例示的なタイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、特定用途向け標準パーツ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＳｔａｎｄａｒｄＰａｒｔｓ、ＡＳＳＰ）、システムオンチップのシステム（ＳｙｓｔｅｍｏｎＣｈｉｐ、ＳＯＣ）、複合プログラマブルロジックデバイス（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ、ＣＰＬＤ）等を含む。

本開示の明細書において、機器可読媒体は、命令実行システム、装置またはデバイスに使用される、または命令実行システム、装置またはデバイスと合わせて使用されるプログラムを含有または記憶できる有形的な媒体であってもよい。機器可読媒体は、機器可読信号媒体または機器可読記憶媒体であってもよい。機器可読媒体は、電子の、磁気の、光の、電磁気の、赤外線の、または半導体のシステム、装置またはデバイス、或いは上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。機器可読記憶媒体の例は、１つまたは複数の線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭまたはフラッシュメモリ、光ファイバ、ＣＤ－ＲＯＭ、光記憶デバイス、磁気記憶デバイス、または上記内容の任意の適当な組み合わせを含む。

本開示の１つまたは複数の実施例によれば、本開示は、
元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得することと、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記すことと、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定することとを含む、
画像分割方法を提供する。

本開示の１つまたは複数の実施例によれば、本開示に係る画像分割方法において、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定することは、
前記マルチモーダル特徴に対応する画像に対して相関フィルタリングを行い、前記目標物体の視覚領域を取得することを含む。

本開示の１つまたは複数の実施例によれば、本開示に係る画像分割方法において、前記マルチモーダル特徴に対応する画像に対して相関フィルタリングを行い、前記目標物体の視覚領域を取得することは、
前記テキスト特徴に基づいてコンボリューションカーネルを確定することと、前記コンボリューションカーネルに基づいて前記マルチモーダル特徴に対応する画像に対してコンボリューション操作を行い、前記目標物体の視覚領域を取得することとを含む。

本開示の１つまたは複数の実施例によれば、本開示に係る画像分割方法において、前記視覚特徴は、少なくとも２つの解像度でそれぞれ前記元画像から抽出された視覚特徴を含む。

本開示の１つまたは複数の実施例によれば、本開示に係る画像分割方法において、前記元画像に対応する視覚特徴と、記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得することは、
解像度の大きさの順に前記少なくとも２つの視覚特徴をソートし、ソート結果を取得し、マッピング行列により、前記テキスト特徴を前記ソート結果における値が最も小さい第１解像度に対応する第１視覚特徴が位置する特徴空間にマッピングすることと、前記第１視覚特徴とマッピング後のテキスト特徴とをスティッチングし、第１スティッチング特徴を取得することと、前記第１スティッチング特徴をアップサンプリングし、アップサンプリング後の第１スティッチング特徴と、前記ソート結果における第２解像度に対応する第２視覚特徴とをスティッチングし、第２スティッチング特徴を取得し、アップサンプリング後のスティッチング特徴と前記ソート結果における解像度が最も大きい視覚特徴とをスティッチングしてマルチモーダル特徴を取得するまで、アップサンプリングおよびスティッチング操作を循環実行することとを含み、前記第２解像度は、前記第１解像度よりも大きくて前記第１解像度以外の最も小さい解像度である。

本開示の１つまたは複数の実施例によれば、本開示に係る画像分割方法において、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定することは、
前記マルチモーダル特徴に対応する画像および前記応答ヒートマップを目標画像分割モデルに入力し、前記目標画像分割モデルから出力された結果を、前記目標物体の分割結果として取得することを含む。

本開示の１つまたは複数の実施例によれば、本開示に係る画像分割方法において、前記目標画像分割モデルのトレーニング過程は、
サンプル画像と、前記サンプル画像内の分割待ちサンプル目標物体を指定するためのサンプル記述言語とを取得し、前記サンプル画像のサンプル視覚特徴および前記サンプル記述言語のサンプルテキスト特徴を抽出し、前記サンプル視覚特徴と前記サンプルテキスト特徴とを融合してサンプルマルチモーダル特徴を取得し、前記サンプルマルチモーダル特徴に対応する画像に基づいて前記サンプル目標物体のサンプル視覚領域を確定し、前記サンプル視覚領域に対応する画像をサンプル応答ヒートマップと記し、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、前記目標画像分割モデルを取得することである。

本開示の１つまたは複数の実施例によれば、本開示に係る画像分割方法において、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、前記目標画像分割モデルを取得することは、
前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップを前記初期画像分割モデルに入力し、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップの複数の第１コンボリューション結果を取得し、前記複数の第１コンボリューション結果は、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップが異なるサンプリングレートで第１コンボリューション操作を実行することにより得られることと、前記複数の第１コンボリューション結果をスティッチングし、スティッチング結果を取得することと、前記スティッチング結果に対して第２コンボリューション操作を行い、第２コンボリューション結果を取得することと、前記第２コンボリューション結果をアップサンプリングし、サンプル分割結果を取得することと、前記サンプル画像のリアルな分割結果に対する前記サンプル分割結果の損失値を確定することと、前記損失値が設定閾値よりも小さい場合、前記初期画像分割モデルのトレーニングを停止し、損失値が設定閾値よりも小さい画像分割モデルを前記目標画像分割モデルとし、前記損失値が設定閾値以上である場合、損失値が設定閾値よりも小さくなるまで、前記初期画像分割モデルをトレーニングし続けることと、を含む。

本開示の１つまたは複数の実施例によれば、本開示は、
元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得するように構成される融合モジュールと、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記すように構成される視覚領域確定モジュールと、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定するように構成される分割結果確定モジュールと、を備える、
画像分割装置を提供する。

本開示の１つまたは複数の実施例によれば、本開示は、
１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶するように構成されるメモリとを備える電子機器であって、前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサにより実行されると、本開示のいずれかの実施例に係る画像分割方法を実現する、
電子機器を提供する。

本開示の１つまたは複数の実施例によれば、本開示は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、該プログラムがプロセッサにより実行されると、本開示のいずれかの実施例に係る画像分割方法を実現する、コンピュータ可読記憶媒体を提供する。

また、特定の順序で複数の操作を記述したが、これらの操作を示された特定の順序または正方向順序で実行する必要があると理解されるべきではない。一定の環境において、マルチタスクおよび並行処理が有利である可能性がある。同様に、以上の検討に複数の実現詳細が含まれているが、これらは本開示の範囲を限定するものと理解されるべきではない。単独な実施例の説明に記述された一部の特徴は、組み合わせて単一の実施例で実現されてもよい。逆に、単一の実施例の説明に記述された様々な特徴は、単独で、または任意の適当なサブ組み合わせの方式で複数の実施例で実現されてもよい。

Claims

元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得することと、
前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記すことと、
前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定することと、を含む、
画像分割方法。
前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定することは、
前記マルチモーダル特徴に対応する画像に対して相関フィルタリングを行い、前記目標物体の視覚領域を取得することを含む、
請求項１に記載の方法。
前記マルチモーダル特徴に対応する画像に対して相関フィルタリングを行い、前記目標物体の視覚領域を取得することは、
前記テキスト特徴に基づいてコンボリューションカーネルを確定することと、
前記コンボリューションカーネルに基づいて前記マルチモーダル特徴に対応する画像に対してコンボリューション操作を行い、前記目標物体の視覚領域を取得することと、を含む、
請求項２に記載の方法。
前記視覚特徴は、少なくとも２つの解像度でそれぞれ前記元画像から抽出された視覚特徴を含む、
請求項１に記載の方法。
前記元画像に対応する視覚特徴と、記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得することは、
解像度の大きさの順に前記少なくとも２つの視覚特徴をソートし、ソート結果を取得し、マッピング行列により、前記テキスト特徴を前記ソート結果における値が最も小さい第１解像度に対応する第１視覚特徴が位置する特徴空間にマッピングすることと、
前記第１視覚特徴とマッピング後のテキスト特徴とをスティッチングし、第１スティッチング特徴を取得することと、
前記第１スティッチング特徴をアップサンプリングし、アップサンプリング後の第１スティッチング特徴と、前記ソート結果における第２解像度に対応する第２視覚特徴とをスティッチングし、第２スティッチング特徴を取得し、アップサンプリング後のスティッチング特徴と前記ソート結果における解像度が最も大きい視覚特徴とをスティッチングして前記マルチモーダル特徴を取得するまで、アップサンプリングおよびスティッチング操作を循環実行することと、を含み、前記第２解像度は、前記第１解像度よりも大きくて前記第１解像度以外の最も小さい解像度である、
請求項４に記載の方法。
前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定することは、
前記マルチモーダル特徴に対応する画像および前記応答ヒートマップを目標画像分割モデルに入力し、前記目標画像分割モデルから出力された結果を、前記目標物体の分割結果として取得することを含む、
請求項１～５のいずれか１項に記載の方法。
前記目標画像分割モデルのトレーニング過程は、
サンプル画像と、前記サンプル画像内の分割待ちサンプル目標物体を指定するためのサンプル記述言語とを取得し、前記サンプル画像のサンプル視覚特徴および前記サンプル記述言語のサンプルテキスト特徴を抽出し、
前記サンプル視覚特徴と前記サンプルテキスト特徴とを融合してサンプルマルチモーダル特徴を取得し、
前記サンプルマルチモーダル特徴に対応する画像に基づいて前記サンプル目標物体のサンプル視覚領域を確定し、前記サンプル視覚領域に対応する画像をサンプル応答ヒートマップと記し、
前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、前記目標画像分割モデルを取得することである、
請求項６に記載の方法。
前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、前記目標画像分割モデルを取得することは、
前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップを前記初期画像分割モデルに入力し、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップの複数の第１コンボリューション結果を取得し、前記複数の第１コンボリューション結果は、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップが異なるサンプリングレートで第１コンボリューション操作を実行することにより得られることと、
前記複数の第１コンボリューション結果をスティッチングし、スティッチング結果を取得することと、
前記スティッチング結果に対して第２コンボリューション操作を行い、第２コンボリューション結果を取得することと、
前記第２コンボリューション結果をアップサンプリングし、サンプル分割結果を取得することと、
前記サンプル画像のリアルな分割結果に対する前記サンプル分割結果の損失値を確定することと、
前記損失値が設定閾値よりも小さい場合、前記初期画像分割モデルのトレーニングを停止し、損失値が設定閾値よりも小さい画像分割モデルを前記目標画像分割モデルとし、前記損失値が設定閾値以上である場合、損失値が前記設定閾値よりも小さくなるまで、前記初期画像分割モデルをトレーニングし続けることと、を含む、
請求項７に記載の方法。
元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得するように構成される融合モジュールと、
前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記すように構成される視覚領域確定モジュールと、
前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定するように構成される分割結果確定モジュールと、を備える、
画像分割装置。
少なくとも１つのプロセッサと、
少なくとも１つのプログラムを記憶するように構成されるメモリと、
を備える電子機器であって、
前記少なくとも１つのプログラムが前記少なくとも１つのプロセッサにより実行されると、請求項１～８のいずれか１項に記載の画像分割方法を実現する、
電子機器。
コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、前記プログラムがプロセッサにより実行されると、請求項１～８のいずれか１項に記載の画像分割方法を実現する、
コンピュータ可読記憶媒体。