JP2023547917A - 画像分割方法、装置、機器および記憶媒体 - Google Patents

画像分割方法、装置、機器および記憶媒体 Download PDF

Info

Publication number
JP2023547917A
JP2023547917A JP2023525962A JP2023525962A JP2023547917A JP 2023547917 A JP2023547917 A JP 2023547917A JP 2023525962 A JP2023525962 A JP 2023525962A JP 2023525962 A JP2023525962 A JP 2023525962A JP 2023547917 A JP2023547917 A JP 2023547917A
Authority
JP
Japan
Prior art keywords
image
feature
sample
visual
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023525962A
Other languages
English (en)
Inventor
孔濤
荊雅
李磊
Original Assignee
北京有竹居▲網▼絡技▲術▼有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京有竹居▲網▼絡技▲術▼有限公司 filed Critical 北京有竹居▲網▼絡技▲術▼有限公司
Publication of JP2023547917A publication Critical patent/JP2023547917A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30128Food products

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Character Input (AREA)

Abstract

本開示は、画像分割方法、装置、機器および記憶媒体を開示する。該画像分割方法は、元画像に対応する視覚特徴と、元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得することと、マルチモーダル特徴に対応する画像に基づいて目標物体の視覚領域を確定し、視覚領域に対応する画像を応答ヒートマップとして記すことと、マルチモーダル特徴に対応する画像および応答ヒートマップに基づき、目標物体の分割結果を確定することとを含む。【選択図】図1

Description

[関連出願への相互参照]
本願は、2020年10月30日に中国専利局に提出された出願番号が202011197790.9である中国特許出願に対して優先権を主張するものであり、該出願の全ての内容を引用により本願に援用する。
[技術分野]
本開示は、画像処理の技術分野に関し、例えば、画像分割方法、装置、機器および記憶媒体に関する。
言語指示での画像分割は、クロスモーダル学習における非常に重要な技術であり、指示的な画像分割とも呼ばれ、言語指示での画像分割の目標は、画像内の言語で指定された物体を分割することである。言語指示での画像分割は、画像と言語記述との間のセマンティックギャップの問題を解消する必要があるため、より挑戦性がある。
本開示は、記述言語の指示で画像内の指定物体を効果的に分割することができる画像分割方法、装置、機器および記憶媒体を提供する。
本開示は、
元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得することと、
前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記すことと、
前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定することとを含む、
画像分割方法を提供する。
本開示は、
元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得するように構成される融合モジュールと、
前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記すように構成される視覚領域確定モジュールと、
前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定するように構成される分割結果確定モジュールとを備える、
画像分割装置を更に提供する。
本開示は、
1つまたは複数のプロセッサと、
1つまたは複数のプログラムを記憶するように構成されるメモリと、
を備える電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサにより実行されると、上記画像分割方法を実現する、
電子機器を更に提供する。
本開示は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、該プログラムがプロセッサにより実行されると、上記画像分割方法を実現するコンピュータ可読記憶媒体を更に提供する。
本開示の実施例1に係る画像分割方法のフローチャートである。 本開示の実施例2に係る画像分割方法のフローチャートである。 本開示の実施例2に係る画像分割モデルの構造模式図である。 本開示の実施例2に係る画像分割方法の実現のフローチャートである。 本開示の実施例2に係る元画像の模式図である。 本開示の実施例2に係る分割結果の模式図である。 従来方法で得られる分割結果の模式図である。 本開示の実施例2に係る本開示の実施例に係る画像分割方法および関連技術を用いて同じ画像を分割した結果の比較図である。 本開示の実施例3に係る画像分割装置の構造図である。 本開示の実施例4に係る電子機器の構造図である。
以下、図面を参照しながら本開示の実施例について説明する。図面に本開示のいくつかの実施例が示されるが、本開示は、様々な形式で実現でき、ここで記述される実施例に限定されるものと解釈されるべきではなく、本開示をより明瞭かつ完全に理解するために、これらの実施例を提供する。
本開示の方法の実施形態に記載される複数のステップは、異なる順序で実行されてもよいし、および/または並行に実行されてもよい。また、方法の実施形態は、追加のステップおよび/または実行が省略されて示されたステップを含んでもよい。本開示の範囲は、この点で限られない。
本発明で使用される「含む」という用語およびその変形は、開放的な包含であり、即ち、「含むが、これらに限定されない」。「基づく」という用語は、「少なくとも部分的に基づく」という意味である。「1つの実施例」という用語は、「少なくとも1つの実施例」を表す。「別の実施例」という用語は、「少なくとも1つの別の実施例」を表す。「いくつかの実施例」という用語は、「少なくともいくつかの実施例」を表す。他の用語の関連定義は、以下の記述で与えられる。
なお、本開示に言及される「第1」、「第2」等の概念は、異なる装置、モジュール、ユニットまたは操作を区分するためのものに過ぎず、これらの装置、モジュール、ユニットまたは操作が実行する機能の順序または相互依存関係を限定するためのものでもない。
なお、本開示に言及される「1つ」、「複数」という修飾は、模式的なものであるが、限定的なものではなく、文脈が明確に例外を示さない限り、「1つまたは複数」として理解されるべきである。
本開示の実施形態における複数の装置間でインタラクションされるメッセージまたは情報の名称は、説明するためのものに過ぎず、これらのメッセージまたは情報の範囲を限定するためのものではない。
図1は、本開示の実施例1に係る画像分割方法のフローチャートであり、本実施例は、言語指示での画像において物体を分割する場合に適用でき、インタラクション時の画像編集またはマンマシンインタラクションな等の分野に適用できるし、言語で駆動される画像物体検出または言語で駆動される画像理解等の分野にも適用できる。該方法は、画像分割装置で実行されることができ、該装置は、ソフトウェアおよび/またはハードウェアの方式で実現でき、該装置は、電子機器に構成でき、該電子機器は、画像データ処理機能を持つ端末であってもよく、例えば、携帯電話機、タブレットコンピュータ、ノートパソコン等のモバイル端末であってもよいし、デスクトップ型コンピュータ等の固定端末またはサーバであってもよい。図1に示すように、該方法は、以下のようなステップを含む。
S110において、元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得する。
元画像は、少なくとも1つの物体を含む画像であってもよく、カメラまたはスキャナー等の方式により取得されてもよいし、既存の画像ライブラリから選択されてもよい。視覚特徴は、元画像が設定解像度で対応する画像特徴であってもよく、視覚特徴は、実際に1つの画像であり、本実施例は、解像度の大きさを限定しない。1つの例において、視覚特徴抽出ネットワークを介して元画像の設定解像度での画像特徴を抽出して対応する視覚特徴画像を取得することができる。視覚特徴抽出ネットワークは、Darknetネットワーク構造または視覚特徴を抽出するために使用可能な他のネットワーク構造であってもよい。Darknetは、1つのオープンソースの深層学習フレームワークであり、構造が簡単で、依存項がなく、それを用いて視覚特徴を抽出すると、柔軟性はより良い。
記述言語は、指示的な言語記述に対応するテキストであってもよく、元画像内の分割する目標物体を指定することに用いられる。記述言語は、画像情報、目標物体の位置情報、および目標物体の外観情報等を含んでもよい。画像情報は、分割する必要がある画像の情報を確定することに用いられ、例えば、画像の名称または番号等の該画像を一意に識別する情報を含んでもよい。位置情報は、目標物体の元画像内の位置を初歩的に確定することに用いられる。外観情報は、最終的な目標物体を確定することに用いられる。例えば、記述言語は、画像A内の手にバドミントンラケットを持ち、赤い服を着ているユーザであってもよい。テキスト特徴は、記述言語の意味を反映する特徴であってもよく、一般的に、ベクトルの形式で表すことができる。好ましくは、テキスト特徴抽出ネットワークを介して記述言語のテキスト特徴を抽出することができ、本実施例は、テキスト特徴抽出ネットワークの構造について限定せず、例えば、ゲート付き再帰型ユニット(Gated Recurrent Unit、GRU)ネットワークを採用することができ、GRUは、再帰型ニューラルネットワークの1種である。
マルチモーダル特徴は、複数のモーダルの特徴を融合して得た融合特徴であり、本実施例は、視覚特徴とテキスト特徴とを融合してマルチモーダル特徴を取得し、クロスモーダルの特徴表示を実現し、画像と記述言語との間のセマンティックギャップを解消する。好ましくは、視覚特徴と、テキスト特徴に対応する位置のデータとを外積し、視覚特徴とテキスト特徴との融合特徴であるマルチモーダル特徴を取得することができる。マルチモーダル特徴も、実際に1つの画像であり、マルチモーダル特徴は、マルチモーダル特徴画像またはマルチモーダル特徴に対応する画像、即ち、マルチモーダル特徴を含む画像と呼ばれもよい。
S120において、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記す。
視覚領域は、目標物体が位置する領域であり、例えば、目標物体がピザである場合、視覚領域はピザが位置する領域である。本実施例は、目標物体を分割する時、まず、目標物体の視覚領域を確定し、視覚領域の基に目標物体を分割し、画像分割の複雑度を効果的に低減することができる。好ましくは、マルチモーダル特徴に対応する画像をフィルタリングし、非目標物体の目標物体への干渉を除去し、目標物体の視覚領域を取得することができる。本実施例は、フィルタリング後の画像、即ち、視覚領域に対応する画像を応答ヒートマップとして記し、該マップは、目標物体の位置情報を表し、領域ごとに1つの応答値を対応して有し、応答値が大きければ大きいほど、該領域に目標物体が存在する可能性が大きいことを表す。好ましくは、応答値が設定閾値よりも大きい領域を目標物体の視覚領域とし、ハイライト表示することができ、本実施例は、設定閾値の大きさについて限定しない。
S130において、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定する。
好ましくは、画像分割モデルにより、マルチモーダル特徴に対応する画像および応答ヒートマップを合わせて分割結果を確定することができる。画像分割モデルは、目標物体の分割結果を確定することに用いられ、該モデルの構造は、必要に応じて設定することができ、例えば、コンボリューション層およびアップサンプリング層を備えてもよく、コンボリューション層は、入力された画像に対してコンボリューション操作を行うことに用いられ、アップサンプリング層は、コンボリューション結果をアップサンプリングして分割結果を取得することに用いられ、分割結果に対応する画像の大きさは、元画像内のリアルな分割結果の大きさと同じである。本実施例の画像分割モデルは、マルチモーダル特徴に対応する画像および応答ヒートマップを入力とし、使用する前に、マルチモーダル特徴に対応する画像および応答ヒートマップを画像分割モデルに入力し、画像分割モデルをトレーニングし、コンボリューション層およびアップサンプリング層のパラメータを調整することができる。好ましくは、元画像に対応するリアルな分割結果に対する画像分割モデルから出力された分割結果の損失値を確定することができ、損失値が設定閾値よりも小さい場合、トレーニングを終了し、損失値が設定閾値よりも小さい場合に対応するモデルを、本実施例の目標物体を分割するための画像分割モデルとする。
本開示の実施例1は、画像分割方法を提供し、元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得し、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記し、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定する。該方法は、画像分割過程を分解し、まず、融合で得られたマルチモーダル特徴に対応する画像に基づいて目標物体の視覚領域を確定し、応答ヒートマップを取得し、その後、マルチモーダル特徴に対応する画像および応答ヒートマップに基づいて分割結果を確定し、画像と記述言語との間のセマンティックギャップを効果的に解消し、記述言語で指定された目標物体を分割する。
図2は、本開示の実施例2に係る画像分割方法のフローチャートであり、本実施例は、上記実施例の基に説明し、図2を参照し、該方法は、以下のステップを含んでもよい。
S210において、元画像に対応する視覚特徴と記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得する。
視覚特徴の数は、1つまたは複数であってもよく、分割結果の精度を向上させるために、少なくとも2つの解像度でそれぞれ元画像から抽出された視覚特徴を含んでもよい。視覚特徴の数が少なすぎると、分割結果の精度に影響を及ぼし、大きすぎると、計算量を増加する。本実施例は、3つの視覚特徴を例とし、分割結果精度を向上させるとともに、計算量を減少することができる。本実施例の視覚特徴は、元画像(RH×W×3)の第1解像度で抽出された第1視覚特徴
、元画像の第2解像度で抽出された第2視覚特徴
、および元画像の第3解像度で抽出された第3視覚特徴
を含んでもよく、ここで、第1解像度<第2解像度<第3解像度である。第1解像度、第2解像度および第3解像度の数値は、場合によって設定することができ、本実施例は、第1解像度が元画像の解像度の1/32で、第2解像度が元画像の解像度の1/16で、第3解像度が元画像の解像度の1/8であることを例とする。HおよびWは、それぞれ元画像の長さおよび幅であり、dは、視覚特徴に対応する画像の次元であり、本実施例において、i=1、2、3である。
1つの例において、以下のような方式によりマルチモーダル特徴を取得することができる。
解像度の大きさの順に前記少なくとも2つの視覚特徴をソートし、ソート結果を取得し、マッピング行列により、前記テキスト特徴を前記ソート結果における値が最も小さい第1解像度に対応する第1視覚特徴が位置する特徴空間にマッピングし、前記第1視覚特徴とマッピング後のテキスト特徴とをスティッチングし、第1スティッチング特徴を取得し、前記第1スティッチング特徴をアップサンプリングし、アップサンプリング後の第1スティッチング特徴と、前記ソート結果における前記第1解像度よりも大きくて前記第1解像度以外の最も小さい解像度である第2解像度に対応する第2視覚特徴とをスティッチングし、第2スティッチング特徴を取得し、アップサンプリング後のスティッチング特徴と前記ソート結果における解像度が最も大きい視覚特徴とをスティッチングし、マルチモーダル特徴を取得するまで、アップサンプリングおよびスティッチング操作を循環実行する。
テキスト特徴と視覚特徴の長さが異なることを考え、融合効果を確保するために、まず、テキスト特徴および視覚特徴を同じ特徴空間にマッピングしてもよい。例えば、視覚特徴をテキスト特徴が位置する空間にマッピングしてもよいし、テキスト特徴を視覚特徴が位置する空間にマッピングしてもよいし、テキスト特徴および視覚特徴を他の特徴空間にマッピングしてもよい。実施例は、テキスト特徴を視覚特徴が位置する特徴空間にマッピングすることを例とし、マッピング過程を簡略化し、計算量を低減することができる。
視覚特徴が複数存在する場合、対応する解像度も異なり、対応する画像の大きさも異なり、スティッチングの有効性を確保するために、本実施例は、複数の視覚特徴の解像度の小さい順に複数の視覚特徴をソートし、ソート結果を取得する。特徴をスティッチングする時、ソート結果における視覚特徴の解像度の小さい順に行い、即ち、まず、解像度が最も小さい視覚特徴とテキスト特徴とをスティッチングし、その後、スティッチング結果をアップサンプリングし、また、ソート結果における次の解像度に対応する視覚特徴とスティッチングし、解像度が最も大きい視覚特徴のスティッチングが終了するまで行う。
視覚特徴が、それぞれ第1視覚特徴、第2視覚特徴および第3視覚特徴との3つを含むことを例とし、第1視覚特徴、第2視覚特徴および第3視覚特徴は、第1解像度、第2解像度および第3解像度にそれぞれ対応し、ここで、第1解像度<第2解像度<第3解像度である。外積の方式で第1視覚特徴とマッピング後のテキスト特徴に対応する位置の値を計算し、第1視覚特徴とマッピング後のテキスト特徴とのスティッチングを実現し、第1スティッチング特徴を取得することができる。上述したように、第1視覚特徴の解像度<第2視覚特徴の解像度<第3視覚特徴の解像度であり、即ち、第1スティッチング特徴の解像度は第2視覚特徴の解像度よりも小さく、同じ解像度での特徴のスティッチングを実現するために、本実施例は、第1スティッチング特徴をアップサンプリングし、アップサンプリングで得られたスティッチング特徴の解像度を第2視覚特徴の解像度と同じにさせ、その後、第1スティッチング特徴に類似するスティッチング操作を実行し、第2視覚特徴とアップサンプリング後の第1スティッチング特徴とをスティッチングし、第2スティッチング特徴を取得し、その後、第2スティッチング特徴をアップサンプリングし、アップサンプリング後の第2スティッチング特徴と第3視覚特徴とをスティッチングし、第3スティッチング特徴を取得し、即ち、マルチモーダル特徴を取得する。本実施例は、テキスト特徴と視覚特徴とを融合し、特徴のクロスモーダル表示を実現し、後で目標物体を分割する時、分割結果の精度を向上させることができる。
S220において、前記マルチモーダル特徴に対応する画像に対して相関フィルタリングを行い、前記目標物体の視覚領域を取得する。
1つの例において、テキスト特徴に基づいて1つのコンボリューションカーネルを生成し、該コンボリューションカーネルに基づいてマルチモーダル特徴に対応する画像に対してコンボリューション操作を行い、マルチモーダル特徴画像に対する相関フィルタリングを実現し、各領域に対応する応答値を取得することができ、領域の応答値が大きければ大きいほど、目標物体が存在する可能性が大きいことを表し、応答値によれば、対応する視覚領域を取得することができる。
S230において、前記視覚領域に対応する画像を応答ヒートマップとして記す。
S240において、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップを目標画像分割モデルに入力し、前記目標画像分割モデルから出力された結果を、前記目標物体の分割結果として取得する。
本実施例において、視覚領域に基づき、1つの初期画像分割モデルを設計し、より正確な分割結果を取得する。例示的には、図3を参照し、図3は、本開示の実施例2に係る初期画像分割モデルの構造模式図であり、該画像分割モデルは、入力層、並行する第1コンボリューション層、スティッチング層、第2コンボリューション層、アップサンプリング層、および出力層を備え、第1コンボリューション層の数は、場合によって設定することができる。図3は、5つの第1コンボリューション層を例とし、画像の異なるスケールでの内容をより良く捉えることができる。各第1コンボリューション層は1つのサンプリングレートに対応し、即ち、入力画像に対して5種の異なるサンプリングレートの第1コンボリューション操作をそれぞれ行い、5種のコンボリューション結果を取得する。スティッチング層は、この5種のコンボリューション結果をスティッチングすることに用いられる。第2コンボリューション層は、スティッチング後の結果に対してコンボリューション操作を再び実行することに用いられる。アップサンプリング層は、画像分割モデルから出力された分割結果の解像度が元画像のリアルな分割結果の解像度に一致することを確保することに用いられる。
画像分割モデルを使用する前に、初期画像分割モデルにおける第1コンボリューション層、スティッチング層、第2コンボリューション層およびアップサンプリング層のパラメータをトレーニングし、目標画像分割モデルを取得することができる。トレーニング過程は、
サンプル画像およびサンプル記述言語を取得し、前記サンプル画像のサンプル視覚特徴および前記サンプル記述言語のサンプルテキスト特徴を抽出し、前記サンプル視覚特徴と前記サンプルテキスト特徴とを融合してサンプルマルチモーダル特徴を取得し、前記サンプルマルチモーダル特徴に対応する画像に基づいて前記サンプル目標物体のサンプル視覚領域を確定し、前記サンプル視覚領域に対応する画像をサンプル応答ヒートマップとして記し、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、前記目標画像分割モデルを取得することである。
本実施例は、サンプル画像およびサンプル記述言語の数を限定せず、画像分割モデルの精度を向上させるために、複数グループのサンプル画像および複数グループのサンプル記述言語を選択し、その後、サンプル画像のサンプル視覚特徴とサンプル記述言語のサンプルテキスト特徴を抽出してスティッチングし、サンプルマルチモーダル特徴を取得し、マルチモーダル特徴に対して相関フィルタリングを行い、サンプル応答ヒートマップを取得することができ、これにより、サンプルマルチモーダル特徴に対応する画像およびサンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、目標画像分割モデルを取得することができる。特徴の抽出、スティッチングおよびフィルタリング過程は、上記実施例を参照することができ、ここで説明を省略する。
図3に示す構造に従い、サンプルマルチモーダル特徴に対応する画像およびサンプル応答ヒートマップを初期画像分割モデルに入力し、サンプルマルチモーダル特徴に対応する画像およびサンプル応答ヒートマップの複数の第1コンボリューション結果を取得し、複数の第1コンボリューション結果をスティッチングし、スティッチング結果を取得し、スティッチング結果に対して第2コンボリューション操作を行い、第2コンボリューション結果を取得し、第2コンボリューション結果をアップサンプリングし、サンプル分割結果を取得し、サンプル画像のリアルな分割結果に対するサンプル分割結果の損失値を確定し、損失値が設定閾値よりも小さい場合、初期画像分割モデルのトレーニングを停止し、損失値が設定閾値よりも小さい画像分割モデルを目標画像分割モデルとし、損失値が設定閾値以上である場合、損失値が設定閾値よりも小さくなるまで、初期画像分割モデルをトレーニングし続けることができる。好ましくは、以下のような損失関数でサンプル画像のリアルな分割結果に対するサンプル分割結果の損失値を確定することができる。
(ただし、Lは、サンプル画像のリアルな分割結果に対するサンプル分割結果の損失値であり、yは、元画像をダウンサンプリングした後のリアルな分割結果における各領域の要素値であり、pは、サンプル分割結果における各領域の要素値である。設定閾値の大きさは、場合によって設定することができ、例えば、0.5であってもよく、即ち、L<0.5である場合、トレーニングは終了する。)
例示的には、図4を参照し、図4は、本開示の実施例2に係る画像分割方法の実現のフローチャートである。まず、元画像および記述言語を取得し、その後、元画像の異なるレベルでの視覚特徴および記述言語に対応するテキスト特徴を抽出し、図4は、3つのレベルを例とし、3種の解像度にそれぞれ対応し、その後、第1視覚特徴Fv1とマッピング後のテキスト特徴とをスティッチングして第1スティッチング特徴Fm1を取得し、第1スティッチング特徴Fm1をアップサンプリングした後、第2視覚特徴Fv2とスティッチングし、第2スティッチング特徴Fm2を取得し、第2スティッチング特徴Fm2をアップサンプリングした後、第3視覚特徴Fv3とスティッチングし、第3スティッチング特徴Fm3を取得し、即ち、マルチモーダル特徴を取得する。その後、マルチモーダル特徴Fm3に対して相関フィルタリングを行い、応答ヒートマップを取得し、応答ヒートマップおよびマルチモーダル特徴Fm3に対応する画像を目標画像分割モデルに入力すれば、目標物体の分割結果を取得することができ、簡単で効果的である。
例示的には、図5を参照し、図5は、本開示の実施例2に係る元画像の模式図であり、言語テキストが「Pizza Nearest」であると仮定し、即ち、距離が最も近いピザを分割し、上記実施例に係る画像分割方法に従い、図6に示す分割結果を取得することができる。従来方法で得られた分割結果は図7に示すとおりである。例示的には、図8を参照し、図8は、本開示の実施例2に係る本開示の実施例に係る画像分割方法および関連技術を用いて同じ画像を分割した結果の比較図である。ここで、第1列はそれぞれ3種の元画像であり、第2列は、それぞれ本開示の実施例に係る方法を用いて分割した物体であり、第3列および第4列は、それぞれ関連技術を用いて分割した物体である。図6および8から見られるように、本開示の実施例に係る画像分割方法を用いて分割した物体は、リアルな結果により近く、画像分割結果の精度が向上する。
本開示の実施例2は、画像分割方法を提供し、上記実施例の基に、画像分割の過程を分解し、まず、目標物体の視覚領域を初歩的に確定し、その後、初期画像分割モデルを構築し、初期画像分割モデルの複雑度を簡略化し、マルチモーダル特徴画像および応答ヒートマップを用いて初期画像分割モデルをトレーニングし、目標画像分割モデルを取得し、更に、目標画像分割モデルを利用して分割結果を取得し、画像と記述言語との間のセマンティックギャップを効果的に解消し、ある程度で分割結果の精度を向上させる。
図9は、本開示の実施例3に係る画像分割装置の構造図であり、該装置は、上記実施例に記載の画像分割方法を実行することができ、該装置は電子機器に集積でき、図9を参照し、該装置は、
元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得するように構成される融合モジュール31と、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記すように構成される視覚領域確定モジュール32と、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定するように構成される分割結果確定モジュール33とを備えてもよい。
本開示の実施例は、画像分割装置を提供し、元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得し、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記し、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定する。該装置は、画像分割過程を分解し、まず、融合で得られたマルチモーダル特徴に対応する画像に基づいて目標物体の視覚領域を確定し、応答ヒートマップを取得し、その後、マルチモーダル特徴に対応する画像および応答ヒートマップに基づいて分割結果を確定し、画像と記述言語との間のセマンティックギャップを効果的に解消し、記述言語で指定された目標物体を分割する。
上記実施例の基に、視覚領域確定モジュール32は、
前記マルチモーダル特徴に対応する画像に対して相関フィルタリングを行い、前記目標物体の視覚領域を取得するように構成されるフィルタリングユニットを備える。
上記実施例の基に、フィルタリングユニットは、
前記テキスト特徴に基づいてコンボリューションカーネルを確定し、前記コンボリューションカーネルに基づいて前記マルチモーダル特徴に対応する画像に対してコンボリューション操作を行い、前記目標物体の視覚領域を取得するように構成される。
上記実施例の基に、前記視覚特徴は、少なくとも2つの解像度でそれぞれ前記元画像から抽出された視覚特徴を含む。
上記実施例の基に、融合モジュール31は、
解像度の大きさの順に前記少なくとも2つの視覚特徴をソートし、ソート結果を取得し、マッピング行列により、前記テキスト特徴を前記ソート結果における値が最も小さい第1解像度に対応する第1視覚特徴が位置する特徴空間にマッピングし、前記第1視覚特徴とマッピング後のテキスト特徴とをスティッチングし、第1スティッチング特徴を取得し、前記第1スティッチング特徴をアップサンプリングし、アップサンプリング後の第1スティッチング特徴と、前記ソート結果における第2解像度に対応する第2視覚特徴とをスティッチングし、第2スティッチング特徴を取得し、アップサンプリング後のスティッチング特徴と前記ソート結果における解像度が最も大きい視覚特徴とをスティッチングし、マルチモーダル特徴を取得するまで、アップサンプリングおよびスティッチング操作を循環実行するように構成され、前記第2解像度は、前記第1解像度よりも大きくて、前記第1解像度以外の最も小さい解像度である。
上記実施例の基に、分割結果確定モジュール33は、
前記マルチモーダル特徴に対応する画像および前記応答ヒートマップを目標画像分割モデルに入力し、前記目標画像分割モデルから出力された結果を、前記目標物体の分割結果として取得するように構成される。
上記実施例の基に、前記目標画像分割モデルのトレーニング過程は、
サンプル画像と、前記サンプル画像内の分割待ちサンプル目標物体を指定するためのサンプル記述言語とを取得し、前記サンプル画像のサンプル視覚特徴および前記サンプル記述言語のサンプルテキスト特徴を抽出し、前記サンプル視覚特徴と前記サンプルテキスト特徴とを融合してサンプルマルチモーダル特徴を取得し、前記サンプルマルチモーダル特徴に対応する画像に基づいて前記サンプル目標物体のサンプル視覚領域を確定し、前記サンプル視覚領域に対応する画像をサンプル応答ヒートマップと記し、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、前記目標画像分割モデルを取得することである。
上記実施例の基に、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、前記目標画像分割モデルを取得することは、
前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップを前記初期画像分割モデルに入力し、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップの複数の第1コンボリューション結果を取得し、前記複数の第1コンボリューション結果は、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップが異なるサンプリングレートで第1コンボリューション操作を実行することにより得られることと、前記複数の第1コンボリューション結果をスティッチングし、スティッチング結果を取得することと、前記スティッチング結果に対して第2コンボリューション操作を行い、第2コンボリューション結果を取得することと、前記第2コンボリューション結果をアップサンプリングし、サンプル分割結果を取得することと、前記サンプル画像のリアルな分割結果に対する前記サンプル分割結果の損失値を確定することと、前記損失値が設定閾値よりも小さい場合、前記初期画像分割モデルのトレーニングを停止し、損失値が設定閾値よりも小さい画像分割モデルを前記目標画像分割モデルとし、前記損失値が設定閾値以上である場合、損失値が設定閾値よりも小さくなるまで、前記初期画像分割モデルをトレーニングし続けることと、を含む。
本開示の実施例に係る画像分割装置は、上記実施例に係る画像分割方法と同じ思想に属し、本実施例で詳しく説明されていない技術詳細は、上記実施例を参照することができ、本実施例は、画像分割方法の実行と同じ効果を有する。
以下、図10を参照し、本開示の実施例を実現するために適した電子機器600の構造模式図を示す。本開示の実施例における電子機器は、携帯電話機、ノートパソコン、デジタル放送受信機、パーソナルデジタルアシスタント(Personal Digital Assistant、PDA)、タブレットコンピュータ(PAD)、ポータブルマルチメディアプレイヤー(Portable Media Player、PMP)、車載端末(例えば、車載ナビゲーション端末)等のようなモバイル端末、およびデジタルTV(Television)、デスクトップ型コンピュータ等のような固定端末を含んでもよいが、これらに限定されない。図10に示す電子機器は一例に過ぎず、本開示の実施例の機能および使用範囲に何かの制限を与えるものではない。
図10に示すように、電子機器600は、読み出し専用メモリ(Read-Only Memory、ROM)602に記憶されたプログラム、または記憶装置608からランダムアクセスメモリ(Random Access Memory、RAM)603にロードされたプログラムに基づき、様々な適当な動作および処理を実行可能な処理装置(例えば、中央プロセッサ、グラフィックプロセッサ等)601を備えてもよい。RAM 603には、電子機器600の操作に必要な様々なプログラムおよびデータが更に記憶されている。処理装置601、ROM 602およびRAM 603は、バス604を介して互いに接続されている。入力/出力(Input/Output、I/O)インターフェース605もバス604に接続されている。
通常、例えば、タッチパネル、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープ等を含む入力装置606、例えば、液晶ディスプレイ(Liquid Crystal Display、LCD)、スピーカ、バイブレータ等を含む出力装置607、例えば、磁気テープ、ハードディスク等を含む記憶装置608、および通信装置609は、I/Oインターフェース605に接続することができる。通信装置609は、電子機器600が他の機器と無線または有線通信してデータを交換することを可能にする。図10は、様々な装置を備える電子機器600を示したが、全ての示された装置を実施または具備することが必要ではないことが理解されるべきである。代わりに、より多いまたはより少ない装置を実施または具備してもよい。
本開示の実施例によれば、上記フローチャートを参照して記述した過程は、コンピュータソフトウェアプログラムとして実現され得る。例えば、本開示の実施例は、非一時的コンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含み、該コンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例において、該コンピュータプログラムは、通信装置609によりネットワークからダウンロードされてインストールされてもよいし、記憶装置608からインストールされてもよいし、ROM 602からインストールされてもよい。該コンピュータプログラムが処理装置601により実行されると、本開示の実施例の方法で限定される上記機能を実行する。
本開示に記載されたコンピュータ可読媒体は、コンピュータ可読信号媒体であってもよいし、コンピュータ可読記憶媒体であってもよいし、上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気の、磁気の、光の、電磁気の、赤外線の、または半導体のシステム、装置またはデバイス、あるいは以上の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体の更なる具体的な例は、1つまたは複数のリード線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、RAM、ROM、消去可能なプログラマブル読み出し専用メモリ(Erasable Programmable Read-Only Memory、EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(Compact Disc Read-Only Memory、CD-ROM)、光記憶デバイス、磁気記憶デバイス、または上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。本開示において、コンピュータ可読記憶媒体は、命令実行システム、装置またはデバイスに使用され得る、または命令実行システム、装置またはデバイスと合わせて使用され得るプログラムを含有または記憶する任意の有形的な媒体であってもよい。本開示において、コンピュータ可読信号媒体は、ベースバンドでまたは搬送波の一部として伝搬されるデータ信号を含んでもよく、その中にコンピュータ可読プログラムコードが担持されている。このような伝搬されるデータ信号は、様々な形式を採用することができ、電磁信号、光信号または上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読信号媒体は、命令実行システム、装置またはデバイスに使用される、または命令実行システム、装置またはデバイスと合わせて使用されるプログラムを送信、伝搬または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適当な媒体で伝送でき、電線、光ケーブル、無線周波数(Radio Frequency、RF)等、または上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。
いくつかの実施形態において、クライアント、サーバは、ハイパーテキストトランスファープロトコル(HyperText Transfer Protocol、HTTP)のような、任意の現在知られているまたは将来研究開発されるネットワークプロトコルを利用して通信することができ、且つ、任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)と相互接続できる。通信ネットワークの例は、ローカルエリアネットワーク(Local Area Network、LAN)、ワイドエリアネットワーク(Wide Area Network、WAN)、ネットワークオフネットワーク(例えば、インターネット)およびピアツーピアネットワーク(例えば、ad hocピアツーピアネットワーク)、および任意の現在知られているまたは将来研究開発されるネットワークを含む。
上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよいし、単独で存在して該電子機器に取り付けられていないものであってもよい。
上記コンピュータ可読媒体に1つのまたは複数のプログラムが担持され、上記1つのまたは複数のプログラムが該電子機器により実行されると、該電子機器は、元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得し、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記し、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定する。
1種または複数種のプログラミング言語またはその組み合わせで本開示の操作を実行するためのコンピュータプログラムコードを作成することができ、上記プログラミング言語は、Java、Smalltalk、C++のようなオブジェクト指向プログラミング言語を含んでもよいが、これらに限定されず、「C」言語のような通常の手続型プログラミング言語または類似するプログラミング言語を更に含む。プログラムコードは、完全にユーザのコンピュータで実行されてもよいし、部分的にユーザのコンピュータで実行されてもよいし、1つの独立したソフトウェアパッケージとして実行されてもよいし、部分的にユーザのコンピュータで部分的にリモートコンピュータで実行されてもよいし、完全にリモートコンピュータまたはサーバで実行されてもよい。リモートコンピュータに関する場合、リモートコンピュータは、LANまたはWANを含む任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または、外部コンピュータに接続する(例えば、インターネットサービスプロバイダを利用してインターネットを介して接続する)ことができる。
図面におけるフローチャートおよびブロック図は、本開示の様々な実施例によるシステム、方法およびコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を示している。この点で、フローチャートまたはブロック図における各ブロックは、1つのモジュール、プログラム、またはコードの一部を表すことができ、該モジュール、プログラム、またはコードの一部は、所定のロジック機能を実現するための1つまたは複数の実行可能命令を含む。なお、代替としてのいくつかの実現において、ブロックに記載された機能は、図面に記載された順序と異なる順序で発生してもよい。例えば、接続されているように示された2つのブロックは、関する機能によって、実際にほぼ並行に実行してもよいし、逆の順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、所定の機能または操作を実行する専用のハードウェアに基づくシステムで実現してもよいし、専用のハードウェアとコンピュータ命令との組み合わせで実現してもよい。
本開示の実施例に係るモジュールまたはユニットは、ソフトウェアの方式で実現されてもよいし、ハードウェアの方式で実現されてもよい。ここで、モジュールまたはユニットの名称は、ある場合、該モジュールまたはユニット自体を限定するものではなく、例えば、スティッチングモジュールは、「元画像に対応する視覚特徴と言語テキストに対応するテキスト特徴とをスティッチングし、マルチモーダル特徴を取得するモジュール」と記述されてもよい。
本発明に係る機能は、少なくとも部分的に1つまたは複数のハードウェアロジックコンポーネントにより実行されてもよい。例えば、非限定的に、使用可能な例示的なタイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、特定用途向け標準パーツ(Application Specific Standard Parts、ASSP)、システムオンチップのシステム(System on Chip、SOC)、複合プログラマブルロジックデバイス(Complex Programmable Logic Device、CPLD)等を含む。
本開示の明細書において、機器可読媒体は、命令実行システム、装置またはデバイスに使用される、または命令実行システム、装置またはデバイスと合わせて使用されるプログラムを含有または記憶できる有形的な媒体であってもよい。機器可読媒体は、機器可読信号媒体または機器可読記憶媒体であってもよい。機器可読媒体は、電子の、磁気の、光の、電磁気の、赤外線の、または半導体のシステム、装置またはデバイス、或いは上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。機器可読記憶媒体の例は、1つまたは複数の線による電気的接続、ポータブルコンピュータディスク、ハードディスク、RAM、ROM、EPROMまたはフラッシュメモリ、光ファイバ、CD-ROM、光記憶デバイス、磁気記憶デバイス、または上記内容の任意の適当な組み合わせを含む。
本開示の1つまたは複数の実施例によれば、本開示は、
元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得することと、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記すことと、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定することとを含む、
画像分割方法を提供する。
本開示の1つまたは複数の実施例によれば、本開示に係る画像分割方法において、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定することは、
前記マルチモーダル特徴に対応する画像に対して相関フィルタリングを行い、前記目標物体の視覚領域を取得することを含む。
本開示の1つまたは複数の実施例によれば、本開示に係る画像分割方法において、前記マルチモーダル特徴に対応する画像に対して相関フィルタリングを行い、前記目標物体の視覚領域を取得することは、
前記テキスト特徴に基づいてコンボリューションカーネルを確定することと、前記コンボリューションカーネルに基づいて前記マルチモーダル特徴に対応する画像に対してコンボリューション操作を行い、前記目標物体の視覚領域を取得することとを含む。
本開示の1つまたは複数の実施例によれば、本開示に係る画像分割方法において、前記視覚特徴は、少なくとも2つの解像度でそれぞれ前記元画像から抽出された視覚特徴を含む。
本開示の1つまたは複数の実施例によれば、本開示に係る画像分割方法において、前記元画像に対応する視覚特徴と、記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得することは、
解像度の大きさの順に前記少なくとも2つの視覚特徴をソートし、ソート結果を取得し、マッピング行列により、前記テキスト特徴を前記ソート結果における値が最も小さい第1解像度に対応する第1視覚特徴が位置する特徴空間にマッピングすることと、前記第1視覚特徴とマッピング後のテキスト特徴とをスティッチングし、第1スティッチング特徴を取得することと、前記第1スティッチング特徴をアップサンプリングし、アップサンプリング後の第1スティッチング特徴と、前記ソート結果における第2解像度に対応する第2視覚特徴とをスティッチングし、第2スティッチング特徴を取得し、アップサンプリング後のスティッチング特徴と前記ソート結果における解像度が最も大きい視覚特徴とをスティッチングしてマルチモーダル特徴を取得するまで、アップサンプリングおよびスティッチング操作を循環実行することとを含み、前記第2解像度は、前記第1解像度よりも大きくて前記第1解像度以外の最も小さい解像度である。
本開示の1つまたは複数の実施例によれば、本開示に係る画像分割方法において、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定することは、
前記マルチモーダル特徴に対応する画像および前記応答ヒートマップを目標画像分割モデルに入力し、前記目標画像分割モデルから出力された結果を、前記目標物体の分割結果として取得することを含む。
本開示の1つまたは複数の実施例によれば、本開示に係る画像分割方法において、前記目標画像分割モデルのトレーニング過程は、
サンプル画像と、前記サンプル画像内の分割待ちサンプル目標物体を指定するためのサンプル記述言語とを取得し、前記サンプル画像のサンプル視覚特徴および前記サンプル記述言語のサンプルテキスト特徴を抽出し、前記サンプル視覚特徴と前記サンプルテキスト特徴とを融合してサンプルマルチモーダル特徴を取得し、前記サンプルマルチモーダル特徴に対応する画像に基づいて前記サンプル目標物体のサンプル視覚領域を確定し、前記サンプル視覚領域に対応する画像をサンプル応答ヒートマップと記し、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、前記目標画像分割モデルを取得することである。
本開示の1つまたは複数の実施例によれば、本開示に係る画像分割方法において、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、前記目標画像分割モデルを取得することは、
前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップを前記初期画像分割モデルに入力し、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップの複数の第1コンボリューション結果を取得し、前記複数の第1コンボリューション結果は、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップが異なるサンプリングレートで第1コンボリューション操作を実行することにより得られることと、前記複数の第1コンボリューション結果をスティッチングし、スティッチング結果を取得することと、前記スティッチング結果に対して第2コンボリューション操作を行い、第2コンボリューション結果を取得することと、前記第2コンボリューション結果をアップサンプリングし、サンプル分割結果を取得することと、前記サンプル画像のリアルな分割結果に対する前記サンプル分割結果の損失値を確定することと、前記損失値が設定閾値よりも小さい場合、前記初期画像分割モデルのトレーニングを停止し、損失値が設定閾値よりも小さい画像分割モデルを前記目標画像分割モデルとし、前記損失値が設定閾値以上である場合、損失値が設定閾値よりも小さくなるまで、前記初期画像分割モデルをトレーニングし続けることと、を含む。
本開示の1つまたは複数の実施例によれば、本開示は、
元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得するように構成される融合モジュールと、前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記すように構成される視覚領域確定モジュールと、前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定するように構成される分割結果確定モジュールと、を備える、
画像分割装置を提供する。
本開示の1つまたは複数の実施例によれば、本開示は、
1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶するように構成されるメモリとを備える電子機器であって、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサにより実行されると、本開示のいずれかの実施例に係る画像分割方法を実現する、
電子機器を提供する。
本開示の1つまたは複数の実施例によれば、本開示は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、該プログラムがプロセッサにより実行されると、本開示のいずれかの実施例に係る画像分割方法を実現する、コンピュータ可読記憶媒体を提供する。
また、特定の順序で複数の操作を記述したが、これらの操作を示された特定の順序または正方向順序で実行する必要があると理解されるべきではない。一定の環境において、マルチタスクおよび並行処理が有利である可能性がある。同様に、以上の検討に複数の実現詳細が含まれているが、これらは本開示の範囲を限定するものと理解されるべきではない。単独な実施例の説明に記述された一部の特徴は、組み合わせて単一の実施例で実現されてもよい。逆に、単一の実施例の説明に記述された様々な特徴は、単独で、または任意の適当なサブ組み合わせの方式で複数の実施例で実現されてもよい。

Claims (11)

  1. 元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得することと、
    前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記すことと、
    前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定することと、を含む、
    画像分割方法。
  2. 前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定することは、
    前記マルチモーダル特徴に対応する画像に対して相関フィルタリングを行い、前記目標物体の視覚領域を取得することを含む、
    請求項1に記載の方法。
  3. 前記マルチモーダル特徴に対応する画像に対して相関フィルタリングを行い、前記目標物体の視覚領域を取得することは、
    前記テキスト特徴に基づいてコンボリューションカーネルを確定することと、
    前記コンボリューションカーネルに基づいて前記マルチモーダル特徴に対応する画像に対してコンボリューション操作を行い、前記目標物体の視覚領域を取得することと、を含む、
    請求項2に記載の方法。
  4. 前記視覚特徴は、少なくとも2つの解像度でそれぞれ前記元画像から抽出された視覚特徴を含む、
    請求項1に記載の方法。
  5. 前記元画像に対応する視覚特徴と、記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得することは、
    解像度の大きさの順に前記少なくとも2つの視覚特徴をソートし、ソート結果を取得し、マッピング行列により、前記テキスト特徴を前記ソート結果における値が最も小さい第1解像度に対応する第1視覚特徴が位置する特徴空間にマッピングすることと、
    前記第1視覚特徴とマッピング後のテキスト特徴とをスティッチングし、第1スティッチング特徴を取得することと、
    前記第1スティッチング特徴をアップサンプリングし、アップサンプリング後の第1スティッチング特徴と、前記ソート結果における第2解像度に対応する第2視覚特徴とをスティッチングし、第2スティッチング特徴を取得し、アップサンプリング後のスティッチング特徴と前記ソート結果における解像度が最も大きい視覚特徴とをスティッチングして前記マルチモーダル特徴を取得するまで、アップサンプリングおよびスティッチング操作を循環実行することと、を含み、前記第2解像度は、前記第1解像度よりも大きくて前記第1解像度以外の最も小さい解像度である、
    請求項4に記載の方法。
  6. 前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定することは、
    前記マルチモーダル特徴に対応する画像および前記応答ヒートマップを目標画像分割モデルに入力し、前記目標画像分割モデルから出力された結果を、前記目標物体の分割結果として取得することを含む、
    請求項1~5のいずれか1項に記載の方法。
  7. 前記目標画像分割モデルのトレーニング過程は、
    サンプル画像と、前記サンプル画像内の分割待ちサンプル目標物体を指定するためのサンプル記述言語とを取得し、前記サンプル画像のサンプル視覚特徴および前記サンプル記述言語のサンプルテキスト特徴を抽出し、
    前記サンプル視覚特徴と前記サンプルテキスト特徴とを融合してサンプルマルチモーダル特徴を取得し、
    前記サンプルマルチモーダル特徴に対応する画像に基づいて前記サンプル目標物体のサンプル視覚領域を確定し、前記サンプル視覚領域に対応する画像をサンプル応答ヒートマップと記し、
    前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、前記目標画像分割モデルを取得することである、
    請求項6に記載の方法。
  8. 前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップに基づいて初期画像分割モデルをトレーニングし、前記目標画像分割モデルを取得することは、
    前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップを前記初期画像分割モデルに入力し、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップの複数の第1コンボリューション結果を取得し、前記複数の第1コンボリューション結果は、前記サンプルマルチモーダル特徴に対応する画像および前記サンプル応答ヒートマップが異なるサンプリングレートで第1コンボリューション操作を実行することにより得られることと、
    前記複数の第1コンボリューション結果をスティッチングし、スティッチング結果を取得することと、
    前記スティッチング結果に対して第2コンボリューション操作を行い、第2コンボリューション結果を取得することと、
    前記第2コンボリューション結果をアップサンプリングし、サンプル分割結果を取得することと、
    前記サンプル画像のリアルな分割結果に対する前記サンプル分割結果の損失値を確定することと、
    前記損失値が設定閾値よりも小さい場合、前記初期画像分割モデルのトレーニングを停止し、損失値が設定閾値よりも小さい画像分割モデルを前記目標画像分割モデルとし、前記損失値が設定閾値以上である場合、損失値が前記設定閾値よりも小さくなるまで、前記初期画像分割モデルをトレーニングし続けることと、を含む、
    請求項7に記載の方法。
  9. 元画像に対応する視覚特徴と、前記元画像内の分割待ち目標物体を指定するための記述言語に対応するテキスト特徴とを融合してマルチモーダル特徴を取得するように構成される融合モジュールと、
    前記マルチモーダル特徴に対応する画像に基づいて前記目標物体の視覚領域を確定し、前記視覚領域に対応する画像を応答ヒートマップとして記すように構成される視覚領域確定モジュールと、
    前記マルチモーダル特徴に対応する画像および前記応答ヒートマップに基づき、前記目標物体の分割結果を確定するように構成される分割結果確定モジュールと、を備える、
    画像分割装置。
  10. 少なくとも1つのプロセッサと、
    少なくとも1つのプログラムを記憶するように構成されるメモリと、
    を備える電子機器であって、
    前記少なくとも1つのプログラムが前記少なくとも1つのプロセッサにより実行されると、請求項1~8のいずれか1項に記載の画像分割方法を実現する、
    電子機器。
  11. コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、前記プログラムがプロセッサにより実行されると、請求項1~8のいずれか1項に記載の画像分割方法を実現する、
    コンピュータ可読記憶媒体。
JP2023525962A 2020-10-30 2021-09-27 画像分割方法、装置、機器および記憶媒体 Pending JP2023547917A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011197790.9 2020-10-30
CN202011197790.9A CN112184738B (zh) 2020-10-30 2020-10-30 一种图像分割方法、装置、设备及存储介质
PCT/CN2021/120815 WO2022089115A1 (zh) 2020-10-30 2021-09-27 图像分割方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
JP2023547917A true JP2023547917A (ja) 2023-11-14

Family

ID=73917279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023525962A Pending JP2023547917A (ja) 2020-10-30 2021-09-27 画像分割方法、装置、機器および記憶媒体

Country Status (4)

Country Link
US (1) US20230394671A1 (ja)
JP (1) JP2023547917A (ja)
CN (1) CN112184738B (ja)
WO (1) WO2022089115A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184738B (zh) * 2020-10-30 2022-09-13 北京有竹居网络技术有限公司 一种图像分割方法、装置、设备及存储介质
CN112651982A (zh) * 2021-01-12 2021-04-13 杭州智睿云康医疗科技有限公司 基于影像与非影像信息的图像分割方法及系统
CN112418199B (zh) * 2021-01-25 2022-03-01 北京明略昭辉科技有限公司 多模态信息提取方法、装置、电子设备及存储介质
CN114827482B (zh) * 2021-01-28 2023-11-03 抖音视界有限公司 图像亮度的调整方法、装置、电子设备及介质
CN112818955B (zh) * 2021-03-19 2023-09-15 北京市商汤科技开发有限公司 一种图像分割方法、装置、计算机设备以及存储介质
CN113515886B (zh) * 2021-04-28 2023-11-24 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质
CN113592881B (zh) * 2021-08-03 2023-11-03 深圳思谋信息科技有限公司 图片指代性分割方法、装置、计算机设备和存储介质
CN113962859B (zh) * 2021-10-26 2023-05-09 北京有竹居网络技术有限公司 一种全景图生成方法、装置、设备及介质
CN114358198A (zh) * 2022-01-10 2022-04-15 北京百度网讯科技有限公司 实例分割方法、装置及电子设备
CN114444593A (zh) * 2022-01-25 2022-05-06 中国电子科技集团公司电子科学研究院 一种多模态事件检测方法及装置
CN114743249B (zh) * 2022-05-10 2024-06-28 平安科技(深圳)有限公司 识别模型训练方法、微表情识别方法、装置、设备及介质
CN117437516A (zh) * 2022-07-11 2024-01-23 北京字跳网络技术有限公司 语义分割模型训练方法、装置、电子设备及存储介质
CN116091984B (zh) * 2023-04-12 2023-07-18 中国科学院深圳先进技术研究院 视频目标分割方法、装置、电子设备及存储介质
CN117634486B (zh) * 2024-01-26 2024-05-31 厦门大学 一种基于文本信息的指向性3d实例分割方法
CN118379737B (zh) * 2024-06-20 2024-08-27 清华大学 多模态通用感知模型训练、标注方法及装置、电子设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436583B (zh) * 2011-09-26 2013-10-30 哈尔滨工程大学 基于对标注图像学习的图像分割方法
US10424064B2 (en) * 2016-10-18 2019-09-24 Adobe Inc. Instance-level semantic segmentation system
US10089742B1 (en) * 2017-03-14 2018-10-02 Adobe Systems Incorporated Automatically segmenting images based on natural language phrases
CN108230329B (zh) * 2017-12-18 2021-09-21 孙颖 基于多尺度卷积神经网络的语义分割方法
CN110555337B (zh) * 2018-05-30 2022-12-06 腾讯科技(深圳)有限公司 一种指示对象的检测方法、装置以及相关设备
CN109948707B (zh) * 2019-03-20 2023-04-18 腾讯科技(深圳)有限公司 模型训练方法、装置、终端及存储介质
CN110390289A (zh) * 2019-07-17 2019-10-29 苏州大学 基于指称理解的视频安防检测方法
CN110533676B (zh) * 2019-09-06 2022-08-16 青岛海信医疗设备股份有限公司 肿瘤图像分割方法、装置及终端设备
CN110765916B (zh) * 2019-10-17 2022-08-30 北京中科原动力科技有限公司 一种基于语义和实例分割的农田苗垄识别方法及系统
CN110782462B (zh) * 2019-10-30 2022-08-09 浙江科技学院 一种基于双流特征融合的语义分割方法
CN111104962B (zh) * 2019-11-05 2023-04-18 北京航空航天大学青岛研究院 图像的语义分割方法、装置、电子设备及可读存储介质
CN111126451A (zh) * 2019-12-01 2020-05-08 复旦大学 一种对偶式语义分割方法
CN110929696A (zh) * 2019-12-16 2020-03-27 中国矿业大学 一种基于多模态注意与自适应融合的遥感图像语义分割方法
CN110930419A (zh) * 2020-02-13 2020-03-27 北京海天瑞声科技股份有限公司 图像分割方法、装置、电子设备及计算机存储介质
CN111275721B (zh) * 2020-02-14 2021-06-08 推想医疗科技股份有限公司 一种图像分割方法、装置、电子设备及存储介质
CN111667483B (zh) * 2020-07-03 2022-08-30 腾讯科技(深圳)有限公司 多模态图像的分割模型的训练方法、图像处理方法和装置
CN112184738B (zh) * 2020-10-30 2022-09-13 北京有竹居网络技术有限公司 一种图像分割方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112184738A (zh) 2021-01-05
CN112184738B (zh) 2022-09-13
WO2022089115A1 (zh) 2022-05-05
US20230394671A1 (en) 2023-12-07

Similar Documents

Publication Publication Date Title
JP2023547917A (ja) 画像分割方法、装置、機器および記憶媒体
CN110321958B (zh) 神经网络模型的训练方法、视频相似度确定方法
WO2022252881A1 (zh) 图像处理方法、装置、可读介质和电子设备
WO2023138314A1 (zh) 对象属性识别方法、装置、可读存储介质及电子设备
WO2022247562A1 (zh) 多模态数据检索方法、装置、介质及电子设备
CN111368668B (zh) 三维手部识别方法、装置、电子设备及存储介质
CN111738316A (zh) 零样本学习的图像分类方法、装置及电子设备
CN113610034B (zh) 识别视频中人物实体的方法、装置、存储介质及电子设备
WO2024131652A1 (zh) 特效处理方法、装置、电子设备及存储介质
CN111783632B (zh) 针对视频流的人脸检测方法、装置、电子设备及存储介质
CN111311609B (zh) 一种图像分割方法、装置、电子设备及存储介质
WO2023130925A1 (zh) 字体识别方法、装置、可读介质及电子设备
WO2023065895A1 (zh) 文本识别方法、装置、可读介质及电子设备
CN112418233B (zh) 图像处理方法、装置、可读介质及电子设备
CN111340813B (zh) 图像实例分割方法、装置、电子设备及存储介质
CN118057470A (zh) 图像处理方法及设备
CN110991312A (zh) 生成检测信息的方法、装置、电子设备和介质
CN114613355B (zh) 视频处理方法、装置、可读介质及电子设备
CN118015221B (zh) 建筑模型构建方法、装置、电子设备与计算机可读介质
CN112884787B (zh) 图像剪裁方法、装置、可读介质及电子设备
WO2024183592A1 (zh) 一种图像处理方法、装置、电子设备及存储介质
WO2023109385A1 (zh) 图标点击的检测方法、装置、设备及存储介质
CN117746273A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN116152877A (zh) 人头人脸检测方法、装置、电子设备和存储介质
CN117148957A (zh) 界面显示方法、装置、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240813