JP2023525462A - 特徴を抽出するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム - Google Patents

特徴を抽出するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム Download PDF

Info

Publication number
JP2023525462A
JP2023525462A JP2022560927A JP2022560927A JP2023525462A JP 2023525462 A JP2023525462 A JP 2023525462A JP 2022560927 A JP2022560927 A JP 2022560927A JP 2022560927 A JP2022560927 A JP 2022560927A JP 2023525462 A JP2023525462 A JP 2023525462A
Authority
JP
Japan
Prior art keywords
frame
feature map
pixel
level feature
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2022560927A
Other languages
English (en)
Inventor
エイエイ リ
シャオ タン
ハオ サン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023525462A publication Critical patent/JP2023525462A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、人工知能分野に関わり、具体的にコンピュータビジョンおよび深層学習技術である、特徴を抽出するための方法、装置、機器、記憶媒体、およびプログラム製品を提供する。当該方法の一つの具体的な実施形態は、ビデオ中の第T-1フレーム(ただし、Tは2より大きい正の整数である)の予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得するステップと、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、第T-1フレームのマッピング特徴マップと第Tフレームのマッピング特徴マップとを得るステップと、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを得るステップであって、スコアマップの各点は第Tフレームの画素レベルの特徴マップの各位置と、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表すステップと、を含む。本実施形態によれば、前後フレーム間の情報をより良く抽出することができる。【選択図】図2

Description

関連出願の相互参照
本開示は、2021年4月13日に提出された、出願番号が202110396281.7で、発明の名称が「特徴を抽出するための方法、装置、機器、記憶媒体およびプログラム製品」である中国特許出願に基づく優先権を主張し、当該出願の全文を引用により本開示に組み込む。
本開示は、人工知能分野に関し、具体的にコンピュータビジョンと深層学習技術に関する。
VOS(Video Object Segmentation,ビデオオブジェクトセグメンテーション)は、コンピュータビジョンの分野における基本的なタスクであり、拡張現実および自動運転など、非常に多くの潜在的な応用シーンを有する。半教師ありビデオオブジェクトセグメンテーションは、オブジェクトをセグメンテーションするために、ビデオシーケンスが初期マスク(Mask)のみの場合に特徴を抽出する必要がある。現在の半教師ありビデオオブジェクトセグメンテーションは、特徴抽出時にビデオ中の前後のフレームの特徴をそれぞれ抽出するのが一般的である。
本開示の実施形態は、特徴を抽出するための方法、装置、機器、記憶媒体およびプログラム製品を提出する。
第1の態様では、本開示の実施形態は、特徴を抽出するための方法であって、ビデオ中の第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得するステップ(ただし、Tは2より大きい正の整数である)と、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、第T-1フレームのマッピング特徴マップと第Tフレームのマッピング特徴マップとを得るステップと、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを得るステップであって、スコアマップの各点は第Tフレームの画素レベルの特徴マップの各位置と、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表すステップと、を含む方法を提供する。
第2の態様では、本開示の実施形態は、特徴を抽出するための装置であって、ビデオ中の第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得するように構成される取得モジュール(ただし、Tは2より大きい正の整数である)と、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、第T-1フレームのマッピング特徴マップと第Tフレームのマッピング特徴マップとを得るように構成されるマッピングモジュールと、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを得るように構成される畳み込みモジュールであって、スコアマップの各点は第Tフレームの画素レベルの特徴マップの各位置と、前記第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表す、畳み込みモジュールと、を含む装置を提供する。
第3の態様では、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が格納されており、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1態様のいずれかの実施形態に記載の方法を実行させる、電子機器を提供する。
第4の態様では、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令はコンピュータに第1態様のいずれかの実施形態に記載の方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
第5の態様では、プロセッサによって実行されると、第1態様のいずれかの実施形態に記載の方法が実行されるコンピュータプログラムを含むコンピュータプログラム製品を提供する。
本開示の実施形態に係る特徴を抽出するための方法は、前フレームの特性を合わせて後フレームの特徴を抽出することにより、前後フレームにおける情報をより良く抽出することができる。
なお、発明の概要に記載された内容は、本開示の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって理解しやすくなる。
本開示の他の特徴、目的および利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになる。図面は本開示をよりよく理解するために用いられ、本開示に対する限定ではない。
本開示の適用可能な例示的なシステムアーキテクチャを示す図である。 本開示に係る特徴を抽出するための方法の一実施形態を示すフローチャートである。 本開示の実施形態に係る特徴を抽出するための方法を実現可能なシーンを示す図である。 本開示に係る特徴融合方法の一実施形態を示すフローチャートである。 本開示に係るセグメンテーション予測方法の一実施形態を示すフローチャートである。 本開示の実施形態に係るセグメンテーション予測方法を実現可能なシーンを示す図である。 本開示に係る特徴を抽出するための装置の一実施形態を示す構造概略図である。 本開示の実施形態に係る特徴を抽出するための方法を実現するための電子機器のブロック図である。
以下は、図面を参照して本開示の例示的な実施形態を説明し、ここで理解を助けるため、本開示の実施形態の様々な詳細を記載するが、これらは単なる例示的なものに過ぎないことを理解すべきである。従って、本開示の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることを理解すべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
なお、本開示の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本開示を詳細に説明する。
図1は、本開示に係る特徴を抽出するための方法または特徴を抽出するための装置の実施形態が適用可能な例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、ビデオ採集装置103、ネットワーク102、およびサーバ103を含んでもよい。ネットワーク102は、ビデオ採集装置101とサーバ103との間に通信リンクを提供するための媒体として使用される。ネットワーク102は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
画像を送受信することなどのために、ビデオ採集装置101は、ネットワーク102を介してサーバ103と情報のやり取りをすることができる。
ビデオ採集装置101は、ハードウェアであってもよいし、ソフトウェアであってもよい。ビデオ採集装置101がハードウェアである場合、カメラ付きのさまざまな電子機器であってもよい。ビデオ採集装置101がソフトウェアである場合、上記電子機器にインストールされてもよい。それは、複数のソフトウェア若しくはソフトウェアモジュールとして実現されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。
サーバ103は、様々なサービスを提供できる。例えば、サーバ103は、ビデオ採集装置101から取得されたビデオストリームを解析することなど処理してもよく、処理結果(例えば、ビデオ内のビデオフレームのスコアマップ)を生成することができる。
なお、サーバ103は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ103がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装可能である。サーバ103がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
なお、本開示の実施形態に係る特徴を抽出するための方法は、通常にサーバ103によって実行され、これに応じて、特徴を抽出するための装置は、通常にサーバ103に設けられている。
図1におけるビデオ採集装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実装の必要に応じて、ビデオ採集装置、ネットワークおよびサーバの数を任意に加減してもよい。
次に、本開示に係る特徴を抽出するための方法の一実施形態のフロー200を示す図2を参照する。この特徴を抽出するための方法は、次の工程を含む。
ステップ201では、ビデオ中の第T-1フレームの予測されるセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得する。
本実施形態では、特徴を抽出するための方法の実行主体(例えば、図1に示すサーバ103)は、ビデオ中の第T-1フレームの予測されるセグメンテーションアノテーション画像(Prediction T-1)と第Tフレームの画素レベルの特徴マップ(Pixel-level Embedding)を取得することができる。ただし、Tは2より大きい正の整数である。
通常、ビデオ採集装置は、そのカメラ範囲内のビデオを採集することができる。ビデオ採集装置のカメラ範囲内にオブジェクトが現れた場合、採集されたビデオにはオブジェクトが存在する。ここで、オブジェクトは、人、動物、植物、建物、物品等を含むがこれらに限定されない、現実世界に存在する任意の有形物であってもよい。第T-1フレームの予測されるセグメンテーションアノテーション画像は、第T-1フレームにおけるオブジェクトを分割するための予測されたアノテーション画像であってもよい。例えば、第T-1フレームにおけるオブジェクトのエッジをアノテートして生成された画像である。また、例えば、第T-1フレームにおけるオブジェクトのエッジをアノテートして、オブジェクトに属する画素と物体に属さない画素をそれぞれ異なる画素値に設定して生成された画像である。第Tフレームの画素レベルの特徴マップは、特徴抽出ネットワークを用いて画素レベルの特徴抽出を行うことにより得られ、第Tフレームが有する画素レベルの特徴を表すために用いられる。
なお、第T-1フレームの予測されるセグメンテーションアノテーション画像は、本開示の実施形態で提供するセグメンテーション予測方法を用いて予測して取得されてもよいし、他のVOSネットワークを用いて予測して取得されてもよく、ここでは特に限定しない。第Tフレームの画素レベルの特徴マップを抽出するための特徴抽出ネットワークは、CFBI(Collaborative Video Object Segmentation by Foreground-Background Integration,前景と背景の統合による協調的なビデオオブジェクトのセグメンテーション)ネットワーク中のバックボーンネットワーク(Backbone)であってもよいし、他のVOSネットワーク中のバックボーンネットワークであってもよく、ここでは特に限定しない。
ステップ202では、第T-1フレームの予測されるセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第T-1フレームのマップング特徴マップと第Tフレームのマップング特徴マップを得る。
本実施形態では、上記実行主体は、第T-1フレームの予測されるセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第T-1フレームのマップング特徴マップと第Tフレームのマップング特徴マップとを得ることができる。ただし、第T-1フレームのマップング特徴マップと第Tフレームのマップング特徴マップは同じ特徴空間にある。例えば、127×127×3の予測されるセグメンテーションアノテーション画像に対して、特徴のマッピング処理を行うことで、6×6×128のマッピング特徴マップを得る。同様に、255×255×3の画素レベルの特徴マップに対して、特徴のマッピング処理を行うことで、22×22×128のマップング特徴マップが得られる。
本実施形態のいくつかのオプション的な実施形態では、第T-1フレームの予測されるセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップとを、変換行列を用いて一方の特徴空間から他方の特徴空間にマッピングすることにより、第T-1フレームのマッピング特徴マップと第Tフレームのマッピング特徴マップとを得ることができる。ここで、変換行列は、一方の空間から他方の空間に画像をマッピングするために、画像を線形変換することができる。
本実施形態のいくつかのオプション的な実施形態では、上記実行主体は、CNN(Convolutional Neural Network,畳み込みニューラルネットワーク)における畳み込み層とプーリング層を用いて、第T-1フレームの予測されるセグメンテーションアノテーション画像および第Tフレームの画素レベルの特徴マップをそれぞれ予め設定された特徴空間にマッピングすることにより、第T-1フレームのマッピング特徴マップおよび第Tフレームのマッピング特徴マップを得ることができる。ここで、深層学習手法を用いてマッピングを行うことにより、画像に対して線形変換できるだけでなく、非線形変換もできる。異なる畳み込み層とプーリング層を設けることにより、画像を任意の空間にマッピングすることができ、より柔軟性が高い。
ステップ203では、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを得る。
本実施形態では、上記実行主体は、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップ(Score map)を得ることができる。ここで、スコアマップの各点は、第Tフレームの画素レベルの特徴マップの各位置と、第T-1フレームの予測されるセグメンテーションアノテーション画像との類似度を表すことができる。例えば、22×22×128のマッピング特徴マップを6×6×128のマッピング特徴マップの畳み込みカーネル6×6で畳み込んで、17×17×1のスコアマップを得る。ここで、17×17×1のスコアマップの1点は、255×255×3の画素レベルの特徴マップの15×15×3の領域と127×127×3の予測されるセグメンテーションアノテーション画像との類似度を表すことができる。スコアマップの1点は、画素レベルの特徴マップの15×15×3の領域に対応する。
また、上記実行主体は、第Tフレームのスコアマップに基づいて、第Tフレームの類似度が最も高い位置を算出し、第T-1フレームにおけるオブジェクトの位置を逆に算出することにより、第Tフレームのスコアマップの精度を検証することができる。
本開示の実施形態に係る特徴を抽出するための方法は、まず、ビデオ中の第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得し、次に、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップとに対してそれぞれ特徴マッピングを行い、第T-1フレームのマッピング特徴マップと第Tフレームのマッピング特徴マップとを取得し、最後に、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを取得する。前フレームの特性を合わせて後フレームの特徴を抽出することにより、前後フレームにおける情報をより良好に抽出することができる。また、後フレームの画素レベルの特徴マップを全体として入力し、前後のフレームの特徴マップの類似度マッチングを直接計算することで、計算の作業量を低減することができる。
理解を助けるために、図3には本開示の実施形態に係る特徴を抽出するための方法を実現可能なシーンの図を示す。図3に示すように、zは第T-1フレームの127×127×3の予測されるセグメンテーションアノテーション画像を表す。xは、第Tフレームの255×255×3の画素レベルの特徴マップを表す。φは、原画像を特定の特徴空間、ここではCNNにおける畳み込み層およびプーリング層にマッピングするための特徴マッピング処理を表す。zはφを経て、6×6×128のマッピング特徴マップを得る。同様に、xはφを経て、22×22×128のマッピング特徴マップを得る。*は、畳み込み処理を表し、22×22×128のマッピング特徴マップを6×6×128のマッピング特徴マップの畳み込みカーネル6×6で畳み込んで、17×17×1のスコアマップを得る。17×17×1のスコアマップの1点は、255×255×3の画素レベルの特徴マップの15×15×3の領域と、127×127×3の予測されるセグメンテーションアノテーション画像との類似度を表すことができる。スコアマップの1点は、画素レベルの特徴マップの15×15×3の領域に対応する。
さらに、本開示に係る特徴融合方法の一実施形態のフロー400を示す図4を参照する。当該特徴融合方法は、次の工程を含む。
ステップ401では、ビデオ中の第T-1フレームの予測されるセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得する。
ステップ402では、第T-1フレームの予測されるセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第T-1フレームのマップング特徴マップと第Tフレームのマップング特徴マップを得る。
ステップ403では、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを得る。
本実施形態では、ステップ401~403の具体的な動作は、図2に示す実施形態のステップ201~203の動作に詳しく説明したので、ここではその説明を省略する。
ステップ404では、ビデオ中の参照フレームの画素レベルの特徴マップを、取得し、第Tフレームの画素レベルの特徴マップと参照フレームの画素レベルの特徴マップとをマッチングして、第Tフレームの第1のマッチング特徴マップを得る。
本実施形態において、特徴を抽出するための方法の実行主体(例えば、図1に示すサーバ103)は、ビデオ中の参照フレームの画素レベルの特徴マップを)取得し、第Tフレームの画素レベルの特徴マップと参照フレームの画素レベルの特徴マップとをマッチングして、第Tフレームの第1のマッチング特徴マップを得ることができる。ここで、参照フレームは、セグメンテーションアノテーション画像を有し、通常、ビデオ中の第1のフレームである。参照フレーム中のオブジェクトにセグメンテーションのアノテーションを行うと、参照フレームのセグメンテーションアノテーション画像が得られる。ここでのセグメンテーションアノテーションは、通常、人手によるセグメンテーションのアノテーションである。
通常、FEELVOS(Fast End-to-End Embedding Learning for Video Object Segmentation,ビデオオブジェクトセグメンテーションのための高速エンドツーエンド埋め込み学習)ネットワークに適用する場合、上記の実行主体は、第Tフレームの画素レベルの特徴マップを参照フレームの画素レベルの特徴マップと直接マッチングすることができる。CFBIネットワークに適用する場合、上記実行主体は、参照フレームの画素レベルの特徴マップを参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップに分離してから、第Tフレームの画素レベルの特徴マップとマッチングしてもよい。ここで、前景とは、画面中でオブジェクトの直前に位置してカメラに近づいている物体を指す。背景とは、画面中でオブジェクトの後ろにあり、カメラから離れている物体である。第1のマッチング特徴マップは、画素レベルの特徴マップに属し、その各点は、第Tフレームの画素レベルの特徴マップと参照フレームの画素レベルの特徴マップとの各点におけるマッチング度合いを表すことができる。
なお、参照フレームの画素レベルの特徴マップの取得方法は、図2に示した実施形態における第Tフレームの画素レベルの特徴マップの取得方法を参照することができ、ここでは説明を省略する。
ステップ405では、第T-1フレームの画素レベルの特徴マップを取得し、第Tフレームの画素レベルの特徴マップと第T-1フレームの画素レベルの特徴マップとをマッチングして、第Tフレームの第2のマッチング特徴マップを得る。
本実施形態では、上記実行主体は、第T-1フレームの画素レベルの特徴マップを取得し、第Tフレームの画素レベルの特徴マップと第T-1フレームの画素レベルの特徴マップとをマッチングして、第Tフレームの第2のマッチング特徴マップを得ることができる。
通常、上記実行主体は、第Tフレームの画素レベルの特徴マップと第T-1フレームの画素レベルの特徴マップとを直接マッチングしてもよいし、第T-1フレームの画素レベルの特徴マップを第T-1フレームの画素レベルの前景特徴マップ(Pixel-level FG)と画素レベルの背景特徴マップ(Pixel-level BG)とに分離してから、第Tフレームの画素レベルの特徴マップとマッチングしてもよい。第2のマッチング特徴マップは、画素レベルの特徴マップに属し、その各点は、第Tフレームの画素レベルの特徴マップと第T-1フレームの画素レベルの特徴マップとの各点におけるマッチング度合いを表すことができる。
なお、第T-1フレームの画素レベルの特徴マップの取得方法は、図2に示した実施形態における第Tフレームの画素レベルの特徴マップの取得方法を参照することができ、ここでは説明を省略する。
ステップ406では、第Tフレームのスコアマップと、第1のマッチング特徴マップと、第2のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得る。
本実施形態では、上記実行主体は、第Tフレームのスコアマップと、第1のマッチング特徴マップと、第2のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得ることができる。例えば、第Tフレームのスコアマップと、第1のマッチング特徴マップと、第2のマッチング特徴マップとを結合(concat)することにより、融合された画素レベルの特徴マップを得ることができる。
なお、ステップ401~403、ステップ404およびステップ405の3つの部分は、同時に実行されてもよいし、ある部分が他の部分より先に実行されてもよく、ここでは実行の順番を限定しない。
本開示の実施形態に係る特徴融合方法は、前フレームの特性を合わせて後フレームの特徴を抽出することにより、前後フレームにおける情報をより良好に抽出することができる。それぞれ参照フレームと前フレームに基づいて特徴マッチングを行うことにより、ネットワーク構造が簡単で処理が迅速であり、後フレームのマッチング特徴を迅速に得ることができ、特徴マッチングの作業量を低減した。第Tフレームのスコアマップと、第1のマッチング特徴マップと、第2のマッチング特徴マップとを融合して融合された画素レベルの特徴マップを得ることにより、融合された画素レベルの特徴マップは、前後のフレームの特性を十分に考慮することができ、内容がより豊富であり、オブジェクトのセグメンテーションに必要なより多くの情報を含む。
さらに、本開示に係るセグメンテーション予測方法の一つの実施形態のフロー500を示す図5を参照する。当該セグメンテーション予測方法は、次のステップを含む。
ステップ501では、ビデオ中の第T-1フレームの予測されるセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得する。
ステップ502では、第T-1フレームの予測されるセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第T-1フレームのマップング特徴マップと第Tフレームのマップング特徴マップを得る。
ステップ503では、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを得る。
本実施形態では、ステップ501~503の具体的な動作は、図4に示す実施形態のステップ401~403の動作に詳しく説明したので、ここではその説明を省略する。
ステップ504では、参照フレームのセグメンテーションアノテーション画像をダウンサンプリングして参照フレームのマスクを得る。
本実施形態では、特徴を抽出するための方法の実行主体(例えば、図1に示すサーバ103)が参照フレームのセグメンテーションアノテーション画像(Groundtruth)をダウンサンプリング(Downsample)して参照フレームのマスクを得ることができる。
ここで、参照フレームのセグメンテーションアノテーション画像は、参照フレームにおけるオブジェクトのエッジをアノテートして、オブジェクトに属する画素と物体に属さない画素をそれぞれ異なる画素値に設定して生成された画像であってもよい。例えば、オブジェクトに属する画素を1とし、物体に属さない画素を0とする。また、例えば、オブジェクトに属する画素を0とし、物体に属さない画素を1とする。ダウンサンプリングとは、画像を縮小することであって、表示領域の大きさに合わせて画像を生成し、対応する画像のサムネイルを生成することが主な目的である。ダウンサンプリングの原理は、サイズM*Nの画像に対して、画像のs*sウィンドウ内の領域を1画素(その値は、通常、画素点の値であり、ウィンドウ内の全ての画素の平均値である)にして、(M/s)*(N/s)サイズの画像を得ることである。ここで、M、N、sは正の整数であり、sはMとNの公約数である。参照フレームのマスクは、参照フレームの画素レベルの特徴マップから関心領域を抽出するために用いることができる。例えば、参照フレームのマスクと参照フレームの画素レベルの特徴マップとをAND演算することにより、関心領域の画像を得ることができる。ここで、関心領域の画像は、前景又は背景のいずれか一方のみを含む。
ステップ505では、参照フレームを予めトレーニングされた特徴抽出ネットワークに入力して、参照フレームの画素レベルの特徴マップを得る。
本実施形態では、上記実行主体は、予めトレーニングされた特徴抽出ネットワークに参照フレームを入力し、参照フレームの画素レベルの特徴マップを得ることができる。ここで、参照フレームをCFBIネットワークにおけるバックボーンネットワークに入力して画素レベルの特徴抽出を行うことにより、参照フレームの画素レベルの特徴マップを得ることができる。
ステップ506では、参照フレームのマスクを用いて参照フレームの画素レベルの特徴マップを画素レベルで分離し、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを得る。
本実施形態では、上記実行主体は、参照フレームのマスクを用いて参照フレームの画素レベルの特徴マップを画素レベルで分離(Pixel Separation)し、参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得ることができる。
例えば、前景画素が1、背景画素が0であるマスクに対して、そのマスクと画素レベルの特徴マップとをAND演算し、画素レベルの前景特徴マップを得る。前景画素が0、背景画素が1であるマスクに対して、そのマスクと画素レベルの特徴マップとをAND演算し、画素レベルの背景特徴マップを得る。
ステップ507では、第Tフレームの画素レベルの特徴マップと、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、前景-背景グローバルマッチングを行い、第Tフレームの第1のマッチング特徴マップを得る。
本実施形態では、上記実行主体は、第Tフレームの画素レベルの特徴マップと、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、前景-背景グローバルマッチング(F-G Global Matching)を行って、第Tフレームの第1のマッチング特徴マップを得ることができる。
通常、参照フレームの画素とをマッチングする際には、第Tフレームの全平面でマッチングサーチが行われる。具体的には、第Tフレームの画素レベルの特徴マップと、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、それぞれグローバルマッチングを行う。
ステップ508では、第T-1フレームの予測されるセグメンテーションアノテーション画像をダウンサンプリングし、第T-1フレームのマスクを得る。
本実施形態では、上記実行主体は第T-1フレームの予測されるセグメンテーションアノテーション画像をダウンサンプリングして第T-1フレームのマスクを得ることができる。
ここで、第T-1フレームのセグメンテーションアノテーション画像は、第T-1フレームにおけるオブジェクトのエッジをアノテートして、オブジェクトに属する画素と物体に属さない画素とをそれぞれ異なる画素値に設定して生成された画像であってもよい。例えば、オブジェクトに属する画素を1とし、物体に属さない画素を0とする。また、例えば、オブジェクトに属する画素を0とし、物体に属さない画素を1とする。第T-1フレームのマスクは、第T-1フレームの画素レベルの特徴マップから関心領域を抽出するために用いることができる。例えば、第T-1フレームのマスクと第T-1フレームの画素レベルの特徴マップとをAND演算すると、関心領域の画像を得ることができる。ここで、関心領域の画像は、前景又は背景のいずれか一方のみを含む。
ステップ509では、第T-1フレームを予めトレーニングされた特徴抽出ネットワークに入力して、第T-1フレームの画素レベルの特徴マップを得る。
本実施形態では、上記実行主体は、第T-1フレームを予めトレーニングされた特徴抽出ネットワークに入力し、第T-1フレームの画素レベルの特徴マップを得ることができる。ここで、第T-1フレームをCFBIネットワークにおけるバックボーンネットワークに入力して画素レベルの特徴抽出を行うと、第T-1フレームの画素レベルの特徴マップを得ることができる。
ステップ510では、第T-1フレームのマスクを用いて第T-1フレームの画素レベルの特徴マップを画素レベルで分離し、第T-1フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得る。
本実施形態では、上記実行主体は、第T-1フレームのマスクを用いて第T-1フレームの画素レベルの特徴マップを画素レベルで分離し、第T-1フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップとを得ることができる。
例えば、前景画素が1、背景画素が0であるマスクに対して、そのマスクと画素レベルの特徴マップとをAND演算し、画素レベルの前景特徴マップを得る。前景画素が0、背景画素が1であるマスクに対して、そのマスクと画素レベルの特徴マップとをAND演算し、画素レベルの背景特徴マップを得る。
ステップ511では、第Tフレームの画素レベルの特徴マップと、第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、前景-背景マルチローカルマッチング(F-G Multi-Local Matching)を行い、第Tフレームの第2のマッチング特徴マップを得る。
本実施形態では、上記実行主体は、第Tフレームの画素レベルの特徴マップと、第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、前景-背景マルチローカルマッチング(F-G Multi-Local Matching)を行い、第Tフレームの第2のマッチング特徴マップを得ることができる。
通常、第T-1フレームの画素とマッチングを行う場合、フレーム間の動き範囲が限られているため、第T-1フレームの画素の領域内でマッチングサーチが行われる。異なるビデオは異なる動きレートを持つことが多いので、ネットワークが異なる動きレートの物体を処理する際によりロバストになるように、マルチウィンドウ(領域)のマッチング形式を採用する。具体的には、第Tフレームの画素レベルの特徴マップと、第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、それぞれマルチローカルマッチングを行う。ここで、マルチローカルマッチングとは、小から大へと複数のウィンドウを設け、1つのウィンドウで1回のローカルマッチングを行うことである。
ステップ512では、第Tフレームのスコアマップと、第1のマッチング特徴マップと、第2のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得る。
本実施形態では、ステップ512の具体的な動作は、図4に示す実施形態406の動作に詳しく説明したので、ここではその説明を省略する。
ステップ513では、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングし、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得る。
本実施形態では、上記実行主体は、参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップとを特徴チャネル上でグローバルプーリングして、参照フレームにおける前景のインスタンスレベルの特徴ベクトル(Instance-level FG)と背景のインスタンスレベルの特徴ベクトル(Instance-level BG)とを得ることができる。
通常、前景の画素特徴マップと背景の画素特徴マップを特徴チャネル上でグローバルプーリングして、画素スケールの特徴マップをインスタンススケールのプーリングベクトルに変換する。プーリングベクトルは、注意メカニズムに基づいてCFBIネットワークの協調アンサンブル装置(Collaborative Ensembler)における特徴のチャネルを調整する。これにより、ネットワークはインスタンススケールの情報をよりよく取得することができる。
ステップ514では、第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得る。
本実施形態では、上記実行主体は、第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得ることができる。
通常、前景の画素特徴マップと背景の画素特徴マップを特徴チャネル上でグローバルプーリングして、画素スケールの特徴マップをインスタンススケールのプーリングベクトルに変換する。プーリングベクトルは、注意メカニズムに基づいてCFBIネットワークの協調アンサンブル装置における特徴のチャネルを調整することができる。これにより、ネットワークはインスタンススケールの情報をよりよく取得することができる。
ステップ515では、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを融合して、融合されたインスタンスレベルの特徴ベクトルを得る。
本実施形態では、上記実行主体は、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを融合して、融合されたインスタンスレベルの特徴ベクトルを得ることができる。例えば、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを結合することにより、融合されたインスタンスレベルの特徴マップを得ることができる。
ステップ516では、第Tフレームの低レベルの画素レベルの特徴マップと、融合された画素レベルの特徴ベクトルと、融合されたインスタンスレベルの特徴ベクトルとを、協調アンサンブル装置に入力して、第Tフレームの予測されるセグメンテーションアノテーション画像を得る。
本実施形態では、上記実行主体は、第Tフレームの低レベルの画素レベルの特徴マップ(low-level-feature)と、融合された画素レベルの特徴ベクトルと、融合されたインスタンスレベルの特徴ベクトルとを、協調アンサンブル装置に入力して、第Tフレームの予測されるセグメンテーションアノテーション画像(PredictionT)を得ることができる。第Tフレームの予測されるセグメンテーションアノテーション画像に基づいて第Tフレームをセグメンテーションすることにより、第Tフレームにおけるオブジェクトを得ることができる。
前景及び背景の画素レベル及びインスタンスレベルの情報を秘匿形式でまとめて学習するために、高精度予測を達成するように、協調アンサンブル装置を用いてより大きな受信フィールドを構築する。
本開示の実施形態に係るセグメンテーション予測方法は、協調を行うために前景画素から埋め込み学習をするだけでなく、背景画素からも埋め込み学習を行い、前景と背景の特徴を対比させて背景の乱れを緩和することにより、セグメンテーション予測結果の精度を向上させる。前景画素と背景画素の協調で、画素レベルとインスタンスレベルからさらに埋め込みマッチングを行う。画素レベルのマッチングでは、様々なオブジェクト移動速度でのローカルマッチングのロバスト性が向上した。インスタンスレベルのマッチングでは、注意メカニズムが設計されたので、画素レベルのマッチングを効果的に強化できる。CFBIネットワークに基づいてネットワーク追跡のアイデアを加えることにより、前後フレーム間の情報をより良く抽出することができる。CFBIネットワークに監視信号のレイヤーを追加することと同等であり、抽出された特徴はモデルのニーズをより適切に満足できるため、ネットワークのセグメンテーション効果を向上できる。
なお、特徴を抽出するための方法はCFBIネットワークに適用できるだけでなく、他のVOSネットワークにも適用でき、ネットワークに埋め込む位置は実際の状況に応じて調整可能である。
理解を助けるために、図6は本開示の実施形態に係るセグメンテーション予測方法を実現可能なシーンの図を示している。図6に示すように、ビデオ中の第1フレーム、第T-1フレームおよび第TフレームをCFBIネットワーク中のBackboneに入力し、第1フレーム、第T-1フレームおよび第TフレームのPixel-level Embeddingを取得し、第1フレームのGroundtruthおよび第T-1フレームのPredictionT-1をDownsampleして、第1フレームおよび第T-1フレームのMaskを取得する。第T-1フレームのPrediction T-1のマッピング特徴マップの畳み込みカーネルを用いて第TフレームのPixel-level Embeddingのマッピング特徴マップを畳み込んで、第TフレームのScore mapを得る。第1フレームのPixel-level Embeddingを第1フレームのMaskでPixel Separationし、第1フレームのPixel-level FGおよびPixel-level BGを得る。第TフレームのPixel-level Embeddingと、第1フレームのPixel-level FGおよびPixel-level BGとをF-G Global Matchingして、第Tフレームの第1のマッチング特徴マップを得る。第T-1フレームのPixel-level Embeddingを第T-1フレームのMaskでPixel Separationし、第T-1フレームのPixel-level FGおよびPixel-level BGを得る。第TフレームのPixel-level Embeddingと、第T-1フレームのPixel-level FGおよびPixel-level BGとをF-G Multi-Local Matchingして、第Tフレームの第2のマッチング特徴マップを得る。第1フレームと第T-1フレームのPixel-level FGとPixel-level BGを特徴チャネル上でグローバルプーリングし、第1フレームと第T-1フレームのInstance-level FGとInstance-level BGを得る。第TフレームのScore mapと、第1のマッチング特徴マップと、第2のマッチング特徴マップとをconcat演算する。第1フレームと第T-1フレームのInstance-level FGとInstance-level BGを同時にconcat演算する。融合特徴を第Tフレームのlow-level-featureとともにCollaborative Ensemblerに入力すると、第TフレームのPrediction Tが得られる。
更に図7を参照すると、上記の各図に示された方法の実施態様として、本開示は、特徴を抽出するための装置の一実施形態を提供し、当該装置の実施形態は、図2に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
図7に示すように、本実施形態の特徴を抽出するための装置700は、取得モジュール701と、マッピングモジュール702と、畳み込みモジュール703とを備えてもよい。取得モジュール701は、ビデオ中の第T-1フレームの予測されるセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得するように構成される(ただし、Tは2より大きい正の整数である)。マッピングモジュール702は、第T-1フレームの予測されるセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、第T-1フレームのマッピング特徴マップと第Tフレームのマッピング特徴マップとを得るように構成される。畳み込みモジュール703は、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを得るように構成される。スコアマップの各点は第Tフレームの画素レベルの特徴マップの各位置と、前記第T-1フレームの予測されるセグメンテーションアノテーション画像との類似度を表す。
本実施形態において、特徴を抽出するための装置700において、取得モジュール701と、マッピングモジュール702と、畳み込みモジュール703の具体的な処理およびそれらによって奏される技術的効果は、それぞれ図2の対応する実施形態におけるステップ201~203の関連する説明を参照することができ、ここでその説明を省略する。
本実施形態のいくつかのオプション的な実施形態では、マッピングモジュール702は、畳み込みニューラルネットワークにおける畳み込み層とプーリング層を用いて、第T-1フレームの予測されるセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップをそれぞれ予め設定された特徴空間にマッピングするように構成される。
本実施形態のいくつかのオプション的な実施形態では、特徴を抽出するための装置700は、ビデオ中の参照フレームの画素レベルの特徴マップを取得し、第Tフレームの画素レベルの特徴マップと参照フレームの画素レベルの特徴マップとをマッチングして、第Tフレームの第1のマッチング特徴マップを得るように構成される第1のマッチングモジュールであって、参照フレームはセグメンテーションアノテーション画像を有する、第1のマッチングモジュールと、第T-1フレームの画素レベルの特徴マップを取得し、第Tフレームの画素レベルの特徴マップと第T-1フレームの画素レベルの特徴マップとをマッチングして、第Tフレームの第2のマッチング特徴マップを得るように構成される第2のマッチングモジュールと、第Tフレームのスコアマップと、第1のマッチング特徴マップと、第2のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得るように構成される第1の融合モジュールと、をさらに備える。
本実施形態のいくつかのオプション的な実施形態では、第1のマッチングモジュールは、さらに参照フレームのセグメンテーションアノテーション画像をダウンサンプリングして参照フレームのマスクを得、参照フレームを予めトレーニングされた特徴抽出ネットワークに入力して、参照フレームの画素レベルの特徴マップを得、参照フレームのマスクを用いて参照フレームの画素レベルの特徴マップを画素レベルで分離して、参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得、第Tフレームの画素レベルの特徴マップと、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景-背景グローバルマッチングして、第Tフレームの第1のマッチング特徴マップを得るように構成される。
本実施形態のいくつかのオプション的な実施形態では、第2のマッチングモジュールは、さらに第T-1フレームの予測されるセグメンテーションアノテーション画像をダウンサンプリングして第T-1フレームのマスクを得、第T-1フレームを予めトレーニングされた特徴抽出ネットワークに入力して、第T-1フレームの画素レベルの特徴マップを得、第T-1フレームのマスクを用いて第T-1フレームの画素レベルの特徴マップを画素レベルで分離し、第T-1フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得、第Tフレームの画素レベルの特徴マップと、第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景-背景マルチローカルマッチングして、第Tフレームの第2のマッチング特徴マップを得るように構成される。
本実施形態のいくつかのオプション的な実施形態では、特徴を抽出するための装置700は、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得るように構成される第1のプーリングモジュールと、第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得るように構成される第2のプーリングモジュールと、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを融合して、融合されたインスタンスレベルの特徴ベクトルを得るように構成される第2の融合モジュールと、をさらに備える。
本実施形態のいくつかのオプション的な実施形態では、特徴を抽出するための装置700は、第Tフレームの低レベルの画素レベルの特徴マップと、融合された画素レベルの特徴ベクトルと、融合されたインスタンスレベルの特徴ベクトルとを協調アンサンブル装置に入力し、第Tフレームの予測されるセグメンテーションアノテーション画像を得るように構成される予測モジュールをさらに備える。
本開示の技術方案では、関連するユーザ個人情報の取得、記憶および応用などは、いずれも関連法律法規の規定に準拠し、且つ公序良俗に反しない。
本開示の実施形態によれば、本開示はさらに電子機器、読み取り可能な記憶媒体およびコンピュータプログラムを提供する。
図8は、本開示の実施形態を実施するために使用できる例示的な電子機器800の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル動作、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本開示の実施形態を限定することを意図するものではない。
図8に示すように、電子機器800は、読み出し専用メモリ(ROM)802に記憶されているコンピュータプログラムまたは記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット801を備える。RAM803には、機器800の動作に必要な様々なプログラムおよびデータがさらに格納されることが可能である。計算ユニット801、ROM802およびRAM803は、バス804を介して互いに接続されている。入/出力(I/O)インターフェース805もバス804に接続されている。
電子機器800において、キーボード、マウスなどの入力ユニット806と、様々なタイプのディスプレイ、スピーカなどの出力ユニット807と、磁気ディスク、光ディスクなどの記憶ユニット808と、ネットワークプラグイン、モデム、無線通信送受信機などの通信ユニット809とを含む複数のコンポーネントは、I/Oインターフェース805に接続されている。通信ユニット809は、電子機器800がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
計算ユニット801は、処理及び計算能力を有する様々な汎用および/または専用処理コンポーネントであってもよい。計算ユニット801のいくつかの例示として、中央処理装置(CPU)、グラフィックスプロセシングユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット801は、上述した特徴を抽出するための方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、特徴を抽出するための方法は、記憶ユニット808などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM802および/または通信ユニット809を介して電子機器800にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM803にロードされ、計算ユニット801によって実行されると、上述の特徴を抽出するための方法の1つまたは複数のステップを実行可能である。あるいは、他の実施形態では、計算ユニット801は、他の任意の適切な方式によって(例えば、ファームウェアを介して)、特徴を抽出するための方法を実行するように構成されてもよい。
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現することができる。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、当該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも1つの入力装置および当該少なくとも1つの出力装置に伝送することを含み得る。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納してもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(CathodeRayTube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで説明したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応答して、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本開示の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本開示の保護範囲内に含まれるべきである。
関連出願の相互参照
本開示は、2021年4月13日に提出された、出願番号が202110396281.7で、発明の名称が「特徴を抽出するための方法、装置、機器、記憶媒体およびプログラム製品」である中国特許出願に基づく優先権を主張し、当該出願の全文を引用により本開示に組み込む。
本開示は、人工知能分野に関し、具体的にコンピュータビジョンと深層学習技術に関する。
VOS(Video Object Segmentation,ビデオオブジェクトセグメンテーション)は、コンピュータビジョンの分野における基本的なタスクであり、拡張現実および自動運転など、非常に多くの潜在的な応用シーンを有する。半教師ありビデオオブジェクトセグメンテーションは、オブジェクトをセグメンテーションするために、ビデオシーケンスが初期マスク(Mask)のみの場合に特徴を抽出する必要がある。現在の半教師ありビデオオブジェクトセグメンテーションは、特徴抽出時にビデオ中の前後のフレームの特徴をそれぞれ抽出するのが一般的である。
本開示の実施形態は、特徴を抽出するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム提出する。
第1の態様では、本開示の実施形態は、特徴を抽出するための方法であって、ビデオ中の第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得するステップ(ただし、Tは2より大きい正の整数である)と、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、第T-1フレームのマッピング特徴マップと第Tフレームのマッピング特徴マップとを得るステップと、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを得るステップであって、スコアマップの各点は第Tフレームの画素レベルの特徴マップの各位置と、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表すステップと、を含む方法を提供する。
第2の態様では、本開示の実施形態は、特徴を抽出するための装置であって、ビデオ中の第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得するように構成される取得モジュール(ただし、Tは2より大きい正の整数である)と、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、第T-1フレームのマッピング特徴マップと第Tフレームのマッピング特徴マップとを得るように構成されるマッピングモジュールと、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを得るように構成される畳み込みモジュールであって、スコアマップの各点は第Tフレームの画素レベルの特徴マップの各位置と、前記第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表す、畳み込みモジュールと、を含む装置を提供する。
第3の態様では、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が格納されており、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1態様のいずれかの実施形態に記載の方法を実行させる、電子機器を提供する。
第4の態様では、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令はコンピュータに第1態様のいずれかの実施形態に記載の方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
第5の態様では、プロセッサによって実行されると、第1態様のいずれかの実施形態に記載の方法が実行されるコンピュータプログラムを提供する。
本開示の実施形態に係る特徴を抽出するための方法は、前フレームの特性を合わせて後フレームの特徴を抽出することにより、前後フレームにおける情報をより良く抽出することができる。
なお、発明の概要に記載された内容は、本開示の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって理解しやすくなる。
本開示の他の特徴、目的および利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになる。図面は本開示をよりよく理解するために用いられ、本開示に対する限定ではない。
本開示の適用可能な例示的なシステムアーキテクチャを示す図である。 本開示に係る特徴を抽出するための方法の一実施形態を示すフローチャートである。 本開示の実施形態に係る特徴を抽出するための方法を実現可能なシーンを示す図である。 本開示に係る特徴融合方法の一実施形態を示すフローチャートである。 本開示に係るセグメンテーション予測方法の一実施形態を示すフローチャートである。 本開示の実施形態に係るセグメンテーション予測方法を実現可能なシーンを示す図である。 本開示に係る特徴を抽出するための装置の一実施形態を示す構造概略図である。 本開示の実施形態に係る特徴を抽出するための方法を実現するための電子機器のブロック図である。
以下は、図面を参照して本開示の例示的な実施形態を説明し、ここで理解を助けるため、本開示の実施形態の様々な詳細を記載するが、これらは単なる例示的なものに過ぎないことを理解すべきである。従って、本開示の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることを理解すべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
なお、本開示の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本開示を詳細に説明する。
図1は、本開示に係る特徴を抽出するための方法または特徴を抽出するための装置の実施形態が適用可能な例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、ビデオ採集装置103、ネットワーク102、およびサーバ103を含んでもよい。ネットワーク102は、ビデオ採集装置101とサーバ103との間に通信リンクを提供するための媒体として使用される。ネットワーク102は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
画像を送受信することなどのために、ビデオ採集装置101は、ネットワーク102を介してサーバ103と情報のやり取りをすることができる。
ビデオ採集装置101は、ハードウェアであってもよいし、ソフトウェアであってもよい。ビデオ採集装置101がハードウェアである場合、カメラ付きのさまざまな電子機器であってもよい。ビデオ採集装置101がソフトウェアである場合、上記電子機器にインストールされてもよい。それは、複数のソフトウェア若しくはソフトウェアモジュールとして実現されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。
サーバ103は、様々なサービスを提供できる。例えば、サーバ103は、ビデオ採集装置101から取得されたビデオストリームを解析することなど処理してもよく、処理結果(例えば、ビデオ内のビデオフレームのスコアマップ)を生成することができる。
なお、サーバ103は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ103がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装可能である。サーバ103がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
なお、本開示の実施形態に係る特徴を抽出するための方法は、通常にサーバ103によって実行され、これに応じて、特徴を抽出するための装置は、通常にサーバ103に設けられている。
図1におけるビデオ採集装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実装の必要に応じて、ビデオ採集装置、ネットワークおよびサーバの数を任意に加減してもよい。
次に、本開示に係る特徴を抽出するための方法の一実施形態のフロー200を示す図2を参照する。この特徴を抽出するための方法は、次の工程を含む。
ステップ201では、ビデオ中の第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得する。
本実施形態では、特徴を抽出するための方法の実行主体(例えば、図1に示すサーバ103)は、ビデオ中の第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像(Prediction T-1)と第Tフレームの画素レベルの特徴マップ(Pixel-level Embedding)を取得することができる。ただし、Tは2より大きい正の整数である。
通常、ビデオ採集装置は、そのカメラ範囲内のビデオを採集することができる。ビデオ採集装置のカメラ範囲内にオブジェクトが現れた場合、採集されたビデオにはオブジェクトが存在する。ここで、オブジェクトは、人、動物、植物、建物、物品等を含むがこれらに限定されない、現実世界に存在する任意の有形物であってもよい。第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像は、第T-1フレームにおけるオブジェクトを分割するための予測されたアノテーション画像であってもよい。例えば、第T-1フレームにおけるオブジェクトのエッジをアノテートして生成された画像である。また、例えば、第T-1フレームにおけるオブジェクトのエッジをアノテートして、オブジェクトに属する画素とオブジェクトに属さない画素をそれぞれ異なる画素値に設定して生成された画像である。第Tフレームの画素レベルの特徴マップは、特徴抽出ネットワークを用いて画素レベルの特徴抽出を行うことにより得られ、第Tフレームが有する画素レベルの特徴を表すために用いられる。
なお、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像は、本開示の実施形態で提供するセグメンテーション予測方法を用いて予測して取得されてもよいし、他のVOSネットワークを用いて予測して取得されてもよく、ここでは特に限定しない。第Tフレームの画素レベルの特徴マップを抽出するための特徴抽出ネットワークは、CFBI(Collaborative Video Object Segmentation by Foreground-Background Integration,前景と背景の統合による協調的なビデオオブジェクトのセグメンテーション)ネットワーク中のバックボーンネットワーク(Backbone)であってもよいし、他のVOSネットワーク中のバックボーンネットワークであってもよく、ここでは特に限定しない。
ステップ202では、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第T-1フレームのマップング特徴マップと第Tフレームのマップング特徴マップを得る。
本実施形態では、上記実行主体は、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第T-1フレームのマップング特徴マップと第Tフレームのマップング特徴マップとを得ることができる。ただし、第T-1フレームのマップング特徴マップと第Tフレームのマップング特徴マップは同じ特徴空間にある。例えば、127×127×3の予測されるオブジェクトセグメンテーションアノテーション画像に対して、特徴のマッピング処理を行うことで、6×6×128のマッピング特徴マップを得る。同様に、255×255×3の画素レベルの特徴マップに対して、特徴のマッピング処理を行うことで、22×22×128のマップング特徴マップが得られる。
本実施形態のいくつかのオプション的な実施形態では、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップとを、変換行列を用いて一方の特徴空間から他方の特徴空間にマッピングすることにより、第T-1フレームのマッピング特徴マップと第Tフレームのマッピング特徴マップとを得ることができる。ここで、変換行列は、一方の空間から他方の空間に画像をマッピングするために、画像を線形変換することができる。
本実施形態のいくつかのオプション的な実施形態では、上記実行主体は、CNN(Convolutional Neural Network,畳み込みニューラルネットワーク)における畳み込み層とプーリング層を用いて、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像および第Tフレームの画素レベルの特徴マップをそれぞれ予め設定された特徴空間にマッピングすることにより、第T-1フレームのマッピング特徴マップおよび第Tフレームのマッピング特徴マップを得ることができる。ここで、深層学習手法を用いてマッピングを行うことにより、画像に対して線形変換できるだけでなく、非線形変換もできる。異なる畳み込み層とプーリング層を設けることにより、画像を任意の空間にマッピングすることができ、より柔軟性が高い。
ステップ203では、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを得る。
本実施形態では、上記実行主体は、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップ(Score map)を得ることができる。ここで、スコアマップの各点は、第Tフレームの画素レベルの特徴マップの各位置と、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表すことができる。例えば、22×22×128のマッピング特徴マップを6×6×128のマッピング特徴マップの畳み込みカーネル6×6で畳み込んで、17×17×1のスコアマップを得る。ここで、17×17×1のスコアマップの1点は、255×255×3の画素レベルの特徴マップの15×15×3の領域と127×127×3の予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表すことができる。スコアマップの1点は、画素レベルの特徴マップの15×15×3の領域に対応する。
また、上記実行主体は、第Tフレームのスコアマップに基づいて、第Tフレームの類似度が最も高い位置を算出し、第T-1フレームにおけるオブジェクトの位置を逆に算出することにより、第Tフレームのスコアマップの精度を検証することができる。
本開示の実施形態に係る特徴を抽出するための方法は、まず、ビデオ中の第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得し、次に、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップとに対してそれぞれ特徴マッピングを行い、第T-1フレームのマッピング特徴マップと第Tフレームのマッピング特徴マップとを取得し、最後に、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを取得する。前フレームの特性を合わせて後フレームの特徴を抽出することにより、前後フレームにおける情報をより良好に抽出することができる。また、後フレームの画素レベルの特徴マップを全体として入力し、前後のフレームの特徴マップの類似度マッチングを直接計算することで、計算の作業量を低減することができる。
理解を助けるために、図3には本開示の実施形態に係る特徴を抽出するための方法を実現可能なシーンの図を示す。図3に示すように、zは第T-1フレームの127×127×3の予測されるオブジェクトセグメンテーションアノテーション画像を表す。xは、第Tフレームの255×255×3の画素レベルの特徴マップを表す。φは、原画像を特定の特徴空間、ここではCNNにおける畳み込み層およびプーリング層にマッピングするための特徴マッピング処理を表す。zはφを経て、6×6×128のマッピング特徴マップを得る。同様に、xはφを経て、22×22×128のマッピング特徴マップを得る。*は、畳み込み処理を表し、22×22×128のマッピング特徴マップを6×6×128のマッピング特徴マップの畳み込みカーネル6×6で畳み込んで、17×17×1のスコアマップを得る。17×17×1のスコアマップの1点は、255×255×3の画素レベルの特徴マップの15×15×3の領域と、127×127×3の予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表すことができる。スコアマップの1点は、画素レベルの特徴マップの15×15×3の領域に対応する。
さらに、本開示に係る特徴融合方法の一実施形態のフロー400を示す図4を参照する。当該特徴融合方法は、次の工程を含む。
ステップ401では、ビデオ中の第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得する。
ステップ402では、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第T-1フレームのマップング特徴マップと第Tフレームのマップング特徴マップを得る。
ステップ403では、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを得る。
本実施形態では、ステップ401~403の具体的な動作は、図2に示す実施形態のステップ201~203の動作に詳しく説明したので、ここではその説明を省略する。
ステップ404では、ビデオ中の参照フレームの画素レベルの特徴マップを、取得し、第Tフレームの画素レベルの特徴マップと参照フレームの画素レベルの特徴マップとをマッチングして、第Tフレームの第1のマッチング特徴マップを得る。
本実施形態において、特徴を抽出するための方法の実行主体(例えば、図1に示すサーバ103)は、ビデオ中の参照フレームの画素レベルの特徴マップを)取得し、第Tフレームの画素レベルの特徴マップと参照フレームの画素レベルの特徴マップとをマッチングして、第Tフレームの第1のマッチング特徴マップを得ることができる。ここで、参照フレームは、オブジェクトセグメンテーションアノテーション画像を有し、通常、ビデオ中の第1のフレームである。参照フレーム中のオブジェクトにセグメンテーションのアノテーションを行うと、参照フレームのオブジェクトセグメンテーションアノテーション画像が得られる。ここでのセグメンテーションアノテーションは、通常、人手によるセグメンテーションのアノテーションである。
通常、FEELVOS(Fast End-to-End Embedding Learning for Video Object Segmentation,ビデオオブジェクトセグメンテーションのための高速エンドツーエンド埋め込み学習)ネットワークに適用する場合、上記の実行主体は、第Tフレームの画素レベルの特徴マップを参照フレームの画素レベルの特徴マップと直接マッチングすることができる。CFBIネットワークに適用する場合、上記実行主体は、参照フレームの画素レベルの特徴マップを参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップに分離してから、第Tフレームの画素レベルの特徴マップとマッチングしてもよい。ここで、前景とは、画面中でオブジェクトの直前に位置してカメラに近づいている物体を指す。背景とは、画面中でオブジェクトの後ろにあり、カメラから離れている物体である。第1のマッチング特徴マップは、画素レベルの特徴マップに属し、その各点は、第Tフレームの画素レベルの特徴マップと参照フレームの画素レベルの特徴マップとの各点におけるマッチング度合いを表すことができる。
なお、参照フレームの画素レベルの特徴マップの取得方法は、図2に示した実施形態における第Tフレームの画素レベルの特徴マップの取得方法を参照することができ、ここでは説明を省略する。
ステップ405では、第T-1フレームの画素レベルの特徴マップを取得し、第Tフレームの画素レベルの特徴マップと第T-1フレームの画素レベルの特徴マップとをマッチングして、第Tフレームの第2のマッチング特徴マップを得る。
本実施形態では、上記実行主体は、第T-1フレームの画素レベルの特徴マップを取得し、第Tフレームの画素レベルの特徴マップと第T-1フレームの画素レベルの特徴マップとをマッチングして、第Tフレームの第2のマッチング特徴マップを得ることができる。
通常、上記実行主体は、第Tフレームの画素レベルの特徴マップと第T-1フレームの画素レベルの特徴マップとを直接マッチングしてもよいし、第T-1フレームの画素レベルの特徴マップを第T-1フレームの画素レベルの前景特徴マップ(Pixel-level FG)と画素レベルの背景特徴マップ(Pixel-level BG)とに分離してから、第Tフレームの画素レベルの特徴マップとマッチングしてもよい。第2のマッチング特徴マップは、画素レベルの特徴マップに属し、その各点は、第Tフレームの画素レベルの特徴マップと第T-1フレームの画素レベルの特徴マップとの各点におけるマッチング度合いを表すことができる。
なお、第T-1フレームの画素レベルの特徴マップの取得方法は、図2に示した実施形態における第Tフレームの画素レベルの特徴マップの取得方法を参照することができ、ここでは説明を省略する。
ステップ406では、第Tフレームのスコアマップと、第1のマッチング特徴マップと、第2のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得る。
本実施形態では、上記実行主体は、第Tフレームのスコアマップと、第1のマッチング特徴マップと、第2のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得ることができる。例えば、第Tフレームのスコアマップと、第1のマッチング特徴マップと、第2のマッチング特徴マップとを結合(concat)することにより、融合された画素レベルの特徴マップを得ることができる。
なお、ステップ401~403、ステップ404およびステップ405の3つの部分は、同時に実行されてもよいし、ある部分が他の部分より先に実行されてもよく、ここでは実行の順番を限定しない。
本開示の実施形態に係る特徴融合方法は、前フレームの特性を合わせて後フレームの特徴を抽出することにより、前後フレームにおける情報をより良好に抽出することができる。それぞれ参照フレームと前フレームに基づいて特徴マッチングを行うことにより、ネットワーク構造が簡単で処理が迅速であり、後フレームのマッチング特徴を迅速に得ることができ、特徴マッチングの作業量を低減した。第Tフレームのスコアマップと、第1のマッチング特徴マップと、第2のマッチング特徴マップとを融合して融合された画素レベルの特徴マップを得ることにより、融合された画素レベルの特徴マップは、前後のフレームの特性を十分に考慮することができ、内容がより豊富であり、オブジェクトのセグメンテーションに必要なより多くの情報を含む。
さらに、本開示に係るセグメンテーション予測方法の一つの実施形態のフロー500を示す図5を参照する。当該セグメンテーション予測方法は、次のステップを含む。
ステップ501では、ビデオ中の第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得する。
ステップ502では、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第T-1フレームのマップング特徴マップと第Tフレームのマップング特徴マップを得る。
ステップ503では、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを得る。
本実施形態では、ステップ501~503の具体的な動作は、図4に示す実施形態のステップ401~403の動作に詳しく説明したので、ここではその説明を省略する。
ステップ504では、参照フレームのオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして参照フレームのマスクを得る。
本実施形態では、特徴を抽出するための方法の実行主体(例えば、図1に示すサーバ103)が参照フレームのオブジェクトセグメンテーションアノテーション画像(Groundtruth)をダウンサンプリング(Downsample)して参照フレームのマスクを得ることができる。
ここで、参照フレームのオブジェクトセグメンテーションアノテーション画像は、参照フレームにおけるオブジェクトのエッジをアノテートして、オブジェクトに属する画素とオブジェクトに属さない画素をそれぞれ異なる画素値に設定して生成された画像であってもよい。例えば、オブジェクトに属する画素を1とし、オブジェクトに属さない画素を0とする。また、例えば、オブジェクトに属する画素を0とし、オブジェクトに属さない画素を1とする。ダウンサンプリングとは、画像を縮小することであって、表示領域の大きさに合わせて画像を生成し、対応する画像のサムネイルを生成することが主な目的である。ダウンサンプリングの原理は、サイズM*Nの画像に対して、画像のs*sウィンドウ内の領域を1画素(その値は、通常、画素点の値であり、ウィンドウ内の全ての画素の平均値である)にして、(M/s)*(N/s)サイズの画像を得ることである。ここで、M、N、sは正の整数であり、sはMとNの公約数である。参照フレームのマスクは、参照フレームの画素レベルの特徴マップから関心領域を抽出するために用いることができる。例えば、参照フレームのマスクと参照フレームの画素レベルの特徴マップとをAND演算することにより、関心領域の画像を得ることができる。ここで、関心領域の画像は、前景又は背景のいずれか一方のみを含む。
ステップ505では、参照フレームを予めトレーニングされた特徴抽出ネットワークに入力して、参照フレームの画素レベルの特徴マップを得る。
本実施形態では、上記実行主体は、予めトレーニングされた特徴抽出ネットワークに参照フレームを入力し、参照フレームの画素レベルの特徴マップを得ることができる。ここで、参照フレームをCFBIネットワークにおけるバックボーンネットワークに入力して画素レベルの特徴抽出を行うことにより、参照フレームの画素レベルの特徴マップを得ることができる。
ステップ506では、参照フレームのマスクを用いて参照フレームの画素レベルの特徴マップを画素レベルで分離し、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを得る。
本実施形態では、上記実行主体は、参照フレームのマスクを用いて参照フレームの画素レベルの特徴マップを画素レベルで分離(Pixel Separation)し、参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得ることができる。
例えば、前景画素が1、背景画素が0であるマスクに対して、そのマスクと画素レベルの特徴マップとをAND演算し、画素レベルの前景特徴マップを得る。前景画素が0、背景画素が1であるマスクに対して、そのマスクと画素レベルの特徴マップとをAND演算し、画素レベルの背景特徴マップを得る。
ステップ507では、第Tフレームの画素レベルの特徴マップと、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、前景-背景グローバルマッチングを行い、第Tフレームの第1のマッチング特徴マップを得る。
本実施形態では、上記実行主体は、第Tフレームの画素レベルの特徴マップと、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、前景-背景グローバルマッチング(F-G Global Matching)を行って、第Tフレームの第1のマッチング特徴マップを得ることができる。
通常、参照フレームの画素とをマッチングする際には、第Tフレームの全平面でマッチングサーチが行われる。具体的には、第Tフレームの画素レベルの特徴マップと、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、それぞれグローバルマッチングを行う。
ステップ508では、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像をダウンサンプリングし、第T-1フレームのマスクを得る。
本実施形態では、上記実行主体は第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして第T-1フレームのマスクを得ることができる。
ここで、第T-1フレームのセグメンテーションアノテーション画像は、第T-1フレームにおけるオブジェクトのエッジをアノテートして、オブジェクトに属する画素とオブジェクトに属さない画素とをそれぞれ異なる画素値に設定して生成された画像であってもよい。例えば、オブジェクトに属する画素を1とし、オブジェクトに属さない画素を0とする。また、例えば、オブジェクトに属する画素を0とし、オブジェクトに属さない画素を1とする。第T-1フレームのマスクは、第T-1フレームの画素レベルの特徴マップから関心領域を抽出するために用いることができる。例えば、第T-1フレームのマスクと第T-1フレームの画素レベルの特徴マップとをAND演算すると、関心領域の画像を得ることができる。ここで、関心領域の画像は、前景又は背景のいずれか一方のみを含む。
ステップ509では、第T-1フレームを予めトレーニングされた特徴抽出ネットワークに入力して、第T-1フレームの画素レベルの特徴マップを得る。
本実施形態では、上記実行主体は、第T-1フレームを予めトレーニングされた特徴抽出ネットワークに入力し、第T-1フレームの画素レベルの特徴マップを得ることができる。ここで、第T-1フレームをCFBIネットワークにおけるバックボーンネットワークに入力して画素レベルの特徴抽出を行うと、第T-1フレームの画素レベルの特徴マップを得ることができる。
ステップ510では、第T-1フレームのマスクを用いて第T-1フレームの画素レベルの特徴マップを画素レベルで分離し、第T-1フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得る。
本実施形態では、上記実行主体は、第T-1フレームのマスクを用いて第T-1フレームの画素レベルの特徴マップを画素レベルで分離し、第T-1フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップとを得ることができる。
例えば、前景画素が1、背景画素が0であるマスクに対して、そのマスクと画素レベルの特徴マップとをAND演算し、画素レベルの前景特徴マップを得る。前景画素が0、背景画素が1であるマスクに対して、そのマスクと画素レベルの特徴マップとをAND演算し、画素レベルの背景特徴マップを得る。
ステップ511では、第Tフレームの画素レベルの特徴マップと、第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、前景-背景マルチローカルマッチング(F-G Multi-Local Matching)を行い、第Tフレームの第2のマッチング特徴マップを得る。
本実施形態では、上記実行主体は、第Tフレームの画素レベルの特徴マップと、第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、前景-背景マルチローカルマッチング(F-G Multi-Local Matching)を行い、第Tフレームの第2のマッチング特徴マップを得ることができる。
通常、第T-1フレームの画素とマッチングを行う場合、フレーム間の動き範囲が限られているため、第T-1フレームの画素の領域内でマッチングサーチが行われる。異なるビデオは異なる動きレートを持つことが多いので、ネットワークが異なる動きレートの物体を処理する際によりロバストになるように、マルチウィンドウ(領域)のマッチング形式を採用する。具体的には、第Tフレームの画素レベルの特徴マップと、第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、それぞれマルチローカルマッチングを行う。ここで、マルチローカルマッチングとは、小から大へと複数のウィンドウを設け、1つのウィンドウで1回のローカルマッチングを行うことである。
ステップ512では、第Tフレームのスコアマップと、第1のマッチング特徴マップと、第2のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得る。
本実施形態では、ステップ512の具体的な動作は、図4に示す実施形態406の動作に詳しく説明したので、ここではその説明を省略する。
ステップ513では、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングし、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得る。
本実施形態では、上記実行主体は、参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップとを特徴チャネル上でグローバルプーリングして、参照フレームにおける前景のインスタンスレベルの特徴ベクトル(Instance-level FG)と背景のインスタンスレベルの特徴ベクトル(Instance-level BG)とを得ることができる。
通常、前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、画素スケールの特徴マップをインスタンススケールのプーリングベクトルに変換する。プーリングベクトルは、注意メカニズムに基づいてCFBIネットワークの協調アンサンブル装置(Collaborative Ensembler)における特徴のチャネルを調整する。これにより、ネットワークはインスタンススケールの情報をよりよく取得することができる。
ステップ514では、第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得る。
本実施形態では、上記実行主体は、第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得ることができる。
通常、前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、画素スケールの特徴マップをインスタンススケールのプーリングベクトルに変換する。プーリングベクトルは、注意メカニズムに基づいてCFBIネットワークの協調アンサンブル装置における特徴のチャネルを調整することができる。これにより、ネットワークはインスタンススケールの情報をよりよく取得することができる。
ステップ515では、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを融合して、融合されたインスタンスレベルの特徴ベクトルを得る。
本実施形態では、上記実行主体は、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを融合して、融合されたインスタンスレベルの特徴ベクトルを得ることができる。例えば、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを結合することにより、融合されたインスタンスレベルの特徴マップを得ることができる。
ステップ516では、第Tフレームの低レベルの画素レベルの特徴マップと、融合された画素レベルの特徴ベクトルと、融合されたインスタンスレベルの特徴ベクトルとを、協調アンサンブル装置に入力して、第Tフレームの予測されるオブジェクトセグメンテーションアノテーション画像を得る。
本実施形態では、上記実行主体は、第Tフレームの低レベルの画素レベルの特徴マップ(low-level-feature)と、融合された画素レベルの特徴ベクトルと、融合されたインスタンスレベルの特徴ベクトルとを、協調アンサンブル装置に入力して、第Tフレームの予測されるオブジェクトセグメンテーションアノテーション画像(PredictionT)を得ることができる。第Tフレームの予測されるオブジェクトセグメンテーションアノテーション画像に基づいて第Tフレームをセグメンテーションすることにより、第Tフレームにおけるオブジェクトを得ることができる。
前景及び背景の画素レベル及びインスタンスレベルの情報を秘匿形式でまとめて学習するために、高精度予測を達成するように、協調アンサンブル装置を用いてより大きな受信フィールドを構築する。
本開示の実施形態に係るセグメンテーション予測方法は、協調を行うために前景画素から埋め込み学習をするだけでなく、背景画素からも埋め込み学習を行い、前景と背景の特徴を対比させて背景の乱れを緩和することにより、セグメンテーション予測結果の精度を向上させる。前景画素と背景画素の協調で、画素レベルとインスタンスレベルからさらに埋め込みマッチングを行う。画素レベルのマッチングでは、様々なオブジェクト移動速度でのローカルマッチングのロバスト性が向上した。インスタンスレベルのマッチングでは、注意メカニズムが設計されたので、画素レベルのマッチングを効果的に強化できる。CFBIネットワークに基づいてネットワーク追跡のアイデアを加えることにより、前後フレーム間の情報をより良く抽出することができる。CFBIネットワークに監視信号のレイヤーを追加することと同等であり、抽出された特徴はモデルのニーズをより適切に満足できるため、ネットワークのセグメンテーション効果を向上できる。
なお、特徴を抽出するための方法はCFBIネットワークに適用できるだけでなく、他のVOSネットワークにも適用でき、ネットワークに埋め込む位置は実際の状況に応じて調整可能である。
理解を助けるために、図6は本開示の実施形態に係るセグメンテーション予測方法を実現可能なシーンの図を示している。図6に示すように、ビデオ中の第1フレーム、第T-1フレームおよび第TフレームをCFBIネットワーク中のBackboneに入力し、第1フレーム、第T-1フレームおよび第TフレームのPixel-level Embeddingを取得し、第1フレームのGroundtruthおよび第T-1フレームのPredictionT-1をDownsampleして、第1フレームおよび第T-1フレームのMaskを取得する。第T-1フレームのPrediction T-1のマッピング特徴マップの畳み込みカーネルを用いて第TフレームのPixel-level Embeddingのマッピング特徴マップを畳み込んで、第TフレームのScore mapを得る。第1フレームのPixel-level Embeddingを第1フレームのMaskでPixel Separationし、第1フレームのPixel-level FGおよびPixel-level BGを得る。第TフレームのPixel-level Embeddingと、第1フレームのPixel-level FGおよびPixel-level BGとをF-G Global Matchingして、第Tフレームの第1のマッチング特徴マップを得る。第T-1フレームのPixel-level Embeddingを第T-1フレームのMaskでPixel Separationし、第T-1フレームのPixel-level FGおよびPixel-level BGを得る。第TフレームのPixel-level Embeddingと、第T-1フレームのPixel-level FGおよびPixel-level BGとをF-G Multi-Local Matchingして、第Tフレームの第2のマッチング特徴マップを得る。第1フレームと第T-1フレームのPixel-level FGとPixel-level BGを特徴チャネル上でグローバルプーリングし、第1フレームと第T-1フレームのInstance-level FGとInstance-level BGを得る。第TフレームのScore mapと、第1のマッチング特徴マップと、第2のマッチング特徴マップとをconcat演算する。第1フレームと第T-1フレームのInstance-level FGとInstance-level BGを同時にconcat演算する。融合特徴を第Tフレームのlow-level-featureとともにCollaborative Ensemblerに入力すると、第TフレームのPrediction Tが得られる。
更に図7を参照すると、上記の各図に示された方法の実施態様として、本開示は、特徴を抽出するための装置の一実施形態を提供し、当該装置の実施形態は、図2に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
図7に示すように、本実施形態の特徴を抽出するための装置700は、取得モジュール701と、マッピングモジュール702と、畳み込みモジュール703とを備えてもよい。取得モジュール701は、ビデオ中の第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得するように構成される(ただし、Tは2より大きい正の整数である)。マッピングモジュール702は、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、第T-1フレームのマッピング特徴マップと第Tフレームのマッピング特徴マップとを得るように構成される。畳み込みモジュール703は、第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Tフレームのマッピング特徴マップを畳み込んで、第Tフレームのスコアマップを得るように構成される。スコアマップの各点は第Tフレームの画素レベルの特徴マップの各位置と、前記第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表す。
本実施形態において、特徴を抽出するための装置700において、取得モジュール701と、マッピングモジュール702と、畳み込みモジュール703の具体的な処理およびそれらによって奏される技術的効果は、それぞれ図2の対応する実施形態におけるステップ201~203の関連する説明を参照することができ、ここでその説明を省略する。
本実施形態のいくつかのオプション的な実施形態では、マッピングモジュール702は、畳み込みニューラルネットワークにおける畳み込み層とプーリング層を用いて、第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップをそれぞれ予め設定された特徴空間にマッピングするように構成される。
本実施形態のいくつかのオプション的な実施形態では、特徴を抽出するための装置700は、ビデオ中の参照フレームの画素レベルの特徴マップを取得し、第Tフレームの画素レベルの特徴マップと参照フレームの画素レベルの特徴マップとをマッチングして、第Tフレームの第1のマッチング特徴マップを得るように構成される第1のマッチングモジュールであって、参照フレームはオブジェクトセグメンテーションアノテーション画像を有する、第1のマッチングモジュールと、第T-1フレームの画素レベルの特徴マップを取得し、第Tフレームの画素レベルの特徴マップと第T-1フレームの画素レベルの特徴マップとをマッチングして、第Tフレームの第2のマッチング特徴マップを得るように構成される第2のマッチングモジュールと、第Tフレームのスコアマップと、第1のマッチング特徴マップと、第2のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得るように構成される第1の融合モジュールと、をさらに備える。
本実施形態のいくつかのオプション的な実施形態では、第1のマッチングモジュールは、さらに参照フレームのオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして参照フレームのマスクを得、参照フレームを予めトレーニングされた特徴抽出ネットワークに入力して、参照フレームの画素レベルの特徴マップを得、参照フレームのマスクを用いて参照フレームの画素レベルの特徴マップを画素レベルで分離して、参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得、第Tフレームの画素レベルの特徴マップと、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景-背景グローバルマッチングして、第Tフレームの第1のマッチング特徴マップを得るように構成される。
本実施形態のいくつかのオプション的な実施形態では、第2のマッチングモジュールは、さらに第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして第T-1フレームのマスクを得、第T-1フレームを予めトレーニングされた特徴抽出ネットワークに入力して、第T-1フレームの画素レベルの特徴マップを得、第T-1フレームのマスクを用いて第T-1フレームの画素レベルの特徴マップを画素レベルで分離し、第T-1フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得、第Tフレームの画素レベルの特徴マップと、第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景-背景マルチローカルマッチングして、第Tフレームの第2のマッチング特徴マップを得るように構成される。
本実施形態のいくつかのオプション的な実施形態では、特徴を抽出するための装置700は、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得るように構成される第1のプーリングモジュールと、第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得るように構成される第2のプーリングモジュールと、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを融合して、融合されたインスタンスレベルの特徴ベクトルを得るように構成される第2の融合モジュールと、をさらに備える。
本実施形態のいくつかのオプション的な実施形態では、特徴を抽出するための装置700は、第Tフレームの低レベルの画素レベルの特徴マップと、融合された画素レベルの特徴ベクトルと、融合されたインスタンスレベルの特徴ベクトルとを協調アンサンブル装置に入力し、第Tフレームの予測されるオブジェクトセグメンテーションアノテーション画像を得るように構成される予測モジュールをさらに備える。
本開示の技術方案では、関連するユーザ個人情報の取得、記憶および応用などは、いずれも関連法律法規の規定に準拠し、且つ公序良俗に反しない。
本開示の実施形態によれば、本開示はさらに電子機器、読み取り可能な記憶媒体およびコンピュータプログラムを提供する。
図8は、本開示の実施形態を実施するために使用できる例示的な電子機器800の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル動作、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本開示の実施形態を限定することを意図するものではない。
図8に示すように、電子機器800は、読み出し専用メモリ(ROM)802に記憶されているコンピュータプログラムまたは記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット801を備える。RAM803には、機器800の動作に必要な様々なプログラムおよびデータがさらに格納されることが可能である。計算ユニット801、ROM802およびRAM803は、バス804を介して互いに接続されている。入/出力(I/O)インターフェース805もバス804に接続されている。
電子機器800において、キーボード、マウスなどの入力ユニット806と、様々なタイプのディスプレイ、スピーカなどの出力ユニット807と、磁気ディスク、光ディスクなどの記憶ユニット808と、ネットワークプラグイン、モデム、無線通信送受信機などの通信ユニット809とを含む複数のコンポーネントは、I/Oインターフェース805に接続されている。通信ユニット809は、電子機器800がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
計算ユニット801は、処理及び計算能力を有する様々な汎用および/または専用処理コンポーネントであってもよい。計算ユニット801のいくつかの例示として、中央処理装置(CPU)、グラフィックスプロセシングユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット801は、上述した特徴を抽出するための方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、特徴を抽出するための方法は、記憶ユニット808などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM802および/または通信ユニット809を介して電子機器800にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM803にロードされ、計算ユニット801によって実行されると、上述の特徴を抽出するための方法の1つまたは複数のステップを実行可能である。あるいは、他の実施形態では、計算ユニット801は、他の任意の適切な方式によって(例えば、ファームウェアを介して)、特徴を抽出するための方法を実行するように構成されてもよい。
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現することができる。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、当該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも1つの入力装置および当該少なくとも1つの出力装置に伝送することを含み得る。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納してもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(CathodeRayTube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで説明したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応答して、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本開示の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (17)

  1. 特徴を抽出するための方法であって、
    ビデオ中の第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得するステップ(ただし、Tは2より大きい正の整数である)と、
    前記第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と前記第Tフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、前記第T-1フレームのマッピング特徴マップと前記第Tフレームのマッピング特徴マップを得るステップと、
    前記第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、前記第Tフレームのマッピング特徴マップを畳み込んで、前記第Tフレームのスコアマップを得るステップであって、前記スコアマップの各点は前記第Tフレームの画素レベルの特徴マップの各位置と、前記第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表す、ステップと、
    を含む方法。
  2. 前記第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と前記第Tフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングするステップは、
    畳み込みニューラルネットワークにおける畳み込み層とプーリング層を用いて、前記第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と前記第Tフレームの画素レベルの特徴マップをそれぞれ予め設定された特徴空間にマッピングするステップを含む請求項1に記載の方法。
  3. 前記ビデオ中の参照フレームの画素レベルの特徴マップを取得し、前記第Tフレームの画素レベルの特徴マップと前記参照フレームの画素レベルの特徴マップとをマッチングして、前記第Tフレームの第1のマッチング特徴マップを得るステップであって、前記参照フレームはオブジェクトセグメンテーションのアノテーション画像を有する、ステップと、
    前記第T-1フレームの画素レベルの特徴マップを取得し、前記第Tフレームの画素レベルの特徴マップと前記第T-1フレームの画素レベルの特徴マップとをマッチングして、前記第Tフレームの第2のマッチング特徴マップを得るステップと、
    前記第Tフレームのスコアマップと、第1のマッチング特徴マップと、第2のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得るステップと、をさらに含む請求項1または2に記載の方法。
  4. 前記ビデオにおける参照フレームの画素レベルの特徴マップを取得し、前記第Tフレームの画素レベルの特徴マップと前記参照フレームの画素レベルの特徴マップとをマッチングして、前記第Tフレームの第1のマッチング特徴マップを得るステップは、
    前記参照フレームのオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして前記参照フレームのマスクを得るステップと、
    前記参照フレームを予めトレーニングされた特徴抽出ネットワークに入力して、前記参照フレームの画素レベルの特徴マップを得るステップと、
    前記参照フレームのマスクを用いて前記参照フレームの画素レベルの特徴マップを画素レベルで分離して、前記参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得るステップと、
    前記第Tフレームの画素レベルの特徴マップと、前記参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景-背景グローバルマッチングして、前記第Tフレームの第1のマッチング特徴マップを得るステップと、を含む請求項3に記載の方法。
  5. 前記第T-1フレームの画素レベルの特徴マップを取得し、前記第Tフレームの画素レベルの特徴マップと前記第T-1フレームの画素レベルの特徴マップとをマッチングして、前記第Tフレームの第2のマッチング特徴マップを得るステップは、
    前記第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして前記第T-1フレームのマスクを得るステップと、
    前記第T-1フレームを予めトレーニングされた特徴抽出ネットワークに入力して、前記第T-1フレームの画素レベルの特徴マップを得るステップと、
    前記第T-1フレームのマスクを用いて前記第T-1フレームの画素レベルの特徴マップを画素レベルで分離し、前記第T-1フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得るステップと、
    前記第Tフレームの画素レベルの特徴マップと、前記第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景-背景マルチローカルマッチングして、前記第Tフレームの第2のマッチング特徴マップを得るステップと、
    を含む請求項4に記載の方法。
  6. 前記参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、前記参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得るステップと、
    前記第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、前記第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得るステップと、
    前記参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、前記第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを融合して、融合されたインスタンスレベルの特徴ベクトルを得るステップと、
    をさらに含む請求項5に記載の方法。
  7. 前記第Tフレームの低レベルの画素レベルの特徴マップと、前記融合された画素レベルの特徴ベクトルと、前記融合されたインスタンスレベルの特徴ベクトルとを協調アンサンブル装置に入力して、前記第Tフレームの予測されるオブジェクトセグメンテーションアノテーション画像を得るステップをさらに含む請求項6に記載の方法。
  8. 特徴を抽出するための装置であって、
    ビデオ中の第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Tフレームの画素レベルの特徴マップを取得するように構成される取得モジュール(ただし、Tは2より大きい正の整数である)と、
    前記第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と前記第Tフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、前記第T-1フレームのマッピング特徴マップと前記第Tフレームのマッピング特徴マップとを得るように構成されるマッピングモジュールと、
    前記第T-1フレームのマッピング特徴マップの畳み込みカーネルを用いて、前記第Tフレームのマッピング特徴マップを畳み込んで、前記第Tフレームのスコアマップを得るように構成される畳み込みモジュールであって、前記スコアマップの各点は前記第Tフレームの画素レベルの特徴マップの各位置と、前記第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表す、畳み込みモジュールと、を備える装置。
  9. 前記マッピングモジュールは、さらに
    畳み込みニューラルネットワークにおける畳み込み層とプーリング層を用いて、前記第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像と前記第Tフレームの画素レベルの特徴マップをそれぞれ予め設定された特徴空間にマッピングするように構成される、
    請求項8に記載の装置。
  10. 前記ビデオ中の参照フレームの画素レベルの特徴マップを取得し、前記第Tフレームの画素レベルの特徴マップと前記参照フレームの画素レベルの特徴マップとをマッチングして、前記第Tフレームの第1のマッチング特徴マップを得るように構成される第1のマッチングモジュールであって、前記参照フレームはオブジェクトセグメンテーションアノテーション画像を有する、第1のマッチングモジュールと、
    前記第T-1フレームの画素レベルの特徴マップを取得し、前記第Tフレームの画素レベルの特徴マップと前記第T-1フレームの画素レベルの特徴マップとをマッチングして、前記第Tフレームの第2のマッチング特徴マップを得るように構成される第2のマッチングモジュールと、
    前記第Tフレームのスコアマップと、第1のマッチング特徴マップと、第2のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得るように構成される第1の融合モジュールと、
    をさらに備える請求項8または9に記載の装置。
  11. 前記第1のマッチングモジュールは、さらに
    前記参照フレームのオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして前記参照フレームのマスクを得、
    前記参照フレームを予めトレーニングされた特徴抽出ネットワークに入力して、前記参照フレームの画素レベルの特徴マップを得、
    前記参照フレームのマスクを用いて前記参照フレームの画素レベルの特徴マップを画素レベルで分離して、前記参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得、
    前記第Tフレームの画素レベルの特徴マップと、前記参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景-背景グローバルマッチングして、前記第Tフレームの第1のマッチング特徴マップを得るように構成される、
    請求項10に記載の装置。
  12. 前記第2のマッチングモジュールは、さらに
    前記第T-1フレームの予測されるオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして前記第T-1フレームのマスクを得、
    前記第T-1フレームを予めトレーニングされた特徴抽出ネットワークに入力して、前記第T-1フレームの画素レベルの特徴マップを得、
    前記第T-1フレームのマスクを用いて前記第T-1フレームの画素レベルの特徴マップを画素レベルで分離し、前記第T-1フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得、
    前記第Tフレームの画素レベルの特徴マップと、前記第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景-背景マルチローカルマッチングして、前記第Tフレームの第2のマッチング特徴マップを得るように構成される、
    請求項11に記載の装置。
  13. 前記参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、前記参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得るように構成される第1のプーリングモジュールと、
    前記第T-1フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、前記第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得るように構成される第2のプーリングモジュールと、
    前記参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、前記第T-1フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを融合して、融合されたインスタンスレベルの特徴ベクトルを得るように構成される第2の融合モジュールと、
    をさらに備える請求項12に記載の装置。
  14. 前記第Tフレームの低レベルの画素レベルの特徴マップと、前記融合された画素レベルの特徴ベクトルと、前記融合されたインスタンスレベルの特徴ベクトルとを協調アンサンブル装置に入力して、前記第Tフレームの予測されるオブジェクトセグメンテーションアノテーション画像を得るように構成される予測モジュールをさらに備える請求項13に記載の装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリとを備える電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が記憶され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~7のいずれか1項に記載の方法を実行させる、電子機器。
  16. コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ指令は前記コンピュータに請求項1~7のいずれか1項に記載の方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
  17. プロセッサによって実行されると、請求項1~7のいずれか1項に記載の方法が実現されるコンピュータプログラムを含むコンピュータプログラム製品。
JP2022560927A 2021-04-13 2022-01-29 特徴を抽出するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム Ceased JP2023525462A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110396281.7A CN112861830B (zh) 2021-04-13 2021-04-13 特征提取方法、装置、设备、存储介质以及程序产品
CN202110396281.7 2021-04-13
PCT/CN2022/075069 WO2022218012A1 (zh) 2021-04-13 2022-01-29 特征提取方法、装置、设备、存储介质以及程序产品

Publications (1)

Publication Number Publication Date
JP2023525462A true JP2023525462A (ja) 2023-06-16

Family

ID=75992531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022560927A Ceased JP2023525462A (ja) 2021-04-13 2022-01-29 特徴を抽出するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Country Status (5)

Country Link
US (1) US20230030431A1 (ja)
JP (1) JP2023525462A (ja)
KR (1) KR20220153667A (ja)
CN (1) CN112861830B (ja)
WO (1) WO2022218012A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861830B (zh) * 2021-04-13 2023-08-25 北京百度网讯科技有限公司 特征提取方法、装置、设备、存储介质以及程序产品
CN113570607B (zh) * 2021-06-30 2024-02-06 北京百度网讯科技有限公司 目标分割的方法、装置及电子设备
CN113610885B (zh) * 2021-07-12 2023-08-22 大连民族大学 使用差异对比学习网络的半监督目标视频分割方法及系统
CN116580249B (zh) * 2023-06-06 2024-02-20 河北中废通拍卖有限公司 基于集成学习模型的拍品分类方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190311202A1 (en) * 2018-04-10 2019-10-10 Adobe Inc. Video object segmentation by reference-guided mask propagation
US20200074185A1 (en) * 2019-11-08 2020-03-05 Intel Corporation Fine-grain object segmentation in video with deep features and multi-level graphical models
JP2020061144A (ja) * 2018-10-05 2020-04-16 株式会社ストラドビジョン トラッキングネットワークを含むcnnを使用して物体をトラッキングする方法、及びそれを利用した装置{method for tracking object by using convolutional neural network including tracking network and computing device using the same}
CN111260688A (zh) * 2020-01-13 2020-06-09 深圳大学 一种孪生双路目标跟踪方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214238B (zh) * 2017-06-30 2022-06-28 阿波罗智能技术(北京)有限公司 多目标跟踪方法、装置、设备及存储介质
CN108898086B (zh) * 2018-06-20 2023-05-26 腾讯科技(深圳)有限公司 视频图像处理方法及装置、计算机可读介质和电子设备
CN110427839B (zh) * 2018-12-26 2022-05-06 厦门瞳景物联科技股份有限公司 基于多层特征融合的视频目标检测方法
CN111462132A (zh) * 2020-03-20 2020-07-28 西北大学 一种基于深度学习的视频物体分割方法及系统
CN111507997B (zh) * 2020-04-22 2023-07-25 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及计算机存储介质
CN112132232A (zh) * 2020-10-19 2020-12-25 武汉千屏影像技术有限责任公司 医学图像的分类标注方法和系统、服务器
CN112434618B (zh) * 2020-11-26 2023-06-23 西安电子科技大学 基于稀疏前景先验的视频目标检测方法、存储介质及设备
CN112861830B (zh) * 2021-04-13 2023-08-25 北京百度网讯科技有限公司 特征提取方法、装置、设备、存储介质以及程序产品

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190311202A1 (en) * 2018-04-10 2019-10-10 Adobe Inc. Video object segmentation by reference-guided mask propagation
JP2020061144A (ja) * 2018-10-05 2020-04-16 株式会社ストラドビジョン トラッキングネットワークを含むcnnを使用して物体をトラッキングする方法、及びそれを利用した装置{method for tracking object by using convolutional neural network including tracking network and computing device using the same}
US20200074185A1 (en) * 2019-11-08 2020-03-05 Intel Corporation Fine-grain object segmentation in video with deep features and multi-level graphical models
CN111260688A (zh) * 2020-01-13 2020-06-09 深圳大学 一种孪生双路目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANG, ZONGXIN、他2名: "Collaborative Video Object Segmentation by Foreground-Background Integration", COMPUTER VISION AND PATTERN RECOGNITION, JPN6023036448, 23 July 2020 (2020-07-23), pages 1 - 17, ISSN: 0005146497 *

Also Published As

Publication number Publication date
CN112861830A (zh) 2021-05-28
CN112861830B (zh) 2023-08-25
WO2022218012A1 (zh) 2022-10-20
US20230030431A1 (en) 2023-02-02
KR20220153667A (ko) 2022-11-18

Similar Documents

Publication Publication Date Title
US11270158B2 (en) Instance segmentation methods and apparatuses, electronic devices, programs, and media
JP2023525462A (ja) 特徴を抽出するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111368685B (zh) 关键点的识别方法、装置、可读介质和电子设备
CN111291885A (zh) 近红外图像的生成方法、生成网络的训练方法和装置
CN112529073A (zh) 模型训练方法、姿态估计方法、装置及电子设备
EP3872760A2 (en) Method and apparatus of training depth estimation network, and method and apparatus of estimating depth of image
CN112784765B (zh) 用于识别动作的方法、装置、设备以及存储介质
CN113592913B (zh) 一种消除自监督三维重建不确定性的方法
CN111768356A (zh) 一种人脸图像融合方法、装置、电子设备及存储介质
CN112308770B (zh) 人像转换模型生成方法及人像转换方法
JP7213291B2 (ja) 画像を生成するための方法及装置
CN115147809B (zh) 一种障碍物检测方法、装置、设备以及存储介质
CN108229281B (zh) 神经网络的生成方法和人脸检测方法、装置及电子设备
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
JP2023543964A (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体およびコンピュータプログラム
WO2024041235A1 (zh) 图像处理方法、装置、设备、存储介质及程序产品
CN112085842B (zh) 深度值确定方法及装置、电子设备和存储介质
EP4123605A2 (en) Method of transferring image, and method and apparatus of training image transfer model
CN113177483B (zh) 视频目标分割方法、装置、设备以及存储介质
CN112686828B (zh) 视频去噪方法、装置、设备及存储介质
KR20220146663A (ko) 비디오 복구 방법, 장치, 기기, 매체 및 컴퓨터 프로그램
CN115019057A (zh) 图像特征提取模型确定方法及装置、图像识别方法及装置
CN113537359A (zh) 训练数据的生成方法及装置、计算机可读介质和电子设备
JP7372487B2 (ja) オブジェクトセグメンテーション方法、オブジェクトセグメンテーション装置及び電子機器
CN113221920B (zh) 图像识别方法、装置、设备、存储介质以及计算机程序产品

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240227

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20240625