JP2023525462A

JP2023525462A - 特徴を抽出するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Info

Publication number: JP2023525462A
Application number: JP2022560927A
Authority: JP
Inventors: エイエイリ; シャオタン; ハオサン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-04-13
Filing date: 2022-01-29
Publication date: 2023-06-16
Also published as: CN112861830A; CN112861830B; WO2022218012A1; US20230030431A1; KR20220153667A

Abstract

本開示は、人工知能分野に関わり、具体的にコンピュータビジョンおよび深層学習技術である、特徴を抽出するための方法、装置、機器、記憶媒体、およびプログラム製品を提供する。当該方法の一つの具体的な実施形態は、ビデオ中の第Ｔ－１フレーム（ただし、Ｔは２より大きい正の整数である）の予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップを取得するステップと、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、第Ｔ－１フレームのマッピング特徴マップと第Ｔフレームのマッピング特徴マップとを得るステップと、第Ｔ－１フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Ｔフレームのマッピング特徴マップを畳み込んで、第Ｔフレームのスコアマップを得るステップであって、スコアマップの各点は第Ｔフレームの画素レベルの特徴マップの各位置と、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表すステップと、を含む。本実施形態によれば、前後フレーム間の情報をより良く抽出することができる。【選択図】図２

Description

関連出願の相互参照

本開示は、２０２１年４月１３日に提出された、出願番号が２０２１１０３９６２８１．７で、発明の名称が「特徴を抽出するための方法、装置、機器、記憶媒体およびプログラム製品」である中国特許出願に基づく優先権を主張し、当該出願の全文を引用により本開示に組み込む。

本開示は、人工知能分野に関し、具体的にコンピュータビジョンと深層学習技術に関する。

ＶＯＳ（ＶｉｄｅｏＯｂｊｅｃｔＳｅｇｍｅｎｔａｔｉｏｎ，ビデオオブジェクトセグメンテーション）は、コンピュータビジョンの分野における基本的なタスクであり、拡張現実および自動運転など、非常に多くの潜在的な応用シーンを有する。半教師ありビデオオブジェクトセグメンテーションは、オブジェクトをセグメンテーションするために、ビデオシーケンスが初期マスク（Ｍａｓｋ）のみの場合に特徴を抽出する必要がある。現在の半教師ありビデオオブジェクトセグメンテーションは、特徴抽出時にビデオ中の前後のフレームの特徴をそれぞれ抽出するのが一般的である。

本開示の実施形態は、特徴を抽出するための方法、装置、機器、記憶媒体およびプログラム製品を提出する。

第１の態様では、本開示の実施形態は、特徴を抽出するための方法であって、ビデオ中の第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップを取得するステップ（ただし、Ｔは２より大きい正の整数である）と、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、第Ｔ－１フレームのマッピング特徴マップと第Ｔフレームのマッピング特徴マップとを得るステップと、第Ｔ－１フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Ｔフレームのマッピング特徴マップを畳み込んで、第Ｔフレームのスコアマップを得るステップであって、スコアマップの各点は第Ｔフレームの画素レベルの特徴マップの各位置と、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表すステップと、を含む方法を提供する。

第２の態様では、本開示の実施形態は、特徴を抽出するための装置であって、ビデオ中の第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップを取得するように構成される取得モジュール（ただし、Ｔは２より大きい正の整数である）と、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、第Ｔ－１フレームのマッピング特徴マップと第Ｔフレームのマッピング特徴マップとを得るように構成されるマッピングモジュールと、第Ｔ－１フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Ｔフレームのマッピング特徴マップを畳み込んで、第Ｔフレームのスコアマップを得るように構成される畳み込みモジュールであって、スコアマップの各点は第Ｔフレームの画素レベルの特徴マップの各位置と、前記第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表す、畳み込みモジュールと、を含む装置を提供する。

第３の態様では、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも１つのプロセッサによって実行可能な指令が格納されており、指令が少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに第１態様のいずれかの実施形態に記載の方法を実行させる、電子機器を提供する。

第４の態様では、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令はコンピュータに第１態様のいずれかの実施形態に記載の方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。

第５の態様では、プロセッサによって実行されると、第１態様のいずれかの実施形態に記載の方法が実行されるコンピュータプログラムを含むコンピュータプログラム製品を提供する。

本開示の実施形態に係る特徴を抽出するための方法は、前フレームの特性を合わせて後フレームの特徴を抽出することにより、前後フレームにおける情報をより良く抽出することができる。

なお、発明の概要に記載された内容は、本開示の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって理解しやすくなる。

本開示の他の特徴、目的および利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになる。図面は本開示をよりよく理解するために用いられ、本開示に対する限定ではない。
本開示の適用可能な例示的なシステムアーキテクチャを示す図である。本開示に係る特徴を抽出するための方法の一実施形態を示すフローチャートである。本開示の実施形態に係る特徴を抽出するための方法を実現可能なシーンを示す図である。本開示に係る特徴融合方法の一実施形態を示すフローチャートである。本開示に係るセグメンテーション予測方法の一実施形態を示すフローチャートである。本開示の実施形態に係るセグメンテーション予測方法を実現可能なシーンを示す図である。本開示に係る特徴を抽出するための装置の一実施形態を示す構造概略図である。本開示の実施形態に係る特徴を抽出するための方法を実現するための電子機器のブロック図である。

以下は、図面を参照して本開示の例示的な実施形態を説明し、ここで理解を助けるため、本開示の実施形態の様々な詳細を記載するが、これらは単なる例示的なものに過ぎないことを理解すべきである。従って、本開示の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることを理解すべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。

なお、本開示の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本開示を詳細に説明する。

図１は、本開示に係る特徴を抽出するための方法または特徴を抽出するための装置の実施形態が適用可能な例示的なシステムアーキテクチャ１００を示している。

図１に示すように、システムアーキテクチャ１００は、ビデオ採集装置１０３、ネットワーク１０２、およびサーバ１０３を含んでもよい。ネットワーク１０２は、ビデオ採集装置１０１とサーバ１０３との間に通信リンクを提供するための媒体として使用される。ネットワーク１０２は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。

画像を送受信することなどのために、ビデオ採集装置１０１は、ネットワーク１０２を介してサーバ１０３と情報のやり取りをすることができる。

ビデオ採集装置１０１は、ハードウェアであってもよいし、ソフトウェアであってもよい。ビデオ採集装置１０１がハードウェアである場合、カメラ付きのさまざまな電子機器であってもよい。ビデオ採集装置１０１がソフトウェアである場合、上記電子機器にインストールされてもよい。それは、複数のソフトウェア若しくはソフトウェアモジュールとして実現されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。

サーバ１０３は、様々なサービスを提供できる。例えば、サーバ１０３は、ビデオ採集装置１０１から取得されたビデオストリームを解析することなど処理してもよく、処理結果（例えば、ビデオ内のビデオフレームのスコアマップ）を生成することができる。

なお、サーバ１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ１０３がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装可能である。サーバ１０３がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。

なお、本開示の実施形態に係る特徴を抽出するための方法は、通常にサーバ１０３によって実行され、これに応じて、特徴を抽出するための装置は、通常にサーバ１０３に設けられている。

図１におけるビデオ採集装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実装の必要に応じて、ビデオ採集装置、ネットワークおよびサーバの数を任意に加減してもよい。

次に、本開示に係る特徴を抽出するための方法の一実施形態のフロー２００を示す図２を参照する。この特徴を抽出するための方法は、次の工程を含む。

ステップ２０１では、ビデオ中の第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップを取得する。

本実施形態では、特徴を抽出するための方法の実行主体（例えば、図１に示すサーバ１０３）は、ビデオ中の第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像（ＰｒｅｄｉｃｔｉｏｎＴ－１）と第Ｔフレームの画素レベルの特徴マップ（Ｐｉｘｅｌ－ｌｅｖｅｌＥｍｂｅｄｄｉｎｇ）を取得することができる。ただし、Ｔは２より大きい正の整数である。

通常、ビデオ採集装置は、そのカメラ範囲内のビデオを採集することができる。ビデオ採集装置のカメラ範囲内にオブジェクトが現れた場合、採集されたビデオにはオブジェクトが存在する。ここで、オブジェクトは、人、動物、植物、建物、物品等を含むがこれらに限定されない、現実世界に存在する任意の有形物であってもよい。第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像は、第Ｔ－１フレームにおけるオブジェクトを分割するための予測されたアノテーション画像であってもよい。例えば、第Ｔ－１フレームにおけるオブジェクトのエッジをアノテートして生成された画像である。また、例えば、第Ｔ－１フレームにおけるオブジェクトのエッジをアノテートして、オブジェクトに属する画素と物体に属さない画素をそれぞれ異なる画素値に設定して生成された画像である。第Ｔフレームの画素レベルの特徴マップは、特徴抽出ネットワークを用いて画素レベルの特徴抽出を行うことにより得られ、第Ｔフレームが有する画素レベルの特徴を表すために用いられる。

なお、第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像は、本開示の実施形態で提供するセグメンテーション予測方法を用いて予測して取得されてもよいし、他のＶＯＳネットワークを用いて予測して取得されてもよく、ここでは特に限定しない。第Ｔフレームの画素レベルの特徴マップを抽出するための特徴抽出ネットワークは、ＣＦＢＩ（ＣｏｌｌａｂｏｒａｔｉｖｅＶｉｄｅｏＯｂｊｅｃｔＳｅｇｍｅｎｔａｔｉｏｎｂｙＦｏｒｅｇｒｏｕｎｄ－ＢａｃｋｇｒｏｕｎｄＩｎｔｅｇｒａｔｉｏｎ，前景と背景の統合による協調的なビデオオブジェクトのセグメンテーション）ネットワーク中のバックボーンネットワーク（Ｂａｃｋｂｏｎｅ）であってもよいし、他のＶＯＳネットワーク中のバックボーンネットワークであってもよく、ここでは特に限定しない。

ステップ２０２では、第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第Ｔ－１フレームのマップング特徴マップと第Ｔフレームのマップング特徴マップを得る。

本実施形態では、上記実行主体は、第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第Ｔ－１フレームのマップング特徴マップと第Ｔフレームのマップング特徴マップとを得ることができる。ただし、第Ｔ－１フレームのマップング特徴マップと第Ｔフレームのマップング特徴マップは同じ特徴空間にある。例えば、１２７×１２７×３の予測されるセグメンテーションアノテーション画像に対して、特徴のマッピング処理を行うことで、６×６×１２８のマッピング特徴マップを得る。同様に、２５５×２５５×３の画素レベルの特徴マップに対して、特徴のマッピング処理を行うことで、２２×２２×１２８のマップング特徴マップが得られる。

本実施形態のいくつかのオプション的な実施形態では、第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップとを、変換行列を用いて一方の特徴空間から他方の特徴空間にマッピングすることにより、第Ｔ－１フレームのマッピング特徴マップと第Ｔフレームのマッピング特徴マップとを得ることができる。ここで、変換行列は、一方の空間から他方の空間に画像をマッピングするために、画像を線形変換することができる。

本実施形態のいくつかのオプション的な実施形態では、上記実行主体は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，畳み込みニューラルネットワーク）における畳み込み層とプーリング層を用いて、第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像および第Ｔフレームの画素レベルの特徴マップをそれぞれ予め設定された特徴空間にマッピングすることにより、第Ｔ－１フレームのマッピング特徴マップおよび第Ｔフレームのマッピング特徴マップを得ることができる。ここで、深層学習手法を用いてマッピングを行うことにより、画像に対して線形変換できるだけでなく、非線形変換もできる。異なる畳み込み層とプーリング層を設けることにより、画像を任意の空間にマッピングすることができ、より柔軟性が高い。

ステップ２０３では、第Ｔ－１フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Ｔフレームのマッピング特徴マップを畳み込んで、第Ｔフレームのスコアマップを得る。

本実施形態では、上記実行主体は、第Ｔ－１フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Ｔフレームのマッピング特徴マップを畳み込んで、第Ｔフレームのスコアマップ（Ｓｃｏｒｅｍａｐ）を得ることができる。ここで、スコアマップの各点は、第Ｔフレームの画素レベルの特徴マップの各位置と、第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像との類似度を表すことができる。例えば、２２×２２×１２８のマッピング特徴マップを６×６×１２８のマッピング特徴マップの畳み込みカーネル６×６で畳み込んで、１７×１７×１のスコアマップを得る。ここで、１７×１７×１のスコアマップの１点は、２５５×２５５×３の画素レベルの特徴マップの１５×１５×３の領域と１２７×１２７×３の予測されるセグメンテーションアノテーション画像との類似度を表すことができる。スコアマップの１点は、画素レベルの特徴マップの１５×１５×３の領域に対応する。

また、上記実行主体は、第Ｔフレームのスコアマップに基づいて、第Ｔフレームの類似度が最も高い位置を算出し、第Ｔ－１フレームにおけるオブジェクトの位置を逆に算出することにより、第Ｔフレームのスコアマップの精度を検証することができる。

本開示の実施形態に係る特徴を抽出するための方法は、まず、ビデオ中の第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップを取得し、次に、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップとに対してそれぞれ特徴マッピングを行い、第Ｔ－１フレームのマッピング特徴マップと第Ｔフレームのマッピング特徴マップとを取得し、最後に、第Ｔ－１フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Ｔフレームのマッピング特徴マップを畳み込んで、第Ｔフレームのスコアマップを取得する。前フレームの特性を合わせて後フレームの特徴を抽出することにより、前後フレームにおける情報をより良好に抽出することができる。また、後フレームの画素レベルの特徴マップを全体として入力し、前後のフレームの特徴マップの類似度マッチングを直接計算することで、計算の作業量を低減することができる。

理解を助けるために、図３には本開示の実施形態に係る特徴を抽出するための方法を実現可能なシーンの図を示す。図３に示すように、ｚは第Ｔ－１フレームの１２７×１２７×３の予測されるセグメンテーションアノテーション画像を表す。ｘは、第Ｔフレームの２５５×２５５×３の画素レベルの特徴マップを表す。φは、原画像を特定の特徴空間、ここではＣＮＮにおける畳み込み層およびプーリング層にマッピングするための特徴マッピング処理を表す。ｚはφを経て、６×６×１２８のマッピング特徴マップを得る。同様に、ｘはφを経て、２２×２２×１２８のマッピング特徴マップを得る。＊は、畳み込み処理を表し、２２×２２×１２８のマッピング特徴マップを６×６×１２８のマッピング特徴マップの畳み込みカーネル６×６で畳み込んで、１７×１７×１のスコアマップを得る。１７×１７×１のスコアマップの１点は、２５５×２５５×３の画素レベルの特徴マップの１５×１５×３の領域と、１２７×１２７×３の予測されるセグメンテーションアノテーション画像との類似度を表すことができる。スコアマップの１点は、画素レベルの特徴マップの１５×１５×３の領域に対応する。

さらに、本開示に係る特徴融合方法の一実施形態のフロー４００を示す図４を参照する。当該特徴融合方法は、次の工程を含む。

ステップ４０１では、ビデオ中の第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップを取得する。

ステップ４０２では、第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第Ｔ－１フレームのマップング特徴マップと第Ｔフレームのマップング特徴マップを得る。

ステップ４０３では、第Ｔ－１フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Ｔフレームのマッピング特徴マップを畳み込んで、第Ｔフレームのスコアマップを得る。

本実施形態では、ステップ４０１～４０３の具体的な動作は、図２に示す実施形態のステップ２０１～２０３の動作に詳しく説明したので、ここではその説明を省略する。

ステップ４０４では、ビデオ中の参照フレームの画素レベルの特徴マップを、取得し、第Ｔフレームの画素レベルの特徴マップと参照フレームの画素レベルの特徴マップとをマッチングして、第Ｔフレームの第１のマッチング特徴マップを得る。

本実施形態において、特徴を抽出するための方法の実行主体（例えば、図１に示すサーバ１０３）は、ビデオ中の参照フレームの画素レベルの特徴マップを）取得し、第Ｔフレームの画素レベルの特徴マップと参照フレームの画素レベルの特徴マップとをマッチングして、第Ｔフレームの第１のマッチング特徴マップを得ることができる。ここで、参照フレームは、セグメンテーションアノテーション画像を有し、通常、ビデオ中の第１のフレームである。参照フレーム中のオブジェクトにセグメンテーションのアノテーションを行うと、参照フレームのセグメンテーションアノテーション画像が得られる。ここでのセグメンテーションアノテーションは、通常、人手によるセグメンテーションのアノテーションである。

通常、ＦＥＥＬＶＯＳ（ＦａｓｔＥｎｄ－ｔｏ－ＥｎｄＥｍｂｅｄｄｉｎｇＬｅａｒｎｉｎｇｆｏｒＶｉｄｅｏＯｂｊｅｃｔＳｅｇｍｅｎｔａｔｉｏｎ，ビデオオブジェクトセグメンテーションのための高速エンドツーエンド埋め込み学習）ネットワークに適用する場合、上記の実行主体は、第Ｔフレームの画素レベルの特徴マップを参照フレームの画素レベルの特徴マップと直接マッチングすることができる。ＣＦＢＩネットワークに適用する場合、上記実行主体は、参照フレームの画素レベルの特徴マップを参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップに分離してから、第Ｔフレームの画素レベルの特徴マップとマッチングしてもよい。ここで、前景とは、画面中でオブジェクトの直前に位置してカメラに近づいている物体を指す。背景とは、画面中でオブジェクトの後ろにあり、カメラから離れている物体である。第１のマッチング特徴マップは、画素レベルの特徴マップに属し、その各点は、第Ｔフレームの画素レベルの特徴マップと参照フレームの画素レベルの特徴マップとの各点におけるマッチング度合いを表すことができる。

なお、参照フレームの画素レベルの特徴マップの取得方法は、図２に示した実施形態における第Ｔフレームの画素レベルの特徴マップの取得方法を参照することができ、ここでは説明を省略する。

ステップ４０５では、第Ｔ－１フレームの画素レベルの特徴マップを取得し、第Ｔフレームの画素レベルの特徴マップと第Ｔ－１フレームの画素レベルの特徴マップとをマッチングして、第Ｔフレームの第２のマッチング特徴マップを得る。

本実施形態では、上記実行主体は、第Ｔ－１フレームの画素レベルの特徴マップを取得し、第Ｔフレームの画素レベルの特徴マップと第Ｔ－１フレームの画素レベルの特徴マップとをマッチングして、第Ｔフレームの第２のマッチング特徴マップを得ることができる。

通常、上記実行主体は、第Ｔフレームの画素レベルの特徴マップと第Ｔ－１フレームの画素レベルの特徴マップとを直接マッチングしてもよいし、第Ｔ－１フレームの画素レベルの特徴マップを第Ｔ－１フレームの画素レベルの前景特徴マップ（Ｐｉｘｅｌ－ｌｅｖｅｌＦＧ）と画素レベルの背景特徴マップ（Ｐｉｘｅｌ－ｌｅｖｅｌＢＧ）とに分離してから、第Ｔフレームの画素レベルの特徴マップとマッチングしてもよい。第２のマッチング特徴マップは、画素レベルの特徴マップに属し、その各点は、第Ｔフレームの画素レベルの特徴マップと第Ｔ－１フレームの画素レベルの特徴マップとの各点におけるマッチング度合いを表すことができる。

なお、第Ｔ－１フレームの画素レベルの特徴マップの取得方法は、図２に示した実施形態における第Ｔフレームの画素レベルの特徴マップの取得方法を参照することができ、ここでは説明を省略する。

ステップ４０６では、第Ｔフレームのスコアマップと、第１のマッチング特徴マップと、第２のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得る。

本実施形態では、上記実行主体は、第Ｔフレームのスコアマップと、第１のマッチング特徴マップと、第２のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得ることができる。例えば、第Ｔフレームのスコアマップと、第１のマッチング特徴マップと、第２のマッチング特徴マップとを結合（ｃｏｎｃａｔ）することにより、融合された画素レベルの特徴マップを得ることができる。

なお、ステップ４０１～４０３、ステップ４０４およびステップ４０５の３つの部分は、同時に実行されてもよいし、ある部分が他の部分より先に実行されてもよく、ここでは実行の順番を限定しない。

本開示の実施形態に係る特徴融合方法は、前フレームの特性を合わせて後フレームの特徴を抽出することにより、前後フレームにおける情報をより良好に抽出することができる。それぞれ参照フレームと前フレームに基づいて特徴マッチングを行うことにより、ネットワーク構造が簡単で処理が迅速であり、後フレームのマッチング特徴を迅速に得ることができ、特徴マッチングの作業量を低減した。第Ｔフレームのスコアマップと、第１のマッチング特徴マップと、第２のマッチング特徴マップとを融合して融合された画素レベルの特徴マップを得ることにより、融合された画素レベルの特徴マップは、前後のフレームの特性を十分に考慮することができ、内容がより豊富であり、オブジェクトのセグメンテーションに必要なより多くの情報を含む。

さらに、本開示に係るセグメンテーション予測方法の一つの実施形態のフロー５００を示す図５を参照する。当該セグメンテーション予測方法は、次のステップを含む。

ステップ５０１では、ビデオ中の第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップを取得する。

ステップ５０２では、第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第Ｔ－１フレームのマップング特徴マップと第Ｔフレームのマップング特徴マップを得る。

ステップ５０３では、第Ｔ－１フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Ｔフレームのマッピング特徴マップを畳み込んで、第Ｔフレームのスコアマップを得る。

本実施形態では、ステップ５０１～５０３の具体的な動作は、図４に示す実施形態のステップ４０１～４０３の動作に詳しく説明したので、ここではその説明を省略する。

ステップ５０４では、参照フレームのセグメンテーションアノテーション画像をダウンサンプリングして参照フレームのマスクを得る。

本実施形態では、特徴を抽出するための方法の実行主体（例えば、図１に示すサーバ１０３）が参照フレームのセグメンテーションアノテーション画像（Ｇｒｏｕｎｄｔｒｕｔｈ）をダウンサンプリング（Ｄｏｗｎｓａｍｐｌｅ）して参照フレームのマスクを得ることができる。

ここで、参照フレームのセグメンテーションアノテーション画像は、参照フレームにおけるオブジェクトのエッジをアノテートして、オブジェクトに属する画素と物体に属さない画素をそれぞれ異なる画素値に設定して生成された画像であってもよい。例えば、オブジェクトに属する画素を１とし、物体に属さない画素を０とする。また、例えば、オブジェクトに属する画素を０とし、物体に属さない画素を１とする。ダウンサンプリングとは、画像を縮小することであって、表示領域の大きさに合わせて画像を生成し、対応する画像のサムネイルを生成することが主な目的である。ダウンサンプリングの原理は、サイズＭ＊Ｎの画像に対して、画像のｓ＊ｓウィンドウ内の領域を１画素（その値は、通常、画素点の値であり、ウィンドウ内の全ての画素の平均値である）にして、（Ｍ／ｓ）＊（Ｎ／ｓ）サイズの画像を得ることである。ここで、Ｍ、Ｎ、ｓは正の整数であり、ｓはＭとＮの公約数である。参照フレームのマスクは、参照フレームの画素レベルの特徴マップから関心領域を抽出するために用いることができる。例えば、参照フレームのマスクと参照フレームの画素レベルの特徴マップとをＡＮＤ演算することにより、関心領域の画像を得ることができる。ここで、関心領域の画像は、前景又は背景のいずれか一方のみを含む。

ステップ５０５では、参照フレームを予めトレーニングされた特徴抽出ネットワークに入力して、参照フレームの画素レベルの特徴マップを得る。

本実施形態では、上記実行主体は、予めトレーニングされた特徴抽出ネットワークに参照フレームを入力し、参照フレームの画素レベルの特徴マップを得ることができる。ここで、参照フレームをＣＦＢＩネットワークにおけるバックボーンネットワークに入力して画素レベルの特徴抽出を行うことにより、参照フレームの画素レベルの特徴マップを得ることができる。

ステップ５０６では、参照フレームのマスクを用いて参照フレームの画素レベルの特徴マップを画素レベルで分離し、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを得る。

本実施形態では、上記実行主体は、参照フレームのマスクを用いて参照フレームの画素レベルの特徴マップを画素レベルで分離（ＰｉｘｅｌＳｅｐａｒａｔｉｏｎ）し、参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得ることができる。

例えば、前景画素が１、背景画素が０であるマスクに対して、そのマスクと画素レベルの特徴マップとをＡＮＤ演算し、画素レベルの前景特徴マップを得る。前景画素が０、背景画素が１であるマスクに対して、そのマスクと画素レベルの特徴マップとをＡＮＤ演算し、画素レベルの背景特徴マップを得る。

ステップ５０７では、第Ｔフレームの画素レベルの特徴マップと、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、前景－背景グローバルマッチングを行い、第Ｔフレームの第１のマッチング特徴マップを得る。

本実施形態では、上記実行主体は、第Ｔフレームの画素レベルの特徴マップと、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、前景－背景グローバルマッチング（Ｆ－ＧＧｌｏｂａｌＭａｔｃｈｉｎｇ）を行って、第Ｔフレームの第１のマッチング特徴マップを得ることができる。

通常、参照フレームの画素とをマッチングする際には、第Ｔフレームの全平面でマッチングサーチが行われる。具体的には、第Ｔフレームの画素レベルの特徴マップと、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、それぞれグローバルマッチングを行う。

ステップ５０８では、第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像をダウンサンプリングし、第Ｔ－１フレームのマスクを得る。

本実施形態では、上記実行主体は第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像をダウンサンプリングして第Ｔ－１フレームのマスクを得ることができる。

ここで、第Ｔ－１フレームのセグメンテーションアノテーション画像は、第Ｔ－１フレームにおけるオブジェクトのエッジをアノテートして、オブジェクトに属する画素と物体に属さない画素とをそれぞれ異なる画素値に設定して生成された画像であってもよい。例えば、オブジェクトに属する画素を１とし、物体に属さない画素を０とする。また、例えば、オブジェクトに属する画素を０とし、物体に属さない画素を１とする。第Ｔ－１フレームのマスクは、第Ｔ－１フレームの画素レベルの特徴マップから関心領域を抽出するために用いることができる。例えば、第Ｔ－１フレームのマスクと第Ｔ－１フレームの画素レベルの特徴マップとをＡＮＤ演算すると、関心領域の画像を得ることができる。ここで、関心領域の画像は、前景又は背景のいずれか一方のみを含む。

ステップ５０９では、第Ｔ－１フレームを予めトレーニングされた特徴抽出ネットワークに入力して、第Ｔ－１フレームの画素レベルの特徴マップを得る。

本実施形態では、上記実行主体は、第Ｔ－１フレームを予めトレーニングされた特徴抽出ネットワークに入力し、第Ｔ－１フレームの画素レベルの特徴マップを得ることができる。ここで、第Ｔ－１フレームをＣＦＢＩネットワークにおけるバックボーンネットワークに入力して画素レベルの特徴抽出を行うと、第Ｔ－１フレームの画素レベルの特徴マップを得ることができる。

ステップ５１０では、第Ｔ－１フレームのマスクを用いて第Ｔ－１フレームの画素レベルの特徴マップを画素レベルで分離し、第Ｔ－１フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得る。

本実施形態では、上記実行主体は、第Ｔ－１フレームのマスクを用いて第Ｔ－１フレームの画素レベルの特徴マップを画素レベルで分離し、第Ｔ－１フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップとを得ることができる。

ステップ５１１では、第Ｔフレームの画素レベルの特徴マップと、第Ｔ－１フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、前景－背景マルチローカルマッチング（Ｆ－ＧＭｕｌｔｉ－ＬｏｃａｌＭａｔｃｈｉｎｇ）を行い、第Ｔフレームの第２のマッチング特徴マップを得る。

本実施形態では、上記実行主体は、第Ｔフレームの画素レベルの特徴マップと、第Ｔ－１フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、前景－背景マルチローカルマッチング（Ｆ－ＧＭｕｌｔｉ－ＬｏｃａｌＭａｔｃｈｉｎｇ）を行い、第Ｔフレームの第２のマッチング特徴マップを得ることができる。

通常、第Ｔ－１フレームの画素とマッチングを行う場合、フレーム間の動き範囲が限られているため、第Ｔ－１フレームの画素の領域内でマッチングサーチが行われる。異なるビデオは異なる動きレートを持つことが多いので、ネットワークが異なる動きレートの物体を処理する際によりロバストになるように、マルチウィンドウ（領域）のマッチング形式を採用する。具体的には、第Ｔフレームの画素レベルの特徴マップと、第Ｔ－１フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとに対して、それぞれマルチローカルマッチングを行う。ここで、マルチローカルマッチングとは、小から大へと複数のウィンドウを設け、１つのウィンドウで１回のローカルマッチングを行うことである。

ステップ５１２では、第Ｔフレームのスコアマップと、第１のマッチング特徴マップと、第２のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得る。

本実施形態では、ステップ５１２の具体的な動作は、図４に示す実施形態４０６の動作に詳しく説明したので、ここではその説明を省略する。

ステップ５１３では、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングし、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得る。

本実施形態では、上記実行主体は、参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップとを特徴チャネル上でグローバルプーリングして、参照フレームにおける前景のインスタンスレベルの特徴ベクトル（Ｉｎｓｔａｎｃｅ－ｌｅｖｅｌＦＧ）と背景のインスタンスレベルの特徴ベクトル（Ｉｎｓｔａｎｃｅ－ｌｅｖｅｌＢＧ）とを得ることができる。

通常、前景の画素特徴マップと背景の画素特徴マップを特徴チャネル上でグローバルプーリングして、画素スケールの特徴マップをインスタンススケールのプーリングベクトルに変換する。プーリングベクトルは、注意メカニズムに基づいてＣＦＢＩネットワークの協調アンサンブル装置（ＣｏｌｌａｂｏｒａｔｉｖｅＥｎｓｅｍｂｌｅｒ）における特徴のチャネルを調整する。これにより、ネットワークはインスタンススケールの情報をよりよく取得することができる。

ステップ５１４では、第Ｔ－１フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、第Ｔ－１フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得る。

本実施形態では、上記実行主体は、第Ｔ－１フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、第Ｔ－１フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得ることができる。

通常、前景の画素特徴マップと背景の画素特徴マップを特徴チャネル上でグローバルプーリングして、画素スケールの特徴マップをインスタンススケールのプーリングベクトルに変換する。プーリングベクトルは、注意メカニズムに基づいてＣＦＢＩネットワークの協調アンサンブル装置における特徴のチャネルを調整することができる。これにより、ネットワークはインスタンススケールの情報をよりよく取得することができる。

ステップ５１５では、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、第Ｔ－１フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを融合して、融合されたインスタンスレベルの特徴ベクトルを得る。

本実施形態では、上記実行主体は、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、第Ｔ－１フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを融合して、融合されたインスタンスレベルの特徴ベクトルを得ることができる。例えば、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、第Ｔ－１フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを結合することにより、融合されたインスタンスレベルの特徴マップを得ることができる。

ステップ５１６では、第Ｔフレームの低レベルの画素レベルの特徴マップと、融合された画素レベルの特徴ベクトルと、融合されたインスタンスレベルの特徴ベクトルとを、協調アンサンブル装置に入力して、第Ｔフレームの予測されるセグメンテーションアノテーション画像を得る。

本実施形態では、上記実行主体は、第Ｔフレームの低レベルの画素レベルの特徴マップ（ｌｏｗ－ｌｅｖｅｌ－ｆｅａｔｕｒｅ）と、融合された画素レベルの特徴ベクトルと、融合されたインスタンスレベルの特徴ベクトルとを、協調アンサンブル装置に入力して、第Ｔフレームの予測されるセグメンテーションアノテーション画像（ＰｒｅｄｉｃｔｉｏｎＴ）を得ることができる。第Ｔフレームの予測されるセグメンテーションアノテーション画像に基づいて第Ｔフレームをセグメンテーションすることにより、第Ｔフレームにおけるオブジェクトを得ることができる。

前景及び背景の画素レベル及びインスタンスレベルの情報を秘匿形式でまとめて学習するために、高精度予測を達成するように、協調アンサンブル装置を用いてより大きな受信フィールドを構築する。

本開示の実施形態に係るセグメンテーション予測方法は、協調を行うために前景画素から埋め込み学習をするだけでなく、背景画素からも埋め込み学習を行い、前景と背景の特徴を対比させて背景の乱れを緩和することにより、セグメンテーション予測結果の精度を向上させる。前景画素と背景画素の協調で、画素レベルとインスタンスレベルからさらに埋め込みマッチングを行う。画素レベルのマッチングでは、様々なオブジェクト移動速度でのローカルマッチングのロバスト性が向上した。インスタンスレベルのマッチングでは、注意メカニズムが設計されたので、画素レベルのマッチングを効果的に強化できる。ＣＦＢＩネットワークに基づいてネットワーク追跡のアイデアを加えることにより、前後フレーム間の情報をより良く抽出することができる。ＣＦＢＩネットワークに監視信号のレイヤーを追加することと同等であり、抽出された特徴はモデルのニーズをより適切に満足できるため、ネットワークのセグメンテーション効果を向上できる。

なお、特徴を抽出するための方法はＣＦＢＩネットワークに適用できるだけでなく、他のＶＯＳネットワークにも適用でき、ネットワークに埋め込む位置は実際の状況に応じて調整可能である。

理解を助けるために、図６は本開示の実施形態に係るセグメンテーション予測方法を実現可能なシーンの図を示している。図６に示すように、ビデオ中の第１フレーム、第Ｔ－１フレームおよび第ＴフレームをＣＦＢＩネットワーク中のＢａｃｋｂｏｎｅに入力し、第１フレーム、第Ｔ－１フレームおよび第ＴフレームのＰｉｘｅｌ－ｌｅｖｅｌＥｍｂｅｄｄｉｎｇを取得し、第１フレームのＧｒｏｕｎｄｔｒｕｔｈおよび第Ｔ－１フレームのＰｒｅｄｉｃｔｉｏｎＴ－１をＤｏｗｎｓａｍｐｌｅして、第１フレームおよび第Ｔ－１フレームのＭａｓｋを取得する。第Ｔ－１フレームのＰｒｅｄｉｃｔｉｏｎＴ－１のマッピング特徴マップの畳み込みカーネルを用いて第ＴフレームのＰｉｘｅｌ－ｌｅｖｅｌＥｍｂｅｄｄｉｎｇのマッピング特徴マップを畳み込んで、第ＴフレームのＳｃｏｒｅｍａｐを得る。第１フレームのＰｉｘｅｌ－ｌｅｖｅｌＥｍｂｅｄｄｉｎｇを第１フレームのＭａｓｋでＰｉｘｅｌＳｅｐａｒａｔｉｏｎし、第１フレームのＰｉｘｅｌ－ｌｅｖｅｌＦＧおよびＰｉｘｅｌ－ｌｅｖｅｌＢＧを得る。第ＴフレームのＰｉｘｅｌ－ｌｅｖｅｌＥｍｂｅｄｄｉｎｇと、第１フレームのＰｉｘｅｌ－ｌｅｖｅｌＦＧおよびＰｉｘｅｌ－ｌｅｖｅｌＢＧとをＦ－ＧＧｌｏｂａｌＭａｔｃｈｉｎｇして、第Ｔフレームの第１のマッチング特徴マップを得る。第Ｔ－１フレームのＰｉｘｅｌ－ｌｅｖｅｌＥｍｂｅｄｄｉｎｇを第Ｔ－１フレームのＭａｓｋでＰｉｘｅｌＳｅｐａｒａｔｉｏｎし、第Ｔ－１フレームのＰｉｘｅｌ－ｌｅｖｅｌＦＧおよびＰｉｘｅｌ－ｌｅｖｅｌＢＧを得る。第ＴフレームのＰｉｘｅｌ－ｌｅｖｅｌＥｍｂｅｄｄｉｎｇと、第Ｔ－１フレームのＰｉｘｅｌ－ｌｅｖｅｌＦＧおよびＰｉｘｅｌ－ｌｅｖｅｌＢＧとをＦ－ＧＭｕｌｔｉ－ＬｏｃａｌＭａｔｃｈｉｎｇして、第Ｔフレームの第２のマッチング特徴マップを得る。第１フレームと第Ｔ－１フレームのＰｉｘｅｌ－ｌｅｖｅｌＦＧとＰｉｘｅｌ－ｌｅｖｅｌＢＧを特徴チャネル上でグローバルプーリングし、第１フレームと第Ｔ－１フレームのＩｎｓｔａｎｃｅ－ｌｅｖｅｌＦＧとＩｎｓｔａｎｃｅ－ｌｅｖｅｌＢＧを得る。第ＴフレームのＳｃｏｒｅｍａｐと、第１のマッチング特徴マップと、第２のマッチング特徴マップとをｃｏｎｃａｔ演算する。第１フレームと第Ｔ－１フレームのＩｎｓｔａｎｃｅ－ｌｅｖｅｌＦＧとＩｎｓｔａｎｃｅ－ｌｅｖｅｌＢＧを同時にｃｏｎｃａｔ演算する。融合特徴を第Ｔフレームのｌｏｗ－ｌｅｖｅｌ－ｆｅａｔｕｒｅとともにＣｏｌｌａｂｏｒａｔｉｖｅＥｎｓｅｍｂｌｅｒに入力すると、第ＴフレームのＰｒｅｄｉｃｔｉｏｎＴが得られる。

更に図７を参照すると、上記の各図に示された方法の実施態様として、本開示は、特徴を抽出するための装置の一実施形態を提供し、当該装置の実施形態は、図２に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。

図７に示すように、本実施形態の特徴を抽出するための装置７００は、取得モジュール７０１と、マッピングモジュール７０２と、畳み込みモジュール７０３とを備えてもよい。取得モジュール７０１は、ビデオ中の第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップを取得するように構成される（ただし、Ｔは２より大きい正の整数である）。マッピングモジュール７０２は、第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、第Ｔ－１フレームのマッピング特徴マップと第Ｔフレームのマッピング特徴マップとを得るように構成される。畳み込みモジュール７０３は、第Ｔ－１フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Ｔフレームのマッピング特徴マップを畳み込んで、第Ｔフレームのスコアマップを得るように構成される。スコアマップの各点は第Ｔフレームの画素レベルの特徴マップの各位置と、前記第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像との類似度を表す。

本実施形態において、特徴を抽出するための装置７００において、取得モジュール７０１と、マッピングモジュール７０２と、畳み込みモジュール７０３の具体的な処理およびそれらによって奏される技術的効果は、それぞれ図２の対応する実施形態におけるステップ２０１～２０３の関連する説明を参照することができ、ここでその説明を省略する。

本実施形態のいくつかのオプション的な実施形態では、マッピングモジュール７０２は、畳み込みニューラルネットワークにおける畳み込み層とプーリング層を用いて、第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップをそれぞれ予め設定された特徴空間にマッピングするように構成される。

本実施形態のいくつかのオプション的な実施形態では、特徴を抽出するための装置７００は、ビデオ中の参照フレームの画素レベルの特徴マップを取得し、第Ｔフレームの画素レベルの特徴マップと参照フレームの画素レベルの特徴マップとをマッチングして、第Ｔフレームの第１のマッチング特徴マップを得るように構成される第１のマッチングモジュールであって、参照フレームはセグメンテーションアノテーション画像を有する、第１のマッチングモジュールと、第Ｔ－１フレームの画素レベルの特徴マップを取得し、第Ｔフレームの画素レベルの特徴マップと第Ｔ－１フレームの画素レベルの特徴マップとをマッチングして、第Ｔフレームの第２のマッチング特徴マップを得るように構成される第２のマッチングモジュールと、第Ｔフレームのスコアマップと、第１のマッチング特徴マップと、第２のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得るように構成される第１の融合モジュールと、をさらに備える。

本実施形態のいくつかのオプション的な実施形態では、第１のマッチングモジュールは、さらに参照フレームのセグメンテーションアノテーション画像をダウンサンプリングして参照フレームのマスクを得、参照フレームを予めトレーニングされた特徴抽出ネットワークに入力して、参照フレームの画素レベルの特徴マップを得、参照フレームのマスクを用いて参照フレームの画素レベルの特徴マップを画素レベルで分離して、参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得、第Ｔフレームの画素レベルの特徴マップと、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景－背景グローバルマッチングして、第Ｔフレームの第１のマッチング特徴マップを得るように構成される。

本実施形態のいくつかのオプション的な実施形態では、第２のマッチングモジュールは、さらに第Ｔ－１フレームの予測されるセグメンテーションアノテーション画像をダウンサンプリングして第Ｔ－１フレームのマスクを得、第Ｔ－１フレームを予めトレーニングされた特徴抽出ネットワークに入力して、第Ｔ－１フレームの画素レベルの特徴マップを得、第Ｔ－１フレームのマスクを用いて第Ｔ－１フレームの画素レベルの特徴マップを画素レベルで分離し、第Ｔ－１フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得、第Ｔフレームの画素レベルの特徴マップと、第Ｔ－１フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景－背景マルチローカルマッチングして、第Ｔフレームの第２のマッチング特徴マップを得るように構成される。

本実施形態のいくつかのオプション的な実施形態では、特徴を抽出するための装置７００は、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得るように構成される第１のプーリングモジュールと、第Ｔ－１フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、第Ｔ－１フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得るように構成される第２のプーリングモジュールと、参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、第Ｔ－１フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを融合して、融合されたインスタンスレベルの特徴ベクトルを得るように構成される第２の融合モジュールと、をさらに備える。

本実施形態のいくつかのオプション的な実施形態では、特徴を抽出するための装置７００は、第Ｔフレームの低レベルの画素レベルの特徴マップと、融合された画素レベルの特徴ベクトルと、融合されたインスタンスレベルの特徴ベクトルとを協調アンサンブル装置に入力し、第Ｔフレームの予測されるセグメンテーションアノテーション画像を得るように構成される予測モジュールをさらに備える。

本開示の技術方案では、関連するユーザ個人情報の取得、記憶および応用などは、いずれも関連法律法規の規定に準拠し、且つ公序良俗に反しない。

本開示の実施形態によれば、本開示はさらに電子機器、読み取り可能な記憶媒体およびコンピュータプログラムを提供する。

図８は、本開示の実施形態を実施するために使用できる例示的な電子機器８００の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル動作、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および／または要求した本開示の実施形態を限定することを意図するものではない。

図８に示すように、電子機器８００は、読み出し専用メモリ（ＲＯＭ）８０２に記憶されているコンピュータプログラムまたは記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット８０１を備える。ＲＡＭ８０３には、機器８００の動作に必要な様々なプログラムおよびデータがさらに格納されることが可能である。計算ユニット８０１、ＲＯＭ８０２およびＲＡＭ８０３は、バス８０４を介して互いに接続されている。入／出力（Ｉ／Ｏ）インターフェース８０５もバス８０４に接続されている。

電子機器８００において、キーボード、マウスなどの入力ユニット８０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット８０７と、磁気ディスク、光ディスクなどの記憶ユニット８０８と、ネットワークプラグイン、モデム、無線通信送受信機などの通信ユニット８０９とを含む複数のコンポーネントは、Ｉ／Ｏインターフェース８０５に接続されている。通信ユニット８０９は、電子機器８００がインターネットなどのコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。

計算ユニット８０１は、処理及び計算能力を有する様々な汎用および／または専用処理コンポーネントであってもよい。計算ユニット８０１のいくつかの例示として、中央処理装置（ＣＰＵ）、グラフィックスプロセシングユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット８０１は、上述した特徴を抽出するための方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、特徴を抽出するための方法は、記憶ユニット８０８などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ＲＯＭ８０２および／または通信ユニット８０９を介して電子機器８００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ８０３にロードされ、計算ユニット８０１によって実行されると、上述の特徴を抽出するための方法の１つまたは複数のステップを実行可能である。あるいは、他の実施形態では、計算ユニット８０１は、他の任意の適切な方式によって（例えば、ファームウェアを介して）、特徴を抽出するための方法を実行するように構成されてもよい。

ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現することができる。これらの各実施形態は、１つまたは複数のコンピュータプログラムに実装され、当該１つまたは複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および／または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置および少なくとも１つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも１つの入力装置および当該少なくとも１つの出力装置に伝送することを含み得る。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語のあらゆる組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび／またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。

本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納してもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、１本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。

ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置（例えば、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ，ＣＲＴ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。

ここで説明したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバ）に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ）に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）およびインターネットなどを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント－サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。

なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応答して、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本開示の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本開示の保護範囲内に含まれるべきである。

関連出願の相互参照

本開示の実施形態は、特徴を抽出するための方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提出する。

第５の態様では、プロセッサによって実行されると、第１態様のいずれかの実施形態に記載の方法が実行されるコンピュータプログラムを提供する。

ステップ２０１では、ビデオ中の第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップを取得する。

本実施形態では、特徴を抽出するための方法の実行主体（例えば、図１に示すサーバ１０３）は、ビデオ中の第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像（ＰｒｅｄｉｃｔｉｏｎＴ－１）と第Ｔフレームの画素レベルの特徴マップ（Ｐｉｘｅｌ－ｌｅｖｅｌＥｍｂｅｄｄｉｎｇ）を取得することができる。ただし、Ｔは２より大きい正の整数である。

通常、ビデオ採集装置は、そのカメラ範囲内のビデオを採集することができる。ビデオ採集装置のカメラ範囲内にオブジェクトが現れた場合、採集されたビデオにはオブジェクトが存在する。ここで、オブジェクトは、人、動物、植物、建物、物品等を含むがこれらに限定されない、現実世界に存在する任意の有形物であってもよい。第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像は、第Ｔ－１フレームにおけるオブジェクトを分割するための予測されたアノテーション画像であってもよい。例えば、第Ｔ－１フレームにおけるオブジェクトのエッジをアノテートして生成された画像である。また、例えば、第Ｔ－１フレームにおけるオブジェクトのエッジをアノテートして、オブジェクトに属する画素とオブジェクトに属さない画素をそれぞれ異なる画素値に設定して生成された画像である。第Ｔフレームの画素レベルの特徴マップは、特徴抽出ネットワークを用いて画素レベルの特徴抽出を行うことにより得られ、第Ｔフレームが有する画素レベルの特徴を表すために用いられる。

なお、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像は、本開示の実施形態で提供するセグメンテーション予測方法を用いて予測して取得されてもよいし、他のＶＯＳネットワークを用いて予測して取得されてもよく、ここでは特に限定しない。第Ｔフレームの画素レベルの特徴マップを抽出するための特徴抽出ネットワークは、ＣＦＢＩ（ＣｏｌｌａｂｏｒａｔｉｖｅＶｉｄｅｏＯｂｊｅｃｔＳｅｇｍｅｎｔａｔｉｏｎｂｙＦｏｒｅｇｒｏｕｎｄ－ＢａｃｋｇｒｏｕｎｄＩｎｔｅｇｒａｔｉｏｎ，前景と背景の統合による協調的なビデオオブジェクトのセグメンテーション）ネットワーク中のバックボーンネットワーク（Ｂａｃｋｂｏｎｅ）であってもよいし、他のＶＯＳネットワーク中のバックボーンネットワークであってもよく、ここでは特に限定しない。

ステップ２０２では、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第Ｔ－１フレームのマップング特徴マップと第Ｔフレームのマップング特徴マップを得る。

本実施形態では、上記実行主体は、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第Ｔ－１フレームのマップング特徴マップと第Ｔフレームのマップング特徴マップとを得ることができる。ただし、第Ｔ－１フレームのマップング特徴マップと第Ｔフレームのマップング特徴マップは同じ特徴空間にある。例えば、１２７×１２７×３の予測されるオブジェクトセグメンテーションアノテーション画像に対して、特徴のマッピング処理を行うことで、６×６×１２８のマッピング特徴マップを得る。同様に、２５５×２５５×３の画素レベルの特徴マップに対して、特徴のマッピング処理を行うことで、２２×２２×１２８のマップング特徴マップが得られる。

本実施形態のいくつかのオプション的な実施形態では、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップとを、変換行列を用いて一方の特徴空間から他方の特徴空間にマッピングすることにより、第Ｔ－１フレームのマッピング特徴マップと第Ｔフレームのマッピング特徴マップとを得ることができる。ここで、変換行列は、一方の空間から他方の空間に画像をマッピングするために、画像を線形変換することができる。

本実施形態のいくつかのオプション的な実施形態では、上記実行主体は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，畳み込みニューラルネットワーク）における畳み込み層とプーリング層を用いて、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像および第Ｔフレームの画素レベルの特徴マップをそれぞれ予め設定された特徴空間にマッピングすることにより、第Ｔ－１フレームのマッピング特徴マップおよび第Ｔフレームのマッピング特徴マップを得ることができる。ここで、深層学習手法を用いてマッピングを行うことにより、画像に対して線形変換できるだけでなく、非線形変換もできる。異なる畳み込み層とプーリング層を設けることにより、画像を任意の空間にマッピングすることができ、より柔軟性が高い。

本実施形態では、上記実行主体は、第Ｔ－１フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Ｔフレームのマッピング特徴マップを畳み込んで、第Ｔフレームのスコアマップ（Ｓｃｏｒｅｍａｐ）を得ることができる。ここで、スコアマップの各点は、第Ｔフレームの画素レベルの特徴マップの各位置と、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表すことができる。例えば、２２×２２×１２８のマッピング特徴マップを６×６×１２８のマッピング特徴マップの畳み込みカーネル６×６で畳み込んで、１７×１７×１のスコアマップを得る。ここで、１７×１７×１のスコアマップの１点は、２５５×２５５×３の画素レベルの特徴マップの１５×１５×３の領域と１２７×１２７×３の予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表すことができる。スコアマップの１点は、画素レベルの特徴マップの１５×１５×３の領域に対応する。

理解を助けるために、図３には本開示の実施形態に係る特徴を抽出するための方法を実現可能なシーンの図を示す。図３に示すように、ｚは第Ｔ－１フレームの１２７×１２７×３の予測されるオブジェクトセグメンテーションアノテーション画像を表す。ｘは、第Ｔフレームの２５５×２５５×３の画素レベルの特徴マップを表す。φは、原画像を特定の特徴空間、ここではＣＮＮにおける畳み込み層およびプーリング層にマッピングするための特徴マッピング処理を表す。ｚはφを経て、６×６×１２８のマッピング特徴マップを得る。同様に、ｘはφを経て、２２×２２×１２８のマッピング特徴マップを得る。＊は、畳み込み処理を表し、２２×２２×１２８のマッピング特徴マップを６×６×１２８のマッピング特徴マップの畳み込みカーネル６×６で畳み込んで、１７×１７×１のスコアマップを得る。１７×１７×１のスコアマップの１点は、２５５×２５５×３の画素レベルの特徴マップの１５×１５×３の領域と、１２７×１２７×３の予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表すことができる。スコアマップの１点は、画素レベルの特徴マップの１５×１５×３の領域に対応する。

ステップ４０１では、ビデオ中の第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップを取得する。

ステップ４０２では、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第Ｔ－１フレームのマップング特徴マップと第Ｔフレームのマップング特徴マップを得る。

本実施形態において、特徴を抽出するための方法の実行主体（例えば、図１に示すサーバ１０３）は、ビデオ中の参照フレームの画素レベルの特徴マップを）取得し、第Ｔフレームの画素レベルの特徴マップと参照フレームの画素レベルの特徴マップとをマッチングして、第Ｔフレームの第１のマッチング特徴マップを得ることができる。ここで、参照フレームは、オブジェクトセグメンテーションアノテーション画像を有し、通常、ビデオ中の第１のフレームである。参照フレーム中のオブジェクトにセグメンテーションのアノテーションを行うと、参照フレームのオブジェクトセグメンテーションアノテーション画像が得られる。ここでのセグメンテーションアノテーションは、通常、人手によるセグメンテーションのアノテーションである。

ステップ５０１では、ビデオ中の第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップを取得する。

ステップ５０２では、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップに対してそれぞれ特徴をマッピングし、第Ｔ－１フレームのマップング特徴マップと第Ｔフレームのマップング特徴マップを得る。

ステップ５０４では、参照フレームのオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして参照フレームのマスクを得る。

本実施形態では、特徴を抽出するための方法の実行主体（例えば、図１に示すサーバ１０３）が参照フレームのオブジェクトセグメンテーションアノテーション画像（Ｇｒｏｕｎｄｔｒｕｔｈ）をダウンサンプリング（Ｄｏｗｎｓａｍｐｌｅ）して参照フレームのマスクを得ることができる。

ここで、参照フレームのオブジェクトセグメンテーションアノテーション画像は、参照フレームにおけるオブジェクトのエッジをアノテートして、オブジェクトに属する画素とオブジェクトに属さない画素をそれぞれ異なる画素値に設定して生成された画像であってもよい。例えば、オブジェクトに属する画素を１とし、オブジェクトに属さない画素を０とする。また、例えば、オブジェクトに属する画素を０とし、オブジェクトに属さない画素を１とする。ダウンサンプリングとは、画像を縮小することであって、表示領域の大きさに合わせて画像を生成し、対応する画像のサムネイルを生成することが主な目的である。ダウンサンプリングの原理は、サイズＭ＊Ｎの画像に対して、画像のｓ＊ｓウィンドウ内の領域を１画素（その値は、通常、画素点の値であり、ウィンドウ内の全ての画素の平均値である）にして、（Ｍ／ｓ）＊（Ｎ／ｓ）サイズの画像を得ることである。ここで、Ｍ、Ｎ、ｓは正の整数であり、ｓはＭとＮの公約数である。参照フレームのマスクは、参照フレームの画素レベルの特徴マップから関心領域を抽出するために用いることができる。例えば、参照フレームのマスクと参照フレームの画素レベルの特徴マップとをＡＮＤ演算することにより、関心領域の画像を得ることができる。ここで、関心領域の画像は、前景又は背景のいずれか一方のみを含む。

ステップ５０８では、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像をダウンサンプリングし、第Ｔ－１フレームのマスクを得る。

本実施形態では、上記実行主体は第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして第Ｔ－１フレームのマスクを得ることができる。

ここで、第Ｔ－１フレームのセグメンテーションアノテーション画像は、第Ｔ－１フレームにおけるオブジェクトのエッジをアノテートして、オブジェクトに属する画素とオブジェクトに属さない画素とをそれぞれ異なる画素値に設定して生成された画像であってもよい。例えば、オブジェクトに属する画素を１とし、オブジェクトに属さない画素を０とする。また、例えば、オブジェクトに属する画素を０とし、オブジェクトに属さない画素を１とする。第Ｔ－１フレームのマスクは、第Ｔ－１フレームの画素レベルの特徴マップから関心領域を抽出するために用いることができる。例えば、第Ｔ－１フレームのマスクと第Ｔ－１フレームの画素レベルの特徴マップとをＡＮＤ演算すると、関心領域の画像を得ることができる。ここで、関心領域の画像は、前景又は背景のいずれか一方のみを含む。

通常、前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、画素スケールの特徴マップをインスタンススケールのプーリングベクトルに変換する。プーリングベクトルは、注意メカニズムに基づいてＣＦＢＩネットワークの協調アンサンブル装置（ＣｏｌｌａｂｏｒａｔｉｖｅＥｎｓｅｍｂｌｅｒ）における特徴のチャネルを調整する。これにより、ネットワークはインスタンススケールの情報をよりよく取得することができる。

通常、前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、画素スケールの特徴マップをインスタンススケールのプーリングベクトルに変換する。プーリングベクトルは、注意メカニズムに基づいてＣＦＢＩネットワークの協調アンサンブル装置における特徴のチャネルを調整することができる。これにより、ネットワークはインスタンススケールの情報をよりよく取得することができる。

ステップ５１６では、第Ｔフレームの低レベルの画素レベルの特徴マップと、融合された画素レベルの特徴ベクトルと、融合されたインスタンスレベルの特徴ベクトルとを、協調アンサンブル装置に入力して、第Ｔフレームの予測されるオブジェクトセグメンテーションアノテーション画像を得る。

本実施形態では、上記実行主体は、第Ｔフレームの低レベルの画素レベルの特徴マップ（ｌｏｗ－ｌｅｖｅｌ－ｆｅａｔｕｒｅ）と、融合された画素レベルの特徴ベクトルと、融合されたインスタンスレベルの特徴ベクトルとを、協調アンサンブル装置に入力して、第Ｔフレームの予測されるオブジェクトセグメンテーションアノテーション画像（ＰｒｅｄｉｃｔｉｏｎＴ）を得ることができる。第Ｔフレームの予測されるオブジェクトセグメンテーションアノテーション画像に基づいて第Ｔフレームをセグメンテーションすることにより、第Ｔフレームにおけるオブジェクトを得ることができる。

図７に示すように、本実施形態の特徴を抽出するための装置７００は、取得モジュール７０１と、マッピングモジュール７０２と、畳み込みモジュール７０３とを備えてもよい。取得モジュール７０１は、ビデオ中の第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップを取得するように構成される（ただし、Ｔは２より大きい正の整数である）。マッピングモジュール７０２は、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、第Ｔ－１フレームのマッピング特徴マップと第Ｔフレームのマッピング特徴マップとを得るように構成される。畳み込みモジュール７０３は、第Ｔ－１フレームのマッピング特徴マップの畳み込みカーネルを用いて、第Ｔフレームのマッピング特徴マップを畳み込んで、第Ｔフレームのスコアマップを得るように構成される。スコアマップの各点は第Ｔフレームの画素レベルの特徴マップの各位置と、前記第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表す。

本実施形態のいくつかのオプション的な実施形態では、マッピングモジュール７０２は、畳み込みニューラルネットワークにおける畳み込み層とプーリング層を用いて、第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップをそれぞれ予め設定された特徴空間にマッピングするように構成される。

本実施形態のいくつかのオプション的な実施形態では、特徴を抽出するための装置７００は、ビデオ中の参照フレームの画素レベルの特徴マップを取得し、第Ｔフレームの画素レベルの特徴マップと参照フレームの画素レベルの特徴マップとをマッチングして、第Ｔフレームの第１のマッチング特徴マップを得るように構成される第１のマッチングモジュールであって、参照フレームはオブジェクトセグメンテーションアノテーション画像を有する、第１のマッチングモジュールと、第Ｔ－１フレームの画素レベルの特徴マップを取得し、第Ｔフレームの画素レベルの特徴マップと第Ｔ－１フレームの画素レベルの特徴マップとをマッチングして、第Ｔフレームの第２のマッチング特徴マップを得るように構成される第２のマッチングモジュールと、第Ｔフレームのスコアマップと、第１のマッチング特徴マップと、第２のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得るように構成される第１の融合モジュールと、をさらに備える。

本実施形態のいくつかのオプション的な実施形態では、第１のマッチングモジュールは、さらに参照フレームのオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして参照フレームのマスクを得、参照フレームを予めトレーニングされた特徴抽出ネットワークに入力して、参照フレームの画素レベルの特徴マップを得、参照フレームのマスクを用いて参照フレームの画素レベルの特徴マップを画素レベルで分離して、参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得、第Ｔフレームの画素レベルの特徴マップと、参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景－背景グローバルマッチングして、第Ｔフレームの第１のマッチング特徴マップを得るように構成される。

本実施形態のいくつかのオプション的な実施形態では、第２のマッチングモジュールは、さらに第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして第Ｔ－１フレームのマスクを得、第Ｔ－１フレームを予めトレーニングされた特徴抽出ネットワークに入力して、第Ｔ－１フレームの画素レベルの特徴マップを得、第Ｔ－１フレームのマスクを用いて第Ｔ－１フレームの画素レベルの特徴マップを画素レベルで分離し、第Ｔ－１フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得、第Ｔフレームの画素レベルの特徴マップと、第Ｔ－１フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景－背景マルチローカルマッチングして、第Ｔフレームの第２のマッチング特徴マップを得るように構成される。

本実施形態のいくつかのオプション的な実施形態では、特徴を抽出するための装置７００は、第Ｔフレームの低レベルの画素レベルの特徴マップと、融合された画素レベルの特徴ベクトルと、融合されたインスタンスレベルの特徴ベクトルとを協調アンサンブル装置に入力し、第Ｔフレームの予測されるオブジェクトセグメンテーションアノテーション画像を得るように構成される予測モジュールをさらに備える。

Claims

特徴を抽出するための方法であって、
ビデオ中の第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップを取得するステップ（ただし、Ｔは２より大きい正の整数である）と、
前記第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と前記第Ｔフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、前記第Ｔ－１フレームのマッピング特徴マップと前記第Ｔフレームのマッピング特徴マップを得るステップと、
前記第Ｔ－１フレームのマッピング特徴マップの畳み込みカーネルを用いて、前記第Ｔフレームのマッピング特徴マップを畳み込んで、前記第Ｔフレームのスコアマップを得るステップであって、前記スコアマップの各点は前記第Ｔフレームの画素レベルの特徴マップの各位置と、前記第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表す、ステップと、
を含む方法。
前記第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と前記第Ｔフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングするステップは、
畳み込みニューラルネットワークにおける畳み込み層とプーリング層を用いて、前記第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と前記第Ｔフレームの画素レベルの特徴マップをそれぞれ予め設定された特徴空間にマッピングするステップを含む請求項１に記載の方法。
前記ビデオ中の参照フレームの画素レベルの特徴マップを取得し、前記第Ｔフレームの画素レベルの特徴マップと前記参照フレームの画素レベルの特徴マップとをマッチングして、前記第Ｔフレームの第１のマッチング特徴マップを得るステップであって、前記参照フレームはオブジェクトセグメンテーションのアノテーション画像を有する、ステップと、
前記第Ｔ－１フレームの画素レベルの特徴マップを取得し、前記第Ｔフレームの画素レベルの特徴マップと前記第Ｔ－１フレームの画素レベルの特徴マップとをマッチングして、前記第Ｔフレームの第２のマッチング特徴マップを得るステップと、
前記第Ｔフレームのスコアマップと、第１のマッチング特徴マップと、第２のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得るステップと、をさらに含む請求項１または２に記載の方法。
前記ビデオにおける参照フレームの画素レベルの特徴マップを取得し、前記第Ｔフレームの画素レベルの特徴マップと前記参照フレームの画素レベルの特徴マップとをマッチングして、前記第Ｔフレームの第１のマッチング特徴マップを得るステップは、
前記参照フレームのオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして前記参照フレームのマスクを得るステップと、
前記参照フレームを予めトレーニングされた特徴抽出ネットワークに入力して、前記参照フレームの画素レベルの特徴マップを得るステップと、
前記参照フレームのマスクを用いて前記参照フレームの画素レベルの特徴マップを画素レベルで分離して、前記参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得るステップと、
前記第Ｔフレームの画素レベルの特徴マップと、前記参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景－背景グローバルマッチングして、前記第Ｔフレームの第１のマッチング特徴マップを得るステップと、を含む請求項３に記載の方法。
前記第Ｔ－１フレームの画素レベルの特徴マップを取得し、前記第Ｔフレームの画素レベルの特徴マップと前記第Ｔ－１フレームの画素レベルの特徴マップとをマッチングして、前記第Ｔフレームの第２のマッチング特徴マップを得るステップは、
前記第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして前記第Ｔ－１フレームのマスクを得るステップと、
前記第Ｔ－１フレームを予めトレーニングされた特徴抽出ネットワークに入力して、前記第Ｔ－１フレームの画素レベルの特徴マップを得るステップと、
前記第Ｔ－１フレームのマスクを用いて前記第Ｔ－１フレームの画素レベルの特徴マップを画素レベルで分離し、前記第Ｔ－１フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得るステップと、
前記第Ｔフレームの画素レベルの特徴マップと、前記第Ｔ－１フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景－背景マルチローカルマッチングして、前記第Ｔフレームの第２のマッチング特徴マップを得るステップと、
を含む請求項４に記載の方法。
前記参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、前記参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得るステップと、
前記第Ｔ－１フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、前記第Ｔ－１フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得るステップと、
前記参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、前記第Ｔ－１フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを融合して、融合されたインスタンスレベルの特徴ベクトルを得るステップと、
をさらに含む請求項５に記載の方法。
前記第Ｔフレームの低レベルの画素レベルの特徴マップと、前記融合された画素レベルの特徴ベクトルと、前記融合されたインスタンスレベルの特徴ベクトルとを協調アンサンブル装置に入力して、前記第Ｔフレームの予測されるオブジェクトセグメンテーションアノテーション画像を得るステップをさらに含む請求項６に記載の方法。
特徴を抽出するための装置であって、
ビデオ中の第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と第Ｔフレームの画素レベルの特徴マップを取得するように構成される取得モジュール（ただし、Ｔは２より大きい正の整数である）と、
前記第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と前記第Ｔフレームの画素レベルの特徴マップとをそれぞれ特徴マッピングして、前記第Ｔ－１フレームのマッピング特徴マップと前記第Ｔフレームのマッピング特徴マップとを得るように構成されるマッピングモジュールと、
前記第Ｔ－１フレームのマッピング特徴マップの畳み込みカーネルを用いて、前記第Ｔフレームのマッピング特徴マップを畳み込んで、前記第Ｔフレームのスコアマップを得るように構成される畳み込みモジュールであって、前記スコアマップの各点は前記第Ｔフレームの画素レベルの特徴マップの各位置と、前記第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像との類似度を表す、畳み込みモジュールと、を備える装置。
前記マッピングモジュールは、さらに
畳み込みニューラルネットワークにおける畳み込み層とプーリング層を用いて、前記第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像と前記第Ｔフレームの画素レベルの特徴マップをそれぞれ予め設定された特徴空間にマッピングするように構成される、
請求項８に記載の装置。
前記ビデオ中の参照フレームの画素レベルの特徴マップを取得し、前記第Ｔフレームの画素レベルの特徴マップと前記参照フレームの画素レベルの特徴マップとをマッチングして、前記第Ｔフレームの第１のマッチング特徴マップを得るように構成される第１のマッチングモジュールであって、前記参照フレームはオブジェクトセグメンテーションアノテーション画像を有する、第１のマッチングモジュールと、
前記第Ｔ－１フレームの画素レベルの特徴マップを取得し、前記第Ｔフレームの画素レベルの特徴マップと前記第Ｔ－１フレームの画素レベルの特徴マップとをマッチングして、前記第Ｔフレームの第２のマッチング特徴マップを得るように構成される第２のマッチングモジュールと、
前記第Ｔフレームのスコアマップと、第１のマッチング特徴マップと、第２のマッチング特徴マップとを融合して、融合された画素レベルの特徴マップを得るように構成される第１の融合モジュールと、
をさらに備える請求項８または９に記載の装置。
前記第１のマッチングモジュールは、さらに
前記参照フレームのオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして前記参照フレームのマスクを得、
前記参照フレームを予めトレーニングされた特徴抽出ネットワークに入力して、前記参照フレームの画素レベルの特徴マップを得、
前記参照フレームのマスクを用いて前記参照フレームの画素レベルの特徴マップを画素レベルで分離して、前記参照フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得、
前記第Ｔフレームの画素レベルの特徴マップと、前記参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景－背景グローバルマッチングして、前記第Ｔフレームの第１のマッチング特徴マップを得るように構成される、
請求項１０に記載の装置。
前記第２のマッチングモジュールは、さらに
前記第Ｔ－１フレームの予測されるオブジェクトセグメンテーションアノテーション画像をダウンサンプリングして前記第Ｔ－１フレームのマスクを得、
前記第Ｔ－１フレームを予めトレーニングされた特徴抽出ネットワークに入力して、前記第Ｔ－１フレームの画素レベルの特徴マップを得、
前記第Ｔ－１フレームのマスクを用いて前記第Ｔ－１フレームの画素レベルの特徴マップを画素レベルで分離し、前記第Ｔ－１フレームにおける前景の画素レベルの特徴マップと背景の画素レベルの特徴マップを得、
前記第Ｔフレームの画素レベルの特徴マップと、前記第Ｔ－１フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップとを前景－背景マルチローカルマッチングして、前記第Ｔフレームの第２のマッチング特徴マップを得るように構成される、
請求項１１に記載の装置。
前記参照フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、前記参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得るように構成される第１のプーリングモジュールと、
前記第Ｔ－１フレームにおける前景の画素レベルの特徴マップ及び背景の画素レベルの特徴マップを特徴チャネル上でグローバルプーリングして、前記第Ｔ－１フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルを得るように構成される第２のプーリングモジュールと、
前記参照フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルと、前記第Ｔ－１フレームにおける前景のインスタンスレベルの特徴ベクトル及び背景のインスタンスレベルの特徴ベクトルとを融合して、融合されたインスタンスレベルの特徴ベクトルを得るように構成される第２の融合モジュールと、
をさらに備える請求項１２に記載の装置。
前記第Ｔフレームの低レベルの画素レベルの特徴マップと、前記融合された画素レベルの特徴ベクトルと、前記融合されたインスタンスレベルの特徴ベクトルとを協調アンサンブル装置に入力して、前記第Ｔフレームの予測されるオブジェクトセグメンテーションアノテーション画像を得るように構成される予測モジュールをさらに備える請求項１３に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な指令が記憶され、前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１～７のいずれか１項に記載の方法を実行させる、電子機器。
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令は前記コンピュータに請求項１～７のいずれか１項に記載の方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１～７のいずれか１項に記載の方法が実現されるコンピュータプログラムを含むコンピュータプログラム製品。