JP7372487B2

JP7372487B2 - オブジェクトセグメンテーション方法、オブジェクトセグメンテーション装置及び電子機器

Info

Publication number: JP7372487B2
Application number: JP2022581655A
Authority: JP
Inventors: ウェンフアハン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-12-08
Publication date: 2023-10-31
Anticipated expiration: 2041-12-08
Also published as: JP2023535672A; KR20220129093A

Description

関連出願の相互参照

本開示は、出願番号が「２０２１１０７３６１６６.Ｘ」であり、出願日が２０２１年０６月３０日である中国特許出願に基づいて提出されたものであり、この中国特許出願の全ての内容が、参照により本明細書に組み込まれる。

本開示は、人工知能の分野に関し、特にコンピュータビジョンおよび深層学習技術に関し、具体的には、スマートシティやスマートトラフィックのシナリオで使用することができ、特にオブジェクトセグメンテーション方法、オブジェクトセグメンテーション装置及び電子機器に関する。

人工知能関連技術の開発と応用に伴い、ますます多くの分野が知能化、自動化技術に対する大な需要を示しており、そのうちショートビデオ分野はその１つである。ショートビデオの分野では、ビデオオブジェクトセグメンテーション方法の使用の見通しが非常に良く、ビデオ内の指定オブジェクトの削除や背景のぼかしなどは、すべてビデオオブジェクトセグメンテーション方法に大きく依存している。したがって、ビデオオブジェクトセグメンテーション方法の発展は、ショートビデオ処理の知能化および特殊効果処理などにとって非常に重要である。

しかしながら、従来のビデオオブジェクトセグメンテーション方法では、ターゲットオブジェクトを検出する精度が低く、現在、ターゲットオブジェクトをより正確に検出することができるビデオオブジェクトセグメンテーション方法がない。

本開示は、オブジェクトセグメンテーション方法、オブジェクトセグメンテーション装置、電子機器及び記憶媒体を提供する。

本開示の第１の態様によれば、
識別対象ビデオから識別対象フレーム、前記識別対象フレームの前のフレーム、および参照フレームを生成するステップであって、前記参照フレームは、前記識別対象ビデオの第１のフレームであるステップと、
前記識別対象フレーム、前記前のフレーム、および前記参照フレームを符号化ネットワークに入力して、識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成するステップと、
前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関行列および第２の相関行列を生成するステップと、
前記第１の相関行列、第２の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関特徴マップおよび第２の相関特徴マップを生成するステップと、
前記第１の相関特徴マップ、前記第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成するステップと、を含む、オブジェクトセグメンテーション方法が提供される。

選択可能に、前記識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成するステップは、
前記識別対象フレームの特徴、前記前のフレームの特徴、および前記参照フレームの特徴を抽出して、識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成するステップと、
前記参照フレームの特徴マップと前記参照フレームのターゲットオブジェクトマスクとに基づいて、参照フレームのターゲットオブジェクト特徴マップを生成するステップと、
前記前のフレームの特徴マップと前記前のフレームのターゲットオブジェクトマスクとに基づいて、前記前のフレームのターゲットオブジェクト特徴マップを生成するステップと、を含む。

選択可能に、前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関行列および第２の相関行列を生成するステップは、
前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第１の相関行列を生成するステップと、
前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第２の相関行列を生成するステップと、を含む。

選択可能に、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第１の相関行列を生成するステップは、
前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、参照相関行列を生成するステップと、
前記参照相関行列を正規化して、第２の参照相関行列を生成するステップと、
第２の参照相関行列の各行の参照値を生成し、前記参照値に基づいて前記第１の相関行列を生成するステップであって、前記参照値は同じ行内の他の値よりも大きいステップと、を含む。

選択可能に、前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第２の相関行列を生成するステップは、
前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成するステップと、
前記前のフレーム相関行列を正規化して、第２の前のフレーム相関行列を生成するステップと、
第２の前のフレーム相関行列の各行の参照値を生成し、前記参照値に基づいて前記第２の相関行列を生成するステップであって、前記参照値は同じ行内の他の値よりも大きいステップと、を含む。

選択可能に、前記第１の相関行列、第２の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関特徴マップおよび第２の相関特徴マップを生成するステップは、
前記第１の相関行列に前記参照フレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第１の相関特徴マップを生成するステップと、
前記第２の相関行列に前記前のフレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第２の相関特徴マップを生成するステップと、を含む。

選択可能に、前記第１の相関特徴マップ、前記第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成するステップは、
前記第１の相関特徴マップ、第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するステップと、
前記融合特徴マップを復号化ネットワークに入力して、現在のフレームのオブジェクトセグメンテーション画像を生成するステップと、を含む。

選択可能に、前記第１の相関特徴マップ、第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するステップは、
前記第１の相関特徴マップ、前記第２の相関特徴マップ、および前記識別対象フレームの特徴マップを連結することにより、前記融合特徴マップを生成するステップを含む。

本開示の第２の態様によれば、
識別対象ビデオから識別対象フレーム、前記識別対象フレームの前のフレーム、および参照フレームを生成するように構成されるビデオフレーム生成モジュールであって、前記参照フレームは、前記識別対象ビデオの第１のフレームであるビデオフレーム生成モジュールと、
前記識別対象フレーム、前記前のフレーム、および前記参照フレームを符号化ネットワークに入力して、識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成するように構成される特徴抽出モジュールと、
前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関行列および第２の相関行列を生成するように構成される相関行列生成モジュールと、
前記第１の相関行列、第２の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関特徴マップおよび第２の相関特徴マップを生成するように構成される特徴マップ生成モジュールと、
前記第１の相関特徴マップ、前記第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成するように構成されるオブジェクトセグメンテーションモジュールと、を含む、オブジェクトセグメンテーション装置を提供される。

選択可能に、前記特徴抽出モジュールは、
前記識別対象フレームの特徴、前記前のフレームの特徴、および前記参照フレームの特徴を抽出して、識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成するように構成される特徴抽出サブモジュールと、
前記参照フレームの特徴マップと前記参照フレームのターゲットオブジェクトマスクとに基づいて、参照フレームのターゲットオブジェクト特徴マップを生成するように構成される第１のマスクサブモジュールと、
前記前のフレームの特徴マップと前記前のフレームのターゲットオブジェクトマスクとに基づいて、前記前のフレームのターゲットオブジェクト特徴マップを生成するように構成される第２のマスクサブモジュールと、を含む。

選択可能に、前記相関行列生成モジュールは、
前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第１の相関行列を生成するように構成される第１の相関行列生成サブモジュールと、
前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第２の相関行列を生成するように構成される第２の相関行列生成サブモジュールと、を含む。

選択可能に、前記第１の相関行列生成サブモジュールは、
前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、参照相関行列を生成するように構成される参照相関行列生成ユニットと、
前記参照相関行列を正規化して、第２の参照相関行列を生成するように構成される第２の参照相関行列生成ユニットと、
第２の参照相関行列の各行の参照値を生成し、前記参照値に基づいて前記第１の相関行列を生成するように構成される第１の相関行列生成ユニットであって、前記参照値は同じ行内の他の値よりも大きい第１の相関行列生成ユニットと、を含む。

選択可能に、前記第２の相関行列生成サブモジュールは、
前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成するように構成される前のフレーム相関行列生成ユニットと、
前記前のフレーム相関行列を正規化して、第２の前のフレーム相関行列を生成するように構成される第２の前のフレーム相関行列生成ユニットと、
第２の前のフレーム相関行列の各行の参照値を生成し、前記参照値に基づいて前記第２の相関行列を生成するように構成される第２の相関行列生成ユニットであって、前記参照値は同じ行内の他の値よりも大きい第２の相関行列生成ユニットと、を含む。

選択可能に、前記特徴マップ生成モジュールは、
前記第１の相関行列に前記参照フレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第１の相関特徴マップを生成するように構成される第１の相関特徴マップ生成サブモジュールと、
前記第２の相関行列に前記前のフレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第２の相関特徴マップを生成するように構成される第２の相関特徴マップ生成サブモジュールと、を含む。

選択可能に、前記オブジェクトセグメンテーションモジュールは、
前記第１の相関特徴マップ、第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するように構成される特徴融合サブモジュールと、
前記融合特徴マップを復号化ネットワークに入力して、現在のフレームのオブジェクトセグメンテーション画像を生成するように構成される復号化サブモジュールと、を含む。

選択可能に、前記特徴融合サブモジュールは、
前記第１の相関特徴マップ、前記第２の相関特徴マップ、および前記識別対象フレームの特徴マップを連結することにより、前記融合特徴マップを生成するように構成される特徴融合ユニットを含む。

本開示の第３の態様によれば、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサが上記第１の態様のいずれか１項に記載の方法を実行できる、電子機器が提供される。

本開示の第４の態様によれば、コンピュータに上記第１の態様のいずれか１項に記載の方法を実行させるためのコンピュータ命令を記憶した、非一時的なコンピュータ読み取り可能な記憶媒体が提供される。

本開示の第５の態様によれば、プロセッサによって実行される場合、上記第１の態様のいずれか１項に記載の方法を実現する、コンピュータプログラムが提供される。

本開示の実施例は以下の有益な効果を有する。

ターゲットオブジェクトのみを含む、参照フレームの特徴マップと前のフレームの特徴マップとに基づいて、識別対象フレームの特徴マップとの相関行列を取得するため、アテンションがターゲットオブジェクトに集中され、ターゲットオブジェクトの識別精度が向上する。

なお、この概要部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本出願の他の特徴は下記の明細書の記載を通して理解しやすくなる。
図面は、本出願をより良く理解するためのものであり、本開示を限定するものではない。

本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。本開示の実施例のオブジェクトセグメンテーション方法を実現するための電子機器のブロック図である。本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。

以下、図面と組み合わせて本出願の例示的な実施例を説明する。理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

従来のビデオオブジェクトセグメンテーション方法では、ビデオ内に指定されたオブジェクトが遮蔽されているという解決しにくい問題があり、オブジェクトが遮蔽されてから再度に現れると、ターゲットオブジェクトのセグメンテーションが誤ることになるため、本開示は、ビデオオブジェクトセグメンテーション領域において、ターゲットオブジェクトが遮蔽されてから再度現れると、ターゲットオブジェクトのセグメンテーションが誤る可能性があることに基づいてなされたものである。従来の一般的な解決策では、このような遮蔽の問題に対応するための熟成した方法はない。

一般的な方法は、履歴フレームの情報を読み取り、履歴フレーム内の前記ターゲットオブジェクトのすべての出現位置のベクトルを抽出することによってインスタンスアテンション（ｉｎｓｔａｎｃｅａｔｔｅｎｔｉｏｎ）を生成することですが、この方法では、抽出されたターゲットベクトルを加算し、（ｃ，ｈ，ｗ）のベクトルを（ｃ，１，１）のベクトルに圧縮し、その後、（ｃ，１，１）のベクトルをネットワークに追加して、ネットワークのオブジェクトセグメンテーションを支援する。このようにすることで、オブジェクト遮蔽の問題はある程度解決することができるが、この方法が処理時に、抽出されたベクトルを（ｃ，１，１）に圧縮した後、このオブジェクトのすべての位置、形状、および隣接するベクトルの相関性などの関連情報は失われるため、この方法にはまだ大きな改善の余地がある。

図１は、本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。図１に示すように、前記オブジェクトセグメンテーション方法は、ステップ１０１～１０５を含む。

ステップ１０１では、識別対象ビデオから識別対象フレーム、前記識別対象フレームの前のフレーム、および参照フレームを生成し、前記参照フレームは、前記識別対象ビデオの第１のフレームである。

本開示は、スマートシティおよびスマートトラフィックのシナリオで使用することができ、スマートシティは、情報および通信技術手段を使用して、都市の運用コアシステムの各重要な情報を知覚、分析、および統合する。スマートシティの構築には、モノのインターネットやモバイルテクノロジーに代表されるクラウドコンピューティングなどの次世代の情報技術の応用を通じて、包括的な認識、ユビキタス相互接続、ユビキタスコンピューティング、融合応用を実現する必要がある。スマートシティの重要な知覚情報は、防犯カメラによって取得されたビデオ情報である。

本実施例では、前記ビデオ情報をさらにマイニングすることができ、まず、カメラによって識別対象ビデオが収集され、フレームの１つが識別対象フレームとして選択される。本開示は、履歴フレーム、すなわち、前記識別対象フレームの前のフレームおよび参照フレームを利用して、前記識別対象フレーム内のターゲットオブジェクトの特徴を強化し、前記前のフレームは、前記識別対象フレームに隣接する前のフレームであり、前記参照フレームは、前記識別対象ビデオの第１のフレームである。

ステップ１０２では、前記識別対象フレーム、前記前のフレーム、および前記参照フレームを符号化ネットワークに入力して、識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成する。

前記符号化ネットワークは、ニューラルネットワークのエンコーダであり、前記符号化ネットワークは、前記識別対象フレーム、識別対象フレーム、および前記参照フレームをダウンサンプリングして、前記識別対象フレーム、前記前のフレーム、および参照フレームの高次元の特徴を抽出するために使用される。即ち、前記識別対象フレームの特徴マップを生成する。

同時に、後続で相関行列を取得するために、本開示では、前記前のフレームおよび前記参照フレームに対応するターゲットオブジェクトマスクを使用して、前記参照フレームのターゲットオブジェクト特徴マップおよび前のフレームのターゲットオブジェクト特徴マップを取得する。

ステップ１０３では、前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関行列および第２の相関行列を生成する。

相関行列は、相関性行列（ｃｏｒｒｅｌａｔｉｏｎｍａｔｒｉｘ）とも呼ばれ、パラダイムであり、行列の各要素は、特徴マップ（ｆｅａｔｕｒｅｍａｐ）のローカル特徴ベクトルと、別の特徴マップのローカル特徴ベクトルの間の相関性を特徴づけるために使用され、通常は２つのローカル特徴ベクトルのドット積で表される。サイズがＨ*Ｗ*ｄである２つの特徴マップの相関行列のサイズは（Ｈ*Ｗ）*（Ｈ*Ｗ）であり、ここで、Ｈは高さ、Ｗは幅、ｄはチャネルの数である。相関性は、特徴の一致度を判断するための根拠であり、特徴は、さまざまなタスクに応じてさまざまな表現を持ち、通常、形状、色、およびテクスチャに基づく意味的特徴である。

本開示は、前記相関行列を使用して、前記参照フレームのターゲットオブジェクト特徴マップ内のピクセルおよび前記前のフレームのターゲットオブジェクト特徴マップ内のピクセルと、前記識別対象フレームの特徴マップ内のピクセルとの相関度を特徴付け、前記識別対象フレームの特徴マップ内のピクセルに対応する特徴ベクトルと、前記参照フレームのターゲットオブジェクト特徴マップ内のピクセルに対応する特徴ベクトルおよび前記前のフレームのターゲットオブジェクト特徴マップ内のピクセルに対応する特徴ベクトルとの相関性が強いほど、前記識別対象フレームの特徴マップ内のピクセルが前記ターゲットオブジェクトのピクセルである可能性が高いことを表す。

ステップ１０４では、前記第１の相関行列、第２の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関特徴マップおよび第２の相関特徴マップを生成する。

前記第１の相関行列、第２の相関行列、および前記識別対象フレームの特徴マップに基づいて、前記識別対象フレームのオブジェクト特徴マップを生成することができ、前記相関行列に基づいて、前記識別対象フレームの特徴マップの特徴を強化することにより、前記ターゲットオブジェクトの検出精度を向上させることができる。

ステップ１０５では、前記第１の相関特徴マップ、前記第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成する。

前記第１の相関特徴マップの分布および前記第２の相関特徴マップの分布に、前記識別対象フレームの特徴マップ内のピクセルをそれぞれポイントツーポイントで乗算することにより、第１の相関特徴マップおよび第２の相関特徴マップを生成することができる。前記第１の相関特徴マップ、第２の相関特徴マップ、および前記識別対象フレームの特徴マップの連結ｃｏｎｃａｔを実行し、ターゲットオブジェクトに関連するピクセルの特徴を強化して、融合特徴マップを生成する。

前記融合特徴マップをデコーダに入力して、前記オブジェクトセグメンテーション画像を取得することができ、前記デコーダは、アップサンプリングに使用され、前記オブジェクトセグメンテーション画像を、前記識別対象フレームのサイズに復元する。前記識別対象フレーム内のターゲットオブジェクトに属するピクセルを取得する。

図２は、本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。図２に示すように、前記オブジェクトセグメンテーション方法は、ステップ２０１～２０３を含む。

ステップ２０１では、前記識別対象フレームの特徴、前記前のフレームの特徴、および前記参照フレームの特徴を抽出して、前記識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成する。

本開示は、ニューラルネットワークを使用して、前記識別対象フレームの特徴、前記前のフレームの特徴、および前記参照フレームの特徴を抽出して、前記特徴を抽出するための方法は公知で多様であるため、本開示の保護内容としない。

可能な一実施形態では、ランダムダウンサンプリングの方法によって、特徴を抽出して、前記識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成する。

ステップ２０２では、前記参照フレームの特徴マップと前記参照フレームのターゲットオブジェクトマスクとに基づいて、参照フレームのターゲットオブジェクト特徴マップを生成する。

前記参照フレームのターゲットオブジェクトマスクは、前記オブジェクトセグメンテーション方法によって取得されており、前記参照フレームのターゲットオブジェクトマスクに前記参照フレームの特徴マップのピクセルをポイントツーポイントで乗算することにより、前記参照フレームのターゲットオブジェクト特徴マップを生成することができる。後続で前記第１の相関行列を取得するために、このステップでは、ターゲットオブジェクトのみを含む参照フレームのターゲットオブジェクト特徴マップを取得することができる。

ステップ２０３では、前記前のフレームの特徴マップと前記前のフレームのターゲットオブジェクトマスクとに基づいて、前記前のフレームのターゲットオブジェクト特徴マップを生成する。

前記前のフレームのターゲットオブジェクトマスクは、前記オブジェクトセグメンテーション方法によって取得され、前記前のフレームのターゲットオブジェクトマスクに前記参照フレームの特徴マップのピクセルをポイントツーポイントで乗算することにより、前記前のフレームのターゲットオブジェクト特徴マップを生成することができる。後続で前記第２の相関行列を取得するために、このステップでは、ターゲットオブジェクトのみを含む前のフレームのターゲットオブジェクト特徴マップを取得することができる。

図３は、本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。図３に示すように、前記オブジェクトセグメンテーション方法は、ステップ３０１～ステップ３０２を含む。

ステップ３０１では、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第１の相関行列を生成する。

本開示は、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記識別対象フレームの特徴マップ内のピクセルと前記参照フレームのターゲットオブジェクト特徴マップ内のターゲットオブジェクトに属するピクセルとの相関性を特徴づける前記第１の相関行列を生成することにより、後続で特徴を抽出することができる。

ステップ３０２では、前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第２の相関行列を生成する。

同時に、後続で特徴を抽出するために、本開示では、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記識別対象フレームの特徴マップ内のピクセルと前記前のフレームのターゲットオブジェクト特徴マップ内のターゲットオブジェクトに属するピクセルとの相関性を特徴づける前記第２の相関行列を生成することができる。

図４は、本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。図４に示すように、前記オブジェクトセグメンテーション方法は、ステップ４０１～４０３を含む。

ステップ４０１では、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、参照相関行列を生成する。

まず、識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて参照相関行列を生成し、前記相関行列の生成方法は多様である。可能な一実施形態では、前記識別対象フレームの特徴マップ内のピクセルに対応する特徴ベクトルと前記参照フレームのターゲットオブジェクト特徴マップ内のピクセルに対応する特徴ベクトルとの間のユークリッド距離を算出し、前記ユークリッド距離を前記参照相関行列の要素の値として、前記参照相関行列を生成する。

ステップ４０２では、前記参照相関行列を正規化して、第２の参照相関行列を生成する。

後続のオブジェクトセグメンテーションの誤差を減らすために、前記参照相関行列を正規化し、前記正規化にはさまざまな方法があり、可能な一実施形態では、ｓｏｆｔｍａｘ関数を使用して前記正規化処理を実行する。正規化処理後、第２の参照相関行列を生成し、前記第２の参照相関行列のいずれかの行で、すべての要素を加算した結果は１になる。

ステップ４０３では、第２の参照相関行列の各行の参照値を生成し、前記参照値に基づいて前記第１の相関行列を生成し、前記参照値は同じ行内の他の値よりも大きい。

相関性の低いピクセルを除去するために、本開示は、前記第２の参照相関行列の各行における最大値を有する要素のみを保持し、前記最大値を有する要素の値が前記参照値である。可能な一実施形態では、前記第２の参照フレーム相関行列は（ｈ×ｗ，Ｎ）の行列であり、前記参照値を保持した後、（ｈ×ｗ，１）の行列を生成し、次いで整形を実行し、（ｈ，ｗ）の第１の相関行列を取得することができる。

図５は、本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。図５に示すように、前記オブジェクトセグメンテーション方法は、ステップ５０１～ステップ５０３を含む。

ステップ５０１では、前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成する。

まず、識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成し、前記相関行列を生成するための方法は多様である。可能な一実施形態では、前記識別対象フレームの特徴マップ内のピクセルに対応する特徴ベクトルと前記前のフレームのターゲットオブジェクト特徴マップ内のピクセルに対応する特徴ベクトルとのユークリッド距離を算出し、前記ユークリッド距離を前記前のフレーム相関行列の要素の値として、前記前のフレーム相関行列を生成する。

ステップ５０２では、前記前のフレーム相関行列を正規化して、第２の前のフレーム相関行列を生成する。

後続のオブジェクトセグメンテーションの誤差を減らすために、前記前のフレーム相関行列を正規化し、前記正規化にはさまざまな方法があり、可能な一実施形態では、ｓｏｆｔｍａｘ関数を使用して前記正規化処理を実行する。正規化処理後、前記第２の前のフレーム相関行列を生成し、前記第２の前のフレーム相関行列のいずれかの行で、すべての要素を加算した結果は１になる。

ステップ５０３では、第２の前のフレーム相関行列の各行の参照値を生成し、前記参照値に基づいて前記第２の相関行列を生成し、前記参照値は同じ行内の他の値よりも大きい。

相関性の低いピクセルを除去するために、本開示は、前記第２の前のフレーム相関行列の各行における最大値を有する要素のみを保持し、前記最大値を有する要素の値が前記参照値である。可能な一実施形態では、前記第２の前のフレーム相関行列は（ｈ×ｗ，Ｎ）の行列であり、前記参照値を保持した後、（ｈ×ｗ，１）の行列を生成し、次いで整形を実行し、（ｈ，ｗ）の第２の相関行列を取得することができる。

図６は、本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。図６に示すように、前記オブジェクトセグメンテーション方法は、ステップ６０１～ステップ６０２を含む。

ステップ６０１では、前記第１の相関行列に前記参照フレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第１の相関特徴マップを生成する。

前記参照フレームのターゲットオブジェクト特徴マップ内の特徴を強化するために、本開示は、前記第１の相関行列に前記参照フレームのターゲットオブジェクト特徴マップ内のピクセルをポイントツーポイントで乗算することにより、前記第１の相関特徴マップを取得する。前記第１の相関行列は、前記参照フレームのターゲットオブジェクト特徴マップと同じサイズである。

ステップ６０２では、前記第２の相関行列に前記前のフレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第２の相関特徴マップを生成する。

前記参照フレームのターゲットオブジェクト特徴マップ内の特徴を強化するために、本開示は、前記第２の相関行列に前記前のフレームのターゲットオブジェクト特徴マップ内のピクセルをポイントツーポイントで乗算することにより、前記第２の相関特徴マップを取得する。前記第２の相関行列は、前記前のフレームのターゲットオブジェクト特徴マップと同じサイズである。

図７は、本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。図７に示すように、前記オブジェクトセグメンテーション方法は、ステップ７０１～ステップ７０２を含む。

ステップ７０１では、前記第１の相関特徴マップ、第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成する。

同様に、前記ターゲットオブジェクトの特徴を強化するために、本開示は、前記第１の相関特徴マップ、第２の相関特徴マップ、および前記識別対象フレームの特徴マップ内の特徴を融合して、融合特徴マップを生成する。前記融合方法は多様であり、可能な一実施形態では、前記第１の相関特徴マップ、第２の相関特徴マップ、および前記識別対象フレームの特徴マップの連結ｃｏｎｃａｔを実行し、各ピクセルのチャネルの数を増加させて、前記融合特徴マップを生成する。

ステップ７０２では、前記融合特徴マップを復号化ネットワークに入力して、現在のフレームのオブジェクトセグメンテーション画像を生成する。

前記復号化ネットワークを使用して前記融合特徴マップをアップサンプリングして特徴を復元し、前記オブジェクトセグメンテーション画像によって、ターゲットオブジェクトに属するピクセルを取得することができる。

前記連結ｃｏｎｃａｔは、画像の次元を増加させ、特徴を融合することにより、後続のオブジェクトセグメンテーションを容易にすることができる。

図８は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。図８に示すように、前記オブジェクトセグメンテーション装置８００は、以下のモジュールを含む。

ビデオフレーム生成モジュール８１０は、識別対象ビデオから識別対象フレーム、前記識別対象フレームの前のフレーム、および参照フレームを生成するようにされ、前記参照フレームは、前記識別対象ビデオの第１のフレームである。

本開示は、スマートシティおよびスマートトラフィックのシナリオで使用することができ、スマートシティは、情報および通信技術手段を使用して、都市の運用コアシステムの各重要な情報を知覚、分析、および統合する。スマートシティの構築には、モバイルテクノロジーを代表とするモノのインターネットやクラウドコンピューティングなどの次世代の情報技術のアプリケーションを通じて、包括的な知覚、ユビキタス相互接続、ユビキタスコンピューティング、融合応用を実現する必要がある。スマートシティの重要な知覚情報は、防犯カメラによって取得されたビデオ情報である。

特徴抽出モジュール８２０は、前記識別対象フレーム、前記前のフレーム、および前記参照フレームを符号化ネットワークに入力して、識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成するように構成される。

前記符号化ネットワークはニューラルネットワークのエンコーダであり、前記符号化ネットワークは、前記識別対象フレーム、識別対象フレーム、および前記参照フレームをダウンサンプリングして、前記識別対象フレーム、前記前のフレーム、および参照フレームの高次元の特徴を抽出するように構成される。即ち、前記識別対象フレームの特徴マップを生成する。

同時に、後続で相関行列を取得するために、本開示では、前記前のフレームに対応する対象物ターゲットオブジェクトマスクおよび前記参照フレームに対応するターゲットオブジェクトマスクを使用して、前記参照フレームのターゲットオブジェクト特徴マップおよび前のフレームのターゲットオブジェクト特徴マップを取得する。

相関行列生成モジュール８３０は、前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関行列および第２の相関行列を生成するように構成される。

特徴マップ生成モジュール８４０は、前記第１の相関行列、第２の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関特徴マップおよび第２の相関特徴マップを生成するように構成される。

前記第１の相関行列、第２の相関行列、および前記識別対象フレームの特徴マップに基づいて、前記識別対象フレームのオブジェクト特徴マップを生成することができ、前記相関行列に基づいて、前記識別対象フレームの特徴マップの特徴を強化して、前記ターゲットオブジェクトの検出精度を向上させることができる。

オブジェクトセグメンテーションモジュール８５０は、前記第１の相関特徴マップ、前記第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成するように構成される。

前記第１の相関特徴マップの分布および前記第２の相関特徴マップの分布に、前記識別対象フレームの特徴マップ内のピクセルをそれぞれポイントツーポイントで乗算することにより、第１の相関特徴マップおよび第２の相関特徴マップを生成する。その後、前記第１の相関特徴マップ、第２の相関特徴マップ、および前記識別対象フレームの特徴マップの連結ｃｏｎｃａｔを実行し、ターゲットオブジェクトに関連するピクセルの特徴を強化して、融合特徴マップを生成する。

図９は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。図９に示すように、前記オブジェクトセグメンテーション装置９００は、特徴抽出サブモジュール９１０、第１のマスクサブモジュール９２０、および第２のマスクサブモジュール９３０を含む。

特徴抽出サブモジュール９１０は、前記識別対象フレームの特徴、前記前のフレームの特徴、および前記参照フレームの特徴を抽出して、前記識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成するように構成される。

本開示は、ニューラルネットワークを使用して、前記識別対象フレーム、前記前のフレーム、および前記参照フレームの特徴を抽出し、前記特徴を抽出するための方法は、公知で多様であるため、本開示の保護内容としない。

第１のマスクサブモジュール９２０は、前記参照フレームの特徴マップと前記参照フレームのターゲットオブジェクトマスクとに基づいて、参照フレームのターゲットオブジェクト特徴マップを生成するように構成される。

第２のマスクサブモジュール９３０は、前記前のフレームの特徴マップと前記前のフレームのターゲットオブジェクトマスクとに基づいて、前記前のフレームのターゲットオブジェクト特徴マップを生成するように構成される。

図１０は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。図１０に示すように、前記オブジェクトセグメンテーション装置１０００は、第１の相関行列生成サブモジュール１０１０および第２の相関行列生成サブモジュール１０２０を含む。

第１の相関行列生成サブモジュール１０１０は、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第１の相関行列を生成するように構成される。

本開示は、後続で特徴を抽出するために、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記識別対象フレームの特徴マップ内のピクセルと前記参照フレームのターゲットオブジェクト特徴マップ内のターゲットオブジェクトに属するピクセルとの相関性を特徴づける前記第１の相関行列を生成することができる。

第２の相関行列生成サブモジュール１０２０は、前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第２の相関行列を生成するように構成される。

図１１は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。図１１に示すように、前記オブジェクトセグメンテーション装置１１００は、参照相関行列生成ユニット１１１０、第２の参照相関行列生成ユニット１１２０、および第１の相関行列生成ユニット１１３０を含む。

参照相関行列生成ユニット１１１０は、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、参照相関行列を生成するように構成される。

第２の参照相関行列生成ユニット１１２０は、前記参照相関行列を正規化して、第２の参照相関行列を生成するように構成される。

第１の相関行列生成ユニット１１３０は、第２の参照相関行列の各行の参照値を生成し、前記参照値に基づいて前記第１の相関行列を生成するように構成され、前記参照値は同じ行内の他の値よりも大きい。

相関性の低いピクセルを除去するために、本開示は、前記第２の参照相関行列の各行における最大値を有する要素のみを保持し、前記最大値を有する要素の値が前記参照値である。可能な一実施形態では、前記第２の参照フレームの相関行列は（ｈ×ｗ，Ｎ）の行列であり、前記参照値を保持した後、（ｈ×ｗ，１）の行列を生成し、次いで整形を実行し、（ｈ，ｗ）の第１の相関行列を取得することができる。

図１２は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。図１２に示すように、前記オブジェクトセグメンテーション装置１２００は、前のフレーム相関行列生成ユニット１２１０、第２の前のフレーム相関行列生成ユニット１２２０、および第２の相関行列生成ユニット１２３０を含む。

前のフレーム相関行列生成ユニット１２１０は、前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成するように構成される。

まず、識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成し、前記相関行列を生成するための方法は多様である。可能な一実施形態では、前記識別対象フレームの特徴マップ内のピクセルに対応する特徴ベクトルと前記前のフレームのターゲットオブジェクト特徴マップ内のピクセルに対応する特徴ベクトルとの間のユークリッド距離を算出し、前記ユークリッド距離を前記前のフレーム相関行列の要素の値として、前記前のフレーム相関行列を生成する。

第２の前のフレーム相関行列生成ユニット１２２０は、前記前のフレーム相関行列を正規化して、第２の前のフレーム相関行列を生成するように構成される。

後続のオブジェクトセグメンテーションの誤差を減らすために、前記前のフレーム相関行列を正規化し、前記正規化にはさまざまな方法がある。可能な一実施形態では、ｓｏｆｔｍａｘ関数を使用して前記正規化処理を実行する。正規化処理後、前記第２の前のフレーム相関行列を生成し、前記第２の前のフレーム相関行列のいずれかの行で、すべての要素を加算した結果は１になる。

第２の相関行列生成ユニット１２３０は、第２の前のフレーム相関行列の各行の参照値を生成し、前記参照値に基づいて前記第２の相関行列を生成するように構成され、前記参照値は同じ行内の他の値よりも大きい。

図１３は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。図１３に示すように、前記オブジェクトセグメンテーション装置１３００は、第１の相関特徴マップ生成サブモジュール１３１０および第２の相関特徴マップ生成サブモジュール１３２０を含む。

第１の相関特徴マップ生成サブモジュール１３１０は、前記第１の相関行列に前記参照フレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第１の相関特徴マップを生成するように構成される。

第２の相関特徴マップ生成サブモジュール１３２０は、前記第２の相関行列に前記前のフレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第２の相関特徴マップを生成するように構成される。

図１４は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。図１４に示すように、前記オブジェクトセグメンテーション装置１４００は、特徴融合サブモジュール１４１０および復号化サブモジュール１４２０を含む。

特徴融合サブモジュール１４１０は、前記第１の相関特徴マップ、第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するように構成される。

復号化サブモジュール１４２０は、前記融合特徴マップを復号化ネットワークに入力して、現在のフレームのオブジェクトセグメンテーション画像を生成するように構成される。

前記復号化ネットワークを使用し、前記融合特徴マップをアップサンプリングして特徴を復元し、前記オブジェクトセグメンテーション画像によって、ターゲットオブジェクトに属するピクセルを取得することができる。

前記連結ｃｏｎｃａｔは、画像の次元を増加させて特徴を融合することにより、後続のオブジェクトセグメンテーションを容易にすることができる。

図１６は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図であり、図１６に示すように、第１のフレームｒｅｆ_ｉｍ、前のフレームｐｒｅ_ｉｍ、および現在のフレームｃｕｒ_ｉｍの３つのフレームの画像をネットワークに入力して、特徴抽出ネットワークを介して、前記第１のフレームのベクトルマップ、前記前のフレームのベクトルマップ、および前記現在のフレームのベクトルマップをそれぞれ取得し、ｒｅｆ_ｅｍｂ、ｐｒｅ_ｅｍｂ、およびｃｕｒ_ｅｍｂで表し、それらのサイズはすべて（ｃ，ｈ，ｗ）であり、ｃはチャネルの数、ｈは高さ、ｗは幅である。

その後、第１のフレームのターゲットオブジェクトマスクｒｅｆ_ｍと前のフレームのターゲットオブジェクトマスクｐｒｅ_ｍとに基づいて、第１のフレームのベクトルマップおよび前のフレームのベクトルマップから、ターゲットオブジェクトに対応するピクセル位置のベクトルマップｒｅｆ_ｅ、ｐｒｅ_ｅを抽出する。

第１のフレームおよび前のフレームに対する現在のフレームベクトルマップの相関性行列をそれぞれ算出し、ｓｏｆｔｍａｘによって、第１のフレームの各ピクセル位置に対する現在のフレームの各ピクセル位置の正規化された相関性表現と、前のフレームの各ピクセル位置に対する現在のフレームの各ピクセル位置の正規化された相関性表現とを算出する。正規化された相関行列の各行の最大値を取得し、１×（ｃ×ｈ）の行列を作成し、１×（ｃ×ｈ）の行列をｃ×ｈ行列、つまりｃｕｒ_ｒｅｆおよびｃｕｒ_ｐｒｅに復元する。

前記ｃｕｒ_ｒｅｆおよびｃｕｒ_ｐｒｅに基づいて、第１のフレームおよび前のフレームのベクトルマップを更新して（即ち連結ｃｏｎｃａｔして）、ｒｅｆ_ｅ１およびｐｒｅ_ｅ１を得る。

最後に、前記ｒｅｆ_ｅ１、ｐｒｅ_ｅ１をｃｕｒ_ｅｍｂと連結ｃｏｎｃａｔして、前記復号化ネットワークに入力して、オブジェクトセグメンテーション画像を取得し、前記オブジェクトセグメンテーション画像に基づいて、前記ターゲットオブジェクトに属するピクセルを取得することができる。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。

図１５は、本開示の実施例を実施するための例示的な電子機器１５００の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目のとする。電子機器は、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び／または求められる本願の実現を限定することを意図しない。

図１５に示すように、電子機器１５００は、リードオンリーメモリ（ＲＯＭ）１５０２に記憶されたコンピュータプログラム、または記憶ユニット１５０８からランダムアクセスメモリ（ＲＡＭ）１５０３にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行できる計算ユニット１５０１を含む。ＲＡＭ１５０３には、電子機器１５００の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット１５０１と、ＲＯＭ１５０２と、ＲＡＭ１５０３とは、バス１５０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インタフェース１５０５もバス１５０４に接続されている。

電子機器１５００における複数のコンポーネントは、Ｉ／Ｏインタフェース１５０５に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット１５０６と、種々なディスプレイやスピーカなどの出力ユニット１５０７と、磁気ディスクや光学ディスクなどの記憶ユニット１５０８と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット１５０９と、を備える。通信ユニット１５０９は、電子機器１５００がインターネットのようなコンピュータネット及び／または種々なキャリアネットワークを介して他の機器と情報／データを交換することを可能にする。

計算ユニット１５０１は、処理及び計算能力を有する様々な汎用及び／または専用の処理コンポーネントであってもよい。計算ユニット１５０１のいくつかの例としては、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタ信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット１５０１は、上記で説明された各方法及び処理、例えば前記オブジェクトセグメンテーション方法を実行する。例えば、いくつかの実施形態では、前記オブジェクトセグメンテーション方法を、記憶ユニット１５０８のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現されてもよい。一部の実施形態では、コンピュータプログラムの一部または全ては、ＲＯＭ２８０２及び／または通信ユニット２８０９を介して、電子機器２８００にロード及び／またはインストールされてもよい。コンピュータプログラムがＲＡＭ２８０３にロードされて計算ユニット２８０１によって実行される場合に、前述したオブジェクトセグメンテーション方法の一つまたは複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット１５０１は、他の任意の適当な方式（例えば、ファームウェア）によりオブジェクトセグメンテーション方法を実行するように構成されてもよい。

ここで記載されているシステムまたは技術の各種の実施形態は、デジタル電サブ回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び／またはこれらの組み合わせによって実現することができる。これらの各実施形態は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにて実行及び／または解釈される１つまたは複数のコンピュータプログラムにより実行することを含み得、当該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、当該少なくとも１つの入力デバイス、及び当該少なくとも１つの出力デバイスに転送することができる専用または汎用のプログラマブルプロセッサであってもよい。

本開示の方法を実施するためのプログラムコードは、１または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードは、プロセッサ又はコントローラによって実行されるとされた際に、フローチャート及び／またはブロック図で規定された機能?動作が実施されるように、汎用コンピュータや専用コンピュータまたは他のプログラム可能な人間の画像復元装置のプロセッサやコントローラに提供されてもよい。プログラムコードは、機械上で完全に実行されるか、機械上で部分的に実行されるか、独立したソフトウェアパッケージとして機械上で部分的に実行されるとともにリモートマシン上で部分的に実行されるか、またはリモートマシンまたはサーバ上で完全に実行されてもよい。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置またはデバイスによって使用されるために、または命令実行システム、装置またはデバイスと組み合わせて使用されるためのプログラムを含むか、または記憶することができる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体であってもよいし、機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体としては、電子の、磁気の、光学の、電磁の、赤外線の、半導体システム、装置、デバイス、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例としては、１または複数のラインに基づく電気の接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラム可能なリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータで実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線チューブ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウスまたはトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供するために用いられることができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとする）、またはミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェースまたは当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、またはこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークとを含む。

コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。ここで、サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系のうちのホスト製品であり、現有のオブジェクト理ホストとＶＰＳサービス（ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ、また、「ＶＰＳ」と略記する）では、管理が難しく、業務拡張性が弱いという欠点を解決している。サーバは、分散システムのサーバサーバ、またはブロックチェーンを結合したサーバであってもよい。

なお、上記のした様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本開示に記載された各ステップは、本願に開示された技術案の所望の結果が達成できる限り、並列に実行されてもよいし、順番に実行されてもよいし、異なる順序で実行されてもよい。本明細書は制限されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組合、及び代替を行うことができることは理解される。本願の精神及び原理内で行われたあらゆる修正、同などの置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

識別対象ビデオから識別対象フレーム、前記識別対象フレームの前のフレーム、および参照フレームを生成するステップであって、前記参照フレームは、前記識別対象ビデオの第１のフレームであるステップと、
前記識別対象フレーム、前記前のフレーム、および前記参照フレームを符号化ネットワークに入力して、識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成するステップと、
前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関行列および第２の相関行列を生成するステップと、
前記第１の相関行列、第２の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関特徴マップおよび第２の相関特徴マップを生成するステップと、
前記第１の相関特徴マップ、前記第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成するステップと、を含む、
ことを特徴とするオブジェクトセグメンテーション方法。
前記識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成するステップは、
前記識別対象フレームの特徴、前記前のフレームの特徴、および前記参照フレームの特徴を抽出して、前記識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成するステップと、
前記参照フレームの特徴マップと前記参照フレームのターゲットオブジェクトマスクとに基づいて、参照フレームのターゲットオブジェクト特徴マップを生成するステップと、
前記前のフレームの特徴マップと前記前のフレームのターゲットオブジェクトマスクとに基づいて、前記前のフレームのターゲットオブジェクト特徴マップを生成するステップと、を含む、ことを特徴とする請求項１に記載の方法。
前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関行列および第２の相関行列を生成するステップは、
前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第１の相関行列を生成するステップと、
前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第２の相関行列を生成するステップと、を含む、ことを特徴とする請求項１に記載の方法。
前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第１の相関行列を生成するステップは、
前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、参照相関行列を生成するステップと、
前記参照相関行列を正規化して、第２の参照相関行列を生成するステップと、
第２の参照相関行列の各行の参照値を生成し、前記参照値に基づいて前記第１の相関行列を生成するステップであって、前記参照値は同じ行内の他の値よりも大きいステップと、を含む、ことを特徴とする請求項３に記載の方法。
前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第２の相関行列を生成するステップは、
前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成するステップと、
前記前のフレーム相関行列を正規化して、第２の前のフレーム相関行列を生成するステップと、
第２の前のフレーム相関行列の各行の参照値を生成し、前記参照値に基づいて前記第２の相関行列を生成するステップであって、前記参照値は同じ行内の他の値よりも大きいステップと、を含む、ことを特徴とする請求項３に記載の方法。
前記第１の相関行列、第２の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関特徴マップおよび第２の相関特徴マップを生成するステップは、
前記第１の相関行列に前記参照フレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第１の相関特徴マップを生成するステップと、
前記第２の相関行列に前記前のフレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第２の相関特徴マップを生成するステップと、を含む、ことを特徴とする請求項１に記載の方法。
前記第１の相関特徴マップ、前記第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成するステップは、
前記第１の相関特徴マップ、第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するステップと、
前記融合特徴マップを復号化ネットワークに入力して、現在のフレームのオブジェクトセグメンテーション画像を生成するステップと、を含む、ことを特徴とする請求項１に記載の方法。
前記第１の相関特徴マップ、第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するステップは、
前記第１の相関特徴マップ、前記第２の相関特徴マップ、および前記識別対象フレームの特徴マップを連結することにより、前記融合特徴マップを生成するステップを含む、ことを特徴とする請求項７に記載の方法。
識別対象ビデオから識別対象フレーム、前記識別対象フレームの前のフレーム、および参照フレームを生成するように構成されるビデオフレーム生成モジュールであって、前記参照フレームは、前記識別対象ビデオの第１のフレームであるビデオフレーム生成モジュールと、
前記識別対象フレーム、前記前のフレーム、および前記参照フレームを符号化ネットワークに入力して、識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成するように構成される特徴抽出モジュールと、
前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関行列および第２の相関行列を生成するように構成される相関行列生成モジュールと、
前記第１の相関行列、第２の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第１の相関特徴マップおよび第２の相関特徴マップを生成するように構成される特徴マップ生成モジュールと、
前記第１の相関特徴マップ、前記第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成するように構成されるオブジェクトセグメンテーションモジュールと、を含む、ことを特徴とするオブジェクトセグメンテーション装置。
前記特徴抽出モジュールは、
前記識別対象フレームの特徴、前記前のフレームの特徴、および前記参照フレームの特徴を抽出して、前記識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成するように構成される特徴抽出サブモジュールと、
前記参照フレームの特徴マップと前記参照フレームのターゲットオブジェクトマスクとに基づいて、参照フレームのターゲットオブジェクト特徴マップを生成するように構成される第１のマスクサブモジュールと、
前記前のフレームの特徴マップと前記前のフレームのターゲットオブジェクトマスクとに基づいて、前記前のフレームのターゲットオブジェクト特徴マップを生成するように構成される第２のマスクサブモジュールと、を含む、ことを特徴とする請求項９に記載の装置。
前記相関行列生成モジュールは、
前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第１の相関行列を生成するように構成される第１の相関行列生成サブモジュールと、
前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第２の相関行列を生成するように構成される第２の相関行列生成サブモジュールと、を含む、ことを特徴とする請求項９に記載の装置。
前記第１の相関行列生成サブモジュールは、
前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、参照相関行列を生成するように構成される参照相関行列生成ユニットと、
前記参照相関行列を正規化して、第２の参照相関行列を生成するように構成される第２の参照相関行列生成ユニットと、
第２の参照相関行列の各行の参照値を生成し、前記参照値に基づいて前記第１の相関行列を生成するように構成される第１の相関行列生成ユニットであって、前記参照値は同じ行内の他の値よりも大きい第１の相関行列生成ユニットと、を含む、ことを特徴とする請求項１１に記載の装置。
前記第２の相関行列生成サブモジュールは、
前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成するように構成される前のフレーム相関行列生成ユニットと、
前記前のフレーム相関行列を正規化して、第２の前のフレーム相関行列を生成するように構成される第２の前のフレーム相関行列生成ユニットと、
第２の前のフレーム相関行列の各行の参照値を生成し、前記参照値に基づいて前記第２の相関行列を生成するように構成される第２の相関行列生成ユニットであって、前記参照値は同じ行内の他の値よりも大きい第２の相関行列生成ユニットと、を含む、ことを特徴とする請求項１１に記載の装置。
前記特徴マップ生成モジュールは、
前記第１の相関行列に前記参照フレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第１の相関特徴マップを生成するように構成される第１の相関特徴マップ生成サブモジュールと、
前記第２の相関行列に前記前のフレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第２の相関特徴マップを生成するように構成される第２の相関特徴マップ生成サブモジュールと、を含む、ことを特徴とする請求項９に記載の装置。
前記オブジェクトセグメンテーションモジュールは、
前記第１の相関特徴マップ、第２の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するように構成される特徴融合サブモジュールと、
前記融合特徴マップを復号化ネットワークに入力して、現在のフレームのオブジェクトセグメンテーション画像を生成するように構成される復号化サブモジュールと、を含む、ことを特徴とする請求項９に記載の装置。
前記特徴融合サブモジュールは、
前記第１の相関特徴マップ、前記第２の相関特徴マップ、および前記識別対象フレームの特徴マップを連結することにより、前記融合特徴マップを生成するように構成される特徴融合ユニットを含む、ことを特徴とする請求項１５に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが請求項１～８のいずれかに記載の方法を実行できる、ことを特徴とする電子機器。
コンピュータに請求項１～８のいずれかに記載の方法を実行させるためのコンピュータ命令を記憶した、ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される場合、請求項１～８のいずれかに記載の方法を実現する、ことを特徴とするコンピュータプログラム。