JP7393374B2

JP7393374B2 - 画像を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Info

Publication number: JP7393374B2
Application number: JP2021037660A
Authority: JP
Inventors: ヂャン・チョンチュエン; ホー・ビン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2021-03-09
Publication date: 2023-12-06
Anticipated expiration: 2041-03-09
Also published as: EP3933674A1; KR20220002063A; CN111723769A; CN111723769B; US20210406548A1; JP2022013648A

Description

本出願は画像処理分野に関し、具体的には、人工知能、ディープラーニング、コンピュータビジョンの分野に関し、特に、画像を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムに関する。

スマートフォン及びモバイルインターネットの普及及び発展に伴い、ビデオ作成と転送のコストが絶えずに低下しており、ビデオはその豊富な表現能力によってコンテンツ生成分野で益々多くのユーザに好まれており、簡単で使いやすい自動化ビデオ編集技術の需要が益々大きくなっている。近年、対象追跡と密接に関連するビデオ対象分割が益々多くの注目を集めている。しかし、既存の対象追跡方法では多くの場合、精細な対象分割結果を提供することができない。

本出願は、画像を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供している。

本出願の第１の態様によれば、画像を処理するための方法を提供し、対象画像フレームと対象オブジェクトがマーキングされた少なくとも１つの画像フレームとが含まれる対象ビデオを取得するステップと、少なくとも１つの画像フレームにおけるマーキングされた対象オブジェクトに基づいて、対象画像フレームにおいて対象オブジェクトに対する検索領域を確定するステップと、検索領域において、対象オブジェクトの中心位置情報を確定するステップと、少なくとも１つの画像フレームのマーキング領域と中心位置情報とに基づいて、対象オブジェクト領域を確定するステップと、対象オブジェクト領域に基づいて、対象画像フレームを分割するステップとを含む。

本出願の第２の態様によれば、対象画像フレームと対象オブジェクトがマーキングされた少なくとも１つの画像フレームとが含まれる対象ビデオを取得するように構成されるビデオ取得ユニットと、少なくとも１つの画像フレームにおけるマーキングされた対象オブジェクトに基づいて、対象画像フレームにおいて対象オブジェクトに対する検索領域を確定するように構成される検索領域確定ユニットと、検索領域に基づいて、対象オブジェクトの中心位置情報を確定するように構成される中心位置情報確定ユニットと、少なくとも１つの画像フレームのマーキング領域と中心位置情報とに基づいて、対象オブジェクト領域を確定するように構成される対象オブジェクト領域確定ユニットと、対象オブジェクト領域に基づいて、対象画像フレームを分割するように構成される分割ユニットとを備える画像を処理するための装置を提供する。

本出願の第３の態様では、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されるメモリとを備え、メモリには、少なくとも１つのプロセッサにより実行可能な指令が格納されており、指令は少なくとも１つのプロセッサにより実行されると、少なくとも１つのプロセッサに上記の画像を処理するための方法を実行させる、画像を処理するための電子機器を提供する。

本出願の第４の態様では、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体を提供し、前記コンピュータ指令は上記の画像を処理するための方法をコンピュータに実行させるために使用される。

第５の態様では、本出願の実施形態は、プロセッサにより実行されると、上記の画像を処理するための方法を実現する、コンピュータプログラムを提供する。

本出願の技術によって、従来の対象追跡方法では多くの場合精細な対象分割結果を提供できないという問題を解決して、対象オブジェクトをロバストに位置特定するとともに精細な対象分割結果を提供することができる。

本明細書で説明されている内容は、本出願の実施形態の重要な点や重要な特徴を示すためのものではなく、本出願の範囲を限定するためのものでもないことを理解すべきである。本出願のその他の特徴は以下の説明により容易に理解されるようになる。

図面は本技術的手段をよりよく理解するためのものであって、本出願を限定するものではない。

本出願の一実施形態が適用可能な例示的なシステムアーキテクチャである。本出願による画像を処理するための方法の一実施形態のフローチャートである。本出願による画像を処理するための方法の１つの応用シーンの概略図である。本出願による画像を処理するための方法のもう１つの実施形態のフローチャートである。本出願による画像を処理するための装置の一実施形態の構造概略図である。本出願の実施形態の画像を処理するための方法を実現するための電子機器のブロック図である。

以下は図面を参照して本出願の例示的な実施形態を説明し、ここでは理解を助けるため、本出願の実施形態の様々な詳細が記載されるが、これらは単なる例示であるに過ぎない。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更と修正を行うことができることを理解すべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。

なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本出願を詳細に説明する。

図１は、本出願の画像を処理するための方法又は画像を処理するための装置の実施形態を適用することができる例示的なシステムアーキテクチャ１００を示す。

図１に示されるように、システムアーキテクチャ１００は、カメラ１０１、１０２、ネットワーク１０３、サーバ１０４、及び端末装置１０５を含むことができる。ネットワーク１０３は、カメラ１０１、１０２と、サーバ１０４、端末装置１０５との間に通信リンクを提供するための媒体として使用される。ネットワーク１０３は、有線、無線通信リンク又は光ファイバーケーブルなどの様々な接続タイプを含むことができる。

カメラ１０１、１０２は、ネットワーク１０３を介してサーバ１０４、端末装置１０５と情報のやり取りをして、メッセージなどを送受信することができる。カメラ１０１、１０２はビデオを採集し、採集したビデオをサーバ１０４又は端末装置１０５に送信するか、又はローカルに記憶することができる。カメラ１０１、１０２は、ビデオ又は画像を撮影するために、街灯柱、信号機柱、映画撮影用ポール又は運動場に設置された撮影ポールに固定されてもよい。

サーバ１０４又は端末装置１０５は、カメラ１０１、１０２から採集されたビデオ又は画像を取得するとともに、ビデオ又は画像を処理して、ビデオ又は画像における対象オブジェクトを追跡及び分割することができる。サーバ１０４又は端末装置１０５には、画像処理アプリケーションなどの様々な通信クライアントアプリケーションがインストールされていてもよい。

端末装置１０５はハードウェアであってもよく、ソフトウェアであってもよい。端末装置１０５がハードウェアである場合、スマートフォン、タブレットコンピュータ、電子書籍リーダー、車載コンピュータ、ラップトップコンピュータ及びデスクトップコンピュータなど様々な電子機器であってもよいが、これらに限定されない。端末装置１０５がソフトウェアである場合は、上記に挙げられた電子機器にインストールされてもよい。端末装置１０５がソフトウェアである場合、上記の電子機器にインストールされてもよい。複数のソフトウェア又はソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実施されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実施されてもよい。ここでは、具体的な限定をしない。

なお、本出願の実施形態により提供される画像を処理するための方法はサーバ１０４又は端末装置１０５によって実行可能である。応じて、画像を処理するための装置はサーバ１０４又は端末装置１０５に設けられてもよい。

なお、図１におけるカメラ、ネットワーク、サーバ及び端末装置の数が単なる例示的なものである。実施の必要性に応じて、任意の数のカメラ、ネットワーク、サーバ及び端末装置を有することができる。

引き続き図２を参照し、本出願による画像を処理するための方法の一実施形態のフロー２００を示す。本実施形態の画像を処理するための方法は、以下のステップを含む。

ステップ２０１、対象ビデオを取得する。
本実施形態では、画像を処理するための実行主体（例えば、図１に示す端末装置１０４）は、有線接続又は無線接続により対象ビデオを取得することができる。対象ビデオはカメラによってリアルタイムに撮影されてもよく、他の電子機器から取得されてもよい。対象ビデオは対象画像フレームと対象オブジェクトがマーキングされた少なくとも１つの画像フレームとを含むことができる。前記画像フレームには対象オブジェクトの輪郭、形態などの情報が含まれている。対象オブジェクトに対するマーキングは、対象オブジェクトの輪郭に対するマーキングであってもよい。マーキングされた対象オブジェクトは、人、車両などであってもよい。

ステップ２０２、少なくとも１つの画像フレームにおけるマーキングされた対象オブジェクトに基づいて、対象画像フレームにおいて対象オブジェクトに対する検索領域を確定する。

実行主体は、対象ビデオにおける対象画像フレームと対象オブジェクトがマーキングされた少なくとも１つの画像フレームとを取得した後、少なくとも１つの画像フレームにおけるマーキングされた対象オブジェクトに基づいて、対象画像フレームにおいて対象オブジェクトに対する検索領域を確定することができる。具体的には、実行主体は、対象画像フレームの１つ前のフレームにおける対象オブジェクトの位置を円心とし、対象画像フレームの直前の２つフレームにおける対象オブジェクトの移動距離を半径とした円形領域を対象画像フレームにおける対象オブジェクトの検索領域としてもよい。例えば、ｎ番目の画像フレームにおいて対象オブジェクトに対する検索領域を確定するために、ｎ－２番目の画像フレームからｎ－１番目の画像フレームまでの対象オブジェクトの移動距離Ｌを半径とし、ｎ－１番目の画像フレームにおける対象オブジェクトの位置を円心とした円形領域を、対象画像フレームにおける対象オブジェクトに対する検索領域とする。

ステップ２０３、検索領域に基づいて、対象オブジェクトの中心位置情報を確定する。
実行主体は、対象画像フレームにおける対象オブジェクトに対する検索領域を取得した後、検索領域に基づいて対象オブジェクトの中心位置情報を確定することができる。具体的には、実行主体は、対象画像フレームの１つ前のフレームにおける対象オブジェクトの中心位置情報と、直前の２つのフレームにおける対象オブジェクトの移動軌跡に反映される移動方向とに基づいて、１つ前のフレームから対象画像フレームに至る対象オブジェクトの移動方向を予測することができる。具体的には、例えば、この確定された移動方向において、ｎ－２番目の画像フレームからｎ－１番目の画像フレームに至る対象オブジェクトの移動距離Ｌと対象画像フレームの１つ前のフレーム（すなわち、ｎ－１番目の画像フレーム）における対象オブジェクトの中心位置とに基づいて、検索領域における対象オブジェクトの中心位置情報は、確定された移動方向において、ｎ－１番目の画像フレームにおける対象オブジェクトの中心位置を起点とし、距離Ｌを移動した後の位置を終点とすると、該終点が検索領域における対象オブジェクトの中心位置である。

ステップ２０４、対象オブジェクトが位置するマーキング領域と中心位置情報とに基づいて、対象オブジェクト領域を確定する。

実行主体は、対象オブジェクトの中心位置情報を取得した後、対象オブジェクトが位置するマーキング領域と中心位置情報とに基づいて、対象オブジェクト領域を確定することができる。該検索領域内で対象画像フレームの１つ前のフレームの対象オブジェクトの外形輪郭サイズを基準として、対象画像フレームにおいて対象オブジェクトの中心位置を中心とし、対象画像フレームの１つ前のフレームの対象オブジェクトの外形輪郭サイズと同じの対象オブジェクト外形輪郭を作成してそれを分割すべき対象オブジェクト領域とする。

ステップ２０５、対象オブジェクト領域に基づいて、対象画像フレームを分割する。
実行主体は対象オブジェクト領域を取得した後、対象オブジェクト領域に基づいて対象画像フレームを分割することができる。具体的には、実行主体は、ターゲット認識又は意味分割方法により対象画像フレームにおける対象オブジェクト領域が示す対象オブジェクトを抽出することで、対象画像フレームを分割することができる。分割とは、対象オブジェクトの外形輪郭を対象画像フレームから分離することである。

引き続き図３を参照し、本出願による画像を処理するための方法の１つの応用シーンの概略図である。図３の応用シーンでは、カメラ３０１は、ビデオ３０２を採集するための撮影ポールに固定される。カメラ３０１によって採集されたビデオ３０２には、対象画像フレーム３０５のｎ番目フレーム、対象オブジェクトＡがマーキングされた少なくとも１つの画像フレーム３０３のｎ‐２番目フレーム、３０４のｎ‐１番目フレームが含まれている。ラップトップポータブルコンピュータ（図示せず）がカメラ３０１から対象ビデオ３０２を取得した後、３０３のｎ‐２番目フレーム又は３０４のｎ‐１番目フレームにおけるマーキングされた対象オブジェクトＡに基づいて、３０５のｎ番目フレームにおける対象オブジェクトＡに対する破線で囲まれた検索領域Ｄを確定する。ラップトップポータブルコンピュータ（図示せず）は、検索領域Ｄに基づいて、対象オブジェクトＡの中心位置Ｂの情報を確定するとともに、３０３のｎ‐２番目フレーム又は３０４のｎ‐１番目フレームのマーキング領域と中心位置Ｂとに基づいて対象オブジェクト領域Ｃを確定し、対象オブジェクト領域Ｃに基づいて、３０５のｎ番目フレームにおける、対象オブジェクト領域Ｃと重なる対象オブジェクトを分割する。

本実施形態は、対象オブジェクトをロバストに位置特定するとともに精細な対象分割結果を提供することができる。

引き続き図４を参照し、本出願による画像を処理するための方法の別の１つの実施形態のプロセス４００を示す。図４に示すように、本実施形態の画像を処理するための方法は、以下のステップを含むことができる。

ステップ４０１、対象ビデオを取得する。
ステップ４０１の原理はステップ２０１の原理と同様であり、ここでは説明を省略する。

ステップ４０２、マーキング領域に基づいて、検索領域を確定する。
本実施形態では、実行主体は対象ビデオを取得した後、マーキング領域に基づいて、検索領域を確定することができる。具体的には、実行主体は、対象画像フレームの前の３つのフレームにおける対象オブジェクトの移動距離の和の平均値を検索半径とし、対象画像フレームの１つ前のフレームにおける対象オブジェクトの中心位置を起点とし、該起点と検索半径とを連結し、進行方向に構成される扇形検索領域を対象画像フレームにおける検索領域とすることで、検索領域を高精度に確定することができ、対象オブジェクトの分割をより正確に実現することができる。うち、前記進行方向は前のいくつかの画像フレームに基づいて確定された対象オブジェクトの移動方向及び該移動方向間のなす角からなる方向であってもよい。

具体的には、ステップ４０２は以下のステップ４０２１～４０２２に基づいて確定することができる。

ステップ４０２１、対象オブジェクトの平均移動速度を確定する。
実行主体は、対象ビデオにおける対象画像フレームと対象オブジェクトがマーキングされた少なくとも１つの画像フレームとを取得した後、対象オブジェクトの平均移動速度を確定することができる。例示的に、実行主体は、ｎ番目の画像フレームを対象画像フレームとし、前のｍフレームの画像において隣接する２フレーム毎における対象オブジェクト位置の変化距離と、フレーム毎の所定時間とに基づいて、隣接する２フレーム毎の対象移動速度を算出し、得られた前のｍフレームの画像における、隣接する２フレーム毎の対象移動速度を加算し平均値を取って、前のｍフレームの画像における対象オブジェクトの移動速度を得、ｎ番目フレーム画像（すなわち、対象画像フレーム）における対象オブジェクトの平均移動速度とする。

ステップ４０２２、マーキング領域の位置情報と平均移動速度とに基づいて、検索領域を確定する。

実行主体は、対象オブジェクトの平均移動速度を得た後、少なくとも1つの画像フレームにおける対象オブジェクトの位置情報及び平均移動速度に基づいて、検索領域を確定することができる。例示的に、実行主体はｎ番目の画像フレームを対象画像フレームとして確定する。ｎ‐１番目の画像フレームにおける対象オブジェクトの中心位置に基づいて検索中心を確定し、前のｎ‐１フレームの画像フレームにおける対象オブジェクトの平均移動速度に基づいて検索半径を確定し、これにより構成される領域をｎ番目の画像フレームの検索領域として確定する。ｎ‐１番目の画像フレームにおける対象オブジェクトの中心領域が１番目の画像フレームにおけるマーキングされた対象オブジェクトに基づいて確定されてもよいことが理解できる。例えば、３番目の画像フレームにおける対象オブジェクトの中心領域は、２番目の画像フレームにおける対象オブジェクトの中心領域に基づいて確定することができ、２番目の画像フレームにおける対象オブジェクトの中心領域は、１番目の画像フレームにおける確定された対象オブジェクトの中心領域に基づいて確定することができ、１番目の画像フレームにおける対象オブジェクトの特徴、位置および輪郭は手動でマーキングされ得る。うち、対象オブジェクトの特徴は、色、エッジなどの下位の特徴であってもよく、模様、比較的区別性のある特徴（例えば、牛の頭、犬の頭など）、識別性を有する肝心な特徴（例えば、ヒト、動物など）の上位の特徴であってもよい。

本実施形態では、少なくとも１つの画像フレームにおける対象オブジェクトの位置情報及び平均移動速度に基づいて検索領域を確定することにより、検索領域の確定がより正確になって、対象オブジェクト追跡の精度を向上させることができる。

ステップ４０３、検索領域に基づいて、対象オブジェクトの中心位置情報を確定する。
ステップ４０３の原理はステップ２０３の原理と同様であり、ここではその説明を省略する。

具体的には、ステップ４０３は以下のステップ４０３１～４０３３に基づいて確定することができる。

ステップ４０３１、前記検索領域の上位の特徴を抽出する。
実行主体は、検索領域を得た後、検索領域の上位の特徴を抽出することができる。具体的には、上位の特徴は、いくつかの格子状模様のような模様特徴であってもよく、例えば、犬の頭、ヒトの頭、牛の頭など比較的に区別性のある特徴であってもよく、例えば、ヒト、動物など識別性を有する肝心な特徴であってもよい。

ステップ４０３２、抽出された上位の特徴をフィルタリングする。
実行主体は、検索領域の上位の特徴を抽出した後、抽出された上位の特徴をフィルタリングすることができる。具体的には、抽出された上位の特徴をフィルタリングすることで抽出された特徴を変更又は強化することができ、フィルタリングによって、上位の特徴の模様、タイプなどのいくつかの特に重要な特徴を抽出することができ、或いは、下位の特徴における色、輪郭などの重要でない特徴を除去することができる。本実施形態におけるフィルタリングは、少なくとも１つの画像フレームのマーキング領域における中心位置の上位の特徴に基づいて、対象画像フレームの検索領域のうち該上位の特徴と同様又は特に近い上位の特徴を抽出することであってもよい。

ステップ４０３３、フィルタリングされた特徴に基づいて、対象オブジェクトの中心位置情報を確定する。

実行主体は、抽出された上位の特徴をフィルタリングした後、フィルタリングされた特徴に基づいて、対象オブジェクトの中心位置情報を確定することができる。具体的には、実行主体は、フィルタリングにより得られた少なくとも１つの画像フレームのマーキング領域における中心位置の上位の特徴と同様又は特に近い上位の特徴の検索領域における位置を、対象オブジェクトの中心位置としてもよい。

本実施形態では、抽出された上位の特徴をフィルタリングすることにより、抽出された上位の特徴を強化することができ、それにより、上位の特徴を用いて対象オブジェクトの中心位置情報を確定する精度を向上させることができる。

ステップ４０４、少なくとも１つの画像フレームのマーキング領域と中心位置情報とに基づいて、対象オブジェクト領域を確定する。

ステップ４０４の原理はステップ２０４の原理と同様であり、ここではその説明を省略する。

具体的には、ステップ４０４は以下のステップ４０４１～４０４３に基づいて確定することができる。

ステップ４０４１、中心位置情報とマーキング領域とに基づいて、初期領域を確定する。

実行主体は、対象オブジェクトの中心位置情報を取得した後、中心位置情報とマーキング領域とに基づいて、初期領域を確定することができる。具体的には、実行主体は、対象オブジェクトの中心位置と、少なくとも１つの画像フレームにおいて対象オブジェクトにマーキングされた輪郭特徴とを組み合わせて初期領域を構成してもよい。もちろん、実行主体は、任意の形状及びサイズの、対象オブジェクトの中心位置を囲む領域を初期領域としてもよいが、本出願では初期領域の形状及びサイズに対して具体的な限定をしない。

ステップ４０４２、初期領域の第１の特徴と少なくとも１つの画像フレームのマーキング領域の第２の特徴とを確定する。

実行主体は、初期領域を得た後、初期領域の第１の特徴と少なくとも１つの画像フレームのマーキング領域の第２の特徴とを確定することができる。具体的には、実行主体は初期領域を得た後、初期領域における上位の特徴を初期領域の第１の特徴として抽出し、少なくとも１つの画像フレームのマーキング領域の上位の特徴を少なくとも１つの画像フレームのマーキング領域の第２の特徴として抽出してもよい。もちろん、実行主体は初期領域を得た後、初期領域における下位の特徴を初期領域の第１の特徴として抽出し、少なくとも１つの画像フレームのマーキング領域の下位の特徴を少なくとも１つの画像フレームのマーキング領域の第２の特徴として抽出してもよい。具体的には、上位の特徴は比較的に区別性があり、比較的に識別性がある特徴であり、いくつかの格子状模様、猫の頭、犬の頭、ヒト、動物などのような模様特徴であってもよい。下位の特徴は、例えば、色、輪郭などの特徴であってもよい。

具体的には、ステップ４０４２はさらに以下のステップ４０４２１～４０４２３に基づいて確定することができる。

ステップ４０４２１、初期領域及び少なくとも１つの画像フレームのマーキング領域における下位の特徴及び上位の特徴をそれぞれ抽出する。

実行主体は、事前訓練された残差ニューラルネットワークＲｅｓＮｅｔ５０を介して、初期領域及び少なくとも１つの画像フレームのマーキング領域の下位の特徴及び上位の特徴を抽出することができる。事前訓練された残差ニューラルネットワークＲｅｓＮｅｔ５０は、より深い階層の特徴を抽出することができるため、対象オブジェクトの中心位置の確定がより正確になる。具体的には、下位の特徴の意味情報は比較的少ないが、下位の特徴に対応する対象オブジェクトの位置は正確であり、上位の特徴の意味情報は比較的豊富であるが、上位の特徴に対応する対象オブジェクトの位置は比較的おおまかである。上位の特徴は細部を表すものであり、例えば、いくつかの格子状模様、猫の頭、犬の頭、ヒト、動物などのような模様特徴であってもよい。下位の特徴は意味特徴を表すものであり、例えば、色、輪郭などの特徴であってもよい。

ステップ４０４２２、初期領域の下位の特徴と上位の特徴とを融合して、第１の特徴を取得する。

実行主体は、初期領域の下位の特徴と上位の特徴とをＦＰＮ（ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋｓ）によって融合することで、第１の特徴を得ることができる。ＦＰＮ（ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋｓ）は、通常のＣＮＮモデルを用いて画像中の各次元の特徴を効率よく抽出する方法である。ＦＰＮ（ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋｓ）アルゴリズムは、下位の特徴の高解像度と上位の特徴の高意味情報を同時に利用し、これらの異なる層の特徴を融合することで分割の効果を達成する。また、分割は融合後の特徴層ごとに単独で行われる。具体的には、入力された初期領域における上位の特徴をｘ_１、次元サイズをｈ_１×ｗ_１×ｃ_１とする。入力された初期領域における下位の特徴をｘ_２、次元サイズをｈ_２×ｗ_２×ｃ_２とし、うち、ｈ_１≦ｈ_２、ｗ_１≦ｗ_２である。まず、ベクトル畳み込み演算Ｃｏｎｖ１により上位の特徴を共通空間にマッピングし、次に、双線形補間により上位の特徴の空間次元を下位の特徴と同様になるように補間し、再びベクトル畳み込み演算Ｃｏｎｖ２により下位の特徴を共通空間にマッピングし、最後に、２つの特徴を加算して第１の特徴を得る。すなわち、第１の特徴ｘ＝ＢｉｌｉｎｅａｒＵｐｓａｍｐｌｅ（Ｃｏｎｖ１（Ｘ１））＋Ｃｏｎｖ２（Ｘ２）である。

ステップ４０４２３、少なくとも１つの画像フレームのマーキング領域における下位の特徴と上位の特徴とを融合して、第２の特徴を取得する。

実行主体は、少なくとも１つの画像フレームのマーキング領域における下位の特徴と上位の特徴とをＦＰＮ（ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋｓ）によって融合することで、第２の特徴を得ることができる。ＦＰＮ（ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋｓ）は、通常のＣＮＮモデルを用いて画像中の各次元の特徴を効率よく抽出する方法である。ＦＰＮ（ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋｓ）アルゴリズムは、下位の特徴の高解像度と上位の特徴の高意味情報を同時に利用し、これらの異なる層の特徴を融合することで分割の効果を達成する。また、分割は融合後の特徴層ごとに単独で行われる。具体的には、入力された少なくとも１つの画像フレームのマーキング領域における上位の特徴をｘ_３、次元サイズをｈ_３×ｗ_３×ｃ_３とする。入力された少なくとも１つの画像フレームのマーキング領域における下位の特徴をｘ_４、次元サイズをｈ_４×ｗ_４×ｃ_４とし、うち、ｈ_３≦ｈ_４、ｗ_３≦ｗ_４である。まず、ベクトル畳み込み演算Ｃｏｎｖ１により上位の特徴を共通空間にマッピングし、次に、双線形補間により上位の特徴の空間次元を下位の特徴と同様に補間し、再びベクトル畳み込み演算Ｃｏｎｖ２により下位の特徴を共通空間にマッピングし、最後に、２つの特徴を加算して第２の特徴を得る。すなわち、第２の特徴ｘ＝ＢｉｌｉｎｅａｒＵｐｓａｍｐｌｅ（Ｃｏｎｖ１（ｘ_３））＋Ｃｏｎｖ２（ｘ_４）である。

本実施形態では、下位の特徴と上位の特徴とを融合することにより、実行主体が対象オブジェクトの位置及び輪郭を予測する回帰能力を強化することができる。また、実行主体が対象オブジェクトの位置及び輪郭を予測することは、融合後の上位の特徴と下位の特徴の特徴層ごとに互いに干渉せずに単独で行うことができ、実行主体の予測の精度を向上させることができる。

ステップ４０４３、第１の特徴と第２の特徴とに基づいて、対象オブジェクト領域を確定する。

実行主体は、第１の特徴及び第２の特徴を得た後、第１の特徴及び第２の特徴に基づいて、対象オブジェクト領域を確定することができる。具体的には、実行主体は、第１の特徴と第２の特徴との重なり状況に基づいて、移動勾配の方向を確定し、それにより融合された第１の特徴と第２の特徴とが完全に一致するまで、初期領域の移動方向及び移動ステップ長を確定し、そのときの初期領域を対象オブジェクト領域として確定する。勾配の方向とは、第１の特徴と第２の特徴とが多く重なる方向である。

本実施形態では、初期領域の第１の特徴と、少なくとも１つの画像フレームのマーキング領域の第２の特徴とを比較することにより、対象オブジェクトが位置する領域を確定する精度を向上させることができる。

具体的には、ステップ４０４３は以下のステップ４０４３１～４０４３２に基づいて確定することができる。

ステップ４０４３１、第１の特徴と第２の特徴との差異を確定する。
第２の特徴には対象オブジェクトのすべての特徴が含まれている。実行主体は、融合された第１の特徴及び第２の特徴を得た後、初期領域の第１の特徴と、少なくとも１つの画像フレームのマーキング領域における第２の特徴とを比較して、第２の特徴に存在し第１の特徴に存在しない特徴を得る。例えば、第２の特徴には色、輪郭、模様が存在し、第１の特徴には輪郭及び色のみが存在し模様がない場合に、模様が第１の特徴と第２の特徴との差異である。

ステップ４０４３２、差異と所定条件とに基づいて、初期領域を更新し、更新後の初期領域を対象オブジェクト領域とする。

実行主体は、第１の特徴と第２の特徴との差異を得た後、オーバーラップ率予測ネットワークを介して、初期領域と少なくとも１つの画像フレームのマーキング領域とのオーバーラップ率を予測することができ、該オーバーラップ率は第１の特徴と第２の特徴との差異を示し、実行主体は差異及び所定条件に基づいて、初期領域を更新し、更新後の初期領域を対象オブジェクト領域とする。第１の特徴と第２の特徴との差異がある箇所は、初期領域と少なくとも１つの画像フレームのマーキング領域とのオーバーラップ率の大きさを反映することができ、差異が大きいほどオーバーラップ率が小さく、差異が小さいほどオーバーラップ率が大きい。具体的には、オーバーラップ率予測ネットワークは、第１の特徴と第２の特徴の差異の所在位置に基づいて、例えば、模様の位置に基づいて、初期領域と少なくとも１つの画像フレームのマーキング領域の勾配を取得し、該勾配の方向がオーバーラップ率を大きくする方向である。実行主体は、勾配が示す方向に初期領域を移動させ、初期領域と少なくとも１つの画像フレームのマーキング領域における第１の特徴と第２の特徴との間のオーバーラップ率をリアルタイムで取得し、オーバーラップ率が所定条件を満たしていない場合（所定条件は、オーバーラップ率が９８％又は９９％に達することであってもよく、本出願は所定条件に対して具体的な限定をしない）、オーバーラップ率予測ネットワークによって、取得したオーバーラップ率の勾配をリアルタイムで計算し、実行主体は該勾配に基づいて再度初期領域を該勾配の方向に沿って移動させるとともに、得られたオーバーラップ率が最大になるまで、初期領域の位置及び輪郭などの情報をリアルタイムで更新し、このときの更新後の初期領域を対象オブジェクト領域とする。

本実施形態では、初期領域の特徴を少なくとも１つの画像フレームにおけるマーキング領域の特徴と比較することにより、初期領域の特徴と少なくとも１つの画像フレームのマーキング領域における特徴とが最大に重なるように、初期領域の位置及び輪郭を調整することで、対象オブジェクト領域を正確に確定することができる。

ステップ４０５、対象オブジェクト領域に基づいて、対象画像フレームを分割する。
実行主体は対象オブジェクト領域を取得した後、対象オブジェクト領域に基づいて、対象画像フレームを分割することができる。具体的には、対象オブジェクト領域を長方形領域とし、該長方形領域を取得した後、長方形領域の長さ及び幅に基づいて、該長方形領域を囲む正方形画像領域を確定する。例示的に、長方形領域の長さと幅をそれぞれｘ、ｙとする。その場合、正方形の辺の長さは

である。ここで、αは事前に設定された検索範囲パラメータであり、本出願はこれに対して特に限定しない。

該長方形領域を囲む正方形画像領域を取得した後、該正方形画像領域における対象オブジェクトの輪郭を分割することで、対象画像フレームの分割を実現する。

ステップ４０５の原理はステップ２０５の原理と同様であり、ここではその説明を省略する。

具体的には、ステップ４０５は以下のステップ４０５１～４０５４に基づいて確定することができる。

ステップ４０５１、少なくとも１つの画像フレームにおける対象オブジェクトの第３の特徴を抽出する。

実行主体は、残差ニューラルネットワークＲｅｓＮｅｔ５０によって、対象画像フレームの前の少なくとも１つの画像フレームにおける対象オブジェクトの上位の特徴、下位の特徴、及び／又は上位と下位とが融合した後の特徴を第３の特徴として抽出する。第３の特徴は、例えば、輪郭特徴、色特徴、模様特徴、長さ特徴、カテゴリ特徴であり得る。

ステップ４０５２、対象オブジェクト領域における対象オブジェクトの第４の特徴を抽出する。

ステップ４０５での正方形画像領域を取得した後、実行主体は、残差ニューラルネットワークＲｅｓＮｅｔ５０によって、対象オブジェクト領域を囲む正方形画像領域における上位の特徴、下位の特徴、及び／又は上位と下位とが融合した後の特徴を第４の特徴として抽出する。第４の特徴は、例えば、輪郭特徴、色特徴、模様特徴、長さ特徴、面積特徴、体積特徴、カテゴリ特徴であり得る。

ステップ４０５３、第４の特徴から第３の特徴にマッチングする第５の特徴を確定する。

実行主体は、取得した第４の特徴を第３の特徴と比較し、第４の特徴から第３の特徴にマッチングする第５の特徴を確定する。ステップ４０５２及びステップ４０５３で列挙された第３の特徴及び第４の特徴に基づいて、第５の特徴が輪郭特徴、色特徴、模様特徴、長さ特徴、及びカテゴリ特徴であることを確定することができる。

ステップ４０５４、第５の特徴に基づいて、対象画像フレームを分割する。
第５の特徴は対象オブジェクトの輪郭、色、模様、長さ、及びカテゴリを表すために使用され、実行主体は示された輪郭、色、模様、長さ、及びカテゴリに基づいて、対象画像フレームにおける対象オブジェクトを正確に分割することができる。

具体的には、該実施形態では、実行主体は、シャムネットワーク（Ｓｉａｍｅｓｅｎｅｔｗｏｒｋ）構造のセグメンテーションネットワークを用いて、対象オブジェクト領域を取り囲む正方形画像領域において第４の特徴に対応する第５の特徴に基づいて、対象オブジェクトの輪郭、色、模様、長さ及びカテゴリを確定することができ、それにより対象オブジェクトに対する分割を正確に実現することができる。具体的には、シャムネットワークは２つのブランチを持つネットワークであり、第１のブランチは少なくとも１つの画像フレームにおける対象オブジェクトの第３の特徴を抽出し、第３の特徴に基づいて該シャムネットワークに対応するモデルパラメータを取得し、第２のブランチは対象オブジェクト領域における対象オブジェクトの第４の特徴を抽出し、第３の特徴と対応するモデルパラメータとに基づいて、第４の特徴から第３の特徴にマッチングする第５の特徴を抽出し、第５の特徴に基づいて対象画像フレームにおける対象オブジェクトを正確に分割することで、対象オブジェクトに対する分割の精度が向上される。

さらに図５を参照し、上記各図に示された方法に対する実施として、本出願は画像を処理するための装置の一実施形態を提供し、該装置の実施形態は図２に示された方法の実施形態と互いに対応し、該装置は具体的に様々な電子機器に適用可能である。

図５に示されているように、本実施形態の画像を処理するための装置５００はビデオ取得ユニット５０１、検索領域確定ユニット５０２、中心位置情報確定ユニット５０３、対象オブジェクト領域確定ユニット５０４及び分割ユニット５０５を含む。

ビデオ取得ユニット５０１は、対象画像フレームと対象オブジェクトがマーキングされた少なくとも１つの画像フレームとを含む対象ビデオを取得するように構成される。

検索領域確定ユニット５０２は、少なくとも１つの画像フレームにおけるマーキングされた対象オブジェクトに基づいて、対象画像フレームにおける対象オブジェクトに対する検索領域を確定するように構成される。

中心位置情報確定ユニット５０３は、検索領域に基づいて、対象オブジェクトの中心位置情報を確定するように構成される。

対象オブジェクト領域確定ユニット５０４は、対象オブジェクトが位置するマーキング領域と中心位置情報とに基づいて、対象オブジェクト領域を確定するように構成される。

分割ユニット５０５は、対象オブジェクト領域に基づいて、対象画像フレームを分割するように構成される。

本実施形態のいくつかのオプション的な実施形態では、検索領域確定ユニット５０２はさらに、マーキング領域に基づいて、検索領域を確定するように構成される。

本実施形態のいくつかのオプション的な実施形態では、検索領域確定ユニット５０２はさらに、対象オブジェクトの平均移動速度を確定し、マーキング領域の位置情報と平均移動速度とに基づいて、検索領域を確定するように構成される。

本実施形態のいくつかのオプション的な実施形態では、中心位置情報確定ユニット５０３はさらに、検索領域の上位の特徴を抽出し、抽出された上位の特徴をフィルタリングし、フィルタリングされた特徴に基づいて、対象オブジェクトの中心位置情報を確定するように構成される。

本実施形態のいくつかのオプション的な実施形態では、対象オブジェクト領域確定ユニット５０４はさらに、中心位置情報とマーキング領域とに基づいて初期領域を確定し、初期領域の第１の特徴及び少なくとも１つの画像フレームのマーキング領域における第２の特徴を確定し、第１の特徴及び第２の特徴に基づいて、対象オブジェクト領域を確定するように構成される。

本実施形態のいくつかのオプション的な実施形態では、対象オブジェクト領域確定ユニット５０４はさらに、初期領域及び少なくとも１つの画像フレームのマーキング領域における下位の特徴及び上位の特徴をそれぞれ抽出し、初期領域の下位の特徴及び上位の特徴を融合して、第１の特徴を取得し、少なくとも１つの画像フレームのマーキング領域における下位の特徴及び上位の特徴を融合して、第２の特徴を取得するように構成される。

本実施形態のいくつかのオプション的な実施形態では、対象オブジェクト領域確定ユニット５０４はさらに、第１の特徴と第２の特徴との差異を確定し、差異及び所定条件に基づいて、初期領域を更新し、更新後の初期領域を対象オブジェクト領域とするように構成される。

本実施形態のいくつかのオプション的な実施形態では、分割ユニット５０５はさらに、少なくとも１つの画像フレームにおける対象オブジェクトの第３の特徴を抽出し、対象オブジェクト領域における対象オブジェクトの第４の特徴を抽出し、第４の特徴から第３の特徴にマッチングする第５の特徴を確定し、第５の特徴に基づいて、対象画像フレームを分割するように構成される。

画像を処理するための装置５００に記載されているユニット５０１～ユニット５０５はそれぞれ図２に説明した方法の各ステップに対応していることが理解される。従って、画像を処理するための方法に対して説明した操作及び特徴は、装置５００及びその中に含まれるユニットにも同様に適用可能であり、ここではその説明を省略する。

本出願の実施形態に基づいて、本出願はさらに電子機器及び可読記憶媒体を提供する。
図６に示すように、本出願の実施形態による画像を処理するための方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、パーソナル・デジタル・アシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他適切なコンピュータなどさまざまな形態のデジタルコンピュータを表すことを目的としている。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および／または要求した本出願の実施形態を限定することを意図するものではない。

図６に示すように、該電子機器は、１つ又は複数のプロセッサ６０１、メモリ６０２、及び高速インターフェース及び低速インターフェースを含む様々なコンポーネントを接続するためのインターフェースを含む。各コンポーネントは、互いに異なるバス６０５で接続されており、共通のマザーボードに実装されていてもよく、又は必要に応じて他の形態で実装されていてもよい。プロセッサは、電子機器内で実行される指令を処理することができ、メモリ内又はメモリに格納されて外部入出力装置（インターフェースなどに接続された表示装置）にＧＵＩのグラフィック情報を表示させる指令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバス６０５を複数のメモリ及び複数のメモリと共に使用してもよい。同様に、複数の電子機器を接続することができ、それぞれの機器はいくつかの必要な操作（例えば、サーバアレイ、一組のブレードサーバ、又はマルチプロセッサシステムとして）を提供する。図６では１つのプロセッサ６０１を例とする。

メモリ６０２は本出願による非一時的コンピュータ可読記憶媒体である。前記メモリは、少なくとも１つのプロセッサによって実行可能な指令を格納しており、前記少なくとも１つのプロセッサに本出願による画像を処理するための方法を実行させる。本出願の非一時的コンピュータ可読記憶媒体は、本出願による画像を処理するための方法をコンピュータに実行させるためのコンピュータ指令を格納する。

メモリ６０２は、非一時的コンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム並びに、例えば本出願の実施形態における画像を処理するための方法に対応するプログラム指令／ユニット（例えば、図５に示すビデオ取得ユニット５０１、検索領域確定ユニット５０２、中心位置情報確定ユニット５０３及び対象オブジェクト領域確定ユニット５０４及び分割ユニット５０５）などのユニットを格納することができる。プロセッサ６０１は、メモリ６０２に格納されている非一時的なソフトウェアプログラム、指令及びモジュールを動作させることにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施形態における画像を処理するための方法を実現する。

メモリ６０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶できるプログラム記憶領域、および画像を処理するための方法を実行する電子機器の使用に作成されるデータ等を記憶できるデータ記憶領域を備えてもよい。また、メモリ６０２は高速ランダムアクセスメモリを含むことができ、また非一時的メモリ（例えば、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリデバイスまたはその他の非一時的ソリッドステート記憶装置）を含み得る。いくつかの実施形態において、メモリ６０２は任意選択でプロセッサ６０１に対して遠隔に設置されたメモリを含み、これらのリモートメモリはネットワークを介して画像を処理するための方法を実行する電子機器に接続することができる。上記ネットワークとしては、例えば、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信網およびこれらの組み合わせなどが挙げられるが、それらに限定されない。

画像を処理するための方法を実行する電子機器はさらに入力装置６０３及び出力装置６０４を含むことができる。プロセッサ６０１、メモリ６０２、入力装置６０３及び出力装置６０４は、バス６０５又はその他の形態で接続されていてもよく、図６ではバス６０５を介して接続されている例を示している。

入力装置６０３は、入力されたデジタル又は文字情報を受け取り、画像を処理するための方法を実行する電子機器のユーザ設定や機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングデバイス、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置を含む。出力装置６０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含み得る。該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含むがそれらに限定されない。いくつかの実施形態において、表示装置はタッチスクリーンであってもよい。

ここで記述するシステムおよび技術の各実施形態はデジタル電子回路システム、集積回路システム、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実装され得る。これらの各実施形態は、１つまたは複数のコンピュータプログラムに実装され、該１つまたは複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および／または解釈することができ、該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置および少なくとも１つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を該記憶システム、該少なくとも１つの入力装置および該少なくとも１つの出力装置に伝送することを含み得る。

これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも呼ばれ、プログラマブルプロセッサの機械命令を含み、且つ高度プロセスおよび／またはオブジェクト指向のプログラミング言語、および／またはアセンブリ言語／機械語により実装され得る。ここで、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械指令および／またはデータをプログラマブルプロセッサに供給するための任意のコンピュータプログラム、機器、および／または装置（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を意味し、機械可読信号である機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに供給するための任意の信号を意味する。

ユーザとのやりとりを行うために、ここで記述するシステムと技術は、ユーザに情報を表示するための表示装置（例えば、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ，ＣＲＴ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。

ここで記述したシステムおよび技術は、バックグラウンドコンポーネントを含む演算システム（例えば、データサーバ）に実施されてもよく、またはミドルウェアコンポーネントを含む演算システム（例えば、アプリケーションサーバ）に実施されてもよく、またはフロントエンドコンポーネントを含む演算システム（例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ）に実施されてもよく、ユーザは該グラフィカルユーザインタフェースまたはウェブブラウザを介してここで記述したシステムおよび技術の実施形態とやりとりを行っていてもよく、またはこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含む演算システムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）およびインターネットなどを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント－サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。

本出願の実施形態の技術的手段によれば、対象オブジェクトをロバストに位置特定するとともに精細な対象分割結果を提供することができる。

上記に示した様々な形態のプロセスを用いて、ステップを順番変更したり、追加したり又は削除したりすることができることを理解すべきである。本出願が開示する技術的手段の望ましい結果を実現することができれば、例えば、本出願に記載された各ステップは並行して又は順番通りに又は異なる順番で実行されてもよく、本明細書はここでは限定しない。

上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを当業者は理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

対象画像フレームと対象オブジェクトがマーキングされた少なくとも１つの画像フレームとが含まれる対象ビデオを取得する対象ビデオ取得ステップと、
前記少なくとも１つの画像フレームにおけるマーキングされた対象オブジェクトに基づいて、前記対象画像フレームにおいて前記対象オブジェクトに対する検索領域を確定する検索領域確定ステップと、
前記検索領域に基づいて、前記対象オブジェクトの中心位置の情報を確定する中心位置情報確定ステップと、
前記対象画像フレームにおいて、前記対象オブジェクトの前記中心位置を中心とし、前記対象オブジェクトの１つ前のフレームにおけるマーキング領域と同じの領域を分割の対象となる対象オブジェクト領域として作成する対象オブジェクト領域確定ステップと、
前記分割の対象となる対象オブジェクト領域に基づいて、前記対象画像フレームを分割する分割ステップとを含み、
前記検索領域確定ステップは、前記対象画像フレームの１つ前のフレームにおける前記対象オブジェクトの位置を円心とし、前記対象画像フレームの２つ前のフレームから前記１つ前のフレームまでの前記対象オブジェクトの移動距離を半径とした円形領域を取得し、前記円形領域に基づいて前記対象画像フレームにおける前記対象オブジェクトの検索領域を特定するステップを含み、
前記中心位置情報確定ステップは、前記検索領域における上位の特徴を抽出してフィルタリングし、前記検索領域におけるフィルタリングにより得られた前記少なくとも１つの画像フレームのマーキング領域における中心位置の上位の特徴と同様である上位の特徴の位置を、前記対象オブジェクトの前記中心位置の情報とするステップを含む、画像を処理するための方法。
前記検索領域確定ステップは、
前記対象画像フレームの１つ前のフレームにおける前記対象オブジェクトの中心位置を起点とし、前記対象画像フレームの前の３つのフレームにおける前記対象オブジェクトの移動距離の和の平均値を半径とし、進行方向に構成される扇形領域を前記対象画像フレームにおける検索領域とするステップをさらに含み、
前記進行方向は前記対象画像フレームの前の３つのフレームに基づいて確定された前記対象オブジェクトの移動方向及び該移動方向間のなす角からなる方向である
請求項１に記載の方法。
前記検索領域確定ステップは、
前記対象オブジェクトの平均移動速度を確定するステップであって、前記対象画像フレームの前の所定数のフレームの画像において、隣接する２フレーム毎における前記対象オブジェクトの位置の変化距離と、フレーム毎の所定時間とに基づいて、隣接する２フレーム毎の対象移動速度を算出し、隣接する２フレーム毎の対象移動速度を加算し平均値を取って、前記対象画像フレームにおける前記対象オブジェクトの平均移動速度とするステップと、
前記マーキング領域の位置情報と前記平均移動速度とに基づいて、前記検索領域を確定するステップとをさらに含む、請求項２に記載の方法。
前記上位の特徴は、特徴の細部を表すものであり、模様特徴を含む、請求項１に記載の方法。
前記対象オブジェクト領域確定ステップは、
前記中心位置の情報と前記マーキング領域とに基づいて、初期領域を確定するステップと、
前記初期領域の第１の特徴及び前記少なくとも１つの画像フレームのマーキング領域の第２の特徴を確定するステップと、
前記第１の特徴と前記第２の特徴とに基づいて、対象オブジェクト領域を確定するステップとを含み、
前記第２の特徴は前記第１の特徴のタイプに対応する特徴であり、前記タイプは上位の特徴および下位の特徴を含み、
前記下位の特徴は特徴の意味部分を表すものであり、色、輪郭を含む、請求項１に記載の方法。
前記初期領域の第１の特徴及び前記少なくとも１つの画像フレームのマーキング領域の第２の特徴を確定するステップは、
前記初期領域と、前記少なくとも１つの画像フレームのマーキング領域との下位の特徴及び上位の特徴をそれぞれ抽出するステップと、
前記初期領域における下位の特徴と上位の特徴とを融合して、前記第１の特徴を取得するステップと、
前記少なくとも１つの画像フレームのマーキング領域における下位の特徴と上位の特徴とを融合して、前記第２の特徴を取得するステップとを含む、請求項５に記載の方法。
前記第１の特徴と前記第２の特徴とに基づいて、対象オブジェクト領域を確定するステップは、
前記第１の特徴と前記第２の特徴との差異を確定するステップと、
前記第１の特徴と前記第２の特徴との差異が所定条件を満たさない場合、オーバーラップ率予測ネットワークによって前記初期領域の位置および輪郭を更新し、更新後の初期領域を前記対象オブジェクト領域とするステップとを含む、請求項５に記載の方法。
前記分割ステップは、
前記少なくとも１つの画像フレームにおける前記対象オブジェクトの第３の特徴を抽出するステップと、
前記対象オブジェクト領域における前記対象オブジェクトの第４の特徴を抽出するステップと、
前記第４の特徴から前記第３の特徴にマッチングする第５の特徴を確定するステップと、
前記第５の特徴に基づいて、前記対象画像フレームを分割するステップとを含む、請求項１に記載の方法。
対象画像フレームと対象オブジェクトがマーキングされた少なくとも１つの画像フレームとが含まれる対象ビデオを取得するように構成されるビデオ取得ユニットと、
前記少なくとも１つの画像フレームにおけるマーキングされた対象オブジェクトに基づいて、前記対象画像フレームにおいて前記対象オブジェクトに対する検索領域を確定するように構成される検索領域確定ユニットと、
前記検索領域に基づいて、前記対象オブジェクトの中心位置の情報を確定するように構成される中心位置情報確定ユニットと、
前記対象画像フレームにおいて、前記対象オブジェクトの前記中心位置を中心とし、前記対象オブジェクトの１つ前のフレームにおけるマーキング領域と同じの領域を分割の対象となる対象オブジェクト領域として作成するように構成される対象オブジェクト領域確定ユニットと、
前記分割の対象となる対象オブジェクト領域に基づいて、前記対象画像フレームを分割するように構成される分割ユニットとを備え、
前記検索領域確定ユニットは、前記対象画像フレームの１つ前のフレームにおける前記対象オブジェクトの位置を円心とし、前記対象画像フレームの２つ前のフレームから前記１つ前のフレームまでの前記対象オブジェクトの移動距離を半径とした円形領域を取得し、前記円形領域に基づいて前記対象画像フレームにおける前記対象オブジェクトの検索領域を特定するように構成され、
前記中心位置情報確定ユニットは、前記検索領域における上位の特徴を抽出してフィルタリングし、前記検索領域におけるフィルタリングにより得られた前記少なくとも１つの画像フレームのマーキング領域における中心位置の上位の特徴と同様である上位の特徴の位置を、前記対象オブジェクトの前記中心位置の情報とするように構成される、画像を処理するための装置。
前記検索領域確定ユニットはさらに、
前記対象画像フレームの１つ前のフレームにおける前記対象オブジェクトの中心位置を起点とし、前記対象画像フレームの前の３つのフレームにおける前記対象オブジェクトの移動距離の和の平均値を半径とし、進行方向に構成される扇形領域を前記対象画像フレームにおける検索領域とするように構成され、
前記進行方向は前記対象画像フレームの前の３つのフレームに基づいて確定された前記対象オブジェクトの移動方向及び該移動方向間のなす角からなる方向である、請求項９に記載の装置。
前記検索領域確定ユニットはさらに、
前記対象オブジェクトの平均移動速度を確定するステップであって、前記対象画像フレームの前の所定数のフレームの画像において、隣接する２フレーム毎における前記対象オブジェクトの位置の変化距離と、フレーム毎の所定時間とに基づいて、隣接する２フレーム毎の対象移動速度を算出し、隣接する２フレーム毎の対象移動速度を加算し平均値を取って、前記対象画像フレームにおける前記対象オブジェクトの平均移動速度とするステップと、
前記マーキング領域の位置情報と前記平均移動速度とに基づいて、前記検索領域を確定するステップと、を行うように構成される、請求項１０に記載の装置。
前記上位の特徴は、特徴の細部を表すものであり、模様特徴を含む、請求項９に記載の装置。
前記対象オブジェクト領域確定ユニットはさらに、
前記中心位置の情報と前記マーキング領域とに基づいて、初期領域を確定し、
前記初期領域の第１の特徴及び前記少なくとも１つの画像フレームのマーキング領域の第２の特徴を確定し、
前記第１の特徴と前記第２の特徴とに基づいて、対象オブジェクト領域を確定するように構成され、
前記第２の特徴は前記第１の特徴のタイプに対応する特徴であり、前記タイプは上位の特徴および下位の特徴を含み、
前記下位の特徴は特徴の意味部分を表すものであり、色、輪郭を含む、請求項９に記載の装置。
前記対象オブジェクト領域確定ユニットはさらに、
前記初期領域と、前記少なくとも１つの画像フレームのマーキング領域との下位の特徴及び上位の特徴をそれぞれ抽出し、
前記初期領域の下位の特徴と上位の特徴とを融合して、前記第１の特徴を取得し、
前記少なくとも１つの画像フレームのマーキング領域における下位の特徴と上位の特徴とを融合して、前記第２の特徴を取得するように構成される、請求項１３に記載の装置。
前記対象オブジェクト領域確定ユニットはさらに、
前記第１の特徴と前記第２の特徴との差異を確定し、
前記第１の特徴と前記第２の特徴との差異が所定条件を満たさない場合、オーバーラップ率予測ネットワークによって前記初期領域の位置および輪郭を更新し、更新後の初期領域を前記対象オブジェクト領域とするように構成される、請求項１３に記載の装置。
前記分割ユニットはさらに、
前記少なくとも１つの画像フレームにおける前記対象オブジェクトの第３の特徴を抽出し、
前記対象オブジェクト領域における前記対象オブジェクトの第４の特徴を抽出し、
前記第４の特徴から前記第３の特徴にマッチングする第５の特徴を確定し、
前記第５の特徴に基づいて、前記対象画像フレームを分割する、請求項９に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリとを備え、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な指令が格納されており、前記指令は前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに請求項１～８のいずれか１項に記載の方法を実行させる、ことを特徴とする画像を処理するための電子機器。
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令は請求項１～８のいずれか１項に記載の方法をコンピュータに実行させるために使用される、ことを特徴とする非一時的コンピュータ可読記憶媒体。
プロセッサにより実行されると、請求項１～８のいずれか一項に記載の方法を実現する、コンピュータプログラム。