JP2022506637A

JP2022506637A - 画像処理方法および装置、ネットワークトレーニング方法および装置

Info

Publication number: JP2022506637A
Application number: JP2021524161A
Authority: JP
Inventors: シアオハンジャン; シンガンパン; ズーウェイリウ; ダーホワリン; チェンチャンロイ
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2019-01-29
Filing date: 2019-10-31
Publication date: 2022-01-17
Also published as: CN109840917B; WO2020155713A1; US20210279892A1; CN109840917A; SG11202105631YA

Abstract

本開示は、画像処理方法および装置、ネットワークトレーニング方法および装置に関し、前記画像処理方法は、処理される画像内の目標対象に設定されたガイドグループを決定することであって、前記ガイドグループは、少なくとも１つのガイドポイントを含み、前記ガイドポイントは、サンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を示すことと、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含む。【選択図】図１

Description

本願は、２０１９年０１月２９日に中国特許局に提出された、出願番号が２０１９１００８６０４４．３であり、発明の名称が「画像処理方法および装置、ネットワークトレーニング方法および装置」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照により本願に組み込まれている。

本開示は、画像処理技術分野に関し、特に、画像処理方法および装置、ネットワークトレーニング方法および装置に関する。

科学技術の発展に伴い、知能システムは、人間をシミュレートして物体の運動から物体の運動特徴を学習し、学習した運動特徴により、物体検出やセグメンテーションなどの高レベルの視覚的タスクを実現することができる。

物体と運動特徴との間に、強い関連関係があると仮定することにより、例えば、同じ物体の画素の運動が一致すると仮定することにより、物体の運動を予測する。ただし、ほとんどの物体の自由度が高く、運動は通常複雑であるため、同じ物体であっても、異なるパーツの間では、水平移動、回転、変形などの様々な運動モードがあるため、物体と運動特徴との間に特定の強い関連関係があるという仮説に基づく運動予測の精度は低い。

本開示は、画像処理方法および装置、ネットワークトレーニング方法および装置に関する技術的解決策を提案する。

本開示の一態様によれば、画像処理方法を提供し、前記方法は、
処理される画像内の目標対象に設定されたガイドグループを決定することであって、前記ガイドグループは、少なくとも１つのガイドポイントを含み、前記ガイドポイントは、サンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を示し、前記サンプリング画素は、前記処理される画像内の目標対象の画素であることと、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含む。

一可能な実施形態では、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向、前記ガイドグループ内のガイドポイントが指示するサンプリング画素の位置、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することを含む。

一可能な実施形態では、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向に従って、処理される画像内の目標対象に対応するスパース運動を生成することであって、前記スパース運動は、前記目標対象の各サンプリング画素の運動速度の大きさと方向を指示することと、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の位置に従って、処理される画像内の目標対象に対応するバイナリマスクを生成することであって、前記バイナリマスクは、前記目標対象の各サンプリング画素の位置を指示することと、
前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含む。

一可能な実施形態では、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像を、第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することを含む。

一可能な実施形態では、前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記処理される画像内の目標対象に対応するスパース運動とバイナリマスクに対して特徴抽出を実行して、第１特徴を取得することと、
前記処理される画像に対して特徴抽出を実行して、第２特徴を取得することと、
前記第１特徴と前記第２特徴を連結して、第３特徴を取得することと、
前記第３特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含む。

一可能な実施形態では、前記第３特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記第３特徴を、少なくとも２つの伝播ネットワークにそれぞれ入力して全画像伝播処理を実行して、各伝播ネットワークに対応する伝播結果を取得することと、
前記各伝播ネットワークに対応する伝播結果を前記融合ネットワークに入力して融合処理を実行して、前記処理される画像内の目標対象の運動を取得することと、を含む。

一可能な実施形態では、前記処理される画像内の目標対象に設定されたガイドグループを決定することは、
処理される画像内の目標対象に設定された複数のガイドグループを決定することを含み、前記複数のガイドグループ内の少なくとも１つのガイドポイントは異なる。

一可能な実施形態では、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
各ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記目標対象の対応する運動を取得することを含む。

一可能な実施形態では、前記画像処理方法は、
各ガイドグループのガイド下での前記目標対象の対応する運動に従って、前記処理される画像をマッピングして、各ガイドグループに対応する新しい画像を取得することと、
前記処理される画像および前記各ガイドグループに対応する新しい画像に従って、ビデオを生成することと、をさらに含む。

一可能な実施形態では、処理される画像内の目標対象に設定されたガイドグループを決定することは、
前記処理される画像内の第１目標対象に設定された少なくとも１つの第１ガイドポイントを決定することと、
前記少なくとも１つの第１ガイドポイントに従って複数のガイドグループを生成することであって、同じガイドグループ内の第１ガイドポイントの方向は同じであり、異なるガイドグループ内の第１ガイドポイントの方向は異なることと、を含む。

一可能な実施形態では、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
各ガイドグループ内の前記第１ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得することを含む。

一可能な実施形態では、前記画像処理方法は、
各ガイドグループのガイド下での前記処理される画像内の前記第１目標の対応する運動を融合して、前記処理される画像内の第１目標対象に対応するマスクを取得することをさらに含む。

一可能な実施形態では、前記画像処理方法は、
処理される画像に設定された少なくとも１つの第２ガイドポイントを決定することをさらに含み、前記第２ガイドポイントの運動速度は０であり、
前記各ガイドグループ内の前記第１ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得することは、
各ガイドグループ内の前記第１ガイドポイント、第２ガイドポイント、および前記処理される画像に従ってオプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得することを含む。

本開示の一態様によれば、ネットワークトレーニング方法を提供し、前記方法は、
第１サンプルグループを取得することであって、前記第１サンプルグループは、処理される画像サンプルおよび前記処理される画像サンプル内の目標対象に対応する第１運動を含むことと、
前記第１運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得することと、
前記処理される画像サンプル内の目標対象に対応するスパース運動、バイナリマスク、および前記処理される画像サンプルを第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像サンプル内の目標対象に対応する第２運動を取得することと、
前記第１運動および前記第２運動に従って、前記第１ニューラルネットワークの運動損失を決定することと、
前記運動損失に従って、前記第１ニューラルネットワークのパラメータを調整することと、を含む。

一可能な実施形態では、前記第１ニューラルネットワークは、条件付き運動伝播ネットワークである。

一可能な実施形態では、前記第１運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得することは、
前記第１運動に対してエッジ抽出処理を実行して、前記第１運動に対応するエッジマップを取得することと、
前記エッジマップから少なくとも１つのキーポイントを決定することと、
前記少なくとも１つのキーポイントの位置に従って、前記処理される画像サンプル内の目標対象に対応するバイナリマスクを取得し、前記少なくとも１つのキーポイントに対応する運動に従って、前記処理される画像サンプル内の目標対象に対応するスパース運動を取得することと、を含む。

本開示の一態様によれば、画像処理装置を提供し、前記装置は、
処理される画像内の目標対象に設定されたガイドグループを決定するように構成される第１決定モジュールであって、前記ガイドグループは、少なくとも１つのガイドポイントを含み、前記ガイドポイントは、サンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を示し、前記サンプリング画素は、前記処理される画像内の目標対象の画素である第１決定モジュールと、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される予測モジュールと、を備える。

一可能な実施形態では、前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向、前記ガイドグループ内のガイドポイントが指示するサンプリング画素の位置、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される。

一可能な実施形態では、前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向に従って、処理される画像内の目標対象に対応するスパース運動を生成し、前記スパース運動は、前記目標対象の各サンプリング画素の運動速度の大きさと方向を指示し、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の位置に従って、処理される画像内の目標対象に対応するバイナリマスクを生成し、前記バイナリマスクは、前記目標対象の各サンプリング画素の位置を指示し、
前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される。

一可能な実施形態では、前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像を、第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される。

一可能な実施形態では、前記予測モジュールは、
前記処理される画像内の目標対象に対応するスパース運動とバイナリマスクに対して特徴抽出を実行して、第１特徴を取得するように構成されるスパース運動符号化モジュールと、
前記処理される画像に対して特徴抽出を実行して、第２特徴を取得するように構成される画像符号化モジュールと、
前記第１特徴と前記第２特徴を連結して、第３特徴を取得するように構成される連結モジュールと、
前記第３特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される高密度運動復号化モジュールと、を備える。

一可能な実施形態では、前記高密度運動復号化モジュールは、さらに、
前記第３特徴を、少なくとも２つの伝播ネットワークにそれぞれ入力して全画像伝播処理を実行して、各伝播ネットワークに対応する伝播結果を取得し、
前記各伝播ネットワークに対応する伝播結果を融合ネットワークに入力して融合処理を実行して、前記処理される画像内の目標対象の運動を取得するように構成される。

一可能な実施形態では、前記第１決定モジュールは、さらに、
処理される画像内の目標対象に設定された複数のガイドグループを決定するように構成され、前記複数のガイドグループ内の少なくとも１つのガイドポイントは異なる。

一可能な実施形態では、前記予測モジュールは、さらに、
各ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記目標対象の対応する運動を取得するように構成される。

一可能な実施形態では、前記画像処理装置は、
各ガイドグループのガイド下での前記目標対象の対応する運動に従って、前記処理される画像をマッピングして、各ガイドグループに対応する新しい画像を取得するように構成されるマッピングモジュールと、
前記処理される画像および前記各ガイドグループに対応する新しい画像に従って、ビデオを生成するように構成されるビデオ生成モジュールと、をさらに備える。

一可能な実施形態では、前記第１決定モジュールは、さらに、
前記処理される画像内の第１目標対象に設定された少なくとも１つの第１ガイドポイントを決定し、
前記少なくとも１つの第１ガイドポイントに従って複数のガイドグループを生成するように構成され、同じガイドグループ内の第１ガイドポイントの方向は同じであり、異なるガイドグループ内の第１ガイドポイントの方向は異なる。

一可能な実施形態では、前記予測モジュールは、さらに、
各ガイドグループ内の前記第１ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得するように構成される。

一可能な実施形態では、前記画像処理装置は、
各ガイドグループのガイド下での前記処理される画像内の前記第１目標の対応する運動を融合して、前記処理される画像内の第１目標対象に対応するマスクを取得するように構成される融合モジュールをさらに備える。

一可能な実施形態では、前記画像処理装置は、
処理される画像に設定された少なくとも１つの第２ガイドポイントを決定するように構成される第２決定モジュールをさらに備え、前記第２ガイドポイントの運動速度は０であり、
前記予測モジュールは、さらに、
各ガイドグループ内の前記第１ガイドポイント、第２ガイドポイント、および前記処理される画像に従ってオプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得するように構成される。

本開示の一態様によれば、ネットワークトレーニング装置を提供し、前記装置は、
第１サンプルグループを取得するように構成される取得モジュールであって、前記第１サンプルグループは、処理される画像サンプルおよび前記処理される画像サンプル内の目標対象に対応する第１運動を含む取得モジュールと、
前記第１運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得するように構成される処理モジュールと、
前記処理される画像サンプル内の目標対象に対応するスパース運動、バイナリマスク、および前記処理される画像サンプルを第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像サンプル内の目標対象に対応する第２運動を取得するように構成される予測モジュールと、
前記第１運動および前記第２運動に従って、前記第１ニューラルネットワークの運動損失を決定するように構成される決定モジュールと、
前記運動損失に従って、前記第１ニューラルネットワークのパラメータを調整するように構成される調整モジュールと、を備える。

一可能な実施形態では、前記処理モジュールは、さらに、
前記第１運動に対してエッジ抽出処理を実行して、前記第１運動に対応するエッジマップを取得し、
前記エッジマップから少なくとも１つのキーポイントを決定し、
前記少なくとも１つのキーポイントの位置に従って、前記処理される画像サンプル内の目標対象に対応するバイナリマスクを取得し、前記少なくとも１つのキーポイントに対応する運動に従って、前記処理される画像サンプル内の目標対象に対応するスパース運動を取得するように構成される。

本開示の一態様によれば、電子機器を提供し、前記電子機器は、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、上記の方法を実行するように構成される。

本開示の一態様によれば、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、上記の方法を実現する。

本開示の一態様によれば、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、上記の方法を実現するための命令を実行させる。

本開示の実施例では、処理される画像内の目標対象に設定された、少なくとも１つのガイドポイントを含むガイドグループを取得した後、ガイドグループに含まれるガイドポイントおよび処理される画像に従って、オプティカルフロー予測を実行して、処理される画像内の目標対象の運動を取得することができる。本開示の実施例で提供される画像処理方法および装置によれば、ガイドポイントのガイドにより、目標対象の運動を予測することができ、目標対象とその運動との間の強い関連性に依存せずに、目標対象の運動を予測する品質を向上させることができる。

以上の一般的な説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本開示を制限しないことを理解すべきである。

以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明確になる。

ここでの図面は、本明細書に組み込まれ、本明細書の一部を構成し、これらの図面は、本開示に準拠する実施例を示し、本明細書とともに本開示の技術的解決策を説明するために使用される。
本開示の実施例による画像処理方法のフローチャートである。本開示の一例示的な処理される画像に対するガイドポイント設定の概略図である。本開示の一例示的なオプティカルフローの概略図である。本開示の一例示的なスパース運動およびバイナリマスクの概略図である。本開示の実施例による画像処理方法のフローチャートである。本開示の実施例における第１ニューラルネットワークの概略図である。本開示の実施例による画像処理方法のフローチャートである。本開示の一例示的なビデオ生成プロセスの概略図である。本開示の実施例による画像処理方法のフローチャートである。本開示の一例示的なマスク生成プロセスの概略図である。本開示の実施例によるネットワークトレーニング方法のフローチャートである。本開示の実施例による画像処理装置の構造ブロック図である。本開示の実施例によるネットワークトレーニング装置の構造ブロック図である。一例示的な実施例による電子機器８００のブロック図である。一例示的な実施例による電子機器１９００のブロック図である。

以下、図面を参照しながら本開示の様々な例示的な実施例、特徴、および態様を詳細に説明する。図面における同じ参照符号は、同じまたは類似の機能を有する要素を表す。実施例の様々な態様が図面に示されるが、特に明記しない限り、必ずしも縮尺通りに図面を作る必要はない。

本明細書で使用される「例示的」という用語は、「例、実施例として用いられることまたは説明的なもの」を意味する。本明細書で「例示的」として説明される任意の実施例は、他の実施例より優れるまたは良好なものと解釈すべきではない。

本明細書における「および／または」という用語は、関連付けられたオブジェクトを説明する単なる関連付けであり、３種類の関係が存在することができることを示し、例えば、Ａおよび／またはＢは、Ａが独立で存在する場合、ＡとＢが同時に存在する場合、Ｂが独立で存在する場合の３つの場合を表す。また、本明細書における「少なくとも１つ」という用語は、複数のうちのいずれか１つまたは複数のうちの少なくとも２つの任意の組み合わせを意味し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、ＢおよびＣからなるセットから選択されるいずれか１つまたは複数の要素を含むことを意味することができる。

また、本開示をより効果的に説明するために、以下の具体的な実施形態では、多くの具体的な詳細を提供する。当業者であれば、本開示は、いくつかの特定の詳細なしに実施することもできることを理解すべきである。いくつかの実施例において、本開示の要旨を強調するために、当業者に既知の方法、手段、要素、および回路に対する詳細な説明を省略する。

図１は、本開示の実施例による画像処理方法のフローチャートである。当該画像処理方法は、端末機器または他の処理機器によって実行でき、ここで、端末機器は、ユーザ機器（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルドデバイス、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。他の処理機器は、サーバまたはクラウドサーバであってもよい。いくつかの可能な実施形態では、当該画像処理方法は、メモリに記憶されたコンピュータ可読命令をプロセッサにより呼び出すことで実現してもよい。

図１に示されるように、当該画像処理方法は以下のステップを含む。

ステップ１０１において、処理される画像内の目標対象に設定されたガイドグループを決定し、前記ガイドグループは、少なくとも１つのガイドポイントを含み、前記ガイドポイントは、サンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を示す。

例えば、処理される画像内の目標対象に少なくとも１つのガイドポイントを設定することができ、前記少なくとも１つのガイドポイントは、１つのガイドグループを構成することができる。ここで、任意のガイドポイントは、１つのサンプリング画素に対応することができ、前記ガイドポイントは、前記ガイドポイントに対応するサンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を含み得る。

例示的に、処理される画像内の目標対象上で複数のサンプリング画素を決定し、前記複数のサンプリング画素にガイドポイントを設定することができる（前記サンプリング画素の運動速度の大きさと方法の設定を含む）。

図２は、本開示の一例示的な処理される画像に対するガイドポイント設定の概略図である。

例えば、図２に示す処理される画像を参照すると、前記処理される画像内の目標対象は人物であり、つまり、この例では人物の運動を予測する必要がある。この場合、人物の身体および頭などの要所にガイドポイントを設定でき、前記ガイドポイントは、矢印の形で表すことができ、ここで、矢印の長さは、前記ガイドポイントが指示するサンプリング画素の運動速度の大きさ（以下、ガイドポイントが指示する運動速度の大きさと略称する）にマッピングし、矢印の方向は、前記ガイドポイントが指示するサンプリング画素の運動速度の方向（以下、ガイドポイントが指示する運動速度の方向と略称する）にマッピングすることができる。ユーザは、矢印の方向を設定することで、ガイドポイントが指示する運動速度の方向を設定でき、矢印の長さを設定することで、ガイドポイントが指示する運動速度の大きさを設定でき（または、入力ボックスを使用して、ガイドポイントが指示する運動速度の大きさを入力することができる）、または、ガイドポイントの位置を選択した後、入力ボックスを使用して、ガイドポイントが指示する運動速度の方向（ガイドポイントが指示する運動速度の方向は、角度（０～３６０°）で表すことができる）および運動速度の大きさを入力することができる。本開示は、ガイドポイントの設定方式を特に限定しない。

ステップ１０２において、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得する。

一可能な実施形態では、上記のステップ１０２において、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像を、第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することを含み得る。

例えば、上記の第１ニューラルネットワークは、ガイドポイントが指示する運動速度の大きさと方向を全画像伝播してオプティカルフロー予測を実行するために、大量のトレーニングサンプルを使用してトレーニングすることで得られたネットワークである。ガイドグループを取得した後、ガイドグループの目標対象に設定されたガイドポイント（位置、運動速度の大きさと方向）および処理される画像を第１ニューラルネットワークに入力してオプティカルフロー予測を実行することにより、設定されたガイドポイントを使用して、処理される画像内の目標対象に対応する画素の運動をガイドして、処理される画像内の目標対象の運動を取得することができる。上記の第１ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。

図３は、本開示の一例示的なオプティカルフローの概略図である。

例示的に、図３の１行目の画像に示されるように、順番に、処理される画像内の人物の左足に１つのガイドポイントを設定し、処理される画像内の人物の左足と左脚にそれぞれ１つのガイドポイントを設定し、処理される画像内の人物の左足、左脚および頭にそれぞれ１つのガイドポイントを設定し、処理される画像画像内の人物の左足、左脚、頭および胴体にそれぞれ１つのガイドポイントを設定し、処理される画像内の人物の左足、左脚、頭、胴体および右脚にそれぞれ１つのガイドポイントを設定する。この場合、上記５つのガイドポイントの設定方式で設定されたガイドポイントをそれぞれ第１ニューラルネットワークに入力して、人物の左足に対応する運動、人物の左足と左脚に対応する運動、人物の左足、左脚および頭に対応する運動、人物の左足、左脚、頭および胴体に対応する運動、人物の左足、左脚、頭、胴体および右脚に対応する運動を生成する。ここで、上記の５つのガイドポイントの設定方式によって生成された運動に対応するオプティカルフローマップは、図３の２行目の画像に示す通りである。第１ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。

このように、処理される画像内の目標対象に設定された、少なくとも１つのガイドポイントを含むガイドグループを取得した後、ガイドグループに含まれるガイドポイントおよび処理される画像に従って、オプティカルフロー予測を実行して、処理される画像内の目標対象の運動を取得することができる。本開示の実施例で提供される画像処理方法によれば、ガイドポイントのガイドにより、目標対象の運動を予測することができ、目標対象とその運動との間の強い関連性に依存せずに、目標対象の運動を予測する品質を向上させることができる。

一可能な実施形態では、上記のステップ１０２において、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向、前記ガイドグループ内のガイドポイントが指示するサンプリング画素の位置、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することを含み得る。

例えば、ガイドグループ内のガイドポイントおよび前記処理される画像を第１ニューラルネットワークに入力し、第１ニューラルネットワークによって、ガイドポイントが指示する運動速度の大きさと方向、およびガイドグループ内のガイドポイントが指示するサンプリング画素の位置を、処理される画像で全画像伝播することにより、ガイドポイントに従って処理される画像内の目標対象の運動をガイドして、処理される画像内の目標対象の運動を取得することができる。

一可能な実施形態では、上記のステップ１０２において、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向に従って、処理される画像内の目標対象に対応するスパース運動を生成することであって、前記スパース運動は、前記目標対象の各サンプリング画素の運動速度の大きさと方向を指示することと、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の位置に従って、処理される画像内の目標対象に対応するバイナリマスクを生成することと、
前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含み得る。

図４は、本開示の一例示的なスパース運動およびバイナリマスクの概略図である。

例えば、ガイドグループ内のすべてのガイドポイントが指示する運動速度の大きさと方向に従って、処理される画像内の目標対象に対応するスパース運動を生成することができ、前記スパース運動は、目標対象の各サンプリング画素の運動速度の大きさと方向（図２に示す処理される画像のガイドポイントに対応するスパース運動については、図４を参照することができる）を指示し、ガイドグループ内のすべてのガイドポイントが指示する位置に従って、処理される画像内の目標対象に対応するバイナリマスクを生成することができ、前記バイナリマスクは、目標対象の各サンプリング画素の位置（図２に示される処理される画像のガイドポイントに対応するバイナリマスクについては、図４を参照することができる）を指示するために使用されることができる。

例えば、上記のスパース運動、バイナリマスク、および前記処理される画像を第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することができる。第１ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。

本開示の実施例で提供される画像処理方法によれば、ガイドポイントのガイドにより、目標対象の運動を予測することができ、目標対象とその運動との間の強い関連性に依存せずに、目標対象の運動を予測する品質を向上させることができる。

図５は、本開示の実施例による画像処理方法のフローチャートであり、図６は、本開示の実施例における第１ニューラルネットワークの概略図である。

一可能な実施形態では、図６に示されるように、前記第１ニューラルネットワークは、第１符号化ネットワーク、第２符号化ネットワーク、および復号化ネットワークを含むことができ、図５と図６を参照すると、前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、以下のステップ含み得る。

ステップ１０２１において、前記処理される画像内の目標対象に対応するスパース運動とバイナリマスクに対して特徴抽出を実行して、第１特徴を取得する。

例えば、処理される画像内の目標対象に対応するスパース運動およびバイナリマスクを第１符号化ネットワークに入力して特徴抽出を実行して、第１特徴を取得することができる。上記の第１符号化ネットワークは、目標対象のスパース運動とバイナリマスクを符号化して、コンパクトなスパース運動特徴を取得するためのニューラルネットワークであり得、前記コンパクトなスパース運動特徴は、第１特徴である。例えば、第１符号化ネットワークは、２つのＣｏｎｖ－ＢＮ－ＲｅＬＵ－Ｐｏｏｌｉｎｇブロック（畳み込み－バッチ標準化・アクティベーション・プーリング）で構成されるニューラルネットワークであり得る。

ステップ１０２２において、前記処理される画像中に対して特徴抽出を実行して、第２特徴を取得する。

例えば、前記処理される画像を第２符号化ネットワークに入力して特徴抽出を実行して、第２特徴を取得することができる。上記の第２符号化ネットワークを使用して、処理される画像を符号化することにより、静的な処理される画像から目標対象の運動学的学属性を抽出して（例えば、人物の下腿が剛体構造であることや全体的な運動などの特徴を抽出する）、深層特徴を取得することができ、前記深層特徴は第２特徴である。第２符号化ネットワークはニューラルネットワークであり得、例えば、ＡｌｅｘＮｅｔ／ＲｅｓＮｅｔ－５０と１つの畳み込み層で構成されるニューラルネットワークであり得る。

ステップ１０２３において、前記第１特徴と前記第２特徴を連結して、第３特徴を取得する。

例えば、上記の第１特徴および第２特徴が両方ともテンソルである場合、第１特徴と第２特徴を連結して、第３特徴を取得でき、前記第３特徴もテンソルである。

例示的に、第１特徴の次元がｃ１×ｈ×ｗであり、第２特徴の次元がｃ２×ｈ×ｗであると仮定すると、連結処理の後に得られる第３特徴の次元は（ｃ１＋ｃ２）×ｈ×ｗであり得る。

ステップ１０２４において、前記第３特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得する。

例えば、上記の第３特徴を復号化ネットワークに入力してオプティカルフロー予測を実行して、処理される画像内の目標対象の運動を取得することができる。上記の復号化ネットワークは、第３特徴に従ってオプティカルフロー予測するために使用され、復号化ネットワークの出力は、処理される画像内の目標対象の運動である。

一可能な実施形態では、上記の復号化ネットワークは、少なくとも２つの伝播ネットワークおよび１つの融合ネットワークを含むことができ、前記第３特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記第３特徴を、少なくとも２つの伝播ネットワークにそれぞれ入力して全画像伝播処理を実行して、各伝播ネットワークに対応する伝播結果を取得することと、
前記各伝播ネットワークに対応する伝播結果を前記融合ネットワークに入力して融合処理を実行して、前記処理される画像内の目標対象の運動を取得することと、を含み得る。

例えば、上記の復号化ネットワークは、少なくとも２つの伝播ネットワークおよび１つの融合ネットワークを含むことができ、各伝播ネットワークは、１つの最大プーリング層（ｍａｘｐｏｏｌｉｎｇｌａｙｅｒ）および２つのスタックされたＣｏｎｖ－ＢＮ－ＲｅＬＵブロックを含むことができ、融合ネットワークは、単一の畳み込み層を含むことができる。上記の第３特徴を各伝播ネットワークにそれぞれ入力して、各伝播ネットワークによって、上記の第３特徴を処理される画像の画像全体に伝播することにより、第３特徴を使用して処理される画像の全画像運動を復元して、各伝播ネットワークに対応する伝播結果を取得することができる。

例示的に、復号化ネットワークは、３つの伝播ネットワークを含むことができ、前記３つの伝播ネットワークは、異なる空間ステップ幅の畳み込みニューラルネットワークによって構築されたものであり、例えば、空間ステップ幅がそれぞれ１、２、４である畳み込みニューラルネットワークは、３つの伝播ネットワークを構築でき、伝播ネットワーク１は、ステップ幅が１である畳み込みニューラルネットワークで構成でき、伝播ネットワーク２は、ステップ幅が２である畳み込みニューラルネットワークで構成でき、伝播ネットワーク３は、ステップ幅が４である畳み込みニューラルネットワークで構成できる。

融合ネットワークは、各伝播ネットワークの伝播結果を融合処理して、対応する目標対象の運動を取得することができる。上記の第１ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。

図７は、本開示の実施例による画像処理方法のフローチャートである。

一可能な実施形態では、図７を参照すると、上記のステップ１０１において、前記処理される画像内の目標対象に設定されたガイドグループを決定することは、以下のステップを含み得る。

ステップ１０１１において、処理される画像内の目標対象に設定された複数のガイドグループを決定し、ここで、前記複数のガイドグループ内の少なくとも１つのガイドポイントは異なる。

例えば、ユーザは、目標対象に対して複数のガイドグループを設定することができ、各ガイドグループは、少なくとも１つのガイドポイントを含むことができ、異なるガイドグループ内の少なくとも１つのガイドポイントは異なる。

図８は、本開示の一例示的なビデオ生成プロセスの概略図である。

例示的に、図８を参照すると、ユーザは処理される画像内の目標対象に対して３つのガイドグループを順次設定しており、ここで、ガイドグループ１は、ガイドポイント１、ガイドポイント２、およびガイドポイント３を含む。ガイドグループ２は、ガイドポイント４、ガイドポイント５、およびガイドポイント６を含む。ガイドグループ３は、ガイドポイント７、ガイドポイント８、およびガイドポイント９を含む。

異なるガイドグループ内の設定されたガイドポイントは、同じ位置に設定でき（例えば、図８では、ガイドグループ１内のガイドポイント１、ガイドグループ２内のガイドポイント４、およびガイドグループ３内のガイドポイント７は、同じ位置に設定されているが、それぞれが指示する運動速度の大きさと方向は異なる）、異なる位置に設定することもでき、または異なるガイドグループは、同じ位置に設定されかつ指示する運動速度の大きさと方向が同じであるガイドポイントを有することもでき、本開示の実施例はこれに対して限定しないことに留意されたい。

一可能な実施形態では、図７を参照すると、上記のステップ１０２において、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、以下のステップを含み得る。

ステップ１０２５において、各ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記目標対象の対応する運動を取得する。

例えば、各ガイドグループのガイドポイントおよび処理される画像を順次に第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、各ガイドグループのガイド下での処理される画像内の目標対象の対応する運動を取得することができる。

例示的に、ガイドグループ１および処理される画像を第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、ガイドグループ１のガイド下での処理される画像内の目標対象の対応する運動１を取得し、ガイドグループ２および処理される画像を第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、ガイドグループ２のガイド下での処理される画像内の目標対象の対応する運動２を取得し、ガイドグループ３および処理される画像を第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、ガイドグループ３のガイド下での処理される画像内の目標対象の対応する運動３を取得することができる。第１ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。

一可能な実施形態では、図７を参照すると、前記画像処理方法は、以下のステップをさらに含む。

ステップ１０３において、各ガイドグループのガイド下での前記目標対象の対応する運動に従って、前記処理される画像をマッピングして、各ガイドグループに対応する新しい画像を取得する。

ステップ１０４において、前記処理される画像および前記各ガイドグループに対応する新しい画像に従って、ビデオを生成する。

例えば、処理される画像内の各画素を、前記画素に対応する運動（運動速度の大きさと方向）に従ってマッピングして、対応する新しい画像を取得することができる。

例示的に、処理される画像内の特定の画素の位置が（Ｘ、Ｙ）であり、運動１における当該画素に対応する運動情報が、運動速度の方向が１１０度であり、運動速度の大きさが（ｘ１、ｙ１）である情報を含む場合、マッピングした後、前記画素は、運動速度（ｘ１、ｙ１）で１１０度の方向に移動し、移動後の処理される画像内の前記画素点の位置は（Ｘ１、Ｙ１）である。運動１に従って処理される画像内の各画素をマッピングした後、新しい画像１を取得することができる。同様に、図８を参照すると、運動２に従って処理される画像内の各画素をマッピングした後、新しい画像２を取得することができ、運動３に従って処理される画像内の各画素をマッピングした後、新しい画像３を取得することができる。

各ガイドグループに従って対応する新しい画像を取得した後、処理される画像および各ガイドグループに対応する新しい画像は、画像シーケンスを構成でき、前記画像シーケンスに従って対応するビデオを生成することができ、例えば、図８に示す処理される画像および新しい画像１、新しい画像２、新しい画像３を使用して、腕と脚を踊っている人の対応する１セグメントのビデオを生成することができる。

このように、ユーザは、ガイドポイントを設定することにより、ガイドポイントを使用して目標対象の運動方向および運動速度を指定して、対応するビデオを生成することができ、生成されたビデオは、ユーザの期待により合うし、品質もより高く、ビデオの生成方式を豊富にする。

図９は、本開示の実施例による画像処理方法のフローチャートである。

一可能な実施形態では、図９を参照すると、上記のステップ１０１において、処理される画像内の目標対象に設定されたガイドグループを決定することは、以下のステップを含み得る。

ステップ１０１２において、前記処理される画像内の第１目標対象に設定された少なくとも１つの第１ガイドポイントを決定する。

例えば、ユーザは、処理される画像内の第１目標対象に対する少なくとも１つの第１ガイドポイントの位置を決定し、対応する位置に第１ガイドポイントを設定することができる。

ステップ１０１３において、前記少なくとも１つの第１ガイドポイントに従って複数のガイドグループを生成し、同じガイドグループ内の第１ガイドポイントの方向は同じであり、異なるガイドグループ内の第１ガイドポイントの方向は異なる。

第１ガイドポイントを取得した後、各第１ガイドポイントに複数の方向を設定して、複数のガイドグループを生成することができる。例えば、ガイドグループ１内の第１ガイドポイントの方向を上に向かうように設定し、ガイドグループ２内の第１ガイドポイントの方向を下に向かうように設定し、ガイドグループ３内の第１ガイドポイントの方向を左に向かうように設定し、ガイドグループ４内の第１ガイドポイントの方向を右に向かうように設定する。第１ガイドポイントの運動速度は０ではない。ここで、ガイドポイントの方向は、ガイドポイントが指示するサンプリング画素の運動速度の方向として理解できる。

一可能な実施形態では、図９を参照すると、ステップ１０２において、取得された前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、以下のステップを含み得る。

ステップ１０２５において、各ガイドグループ内の前記第１ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得する。

対応する各方向のガイドグループを取得した後、各ガイドグループに従って目標対象に対してオプティカルフロー予測を実行して、各方法での目標対象の運動を取得することができる。

例示的に、任意のガイドグループ内の第１ガイドポイントおよび処理される画像を、第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記ガイドグループに対応する方向での目標対象の運動を取得することができる。

一可能な実施形態では、図９を参照すると、前記画像処理方法は、以下のステップをさらに含み得る。

ステップ１０５において、各ガイドグループのガイド下での前記処理される画像内の前記第１目標の対応する運動を融合して、前記処理される画像内の第１目標対象に対応するマスクを取得する。

各方向に対応する第１目標対象の運動を取得した後、各方法での運動を融合することができ（例えば、平均値を求める方法、共通集合または和集合を求めるなどの方式を採用することができ、本開示の実施例は、融合方式を特に限定しない）、つまり、前記処理される画像内の第１目標対象に対応するマスクを取得することができる。

図１０は、本開示の一例示的なマスク生成プロセスの概略図である。

例示的に、図１０に示されるように、ユーザは、処理される画像内の人物１に対して第１ガイドポイントを設定する（５つの第１ガイドポイントが設定されている）。ユーザが設定した５つの第１ガイドポイントに対して、上、下、左、右の４方向でそれぞれ４つのガイドグループを生成する。第１ニューラルネットワークおよび４つのガイドグループに従って、人物１に対してオプティカルフロー予測を実行して、上、下、左、右の４方向での目標対象の運動（運動１、運動２、運動３、運動４）を取得する。４つのガイドグループに対応する運動１、運動２、運動３、運動４を融合して、人物１のマスクを取得する。第１ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。

一可能な実施形態では、前記画像処理方法は、
処理される画像に設定された少なくとも１つの第２ガイドポイントを決定することをさらに含み、ここで、前記第２ガイドポイントの運動速度は０である。

例えば、第２目標対象は、第１目標対象を遮るか、または第１目標対象に近い対象であり得る。第１目標対象に第１ガイドポイントを設定するときに、第２目標対象に第２ガイドポイントを同時に設定することができる。

例示的に、第１ガイドポイント設定ツールを使用して第１ガイドポイントを設定し、第２ガイドポイント設定ツールを使用して第２ガイドポイントを設定することができる。あるいは、ガイドポイントを設定するときに、第１ガイドポイントまたは第２ガイドポイントに対応するオプションを選択することにより、前記ガイドポイントを第１ガイドポイントまたは第２ガイドポイントとして決定することができる。表示画面では、第１ガイドポイントと第２ガイドポイントの色は異なり（例えば、第１ガイドポイントが緑色であり、第２ガイドポイントが赤色であるなど）、または第１ガイドポイントと第２ガイドポイントの形状が異なる（例えば、第１ガイドポイントが円形であり、第２ガイドポイントが十字形であるなど）。

本開示の実施例において、前記各ガイドグループ内の前記第１ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得することは、
前記依次各ガイドグループ内の前記第１ガイドポイント、第２ガイドポイント、および前記処理される画像に従ってオプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得することを含み得る。

第１ガイドポイントが運動速度を有し、第２ガイドポイントの運動速度が０であるため、第１ガイドポイントの近くでオプティカルフローを生成でき、第２ガイドポイントの近くでオプティカルフローを生成しなく、これにより、第１目標対象のマスクの遮られた部分または第１目標対象の隣接部分でマスクを生成しないことができるため、生成されたマスクの品質を向上させることができる。

このように、ユーザは、処理される画像内の第１目標対象の第１ガイドポイント（または、第２ガイドポイントも含むことができる）の位置を設定するだけで、第１目標対象のマスクを生成することができるため、ロバスト性が向上し、ユーザの操作を簡素化し、マスク生成の効率と品質が向上する。

図１１は、本開示の実施例によるネットワークトレーニング方法のフローチャートである。前記ネットワークトレーニング方法は、端末機器または他の処理機器によって実行でき、ここで、端末機器は、ユーザ機器（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルドデバイス、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。他の処理機器は、サーバまたはクラウドサーバであってもよい。いくつかの可能な実施形態では、当該画像処理方法は、プロセッサによってメモリに記憶されたコンピュータ可読命令を呼び出すことで実現することができる。

図１１を参照すると、前記ネットワークトレーニング方法は、以下のステップを含み得る。

ステップ１１０１において、第１サンプルグループを取得し、前記第１サンプルグループは、処理される画像サンプルおよび前記処理される画像サンプル内の目標対象に対応する第１運動を含む。

ステップ１１０２において、前記第１運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得する。

ステップ１１０３において、前記処理される画像サンプル内の目標対象に対応するスパース運動、バイナリマスク、および前記処理される画像サンプルを第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像サンプル内の目標対象に対応する第２運動を取得する。

ステップ１１０４において、前記第１運動および前記第２運動に従って、前記第１ニューラルネットワークの運動損失を決定する。

ステップ１１０５において、前記運動損失に従って、前記第１ニューラルネットワークのパラメータを調整する。

例えば、第１サンプルグループを設定することができる。例えば、一セグメントのビデオから、間隔がフレーム値の閾値（１０フレームなど）未満の画像の組み合わせを取得して、オプティカルフローを計算することができる。一セグメントのビデオから常に５フレームのビデオフレームを含むビデオクリップ１、４、１０、２１、２８を取得すると仮定すると、１０フレーム未満のビデオフレーム組み合わせは、［１、４］、［４、１０］、［２１、２８］を含み、各ビデオフレーム組み合わせの２つのビデオフレーム画像に従って、対応するオプティカルフローを計算し、ビデオフレーム組み合わせのフレーム数がより少ない方の一フレームの画像を処理される画像サンプルとして使用することができ、前記ビデオフレーム組み合わせの対応するオプティカルフローを、前記処理される画像サンプルに対応する第１運動として使用することができる。

一可能な実施形態では、前記第１運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得することは、
前記第１運動に対してエッジ抽出処理を実行して、前記第１運動に対応するエッジマップを取得することと、
前記エッジマップから少なくとも１つのキーポイントを決定することと、
前記少なくとも１つのキーポイントの位置に従って、前記処理される画像サンプル内の目標対象に対応するバイナリマスクを取得し、前記少なくとも１つのキーポイントに対応する運動に従って、前記処理される画像サンプル内の目標対象に対応するスパース運動を取得することであって、キーポイントに対応する運動は、第１運動におけるキーポイントに対応する画素の対応する運動であり、キーポイントに対応する画素は、エッジマップ内のキーポイントの対応する画素である。

例えば、第１運動に対してエッジ抽出処理を実行することができ、例えば、分水嶺アルゴリズムを使用して、第１運動に対してエッジ抽出処理を実行して、第１運動に対応するエッジマップを取得することができる。その後、前記エッジマップのエッジの内部領域から少なくとも１つのキーポイントを決定することができ、このようにして、キーポイントをすべて目標対象に含めることができる。例えば、カーネルサイズがＫである非最大抑制アルゴリズムを使用して、エッジマップから少なくとも１つのキーポイントを決定でき、Ｋが大きいほど、対応するキーポイントの数は少なくなる。

処理される画像サンプル内のすべてのキーポイントの位置は、目標対象のバイナリマスクを構成し、第１運動におけるすべてのキーポイントに対応する画素の対応する運動は、処理される画像サンプル内の目標対象に対応するスパース運動を構成する。

処理される画像サンプルに対応するバイナリマスクおよびスパース運動を、第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、処理される画像サンプル内の目標対象に対応する第２運動を取得することができる。損失関数（クロスエントロピー損失関数など）を使用して、第１運動と第２運動との間の運動損失を決定することができる。第１運動と第２運動との間の運動損失がトレーニング精度要件（例えば、プリセットされた損失閾値未満であるという要件）を満たす場合、第１ニューラルネットワークのトレーニングを完了したと決定し、トレーニング動作を停止し、それ以外の場合は、第１ニューラルネットワークのパラメータを調整し、第１サンプルグループに従って第１ニューラルネットワークのトレーニングを続ける。

一可能な実施形態では、第１ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。

例えば、第１ニューラルネットワークは、第１符号化ネットワーク、第２符号化ネットワーク、および復号化ネットワークを含むことができ、ここで、第１符号化ネットワーク、第２符号化ネットワーク、および復号化ネットワークの構造については、前述した実施例を参照することができ、本開示の実施例では繰り返して説明しない。

例示的に、必要に応じて、第１ニューラルネットワークに対して標的型のトレーニングを実行できる。例えば、顔認識に適用される第１ニューラルネットワークをトレーニングする場合、第１サンプルグループ内の処理される画像サンプルは、人物の顔画像であり得、人物の肢体認識に適用される第１ニューラルネットワークをトレーニングする場合、第１サンプルグループ内の処理される画像サンプルは、人物の身体の画像であり得る。

このように、本開示の実施例は、マークされていない大量の画像サンプルを使用して第１ニューラルネットワークに対して教師なしトレーニングを実行でき、トレーニングにより得られた第１ニューラルネットワークは、ガイドポイントのガイドに従って、目標対象の運動を予測でき、目標対象とその運動との間の強い関連性に依存せずに、目標対象の運動を予測する品質を向上させることができる。加えて、第１ニューラルネットワークにおける第１符号化ネットワークを、大量の高レベルの視覚的タスク（例えば、ターゲット検出、セマンティックセグメンテーション（ＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ）、インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）、人体解析）に用いられる画像符号器として使用でき、第１ニューラルネットワークにおける第２符号化ネットワークのパラメータに従って、上記の高レベルの視覚的タスクに対応するネットワークにおける画像符号器のパラメータ初期化することができ、これにより、高レベルの視覚的タスクにおける対応するネットワークが、初期化ときにより高い性能を有するようにし、高レベルの視覚的タスクにおける対応するネットワークの性能を大幅に向上させることができる。

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。

本開示はまた、画像処理装置、電子機器、コンピュータ可読記憶媒体、およびプログラムを提供し、これらはすべて、本開示で提供される方法のいずれかを実現するために使用されることができ、対応する技術的解決策と説明は、方法の実施例の対応する説明を参照することができ、ここでは繰り返して説明しない。

当業者なら自明であるが、上記の特定の実施形態における方法において、各ステップの記述順序は、厳しい実行順序により実施プロセスを制限するものではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定される必要がある。

図１２は、本開示の実施例による画像処理装置の構造ブロック図である。図１２に示されるように、前記装置は、
処理される画像内の目標対象に設定されたガイドグループを決定するように構成される第１決定モジュール１２０１であって、前記ガイドグループは、少なくとも１つのガイドポイントを含み、前記ガイドポイントは、サンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を示し、前記サンプリング画素は、前記処理される画像内の目標対象の画素である第１決定モジュール１２０１と、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される予測モジュール１２０２と、を備えることができる。

このように、処理される画像内の目標対象に設定された、少なくとも１つのガイドポイントを含むガイドグループを取得した後、ガイドグループに含まれるガイドポイントおよび処理される画像に従って、オプティカルフロー予測を実行して、処理される画像内の目標対象の運動を取得することができる。本開示の実施例で提供される画像処理装置によれば、ガイドポイントのガイドにより、目標対象の運動を予測することができ、目標対象とその運動との間の強い関連性に依存せずに、目標対象の運動を予測する品質を向上させることができる。

一可能な実施形態では、前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向、前記ガイドグループ内のガイドポイントが指示するサンプリング画素の位置、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成できる。

一可能な実施形態では、前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向に従って、処理される画像内の目標対象に対応するスパース運動を生成し、前記スパース運動は、前記目標対象の各サンプリング画素の運動速度の大きさと方向を指示し、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の位置に従って、処理される画像内の目標対象に対応するバイナリマスクを生成し、前記バイナリマスクは、前記目標対象の各サンプリング画素の位置を指示し、
前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成できる。

一可能な実施形態では、前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像を、第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成できる。

一可能な実施形態では、前記予測モジュールは、
前記処理される画像内の目標対象に対応するスパース運動とバイナリマスクに対して特徴抽出を実行して、第１特徴を取得するように構成されるスパース運動符号化モジュールと、
前記処理される画像に対して特徴抽出を実行して、第２特徴を取得するように構成される画像符号化モジュールと、
前記第１特徴と前記第２特徴を連結して、第３特徴を取得するように構成される連結モジュールと、
前記第３特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される高密度運動復号化モジュールと、をさらに備えることができる。

一可能な実施形態では、前記高密度運動復号化モジュールは、さらに、
前記第３特徴を、少なくとも２つの伝播ネットワークにそれぞれ入力して全画像伝播処理を実行して、各伝播ネットワークに対応する伝播結果を取得し、
前記各伝播ネットワークに対応する伝播結果を前記融合ネットワークに入力して融合処理を実行して、前記処理される画像内の目標対象の運動を取得するように構成できる。

一可能な実施形態では、前記第１決定モジュールは、さらに、
処理される画像内の目標対象に設定された複数のガイドグループを決定するように構成でき、ここで、前記複数のガイドグループ内の少なくとも１つのガイドポイントは異なる。

一可能な実施形態では、前記予測モジュールは、さらに
各ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記目標対象の対応する運動を取得するように構成できる。

一可能な実施形態では、前記画像処理装置は、
各ガイドグループのガイド下での前記目標対象の対応する運動に従って、前記処理される画像をマッピングして、各ガイドグループに対応する新しい画像を取得するように構成されるマッピングモジュールと、
前記処理される画像および前記各ガイドグループに対応する新しい画像に従って、ビデオを生成するように構成されるビデオ生成モジュールと、をさらに備えることができる。

一可能な実施形態では、前記第１決定モジュールは、さらに、
前記処理される画像内の第１目標対象に設定された少なくとも１つの第１ガイドポイントを決定し、
前記少なくとも１つの第１ガイドポイントに従って複数のガイドグループを生成するように構成でき、同じガイドグループ内の第１ガイドポイントの方向は同じであり、異なるガイドグループ内の第１ガイドポイントの方向は異なる。

一可能な実施形態では、前記予測モジュールは、さらに、
各ガイドグループ内の前記第１ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得するように構成できる。

一可能な実施形態では、前記画像処理装置は、
各ガイドグループのガイド下での前記処理される画像内の前記第１目標の対応する運動を融合して、前記処理される画像内の第１目標対象に対応するマスクを取得するように構成される融合モジュールをさらに備えることができる。

一可能な実施形態では、前記画像処理装置は、
処理される画像に設定された少なくとも１つの第２ガイドポイントを決定するように構成される第２決定モジュールをさらに備えることができ、前記第２ガイドポイントの運動速度は０であり、
前記予測モジュールは、さらに、
各ガイドグループ内の前記第１ガイドポイント、第２ガイドポイント、および前記処理される画像に従ってオプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得するように構成できる。

図１３は、本開示の実施例によるネットワークトレーニング装置の構造ブロック図である。図１３に示されるように、前記装置は、
第１サンプルグループを取得するように構成される取得モジュール１３０１であって、前記第１サンプルグループは、処理される画像サンプルおよび前記処理される画像サンプル内の目標対象に対応する第１運動を含む取得モジュール１３０１と、
前記第１運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得するように構成される処理モジュール１３０２と、
前記処理される画像サンプル内の目標対象に対応するスパース運動、バイナリマスク、および前記処理される画像サンプルを第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像サンプル内の目標対象に対応する第２運動を取得するように構成される予測モジュール１３０３と、
前記第１運動および前記第２運動に従って、前記第１ニューラルネットワークの運動損失を決定するように構成される決定モジュール１３０４と、
前記運動損失に従って、前記第１ニューラルネットワークのパラメータを調整するように構成される調整モジュール１３０５と、を備えることができる。

一可能な実施形態では、前記処理モジュールは、さらに、
前記第１運動に対してエッジ抽出処理を実行して、前記第１運動に対応するエッジマップを取得し、
前記エッジマップから少なくとも１つのキーポイントを決定し、
前記少なくとも１つのキーポイントの位置に従って、前記処理される画像サンプル内の目標対象に対応するバイナリマスクを取得し、前記少なくとも１つのキーポイントに対応する運動に従って、前記処理される画像サンプル内の目標対象に対応するスパース運動を取得するように構成できる。

このように、本開示の実施例は、マークされていない大量の画像サンプルを使用して第１ニューラルネットワークに対して教師なしトレーニングを実行でき、トレーニングにより得られた第１ニューラルネットワークは、ガイドポイントのガイドに従って、目標対象の運動を予測することができ、目標対象とその運動との間の強い関連性に依存せずに、目標対象の運動を予測する品質を向上させることができる。加えて、第１ニューラルネットワークにおける第１符号化ネットワークを、大量の高レベルの視覚的タスク（例えば、ターゲット検出、セマンティックセグメンテーション、インスタンスセグメンテーション、人体解析）に用いられる画像符号器として使用でき、第１ニューラルネットワークにおける第２符号化ネットワークのパラメータに従って、上記の高レベルの視覚的タスクに対応するネットワークにおける画像符号器のパラメータ初期化することができ、これにより、高レベルの視覚的タスクにおける対応するネットワークが、初期化ときにより高い性能を有するようにし、高レベルの視覚的タスクにおける対応するネットワークの性能を大幅に向上させることができる。

いくつかの実施例では、本開示の実施例に係る装置に備えられる機能またはモジュールは、上記の方法の実施例で説明された方法を実行するために使用でき、その具体的な実現については、上記の方法の実施例の説明を参照することができ、簡潔にするため、ここでは繰り返して説明しない。

本開示の実施例は、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体をさらに提案し、前記コンピュータプログラム命令は、プロセッサによって実行されるときに、上記の方法を実現するように構成される。コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であってよい。

本開示の実施例は、上記の方法を実行するように構成されるプロセッサと、プロセッサ実行可能な命令を記憶するように構成されるメモリと、備える電子機器をさらに提案する。

本開示の実施例は、コンピュータ可読コードを含むコンピュータプログラムをさらに提案し、前記コンピュータ可読コードは、電子機器で実行されるときに、前記電子機器のプロセッサに上記の方法を実行させるように構成される。

電子機器は、端末、サーバ、または他の形の機器として提供することができる。

図１４は、一例示的実施例による電子機器８００のブロック図である。例えば、電子機器８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であってもよい。

図１４を参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インターフェース８１２、センサコンポーネント８１４、および通信コンポーネント８１６のうちの１つまたは複数を含むことができる。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば、表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記の方法のステップのすべてまたは一部を完了するための命令を実行するための１つまたは複数のプロセッサ８２０を備えることができる。また、処理コンポーネント８０２は、処理コンポーネント８０２と他のコンポーネントとの間の対話を容易にするための１つまたは複数のモジュールを備えることができる。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８と処理コンポーネント８０２との間の対話を容易にするためのマルチメディアモジュールを備えることができる。

メモリ８０４は、電子機器８００での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータの例には、電子機器８００で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオなどが含まれる。メモリ８０４は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）、プログラム可能な読み取り専用メモリ（ＰＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現されることができる。

電源コンポーネント８０６は、電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は、電源管理システム、１つまたは複数の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。

マルチメディアコンポーネント８０８は、前記電子機器８００とユーザとの間で出力インターフェースを提供する画面を含む。いくつかの実施例では、画面は、液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含むことができる。画面がタッチパネルを含む場合、画面は、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されてもよい。タッチパネルは、タッチ、スワイプおよびタッチパネルでのジェスチャを検知するために、１つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプ動作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間と圧力も検出する。いくつかの実施例では、マルチメディアコンポーネント８０８は、フロンドカメラおよび／またはリアカメラを備える。電子機器８００が、撮影モードまたは撮像モードなどの動作モードにある場合、フロンドカメラおよび／またはリアカメラは、外部マルチメディアデータを受信することができる。各フロンドカメラおよびリアカメラはそれぞれ、固定光学レンズシステムであってもよく、焦点距離および光学ズーム機能を有するものであってもよい。

オーディオコンポーネント８１０は、オーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、電子機器８００が、呼び出しモード、記録モード、および音声認識モードなどの動作モードにある場合、外部オーディオ信号を受信するように構成されるマイクロフォン（ＭＩＣ）を備える。受信されたオーディオ信号は、メモリ８０４にさらに記憶されるか、または通信コンポーネント８１６によって送信されることができる。いくつかの実施例では、オーディオコンポーネント８１０は、オーディオ信号を出力するためのスピーカをさらに備える。

Ｉ／Ｏインターフェース８１２は、処理コンポーネント８０２と周辺インターフェースモジュールとの間のインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであり得る。これらのボタンは、ホームボタン、音量ボタン、スタートボタン、およびロックボタンなどを含んでもよいが、これらに限定されない。

センサコンポーネント８１４は、電子機器８００に各態様の状態評価を提供するための１つまたは複数のセンサを含む。例えば、センサコンポーネント８１４は、電子機器８００のオン／オフ状態およびコンポーネントの相対的な位置を検出でき、例えば、前記コンポーネントが電子機器８００のディスプレイおよびキーパッドであることを検出でき、センサコンポーネント８１４はまた、電子機器８００または電子機器８００のコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速、および電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、物理的接触なしに近くの物体の存在を検出するように構成される近接センサを含み得る。センサコンポーネント８１４はまた、撮像用途で使用するための、ＣＭＯＳまたはＣＣＤ画像センサなどの光センサを含み得る。いくつかの実施例では、当該センサコンポーネント８１４はまた、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ、または温度センサを含み得る。

通信コンポーネント８１６は、電子機器８００と他の機器との間の有線または無線通信を実現するように構成される。電子機器８００は、通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせにアクセスすることができる。一例示的な実施例では、通信コンポーネント８１６は、放送チャネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例では、前記通信コンポーネント８１６は、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールをさらに含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術及び他の技術に基づいて実現できる。

例示的な実施例では、電子機器８００は、上記の方法を実行するために、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現されることができる。

例示的な実施例では、コンピュータプログラム命令を含むメモリ８０４などの不揮発性コンピュータ可読記憶媒体をさらに提供し、前記コンピュータプログラム命令は、電子機器８００のプロセッサ８２０によって実行されて、上記の方法を完了することができる。

図１５は、一例示的実施例による電子機器１９００のブロック図である。例えば、電子機器１９００は、サーバとして提供することができる。図１５を参照すると、電子機器１９００は、１つまたは複数のプロセッサを備える処理コンポーネント１９２２と、処理コンポーネント１９２２によって実行可能な命令、例えばアプリケーションプログラムなどを記憶するためのメモリリソースを代表するメモリ１９３２と、を備える。メモリ１９３２に記憶されたアプリケーションプログラムは、それぞれが１セットの命令に対応する１つまたは複数のモジュールを含むことができる。また、処理コンポーネント１９２２は、命令を実行して、上記の方法を実行するように構成される。

電子機器１９００は、電子機器１９００の電源管理を実行するように構成される電源コンポーネント１９２６と、電子機器１９００をネットワークにアクセスするように構成される有線または無線ネットワークインターフェイス１９５０と、入出力（Ｉ／Ｏ）インターフェイス１９５８と、をさらに備えることができる。電子機器１９００は、メモリ１９３２に記憶された操作システム、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、コンピュータプログラム命令を含むメモリ１９３２などの不揮発性コンピュータ可読記憶媒体をさらに提供し、前記コンピュータプログラム命令は、電子機器１９００の処理コンポーネント１９２２によって実行されて上記の方法を完了することができる。

本開示は、システム、方法、および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各態様を実現させるためのコンピュータ可読プログラム命令がロードされているコンピュータ可読記憶媒体を含むことができる。

コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持および記憶することができる有形機器であり得る。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例（非網羅的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されるパンチカードまたはスロット内の突起構造、および上記の任意の適当な組み合わせを含む。本明細書で使用するコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング／処理機器にダウンロードされるか、インターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークなどのネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含み得る。各コンピューティング／処理機器内のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、各コンピューティング／処理機器内のコンピュータ可読記憶媒体に記憶するために転送する。

本開示の動作を実行するためのコンピュータプログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズすることで、該電子回路はコンピュータ可読プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。

ここで、本開示の実施例による方法、装置（システム）、およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび／またはブロック図の各ブロック、およびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ可読プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび／またはブロック図の１つまたは複数のブロックにおいて指定された機能／動作を実現する手段を創出する。また、これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ可読記憶媒体は、フローチャートおよび／またはブロック図の１つまたは複数のブロックにおいて指定された機能／動作の各態様を実現する命令を含む製品を備える。

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器に一連の動作ステップを実行させることにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器で実行される命令によって、フローチャートおよび／またはブロック図の１つまたは複数のブロックで指定された機能／動作を実現するようにする。

図面のフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは、１つのモジュール、プログラムセグメントまたは命令の一部を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部は、指定された論理機能を実現するための１つまたは複数の実行可能な命令を含む。いくつかの代替としての実現では、ブロックでマークされた機能は、図面でマークされた順序とは異なる順序で実行できる。例えば、２つの連続的なブロックは、実際には実質的に同時に実行でき、関連する機能によっては、逆の順序で実行されることもできる。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ開示された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書で使用される用語の選択は、各実施例の原理、実際の適用または市場における技術への技術的改善を最適に解釈するか、または他の当業者に本文で開示された各実施例を理解させるためのものである。

Claims

画像処理方法であって、
処理される画像内の目標対象に設定されたガイドグループを決定することであって、前記ガイドグループは、少なくとも１つのガイドポイントを含み、前記ガイドポイントは、サンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を示し、前記サンプリング画素は、前記処理される画像内の目標対象の画素であることと、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含むことを特徴とする、前記画像処理方法。
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向、前記ガイドグループ内のガイドポイントが指示するサンプリング画素の位置、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することを含むことを特徴とする、
請求項１に記載の画像処理方法。
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向に従って、処理される画像内の目標対象に対応するスパース運動を生成することであって、前記スパース運動は、前記目標対象の各サンプリング画素の運動速度の大きさと方向を指示することと、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の位置に従って、処理される画像内の目標対象に対応するバイナリマスクを生成することであって、前記バイナリマスクは、前記目標対象の各サンプリング画素の位置を指示することと、
前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含むことを特徴とする、
請求項１または２に記載の画像処理方法。
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像を、第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することを含むことを特徴とする、
請求項１ないし３のいずれか一項に記載の画像処理方法。
前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記処理される画像内の目標対象に対応するスパース運動とバイナリマスクに対して特徴抽出を実行して、第１特徴を取得することと、
前記処理される画像に対して特徴抽出を実行して、第２特徴を取得することと、
前記第１特徴と前記第２特徴を連結して、第３特徴を取得することと、
前記第３特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含むことを特徴とする、
請求項３に記載の画像処理方法。
前記第３特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記第３特徴を、少なくとも２つの伝播ネットワークにそれぞれ入力して全画像伝播処理を実行して、各伝播ネットワークに対応する伝播結果を取得することと、
前記各伝播ネットワークに対応する伝播結果を融合ネットワークに入力して融合処理を実行して、前記処理される画像内の目標対象の運動を取得することと、を含むことを特徴とする、
請求項５に記載の画像処理方法。
前記処理される画像内の目標対象に設定されたガイドグループを決定することは、
処理される画像内の目標対象に設定された複数のガイドグループを決定することであって、前記複数のガイドグループ内の少なくとも１つのガイドポイントは異なることを含むことを特徴とする、
請求項１ないし６のいずれか一項に記載の画像処理方法。
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
各ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記目標対象の対応する運動を取得することを含むことを特徴とする、
請求項７に記載の画像処理方法。
前記画像処理方法が、
各ガイドグループのガイド下での前記目標対象の対応する運動に従って、前記処理される画像をマッピングして、各ガイドグループに対応する新しい画像を取得することと、
前記処理される画像および前記各ガイドグループに対応する新しい画像に従って、ビデオを生成することと、をさらに含むことを特徴とする、
請求項８に記載の画像処理方法。
処理される画像内の目標対象に設定されたガイドグループを決定することは、
前記処理される画像内の第１目標対象に設定された少なくとも１つの第１ガイドポイントを決定することと、
前記少なくとも１つの第１ガイドポイントに従って複数のガイドグループを生成することであって、同じガイドグループ内の第１ガイドポイントの方向は同じであり、異なるガイドグループ内の第１ガイドポイントの方向は異なることと、を含むことを特徴とする、
請求項１ないし６のいずれか一項に記載の画像処理方法。
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
各ガイドグループ内の前記第１ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得することを含むことを特徴とする、
請求項１０に記載の画像処理方法。
前記画像処理方法が、
各ガイドグループのガイド下での前記処理される画像内の前記第１目標の対応する運動を融合して、前記処理される画像内の第１目標対象に対応するマスクを取得することをさらに含むことを特徴とする、
請求項１１に記載の画像処理方法。
前記画像処理方法が、
処理される画像に設定された少なくとも１つの第２ガイドポイントを決定することであって、前記第２ガイドポイントの運動速度は０であることをさらに含み、
前記各ガイドグループ内の前記第１ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得することは、
各ガイドグループ内の前記第１ガイドポイント、前記第２ガイドポイント、および前記処理される画像に従ってオプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得することを含むことを特徴とする、
請求項１１または１２に記載の画像処理方法。
ネットワークトレーニング方法であって、
第１サンプルグループを取得することであって、前記第１サンプルグループは、処理される画像サンプルおよび前記処理される画像サンプル内の目標対象に対応する第１運動を含むことと、
前記第１運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得することと、
前記処理される画像サンプル内の目標対象に対応するスパース運動、バイナリマスク、および前記処理される画像サンプルを第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像サンプル内の目標対象に対応する第２運動を取得することと、
前記第１運動および前記第２運動に従って、前記第１ニューラルネットワークの運動損失を決定することと、
前記運動損失に従って、前記第１ニューラルネットワークのパラメータを調整することと、を含むことを特徴とする、前記ネットワークトレーニング方法。
前記第１ニューラルネットワークは、条件付き運動伝播ネットワークであることを特徴とする、
請求項１４に記載のネットワークトレーニング方法。
前記第１運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得することは、
前記第１運動に対してエッジ抽出処理を実行して、前記第１運動に対応するエッジマップを取得することと、
前記エッジマップから少なくとも１つのキーポイントを決定することと、
前記少なくとも１つのキーポイントの位置に従って、前記処理される画像サンプル内の目標対象に対応するバイナリマスクを取得し、前記少なくとも１つのキーポイントに対応する運動に従って、前記処理される画像サンプル内の目標対象に対応するスパース運動を取得することと、を含むことを特徴とする、
請求項１４または１５に記載のネットワークトレーニング方法。
画像処理装置であって、
処理される画像内の目標対象に設定されたガイドグループを決定するように構成される第１決定モジュールであって、前記ガイドグループは、少なくとも１つのガイドポイントを含み、前記ガイドポイントは、サンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を示し、前記サンプリング画素は、前記処理される画像内の目標対象の画素である第１決定モジュールと、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される予測モジュールと、を備えることを特徴とする前記画像処理装置。
前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向、前記ガイドグループ内のガイドポイントが指示するサンプリング画素の位置、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成されることを特徴とする、
請求項１７に記載の画像処理装置。
前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向に従って、処理される画像内の目標対象に対応するスパース運動を生成し、前記スパース運動は、前記目標対象の各サンプリング画素の運動速度の大きさと方向を指示し、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の位置に従って、処理される画像内の目標対象に対応するバイナリマスクを生成し、前記バイナリマスクは、前記目標対象の各サンプリング画素の位置を指示し、
前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成されることを特徴とする、
請求項１７または１８に記載の画像処理装置。
前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像を、第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成されることを特徴とする、
請求項１７ないし１９のいずれか一項に記載の画像処理装置。
前記予測モジュールは、
前記処理される画像内の目標対象に対応するスパース運動およびバイナリマスクに対して運動特徴抽出を実行して、第１特徴を取得するように構成されるスパース運動符号化モジュールと、
前記処理される画像に対して特徴抽出を実行して、第２特徴を取得するように構成される画像符号化モジュールと、
前記第１特徴と前記第２特徴を連結して、第３特徴を取得するように構成される連結モジュールと、
前記第３特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される高密度運動復号化モジュールと、を備えることを特徴とする、
請求項１９に記載の画像処理装置。
前記高密度運動復号化モジュールは、さらに、
前記第３特徴を、少なくとも２つの伝播ネットワークにそれぞれ入力して全画像伝播処理を実行して、各伝播ネットワークに対応する伝播結果を取得し、
前記各伝播ネットワークに対応する伝播結果を融合ネットワークに入力して融合処理を実行して、前記処理される画像内の目標対象の運動を取得するように構成されることを特徴とする、
請求項２１に記載の画像処理装置。
前記第１決定モジュールは、さらに、
処理される画像内の目標対象に設定された複数のガイドグループを決定するように構成され、前記複数のガイドグループ内の少なくとも１つのガイドポイントは異なることを特徴とする、
請求項１７ないし２２のいずれか一項に記載の画像処理装置。
前記予測モジュールは、さらに、
各ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記目標対象の対応する運動を取得するように構成されることを特徴とする、
請求項２３に記載の画像処理装置。
前記画像処理装置が、
各ガイドグループのガイド下での前記目標対象の対応する運動に従って、前記処理される画像をマッピングして、各ガイドグループに対応する新しい画像を取得するように構成されるマッピングモジュールと、
前記処理される画像および前記各ガイドグループに対応する新しい画像に従って、ビデオを生成するように構成されるビデオ生成モジュールと、をさらに備えることを特徴とする、
請求項２４に記載の画像処理装置。
前記第１決定モジュールは、さらに、
前記処理される画像内の第１目標対象に設定された少なくとも１つの第１ガイドポイントを決定し、
前記少なくとも１つの第１ガイドポイントに従って複数のガイドグループを生成するように構成され、同じガイドグループ内の第１ガイドポイントの方向は同じであり、異なるガイドグループ内の第１ガイドポイントの方向は異なることを特徴とする、
請求項１７ないし２２のいずれか一項に記載の画像処理装置。
前記予測モジュールは、さらに、
各ガイドグループ内の前記第１ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得するように構成されることを特徴とする、
請求項２６に記載の画像処理装置。
前記画像処理装置が、
各ガイドグループのガイド下での前記処理される画像内の前記第１目標の対応する運動を融合して、前記処理される画像内の第１目標対象に対応するマスクを取得するように構成される融合モジュールをさらに備えることを特徴とする、
請求項２７に記載の画像処理装置。
前記画像処理装置が、
処理される画像に設定された少なくとも１つの第２ガイドポイントを決定するように構成される第２決定モジュールをさらに備え、前記第２ガイドポイントの運動速度は０であり、
前記予測モジュールは、さらに、
各ガイドグループ内の前記第１ガイドポイント、第２ガイドポイント、および前記処理される画像に従ってオプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第１目標対象の対応する運動を取得するように構成されることを特徴とする、
請求項２８に記載の画像処理装置。
ネットワークトレーニング装置であって、
第１サンプルグループを取得するように構成される取得モジュールであって、前記第１サンプルグループは、処理される画像サンプルおよび前記処理される画像サンプル内の目標対象に対応する第１運動を含む取得モジュールと、
前記第１運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得するように構成される処理モジュールと、
前記処理される画像サンプル内の目標対象に対応するスパース運動、バイナリマスク、および前記処理される画像サンプルを第１ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像サンプル内の目標対象に対応する第２運動を取得するように構成される予測モジュールと、
前記第１運動および前記第２運動に従って、前記第１ニューラルネットワークの運動損失を決定するように構成される決定モジュールと、
前記運動損失に従って、前記第１ニューラルネットワークのパラメータを調整するように構成される調整モジュールと、を備えることを特徴とする、
ネットワークトレーニング装置。
前記第１ニューラルネットワークは、条件付き運動伝播ネットワークであることを特徴とする、
請求項３０に記載のネットワークトレーニング装置。
前記処理モジュールは、さらに、
前記第１運動に対してエッジ抽出処理を実行して、前記第１運動に対応するエッジマップを取得し、
前記エッジマップから少なくとも１つのキーポイントを決定し、
前記少なくとも１つのキーポイントの位置に従って、前記処理される画像サンプル内の目標対象に対応するバイナリマスクを取得し、前記少なくとも１つのキーポイントに対応する運動に従って、前記処理される画像サンプル内の目標対象に対応するスパース運動を取得するように構成されることを特徴とする、
請求項３０または３１に記載のネットワークトレーニング装置。
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、請求項１ないし１６のいずれか一項に記載の方法を実行するように構成されることを特徴とする、前記電子機器。
コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されるときに、請求項１ないし１６のいずれか一項に記載の方法を実現することを特徴とする、前記コンピュータ可読記憶媒体。
コンピュータプログラムであって、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、請求項１ないし１６のいずれか一項に記載の方法を実行するための命令を実行させることを特徴とする、前記コンピュータプログラム。