JP2022506637A - 画像処理方法および装置、ネットワークトレーニング方法および装置 - Google Patents

画像処理方法および装置、ネットワークトレーニング方法および装置 Download PDF

Info

Publication number
JP2022506637A
JP2022506637A JP2021524161A JP2021524161A JP2022506637A JP 2022506637 A JP2022506637 A JP 2022506637A JP 2021524161 A JP2021524161 A JP 2021524161A JP 2021524161 A JP2021524161 A JP 2021524161A JP 2022506637 A JP2022506637 A JP 2022506637A
Authority
JP
Japan
Prior art keywords
guide
motion
processed image
target object
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021524161A
Other languages
English (en)
Inventor
シアオハン ジャン
シンガン パン
ズーウェイ リウ
ダーホワ リン
チェンチャン ロイ
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2022506637A publication Critical patent/JP2022506637A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、画像処理方法および装置、ネットワークトレーニング方法および装置に関し、前記画像処理方法は、処理される画像内の目標対象に設定されたガイドグループを決定することであって、前記ガイドグループは、少なくとも1つのガイドポイントを含み、前記ガイドポイントは、サンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を示すことと、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含む。【選択図】図1

Description

本願は、2019年01月29日に中国特許局に提出された、出願番号が201910086044.3であり、発明の名称が「画像処理方法および装置、ネットワークトレーニング方法および装置」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照により本願に組み込まれている。
本開示は、画像処理技術分野に関し、特に、画像処理方法および装置、ネットワークトレーニング方法および装置に関する。
科学技術の発展に伴い、知能システムは、人間をシミュレートして物体の運動から物体の運動特徴を学習し、学習した運動特徴により、物体検出やセグメンテーションなどの高レベルの視覚的タスクを実現することができる。
物体と運動特徴との間に、強い関連関係があると仮定することにより、例えば、同じ物体の画素の運動が一致すると仮定することにより、物体の運動を予測する。ただし、ほとんどの物体の自由度が高く、運動は通常複雑であるため、同じ物体であっても、異なるパーツの間では、水平移動、回転、変形などの様々な運動モードがあるため、物体と運動特徴との間に特定の強い関連関係があるという仮説に基づく運動予測の精度は低い。
本開示は、画像処理方法および装置、ネットワークトレーニング方法および装置に関する技術的解決策を提案する。
本開示の一態様によれば、画像処理方法を提供し、前記方法は、
処理される画像内の目標対象に設定されたガイドグループを決定することであって、前記ガイドグループは、少なくとも1つのガイドポイントを含み、前記ガイドポイントは、サンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を示し、前記サンプリング画素は、前記処理される画像内の目標対象の画素であることと、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含む。
一可能な実施形態では、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向、前記ガイドグループ内のガイドポイントが指示するサンプリング画素の位置、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することを含む。
一可能な実施形態では、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向に従って、処理される画像内の目標対象に対応するスパース運動を生成することであって、前記スパース運動は、前記目標対象の各サンプリング画素の運動速度の大きさと方向を指示することと、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の位置に従って、処理される画像内の目標対象に対応するバイナリマスクを生成することであって、前記バイナリマスクは、前記目標対象の各サンプリング画素の位置を指示することと、
前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含む。
一可能な実施形態では、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像を、第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することを含む。
一可能な実施形態では、前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記処理される画像内の目標対象に対応するスパース運動とバイナリマスクに対して特徴抽出を実行して、第1特徴を取得することと、
前記処理される画像に対して特徴抽出を実行して、第2特徴を取得することと、
前記第1特徴と前記第2特徴を連結して、第3特徴を取得することと、
前記第3特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含む。
一可能な実施形態では、前記第3特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記第3特徴を、少なくとも2つの伝播ネットワークにそれぞれ入力して全画像伝播処理を実行して、各伝播ネットワークに対応する伝播結果を取得することと、
前記各伝播ネットワークに対応する伝播結果を前記融合ネットワークに入力して融合処理を実行して、前記処理される画像内の目標対象の運動を取得することと、を含む。
一可能な実施形態では、前記処理される画像内の目標対象に設定されたガイドグループを決定することは、
処理される画像内の目標対象に設定された複数のガイドグループを決定することを含み、前記複数のガイドグループ内の少なくとも1つのガイドポイントは異なる。
一可能な実施形態では、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
各ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記目標対象の対応する運動を取得することを含む。
一可能な実施形態では、前記画像処理方法は、
各ガイドグループのガイド下での前記目標対象の対応する運動に従って、前記処理される画像をマッピングして、各ガイドグループに対応する新しい画像を取得することと、
前記処理される画像および前記各ガイドグループに対応する新しい画像に従って、ビデオを生成することと、をさらに含む。
一可能な実施形態では、処理される画像内の目標対象に設定されたガイドグループを決定することは、
前記処理される画像内の第1目標対象に設定された少なくとも1つの第1ガイドポイントを決定することと、
前記少なくとも1つの第1ガイドポイントに従って複数のガイドグループを生成することであって、同じガイドグループ内の第1ガイドポイントの方向は同じであり、異なるガイドグループ内の第1ガイドポイントの方向は異なることと、を含む。
一可能な実施形態では、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
各ガイドグループ内の前記第1ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得することを含む。
一可能な実施形態では、前記画像処理方法は、
各ガイドグループのガイド下での前記処理される画像内の前記第1目標の対応する運動を融合して、前記処理される画像内の第1目標対象に対応するマスクを取得することをさらに含む。
一可能な実施形態では、前記画像処理方法は、
処理される画像に設定された少なくとも1つの第2ガイドポイントを決定することをさらに含み、前記第2ガイドポイントの運動速度は0であり、
前記各ガイドグループ内の前記第1ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得することは、
各ガイドグループ内の前記第1ガイドポイント、第2ガイドポイント、および前記処理される画像に従ってオプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得することを含む。
本開示の一態様によれば、ネットワークトレーニング方法を提供し、前記方法は、
第1サンプルグループを取得することであって、前記第1サンプルグループは、処理される画像サンプルおよび前記処理される画像サンプル内の目標対象に対応する第1運動を含むことと、
前記第1運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得することと、
前記処理される画像サンプル内の目標対象に対応するスパース運動、バイナリマスク、および前記処理される画像サンプルを第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像サンプル内の目標対象に対応する第2運動を取得することと、
前記第1運動および前記第2運動に従って、前記第1ニューラルネットワークの運動損失を決定することと、
前記運動損失に従って、前記第1ニューラルネットワークのパラメータを調整することと、を含む。
一可能な実施形態では、前記第1ニューラルネットワークは、条件付き運動伝播ネットワークである。
一可能な実施形態では、前記第1運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得することは、
前記第1運動に対してエッジ抽出処理を実行して、前記第1運動に対応するエッジマップを取得することと、
前記エッジマップから少なくとも1つのキーポイントを決定することと、
前記少なくとも1つのキーポイントの位置に従って、前記処理される画像サンプル内の目標対象に対応するバイナリマスクを取得し、前記少なくとも1つのキーポイントに対応する運動に従って、前記処理される画像サンプル内の目標対象に対応するスパース運動を取得することと、を含む。
本開示の一態様によれば、画像処理装置を提供し、前記装置は、
処理される画像内の目標対象に設定されたガイドグループを決定するように構成される第1決定モジュールであって、前記ガイドグループは、少なくとも1つのガイドポイントを含み、前記ガイドポイントは、サンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を示し、前記サンプリング画素は、前記処理される画像内の目標対象の画素である第1決定モジュールと、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される予測モジュールと、を備える。
一可能な実施形態では、前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向、前記ガイドグループ内のガイドポイントが指示するサンプリング画素の位置、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される。
一可能な実施形態では、前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向に従って、処理される画像内の目標対象に対応するスパース運動を生成し、前記スパース運動は、前記目標対象の各サンプリング画素の運動速度の大きさと方向を指示し、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の位置に従って、処理される画像内の目標対象に対応するバイナリマスクを生成し、前記バイナリマスクは、前記目標対象の各サンプリング画素の位置を指示し、
前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される。
一可能な実施形態では、前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像を、第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される。
一可能な実施形態では、前記予測モジュールは、
前記処理される画像内の目標対象に対応するスパース運動とバイナリマスクに対して特徴抽出を実行して、第1特徴を取得するように構成されるスパース運動符号化モジュールと、
前記処理される画像に対して特徴抽出を実行して、第2特徴を取得するように構成される画像符号化モジュールと、
前記第1特徴と前記第2特徴を連結して、第3特徴を取得するように構成される連結モジュールと、
前記第3特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される高密度運動復号化モジュールと、を備える。
一可能な実施形態では、前記高密度運動復号化モジュールは、さらに、
前記第3特徴を、少なくとも2つの伝播ネットワークにそれぞれ入力して全画像伝播処理を実行して、各伝播ネットワークに対応する伝播結果を取得し、
前記各伝播ネットワークに対応する伝播結果を融合ネットワークに入力して融合処理を実行して、前記処理される画像内の目標対象の運動を取得するように構成される。
一可能な実施形態では、前記第1決定モジュールは、さらに、
処理される画像内の目標対象に設定された複数のガイドグループを決定するように構成され、前記複数のガイドグループ内の少なくとも1つのガイドポイントは異なる。
一可能な実施形態では、前記予測モジュールは、さらに、
各ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記目標対象の対応する運動を取得するように構成される。
一可能な実施形態では、前記画像処理装置は、
各ガイドグループのガイド下での前記目標対象の対応する運動に従って、前記処理される画像をマッピングして、各ガイドグループに対応する新しい画像を取得するように構成されるマッピングモジュールと、
前記処理される画像および前記各ガイドグループに対応する新しい画像に従って、ビデオを生成するように構成されるビデオ生成モジュールと、をさらに備える。
一可能な実施形態では、前記第1決定モジュールは、さらに、
前記処理される画像内の第1目標対象に設定された少なくとも1つの第1ガイドポイントを決定し、
前記少なくとも1つの第1ガイドポイントに従って複数のガイドグループを生成するように構成され、同じガイドグループ内の第1ガイドポイントの方向は同じであり、異なるガイドグループ内の第1ガイドポイントの方向は異なる。
一可能な実施形態では、前記予測モジュールは、さらに、
各ガイドグループ内の前記第1ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得するように構成される。
一可能な実施形態では、前記画像処理装置は、
各ガイドグループのガイド下での前記処理される画像内の前記第1目標の対応する運動を融合して、前記処理される画像内の第1目標対象に対応するマスクを取得するように構成される融合モジュールをさらに備える。
一可能な実施形態では、前記画像処理装置は、
処理される画像に設定された少なくとも1つの第2ガイドポイントを決定するように構成される第2決定モジュールをさらに備え、前記第2ガイドポイントの運動速度は0であり、
前記予測モジュールは、さらに、
各ガイドグループ内の前記第1ガイドポイント、第2ガイドポイント、および前記処理される画像に従ってオプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得するように構成される。
本開示の一態様によれば、ネットワークトレーニング装置を提供し、前記装置は、
第1サンプルグループを取得するように構成される取得モジュールであって、前記第1サンプルグループは、処理される画像サンプルおよび前記処理される画像サンプル内の目標対象に対応する第1運動を含む取得モジュールと、
前記第1運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得するように構成される処理モジュールと、
前記処理される画像サンプル内の目標対象に対応するスパース運動、バイナリマスク、および前記処理される画像サンプルを第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像サンプル内の目標対象に対応する第2運動を取得するように構成される予測モジュールと、
前記第1運動および前記第2運動に従って、前記第1ニューラルネットワークの運動損失を決定するように構成される決定モジュールと、
前記運動損失に従って、前記第1ニューラルネットワークのパラメータを調整するように構成される調整モジュールと、を備える。
一可能な実施形態では、前記第1ニューラルネットワークは、条件付き運動伝播ネットワークである。
一可能な実施形態では、前記処理モジュールは、さらに、
前記第1運動に対してエッジ抽出処理を実行して、前記第1運動に対応するエッジマップを取得し、
前記エッジマップから少なくとも1つのキーポイントを決定し、
前記少なくとも1つのキーポイントの位置に従って、前記処理される画像サンプル内の目標対象に対応するバイナリマスクを取得し、前記少なくとも1つのキーポイントに対応する運動に従って、前記処理される画像サンプル内の目標対象に対応するスパース運動を取得するように構成される。
本開示の一態様によれば、電子機器を提供し、前記電子機器は、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、上記の方法を実行するように構成される。
本開示の一態様によれば、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、上記の方法を実現する。
本開示の一態様によれば、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、上記の方法を実現するための命令を実行させる。
本開示の実施例では、処理される画像内の目標対象に設定された、少なくとも1つのガイドポイントを含むガイドグループを取得した後、ガイドグループに含まれるガイドポイントおよび処理される画像に従って、オプティカルフロー予測を実行して、処理される画像内の目標対象の運動を取得することができる。本開示の実施例で提供される画像処理方法および装置によれば、ガイドポイントのガイドにより、目標対象の運動を予測することができ、目標対象とその運動との間の強い関連性に依存せずに、目標対象の運動を予測する品質を向上させることができる。
以上の一般的な説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本開示を制限しないことを理解すべきである。
以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明確になる。
ここでの図面は、本明細書に組み込まれ、本明細書の一部を構成し、これらの図面は、本開示に準拠する実施例を示し、本明細書とともに本開示の技術的解決策を説明するために使用される。
本開示の実施例による画像処理方法のフローチャートである。 本開示の一例示的な処理される画像に対するガイドポイント設定の概略図である。 本開示の一例示的なオプティカルフローの概略図である。 本開示の一例示的なスパース運動およびバイナリマスクの概略図である。 本開示の実施例による画像処理方法のフローチャートである。 本開示の実施例における第1ニューラルネットワークの概略図である。 本開示の実施例による画像処理方法のフローチャートである。 本開示の一例示的なビデオ生成プロセスの概略図である。 本開示の実施例による画像処理方法のフローチャートである。 本開示の一例示的なマスク生成プロセスの概略図である。 本開示の実施例によるネットワークトレーニング方法のフローチャートである。 本開示の実施例による画像処理装置の構造ブロック図である。 本開示の実施例によるネットワークトレーニング装置の構造ブロック図である。 一例示的な実施例による電子機器800のブロック図である。 一例示的な実施例による電子機器1900のブロック図である。
以下、図面を参照しながら本開示の様々な例示的な実施例、特徴、および態様を詳細に説明する。図面における同じ参照符号は、同じまたは類似の機能を有する要素を表す。実施例の様々な態様が図面に示されるが、特に明記しない限り、必ずしも縮尺通りに図面を作る必要はない。
本明細書で使用される「例示的」という用語は、「例、実施例として用いられることまたは説明的なもの」を意味する。本明細書で「例示的」として説明される任意の実施例は、他の実施例より優れるまたは良好なものと解釈すべきではない。
本明細書における「および/または」という用語は、関連付けられたオブジェクトを説明する単なる関連付けであり、3種類の関係が存在することができることを示し、例えば、Aおよび/またはBは、Aが独立で存在する場合、AとBが同時に存在する場合、Bが独立で存在する場合の3つの場合を表す。また、本明細書における「少なくとも1つ」という用語は、複数のうちのいずれか1つまたは複数のうちの少なくとも2つの任意の組み合わせを意味し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、BおよびCからなるセットから選択されるいずれか1つまたは複数の要素を含むことを意味することができる。
また、本開示をより効果的に説明するために、以下の具体的な実施形態では、多くの具体的な詳細を提供する。当業者であれば、本開示は、いくつかの特定の詳細なしに実施することもできることを理解すべきである。いくつかの実施例において、本開示の要旨を強調するために、当業者に既知の方法、手段、要素、および回路に対する詳細な説明を省略する。
図1は、本開示の実施例による画像処理方法のフローチャートである。当該画像処理方法は、端末機器または他の処理機器によって実行でき、ここで、端末機器は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、携帯情報端末(PDA:Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。他の処理機器は、サーバまたはクラウドサーバであってもよい。いくつかの可能な実施形態では、当該画像処理方法は、メモリに記憶されたコンピュータ可読命令をプロセッサにより呼び出すことで実現してもよい。
図1に示されるように、当該画像処理方法は以下のステップを含む。
ステップ101において、処理される画像内の目標対象に設定されたガイドグループを決定し、前記ガイドグループは、少なくとも1つのガイドポイントを含み、前記ガイドポイントは、サンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を示す。
例えば、処理される画像内の目標対象に少なくとも1つのガイドポイントを設定することができ、前記少なくとも1つのガイドポイントは、1つのガイドグループを構成することができる。ここで、任意のガイドポイントは、1つのサンプリング画素に対応することができ、前記ガイドポイントは、前記ガイドポイントに対応するサンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を含み得る。
例示的に、処理される画像内の目標対象上で複数のサンプリング画素を決定し、前記複数のサンプリング画素にガイドポイントを設定することができる(前記サンプリング画素の運動速度の大きさと方法の設定を含む)。
図2は、本開示の一例示的な処理される画像に対するガイドポイント設定の概略図である。
例えば、図2に示す処理される画像を参照すると、前記処理される画像内の目標対象は人物であり、つまり、この例では人物の運動を予測する必要がある。この場合、人物の身体および頭などの要所にガイドポイントを設定でき、前記ガイドポイントは、矢印の形で表すことができ、ここで、矢印の長さは、前記ガイドポイントが指示するサンプリング画素の運動速度の大きさ(以下、ガイドポイントが指示する運動速度の大きさと略称する)にマッピングし、矢印の方向は、前記ガイドポイントが指示するサンプリング画素の運動速度の方向(以下、ガイドポイントが指示する運動速度の方向と略称する)にマッピングすることができる。ユーザは、矢印の方向を設定することで、ガイドポイントが指示する運動速度の方向を設定でき、矢印の長さを設定することで、ガイドポイントが指示する運動速度の大きさを設定でき(または、入力ボックスを使用して、ガイドポイントが指示する運動速度の大きさを入力することができる)、または、ガイドポイントの位置を選択した後、入力ボックスを使用して、ガイドポイントが指示する運動速度の方向(ガイドポイントが指示する運動速度の方向は、角度(0~360°)で表すことができる)および運動速度の大きさを入力することができる。本開示は、ガイドポイントの設定方式を特に限定しない。
ステップ102において、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得する。
一可能な実施形態では、上記のステップ102において、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像を、第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することを含み得る。
例えば、上記の第1ニューラルネットワークは、ガイドポイントが指示する運動速度の大きさと方向を全画像伝播してオプティカルフロー予測を実行するために、大量のトレーニングサンプルを使用してトレーニングすることで得られたネットワークである。ガイドグループを取得した後、ガイドグループの目標対象に設定されたガイドポイント(位置、運動速度の大きさと方向)および処理される画像を第1ニューラルネットワークに入力してオプティカルフロー予測を実行することにより、設定されたガイドポイントを使用して、処理される画像内の目標対象に対応する画素の運動をガイドして、処理される画像内の目標対象の運動を取得することができる。上記の第1ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。
図3は、本開示の一例示的なオプティカルフローの概略図である。
例示的に、図3の1行目の画像に示されるように、順番に、処理される画像内の人物の左足に1つのガイドポイントを設定し、処理される画像内の人物の左足と左脚にそれぞれ1つのガイドポイントを設定し、処理される画像内の人物の左足、左脚および頭にそれぞれ1つのガイドポイントを設定し、処理される画像画像内の人物の左足、左脚、頭および胴体にそれぞれ1つのガイドポイントを設定し、処理される画像内の人物の左足、左脚、頭、胴体および右脚にそれぞれ1つのガイドポイントを設定する。この場合、上記5つのガイドポイントの設定方式で設定されたガイドポイントをそれぞれ第1ニューラルネットワークに入力して、人物の左足に対応する運動、人物の左足と左脚に対応する運動、人物の左足、左脚および頭に対応する運動、人物の左足、左脚、頭および胴体に対応する運動、人物の左足、左脚、頭、胴体および右脚に対応する運動を生成する。ここで、上記の5つのガイドポイントの設定方式によって生成された運動に対応するオプティカルフローマップは、図3の2行目の画像に示す通りである。第1ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。
このように、処理される画像内の目標対象に設定された、少なくとも1つのガイドポイントを含むガイドグループを取得した後、ガイドグループに含まれるガイドポイントおよび処理される画像に従って、オプティカルフロー予測を実行して、処理される画像内の目標対象の運動を取得することができる。本開示の実施例で提供される画像処理方法によれば、ガイドポイントのガイドにより、目標対象の運動を予測することができ、目標対象とその運動との間の強い関連性に依存せずに、目標対象の運動を予測する品質を向上させることができる。
一可能な実施形態では、上記のステップ102において、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向、前記ガイドグループ内のガイドポイントが指示するサンプリング画素の位置、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することを含み得る。
例えば、ガイドグループ内のガイドポイントおよび前記処理される画像を第1ニューラルネットワークに入力し、第1ニューラルネットワークによって、ガイドポイントが指示する運動速度の大きさと方向、およびガイドグループ内のガイドポイントが指示するサンプリング画素の位置を、処理される画像で全画像伝播することにより、ガイドポイントに従って処理される画像内の目標対象の運動をガイドして、処理される画像内の目標対象の運動を取得することができる。
一可能な実施形態では、上記のステップ102において、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向に従って、処理される画像内の目標対象に対応するスパース運動を生成することであって、前記スパース運動は、前記目標対象の各サンプリング画素の運動速度の大きさと方向を指示することと、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の位置に従って、処理される画像内の目標対象に対応するバイナリマスクを生成することと、
前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含み得る。
図4は、本開示の一例示的なスパース運動およびバイナリマスクの概略図である。
例えば、ガイドグループ内のすべてのガイドポイントが指示する運動速度の大きさと方向に従って、処理される画像内の目標対象に対応するスパース運動を生成することができ、前記スパース運動は、目標対象の各サンプリング画素の運動速度の大きさと方向(図2に示す処理される画像のガイドポイントに対応するスパース運動については、図4を参照することができる)を指示し、ガイドグループ内のすべてのガイドポイントが指示する位置に従って、処理される画像内の目標対象に対応するバイナリマスクを生成することができ、前記バイナリマスクは、目標対象の各サンプリング画素の位置(図2に示される処理される画像のガイドポイントに対応するバイナリマスクについては、図4を参照することができる)を指示するために使用されることができる。
例えば、上記のスパース運動、バイナリマスク、および前記処理される画像を第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することができる。第1ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。
本開示の実施例で提供される画像処理方法によれば、ガイドポイントのガイドにより、目標対象の運動を予測することができ、目標対象とその運動との間の強い関連性に依存せずに、目標対象の運動を予測する品質を向上させることができる。
図5は、本開示の実施例による画像処理方法のフローチャートであり、図6は、本開示の実施例における第1ニューラルネットワークの概略図である。
一可能な実施形態では、図6に示されるように、前記第1ニューラルネットワークは、第1符号化ネットワーク、第2符号化ネットワーク、および復号化ネットワークを含むことができ、図5と図6を参照すると、前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、以下のステップ含み得る。
ステップ1021において、前記処理される画像内の目標対象に対応するスパース運動とバイナリマスクに対して特徴抽出を実行して、第1特徴を取得する。
例えば、処理される画像内の目標対象に対応するスパース運動およびバイナリマスクを第1符号化ネットワークに入力して特徴抽出を実行して、第1特徴を取得することができる。上記の第1符号化ネットワークは、目標対象のスパース運動とバイナリマスクを符号化して、コンパクトなスパース運動特徴を取得するためのニューラルネットワークであり得、前記コンパクトなスパース運動特徴は、第1特徴である。例えば、第1符号化ネットワークは、2つのConv-BN-ReLU-Poolingブロック(畳み込み-バッチ標準化・アクティベーション・プーリング)で構成されるニューラルネットワークであり得る。
ステップ1022において、前記処理される画像中に対して特徴抽出を実行して、第2特徴を取得する。
例えば、前記処理される画像を第2符号化ネットワークに入力して特徴抽出を実行して、第2特徴を取得することができる。上記の第2符号化ネットワークを使用して、処理される画像を符号化することにより、静的な処理される画像から目標対象の運動学的学属性を抽出して(例えば、人物の下腿が剛体構造であることや全体的な運動などの特徴を抽出する)、深層特徴を取得することができ、前記深層特徴は第2特徴である。第2符号化ネットワークはニューラルネットワークであり得、例えば、AlexNet/ResNet-50と1つの畳み込み層で構成されるニューラルネットワークであり得る。
ステップ1023において、前記第1特徴と前記第2特徴を連結して、第3特徴を取得する。
例えば、上記の第1特徴および第2特徴が両方ともテンソルである場合、第1特徴と第2特徴を連結して、第3特徴を取得でき、前記第3特徴もテンソルである。
例示的に、第1特徴の次元がc1×h×wであり、第2特徴の次元がc2×h×wであると仮定すると、連結処理の後に得られる第3特徴の次元は(c1+c2)×h×wであり得る。
ステップ1024において、前記第3特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得する。
例えば、上記の第3特徴を復号化ネットワークに入力してオプティカルフロー予測を実行して、処理される画像内の目標対象の運動を取得することができる。上記の復号化ネットワークは、第3特徴に従ってオプティカルフロー予測するために使用され、復号化ネットワークの出力は、処理される画像内の目標対象の運動である。
一可能な実施形態では、上記の復号化ネットワークは、少なくとも2つの伝播ネットワークおよび1つの融合ネットワークを含むことができ、前記第3特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
前記第3特徴を、少なくとも2つの伝播ネットワークにそれぞれ入力して全画像伝播処理を実行して、各伝播ネットワークに対応する伝播結果を取得することと、
前記各伝播ネットワークに対応する伝播結果を前記融合ネットワークに入力して融合処理を実行して、前記処理される画像内の目標対象の運動を取得することと、を含み得る。
例えば、上記の復号化ネットワークは、少なくとも2つの伝播ネットワークおよび1つの融合ネットワークを含むことができ、各伝播ネットワークは、1つの最大プーリング層(max pooling layer)および2つのスタックされたConv-BN-ReLUブロックを含むことができ、融合ネットワークは、単一の畳み込み層を含むことができる。上記の第3特徴を各伝播ネットワークにそれぞれ入力して、各伝播ネットワークによって、上記の第3特徴を処理される画像の画像全体に伝播することにより、第3特徴を使用して処理される画像の全画像運動を復元して、各伝播ネットワークに対応する伝播結果を取得することができる。
例示的に、復号化ネットワークは、3つの伝播ネットワークを含むことができ、前記3つの伝播ネットワークは、異なる空間ステップ幅の畳み込みニューラルネットワークによって構築されたものであり、例えば、空間ステップ幅がそれぞれ1、2、4である畳み込みニューラルネットワークは、3つの伝播ネットワークを構築でき、伝播ネットワーク1は、ステップ幅が1である畳み込みニューラルネットワークで構成でき、伝播ネットワーク2は、ステップ幅が2である畳み込みニューラルネットワークで構成でき、伝播ネットワーク3は、ステップ幅が4である畳み込みニューラルネットワークで構成できる。
融合ネットワークは、各伝播ネットワークの伝播結果を融合処理して、対応する目標対象の運動を取得することができる。上記の第1ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。
本開示の実施例で提供される画像処理方法によれば、ガイドポイントのガイドにより、目標対象の運動を予測することができ、目標対象とその運動との間の強い関連性に依存せずに、目標対象の運動を予測する品質を向上させることができる。
図7は、本開示の実施例による画像処理方法のフローチャートである。
一可能な実施形態では、図7を参照すると、上記のステップ101において、前記処理される画像内の目標対象に設定されたガイドグループを決定することは、以下のステップを含み得る。
ステップ1011において、処理される画像内の目標対象に設定された複数のガイドグループを決定し、ここで、前記複数のガイドグループ内の少なくとも1つのガイドポイントは異なる。
例えば、ユーザは、目標対象に対して複数のガイドグループを設定することができ、各ガイドグループは、少なくとも1つのガイドポイントを含むことができ、異なるガイドグループ内の少なくとも1つのガイドポイントは異なる。
図8は、本開示の一例示的なビデオ生成プロセスの概略図である。
例示的に、図8を参照すると、ユーザは処理される画像内の目標対象に対して3つのガイドグループを順次設定しており、ここで、ガイドグループ1は、ガイドポイント1、ガイドポイント2、およびガイドポイント3を含む。ガイドグループ2は、ガイドポイント4、ガイドポイント5、およびガイドポイント6を含む。ガイドグループ3は、ガイドポイント7、ガイドポイント8、およびガイドポイント9を含む。
異なるガイドグループ内の設定されたガイドポイントは、同じ位置に設定でき(例えば、図8では、ガイドグループ1内のガイドポイント1、ガイドグループ2内のガイドポイント4、およびガイドグループ3内のガイドポイント7は、同じ位置に設定されているが、それぞれが指示する運動速度の大きさと方向は異なる)、異なる位置に設定することもでき、または異なるガイドグループは、同じ位置に設定されかつ指示する運動速度の大きさと方向が同じであるガイドポイントを有することもでき、本開示の実施例はこれに対して限定しないことに留意されたい。
一可能な実施形態では、図7を参照すると、上記のステップ102において、前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、以下のステップを含み得る。
ステップ1025において、各ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記目標対象の対応する運動を取得する。
例えば、各ガイドグループのガイドポイントおよび処理される画像を順次に第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、各ガイドグループのガイド下での処理される画像内の目標対象の対応する運動を取得することができる。
例示的に、ガイドグループ1および処理される画像を第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、ガイドグループ1のガイド下での処理される画像内の目標対象の対応する運動1を取得し、ガイドグループ2および処理される画像を第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、ガイドグループ2のガイド下での処理される画像内の目標対象の対応する運動2を取得し、ガイドグループ3および処理される画像を第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、ガイドグループ3のガイド下での処理される画像内の目標対象の対応する運動3を取得することができる。第1ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。
一可能な実施形態では、図7を参照すると、前記画像処理方法は、以下のステップをさらに含む。
ステップ103において、各ガイドグループのガイド下での前記目標対象の対応する運動に従って、前記処理される画像をマッピングして、各ガイドグループに対応する新しい画像を取得する。
ステップ104において、前記処理される画像および前記各ガイドグループに対応する新しい画像に従って、ビデオを生成する。
例えば、処理される画像内の各画素を、前記画素に対応する運動(運動速度の大きさと方向)に従ってマッピングして、対応する新しい画像を取得することができる。
例示的に、処理される画像内の特定の画素の位置が(X、Y)であり、運動1における当該画素に対応する運動情報が、運動速度の方向が110度であり、運動速度の大きさが(x1、y1)である情報を含む場合、マッピングした後、前記画素は、運動速度(x1、y1)で110度の方向に移動し、移動後の処理される画像内の前記画素点の位置は(X1、Y1)である。運動1に従って処理される画像内の各画素をマッピングした後、新しい画像1を取得することができる。同様に、図8を参照すると、運動2に従って処理される画像内の各画素をマッピングした後、新しい画像2を取得することができ、運動3に従って処理される画像内の各画素をマッピングした後、新しい画像3を取得することができる。
各ガイドグループに従って対応する新しい画像を取得した後、処理される画像および各ガイドグループに対応する新しい画像は、画像シーケンスを構成でき、前記画像シーケンスに従って対応するビデオを生成することができ、例えば、図8に示す処理される画像および新しい画像1、新しい画像2、新しい画像3を使用して、腕と脚を踊っている人の対応する1セグメントのビデオを生成することができる。
このように、ユーザは、ガイドポイントを設定することにより、ガイドポイントを使用して目標対象の運動方向および運動速度を指定して、対応するビデオを生成することができ、生成されたビデオは、ユーザの期待により合うし、品質もより高く、ビデオの生成方式を豊富にする。
図9は、本開示の実施例による画像処理方法のフローチャートである。
一可能な実施形態では、図9を参照すると、上記のステップ101において、処理される画像内の目標対象に設定されたガイドグループを決定することは、以下のステップを含み得る。
ステップ1012において、前記処理される画像内の第1目標対象に設定された少なくとも1つの第1ガイドポイントを決定する。
例えば、ユーザは、処理される画像内の第1目標対象に対する少なくとも1つの第1ガイドポイントの位置を決定し、対応する位置に第1ガイドポイントを設定することができる。
ステップ1013において、前記少なくとも1つの第1ガイドポイントに従って複数のガイドグループを生成し、同じガイドグループ内の第1ガイドポイントの方向は同じであり、異なるガイドグループ内の第1ガイドポイントの方向は異なる。
第1ガイドポイントを取得した後、各第1ガイドポイントに複数の方向を設定して、複数のガイドグループを生成することができる。例えば、ガイドグループ1内の第1ガイドポイントの方向を上に向かうように設定し、ガイドグループ2内の第1ガイドポイントの方向を下に向かうように設定し、ガイドグループ3内の第1ガイドポイントの方向を左に向かうように設定し、ガイドグループ4内の第1ガイドポイントの方向を右に向かうように設定する。第1ガイドポイントの運動速度は0ではない。ここで、ガイドポイントの方向は、ガイドポイントが指示するサンプリング画素の運動速度の方向として理解できる。
一可能な実施形態では、図9を参照すると、ステップ102において、取得された前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、以下のステップを含み得る。
ステップ1025において、各ガイドグループ内の前記第1ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得する。
対応する各方向のガイドグループを取得した後、各ガイドグループに従って目標対象に対してオプティカルフロー予測を実行して、各方法での目標対象の運動を取得することができる。
例示的に、任意のガイドグループ内の第1ガイドポイントおよび処理される画像を、第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記ガイドグループに対応する方向での目標対象の運動を取得することができる。
一可能な実施形態では、図9を参照すると、前記画像処理方法は、以下のステップをさらに含み得る。
ステップ105において、各ガイドグループのガイド下での前記処理される画像内の前記第1目標の対応する運動を融合して、前記処理される画像内の第1目標対象に対応するマスクを取得する。
各方向に対応する第1目標対象の運動を取得した後、各方法での運動を融合することができ(例えば、平均値を求める方法、共通集合または和集合を求めるなどの方式を採用することができ、本開示の実施例は、融合方式を特に限定しない)、つまり、前記処理される画像内の第1目標対象に対応するマスクを取得することができる。
図10は、本開示の一例示的なマスク生成プロセスの概略図である。
例示的に、図10に示されるように、ユーザは、処理される画像内の人物1に対して第1ガイドポイントを設定する(5つの第1ガイドポイントが設定されている)。ユーザが設定した5つの第1ガイドポイントに対して、上、下、左、右の4方向でそれぞれ4つのガイドグループを生成する。第1ニューラルネットワークおよび4つのガイドグループに従って、人物1に対してオプティカルフロー予測を実行して、上、下、左、右の4方向での目標対象の運動(運動1、運動2、運動3、運動4)を取得する。4つのガイドグループに対応する運動1、運動2、運動3、運動4を融合して、人物1のマスクを取得する。第1ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。
一可能な実施形態では、前記画像処理方法は、
処理される画像に設定された少なくとも1つの第2ガイドポイントを決定することをさらに含み、ここで、前記第2ガイドポイントの運動速度は0である。
例えば、第2目標対象は、第1目標対象を遮るか、または第1目標対象に近い対象であり得る。第1目標対象に第1ガイドポイントを設定するときに、第2目標対象に第2ガイドポイントを同時に設定することができる。
例示的に、第1ガイドポイント設定ツールを使用して第1ガイドポイントを設定し、第2ガイドポイント設定ツールを使用して第2ガイドポイントを設定することができる。あるいは、ガイドポイントを設定するときに、第1ガイドポイントまたは第2ガイドポイントに対応するオプションを選択することにより、前記ガイドポイントを第1ガイドポイントまたは第2ガイドポイントとして決定することができる。表示画面では、第1ガイドポイントと第2ガイドポイントの色は異なり(例えば、第1ガイドポイントが緑色であり、第2ガイドポイントが赤色であるなど)、または第1ガイドポイントと第2ガイドポイントの形状が異なる(例えば、第1ガイドポイントが円形であり、第2ガイドポイントが十字形であるなど)。
本開示の実施例において、前記各ガイドグループ内の前記第1ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得することは、
前記依次各ガイドグループ内の前記第1ガイドポイント、第2ガイドポイント、および前記処理される画像に従ってオプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得することを含み得る。
第1ガイドポイントが運動速度を有し、第2ガイドポイントの運動速度が0であるため、第1ガイドポイントの近くでオプティカルフローを生成でき、第2ガイドポイントの近くでオプティカルフローを生成しなく、これにより、第1目標対象のマスクの遮られた部分または第1目標対象の隣接部分でマスクを生成しないことができるため、生成されたマスクの品質を向上させることができる。
このように、ユーザは、処理される画像内の第1目標対象の第1ガイドポイント(または、第2ガイドポイントも含むことができる)の位置を設定するだけで、第1目標対象のマスクを生成することができるため、ロバスト性が向上し、ユーザの操作を簡素化し、マスク生成の効率と品質が向上する。
図11は、本開示の実施例によるネットワークトレーニング方法のフローチャートである。前記ネットワークトレーニング方法は、端末機器または他の処理機器によって実行でき、ここで、端末機器は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、携帯情報端末(PDA:Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。他の処理機器は、サーバまたはクラウドサーバであってもよい。いくつかの可能な実施形態では、当該画像処理方法は、プロセッサによってメモリに記憶されたコンピュータ可読命令を呼び出すことで実現することができる。
図11を参照すると、前記ネットワークトレーニング方法は、以下のステップを含み得る。
ステップ1101において、第1サンプルグループを取得し、前記第1サンプルグループは、処理される画像サンプルおよび前記処理される画像サンプル内の目標対象に対応する第1運動を含む。
ステップ1102において、前記第1運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得する。
ステップ1103において、前記処理される画像サンプル内の目標対象に対応するスパース運動、バイナリマスク、および前記処理される画像サンプルを第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像サンプル内の目標対象に対応する第2運動を取得する。
ステップ1104において、前記第1運動および前記第2運動に従って、前記第1ニューラルネットワークの運動損失を決定する。
ステップ1105において、前記運動損失に従って、前記第1ニューラルネットワークのパラメータを調整する。
例えば、第1サンプルグループを設定することができる。例えば、一セグメントのビデオから、間隔がフレーム値の閾値(10フレームなど)未満の画像の組み合わせを取得して、オプティカルフローを計算することができる。一セグメントのビデオから常に5フレームのビデオフレームを含むビデオクリップ1、4、10、21、28を取得すると仮定すると、10フレーム未満のビデオフレーム組み合わせは、[1、4]、[4、10]、[21、28]を含み、各ビデオフレーム組み合わせの2つのビデオフレーム画像に従って、対応するオプティカルフローを計算し、ビデオフレーム組み合わせのフレーム数がより少ない方の一フレームの画像を処理される画像サンプルとして使用することができ、前記ビデオフレーム組み合わせの対応するオプティカルフローを、前記処理される画像サンプルに対応する第1運動として使用することができる。
一可能な実施形態では、前記第1運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得することは、
前記第1運動に対してエッジ抽出処理を実行して、前記第1運動に対応するエッジマップを取得することと、
前記エッジマップから少なくとも1つのキーポイントを決定することと、
前記少なくとも1つのキーポイントの位置に従って、前記処理される画像サンプル内の目標対象に対応するバイナリマスクを取得し、前記少なくとも1つのキーポイントに対応する運動に従って、前記処理される画像サンプル内の目標対象に対応するスパース運動を取得することであって、キーポイントに対応する運動は、第1運動におけるキーポイントに対応する画素の対応する運動であり、キーポイントに対応する画素は、エッジマップ内のキーポイントの対応する画素である。
例えば、第1運動に対してエッジ抽出処理を実行することができ、例えば、分水嶺アルゴリズムを使用して、第1運動に対してエッジ抽出処理を実行して、第1運動に対応するエッジマップを取得することができる。その後、前記エッジマップのエッジの内部領域から少なくとも1つのキーポイントを決定することができ、このようにして、キーポイントをすべて目標対象に含めることができる。例えば、カーネルサイズがKである非最大抑制アルゴリズムを使用して、エッジマップから少なくとも1つのキーポイントを決定でき、Kが大きいほど、対応するキーポイントの数は少なくなる。
処理される画像サンプル内のすべてのキーポイントの位置は、目標対象のバイナリマスクを構成し、第1運動におけるすべてのキーポイントに対応する画素の対応する運動は、処理される画像サンプル内の目標対象に対応するスパース運動を構成する。
処理される画像サンプルに対応するバイナリマスクおよびスパース運動を、第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、処理される画像サンプル内の目標対象に対応する第2運動を取得することができる。損失関数(クロスエントロピー損失関数など)を使用して、第1運動と第2運動との間の運動損失を決定することができる。第1運動と第2運動との間の運動損失がトレーニング精度要件(例えば、プリセットされた損失閾値未満であるという要件)を満たす場合、第1ニューラルネットワークのトレーニングを完了したと決定し、トレーニング動作を停止し、それ以外の場合は、第1ニューラルネットワークのパラメータを調整し、第1サンプルグループに従って第1ニューラルネットワークのトレーニングを続ける。
一可能な実施形態では、第1ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。
例えば、第1ニューラルネットワークは、第1符号化ネットワーク、第2符号化ネットワーク、および復号化ネットワークを含むことができ、ここで、第1符号化ネットワーク、第2符号化ネットワーク、および復号化ネットワークの構造については、前述した実施例を参照することができ、本開示の実施例では繰り返して説明しない。
例示的に、必要に応じて、第1ニューラルネットワークに対して標的型のトレーニングを実行できる。例えば、顔認識に適用される第1ニューラルネットワークをトレーニングする場合、第1サンプルグループ内の処理される画像サンプルは、人物の顔画像であり得、人物の肢体認識に適用される第1ニューラルネットワークをトレーニングする場合、第1サンプルグループ内の処理される画像サンプルは、人物の身体の画像であり得る。
このように、本開示の実施例は、マークされていない大量の画像サンプルを使用して第1ニューラルネットワークに対して教師なしトレーニングを実行でき、トレーニングにより得られた第1ニューラルネットワークは、ガイドポイントのガイドに従って、目標対象の運動を予測でき、目標対象とその運動との間の強い関連性に依存せずに、目標対象の運動を予測する品質を向上させることができる。加えて、第1ニューラルネットワークにおける第1符号化ネットワークを、大量の高レベルの視覚的タスク(例えば、ターゲット検出、セマンティックセグメンテーション(Semantic Segmentation)、インスタンスセグメンテーション(Instance Segmentation)、人体解析)に用いられる画像符号器として使用でき、第1ニューラルネットワークにおける第2符号化ネットワークのパラメータに従って、上記の高レベルの視覚的タスクに対応するネットワークにおける画像符号器のパラメータ初期化することができ、これにより、高レベルの視覚的タスクにおける対応するネットワークが、初期化ときにより高い性能を有するようにし、高レベルの視覚的タスクにおける対応するネットワークの性能を大幅に向上させることができる。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。
本開示はまた、画像処理装置、電子機器、コンピュータ可読記憶媒体、およびプログラムを提供し、これらはすべて、本開示で提供される方法のいずれかを実現するために使用されることができ、対応する技術的解決策と説明は、方法の実施例の対応する説明を参照することができ、ここでは繰り返して説明しない。
当業者なら自明であるが、上記の特定の実施形態における方法において、各ステップの記述順序は、厳しい実行順序により実施プロセスを制限するものではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定される必要がある。
図12は、本開示の実施例による画像処理装置の構造ブロック図である。図12に示されるように、前記装置は、
処理される画像内の目標対象に設定されたガイドグループを決定するように構成される第1決定モジュール1201であって、前記ガイドグループは、少なくとも1つのガイドポイントを含み、前記ガイドポイントは、サンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を示し、前記サンプリング画素は、前記処理される画像内の目標対象の画素である第1決定モジュール1201と、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される予測モジュール1202と、を備えることができる。
このように、処理される画像内の目標対象に設定された、少なくとも1つのガイドポイントを含むガイドグループを取得した後、ガイドグループに含まれるガイドポイントおよび処理される画像に従って、オプティカルフロー予測を実行して、処理される画像内の目標対象の運動を取得することができる。本開示の実施例で提供される画像処理装置によれば、ガイドポイントのガイドにより、目標対象の運動を予測することができ、目標対象とその運動との間の強い関連性に依存せずに、目標対象の運動を予測する品質を向上させることができる。
一可能な実施形態では、前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向、前記ガイドグループ内のガイドポイントが指示するサンプリング画素の位置、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成できる。
一可能な実施形態では、前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向に従って、処理される画像内の目標対象に対応するスパース運動を生成し、前記スパース運動は、前記目標対象の各サンプリング画素の運動速度の大きさと方向を指示し、
前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の位置に従って、処理される画像内の目標対象に対応するバイナリマスクを生成し、前記バイナリマスクは、前記目標対象の各サンプリング画素の位置を指示し、
前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成できる。
一可能な実施形態では、前記予測モジュールは、さらに、
前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像を、第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成できる。
一可能な実施形態では、前記予測モジュールは、
前記処理される画像内の目標対象に対応するスパース運動とバイナリマスクに対して特徴抽出を実行して、第1特徴を取得するように構成されるスパース運動符号化モジュールと、
前記処理される画像に対して特徴抽出を実行して、第2特徴を取得するように構成される画像符号化モジュールと、
前記第1特徴と前記第2特徴を連結して、第3特徴を取得するように構成される連結モジュールと、
前記第3特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される高密度運動復号化モジュールと、をさらに備えることができる。
一可能な実施形態では、前記高密度運動復号化モジュールは、さらに、
前記第3特徴を、少なくとも2つの伝播ネットワークにそれぞれ入力して全画像伝播処理を実行して、各伝播ネットワークに対応する伝播結果を取得し、
前記各伝播ネットワークに対応する伝播結果を前記融合ネットワークに入力して融合処理を実行して、前記処理される画像内の目標対象の運動を取得するように構成できる。
一可能な実施形態では、前記第1決定モジュールは、さらに、
処理される画像内の目標対象に設定された複数のガイドグループを決定するように構成でき、ここで、前記複数のガイドグループ内の少なくとも1つのガイドポイントは異なる。
一可能な実施形態では、前記予測モジュールは、さらに
各ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記目標対象の対応する運動を取得するように構成できる。
一可能な実施形態では、前記画像処理装置は、
各ガイドグループのガイド下での前記目標対象の対応する運動に従って、前記処理される画像をマッピングして、各ガイドグループに対応する新しい画像を取得するように構成されるマッピングモジュールと、
前記処理される画像および前記各ガイドグループに対応する新しい画像に従って、ビデオを生成するように構成されるビデオ生成モジュールと、をさらに備えることができる。
一可能な実施形態では、前記第1決定モジュールは、さらに、
前記処理される画像内の第1目標対象に設定された少なくとも1つの第1ガイドポイントを決定し、
前記少なくとも1つの第1ガイドポイントに従って複数のガイドグループを生成するように構成でき、同じガイドグループ内の第1ガイドポイントの方向は同じであり、異なるガイドグループ内の第1ガイドポイントの方向は異なる。
一可能な実施形態では、前記予測モジュールは、さらに、
各ガイドグループ内の前記第1ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得するように構成できる。
一可能な実施形態では、前記画像処理装置は、
各ガイドグループのガイド下での前記処理される画像内の前記第1目標の対応する運動を融合して、前記処理される画像内の第1目標対象に対応するマスクを取得するように構成される融合モジュールをさらに備えることができる。
一可能な実施形態では、前記画像処理装置は、
処理される画像に設定された少なくとも1つの第2ガイドポイントを決定するように構成される第2決定モジュールをさらに備えることができ、前記第2ガイドポイントの運動速度は0であり、
前記予測モジュールは、さらに、
各ガイドグループ内の前記第1ガイドポイント、第2ガイドポイント、および前記処理される画像に従ってオプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得するように構成できる。
図13は、本開示の実施例によるネットワークトレーニング装置の構造ブロック図である。図13に示されるように、前記装置は、
第1サンプルグループを取得するように構成される取得モジュール1301であって、前記第1サンプルグループは、処理される画像サンプルおよび前記処理される画像サンプル内の目標対象に対応する第1運動を含む取得モジュール1301と、
前記第1運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得するように構成される処理モジュール1302と、
前記処理される画像サンプル内の目標対象に対応するスパース運動、バイナリマスク、および前記処理される画像サンプルを第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像サンプル内の目標対象に対応する第2運動を取得するように構成される予測モジュール1303と、
前記第1運動および前記第2運動に従って、前記第1ニューラルネットワークの運動損失を決定するように構成される決定モジュール1304と、
前記運動損失に従って、前記第1ニューラルネットワークのパラメータを調整するように構成される調整モジュール1305と、を備えることができる。
一可能な実施形態では、第1ニューラルネットワークは、条件付き運動伝播ネットワークであり得る。
一可能な実施形態では、前記処理モジュールは、さらに、
前記第1運動に対してエッジ抽出処理を実行して、前記第1運動に対応するエッジマップを取得し、
前記エッジマップから少なくとも1つのキーポイントを決定し、
前記少なくとも1つのキーポイントの位置に従って、前記処理される画像サンプル内の目標対象に対応するバイナリマスクを取得し、前記少なくとも1つのキーポイントに対応する運動に従って、前記処理される画像サンプル内の目標対象に対応するスパース運動を取得するように構成できる。
このように、本開示の実施例は、マークされていない大量の画像サンプルを使用して第1ニューラルネットワークに対して教師なしトレーニングを実行でき、トレーニングにより得られた第1ニューラルネットワークは、ガイドポイントのガイドに従って、目標対象の運動を予測することができ、目標対象とその運動との間の強い関連性に依存せずに、目標対象の運動を予測する品質を向上させることができる。加えて、第1ニューラルネットワークにおける第1符号化ネットワークを、大量の高レベルの視覚的タスク(例えば、ターゲット検出、セマンティックセグメンテーション、インスタンスセグメンテーション、人体解析)に用いられる画像符号器として使用でき、第1ニューラルネットワークにおける第2符号化ネットワークのパラメータに従って、上記の高レベルの視覚的タスクに対応するネットワークにおける画像符号器のパラメータ初期化することができ、これにより、高レベルの視覚的タスクにおける対応するネットワークが、初期化ときにより高い性能を有するようにし、高レベルの視覚的タスクにおける対応するネットワークの性能を大幅に向上させることができる。
いくつかの実施例では、本開示の実施例に係る装置に備えられる機能またはモジュールは、上記の方法の実施例で説明された方法を実行するために使用でき、その具体的な実現については、上記の方法の実施例の説明を参照することができ、簡潔にするため、ここでは繰り返して説明しない。
本開示の実施例は、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体をさらに提案し、前記コンピュータプログラム命令は、プロセッサによって実行されるときに、上記の方法を実現するように構成される。コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であってよい。
本開示の実施例は、上記の方法を実行するように構成されるプロセッサと、プロセッサ実行可能な命令を記憶するように構成されるメモリと、備える電子機器をさらに提案する。
本開示の実施例は、コンピュータ可読コードを含むコンピュータプログラムをさらに提案し、前記コンピュータ可読コードは、電子機器で実行されるときに、前記電子機器のプロセッサに上記の方法を実行させるように構成される。
電子機器は、端末、サーバ、または他の形の機器として提供することができる。
図14は、一例示的実施例による電子機器800のブロック図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であってもよい。
図14を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インターフェース812、センサコンポーネント814、および通信コンポーネント816のうちの1つまたは複数を含むことができる。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば、表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記の方法のステップのすべてまたは一部を完了するための命令を実行するための1つまたは複数のプロセッサ820を備えることができる。また、処理コンポーネント802は、処理コンポーネント802と他のコンポーネントとの間の対話を容易にするための1つまたは複数のモジュールを備えることができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808と処理コンポーネント802との間の対話を容易にするためのマルチメディアモジュールを備えることができる。
メモリ804は、電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータの例には、電子機器800で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオなどが含まれる。メモリ804は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現されることができる。
電源コンポーネント806は、電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は、電源管理システム、1つまたは複数の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。
マルチメディアコンポーネント808は、前記電子機器800とユーザとの間で出力インターフェースを提供する画面を含む。いくつかの実施例では、画面は、液晶ディスプレイ(LCD)およびタッチパネル(TP)を含むことができる。画面がタッチパネルを含む場合、画面は、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されてもよい。タッチパネルは、タッチ、スワイプおよびタッチパネルでのジェスチャを検知するために、1つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプ動作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間と圧力も検出する。いくつかの実施例では、マルチメディアコンポーネント808は、フロンドカメラおよび/またはリアカメラを備える。電子機器800が、撮影モードまたは撮像モードなどの動作モードにある場合、フロンドカメラおよび/またはリアカメラは、外部マルチメディアデータを受信することができる。各フロンドカメラおよびリアカメラはそれぞれ、固定光学レンズシステムであってもよく、焦点距離および光学ズーム機能を有するものであってもよい。
オーディオコンポーネント810は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、電子機器800が、呼び出しモード、記録モード、および音声認識モードなどの動作モードにある場合、外部オーディオ信号を受信するように構成されるマイクロフォン(MIC)を備える。受信されたオーディオ信号は、メモリ804にさらに記憶されるか、または通信コンポーネント816によって送信されることができる。いくつかの実施例では、オーディオコンポーネント810は、オーディオ信号を出力するためのスピーカをさらに備える。
I/Oインターフェース812は、処理コンポーネント802と周辺インターフェースモジュールとの間のインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであり得る。これらのボタンは、ホームボタン、音量ボタン、スタートボタン、およびロックボタンなどを含んでもよいが、これらに限定されない。
センサコンポーネント814は、電子機器800に各態様の状態評価を提供するための1つまたは複数のセンサを含む。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態およびコンポーネントの相対的な位置を検出でき、例えば、前記コンポーネントが電子機器800のディスプレイおよびキーパッドであることを検出でき、センサコンポーネント814はまた、電子機器800または電子機器800のコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速、および電子機器800の温度変化を検出できる。センサコンポーネント814は、物理的接触なしに近くの物体の存在を検出するように構成される近接センサを含み得る。センサコンポーネント814はまた、撮像用途で使用するための、CMOSまたはCCD画像センサなどの光センサを含み得る。いくつかの実施例では、当該センサコンポーネント814はまた、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ、または温度センサを含み得る。
通信コンポーネント816は、電子機器800と他の機器との間の有線または無線通信を実現するように構成される。電子機器800は、通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスすることができる。一例示的な実施例では、通信コンポーネント816は、放送チャネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例では、前記通信コンポーネント816は、近距離通信を促進させるために、近距離無線通信(NFC)モジュールをさらに含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及び他の技術に基づいて実現できる。
例示的な実施例では、電子機器800は、上記の方法を実行するために、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現されることができる。
例示的な実施例では、コンピュータプログラム命令を含むメモリ804などの不揮発性コンピュータ可読記憶媒体をさらに提供し、前記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されて、上記の方法を完了することができる。
図15は、一例示的実施例による電子機器1900のブロック図である。例えば、電子機器1900は、サーバとして提供することができる。図15を参照すると、電子機器1900は、1つまたは複数のプロセッサを備える処理コンポーネント1922と、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムなどを記憶するためのメモリリソースを代表するメモリ1932と、を備える。メモリ1932に記憶されたアプリケーションプログラムは、それぞれが1セットの命令に対応する1つまたは複数のモジュールを含むことができる。また、処理コンポーネント1922は、命令を実行して、上記の方法を実行するように構成される。
電子機器1900は、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926と、電子機器1900をネットワークにアクセスするように構成される有線または無線ネットワークインターフェイス1950と、入出力(I/O)インターフェイス1958と、をさらに備えることができる。電子機器1900は、メモリ1932に記憶された操作システム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、コンピュータプログラム命令を含むメモリ1932などの不揮発性コンピュータ可読記憶媒体をさらに提供し、前記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されて上記の方法を完了することができる。
本開示は、システム、方法、および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各態様を実現させるためのコンピュータ可読プログラム命令がロードされているコンピュータ可読記憶媒体を含むことができる。
コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持および記憶することができる有形機器であり得る。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されるパンチカードまたはスロット内の突起構造、および上記の任意の適当な組み合わせを含む。本明細書で使用するコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング/処理機器にダウンロードされるか、インターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークなどのネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含み得る。各コンピューティング/処理機器内のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、各コンピューティング/処理機器内のコンピュータ可読記憶媒体に記憶するために転送する。
本開示の動作を実行するためのコンピュータプログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズすることで、該電子回路はコンピュータ可読プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。
ここで、本開示の実施例による方法、装置(システム)、およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロック、およびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ可読プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび/またはブロック図の1つまたは複数のブロックにおいて指定された機能/動作を実現する手段を創出する。また、これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の1つまたは複数のブロックにおいて指定された機能/動作の各態様を実現する命令を含む製品を備える。
また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器に一連の動作ステップを実行させることにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器で実行される命令によって、フローチャートおよび/またはブロック図の1つまたは複数のブロックで指定された機能/動作を実現するようにする。
図面のフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは、1つのモジュール、プログラムセグメントまたは命令の一部を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部は、指定された論理機能を実現するための1つまたは複数の実行可能な命令を含む。いくつかの代替としての実現では、ブロックでマークされた機能は、図面でマークされた順序とは異なる順序で実行できる。例えば、2つの連続的なブロックは、実際には実質的に同時に実行でき、関連する機能によっては、逆の順序で実行されることもできる。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ開示された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書で使用される用語の選択は、各実施例の原理、実際の適用または市場における技術への技術的改善を最適に解釈するか、または他の当業者に本文で開示された各実施例を理解させるためのものである。

Claims (35)

  1. 画像処理方法であって、
    処理される画像内の目標対象に設定されたガイドグループを決定することであって、前記ガイドグループは、少なくとも1つのガイドポイントを含み、前記ガイドポイントは、サンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を示し、前記サンプリング画素は、前記処理される画像内の目標対象の画素であることと、
    前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含むことを特徴とする、前記画像処理方法。
  2. 前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
    前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向、前記ガイドグループ内のガイドポイントが指示するサンプリング画素の位置、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することを含むことを特徴とする、
    請求項1に記載の画像処理方法。
  3. 前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
    前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向に従って、処理される画像内の目標対象に対応するスパース運動を生成することであって、前記スパース運動は、前記目標対象の各サンプリング画素の運動速度の大きさと方向を指示することと、
    前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の位置に従って、処理される画像内の目標対象に対応するバイナリマスクを生成することであって、前記バイナリマスクは、前記目標対象の各サンプリング画素の位置を指示することと、
    前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含むことを特徴とする、
    請求項1または2に記載の画像処理方法。
  4. 前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
    前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像を、第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することを含むことを特徴とする、
    請求項1ないし3のいずれか一項に記載の画像処理方法。
  5. 前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
    前記処理される画像内の目標対象に対応するスパース運動とバイナリマスクに対して特徴抽出を実行して、第1特徴を取得することと、
    前記処理される画像に対して特徴抽出を実行して、第2特徴を取得することと、
    前記第1特徴と前記第2特徴を連結して、第3特徴を取得することと、
    前記第3特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することと、を含むことを特徴とする、
    請求項3に記載の画像処理方法。
  6. 前記第3特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
    前記第3特徴を、少なくとも2つの伝播ネットワークにそれぞれ入力して全画像伝播処理を実行して、各伝播ネットワークに対応する伝播結果を取得することと、
    前記各伝播ネットワークに対応する伝播結果を融合ネットワークに入力して融合処理を実行して、前記処理される画像内の目標対象の運動を取得することと、を含むことを特徴とする、
    請求項5に記載の画像処理方法。
  7. 前記処理される画像内の目標対象に設定されたガイドグループを決定することは、
    処理される画像内の目標対象に設定された複数のガイドグループを決定することであって、前記複数のガイドグループ内の少なくとも1つのガイドポイントは異なることを含むことを特徴とする、
    請求項1ないし6のいずれか一項に記載の画像処理方法。
  8. 前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
    各ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記目標対象の対応する運動を取得することを含むことを特徴とする、
    請求項7に記載の画像処理方法。
  9. 前記画像処理方法が、
    各ガイドグループのガイド下での前記目標対象の対応する運動に従って、前記処理される画像をマッピングして、各ガイドグループに対応する新しい画像を取得することと、
    前記処理される画像および前記各ガイドグループに対応する新しい画像に従って、ビデオを生成することと、をさらに含むことを特徴とする、
    請求項8に記載の画像処理方法。
  10. 処理される画像内の目標対象に設定されたガイドグループを決定することは、
    前記処理される画像内の第1目標対象に設定された少なくとも1つの第1ガイドポイントを決定することと、
    前記少なくとも1つの第1ガイドポイントに従って複数のガイドグループを生成することであって、同じガイドグループ内の第1ガイドポイントの方向は同じであり、異なるガイドグループ内の第1ガイドポイントの方向は異なることと、を含むことを特徴とする、
    請求項1ないし6のいずれか一項に記載の画像処理方法。
  11. 前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得することは、
    各ガイドグループ内の前記第1ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得することを含むことを特徴とする、
    請求項10に記載の画像処理方法。
  12. 前記画像処理方法が、
    各ガイドグループのガイド下での前記処理される画像内の前記第1目標の対応する運動を融合して、前記処理される画像内の第1目標対象に対応するマスクを取得することをさらに含むことを特徴とする、
    請求項11に記載の画像処理方法。
  13. 前記画像処理方法が、
    処理される画像に設定された少なくとも1つの第2ガイドポイントを決定することであって、前記第2ガイドポイントの運動速度は0であることをさらに含み、
    前記各ガイドグループ内の前記第1ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得することは、
    各ガイドグループ内の前記第1ガイドポイント、前記第2ガイドポイント、および前記処理される画像に従ってオプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得することを含むことを特徴とする、
    請求項11または12に記載の画像処理方法。
  14. ネットワークトレーニング方法であって、
    第1サンプルグループを取得することであって、前記第1サンプルグループは、処理される画像サンプルおよび前記処理される画像サンプル内の目標対象に対応する第1運動を含むことと、
    前記第1運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得することと、
    前記処理される画像サンプル内の目標対象に対応するスパース運動、バイナリマスク、および前記処理される画像サンプルを第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像サンプル内の目標対象に対応する第2運動を取得することと、
    前記第1運動および前記第2運動に従って、前記第1ニューラルネットワークの運動損失を決定することと、
    前記運動損失に従って、前記第1ニューラルネットワークのパラメータを調整することと、を含むことを特徴とする、前記ネットワークトレーニング方法。
  15. 前記第1ニューラルネットワークは、条件付き運動伝播ネットワークであることを特徴とする、
    請求項14に記載のネットワークトレーニング方法。
  16. 前記第1運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得することは、
    前記第1運動に対してエッジ抽出処理を実行して、前記第1運動に対応するエッジマップを取得することと、
    前記エッジマップから少なくとも1つのキーポイントを決定することと、
    前記少なくとも1つのキーポイントの位置に従って、前記処理される画像サンプル内の目標対象に対応するバイナリマスクを取得し、前記少なくとも1つのキーポイントに対応する運動に従って、前記処理される画像サンプル内の目標対象に対応するスパース運動を取得することと、を含むことを特徴とする、
    請求項14または15に記載のネットワークトレーニング方法。
  17. 画像処理装置であって、
    処理される画像内の目標対象に設定されたガイドグループを決定するように構成される第1決定モジュールであって、前記ガイドグループは、少なくとも1つのガイドポイントを含み、前記ガイドポイントは、サンプリング画素の位置、サンプリング画素の運動速度の大きさと方向を示し、前記サンプリング画素は、前記処理される画像内の目標対象の画素である第1決定モジュールと、
    前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される予測モジュールと、を備えることを特徴とする前記画像処理装置。
  18. 前記予測モジュールは、さらに、
    前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向、前記ガイドグループ内のガイドポイントが指示するサンプリング画素の位置、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成されることを特徴とする、
    請求項17に記載の画像処理装置。
  19. 前記予測モジュールは、さらに、
    前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の運動速度の大きさと方向に従って、処理される画像内の目標対象に対応するスパース運動を生成し、前記スパース運動は、前記目標対象の各サンプリング画素の運動速度の大きさと方向を指示し、
    前記ガイドグループ内の前記ガイドポイントが指示するサンプリング画素の位置に従って、処理される画像内の目標対象に対応するバイナリマスクを生成し、前記バイナリマスクは、前記目標対象の各サンプリング画素の位置を指示し、
    前記スパース運動、前記バイナリマスク、および前記処理される画像に従ってオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成されることを特徴とする、
    請求項17または18に記載の画像処理装置。
  20. 前記予測モジュールは、さらに、
    前記ガイドグループ内の前記ガイドポイントおよび前記処理される画像を、第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成されることを特徴とする、
    請求項17ないし19のいずれか一項に記載の画像処理装置。
  21. 前記予測モジュールは、
    前記処理される画像内の目標対象に対応するスパース運動およびバイナリマスクに対して運動特徴抽出を実行して、第1特徴を取得するように構成されるスパース運動符号化モジュールと、
    前記処理される画像に対して特徴抽出を実行して、第2特徴を取得するように構成される画像符号化モジュールと、
    前記第1特徴と前記第2特徴を連結して、第3特徴を取得するように構成される連結モジュールと、
    前記第3特徴に対してオプティカルフロー予測を実行して、前記処理される画像内の目標対象の運動を取得するように構成される高密度運動復号化モジュールと、を備えることを特徴とする、
    請求項19に記載の画像処理装置。
  22. 前記高密度運動復号化モジュールは、さらに、
    前記第3特徴を、少なくとも2つの伝播ネットワークにそれぞれ入力して全画像伝播処理を実行して、各伝播ネットワークに対応する伝播結果を取得し、
    前記各伝播ネットワークに対応する伝播結果を融合ネットワークに入力して融合処理を実行して、前記処理される画像内の目標対象の運動を取得するように構成されることを特徴とする、
    請求項21に記載の画像処理装置。
  23. 前記第1決定モジュールは、さらに、
    処理される画像内の目標対象に設定された複数のガイドグループを決定するように構成され、前記複数のガイドグループ内の少なくとも1つのガイドポイントは異なることを特徴とする、
    請求項17ないし22のいずれか一項に記載の画像処理装置。
  24. 前記予測モジュールは、さらに、
    各ガイドグループ内の前記ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記目標対象の対応する運動を取得するように構成されることを特徴とする、
    請求項23に記載の画像処理装置。
  25. 前記画像処理装置が、
    各ガイドグループのガイド下での前記目標対象の対応する運動に従って、前記処理される画像をマッピングして、各ガイドグループに対応する新しい画像を取得するように構成されるマッピングモジュールと、
    前記処理される画像および前記各ガイドグループに対応する新しい画像に従って、ビデオを生成するように構成されるビデオ生成モジュールと、をさらに備えることを特徴とする、
    請求項24に記載の画像処理装置。
  26. 前記第1決定モジュールは、さらに、
    前記処理される画像内の第1目標対象に設定された少なくとも1つの第1ガイドポイントを決定し、
    前記少なくとも1つの第1ガイドポイントに従って複数のガイドグループを生成するように構成され、同じガイドグループ内の第1ガイドポイントの方向は同じであり、異なるガイドグループ内の第1ガイドポイントの方向は異なることを特徴とする、
    請求項17ないし22のいずれか一項に記載の画像処理装置。
  27. 前記予測モジュールは、さらに、
    各ガイドグループ内の前記第1ガイドポイントおよび前記処理される画像に従って、オプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得するように構成されることを特徴とする、
    請求項26に記載の画像処理装置。
  28. 前記画像処理装置が、
    各ガイドグループのガイド下での前記処理される画像内の前記第1目標の対応する運動を融合して、前記処理される画像内の第1目標対象に対応するマスクを取得するように構成される融合モジュールをさらに備えることを特徴とする、
    請求項27に記載の画像処理装置。
  29. 前記画像処理装置が、
    処理される画像に設定された少なくとも1つの第2ガイドポイントを決定するように構成される第2決定モジュールをさらに備え、前記第2ガイドポイントの運動速度は0であり、
    前記予測モジュールは、さらに、
    各ガイドグループ内の前記第1ガイドポイント、第2ガイドポイント、および前記処理される画像に従ってオプティカルフロー予測を実行して、各ガイドグループのガイド下での前記処理される画像内の前記第1目標対象の対応する運動を取得するように構成されることを特徴とする、
    請求項28に記載の画像処理装置。
  30. ネットワークトレーニング装置であって、
    第1サンプルグループを取得するように構成される取得モジュールであって、前記第1サンプルグループは、処理される画像サンプルおよび前記処理される画像サンプル内の目標対象に対応する第1運動を含む取得モジュールと、
    前記第1運動に対してサンプリング処理を実行して、前記処理される画像サンプル内の目標対象に対応するスパース運動とバイナリマスクを取得するように構成される処理モジュールと、
    前記処理される画像サンプル内の目標対象に対応するスパース運動、バイナリマスク、および前記処理される画像サンプルを第1ニューラルネットワークに入力してオプティカルフロー予測を実行して、前記処理される画像サンプル内の目標対象に対応する第2運動を取得するように構成される予測モジュールと、
    前記第1運動および前記第2運動に従って、前記第1ニューラルネットワークの運動損失を決定するように構成される決定モジュールと、
    前記運動損失に従って、前記第1ニューラルネットワークのパラメータを調整するように構成される調整モジュールと、を備えることを特徴とする、
    ネットワークトレーニング装置。
  31. 前記第1ニューラルネットワークは、条件付き運動伝播ネットワークであることを特徴とする、
    請求項30に記載のネットワークトレーニング装置。
  32. 前記処理モジュールは、さらに、
    前記第1運動に対してエッジ抽出処理を実行して、前記第1運動に対応するエッジマップを取得し、
    前記エッジマップから少なくとも1つのキーポイントを決定し、
    前記少なくとも1つのキーポイントの位置に従って、前記処理される画像サンプル内の目標対象に対応するバイナリマスクを取得し、前記少なくとも1つのキーポイントに対応する運動に従って、前記処理される画像サンプル内の目標対象に対応するスパース運動を取得するように構成されることを特徴とする、
    請求項30または31に記載のネットワークトレーニング装置。
  33. 電子機器であって、
    プロセッサと、
    プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
    前記プロセッサは、請求項1ないし16のいずれか一項に記載の方法を実行するように構成されることを特徴とする、前記電子機器。
  34. コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されるときに、請求項1ないし16のいずれか一項に記載の方法を実現することを特徴とする、前記コンピュータ可読記憶媒体。
  35. コンピュータプログラムであって、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、請求項1ないし16のいずれか一項に記載の方法を実行するための命令を実行させることを特徴とする、前記コンピュータプログラム。
JP2021524161A 2019-01-29 2019-10-31 画像処理方法および装置、ネットワークトレーニング方法および装置 Pending JP2022506637A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910086044.3 2019-01-29
CN201910086044.3A CN109840917B (zh) 2019-01-29 2019-01-29 图像处理方法及装置、网络训练方法及装置
PCT/CN2019/114769 WO2020155713A1 (zh) 2019-01-29 2019-10-31 图像处理方法及装置、网络训练方法及装置

Publications (1)

Publication Number Publication Date
JP2022506637A true JP2022506637A (ja) 2022-01-17

Family

ID=66884323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021524161A Pending JP2022506637A (ja) 2019-01-29 2019-10-31 画像処理方法および装置、ネットワークトレーニング方法および装置

Country Status (5)

Country Link
US (1) US20210279892A1 (ja)
JP (1) JP2022506637A (ja)
CN (1) CN109840917B (ja)
SG (1) SG11202105631YA (ja)
WO (1) WO2020155713A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840917B (zh) * 2019-01-29 2021-01-26 北京市商汤科技开发有限公司 图像处理方法及装置、网络训练方法及装置
CN109977847B (zh) * 2019-03-22 2021-07-16 北京市商汤科技开发有限公司 图像生成方法及装置、电子设备和存储介质
CN111814589A (zh) * 2020-06-18 2020-10-23 浙江大华技术股份有限公司 部位识别方法以及相关设备、装置
US20220101539A1 (en) * 2020-09-30 2022-03-31 Qualcomm Incorporated Sparse optical flow estimation
JP7403673B2 (ja) 2021-04-07 2023-12-22 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド モデルトレーニング方法、歩行者再識別方法、装置および電子機器
CN116310627B (zh) * 2023-01-16 2024-02-02 浙江医准智能科技有限公司 模型训练方法、轮廓预测方法、装置、电子设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037454A (ja) * 2011-08-05 2013-02-21 Ikutoku Gakuen 姿勢判定方法、プログラム、装置、システム
JP2016085487A (ja) * 2014-10-22 2016-05-19 キヤノン株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
WO2018061616A1 (ja) * 2016-09-28 2018-04-05 株式会社日立国際電気 監視システム
WO2018070414A1 (ja) * 2016-10-11 2018-04-19 富士通株式会社 運動認識装置、運動認識プログラムおよび運動認識方法
CN108230353A (zh) * 2017-03-03 2018-06-29 北京市商汤科技开发有限公司 目标跟踪方法、系统及电子设备
US20180286055A1 (en) * 2017-04-04 2018-10-04 General Electric Company Optical flow determination system
WO2018189795A1 (ja) * 2017-04-10 2018-10-18 富士通株式会社 認識装置、認識方法および認識プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006054257A1 (en) * 2004-11-22 2006-05-26 Koninklijke Philips Electronics N.V. Motion vector field projection dealing with covering and uncovering
CN100530239C (zh) * 2007-01-25 2009-08-19 复旦大学 基于特征匹配与跟踪的视频稳定方法
CN102788572B (zh) * 2012-07-10 2015-07-01 中联重科股份有限公司 一种工程机械吊钩姿态的测量方法、装置及系统
CN103593646A (zh) * 2013-10-16 2014-02-19 中国计量学院 一种基于微行为分析的密集人群异常行为检测方法
CN103699878B (zh) * 2013-12-09 2017-05-03 安维思电子科技(广州)有限公司 一种识别电动扶梯异常运行状况的方法和系统
US20170236057A1 (en) * 2016-02-16 2017-08-17 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation System and Method for Face Detection and Landmark Localization
CN106599789B (zh) * 2016-07-29 2019-10-11 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN108234821B (zh) * 2017-03-07 2020-11-06 北京市商汤科技开发有限公司 检测视频中的动作的方法、装置和系统
CN109840917B (zh) * 2019-01-29 2021-01-26 北京市商汤科技开发有限公司 图像处理方法及装置、网络训练方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037454A (ja) * 2011-08-05 2013-02-21 Ikutoku Gakuen 姿勢判定方法、プログラム、装置、システム
JP2016085487A (ja) * 2014-10-22 2016-05-19 キヤノン株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
WO2018061616A1 (ja) * 2016-09-28 2018-04-05 株式会社日立国際電気 監視システム
WO2018070414A1 (ja) * 2016-10-11 2018-04-19 富士通株式会社 運動認識装置、運動認識プログラムおよび運動認識方法
CN108230353A (zh) * 2017-03-03 2018-06-29 北京市商汤科技开发有限公司 目标跟踪方法、系统及电子设备
US20180286055A1 (en) * 2017-04-04 2018-10-04 General Electric Company Optical flow determination system
WO2018189795A1 (ja) * 2017-04-10 2018-10-18 富士通株式会社 認識装置、認識方法および認識プログラム

Also Published As

Publication number Publication date
CN109840917B (zh) 2021-01-26
WO2020155713A1 (zh) 2020-08-06
US20210279892A1 (en) 2021-09-09
CN109840917A (zh) 2019-06-04
SG11202105631YA (en) 2021-06-29

Similar Documents

Publication Publication Date Title
JP7041284B2 (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022506637A (ja) 画像処理方法および装置、ネットワークトレーニング方法および装置
TWI747325B (zh) 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介
US20210042474A1 (en) Method for text recognition, electronic device and storage medium
JP2021528742A (ja) 画像処理方法及び装置、電子機器、並びに記憶媒体
CN110287874B (zh) 目标追踪方法及装置、电子设备和存储介质
JP7106679B2 (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
US11455788B2 (en) Method and apparatus for positioning description statement in image, electronic device, and storage medium
CN109257645B (zh) 视频封面生成方法及装置
JP2022500791A (ja) 画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP7106687B2 (ja) 画像生成方法および装置、電子機器、並びに記憶媒体
JP2021516838A (ja) キーポイント検出方法、装置、電子機器及び記憶媒体
JP2021517649A (ja) 位置姿勢推定方法、装置、電子機器及び記憶媒体
CN111340731B (zh) 图像处理方法及装置、电子设备和存储介质
JP2021512378A (ja) アンカー決定方法及び装置、電子機器並びに記憶媒体
JP2021518956A (ja) 画像処理方法及び装置、電子機器並びにコンピュータ可読記憶媒体
CN109165738B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN109145970B (zh) 基于图像的问答处理方法和装置、电子设备及存储介质
KR20210114511A (ko) 얼굴 이미지 인식 방법 및 장치, 전자 기기 및 저장 매체
KR20220011207A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체
CN110706339B (zh) 三维人脸重建方法及装置、电子设备和存储介质
CN109920016B (zh) 图像生成方法及装置、电子设备和存储介质
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
CN108881952B (zh) 视频生成方法及装置、电子设备和存储介质
CN109685041B (zh) 图像分析方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210506

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210506

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230214