JP7084485B2 - 画像処理方法及び装置、電子機器、並びに記憶媒体 - Google Patents

画像処理方法及び装置、電子機器、並びに記憶媒体 Download PDF

Info

Publication number
JP7084485B2
JP7084485B2 JP2020540785A JP2020540785A JP7084485B2 JP 7084485 B2 JP7084485 B2 JP 7084485B2 JP 2020540785 A JP2020540785 A JP 2020540785A JP 2020540785 A JP2020540785 A JP 2020540785A JP 7084485 B2 JP7084485 B2 JP 7084485B2
Authority
JP
Japan
Prior art keywords
image
target object
input information
relevance score
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020540785A
Other languages
English (en)
Other versions
JP2022509893A (ja
Inventor
ツォンガン ツァイ,
ツェンジュン ユイ,
ハイユイ ツァオ,
シュアイ イー,
Original Assignee
センスタイム インターナショナル プライベート リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by センスタイム インターナショナル プライベート リミテッド filed Critical センスタイム インターナショナル プライベート リミテッド
Publication of JP2022509893A publication Critical patent/JP2022509893A/ja
Application granted granted Critical
Publication of JP7084485B2 publication Critical patent/JP7084485B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Description

関連出願の相互参照
本開示は、2019年12月30日にシンガポール特許局に提出された、出願番号10201913744S、出願の名称「IMAGE PROCESSING METHOD AND APPARATUS,ELECTRONIC DEVICE,AND STORAGE MEDIUM」のシンガポール特許出願の優先権を主張し、その内容の全てが参照によって本開示に組み込まれる。
本開示は、コンピュータビジョン技術に関し、特に、画像処理方法及び装置、電子機器、並びに記憶媒体に関する。
コンピュータビジョンは、コンピュータ及び関連装置を用いて生物学的視覚をシミュレートする技術であり、取得された画像又は動画を処理することにより、対応シーンの三次元情報を取得することができる。コンピュータビジョンの一応用では、取得された画像又は動画を用いて目標検出を行って、第1目標対象物の画像における位置を決めることができる。
本開示は、画像処理の技術的解決手段を提案する。
本開示の一方面によれば、第1画像と、前記第1画像における第1目標対象物の第1注意画像とを取得することであって、前記第1注意画像は、前記第1目標対象物の前記第1画像における位置を示すものであることと、第2画像と、前記第2画像の第2マスク画像とを取得することであって、前記第2マスク画像において各画素の画素値が等しいことと、前記第1画像と第1注意画像とにより決定された第1入力情報、及び前記第2画像と前記第2マスク画像とにより決定された第2入力情報に基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることと、を含む画像処理方法を提供する。
可能な一実現形態では、前記方法は、前記第2画像における第2目標対象物に対する検出結果に基づいて、前記第2画像の第2注意画像を取得することであって、前記第2注意画像は、前記第2目標対象物の前記第2画像における位置を示すものであることを更に含み、前記第1予測結果が得られた後、前記第2画像と前記第2注意画像とにより決定された第3入力情報、及び前記第2画像と前記第1予測結果とにより決定された第4入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第1関連性スコアを得ることと、前記第1関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することと、を更に含む。
可能な一実現形態では、前記方法は、前記第1入力情報及び前記第3入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第2関連性スコアを得ることを更に含み、前記第1関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することは、前記第1関連性スコア及び前記第2関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することを含む。
可能な一実現形態では、前記方法は、前記第2目標対象物の前記第1画像における位置を示す第2予測結果を取得することと、
前記第1画像と前記第2予測結果とにより決定された第5入力情報、及び前記第1入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第3関連性スコアを得ることと、を更に含み、前記第1関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することは、前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することを含む。
可能な一実現形態では、前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することは、前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との最終的関連性スコアを決定することと、前記最終的関連性スコアがスコア閾値よりも大きい場合、前記関連付け結果として前記第1目標対象物と前記第2目標対象物との間に潜在的な関連性を有すると決定することと、を含む。
可能な一実現形態では、前記方法は、前記最終的関連性スコアが前記スコア閾値以下である場合、前記関連付け結果として前記第1目標対象物と前記第2目標対象物との間に関連性がないと決定することを更に含む。
可能な一実現形態では、前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することは、前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1画像の第1目標対象物と前記第2目標対象物との最終的関連性スコアを決定することと、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて、前記各第1目標対象物と各第2目標対象物とのマッチングを行って、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得ることと、を含む。
可能な一実現形態では、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて、前記各第1目標対象物と各第2目標対象物とのマッチングを行って、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得ることは、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて、前記各第1目標対象物と前記各第2目標対象物との間の関連性スコアの総和を決定することと、前記関連性スコアの総和が最大となり且つ予め設定された総和スコア閾値よりも大きい場合、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物が一対一でマッチングしていると決定して、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得ることと、を含む。
可能な一実現形態では、前記方法は、
前記関連性スコアの総和のうちの最大の関連性スコアの総和が前記総和スコア閾値以下である場合、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物がマッチングしないと決定することを更に含む。
可能な一実現形態では、第1入力情報及び第2入力情報に基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることは、前記第1入力情報に対する特徴抽出を行って第1入力情報に対応する特徴マップを得ることと、前記第2入力情報に対する特徴抽出を行って第2入力情報に対応する特徴マップを得ることと、前記第1入力情報に対応する特徴マップ及び前記第2入力情報に対応する特徴マップに基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることと、を含む。
可能な一実現形態では、前記第1入力情報に対する特徴抽出を行って第1入力情報に対応する特徴マップを得ることは、ニューラルネットワークの第1分岐ネットワークを用いて前記第1入力情報に対する特徴抽出を行って、前記第1入力情報の特徴マップを得ることを含み、前記第2入力情報に対する特徴抽出を行って第2入力情報に対応する特徴マップを得ることは、前記ニューラルネットワークの第2分岐ネットワークを用いて前記第2入力情報に対する特徴抽出を行って、前記第2入力情報の特徴マップを得ることを含み、前記第1分岐ネットワークと前記第2分岐ネットワークは、ネットワークパラメータおよびネットワーク構造が同じである。
可能な一実現形態では、前記第1入力情報に対応する特徴マップ及び前記第2入力情報に対応する特徴マップに基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることは、前記第1入力情報に対応する特徴マップと前記第2入力情報に対応する特徴マップとを特徴関連付けて、第1関連付け特徴マップを得ることと、前記第1関連付け特徴マップに基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることと、を含む。
可能な一実現形態では、前記第1目標対象物の第1注意画像を取得することは、前記第1画像における第1目標対象物に対する検出結果に基づいて、前記第1目標対象物の前記第1画像における第1画像領域を決定することと、前記第1画像領域、及び前記第1画像における第1画像領域以外の第2画像領域に基づいて、前記第1目標対象物の第1注意画像を決定することと、を含む。
可能な一実現形態では、前記第1画像における第1目標対象物に対する検出結果に基づいて、前記第1目標対象物の前記第1画像における第1画像領域を決定することは、画像サイズが前記第1画像とマッチングする第1初期画像を取得することと、前記第1画像における第1画像領域に対応する、前記第1初期画像における第1画像領域中の画素の画素値を、第1画素値に設定することと、前記第1初期画像における前記第1画像領域以外の領域である、前記第1初期画像における第2画像領域中の画素の画素値を、前記第1画素値と等しくない第2画素値に設定して、前記第1目標対象物の第1注意画像を得ることと、を含む。
可能な一実現形態では、前記第2画像の第2マスク画像を取得することは、画像サイズが前記第2画像とマッチングする第2初期画像を取得することと、前記第2初期画像中の画素の画素値を第3画素値に設定して、前記第2マスク画像を得ることと、を含む。
可能な一実現形態では、前記第1画像および第1注意画像に基づいて、前記第1入力情報を決定することは、前記第1画像と前記第1注意画像を融合して前記第1入力情報を得ることを含む。
可能な一実現形態では、前記第1画像と前記第1注意画像を融合して前記第1入力情報を得ることは、前記第1画像と前記第1注意画像を所定次元で加算して前記第1入力情報を得るか、又は、前記第1画像と前記第1注意画像を所定次元で繋ぎ合わせて前記第1入力情報を得ることを含む。
可能な一実現形態では、前記第1画像および前記第2画像は、同一シーンを異なる視角から同期して取得さられたものである。
本開示の別の方面によれば、第1画像と、前記第1画像における第1目標対象物の第1注意画像とを取得するための第1取得モジュールであって、前記第1注意画像は、前記第1目標対象物の前記第1画像における位置を示すものである第1取得モジュールと、第2画像と、前記第2画像の第2マスク画像とを取得するための第2取得モジュールであって、前記第2マスク画像において各画素の画素値が等しい第2取得モジュールと、前記第1画像と第1注意画像とにより決定された第1入力情報、及び前記第2画像と前記第2マスク画像とにより決定された第2入力情報に基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得るための第1決定モジュールと、を含む画像処理装置を提供する。
可能な一実現形態では、前記装置は、前記第2画像における第2目標対象物に対する検出結果に基づいて、前記第2画像の第2注意画像を取得するための第3取得モジュールであって、前記第2注意画像は、前記第2目標対象物の前記第2画像における位置を示すものである第3取得モジュールと、前記第2画像と前記第2注意画像とにより決定された第3入力情報、及び前記第2画像と前記第1予測結果とにより決定された第4入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第1関連性スコアを得るための第2決定モジュールと、前記第1関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定するための第3決定モジュールと、を更に含む。
可能な一実現形態では、前記装置は、前記第1入力情報及び前記第3入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第2関連性スコアを得るための第4決定モジュールを更に含み、前記第3決定モジュールは、前記第1関連性スコア及び前記第2関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定するために用いられる。
可能な一実現形態では、前記装置は、前記第2目標対象物の前記第1画像における位置を示す第2予測結果を取得するための第4取得モジュールと、前記第1画像と前記第2予測結果とにより決定された第5入力情報、及び前記第1入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第3関連性スコアを得るための第5決定モジュールと、を更に含み、前記第3決定モジュールは、前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定するために用いられる。
可能な一実現形態では、前記第3決定モジュールは、前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との最終的関連性スコアを決定するための第1決定サブモジュールと、前記最終的関連性スコアがスコア閾値よりも大きい場合、前記関連付け結果として前記第1目標対象物と前記第2目標対象物との間に潜在的な関連性を有すると決定するための第2決定サブモジュールと、を含む。
可能な一実現形態では、前記第3決定モジュールは、前記最終的関連性スコアが前記スコア閾値以下である場合、前記関連付け結果として前記第1目標対象物と前記第2目標対象物との間に関連性がないと決定するための第3決定サブモジュールを更に含む。
可能な一実現形態では、前記第3決定モジュールは、前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1画像の第1目標対象物と前記第2目標対象物との最終的関連性スコアを決定するための第4決定サブモジュールと、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて、前記各第1目標対象物と各第2目標対象物とのマッチングを行って、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得るためのマッチングサブモジュールと、を含む。
可能な一実現形態では、前記マッチングサブモジュールは、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて、前記各第1目標対象物と前記各第2目標対象物との間の関連性スコアの総和を決定するための第1決定ユニットと、前記関連性スコアの総和が最大となり且つ予め設定された総和スコア閾値よりも大きい場合、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物が一対一でマッチングしていると決定して、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得るための第2決定ユニットと、を含む。
可能な一実現形態では、前記マッチングサブモジュールは、前記関連性スコアの総和のうちの最大の関連性スコアの総和が前記総和スコア閾値以下である場合、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物がマッチングしないと決定するための第3決定ユニットを更に含む。
可能な一実現形態では、前記第1決定モジュールは、前記第1入力情報に対する特徴抽出を行って第1入力情報に対応する特徴マップを得るための第1特徴抽出サブモジュールと、前記第2入力情報に対する特徴抽出を行って第2入力情報に対応する特徴マップを得るための第2特徴抽出サブモジュールと、前記第1入力情報に対応する特徴マップ及び前記第2入力情報に対応する特徴マップに基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得るための予測結果決定サブモジュールと、を含む。
可能な一実現形態では、前記第1特徴抽出サブモジュールは、ニューラルネットワークの第1分岐ネットワークを用いて前記第1入力情報に対する特徴抽出を行って、前記第1入力情報の特徴マップを得るために用いられ、前記第2特徴抽出サブモジュールは、前記ニューラルネットワークの第2分岐ネットワークを用いて前記第2入力情報に対する特徴抽出を行って、前記第2入力情報の特徴マップを得るために用いられ、前記第1分岐ネットワークと前記第2分岐ネットワークは、ネットワークパラメータおよびネットワーク構造が同じである。
可能な一実現形態では、前記予測結果決定サブモジュールは、前記第1入力情報に対応する特徴マップと前記第2入力情報に対応する特徴マップとを特徴関連付けて、第1関連付け特徴マップを得るための特徴関連付けユニットと、前記第1関連付け特徴マップに基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得るための予測結果決定ユニットと、を含む。
可能な一実現形態では、前記第1取得モジュールは、前記第1画像における第1目標対象物に対する検出結果に基づいて、前記第1目標対象物の前記第1画像における第1画像領域を決定するための領域決定サブモジュールと、前記第1画像領域、及び前記第1画像における第1画像領域以外の第2画像領域に基づいて、前記第1目標対象物の第1注意画像を決定するための注意画像決定サブモジュールと、を含む。
可能な一実現形態では、前記領域決定サブモジュールは、画像サイズが前記第1画像とマッチングする第1初期画像を取得するための第1取得ユニットと、前記第1画像における第1画像領域に対応する、前記第1初期画像における第1画像領域中の画素の画素値を、第1画素値に設定するための第1設定ユニットと、前記第1初期画像における前記第1画像領域以外の領域である、前記第1初期画像における第2画像領域中の画素の画素値を、前記第1画素値と等しくない第2画素値に設定して、前記第1目標対象物の第1注意画像を得る第2設定ユニットと、を含む。
可能な一実現形態では、前記第2取得モジュールは、画像サイズが前記第2画像とマッチングする第2初期画像を取得するための第2取得ユニットと、前記第2初期画像中の画素の画素値を第3画素値に設定して、前記第2マスク画像を得るための第3設定ユニットと、を含む。
可能な一実現形態では、前記装置は、前記第1画像と前記第1注意画像を融合して前記第1入力情報を得る画像融合モジュールを更に含む。
可能な一実現形態では、前記画像融合モジュールは、前記第1画像と前記第1注意画像を所定次元で加算して前記第1入力情報を得るための加算サブモジュール、又は、前記第1画像と前記第1注意画像を所定次元で繋ぎ合わせて前記第1入力情報を得るための繋ぎ合わせサブモジュールを含む。
可能な一実現形態では、前記第1画像および前記第2画像は、同一シーンを異なる視角から同期して取得されたものである。
可能な一実現形態では、本開示の一方面によれば、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、前記プロセッサは、上記画像処理方法を実行するように構成される電子機器を提供する。
本開示の一方面によれば、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、上記画像処理方法を実現させるコンピュータ読取可能記憶媒体を提供する。
本開示の一方面によれば、コンピュータ読取可能コードを含むコンピュータプログラムであって、前記コンピュータ読取可能コードが電子機器で実行されると、前記電子機器に含まれるプロセッサに上記画像処理方法を実現させるコンピュータプログラムを提供する。
本開示の実施例では、第1画像と前記第1画像における第1目標対象物の第1注意画像とを取得し、第2画像と前記第2画像の第2マスク画像とを取得し、そして、前記第1画像と第1注意画像をにより決定された第1入力情報、及び第2画像と第2マスク画像とにより決定された第2入力情報に基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることができる。ただし、第1注意画像は、第1目標対象物の第1画像における位置を示すものであり、第2マスク画像において各画素の画素値が等しい。このように、第1目標対象物の第2画像における位置を予測でき、視角の異なる複数の画像同士の関係を確立して、視野の範囲を拡大して、現在のシーンのより全面的な情報を得ることができる。
以上の一般説明および以下の詳細説明は、本開示を限定するのではなく、単なる例示的および解釈的であることを理解されたい。
以下、図面を参照しながら例示的な実施例について詳細に説明することにより、本開示の他の特徴及び方面は明瞭になる。
明細書の一部として組み込まれた図面は、本開示に合致する実施例を示し、更に明細書と共に本開示の技術的手段を説明するために用いられる。
本開示の実施例による画像処理方法のフローチャートを示す。 本開示の実施例による第1ニューラルネットワークによって第1予測結果を取得する一例のブロック図を示す。 本開示の実施例による第1目標対象物と第2目標対象物との関連付け結果を決定するフローチャートを示す。 本開示の実施例による関連付け結果を取得する一例のブロック図を示す。 本開示の実施例による画像処理装置のブロック図を示す。 本開示の実施例による電子機器の例のブロック図を示す。 本開示の実施例による電子機器の例のブロック図を示す。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および方面を詳細に説明する。図面において、同じ符号が同じまたは類似する機能の要素を表す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を作る必要がない。
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例も他の実施例より好ましい又は優れるものであると理解すべきではない。
本明細書において、用語の「及び/又は」は、関連対象の関連関係を記述するためのものに過ぎず、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBが同時に存在し、Bのみが存在するという3つの場合を示すことができる。また、本明細書において、用語の「少なくとも1つ」は複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組合を示し、例えば、A、B及びCのうちの少なくとも1つを含むということは、A、B及びCから構成される集合から選択されたいずれか1つ又は複数の要素を含むことを示すことができる。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、何らかの具体的な詳細がなくても、本開示が同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者に既知の方法、手段、要素および回路について、詳細な説明を行わない。
本開示の実施例で提供された画像処理手段によれば、第1画像と前記第1画像における第1目標対象物の第1注意画像とを取得し、第2画像と前記第2画像の第2マスク画像とを取得することができる。第1注意画像は、第1目標対象物の第1画像における位置を示すことができ、第2マスク画像において各画素の画素値が等しい。そして、第1画像と第1注意画像とにより決定された第1入力情報、及び第2画像と第2マスク画像とにより決定された第2入力情報に基づいて、第1目標対象物の第2画像における位置を示す第1予測結果を得ることができる。第1注意画像が第1目標対象物の第1画像における位置を示すことができるので、第1入力情報と第2入力情報の連携で、第1目標対象物の第2画像における位置を予測でき、更に、第1目標対象物の第2画像における位置についての第1予測結果に基づいて、視角の異なる複数の画像同士の関係を確立できる。例えば、同一シーンの上面図と側面図について、第1目標対象物の上面図における位置に基づいて第1目標対象物の側面図における位置を予測でき、複数の視角からの画像情報によって第1目標対象物のより完全な情報を得ることができる。
関連技術において、一般的には、複数の画像の目標対象物を共通ベクトル空間に投影し、共通ベクトル空間での別々の目標対象物の投影間の距離を計算することにより、別々の画像において互いに関連する目標対象物を決定する。このような目標関連付け方式では、目標を共通ベクトル空間に投影する時に、投影のための投影行列をキャリブレーションする必要があるが、投影行列が画像取得装置の姿勢に影響されてしまい、即ち、画像装置の姿勢が変化すると投影行列のずれが発生するため、得られた予測結果に大きい誤差が生じてしまう。本開示の実施例で提供された画像処理手段は、第1画像および第1注意画像を第1入力情報とし、第2画像および第2マスク画像を第2入力情報とすることによって、第1注意画像に示される第1目標対象物の位置とともに、第1画像および第2画像における第1目標対象物の画像情報に基づいて、第1目標対象物の第2画像における位置を予測でき、目標対象物の共通ベクトル空間への投影、投影行列のキャリブレーションの必要がなく、得られた予測結果が、画像取得装置の姿勢の影響を受けにくく、予測結果の正確性を高めることができる。
本開示の実施例で提供された技術的解決手段は、目標マーキング、目標認識、画像関連付け等の応用シーンの拡張に利用可能である。例えば、同一のシーンを異なる視角から取得された複数の画像を関連付けて、視角の異なる画像における目標の位置を予測することができる。もう1つの例を挙げると、複数の画像における同一の目標をマーキングすることができる。本開示は具体的な応用シーンを限定しない。以下、実施例によって本開示の実施例で提供された画像処理手段を説明する。
図1は本開示の実施例による画像処理方法のフローチャートを示す。この画像処理方法は、ユーザ側装置(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、手持ちの機器、計算装置、車載装置、ウエアラブル装置等の端末装置、または、サーバ、他の情報処理装置により実行されてもよい。いくつかの可能な実現形態では、この画像処理方法は、プロセッサによりメモリに記憶されているコンピュータ読取可能なコマンドを呼び出すことで実現されてもよい。以下、画像処理装置を実行主体とする例として本開示の実施例の画像処理手段を説明する。
図1に示すように、前記画像処理方法は以下のステップを含む。
ステップS11、第1画像と、前記第1画像における第1目標対象物の第1注意画像を取得し、前記第1注意画像は、前記第1目標対象物の前記第1画像における位置を示すものである。
本開示の実施例では、画像取得装置により取得された少なくとも2つの画像を得てよい。画像のそれぞれは、同一の画像取得装置からのものであってもよく、別々の画像取得装置からのものであってもよい。第1画像は、少なくとも2つの画像から任意に選択された1つの画像であってもよい。第1画像は、個別に取得された1つの画像であってもよく、取得されたビデオストリームにおける1フレームの画像であってもよい。ここで、第1画像はカラー画像であってもよく、このカラー画像は赤(R)、緑(G)、青(B)の3色を重ね合わせた画像として理解されてもよい。
本開示の実施例では、画像取得装置は第1画像における第1目標対象物の第1注意画像を取得できる。第1注意画像は第1目標対象物の第1画像における位置を示すことができる。第1目標対象物は第1画像におけるいずれの目標対象物であってもよく、例えば、第1画像には顔、テーブルや椅子、盆栽等の複数の目標対象物を含んでもよく、複数の目標対象物のうちの1つの目標対象物、例えば顔を第1目標対象物としてもよい。ここで、画像取得装置は、第1画像における第1目標対象物の所在位置に基づいて第1注意画像を取得してもよく、又は、他の装置によって第1注意画像を直接取得してもよい。
可能な一実現形態では、第1画像における第1目標対象物に対する検出結果に基づいて、第1目標対象物の前記第1画像における第1画像領域を決定し、そして、第1画像領域、及び第1画像における第1画像領域以外の第2画像領域に基づいて、第1目標対象物の第1注意画像を決定するようにしてもよい。
この実現形態では、第1画像に対する目標検出を行って検出結果を得て、検出結果のそれぞれが、1つの目標対象物に対応してもよい。検出結果が複数であってもよく、いずれか1つの検出結果を第1目標対象物の検出結果とすることができる。ここで、検出結果を検出枠で表してもよい。1つの検出結果を1つの注意画像に対応させて、複数の検出結果同士の妨害を低減できる。1つの検出結果に対応する検出枠によって、この検出枠でマーキングされた第1目標対象物の第1画像における第1画像領域を決定する。この第1画像領域は、閉鎖画像領域であってもよい。そして、決定された第1画像領域、及び第1画像領域以外の第2画像領域に基づいて、第1画像の第1注意画像を得ることができる。例えば、第1画像領域における画素の画素値をコピーし、第2画像領域の画素値を変更するか又はコピーした第1画像領域における画素の画素値を調整することで、第1画像領域の画素値と第2画像領域の画素値を明らかに異ならせて、第1注意画像を得るようにしてもよい。すると、第1注意画像における第1目標対象物の所在する画像領域を他の画像領域から区別して、第1目標対象物の第1画像における位置情報を提供することができ、得られた第1目標対象物の第2画像における位置を示す第1予測結果の正確率を高めることができる。
この実現形態の一例において、画像サイズが第1画像とマッチングする第1初期画像を取得し、そして、第1初期画像における第1画像領域中の画素の画素値を第1画素値に設定し、第1初期画像における第2画像領域中の画素の画素値を第2画素値に設定して、前記第1目標対象物の第1注意画像を得るようにしてもよい。ただし、第1初期画像における第1画像領域は、前記第1画像における第1画像領域に対応し、第1初期画像における第2画像領域は、第1初期画像における前記第1画像領域以外の領域であり、第1画素値は前記第2画素値と等しくない。
この例において、画像サイズが第1画像と同じである1つの第1初期画像を生成してもよい。又は、第1画像の第1画像領域をコピーして第1初期画像を得てもよい。第1初期画像は、画像サイズが第1画像とマッチングしている。すなわち、第1初期画像は、第1画像と同じ画像サイズであってもよく、例えば、第1画像の画像サイズが3×3cmであれば、第1初期画像の画像サイズも3×3cmとなると理解されてもよい。第1初期画像は、第1画像領域に対応する第1画像領域を含んでもよい。すなわち、第1画像領域の第1初期画像における画像位置が第1画像領域の第1画像における画像位置と同じであってもよく、例えば、白色に対応する画素値であると理解されてもよい。第1画像領域の画素値は予め設定された第1画素値に設定されてもよく、第1画素値は第1画像領域における画素点の画素値と同じであってもよい。第2画像領域は、第1初期画像における、第1画像領域が含まらない画像領域であってよく、画素値が第2画素値に設定されてもよい。第2画素値は、第1画素値とが異なり、予め設定された画素値、例えば、黒色に対応する画素値であってもよい。それによって、第2画像領域および第1画像領域を画素点の画素値によって区別可能である。このような方式によれば、第1目標対象物に対応する第1注意画像を得ることができ、第1注意画像は、第1目標対象物に対応する画像領域を示すことができる。
別の例において、第1画像領域の画素値を第1画像の第1画像領域と同じ画素値に設定してもよい。第1画像がカラー画像であれば、第1画像領域はカラー画像領域であってもよい。このような方式によって得られた第1画像における第1目標対象物の第1注意画像は、第1目標対象物の位置情報を含むことに加えて、第1目標対象物の色情報を含むことが可能であり、第1目標対象物の第2画像における位置を決定する正確率を高めることができる。
例を挙げると、第1初期画像の第1画像領域における画素点の画素値を1に設定し、第2画像領域における画素点の画素値を0に設定して、第1目標対象物の第1注意画像を得るようにしてもよい。又は、第1画像の第1画像領域における画素点の画素値を第1初期画像の第1画像領域にコピーし、第2画像領域における画素点の画素値を0に設定して、第1注意画像を得るようにしてもよい。
ステップS12、第2画像と前記第2画像の第2マスク画像とを取得し、前記第2マスク画像において各画素の画素値が等しい。
本開示の実施例では、第2画像は上記画像取得装置により取得された少なくとも2つの画像のうちのいずれか1つの画像であってもよい。第2画像の取得手法はステップS11における第1画像の取得手法と同じであってもよく、異なってもよく、詳細は再度説明しない。第2マスク画像は、第2画像と画像サイズが同じであってもよく、画素の画素値が同じであってもよい。同一の画素値を有することにより、位置情報を提供せず、遮蔽の役割を果たすことができる。ここで、第2画像の画像サイズに基づいて第2マスク画像を取得してもよく、又は、他の装置によって第2マスク画像を取得してもよい。
可能な一実現形態では、画像サイズが第2画像とマッチングする第2初期画像を取得し、そして第2初期画像における画素の画素値を第3画素値に設定して、第2マスク画像を得るようにしてもよい。この実現形態では、第2画像と画像サイズが同じ第2初期画像を取得し、そして、第2初期画像における画素の画素値を予め設定された第3画素値に設定して、例えば、第2初期画像における画素点の画素値を黒色に対応する画素値に設定して、第2初期画像を得る。第2初期画像は遮蔽の役割を果たすことができる。
ステップS13、前記第1画像と第1注意画像とにより決定された第1入力情報、及び前記第2画像と前記第2マスク画像とにより決定された第2入力情報に基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得る。
本開示の実施例では、第1画像および第1注意画像を第1入力情報とし、第2画像および第2マスク画像を第2入力情報として、そして、訓練済の第1ニューラルネットワークを用いて第1入力情報および第2入力情報に対する特徴抽出を行って、第1目標対象物の第2画像における位置を示す第1予測結果を得るようにしてもよい。この第1予測結果は1つの画像であり、この画像における画素点の画素値によって第1目標対象物の第2画像における位置を決定できる。例を挙げると、この画像における画素点の画素値を検出し、ある画像領域における画素点の画素値が予め設定された第1画素値であれば、例えば、ある画像領域における画素点が白色であれば、この画像領域の画像における画像位置が第1目標対象物の第2画像における画像位置に相当すると決定できる。
可能な一実現形態では、第1画像と第1注意画像を融合して前記第1入力情報を得てもよい。
この実現形態では、第1画像と第1注意画像を融合して第1入力情報を得る。第1入力情報をニューラルネットワークの入力としてもよい。第1画像と第1注意画像を融合することにより、2つの画像からの画像情報をより好適に組み合わせることができ、抽出された画像特徴をより正確にすることができる。
一例において、前記第1画像と前記第1注意画像を所定次元で加算して前記第1入力情報を得るか、又は、前記第1画像と前記第1注意画像を所定次元で繋ぎ合わせて前記第1入力情報を得るようにしてもよい。
この例において、第1画像と第1注意画像を所定次元で加算することは、第1画像と第1注意画像を深さ次元、即ちチャネル次元で加算するようにしてもよい。ここで、チャネル数は画像の深さ次元に対応する。第1画像と第1注意画像は同じチャネル数を有してもよく、例えば、第1画像と第1注意画像はいずれも、合計3つのチャネルを有するRGB画像であってもよい。又は、第1画像と第1注意画像は、チャネル数が異なってもよく、例えば、第1画像が3つのチャネルを有し、第1注意画像が1つのチャネルを有する。第1画像と第1注意画像を深さ次元で加算することは、2つの画像の対応位置での画素点のR値を加算し、G値を加算し、B値を加算するか、又は、第1画像が3つのチャネルを有し、第1注意画像が1つのチャネルを有する場合、対応位置での第1画像の画素点のR値に第1注意画像の画素点の画素値を加算するようにしてもよい。それによって、チャネル数が第1画像と同じ第1入力情報を得る。
この例において、第1画像と第1注意画像を所定次元で繋ぎ合わせることは、第1画像と第1注意画像を、画像の長さ、画像の幅、又は深さ次元、即ちチャネル次元(例えば、RGBの3つのチャネル)で繋ぎ合わせると理解されてもよい。深さ次元で繋ぎ合わせることを例とすると、第1画像と第1注意画像を深さ次元で繋ぎ合わせて6チャネルの画像を形成し、得られた被処理画像の画像サイズが第1画像および第1注意画像の所定次元サイズの和である。ここで、第1画像と第1注意画像の深さが同じである場合に、第1注意画像は、第1目標対象物の位置情報だけでなく、第1目標対象物の画像特徴も提供でき、それによって、ニューラルネットワークによって抽出される特徴マップに、より正確で且つ全面的な画像特徴を持たせる。
可能な一実現形態では、第1ニューラルネットワークの第1分岐ネットワークを用いて第1入力情報を処理して第1分岐ネットワークの第1入力情報に対応する特徴マップを得、第1ニューラルネットワークの第2分岐ネットワークを用いて第2入力情報を処理して第2分岐ネットワークの第2入力情報に対応する特徴マップを得るようにしてもよい。そして、第1入力情報に対応する特徴マップと第2入力情報に対応する特徴マップとを特徴関連付けて、第1関連付け特徴マップを得、さらに、第1関連付け特徴マップに基づいて第1目標対象物の第2画像における位置を示す第1予測結果を得る。
上記の第1入力情報を取得する方法は第2入力情報を取得する方法と同じであっても、異なってもよいことが注意されたく、詳細は再度説明しない。
可能な一実現形態では、第1入力情報に対する特徴抽出を行って第1入力情報に対応する特徴マップを得、第2入力情報に対する特徴抽出を行って第2入力情報に対応する特徴マップを得、そして、第1入力情報に対応する特徴マップおよび前記第2入力情報に対応する特徴マップに基づいて第1目標対象物の前記第2画像における位置を示す第1予測結果を得るようにしてもよい。
この実現形態では、第1入力情報及び第2入力情報をニューラルネットワークの入力情報とし、ニューラルネットワークによって第1入力情報及び第2入力情報のそれぞれに対する特徴抽出を行って、第1入力情報に対応する特徴マップ及び第2入力情報に対応する特徴マップを得るようにしてもよい。そして、第1入力情報に対応する特徴マップ及び第2入力情報に対応する特徴マップによって、第1目標対象物の前記第2画像における位置を示す第1予測結果を得るようにしてもよい。第1入力情報及び第2入力情報に対する特徴抽出を行うことにより、異なる入力情報間の相違をより好適に比較でき、第1予測結果をより正確にすることができる。
この実現形態の一例において、ニューラルネットワークの第1分岐ネットワークを用いて第1入力情報に対する特徴抽出を行って第1入力情報の特徴マップを得、ニューラルネットワークの第2分岐ネットワークを用いて第2入力情報に対する特徴抽出を行って第2入力情報の特徴マップを得るようにしてもよい。ただし、第1分岐ネットワークと第2分岐ネットワークは、ネットワークパラメータおよびネットワーク構造が同じである。
この実現形態では、上記ニューラルネットワークは、それぞれ1つの入力情報に対応する少なくとも2つの分岐ネットワークを含む第1ニューラルネットワークであってもよい。第1分岐ネットワークおよび第2分岐ネットワークは第1ニューラルネットワークの任意2つの分岐ネットワークであってもよい。ただし、第1入力情報を第1分岐ネットワークの入力とし、第2入力情報を第2分岐ネットワークの入力としてもよい。第1分岐ネットワークは特徴抽出層を含み、第1分岐ネットワークの特徴抽出層を用いて第1入力情報に対する特徴抽出を行って第1入力情報の特徴マップを得るようにしてもよい。第2分岐ネットワークは特徴抽出層を含み、第2分岐ネットワークの特徴抽出層を用いて第2入力情報に対する特徴抽出を行って第2入力情報に対応する特徴マップを得るようにしてもよい。ここで、第1分岐ネットワークと第2分岐ネットワークは、ネットワークパラメータおよびネットワーク構造が同じであり、即ち、第1分岐ネットワークと第2分岐ネットワークはネットワークパラメータを共用すると理解されてもよい。そのようにして、第1ニューラルネットワークの訓練速度を加速可能である。例を挙げると、第1ニューラルネットワークの各分岐ネットワークがいずれもチャネル数減少層や特徴抽出層等のネットワーク層を含むことを仮定すると、各分岐ネットワークのチャネル数減少層のネットワークパラメータが同じであってもよく、各分岐ネットワークの特徴抽出層のネットワークパラメータが同じであってもよい。
この実現形態の一例において、第1入力情報に対応する特徴マップと第2入力情報に対応する特徴マップとを特徴関連付けて第1関連付け特徴マップを得、そして第1関連付け特徴マップに基づいて前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得るようにしてもよい。
この例において、第1ニューラルネットワークは関連付け層、回帰層等のネットワーク層を含み、第1ニューラルネットワークの関連付け層を用いて、第1入力情報に対応する特徴マップと第2入力情報に対応する特徴マップとを特徴関連付けて、第1関連付け特徴マップを得て、そして、第1関連付け特徴マップに対して複数回の畳み込み、バッチ正規化、線形正規化、全結合等の処理を行って第1ニューラルネットワークの出力を取得して、この第1ニューラルネットワークの出力を第1予測結果として、又は、第1ニューラルネットワークの出力を更に処理して第1予測結果を得るようにしてもよい。ここで、第1画像は第1目標対象物の画像情報を含むことに加えて、第1目標対象物の周りの画像領域を更に含み、それによって第1画像で形成された第1入力情報から、より全面的な画像特徴を得ることができる。また、第1入力情報は第1目標対象物の画像位置情報を提供できる第1注意画像を更に含むことにより、より正確な第1予測結果を取得できる。
図2は、本開示の実施例による第1ニューラルネットワークによって第1予測結果を取得する一例のブロック図を示す。
一例において、複数の画像取得装置は同一シーンを同期して撮影でき、第1画像取得装置および第2画像取得装置は複数の画像取得装置のうちの任意2つの画像取得装置であり、第1画像取得装置により取得される画像が第1画像であり、第2画像取得装置により取得される画像が第2画像であるようにしてもよい。第1画像および第2画像のそれぞれに対する目標検出を行って第1画像および第2画像の目標検出結果を得てもよい。画像処理装置は、第1画像および第1注意画像、第2画像および第2マスク画像を取得して、第1画像および第1注意画像を第1ニューラルネットワークの第1分岐ネットワークに入力し、且つ第2画像および第2マスク画像を第1ニューラルネットワークの第2分岐ネットワークに入力するようにしてもよい。第1分岐ネットワークの処理過程を例とすると、第1画像と第1注意画像を深さ次元で繋ぎ合わせて第1入力情報を得てもよく、ただし、第1画像が3つのチャネルに対応し、第1注意画像が1つのチャネルに対応し、第1入力情報が4つのチャネルに対応し、各チャネルがそれぞれ1つの深さに対応する。そして、第1分岐ネットワークを用いて第1入力情報に対して畳み込み処理を行って第1入力情報のチャネル数を4から3に低減し、そして、特徴抽出を行って第1分岐ネットワークの第1入力情報に対応する特徴マップを得るようにしてもよい。第1入力情報に対応する特徴マップは、3つの次元特徴を有するテンソルであってもよく、3つの次元特徴は長さ特徴、幅特徴及び深さ特徴を含んでもよい。特徴抽出を行う時に複数回の畳み込み処理を行ってもよい。同様な処理手法で、第2分岐ネットワークの第2入力情報に対応する特徴マップを取得できる。
そして、第1ニューラルネットワークの関連付け層を用いて第1入力情報に対応する特徴マップと第2入力情報に対応する特徴マップとを関連付けて、第1関連付け特徴マップを取得するようにしてもよい。第1入力情報に対応する特徴マップと第2入力情報に対応する特徴マップとを関連付ける時に、以下の式(1)が利用可能になる。
Figure 0007084485000001
ただし、
Figure 0007084485000002
は第1関連付け特徴マップを表し、
Figure 0007084485000003
であり、ここで、
Figure 0007084485000004
は実数集合を表す。
Figure 0007084485000005
は第1入力情報に対応する特徴マップの特徴ベクトルであり、
Figure 0007084485000006
は第2入力情報に対応する特徴マップの特徴ベクトルであり、iは第1入力情報に対応する特徴マップおよび第2入力情報に対応する特徴マップの行を表し、長さ特徴に対応し、jは第1入力情報に対応する特徴マップおよび第2入力情報に対応する特徴マップの列を表し、幅特徴に対応し、iとjは共に正整数であり、kは行および列に対応するインデックスを表し、例えば、
Figure 0007084485000007
であり、
Figure 0007084485000008
は第1関連付け特徴マップの3つの次元特徴を表す。
そして、第1関連付け特徴マップに対してチャネルインターリービング、グローバル回帰等の処理を行ってもよい。チャネルインターリービングによって、第1関連付け特徴マップにおける画像特徴を更に抽出し、チャネルインターリービングを行った後の第1関連付け特徴マップの深さ特徴を一定の深さ、例えば、64の深さ内に抑えることができる。チャネルインターリービング、グローバル回帰等の処理を行った後、画像における白色の画素点の画像領域が第1目標対象物の第2画像における位置を示す1つの画像が得られることができる。ここのグローバル回帰処理は、複数回の畳み込み処理、バッチ正規化処理、線形正規化処理及び全結合層の処理を含んでもよい。
本開示の実施例では、構造が第1ニューラルネットワークと同じ又は類似的な第2ニューラルネットワークを用いて、第1画像における第1目標対象物と第1画像における第2目標対象物が同じ目標対象物であるか否かについて判断することができる。図3は本開示の実施例による第1目標対象物と第2目標対象物との関連付け結果を決定するフローチャートを示す。本開示の実施例で提供された画像処理方法は以下のステップを更に含んでもよい。
ステップS21、前記第2画像における第2目標対象物に対する検出結果に基づいて、前記第2画像の第2注意画像を取得し、前記第2注意画像は、前記第2目標対象物の前記第2画像における位置を示すものである。
ここで、第2画像における第2目標対象物の、第2目標対象物の位置を含む検出結果を取得するようにしてもよい。第2目標対象物は第2画像におけるいずれか1つの目標対象物であってもよい。第2画像における第2目標対象物の検出結果に基づいて、第2画像の第2注意画像を取得できる。第2注意画像の取得手法は第1注意画像と同じであっても、異なってもよく、詳細は再度説明しない。第2注意画像は第2目標対象物の第2画像における位置情報を含むようにしてもよい。ここで、画像取得装置は他の装置から第2画像の第2注意画像を直接取得してもよい。
ステップS22、前記第2画像と前記第2注意画像とにより決定された第3入力情報、及び前記第2画像と前記第1予測結果とにより決定された第4入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第1関連性スコアを得る。
本開示の実施例では、第2画像と第2注意画像を融合して第3入力情報を得、第2画像と第1予測結果を融合して第4入力情報を得、更に、訓練済の第2ニューラルネットワークを用いて第3入力情報及び第4入力情報を処理して第1目標対象物と第2目標対象物との間の第1関連性スコアを得るようにしてもよい。第1関連性スコアは第1目標対象物と第2目標対象物との間の関連度を表すことができる。ここで、第2注意画像を取得する方法は第1注意画像を取得する方法と同じであっても、異なってもよく、第2画像と第2注意画像の融合過程は第1画像と第1注意画像の融合過程と同じであっても、異なってもよく、詳細は再度説明しない。
可能な一実現形態では、第2ニューラルネットワークの第3分岐ネットワークを用いて前記第3入力情報を処理して第3入力情報に対応する特徴マップを得、第2ニューラルネットワークの第4分岐ネットワークを用いて第4入力情報を処理して第4入力情報に対応する特徴マップを得るようにしてもよい。そして、第3入力情報に対応する特徴マップと第4入力情報に対応する特徴マップとを特徴関連付けて第2関連付け特徴マップを得、さらに、前記第2関連付け特徴マップに基づいて第1目標対象物と第2目標対象物との間の関連度を表す第1関連性スコアを得る。
この実現形態では、第2ニューラルネットワークは、それぞれ1つの入力情報に対応する少なくとも2つの分岐ネットワークを含んでもよい。第3分岐ネットワークおよび第4分岐ネットワークは第2ニューラルネットワークの任意2つの分岐ネットワークであってもよい。ただし、第1入力情報を第3分岐ネットワークの入力とし、第3入力情報を第2分岐ネットワークの入力としてもよい。第3分岐ネットワークは特徴抽出層を含み、第3分岐ネットワークの特徴抽出層を用いて第1入力情報に対する特徴抽出を行って第3入力情報に対応する特徴マップを得るようにしてもよい。それに応じて、第4分岐ネットワークは特徴抽出層を含み、第4分岐ネットワークの特徴抽出層を用いて第3入力情報に対する特徴抽出を行って第4入力情報に対応する特徴マップを得るようにしてもよい。第2ニューラルネットワークは、関連付け層、回帰層等のネットワーク層を含み、第2ニューラルネットワークの関連付け層を用いて第3入力情報に対応する特徴マップと第4入力情報に対応する特徴マップとを特徴関連付けて第2関連付け特徴マップを得て、そして、第2関連付け特徴マップに対して複数回の畳み込み、バッチ正規化、線形正規化、全結合等の処理を行って、第2ニューラルネットワークの出力を得るようにしてもよい。この第2ニューラルネットワークの出力を第1関連性スコアとしてもよく、又は、第2ニューラルネットワークの出力を更に処理して第1関連性スコアを得てもよい。この第1関連性スコアが高いほど、第1予測結果によって示される第1目標対象物と第2画像中の第2目標対象物との間に関連性があり、即ち、2つの目標対象物が同一の目標対象物であれば、この目標対象物について予測された画像位置がこの目標対象物の実の画像位置に近いので、第1関連性スコアが大きいと理解されてもよい。2つの目標対象物が同一の目標対象物でなければ、この目標対象物について予測された画像位置がこの目標対象物の実の画像位置と大きくずれ、第1関連性スコアが小さい。
ステップS23、前記第1関連性スコアに基づいて前記第1目標対象物と前記第2目標対象物との関連付け結果を決定する。
本開示の実施例では、第1関連性スコアに基づいて第1目標対象物と第2目標対象物との関連付け結果を決定することができる。例えば、第1関連性スコアに基づいて第1目標対象物と第2目標対象物が同一の目標対象物であるか否かを決定でき、第1関連性スコアが所定のスコア閾値より大きい場合、関連付け結果として第1目標対象物と第2目標対象物が同一の目標対象物であると考えられる。第1関連性スコアが所定のスコア閾値以下である場合、関連付け結果として第1目標対象物と第2目標対象物との間に関連性がないと考えられる。
一例において、第2画像、第2注意画像、及び第1予測結果を取得するようにしてもよい。そして、第2画像および第2注意画像を第2ニューラルネットワークの第3分岐ネットワークに入力し、且つ第2画像および第1予測結果を第2ニューラルネットワークの第4分岐ネットワークに入力するようにしてもよい。第3分岐ネットワークの処理過程を例とすると、第2画像と第2注意画像を深さ次元で結合して第3入力情報を得てもよく、ただし、第2画像のブランチが3つのチャネルに対応し、第2注意画像が1つのチャネルに対応し、第3入力情報が4つのチャネルに対応し、各チャネルがそれぞれ1つの深さに対応する。そして、第3分岐ネットワークを用いて第3入力情報に対して畳み込み処理を行って、第3入力情報のチャネル数を4から3に低減し、そして、特徴抽出を行って第3分岐ネットワークの第3入力情報に対応する特徴マップを得るようにしてもよい。第3入力情報に対応する特徴マップは3つの次元特徴を有するテンソルであってもよく、3つの次元特徴は長さ特徴、幅特徴及び深さ特徴を含んでもよい。特徴抽出を行う時に複数回の畳み込み処を行ってもよい。同様な処理手法で、第4分岐ネットワークの第4入力情報に対応する特徴マップを取得できる。
そして、第2ニューラルネットワークの関連付け層を用いて第3入力情報に対応する特徴マップと第4入力情報に対応する特徴マップとを関連付けて、第2関連付け特徴マップを取得するようにしてもよい。第3入力情報に対応する特徴マップと第4入力情報に対応する特徴マップとを関連付ける時に、上記の式(1)で第2関連付け特徴マップを取得してもよい。そして、第2関連付け特徴マップに対してグローバル回帰処理を行って、第1目標対象物と第2目標対象物との間の第1関連性スコアを取得するようにしてもよい。ここのグローバル回帰処理は複数回の畳み込み処理、バッチ正規化処理、線形正規化処理及び全結合層の処理を含んでもよい。
一例において、第1入力情報及び第3入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第2関連性スコアを得、そして第1関連性スコア及び第2関連性スコアに基づいて第1目標対象物と前記第2目標対象物との関連付け結果を決定するようにしてもよい。
この例において、関連付け結果の正確率を保証するために、複数のニューラルネットワークを組み合わせて、第1目標対象物と第2目標対象物との間の関連付け結果を共同で決定するようにしてもよい。即ち、第3ニューラルネットワークを用いて第1入力情報および第3入力情報に対する特徴抽出を行って第1入力情報に対応する特徴マップおよび第3入力情報に対応する特徴マップを得、そして、第1入力情報に対応する特徴マップと第3入力情報に対応する特徴マップとを特徴関連付けて第3関連付け特徴マップを得、そして、第3関連付け特徴マップに基づいて第1目標対象物と第2目標対象物との間の関連度を表す第2関連性スコアを得るようにしてもよい。ここの関連度は第1目標対象物と第2目標対象物が同一の目標対象物である概率を表すものであると理解されてもよい。ここで、第3ニューラルネットワークのネットワーク構造及び処理過程は上記第2ニューラルネットワークと同じであり、詳細は再度説明しない。第2関連性スコアが得られた後、第1関連性スコアおよび第2関連性スコアに基づいて第1目標対象物と第2目標対象物との関連付け結果を決定できる。例えば、第1関連性スコアおよび第2関連性スコアに対して加重平均を行って最終的関連性スコアを決定し、さらに最終的関連性スコアに基づいて第1目標対象物と第2目標対象物との関連付け結果を決定する。
一例において、第2目標対象物の第1画像における位置を示す第2予測結果を取得し、そして、前記第1画像と前記第2予測結果とにより決定された第5入力情報、及び第1入力情報に基づいて第1目標対象物と前記第2目標対象物との間の関連度を表す第3関連性スコアを得るようにしてもよい。更に、第1関連性スコア及び第3関連性スコアに基づいて第1目標対象物と第2目標対象物との関連付け結果を決定する。
この例において、第2予測結果は、第2画像および第2画像における第2注意画像、並びに第1画像および第1マスク画像により決定されることができる。第2予測結果の決定過程は第1予測結果の決定過程と同じであっても、異なってもよく、詳細は再度説明しない。第2予測結果および第1画像を第5入力情報としてもよく、又は、第2予測結果と第1画像を融合して第5入力情報を得てもよい。そして、第5入力情報および第1入力情報を第4ニューラルネットワークに入力して、第4ニューラルネットワークの出力に基づいて第3関連性スコアを取得するようにしてもよい。ここで、第4ニューラルネットワークはネットワーク構造が第2ニューラルネットワークと同じであってもよく、詳細は再度説明しない。第3関連性スコアは第2予測結果と第1目標対象物との関連度を表すことができる。この第3関連性スコアが高いほど、第2予測結果によって示される第2目標対象物と第1画像中の第1目標対象物との間に関連性がある。そして、第1関連性スコアと第3関連性スコアとの両方に基づいて第1目標対象物と第2目標対象物との間の比較的正確な関連付け結果を取得でき、例えば、第1関連性スコアと第3関連性スコアの平均値又は最大値を計算して、この平均値又は最大値に基づいて第1目標対象物と第2目標対象物との関連付け結果を決定できる。
図4は本開示の実施例による関連付け結果を取得する一例のブロック図を示す。ここで、第1画像をI1で、第1画像の第1注意画像をM1で、第1画像の第1マスク画像をM01で表してもよい。第2画像をI2で、第2画像の第2注意画像をM2で、第2画像の第2マスク画像をM02で表してもよい。第1画像I1および第1注意画像M1を第1入力情報として、第2画像I2および第2マスク画像M02を第2入力情報として、第1ニューラルネットワークをMask1で表してもよい。第1入力情報および第2入力情報を第1ニューラルネットワークMask1に入力して第1予測結果を取得でき、第1予測結果を
Figure 0007084485000009
で表してもよい。第2画像および第2注意画像を第3入力情報として、第1予測結果および第2画像を第4入力情報として、第4入力情報および第3入力情報を第2ニューラルネットワークAssociation1に入力して第1関連性スコアを取得できる。第1入力情報および第3入力情報を第3ニューラルネットワークAssociation2に入力して第2関連性スコアを取得できる。第3入力情報および第4入力情報を第5ニューラルネットワークMask2に入力して第2予測結果
Figure 0007084485000010
を取得できる。第2予測結果
Figure 0007084485000011
および第1画像を第5入力情報として、第1入力情報および第5入力情報を第4ニューラルネットワークAssociation3に入力して第3関連性スコアを取得できる。そして、第1関連性スコア、第2関連性スコア、及び第3関連性スコアを、1つの全結合層であってもよい投票層に入力して、投票層によって最終的関連性スコアを取得でき、この最終的関連性スコアに基づいて第1目標対象物と第2目標対象物との関連付け結果を決定できる。
上記第1ニューラルネットワークのネットワーク構造と第2ニューラルネットワークのネットワーク構造によって任意に組み合わせてもよいことが注意されたい。図4は可能な一つの組合せ方式を例示するに過ぎず、本開示の実施例では具体的な組合せ方式を限定しない。
一例において、第1関連性スコアおよび第3関連性スコアに基づいて前記第1目標対象物と前記第2目標対象物との最終的関連性スコアを決定し、最終的関連性スコアがスコア閾値よりも大きい場合、関連付け結果として前記第1目標対象物と前記第2目標対象物との間に潜在的な関連性を有すると決定する。
この例において、複数の関連性スコアに基づいて、第1目標対象物と第2目標対象物との関連度を正確に表せる最終的関連性スコアを得ることができる。第1関連性スコアと第3関連性スコアの平均値又は最大値を最終的関連性スコアとしてもよく、第1関連性スコアおよび第3関連性スコアを1つのニューラルネットワークの全結合層に入力して最終的関連性スコアを得てもよい。そして、最終的関連性スコアに基づいて第1目標対象物と第2目標対象物との関連付け結果を決定する。最終的関連性スコアが高いほど、第1目標対象物と第2目標対象物との間の関連度が大きく、最終的関連性スコアが低いほど、第1目標対象物と第2目標対象物との間の関連度が小さい。この例において、最終的関連性スコアを予め設定されたスコア閾値と比較してもよく、得られた関連性スコアがスコア閾値よりも大きければ、2つの目標検出結果間に潜在的な関連性があり、即ち、2つの目標が同一の目標である可能性があると考えられる。このような方式によれば、最終的関連性スコアに基づいて、2つの目標対象物が同一の目標対象物であるか否かを迅速に判断できる。
一例において、前記最終的関連性スコアが前記スコア閾値以下である場合、前記関連付け結果として前記第1目標対象物と前記第2目標対象物との間に関連性がないと決定する。
この例において、得られた最終的関連性スコアが所定のスコア閾値以下であれば、2つの目標対象物間に関連性がなく、即ち、第1目標対象物と第2目標対象物が同一の目標対象物でないと考えられる。このような方式によれば、任意2つの目標対象物間の関連性スコアに基づいて、2つの目標対象物が同一の目標対象物でないと迅速に決定できる。
一例において、更に、第1関連性スコア、第2関連性スコア、及び第3関連性スコアに基づいて最終的関連性スコアを共同で決定するようにしてもよい。例えば、第1関連性スコア、第2関連性スコア、及び第3関連性スコアに対して加重平均を行って最終的関連性スコアを得る。
一例において、前記第1関連性スコアおよび前記第3関連性スコアに基づいて前記第1画像の第1目標対象物と前記第2目標対象物との最終的関連性スコアを決定し、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて前記各第1目標対象物と各第2目標対象物とのマッチングを行って、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得るようにしてもよい。
この例において、第1画像と第2画像との両方に複数の目標対象物が含まれてもよいので、第1画像におけるある第1目標対象物が第2画像の複数の第2目標対象物に対して潜在的な関連性を有するが、実際には1つの第1目標対象物が1つの第2目標対象物に対応する。従って、第1目標対象物と第2目標対象物との間の最終的関連性スコアに基づいて、1つの第1目標対象物と1つの第2目標対象物とのマッチングを行うように、複数の第1目標対象物と複数の第2目標対象物とのグローバルマッチングを行って、マッチングが成功した第1目標対象物と第2目標対象物が同一の目標対象物であると考えられる。
この例において、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて前記各第1目標対象物と前記各第2目標対象物との間の関連性スコアの総和を決定し、前記関連性スコアの総和が最大となり且つ予め設定された総和スコア閾値より大きい場合、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物が一対一でマッチングしていると決定して、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得るようにしてもよい。
この例において、各第1目標対象物と各第2目標対象物との間の最終的関連性スコアの総和を計算することによって、2つの画像における目標のマッチングを行うことができる。即ち、第1画像における複数の目標と第2画像の複数の目標を一対一でマッチングして、そして、マッチングされた目標のペアの間の最終的関連性スコアを計算することにより、関連性スコアの総和を得る。関連性スコアの総和が最大となった場合に、第1画像における各第1目標対象物と第2画像における各第2目標対象物が最適にマッチングしていると考えられ、この最大となった関連性スコアの総和が予め設定された総和スコア閾値よりも大きければ、第1画像における複数の目標対象物と第2画像の複数の目標対象物が一対一でマッチングしていると考えられる。このように、異なる画像における目標対象物同士の最適なマッチングを取れる。
この例において、前記関連性スコアの総和のうちの最大の関連性スコアの総和が前記総和スコア閾値以下である場合に、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物がマッチングしないと決定する。
ここで、この最大の関連性スコアの総和が予め設定された総和スコア閾値以下であれば、第1画像における複数の第1目標対象物と第2画像の複数の第2目標が最適にマッチングしているが、最大の関連性スコアの総和が予め設定された総和スコア閾値に到達していないと考えられ、第1画像における複数の第1目標対象物と第2画像の複数の第2目標対象物が一対一でマッチングするのではなく、第1画像と第2画像が同一シーンに対して撮影した画像ではないと考えられる。例えば、第1画像および第2画像に含まれる目標対象物は、一部で同じ、一部で異なるか、又は第1画像および第2画像に含まれる目標対象物はすべて異なる。
例を挙げると、第1画像にA、B及びCの3つの第1目標対象物が存在し、第2画像にa、b及びcの3つの第2目標対象物が存在すると仮定する。第1画像におけるAと第2画像におけるaとの間の最終的関連性スコアをAaで表してもよい。第1画像における3つの第1目標対象物と第2画像における3つの第2目標対象物をランダムにペアリングして、ペアリングされた2つの目標間の最終的関連性スコアを加算して得られたものを、各第1目標対象物と各第2目標対象物との間の関連性スコアの総和としてもよい。ランダムにペアリングするたびに、第1画像における1つの第1目標対象物に第2画像における1つの第2目標対象物が割り当てられる。即ち、Aa、Bb、Ccが1回のランダムペアリングに対応し、Aa、Bc、Cbが1回のランダムペアリングに対応し、Ab、Ba、Ccが1回のランダムペアリングに対応し、Ab、Bc、Caが1回のランダムペアリングに対応し、Ac、Ba、Cbが1回のランダムペアリングに対応し、Ac、Bb、Caが1回のランダムペアリングに対応し、その中、最終的関連性スコアの和が最も大きい1回のランダムペアリングを選択し、このランダムペアリングされた目標のペアの最終的関連性スコアの和を最大の関連性スコアの総和としてもよい。
本開示では、複数の第1目標対象物と複数の第2目標対象物とのマッチングを行う時に、具体的なマッチング方法が限定されないことが注意されたい。ここで、例えば、貪欲法又はハンガリアン法のような関連アルゴリズムを用いて、第1画像における複数の第1目標対象物と第2画像における複数の第2目標対象物とのマッチングを行って、異なる画像における目標対象物同士の最適なマッチングを取れる。
可能な一実現形態では、第1画像および第2画像は、同一シーンを異なる視角から同期して取得されたものである。ここで、複数の画像取得装置は異なる視角から同一シーンを同期して撮影でき、画像取得装置毎に撮影角度および撮影位置が異なるため、異なる角度から同一シーンを撮影した画像、例えば、同一物体の正面図および上面図を取得可能である。第1画像と第2画像における目標対象物同士の関連付け結果に基づいて、複数の画像取得装置によって同期して取得された画像における同一目標対象物のマッチングを行うことができ、例えば、異なる画像における同じ目標対象物を同じ番号、同じ色又は形状等でマーキングして、異なる画像における同じ目標対象物の関連付けを実現することができる。
本開示で言及された上記各方法の実施例は、原理や論理を違反しない限り、相互に組み合わせて実施例を形成することができることが理解され、紙幅に限りがあるため、詳細は本開示では再度説明しない。
また、本開示は画像処理装置、電子機器、コンピュータ読取可能記憶媒体、プログラムを更に提供し、いずれも本開示で提供されるいずれか1つの画像処理方法を実現するために用いることができ、対応する技術的解決手段及び説明は方法の部分の対応する記載を参照すればよく、詳細は再度説明しない。
具体的な実施形態の上記方法において、各ステップの記述順序は厳密にその順に従って実行することを限定するものではなく、実施プロセスを何ら限定するものではなく、各ステップの具体的な実行順序はその機能および可能な内在的論理によって決定されるべきであることが当業者に理解される。
図5は本開示の実施例による画像処理装置のブロック図を示し、図5に示すように、前記画像処理装置は、第1画像と、前記第1画像における第1目標対象物の第1注意画像とを取得するための第1取得モジュール31であって、前記第1注意画像は、前記第1目標対象物の前記第1画像における位置を示すものである第1取得モジュール31と、第2画像と、前記第2画像の第2マスク画像とを取得するための第2取得モジュール32であって、前記第2マスク画像において各画素の画素値が等しい第2取得モジュール32と、前記第1画像と第1注意画像とにより決定された第1入力情報、及び前記第2画像と前記第2マスク画像とにより決定された第2入力情報に基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得るための第1決定モジュール33と、を含む。
可能な一実現形態では、前記装置は、前記第2画像における第2目標対象物に対する検出結果に基づいて、前記第2画像の第2注意画像を取得するための第3取得モジュールであって、前記第2注意画像は、前記第2目標対象物の前記第2画像における位置を示すものである第3取得モジュールと、前記第2画像と前記第2注意画像とにより決定された第3入力情報、及び前記第2画像と前記第1予測結果とにより決定された第4入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第1関連性スコアを得るための第2決定モジュールと、前記第1関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定するための第3決定モジュールと、を更に含む。
可能な一実現形態では、前記装置は、前記第1入力情報及び前記第3入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第2関連性スコアを得るための第4決定モジュールを更に含み、前記第3決定モジュールは、前記第1関連性スコア及び前記第2関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定するために用いられる。
可能な一実現形態では、前記装置は、前記第2目標対象物の前記第1画像における位置を示す第2予測結果を取得するための第4取得モジュールと、前記第1画像と前記第2予測結果とにより決定された第5入力情報、及び前記第1入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第3関連性スコアを得るための第5決定モジュールと、を更に含み、前記第3決定モジュールは、前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定するために用いられる。
可能な一実現形態では、前記第3決定モジュールは、前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との最終的関連性スコアを決定するための第1決定サブモジュールと、前記最終的関連性スコアがスコア閾値よりも大きい場合、前記関連付け結果として前記第1目標対象物と前記第2目標対象物との間に潜在的な関連性を有すると決定するための第2決定サブモジュールと、を含む。
可能な一実現形態では、前記第3決定モジュールは、前記最終的関連性スコアが前記スコア閾値以下である場合、前記関連付け結果として前記第1目標対象物と前記第2目標対象物との間に関連性がないと決定するための第3決定サブモジュールを更に含む。
可能な一実現形態では、前記第3決定モジュールは、前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1画像の第1目標対象物と前記第2目標対象物との最終的関連性スコアを決定するための第4決定サブモジュールと、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて、前記各第1目標対象物と各第2目標対象物とのマッチングを行って、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得るためのマッチングサブモジュールと、を含む。
可能な一実現形態では、前記マッチングサブモジュールは、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて、前記各第1目標対象物と前記各第2目標対象物との間の関連性スコアの総和を決定するための第1決定ユニットと、前記関連性スコアの総和が最大となり且つ予め設定された総和スコア閾値よりも大きい場合、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物が一対一でマッチングしていると決定して、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得るための第2決定ユニットと、を含む。
可能な一実現形態では、前記マッチングサブモジュールは、前記関連性スコアの総和のうちの最大の関連性スコアの総和が前記総和スコア閾値以下である場合、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物がマッチングしないと決定するための第3決定ユニットを更に含む。
可能な一実現形態では、前記第1決定モジュールは、前記第1入力情報に対する特徴抽出を行って第1入力情報に対応する特徴マップを得るための第1特徴抽出サブモジュールと、前記第2入力情報に対する特徴抽出を行って第2入力情報に対応する特徴マップを得るための第2特徴抽出サブモジュールと、前記第1入力情報に対応する特徴マップ及び前記第2入力情報に対応する特徴マップに基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得るための予測結果決定サブモジュールと、を含む。
可能な一実現形態では、前記第1特徴抽出サブモジュールは、ニューラルネットワークの第1分岐ネットワークを用いて前記第1入力情報に対する特徴抽出を行って、前記第1入力情報の特徴マップを得るために用いられ、前記第2特徴抽出サブモジュールは、前記ニューラルネットワークの第2分岐ネットワークを用いて前記第2入力情報に対する特徴抽出を行って、前記第2入力情報の特徴マップを得るために用いられ、前記第1分岐ネットワークと前記第2分岐ネットワークは、ネットワークパラメータおよびネットワーク構造が同じである。
可能な一実現形態では、前記予測結果決定サブモジュールは、前記第1入力情報に対応する特徴マップと前記第2入力情報に対応する特徴マップとを特徴関連付けて、第1関連付け特徴マップを得るための特徴関連付けユニットと、前記第1関連付け特徴マップに基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得るための予測結果決定ユニットと、を含む。
可能な一実現形態では、前記第1取得モジュールは、前記第1画像における第1目標対象物に対する検出結果に基づいて、前記第1目標対象物の前記第1画像における第1画像領域を決定するための領域決定サブモジュールと、前記第1画像領域、及び前記第1画像における第1画像領域以外の第2画像領域に基づいて、前記第1目標対象物の第1注意画像を決定するための注意画像決定サブモジュールと、を含む。
可能な一実現形態では、前記領域決定サブモジュールは、画像サイズが前記第1画像とマッチングする第1初期画像を取得するための第1取得ユニットと、前記第1画像における第1画像領域に対応する、前記第1初期画像における第1画像領域中の画素の画素値を、第1画素値に設定するための第1設定ユニットと、前記第1初期画像における前記第1画像領域以外の領域である、前記第1初期画像における第2画像領域中の画素の画素値を、前記第1画素値と等しくない第2画素値に設定して、前記第1目標対象物の第1注意画像を得るための第2設定ユニットと、を含む。
可能な一実現形態では、前記第2取得モジュールは、画像サイズが前記第2画像とマッチングする第2初期画像を取得するための第2取得ユニットと、前記第2初期画像中の画素の画素値を第3設置画素値に設定して、前記第2マスク画像を得るための第3設定ユニットと、を含む。
可能な一実現形態では、前記装置は、前記第1画像と前記第1注意画像を融合して前記第1入力情報を得るための画像融合モジュールを更に含む。
可能な一実現形態では、前記画像融合モジュールは、前記第1画像と前記第1注意画像を所定次元で加算して前記第1入力情報を得るための加算サブモジュール、又は、前記第1画像と前記第1注意画像を所定次元で繋ぎ合わせて前記第1入力情報を得るための繋ぎ合わせサブモジュールと、を含む。
可能な一実現形態では、前記第1画像および前記第2画像は、同一シーンを異なる視角から同期して取得されたものである。
いくつかの実施例では、本開示の実施例で提供された装置が有する機能又はモジュールは、上記方法の実施例に記載の方法を実行するために用いられ、その具体的な実現は上記方法の実施例の説明を参照すればよく、説明を簡潔にするために、詳細は再度説明しない。
本開示の実施例は、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、上記方法を実現させるコンピュータ読取可能記憶媒体を更に提案する。コンピュータ読取可能記憶媒体は非揮発性のコンピュータ読取可能記憶媒体であってもよい。
本開示の実施例は、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、前記プロセッサは、上記方法を実行するように構成される電子機器を更に提案する。
電子機器は、端末、サーバ又は他の形態のデバイスとして提供されてよい。
図6は例示的な一実施例によって示された電子機器800のブロック図である。例えば、装置800は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナル・デジタル・アシスタントなどの端末であってよい。
図6を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インターフェイス812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含でもよい。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話呼出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、命令を実行して上記方法の全てまたは一部のステップを実行するために、一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インターフェイスを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は一つの前面カメラおよび/または後面カメラを含む。電子機器800が動作モード、例えば写真モードまたは撮影モードになる場合、前面カメラおよび/または後面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび後面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインターフェイス812は処理コンポーネント802と周辺インターフェイスモジュールとの間でインターフェイスを提供し、上記周辺インターフェイスモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
センサコンポーネント814は電子機器800の各面で状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的画像処理を検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成された近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように配置される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルによって外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いることができる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体又は揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されると、上記方法を実行することができる。
図7は例示的な一実施例によって示された電子機器1900のブロック図である。例えば、電子機器1900はサーバとして提供てもよい。図7を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されたアプリケーションプログラムはそれぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成された電源コンポーネント1926、電子機器1900をネットワークに接続するように構成された有線または無線ネットワークインターフェイス1950、および入出力(I/O)インターフェイス1958を含んでもよい。電子機器1900はメモリ1932に記憶されたオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体又は揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されると、上記方法を実行することができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各方面を実現させるためのコンピュータ読み取り可能プログラム命令を有しているコンピュータ読み取り可能記憶媒体を含んでもよい。
コンピュータ読み取り可能記憶媒体は命令実行装置に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインターフェイスはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算/処理機器内のコンピュータ読み取り可能記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ読み取り可能プログラム命令を実行することにより、本開示の各方面を実現できるようにしてもよい。
なお、ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各方面を説明しが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ読み取り可能プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されて、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されるときフローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように装置を製造してもよい。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。命令を記憶しているコンピュータ読み取り可能記憶媒体に、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現するための命令を有する製品を含む。
コンピュータ読み取り可能プログラムは、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードし、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ことを実行させることにより、コンピュータにより実施なプロセスを生成し、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令によりフローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は図面に付した順序と異なって実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、逆な順序で実行してもよい場合がある。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本明細書に披露された各実施例を理解させるためのものである。

Claims (19)

  1. 第1画像と、前記第1画像における第1目標対象物の第1注意画像とを取得することであって、前記第1注意画像は、前記第1目標対象物の前記第1画像における位置を示すものであることと、
    第2画像と、前記第2画像の第2マスク画像とを取得することであって、前記第2マスク画像において各画素の画素値が等しいことと、
    前記第1画像と第1注意画像とにより決定された第1入力情報、及び前記第2画像と前記第2マスク画像とにより決定された第2入力情報に基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることと、を含み、
    前記第1画像および前記第2画像は、同一シーンを異なる視角から取得されたものであり、
    前記第1画像および前記第1注意画像を前記第1入力情報とするか、又は前記第1画像と前記第1注意画像を融合して前記第1入力情報を得、
    前記第2画像および前記第2マスク画像を前記第2入力情報とするか、又は前記第2画像と前記第2マスク画像を融合して前記第2入力情報を得る
    ことを特徴とする画像処理方法。
  2. 前記第2画像における第2目標対象物に対する検出結果に基づいて、前記第2画像の第2注意画像を取得することであって、前記第2注意画像は、前記第2目標対象物の前記第2画像における位置を示すものであることを更に含み、
    前記第1予測結果が得られた後、
    前記第2画像と前記第2注意画像とにより決定された第3入力情報、及び前記第2画像と前記第1予測結果とにより決定された第4入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第1関連性スコアを得ることと、
    前記第1関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連
    付け結果を決定することと、を更に含むことを特徴とする請求項1に記載の方法。
  3. 前記第1入力情報及び前記第3入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第2関連性スコアを得ることを更に含み、
    前記第1関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することは、
    前記第1関連性スコア及び前記第2関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することを含むことを特徴とする請求項2に記載の方法。
  4. 前記第2目標対象物の前記第1画像における位置を示す第2予測結果を取得することと、
    前記第1画像と前記第2予測結果とにより決定された第5入力情報、及び前記第1入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第3関連性スコアを得ることと、を更に含み、
    前記第1関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することは、
    前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することを含むことを特徴とする請求項2又は3に記載の方法。
  5. 前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することは、
    前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との最終的関連性スコアを決定することと、
    前記最終的関連性スコアがスコア閾値よりも大きい場合、前記関連付け結果として前記第1目標対象物と前記第2目標対象物との間に潜在的な関連性を有すると決定することと、
    前記最終的関連性スコアが前記スコア閾値以下である場合、前記関連付け結果として前記第1目標対象物と前記第2目標対象物との間に関連性がないと決定することと、を含むことを特徴とする請求項4に記載の方法。
  6. 前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することは、
    前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1画像の第1目標対象物と前記第2目標対象物との最終的関連性スコアを決定することと、
    前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて、前記各第1目標対象物と各第2目標対象物とのマッチングを行って、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得ることと、を含むことを特徴とする請求項4に記載の方法。
  7. 前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて、前記各第1目標対象物と各第2目標対象物とのマッチングを行って、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得ることは、
    前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて、前記各第1目標対象物と前記各第2目標対象物との間の関連性スコアの総和を決定することと、
    前記関連性スコアの総和が最大となり且つ予め設定された総和スコア閾値よりも大きい場合、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物が一対一でマッチングしていると決定して、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得ることと、
    前記関連性スコアの総和のうちの最大の関連性スコアの総和が前記総和スコア閾値以下である場合、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物がマッチングしないと決定することと、を含むことを特徴とする請求項6に記載の方法。
  8. 第1入力情報及び第2入力情報に基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることは、
    前記第1入力情報に対する特徴抽出を行って第1入力情報に対応する特徴マップを得ることと、
    前記第2入力情報に対する特徴抽出を行って第2入力情報に対応する特徴マップを得ることと、
    前記第1入力情報に対応する特徴マップ及び前記第2入力情報に対応する特徴マップに基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることと、を含むことを特徴とする請求項1~7のいずれか一項に記載の方法。
  9. 前記第1入力情報に対応する特徴マップ及び前記第2入力情報に対応する特徴マップに基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることは、
    前記第1入力情報に対応する特徴マップと前記第2入力情報に対応する特徴マップとを特徴関連付けて、第1関連付け特徴マップを得ることと、
    前記第1関連付け特徴マップに基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることと、を含むことを特徴とする請求項8に記載の方法。
  10. プロセッサと、
    前記プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含む画像処理装置であって、
    前記プロセッサは、前記メモリに記憶されているコマンドを呼び出して、
    第1画像と、前記第1画像における第1目標対象物の第1注意画像とを、前記第1注意画像は、前記第1目標対象物の前記第1画像における位置を示すものとして、取得し、
    第2画像と、前記第2画像の第2マスク画像とを、前記第2マスク画像において各画素の画素値が等しいものとして、取得し、
    前記第1画像と第1注意画像とにより決定された第1入力情報、及び前記第2画像と前記第2マスク画像とにより決定された第2入力情報に基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得、
    前記第1画像および前記第1注意画像を前記第1入力情報とするか、又は前記第1画像と前記第1注意画像を融合して前記第1入力情報を得、
    前記第2画像および前記第2マスク画像を前記第2入力情報とするか、又は前記第2画像と前記第2マスク画像を融合して前記第2入力情報を得るように構成され
    前記第1画像および前記第2画像は、同一シーンを異なる視角から取得されたものであることを特徴とする画像処理装置。
  11. 前記プロセッサが、
    前記第2画像における第2目標対象物に対する検出結果に基づいて、前記第2画像の第2注意画像を取得するものであって、前記第2注意画像は、前記第2目標対象物の前記第2画像における位置を示し、
    前記第2画像と前記第2注意画像とにより決定された第3入力情報、及び前記第2画像と前記第1予測結果とにより決定された第4入力情報に基づいて、前記第1予測結果を得たのちに前記第1目標対象物と前記第2目標対象物との間の関連度を表す第1関連性スコアを得るものであって、
    前記第1関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定するものである、ように更に構成されていることを特徴とする請求項10に記載の装置。
  12. 前記プロセッサが、
    前記第1入力情報及び前記第3入力情報に基づいて、前記第1目標対象物と前記第2目
    標対象物との間の関連度を表す第2関連性スコアを得るものであって、
    前記第1関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することが、
    前記第1関連性スコア及び前記第2関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することを含む、ように更に構成されていることを特徴とする請求項11に記載の装置。
  13. 前記プロセッサが、
    前記第2目標対象物の前記第1画像における位置を示す第2予測結果を取得するものであって、
    前記第1画像と前記第2予測結果とにより決定された第5入力情報、及び前記第1入力情報に基づいて、前記第1目標対象物と前記第2目標対象物との間の関連度を表す第3関連性スコアを得るものであって、
    前記第1関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することが、
    前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することを含む、ように更に構成されていることを特徴とする請求項11又は12に記載の装置。
  14. 前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することが、
    前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との最終的関連性スコアを決定することと、
    前記最終的関連性スコアがスコア閾値よりも大きい場合、前記関連付け結果として前記第1目標対象物と前記第2目標対象物との間に潜在的な関連性を有すると決定することと、
    前記最終的関連性スコアが前記スコア閾値以下である場合、前記関連付け結果として前記第1目標対象物と前記第2目標対象物との間に関連性がないと決定すること、を含むことを特徴とする請求項13に記載の装置。
  15. 前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1目標対象物と前記第2目標対象物との関連付け結果を決定することが、
    前記第1関連性スコア及び前記第3関連性スコアに基づいて、前記第1画像の第1目標対象物と前記第2目標対象物との最終的関連性スコアを決定することと、
    前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて、前記各第1目標対象物と各第2目標対象物とのマッチングを行って、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得ること、を含むことを特徴とする請求項13に記載の装置。
  16. 前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて、前記各第1目標対象物と各第2目標対象物とのマッチングを行って、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得ることが、
    前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物との最終的関連性スコアに基づいて、前記各第1目標対象物と前記各第2目標対象物との間の関連性スコアの総和を決定することと、
    前記関連性スコアの総和が最大となり且つ予め設定された総和スコア閾値よりも大きい場合、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物が一対一でマッチングしていると決定して、前記各第1目標対象物と各第2目標対象物との間の関連付け結果を得ることと、
    前記関連性スコアの総和のうちの最大の関連性スコアの総和が前記総和スコア閾値以下である場合、前記第1画像における各第1目標対象物と前記第2画像における各第2目標対象物がマッチングしないと決定すること、を含むことを特徴とする請求項15に記載の装置。
  17. 前記第1入力情報及び前記第2入力情報に基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることが、
    前記第1入力情報に対する特徴抽出を行って第1入力情報に対応する特徴マップを得ることと、
    前記第2入力情報に対する特徴抽出を行って第2入力情報に対応する特徴マップを得ることと、
    前記第1入力情報に対応する特徴マップ及び前記第2入力情報に対応する特徴マップに基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることと、を含むことを特徴とする請求項10~16のいずれか一項に記載の装置。
  18. 前記第1入力情報に対応する特徴マップ及び前記第2入力情報に対応する特徴マップに基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることが、
    前記第1入力情報に対応する特徴マップと前記第2入力情報に対応する特徴マップとを特徴関連付けて、第1関連付け特徴マップを得ることと、
    前記第1関連付け特徴マップに基づいて、前記第1目標対象物の前記第2画像における位置を示す第1予測結果を得ることと、を含むことを特徴とする請求項17に記載の装置。
  19. コンピュータプログラムコマンドが記憶されている非揮発性コンピュータ読取可能記憶媒体であって、前記記憶媒体に記憶されているコンピュータプログラムコマンドは、電子機器のプロセッサにロードされて実行されると、請求項1~9のいずれか一項に記載の方法を前記電子機器に実行させることを特徴とする非揮発性コンピュータ読取可能記憶媒体。
JP2020540785A 2019-12-30 2020-03-19 画像処理方法及び装置、電子機器、並びに記憶媒体 Active JP7084485B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10201913744S 2019-12-30
SG10201913744SA SG10201913744SA (en) 2019-12-30 2019-12-30 Image processing method and apparatus, electronic device, and storage medium
PCT/IB2020/052537 WO2021136979A1 (en) 2019-12-30 2020-03-19 Image processing method and apparatus, electronic device, and storage medium

Publications (2)

Publication Number Publication Date
JP2022509893A JP2022509893A (ja) 2022-01-25
JP7084485B2 true JP7084485B2 (ja) 2022-06-14

Family

ID=74101444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020540785A Active JP7084485B2 (ja) 2019-12-30 2020-03-19 画像処理方法及び装置、電子機器、並びに記憶媒体

Country Status (5)

Country Link
JP (1) JP7084485B2 (ja)
KR (1) KR102445187B1 (ja)
AU (1) AU2020309091B2 (ja)
SG (1) SG10201913744SA (ja)
WO (1) WO2021136979A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792827B (zh) * 2021-11-18 2022-03-25 北京的卢深视科技有限公司 目标对象识别方法、电子设备和计算机可读存储介质
CN114581667A (zh) * 2022-03-04 2022-06-03 北京百度网讯科技有限公司 地图数据处理方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229493A (zh) 2017-04-10 2018-06-29 商汤集团有限公司 对象验证方法、装置和电子设备
CN109359559A (zh) 2018-09-27 2019-02-19 天津师范大学 一种基于动态遮挡样本的行人再识别方法
JP2019509566A (ja) 2016-03-11 2019-04-04 クゥアルコム・インコーポレイテッドQualcomm Incorporated ビデオ理解のための動きベースアテンションを用いたリカレントネットワーク
CN109635721A (zh) 2018-12-10 2019-04-16 山东大学 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统
CN110443143A (zh) 2019-07-09 2019-11-12 武汉科技大学 多分支卷积神经网络融合的遥感图像场景分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557765A (zh) 2015-09-29 2017-04-05 欧姆龙株式会社 注意检测装置以及注意检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019509566A (ja) 2016-03-11 2019-04-04 クゥアルコム・インコーポレイテッドQualcomm Incorporated ビデオ理解のための動きベースアテンションを用いたリカレントネットワーク
CN108229493A (zh) 2017-04-10 2018-06-29 商汤集团有限公司 对象验证方法、装置和电子设备
CN109359559A (zh) 2018-09-27 2019-02-19 天津师范大学 一种基于动态遮挡样本的行人再识别方法
CN109635721A (zh) 2018-12-10 2019-04-16 山东大学 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统
CN110443143A (zh) 2019-07-09 2019-11-12 武汉科技大学 多分支卷积神经网络融合的遥感图像场景分类方法

Also Published As

Publication number Publication date
KR102445187B1 (ko) 2022-09-19
SG10201913744SA (en) 2020-12-30
WO2021136979A1 (en) 2021-07-08
AU2020309091B2 (en) 2022-01-20
AU2020309091A1 (en) 2021-07-15
KR20210088439A (ko) 2021-07-14
JP2022509893A (ja) 2022-01-25

Similar Documents

Publication Publication Date Title
JP7262659B2 (ja) 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体
US9674395B2 (en) Methods and apparatuses for generating photograph
CN112219224B (zh) 图像处理方法及装置、电子设备和存储介质
EP3179711B1 (en) Method and apparatus for preventing photograph from being shielded
JP7061191B2 (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN110928627B (zh) 界面展示方法及装置、电子设备和存储介质
US11450021B2 (en) Image processing method and apparatus, electronic device, and storage medium
CN110569822A (zh) 图像处理方法及装置、电子设备和存储介质
CN111553864A (zh) 图像修复方法及装置、电子设备和存储介质
EP3113071A1 (en) Method and device for acquiring iris image
JP2022522071A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
JP7084485B2 (ja) 画像処理方法及び装置、電子機器、並びに記憶媒体
CN111860373B (zh) 目标检测方法及装置、电子设备和存储介质
CN112184787A (zh) 图像配准方法及装置、电子设备和存储介质
CN111523346A (zh) 图像识别方法及装置、电子设备和存储介质
CN112860061A (zh) 场景图像展示方法及装置、电子设备和存储介质
CN109040837B (zh) 视频处理方法及装置、电子设备和存储介质
CN111325786B (zh) 图像处理方法及装置、电子设备和存储介质
US11265529B2 (en) Method and apparatus for controlling image display
CN111078346B (zh) 一种目标对象显示方法及装置、电子设备和存储介质
CN107730452B (zh) 图像拼接方法及装置
CN114390189A (zh) 图像处理方法、装置、存储介质及移动终端
CN109034068B (zh) 视频处理方法及装置、电子设备和存储介质
CN108900904B (zh) 视频处理方法及装置、电子设备和存储介质
JP2022518810A (ja) 共有地図に基づいた測位方法及び装置、電子機器並びに記憶媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211110

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20211110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200730

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220602

R150 Certificate of patent or registration of utility model

Ref document number: 7084485

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150