JP7372487B2 - オブジェクトセグメンテーション方法、オブジェクトセグメンテーション装置及び電子機器 - Google Patents

オブジェクトセグメンテーション方法、オブジェクトセグメンテーション装置及び電子機器 Download PDF

Info

Publication number
JP7372487B2
JP7372487B2 JP2022581655A JP2022581655A JP7372487B2 JP 7372487 B2 JP7372487 B2 JP 7372487B2 JP 2022581655 A JP2022581655 A JP 2022581655A JP 2022581655 A JP2022581655 A JP 2022581655A JP 7372487 B2 JP7372487 B2 JP 7372487B2
Authority
JP
Japan
Prior art keywords
feature map
frame
correlation matrix
correlation
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022581655A
Other languages
English (en)
Other versions
JP2023535672A (ja
Inventor
ウェンフア ハン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202110736166.XA external-priority patent/CN113570606B/zh
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023535672A publication Critical patent/JP2023535672A/ja
Application granted granted Critical
Publication of JP7372487B2 publication Critical patent/JP7372487B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Die Bonding (AREA)
  • Apparatuses And Processes For Manufacturing Resistors (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Description

関連出願の相互参照
本開示は、出願番号が「202110736166.X」であり、出願日が2021年06月30日である中国特許出願に基づいて提出されたものであり、この中国特許出願の全ての内容が、参照により本明細書に組み込まれる。
本開示は、人工知能の分野に関し、特にコンピュータビジョンおよび深層学習技術に関し、具体的には、スマートシティやスマートトラフィックのシナリオで使用することができ、特にオブジェクトセグメンテーション方法、オブジェクトセグメンテーション装置及び電子機器に関する。
人工知能関連技術の開発と応用に伴い、ますます多くの分野が知能化、自動化技術に対する大な需要を示しており、そのうちショートビデオ分野はその1つである。ショートビデオの分野では、ビデオオブジェクトセグメンテーション方法の使用の見通しが非常に良く、ビデオ内の指定オブジェクトの削除や背景のぼかしなどは、すべてビデオオブジェクトセグメンテーション方法に大きく依存している。したがって、ビデオオブジェクトセグメンテーション方法の発展は、ショートビデオ処理の知能化および特殊効果処理などにとって非常に重要である。
しかしながら、従来のビデオオブジェクトセグメンテーション方法では、ターゲットオブジェクトを検出する精度が低く、現在、ターゲットオブジェクトをより正確に検出することができるビデオオブジェクトセグメンテーション方法がない。
本開示は、オブジェクトセグメンテーション方法、オブジェクトセグメンテーション装置、電子機器及び記憶媒体を提供する。
本開示の第1の態様によれば、
識別対象ビデオから識別対象フレーム、前記識別対象フレームの前のフレーム、および参照フレームを生成するステップであって、前記参照フレームは、前記識別対象ビデオの第1のフレームであるステップと、
前記識別対象フレーム、前記前のフレーム、および前記参照フレームを符号化ネットワークに入力して、識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成するステップと、
前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関行列および第2の相関行列を生成するステップと、
前記第1の相関行列、第2の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関特徴マップおよび第2の相関特徴マップを生成するステップと、
前記第1の相関特徴マップ、前記第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成するステップと、を含む、オブジェクトセグメンテーション方法が提供される。
選択可能に、前記識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成するステップは、
前記識別対象フレームの特徴、前記前のフレームの特徴、および前記参照フレームの特徴を抽出して、識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成するステップと、
前記参照フレームの特徴マップと前記参照フレームのターゲットオブジェクトマスクとに基づいて、参照フレームのターゲットオブジェクト特徴マップを生成するステップと、
前記前のフレームの特徴マップと前記前のフレームのターゲットオブジェクトマスクとに基づいて、前記前のフレームのターゲットオブジェクト特徴マップを生成するステップと、を含む。
選択可能に、前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関行列および第2の相関行列を生成するステップは、
前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第1の相関行列を生成するステップと、
前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第2の相関行列を生成するステップと、を含む。
選択可能に、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第1の相関行列を生成するステップは、
前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、参照相関行列を生成するステップと、
前記参照相関行列を正規化して、第2の参照相関行列を生成するステップと、
第2の参照相関行列の各行の参照値を生成し、前記参照値に基づいて前記第1の相関行列を生成するステップであって、前記参照値は同じ行内の他の値よりも大きいステップと、を含む。
選択可能に、前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第2の相関行列を生成するステップは、
前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成するステップと、
前記前のフレーム相関行列を正規化して、第2の前のフレーム相関行列を生成するステップと、
第2の前のフレーム相関行列の各行の参照値を生成し、前記参照値に基づいて前記第2の相関行列を生成するステップであって、前記参照値は同じ行内の他の値よりも大きいステップと、を含む。
選択可能に、前記第1の相関行列、第2の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関特徴マップおよび第2の相関特徴マップを生成するステップは、
前記第1の相関行列に前記参照フレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第1の相関特徴マップを生成するステップと、
前記第2の相関行列に前記前のフレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第2の相関特徴マップを生成するステップと、を含む。
選択可能に、前記第1の相関特徴マップ、前記第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成するステップは、
前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するステップと、
前記融合特徴マップを復号化ネットワークに入力して、現在のフレームのオブジェクトセグメンテーション画像を生成するステップと、を含む。
選択可能に、前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するステップは、
前記第1の相関特徴マップ、前記第2の相関特徴マップ、および前記識別対象フレームの特徴マップを連結することにより、前記融合特徴マップを生成するステップを含む。
本開示の第2の態様によれば、
識別対象ビデオから識別対象フレーム、前記識別対象フレームの前のフレーム、および参照フレームを生成するように構成されるビデオフレーム生成モジュールであって、前記参照フレームは、前記識別対象ビデオの第1のフレームであるビデオフレーム生成モジュールと、
前記識別対象フレーム、前記前のフレーム、および前記参照フレームを符号化ネットワークに入力して、識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成するように構成される特徴抽出モジュールと、
前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関行列および第2の相関行列を生成するように構成される相関行列生成モジュールと、
前記第1の相関行列、第2の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関特徴マップおよび第2の相関特徴マップを生成するように構成される特徴マップ生成モジュールと、
前記第1の相関特徴マップ、前記第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成するように構成されるオブジェクトセグメンテーションモジュールと、を含む、オブジェクトセグメンテーション装置を提供される。
選択可能に、前記特徴抽出モジュールは、
前記識別対象フレームの特徴、前記前のフレームの特徴、および前記参照フレームの特徴を抽出して、識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成するように構成される特徴抽出サブモジュールと、
前記参照フレームの特徴マップと前記参照フレームのターゲットオブジェクトマスクとに基づいて、参照フレームのターゲットオブジェクト特徴マップを生成するように構成される第1のマスクサブモジュールと、
前記前のフレームの特徴マップと前記前のフレームのターゲットオブジェクトマスクとに基づいて、前記前のフレームのターゲットオブジェクト特徴マップを生成するように構成される第2のマスクサブモジュールと、を含む。
選択可能に、前記相関行列生成モジュールは、
前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第1の相関行列を生成するように構成される第1の相関行列生成サブモジュールと、
前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第2の相関行列を生成するように構成される第2の相関行列生成サブモジュールと、を含む。
選択可能に、前記第1の相関行列生成サブモジュールは、
前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、参照相関行列を生成するように構成される参照相関行列生成ユニットと、
前記参照相関行列を正規化して、第2の参照相関行列を生成するように構成される第2の参照相関行列生成ユニットと、
第2の参照相関行列の各行の参照値を生成し、前記参照値に基づいて前記第1の相関行列を生成するように構成される第1の相関行列生成ユニットであって、前記参照値は同じ行内の他の値よりも大きい第1の相関行列生成ユニットと、を含む。
選択可能に、前記第2の相関行列生成サブモジュールは、
前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成するように構成される前のフレーム相関行列生成ユニットと、
前記前のフレーム相関行列を正規化して、第2の前のフレーム相関行列を生成するように構成される第2の前のフレーム相関行列生成ユニットと、
第2の前のフレーム相関行列の各行の参照値を生成し、前記参照値に基づいて前記第2の相関行列を生成するように構成される第2の相関行列生成ユニットであって、前記参照値は同じ行内の他の値よりも大きい第2の相関行列生成ユニットと、を含む。
選択可能に、前記特徴マップ生成モジュールは、
前記第1の相関行列に前記参照フレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第1の相関特徴マップを生成するように構成される第1の相関特徴マップ生成サブモジュールと、
前記第2の相関行列に前記前のフレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第2の相関特徴マップを生成するように構成される第2の相関特徴マップ生成サブモジュールと、を含む。
選択可能に、前記オブジェクトセグメンテーションモジュールは、
前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するように構成される特徴融合サブモジュールと、
前記融合特徴マップを復号化ネットワークに入力して、現在のフレームのオブジェクトセグメンテーション画像を生成するように構成される復号化サブモジュールと、を含む。
選択可能に、前記特徴融合サブモジュールは、
前記第1の相関特徴マップ、前記第2の相関特徴マップ、および前記識別対象フレームの特徴マップを連結することにより、前記融合特徴マップを生成するように構成される特徴融合ユニットを含む。
本開示の第3の態様によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサが上記第1の態様のいずれか1項に記載の方法を実行できる、電子機器が提供される。
本開示の第4の態様によれば、コンピュータに上記第1の態様のいずれか1項に記載の方法を実行させるためのコンピュータ命令を記憶した、非一時的なコンピュータ読み取り可能な記憶媒体が提供される。
本開示の第5の態様によれば、プロセッサによって実行される場合、上記第1の態様のいずれか1項に記載の方法を実現する、コンピュータプログラムが提供される。
本開示の実施例は以下の有益な効果を有する。
ターゲットオブジェクトのみを含む、参照フレームの特徴マップと前のフレームの特徴マップとに基づいて、識別対象フレームの特徴マップとの相関行列を取得するため、アテンションがターゲットオブジェクトに集中され、ターゲットオブジェクトの識別精度が向上する。
なお、この概要部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本出願の他の特徴は下記の明細書の記載を通して理解しやすくなる。
図面は、本出願をより良く理解するためのものであり、本開示を限定するものではない。
本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。 本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。 本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。 本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。 本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。 本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。 本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。 本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。 本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。 本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。 本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。 本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。 本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。 本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。 本開示の実施例のオブジェクトセグメンテーション方法を実現するための電子機器のブロック図である。 本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明する。理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
人工知能関連技術の開発と応用に伴い、ますます多くの分野が知能化、自動化技術に対する大な需要を示しており、そのうちショートビデオ分野はその1つである。ショートビデオの分野では、ビデオオブジェクトセグメンテーション方法の使用の見通しが非常に良く、ビデオ内の指定オブジェクトの削除や背景のぼかしなどは、すべてビデオオブジェクトセグメンテーション方法に大きく依存している。したがって、ビデオオブジェクトセグメンテーション方法の発展は、ショートビデオ処理の知能化および特殊効果処理などにとって非常に重要である。
従来のビデオオブジェクトセグメンテーション方法では、ビデオ内に指定されたオブジェクトが遮蔽されているという解決しにくい問題があり、オブジェクトが遮蔽されてから再度に現れると、ターゲットオブジェクトのセグメンテーションが誤ることになるため、本開示は、ビデオオブジェクトセグメンテーション領域において、ターゲットオブジェクトが遮蔽されてから再度現れると、ターゲットオブジェクトのセグメンテーションが誤る可能性があることに基づいてなされたものである。従来の一般的な解決策では、このような遮蔽の問題に対応するための熟成した方法はない。
一般的な方法は、履歴フレームの情報を読み取り、履歴フレーム内の前記ターゲットオブジェクトのすべての出現位置のベクトルを抽出することによってインスタンスアテンション(instance attention)を生成することですが、この方法では、抽出されたターゲットベクトルを加算し、(c,h,w)のベクトルを(c,1,1)のベクトルに圧縮し、その後、(c,1,1)のベクトルをネットワークに追加して、ネットワークのオブジェクトセグメンテーションを支援する。このようにすることで、オブジェクト遮蔽の問題はある程度解決することができるが、この方法が処理時に、抽出されたベクトルを(c,1,1)に圧縮した後、このオブジェクトのすべての位置、形状、および隣接するベクトルの相関性などの関連情報は失われるため、この方法にはまだ大きな改善の余地がある。
図1は、本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。図1に示すように、前記オブジェクトセグメンテーション方法は、ステップ101~105を含む。
ステップ101では、識別対象ビデオから識別対象フレーム、前記識別対象フレームの前のフレーム、および参照フレームを生成し、前記参照フレームは、前記識別対象ビデオの第1のフレームである。
本開示は、スマートシティおよびスマートトラフィックのシナリオで使用することができ、スマートシティは、情報および通信技術手段を使用して、都市の運用コアシステムの各重要な情報を知覚、分析、および統合する。スマートシティの構築には、モノのインターネットやモバイルテクノロジーに代表されるクラウドコンピューティングなどの次世代の情報技術の応用を通じて、包括的な認識、ユビキタス相互接続、ユビキタスコンピューティング、融合応用を実現する必要がある。スマートシティの重要な知覚情報は、防犯カメラによって取得されたビデオ情報である。
本実施例では、前記ビデオ情報をさらにマイニングすることができ、まず、カメラによって識別対象ビデオが収集され、フレームの1つが識別対象フレームとして選択される。本開示は、履歴フレーム、すなわち、前記識別対象フレームの前のフレームおよび参照フレームを利用して、前記識別対象フレーム内のターゲットオブジェクトの特徴を強化し、前記前のフレームは、前記識別対象フレームに隣接する前のフレームであり、前記参照フレームは、前記識別対象ビデオの第1のフレームである。
ステップ102では、前記識別対象フレーム、前記前のフレーム、および前記参照フレームを符号化ネットワークに入力して、識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成する。
前記符号化ネットワークは、ニューラルネットワークのエンコーダであり、前記符号化ネットワークは、前記識別対象フレーム、識別対象フレーム、および前記参照フレームをダウンサンプリングして、前記識別対象フレーム、前記前のフレーム、および参照フレームの高次元の特徴を抽出するために使用される。即ち、前記識別対象フレームの特徴マップを生成する。
同時に、後続で相関行列を取得するために、本開示では、前記前のフレームおよび前記参照フレームに対応するターゲットオブジェクトマスクを使用して、前記参照フレームのターゲットオブジェクト特徴マップおよび前のフレームのターゲットオブジェクト特徴マップを取得する。
ステップ103では、前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関行列および第2の相関行列を生成する。
相関行列は、相関性行列(correlation matrix)とも呼ばれ、パラダイムであり、行列の各要素は、特徴マップ(feature map)のローカル特徴ベクトルと、別の特徴マップのローカル特徴ベクトルの間の相関性を特徴づけるために使用され、通常は2つのローカル特徴ベクトルのドット積で表される。サイズがH*W*dである2つの特徴マップの相関行列のサイズは(H*W)*(H*W)であり、ここで、Hは高さ、Wは幅、dはチャネルの数である。相関性は、特徴の一致度を判断するための根拠であり、特徴は、さまざまなタスクに応じてさまざまな表現を持ち、通常、形状、色、およびテクスチャに基づく意味的特徴である。
本開示は、前記相関行列を使用して、前記参照フレームのターゲットオブジェクト特徴マップ内のピクセルおよび前記前のフレームのターゲットオブジェクト特徴マップ内のピクセルと、前記識別対象フレームの特徴マップ内のピクセルとの相関度を特徴付け、前記識別対象フレームの特徴マップ内のピクセルに対応する特徴ベクトルと、前記参照フレームのターゲットオブジェクト特徴マップ内のピクセルに対応する特徴ベクトルおよび前記前のフレームのターゲットオブジェクト特徴マップ内のピクセルに対応する特徴ベクトルとの相関性が強いほど、前記識別対象フレームの特徴マップ内のピクセルが前記ターゲットオブジェクトのピクセルである可能性が高いことを表す。
ステップ104では、前記第1の相関行列、第2の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関特徴マップおよび第2の相関特徴マップを生成する。
前記第1の相関行列、第2の相関行列、および前記識別対象フレームの特徴マップに基づいて、前記識別対象フレームのオブジェクト特徴マップを生成することができ、前記相関行列に基づいて、前記識別対象フレームの特徴マップの特徴を強化することにより、前記ターゲットオブジェクトの検出精度を向上させることができる。
ステップ105では、前記第1の相関特徴マップ、前記第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成する。
前記第1の相関特徴マップの分布および前記第2の相関特徴マップの分布に、前記識別対象フレームの特徴マップ内のピクセルをそれぞれポイントツーポイントで乗算することにより、第1の相関特徴マップおよび第2の相関特徴マップを生成することができる。前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップの連結concatを実行し、ターゲットオブジェクトに関連するピクセルの特徴を強化して、融合特徴マップを生成する。
前記融合特徴マップをデコーダに入力して、前記オブジェクトセグメンテーション画像を取得することができ、前記デコーダは、アップサンプリングに使用され、前記オブジェクトセグメンテーション画像を、前記識別対象フレームのサイズに復元する。前記識別対象フレーム内のターゲットオブジェクトに属するピクセルを取得する。
図2は、本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。図2に示すように、前記オブジェクトセグメンテーション方法は、ステップ201~203を含む。
ステップ201では、前記識別対象フレームの特徴、前記前のフレームの特徴、および前記参照フレームの特徴を抽出して、前記識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成する。
本開示は、ニューラルネットワークを使用して、前記識別対象フレームの特徴、前記前のフレームの特徴、および前記参照フレームの特徴を抽出して、前記特徴を抽出するための方法は公知で多様であるため、本開示の保護内容としない。
可能な一実施形態では、ランダムダウンサンプリングの方法によって、特徴を抽出して、前記識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成する。
ステップ202では、前記参照フレームの特徴マップと前記参照フレームのターゲットオブジェクトマスクとに基づいて、参照フレームのターゲットオブジェクト特徴マップを生成する。
前記参照フレームのターゲットオブジェクトマスクは、前記オブジェクトセグメンテーション方法によって取得されており、前記参照フレームのターゲットオブジェクトマスクに前記参照フレームの特徴マップのピクセルをポイントツーポイントで乗算することにより、前記参照フレームのターゲットオブジェクト特徴マップを生成することができる。後続で前記第1の相関行列を取得するために、このステップでは、ターゲットオブジェクトのみを含む参照フレームのターゲットオブジェクト特徴マップを取得することができる。
ステップ203では、前記前のフレームの特徴マップと前記前のフレームのターゲットオブジェクトマスクとに基づいて、前記前のフレームのターゲットオブジェクト特徴マップを生成する。
前記前のフレームのターゲットオブジェクトマスクは、前記オブジェクトセグメンテーション方法によって取得され、前記前のフレームのターゲットオブジェクトマスクに前記参照フレームの特徴マップのピクセルをポイントツーポイントで乗算することにより、前記前のフレームのターゲットオブジェクト特徴マップを生成することができる。後続で前記第2の相関行列を取得するために、このステップでは、ターゲットオブジェクトのみを含む前のフレームのターゲットオブジェクト特徴マップを取得することができる。
図3は、本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。図3に示すように、前記オブジェクトセグメンテーション方法は、ステップ301~ステップ302を含む。
ステップ301では、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第1の相関行列を生成する。
本開示は、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記識別対象フレームの特徴マップ内のピクセルと前記参照フレームのターゲットオブジェクト特徴マップ内のターゲットオブジェクトに属するピクセルとの相関性を特徴づける前記第1の相関行列を生成することにより、後続で特徴を抽出することができる。
ステップ302では、前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第2の相関行列を生成する。
同時に、後続で特徴を抽出するために、本開示では、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記識別対象フレームの特徴マップ内のピクセルと前記前のフレームのターゲットオブジェクト特徴マップ内のターゲットオブジェクトに属するピクセルとの相関性を特徴づける前記第2の相関行列を生成することができる。
図4は、本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。図4に示すように、前記オブジェクトセグメンテーション方法は、ステップ401~403を含む。
ステップ401では、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、参照相関行列を生成する。
まず、識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて参照相関行列を生成し、前記相関行列の生成方法は多様である。可能な一実施形態では、前記識別対象フレームの特徴マップ内のピクセルに対応する特徴ベクトルと前記参照フレームのターゲットオブジェクト特徴マップ内のピクセルに対応する特徴ベクトルとの間のユークリッド距離を算出し、前記ユークリッド距離を前記参照相関行列の要素の値として、前記参照相関行列を生成する。
ステップ402では、前記参照相関行列を正規化して、第2の参照相関行列を生成する。
後続のオブジェクトセグメンテーションの誤差を減らすために、前記参照相関行列を正規化し、前記正規化にはさまざまな方法があり、可能な一実施形態では、softmax関数を使用して前記正規化処理を実行する。正規化処理後、第2の参照相関行列を生成し、前記第2の参照相関行列のいずれかの行で、すべての要素を加算した結果は1になる。
ステップ403では、第2の参照相関行列の各行の参照値を生成し、前記参照値に基づいて前記第1の相関行列を生成し、前記参照値は同じ行内の他の値よりも大きい。
相関性の低いピクセルを除去するために、本開示は、前記第2の参照相関行列の各行における最大値を有する要素のみを保持し、前記最大値を有する要素の値が前記参照値である。可能な一実施形態では、前記第2の参照フレーム相関行列は(h×w,N)の行列であり、前記参照値を保持した後、(h×w,1)の行列を生成し、次いで整形を実行し、(h,w)の第1の相関行列を取得することができる。
図5は、本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。図5に示すように、前記オブジェクトセグメンテーション方法は、ステップ501~ステップ503を含む。
ステップ501では、前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成する。
まず、識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成し、前記相関行列を生成するための方法は多様である。可能な一実施形態では、前記識別対象フレームの特徴マップ内のピクセルに対応する特徴ベクトルと前記前のフレームのターゲットオブジェクト特徴マップ内のピクセルに対応する特徴ベクトルとのユークリッド距離を算出し、前記ユークリッド距離を前記前のフレーム相関行列の要素の値として、前記前のフレーム相関行列を生成する。
ステップ502では、前記前のフレーム相関行列を正規化して、第2の前のフレーム相関行列を生成する。
後続のオブジェクトセグメンテーションの誤差を減らすために、前記前のフレーム相関行列を正規化し、前記正規化にはさまざまな方法があり、可能な一実施形態では、softmax関数を使用して前記正規化処理を実行する。正規化処理後、前記第2の前のフレーム相関行列を生成し、前記第2の前のフレーム相関行列のいずれかの行で、すべての要素を加算した結果は1になる。
ステップ503では、第2の前のフレーム相関行列の各行の参照値を生成し、前記参照値に基づいて前記第2の相関行列を生成し、前記参照値は同じ行内の他の値よりも大きい。
相関性の低いピクセルを除去するために、本開示は、前記第2の前のフレーム相関行列の各行における最大値を有する要素のみを保持し、前記最大値を有する要素の値が前記参照値である。可能な一実施形態では、前記第2の前のフレーム相関行列は(h×w,N)の行列であり、前記参照値を保持した後、(h×w,1)の行列を生成し、次いで整形を実行し、(h,w)の第2の相関行列を取得することができる。
図6は、本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。図6に示すように、前記オブジェクトセグメンテーション方法は、ステップ601~ステップ602を含む。
ステップ601では、前記第1の相関行列に前記参照フレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第1の相関特徴マップを生成する。
前記参照フレームのターゲットオブジェクト特徴マップ内の特徴を強化するために、本開示は、前記第1の相関行列に前記参照フレームのターゲットオブジェクト特徴マップ内のピクセルをポイントツーポイントで乗算することにより、前記第1の相関特徴マップを取得する。前記第1の相関行列は、前記参照フレームのターゲットオブジェクト特徴マップと同じサイズである。
ステップ602では、前記第2の相関行列に前記前のフレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第2の相関特徴マップを生成する。
前記参照フレームのターゲットオブジェクト特徴マップ内の特徴を強化するために、本開示は、前記第2の相関行列に前記前のフレームのターゲットオブジェクト特徴マップ内のピクセルをポイントツーポイントで乗算することにより、前記第2の相関特徴マップを取得する。前記第2の相関行列は、前記前のフレームのターゲットオブジェクト特徴マップと同じサイズである。
図7は、本開示の実施例に係るオブジェクトセグメンテーション方法の概略フローチャートである。図7に示すように、前記オブジェクトセグメンテーション方法は、ステップ701~ステップ702を含む。
ステップ701では、前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成する。
同様に、前記ターゲットオブジェクトの特徴を強化するために、本開示は、前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップ内の特徴を融合して、融合特徴マップを生成する。前記融合方法は多様であり、可能な一実施形態では、前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップの連結concatを実行し、各ピクセルのチャネルの数を増加させて、前記融合特徴マップを生成する。
ステップ702では、前記融合特徴マップを復号化ネットワークに入力して、現在のフレームのオブジェクトセグメンテーション画像を生成する。
前記復号化ネットワークを使用して前記融合特徴マップをアップサンプリングして特徴を復元し、前記オブジェクトセグメンテーション画像によって、ターゲットオブジェクトに属するピクセルを取得することができる。
選択可能に、前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するステップは、
前記第1の相関特徴マップ、前記第2の相関特徴マップ、および前記識別対象フレームの特徴マップを連結することにより、前記融合特徴マップを生成するステップを含む。
前記連結concatは、画像の次元を増加させ、特徴を融合することにより、後続のオブジェクトセグメンテーションを容易にすることができる。
図8は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。図8に示すように、前記オブジェクトセグメンテーション装置800は、以下のモジュールを含む。
ビデオフレーム生成モジュール810は、識別対象ビデオから識別対象フレーム、前記識別対象フレームの前のフレーム、および参照フレームを生成するようにされ、前記参照フレームは、前記識別対象ビデオの第1のフレームである。
本開示は、スマートシティおよびスマートトラフィックのシナリオで使用することができ、スマートシティは、情報および通信技術手段を使用して、都市の運用コアシステムの各重要な情報を知覚、分析、および統合する。スマートシティの構築には、モバイルテクノロジーを代表とするモノのインターネットやクラウドコンピューティングなどの次世代の情報技術のアプリケーションを通じて、包括的な知覚、ユビキタス相互接続、ユビキタスコンピューティング、融合応用を実現する必要がある。スマートシティの重要な知覚情報は、防犯カメラによって取得されたビデオ情報である。
本実施例では、前記ビデオ情報をさらにマイニングすることができ、まず、カメラによって識別対象ビデオが収集され、フレームの1つが識別対象フレームとして選択される。本開示は、履歴フレーム、すなわち、前記識別対象フレームの前のフレームおよび参照フレームを利用して、前記識別対象フレーム内のターゲットオブジェクトの特徴を強化し、前記前のフレームは、前記識別対象フレームに隣接する前のフレームであり、前記参照フレームは、前記識別対象ビデオの第1のフレームである。
特徴抽出モジュール820は、前記識別対象フレーム、前記前のフレーム、および前記参照フレームを符号化ネットワークに入力して、識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成するように構成される。
前記符号化ネットワークはニューラルネットワークのエンコーダであり、前記符号化ネットワークは、前記識別対象フレーム、識別対象フレーム、および前記参照フレームをダウンサンプリングして、前記識別対象フレーム、前記前のフレーム、および参照フレームの高次元の特徴を抽出するように構成される。即ち、前記識別対象フレームの特徴マップを生成する。
同時に、後続で相関行列を取得するために、本開示では、前記前のフレームに対応する対象物ターゲットオブジェクトマスクおよび前記参照フレームに対応するターゲットオブジェクトマスクを使用して、前記参照フレームのターゲットオブジェクト特徴マップおよび前のフレームのターゲットオブジェクト特徴マップを取得する。
相関行列生成モジュール830は、前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関行列および第2の相関行列を生成するように構成される。
相関行列は、相関性行列(correlation matrix)とも呼ばれ、パラダイムであり、行列の各要素は、特徴マップ(feature map)のローカル特徴ベクトルと、別の特徴マップのローカル特徴ベクトルの間の相関性を特徴づけるために使用され、通常は2つのローカル特徴ベクトルのドット積で表される。サイズがH*W*dである2つの特徴マップの相関行列のサイズは(H*W)*(H*W)であり、ここで、Hは高さ、Wは幅、dはチャネルの数である。相関性は、特徴の一致度を判断するための根拠であり、特徴は、さまざまなタスクに応じてさまざまな表現を持ち、通常、形状、色、およびテクスチャに基づく意味的特徴である。
本開示は、前記相関行列を使用して、前記参照フレームのターゲットオブジェクト特徴マップ内のピクセルおよび前記前のフレームのターゲットオブジェクト特徴マップ内のピクセルと、前記識別対象フレームの特徴マップ内のピクセルとの相関度を特徴付け、前記識別対象フレームの特徴マップ内のピクセルに対応する特徴ベクトルと、前記参照フレームのターゲットオブジェクト特徴マップ内のピクセルに対応する特徴ベクトルおよび前記前のフレームのターゲットオブジェクト特徴マップ内のピクセルに対応する特徴ベクトルとの相関性が強いほど、前記識別対象フレームの特徴マップ内のピクセルが前記ターゲットオブジェクトのピクセルである可能性が高いことを表す。
特徴マップ生成モジュール840は、前記第1の相関行列、第2の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関特徴マップおよび第2の相関特徴マップを生成するように構成される。
前記第1の相関行列、第2の相関行列、および前記識別対象フレームの特徴マップに基づいて、前記識別対象フレームのオブジェクト特徴マップを生成することができ、前記相関行列に基づいて、前記識別対象フレームの特徴マップの特徴を強化して、前記ターゲットオブジェクトの検出精度を向上させることができる。
オブジェクトセグメンテーションモジュール850は、前記第1の相関特徴マップ、前記第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成するように構成される。
前記第1の相関特徴マップの分布および前記第2の相関特徴マップの分布に、前記識別対象フレームの特徴マップ内のピクセルをそれぞれポイントツーポイントで乗算することにより、第1の相関特徴マップおよび第2の相関特徴マップを生成する。その後、前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップの連結concatを実行し、ターゲットオブジェクトに関連するピクセルの特徴を強化して、融合特徴マップを生成する。
前記融合特徴マップをデコーダに入力して、前記オブジェクトセグメンテーション画像を取得することができ、前記デコーダは、アップサンプリングに使用され、前記オブジェクトセグメンテーション画像を、前記識別対象フレームのサイズに復元する。前記識別対象フレーム内のターゲットオブジェクトに属するピクセルを取得する。
図9は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。図9に示すように、前記オブジェクトセグメンテーション装置900は、特徴抽出サブモジュール910、第1のマスクサブモジュール920、および第2のマスクサブモジュール930を含む。
特徴抽出サブモジュール910は、前記識別対象フレームの特徴、前記前のフレームの特徴、および前記参照フレームの特徴を抽出して、前記識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成するように構成される。
本開示は、ニューラルネットワークを使用して、前記識別対象フレーム、前記前のフレーム、および前記参照フレームの特徴を抽出し、前記特徴を抽出するための方法は、公知で多様であるため、本開示の保護内容としない。
可能な一実施形態では、ランダムダウンサンプリングの方法によって、特徴を抽出して、前記識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成する。
第1のマスクサブモジュール920は、前記参照フレームの特徴マップと前記参照フレームのターゲットオブジェクトマスクとに基づいて、参照フレームのターゲットオブジェクト特徴マップを生成するように構成される。
前記参照フレームのターゲットオブジェクトマスクは、前記オブジェクトセグメンテーション方法によって取得されており、前記参照フレームのターゲットオブジェクトマスクに前記参照フレームの特徴マップのピクセルをポイントツーポイントで乗算することにより、前記参照フレームのターゲットオブジェクト特徴マップを生成することができる。後続で前記第1の相関行列を取得するために、このステップでは、ターゲットオブジェクトのみを含む参照フレームのターゲットオブジェクト特徴マップを取得することができる。
第2のマスクサブモジュール930は、前記前のフレームの特徴マップと前記前のフレームのターゲットオブジェクトマスクとに基づいて、前記前のフレームのターゲットオブジェクト特徴マップを生成するように構成される。
前記前のフレームのターゲットオブジェクトマスクは、前記オブジェクトセグメンテーション方法によって取得され、前記前のフレームのターゲットオブジェクトマスクに前記参照フレームの特徴マップのピクセルをポイントツーポイントで乗算することにより、前記前のフレームのターゲットオブジェクト特徴マップを生成することができる。後続で前記第2の相関行列を取得するために、このステップでは、ターゲットオブジェクトのみを含む前のフレームのターゲットオブジェクト特徴マップを取得することができる。
図10は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。図10に示すように、前記オブジェクトセグメンテーション装置1000は、第1の相関行列生成サブモジュール1010および第2の相関行列生成サブモジュール1020を含む。
第1の相関行列生成サブモジュール1010は、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第1の相関行列を生成するように構成される。
本開示は、後続で特徴を抽出するために、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記識別対象フレームの特徴マップ内のピクセルと前記参照フレームのターゲットオブジェクト特徴マップ内のターゲットオブジェクトに属するピクセルとの相関性を特徴づける前記第1の相関行列を生成することができる。
第2の相関行列生成サブモジュール1020は、前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第2の相関行列を生成するように構成される。
同時に、後続で特徴を抽出するために、本開示では、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記識別対象フレームの特徴マップ内のピクセルと前記前のフレームのターゲットオブジェクト特徴マップ内のターゲットオブジェクトに属するピクセルとの相関性を特徴づける前記第2の相関行列を生成することができる。
図11は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。図11に示すように、前記オブジェクトセグメンテーション装置1100は、参照相関行列生成ユニット1110、第2の参照相関行列生成ユニット1120、および第1の相関行列生成ユニット1130を含む。
参照相関行列生成ユニット1110は、前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、参照相関行列を生成するように構成される。
まず、識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて参照相関行列を生成し、前記相関行列の生成方法は多様である。可能な一実施形態では、前記識別対象フレームの特徴マップ内のピクセルに対応する特徴ベクトルと前記参照フレームのターゲットオブジェクト特徴マップ内のピクセルに対応する特徴ベクトルとの間のユークリッド距離を算出し、前記ユークリッド距離を前記参照相関行列の要素の値として、前記参照相関行列を生成する。
第2の参照相関行列生成ユニット1120は、前記参照相関行列を正規化して、第2の参照相関行列を生成するように構成される。
後続のオブジェクトセグメンテーションの誤差を減らすために、前記参照相関行列を正規化し、前記正規化にはさまざまな方法があり、可能な一実施形態では、softmax関数を使用して前記正規化処理を実行する。正規化処理後、第2の参照相関行列を生成し、前記第2の参照相関行列のいずれかの行で、すべての要素を加算した結果は1になる。
第1の相関行列生成ユニット1130は、第2の参照相関行列の各行の参照値を生成し、前記参照値に基づいて前記第1の相関行列を生成するように構成され、前記参照値は同じ行内の他の値よりも大きい。
相関性の低いピクセルを除去するために、本開示は、前記第2の参照相関行列の各行における最大値を有する要素のみを保持し、前記最大値を有する要素の値が前記参照値である。可能な一実施形態では、前記第2の参照フレームの相関行列は(h×w,N)の行列であり、前記参照値を保持した後、(h×w,1)の行列を生成し、次いで整形を実行し、(h,w)の第1の相関行列を取得することができる。
図12は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。図12に示すように、前記オブジェクトセグメンテーション装置1200は、前のフレーム相関行列生成ユニット1210、第2の前のフレーム相関行列生成ユニット1220、および第2の相関行列生成ユニット1230を含む。
前のフレーム相関行列生成ユニット1210は、前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成するように構成される。
まず、識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成し、前記相関行列を生成するための方法は多様である。可能な一実施形態では、前記識別対象フレームの特徴マップ内のピクセルに対応する特徴ベクトルと前記前のフレームのターゲットオブジェクト特徴マップ内のピクセルに対応する特徴ベクトルとの間のユークリッド距離を算出し、前記ユークリッド距離を前記前のフレーム相関行列の要素の値として、前記前のフレーム相関行列を生成する。
第2の前のフレーム相関行列生成ユニット1220は、前記前のフレーム相関行列を正規化して、第2の前のフレーム相関行列を生成するように構成される。
後続のオブジェクトセグメンテーションの誤差を減らすために、前記前のフレーム相関行列を正規化し、前記正規化にはさまざまな方法がある。可能な一実施形態では、softmax関数を使用して前記正規化処理を実行する。正規化処理後、前記第2の前のフレーム相関行列を生成し、前記第2の前のフレーム相関行列のいずれかの行で、すべての要素を加算した結果は1になる。
第2の相関行列生成ユニット1230は、第2の前のフレーム相関行列の各行の参照値を生成し、前記参照値に基づいて前記第2の相関行列を生成するように構成され、前記参照値は同じ行内の他の値よりも大きい。
相関性の低いピクセルを除去するために、本開示は、前記第2の前のフレーム相関行列の各行における最大値を有する要素のみを保持し、前記最大値を有する要素の値が前記参照値である。可能な一実施形態では、前記第2の前のフレーム相関行列は(h×w,N)の行列であり、前記参照値を保持した後、(h×w,1)の行列を生成し、次いで整形を実行し、(h,w)の第2の相関行列を取得することができる。
図13は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。図13に示すように、前記オブジェクトセグメンテーション装置1300は、第1の相関特徴マップ生成サブモジュール1310および第2の相関特徴マップ生成サブモジュール1320を含む。
第1の相関特徴マップ生成サブモジュール1310は、前記第1の相関行列に前記参照フレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第1の相関特徴マップを生成するように構成される。
前記参照フレームのターゲットオブジェクト特徴マップ内の特徴を強化するために、本開示は、前記第1の相関行列に前記参照フレームのターゲットオブジェクト特徴マップ内のピクセルをポイントツーポイントで乗算することにより、前記第1の相関特徴マップを取得する。前記第1の相関行列は、前記参照フレームのターゲットオブジェクト特徴マップと同じサイズである。
第2の相関特徴マップ生成サブモジュール1320は、前記第2の相関行列に前記前のフレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第2の相関特徴マップを生成するように構成される。
前記参照フレームのターゲットオブジェクト特徴マップ内の特徴を強化するために、本開示は、前記第2の相関行列に前記前のフレームのターゲットオブジェクト特徴マップ内のピクセルをポイントツーポイントで乗算することにより、前記第2の相関特徴マップを取得する。前記第2の相関行列は、前記前のフレームのターゲットオブジェクト特徴マップと同じサイズである。
図14は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図である。図14に示すように、前記オブジェクトセグメンテーション装置1400は、特徴融合サブモジュール1410および復号化サブモジュール1420を含む。
特徴融合サブモジュール1410は、前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するように構成される。
同様に、前記ターゲットオブジェクトの特徴を強化するために、本開示は、前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップ内の特徴を融合して、融合特徴マップを生成する。前記融合方法は多様であり、可能な一実施形態では、前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップの連結concatを実行し、各ピクセルのチャネルの数を増加させて、前記融合特徴マップを生成する。
復号化サブモジュール1420は、前記融合特徴マップを復号化ネットワークに入力して、現在のフレームのオブジェクトセグメンテーション画像を生成するように構成される。
前記復号化ネットワークを使用し、前記融合特徴マップをアップサンプリングして特徴を復元し、前記オブジェクトセグメンテーション画像によって、ターゲットオブジェクトに属するピクセルを取得することができる。
選択可能に、前記特徴融合サブモジュールは、
前記第1の相関特徴マップ、前記第2の相関特徴マップ、および前記識別対象フレームの特徴マップを連結することにより、前記融合特徴マップを生成するように構成される特徴融合ユニットを含む。
前記連結concatは、画像の次元を増加させて特徴を融合することにより、後続のオブジェクトセグメンテーションを容易にすることができる。
図16は、本開示の実施例に係るオブジェクトセグメンテーション装置の概略構成図であり、図16に示すように、第1のフレームref_im、前のフレームpre_im、および現在のフレームcur_imの3つのフレームの画像をネットワークに入力して、特徴抽出ネットワークを介して、前記第1のフレームのベクトルマップ、前記前のフレームのベクトルマップ、および前記現在のフレームのベクトルマップをそれぞれ取得し、ref_emb、pre_emb、およびcur_embで表し、それらのサイズはすべて(c,h,w)であり、cはチャネルの数、hは高さ、wは幅である。
その後、第1のフレームのターゲットオブジェクトマスクref_mと前のフレームのターゲットオブジェクトマスクpre_mとに基づいて、第1のフレームのベクトルマップおよび前のフレームのベクトルマップから、ターゲットオブジェクトに対応するピクセル位置のベクトルマップref_e、pre_eを抽出する。
第1のフレームおよび前のフレームに対する現在のフレームベクトルマップの相関性行列をそれぞれ算出し、softmaxによって、第1のフレームの各ピクセル位置に対する現在のフレームの各ピクセル位置の正規化された相関性表現と、前のフレームの各ピクセル位置に対する現在のフレームの各ピクセル位置の正規化された相関性表現とを算出する。正規化された相関行列の各行の最大値を取得し、1×(c×h)の行列を作成し、1×(c×h)の行列をc×h行列、つまりcur_refおよびcur_preに復元する。
前記cur_refおよびcur_preに基づいて、第1のフレームおよび前のフレームのベクトルマップを更新して(即ち連結concatして)、ref_e1およびpre_e1を得る。
最後に、前記ref_e1、pre_e1をcur_embと連結concatして、前記復号化ネットワークに入力して、オブジェクトセグメンテーション画像を取得し、前記オブジェクトセグメンテーション画像に基づいて、前記ターゲットオブジェクトに属するピクセルを取得することができる。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。
図15は、本開示の実施例を実施するための例示的な電子機器1500の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目のとする。電子機器は、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/または求められる本願の実現を限定することを意図しない。
図15に示すように、電子機器1500は、リードオンリーメモリ(ROM)1502に記憶されたコンピュータプログラム、または記憶ユニット1508からランダムアクセスメモリ(RAM)1503にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行できる計算ユニット1501を含む。RAM1503には、電子機器1500の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット1501と、ROM1502と、RAM1503とは、バス1504を介して互いに接続されている。入力/出力(I/O)インタフェース1505もバス1504に接続されている。
電子機器1500における複数のコンポーネントは、I/Oインタフェース1505に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット1506と、種々なディスプレイやスピーカなどの出力ユニット1507と、磁気ディスクや光学ディスクなどの記憶ユニット1508と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット1509と、を備える。通信ユニット1509は、電子機器1500がインターネットのようなコンピュータネット及び/または種々なキャリアネットワークを介して他の機器と情報 /データを交換することを可能にする。
計算ユニット1501は、処理及び計算能力を有する様々な汎用及び/または専用の処理コンポーネントであってもよい。計算ユニット1501のいくつかの例としては、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタ信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット1501は、上記で説明された各方法及び処理、例えば前記オブジェクトセグメンテーション方法を実行する。例えば、いくつかの実施形態では、前記オブジェクトセグメンテーション方法を、記憶ユニット1508のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現されてもよい。一部の実施形態では、コンピュータプログラムの一部または全ては、ROM2802及び/または通信ユニット2809を介して、電子機器2800にロード及び/またはインストールされてもよい。コンピュータプログラムがRAM2803にロードされて計算ユニット2801によって実行される場合に、前述したオブジェクトセグメンテーション方法の一つまたは複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット1501は、他の任意の適当な方式(例えば、ファームウェア)によりオブジェクトセグメンテーション方法を実行するように構成されてもよい。
ここで記載されているシステムまたは技術の各種の実施形態は、デジタル電サブ回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/またはこれらの組み合わせによって実現することができる。これらの各実施形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにて実行及び/または解釈される1つまたは複数のコンピュータプログラムにより実行することを含み得、当該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、当該少なくとも1つの入力デバイス、及び当該少なくとも1つの出力デバイスに転送することができる専用または汎用のプログラマブルプロセッサであってもよい。
本開示の方法を実施するためのプログラムコードは、1または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードは、プロセッサ又はコントローラによって実行されるとされた際に、フローチャート及び/またはブロック図で規定された機能?動作が実施されるように、汎用コンピュータや専用コンピュータまたは他のプログラム可能な人間の画像復元装置のプロセッサやコントローラに提供されてもよい。プログラムコードは、機械上で完全に実行されるか、機械上で部分的に実行されるか、独立したソフトウェアパッケージとして機械上で部分的に実行されるとともにリモートマシン上で部分的に実行されるか、またはリモートマシンまたはサーバ上で完全に実行されてもよい。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置またはデバイスによって使用されるために、または命令実行システム、装置またはデバイスと組み合わせて使用されるためのプログラムを含むか、または記憶することができる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体であってもよいし、機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体としては、電子の、磁気の、光学の、電磁の、赤外線の、半導体システム、装置、デバイス、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例としては、1または複数のラインに基づく電気の接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラム可能なリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータで実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線チューブ)またはLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供するために用いられることができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、またはミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェースまたは当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、またはこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。ここで、サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系のうちのホスト製品であり、現有のオブジェクト理ホストとVPSサービス(Virtual Private Server、また、「VPS」と略記する)では、管理が難しく、業務拡張性が弱いという欠点を解決している。サーバは、分散システムのサーバサーバ、またはブロックチェーンを結合したサーバであってもよい。
なお、上記のした様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本開示に記載された各ステップは、本願に開示された技術案の所望の結果が達成できる限り、並列に実行されてもよいし、順番に実行されてもよいし、異なる順序で実行されてもよい。本明細書は制限されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組合、及び代替を行うことができることは理解される。本願の精神及び原理内で行われたあらゆる修正、同などの置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (19)

  1. 識別対象ビデオから識別対象フレーム、前記識別対象フレームの前のフレーム、および参照フレームを生成するステップであって、前記参照フレームは、前記識別対象ビデオの第1のフレームであるステップと、
    前記識別対象フレーム、前記前のフレーム、および前記参照フレームを符号化ネットワークに入力して、識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成するステップと、
    前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関行列および第2の相関行列を生成するステップと、
    前記第1の相関行列、第2の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関特徴マップおよび第2の相関特徴マップを生成するステップと、
    前記第1の相関特徴マップ、前記第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成するステップと、を含む、
    ことを特徴とするオブジェクトセグメンテーション方法。
  2. 前記識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成するステップは、
    前記識別対象フレームの特徴、前記前のフレームの特徴、および前記参照フレームの特徴を抽出して、前記識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成するステップと、
    前記参照フレームの特徴マップと前記参照フレームのターゲットオブジェクトマスクとに基づいて、参照フレームのターゲットオブジェクト特徴マップを生成するステップと、
    前記前のフレームの特徴マップと前記前のフレームのターゲットオブジェクトマスクとに基づいて、前記前のフレームのターゲットオブジェクト特徴マップを生成するステップと、を含む、ことを特徴とする請求項1に記載の方法。
  3. 前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関行列および第2の相関行列を生成するステップは、
    前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第1の相関行列を生成するステップと、
    前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第2の相関行列を生成するステップと、を含む、ことを特徴とする請求項1に記載の方法。
  4. 前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第1の相関行列を生成するステップは、
    前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、参照相関行列を生成するステップと、
    前記参照相関行列を正規化して、第2の参照相関行列を生成するステップと、
    第2の参照相関行列の各行の参照値を生成し、前記参照値に基づいて前記第1の相関行列を生成するステップであって、前記参照値は同じ行内の他の値よりも大きいステップと、を含む、ことを特徴とする請求項3に記載の方法。
  5. 前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第2の相関行列を生成するステップは、
    前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成するステップと、
    前記前のフレーム相関行列を正規化して、第2の前のフレーム相関行列を生成するステップと、
    第2の前のフレーム相関行列の各行の参照値を生成し、前記参照値に基づいて前記第2の相関行列を生成するステップであって、前記参照値は同じ行内の他の値よりも大きいステップと、を含む、ことを特徴とする請求項3に記載の方法。
  6. 前記第1の相関行列、第2の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関特徴マップおよび第2の相関特徴マップを生成するステップは、
    前記第1の相関行列に前記参照フレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第1の相関特徴マップを生成するステップと、
    前記第2の相関行列に前記前のフレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第2の相関特徴マップを生成するステップと、を含む、ことを特徴とする請求項1に記載の方法。
  7. 前記第1の相関特徴マップ、前記第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成するステップは、
    前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するステップと、
    前記融合特徴マップを復号化ネットワークに入力して、現在のフレームのオブジェクトセグメンテーション画像を生成するステップと、を含む、ことを特徴とする請求項1に記載の方法。
  8. 前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するステップは、
    前記第1の相関特徴マップ、前記第2の相関特徴マップ、および前記識別対象フレームの特徴マップを連結することにより、前記融合特徴マップを生成するステップを含む、ことを特徴とする請求項7に記載の方法。
  9. 識別対象ビデオから識別対象フレーム、前記識別対象フレームの前のフレーム、および参照フレームを生成するように構成されるビデオフレーム生成モジュールであって、前記参照フレームは、前記識別対象ビデオの第1のフレームであるビデオフレーム生成モジュールと、
    前記識別対象フレーム、前記前のフレーム、および前記参照フレームを符号化ネットワークに入力して、識別対象フレームの特徴マップ、参照フレームのターゲットオブジェクト特徴マップ、および前のフレームのターゲットオブジェクト特徴マップを生成するように構成される特徴抽出モジュールと、
    前記識別対象フレームの特徴マップ、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関行列および第2の相関行列を生成するように構成される相関行列生成モジュールと、
    前記第1の相関行列、第2の相関行列、前記参照フレームのターゲットオブジェクト特徴マップ、および前記前のフレームのターゲットオブジェクト特徴マップに基づいて、第1の相関特徴マップおよび第2の相関特徴マップを生成するように構成される特徴マップ生成モジュールと、
    前記第1の相関特徴マップ、前記第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、現在のフレームのオブジェクトセグメンテーション画像を生成するように構成されるオブジェクトセグメンテーションモジュールと、を含む、ことを特徴とするオブジェクトセグメンテーション装置。
  10. 前記特徴抽出モジュールは、
    前記識別対象フレームの特徴、前記前のフレームの特徴、および前記参照フレームの特徴を抽出して、前記識別対象フレームの特徴マップ、前のフレームの特徴マップ、および参照フレームの特徴マップを生成するように構成される特徴抽出サブモジュールと、
    前記参照フレームの特徴マップと前記参照フレームのターゲットオブジェクトマスクとに基づいて、参照フレームのターゲットオブジェクト特徴マップを生成するように構成される第1のマスクサブモジュールと、
    前記前のフレームの特徴マップと前記前のフレームのターゲットオブジェクトマスクとに基づいて、前記前のフレームのターゲットオブジェクト特徴マップを生成するように構成される第2のマスクサブモジュールと、を含む、ことを特徴とする請求項9に記載の装置。
  11. 前記相関行列生成モジュールは、
    前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、前記第1の相関行列を生成するように構成される第1の相関行列生成サブモジュールと、
    前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前記第2の相関行列を生成するように構成される第2の相関行列生成サブモジュールと、を含む、ことを特徴とする請求項9に記載の装置。
  12. 前記第1の相関行列生成サブモジュールは、
    前記識別対象フレームの特徴マップと前記参照フレームのターゲットオブジェクト特徴マップとに基づいて、参照相関行列を生成するように構成される参照相関行列生成ユニットと、
    前記参照相関行列を正規化して、第2の参照相関行列を生成するように構成される第2の参照相関行列生成ユニットと、
    第2の参照相関行列の各行の参照値を生成し、前記参照値に基づいて前記第1の相関行列を生成するように構成される第1の相関行列生成ユニットであって、前記参照値は同じ行内の他の値よりも大きい第1の相関行列生成ユニットと、を含む、ことを特徴とする請求項11に記載の装置。
  13. 前記第2の相関行列生成サブモジュールは、
    前記識別対象フレームの特徴マップと前記前のフレームのターゲットオブジェクト特徴マップとに基づいて、前のフレーム相関行列を生成するように構成される前のフレーム相関行列生成ユニットと、
    前記前のフレーム相関行列を正規化して、第2の前のフレーム相関行列を生成するように構成される第2の前のフレーム相関行列生成ユニットと、
    第2の前のフレーム相関行列の各行の参照値を生成し、前記参照値に基づいて前記第2の相関行列を生成するように構成される第2の相関行列生成ユニットであって、前記参照値は同じ行内の他の値よりも大きい第2の相関行列生成ユニットと、を含む、ことを特徴とする請求項11に記載の装置。
  14. 前記特徴マップ生成モジュールは、
    前記第1の相関行列に前記参照フレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第1の相関特徴マップを生成するように構成される第1の相関特徴マップ生成サブモジュールと、
    前記第2の相関行列に前記前のフレームのターゲットオブジェクト特徴マップをポイントツーポイントで乗算して、前記第2の相関特徴マップを生成するように構成される第2の相関特徴マップ生成サブモジュールと、を含む、ことを特徴とする請求項9に記載の装置。
  15. 前記オブジェクトセグメンテーションモジュールは、
    前記第1の相関特徴マップ、第2の相関特徴マップ、および前記識別対象フレームの特徴マップに基づいて、融合特徴マップを生成するように構成される特徴融合サブモジュールと、
    前記融合特徴マップを復号化ネットワークに入力して、現在のフレームのオブジェクトセグメンテーション画像を生成するように構成される復号化サブモジュールと、を含む、ことを特徴とする請求項9に記載の装置。
  16. 前記特徴融合サブモジュールは、
    前記第1の相関特徴マップ、前記第2の相関特徴マップ、および前記識別対象フレームの特徴マップを連結することにより、前記融合特徴マップを生成するように構成される特徴融合ユニットを含む、ことを特徴とする請求項15に記載の装置。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1~8のいずれかに記載の方法を実行できる、ことを特徴とする電子機器。
  18. コンピュータに請求項1~8のいずれかに記載の方法を実行させるためのコンピュータ命令を記憶した、ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  19. プロセッサによって実行される場合、請求項1~8のいずれかに記載の方法を実現する、ことを特徴とするコンピュータプログラム。
JP2022581655A 2021-06-30 2021-12-08 オブジェクトセグメンテーション方法、オブジェクトセグメンテーション装置及び電子機器 Active JP7372487B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110736166.X 2021-06-30
CN202110736166.XA CN113570606B (zh) 2021-06-30 2021-06-30 目标分割的方法、装置及电子设备
PCT/CN2021/136548 WO2023273173A1 (zh) 2021-06-30 2021-12-08 目标分割的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
JP2023535672A JP2023535672A (ja) 2023-08-21
JP7372487B2 true JP7372487B2 (ja) 2023-10-31

Family

ID=83447698

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022581655A Active JP7372487B2 (ja) 2021-06-30 2021-12-08 オブジェクトセグメンテーション方法、オブジェクトセグメンテーション装置及び電子機器

Country Status (2)

Country Link
JP (1) JP7372487B2 (ja)
KR (1) KR20220129093A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685805A (zh) 2019-01-09 2019-04-26 银河水滴科技(北京)有限公司 一种图像分割方法及装置
DE102018220274A1 (de) 2018-11-26 2020-05-28 Osram Gmbh Verfahren zum gemeinsamen Detektieren, Verfolgen und Klassifizieren von Objekten
CN111462175A (zh) 2020-03-11 2020-07-28 华南理工大学 时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备
CN112116630A (zh) 2020-08-19 2020-12-22 上海闪马智能科技有限公司 目标跟踪的方法
CN112950640A (zh) 2021-02-23 2021-06-11 Oppo广东移动通信有限公司 视频人像分割方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018220274A1 (de) 2018-11-26 2020-05-28 Osram Gmbh Verfahren zum gemeinsamen Detektieren, Verfolgen und Klassifizieren von Objekten
CN109685805A (zh) 2019-01-09 2019-04-26 银河水滴科技(北京)有限公司 一种图像分割方法及装置
CN111462175A (zh) 2020-03-11 2020-07-28 华南理工大学 时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备
CN112116630A (zh) 2020-08-19 2020-12-22 上海闪马智能科技有限公司 目标跟踪的方法
CN112950640A (zh) 2021-02-23 2021-06-11 Oppo广东移动通信有限公司 视频人像分割方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ziqin WANG et al.,"RANet: Ranking Attention Network for Fast Video Object Segmentation",2019 IEEE/CVF International Conference on Computer Vision (ICCV),IEEE,2019年10月,pp.3977-3986

Also Published As

Publication number Publication date
JP2023535672A (ja) 2023-08-21
KR20220129093A (ko) 2022-09-22

Similar Documents

Publication Publication Date Title
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
WO2023273173A1 (zh) 目标分割的方法、装置及电子设备
US20220351390A1 (en) Method for generating motion capture data, electronic device and storage medium
JP7425147B2 (ja) 画像処理方法、テキスト認識方法及び装置
CN113570610B (zh) 采用语义分割模型对视频进行目标分割的方法、装置
EP3876197A2 (en) Portrait extracting method and apparatus, electronic device and storage medium
CN113901909B (zh) 基于视频的目标检测方法、装置、电子设备和存储介质
US20220189083A1 (en) Training method for character generation model, character generation method, apparatus, and medium
CN112862877A (zh) 用于训练图像处理网络和图像处理的方法和装置
JP2022122989A (ja) 画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム
CN113591566A (zh) 图像识别模型的训练方法、装置、电子设备和存储介质
JP2023525462A (ja) 特徴を抽出するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN113326773A (zh) 识别模型训练方法、识别方法、装置、设备及存储介质
JP7282474B2 (ja) 暗号化マスク確定方法、暗号化マスク確定装置、電子機器、記憶媒体およびコンピュータプログラム
JP2023543964A (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体およびコンピュータプログラム
CN114022887B (zh) 文本识别模型训练及文本识别方法、装置、电子设备
CN112991274A (zh) 一种人群计数方法、装置、计算机设备及存储介质
EP4123605A2 (en) Method of transferring image, and method and apparatus of training image transfer model
JP7372487B2 (ja) オブジェクトセグメンテーション方法、オブジェクトセグメンテーション装置及び電子機器
JP7403673B2 (ja) モデルトレーニング方法、歩行者再識別方法、装置および電子機器
CN114943995A (zh) 人脸识别模型的训练方法、人脸识别方法及装置
CN114093006A (zh) 活体人脸检测模型的训练方法、装置、设备以及存储介质
CN114842066A (zh) 图像深度识别模型训练方法、图像深度识别方法及装置
CN113610856A (zh) 训练图像分割模型和图像分割的方法和装置
CN112990046A (zh) 差异信息获取方法、相关装置及计算机程序产品

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231019

R150 Certificate of patent or registration of utility model

Ref document number: 7372487

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150