JP2024503344A - 画像または映像内のオブジェクト識別 - Google Patents

画像または映像内のオブジェクト識別 Download PDF

Info

Publication number
JP2024503344A
JP2024503344A JP2023540525A JP2023540525A JP2024503344A JP 2024503344 A JP2024503344 A JP 2024503344A JP 2023540525 A JP2023540525 A JP 2023540525A JP 2023540525 A JP2023540525 A JP 2023540525A JP 2024503344 A JP2024503344 A JP 2024503344A
Authority
JP
Japan
Prior art keywords
group
raw data
fragments
map
post
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023540525A
Other languages
English (en)
Inventor
ルイス ハーバー,
マイバン, バハレ バファンデ
コリン ジョゼフ ブラウン,
ジェフリー レイニー,
Original Assignee
ヒンジ ヘルス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヒンジ ヘルス, インコーポレイテッド filed Critical ヒンジ ヘルス, インコーポレイテッド
Publication of JP2024503344A publication Critical patent/JP2024503344A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/30ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to physical therapies or activities, e.g. physiotherapy, acupressure or exercising

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

装置が、提供される。本装置は、外部ソースから未加工データを受信するための通信インターフェースを含む。未加工データは、第1のオブジェクトおよび第2のオブジェクトの表現を含む。本装置はさらに、未加工データを記憶させるためのメモリ記憶ユニットを含む。加えて、本装置は、未加工データを受信するためのニューラルネットワークエンジンも含む。ニューラルネットワークエンジンは、セグメント化マップおよび境界マップを生成するためのものである。本装置はまた、セグメント化マップおよび境界マップに基づいて、第1のオブジェクトおよび第2のオブジェクトを識別するための後処理エンジンも含む。

Description

画像内のオブジェクト識別は、複数の目的のために使用され得る。例えば、オブジェクトは、他の下流アプリケーションにおける使用のために、画像内で識別され得る。特に、オブジェクトの識別は、後続の再生または分析のために、競技場上のプレーヤ等のオブジェクトを追跡し、プレーヤの運動を追従し、その運動を捕捉するために使用され得る。
画像および映像内のオブジェクトの識別は、エッジベースのセグメント化検出および他のコンピュータビジョン方法等の方法を用いて遂行され得る。そのような方法は、3次元再構成、オブジェクト中心場面理解、偵察、およびアクション認識における用途のために、画像内のオブジェクト、特に、人々を分離するために使用され得る。
ここで、単に一例として、付随の図面が、参照されるであろう。
図1は、断片のクラスタ化および再発見に基づいて、オブジェクトのインスタンスのセグメント化を生成するための例示的装置の構成要素の概略描写である。
図2は、図1の装置において受信される画像を表す、未加工データの実施例である。
図3は、図2の画像内のオブジェクトのセグメント化マップである。
図4は、図2の画像内のオブジェクトの境界マップである。
図5は、識別された断片を処理する方法の実施例のフローチャートである。
図6は、図2の画像内のオブジェクトの境界マップであり、着目領域を示す。
図7は、着目領域のマップであり、セグメント化されたオブジェクトを示す。
図8は、断片のクラスタ化および再発見に基づいて、オブジェクトのインスタンスのセグメント化を生成するための別の例示的装置の構成要素の概略描写である。
図9は、断片のクラスタ化および再発見に基づいて、オブジェクトのインスタンスのセグメント化を生成する方法の実施例のフローチャートである。
詳細な説明
本明細書で使用されるように、絶対配向を示唆する用語(例えば、「上部」、「底部」、「上方」、「下方」、「左」、「右」、「低い」、「高い」等)のいずれの使用も、例証的利便性のためであり、特定の図に示される配向を指し得る。しかしながら、そのような用語は、種々の構成要素が、実践では、説明または示されるものと同一である、またはそれと異なる配向において利用されるであろうことが想定されるため、限定的な意味で解釈されるべきではない。
画像内のオブジェクト識別は、複数の目的のために使用され得る。例えば、オブジェクトは、他の下流アプリケーションにおける使用のために、画像内で識別され得る。特に、オブジェクトの識別は、後続の再生または分析のために、競技場上のプレーヤ等のオブジェクトを追跡し、プレーヤの運動を追従し、その運動を捕捉するために使用され得る。
エッジベースのセグメント化検出および他のコンピュータビジョン方法が、画像内のオブジェクトを識別するために使用され得る。しかしながら、これらの方法は、概して、これらの方法が、断片化されたパーツから、意味のあるオブジェクトおよびインスタンスを作成することが困難であるため、断片化されたパーツが、可視であるとき、オブジェクトを識別することを十分に実施しない。故に、実世界環境内の分離された図地構成の人間のインスタンスのセグメント化の検出は、複合化されたオクルージョンパターン、変動する身体比率、および被服に起因して、困難であり得る。
複数のオブジェクトを伴う複合化された画像内で、セグメント化を予測する装置および方法が、画像内の標的オブジェクトを識別するために提供される。本装置は、ニューラルネットワークを使用し、境界マップを予測し、次いで、後処理エンジンが、エンコードされたマップを組み合わせ、インスタンスのセグメント化を提供する。本装置および方法は、著しいオクルージョン面積を伴う複合画像内で、正確なオブジェクトのインスタンスのセグメント化フレームワークを提供することができる。例えば、本装置は、入力画像上に境界マップを適用した後、人間(限定ではないが、手、脚部、胴部、頭部を含む)等のオブジェクトの関連パーツの全てを自動的にクラスタ化し得る。さらに、本装置および方法は、入力画像の特性に基づいて、動的に適応し、検出の数および品質の両方の観点において、複合場面内で、改良されたオブジェクトのインスタンスのセグメント化を提供することが可能である。
本説明では、下記に議論されるモデルおよび技法は、概して、人物に適用される。下記に説明される実施例が、動物および機械等の他のオブジェクトにも同様に適用され得ることが、本説明から利益を享受する当業者によって理解されるはずである。
図1を参照すると、断片のクラスタ化および再発見に基づいて、複合画像内で、オブジェクトのインスタンスのセグメント化を生成するための装置の概略描写が、概して、50に示される。装置50は、装置50のユーザと相互作用するためのインジケータ等の種々の付加的なインターフェースおよび/または入力/出力デバイス等の付加的な構成要素を含んでもよい。相互作用は、装置50またはその中で装置50が動作するシステムの動作ステータスを視認すること、装置50のパラメータを更新すること、または装置50をリセットすることを含み得る。本実施例では、装置50は、標準的なRGB画像等の未加工データを受信し、未加工データを処理し、人物等のオブジェクトを識別する出力を生成するためのものである。出力は、特に、限定されず、セグメント化マップまたは骨格を含んでもよい。本実施例では、装置50は、通信インターフェース55と、メモリ記憶ユニット60と、ニューラルネットワークエンジン65と、後処理エンジン70とを含む。
通信インターフェース55は、複合画像内のオブジェクトを表す未加工データを受信するために、外部ソースと通信するためのものである。通信インターフェース55によって受信される未加工データは、いくつかの事例では、複合画像を表さない場合があるが、装置50は、概して、画像内のオブジェクトのオクルージョンに起因して、典型的には、取り扱うことが困難である複合画像を取り扱うように構成されることを理解されたい。オクルージョンは、限定されず、ある場合には、画像は、多くのオブジェクトを含み、したがって、オブジェクトが、相互にオクルードし得る。他の実施例では、オブジェクトは、セグメント化または識別されることのない他の特徴を引き起こす、オクルージョンを伴い得る。
本実施例では、未加工データは、オブジェクトの2次元画像であってもよい。オブジェクトが表される様式および2次元画像の厳密なフォーマットは、特に限定されない。本実施例では、2次元画像は、RGBフォーマットにおいて受信され得る。2次元画像が、カメラによって捕捉および処理された、ラスタグラフィックファイルまたは圧縮された画像ファイル等の異なるフォーマットにおけるものであることが、本説明から利益を享受する当業者によって理解されるはずである。
通信インターフェース55が、未加工データを受信する様式は、限定されない。本実施例では、通信インターフェース55は、ネットワークを経由して、外部ソースと通信し、これは、WiFiネットワークまたはセルラーネットワーク等の多数の接続されたデバイスと共有される、パブリックネットワークであってもよい。他の実施例では、通信インターフェース55は、イントラネットまたは他のデバイスとの有線接続等のプライベートネットワークを介して、外部ソースからデータを受信してもよい。加えて、そこから通信インターフェース55が未加工データを受信する、外部ソースは、いかなるタイプのソースにも限定されない。例えば、通信インターフェース55は、Bluetooth(登録商標)接続、無線信号、または赤外線信号を介して、未加工データを捕捉する、別の近接可搬型電子デバイスに接続されてもよい。別の実施例として、通信インターフェース55は、カメラシステム、またはクラウド等の外部データソースから未加工データを受信するためのものである。通信インターフェース55を介して受信される未加工データは、概して、メモリ記憶ユニット60上に記憶される。
別の実施例では、装置50は、未加工データを捕捉するためのカメラシステム(図示せず)を含む、スマートフォン等の可搬型電子デバイスの一部であってもよい。故に、本実施例では、通信インターフェース55は、可搬型電子デバイスの装置50部分をカメラシステムと接続するために、可搬型電子デバイス内に電気的接続を含んでもよい。本電気的接続は、可搬型電子デバイス内に、種々の内部バスを含んでもよい。
さらに、通信インターフェース55は、元の画像内のオブジェクトをセグメント化するために生成され得る、セグメント化マップおよび/または複数の骨格等の結果を伝送するために使用され得る。例えば、通信インターフェース55は、装置50の一部である、または別個のデバイス上に存在し得る、アニメーションエンジン(図示せず)と通信してもよい。故に、装置50は、外部ソースから、セグメント化されることになる複合オクルージョンを伴う複数のオブジェクトを表す、未加工データを受信するように動作し得る。
メモリ記憶ユニット60は、通信インターフェース55を介して受信される、未加工データを記憶させるためのものである。特に、メモリ記憶ユニット60は、セグメント化および/または追跡されることになる複合オクルージョンを伴うオブジェクトを表す、2次元画像を含む、未加工データを記憶してもよい。本実施例では、メモリ記憶ユニット60は、映像のフレーム内に、異なるオブジェクトを表す、複数の2次元画像を記憶してもよい。故に、未加工データは、画像内の種々のオブジェクトの移動を表す、映像データであってもよい。具体的な実施例として、オブジェクトは、異なるサイズを有する人々の画像であってもよく、異なる関節を示し、身体のいくつかの部分が、身体の他の関節および部分をオクルードしている異なる姿勢にある人々を含んでもよい。例えば、画像は、通常の競技試合において動き回っている、複数のプレーヤが、捕捉される、スポーツ場面であってもよい。そのような場面では、各プレーヤが、別のプレーヤをオクルードし得ることが、当業者によって理解されるはずである。加えて、試合上の備品またはアリーナの付属設備等の他のオブジェクトがさらに、プレーヤをオクルードし得る。本実施例は、1人またはそれを上回る人間の2次元画像に関連するが、本実施例がまた、動物または機械等の異なるタイプのオブジェクトを表す画像も含み得ることを、本説明の利益とともに理解されるはずである。例えば、画像は、複数の動物が動き回っている草原場面、または複数の車がトラックの周囲を走行しているレーストラックを捕捉する画像を表してもよい。
メモリ記憶ユニット60はまた、装置50によって使用されることになる、付加的データを記憶させるために使用されてもよい。例えば、メモリ記憶ユニット60は、ニューラルネットワークエンジンによって使用されることになる、テンプレートおよびモデルデータ等の種々の参照データソースを記憶してもよい。メモリ記憶ユニット60が、複数のデータベースを維持するために使用される、物理的なコンピュータ可読媒体であり得る、または中央サーバまたはクラウドサーバ等の1つまたはそれを上回る外部サーバを横断して分散され得る、複数の媒体を含み得ることを理解されたい。
本実施例では、メモリ記憶ユニット60は、特に限定されず、任意の電子、磁気、光学、または他の物理的記憶デバイスであり得る、非一過性機械可読記憶媒体を含む。上記に述べられるように、メモリ記憶ユニット60は、通信インターフェース55を介して外部ソースから受信されたデータ、テンプレートデータ、訓練データ、ニューラルネットワークエンジン65からの結果、および/または後処理エンジン70からの結果等の情報を記憶させるために使用されてもよい。加えて、メモリ記憶ユニット60は、装置50の一般的な動作に関する命令を記憶させるために使用されてもよい。メモリ記憶ユニット60はまた、プロセッサによって実行可能である、オペレーティングシステムを記憶し、装置50に、種々のアプリケーションをサポートするための機能性等の一般的な機能性を提供し得る。メモリ記憶ユニット60は、加えて、ニューラルネットワークエンジン65および後処理エンジン70を動作させるための命令を記憶してもよい。さらに、メモリ記憶ユニット60はまた、他の構成要素、およびカメラおよびにユーザインターフェース等の装置50とともに配設され得る任意の周辺デバイスを動作させるための制御命令を記憶してもよい。
メモリ記憶ユニット60は、データまたは装置50の構成要素を動作させるための命令とともに、事前にロードされてもよい。他の実施例では、命令は、通信インターフェース55を介して、またはメモリフラッシュドライブ等の装置50に接続される可搬型メモリ記憶デバイスからの命令を直接転送することによって、ロードされてもよい。他の実施例では、メモリ記憶ユニット60は、外部ハードドライブ、またはコンテンツを提供するクラウドサービス等の外部ユニットであってもよい。
ニューラルネットワークエンジン65は、メモリ記憶ユニット60内に記憶される未加工データを受信する、または読み出すためのものである。本実施例では、ニューラルネットワークエンジン65は、画像を表す未加工データ(図2)を使用し、出力データを生成し、これは、セグメント化マップ、境界マップ、骨ヒートマップ、および関節ヒートマップを含んでもよい。ニューラルネットワークエンジン65が、関節のタイプ毎に1つ等、複数の関節ヒートマップを生成し得ることを理解されたい。同様に、ニューラルネットワークエンジン65は、複数の骨ヒートマップを生成し得、本場合では、各マップは、関節を接続する骨タイプを表す。用語「関節」および「骨」が、人物上の基準点の近似値を表すために、運動の範囲内でモデル化され得る、人物における種々の基準点を指すことが、本説明から利益を享受する当業者によって理解されるはずである。例えば、関節は、眼等の生理学的関節ではなく、人物上の基準点を指し得る。他の実施例では、関節は、手首または足関節等の複数の生理学的骨関節を伴う基準点を指し得る。同様に、骨は、本明細書に説明されるような関節間の接続も指し得る。
図2に示される画像は、識別されることになるオブジェクトが、レースに参加している人々である、レースからの場面を表す。本場面が、人々の種々の部分が他の人々の部分をオクルードしている状態を伴って、複合化されることが、本説明から利益を享受する当業者によって理解されるはずである。
ニューラルネットワークエンジン65が、未加工データを処理し、セグメント化マップおよび境界マップを生成する様式は、特に限定されない。本実施例では、未加工データは、複数のオブジェクトの画像を含んでもよい。ニューラルネットワークエンジン65の動作を図示するために、未加工データは、図2に示される画像を提供するようにレンダリングされ得る。図2は、カラーであってもよいことを理解されたい。本具体的な実施例では、未加工データの複数のオブジェクトは、レースの参加者の写真を表す。未加工データは、RGB画像であり、これは、赤色、緑色、および青色の強度に関する3つの重畳されたマップとして表され得る。他の実施例では、未加工データは、RGB画像フォーマットではない場合があることを理解されたい。例えば、未加工データは、ニューラルネットワークエンジン65によって受信されることに先立って、捕捉され、RGBフォーマットに変換されるように前処理される、ラスタグラフィックファイルまたは圧縮された画像ファイル等のフォーマットであってもよい。代替として、ニューラルネットワークエンジン65は、付加的なタイプの画像フォーマットを受信し、取り扱うように構成されてもよい。
図3を参照すると、ニューラルネットワークエンジンによって生成される、図2の画像のセグメント化マップの実施例が、示される。セグメント化マップは、ピクセルが、オブジェクトの一部であるかどうかを示すために、ピクセル毎のバイナリ値を有する、2次元マップである。本実施例では、未加工データ内のオブジェクトは、レースに参加している人間である。ニューラルネットワークエンジン65が、セグメント化マップを生成する様式は、特に限定されず、wrnchAIエンジン等のコンピュータビジョンベースの人間姿勢およびセグメント化システムを適用することを含んでもよい。他の実施例では、OpenPose、Mask-R CNN、または他の深度センサ、立体カメラ、またはMicrosoft KinectまたはIntel RealSense等のLIDARベースの人間セグメント化システム等の他のタイプのコンピュータビジョンベースの人間セグメント化システムも、使用され得る。加えて、セグメント化マップは、CVAT等の適切なソフトウェアを用いて手動で、またはAdobe Photoshop(登録商標)またはGIMPにおけるもの等のセグメント化補助ツールを用いた半自動方法において注釈を付けられ得る。
図2に示される未加工データが、ニューラルネットワークエンジンによって処理される、本実施例では、ニューラルネットワークエンジン65は、レースの参加者の緑色画面投影を示す、セグメント化マップを生成する。緑色画面投影は、場面内の参加者等の2つまたはそれを上回るオクルードされたオブジェクト間で区別することが不可能であることが、本説明から利益を享受する当業者によって理解されるはずである。代わりに、セグメント化マップは、本具体的な実施例では、レースの人間の参加者である、オブジェクトの存在を示す、またはピクセル毎のオブジェクトの不在を示す。オブジェクトの存在は、0または1のバイナリ値によって表される。ニューラルネットワークエンジン65は、所定の閾値確率値を使用し、セグメント化マップ内のピクセルに関する値が、1または0であるかどうかを決定し得る。
さらに、セグメント化マップおよび関節ヒートマップは、未加工データ内のオブジェクトのオクルードされた部分に対処するために、統計値を提供し得る。図3に示されるように、人々の種々の身体パーツが、オーバーラップされ、他の身体パーツをオクルードし得る。オーバーラップの領域は、境界マップの生成を補助するために、オーバーラップを特性評価するための情報を提供し得る。特に、オーバーラップされた部分は、画像内の別の人間とオーバーラップしている人間を決定するために使用され得る、統計値を提供し得る。例えば、統計値は、オーバーラップしている領域内に存在する関節の数および種類等の情報を含んでもよい。特に、上半身の可視関節は、その人物が、顔の関節のみが可視である別の人物と比較して、前面に存在していることを示し得る。未加工データからの統計値の抽出は、特に限定されない。本実施例では、ニューラルネットワークエンジン65は、セグメント化マップ内で識別されるような人間が存在する領域等の複数のオブジェクトが存在する場所等の着目領域を識別してもよい。着目領域を識別することによって、未加工データから統計値を取得するために使用される算出リソースが、低減され得る。
複数の着目領域が、ニューラルネットワークエンジン65によって識別され得ることが、本説明から利益を享受する当業者によって理解されるはずである。着目領域は、単一オブジェクトの領域または複数オブジェクトの領域として分類され得る。単一オブジェクトとして分類される領域に関して、オブジェクトが、着目領域内で完全に識別されるため、さらなる処理は、遂行されない。複数のオブジェクトとして分類される領域に関して、複数のオブジェクトの領域内のインスタンスのセグメント化を分離するために、さらなる処理が、遂行され得る。本実施例では、ニューラルネットワークエンジン65が、人物上の着目領域を分類する様式は、セグメント化マップに適用されるような関節ヒートマップからの情報を使用することを伴う。オブジェクトが人間ではない場合がある、他の実施例では、ニューラルネットワークエンジン65は、適切な代用ヒートマップを使用してもよい。
図4を参照すると、図2の画像の境界マップの実施例が、示される。境界マップは、未加工データ内のオブジェクトを分割するために、ニューラルネットワークエンジン65によって生成される、2次元マップである。本具体的な実施例では、境界マップは、レース内の異なる人々を分割する。境界マップが生成される様式は、特に限定されない。本実施例では、後処理エンジン70は、セグメント化マップを使用し、適切なパラメータを自動的に選択し、ニューラルネットワーク65によって生成される境界マップを精緻化し得る。例えば、セグメント化マップは、未加工データが、精緻化された境界マップ内で検出されない場合がある、より大きなまたはより小さなオブジェクト等の異なるサイズのオブジェクトの画像を含むことを示唆し得る。オブジェクトが、2次元未加工データの背景および前景内に存在するという知識を用いて、境界マップを精緻化するために後処理エンジン70によって使用される、パラメータは、より大きなおよびより小さなオブジェクトが、除外されないように選択され得る。
ニューラルネットワークエンジン65によって生成される、境界マップは、境界であるという尤度と関連付けられる、ピクセル毎の確率マップを含んでもよい。したがって、ニューラルネットワークエンジン65によって生成される境界マップは、明確ではない場合がある、および/またはニューラルネットワークエンジン65が明確な境界を決定することが不可能である、未加工データの部分に関する鮮明なオブジェクト境界を提供しない場合がある。本実施例では、ニューラルネットワークエンジン65はまた、図4に示されるようなバイナリ境界マップを生成し得、本場合では、各ピクセルは、0または1のバイナリ値を割り当てられる。バイナリ境界マップの生成は、所定の閾値をピクセルに適用することによって遂行され得、したがって、ピクセルに関する閾値を上回る値を伴う各ピクセルが、1の値を割り当てられ、ピクセルに関する閾値を下回る値を伴う各ピクセルが、0の値を割り当てられることになる。境界マップはまた、カーネルサイズを調節することによって、後処理エンジン70によってさらに精緻化され得る。故に、後処理エンジン70は、閾値およびカーネルサイズを調節し、細く画定された線を伴って、閉鎖された境界を生成し得る。
後処理エンジン70は、ニューラルネットワークエンジン65によって生成される、セグメント化マップ、境界マップ、関節ヒートマップ、および骨ヒートマップに基づいて、未加工データ内のオブジェクトを識別するためのものである。特に、後処理エンジン70は、未加工データによって表される画像内の異なる人間等の異なるオブジェクトのインスタンスを分離し、識別データを生成するためのものである。後処理エンジン70によって生成される識別データは、限定されず、一意の識別子を伴う複数の骨格を含んでもよい。
本実施例では、後処理エンジン70は、未加工データ内のオブジェクトの断片を識別する。未加工データの断片は、ある部分を切離し得る、オブジェクト間のオクルージョンから生じる。図2に示されるように、オブジェクトがレースに参加している人間である、上記の実施例では、オクルージョンは、ある身体のパーツが、別の脚部の前にある脚部等、別のパーツの一部を被覆するときに生じる。本実施例では、背景内の脚部は、前景内の脚部の両側で断片に分離されてもよい。オブジェクトが人間である場合では、胴部、上腿、足、手、腕等の断片がそれぞれ、次いで、識別され得る。
オブジェクトの全ての断片が、後処理エンジン70によって識別され得るわけではないことが、本説明から利益を享受する当業者によって理解されるはずである。オブジェクトとしての人間の本実施例を続けると、後処理エンジン70は、人間の既知の欠落している断片に関して検出し得る。特に、主要な断片のマップが、いずれかの断片が欠落しているかどうかを決定するために、後続のマップと比較されてもよい。断片が、欠落している場合、これは、オブジェクトが、検出されなかった可能性があるというインジケーションであり得る。故に、後処理エンジン70は、ニューラルネットワークエンジン65からのセグメント化マップおよび境界マップに適用させるために、パラメータを調節し得る。
断片の識別後、後処理エンジン70は、同一のオブジェクトに属するものとして、ともにクラスタ化されることになる断片の群を選択する。本実施例では、後処理エンジン70は、セグメント化マップ上の境界マップを適用し、胴部、上腿、足、手、腕等の人間のインスタンスのセグメントである断片を識別し得る。断片は、次いで、クラスタ化プロセスを使用する後処理エンジン70によって、同一のオブジェクトからの他の断片と関連付けられる。後処理エンジン70が、断片をクラスタ化し、断片を単一のインスタンスと関連付ける様式は、特に限定されない。本実施例では、後処理エンジン70は、骨ヒートマップ、関節ヒートマップ、または骨および関節ヒートマップの組み合わせを使用し、断片をクラスタ化し、断片を画像内のオブジェクトと関連付けてもよい。後処理エンジン70が、骨ヒートマップおよび関節ヒートマップを使用する厳密な様式は、特に限定されない。例えば、骨ヒートマップは、画像内の断片間の接続を識別するために使用されてもよい。加えて、断片はまた、手、足、足関節、股関節等の1つまたはそれを上回る関節タイプを割り当てられてもよい。人間のオブジェクトに関して、各オブジェクトが、左手等、各タイプの単一の関節よりも多くのものを有しないことになることが、本説明から利益を享受する当業者によって理解されるはずである。故に、骨ヒートマップの適用後、残りの断片は、各クラスタ内に共通の関節タイプが存在しないように、ともにクラスタ化され得る。
図5を参照すると、後処理エンジン70によって遂行される、断片をクラスタ化する例示的方法のフローチャートが、200において示される。方法200が、実施例であり、他のクラスタ化プロセスも、後処理エンジン70によって実装され得ることを理解されたい。以下の議論および例示的方法200は、装置50内の後処理エンジン70およびその機能のさらなる理解を提供し得る。加えて、方法200が、示されるような厳密なシーケンスで実施されない場合があること、および種々のブロックが、順にではなく、並行して、または全く異なるシーケンスで実施され得ることが強調されるべきである。さらに、方法200の反復的性質に起因して、全てのブロックが、同時に実行している場合もある。
ブロック205から開始し、2つの断片間の接続が、選択される。未加工データ内で識別された断片の各対が、順に選択されるが、それらが選択される順序は、特に限定されない。本実施例では、順序は、関節ヒートマップおよび骨ヒートマップからの情報に基づいて選択されてもよい。他の実施例では、全ての可能性として考えられる断片の組み合わせが、画像の片側から反対側まで順に選択されてもよい。本実施例では、各断片は、生成された断片に対する一意の識別子(マスクID)を割り当てられる。さらに、接続された断片は、同一のマスクIDを割り当てられ、独立した断片は、一意のマスクIDを割り当てられる。断片はまた、一意の識別子(背景ID)を用いて分類され、それが、セグメント化マップの外側のピクセル(すなわち、セグメント化マップ内のゼロ値ピクセル)上にあるとき等、前景の代わりに、背景の一部であることを示し得る。本実施例では、背景の一部である断片は、考慮されないであろう。いったん対の断片が、選択されると、本プロセスは、ブロック210に移動し、ここで、各断片のマスクIDが、それらが同一であるかどうかを決定するために比較される。断片毎のマスクIDが異なる場合では、方法200は、ブロック205に戻り、異なる断片間の別の接続を選択する。ブロック205において選択された2つの断片のマスクIDが、同一である場合、方法200は、ブロック215に進み、ここで、マスクIDが、背景IDと比較される。マスクIDが背景IDである場合では、方法200は、ブロック205に戻り、異なる断片間の別の接続を選択する。ブロック205において選択された2つの断片のマスクIDが、背景IDではない場合、方法200は、ブロック220に進み、ここで、断片は、後処理エンジン70によって分析され、それらが、同一の関節タイプを有するかどうかを決定する。後処理エンジン70が、断片が同一の関節を含むことを決定する場合では、断片は、異なる人間のインスタンスであると見なされ、方法200は、ブロック205に戻り、別の対の断片を選択する。代替として、断片が、異なる関節タイプを有することを決定される場合、方法200は、ブロック225に移動し、ここで、断片が融合される。本実施例では、ブロック225は、より小さな断片をより大きな断片に融合させるが、他の実施例では、よい小さな断片が、より大きな断片よりも重要であると見なされる関節を表す場合、逆のことが、生じ得る。断片を融合した後、方法200は、ブロック230に進み、ここで、後処理エンジン70は、全ての断片対が処理されたかどうかを決定する。処理されることになる断片対がより多く存在する場合では、方法200は、ブロック205に戻り、反復し続ける。
クラスタを生成させるための関節の接続の処理の完了に応じて、方法200は、ブロック235に進み、ここで、2つのクラスタ化されていない断片が、選択される。方法200は、ブロック240に進み、ブロック235において選択された断片が、同一の関節タイプを有するかどうかを決定する。後処理エンジン70が、断片が、同一の関節を含むことを決定する場合では、断片は、異なる人間のインスタンスであると見なされ、方法200は、ブロック235に戻り、別の対のクラスタ化されていない断片を選択する。代替として、断片が、異なる関節タイプを有することを決定される場合、方法200は、ブロック245に移動する。ブロック245では、後処理エンジン70は、ブロック235によって選択された断片が接続され得るかどうか、または接続経路内にいかなる他のクラスタ化されていない断片も存在しないかどうかを決定する。ブロック235において選択された2つのものの間の経路上に別のクラスタ化されていない断片を伴わず、断片が接続されることができない場合では、方法200は、ブロック235に戻り、ここで、2つの他のクラスタ化されていない断片が、選択される。経路上に別の断片を伴わず、ブロック235において選択された断片が、接続されることができる場合、方法200は、ブロック250に移動し、ここで、後処理エンジン70は、本実施例では、より小さな断片をより大きな断片の中に融合させる。クラスタ化されていない断片を融合した後、方法200は、ブロック255に進み、ここで、後処理エンジン70は、全てのクラスタ化されていない断片対が処理されたかどうかを決定する。処理されることになる断片対がより多く存在する場合では、方法200は、ブロック235に戻り、反復し続ける。
オブジェクトの断片をクラスタ化した後、図2に示されるように、未加工データで表される画像内のオブジェクトは、別個のインスタンスに分離されてもよい。分離されたオブジェクトは、次いで、下流サービスに関する出力データを生成するために使用され得る。本実施例では、オブジェクトは、人間であり、いったん人間のインスタンスが、分離されると、出力データは、各人間のインスタンスを識別するために、異なる陰影付けを使用する、インスタンスのセグメント化マップを含んでもよい。他の実施例では、骨格、メッシュ、または輪郭が、異なる人間のインスタンスを表すためにレンダリングされてもよい。
いくつかの実施例では、後処理エンジン70は、ニューラルネットワークエンジン65によって識別されるようなセグメント化マップおよび境界マップ内の着目領域のみを処理することによって、算出効率を改良し得ることが理解されるはずである。図6を参照すると、単一オブジェクトの境界を有する領域300および複数オブジェクトの境界を有する領域305が、示される。本実施例では、後処理エンジン70は、算出リソースを節約するために、複数オブジェクトの境界を有する領域305に焦点を当てるように構成されてもよい。
さらに、未加工データ内のオブジェクトのインスタンスを予測した後、後処理エンジン70はさらに、いくつかの実施例では、出力データを生成することに先立って、結果を強化してもよい。例えば、後処理エンジン70は、オブジェクトと関連付けられていないピクセルを埋めるために、セグメント化マップをマスクとして使用して、測地的膨張を適用してもよい。故に、領域305上でのみ動作するとき、後処理エンジン70は、図7に示されるように、領域305内の異なるオブジェクトのインスタンスを識別するマップを生成し得る。
図8を参照すると、断片のクラスタ化および再発見に基づいて、複合画像内で、オブジェクトのインスタンスのセグメント化を生成するための装置50aの別の概略描写が、概して、示される。添字「a」が続くことを除いて、装置50aの同様の構成要素が、装置50内のそれらの対応物を参照して、同様に描かれている。本実施例では、装置50aは、通信インターフェース55aと、メモリ記憶ユニット60aと、プロセッサ80aとを含む。プロセッサ80aは、ニューラルネットワークエンジン65aと、後処理エンジン70aと、追跡エンジン75aとを動作させる。
本実施例では、メモリ記憶ユニット60aはまた、装置50aによって使用される種々のデータを記憶させるために、データベースを維持し得る。例えば、メモリ記憶ユニット60aは、通信インターフェース55aから受信されるような未加工データ画像を記憶させるためのデータベース300aと、ニューラルネットワークエンジン65aによって生成されるセグメント化マップを記憶させるためのデータベース310aと、ニューラルネットワークエンジン65aによって生成される境界マップを記憶させるためのデータベース315aと、ニューラルネットワークエンジン65aによって生成される関節ヒートマップを記憶させるためのデータベース320aと、ニューラルネットワークエンジン65aによって生成される骨ヒートマップを記憶させるためのデータベース325aと、未加工データ内のオブジェクトを識別する、後処理エンジン70aによって生成される識別データを記憶させるためのデータベース330aとを含んでもよい。加えて、メモリ記憶ユニットは、装置50aに一般的な機能性を提供するために、プロセッサ80aによって実行可能であるオペレーティングシステム340aを含んでもよい。さらに、メモリ記憶ユニット60aは、プロセッサ80aに、具体的なステップを遂行し、下記により詳細に説明される方法を実施するように指示するためのコードを用いてエンコードされてもよい。メモリ記憶ユニット60aはまた、入力を受信する、または出力を提供するための種々のユーザインターフェース等の装置50aの他の構成要素および周辺デバイスと通信するために、ドライバレベルおよび他のハードウェアドライブにおいて動作を遂行するための命令を記憶してもよい。
メモリ記憶ユニット60aはまた、ニューラルネットワークエンジン65aを訓練するための訓練データを記憶させるための合成訓練データベース350aを含んでもよい。本実施例が、ローカルで、訓練データベース350aを記憶するが、他の実施例が、通信インターフェース55aを介して、ニューラルネットワークの訓練の間、アクセスされ得る、ファイルサーバまたはクラウド内等、外部に訓練データを記憶し得ることを理解されたい。
本実施例では、プロセッサはさらに、追跡エンジン75aを動作させ、未加工データ内で識別されるオブジェクトを追跡する。未加工データが、複数の画像を含み得、各画像が、映像のフレームを表すことが、当業者によって理解されるはずである。故に、オブジェクトは、画像内の他のオブジェクトおよび位置に対して、画像内を移動し得る。加えて、追跡エンジン75aは、オブジェクトが、映像のフレームから離れ、映像のフレームに再進入するにつれて、それらを追跡し得る。本実施例では、追跡エンジン75aは、後処理エンジン70aからの出力データに基づいて、外観モデルを適用する、別のニューラルネットワークを動作させてもよい。
図9を参照すると、断片のクラスタ化および再発見に基づいて、複合画像内で、オブジェクトのインスタンスのセグメント化を生成する例示的方法のフローチャートが、概して、400に示される。方法400の解説を補助するために、方法400が、装置50によって実施され得ることが仮定されるであろう。実際に、方法400は、装置50が構成され得る、1つの方法であり得る。さらに、方法400の以下の議論は、装置50およびその構成要素のさらなる理解につながり得る。加えて、方法400が、示されるような厳密なシーケンスで実施されない場合があること、および種々のブロックが、順にではなく、並行して、または全く異なるシーケンスで実施され得ることが強調されるべきである。
ブロック410から開始し、装置50は、通信インターフェース55を介して外部ソースから未加工データを受信する。本実施例では、未加工データは、画像内に、複数のオブジェクトの表現を含む。特に、未加工データは、種々のオクルージョンパターンを伴う複数の人間を表す。オブジェクトが表される様式および2次元画像の厳密なフォーマットは、特に限定されない。例えば、2次元画像は、RGBフォーマットにおいて受信される。他の実施例では、2次元画像は、カメラによって捕捉および処理された、ラスタグラフィックファイルまたは圧縮された画像ファイル等の異なるフォーマットにおけるものであり得る。いったん装置50において受信されると、未加工データは、ブロック420においてメモリ記憶ユニット60内に記憶されることになる。
ブロック430は、ニューラルネットワークエンジン65を用いてマップを生成することを伴う。本実施例では、ニューラルネットワークエンジン65は、画像内のオブジェクトのセグメント化マップおよび境界マップを生成する。セグメント化マップが生成される様式は、特に限定されず、wrnchAIエンジン等のコンピュータビジョンベースの人間姿勢およびセグメント化システムを適用することを含んでもよい。他の実施例では、OpenPose、Mask-R CNN、または他の深度センサ、立体カメラ、またはMicrosoft KinectまたはIntel RealSense等のLIDARベースの人間セグメント化システム等の他のタイプのコンピュータビジョンベースの人間セグメント化システムも、使用され得る。加えて、セグメント化マップは、CVAT等の適切なソフトウェアを用いて手動で、またはAdobe Photoshop(登録商標)またはGIMPにおけるもの等のセグメント化補助ツールを用いた半自動方法において注釈を付けられ得る。
境界マップが生成される様式もまた、特に限定されず、種々の画像処理技法を使用してもよい。本実施例では、セグメント化マップもまた、境界マップを精緻化するために後処理エンジン70によって使用されることになる、パラメータを選択するための入力も提供し得る。特に、パラメータは、細線を用いて閉鎖された境界を提供するように選択される。
次に、ブロック440は、ブロック410において受信された画像内で、オブジェクトを識別することを含む。本実施例では、後処理エンジン70は、ブロック430においてニューラルネットワークエンジン65によって生成されたマップからの入力を使用する。オブジェクトの識別は、映像内のオブジェクトを追跡すること等のさらなる処理のために、下流デバイスに伝送され得る、出力データに変換されてもよい。
種々の利点が、当業者に明白な状態にはならないであろう。特に、装置50または装置50aは、人物毎の識別を遂行する代わりに、画像全体を分析することによって、ボトムアップアプローチを使用して、著しいオクルージョン面積を伴う断片のクラスタ化および再発見画像に基づいて、複合画像内で、オブジェクトのインスタンスのセグメント化を生成するために使用され得る。装置50は、それに応じて、後処理エンジンのパラメータを変更することによって、異なる特徴および複合性を伴う多くの異なるタイプの未加工データのために使用されてもよい。加えて、装置50は、オブジェクトの種々の断片を検出することが可能であり、具体的には、欠落している断片を検出し、それらをオブジェクトと再接続することができる。
上記に提供される種々の実施例の特徴および側面が、本開示の範囲内にもまた該当する、さらなる実施例の中に組み合わせられ得ることが認識されるべきである。
本発明は、例えば、以下の項目を提供する。
(項目1)
装置であって、
外部ソースから未加工データを受信するための通信インターフェースであって、上記未加工データは、第1のオブジェクトおよび第2のオブジェクトの表現を含む、通信インターフェースと、
上記未加工データを記憶させるためのメモリ記憶ユニットと、
上記未加工データを受信するためのニューラルネットワークエンジンであって、上記ニューラルネットワークエンジンは、セグメント化マップおよび境界マップを生成するためのものである、ニューラルネットワークエンジンと、
上記セグメント化マップおよび上記境界マップに基づいて、上記第1のオブジェクトおよび上記第2のオブジェクトを識別するための後処理エンジンと
を備える、装置。
(項目2)
上記後処理エンジンは、上記第1のオブジェクトの第1の骨格および上記第2のオブジェクトの第2の骨格を生成する、項目1に記載の装置。
(項目3)
上記未加工データは、映像データであり、上記映像データは、上記第1のオブジェクトおよび第2のオブジェクトの移動を表す、項目1または2に記載の装置。
(項目4)
上記第1のオブジェクトおよび上記第2のオブジェクトを追跡するための追跡エンジンをさらに備える、項目3に記載の装置。
(項目5)
上記追跡エンジンは、フレームから離れて再進入する上記第1のオブジェクトを追跡する、項目4に記載の装置。
(項目6)
上記後処理エンジンは、上記第1のオブジェクトおよび上記第2のオブジェクトの断片を識別する、項目1-5のいずれか1項に記載の装置。
(項目7)
上記後処理エンジンは、上記断片の中から第1の群を選択し、上記第1の群は、上記第1のオブジェクトと関連付けられ、上記後処理エンジンは、上記断片の中から、第2の群を選択し、上記第2の群は、上記第2のオブジェクトと関連付けられる、項目6に記載の装置。
(項目8)
上記後処理エンジンは、骨ヒートマップを使用し、上記第1の群および上記第2の群を選択する、項目7に記載の装置。
(項目9)
上記後処理エンジンは、関節ヒートマップを使用し、上記第1の群および上記第2の群を選択する、項目7または8に記載の装置。
(項目10)
上記第1のオブジェクトは、第1の人間であり、上記第2のオブジェクトは、第2の人間である、項目1-9のいずれか1項に記載の装置。
(項目11)
方法であって、
通信インターフェースを介して、画像ソースから未加工データを受信することであって、上記未加工データは、第1のオブジェクトおよび第2のオブジェクトの表現を含む、ことと、
上記未加工データをメモリ記憶ユニット内に記憶させることと、
ニューラルネットワークエンジンを用いて、上記未加工データからセグメント化マップおよび境界マップを生成することと、
後処理エンジンを用いて、上記セグメント化マップおよび上記境界マップに基づいて、上記第1のオブジェクトおよび上記第2のオブジェクトを識別することと、
上記通信インターフェースを介して、識別情報を外部ソースに伝送することであって、上記識別情報は、上記未加工データ内の上記第1のオブジェクトおよび上記第2のオブジェクトを識別するためのものである、ことと
を含む、方法。
(項目12)
上記第1のオブジェクトおよび上記第2のオブジェクトを識別することは、上記第1のオブジェクトの第1の骨格を生成することと、上記第2のオブジェクトの第2の骨格を生成することとを含む、項目11に記載の方法。
(項目13)
上記未加工データは、映像データであり、上記映像データは、上記第1のオブジェクトおよび第2のオブジェクトの移動を表す、項目11または12に記載の方法。
(項目14)
追跡エンジンを用いて、上記第1のオブジェクトおよび上記第2のオブジェクトを追跡することをさらに含む、項目13に記載の方法。
(項目15)
上記第1のオブジェクトを追跡することは、フレームから離れて再進入する上記第1のオブジェクトを追跡することを含む、項目14に記載の方法。
(項目16)
上記後処理エンジンを用いて、上記第1のオブジェクトおよび上記第2のオブジェクトの断片を識別することをさらに含む、項目11-15のいずれか1項に記載の方法。
(項目17)
上記断片の中から第1の群を選択することと、上記断片の中から、第2の群を選択することとをさらに含み、上記第1の群は、上記第1のオブジェクトと関連付けられ、上記第2の群は、上記第2のオブジェクトと関連付けられる、項目16に記載の方法。
(項目18)
上記第1の群および上記第2の群を選択することは、上記断片に骨ヒートマップを適用することを含む、項目17に記載の方法。
(項目19)
上記第1の群および上記第2の群を選択することは、上記断片に関節ヒートマップを適用することを含む、項目17または18に記載の方法。
(項目20)
上記第1のオブジェクトは、第1の人間であり、上記第2のオブジェクトは、第2の人間である、項目11-19のいずれか1項に記載の方法。
(項目21)
コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、上記コードは、プロセッサに、
通信インターフェースを介して、画像ソースから未加工データを受信することであって、上記未加工データは、第1のオブジェクトおよび第2のオブジェクトの表現を含む、ことと、
上記未加工データをメモリ記憶ユニット内に記憶させることと、
上記未加工データからセグメント化マップおよび境界マップを生成することと、
上記セグメント化マップおよび上記境界マップに基づいて、上記第1のオブジェクトおよび上記第2のオブジェクトを識別することと、
上記通信インターフェースを介して、識別情報を外部ソースに伝送することであって、上記識別情報は、上記セグメント化マップ内の上記第1のオブジェクトおよび上記第2のオブジェクトを識別するためのものである、ことと
を行うように指示するためのものである、非一過性コンピュータ可読媒体。
(項目22)
上記コードは、上記プロセッサに、上記第1のオブジェクトおよび上記第2のオブジェクトを識別するように指示し、上記プロセッサに、上記第1のオブジェクトの第1の骨格を生成し、上記第2のオブジェクトの第2の骨格を生成するように指示するためのものである、項目21に記載の非一過性コンピュータ可読媒体。
(項目23)
上記コードは、上記プロセッサに、上記未加工データを受信するように指示し、上記プロセッサに、映像データを受信するように指示するためのものであり、上記映像データは、上記第1のオブジェクトおよび第2のオブジェクトの移動を表す、項目21または22に記載の非一過性コンピュータ可読媒体。
(項目24)
上記コードは、上記プロセッサに、上記第1のオブジェクトおよび上記第2のオブジェクトを追跡するように指示するためのものである、項目23に記載の非一過性コンピュータ可読媒体。
(項目25)
上記コードは、上記プロセッサに、フレームから離れて再進入する上記第1のオブジェクトを追跡するように指示するためのものである、項目24に記載の非一過性コンピュータ可読媒体。
(項目26)
上記コードは、上記プロセッサに、上記後処理エンジンを用いて、上記第1のオブジェクトおよび上記第2のオブジェクトの断片を識別するように指示するためのものである、項目21-25のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目27)
上記コードは、上記プロセッサに、上記断片の中から第1の群を選択し、上記断片の中から、第2の群を選択するように指示するためのものであり、上記第1の群は、上記第1のオブジェクトと関連付けられ、上記第2の群は、上記第2のオブジェクトと関連付けられる、項目26に記載の非一過性コンピュータ可読媒体。
(項目28)
上記コードは、上記プロセッサに、上記第1の群を選択し、上記第2の群を選択するために、上記断片に骨ヒートマップを適用するように指示するためのものである、項目27に記載の非一過性コンピュータ可読媒体。
(項目29)
上記コードは、上記プロセッサに、上記第1の群を選択し、上記第2の群を選択するために、上記断片に関節ヒートマップを適用するように指示するためのものである、項目27または28に記載の非一過性コンピュータ可読媒体。
(項目30)
上記コードは、上記プロセッサに、未加工データを受信するように指示し、上記プロセッサに、上記第1のオブジェクトとしての第1の人間および上記第2のオブジェクトとしての第2の人間の表現を受信するように指示するためのものである、項目21-29のいずれか1項に記載の非一過性コンピュータ可読媒体。
ここで、単に一例として、付随の図面が、参照されるであろう。

Claims (30)

  1. 装置であって、
    外部ソースから未加工データを受信するための通信インターフェースであって、前記未加工データは、第1のオブジェクトおよび第2のオブジェクトの表現を含む、通信インターフェースと、
    前記未加工データを記憶させるためのメモリ記憶ユニットと、
    前記未加工データを受信するためのニューラルネットワークエンジンであって、前記ニューラルネットワークエンジンは、セグメント化マップおよび境界マップを生成するためのものである、ニューラルネットワークエンジンと、
    前記セグメント化マップおよび前記境界マップに基づいて、前記第1のオブジェクトおよび前記第2のオブジェクトを識別するための後処理エンジンと
    を備える、装置。
  2. 前記後処理エンジンは、前記第1のオブジェクトの第1の骨格および前記第2のオブジェクトの第2の骨格を生成する、請求項1に記載の装置。
  3. 前記未加工データは、映像データであり、前記映像データは、前記第1のオブジェクトおよび第2のオブジェクトの移動を表す、請求項1または2に記載の装置。
  4. 前記第1のオブジェクトおよび前記第2のオブジェクトを追跡するための追跡エンジンをさらに備える、請求項3に記載の装置。
  5. 前記追跡エンジンは、フレームから離れて再進入する前記第1のオブジェクトを追跡する、請求項4に記載の装置。
  6. 前記後処理エンジンは、前記第1のオブジェクトおよび前記第2のオブジェクトの断片を識別する、請求項1-5のいずれか1項に記載の装置。
  7. 前記後処理エンジンは、前記断片の中から第1の群を選択し、前記第1の群は、前記第1のオブジェクトと関連付けられ、前記後処理エンジンは、前記断片の中から、第2の群を選択し、前記第2の群は、前記第2のオブジェクトと関連付けられる、請求項6に記載の装置。
  8. 前記後処理エンジンは、骨ヒートマップを使用し、前記第1の群および前記第2の群を選択する、請求項7に記載の装置。
  9. 前記後処理エンジンは、関節ヒートマップを使用し、前記第1の群および前記第2の群を選択する、請求項7または8に記載の装置。
  10. 前記第1のオブジェクトは、第1の人間であり、前記第2のオブジェクトは、第2の人間である、請求項1-9のいずれか1項に記載の装置。
  11. 方法であって、
    通信インターフェースを介して、画像ソースから未加工データを受信することであって、前記未加工データは、第1のオブジェクトおよび第2のオブジェクトの表現を含む、ことと、
    前記未加工データをメモリ記憶ユニット内に記憶させることと、
    ニューラルネットワークエンジンを用いて、前記未加工データからセグメント化マップおよび境界マップを生成することと、
    後処理エンジンを用いて、前記セグメント化マップおよび前記境界マップに基づいて、前記第1のオブジェクトおよび前記第2のオブジェクトを識別することと、
    前記通信インターフェースを介して、識別情報を外部ソースに伝送することであって、前記識別情報は、前記未加工データ内の前記第1のオブジェクトおよび前記第2のオブジェクトを識別するためのものである、ことと
    を含む、方法。
  12. 前記第1のオブジェクトおよび前記第2のオブジェクトを識別することは、前記第1のオブジェクトの第1の骨格を生成することと、前記第2のオブジェクトの第2の骨格を生成することとを含む、請求項11に記載の方法。
  13. 前記未加工データは、映像データであり、前記映像データは、前記第1のオブジェクトおよび第2のオブジェクトの移動を表す、請求項11または12に記載の方法。
  14. 追跡エンジンを用いて、前記第1のオブジェクトおよび前記第2のオブジェクトを追跡することをさらに含む、請求項13に記載の方法。
  15. 前記第1のオブジェクトを追跡することは、フレームから離れて再進入する前記第1のオブジェクトを追跡することを含む、請求項14に記載の方法。
  16. 前記後処理エンジンを用いて、前記第1のオブジェクトおよび前記第2のオブジェクトの断片を識別することをさらに含む、請求項11-15のいずれか1項に記載の方法。
  17. 前記断片の中から第1の群を選択することと、前記断片の中から、第2の群を選択することとをさらに含み、前記第1の群は、前記第1のオブジェクトと関連付けられ、前記第2の群は、前記第2のオブジェクトと関連付けられる、請求項16に記載の方法。
  18. 前記第1の群および前記第2の群を選択することは、前記断片に骨ヒートマップを適用することを含む、請求項17に記載の方法。
  19. 前記第1の群および前記第2の群を選択することは、前記断片に関節ヒートマップを適用することを含む、請求項17または18に記載の方法。
  20. 前記第1のオブジェクトは、第1の人間であり、前記第2のオブジェクトは、第2の人間である、請求項11-19のいずれか1項に記載の方法。
  21. コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、前記コードは、プロセッサに、
    通信インターフェースを介して、画像ソースから未加工データを受信することであって、前記未加工データは、第1のオブジェクトおよび第2のオブジェクトの表現を含む、ことと、
    前記未加工データをメモリ記憶ユニット内に記憶させることと、
    前記未加工データからセグメント化マップおよび境界マップを生成することと、
    前記セグメント化マップおよび前記境界マップに基づいて、前記第1のオブジェクトおよび前記第2のオブジェクトを識別することと、
    前記通信インターフェースを介して、識別情報を外部ソースに伝送することであって、前記識別情報は、前記セグメント化マップ内の前記第1のオブジェクトおよび前記第2のオブジェクトを識別するためのものである、ことと
    を行うように指示するためのものである、非一過性コンピュータ可読媒体。
  22. 前記コードは、前記プロセッサに、前記第1のオブジェクトおよび前記第2のオブジェクトを識別するように指示し、前記プロセッサに、前記第1のオブジェクトの第1の骨格を生成し、前記第2のオブジェクトの第2の骨格を生成するように指示するためのものである、請求項21に記載の非一過性コンピュータ可読媒体。
  23. 前記コードは、前記プロセッサに、前記未加工データを受信するように指示し、前記プロセッサに、映像データを受信するように指示するためのものであり、前記映像データは、前記第1のオブジェクトおよび第2のオブジェクトの移動を表す、請求項21または22に記載の非一過性コンピュータ可読媒体。
  24. 前記コードは、前記プロセッサに、前記第1のオブジェクトおよび前記第2のオブジェクトを追跡するように指示するためのものである、請求項23に記載の非一過性コンピュータ可読媒体。
  25. 前記コードは、前記プロセッサに、フレームから離れて再進入する前記第1のオブジェクトを追跡するように指示するためのものである、請求項24に記載の非一過性コンピュータ可読媒体。
  26. 前記コードは、前記プロセッサに、前記後処理エンジンを用いて、前記第1のオブジェクトおよび前記第2のオブジェクトの断片を識別するように指示するためのものである、請求項21-25のいずれか1項に記載の非一過性コンピュータ可読媒体。
  27. 前記コードは、前記プロセッサに、前記断片の中から第1の群を選択し、前記断片の中から、第2の群を選択するように指示するためのものであり、前記第1の群は、前記第1のオブジェクトと関連付けられ、前記第2の群は、前記第2のオブジェクトと関連付けられる、請求項26に記載の非一過性コンピュータ可読媒体。
  28. 前記コードは、前記プロセッサに、前記第1の群を選択し、前記第2の群を選択するために、前記断片に骨ヒートマップを適用するように指示するためのものである、請求項27に記載の非一過性コンピュータ可読媒体。
  29. 前記コードは、前記プロセッサに、前記第1の群を選択し、前記第2の群を選択するために、前記断片に関節ヒートマップを適用するように指示するためのものである、請求項27または28に記載の非一過性コンピュータ可読媒体。
  30. 前記コードは、前記プロセッサに、未加工データを受信するように指示し、前記プロセッサに、前記第1のオブジェクトとしての第1の人間および前記第2のオブジェクトとしての第2の人間の表現を受信するように指示するためのものである、請求項21-29のいずれか1項に記載の非一過性コンピュータ可読媒体。
JP2023540525A 2021-01-04 2021-01-04 画像または映像内のオブジェクト識別 Pending JP2024503344A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2021/050022 WO2022144594A1 (en) 2021-01-04 2021-01-04 Object identifications in images or videos

Publications (1)

Publication Number Publication Date
JP2024503344A true JP2024503344A (ja) 2024-01-25

Family

ID=82258701

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023540525A Pending JP2024503344A (ja) 2021-01-04 2021-01-04 画像または映像内のオブジェクト識別

Country Status (7)

Country Link
US (1) US20230351615A1 (ja)
EP (1) EP4272156A4 (ja)
JP (1) JP2024503344A (ja)
KR (1) KR20230128332A (ja)
AU (1) AU2021411776A1 (ja)
CA (1) CA3206872A1 (ja)
WO (1) WO2022144594A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230100305A1 (en) * 2021-09-27 2023-03-30 Baidu Usa Llc System and process for repainting of planar objects in video

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5931755B2 (ja) * 2010-03-11 2016-06-08 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. モデルベースのセグメント化の確率向上
US8971575B2 (en) * 2012-11-23 2015-03-03 Cyberlink Corp. Systems and methods for tracking objects
US9972092B2 (en) * 2016-03-31 2018-05-15 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation
US11429842B2 (en) * 2019-02-24 2022-08-30 Microsoft Technology Licensing, Llc Neural network for skeletons from input images

Also Published As

Publication number Publication date
US20230351615A1 (en) 2023-11-02
EP4272156A1 (en) 2023-11-08
EP4272156A4 (en) 2024-03-06
KR20230128332A (ko) 2023-09-04
AU2021411776A1 (en) 2023-08-03
CA3206872A1 (en) 2022-07-07
WO2022144594A1 (en) 2022-07-07

Similar Documents

Publication Publication Date Title
Calabrese et al. DHP19: Dynamic vision sensor 3D human pose dataset
CN101305401B (zh) 用于处理游戏的立体视频的方法
Wang et al. Geometric pose affordance: 3d human pose with scene constraints
CN110544301A (zh) 一种三维人体动作重建系统、方法和动作训练系统
WO2021218293A1 (zh) 图像处理方法、装置、电子设备和存储介质
JP2010041725A (ja) イベントログ生成装置及びイベントログ生成方法
JP6362085B2 (ja) 画像認識システム、画像認識方法およびプログラム
CN109035415B (zh) 虚拟模型的处理方法、装置、设备和计算机可读存储介质
US20230351615A1 (en) Object identifications in images or videos
HanbyulJoo et al. Panoptic studio: A massively multiview system for social interaction capture
US20240153032A1 (en) Two-dimensional pose estimations
JP2016152467A (ja) 追尾装置、追尾方法及び追尾プログラム
AU2020436767B2 (en) Markerless motion capture of hands with multiple pose estimation engines
AU2020474614B2 (en) Three-dimensional mesh generator based on two-dimensional image
US20240020901A1 (en) Method and application for animating computer generated images
WO2022205167A1 (zh) 图像处理方法、装置、可移动平台、终端设备和存储介质
US20240127539A1 (en) Mechanical weight index maps for mesh rigging
US20220319114A1 (en) Automatic blending of human facial expression and full-body poses for dynamic digital human model creation using integrated photo-video volumetric capture system and mesh-tracking
JP2022054251A (ja) 生成装置、生成方法、およびプログラム
Lee et al. Occlusion-aware heatmap generation for enhancing 3D human pose estimation in multi-person environments
CN114979610A (zh) 用于3d场景重构的图像传输
CN116682136A (zh) 视频中人物身体动作自动变更方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230810

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240517