JP2021529389A - 人体ポーズ分析システム及び方法 - Google Patents

人体ポーズ分析システム及び方法 Download PDF

Info

Publication number
JP2021529389A
JP2021529389A JP2020572672A JP2020572672A JP2021529389A JP 2021529389 A JP2021529389 A JP 2021529389A JP 2020572672 A JP2020572672 A JP 2020572672A JP 2020572672 A JP2020572672 A JP 2020572672A JP 2021529389 A JP2021529389 A JP 2021529389A
Authority
JP
Japan
Prior art keywords
human
human body
detector
skeleton
related image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020572672A
Other languages
English (en)
Other versions
JP7417555B2 (ja
Inventor
チョ,ドンウク
ジャン,マギー
クルスゼウスキー,ポール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wrnch Inc
Original Assignee
Wrnch Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wrnch Inc filed Critical Wrnch Inc
Publication of JP2021529389A publication Critical patent/JP2021529389A/ja
Application granted granted Critical
Publication of JP7417555B2 publication Critical patent/JP7417555B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Animal Behavior & Ethology (AREA)
  • Physiology (AREA)
  • Dentistry (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)

Abstract

データベースに接続された特徴抽出器と、複数のCNN層を有する畳込みニューラルネットワーク(CNN)とを備え、画像から人体ポーズ情報を抽出するシステム及び方法。前記システム/方法は、以下の少なくとも1つのモジュール、すなわち、人体関連画像特徴から2D人体骨格情報を特定する2D人体骨格検出器と、人体関連画像特徴から人体輪郭情報を特定する人体輪郭検出器と、人体関連画像特徴から手の輪郭を特定する手の輪郭検出器と、人体関連画像特徴から手骨格を特定する手骨格検出器と、人体関連画像特徴から3D人体骨格を特定する3D人体骨格検出器と、人体関連画像特徴から顔面キーポイントを特定する顔面キーポイント検出器のうちの少なくとも1つをさらに備える。

Description

本発明は、人体ポーズ分析の分野に関する、より具体的には、軽量畳込みニューラルネットワーク(CNN)を使用した人体ポーズ分析システム及び方法に関する。
人体ポーズ分析に対する初期のアプローチは、人体に取り付けた可視マーカーを使用してカメラでこれを認識するか、又は深度センサーで取り込んだ画像を使用して人の形状を判断し、又は人体各部の位置を把握するものである。画像特徴検出アプローチ又は構造分析などの古典的なコンピュータビジョン技術を使用して、一般に入手可能なカラー画像を分析する試みがなされてきた。これらの方法は、様々な自然画像の処理を適切に行うには十分なロバスト性がなかった。
ごく最近になって、人体の関節の位置を特定し、2D画像空間において人体骨格を描くロバストな方法が提案された。これらの方法は、大規模な画像データベースを用いてトレーニングされるディープニューラルネットワークモデルを用いて実施される。
画像内の人体骨格、人体輪郭、3D人体骨格、手などの各人体部位の詳細なポーズなど、画像内の人物について、多面的な分析を行うことができる。既存の方法の多くは、人物の一つの側面の分析に焦点を当てている。いくつかの方法は、人物の位置を特定し、画像内の人体の輪郭をセグメント化する。他には、人の手及び関節のみの位置を特定する方法もある。人物の画像を統一的に分析することにより、人体ポーズの理解をより深めることができる。
また、ロバストな方法の多くは、リアルタイム分析に大量の計算を必要とするため、家庭用電子機器やモバイルデバイスなどの安価なデバイスへの実装の妨げとなる。
したがって、人体ポーズ分析の方法及びシステムの改善が必要とされている。
第1の広義の態様によれば、画像から人体ポーズ情報を抽出するシステムが提供され、該システムは、画像から人体関連画像特徴を抽出し、基準画像のデータセットからなるデータベースに接続することができ、複数の第1 CNN層を含む第1 CNNアーキテクチャが設けられており、各畳込み層が、トレーニングされたカーネル重みを使用してその入力データに畳込み演算を適用する特徴抽出器と、以下のモジュールのうち少なくとも1つ、すなわち、人体関連画像特徴から2D人体骨格情報を特定する2D人体骨格検出器、人体関連画像特徴から人体輪郭情報を特定する人体輪郭検出器、人体関連画像特徴から手の輪郭を特定する手の輪郭検出器、人体関連画像特徴から手骨格を特定する手骨格検出器、人体関連画像特徴から3D人体骨格を特定する3D人体骨格検出器、及び人体関連画像特徴から顔面キーポイントを特定する顔面キーポイント検出器のうち少なくとも1つを備え、2D人体骨格検出器、人体輪郭検出器、手の輪郭検出器、手骨格検出器、3D人体骨格検出器及び顔面キーポイント検出器は各々、複数の第2 CNN層を含む第2畳込みニューラルネットワーク(CNN)アーキテクチャが設けられていることを特徴とする。
該システムの一実施形態において、該特徴抽出器は、画像から低レベル特徴を抽出する低レベル特徴抽出器と、中レベル特徴を抽出する中レベル特徴抽出器とを備え、低レベル特徴及び中レベル特徴は共に、人体関連画像特徴を形成する。
該システムの一実施形態では、第1及び第2アーキテクチャのうち少なくとも1つはディープCNNアーキテクチャを備える。
該システムの一実施形態において、第1及び第2 CNN層のうちの1つは軽量層を含む。
別の広義の態様によれば、画像から人体ポーズ情報を抽出する方法が提供され、該方法は、画像を受信するステップと、基準画像のデータセットからなるデータベースに接続することができ、複数の第1 CNN層を含む第1 CNNアーキテクチャが設けられており、各畳込み層が、トレーニングされたカーネル重みを使用してその入力データに畳込み演算を適用する特徴抽出器を使用して画像から人体関連画像特徴を抽出するステップと、以下のモジュールのうち少なくとも1つ、すなわち、人体関連画像特徴から2D人体骨格情報を特定する2D人体骨格検出器、人体関連画像特徴から人体輪郭情報を特定する人体輪郭検出器、人体関連画像特徴から手の輪郭を特定する手の輪郭検出器、人体関連画像特徴から手骨格を特定する手骨格検出器、人体関連画像特徴から3D人体骨格を特定する3D人体骨格検出器、人体関連画像特徴から顔面キーポイントを特定する顔面キーポイント検出器のうち少なくとも1つを使用して人体ポーズ情報を特定するステップとからなり、2D人体骨格検出器、人体輪郭検出器、手の輪郭検出器、手骨格検出器、3D人体骨格検出器、及び顔面キーポイント検出器の各々は、複数の第2 CNN層を含む第2 CNNアーキテクチャが設けられていることを特徴とする。
該方法の一実施形態において、特徴抽出器は、画像から低レベル特徴を抽出する低レベル特徴抽出器と、中間特徴を抽出する中間特徴抽出器とを備え、低レベル特徴及び中間特徴は共に、人体関連画像特徴を形成する。
該方法の一実施形態において、第1及び第2アーキテクチャのうちの少なくとも1つは、ディープCNNアーキテクチャからなる。
該方法の一実施形態において、第1及び第2 CNN層のうちのいずれかは軽量層を含む。
本発明の他の特徴及び利点は、添付の図面と合わせ、以下の詳細な説明により明らかとなる。
一実施形態にかかる、画像から人体ポーズ情報を抽出するシステム、つまり、特徴抽出器と、2D人体骨格検出器と、人体輪郭検出器と、手の輪郭検出器と、3D人体骨格検出器と、顔面キーポイント検出器と、手骨格検出器とを備えるシステムを示すブロック図である。
一実施形態にかかる、図1の特徴抽出器を示すブロック図である。
一実施形態にかかる、図1の2D人体骨格検出器を示すブロック図である。
一実施形態にかかる、図1の人体輪郭検出器を示すブロック図である。
一実施形態にかかる、図1の手の輪郭検出器を示すブロック図である。
一実施形態にかかる、図1の手骨格検出器を示すブロック図である。
一実施形態にかかる、図1の3D人体骨格検出器を示すブロック図である。
一実施形態にかかる、図1の顔面キーポイント検出器を示すブロック図である。
一実施形態にかかる、人体ポーズ情報の抽出ステップのうちの少なくともいくつかを実行するようにした処理モジュールのブロック図である。
添付の図面を通して、同様の特徴は同様の参照符号により識別されることに留意されたい。
図1は、画像から人体ポーズ情報を抽出するシステム10の一実施形態を示す。システム10は、画像を受け取るステップと、受け取った画像内において人体の位置を特定するステップと、各画像から人体ポーズ情報を自動的に推定するステップから構成される。
一実施形態では、人体ポーズ情報は、人体骨格及び人体各部の形状の幾何学的情報を含む。人体骨格は、骨関節の位置及び/又は長さ情報を含む骨の向きで表すことができ、人体各部の形状は、輪郭及び/又は位置情報を含む表面メッシュで表すことができる。例えば、人体ポーズ情報は、人体の関節、体形若しくは人体輪郭、並びに/又は手などの骨格及び輪郭と共に、2D及び/又は3D人体骨格などの情報を含むことができる。
システム10は、先ず、画像データセットで学習された人体関連画像特徴を画像から抽出するステップと、抽出された人体関連画像特徴から人体ポーズ情報を特定するステップから構成される。
一実施形態において、人体関連画像特徴は、点、エッジ、線、輪郭、強度、勾配、画像内の小さいオブジェクトと大きいオブジェクトのコントラスト、これらオブジェクトの関係など、画像から得られる人体及び人体各部に関連する基本情報を含む。
一実施形態において、データセットは、人物が写っているか否かにかかわらず一連の基準画像と、人体の幾何学的形状に関連するグラウンドトゥルースラベルとを含む。ラベルは、画像内の2D人体関節位置(x,y)及び可視性(該当なし、可視、画像内に存在するが遮蔽されているなど。)、画像内の2D手関節位置及び可視性、画像内の2D顔面キーポイント位置及び可視性、人体輪郭、手の輪郭、3D人体関節位置などを含むことができる。データセットに含まれる全ての基準画像が、それに関連する全てのラベルを有するわけではない点に留意されたい。
一実施形態において、基準画像のデータセットは、トレーニング用の少なくとも数万の画像を含んでおり、大規模であるとみなされる。
システム10は、ポーズ情報のロバストな推定を行うためにCNNアーキテクチャを使用する。CNNは、畳込みニューラルネットワーク層(以下、畳込み層という。)から構成される。各畳込み層は前の畳込み層から入力データ又は処理済みデータを受け取り、その入力データに畳込み演算を適用した後、その出力データを後続層に送る。一実施形態において、畳込み層の出力は、テンソル又は多次元配列の形態である。
各畳込み層は、トレーニングされたカーネル重みを使用して、その入力データに畳込み演算を適用する。畳込み層の重みのトレーニングは、基準画像のデータセットを使用したバックプロパゲーション技術により実行される。一実施形態において、各畳込み層がCNNのよりロバストな決定を行うことができるように、整流された線形ユニット(ReLU)のような非線形活性化機能を入力データに適用するように構成される。ReLU機能以外の機能が、畳込み層により使用されてもよい点に留意されたい。
一実施形態において、システム10はディープCNNを使用する。一実施形態において、CNNは少なくとも3つの畳込み層を含む。層の少ない浅いアーキテクチャと比べ、ディープCNNアーキテクチャは、より多くのニューロンや重みを保有しており、おそらく、様々な入力データを収容し、ノイズやクラッタの影響を受けることなく、これらをロバストに分析する。
同じ又は別の実施形態では、CNNアーキテクチャは軽量の畳込み層を含む。各畳込み層は、カーネルの数及び/又はこれらのサイズを低減することにより、及び/又はダウンサンプリングを適用することにより、「計算を軽く」する。この場合、アーキテクチャは、ローエンド装置上で実行されるリアルタイムの人体ポーズ分析に適切なことがある。
一実施形態においては、CNNアーキテクチャの以下のアプローチに従う。
推定結果の精度に著しい影響を及ぼさない畳込み層は、排除してもよい。例えば、ダウンサンプリングも実行するプーリング層を除去し、プーリング層の前にある隣接する畳込み層が、その畳込み演算中にダウンサンプリングを実行してもよい。
最小入力画像解像度は、画像内の一般的な人物サイズを考慮して選択すればよい。例えば、画像内の80×80ピクセルの人物は、人体関連画像特徴をそれ程失うことなく、ロバストに分析することができる。解像度の低い画像では情報は不足するものの、人体ポーズの正確な概算を得るには十分なことがある。一実施形態においては、画像の解像度は48×48である。別の実施形態においては、画像の解像度は96×96である。さらに別の実施形態においては、画像の解像度は256×144である。また別の実施形態においては、画像の解像度は400×320である。
分析される最大解像度を制限して人の受容野を検討し、畳込み層の数及びこれらのカーネルサイズを決定することができる。例えば、84×84ピクセルの領域は、入力画像を4だけダウンサンプリングした後、11×11カーネルを有する2つの畳込み層でカバーすることができる。10 の3×3畳込み層は、より多くの層で同じ領域をカバーでき、しかも計算コストを低減する。
各畳込み層において定義される出力深度サイズは、結果として生ずる精度がユーザが選択した最小目標精度よりも高い場合に限り、低減され得る。計算コストは、カーネルサイズの各寸法(カーネル幅、高さ及び深度)並びに出力深度サイズに比例する。重みのサイズは、バイアスの数に加え、カーネル幅、高さ及び深度を乗算した値で決定してもよい。
CNNモデルは、データセット及び設計されたアーキテクチャを与えられたマシンが学習した重み及びバイアスを収集したものである。CNNモデルは経験的選択により、最高の精度を出すことができる。
図1を再び参照すると、該システムは、データベース20と通信する特徴抽出器30からなる。また、該システムは、2D人体骨格検出器40と、人体輪郭検出器60と、手の輪郭検出器70と、3D人体骨格検出器90とを備え、これらはすべて特徴抽出器30と通信している。システム10は、さらに、2D人体骨格検出器40と通信する顔面キーポイント検出器50と、手の輪郭検出器70と通信する手骨格検出器80とを備える。
データベース20は、そこに記憶された基準画像のデータセットを含む。一実施形態においては、データベース20は、システム10に含まれるメモリに格納される。別の実施形態においては、データベース20は、システム10に含まれないメモリに格納される。
図2に示すとおり、特徴抽出器30は、低レベル特徴抽出器110と、少なくとも1つの中間特徴抽出器120とを備える。
図2を参照すると、特徴抽出器30は、低レベル特徴抽出器110と、1つ以上の中間特徴抽出器120からなる。低レベル特徴抽出器110は、画像を受け取るステップと、強度、エッジ、勾配、曲率、点、物体形状などの画像内の局所領域の基本特性を表す低レベル特徴を画像から抽出するステップから構成される。中間特徴抽出器120は、低レベル特徴を受け取るステップと、低レベル特徴抽出器110により抽出された低レベル特徴を相関させて得られる高レベル特徴に対応し、人体各部の形状及び/又は関係などの人体ポーズ情報に関連する中間特徴を特定するステップから構成される。低レベル特徴及び中間特徴は共に、特徴抽出器30により出力される人体関連画像特徴を形成する。
図2に示すとおり、低レベル抽出器110は、異なる画像スケールにおける繰り返しブロックを含み、各ブロックは、ReLUにより活性化される一連の畳込み層を含む。
低レベル特徴抽出器110は、エッジ、輪郭、ブロブ、これらの向き、又は大規模画像データセットから学習したその他観察結果などの一般的な画像特徴を保有する。
Inception、VGG及びResNetなどの実績あるCNNアーキテクチャを、バックボーンネットワークとして検討することができる。軽量のバックボーンネットワークは、上記のとおり、人体ポーズ関連特徴の最小化を図りつつ、計算コストを低減するよう設計することができる。
中間特徴抽出器120は、CNNモデルがトレーニングされる際の中間監視を行うために構成される。中間監視は、最後の出力層に加え中間層(又は中間特徴抽出器の出力層)に損失層を追加することにより、CNNモデルのトレーニングを可能とする。ニューラルネットワークにおいて、損失層は、出力層とグラウンドトゥルースデータ間の差を比較し、各層における重みとバイアスのトレーニングを行うため逆方向に伝搬する。
中間特徴抽出器120内に存在する畳込み層の数及び各中間ステージに対するこれらのパラメータは、上述のとおり、入力画像及び対象オブジェクト、すなわち人体のサイズにより調整される。各中間ステージは、基準画像のデータセットを使用してトレーニングされる。たとえば、画像内の人体の関節が同じ位置にマークされている2D関節ヒートマップを、2D関節位置を使用して大量に生成することができる。ヒートマップ上の正確な関節位置は高い応答値を示すが、関節位置からの距離が遠くなれば、その位置の応答値は低く又はゼロとなる。注釈の付いている2D関節位置を使用してデータセットから生成されるグラウンドトゥルースヒートマップは、モデルトレーニング中にトレーニングモデルから推測される推定ヒートマップと比較される。該モデルは、ニューラルネットワーク内の結合層全体にわたり順方向及び逆方向伝播プロセスを繰り返して重み及びバイアス値を調整することによりトレーニングされる。
一実施形態において、中間特徴抽出器120の畳込み層の複数のステージをトレーニングすることにより、人体ポーズに関連する特徴がより深いネットワーク層を介して精緻化され、よりロバストな結果を得ることができる。さらに、モデルトレーニングの効率が上がる。
低レベル特徴抽出器110及び中間特徴抽出器120における各層の出力は、人体関連画像特徴テンソルとして表現することのできる人体関連画像特徴を形成する。目的に応じて、人体関連画像特徴テンソルのサブセットを、詳細な人体ポーズ分析に使用することができる。
図3は、2D人体関節推定ネットワーク210及び後処理モジュール220を備える2D人体骨格検出器40の一実施形態を示す。
2D人体骨格検出器40は、特徴抽出器30により生成された人体関連画像特徴のサブセットを入力として受け取り、2D関節ヒートマップを出力として生成する。人体関連画像特徴のサブセットは、人体の関節及び形状に関連する顕著な特徴を保有する特徴抽出器30の異なる畳込み層の出力特徴テンソルの組み合わせからなる。
一実施形態において、各出力特徴テンソルの品質を測定することが困難であることがある。この場合、低レベル特徴抽出器110及び/又は中間特徴抽出器120の端部に近い畳込み層を考慮すればよい、というのは、通常、これらは、畳込み層全体にわたり精緻化されるためである。例えば、低レベル特徴抽出器110及びN番目の中間特徴抽出器110における最後の畳込み層の出力特徴テンソルを選択して、2D人体骨格検出器40にデータを提供することができる。入力特徴サブセットが処理されると、2D人体骨格検出器40は、推定ヒートマップを推定し、これはヒートマップ内の極大値である関節位置の候補を決定するために使用され、ヒートマップ応答値は手動で定義された閾値を超える。画像内に複数の人物が存在する場合は、後処理ステップにおいて共同クラスタリングを行い、人物を分離して骨格を描く。
図4は、畳込み層を含む人体輪郭セグメンテーションモジュール310と、後処理モジュール320とを備える人体輪郭検出器60の一実施形態を示す。
人体輪郭検出器60は、画像内の全ての人体をセグメント化するステップと、人体マスク画像を生成するステップから構成される。人体輪郭セグメンテーション310の畳込み層は、特徴抽出器30から人体関連画像特徴テンソルを受け取り、人体輪郭で人体マスク画像を作成する。マスクは、各ピクセルにビット単位のマスキングを適用して、画像内の異なるオブジェクトをセグメント化するために使用される。人体マスク画像は、ピクセルが人物に属し、人物以外のピクセルが0 の場合、マスク値が1 になる二値画像である。人体関係画像特徴テンソルのスケールは、入力画像の幅及び高さと比べ通常2〜16倍減少するため、畳込み演算中にアップスケーリングを実行して、人体マスク画像の解像度を上げ、詳細をより保持するができる。
後処理モジュール320は、人体輪郭セグメンテーションモジュール310から推定マスク画像を取得し、マスク画像のサイズを変更して、ソース入力画像と同じ解像度にする。次に、人体マスク画像を使用して、画像内の人物の位置及び形状を識別することができる。
図5は、畳込み層により形成された手の輪郭セグメンテーションモジュール410と、後処理モジュール420とを備える手の輪郭検出器70の一実施形態を示す。
手の輪郭検出器モジュール410は、入力画像に存在する人の手をセグメント化するように構成され、人体輪郭検出器60と同様に、左手及び/又は右手のマスク画像を生成する。手の輪郭セグメンテーションモジュール410の畳込み層は、特徴抽出器30から人体関連画像特徴テンソルを受け取り、人体輪郭で手のマスク画像を作成する。
後処理モジュール420は、手の推定マスク画像のサイズ変更を行うように構成される。次に、手のマスク画像を使用して、画像内に見える手の位置及び形状を識別することができる。この情報は、各手のポーズをさらに分析する際に使用することができる。
一実施形態において、手の輪郭検出器70を人体輪郭検出器60と統合することができ、統合した検出器60及び70のトレーニングを一緒に行うことができる。これらの統合した検出器におけるニューラルネットワーク層は、計算の効率化を図るために共有してもよい。
図6は、畳込み層及び後処理モジュール520を構成する手関節推定モジュール510を備える手骨格検出器80の一実施形態を示す。
手骨格検出器80は、手の画像を受け取り、手の画像内の手関節の推定を行う。手の画像は、該システムにおいて指定されていない画像など、手の任意の画像でもよい。あるいは、手の画像は、手の輪郭検出器70により検出された手の領域(又は境界ボックス)を使用して、入力画像データ20からトリミングした手の画像でもよい。
手関節推定モジュール510は、特徴抽出ネットワーク110及び120のアーキテクチャと、2D人体関節推定ネットワーク210のアーキテクチャとを組み合わせた同様のアーキテクチャを用いて設計することができる。一実施形態においては、手骨格検出器80は、特徴抽出器30から人体関連画像特徴テンソルを直接受け取るように設計することができる。
手のポーズを推定するための後処理モジュール520は、推定ヒートマップを使用して関節位置の候補を決定し、手の骨格を描く。
図7は、畳込み層を含む3D人体関節推定モジュール610と、後処理モジュール620とを備える、3D人体骨格検出器90の一実施形態を示す。
3D人体骨格検出器90は、単一画像から人体関節の3D座標を推定するよう構成される。3D人体骨格検出器90は、人体関連画像特徴テンソルを受け取り、画像内において検出された人体の正規化された3D座標を推定する。後処理モジュール620は、正規化された3D位置を画像空間及び実世界空間にマッピングするように構成される。
図8は、畳込み層を含む顔面キーポイント推定モジュール710と、後処理モジュール720とを備える顔面キーポイント検出器50の一実施形態を示す。
顔面キーポイント検出器50は、目、耳、鼻などの顔面のキーポイントの大まかな位置を推定する2D人体骨格検出器40により決定され、顔面のトリミング画像を受け取る。目、上唇、下唇、顎、まつ毛、鼻などの輪郭点といったより細かいキーポイントの位置は、顔面キーポイント推定モジュール710の畳込み層により推定される。検出された顔面キーポイントの調整及び/又は外れ値フィルタリングは、後処理モジュール720により実行してもよい。
特徴抽出器30が決定した同一の人体関連画像特徴は、検出器40〜90のうち少なくともいくつかが共有して、人体ポーズ情報の推定が行われることに留意されたい。一実施形態では、特徴抽出器30は、画像から得ることのできるすべての人体関連画像特徴を特定し、各ニューラルネットワーク層にテンソル形式でこれを記憶する。
一実施形態において、特徴抽出器30は、スケール不変特徴変換(SIFT)及び指向勾配のヒストグラム(HOG)などの特徴記述子を明示的に定義することにより設計することができる。このような特徴抽出器は、データセットにかかわらず、画像特徴を事前に定義する。
一実施形態において、抽出器30及び検出器40〜90はそれぞれ、少なくとも1つの各プロセッサ又は処理ユニット、各通信ユニット、及び各メモリを備える。別の実施形態では、抽出器30及び検出器40〜90からなる群のうちの少なくとも2つは、同じプロセッサ、同じ通信ユニット及び/又は同じメモリを共有する。例えば、抽出器30及び検出器40〜90は、同じプロセッサ、同じ通信ユニット及び同じメモリを共有することができる。この場合、抽出器30及び検出器40〜90は、パーソナルコンピュータ、ラップトップ、タブレット、スマートフォンなどのコンピュータ機器のプロセッサにより実行される異なるモジュールに対応することができる。
上記の説明では検出器40〜90を備えるシステム10について言及したが、システム10は、検出器40〜90のうちの1つのみを備えることが可能である点に留意されたい。例えば、システム10は、検出器40〜90のうち少なくとも2つで構成することができる。
一実施形態においては、複数の検出器間で同じ人体関連画像特徴を共有して、各検出器に対する計算を最小限に抑え、分析の一貫性を保ち、高速化を図る。
図9は、いくつかの実施形態による、画像からの上記ポーズ情報の抽出を実行する例示的な処理モジュール800を示すブロック図である。処理モジュール800は、通常、メモリ804に記憶されたモジュール又はプログラム及び/若しくは命令を実行し、これにより処理演算、メモリ804、及びこれら構成要素を相互接続する1つ以上の通信バス806を実行する1つ以上のコンピュータ処理ユニット(CPU)及び/又はグラフィック処理ユニット(GPU)802を含む。通信バス806はオプションとして、システムコンポーネント間の通信を相互接続し、制御する回路(チップセットと呼ばれることもある。)を含む。メモリ804は、DRAM、SRAM、DDR RAMその他ランダムアクセスソリッドステートメモリ装置のような高速ランダムアクセスメモリを含み、1つ以上の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置その他不揮発性ソリッドステート記憶装置のような不揮発性メモリを含むことができる。メモリ804は、オプションとして、CPU802から遠隔配置された1つ以上の記憶装置を含む。メモリ804、又はメモリ804内の不揮発性メモリ装置は、一時的でないコンピュータ可読記憶媒体を備える。ある実施形態において、メモリ804、又はメモリ804のコンピュータ可読記憶媒体は、以下のプログラム、モジュール及びデータ構造、又はこれらのサブセットを記憶する。
画像から人体関連画像特徴を抽出する特徴抽出モジュール810
2D人体関節位置を推定する2D人体骨格検出モジュール812
人体輪郭を識別し、セグメント化する人体輪郭検出モジュール814
手の輪郭を識別し、セグメント化する手の輪郭検出モジュール816
3D人体関節位置を推定する3D人体骨格検出モジュール818
顔面キーポイント位置を推定する顔面キーポイント検出モジュール820
手関節位置を推定する手骨格検出モジュール822
上記の識別された各要素は、前記のメモリ装置の1つ以上に記憶することができ、上記の機能を実行するための一連の命令に対応する。上記の識別されたモジュール又はプログラム(すなわち、一連の命令)は、別個のソフトウェアプログラム、手続又はモジュールとして実装する必要がないため、これらモジュールの様々なサブセットを、様々な実施形態において組み合わせ又は再構成することができる。ある実施形態において、メモリ804は、上記の識別されたモジュール及びデータ構造のサブセットを記憶してもよい。さらに、メモリ804は、上に記載していない別のモジュール及びデータ構造を記憶してもよい。
図9は、処理モジュール800を示しているが、本明細書において説明される実施形態の構造概略図としてよりも、管理モジュール内に存在し得る様々な特徴の機能の概要として意図されるものである。実際には、当業者により認識されるように、別途示すアイテムを組み合わせることができ、また、いくつかのアイテムを分離することもできる。
上記の本発明の実施形態は、単なる例示にすぎない。したがって、本発明の適用範囲は、添付の特許請求の適用範囲のみにより限定されることが意図される。

Claims (8)

  1. 画像から人体関連画像特徴を抽出する特徴抽出器であって、基準画像のデータセットを含み、複数の第1 CNN層を含む第1 CNNアーキテクチャを備えたデータベースに接続可能であり、各畳込み層が、トレーニングされたカーネル重み、及び以下のモジュールのうち少なくとも1つ、すなわち、
    人体関連画像特徴から2D人体骨格情報を特定する2D人体骨格検出器、
    人体関連画像特徴から人体輪郭情報を特定する人体輪郭検出器、
    人体関連画像特徴から手の輪郭を特定する手の輪郭検出器、
    人体関連画像特徴から手骨格を特定する手骨格検出器、
    人体関連画像特徴から3D人体骨格を特定する3D人体骨格検出器、
    人体関連画像特徴から顔面キーポイントを特定する顔面キーポイント検出器、のうち少なくとも1つを使用して、その入力データに畳込み演算を適用するものを備え、
    2D人体骨格検出器、人体輪郭検出器、手の輪郭検出器、手骨格検出器、3D人体骨格検出器及び顔面キーポイント検出器の各々は、複数の第2 CNN層を含む第2畳込みニューラルネットワーク(CNN)アーキテクチャを備える、
    ことを特徴とする、画像から人体ポーズ情報を抽出するシステム。
  2. 前記特徴抽出器は、画像から低レベル特徴を抽出する低レベル特徴抽出器と、
    中間特徴を抽出する中間特徴抽出器とを備え、低レベル特徴及び中間特徴は共に人体関連画像特徴を形成する、
    ことを特徴とする請求項2に記載のシステム。
  3. 前記第1及び第2アーキテクチャのうちの少なくとも1つが、ディープCNNアーキテクチャを備えることを特徴とする請求項1又は2に記載のシステム。
  4. 前記第1及び第2 CNN層のうちの1つが軽量層を含むことを特徴とする請求項1から3までのいずれか1項に記載のシステム。
  5. 画像を受け取るステップ、
    特徴抽出器を使用して画像から人体関連画像特徴を抽出し、該特徴抽出器は、基準画像のデータセットを含み、複数の第1 CNN層を含む第1畳込みニューラルネットワーク(CNN)アーキテクチャを備えたデータベースに接続可能であり、各畳込み層が、トレーニングされたカーネル重みを使用してその入力データに畳込み演算を適用するステップ、
    以下のモジュールのうち少なくとも1つ、すなわち、
    人体関連画像特徴から2D人体骨格情報を特定する2D人体骨格検出器、
    人体関連画像特徴から人体輪郭情報を特定する人体輪郭検出器、
    人体関連画像特徴から手の輪郭を特定する手の輪郭検出器、
    人体関連画像特徴から手の骨格を特定する手の骨格検出器、
    人体関連画像特徴から3D人体骨格を特定する3D人体骨格検出器、
    人体関連画像特徴から顔面キーポイントを特定する顔面キーポイント検出器、
    のうちの少なくとも1つを使用して人体ポーズ情報を特定するステップから構成され、
    2D人体骨格検出器、人体輪郭検出器、手の輪郭検出器、手骨格検出器、3D人体骨格検出器及び顔面キーポイント検出器の各々は、複数の第2 CNN層を含む第2畳込みニューラルネットワーク(CNN)アーキテクチャを備えることを特徴とする、
    画像から人体ポーズ情報を抽出する方法。
  6. 前記特徴抽出器は、画像から低レベル特徴を抽出する低レベル特徴抽出器と、
    中間特徴を抽出する中間特徴抽出器とを備え、低レベル特徴及び中間特徴は共に、人体関連画像特徴を形成する、
    ことを特徴とする請求項5に記載の方法。
  7. 前記第1及び第2アーキテクチャのうちの少なくとも1つが、ディープCNNアーキテクチャを備えることを特徴とする請求項5又は6に記載の方法。
  8. 前記第1及び第2 CNN層のうちの1つが軽量層を含むことを特徴とする請求項5から7までのいずれか1項に記載の方法。
JP2020572672A 2018-06-29 2019-06-27 人体ポーズ分析システム及び方法 Active JP7417555B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862691818P 2018-06-29 2018-06-29
US62/691,818 2018-06-29
PCT/CA2019/050887 WO2020000096A1 (en) 2018-06-29 2019-06-27 Human pose analysis system and method

Publications (2)

Publication Number Publication Date
JP2021529389A true JP2021529389A (ja) 2021-10-28
JP7417555B2 JP7417555B2 (ja) 2024-01-18

Family

ID=68985280

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020572672A Active JP7417555B2 (ja) 2018-06-29 2019-06-27 人体ポーズ分析システム及び方法

Country Status (6)

Country Link
US (1) US20210264144A1 (ja)
EP (1) EP3813661A4 (ja)
JP (1) JP7417555B2 (ja)
KR (1) KR20210028185A (ja)
CA (1) CA3105272A1 (ja)
WO (1) WO2020000096A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7014304B2 (ja) * 2018-10-22 2022-02-01 富士通株式会社 認識方法、認識プログラム、認識装置および学習方法
CN111435432B (zh) * 2019-01-15 2023-05-26 北京市商汤科技开发有限公司 网络优化方法及装置、图像处理方法及装置、存储介质
CN110335277A (zh) * 2019-05-07 2019-10-15 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
US20210312236A1 (en) * 2020-03-30 2021-10-07 Cherry Labs, Inc. System and method for efficient machine learning model training
US20230154092A1 (en) * 2020-04-23 2023-05-18 Intel Corporation Kinematic interaction system with improved pose tracking
CN111694429B (zh) 2020-06-08 2023-06-02 北京百度网讯科技有限公司 虚拟对象驱动方法、装置、电子设备及可读存储
CN111985414B (zh) * 2020-08-21 2024-02-23 成都数字天空科技有限公司 一种关节点位置确定方法及装置
CN112131965B (zh) * 2020-08-31 2023-10-13 深圳云天励飞技术股份有限公司 一种人体姿态估计方法、装置、电子设备及存储介质
CN112336342B (zh) * 2020-10-29 2023-10-24 深圳市优必选科技股份有限公司 手部关键点检测方法、装置及终端设备
US11445121B2 (en) * 2020-12-29 2022-09-13 Industrial Technology Research Institute Movable photographing system and photography composition control method
US20240078832A1 (en) * 2021-02-26 2024-03-07 Nec Corporation Joint detection apparatus, learning-model generation apparatus, joint detection method, learning-model generation method, and computer readable recording medium
WO2022181251A1 (ja) * 2021-02-26 2022-09-01 日本電気株式会社 関節点検出装置、関節点検出方法、及びコンピュータ読み取り可能な記録媒体
CN114496263B (zh) * 2022-04-13 2022-07-12 杭州研极微电子有限公司 用于体重指数估计的神经网络模型建立方法及存储介质
WO2024015620A1 (en) * 2022-07-15 2024-01-18 Omnimed Tracking performance of medical procedures

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204384A (ja) * 2007-02-22 2008-09-04 Canon Inc 撮像装置、物体検出方法及び姿勢パラメータの算出方法
JP2017157138A (ja) * 2016-03-04 2017-09-07 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
US20180150681A1 (en) * 2016-11-30 2018-05-31 Altumview Systems Inc. Face detection using small-scale convolutional neural network (cnn) modules for embedded systems

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8437506B2 (en) * 2010-09-07 2013-05-07 Microsoft Corporation System for fast, probabilistic skeletal tracking
EP3149653A4 (en) * 2014-05-29 2017-06-14 Beijing Kuangshi Technology Co., Ltd. Facial landmark localization using coarse-to-fine cascaded neural networks
CN104346607B (zh) * 2014-11-06 2017-12-22 上海电机学院 基于卷积神经网络的人脸识别方法
CN105069423B (zh) * 2015-07-29 2018-11-09 北京格灵深瞳信息技术有限公司 一种人体姿态检测方法及装置
JP6730443B2 (ja) * 2016-03-21 2020-07-29 ザ プロクター アンド ギャンブル カンパニーThe Procter & Gamble Company カスタマイズされた製品の推奨を提供するためのシステム及び方法
CN108369643B (zh) * 2016-07-20 2022-05-13 杭州凌感科技有限公司 用于3d手部骨架跟踪的方法和系统
US10582907B2 (en) * 2016-10-31 2020-03-10 Siemens Healthcare Gmbh Deep learning based bone removal in computed tomography angiography
US11010595B2 (en) * 2017-03-23 2021-05-18 Samsung Electronics Co., Ltd. Facial verification method and apparatus
CA2995242A1 (en) * 2018-02-15 2019-08-15 Wrnch Inc. Method and system for activity classification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204384A (ja) * 2007-02-22 2008-09-04 Canon Inc 撮像装置、物体検出方法及び姿勢パラメータの算出方法
JP2017157138A (ja) * 2016-03-04 2017-09-07 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
US20180150681A1 (en) * 2016-11-30 2018-05-31 Altumview Systems Inc. Face detection using small-scale convolutional neural network (cnn) modules for embedded systems

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ALEXANDER TOSHEV ET AL.: ""DeepPose: Human Pose Estimation via Deep Neural Networks"", 2014 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6023010242, 23 June 2014 (2014-06-23), US, pages 1653 - 1660, ISSN: 0005022164 *
JINYOUNG CHOI ET AL.: ""Human Body Orientation Estimation using Convolutional Neural Network"", ARXIV, JPN7023001009, 7 September 2016 (2016-09-07), US, pages 1 - 5, ISSN: 0005022167 *
KEZE WANG ET AL.: ""Human Pose Estimation from Depth Images via Inference Embedded Multi-task Learning"", MM '16: PROCEEDINGS OF THE 24TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, JPN7023001010, 1 October 2016 (2016-10-01), US, pages 1227 - 1236, XP058629670, ISSN: 0005022163, DOI: 10.1145/2964284.2964322 *
RAJEEV RANJAN ET AL.: ""HyperFace: A Deep Multi-Task Learning Framework for Face Detection, Landmark Localization, Pose Est", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 41, no. 1, JPN6023010243, 8 December 2017 (2017-12-08), US, pages 121 - 135, XP011703713, ISSN: 0005022162, DOI: 10.1109/TPAMI.2017.2781233 *
SHIH-EN WEI ET AL.: ""Convolutional Pose Machines"", 2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), JPN6023010241, 27 June 2016 (2016-06-27), US, pages 4724 - 4732, XP033021664, ISSN: 0005022165, DOI: 10.1109/CVPR.2016.511 *
SIJIN LI ET AL.: ""Heterogeneous Multi-task Learning for Human Pose Estimation with Deep Convolutional Neural Network"", 2014 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS, JPN6023010244, 23 June 2014 (2014-06-23), US, pages 488 - 495, XP032649680, ISSN: 0005022161, DOI: 10.1109/CVPRW.2014.78 *
一原 賢吾、外3名: ""姿勢推定技術に基づく機械学習を活用した人物の不審動作認識手法の精度評価"", 電子情報通信学会技術研究報告, vol. 117, no. 485, JPN6023010240, 1 March 2018 (2018-03-01), JP, pages 89 - 94, ISSN: 0005022166 *

Also Published As

Publication number Publication date
CA3105272A1 (en) 2020-01-02
JP7417555B2 (ja) 2024-01-18
KR20210028185A (ko) 2021-03-11
US20210264144A1 (en) 2021-08-26
EP3813661A1 (en) 2021-05-05
WO2020000096A1 (en) 2020-01-02
EP3813661A4 (en) 2022-04-06

Similar Documents

Publication Publication Date Title
JP7417555B2 (ja) 人体ポーズ分析システム及び方法
Kruthiventi et al. Saliency unified: A deep architecture for simultaneous eye fixation prediction and salient object segmentation
US9275273B2 (en) Method and system for localizing parts of an object in an image for computer vision applications
CN111178251B (zh) 一种行人属性识别方法及系统、存储介质及终端
Jian et al. The OUC-vision large-scale underwater image database
CN111052126A (zh) 行人属性识别与定位方法以及卷积神经网络系统
CN109714526B (zh) 智能摄像头及控制系统
WO2019071976A1 (zh) 基于区域增长和眼动模型的全景图像显著性检测方法
US20220262093A1 (en) Object detection method and system, and non-transitory computer-readable medium
CN111209873A (zh) 一种基于深度学习的高精度人脸关键点定位方法及系统
Swathi et al. A smart application to detect pupil for small dataset with low illumination
CN112541394A (zh) 黑眼圈及鼻炎识别方法、系统及计算机介质
Sun et al. An image enhancement approach for coral reef fish detection in underwater videos
CN113658223B (zh) 一种基于深度学习的多行人检测与跟踪方法及系统
Vlachynska et al. Dogface detection and localization of dogface’s landmarks
Eldho et al. YOLO based Logo detection
Estrada et al. Appearance-based keypoint clustering
CN114118127A (zh) 一种视觉场景标志检测与识别方法及装置
Chen et al. MTN-Net: a multi-task network for detection and segmentation of thyroid nodules in ultrasound images
Megalingam et al. Color and Contour Based Identification of Stem of Coconut Bunch
Madhukar et al. A Systematized Chronicity based Disease Classification in Coffee Leaves using Deep Learning
Beebe A Complete Bibliography of Publications in International Journal of Image and Graphics
Felix et al. Image Processing Techniques to Improve Deep 6DoF Detection in RGB Images
Ingale et al. Deep Learning for Crowd Image Classification for Images Captured Under Varying Climatic and Lighting Condition
Deshapriya et al. Centroid-UNet: Detecting centroids in aerial images

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20210928

A625 Written request for application examination (by other person)

Free format text: JAPANESE INTERMEDIATE CODE: A625

Effective date: 20220511

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20221109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230619

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231110

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20231121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240105

R150 Certificate of patent or registration of utility model

Ref document number: 7417555

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150