JP2022537865A - 対象計数方法、装置、電子機器、記憶媒体及びプログラム - Google Patents

対象計数方法、装置、電子機器、記憶媒体及びプログラム Download PDF

Info

Publication number
JP2022537865A
JP2022537865A JP2021547419A JP2021547419A JP2022537865A JP 2022537865 A JP2022537865 A JP 2022537865A JP 2021547419 A JP2021547419 A JP 2021547419A JP 2021547419 A JP2021547419 A JP 2021547419A JP 2022537865 A JP2022537865 A JP 2022537865A
Authority
JP
Japan
Prior art keywords
head
image
head region
processed
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021547419A
Other languages
English (en)
Inventor
夏▲鵬▼程
▲楊▼昆霖
侯▲軍▼
伊▲帥▼
Original Assignee
ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド filed Critical ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Publication of JP2022537865A publication Critical patent/JP2022537865A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Pinball Game Machines (AREA)

Abstract

本願は、対象計数方法、装置、電子機器、記憶媒体及びプログラムに関する。前記方法は、処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得することと、前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得することと、前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することと、を含む。本願の実施例は、対象計数及び位置決めの精度を向上させることができる。

Description

(関連出願の相互参照)
本願は、2020年5月28日に提出された、出願番号が202010469232.7である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願は、コンピュータ技術分野に関し、特に対象計数方法、装置、電子機器、記憶媒体及びプログラムに関する。
ビデオモニタリングは生活中に広く適用されていることに伴い、ビデオにおける群衆の計数及び位置決めは、社会的公衆安全などの点で、入れ替わらない役割を持つ。関連技術において、ビデオにおける群衆の計数及び位置決めは、コンピュータビジョンアルゴリズムにより、ビデオ画像中のリアルタイム人数、人間の分布及び群衆の密度などを評価することである。これは、群衆の遮蔽又はインタラクション減少による誤判定を引き起こしやすく、更に、決定された群衆計数及び位置決めの正確度が低いことを引き起こしやすい。
本願は、対象計数の技術的解決手段を提供する。
本願の実施例は、対象計数方法を提供する。前記方法は、
処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得することと、
前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得することと、
前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することと、を含む。このように、処理されるべき画像に対して特徴抽出を行うことで得られた頭部キーポイント及び頭部領域により、処理されるべき画像に対して対象計数及び位置決めを行い、処理されるべき画像における対象の数及び位置を取得することで、対象計数及び位置決めの精度を向上させることができる。
可能な実現形態において、前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することは、
各前記頭部キーポイントと各前記頭部領域の中心点との間の類似度を決定することと、
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得することと、
前記マージ情報、マージされていない頭部キーポイント及びマージされていない頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することと、を含む。このように、マージ情報、マージされていない頭部キーポイント及びマージされていない頭部領域に基づいて、処理されるべき画像における対象の数及び位置を迅速かつ正確に決定する。
可能な実現形態において、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得することは、
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を削除することと、
前記頭部キーポイント及び前記頭部領域の寸法に基づいて、マージ後の頭部領域を取得することと、を含み、前記マージ情報は、前記頭部キーポイント及び前記マージ後の頭部領域を含む。このように、閾値条件を満たす頭部領域を削除し、頭部キーポイント及び頭部領域の寸法に基づいて、頭部領域を決定することで、頭部領域の決定の正確性を向上させる。
可能な実現形態において、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得することは、
前記頭部キーポイントを信頼度に応じて順序付けすることと、
前記頭部キーポイントの信頼度の降順に応じて、前記頭部キーポイントと前記頭部領域をマージし、前記マージ情報を取得することと、を含む。このように、信頼度に応じて頭部キーポイントを順序付けし、信頼度の降順に応じて頭部キーポイントと頭部領域をマージすることで、決定されたマージ情報の正確度を向上させることができる。
可能な実現形態において、前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイントを取得することは、
前記初期特徴マップに対してダウンサンプリング処理を行い、スケールが異なる複数のダウンサンプリング特徴マップを取得することと、
複数の前記ダウンサンプリング特徴マップのうちのスケールが中位であるダウンサンプリング特徴マップに対してアップサンプリング処理を行い、アップサンプリング特徴マップを取得することであって、前記アップサンプリング特徴マップのスケールは、前記初期特徴マップのスケールと同じである、ことと、
前記アップサンプリング特徴マップに基づいて、頭部キーポイント認識を行い、前記処理されるべき画像における頭部キーポイントを取得することと、を含む。このように、複数のダウンサンプリング特徴マップから、スケールが中位であるダウンサンプリング特徴マップを選択してアップサンプリング処理を行い、スケールが初期特徴マップのスケールと一致するアップサンプリング特徴マップを取得し、該アップサンプリング特徴マップに基づいて、頭部キーポイント認識を行うことで、得られた処理されるべき画像における頭部キーポイントをより正確にする。
可能な実現形態において、前記初期特徴マップに基づいて、前記処理されるべき画像における頭部領域を取得することは、
複数の前記ダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記ダウンサンプリング特徴マップに対応する頭部領域を取得することと、
各前記ダウンサンプリング特徴マップに対応する頭部領域に対してマージ処理を行い、前記処理されるべき画像に対応する頭部領域を取得することと、を含む。このように、複数のダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、複数の頭部領域を取得し、複数の頭部領域に対してマージ処理を行うことで、得られた処理されるべき画像における頭部領域をより正確にする。
可能な実現形態において、前記処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得すること、及び前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得することは、位置決めネットワークにより実現され、前記方法は、
所定の訓練集合により、前記位置決めネットワークを訓練することであって、前記訓練集合は、複数のサンプル群を含み、前記サンプル群に、サンプル画像、サンプル画像に対応するラベル付けされた頭部キーポイント及びラベル付けされた頭部領域が含まれる、ことを更に含む。このように、所定の訓練集合により、位置決めネットワークを訓練し、該位置決めネットワークにより、処理されるべき画像に対して特徴抽出を行い、初期特徴マップを取得し、該初期特徴マップに基づいて、処理されるべき画像における頭部キーポイント及び頭部領域をより正確に取得する。
可能な実現形態において、前記位置決めネットワークは、特徴抽出ネットワーク、頭部キーポイント位置決めネットワーク及び頭部領域位置決めネットワークを含み、所定の訓練集合により、前記位置決めネットワークを訓練することは、
前記特徴抽出ネットワークにより、前記サンプル画像に対して特徴抽出を行い、前記サンプル画像の初期特徴マップを取得することと、
前記サンプル画像の初期特徴マップに対してダウンサンプリング処理を行い、サイズが異なる複数のサンプルダウンサンプリング特徴マップを取得することと、
前記頭部キーポイント位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してアップサンプリング処理を行い、サンプルアップサンプリング特徴マップを取得することであって、前記サンプルアップサンプリング特徴マップのサイズは、前記サンプル画像の初期特徴マップのサイズと一致する、ことと、
前記頭部キーポイント位置決めネットワークにより、前記サンプルアップサンプリング特徴マップに対して頭部キーポイント認識を行い、前記サンプル画像に対応する頭部キーポイントを取得することと、
前記サンプル画像に対応する頭部キーポイント及び前記ラベル付けされた頭部キーポイントに基づいて、前記頭部キーポイント位置決めネットワークを訓練することと、を含む。このように、特徴抽出ネットワーク、頭部キーポイント位置決めネットワーク及び頭部領域位置決めネットワークにより、サンプル画像に対して、関連特徴抽出を行い、頭部キーポイント位置決めネットワークを訓練することで、訓練された頭部キーポイント位置決めネットワークの性能をより好ましくする。
可能な実現形態において、所定の訓練集合により、前記位置決めネットワークを訓練することは、
前記頭部領域位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記サンプルダウンサンプリング特徴マップに対応する頭部領域を取得することと、
前記サンプルダウンサンプリング特徴マップに対応する頭部領域及び前記ラベル付けされた頭部領域に基づいて、前記頭部領域位置決めネットワークを訓練することと、を更に含む。このように、サンプルダウンサンプリング特徴マップに対応する頭部領域及びラベル付けされた頭部領域により、頭部領域位置決めネットワークを訓練することで、訓練された頭部領域位置決めネットワークの性能をより好ましくする。
可能な実現形態において、前記初期特徴マップに基づいて、前記処理されるべき画像における頭部領域を取得することは、
前記処理されるべき画像における各頭部領域の位置情報を決定することと、
各前記頭部領域の位置情報、及び頭部領域の寸法と前記頭部領域の位置情報との関連付け関係に基づいて、前記頭部領域の寸法を決定することと、
前記頭部領域の位置情報及び前記頭部領域の寸法に基づいて、前記頭部領域を取得することと、を含む。このように、処理されるべき画像における各頭部領域の位置情報、頭部領域の寸法により得られた頭部領域の正確度は、より高い。
下記装置、電子機器などの効果に関する説明は、上記方法の説明を参照されたい。ここで、詳細な説明を省略する。
本願の実施例は、対象計数装置を提供する。前記装置は、
処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得するように構成される特徴抽出モジュールと、
前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得するように構成される処理モジュールと、
前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定するように構成される計数モジュールと、を備える。
可能な実現形態において、前記計数モジュールは更に、
各前記頭部キーポイントと各前記頭部領域の中心点との間の類似度を決定し、
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得し、
前記マージ情報、マージされていない頭部キーポイント及びマージされていない頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定するように構成される。
可能な実現形態において、前記計数モジュールは更に、
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を削除し、
前記頭部キーポイント及び前記頭部領域の寸法に基づいて、マージ後の頭部領域を取得するように構成され、前記マージ情報は、前記頭部キーポイント及び前記マージ後の頭部領域を含む。
可能な実現形態において、前記計数モジュールは更に、
前記頭部キーポイントを信頼度に応じて順序付けし、
前記頭部キーポイントの信頼度の降順に応じて、前記頭部キーポイントと前記頭部領域をマージし、マージ情報を取得するように構成される。
可能な実現形態において、前記処理モジュールは更に、
前記初期特徴マップに対してダウンサンプリング処理を行い、スケールが異なる複数のダウンサンプリング特徴マップを取得することと、
複数の前記ダウンサンプリング特徴マップのうちのスケールが中位であるダウンサンプリング特徴マップに対してアップサンプリング処理を行い、アップサンプリング特徴マップを取得することであって、前記アップサンプリング特徴マップのスケールは、前記初期特徴マップのスケールと同じである、ことと、
前記アップサンプリング特徴マップに基づいて、頭部キーポイント認識を行い、前記処理されるべき画像における頭部キーポイントを取得することと、を実行するように構成される。
可能な実現形態において、前記処理モジュールは更に、
複数の前記ダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記ダウンサンプリング特徴マップに対応する頭部領域を取得し、
各前記ダウンサンプリング特徴マップに対応する頭部領域に対してマージ処理を行い、前記処理されるべき画像に対応する頭部領域を取得するように構成される。
可能な実現形態において、前記特徴抽出モジュール及び前記処理モジュールは、前記位置決めネットワークにより実現され、前記装置は、
所定の訓練集合により、前記位置決めネットワークを訓練するように構成される訓練モジュールであって、前記訓練集合は、複数のサンプル群を含み、前記サンプル群に、サンプル画像、サンプル画像に対応するラベル付けされた頭部キーポイント及びラベル付けされた頭部領域が含まれる、訓練モジュールを更に備える。
可能な実現形態において、前記位置決めネットワークは、特徴抽出ネットワーク、頭部キーポイント位置決めネットワーク及び頭部領域位置決めネットワークを含み、前記訓練モジュールは更に、
前記特徴抽出ネットワークにより、前記サンプル画像に対して特徴抽出を行い、前記サンプル画像の初期特徴マップを取得することと、
前記サンプル画像の初期特徴マップに対してダウンサンプリング処理を行い、サイズが異なる複数のサンプルダウンサンプリング特徴マップを取得することと、
前記頭部キーポイント位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してアップサンプリング処理を行い、サンプルアップサンプリング特徴マップを取得することであって、前記サンプルアップサンプリング特徴マップのサイズは、前記サンプル画像の初期特徴マップのサイズと一致する、ことと、
前記頭部キーポイント位置決めネットワークにより、前記サンプルアップサンプリング特徴マップに対して頭部キーポイント認識を行い、前記サンプル画像に対応する頭部キーポイントを取得することと、
前記サンプル画像に対応する頭部キーポイント及び前記ラベル付けされた頭部キーポイントに基づいて、前記頭部キーポイント位置決めネットワークを訓練することと、を実行するように構成される。
可能な実現形態において、前記訓練モジュールは更に、
前記頭部領域位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記サンプルダウンサンプリング特徴マップに対応する頭部領域を取得し、
前記サンプルダウンサンプリング特徴マップに対応する頭部領域及び前記ラベル付けされた頭部領域に基づいて、前記頭部領域位置決めネットワークを訓練するように構成される。
可能な実現形態において、前記処理モジュールは更に、
前記処理されるべき画像における各頭部領域の位置情報を決定し、
各前記頭部領域の位置情報、及び頭部領域の寸法と前記頭部領域の位置情報との関連付け関係に基づいて、前記頭部領域の寸法を決定し、
前記頭部領域の位置情報及び前記頭部領域の寸法に基づいて、前記頭部領域を取得するように構成される。
本願の実施例は、電子機器を提供する。前記電子機器は、プロセッサと、前記プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、前記プロセッサは、前記メモリに記憶されている命令を呼び出して、上記方法を実行するように構成される。
本願の実施例は、コンピュータ可読記憶媒体を更に提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されると、該プロセッサに上記方法を実現させる。
本願の実施例は、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードがコンピュータで実行されると、前記コンピュータに上記いずれか1つの対象計数方法を実行させる。
このように、処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得し、前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得し、前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することができる。本願の実施例で提供される対象計数方法、装置、電子機器、記憶媒体及びプログラムによれば、頭部キーポイント及び頭部領域を利用して対象計数及び位置決めを行うことができる。頭部キーポイント及び頭部領域により、相互補完を行うことで、処理されるべき画像におけるスケールが異なる頭部に、異なるラベル形式を持たせることができ、対象計数及び位置決めの精度を向上させることができる。
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。本願の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。
本願の実施例による対象計数方法を示すフローチャートである。 本願の実施例による対象計数のネットワークアーキテクチャを示す概略図である。 本願の実施例によるスケールが異なるダウンサンプリング特徴マップを示す概略図である。 本願の実施例による対象計数方法により処理されるべき画像を処理する各段階を示す概略図である。 本願の実施例による対象計数方法により処理されるべき画像を処理する各段階を示す概略図である。 本願の実施例による対象計数方法により処理されるべき画像を処理する各段階を示す概略図である。 本願の実施例による対象計数方法により処理されるべき画像を処理する各段階を示す概略図である。 本願の実施例による対象計数装置500を示すブロック図である。 本願の実施例による電子機器600を示すブロック図である。 本願の実施例による電子機器700を示すブロック図である。
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の実施例の技術的解決手段を解釈することに用いられる。
以下、図面を参照しながら本願の実施例の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。
ここで使用した「例示的」という用語は、「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。
本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。また、本明細書において、用語「少なくとも1つ」は、複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを表す。例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。
なお、本願の実施例をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本願の実施例の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。
図1は、本願の実施例による対象計数方法を示すフローチャートである。可能な実現形態において、前記対象計数方法は、端末機器又はサーバなどの電子機器により実行されてもよい。端末機器は、ユーザ装置(User Equipment:UE)、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント(Personal Digital Assistant:PDA)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。前記方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。又は、サーバにより前記方法を実行してもよい。
図1に示すように、前記対象計数方法は以下を含む。
ステップS11において、処理されるべき画像に対して特徴抽出を行い、処理されるべき画像の初期特徴マップを取得する。
ステップS12において、初期特徴マップに基づいて、処理されるべき画像における頭部キーポイント及び頭部領域を取得する。
例を挙げると、処理されるべき画像における画像特徴を抽出し、処理されるべき画像の初期特徴マップを取得することができる。また、初期特徴マップに対して認識を行い、処理されるべき画像における頭部キーポイント及び頭部領域を取得する。ここで、頭部キーポイントは、対象頭部に対応するキーポイントであり、頭部領域は、対象の頭部に対応するブロック図である。
例示的に、事前訓練された特徴抽出ネットワークにより、処理されるべき画像に対して特徴抽出を行い、処理されるべき画像の初期特徴マップを取得し、事前訓練された位置決めネットワークにより、初期特徴マップに対して認識を行い、処理されるべき画像における頭部キーポイント及び頭部領域を取得することができる。
ステップS13において、頭部キーポイント及び頭部領域に基づいて、処理されるべき画像に対して対象計数及び位置決めを行い、処理されるべき画像における対象の数及び位置を決定する。
図2は、本願の実施例による対象計数のネットワークアーキテクチャを示す概略図である。図2に示すように、該ネットワークアーキテクチャに、画像取得端末201、ネットワーク202及び対象計数端末203が備えられる。例示的なアプリケーションをサポートするために、画像取得端末201と対象計数端末203は、ネットワーク202を介して通信接続され、画像取得端末201は、ネットワーク202を経由して、対象計数端末203に、処理されるべき画像を報告し、対象計数端末203は、受信した処理されるべき画像に応答して、処理されるべき画像に対して特徴抽出を行い、処理されるべき画像の初期特徴マップを取得し、初期特徴マップに基づいて、処理されるべき画像における頭部キーポイント及び頭部領域を取得し、頭部キーポイント及び頭部領域に基づいて、処理されるべき画像に対して対象計数及び位置決めを行い、処理されるべき画像における対象の数及び位置を決定する。最後に、対象計数端末203は、該対象の数及び位置情報をネットワーク202にアップロードし、ネットワーク203を経由して画像取得端末201に送信する。
例を挙げると、頭部キーポイント及び頭部領域に基づいて、処理されるべき画像に対して対象計数及び位置決めを行うことができる。例えば、同一の人物に対応する頭部キーポイントと頭部領域をマージした後、マージされていない頭部キーポイント及び頭部領域と共に、処理されるべき画像に対する計数及び位置決めに用いることで、処理されるべき画像における対象の数及び位置を取得する。
このように、処理されるべき画像に対して特徴抽出を行い、処理されるべき画像の初期特徴マップを取得し、初期特徴マップに基づいて、処理されるべき画像における頭部キーポイント及び頭部領域を取得し、頭部キーポイント及び頭部領域に基づいて、処理されるべき画像に対して対象計数及び位置決めを行い、処理されるべき画像における対象の数及び位置を決定することができる。本願の実施例で提供される対象計数方法によれば、頭部キーポイント及び頭部領域を利用して対象計数及び位置決めを行うことができる。頭部キーポイント及び頭部領域により、相互補完を行うことで、処理されるべき画像におけるスケールが異なる頭部に、異なるラベル形式を持たせることができ、対象計数及び位置決めの精度を向上させることができる。
可能な実現形態において、頭部キーポイント及び頭部領域に基づいて、処理されるべき画像に対して対象計数及び位置決めを行い、処理されるべき画像における対象の数及び位置を決定することは、
各頭部キーポイントと各頭部領域の中心点との間の類似度を決定することと、
頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、頭部キーポイントとの類似度が閾値条件を満たす頭部領域と頭部キーポイントをマージし、マージ情報を取得することと、
マージ情報、マージされていない頭部キーポイント及びマージされていない頭部領域に基づいて、処理されるべき画像に対して対象計数及び位置決めを行い、処理されるべき画像における対象の数及び位置を決定することと、を含んでもよい。
例を挙げると、頭部領域は、中心点を含んでもよい。各頭部領域の中心点の座標と各頭部キーポイントの座標との距離を決定し、該距離に基づいて、頭部キーポイントと頭部領域の中心点との間の類似度を決定することができる。例示的に、処理されるべき画像における頭部キーポイントと頭部領域の中心点との間の類似度は、距離及び処理されるべき画像における遠近程度に関わる。遠位の頭部キーポイントと頭部領域の中心点との距離により類似度を評価するための基準は、近位の頭部キーポイントと頭部領域の中心点との距離により類似度を評価するための基準と異なる。従って、評価重み値及び各頭部領域の中心点の座標と各頭部キーポイントの座標との距離により、頭部キーポイントと頭部領域の中心点との間の類似度を決定することができる。ここで、評価重み値は、処理されるべき画像における、頭部キーポイントと頭部領域の遠近程度を表すためのものである。
例示的に、頭部キーポイントは、ポイント集合Pを構成することができる。ポイント集合Pにおけるa番目の頭部キーポイントを(xa,ya)と記してもよく、ここで、(xa,ya)は、a番目の頭部キーポイントの座標である。頭部領域は、領域集合Bを構成することができる。領域集合Bにおけるj番目の頭部領域を(xb,yb,wb,hb)と記してもよく、ここで、(xb,yb)は、b番目の頭部領域の中心点の座標であり、(wb,hb)はそれぞれ、b番目の頭部領域の幅及び高さである。ポイント集合Pにおけるいずれか1つの頭部キーポイントと領域集合Bにおけるいずれか1つの頭部領域の中心点との間の類似度を算出することができる。
例を挙げると、頭部領域の中心点と頭部キーポイントとの類似度が類似度閾値(類似度閾値は、所定の数値である)より大きい場合、該頭部領域の中心点と該頭部キーポイントとの類似度が閾値条件を満たすと判定することができる。つまり、該頭部キーポイントと該頭部領域が同一の対象に対応すると認められる。頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、頭部キーポイントとの類似度が閾値条件を満たす頭部領域と該頭部キーポイントをマージし、マージ情報を取得する。例えば、頭部キーポイント及び信頼度が低い頭部領域を削除し、信頼度が高い頭部領域を保持する。又は、全ての頭部領域を削除し、頭部キーポイントを保持する。
マージを完了した後、マージ情報、マージされていない頭部キーポイント(該頭部キーポイントとの類似度が閾値条件を満たす頭部領域は存在しない。又は、該頭部キーポイントとの類似度が閾値条件を満たす頭部領域が削除された)及びマージされていない頭部領域(該頭部領域との類似度が閾値条件を満たす頭部キーポイントは存在しない。該頭部領域との類似度が閾値条件を満たす頭部キーポイントが削除された)に基づいて、処理されるべき画像に対して計数及び位置決めを行う。例示的に、処理されるべき画像に、頭部キーポイント1、頭部キーポイント2、頭部キーポイント3、頭部領域1、頭部領域2、頭部領域3が存在する。ここで、頭部キーポイント2と頭部領域1をマージした後、頭部領域1が削除された。従って、頭部キーポイント1、頭部キーポイント2、頭部キーポイント3、頭部領域2、頭部領域3に基づいて、対象に対して計数及び位置決めを行うことで、処理されるべき画像における対象の数が5であることを取得することができる。各頭部キーポイント及び頭部領域の位置は、対応する対象の位置である。
可能な実現形態において、頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、頭部キーポイントとの類似度が閾値条件を満たす頭部領域と頭部キーポイントをマージし、マージ情報を取得することは、
頭部キーポイントとの類似度が閾値条件を満たす頭部領域を削除することと、
頭部キーポイント及び頭部領域の寸法に基づいて、マージ後の頭部領域を取得することと、を含んでもよく、マージ情報は、頭部キーポイント及びマージ後の頭部領域を含む。
例を挙げると、頭部領域の中心点と頭部キーポイントとの類似度が閾値条件を満たす場合、頭部領域を削除し、頭部キーポイントをマージ情報として保持することができる。例を挙げると、頭部領域1、頭部領域2、頭部領域3と頭部キーポイント4との類似度がいずれも閾値条件を満たすと、頭部領域1、頭部領域2、頭部領域3を削除し、頭部キーポイント4のみをマージ情報として保持することができる。
頭部キーポイントをマージ後の頭部領域中心点とし、該頭部キーポイントとの類似度が閾値条件を満たす頭部領域のうち、信頼度が最も高い頭部領域の寸法をマージ後の頭部領域の寸法とし、更に、マージ後の頭部領域を取得することができる。
可能な実現形態において、頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、頭部キーポイントとの類似度が閾値条件を満たす頭部領域と頭部キーポイントをマージし、マージ情報を取得することは、
頭部キーポイントを信頼度に応じて順序付けすることと、
頭部キーポイントの信頼度の降順に応じて、頭部キーポイントと頭部領域をマージし、マージ情報を取得することと、を含んでもよい。
例を挙げると、頭部キーポイント及び頭部領域を認識する場合、対応する認識結果は、頭部キーポイント及び頭部キーポイントに対応する信頼度、頭部領域及び頭部領域に対応する信頼度を含んでもよい。頭部キーポイントを対応する信頼度の降順に応じて順序付けすることができる。例えば、降順に応じて順序付けするか又は昇順に応じて順序付けする。順序付け後、頭部キーポイントの降順に応じて、頭部キーポイントと頭部領域をマージし、マージ情報を取得することができる。例示的に、信頼度の降順に応じた、頭部キーポイントの順番は、頭部キーポイント1、頭部キーポイント2、頭部キーポイント3、頭部キーポイント4である。ここで、頭部領域1と頭部キーポイント1との類似度及び頭部領域1と頭部キーポイント4との類似度はいずれも閾値条件を満たす場合、まず、頭部キーポイント1と頭部領域1に対してマージ操作を行い、頭部領域1を削除し、頭部キーポイント1を保持する。従って、頭部キーポイント4までに実行する場合、頭部領域1と頭部キーポイント4のマージ操作を実行しない。このように、計数及び位置決めの正確度を向上させることができる。
可能な実現形態において、初期特徴マップに基づいて、処理されるべき画像における頭部キーポイントを取得することは、
初期特徴マップに対してダウンサンプリング処理を行い、スケールが異なる複数のダウンサンプリング特徴マップを取得することと、
複数のダウンサンプリング特徴マップのうちのスケールが中位であるダウンサンプリング特徴マップに対してアップサンプリング処理を行い、アップサンプリング特徴マップを取得することであって、アップサンプリング特徴マップのスケールは、初期特徴マップのスケールと同じである、ことと、
アップサンプリング特徴マップに基づいて、頭部キーポイント認識を行い、処理されるべき画像における頭部キーポイントを取得することと、を含んでもよい。
例を挙げると、最大プーリング層(maxpooling)により、初期特徴マップに対してダウンサンプリング処理を絶え間なく行い、サイズが異なる複数のダウンサンプリング特徴マップを取得することができる。例えば、初期特徴マップC0に対して複数回のダウンサンプリング処理を行い、スケールが異なるダウンサンプリング特徴マップC1、C2、C3、C4、C5、C6を取得する。ここで、i番目のダウンサンプリング特徴マップの縦横は、初期特徴マップC0の縦横の1/2iであり、つまり、C1の縦横は、C0の縦横の1/2であり、C2の縦横は、C0の縦横の1/4であり、C3の縦横は、C0の縦横の1/8であり、C4の縦横は、C0の縦横の1/16であり、C5の縦横は、C0の縦横の1/32であり、C6の縦横は、C0の縦横の1/64である。例示的に、図3を参照する。図3は、本願の実施例によるスケールが異なるダウンサンプリング特徴マップを示す概略図である。ここで、図3における301に、縦横がそれぞれ160、80及び40である3つのダウンサンプリング特徴マップを示し、図3における302に、縦横がそれぞれ20、10及5である3つのダウンサンプリング特徴マップを示す。
複数のダウンサンプリング特徴マップから、スケールが中位であるダウンサンプリング特徴マップC3を選択してアップサンプリング処理を絶え間なく行い、得られたアップサンプリング特徴のスケールが初期特徴マップのスケールと一致するまで継続することができる。例えば、ダウンサンプリング特徴マップC3に対して連続した複数回のアップサンプリング処理を行い、その都度、前回の処理結果のスケールを2倍増幅し、スケールが初期特徴マップのスケールと一致するまで継続し、アップサンプリング特徴マップを取得する。
アップサンプリング特徴マップに対して頭部キーポイント認識を行い(事前訓練された、頭部キーポイント認識のためのネットワークを用いて認識を行うことができる)、処理されるべき画像における頭部キーポイントを取得することができる。
可能な実現形態において、初期特徴マップに基づいて、処理されるべき画像における頭部領域を取得することは、
複数のダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各ダウンサンプリング特徴マップに対応する頭部領域を取得することと、
各ダウンサンプリング特徴マップに対応する頭部領域に対してマージ処理を行い、処理されるべき画像に対応する頭部領域を取得することと、を含んでもよい。
複数のダウンサンプリング特徴マップを得た後、複数のダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い(事前訓練された、頭部領域認識のためのネットワークを用いて認識を行うことができる)、各ダウンサンプリング特徴マップに対応する頭部領域を取得し、各頭部領域をマージ処理することができる。例示的に、頭部領域は、(xb,yb,wb,hb)で表されてもよい。従って、各頭部領域をマージして頭部領域集合を取得することができる。同じ頭部領域は、該頭部領域集合において1つとしてマージされる。覆い重なり度が重なり度閾値(所定の数値)より大きい複数の頭部領域をマージし、信頼度が最も高い頭部領域を保持し、該複数の頭部領域のうちの他の頭部領域を削除する。
可能な実現形態において、前記処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得すること、及び前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得することは、位置決めネットワークにより実現され、前記方法は、
所定の訓練集合により、位置決めネットワークを訓練することであって、訓練集合は、複数のサンプル群を含み、サンプル群に、サンプル画像、サンプル画像に対応するラベル付けされた頭部キーポイント及びラベル付けされた頭部領域が含まれる、ことを更に含む。
例を挙げると、所定の訓練集合により、位置決めネットワークを訓練することができる。該位置決めネットワークは、特徴抽出ネットワーク、頭部キーポイント位置決めネットワーク、頭部領域位置決めネットワークを含んでもよい。従って、サンプル画像及びサンプル画像に対応するラベル付けされた頭部キーポイントにより、特徴抽出ネットワーク及び頭部キーポイント位置決めネットワークを訓練し、サンプル画像及びサンプル画像に対応するラベル付けされた頭部領域により、頭部領域位置決めネットワークを訓練することができる。
処理されるべき画像を位置決めネットワークに入力した後、特徴抽出ネットワークを利用して、該処理されるべき画像の特徴を抽出し、初期特徴マップを取得し、該サンプル画像の初期特徴マップに対して複数回のダウンサンプリング処理を行い、対応するスケールが異なるダウンサンプリング特徴マップを取得し、頭部キーポイント位置決めネットワークを利用して、ダウンサンプリング特徴マップのうちのスケールが中位であるダウンサンプリング特徴マップに対してアップサンプリング処理を行った後、スケールが初期特徴マップのスケールと一致するアップサンプリング特徴マップを取得し、該アップサンプリング特徴マップに対して認識を行い、処理されるべき画像の頭部キーポイントを取得する。頭部領域位置決めネットワークにより、各ダウンサンプリング特徴マップに対して認識を行い、各ダウンサンプリング特徴マップに対応する頭部領域を取得し、該複数の頭部領域をマージし、処理されるべき画像における頭部領域を取得する。最後に、頭部領域と頭部キーポイントをマージし、処理されるべき画像における対象の数及び位置を取得することができる。例示的に、本願の実施例による対象計数方法により処理されるべき画像を処理する各段階を示す概略図である図4aから4dを参照する。ここで、図4aは、処理されるべき画像であり、図4bは、処理されるべき画像の初期特徴マップであり、図4cは、初期特徴マップに基づいて得られた、処理されるべき画像における頭部領域及びキーポイント生成結果図であり、図4dは、処理されるべき画像の計数及び位置決め結果である。ここで、図4aにおける401は、処理されるべき画像の測定されるべき対象であり、図4cにおける402は、処理されるべき画像における測定されるべき対象の頭部キーポイント及び頭部領域を表し、図4dにおける403は、図4cにおける402に対応する測定されるべき対象の位置決め情報である。
可能な実現形態において、位置決めネットワークは、特徴抽出ネットワーク、頭部キーポイント位置決めネットワーク及び頭部領域位置決めネットワークを含み、所定の訓練集合により、位置決めネットワークを訓練することは、
特徴抽出ネットワークにより、サンプル画像に対して特徴抽出を行い、サンプル画像の初期特徴を取得することと、
サンプル画像の初期特徴に対してダウンサンプリング処理を行い、サイズが異なる複数のサンプルダウンサンプリング特徴マップを取得することと、
前記頭部キーポイント位置決めネットワークにより、複数のサンプルダウンサンプリング特徴マップに対してアップサンプリング処理を行い、サンプルアップサンプリング特徴マップを取得することであって、サンプルアップサンプリング特徴マップのサイズは、サンプル画像の初期特徴マップのサイズと一致する、ことと、
頭部キーポイント位置決めネットワークにより、サンプルアップサンプリング特徴マップに対して頭部ポイント座標認識を行い、サンプル画像に対応する頭部ポイント座標情報を取得することと、
サンプル画像に対応する頭部ポイント座標情報及びラベル付けされた頭部キーポイントに基づいて、頭部キーポイント位置決めネットワークを訓練することと、を含む。
例を挙げると、サンプル画像を位置決めネットワークに入力した後、特徴抽出ネットワークを利用して、該サンプル画像の特徴を抽出し、サンプル画像に対応する初期特徴マップを取得し、該サンプル画像の初期特徴マップに対して複数回のダウンサンプリング処理を行い、対応するスケールが異なるダウンサンプリング特徴マップを取得し、頭部キーポイント位置決めネットワークにより、ダウンサンプリング特徴マップのうちの複数のダウンサンプリング特徴マップに対してアップサンプリング処理を行った後、スケールが初期特徴マップのスケールと一致するアップサンプリング特徴マップを取得し、該アップサンプリング特徴マップに対して認識を行い、サンプル画像の頭部キーポイントを取得する。サンプル画像の頭部キーポイント及びサンプル画像に対応するラベル付けされた頭部キーポイントに基づいて、第1認識損失を決定し(例えば、バイナリクロスエントロピー損失関数を利用して第1認識損失を決定することができるが、これに限定されない)、第1認識損失に基づいて、特徴抽出ネットワーク及び頭部キーポイント位置決めネットワークのネットワークパラメータを調整し、第1認識損失が訓練要件(例えば、第1認識損失が損失閾値未満であり、該損失閾値は、所定の数値である)を満たすまで継続する。
可能な実現形態において、所定の訓練集合により、位置決めネットワークを訓練することは、
頭部領域位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各サンプルダウンサンプリング特徴マップに対応する頭部領域を取得することと、
サンプルダウンサンプリング特徴マップに対応する頭部領域及びラベル付けされた頭部領域に基づいて、頭部領域位置決めネットワークを訓練することと、を更に含む。
例を挙げると、スケールが異なるダウンサンプリング特徴マップを得た後、頭部領域位置決めネットワークにより、各ダウンサンプリング特徴マップに対して認識を行い、各ダウンサンプリング特徴マップに対応する頭部領域を取得し、各頭部領域をマージし、サンプル画像に対応する頭部領域を取得する。サンプル画像の頭部領域及びサンプル画像に対応するラベル付けされた頭部領域に基づいて、第2認識損失を決定し(例えば、バイナリクロスエントロピー損失関数及びsmooth-L1損失関数を利用して第2認識損失を決定することができるが、これに限定されない)、第2認識損失に基づいて、頭部領域位置決めネットワークのネットワークパラメータを取得し、第2認識損失が訓練要件(例えば、第2認識損失が損失閾値未満であり、該損失閾値は、所定の数値である)を満たすまで継続する。
可能な実現形態において、初期特徴マップに基づいて、処理されるべき画像における頭部キーポイント及び頭部領域を取得することは、
処理されるべき画像における各頭部領域の位置情報を決定することと、
各頭部領域の位置情報、及び頭部領域の寸法と頭部領域の位置情報との関連付け関係に基づいて、頭部領域の寸法を決定することと、
頭部領域の位置情報及び頭部領域の寸法に基づいて、頭部領域を取得することと、を含んでもよい。
例を挙げると、サンプル画像は、ラベル付けされた頭部キーポイントのみを有する場合、該ラベル付けされた頭部キーポイントのみを有する場合、該ラベル付けされた頭部キーポイントに基づいて、該対象の頭部領域の寸法を決定することができる。頭部キーポイントにより、群衆密度マップを決定することができる。群衆密度マップにおける各頭部領域に含まれる密度の和は、1である。
Figure 2022537865000002
近隣位置密度の平均値を算出することで、サンプル画像におけるi番目の対象に対応する位置の密度
Figure 2022537865000003
を取得し、更に、頭部領域の寸法を取得する。例示的に、下記式(1)及び式(2)により、頭部領域の寸法を決定することができる。
Figure 2022537865000004
Figure 2022537865000005
ここで、
Figure 2022537865000006
は、群衆密度マップにおけるi番目の対象の密度を識別するためのものであり、jは、i番目の対象の
Figure 2022537865000007
個の近隣のうちのj番目の対象を識別するためのものであり、
Figure 2022537865000008
は、j番目の対象の密度を識別するためのものであり、
Figure 2022537865000009
は、i番目の対象の頭部領域の寸法を識別するためのものである。
各サンプル画像に対応する頭部領域の寸法を得た後、サンプル画像の頭部キーポイントを頭部領域の位置情報として、サンプル画像の頭部領域寸法と頭部領域の位置情報との関連付け関係を統計分析により取得することができる。
事前訓練された、処理されるべき画像における各頭部領域の位置情報を認識するためのネットワークにより、処理されるべき画像における各頭部領域の位置情報を認識し、更に、頭部領域の位置情報と頭部領域の寸法との関連付け関係に基づいて、頭部領域の寸法を決定し、更に、頭部領域の位置情報及び頭部領域の寸法に基づいて、頭部領域を取得することができる。
本願の実施例で言及した上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができ、紙数に限りがあるため、本願において逐一説明しないことが理解されるべきである。具体的な実施形態の上記方法において、各ステップの実行順番はその機能及び可能な内在的論理により決まることは、当業者であれば理解すべきである。
なお、本願の実施例は、対象計数装置、電子機器、コンピュータ可読記憶媒体、プログラムを更に提供する。上記はいずれも、本願の実施例で提供されるいずれか1つの対象計数方法を実現させるためのものである。対応する技術的解決手段及び説明は、方法に関連する記述を参照されたい。ここで、詳細な説明を省略する。
図5は、本願の実施例による対象計数装置500を示すブロック図である。図5に示すように、前記対象計数装置500は、
処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得するように構成される特徴抽出モジュール501と、
前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得するように構成される処理モジュール502と、
前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定するように構成される計数モジュール503と、を備える。
このように、処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得することができる。前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得し、前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することができる。本願の実施例で提供される対象計数装置によれば、頭部キーポイント及び頭部領域を利用して対象計数及び位置決めを行い、頭部キーポイント及び頭部領域により、相互補完を行うことで、処理されるべき画像におけるスケールが異なる頭部に、異なるラベル形式を持たせることができ、対象計数及び位置決めの精度を向上させることができる。
可能な実現形態において、前記計数モジュール503は更に、
各前記頭部キーポイントと各前記頭部領域の中心点との間の類似度を決定し、
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得し、
前記マージ情報、マージされていない頭部キーポイント及びマージされていない頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定するように構成される。
可能な実現形態において、前記計数モジュール503は更に、
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を削除し、
前記頭部キーポイント及び前記頭部領域の寸法に基づいて、マージ後の頭部領域を取得するように構成され、前記マージ情報は、前記頭部キーポイント及び前記マージ後の頭部領域を含む。
可能な実現形態において、前記計数モジュール503は更に、
前記頭部キーポイントを信頼度に応じて順序付けし、
前記頭部キーポイントの信頼度の降順に応じて、前記頭部キーポイントと前記頭部領域をマージし、マージ情報を取得するように構成される。
可能な実現形態において、前記処理モジュール502は更に、
前記初期特徴マップに対してダウンサンプリング処理を行い、スケールが異なる複数のダウンサンプリング特徴マップを取得することと、
複数の前記ダウンサンプリング特徴マップのうちのスケールが中位であるダウンサンプリング特徴マップに対してアップサンプリング処理を行い、アップサンプリング特徴マップを取得することであって、前記アップサンプリング特徴マップのスケールは、前記初期特徴マップのスケールと同じである、ことと、
前記アップサンプリング特徴マップに基づいて、頭部キーポイント認識を行い、前記処理されるべき画像における頭部キーポイントを取得することと、を実行するように構成される。
可能な実現形態において、前記処理モジュール502は更に、
複数の前記ダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記ダウンサンプリング特徴マップに対応する頭部領域を取得し、
各前記ダウンサンプリング特徴マップに対応する頭部領域に対してマージ処理を行い、前記処理されるべき画像に対応する頭部領域を取得するように構成される。
可能な実現形態において、前記特徴抽出モジュール501及び前記処理モジュール502は、前記位置決めネットワークにより実現され、前記装置500は、
所定の訓練集合により、前記位置決めネットワークを訓練するように構成される訓練モジュール504であって、前記訓練集合は、複数のサンプル群を含み、前記サンプル群に、サンプル画像、サンプル画像に対応するラベル付けされた頭部キーポイント及びラベル付けされた頭部領域が含まれる、訓練モジュール504を更に備える。
可能な実現形態において、前記位置決めネットワークは、特徴抽出ネットワーク、頭部キーポイント位置決めネットワーク及び頭部領域位置決めネットワークを含み、前記訓練モジュール504は更に、
前記特徴抽出ネットワークにより、前記サンプル画像に対して特徴抽出を行い、前記サンプル画像の初期特徴マップを取得することと、
前記サンプル画像の初期特徴マップに対してダウンサンプリング処理を行い、サイズが異なる複数のサンプルダウンサンプリング特徴マップを取得することと、
前記頭部キーポイント位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してアップサンプリング処理を行い、サンプルアップサンプリング特徴マップを取得することであって、前記サンプルアップサンプリング特徴マップのサイズは、前記サンプル画像の初期特徴マップのサイズと一致する、ことと、
前記頭部キーポイント位置決めネットワークにより、前記サンプルアップサンプリング特徴マップに対して頭部キーポイント認識を行い、前記サンプル画像に対応する頭部キーポイントを取得することと、
前記サンプル画像に対応する頭部キーポイント及び前記ラベル付けされた頭部キーポイントに基づいて、前記頭部キーポイント位置決めネットワークを訓練することと、を実行するように構成される。
可能な実現形態において、前記訓練モジュール504は更に、
前記頭部領域位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記サンプルダウンサンプリング特徴マップに対応する頭部領域を取得し、
前記サンプルダウンサンプリング特徴マップに対応する頭部領域及び前記ラベル付けされた頭部領域に基づいて、前記頭部領域位置決めネットワークを訓練するように構成される。
可能な実現形態において、前記処理モジュール502は更に、
前記処理されるべき画像における各頭部領域の位置情報を決定し、
各前記頭部領域の位置情報、及び頭部領域の寸法と前記頭部領域の位置情報との関連付け関係に基づいて、前記頭部領域の寸法を決定し、
前記頭部領域の位置情報及び前記頭部領域の寸法に基づいて、前記頭部領域を取得するように構成される。
幾つかの実施例において、本願の実施例で提供される対象計数装置500の機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実現は、上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。
本願の実施例はコンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されると、プロセッサに上記方法を実現させる。コンピュータ可読記憶媒体は不揮発性コンピュータ可読記憶媒体であってもよい。
本願の実施例は電子機器を更に提供する。該電子機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、前記プロセッサは、前記メモリに記憶されている命令を呼び出して、上記方法を実行するように構成される。
本願の実施例は、コンピュータプログラム製品を更に提供する。前記コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードが機器で実行されると、機器におけるプロセッサに、上記いずれか1つの実施例で提供される対象計数方法を実現させる。
本願の実施例は、もう1つのコンピュータプログラム製品を更に提供する。該コンピュータプログラム製品は、コンピュータ可読コードを記憶するように構成され、コンピュータ可読コードが電子機器で実行されると、電子機器のプロセッサに、上記いずれか1つの実施例で提供される対象計数方法を実現させる。
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
図6は、本願の実施例による電子機器600を示すブロック図である。例えば、電子機器600は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。
図6を参照すると、電子機器600は、処理コンポーネント602、メモリ604、電源コンポーネント606、マルチメディアコンポーネント608、オーディオコンポーネント610、入力/出力(Input Output:I/O)インタフェース612、センサコンポーネント614及び通信コンポーネント616のうちの1つ又は複数を備えてもよい。
処理コンポーネント602は一般的には、電子機器600の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理コンポーネント602は、指令を実行するための1つ又は複数のプロセッサ620を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理コンポーネント602は、他のユニットとのインタラクションのために、1つ又は複数のモジュールを備えてもよい。例えば、処理コンポーネント602はマルチメディアモジュールを備えることで、マルチメディアコンポーネント608と処理コンポーネント602とのインタラクションに寄与する。
メモリ604は、各種のデータを記憶することで電子機器600における操作をサポートするように構成される。これらのデータの例として、電子機器600上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ604は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ(Static Random Access Memory:SRAM)、電気的消去可能なプログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read Only Memory:EEPROM)、電気的に消去可能なプログラマブル読出し専用メモリ(Erasable Programmable Read Only Memory:EPROM)、プログラマブル読出し専用メモリ(Programmable Read Only Memory:PROM)、読出し専用メモリ(Read Only Memory:ROM)、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。
電源コンポーネント606は電子機器600の様々なユニットに電力を提供する。電源コンポーネント606は、電源管理システム、1つ又は複数の電源、及び電子機器600のための電力生成、管理、分配に関連する他のユニットを備えてもよい。
マルチメディアコンポーネント608は、上記電子機器600とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ(Liquid Crystal Display:LCD)及びタッチパネル(TouchPanel:TP)を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する1つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアコンポーネント608は、フロントカメラ及び/又はリアカメラを備える。電子機器600が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び/又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。
オーディオコンポーネント610は、オーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオコンポーネント610は、マイクロホン(Microphone:MIC)を備える。電子機器600が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ604に記憶するか、又は通信コンポーネント616を経由して送信することができる。幾つかの実施例において、オーディオコンポーネント610は、オーディオ信号を出力するように構成されるスピーカーを更に備える。
I/Oインタフェース612は、処理コンポーネント602と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。
センサコンポーネント614は、1つ又は複数のセンサを備え、電子機器600のために様々な状態の評価を行うように構成される。例えば、センサコンポーネント614は、電子機器600のオン/オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが電子機器600のディスプレイ及びキーパッドである。センサコンポーネント614は電子機器600又は電子機器600における1つのユニットの位置の変化、ユーザと電子機器600との接触の有無、電子機器600の方位又は加速/減速及び電子機器600の温度の変動を検出することもできる。センサコンポーネント614は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサコンポーネント614は、相補型金属酸化膜半導体(Complementary Metal Oxide Semiconductor:CMOS)又は電荷結合素子(Charge Coupled Device:CCD)画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサコンポーネント614は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。
通信コンポーネント616は、電子機器600と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器600は、WiFi、2G、3G、又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信コンポーネント616は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連情報を受信する。一例示的な実施例において、上記通信コンポーネント616は、近接場通信(Near Field Communication:NFC)モジュールを更に備えることで近距離通信を促進する。例えば、NFCモジュールは、無線周波数識別(Radio Frequency Identification:RFID)技術、赤外線データ協会(Infrared Data Association:IrDA)技術、超広帯域(Ultra Wide Band:UWB)技術、ブルートゥース(登録商標)(Bluetooth(登録商標):BT)技術及び他の技術に基づいて実現される。
例示的な実施例において、電子機器600は、1つ又は複数の特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、デジタル信号プロセッサ(Digital Signal Process:DSP)、デジタル信号処理機器(Digital Signal Process Device:DSPD)、プログラマブルロジックデバイス(Programmable Logic Device:PLD)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。
例示的な実施例において、コンピュータプログラム命令を記憶したメモリ604のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器600のプロセッサ620により実行され、上記方法を完了する。
図7は、本願の実施例による電子機器700を示すブロック図である。例えば、電子機器700は、サーバとして提供されてもよい。図7を参照すると、電子機器700は、処理コンポーネント722を備える。それは、1つ又は複数のプロセッサ、及びメモリ732で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理コンポーネント722により実行される命令を記憶するためのものである。メモリ732に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する1つ又は1つ以上のモジュールを含んでもよい。なお、処理コンポーネント722は、命令を実行して、上記方法を実行するように構成される。
電子機器700は、電子機器700の電源管理を実行するように構成される電源コンポーネント726と、電子機器700をネットワークに接続するように構成される有線又は無線ネットワークインタフェース750と、入力出力(I/O)インタフェース758と、を更に備えてもよい。電子機器700は、Windows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)、Linux(登録商標)、FreeBSDTM又は類似したなど、メモリ732に記憶されているオペレーティングシステムを実行することができる。
例示的な実施例において、コンピュータプログラム命令を含むメモリ732のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器700の処理コンポーネント722により実行されて上記方法を完了する。
本願は、システム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。
コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的リスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(Random Access Memory:RAM)、ROM、EPROM又はフラッシュ、SRAM、ポータブルコンパクトディスク読出し専用メモリ(Compact Disc Read-Only Memory:CD-ROM)、デジタル多目的ディスク(Digital Video Disc:DVD)、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含んでもよい。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。
ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング/処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び/又はエッジサーバを含んでもよい。各コンピューティング/処理装置におけるネットワークインタフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング/処理装置におけるコンピュータ可読記憶媒体に記憶する。
本願の操作を実行するように構成されるコンピュータプログラム命令は、アセンブラ命令、命令セットアーキテクチャ(Industry Standard Architecture:ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は1つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Smalltalk、C++などのようなオブジェクト指向プログラミング言語と、「C」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、任意の種類のネットワーク(ローカルエリアネットワーク(Local Area Network:LAN)又はワイドエリアネットワーク(Wide Area Network:WAN)を含む)を通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる(例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する)。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、FPGA又はプログラマブル論理アレイ(Programmable Logic Arrays:PLA)のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本願の各態様を実現させることができる。
ここで、本願の実施例の方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しながら、本願の各態様を説明する。フローチャート及び/又はブロック図の各ブロック及びフローチャート及び/又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できることは、理解されるべきである。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行される時、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び/又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図おける1つ又は複数のブロック中で規定している機能/操作を実現する各態様の命令を含む製品を備える。
コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現させる。
図面におけるフローチャート及びブロック図は、本願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、プログラムセグメント又は命令の一部は、1つまたは複数の所定のロジック機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、2つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができることに留意されたい。
該コンピュータプログラム製品は、ハードウェア、ソフトウェア又はその組み合わせにより実現してもよい。選択可能な実施例において、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具現化されてもよい。別の選択可能な実施例において、コンピュータプログラム製品は具体的には、例えば、ソフトウェア開発キット(Software Development Kit:SDK)などのようなソフトウェア製品として具現化される。
以上は本願の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到し得るものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術の改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。
本願は、対象計数方法、装置、電子機器、記憶媒体及びプログラムを提供する。ここで、処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得し、前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得し、前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定する。

Claims (14)

  1. 対象計数方法であって、
    処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得することと、
    前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得することと、
    前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することと、を含む、対象計数方法。
  2. 前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することは、
    各前記頭部キーポイントと各前記頭部領域の中心点との間の類似度を決定することと、
    前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得することと、
    前記マージ情報、マージされていない頭部キーポイント及びマージされていない頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することと、を含むことを特徴とする
    請求項1に記載の方法。
  3. 前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得することは、
    前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を削除することと、
    前記頭部キーポイント及び前記頭部領域の寸法に基づいて、マージ後の頭部領域を取得することと、を含み、前記マージ情報は、前記頭部キーポイント及び前記マージ後の頭部領域を含むことを特徴とする
    請求項2に記載の方法。
  4. 前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得することは、
    前記頭部キーポイントを信頼度に応じて順序付けすることと、
    前記頭部キーポイントの信頼度の降順に応じて、前記頭部キーポイントと前記頭部領域をマージし、前記マージ情報を取得することと、を含むことを特徴とする
    請求項3に記載の方法。
  5. 前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイントを取得することは、
    前記初期特徴マップに対してダウンサンプリング処理を行い、スケールが異なる複数のダウンサンプリング特徴マップを取得することと、
    複数の前記ダウンサンプリング特徴マップのうちのスケールが中位であるダウンサンプリング特徴マップに対してアップサンプリング処理を行い、アップサンプリング特徴マップを取得することであって、前記アップサンプリング特徴マップのスケールは、前記初期特徴マップのスケールと同じである、ことと、
    前記アップサンプリング特徴マップに基づいて、頭部キーポイント認識を行い、前記処理されるべき画像における頭部キーポイントを取得することと、を含むことを特徴とする
    請求項1から4のうちいずれか一項に記載の方法。
  6. 前記初期特徴マップに基づいて、前記処理されるべき画像における頭部領域を取得することは、
    複数の前記ダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記ダウンサンプリング特徴マップに対応する頭部領域を取得することと、
    各前記ダウンサンプリング特徴マップに対応する頭部領域に対してマージ処理を行い、前記処理されるべき画像に対応する頭部領域を取得することと、を含むことを特徴とする
    請求項5に記載の方法。
  7. 前記処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得すること、及び前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得することは、位置決めネットワークにより実現され、前記方法は、
    所定の訓練集合により、前記位置決めネットワークを訓練することであって、前記訓練集合は、複数のサンプル群を含み、前記サンプル群に、サンプル画像、サンプル画像に対応するラベル付けされた頭部キーポイント及びラベル付けされた頭部領域が含まれる、ことを更に含むことを特徴とする
    請求項1から6のうちいずれか一項に記載の方法。
  8. 前記位置決めネットワークは、特徴抽出ネットワーク、頭部キーポイント位置決めネットワーク及び頭部領域位置決めネットワークを含み、
    所定の訓練集合により、前記位置決めネットワークを訓練することは、
    前記特徴抽出ネットワークにより、前記サンプル画像に対して特徴抽出を行い、前記サンプル画像の初期特徴マップを取得することと、
    前記サンプル画像の初期特徴マップに対してダウンサンプリング処理を行い、サイズが異なる複数のサンプルダウンサンプリング特徴マップを取得することと、
    前記頭部キーポイント位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してアップサンプリング処理を行い、サンプルアップサンプリング特徴マップを取得することであって、前記サンプルアップサンプリング特徴マップのサイズは、前記サンプル画像の初期特徴マップのサイズと一致する、ことと、
    前記頭部キーポイント位置決めネットワークにより、前記サンプルアップサンプリング特徴マップに対して頭部キーポイント認識を行い、前記サンプル画像に対応する頭部キーポイントを取得することと、
    前記サンプル画像に対応する頭部キーポイント及び前記ラベル付けされた頭部キーポイントに基づいて、前記頭部キーポイント位置決めネットワークを訓練することと、を含むことを特徴とする
    請求項7に記載の方法。
  9. 所定の訓練集合により、前記位置決めネットワークを訓練することは、
    前記頭部領域位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記サンプルダウンサンプリング特徴マップに対応する頭部領域を取得することと、
    前記サンプルダウンサンプリング特徴マップに対応する頭部領域及び前記ラベル付けされた頭部領域に基づいて、前記頭部領域位置決めネットワークを訓練することと、を更に含むことを特徴とする
    請求項8に記載の方法。
  10. 前記初期特徴マップに基づいて、前記処理されるべき画像における頭部領域を取得することは、
    前記処理されるべき画像における各頭部領域の位置情報を決定することと、
    各前記頭部領域の位置情報、及び頭部領域の寸法と前記頭部領域の位置情報との関連付け関係に基づいて、前記頭部領域の寸法を決定することと、
    前記頭部領域の位置情報及び前記頭部領域の寸法に基づいて、前記頭部領域を取得することと、を含むことを特徴とする
    請求項1から8のうちいずれか一項に記載の方法。
  11. 対象計数装置であって、
    処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得するように構成される特徴抽出モジュールと、
    前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得するように構成される処理モジュールと、
    前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定するように構成される計数モジュールと、を備える、対象計数装置。
  12. 電子機器であって、
    プロセッサによる実行可能な命令を記憶するように構成されるメモリと、
    前記メモリに記憶されている命令を呼び出して、請求項1から10のうちいずれか一項に記載の方法を実行するように構成されるプロセッサと、を備える、電子機器。
  13. コンピュータに、請求項1から10のうちいずれか一項に記載の方法を実行させるためのコンピュータプログラム命令を記憶した、コンピュータ可読記憶媒体。
  14. コンピュータに、請求項1から10のうちいずれか一項に記載の対象計数方法を実行させる、コンピュータプログラム。
JP2021547419A 2020-05-28 2020-12-03 対象計数方法、装置、電子機器、記憶媒体及びプログラム Pending JP2022537865A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010469232.7A CN111652107B (zh) 2020-05-28 2020-05-28 对象计数方法及装置、电子设备和存储介质
CN202010469232.7 2020-05-28
PCT/CN2020/133690 WO2021238135A1 (zh) 2020-05-28 2020-12-03 对象计数方法、装置、电子设备、存储介质及程序

Publications (1)

Publication Number Publication Date
JP2022537865A true JP2022537865A (ja) 2022-08-31

Family

ID=72346863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021547419A Pending JP2022537865A (ja) 2020-05-28 2020-12-03 対象計数方法、装置、電子機器、記憶媒体及びプログラム

Country Status (5)

Country Link
JP (1) JP2022537865A (ja)
KR (1) KR20210148134A (ja)
CN (1) CN111652107B (ja)
TW (1) TWI779449B (ja)
WO (1) WO2021238135A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652107B (zh) * 2020-05-28 2024-05-21 北京市商汤科技开发有限公司 对象计数方法及装置、电子设备和存储介质
CN113537172B (zh) * 2021-09-16 2021-12-10 长沙海信智能系统研究院有限公司 人群密度确定方法、装置、设备及存储介质
CN114385993A (zh) * 2021-12-27 2022-04-22 阿里巴巴(中国)有限公司 身份检测方法、设备和可读介质
CN114550086A (zh) * 2022-02-17 2022-05-27 上海商汤智能科技有限公司 一种人群定位方法及装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570440A (zh) * 2015-10-09 2017-04-19 株式会社日立制作所 基于图像分析的人数统计方法和人数统计装置
CN109657631A (zh) * 2018-12-25 2019-04-19 上海智臻智能网络科技股份有限公司 人体姿态识别方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108490204A (zh) * 2011-09-25 2018-09-04 赛拉诺斯知识产权有限责任公司 用于多重分析的系统和方法
CN103324977B (zh) * 2012-03-21 2016-03-30 日电(中国)有限公司 一种目标数量检测方法和设备
US9747516B2 (en) * 2015-05-12 2017-08-29 Qualcomm Incorporated Keypoint detection with trackability measurements
CN105740945B (zh) * 2016-02-04 2018-03-16 中山大学 一种基于视频分析的人群计数方法
CN108305317B (zh) * 2017-08-04 2020-03-17 腾讯科技(深圳)有限公司 一种图像处理方法、装置及存储介质
CN107967451B (zh) * 2017-11-23 2021-04-27 常州大学 一种对静止图像进行人群计数的方法
CN108875588B (zh) * 2018-05-25 2022-04-15 武汉大学 基于深度学习的跨摄像头行人检测跟踪方法
CN109766796B (zh) * 2018-12-20 2023-04-18 西华大学 一种面向密集人群的深度行人检测方法
CN109726658B (zh) * 2018-12-21 2022-10-04 上海科技大学 人群计数及定位方法、系统、电子终端及存储介质
CN111178208B (zh) * 2019-12-20 2023-08-15 华瑞新智科技(北京)有限公司 基于深度学习的行人检测方法、装置及介质
CN111160243A (zh) * 2019-12-27 2020-05-15 深圳云天励飞技术有限公司 客流量统计方法及相关产品
CN111652107B (zh) * 2020-05-28 2024-05-21 北京市商汤科技开发有限公司 对象计数方法及装置、电子设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570440A (zh) * 2015-10-09 2017-04-19 株式会社日立制作所 基于图像分析的人数统计方法和人数统计装置
CN109657631A (zh) * 2018-12-25 2019-04-19 上海智臻智能网络科技股份有限公司 人体姿态识别方法及装置

Also Published As

Publication number Publication date
TWI779449B (zh) 2022-10-01
KR20210148134A (ko) 2021-12-07
CN111652107A (zh) 2020-09-11
CN111652107B (zh) 2024-05-21
WO2021238135A1 (zh) 2021-12-02
TW202145064A (zh) 2021-12-01

Similar Documents

Publication Publication Date Title
TWI781359B (zh) 人臉和人手關聯檢測方法及裝置、電子設備和電腦可讀儲存媒體
TWI747325B (zh) 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介
KR20210102180A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
CN109089133B (zh) 视频处理方法及装置、电子设备和存储介质
JP2022537865A (ja) 対象計数方法、装置、電子機器、記憶媒体及びプログラム
CN111310764A (zh) 网络训练、图像处理方法及装置、电子设备和存储介质
JP2020522764A (ja) 生体検知方法および装置、システム、電子機器、記憶媒体
WO2021036382A1 (zh) 图像处理方法及装置、电子设备和存储介质
TW202109314A (zh) 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒體
CN110781813B (zh) 图像识别方法及装置、电子设备和存储介质
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN109635142B (zh) 图像选择方法及装置、电子设备和存储介质
CN113326768B (zh) 训练方法、图像特征提取方法、图像识别方法及装置
JP2022533065A (ja) 文字認識方法及び装置、電子機器並びに記憶媒体
CN111582383B (zh) 属性识别方法及装置、电子设备和存储介质
CN112597944B (zh) 关键点检测方法及装置、电子设备和存储介质
CN110930984A (zh) 一种语音处理方法、装置和电子设备
CN109101542B (zh) 图像识别结果输出方法及装置、电子设备和存储介质
CN110659690A (zh) 神经网络的构建方法及装置、电子设备和存储介质
CN114332503A (zh) 对象重识别方法及装置、电子设备和存储介质
CN111523599B (zh) 目标检测方法及装置、电子设备和存储介质
CN110633715B (zh) 图像处理方法、网络训练方法及装置、和电子设备
CN112613447B (zh) 关键点检测方法及装置、电子设备和存储介质
CN112200820A (zh) 三维图像处理方法及装置、电子设备和存储介质
CN109887492A (zh) 一种数据处理方法、装置和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220928

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230418