JP2022537865A

JP2022537865A - 対象計数方法、装置、電子機器、記憶媒体及びプログラム

Info

Publication number: JP2022537865A
Application number: JP2021547419A
Authority: JP
Inventors: 夏▲鵬▼程; ▲楊▼昆霖; 侯▲軍▼; 伊▲帥▼
Original assignee: ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date: 2020-05-28
Filing date: 2020-12-03
Publication date: 2022-08-31
Also published as: TWI779449B; KR20210148134A; CN111652107A; CN111652107B; WO2021238135A1; TW202145064A

Abstract

本願は、対象計数方法、装置、電子機器、記憶媒体及びプログラムに関する。前記方法は、処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得することと、前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得することと、前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することと、を含む。本願の実施例は、対象計数及び位置決めの精度を向上させることができる。

Description

（関連出願の相互参照）
本願は、２０２０年５月２８日に提出された、出願番号が２０２０１０４６９２３２．７である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願は、コンピュータ技術分野に関し、特に対象計数方法、装置、電子機器、記憶媒体及びプログラムに関する。

ビデオモニタリングは生活中に広く適用されていることに伴い、ビデオにおける群衆の計数及び位置決めは、社会的公衆安全などの点で、入れ替わらない役割を持つ。関連技術において、ビデオにおける群衆の計数及び位置決めは、コンピュータビジョンアルゴリズムにより、ビデオ画像中のリアルタイム人数、人間の分布及び群衆の密度などを評価することである。これは、群衆の遮蔽又はインタラクション減少による誤判定を引き起こしやすく、更に、決定された群衆計数及び位置決めの正確度が低いことを引き起こしやすい。

本願は、対象計数の技術的解決手段を提供する。

本願の実施例は、対象計数方法を提供する。前記方法は、
処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得することと、
前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得することと、
前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することと、を含む。このように、処理されるべき画像に対して特徴抽出を行うことで得られた頭部キーポイント及び頭部領域により、処理されるべき画像に対して対象計数及び位置決めを行い、処理されるべき画像における対象の数及び位置を取得することで、対象計数及び位置決めの精度を向上させることができる。

可能な実現形態において、前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することは、
各前記頭部キーポイントと各前記頭部領域の中心点との間の類似度を決定することと、
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得することと、
前記マージ情報、マージされていない頭部キーポイント及びマージされていない頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することと、を含む。このように、マージ情報、マージされていない頭部キーポイント及びマージされていない頭部領域に基づいて、処理されるべき画像における対象の数及び位置を迅速かつ正確に決定する。

可能な実現形態において、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得することは、
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を削除することと、
前記頭部キーポイント及び前記頭部領域の寸法に基づいて、マージ後の頭部領域を取得することと、を含み、前記マージ情報は、前記頭部キーポイント及び前記マージ後の頭部領域を含む。このように、閾値条件を満たす頭部領域を削除し、頭部キーポイント及び頭部領域の寸法に基づいて、頭部領域を決定することで、頭部領域の決定の正確性を向上させる。

可能な実現形態において、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得することは、
前記頭部キーポイントを信頼度に応じて順序付けすることと、
前記頭部キーポイントの信頼度の降順に応じて、前記頭部キーポイントと前記頭部領域をマージし、前記マージ情報を取得することと、を含む。このように、信頼度に応じて頭部キーポイントを順序付けし、信頼度の降順に応じて頭部キーポイントと頭部領域をマージすることで、決定されたマージ情報の正確度を向上させることができる。

可能な実現形態において、前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイントを取得することは、
前記初期特徴マップに対してダウンサンプリング処理を行い、スケールが異なる複数のダウンサンプリング特徴マップを取得することと、
複数の前記ダウンサンプリング特徴マップのうちのスケールが中位であるダウンサンプリング特徴マップに対してアップサンプリング処理を行い、アップサンプリング特徴マップを取得することであって、前記アップサンプリング特徴マップのスケールは、前記初期特徴マップのスケールと同じである、ことと、
前記アップサンプリング特徴マップに基づいて、頭部キーポイント認識を行い、前記処理されるべき画像における頭部キーポイントを取得することと、を含む。このように、複数のダウンサンプリング特徴マップから、スケールが中位であるダウンサンプリング特徴マップを選択してアップサンプリング処理を行い、スケールが初期特徴マップのスケールと一致するアップサンプリング特徴マップを取得し、該アップサンプリング特徴マップに基づいて、頭部キーポイント認識を行うことで、得られた処理されるべき画像における頭部キーポイントをより正確にする。

可能な実現形態において、前記初期特徴マップに基づいて、前記処理されるべき画像における頭部領域を取得することは、
複数の前記ダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記ダウンサンプリング特徴マップに対応する頭部領域を取得することと、
各前記ダウンサンプリング特徴マップに対応する頭部領域に対してマージ処理を行い、前記処理されるべき画像に対応する頭部領域を取得することと、を含む。このように、複数のダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、複数の頭部領域を取得し、複数の頭部領域に対してマージ処理を行うことで、得られた処理されるべき画像における頭部領域をより正確にする。

可能な実現形態において、前記処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得すること、及び前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得することは、位置決めネットワークにより実現され、前記方法は、
所定の訓練集合により、前記位置決めネットワークを訓練することであって、前記訓練集合は、複数のサンプル群を含み、前記サンプル群に、サンプル画像、サンプル画像に対応するラベル付けされた頭部キーポイント及びラベル付けされた頭部領域が含まれる、ことを更に含む。このように、所定の訓練集合により、位置決めネットワークを訓練し、該位置決めネットワークにより、処理されるべき画像に対して特徴抽出を行い、初期特徴マップを取得し、該初期特徴マップに基づいて、処理されるべき画像における頭部キーポイント及び頭部領域をより正確に取得する。

可能な実現形態において、前記位置決めネットワークは、特徴抽出ネットワーク、頭部キーポイント位置決めネットワーク及び頭部領域位置決めネットワークを含み、所定の訓練集合により、前記位置決めネットワークを訓練することは、
前記特徴抽出ネットワークにより、前記サンプル画像に対して特徴抽出を行い、前記サンプル画像の初期特徴マップを取得することと、
前記サンプル画像の初期特徴マップに対してダウンサンプリング処理を行い、サイズが異なる複数のサンプルダウンサンプリング特徴マップを取得することと、
前記頭部キーポイント位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してアップサンプリング処理を行い、サンプルアップサンプリング特徴マップを取得することであって、前記サンプルアップサンプリング特徴マップのサイズは、前記サンプル画像の初期特徴マップのサイズと一致する、ことと、
前記頭部キーポイント位置決めネットワークにより、前記サンプルアップサンプリング特徴マップに対して頭部キーポイント認識を行い、前記サンプル画像に対応する頭部キーポイントを取得することと、
前記サンプル画像に対応する頭部キーポイント及び前記ラベル付けされた頭部キーポイントに基づいて、前記頭部キーポイント位置決めネットワークを訓練することと、を含む。このように、特徴抽出ネットワーク、頭部キーポイント位置決めネットワーク及び頭部領域位置決めネットワークにより、サンプル画像に対して、関連特徴抽出を行い、頭部キーポイント位置決めネットワークを訓練することで、訓練された頭部キーポイント位置決めネットワークの性能をより好ましくする。

可能な実現形態において、所定の訓練集合により、前記位置決めネットワークを訓練することは、
前記頭部領域位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記サンプルダウンサンプリング特徴マップに対応する頭部領域を取得することと、
前記サンプルダウンサンプリング特徴マップに対応する頭部領域及び前記ラベル付けされた頭部領域に基づいて、前記頭部領域位置決めネットワークを訓練することと、を更に含む。このように、サンプルダウンサンプリング特徴マップに対応する頭部領域及びラベル付けされた頭部領域により、頭部領域位置決めネットワークを訓練することで、訓練された頭部領域位置決めネットワークの性能をより好ましくする。

可能な実現形態において、前記初期特徴マップに基づいて、前記処理されるべき画像における頭部領域を取得することは、
前記処理されるべき画像における各頭部領域の位置情報を決定することと、
各前記頭部領域の位置情報、及び頭部領域の寸法と前記頭部領域の位置情報との関連付け関係に基づいて、前記頭部領域の寸法を決定することと、
前記頭部領域の位置情報及び前記頭部領域の寸法に基づいて、前記頭部領域を取得することと、を含む。このように、処理されるべき画像における各頭部領域の位置情報、頭部領域の寸法により得られた頭部領域の正確度は、より高い。

下記装置、電子機器などの効果に関する説明は、上記方法の説明を参照されたい。ここで、詳細な説明を省略する。

本願の実施例は、対象計数装置を提供する。前記装置は、
処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得するように構成される特徴抽出モジュールと、
前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得するように構成される処理モジュールと、
前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定するように構成される計数モジュールと、を備える。

可能な実現形態において、前記計数モジュールは更に、
各前記頭部キーポイントと各前記頭部領域の中心点との間の類似度を決定し、
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得し、
前記マージ情報、マージされていない頭部キーポイント及びマージされていない頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定するように構成される。

可能な実現形態において、前記計数モジュールは更に、
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を削除し、
前記頭部キーポイント及び前記頭部領域の寸法に基づいて、マージ後の頭部領域を取得するように構成され、前記マージ情報は、前記頭部キーポイント及び前記マージ後の頭部領域を含む。

可能な実現形態において、前記計数モジュールは更に、
前記頭部キーポイントを信頼度に応じて順序付けし、
前記頭部キーポイントの信頼度の降順に応じて、前記頭部キーポイントと前記頭部領域をマージし、マージ情報を取得するように構成される。

可能な実現形態において、前記処理モジュールは更に、
前記初期特徴マップに対してダウンサンプリング処理を行い、スケールが異なる複数のダウンサンプリング特徴マップを取得することと、
複数の前記ダウンサンプリング特徴マップのうちのスケールが中位であるダウンサンプリング特徴マップに対してアップサンプリング処理を行い、アップサンプリング特徴マップを取得することであって、前記アップサンプリング特徴マップのスケールは、前記初期特徴マップのスケールと同じである、ことと、
前記アップサンプリング特徴マップに基づいて、頭部キーポイント認識を行い、前記処理されるべき画像における頭部キーポイントを取得することと、を実行するように構成される。

可能な実現形態において、前記処理モジュールは更に、
複数の前記ダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記ダウンサンプリング特徴マップに対応する頭部領域を取得し、
各前記ダウンサンプリング特徴マップに対応する頭部領域に対してマージ処理を行い、前記処理されるべき画像に対応する頭部領域を取得するように構成される。

可能な実現形態において、前記特徴抽出モジュール及び前記処理モジュールは、前記位置決めネットワークにより実現され、前記装置は、
所定の訓練集合により、前記位置決めネットワークを訓練するように構成される訓練モジュールであって、前記訓練集合は、複数のサンプル群を含み、前記サンプル群に、サンプル画像、サンプル画像に対応するラベル付けされた頭部キーポイント及びラベル付けされた頭部領域が含まれる、訓練モジュールを更に備える。

可能な実現形態において、前記位置決めネットワークは、特徴抽出ネットワーク、頭部キーポイント位置決めネットワーク及び頭部領域位置決めネットワークを含み、前記訓練モジュールは更に、
前記特徴抽出ネットワークにより、前記サンプル画像に対して特徴抽出を行い、前記サンプル画像の初期特徴マップを取得することと、
前記サンプル画像の初期特徴マップに対してダウンサンプリング処理を行い、サイズが異なる複数のサンプルダウンサンプリング特徴マップを取得することと、
前記頭部キーポイント位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してアップサンプリング処理を行い、サンプルアップサンプリング特徴マップを取得することであって、前記サンプルアップサンプリング特徴マップのサイズは、前記サンプル画像の初期特徴マップのサイズと一致する、ことと、
前記頭部キーポイント位置決めネットワークにより、前記サンプルアップサンプリング特徴マップに対して頭部キーポイント認識を行い、前記サンプル画像に対応する頭部キーポイントを取得することと、
前記サンプル画像に対応する頭部キーポイント及び前記ラベル付けされた頭部キーポイントに基づいて、前記頭部キーポイント位置決めネットワークを訓練することと、を実行するように構成される。

可能な実現形態において、前記訓練モジュールは更に、
前記頭部領域位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記サンプルダウンサンプリング特徴マップに対応する頭部領域を取得し、
前記サンプルダウンサンプリング特徴マップに対応する頭部領域及び前記ラベル付けされた頭部領域に基づいて、前記頭部領域位置決めネットワークを訓練するように構成される。

可能な実現形態において、前記処理モジュールは更に、
前記処理されるべき画像における各頭部領域の位置情報を決定し、
各前記頭部領域の位置情報、及び頭部領域の寸法と前記頭部領域の位置情報との関連付け関係に基づいて、前記頭部領域の寸法を決定し、
前記頭部領域の位置情報及び前記頭部領域の寸法に基づいて、前記頭部領域を取得するように構成される。

本願の実施例は、電子機器を提供する。前記電子機器は、プロセッサと、前記プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、前記プロセッサは、前記メモリに記憶されている命令を呼び出して、上記方法を実行するように構成される。

本願の実施例は、コンピュータ可読記憶媒体を更に提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されると、該プロセッサに上記方法を実現させる。

本願の実施例は、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードがコンピュータで実行されると、前記コンピュータに上記いずれか１つの対象計数方法を実行させる。

このように、処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得し、前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得し、前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することができる。本願の実施例で提供される対象計数方法、装置、電子機器、記憶媒体及びプログラムによれば、頭部キーポイント及び頭部領域を利用して対象計数及び位置決めを行うことができる。頭部キーポイント及び頭部領域により、相互補完を行うことで、処理されるべき画像におけるスケールが異なる頭部に、異なるラベル形式を持たせることができ、対象計数及び位置決めの精度を向上させることができる。

上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。本願の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。

本願の実施例による対象計数方法を示すフローチャートである。本願の実施例による対象計数のネットワークアーキテクチャを示す概略図である。本願の実施例によるスケールが異なるダウンサンプリング特徴マップを示す概略図である。本願の実施例による対象計数方法により処理されるべき画像を処理する各段階を示す概略図である。本願の実施例による対象計数方法により処理されるべき画像を処理する各段階を示す概略図である。本願の実施例による対象計数方法により処理されるべき画像を処理する各段階を示す概略図である。本願の実施例による対象計数方法により処理されるべき画像を処理する各段階を示す概略図である。本願の実施例による対象計数装置５００を示すブロック図である。本願の実施例による電子機器６００を示すブロック図である。本願の実施例による電子機器７００を示すブロック図である。

ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の実施例の技術的解決手段を解釈することに用いられる。

以下、図面を参照しながら本願の実施例の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。

ここで使用した「例示的」という用語は、「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。

本明細書において、用語「及び／又は」は、関連対象の関連関係を説明するためのものであり、３通りの関係が存在することを表す。例えば、Ａ及び／又はＢは、Ａのみが存在すること、ＡとＢが同時に存在すること、Ｂのみが存在するという３つの場合を表す。また、本明細書において、用語「少なくとも１つ」は、複数のうちのいずれか１つ又は複数のうちの少なくとも２つの任意の組み合わせを表す。例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選ばれるいずれか１つ又は複数の要素を含むことを表す。

なお、本願の実施例をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本願の実施例の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。

図１は、本願の実施例による対象計数方法を示すフローチャートである。可能な実現形態において、前記対象計数方法は、端末機器又はサーバなどの電子機器により実行されてもよい。端末機器は、ユーザ装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ：ＵＥ）、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡ）、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。前記方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。又は、サーバにより前記方法を実行してもよい。

図１に示すように、前記対象計数方法は以下を含む。

ステップＳ１１において、処理されるべき画像に対して特徴抽出を行い、処理されるべき画像の初期特徴マップを取得する。

ステップＳ１２において、初期特徴マップに基づいて、処理されるべき画像における頭部キーポイント及び頭部領域を取得する。

例を挙げると、処理されるべき画像における画像特徴を抽出し、処理されるべき画像の初期特徴マップを取得することができる。また、初期特徴マップに対して認識を行い、処理されるべき画像における頭部キーポイント及び頭部領域を取得する。ここで、頭部キーポイントは、対象頭部に対応するキーポイントであり、頭部領域は、対象の頭部に対応するブロック図である。

例示的に、事前訓練された特徴抽出ネットワークにより、処理されるべき画像に対して特徴抽出を行い、処理されるべき画像の初期特徴マップを取得し、事前訓練された位置決めネットワークにより、初期特徴マップに対して認識を行い、処理されるべき画像における頭部キーポイント及び頭部領域を取得することができる。

ステップＳ１３において、頭部キーポイント及び頭部領域に基づいて、処理されるべき画像に対して対象計数及び位置決めを行い、処理されるべき画像における対象の数及び位置を決定する。

図２は、本願の実施例による対象計数のネットワークアーキテクチャを示す概略図である。図２に示すように、該ネットワークアーキテクチャに、画像取得端末２０１、ネットワーク２０２及び対象計数端末２０３が備えられる。例示的なアプリケーションをサポートするために、画像取得端末２０１と対象計数端末２０３は、ネットワーク２０２を介して通信接続され、画像取得端末２０１は、ネットワーク２０２を経由して、対象計数端末２０３に、処理されるべき画像を報告し、対象計数端末２０３は、受信した処理されるべき画像に応答して、処理されるべき画像に対して特徴抽出を行い、処理されるべき画像の初期特徴マップを取得し、初期特徴マップに基づいて、処理されるべき画像における頭部キーポイント及び頭部領域を取得し、頭部キーポイント及び頭部領域に基づいて、処理されるべき画像に対して対象計数及び位置決めを行い、処理されるべき画像における対象の数及び位置を決定する。最後に、対象計数端末２０３は、該対象の数及び位置情報をネットワーク２０２にアップロードし、ネットワーク２０３を経由して画像取得端末２０１に送信する。

例を挙げると、頭部キーポイント及び頭部領域に基づいて、処理されるべき画像に対して対象計数及び位置決めを行うことができる。例えば、同一の人物に対応する頭部キーポイントと頭部領域をマージした後、マージされていない頭部キーポイント及び頭部領域と共に、処理されるべき画像に対する計数及び位置決めに用いることで、処理されるべき画像における対象の数及び位置を取得する。

このように、処理されるべき画像に対して特徴抽出を行い、処理されるべき画像の初期特徴マップを取得し、初期特徴マップに基づいて、処理されるべき画像における頭部キーポイント及び頭部領域を取得し、頭部キーポイント及び頭部領域に基づいて、処理されるべき画像に対して対象計数及び位置決めを行い、処理されるべき画像における対象の数及び位置を決定することができる。本願の実施例で提供される対象計数方法によれば、頭部キーポイント及び頭部領域を利用して対象計数及び位置決めを行うことができる。頭部キーポイント及び頭部領域により、相互補完を行うことで、処理されるべき画像におけるスケールが異なる頭部に、異なるラベル形式を持たせることができ、対象計数及び位置決めの精度を向上させることができる。

可能な実現形態において、頭部キーポイント及び頭部領域に基づいて、処理されるべき画像に対して対象計数及び位置決めを行い、処理されるべき画像における対象の数及び位置を決定することは、
各頭部キーポイントと各頭部領域の中心点との間の類似度を決定することと、
頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、頭部キーポイントとの類似度が閾値条件を満たす頭部領域と頭部キーポイントをマージし、マージ情報を取得することと、
マージ情報、マージされていない頭部キーポイント及びマージされていない頭部領域に基づいて、処理されるべき画像に対して対象計数及び位置決めを行い、処理されるべき画像における対象の数及び位置を決定することと、を含んでもよい。

例を挙げると、頭部領域は、中心点を含んでもよい。各頭部領域の中心点の座標と各頭部キーポイントの座標との距離を決定し、該距離に基づいて、頭部キーポイントと頭部領域の中心点との間の類似度を決定することができる。例示的に、処理されるべき画像における頭部キーポイントと頭部領域の中心点との間の類似度は、距離及び処理されるべき画像における遠近程度に関わる。遠位の頭部キーポイントと頭部領域の中心点との距離により類似度を評価するための基準は、近位の頭部キーポイントと頭部領域の中心点との距離により類似度を評価するための基準と異なる。従って、評価重み値及び各頭部領域の中心点の座標と各頭部キーポイントの座標との距離により、頭部キーポイントと頭部領域の中心点との間の類似度を決定することができる。ここで、評価重み値は、処理されるべき画像における、頭部キーポイントと頭部領域の遠近程度を表すためのものである。

例示的に、頭部キーポイントは、ポイント集合Ｐを構成することができる。ポイント集合Ｐにおけるａ番目の頭部キーポイントを（ｘａ，ｙａ）と記してもよく、ここで、（ｘａ，ｙａ）は、ａ番目の頭部キーポイントの座標である。頭部領域は、領域集合Ｂを構成することができる。領域集合Ｂにおけるｊ番目の頭部領域を（ｘｂ，ｙｂ，ｗｂ，ｈｂ）と記してもよく、ここで、（ｘｂ，ｙｂ）は、ｂ番目の頭部領域の中心点の座標であり、（ｗｂ，ｈｂ）はそれぞれ、ｂ番目の頭部領域の幅及び高さである。ポイント集合Ｐにおけるいずれか１つの頭部キーポイントと領域集合Ｂにおけるいずれか１つの頭部領域の中心点との間の類似度を算出することができる。

例を挙げると、頭部領域の中心点と頭部キーポイントとの類似度が類似度閾値（類似度閾値は、所定の数値である）より大きい場合、該頭部領域の中心点と該頭部キーポイントとの類似度が閾値条件を満たすと判定することができる。つまり、該頭部キーポイントと該頭部領域が同一の対象に対応すると認められる。頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、頭部キーポイントとの類似度が閾値条件を満たす頭部領域と該頭部キーポイントをマージし、マージ情報を取得する。例えば、頭部キーポイント及び信頼度が低い頭部領域を削除し、信頼度が高い頭部領域を保持する。又は、全ての頭部領域を削除し、頭部キーポイントを保持する。

マージを完了した後、マージ情報、マージされていない頭部キーポイント（該頭部キーポイントとの類似度が閾値条件を満たす頭部領域は存在しない。又は、該頭部キーポイントとの類似度が閾値条件を満たす頭部領域が削除された）及びマージされていない頭部領域（該頭部領域との類似度が閾値条件を満たす頭部キーポイントは存在しない。該頭部領域との類似度が閾値条件を満たす頭部キーポイントが削除された）に基づいて、処理されるべき画像に対して計数及び位置決めを行う。例示的に、処理されるべき画像に、頭部キーポイント１、頭部キーポイント２、頭部キーポイント３、頭部領域１、頭部領域２、頭部領域３が存在する。ここで、頭部キーポイント２と頭部領域１をマージした後、頭部領域１が削除された。従って、頭部キーポイント１、頭部キーポイント２、頭部キーポイント３、頭部領域２、頭部領域３に基づいて、対象に対して計数及び位置決めを行うことで、処理されるべき画像における対象の数が５であることを取得することができる。各頭部キーポイント及び頭部領域の位置は、対応する対象の位置である。

可能な実現形態において、頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、頭部キーポイントとの類似度が閾値条件を満たす頭部領域と頭部キーポイントをマージし、マージ情報を取得することは、
頭部キーポイントとの類似度が閾値条件を満たす頭部領域を削除することと、
頭部キーポイント及び頭部領域の寸法に基づいて、マージ後の頭部領域を取得することと、を含んでもよく、マージ情報は、頭部キーポイント及びマージ後の頭部領域を含む。

例を挙げると、頭部領域の中心点と頭部キーポイントとの類似度が閾値条件を満たす場合、頭部領域を削除し、頭部キーポイントをマージ情報として保持することができる。例を挙げると、頭部領域１、頭部領域２、頭部領域３と頭部キーポイント４との類似度がいずれも閾値条件を満たすと、頭部領域１、頭部領域２、頭部領域３を削除し、頭部キーポイント４のみをマージ情報として保持することができる。

頭部キーポイントをマージ後の頭部領域中心点とし、該頭部キーポイントとの類似度が閾値条件を満たす頭部領域のうち、信頼度が最も高い頭部領域の寸法をマージ後の頭部領域の寸法とし、更に、マージ後の頭部領域を取得することができる。

可能な実現形態において、頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、頭部キーポイントとの類似度が閾値条件を満たす頭部領域と頭部キーポイントをマージし、マージ情報を取得することは、
頭部キーポイントを信頼度に応じて順序付けすることと、
頭部キーポイントの信頼度の降順に応じて、頭部キーポイントと頭部領域をマージし、マージ情報を取得することと、を含んでもよい。

例を挙げると、頭部キーポイント及び頭部領域を認識する場合、対応する認識結果は、頭部キーポイント及び頭部キーポイントに対応する信頼度、頭部領域及び頭部領域に対応する信頼度を含んでもよい。頭部キーポイントを対応する信頼度の降順に応じて順序付けすることができる。例えば、降順に応じて順序付けするか又は昇順に応じて順序付けする。順序付け後、頭部キーポイントの降順に応じて、頭部キーポイントと頭部領域をマージし、マージ情報を取得することができる。例示的に、信頼度の降順に応じた、頭部キーポイントの順番は、頭部キーポイント１、頭部キーポイント２、頭部キーポイント３、頭部キーポイント４である。ここで、頭部領域１と頭部キーポイント１との類似度及び頭部領域１と頭部キーポイント４との類似度はいずれも閾値条件を満たす場合、まず、頭部キーポイント１と頭部領域１に対してマージ操作を行い、頭部領域１を削除し、頭部キーポイント１を保持する。従って、頭部キーポイント４までに実行する場合、頭部領域１と頭部キーポイント４のマージ操作を実行しない。このように、計数及び位置決めの正確度を向上させることができる。

可能な実現形態において、初期特徴マップに基づいて、処理されるべき画像における頭部キーポイントを取得することは、
初期特徴マップに対してダウンサンプリング処理を行い、スケールが異なる複数のダウンサンプリング特徴マップを取得することと、
複数のダウンサンプリング特徴マップのうちのスケールが中位であるダウンサンプリング特徴マップに対してアップサンプリング処理を行い、アップサンプリング特徴マップを取得することであって、アップサンプリング特徴マップのスケールは、初期特徴マップのスケールと同じである、ことと、
アップサンプリング特徴マップに基づいて、頭部キーポイント認識を行い、処理されるべき画像における頭部キーポイントを取得することと、を含んでもよい。

例を挙げると、最大プーリング層（ｍａｘｐｏｏｌｉｎｇ）により、初期特徴マップに対してダウンサンプリング処理を絶え間なく行い、サイズが異なる複数のダウンサンプリング特徴マップを取得することができる。例えば、初期特徴マップＣ０に対して複数回のダウンサンプリング処理を行い、スケールが異なるダウンサンプリング特徴マップＣ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５、Ｃ６を取得する。ここで、ｉ番目のダウンサンプリング特徴マップの縦横は、初期特徴マップＣ０の縦横の１／２ｉであり、つまり、Ｃ１の縦横は、Ｃ０の縦横の１／２であり、Ｃ２の縦横は、Ｃ０の縦横の１／４であり、Ｃ３の縦横は、Ｃ０の縦横の１／８であり、Ｃ４の縦横は、Ｃ０の縦横の１／１６であり、Ｃ５の縦横は、Ｃ０の縦横の１／３２であり、Ｃ６の縦横は、Ｃ０の縦横の１／６４である。例示的に、図３を参照する。図３は、本願の実施例によるスケールが異なるダウンサンプリング特徴マップを示す概略図である。ここで、図３における３０１に、縦横がそれぞれ１６０、８０及び４０である３つのダウンサンプリング特徴マップを示し、図３における３０２に、縦横がそれぞれ２０、１０及５である３つのダウンサンプリング特徴マップを示す。

複数のダウンサンプリング特徴マップから、スケールが中位であるダウンサンプリング特徴マップＣ３を選択してアップサンプリング処理を絶え間なく行い、得られたアップサンプリング特徴のスケールが初期特徴マップのスケールと一致するまで継続することができる。例えば、ダウンサンプリング特徴マップＣ３に対して連続した複数回のアップサンプリング処理を行い、その都度、前回の処理結果のスケールを２倍増幅し、スケールが初期特徴マップのスケールと一致するまで継続し、アップサンプリング特徴マップを取得する。

アップサンプリング特徴マップに対して頭部キーポイント認識を行い（事前訓練された、頭部キーポイント認識のためのネットワークを用いて認識を行うことができる）、処理されるべき画像における頭部キーポイントを取得することができる。

可能な実現形態において、初期特徴マップに基づいて、処理されるべき画像における頭部領域を取得することは、
複数のダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各ダウンサンプリング特徴マップに対応する頭部領域を取得することと、
各ダウンサンプリング特徴マップに対応する頭部領域に対してマージ処理を行い、処理されるべき画像に対応する頭部領域を取得することと、を含んでもよい。

複数のダウンサンプリング特徴マップを得た後、複数のダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い（事前訓練された、頭部領域認識のためのネットワークを用いて認識を行うことができる）、各ダウンサンプリング特徴マップに対応する頭部領域を取得し、各頭部領域をマージ処理することができる。例示的に、頭部領域は、（ｘｂ，ｙｂ，ｗｂ，ｈｂ）で表されてもよい。従って、各頭部領域をマージして頭部領域集合を取得することができる。同じ頭部領域は、該頭部領域集合において１つとしてマージされる。覆い重なり度が重なり度閾値（所定の数値）より大きい複数の頭部領域をマージし、信頼度が最も高い頭部領域を保持し、該複数の頭部領域のうちの他の頭部領域を削除する。

可能な実現形態において、前記処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得すること、及び前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得することは、位置決めネットワークにより実現され、前記方法は、
所定の訓練集合により、位置決めネットワークを訓練することであって、訓練集合は、複数のサンプル群を含み、サンプル群に、サンプル画像、サンプル画像に対応するラベル付けされた頭部キーポイント及びラベル付けされた頭部領域が含まれる、ことを更に含む。

例を挙げると、所定の訓練集合により、位置決めネットワークを訓練することができる。該位置決めネットワークは、特徴抽出ネットワーク、頭部キーポイント位置決めネットワーク、頭部領域位置決めネットワークを含んでもよい。従って、サンプル画像及びサンプル画像に対応するラベル付けされた頭部キーポイントにより、特徴抽出ネットワーク及び頭部キーポイント位置決めネットワークを訓練し、サンプル画像及びサンプル画像に対応するラベル付けされた頭部領域により、頭部領域位置決めネットワークを訓練することができる。

処理されるべき画像を位置決めネットワークに入力した後、特徴抽出ネットワークを利用して、該処理されるべき画像の特徴を抽出し、初期特徴マップを取得し、該サンプル画像の初期特徴マップに対して複数回のダウンサンプリング処理を行い、対応するスケールが異なるダウンサンプリング特徴マップを取得し、頭部キーポイント位置決めネットワークを利用して、ダウンサンプリング特徴マップのうちのスケールが中位であるダウンサンプリング特徴マップに対してアップサンプリング処理を行った後、スケールが初期特徴マップのスケールと一致するアップサンプリング特徴マップを取得し、該アップサンプリング特徴マップに対して認識を行い、処理されるべき画像の頭部キーポイントを取得する。頭部領域位置決めネットワークにより、各ダウンサンプリング特徴マップに対して認識を行い、各ダウンサンプリング特徴マップに対応する頭部領域を取得し、該複数の頭部領域をマージし、処理されるべき画像における頭部領域を取得する。最後に、頭部領域と頭部キーポイントをマージし、処理されるべき画像における対象の数及び位置を取得することができる。例示的に、本願の実施例による対象計数方法により処理されるべき画像を処理する各段階を示す概略図である図４ａから４ｄを参照する。ここで、図４ａは、処理されるべき画像であり、図４ｂは、処理されるべき画像の初期特徴マップであり、図４ｃは、初期特徴マップに基づいて得られた、処理されるべき画像における頭部領域及びキーポイント生成結果図であり、図４ｄは、処理されるべき画像の計数及び位置決め結果である。ここで、図４ａにおける４０１は、処理されるべき画像の測定されるべき対象であり、図４ｃにおける４０２は、処理されるべき画像における測定されるべき対象の頭部キーポイント及び頭部領域を表し、図４ｄにおける４０３は、図４ｃにおける４０２に対応する測定されるべき対象の位置決め情報である。

可能な実現形態において、位置決めネットワークは、特徴抽出ネットワーク、頭部キーポイント位置決めネットワーク及び頭部領域位置決めネットワークを含み、所定の訓練集合により、位置決めネットワークを訓練することは、
特徴抽出ネットワークにより、サンプル画像に対して特徴抽出を行い、サンプル画像の初期特徴を取得することと、
サンプル画像の初期特徴に対してダウンサンプリング処理を行い、サイズが異なる複数のサンプルダウンサンプリング特徴マップを取得することと、
前記頭部キーポイント位置決めネットワークにより、複数のサンプルダウンサンプリング特徴マップに対してアップサンプリング処理を行い、サンプルアップサンプリング特徴マップを取得することであって、サンプルアップサンプリング特徴マップのサイズは、サンプル画像の初期特徴マップのサイズと一致する、ことと、
頭部キーポイント位置決めネットワークにより、サンプルアップサンプリング特徴マップに対して頭部ポイント座標認識を行い、サンプル画像に対応する頭部ポイント座標情報を取得することと、
サンプル画像に対応する頭部ポイント座標情報及びラベル付けされた頭部キーポイントに基づいて、頭部キーポイント位置決めネットワークを訓練することと、を含む。

例を挙げると、サンプル画像を位置決めネットワークに入力した後、特徴抽出ネットワークを利用して、該サンプル画像の特徴を抽出し、サンプル画像に対応する初期特徴マップを取得し、該サンプル画像の初期特徴マップに対して複数回のダウンサンプリング処理を行い、対応するスケールが異なるダウンサンプリング特徴マップを取得し、頭部キーポイント位置決めネットワークにより、ダウンサンプリング特徴マップのうちの複数のダウンサンプリング特徴マップに対してアップサンプリング処理を行った後、スケールが初期特徴マップのスケールと一致するアップサンプリング特徴マップを取得し、該アップサンプリング特徴マップに対して認識を行い、サンプル画像の頭部キーポイントを取得する。サンプル画像の頭部キーポイント及びサンプル画像に対応するラベル付けされた頭部キーポイントに基づいて、第１認識損失を決定し（例えば、バイナリクロスエントロピー損失関数を利用して第１認識損失を決定することができるが、これに限定されない）、第１認識損失に基づいて、特徴抽出ネットワーク及び頭部キーポイント位置決めネットワークのネットワークパラメータを調整し、第１認識損失が訓練要件（例えば、第１認識損失が損失閾値未満であり、該損失閾値は、所定の数値である）を満たすまで継続する。

可能な実現形態において、所定の訓練集合により、位置決めネットワークを訓練することは、
頭部領域位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各サンプルダウンサンプリング特徴マップに対応する頭部領域を取得することと、
サンプルダウンサンプリング特徴マップに対応する頭部領域及びラベル付けされた頭部領域に基づいて、頭部領域位置決めネットワークを訓練することと、を更に含む。

例を挙げると、スケールが異なるダウンサンプリング特徴マップを得た後、頭部領域位置決めネットワークにより、各ダウンサンプリング特徴マップに対して認識を行い、各ダウンサンプリング特徴マップに対応する頭部領域を取得し、各頭部領域をマージし、サンプル画像に対応する頭部領域を取得する。サンプル画像の頭部領域及びサンプル画像に対応するラベル付けされた頭部領域に基づいて、第２認識損失を決定し（例えば、バイナリクロスエントロピー損失関数及びｓｍｏｏｔｈ－Ｌ１損失関数を利用して第２認識損失を決定することができるが、これに限定されない）、第２認識損失に基づいて、頭部領域位置決めネットワークのネットワークパラメータを取得し、第２認識損失が訓練要件（例えば、第２認識損失が損失閾値未満であり、該損失閾値は、所定の数値である）を満たすまで継続する。

可能な実現形態において、初期特徴マップに基づいて、処理されるべき画像における頭部キーポイント及び頭部領域を取得することは、
処理されるべき画像における各頭部領域の位置情報を決定することと、
各頭部領域の位置情報、及び頭部領域の寸法と頭部領域の位置情報との関連付け関係に基づいて、頭部領域の寸法を決定することと、
頭部領域の位置情報及び頭部領域の寸法に基づいて、頭部領域を取得することと、を含んでもよい。

例を挙げると、サンプル画像は、ラベル付けされた頭部キーポイントのみを有する場合、該ラベル付けされた頭部キーポイントのみを有する場合、該ラベル付けされた頭部キーポイントに基づいて、該対象の頭部領域の寸法を決定することができる。頭部キーポイントにより、群衆密度マップを決定することができる。群衆密度マップにおける各頭部領域に含まれる密度の和は、１である。

近隣位置密度の平均値を算出することで、サンプル画像におけるｉ番目の対象に対応する位置の密度

を取得し、更に、頭部領域の寸法を取得する。例示的に、下記式（１）及び式（２）により、頭部領域の寸法を決定することができる。

ここで、

は、群衆密度マップにおけるｉ番目の対象の密度を識別するためのものであり、ｊは、ｉ番目の対象の

個の近隣のうちのｊ番目の対象を識別するためのものであり、

は、ｊ番目の対象の密度を識別するためのものであり、

は、ｉ番目の対象の頭部領域の寸法を識別するためのものである。

各サンプル画像に対応する頭部領域の寸法を得た後、サンプル画像の頭部キーポイントを頭部領域の位置情報として、サンプル画像の頭部領域寸法と頭部領域の位置情報との関連付け関係を統計分析により取得することができる。

事前訓練された、処理されるべき画像における各頭部領域の位置情報を認識するためのネットワークにより、処理されるべき画像における各頭部領域の位置情報を認識し、更に、頭部領域の位置情報と頭部領域の寸法との関連付け関係に基づいて、頭部領域の寸法を決定し、更に、頭部領域の位置情報及び頭部領域の寸法に基づいて、頭部領域を取得することができる。

本願の実施例で言及した上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができ、紙数に限りがあるため、本願において逐一説明しないことが理解されるべきである。具体的な実施形態の上記方法において、各ステップの実行順番はその機能及び可能な内在的論理により決まることは、当業者であれば理解すべきである。

なお、本願の実施例は、対象計数装置、電子機器、コンピュータ可読記憶媒体、プログラムを更に提供する。上記はいずれも、本願の実施例で提供されるいずれか１つの対象計数方法を実現させるためのものである。対応する技術的解決手段及び説明は、方法に関連する記述を参照されたい。ここで、詳細な説明を省略する。

図５は、本願の実施例による対象計数装置５００を示すブロック図である。図５に示すように、前記対象計数装置５００は、
処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得するように構成される特徴抽出モジュール５０１と、
前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得するように構成される処理モジュール５０２と、
前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定するように構成される計数モジュール５０３と、を備える。

このように、処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得することができる。前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得し、前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することができる。本願の実施例で提供される対象計数装置によれば、頭部キーポイント及び頭部領域を利用して対象計数及び位置決めを行い、頭部キーポイント及び頭部領域により、相互補完を行うことで、処理されるべき画像におけるスケールが異なる頭部に、異なるラベル形式を持たせることができ、対象計数及び位置決めの精度を向上させることができる。

可能な実現形態において、前記計数モジュール５０３は更に、
各前記頭部キーポイントと各前記頭部領域の中心点との間の類似度を決定し、
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得し、
前記マージ情報、マージされていない頭部キーポイント及びマージされていない頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定するように構成される。

可能な実現形態において、前記計数モジュール５０３は更に、
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を削除し、
前記頭部キーポイント及び前記頭部領域の寸法に基づいて、マージ後の頭部領域を取得するように構成され、前記マージ情報は、前記頭部キーポイント及び前記マージ後の頭部領域を含む。

可能な実現形態において、前記計数モジュール５０３は更に、
前記頭部キーポイントを信頼度に応じて順序付けし、
前記頭部キーポイントの信頼度の降順に応じて、前記頭部キーポイントと前記頭部領域をマージし、マージ情報を取得するように構成される。

可能な実現形態において、前記処理モジュール５０２は更に、
前記初期特徴マップに対してダウンサンプリング処理を行い、スケールが異なる複数のダウンサンプリング特徴マップを取得することと、
複数の前記ダウンサンプリング特徴マップのうちのスケールが中位であるダウンサンプリング特徴マップに対してアップサンプリング処理を行い、アップサンプリング特徴マップを取得することであって、前記アップサンプリング特徴マップのスケールは、前記初期特徴マップのスケールと同じである、ことと、
前記アップサンプリング特徴マップに基づいて、頭部キーポイント認識を行い、前記処理されるべき画像における頭部キーポイントを取得することと、を実行するように構成される。

可能な実現形態において、前記処理モジュール５０２は更に、
複数の前記ダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記ダウンサンプリング特徴マップに対応する頭部領域を取得し、
各前記ダウンサンプリング特徴マップに対応する頭部領域に対してマージ処理を行い、前記処理されるべき画像に対応する頭部領域を取得するように構成される。

可能な実現形態において、前記特徴抽出モジュール５０１及び前記処理モジュール５０２は、前記位置決めネットワークにより実現され、前記装置５００は、
所定の訓練集合により、前記位置決めネットワークを訓練するように構成される訓練モジュール５０４であって、前記訓練集合は、複数のサンプル群を含み、前記サンプル群に、サンプル画像、サンプル画像に対応するラベル付けされた頭部キーポイント及びラベル付けされた頭部領域が含まれる、訓練モジュール５０４を更に備える。

可能な実現形態において、前記位置決めネットワークは、特徴抽出ネットワーク、頭部キーポイント位置決めネットワーク及び頭部領域位置決めネットワークを含み、前記訓練モジュール５０４は更に、
前記特徴抽出ネットワークにより、前記サンプル画像に対して特徴抽出を行い、前記サンプル画像の初期特徴マップを取得することと、
前記サンプル画像の初期特徴マップに対してダウンサンプリング処理を行い、サイズが異なる複数のサンプルダウンサンプリング特徴マップを取得することと、
前記頭部キーポイント位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してアップサンプリング処理を行い、サンプルアップサンプリング特徴マップを取得することであって、前記サンプルアップサンプリング特徴マップのサイズは、前記サンプル画像の初期特徴マップのサイズと一致する、ことと、
前記頭部キーポイント位置決めネットワークにより、前記サンプルアップサンプリング特徴マップに対して頭部キーポイント認識を行い、前記サンプル画像に対応する頭部キーポイントを取得することと、
前記サンプル画像に対応する頭部キーポイント及び前記ラベル付けされた頭部キーポイントに基づいて、前記頭部キーポイント位置決めネットワークを訓練することと、を実行するように構成される。

可能な実現形態において、前記訓練モジュール５０４は更に、
前記頭部領域位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記サンプルダウンサンプリング特徴マップに対応する頭部領域を取得し、
前記サンプルダウンサンプリング特徴マップに対応する頭部領域及び前記ラベル付けされた頭部領域に基づいて、前記頭部領域位置決めネットワークを訓練するように構成される。

可能な実現形態において、前記処理モジュール５０２は更に、
前記処理されるべき画像における各頭部領域の位置情報を決定し、
各前記頭部領域の位置情報、及び頭部領域の寸法と前記頭部領域の位置情報との関連付け関係に基づいて、前記頭部領域の寸法を決定し、
前記頭部領域の位置情報及び前記頭部領域の寸法に基づいて、前記頭部領域を取得するように構成される。

幾つかの実施例において、本願の実施例で提供される対象計数装置５００の機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実現は、上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。

本願の実施例はコンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されると、プロセッサに上記方法を実現させる。コンピュータ可読記憶媒体は不揮発性コンピュータ可読記憶媒体であってもよい。

本願の実施例は電子機器を更に提供する。該電子機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、前記プロセッサは、前記メモリに記憶されている命令を呼び出して、上記方法を実行するように構成される。

本願の実施例は、コンピュータプログラム製品を更に提供する。前記コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードが機器で実行されると、機器におけるプロセッサに、上記いずれか１つの実施例で提供される対象計数方法を実現させる。

本願の実施例は、もう１つのコンピュータプログラム製品を更に提供する。該コンピュータプログラム製品は、コンピュータ可読コードを記憶するように構成され、コンピュータ可読コードが電子機器で実行されると、電子機器のプロセッサに、上記いずれか１つの実施例で提供される対象計数方法を実現させる。

電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。

図６は、本願の実施例による電子機器６００を示すブロック図である。例えば、電子機器６００は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。

図６を参照すると、電子機器６００は、処理コンポーネント６０２、メモリ６０４、電源コンポーネント６０６、マルチメディアコンポーネント６０８、オーディオコンポーネント６１０、入力／出力（ＩｎｐｕｔＯｕｔｐｕｔ：Ｉ／Ｏ）インタフェース６１２、センサコンポーネント６１４及び通信コンポーネント６１６のうちの１つ又は複数を備えてもよい。

処理コンポーネント６０２は一般的には、電子機器６００の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理コンポーネント６０２は、指令を実行するための１つ又は複数のプロセッサ６２０を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理コンポーネント６０２は、他のユニットとのインタラクションのために、１つ又は複数のモジュールを備えてもよい。例えば、処理コンポーネント６０２はマルチメディアモジュールを備えることで、マルチメディアコンポーネント６０８と処理コンポーネント６０２とのインタラクションに寄与する。

メモリ６０４は、各種のデータを記憶することで電子機器６００における操作をサポートするように構成される。これらのデータの例として、電子機器６００上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ６０４は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＳＲＡＭ）、電気的消去可能なプログラマブル読み出し専用メモリ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＥＥＰＲＯＭ）、電気的に消去可能なプログラマブル読出し専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＥＰＲＯＭ）、プログラマブル読出し専用メモリ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＰＲＯＭ）、読出し専用メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。

電源コンポーネント６０６は電子機器６００の様々なユニットに電力を提供する。電源コンポーネント６０６は、電源管理システム、１つ又は複数の電源、及び電子機器６００のための電力生成、管理、分配に関連する他のユニットを備えてもよい。

マルチメディアコンポーネント６０８は、上記電子機器６００とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ：ＬＣＤ）及びタッチパネル（ＴｏｕｃｈＰａｎｅｌ：ＴＰ）を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する１つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアコンポーネント６０８は、フロントカメラ及び／又はリアカメラを備える。電子機器６００が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び／又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。

オーディオコンポーネント６１０は、オーディオ信号を出力及び／又は入力するように構成される。例えば、オーディオコンポーネント６１０は、マイクロホン（Ｍｉｃｒｏｐｈｏｎｅ：ＭＩＣ）を備える。電子機器６００が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ６０４に記憶するか、又は通信コンポーネント６１６を経由して送信することができる。幾つかの実施例において、オーディオコンポーネント６１０は、オーディオ信号を出力するように構成されるスピーカーを更に備える。

Ｉ／Ｏインタフェース６１２は、処理コンポーネント６０２と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。

センサコンポーネント６１４は、１つ又は複数のセンサを備え、電子機器６００のために様々な状態の評価を行うように構成される。例えば、センサコンポーネント６１４は、電子機器６００のオン／オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが電子機器６００のディスプレイ及びキーパッドである。センサコンポーネント６１４は電子機器６００又は電子機器６００における１つのユニットの位置の変化、ユーザと電子機器６００との接触の有無、電子機器６００の方位又は加速／減速及び電子機器６００の温度の変動を検出することもできる。センサコンポーネント６１４は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサコンポーネント６１４は、相補型金属酸化膜半導体（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ：ＣＭＯＳ）又は電荷結合素子（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ：ＣＣＤ）画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサコンポーネント６１４は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。

通信コンポーネント６１６は、電子機器６００と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器６００は、ＷｉＦｉ、２Ｇ、３Ｇ、又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信コンポーネント６１６は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連情報を受信する。一例示的な実施例において、上記通信コンポーネント６１６は、近接場通信（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ：ＮＦＣ）モジュールを更に備えることで近距離通信を促進する。例えば、ＮＦＣモジュールは、無線周波数識別（ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ：ＲＦＩＤ）技術、赤外線データ協会（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ：ＩｒＤＡ）技術、超広帯域（ＵｌｔｒａＷｉｄｅＢａｎｄ：ＵＷＢ）技術、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ（登録商標）：ＢＴ）技術及び他の技術に基づいて実現される。

例示的な実施例において、電子機器６００は、１つ又は複数の特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓ：ＤＳＰ）、デジタル信号処理機器（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓＤｅｖｉｃｅ：ＤＳＰＤ）、プログラマブルロジックデバイス（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。

例示的な実施例において、コンピュータプログラム命令を記憶したメモリ６０４のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器６００のプロセッサ６２０により実行され、上記方法を完了する。

図７は、本願の実施例による電子機器７００を示すブロック図である。例えば、電子機器７００は、サーバとして提供されてもよい。図７を参照すると、電子機器７００は、処理コンポーネント７２２を備える。それは、１つ又は複数のプロセッサ、及びメモリ７３２で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理コンポーネント７２２により実行される命令を記憶するためのものである。メモリ７３２に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する１つ又は１つ以上のモジュールを含んでもよい。なお、処理コンポーネント７２２は、命令を実行して、上記方法を実行するように構成される。

電子機器７００は、電子機器７００の電源管理を実行するように構成される電源コンポーネント７２６と、電子機器７００をネットワークに接続するように構成される有線又は無線ネットワークインタフェース７５０と、入力出力（Ｉ／Ｏ）インタフェース７５８と、を更に備えてもよい。電子機器７００は、Ｗｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、Ｕｎｉｘ（登録商標）、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭ又は類似したなど、メモリ７３２に記憶されているオペレーティングシステムを実行することができる。

例示的な実施例において、コンピュータプログラム命令を含むメモリ７３２のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器７００の処理コンポーネント７２２により実行されて上記方法を完了する。

本願は、システム、方法及び／又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。

コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例（非網羅的リスト）は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、ＲＯＭ、ＥＰＲＯＭ又はフラッシュ、ＳＲＡＭ、ポータブルコンパクトディスク読出し専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＣＤ－ＲＯＭ）、デジタル多目的ディスク（ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃ：ＤＶＤ）、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含んでもよい。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。

ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング／処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び／又はエッジサーバを含んでもよい。各コンピューティング／処理装置におけるネットワークインタフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング／処理装置におけるコンピュータ可読記憶媒体に記憶する。

本願の操作を実行するように構成されるコンピュータプログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ：ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は１つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのようなオブジェクト指向プログラミング言語と、「Ｃ」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、任意の種類のネットワーク（ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ：ＬＡＮ）又はワイドエリアネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ：ＷＡＮ）を含む）を通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる（例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する）。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、ＦＰＧＡ又はプログラマブル論理アレイ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙｓ：ＰＬＡ）のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本願の各態様を実現させることができる。

ここで、本願の実施例の方法、装置（システム）及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照しながら、本願の各態様を説明する。フローチャート及び／又はブロック図の各ブロック及びフローチャート及び／又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できることは、理解されるべきである。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行される時、フローチャート及び／又はブロック図における１つ又は複数のブロック中で規定している機能／操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び／又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図おける１つ又は複数のブロック中で規定している機能／操作を実現する各態様の命令を含む製品を備える。

コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び／又はブロック図における１つ又は複数のブロック中で規定している機能／操作を実現させる。

図面におけるフローチャート及びブロック図は、本願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、プログラムセグメント又は命令の一部は、１つまたは複数の所定のロジック機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、２つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができることに留意されたい。

該コンピュータプログラム製品は、ハードウェア、ソフトウェア又はその組み合わせにより実現してもよい。選択可能な実施例において、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具現化されてもよい。別の選択可能な実施例において、コンピュータプログラム製品は具体的には、例えば、ソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ：ＳＤＫ）などのようなソフトウェア製品として具現化される。

以上は本願の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到し得るものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術の改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。

本願は、対象計数方法、装置、電子機器、記憶媒体及びプログラムを提供する。ここで、処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得し、前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得し、前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定する。

Claims

対象計数方法であって、
処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得することと、
前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得することと、
前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することと、を含む、対象計数方法。
前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することは、
各前記頭部キーポイントと各前記頭部領域の中心点との間の類似度を決定することと、
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得することと、
前記マージ情報、マージされていない頭部キーポイント及びマージされていない頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定することと、を含むことを特徴とする
請求項１に記載の方法。
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得することは、
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を削除することと、
前記頭部キーポイント及び前記頭部領域の寸法に基づいて、マージ後の頭部領域を取得することと、を含み、前記マージ情報は、前記頭部キーポイント及び前記マージ後の頭部領域を含むことを特徴とする
請求項２に記載の方法。
前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域を決定し、前記頭部キーポイントとの類似度が閾値条件を満たす頭部領域と前記頭部キーポイントをマージし、マージ情報を取得することは、
前記頭部キーポイントを信頼度に応じて順序付けすることと、
前記頭部キーポイントの信頼度の降順に応じて、前記頭部キーポイントと前記頭部領域をマージし、前記マージ情報を取得することと、を含むことを特徴とする
請求項３に記載の方法。
前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイントを取得することは、
前記初期特徴マップに対してダウンサンプリング処理を行い、スケールが異なる複数のダウンサンプリング特徴マップを取得することと、
複数の前記ダウンサンプリング特徴マップのうちのスケールが中位であるダウンサンプリング特徴マップに対してアップサンプリング処理を行い、アップサンプリング特徴マップを取得することであって、前記アップサンプリング特徴マップのスケールは、前記初期特徴マップのスケールと同じである、ことと、
前記アップサンプリング特徴マップに基づいて、頭部キーポイント認識を行い、前記処理されるべき画像における頭部キーポイントを取得することと、を含むことを特徴とする
請求項１から４のうちいずれか一項に記載の方法。
前記初期特徴マップに基づいて、前記処理されるべき画像における頭部領域を取得することは、
複数の前記ダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記ダウンサンプリング特徴マップに対応する頭部領域を取得することと、
各前記ダウンサンプリング特徴マップに対応する頭部領域に対してマージ処理を行い、前記処理されるべき画像に対応する頭部領域を取得することと、を含むことを特徴とする
請求項５に記載の方法。
前記処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得すること、及び前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得することは、位置決めネットワークにより実現され、前記方法は、
所定の訓練集合により、前記位置決めネットワークを訓練することであって、前記訓練集合は、複数のサンプル群を含み、前記サンプル群に、サンプル画像、サンプル画像に対応するラベル付けされた頭部キーポイント及びラベル付けされた頭部領域が含まれる、ことを更に含むことを特徴とする
請求項１から６のうちいずれか一項に記載の方法。
前記位置決めネットワークは、特徴抽出ネットワーク、頭部キーポイント位置決めネットワーク及び頭部領域位置決めネットワークを含み、
所定の訓練集合により、前記位置決めネットワークを訓練することは、
前記特徴抽出ネットワークにより、前記サンプル画像に対して特徴抽出を行い、前記サンプル画像の初期特徴マップを取得することと、
前記サンプル画像の初期特徴マップに対してダウンサンプリング処理を行い、サイズが異なる複数のサンプルダウンサンプリング特徴マップを取得することと、
前記頭部キーポイント位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してアップサンプリング処理を行い、サンプルアップサンプリング特徴マップを取得することであって、前記サンプルアップサンプリング特徴マップのサイズは、前記サンプル画像の初期特徴マップのサイズと一致する、ことと、
前記頭部キーポイント位置決めネットワークにより、前記サンプルアップサンプリング特徴マップに対して頭部キーポイント認識を行い、前記サンプル画像に対応する頭部キーポイントを取得することと、
前記サンプル画像に対応する頭部キーポイント及び前記ラベル付けされた頭部キーポイントに基づいて、前記頭部キーポイント位置決めネットワークを訓練することと、を含むことを特徴とする
請求項７に記載の方法。
所定の訓練集合により、前記位置決めネットワークを訓練することは、
前記頭部領域位置決めネットワークにより、複数の前記サンプルダウンサンプリング特徴マップに対してそれぞれ頭部領域認識を行い、各前記サンプルダウンサンプリング特徴マップに対応する頭部領域を取得することと、
前記サンプルダウンサンプリング特徴マップに対応する頭部領域及び前記ラベル付けされた頭部領域に基づいて、前記頭部領域位置決めネットワークを訓練することと、を更に含むことを特徴とする
請求項８に記載の方法。
前記初期特徴マップに基づいて、前記処理されるべき画像における頭部領域を取得することは、
前記処理されるべき画像における各頭部領域の位置情報を決定することと、
各前記頭部領域の位置情報、及び頭部領域の寸法と前記頭部領域の位置情報との関連付け関係に基づいて、前記頭部領域の寸法を決定することと、
前記頭部領域の位置情報及び前記頭部領域の寸法に基づいて、前記頭部領域を取得することと、を含むことを特徴とする
請求項１から８のうちいずれか一項に記載の方法。
対象計数装置であって、
処理されるべき画像に対して特徴抽出を行い、前記処理されるべき画像の初期特徴マップを取得するように構成される特徴抽出モジュールと、
前記初期特徴マップに基づいて、前記処理されるべき画像における頭部キーポイント及び頭部領域を取得するように構成される処理モジュールと、
前記頭部キーポイント及び前記頭部領域に基づいて、前記処理されるべき画像に対して対象計数及び位置決めを行い、前記処理されるべき画像における対象の数及び位置を決定するように構成される計数モジュールと、を備える、対象計数装置。
電子機器であって、
プロセッサによる実行可能な命令を記憶するように構成されるメモリと、
前記メモリに記憶されている命令を呼び出して、請求項１から１０のうちいずれか一項に記載の方法を実行するように構成されるプロセッサと、を備える、電子機器。
コンピュータに、請求項１から１０のうちいずれか一項に記載の方法を実行させるためのコンピュータプログラム命令を記憶した、コンピュータ可読記憶媒体。
コンピュータに、請求項１から１０のうちいずれか一項に記載の対象計数方法を実行させる、コンピュータプログラム。