JP2022517914A

JP2022517914A - 顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP2022517914A
Application number: JP2021538256A
Authority: JP
Inventors: 昆霖楊; 鯤顔; 軍候; 帥伊
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-09-18
Filing date: 2019-11-26
Publication date: 2022-03-11
Anticipated expiration: 2039-11-26
Also published as: KR102632647B1; JP7238141B2; US20210326587A1; WO2021051650A1; CN110647834A; TW202113680A; TWI781359B; CN110647834B; KR20210113612A; SG11202106831QA

Abstract

本開示は顔と手を関連付けて検出する方法及び装置、電子機器並びに記憶媒体に関し、前記方法は、人物オブジェクトの画像である第１の画像を取得することと、前記第１の画像に対して特徴抽出を行い、複数のスケールの第１の特徴図を得ることと、前記複数のスケールの第１の特徴図に対して特徴融合処理を行い、前記第１の特徴図とスケールが一々対応する、複数のスケールの第２の特徴図を得ることと、得られた前記複数のスケールの第２の特徴図に基づいて、前記第１の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出することと、を含む。本開示の実施例において簡単で容易に顔と手を関連付けて検出することができる。【選択図】図１

Description

本開示はコンピュータビジュアル技術の分野に関し、特に人の顔と手の位置を検出する方法及び装置、電子機器並びに記憶媒体に関する。

人体の顔、手を関連付けるとは、検出された顔と手を関連付け、この関連付けられた情報に基づいて手で行われたある操作をある具体的な人間に対応させることである。

人体において顔と手とが比較的遠く離れるため、位置情報により直接に関連付けることはできない。そのため、従来技術において、通常、キーポイント技術及び物体検出技術を用いて、対応する顔の枠と手の枠とを関連付けることになる。

本開示は画像処理において顔と手を検出する発明を提案する。

本開示の一側面では、顔と手を関連付けて検出する方法であって、人物オブジェクトの画像である第１の画像を取得することと、前記第１の画像に対して特徴抽出を行い、複数のスケールの第１の特徴図を得ることと、前記複数のスケールの第１の特徴図に対して特徴融合処理を行い、前記第１の特徴図とスケールが一々対応する、複数のスケールの第２の特徴図を取得することと、得られた前記複数のスケールの第２の特徴図に基づいて、前記第１の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出することと、を含む方法を提供する。上記構成により、本開示の実施例は画像における互いに関連性のある顔と手の位置を簡単で容易に得られるとともに、検出精度を高めることができる。

いくつかの可能な実施形態では、第１の画像を得ることは、少なくとも１つの人物オブジェクトを含む画像である前記第２の画像を得ることと、前記第２の画像に対して対象となる人体の検出を行い、前記第２の画像における前記少なくとも１つの人物オブジェクトのうちいずれかの人物オブジェクトの検出枠を得ることと、前記第２の画像において前記いずれかの人物オブジェクトの前記検出枠に対応する画像領域を、前記いずれかの人物オブジェクトの第１の画像として決定することと、を含む。上記構成により、本開示の実施例で得られた第１の画像において他の環境要素の影響が除去されたため、検出精度を更に高めることができる。

いくつかの可能な実施形態では、前記第１の画像に対して特徴抽出を行い、複数のスケールの第１の特徴図を得ることは、前記第１の画像を予め設定されたスケールの第３の画像に調整することと、前記第３の画像を残差ネットワークに入力して前記複数のスケールの第１の特徴図を得ることと、を含む。上記構成により、画像のスケールの統一を実現することができ、適用性を高めることができる。

いくつかの可能な実施形態では、前記複数のスケールの第１の特徴図に対して特徴融合処理を行い、複数のスケールの第２の特徴図を得ることは、前記複数のスケールの第１の特徴図を特徴ピラミッドネットワークに入力し、前記特徴ピラミッドネットワークにより前記特徴融合処理を行い、前記複数のスケールの第２の特徴図を得ることを含む。上記構成により、得られた複数のスケールの第２の特徴図の特徴精度を高めることができる。

いくつかの可能な実施形態では、スケールの大きい順に、前記複数の第１の特徴図を｛Ｃ₁，．．．，Ｃ_n｝として表し、ただし、ｎは、第１の特徴図の数を表し、１より大きい整数であり、前記複数のスケールの第１の特徴図に対して特徴融合処理を行い、複数のスケールの第２の特徴図を得ることは、第１の畳み込みカーネルを用いて第１の特徴図Ｃ_nに対して畳み込み処理を行って前記第１の特徴図Ｃ_nに対応する第２の特徴図Ｆ_nを得ることであって、前記第１の特徴図Ｃ_nのスケールと前記第２の特徴図Ｆ_nのスケールとが同じであることと、前記第２の特徴図Ｆ_nに対して線形補間処理を行って前記第２の特徴図Ｆ_nに対応する第１の中間特徴図Ｆ′_nを取得することであって、前記第１の中間特徴図Ｆ′_nのスケールと第１の特徴図Ｃ_n-1のスケールとが同じであることと、第２の畳み込みカーネルを用いて前記第１の特徴図Ｃ_n以外の第１の特徴図Ｃ_iに対して畳み込み処理を行って前記第１の特徴図Ｃ_iに対応する第２の中間特徴図Ｃ′_iを得ることであって、前記第２の中間特徴図Ｃ′_iのスケールと第１の中間特徴図Ｆ′_i+1のスケールとが同じであり、ｉは１以上、ｎ未満の整数変数であることと、前記第２の中間特徴図Ｃ′_i及び対応する前記第１の中間特徴図Ｆ′_i+1を用いて前記第２の特徴図Ｆ_n以外の第２の特徴図Ｆ_iを得ることであって、前記第１の中間特徴図Ｆ′_i+1が、対応する前記第２の特徴図Ｆ_i+1を線形補間して得られたものであることとを含む。上記構成により、スケールが異なる特徴情報を融合することができ、特徴精度を更に高めることができる。

いくつかの可能な実施形態では、前記第２の中間特徴図Ｃ′_i及び対応する前記第１の中間特徴図Ｆ′_i+1を用いて前記第２の特徴図Ｆ_n以外の第２の特徴図Ｆ_iを得ることは、前記第２の中間特徴図Ｃ′_iと対応する前記第１の中間特徴図Ｆ′_i+1とを加算処理し、前記第２の特徴図Ｆ_iを得ることを含む。上記構成により、２つの中間特徴の特徴情報を有効に融合することができる。

いくつかの可能な実施形態では、得られた前記複数のスケールの第２の特徴図に基づいて、前記第１の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出することは、前記複数のスケールの第２の特徴図のうちスケールが最大の第２の特徴図に対して畳み込み処理を行い、前記顔位置を示すマスクマップ及び前記手位置を示すマスクマップをそれぞれ得ることと、前記顔位置のマスクマップ及び前記手位置のマスクマップに基づいて前記第１の画像において関連性のある手と顔が位置する位置領域を決定することと、を含む。上記構成により、関連性のある顔と手の位置を容易に予測して表すことができる。

いくつかの可能な実施形態では、前記複数のスケールの第１の特徴図間のスケールの関係は、Ｌ（Ｃ_i-1）＝２^k1・Ｌ（Ｃ_i）且つＷ（Ｃ_i-1）＝２^k1・Ｗ（Ｃ_i）であり、ただし、Ｃ_iは各第１の特徴図を表し、Ｌ（Ｃ_i）は前記第１の特徴図Ｃ_iの長さを表し、Ｗ（Ｃ_i）は前記第１の特徴図Ｃ_iの幅を表し、ｋ₁は１以上の整数であり、ｉは変数であって、且つｉの範囲は［２，ｎ］であり、ｎは第１の特徴図の数を表す。

いくつかの可能な実施形態では、前記方法は、前記第１の画像に前記関連性のある手と顔を強調表示することと、前記第１の画像において検出された関連性のある顔位置と手位置に同じラベルを割り当てることとの少なくとも１つを含む。上記構成により、関連性のある顔と手が位置する画像領域を直観的に表すとともに、異なる人物オブジェクトの関連性検出結果を有効に区別することができる。

いくつかの可能な実施形態では、前記方法は、ニューラルネットワークにより実現され、前記ニューラルネットワークをトレーニングするステップは、人物オブジェクトを含む画像であって、関連性のある顔位置及び手位置の真のラベル情報を有するトレーニング画像を取得することと、前記トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークにより前記トレーニング画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を予測することと、予測された関連性のある前記顔位置と手位置、及び前記ラベル情報に基づいてネットワーク損失を決定し、前記ネットワーク損失に基づいて、トレーニング要求を満たすまで前記ニューラルネットワークのネットワークパラメータを調整することと、を含む。上記構成により、ニューラルネットワークの最適化のトレーニングを実現することができ、ネットワークの検出精度を確保することができる。

本開示の第２の側面では、顔と手を関連付けて検出する装置であって、人物オブジェクトの画像である第１の画像を取得するための取得モジュールと、前記第１の画像に対して特徴抽出を行い、複数のスケールの第１の特徴図を得るための特徴抽出モジュールと、前記複数のスケールの第１の特徴図に対して特徴融合処理を行い、前記第１の特徴図とスケールが一々対応する、複数のスケールの第２の特徴図を得るための融合モジュールと、得られた前記複数のスケールの第２の特徴図に基づいて、前記第１の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出するための検出モジュールと、を含む装置を提供する。

いくつかの可能な実施形態では、前記取得モジュールは、少なくとも１つの人物オブジェクトを含む画像である第２の画像を取得するための取得ユニットと、前記第２の画像に対して対象となる人体の検出を行い、前記第２の画像における前記少なくとも１つの人物オブジェクトのうちいずれかの人物オブジェクトの検出枠を得るための対象検出ユニットと、前記第２の画像において前記いずれかの人物オブジェクトの前記検出枠に対応する画像領域を、前記いずれかの人物オブジェクトの第１の画像として決定するための決定ユニットと、を含む。

いくつかの可能な実施形態では、前記特徴抽出モジュールはさらに、前記第１の画像を予め設定されたスケールの第３の画像に調整することと、前記第３の画像を残差ネットワークに入力して前記複数のスケールの第１の特徴図を得ることと、に用いられる。

いくつかの可能な実施形態では、前記融合ユニットさらに、前記複数のスケールの第１の特徴図を特徴ピラミッドネットワークに入力し、前記特徴ピラミッドネットワークにより前記特徴融合処理を行い、前記複数のスケールの第２の特徴図を得ることに用いられる。

いくつかの可能な実施形態では、スケールの大きい順に、前記複数の第１の特徴図を｛Ｃ₁，．．．，Ｃ_n｝として表し、ただし、ｎは、第１の特徴図の数を表し、１より大きい整数であり、前記融合モジュールはさらに、第１の畳み込みカーネルを用いて第１の特徴図Ｃ_nに対して畳み込み処理を行って前記第１の特徴図Ｃ_nに対応する第２の特徴図Ｆ_nを得ることであって、前記第１の特徴図Ｃ_nのスケールと前記第２の特徴図Ｆ_nのスケールとが同じであることと、前記第２の特徴図Ｆ_nに対して線形補間処理を行って前記第２の特徴図Ｆ_nに対応する第１の中間特徴図Ｆ′_nを取得することであって、前記第１の中間特徴図Ｆ′_nのスケールと第１の特徴図Ｃ_n-1のスケールとが同じであることと、第２の畳み込みカーネルを用いて前記第１の特徴図Ｃ_n以外の第１の特徴図Ｃ_iに対して畳み込み処理を行って前記第１の特徴図Ｃ_iに対応する第２の中間特徴図Ｃ′_iを得ることであって、前記第２の中間特徴図Ｃ′_iのスケールと第１の中間特徴図Ｆ′_i+1のスケールとが同じであり、ｉは１以上、ｎ未満の整数変数であることと、前記第２の中間特徴図Ｃ′_i及び対応する前記第１の中間特徴図Ｆ′_i+1を用いて前記第２の特徴図Ｆ_n以外の第２の特徴図Ｆ_iを得ることであって、前記第１の中間特徴図Ｆ′_i+1が、対応する前記第２の特徴図Ｆ_i+1を線形補間して得られたものであることとに用いられる。

いくつかの可能な実施形態では、前記融合モジュールはさらに、前記第２の中間特徴図Ｃ′_iと対応する前記第１の中間特徴図Ｆ′_i+1とを加算処理し、前記第２の特徴図Ｆ_iを得ることに用いられる。

いくつかの可能な実施形態では、前記検出モジュールはさらに、前記複数のスケールの第２の特徴図のうちスケールが最大の第２の特徴図に対して畳み込み処理を行い、前記顔位置を示すマスクマップ及び前記手位置を示すマスクマップをそれぞれ得ることと、前記顔位置のマスクマップ及び前記手位置のマスクマップに基づいて前記第１の画像において関連性のある手と顔が位置する位置領域を決定することと、に用いられる。

いくつかの可能な実施形態では、前記装置はさらに、前記第１の画像に前記関連性のある手と顔を強調表示するための表示モジュールと、前記第１の画像において検出された関連性のある顔位置と手位置に同じラベルを割り当てるための割り当てモジュールとの少なくとも１つを含む。

いくつかの可能な実施形態では、前記装置は、前記特徴抽出モジュール、前記融合モジュール及び前記検出モジュールに適用されるニューラルネットワークを含み、前記装置はさらに、前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを含み、前記ニューラルネットワークをトレーニングするステップは、人物オブジェクトを含む画像であって、関連性のある顔位置及び手位置の真のラベル情報を有するトレーニング画像を取得することと、前記トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークにより前記トレーニング画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を予測することと、予測された関連性のある前記顔位置と手位置、及び前記ラベル情報に基づいてネットワーク損失を決定し、前記ネットワーク損失に基づいて、トレーニング要求を満たすまで前記ニューラルネットワークのネットワークパラメータを調整することと、を含む。

本開示の第３の側面では、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリとを含み、前記プロセッサは、第１の側面のいずれかに記載の方法を実行するために、前記メモリに記憶された命令を呼び出すように構成される電子機器を提供する。

本開示の第４の側面では、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、第１の側面のいずれかに記載の方法を実現させるコンピュータ可読記憶媒体を提供する。

本開示の第５の側面では、コンピュータで読み取り可能なコードを含むコンピュータプログラムであって、前記コンピュータで読み取り可能なコードが電子機器において実行されると、前記電子機器のプロセッサに第１の側面のいずれかに記載の方法を実現するための命令を実行させるコンピュータプログラムを提供する。

本開示の実施例では、第２の画像から１つの人物オブジェクトが存在する領域に対応する第１の画像を決定し、第１の画像に対して特徴抽出処理を行って対応する特徴図を得、そして、特徴図に対してマルチスケールの特徴融合処理を行い、複数のスケールの第２の特徴図を得ることができる。第２の特徴図は第１の特徴図と比べてより精確な特徴情報を有し、第２の特徴図を処理することで第１の画像における関連性のある手と顔の位置を得ることができ、顔と手を検出する精度を高めることができる。また、本開示の実施例の発明は画像における関連性のある手と顔の位置を耳または腕のキーポイントを取得することなく直接に得ることができ、簡単で容易であり、且つ精度が高いという特徴がある。

以上の一般的な説明及び後述の詳細な説明は例示的・解釈的なものにすぎず、本開示を制限するものではないことが理解されたい。

本開示のその他の特徴及び側面は、以下に図面を参照しながら例示的な実施例を詳しく説明することにより、明瞭になるであろう。

ここで、本明細書の一部として組み込まれる図面は、本開示の実施例に適し、明細書と共に本開示の技術的解決手段の説明に用いられる。
本開示の実施例に係る顔と手を関連付けて検出する方法のフローチャートを示す。本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップＳ１０のフローチャートを示す。本開示の実施例に係る第２の画像の模式図を示す。本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップＳ２０のフローチャートを示す。本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップＳ３０のフローチャートを示す。本開示の実施例に係る特徴抽出及び特徴融合の手順の模式図を示す。本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップＳ４０のフローチャートを示す。本開示の実施例に係るニューラルネットワークをトレーニングするフローチャートを示す。本開示の実施例に係る顔と手を関連付けて検出する装置のブロック図を示す。本開示の実施例に係る電子機器のブロック図を示す。本開示の実施例に係る別の電子機器のブロック図を示す。

以下に、図面を参照しながら本開示の様々な例示的な実施例、特徴および方面を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を示す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。
ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。

本明細書における用語「及び／又は」は、単に関連対象との関連関係を記述するものであり、３つの関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａのみが存在し、ＡとＢの両方が存在し、Ｂのみが存在するという３つの場合を示してもよい。また、本明細書における用語「少なくとも１つ」は複数のうちのいずれか１つ、又は複数のうちの少なくとも２つの任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選択されたいずれか１つ又は複数の要素を含むことを示してもよい。

また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。

本開示の実施例は、顔と手を関連付けて検出する方法を提供し、この方法は任意の画像処理装置に適用されることができる。例えば、この方法は端末装置又はサーバーに適用されることができ、またはほかの処理装置に適用されることもできる。ここで、端末装置としては、ユーザ機器（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、モバイルデバイス、ユーザー端末、端末、携帯電話、コードレス電話、携帯情報端末（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、ハンドヘルドデバイス、コンピューティングデバイス、車載デバイス、ウェアラブルデバイス等が挙げられる。いくつかの可能な実施形態では、この顔と手を関連付けて検出する方法は、プロセッサがメモリに記憶されたコンピュータで読み取り可能な命令を呼び出すことにより実現される。

図１は本開示の実施例に係る顔と手を関連付けて検出する方法のフローチャートを示す。図１に示すように、前記顔と手を関連付けて検出する方法は下記の事項を含む。

Ｓ１０：第１の画像を取得する。

いくつかの可能な実施形態では、第１の画像は人物オブジェクトの画像であってもよく、少なくとも１つの顔と少なくとも１つの手を含むことができる。本開示の実施例は当該第１の画像における人物オブジェクトの手と顔の関連性検出を実現可能であり、当該関連性とは、得られた顔と手とが同一の人物オブジェクトの顔と手であることを指す。

いくつかの可能な実施形態では、第１の画像を取得する方法は、携帯電話、カメラなどの画像取得機能を有する装置である画像取得装置により第１の画像を直接に取得することを含んでもよい。第１の画像を取得する方法は、他の機器から転送された第１の画像を受信するか、またはメモリから第１の画像を読み取ることを含んでもよい。または、第１の画像はビデオストリーミングに対してフレーム選択操作を行って得られた画像フレームであってもよく、本開示では特に限定しない。

別のいくつか可能な実施形態では、第１の画像は他の画像の画像領域の一部であってもよく、例えば、第１の画像は、受信した選択情報に基づいて他の画像から選択された画像領域であってもよく、または、人体を検出するような対象検出の方法により検出された画像領域であってもよく、本開示では特に限定しない。

Ｓ２０：前記第１の画像に対して特徴抽出を行い、複数のスケールの第１の特徴図を得る。

いくつかの可能な実施形態では、本開示の実施例は、第１の画像に対して特徴抽出処理を行い、複数のスケールの第１の特徴図を得ることができる。例えば、本開示の実施例は第１の画像を特徴抽出ネットワークに入力し、複数のスケールの第１の特徴図を得ることができる。特徴抽出ネットワークは畳み込みニューラルネットワーク、例えば残差ネットワーク（Ｒｅｓ－Ｎｅｔ）であってもよい。当該残差ネットワークにより第１の画像の特徴抽出を行うことで少なくとも２つのスケールの第１の特徴図を得る。または、他の実施例において他のタイプの特徴抽出ネットワークを用いて当該複数のスケールの第１の特徴図を得ることも可能であり、本開示では特に限定しない。または、別のいくつか可能な実施形態では、第１の画像に対してアップサンプリングまたはダウンサンプリングを行う方法で複数のスケールの第１の特徴図を得ることも可能であり、例えば、異なるサンプリングレートにより該当の複数のスケールの第１の特徴図を得ることが可能である。

Ｓ３０：前記複数のスケールの第１の特徴図に対して特徴融合処理を行い、前記第１の特徴図とスケールが一々対応する、複数のスケールの第２の特徴図を得る。

いくつかの可能な実施形態では、複数のスケールの第１の特徴図を得た場合、当該複数のスケールの第１の特徴図に対して特徴融合処理を行い、該当のスケールの第２の特徴図を得ることができる。特徴融合により、各第２の特徴図に含まれる特徴情報の精確度を高めることができ、顔と手の関連性検出の精度を更に高めることができる。

いくつかの可能な実施形態では、特徴ピラミッドネットワークにより当該複数のスケールの第１の特徴図の特徴融合処理を行うことができる。隣接するスケールの第１の特徴図の特徴情報に対して特徴融合を行い、小スケールの第１の特徴図の特徴情報から大スケールの第１の特徴図の特徴情報へ順次融合することで、全てのスケールの第１の特徴図の特徴情報を融合した第２の特徴図を最終的に得ることができる。

Ｓ４０：得られた前記複数のスケールの第２の特徴図に基づいて、前記第１の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出する。

いくつかの可能な実施形態では、複数のスケールの第２の特徴図を得た後、当該複数のスケールの第２の特徴図に基づいて顔と手の関連性検出を実施することができる。各スケールの第２の特徴図のうち少なくとも１つの第２の特徴図に対して畳み込み処理を行い、第１の画像における関連性のある顔位置及び手位置を得ることができる。例えば、スケールが最大の第２の特徴図を畳み込み層に入力して畳み込み処理を行い、１つの顔位置の第１のマスクマップ、左手位置の第２のマスクマップ及び右手位置の第３のマスクマップを含み得る、顔位置及び手位置に関するマスクマップをそれぞれ得ることができる。得られた各マスクマップに応じて、第１の画像において関連性のある手位置と顔位置を決定することができる。

上記構成により、本開示の実施例は関連性のある手と顔を、耳または腕のキーポイントを取得することもガウス分布を満たすか否かを分析することもなく、第１の画像の特徴のマルチスケール抽出及び特徴融合により直接に得ることができるため、簡単で容易であり、且つ精度が高いという特徴がある。

以下、図面に合わせて本開示の実施例の手順を詳しく説明する。上記実施例に述べられたように、本開示の実施例で得られた第１の画像は人物オブジェクトの画像であってもよい。実際の応用において、得られた画像には複数の人物オブジェクトが含まれ得るが、同一の人物オブジェクトの顔と手の関連性検出の精度を向上させるために、本開示は、得られた画像から各人物オブジェクトの画像領域を得、そして、各画像領域に対してそれぞれ特徴抽出及び特徴融合を行い、各人物オブジェクトの顔と手の位置を最終的に得ることができる。図２は本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップＳ１０のフローチャートを示す。第１の画像を取得することは下記の事項を含む。

Ｓ１０１：少なくとも１つの人物オブジェクトを含む画像である第２の画像を取得する。

いくつかの可能な実施形態では、第１の画像は第２の画像に基づいて得られた画像であってもよい。第２の画像は少なくとも１つの人物オブジェクトの画像であってもよい。第２の画像を取得する方法は、携帯電話、カメラなどの画像取得機能を有する装置である画像取得装置により第２の画像を直接に取得することを含んでもよい。第２の画像を取得する方法は、他の機器から転送された第２の画像を受信することと、またはメモリから第２の画像を読み取ることと、を含んでもよい。または、第２の画像はビデオストリーミングに対してフレーム選択操作を行って得られた画像フレームであってもよく、本開示では特に限定しない。

図３は本開示の実施例に係る第２の画像の模式図を示す。５つの人物オブジェクトＡ、Ｂ、Ｃ、Ｄ及びＥを含んでもよい。他の実施例において、第２の画像は１つの人物オブジェクトのみを含んでもよく、または他の数の人物オブジェクトを含んでもよく、本開示では特に限定しない。

Ｓ１０２：前記第２の画像に対して対象となる人体の検出を行い、前記第２の画像における前記少なくとも１つの人物オブジェクトのうちいずれかの人物オブジェクトの検出枠を得る。

いくつかの可能な実施形態では、第２の画像に基づいて第１の画像を得る際に、第２の画像における各人物オブジェクトについての人体領域の位置を検出し、当該人物オブジェクトに対応する第１の画像を得ることができる。第２の画像に複数の人物オブジェクトが含まれる時に、得られた第１の画像には１つの人物オブジェクトの人体領域が含まれてもよいが、他の人物オブジェクトの画像の少なくとも一部、例えば他のオブジェクトの顔または手の少なくとも一部も含んでもよい。本開示の実施例で第１の画像に対して後続処理を行って得られた第１の画像には１つの人物オブジェクトの手と顔がある。

上述したとおり、第２の画像には少なくとも１つの人物オブジェクトが含まれてもよく、本開示は当該第２の画像に対して対象検出を行い、第２の画像における人物オブジェクトの人体領域の検出を実現し、各人物オブジェクトの検出枠を得ることができる。

いくつかの可能な実施形態では、対象となる人体の検出を実施可能なニューラルネットワークにより第２の画像における人物オブジェクトに対応する検出枠を検出することができる。当該ニューラルネットワークは畳み込みニューラルネットワークであってもよく、トレーニングにより画像における各人物オブジェクト、及び該当の人物オブジェクトの位置領域（つまり検出枠）を精確に識別することができる畳み込みニューラルネットワークであってもよく、例えばＲ－ＣＮＮネットワークであってもよく、または対象検出を実施可能な他のニューラルネットワークであってもよく、本開示では特に限定しない。

図３に示すように、対象検出？理により、画像における人物オブジェクトの人体領域に対応する検出枠、例えば人物オブジェクトＡの検出枠Ａ１、及び人物オブジェクトＤの検出枠Ｄ１を得た。上記説明は例示的なものに過ぎず、他の人物オブジェクトの検出枠を検出することもできる。

検出枠を得る際、画像における人物オブジェクトごとの検出枠を識別することもでき、品質要求を満たす検出枠を識別することもできる。例えば、図３において人物オブジェクトＢ、Ｃ及びＤについて得られた検出枠の品質値が品質閾値未満であり、このとき、人物オブジェクトＢ、Ｃ及びＤに対応する検出枠を品質要求を満たしていない検出枠として決定して削除処理を行うことができる。検出枠の品質値は、対象検出？理を行うときに、検出枠が得られると同時に得られた当該検出枠についての得点や信頼度であってもよい。当該得点または信頼度が品質閾値よりも大きい場合、検出枠が品質要求を満たしていると決定する。品質閾値は、設定された数値、例えば８０％であってもよく、または１未満の他の数値であってもよく、本開示では特に限定しない。

Ｓ１０３：前記いずれかの人物オブジェクトの前記検出枠の前記第２の画像における画像領域を、前記いずれかの人物オブジェクトに対応する第１の画像として決定する。

第２の画像における各人物オブジェクトの検出枠を得た場合、第２の画像において検出枠に対応する画像領域を、当該検出枠に対応する人物オブジェクトの第１の画像として決定することができる。例えば、図３に示す実施例において、第２の画像における人物オブジェクトＡの検出枠Ａ１、及び人物オブジェクトＤの検出枠Ｄ１を得ることができる。それに応じて、Ａ１に対応する画像領域を人物オブジェクトＡの第１の画像として決定し、検出枠Ｄ１に対応する画像領域を人物オブジェクトＤの第１の画像として決定することができる。

上記構成により、本開示の実施例で得られた第１の画像において他の環境要素の影響が除去されたため、検出精度を更に高めることができる。また、上述のように第２の画像から１つの人物オブジェクトについての画像領域（第１の画像）を得ることに基づいて、得られた第１の画像は１つの人物オブジェクトについての画像ではあるものの、実際の応用では、第２の画像に含まれる各人物が互い近い可能性があるため、この時に得られた第１の画像には他の人物オブジェクトの少なくとも一部が含まれ得る。例えば、図３の検出枠Ｄ１は、人物オブジェクトＤに加え、人物Ｃの顔の一部を含むことができる。本開示は後続の処理手順により第１の画像における同一の人物オブジェクトの顔と手の位置を得ることができる。

図４は本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップＳ２０のフローチャートを示す。前記第１の画像に対して特徴抽出を行い、複数のスケールの第１の特徴図を得ることは下記の事項を含む。

Ｓ２０１：前記第１の画像を予め設定された仕様の第３の画像に調整する。

いくつかの可能な実施形態では、得られた第１の画像のスケールが異なり得る。本開示の実施例は、得られた第１の画像を同一のスケール、即ち、予め設定されたスケールに調整することにより、同じスケールの画像に対して後続の特徴抽出処理を行うことができる。本開示の実施例における予め設定されたスケールは、ネットワークの設計及び配置に基いて決定することができる。例えば本開示の実施例における予め設定されたスケールは２５６＊１９２（高さ＊幅）であってもよいが、本開示では特に限定しない。

画像スケールを調整する方法は、アップサンプリング、ダウンサンプリング、画像補間のうち少なくとも１つを含んでもよく、本開示では特に限定しなく、他の方法により予め設定されたスケールの第３の画像を得ることもできる。

Ｓ２０２：前記第３の画像を残差ネットワークに入力して前記複数のスケールの第１の特徴図を得る。

予め設定されたスケールの第３の画像を得た場合、第３の画像に対して特徴抽出処理を行うことができる。例えば第３の画像を残差ネットワーク（例えばＲｅｓｎｅｔ５０）に入力して画像の特徴抽出処理を行い、異なるスケールの第１の特徴図を得る。残差ネットワークの異なる畳み込み層により異なるスケールの第１の特徴図を出力することができる。

あるいは、他の実施形態では、例えばピラミッド特徴抽出ネットワークなどの他の特徴抽出ネットワークにより当該マルチスケールの第１の特徴図を得ることができる。または、アップサンプリングまたはダウンサンプリングの方法によりマルチスケールの第１の特徴図を得ることができる。例えば本開示の実施例のサンプリング周波数は１／８、１／１６、１／３２等であってもよいが、本開示の実施例は特に限定しない。

いくつかの可能な実施形態では、得られた各第１の特徴図同士の関係はＬ（Ｃ_i-1）＝２^k1・Ｌ（Ｃ_i）且つＷ（Ｃ_i-1）＝２^k1・Ｗ（Ｃ_i）であり、ただし、Ｃ_iは各第１の特徴図を表し、Ｌ（Ｃ_i）は第１の特徴図Ｃ_iの長さを表し、Ｗ（Ｃ_i）は第１の特徴図Ｃ_iの幅を表し、ｋ₁は１以上の整数であり、ｉは変数であり、且つｉの範囲は［２，ｎ］であり、ｎは第１の特徴図の数である。即ち、本開示の実施例における各第１の特徴図の長幅間の関係は全て２のｋ₁乗倍である。

一例において、本開示で得られた第１の特徴図は、数が４つであってもよく、それぞれ第１の特徴図Ｃ₁、Ｃ₂、Ｃ₃及びＣ₄として表すことができる。第１の特徴図Ｃ₁の長さ及び幅は第１の特徴図Ｃ₂の長さ及び幅に対してそれぞれ２倍であってもよく、第１の特徴図Ｃ₂の長さ及び幅は第１の特徴図Ｃ₃の長さ及び幅に対してそれぞれ２倍であってもよく、及び、第１の特徴図Ｃ₃の長さ及び幅は第１の特徴図Ｃ₄の長さ及び幅に対してそれぞれ２倍であってもよい。本開示の実施例において上記Ｃ₁とＣ₂の間、Ｃ₂とＣ₃の間、及びＣ₃とＣ₄の間の長さの倍数及び幅の倍数はいずれも同じであり、即ちｋ₁は１の値を取る。他の実施例において、ｋ₁は異なる値であってもよく、例えば、第１の特徴図Ｃ₁の長さ及び幅は第１の特徴図Ｃ₂の長さ及び幅に対してそれぞれ２倍であってもよく、第１の特徴図Ｃ₂の長さ及び幅は第１の特徴図Ｃ₃の長さ及び幅に対してそれぞれ４倍であってもよく、及び第１の特徴図Ｃ₃の長さ及び幅は第１の特徴図Ｃ₄の長さ及び幅に対してそれぞれ８倍であってもよい。本開示の実施例は特に限定しない。

第１の画像に対応する複数のスケールの第１の特徴図を得た場合、各第１の特徴図の特徴融合処理を更に行い、得られた第２の特徴図の特徴情報の精確度を高めることができる。

いくつかの可能な実施形態では、第１の特徴図に対して特徴融合処理を行うことは、ピラミッド特徴抽出ネットワーク（ＦＰＮ）を用いて行うことができる。即ち、複数のスケールの第１の特徴図を特徴ピラミッドネットワークに入力し、前記特徴ピラミッドネットワークにより前記特徴融合処理を行い、第１の特徴図に対応する第２の特徴図を得ることができる。または、他の方式により特徴融合処理を行うことができ、例えば畳み込み処理及びアップサンプリング処理により複数のスケールの第２の特徴図を得ることができる。上記構成により、得られた複数のスケールの第２の特徴図の特徴精度を高めることができる。

図５は本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップＳ３０のフローチャートを示す。前記複数のスケールの第１の特徴図に対して特徴融合処理を行い、複数のスケールの第２の特徴図を得ることは下記の事項を含む。

Ｓ３０１：第１の畳み込みカーネルを用いて第１の特徴図Ｃ_nに対して畳み込み処理を行い、第１の特徴図Ｃ_nに対応する第２の特徴図Ｆ_nを取得し、第１の特徴図Ｃ_nのスケールと第２の特徴図Ｆ_nのスケールとは同じである。

いくつかの可能な実施形態では、本開示の実施例で得られた第１の特徴図は｛Ｃ₁，．．．，Ｃ_n｝として表すことができる。即ち、ｎ個の第１の特徴図があって、且つＣ_nは長さ及び幅が最小の特徴図、即ちスケールが最小の第１の特徴図であってもよい。ｎの値が大きくなるほど、対応する第１の特徴図のスケールが小さくなる。例えば上記第１の特徴図Ｃ₁、Ｃ₂、Ｃ₃及びＣ₄はスケールが順次に小さくなる。

特徴融合処理を行う時に、まずスケールが最小の第１の特徴図Ｃ_nに対応する第２の特徴図Ｆ_nを得ることができる。例えば、第１の畳み込みカーネルにより第１の特徴図Ｃ_nに対して畳み込み処理を行い、第１の特徴図Ｃ_nに対応する第２の特徴図Ｆ_nを得ることができ、第１の特徴図Ｃ_nのスケールと第２の特徴図Ｆ_nのスケールとは同じである。同様に、第２の特徴図Ｆ_nも第２の特徴図のうちスケールが最小の特徴図である。第１の畳み込みカーネルによる畳み込み処理では第１の特徴図Ｃ_nの特徴情報に比べてより精確な第２の特徴図Ｆ_nを得ることができる。第１の畳み込みカーネルは３＊３の畳み込みカーネルであってもよく、または、他のタイプの畳み込みカーネルであってもよい。

Ｓ３０２：前記第２の特徴図Ｆ_nに対して線形補間処理を行って第２の特徴図Ｆ_nに対応する第１の中間特徴図Ｆ′_nを取得し、第１の中間特徴図Ｆ′_nのスケールと第１の特徴図Ｃ_n-1のスケールとは同じである。

第２の特徴図Ｆ_nを得た後、当該第２の特徴図Ｆ_nを用いてそれに対応する第１の中間特徴図Ｆ′_nを取得することができる。本開示の実施例は第２の特徴図Ｆ_nに対して線形補間処理を行うことで第２の特徴図Ｆ_nに対応する第１の中間特徴図Ｆ′_nを得ることができる。第１の中間特徴図Ｆ′_nのスケールと第１の特徴図Ｃ_n-1のスケールとは同じである。例えば、Ｃ_n-1のスケールがＣ_nのスケールの２倍である場合、第１の中間特徴図Ｆ′_nの長さは第２の特徴図Ｆ_nの長さの２倍であり、第１の中間特徴図Ｆ′_nの幅は第２の特徴図Ｆ_nの幅の２倍である。

Ｓ３０３：第２の畳み込みカーネルを用いて第１の特徴図Ｃ_n以外の第１の特徴図Ｃ_iに対して畳み込み処理を行い、前記第１の特徴図Ｃ_iに対応する第２の中間特徴図Ｃ′_iを取得し、前記第２の中間特徴図Ｃ′_iのスケールと第１の中間特徴図Ｆ′_i+1のスケールとは同じであり、ｉは１以上、ｎ未満の整数変数である。

いくつかの可能な実施形態では、第１の特徴図Ｃ_n以外の各第１の特徴図Ｃ₁．．．Ｃ_n-1に対応する第２の中間特徴図Ｃ′₁．．．Ｃ′_n-1を取得することができる。第２の畳み込みカーネルを用いて第１の特徴図Ｃ₁．．．Ｃ_n-1に対してそれそれ畳み込み処理を行い、各第１の特徴図Ｃ₁．．．Ｃ_n-1に一々対応する第２の中間特徴図Ｃ′₁．．．Ｃ′_n-1をそれぞれ取得する。第２の畳み込みカーネルは１＊１の畳み込みカーネルであってもよく、本開示では特に限定しない。第２の畳み込みカーネルによる畳み込み処理により得られた各第２の中間特徴図のスケールは、対応する第１の特徴図のスケールとぞれぞれ同じである。本開示の実施例において、第１の特徴図Ｃ₁．．．Ｃ_n-1の逆の順番で各第１の特徴図Ｃ₁．．．Ｃ_n-1の第２の中間特徴図Ｃ′₁．．．Ｃ′_n-1を得ることができる。即ち、第１の特徴図Ｃ₁に対応する第２の中間特徴図Ｃ′₁を得るまで、第１の特徴図Ｃ_n-1に対応する第２の中間特徴図Ｃ′_n-1を得て、その後第１の特徴図Ｃ_n-2に対応する第２の中間図Ｃ′_n-2を得るような処理を繰り返すことができる。

Ｓ３０４：前記第２の中間特徴図Ｃ′_i及び対応する第１の中間特徴図Ｆ′_i+1を用いて前記第２の特徴図Ｆ_n以外の第２の特徴図Ｆ_iを得る。第１の中間特徴図Ｆ′_i+1は、対応する第２の特徴図Ｆ_i+1を線形補間して得られたものである。

各第２の中間特徴図を得る際、または各第２の中間特徴図を得た後、それに応じて第１の中間特徴図Ｆ′_n以外の他の第１の中間特徴図Ｆ′₁．．．Ｆ′_n-1を得ることができる。本開示の実施例において、第１の特徴図Ｃ₁．．．Ｃ_n-1のうちの第１の特徴図Ｃ_iに対応する第２の特徴図Ｆ_i＝Ｃ′_i+Ｆ′_i+1について、第２の中間特徴図Ｃ′_iのスケール（長さ及び幅）がそれぞれ第１の中間特徴図Ｆ′_i+1のスケール（長さ及び幅）に等しく、且つ第２の中間特徴図Ｃ′_iの長さ及び幅と第１の特徴図Ｃ_i長さ及び幅とが同じであるため、得られた第２の特徴図Ｆ_iの長さ及び幅はそれぞれ第１の特徴図Ｃ_iの長さ及び幅であり、ｉは１以上、ｎ未満の整数である。

具体的には、本開示の実施例は依然として逆の順番で処理することにより第２の特徴図Ｆ_n以外の各第２の特徴図Ｆ_iを取得することができる。即ち、本開示の実施例はまず、第１の中間特徴図Ｆ′_n-1を取得することができる。第１の特徴図Ｃ_n-1に対応する第２の中間図Ｃ′_n-1と第１の中間特徴図Ｆ′_nとを加算処理して第２の特徴図Ｆ_n-1を得ることができ、第２の中間特徴図Ｃ′_n-1の長さ及び幅はそれぞれ第１の中間特徴図Ｆ′_nの長さ及び幅と同じであり、第２の特徴図Ｆ_n-1の長さ及び幅は第２の中間特徴図Ｃ′_n-1及びＦ′_nの長さ及び幅である。この時、第２の特徴図Ｆ_n-1の長さ及び幅はそれぞれ第２の特徴図Ｆ_nの長さ及び幅の２倍である（Ｃ_n-1のスケールはＣ_nのスケールの２倍である）。更に、第２の特徴図Ｆ_n-1に対して線形補間処理を行って第１の中間特徴図Ｆ′_n-1を得、Ｆ′_n-1のスケールとＣ_n-1のスケールとを同じにし、そして第１の特徴図Ｃ_n-2に対応する第２の中間図Ｃ′_n-2と第１の中間特徴図Ｆ′_n-1とを加算処理して第２の特徴図Ｆ_n-2を得ることができる。第２の中間特徴図Ｃ′_n-2の長さ及び幅はそれぞれ第１の中間特徴図Ｆ′_n-1の長さ及び幅と同じであり、第２の特徴図Ｆ_n-2の長さ及び幅は第２の中間特徴図Ｃ′_n-2及びＦ′_n-1の長さ及び幅である。例えば第２の特徴図Ｆ_n-2の長さ及び幅はそれぞれ第２の特徴図Ｆ_n-1の長さ及び幅の２倍である。そのようにして、第１の中間特徴図Ｆ′₂を最終的に得ることができ、当該第１の中間特徴図Ｆ′₂と第１の特徴図Ｃ′₁の加算処理により第２の特徴図Ｆ₁を得ることができ、Ｆ₁の長さ及び幅はそれぞれＣ₁の長さ及び幅と同じである。これにより、各第２の特徴図を得るとともに、Ｌ（Ｆ_i-1）＝２^k1・Ｌ（Ｆ_i）及びＷ（Ｆ_i-1）＝２^k1・Ｗ（Ｆ_i）を満たし、且つＬ（Ｆ_n）＝Ｌ（Ｃ_n）、Ｗ（Ｆ_n）＝Ｗ（Ｃ_n）となる。

例えば、上記４つの第１の特徴図Ｃ₁、Ｃ₂、Ｃ₃及びＣ₄を例として説明する。図６は本開示の実施例に係る特徴抽出及び特徴融合の手順の模式図を示す。残差ネットワークａにより特徴抽出処理を行い、残差ネットワークのうちの４つの畳み込み層を用いてスケールが異なる４つの第１の特徴図Ｃ₁、Ｃ₂、Ｃ₃及びＣ₄をそれぞれ出力し、その後、特徴抽出ネットワークｂを用いて特徴融合処理を行い、マルチスケールの第２の特徴図を得ることができる。まず、Ｃ₄を１つの３＊３の第１の畳み込みカーネルを用いて計算して１つの新しい特徴図Ｆ₄（第２の特徴図）を得ることができ、Ｆ₄は長さ及び幅の大きさがＣ₄と同じである。Ｆ４に対して双線形補間のアップサンプリング（ｕｐｓａｍｐｌｅ）操作を行い、長さ及び幅がいずれも２倍拡大された１つの特徴図である第１の中間特徴図Ｆ′₄を得る。Ｃ₃を１つの１＊１の第２の畳み込みカーネルを用いて計算して１つの第２の中間特徴図Ｃ′₃を得、Ｃ′₃とＦ′₄は大きさが同じであり、２つの中間特徴図を加算して新しい特徴図Ｆ₃（第２の特徴図）を得、第２の特徴図Ｆ₃の長さ及び幅をそれぞれ第２の特徴図Ｆ₄の２倍とするとともに、第１の特徴図Ｃ₃とはスケールが同じであるようにする。Ｆ₃に対して双線形補間のアップサンプリング（ｕｐｓａｍｐｌｅ）操作を行い、長さ及び幅がいずれも２倍拡大された１つの特徴図である第１の中間特徴図Ｆ′₃を得る。Ｃ₂を１つの１＊１の第２の畳み込みカーネルを用いて計算して１つの第２の中間特徴図Ｃ′₂を得、Ｃ′₂とＦ′₃は大きさが同じであり、２つの中間特徴図を加算して新しい特徴図Ｆ₂（第２の特徴図）を得、第２の特徴図Ｆ₂の長さ及び幅をそれぞれ第２の特徴図Ｆ₃の２倍とする。Ｆ₂に対して双線形補間のアップサンプリング（ｕｐｓａｍｐｌｅ）操作を行い、長さ及び幅がいずれも２倍拡大された１つの特徴図である第１の中間特徴図Ｆ′₂を得る。Ｃ₁を１つの１＊１の第２の畳み込みカーネルを介して計算して１つの第２の中間特徴図Ｃ′₁を得、Ｃ′₁とＦ′₂は大きさが同じであり、２つの中間特徴図を加算して新しい特徴図Ｆ₁（第２の特徴図）を得、第２の特徴図Ｆ₁の長さ及び幅をそれぞれ第２の特徴図Ｆ₂の２倍とする。ＦＰＮによる処理後、同じく、スケールが異なる４つの第２の特徴図を得、それぞれＦ₁、Ｆ₂、Ｆ₃及びＦ₄として記載する。しかも、Ｆ₁とＦ₂の間の長さ及び幅の倍数はＣ₁とＣ₂の間の長さ及び幅の倍数と同じであり、Ｆ₂とＦ₃の間の長さ及び幅の倍数はＣ₂とＣ₃の間の長さ及び幅の倍数と同じであり、Ｆ₃とＦ₄の間の長さ及び幅の倍数はＣ₃とＣ４の間の長さ及び幅の倍数と同じある。

上記配置により、スケールが異なる特徴情報を融合することができ、特徴精度を更に高めることができる。上記方法により複数のスケールの第１の特徴図にそれぞれ対応する第２の特徴図を得ることができ、第１の特徴図の特徴情報に比べて、第２の特徴図の特徴情報は精確度が向上した。

第２の特徴図を得た場合、第２の特徴図に基づいて第１の画像における同一の人物オブジェクトについての顔と手の位置を得ることができる。図７は本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップＳ４０のフローチャートを示す。上記実施例に述べられているように、本開示の実施例において得られた前記複数のスケールの第２の特徴図に基づいて、前記第１の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出することは、下記の事項を含む。

Ｓ４０１：前記複数のスケールの第２の特徴図のうちスケールが最大の第２の特徴図に対して畳み込み処理を行い、前記顔位置を示すマスクマップ及び前記手位置を示すマスクマップをそれぞれ得る。

いくつかの可能な実施形態では、得られた複数のスケールの第２の特徴図のうち少なくとも１つの第２の特徴図を畳み込み層に入力し、当該少なくとも１つの第２の特徴図に対してさらなる特徴融合を行い、それに応じて第１の画像に対応する同一の人物オブジェクトの顔位置のマスクマップ及び手位置のマスクマップを生成する。本開示は、スケールが最大である第２の特徴図に各スケールの特徴図の特徴情報が融合されているので、第２の特徴図を当該畳み込み層に入力して手と顔の位置の関連性検出を行うことができる。得られたマスクマップにおける要素は１および０からなるものとして表すことができ、１は手または顔の位置領域を表す。例えば、本開示の実施例は同一の人物オブジェクトの顔位置の第１のマスクマップ、左手位置の第２のマスクマップ、及び右手位置の第３のマスクマップを得ることができ、各マスクマップにおける元素１の位置により、第１の画像における該当の関連性のある顔と手の位置を得ることができる。

いくつかの可能な実施形態では、左手と右手のうちの１つのみを検出可能な場合、検出されていない手に対応するマスクマップはすべてが０のマスクマップであってもよい。または、関連性のある顔と手を検出できない場合、出力されるマスクマップはすべてが０のマスクマップであってもよい。

いくつかの可能な実施形態では、得られたマスクマップは人物オブジェクトマーク及びタイプマークが対応して関連付けられることができる。人物オブジェクトマークは異なる人物オブジェクトを区別することに用いられ、異なる人物オブジェクトは異なる人物オブジェクトマークを有してもよい。タイプマークはマスクマップに対応する顔位置、左手位置または右手位置を示すことに用いられる。上記人物オブジェクトマーク及びタイプマークにより、マスクマップ毎に対応する人物オブジェクト、及びマスクマップに対応するのが顔であるか、または手（左手または右手）であるかを明確に決定することができる。

Ｓ４０２：前記顔位置のマスクマップ及び前記手位置のマスクマップに基づいて前記第１の画像において関連性のある手と顔が位置する位置領域を決定する。

関連性のある手と顔に対応するマスクマップを得た場合、第１の画像における関連性のある手と顔に対応する位置領域を更に得る。

本開示の実施例で得られた第１のマスクマップ及び第２のマスクマップのスケールが第１の画像のスケールと同じであってもよいので、マスクマップに基づいて決定された顔位置を第１の画像における該当の顔の画像領域にマッピングし、マスクマップに基づいて決定された手位置を第１の画像における手の画像領域にマッピングすることができ、これにより、関連性のある手と顔が位置する位置領域を得ることができる。

いくつかの可能な実施形態では、前記第１の画像における関連性のある顔と手の位置が検出された後、得られたマスクマップに基づいて、マッチングされた顔と手を第１の画像に強調表示することができる。例えば、関連性のある顔と手を提示するために、マスクマップを第１の画像における画像領域において検出枠で表す。図３に示すように、画像において人物オブジェクトＤと関連付けられた顔検出枠Ｄ１１及び手検出枠Ｄ１２、Ｄ１３を表示することができる。また、本開示の実施例は関連性のある顔と手に同じラベルを割り当てることで当該顔と手が同一の人物オブジェクトの顔と手であることをマーキングすることができる。

上記配置により、関連性のある顔と手の位置を容易に予測して表すことができる。

いくつかの可能な実施形態では、本開示の実施例で得られた関連性のある顔と手の位置は人物オブジェクトの姿勢の変化を特定することに用いられることができる。例えば、第１の画像はビデオストリーミングにおける画像フレームに基づいて得られたものであってもよく、本開示の実施例の方法により画像フレームにおける同一の人物オブジェクトについての顔位置の変化及び手位置の変化を検出することができ、更に、該当の画像フレームにおける顔位置に対する表情識別を行う、または手位置に基いてジェスチャー識別を行うことによって、表情の変化状況、またはジェスチャーの変化状況を得ることができる。

上記実施例に述べられているように、本開示の実施例に係る顔と手を関連付けて検出する方法はニューラルネットワーク、例えば畳み込みニューラルネットワークに適用されることができる。上記畳み込みニューラルネットワークは、例えば残差ネットワーク及びピラミッドネットワークから構築して構成され得る。本開示はニューラルネットワークをトレーニングして精度要求を満たすニューラルネットワークを得ることができる。図８は本開示の実施例に係るニューラルネットワークをトレーニングするフローチャートを示す。前記ニューラルネットワークをトレーニングすることは下記の事項を含む。

Ｓ５０１：人物オブジェクトを含む画像であって、関連性のある顔位置及び手位置の真のラベル情報を有するトレーニング画像を取得する。

いくつかの可能な実施形態では、トレーニング画像は１つの人物オブジェクトの画像であってもよく、また、トレーニング精度を高めるために、トレーニング画像には他の人物オブジェクトの顔または手の一部が含まれ得る。トレーニング画像の数は複数であり、本開示はトレーニング画像の数を限定しない。

いくつかの可能な実施形態では、ニューラルネットワークのトレーニングを監督するために、トレーニング画像には真のラベル情報が関連付けられることができる。トレーニング画像における同一の人物オブジェクトについての顔位置及び手位置（左手及び右手）を表すために、トレーニング画像毎には関連性のある顔位置及び手位置の真のラベル情報がある。ラベル情報はマーキング枠として表すことができ、または位置座標として表すこともでき、または関連性のある手と顔の位置の真のマスクマップとして表すこともでき、トレーニング画像における関連性のある顔位置及び手位置を特定できれば、本開示の実施例とすることができる。

Ｓ５０２：前記トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークにより前記トレーニング画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を予測する。

いくつかの可能な実施形態では、トレーニング画像をニューラルネットワークに入力し、特徴抽出、特徴融合、及び関連性のある手と顔の位置の検出を行うことができる。

例えば、残差ネットワーク等の特徴抽出ネットワークによりトレーニング画像のマルチスケール特徴抽出を行い、複数のスケールの第１の予測特徴図を得ることができる。特徴抽出の手順の詳細は上記実施例の説明を参照することができ、説明はここでは繰り返されない。

複数のスケールの第１の特徴図を得た後、当該複数のスケールの第１の予測特徴図に対して特徴融合処理を行うことができる。例えばピラミッドネットワークＦＰＮを用いて当該複数の第１の予測特徴図の特徴融合を行い、複数のスケールの第２の予測特徴図を得ることができる。特徴融合の具体的な手順の説明はここでは繰り返されなく、詳細は上記実施例の手順を参照することができる。

複数の第２の予測特徴図を得た場合、各第２の予測特徴図に基いて畳み込み処理を行い、各第２の予測特徴図に基いて予測された、関連性のある顔と手の位置の予測マスクマップを得ることができる。

Ｓ５０３：前記トレーニング画像について予測された関連性のある前記顔位置と前記手位置、及び前記ラベル情報に基づいてネットワーク損失を決定し、前記ネットワーク損失に基づいて、トレーニング要求を満たすまで前記ニューラルネットワークのネットワークパラメータを調整する。

本開示の実施例は、各スケールの第２の予測特徴図で予測して得られた顔の予測マスクマップ及び手の予測マスクマップと、顔と手に対応する真のマスクマップとの間の差異に基づいてネットワーク損失を得ることができ、ここで、対数損失関数によりネットワーク損失を決定することができる。例えば、本開示の実施例は、直接的に対数損失関数を用いて処理し、各スケールの第２の予測特徴図で得られた予測マスクマップとマーキングされた真のマスクマップとの間の損失を得、当該損失をネットワーク損失としてニューラルネットワークのパレメータを調整することができる。つまり、各スケールに対応する損失を全てネットワーク損失とし、ニューラルネットワークパレメータを個別に最適化することができる。

または、他の実施形態では、本開示の実施例は、対数損失関数により各スケールの第２の予測特徴図で得られた顔の予測マスクマップ、手の予測マスクマップと真のラベル情報に対応するマスクマップとの間のサブネットワーク損失を得、各スケールに対応して得られたサブネットワーク損失の加重和に基づいてネットワーク損失を決定することができる。つまり、ニューラルネットワークパレメータをまとめて最適化するために、各スケールに対応する損失の加重和に基づいてネットワーク損失を決定することができる。

また、本開示の実施例は各第２の予測特徴図の予測結果に基づいてネットワーク損失を得ることができるので、得られたニューラルネットワークは、いずれのスケールの第２の予測特徴図の予測結果の精度も比較的高く、ニューラルネットワーク全体の検出精度を高めることができる。

ネットワーク損失を得た場合、ネットワーク損失及び損失閾値の比較結果に基づいてニューラルネットワークのネットワークパラメータを調整する。例えば、ネットワーク損失が損失閾値よりも大きい場合、得られたネット損失が損失閾値よりも小さくなるまで、ニューラルネットワークのパラメータをフィードバックして調整し、例えば特徴抽出ネットワーク、ピラミット特徴ネットワーク及び得られたマスクマップの畳み込み層のパレメータを調整し、トレーニング画像を改めて処理する。また、ネットワーク損失が損失閾値よりも小さい場合、ニューラルネットワークがトレーニング要求を満たすと決定することができ、この時、トレーニングを終了することができる。上記配置により、ニューラルネットワークの最適化のトレーニングを実現し、ネットワークの検出精度を確保することができる。

以上より、本開示の実施例は、第２の画像から１つの人体？象が存在する領域に対応する第１の画像を決定し、第１の画像に対して特徴抽出処理を行って対応する特徴図を得、そして、特徴図に対してマルチスケールの特徴融合処理を行い、複数のスケールの第２の特徴図を得ることができる。第２の特徴図は第１の特徴図と比べてより精確な特徴情報を有し、第２の特徴図を処理することで第１の画像における関連性のある手と顔の位置を得ることができ、顔と手を検出する精度を高めることができる。また、本開示の実施例の発明は画像における関連性のある手と顔の位置を耳または腕のキーポイントを取得することなく直接に得ることができ、簡単で容易であり、且つ精度が高いという特徴がある。

当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの記載順序は、実行順序を厳密に限定して実施の過程を限定するものではなく、各ステップの実行順序がその機能と可能な内部の論理によって決定されることが理解すべきである。

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。

なお、本開示では、顔と手を関連付けて検出する装置、電子機器、コンピュータ可読記憶媒体、プログラムが提供される。これらはいずれも本開示に係る顔と手を関連付けて検出する方法のいずれか１つを実現するために利用できる。対応する技術的解決手段と説明は、方法の対応する記載を参照すればよく、詳細な説明を省略する。

図９は本開示の実施例に係る顔と手を関連付けて検出する装置のブロック図を示す。図９に示すように、前記顔と手を関連付けて検出する装置は、
人物オブジェクトの画像である第１の画像を取得するための取得モジュール１０と、
前記第１の画像に対して特徴抽出を行い、複数のスケールの第１の特徴図を得るための特徴抽出モジュール２０と、
前記複数のスケールの第１の特徴図に対して特徴融合処理を行い、前記第１の特徴図とスケールが一々対応する、複数のスケールの第２の特徴図を得るための融合モジュール３０と、
得られた前記複数のスケールの第２の特徴図に基づいて、前記第１の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出するための検出モジュール４０と、を含む。

いくつかの可能な実施形態では、前記取得モジュールは、
少なくとも１つの人物オブジェクトを含む画像である前記第２の画像を取得するための取得ユニットと、
前記第２の画像に対して対象となる人体の検出を行い、前記第２の画像における前記少なくとも１つの人物オブジェクトのうちいずれかの人物オブジェクトの検出枠を得るための対象検出ユニットと、
前記第２の画像において前記いずれかの人物オブジェクトの前記検出枠に対応する画像領域を、前記いずれかの人物オブジェクトの第１の画像として決定するための決定ユニットと、を含む。

いくつかの可能な実施形態では、前記特徴抽出モジュールはさらに、
少なくとも１つの人物オブジェクトを含む画像である前記第２の画像を取得することと、
前記第２の画像に対して対象となる人体の検出を行い、前記第２の画像における前記少なくとも１つの人物オブジェクトのうちいずれかの人物オブジェクトの検出枠を得ることと、
前記第２の画像において前記いずれかの人物オブジェクトの前記検出枠に対応する画像領域を、前記いずれかの人物オブジェクトの第１の画像として決定することと、に用いられる。

いくつかの可能な実施形態では、前記融合ユニットはさらに、前記複数のスケールの第１の特徴図を特徴ピラミッドネットワークに入力し、前記特徴ピラミッドネットワークにより前記特徴融合処理を行い、前記複数のスケールの第２の特徴図を得ることに用いられる。

いくつかの可能な実施形態では、スケールの大きい順に、前記複数の第１の特徴図を｛Ｃ₁，．．．，Ｃ_n｝として表し、ただし、ｎは、第１の特徴図の数を表し、１より大きい整数である。

前記融合モジュールはさらに、第１の畳み込みカーネルを用いて第１の特徴図Ｃ_nに対して畳み込み処理を行って前記第１の特徴図Ｃ_nに対応する第２の特徴図Ｆ_nを得ることであって、前記第１の特徴図Ｃ_nのスケールと前記第２の特徴図Ｆ_nのスケールとが同じであることと、
前記第２の特徴図Ｆ_nに対して線形補間処理を行って前記第２の特徴図Ｆ_nに対応する第１の中間特徴図Ｆ′_nを取得することであって、前記第１の中間特徴図Ｆ′_nのスケールと第１の特徴図Ｃ_n-1のスケールとが同じであることと、
第２の畳み込みカーネルを用いて前記第１の特徴図Ｃ_n以外の第１の特徴図Ｃ_iに対して畳み込み処理を行って前記第１の特徴図Ｃ_iに対応する第２の中間特徴図Ｃ′_iを得ることであって、前記第２の中間特徴図Ｃ′_iのスケールと第１の中間特徴図Ｆ′_i+1のスケールとが同じであり、ｉは１以上、ｎ未満の整数変数であることと、
前記第２の中間特徴図Ｃ′_i及び対応する前記第１の中間特徴図Ｆ′_i+1を用いて前記第２の特徴図Ｆ_n以外の第２の特徴図Ｆ_iを得ることであって、前記第１の中間特徴図Ｆ′_i+1が、対応する前記第２の特徴図Ｆ_i+1を線形補間して得られたものであることとに用いられる。

いくつかの可能な実施形態では、前記検出モジュールはさらに、前記複数のスケールの第２の特徴図のうちスケールが最大の第２の特徴図に対して畳み込み処理を行い、前記顔位置を示すマスクマップ及び前記手位置を示すマスクマップをそれぞれ得ることと、
前記顔位置のマスクマップ及び前記手位置のマスクマップに基づいて前記第１の画像において関連性のある手と顔が位置する位置領域を決定することと、に用いられる。

いくつかの可能な実施形態では、前記装置は、
前記第１の画像に前記関連性のある手と顔を強調表示するための表示モジュールと、
前記第１の画像において検出された関連性のある顔位置と手位置に同じラベルを割り当てるための割り当てモジュールとの少なくとも１つを含む。

いくつかの可能な実施形態では、前記装置は、前記特徴抽出モジュール、前記融合モジュール、及び前記検出モジュールに適用されるニューラルネットワークを含む。

前記装置は、前記ニューラルネットワークをトレーニングするためのトレーニングモジュールをさらに含み、前記ニューラルネットワークをトレーニングするステップは、
人物オブジェクトを含む画像であって、関連性のある顔位置及び手位置の真のラベル情報を有するトレーニング画像を取得することと、
前記トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークにより前記トレーニング画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を予測することと、
予測された関連性のある前記顔位置と前記手位置、及び前記ラベル情報に基づいてネットワーク損失を決定し、前記ネットワーク損失に基づいて、トレーニング要求を満たすまで前記ニューラルネットワークのネットワークパラメータを調整することと、を含む。

いくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用でき、その具体的な実現について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。

本開示の実施例では、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、上記の方法を実現させるコンピュータ可読記憶媒体がさらに提案される。コンピュータ可読記憶媒体は、不揮発性のコンピュータ可読記憶媒体であってもよい。

本開示の実施例では、プロセッサと、プロセッサにより実行可能な命令を記憶するメモリと、を含み、前記プロセッサは、上記の方法を実行するように構成される電子機器がさらに提案される。
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。

図１０は本開示の実施例に係る電子機器のブロック図を示す。例えば、電子機器８００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。

図１０を参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）のインタフェース８１２、センサコンポーネント８１４、および通信コンポーネント８１６のうちの一つ以上を含んでもよい。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ８２０を含んでもよい。また、処理コンポーネント８０２は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８とのインタラクションのために、マルチメディアモジュールを含んでもよい。

メモリ８０４は電子機器８００での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器８００において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。

電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、一つ以上の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント８０８は前面カメラおよび／または背面カメラを含む。電子機器８００が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび／または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、一つのマイク（ＭＩＣ）を含み、マイク（ＭＩＣ）は、電子機器８００が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、または通信コンポーネント８１６を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

Ｉ／Ｏインタフェース８１２は処理コンポーネント８０２と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。

センサコンポーネント８１４は電子機器８００の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント８１４は電子機器８００のオン／オフ状態、例えば電子機器８００の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント８１４はさらに、電子機器８００または電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速および電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント８１４はさらに、ＣＭＯＳまたはＣＣＤイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。

通信コンポーネント８１６は電子機器８００と他の機器との有線または無線通信を実現するように構成される。電子機器８００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント８１６は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標／ＢＴ）技術および他の技術によって実現できる。

例示的な実施例では、電子機器８００は一つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタルシグナルプロセッサ（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。

例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は、電子機器８００のプロセッサ８２０によって実行されと、上記方法を実行させることができる。

図１１は、例示的な一実施例の電子機器１９００のブロック図を示す。例えば、電子機器１９００はサーバとして提供されてもよい。図１１を参照すると、電子機器１９００は、一つ以上のプロセッサを含む処理コンポーネント１９２２、および、処理コンポーネント１９２２によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されているアプリケーションプログラムは、それぞれが１つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント１９２２は命令を実行することによって上記方法を実行するように構成される。

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成される電源コンポーネント１９２６、電子機器１９００をネットワークに接続するように構成される有線または無線ネットワークインタフェース１９５０、および入出力（Ｉ／Ｏ）インタフェース１９５８を含んでもよい。電子機器１９００はメモリ１９３２に記憶されているオペレーティングシステム、例えばＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は、電子機器１９００の処理コンポーネント１９２２によって実行されと、上記方法を実行させることができる。

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。

コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例（非網羅的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含んでもよい。各計算／処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算／処理機器内のコンピュータ可読記憶媒体に記憶させる。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。

ここで本開示の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび／またはブロック図の各ブロックおよびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作の各方面を実現する命令を有する製品を含む。

コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する。

図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

本開示は、２０１９年９月１８日に中国国家知識産権局に提出された、出願番号が第２０１９１０８８２１３９．６で、発明の名称が「顔と手を関連付けて検出する方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、その全ての内容は援用することによって本開示に組み込まれる。

Claims

顔と手を関連付けて検出する方法であって、
人物オブジェクトの画像である第１の画像を取得することと、
前記第１の画像に対して特徴抽出を行い、複数のスケールの第１の特徴図を得ることと、
前記複数のスケールの第１の特徴図に対して特徴融合処理を行い、前記第１の特徴図とスケールが一々対応する、複数のスケールの第２の特徴図を得ることと、
得られた前記複数のスケールの第２の特徴図に基づいて、前記第１の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出することと、を含むことを特徴とする方法。
第１の画像を取得することは、
少なくとも１つの人物オブジェクトを含む画像である第２の画像を取得することと、
前記第２の画像に対して対象となる人体の検出を行い、前記第２の画像における前記少なくとも１つの人物オブジェクトのうちいずれかの人物オブジェクトの検出枠を得ることと、
前記第２の画像において前記いずれかの人物オブジェクトの前記検出枠に対応する画像領域を、前記いずれかの人物オブジェクトの第１の画像として決定することと、を含むことを特徴とする請求項１に記載の方法。
前記第１の画像に対して特徴抽出を行い、複数のスケールの第１の特徴図を得ることは、
前記第１の画像を予め設定されたスケールの第３の画像に調整することと、
前記第３の画像を残差ネットワークに入力して前記複数のスケールの第１の特徴図を得ることと、を含むことを特徴とする請求項１または２に記載の方法。
前記複数のスケールの第１の特徴図に対して特徴融合処理を行い、複数のスケールの第２の特徴図を得ることは、
前記複数のスケールの第１の特徴図を特徴ピラミッドネットワークに入力し、前記特徴ピラミッドネットワークにより前記特徴融合処理を行い、前記複数のスケールの第２の特徴図を得ることを含むことを特徴とする請求項１～３のいずれか１項に記載の方法。
スケールの大きい順に、前記複数の第１の特徴図を｛Ｃ₁，．．．，Ｃ_n｝として表し、ただし、ｎは、第１の特徴図の数を表し、１より大きい整数であり、
前記複数のスケールの第１の特徴図に対して特徴融合処理を行い、複数のスケールの第２の特徴図を得ることは、
第１の畳み込みカーネルを用いて第１の特徴図Ｃ_nに対して畳み込み処理を行って前記第１の特徴図Ｃ_nに対応する第２の特徴図Ｆ_nを得ることであって、前記第１の特徴図Ｃ_nのスケールと前記第２の特徴図Ｆ_nのスケールとが同じであることと、
前記第２の特徴図Ｆ_nに対して線形補間処理を行って前記第２の特徴図Ｆ_nに対応する第１の中間特徴図Ｆ′_nを取得することであって、前記第１の中間特徴図Ｆ′_nのスケールと第１の特徴図Ｃ_n-1のスケールとが同じであることと、
第２の畳み込みカーネルを用いて前記第１の特徴図Ｃ_n以外の第１の特徴図Ｃ_iに対して畳み込み処理を行って前記第１の特徴図Ｃ_iに対応する第２の中間特徴図Ｃ′_iを得ることであって、前記第２の中間特徴図Ｃ′_iのスケールと第１の中間特徴図Ｆ′_i+1のスケールとが同じであり、ｉは１以上、ｎ未満の整数変数であることと、
前記第２の中間特徴図Ｃ′_i及び対応する前記第１の中間特徴図Ｆ′_i+1を用いて前記第２の特徴図Ｆ_n以外の第２の特徴図Ｆ_iを得ることであって、前記第１の中間特徴図Ｆ′_i+1が、対応する前記第２の特徴図Ｆ_i+1を線形補間して得られたものであることとを含むことを特徴とする請求項１～４のいずれか１項に記載の方法。
前記第２の中間特徴図Ｃ′_i及び対応する前記第１の中間特徴図Ｆ′_i+1を用いて前記第２の特徴図Ｆ_n以外の第２の特徴図Ｆ_iを得ることは、
前記第２の中間特徴図Ｃ′_iと対応する前記第１の中間特徴図Ｆ′_i+1とを加算処理し、前記第２の特徴図Ｆ_iを得ることを含むことを特徴とする請求項５に記載の方法。
得られた前記複数のスケールの第２の特徴図に基づいて、前記第１の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出することは、
前記複数のスケールの第２の特徴図のうちスケールが最大の第２の特徴図に対して畳み込み処理を行い、前記顔位置を示すマスクマップ及び前記手位置を示すマスクマップをそれぞれ得ることと、
前記顔位置のマスクマップ及び前記手位置のマスクマップに基づいて前記第１の画像において関連性のある手と顔が位置する位置領域を決定することとを含むことを特徴とする請求項１～６のいずれか１項に記載の方法。
前記第１の画像に前記関連性のある手と顔を強調表示することと、
前記第１の画像において検出された関連性のある顔位置と手位置に同じラベルを割り当てることとの少なくとも１つを含むことを特徴とする請求項１～７のいずれか１項に記載の方法。
ニューラルネットワークにより実現される方法であって、前記ニューラルネットワークをトレーニングするステップは、
人物オブジェクトを含む画像であって、関連性のある顔位置及び手位置の真のラベル情報を有するトレーニング画像を取得することと、
前記トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークにより前記トレーニング画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を予測することと、
予測された関連性のある前記顔位置と前記手位置、及び前記ラベル情報に基づいてネットワーク損失を決定し、前記ネットワーク損失に基づいて、トレーニング要求を満たすまで前記ニューラルネットワークのネットワークパラメータを調整することとを含むことを特徴とする請求項１～８のいずれか１項に記載の方法。
顔と手を関連付けて検出する装置であって、
人物オブジェクトの画像である第１の画像を取得するための取得モジュールと、
前記第１の画像に対して特徴抽出を行い、複数のスケールの第１の特徴図を得るための特徴抽出モジュールと、
前記複数のスケールの第１の特徴図に対して特徴融合処理を行い、前記第１の特徴図とスケールが一々対応する、複数のスケールの第２の特徴図を得るための融合モジュールと、
得られた前記複数のスケールの第２の特徴図に基づいて、前記第１の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出するための検出モジュールとを含むことを特徴とする装置。
前記取得モジュールは、
少なくとも１つの人物オブジェクトを含む画像である第２の画像を取得するための取得ユニットと、
前記第２の画像に対して対象となる人体の検出を行い、前記第２の画像における前記少なくとも１つの人物オブジェクトのうちいずれかの人物オブジェクトの検出枠を得るための対象検出ユニットと、
前記第２の画像において前記いずれかの人物オブジェクトの前記検出枠に対応する画像領域を、前記いずれかの人物オブジェクトの第１の画像として決定するための決定ユニットとを含むことを特徴とする請求項１０に記載の装置。
前記特徴抽出モジュールはさらに、
前記第１の画像を予め設定されたスケールの第３の画像に調整することと、
前記第３の画像を残差ネットワークに入力して前記複数のスケールの第１の特徴図を得ることとに用いられることを特徴とする請求項１０または１１に記載の装置。
前記融合モジュールはさらに、前記複数のスケールの第１の特徴図を特徴ピラミッドネットワークに入力し、前記特徴ピラミッドネットワークにより前記特徴融合処理を行い、前記複数のスケールの第２の特徴図を得ることに用いられることを特徴とする請求項１０～１２のいずれか１項に記載の装置。
スケールの大きい順に、前記複数の第１の特徴図を｛Ｃ₁，．．．，Ｃ_n｝として表し、ただし、ｎは、第１の特徴図の数を表し、１より大きい整数であり、
前記融合モジュールはさらに、
第１の畳み込みカーネルを用いて第１の特徴図Ｃ_nに対して畳み込み処理を行って前記第１の特徴図Ｃ_nに対応する第２の特徴図Ｆ_nを得ることであって、前記第１の特徴図Ｃ_nのスケールと前記第２の特徴図Ｆ_nのスケールとが同じであることと、
前記第２の特徴図Ｆ_nに対して線形補間処理を行って前記第２の特徴図Ｆ_nに対応する第１の中間特徴図Ｆ′_nを取得することであって、前記第１の中間特徴図Ｆ′_nのスケールと第１の特徴図Ｃ_n-1のスケールとが同じであることと、
第２の畳み込みカーネルを用いて前記第１の特徴図Ｃ_n以外の第１の特徴図Ｃ_iに対して畳み込み処理を行って前記第１の特徴図Ｃ_iに対応する第２の中間特徴図Ｃ′_iを得ることであって、前記第２の中間特徴図Ｃ′_iのスケールと第１の中間特徴図Ｆ′_i+1のスケールとが同じであり、ｉは１以上、ｎ未満の整数変数であることと、
前記第２の中間特徴図Ｃ′_i及び対応する前記第１の中間特徴図Ｆ′_i+1を用いて前記第２の特徴図Ｆ_n以外の第２の特徴図Ｆ_iを得ることであって、前記第１の中間特徴図Ｆ′_i+1が、対応する前記第２の特徴図Ｆ_i+1を線形補間して得られたものであることとに用いられることを特徴とする請求項１０～１３のいずれか１項に記載の装置。
前記融合モジュールはさらに、前記第２の中間特徴図Ｃ′_iと対応する前記第１の中間特徴図Ｆ′_i+1とを加算処理し、前記第２の特徴図Ｆ_iを得ることに用いられることを特徴とする請求項１４に記載の装置。
前記検出モジュールはさらに、
前記複数のスケールの第２の特徴図のうちスケールが最大の第２の特徴図に対して畳み込み処理を行い、前記顔位置を示すマスクマップ及び前記手位置を示すマスクマップをそれぞれ得ることと、
前記顔位置のマスクマップ及び前記手位置のマスクマップに基づいて前記第１の画像において関連性のある手と顔が位置する位置領域を決定することとに用いられることを特徴とする請求項１０～１５のいずれか１項に記載の装置。
前記第１の画像に前記関連性のある手と顔を強調表示するための表示モジュールと、
前記第１の画像において検出された関連性のある顔位置と手位置に同じラベルを割り当てるための割り当てモジュールとの少なくとも１つを含むことを特徴とする請求項１０～１６のいずれか１項に記載の装置。
前記特徴抽出モジュール、前記融合モジュール、および前記検出モジュールに適用されるニューラルネットワークを含み、
前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを更に含み、
前記ニューラルネットワークをトレーニングするステップは、
人物オブジェクトを含む画像であって、関連性のある顔位置及び手位置の真のラベル情報を有するトレーニング画像を取得することと、
前記トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークにより前記トレーニング画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を予測することと、
予測された関連性のある前記顔位置と前記手位置、及び前記ラベル情報に基づいてネットワーク損失を決定し、前記ネットワーク損失に基づいて、トレーニング要求を満たすまで前記ニューラルネットワークのネットワークパラメータを調整することとを含む、ことを特徴とする請求項１０～１７のいずれか１項に記載の装置。
プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、請求項１～９のいずれか１項に記載の方法を実行するために、前記メモリに記憶された命令を呼び出すように構成されることを特徴とする電子機器。
コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、請求項１～９のいずれか１項に記載の方法を実現させることを特徴とするコンピュータ可読記憶媒体。
コンピュータで読み取り可能なコードを含むコンピュータプログラムであって、前記コンピュータで読み取り可能なコードが電子機器において実行されると、前記電子機器のプロセッサに請求項１～９のいずれか１項に記載の方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。