JP2013516013A

JP2013516013A - 頭部認識方法

Info

Publication number: JP2013516013A
Application number: JP2012546438A
Authority: JP
Inventors: ベール、グザヴィエ; トロ、ジュリアン; ゴンザレス、ハヴィエルマルティネス; シモンズ、ケビン
Original assignee: ソフトキネティックソフトウェア
Priority date: 2009-12-28
Filing date: 2010-12-28
Publication date: 2013-05-09
Anticipated expiration: 2030-12-28
Also published as: KR101362631B1; JP5514918B2; CA2784554A1; BR112012015986A2; US9081999B2; EP2339507B1; AU2010338283A1; AU2010338283B2; CA2784554C; AU2010338283A2; KR20120130090A; WO2011080280A1; TW201142719A; EP2339507A1; SG181597A1; US20130022262A1; ZA201204263B; MX2012007593A; CN102812474A; CN102812474B

Abstract

本願に記載されているのは、ソース画像における人の頭部を認識する方法である。この方法は、ソース画像における人体の少なくとも一部の輪郭を検出するステップと、ソース画像における人体の深度を計算するステップとを含む。ソース画像からは、その深度での人の頭部に対応する楕円の長半径の大きさ及び短半径の大きさを計算し、検出した輪郭の画素の組の少なくともいくつかについて、アキュムレータ・アレイにおいて、輪郭画素の位置に中心があり、長短の半径の長さを有する楕円の少なくとも一部分を生成する。アキュムレータ・アレイにおける強度極大点の位置が、ソース画像における人の頭部の候補の位置に対応するものとして選択される。

Description

本発明は、ソース画像における人の頭部を認識するための方法及びコンピューター・システムに関するものである。特に、本発明は、深度情報を用いて、検知される人の頭部の大きさとしてもっとも有力なものを予測し、人の頭部の認識を支援する方法に関するものである。

さまざまな画像システム及び画像処理用途において、ソース画像における人の頭部の位置及び／又は向きを自動的に認識することが有益である。たとえば、ユーザーは、コンピューター・システムで作動しているプログラム、たとえば、コンピューター・ゲームのプログラムと、撮像装置の有効範囲内で自分の頭を動かすことによって対話をすることがある。あるいは、このような頭部認識方法は、撮像装置で、開口、露出時間、焦点深度などのパラメーターを調整して、顔写真用に最適化するために利用されることもある。

コンピューター・システムとの対話、特に、データ及びコマンドの入力は、広く知られた問題である。従来、このような対話は、物理的な入力装置、たとえば、キーボード、マウス、スクロール・ホイール、ペン、タッチ・スクリーン、ジョイスティック、ゲームパッド等、ユーザーの物理的な動作に応じて信号を生成するものによって行われている。しかしながら、このような物理的な入力装置には、多くの欠点がある。たとえば、物理的な入力装置は、限られた量の異なる入力信号しか提供できないので、３次元の「仮想現実」環境のような一部の用途では、ぎこちなく感じたり、現実性に欠けたりする。さらには、物理的入力装置は耐久性が低く、連続して使用すると、反復運動過多損傷（ＲＳＩ）のような、ユーザーの健康にとって悪い結果となることさえある。

代わりとなる入力装置や方法もまた知られている。たとえば、音声認識の実用的なシステムが利用可能である。しかしながら、音声認識は、一部の用途、たとえばアクション・ゲームなど、ユーザーが迅速で、正確な入力を繰り返し行う必要があるものについては、実用的な代替手段ではない。さらには、音声認識の有効性には、背景の雑音が悪影響を及ぼし、また、一般的に、音声認識は特定のユーザーの音声命令を認識するのに学習期間を必要とする。

別の代替手段は、画像認識である。もっとも簡単な形態では、画像認識システムは、バーコードのような、コントラストの強いバイナリ・パターンを認識し、そしてこれらのパターンを処理に適したバイナリ信号に変換する。より進んだ画像認識システムは、画像にあるより複雑なパターンを認識でき、それに応じて多種多様な信号を生成することができる。このような画像認識システムは、たとえば、米国特許第６２５６０３３号明細書に、画像システムの有効範囲内でユーザーの身振りを認識することに関し提案されている。しかしながら、従来の画像システムは、全く深度を検知せず、上記ユーザーの２次元投影しか生成できない。結果として、ユーザーの身振りの認識には本質的な欠陥があり、入力可能な範囲が限られていて、誤認の可能性でいっぱいである。特に、このようなシステムには、背景からユーザーを分離することに難点がある。

しかしながら、３次元画像システムが発達したことで、たとえば、ユーザーの身振りをより良く認識できる形状認識方法及び装置を開発する可能性が与えられた。このような３次元画像システムの１つが、Ｇ．Ｙａｈａｖ、Ｇ．Ｊ．Ｉｄｄａｍ及びＤ．Ｍａｎｄｅｌｂｏｕｍの「３ＤＩｍａｇｉｎｇＣａｍｅｒａｆｏｒＧａｍｉｎｇＡｐｐｌｉｃａｔｉｏｎ」に開示されている。この論文に開示されている３次元画像システムは、いわゆる「飛行時間」、すなわち、ＴＯＦ型であり、このＴＯＦ型では、深度検知が、３次元画像システムの有効範囲にある対象物で反射した光の波面形状から獲得される。ただし、他のタイプの画像システム、たとえば、ステレオ・カメラ、ライダー、レーダー、ソナーなども提案されている。

たとえば、国際公開第２００８／１２８５６８号には、ある場所の３次元画像を取り込み、人体のような対象を上記３次元画像で選択し、この対象を分割して、頭部を含む複数の個別領域にすることが提案されている。

米国特許第７２０３３５６号明細書では、さまざまな代替手段の中で、３次元画像システムが、取り込んだソース画像における人の頭部の位置を特定するために、楕円又は楕円体近似を利用することが提案されている。しかしながら、この先行技術文献には、頭部をモデル化している楕円又は楕円体のパラメーターがどのように取得されているかは開示されていない。

同様の３次元モデル近似法が、ＺｈｅｎｇｃｈｅｎｇＨｕ、ＴｅｔｓｕｙａＫａｗａｍｕｒａ、及び、ＫｅｉｉｃｈｉＵｃｈｉｍｕｒａによって「ＧｒａｙｓｃａｌｅＣｏｒｒｅｌａｔｉｏｎｂａｓｅｄ３ＤＭｏｄｅｌＦｉｔｔｉｎｇｆｏｒＯｃｃｕｐａｎｔＨｅａｄＤｅｔｅｃｔｉｏｎａｎｄＴｒａｃｋｉｎｇ」、ＳｔｅｒｅｏＶｉｓｉｏｎ、ＩＳＢＮ９７８−９５３−７６１９−２２−０、２００８年１１月、Ｉ−Ｔｅｃｈ、Ｖｉｅｎｎａ、Ａｕｓｔｒｉａ、９１〜１０２ページに提案されている。

人の頭部を追跡するために３次元データ及び楕円近似を利用するさらに別の方法がＥｈｓａｎＰａｒｖｉｚｉ及びＱ．Ｍ．ＪｏｎａｔｈａｎＷｕにより、「Ｒｅａｌ−Ｔｉｍｅ３ＤＨｅａｄＴｒａｃｋｉｎｇＢａｓｅｄｏｎＴｉｍｅ−ｏｆ−ＦｌｉｇｈｔＤｅｐｔｈＳｅｎｓｏｒ」、１９ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＴｏｏｌｓｗｉｔｈＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅに提案されている。しかしながら、この論文にもまた、好ましい頭部モデルの好ましいパラメーターをどうのようにして取得するのか開示されていない。

「ＴｒａｎｓｆｏｒｍｅｅｄｅＨｏｕｇｈｅｌｌｉｐｔｉｑｕｅｆｌｏｕｅｒａｐｉｄｅ」では、Ｃ．Ｌｅｉｇｎｅｌ、Ｏ．Ｂｅｒｎｉｅｒ、Ｄ．Ｃｏｌｌｏｂｅｒｔ、及び、Ｒ．Ｓｅｇｕｉｅｒによって、画像内で楕円の輪郭を認識するための、コンピューターによって実行される、特に効率的な方法と、頭部認識へのその応用が開示されている。この方法では、特定の種類の楕円ハフ変換を利用して、ソース画像から生成した輪郭画像における楕円形状を認識している。

ハフ変換とは、画像の中で、所定の部類に入る対象物の不完全なインスタンスを投票手続きによって見つける方法である。この投票手続きは、いわゆるアキュムレータ・アレイで実行され、このアキュムレータ・アレイから対象物の候補が強度極大点として得られる。アキュムレータ・アレイには、画像における個々の点の位置に対応する位置で、捜し求めている対象物のインスタンスを生成することによりデータ設定される（ｐｏｐｕｌａｔｅｄ）。楕円ハフ変換の特定の例では、対象物は楕円である。アキュムレータ・アレイにおける強度極大点、すなわち、複数の楕円が交差する位置は、画像における同様な楕円の候補位置を表す。Ｌｅｉｇｎｅｌらが開示した方法では、算出速度を上げるために、アキュムレータ・アレイには、これらの楕円の代表的な部分のみをデータ設定する。検出速度を上げるために、たとえば、理想的な楕円形状の周りに減少する強度分布を有する不鮮明な楕円が使われる。

しかしながら、画像で予想される頭部の大きさについて事前の知識がなければ、算出速度と、誤検出の可能性との間で妥協をしなければならない。この問題を軽減するために、この従来技術の方法では、肌色である範囲の輪郭のみを考慮する。しかし、ユーザーが肌色の服を着れば、誤検出の危険が増大する。さらには、この従来技術の方法は、画像システムから比較的限られた範囲の距離、すなわち、１から２．５メートル以内で人の頭部を検出することに限定される。

ソース深度画像で人の頭部の位置を特定する他の方法は、公開された米国特許出願公開第２００５／０３１１６６号明細書、米国特許出願公開第２００５／０５８３３７号明細書、米国特許出願公開第２００３／２３５３４１号明細書に記載されている。

さらに、ＣｌａｂｉａｎＭらは、インターネット上で、ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｐｒｉｐ．ｔｕｗｉｅｎ．ａｃ．ａｔ／〜ｋｒｗ／ｐａｐｅｒｓ／２００２／ＤＡＧＭ／Ｃｌａｂｉａｎ．ｐｄｆから得られるＩＮＴＥＲＮＥＴＣＩＴＡＴＩＯＮ２００２、ＸＰ００２３８９３３５で表題が「Ｈｅａｄｄｅｔｅｃｔｉｏｎａｎｄｌｏｃａｌｉｚａｔｉｏｎｆｒｏｍｓｐａｒｓｅ３Ｄｄａｔａ」という、頭部検出に関係する記事を公表している。ＫｒｏｔｏｓｋｙＳＪらもまた、ＩＮＴＥＬＬＩＧＥＮＴＶＥＨＩＣＬＥＳＳＹＭＰＯＳＩＵＭ、２００４ＩＥＥＥＰａｒｍａ、Ｉｔａｌｙ、Ｊｕｎｅ１４−１７、２００４Ｐｉｓｃａｔａｗｙ、ＮＪ、ＵＳＡ、ＩＥＥＥＬＮＫＤ−ＤＯＩ：１０．１１０９／ＶＳ．２００４．１３３６４６９、２００４年６月１４日、６９８〜７０３ページ、ＸＰ０１０７２７７３２ＩＳＰＢ：９７８−０−７８０３−８３１０−４に「Ｏｃｃｕｐａｎｔｐｏｓｔｕｒｅａｎａｌｙｓｉｓｕｓｉｎｇｒｅｆｌｅｃｔａｎｃｅａｎｄｓｔｅｒｅｏｉｍａｇｅｓｆｏｒｓｍａｒｔａｉｒｂａｇｄｅｐｌｏｙｍｅｎｔ」という表題の記事を発表しており、これは、車の座席の乗車者を検出して、エアーバックの展開を制御することに関係している。

米国特許第６２５６０３３号明細書国際公開第２００８／１２８５６８号米国特許第７２０３３５６号明細書米国特許出願公開第２００５／０３１１６６号明細書米国特許出願公開第２００５／０５８３３７号明細書米国特許出願公開第２００３／２３５３４１号明細書国際公開第２００８／１２８５２８号

Ｇ．Ｙａｈａｖ、Ｇ．Ｊ．Ｉｄｄａｍ及びＤ．Ｍａｎｄｅｌｂｏｕｍ「３ＤＩｍａｇｉｎｇＣａｍｅｒａｆｏｒＧａｍｉｎｇＡｐｐｌｉｃａｔｉｏｎ」ＺｈｅｎｇｃｈｅｎｇＨｕ、ＴｅｔｓｕｙａＫａｗａｍｕｒａ、及び、ＫｅｉｉｃｈｉＵｃｈｉｍｕｒａ「ＧｒａｙｓｃａｌｅＣｏｒｒｅｌａｔｉｏｎｂａｓｅｄ３ＤＭｏｄｅｌＦｉｔｔｉｎｇｆｏｒＯｃｃｕｐａｎｔＨｅａｄＤｅｔｅｃｔｉｏｎａｎｄＴｒａｃｋｉｎｇ」、ＳｔｅｒｅｏＶｉｓｉｏｎ、ＩＳＢＮ９７８−９５３−７６１９−２２−０、２００８年１１月、Ｉ−Ｔｅｃｈ、Ｖｉｅｎｎａ、Ａｕｓｔｒｉａ、９１〜１０２ページＥｈｓａｎＰａｒｖｉｚｉ及びＱ．Ｍ．ＪｏｎａｔｈａｎＷｕ「Ｒｅａｌ−Ｔｉｍｅ３ＤＨｅａｄＴｒａｃｋｉｎｇＢａｓｅｄｏｎＴｉｍｅ−ｏｆ−ＦｌｉｇｈｔＤｅｐｔｈＳｅｎｓｏｒ」、１９ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＴｏｏｌｓｗｉｔｈＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ「ＴｒａｎｓｆｏｒｍｅｅｄｅＨｏｕｇｈｅｌｌｉｐｔｉｑｕｅｆｌｏｕｅｒａｐｉｄｅ」Ｃ．Ｌｅｉｇｎｅｌ、Ｏ．Ｂｅｒｎｉｅｒ、Ｄ．Ｃｏｌｌｏｂｅｒｔ、及び、Ｒ．ＳｅｇｕｉｅｒＣｌａｂｉａｎＭら、「Ｈｅａｄｄｅｔｅｃｔｉｏｎａｎｄｌｏｃａｌｉｚａｔｉｏｎｆｒｏｍｓｐａｒｓｅ３Ｄｄａｔａ」ＩＮＴＥＲＮＥＴＣＩＴＡＴＩＯＮ２００２、ＸＰ００２３８９３３５、ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｐｒｉｐ．ｔｕｗｉｅｎ．ａｃ．ａｔ／〜ｋｒｗ／ｐａｐｅｒｓ／２００２／ＤＡＧＭ／Ｃｌａｂｉａｎ．ｐｄｆＫｒｏｔｏｓｋｙＳＪら、「Ｏｃｃｕｐａｎｔｐｏｓｔｕｒｅａｎａｌｙｓｉｓｕｓｉｎｇｒｅｆｌｅｃｔａｎｃｅａｎｄｓｔｅｒｅｏｉｍａｇｅｓｆｏｒｓｍａｒｔａｉｒｂａｇｄｅｐｌｏｙｍｅｎｔ」、ＩＮＴＥＬＬＩＧＥＮＴＶＥＨＩＣＬＥＳＳＹＭＰＯＳＩＵＭ、２００４ＩＥＥＥＰａｒｍａ、Ｉｔａｌｙ、Ｊｕｎｅ１４−１７、２００４Ｐｉｓｃａｔａｗｙ、ＮＪ、ＵＳＡ、ＩＥＥＥＬＮＫＤ−ＤＯＩ：１０．１１０９／ＶＳ．２００４．１３３６４６９、２００４年６月１４日、６９８〜７０３ページ、ＸＰ０１０７２７７３２ＩＳＰＢ：９７８−０−７８０３−８３１０−４Ｊ．Ｃａｎｎｙ、「ＡＣｏｍｐｕｔａｔｉｏｎａｌＡｐｐｒｏａｃｈＴｏＥｄｇｅＤｅｔｅｃｔｉｏｎ」、ＩＥＥＥＴｒａｎｓ．ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、８：６７９−７１４、１９８６、

本発明の目的は、ソース画像で人の頭部を認識するための速くて、それでいて正確な方法を提供することである。

この目的のために、本発明による方法の実施例は、
上記ソース画像における人体の少なくとも一部の輪郭を検出するステップと、
上記ソース画像における上記人体の深度を計算するステップと、
上記ソース画像における上記深度での人の頭部に対応する楕円の長半径の大きさ及び短半径の大きさを計算するステップと、
アキュムレータ・アレイにおいて、上記輪郭の画素の組の少なくともいくつかについて、輪郭画素の位置に中心があり、上記長短の半径の大きさを有する楕円の少なくとも一部分を生成するステップと、
上記アキュムレータ・アレイにおける強度極大点の位置をソース画像における人の頭部の最良の候補の位置に対応するものとして選択するステップと、
上記アキュムレータ・アレイにおいて最大のエネルギーを有し、かつ、補足的な検出方法によって肯定的な重み付けがなされている候補の中から最良の頭部候補を選択するステップとを含む。

実際の人の頭部の大きさの体の高さに対する比率は、年齢や性別に依存しているものの、通常は比較的狭い範囲に、年齢や性別に関係なくとどまるので、画像における頭部の見掛けの大きさを決めるためのもっとも重要な変数は、人の頭部までの距離、すなわち、画像内での頭部の深度測定値である。画像の頭部を囲む楕円の長短の半径の大きさは、この深度に実質的に比例することになる。この情報を、人体の少なくとも一部の輪郭の楕円ハフ変換を行うのに利用することで、算出速度を上げながら、同時に、誤検出率を減らすことができる。

深度データは、さまざまな異なる方法、たとえば、飛行時間カメラ、ステレオ・カメラ、ライダー、レーダー、ソナーなどで得ることができる。有益なことに、上記深度は、ある瞬間での、ソース画面における人体の平均深度であってもよい。あるいは、上記深度及び上記長短の半径の大きさは、各輪郭画素について、個別に計算することもできる。

ソース画像における人の頭部を認識する可能性をさらに高めるために、上記輪郭のモルフォロジー演算による膨張を、上記アキュムレータ・アレイにおける上記楕円の少なくとも一部分を生成する前に、実行することも好ましいといえる。輪郭の幅を広げることにより、その後のハフ変換を実行する面が最大になり、そしてそれ故に、楕円を認識する確率もまた最大になる。

有益なことに、上記楕円の少なくとも一部分は、不鮮明（ファジー、ｆｕｚｚｙ）であってもよい。「不鮮明」とは、はっきりと範囲が定まっている線の代わりに、楕円の少なくとも一部分が、理想的な楕円の線の周囲に強度分布、たとえばガウス強度分布があるぼやけた線として、アキュムレータ・アレイにおいて投影されていると理解される。

有益なことに、輪郭検出ステップは、各輪郭画素について、局所的な輪郭の向きを検出することをさらに含んでもよい。たとえば、Ｓｈｅｎ−Ｃａｓｔａｎアルゴリズムを輪郭検出に用いてもこの補足的情報が与えられ、この情報は、本発明の頭部認識方法の速度及び精度をさらに上げることに利用し得る。たとえば、さらに有益なことに、上記楕円の少なくとも一部分は、対応する輪郭画素の局所的な輪郭の向きに向けられていてもよい。

本発明のさらなる目的は、誤検出の回数を最小にすることである。このような誤検出は、とりわけ、腕や足の輪郭に起因することがある。このような輪郭は、通常、平行線の対を形成し、楕円ハフ変換を実行した場合に、強度の尾根部をアキュムレータ・アレイに生成する傾向がある。このような強度の尾根部に位置する強度極大点を頭部の位置に対応する単独の強度極大点から区別するために、本発明による方法の特定の実施例では、上記選択ステップの前に、上記アキュムレータ・アレイにおける複数の強度極大値の各々について、以下のステップ、を実行できる。すなわち、
アキュムレータ・アレイにおける各強度極大点に中心がある円周での第１の位置を特定するステップであって、上記第１の位置が上記円周で最大の強度を有するステップと、
上記円周において第２の位置を特定するステップであって、上記第２の位置が、第１の位置の反対側にある、上記円周の弧において最大の強度を有するステップと、
強度極大点の強度ｍを係数Ｗ＝ｍ^２／ｍ_ｃ１・ｍ_ｃ２で重み付けするステップであって、ｍ_ｃ１が上記第１の位置での強度であり、ｍ_ｃ２が上記第２の位置での強度であるステップとを実行することもできる。

強度極大点が強度の尾根部の範囲内にあれば、ｍ_ｃ１とｍ_ｃ２のいずれの値も、通常、ｍの値に近くなる。重み付け係数Ｗは、それ故に、１よりあまり大きくならない。他方、強度極大点が単独のものであれば、値ｍ_ｃ１及びｍ_ｃ２は、ｍよりかなり小さくなり、重み付け係数Ｗは、したがって、それに応じて大きくなる。この重み付け係数は、したがって、人の頭部にもっとも対応していそうな強度極大点を強調する。

有益なことに、誤検出、特に背中や肘で引き起こされる誤検出を最小にするためにも、上記選択ステップの前に、アキュムレータ・アレイにおける複数の強度極大点の各々の強度に、肌の色合い認識、パターン・マッチング、頭髪認識、あご部検出、穴検出、質量中心又は上記人体の末端とのつながりの検出、仮想的な背骨までの距離、上半身の軸までの距離、及び／又は、動画像列における前の頭部位置までの距離を含むグループの中から選択した少なくとも１つの補足的な頭部認識方法の出力に基づいて補足的に重み付けを行うことであってもよい。このように、少なくとも２つの、異なるが速い頭部認識方法を組み合わせることにより、本発明による方法の信頼性を高め得る。

有益なことに、上記ソース画像が動画像列の現在のフレームであり、先行するフレームで選択された位置が現在のフレームで隠れている場合には、すべての強度極大点を無視し、先行するフレームで選択された位置を現在のフレームにおける頭部位置に対応するものとして維持する。

本発明のさらなる目的は、ソース画像における頭部認識のためのコンピューター・システムを提供することである。したがって、本発明の特定の実施例では、コンピューター・システムが、本発明による方法を実行するようにプログラムされている。有益なことに、上記コンピューター・システムは、好ましくは３次元撮像装置である撮像装置を上記ソース画像、そして、可能であれば上記深度を取り込むために備えることができる。

別の特定の実施例では、本発明による、コンピューターにより実現される方法を実行するためのコンピューター実行可能な命令を含むコンピューター読み取り可能なデータ記憶媒体が提供される。

「コンピューター読み取り可能なデータ記憶媒体」は、デジタル・データが入っているあらゆるコンピューター読み取り可能な支持体であって、限定はされないが、ランダム・アクセス・メモリー、フラッシュ・メモリー、又は、読み取り専用メモリーなどの個体記憶装置だけでなく、ハードディスク・ドライブ又は磁気テープなどの磁気データ記憶媒体、光ディスクなどの光学的データ記憶媒体なども含むことを意味する。

本発明のこれらの目的及び他の目的は、以下の詳細な説明を読むことによって、また、添付図面を参照することによって、よりたやすく明らかとなるであろう。

３次元撮像装置の前に立っている人ユーザーがいる部屋を示す図である。同じ部屋の３次元画像データを、３次元空間に分布する点の形式で３次元画像システムによって取り込まれたものとして示す図である。ユーザーのビットマップ・マスク画像を示す図である。ユーザーの輪郭画像を示す図である。ユーザーの、膨張させた輪郭画像を示す図である。輪郭画像の点に対応する、アキュムレータ・アレイにおける不鮮明な楕円の生成を模式的に示す図である。不鮮明な楕円が局所的な輪郭の向きに向けられている特定の実施例を示す図である。向きを合わせた不鮮明な楕円が先端を切り落とされている特定の実施例を示す図である。アキュムレータ・アレイにおける画像を模式的に示す図である。強度の尾根部にある極大点と、上記強度尾根部の、上記極大点を中心とする円周との交点を示す図である。図３のビットマップ・マスク画像を仮想背骨と共に示す図である。図３のビットマップ・マスク画像を上半身軸の主方向と共に示す図である。図３のビットマップ・マスク画像を質量中心、及び、その質量中心を２つの頭部位置候補とつなぐ線と共に示す図である。図３のビットマップ・マスク画像の一部に重ね合わせた矩形深度検査範囲を示す図である。図１２の矩形深度検査範囲に対応する深度ヒストグラムを示す図である。両手を頭のところにおいている人ユーザーのビットマップ・マスク画像を示す図である。互いにつなげられた領域に分割された図３のビットマップ・マスク画像を示す図である。

本発明には、さまざまな修正を加えたり、代替形態にしたりする余地があるが、本発明の具体的な実施例を例として図面に示し、さらに、ここに詳細に述べる。しかしながら、本発明を開示した特定の形態に限定しようとするものではなく、むしろ、添付の特許請求の範囲に表した本発明の範囲に入るすべての修正物、均等物、及び、代替物を包含するものと解釈しなければならない。

本発明による、コンピューターで実現される頭部認識方法及びコンピューター・システムの一実施例における１つの可能性のある使用例を図１に示す。この用途では、人ユーザー１に対して表示される仮想環境を生成するコンピューター・システム２と対話するために、このシステム及び方法が、この場合には人ユーザー１である興味の対象の身振りを認識するために利用される。

ボリューム認識システムは、この特定の実施例では、飛行時間（ＴＯＦ）式３次元カメラ３である３次元画像システムを含む。このＴＯＦ式３次元カメラ３は、人ユーザー１が対話することになっているコンピューター・システム２と接続されている。この実施例では、コンピューター・システム２自体が、ＴＯＦ式３次元カメラ３と協働して、本発明のボリューム認識方法を実行するようプログラムされている。代わりに、上記方法を実行するようにプログラムされた別個のデータ処理装置をＴＯＦ式３次元カメラとコンピューター・システム２との間に接続して、人ユーザーが上記コンピューター・システム２と対話できるようにすることも可能であろう。

ＴＯＦ式３次元カメラ３は、人ユーザー１が立っている部屋４の３次元画像データを取り込み、この３次元画像データは、複数の画素がある部屋の２次元ソース画像と、各画素についての、その画素が画像化する点のＴＯＦ式３次元カメラ３までの距離に対応する深度の値を含んでいる。２次元画像における画素のＸ及びＹ位置自体が、それらが示す点のＴＯＦ式３次元カメラ３に対する天頂角及び方位角に対応するので、これらの３次元画像データは、図２のように、ＴＯＦ式３次元カメラ３の有効範囲にある対象物の目に見える点に対応した点５の３次元的なクラウドによって示すことができる。

（Ｉ）が３次元カメラ３によって取り込まれたソース画像の深度図であり、（Ｉｏ）が同じ場所でユーザー１がいない初期の深度図であれば、モルフォロジー演算による引き算により、深度図（Ｉｎｄｇ）における人ユーザー１の体が以下のように分離される。
（Ｉ）−（Ｉｏ）＝（Ｉｎｄｇ）

この深度図（Ｉｎｄｇ）は、人ユーザー１の体が「１」の画素によって、また、背景が「０」の画素によって示されるビットマップ画像（Ｉｂ）を得るために、続いて２値化される。このようなビットマップ画像（Ｉｂ）を図３に示す。

人ユーザー１の体のビットマップ画像をこれらのステップで分離した後に、「ＴｒａｎｓｆｏｒｍｅｅｄｅＨｏｕｇｈｅｌｌｉｐｔｉｑｕｅｆｌｏｕｅｒａｐｉｄｅ」に記載されている形態のＳｈｅｎ−Ｃａｓｔａｎエッジ検出器、又は、Ｊ．Ｃａｎｎｙにより、「ＡＣｏｍｐｕｔａｔｉｏｎａｌＡｐｐｒｏａｃｈＴｏＥｄｇｅＤｅｔｅｃｔｉｏｎ」、ＩＥＥＥＴｒａｎｓ．ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、８：６７９−７１４、１９８６、に最初に開示されたキャニー・エッジ検出器のようなエッジ検出器を、ユーザー１の体の輪郭を検出するために次に使用し、図４に示すように、輪郭画像（Ｉｃ）を生成することができる。

本発明の方法の検出速度を上げるために、次のステップでは、この輪郭画像（Ｉｃ）にモルフォロジー演算による膨張を適用することによって、輪郭の線の幅を広くし、図５に示すように、膨張させた輪郭画像（Ｉｄ）を得ることができる。

第１の実施例では、ユーザー１の体に対応する点５の３次元クラウドの深度を次に平均化する。これは、少なくとも２つの方法のうちの１つで実行することができる。

第１実施例の第１の選択肢では、点５のクラスターが、たとえば、国際公開第２００８／１２８５６８号に開示されている方法を用いて、ユーザーの体に対応するものと識別されたら、この点５のクラスターの重心の深度を画像におけるユーザー１の体の平均深度と見なす。

第１実施例の第２の選択肢では、深度図（Ｉｎｄｇ）におけるユーザー１を表す点５の深度を平均することができる。たとえば、以下の式を使用することができる。

ここで、ｄａｖは、算術平均深度であり、ｎ及びｍは、深度図画像の寸法である。算術平均の代わりに、たとえばメジアン（中央値）のような別の種類の平均を当業者が、場合によっては代わりに考えることもあり得る。

次のステップでは、ソース画像においてユーザー１の頭部を囲う仮想楕円の、平均深度ｄａｖで予想される長半径の大きさａ及び短半径の大きさｂを、予想される、実際の頭部寸法、焦点距離、及び、上記の深度に基づいて、以下の式にしたがって計算する。

ここで、Ｆは焦点距離であり、Ａ及びＢは、予想される実際の頭部の高さ及び幅である。

これらの予想される実際の頭部寸法Ａ及びＢは、コンピューター・システム２のメモリーに絶対寸法として、又は、ユーザー１の実際の大きさに対する相対寸法（これ自体、ソース画像におけるユーザー１の大きさ、焦点距離、及び、深度に基づいて計算できる）として格納してもよい。

以下のステップでは、楕円ハフ変換が膨張させた輪郭画像（Ｉｄ）について、次に実行される。この演算では、この膨張させた輪郭画像（Ｉｄ）での各々の画素について、上記の長短の半径の長さがａ及びｂの楕円（又は少なくともその一部分）が、アキュムレータ・アレイ（Ｉｅ）における対応する位置を中心にして生成される。このような楕円における各位置は、強度値を有し、これらの値は、楕円がアキュムレータ・アレイ内で重なるところで加算される。図６に示した好ましいモードでは、アキュムレータ・アレイ（Ｉｈ）に生成した楕円は、寸法がａ、ｂの楕円マスク７を用いての、かつ、その中心の周囲で強度分布が徐々に減少するぼかしマスク８を用いての、膨張させた輪郭画像（Ｉｄ）の画素６の畳み込みＴの結果得られた不鮮明な楕円である。強度分布は、たとえば、ガウス分布であってもよい。

したがって、たとえば、位置ｘ、ｙの画素について、
Ｔ（Ｉｄ（ｘ、ｙ））＋＝３（すなわち、アキュムレータ・アレイは、基礎となる楕円の位置では、値を３単位増やす）、
Ｔ（Ｉｄ（ｘ±１、ｙ））＋＝２（すなわち、アキュムレータ・アレイは、基礎となる楕円の各位置のすぐ右及び左の位置では、値を２単位増やす）、
Ｔ（Ｉｄ（ｘ、ｙ±１））＋＝２（すなわち、アキュムレータ・アレイは、基礎となる楕円の各位置のすぐ上及び下の位置では、値を２単位増やす）、
Ｔ（Ｉｄ（ｘ±１、ｙ±１））＋＝１（すなわち、アキュムレータ・アレイは、基礎となる楕円の各位置のすぐ右上、左上、右下、及び、左下の位置では、値を１単位増やす）。

有益なことに、輪郭線の局所的な向きについての情報をも与えるＳｈｅｎ−Ｃａｓｔａｎエッジ検出器のようなエッジ検出器を使って輪郭画像（Ｉｃ）を生成した場合には、この情報をも採用して、楕円マスク７を修正することであってもよい。たとえば、図６Ａに示したように、楕円マスク７は、軸Ｍに沿った輪郭線の局所的な向きに長半径が向くように向きを定めてもよく、あるいは、図６Ｂに示すように、楕円マスク７は、底部において先端を切り落として、膨張させた輪郭画像（Ｉｄ）において、あご部が現れない可能性を反映させることもできる。

第２の実施例では、楕円マスク７の寸法ａ及びｂを平均深度ｄａｖに基づいて計算する代わりに、膨張させた輪郭画像（Ｉｄ）における各画素の個々の深度ｄ（ｉ、ｊ）を各画素に用いる楕円マスク７の寸法について、代わりに考慮することもできる。これは、たとえば、膨張させた輪郭深度図（Ｉｅ）＝（Ｉｄ）・（Ｉｎｄｇ）と式

とを使って実行することができる。

どちらの実施例でも、最終的な結果は、図７に描いたようなアキュムレータ・アレイであり、ここでは、強度のピーク８が、ソース画像において人間の頭部が出現している可能性がもっとも高い位置にある。

しかしながら、ユーザー１の末端がソース画像に偶然にあると、その結果、輪郭画像（Ｉｃ）にほぼ平行な線が生じるために、図７はまた、上記の強度のピーク８とは別に、これらの末端に対応する強度の尾根部９（図８）を示すこともある。これら強度の尾根部９がアキュムレータ・アレイにあることから起こる誤検出を抑制するために、単独の強度ピーク８に対応する強度極大点を、強度の尾根部９に位置する強度極大点から区別することが有益である。

したがって、図８に示した次のステップでは、強度の尾根部９を区別するために、重み付け係数Ｗを導入することもできる。各強度極大点についてこの重み付け係数を計算するために、この強度極大点の位置１１のあたりに中心があり、予め定められた半径ｒ≧ｂ（通常ｒ＝ｂ）を有する円周１０をアキュムレータ・アレイに描く。次に、この円周内でもっとも強度が高い第１の位置１２を特定し、その強度の値をｍ_ｃ１として格納する。次に、コンピューター・システム２は、この円周１０の、第１の位置１２の反対側にある部分１４（通常は円周の半分）において、もっとも強度が高い第２の位置１３を特定し、この強度の値をｍ_ｃ２として格納する。この強度極大点の位置１１における強度の値をｍで表すと、重み付け係数Ｗは、式Ｗ＝ｍ^２／ｍ_ｃ１・ｍ_ｃ２によって計算される。図８に描いたような強度の尾根部９では、ｍ_ｃ１及びｍ_ｃ２はともにｍに近い値になるから、このような強度の尾根部９に位置する強度極大点の強度の値は、１よりもわずかに大きいだけの重み付け係数Ｗで重み付けがなされることになり、一方、ソース画像における人の頭部の位置に対応する強度極大点を含む可能性がより高い、単独の強度極大点は、かなり大きな重み付け係数で重み付けをされることになる。

最後に、最大の強度極大点の間で残った一連の候補は、少なくとも１つの補足的な頭部検出方法の出力を使って重み付けすることもできる。候補は、各々の補足的方法にとって適切である重み付け係数で重み付けをすることであってもよい。次に、投票手続きを用いて、ソース画像における人の頭部に対応する１つ又は一連の候補を選択することであってもよい。

これらの補足的方法の１つは、図９に示すように、ビットマップ画像（Ｉｂ）に表した、人ユーザー１の体でもっとも長いところを通る２次又は３次の関数という形の仮想的な背骨１５を計算することを伴う。候補楕円１６が人ユーザー１の頭部を表す確率は、この仮想背骨と候補楕円１６の間の距離とともに小さくなる。

同じような補足的方法は、ビットマップ画像（Ｉｂ）に表されているように、人ユーザー１の質量中心を中心とする上半身主軸１８を計算することに基づいて行われる。これは、図１０に示されている。普通は、人ユーザー１の頭部がこの軸の近くで並んでいるはずであり、それ故に、候補楕円１６が人ユーザー１の頭部を表す確率は、この軸と、その候補楕円１６との間の距離によっても小さくなる。

これらの補足的方法の別のものは、図１１に示すように、人ユーザーの体のビットマップ画像（Ｉｂ）の、人ユーザーの質量中心１７と、候補楕円１６との間での連続性をテストするというものである。このテストについては、Ｂｒｅｚｅｎｈａｍアルゴリズムを使用することであってもよい。テストの出力が否定的なものであれば、候補楕円１６が人ユーザー１の頭部を表す確率は低くなる。

これらの補足的方法のさらに別のものは、肌の色合い認識というものである。３次元カメラがカラー・カメラであれば、候補が周知の肌の色合いに関連した色をしているかどうかを評価することであってもよい。そうでなければ、この候補が人ユーザーの頭部を表す確率は低くなる。有益なことに、色変換アルゴリズムを使って、３次元カメラが取り込んだＲＧＢデータのようなカラー・データを肌の色合い認識により適した色空間、たとえば、装置に依存性のあるＣＩＥ１９３１ＸＹＺ色空間、又は、知覚的には一様であるＣＩＥ１９７６Ｌ＊ａ＊ｂ若しくはＣＩＥＣＡＭ０２色空間などに変換することであってもよい。

これらの補足的方法のさらに別のものは、頭髪検出というものである。具体的には、３次元カメラが赤外線式遠隔測定検出器を備えたＴＯＦカメラであれば、頭髪は入射するあらゆる赤外線放射の大部分を吸収するので、候補楕円が人ユーザーの頭部を表す確率は、候補楕円のエッジ部、特に上側のエッジ部の予め定められた距離の範囲内で、明確な深度信号を返さない範囲があれば、高くなる。

これらの補足的方法のさらに別のものは、候補楕円に対応する点のクラウドを、人の頭部を表す特定の、又は、一般的なパターンとマッチングするというものである。このパターン・マッチング・テストが肯定的な結果を返せば、候補楕円が人ユーザーの頭部を表す確率は高くなる。

これらの補足的方法のさらに別のものは、あご部検出というものである。人ユーザーが３次元カメラと向き合っていると、後者は、人ユーザーのあご部と首の間で、普通は４〜９ｃｍである深度の違いを記録することになる。このような段が候補楕円の下側のエッジ部で検出されたら、候補楕円が人ユーザーの頭部を表す確率が高い。図１２及び図１３は、このような段がどのように検出され得るかを示している。たとえば、高さが２０ｃｍで、幅が１０ｃｍであり、候補楕円の主軸の向きに向けられていて、候補楕円の下側のエッジ部に中心がある、矩形の検査範囲１９を深度図（Ｉｎｄｇ）内で選択する。この検査範囲で測定された深度値が、図１３のヒストグラムに示すように、およそ４から９ｃｍ離れた、２つのはっきりと異なる周波数最大値２０、２１のあたりに集中していれば、あご部が検出されたのである。

ユーザーが少なくとも一方の腕を頭部のところにおいていると、図１４に示すように、肘が別の候補楕円１６を形成し得る。同時に、ビットマップ画像（Ｉｂ）が形成した人ユーザー１のシルエットの頭部と、この肘の間に穴部２２ができる。別の補足的方法では、シルエットでのこのような穴部２２の形成が検出され、同時に作り出された新しい候補楕円１６で、穴部２２に隣接するものには、すべて、低い重み付けがなされる。

３次元カメラで取り込まれ、人ユーザーに対応する点が、国際公開第２００８／１２８５２８号に開示されているように、互いにつなげられた領域のネットワークにグループ分けされていると、このネットワークでの末端を検出することを伴うさらに別の補足的方法を用いることができる。国際公開第２００８／１２８５６８号では、３次元空間内でボリュームを認識する方法が開示されており、この方法では、３次元画像データが３次元空間の複数の点を含んでいる。これらの点は、クラスターにまとめられ、１つのクラスターが重要地点として選ばれる。選ばれたクラスター内の点は、サブクラスターに再度グループ分けされ、サブクラスターの各々は、重心と、その重心と関連づけられたボリュームとを有する。重心はつなげて、対象物を暗示するネットワークを形成でき、末端は、１つの他の重心だけにつながれた重心として識別される。

図１５に示すように、どれも１つの他の領域だけに直接つながれている領域が末端２３と見なされる。２つ以上の他の領域に直接つながれている領域もまた末端と見なすことができるが、これらの領域の重心を隣接する領域の重心につないでいる線２４が、たとえば４５°のような、最大角度以内である場合だけに限られる。このような末端２３と合致する候補楕円１６は、ユーザー１の頭部を表す可能性が高くなる。

動画像列では、時間コヒーレンス及び一時的隠れもまた考慮し得る。たとえば、先の方法で順位付けした候補が、先のフレームから現在のフレームへ、予め定められた距離以上にジャンプした場合には、より低い順位付けをした候補を、それが先のフレームでの頭部の位置から、上記予め定められた距離の範囲内であるならば、考慮することであってもよい。先行するフレームで、最上位に順位付けした候補に対応する範囲が、新しいフレームで隠れていたら、新しいフレームでの候補は無視し、いつかその隠れが終わるまで、先のフレームでの頭部位置を維持することであってもよい。

本発明を特定の典型的な実施例を参照しながら記載したが、種々の修正及び変更をこれらの実施例に、特許請求の範囲に記載のような、本発明の広い範囲から逸脱することなく施し得ることは明らかであろう。したがって、明細書や図面は、限定する意味でなく、例示の意味と見なされるべきである。

Claims

ソース画像における人の頭部の位置を認識する方法であって、
前記ソース画像における人体の少なくとも一部の輪郭を検出するステップと、
前記ソース画像における前記人体の前記一部の深度を計算するステップと、
前記ソース画像における前記深度での人の頭部に対応する楕円の長半径の長さ及び短半径の長さを計算するステップと、
アキュムレータ・アレイにおいて、前記輪郭の少なくとも一組の輪郭画素について、前記輪郭画素の位置に中心があり、前記長短の半径の長さを有する楕円の少なくとも一部分を生成するステップと、
前記アキュムレータ・アレイにおける強度極大点の位置を前記ソース画像における前記人の頭部の位置に対応するものとして選択するステップと、
前記アキュムレータ・アレイにおいて最大のエネルギーを有し、かつ、補足的な検出方法によって肯定的な重み付けがなされている候補の中から最良の頭部候補を選択するステップと
を含む方法。
前記深度は、前記ソース画像における前記人体の前記一部の平均深度である、請求項１に記載の方法。
前記深度と、前記長短の半径の長さとは、各輪郭画素について個別に計算する、請求項１に記載の方法。
前記輪郭のモルフォロジー演算による膨張を、前記アキュムレータ・アレイにおける前記楕円の少なくとも一部分を生成する前に実行する、請求項１から請求項３までのいずれか一項に記載の方法。
前記楕円の少なくとも一部分は、不鮮明である、請求項１から請求項４までのいずれか一項に記載の方法。
前記輪郭を検出するステップは、各輪郭画素について、局所的な輪郭の向きを検出することをも含む、請求項１から請求項５までのいずれか一項に記載の方法。
前記楕円の少なくとも一部分は、前記局所的な輪郭の向きに向けられている、請求項６に記載の方法。
前記選択するステップの前に、
前記アキュムレータ・アレイにおける各強度極大点に中心がある円周での第１の位置を特定するステップであって、前記第１の位置が前記円周で最大の強度を有する、特定するステップと、
前記円周において第２の位置を特定するステップであって、前記第２の位置が、前記第１の位置の反対側にある、前記円周の弧において最大の強度を有する、特定するステップと、
前記強度極大点の強度ｍを係数Ｗ＝ｍ^２／ｍ_ｃ１・ｍ_ｃ２で重み付けするステップであって、ｍ_ｃ１が前記第１の位置での強度であり、ｍ_ｃ２が前記第２の位置での強度である、重み付けするステップと
が前記アキュムレータ・アレイにおける複数の強度極大点の各々について実行される、請求項１から請求項７までのいずれか一項に記載の方法。
前記選択するステップの前に、前記アキュムレータ・アレイにおける複数の強度極大点の各々の強度に、肌の色合い認識、パターン・マッチング、頭髪認識、あご部検出、穴検出、質量中心又は前記人体の末端とのつながりの検出、仮想的な背骨、上半身の軸、及び／又は、動画像列における前の頭部位置までの距離を含むグループの中から選択した少なくとも１つの補足的な頭部認識方法の出力に基づいて重み付けを行う、請求項１から請求項８までのいずれか一項に記載の方法。
前記ソース画像が動画像列の現在のフレームであり、先行するフレームで選択された位置が前記現在のフレームで隠れている場合には、すべての強度極大点を無視し、前記先行するフレームで選択された位置を前記現在のフレームにおける頭部位置に対応するものとして維持する、請求項１から請求項９までのいずれか一項に記載の方法。
前記輪郭画像を生成する前に、前記ソース画像における前記人体の少なくとも一部を分離するステップをさらに含む、請求項１から請求項１０までのいずれか一項に記載の方法。
請求項１から請求項１１までのいずれか一項に記載の方法を実行するためのコンピューター実行可能な命令を含むコンピューター読み取り可能なデータ記憶媒体。
請求項１から請求項１１までのいずれか一項に記載の方法を実行するようにプログラムされたコンピューター・システム。
前記ソース画像を取り込むための撮像装置を備える、請求項１３に記載のコンピューター・システム。
前記撮像装置は、前記深度をも取り込むための３次元撮像装置である、請求項１４に記載のコンピューター・システム。