JP2016054409A

JP2016054409A - 映像認識装置、映像認識方法及びプログラム

Info

Publication number: JP2016054409A
Application number: JP2014179544A
Authority: JP
Inventors: 雄司金田; Yuji Kaneda
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-09-03
Filing date: 2014-09-03
Publication date: 2016-04-14

Abstract

【課題】物体を正確に追尾するとともに、その物体の正確な情報を取得できるようにする。【解決手段】位置情報受信部３０１は、物体に取り付けられたＧＰＳまたはＲＦから取得された物体（選手）の位置と識別情報とを含むセンサ位置情報を受信器から受信する。そして、位置情報分析部３０３は、そのセンサ位置情報を分析し、分析結果に基づいて物体を撮影している撮像装置を選択する。次に、映像取得部３０５は、選択された撮像装置から映像し、映像認識部３０６は、取得した映像に対して映像認識処理を行う。【選択図】図３

Description

本発明は、特に、物体を追尾するために用いて好適な映像認識装置、映像認識方法及びプログラムに関する。

従来、人物を追跡する技術として、例えば特許文献１に記載された方法のように、撮像装置から取得した映像に対して映像認識を行う方法が知られている。特許文献１に記載の方法は、人物を追尾するためのテンプレート辞書を予め用意しておき、取得した映像に対して、このテンプレート辞書を用いたマッチングをすることにより、人物を追跡する方法である。

一方、映像認識によって人物を追跡する方法の他に、例えば特許文献２に記載された方法のように位置センサを用いる方法も知られている。特許文献２に記載の方法は、送信機を含む位置センサを追跡対象者に取り付けておき、その追跡者の位置情報と識別子とを受信機により受信することにより人物の位置を特定して追跡する方法である。

特開２００４−９４５１８号公報特許第４４０５９２４号公報

M. Bertozzi, A. Broggi, M. Del Rose, M. Felisa, A. Rakotomamonjy and F. Suard, "A Pedestrian Detector Using Histograms of Oriented Gradients and a Support Vector Machine Classifier", IEEE Intelligent Transportation Systems Conference, 2007 T. Pajdla, and J. Matas, "Face Recognition with Local Binary Patterns", ECCV, pp. 469 ‐ 481, 2004 P. Viola, M. Jones, "Rapid Object Detection using a Boosted Cascade of Simple Features", in Proc. Of CVPR, vol.1, pp.511-518, December, 2001 C. Shan, T. Gritti, "Learning discriminative lbp-histogram bins for facial expression recognition", Proc. British Machine Vision Conference, 2008

一般にスポーツの分野では、試合戦略を立てるために試合内容の分析が選手側にとって非常に重要である。そのため、これまでは、各映像における選手位置をオペレータによる手作業で入力し、その入力結果を用いて試合内容を分析するといった方法が取られてきた。また、視聴者へ配信する映像に対しても、カメラマンによる手動操作により撮像装置を制御するといった方法が取られてきた。近年、これらの作業は非常に負荷が大きいため、人物を自動で追跡する技術をスポーツスタジアムなどに適用することによって、この作業負荷を軽減する試みがなされてきた。

しかしながら、図２５に示すように、スポーツの試合では、ある領域内に複数の選手２５０１〜２５０３が密集したり、選手の身体の向きが頻繁に変わったりすることが多い。従来の映像技術では、人体の位置や姿勢に加えて顔がほぼ正面を向いている場合には、表情などの情報も取得することが可能である。ところが、スポーツの試合などでは人体や顔の一部が隠れたり、人体の向きが正面から横向きや後ろ向きに変わったりする場合が多いため、スタジアムに設定されたカメラ２５１０〜２５１７の中から適切なカメラを選択する必要がある。

一方、位置センサだけを用いる方法では、ある程度の位置の計測誤差はあるが、位置と識別情報とを取得することはできる。しかしながら、人体の姿勢や表情などのより詳細な情報を取得することができない。

本発明は前述の問題点に鑑み、物体を正確に追尾するとともに、その物体の正確な情報を取得できるようにすることを目的としている。

本発明に係る映像認識装置は、物体の位置と前記物体の識別情報と含む位置情報を受信する受信手段と、前記受信手段によって受信された位置情報を記憶する記憶手段と、前記受信手段によって受信された現在の位置情報と、前記記憶手段に記憶された過去の位置情報とを分析する分析手段と、前記分析手段による分析の結果に基づいて、前記物体を撮影している撮像装置を選択する選択手段と、前記選択手段によって選択された撮像装置から、前記物体を含む映像を取得する取得手段と、前記取得手段によって取得された映像に対して、前記物体の認識処理を行う映像認識手段と、を有することを特徴とする。

本発明によれば、物体を正確に追尾するとともに、その物体の正確な情報を取得することができる。

実施形態に係る映像認識装置のハードウェア構成例を示すブロック図である。実施形態における撮影状況を説明するための図である。第１の実施形態に係る映像認識装置の機能構成例を示すブロック図である。第１の実施形態に係る映像認識装置のよる全体的な処理手順の一例を示すフローチャートである。位置情報分析部によるセンサ位置情報を分析する詳細な処理手順の一例を示すフローチャートである。選手が移動している特定シーンの一例を示す図である。群の平均動きベクトルを説明するための図である。複数の人物の位置についての分散の最大値を説明するための図である。撮像装置選択部が撮像装置を選択する詳細な処理手順の一例を示すフローチャートである。個々の平均動きベクトルを用いて撮像装置を選択する方法を説明するための図である。撮像装置選択部が撮像装置を選択する詳細な処理手順の他の一例を示すフローチャートである。群の平均動きベクトルを用いて撮像装置を選択する方法を説明するための図である。撮像装置選択部が撮像装置を選択する詳細な処理手順のその他の一例を示すフローチャートである。分散の最大値の方向ベクトルと平均動きベクトルとの成す角が閾値以下である場合の撮像装置を選択する方法を説明するための図である。分散の最大値の方向ベクトルと平均動きベクトルとの成す角が閾値を超えた場合の撮像装置を選択する方法を説明するための図である。映像認識部による映像認識処理の詳細な処理手順の一例を示すフローチャートである。センサ位置情報を用いて辞書を選択する方法を説明するための図である。映像認識部による映像認識処理の詳細な処理手順の他の一例を示すフローチャートである。複数の向きの辞書が登録されている場合に、センサ位置情報を用いて辞書を選択する方法を説明するための図である。映像認識部による映像認識処理の詳細な処理手順のその他の一例を示すフローチャートである。第２の実施形態に係る映像認識装置の機能構成例を示すブロック図である。第２の実施形態に係る映像認識装置のよる全体的な処理手順の一例を示すフローチャートである。撮像装置制御部による制御処理の詳細な処理手順の一例を示すフローチャートである。顔検出および人体検出の結果を説明するための図である。複数のカメラを用いてスポーツの試合を撮影している様子を説明するための図である。

以下、本発明の実施形態について、図面を参照しながら説明する。
（第１の実施形態）
本実施形態は、図２に示すようなスタジアムを想定して説明する。図２に示すように、スタジアムの各所にズームが可能な８つの撮像装置２１０〜２１７が設置されている。また、図２に示すように、さらにGlobal Positioning System（ＧＰＳ）やRadio Frequency（ＲＦ）からの受信器２１８〜２２１が設置されている。

本実施形態では、ＧＰＳやＲＦから受信器２１８〜２２１で得られたセンサ位置情報に基づいて、スタジアムの各所に設置されたズームが可能な撮像装置２１０〜２１７の中から映像を取得する撮像装置を選択する。そして、選択された撮像装置から取得した映像に対して顔検出や個人識別などの映像認識を行うことにより、センサ位置情報が正しいかどうかを確認し、更には、表情などのより詳細な情報を取得する。

図１は、本実施形態に係る映像認識装置１００のハードウェア構成例を示すブロック図である。
図１に示すように、ＣＰＵ１０１は、ＲＯＭ１０２に格納されているプログラムをＲＡＭ１０３に展開し、後述する処理を実行させる。通信ネットワークＩ／Ｆ１０４は、画像データなどの各種データを受信するためのインターフェースである。ＨＤＤ１０５は、受信した画像データやセンサ位置情報を記憶する。センサ位置情報Ｉ／Ｆ１０６は、前述した受信器２１８〜２２１からセンサ位置情報を取得するためのインターフェースである。これらの構成は、バス１０７によって接続されている。

図３は、本実施形態に係る映像認識装置１００の機能構成例を示すブロック図である。
図３に示すように、映像認識装置１００は、位置情報受信部３０１、位置情報記憶部３０２、位置情報分析部３０３、撮像装置選択部３０４、映像取得部３０５、及び映像認識部３０６を備えている。以下、これらの構成による処理について、図４のフローチャートを参照しながら説明する。

図４は、本実施形態に係る映像認識装置１００による全体的な処理手順の一例を示すフローチャートである。以下、図２に示す選手２０１〜２０３の情報を取得する例について説明する。
まず、ステップＳ４０１において、位置情報受信部３０１は、物体に取り付けられたＧＰＳまたはＲＦから取得された物体（選手）の位置と識別情報とを含むセンサ位置情報を受信器２１８〜２２１から受信する。物体の位置情報を送受信する装置については、ＧＰＳやＲＦに限定するわけではなく他の装置を用いても構わない。なお、本実施形態では、物体を人物とする。

次に、ステップＳ４０２において、位置情報分析部３０３は、ステップＳ４０１で取得したセンサ位置情報が現在の位置と識別情報とを含むものであるかどうかを確認する。この判定の結果、現在の位置と識別情報とを含むものではない場合は、ステップＳ４０１に戻り、そのセンサ位置情報を位置情報記憶部３０２に記憶し、引き続きセンサ位置情報を受信する。一方、ステップＳ４０２の判定の結果、現在の位置と識別情報とを含むものである場合には、ステップＳ４０３へ進む。

次に、ステップＳ４０３において、位置情報分析部３０３は、位置情報記憶部３０２から過去のセンサ位置情報を取得する。位置情報記憶部３０２には、過去のセンサ位置情報が識別子ごとに記憶されている。そして、ステップＳ４０４において、位置情報分析部３０３は、ステップＳ４０１で取得した現在のセンサ位置情報と、ステップＳ４０３で取得した過去のセンサ位置情報とを分析する。ステップＳ４０４の分析により、どのような情報を算出するかについて、以下に説明する。

図５は、図４のステップＳ４０４において、位置情報分析部３０３によるセンサ位置情報を分析する詳細な処理手順の一例を示すフローチャートである。
まず、ステップＳ５０１において、図３のステップＳ３０１で取得した現在のセンサ位置情報と、ステップＳ３０３で取得した過去のセンサ位置情報とを用いて個々の平均動きベクトルを算出する。本実施形態では、ｎ番目の人物の現在のセンサ位置情報をＰｎ（ｘ［ｔ］，ｙ［ｔ］）、過去のセンサ位置情報をＰｎ（ｘ［ｔ−ｉ］，ｙ［ｔ−ｉ］）、平均動きベクトルをＶｎ（ｘ，ｙ）とする。

図６は、選手が移動している特定シーンの一例を示す図である。例えば選手６０１に関するセンサ位置情報をそれぞれ時系列的にＰ１（ｘ［ｔ］，ｙ［ｔ］）、Ｐ１（ｘ［ｔ−１］，ｙ［ｔ−１］）、Ｐ１（ｘ［ｔ−２］，ｙ［ｔ−２］）とし、ボール６００に関するセンサ位置情報をＢ（ｘ［ｔ］，ｙ［ｔ］）とする。ボール６００に関する位置情報Ｂ（ｘ［ｔ］，ｙ［ｔ］）は、例えば、選手と同様に位置センサをボール６００内に組み込むことによって把握することができる。ここで、現在のボール６００に関するセンサ位置情報Ｂ（ｘ［ｔ］，ｙ［ｔ］）を基準とした±Δｗ内に存在する選手だけについて注目する。この場合、選手６０１の平均動きベクトルＶ１（ｘ，ｙ）は、以下の式（１）から算出される。

同様に、選手６０２の平均動きベクトルＶ２（ｘ，ｙ）と選手６０３の平均動きベクトルＶ３（ｘ，ｙ）とを式（１）により求める。なお、本実施形態では、現在のセンサ位置情報と過去の２つのセンサ位置情報との計３つのセンサ位置情報を用いて平均動きベクトルＶｎ（ｘ，ｙ）を算出しているが、これに限られるわけではない。

続いて、ステップＳ５０２において、群としての平均動きベクトルＧｍ（ｘ，ｙ）を算出する。スポーツなどでは、選手同士が連携して同じような動きをすることが多い。そのため、ステップＳ５０１で個々の平均動きベクトルを求めるだけではなく、複数の人物の平均動きベクトルＧｍ（ｘ，ｙ）を求める。例えば、図７に示すように、同じチームに所属する選手６０１〜６０３の群の平均動きベクトルＧｍ（ｘ，ｙ）（＝（Ｖ１（ｘ，ｙ）＋Ｖ２（ｘ，ｙ）＋Ｖ３（ｘ，ｙ））／３）を算出する。

次に、ステップＳ５０３において、例えば図８に示すような、複数の人物の位置についての分散の最大値Ｓ_maxを算出する。このように、複数の選手の平均動きベクトルに加え、その群のバラつきを計算し、そのバラつきを考慮して映像を取得することにより、選手同士の重複が少ない映像を取得することができる。

以上のように、図４のステップＳ４０４では、ステップＳ４０１で取得した現在のセンサ位置情報と、ステップＳ４０３で取得した過去のセンサ位置情報とを用いて上述したような３つの情報を算出する。

次に、図４のステップＳ４０５において、撮像装置選択部３０４は、ステップＳ４０４で算出した情報を用いて、スタジアムの各所に設置された撮像装置２１０〜２１７の中から適切な撮像装置を選択する。以下、撮像装置の選択方法について詳細に説明する。

図９は、図４のステップＳ４０５において、撮像装置選択部３０４が撮像装置を選択する詳細な処理手順の一例を示すフローチャートである。
まず、ステップＳ９０１において、図５のステップＳ５０１で算出した個々の平均動きベクトルを位置情報分析部３０３から取得する。

次に、ステップＳ９０２において、撮像装置２１０〜２１７の中から、ステップＳ９０１で取得した個々の平均動きベクトルと光軸ベクトルが最も近い（平行する）撮像装置を選択する。図１０に示す例の場合は、選手６０１に対しては、平均動きベクトルＶ１（ｘ，ｙ）と成す角度が０度に近い光軸ベクトル１００１の撮像装置２１３が選択される。同様に、選手６０２に対しては、光軸ベクトル１００２の撮像装置２１４が選択され、選手６０３に対しては光軸ベクトル１００３の撮像装置２１２が選択される。

このように、センサ位置情報から選手夫々の動き方向を算出し、その動き方向に基づいて撮像装置を選択することにより、選手毎に最適な映像を取得することができる。本実施形態では、後述する映像認識処理で正面を向いた顔を用いるため、選手が正面を向いた映像を取得するようにしている。なお、配信する映像によっては、人物の背中を中心に撮影した場合がある。このような場合には、平均動きベクトルに対して最も光軸ベクトルとの角度が大きい撮像装置を選択するようにしてもよい。

以上のように選手毎に最適な映像を取得する場合には、図９に示す手順により撮像装置を選択することができる。一方、複数の選手に対して１台の撮像装置を選択するようにしてもよい。以下、複数の選手に対して１台の撮像装置を選択する手順について説明する。

図１１は、図４のステップＳ４０５において、撮像装置選択部３０４が撮像装置を選択する詳細な処理手順の他の一例を示すフローチャートである。
まず、ステップＳ１１０１において、図５のステップＳ５０２で算出した群の平均動きベクトルＧｍ（ｘ，ｙ）を位置情報分析部３０３から取得する。

次に、ステップＳ１１０２において、撮像装置２１０〜２１７の中から、ステップＳ１１０１で取得した群の平均動きベクトルＧｍ（ｘ，ｙ）と光軸ベクトルが最も近い撮像装置を選択する。図１２に示す例の場合は、選手６０１〜６０３に対して撮像装置２１３を選択する。このように、図９に示した撮像装置の選択方法のように選手毎に撮像装置を選択するのではなくて、複数の選手に対して１台の撮像装置を選択することができる。センサ位置情報から複数の選手、つまり群の動き方向を算出し、その群の動き方向に基づいて撮像装置を選択することによって、複数の選手が正面を向いた映像を取得することができる。

図９及び図１１に示した手順は、いずれも選手がなるべく正面を向いた映像を取得するための手順である。一方、隠れの少ない映像を取得するという目的で撮像装置を選択するようにしてもよい。以下、このような目的で撮像装置を選択する手順について説明する。

図１３は、図４のステップＳ４０５において、撮像装置選択部３０４が撮像装置を選択する詳細な処理手順のその他の一例を示すフローチャートである。
まず、ステップＳ１３０１において、図５のステップＳ５０２で算出した群の平均動きベクトルＧｍ（ｘ，ｙ）を位置情報分析部３０３から取得する。続いてステップＳ１３０２において、ステップＳ５０３で算出した群の分散の最大値Ｓ_maxを位置情報分析部３０３から取得する。

次に、ステップＳ１３０３において、分散の最大値Ｓ_maxの方向ベクトルと、平均動きベクトルＧｍ（ｘ，ｙ）との成す角が、閾値Th＿angle以下かどうかを判定する。分散の最大値Ｓ_maxの方向ベクトルと、平均動きベクトルＧｍ（ｘ，ｙ）との成す角が閾値Th＿angle以下である場合には、ステップＳ１３０４において、平均動きベクトルＧｍ（ｘ，ｙ）と光軸ベクトルが最も遠い撮像装置を選択する。図１４に示す例の場合は、平均動きベクトルＧｍ（ｘ，ｙ）と成す角度が９０度に近い撮像装置２１３が選択される。ここで、平均動きベクトルＧｍ（ｘ，ｙ）と光軸ベクトルが最も近い撮像装置２１５を選択すると、選手６０１、６０２の人体の一部が隠れてしまう可能性がある。そのため、隠れの少ない映像を取得するために、撮像装置２１３が選択される。

一方、分散の最大値Ｓ_maxの方向ベクトルと、平均動きベクトルＧｍ（ｘ，ｙ）との成す角が閾値Th＿angleより大きい場合には、ステップＳ１３０５において、平均動きベクトルＧｍ（ｘ，ｙ）と光軸ベクトルが最も近い撮像装置を選択する。図１５に示す例の場合は、撮像装置２１４が選択される。このように、センサ位置情報から複数の選手の群の動き方向だけでなく、各選手の位置のばらつきを考慮して撮像装置を選択することにより、隠れの少ない映像を取得することができる。

図４の説明に戻り、次に、ステップＳ４０６において、映像取得部３０５は、ステップＳ４０５で選択された撮像装置から通信ネットワークＩ／Ｆ１０４を介して映像を取得する。そして、ステップＳ４０７において、映像認識部３０６は、ステップＳ４０６で取得した映像に対して映像認識処理を行う。

図１６は、図４のステップＳ４０７において、映像認識部３０６による映像認識処理の詳細な処理手順の一例を示すフローチャートである。

ここで、図４のステップＳ４０１で取得したセンサ位置情報は、ある程度の誤差を含んでいるため、人物が密集した状態などでは正確な位置が得られない可能性がある。そのため、図４のステップＳ４０６で取得した映像に対して個人を識別する識別処理を行うことにより、各人物の位置をより正確に捉えるようにしている。なお、個人識別処理は、予め登録されている辞書と入力映像とのマッチングにより行う。通常の個人識別処理では、予め登録されている全ての辞書とのマッチングを行う必要があるが、本実施形態では、ステップＳ４０１で取得したセンサ位置情報を用いる。つまり、ステップＳ４０１で取得したセンサ位置情報に基づいて、ある特定の辞書とだけマッチングすることによって、高速、かつ高精度な個人識別が可能となる。なお、辞書は、ＨＤＤ１０５やＲＯＭ１０２に予め保持されている。

まず、ステップＳ１６０１において、映像認識部３０６は、位置情報分析部３０３がステップＳ４０１において取得したセンサ位置情報を取得する。そして、ステップＳ１６０２において、ステップＳ１６０１で取得したセンサ位置情報（識別情報）に対応する人物の辞書を選択する。例えば、選手６０１〜６０３の場合には、図１７に示すように、これらの選手の辞書を選択する。

次に、ステップＳ１６０３において、映像認識部３０６は、図４のステップＳ４０６で取得した映像に対して、ステップＳ１６０２で選択した辞書だけを用いて個人識別を行う。まず、ステップＳ４０６で取得した映像に対して、非特許文献３に記載の技術を用いた顔の位置検出や非特許文献１に記載の技術を用いた人体位置検出を行う。次に、検出した顔や人体の位置に基づいて、非特許文献２に記載の技術を用いて個人を特定する個人識別処理を行う。この個人識別処理によって、人物１人１人に対して個人を区別するための識別子が割り当てられる。更には、非特許文献４に記載の技術を用いて選手の表情を認識する表情認識を実施してもよい。なお、本実施形態では、肩より上の顔領域を検出することを顔検出と呼び、頭頂から足元まで身体全体を検出することを人体検出と呼ぶ。

また、本実施形態では、図１７に示すように顔が正面を向いている辞書だけを保持しているが、顔が横を向いている辞書を保持しておくようにしてもよい。１人の選手に対して顔向きの異なる複数の辞書を用意した場合、選手の動きベクトルと選択された撮像装置とから映像上での身体の向きを推定し、その推定結果に基づいた個人識別処理を行ってもよい。以下、顔向きの異なる複数の辞書を用いて映像認識処理を行う手順について説明する。

図１８は、図４のステップＳ４０７において、映像認識部３０６による映像認識処理の詳細な処理手順の他の一例を示すフローチャートである。なお、図１８のステップＳ１８０１及びＳ１８０２は、それぞれ図１６のステップＳ１６０１及びＳ１６０２と同様の処理であるため、説明は省略する。

次に、ステップＳ１８０３において、図４のステップＳ４０４で算出した平均動きベクトルＶｎ（ｘ，ｙ）と、ステップＳ４０５で選択された撮像装置の光軸ベクトルとを取得する。そして、ステップＳ１８０４において、ステップＳ１８０３で取得した平均動きベクトルＶｎ（ｘ，ｙ）と撮像装置の光軸ベクトルとの成す角度を求める。

次に、ステップＳ１８０５において、ステップＳ１８０１で取得したセンサ位置情報に対応する人物であって、かつ、ステップＳ１８０４で求めた角度に対応する辞書を優先して選択し、個人識別を行う。例えば、平均動きベクトルＶｎ（ｘ，ｙ）と撮像装置の光軸ベクトルとの成す角度が右向きに３０度とした場合には、図１９に示すように、右向きの辞書から優先的に処理を実施する。個人を特定する処理については、図１６のステップＳ１６０３と同様である。

また、追尾して取得したセンサ位置情報が、映像認識結果と一致しない可能性もある。つまり、取得したセンサ位置情報には、ある程度の誤差が含まれているため、映像認識処理により識別情報が一致しない場合がある。そこで、このような場合を想定して、センサ位置情報と映像認識結果とを比較し、その人物の最終的な識別子（識別情報）を決定する処理を行ってもよい。以下、このような処理の手順について説明する。

図２０は、図４のステップＳ４０７において、映像認識部３０６による映像認識処理の詳細な処理手順のその他の一例を示すフローチャートである。なお、ステップＳ２００１〜Ｓ２００３は、それぞれ図１６のステップＳ１６０１〜Ｓ１６０３と同様であるため、説明は省略する。

次に、ステップＳ２００４において、ステップＳ２００１で取得したセンサ位置情報と、ステップＳ２００３での個人識別結果とを比較する。そして、ステップＳ２００５において、人物の識別情報が一致しているかどうかを判定する。例えば、センサ位置情報における識別情報（識別子）の相対関係と、個人識別における識別子の相対関係とが一致しているかどうかを比較する。

ステップＳ２００５の判定の結果、識別情報が一致していない場合はステップＳ２００６へ進む。一方、識別情報が一致している場合には、処理を終了する。ステップＳ２００６においては、ステップＳ２００３での個人識別結果に係る識別情報を採用し、センサ位置情報における識別情報（識別子）を修正する。そして、修正したセンサ位置情報を位置情報記憶部３０２に記憶するようにする。

図４の説明に戻り、次にステップ４０８において、位置情報受信部３０１は、センサ位置情報の受信を完了するか否かを判定する。この判定の結果、センサ位置情報の受信を完了する場合は、そのまま処理を終了し、受信を継続する場合は、ステップＳ４０１に戻る。

以上のように本実施形態では、映像による認識処理とセンサ位置情報とを適切に用いて個人を高精度に特定するようにした。すなわち、まず、スタジアム等に設置された受信器から受信したセンサ位置情報を分析し、その分析結果に基づいて撮像装置を選択することにより、映像認識が容易となるような映像を取得するようにした。また、受信器から受信したセンサ位置情報に基づいて、顔識別で用いる辞書を限定するようにした。さらに、受信器から受信した情報と、映像認識によって得られた情報とに矛盾がないかどうか比較するようにした。これにより、高精度に物体を特定し、更には表情などのより詳細な情報を取得することが可能となる。

（第２の実施形態）
本実施形態では、第１の実施形態と同様に、図２に示したスタジアムを想定し、受信器から得られたセンサ位置情報に基づいて、スタジアムの各所に設置されたズームが可能な撮像装置を制御する例について説明する。

図２１は、本実施形態に係る映像認識装置２１００の機能構成例を示すブロック図である。なお、図３と同一の構成については、同一の符号が付されており、基本的な機能は第１の実施形態と同様であるため、説明は省略する。図２１に示すように、本実施形態に係る映像認識装置２１００は、図４に示す構成に対して、さらに撮像装置制御部２１０１を備えている。以下、これらの構成による処理について、図２２のフローチャートを参照しながら説明する。

図２２は、本実施形態に係る映像認識装置２１００のよる全体的な処理手順の一例を示すフローチャートである。なお、図４と同一の処理については、説明を省略する。
ステップＳ４０５により撮像装置が選択されると、ステップＳ２２０１において、撮像装置制御部２１０１は、選択された撮像装置に対して制御信号を送信する。以下、この処理の詳細について説明する。

図２３は、ステップＳ２２０１において、撮像装置制御部２１０１による制御処理の詳細な処理手順の一例を示すフローチャートである。
まず、ステップＳ２３０１において、ステップＳ４０１で取得したセンサ位置情報を用いて、撮像装置のパラメータを制御して初期位置を設定するよう、その撮像装置に対して制御信号を送信する。なお、本実施形態においては、撮像装置のパラメータとは、ズームの倍率とする。なお、ズームを制御する代わりに、センサ位置情報における人物の位置が撮像面の中心に来るように撮像装置をパン・チルト制御するようにしてもよい。また、撮像装置と実際のフィールド上との関係は、予め、実際のフィールド上にマーカーなどを設置することによりキャリブレーションを行っているものとする。

次に、ステップＳ２３０２において、ステップＳ２３０１で初期位置に制御された撮像装置から映像を取得する。そして、ステップＳ２３０３において、ステップＳ２３０２で取得した映像に対して顔検出を実施する。例えば、顔検出の方法としては、例えば非特許文献３に記載の技術を用いる。次に、ステップＳ２３０４において、ステップＳ２３０２で取得した映像に対して人体検出を実施する。人体検出の方法としては、例えば非特許文献１に記載の技術を用いる。

次に、ステップＳ２３０５において、ステップＳ２３０３で行われた顔検出の結果、顔が検出されたかどうかを判定する。この判定の結果、顔が検出されなかった場合は、ステップＳ２３０７に進み、顔が検出された場合には、ステップＳ２３０６へ進む。例えば図２４の映像２４０１のように、顔が小さいために顔を検出できなかったような場合は、ステップＳ２３０７に進む。

次に、ステップＳ２３０６においては、ステップＳ２３０４で行われた人体検出の結果、人体が検出されたかどうかを判定する。この判定の結果、人体が検出されなかった場合は、処理を終了する。つまり、図２４の映像２４０２のように、顔は検出されるが、人体は検出できないような映像を取得することになる。

一方、ステップＳ２３０６の判定の結果、人体が検出された場合は、ステップＳ２３０７へ進み、撮像装置の倍率Ｚを変更するよう制御信号をその撮像装置に送信する。例えば、人体検出結果や顔検出結果から得られる矩形領域の一辺Ｗｄが所定の長さＷｃになるような倍率Ｚに制御する。なお、撮像装置の倍率Ｚは一定値でも構わないが、顔の輪郭が映像外にはみ出してしまう可能性があるので、矩形領域の一辺の最大値Ｗｄ_maxを設定しておき、この矩形領域の一辺の最大値Ｗｄ_maxを超えそうな時には倍率変更を終了するようにしてもよい。

本実施形態では、取得した映像に対して顔検出と人体検出とを実施し、顔や人体が検出されたかどうかの結果に基づいて撮像装置の倍率Ｚを変更することにより、ステップＳ４０７で実施される顔識別に適した映像を取得するようにしている。また、第１の実施形態では、ステップＳ４０７で顔や人体の位置を検出しているが、本実施形態では、ステップＳ４０７で顔や人体の位置検出を省略するようにしてもよい。

以上のように本実施形態では、映像による認識処理とセンサ位置情報とを適切に用いて個人を高精度に特定するようにした。すなわち、センサ位置情報を用いて撮像装置の初期位置を設定した後に映像を取得し、映像に対する顔検出処理を繰り返して撮像装置の倍率等を変更し、顔検出可能な倍率まで撮像装置を制御するようにしている。また、顔検出可能な顔の大きさの映像を取得し、その映像に対して第１の実施形態と同様に顔識別処理を実施するようにしている。これにより、高精度に物体を特定し、更には表情などのより詳細な情報を取得することが可能となる。

（その他の実施形態）
前述した実施形態では、図５の処理において、個々の平均動きベクトル、群の平均動きベクトル及び分散の最大値の３つを算出した。一方、例えば図９に示した手順で、個々の平均動きベクトルによって撮像装置を選択する場合には、図５におけるステップＳ５０２の群の平均動きベクトル算出処理及びＳ５０３の群の分散の最大値の算出処理を省略してもよい。このように、撮像装置をどのような手順で選択するかによって、図５の処理で必要な情報のみを算出し、撮像装置を選択する際に不要な情報の算出を省略してもよい。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

３０１位置情報受信部
３０２位置情報分析部
３０３位置情報記憶部
３０４撮像装置選択部
３０５映像取得部
３０６映像認識部

Claims

物体の位置と前記物体の識別情報と含む位置情報を受信する受信手段と、
前記受信手段によって受信された位置情報を記憶する記憶手段と、
前記受信手段によって受信された現在の位置情報と、前記記憶手段に記憶された過去の位置情報とを分析する分析手段と、
前記分析手段による分析の結果に基づいて、前記物体を撮影している撮像装置を選択する選択手段と、
前記選択手段によって選択された撮像装置から、前記物体を含む映像を取得する取得手段と、
前記取得手段によって取得された映像に対して、前記物体の認識処理を行う認識手段と、
を有することを特徴とする映像認識装置。
前記分析手段は、前記受信手段によって受信された現在の位置情報と、前記記憶手段に記憶された過去の位置情報とを用いて、物体ごとに動きベクトルを算出し、
前記選択手段は、前記算出した動きベクトルに基づいて前記物体ごとに撮像装置を選択することを特徴とする請求項１に記載の映像認識装置。
前記選択手段は、前記動きベクトルと撮像装置の光軸ベクトルとの成す角が最も小さい撮像装置を前記物体ごとに選択することを特徴とする請求項２に記載の映像認識装置。
前記分析手段は、前記受信手段によって受信された現在の位置情報と、前記記憶手段に記憶された過去の位置情報とを用いて、複数の物体からなる群の平均動きベクトルを算出し、
前記選択手段は、前記算出した群の平均動きベクトルに基づいて撮像装置を選択することを特徴とする請求項１に記載の映像認識装置。
前記選択手段は、前記平均動きベクトルと撮像装置の光軸ベクトルとの成す角が最も小さい撮像装置を選択することを特徴とする請求項４に記載の映像認識装置。
前記分析手段は、前記受信手段によって受信された現在の位置情報を用いて、複数の物体の位置の分散の最大値を算出し、
前記選択手段は、前記算出した分散の最大値に基づいて撮像装置を選択することを特徴とする請求項１に記載の映像認識装置。
前記選択手段は、前記分散の最大値の方向ベクトルと撮像装置の光軸ベクトルとの成す角に基づいて撮像装置を選択することを特徴とする請求項６に記載の映像認識装置。
前記認識処理で用いる複数の物体に関する辞書を保持する保持手段をさらに有し、
前記認識手段は、前記受信手段によって受信された位置情報に基づいてを用いて、前記保持手段に保持されている辞書の中から、前記受信手段によって受信された位置情報に係る物体の辞書を選択して認識処理を行うことを特徴とする請求項１〜７の何れか１項に記載の映像認識装置。
前記認識処理で用いる複数の物体に関する辞書を保持する保持手段をさらに有し、
前記認識手段は、前記動きベクトルと撮像装置の光軸ベクトルとから前記映像における前記物体の向きを求め、前記保持手段に保持されている辞書の中から前記物体の向きに対応する辞書を優先的に用いて認識処理を行うことを特徴とする請求項２又は３に記載の映像認識装置。
前記物体は人物であり、
前記認識手段は、前記人物の人体の領域を検出する人体検出、前記人物の顔領域を検出する顔検出、前記人物を特定する個人識別、及び前記人物の顔の表情を認識する表情認識のうち、少なくとも１つの処理を行うことを特徴とする請求項１〜７の何れか１項に記載の映像認識装置。
前記受信手段によって受信された位置情報と、前記認識手段による認識の結果とが対応していない場合に、前記認識手段は、前記位置情報に係る物体の位置と前記物体の識別情報とを前記認識処理により検出された位置と識別情報とに設定することを特徴とする請求項１〜１０の何れか１項に記載の映像認識装置。
前記取得手段によって取得された映像おける顔検出及び人体検出の結果に基づいて、前記選択手段によって選択された撮像装置のパラメータを制御する制御手段をさらに有することを特徴とする請求項１〜１１の何れか１項に記載の映像認識装置。
物体の位置と前記物体の識別情報と含む位置情報を受信する受信工程と、
前記受信工程において受信された位置情報を記憶手段に記憶する記憶工程と、
前記受信工程において受信された現在の位置情報と、前記記憶手段に記憶された過去の位置情報とを分析する分析工程と、
前記分析工程における分析の結果に基づいて、前記物体を撮影している撮像装置を選択する選択工程と、
前記選択工程において選択された撮像装置から、前記物体を含む映像を取得する取得工程と、
前記取得工程において取得された映像に対して、前記物体の認識処理を行う認識工程と、
を有することを特徴とする映像認識方法。
物体の位置と前記物体の識別情報と含む位置情報を受信する受信工程と、
前記受信工程において受信された位置情報を記憶手段に記憶する記憶工程と、
前記受信工程において受信された現在の位置情報と、前記記憶手段に記憶された過去の位置情報とを分析する分析工程と、
前記分析工程における分析の結果に基づいて、前記物体を撮影している撮像装置を選択する選択工程と、
前記選択工程において選択された撮像装置から、前記物体を含む映像を取得する取得工程と、
前記取得工程において取得された映像に対して、前記物体の認識処理を行う認識工程と、
をコンピュータに実行させることを特徴とするプログラム。